CN115457433A - 注意力检测方法、装置及存储介质 - Google Patents
注意力检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115457433A CN115457433A CN202211036063.3A CN202211036063A CN115457433A CN 115457433 A CN115457433 A CN 115457433A CN 202211036063 A CN202211036063 A CN 202211036063A CN 115457433 A CN115457433 A CN 115457433A
- Authority
- CN
- China
- Prior art keywords
- order
- vector
- behavior feature
- order behavior
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 113
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 486
- 238000000034 method Methods 0.000 claims abstract description 96
- 230000009471 action Effects 0.000 claims abstract description 64
- 238000012512 characterization method Methods 0.000 claims description 73
- 238000012545 processing Methods 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 45
- 238000009826 distribution Methods 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 12
- 238000007499 fusion processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006399 behavior Effects 0.000 description 429
- 230000006870 function Effects 0.000 description 59
- 230000003542 behavioural effect Effects 0.000 description 37
- 239000011159 matrix material Substances 0.000 description 35
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 13
- 210000003128 head Anatomy 0.000 description 12
- 206010048232 Yawning Diseases 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 11
- 241001282135 Poromitra oscitans Species 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000013145 classification model Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000004397 blinking Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 230000004886 head movement Effects 0.000 description 4
- 230000004580 weight loss Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 230000004424 eye movement Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001802 infusion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Social Psychology (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Psychiatry (AREA)
- Economics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种注意力检测方法、装置及存储介质。该方法包括:获取目标的动作视频;根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;根据所述至少一个第一高阶行为特征向量得到所述目标的注意力值。本申请实施例,通过获取目标的动作视频,并根据动作视频检测出目标的高阶行为特征向量,进而根据该高阶行为特征向量得到目标的注意力值。采用该手段,由于高阶行为特征与注意力值之间具有显著的关联性,因此相较于现有技术基于低阶特征得到注意力值,本方案采用基于高阶行为特征来得到注意力值,使得注意力的检测更加准确、精度更高。
Description
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种注意力检测方法、装置及存储介质。
背景技术
在传统的线下课堂中,老师通过观察学生表情和状态,判断学生是否在专心听讲、是否跟上讲课进度,进而实时调整教课方案,保证教学质量与效率。然而,在线上课堂中,老师无法留意到学生注意力状态,教学方式以单向灌输为主,教学质量无法保证;甚至线下课堂中,老师也可能会无法留意到学生注意力状态。因此,通过预测学生注意力,可以对于线上或线下课堂师生互动,学生总结和家长反馈有关键的作用。
现有的对学生上课注意力检测的方法主要是通过视频信号学习低阶特征(例如眼睛注视坐标和头部转动角度坐标)建模实现的。基本的步骤如下:1)通过摄像头记录学生上课过程中的视频;2)提取学生当前视频片段(例如15秒的片段);3)在视频片段中,提取学生的低阶特征,例如眼睛注视坐标,面部特征点,头部转动角度坐标和肢体关键点坐标等;4)将提取出的学生行为特征建立机器学习模型,例如基本分类器(支持向量机)或深度学习网络,得出当前学生的注意力的预测值。
由于低阶特征的提取,例如眼睛注视点坐标的提取受到硬件设备条件的影响可能不准确。例如实际应用中视线的跟踪经常受到眼镜等穿戴物的影响。如果不能确定屏幕的摆放位置就无法获得视线在屏幕上的落点,就无法判断用户是否在观看屏幕上的内容,依靠类似低阶特征预测注意力的模型将无法正常工作。因此基于低阶特征进行注意力检测导致准确性不高。
发明内容
本申请公开了一种注意力检测方法、装置及存储介质,可以提高注意力检测的准确度。
第一方面,本申请实施例提供一种注意力检测方法,包括:
获取目标的动作视频;
根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
根据所述至少一个第一高阶行为特征向量得到所述目标的注意力值。
本申请实施例,通过获取目标的动作视频,并根据动作视频检测出目标的高阶行为特征向量,进而根据该高阶行为特征向量得到目标的注意力值。采用该手段,由于高阶行为特征与注意力值之间具有显著的关联性,因此相较于现有技术基于低阶特征得到注意力值,本方案采用基于高阶行为特征来得到注意力值,使得注意力的检测更加准确、精度更高。
在一种可能的实现方式中,所述方法还包括:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述根据所述至少一个第一高阶行为特征向量预测得到所述目标的注意力值,包括:
将所述至少一个第一高阶行为特征向量和所述低阶行为特征向量进行融合处理,以得到融合后的行为特征向量;
根据所述融合后的行为特征向量得到所述目标的注意力值。
采用该手段,由于高阶行为特征与注意力值之间具有显著的关联性,因此相较于现有技术基于低阶行为特征来得到注意力值,本方案基于高阶行为特征和低阶行为特征综合来得到注意力值,使得注意力的检测更加准确、精度更高。
在一种可能的实现方式中,所述根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,包括:
根据所述动作视频得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量和预设数值向量得到至少一个第一高阶表征向量,所述至少一个第一高阶表征向量与所述至少一个第二高阶行为特征向量对应,所述预设数值向量表征所述至少一个第一高阶行为特征向量中任意两个第一高阶行为特征向量之间的相关性;
根据所述至少一个第一高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
其中,通过引入了上述预设数值向量,其代表高阶行为特征之间的依赖关系,这样使得高阶行为特征的预测更加准确。
在一种可能的实现方式中,所述预设数值向量是通过如下方式进行训练得到的:
根据多个动作视频样本得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量与初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本中的第一高阶行为特征标注值构建的。
本方案对于每一种高阶行为特征的检测引入了和其有依赖关系的高阶行为特征的表征向量和检测值进行建模。高阶行为特征之间的依赖关系即上述预设数值向量是基于预设损失函数进行训练,自动学习得到的。通过模型训练得出各高阶行为特征之间的相关性,这样有助于提高检测高阶行为特征的准确度。
在另一种可能的实现方式中,所述预设数值向量是通过如下方式进行训练得到的:
获取多个动作视频样本标注值,并根据所述多个动作视频样本标注值和初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本标注值构建的。
本方案中高阶行为特征之间的依赖关系即上述预设数值向量是基于预设损失函数进行训练,自动学习得到的。通过模型训练得出各高阶行为特征之间的相关性,这样有助于提高检测高阶行为特征的准确度。
在一种可能的实现方式中,所述根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,包括:
根据所述动作视频得到第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
根据所述第二高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
本申请实施例,通过获取目标的动作视频,并根据动作视频检测出第二高阶表征向量,根据第二高阶表征向量得到至少一个第一高阶行为特征向量,进而得到目标的注意力值。采用该手段,由于高阶行为特征与注意力有显著性的关系,通常一种或多种高阶行为特征的出现意味着注意力的变化,通过检测融合了至少一个包含语义信息的行为动作特征的高阶表征向量,能显著提升注意力检测的准确度。
在一种可能的实现方式中,所述目标的注意力值的概率分布为注意力在所述至少一个第一高阶行为特征向量的联合概率分布上的期望,其中,所述目标的注意力值为所述概率分布最大时对应的注意力值。
本方案提出了端到端的贝叶斯模型,检测高阶行为特征和预测学生注意力。通过采样高阶行为特征的联合分布概率得到注意力预测分布的贝叶斯概率公式推导。基于该方式,可以提高注意力预测的精准度。
在一种可能的实现方式中,所述方法还包括:
根据所述至少一个第一高阶行为特征向量得到所述目标的至少一个高阶行为。
本方案通过输出高阶行为,将检测得到的高阶行为特征来为注意力预测值提供可解释性,以提升用户对机器学习模型的信服度,了解学生的多维度信息,帮助学生改善注意力。
第二方面,本申请实施例提供一种注意力检测方法,包括:
获取目标的动作视频;
根据所述动作视频检测出所述目标的第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
根据所述第二高阶表征向量得到所述目标的注意力值。
本申请实施例,通过获取目标的动作视频,并根据动作视频检测出融合了至少一个包含语义信息的行为动作特征的高阶表征向量,根据融合的高阶表征向量得到目标的注意力值。采用该手段,由于高阶行为特征与注意力有显著性的关系,通常一种或多种高阶行为特征的出现意味着注意力的变化,通过检测融合的高阶表征向量,能显著提升注意力检测的准确度。
在一种可能的实现方式中,所述方法还包括:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述根据所述第二高阶表征向量得到所述目标的注意力值,包括:
将所述第二高阶表征向量和所述低阶行为特征向量进行融合处理,以得到融合向量;
根据所述融合向量得到所述目标的注意力值。
本申请实施例,通过获取目标的动作视频,并根据动作视频检测出目标的融合的高阶表征向量以及低阶行为特征向量,根据融合的高阶表征向量以及低阶行为特征得到目标的注意力值。采用该手段,由于高阶行为特征与注意力有显著性的关系,通常一种或多种高阶行为特征的出现意味着注意力的变化。因此,相较于现有技术仅根据低阶行为特征预测注意力值,本方案通过检测融合的高阶表征向量以及低阶行为特征,考虑到影响注意力的多个维度的因素,这样可以显著提升注意力检测的准确度,使得注意力的检测更加准确、精度更高。
在另一种可能的实现方式中,所述方法还包括:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述根据所述第二高阶表征向量得到所述目标的注意力值,包括:
根据所述第二高阶表征向量预测得到至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
根据所述至少一个第一高阶行为特征向量和所述目标的低阶行为特征向量得到所述目标的注意力值。
采用该手段,由于高阶行为特征与注意力有显著性的关系,通常一种或多种高阶行为特征的出现意味着注意力的变化。因此,相较于现有技术仅根据低阶行为特征预测注意力值,本方案通过检测融合的高阶表征向量以及低阶行为特征,考虑到影响注意力的多个维度的因素,这样可以显著提升注意力检测的准确度,使得注意力的检测更加准确、精度更高。
第三方面,本申请实施例提供一种注意力检测装置,包括:
获取模块,用于获取目标的动作视频;
检测模块,用于根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
处理模块,用于根据所述至少一个第一高阶行为特征向量得到所述目标的注意力值。
在一种可能的实现方式中,所述检测模块,还用于:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述处理模块,用于:
将所述至少一个第一高阶行为特征向量和所述低阶行为特征向量进行融合处理,以得到融合后的行为特征向量;
根据所述融合后的行为特征向量得到所述目标的注意力值。
在一种可能的实现方式中,所述检测模块,用于:
根据所述动作视频得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量和预设数值向量得到至少一个第一高阶表征向量,所述至少一个第一高阶表征向量与所述至少一个第二高阶行为特征向量对应,所述预设数值向量表征所述至少一个第一高阶行为特征向量中任意两个第一高阶行为特征向量之间的相关性;
根据所述至少一个第一高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
在一种可能的实现方式中,所述检测模块,用于:
根据多个动作视频样本得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量与初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本中的第一高阶行为特征标注值构建的。
在另一种可能的实现方式中,所述检测模块,用于:
获取多个动作视频样本标注值,并根据所述多个动作视频样本标注值和初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本标注值构建的。
在一种可能的实现方式中,所述检测模块,用于:
根据所述动作视频得到第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
根据所述第二高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
在一种可能的实现方式中,所述目标的注意力值的概率分布为注意力在所述至少一个第一高阶行为特征向量的联合概率分布上的期望,其中,所述目标的注意力值为所述概率分布最大时对应的注意力值。
在一种可能的实现方式中,所述处理模块,还用于:
根据所述至少一个第一高阶行为特征向量得到所述目标的至少一个高阶行为。
第四方面,本申请实施例提供一种注意力检测装置,包括:
获取模块,用于获取目标的动作视频;
检测模块,用于根据所述动作视频检测出所述目标的第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
处理模块,用于根据所述第二高阶表征向量得到所述目标的注意力值。
在一种可能的实现方式中,所述检测模块,还用于:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述处理模块,还用于:
将所述第二高阶表征向量和所述低阶行为特征向量进行融合处理,以得到融合向量;
根据所述融合向量得到所述目标的注意力值。
在另一种可能的实现方式中,所述检测模块,还用于:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述处理模块,还用于:
根据所述第二高阶表征向量预测得到至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
根据所述至少一个第一高阶行为特征向量和所述目标的低阶行为特征向量得到所述目标的注意力值。
第五方面,本申请提供了一种注意力检测装置,包括处理器和通信接口,所述通信接口用于接收和/或发送数据,和/或,所述通信接口用于为所述处理器提供输出和/或输出,所述处理器用于调用计算机指令,以实现如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。
第六方面,本申请提供了一种计算机存储介质,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。
第七方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。
可以理解地,上述提供的第三方面所述的装置、第四方面所述的装置、第五方面所述的装置、第六方面所述的计算机存储介质或者第七方面所述的计算机程序产品均用于执行第一方面中任一所提供的方法以及第二方面中任一所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
附图说明
下面对本申请实施例用到的附图进行介绍。
图1a是本申请实施例提供的一种人工智能主体框架示意图;
图1b是本申请实施例提供的一种注意力检测系统的架构示意图;
图2是本申请实施例提供的一种注意力检测方法的流程示意图;
图3是本申请实施例提供的一种高阶行为特征处理示意图;
图4是本申请实施例提供的另一种高阶行为特征处理示意图;
图5a是本申请实施例提供的一种注意力检测方法的流程示意图;
图5b是本申请实施例提供的一种检测注意力的示意图;
图5c是本申请实施例提供的一种高阶行为关系示意图;
图6a是本申请实施例提供的又一种注意力检测方法的流程示意图;
图6b是本申请实施例提供的一种注意力检测示意图;
图7a是本申请实施例提供的又一种注意力检测方法的流程示意图;
图7b是本申请实施例提供的一种注意力检测示意图;
图7c是本申请实施例提供的又一种注意力检测示意图;
图8是本申请实施例提供的一种注意力检测装置的结构示意图;
图9是本申请实施例提供的另一种注意力检测装置的结构示意图;
图10是本申请实施例提供的又一种注意力检测装置的结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
为了便于理解,以下示例地给出了部分与本申请实施例相关概念的说明以供参考。如下所述:
1.低阶(行为)特征(Low-level Behaviors):指从视频信号中提取的,由数字组成的特征。通常,低阶特征不便于用户理解。一般基于视频片段的嵌入向量来表示视频片段的总体时域和空间特征,眼动特征,面部特征,头动特征和身体姿态特征等低阶特征。其中,眼动特征,面部特征,头动特征和身体姿态特征多以坐标向量表示。例如图片中的边缘坐标,像素坐标,视觉信号中提取的眼睛注视点坐标,头部转动角度坐标等。
2.高阶行为特征(High-level Behavioral Features):指从视频信号中提取的,含有丰富语义信息的行为动作特征。高阶行为特征通常便于用户理解(例如表征打哈欠、闭眼、低头、手部动作、捂脸、环顾四周、身体晃动、记笔记、皱眉、眼睛半闭、频繁眨眼、托腮、躺下、或嘟囔等)。
3.嵌入(Embedding):在本方案中指将数据从原有的向量空间通过运算映射到新的(通常是更低维)向量空间并保留其有效信息,也指映射后得到的新的张量。张量是具有统一类型的多维数组。
4.3D卷积神经网络(Convolutional Neural Network,CNN):一种视频理解(分类)模型,3D CNN架构可以从相邻的视频帧生成多个信息通道,并在每个通道中分别执行卷积和下采样,通过组合来自视频通道的信息获得最终特征表示。
5.激活函数(Activation Function):一种添加到人工神经网络中的函数,作用于加权后的输入,旨在帮助网络学习数据中的复杂的非线性关系。
6.全连接神经网络(Multi-layer Perception Network,MLP):一种基本的人工神经网络类型。全连接神经网络包含多层。网络中的每一层的任意一个节点,都与前一层或后一层的所有节点有连接。即每个节点在进行计算的时候,激活函数的输入是前一层所有节点的加权和。全连接神经网络具有很强的非线性拟合能力,但也存在权重多,计算量大等缺点。
7.卷积神经网络(Convolutional Neural Network,CNN):卷积神经网络是一种具有局部连接,权重共享等特性的深层前馈神经网络。一般是由卷积层,汇聚层,全连接层交叉堆叠而成。相比于全连接神经网络,卷积神经网络的参数量更少,计算量少。常用于视觉信号的处理。
8.交叉熵(Cross Entropy):常被用来作为分类模型的损失函数,因其使用KL离散度而准确的衡量了真实标注与预测结果之间的差距。
9.精度(Accuracy):用来衡量二分类模型精确度的一种指标,定义为预测正确的样本数与总样本数之比。
10.准确率(Precision):用来衡量二分类模型精确度的一种指标,定义为预测正确的正类样本数与预测为正类的总样本数之比。
11.召回率(Recall):用来衡量二分类模型精确度的一种指标,定义为预测正确的正类样本数与总正类样本数之比。
12.F1值(F1 score):用来衡量二分类模型精确度的一种指标,同时兼顾了分类模型的精确率和召回率,计算方式为:正确率*召回率*2/(正确率+召回率)。
13.模型评估指标(area under the curve,AUC):用来衡量二分类模型精确度的一种指标,定义为接受者操作特性曲线(ROC)下方的面积。
14.有向无环图(Directed Acyclic Graph,DAG):一种图结构,由节点和边组成。在有向无环图中,节点与节点的连接是有单一方向性的,并且有向连接的边无法构成闭环。
15.贝叶斯网络(Bayesian Network):一种概率图模型。用于在有向无环图中学习节点所表示的变量间的条件依赖关系。
上述对概念的示例性说明可以应用在下文的实施例中。
图1a示出一种人工智能主体框架示意图,该主体框架描述了人工智能系统总体工作流程,适用于通用的人工智能领域需求。
下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。
“智能信息链”反映从数据的获取到处理的一系列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。
“IT价值链”从人工智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施:
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(中央处理器(CentralProcessingUnit,CPU)、嵌入式神经网络处理器NPU、图形处理器(GraphicsProcessing Unit,GPU)、特殊应用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。
由于现有技术中仅基于低阶特征进行注意力检测,导致注意力预测值准确性不高。有鉴于此,本申请提供一种注意力检测方法、装置及存储介质,由于高阶行为特征与学生的注意力状态相关度更高,通过基于高阶行为特征进行注意力检测,能够提高注意力预测值的准确性。
以下将结合附图,来详细介绍本申请实施例的系统架构和应用场景。请参见图1b,图1b是本申请实施例适用的一种注意力检测系统的示意图,该系统包括电子设备101和服务端102。
本申请实施例示出的电子设备101可以是手持终端、车辆或车载设备(例如车载单元(On Board Unit,OBU))等。或者,电子设备101可以是各种应用场景中的设备,例如移动互联网设备(mobile intemet device,MID)、工业控制(industrial control)中的终端、无人驾驶(self driving)中的无线终端、运输安全(transportation safety)中的终端、物联网(internet ofthings,IoT)系统中的终端、智慧城市(smart city)中的终端或智慧家庭(smart home)中的终端。或者,电子设备101可以是各种网络中的设备,例如长期演进(longterm evolution,LTE)网络或第五代移动通信技术(5th Generation MobileCommunication Technology,5G)网络中的用户设备(user equipment,UE),再如,无线局域网技术(例如,Wi-Fi)中的终端(station,STA)或接入点(Access Point,AP)。
可选的,当电子设备101为手持终端时,可以是手机(mobile phone)、可穿戴设备、平板电脑(pad)或带数据收发功能的电脑(如笔记本电脑、掌上电脑等)等。
可选的,当电子设备101为车辆时,可以是普通车辆,例如乘用车或商用车;也可以是特种车辆(包括但不限于是警车、牵引车或物流专用车辆等)或者救援车辆(包括但不限于是救护车、消防车或救险车等)。
可理解,对于电子设备的具体形态,本申请不作限定。
可选的,电子设备101可以是具有显示屏的任何电子设备,例如,手机、平板电脑等便捷式电子设备,也可以是台式电脑、电视机等非便捷式电子设备,还可以是穿戴电子设备,例如手环、手表等,还可以是车载设备、智能家居设备等,本申请实施例不作限定。
电子设备101可以包括处理器,外部存储器接口,内部存储器,通用串行总线(universal serial bus,USB)接口,充电管理模块,电源管理模块,电池,天线,移动通信模块,无线通信模块,音频模块,扬声器,受话器,麦克风,耳机接口,传感器模块,按键,马达,指示器,摄像头,显示屏,以及用户标识模块(subscriber identification module,SIM)卡接口等。
需要说明的是,电子设备101也可以是不具有显示屏的电子设备,例如,可以是摄像头等图像采集设备等,本方案对此不作具体限定。
可以理解的是,本发明实施例所述的电子设备的结构并不构成对电子设备101的具体限定。在本申请另一些实施例中,电子设备101可以包括比上述结构更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。
服务端102是具有集中计算能力的装置。示例性的,服务端102可以通过服务器、虚拟机、云端或机器人等装置实现。
当服务端102包含服务器时,服务器的类型包含但不限于是通用计算机、专用服务器计算机(例如个人计算机、UNIX服务器等)、刀片式服务器等。本申请对服务端102包含的服务器数量不做严格限制,其数量可以是一个,也可以是多个(如服务器集群等)。
虚拟机是指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的计算模块。当然,除了虚拟机,服务端102还可以通过其他的计算实例来实现,例如容器等。
云端是采用应用程序虚拟化技术的软件平台,能够让一个或者多个软件、应用在独立的虚拟化环境中开发、运行。可选的,当服务端102通过云端来实现时,云端可以部署在公有云、私有云、或者混合云上等。
例如,在在线教学场景中,学生使用电脑、手机、平板或者其他大屏终端设备等学习在线课程或录播课程。该电脑、手机、平板或者其他大屏终端设备等具有摄像头等可获取学生的行为动作影像。进而服务端102通过从该电子设备101获取学生的行为动作影像,进而基于该行为动作影像进行处理,得到学生的注意力值。
在另一种可能的实现方式中,在线下教学场景中,学生现场听老师讲课等。该电子设备101可以是摄像头(与电脑、手机、平板或者其他大屏终端设备独立的摄像头)。例如,摄像头采集学生上课的行为动作影像,进而将获取的行为动作影像发送给服务端102。其还可以是,摄像头采集学生上课的行为动作影像,进而将获取的行为动作影像发送给终端设备,其中,服务端102从终端设备获取相关视频。
本申请实施例,通过获取目标的动作视频,并根据动作视频检测出目标的高阶行为特征向量,进而根据该高阶行为特征向量得到目标的注意力值。采用该手段,由于高阶行为特征与注意力值之间具有显著的关联性,因此相较于现有技术基于低阶特征得到注意力值,本方案采用基于高阶行为特征来得到注意力值,使得注意力的检测更加准确、精度更高。
上面说明了本申请实施例的架构和应用场景,下面对本申请实施例的方法进行详细介绍。
参照图2所示,是本申请实施例提供的一种注意力检测方法的流程示意图。下文以注意力检测方法的步骤201-203的执行主体为服务端(例如服务端102)为例进行描述,对于其他执行主体本申请同样也适用。步骤201-203具体如下:
201、获取目标的动作视频。
该目标可以是学生、工作人员、培训人员等。该目标可以是一个或多个,本方案对此不作具体限定。
该动作视频可以是包含目标的任意行为的视频。例如,可以是学生上课的视频。或者,工作人员工作的视频、培训人员接受培训的视频。或者,还可以是驾驶员的驾驶视频等,本方案对此不作具体限定。
本申请实施例以目标的动作视频为在线课程或录播课程学习时的动作视频,或者还可以是线下教学时的动作视频为例进行介绍。
在一种可能的实现方式中,服务端可以从终端设备获取目标的动作视频。例如,在在线教学场景中,学生使用电脑、手机、平板或者其他大屏终端设备等学习在线课程或录播课程。该电脑、手机、平板或者其他大屏终端设备等具有的摄像头可获取学生的行为动作视频。进而服务端从该电脑、手机、平板或者其他大屏终端设备获取学生的行为动作视频。
在另一种可能的实现方式中,服务端从摄像头获取目标的动作视频。例如,在线下教学场景中,学生现场听老师讲课等。摄像头采集学生上课的行为动作视频,进而将获取的行为动作视频发送给服务端。
在又一种可能的实现方式中,摄像头采集学生上课的行为动作视频,进而将获取的行为动作视频发送给电子设备。这样一来,服务端就可以从电子设备获取相关目标的动作视频。
需要说明的是,本申请实施例仅以教学场景为例来介绍注意力检测的方式,其还可以应用于其他注意力检测场景,例如,在驾驶场景中,车载记录仪可以读取驾驶员的视觉特征,进而监测驾驶状态。例如,若检测到用户存在危险的驾驶行为(如,玩手机,闭眼等),或虽无明显危险行为但注意力下降,则及时提醒驾驶员,防范交通事故。
本方案对该动作视频不作具体限定。
202、根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征。
该至少一个第一高阶行为特征向量,例如指示打哈欠、闭眼、低头、手部动作、捂脸、环顾四周、身体晃动、记笔记、皱眉、眼睛半闭、频繁眨眼、托腮、躺下、或嘟囔等中的至少一项。
下面对检测出所述目标的高阶行为特征向量的可能的实现方式进行介绍。
方式一:根据所述动作视频得到至少一个第二高阶行为特征向量;然后,根据所述至少一个第二高阶行为特征向量和预设数值向量得到至少一个第一高阶表征向量,所述至少一个第一高阶表征向量与所述至少一个第二高阶行为特征向量对应,所述预设数值向量表征所述至少一个第一高阶行为特征向量中任意两个第一高阶行为特征向量之间的相关性;进而,根据所述至少一个第一高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
上述第二高阶行为特征向量,可以是由数字组成的一维向量等。通过以数字的形式来表征高阶行为特征的物理意义。
第一高阶表征向量,可以理解为,其融合了具有相关性(依赖关系)的高阶行为特征所对应的高阶行为特征向量。也就是说,第一高阶表征向量融合了其他高阶行为特征的特点。
上述预设数值向量表征所述至少一个第一高阶行为特征向量中任意两个第一高阶行为特征向量之间的相关性,可以理解为,高阶行为特征之间的影响程度。例如,高阶行为特征a与高阶行为特征b之间的关系权重为0.3,即为高阶行为特征a对高阶行为特征b的影响程度是0.3。高阶行为特征a与高阶行为特征c之间的关系权重为0.1,即为高阶行为特征a对高阶行为特征c的影响程度是0.1。
该预设数值向量,可以是通过模型训练等得出来的。可选的,还可以是预先设置好的数值等,本方案对此不作严格限制。
例如,所述预设数值向量是通过如下方式进行训练得到的:
根据多个动作视频样本得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量与初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本中的第一高阶行为特征标注值构建的。
该预设条件例如可以是损失值达到某预设范围内等,当然还可以是训练次数达到预设次数等,本方案对于训练停止条件不作严格限制。
针对该部分的具体介绍可参阅后续图5a所示实施例的记载,在此不再赘述。
再如,所述预设数值向量是通过如下方式进行训练得到的:
获取多个动作视频样本标注值,并根据所述多个动作视频样本标注值和初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本标注值构建的。
针对该部分的具体介绍可参阅后续图5a所示实施例的记载,在此不再赘述。
如图3所示,为本申请实施例提供的一种第一高阶行为特征向量处理示意图。通过对输入的动作视频X进行处理,得到多个第二高阶行为特征向量h。具体地,可通过将该视频X输入至训练好的模型中进行处理进而得到多个第二高阶行为特征向量。然后,将该多个第二高阶行为特征向量和其分别对应的高阶行为特征之间的相关性进行计算可得到多个第一高阶表征向量z。其中,多个第一高阶表征向量与多个第二高阶行为特征向量对应。进而,基于得到的多个第一高阶表征向量计算对应的第一高阶行为特征向量的预测值即得到多个高阶行为特征向量。
可选的,针对该部分的具体介绍可参阅后续图5a所示实施例的记载,在此不再赘述。
方式二:根据所述动作视频得到第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;然后,根据所述第二高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
该第二高阶表征向量可以理解为,该单个高阶表征向量中包含了多个高阶行为特征的物理意义。
如图4所示,为本申请实施例提供的另一种得到目标的第一高阶行为特征向量的示意图。通过对输入的动作视频X进行处理,得到第二高阶表征向量z。
或者,设定所有的高阶行为特征对应一个W等,本方案对此不作严格限制。
上述介绍几种可能的实现方式,其还可以通过其他方式得到第一高阶行为特征向量,本方案对此不作具体限定。
203、根据所述至少一个第一高阶行为特征向量得到所述目标的注意力值。
注意力值在一定程度上可以反映目标的注意力集中程度。例如,可以将至少一个第一高阶行为特征向量输入到训练好的模型中进而可得到目标的注意力值。
可选的,还可以是根据各个第一高阶行为特征向量的权重值进行计算,根据计算得到的结果与预设的注意力值之间的对应关系得到目标的注意力值。
当然,还可以是基于其他方式得到,本方案对此不作严格限制。
在一种可能的实现方式中,在前述实施例的基础上,所述方法还包括:根据所述至少一个第一高阶行为特征向量得到所述目标的至少一个高阶行为。
该高阶行为例如可以是打哈欠、闭眼、低头、手部动作、捂脸、环顾四周、身体晃动、记笔记、皱眉、眼睛半闭、频繁眨眼、托腮、躺下、或嘟囔等。
例如,通过模型处理的方式得到目标的注意力值时,模型的输出还可以包括目标的高阶行为。
具体地,系统可以发出提示信息“检测到学生走神,因为学生四处观望并且打哈欠等。当然还可以是其他形式,本方案对此不作具体限定。
这样基于检测得到的高阶行为特征向量可以为注意力预测值提供可解释性,以提升用户对机器学习模型的信服度,了解学生的多维度信息,帮助学生改善注意力。
本申请实施例,通过获取目标的动作视频,并根据动作视频检测出目标的高阶行为特征向量,进而根据该高阶行为特征向量得到目标的注意力值。采用该手段,由于高阶行为特征与注意力值之间具有显著的关联性,因此相较于现有技术基于低阶特征得到注意力值,本方案采用基于高阶行为特征来得到注意力值,使得注意力的检测更加准确、精度更高。
在前述实施例的基础上,其中,高阶行为特征,例如左顾右盼,低头,打瞌睡等等,是用户(例如老师和学生)通过学生面部表情,头部动作和身体动作综合判断得到的行为特征。相比于低阶特征,高阶行为特征具有用户易于理解的实际含义。通常,老师和学生通过学生的高阶行为特征判断学生的注意力状态。因此检测高阶行为特征的能力对于注意力检测模型至关重要。
另一方面,仅基于低阶特征进行注意力检测导致准确性不高。基于低阶特征检测注意力造成的准确性不高往往由两个因素导致:1)低阶特征的提取,例如眼睛注视点坐标的提取受到硬件设置条件的影响可能不准确。例如实际应用中视线的跟踪经常受到眼镜等穿戴物的影响。如果不能确定屏幕的摆放位置就无法获得视线在屏幕上的落点,那么就无法判断用户是否在观看屏幕上的内容,依靠类似低阶特征预测注意力的模型将无法正常工作。2)基于低阶特征建立注意力检测模型,忽略了视频数据中的高阶行为特征。通常老师和家长通过学生的高阶行为特征(例如左顾右盼,低头和打瞌睡等)判断学生的注意力状态。并且,高阶行为特征与注意力具有很强的相关性。忽略高阶行为特征会影响注意力检测模型判断注意力的准确性。
在一方面,仅基于低阶特征建模检测注意力缺乏可解释性。从视频图像中提取的低级特征在模型中表现为多维向量与坐标。通常低阶特征的数值与运算过程没有用户易于理解的实际含义,所以难以给模型的预测结果给出合理的解释。预测模型缺乏可解释性或导致用户降低对预测结果的信任,从而无法为用户提供有效的反馈。
为此,参照图5a所示,是本申请实施例提供的另一种注意力检测方法的流程示意图。下文以注意力检测方法的步骤501-504的执行主体为服务端(例如服务端102)为例进行描述,对于其他执行主体本申请同样也适用。步骤501-504具体如下:
501、获取目标的动作视频;
针对该步骤的介绍可参阅前述实施例,在此不再赘述。
502、根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量和低阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
首先对根据所述动作视频检测出所述目标的第一高阶行为特征向量进行介绍。
方式一:根据所述动作视频得到至少一个第二高阶行为特征向量;然后,根据所述至少一个第二高阶行为特征向量和预设数值向量得到至少一个第一高阶表征向量,所述至少一个第一高阶表征向量与所述至少一个第二高阶行为特征向量对应,所述预设数值向量表征所述至少一个第一高阶行为特征向量中任意两个第一高阶行为特征向量之间的相关性;进而,根据所述至少一个第一高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
可选的,如图5b所示,为本申请实施例提供的一种检测注意力的示意图。其中,该示例提供的端到端的注意力模型同时检测高阶行为特征(例如打哈欠)和注意力。模型包含两组参数φ和θ。其中φ用于提取低阶行为特征向量,θ用于提取高阶行为特征向量。下面对该模型训练进行介绍:
首先,将多段动作视频样本随机分成训练集和测试集。在训练集中,将输入的视频片段记为X,将标注的高阶行为特征向量记为Y=(y0,y1,…,y14),该示例以14种高阶行为(例如可以是打哈欠、闭眼、低头、手部动作、捂脸、环顾四周、身体晃动、记笔记、皱眉、眼睛半闭、频繁眨眼、托腮、躺下、或嘟囔等)为例进行说明。其中,yi∈Y表示对应的高阶行为特征标注值。i为0到14之间的整数。y0表示视频片段中是否有高阶行为特征。若至少有一种高阶行为特征,则y0记为1,表示有高阶行为特征。若没有高阶行为特征,则y0记为0,表示没有高阶行为特征。a表示注意力的标注值。在训练中,通过对输入的视频片段进行人工标注注意力值与行为动作,然后训练深度学习模型,根据模型样本的输入与输出训练得到模型参数θ和φ。在测试集中,将输入的视频片段记为将模型检测的高阶行为特征记为将预测的学生注意力值记为测试时,根据输入的视频片段与模型参数θ、φ,得到高阶行为特征预测值和学生注意力预测值
由于该公式(1)中θ的概率分布P(θ|X,Y)和φ的概率分布P(φ|X,Y,a)未知,下面介绍本方案得到模型参数θ、φ的模型架构和训练方法,以及得到注意力预测分布的模型架构和训练方法。
在一种可能的实现方式中,通过建立多标签分类器,学习参数θ用于检测多种高阶行为特征。其中,学生在同一时间可能会有多种高阶行为特征(例如打哈欠和手部动作),因此建立多标签分类器以识别多种高阶行为特征。由于高阶行为特征的发生往往有相互依赖关系,即一种高阶行为特征的发生会影响其他高阶行为特征的发生。例如,记笔记通常会导致低头等。因此,缺少高阶行为特征之间的依赖关系会使模型损失重要的信息,影响模型检测的准确度。基于此,本方案通过自动学习高阶行为特征之间的相关性(依赖关系),以学习高阶行为特征的联合概率分布,即P(y1,y2,…,y14)的算法。
为了学习多标签分类器的参数P(θ|X,Y),本方案使用最大后验概率(Maximum aPosterior Probability,MAP)的方法。由贝叶斯规则推导可知:
P(θ|X,Y,y0)∝P(Y,y0|θ,X)·P(θ)
=P(Y|y0,θ,X)·P(y0|θ,X)·P(θ);(2)
其中,Y=(y1,y2,...,y14),其表征14种高阶行为特征标记。y0表征有无行为特征标记。P(θ)为参数的先验概率,其用于正则化。本方案选用正态分布作为参数θ的先验概率。P(y0|θ,X)表示根据输入视频X和参数θ识别y0(有无高阶行为特征)的二分类器。P(Y|y0,θ,X)表示通过多标签分类器学习14种高阶行为特征的联合分布概率。
基于此,本方案构建如图3所示的深度模型架构。该模型架构包含:1)有无高阶行为特征的二分类识别器3001;2)依赖关系感知的多目标分类器3002。以下分别介绍有无高阶行为特征的二分类识别器3001和依赖关系感知的多目标分类器3002,以及模型训练方法。
下面结合方式一的两种可能的示例进行详细介绍。
示例一:
1)有无高阶行为特征的二分类识别器3001。
定义Z0表示有无高阶行为特征的高阶表征向量。该向量以视频片段X作为输入,通过模型架构和模型参数fθ(X)学习得来。fθ(X)是深度学习神经网络模型。该模型能够将视频片段映射到高阶行为特征的特征向量。其中,模型架构fθ可以有多种选择,例如时间位移模块(Temporal Shift Module,TSM)、3D卷积神经网络Convolutional Neural Network(3DCNN)或时域卷积网络Temporal ConvolutionalNetwork(TCN)等。本实施例选用了TSM模块作为模型架构fθ学习高阶行为特征的特征向量。TSM通过在时间维度上移动部分通道,因此建立了相邻帧之间的信息交换,从而实现了高准确度且低计算成本的视频理解。
其中W0为参数矩阵,Sigmoid为激活函数。
2)依赖关系感知的多目标分类器3002。
为了自动感知高阶行为特征的依赖关系,本方案引入有向无环图DAG关系权重矩阵该关系权重矩阵A也即预设数值向量。其中,d表示高阶行为特征的数量。A矩阵中的元素Aji∈A表示高阶行为特征i对高阶行为特征j的依赖关系程度。Aji越大表示高阶行为特征i对高阶行为特征j的依赖关系程度越高。若Aji=0则表示高阶行为特征i对高阶行为特征j没有依赖关系。
在训练过程中,关系权重矩阵A可以随机初始化,并不断迭代训练,直到收敛,进而学习出高阶行为特征之间的依赖关系。其中,定义表示高阶行为特征i的特征向量。该高阶行为特征i的特征向量以视频片段X作为输入,通过模型架构和模型参数fθ(X)学习得来。fθ(X)是深度学习神经网络模型,能够将视频片段映射到高阶行为特征的特征向量。需要说明的是,模型架构fθ可以有多种选择,例如TSM、3D CNN或TCN等。本实施例选用了TSM模块作为模型架构fθ来学习高阶行为特征的特征向量。TSM通过在时间维度上移动部分通道,因此建立了相邻帧之间的信息交换,从而实现了高准确度且低计算成本的视频理解。
定义Zi表示高阶行为特征i的高阶表征向量。该高阶表征向量Zi融入了自身的特征向量hi(X),以及在关系权重矩阵A中表明的有依赖关系行为的高阶表征向量。定义Z=(Z1,Z2,...,Zn)为高阶表征向量的矩阵。其中n为高阶行为特征的个数。H(X)=(h1(X),h2(X),...,hn(X))为特征向量的矩阵。可选的,Z可以由如下公式得到:
Z=ATZ+H(x);(4)
由公式(4)可得:
Z=(I-AT)H(x);(5)
再如,Z可以表征为特征向量h(x)的函数:
Z=fA(H(x));(6)
再如,基于Z的一般表达式,本实施例采用如下公式计算高阶行为特征i的高阶表征向量Zi:
Zi=ReLU(ATH(x)+hi(x));(7)
以上,通过从视频片段中学习高阶表征向量以及学习关系权重矩阵。如图3所示,对于高阶行为特征1的高阶表征向量Z1的学习,融合了该高阶行为特征的特征向量h1(X)和关系权重矩阵A中表明的该高阶行为特征有依赖关系的高阶行为特征的表征向量(例如h2(X)、h14(X))。
其中,W∈θ为参数矩阵。g为融合函数。该融合函数可以有多种,例如相加与向量连接等。本实施例采用向量相连的方式,即:
g(Z,y0,ATY)=Concat(W1Z,y0,ATY);(9)
以上对两种分类器进行介绍,下面对模型训练的方法进行介绍。
其中,N表示高阶行为特征的数量。
为了训练关系权重矩阵A,本方案采用如下损失函数以确保DAG网络的无环特性。
结合以上各损失函数,多标签分类器的损失函数可表示为:
其中,||A||1为关系权重矩阵中元素的绝对值之和,为了确保关系权重矩阵的稀疏性。λ为实数,用来控制||A||1在损失函数中的权重。
基于前述介绍以及上述损失函数对模型进行训练,通过不断更新迭代,直到收敛,即得到训练好的模型。基于训练好的模型,进而可提取出该目标的高阶行为特征向量。
本方案对于每一种高阶行为特征的检测引入了和其有依赖关系的高阶行为特征的表征向量和检测值进行建模。关系权重矩阵可由关系权重损失函数训练,自动学习。通过模型训练得出各高阶行为特征之间的关系权重(相关性),这样有助于提高检测高阶行为特征的准确度。
以上对方式一中的示例一得到目标的至少一个第一高阶行为特征向量的实现方式进行介绍,以下对利用方式一的示例二得到目标的至少一个第一高阶行为特征向量的实现方式进行介绍。
示例二:
与示例一相同的是,该示例二也是通过建立多标签分类器,学习参数θ用于检测多种高阶行为特征。
示例二与示例一不同的是,其提供另一种得到关系权重矩阵A的实现方式。该示例中模型的输入为视频片段的标注结果X,即输入有标签的视频片段。其中n为视频片段的个数(即样本数量),d为高阶行为特征标注及专注度标注的个数。和示例一相同,示例二中也引入DAG关系权重矩阵其中,d表示高阶行为特征的数量。A矩阵中的元素Aji∈A表示高阶行为特征i对高阶行为特征j的依赖关系程度。Aji越大表示高阶行为特征i对高阶行为特征j的依赖关系程度越高。若Aji=0则表示高阶行为特征i对高阶行为特征j没有依赖关系。
该示例中假设Xi∈X具有以下线性关系:Xij=ATXi+ei。其中ei=(e1,...,ed)为随机噪声向量。数据中的一般条件概率关系则可表示为该示例通过求得以下问题的解,进而得到贝叶斯网络中依赖关系矩阵A的解:
在训练过程中,关系权重矩阵A可以随机初始化,并不断迭代训练,直到收敛,以期学习出高阶行为特征的依赖关系。训练结束后,可将优化完成的关系权重矩阵A裁剪。例如对于A中的每个元素设定阈值,保留较高权重的元素,去掉较低权重的元素,例如该阈值为0.1:
Aij=Aij when|Aij|>0.1 and Aij=0 when|Aij|≤0.1;(15)
然后,将裁减后得到的关系权重矩阵A绘制成关系依赖图,如图5c所示。
从图5c所示关系图可以看出,例如闭眼行为指向眼睛半闭且权重为0.3。该权重为正数,则表明闭眼行为的发生使眼睛半闭发生的概率增加了0.3×100%。
再如,微笑行为指向专注且权重为-0.1。该权重为负数,则表明微笑行为的发生使专注发生的概率减少了|-0.1|×100%,即减少了0.1。以上学习出的关系权重符合预期。
由图5c可得出:以下高阶行为特征的出现(相比于未出现该高阶行为特征)会降低该学生专注的概率:躺下(降低40%),闭眼(降低30%),微笑(降低10%),打哈欠(降低10%),低头(降低20%)。
且图中所显示的高阶行为特征间的部分相关性体现了高阶行为特征本身的特性,大致符合预期。例如,记笔记的行为导致低头与身体晃动的概率分别提高了30%和40%,且导致了频繁眨眼的概率降低了10%。再如,多种包含了手部动作的行为(例如托腮和捂脸)都导致了手部动作概率的提升。
以上,示例二中基于有标签的、标注的视频片段学习关系权重矩阵,进而基于该关系权重矩阵可得到高阶行为特征向量。
本方案中关系权重矩阵可由关系权重损失函数训练,自动学习。通过模型训练得出各高阶行为特征向量之间的关系权重,这样有助于提高检测高阶行为特征的准确度。
以上对利用方式一的两种可能的实现方式进行介绍,以下对利用方式二得到目标的至少一个第一高阶行为特征向量的实现方式进行介绍。
方式二:根据所述动作视频得到第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;然后,根据所述第二高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
如图4所示,首先,构建有无高阶行为特征的二分类识别器4001。针对该部分的介绍可参阅方式一中对有无高阶行为特征的二分类识别器3001的记载,在此不再赘述。
然后,计算第二高阶表征向量z。可选的,z可表示为:Z=fθ(X)。
例如,该示例的模型架构和模型参数fθ(X)可以是和方式一中的模型架构和模型参数fθ(X)相同,本方案对此不作严格限制。
基于上述得到的第二高阶表征向量z,基于多目标分类器4002进而得到多个高阶行为特征的预测值即得到多个高阶行为特征。其中,多目标分类器4002可参阅前述多目标分类器3002的介绍,在此不再赘述。当然,其还可以采用其他多目标分类器,本方案对此不作严格限制。
例如采用如下方式计算得到:
或者,设定所有的高阶行为特征对应一个W等,本方案对此不作严格限制。
上述介绍几种可能的实现方式,其还可以通过其他方式得到高阶行为特征,本方案对此不作具体限定。
下面对根据所述动作视频检测出所述目标的低阶行为特征向量进行介绍。
本方案以视频片段X作为输入来学习对注意力预测有效的低阶特征。基于视频片段的嵌入向量以表示视频片段的总体时域和空间特征,眼动特征,面部特征,头动特征和身体姿态特征等低阶特征。
为了学习视频片段的嵌入向量,本方案采用fφ(X)深度学习神经网络模型将视频片段映射到视频片段的嵌入向量。其中模型架构fφ可以有多种选择,例如时间位移模块TSM、3D CNN或TCN等。例如选用TSM模块作为模型架构fφ学习视频片段的嵌入向量。
基于对模型进行训练,不断迭代更新直到收敛,即得到训练好的模型。通过将前述所述动作视频输入到模型中进而可得到目标的低阶行为特征向量。
503、将所述至少一个第一高阶行为特征向量和所述低阶行为特征向量进行融合处理,以得到融合后的行为特征向量;
该融合处理,可以是直接将特征进行连接,或者通过预设算法进行处理等,例如可以是特征向量相加。本方案对于融合的方式不作具体限定。
504、根据所述融合后的行为特征向量得到所述目标的注意力值。
注意力值在一定程度上可以反映目标的注意力集中程度。下面对步骤504的可能的实现方式进行介绍。
通过对前述公式(1)进行处理,例如去掉对θ和φ的积分,得到如下公式:
由公式(16)可以看出,注意力的预测分布为注意力在高阶行为特征的联合概率分布上的期望。为了优化注意力的预测分布,使用蒙特卡罗(Monte Carlo)的方法,从高阶行为特征的联合概率中采样以近似期望,得到如下公式:
为了优化注意力值,使用二分类交叉熵作为损失函数,具体可表示为:
基于前述公式13和公式19,得到该示例模型的损失函数:
Loss=Lossbehavior+Lossattention;(20)
模型通过反向传播算法来更新神经网络中的参数,使模型在训练集中的损失函数(如公式20)最小化。该实施例中模型参数可采用Adam算法优化。
基于以上算法对模型进行训练,不断迭代更新直到收敛,即得到训练好的模型。通过将前述得到的高阶行为特征和低阶行为特征进行融合,输入到模型中进而可得到目标的注意力值。
其中,通过对本方案进行验证,高阶行为特征预测结果如下表一所示:
表一
该表展示了按照该实施例所示方法得到的其中5种最频繁的学生高阶行为特征的检测结果。结果表明本方案的高阶行为特征检测准确率较高,Precision在87.5%-92.6%之间,Recall在79.1%-92.2%之间,Accuracy达到了87.3%~97.8%。综合比较,有无高阶行为特征检测的Precision和Recall均超过了90%。检测托腮的准确率最高,达到了97.8%。该实验结果表明本方案提出的依赖关系感知的多目标分类器可以准确检测高阶行为特征。
且,通过比较现有技术中仅采用低阶行为特征来检测注意力的方式,本方案考虑了高阶行为特征的方式对应的测试结果对应的精度、准确率、召回率、F1值以及AUC值均远远超出仅采用低阶行为特征的测试结果,如表二所示。
表二
因此,该结果充分表明融入高阶行为特征信息可以有效提升注意力预测的准确性。
由于高阶行为特征与注意力的抽象程度不同。在高阶行为特征的分类中,模型所需要学习的视觉特征较为直观(例如打哈欠和托腮),易于模型根据损失函数进行迭代改进。反观注意力的判断则更加抽象,视觉信息与注意力预测结果之间的关系复杂且模糊,不利于模型的迭代改进。但是当两种预测同时进行,高阶行为特征与注意力之间较为直接的联系显著有利于注意力预测相关参数的收敛,因此高阶行为特征的加入可以增强模型在视频中预测注意力的能力。
在一种可能的实现方式中,所述方法还包括:根据所述至少一个第一高阶行为特征向量得到所述目标的至少一个高阶行为。
该高阶行为例如可以是打哈欠、闭眼、低头、手部动作、捂脸、环顾四周、身体晃动、记笔记、皱眉、眼睛半闭、频繁眨眼、托腮、躺下、或嘟囔等。
例如,通过模型处理的方式得到目标的注意力值时,模型的输出还可以包括目标的高阶行为。
具体地,系统可以发出提示信息“检测到学生走神,因为学生四处观望并且打哈欠等。当然还可以是其他形式,本方案对此不作具体限定。
这样基于检测得到的高阶行为特征可以为注意力预测值提供可解释性,以提升用户对机器学习模型的信服度,了解学生的多维度信息,帮助学生改善注意力。
本申请实施例,通过获取目标的动作视频,并根据动作视频检测出目标的高阶行为特征和低阶行为特征,通过将高阶行为特征和低阶行为特征进行融合,进而得到目标的注意力值。采用该手段,由于高阶行为特征与注意力值之间具有显著的关联性,因此相较于现有技术基于低阶行为特征来得到注意力值,本方案基于高阶行为特征和低阶行为特征综合来得到注意力值,使得注意力的检测更加准确、精度更高。
参照图6a所示,是本申请实施例提供的又一种注意力检测方法的流程示意图。下文以注意力检测方法的步骤601-603的执行主体为服务端(例如服务端102)为例进行描述,对于其他执行主体本申请同样也适用。步骤601-603具体如下:
601、获取目标的动作视频;
针对该部分的介绍可参阅前述实施例中的记载,在此不再赘述。
602、根据所述动作视频检测出所述目标的第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
该第二高阶表征向量可以理解为,该单个高阶表征向量中包含了多个高阶行为特征的物理意义。
如图4所示,通过对输入的动作视频X进行处理,得到第二高阶表征向量z。
或者,设定所有的高阶行为特征对应一个W等,本方案对此不作严格限制。
针对该步骤得到第二高阶表征向量的介绍可参阅前述图2、图5a所示实施例中方式二的记载,在此不再赘述。
603、根据所述第二高阶表征向量得到所述目标的注意力值。
参照图6b所示的模型架构,注意力预测值可表示为:
该示例可以采用图3所示示例中的损失函数来训练模型。例如损失函数为公式(20)等。针对该模型的训练等在此不再赘述。
基于以上算法对模型进行训练,不断迭代更新直到收敛,即得到训练好的模型。通过将得到的融合的高阶表征向量输入到模型中进而可得到目标的注意力值。
可选的,该模型还可以输出多个高阶行为特征预测值等。针对该部分介绍可参阅前述记载,在此不再赘述。
本申请实施例,通过获取目标的动作视频,并根据动作视频检测出融合了至少一个包含语义信息的行为动作特征的高阶表征向量,根据融合的高阶表征向量得到目标的注意力值。采用该手段,由于高阶行为特征与注意力有显著性的关系,通常一种或多种高阶行为特征的出现意味着注意力的变化,通过检测融合的高阶表征向量,能显著提升注意力检测的准确度。
参照图7a所示,是本申请实施例提供的又一种注意力检测方法的流程示意图。下文以注意力检测方法的步骤701-703的执行主体为服务端(例如服务端102)为例进行描述,对于其他执行主体本申请同样也适用。步骤701-703具体如下:
701、获取目标的动作视频;
针对该部分的介绍可参阅前述实施例中的记载,在此不再赘述。
702、根据所述动作视频得到所述目标的低阶行为特征向量和第二高阶表征向量;
针对该步骤根据所述目标的动作视频得到第二高阶表征向量的介绍可参阅前述实施例中的记载,在此不再赘述。
针对该步骤根据目标的动作视频得到低阶行为特征向量的介绍可参阅前述实施例中的记载,在此也不再赘述。
703、根据所述第二高阶表征向量和所述低阶行为特征向量得到所述目标的注意力值。
下面对步骤703的两种实现方式进行介绍。
示例一:
步骤703可包括:
首先,将所述第二高阶表征向量和低阶行为特征向量进行融合处理,以得到融合向量。该融合处理可参阅前述记载,在此不再赘述。然后,根据所述融合向量得到所述目标的注意力值。
可选的,参照图7b所示的模型架构,注意力的预测通过将第二高阶表征向量和低阶特征向量进行融合处理而得到。该注意力预测值可表示为:
该示例可以采用图3所示示例中的损失函数来训练模型。本方案对此不作严格限制。
基于以上算法对模型进行训练,不断迭代更新直到收敛,即得到训练好的模型。通过将融合的高阶表征向量和低阶特征进行融合处理,进而可得到目标的注意力值。
示例二:
参照图7c所示的模型架构,通过根据所述第二高阶表征向量预测得到至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;根据所述至少一个第一高阶行为特征向量和所述目标的低阶行为特征向量得到所述目标的注意力值。
可选的,采用图3所示实施例的方案学习参数φ来提取低阶特征,以及图4所示实施例方式二中针对根据第二高阶表征向量得到多个高阶行为特征的介绍,进而通过结合多个高阶行为特征和目标的低阶行为特征来得到目标的注意力值。例如,可以是结合预设的高阶行为特征的权重等,以及低阶行为特征的权重来计算注意力值。其还可以是采用复杂的数学运算等,或者基于前述的模型训练的方式等来得到注意力值,本方案对此实现方式不作严格限制。
采用该手段,由于高阶行为特征与注意力有显著性的关系,通常一种或多种高阶行为特征的出现意味着注意力的变化。因此,相较于现有技术仅根据低阶行为特征预测注意力值,本方案通过检测融合的高阶表征向量以及低阶行为特征,考虑到影响注意力的多个维度的因素,这样可以显著提升注意力检测的准确度,使得注意力的检测更加准确、精度更高。
需要说明的是,在本申请的各个实施例中,如果没有特殊说明以及逻辑冲突,各个实施例之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。可以理解的,本申请各个装置实施例中,对多个单元或者模块的划分仅是一种根据功能进行的逻辑划分,不作为对装置具体的结构的限定。在具体实现中,其中部分功能模块可能被细分为更多细小的功能模块,部分功能模块也可能组合成一个功能模块,但无论这些功能模块是进行了细分还是组合,装置所执行的大致流程是相同的。例如,一些装置中包含接收单元和发送单元。一些设计中,发送单元和接收单元也可以集成为通信单元,该通信单元可以实现接收单元和发送单元所实现的功能。通常,每个单元都对应有各自的程序代码(或者说程序指令),这些单元各自对应的程序代码在处理器上运行时,使得该单元受处理单元的控制而执行相应的流程从而实现相应功能。
本申请实施例还提供用于实现以上任一种方法的装置,例如,提供一种注意力检测装置包括用以实现以上任一种方法中服务器所执行的各步骤的模块(或手段)。
例如,参照图8所示,是本申请实施例提供的一种注意力检测装置的结构示意图。该注意力检测装置800用于实现前述的注意力检测方法,例如图2、图5a所示的注意力检测方法。
如图8所示,该装置可包括获取模块801、检测模块802和处理模块803,具体如下:
获取模块801,用于获取目标的动作视频;
检测模块802,用于根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
处理模块803,用于根据所述至少一个第一高阶行为特征向量得到所述目标的注意力值。
本申请实施例,通过获取目标的动作视频,并根据动作视频检测出目标的高阶行为特征,进而根据该高阶行为特征得到目标的注意力值。采用该手段,由于高阶行为特征与注意力值之间具有显著的关联性,因此相较于现有技术基于低阶特征得到注意力值,本方案采用基于高阶行为特征来得到注意力值,使得注意力的检测更加准确、精度更高。
在一种可能的实现方式中,所述检测模块802,还用于:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述处理模块803,用于:
将所述至少一个第一高阶行为特征向量和所述低阶行为特征向量进行融合处理,以得到融合后的行为特征向量;
根据所述融合后的行为特征向量得到所述目标的注意力值。
采用该手段,由于高阶行为特征与注意力值之间具有显著的关联性,因此相较于现有技术基于低阶行为特征来得到注意力值,本方案基于高阶行为特征和低阶行为特征综合来得到注意力值,使得注意力的检测更加准确、精度更高。
在一种可能的实现方式中,所述检测模块802,用于:
根据所述动作视频得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量和预设数值向量得到至少一个第一高阶表征向量,所述至少一个第一高阶表征向量与所述至少一个第二高阶行为特征向量对应,所述预设数值向量表征所述至少一个第一高阶行为特征向量中任意两个第一高阶行为特征向量之间的相关性;
根据所述至少一个第一高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
其中,通过引入了高阶行为特征之间的依赖关系,这样使得高阶行为特征的预测更加准确。
在一种可能的实现方式中,所述检测模块802,还用于:
所述预设数值向量是通过如下方式进行训练得到的:
根据多个动作视频样本得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量与初始的数值向量的乘积得到至少一个第一高阶表征向量:
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本中的第一高阶行为特征标注值构建的。
本方案对于每一种高阶行为特征的检测引入了和其有依赖关系的高阶行为特征的表征向量和检测值进行建模。关系权重矩阵可由关系权重损失函数训练,自动学习。通过模型训练得出各高阶行为特征之间的关系权重,这样有助于提高检测高阶行为特征的准确度。
在另一种可能的实现方式中,所述检测模块802,还用于:
获取多个动作视频样本标注值,并根据所述多个动作视频样本标注值和初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本标注值构建的。
本方案中关系权重矩阵可由关系权重损失函数训练,自动学习。通过模型训练得出各高阶行为特征之间的关系权重,这样有助于提高检测高阶行为特征的准确度。
在一种可能的实现方式中,所述检测模块802,用于:根据所述动作视频得到第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
根据所述第二高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
在一种可能的实现方式中,所述目标的注意力值的概率分布为注意力在所述至少一个第一高阶行为特征向量的联合概率分布上的期望,其中,所述目标的注意力值为所述概率分布最大时对应的注意力值。
本方案提出了端到端的贝叶斯模型,检测高阶行为特征和预测学生注意力。通过采样高阶行为特征的联合分布概率得到注意力预测分布的贝叶斯概率公式推导。基于该方式,可以提高注意力预测的精准度。
在一种可能的实现方式中,所述处理模块803,还用于:
根据所述至少一个第一高阶行为特征向量得到所述目标的至少一个高阶行为。
本方案将检测得到的高阶行为特征来为注意力预测值提供可解释性,以提升用户对机器学习模型的信服度,了解学生的多维度信息,帮助学生改善注意力。
针对该各个模块所执行步骤的介绍可参阅前述实施例,在此不再赘述。
参照图9所示,是本申请实施例提供的另一种注意力检测装置的结构示意图。如图9所示,该注意力检测装置900用于实现前述的注意力检测方法,例如图6a、图7a所示的注意力检测方法。
如图9所示,该装置可包括获取模块901、检测模块902和处理模块903,具体如下:
获取模块901,用于获取目标的动作视频;
检测模块902,用于根据所述动作视频检测出所述目标的第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
处理模块903,用于根据所述第二高阶表征向量得到所述目标的注意力值。
在一种可能的实现方式中,所述检测模块902,还用于:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述处理模块903,还用于:
将所述第二高阶表征向量和所述低阶行为特征向量进行融合处理,以得到融合向量;
根据所述融合向量得到所述目标的注意力值。
在一种可能的实现方式中,所述检测模块902,还用于:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述处理模块903,还用于:
根据所述第二高阶表征向量预测得到至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
根据所述至少一个第一高阶行为特征向量和所述目标的低阶行为特征向量得到所述目标的注意力值。
针对该各个模块所执行步骤的介绍可参阅前述实施例,在此不再赘述。
应理解以上各个装置中各模块的划分仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。此外,注意力检测装置中的模块可以以处理器调用软件的形式实现;例如注意力检测装置包括处理器,处理器与存储器连接,存储器中存储有指令,处理器调用存储器中存储的指令,以实现以上任一种方法或实现该装置各模块的功能,其中处理器例如为通用处理器,比如中央处理单元(centralprocessing unit,CPU)或微处理器,存储器为装置内的存储器或装置外的存储器。或者,装置中的模块可以以硬件电路的形式实现,可以通过对硬件电路的设计实现部分或全部单元的功能,该硬件电路可以理解为一个或多个处理器;例如,在一种实现中,该硬件电路为专用集成电路(application-specific integrated circuit,ASIC),通过对电路内元件逻辑关系的设计,实现以上部分或全部单元的功能;再如,在另一种实现中,该硬件电路为可以通过可编程逻辑器件(programmable logic device,PLD)实现,以现场可编程门阵列(field programmable gate array,FPGA)为例,其可以包括大量逻辑门电路,通过配置文件来配置逻辑门电路之间的连接关系,从而实现以上部分或全部单元的功能。以上装置的所有模块可以全部通过处理器调用软件的形式实现,或全部通过硬件电路的形式实现,或部分通过处理器调用软件的形式实现,剩余部分通过硬件电路的形式实现。
参照图10所示,是本申请实施例提供的又一种注意力检测装置的硬件结构示意图。如图10所示的注意力检测装置1000(该装置1000具体可以是一种计算机设备)包括存储器1001、处理器1002、通信接口1003以及总线1004。其中,存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。
存储器1001可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。
存储器1001可以存储程序,当存储器1001中存储的程序被处理器1002执行时,处理器1002和通信接口1003用于执行本申请实施例的注意力检测方法的各个步骤。
处理器1002是一种具有信号的处理能力的电路,在一种实现中,处理器1002可以是具有指令读取与运行能力的电路,例如中央处理单元CPU、微处理器、图形处理器(graphics processing unit,GPU)(可以理解为一种微处理器)、或数字信号处理器(digital singnal processor,DSP)等;在另一种实现中,处理器1002可以通过硬件电路的逻辑关系实现一定功能,该硬件电路的逻辑关系是固定的或可以重构的,例如处理器1002为ASIC或可编程逻辑器件PLD实现的硬件电路,比如FPGA。在可重构的硬件电路中,处理器加载配置文档,实现硬件电路配置的过程,可以理解为处理器加载指令,以实现以上部分或全部模块的功能的过程。此外,还可以是针对人工智能设计的硬件电路,其可以理解为一种ASIC,例如神经网络处理单元(neural network processing unit,NPU)、张量处理单元(tensor processing unit,TPU)、深度学习处理单元(deep learning processing unit,DPU)等。处理器1002用于执行相关程序,以实现本申请实施例的注意力检测装置中的单元所需执行的功能,或者执行本申请方法实施例的注意力检测方法。
可见,以上装置中的各模块可以是被配置成实施以上方法的一个或多个处理器(或处理电路),例如:CPU、GPU、NPU、TPU、DPU、微处理器、DSP、ASIC、FPGA,或这些处理器形式中至少两种的组合。
此外,以上装置中的各模块可以全部或部分可以集成在一起,或者可以独立实现。在一种实现中,这些模块集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。该SOC中可以包括至少一个处理器,用于实现以上任一种方法或实现该装置各模块的功能,该至少一个处理器的种类可以不同,例如包括CPU和FPGA,CPU和人工智能处理器,CPU和GPU等。
通信接口1003使用例如但不限于收发器一类的收发装置,来实现装置1000与其他设备或通信网络之间的通信。例如,可以通过通信接口1003获取数据。
总线1004可包括在装置1000各个部件(例如,存储器1001、处理器1002、通信接口1003)之间传送信息的通路。
应注意,尽管图10所示的装置1000仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,装置1000还包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,装置1000还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,装置1000也可仅仅包括实现本申请实施例所必须的器件,而不必包括图10中所示的全部器件。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。
应理解,在本申请的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,A/B可以表示A或B;其中A,B可以是单数或者复数。并且,在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。同时,在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存取存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。
Claims (25)
1.一种注意力检测方法,其特征在于,包括:
获取目标的动作视频;
根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
根据所述至少一个第一高阶行为特征向量得到所述目标的注意力值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述根据所述至少一个第一高阶行为特征向量预测得到所述目标的注意力值,包括:
将所述至少一个第一高阶行为特征向量和所述低阶行为特征向量进行融合处理,以得到融合后的行为特征向量;
根据所述融合后的行为特征向量得到所述目标的注意力值。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,包括:
根据所述动作视频得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量和预设数值向量得到至少一个第一高阶表征向量,所述至少一个第一高阶表征向量与所述至少一个第二高阶行为特征向量对应,所述预设数值向量表征所述至少一个第一高阶行为特征向量中任意两个第一高阶行为特征向量之间的相关性;
根据所述至少一个第一高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
4.根据权利要求3所述的方法,其特征在于,所述预设数值向量是通过如下方式进行训练得到的:
根据多个动作视频样本得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量与初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本中的第一高阶行为特征标注值构建的。
5.根据权利要求3所述的方法,其特征在于,所述预设数值向量是通过如下方式进行训练得到的:
获取多个动作视频样本标注值,并根据所述多个动作视频样本标注值和初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本标注值构建的。
6.根据权利要求1或2所述的方法,其特征在于,所述根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,包括:
根据所述动作视频得到第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
根据所述第二高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述目标的注意力值的概率分布为注意力在所述至少一个第一高阶行为特征向量的联合概率分布上的期望,其中,所述目标的注意力值为所述概率分布最大时对应的注意力值。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
根据所述至少一个第一高阶行为特征向量得到所述目标的至少一个高阶行为。
9.一种注意力检测方法,其特征在于,包括:
获取目标的动作视频;
根据所述动作视频检测出所述目标的第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
根据所述第二高阶表征向量得到所述目标的注意力值。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述根据所述第二高阶表征向量得到所述目标的注意力值,包括:
将所述第二高阶表征向量和所述低阶行为特征向量进行融合处理,以得到融合向量;
根据所述融合向量得到所述目标的注意力值。
11.根据权利要求9所述的方法,其特征在于,所述方法还包括:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述根据所述第二高阶表征向量得到所述目标的注意力值,包括:
根据所述第二高阶表征向量预测得到至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
根据所述至少一个第一高阶行为特征向量和所述目标的低阶行为特征向量得到所述目标的注意力值。
12.一种注意力检测装置,其特征在于,包括:
获取模块,用于获取目标的动作视频;
检测模块,用于根据所述动作视频检测出所述目标的至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
处理模块,用于根据所述至少一个第一高阶行为特征向量得到所述目标的注意力值。
13.根据权利要求12所述的装置,其特征在于,所述检测模块,还用于:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述处理模块,用于:
将所述至少一个第一高阶行为特征向量和所述低阶行为特征向量进行融合处理,以得到融合后的行为特征向量;
根据所述融合后的行为特征向量得到所述目标的注意力值。
14.根据权利要求12或13所述的装置,其特征在于,所述检测模块,用于:
根据所述动作视频得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量和预设数值向量得到至少一个第一高阶表征向量,所述至少一个第一高阶表征向量与所述至少一个第二高阶行为特征向量对应,所述预设数值向量表征所述至少一个第一高阶行为特征向量中任意两个第一高阶行为特征向量之间的相关性;
根据所述至少一个第一高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
15.根据权利要求14所述的装置,其特征在于,所述检测模块,还用于:
所述预设数值向量是通过如下方式进行训练得到的:
根据多个动作视频样本得到至少一个第二高阶行为特征向量;
根据所述至少一个第二高阶行为特征向量与初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本中的第一高阶行为特征标注值构建的。
16.根据权利要求14所述的装置,其特征在于,所述检测模块,还用于:
获取多个动作视频样本标注值,并根据所述多个动作视频样本标注值和初始的数值向量的乘积得到至少一个第一高阶表征向量;
根据所述至少一个第一高阶表征向量预测得到至少一个第一高阶行为特征预测值;
根据所述至少一个第一高阶行为特征预测值获取损失值,若所述损失值未达到预设条件,调整所述初始的数值向量,并重复执行上述步骤,直到达到所述预设条件,将达到所述预设条件时的数值向量作为所述预设数值向量,其中,所述损失值对应的损失函数是根据所述至少一个第一高阶行为特征预测值和所述多个动作视频样本标注值构建的。
17.根据权利要求12或13所述的装置,其特征在于,所述检测模块,用于:
根据所述动作视频得到第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
根据所述第二高阶表征向量预测得到所述至少一个第一高阶行为特征向量。
18.根据权利要求12至17任一项所述的装置,其特征在于,所述目标的注意力值的概率分布为注意力在所述至少一个第一高阶行为特征向量的联合概率分布上的期望,其中,所述目标的注意力值为所述概率分布最大时对应的注意力值。
19.根据权利要求12至18任一项所述的装置,其特征在于,所述处理模块,还用于:
根据所述至少一个第一高阶行为特征向量得到所述目标的至少一个高阶行为。
20.一种注意力检测装置,其特征在于,包括:
获取模块,用于获取目标的动作视频;
检测模块,用于根据所述动作视频检测出所述目标的第二高阶表征向量,所述第二高阶表征向量表征至少一个包含语义信息的行为动作特征;
处理模块,用于根据所述第二高阶表征向量得到所述目标的注意力值。
21.根据权利要求20所述的装置,其特征在于,所述检测模块,还用于:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述处理模块,还用于:
将所述第二高阶表征向量和所述低阶行为特征向量进行融合处理,以得到融合向量;
根据所述融合向量得到所述目标的注意力值。
22.根据权利要求20所述的装置,其特征在于,所述检测模块,还用于:
根据所述动作视频检测出所述目标的低阶行为特征向量;
所述处理模块,还用于:
根据所述第二高阶表征向量预测得到至少一个第一高阶行为特征向量,所述第一高阶行为特征向量表征包含语义信息的行为动作特征;
根据所述至少一个第一高阶行为特征向量和所述目标的低阶行为特征向量得到所述目标的注意力值。
23.一种注意力检测装置,其特征在于,包括处理器和通信接口,所述通信接口用于接收和/或发送数据,和/或,所述通信接口用于为所述处理器提供输出和/或输出,所述处理器用于调用计算机指令,以实现权利要求1-8任一项所述的方法,和/或权利要求9-11任一项所述的方法。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于实现权利要求1-8任一项所述的方法,和/或权利要求9-11任一项所述的方法。
25.一种计算机程序产品,其特征在于,当计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-8任一项所述的方法,和/或权利要求9-11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211036063.3A CN115457433A (zh) | 2022-08-27 | 2022-08-27 | 注意力检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211036063.3A CN115457433A (zh) | 2022-08-27 | 2022-08-27 | 注意力检测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457433A true CN115457433A (zh) | 2022-12-09 |
Family
ID=84300787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211036063.3A Pending CN115457433A (zh) | 2022-08-27 | 2022-08-27 | 注意力检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457433A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115641570A (zh) * | 2022-12-26 | 2023-01-24 | 中国汽车技术研究中心有限公司 | 驾驶行为确定方法、装置、电子设备和存储介质 |
-
2022
- 2022-08-27 CN CN202211036063.3A patent/CN115457433A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115641570A (zh) * | 2022-12-26 | 2023-01-24 | 中国汽车技术研究中心有限公司 | 驾驶行为确定方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230196117A1 (en) | Training method for semi-supervised learning model, image processing method, and device | |
CN111325258B (zh) | 特征信息获取方法、装置、设备及存储介质 | |
CN111325726A (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
WO2018169708A1 (en) | Learning efficient object detection models with knowledge distillation | |
US10943154B2 (en) | Systems for modeling uncertainty in multi-modal retrieval and methods thereof | |
CN111444826B (zh) | 视频检测方法、装置、存储介质及计算机设备 | |
US20200410338A1 (en) | Multimodal data learning method and device | |
US20220156587A1 (en) | Multi-head deep metric machine-learning architecture | |
CN114332578A (zh) | 图像异常检测模型训练方法、图像异常检测方法和装置 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN113239916B (zh) | 一种表情识别及课堂状态评估方法、设备及介质 | |
US20230097391A1 (en) | Image processing method and apparatus, electronic device, computer-readable storage medium, and computer program product | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN116310318B (zh) | 交互式的图像分割方法、装置、计算机设备和存储介质 | |
CN113392180A (zh) | 文本处理方法、装置、设备及存储介质 | |
Gupta et al. | A multimodal facial cues based engagement detection system in e-learning context using deep learning approach | |
US20230115987A1 (en) | Data adjustment system, data adjustment device, data adjustment method, terminal device, and information processing apparatus | |
CN112419326A (zh) | 图像分割数据处理方法、装置、设备及存储介质 | |
CN115311730A (zh) | 一种人脸关键点的检测方法、系统和电子设备 | |
Thiruthuvanathan et al. | Engagement Detection through Facial Emotional Recognition Using a Shallow Residual Convolutional Neural Networks. | |
CN114722937A (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN113052295A (zh) | 一种神经网络的训练方法、物体检测方法、装置及设备 | |
CN116978565A (zh) | 多模态抑郁症评估方法、装置、电子设备以及存储介质 | |
CN115457433A (zh) | 注意力检测方法、装置及存储介质 | |
CN112819024A (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |