CN115100740B - 一种人体动作识别和意图理解方法、终端设备及存储介质 - Google Patents
一种人体动作识别和意图理解方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN115100740B CN115100740B CN202210675830.9A CN202210675830A CN115100740B CN 115100740 B CN115100740 B CN 115100740B CN 202210675830 A CN202210675830 A CN 202210675830A CN 115100740 B CN115100740 B CN 115100740B
- Authority
- CN
- China
- Prior art keywords
- learning
- feature
- action
- sequence
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000009471 action Effects 0.000 claims abstract description 75
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 230000000295 complement effect Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000003993 interaction Effects 0.000 claims abstract description 5
- 238000005457 optimization Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 18
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000002452 interceptive effect Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种人体动作识别和意图理解方法、终端设备及存储介质,方法包括:建立基于非局部特征学习的视频序列时空信息的表示方法;设计能够实现多模态视频序列中层语义特征提取的卷积神经网络,利用注意力机制和跨模态特征交互学习策略对语义特征进行一致互补融合学习;在单动作识别模型基础上,进行动作多特征融合识别。本发明设计了多模态底层时空信息表示、动作判别性特征学习、动作序列识别和意图理解方法,可丰富人工智能领域中对人体行为理解的算法体系,可模块后的集成到现有的智能监控、人机交互等行业领域。
Description
技术领域
本发明涉及人体动作识别技术领域,尤其涉及一种人体动作识别和意图理解方法、终端设备及存储介质。
背景技术
近年来,随着深度学习理论的发展和硬件计算能力的大幅提升,尤其是深度学习框架可以自动学习从底层到高层的特征信息,使得其在人体动作识别领域得到了快速发展。按照视觉传感数据来源的不同,动作识别研究方法主要分为基于视觉单模态学习和多模特征融合学习两类,视频序列的时空信息表示、异构模态的特征提取与高效融合是研究的主要问题,而动作序列的意图理解方法研究相对较少。
长视频序列包含了人体多个动作,而动作主体会根据一系列动作来达到一个阶段性目标。针对长视频序列的动作意图理解,目前研究成果相对较少。一方面是由于人体的长时间动作顺序不固定,并且关于长视频动作序列的训练样本难以获得,另一方面针对序列动作的意图理解算法理论相对缺失。
CN201810848243.9提供了一种人体行为识别方法及系统,可以区分背景视频与包含人体行为视频并识别出其种类的网络,通过运用多任务深度学习方法训练3D卷积神经网路,将多种人体行为属性以及背景视频的固定连续帧数的帧块作为网络的输入,经过3D卷积神经网络训练后完成识别任务。本发明不仅提高了提取特征的效率,而且也提高了对包含背景视频的长视频段的识别能力,以便为智能监控等领域提供更好的技术支撑。
CN201510051252.1 公开了一种基于RGB-D视频的人体行为识别方法,属于计算机视觉的行为识别技术领域。该方法根据RGB-D视频中不同类别的人体行为动作具有不同的运动信息、几何信息和纹理信息,对RGB-D摄像机获取的RGB-D视频分别提取稠密MovingPose特征、SHOPC特征和HOG3D特征,采用边缘限制的多核学习方法对三种特征进行特征融合,最后采用Exemplars-SVM线性分类器对人体行为动作进行判决。相比现有技术,本发明中所采用的提取的三种特征融合后具有光照不变性、尺度不变性和视角不变性,对动作执行者之间的外形差异和行为动作过程差异都具有显著的鲁棒性,在一定程度上能提高人体行为动作的识别准确度。
CN201711162729.9 本发明公开了一种基于深度视频的人体行为识别方法,属于视频信息处理技术领域。本发明方法首先对视频序列的人体目标检测与行为定位,然后对视频的多视角投影形成多视角子视频序列,再对视频进行的动态图编码,之后采用多卷积神经网络模型进行训练提特征,再对特征进行PCA降维处理,最后训练线性支撑向量机分类器,利用支撑向量机分类器获得待测深度视频的行为识别结果;本发明方法从深度图的特点与视频编码的角度出发,充分挖掘图像中的空间信息,降低了处理视频的复杂性,采用的深度学习方法提供了强的特征表达能力,相对于现有其他的传统方法,该方法在算法复杂性、特征表达与识别精度上具有明显的优势。
CN201810848243.9提供了一种人体行为识别方法及系统,可以区分背景视频与包含人体行为视频并识别出其种类的网络,通过运用多任务深度学习方法训练3D卷积神经网路,将多种人体行为属性以及背景视频的固定连续帧数的帧块作为网络的输入,经过3D卷积神经网络训练后完成识别任务。本发明不仅提高了提取特征的效率,而且也提高了对包含背景视频的长视频段的识别能力,以便为智能监控等领域提供更好的技术支撑。
目前国内外已经展开了基于视觉的人体意图理解方法研究,并在视觉动作与情绪识别方面得到较好结果。但在已经开展的序列动作识别工作中,大多是分别识别或者离散识别,是人体动作识别方法的延续和扩展,使模型的判别性和适用性得到一定程度提升。但由于其序列动作的意图理解需要考虑动作之间的逻辑隐性关联特征,使其研究方法本身具有定义的模糊性和局限性。此外,在动作序列的识别中,研究人员主要关注模型识别率和鲁棒性的能力提升,并没有考虑序列动作之间的高层语义逻辑关联特征和动作识别模型在实际应用场景下的意图理解适应性问题。
目前的人体动作识别和意图理解研究主要集中在RGB视频图像、深度图像序列和骨架信息等方面。多模态数据为动作的高效识别提供了丰富的时空信息,但各模态数据的固有缺点给多样化、精准化的动作识别方法研究带来了严峻挑战,例如RGB图像易受光照遮挡等因素干扰、深度图分辨率低且噪声跳跃等。此外,基于视觉模态的动作识别还容易受到训练样本数量多少和质量等因素的影响,且长视频动作序列样本的缺失(例如序列动作:“打开冰箱”->“拿出矿泉水”,可以推断出用户要“喝水”),使得序列动作的意图理解方法研究也受到了严重制约。
发明内容
有鉴于现有技术基于序列动作的意图理解方法研究也受到了严重制约得问题。为提升动作识别方法的准确率和泛化性能,以及研究序列动作意图理解的有效性,可以对同一动作的多模态一致互补信息进行充分特征融合学习,并设计高效鲁棒的识别、推理模型来促进理论体系的建立和技术应用。本发明的第一方面提供一种人体动作序列识别与意图理解方法,方法包括:
S1、建立基于非局部特征学习的视频序列时空信息的表示方法;
S2、设计能够实现多模态视频序列中层语义特征提取的卷积神经网络,并利用跨模态特征补偿学习策略对语义特征进行一致互补融合学习;
S3、在单动作识别模型基础上,进行动作多特征融合识别。
进一步地,所述S1,具体步骤为:
S11、分别对时空信息进行提取,将RGB视频帧和深度图像序列分别压缩为3通道和单通道的伪图像特征图,组成原始数据底层视觉时空信息表示;
S12、分别对每个类别的伪图像特征图进行非局部优化学习。
进一步地,所述伪图像特征图表示为:
其中为输入视频帧图像序,/>表示优化学习到的估计参数,/>和/>为正则化和网络单元激活函数;采用非局部的优化方法,对所述伪图像特征图进行特征位置关联信息学习,表示为:
其中为特征值归一化函数;/>为学习到的关联信息特征图,设定计算得到I个特征图,则0<i<=I,j为遍历0到I的所有整数值。
进一步地,采用注意力机制方法,学习到的关联信息特征图依次进行残差加权处理,经过非局部优化学习后的特征图可以表示为:
其中为优化学习的张量矩阵。
进一步地,所述S2包括:
S21、通过非局部优化来对视频图像序列进行底层时空信息表示;
S22、通过多流基网络分别对视频图像序列进行不同模态的中层判别语义特征的优化学习;
S23、对视频图像序列进行高层语义特征融合学习。
进一步地,其特征在于,所述高层语义特征融合表示为:
其中为可学习的卷积核,/>表示高层语义特征的顺序联结,为特征学习函数。
进一步地,所述S3包括:
S31、设计多流网络模型分别进行单一动作的特征学习和识别,设计路由学习模块来学习序列动作的中层语义逻辑关联特征;
S32、对其序列动作高层语义特征进行非局部优化融合学习。
进一步地,在所述路由学习模块中,将多动作中层语义特征降维和重定向到各动作信息流,利用卷积优化和残差学习机制,将信息流描述为:
其中和/>表示序列动作的中层语义信息,/>为多任务特征关联信息的调整系数,/>为交叉特征学习;从所述信息流中学习到的动作序列逻辑关联特征表示为:
其中表示特征流融合学习,完成各动作类别的判别后,将多标签和多流特征信息进行全局重定向关联学习。
在本发明的第二方面,本发明提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面及第一方面的可能实现方式所述的方法。
在本发明的第二方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面及第一方面的可能实现方式所述的方法。
本发明的有益技术效果至少在于以下几点:
(1)本发明设计了多模态底层时空信息表示、动作判别性特征学习、动作序列识别和意图理解方法,可丰富人工智能领域中对人体行为理解的算法体系;
(2)模块后的集成可以应用到现有的智能监控、人机交互等行业领域。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图:
图1是本发明人体动作序列识别的意图理解流程图的示意图;
图2是本发明视频图像序列非局部优化时空信息示意图;
图3是本发明跨模态非局部优化人体动作识别方法示意图;
图4是本发明非局部优化补偿特征学习模块示意图;
图5是本发明多任务学习的人体动作序列识别与意图理解示意图;
图6是本发明特征路由模块和关联逻辑特征学习方法示意图。
具体实施方式
下面对本发明的实施例作详细说明,下述的实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提出了一种人体动作序列识别与意图理解方法,包括:
S1、建立基于非局部特征学习的视频序列时空信息的表示方法;
S2、设计能够实现多模态视频序列中层语义特征提取的卷积神经网络,利用注意力机制和跨模态特征交互学习策略对语义特征进行一致互补融合学习;
S3、在单动作识别模型基础上,进行动作多特征融合识别。
如图1所示,为本发明的整体发明流程图。
一、建立基于非局部特征学习的视频序列时空信息的表示方法
对输入的RGB和深度图像序列,首先分别提取其时空信息,将RGB视频帧和深度图像序列分别压缩为3通道和单通道的伪图像特征图,组成丰富的原始数据底层视觉时空信息表示;再分别对每个类别的伪图像特征图进行非局部优化学习,其过程描述如图2所示。
给定视觉模态图像序列为了避免网络模型参数量过大,其中/>表示图像视频中的单一视频帧,/>分别表示视频序列包含的视频帧数量和单一视频帧的高度、宽度、通道数。
首先通过三维卷积来进行视频图像序列的降维处理和时空特征表示,使得输入视频帧图像序列/>可以表示为与RGB图像通道数量、宽度和高度一致的伪图像:
(1)
其中是输入视频图像序列/>的时空信息表示,/>表示优化学习到的估计参数,/>和/>为正则化和网络单元激活函数。
采用非局部优化方法,对伪图像进行特征点位置关联信息学习,则可定义:
(2)
其中为特征值归一化函数;/>为学习到的关联信息特征图,设定计算得到I个特征图,则0<i<=I,j为遍历0到I的所有整数值;/>,表示非局部特征学习函数(T表示矩阵的转置),/>,/>和/>,/>、/>和/>为优化学习到的张量矩阵。考虑到参数和优化学习的简便性和易用性,分别选择可优化学习的/>卷积核作为/>、/>和/>的估计参数,并定义:
(3)
则可将公式(2)转化为:
(4)
采用期望化运算求解,可获得能很好表示特征点位置关联信息的特征图。其中,softmax()为概率得分计算函数。
为了避免原始时空特征信息丢失,采用注意力机制方法,特征图依次进行残差加权处理,则经过非局部优化学习后的特征图可以表示为:
(5)
其中,为计算得到的特征图、/>为优化学习的张量矩阵、/>为输入的特征图张量信息。
对视频图像序列的不同模态数据,分别利用上述的非局部优化时空信息表示,得到其对应的底层描述性时空特征。
设计能够实现多模态视频序列中层语义特征提取的卷积神经网络,并利用跨模态特征补偿学习策略对语义特征进行一致互补融合学习,从而提升单一动作的识别效率和鲁棒性能。
人体动作的不同模态数据特征具有高度一致性和互补性,通过非局部优化方法得到视频图像序列的底层时空视觉描述性特征,考虑采用多流网络分别学习多模态判别性中层语义特征,并设计跨模态高层语义特征融合方法,其信息流及特征学习模型如图3所示:
首先通过非局部优化来对视频图像序列进行底层时空信息表示,并通过多流基网络分别进行不同模态的中层判别语义特征优化学习,然后对其进行高层语义特征融合学习,过程描述如下:
定义和/>为从不同信息流学习到的中层语义特征,利用非局部优化学习和注意力机制,将信息流描述为:
(6)
(7)
其中和/>表示非局部化学习到的特征信息,特征学习函数/>的非局部优化过程如图4所示:
其中和/>表示多模态信息流中层语义特征,/>,/>。通过非局部优化补偿学习后可得到:
(8)
(9)
从而得到以下高层语义特征融合:
(10)
其中为可学习的卷积核,/>表示高层语义特征的顺序联结。
利用目标优化函数对类动作进行优化学习:
(11)
对公式(11)进行最优化求解,得到其对应的动作类别信息。其中,为算法模型的整体优化损失函数,/>为优化所学习到的优化张量矩阵;/>表示偏置项,一般情况下为常数。
三、在单动作识别模型基础上,进行动作多特征融合识别
人体序列动作的数据特征具有关联性和逻辑性,通过所提方法得到视频图像序列的底层时空视觉描述性特征,考虑采用多流网络进行多动作判别特征学习,并设计跨动作语义关联信息学习模块,其网络模型如图5所示。
首先设计多流网络模型分别进行单一动作的特征学习和识别,设计路由学习模块(Multiplexer)来学习序列动作的中层语义逻辑关联特征,然后对其序列动作高层语义特征进行非局部优化融合学习。
设计多任务关联信息路由学习模块,将多动作中层语义特征降维和重定向到各动作信息流。定义和/>为从不同动作信息流学习到的中层语义特征,利用卷积优化和残差学习机制,将信息流描述为:
(12)
(13)
其中和/>表示序列动作的中层语义信息,/>为多任务特征关联信息的调整系数,交叉特征学习函数/>的优化过程如图6所示:
(14)
其中表示从各信息流中学习到的动作序列逻辑关联特征,/>表示特征流融合学习,完成各动作类别的判别后,将多标签和多流特征信息进行全局重定向关联学习,最终实现人体动作序列的意图理解。
本发明还提供了一种人体动作识别和意图理解方法的终端设备。
本发明基于人体动作识别和意图识别方法的终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别和意图理解程序,所述人体动作识别和意图理解的程序程序被所述处理器执行时实现如上所述的人体动作识别和意图理解方法步骤。
其中,在所述处理器上运行的人体动作识别和意图理解程序被执行时所实现的方法可参照本发明人体动作识别和意图理解方法各个实施例,在此不再赘述。
此外本发明实施例还提出一种计算机可读存储介质。
本发明计算机可读存储介质上存储有人体动作识别和意图理解程序,所述人体动作识别和意图理解程序被处理器执行时实现如上所述的人体动作识别和意图理解方法的步骤。
其中,在所述处理器上运行的人体动作识别和意图理解程序被执行时所实现的方法可参照本发明人体动作识别和意图理解方法各个实施例,在此不再赘述。
综上所述,本发明通过对采集的RGB和depth等多模态视频序列进行时空信息表示、动作序列识别、多任务深度学习模型训练与动作序列的意图理解,提供一种端到端的动作序列识别和意图理解框架。与现有技术相比,本发明设计了多模态底层时空信息表示、动作判别性特征学习、动作序列识别和意图理解方法,可丰富人工智能领域中对人体行为理解的算法体系,可模块后的集成到现有的智能监控、人机交互等行业领域。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (6)
1.一种人体动作序列识别与意图理解方法,其特征在于,包括:
S1、建立基于非局部特征学习的视频序列时空信息的表示方法;
S2、设计能够实现多模态视频序列中层语义特征提取的卷积神经网络,并利用注意力机制和跨模态特征交互学习策略对语义特征进行一致互补融合学习;
所述S2包括:
S21、通过非局部优化来对视频图像序列进行底层时空信息表示;
S22、通过多流基网络分别对视频图像序列进行不同模态的中层判别语义特征的优化学习;
S23、对视频图像序列进行高层语义特征融合学习,所述高层语义特征融合表示为:
其中为可学习的卷积核,/>表示高层语义特征的顺序联结,为特征学习函数;
S3、在单动作识别模型基础上,进行动作多特征融合识别;
所述S3包括:
S31、设计多流网络模型分别进行单一动作的特征学习和识别,设计路由学习模块来学习序列动作的中层语义逻辑关联特征;其中,在所述路由学习模块中,将多动作中层语义特征降维和重定向到各动作信息流,利用卷积优化和残差学习机制,将信息流描述为:
其中和/>表示序列动作的中层语义信息,/>为多任务特征关联信息的调整系数,/>为交叉特征学习;从所述信息流中学习到的动作序列逻辑关联特征表示为:
其中表示特征流融合学习,完成各动作类别的判别后,将多标签和多流特征信息进行全局重定向关联学习;
S32、对其序列动作高层语义特征进行非局部优化融合学习。
2.根据权利要求1所述的一种人体动作序列识别与意图理解方法,其特征在于,所述S1,具体步骤为:
S11、分别对时空信息进行提取,将RGB视频帧和深度图像序列分别压缩为3通道和单通道的伪图像特征图,组成原始数据底层视觉时空信息表示;
S12、分别对每个类别的伪图像特征图进行非局部优化学习。
3.根据权利要求2所述的一种人体动作序列识别与意图理解方法,其特征在于,所述伪图像特征图表示为:
其中为输入视频帧图像序,/>表示优化学习到的估计参数,/>和/>为正则化和网络单元激活函数;采用非局部的优化方法,对所述伪图像特征图进行特征位置关联信息学习,表示为:
其中为特征值归一化函数;/>为学习到的关联信息特征图,设定计算得到I个特征图,则0<i<=I,j为遍历0到I的所有整数值。
4.根据权利要求3所述的一种人体动作序列识别与意图理解方法,其特征在于,采用注意力机制方法,所述学习到的关联信息特征图依次进行残差加权处理,经过非局部优化学习后的特征图可以表示为:
其中为优化学习的张量矩阵。
5.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210675830.9A CN115100740B (zh) | 2022-06-15 | 2022-06-15 | 一种人体动作识别和意图理解方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210675830.9A CN115100740B (zh) | 2022-06-15 | 2022-06-15 | 一种人体动作识别和意图理解方法、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115100740A CN115100740A (zh) | 2022-09-23 |
CN115100740B true CN115100740B (zh) | 2024-04-05 |
Family
ID=83291771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210675830.9A Active CN115100740B (zh) | 2022-06-15 | 2022-06-15 | 一种人体动作识别和意图理解方法、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115100740B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116434335B (zh) * | 2023-03-30 | 2024-04-30 | 东莞理工学院 | 动作序列识别和意图推断方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711277A (zh) * | 2018-12-07 | 2019-05-03 | 中国科学院自动化研究所 | 基于时空频域混合学习的行为特征提取方法、系统、装置 |
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
CN111126488A (zh) * | 2019-12-24 | 2020-05-08 | 威创集团股份有限公司 | 一种基于双重注意力的图像识别方法 |
US10713493B1 (en) * | 2020-02-06 | 2020-07-14 | Shenzhen Malong Technologies Co., Ltd. | 4D convolutional neural networks for video recognition |
CN111709304A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 一种基于时空注意力增强特征融合网络的行为识别方法 |
CN112241939A (zh) * | 2020-10-15 | 2021-01-19 | 天津大学 | 一种基于多尺度和非局部的轻量去雨方法 |
CN112257526A (zh) * | 2020-10-10 | 2021-01-22 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN114332573A (zh) * | 2021-12-18 | 2022-04-12 | 中国科学院深圳先进技术研究院 | 基于注意力机制的多模态信息融合识别方法及系统 |
WO2022110158A1 (en) * | 2020-11-30 | 2022-06-02 | Intel Corporation | Online learning method and system for action recongition |
CN114596520A (zh) * | 2022-02-09 | 2022-06-07 | 天津大学 | 一种第一视角视频动作识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220164569A1 (en) * | 2020-11-26 | 2022-05-26 | POSTECH Research and Business Development Foundation | Action recognition method and apparatus based on spatio-temporal self-attention |
-
2022
- 2022-06-15 CN CN202210675830.9A patent/CN115100740B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711277A (zh) * | 2018-12-07 | 2019-05-03 | 中国科学院自动化研究所 | 基于时空频域混合学习的行为特征提取方法、系统、装置 |
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
CN111126488A (zh) * | 2019-12-24 | 2020-05-08 | 威创集团股份有限公司 | 一种基于双重注意力的图像识别方法 |
US10713493B1 (en) * | 2020-02-06 | 2020-07-14 | Shenzhen Malong Technologies Co., Ltd. | 4D convolutional neural networks for video recognition |
CN111709304A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 一种基于时空注意力增强特征融合网络的行为识别方法 |
CN112257526A (zh) * | 2020-10-10 | 2021-01-22 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN112241939A (zh) * | 2020-10-15 | 2021-01-19 | 天津大学 | 一种基于多尺度和非局部的轻量去雨方法 |
WO2022110158A1 (en) * | 2020-11-30 | 2022-06-02 | Intel Corporation | Online learning method and system for action recongition |
CN114332573A (zh) * | 2021-12-18 | 2022-04-12 | 中国科学院深圳先进技术研究院 | 基于注意力机制的多模态信息融合识别方法及系统 |
CN114596520A (zh) * | 2022-02-09 | 2022-06-07 | 天津大学 | 一种第一视角视频动作识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
Cross-Modality Compensation Convolutional Neural Networks for RGB-D Action Recognition;Jun Cheng et al.;《IEEE Transactions on Circuits and Systems for Video Technology》;第32卷(第3期);第1498-1509页 * |
RGB-D Human Action Recognition of Deep Feature Enhancement and Fusion Using Two-Stream ConvNet;Yun Liu et al.;《Journal of Sensors》;第2021卷;第1-10页 * |
基于双流网络融合与时空卷积的人体行为识别;秦悦 等;《计算技术与自动化》;第40卷(第2期);第140-147页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115100740A (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322446B (zh) | 一种基于相似性空间对齐的域自适应语义分割方法 | |
CN111860162B (zh) | 一种视频人群计数系统及方法 | |
CN110276765B (zh) | 基于多任务学习深度神经网络的图像全景分割方法 | |
CN107403426B (zh) | 一种目标物体检测方法及设备 | |
CN114596520A (zh) | 一种第一视角视频动作识别方法及装置 | |
Lai et al. | Real-time micro-expression recognition based on ResNet and atrous convolutions | |
CN113378641B (zh) | 基于深度神经网络和注意力机制的手势识别方法 | |
CN111462192A (zh) | 一种人行道扫地机器人时空双流融合卷积神经网络动态避障方法 | |
CN114332573A (zh) | 基于注意力机制的多模态信息融合识别方法及系统 | |
CN115100740B (zh) | 一种人体动作识别和意图理解方法、终端设备及存储介质 | |
CN116235209A (zh) | 稀疏光流估计 | |
CN113920170A (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN113850135A (zh) | 一种基于时间移位框架的动态手势识别方法及系统 | |
CN113393496A (zh) | 一种基于时空注意力机制的目标跟踪方法 | |
Liu et al. | Data augmentation technology driven by image style transfer in self-driving car based on end-to-end learning | |
CN113705384B (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 | |
CN114818989A (zh) | 基于步态的行为识别方法、装置、终端设备及存储介质 | |
CN113489958A (zh) | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 | |
Lin et al. | The development of llms for embodied navigation | |
CN116797799A (zh) | 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
CN115393400A (zh) | 一种单样本学习的视频目标跟踪方法 | |
CN113469018B (zh) | 基于rgb与三维骨骼的多模态交互行为识别方法 | |
CN114910071A (zh) | 一种基于物体偏见修正与有向注意力图的物体导航方法 | |
CN113963021A (zh) | 一种基于时空特征和位置变化的单目标跟踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |