CN115100740B

CN115100740B - 一种人体动作识别和意图理解方法、终端设备及存储介质

Info

Publication number: CN115100740B
Application number: CN202210675830.9A
Authority: CN
Inventors: 任子良; 魏文红; 梁展豪; 李清霞; 朴希南
Original assignee: Dongguan City College; Dongguan University of Technology
Current assignee: Dongguan City College; Dongguan University of Technology
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2024-04-05
Anticipated expiration: 2042-06-15
Also published as: CN115100740A

Abstract

本发明提供了一种人体动作识别和意图理解方法、终端设备及存储介质，方法包括：建立基于非局部特征学习的视频序列时空信息的表示方法；设计能够实现多模态视频序列中层语义特征提取的卷积神经网络，利用注意力机制和跨模态特征交互学习策略对语义特征进行一致互补融合学习；在单动作识别模型基础上，进行动作多特征融合识别。本发明设计了多模态底层时空信息表示、动作判别性特征学习、动作序列识别和意图理解方法，可丰富人工智能领域中对人体行为理解的算法体系，可模块后的集成到现有的智能监控、人机交互等行业领域。

Description

一种人体动作识别和意图理解方法、终端设备及存储介质

技术领域

本发明涉及人体动作识别技术领域，尤其涉及一种人体动作识别和意图理解方法、终端设备及存储介质。

背景技术

近年来，随着深度学习理论的发展和硬件计算能力的大幅提升，尤其是深度学习框架可以自动学习从底层到高层的特征信息，使得其在人体动作识别领域得到了快速发展。按照视觉传感数据来源的不同，动作识别研究方法主要分为基于视觉单模态学习和多模特征融合学习两类，视频序列的时空信息表示、异构模态的特征提取与高效融合是研究的主要问题，而动作序列的意图理解方法研究相对较少。

长视频序列包含了人体多个动作，而动作主体会根据一系列动作来达到一个阶段性目标。针对长视频序列的动作意图理解，目前研究成果相对较少。一方面是由于人体的长时间动作顺序不固定，并且关于长视频动作序列的训练样本难以获得，另一方面针对序列动作的意图理解算法理论相对缺失。

CN201810848243.9提供了一种人体行为识别方法及系统，可以区分背景视频与包含人体行为视频并识别出其种类的网络，通过运用多任务深度学习方法训练3D卷积神经网路，将多种人体行为属性以及背景视频的固定连续帧数的帧块作为网络的输入，经过3D卷积神经网络训练后完成识别任务。本发明不仅提高了提取特征的效率，而且也提高了对包含背景视频的长视频段的识别能力，以便为智能监控等领域提供更好的技术支撑。

CN201510051252.1 公开了一种基于RGB-D视频的人体行为识别方法，属于计算机视觉的行为识别技术领域。该方法根据RGB-D视频中不同类别的人体行为动作具有不同的运动信息、几何信息和纹理信息，对RGB-D摄像机获取的RGB-D视频分别提取稠密MovingPose特征、SHOPC特征和HOG3D特征，采用边缘限制的多核学习方法对三种特征进行特征融合，最后采用Exemplars-SVM线性分类器对人体行为动作进行判决。相比现有技术，本发明中所采用的提取的三种特征融合后具有光照不变性、尺度不变性和视角不变性，对动作执行者之间的外形差异和行为动作过程差异都具有显著的鲁棒性，在一定程度上能提高人体行为动作的识别准确度。

CN201711162729.9 本发明公开了一种基于深度视频的人体行为识别方法，属于视频信息处理技术领域。本发明方法首先对视频序列的人体目标检测与行为定位，然后对视频的多视角投影形成多视角子视频序列，再对视频进行的动态图编码，之后采用多卷积神经网络模型进行训练提特征，再对特征进行PCA降维处理，最后训练线性支撑向量机分类器，利用支撑向量机分类器获得待测深度视频的行为识别结果；本发明方法从深度图的特点与视频编码的角度出发，充分挖掘图像中的空间信息，降低了处理视频的复杂性，采用的深度学习方法提供了强的特征表达能力，相对于现有其他的传统方法，该方法在算法复杂性、特征表达与识别精度上具有明显的优势。

目前国内外已经展开了基于视觉的人体意图理解方法研究，并在视觉动作与情绪识别方面得到较好结果。但在已经开展的序列动作识别工作中，大多是分别识别或者离散识别，是人体动作识别方法的延续和扩展，使模型的判别性和适用性得到一定程度提升。但由于其序列动作的意图理解需要考虑动作之间的逻辑隐性关联特征，使其研究方法本身具有定义的模糊性和局限性。此外，在动作序列的识别中，研究人员主要关注模型识别率和鲁棒性的能力提升，并没有考虑序列动作之间的高层语义逻辑关联特征和动作识别模型在实际应用场景下的意图理解适应性问题。

目前的人体动作识别和意图理解研究主要集中在RGB视频图像、深度图像序列和骨架信息等方面。多模态数据为动作的高效识别提供了丰富的时空信息，但各模态数据的固有缺点给多样化、精准化的动作识别方法研究带来了严峻挑战，例如RGB图像易受光照遮挡等因素干扰、深度图分辨率低且噪声跳跃等。此外，基于视觉模态的动作识别还容易受到训练样本数量多少和质量等因素的影响，且长视频动作序列样本的缺失（例如序列动作：“打开冰箱”->“拿出矿泉水”，可以推断出用户要“喝水”），使得序列动作的意图理解方法研究也受到了严重制约。

发明内容

有鉴于现有技术基于序列动作的意图理解方法研究也受到了严重制约得问题。为提升动作识别方法的准确率和泛化性能，以及研究序列动作意图理解的有效性，可以对同一动作的多模态一致互补信息进行充分特征融合学习，并设计高效鲁棒的识别、推理模型来促进理论体系的建立和技术应用。本发明的第一方面提供一种人体动作序列识别与意图理解方法，方法包括：

S1、建立基于非局部特征学习的视频序列时空信息的表示方法；

S2、设计能够实现多模态视频序列中层语义特征提取的卷积神经网络，并利用跨模态特征补偿学习策略对语义特征进行一致互补融合学习；

S3、在单动作识别模型基础上，进行动作多特征融合识别。

进一步地，所述S1，具体步骤为：

S11、分别对时空信息进行提取，将RGB视频帧和深度图像序列分别压缩为3通道和单通道的伪图像特征图，组成原始数据底层视觉时空信息表示；

S12、分别对每个类别的伪图像特征图进行非局部优化学习。

进一步地，所述伪图像特征图表示为:

其中为输入视频帧图像序，/>表示优化学习到的估计参数，/>和/>为正则化和网络单元激活函数；采用非局部的优化方法，对所述伪图像特征图进行特征位置关联信息学习，表示为：

其中为特征值归一化函数；/>为学习到的关联信息特征图，设定计算得到I个特征图，则0<i<=I，j为遍历0到I的所有整数值。

进一步地，采用注意力机制方法，学习到的关联信息特征图依次进行残差加权处理，经过非局部优化学习后的特征图可以表示为：

其中为优化学习的张量矩阵。

进一步地，所述S2包括：

S21、通过非局部优化来对视频图像序列进行底层时空信息表示；

S22、通过多流基网络分别对视频图像序列进行不同模态的中层判别语义特征的优化学习；

S23、对视频图像序列进行高层语义特征融合学习。

进一步地，其特征在于，所述高层语义特征融合表示为：

其中为可学习的卷积核，/>表示高层语义特征的顺序联结，为特征学习函数。

进一步地，所述S3包括：

S31、设计多流网络模型分别进行单一动作的特征学习和识别，设计路由学习模块来学习序列动作的中层语义逻辑关联特征；

S32、对其序列动作高层语义特征进行非局部优化融合学习。

进一步地，在所述路由学习模块中，将多动作中层语义特征降维和重定向到各动作信息流，利用卷积优化和残差学习机制，将信息流描述为:

其中和/>表示序列动作的中层语义信息，/>为多任务特征关联信息的调整系数，/>为交叉特征学习；从所述信息流中学习到的动作序列逻辑关联特征表示为：

其中表示特征流融合学习，完成各动作类别的判别后，将多标签和多流特征信息进行全局重定向关联学习。

在本发明的第二方面，本发明提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面及第一方面的可能实现方式所述的方法。

在本发明的第二方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面及第一方面的可能实现方式所述的方法。

本发明的有益技术效果至少在于以下几点：

（1）本发明设计了多模态底层时空信息表示、动作判别性特征学习、动作序列识别和意图理解方法，可丰富人工智能领域中对人体行为理解的算法体系；

（2）模块后的集成可以应用到现有的智能监控、人机交互等行业领域。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图：

图1是本发明人体动作序列识别的意图理解流程图的示意图；

图2是本发明视频图像序列非局部优化时空信息示意图；

图3是本发明跨模态非局部优化人体动作识别方法示意图；

图4是本发明非局部优化补偿特征学习模块示意图；

图5是本发明多任务学习的人体动作序列识别与意图理解示意图；

图6是本发明特征路由模块和关联逻辑特征学习方法示意图。

具体实施方式

下面对本发明的实施例作详细说明，下述的实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提出了一种人体动作序列识别与意图理解方法，包括：

S2、设计能够实现多模态视频序列中层语义特征提取的卷积神经网络，利用注意力机制和跨模态特征交互学习策略对语义特征进行一致互补融合学习；

S3、在单动作识别模型基础上，进行动作多特征融合识别。

如图1所示，为本发明的整体发明流程图。

一、建立基于非局部特征学习的视频序列时空信息的表示方法

对输入的RGB和深度图像序列，首先分别提取其时空信息，将RGB视频帧和深度图像序列分别压缩为3通道和单通道的伪图像特征图，组成丰富的原始数据底层视觉时空信息表示；再分别对每个类别的伪图像特征图进行非局部优化学习，其过程描述如图2所示。

给定视觉模态图像序列为了避免网络模型参数量过大，其中/>表示图像视频中的单一视频帧，/>分别表示视频序列包含的视频帧数量和单一视频帧的高度、宽度、通道数。

首先通过三维卷积来进行视频图像序列的降维处理和时空特征表示，使得输入视频帧图像序列/>可以表示为与RGB图像通道数量、宽度和高度一致的伪图像：

（1）

其中是输入视频图像序列/>的时空信息表示，/>表示优化学习到的估计参数，/>和/>为正则化和网络单元激活函数。

采用非局部优化方法，对伪图像进行特征点位置关联信息学习，则可定义：

（2）

其中为特征值归一化函数；/>为学习到的关联信息特征图，设定计算得到I个特征图，则0<i<=I，j为遍历0到I的所有整数值；/>，表示非局部特征学习函数（T表示矩阵的转置），/>，/>和/>，/>、/>和/>为优化学习到的张量矩阵。考虑到参数和优化学习的简便性和易用性，分别选择可优化学习的/>卷积核作为/>、/>和/>的估计参数，并定义：

（3）

则可将公式（2）转化为：

（4）

采用期望化运算求解，可获得能很好表示特征点位置关联信息的特征图。其中，softmax（）为概率得分计算函数。

为了避免原始时空特征信息丢失，采用注意力机制方法，特征图依次进行残差加权处理，则经过非局部优化学习后的特征图可以表示为：

（5）

其中，为计算得到的特征图、/>为优化学习的张量矩阵、/>为输入的特征图张量信息。

对视频图像序列的不同模态数据，分别利用上述的非局部优化时空信息表示，得到其对应的底层描述性时空特征。

设计能够实现多模态视频序列中层语义特征提取的卷积神经网络，并利用跨模态特征补偿学习策略对语义特征进行一致互补融合学习，从而提升单一动作的识别效率和鲁棒性能。

人体动作的不同模态数据特征具有高度一致性和互补性，通过非局部优化方法得到视频图像序列的底层时空视觉描述性特征，考虑采用多流网络分别学习多模态判别性中层语义特征，并设计跨模态高层语义特征融合方法，其信息流及特征学习模型如图3所示：

首先通过非局部优化来对视频图像序列进行底层时空信息表示，并通过多流基网络分别进行不同模态的中层判别语义特征优化学习，然后对其进行高层语义特征融合学习，过程描述如下：

定义和/>为从不同信息流学习到的中层语义特征，利用非局部优化学习和注意力机制，将信息流描述为：

（6）

（7）

其中和/>表示非局部化学习到的特征信息，特征学习函数/>的非局部优化过程如图4所示：

其中和/>表示多模态信息流中层语义特征，/>，/>。通过非局部优化补偿学习后可得到：

（8）

（9）

从而得到以下高层语义特征融合：

（10）

其中为可学习的卷积核，/>表示高层语义特征的顺序联结。

利用目标优化函数对类动作进行优化学习：

（11）

对公式(11)进行最优化求解，得到其对应的动作类别信息。其中，为算法模型的整体优化损失函数，/>为优化所学习到的优化张量矩阵；/>表示偏置项，一般情况下为常数。

三、在单动作识别模型基础上，进行动作多特征融合识别

人体序列动作的数据特征具有关联性和逻辑性，通过所提方法得到视频图像序列的底层时空视觉描述性特征，考虑采用多流网络进行多动作判别特征学习，并设计跨动作语义关联信息学习模块，其网络模型如图5所示。

首先设计多流网络模型分别进行单一动作的特征学习和识别，设计路由学习模块（Multiplexer）来学习序列动作的中层语义逻辑关联特征，然后对其序列动作高层语义特征进行非局部优化融合学习。

设计多任务关联信息路由学习模块，将多动作中层语义特征降维和重定向到各动作信息流。定义和/>为从不同动作信息流学习到的中层语义特征，利用卷积优化和残差学习机制，将信息流描述为：

（12）

（13）

其中和/>表示序列动作的中层语义信息，/>为多任务特征关联信息的调整系数，交叉特征学习函数/>的优化过程如图6所示：

（14）

其中表示从各信息流中学习到的动作序列逻辑关联特征，/>表示特征流融合学习，完成各动作类别的判别后，将多标签和多流特征信息进行全局重定向关联学习，最终实现人体动作序列的意图理解。

本发明还提供了一种人体动作识别和意图理解方法的终端设备。

本发明基于人体动作识别和意图识别方法的终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别和意图理解程序，所述人体动作识别和意图理解的程序程序被所述处理器执行时实现如上所述的人体动作识别和意图理解方法步骤。

其中，在所述处理器上运行的人体动作识别和意图理解程序被执行时所实现的方法可参照本发明人体动作识别和意图理解方法各个实施例，在此不再赘述。

此外本发明实施例还提出一种计算机可读存储介质。

本发明计算机可读存储介质上存储有人体动作识别和意图理解程序，所述人体动作识别和意图理解程序被处理器执行时实现如上所述的人体动作识别和意图理解方法的步骤。

综上所述，本发明通过对采集的RGB和depth等多模态视频序列进行时空信息表示、动作序列识别、多任务深度学习模型训练与动作序列的意图理解，提供一种端到端的动作序列识别和意图理解框架。与现有技术相比，本发明设计了多模态底层时空信息表示、动作判别性特征学习、动作序列识别和意图理解方法，可丰富人工智能领域中对人体行为理解的算法体系，可模块后的集成到现有的智能监控、人机交互等行业领域。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种人体动作序列识别与意图理解方法，其特征在于，包括：

S2、设计能够实现多模态视频序列中层语义特征提取的卷积神经网络，并利用注意力机制和跨模态特征交互学习策略对语义特征进行一致互补融合学习；

所述S2包括：

S23、对视频图像序列进行高层语义特征融合学习，所述高层语义特征融合表示为：

其中为可学习的卷积核，/>表示高层语义特征的顺序联结，为特征学习函数；

S3、在单动作识别模型基础上，进行动作多特征融合识别；

所述S3包括：

S31、设计多流网络模型分别进行单一动作的特征学习和识别，设计路由学习模块来学习序列动作的中层语义逻辑关联特征；其中，在所述路由学习模块中，将多动作中层语义特征降维和重定向到各动作信息流，利用卷积优化和残差学习机制，将信息流描述为:

其中和/>表示序列动作的中层语义信息，/>为多任务特征关联信息的调整系数，/>为交叉特征学习；从所述信息流中学习到的动作序列逻辑关联特征表示为:

其中表示特征流融合学习，完成各动作类别的判别后，将多标签和多流特征信息进行全局重定向关联学习；

S32、对其序列动作高层语义特征进行非局部优化融合学习。

2.根据权利要求1所述的一种人体动作序列识别与意图理解方法，其特征在于，所述S1，具体步骤为：

S12、分别对每个类别的伪图像特征图进行非局部优化学习。

3.根据权利要求2所述的一种人体动作序列识别与意图理解方法，其特征在于，所述伪图像特征图表示为:

4.根据权利要求3所述的一种人体动作序列识别与意图理解方法，其特征在于，采用注意力机制方法，所述学习到的关联信息特征图依次进行残差加权处理，经过非局部优化学习后的特征图可以表示为：

其中为优化学习的张量矩阵。

5.一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。