CN115966017A

CN115966017A - 行为识别方法及装置

Info

Publication number: CN115966017A
Application number: CN202211652169.6A
Authority: CN
Inventors: 崔萌萌; 张堃博; 孙哲南; 王亮
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-04-14

Abstract

本发明提供一种行为识别方法及装置，包括：获取待识别视频的待识别视频帧序列和待识别骨架关键点坐标序列；将所述待识别视频帧序列和所述待识别骨架关键点坐标序列输入行为识别模型，得到所述待识别视频的行为类别。本发明解决了现有技术中行为识别的数据来源单一导致识别精度受限的缺陷，通过将人体骨架坐标以及RGB视频同时输入行为识别模型，对行为视频进行精确的动作识别。

Description

行为识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种行为识别方法及装置。

背景技术

人体行为识别是计算机视觉研究的热点问题，其应用范围主要集中在智能视频监控领域，具体包括智能行为分析与管理、智能交通、人机交互、智能安防、视频检索等领域。目前的行为识别算法大多基于人体骨架关键点的3D坐标，不仅需要位置信息，还需要深度信息，因此要使用深度摄像头等采集设备，这就使数据的获取变得困难。除此之外，还有依据RGB视频或者骨架关键点坐标来进行行为识别的算法。然而，这两种方法都具有明显的缺点。

对于基于骨架关键点坐标的行为识别方法，由于真实场景中采集的视频具有很大的自由度及复杂度，同时相机角度、运动状态、成像清晰度以及拍摄目标的存在都会导致遮挡、截断或过小等问题，很难得到准确完整的人体骨架关键点坐标数据，进而对下游的行为识别算法产生很大的性能影响。另一方面，不同动作的骨架关键点运动轨迹可能十分相似，可能会使行为识别算法造成混淆。

对于基于RGB视频的行为识别方法，虽然能够直接利用内容丰富的视觉表观信息，但是该类方法大多是依靠背景、物体等静态特征来进行行为分类，无法很好的捕捉更加精细的时序动态信息，并没有理解动态行为本身。因此，这类方法在进行行为识别时也存在着性能瓶颈。

发明内容

本发明提供一种行为识别方法及装置，用以解决现有技术中行为识别的数据来源单一导致识别精度受限的缺陷，通过将人体骨架坐标以及RGB视频同时输入行为识别模型，对行为视频进行精确的动作识别。

本发明提供一种行为识别方法，包括：

获取待识别视频的待识别视频帧序列和待识别骨架关键点坐标序列；

将所述待识别视频帧序列和所述待识别骨架关键点坐标序列输入行为识别模型，得到所述待识别视频的行为类别；

其中，所述行为识别模型用于基于所述待识别视频帧序列和所述待识别骨架关键点坐标序列，提取所述待识别视频的特征组，并基于所述特征组合进行行为分类，所述特征组包括关系特征以及姿态特征、动态特征和表观特征中的至少一个。

根据本发明提供的一种行为识别方法，所述行为识别模型包括时域姿态序列网络、空间表观特征网络和姿态-表观特征关系网络；将所述待识别视频帧序列和所述待识别骨架关键点坐标序列输入行为识别模型，得到所述待识别视频的行为识别结果，包括：

基于所述待识别骨架关键点坐标序列，得到多人姿态编码特征；

将所述多人姿态编码特征输入所述时域姿态序列网络，通过第一注意力选择层进行多人姿态编码特征的选择与融合，并输入第一记忆增强型ME-LSTM循环神经网络和第二ME-LSTM循环神经网络进行时序迭代运算，分别得到所述姿态特征和所述动态特征；

将所述待识别视频帧序列输入所述空间表观特征网络进行特征图提取，得到所述表观特征；

将所述多人姿态编码特征和所述空间表观特征网络的中间特征图序列输入所述姿态-表观特征关系网络，通过第二注意力选择网络得到姿态感知局部表观特征，并输入第三ME-LSTM循环神经网络进行时序迭代计算，得到所述关系特征。

根据本发明提供的一种行为识别方法，所述ME-LSTM循环神经网络用于对目标时间段内的所述基础单元的输出进行注意力选择，得到注意力向量，所述注意力向量用于作为当前时刻循环神经网络输出的组成部分，还用于作为下一时刻循环神经网络输入的组成部分。

根据本发明提供的一种行为识别方法，所述将所述多人姿态编码特征输入所述时域姿态序列网络，通过第一注意力选择网络进行多人姿态编码特征的选择与融合，并输入第一记忆增强型ME-LSTM循环神经网络和第二ME-LSTM循环神经网络进行时序迭代运算，分别得到所述姿态特征和所述动态特征，包括：

将多个时刻的所述多人姿态编码特征，输入所述第一注意力选择网络进行选择与融合，得到每个时刻的多人融合姿态特征并输入所述第一ME-LSTM循环神经网络进行时序迭代运算，基于最后时刻的输出的正向姿态特征和反向姿态特征，得到所述姿态特征；

将多个相邻时刻的所述多人姿态融合特征进行差值运算后，输入所述第二ME-LSTM循环神经网络进行时序迭代运算，基于所述第二ME-LSTM循环神经网络最后时刻的输出的正向动态特征和反向动态特征，得到所述动态特征。

根据本发明提供的一种行为识别方法，所述将所述待识别视频帧序列输入所述空间表观特征网络进行特征图提取，得到所述表观特征，包括：

将所述待识别视频帧序列输入所述空间表观特征网络进行特征图提取，得到多层特征图序列；

基于所述多层特征图序列中的最高层特征图序列，通过时序卷积变换后在时间维度和空间维度做平均池化压缩，得到所述表观特征。

根据本发明提供的一种行为识别方法，将所述多人姿态编码特征和所述空间表观特征网络的中间特征图序列输入所述姿态-表观特征关系网络，通过第二注意力选择网络得到姿态感知局部表观特征，将其输入第三ME-LSTM循环神经网络进行时序迭代计算，得到所述关系特征，包括：

将所述多层特征图序列中的所述中间层特征图序列和所述多人姿态编码特征进行基于注意力机制的相关性建模，得到每个时刻的所述多人姿态编码特征对应的局部表观特征；

将所述每个时刻的所述多人姿态编码特征对应的局部表观特征，输入所述第三ME-LSTM循环神经网络进行多次时序迭代计算，基于所述第三ME-LSTM循环神经网络最后时刻的输出，得到所述关系特征。

根据本发明提供的一种行为识别方法，所述基于所述待识别骨架关键点序列，得到多人姿态编码特征，包括：

对所述待识别视频帧对应的待识别多人骨架关键点坐标数据进行部位分类，并通过非线性部位编码层得到所述待识别视频帧中人体各个部位的特征向量；

对所述待识别视频帧中每个人的各个部位的特征向量进行拼接，并通过姿态编码层进行线性变换，得到所述多人姿态编码特征。

本发明还提供一种行为识别装置，包括：

采集模块，用于获取待识别视频的待识别视频帧序列和待识别骨架关键点坐标序列；

识别模块，用于将所述待识别视频帧序列和所述待识别骨架关键点坐标序列输入行为识别模型，得到所述待识别视频的行为类别；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述行为识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述行为识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述行为识别方法。

本发明提供的行为识别方法及装置，利用RGB视频以及从视频提取的2D的人体骨架关键点坐标数据进行行为识别，可以得到包含丰富特征信息的特征组。基于该特征组再识别行为可以大大提升识别的准确度。和基于3D姿态数据进行识别的方法相比不需要深度摄像头等设备，数据来源多样且获取简单，可以在室外环境下有效应用。在智能视频监控、智能行为分析与管理、人机交互、智能安防等应用市场有着更为广泛的前景。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的行为识别方法的流程示意图；

图2是本发明实施例提供的骨架关键点的示意图；

图3是本发明实施例提供的行为识别模型的网络结构示意图；

图4是本发明提供的ME-LSTM单元的结构示意图；

图5是本发明提供的行为识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

视频帧序列和骨架关键点坐标数据分别进行行为识别时都存在弊端，例如，若需要识别打保龄球与正手打网球这两个动作，都有从下往上的挥手过程，此时单独基于骨架关键点坐标数据进行识别，不易识别出准确的行为信息。又如，基于视频帧序列一般仅能依靠静态特征进行识别时，虽然也有方法引入了光流来弥补动态信息，但光流只能表达前后帧之间的变化，无法捕捉到运动过程连贯的时序演变，对动态特征的提取仍不精确，导致影响了识别效果。基于此，本发明实施例提出了一种将两种类型数据同时输入并利用各自优势实现精准行为识别的方法，下面结合图1-图4描述本发明的行为识别方法，该方法至少包括如下步骤：

步骤101、获取待识别视频的待识别视频帧序列和待识别骨架关键点坐标序列；

步骤102、将待识别视频帧序列和待识别骨架关键点坐标序列输入行为识别模型，得到待识别视频的行为类别；

其中，行为识别模型用于基于待识别视频帧序列和待识别骨架关键点坐标序列，提取待识别视频的特征组，并基于特征组合进行行为分类，特征组包括关系特征以及姿态特征、动态特征和表观特征中的至少一个。

针对步骤101，需要说明的是，将待识别视频分为若干段，每段抽取一帧图像，就可以得到待识别视频帧序列。对于每个待识别视频帧进行2D骨架关键点坐标提取，可以得到待识别骨架关键点坐标序列。

具体的，本实施例中获取待识别视频帧序列时，需要对包含动作的视频分段随机提取16帧图像，对图像组进行随机缩放、剪裁、翻转处理，以进行数据增强，并做归一化处理。最终形成16×224×224×3的一组RGB图像输入。

具体的，本实施例中获取待识别骨架关键点坐标数据时，采用姿态估计算法对视频帧序列逐帧提取一组人体姿态2D骨架关键点坐标。依据对图像组的处理方式对关键点坐标进行相同的缩放、平移、翻转变换，并做归一化处理，以消除人体所处绝对空间位置变动对识别结果的影响。然后，对每帧图像提取的骨架关键点坐标做标准化处理，即最多提取4个人，每个人14个骨架关键点，如图2所示，对数据缺失部分进行补零处理，最终形成16×4×14×2的一组骨架关键点(其中，2为x、y轴坐标)，作为待识别骨架关键点坐标序列。

针对步骤102，需要说明的是，将行为识别模型输出得到的特征组进行拼接，可以得到对于整个待识别视频的综合性特征表示。以上特征表示经由参数独立的多个线性变换层，得到针对所有类别的类属概率，从而对输入待识别视频进行行为分类。本实施例中的行为也可以理解为动作或姿态。

另外，需要说明的是，本发明实施例的特征组中必须包括关系特征，该特征是在对待识别骨架关键点坐标数据的时序姿态序列，以及待识别视频帧序列的空间表观特征的基础上，引入姿态-表观特征关系，将两种不同模态的数据进行相关性建模获得了关系特征。从而，使内容丰富的表观特征和动态信息丰富的姿态特征可以互相补充，在提高模型准确率和鲁棒性的同时，也提升了模型的可解释性。而特征组中的其他特征需要至少包含一个就能达到比仅根据某一种数据进行的行为分类更好的效果。

本发明实施例的行为识别方法，能够利用RGB视频以及从视频提取的2D的人体骨架关键点坐标数据进行行为识别，可以得到包含丰富特征信息的特征组。基于该特征组再识别行为可以大大提升识别的准确度。和基于3D姿态数据进行识别的方法相比不需要深度摄像头等设备，数据来源多样且获取简单，可以在室外环境下有效应用。

可以理解的是，行为识别模型包括时域姿态序列网络、空间表观特征网络和姿态-表观特征关系网络；将待识别视频帧序列和待识别骨架关键点坐标数据输入行为识别模型，得到待识别视频的行为识别结果，包括：

基于待识别骨架关键点坐标数据，得到多人姿态编码特征；

将多人姿态编码特征输入时域姿态序列网络，通过第一注意力选择网络得到多人姿态融合特征，并输入第一、第二记忆增强型(Memory Enhanced LSTM，ME-LSTM)循环神经网络进行时序迭代运算，分别得到姿态特征和动态特征；

将待识别视频帧序列输入空间表观特征网络进行特征图提取，得到表观特征；

将多人姿态编码特征和空间表观特征网络的中间特征图序列输入姿态-表观特征关系网络，通过第二注意力选择网络得到姿态感知局部表观特征，并输入第三ME-LSTM循环神经网络进行时序迭代运算，得到关系特征。

需要说明的是，本实施例中的行为识别模型如图3所示，该模型对已经提取好的人体骨架关键点坐标数据做归一化及标准化处理，然后经过姿态编码网络进行特征编码后，输入时域姿态序列网络。时域姿态序列网络主体为双向循环神经网络，网络单元为加入ME-LSTM循环神经网络，以取得姿态特征和动态特征。同时，对图像序列进行归一化处理，建立空间表观特征网络，通过CNN模型提取空间特征，得到全局表观特征。在时域动作和表观特征的基础上，引入姿态-表观特征关系网络，对人体姿态和表观特征进行相关性建模，基于注意力机制得到姿态相关的显著性特征，并通过ME-LSTM循环神经网络进行时序迭代，得到关系特征。然后将三个子网络得到的姿态特征、动态特征、表观特征和关系特征进行拼接，得到对于整个待识别视频的综合性特征表示，即特征组。

另外，需要说明的是，ME-LSTM循环神经网络以引入时序注意力机制的LSTM为基础单元，可以用于对目标时间段内的基础单元的输出进行注意力选择，得到注意力向量，注意力向量用于作为当前时刻循环神经网络输出的组成部分，还用于作为下一时刻循环神经网络输入的组成部分。

本发明实施例的ME-LSTM单元的结构如图4所示，在时刻t，上一时刻ME-LSTM单元输出的注意力向量h'_t-1和当前时刻的输入x_t进行拼接，形成长短记忆单元当前时刻的输入。

具体计算方式如式1至式4所示：

x'_t＝W_i[x_t；h'_t-1] 式(1)

h_t＝o_t⊙tanh(c_t) 式(4)

其中，W_i和W为全连接层的参数，σ和⊙表示sigmoid激活函数以及内积运算。i_t,f_t,o_t,

分别表示输入控制门(Input gate)状态、遗忘门(Forget gate)状态，输出控制门(Output gate)状态和中间记忆状态(Intermediate memory state)，c_t为更新记忆状态(Updated memory state)，h_t为隐含层状态(Hidden state)。

将隐含层状态h_t和更新记忆状态c_t进行拼接，形成查询向量，基于注意力机制对之前n个时刻的单元输出

进行筛选求和。具体计算方式如式5至式7所示：

其中，softmax函数用以对注意分布

进行归一化处理，形成注意力权重a^t。最后，a^t与

加权求和，得到当前时刻的注意力向量h'_t。该过程可以简化表示为：h'_t＝Attention([h_t；c_t],H'_t-1)。

最后，当前时刻的注意力向量h_t'和隐含层状态向量h_t进行拼接，经过线性变换得到当前时刻记忆增强型长-短记忆单元的输出

以上公式中向量v和W'₁,W'₂,W_O为可训练参数，注意力向量h_t'不仅作为当前时刻单元输出的主要组成，也同时参与到下一时刻的单元输入中，因此，在整个循环迭代的过程中，常规长-短记忆单元在时序维度的记忆能力得到显著增强。ME-LSTM单元的整个运算过程可以简化为式8和式9：

其中，S_t作为一系列状态向量的集合。

可以理解的是，基于待识别骨架关键点坐标数据，得到多人姿态编码特征，包括：

对待识别视频帧对应的待识别多人骨架关键点坐标数据进行部位分类，并通过非线性部位编码层得到待识别视频帧中人体各个部位的特征向量；

对待识别视频帧中每个人的各个部位的特征向量进行拼接，并通过姿态编码层进行线性变换，得到多人姿态编码特征。

需要说明的是，根据人体物理结构，将待识别视频帧中单人姿态骨架数据划分为五个部位，即四肢和头部，经过参数共享的多层感知机结构的非线性部位编码层得到五个部位的特征表示。将五个部位的特征向量进行拼接，并经过一层全连接层构成的姿态编码层进行线性变换，得到经过编码的单人姿态编码特征p_m，

其中，

是任一部位的特征向量，

因此，每个视频帧图像包含的一人或多人的姿态编码特征P_m，表示为P_m＝(p_m1,p_m2,...,p_mN)。

可以理解的是，将多人姿态编码特征输入时域姿态序列网络，通过第一注意力选择网络进行多人姿态编码特征的选择与融合，将得到的多人融合姿态特征输入第一、第二ME-LSTM循环神经网络进行时序迭代运算，分别得到姿态特征和动态特征，包括：

将多个时刻的多人姿态编码特征，输入第一注意力选择网络进行选择与融合，得到每个时刻的多人融合姿态特征并输入第一ME-LSTM循环神经网络进行时序迭代运算，基于最后时刻的输出的正向姿态特征和反向姿态特征，得到姿态特征；

将多个相邻时刻的多人姿态融合特征进行差值运算后，输入第二ME-LSTM循环神经网络进行时序迭代运算，基于第二ME-LSTM循环神经网络最后时刻的输出的正向动态特征和反向动态特征，得到动态特征。

第一ME-LSTM子网络是基于注意力机制的多人姿态循环神经网络，第二ME-LSTM子网络为基于注意力机制的动态循环神经网络，该两个循环神经网络均以ME-LSTM作为基础单元。

第一ME-LSTM循环神经网络得到姿态特征的迭代工作程包括：

将上一时刻的单元输出

作为查询向量，对当前时刻输入的多人姿态编码特征P_m,t进行注意力选择，为多人场景中正在执行动作的目标人物分配较高的权重，以提升多人融合姿态特征P_t的判别性和信噪比，其中，

将多人融合姿态特征P_t输入姿态循环神经网络，由ME-LSTM单元进行多次循环迭代运算，得到

由于姿态循环神经网络采用双向工作的模式。将最后时刻正向姿态特征

和反向姿态特征

进行拼接融合，作为最终的双向时域姿态特征表示

即姿态特征，

第二ME-LSTM循环神经网络得到动态特征的迭代工作程包括：

将相邻时刻多人融合姿态特征P_t做差值运算，进一步提取姿态的动态特征P'_t，P'_t＝P_t-P_t-1，t＝2,...,T。以姿态的动态特征P'_t作为每一时刻的输入，进行多次循环迭代运算，得到

由于动态循环神经网络也采用双向工作模式，将最后时刻的正向动态特征

和反向动态特征

进行拼接融合，作为最终的双向时域动态特征表示

即动态特征，

可以理解的是，将待识别视频帧序列输入空间表观特征网络进行特征图提取，得到表观特征，包括：

将待识别视频帧序列输入空间表观特征网络进行特征图提取，得到多层特征图序列；

基于多层特征图序列中的最高层特征图序列，得到表观特征。

需要说明的是，将待识别视频帧序列对应的一组RGB图像输入空间表观特征网络中，该网络是以BN-Inception作为基础结构的2D卷积神经网络。多层特征图序列是网络不同尺度的特征图，获取卷积神经网络最高层特征图序列F_5b∈R^{T×7×7×1024}来生成全局表观特征表示F，即表观特征，如式10所示：

其中，特征图序列F_5b经由参数v_s将通道维度降低至512维，之后进入参数为

的时序卷积层，时序维度的卷积核尺度为3，增加相邻时刻特征图的上下文相关性。最后，沿时序维度和空间维度做平均池化操作，得到全局表观特征表示F。

可以理解的是，将多人姿态编码特征和空间表观特征网络的中间特征图序列输入姿态-表观特征关系网络，通过第第二注意力选择网络，得到关系特征，包括：

将多层特征图序列中的中间层特征图序列和多人姿态编码特征进行基于注意力机制的相关性建模，得到每个时刻的多人姿态编码特征对应的姿态感知局部表观特征；

将每个时刻的多人姿态编码特征对应的局部表观特征，输入第三ME-LSTM循环神经网络进行循环迭代运算，基于第三ME-LSTM循环神经网络最后时刻的输出，得到关系特征。

需要说明的是，将多层特征图序列输出的中间层特征图序列F_4e∈R^{T×14×14×256}与多人融合姿态特征P_t进行相关性建模，在每一时刻t，以P_t作为查询向量，对该时刻对应的特征图F_4e,t进行空间注意力选择，提取姿态感知局部表观特征f_t ^r，f_t ^r＝Attention_r(P_t,F_4e,t)。

在实际动作视频中，注意力图中的显著性区域包括与动作相关的人物、环境及物体。将姿态感知局部表观特征序列

输入关系循环神经网络，由ME-LSTM单元进行多次循环迭代运算。取最后一个时刻输出的作为姿态-表观关系特征表示

即关系特征，

可以理解的是，提取待识别视频的特征组，包括：

将双向时域姿态特征表示

双向时域动态特征表示

全局表观特征表示F、姿态-表观关系特征表示

进行拼接，得到视频的综合性特征表示，即特征组H，

另外，需要说明的是，行为识别模型在训练时需要获取多个视频作为训练样本，并依据每个视频获取视频分段即视频帧序列以及对应的骨架关键点坐标数据。对于每个训练样本的

F、

和H经由五个独立的全连接层，采用Softmax进行归一化得到在不同行为类别上的类属概率，并形成对应的五个交叉熵损失函数(Cross Entropy Loss)。将交叉熵损失函数与L2正则化损失函数相加，作为目标函数，结合随机梯度下降算法对网络参数进行优化。

L_total＝L_H+L_p+L_v+L_r+L_F+λ||Θ||₂

其中，L2正则化损失函数系数λ为4e-5，随机梯度下降算法(stochastic gradientdescent，SGD)，动量参数设置为0.9。

在识别阶段，待识别视频输入行为识别模型会得到上述五个特征在各个行为类别的类属概率，对最终类别的判定，针对不同的数据集，采用以下两种方式的其中一种。

第一种，以综合性特征H对应的类属概率最大值来判定样本所属类别。

第二种，将五个类属概率相加求和，取最大值判定样本所属类别。

本发明实施例在时序姿态序列网络和空间表观特征网络的基础上引入姿态-表观特征关系网络，将两种不同模态的数据进行相关性建模，使内容丰富的表观特征和动态信息丰富的姿态特征可以互相补充。在提高模型准确率和鲁棒性的同时，也提升了模型的可解释性。本发明方案在实践中具有高精度的识别率和较低的计算量，便于实际应用。更重要的是，本方法利用的是基于RGB视频以及从视频提取的2D人体姿态坐标，和3D姿态数据相比不需要深度摄像头等设备，数据来源多样且获取简单，可以在室外环境下有效应用。在智能视频监控、智能行为分析与管理、人机交互、智能安防等应用市场有着更为广泛的前景。

具体的，本发明实施例借助在以下标准公开数据集中的实验结果来验证有效性。实验数据集介绍：

KTH：包括25个人物演示的6类动作视频，共有2391个视频段，大多具有静态的背景。

PennAction:包含2326个视频段和15个行为类别，如打保龄球、挺举、高尔夫挥杆等，PennAction数据集标注信息很丰富，包括行为类别标注、2D关键点位置坐标、以及照相机视角等。

UCF11:从YouTube上提取的包含11个行为类别的的1600个视频，包括相机运动、视角变化、杂乱背景以及模糊等干扰因素。

UCF101：也是从YouTube上提取的真实场景数据集，包括101个行为类别的13320个视频。包括各类姿态以及物体的变换，以及UCF11中存在的挑战性问题。

HMDB51:为一个大型复杂数据集，包括网络上的行为视频以及电影中的片段。包括51个行为类别的6766个视频。

JHMDB:属于HMDB51的子数据集，包括21个行为类别的928个视频。

UCF11，UCF101，HMDB51，JHMDB均包括三种不同的训练-测试数据划分方式，本发明实施例在三类划分数据集上均进行实验验证，并取均值作为最终实验结果。

表一本方案在KTH,Penn-Action,UCF11数据集上的精度

	KTH	Penn-Action	UCF11
				DT	94.2	-	84.2
3-stream-CNN	96.8	-	-
				SIP-Net	-	93.5	-
本方案	97.2	99.2	97.0

表二本方案在UCF101,HMDB51,JHMDB数据集上的精度

	UCF101	HMDB51	JHMDB
				TSN	86.4	53.7	-
I3D	84.5	49.8	-
				ECO	86.4	52.9	58.2
PA3D	-	55.3	69.5
				本方案	91.1	64.6	71.6

如表1、表2所示，通过以上六个数据集上的准确率性能对比分析，可以证明本发明实施例提出的行为识别模型的优越性。在提取姿态较为完整的KTH,Penn-Action，UCF11数据集，以及和带有一定比例姿态遮挡、截断等问题的姿态不完整数据集UCF101,HMDB51,JHMDB上，和同类算法相比均达到最佳精度。在姿态不完整数据集上的稳定性能也证明了本发明提出的人体姿态与表观特征关系网络的鲁棒性。同时，本方案提出的行为识别模型也具有较低的计算复杂度，模型复杂度为64.9GFLOPs，与用于在线行为视频分类的ECO模型复杂度相当，却具有明显更为优越的性能表现。

下面对本发明提供的行为识别装置进行描述，下文描述的行为识别装置与上文描述的行为识别方法可相互对应参照。如图5所示，行为识别装置，包括：

采集模块501，用于获取待识别视频的待识别视频帧序列和待识别骨架关键点坐标序列；

识别模块502，用于将待识别视频帧序列和待识别骨架关键点坐标序列输入行为识别模型，得到待识别视频的行为类别；

本发明实施例的行为识别装置，能够利用RGB视频以及从视频提取的2D的人体骨架关键点坐标数据进行行为识别，可以得到包含丰富特征信息的特征组。基于该特征组再识别行为可以大大提升识别的准确度。和基于3D姿态数据进行识别的方法相比不需要深度摄像头等设备，数据来源多样且获取简单，可以在室外环境下有效应用。

可以理解的是，行为识别模型包括时域姿态序列网络、空间表观特征网络和姿态-表观特征关系网络；将待识别视频帧序列和待识别骨架关键点坐标序列输入行为识别模型，得到待识别视频的行为识别结果，包括：

基于待识别骨架关键点坐标序列，得到多人姿态编码特征；

将多人姿态编码特征输入时域姿态序列网络，通过第一注意力选择层进行多人姿态编码特征的选择与融合，并输入第一、第二记忆增强型ME-LSTM循环神经网络进行时序迭代运算，分别得到姿态特征和动态特征；

将多人姿态编码特征和空间表观特征网络的中间特征图序列输入姿态-表观特征关系网络，通过第二注意力选择层得到姿态感知局部表观特征，将其输入第三ME-LSTM循环神经网络时序迭代运算，得到关系特征。

可以理解的是，ME-LSTM循环神经网络用于对目标时间段内的基础单元的输出进行注意力选择，得到注意力向量，注意力向量用于作为当前时刻循环神经网络输出的组成部分，还用于作为下一时刻循环神经网络输入的组成部分。

可以理解的是，将多人姿态编码特征和空间表观特征网络的中间特征图序列输入姿态-表观特征关系网络，通过第二注意力选择网络得到姿态感知局部表观特征，将其输入第三ME-LSTM循环神经网络进行时序迭代计算，得到关系特征，包括：

将多层特征图序列中的中间层特征图序列和多人姿态编码特征进行相关性建模，得到每个时刻的多人姿态编码特征对应的局部表观特征；

将每个时刻的多人姿态编码特征对应的局部表观特征，输入第三ME-LSTM循环神经网络进行多次时序迭代计算，基于第三ME-LSTM循环神经网络最后时刻的输出，得到关系特征。

可以理解的是，基于待识别骨架关键点坐标序列，得到多人姿态编码特征，包括：

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行行为识别方法，该方法包括：

将待识别视频帧序列和待识别骨架关键点坐标序列输入行为识别模型，得到待识别视频的行为类别；

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，计算机程序被处理器执行时，计算机能够执行上述各方法所提供的行为识别方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的行为识别方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种行为识别方法，其特征在于，包括：

2.根据权利要求1所述的行为识别方法，其特征在于，所述行为识别模型包括时域姿态序列网络、空间表观特征网络和姿态-表观特征关系网络；所述将所述待识别视频帧序列和所述待识别骨架关键点坐标序列输入行为识别模型，得到所述待识别视频的行为识别结果，包括：

将所述多人姿态编码特征和所述空间表观特征网络的中间特征图序列输入所述姿态-表观特征关系网络，通过第二注意力选择层得到姿态感知局部表观特征，并输入第三ME-LSTM循环神经网络时序迭代运算，得到所述关系特征。

3.根据权利要求2所述的行为识别方法，其特征在于，所述ME-LSTM循环神经网络用于对目标时间段内的所述基础单元的输出进行注意力选择，得到注意力向量，所述注意力向量用于作为当前时刻循环神经网络输出的组成部分，还用于作为下一时刻循环神经网络输入的组成部分。

4.根据权利要求2所述的行为识别方法，其特征在于，所述将所述多人姿态编码特征输入所述时域姿态序列网络，通过第一注意力选择层进行多人姿态编码特征的选择与融合，并输入第一记忆增强型ME-LSTM循环神经网络和第二ME-LSTM循环神经网络进行时序迭代运算，分别得到所述姿态特征和所述动态特征，包括：

5.根据权利要求2所述的行为识别方法，其特征在于，将所述待识别视频帧序列输入所述空间表观特征网络进行特征图提取，得到所述表观特征，包括：

6.根据权利要求4所述的行为识别方法，其特征在于，将所述多人姿态编码特征和所述空间表观特征网络的中间特征图序列输入所述姿态-表观特征关系网络，通过第二注意力选择网络得到姿态感知局部表观特征，将其输入第三ME-LSTM循环神经网络进行时序迭代计算，得到所述关系特征，包括：

7.根据权利要求2至6任一所述的行为识别方法，其特征在于，所述基于所述待识别骨架关键点坐标序列，得到多人姿态编码特征，包括：

8.一种行为识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述行为识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述行为识别方法。