CN116798109A

CN116798109A - 一种动作类型的识别方法及装置

Info

Publication number: CN116798109A
Application number: CN202210231404.6A
Authority: CN
Inventors: 郑淼; 原纯一
Original assignee: Beijing Hitachi Control Systems Co Ltd
Current assignee: Beijing Hitachi Control Systems Co Ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2023-09-22

Abstract

本发明提供了一种动作类型的识别方法以及识别装置。该动作类型的识别方法具备：待识别视频处理步骤,针对待识别视频中的每一帧，检测人体目标并提取关节；有效性判断步骤，根据所述关节的提取结果与人体目标的检测结果的关联程度，判断提取到的所述关节是否有效；以及识别步骤，获取判断为有效的所述关节的关节坐标，使用所述关节坐标、预先训练好的训练模型和训练权重，对待识别视频中的人体动作类型进行识别。根据本发明，由于对关节坐标的提取进行了过滤，提高了关节坐标提取质量，保证了训练数据的可靠性，并针对视频中的每一帧，检测人体目标并提取关节，避免关键帧抽取造成的数据损失，从而能够提高动作识别的鲁棒性和准确率。

Description

一种动作类型的识别方法及装置

技术领域

本发明涉及一种人体的动作类型的识别方法及系统。

背景技术

人体动作识别一直是计算机视觉、人工智能和模式识别等热门研究方向，在人机交互、虚拟现实、视频检索和安防监控等领域中有着十分广泛的应用。目前主流的研究方向是基于计算机视觉的人体动作识别方法，通过计算机对摄像机采集的原始图像或图像序列数据进行处理和分析，从而理解人的行为。在视觉动作识别领域，基于openpose或alphapose等算法提取人体的骨架信息数据，并通过监督训练从而识别动作，由于模型轻量的特点吸引了越来越多人的注意。但是，在实际的工业应用中，生产场景复杂，一方面，提取的人体骨架信息会因为光线反射等情况而出现异常，由此建立的识别模型会出现识别异常或者训练无法收敛的情况；另一方面，工业现场作业人员的动作类型具有偶然性，基于监督学习建立的识别模型其性能受限于训练数据的规模，因而在应用中的准确率偏低。

对此，在专利文献CN112926522A中，提供了一种基于骨骼姿态与时空图卷积网络的行为识别方法，能够利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务，提高识别的准确性与实时性。它是这样进行动作识别的：首先建立包含若干视频段的数据集；然后是数据处理和训练阶段：利用改进的ViBe算法，提取数据集视频段中的关键帧，并计算关键帧中的前景区域的质心；使用OpenPose算法对关键帧进行骨骼数据提取得到若干个关节点坐标，计算上述质心与关节点的距离，根据距离优先原则分配关节点置信度；将以上处理的数据送入ST_GCN算法模型中进行训练；最后，利用经过训练的ST_GCN算法模型对采集的实时视频进行动作检测。

发明内容

发明要解决的问题

然而，在上述专利文献的发明中，首先，发明的核心在于关键帧获取并对获取到的关节点进行处理，而未有对关键帧中关节数据的提取质量进行约束或者过滤，潜在的噪点数据会限制识别精度；其次，关节点置信度特征以及训练数据集的规模等静态特性也限制了识别精度的提升。

对此，本发明提供了一种动作类型的识别方法及装置，其能够提高关节坐标提取质量，并能够提高动作识别的鲁棒性和准确率。

解决问题的技术手段

为了实现上述目的，本发明的一实施方式为一种动作类型的识别方法，具备：待识别视频处理步骤,针对待识别视频中的每一帧，检测人体目标并提取关节；有效性判断步骤，根据所述关节的提取结果与人体目标的检测结果的关联程度，判断提取到的所述关节是否有效；以及识别步骤，获取判断为有效的所述关节的关节坐标，使用所述关节坐标、预先训练好的训练模型和训练权重，对待识别视频中的人体动作类型进行识别。

本发明的另一实施方式为一种动作类型的识别装置，具备：输入部，其输入待识别视频；存储部，其存储有训练好的训练模型以及训练权重；以及识别部，其针对所述待识别视频中的每一帧，检测人体目标并提取关节，根据所述关节的提取结果与人体目标的检测结果的关联程度，判断提取到的所述关节是否有效，并获取判断为有效的所述关节的关节坐标，使用所述关节坐标、预先训练好的训练模型和训练权重，对待识别视频中的人体动作类型进行识别。

发明的效果

根据本发明，由于对关节坐标的提取进行了过滤，提高了关节坐标提取质量，保证了训练数据的可靠性，并针对视频中的每一帧，检测人体目标并提取关节，避免关键帧抽取造成的数据损失，从而能够提高动作识别的鲁棒性和准确率。

附图说明

图1为表示本发明的动作类型的识别装置的功能框图。

图2为本发明的动作类型的识别流程的流程图。

图3为表示本发明的关节坐标的提取以及处理的流程图。

图4为表示本发明的获得训练好的训练模型的流程图。

图5为说明本发明的时间分支处理以及增加关节相对坐标的效果的示意图。

图6为说明人体的动作和位置随时间变化示意图。

图7为说明本发明在时间序列上对各关节进行卷积操作的示意图。

图8为说明本发明横向拼接特征的示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合较佳实施例一起介绍，但这并不代表本发明的特征仅限于该实施方式。恰恰相反，结合实施方式作本发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解，以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外，为了避免混乱或模糊本发明的重点，有些具体细节将在描述中被省略。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

图1为表示本发明的动作类型的识别装置的功能框图。

如图1所示，本发明的动作类型的识别装置1具有存储部11、输入部12、识别部13、以及显示部14。

存储部11存储有训练好的训练模型以及训练权重，例如由硬盘等存储器构成。

输入部12用于输入待识别视频等。在本发明中，输入部12可以为摄像头等，识别装置1可以内置有输入部12，或是通过有线或者无线网络与输入部12连接，对由输入部12输入的待识别视频进行实时识别。输入部12也可以为数据接口等，经由网络或是移动存储设备获取待识别视频。

识别部13针对所述待识别视频中的每一帧，检测人体目标并提取关节，根据所述关节的提取结果与人体目标的检测结果的关联程度，判断提取到的所述关节是否有效，并获取判断为有效的所述关节的关节坐标，使用所述关节坐标、预先训练好的训练模型和训练权重，对待识别视频中的人体动作类型进行识别。识别部13可以由CPU等处理部构成。

显示部14用于显示识别部13的识别结果，可以由液晶显示器等构成。

图2展示了本发明的动作类型的识别流程的流程图。如图2所示，在本发明中，从训练视频中提取视频帧，进而进行关节坐标的提取和处理，随后将处理后的关节坐标输入到构建的训练模型中，对训练模型进行训练，得到训练好的训练模型，生成训练权重。另一方面，从待识别视频中提取视频帧，同样地进行关节坐标的提取和处理，随后将处理后的关节坐标输入到训练好的训练模型中，输出动作类型。

因而，在本发明中，识别装置1对待识别视频进行识别的流程，即识别方法，具有以下步骤：

待识别视频处理步骤,针对待识别视频中的每一帧，检测人体目标并提取关节；

有效性判断步骤，根据所述关节的提取结果与人体目标的检测结果的关联程度，判断提取到的所述关节是否有效；

识别步骤，获取判断为有效的所述关节的关节坐标，使用所述关节坐标、预先训练好的训练模型和训练权重，对待识别视频中的人体动作类型进行识别。

由此，根据本发明，根据关节的提取结果与人体目标的检测结果的关联程度对关节坐标的提取进行了过滤，提高了关节坐标提取质量，保证了训练数据的可靠性，并针对视频中的每一帧，检测人体目标并提取关节，避免关键帧抽取造成的数据损失，从而能够提高动作识别的鲁棒性和准确率。

接着，参照图3，对本发明识别部13获取关节坐标的步骤进行说明。

图3为表示本发明的关节坐标的提取以及处理的流程图。

如图3所示，在本发明中，从训练视频中提取视频帧，针对每一帧的视频帧，进行人体目标的检测以及关节的提取。在检测到人体目标且提取到的关节的数量占规定关节数量的比例超过阈值时，算出人体目标的中心坐标以及每个关节的中心坐标。另外，在未检测到人体目标或者提取到的关节的数量占规定关节数量的比例未超过阈值时，返回重新从训练视频中提取视频帧。在此，阈值为根据训练精度、训练量等的需要而设定的值，例如图3中的30％。规定关节数量也可以根据训练精度、训练量等的需要而在训练模型中进行设定。在此，阈值主要影响模型精度和分析结果的连续性，如果阈值过大，会导致某一连续时段内没有结果输出。另外，规定关节数量优选为18个

接着，通过最近距离匹配，判断提取到的所述关节的中心坐标是否位于所述人体目标的中心坐标的边界框内。在此，人体目标的中心坐标的边界框是在对人体目标进行检测时设定的边界框，关节的中心坐标是提取到的所有关节组成的关节群的中心坐标。这里最近距离匹配的目的是为了在人数超过2个的时候，把关节坐标和目标检测到的人做匹配。例如，图像里面有2个人，人体目标检测有2个对象，同时人体关节也有2组，通过最近距离匹配来分配关节给对应的人。在判断提取到的关节的中心坐标位于人体目标的中心坐标的边界框内时，判断提取到的关节为有效，获取各个关节的关节绝对坐标，并将所述关节绝对坐标进行数据增广。在判断提取到的关节的中心坐标不位于人体目标的中心坐标的边界框内时，返回重新从训练视频中提取视频帧。在此，判断提取到的关节的中心坐标位于人体目标的中心坐标的边界框内是对分配后的关节坐标做进一步确认，要保证关节坐标中心在人体目标检测框内，这样的关节坐标中心才是有效的。另外，数据增广可以采用翻转、旋转、震荡等本领域常规的数据增广方法。

另外，还可以进一步判断提取到的所述关节是否全部位于人体目标的边界框内，在全部关节位于人体目标的边界框时，判断提取到的所述关节为有效，将提取到的所述关节分配给对于的人体目标，从而进一步确保关节提取的精度，提高动作识别的准确率。但是一般来说，提取到的关节的中心坐标位于人体目标的中心坐标的边界框内时，提取到的关节也全部位于人体目标的边界框内，因而也可以省略提取到的所述关节是否全部位于人体目标的边界框内这样的判断。

根据数据增广后的所述关节绝对坐标，算出判断为有效的每个关节的关节相对坐标。

关节绝对坐标为关节在视频帧(即，该帧图像)上的坐标，例如表示为

36D表示本发明使用36维数据，即数据增广后的18关节的关节绝对坐标一共有36个数据，ij为关节的编号。

关节相对坐标是关节之间的相对坐标，根据上述关节绝对坐标而计算获得。例如，通过下式计算获得。

最后，将同一关节的所述关节绝对坐标以及所述关节相对坐标进行拼接，作为所述关节坐标。

另外，虽然以上的说明是对从训练视频中提取和处理关节坐标进行的说明，但是从待识别视频中提取和处理关节坐标也是相同，因而省略详细的说明。

由此，根据本发明，由于对关节绝对坐标进行了数据增广，并增加了关节相对坐标，因此，能够增加数据集规模和丰富程度，能够提高动作识别的鲁棒性和准确率。并且，根据本发明，在以上关节绝对坐标的基础上，对每一个关节构建了关节相对坐标，能够降低动作类型的识别对空间位置和动作距离的依赖。

接着，参照图4-图8，对本发明中的训练模型的训练进行说明。

图4为表示本发明的获得训练好的训练模型的流程图。

如图4所示，在本发明中，将上述关节坐标按照时间序列分支和空间序列分支分别进行处理，在时间序列分支的处理上，将所述关节坐标使用注意力层进行处理，学习每个所述关节坐标对动作分类的权重，随后使用LSTM(Long Short-Term Memory，长短期记忆网络)层进行处理，输出时间序列分支特征，在空间序列分支的处理上，将所述关节坐标使用CNN(Convolutional Neural Networks,卷积神经网络)层进行处理，获得空间序列分支特征，随后使用注意力层进行处理，学习每个所述空间序列分支特征对动作分类的权重。将所述时间序列分支特征与所述空间序列分支特征进行横向拼接；使用全连接层处理拼接后的特征，进行动作类型的分类，从而获得训练好的所述训练模型，并生成所述训练权重。

在此，注意力层、LSTM层、CNN层的具体处理为本领域常规的处理方式，因此，省略了详细的说明。并且，虽然在此说明了将所述时间序列分支特征与所述空间序列分支特征进行横向拼接，但是虽然不优选，也能够使用其他拼接方式。

因此，在本发明中，在构件训练模型时，先引入基于关节坐标的注意力层再基于LSTM层提取时间序列上的动作变化特征，以固定时间长度内的动作变化作为特征，能够提高模型对时间序列上特征的动态捕捉能力。基于CNN的权值共享提取各个时刻的动作特征，然后以时间序列上这些动作特征在空间上的变化构造空间分支特征，进而加入基于空间分支特征的注意力层，能够提高模型对空间上动作特征的动态捕捉能力。横向拼接时间序列分支特征和空间序列分支特征中的特征，以全连接网络进行动作分类。随后，将上述获取到的关节坐标(训练数据)，输入上述构造的训练模型中，进行训练完成后，保存带权重的训练模型。

参照图5，对本发明的时间序列分支的处理以及增加关节相对坐标的效果进行说明。

图5为说明本发明的时间序列分支的处理以及增加关节相对坐标的效果的示意图，并且在图5中展示了36维坐标，即，36个关节坐标的例子。

如图5的a所示，在训练动作出现时，36维关节相对坐标权重比36维关节绝对坐标权重稍高，表明新增加特征(即关节相对坐标)对训练动作更重要。(见(1)所示箭头)。

如图5的b所示，在陌生动作出现时，36维关节相对坐标权重明显提升，表明新增加特征(即关节相对坐标)与陌生动作识别强相关。(见(2)所示箭头)。因而，增加关节相对坐标，并先引入注意力层再使用LSTM层提取时间序列上的动作变化特征(即，时间序列分支特征)，能够提高动作识别的灵敏度，提高动作识别，尤其是陌生动作识别的灵敏度。

接着，参照图6、图7对本发明中的空间分支处理进行详细说明。

图6为说明人体的动作和位置随时间变化示意图。如图6所示，人体在进行动作时，动作姿态和人体位置随着时间不断变化，人体的中心坐标以及各关节的坐标也不断变化。

因此，本发明的训练模型在空间分支处理时，首先如图7所示，在时间序列上，对各个关节的关节坐标进行卷积，学习人体动作在一段时间内的变化趋势。随后，在空间上对各个关节的相互关系进行卷积，提取出所述空间序列分支特征。之后，将提取到的所述空间序列分支特征拉平，使用注意力层进行处理，学习每个所述空间序列分支特征对动作分类的权重。

由此，根据本发明，能够获得高质量的空间序列分支特征，获得准确的训练权重，能够提高动作识别的准确率。

最后，参照图8对本发明中的时间序列分支特征与空间序列分支特征的横向拼接进行说明。

在图8中，示出了32个时间序列分支特征和32个空间序列分支特征的例子，但是时间序列分支特征和空间序列分支特征的数量不进行限定，能够根据训练精度、训练量等的需要而在训练模型中进行设定。

此外，在选择横向拼接时间序列分支特征和空间序列分支特征时，需要保证时间序列分支特征和空间序列分支特征的数量相同，例如，空间序列分支的网络输出特征数量选择为32。并且，为保证时间序列分支的网络输出特征数量为32，可以在在LSTM后补充全连接层，将其神经元数量选择为32。

随后，将所述时间序列分支特征与所述空间序列分支特征横向拼接即可。

通过将所述时间序列分支特征与所述空间序列分支特征横向拼接来获得整体特征，由于动作特征满足时间序列分支特征与所述空间序列分支特征中的一组就能够被训练模型识别出来，因此能够大幅度提高训练模型对动作类型的识别灵敏度。

以上对本发明的实施方式进行了说明，但实施方式仅作为举例说明，并不具有限定本发明范围的意图。这些实施方式能够通过其他各种形态实施，在不超出本发明主旨的范围内进行各种各样的省略、置换、变更、组合。这些实施方式和其变形包含在本发明范围和主旨中的同时，也包含在权利要求书中记载的发明以及与其均等的范围内。

Claims

1.一种动作类型的识别方法，其特征在于，具备：

有效性判断步骤，根据所述关节的提取结果与人体目标的检测结果的关联程度，判断提取到的所述关节是否有效；以及

2.如权利要求1所述的识别方法，其特征在于，

训练好的所述训练模型通过以下步骤获得：

针对训练视频中的每一帧，检测人体目标并提取关节；

根据所述关节的提取结果与人体目标的检测结果的关联程度，判断提取到的所述关节是否有效；

获取判断为有效的所述关节的关节坐标；

将所述关节坐标按照时间序列分支和空间序列分支分别进行处理，在时间序列分支的处理上，将所述关节坐标使用注意力层进行处理，学习每个所述关节坐标对动作分类的权重，随后使用LSTM层进行处理，输出时间序列分支特征，在空间序列分支的处理上，将所述关节坐标使用CNN层进行处理，获得空间序列分支特征，随后使用注意力层进行处理，学习每个所述空间序列分支特征对动作分类的权重；

将所述时间序列分支特征与所述空间序列分支特征进行拼接；

使用全连接层处理拼接后的特征，进行动作类型的分类，从而获得训练好的所述训练模型，并生成所述训练权重。

3.如权利要求1或2所述的识别方法，其特征在于，

在所述识别步骤中，通过以下步骤获得所述关节坐标：

针对每一帧的视频帧，进行人体目标的检测以及关节的提取；

在检测到人体目标且提取到的关节的数量占规定关节数量的比例超过阈值时，算出人体目标的中心坐标以及每个关节的中心坐标；

通过最近距离匹配，判断提取到的所述关节的中心坐标是否位于所述人体目标的中心坐标的边界框内；

在判断提取到的关节的中心坐标位于人体目标的中心坐标的边界框内时，判断提取到的关节为有效，获取各个关节的关节绝对坐标，并将所述关节绝对坐标进行数据增广；

根据数据增广后的所述关节绝对坐标，算出判断为有效的每个关节的关节相对坐标；

将同一关节的所述关节绝对坐标以及所述关节相对坐标进行拼接，作为所述关节坐标。

4.如权利要求2所述的识别方法，其特征在于，

所述空间序列分支的处理包括以下步骤：

在时间序列上对各个关节的关节坐标进行卷积；

在空间上对各个关节的相互关系进行卷积，提取出所述空间序列分支特征；

将提取到的所述空间序列分支特征拉平，使用注意力层进行处理，学习每个所述空间序列分支特征对动作分类的权重。

5.如权利要求2所述的识别方法，其特征在于，

所述时间序列分支特征的数量与所述空间序列分支特征的数量相同，

将所述时间序列分支特征与所述空间序列分支特征横向拼接。

6.一种动作类型的识别装置，其特征在于，具备：

输入部，其输入待识别视频；

存储部，其存储有训练好的训练模型以及训练权重；以及

识别部，其针对所述待识别视频中的每一帧，检测人体目标并提取关节，根据所述关节的提取结果与人体目标的检测结果的关联程度，判断提取到的所述关节是否有效，并获取判断为有效的所述关节的关节坐标，使用所述关节坐标、预先训练好的训练模型和训练权重，对待识别视频中的人体动作类型进行识别。

7.如权利要求6所述的识别装置，其特征在于，

所述训练模型通过以下方式获得：

针对训练视频中的每一帧，检测人体目标并提取关节；

获取判断为有效的所述关节的关节坐标；

8.如权利要求6或7所述的识别装置，其特征在于，

所述识别部通过以下方式获得所述关节坐标：

9.如权利要求7所述的识别装置，其特征在于，

所述空间序列分支的处理中，

在时间序列上对各个关节的关节坐标进行卷积；

10.如权利要求7所述的识别装置，其特征在于，

所述时间序列分支特征的数量与所述空间序列分支特征的数量相同，将所述时间序列分支特征与所述空间序列分支特征横向拼接。