CN113723185A

CN113723185A - 动作行为识别方法、装置、存储介质及终端设备

Info

Publication number: CN113723185A
Application number: CN202110842421.9A
Authority: CN
Inventors: 石武祯; 李丹
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-30
Anticipated expiration: 2041-07-26
Also published as: CN113723185B

Abstract

本申请实施例提供一种动作行为识别方法、装置、存储介质及终端设备，所述方法通过实时获取监控视频中的视频帧图像；从视频帧图像中提取关节点特征，其中，视频帧图像包括肢体无遮挡图像或肢体有遮挡图像；将关节点特征转化成关节坐标向量，将关节坐标向量输入预先创建的动作行为识别模型，输出与关节坐标向量对应的动作特征；通过分类网络对动作特征进行分类，得到动作类型；判断动作类型是否为预设类型，若是则向客户端发出提醒信息。本申请实施例解决现有的监控方式需要依赖人工肉眼判断，从而带来的人力成本上升以及人工监控存在实时性、准确性差的问题，还能够克服现实场景中存在部分肢体被物体遮挡导致难以识别准确动作的问题。

Description

动作行为识别方法、装置、存储介质及终端设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种动作行为识别技术领域，特别涉及一种动作行为识别方法、装置、存储介质及终端设备。

背景技术

在当今社会，监控设备的使用大大降低了违法犯罪事件的概率，也能帮助警方快速查清案件，提高了办事效率，另外，家用监控设备的应用也给人们带来了极大的便利，利用监控设备可以远程查看老人和小孩在家中的状况。但是，传统的监控设备生成的大量监控画面难以做到人力实时监控，事后回看监控设备也将耗费大量的人力物力。

发明内容

本申请实施例提供一种动作行为识别方法、装置、存储介质及终端设备，解决现有的监控方式需要依赖人工肉眼判断，从而带来的人力成本上升以及人工监控存在实时性、准确性差的问题，还能够克服现实场景中存在部分肢体被物体遮挡导致难以识别准确动作的问题。

本申请实施例一方面提供了一种动作行为识别方法，包括：

实时获取监控视频中的视频帧图像；

从所述视频帧图像中提取关节点特征，其中，所述视频帧图像包括肢体无遮挡图像或肢体有遮挡图像；

将所述关节点特征转化成关节坐标向量，将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征；

通过分类网络对所述动作特征进行分类，得到动作类型；

判断所述动作类型是否为预设类型，若是则向客户端发出提醒信息。

在本申请实施例所述的动作行为识别方法中，所述从所述视频帧图像中提取关节点特征，包括：

提取所述视频帧图像中的目标关节点坐标数据，将所述目标关节点坐标数据输入预先创建的卷积神经网络，得到特征图；

根据所述特征图得到关节点置信图和关节点亲和场；

基于所述关节点置信图和关节点亲和场，根据偶匹配连接属于同一个人的关节点，输出所述关节点特征。

提取所述视频帧图像中的目标关节点坐标数据，基于所述目标关节点坐标数据进行扩展得到多个不同模态的衍生坐标数据；

将所述目标关节点坐标数据及所述多个不同模态的衍生坐标数据输入预先创建的多流图卷积神经网络，得到分别对应所述目标关节点坐标数据及所述多个不同模态的衍生坐标数据的多个关节点子特征；

将所述多个关节点子特征进行融合得到所述关节点特征。

在本申请实施例所述的动作行为识别方法中，所述多流图卷积神经网络的输入训练样本包括所述目标关节点坐标数据及所述多个不同模态的衍生坐标数据；

其中，所述目标关节点坐标数据由所述视频帧图像提取得到；或

通过提取所述视频帧图像中的初始关节点坐标数据，对所述初始关节点坐标数据乘以不同的掩模，得到多个不同部位遮挡处理的所述目标关节点坐标数据。

在本申请实施例所述的动作行为识别方法中，所述掩模包括左臂、右臂、左腿、右腿和躯干。

在本申请实施例所述的动作行为识别方法中，，所述动作行为识别模型包括多个时空图卷积网络模型，其中，所述多个时空图卷积网络模型的输入分别对应不同的关节坐标向量。

在本申请实施例所述的动作行为识别方法中，所述将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征，包括：

将所述关节坐标向量分别输入所述多个时空图卷积网络模型中，交替使用图卷积和时域卷积来对空间和时间维度进行变换，得到与所述关节坐标向量对应的多个目标特征向量；

将所述多个目标特征向量分别送入全连接层得到对应的输出结果，将各个流的输出结果相加得到所述动作特征。

相应的，本申请实施例另一方面还提供了一种动作行为识别装置，包括：

获取模块，用于实时获取监控视频中的视频帧图像；

提取模块，用于从所述视频帧图像中提取关节点特征，其中，所述视频帧图像包括肢体无遮挡图像或肢体有遮挡图像；

输出模块，用于将所述关节点特征转化成关节坐标向量，将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征；

分类模块，用于通过分类网络对所述动作特征进行分类，得到动作类型；

判断模块，用于判断所述动作类型是否为预设类型，若是则向客户端发出提醒信息。

相应的，本申请实施例另一方面还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上所述的动作行为识别方法。

相应的，本申请实施例另一方面还提供了一种终端设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令以执行如上所述的动作行为识别方法。

本申请实施例提供了一种动作行为识别方法、装置、存储介质及终端设备，所述方法通过实时获取监控视频中的视频帧图像；从所述视频帧图像中提取关节点特征，其中，所述视频帧图像包括肢体无遮挡图像或肢体有遮挡图像；将所述关节点特征转化成关节坐标向量，将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征；通过分类网络对所述动作特征进行分类，得到动作类型；判断所述动作类型是否为预设类型，若是则向客户端发出提醒信息。本申请实施例解决现有的监控方式需要依赖人工肉眼判断，从而带来的人力成本上升以及人工监控存在实时性、准确性差的问题，还能够克服现实场景中存在部分肢体被物体遮挡导致难以识别准确动作的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的动作行为识别方法的流程示意图。

图2为本申请实施例中多流图卷积神经网络的整体流程图。

图3为本申请实施例中时空图卷积的整体流程图。

图4为本申请实施例提供的动作行为识别装置的结构示意图。

图5为本申请实施例提供的动作行为识别装置的另一结构示意图。

图6为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

本申请实施例提供一种动作行为识别方法，所述动作行为识别方法可以应用于终端设备中。所述终端设备可以是电脑、智能手机、平板电脑等设备，在本方案中主要是应用在电脑中。所述动作行为识别方法可以应用于视频监控，体育运动和短视频等领域。当所述动作行为识别方法应用在监控视频监控领域中时，能自动识别监控视频中存在指定类型的动作(例如打架斗殴)的画面并选择是否自动报警或者通知用户。在公共区域能够自动判断是否有违法犯罪现象并实时报警，在家用监控中能够判断是否有危险动作发生，并及时告知家人。当所述动作行为识别方法应用在体育运动领域中时，能够自动识别用户做出的动作是否规范，协助用户完成正确的体育动作，从而达到提高运动性能的目的。当所述动作行为识别方法应用在短视频领域中时，如抖音、快手、西瓜视频等，能够自动识别用户上传的作品中是否包含有危险动作，或者不符合传播条件的动作，不需要借助人工审核，且能够提高短视频的审核效率。

除此以外，所述动作行为识别方法还能够解决现实场景中存在部分肢体被物体遮挡导致难以识别准确动作的问题，提高了本方案实施例提供的动作行为识别方法的实用性和环境适应能力。基于本方案提供的动作行为识别方法，解决现有的监控方式需要依赖人工肉眼判断，从而带来的人力成本上升以及人工监控存在实时性、准确性差的问题，还能够克服现实场景中存在部分肢体被物体遮挡导致难以识别准确动作的问题。

请参阅图1-3，图1为本申请实施例提供的动作行为识别方法的流程示意图。所述动作行为识别方法，应用于终端设备中，所述方式可以包括以下步骤：

步骤101，实时获取监控视频中的视频帧图像。

在本实施例中，监控视频可以是指公共区域摄像头采集到的监控视频，也可以是指家用监控摄像头采集到的监控视频，也可以是指手机摄像头采集到的监控视频，也可以是指网络摄像头采集到的监控视频。

步骤102，从所述视频帧图像中提取关节点特征，其中，所述视频帧图像包括肢体无遮挡图像或肢体有遮挡图像。

与RGB视频相比，骨骼数据不受背景、光照和视角等因素的影响，对环境具有鲁棒性，同时基于骨骼的动作识别方法计算能力的要求也大大降低。因此，在本实施例中，通过从视频帧图像中提取关节点特征来进行动作行为识别。

从视频帧图像中提取关节点特征的具体过程包括：

提取视频帧图像中的目标关节点坐标数据，将目标关节点坐标数据输入预先创建的卷积神经网络，得到特征图；

根据特征图得到关节点置信图(Part Confidence Maps)和关节点亲和场(PartAffinity Fields)；

基于关节点置信图和关节点亲和场，根据偶匹配(Bipartite Matching)连接属于同一个人的关节点，输出关节点特征。

具体地，通过使用关节点亲和场来设置视频帧图像中四肢位置和方向的2D矢量，同时使用关节点置信图标记每个关键点的置信度来联合学习关键点位置和它们之间的联系。针对偶匹配，利用贪婪分析算法(Greed parsing Algorithm)来推断关节点的检测和关节点之间的关联方式。

其中，视频帧图像包括肢体无遮挡图像或肢体有遮挡图像，使得本实施例的动作行为识别方法能够同时适用于肢体无遮挡的动作识别场景，以及适用于存在肢体被物体遮挡的动作识别场景。

在一些实施例中，从视频帧图像中提取关节点特征的具体过程包括：

将所述多个关节点子特征进行融合得到所述关节点特征。

在本实施例中，通过提取视频帧图像中的目标关节点坐标数据，并基于目标关节点坐标数据进行扩展得到多个对应不同模态的衍生坐标数据，将目标关节点坐标数据及多个不同模态的衍生坐标数据输入多流图卷积网络(MSFGCN)，得到分别对应目标关节点坐标数据及多个不同模态的衍生坐标数据的多个关节点子特征，再将多个关节点子特征进行融合得到关节点特征。

需要说明的是，对比由视频帧图像中的目标关节点坐标数据直接转化得到关节点特征的特征获取方式，本实施例引入了衍生坐标数据。在本实施例中，关节点特征由目标关节点坐标数据，及通过目标关节点坐标数据衍生出的多个衍生坐标数据对应的关节点子坐标融合而成，其中，目标关节点坐标数据相当于从视频帧图像中提取出的原始关节点坐标数据，即从视频帧图像直接提取到的关节点坐标数据。而衍生坐标数据是基于目标关节点坐标数据得到的与目标关节点坐标数据有关联性的关节点坐标数据，在本实施例中，衍生坐标数据指的是相对坐标、小尺度帧差和大尺度帧差，目标关节点坐标数据、相对坐标、小尺度帧差和大尺度帧差对应本实施例中的不同模态。多流图卷积神经网络包括四条流通道，分别对应目标关节点坐标数据、相对坐标、小尺度帧差和大尺度帧差四种模态的数据，并最终融合四条流通到输出的关节点子特征得到关节点特征。

相对坐标X_r为目标关节点坐标数据与中心节点的差值。小尺度帧差表示为X_s＝{x_s|s<＝T},其中x_s＝x_t+1-x_t，即相邻两帧视频帧图像的节点坐标数据的差值，x_t为第t帧的关节点坐标，T为视频序列的帧数。大尺度帧差为X_l＝{x_l|l<＝T}其中x₁＝x_t+τ-x_t，x_t+τ表示第t+τ帧的关节点坐标，T为视频序列的帧数，其中τ为间隔的帧数，在我们的实验中τ取10。

加入相对坐标可以使输入数据对位置变化具有更强的鲁棒性。在视频序列中，人体动作由一系列连续的帧组成，帧与帧之间的差异可以表示为动作的运动特征，小尺度帧差能提取运动幅度大的特征，如跑步等运动，双手在短时间内大幅度摆动，相邻的帧之间的差异即为运动信息。大尺度帧差能够提取运动幅度小的特征，像走路这种小幅度，速度也较为缓慢的动作。通过融合目标关节点坐标数据、相对坐标、小尺度帧差和大尺度帧差得到的关节点特征能够提取到更有鉴别性的特征，使最终识别出的动作类型更加准确。

在一些实施例中，所述多流图卷积神经网络的输入训练样本包括所述目标关节点坐标数据及所述多个不同模态的衍生坐标数据；

在一实施例中，目标关节点坐标数据可以是由视频帧图像提取得到。在另一实施例中，目标关节点坐标数据也可以是先通过提取视频帧图像中的初始关节点坐标数据，对初始关节点坐标数据乘以不同的掩模得到，其中，掩模包括左臂、右臂、左腿、右腿和躯干，即包含了实际场景中人体可能被物体遮挡的五种情况，使得训练得到的多流图卷积神经网络能够识别肢体被遮挡的视频帧图像中的动作类型。

步骤103，将所述关节点特征转化成关节坐标向量，将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征。

在本实施例中，动作行为识别模型包括多个时空卷积网络模型，其中，多个时空卷积网络模型的输入层分别对应不同的关节坐标向量。

具体地，时空卷积网络模型包含六个，第一个输入的是没有对肢体进行遮挡的关节坐标向量，用于提取完整的特征，保证网络在输入完整的骨骼数据时能够准确识别输入数据的动作类别。剩下的五个时空卷积网络模型分别对应遮挡左臂的关节坐标向量、遮挡右臂的关节坐标向量、遮挡左腿的关节坐标向量、遮挡右腿的关节坐标向量和遮挡躯干的关节坐标向量。通过分别遮挡这五个部分以模拟不同情况的遮挡，将不同的关节坐标向量分别输入多个时空卷积网络模型中，交替使用图卷积和时域卷积来对空间和时间维度进行变换，得到与关节坐标向量对应的多个目标特征向量，将多个目标特征向量分别送入全连接层得到对应的输出结果，将各个流的输出结果相加得到动作特征。因为人的行为中，不同的身体躯干起到的重要性不同，因此对不同躯干进行加权，以此来更好的识别动作类型。

需要解释的是，骨骼序列通常表示为关节点的二维或三维坐标，在每一帧中，这些关节点根据人体的物理结构自然连接，在时间维度上，相同的关节点相互连接。对于一个包含T帧的骨骼序列，我们将骨骼图表示为G＝(V,E)，其中V表示骨骼序列中所有的关节点，E表示关节点与关节点之间的连接。时空图卷积由图卷积层和时域卷积层构成，每个卷积层后边都添加了BN(Batch Normalization，批归一化)层ReLU(Rectified Linear Unit，线性整流函数)层，为了避免过拟合，我们在图卷积单元后以0.5的概率随机剔除特征，为了稳定训练，为每个时空图卷积块都添加了一个残差连接。

在空间维度上，人体关节点按照人体的物理属性自然连接，以拓扑图的形式存在，传统的卷积操作无法处理这样的数据，在本实施例中，对拓扑图上节点V_i进行卷积可以表示为：

其中B_i表示节点V_i的相邻节点，f(v)表示节点v的特征，w表示学习到的权重。在2D卷积中，每个像素点都有其固定的邻接点，并且这些邻接点可以按照固定的顺序被索引，但是在拓扑图中，节点的邻接点不是固定的，也不能以一种固定的顺序被索引，因此我们通过划分邻接点到不同的子集的这种方法得到邻接点的索引顺序，每个子集共享一个权值。这样，节点V_i的邻接点被划分到K_v个子集内，即可得到K_v个对应的子集标签l，l(v)表示节点v对应的子集标签，Z_ij表示对应子集的基数。按照距离将邻接点划分为三类，分别是距离为0的邻接点(节点本身)、距离为1的邻接点和距离为2的邻接点。在单帧情况下的图卷积可以由以下公式实现：

其中，K_v表示空间维度上卷积核的大小，即将邻接点划分为K_v个子集，邻接矩阵A_k表示邻接矩阵的第k个部分，M_k是表示每个节点重要性的一个掩模，初始值为1。这里的

表示点乘。

在时间维度上，相邻的帧之间相同的节点之间具有连接关系，时域卷积则是用一个大小为K_t*1的卷积核对输入数据进行卷积操作，其中K_t为时域卷积核的大小。

步骤S104，通过分类网络对所述动作特征进行分类，得到动作类型。

在本实施例中，每个时空卷积网络模型最后一个模块都是一个全连接层，全连接层是将提取到的特征转换为一个N*1的向量，其中N表示动作的总类别数，然后经过Softmax分类器可以得到预测的动作类别的概率，其中概率最高的那个标签即为预测的动作类别。使用交叉熵损失函数对模型进行约束，通过最小化损失函数，似的模型达到收敛状态，提高识别准确率。

传统的方法通常只有一个时空图卷积网络模型，也就只有一个输出，使用一个交叉熵损失函数即可对模型进行约束。而传统的采用多个时空图卷积网络模型的方法，是将每个时空卷积图网络模型分开进行训练，各个时空图卷积网络模型之间没有约束。本方案实施例的方法使用的多个时空图卷积网络模型融合网络，每个时空图卷积网络模型都用交叉熵损失函数进行约束，用来确保每个时空卷积网络模型都能达到较好的识别效果。本方案实施例的模型会出现多个输出结果，将各个时空图卷积网络模型的输出结果相加得到最终的输出，这个输出也使用交叉熵损失函数进行约束。最终的损失函数为：

其中，y为真实的动作类型标签，

为所述全连接层的输出结果的和，i为所述时空卷积网络模型的序号。

步骤S105，判断所述动作类型是否为预设类型，若是则向客户端发出提醒信息。

在本实施例中，通过设定预设类型，并将识别到的动作类型与预设类型进行比较，当比较结果一致则向客户端发出提醒信息。

进一步地，为了证明本方案实施例提供的动作行为识别方法的有效性，做出了以下测试实例：

在NTU-RGBD 60数据集上使用CS基准和NTU-RGBD 120数据集上使用CSet基准进行测试，测试结果如表1所示，ST-GCN为2018年提出的时空图卷积方法，RAGCN为2020年提出的富激活图卷积方法，无表示在无遮挡的数据集上的识别准确率，1-5分别表示遮挡人体的左臂、右臂、双手、双腿和躯干后的识别准确率。与现有方法相比，在NTU-RGBD 60数据集的CS基准上，本方案实施例的动作行为识别方法达到了最优的效果。

表1在NTU 60和NTU 120两种基准上与其他方法的识别率(％)比较

数据集	模型名称	无	1	2	3	4	5
									ST-GCN	80.7	71.4	60.5	62.6	77.4	50.2
NTU 60	RAGCN	87.3	75.9	62.1	69.2	83.3	72.8
									MSFGCN	88.1	77.8	64.7	77.9	85.1	77.6
	ST-GCN	73.2	59.7	47.3	52.5	68.5	48.5
								NTU 20	RAGCN	82.7	68.5	54.9	57.5	79.0	69.9
	MSFGCN	81.4	69.1	55.8	52.6	78.3	70.2

同时，还测试了单流时空图卷积网络和多流融合图卷积网络的识别性能，另外还测试了加入大尺度运动信息的必要性，如表2所示，1-5分别表示遮挡人体的左臂、右臂、双手、双腿和躯干后的识别准确率。Single-stream表示在单流网络上的识别准确率。Multi-stream表示在多流网络上的识别准确率，这里的多流网络是未添加大尺度帧差的多流融合网络。与单流网络相比，多流网络在完整数据集和部分遮挡数据集上都取得了优异的性能。MSFGCN为本方案实施例提出的多流融合图卷积网络，将大尺度帧差作为大尺度运动信息加入多模态数据中进行实验，实验结果表明，加入大尺度运动信息后，模型在完整数据集上的识别性能提高了0.2％，在遮挡右臂、双手和双腿的数据集上的识别性能分别提高了1.5％、2.3％和0.1％。

表2在NTU 60数据集CS基准上的识别率(％)

模型名称	无	1	2	3	4	5
							Single-stream	85.0	72.2	58.9	55.4	79.6	66.4
Multi-stream	87.9	77.8	63.2	75.6	85.0	78.0
							MSFGCN	88.1	77.8	64.7	77.9	85.1	77.6

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提供的动作行为识别方法通过实时获取监控视频中的视频帧图像；从所述视频帧图像中提取关节点特征，其中，所述视频帧图像包括肢体无遮挡图像或肢体有遮挡图像；将所述关节点特征转化成关节坐标向量，将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征；通过分类网络对所述动作特征进行分类，得到动作类型；判断所述动作类型是否为预设类型，若是则向客户端发出提醒信息。本申请实施例解决现有的监控方式需要依赖人工肉眼判断，从而带来的人力成本上升以及人工监控存在实时性、准确性差的问题，还能够克服现实场景中存在部分肢体被物体遮挡导致难以识别准确动作的问题。

本申请实施例还提供一种动作行为识别装置，所述动作行为识别装置可以集成在终端设备中。所述终端设备可以是智能手机、平板电脑等设备。

请参阅图4，图4为本申请实施例提供的动作行为识别装置的结构示意图。动作行为识别装置30可以包括：

获取模块31，用于实时获取监控视频中的视频帧图像；

提取模块32，用于从所述视频帧图像中提取关节点特征，其中，所述视频帧图像包括肢体无遮挡图像或肢体有遮挡图像；

输出模块33，用于将所述关节点特征转化成关节坐标向量，将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征；

分类模块34，用于通过分类网络对所述动作特征进行分类，得到动作类型；

判断模块35，用于判断所述动作类型是否为预设类型，若是则向客户端发出提醒信息。

在一些实施例中，所述提取模块32，用于提取所述视频帧图像中的目标关节点坐标数据，将所述目标关节点坐标数据输入预先创建的卷积神经网络，得到特征图；根据所述特征图得到关节点置信图和关节点亲和场；基于所述关节点置信图和关节点亲和场，根据偶匹配连接属于同一个人的关节点，输出所述关节点特征。

在一些实施例中，所述提取模块32，用于提取所述视频帧图像中的目标关节点坐标数据，基于所述目标关节点坐标数据进行扩展得到多个不同模态的衍生坐标数据；将所述目标关节点坐标数据及所述多个不同模态的衍生坐标数据输入预先创建的多流图卷积神经网络，得到分别对应所述目标关节点坐标数据及所述多个不同模态的衍生坐标数据的多个关节点子特征；将所述多个关节点子特征进行融合得到所述关节点特征。

在一些实施例中，所述输出模块33，用于将所述关节坐标向量分别输入所述多个时空卷积网络模型中，交替使用图卷积和时域卷积来对空间和时间维度进行变换，得到与所述关节坐标向量对应的多个目标特征向量；将所述多个目标特征向量分别送入全连接层得到对应的输出结果，将各个流的输出结果相加得到所述动作特征。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现。

由上可知，本申请实施例提供的动作行为识别装置30，通过获取模块31时获取监控视频中的视频帧图像；提取模块32从所述视频帧图像中提取关节点特征，其中，所述视频帧图像包括肢体无遮挡图像或肢体有遮挡图像；输出模块33将所述关节点特征转化成关节坐标向量，将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征；分类模块34通过分类网络对所述动作特征进行分类，得到动作类型；判断模块35判断所述动作类型是否为预设类型，若是则向客户端发出提醒信息。

请参阅图5，图5为本申请实施例提供的动作行为识别装置的另一结构示意图，振动动作行为识别装置30包括存储器120、一个或多个处理器180、以及一个或多个应用程序，其中该一个或多个应用程序被存储于该存储器120中，并配置为由该处理器180执行；该处理器180可以包括获取模块31，提取模块32，输出模块33，分类模块34以及判断模块35。例如，以上各个部件的结构和连接关系可以如下：

存储器120可用于存储应用程序和数据。存储器120存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器180通过运行存储在存储器120的应用程序，从而执行各种功能应用以及数据处理。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180对存储器120的访问。

处理器180是装置的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器120内的应用程序，以及调用存储在存储器120内的数据，执行装置的各种功能和处理数据，从而对装置进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等。

具体在本实施例中，处理器180会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器120中，并由处理器180来运行存储在存储器120中的应用程序，从而实现各种功能：

获取模块31，用于实时获取监控视频中的视频帧图像；

本申请实施例还提供一种终端设备。所述终端设备可以是智能手机、平板电脑等设备。

请参阅图6，图6示出了本申请实施例提供的终端设备的结构示意图，所述终端设备可以用于实施上述实施例中提供的动作行为识别方法。所述终端设备1200可以为电脑或智能手机或平板电脑。

如图6所示，终端设备1200可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上(图中仅示出一个)计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上(图中仅示出一个)处理核心的处理器180以及电源190等部件。本领域技术人员可以理解，图6中示出的终端设备1200结构并不构成对终端设备1200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。RF电路110可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。

存储器120可用于存储软件程序以及模块，如上述实施例中动作行为识别方法对应的程序指令/模块，处理器180通过运行存储在存储器120内的软件程序以及模块，从而执行各种功能应用以及数据处理，可以根据终端设备所处的当前场景来自动选择振动提醒模式来进行动作行为识别，既能够保证会议等场景不被打扰，又能保证用户可以感知来电，提升了终端设备的智能性。存储器120可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器120可进一步包括相对于处理器180远程设置的存储器，这些远程存储器可以通过网络连接至电子设备1200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备1200的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图4中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输出功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端设备1200还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端设备1200移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端设备1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端设备1200之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端设备，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端设备1200的通信。

终端设备1200通过传输模块170(例如Wi-Fi模块)可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了传输模块170，但是可以理解的是，其并不属于终端设备1200的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端设备1200的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端设备1200的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；在一些实施例中，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端设备1200还包括给各个部件供电的电源190，在一些实施例中，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端设备1200还可以包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等，在此不再赘述。具体在本实施例中，终端设备1200的显示单元140是触摸屏显示器，终端设备1200还包括有存储器120，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器120中，且经配置以由一个或者一个以上处理器180执行一个或者一个以上程序包含用于进行以下操作的指令：

实时获取监控视频中的视频帧图像；

通过分类网络对所述动作特征进行分类，得到动作类型；

在一些实施例中，所述提取指令用于提取所述视频帧图像中的目标关节点坐标数据，将所述目标关节点坐标数据输入预先创建的卷积神经网络，得到特征图；根据所述特征图得到关节点置信图和关节点亲和场；基于所述关节点置信图和关节点亲和场，根据偶匹配连接属于同一个人的关节点，输出所述关节点特征。

在一些实施例中，所述提取模块指令用于提取所述视频帧图像中的目标关节点坐标数据，基于所述目标关节点坐标数据进行扩展得到多个不同模态的衍生坐标数据；将所述目标关节点坐标数据及所述多个不同模态的衍生坐标数据输入预先创建的多流图卷积神经网络，得到分别对应所述目标关节点坐标数据及所述多个不同模态的衍生坐标数据的多个关节点子特征；将所述多个关节点子特征进行融合得到所述关节点特征。

在一些实施例中，所述输出模块指令用于将所述关节坐标向量分别输入所述多个时空卷积网络模型中，交替使用图卷积和时域卷积来对空间和时间维度进行变换，得到与所述关节坐标向量对应的多个目标特征向量；将所述多个目标特征向量分别送入全连接层得到对应的输出结果，将各个流的输出结果相加得到所述动作特征。

本申请实施例还提供一种终端设备。所述终端设备可以是电脑、智能手机、平板电脑等设备。

由上可知，本申请实施例提供了一种终端设备1200，所述终端设备1200执行以下步骤：通过实时获取监控视频中的视频帧图像；从所述视频帧图像中提取关节点特征，其中，所述视频帧图像包括肢体无遮挡图像或肢体有遮挡图像；将所述关节点特征转化成关节坐标向量，将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征；通过分类网络对所述动作特征进行分类，得到动作类型；判断所述动作类型是否为预设类型，若是则向客户端发出提醒信息。本申请实施例解决现有的监控方式需要依赖人工肉眼判断，从而带来的人力成本上升以及人工监控存在实时性、准确性差的问题，还能够克服现实场景中存在部分肢体被物体遮挡导致难以识别准确动作的问题。

本申请实施例还提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，所述计算机执行上述任一实施例所述的动作行为识别方法。

需要说明的是，对本申请所述动作行为识别方法而言，本领域普通测试人员可以理解实现本申请实施例所述动作行为识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读存储介质中，如存储在终端设备的存储器中，并被所述终端设备内的至少一个处理器执行，在执行过程中可包括如所述动作行为识别方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述动作行为识别装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的动作行为识别方法、装置、存储介质及终端设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种动作行为识别方法，其特征在于，包括：

实时获取监控视频中的视频帧图像；

通过分类网络对所述动作特征进行分类，得到动作类型；

2.如权利要求1所述的动作行为识别方法，其特征在于，所述从所述视频帧图像中提取关节点特征，包括：

根据所述特征图得到关节点置信图和关节点亲和场；

3.如权利要求2所述的动作行为识别方法，其特征在于，所述从所述视频帧图像中提取关节点特征，包括：

将所述多个关节点子特征进行融合得到所述关节点特征。

4.如权利要求3所述的动作行为识别方法，其特征在于，所述多流图卷积神经网络的输入训练样本包括所述目标关节点坐标数据及所述多个不同模态的衍生坐标数据；

5.如权利要求4所述的动作行为识别方法，其特征在于，所述掩模包括左臂、右臂、左腿、右腿和躯干。

6.如权利要求5所述的动作行为识别方法，其特征在于，所述动作行为识别模型包括多个时空图卷积网络模型，其中，所述多个时空图卷积网络模型的输入层分别对应不同的关节坐标向量。

7.如权利要求6所述的动作行为识别方法，其特征在于，所述将所述关节坐标向量输入预先创建的动作行为识别模型，输出与所述关节坐标向量对应的动作特征，包括：

8.一种动作行为识别装置，其特征在于，包括：

获取模块，用于实时获取监控视频中的视频帧图像；

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的动作行为识别方法。

10.一种终端设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令以执行权利要求1至8任一项所述的动作行为识别方法。