CN110738101A

CN110738101A - 行为识别方法、装置及计算机可读存储介质

Info

Publication number: CN110738101A
Application number: CN201910832181.7A
Authority: CN
Inventors: 罗郑楠; 周俊琨; 肖玉宾; 许扬
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2020-01-31
Anticipated expiration: 2039-09-04
Also published as: WO2021042547A1; CN110738101B

Abstract

本方案涉及人工智能，提供一种行为识别方法、装置及存储介质，方法包括：将视频流分割为图像帧序列；检测每一帧图像中的人体轮廓，并用第一矩形框将每个人体标记出来；计算每一帧图像中任两个第一矩形框之间的距离；若某一帧图像中两个第一矩形框之间的距离小于阈值，采用二人组合框将两个第一矩形框包围；查找前后多帧图像，将与二人组合框中相同的两个人都形成二人组合框，并将该帧图像及前后多帧图像中的二人组合框组成二人组合框序列；将二人组合框序列输入到神经网络模型中进行行为识别。本发明避免多余的背景给神经网络模型造成大量的计算量，又保留了两个人之间的对于行为判断有价值的特征，提升了在复杂场景下行为识别的准确率。

Description

行为识别方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能，具体地说，涉及一种行为识别方法、装置及计算机可读存储介质。

背景技术

目前在安防领域中，对于视频中的人体的行为判定是一个常常遇到的问题。通过摄像头检测当前区域内的事件，例如：检测当前区域内的活动的人体，并识别人体的行为活动。在传统的行为识别领域当中，通常是抽取视频帧中的人体轮廓，针对人体轮廓的姿态变化等来进行识别判断属于哪种行为类别然而在背景更为复杂场景下，或者背景中有更多的他人干扰时，单纯的以人体姿态变化作为一种行为识别的分类问题处理就会有较大的误判率。

另外，两个人体之间的行为，两人之间的背景对于行为是否发生具有非常有价值的判断依据，而两人之间区域以外的背景，对于行为是否发生的判断则基本没有什么价值，并且，对于监控视频来说，通常人体较小，背景较大，将这种视频中的一帧的图像直接输入到神经网络模型中计算，势必造成巨大的计算量。

发明内容

为解决以上技术问题，本发明提供一种行为识别方法，应用于电子装置，包括以下步骤：

S1，获取视频流，将视频流分割为由多帧图像组成的图像帧序列；

S2，检测每一帧图像中的人体轮廓，并用第一矩形框将每个人体标记出来；

S3，计算每一帧图像中任意两个第一矩形框之间的距离；

S4，若某一帧图像中两个第一矩形框之间的距离小于设定的距离阈值，则采用二人组合框将所述两个第一矩形框包围，其中，二人组合框是包围所述两个第一矩形框的最小矩形框；

S5，查找所述某一帧图像的前后多帧图像，将与所述二人组合框中相同的两个人都形成二人组合框，并将所述某一帧图像以及前后多帧图像中的二人组合框组成二人组合框序列；

S6，将所述二人组合框序列输入到神经网络模型中，通过神经网络模型进行人体行为识别，得到识别结果，确认是否属于预设行为类别。

另外，本发明还提供一种电子装置，该电子装置包括：存储器和处理器，所述存储器中存储有行为识别程序，所述行为识别程序被所述处理器执行时实现如下步骤：

S3，计算每一帧图像中任意两个第一矩形框之间的距离；

另外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现如上所述的行为识别方法。

本发明将图像中两个人体以及两个人体之间的区域与其他区域切分开来，去除了两个人体之间以外的背景，既能够避免多余的背景给神经网络模型造成大量的计算量，又能够保留两个人体之间的对于行为识别判断非常有价值的特征。并且可以有效的消除无关的人对于行为判断的干扰，大大提升了在复杂场景下行为识别的准确率。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是本发明实施例的行为识别方法的流程示意图；

图2是本发明实施例的背景对于行为识别的影响的一个实例示意图；

图3是本发明实施例的神经网络模型的结构示意图；

图4是本发明实施例的电子装置的硬件架构示意图；

图5是本发明实施例的行为识别程序的模块示意图。

具体实施方式

下面将参考附图来描述本发明所述的行为识别方法、装置及计算机可读存储介质的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

本发明的行为识别方法可以用于对一些两人之间的交互行为的识别，例如问候、尾随、打架、偷窃等等两人之间的行为。本实施例仅以两人之间打架行为为例进行说明。

图1为本发明实施例提供的行为识别方法的流程示意图，该方法包括以下步骤：

S1，获取视频流，将视频流分割为图像帧序列，即一帧一帧的图像。

S2，对于每一帧图像，检测每帧图像中的人体轮廓，定位人体轮廓的位置，并用第一矩形框将每个人体框选出来。检测图像中的人体轮廓采用神经网络方法来确定。具体说，通过滑动窗口在图像上滑动，并通过CNN(卷积神经网络)模型对滑动窗口中的物体进行分类，从而确定滑动窗口中是否有人体。每一帧图像作为CNN模型的输入，CNN模型的输出可以是“人体”、“非人体”两个分类，当然也可以是多于两个的分类。CNN模型进行人体识别的时候仅是识别出图像中的人体，而要进行位置标注，则还需要再输出更多的参数。例如，当CNN模型的输出分类到“人体”中，还输出滑动窗口的四个角点的坐标，从而将人体框选出来。

CNN模型从左到右、从上到下滑动窗口，利用SVM分类器识别目标。使用不同大小和宽高比的窗口，滑动窗口框选出的区域送入CNN神经网络进行特征提取，并将提取的空间特征送入SVM分类器进行分类，从而确定出每一帧图像中是否有人体，并用第一矩形框将人体框上。

S3，计算图像中任意两个人体轮廓之间的距离。其中，计算图像中任意两人的轮廓之间的距离，可以是根据标定的人体轮廓的第一矩形框的角点的坐标来计算，例如，计算两个第一矩形框100的左下角坐标之间的距离，即可得到两个人体轮廓之间的距离。

S4，若某一帧图像中，有两个人的人体轮廓之间的距离小于设定的距离阈值，则采用二人组合框200将这两人框选出来，其中，二人组合框是包围两个矩形框的最小矩形框，从而形成二人组合框。

S5，采用ReID(行人重识别方法)判断该帧图像前后b帧图像中的人体是否为同一人。也就是说，找到前后b帧图像中的相同的人，并同样将两人之间形成二人组合框，并将该帧以及前后b帧图像中的两个人的二人组合框组成一个二人组合框序列。对于图像中的多个人，可以分别形成多个二人组合框序列。其中，ReID不仅考虑图像的内容信息，还考虑帧与帧之间的运动信息。利用CNN来提取空间特征的同时利用RNN(递归循环网络)来提取时序特征。每张图像都经过一个CNN提取出人体轮廓，之后这些人体轮廓输入到一个RNN网络去提取最终的特征。最终的特征融合了单帧图像的空间特征和帧与帧之间的光流图特征，从而判断多帧图像中的人体是否为同一人。

S6，将多个二人组合框序列输入到神经网络模型中，通过神经网络模型对输入的图像进行人体行为识别，得到识别结果，确认是否属于预设行为类别。对于打架行为，则是进行“打架”、“非打架”的分类。从而判断多个二人组合框内的二人是否有打架行为。

其中，二人组合框中保留了两人之间的背景，两人之间的背景可能是例如刀具、酒瓶等物体，这有助于对于是否打架的判断。例如刀具，两人之间的刀具有可能是切割物体用，也有可能是打架用。还有酒瓶，可能是喝酒用，也可能是作为凶器打架用。那么可以针对这些背景来设定训练数据，例如，刀具同时接触到两个人，则认定为打架，刀具扬起的高度超过肩部，则认定为打架。刀具上有血迹，则认定为打架。同样地，酒瓶被一人握住，且扬起的高度超过肩部，则认定为打架的可能性大。酒瓶被一人握住，瓶口朝下，但瓶口下方并没有酒杯，也认为打架的可能性大。酒瓶上有血迹，则认定为打架。凶器还可能有很多，砖头、扳手、锤子等等各种硬质的东西都可能会作为凶器，通过结合不同的物体的特点设定物体的状态和位置来认定打架的机率。

另外，两人之间还可能有另一个人体。而两人之间的人体也可能参与了两人之间的打斗，也可能没有参与。所以，在将某两人的组合框序列进行是否打架的判断后，并可以根据前面的计算结果来对后面的计算产生影响。例如，如图2所示，中间的人和左边的人、右边的人都已经进行了打架判断，并确定中间的人与左边的人、右边的人都打架了。那么左边的人和右边的人打架的可能性小，或者，左边的人与中间的人打架了，那么左边的人和右边的人打架的机率，中间的人和右边的人打架的机率也相对较大。可以在设定训练数据集的时候，根据不同的情况设定打架机率，并结合两人的其他肢体动作来综合判断是否打架。

另外，背景还可能包括一些打斗过程中接触碰撞到的物体的变位，例如柜子倒了，物品杂乱散落一地，以及地上是否有血迹、有其他倒下的人体等。这些都可以用来辅助判断是否有打架行为。通过结合背景来综合评价是否打架，能够使得判断结果更加准确。

以上仅是举例说明一些背景对于打架行为判断的影响，针对背景的各种情况可以分别设定打架的机率，用于训练神经网络模型。

另外，通过二人组合框将包围两个人体的矩形框包围，也就是将原有的图像进行了切分，将两个人体以及两个人体之间的区域与背景分离，去除了两个人体之间以外的背景，既能够避免多余的背景给神经网络模型造成大量的计算量，又能够保留两个人体之间的对于打架判断非常有价值的特征。并且，对于监控视频来说，通常人物较小，背景较大，将这种视频中的一帧的图像直接输入到神经网络模型中计算，势必造成巨大的计算量。因此，仅截取两人之间的区域以及两人体作为模型的输入，可以大大减少计算量，并且，保留的两人之间的背景还依然可以为是否打架判断提供依据。

为了识别打架行为，先构建训练集，该训练集中包含有大量的两人打架的图像，训练集包括的图像例如，两个人中间有凶器，例如刀具、钢管、砖头等。或者是通过两个人的表情、衣服状态变化、声音、话语等方式来判断，在这些训练集的图像都进行了标注是打架行为。将该训练集中的图像输入神经网络模型，通过神经网络模型对训练集的图像进行分类，并通过损失函数来判断模型分类的好坏，从而不断提高神经网络模型的识别精度，当神经网络模型的识别精度达到预计的精度范围，就可以用神经网络模型来识别打架行为了。然后二人组合框200中的图片输入到神经网络模型中，即可识别出打架行为。

此外，进一步地，神经网络模型的基本结构如图2所示，S1-SN是从视频中采样得到的N个图像。对于每个图像，采用第一2D卷积子网络W_2D来得到多个特征图谱，N个图像的特征图谱堆叠后得到一个特征集合。此处第一2D卷积子网络W_2D包括依次连接的至少一个分网络，一个分网络的输出输入到下一个分网络中。每个分网络包括4个分支，第1个分支经过【1x1】和【3x3】两次卷积，第2个分支经过【1x1】、【3x3】、【3x3】三次卷积，第3个分支是【1x1】的最大池化，卷积和最大池化的步长都是2，第4个分支是【1x1】的卷积。

对于得到的特征集合，再分别输入到一个3D卷积子网络W_3D和一个第二2D卷积子网络V_2D进行处理。此处3D卷积子网络W_3D包括依次连接的第一卷积段、第二卷积段、第三卷积段、第四卷积段、第五卷积段，以及一个平均池化层。

第一卷积段包括7x7x7，64的卷积，其中，7x7x7表示卷积核(7x7是空间维度，最后的7是时间维度)，64表示通道数；

第二卷积段包括依次连接的两个第二卷积单元，第二卷积单元都包括3x3x3,64、3x3x3,64的两个卷积层；

第三卷积段包括依次连接的两个第三卷积单元，第三卷积单元都包括3x3x3,128、3x3x3,128两个卷积层；

第四卷积段包括依次连接的两个第四卷积单元，第四卷积单元都包括3x3x3,256、3x3x3,256两个卷积层；

第五卷积段包括依次连接的两个第五卷积单元，第五卷积单元都包括3x3x3,512、3x3x3,512两个卷积层。

第二2D卷积子网络包括依次连接的5个分网络、最大池化、两个分网络，最后再采用平均池化得到多帧图像的特征。每个分网络包括4个分支，第1个分支经过【1x1】和【3x3】两次卷积，第2个分支经过【1x1】、【3x3】、【3x3】三次卷积，第3个分支是【1x1】的最大池化，卷积和最大池化的步长都是2，第4个分支是【1x1】的卷积。然后将第二2D卷积子网络的输出与3D net的输出结果融合，从而得到最后的分类结果。

此外，优选地，神经网络模型可以结合面部表情、裸露部位皮肤颜色、语音、接触部位中的一种或多种来判定打架行为。

其中，检测图像中每个人的裸露的皮肤颜色的过程包括：

将图像转换为HSV图像，并按从左至右、从上至下的顺序对图像进行扫描，通过每一个像素与邻近的像素值的比较进行连通区域标记，确定每个连通区域内色调值介于340-360之间的像素点的个数，至少一个连通域的像素点的数量大于阈值，则认定为存在打架行为。

连通区域标记就是从左至右扫描一行，然后向下换行继续从左至右扫描，每扫描到一个像素，都检查像素位置的上、下、左、右的紧邻像素值，也可以是检查上、下、左、右、左上、右上、左下、右下的紧邻的像素值。

下面以上、下、左、右检查为例说明一下具体步骤：

假设当前位置的像素值为255，检查它左边和上边的两个邻接像素(这两个像素一定会在当前像素之前被扫描到)。这两个像素值和标记的组合有以下四种情况：

1)左边和上边的像素值都为0，则给当前位置的像素一个新的标记(表示一个新的连通域的开始)；

2)左边和上边只有一个像素值为255，则当前位置的像素与像素值为255的像素的标记相同；

3)左边和上边的像素值都为255且标记相同，则当前位置的像素的标记与左边和上边的像素的标记相同；

4)左边和上边的像素值为255且标记不同，则将其中的较小的标记赋给当前位置的像素，然后从右至左回溯到区域的开始像素为止，每次回溯再分别执行上述4个步骤。

其中，接触部位判定是指例如拳、肘、脚、膝部位接触到另一人的敏感或要害部位，可以是采用大量的训练图片训练该神经网络模型，训练图片是经过标注是否包含敏感部位接触的图片，将训练图片输入到该神经网络模型，并通过优化损失函数得到训练后的该神经网络模型。

其中，根据语音来判断是否有打架行为是指根据与该视频流配套的音频的语义、语调、语音来判断是否有打架行为。针对音频数据生成语音频谱图，采用依次连接的DCNN(深度卷积神经网络)、RNN提取语音频谱图的第一特征变量，再从音频数据中提取MFCC(梅尔频率倒谱系数)，所述MFCC通过非线性变换成为第二特征向量，将第一特征向量、第二特征向量投射到一个联合特征空间中，组成联合特征。将联合特征输入一个全连接层，全连接层的输出传递给softmax层进行分类，可完成根据语音的打架行为的识别。

优选地，采用上述多种方法判定打架行为，对应每一种方法获取一个判定结果，并对各判定结果进行加权平均，得到最终的判定结果。

优选地，神经网络模型可以结合肢体的速度以及肢体移动所接触的部位来判断是否打架。例如，手掌快速移动到另一人的面部进行击打是打架行为，手掌缓慢移动到另一人面部进行抚摸，则是一种示好的情感表达。其中，对于同一个人，通过前后帧的图像对比来获取前后帧人体的位置变化距离，对于打架来说，通常要么是上肢，要么是下肢具有动作(即具有位置变化)例如前一帧的人体第一矩形框的左下角点的坐标是A，下一帧的人体第一矩形框的左下角点的坐标是B，则其坐标差值与前后帧之间的时间差的比值，作为该人体的动作的速度，以人体动作的速度与设定的速度阈值来比较，若速度高于速度阈值，并且，人体的肢体与另一人的身体产生接触，则认定为打架行为。

此外，优选地，步骤S6中，对于打架行为，可以将两人的肢体动作以及背景采用加权求和的方式来综合判断是否打架。例如，两人的肢体动作判断占比0.8，背景占比0.2，权重和为1。其中，背景对于是否打架的判断，经过训练的CNN模型可以识别出背景中是否具有危险物品以及危险物品的状态，进而判断出是否二人组合框中的两人是否有打架行为。将两人对应的是否打架的判断、背景对应的是否打架的判断与权重相乘求平均值，如果高于设定的打架机率阈值，神经网络模型则认定为打架。通过考虑背景的影响，可以更加准确，也更快速的识别打架行为。

此外，优选地，神经网络模型的优化损失函数通过下式使用梯度下降的优化方法优化。

其中，C表示神经网络模型，θ_C表示待优化的神经网络模型的第一权重矩阵，L_C(θ_C)表示神经网络模型的第一权重矩阵为θ_C时所造成的损失，m表示从特征集M中提取的一个特征。T(m)表示提取的特征m是打架行为的集合，F(m)表示提取的特征m不是打架行为的集合，t表示从T(m)中任取一个打架行为的特征，f表示从F(m)中任取一个不是打架行为的特征，

表示是打架行为的概率，

表示不是打架行为的概率，通过最小化负的加入L1正则化的条件对数似然函数(损失函数)得到神经网络模型，λ为正则化参数。

在一个可选实施例中，还构建二人组合框中的每个人的关联矩阵，用以修正神经网络模型中得到的特征图谱。例如，对于二人组合框中的某一人，以所述某一帧图像的前后a-b帧图像中，提取与该某一人体轮廓的距离小于第二距离阈值的所有人，第二距离阈值大于第一距离阈值。并利用ReID(行人重识别方法)判断其中是否有已经在所述某一帧图像以及前后b帧图像中被判定具有打架行为的人，如果有，则按照距离形成距离向量。由于在之前的几帧图像中，与具有打架行为的人的距离较近(小于第二距离阈值)，则所述某一人参与打架的可能性较大。

同样地，对于二人组合框中的另一个人，也进行以上操作，得到距离向量，将两个人的距离向量组成关联矩阵，并用关联矩阵与特征图谱对应的像素矩阵相乘，用以修正特征图谱，经过修正的特征图谱再在神经网络模型中进行后续的识别。

以上是以两人之间打架行为的判定，那对于其他行为，也可以充分利用两人之间的背景来辅助判断。例如两人之间进行自由搏击比赛，如何判断其不是打架行为，而是比赛，也可以是通过背景来辅助判断。例如，背景中观看的人群、两人的着装、裁判，两人外围的围栏等都作为背景来辅助判断。或者两人之间传递物品时，物品也作为背景，辅助判断是否发生物品传递过程，而不是仅以人体动作来判断。不同的行为识别其两人之间的背景具有不同的含义，本发明在此仅简要说明，不再详述。

参阅图2所示，是本发明电子装置的实施例的硬件架构示意图。本实施例中，所述电子装置2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图2所示，所述电子装置2至少包括，但不限于，可通过系统总线相互通信连接的存储器21、处理器22、网络接口23。其中：所述存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述电子装置2的内部存储单元，例如该电子装置2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述电子装置2的外部存储设备，例如该电子装置2上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件，例如所述行为识别程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作，例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的行为识别程序等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述电子装置2与推送平台相连，在所述电子装置2与推送平台之间建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCodeDivision Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

可选地，该电子装置2还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。

需要指出的是，图2仅示出了具有组件21-23的电子装置2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

包含可读存储介质的存储器21中可以包括操作系统、行为识别程序50等。处理器22执行存储器21中行为识别程序50时实现如下步骤：

S3，计算每一帧图像中任意两个第一矩形框之间的距离；

S6，将所述二人组合框序列输入到神经网络模型中，通过神经网络模型对输入的图像进行人体行为识别，得到识别结果，确认是否属于预设行为类别。对于打架行为，则是“打架”、“非打架”的分类。

在本实施例中，存储于存储器21中的所述行为识别程序可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并可由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。例如，图3示出了所述行为识别程序的程序模块示意图，该实施例中，所述行为识别程序50可以被分割为视频流分割模块501、人体轮廓标记模块502、距离获取模块503、组合框模块504、组合框序列形成模块505、行为识别模块506。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述行为识别程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。

其中，视频流分割模块501用于获取视频流，将视频流分割为图像帧序列，即一帧一帧的图像。

其中，人体轮廓标记模块502利用CNN模型检测每帧图像中的人体轮廓，定位人体轮廓的位置，并用第一矩形框将每个人体框选出来。CNN模型还输出滑动窗口的四个角点的坐标，从而将人体框选出来。

其中，距离获取模块503用于计算图像中任意两个人体轮廓之间的距离。其中，计算图像中任意两人的轮廓之间的距离，可以是根据标定的人体轮廓的第一矩形框的角点的坐标来计算，例如，计算两个第一矩形框100的左下角坐标之间的距离，即可得到两个人体轮廓之间的距离。

其中，组合框模块504用于当若某一帧图像中，有两个人的人体轮廓之间的距离小于设定的距离阈值，则采用二人组合框200将这两人框选出来，其中，二人组合框是包围两个矩形框的最小矩形框。

其中，组合框序列形成模块505采用ReID判断该帧图像前后b帧图像中的人体是否为同一人。找到前后b帧图像中的相同的人，同样将两人之间形成二人组合框，并将该帧以及前后b帧图像中的两个人的二人组合框组成一个二人组合框序列。

其中，行为识别模块506用于将多个二人组合框序列输入到神经网络模型中，通过神经网络模型对输入的图像进行“打架”、“非打架”的分类。从而判断多个二人组合框内的二人是否有打架行为。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括行为识别程序等，所述行为识别程序50被处理器22执行时实现如下操作：

S3，计算每一帧图像中任意两个第一矩形框之间的距离；

S6，将所述二人组合框序列输入到神经网络模型中，通过神经网络模型对输入的图像进行人体行为识别，得到识别结果，确认是否属于预设行为类别。

本发明之计算机可读存储介质的具体实施方式与上述行为识别方法以及电子装置2的具体实施方式大致相同，在此不再赘述。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种行为识别方法，应用于电子装置，其特征在于，包括以下步骤：

S3，计算每一帧图像中任意两个第一矩形框之间的距离；

2.根据权利要求1所述的行为识别方法，其特征在于，检测每一帧图像中的人体轮廓，并用第一矩形框将每个人体标记出来的步骤包括：

通过滑动窗口在图像上按照预设轨迹滑动，并通过CNN模型对滑动窗口中的物体提取空间特征，利用SVM分类器对提取到的所述空间特征分类，从而确定滑动窗口中是否有人体，并且，还输出滑动窗口的四个角点的坐标，以四个角点的坐标形成第一矩形框标记人体轮廓。

3.根据权利要求2所述的行为识别方法，其特征在于，步骤S5还包括：

识别前后多帧图像中是否存在与所述二人组合框中相同的两个人；其中，提取所述前后多帧图像中的各第一矩形框的光流图特征，并结合第一矩形框的所述空间特征输入到RNN模型中提取时序特征，从而判断是否存在与所述二人组合框中相同的两个人。

4.根据权利要求1所述的行为识别方法，其特征在于，所述神经网络模型包括依次连接的多个并列的第一2D卷积子网络W_2D和并列的一个3D卷积子网络W_3D、一个第二2D卷积子网络V_2D，对于每帧图像，采用第一2D卷积子网络W_2D来得到多个特征图谱，将图像帧序列的所有帧图像得到的特征图谱组成特征集合，所述特征集合分别输入到一个3D卷积子网络W_3D和一个第二2D卷积子网络V_2D进行处理，将第二2D卷积子网络的输出与3D卷积子网络的输出结果融合，得到识别结果，确认是否属于预设行为类别。

5.根据权利要求1所述的行为识别方法，其特征在于，步骤S6中，神经网络模型对输入的图像进行行为识别的方法是：

通过结合面部表情识别、裸露部位皮肤颜色识别、语音识别、接触部位识别中的至少一种方式来判定人体行为，对应每种方式获取一个判定结果，并对各判定结果进行加权平均，作为最终的判定结果。

6.根据权利要求5所述的行为识别方法，其特征在于，所述通过结合面部表情识别、裸露部位皮肤颜色识别、语音识别、接触部位识别中的至少一种方式来判定人体行为的步骤包括：

7.根据权利要求5所述的行为识别方法，其特征在于，所述通过结合面部表情识别、裸露部位皮肤颜色识别、语音识别、接触部位识别中的至少一种方式来判定人体行为的步骤还包括：

提取视频流中的音频并生成语音频谱图，采用依次连接的DCNN、RNN提取语音频谱图的第一特征变量，再从音频数据中提取MFCC，所述MFCC通过非线性变换成为第二特征向量，将第一特征向量、第二特征向量投射到一个联合特征空间中，组成联合特征，将联合特征输入一个全连接层，全连接层的输出传递给softmax层判定是否属于预设行为类别。

8.根据权利要求1所述的行为识别方法，其特征在于，所述预设行为类别为打架行为，步骤S6中，神经网络模型对输入的图像进行行为类别的分类的方法是：将前后帧图像的第一矩形框的对应角点的坐标差值与前后帧之间的时间差的比值作为该第一矩形框的人体的动作速度，并以该第一矩形框的人体的动作速度与设定的速度阈值比较，若高于速度阈值，则检测该前后帧图像中包含该第一矩形框的二人组合框中的另一人体是否与该第一矩形框的人体产生接触，若产生接触，则判定为打架行为。

9.一种电子装置，其特征在于，该电子装置包括：存储器和处理器，所述存储器中存储有行为识别程序，所述行为识别程序被所述处理器执行时实现如下步骤：

S3，计算每一帧图像中任意两个第一矩形框之间的距离；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现权利要求1至8中任一项所述的行为识别方法。