CN111860430B

CN111860430B - 打架行为的识别方法和装置、存储介质及电子装置

Info

Publication number: CN111860430B
Application number: CN202010753125.7A
Authority: CN
Inventors: 赵雷; 魏乃科; 潘华东; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2023-04-07
Anticipated expiration: 2040-07-30
Also published as: CN111860430A

Abstract

本发明公开了一种打架行为的识别方法和装置、存储介质及电子装置。其中，该方法包括：根据目标视频中的第t‑1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数；在确定第t帧图像中存在候选区域的情况下，将第t帧图像中候选区域以及第t帧前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果；在识别结果确定候选区域中存在打架行为的情况下，发出预警信息，对视频中的打架行为进行预检操作，提取候选区域，然后将候选区域进行二次过滤，得到最终的打架区域，并反馈报警信息的目的，进而解决了现有技术中，打架行为识别准确性较低的技术问题。

Description

打架行为的识别方法和装置、存储介质及电子装置

技术领域

本发明涉及图像处理领域，具体而言，涉及一种打架行为的识别方法和装置、存储介质及电子装置。

背景技术

目前视频监控在社会各行各业中已经广泛的运用，伴随着视频监控的普及，其所需要的人力的坚守也越来越多，很多探头只是作为事后的后方工具，常常面临着监而不控的尴尬境地。打架斗殴等行为威胁公共安全，会带来极大的社会负面影响，需要极力避免，特别是在金融以及监所等对安全要求相对较高的场景，所以能够智能化的检测识别场景中存在的打架行为具有极大的意义。

现有技术中，通过面部肤色的颜色与面积判断来确定是否出现打架行为，在监所、金融等实际运用场景中，由于打架目标的运动幅度大，易被其他人体或物体所遮挡，难以检测到面部信息造成漏检，同时打架的时候也不一定会存在打脸的情况，不符合实际。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种打架行为的识别方法和装置、存储介质及电子装置，以至少解决现有技术中，打架行为识别准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种打架行为的识别方法，包括：根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定所述第t帧图像中是否存在打架行为的候选区域，所述t为大于1的正整数；在确定所述第t帧图像中存在所述候选区域的情况下，将所述第t帧图像中所述候选区域以及所述第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，所述目标神经网络是通过样本视频中的图像序列集合进行训练得到的，所述样本图像序列集合中每个图像序列标注打架行为，将所述样本图像序列输入到预设神经网络，在所述预设神经网络满足预定条件的情况下，确定所述预设神经网络为所述目标神经网络，所述目标神经网络中包括三维空洞卷积层，所述L为大于等于1的正整数；在所述识别结果确定所述候选区域中存在打架行为的情况下，发出预警信息。

根据本发明实施例的另一方面，还提供了一种打架行为的识别装置，包括：确定单元，用于根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定所述第t帧图像中是否存在打架行为的候选区域，所述t为大于1的正整数；输出单元，用于在确定所述第t帧图像中存在所述候选区域的情况下，将将所述第t帧图像中所述候选区域以及所述第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，所述目标神经网络是通过样本视频中的图像序列集合进行训练得到的，所述样本图像序列集合中每个图像序列标注打架行为，将所述样本图像序列输入到预设神经网络，在所述预设神经网络满足预定条件的情况下，确定所述预设神经网络为所述目标神经网络，所述目标神经网络中包括三维空洞卷积层，所述L为大于等于1的正整数；预警单元，用于在所述识别结果确定所述候选区域中存在打架行为的情况下，发出预警信息。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述打架行为的识别方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的打架行为的识别方法。

在本发明实施例中，根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数；在确定第t帧图像中存在候选区域的情况下，将第t帧图像中候选区域以及所述第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，目标神经网络是通过样本视频中的图像序列集合进行训练得到的，样本图像序列集合中每个图像序列标注打架行为，将样本图像序列输入到预设神经网络，在预设神经网络满足预定条件的情况下，确定预设神经网络为目标神经网络，目标神经网络中包括三维空洞卷积层，L为大于等于1的正整数；在识别结果确定候选区域中存在打架行为的情况下，发出预警信息，实现了对视频中的打架行为进行预检操作，将视频监控中的候选区域寻找出来，提取候选区域，然后将候选区域进行二次过滤，得到最终的打架区域，并反馈报警信息的目的，进而解决了现有技术中，打架行为识别准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的打架行为的识别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的打架行为的识别方法的应用环境的示意图；

图3是根据本发明实施例的一种可选的基于不对称损失惩罚以及空洞卷积的打架行为识别方法的流程图；

图4是根据本发明实施例的一种可选的打架预检的流程图；

图5是根据本发明实施例的一种可选的打架行为的识别装置的结构示意图；

图6是根据本发明实施例的一种可选的打架行为的识别方法电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种打架行为识别方法，可选地，作为一种可选的实施方式，上述打架行为的识别方法可以但不限于应用于如图1所示的硬件环境中，其中，可以包括但不限于终端设备102、网络110及服务器112。其中，该终端设备102中运行有视频客户端，用于播放目标视频。

其中，上述终端设备102中可以包括但不限于：人机交互屏幕104，处理器106及存储器108。人机交互屏幕104用于通过人机交互接口获取人机交互指令，还用于呈现目标视频画面；处理器106用于响应上述人机交互指令，获取目标视频中第t-1帧图像和第t帧图像。存储器108用于存储目标视频，及打架行为的候选区域等属性信息。这里服务器可以包括但不限于：数据库114及处理引擎116，处理引擎116用于调用数据库114中存储的第t-1帧图像和第t帧图像，根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数；在确定第t帧图像中存在候选区域的情况下，将第t帧图像中候选区域以及第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，目标神经网络是通过样本视频中的图像序列集合进行训练得到的，样本图像序列集合中每个图像序列标注打架行为，将样本图像序列输入到预设神经网络，在预设神经网络满足预定条件的情况下，确定预设神经网络为目标神经网络，目标神经网络中包括三维空洞卷积层，L为大于等于1的正整数；在识别结果确定候选区域中存在打架行为的情况下，发出预警信息，实现了对视频中的打架行为进行预检操作，将视频监控中的候选区域寻找出来，提取候选区域，然后将候选区域进行二次过滤，得到最终的打架区域，并反馈报警信息的目的，进而解决了现有技术中，打架行为识别准确性较低的技术问题。

具体过程如以下步骤：在终端设备102中的人机交互屏幕104显示目标视频画面(如图1所示，存在两个目标对象)。如步骤S102-S110，获取目标视频中的第t-1帧图像和第t帧图像，并将该图像通过网络110发送服务器112。在服务器112根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数；在确定第t帧图像中存在候选区域的情况下，将第t帧图像中候选区域以及第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，目标神经网络是通过样本视频中的图像序列集合进行训练得到的，样本图像序列集合中每个图像序列标注打架行为，将样本图像序列输入到预设神经网络，在预设神经网络满足预定条件的情况下，确定预设神经网络为目标神经网络，目标神经网络中包括三维空洞卷积层，L为大于等于1的正整数；在识别结果确定候选区域中存在打架行为的情况下，发出预警信息。然后将上述确定出的结果返回终端设备102。

可选地，在本实施例中，上述打架行为识别方法可以但不限于应用于服务器112中，用于协助播放客户端对所发布的目标视频确定打架行为。其中，上述视频客户端可以但不限于运行在终端设备102中，该终端设备102可以但不限于为手机、平板电脑、笔记本电脑、PC机等支持运行应用客户端的终端设备。上述服务器112和终端设备102可以但不限于通过网络实现数据交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述打架行为的识别方法包括：

步骤S202，根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数。

步骤S204，在确定第t帧图像中存在候选区域的情况下，将第t帧图像中候选区域以及第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，目标神经网络是通过样本视频中的图像序列集合进行训练得到的，样本图像序列集合中每个图像序列标注打架行为，将样本图像序列输入到预设神经网络，在预设神经网络满足预定条件的情况下，确定预设神经网络为目标神经网络，目标神经网络中包括三维空洞卷积层，L为大于等于1的正整数；

步骤S206，在识别结果确定候选区域中存在打架行为的情况下，发出预警信息。

可选的，在本实施例中，在t为3的情况下，则获取目标视频中第3帧图像以及第2帧图像，根据第3帧图像和第2帧图像确定在第3帧图像中出现打架行为的候选区域，可以将第3帧图像以及第3帧图像之间的L帧图像的图像序列输入到目标神经网路中，例如，第3帧前的1张图像，即L取值为1，第3帧前的2帧图像，即L取值为2，在L取值为2的情况下，则将前3帧图像构成的图像序列输入到目标神经网络中，将更准确的判读出是否存在打架行为。

通过本申请提供的实施例，根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数；在确定第t帧图像中存在候选区域的情况下，将第t帧图像中候选区域以及第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，目标神经网络是通过样本视频中的图像序列集合进行训练得到的，样本图像序列集合中每个图像序列标注打架行为，将样本图像序列输入到预设神经网络，在预设神经网络满足预定条件的情况下，确定预设神经网络为目标神经网络，目标神经网络中包括三维空洞卷积层；在识别结果确定候选区域中存在打架行为的情况下，发出预警信息，实现了对视频中的打架行为进行预检操作，将视频监控中的候选区域寻找出来，提取候选区域，然后将候选区域进行二次过滤，得到最终的打架区域，并反馈报警信息的目的，进而解决了现有技术中，打架行为识别准确性较低的技术问题。

可选的，在本实施例中，打架行为识别方法可以应用视频监控中，帮助提前预测视频中是否存在打架行为，其中，上述目标视频包括但不限于已经录制完成的视频、正在录制中的视频。

可选的，在本实施例中，根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数，可以包括：

S1，获取候选区域中存在的头肩个数，其中，目标对象包括对应的头肩，头肩个数表示候选区域中存在的目标对象的个数；

S2，在候选区域中存在多个头肩的情况下，将多个头肩所在区域的最大外接正方形形成的区域确定为候选区域；

S3，在候选区域中仅存在一个头肩的情况下，以头肩区域中心为原点，以头肩区域的最大边长的N倍为半径画圆确定目标区域，其中，N为大于1的正整；

S4，在目标区域内存在其他头肩的中心，确定目标区域为候选区域。

其中，在候选区域中仅存在一个头肩的情况下，可以包括：

在目标区域内不存在其他头肩的中心，取消目标区域为候选区域。

可选的，在本实施例中，将第t帧图像中候选区域以及第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，可以包括：

对样本视频中包括的图像进行光流检测，确定出存在打架行为样本图像序列，并对样本图像序列中的打架区域进行标注；

将样本图像序列输入到包括三维空洞卷积层的预设神经网络中进行迭代运算；

在预设神经网络预测打架行为的概率大于预定阈值的情况下，确定预设神经网络满足预设条件，得到目标神经网络。

在光流数据大于或等于预定阈值的情况下，确定第t帧图像存在打架行为的候选区域。

在本实施例中，对输入的监控视频，为了降低处理运算量，对视频进行隔帧抽取，获取目标视频中的第t-1帧图像和第t帧图像，可以包括：根据预设采样率对目标视频进行采样，得到第t-1帧图像和第t帧图像。

作为一种可选的实施例，本申请还提供了一种可选的基于不对称损失惩罚以及空洞卷积的打架行为识别方法。如图3所示，基于不对称损失惩罚以及空洞卷积的打架行为识别方法的流程图。

步骤S301，获取视频数据；

步骤S302，打架区域预检测；

其中，打架预检主要将视频中潜在的一些剧烈运动给检测出来，如图4所示，打架预检测的流程图。对输入的监控视频，为了降低处理运算量，对视频进行隔帧抽取(视频在时间上存在冗余)，对于在时间轴上采样后的视频数据(采样率为2)，分别进行头肩检测器与光流检测。得到的光流数据，通过图像分割联通域处理，与阈值判断寻找剧烈运动区域，同时更具头肩检测反馈的结果判断该区域是否存在头肩，如果存在头肩，则对预检区域进行修正，具体修正规则如下：

如果该区域存在多个头肩，则使用该区域的最大外接正方形作为预检输出

如果该区域仅有一个头肩，则以该头肩框中心为原点，以头肩框的最大边长的3倍为半径画圆，如果在该圆覆盖的区域内不存在其他头肩框的中心，判断不可能存在打架；如果存在其他头肩框中心，则根据公式1确定可能存在打架的区域S，并使用S的最大外接正方形作为预检输出。其中x_s、y_s、w_s和h_s分别表示区域S的左上角x坐标与y坐标，以及区域S的宽和高；B_x、B_y、B_w和B_h分别表示剧烈运动区域内头肩框B的左上角x、y坐标以及该头肩框的宽高，同理N_x、N_y、N_w和N_h表示在上述圆形覆盖领域内与头肩框B最近的头肩N的左上坐标以及宽高。

S(x_s，y_s，w_s，h_s)＝(min(B_x，N_x)，min(B_y，N_y)，max(B_w，N_w)，max(3×Bh,3×Nh)) 公式1

由于在打架过程中，人体易被遮挡，使用头肩框作为人体目标检测的标准，但是在确定打架区域的时候需要对人体框进行修正，所以将头肩框的高度放大3倍作为人体框的区域(公式1中h_s的求解)。

步骤S303，判断是否在打架区域，在是的情况下，执行步骤S304，在否的情况下，对视频数据下一帧视频进行检测；

步骤S304，模型二次过滤；

本实施例中使用三维卷积神经网络进行二次过滤，其中的关键便是三维卷积神经网络模型的获取。

1)首先需要准备训练数据，使用完整的视频数据，并根据上述打架预检方法得到一系列的报警帧号与报警区域，然后根据报警信息从完整的监控视频数据中截取子视频，然后将子视频人为对进行标注，获得打架样本与其他剧烈运动样本。

2)打架模型搭建，通常情况下打架行为中参与的目标通常会发生较大的形变，位移量较大，基于该设定，本方案设计了在空间上存在空洞而在时间轴上密集的卷积形式来提取视频中的时空特征，以更好的建模其中的运动信息与纹理语义信息。传统的三维卷积的计算过程如公式2所示，本方案提到的经特殊设计的三维空洞卷积的计算过程如公式3所示，在本实施例中卷积相对于通用卷积在不增加计算量与参数量的情况下增加了网络的空间感受野。其中I表示三维卷积的输入特征张量，F与F′分别表示经过普通卷积与本方案提出卷积运算后的输出特征张量，x、y、t表示张量的索引坐标，K、K′表示普通三维卷积核与本方案提出的卷积核，n、m、p表示卷积核的坐标索引，式3中的参数d表示空洞参数，控制空洞的程度。

F(x，y，t)＝(I*K)(x，y，t)＝∑_n∑_m∑_pI(x+n，y+m，t+p)K(n，m，p) 公式2

F′(x，y，t)＝(I*K′)(x，y，t)＝∑_n∑_m∑_pI(x+dn，y+dm，t+p)K′(n，m，p) 公式3

在本实施例中，使用ResNet3D18作为框架，将其中block3以前的普通三维卷积操作替换为上述所述的空洞卷积操作，空间空洞参数d＝2，其他参数保持一致。

3)模型训练，在准备好数据并搭建好模型后需要对模型进行训练更新模型参数，获得最终的模型参数。由于打架在实际监控场景中属于异常行为，发生的可能性很小，在实际的样本中的占比相对较少，使用普通的训练逻辑很难使得模型很好地收敛，在本实施例中，如公式4所示的不对称损失惩罚来改善这一问题，其中I(·)表示截断函数，其定义如公式5所示，p_i表示预测概率值，定义如公式6所示，同时γ＝2。

L_i(p，t)＝-(I(1-p_i))^γlog(p_i) 公式4

使用上述所示的不对称损失惩罚，可以使网络尽可能优化那些难以区分的样本(p_i～0.5)，同时通过截断函数抑制了容易分类样本对惩罚的贡献度，增强了网络的收敛性与性能。

步骤S305，判断是否在打架区域，在是的情况下，执行步骤S306，在否的情况下，对视频数据下一帧视频进行检测；

步骤S306，报警。

通过本申请提高的实施例，使用预检加二次过滤的方式，同时在预检中使用头肩作为人体判断依据，降低了遮挡可能带来的漏检问题，使用神经网络作为分类标准，性能优于使用逻辑面部肤色变化等条件判断。

使用图像序列作为打架判断依据，相对于使用骨骼信息的打架检测识别方式，其可能由于遮挡带来的骨骼检测不全，估计不准的问题，本实施例中的召回率更加有优势，能够适用于监所等人群密集场所。

在本实施例中，使用剧烈运动时刻与区域检测家模型过滤的方式进行打架行为检测识别；在预检过程中使用头肩框检测结合光流信息的方式进行预检，在有效检测剧烈运动的同时过滤垫部分非人运动带来的误检；使用针对打架这种异常行为特点单独设计的非对称损失惩罚机制对模型进行训练；使用三维空洞卷积来搭建模型，对打架行为存在的运动过于剧烈的情况，提升了模型的准确度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述打架行为的识别方法的打架行为的识别装置。如图5所示，该装置包括：确定单元51、输出单元53、预警单元55。

确定单元51，用于根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数。

输出单元53，用于在确定第t帧图像中存在候选区域的情况下，将第t帧图像中候选区域以及第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，目标神经网络是通过样本视频中的图像序列集合进行训练得到的，样本图像序列集合中每个图像序列标注打架行为，将样本图像序列输入到预设神经网络，在预设神经网络满足预定条件的情况下，确定预设神经网络为目标神经网络，目标神经网络中包括三维空洞卷积层，L为大于等于1的正整数。

预警单元55，用于在识别结果确定候选区域中存在打架行为的情况下，发出预警信息。

通过本申请提供的实施例，确定单元51根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数；输出单元53在确定第t帧图像中存在候选区域的情况下，将第t帧图像中候选区域以及第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，目标神经网络是通过样本视频中的图像序列集合进行训练得到的，样本图像序列集合中每个图像序列标注打架行为，将样本图像序列输入到预设神经网络，在预设神经网络满足预定条件的情况下，确定预设神经网络为目标神经网络，目标神经网络中包括三维空洞卷积层，L为大于等于1的正整数；预警单元55在识别结果确定候选区域中存在打架行为的情况下，发出预警信息。实现了对视频中的打架行为进行预检操作，将视频监控中的候选区域寻找出来，提取候选区域，然后将候选区域进行二次过滤，得到最终的打架区域，并反馈报警信息的目的，进而解决了现有技术中，打架行为识别准确性较低的技术问题。

可选的，在本实施例中，上述确定单元51，可以包括：

第一获取模块，用于获取候选区域中存在的头肩个数，其中，目标对象包括对应的头肩，头肩个数表示候选区域中存在的目标对象的个数；

第一确定模块，用于在候选区域中存在多个头肩的情况下，将多个头肩所在区域的最大外接正方形形成的区域确定为候选区域；

第二确定模块，用于在候选区域中仅存在一个头肩的情况下，以头肩区域中心为原点，以头肩区域的最大边长的N倍为半径画圆确定目标区域，其中，N为大于1的正整；

第三确定模块，用于在目标区域内存在其他头肩的中心，确定目标区域为候选区域。

第四确定模块，用于在候选区域中仅存在一个头肩的情况下，在目标区域内不存在其他头肩的中心，取消目标区域为候选区域。

可选的，在本实施例中，上述输出单元53，可以包括：

第五确定模块，用于对样本视频中包括的图像进行光流检测，确定出存在打架行为样本图像，并对样本图像中的打架区域进行标注；

运算模块，用于将样本图像输入到包括三维空洞卷积层的预设神经网络中进行迭代运算；

第六确定模块，用于在预设神经网络预测打架行为的概率大于预定阈值的情况下，确定预设神经网络满足预设条件，得到目标神经网络。

可选的，在本实施例中，上述确定单元51，可以包括：

第七确定模块，用于在第一光流数据和第二光流数据之间的差值大于或等于预定阈值的情况下，确定第t帧图像存在打架行为的候选区域。

可选的，在本实施例中，上述装置还包括：

获取单元，用于根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域之前，根据预设采样率对目标视频进行采样，获取第t-1帧图像和第t帧图像。

根据本发明实施例的又一个方面，还提供了一种用于实施上述打架行为的识别方法的电子装置，如图6所示，该电子装置包括存储器602和处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定第t帧图像中是否存在打架行为的候选区域，t为大于1的正整数。

S2，在确定第t帧图像中存在候选区域的情况下，将第t帧图像中候选区域以及第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，目标神经网络是通过样本视频中的图像序列集合进行训练得到的，样本图像序列集合中每个图像序列标注打架行为，将样本图像序列输入到预设神经网络，在预设神经网络满足预定条件的情况下，确定预设神经网络为目标神经网络，目标神经网络中包括三维空洞卷积层，L为大于等于1的正整数；

S3，在识别结果确定候选区域中存在打架行为的情况下，发出预警信息。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本发明实施例中的打架行为的识别方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的打架行为的识别方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于目标视频、打架行为的候选区域等信息。作为一种示例，如图6所示，上述存储器602中可以但不限于包括上述打架行为的识别装置中的获取单元51、确定单元53、输出单元55、预警单元57。此外，还可以包括但不限于上述打架行为的识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器608，用于显示上述预警信息；和连接总线610，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种打架行为的识别方法，其特征在于，包括：

根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定所述第t帧图像中是否存在打架行为的候选区域，所述t为大于1的正整数；

在确定所述第t帧图像中存在所述候选区域的情况下，将所述第t帧图像中所述候选区域以及所述第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，所述目标神经网络是通过样本视频中的图像序列集合进行训练得到的，所述样本图像序列集合中每个图像序列标注打架行为，将所述样本图像序列输入到预设神经网络，在所述预设神经网络满足预定条件的情况下，确定所述预设神经网络为所述目标神经网络，所述目标神经网络中包括三维空洞卷积层，所述L为大于等于1的正整数；

在所述识别结果确定所述候选区域中存在打架行为的情况下，发出预警信息。

2.根据权利要求1所述的方法，其特征在于，根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定所述第t帧图像中是否存在打架行为的候选区域，包括：

获取所述候选区域中存在的头肩个数，其中，目标对象包括对应的头肩，所述头肩个数表示所述候选区域中存在的目标对象的个数；

在所述候选区域中存在多个头肩的情况下，将所述多个头肩所在区域的最大外接正方形形成的区域确定为所述候选区域；

在所述候选区域中仅存在一个头肩的情况下，以所述头肩区域中心为原点，以头肩区域的最大边长的N倍为半径画圆确定目标区域，其中，所述N为大于1的正整数；

在所述目标区域内存在其他头肩的中心，确定所述目标区域为所述候选区域。

3.根据权利要求2所述的方法，其特征在于，在所述候选区域中仅存在一个头肩的情况下，包括：

在所述目标区域内不存在其他头肩的中心，取消所述目标区域为所述候选区域。

4.根据权利要求1所述的方法，其特征在于，将所述第t帧图像中所述候选区域以及所述第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，包括：

对所述样本视频中包括的图像进行光流检测，确定出存在打架行为样本图像，并对所述样本图像中的打架区域进行标注；

将所述样本图像序列输入到包括三维空洞卷积层的所述预设神经网络中进行迭代运算；

在所述预设神经网络预测打架行为的概率大于预定阈值的情况下，确定所述预设神经网络满足预设条件，得到所述目标神经网络。

5.根据权利要求1所述的方法，其特征在于，根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定所述第t帧图像中是否存在打架行为的候选区域，包括：

在所述光流数据大于或等于预定阈值的情况下，确定所述第t帧图像存在打架行为的候选区域。

6.根据权利要求1所述的方法，其特征在于，根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定所述第t帧图像中是否存在打架行为的候选区域之前，所述方法包括：

根据预设采样率对所述目标视频进行采样，得到所述第t-1帧图像和所述第t帧图像。

7.一种打架行为的识别装置，其特征在于，包括：

确定单元，用于根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定所述第t帧图像中是否存在打架行为的候选区域，所述t为大于1的自然数；

输出单元，用于在确定所述第t帧图像中存在所述候选区域的情况下，将所述第t帧图像中所述候选区域以及所述第t帧图像前L帧图像的相同区域的图像序列输入到目标神经网络中，输出识别结果，其中，所述目标神经网络是通过样本视频中的图像序列集合进行训练得到的，所述样本图像序列集合中每个图像序列标注打架行为，将所述样本图像序列输入到预设神经网络，在所述预设神经网络满足预定条件的情况下，确定所述预设神经网络为所述目标神经网络，所述目标神经网络中包括三维空洞卷积层，所述L大于等于1的正整数；

预警单元，用于在所述识别结果确定所述候选区域中存在打架行为的情况下，发出预警信息。

8.根据权利要求7所述的装置，其特征在于，所述确定单元，包括：

第一获取模块，用于获取所述候选区域中存在的头肩个数，其中，目标对象包括对应的头肩，所述头肩个数表示所述候选区域中存在的目标对象的个数；

第一确定模块，用于在所述候选区域中存在多个头肩的情况下，将所述多个头肩所在区域的最大外接正方形形成的区域确定为所述候选区域；

第二确定模块，用于在所述候选区域中仅存在一个头肩的情况下，以所述头肩区域中心为原点，以头肩区域的最大边长的N倍为半径画圆确定目标区域，其中，所述N为大于1的正整数；

第三确定模块，用于在所述目标区域内存在其他头肩的中心，确定所述目标区域为所述候选区域。

9.根据权利要求8所述的装置，其特征在于，所述装置包括：

第四确定模块，用于在所述候选区域中仅存在一个头肩的情况下，在所述目标区域内不存在其他头肩的中心，取消所述目标区域为所述候选区域。

10.根据权利要求7所述的装置，其特征在于，所述输出单元，包括：

第五确定模块，用于对所述样本视频中包括的图像进行光流检测，确定出存在打架行为样本图像，并对所述样本图像中的打架区域进行标注；

运算模块，用于将所述样本图像序列输入到包括三维空洞卷积层的所述预设神经网络中进行迭代运算；

第六确定模块，用于在所述预设神经网络预测打架行为的概率大于预定阈值的情况下，确定所述预设神经网络满足预设条件，得到所述目标神经网络。

11.根据权利要求7所述的装置，其特征在于，所述确定单元，包括：

第七确定模块，用于在所述光流数据大于或等于预定阈值的情况下，确定所述第t帧图像存在打架行为的候选区域。

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

获取单元，用于根据目标视频中的第t-1帧与第t帧图像计算光流数据，并利用头肩检测跟踪数据确定所述第t帧图像中是否存在打架行为的候选区域之前，根据预设采样率对所述目标视频进行采样，获取所述第t-1帧图像和所述第t帧图像。

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。