CN110363098A

CN110363098A - 一种暴力行为预警方法、装置、可读存储介质及终端设备

Info

Publication number: CN110363098A
Application number: CN201910547762.6A
Authority: CN
Inventors: 李晓刚; 刘海莹
Original assignee: Shenzhen Clp Smart Security Polytron Technologies Inc
Current assignee: Shenzhen Clp Smart Security Polytron Technologies Inc
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-10-22
Anticipated expiration: 2039-06-24
Also published as: CN110363098B

Abstract

本发明涉及数据处理技术领域，尤其涉及一种暴力行为预警方法、装置、存储介质及终端设备。所述暴力行为预警方法包括：获取拍摄自目标场所的第一视频，并对第一视频进行预处理，得到第二视频；将第二视频输入至训练完成的暴力行为识别模型，得到暴力行为识别模型输出的识别结果，识别结果为目标场所中存在暴力行为或目标场所中不存在暴力行为；其中，暴力行为识别模型为包括第一分支网络和第二分支网络的卷积神经网络模型，第一分支网络包括第一多头注意力模块和第一通道激励模块，第二分支网络包括第二多头注意力模块；若识别结果为所述目标场所中存在暴力行为，则发出报警信息，以提高暴力行为的识别效率和准确性，确保暴力行为报警的及时性。

Description

一种暴力行为预警方法、装置、可读存储介质及终端设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种暴力行为预警方法、装置、计算机可读存储介质及终端设备。

背景技术

随着人工智能技术的不断发展，传统安防不断向智慧安防发展，以达到有效降低人力资源、实时自动化识别以及及时告警等目标，如通过视频监控来进行越界、进入禁区、滞留等行为的监控与报警等，即传统的视频监控往往只能进行单人行为的识别与报警，而对于多人之间打架斗殴等暴力行为的识别与报警等则需要人力来判断，如通过相关人员查看监控所采集的视频来判断视频中是否存在打架斗殴等暴力行为，从而进行相关的报警操作。这种通过人工进行打架斗殴等暴力行为的判断与报警的方式工作量巨大、识别速度低，不仅需耗费较高的人力成本，而且也无法进行暴力行为的实时识别，造成暴力行为的识别效率和识别精度较低，并影响暴力行为报警的及时性。

发明内容

本发明实施例提供了一种暴力行为预警方法、装置、计算机可读存储介质及终端设备，能够自动进行暴力行为及时、准确的识别，提高暴力行为的识别效率和识别准确性，确保暴力行为报警的及时性。

本发明实施例的第一方面，提供了一种暴力行为预警方法，包括：

获取拍摄自目标场所的第一视频，并对所述第一视频进行预处理，得到第二视频；

将所述第二视频输入至训练完成的暴力行为识别模型，得到所述暴力行为识别模型输出的识别结果，所述识别结果为所述目标场所中存在暴力行为或者所述目标场所中不存在暴力行为；

其中，所述暴力行为识别模型为包括第一分支网络和第二分支网络的卷积神经网络模型，所述第一分支网络包括第一多头注意力模块和第一通道激励模块，所述第二分支网络包括第二多头注意力模块；

若所述识别结果为所述目标场所中存在暴力行为，则发出报警信息。

本发明实施例的第二方面，提供了一种暴力行为预警装置，包括：

预处理模块，用于获取拍摄自目标场所的第一视频，并对所述第一视频进行预处理，得到第二视频；

识别模块，用于将所述第二视频输入至训练完成的暴力行为识别模型，得到所述暴力行为识别模型输出的识别结果，所述识别结果为所述目标场所中存在暴力行为或者所述目标场所中不存在暴力行为；

报警模块，用于若所述识别结果为所述目标场所中存在暴力行为，则发出报警信息。

本发明实施例的第三方面，提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述第一方面所述暴力行为预警方法的步骤。

本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如前述第一方面所述暴力行为预警方法的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，可获取拍摄自目标场所的第一视频，并对所述第一视频进行预处理，得到第二视频，并可将所述第二视频输入至训练完成的暴力行为识别模型，得到所述暴力行为识别模型输出的识别结果，所述识别结果为所述目标场所中存在暴力行为或者所述目标场所中不存在暴力行为；其中，所述暴力行为识别模型为包括第一分支网络和第二分支网络的卷积神经网络模型，所述第一分支网络包括第一多头注意力模块和第一通道激励模块，所述第二分支网络包括第二多头注意力模块；若所述识别结果为所述目标场所中存在暴力行为，则发出报警信息。即本发明实施例中，通过具有注意力模块、通道激励模块和两分支网络的暴力行为识别模型来进行暴力行为的识别，可提高特征提取的有效性，增加暴力行为识别模型识别小幅度动作的能力，并降低模型的复杂性，从而提高暴力行为识别模型的识别效率和识别准确率，确保暴力行为报警的及时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种暴力行为预警方法的一个实施例流程图；

图2为本发明实施例中一种暴力行为识别模型的模型架构图；

图3为本发明实施例中一种暴力行为识别模型输出识别结果的流程示意图；

图4为本发明实施例中一种倒残差模块的模块示意图；

图5为本发明实施例中一种通道激励模块的模块示意图；

图6为本发明实施例中一种多头注意力模块的模块示意图；

图7为本发明实施例中一种暴力行为识别模型在一个应用场景下训练的流程示意图；

图8为本发明实施例中一种暴力行为预警装置的一个实施例结构图；

图9为本发明一实施例提供的一种终端设备的示意图。

具体实施方式

本发明实施例提供了一种暴力行为预警方法、装置、计算机可读存储介质及终端设备，用于自动进行暴力行为及时、准确的识别，提高暴力行为的识别效率和识别准确性，确保暴力行为报警的及时性。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种暴力行为预警方法，所述暴力行为预警方法包括：

步骤S101、获取拍摄自目标场所的第一视频，并对所述第一视频进行预处理，得到第二视频；

本发明实施例的执行主体可为终端设备，所述终端设备包括但不限于：桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述目标场所可以为安防报警所监控的场所，如可以为地铁站、汽车站、火车站、广场等人流量较多、较混杂的区域，所述目标场所中可安装有摄像头等摄像装置，所述摄像头等摄像装置可与所述终端设备连接，例如所述摄像头等摄像装置可通过移动网络、无线网络或者有线网络与所述终端设备通信连接。所述摄像头等摄像装置用于对所述目标场所进行第一视频的拍摄，并将所拍摄的第一视频通过移动网络、无线网络或者有线网络传输至所述终端设备，其中，所述第一视频的视频长度可根据实际情况进行设置，如可将所述第一视频的视频长度设置为24帧，即所述摄像头等摄像装置每次可采集长度为24帧的第一视频发送至所述终端设备。

所述预处理可为对所述第一视频的各视频帧进行大小调整，如可将所述第一视频的各视频帧均缩放至224×224的分辨率，以通过统一各视频帧的大小来方便后续暴力行为识别模型对所述第一视频进行暴力行为的识别。即所述终端设备在获取到所述摄像头等摄像装置拍摄自所述目标场所的第一视频后，可对所述第一视频的各视频帧进行分辨率调整，如可将各视频帧的分辨率统一调整至224×224的分辨率，从而得到调整后的第二视频。

步骤S102、将所述第二视频输入至训练完成的暴力行为识别模型，得到所述暴力行为识别模型输出的识别结果，所述识别结果为所述目标场所中存在暴力行为或者所述目标场所中不存在暴力行为；

所述终端设备在获取到调整后的第二视频后，可将所述第二视频输入至训练完成的暴力行为识别模型，所述暴力行为识别模型则可通过第一分支网络和第二分支网络对所述第二视频进行特征提取和识别，来确定所述第二视频中是否存在暴力行为。即所述暴力行为识别模型是一个将特征提取与行为识别整合为一起的、端到端架构的模型，从而可避免繁琐的特征工程，另外，通过构建两分支网络可利用连续视频帧之间的多尺度信息，以增加暴力行为识别模型识别小幅度动作的能力，提高暴力行为识别模型的识别准确率。

进一步地，如图2所示，所述暴力行为识别模型包括主支网络、第一分支网络和第二分支网络，具体地，如图3所示，所述暴力行为识别模型输出所述识别结果的过程，包括：

步骤S301、所述主支网络通过依次连接的第一卷积层201、第一倒残差模块202、第二通道激励模块203、第二倒残差模块204、第三通道激励模块205对所述第二视频进行采样，并将采样得到的第一特征图分别输入至所述第一分支网络和所述第二分支网络；

具体地，所述主支网络包括第一卷积层201、连续连接的3个第一倒残差模块(BRB)202、连续连接的3个第二通道激励模块(SE)203、连续连接的4个第二倒残差模块204和连续连接的3个第三通道激励模块205。在此，在将所述第二视频输入至所述暴力行为识别模型后，所述主支网络中的第一卷积层201可首先对所述第二视频的各视频帧进行特征采样，并将采样得到的各第一采样特征图输入至与第一卷积层201连接的第一个第一倒残差模块202，该第一个第一倒残差模块202则可对各第一采样特征图进行进一步的特征采样，并将采样得到的各第二采样特征图输入至与该第一个第一倒残差模块202连接的第二个第一倒残差模块202，该第二个第一倒残差模块202则可对各第二采样特征图进行进一步的特征采样，并将采样得到的各第三采样特征图输入至与该第二个第一倒残差模块202连接的第三个第一倒残差模块202，该第三个第一倒残差模块202则可对各第三采样特征图进行进一步的特征采样，并将采样得到的各第四采样特征图输入至与该第三个第一倒残差模块202连接的第一个第二通道激励模块203，该第一个第二通道激励模块203则可对各第四采样特征图进行进一步的特征采样，并将采样得到的各第五采样特征图输入至与该第一个第二通道激励模块203连接的第二个第二通道激励模块203，该第二个第二通道激励模块203则可对各第五采样特征图进行进一步的特征采样，并将采样得到的各第六采样特征图输入至与该第二个第二通道激励模块203连接的第三个第二通道激励模块203，该第三个第二通道激励模块203则可对各第六采样特图征进行进一步的特征采样，得到各第七采样特征图，以此类推，各第七采样特征图经过连续连接的4个第二倒残差模块204和连续连接的3个第三通道激励模块205进行进一步的特征采样得到所述第一特征图，并可分别将所述第一特征图输入至所述第一分支网络和所述第二分支网络，以通过多个第一、第二倒残差模块和多个第二、第三通道激励模块提取出所述第二视频中信息丰富的高级特征，从而提高所述暴力行为识别模型的识别效果。

如图4所示，第一倒残差模块202和第二倒残差模块204均包括依次连接的第三卷积层401、第一深度可分离卷积层402、第四卷积层403和第二相加运算层404。其中，第一倒残差模块202对某一特征图(如权利要求中所述的第五特征图)进行进一步特征采样的过程具体可以为：首先通过第三卷积层401对该特征图进行进一步采样，并可将采样得到的第一采样结果输入至第一深度可分离卷积层402；第一深度可分离卷积层402则可对该第一采样结果进行进一步采样，并可将采样得到的第二采样结果输入至第四卷积层403；第四卷积层403则可对该第二采样结果进行进一步采样，并可将采样得到的第三采样结果(如权利要求中所述的第六特征图)输入至第二相加运算层404；第二相加运算层404可先获取输入至第三卷积层401的该特征图，并可将该特征图与第四卷积层403采样得到的第六特征图进行相加处理，如可将这两特征图中相同位置的特征值进行相加，得到相加后的特征图。在此，第一采样结果、第二采样结果、第三采样结果以及下文所述的第四、第五等采样结果均为采样所得到的特征图。另外，第二倒残差模块204进行进一步特征采样的过程与第一倒残差模块202进行进一步特征采样的过程相似，为简明起见，在此不再赘述。

图5所示，第一通道激励模块206、第二通道激励模块203和第三通道激励模块205均包括依次连接的第五卷积层501、第二深度可分离卷积层502、第三全局均值采样层503、第一全连接层504、第一相乘运算层505和第三相加运算层506。其中，第一通道激励模块206对某一特征图(如权利要求中所述的第十特征图)进行进一步特征采样的过程具体可以为：首先通过第五卷积层501对该特征图进行进一步采样，并可将采样得到的第四采样结果输入至第二深度可分离卷积层502；第二深度可分离卷积层502则可对该第四采样结果进行进一步采样，并可将采样得到的第五采样结果(如权利要求中所述的第七特征图)输入至第三全局均值采样层503和第一相乘运算层505；第三全局均值采样层503则可对该第五采样结果中的各特征值均进行求均值操作，并将求均值后的第六采样结果输入至第一全连接层504；第一全连接层504则可对该第六采样结果进行进一步采样，并可将采样得到的第七采样结果(如权利要求中所述的第八特征图)输入至第一相乘运算层505；第一相乘运算层505则可将该第五采样结果和该第七采样结果进行乘法操作，如可先将该第五采样结果和该第七采样结果以矩阵形式进行表示，然后进行矩阵乘法操作，并将进行乘法操作得到的第八采样结果(如权利要求中所述的第九特征图)输入至第三相加运算层506；第三相加运算层506可先获取输入至第五卷积层501的该特征图，并可将该特征图与该第九特征图进行相加处理，如可将这两特征图中相同位置的特征值进行相加，得到相加后的特征图。即本发明实施例中，通过通道激励模块来进行进一步的特征采样可增强有效特征信息的提取，并抑制无效或着低效特征信息的提取，从而提高暴力行为识别模型的识别准确率、识别效果。

进一步地，如图5所示，第一全连接层504可包括相连接的第一个第一全连接层504和第二个第一全连接层504，其中，第一个第一全连接层504还与第三全局均值采样层503连接，第二个第一全连接层504还与第一相乘运算层505连接，第一个第一全连接层504所采用的激活函数为ReLU，第二个第一全连接层504所采用的激活函数为H-wish。

另外，第二通道激励模块203和第三通道激励模块205进行进一步特征采样的过程与第一通道激励模块206进行进一步特征采样的过程相似，为简明起见，在此不再赘述。

在一个具体应用场景中，第一卷积层201是一个卷积核尺寸为3×3的二维卷积层，其所采用的激活函数为H-swish，第一卷积层201的输出尺寸为24×12×112²，即可对所输入的24帧视频帧的每一帧视频帧均输出16个分辨率为112×112的特征图，下文类似的输出尺寸可采样该种说明方式进行说明；各第一倒残差模块202和各第二倒残差模块204中的第三卷积层401以及各第二通道激励模块203中和各第三通道激励模块205中的第五卷积层501均是一个没有采用激活函数的、卷积核尺寸为1×1的二维卷积层，以用于增加输出的通道数，即增加输出的特征图个数；各第一倒残差模块202和各第二倒残差模块204中的第一深度可分离卷积层402均是一个卷积核尺寸为3×3或者5×5的二维深度可分离卷积层，所采用的激活函数分别可为H-swish或者ReLU；各第一倒残差模块202和各第二倒残差模块204中的第四卷积层403均是一个卷积核尺寸为1×1的二维卷积层，其所采用的激活函数为ReLU或者H-swish；各第二通道激励模块203中的第二深度可分离卷积层502均是一个卷积核尺寸为5×5的二维深度可分离卷积层，所采用的激活函数分别可为ReLU或者H-swish；在连续连接的3个第三通道激励模块205中，其前两个第三通道激励模块205中的第二深度可分离卷积层502均是一个卷积核尺寸为3×3的二维深度可分离卷积层，最后一个第三通道激励模块205中的第二深度可分离卷积层502是一个卷积核尺寸为5×5的二维深度可分离卷积层，其中，最后一个第一倒残差模块202的输出尺寸为24×24×56²，最后一个第二通道激励模块203的输出尺寸为24×40×28²，最后一个第二倒残差模块204的输出尺寸为24×80×14²，最后一个第三通道激励模块205的输出尺寸为24×160×7²。

在该应用场景中，所述第一分支网络包括连续连接的2个第一通道激励模块206，各第一通道激励模块206中的第二深度可分离卷积层502均是一个卷积核尺寸为5×5的二维深度可分离卷积层，最后一个第一通道激励模块206的输出尺寸为24×160×7²。进一步地，在该具体应用场景中，激活函数ReLU的公式为ReLU[x]＝max(0,x)，激活函数H-swish的公式为其中，ReLU6[x]＝min(max((0,x),6)。

在此，通过使用倒残差模块和通道激励模块可大大降低暴力行为识别模型的模型复杂性，可使得暴力行为识别模型具有较快的识别速度和低延时，提高暴力行为报警的响应速度，同时还可使得所述暴力行为识别模型可适用于计算资源受限的移动端设备或者微型嵌入式设备，扩大所述暴力行为识别模型的应用性。

步骤S302、所述第一分支网络和所述第二分支网络分别对所述第一特征图进行特征提取，得到所述第一分支网络提取的第二特征图和所述第二分支网络提取的第三特征图，并将所述第二特征图和所述第三特征图输入至所述主支网络；

本发明实施例中，在将所述第一特征图分别输入至所述第一分支网络和所述第二分支网络之后，所述第一分支网络则可以从所述第一特征图中提取出第二特征图，并可将所提取的第二特征图发送至所述主支网络，同样地，所述第二分支网络也可以从所述第一特征图中提取出第三特征图，并可将所提取的第三特征图发送至所述主支网络。

如图2所示，所述第一分支网络还包括第二卷积层207、第一全局均值采样层208和第一均值处理层210，所述第二分支网络还包括第二全局均值采样层211和第二均值处理层213；

所述第一通道激励模块206与所述第二卷积层207连接，所述第二卷积层207与所述第一全局均值采样层208连接，所述第一全局均值采样层208与所述第一多头注意力模块209连接，所述第一多头注意力模块209与所述第一均值处理层210连接；

所述第二全局均值采样层211与所述第二多头注意力模块212连接，所述第二多头注意力模块212与所述第二均值处理层213连接；

其中，所述第一通道激励模块206和所述第二全局均值采样层211还分别与所述主支网络的所述第三通道激励模块205连接，所述第一均值处理层208和所述第二均值处理层213还分别与所述主支网络的所述第一相加运算层214连接。

在此，第二卷积层207是一个卷积核尺寸为1×1的二维卷积层，所采用的激活函数为H-swish，其中，第二卷积层207的输出尺寸为24×512×7²，而第一全局均值采样层208和第一多头注意力模块209均可输出一个24×512的特征图，第一均值处理层210则可输出一个24×1的特征图，即可输出一个长度为24的特征向量，并可将所输出的24×1的特征图发送至至第一相加运算层214。另外，第二全局均值采样层211和述第二多头注意力模块212均可输出一个24×160的特征图，第二均值处理层213输出一个24×1的特征图，并可将所输出的24×1的特征图发送至第一相加运算层214。

进一步地，如图6所示，所述第一多头注意力模块209和所述第二多头注意力模块212均包括多个注意单元60和对所述多个注意单元60的输出特征图进行融合处理的融合单元；

所述注意单元60包括第二全连接层601、第三全连接层602、第四全连接层603、转置运算层604、第二相乘运算层605、权重计算层606和第三相乘运算层607；

所述融合单元包括依次连接的拼接层608、第五全连接层609、第六卷积层610、第七卷积层611和第四相加运算层612；

所述第二全连接层601与所述转置运算层604连接，所述第三全连接层602和所述转置运算层604分别与所述第二相乘运算层605连接，所述转置运算层604与所述权重计算层606连接，所述权重计算层606和所述第四全连接层603分别与所述第三相乘运算层607连接，所述第三相乘运算层607与所述融合单元中的所述拼接层608连接。

本发明实施例中，通过在所述暴力行为识别模型中引入注意力机制，可整合视频中连续帧与帧之间动作的变化信息，使得可从视频中提取出更有效的高级特征，从而提高暴力行为识别的准确性。

在此，第一多头注意力模块209和第二多头注意力模块212均可包括8个注意单元60，图6为显示方便仅示出其中的3个注意单元60。在此，第一多头注意力模块209和第二多头注意力模块212对某一特征图进行进一步特征采样的过程具体可以包括：首先分别通过第二全连接层601、第三全连接层602和第四全连接层603对该特征图进行线性变换，得到线性变换后的第一变换特征图、第二变换特征图和第三变换特征图，并将第一变换特征图输入至转置运算层604，将第二变换特征图输入至第二相乘运算层605以及将第三变换特征图输入至第三相乘运算层607；转置运算层604则可对接收到的第一变换特征图做转置运算，得到转置后的第一变换特征图，并将转置后的第一变换特征图输入至第二相乘运算层605；第二相乘运算层605则可对所接收到的第二变换特征图和转置后的第一变换特征图进行乘法操作，并将所得到的第一输出特征图输入至权重计算层606，以使得权重计算层606根据该第一输出特征图来计算该特征图中各特征的注意力权重，并将计算得到的各特征的注意力权重输入至第三相乘计算层607；第三相乘计算层607则可根据各特征的注意力权重对第四全连接层603输入的第三变换特征图进行相乘运算处理，即根据各注意力权重对第三变换特征图中的各特征进行加权处理，并将所得到的加权特征图输入至所述融合单元中的拼接层608；拼接层608则可接收每一个注意单元60最后输出的加权特征图，并可将所接收到的这多个加权特征图拼接成一个第一综合特征图，然后将该第一综合特征图输入至第五全连接层609；第五全连接层609则可对该第一综合特征图进行进一步特征处理，得到第二综合特征图，并可将该第二综合特征图输入至第四相加运算层612，同时还通过所述融合单元中依次连接的第六卷积层610和第七卷积层611对该第二综合特征图进行采样得到第三综合特征图输入至第四相加运算层612，其中，第六卷积层610和第七卷积层611均为一维卷积层；第四相加运算层612则可将所接收到的第二综合特征图和第三综合特征图进行相加运算，即将这两特征图中相同位置的值进行相加，得到一个第三综合特征图，并将该该第三综合特征图输入至第一均值处理层210或者第二均值处理层213。

步骤S303、所述主支网络通过第一相加运算层接收所述第二特征图和所述第三特征图，并对所述第二特征图和所述第二特征图进行相加运算处理，将相加得到的第四特征图输入至所述主支网络的输出层；

步骤S304、所述输出层根据所述第四特征图得到所述识别结果，并输出所述识别结果。

对于上述步骤S303和步骤S304，第一相加运算层214在获取到第一分支网络提取的第二特征图和第二分支网络提取的第三特征图后，即获取到前述所述的第一均值处理层210输出的一个24×1的特征图和前述所述的第二均值处理层213输出的一个24×1的特征图后，可将这两个24×1的特征图进行相加运算处理，具体是将这两特征图中相同位置的值进行相加，最后可输出一个24×1的第四特征图至所述主支网络的输出层215。输出层215则可根据所述第四特征图得到所述识别结果，并输出所述识别结果。具体地，输出层215可包括m个输出节点，每一个输出节点与一个预设识别结果相对应，如在一个应用场景中，当预设识别结果包括存在暴力行为和不存在暴力行为两种时，则输出层215可包括2个输出节点，一个输出节点与存在暴力行为相对应，另一个识别结果与不存在暴力行为相对应，因此可通过获取各输出节点的输出值来确定各预设识别结果所对应的概率，并可将概率最大的预设识别结果确定为所述暴力行为识别模型当次识别的识别结果，在此，如可通过下式获取各预设识别结果所对应的概率：

其中，S_i为第i个预设识别结果对应的概率，m为输出节点的个数，z_i为第i个输出节点的输出值，z_j为第j个输出节点的输出值。

如图7所示，所述暴力行为识别模型通过下述步骤训练得到：

步骤S701、获取预设数量的第一训练视频，所述第一训练视频包括存在暴力行为的视频和不存在暴力行为的视频；

在此，可预先采集训练视频，如可首先从互联网上收集大量包含暴力行为的视频和不包含暴力行为的视频，然后可将收集的所有视频进行混合，并随机划分为P₁和P₂两部分，其中，P₁约占视频总数量的75％，并作为第一训练视频用于进行所述暴力行为识别模型的训练，P₂约占视频总数量的25％，用于验证训练后的暴力行为识别模型。

步骤S702、按照预设方式分别将各所述第一训练视频划分成多个第二训练视频，并对各所述第二训练视频进行预处理，得到第三训练视频；

步骤S703、标记各所述第三训练视频的标准识别结果；

对于步骤S702和步骤S703，所述预设方式可以是在所述第一训练视频中每隔24帧取连续24帧视频帧组成的视频片段，所述预处理可以是对各视频片段中的每一视频帧进行大小调整。如在获取到第一训练视频后，可首先在各所述第一训练视频中每隔24帧取连续24帧视频帧组成的视频片段，来作为一个第二训练视频，即将所述第一视频中的第1帧至第24帧视频帧确定为第一个第二训练视频，并将所述第一视频中的第25帧至第48帧视频帧确定为第二个第二训练视频，等等；然后可将各第二训练视频中的每一视频帧的分辨率缩放至224×224，以得到缩放后的各第三训练视频，并可根据各第三训练视频中的行为情况，标记各第三训练视频对应的标准识别结果，如可将存在暴力行为的第三训练视频的标准识别结果标记为1，将不存在暴力行为的第三训练视频的标准识别结果标记为0。

在此，为提高暴力行为识别模型训练的有效性，在对存在暴力行为的第一训练视频按照预设方式进行划分之前，可首先去掉该第一训练视频中不存在暴力行为的开头和/或者结尾部分的视频帧，然后再对其进行划分。

步骤S704、将各所述第三训练视频输入至初始的暴力行为识别模型，得到所述初始的暴力行为识别模型输出的各训练识别结果；

可以理解的是，在所述暴力行为识别模型的所有层中，权值可使用均值为0、方差为0.01的高斯分布初始化，偏置则可全部初始化为0，初始学习率可设置为0.001，批大小为则可设置为16。在得到各所述第三训练视频后，可将各所述第三训练视频输入至初始的暴力行为识别模型，所述初始的暴力行为识别模型可通过主支网络、第一分支网络和第三分支网络的特征采样、识别后，得到各所述第三训练视频分别对应的各训练识别结果。

步骤S705、根据各所述训练识别结果和对应的标准识别结果计算本轮训练的训练误差；

在此，可通过下述交叉熵损失函数来计算本轮训练的训练误差：

其中，Loss为训练误差，n为第三训练视频的个数，k为预设识别结果的个数，s_ji为第j个第三训练视频对应的训练识别结果为第i个预设识别结果的概率，y_ji为第j个第三训练视频对应的标准识别结果。

步骤S706、判断所述训练误差是否满足预设条件；

步骤S707、若所述训练误差满足所述预设条件，则确定所述暴力行为识别模型训练完成；

步骤S708、若所述训练误差不满足所述预设条件，则调整所述暴力行为识别模型的模型参数，并将模型参数调整后的暴力行为识别模型确定为初始的暴力行为识别模型，返回执行将各所述第三训练视频输入至初始的暴力行为识别模型，得到所述初始的暴力行为识别模型输出的各训练识别结果的步骤以及后续步骤。

对于上述步骤S706和步骤S708，在计算得到本轮训练的训练误差后，可判断该训练误差是否满足预设条件，如判断该训练误差是否小于5％。所述预设条件可以在训练具体的暴力行为识别模型时确定，例如可设定预设条件为训练误差小于特定阈值。当该训练误差满足所述预设条件时，例如，当该训练误差小于5％时，则可确定所述暴力行为识别模型训练完成。而当该训练误差不满足所述预设条件时，如当该训练误差为8％时，则可调整所述暴力行为识别模型的模型参数，如可通过Adam算法来优化所述暴力行为识别模型的模型参数，并可将模型参数优化后的暴力行为识别模型确定为初始的暴力行为识别模型，然后重新进行第三训练视频的训练，以通过反复优化暴力行为识别模型的模型参数，并进行多次第三训练视频的训练，来使得后续训练中的训练误差最小化，直到训练误差满足所述预设条件。

在此，在每一次训练结束中，还可通过P₂对应的验证集测试暴力行为识别模型的识别准确率，最后可将在验证集上获得最高准确率的暴力行为识别模型作为最终训练出的暴力行为识别模型。

步骤S103、判断所述识别结果是否为所述目标场所中存在暴力行为；

步骤S104、若所述识别结果为所述目标场所中存在暴力行为，则发出报警信息。

对于步骤S103和步骤S104，可以理解的是，在得到所述暴力行为识别模型输出的识别结果后，即可确定出所述目标场所中是否存在暴力行为，若所述目标场所中存在暴力行为的话，则可根据预设报警方式向监控中心上报报警信息，以提醒值班监控人员紧急处理该暴力事件，并可继续获取下一个第一视频来进行下一时刻是否存在暴力行为的判断；而若所述目标场所中不存在暴力行为的话，则可直接获取下一个第一视频来进行下一时刻是否存在暴力行为的判断，预设报警方式包括推送消息、界面提示、语音提示、电话/短信提示。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上面主要描述了一种暴力行为预警方法，下面将对一种暴力行为预警装置进行详细描述。

如图8示，本发明实施例提供了一种暴力行为预警装置，所述暴力行为预警装置，包括：

预处理模块801，用于获取拍摄自目标场所的第一视频，并对所述第一视频进行预处理，得到第二视频；

识别模块802，用于将所述第二视频输入至训练完成的暴力行为识别模型，得到所述暴力行为识别模型输出的识别结果，所述识别结果为所述目标场所中存在暴力行为或者所述目标场所中不存在暴力行为；

判断模块803，用于判断若所述识别结果是否为所述目标场所中存在暴力行为；

报警模块804，用于若所述识别结果为所述目标场所中存在暴力行为，则发出报警信息。

进一步地，所述暴力行为识别模型，还包括主支网络；

所述暴力行为识别模型输出所述识别结果的过程，可以包括：

所述主支网络通过依次连接的第一卷积层、第一倒残差模块、第二通道激励模块、第二倒残差模块、第三通道激励模块对所述第二视频进行采样，并将采样得到的第一特征图分别输入至所述第一分支网络和所述第二分支网络；

所述第一分支网络和所述第二分支网络分别对所述第一特征图进行特征提取，得到所述第一分支网络提取的第二特征图和所述第二分支网络提取的第三特征图，并将所述第二特征图和所述第三特征图输入至所述主支网络；

所述主支网络通过第一相加运算层接收所述第二特征图和所述第三特征图，并对所述第二特征图和所述第二特征图进行相加运算处理，将相加得到的第四特征图输入至所述主支网络的输出层；

所述输出层根据所述第四特征图得到所述识别结果，并输出所述识别结果。

优选地，所述第一分支网络还包括第二卷积层、第一全局均值采样层和第一均值处理层，所述第二分支网络还包括第二全局均值采样层和第二均值处理层；

所述第一通道激励模块与所述第二卷积层连接，所述第二卷积层与所述第一全局均值采样层连接，所述第一全局均值采样层与所述第一多头注意力模块连接，所述第一多头注意力模块与所述第一均值处理层连接；

所述第二全局均值采样层与所述第二多头注意力模块连接，所述第二多头注意力模块与所述第二均值处理层连接；

其中，所述第一通道激励模块和所述第二全局均值采样层还分别与所述主支网络的所述第三通道激励模块连接，所述第一均值处理层和所述第二均值处理层还分别与所述主支网络的所述第一相加运算层连接。

可选地，所述第一倒残差模块和所述第二倒残差模块均包括依次连接的第三卷积层、第一深度可分离卷积层、第四卷积层和第二相加运算层；

其中，所述第二相加运算层将输入至所述第三卷积层的第五特征图和所述第四卷积层输出的第六特征图进行相加运算处理。

进一步地，所述第一通道激励模块、所述第二通道激励模块和所述第三通道激励模块均包括依次连接的第五卷积层、第二深度可分离卷积层、第三全局均值采样层、第一全连接层、第一相乘运算层和第三相加运算层；

其中，所述第一相乘运算层对所述第二深度可分离卷积层输出的第七特征图和所述第一全连接层输出的第八特征图进行相乘处理，得到第九特征图；

所述第三相加运算层对所述第一相乘运算层输出的所述第九特征图和输入至所述第五卷积层的第十特征图进行相加运算处理。

优选地，所述第一多头注意力模块和所述第二多头注意力模块均包括多个注意单元和对所述多个注意单元的输出特征图进行融合处理的融合单元；

所述注意单元包括第二全连接层、第三全连接层、第四全连接层、转置运算层、第二相乘运算层、权重计算层和第三相乘运算层；

所述融合单元包括依次连接的拼接层、第五全连接层、第六卷积层、第七卷积层和第四相加运算层；

所述第二全连接层与所述转置运算层连接，所述第三全连接层和所述转置运算层分别与所述第二相乘运算层连接，所述转置运算层与所述权重计算层连接，所述权重计算层和所述第四全连接层分别与所述第三相乘运算层连接，所述第三相乘运算层与所述融合单元中的所述拼接层连接。

可选地，所述暴力行为预警装置，还可以包括：

训练视频获取模块，用于获取预设数量的第一训练视频，所述第一训练视频包括存在暴力行为的视频和不存在暴力行为的视频；

训练视频划分模块，用于按照预设方式分别将各所述第一训练视频划分成多个第二训练视频，并对各所述第二训练视频进行预处理，得到第三训练视频；

训练视频标记模块，用于标记各所述第三训练视频对应的标准识别结果；

训练视频训练模块，用于将各所述第三训练视频输入至初始的暴力行为识别模型，得到所述初始的暴力行为识别模型输出的各训练识别结果；

训练误差计算模块，用于根据各所述训练识别结果和对应的标准识别结果计算本轮训练的训练误差；

训练完成确定模块，用于若所述训练误差满足预设条件，则确定所述暴力行为识别模型训练完成；

模型参数调整模块，用于若所述训练误差不满足所述预设条件，则调整所述暴力行为识别模型的模型参数，并将模型参数调整后的暴力行为识别模型确定为初始的暴力行为识别模型，返回执行将各所述第三训练视频输入至初始的暴力行为识别模型，得到所述初始的暴力行为识别模型输出的各训练识别结果的步骤以及后续步骤。

图9是本发明一实施例提供的终端设备的示意图。如图9所示，该实施例的终端设备9包括：处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92，例如暴力行为预警程序。所述处理器90执行所述计算机程序92时实现上述各个暴力行为预警方法实施例中的步骤，例如图1所示的步骤S101至步骤S104。或者，所述处理器90执行所述计算机程序92时实现上述各装置实施例中各模块/单元的功能，例如图8所示的模块801至模块804的功能。

示例性的，所述计算机程序92可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器91中，并由所述处理器90执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序92在所述终端设备9中的执行过程。例如，所述计算机程序92可以被分割成预处理模块、识别模块、报警模块，各模块具体功能如下：

判断模块，用于判断若所述识别结果是否为所述目标场所中存在暴力行为；

所述终端设备9可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器90、存储器91。本领域技术人员可以理解，图9仅仅是终端设备9的示例，并不构成对终端设备9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器90可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91可以是所述终端设备9的内部存储单元，例如终端设备9的硬盘或内存。所述存储器91也可以是所述终端设备9的外部存储设备，例如所述终端设备9上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器91还可以既包括所述终端设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种暴力行为预警方法，其特征在于，包括：

2.根据权利要求1所述的暴力行为预警方法，其特征在于，所述暴力行为识别模型，还包括主支网络；

所述暴力行为识别模型输出所述识别结果的过程，包括：

3.根据权利要求2所述的暴力行为预警方法，其特征在于，所述第一分支网络还包括第二卷积层、第一全局均值采样层和第一均值处理层，所述第二分支网络还包括第二全局均值采样层和第二均值处理层；

4.根据权利要求2所述的暴力行为预警方法，其特征在于，所述第一倒残差模块和所述第二倒残差模块均包括依次连接的第三卷积层、第一深度可分离卷积层、第四卷积层和第二相加运算层；

5.根据权利要求2所述的暴力行为预警方法，其特征在于，所述第一通道激励模块、所述第二通道激励模块和所述第三通道激励模块均包括依次连接的第五卷积层、第二深度可分离卷积层、第三全局均值采样层、第一全连接层、第一相乘运算层和第三相加运算层；

6.根据权利要求2所述的暴力行为预警方法，其特征在于，所述第一多头注意力模块和所述第二多头注意力模块均包括多个注意单元和对所述多个注意单元的输出特征图进行融合处理的融合单元；

7.根据权利要求1至6中任一项所述的暴力行为预警方法，其特征在于，所述暴力行为识别模型通过下述步骤训练得到：

获取预设数量的第一训练视频，所述第一训练视频包括存在暴力行为的视频和不存在暴力行为的视频；

按照预设方式分别将各所述第一训练视频划分成多个第二训练视频，并对各所述第二训练视频进行预处理，得到第三训练视频；

标记各所述第三训练视频对应的标准识别结果；

将各所述第三训练视频输入至初始的暴力行为识别模型，得到所述初始的暴力行为识别模型输出的各训练识别结果；

根据各所述训练识别结果和对应的标准识别结果计算本轮训练的训练误差；

若所述训练误差满足预设条件，则确定所述暴力行为识别模型训练完成；

若所述训练误差不满足所述预设条件，则调整所述暴力行为识别模型的模型参数，并将模型参数调整后的暴力行为识别模型确定为初始的暴力行为识别模型，返回执行将各所述第三训练视频输入至初始的暴力行为识别模型，得到所述初始的暴力行为识别模型输出的各训练识别结果的步骤以及后续步骤。

8.一种暴力行为预警装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述暴力行为预警方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述暴力行为预警方法的步骤。