CN112651330A

CN112651330A - 目标对象行为检测方法、装置和计算机设备

Info

Publication number: CN112651330A
Application number: CN202011545127.3A
Authority: CN
Inventors: 梁俊杰; 赖众程; 洪叁亮
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-13
Anticipated expiration: 2040-12-23
Also published as: CN112651330B

Abstract

本申请涉及人工智能领域，揭示了目标对象行为检测方法，包括：按照第一预设方式抽取单位时间内的多张图片；将单位时间内的多张图片分别按照时序输入滤波器，一一对应得到多张新图片；将多张新图片按照时序依次输入到分类模型中，得到分类模型输出的第一打架行为概率值，将多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值；将第一打架行为概率值和第二打架行为概率值，通过加权融合方式融合为预测概率值；根据预测概率值，通过预设条件检测所述单位时间内的多张图片中的打架行为动作。经过优化的分类模型、人体轮廓提取模型及时序分类模型的结合处理，提取行为动作的运动信息，降低光线干扰，提高精准性。

Description

目标对象行为检测方法、装置和计算机设备

技术领域

本申请涉及人工智能领域，特别是涉及到目标对象行为检测方法、装置和计算机设备。

背景技术

随着人工智能等前沿科技技术的发展，越来越多的业务区域成为只通过智能系统提供服务的自助业务区域，比如自助银行、自助车管服务、自助证件办理等等。上述自助业务区域中如果出现打架行为，由于没有工作人员的及时管理，会存在事态恶化甚至导致人员伤亡，或者损坏智能系统财产等严重情况。对自助业务区域进行精准的打架行为检测，可以及时发现并提醒相关工作人员处理，有效减轻财产损失，并维护客户的人生安全，更好让自助业务区域更有序地服务于每个客户。

但目前利用光流法判断打架行为容易受外界光照的影响，导致检测的准确性和抗干扰能力较差。

发明内容

本申请的主要目的为提供目标对象行为检测方法，旨在解决现有论文消歧效果不精准的技术问题。

本申请提出一种目标对象行为检测方法，包括：

按照第一预设方式抽取单位时间内的多张图片；

将所述单位时间内的多张图片分别按照时序输入滤波器，一一对应得到多张新图片；

将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值，将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值，其中，所述分类模型与所述人体轮廓提取模型并列部署，所述时序分类模型连接于所述人体轮廓提取模型的输出端；

将所述第一打架行为概率值和所述第二打架行为概率值，通过加权融合方式融合为预测概率值；

根据所述预测概率值，通过预设条件检测所述单位时间内的多张图片中的打架行为动作。

优选地，所述分类模型包括多个残差结构层、多个注意力结构层以及多个全连接层，各所述注意力结构层间隔设置于两个相邻的残差结构层之间，多个所述全连接层连接在所述分类模型的输出端，将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值的步骤，包括：

将指定新图片经过各所述残差结构层和各所述注意力结构层处理，得到所述新图片对应的特征点，其中，所述指定新图片属于所有单位时间内对应的所有新图片中的任意一张；

获取自助业务区域的监控设备信息；

将所述新图片对应的特征点与所述监控设备信息在第一全连接层拼接，得到拼接信息；

将所述拼接信息输入第二全连接层，输出所述指定新图片对应的所述第一打架行为概率值，其中，所述第二全连接层连接于所述第一全连接层之后；

根据所述指定新图片对应的所述第一打架行为概率值的获取方式，获取单位时间内所有新图片分别对应的第一打架行为概率值；

根据所述单位时间内所有新图片分别对应的第一打架行为概率值，得到所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值。

优选地，所述注意力结构层包括依次连接的通道注意力和空间注意力，将指定新图片经过各所述残差结构层和各所述注意力结构层处理，得到所述新图片对应的特征点的步骤，包括：

获取第一残差结构层输出的所述指定新图片对应的第一特征图，其中，所述第一残差结构层为所有残差结构层中的任一个；

将所述第一特征图输入至第一注意力结构层的通道注意力，得到所述第一特征图中各特征单元块分别对应的通道权重，其中，所述第一注意力结构层连接在所述第一残差结构层和第二残差结构层之间，所述第二残差结构层为排布在所述第一残差结构层之后的残差结构层；

将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，分别输入至所述第一注意力结构层的空间注意力，得到所述第一特征图中各特征点分别对应的空间权重；

将所述第一特征图和所述第一特征图中各特征点分别对应的空间权重拼接后，形成特征拼接图；

将所述特征拼接图按照所述第一残差结构层和所述第一注意力结构层的处理方式，依次输入所述第一残差结构层之外的残差结构层以及所述第一注意力结构层之外的注意力结构层进行特征图处理，得到所述新图片对应的特征点。

优选地，所述通道注意力通过两种尺寸的卷积核分成两个分析通道，将所述第一特征图输入至第一注意力结构层的通道注意力，得到所述第一特征图中各特征单元块分别对应的通道权重的步骤，包括：

将所述第一特征图包括的所有特征单元块，输入大卷积核对应的第一分析通道，通过池化卷积得到各所述特征单元块分别对应的第一特征值，将所述第一特征图包括的所有特征单元块，输入小卷积核对应的第二分析通道，通过池化卷积得到各所述特征单元块分别对应的第二特征值；

将各所述特征单元块分别对应的第一特征值和各所述特征单元分别对应的第二特征值叠加后，得到所述第一特征图中各特征单元块分别对应的通道权重。

优选地，所述将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，分别输入至所述第一注意力结构层的空间注意力，得到所述第一特征图中各特征点分别对应的空间权重的步骤，包括：

将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，按照特征点将所述第一特征图划分为各特征点；

将所述第一特征图包括的各特征点，输入大卷积核对应的第三分析通道，通过池化卷积得到各所述特征点分别对应的第三特征值，将所述第一特征图包括的所有特征点，输入小卷积核对应的第四分析通道，通过池化卷积得到各所述特征点分别对应的第四特征值；

将各所述特征点分别对应的第三特征值和各所述特征点分别对应的第四特征值叠加后，得到所述第一特征图中各特征点分别对应的空间权重。

优选地，所述根据所述单位时间内所有新图片分别对应的第一打架行为概率值，得到所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值的步骤，包括：

根据第一计算公式，将所述单位时间内所有新图片分别对应的第一打架行为概率值进行融合，得到融合值，其中，所述第一计算公式为

Re_cls表示融合值，Re_cls_i表示第i张新图片对应的第一打架行为概率值，Q表示所述单位时间内所有新图片的数量，Q为正实数；

将所述融合值作为所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值。

优选地，所述将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值的步骤，包括：

将多张新图片按照生成时序依次输入至人体轮廓提取模型中，得到各所述新图片分别对应的人体轮廓图；

通过在相邻两帧人体轮廓图上分别在横轴方向和纵轴方向计算光流图，得到单位时间内的所有光流图；

将所述单位时间内的所有光流图，按照时序输入至所述时序分类模型中，分别得到各所述光流图分别对应的第二打架行为概率值；

将各所述第二打架行为概率值进行融合，得到所述单位时间内的图片对应的第二打架行为概率值。

本申请还提供了一种目标对象行为检测装置，包括：

抽取模块，用于按照第一预设方式抽取单位时间内的多张图片；

第一输入模块，用于将所述单位时间内的多张图片分别按照时序输入滤波器，一一对应得到多张新图片；

第二输入模块，用于将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值，将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值，其中，所述分类模型与所述人体轮廓提取模型并列部署，所述时序分类模型连接于所述人体轮廓提取模型的输出端；

融合模块，用于将所述第一打架行为概率值和所述第二打架行为概率值，通过加权融合方式融合为预测概率值；

检测模块，用于根据所述预测概率值，通过预设条件检测所述单位时间内的多张图片中的打架行为动作。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过对监控获取的图片选取合适的两帧进行高通滤波后，经过优化的分类模型、人体轮廓提取模型以及时序分类模型的结合处理，提取行为动作的运动信息，最大化地降低不同角度的光线干扰，提高提取运动矢量的精准性，并通过两种模型的预测概率，提高对打架行为的预测精准度。

附图说明

图1本申请一实施例的目标对象行为检测方法流程示意图；

图2本申请一实施例的目标对象行为检测系统流程示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的目标对象行为检测方法，包括：

S1：按照第一预设方式抽取单位时间内的多张图片；

S2：将所述单位时间内的多张图片分别按照时序输入滤波器，一一对应得到多张新图片；

S3：将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值，将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值，其中，所述分类模型与所述人体轮廓提取模型并列部署，所述时序分类模型连接于所述人体轮廓提取模型的输出端；

S4：将所述第一打架行为概率值和所述第二打架行为概率值，通过加权融合方式融合为预测概率值；

S5：根据所述预测概率值，通过预设条件检测所述单位时间内的多张图片中的打架行为动作。

本申请实施例中，第一预设方式包括单位时间内间隔一帧或多帧取视频帧作为图片，上述间隔一帧或多帧可根据视频帧的内容变化度决定，获取的两帧内容上具有时间上的连续性；或者取连续的两帧后间隔一帧或多帧。单位时间比如为1秒，1秒内的总帧数定义为S，那么获取的单位时间内的图片张数为Q，则Q＝S/2。

通过将获取的图片输入滤波器，以过滤光线的影响。本申请的滤波器为高通滤波器，将获取的图片先通过快速傅里叶变换将空间域转到频域上，快速傅立叶公式如下：

M为图片的宽，N为图片的高，F(u，v)是频域的表达方法，其中u＝0、1、2、3、4....M-1；v＝0、1、2、3、4....N-1；然后经过分析当前环境光的光线干扰是否属于低频分量，若是则通过高通滤波来过滤低频分量。高通滤波公式如下：

D是函数表达式，D0为截止频域，本申请优选D0取120；最后将滤去环境光的频域图片，经快速傅立叶反变换，从频域恢复到空间域，得到新图片。快速傅立叶反变化公式如下：

本申请实施例通过将分类模型中的打架行为概率值，以及通过人体轮廓得到的光流图对应的时序分类模型输出的第二打架第二打架行为概率值，通过加权融合方式融合为预测概率值，以确定单位时间的图片中是否包括打架行为。由于光线变化会在产生在图像中不确定的位置，而且光流图会容易受光线的影响，对整张图片提取光流图会带有光线的光流信息，本申请为减少背景带来的光线干扰，通过人体轮廓得到的光流图，将背景剔除，不仅降低了计算量，且进一步降低了光线的影响。

本申请通过将分类模型得到的第一打架行为概率值与时序分类模型得到的第一打架行为概率值进行加权融合，得到预测概率值，将预测概率值通过预设条件判断是否属于打架行为。加权融合公式如下：All_cls＝0.55*Re_cls+0.45*One_cls，其中，All_cls表示预测概率值，Re_cls表示第一打架行为概率值，One_cls表示第二打架行为概率值。

预设条件如下：

即预测概率值大于0.6时表示为打架行为，否者不是打架行为。

本申请通过对监控获取的图片选取合适的两帧进行高通滤波后，经过优化的分类模型、人体轮廓提取模型以及时序分类模型的结合处理，提取行为动作的运动信息，最大化地降低不同角度的光线干扰，提高提取运动矢量的精准性，提高对打架行为的预测精准度。

进一步地，所述分类模型包括多个残差结构层、多个注意力结构层以及多个全连接层，各所述注意力结构层间隔设置于两个相邻的残差结构层之间，多个所述全连接层连接在所述分类模型的输出端，将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值的步骤S3，包括：

S31：将指定新图片经过各所述残差结构层和各所述注意力结构层处理，得到所述新图片对应的特征点，其中，所述指定新图片属于所有单位时间内对应的所有新图片中的任意一张；

S32：获取自助业务区域的监控设备信息；

S33：将所述新图片对应的特征点与所述监控设备信息在第一全连接层拼接，得到拼接信息；

S34：将所述拼接信息输入第二全连接层，输出所述指定新图片对应的所述第一打架行为概率值，其中，所述第二全连接层连接于所述第一全连接层之后；

S35：根据所述指定新图片对应的所述第一打架行为概率值的获取方式，获取单位时间内所有新图片分别对应的第一打架行为概率值；

S36：根据所述单位时间内所有新图片分别对应的第一打架行为概率值，得到所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值。

本申请实施例中，分类模型包括多个残差结构层、多个注意力结构层以及多个全连接层。上述残差结构层从输入端至输出端依次为

四个层级。而且区别于现有相邻残差层的上层输出直接叠加至下层中的叠加机制，本申请实施例在两个相邻的残差层之间设置注意力结构层，使上层输出通过注意力结构层使模型聚焦在关键的特征信息上，然后跟上层输出的特征图叠加后输入至下一层的残差层，直至输出至全连接层。上述注意力结构层包括两部分：通道注意力和空间注意力。上述自助业务区域包括但不限于自助银行。上述监控设备信息包括但不限于摄像头安装高度m、摄像头的中心距离n、两个摄像头的平均角度α以及两摄像头的平均聚焦参数r等四个特征值。上述全连接层包括三层，第一个全连接层输出的维度为2048，而第二个全连接输出的维度为4，第二个全连接与上面获取的监控设备信息进行拼接，然后输入到第三个全连接中，第三个全连接的输出维度为2。

本申请的人体轮廓提取模型以及时序分类模型均以分类模型中的多个残差结构层、多个注意力结构层以及多个全连接层为模型基础，改变训练数据等形成。上述模型训练过程，使用混淆矩阵来制定整个打架行为检测方法的评价指标，精度越高越好。根据下表1的数据关系，精度公式：

召回率越高越好，召回率公式：

表1

	打架行为	非打架行为
			预测为遮挡	True Positive(TP)	False Positive(FP)
预测为没遮挡	False Negative(FN)	True Negative(TN)
			合计	Predict Positive(TP+FN)	Predict Negative(FP+TN)

进一步地，所述注意力结构层包括依次连接的通道注意力和空间注意力，将指定新图片经过各所述残差结构层和各所述注意力结构层处理，得到所述新图片对应的特征点的步骤S31，包括：

S311：获取第一残差结构层输出的所述指定新图片对应的第一特征图，其中，所述第一残差结构层为所有残差结构层中的任一个；

S312：将所述第一特征图输入至第一注意力结构层的通道注意力，得到所述第一特征图中各特征单元块分别对应的通道权重，其中，所述第一注意力结构层连接在所述第一残差结构层和第二残差结构层之间，所述第二残差结构层为排布在所述第一残差结构层之后的残差结构层；

S313：将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，分别输入至所述第一注意力结构层的空间注意力，得到所述第一特征图中各特征点分别对应的空间权重；

S314：将所述第一特征图和所述第一特征图中各特征点分别对应的空间权重拼接后，形成特征拼接图；

S315：将所述特征拼接图按照所述第一残差结构层和所述第一注意力结构层的处理方式，依次输入所述第一残差结构层之外的残差结构层以及所述第一注意力结构层之外的注意力结构层进行特征图处理，得到所述新图片对应的特征点。

本申请实施例中，通道注意力和空间注意力可从不同维度分析特征图，通过结合通道注意力和空间注意力让分类模型更加关注通道和空间上的重要信息，提高分类模型的准确率。

进一步地，所述通道注意力通过两种尺寸的卷积核分成两个分析通道，将所述第一特征图输入至第一注意力结构层的通道注意力，得到所述第一特征图中各特征单元块分别对应的通道权重的步骤S312，包括：

S3121：将所述第一特征图包括的所有特征单元块，输入大卷积核对应的第一分析通道，通过池化卷积得到各所述特征单元块分别对应的第一特征值，将所述第一特征图包括的所有特征单元块，输入小卷积核对应的第二分析通道，通过池化卷积得到各所述特征单元块分别对应的第二特征值；

S3122：将各所述特征单元块分别对应的第一特征值和各所述特征单元分别对应的第二特征值叠加后，得到所述第一特征图中各特征单元块分别对应的通道权重。

本申请实施例中，通道注意力是对原始的第一特征图以特征单元块为一个分析单位进行分析，举例地第一特征图的纬度为w*h*c，结合不同大小的卷积核上做注意力机制，既关注打架行为的大视野特征，同时也要关注小视野特征，无论在大视野还是小视野上都可以关注到关键信息，则为第一特征图上的特征点信息。首先经过两个不同大小卷积核的卷积，形成两个分支上分析通道，在每个分析通道上均利用全局最大池化和全局平均池化对每个特征单元块进行取值，每个特征单元块取一个值，最终组成1*1*c维的特征图，最终得到一个1*1*c维的最大池化特征图和一个1*1*c维的平均池化特征图。然后分别卷积最大池化特征图和平均池化特征图，接着将经过卷积后的两个特征图叠加在一起，经过sigmoid函数得到每个特征单元块对应通道的权重，进而得到两个尺寸卷积核对应的分析通道的权重。然后通过通道权重融合公式来融合两个权重，其中α_ch和β_ch权重系数，可通过已标注训练数据通过深度学习来学习确定的。通道权重融合公式为：channel_{weight_ch}＝α_ch*channel_weight3+β_ch*channel_weight7weight3表示小卷积核的尺寸为3*3，weight7表示大卷积核的尺寸为7*7。最后将融合的通道权重与原始的第一特征图相乘，使分类模型更倾向感知权重大的重要通道。

进一步地，将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，分别输入至所述第一注意力结构层的空间注意力，得到所述第一特征图中各特征点分别对应的空间权重的步骤S313，包括：

S3131：将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，按照特征点将所述第一特征图划分为各特征点；

S3132：将所述第一特征图包括的各特征点，输入大卷积核对应的第三分析通道，通过池化卷积得到各所述特征点分别对应的第三特征值，将所述第一特征图包括的所有特征点，输入小卷积核对应的第四分析通道，通过池化卷积得到各所述特征点分别对应的第四特征值；

S3122：将各所述特征点分别对应的第三特征值和各所述特征点分别对应的第四特征值叠加后，得到所述第一特征图中各特征点分别对应的空间权重。

空间注意力是对原始的第一特征图以一个特征点为分析单位进行分析的。举例地，原始的第一特征图的纬度为w*h*c，结合打架行为特点分别采用不同大小尺寸的卷积核做空间注意力机制。首先经过两个大小不一样卷积核的卷积，然后分别利用全局最大池化和全局平均池化对每个特征点进行取值，每个特征点取一个值，最终组成w*h*1维的特征图，然后将两个分析通道分别得到的特征图拼接在一起，接着经过进行卷积，最后经过sigmoid函数得到每个特征点的权重，进而得到了在不同大小卷积核上产生的两个分析通道的权重，然后通过空间权重公式来融合两个权重，其中α_sp和β_sp是通过标注数据深度学习确定的。上述特征点代表着第一特征图上的某块区域。上述空间权重公式为：channel_{weight_sp}＝α_sp*channel^w _eight3+β_sp*channel_weight7，weight3表示小卷积核的尺寸为3*3，weight7表示大卷积核的尺寸为7*7。最后将融合的空间权重与原始的第一特征图相乘，使分类模型更倾向感知权重大的重要特征点。

进一步地，根据所述单位时间内所有新图片分别对应的第一打架行为概率值，得到所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值的步骤S36，包括：

S361：根据第一计算公式，将所述单位时间内所有新图片分别对应的第一打架行为概率值进行融合，得到融合值，其中，所述第一计算公式为

S362：将所述融合值作为所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值。

本申请实施例中，将经过高通滤波的新图片的尺寸分成224*224的大小，然后输入到分类模型中，经过softmax得到各个新图片第一打架行为概率值Re_cls_i。由于1秒里面取了Q张图片，对应Q张新图片，因此有Q个第一打架行为概率值Re_cls_i，通过融合得到单位时间内的图片对应的一个总的第一打架行为概率值。

进一步地，将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值的步骤S3，包括：

S301：将多张新图片按照生成时序依次输入至人体轮廓提取模型中，得到各所述新图片分别对应的人体轮廓图；

S302：通过在相邻两帧人体轮廓图上分别在横轴方向和纵轴方向计算光流图，得到单位时间内的所有光流图；

S303：将所述单位时间内的所有光流图，按照时序输入至所述时序分类模型中，分别得到各所述光流图分别对应的第二打架行为概率值；

S304：将各所述第二打架行为概率值进行融合，得到所述单位时间内的图片对应的第二打架行为概率值。

本申请实施例中，将经过高通滤波的新图片尺寸为300*300的大小，然后输入到人体轮廓提取模型中，得到人体轮廓，并将背景全部变成黑色。由于上述分类模型中只是利用了离散的信息，时序上是断续的，但打架行为是一个连续的过程，是带有时间信息的，因此本申请通过结合利用时序信息来提高动作识别的准确率。本申请通过提取光流图来代表运动信息。首先对相邻的两个视频帧图片进行人体轮廓的提取，得到两个人体轮廓，然后通过上述两个人体轮廓分别在x方向、y方向上求光流图，即两个视频帧图片对应两张光流图。实际就是只对相邻两帧视频帧图片里的人体轮廓做光流图，而不是对整张视频帧图片求光流图，可以过滤掉背景中的光线干扰。通过求光流图得到Q张视频帧图片的Q张的光流图。

Q张光流图分别输入到时序分类模型里，得到Q个第二打架行为概率值One_cls_i，通过融合得到单位时间内的图片对应的第二打架行为概率值。融合公式为：

参照图2，本申请一实施例的目标对象行为检测装置，包括：

抽取模块1，用于按照第一预设方式抽取单位时间内的多张图片；

第一输入模块2，用于将所述单位时间内的多张图片分别按照时序输入滤波器，一一对应得到多张新图片；

第二输入模块3，用于将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值，将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值，其中，所述分类模型与所述人体轮廓提取模型并列部署，所述时序分类模型连接于所述人体轮廓提取模型的输出端；

融合模块4，用于将所述第一打架行为概率值和所述第二打架行为概率值，通过加权融合方式融合为预测概率值；

检测模块5，用于根据所述预测概率值，通过预设条件检测所述单位时间内的多张图片中的打架行为动作。

本申请装置实施例的解释，同对应方法部分的解释，不赘述。

进一步地，所述分类模型包括多个残差结构层、多个注意力结构层以及多个全连接层，各所述注意力结构层间隔设置于两个相邻的残差结构层之间，多个所述全连接层连接在所述分类模型的输出端，第二输入模块3，包括：

第一得到子模块，用于将指定新图片经过各所述残差结构层和各所述注意力结构层处理，得到所述新图片对应的特征点，其中，所述指定新图片属于所有单位时间内对应的所有新图片中的任意一张；

第一获取子模块，用于获取自助业务区域的监控设备信息；

拼接子模块，用于将所述新图片对应的特征点与所述监控设备信息在第一全连接层拼接，得到拼接信息；

输出子模块，用于将所述拼接信息输入第二全连接层，输出所述指定新图片对应的所述第一打架行为概率值，其中，所述第二全连接层连接于所述第一全连接层之后；

第二获取子模块，用于根据所述指定新图片对应的所述第一打架行为概率值的获取方式，获取单位时间内所有新图片分别对应的第一打架行为概率值；

第二得到子模块，用于根据所述单位时间内所有新图片分别对应的第一打架行为概率值，得到所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值。

进一步地，所述注意力结构层包括依次连接的通道注意力和空间注意力，第一得到子模块，包括：

获取单元，用于获取第一残差结构层输出的所述指定新图片对应的第一特征图，其中，所述第一残差结构层为所有残差结构层中的任一个；

得到单元，用于将所述第一特征图输入至第一注意力结构层的通道注意力，得到所述第一特征图中各特征单元块分别对应的通道权重，其中，所述第一注意力结构层连接在所述第一残差结构层和第二残差结构层之间，所述第二残差结构层为排布在所述第一残差结构层之后的残差结构层；

第一输入单元，用于将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，分别输入至所述第一注意力结构层的空间注意力，得到所述第一特征图中各特征点分别对应的空间权重；

拼接单元，用于将所述第一特征图和所述第一特征图中各特征点分别对应的空间权重拼接后，形成特征拼接图；

第二输入单元，用于将所述特征拼接图按照所述第一残差结构层和所述第一注意力结构层的处理方式，依次输入所述第一残差结构层之外的残差结构层以及所述第一注意力结构层之外的注意力结构层进行特征图处理，得到所述新图片对应的特征点。

进一步地，所述通道注意力通过两种尺寸的卷积核分成两个分析通道，得到单元，包括：

输入子单元，用于将所述第一特征图包括的所有特征单元块，输入大卷积核对应的第一分析通道，通过池化卷积得到各所述特征单元块分别对应的第一特征值，将所述第一特征图包括的所有特征单元块，输入小卷积核对应的第二分析通道，通过池化卷积得到各所述特征单元块分别对应的第二特征值；

叠加子单元，用于将各所述特征单元块分别对应的第一特征值和各所述特征单元分别对应的第二特征值叠加后，得到所述第一特征图中各特征单元块分别对应的通道权重。

进一步地，第一输入单元，包括：

融合子单元，用于将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，按照特征点将所述第一特征图划分为各特征点；

输入子单元，用于将所述第一特征图包括的各特征点，输入大卷积核对应的第三分析通道，通过池化卷积得到各所述特征点分别对应的第三特征值，将所述第一特征图包括的所有特征点，输入小卷积核对应的第四分析通道，通过池化卷积得到各所述特征点分别对应的第四特征值；

叠加子单元，用于将各所述特征点分别对应的第三特征值和各所述特征点分别对应的第四特征值叠加后，得到所述第一特征图中各特征点分别对应的空间权重。

进一步地，第二得到子模块，包括：

融合单元，用于根据第一计算公式，将所述单位时间内所有新图片分别对应的第一打架行为概率值进行融合，得到融合值，其中，所述第一计算公式为

作为单元，用于将所述融合值作为所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值。

进一步地，第二输入模块3，包括：

第三得到子模块，用于将多张新图片按照生成时序依次输入至人体轮廓提取模型中，得到各所述新图片分别对应的人体轮廓图；

计算子模块，用于通过在相邻两帧人体轮廓图上分别在横轴方向和纵轴方向计算光流图，得到单位时间内的所有光流图；

输入子模块，用于将所述单位时间内的所有光流图，按照时序输入至所述时序分类模型中，分别得到各所述光流图分别对应的第二打架行为概率值；

融合子模块，用于将各所述第二打架行为概率值进行融合，得到所述单位时间内的图片对应的第二打架行为概率值。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标对象行为检测过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现目标对象行为检测方法。

上述处理器执行上述目标对象行为检测方法，包括：按照第一预设方式抽取单位时间内的多张图片；将所述单位时间内的多张图片分别按照时序输入滤波器，一一对应得到多张新图片；将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值，将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值，其中，所述分类模型与所述人体轮廓提取模型并列部署，所述时序分类模型连接于所述人体轮廓提取模型的输出端；将所述第一打架行为概率值和所述第二打架行为概率值，通过加权融合方式融合为预测概率值；根据所述预测概率值，通过预设条件检测所述单位时间内的多张图片中的打架行为动作。

上述计算机设备，通过对监控获取的图片选取合适的两帧进行高通滤波后，经过优化的分类模型、人体轮廓提取模型以及时序分类模型的结合处理，提取行为动作的运动信息，最大化地降低不同角度的光线干扰，提高提取运动矢量的精准性，并通过两种模型的预测概率，提高对打架行为的预测精准度。

在一个实施例中，所述分类模型包括多个残差结构层、多个注意力结构层以及多个全连接层，各所述注意力结构层间隔设置于两个相邻的残差结构层之间，多个所述全连接层连接在所述分类模型的输出端，上述处理器将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值的步骤，包括：将指定新图片经过各所述残差结构层和各所述注意力结构层处理，得到所述新图片对应的特征点，其中，所述指定新图片属于所有单位时间内对应的所有新图片中的任意一张；获取自助业务区域的监控设备信息；将所述新图片对应的特征点与所述监控设备信息在第一全连接层拼接，得到拼接信息；将所述拼接信息输入第二全连接层，输出所述指定新图片对应的所述第一打架行为概率值，其中，所述第二全连接层连接于所述第一全连接层之后；根据所述指定新图片对应的所述第一打架行为概率值的获取方式，获取单位时间内所有新图片分别对应的第一打架行为概率值；根据所述单位时间内所有新图片分别对应的第一打架行为概率值，得到所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值。

在一个实施例中，所述注意力结构层包括依次连接的通道注意力和空间注意力，上述处理器将指定新图片经过各所述残差结构层和各所述注意力结构层处理，得到所述新图片对应的特征点的步骤，包括：获取第一残差结构层输出的所述指定新图片对应的第一特征图，其中，所述第一残差结构层为所有残差结构层中的任一个；将所述第一特征图输入至第一注意力结构层的通道注意力，得到所述第一特征图中各特征单元块分别对应的通道权重，其中，所述第一注意力结构层连接在所述第一残差结构层和第二残差结构层之间，所述第二残差结构层为排布在所述第一残差结构层之后的残差结构层；将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，分别输入至所述第一注意力结构层的空间注意力，得到所述第一特征图中各特征点分别对应的空间权重；将所述第一特征图和所述第一特征图中各特征点分别对应的空间权重拼接后，形成特征拼接图；将所述特征拼接图按照所述第一残差结构层和所述第一注意力结构层的处理方式，依次输入所述第一残差结构层之外的残差结构层以及所述第一注意力结构层之外的注意力结构层进行特征图处理，得到所述新图片对应的特征点。

在一个实施例中，所述通道注意力通过两种尺寸的卷积核分成两个分析通道，上述处理器将所述第一特征图输入至第一注意力结构层的通道注意力，得到所述第一特征图中各特征单元块分别对应的通道权重的步骤，包括：将所述第一特征图包括的所有特征单元块，输入大卷积核对应的第一分析通道，通过池化卷积得到各所述特征单元块分别对应的第一特征值，将所述第一特征图包括的所有特征单元块，输入小卷积核对应的第二分析通道，通过池化卷积得到各所述特征单元块分别对应的第二特征值；将各所述特征单元块分别对应的第一特征值和各所述特征单元分别对应的第二特征值叠加后，得到所述第一特征图中各特征单元块分别对应的通道权重。

在一个实施例中，上述处理器将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，分别输入至所述第一注意力结构层的空间注意力，得到所述第一特征图中各特征点分别对应的空间权重的步骤，包括：将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，按照特征点将所述第一特征图划分为各特征点；将所述第一特征图包括的各特征点，输入大卷积核对应的第三分析通道，通过池化卷积得到各所述特征点分别对应的第三特征值，将所述第一特征图包括的所有特征点，输入小卷积核对应的第四分析通道，通过池化卷积得到各所述特征点分别对应的第四特征值；将各所述特征点分别对应的第三特征值和各所述特征点分别对应的第四特征值叠加后，得到所述第一特征图中各特征点分别对应的空间权重。

在一个实施例中，上述处理器根据所述单位时间内所有新图片分别对应的第一打架行为概率值，得到所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值的步骤，包括：根据第一计算公式，将所述单位时间内所有新图片分别对应的第一打架行为概率值进行融合，得到融合值，其中，所述第一计算公式为

Re_cls表示融合值，Re_cls_i表示第i张新图片对应的第一打架行为概率值，Q表示所述单位时间内所有新图片的数量，Q为正实数；将所述融合值作为所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值。

在一个实施例中，上述处理器将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值的步骤，包括：将多张新图片按照生成时序依次输入至人体轮廓提取模型中，得到各所述新图片分别对应的人体轮廓图；通过在相邻两帧人体轮廓图上分别在横轴方向和纵轴方向计算光流图，得到单位时间内的所有光流图；将所述单位时间内的所有光流图，按照时序输入至所述时序分类模型中，分别得到各所述光流图分别对应的第二打架行为概率值；将各所述第二打架行为概率值进行融合，得到所述单位时间内的图片对应的第二打架行为概率值。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现目标对象行为检测方法，包括：按照第一预设方式抽取单位时间内的多张图片；将所述单位时间内的多张图片分别按照时序输入滤波器，一一对应得到多张新图片；将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值，将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值，其中，所述分类模型与所述人体轮廓提取模型并列部署，所述时序分类模型连接于所述人体轮廓提取模型的输出端；将所述第一打架行为概率值和所述第二打架行为概率值，通过加权融合方式融合为预测概率值；根据所述预测概率值，通过预设条件检测所述单位时间内的多张图片中的打架行为动作。

上述计算机可读存储介质，通过对监控获取的图片选取合适的两帧进行高通滤波后，经过优化的分类模型、人体轮廓提取模型以及时序分类模型的结合处理，提取行为动作的运动信息，最大化地降低不同角度的光线干扰，提高提取运动矢量的精准性，并通过两种模型的预测概率，提高对打架行为的预测精准度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种目标对象行为检测方法，其特征在于，包括：

按照第一预设方式抽取单位时间内的多张图片；

2.根据权利要求1所述的目标对象行为检测方法，其特征在于，所述分类模型包括多个残差结构层、多个注意力结构层以及多个全连接层，各所述注意力结构层间隔设置于两个相邻的残差结构层之间，多个所述全连接层连接在所述分类模型的输出端，将所述多张新图片按照时序依次输入到分类模型中，得到所述分类模型输出的第一打架行为概率值的步骤，包括：

获取自助业务区域的监控设备信息；

3.根据权利要求2所述的目标对象行为检测方法，其特征在于，所述注意力结构层包括依次连接的通道注意力和空间注意力，将指定新图片经过各所述残差结构层和各所述注意力结构层处理，得到所述新图片对应的特征点的步骤，包括：

4.根据权利要求3所述的目标对象行为检测方法，其特征在于，所述通道注意力通过两种尺寸的卷积核分成两个分析通道，将所述第一特征图输入至第一注意力结构层的通道注意力，得到所述第一特征图中各特征单元块分别对应的通道权重的步骤，包括：

5.根据权利要求3所述的目标对象行为检测方法，其特征在于，所述将所述第一特征图中各特征单元块分别对应的通道权重和所述第一特征图融合后，分别输入至所述第一注意力结构层的空间注意力，得到所述第一特征图中各特征点分别对应的空间权重的步骤，包括：

6.根据权利要求2所述的目标对象行为检测方法，其特征在于，所述根据所述单位时间内所有新图片分别对应的第一打架行为概率值，得到所述分类模型输出的所述单位时间内的图片对应的第一打架行为概率值的步骤，包括：

7.根据权利要求1所述的目标对象行为检测方法，其特征在于，所述将所述多张新图片经人体轮廓提取模型处理后的光流图输入时序分类模型中，得到第二打架行为概率值的步骤，包括：

8.一种目标对象行为检测装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。