CN113505733A

CN113505733A - 行为识别方法、装置、存储介质及电子装置

Info

Publication number: CN113505733A
Application number: CN202110845761.7A
Authority: CN
Inventors: 潘国雄; 赵雷; 潘华东; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-15

Abstract

本发明实施例提供了一种行为识别方法、装置、存储介质及电子装置，其中，该方法包括：对包含待处理对象的图像序列进行特征提取，获得图像序列的图像序列特征，其中，图像序列特征用于表征待处理对象在图像序列中的运动信息；对图像序列中的目标图像进行特征提取，得到目标图像的目标图像特征，其中，目标图像为从图像序列中选取的图像，目标图像特征用于表征待处理对象在目标图像中的位置信息；基于图像序列特征和目标图像特征，确定待处理特征；基于待处理特征，对待处理对象在图像序列中的行为进行识别。通过本发明，解决了相关技术中存在的对行为识别的准确率不高的问题，达到了提高行为识别准确率的效果。

Description

行为识别方法、装置、存储介质及电子装置

技术领域

本发明实施例涉及计算机技术领域，具体而言，涉及一种行为识别方法、装置、存储介质及电子装置。

背景技术

随着计算机技术、互联网和人工智能的发展，视频图像的规模呈指数式的增长。如何让机器按照人类的思维方式去“认识”视频，并实现在不同场景下视频的自动理解，一直成为机器视觉领域一个急需解决的问题。下面以人体异常行为分析与识别为例，人体异常行为分析技术在公共安全、智能家居等领域具有广泛应用，应用的场合包括家庭、ATM机、银行、商店、停车场、机场、政府大楼、军事基地、码头等，例如，智能家居中用来监控独居老人摔倒、昏迷，在人群密集处监控倒地、打架斗殴、人群异常聚集、骚乱等异常情况。但是现有的人体异常行为分析技术对于异常行为的区分并不够清晰明确，异常行为识别准确率不高，异常行为报警的可靠性不强。因此，需要一种新的人体异常行为识别技术来解决上述问题。

针对相关技术中存在的对行为识别的准确率不高的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种行为识别方法、装置、存储介质及电子装置，以至少解决相关技术中存在的对行为识别的准确率不高的问题。

根据本发明的一个实施例，提供了一种行为识别方法，包括：对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征，其中，所述图像序列特征用于表征所述待处理对象在所述图像序列中的运动信息；对所述图像序列中的目标图像进行特征提取，得到所述目标图像的目标图像特征，其中，所述目标图像为从所述图像序列中选取的图像，所述目标图像特征用于表征所述待处理对象在所述目标图像中的位置信息；基于所述图像序列特征和所述目标图像特征，确定待处理特征；基于所述待处理特征，对所述待处理对象在所述图像序列中的行为进行识别。在一个示例性实施例中，对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征之前，所述方法还包括：获取包含所述待处理对象的监控视频；对所述监控视频进行抽帧处理，获得所述图像序列。

在一个示例性实施例中，所述目标图像包括至少两个；所述基于所述图像序列特征和所述目标图像特征，确定待处理特征，包括：基于所述至少两个目标图像中包括的各个目标图像的目标图像特征，确定参考图像特征；基于所述图像序列特征和所述参考图像特征，确定待处理特征。

在一个示例性实施例中，基于所述至少两个目标图像中包括的各个目标图像的目标图像特征，确定参考图像特征包括：获取各个所述目标图像的所述目标图像特征的平均值，以得到所述参考图像特征。

在一个示例性实施例中，基于所述图像序列特征和所述目标图像特征，确定待处理特征包括：对所述图像序列特征和所述目标图像特征进行拼接及融合处理，以生成第一特征；对所述第一特征进行叠加处理，以生成所述待处理特征。

在一个示例性实施例中，对所述图像序列特征和所述目标图像特征进行拼接及融合处理，以生成第一特征包括：对所述图像序列特征中包括的用于标识所述图像序列的帧数的第一参数设置为1，以得到图像序列调整特征；将所述图像序列调整特征与所述目标图像特征在目标通道维度上进行拼接，以得到拼接特征；对所述拼接特征进行特征融合处理，以生成所述第一特征。

在一个示例性实施例中，对所述第一特征进行叠加处理，以生成所述待处理特征包括：对所述第一特征的维度进行调整，以得到第二特征；在每一个通道上对所述第二特征做内积，以得到目标类型特征；利用softmax对所述目标类型特征进行处理，以得到注意力机制图；将所述注意力机制图与所述第二特征进行矩阵乘法处理，以得到第三特征；对所述第三特征的维度进行调整，以得到维度与所述第一特征相同的第四特征；将所述第四特征与所述第一特征进行叠加处理，以生成所述待处理特征。

在一个示例性实施例中，基于所述待处理特征，对所述待处理对象在所述图像序列中的行为进行识别包括：对所述待处理特征进行回归处理，以确定出所述待处理对象的坐标框信息以及分类得分；基于所述坐标框信息和所述分类得分确定所述待处理对象的行为。

在一个示例性实施例中，对所述待处理特征进行回归处理，以确定出所述待处理对象的坐标框信息以及分类得分包括：将所述待处理特征输入卷积层，以利用所述卷积层回归出所述待处理对象的坐标框信息以及分类得分。

在一个示例性实施例中，利用所述卷积层回归出所述待处理对象的坐标框信息包括：利用所述卷积层中预先配置的监督框坐标回归出所述待处理对象的所述坐标框信息，其中，所述监督框坐标是通过如下方式生成的：基于所述图像序列中包括的连续两帧图像中所分别包含的所述待处理对象的标注框的第一区域和第二区域，获得第一类分数和第二类分数，其中，所述第一类分数、第二类分数分别用于指示所述第一区域、所述第二区域对应的所述待处理对象的标注框的分类得分；基于所述第一类分数、所述第二类分数、所述第一区域和所述第二区域的重叠度IOU确定所述连续两帧图像的连接分数；基于多个所述连接分数利用预定算法得出所述坐标框信息。

在一个示例性实施例中，基于所述第一类分数、所述第二类分数、所述第一区域和所述第二区域的重叠度IOU确定所述连续两帧图像的连接分数包括：通过如下公式确定所述连续两帧图像的连接分数S_c(R_t,R_t+1):S_c(R_t,R_t+1)＝ψ(x)·[S_c(R_t)+S_c(R_t+1)]+α·S_c(R_t)·S_c(R_t+1)，其中，S_c(R_t)和S_c(R_t+1)是所述第一区域R_t和所述第二区域R_t+1的所述第一类分数和所述第二类分数，x是这两个区域的所述IOU，α是一个标量，当存在区域重叠，ψ(x)则等于1，否则ψ(x)等于0。

根据本发明的另一个实施例，还提供了一种行为识别装置，包括：第一获取模块，用于对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征，其中，所述图像序列特征用于表征所述待处理对象在所述图像序列中的运动信息；提取模块，用于对所述图像序列中的目标图像进行特征提取，得到所述目标图像的目标图像特征，其中，所述目标图像为从所述图像序列中选取的图像，所述目标图像特征用于表征所述待处理对象在所述目标图像中的位置信息；确定模块，用于基于所述图像序列特征和所述目标图像特征，确定待处理特征；识别模块，用于基于所述待处理特征，对所述待处理对象在所述图像序列中的行为进行识别。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，通过对包含待处理对象的图像序列进行特征提取，获得图像序列特征，其中，图像序列特征用于表征待处理对象在图像序列中的运动信息；对图像序列中的目标图像进行特征提取，得到目标图像的目标图像特征，其中，目标图像为从图像序列中选取的图像，目标图像特征用于表征待处理对象在目标图像中的位置信息；再基于图像序列特征和目标图像特征，确定待处理特征；然后基于待处理特征，对待处理对象在图像序列中的行为进行识别。实现了综合图像序列特征和目标图像特征对图像序列中包含的待处理对象的行为进行识别的目的，提高了行为识别的准确率。因此，解决了相关技术中存在的对行为识别的准确率不高的问题，达到了提高行为识别准确率的效果。

附图说明

图1是本发明实施例的行为识别方法的移动终端硬件结构框图；

图2是根据本发明实施例的行为识别方法的流程图；

图3是根据本发明具体实施例的行为识别方法的流程图；

图4是根据本发明具体实施例的特征融合的流程示意图；

图5是根据本发明具体实施例的注意力特征生成的流程示意图；

图6是根据本发明实施例的行为识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的行为识别方法的移动终端硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的行为识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种行为识别方法，图2是根据本发明实施例的行为识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征，其中，所述图像序列特征用于表征所述待处理对象在所述图像序列中的运动信息；

步骤S204，对所述图像序列中的目标图像进行特征提取，得到所述目标图像的目标图像特征，其中，所述目标图像为从所述图像序列中选取的图像，所述目标图像特征用于表征所述待处理对象在所述目标图像中的位置信息；

步骤S206，基于所述图像序列特征和所述目标图像特征，确定待处理特征；

步骤S208，基于所述待处理特征，对所述待处理对象在所述图像序列中的行为进行识别。

通过上述步骤，通过对包含待处理对象的图像序列进行特征提取，获得图像序列特征，其中，图像序列特征用于表征待处理对象在图像序列中的运动信息；对图像序列中的目标图像进行特征提取，得到目标图像的目标图像特征，其中，目标图像为从图像序列中选取的图像，目标图像特征用于表征待处理对象在目标图像中的位置信息；再基于图像序列特征和目标图像特征，确定待处理特征；然后基于待处理特征，对待处理对象在图像序列中的行为进行识别。实现了综合图像序列特征和目标图像特征对图像序列中包含的待处理对象的行为进行识别的目的，提高了行为识别的准确率。因此，解决了相关技术中存在的对行为识别的准确率不高的问题，达到了提高行为识别准确率的效果。

其中，上述步骤的执行主体可以为图像处理系统，或者为具备图像分析与处理能力的设备，或一体化的图像处理设备，或者为视频分析设备，或者为具备类似处理能力的服务器，或者为配置在存储设备上的具备人机交互能力的处理器，或者为具备类似处理能力的处理设备或处理单元等，但不限于此。下面以图像处理设备执行上述操作为例(仅是一种示例性说明，在实际操作中还可以是其他的设备或模块来执行上述操作)进行说明：

在上述实施例中，图像处理设备通过对包含待处理对象的图像序列进行特征提取，获得图像序列特征，其中，图像序列特征用于表征待处理对象在图像序列中的运动信息，例如，利用3D卷积神经网络提取包含待处理对象的图像序列的图像序列特征；对图像序列中的目标图像进行特征提取，得到目标图像的目标图像特征，其中，目标图像为从图像序列中选取的图像，目标图像特征用于表征待处理对象在目标图像中的位置信息，例如，利用2D卷积神经网络提取图像序列中包括的目标图像的特征，以得到目标图像特征；再基于图像序列特征和目标图像特征，确定待处理特征；然后基于待处理特征，对待处理对象在图像序列中的行为进行识别，例如，对图像序列特征和目标图像特征进行处理，以确定出待处理特征。实现了综合图像序列特征和目标图像特征对图像序列中包含的待处理对象的行为进行识别的目的，提高了行为识别的准确率。因此，解决了相关技术中存在的对行为识别的准确率不高的问题，达到了提高行为识别准确率的效果。

在一个可选的实施例中，对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征之前，所述方法还包括：获取包含所述待处理对象的监控视频；对所述监控视频进行抽帧处理，获得所述图像序列。在本实施例中，图像处理设备可通过监控设备获取实时监控视频数据，对监控视频进行抽帧处理，例如，对监控视频中的图片进行跳帧采样，以获得图像序列。通过本实施例，实现了获取图像序列的目的。

在一个可选的实施例中，所述目标图像包括至少两个；所述基于所述图像序列特征和所述目标图像特征，确定待处理特征，包括：基于所述至少两个目标图像中包括的各个目标图像的目标图像特征，确定参考图像特征；基于所述图像序列特征和所述参考图像特征，确定待处理特征。在本实施例中，从图像序列中选取的目标图像至少包括两个，基于至少两个目标图像中包括的各个目标图像的目标图像特征，确定出参考图像特征，使得目标图像特征更具有参考意义，然后基于图像序列特征和参考图像特征，确定待处理特征，使得待处理特征中融合了图像序列特征和图像特征的信息，即融合了图像序列的时空维度信息和目标图像的空间维度信息。

在一个可选的实施例中，基于所述至少两个目标图像中包括的各个目标图像的目标图像特征，确定参考图像特征包括：获取各个所述目标图像的所述目标图像特征的平均值，以得到所述参考图像特征。在本实施例中，可以通过获取各个目标图像的目标图像特征的平均值，以得到参考图像特征。

在一个可选的实施例中，基于所述图像序列特征和所述目标图像特征，确定待处理特征包括：对所述图像序列特征和所述目标图像特征进行拼接及融合处理，以生成第一特征；对所述第一特征进行叠加处理，以生成所述待处理特征。在本实施例中，通过对图像序列特征和目标图像特征进行拼接即融合处理，以生成第一特征，例如，对图像序列特征和目标图像特征进行拼接得到拼接后的特征，再将拼接后的特征经过卷积层进行特征融合，以生成第一特征，然后再对第一特征进行叠加处理，以生成待处理特征。

在一个可选的实施例中，对所述图像序列特征和所述目标图像特征进行拼接及融合处理，以生成第一特征包括：对所述图像序列特征中包括的用于标识所述图像序列的帧数的第一参数设置为1，以得到图像序列调整特征；将所述图像序列调整特征与所述目标图像特征在目标通道维度上进行拼接，以得到拼接特征；对所述拼接特征进行特征融合处理，以生成所述第一特征。在本实施例中，对图像序列特征中包括的用于标识图像序列的帧数的第一参数设置为1，例如，在实际应用中，利用3D卷积神经网络对图像序列特征进行提取，利用2D卷积神经网络对目标图像特征进行提取，将3D卷积神经网络输出特征图的第一参数设置为1，这样是为了使3D卷积神经网络的输出能和2D卷积神经网络进行匹配，以得到图像序列调整特征，再将图像序列调整特征与目标图像特征在目标通道维度上进行拼接，以得到拼接特征，例如，3D卷积神经网络输入的尺度为[C*T*H*W]，C是输入的通道数(如C＝3),T是输入的帧数，H、W分别是输入图像的高和宽，输出尺度为[C′*T′*H′*W′]，C′是输出的通道数，H′、W′分别是输出特征图的高和宽，在实际应用中，可由H、W通过下采样M倍(例如32倍，或其它倍数)得到，为了让3D卷积网络的输出能和2D卷积网络进行匹配，将T′设置为1，即3D卷积网络的输出维度由[C′*T′*H′*W′]转换成[C′*H′*W′]，而2D卷积神经网络输入尺度为[C*H*W]，输出尺度为[C″*H″*W″]，在将3D卷积神经网络的特征和2D卷积神经网络的特征在通道维度上进行拼接，因为H′和H″，W′和W″的输出维度一样，所以拼接后的特征图输出为[(C′+C″)*T′*H′*W′]，以得到拼接特征；然后对拼接特征进行特征融合处理，以生成第一特征，在实际应用中，对拼接后的特征经过卷积层进行特征融合，生成融合特征。通过本实施例，实现了将多帧图像的图像序列特征和单帧图像的目标图像特征进行有效融合的目的，即实现了将多帧图像的时空维度信息和单帧图像的空间维度信息进行有效融合的目的，最大程度利用起通道间的依赖性，以提高对行为识别的准确率。

在一个可选的实施例中，对所述第一特征进行叠加处理，以生成所述待处理特征包括：对所述第一特征的维度进行调整，以得到第二特征；在每一个通道上对所述第二特征做内积，以得到目标类型特征；利用softmax对所述目标类型特征进行处理，以得到注意力机制图；将所述注意力机制图与所述第二特征进行矩阵乘法处理，以得到第三特征；对所述第三特征的维度进行调整，以得到维度与所述第一特征相同的第四特征；将所述第四特征与所述第一特征进行叠加处理，以生成所述待处理特征。在本实施例中，对第一特征进行叠加处理，以生成所述待处理特征包括：对第一特征矩阵的维度进行调整，以得到第二特征，例如，第一特征输出维度为[C″′*H″′*W″′]，对第一特征进行矩阵变维处理，生成维度为[C″′*N]的第二特征；然后在每一个通道上对所述第二特征做内积，以得到目标类型特征，即生成格拉姆矩阵G，即G＝N*N^T；再利用softmax对所述目标类型特征进行处理，以得到注意力机制图，再将注意力机制图与所述第二特征进行进一步的矩阵乘法处理，以得到第三特征，并将第三特征再进行矩阵变维处理，以得到与前述第一特征(即上述经过融合处理得到的特征)具有相同维度的第四特征，即第四特征的维度为[C″′*H″′*W″′]，最后再将第四特征与上述第一特征进行叠加处理，以生成待处理特征，即将上述融合处理的第一特征经过注意力机制生成注意力特征。通过本实施例，实现了将融合特征经过注意力机制生成注意力特征的目的。

在一个可选的实施例中，基于所述待处理特征，对所述待处理对象在所述图像序列中的行为进行识别包括：对所述待处理特征进行回归处理，以确定出所述待处理对象的坐标框信息以及分类得分；基于所述坐标框信息和所述分类得分确定所述待处理对象的行为。在本实施例中，对待处理特征矩进行回归处理，以确定出待处理对象的坐标框信息以及分类得分可以通过如下方式实现：将待处理特征经过卷积层回归出每个待处理对象的坐标框信息以及分类得分，再基于坐标框信息和分类得分确定待处理对象的行为。通过本实施例，实现了更加准确地识别待处理对象的行为的目的。

在一个可选的实施例中，对所述待处理特征进行回归处理，以确定出所述待处理对象的坐标框信息以及分类得分包括：将所述待处理特征输入卷积层，以利用所述卷积层回归出所述待处理对象的坐标框信息以及分类得分，即将待处理特征经过卷积层回归出每个待处理对象的坐标框信息以及分类得分。

在一个可选的实施例中，利用所述卷积层回归出所述待处理对象的坐标框信息包括：利用所述卷积层中预先配置的监督框坐标回归出所述待处理对象的所述坐标框信息，其中，所述监督框坐标是通过如下方式生成的：基于所述图像序列中包括的连续两帧图像中所分别包含的所述待处理对象的标注框的第一区域和第二区域，获得第一类分数和第二类分数，其中，所述第一类分数、第二类分数分别用于指示所述第一区域、所述第二区域对应的所述待处理对象的标注框的分类得分；基于所述第一类分数、所述第二类分数、所述第一区域和所述第二区域的重叠度IOU确定所述连续两帧图像的连接分数；基于多个所述连接分数利用预定算法得出所述坐标框信息。在本实施例中，连接分数用于指示待处理对象的动作类别，在实际应用中，在确定出连续两帧图像的连接分数之后，可使用维特比算法找到生成多帧待处理对象的标注框的最佳区域，即可得出坐标框信息。

在一个可选的实施例中，基于所述第一类分数、所述第二类分数、所述第一区域和所述第二区域的重叠度IOU确定所述连续两帧图像的连接分数包括：通过如下公式确定所述连续两帧图像的连接分数S_c(R_t,R_t+1):S_c(R_t,R_t+1)＝ψ(x)·[S_c(R_t)+S_c(R_t+1)]+α·S_c(R_t)·S_c(R_t+1)，其中，S_c(R_t)和S_c(R_t+1)是所述第一区域R_t和所述第二区域R_t+1的所述第一类分数和所述第二类分数，x是这两个区域的所述IOU，α是一个标量，当存在区域重叠，ψ(x)则等于1，否则ψ(x)等于0。在本实施例中，在实际应用中，考虑到两个连续帧之间的类分数可能会急剧变化，引入额外的α·S_c(R_t)·S_c(R_t+1)扩展连接分数定义，能够提高视频检测的性能；再基于多个连接分数利用预定算法得出坐标框信息，例如，在计算完所有连接分数之后，使用维特比算法找到生成多帧待处理对象的坐标框的最佳区域。通过本实施例，基于一种新的多帧标注框连接策略，可实现生成更加准确的待处理对象的标注框信息的目的。

显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。

下面结合实施例对本发明进行具体说明：

图3是根据本发明具体实施例的行为的识别方法的流程图，如图3所示，该流程包括以下步骤：

S302，输入视频，例如，通过监控设备获取实时视频数据，将实时视频中的图片进行跳帧采样，存储在临时空间中，总共存储N帧图片序列S(对应于前述图像序列)，即S＝(f_i+1,f_i+2,...,f_i+N)，当获取到新图片f_i+N+1时，删除临时存储空间中f_i+1图片，保存f_i+N+1图片，即S＝(f_i+2,f_i+3,...,f_i+N+1)；

S304，图片序列S首先通过3D卷积网络进行时空上的特征提取(对应于前述提取图像序列特征)。3D卷积网络的输入是一个视频的cl ip，也即是一个按时间顺序排列的连续帧，输入尺度是[C*T*H*W]，输出尺度是[C′*T′*H′*W′]，其中C＝3，T是输入的cl ip的帧数，H、W分别是输入图像的高和宽。C′是输出的通道数，H′、W′分别是输出特征图的高和宽，由H、W下采样32倍得到，为了让3D卷积网络的输出能和2D卷积网络进行匹配，把T′(对应于前述第一参数)设置为1；

S306，选取序列S的中间帧(对应于前述图像序列中包括的目标图像)通过2D卷积神经网络进行空间上的特征提取(对应于前述提取目标图像特征)。2D卷积网络的输入是一张图片，也可是从至少两张图片中筛选出的目标图片，或者是综合至少两张图片中每张图片的特征得出的参考图片，直接选取clip的中间帧作为输入图片，输入尺度是[C*H*W]，输出尺度是[C″*H″*W″]，其中C＝3，C″是输出通道数，H″、W″分别是输出特征图的高和宽，由H、W下采样32倍得到；

S308，将3D卷积网络的特征和2D卷积网络的特征在通道维度上进行拼接。由上述步骤S304可知T′＝1，所以将3D卷积网络的输出维度[C′*T′*H′*W′]转换成[C′*H′*W′]，然后和2D卷积网络的输出[C″*H″*W″]进行拼接，又因为H′和H″，W′和W″的输出维度一样，故拼接后的特征图输出为[(C′+C″)*T′*H′*W′]；

S310，拼接后的特征经过卷积层进行特征融合，生成融合特征B(对应于前述第一特征)，其输出维度为[C″′*H″′*W″′]；

S312，融合特征B经过注意力机制生成注意力特征F″′(对应于前述待处理特征)；

S314，最后将特征F″′经过卷积层回归出每个人(对应于前述待处理对象)的坐标框信息以及分类得分；

在回归人体框坐标时使用的监督框坐标由以下步骤生成，假设R_t和R_t+1是连续帧T和T+1的两个标注框bbox区域，则将人体动作类别C的连接分数定义为：S_c(R_t,R_t+1)＝ψ(x)·[S_c(R_t)+S_c(R_t+1)]+α·S_c(R_t)·S_c(R_t+1),其中，S_c(R_t)和S_c(R_t+1)是区域R_t和R_t+1的类分数，x是这两个区域的IOU，α是一个标量，(x>0)是一个约束，当存在区域重叠，ψ(x)则等于1，否则ψ(x)等于0，考虑到两个连续帧之间类分数可能会急剧变化，引入额外的α·S_c(R_t)·S_c(R_t+1)扩展连接分数定义，能够提高视频检测的性能；在计算完所有连接分数之后，使用维特比算法找到生成多帧人体框的最佳bbox区域。

S316，输出检测结果；

下面结合附图4对上述步骤S310中的特征融合进行说明，图4是根据本发明具体实施例的特征融合的流程示意图，该流程包括：

S402，将3D卷积网络特征与2D卷积网络特征进行拼接处理，以得到拼接后的特征(对应于前述拼接特征)；

S404，将S402中拼接后得到的特征输入卷积层；

S406，拼接后的特征经过卷积层进行特征融合，生成融合特征B；

通过上述步骤S402-S406可生成融合特征；

再结合附图5对步骤S312中的注意力特征的生成进行说明，图5是根据本发明具体实施例的注意力特征生成的流程示意图，如图5所示，该流程包括：

S502，首先对特征矩阵B进行矩阵变维reshape处理，生成维度为[C″′*N]的特征矩阵F(对应于前述第二特征)，其中N＝H″′*W″′；

S504，接着在每一个通道上对特征F做内积，生成格拉姆矩阵G(对应于前述目标类型特征)，即N*N^T＝G；

S506，然后将softmax应用于G生成注意力机制图M；

S508，将生成的注意力机制图与F进行进一步的矩阵乘法，并将结果重新reshape成和特征B一样输出维度的特征F′，其维度为[C″′*H″′*W″′]；

S510，最后将特征F′和特征B进行叠加，生成特征F″′(对应于前述待处理特征)；

通过上述步骤S502-S510可生成注意力特征。

通过上述实施例，基于一种新的通道特征融合方法，将单帧图片的空间维度信息和多帧图片的时间维度信息进行有效的融合，最大程度利用起通道间的依赖性；通过实时性的单阶段网络结构来进行时序和空间上的人体异常行为定位，可以实现端到端训练；同时基于一种新的多帧标注框连接策略，可实现生成更加准确的目标对象的标注框信息的目的，达到了提高目标行为识别的准确率的效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种行为识别装置，图6是根据本发明实施例的行为识别装置的结构框图，如图6所示，该装置包括：

第一获取模块602，用于对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征，其中，所述图像序列特征用于表征所述待处理对象在所述图像序列中的运动信息；

提取模块604，用于对所述图像序列中的目标图像进行特征提取，得到所述目标图像的目标图像特征，其中，所述目标图像为从所述图像序列中选取的图像，所述目标图像特征用于表征所述待处理对象在所述目标图像中的位置信息；

确定模块606，用于基于所述图像序列特征和所述目标图像特征，确定待处理特征；

识别模块608，用于基于所述待处理特征，对所述待处理对象在所述图像序列中的行为进行识别。

在一个可选的实施例中，上述装置还包括：第二获取模块，用于对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征之前，获取包含所述待处理对象的监控视频；第三获取模块，用于对所述监控视频进行抽帧处理，获得所述图像序列。

在一个可选的实施例中，上述目标图像包括至少两个；上述确定模块606包括：第一确定子模块，用于基于所述至少两个目标图像中包括的各个目标图像的目标图像特征，确定参考图像特征；第二确定子模块，用于基于所述图像序列特征和所述参考图像特征，确定待处理特征。

在一个可选的实施例中，上述第一确定子模块包括：获取单元，用于获取各个所述目标图像的所述目标图像特征的平均值，以得到所述参考图像特征。

在一个可选的实施例中，上述确定模块606包括：第一生成子模块，用于对所述图像序列特征和所述目标图像特征进行拼接及融合处理，以生成第一特征；第二生成子模块，用于对所述第一特征进行叠加处理，以生成所述待处理特征。

在一个可选的实施例中，上述第一生成子模块包括：设置单元，用于对所述图像序列特征中包括的用于标识所述图像序列的帧数的第一参数设置为1，以得到图像序列调整特征；拼接单元，用于将所述图像序列调整特征与所述目标图像特征在目标通道维度上进行拼接，以得到拼接特征；融合单元，用于对所述拼接特征进行特征融合处理，以生成所述第一特征。

在一个可选的实施例中，上述第二生成子模块包括：第一调整单元，用于对所述第一特征的维度进行调整，以得到第二特征；获得单元，用于在每一个通道上对所述第二特征矩阵做内积，以得到目标类型特征；第一处理单元，用于利用softmax对所述目标类型特征进行处理，以得到注意力机制图；第二处理单元，用于将所述注意力机制图与所述第二特征进行矩阵乘法处理，以得到第三特征；第二调整单元，用于对所述第三特征的维度进行调整，以得到维度与所述第一特征相同的第四特征；叠加单元，用于将所述第四特征与所述第一特征进行叠加处理，以生成所述待处理特征。

在一个可选的实施例中，上述识别模块608包括：第三确定子模块，用于对所述待处理特征进行回归处理，以确定出所述待处理对象的坐标框信息以及分类得分；第四确定子模块，用于基于所述坐标框信息和所述分类得分确定所述待处理对象的行为。

在一个可选的实施例中，上述第三确定子模块包括：回归单元，用于将所述待处理特征输入卷积层，以利用所述卷积层回归出所述待处理对象的坐标框信息以及分类得分。

在一个可选的实施例中，上述回归单元包括：回归子单元，用于利用所述卷积层中预先配置的监督框坐标回归出所述待处理对象的所述坐标框信息，其中，所述监督框坐标是通过如下方式生成的：基于所述图像序列中包括的连续两帧图像中所分别包含的所述待处理对象的标注框的第一区域和第二区域，获得第一类分数和第二类分数，其中，所述第一类分数、第二类分数分别用于指示所述第一区域、所述第二区域对应的所述待处理对象的标注框的分类得分；基于所述第一类分数、所述第二类分数、所述第一区域和所述第二区域的重叠度IOU确定所述连续两帧图像的连接分数；基于多个所述连接分数利用预定算法得出所述坐标框信息。

在一个可选的实施例中，基于所述第一类分数、所述第二类分数、所述第一区域和所述第二区域的重叠度IOU确定所述连续两帧图像的连接分数包括：通过如下公式确定所述连续两帧图像的连接分数S_c(R_t,R_t+1):S_c(R_t,R_t+1)＝ψ(x)·[S_c(R_t)+S_c(R_t+1)]+α·S_c(R_t)·S_c(R_t+1)，其中，S_c(R_t)和S_c(R_t+1)是所述第一区域R_t和所述第二区域R_t+1的所述第一类分数和所述第二类分数，x是这两个区域的所述IOU，α是一个标量，当存在区域重叠，ψ(x)则等于1，否则ψ(x)等于0。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种行为识别方法，其特征在于，包括：

对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征，其中，所述图像序列特征用于表征所述待处理对象在所述图像序列中的运动信息；

对所述图像序列中的目标图像进行特征提取，得到所述目标图像的目标图像特征，其中，所述目标图像为从所述图像序列中选取的图像，所述目标图像特征用于表征所述待处理对象在所述目标图像中的位置信息；

基于所述图像序列特征和所述目标图像特征，确定待处理特征；

基于所述待处理特征，对所述待处理对象在所述图像序列中的行为进行识别。

2.根据权利要求1所述的方法，其特征在于，对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征之前，所述方法还包括：

获取包含所述待处理对象的监控视频；

对所述监控视频进行抽帧处理，获得所述图像序列。

3.根据权利要求1所述的方法，其特征在于，所述目标图像包括至少两个；

所述基于所述图像序列特征和所述目标图像特征，确定待处理特征，包括：

基于所述至少两个目标图像中包括的各个目标图像的目标图像特征，确定参考图像特征；

基于所述图像序列特征和所述参考图像特征，确定待处理特征。

4.根据权利要求3所述的方法，其特征在于，基于所述至少两个目标图像中包括的各个目标图像的目标图像特征，确定参考图像特征包括：

获取各个所述目标图像的所述目标图像特征的平均值，以得到所述参考图像特征。

5.根据权利要求1所述的方法，其特征在于，基于所述图像序列特征和所述目标图像特征，确定待处理特征包括：

对所述图像序列特征和所述目标图像特征进行拼接及融合处理，以生成第一特征；

对所述第一特征进行叠加处理，以生成所述待处理特征。

6.根据权利要求5所述的方法，其特征在于，对所述图像序列特征和所述目标图像特征进行拼接及融合处理，以生成第一特征包括：

对所述图像序列特征中包括的用于标识所述图像序列的帧数的第一参数设置为1，以得到图像序列调整特征；

将所述图像序列调整特征与所述目标图像特征在目标通道维度上进行拼接，以得到拼接特征；

对所述拼接特征进行特征融合处理，以生成所述第一特征。

7.根据权利要求5所述的方法，其特征在于，对所述第一特征进行叠加处理，以生成所述待处理特征包括：

对所述第一特征的维度进行调整，以得到第二特征；

在每一个通道上对所述第二特征做内积，以得到目标类型特征；

利用softmax对所述目标类型特征进行处理，以得到注意力机制图；

将所述注意力机制图与所述第二特征进行矩阵乘法处理，以得到第三特征；

对所述第三特征的维度进行调整，以得到维度与所述第一特征相同的第四特征；

将所述第四特征与所述第一特征进行叠加处理，以生成所述待处理特征。

8.根据权利要求1所述的方法，其特征在于，基于所述待处理特征，对所述待处理对象在所述图像序列中的行为进行识别包括：

对所述待处理特征进行回归处理，以确定出所述待处理对象的坐标框信息以及分类得分；

基于所述坐标框信息和所述分类得分确定所述待处理对象的行为。

9.根据权利要求8所述的方法，其特征在于，对所述待处理特征进行回归处理，以确定出所述待处理对象的坐标框信息以及分类得分包括：

将所述待处理特征输入卷积层，以利用所述卷积层回归出所述待处理对象的坐标框信息以及分类得分。

10.根据权利要求9所述的方法，其特征在于，利用所述卷积层回归出所述待处理对象的坐标框信息包括：

利用所述卷积层中预先配置的监督框坐标回归出所述待处理对象的所述坐标框信息，其中，所述监督框坐标是通过如下方式生成的：

基于所述图像序列中包括的连续两帧图像中所分别包含的所述待处理对象的标注框的第一区域和第二区域，获得第一类分数和第二类分数，其中，所述第一类分数、第二类分数分别用于指示所述第一区域、所述第二区域对应的所述待处理对象的标注框的分类得分；

基于所述第一类分数、所述第二类分数、所述第一区域和所述第二区域的重叠度IOU确定所述连续两帧图像的连接分数；

基于多个所述连接分数利用预定算法得出所述坐标框信息。

11.根据权利要求10所述的方法，其特征在于，基于所述第一类分数、所述第二类分数、所述第一区域和所述第二区域的重叠度IOU确定所述连续两帧图像的连接分数包括：

通过如下公式确定所述连续两帧图像的连接分数S_c(R_t,R_t+1):

S_c(R_t,R_t+1)＝ψ(x)·[S_c(R_t)+S_c(R_t+1)]+α·S_c(R_t)·S_c(R_t+1)，

其中，S_c(R_t)和S_c(R_t+1)是所述第一区域R_t和所述第二区域R_t+1的所述第一类分数和所述第二类分数，x是这两个区域的所述IOU，α是一个标量，当存在区域重叠，ψ(x)则等于1，否则ψ(x)等于0。

12.一种行为识别装置，其特征在于，包括：

第一获取模块，用于对包含待处理对象的图像序列进行特征提取，获得所述图像序列的图像序列特征，其中，所述图像序列特征用于表征所述待处理对象在所述图像序列中的运动信息；

提取模块，用于对所述图像序列中的目标图像进行特征提取，得到所述目标图像的目标图像特征，其中，所述目标图像为从所述图像序列中选取的图像，所述目标图像特征用于表征所述待处理对象在所述目标图像中的位置信息；

确定模块，用于基于所述图像序列特征和所述目标图像特征，确定待处理特征；

识别模块，用于基于所述待处理特征，对所述待处理对象在所述图像序列中的行为进行识别。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至11任一项中所述的方法的步骤。

14.一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述权利要求1至11任一项中所述的方法的步骤。