CN107025420A

CN107025420A - 视频中人体行为识别的方法和装置

Info

Publication number: CN107025420A
Application number: CN201610067817.XA
Authority: CN
Inventors: 姜育刚; 张殿凯; 沈琳; 瞿广财; 赵瑞伟; 雷晨雨
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-01-29
Filing date: 2016-01-29
Publication date: 2017-08-08
Also published as: WO2017129020A1

Abstract

本发明公开了一种视频中人体行为识别的方法和装置，其方法包括：检测待识别视频中的人体区域，获取人体区域中的人体运行轨迹信息；根据人体区域计算得到人体区域对应的预测值，对预测值为非人体类别的人体区域进行过滤，得到预测值为人体类别的人体区域；对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分；根据行为类别得分，输出相应的行为类别。本发明解决了现有技术中识别视频中人体行为性能较差，实时性和准确性较低的问题。实现了提升视频识别的实时性和准确性。

Description

视频中人体行为识别的方法和装置

技术领域

本发明涉及视频识别技术领域，尤其涉及一种视频中人体行为识别的方法和装置。

背景技术

现有的视频行为分析技术主要包括检测、跟踪和识别三个步骤。传统的方法主要是提取一些人工定义的视觉特征，比如颜色直方图、SIFT、HoG等，然后根据这些特征进行目标的检测、跟踪和分类等。然而由于这些传统特征的计算方法是通过人为定义的，特征的描述能力比较有限。实际应用中如果全部依赖传统的方法实现检测、跟踪及识别系统，所能达到的识别性能往往比较有限。

与传统方法相对的是使用深度网络模型完成图片或视频中的行为检测与识别。通过深度网络的模型能够学习到更好的特征描述，目前已经有一些使用基于深度学习的方法在视频分析中的工作成果，包括3D-CNN、RCNN、two-streams等时序模型的应用。这些现有的基于深度网络的视频分类方法主要是一些通用的算法，在对于监控视频中的人体行为识别这一特定的应用场景，现有技术存在一定的不足与改善空间，例如，在监控的场景中对于不同类型的人的行为，在识别的过程中应该区别对待。有些行为通过静态的画面就能够迅速识别，比如打架、骑车等，有些动作则时序性上的规律较强，借助连续图像帧分析更有助于区分，比如走路与(慢)跑等行为。现有技术中使用单一的模型不能同时兼顾以上两个方面，影响实时性和准确性。

发明内容

本发明的主要目的在于提出一种视频中人体行为识别的方法和装置，旨在提升视频识别的实时性和准确性。

为实现上述目的，本发明提供的视频中人体行为识别的方法，包括：

检测待识别视频中的人体区域，获取所述人体区域中的人体运行轨迹信息；

根据所述人体区域计算得到所述人体区域对应的预测值，对所述预测值为非人体类别的人体区域进行过滤，得到所述预测值为人体类别的人体区域；

对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分；

根据所述行为类别得分，输出相应的行为类别。

优选地，根据所述行为类别得分，输出相应的行为类别的步骤包括：

若所述行为类别得分高于预设行为类别的阈值，则输出所述行为类别；

若所述行为类别得分不高于预设行为类别的阈值，则结合所述人体运行轨迹信息，计算并输出相应的行为类别。

优选地，其特征在于，所述对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤包括：

获取所述预测值为人体类别的人体区域的背景图像，得到所述背景图像的描述信息；

根据所述背景图像的描述信息，计算所述背景图像对应的背景区域信息，并计算所述背景图像对应的邻近目标信息；

结合所述背景图像对应的背景区域信息和邻近目标信息，计算得到所述人体区域的目标的行为类别得分。

优选地，其特征在于，所述结合所述人体运行轨迹信息，计算并输出相应的行为类别的步骤包括：

获取所述待识别视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像；

将所述当前时刻图像和所述跟踪区域图像进行顺序叠加；

对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和，输出对应的行为类别。

优选地，其特征在于，所述根据所述人体区域计算得到所述人体区域对应的预测值，对所述预测值为非人体类别的人体区域进行过滤的步骤包括：

获取所述人体区域并进行分析，输出所述人体区域对应的预测值；

若所述预测值为非人体类别，则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤；

若所述预测值为人体类别，则执行计算所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤。

优选地，所述检测待识别视频中的人体区域，获取所述人体区域中的人体运行轨迹信息的步骤包括：

获取所述待识别视频，对所述待识别视频中的人体区域进行检测；

对所述人体区域中的行人进行跟踪，得到所述人体区域中的人体运行轨迹信息。

本发明实施例还提出一种视频中人体行为识别的装置，所述装置包括：

检测模块，用于检测待识别视频中的人体区域，获取所述人体区域中的人体运行轨迹信息；

过滤模块，用于根据所述人体区域计算得到所述人体区域对应的预测值，对所述预测值为非人体类别的人体区域进行过滤，得到所述预测值为人体类别的人体区域；

计算模块，用于对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分；

输出模块，用于根据所述行为类别得分，输出相应的行为类别。

优选地，所述输出模块，还用于若所述行为类别得分高于预设行为类别的阈值，则输出所述行为类别；若所述行为类别得分不高于预设行为类别的阈值，则结合所述人体运行轨迹信息，计算并输出相应的行为类别。

优选地，所述计算模块，还用于获取所述预测值为人体类别的人体区域的背景图像，得到所述背景图像的描述信息；根据所述背景图像的描述信息，计算所述背景图像对应的背景区域信息，并计算所述背景图像对应的邻近目标信息；结合所述背景图像对应的背景区域信息和邻近目标信息，计算得到所述人体区域的目标的行为类别得分。

优选地，所述输出模块，还用于获取所述待识别视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像；将所述当前时刻图像和所述跟踪区域图像进行顺序叠加；对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和，输出对应的行为类别。

优选地，所述过滤模块，还用于获取所述人体区域并进行分析，输出所述人体区域对应的预测值；若所述预测值为非人体类别，则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤；若所述预测值为人体类别，则执行计算所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤。

优选地，所述检测模块，还用于获取所述待识别视频，对所述待识别视频中的人体区域进行检测；对所述人体区域中的行人进行跟踪，得到所述人体区域中的人体运行轨迹信息。

本发明提供了一种视频中人体行为识别的方法和装置，通过检测待识别视频中的人体区域，获取人体区域中的人体运行轨迹信息；根据人体区域计算得到人体区域对应的预测值，对预测值为非人体类别的人体区域进行过滤，得到预测值为人体类别的人体区域；对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分；根据行为类别得分，输出相应的行为类别，解决了现有技术中识别视频中人体行为性能较差，实时性和准确性较低的问题。实现了提升视频识别的实时性和准确性。

附图说明

图1是本发明视频中人体行为识别的方法第一实施例的流程示意图；

图2是本发明实施例中基于非时序输入深度网络模型结构示意图；

图3是本发明实施例中基于非时序输入，融合背景与邻近目标特征的行为识别网络模型结构示意图；

图4是本发明实施例中基于时序输入，融合背景与邻近目标特征的行为识别网络模型结构示意图；

图5是本发明实施例中根据所述行为类别得分，输出相应的行为类别的步骤的一种流程示意图；

图6是本发明实施例中对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤的一种流程示意图；

图7是本发明实施例中结合所述人体运行轨迹信息，计算并输出相应的行为类别的步骤的一种流程示意图；

图8是本发明实施例中根据所述人体区域计算得到所述人体区域对应的预测值，对所述预测值为非人体类别的人体区域进行过滤的步骤的一种流程示意图；

图9是本发明实施例中检测待识别视频中的人体区域，获取所述人体区域中的人体运行轨迹信息的步骤的一种流程示意图；

图10是本发明视频中人体行为识别的装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：检测待识别视频中的人体区域，获取人体区域中的人体运行轨迹信息；根据人体区域计算得到人体区域对应的预测值，对预测值为非人体类别的人体区域进行过滤，得到预测值为人体类别的人体区域；对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分；根据行为类别得分，输出相应的行为类别。

由此，解决了现有技术中识别视频中人体行为性能较差，实时性和准确性较低的问题。实现了提升视频识别的实时性和准确性。

如图1所示，本发明第一实施例提出一种视频中人体行为识别的方法，包括：

步骤S1，检测待识别视频中的人体区域，获取所述人体区域中的人体运行轨迹信息。

本发明方法的执行主体可以为一种视频监控设备或视频识别设备，本实施例以视频监控设备进行举例，当然也不限定于其他能够实现识别视频中人体行为的设备。

具体地，视频监控设备检测待识别视频中的人体区域，获取人体区域中的人体运行轨迹信息。

其中，视频监控设备获取待识别视频，对目标视频中的人体区域进行检测；在具体实现时，视频监控设备可以通过前端视频采集设备来获取待识别的原始视频，并使用基于传统特征分类的检测器对视频中的人体区域进行检测。

其中，在完成获取待识别视频，对目标视频中的人体区域进行检测后，视频监控设备对人体区域中的行人进行跟踪，得到人体区域中的人体运行轨迹信息；在具体实现时，视频监控设备可使用基于检测区域匹配的跟踪算法对画面中的行人进行跟踪，从而得到画面中的人体的运动轨迹信息。

其中，人体检测与跟踪的结果可以以目标ID与检测区域图像序列的形式保存，即：

其中O(i,t)代表目标i在t时刻的信息，是该目标在t时刻检测到的图像内容，是该目标在t时刻所在区域的位置，中使用向量(x,y,w,h)的形式记录区域的左上角横、纵坐标位置与长、宽值。

步骤S2，根据所述人体区域计算得到所述人体区域对应的预测值，对所述预测值为非人体类别的人体区域进行过滤，得到所述预测值为人体类别的人体区域。

具体地，在完成检测待识别视频中的人体区域，获取人体区域中的人体运行轨迹信息后，视频监控设备根据人体区域计算得到人体区域对应的预测值，对预测值为非人体类别的人体区域进行过滤，得到预测值为人体类别的人体区域。

其中，视频监控设备获取人体区域并进行分析，输出人体区域对应的预测值，预测值包括人体类别和非人体类别；在具体实现时，当获取到当前帧中某一个人体区域后，视频监控设备将该人体区域的图像输入到背景过滤网络M1网络模型中进行分析，M1网络模型的结构如图2所示，M1网络模型是一个基于单帧图像输入的深度卷积网络模型；其中，网络的输入为检测到的前景区域图像，后接若干个附带ReLU层和pooling层的卷积层(Convolution Layers，CONV)，再接上若干个全连通层(Fully Connection Layers，FC)进行深度的特征计算，M1网络的最后一层输出层的维数为2维，经过sigmoid变换后分别对应人体类别与非人体类别上的行为类别得分。

其中，若预测值为非人体类别，则将预测值为非人体类别的人体区域从获取的人体区域中进行过滤；通过M1网络模型的分类后，可以过滤掉前期检测与跟踪算法误测为人体类别的区域。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上)，所以并不会产生明显的计算开销，在提高检测准确率的同时，能够满足整个系统实时性上的要求。同时，M1网络模型中的卷积层、全连通层的个数可以根据监控画面的大小与所部署设备的硬件性能等因素进行调整。

其中，本发明在检测与跟踪环节后首先使用了一个结构相对简单的深度网络模型对检测到的前景区域进行进一步的过滤处理；在前期的检测环节，实现时有意降低算法对于前景预测的阈值，使算法尽可能返回更多的前景区域，尽量减少漏检率的产生。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上)，所以大大减少了算法的计算开销，在提高检测准确率的同时，很好地满足了整个系统实时性上的要求。

步骤S3，对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分。

具体地，在完成根据人体区域计算得到人体区域对应的预测值，对预测值为非人体类别的人体区域进行过滤，得到预测值为人体类别的人体区域后，视频监控设备对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分。

其中，视频监控设备获取预测值为人体类别的人体区域的背景图像，得到背景图像的描述信息；在具体实现时，如果M1网络模型得到的预测结果是人体类别(即画面中的前景)，视频监控设备可以使用一个结构更复杂、识别能力更强的基于邻近目标特征的非时序输入行为识别M2网络模型对单帧图像内的每个人体区域进行行为的识别，该网络模型的结构如图3所示；M2网络模型的隐藏层中加入了当前人体目标所在背景图像和邻近目标隐藏层的特征信息，特征融合的位置在于网络的第一个全连通层，如图3中的第一个FC层所示；其中目标所在区域的背景图像可以从预先设定的纯净的背景图像中获得，只要取其中对应检测区域位置的部分即可。完整的背景图像可以通过预先设定的标准背景图像获得，或通过动态更新的背景模型获得。记某一目标i在t时刻得到的背景图像为那么对于一个目标区域，可以将它的描述信息表示为：

其中，和共用同一个位置区域

其中，在完成获取预测值为人体类别的人体区域的背景图像，得到背景图像的描述信息后，视频监控设备根据背景图像的描述信息，计算背景图像对应的背景区域信息，并计算背景图像对应的邻近目标信息；在具体实现时，背景图像会经过若干个卷积层得到它的视觉特征描述，然后经过一个全连通层得到它对应的第一个隐含层特征，它的维度与目标图像得到的第一个隐含层的维度相同。对于目标图像，它的第一个隐含层的特征计算过程可以表示为：

其中，c(·)代表对于图像的卷积运算，f(·)代表全连接层的矩阵乘法操作与偏置量操作。类似的，对于背景位置图像，记它的第一个隐含层的特征为：

其中，该模型的第一个隐含层的特征组成中，还有一部分是来自邻近目标的特征，这些特征主要来自于当前区域的邻近区域中的目标特征。可以通过设置一阈值来确定邻近区域的范围。记当前目标的中心位置为：

其中，是目标区域左上角横坐标，是目标区域左上角纵坐标，是目标区域的宽度，是目标区域的高度。同时计算同一画面中其它前景目标的中心位置点当与的欧氏距离d_ij小于一定的阈值D或两者有交叉时，则将该前景归入当前目标的有效邻近目标中。

其中，在完成根据背景图像的描述信息，计算背景图像对应的背景区域信息，并计算背景图像对应的邻近目标信息后，视频监控设备结合背景图像对应的背景区域信息和邻近目标信息，计算得到人体区域的目标的行为类别得分；在具体实现时，视频监控设备可以记所有的邻近目标区域计算到的第一个全连通层的特征的集合为分别统计这些特征值在每一维上的最大值：

和加权平均值：

作为邻近目标的特征描述的组成部分。将以上两组特征拼接在一起，就能得到对于邻近目标描述的整体特征表示，即：

如果当前目标在画面中没有任何邻近目标，则的值全部设为零。综合背景区域信息和邻近目标信合后，行为识别的网络模型的第一个全连通层的特征可以表示为：

该特征经过后续的全连通层，使得整个网络模型在进行识别的过程中，自然地利用到了当前目标的背景区域信息和上下文信息。

其中，M2网络模型输出是一个多维的向量，向量的长度是待识别行为类别的个数，输出的每一维上的得分代表该类别上的预测概率。

步骤S4，根据所述行为类别得分，输出相应的行为类别。

具体地，在完成对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分后，视频监控设备根据行为类别得分，输出相应的行为类别。

其中，若行为类别得分高于预设行为类别的阈值，则输出行为类别；根据上述行为类别得分时，如果此时输出的类别得分在一些静态特征明显的类别上的得分高于一定的阈值，则直接输出该类别的作为最终的预测结果。

其中，本发明针对监控视频中不同行为的类型，根据它们的不同静态特性与动态特性，分别采用了不同结构的时序(多帧图像)与非时序(单帧图像)输入网络对提取到的图像进行分析，最后融合两种不同的网络输出得到最终的行为识别结果；具体的，对于一些静态特性明确的行为类别，如打架、骑车等，本发明主要依赖于一个结构充分复杂的非时序输入网络模型进行快速预测，因为这些动作特征明显，一旦出现，通过单帧的影像一般就能够准确判断；而对于一些通过单帧图像难以判断的行为类别，如走路与慢跑等，主要使用一个采用时序叠加图像作为输入的深度网络进一步分析，提供比使用单一静态图像输入的网络更可靠的识别性能。另外，在时序输入与非时序输入的深度分类模型融合策略的设计上，采用了级联分类器的思想，提高整个分类系统的运行效率，实现实时行为识别的需求。

其中，若行为类别得分不高于预设行为类别的阈值，则结合人体运行轨迹信息，计算并输出相应的行为类别。

其中，视频监控设备获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像；在具体实现时，视频监控设备可以获取当前时刻图像和人体运行轨迹信息对应的跟踪区域图像，使用同一目标先前时刻图像的叠加作为基于背景与邻近目标特征的多帧时序输入行为识别M3网络模型的输入，进行进一步的类别预测。M3网络模型的结构示意图如图4所示。由于采用的是时序的目标动作画面叠加作为网络的输入，所以M3网络模型具有更强的捕捉运动信息的能力，对于一些动态特征明显的行为识别具有明显的优势。

其中，在完成获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后，视频监控设备将当前时刻图像和跟踪区域图像进行顺序叠加；在具体实现时，视频监控设备使用M3网络模型，利用运动轨迹的信息，使用同一目标在当前时刻与前若干时刻的跟踪区域图像的顺序叠加作为模型的输入，即：

M3网络模型的中间层将同时融合当前目标所在的背景区域序列的深度特征、当前目标近邻区域中其它目标历史序列的隐含特征，邻近目标的信息有利于提升算法的预测准确性。

M3网络模型的隐藏层特征融合的位置同样在于网络的第一个全连通层，如图4中的第一个FC层所示。对于M3网络模型的背景区域，也取其轨迹上的背景区域序列作为输入。而对于邻近目标特征的获取也与M2网络模型基本一致，以当前时刻的目标间距离及预设的阈值作为邻近对象的选取准则，并计算它们的FC1特征的最大值、加权均值组成邻近目标特征描述。通过融合后，输入到后续的全连接层进行进一步的识别计算。

其中，M3网络模型输出也是一个多维的向量，向量的长度是待识别行为类别的个数，输出的每一维上的得分为该类别上的预测概率。

其中，在完成将当前时刻图像和跟踪区域图像进行顺序叠加后，视频监控设备对行为类别得分和进行顺序叠加后的结果进行加权求和，输出对应的行为类别；在具体实现时，视频监控设备融合M2网络模型和M3网络模型的处理结果，得到待检测目标的综合行为类别预测，融合的方法可以是两组网络结果的加权和，权重的大小可以通过训练集拟合效果求得。

其中，本发明结合监控视频中出现的行为的特点，设计了基于单帧输入与多帧输入网络中隐含层特征的融合方法，采用当前目标前景、背景图像信息与邻近目标信息的组合作为的新的隐含特征，丰富了分类网络的可利用信息，使得用于分类的深度模型能够同时利用当前目标所在背景区域的信息及邻近区域中其他目标的行为信息，对于监控视频中行为识别具有非常有价值的辅助信息，提升了整个系统对于行为识别的性能。

通过上述方案，本发明提供了一种视频中人体行为识别的方法，实现了提升视频识别的实时性和准确性。

进一步的，为了更好地提升视频识别的实时性和准确性，参照图5，为本发明具体实施方式中根据所述行为类别得分，输出相应的行为类别的步骤的的一种流程示意图。

作为一种实施方式，上述步骤S4包括：

步骤S41，若所述行为类别得分高于预设行为类别的阈值，则输出所述行为类别。

步骤S42，若所述行为类别得分不高于预设行为类别的阈值，则结合所述人体运行轨迹信息，计算并输出相应的行为类别。

具体地，若行为类别得分不高于预设行为类别的阈值，则结合人体运行轨迹信息，计算并输出相应的行为类别。

通过上述方案，本发明提供了一种视频中人体行为识别的方法，更好地实现了提升视频识别的实时性和准确性。

进一步的，为了更好地提升视频识别的实时性和准确性，参照图6，为本发明具体实施方式中对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤的一种流程示意图。

作为一种实施方式，上述步骤S3包括：

步骤S31，获取所述预测值为人体类别的人体区域的背景图像，得到所述背景图像的描述信息。

具体地，在完成采用非人体目标过滤算法，输出人体区域对应的预测值，对预测值为非人体类别的人体区域进行过滤后，视频监控设备获取预测值为人体类别的人体区域的背景图像，得到背景图像的描述信息。

其中，在具体实现时，如果M1网络模型得到的预测结果是人体类别(即画面中的前景)，视频监控设备可以使用一个结构更复杂、识别能力更强的基于邻近目标特征的非时序输入行为识别M2网络模型对单帧图像内的每个人体区域进行行为的识别，该网络模型的结构如图3所示；M2网络模型的隐藏层中加入了当前人体目标所在背景图像和邻近目标隐藏层的特征信息，特征融合的位置在于网络的第一个全连通层，如图3中的第一个FC层所示；其中目标所在区域的背景图像可以从预先设定的纯净的背景图像中获得，只要取其中对应检测区域位置的部分即可。完整的背景图像可以通过预先设定的标准背景图像获得，或通过动态更新的背景模型获得。记某一目标i在t时刻得到的背景图像为那么对于一个目标区域，可以将它的描述信息表示为：

其中，和共用同一个位置区域

步骤S32，根据所述背景图像的描述信息，计算所述背景图像对应的背景区域信息，并计算所述背景图像对应的邻近目标信息。

具体地，在完成获取预测值为人体类别的人体区域的背景图像，得到背景图像的描述信息后，视频监控设备根据背景图像的描述信息，计算背景图像对应的背景区域信息，并计算背景图像对应的邻近目标信息。

其中，在具体实现时，背景图像会经过若干个卷积层得到它的视觉特征描述，然后经过一个全连通层得到它对应的第一个隐含层特征，它的维度与目标图像得到的第一个隐含层的维度相同。对于目标图像，它的第一个隐含层的特征计算过程可以表示为：

步骤S33，结合所述背景图像对应的背景区域信息和邻近目标信息，计算得到所述人体区域的目标的行为类别得分。

具体地，在完成根据背景图像的描述信息，计算背景图像对应的背景区域信息，并计算背景图像对应的邻近目标信息后，视频监控设备结合背景图像对应的背景区域信息和邻近目标信息，计算得到人体区域的目标的行为类别得分。

其中，在具体实现时，视频监控设备可以记所有的邻近目标区域计算到的第一个全连通层的特征的集合为分别统计这些特征值在每一维上的最大值：

和加权平均值：

进一步的，为了更好地提升视频识别的实时性和准确性，参照图7，为本发明具体实施方式中结合所述人体运行轨迹信息，计算并输出相应的行为类别的步骤的一种流程示意图。

作为一种实施方式，上述步骤S42包括：

步骤S421，获取所述视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像。

具体地，视频监控设备获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像。

其中，在具体实现时，视频监控设备可以获取当前时刻图像和人体运行轨迹信息对应的跟踪区域图像，使用同一目标先前时刻图像的叠加作为基于背景与邻近目标特征的多帧时序输入行为识别网络模型M3网络模型的输入，进行进一步的类别预测。M3网络模型的结构示意图如图4所示。由于采用的是时序的目标动作画面叠加作为网络的输入，所以M3网络模型具有更强的捕捉运动信息的能力，对于一些动态特征明显的行为识别具有明显的优势。

步骤S422，将所述当前时刻图像和所述跟踪区域图像进行顺序叠加。

具体地，在完成获取视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后，视频监控设备将当前时刻图像和跟踪区域图像进行顺序叠加。

其中，在具体实现时，视频监控设备使用M3网络模型，利用运动轨迹的信息，使用同一目标在当前时刻与前若干时刻的跟踪区域图像的顺序叠加作为模型的输入，即：

步骤S423，对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和，输出对应的行为类别。

具体地，在完成将当前时刻图像和跟踪区域图像进行顺序叠加后，进行多帧图像叠加输入处理后，视频监控设备对行为类别得分和进行顺序叠加后的结果进行加权求和，输出对应的行为类别。

其中，在具体实现时，视频监控设备融合M2网络模型和M3网络模型的处理结果，得到待检测目标的综合行为类别预测，融合的方法可以是两组网络结果的加权和，权重的大小可以通过训练集拟合效果求得。

进一步的，为了更好地提升视频识别的实时性和准确性，参照图8，为本发明具体实施方式中根据所述人体区域计算得到所述人体区域对应的预测值，对所述预测值为非人体类别的人体区域进行过滤的步骤的一种流程示意图。

作为一种实施方式，上述步骤S2包括：

步骤S21，获取所述人体区域并进行分析，输出所述人体区域对应的预测值。

具体地，在完成检测待识别视频中的人体区域，获取人体区域中的人体运行轨迹信息后，视频监控设备获取人体区域并进行分析，输出人体区域对应的预测值。

其中，在具体实现时，当获取到当前帧中某一个人体区域后，视频监控设备将该人体区域的图像输入到背景过滤网络M1网络模型中进行分析，M1网络模型的结构如图2所示，M1网络模型是一个基于单帧图像输入的深度卷积网络模型；其中，网络的输入为检测到的前景区域图像，后接若干个附带ReLU层和pooling层的卷积层(Convolution Layers，CONV)，再接上若干个全连通层(Fully Connection Layers，FC)进行深度的特征计算，网络的最后一层输出层的维数为2维，经过sigmoid变换后分别对应人体类别与非人体类别上的行为类别得分。

步骤S22，若所述预测值为非人体类别，则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤。

具体地，若预测值为非人体类别，则将预测值为非人体类别的人体区域从获取的人体区域中进行过滤；在具体实现时，视频监控设备通过M1网络模型的分类后，可以过滤掉前期检测与跟踪算法误测为人体类别的区域。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上)，所以并不会产生明显的计算开销，在提高检测准确率的同时，能够满足整个系统实时性上的要求。同时，M1网络模型中的卷积层、全连通层的个数可以根据监控画面的大小与所部署设备的硬件性能等因素进行调整。

具体地，若预测值为人体类别，则视频监控设备执行上述步骤S3，计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分。

进一步的，为了更好地提升视频识别的实时性和准确性，参照图9，为本发明具体实施方式中所述检测待识别视频中的人体区域，获取所述人体区域中的人体运行轨迹信息的步骤的一种流程示意图。

作为一种实施方式，上述步骤S1包括：

步骤S11，获取所述待识别视频，对所述目标视频中的人体区域进行检测。

具体地，视频监控设备获取待识别视频，对目标视频中的人体区域进行检测。

其中，在具体实现时，视频监控设备可以通过前端视频采集设备来获取待识别的原始视频，并使用基于传统特征分类的检测器对视频中的人体区域进行检测。

步骤S12，对所述人体区域中的行人进行跟踪，得到所述人体区域中的人体运行轨迹信息。

具体地，在完成获取待识别视频，对目标视频中的人体区域进行检测后，视频监控设备对人体区域中的行人进行跟踪，得到人体区域中的人体运行轨迹信息。

其中，在具体实现时，视频监控设备可使用基于检测区域匹配的跟踪算法对画面中的行人进行跟踪，从而得到画面中的人体的运动轨迹信息。

基于上述视频中人体行为识别的方法实施例的实现，本发明还提供相应的装置实施例。

如图10所示，本发明第一实施例提出一种视频中人体行为识别的装置，包括：

检测模块100，用于检测待识别视频中的人体区域，获取所述人体区域中的人体运行轨迹信息。

本发明装置的执行主体可以为一种视频监控设备或视频识别设备，本实施例以视频监控设备进行举例，当然也不限定于其他能够实现识别视频中人体行为的设备。

具体地，检测模块100检测待识别视频中的人体区域，获取人体区域中的人体运行轨迹信息。

其中，在完成获取待识别视频，对目标视频中的人体区域进行检测后，检测模块100对人体区域中的行人进行跟踪，得到人体区域中的人体运行轨迹信息；在具体实现时，视频监控设备可使用基于检测区域匹配的跟踪算法对画面中的行人进行跟踪，从而得到画面中的人体的运动轨迹信息。

过滤模块200，用于根据所述人体区域计算得到所述人体区域对应的预测值，对所述预测值为非人体类别的人体区域进行过滤，得到所述预测值为人体类别的人体区域。

具体地，在完成检测待识别视频中的人体区域，获取人体区域中的人体运行轨迹信息后，过滤模块200根据人体区域计算得到人体区域对应的预测值，对预测值为非人体类别的人体区域进行过滤，得到预测值为人体类别的人体区域。

其中，视频监控设备获取人体区域并进行分析，输出人体区域对应的预测值，预测值包括人体类别和非人体类别；在具体实现时，当获取到当前帧中某一个人体区域后，视频监控设备将该人体区域的图像输入到背景过滤网络M1网络模型中进行分析，M1网络模型的结构如图2所示，M1网络模型是一个基于单帧图像输入的深度卷积网络模型；其中，网络的输入为检测到的前景区域图像，后接若干个附带ReLU层和pooling层的卷积层(Convolution Layers，CONV)，再接上若干个全连通层(Fully Connection Layers，FC)进行深度的特征计算，网络的最后一层输出层的维数为2维，经过sigmoid变换后分别对应人体类别与非人体类别上的行为类别得分。

其中，若预测值为非人体类别，则过滤模块200将预测值为非人体类别的人体区域从获取的人体区域中进行过滤；通过M1网络模型的分类后，可以过滤掉前期检测与跟踪算法误测为人体类别的区域。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上)，所以并不会产生明显的计算开销，在提高检测准确率的同时，能够满足整个系统实时性上的要求。同时，M1网络模型中的卷积层、全连通层的个数可以根据监控画面的大小与所部署设备的硬件性能等因素进行调整。

计算模块300，用于对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分。

具体地，在完成根据人体区域计算得到所述人体区域对应的预测值，对预测值为非人体类别的人体区域进行过滤，得到预测值为人体类别的人体区域后，计算模块300对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分。

其中，和共用同一个位置区域

其中，在完成获取预测值为人体类别的人体区域的背景图像，得到背景图像的描述信息后，计算模块300根据背景图像的描述信息，计算背景图像对应的背景区域信息，并计算背景图像对应的邻近目标信息；在具体实现时，背景图像会经过若干个卷积层得到它的视觉特征描述，然后经过一个全连通层得到它对应的第一个隐含层特征，它的维度与目标图像得到的第一个隐含层的维度相同。对于目标图像，它的第一个隐含层的特征计算过程可以表示为：

其中，在完成根据背景图像的描述信息，计算背景图像对应的背景区域信息，并计算背景图像对应的邻近目标信息后，计算模块300结合背景图像对应的背景区域信息和邻近目标信息，计算得到人体区域的目标的行为类别得分；在具体实现时，视频监控设备可以记所有的邻近目标区域计算到的第一个全连通层的特征的集合为分别统计这些特征值在每一维上的最大值：

和加权平均值：

输出模块400，用于根据所述行为类别得分，输出相应的行为类别。

具体地，在完成对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分后，输出模块400根据所述行为类别得分，输出相应的行为类别。

其中，若所述行为类别得分高于预设行为类别的阈值，则输出所述行为类别；在根据上述行为类别得分时，如果此时输出的类别得分在一些静态特征明显的类别上的得分高于一定的阈值，则直接输出该类别的作为最终的预测结果。

其中，若行为类别不高于预设行为类别的阈值，则输出模块400结合人体运行轨迹信息，计算并输出相应的行为类别。

其中，在完成获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后，输出模块400将当前时刻图像和跟踪区域图像进行顺序叠加；在具体实现时，视频监控设备使用M3网络模型，利用运动轨迹的信息，使用同一目标在当前时刻与前若干时刻的跟踪区域图像的顺序叠加作为模型的输入，即：

其中，在完成将当前时刻图像和跟踪区域图像进行顺序叠加后，输出模块400对行为类别得分和进行顺序叠加后的结果进行加权求和，输出对应的行为类别；在具体实现时，视频监控设备融合M2网络模型和M3网络模型的处理结果，得到待检测目标的综合行为类别预测，融合的方法可以是两组网络结果的加权和，权重的大小可以通过训练集拟合效果求得。

通过上述方案，本发明提供了一种视频中人体行为识别的装置，实现了提升视频识别的实时性和准确性。

进一步的，为了更好地提升视频识别的实时性和准确性，上述输出模块400，还用于若所述行为类别得分高于预设行为类别的阈值，则输出所述行为类别；若所述行为类别得分不高于预设行为类别的阈值，则结合所述人体运行轨迹信息，计算并输出相应的行为类别。

若行为类别不高于预设行为类别的阈值，则输出模块400结合人体运行轨迹信息，计算并输出相应的行为类别。

进一步的，为了更好地提升视频识别的实时性和准确性，上述计算模块300，还用于获取所述预测值为人体类别的人体区域的背景图像，得到所述背景图像的描述信息；根据所述背景图像的描述信息，计算所述背景图像对应的背景区域信息，并计算所述背景图像对应的邻近目标信息；结合所述背景图像对应的背景区域信息和邻近目标信息，计算得到所述人体区域的目标的行为类别得分。

具体地，在完成根据所述人体区域计算得到所述人体区域对应的预测值，对所述预测值为非人体类别的人体区域进行过滤，得到所述预测值为人体类别的人体区域后，计算模块300获取预测值为人体类别的人体区域的背景图像，得到背景图像的描述信息。

其中，和共用同一个位置区域

在完成获取预测值为人体类别的人体区域的背景图像，得到背景图像的描述信息后，计算模块300根据背景图像的描述信息，计算背景图像对应的背景区域信息，并计算背景图像对应的邻近目标信息。

在完成根据背景图像的描述信息，计算背景图像对应的背景区域信息，并计算背景图像对应的邻近目标信息后，计算模块300结合背景图像对应的背景区域信息和邻近目标信息，计算得到人体区域的目标的行为类别得分。

和加权平均值：

通过上述方案，本发明提供了一种视频中人体行为识别的装置，更好地实现了提升视频识别的实时性和准确性。

进一步的，为了更好地提升视频识别的实时性和准确性，上述输出模块400，还用于获取所述待识别视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像；将所述当前时刻图像和所述跟踪区域图像进行顺序叠加；对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和，输出对应的行为类别。

具体地，输出模块400获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像。

在完成获取视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后，输出模块400将当前时刻图像和跟踪区域图像进行顺序叠加。

在完成将当前时刻图像和跟踪区域图像进行顺序叠加后，输出模块400对行为类别得分和进行顺序叠加后的结果进行加权求和，输出对应的行为类别。

进一步的，为了更好地提升视频识别的实时性和准确性，上述过滤模块200，还用于获取所述人体区域并进行分析，输出所述人体区域对应的预测值；若所述预测值为非人体类别，则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤；若所述预测值为人体类别，则计算所述预测值为人体类别的人体区域中的目标的行为类别得分。

具体地，在完成检测待识别视频中的人体区域，获取人体区域中的人体运行轨迹信息后，过滤模块200获取人体区域并进行分析，输出人体区域对应的预测值。

若预测值为非人体类别，则过滤模块200将预测值为非人体类别的人体区域从获取的人体区域中进行过滤；在具体实现时，视频监控设备通过M1网络模型的分类后，可以过滤掉前期检测与跟踪算法误测为人体类别的区域。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上)，所以并不会产生明显的计算开销，在提高检测准确率的同时，能够满足整个系统实时性上的要求。同时，M1网络模型中的卷积层、全连通层的个数可以根据监控画面的大小与所部署设备的硬件性能等因素进行调整。

若预测值为人体类别，则过滤模块200计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分。

进一步的，为了更好地提升视频识别的实时性和准确性，上述检测模块100，还用于获取所述待识别视频，对所述目标视频中的人体区域进行检测；对所述人体区域中的人体进行跟踪，得到所述人体区域中的人体运行轨迹信息。

具体地，检测模块100获取待识别视频，对目标视频中的人体区域进行检测。

在完成获取待识别视频，对目标视频中的人体区域进行检测后，检测模块100对人体区域中的行人进行跟踪，得到人体区域中的人体运行轨迹信息。

其中O(i，t)代表目标i在t时刻的信息，是该目标在t时刻检测到的图像内容，是该目标在t时刻所在区域的位置，中使用向量(x,y,w,h)的形式记录区域的左上角横、纵坐标位置与长、宽值。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频中人体行为识别的方法，其特征在于，所述方法包括：

根据所述行为类别得分，输出相应的行为类别。

2.根据权利要求1所述的方法，其特征在于，根据所述行为类别得分，输出相应的行为类别的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤包括：

4.根据权利要求2所述的方法，其特征在于，所述结合所述人体运行轨迹信息，计算并输出相应的行为类别的步骤包括：

将所述当前时刻图像和所述跟踪区域图像进行顺序叠加；

5.根据权利要求1所述的方法，其特征在于，所述根据所述人体区域计算得到所述人体区域对应的预测值，对所述预测值为非人体类别的人体区域进行过滤的步骤包括：

6.根据权利要求1所述的方法，其特征在于，所述检测待识别视频中的人体区域，获取所述人体区域中的人体运行轨迹信息的步骤包括：

7.一种视频中人体行为识别的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，

所述输出模块，还用于若所述行为类别得分高于预设行为类别的阈值，则输出所述行为类别；若所述行为类别得分不高于预设行为类别的阈值，则结合所述人体运行轨迹信息，计算并输出相应的行为类别。

9.根据权利要求8所述的装置，其特征在于，

所述计算模块，还用于获取所述预测值为人体类别的人体区域的背景图像，得到所述背景图像的描述信息；根据所述背景图像的描述信息，计算所述背景图像对应的背景区域信息，并计算所述背景图像对应的邻近目标信息；结合所述背景图像对应的背景区域信息和邻近目标信息，计算得到所述人体区域的目标的行为类别得分。

10.根据权利要求7所述的装置，其特征在于，

所述输出模块，还用于获取所述待识别视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像；将所述当前时刻图像和所述跟踪区域图像进行顺序叠加；对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和，输出对应的行为类别。

11.根据权利要求7所述的装置，其特征在于，

所述过滤模块，还用于获取所述人体区域并进行分析，输出所述人体区域对应的预测值；若所述预测值为非人体类别，则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤；若所述预测值为人体类别，则执行计算所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤。

12.根据权利要求7所述的装置，其特征在于，

所述检测模块，还用于获取所述待识别视频，对所述待识别视频中的人体区域进行检测；对所述人体区域中的行人进行跟踪，得到所述人体区域中的人体运行轨迹信息。