CN113205545A

CN113205545A - 区域环境下的行为识别分析方法、系统

Info

Publication number: CN113205545A
Application number: CN202110631795.6A
Authority: CN
Inventors: 陈浩; 许胜�
Original assignee: Suzhou Kachuang Information Technology Co ltd
Current assignee: Suzhou Kachuang Information Technology Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-08-03
Anticipated expiration: 2041-06-07
Also published as: CN113205545B

Abstract

本发明涉及区域环境下的行为识别分析方法，包括第一步：获取视频数据；第二步：数据预处理；第三步：视频数据流中有效片段的提取；第四步：对有效视频进行行为识别分析；第五步：有效视频存储。通过在传统的模板匹配的方法上融合了基于深度学习的神经网络模型，保证了本发明在针对小环境下的行为识别分析过程中，满足实时性的同时，一并提高了准确率。

Description

区域环境下的行为识别分析方法、系统

技术领域

本发明涉及视频数据中人体动作行为识别分析技术领域，尤其涉及区域环境下的行为识别分析方法、系统。

背景技术

人体动作行为识别分析是视频理解的重要研究方向，也是计算机视觉的基础任务之一，并已经广泛地应用于各行各业。在过去，监控视频中确定人员身份往往仅使用人脸识别技术就能取到不错的效果，但对于自助银行和ATM机的监控环境来说，实时的人员动作行为监控更为重要，单纯的依靠工作人员对视频数据进行人工分析是不太现实的，因此需要一种监控视频行为分析方法对摄像头采集到的数据进行快速的分析，并在有异常行为发生时，及时的发出警报。

当前，多数人体动作行为识别分析技术可分为基于人工特征的模板匹配算法、基于深度学习的神经网络两类。而：

一方面：基于人工特征的模板匹配算法中，动作识别主要基于兴趣点的检测和表示。方向梯度直方图、光流直方图、光流梯度直方图、轨迹特征以及人体骨骼特征等都用于提取视频空间和时间两个维度的特征表示。与图像相比，视频蕴含了大量的运动信息，为了更好的利用运动信息，有人提出了密集轨迹的特征，密集的提取和追踪光流中每个像素特征，编码后进行分类。

然而，当面临大规模数据集时，这些特征缺乏一定的灵活性和可扩展性。

另一方面，基于深度学习的神经网络的方法主要有基于双流的神经网络和基于三维卷积的神经网络两种模型算法。基于双流的神经网络提出了一个融合网络，将视频分成空间和时间两个部分，分别将RGB图像和光流图像送入两支神经网络并融合最终分类结果。利用双流神经网络，可以同时得到视频中人或物体外表和运动的信息；基于三维卷积的神经网络在视频动作识别中使用三维卷积的神经网络代替二维卷积的神经网络。

但是，这种做法虽然可以捕捉到更多的时空信息，但相较于二维卷积，三维卷积带来的计算量增长是指数型的，很难满足实时性要求。

发明内容

本发明的目的在于提供区域环境下的行为识别分析方法、系统，通过在传统的模板匹配的方法上融合了基于深度学习的神经网络模型以及将监控视频进行行为上的分类后再存储的方式，解决现有技术中的问题缺陷。

为实现上述目的，本发明的技术方案如下：

区域环境下的行为识别分析方法，其特征在于：包括以下步骤：

第一步：获取视频数据

开启摄像头，采集视频数据；

第二步：数据预处理

对采集到的视频数据流按帧进行处理，进行二值化，采集视频有效片段，完成数据预处理；

第三步：视频数据流中有效片段的提取

利用目标检测方法对视频数据的静态画面进行分析，检测出每个静态画面图像中可能产生目标行为的所有目标对象，并以此来确定该视频是否为有效视频，其中，

若该视频为无效视频，则，重新获得新视频数据流；

第四步：对所述有效视频进行行为识别分析

基于步骤三，若该视频为有效视频时，则，通过使用基于深度学习的卷积神经网络模型以及模板匹配算法对有效视频中发生的动作行为进行识别分析，并对识别分析后的结果进行融合打分得到最终分类结果，其中，

所述基于卷积神经网络模型和模板匹配算法分类识别的具体方式为：

S1、利用TSM卷积神经网络模型进行分类，首先将有效视频分割成N个大小相等的片段，每段采样一个帧，使用二维卷积从每一帧中提取空间特征，然后插入时间移位模块，实现无时间消耗的融合；

S2、利用模板匹配算法进行分类；

S3、输入视频数据流得到该数据的分类结果，并对上述经步骤S1、S2得到的结果进行加性平均融合得到最终结果；

第五步：有效视频存储

根据分类结果，将采集到的有效视频打上分类标签，通过视频存储模块进行存储。

进一步地，第二步中数据预处理的具体方式为：

利用Opencv开源工具对视频数据进行处理：

S1、根据需求对视频数据流的帧高度与帧宽度进行修改调整；

S2、将视频数据流进行灰度化与二值化处理。

进一步地，第三步中，所述目标检测方法基于深度学习的卷积神经网络模型，且采用Faster RCNN或YOLO或SSD高效开源算法，用于利用卷积神经网络图像特征提取能力和所述目标检测算法实现该视频的快速而准确的目标检测，以用于保证有效视频提取的正确性。

进一步地，第四步中，通过使用可嵌入二维CNN的模型来设计构建卷积神经网络模型，其中，所采用的二维卷积神经网络采用TSM网络模型或STM网络模型或TEA网络模型。

进一步地，第四步中，模板匹配算法具体实施方式为：

S1、将第三步中提取的有效视频片段读取为图像帧；

S2、利用光流场来获得所述有效视频序列中的运动轨迹，并沿此运动轨迹提取方向梯度直方图、光流直方图、光流梯度直方图以及轨迹特征四种特征，其中，

所述方向梯度直方图基于灰度图进行计算；所述光流直方图、光流梯度直方图以及轨迹特征基于稠密光流场进行计算；最后得到特征向量；

S3、对所述特征向量使用K_means聚类算法，用于对四种所述特征进行聚类，得到特征字典，具体实施时：

自定义，假设得到的每幅图像有x∈Rp×q个特征，那么得到N幅图像的特征矩阵为x∈Rp×Nq，进而得到一共存在的Nq个数据点，基于其分布在一个p维的空间中，通过聚类后可以找到M个聚类中心；

然后对于每一幅图像而言，分别计算它的q个p维特征属于哪一个聚类中心距离最近，最终统计M个聚类中心分别拥有多少特征，得到一个M维的向量，此时，M维的向量为特征向量；

S4、通过特征字典单词对目标特征向量进行量化编码，并基于VQ算法或者SOMP算法得到固定长度大小的向量值；

S5、对编码量化后的目标特征向量使用SVM支持向量机以进行分类。

进一步的，第四步中，对经识别分析后的动作行为具体进行融合打分并输出分类结果的具体方式为：

对多目标分类结果集合：

卷积神经网络模型结果M1：(s₁、s₂、…s_n)；

模板匹配结果：M2(d₁、d₂、…d_n)；

最终结果为M＝((s₁+d₁)/2、(s₂+d₂)/2、…(s_n+d_n)/2)。

本发明的一方面，提供了区域环境下的行为识别系统，包括视频采集模块、视频分析模块以及视频存储模块，其中，

所述视频采集模块用于采集视频数据；

所述视频分析模块连接视频采集模块，以用于对采集到的视频数据流按帧进行处理，完成视频数据流的预处理；

所述视频存储模块连接视频分析模块，以用于对经视频分析模块处理后的视频数据流进行分类存储。

进一步的，所述视频分析模块包括视频动作词袋模板模型匹配模块以及卷积神经网络模型分析模块，其中，

所述视频动作词袋模板模型匹配模块连接所述视频采集模块，用于通过模板匹配算法完成所述视频数据的行为识别分析；

所述卷积神经网络模型分析模块连接所述视频采集模块，用于通过建立卷积神经网络模型以完成视频数据不同行为的分类。

进一步的，所述视频分析模块还包括视频数据融合分类模块，其中，

所述视频数据融合分类模块分别连接所述视频动作词袋模板模型匹配模块以及卷积神经网络模型分析模块，以用于对经所述视频动作词袋模板模型匹配模块以及卷积神经网络模型分析模块处理后的视频数据进行一次融合打分并输出所述视频数据的最终分类结果。

与现有技术相比，本发明的有益效果包括：

1、通过在传统的模板匹配的方法上融合了基于深度学习的神经网络模型，保证了本发明在针对小环境下的行为识别分析过程中，满足实时性的同时，一并提高了准确率；

2、本发明通过将监控视频进行行为上的分类后再存储，有效地减少了对存储空间的需求；

此外，本发明通过设立各个模块的相互独立，从而区别于现有技术具备可扩展性强、容错性高以及低耦合的优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。其中：

图1是本发明一种实施例中提出的行为识别分析流程示意图；

图2是本发明一种实施例中提出的词袋与模板匹配模型的处理流程示意图；

图3是本发明一种实施例中提出的行为识别系统中数据交互示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1示出了本发明实施例区域环境下的行为识别分析方法的行为识别分析流程：提出了区域环境下的行为识别分析方法，包括以下步骤：

第一步：获取视频数据

开启摄像头，采集视频数据；

第二步：数据预处理

对采集到的视频数据流按帧进行处理，进行二值化，采集视频有效片段，完成数据预处理，具体实施时：利用Opencv等开源工具对视频数据进行处理：

S2、将视频数据流进行灰度化与二值化处理；

第三步：视频数据流中有效片段的提取

将处理完成的视频数据输入至视频分析模块，通过两种分类算法对视频中发生的动作行为进行识别分析，再将两种算法得到的结果进行融合打分得到最终的分类结果，具体实施时：

利用目标检测方法对视频数据的静态画面进行分析，目前目标检测方法较多，本申请优选选择较为流行的开源深度学习神经网络模型，如Faster RNN或YOLO或SSD高效开源算法，利用卷积神经网络图像特征提取能力和目标检测算法实现该视频的快速而准确的目标检测，以用于保证有效视频提取的正确性，检测出每个静态画面图像中可能产生目标行为的所有目标对象，并以此来确定该视频是否为有效视频，其中，

若该视频为无效视频，则，重新获得新视频数据流，其中，无效视频为经上述目标检测算法检测后，无关注的目标结果存在的视频；

第四步：对有效视频进行行为识别分析

基于卷积神经网络模型和模板匹配算法分类识别的具体方式为：

S2、利用模板匹配算法进行分类，首先将有效视频片段读取为图像帧，然后利用光流场方法获取视频序列中的一些轨迹，沿着轨迹提取方向梯度直方图、光流直方图、光流梯度直方图与轨迹特征四种特征，将得到的特征使用K-means聚类算法对特征进行聚类得到特征字典，使用特征字典对测试数据进行量化编码，得到固定长度大小的向量，最后对编码量化之后的特征向量使用SVM支持向量机进行分类；

S3、输入视频数据流得到该数据的分类结果，并对上述经步骤S1、S2得到的结果进行加性平均融合得到最终结果，并对对多目标分类结果集合，即，

卷积神经网络模型结果M1：(s₁、s₂、…s_n)

模板匹配结果：M2(d₁、d₂、…d_n)

最终结果为M＝((s₁+d₁)/2、(s₂+d₂)/2、…(s_n+d_n)/2)。

作为对本发明上述构思的理解，基于深度学习的卷积神经网络模型分析方法为一种端到端的行为识别分析方法，而目标检测方法基于深度学习的卷积神经网络模型，如：利用VGG16卷积神经网络提供目标特征图，具体步骤包括：定义3×3大小的卷积核64个，分别经过两次卷积操作后变为int_l×int_l×64原图大小不变深度变为64，经过一次池化操作后长宽变为原图的二分之一；定义3×3大小的卷积核128个，进行两次卷积后池化后深度变为128，图像大小变为原始图像四分之一；利用3×3大小的卷积核512个，进行三次卷积和池化操作后图像深度变为512，最终图像长宽大小变为原图的三十二分之一，然后采用FasterRCNN或YOLO或SSD等高效开源算法，用于利用卷积神经网络图像特征提取能力和目标检测算法实现该视频的快速而准确的目标检测，以用于保证有效视频提取的正确性；

第五步：有效视频存储

在本发明的一实施例中，第四步中，通过使用可嵌入二维CNN的模型来设计构建卷积神经网络模型，可嵌入二维CNN模型利用稀疏采样一些视频流片段，通过在时间轴上移动一部分通道，将时间信息引入到二维CNN模型框架中，这样可以有效的将运动物体的时空特征信息导入，同时避免三维CNN中需要的大计算量，其中，所采用的二维卷积神经网络采用TSM网络模型或STM网络模型或TEA网络模型。

作为对上述技术方案的构思理解，

TSM网络模型将一般的卷积操作通过位移shift和权值叠加multiply accumulate(乘积累加运算)两个过程来获得时序信息，而位移操作基本不消耗计算资源，只是常规地址偏移指针操作，这样就可以在几乎不增加计算量的同时来实现时间上的信息交互，且能捕捉长时序时空上下文关系；

TEA网络模型是一个轻量级的行为识别模型，通过两个模块分别用于建模短时间和长时间的时序变化特征，解决了动作特征学习过程中计算开销大、时空信息分割和长时建模中感受野过大导致优化难等问题。

如图2所示，提出了本发明实施例区域环境下的行为识别分析方法的词袋与模板匹配模型的处理流程，在本发明的一实施例中，第四步中，模板匹配算法具体实施方式为：

S1、将第三步中提取的有效视频片段读取为图像帧；

S2、利用光流场来获得有效视频序列中的运动轨迹，并沿此运动轨迹提取方向梯度直方图、光流直方图、光流梯度直方图以及轨迹特征四种特征，其中，

方向梯度直方图基于灰度图进行计算；

光流直方图、光流梯度直方图以及轨迹特征基于稠密光流场进行计算；最后得到特征向量；

S3、对特征向量使用K_means聚类算法，用于对四种特征进行聚类，得到特征字典，具体实施时：自定义，假设得到的每幅图像有x∈Rp×q个特征，那么得到N幅图像的特征矩阵为x∈Rp×Nq，进而得到一共存在的Nq个数据点，基于其分布在一个p维的空间中，通过聚类后可以找到M个聚类中心；

在本发明的一实施例中，第四步中，对经识别分析后的动作行为具体进行融合打分并输出分类结果的具体方式为：

对多目标分类结果集合：

卷积神经网络模型结果M1：(s₁、s₂、…s_n)；

模板匹配结果：M2(d₁、d₂、…d_n)；

最终结果为M＝((s₁+d₁)/2、(s₂+d₂)/2、…(s_n+d_n)/2)。

如图3所示，作为本发明的第二方面，本发明提出了区域环境下的行为识别系统，包括视频采集模块、视频分析模块以及视频存储模块，其中，

视频采集模块用于采集视频数据；

视频分析模块连接视频采集模块，以用于对采集到的视频数据流按帧进行处理，完成视频数据流的预处理；

视频存储模块连接视频分析模块，以用于对经视频分析模块处理后的视频数据流进行分类存储。

在本发明的第二方面的实施例中，视频分析模块包括视频动作词袋模板模型匹配模块以及卷积神经网络模型分析模块，其中，

视频动作词袋模板模型匹配模块连接视频采集模块，用于通过模板匹配算法完成视频数据的行为识别分析；

卷积神经网络模型分析模块连接视频采集模块，用于通过建立卷积神经网络模型以完成视频数据不同行为的分类。

与此同时，视频分析模块还包括视频数据融合分类模块，其中，

视频数据融合分类模块分别连接视频动作词袋模板模型匹配模块以及卷积神经网络模型分析模块，以用于对经视频动作词袋模板模型匹配模块以及卷积神经网络模型分析模块处理后的视频数据进行一次融合打分并输出视频数据的最终分类结果。

作为本发明的一实施例，本发明具备如下有益效果：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.区域环境下的行为识别分析方法，其特征在于，包括以下步骤：

第一步：获取视频数据

开启摄像头，采集视频数据；

第二步：数据预处理

第三步：视频数据流中有效片段的提取

若该视频为无效视频，则，重新获得新视频数据流；

第四步：对所述有效视频进行行为识别分析

S2、利用模板匹配算法进行分类；

第五步：有效视频存储

2.根据权利要求1所述的区域环境下的行为识别分析方法，其特征在于，第二步中数据预处理的具体方式为：

利用Opencv开源工具对视频数据进行处理：

S2、将视频数据流进行灰度化与二值化处理。

3.根据权利要求1所述的区域环境下的行为识别分析方法，其特征在于，第三步中，所述目标检测方法基于深度学习的卷积神经网络模型，且采用FasterRCNN或YOLO或SSD高效开源算法，用于利用卷积神经网络图像特征提取能力和所述目标检测算法实现该视频的快速而准确的目标检测，以用于保证有效视频提取的正确性。

4.根据权利要求1所述的区域环境下的行为识别分析方法，其特征在于，第四步中，通过使用可嵌入二维CNN的模型来设计构建卷积神经网络模型，其中，所采用的二维卷积神经网络采用TSM网络模型或STM网络模型或TEA网络模型。

5.根据权利要求1所述的区域环境下的行为识别分析方法，其特征在于，第四步中，模板匹配算法具体实施方式为：

S1、将第三步中提取的有效视频片段读取为图像帧；

S3、对所述特征向量使用K_means聚类算法，用于对四种所述特征进行聚类，得到特征字典，具体实施时：自定义，假设得到的每幅图像有x∈Rp×q个特征，那么得到N幅图像的特征矩阵为x∈Rp×Nq，进而得到一共存在的Nq个数据点，基于其分布在一个p维的空间中，通过聚类后可以找到M个聚类中心；

6.根据权利要求1所述的区域环境下的行为识别分析方法，其特征在于，第四步中，对经识别分析后的动作行为具体进行融合打分并输出分类结果的具体方式为：

对多目标分类结果集合：

卷积神经网络模型结果M1：(s₁、s₂、…s_n)；

模板匹配结果：M2(d₁、d₂、…d_n)；

最终结果为M＝((s₁+d₁)/2、(s₂+d₂)/2、…(s_n+d_n)/2)。

7.一种根据权利要求1-6任一项所述的区域环境下的行为识别系统，其特征在于，包括视频采集模块、视频分析模块以及视频存储模块，其中，

所述视频采集模块用于采集视频数据；

8.根据权利要求7所述的区域环境下的行为识别系统，其特征在于，所述视频分析模块包括视频动作词袋模板模型匹配模块以及卷积神经网络模型分析模块，其中，

9.根据权利要求7或8所述的区域环境下的行为识别系统，其特征在于，所述视频分析模块还包括视频数据融合分类模块，其中，