CN108280406A

CN108280406A - 一种基于分段双流模型的行为识别方法、系统及装置

Info

Publication number: CN108280406A
Application number: CN201711488438.9A
Authority: CN
Inventors: 郝禄国; 张晓龙; 罗杰强; 杨琳; 葛海玉
Original assignee: Guang Zhou Hai Noboru Computer Science And Technology Ltd
Current assignee: Guang Zhou Hai Noboru Computer Science And Technology Ltd
Priority date: 2017-12-30
Filing date: 2017-12-30
Publication date: 2018-07-13

Abstract

本发明公开了一种基于分段双流模型的行为识别方法、系统及装置，方法包括：采用H.265/HEVC的视频压缩标准录制监控视频；对样本数据集进行样本扩容，得到扩容样本数据集；创建组合卷积神经网络模型，进而通过扩容样本数据集对组合卷积神经网络模型进行训练，得到训练后的组合卷积神经网络模型；将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中，得到实际监控视频中的人体行为的识别结果。本发明通过利用分段双流CNNs和LSTMs组合的组合卷积神经网络模型识别人体行为类别，通过充分提取视频数据中有效特征，能有效实时分析视频中学生行为，且能大大提高识别准确率。本发明可广泛应用于行为识别领域中。

Description

一种基于分段双流模型的行为识别方法、系统及装置

技术领域

本发明涉及行为识别技术领域，尤其涉及一种基于分段双流模型的行为识别方法、系统及装置。

背景技术

由国际电联和国际标准化组织联合制定的下一代视频压缩标准H.265/HEVC正在被越来越多的平台与应用所采纳，其中一个重要的应用场景就是基于移动网络的实时视频。HEVC/H.265视频编码是继H.264之后ITU-T VCEG所制定的新一代视频编码标准。相对于现有标准，H.265/HEVC在视觉感知质量相当的情况下，比特率要大致减少50％。此外，H.265/HEVC还特别关注两个关键问题：视频分辨率和并行处理的实现，H.265/HEVC标准在支持原有视频分辨率级别的基础上，增加了4K(4096×2160)和8K(8192×4320)超高清视频分辨率，采用新的编码结构，以适应并行化处理的要求。

传统的方法是采用H.264经典视频压缩标准，且神经网络模型实现方式采用的是其他方式，目前还没有相关研究是关于HEVC/H.265视频应用于教室监控场景学生行为实时识别的，并且对于视频数据不能充分有效提取特征，从而导致识别率较低。

发明内容

为了解决上述技术问题，本发明的目的提供一种识别准确率较高，基于分段双流模型的行为识别方法、系统及装置。

本发明所采取的技术方案是：

一种基于分段双流模型的行为识别方法，包括以下步骤：

采用H.265/HEVC的视频压缩标准录制监控视频，根据得到的监控视频组建得到样本数据集；

从样本数据集中的监控视频获取RGB图像数据和光流图像数据；

对样本数据集进行样本扩容，得到扩容样本数据集；

基于扩容样本数据集，创建组合卷积神经网络模型，并对扩容样本数据集中监控视频的人体行为进行分类，进而通过扩容样本数据集对组合卷积神经网络模型进行训练，得到训练后的组合卷积神经网络模型；

将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中，得到实际监控视频中的人体行为的识别结果。

作为所述的一种基于分段双流模型的行为识别方法的进一步，所述的对样本数据集进行样本扩容，得到扩容样本数据集，这一步骤具体包括：

对样本数据集中的监控视频通过角剪裁的方式进行样本扩容，得到角剪裁扩容视频；

对样本数据集中的监控视频通过尺度抖动的方式进行样本扩容，得到尺度抖动扩容视频；

根据监控视频和得到的角剪裁扩容视频和尺度抖动扩容视频，组合得到扩容样本数据集。

作为所述的一种基于分段双流模型的行为识别方法的进一步，所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型。

作为所述的一种基于分段双流模型的行为识别方法的进一步，所述的基于扩容样本数据集，创建组合卷积神经网络模型，并对扩容样本数据集中监控视频的人体行为进行分类，进而通过扩容样本数据集对组合卷积神经网络模型进行训练，得到训练后的组合卷积神经网络模型，这一步骤具体包括：

基于扩容样本数据集，创建组合卷积神经网络模型，并对扩容样本数据集中监控视频的人体行为进行分类并标注，得到行为类别；

通过卷积神经网络模型对RGB图像数据和光流图像数据进行特征提取，得到特征序列，并融合扩容样本数据集中的有效粗细粒度信息；

将扩容样本数据集的监控视频进行分段，得到分段视频，并根据行为类别，将分段视频输入至卷积神经网络模型进行训练；

通过长短期记忆神经网络对提取后的特征序列进行处理；

通过Softmax层进行分类。

作为所述的一种基于分段双流模型的行为识别方法的进一步，所述的将扩容样本数据集的监控视频进行分段，得到分段视频，并根据行为类别，将分段视频输入至卷积神经网络模型进行训练，这一步骤具体包括：

将帧数为N_F的规范化视频以预设的步长L_Stride进行分段，每段包括预设的帧数L_Seg，则分段数为N_seg＝1+(N_F-L_Seg)/L_Stride，并根据预设的采样率进行采样，形成得到第一视频段矩阵；

以初步视频中每一帧的左手关节为中心，根据预设的帧大小截取并组成新视频，对新视频采取上进行分段处理，得到第二视频段矩阵；

将第一视频段矩阵和第二视频段矩阵进行融合得到第三视频段矩阵，同时根据行为类别，将第三视频段矩阵中的分段视频输入到卷积神经网络模型中进行训练。

本发明所采用的另一技术方案是：

一种基于分段双流模型的行为识别系统，包括以下步骤：

样本采集单元，用于采用H.265/HEVC的视频压缩标准录制监控视频，根据得到的监控视频组建得到样本数据集；

数据获取单元，用于从样本数据集中的监控视频获取RGB图像数据和光流图像数据；

样本扩容单元，用于对样本数据集进行样本扩容，得到扩容样本数据集；

训练单元，用于基于扩容样本数据集，创建组合卷积神经网络模型，并对扩容样本数据集中监控视频的人体行为进行分类，进而通过扩容样本数据集对组合卷积神经网络模型进行训练，得到训练后的组合卷积神经网络模型；

识别单元，用于将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中，得到实际监控视频中的人体行为的识别结果。

作为所述的一种基于分段双流模型的行为识别系统的进一步，所述样本扩容单元具体包括：

角剪裁扩容单元，用于对样本数据集中的监控视频通过角剪裁的方式进行样本扩容，得到角剪裁扩容视频；

尺度抖动扩容单元，用于对样本数据集中的监控视频通过尺度抖动的方式进行样本扩容，得到尺度抖动扩容视频；

样本组合单元，用于根据监控视频和得到的角剪裁扩容视频和尺度抖动扩容视频，组合得到扩容样本数据集。

作为所述的一种基于分段双流模型的行为识别系统的进一步，所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型；

所述训练单元具体包括：

创建单元，用于基于扩容样本数据集，创建组合卷积神经网络模型，并对扩容样本数据集中监控视频的人体行为进行分类并标注，得到行为类别；

特征提取单元，用于通过卷积神经网络模型对RGB图像数据和光流图像数据进行特征提取，得到特征序列，并融合扩容样本数据集中的有效粗细粒度信息；

CNNS训练单元，用于将扩容样本数据集的监控视频进行分段，得到分段视频，并根据行为类别，将分段视频输入至卷积神经网络模型进行训练；

LSTM处理单元，用于通过长短期记忆神经网络对提取后的特征序列进行处理；

分类层处理单元，用于通过Softmax层进行分类。

作为所述的一种基于分段双流模型的行为识别系统的进一步，所述CNNS训练单元具体包括：

第一视频段矩阵生成单元，用于将帧数为N_F的规范化视频以预设的步长L_Stride进行分段，每段包括预设的帧数L_Seg，则分段数为N_seg＝1+(N_F-L_Seg)/L_Stride，并根据预设的采样率进行采样，形成得到第一视频段矩阵；

第二视频段矩阵生成单元，用于以初步视频中每一帧的左手关节为中心，根据预设的帧大小截取并组成新视频，对新视频采取上进行分段处理，得到第二视频段矩阵；

模型训练单元，用于将第一视频段矩阵和第二视频段矩阵进行融合得到第三视频段矩阵，同时根据行为类别，将第三视频段矩阵中的分段视频输入到卷积神经网络模型中进行训练。

本发明所采用的再一个技术方案是：

一种基于分段双流模型的行为识别装置，包括：

存储器，用于存放程序；

处理器，用于执行所述程序，所述程序使得所述处理器执行所述的基于分段双流模型的行为识别方法。

本发明的有益效果是：

本发明一种基于分段双流模型的行为识别方法、系统及装置通过采用基于H.265/HEVC新一代的视频压缩标准，并利用分段双流CNNs和LSTMs组合的组合卷积神经网络模型识别人体行为类别，通过充分提取视频数据中有效特征，能有效实时分析视频中学生行为，且能大大提高识别准确率。

附图说明

图1是一种基于分段双流模型的行为识别方法的步骤流程图；

图2是一种基于分段双流模型的行为识别系统的模块方框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

参考图1，本发明一种基于分段双流模型的行为识别方法，包括以下步骤：

对样本数据集进行样本扩容，得到扩容样本数据集；

本发明实施例中，所述样本数据集中监控摄像压缩标准采用的是H.265/HEVC新标准，通过在教室内4种场景下的25个人分别做出6种动作：看书、打闹、说话、站起来、坐下、睡觉，共录制了2391个短视频组成样本数据集。

其中，所述卷积神经网络模型中的空间流模型的学习将基于RGB图像数据，所述卷积神经网络模型中的时间流模型的学习将基于光流图像数据，时间流上的运动信息通过光流位移来准确表示，可将光流视为一系列由两个连续帧t和t+1决定的位移矢量场d_t。其中：d_t(u,v)代表帧t上像素(u,v)与邻帧t+1相对应位置的位移矢量。而d_t ^x和d_t ^y作为光流场d_t的水平分量和垂直分量，可以视为两个通道的图像。

为了以帧序列来表示运动，将L个连续帧的光流通道d_t ^x,y堆叠到一起形成一个由2L个输入通道组成的光流数据(含L个连续帧的光流场水平分量，以及L个连续帧的光流场垂直分量)。

假设视频帧的宽和高分别为w和h，则可按照如下方式构造卷积神经网络在任意时刻T处的时间流输入块I_T∈R^w×h×2L：

其中，对于任意像素(u,v)，2L个通道数据I_T(u,v,c)，c＝[1；2L]代表了该位置在L个连续帧的运动。

进一步作为优选的实施方式，所述的对样本数据集进行样本扩容，得到扩容样本数据集，这一步骤具体包括：

本发明实施例中，所述角剪裁具体为：首先固定图像的一个大小为256x256的中心位置，然后在该子区域内随机剪裁到一个大小为224x224的子图像，从图像的中心与四个对角等五个位置区域来剪裁224x224的子图像。3.12将图像进行水平翻转，得到水平翻转后的5幅图像。通过角剪裁及水平翻转，将1个视频行为样本扩容为10个视频行为样本，即角剪裁扩容视频。

所述尺度抖动具体为：将原始图像调整为统一大小，如340x256；然后基于角剪裁方式指定的五个位置，从{256,224,192,168}中随机选取裁剪区域的长、宽，进行图像区域的裁剪；将裁剪后的图像子块进行尺度放缩，以重新调整为224x224的大小，作为扩容后的一幅新的输入图像；最后进行水平镜像操作，得到尺度抖动扩容视频。

进一步作为优选的实施方式，所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型。

进一步作为优选的实施方式，所述的基于扩容样本数据集，创建组合卷积神经网络模型，并对扩容样本数据集中监控视频的人体行为进行分类，进而通过扩容样本数据集对组合卷积神经网络模型进行训练，得到训练后的组合卷积神经网络模型，这一步骤具体包括：

通过长短期记忆神经网络对提取后的特征序列进行处理；其中，数据被调整规模以进入长短期记忆神经网络中，特征序列种各帧的特征向量填充时间序列，长短期记忆神经网络按时序做递归运算，每次递归运算的结果是前面所有特征和当前特征的融合，获取帧与帧之间的时间信息；

通过Softmax层进行分类。

进一步作为优选的实施方式，所述的将扩容样本数据集的监控视频进行分段，得到分段视频，并根据行为类别，将分段视频输入至卷积神经网络模型进行训练，这一步骤具体包括：

将帧数为N_F的规范化视频以预设的步长L_Stride进行分段，每段包括预设的帧数L_Seg，则分段数为N_seg＝1+(N_F-L_Seg)/L_Stride，并根据预设的采样率进行采样，形成得到N_segxL_segxW/4xH/4的第一视频段矩阵；

以初步视频中每一帧的左手关节为中心，根据预设的帧大小截取并组成N_FxW/4xH/4的新视频，对新视频采取上进行分段处理，得到N_segxL_segxW/4xH/4的第二视频段矩阵；

将第一视频段矩阵和第二视频段矩阵进行融合得到2N_segxL_segxW/4xH/4的第三视频段矩阵，同时根据行为类别，将第三视频段矩阵中的分段视频输入到2N_seg个卷积神经网络模型中进行训练。

本实施例中，预设的采样率为1/4，所述预设的帧大小为W/4xH/4，

参考图2，本发明一种基于分段双流模型的行为识别系统，包括以下步骤：

进一步作为优选的实施方式，所述样本扩容单元具体包括：

进一步作为优选的实施方式，所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型；

所述训练单元具体包括：

分类层处理单元，用于通过Softmax层进行分类。

进一步作为优选的实施方式，所述CNNS训练单元具体包括：

本发明一种基于分段双流模型的行为识别装置，包括：

存储器，用于存放程序；

从上述内容可知，本发明一种基于分段双流模型的行为识别方法、系统及装置通过采用基于H.265/HEVC新一代的视频压缩标准，并利用分段双流CNNs和LSTMs组合的组合卷积神经网络模型识别人体行为类别，通过充分提取视频数据中有效特征，能有效实时分析视频中学生行为，且能大大提高识别准确率。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于分段双流模型的行为识别方法，其特征在于，包括以下步骤：

对样本数据集进行样本扩容，得到扩容样本数据集；

2.根据权利要求1所述的一种基于分段双流模型的行为识别方法，其特征在于：

所述的对样本数据集进行样本扩容，得到扩容样本数据集，这一步骤具体包括：

3.根据权利要求1所述的一种基于分段双流模型的行为识别方法，其特征在于：

所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型。

4.根据权利要求3所述的一种基于分段双流模型的行为识别方法，其特征在于：

所述的基于扩容样本数据集，创建组合卷积神经网络模型，并对扩容样本数据集中监控视频的人体行为进行分类，进而通过扩容样本数据集对组合卷积神经网络模型进行训练，得到训练后的组合卷积神经网络模型，这一步骤具体包括：

通过长短期记忆神经网络对提取后的特征序列进行处理；

通过Softmax层进行分类。

5.根据权利要求4所述的一种基于分段双流模型的行为识别方法，其特征在于：

所述的将扩容样本数据集的监控视频进行分段，得到分段视频，并根据行为类别，将分段视频输入至卷积神经网络模型进行训练，这一步骤具体包括：将帧数为N_F的规范化视频以预设的步长L_Stride进行分段，每段包括预设的帧数L_Seg，则分段数为N_seg＝1+(N_F-L_Seg)/L_Stride，并根据预设的采样率进行采样，形成得到第一视频段矩阵；

6.一种基于分段双流模型的行为识别系统，其特征在于，包括以下步骤：

7.根据权利要求6所述的一种基于分段双流模型的行为识别系统，其特征在于：

所述样本扩容单元具体包括：

8.根据权利要求6所述的一种基于分段双流模型的行为识别系统，其特征在于：

所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型；

所述训练单元具体包括：

分类层处理单元，用于通过Softmax层进行分类。

9.根据权利要求8所述的一种基于分段双流模型的行为识别方法，其特征在于：

所述CNNS训练单元具体包括：

10.一种基于分段双流模型的行为识别装置，其特征在于，包括：

存储器，用于存放程序；

处理器，用于执行所述程序，所述程序使得所述处理器执行如权利要求1～5任一项所述的基于分段双流模型的行为识别方法。