CN113158760A

CN113158760A - 一种基于多层次标签的弱监督特定行为识别系统

Info

Publication number: CN113158760A
Application number: CN202110193170.6A
Authority: CN
Inventors: 赵丽; 张笑钦
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-07-23
Anticipated expiration: 2041-02-20
Also published as: CN113158760B

Abstract

本发明提供了一种基于多层次标签的弱监督特定行为识别系统，包括：检测信息获取单元、信息存储单元和特定行为识别单元；所述检测信息获取单元用于通过摄像装置进行视频数据采集，并将获取的待识别的特定行为视频图像数据进行预处理后存储至所述信息存储单元；所述信息存储单元用于存储系统采集的视频数据及运行参数，所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块；所述特定行为识别单元用于对预处理后的图像数据进行识别，利用基于弱监督的方式通过卷积神经网络对图像特征进行提取，并与多路子网络相结合得到一个分类网络模型，进行特定行为分类识别，本发明可对输入图像并行运算且计算效率较高。

Description

一种基于多层次标签的弱监督特定行为识别系统

技术领域

本发明涉及图像识别技术领域，尤其涉及到一种基于多层次标签的弱监督特定行为识别系统。

背景技术

强监督学习，一般要对图像进行目标级或者语义级的标记来获取监督信息，处理图像较多时，存在标记困难的问题。而弱监督学习所采用的图像级标签只标注了图像中存在哪些类别的物体，对于存在的物体在图像中的位置信息则没有任何标注。但在弱监督学习条件下，学习模型难以直接定位目标在图像中的区域，现有的弱监督学习方法大概包括以下两类：一个是通过目标性算法等方式获取候选框，并通过对这些候选框对应的图像区域进行分类，获取图像中包含的所有物体的类别信息；而另一个则是通过循环神经网络递进地获取图像中的区域特征，进而得到分类结果。前者获取目标候选框的代价大，且分类过程中存在大量冗余计算；而后者时序递进的方法导致无法进行高效的并行运算，计算效率较低。

综上所述，提供一种可并行运算、计算效率高且可有效规避计算冗余的基于多层次标签的弱监督特定行为识别系统，是本领域技术人员急需解决的问题。

发明内容

本方案针对上文提到的问题和需求，提出一种基于多层次标签的弱监督特定行为识别系统，其由于采取了如下技术方案而能够解决上述技术问题。

为实现上述目的，本发明提供如下技术方案：一种基于多层次标签的弱监督特定行为识别系统，包括：检测信息获取单元、信息存储单元和特定行为识别单元；

所述检测信息获取单元用于通过摄像装置进行视频数据采集，所述检测信息获取单元包括视频获取模块、自动控制模块和自动补偿模块，所述视频获取模块用于获取待识别的特定行为视频图像数据并进行预处理，将预处理后的视频图像数据存储至所述信息存储单元，所述自动控制模块用于控制视频获取动作的起始，所述自动补偿模块用于在视频采集过程中进行自动调焦和光线补偿；

所述信息存储单元用于存储系统采集的视频数据及运行参数，所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块，所述标签知识库用于存储标签数据，所述训练集数据库用于存储识别网络的训练数据，所述视频缓存模块用于存储预处理后的视频图像数据；

所述特定行为识别单元用于对预处理后的图像数据进行识别，所述特定行为识别单元包括训练数据生成模块、特征提取模块、分类选择模块和识别模块，所述训练数据生成模块用于对训练数据进行预处理，所述特征提取模块采用卷积神经网络进行图像特征提取，所述分类选择模块用于将所述特征提取模块输出的特征图进行随机失活正则化后进行分类输出，利用训练集数据库中的样本数据进行训练得到一个分类网络模型，所述识别模块用于将待识别的特定行为视频图像数据输入所述分类网络模型进行特定行为识别。

进一步地，所述视频获取模块用于通过摄像装置获取视频数据，并将包含T个帧的未剪切视频图像数据划分成视频集合

其中,N是视频片段的个数，c_i＝(a_i，b_i)表示第i个视频片段的起止时间,将N个视频片段分别进行分帧处理，每个视频片段得到K帧动作图像。

更进一步地，生成视频集合C包括：将一个长视频分成N个等长的视频片段，即

进一步地，所述训练数据生成模块首先对训练集数据库中的训练样本图像根据公式

进行标准化处理，其中，I为图像矩阵，μ表示图像的均值，Var(I)表示图像的标准方差，并将所有图像都缩放到相同的尺寸，然后对样本图像进行多样化处理平衡过拟合问题，最后对图像进行灰度化、二值化、锐化和去离散噪声处理。

更进一步地，所述对样本图像进行多样化处理包括：首先对样本中的图像以

的概率进行随机反转，并对图像进行随机裁剪，从图像中裁剪一个大小为原图像

之间，长宽比在3：4到4：3 之间的图像块，然后通过双线性插值的方法将所述图像块缩放为大小相同的图像作为随机裁剪后的图像，将随机反转和随机裁剪后的图像与未处理样本图像进行混合形成新的训练集。

更进一步地，将所述新的训练集中的样本图像输入所述特征提取模块，所述特征提取模块采用预训练好的ResNet卷积神经网络主干网络提取出图像特征信息，并将输出的特征信息进行随机失活正则化处理后传输至所述分类选择模块，所述分类选择模块包括多路支路网络，每路网络分别判断某一特定行为类别是否存在于图像中；

所述ResNet卷积神经网络主干网络包括ResNet卷积神经网络去除全局池化层和全连接层以外的结构；

所述每路网络包括一个通道注意信息获取层，所述通道注意信息获取层中所有特征均直接共连用于完整地获取所有特征的上下文信息，将所述ResNet卷积神经网络主干网络输出的特征输入所述通道注意信息获取层后，获取每个支路网络的通道注意信息，并将所述通道注意信息作为通道上的权重与所述ResNet卷积神经网络主干网络输出的最后一层特征相乘，获得对应支路网络在通道注意机制下的特征图，对经过通道注意加权后的特征进行全局平均池化操作，再通过一个全连接层以及Sigmoid函数得到一个预测值，所述预测值为对应支路上对应的类别在多标签图像中存在的概率；

所述通道注意信息获取层采用两层全连接层结构。

更进一步地，所述ResNet卷积神经网络主干网络和所述多路支路网络组成的分类网络模型采用二值交叉熵作为损失函数，对模型进行训练。

更进一步地，所述识别模块将所述N个视频片段分组输入训练好的分类网络进行识别，并根据识别结果对特定行为进行差异化报警，所述差异化报警包括两种报警模式，所述两种报警模式分别为单一报警模式和并行报警模式，所述单一报警模式仅对识别的结果属于哪种特定行为进行报警提醒，所述并行报警模式对各对应支路上对应的类别在多标签图像中存在的概率均进行输出提醒。

从上述的技术方案可以看出，本发明的有益效果是：本发明利用基于弱监督的方式通过卷积神经网络对图像特征进行提取，并与多路子网络相结合得到一个分类识别网络模型，其可对图像特征进行并行运算、计算效率高且可有效规避计算冗余，适应性较好。

除了上面所描述的目的、特征和优点之外，下文中将结合附图对实施本发明的最优实施例进行更详尽的描述，以便能容易地理解本发明的特征和优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下文将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，其中，附图仅仅用于展示本发明的一些实施例，而非将本发明的全部实施例限制于此。

图1为本发明一种基于多层次标签的弱监督特定行为识别系统的步骤示意图。

图2为本实施例中待识别视频图像数据预处理过程的步骤示意图。

图3为本实施例中训练数据处理过程的步骤示意图。

图4为本实施例中分类网络模型的组成结构示意图。

具体实施方式

为了使得本发明的技术方案的目的、技术方案和优点更加清楚，下文中将结合本发明具体实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。附图中相同的附图标记代表相同的部件。需要说明的是，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在许多重要场景下，需要对人的特定行为进行判别，判定其是否合法，或者在形体考试等情况下，需要多动作的一致性进行判定，本发明提供了一种可进行并行运算、计算效率高且可有效规避计算冗余，适应性较好的基于多层次标签的弱监督特定行为识别系统。如图1至图4所示，该系统包括：检测信息获取单元、信息存储单元和特定行为识别单元；所述检测信息获取单元用于通过摄像装置进行视频数据采集，所述检测信息获取单元包括视频获取模块、自动控制模块和自动补偿模块，所述视频获取模块用于获取待识别的特定行为视频图像数据并进行预处理，将预处理后的视频图像数据存储至所述信息存储单元，所述自动控制模块用于控制视频获取动作的起始，方便对视频进行控制，可根据用户需求对视频采集过程进行智能控制，所述自动补偿模块用于在视频采集过程中进行自动调焦和光线补偿，保证获取图像的质量。其中，如图2所示，所述预处理的过程如下：a.所述视频获取模块通过摄像装置获取视频数据，并将包含T个帧的未剪切视频图像数据划分成视频集合

其中,N是视频片段的个数，c_i＝(a_i，b_i)表示第i个视频片段的起止时间；b.生成视频集合C的过程是将一个长视频分成N个等长的视频片段，即

c.将N个视频片段分别进行分帧处理，每个视频片段得到K帧动作图像。

在本系统中，所述信息存储单元用于存储系统采集的视频数据及运行参数，所述信息存储单元包括标签知识库、训练集数据库和视频缓存模块，所述标签知识库用于存储标签数据，所述训练集数据库用于存储识别网络的训练数据，所述视频缓存模块用于存储预处理后的视频图像数据。

对特定行为图像进行识别需要训练一个图像分类识别模型对待识别图像的特征进行提取和分类识别，而本系统中的所述特定行为识别单元用于对预处理后的图像数据进行识别，所述特定行为识别单元包括训练数据生成模块、特征提取模块、分类选择模块和识别模块，所述训练数据生成模块用于对训练数据进行预处理，所述特征提取模块基于弱监督的方式采用卷积神经网络进行图像特征提取，所述分类选择模块用于将所述特征提取模块输出的特征图进行随机失活正则化后进行分类输出，利用训练集数据库中的样本数据进行训练得到一个分类网络模型，所述识别模块用于将待识别的特定行为视频图像数据输入所述分类网络模型进行特定行为识别，并根据识别结果对特定行为进行差异化报警，所述差异化报警包括两种报警模式，所述两种报警模式分别为单一报警模式和并行报警模式，所述单一报警模式仅对识别的结果属于哪种特定行为进行报警提醒，所述并行报警模式对各对应支路上对应的类别在多标签图像中存在的概率均进行输出提醒。

如图3所示，训练数据处理过程如下：a.所述训练数据生成模块首先对训练集数据库中的训练样本图像根据公式

进行标准化处理,其中，I为图像矩阵，μ表示图像的均值，Var(I)表示图像的标准方差；b.将所有图像都缩放到相同的尺寸然后对样本图像进行多样化处理平衡过拟合问题，最后对图像进行灰度化、二值化、锐化和去离散噪声处理；c.而所述对样本图像进行多样化处理过程包括：首先对样本中的图像以

的概率进行随机反转,并对图像进行随机裁剪，从图像中裁剪一个大小为原图像

之间，长宽比在3：4到4：3之间的图像块；d.然后通过双线性插值的方法将所述图像块缩放为大小相同的图像作为随机裁剪后的图像，将随机反转和随机裁剪后的图像与未处理样本图像进行混合形成新的训练集。在得到新的训练集后，用其来进行训练可以提高训练样本的利用率，并且还能很好的提高学习网络的适应性。

网络训练阶段：将所述新的训练集中经过处理的样本图像输入所述特征提取模块，所述特征提取模块采用预训练好的ResNet卷积神经网络主干网络提取出图像特征信息，ResNet网络模型包括两部分，主模型部分和子模型部分，子模型部分实现由多个残差单元组成的一个layer，主模型将最开始的卷积池化和最后的池化全连接以及中间的多个拥有不同参数的layer组合起来，以形成 ResNet网络。本实施例中，如图4所示，采用ResNet34卷积神经网络主干网络进行图像特征提取，并将其输出的特征信息进行随机失活正则化处理后传输至所述分类选择模块，所述分类选择模块包括多路支路网络，每路网络分别用于判断某一特定行为类别是否存在于图像中；

所述ResNet34卷积神经网络主干网络包括ResNet34卷积神经网络去除全局池化层和全连接层以外的结构；

所述每路网络包括一个通道注意信息获取层，所述通道注意信息获取层中所有特征均直接共连用于完整地获取所有特征的上下文信息，所述通道注意信息获取层采用两层全连接层结构，本实施例采用的通道注意信息获取层与所述SENet网络结构中的两层全连接层结构相同，使用两个全连接层可以限制模型复杂度，增加泛化。然后将所述ResNet34卷积神经网络主干网络输出的特征输入所述通道注意信息获取层后，获取每个支路网络的通道注意信息，并将所述通道注意信息作为通道上的权重与所述ResNet34卷积神经网络主干网络输出的最后一层特征相乘，获得对应支路网络在通道注意机制下的特征图，对经过通道注意加权后的特征进行全局平均池化操作，再通过一个一层全连接层以及Sigmoid函数得到一个预测值，所述预测值为对应支路上对应的类别在多标签图像中存在的概率。所述ResNet34卷积神经网络主干网络和所述多路支路网络组成的分类网络模型采用二值交叉熵作为损失函数，对模型进行训练，所述损失函数根据公式

进行计算，

表示第i各特定行为类别的预测值，该值的取值范围为0-1，y_i表示该样本中是否含有第i个类别，如果是则该值取1否则取0，N表示数据集中所有标注的类型的数目。当得到训练好的分类网络模型后，所述识别模块将处理好的待识别图像即所述N个视频片段中的图像数据分组输入训练好的分类网络进行识别，并得到最终特定行为识别结果。本发明既保留了卷积神经网络的端到端且可进行并行化运算，还提高了网络的识别性能。且其具有易于扩展的特点，适应性高，对于新增的物体类别，该网络可以很好地延续先前的学习结果，快速地完成新物体的分类。

应当说明的是，本发明所述的实施方式仅仅是实现本发明的优选方式，对属于本发明整体构思，而仅仅是显而易见的改动，均应属于本发明的保护范围之内。

Claims

1.一种基于多层次标签的弱监督特定行为识别系统，其特征在于，包括：检测信息获取单元、信息存储单元和特定行为识别单元；

2.如权利要求1所述的基于多层次标签的弱监督特定行为识别系统，其特征在于，所述视频获取模块用于通过摄像装置获取视频数据，并将包含T个帧的未剪切视频图像数据划分成视频集合

3.如权利要求2所述的基于多层次标签的弱监督特定行为识别系统，其特征在于，生成视频集合C包括：将一个长视频分成N个等长的视频片段，即

4.如权利要求1所述的基于多层次标签的弱监督特定行为识别系统，其特征在于，所述训练数据生成模块首先对训练集数据库中的训练样本图像根据公式

5.如权利要求4所述的基于多层次标签的弱监督特定行为识别系统，其特征在于，所述对样本图像进行多样化处理包括：首先对样本中的图像以

之间，长宽比在3：4到4：3之间的图像块，然后通过双线性插值的方法将所述图像块缩放为大小相同的图像作为随机裁剪后的图像，将随机反转和随机裁剪后的图像与未处理样本图像进行混合形成新的训练集。

6.如权利要求5所述的基于多层次标签的弱监督特定行为识别系统，其特征在于，将所述新的训练集中经过处理的样本图像输入所述特征提取模块，所述特征提取模块采用预训练好的ResNet卷积神经网络主干网络提取出图像特征信息，并将输出的特征信息进行随机失活正则化处理后传输至所述分类选择模块，所述分类选择模块包括多路支路网络，每路网络分别判断某一特定行为类别是否存在于图像中；

所述每路网络包括一个通道注意信息获取层，所述通道注意信息获取层中所有特征均直接共连用于完整地获取所有特征的上下文信息，将所述ResNet卷积神经网络主干网络输出的特征输入所述通道注意信息获取层后，获取每个支路网络的通道注意信息，并将所述通道注意信息作为通道上的权重与所述ResNet卷积神经网络主干网络输出的最后一层特征相乘，获得对应支路网络在通道注意机制下的特征图，对经过通道注意加权后的特征进行全局平均池化操作，再通过一个一层全连接层以及Sigmoid函数得到一个预测值，所述预测值为对应支路上对应的类别在多标签图像中存在的概率；

所述通道注意信息获取层采用两层全连接层结构。

7.如权利要求6所述的基于多层次标签的弱监督特定行为识别系统，其特征在于，所述ResNet卷积神经网络主干网络和所述多路支路网络组成的分类网络模型采用二值交叉熵作为损失函数，对模型进行训练。

8.如权利要求7所述的基于多层次标签的弱监督特定行为识别系统，其特征在于，所述识别模块将所述N个视频片段分组输入训练好的分类网络进行识别，并根据识别结果对特定行为进行差异化报警，所述差异化报警包括两种报警模式，所述两种报警模式分别为单一报警模式和并行报警模式，所述单一报警模式仅对识别的结果属于哪种特定行为进行报警提醒，所述并行报警模式对各对应支路上对应的类别在多标签图像中存在的概率均进行输出提醒。