CN111680643A

CN111680643A - 基于弱监督互补学习的人体行为检测方法

Info

Publication number: CN111680643A
Application number: CN202010529393.0A
Authority: CN
Inventors: 韩雪平; 王春芳; 鲁守玮; 王威; 时倩如; 胡兆麟; 杨本环; 姬玉侠; 汤璟颖; 姜梦园; 度冉; 孙冬阳
Original assignee: Henan Polytechnic Institute
Current assignee: Henan Polytechnic Institute
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-18
Anticipated expiration: 2040-06-11
Also published as: CN111680643B

Abstract

本发明属于视频人体行为检测方法技术领域，具体是一种基于弱监督互补学习的人体行为检测方法，包括建立基于卷积神经网络构的弱监督网络模型、提取带有嵌入特性的特征表示及显著加权特征、根据特征表示及显著加权特征获取初始的预测结果、利用互补消除模型获取消除后的预测结果、将消除后的预测结果与未通过消除的初始的预测结果进行融合，获取最终预测结果。本发明通过对时域激活映射模型进行改进，并采用互补消除模块对数据进行修正，提升弱监督学习检测方法中的准确性。

Description

基于弱监督互补学习的人体行为检测方法

技术领域

本发明属于视频人体行为检测方法技术领域，具体是一种基于弱监督互补学习的人体行为检测方法。

背景技术

视频人体行为检测方法需要完成两个任务：行为起始时间的预测和行为识别。目前的检测方法多集中采用有监督学习的方法完成视频人体行为检测任务，在有监督学习领域中，视频中包含的标签信息分为帧级标注和视频级标注，而行为检测需要的行为起始时间和动作识别分别属于帧级标注和视频级标注。随着视频数据的不断增多，有监督学习的方法中对视频的标注工作变得越来越困难，为后续视频行为检测带来更大的挑战。

弱监督学习方法在计算机视觉领域逐渐受到重视，涌现了一些基于弱监督学习的图像视频分析方法，这为弱监督学习方法在视频行为检测领域的实现提供了更多可能。

基于弱监督学习的视频检测任务的输入为一段不定长度的视频，且该视频的真值不像有监督任务那样，既包含视频中的所有动作类别又包含每个动作对应的开始时间和结束时间，而是假设数据集中仅仅包含视频中发生的所有动作的类别。由此，基于弱监督学习的视频检测任务根据输入的视频和该视频中包含的所有动作的类别训练弱监督动作定位模型，使得在预测时，尽可能准确的识别出视频中对应的动作类别，以及每个动作类别对应的开始时间和结束时间。

意味着，弱监督检测方法在可处理的数据量具有较大优势，但是其准确性缺无法达到有监督学习的检测方法，所以如何提升弱监督学习检测方法中的准确性是本领域人员当前的重点研究方向。

发明内容

有鉴于此，本发明的目的是针对现有技术的不足，提供一种基于弱监督互补学习的人体行为检测方法，本发明通过对时域激活映射模型进行改进，并采用互补消除模块对数据进行修正，提升弱监督学习检测方法中的准确性。

为达到上述目的，本发明采用以下技术方案：

基于弱监督互补学习的人体行为检测方法，包括以下步骤：

S1：建立基于卷积神经网络构的弱监督网络模型；

弱监督网络模型中包括具有嵌入特性的时域激活映射模型和互补消除模型；时域激活映射模型包括时域激活映射层和位于时域激活映射层之后的卷积层C₁，时域激活映射模型实现在线的时域激活映射完成对动作发生的起始时间的捕获；

S2：提取带有嵌入特性的特征表示及显著加权特征；

提取待检测视频的原始特征，将原始特征输入时域激活映射模型，输出带有嵌入特性的特征表示，提取特征表示的显著加权特征；

S3：根据特征表示及显著加权特征获取初始的预测结果；

将步骤S2所得显著加权特征输入分类器并获取初始的预测结果；预测结果包括行为类别和起止时间；

S4：利用互补消除模型获取消除后的预测结果；具体为：

S4.1：采用互补消除模型对步骤S2所得显著加权特征进行互补消除，提取消除后的嵌入特征；

S4.2：将步骤S4.1所得嵌入特征输入时域激活模型及互补分类器，获取消除后的预测结果；

S5：将消除后的预测结果与未通过消除的初始的预测结果进行融合，获取最终预测结果。

进一步地，步骤S1所述卷积神经网络的卷积层卷积核大小为1×1，卷积神经网络的激活函数为Relu激活函数，Relu激活函数如下：

进一步地，步骤S1中卷积层C₁的激活函数为：

其中，z_i表示卷积层C₁的ReLU函数，f₂₅₆和f₁分别表示全连接层输入维度为256和1的特征。

进一步地，步骤S2中提取待检测视频原始特征具体过程如下：

S2.1采用基于Kinetics数据集预训练建立的I3D网络模型；

S2.2采用I3D网络模型提取待检测视频V的原始特征F_i；所述原始特征F_i包括外观RGB 特征和光流特征。

进一步地，步骤S2特征表示的显著加权特征获取过程为：

利用sigmoid函数计算视频V中第i个视频的第j个输入片段的原始特征F_i,j的权重s_i，计算公式如下：

根据所得原始特征F_i,j和权重s_i获取显著加权特征，计算公式如下：

公式(5)中，

表示F_i,j的显著加权特征；利用F^att表示整个加权后的特征。

进一步地，在卷积神经网络Relu层的后面增加一个卷积层C₂以提取F^att的卷积特征，卷积核大小为1×1，channel数为类别数N，然后，提取第i个视频的双流特征码F^l，F^l∈R^l×N，其中l为第i个视频的帧数除以16得到的输入片段数，并对F^l对应的每个输入片段求和得到 Ff。

进一步地，步骤S4.1具体过程如下：

通过原始分类器S_cla和互补分类器E_cla对输入的显著加权特征进行互补消除，当对应类别的时域激活映射区域R高于阈值α时，认为该区域对分类结果的贡献较高，利用消除原理，将具有嵌入特性的特征表示F'对应区域擦除，得到消除后的嵌入特征。

进一步地，所述步骤2中卷积神经网络训练过程的损失函数f_loss的计算模型为：

f_loss＝f_lossattS+f_lossS+f_lossattE+f_lossE (6)

其中，f_lossattS表示分类器S_cla的视觉注意力模块的损失，f_lossS表示原始分类器S_cla自身的分类损失；f_lossattE表示互补分类器E_cla视觉注意力模块的损失，f_lossE表示互补分类器 E_cla自身的分类损失，视觉注意力模块的损失使用L1正则。

进一步地，每个步骤S4中行为类别采用交叉熵损失函数，并将所有类别的平均损失作为最终的分类损失L：

其中，N表示分类数，y_i为类别i的真值，其值为0或者1，y'_i表示通过模型预测出的结果。

本发明的有益效果是：

1.通过时域激活映射模型对提取的特征进行分析，获取时序特性的加权特征，但该特征缺乏视频时序的细节特征，用提出的互补消除模型，对已提取的加权特征进行互补，最终在分类器和回归器的作用下，得到更加准确的预测结果。

2.本发明提出的方法与现有技术中有监督学习方法相比具有基本相同的性能，而且对比已有的弱监督方法具有更准确的识别效果。

附图说明

图1为本发明各个模块在基础网络的对比结果；

图2为本发明投掷铅球的预测结果与真值的对比结果；

图3为本发明举重的预测结果与真值的对比结果。

具体实施方式

下面结合附图和实施例对本发明作进一步描述。

基于弱监督互补学习的人体行为检测方法，包括以下步骤：

S1：建立基于卷积神经网络构的弱监督网络模型。

步骤S1所述卷积神经网络的卷积层卷积核大小为1×1，卷积神经网络的激活函数为Relu 激活函数，Relu激活函数如下：

步骤S1中卷积层C₁的激活函数为：

S2：提取带有嵌入特性的特征表示及显著加权特征。

具体为：提取待检测视频的原始特征，将原始特征输入时域激活映射模型，输出带有嵌入特性的特征表示，提取特征表示的显著加权特征。

提取待检测视频原始特征的过程如下：

S2.1采用基于Kinetics数据集预训练建立的I3D网络模型；

特征表示提取过为：

S201选取一段视频V作为待检测视频，在时域激活映射模型中设置视频V的嵌入特征层；

S202将视频V的原始特征F_i作为输入，通过三次卷积-Relu操作计算得到

S203将

与F_i求和，得到具有嵌入特性的特征表示F_i'；

公式(3)表示卷积-ReLU操作中的ReLU，卷积操作使用1×1的卷积核。

本发明通过在时域激活映射层之后增加卷积层，实现在线的时域激活映射完成对动作发生的时间起始时间的捕获，首先，使用视觉注意力模块学习输入特征的权重。然后，通过输入特征与权重的乘积得到新的特征表示。具体过程为：

公式(5)中，

表示F_i,j的显著加权特征，F^att表示整个加权后的特征。

S3：根据特征表示及显著加权特征获取初始的预测结果。

S4：利用互补消除模型获取消除后的预测结果。具体为：

S4.1：采用互补消除模型对步骤S2所得显著加权特征进行互补消除，提取消除后的嵌入特征，具体过程如下：

S4.2：将步骤S4.1所得嵌入特征输入时域激活模型及互补分类器，获取消除后的预测结果。

卷积神经网络训练过程的损失函数f_loss的计算模型为：

f_loss＝f_lossattS+f_lossS+f_lossattE+f_lossE (6)

本发明中分类任务属于多分类，对于每个类别本发明采用交叉熵损失函数，并将所有类别的平均损失作为最终的分类损失L：

其中，N表示分类数，y_i为类别i的真值，其值为0或者1，y_i'表示通过模型预测出的结果。

下面结合具体实验数据对本发明效果进行验证。

本发明在数据集THUMOS’14上进行验证，并与目前现有的行为检测方法进行了对比，需指出的是：其中包含的视频数据都是不定长的，并含有大量的背景信息，而行为片段仅仅是其中的一小部分，另外，由于本发明采用基于弱监督学习的方法，数据集中所包含的视频行为起止信息的时序标注均被隐藏。数据集THUMOS’14包含101个分类，对于动作定位任务，共有20个类别的标注。其中，验证集中有200个视频数据包含时序动作标注；测试集中有 213个视频数据包含时序动作标注。THUMOS’14数据集的数据量虽然比较小，但是它大多数视频中都包含多个动作片段，因此动作定位的难度很大。另一方面，数据集中的视频长度也变化很大，最短的只有几秒，最长的一个多小时，这也加大了动作定位的难度。

在训练过程中，使用在Kinetics数据集上预训练的I3D网络提取互补模块所使用的特征。对于一个视频，通过特征提取模块，可以分别得到RGB流输出的特征和opticalflow流输出的特征

和

其中，学习率初始设置为1e-4，weight_decay设置为5e-4。测试时，将 sigmoid激活后的超过0.1的类别作为预测类别，然后使用这些预测类别对应的时域激活映射值中超过0.53的位置进行消除。本实施例分别验证了各个模块的有效性，最后给出模型在两个数据集上的结果。

为了评价各个模块对改进后方法的影响，本发明对模型中的各个模块进行了评测，如图 1所示，其中，SPTN表示使用1×1卷积替换掉STPN(Sparse Temporal PoolingNetwork) 方法中的全连接层后的方法，作为本发明对比使用的基准网络，FE表示特征嵌入模块的特征， OE表示互补消除模块。可以看出，STPN与SPTN两种方法的定位预测结果基本一致。本发明提出的改进的时域激活映射模型可以学习到更有益于动作定位的特征。同时，通过互补消除模块，可使互补的分类层在不基于明显分类特征的情况下，产生互补特征，从而大幅提升模型的定位性能。

参见表1，本实施例同时对比了全监督的方法和弱监督的方法的性能。本发明的方法与一些全监督的动作定位方法相比也有比较接近的性能。

表1.在数据集THUMOS’14上的测试结果

在表1中，本发明列出了在THUMOS’14数据集的测试集上，本发明提出的方法和现有的动作定位方法的对比结果。从表1中可以看出，本发明提出的弱监督动作定位方法达到了较优的定位性能。相比于基准网络STPN在IoU值0.1:0.5的平均mAP下提升了5个百分点。同时，在低IoU阈值下，本发明提出的方法甚至能够与一些全监督的动作定位方法几乎相同。

在THUMOS’14数据集上，本发明将预测结果与真值(ground-truth)的对比结果进行了可视化，如图2和图3所示。数据集THUMOS’14中的视频通常很长，每个预测视频可能会有多个不同类别的动作片段，如图2和3所示，其中图2中包含的动作持续时间较短，并且其中的多个相同类别的片段发生在不同的背景下，图3中包含的动作持续时间较长。在此基础上，本发明提出的模型仍然能够精确的预测出动作片段的边界以及对应的类别。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于弱监督互补学习的人体行为检测方法，其特征在于，包括以下步骤：

S1：建立基于卷积神经网络构的弱监督网络模型；

S2：提取带有嵌入特性的特征表示及显著加权特征；

S3：根据特征表示及显著加权特征获取初始的预测结果；

S4：利用互补消除模型获取消除后的预测结果；具体为：

2.根据权利要求1所述的基于弱监督互补学习的人体行为检测方法，其特征在于，步骤S1所述卷积神经网络的卷积层卷积核大小为1×1，卷积神经网络的激活函数为Relu激活函数，Relu激活函数如下：

3.根据权利要求2所述的基于弱监督互补学习的人体行为检测方法，其特征在于，步骤S1中卷积层C₁的激活函数为：

4.根据权利要求1所述的基于弱监督互补学习的人体行为检测方法，其特征在于，步骤S2中提取待检测视频原始特征具体过程如下：

S2.1采用基于Kinetics数据集预训练建立的I3D网络模型；

S2.2采用I3D网络模型提取待检测视频V的原始特征F_i；所述原始特征F_i包括外观RGB特征和光流特征。

5.根据权利要求4所述的基于弱监督互补学习的人体行为检测方法，其特征在于，步骤S2特征表示的显著加权特征获取过程为：

公式(5)中，

表示F_i,j的显著加权特征；利用F^att表示整个加权后的特征。

6.根据权利要求1所述的基于弱监督互补学习的人体行为检测方法，其特征在于，在卷积神经网络Relu层的后面增加一个卷积层C₂以提取F^att的卷积特征，卷积核大小为1×1，channel数为类别数N，然后，提取第i个视频的双流特征码F^l，F^l∈R^l×N，其中l为第i个视频的帧数除以16得到的输入片段数，并对F^l对应的每个输入片段求和得到Ff。

7.根据权利要求1所述的基于弱监督互补学习的人体行为检测方法，其特征在于，步骤S4.1具体过程如下：