CN113537040A

CN113537040A - 一种基于半监督学习的时序行为检测方法及系统

Info

Publication number: CN113537040A
Application number: CN202110790271.1A
Authority: CN
Inventors: 宋砚; 王琳
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-10-22
Anticipated expiration: 2041-07-13
Also published as: CN113537040B

Abstract

本发明涉及一种基于半监督学习的时序行为检测方法及系统，该方法包括：获取视频的时空特征并构建训练集和测试集；获取一个端到端的时序行为检测模型；将训练集输入时序行为检测模型得到分类分数和位置偏移量；然后对时序行为检测模型进行学习优化得到初始模型参数；根据时空特征计算扰动噪声特征；构建学生模型和教师模型；根据初始模型参数对学生模型和教师模型进行初始化；将扰动噪声特征输入初始化学生模型，将时空特征输入初始化教师模型；根据初始化学生模型和初始化教师模型的输出结果对初始化教师模型进行优化；将测试集输入优化后的教师模型得到当前视频中包含的动作类别和动作的时间边界。本发明能够提升行为检测的准确度。

Description

一种基于半监督学习的时序行为检测方法及系统

技术领域

本发明涉及行为检测领域，特别是涉及一种基于半监督学习的时序行为检测方法及系统。

背景技术

近年来，视频数量大量增长，其中一个非常重要的主体是人类执行的活动和行为。这促使了行为识别在计算机视觉领域的广泛研究，其在视频监控、人机交互、医疗保健系统中有着广阔的应用前景。时序行为检测是由行为识别发展而来，行为识别主要针对分割好的动作视频，行为检测主要针对未分割的动作视频，它的目标就是在一段未分割的长视频中找出每一个动作的开始时间、结束时间以及识别出动作的类别。在现实应用中，真实的视频数据大都是未剪辑过的，包含多个动作或无动作的长视频，所以行为检测在各个领域中都有更实际的应用价值和研究意义。

为了实现较高的预测精度，大多数现有的最先进的动作检测算法都使用监督深度学习方法。这种方法需要大量的标记视频，在未修剪的视频中标记动作的时间边界更耗时还会因人而异。另一方面是无监督学习方法，训练不需要标签，但总体性能通常不可避免地比监督方法差。当有大量的数据可用，但只有一小部分被标记时，半监督学习是一个很好的解决方案。半监督学习仍然利用标记数据作为强大的监督，以获得较高的预测精度，同时半监督学习不太可能在小标记数据集上过拟合，因为它可以利用未标记数据。所以，基于半监督学习的时序行为检测方法就可以在数据集中只包含部分标记的视频时，利用未标记的视频，定位出动作的开始和结束以及类别，同时也可以获得较高的预测精度。

目前半监督时序行为检测的相关研究工作比较少见，可以从半监督目标检测的角度来讨论。半监督目标检测大都基于深度卷积神经网络对图像特征进行提取，然后利用监督目标检测器首先对标记数据部分进行预训练，然后构建半监督学习框架来利用未标记的数据，通常包含基于一致性和基于伪标签的方法。因为目标检测和时序行为检测这两个任务有一定的相似性，因此本发明是基于半监督学习的时序行为检测方法，通过学生和教师模型循环学习的模型来利用未标记的样本，并对样本的不平衡进行动态加权，并以此迭代训练模型。

发明内容

本发明的目的是提供一种基于半监督学习的时序行为检测方法及系统，利用本发明的方法能够提升行为检测的准确度。

为实现上述目的，本发明提供了如下方案：

一种基于半监督学习的时序行为检测方法，包括：

获取视频的时空特征；

根据所述时空特征构建训练集和测试集，所述训练集包括有标签数据和无标签数据；

获取一个端到端的时序行为检测模型；

将所述训练集输入时序行为检测模型得到分类分数和位置偏移量；

利用所述有标签数据、分类分数和位置偏移量对所述时序行为检测模型进行学习优化，得到初始模型参数；

根据所述时空特征计算扰动噪声特征；

构建学生模型和教师模型，所述学生模型和教师模型结构相同；

根据所述初始模型参数对所述学生模型和教师模型进行初始化，得到初始化学生模型和初始化教师模型；

将所述扰动噪声特征输入初始化学生模型，将所述时空特征输入初始化教师模型；

根据初始化学生模型和初始化教师模型的输出结果对所述初始化教师模型进行优化，得到优化后的教师模型；

将所述测试集输入优化后的教师模型，得到当前视频中包含的动作类别和动作的时间边界，即得到时序行为检测的结果。

可选的，所述获取视频的时空特征，具体包括：

获取视频数据；

提取所述视频的图像帧和光流；

根据Kinetics数据集预训练好的I3D模型对图像帧和光流进行提取，得到视频的时空特征。

可选的，所述时序行为检测模型包括基础特征层、金字塔结构、反向金字塔结构和卷积预测层。

可选的，所述根据时空特征计算扰动噪声特征，具体包括：

获取设定的掩蔽概率；

按照所述掩蔽概率沿时间维度t随机将一部分所述时空特征的维度置为0作为强增强，得到时间掩蔽特征；

对所述时间掩蔽特征添加高斯噪声作为弱增强，得到扰动噪声特征。

可选的，所述掩蔽概率p＝0.3。

可选的，所述高斯噪声的均值为0，方差为0.1。

可选的，所述根据初始化学生模型和初始化教师模型的输出结果对所述初始化教师模型进行优化，得到优化后的教师模型，具体包括：

将初始化教师模型的输出结果作为无标签数据的伪软标记；

根据初始化学生模型对有标签数据的输出结果计算监督损失；

根据初始化学生模型对无标签数据的输出结果和所述伪软标记计算一致性损失；

根据所述监督损失和一致性损失对所述初始化学生模型进行优化，得到优化后的学生模型；

通过指数移动平均和所述优化后的学生模型对所述初始化教师模型进行优化，得到优化后的教师模型。

可选的，所述将测试集输入优化后的教师模型，得到当前视频中包含的动作类别和动作的时间边界，即得到时序行为检测的结果，具体包括：

将测试集输入优化后的教师模型，得到多个视频片段的分类分数和位置偏移量；

删除所述多个视频片段中分类分数低于设定阈值的片段，得到第一剩余视频片段；

过滤掉所述第一剩余视频片段中冗余的视频片段，得到第二剩余视频片段；

对所述第二剩余视频片段进行整合，得到当前视频中包含的动作类别和动作的时间边界。

一种基于半监督学习的时序行为检测系统，所述系统应用于基于半监督学习的时序行为检测方法，包括：

特征获取模块，用于获取视频的时空特征；

数据构建模块，用于根据所述时空特征构建训练集和测试集，所述训练集包括有标签数据和无标签数据；

模型获取模块，用于获取一个端到端的时序行为检测模型；

第一输入模块，用于将所述训练集输入时序行为检测模型得到分类分数和位置偏移量；

第一优化模块，用于利用所述有标签数据、分类分数和位置偏移量对所述时序行为检测模型进行学习优化，得到初始模型参数；

计算模块，用于根据所述时空特征计算扰动噪声特征；

模型构建模块，用于构建学生模型和教师模型，所述学生模型和教师模型结构相同；

初始化模块，用于根据所述初始模型参数对所述学生模型和教师模型进行初始化，得到初始化学生模型和初始化教师模型；

第二输入模块，用于将所述扰动噪声特征输入初始化学生模型，将所述时空特征输入初始化教师模型；

第二优化模块，用于根据初始化学生模型和初始化教师模型的输出结果对所述初始化教师模型进行优化，得到优化后的教师模型；

时序行为检测模块，用于将所述测试集输入优化后的教师模型，得到当前视频中包含的动作类别和动作的时间边界，即得到时序行为检测的结果。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提出了一种基于半监督学习的时序行为检测方法及系统，主要有几点创新点：1)本发明根据时空特征计算扰动噪声特征时，首先对输入的特征进行数据增强，包括时间掩蔽和噪声注入，时间掩蔽属于强增强，噪声注入属于弱增强，实现了数据的扩充。2)本发明根据教师模型的预测中存在的样本不平衡的问题，对学生模型和教师模型进行优化，使得模型更加关注困难样本，提升了行为检测中定位的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基础检测器示意图；

图2是本发明实施例扰动噪声特征的计算过程示意图；

图3是本发明实施例学生模型和教师模型的工作过程示意图；

图4是本发明的整体流程图；

图5是本发明基于半监督学习的时序行为检测方法流程图；

图6是本发明基于半监督学习的时序行为检测系统模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

首先，本发明提供了一种基于半监督学习的时序行为检测方法，如图5所示，具体包括：

步骤101：获取视频的时空特征。

具体包括：先抽取视频v的图像帧和光流，使用Kinetics数据集预训练好的I3D模型对图像帧和光流提取出视频时空特征

其中T是视频帧切分成的snippet数，每16帧提取D＝2048是小片段的特征维度。

步骤102：根据所述时空特征构建训练集和测试集，所述训练集包括有标签数据和无标签数据。

步骤103：获取一个端到端的时序行为检测模型。

步骤104：将所述训练集输入时序行为检测模型得到分类分数和位置偏移量。

步骤105：利用所述有标签数据、分类分数和位置偏移量对所述时序行为检测模型进行学习优化，得到初始模型参数。

步骤103-步骤105具体包括：选择一个端到端的时序行为检测模型作为预训练模块的基础检测器，该基础检测器包含4个子模块：基础特征层、金字塔结构、反向金字塔结构、卷积预测层，模块均由1维卷积构成，见图1。

将视频片段的时空特征

输入到基础特征层提取丰富的特征层次，然后利用特征金字塔结构将语义信息添加到浅层特征映射中，其次通过反向金字塔结构将位置信息添加到深层特征图中，最后在多个层次上通过卷积预测器利用时间核为3的一维卷积来预测分类分数

和位置偏移量L＝{l_i}∈R^N×2。然后利用监督标签信息也就是有标签数据对模型进行学习和优化，得到预训练的模型参数。

优化过程包含分类和定位损失，具体公式如下：

其中，C是训练集中类别总数，N代表监督部分基于锚预测的边界框个数，

代表第i个锚是否与c类的第j个gt相匹配(即锚是否负责检测此gt)，为1代表正样本(Pos)，为0代表负样本(Neg)，gt代表标注真值。

步骤106：根据所述时空特征计算扰动噪声特征。

该步骤主要是对特征进行扰动来获得增强后的数据，见图2。

首先，将原始片段的视频特征

按照一定的掩蔽概率p＝0.3，沿时间维度t随机将一部分的特征维度置为0，作为强增强，得到时间掩蔽特征

然后对得到的特征

添加均值为0，方差为0.1的高斯噪声作为弱增强，得到最终的扰动噪声特征

步骤107：构建学生模型和教师模型，所述学生模型和教师模型结构相同。

具体的，学生模型和教师模型组成了教师和学生循环学习模块，见图3。

步骤108：根据所述初始模型参数对所述学生模型和教师模型进行初始化，得到初始化学生模型和初始化教师模型。

步骤109：将所述扰动噪声特征输入初始化学生模型，将所述时空特征输入初始化教师模型。

步骤110：根据初始化学生模型和初始化教师模型的输出结果对所述初始化教师模型进行优化，得到优化后的教师模型。

步骤107-步骤110具体包括：(1)构建两个相同结构的模型，一个为学生模型Student，一个为教师模型Teacher，根据步骤105得到的预训练的模型参数进行初始化。其中学生模型参与梯度下降进行优化，教师模型的参数不参与梯度下降。

(2)学生模型输入扰动噪声特征

教师模型输入原始特征x，将教师模型预测输出的分类分数和定位偏移作为未标记视频的伪软标记，将学生模型对有标签视频数据的预测输出结果与标注ground truth按照公式(2)和(3)计算监督损失，将学生模型无标签视频数据的预测结果与教师模型预测的伪软标签按照公式(5)(6)计算一致性损失，其中包含对分类和定位分别计算一致性损失，具体公式如下：

其中，p^S，p^T分别为学生模型和教师模型的分类预测输出，l^S，l^T为定位的相对偏移输出。

(3)参数指数移动平均：为了使得教师模型的预测更加的平滑稳定，以提供更好的伪标签来规范学生模型的训练，其参数通过权重θ^T通过指数移动平均(EMA)，聚合历史的教师模型权重和当前迭代下的学生模型权重来实现：

其中，

为t迭代下学生模型的参数，

为t-1时教师模型的参数，

为t时教师模型的参数，α＝0.999为一个动量参数。通过公式(8)教师模型可以逐渐从学生模型中学习来增强自己。

上述过程通过减小学生模型和教师模型在未标记视频片段上的预测来利用未标记的视频数据提升模型的学习性能，增强泛化能力，同时对样本进行动态加权来解决样本不平衡的问题。然后通过学生模型的指数移动平均来更新教师模型的参数，使得教师模型继续为学生模型的学习提供指导。

上述步骤101-步骤110主要为模型训练过程，见图4，包括两部分：

第一阶段把标注的视频作为监督信息，根据预训练模块中的分类损失和定位损失，对时序行为检测器进行学习更新得到初始化的模型参数。总的损失如下：

第二阶段构建教师模型网络和学生模型网络，然后利用第一阶段学习的参数进行初始化，利用学生和教师模型的预测结果计算监督损失和一致性损失联合训练学生模型，L＝L^sup+λ_uL^cons，λ_u为一致性损失的权重。

步骤111：将所述测试集输入优化后的教师模型，得到当前视频中包含的动作类别和动作的时间边界，即得到时序行为检测的结果。

具体为：将测试集的视频的特征输入到训练好的教师时序动作检测器模型中，得到片段中检测的分类和定位结果，然后将一个视频包含的片段结果进行整合和后处理过滤掉分类分数低于阈值threshold且利用nms过滤掉冗余的结果，最终得到当前视频中包含的动作类别和动作的时间边界。

基于上述方法，本发明还公开了一种基于半监督学习的时序行为检测系统，如图6所示，包括：

特征获取模块201，用于获取视频的时空特征；

数据构建模块202，用于根据所述时空特征构建训练集和测试集，所述训练集包括有标签数据和无标签数据；

模型获取模块203，用于获取一个端到端的时序行为检测模型；

第一输入模块204，用于将所述训练集输入时序行为检测模型得到分类分数和位置偏移量；

第一优化模块205，用于利用所述有标签数据、分类分数和位置偏移量对所述时序行为检测模型进行学习优化，得到初始模型参数；

计算模块206，用于根据所述时空特征计算扰动噪声特征；

模型构建模块207，用于构建学生模型和教师模型，所述学生模型和教师模型结构相同；

初始化模块208，用于根据所述初始模型参数对所述学生模型和教师模型进行初始化，得到初始化学生模型和初始化教师模型；

第二输入模块209，用于将所述扰动噪声特征输入初始化学生模型，将所述时空特征输入初始化教师模型；

第二优化模块210，用于根据初始化学生模型和初始化教师模型的输出结果对所述初始化教师模型进行优化，得到优化后的教师模型；

时序行为检测模块211，用于将所述测试集输入优化后的教师模型，得到当前视频中包含的动作类别和动作的时间边界，即得到时序行为检测的结果。

本发明还公开了如下技术效果：

本发明提出了一种基于半监督学习的时序行为检测方法和系统，本发明的方法主要有几点创新点：

1)本发明构建了一个循环-学习的系统，包含两个模块：特征扰动模块和教师学生循环学习模块。具体地，特征扰动模块首先对输入的特征进行数据增强，包括时间掩蔽和噪声注入，时间掩蔽属于强增强，噪声注入属于弱增强，通过特征扰动模块可以实现数据的扩充。将扰动噪声输入到学生模型中，将原始特征输入到教师模型中，以教师模型的输出作为一种伪软标签指导学生模型进行学习，然后学生模型学习的参数进行指数移动平均更新教师模型，以此循环学习。

2)本发明根据教师模型的预测中存在的样本不平衡的问题，对学生模型和教师模型的交叉熵和定位回归进行动态加权，使得模型更加关注困难样本，提升了定位的准确度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于半监督学习的时序行为检测方法，其特征在于，包括：

获取视频的时空特征；

获取一个端到端的时序行为检测模型；

根据所述时空特征计算扰动噪声特征；

2.根据权利要求1所述的基于半监督学习的时序行为检测方法，其特征在于，所述获取视频的时空特征，具体包括：

获取视频数据；

提取所述视频的图像帧和光流；

3.根据权利要求1所述的基于半监督学习的时序行为检测方法，其特征在于，所述时序行为检测模型包括基础特征层、金字塔结构、反向金字塔结构和卷积预测层。

4.根据权利要求1所述的基于半监督学习的时序行为检测方法，其特征在于，所述根据时空特征计算扰动噪声特征，具体包括：

获取设定的掩蔽概率；

5.根据权利要求4所述的基于半监督学习的时序行为检测方法，其特征在于，所述掩蔽概率p＝0.3。

6.根据权利要求4所述的基于半监督学习的时序行为检测方法，其特征在于，所述高斯噪声的均值为0，方差为0.1。

7.根据权利要求1所述的基于半监督学习的时序行为检测方法，其特征在于，所述根据初始化学生模型和初始化教师模型的输出结果对所述初始化教师模型进行优化，得到优化后的教师模型，具体包括：

将初始化教师模型的输出结果作为无标签数据的伪软标记；

8.根据权利要求1所述的基于半监督学习的时序行为检测方法，其特征在于，所述将测试集输入优化后的教师模型，得到当前视频中包含的动作类别和动作的时间边界，即得到时序行为检测的结果，具体包括：

9.一种基于半监督学习的时序行为检测系统，所述系统应用于权利要求1-8任一项所述的基于半监督学习的时序行为检测方法，其特征在于，包括：

特征获取模块，用于获取视频的时空特征；

模型获取模块，用于获取一个端到端的时序行为检测模型；

计算模块，用于根据所述时空特征计算扰动噪声特征；