CN116189058B

CN116189058B - 基于无监督深度学习的视频显著性目标检测方法及系统

Info

Publication number: CN116189058B
Application number: CN202310197056.XA
Authority: CN
Inventors: 黄小明
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-10-03
Anticipated expiration: 2043-03-03
Also published as: CN116189058A

Abstract

本发明公开了一种基于无监督深度学习的视频显著性目标检测方法及系统，涉及目标检测技术领域，包括：基于运动完整性和运动可靠性，选择视频帧的最有效运动，生成视频帧的伪标注；基于视频帧的伪标注得分和视频的伪标注得分，挑选高质量的视频帧的伪标注；采用训练数据增强的策略对静止或运动不完整的目标进行处理，获得增强后的数据，构建训练数据集；将训练数据集作为深度神经网络模型的输入进行模型训练，直至损失函数收敛，获取视频显著性目标检测模型并利用该模型获得视频中的显著性目标。本发明无需大量人工标注好的数据，又能发挥神经网络强大的特征学习能力，训练出来的模型能检测明显运动的目标，也能检测静止或运动不明显的目标。

Description

基于无监督深度学习的视频显著性目标检测方法及系统

技术领域

本发明涉及目标检测技术领域，更具体的说是涉及一种基于无监督深度学习的视频显著性目标检测方法及系统。

背景技术

视频中显著性目标检测，就是检测视频中最受人关注的目标，广泛应用于视频内容理解或场景分析任务中，具有广阔的应用价值。

现有视频显著性目标检测方法，主要分为有监督和无监督学习两种方法。有监督学习主要通过深度学习训练模型，但是需要大量人工标注好的数据；无监督学习主要通过传统的方法设计特征和算法，虽然不需要大量数据标注，但是检测性能远远不如基于深度学习的有监督方法。

因此，如何提出一种既不需要大量人工标注好的数据、又能发挥神经网络强大的特征学习能力的无监督深度学习的方法是本领域技术人员亟需解决的技术问题。

发明内容

有鉴于此，本发明提供了一种基于无监督深度学习的视频显著性目标检测方法及系统，不需要任何人工标注就能运用深度学习实现视频中显著性目标检测，检测精度高，可以检测明显运动的目标以及静止或运动不明显的目标。

为了实现上述目的，本发明提供如下技术方案：

一种基于无监督深度学习的视频显著性目标检测方法，包括以下步骤：

基于运动完整性和运动可靠性，选择视频帧的最有效运动；

基于视频帧的最有效运动，生成视频帧的伪标注；

基于视频帧的伪标注得分和视频的伪标注得分，挑选高质量的视频帧的伪标注；

基于视频帧的伪标注，采用训练数据增强的策略对静止或者运动不完整的目标进行处理，获得增强后的数据，并构建训练数据集；

将训练数据集作为深度神经网络模型的输入进行模型训练，直至损失函数收敛时，获取视频显著性目标检测模型；

利用视频显著性目标检测模型进行目标检测，获得视频中的显著性目标。

上述技术方案达到的技术效果为：提出一种无监督深度学习的方法，不需要大量人工标注好的数据，又能发挥神经网络强大的特征学习能力。

可选的，选择视频帧的最有效运动，具体包括以下步骤：

给定视频帧序列{I^t,t＝1...N}，通过包括LDOF、FlowNet在内的方法计算前向运动F^t-＞t+s和后向运动F^t+s-＞t；

基于前向运动F^t-＞t+s，采用无监督方法MBD检测得到显著性目标S^t-＞t+s，将显著性目标S^t-＞t+s的面积作为运动完整性得分C^t-＞t+s；

对于当前帧每个像素p，通过前向运动F^t-＞t+s计算像素p对应于邻近帧I^t+s的像素q；通过反向运动F^t+s-＞t计算像素q对应于当前帧I^t的像素p'；根据像素p和p'之间的邻近度，计算像素p运动估计的可靠性，并将所有像素的运动估计可靠性平均值记为R^t-＞t+s；

通过运动完整性得分C^t-＞t+s和运动可靠性得分R^t-＞t+s的乘积，得到运动F^t-＞t+s的有效性得分E^t-＞t+s；

改变参数s，计算当前帧和不同的邻近帧之间运动的有效性得分，并将有效性得分最高的运动记为当前帧I^t的最有效运动。

上述技术方案达到的技术效果为：提出一种最有效运动的选择机制，综合考虑运动的完整性和可靠性两个因素，有助于完整可靠的检测到目标。

可选的，生成视频帧的伪标注，具体包括以下步骤：

对于视频中每一帧图像I^t，基于选择的视频帧的最有效运动，采用无监督方法MBD和CTR得到两个显著图，两个显著图的显著值均归一化到[0,1]范围内；

基于两个显著图，生成视频帧的伪标注L^t；其中，对于每个像素i，若两个显著图的结果均大于0.5，则视频帧的伪标注为1；若两个显著图的结果均小于0.5，则视频帧的伪标注为0；其他情况表示两个显著图的结果不一致，则视频帧的伪标注为0.5。

可选的，挑选高质量的视频帧的伪标注，具体包括以下步骤：

对于一帧图像伪标注L^t，根据视频帧的伪标注结果中1和0的占比，计算视频帧的伪标注得分；

对视频帧序列{I^t,t＝1...N}中每一帧图像伪标注得分求平均值，得到视频的伪标注得分；

对于一帧图像伪标注L^t，根据视频帧的伪标注得分和所在视频的伪标注得分的乘积，得到最终得分，将最终得分大于预设阈值的伪标注视为高质量的视频帧的伪标注，否则丢弃。

上述技术方案达到的技术效果为：提出一种高质量伪标注生成方法，通过两种方法结果的融合及打分策略，生成高质量的伪标注用于监督深度学习模型训练，可提高显著性目标检测的精度。

可选的，获得增强后的数据，具体包括以下步骤：

对视频中的每一帧图像I^t，通过包括LDOF、FlowNet在内的方法得到当前帧与下一帧之间的运动图像N^t；

基于预设比例随机修改运动图像N^t，将运动图像N^t中某些目标的运动改为和背景一样或将运动图像N^t中目标的某一部分运动改为和背景一样，得到增强后的数据。

上述技术方案达到的技术效果为：针对静止或不完整运动目标的训练数据增强方法，使得训练出来的模型不仅能检测明显运动的目标，也能检测静止或者运动不明显的目标。

可选的，获取视频显著性目标检测模型，具体为：

将图像帧I^t、高质量的视频帧伪标注L^t、与下一帧之间的运动图像N^t作为深度神经网络模型的输入数据，在模型训练过程中，计算每个像素的损失函数，其中，视频帧伪标注为0.5的像素不参与损失函数计算。

本发明还公开了一种基于无监督深度学习的视频显著性目标检测系统，包括：选择模块、生成模块、挑选模块、增强模块、训练模块、检测模块，且各结构依次相连；

选择模块，基于运动完整性和运动可靠性，选择视频帧的最有效运动；

生成模块，基于视频帧的最有效运动，生成视频帧的伪标注；

挑选模块，基于视频帧的伪标注得分和视频的伪标注得分，挑选高质量的视频帧的伪标注；

增强模块，基于视频帧的伪标注，采用训练数据增强的策略对静止或者运动不完整的目标进行处理，获得增强后的数据，并构建训练数据集；

训练模块，用于将训练数据集作为深度神经网络模型的输入进行模型训练，直至损失函数收敛时，获取视频显著性目标检测模型；

检测模块，用于通过视频显著性目标检测模型进行目标检测，获得视频中的显著性目标。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于无监督深度学习的视频显著性目标检测方法及系统，具有以下有益效果：

(1)本发明不需要任何人工标注，就能够运用深度学习实现视频中的显著性目标检测，并且能够推广到任何应用场景，节省大量的人力物力；

(2)本发明通过最有效运动选择机制和高质量伪真值生成方法，得到可靠的伪真值用于监督模型的训练，可提高视频中显著性目标检测精度；

(3)本发明针对静止或者不完整运动目标的训练数据增强，使模型学习了在没有运动或者运动不完整时也能检测出其中的目标，增强了模型的泛化能力，因此训练出来的模型不仅能检测明显运动的目标，也能很好地检测静止或者运动不明显的目标。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的基于无监督深度学习的视频显著性目标检测方法的流程图；

图2为本发明提供的最有效运动选择的流程图；

图3为本发明提供的最有效运动选择的示例图；

图4为本发明提供的伪标注生成和高质量伪标注挑选结果的示例图，其中，图4(a)为一帧图像、图4(b)为选择的最有效运动、图4(c)为显著图MBD、图4(d)为显著图CTR、图4(e)为伪标注图；

图5为本发明提供的训练数据增强的示例图，其中，图5(a)为一帧图像、图5(b)为运动图像、图5(c)为伪标注图；

图6为本发明提供的基于无监督深度学习的视频显著性目标检测系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本方法作为一种无监督深度学习的方法，不需要使用大量人工标注好的数据，因此需要设计方法自动生成一个高质量标注，即伪标注，用于指导神经网络学习模型，方法的总体流程如图1所示，包括以下步骤：

基于运动完整性和运动可靠性，选择视频帧的最有效运动；

基于视频帧的最有效运动，生成视频帧的伪标注；

接下来，对图1所示的基于无监督深度学习的视频显著性目标检测方法的具体流程进行详细阐述。

1、选择视频帧的最有效运动

运动信息被广泛应用于视频显著目标检测中，现有工作大多只考虑相邻两帧之间的运动，但是相邻两帧之间的运动不一定是最有效的，很难检测到完整目标。本方法对每个视频帧选择最有效的运动，具体流程如图2所示。

给定视频帧序列{I^t,t＝1...N}，当前帧I^t和邻近帧I^t+s之间的运动可以通过现有工作LDOF(大位移光流)、FlowNet等计算，包括前向运动F^t-＞t+s和后向运动F^t+s-＞t。过小的运动导致检测的目标不完整，过大的运动导致检测的目标不可靠，若要选择最有效的运动，需要考虑以下两个因素：

(1)运动完整性：本方法基于运动信息寻找显著目标。如果仅有目标的局部运动，就只能检测到目标的一部分区域；如果目标的整体都在运动，就能检测到完整的目标。运动的完整性，就是要判断目标是否整体都在运动，具体地：基于前向运动F^t-＞t+s，采用无监督方法MBD检测得到显著性目标S^t-＞t+s，将显著性目标S^t-＞t+s的面积作为运动完整性得分C^t-＞t+s；运动越完整，检测到的目标面积越大。

(2)运动可靠性：运动估计结果本身的可靠性。根据前向运动F^t-＞t+s和后向运动F^t ^+s-＞t的一致性来计算，具体地：对于当前帧每个像素p，通过前向运动F^t-＞t+s计算像素p对应于邻近帧I^t+s的像素q；同时通过反向运动F^t+s-＞t计算像素q对应于当前帧I^t的像素p'；根据像素p和p'之间的邻近度，计算像素p运动估计的可靠性，并将所有像素的运动估计可靠性平均值记为R^t-＞t+s。

通过运动完整性得分C^t-＞t+s和运动可靠性得分R^t-＞t+s的乘积，得到运动F^t-＞t+s的有效性得分E^t-＞t+s；改变参数s(一般取值-6～6，即前后6帧)，计算当前帧和不同的邻近帧之间运动的有效性得分，并将有效性得分最高的运动记为当前帧I^t的最有效运动。

图3为最有效运动选择的一个具体示例，当前帧和邻近帧之间的运动，刚开始的时候(比如F^0-＞2)运动不明显，显著目标也检测不完整；随着时间的推移，运动区域逐渐增加(比如F^0-＞6)，显著目标检测结果也趋于完整；但是随着时间继续推移，由于形变或位移过大，会导致运动估计失败(比如F^0-＞10)。最终，F^0-＞6被选为最有效运动，如图3中红色虚线方框所示。

2、生成视频帧的伪标注

图4展示了视频伪标注生成的例子，其中：图4(a)、图4(b)分别表示一帧图像及选择的最有效运动，图4(c)和图4(d)表示两个监督方法MBD和CTR的显著图，基于这两个显著图结果的一致性生成的伪标注如图4(e)所示，伪标注图中白色、灰色、黑色分别表示1、0.5、0。

3、挑选高质量的视频帧的伪标注

由于得到的伪标注中存在标注错误的情况，需要从中挑选高质量的伪标注，主要考虑两个因素：

(1)视频帧的伪标注得分：对于一帧图像伪标注L^t，根据视频帧的伪标注结果中1和0的占比，计算视频帧的伪标注得分；

(2)视频的伪标注得分：对视频帧序列{I^t,t＝1...N}中每一帧图像伪标注得分求平均值，得到视频的伪标注得分；

对于一帧图像伪标注L^t，根据视频帧的伪标注得分和所在视频的伪标注得分的乘积，得到最终得分，将最终得分大于预设阈值的伪标注视为高质量的视频帧的伪标注，否则丢弃。图4(e)的伪标注图中，第一行伪标注得分较高被视为高质量伪标注，用于后续的模型训练；第二行伪标注得分较低，直接被丢弃。

4、针对静止或者不完整运动目标的训练数据增强

前述基于最有效运动的伪标注生成，比较适合对于运动明显的显著目标检测，但是视频中，也存在一些静止或者运动不完整的目标，为了让模型也能检测到静止或者运动不完整的目标，采用训练数据增强的策略，具体为：

对视频中的每一帧图像I^t，通过前述方法得到伪标注L^t，通过LDOF、FlowNet等方法得到当前帧与下一帧之间的运动图像N^t；基于预设比例随机修改运动图像N^t，将运动图像N^t中某些目标的运动改为和背景一样或将运动图像N^t中目标的某一部分运动改为和背景一样，得到增强后的数据。

图5展示了训练数据增强的例子，其中：图5(a)为一帧图像、图5(b)为运动图像、图5(c)为伪标注图。第一行是训练数据，其运动图像中有两个明显的目标区域(拖拉机和行人)；第二三行是增强后的数据，第二行运动图像中拖拉机没有了明显的运动，第三行中拖拉机和行人都只有不完整的运动。这么数据增强的目的，就是要让模型不是仅仅依赖于运动信息，使模型能在没有运动或者运动不完整时也能检测出其中的目标，增强模型的泛化能力。

5、训练视频显著性目标检测模型

在高质量伪标注的监督下，训练出一个深度神经网络模型，具体为：

很多现有的全监督视频显著目标检测的网络模型可以直接使用，仅仅需要做两处改动：将全监督模型中需要用到的像素级人工标注用本方法中生成的高质量伪标注替代；本方法的高质量伪标注中，除了有标注1和0的，还有标注为0.5的，表示该像素标注不确定，因此不参与损失函数的计算。

此外，前述最有效运动选择需要计算当前帧和多个邻近帧之间的运动，时间开销较大。但是这种耗时的步骤，仅仅用于伪标注生成阶段。在网络训练阶段，输入的运动仍然是当前帧与下一帧之间的运动；网络训练好之后，在推理测试阶段，也仍然使用当前帧与下一帧之间的运动，这意味着推理测试阶段不需要为计算帧运动付出很大时间开销。

与图1所述的方法相对应，本发明实施例还提供了一种基于无监督深度学习的视频显著性目标检测系统，用于对图1中方法的具体实现，本发明实施例提供的一种基于无监督深度学习的视频显著性目标检测系统可以应用计算机终端或各种移动设备中，其结构示意图如图6所示，具体包括：选择模块、生成模块、挑选模块、增强模块、训练模块、检测模块，且各结构依次相连；其中，

本发明不需要任何人工标注，就能够运用深度学习实现视频中的显著性目标检测，并且能够推广到任何应用场景，节省大量的人力物力；通过最有效运动选择机制和高质量伪真值生成方法，得到可靠的伪真值用于监督模型的训练，可提高视频中显著性目标检测精度；针对静止或者不完整运动目标的训练数据增强，使模型学习了在没有运动或者运动不完整时也能检测出其中的目标，增强了模型的泛化能力，因此训练出来的模型不仅能检测明显运动的目标，也能很好地检测静止或者运动不明显的目标。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于无监督深度学习的视频显著性目标检测方法，其特征在于，包括以下步骤：

基于运动完整性和运动可靠性，选择视频帧的最有效运动；

基于视频帧的最有效运动，生成视频帧的伪标注；

利用视频显著性目标检测模型进行目标检测，获得视频中的显著性目标；

选择视频帧的最有效运动，具体包括以下步骤：

给定视频帧序列{I^t,t＝1...N}，通过包括LDOF、FlowNet在内的方法计算前向运动F^t ^-＞t+s和后向运动F^t+s-＞t；

改变参数s，计算当前帧和不同的邻近帧之间运动的有效性得分，并将有效性得分最高的运动记为当前帧I^t的最有效运动；

生成视频帧的伪标注，具体包括以下步骤：

基于两个显著图，生成视频帧的伪标注L^t；其中，对于每个像素i，若两个显著图的结果均大于0.5，则视频帧的伪标注为1；若两个显著图的结果均小于0.5，则视频帧的伪标注为0；其他情况表示两个显著图的结果不一致，则视频帧的伪标注为0.5；

挑选高质量的视频帧的伪标注，具体包括以下步骤：

2.根据权利要求1所述的一种基于无监督深度学习的视频显著性目标检测方法，其特征在于，获得增强后的数据，具体包括以下步骤：

3.根据权利要求1所述的一种基于无监督深度学习的视频显著性目标检测方法，其特征在于，获取视频显著性目标检测模型，具体为：

4.一种实现如权利要求1所述的基于无监督深度学习的视频显著性目标检测方法的系统，其特征在于，包括：选择模块、生成模块、挑选模块、增强模块、训练模块、检测模块，且各结构依次相连；