CN110232339B

CN110232339B - 一种基于对比度的弱监督时序动作定位评价方法及系统

Info

Publication number: CN110232339B
Application number: CN201910458525.2A
Authority: CN
Inventors: 王乐; 刘子熠; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2021-02-19
Anticipated expiration: 2039-05-29
Also published as: CN110232339A

Abstract

本发明公开了一种基于对比度的弱监督时序动作定位评价方法及系统，属于计算机视觉与模式识别领域，包括：首先对视频中存在的对比度信息进行建模；然后利用对比度得到片段级别的边缘度度量；最后利用得到的边缘度和已知的片段级别动作分类结果对任意一个候选视频段进行打分。本发明综合考虑了开始，结束和内容三个方面，最终给出了具有较高的可靠性的评价结果；借助评价结果，时序动作定位的准确率可以得到极大提高。本发明可在弱监督条件下对任意一个视频时间段的动作定位效果进行综合评价，只需要视频级别的类别标注，不依赖复杂的动作边界标注数据，能够大大减轻数据的标注负担。

Description

一种基于对比度的弱监督时序动作定位评价方法及系统

技术领域

本发明属于计算机视觉与模式识别技术领域，特别涉及一种基于对比度的弱监督时序动作定位评价方法及系统。

背景技术

随着拍摄设备和网络的普及，视频数据的体量正在快速增长，社会对智能视频分析技术需求也越来越急迫。其中时序动作定位这一问题一直是研究的热点问题，在智能监控、动作搜索以及视频自动摘要方面都具有重大应用。如何找到视频中包含的目标动作并给出准确的动作开始、结束的时间边界仍是难点问题；该问题的一个难点在于训练数据的收集难度较大，不同于动作识别问题，可以被简单的归结为分类问题，只需要视频级别的类别标签，动作定位问题还需要额外的动作开始，结束的时间边界标签。相比于视频级别的类别标签，时间边界标签的标注难度更大，标注者需要观察视频的细节，并在完整浏览过整体视频的基础上给出标注，即付出的人工成本和时间成本都大大超过类别标签。当一个定位方法只需要类别标签，而不需要时间边界标签是，我们称该方法工作在“弱监督”条件下。一般的弱监督方法只是通过简单的阈值比较方法，对帧级别(或片段级别)的分类结果进行二值化，并将高于阈值视频部分作为动作定位结果。这样的方法缺乏灵活性，而且没有考虑视频中存在的时序信息，得到的效果也不够理想。

综上，亟需一种新的的弱监督时序动作定位评价方法。

发明内容

本发明的目的在于提供一种基于对比度的弱监督时序动作定位评价方法及系统，以解决上述存在的在弱监督条件下定位效果不理想的技术问题。本发明通过对视频中存在的对比度信息进行建模，可在弱监督条件下对任意一个视频时间段的动作定位效果进行评价，借助评价结果能够提高时序动作定位的准确率，获得较理想的定位效果。

为达到上述目的，本发明采用以下技术方案：

一种基于对比度的弱监督时序动作定位评价方法，包括以下步骤：

步骤1，获取片段级别的动作分类预测

和片段级别的注意力分数预测

利用最大值池化获得目标类别动作分类预测的局部最大值及其所在的时序位置，利用最小值池化获得目标类别动作分类预测的局部最小值及其所在的时序位置；

步骤2，对步骤1获得的局部最大值和局部最小值隐含的局部对比度信息进行显示建模，获得表示对比度强度的度量

以及表示对比度正负的符号函数

步骤3，将步骤2获得的表示对比度强度的度量

和表示对比度正负的符号函数

进行逐点相乘，获得片段级别的边缘度度量

步骤4，利用第i类动作的片段级别预测

和步骤3得到的

对视频中的任意起始时间位置的片段中第i类动作的定位效果进行评估。

本发明的进一步改进在于，步骤1中，根据

和

生成局部最大值及其位置、局部最小值及其位置的具体步骤包括：

利用片段级别的注意力分数预测

对片段级别的动作分类预测

进行预处理；包括：如果t位置的注意力分数

小于预设阈值，则将该位置的所有类别预测

均置为0；定位第i类动作时，取出Ψ的第i行，

对ψ_i进行步长为1的最大值池化，获得局部最大值向量

通过调整补零范围，使得输出的局部最大值向量

与ψ_i保持相同的维度；记录每个局部最大值的时序位置，即

利用片段级别的注意力分数预测

对片段级别的动作分类预测

进行预处理；包括：如果t位置的注意力分数

小于预设阈值，则将该位置的所有类别预测

均置为0；定位第i类动作时，取出Ψ的第i行，

对ψ_i进行步长为1的最小值池化，获得局部最小值向量

通过调整补零范围，使得输出的局部最小值向量

与ψ_i保持相同的维度；记录每个局部最小值的时序位置，即

本发明的进一步改进在于，步骤2中，

式中，⊙表示逐元素相乘，abs(·)表示逐元素取绝对值，[·]^-1表示逐元素取倒数；

本发明的进一步改进在于，步骤3中，具有开始、结束区分性的片段级别的边缘度度量

的表达式为：

e＝m⊙c；

对于第t个位置的视频片段，其边缘度值e(t)越接近1，则越表示其有可能是动作的开始，越接近-1，则越表示其有可能是动作的结束。

本发明的进一步改进在于，步骤4中，对任意一个视频中的时间段打分给出动作定位效果的评价分数的具体包括以下步骤：

S4.1，定义任意一个视频时间段P:[x_s,x_e]，其中x_s表示视频时间段P开始的位置，x_e表示P结束的位置；

S4.2，将P:[x_s,x_e]进行时间上的收缩和扩张，分别得到收缩后的时间段

和扩张后的时间段

其中，x_w＝x_e-x_s，表示P的时间长度；

S4.3，对P:[x_s,x_e]进行“开始分数”评价，记为s_s(P)，即评价P与动作开始阶段的覆盖准确程度，计算公式为：

S4.4，对P:[x_s,x_e]进行“结束分数”评价，记为s_e(P)，即评价P与动作结束阶段的覆盖准确程度，计算公式为：

S4.5，对P:[x_s,x_e]进行“内容分数”评价，记为s_a(P)，即评价P中内容与目标动作的相符程度，计算公式为：

S4.6，将步骤S4.3、S4.4和S4.5得到的开始分数、结束分数和内容分数相加，得到对P:[x_s,x_e]的综合评价分数s(P)，计算公式为：

本发明的进一步改进在于，步骤S4.2中，

一种基于对比度的弱监督时序动作定位评价系统，包括：

获取模块，用于获取片段级别的动作分类预测

和片段级别的注意力分数预测

建模模块，用于对获取模块获得的局部最大值和局部最小值隐含的局部对比度信息进行显示建模，获得表示对比度强度的度量

以及表示对比度正负的符号函数

评价模块，用于将建模模块获得的表示对比度强度的度量

和表示对比度正负的符号函数

进行逐点相乘，获得片段级别的边缘度度量

利用第i类动作的片段级别预测

和得到的

其中，建模模块中，

评价模块中，

e＝m⊙c。

与现有技术相比，本发明具有以下有益效果：

本发明通过对视频中存在的对比度信息进行建模，可在弱监督条件下对任意一个视频时间段的动作定位效果进行评价，而且该评价是结合该视频时间段的开始，结束和内容三个方面综合给出的，可靠性好；最终，借助评价结果，时序动作定位的准确率得到了极大提高。本发明的基于对比度的弱监督时序动作定位评价方法，利用视频中存在的对比度信息，对其进行有效建模，并利用该信息进行时序动作定位评价，使得定位方法可以在弱监督的条件下更好地对视频中包含的目标动作进行定位。本发明还可以指导回归模型的训练，使得模型在弱监督的条件下，通过对于对比度信息的挖掘得到进一步的参数训练。最终，借助我们的评价结果，时序动作定位的准确率得到了极大提高。本发明只需要视频级别的类别标注，不依赖复杂的动作边界标注数据，大大减轻了数据的标注负担，有利于本发明的推广应用。

附图说明

图1是本发明实施例的一种基于对比度的弱监督时序动作定位评价方法的流程示意框图；

图2是本发明实施例的一种基于对比度的弱监督时序动作定位评价方法的流程示意框图；

图3是本发明实施例中步骤4.2的示意图；

图4是在THUMOS’14数据集上本评价方法对已有方法的提升效果对比图；

图5是不同方法在THUMOS’14数据集上与其他同类方法的时序动作定位的结果对比示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

参见图1和图2，本发明实施例的一种基于对比度的弱监督时序动作定位评价方法，具体包括以下步骤：

步骤1：在已知片段级别的动作分类预测

和片段级别的注意力分数预测

的情况下，利用最大值池化，得到目标类别动作分类预测的局部最大值及其所在的时序位置。类似的，也得到局部最小值和对应的时序位置。

步骤1中具体步骤包括：

(1)对于已知片段级别的动作分类预测

利用片段级别的注意力分数预测

进行预处理，如果对于t位置的注意力分数

小于某一阈值，则该位置的所有类别预测

均置为0。

(2)如想要定位第i类动作，则取出Ψ的第i行，

对ψ_i进行步长为1的最大值池化，并通过调整补零范围，使得输出的局部最大值向量

与ψ_i保持相同的维度。

(3)在得到

的同时，记录下来每个最大值的时序位置，即

(4)利用相似的方法进行最小值池化，得到局部最小值向量

和对应的位置

步骤2：对局部最大值和最小值隐含的局部对比度信息进行显示建模，得到表示对比度强度的度量

和表示对比度正负的符号函数

步骤2具体包括以下步骤：

(1)利用局部最大值和最小值，对对比度强度进行建模。具体方式为：

其中，⊙表示逐元素相乘，abs(·)表示逐元素取绝对值，[·]^-1表示逐元素取倒数。该方式通过利用局部最大值最小值之间的差距来衡量变化的剧烈程度，差距越大，对比度越大，差距越小，对比度越小；同时也考虑了最大值位置和最小值位置的距离因素，即距离越近变化越剧烈，对比度越大，反之则越小。

(2)利用局部最大值和最小值的位置，对对比度强度的正负进行区分。即需要区分出引起高对比度的位置中哪些对应动作由无到有(即动作开始，对应正)，哪些对应由有到无(即动作结束，对应正)。具体公式为：

步骤3：将得到的对比度强度的度量

和表示对比度正负的符号函数

进行逐点相乘，得到片段级别的边缘度度量

具体可用公式表示：

e＝m⊙c

通过融合对比度强度和符号，对于第t个位置的视频片段，其边缘度值e(t)越接近1，则越表示其有可能是动作的开始，越接近-1，则越表示其有可能是动作的结束。

步骤4：利用得到的

和第i类动作的片段级别预测

对任意一个视频中的时间段打分。

具体包括以下步骤：

(1)定义任意一个视频时间段P:[x_s,x_e]，其中x_s表示视频时间段P开始的位置，x_e表示P结束的位置。

(2)将P:[x_s,x_e]进行时间上的收缩和扩张，分别得到收缩后的时间段

和扩张后的时间段

如图3所示。其中的起始位置由以下公式得到：

其中，x_w＝x_e-x_s，表示P的时间长度。

(3)对P:[x_s,x_e]进行“开始分数”评价，记为s_s(P)，即评价P与动作开始阶段的覆盖准确程度。计算方式为：

该公式表示从

到

的e的均值(表示P的开始阶段的动作对比度大小)，减去从

到x_s的ψ_i的均值(表示P开始阶段之前，发生该动作的概率)。当s_s(P)越大时，表示P的开始阶段与动作开始阶段很符合的同时，P之前也没有该动作发生，也就是P的“开始分数”越大。

(4)对P:[x_s,x_e]进行“结束分数”评价，记为s_e(P)，即评价P与动作结束阶段的覆盖准确程度。计算方式为：

该公式的设计思路与上一步骤类似，只是第一项的符号相反。

(5)对P:[x_s,x_e]进行“内容分数”评价，记为s_a(P)，即评价P中内容与目标动作的相符程度。计算方式为：

(6)将(3)，(4)，(5)得到的开始分数，结束分数和内容分数相加，得到对P:[x_s,x_e]的综合评价分数s(P)：

最终得到的s(P)，就是该基于对比度的弱监督时序动作定位评价方法对于任意视频时间段P:[x_s,x_e]的定位评估结果。

以下为常用的得到最终定位结果的方法：在得到每个候选视频时间段的评价之后，对这些时间段进行筛选，得到最终的视频动作时序定位结果。筛选的方法为，依据得到的每个候选视频时间段的评价，做非最大值抑制筛选。首先对所有的候选视频时间段按照我们的评价分数按照降序排序，然后依次遍历候选视频时间段，保留当前视频段并删除和其重叠高于某设定阈值的视频段，直到没有可以删除的视频段，结束遍历。所有保留下来的视频段即为最终的视频动作时序定位结果。

本发明的方法，适用于对视频中存在的目标动作进行自动定位，即找到视频中在什么时间出现了什么动作。本发明的基于对比度的弱监督时序动作定位评价方法，首先得到片段级别的分类预测和注意力预测；然后用最大值池化与最小值池化处理这些结果，挖掘其中的对比度信息并对其建模用于后续动作定位的评价中；之后通过对待评价视频段进行收缩和扩张，将视频段分为开始，结束，内容等不同的区域；最后利用已经建模得到的对比度信息，分别针对开始，结束，内容三个方面对视频段进行评价，获得高度综合可信的评价结果。本发明可以在只知道未剪辑视频包含的动作类别，但不知道目标动作具体位置的情况下(即弱监督情况下)，对动作时序定位给出评价，并且该评价可以进一步被用来指导回归模型的训练，大大提升了定位算法在弱监督条件下的准确度。

数据分析

请参阅图4，图4是在用于评价时序动作定位的公开数据集THUMOS’14上本评价方法对已有方法的提升效果对比图。图中的Unet方法使用简单的阈值操作进行动作时序定位，我们的方法将Unet中的阈值操作替换为本发明提出的评估方法，剩下的保持不变。通过这种对比，我们可以公平地体现出本发明对时序动作定位的提升效果。数据集包含20种动作，最后一组柱状图表示数据集的平均mAP。我们的方法提升了除BasketballDunk和CricketBowling之外所有动作的定位准确度，并且将整体平均准确率由15.4％提升至21.6％，提升十分显著。

请参阅图5，图5是不同方法在THUMOS’14数据集上与其他同类方法的时序动作定位的结果对比示意图。我们的方法在所有评价阈值设置条件下，都取得了最好的结果。

综上所述，本发明实施例公开了一种基于对比度的弱监督时序动作定位评价方法，属于计算机视觉与模式识别领域，步骤包括：首先对视频中存在的对比度信息进行建模；然后利用对比度得到片段级别的边缘度度量；最后利用得到的边缘度和已知的片段级别动作分类结果对任意一个候选视频段进行打分。在打分的过程中，本发明综合考虑了开始，结束和内容三个方面，最终给出了具有较高的可靠性的评价结果。借助我们的评价结果，时序动作定位的准确率可以得到极大提高。同时，本发明可在弱监督条件下对任意一个视频时间段的动作定位效果进行综合评价，只需要视频级别的类别标注，不依赖复杂的动作边界标注数据，大大减轻了数据的标注负担，有利于本发明的推广应用。与其他方法相比较，本发明的方法在时序动作定位任务上获得了较大的提升。

本发明实施例的一种基于对比度的弱监督时序动作定位评价系统，基于本发明的方法，包括：

获取模块，用于获取片段级别的动作分类预测

和片段级别的注意力分数预测

以及表示对比度正负的符号函数

评价模块，用于将建模模块获得的表示对比度强度的度量

和表示对比度正负的符号函数

进行逐点相乘，获得片段级别的边缘度度量

利用第i类动作的片段级别预测

和得到的

其中，建模模块中，

评价模块中，e＝m⊙c。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。