CN111274438A

CN111274438A - 一种语言描述引导的视频时序定位方法

Info

Publication number: CN111274438A
Application number: CN202010040451.3A
Authority: CN
Inventors: 李冠彬; 吴捷; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-12
Anticipated expiration: 2040-01-15
Also published as: CN111274438B

Abstract

本发明公开了一种语言描述引导的视频时序定位方法，包括如下步骤：步骤S1，提取跨模态特征的多模态特征编码网络，以用于学习视频和自然语言的跨模态信息，获得所输入的语言和视觉模态的多模态融合表征；步骤S2，采用层次化的树状结构策略，对跨模态信息进行层次化分解；步骤S3,采用渐进强化学习机制，通过两个任务导向的奖励来提供正确的学分分配，鼓励树状结构中的不同策略的相互促进，本发明通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程，可以有效地分解复杂的动作策略，在增加搜索空间的同时减少搜索步骤的数量，以更合理的方式获得更令人印象深刻的结果。

Description

一种语言描述引导的视频时序定位方法

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于树状结构和渐进强化学习来实现语言描述引导的视频时序定位方法。

背景技术

自然语言的视频时序定位这一任务是计算机视觉和视频分析领域新兴的又具有挑战性的任务。其目标是确定未修剪视频中与给定自然语言对应的片段的时间边界。该任务与动作时序定位任务十分相关的，与动作时序定位任务相比，该任务更具挑战性：1)其不仅没有预定义的动作列表与标签，而且可能包含复杂的描述。2)该任务需要模型能够建立语言模态与视觉模态的关系，对多模态特征进行建模，对自然语言和视频内容有深入的理解。自然语言的视频时序定位任务涉及到视频分析、多模态表示、多模态交互、信息检索等许多高层的人工智能任务。

基于时间滑动窗口的遍历排序方法近年来在该领域取得了非常好的成绩。该方法首先通过设置滑动窗口来生成大量的候选边界框，接着把候选边界的视频信息送到匹配网络中得到置信度得分，最后根据置信度得分来获得整个视频的定位/预测结果。然而，该方法依赖于外部滑动窗口的匹配和排序，导致了效率低下，边界框的不灵活性和额外的空间消耗，而且该方法也偏离了人的感知机制。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种语言描述引导的视频时序定位方法，以通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程，可以有效地分解复杂的动作策略，在增加搜索空间的同时减少搜索步骤的数量，以更合理的方式获得更令人印象深刻的结果。

为达上述目的，本发明提出一种语言描述引导的视频时序定位方法，包括如下步骤：

步骤S1，提取跨模态特征的多模态特征编码网络，以用于学习视频和自然语言的跨模态信息，获得所输入的语言和视觉模态的多模态融合表征；

步骤S2，采用层次化的树状结构策略，对跨模态信息进行层次化分解；

步骤S3,采用渐进强化学习机制，通过两个任务导向的奖励来提供正确的学分分配，鼓励树状结构中的不同策略的相互促进。

优选地，步骤S1进一步包括：

步骤S100，利用3D卷积神经网络提取输入视频的全局和当前边界框内视频的局部特征；

步骤S101，利用Skip-thought技术提取自然语言描述的全局表示；

步骤S102，根据上述特征，利用门关注机制提取语言和视觉模态的多模态融合表征。

优选地，于步骤S1中，利用3D卷积神经网络提取输入视频的全局特征V_g和当前边界框内视频的局部表示

然后利用Skip-thought技术来提取自然语言描述的全局表示E，最后采用门注意力机制来获取多模态表示：

其中，

和

是分别表示全局与局部的多模态关注表示，σ是激活函数logistic sigmoid，

表示向量点乘。

优选地，于步骤S2中，所述树状结构策略包含根策略和叶策略，所述根策略决定主要依赖哪个子叶策略，叶策略对应于五个高级语义分支，所选的语义分支通过相应的子网络推理一个该分支下更加精炼的动作。

优选地，所述五个高级语义分支分别为尺度变化，左显著移动，右显著移动，左精细调整以及右精细调整。

优选地，步骤S3进一步包括：

步骤S300，利用外部奖赏训练叶策略的actor分支；

步骤S301，用MSE损失函数训练叶策略的critic分支；

步骤S302，利用外部奖赏和内部奖赏相结合的方法来训练根策略的actor分支；

步骤S303，利用MSE损失函数训练根策略的critic分支；

步骤S304，基于渐进强化学习机制，根据迭代次数计算目前选择的策略并训练。

优选地，于步骤S300中，所述叶策略的奖励函数

揭示了原始动作

对当前环境的影响，其在外部环境中直接获得:

其中ε代表的是奖励系数，U_t代表的是当前时刻的IoU大小。

优选地，所述根策略的奖励函数

设计如下:

为遍历所有可能的分支，并将相应的原始操作推理到环境中，生成5个不同的IoU中的最大IoU。

优选地，于步骤S304中，所述渐进强化学习机制为：对于每一组k迭代，渐进强化学习保持一个策略固定，只训练另一个策略，当达到k次迭代时，它会切换训练的策略。

优选地，基于树形结构策略的渐进强化学习的交替训练过程概括为：

其中

是一个指示训练策略选择的二进制变量，i表示整个训练过程中的迭代次数，

是取除法运算的下限整数，mod是模函数，L_leaf为训练所述叶策略的损失函数，L_root为训练所述根策略的损失函数。

与现有技术相比，本发明一种语言描述引导的视频时序定位方法通过提取跨模态特征的多模态特征编码网络，学习视频和自然语言的跨模态信息以获得语言和视觉模态的多模态融合表征，并采用层次化的树状结构策略，对跨模态信息进行层次化分解，最后采用渐进强化学习机制，通过两个任务导向的奖励来提供正确的学分分配，鼓励树状结构中的不同策略的相互促进，本可以有效地分解复杂的动作策略，在增加搜索空间的同时减少搜索步骤的数量，以更合理的方式获得更令人印象深刻的结果。

附图说明

图1为本发明一种语言描述引导的视频时序定位方法的步骤流程图；

图2为本发明具体实施例中语言描述引导的视频时序定位的流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种语言描述引导的视频时序定位方法的步骤流程图，图2为本发明具体实施例中语言描述引导的视频时序定位的流程图。如图1及图2所示，本发明一种语言描述引导的视频时序定位方法，包括如下步骤：

步骤S1，提取跨模态特征的多模态特征编码网络，以用于学习视频和自然语言的跨模态信息，获得所输入的语言和视觉模态的多模态融合表征。在本发明具体实施例中，利用3D卷积网络提取视频的全局与局部特征，利用Skip-thought来提取自然语言的全局信息，并将门关注机制应用到上述特征获得语言和视觉模态的多模态融合表征。在本发明中，所述自然语言为描述视频中某个时刻的发生的事情，本发明的任务则是根据该自然语言定位视频的片段。

具体地，步骤S1进一步包括：

步骤S100，利用C3D(一种3D卷积神经网络)提取输入视频的全局和当前边界框内视频的局部特征；

步骤S101，利用Skip-thought技术提取自然语言描述的全局表示；

步骤S102，根据上述特征，利用门关注机制提取所述自然语言和视觉模态的多模态融合表征。

具体地，于本步骤中，利用C3D的fc6层中提取输入视频的全局特征V_g和当前边界框内视频的局部表示

接着利用Skip-thought技术来提取自然语言描述的全局表示E，最后采用门注意力机制来获取多模态表示：

其中，

和

是分别表示全局与局部的多模态关注表示。σ是激活函数logistic sigmoid，

表示向量点乘。

步骤S2，采用层次化的树状结构策略，对跨模态信息进行层次化分解。所述树状结构策略包含根策略和叶策略，所述根策略决定主要依赖哪个子叶策略，叶策略对应于五个高级语义分支，所选的语义分支再进一步推理一个该高级分支下更为精炼具体的动作。

在本发明中，根据步骤S1，所述跨模态信息为以下几个信息的结合体：视频的全局特征V_g；当前边界框内视频的局部表示

自然语言描述的全局表示E以及全局与局部的多模态关注表示

和

将该些信息作为输入分别输入到根策略和叶策略进行处理，所述根策略对多模态表示预测高层次分支，叶策略预测更加精细的动作。

具体地，树状结构策略在每个时间步由根策略和叶策略组成。根策略旨在学习在以下不同的情况下从叶策略中调用正确的子策略(高级语义分支)，这里的不同情况包括但不限于：(1)当前的边界框和标注的边界框尺寸相差太大，需要进行尺度变化(2)当前的边界框距离标注的边界框很远，需显著移动；(3)当前的边界框距离标注的边界框有一定交集，只需要精细调整。在本发明具体实施例中，一共有5个高级语义分支，分别是尺度变化，左显著移动，右显著移动，左精细调整以及右精细调整。根策略由一层全连接的神经网络组成，根策略

决定这个时间步上依靠哪一个叶策略：

叶策略

对应五个高层分支。所选的语义分支将通过相应的子网络推理一个该分支下更加精炼的动作：

步骤S3，采用渐进强化学习机制，通过两个任务导向的奖励来提供正确的学分分配，鼓励树状结构中的不同策略的相互促进。

具体地，步骤S3进一步包括：

步骤S300，利用外部奖赏训练叶策略的actor分支；

叶策略的奖励函数

揭示了原始动作

对当前环境的影响。它可以在外部环境中直接获得:

其中ε代表的是奖励系数，U_t代表的是当前时刻的IoU大小，接着采用actor-critic算法来训练叶策略，该actor分支的损失函数定义为L_leaf。

步骤S301，用MSE损失函数训练叶策略的critic分支。

在本发明具体实施例中，所述MSE损失函数指的均方误差，指叶策略状态估计值V与叶奖赏真值R之差平方的期望值：

根策略的奖励函数定义为

由于根策略执行的操作不直接与环境交互，所以

被定义为包括两项:1)内在奖励：衡量

对子策略选择的影响；2)外在奖励：衡量所选子策略对环境执行的动作的间接影响。为了估计根策略选择高级语义分支的情况，模型遍历所有可能的分支，并将相应的原始操作推理到环境中，结果生成5个不同的IoU。这五个IoU中的最大IoU定义为

根策略奖励函数

设计如下:

接着同样采用actor-critic算法来训练根策略，该actor分支的损失函数定义为L_root。

步骤S303，利用MSE损失函数训练根策略的critic分支。

这里和步骤S301中，训练叶策略的critic分支的损失函数一致，只是优化的对象变成了根策略对应的网络，预测值V是根策略预测的，R为根奖赏，在此不予赘述。

步骤S304，基于渐进强化学习机制，根据迭代次数计算目前选择的策略并进行训练。

由于同时优化策略根和叶策略会导致训练过程不稳定，为了避免这种情况，本发明设计了一个渐进强化学习优化过程：对于每一组k迭代，渐进强化学习保持一个策略固定，只训练另一个策略。当达到k次迭代时，它会切换训练的策略。基于树形结构策略的渐进强化学习的交替训练过程可概括：

其中

是一个指示训练策略选择的二进制变量。i表示整个训练过程中的迭代次数。

是取除法运算的下限整数，mod是模函数。

综上所述，本发明一种语言描述引导的视频时序定位方法通过提取跨模态特征的多模态特征编码网络，学习视频和自然语言的跨模态信息以获得语言和视觉模态的多模态融合表征，并采用层次化的树状结构策略，对跨模态信息进行层次化分解，最后采用渐进强化学习机制，通过两个任务导向的奖励来提供正确的学分分配，鼓励树状结构中的不同策略的相互促进，本可以有效地分解复杂的动作策略，在增加搜索空间的同时减少搜索步骤的数量，以更合理的方式获得更令人印象深刻的结果。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。