CN111198966A

CN111198966A - 基于多智能体边界感知网络的自然语言视频片段检索方法

Info

Publication number: CN111198966A
Application number: CN201911332422.8A
Authority: CN
Inventors: 王瀚漓; 孙晓阳
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-12-22
Filing date: 2019-12-22
Publication date: 2020-05-26
Anticipated expiration: 2039-12-22
Also published as: CN111198966B

Abstract

本发明涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法，该方法以多智能体边界感知网络为基本框架，分别对起点和终点进行多个方向和尺度的迭代，调整时间边界，获得目标片段，所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。与现有技术相比，本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大，并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。

Description

基于多智能体边界感知网络的自然语言视频片段检索方法

技术领域

本发明属于视频检索技术领域，涉及一种自然语言视频片段检索方法，尤其是涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法。

背景技术

在近几年中，由于移动互联网的高速发展，抖音、bilibili、爱奇艺、斗鱼等视频网站方兴未艾，成为人们娱乐生活中不可或缺的重要组成部分。与此同时，国家加大了对视频监控的投入，从而对视频理解提出了更高的需求。自然语言视频检索作为视频理解方向的一个迅速发展的分支，融合了自然语言处理和计算机视觉分析，旨在在一个长视频中检索出与给定文本描述查询语义相关的片段，在安全监控、短视频检索、智能教学等领域具有重要应用。

在该任务中，目前存在的技术主要依赖于在人工预定义的候选片段，通过遍历所有候选片段来选择最符合文本描述的片段作为检索结果。这种方法由于候选区域过多，导致模型的训练参数过多，提升了算法的时间和空间复杂度。更为重要的是，此类方法不能涵盖广泛的片段定义范围，忽略了片段的多尺度结构可能性，从而导致片段检索精度受到较大的影响。此外，对视频不能进行充分的结构化理解是当前研究技术面临的另一个重要挑战。例如，考虑像“一个人离开衣橱间并关上房间门”这样的文本查询，它可以被理解为“离开衣橱间”稍早于“关上房间门”，并且两个事件之间拥有同时发生的联系。这样复杂的语义关联需要建立在对视频片段的上下文信息进行充分理解的基础上，然而传统的视频片段检索技术侧重于对视频整体的研究，忽略了视频片段之间的语义关联，从而经常出现查询文本与视频片段无法匹配的情况。采用注意力机制建立视频片段和文本关系的方法虽然在一定程度上缓解了上述问题，但是缺乏了视频时间推断能力，仍然不能充分理解视频的结构关联，检索准确率因此受到限制。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于多智能体边界感知网络的自然语言视频片段检索方法。

本发明的目的可以通过以下技术方案来实现：

一种基于多智能体边界感知网络的自然语言视频片段检索方法，该方法以多智能体边界感知网络为基本框架，分别对起点和终点进行多个方向和尺度的迭代，调整时间边界，获得目标片段，所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。

进一步地，该方法包括以下步骤：

S1：对环境中的视频和对应的自然语言描述进行编码，归一化当前片段的时间位置；

S2：在观察网络中构建当前片段的全局状态向量；

S3：在受限监督网络中限制全局状态向量；

S4：起点智能体和终点智能体根据步骤S3获得的全局状态向量分别给出下一步边界调整策略；

S5：根据步骤S4获得的边界调整策略更新环境中的片段的时间位置，重复S1-5直到遇到停止动作或到达最大迭代次数，获得目标片段。

进一步地，所述步骤S1中，由I3D或C3D网络对视频进行编码获得视频视觉特征，采用Skip-Thought对自然语言描述进行编码生成文本向量。

进一步地，所述全局状态向量由自然语言特征、跨模态片段特征、全局视觉特征和时间位置特征融合处理生成，其中，

所述自然语言特征由文本向量经过一层全联接层得到，

环境中的视频视觉特征经过两层Bi-GRU进行再编码获得再编码特征，所述全局视觉特征由再编码特征经过Mean-Pool层后生成，

所述再编码特征乘以选择滤波器生成的片段掩码后经过Mean-Pool层处理得到局部视觉特征，所述跨模态片段特征由局部视觉特征和自然语言特征融合后经过一层全联接层得到，

所述时间位置特征由当前片段时间位置经一层全联接层生成。

进一步地，所述受限监督网络包括tIoU回归模块和位置回归模块，tIoU表示当前片段与目标片段的重叠度。

进一步地，所述起点智能体和终点智能体均包括Actor-Critic模块和时间距离回归模块。

进一步地，所述下一步边界调整策略的动作包括以设定尺度前移或后移时间点或者停止，所述设定尺度为多级尺度。

进一步地，所述下一步边界调整策略由智能体的策略网络给出的动作所决定。

进一步地，所述多智能体边界感知网络通过端到端训练获得，训练过程中，智能体的Actor-Critic分支的参数

更新被定义为：

式中，π_i为策略网络，其输出的

决定了此智能体的动作，H(.)为信息熵计算，α是全局学习速率，β是比例因子，_i为估值网络，其输出的

是对当前状态下智能体的估值，

为智能体的最终累加奖励，

为智能体i采取的动作，s^t为全局状态向量，

为智能体i的策略网络参数的梯度，

为智能体i的估值网络参数的梯度；

智能体中的时间点回归td_i的参数

更新如下所示：

式中，

为当前片段的真实时间点距离，

为td_i预测的时间点距离，z^t为td_i是否参与整体训练的信号，仅当tIoU^t-1大于设定阈值时为1否则为0，

为智能体i的时间点回归网络参数的梯度；

受限监督网络cs的参数θ_cs更新如下所示：

式中，

分别为当前片段的真实tIoU值、时间点，

为cs预测的tIoU值、时间点，s、e分别表示起点和终点

为受限监督网络参数的梯度。

进一步地，所述智能体的最终累加奖励

的表达式为：

其中，

为智能体i在第t个时间步的奖励，t为当前代数，T为检索所需迭代数，γ为折扣因子；

所述

被定义为：

式中，奖励

由基础奖励

势能差

和终止奖励

组成，

为当前代数的时间点，

分别表示当前片段的起点和终点，为惩罚系数，

为当前时间点与目标时间点距，

为势能奖励，ζ为奖励系数，τ为评价检索结果好坏的阈值。

本发明将自然语言视频片段检索任务分解为起点检索和终点检索两个子任务，以具有时间边界感知的多智能体强化学习为基本框架。多智能体边界感知网络由观察网络、起点智能体、终点智能体和受限监督网络组成，其中边界感知智能体(即起点智能体和终点智能体)通过在多个方向和尺度调整时间点位置来使检索结果不断逼近目标片段。观察网络将环境中的视觉、文本信息在全局角度和局部角度进行语义交互，充分挖掘了视频跨模态间丰富的上下文信息，并结合了当前视频片段的时间点信息，使得输出的状态特征可以很好地理解视频片段间的结构语义信息。此外，受限监督网络用来限制状态特征，使其更适应于当前任务。为了突出起点和终点时间边界的独特性，两个智能体采用进行分布式学习，每个智能体拥有与其相对应的奖励机制。每个智能体除了Actor-Critic(演员-评价者)模块外还增加了时间距离回归模块。起点智能体和终点智能体在受限监督网络的辅助下，通过多尺度时间位置调整动作改变片段位置，最终精确定位到与查询文本语义匹配的片段的时间位置。

与现有技术相比，本发明具有如下有益效果：

(1)本发明提出一种多智能体边界感知网络模型，利用多智能体强化学习框架将视频片段检索任务分解为起点检索和终点检索两个子任务，通过在多个方向和尺度调整时间点位置来使检索结果不断逼近目标片段，增大片段选择范围的同时着重精细化定位，兼顾了片段选择的灵活性和模型的时空复杂度。

(2)观察网络将环境中的视觉、文本信息在全局角度和局部角度进行语义交互，充分挖掘了视频跨模态间丰富的上下文信息，并结合了当前视频片段的时间点信息，使得输出的状态特征可以很好地理解视频片段间的结构语义信息，受限监督网络用来限制状态特征，使其更适应于当前任务。本发明提出了两阶段的跨模态信息交互机制，充分挖掘了上下文的语义信息，为边界感知能力的实现打下重要基础。

(3)每个边界感知智能体除了Actor-Critic(演员-评价者)模块外还增加了时间距离回归模块，此模块可以通过推断当前片段时间点与目标时间点的距离来增强时间推理能力，从而使得模型的界限感知能力更为突出，比其他模型更能充分理解视频结构的关联。

(4)与现有技术相比，本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大，并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。

附图说明

图1为本发明的原理框架示意图；

图2为本发明中多智能体边界感知网络在Charades-STA数据集中的部分结果可视化说明，其中浅灰色箭头和浅灰色叉号表示起点智能体采取的调整边界的动作，深灰色箭头和深灰色叉号表示终点智能体采取的调整边界的动作，最上边的长条表示真实的目标片段，中间的灰色长条表示中间片段，最下边的长条表示最终的检索结果。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于多智能体边界感知网络的自然语言视频片段检索方法，能基于一句自然语言描述从某一视频中检索到对应的目标片段。该检索方法将任务分解为起点检索和终点检索两个子任务，通过边界感知智能体(包括起点智能体和终点智能体)在多个方向和尺度迭代调整时间边界使检索结果不断逼近目标片段。该方法以多智能体边界感知网络为基本框架，如图1所示，多智能体边界感知网络由观察网络、起点智能体、终点智能体和受限监督网络组成。观察网络将环境中的视觉、文本信息在全局角度和局部角度进行语义交互，充分挖掘了视频跨模态间丰富的上下文信息，并结合了当前视频片段的时间点信息，使得输出的状态特征可以很好地理解视频片段间的结构语义信息。受限监督网络用来限制状态特征，使其更适应于当前任务。两个智能体采用进行分布式学习，每个智能体拥有与其相对应的奖励机制，以突出起点和终点时间边界的独特性。

该方法具体包括以下步骤：

步骤1：对环境中的视频、自然语言描述进行编码，归一化当前片段的时间位置。

视频的视觉特征由I3D或C3D网络编码得到，自然语言描述经过Skip-Thought生成文本向量。本实施例中，片段的时间位置被初始化为[0.25N,0.75N]，其中N表示视频长度。

步骤2：在观察网络中构建当前片段的全局状态向量。全局状态向量由自然语言特征、跨模态片段特征、全局视觉特征和时间位置特征融合处理生成。

本实施例中，自然语言特征由环境中的文本向量经过一层全联接层得到，维度为1024。环境中的视觉特征经过两层Bi-GRU进行再编码，全局视觉特征由再编码的视觉特征经过Mean-Pool层后生成，其中Bi-GRU有256个单元。此外，在再编码的视频特征中乘以选择滤波器生成的片段掩码后经过Mean-Pool层处理得到局部视觉特征。跨模态片段特征由局部视觉特征和自然语言特征融合后经过一层全联接层FC得到，是片段阶段的跨模态交互的结果。将当前片段时间位置送入一层全联接层生成时间位置特征，其维度为128。最后的全局状态向量由自然语言特征、全局视觉特征、跨模态特征和时间位置特征融合后经过一层全联接层生成，其维度为1024。

步骤3：在受限监督网络中限制全局状态向量。

受限监督网络由tIoU(当前片段与目标片段的重叠度)回归和位置回归两个模块组成，利用全局状态向量作为输入通过全连接层来推断当前片段的tIoU和时间位置，增加了对全局状态向量的限制，使其与当前片段的语义信息紧密相关，从而使全局状态向量更具有代表性。

步骤4：起点智能体和终点智能体根据全局状态向量分别给出下一步边界调整策略。

两个智能体均由时间点回归和Actor-Critic两个模块组成，其中，时间点回归是用来推断当前时间点与目标时间点的距离，协助智能体理解自身的任务从而作出更合理的位置调整策略。

起点和终点智能体的动作空间包括以设定尺度前移或后移时间点以及停止，所述设定尺度为多级尺度。本实施例的动作空间被定义为以下七个动作：把时间点前移∈₁/∈₂/∈₃，把时间点后移∈₁/∈₂/∈₃，停止。其中，∈₁、∈₂和∈₃不同的时间点调整尺度，分别为0.1、0.05、0.02。通过起点动作和终点动作，可以确定下一个片段的时间位置。边界感知智能体可以通过大尺度位移∈₁来粗略地定位目标片段，然后通过中尺度位移∈₂和小尺度位移∈₃进行微调，从而实现精准定位。

步骤5：根据两个智能体给出的边界调整策略更新环境中的片段的时间位置，重复步骤1-5直到遇到停止动作或到达最大迭代次数。

上述方法中使用的多智能体边界感知网络通过端到端训练获得，两个智能体采用进行分布式学习，每个智能体拥有与其相对应的奖励机制。

智能体i(i∈{start,end})在第t个时间步的奖励

与下一个片段的时间位置有关，被定义为：

其中，奖励

由基础奖励

势能差

和终止奖励

组成，t为当前代数，T为检索所需迭代数，γ为折扣因子，在ActivityNet Captions数据集上被设置为0.3，在Charades-STA数据集上被设置为0.4。以归一化时间点位置

(其中

表示起点，

表示终点)是否在

范围内为评判依据，

只有在

内才会有非负奖励，否则将会被惩罚，p为惩罚系数，本实施例中，p＝-0.2；当

在

内时又根据当前时间点与目标时间点距离

细化奖励，使得智能体逐步靠近目标时间点。势能奖励

模拟时间点距离与好的检索结果的负相关关系。终止奖励

是由最后检索结果的时间点距离决定，当

时将会被奖励ζ，否则被惩罚-ζ，本实施例中ζ＝1，τ为评价检索结果好坏的阈值，本实施例中τ＝0.5。

由于本发明提出的模型为序列决策过程，因此需要构建最终结果与中间的状态的关联，因此需要把奖励

变为最终累加奖励

在多智能体边界感知网络的端到端训练中，边界感知智能体的Actor-Critic分支的参数

更新被定义为：

式中，π_i为策略网络(policy network)，其输出的

决定了此智能体的动作，H(.)为信息熵计算，α是全局学习速率，β是比例因子，本实施例中，α＝0.001，β＝0.1。v_i为估值网络(value network)，其输出的

是对当前状态下智能体的估值，用于辅助策略网络，让其做出当前动作判断。

为智能体的最终累加奖励，

为智能体i采取的动作，s^t为全局状态向量，

为智能体i的策略网络参数的梯度，

为智能体i的估值网络参数的梯度。

智能体中的时间点回归td_i的参数

更新如下所示：

式中的

为片段的真实时间点距离，

为td_i预测的时间点距离。z^t为td_i是否参与整体训练的信号，仅当tIoU^t-1＞0.4时为1否则为0，

为智能体i的时间点回归网络参数的梯度。

受限监督网络cs的参数θ_cs更新如下所示：

式中的

分别为当前片段的真实tIoU值、时间点，

为cs预测的tIoU值、时间点，s、e分别表示起点和终点。

为受限监督网络参数的梯度。

本实施例的测试结果使用Acc@0.5和Acc@0.7进行评价，Acc@0.5和Acc@0.7表示目标片段和检索结果的tIoU是否分别高过0.5和0.7的阈值。Acc@0.5和Acc@0.7越大代表结果越好。

为了验证上述方法的性能，本实施例设计了以下两组实验。

实验一：多智能体边界感知网络与目前先进算法进行对比。

实验选取ActivityNet Captions和Charades-STA数据集进行相关比较，并从中选择一个实例进行可视化。如图2所示，本发明提出的Multi-Agent Boundary-aware Network(MABAN)通过迭代多尺度调整视频片段的边界，加深了视频片段结构化理解，可以实现精准定位。从表1、表2中可以看出，MABAN在两个数据集上的检索精度都明显高于其他先进算法，特别是在Acc@0.7指标上。Acc@0.7对检索结果和目标片段的重叠度要求更高，这说明本发明在检索精度上与其他算法相比具有较大的竞争优势。

表1本实验为在ActivityNet Captions数据集上与目前先进算法结果比较

方法	Acc@0.5	Acc@0.7
			ABLR	36.79	-
MLVI	27.70	13.60
			RWM	36.90	-
MABAN(Ours)	40.72	23.83

表2本实验为在Charades-STA数据集上与目前先进算法结果比较

实验二：本发明创新点的贡献程度。

本发明主要有三大创新点：多尺度位置调整、两阶段跨模片段交互(CMI)和时间点距离回归(TDR)。为了探究这三点的作用，在Charades-STA数据集上进行了相应的移除实验。构建了移除了三个点仅有大尺度位移的基本模型Base，具有中尺度位移的模型Middle，具有小尺度位移的模型Small。从表3的第3、4行可以看出，当移除多尺度调整，只剩大尺度位移时，检索精度有一定程度的下降，但是与其他先进算法相比仍然具有一定优势，这说明仅靠大尺度单一调整策略可以大致估计目标片段的位置。随着中尺度和小尺度位移策略的加入，检索精度有了较大提升。Base+Middle+Small+TDR是移除了CMI之后的模型，此模型的精度与MABAN相比有明显下降，这是由于本发明提出的CMI可以充分挖掘跨模态上下文信息，为视频结构化理解打下坚实基础。Base+Middle+Small+CMI为移除了TDR的模型，从表3可以看出，此模型的精度与MABAN相比有3％的下降，此模块主要是辅助模型加强边界感知推理能力，从而推进检索结果的进一步提升。从移除实验中可以看出，本文提出的多智能体边界感知结构成功应对了当前技术发展面临的视频检索中片段选择有限和视频结构理解不充分两大挑战，具有很大的商用潜力。

表3在Charades-STA数据集上的移除实验

方法	Acc@0.5	Acc@0.7
			Base	34.73	16.51
Base+CMI+TDR	42.10	19.25
			Base+CMI+TDR+Middle	44.27	22.42
Base+Middle+Small+TDR	37.63	16.99
			Base+Middle+Small+CMI	43.09	21.75
MABAN(Ours)	46.99	24.06

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。