CN111198966A - 基于多智能体边界感知网络的自然语言视频片段检索方法 - Google Patents

基于多智能体边界感知网络的自然语言视频片段检索方法 Download PDF

Info

Publication number
CN111198966A
CN111198966A CN201911332422.8A CN201911332422A CN111198966A CN 111198966 A CN111198966 A CN 111198966A CN 201911332422 A CN201911332422 A CN 201911332422A CN 111198966 A CN111198966 A CN 111198966A
Authority
CN
China
Prior art keywords
agent
network
natural language
boundary
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911332422.8A
Other languages
English (en)
Other versions
CN111198966B (zh
Inventor
王瀚漓
孙晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911332422.8A priority Critical patent/CN111198966B/zh
Publication of CN111198966A publication Critical patent/CN111198966A/zh
Application granted granted Critical
Publication of CN111198966B publication Critical patent/CN111198966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。与现有技术相比,本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大,并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。

Description

基于多智能体边界感知网络的自然语言视频片段检索方法
技术领域
本发明属于视频检索技术领域,涉及一种自然语言视频片段检索方法,尤其是涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法。
背景技术
在近几年中,由于移动互联网的高速发展,抖音、bilibili、爱奇艺、斗鱼等视频网站方兴未艾,成为人们娱乐生活中不可或缺的重要组成部分。与此同时,国家加大了对视频监控的投入,从而对视频理解提出了更高的需求。自然语言视频检索作为视频理解方向的一个迅速发展的分支,融合了自然语言处理和计算机视觉分析,旨在在一个长视频中检索出与给定文本描述查询语义相关的片段,在安全监控、短视频检索、智能教学等领域具有重要应用。
在该任务中,目前存在的技术主要依赖于在人工预定义的候选片段,通过遍历所有候选片段来选择最符合文本描述的片段作为检索结果。这种方法由于候选区域过多,导致模型的训练参数过多,提升了算法的时间和空间复杂度。更为重要的是,此类方法不能涵盖广泛的片段定义范围,忽略了片段的多尺度结构可能性,从而导致片段检索精度受到较大的影响。此外,对视频不能进行充分的结构化理解是当前研究技术面临的另一个重要挑战。例如,考虑像“一个人离开衣橱间并关上房间门”这样的文本查询,它可以被理解为“离开衣橱间”稍早于“关上房间门”,并且两个事件之间拥有同时发生的联系。这样复杂的语义关联需要建立在对视频片段的上下文信息进行充分理解的基础上,然而传统的视频片段检索技术侧重于对视频整体的研究,忽略了视频片段之间的语义关联,从而经常出现查询文本与视频片段无法匹配的情况。采用注意力机制建立视频片段和文本关系的方法虽然在一定程度上缓解了上述问题,但是缺乏了视频时间推断能力,仍然不能充分理解视频的结构关联,检索准确率因此受到限制。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于多智能体边界感知网络的自然语言视频片段检索方法。
本发明的目的可以通过以下技术方案来实现:
一种基于多智能体边界感知网络的自然语言视频片段检索方法,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。
进一步地,该方法包括以下步骤:
S1:对环境中的视频和对应的自然语言描述进行编码,归一化当前片段的时间位置;
S2:在观察网络中构建当前片段的全局状态向量;
S3:在受限监督网络中限制全局状态向量;
S4:起点智能体和终点智能体根据步骤S3获得的全局状态向量分别给出下一步边界调整策略;
S5:根据步骤S4获得的边界调整策略更新环境中的片段的时间位置,重复S1-5直到遇到停止动作或到达最大迭代次数,获得目标片段。
进一步地,所述步骤S1中,由I3D或C3D网络对视频进行编码获得视频视觉特征,采用Skip-Thought对自然语言描述进行编码生成文本向量。
进一步地,所述全局状态向量由自然语言特征、跨模态片段特征、全局视觉特征和时间位置特征融合处理生成,其中,
所述自然语言特征由文本向量经过一层全联接层得到,
环境中的视频视觉特征经过两层Bi-GRU进行再编码获得再编码特征,所述全局视觉特征由再编码特征经过Mean-Pool层后生成,
所述再编码特征乘以选择滤波器生成的片段掩码后经过Mean-Pool层处理得到局部视觉特征,所述跨模态片段特征由局部视觉特征和自然语言特征融合后经过一层全联接层得到,
所述时间位置特征由当前片段时间位置经一层全联接层生成。
进一步地,所述受限监督网络包括tIoU回归模块和位置回归模块,tIoU表示当前片段与目标片段的重叠度。
进一步地,所述起点智能体和终点智能体均包括Actor-Critic模块和时间距离回归模块。
进一步地,所述下一步边界调整策略的动作包括以设定尺度前移或后移时间点或者停止,所述设定尺度为多级尺度。
进一步地,所述下一步边界调整策略由智能体的策略网络给出的动作所决定。
进一步地,所述多智能体边界感知网络通过端到端训练获得,训练过程中,智能体的Actor-Critic分支的参数
Figure BDA0002330015360000031
更新被定义为:
Figure BDA0002330015360000032
Figure BDA0002330015360000033
式中,πi为策略网络,其输出的
Figure BDA0002330015360000034
决定了此智能体的动作,H(.)为信息熵计算,α是全局学习速率,β是比例因子,i为估值网络,其输出的
Figure BDA00023300153600000318
是对当前状态下智能体的估值,
Figure BDA0002330015360000035
为智能体的最终累加奖励,
Figure BDA0002330015360000036
为智能体i采取的动作,st为全局状态向量,
Figure BDA0002330015360000037
为智能体i的策略网络参数的梯度,
Figure BDA0002330015360000038
为智能体i的估值网络参数的梯度;
智能体中的时间点回归tdi的参数
Figure BDA0002330015360000039
更新如下所示:
Figure BDA00023300153600000310
式中,
Figure BDA00023300153600000311
为当前片段的真实时间点距离,
Figure BDA00023300153600000312
为tdi预测的时间点距离,zt为tdi是否参与整体训练的信号,仅当tIoUt-1大于设定阈值时为1否则为0,
Figure BDA00023300153600000313
为智能体i的时间点回归网络参数的梯度;
受限监督网络cs的参数θcs更新如下所示:
Figure BDA00023300153600000314
式中,
Figure BDA00023300153600000315
分别为当前片段的真实tIoU值、时间点,
Figure BDA00023300153600000316
为cs预测的tIoU值、时间点,s、e分别表示起点和终点
Figure BDA00023300153600000317
为受限监督网络参数的梯度。
进一步地,所述智能体的最终累加奖励
Figure BDA0002330015360000041
的表达式为:
Figure BDA0002330015360000042
其中,
Figure BDA00023300153600000415
为智能体i在第t个时间步的奖励,t为当前代数,T为检索所需迭代数,γ为折扣因子;
所述
Figure BDA00023300153600000416
被定义为:
Figure BDA0002330015360000043
Figure BDA0002330015360000044
Figure BDA0002330015360000045
Figure BDA0002330015360000046
式中,奖励
Figure BDA00023300153600000417
由基础奖励
Figure BDA0002330015360000047
势能差
Figure BDA0002330015360000048
和终止奖励
Figure BDA0002330015360000049
组成,
Figure BDA00023300153600000410
为当前代数的时间点,
Figure BDA00023300153600000411
Figure BDA00023300153600000412
分别表示当前片段的起点和终点,为惩罚系数,
Figure BDA00023300153600000413
为当前时间点与目标时间点距,
Figure BDA00023300153600000414
为势能奖励,ζ为奖励系数,τ为评价检索结果好坏的阈值。
本发明将自然语言视频片段检索任务分解为起点检索和终点检索两个子任务,以具有时间边界感知的多智能体强化学习为基本框架。多智能体边界感知网络由观察网络、起点智能体、终点智能体和受限监督网络组成,其中边界感知智能体(即起点智能体和终点智能体)通过在多个方向和尺度调整时间点位置来使检索结果不断逼近目标片段。观察网络将环境中的视觉、文本信息在全局角度和局部角度进行语义交互,充分挖掘了视频跨模态间丰富的上下文信息,并结合了当前视频片段的时间点信息,使得输出的状态特征可以很好地理解视频片段间的结构语义信息。此外,受限监督网络用来限制状态特征,使其更适应于当前任务。为了突出起点和终点时间边界的独特性,两个智能体采用进行分布式学习,每个智能体拥有与其相对应的奖励机制。每个智能体除了Actor-Critic(演员-评价者)模块外还增加了时间距离回归模块。起点智能体和终点智能体在受限监督网络的辅助下,通过多尺度时间位置调整动作改变片段位置,最终精确定位到与查询文本语义匹配的片段的时间位置。
与现有技术相比,本发明具有如下有益效果:
(1)本发明提出一种多智能体边界感知网络模型,利用多智能体强化学习框架将视频片段检索任务分解为起点检索和终点检索两个子任务,通过在多个方向和尺度调整时间点位置来使检索结果不断逼近目标片段,增大片段选择范围的同时着重精细化定位,兼顾了片段选择的灵活性和模型的时空复杂度。
(2)观察网络将环境中的视觉、文本信息在全局角度和局部角度进行语义交互,充分挖掘了视频跨模态间丰富的上下文信息,并结合了当前视频片段的时间点信息,使得输出的状态特征可以很好地理解视频片段间的结构语义信息,受限监督网络用来限制状态特征,使其更适应于当前任务。本发明提出了两阶段的跨模态信息交互机制,充分挖掘了上下文的语义信息,为边界感知能力的实现打下重要基础。
(3)每个边界感知智能体除了Actor-Critic(演员-评价者)模块外还增加了时间距离回归模块,此模块可以通过推断当前片段时间点与目标时间点的距离来增强时间推理能力,从而使得模型的界限感知能力更为突出,比其他模型更能充分理解视频结构的关联。
(4)与现有技术相比,本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大,并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。
附图说明
图1为本发明的原理框架示意图;
图2为本发明中多智能体边界感知网络在Charades-STA数据集中的部分结果可视化说明,其中浅灰色箭头和浅灰色叉号表示起点智能体采取的调整边界的动作,深灰色箭头和深灰色叉号表示终点智能体采取的调整边界的动作,最上边的长条表示真实的目标片段,中间的灰色长条表示中间片段,最下边的长条表示最终的检索结果。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于多智能体边界感知网络的自然语言视频片段检索方法,能基于一句自然语言描述从某一视频中检索到对应的目标片段。该检索方法将任务分解为起点检索和终点检索两个子任务,通过边界感知智能体(包括起点智能体和终点智能体)在多个方向和尺度迭代调整时间边界使检索结果不断逼近目标片段。该方法以多智能体边界感知网络为基本框架,如图1所示,多智能体边界感知网络由观察网络、起点智能体、终点智能体和受限监督网络组成。观察网络将环境中的视觉、文本信息在全局角度和局部角度进行语义交互,充分挖掘了视频跨模态间丰富的上下文信息,并结合了当前视频片段的时间点信息,使得输出的状态特征可以很好地理解视频片段间的结构语义信息。受限监督网络用来限制状态特征,使其更适应于当前任务。两个智能体采用进行分布式学习,每个智能体拥有与其相对应的奖励机制,以突出起点和终点时间边界的独特性。
该方法具体包括以下步骤:
步骤1:对环境中的视频、自然语言描述进行编码,归一化当前片段的时间位置。
视频的视觉特征由I3D或C3D网络编码得到,自然语言描述经过Skip-Thought生成文本向量。本实施例中,片段的时间位置被初始化为[0.25N,0.75N],其中N表示视频长度。
步骤2:在观察网络中构建当前片段的全局状态向量。全局状态向量由自然语言特征、跨模态片段特征、全局视觉特征和时间位置特征融合处理生成。
本实施例中,自然语言特征由环境中的文本向量经过一层全联接层得到,维度为1024。环境中的视觉特征经过两层Bi-GRU进行再编码,全局视觉特征由再编码的视觉特征经过Mean-Pool层后生成,其中Bi-GRU有256个单元。此外,在再编码的视频特征中乘以选择滤波器生成的片段掩码后经过Mean-Pool层处理得到局部视觉特征。跨模态片段特征由局部视觉特征和自然语言特征融合后经过一层全联接层FC得到,是片段阶段的跨模态交互的结果。将当前片段时间位置送入一层全联接层生成时间位置特征,其维度为128。最后的全局状态向量由自然语言特征、全局视觉特征、跨模态特征和时间位置特征融合后经过一层全联接层生成,其维度为1024。
步骤3:在受限监督网络中限制全局状态向量。
受限监督网络由tIoU(当前片段与目标片段的重叠度)回归和位置回归两个模块组成,利用全局状态向量作为输入通过全连接层来推断当前片段的tIoU和时间位置,增加了对全局状态向量的限制,使其与当前片段的语义信息紧密相关,从而使全局状态向量更具有代表性。
步骤4:起点智能体和终点智能体根据全局状态向量分别给出下一步边界调整策略。
两个智能体均由时间点回归和Actor-Critic两个模块组成,其中,时间点回归是用来推断当前时间点与目标时间点的距离,协助智能体理解自身的任务从而作出更合理的位置调整策略。
起点和终点智能体的动作空间包括以设定尺度前移或后移时间点以及停止,所述设定尺度为多级尺度。本实施例的动作空间被定义为以下七个动作:把时间点前移∈1/∈2/∈3,把时间点后移∈1/∈2/∈3,停止。其中,∈1、∈2和∈3不同的时间点调整尺度,分别为0.1、0.05、0.02。通过起点动作和终点动作,可以确定下一个片段的时间位置。边界感知智能体可以通过大尺度位移∈1来粗略地定位目标片段,然后通过中尺度位移∈2和小尺度位移∈3进行微调,从而实现精准定位。
步骤5:根据两个智能体给出的边界调整策略更新环境中的片段的时间位置,重复步骤1-5直到遇到停止动作或到达最大迭代次数。
上述方法中使用的多智能体边界感知网络通过端到端训练获得,两个智能体采用进行分布式学习,每个智能体拥有与其相对应的奖励机制。
智能体i(i∈{start,end})在第t个时间步的奖励
Figure BDA00023300153600000714
与下一个片段的时间位置有关,被定义为:
Figure BDA0002330015360000071
Figure BDA0002330015360000072
Figure BDA0002330015360000073
Figure BDA0002330015360000074
其中,奖励
Figure BDA00023300153600000715
由基础奖励
Figure BDA0002330015360000075
势能差
Figure BDA0002330015360000076
和终止奖励
Figure BDA0002330015360000077
组成,t为当前代数,T为检索所需迭代数,γ为折扣因子,在ActivityNet Captions数据集上被设置为0.3,在Charades-STA数据集上被设置为0.4。以归一化时间点位置
Figure BDA0002330015360000078
(其中
Figure BDA0002330015360000079
表示起点,
Figure BDA00023300153600000710
表示终点)是否在
Figure BDA00023300153600000711
范围内为评判依据,
Figure BDA00023300153600000712
只有在
Figure BDA00023300153600000713
内才会有非负奖励,否则将会被惩罚,p为惩罚系数,本实施例中,p=-0.2;当
Figure BDA0002330015360000081
Figure BDA0002330015360000082
内时又根据当前时间点与目标时间点距离
Figure BDA0002330015360000083
细化奖励,使得智能体逐步靠近目标时间点。势能奖励
Figure BDA0002330015360000084
模拟时间点距离与好的检索结果的负相关关系。终止奖励
Figure BDA0002330015360000085
是由最后检索结果的时间点距离决定,当
Figure BDA0002330015360000086
时将会被奖励ζ,否则被惩罚-ζ,本实施例中ζ=1,τ为评价检索结果好坏的阈值,本实施例中τ=0.5。
由于本发明提出的模型为序列决策过程,因此需要构建最终结果与中间的状态的关联,因此需要把奖励
Figure BDA00023300153600000823
变为最终累加奖励
Figure BDA0002330015360000087
Figure BDA0002330015360000088
在多智能体边界感知网络的端到端训练中,边界感知智能体的Actor-Critic分支的参数
Figure BDA0002330015360000089
更新被定义为:
Figure BDA00023300153600000810
Figure BDA00023300153600000811
式中,πi为策略网络(policy network),其输出的
Figure BDA00023300153600000812
决定了此智能体的动作,H(.)为信息熵计算,α是全局学习速率,β是比例因子,本实施例中,α=0.001,β=0.1。vi为估值网络(value network),其输出的
Figure BDA00023300153600000813
是对当前状态下智能体的估值,用于辅助策略网络,让其做出当前动作判断。
Figure BDA00023300153600000814
为智能体的最终累加奖励,
Figure BDA00023300153600000815
为智能体i采取的动作,st为全局状态向量,
Figure BDA00023300153600000816
为智能体i的策略网络参数的梯度,
Figure BDA00023300153600000817
为智能体i的估值网络参数的梯度。
智能体中的时间点回归tdi的参数
Figure BDA00023300153600000818
更新如下所示:
Figure BDA00023300153600000819
式中的
Figure BDA00023300153600000820
为片段的真实时间点距离,
Figure BDA00023300153600000821
为tdi预测的时间点距离。zt为tdi是否参与整体训练的信号,仅当tIoUt-1>0.4时为1否则为0,
Figure BDA00023300153600000822
为智能体i的时间点回归网络参数的梯度。
受限监督网络cs的参数θcs更新如下所示:
Figure BDA0002330015360000091
式中的
Figure BDA0002330015360000092
分别为当前片段的真实tIoU值、时间点,
Figure BDA0002330015360000093
为cs预测的tIoU值、时间点,s、e分别表示起点和终点。
Figure BDA0002330015360000094
为受限监督网络参数的梯度。
本实施例的测试结果使用Acc@0.5和Acc@0.7进行评价,Acc@0.5和Acc@0.7表示目标片段和检索结果的tIoU是否分别高过0.5和0.7的阈值。Acc@0.5和Acc@0.7越大代表结果越好。
为了验证上述方法的性能,本实施例设计了以下两组实验。
实验一:多智能体边界感知网络与目前先进算法进行对比。
实验选取ActivityNet Captions和Charades-STA数据集进行相关比较,并从中选择一个实例进行可视化。如图2所示,本发明提出的Multi-Agent Boundary-aware Network(MABAN)通过迭代多尺度调整视频片段的边界,加深了视频片段结构化理解,可以实现精准定位。从表1、表2中可以看出,MABAN在两个数据集上的检索精度都明显高于其他先进算法,特别是在Acc@0.7指标上。Acc@0.7对检索结果和目标片段的重叠度要求更高,这说明本发明在检索精度上与其他算法相比具有较大的竞争优势。
表1本实验为在ActivityNet Captions数据集上与目前先进算法结果比较
方法 Acc@0.5 Acc@0.7
ABLR 36.79 -
MLVI 27.70 13.60
RWM 36.90 -
MABAN(Ours) 40.72 23.83
表2本实验为在Charades-STA数据集上与目前先进算法结果比较
Figure BDA0002330015360000095
Figure BDA0002330015360000101
实验二:本发明创新点的贡献程度。
本发明主要有三大创新点:多尺度位置调整、两阶段跨模片段交互(CMI)和时间点距离回归(TDR)。为了探究这三点的作用,在Charades-STA数据集上进行了相应的移除实验。构建了移除了三个点仅有大尺度位移的基本模型Base,具有中尺度位移的模型Middle,具有小尺度位移的模型Small。从表3的第3、4行可以看出,当移除多尺度调整,只剩大尺度位移时,检索精度有一定程度的下降,但是与其他先进算法相比仍然具有一定优势,这说明仅靠大尺度单一调整策略可以大致估计目标片段的位置。随着中尺度和小尺度位移策略的加入,检索精度有了较大提升。Base+Middle+Small+TDR是移除了CMI之后的模型,此模型的精度与MABAN相比有明显下降,这是由于本发明提出的CMI可以充分挖掘跨模态上下文信息,为视频结构化理解打下坚实基础。Base+Middle+Small+CMI为移除了TDR的模型,从表3可以看出,此模型的精度与MABAN相比有3%的下降,此模块主要是辅助模型加强边界感知推理能力,从而推进检索结果的进一步提升。从移除实验中可以看出,本文提出的多智能体边界感知结构成功应对了当前技术发展面临的视频检索中片段选择有限和视频结构理解不充分两大挑战,具有很大的商用潜力。
表3在Charades-STA数据集上的移除实验
方法 Acc@0.5 Acc@0.7
Base 34.73 16.51
Base+CMI+TDR 42.10 19.25
Base+CMI+TDR+Middle 44.27 22.42
Base+Middle+Small+TDR 37.63 16.99
Base+Middle+Small+CMI 43.09 21.75
MABAN(Ours) 46.99 24.06
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。

Claims (10)

1.一种基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。
2.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,该方法包括以下步骤:
S1:对环境中的视频和对应的自然语言描述进行编码,归一化当前片段的时间位置;
S2:在观察网络中构建当前片段的全局状态向量;
S3:在受限监督网络中限制全局状态向量;
S4:起点智能体和终点智能体根据步骤S3获得的全局状态向量分别给出下一步边界调整策略;
S5:根据步骤S4获得的边界调整策略更新环境中的片段的时间位置,重复S1-5直到遇到停止动作或到达最大迭代次数,获得目标片段。
3.根据权利要求2所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述步骤S1中,由I3D或C3D网络对视频进行编码获得视频视觉特征,采用Skip-Thought对自然语言描述进行编码生成文本向量。
4.根据权利要求3所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述全局状态向量由自然语言特征、跨模态片段特征、全局视觉特征和时间位置特征融合处理生成,其中,
所述自然语言特征由文本向量经过一层全联接层得到,
环境中的视频视觉特征经过两层Bi-GRU进行再编码获得再编码特征,所述全局视觉特征由再编码特征经过Mean-Pool层后生成,
所述再编码特征乘以选择滤波器生成的片段掩码后经过Mean-Pool层处理得到局部视觉特征,所述跨模态片段特征由局部视觉特征和自然语言特征融合后经过一层全联接层得到,
所述时间位置特征由当前片段时间位置经一层全联接层生成。
5.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述受限监督网络包括tIoU回归模块和位置回归模块,tIoU表示当前片段与目标片段的重叠度。
6.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述起点智能体和终点智能体均包括Actor-Critic模块和时间距离回归模块。
7.根据权利要求2所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述下一步边界调整策略的动作包括以设定尺度前移或后移时间点或者停止,所述设定尺度为多级尺度。
8.根据权利要求2所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述下一步边界调整策略由智能体的策略网络给出的动作所决定。
9.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述多智能体边界感知网络通过端到端训练获得,训练过程中,智能体的Actor-Critic分支的参数
Figure FDA0002330015350000021
更新被定义为:
Figure FDA0002330015350000023
Figure FDA0002330015350000024
式中,πi为策略网络,其输出的
Figure FDA0002330015350000025
决定了此智能体的动作,H(.)为信息熵计算,α是全局学习速率,β是比例因子,vi为估值网络,其输出的
Figure FDA0002330015350000026
是对当前状态下智能体的估值,
Figure FDA0002330015350000027
为智能体的最终累加奖励,
Figure FDA0002330015350000028
为智能体i采取的动作,st为全局状态向量,
Figure FDA0002330015350000029
为智能体i的策略网络参数的梯度,
Figure FDA00023300153500000210
为智能体i的估值网络参数的梯度;
智能体中的时间点回归tdi的参数
Figure FDA00023300153500000211
更新如下所示:
Figure FDA00023300153500000212
式中,
Figure FDA00023300153500000213
为当前片段的真实时间点距离,
Figure FDA00023300153500000214
为tdi预测的时间点距离,zt为tdi是否参与整体训练的信号,仅当tIoUt-1大于设定阈值时为1否则为0,
Figure FDA0002330015350000031
为智能体i的时间点回归网络参数的梯度;
受限监督网络cs的参数θcs更新如下所示:
Figure FDA0002330015350000032
式中,
Figure FDA0002330015350000033
分别为当前片段的真实tIoU值、时间点,
Figure FDA0002330015350000034
为cs预测的tIoU值、时间点,s、e分别表示起点和终点
Figure FDA0002330015350000035
为受限监督网络参数的梯度。
10.根据权利要求9所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述智能体的最终累加奖励
Figure FDA0002330015350000036
的表达式为:
Figure FDA0002330015350000037
其中,
Figure FDA00023300153500000319
为智能体i在第t个时间步的奖励,t为当前代数,T为检索所需迭代数,γ为折扣因子;
所述
Figure FDA00023300153500000320
被定义为:
Figure FDA0002330015350000038
Figure FDA0002330015350000039
Figure FDA00023300153500000310
Figure FDA00023300153500000311
式中,奖励
Figure FDA00023300153500000321
由基础奖励
Figure FDA00023300153500000312
势能差
Figure FDA00023300153500000322
和终止奖励
Figure FDA00023300153500000313
组成,
Figure FDA00023300153500000318
为当前代数的时间点,
Figure FDA00023300153500000314
Figure FDA00023300153500000315
分别表示当前片段的起点和终点,p为惩罚系数,
Figure FDA00023300153500000316
为当前时间点与目标时间点距,
Figure FDA00023300153500000317
为势能奖励,ζ为奖励系数,τ为评价检索结果好坏的阈值。
CN201911332422.8A 2019-12-22 2019-12-22 基于多智能体边界感知网络的自然语言视频片段检索方法 Active CN111198966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911332422.8A CN111198966B (zh) 2019-12-22 2019-12-22 基于多智能体边界感知网络的自然语言视频片段检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911332422.8A CN111198966B (zh) 2019-12-22 2019-12-22 基于多智能体边界感知网络的自然语言视频片段检索方法

Publications (2)

Publication Number Publication Date
CN111198966A true CN111198966A (zh) 2020-05-26
CN111198966B CN111198966B (zh) 2023-09-26

Family

ID=70747069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911332422.8A Active CN111198966B (zh) 2019-12-22 2019-12-22 基于多智能体边界感知网络的自然语言视频片段检索方法

Country Status (1)

Country Link
CN (1) CN111198966B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112087672A (zh) * 2020-08-13 2020-12-15 浙江大学 一种使用智能终端及服务器的视频流描述生成方法
CN112215328A (zh) * 2020-10-29 2021-01-12 腾讯科技(深圳)有限公司 一种智能体的训练、基于智能体的动作控制方法及装置
CN113204675A (zh) * 2021-07-07 2021-08-03 成都考拉悠然科技有限公司 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN114581748A (zh) * 2022-05-06 2022-06-03 南京大学 基于机器学习的多智能体感知融合系统及其实现方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829797A (zh) * 2018-04-25 2018-11-16 苏州思必驰信息科技有限公司 多智能体对话策略系统构建方法及自适应方法
CN109062901A (zh) * 2018-08-14 2018-12-21 第四范式(北京)技术有限公司 神经网络训练方法和装置及命名实体识别方法和装置
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110377792A (zh) * 2019-06-14 2019-10-25 浙江大学 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN108829797A (zh) * 2018-04-25 2018-11-16 苏州思必驰信息科技有限公司 多智能体对话策略系统构建方法及自适应方法
CN109062901A (zh) * 2018-08-14 2018-12-21 第四范式(北京)技术有限公司 神经网络训练方法和装置及命名实体识别方法和装置
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110377792A (zh) * 2019-06-14 2019-10-25 浙江大学 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG YANG; JIE ZHOU; JIANGBO AI; YI BIN; ALAN HANJALIC; HENG TAO SHEN; YANLI JI: "Video Captioning by Adversarial LSTM", vol. 27 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112087672A (zh) * 2020-08-13 2020-12-15 浙江大学 一种使用智能终端及服务器的视频流描述生成方法
CN112215328A (zh) * 2020-10-29 2021-01-12 腾讯科技(深圳)有限公司 一种智能体的训练、基于智能体的动作控制方法及装置
CN112215328B (zh) * 2020-10-29 2024-04-05 腾讯科技(深圳)有限公司 一种智能体的训练、基于智能体的动作控制方法及装置
CN113204675A (zh) * 2021-07-07 2021-08-03 成都考拉悠然科技有限公司 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN114581748A (zh) * 2022-05-06 2022-06-03 南京大学 基于机器学习的多智能体感知融合系统及其实现方法
CN114581748B (zh) * 2022-05-06 2022-09-23 南京大学 基于机器学习的多智能体感知融合系统及其实现方法

Also Published As

Publication number Publication date
CN111198966B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN111198966A (zh) 基于多智能体边界感知网络的自然语言视频片段检索方法
CN110223517B (zh) 基于时空相关性的短时交通流量预测方法
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
Chen et al. Deep reinforcement learning in recommender systems: A survey and new perspectives
WO2020047739A1 (zh) 基于多时序属性元素深度特征的小麦重度病害预测方法
CN112231489B (zh) 防疫机器人知识学习与迁移方法和系统
Saputra et al. Learning monocular visual odometry through geometry-aware curriculum learning
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN109409307B (zh) 一种基于时空上下文分析的在线视频行为检测方法
CN111950393B (zh) 一种基于边界搜索智能体的时序动作片段分割方法
CN107146237A (zh) 一种基于在线状态学习与估计的目标跟踪方法
CN114519145A (zh) 一种基于图神经网络挖掘用户长短期兴趣的序列推荐方法
CN111105442B (zh) 切换式目标跟踪方法
Wu et al. Vision-language navigation: a survey and taxonomy
Cao et al. An overview of deep reinforcement learning
Ramasso et al. Human action recognition in videos based on the transferable belief model: application to athletics jumps
Charalambous et al. GREIL-Crowds: Crowd Simulation with Deep Reinforcement Learning and Examples
CN113704438A (zh) 一种基于分层注意力机制的异构图的会话推荐方法
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
Xu et al. An improvement of loop closure detection based on bow for ratslam
Li et al. ANN: a heuristic search algorithm based on artificial neural networks
CN113869170A (zh) 一种基于图划分卷积神经网络的行人轨迹预测方法
CN114997464A (zh) 一种基于图时序信息学习的流行度预测方法
Tran Sslayout360: Semi-supervised indoor layout estimation from 360deg panorama
Zeng et al. Reinforced tracker based on hierarchical convolutional features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant