CN111198966A - 基于多智能体边界感知网络的自然语言视频片段检索方法 - Google Patents
基于多智能体边界感知网络的自然语言视频片段检索方法 Download PDFInfo
- Publication number
- CN111198966A CN111198966A CN201911332422.8A CN201911332422A CN111198966A CN 111198966 A CN111198966 A CN 111198966A CN 201911332422 A CN201911332422 A CN 201911332422A CN 111198966 A CN111198966 A CN 111198966A
- Authority
- CN
- China
- Prior art keywords
- agent
- network
- natural language
- boundary
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000008447 perception Effects 0.000 title claims abstract description 24
- 239000003795 chemical substances by application Substances 0.000 claims description 105
- 239000013598 vector Substances 0.000 claims description 30
- 230000000007 visual effect Effects 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 19
- 239000012634 fragment Substances 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000005381 potential energy Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000006073 displacement reaction Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。与现有技术相比,本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大,并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。
Description
技术领域
本发明属于视频检索技术领域,涉及一种自然语言视频片段检索方法,尤其是涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法。
背景技术
在近几年中,由于移动互联网的高速发展,抖音、bilibili、爱奇艺、斗鱼等视频网站方兴未艾,成为人们娱乐生活中不可或缺的重要组成部分。与此同时,国家加大了对视频监控的投入,从而对视频理解提出了更高的需求。自然语言视频检索作为视频理解方向的一个迅速发展的分支,融合了自然语言处理和计算机视觉分析,旨在在一个长视频中检索出与给定文本描述查询语义相关的片段,在安全监控、短视频检索、智能教学等领域具有重要应用。
在该任务中,目前存在的技术主要依赖于在人工预定义的候选片段,通过遍历所有候选片段来选择最符合文本描述的片段作为检索结果。这种方法由于候选区域过多,导致模型的训练参数过多,提升了算法的时间和空间复杂度。更为重要的是,此类方法不能涵盖广泛的片段定义范围,忽略了片段的多尺度结构可能性,从而导致片段检索精度受到较大的影响。此外,对视频不能进行充分的结构化理解是当前研究技术面临的另一个重要挑战。例如,考虑像“一个人离开衣橱间并关上房间门”这样的文本查询,它可以被理解为“离开衣橱间”稍早于“关上房间门”,并且两个事件之间拥有同时发生的联系。这样复杂的语义关联需要建立在对视频片段的上下文信息进行充分理解的基础上,然而传统的视频片段检索技术侧重于对视频整体的研究,忽略了视频片段之间的语义关联,从而经常出现查询文本与视频片段无法匹配的情况。采用注意力机制建立视频片段和文本关系的方法虽然在一定程度上缓解了上述问题,但是缺乏了视频时间推断能力,仍然不能充分理解视频的结构关联,检索准确率因此受到限制。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于多智能体边界感知网络的自然语言视频片段检索方法。
本发明的目的可以通过以下技术方案来实现:
一种基于多智能体边界感知网络的自然语言视频片段检索方法,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。
进一步地,该方法包括以下步骤:
S1:对环境中的视频和对应的自然语言描述进行编码,归一化当前片段的时间位置;
S2:在观察网络中构建当前片段的全局状态向量;
S3:在受限监督网络中限制全局状态向量;
S4:起点智能体和终点智能体根据步骤S3获得的全局状态向量分别给出下一步边界调整策略;
S5:根据步骤S4获得的边界调整策略更新环境中的片段的时间位置,重复S1-5直到遇到停止动作或到达最大迭代次数,获得目标片段。
进一步地,所述步骤S1中,由I3D或C3D网络对视频进行编码获得视频视觉特征,采用Skip-Thought对自然语言描述进行编码生成文本向量。
进一步地,所述全局状态向量由自然语言特征、跨模态片段特征、全局视觉特征和时间位置特征融合处理生成,其中,
所述自然语言特征由文本向量经过一层全联接层得到,
环境中的视频视觉特征经过两层Bi-GRU进行再编码获得再编码特征,所述全局视觉特征由再编码特征经过Mean-Pool层后生成,
所述再编码特征乘以选择滤波器生成的片段掩码后经过Mean-Pool层处理得到局部视觉特征,所述跨模态片段特征由局部视觉特征和自然语言特征融合后经过一层全联接层得到,
所述时间位置特征由当前片段时间位置经一层全联接层生成。
进一步地,所述受限监督网络包括tIoU回归模块和位置回归模块,tIoU表示当前片段与目标片段的重叠度。
进一步地,所述起点智能体和终点智能体均包括Actor-Critic模块和时间距离回归模块。
进一步地,所述下一步边界调整策略的动作包括以设定尺度前移或后移时间点或者停止,所述设定尺度为多级尺度。
进一步地,所述下一步边界调整策略由智能体的策略网络给出的动作所决定。
式中,πi为策略网络,其输出的决定了此智能体的动作,H(.)为信息熵计算,α是全局学习速率,β是比例因子,i为估值网络,其输出的是对当前状态下智能体的估值,为智能体的最终累加奖励,为智能体i采取的动作,st为全局状态向量,为智能体i的策略网络参数的梯度,为智能体i的估值网络参数的梯度;
受限监督网络cs的参数θcs更新如下所示:
本发明将自然语言视频片段检索任务分解为起点检索和终点检索两个子任务,以具有时间边界感知的多智能体强化学习为基本框架。多智能体边界感知网络由观察网络、起点智能体、终点智能体和受限监督网络组成,其中边界感知智能体(即起点智能体和终点智能体)通过在多个方向和尺度调整时间点位置来使检索结果不断逼近目标片段。观察网络将环境中的视觉、文本信息在全局角度和局部角度进行语义交互,充分挖掘了视频跨模态间丰富的上下文信息,并结合了当前视频片段的时间点信息,使得输出的状态特征可以很好地理解视频片段间的结构语义信息。此外,受限监督网络用来限制状态特征,使其更适应于当前任务。为了突出起点和终点时间边界的独特性,两个智能体采用进行分布式学习,每个智能体拥有与其相对应的奖励机制。每个智能体除了Actor-Critic(演员-评价者)模块外还增加了时间距离回归模块。起点智能体和终点智能体在受限监督网络的辅助下,通过多尺度时间位置调整动作改变片段位置,最终精确定位到与查询文本语义匹配的片段的时间位置。
与现有技术相比,本发明具有如下有益效果:
(1)本发明提出一种多智能体边界感知网络模型,利用多智能体强化学习框架将视频片段检索任务分解为起点检索和终点检索两个子任务,通过在多个方向和尺度调整时间点位置来使检索结果不断逼近目标片段,增大片段选择范围的同时着重精细化定位,兼顾了片段选择的灵活性和模型的时空复杂度。
(2)观察网络将环境中的视觉、文本信息在全局角度和局部角度进行语义交互,充分挖掘了视频跨模态间丰富的上下文信息,并结合了当前视频片段的时间点信息,使得输出的状态特征可以很好地理解视频片段间的结构语义信息,受限监督网络用来限制状态特征,使其更适应于当前任务。本发明提出了两阶段的跨模态信息交互机制,充分挖掘了上下文的语义信息,为边界感知能力的实现打下重要基础。
(3)每个边界感知智能体除了Actor-Critic(演员-评价者)模块外还增加了时间距离回归模块,此模块可以通过推断当前片段时间点与目标时间点的距离来增强时间推理能力,从而使得模型的界限感知能力更为突出,比其他模型更能充分理解视频结构的关联。
(4)与现有技术相比,本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大,并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。
附图说明
图1为本发明的原理框架示意图;
图2为本发明中多智能体边界感知网络在Charades-STA数据集中的部分结果可视化说明,其中浅灰色箭头和浅灰色叉号表示起点智能体采取的调整边界的动作,深灰色箭头和深灰色叉号表示终点智能体采取的调整边界的动作,最上边的长条表示真实的目标片段,中间的灰色长条表示中间片段,最下边的长条表示最终的检索结果。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于多智能体边界感知网络的自然语言视频片段检索方法,能基于一句自然语言描述从某一视频中检索到对应的目标片段。该检索方法将任务分解为起点检索和终点检索两个子任务,通过边界感知智能体(包括起点智能体和终点智能体)在多个方向和尺度迭代调整时间边界使检索结果不断逼近目标片段。该方法以多智能体边界感知网络为基本框架,如图1所示,多智能体边界感知网络由观察网络、起点智能体、终点智能体和受限监督网络组成。观察网络将环境中的视觉、文本信息在全局角度和局部角度进行语义交互,充分挖掘了视频跨模态间丰富的上下文信息,并结合了当前视频片段的时间点信息,使得输出的状态特征可以很好地理解视频片段间的结构语义信息。受限监督网络用来限制状态特征,使其更适应于当前任务。两个智能体采用进行分布式学习,每个智能体拥有与其相对应的奖励机制,以突出起点和终点时间边界的独特性。
该方法具体包括以下步骤:
步骤1:对环境中的视频、自然语言描述进行编码,归一化当前片段的时间位置。
视频的视觉特征由I3D或C3D网络编码得到,自然语言描述经过Skip-Thought生成文本向量。本实施例中,片段的时间位置被初始化为[0.25N,0.75N],其中N表示视频长度。
步骤2:在观察网络中构建当前片段的全局状态向量。全局状态向量由自然语言特征、跨模态片段特征、全局视觉特征和时间位置特征融合处理生成。
本实施例中,自然语言特征由环境中的文本向量经过一层全联接层得到,维度为1024。环境中的视觉特征经过两层Bi-GRU进行再编码,全局视觉特征由再编码的视觉特征经过Mean-Pool层后生成,其中Bi-GRU有256个单元。此外,在再编码的视频特征中乘以选择滤波器生成的片段掩码后经过Mean-Pool层处理得到局部视觉特征。跨模态片段特征由局部视觉特征和自然语言特征融合后经过一层全联接层FC得到,是片段阶段的跨模态交互的结果。将当前片段时间位置送入一层全联接层生成时间位置特征,其维度为128。最后的全局状态向量由自然语言特征、全局视觉特征、跨模态特征和时间位置特征融合后经过一层全联接层生成,其维度为1024。
步骤3:在受限监督网络中限制全局状态向量。
受限监督网络由tIoU(当前片段与目标片段的重叠度)回归和位置回归两个模块组成,利用全局状态向量作为输入通过全连接层来推断当前片段的tIoU和时间位置,增加了对全局状态向量的限制,使其与当前片段的语义信息紧密相关,从而使全局状态向量更具有代表性。
步骤4:起点智能体和终点智能体根据全局状态向量分别给出下一步边界调整策略。
两个智能体均由时间点回归和Actor-Critic两个模块组成,其中,时间点回归是用来推断当前时间点与目标时间点的距离,协助智能体理解自身的任务从而作出更合理的位置调整策略。
起点和终点智能体的动作空间包括以设定尺度前移或后移时间点以及停止,所述设定尺度为多级尺度。本实施例的动作空间被定义为以下七个动作:把时间点前移∈1/∈2/∈3,把时间点后移∈1/∈2/∈3,停止。其中,∈1、∈2和∈3不同的时间点调整尺度,分别为0.1、0.05、0.02。通过起点动作和终点动作,可以确定下一个片段的时间位置。边界感知智能体可以通过大尺度位移∈1来粗略地定位目标片段,然后通过中尺度位移∈2和小尺度位移∈3进行微调,从而实现精准定位。
步骤5:根据两个智能体给出的边界调整策略更新环境中的片段的时间位置,重复步骤1-5直到遇到停止动作或到达最大迭代次数。
上述方法中使用的多智能体边界感知网络通过端到端训练获得,两个智能体采用进行分布式学习,每个智能体拥有与其相对应的奖励机制。
其中,奖励由基础奖励势能差和终止奖励组成,t为当前代数,T为检索所需迭代数,γ为折扣因子,在ActivityNet Captions数据集上被设置为0.3,在Charades-STA数据集上被设置为0.4。以归一化时间点位置(其中表示起点,表示终点)是否在范围内为评判依据,只有在内才会有非负奖励,否则将会被惩罚,p为惩罚系数,本实施例中,p=-0.2;当在内时又根据当前时间点与目标时间点距离细化奖励,使得智能体逐步靠近目标时间点。势能奖励模拟时间点距离与好的检索结果的负相关关系。终止奖励是由最后检索结果的时间点距离决定,当时将会被奖励ζ,否则被惩罚-ζ,本实施例中ζ=1,τ为评价检索结果好坏的阈值,本实施例中τ=0.5。
式中,πi为策略网络(policy network),其输出的决定了此智能体的动作,H(.)为信息熵计算,α是全局学习速率,β是比例因子,本实施例中,α=0.001,β=0.1。vi为估值网络(value network),其输出的是对当前状态下智能体的估值,用于辅助策略网络,让其做出当前动作判断。为智能体的最终累加奖励,为智能体i采取的动作,st为全局状态向量,为智能体i的策略网络参数的梯度,为智能体i的估值网络参数的梯度。
受限监督网络cs的参数θcs更新如下所示:
本实施例的测试结果使用Acc@0.5和Acc@0.7进行评价,Acc@0.5和Acc@0.7表示目标片段和检索结果的tIoU是否分别高过0.5和0.7的阈值。Acc@0.5和Acc@0.7越大代表结果越好。
为了验证上述方法的性能,本实施例设计了以下两组实验。
实验一:多智能体边界感知网络与目前先进算法进行对比。
实验选取ActivityNet Captions和Charades-STA数据集进行相关比较,并从中选择一个实例进行可视化。如图2所示,本发明提出的Multi-Agent Boundary-aware Network(MABAN)通过迭代多尺度调整视频片段的边界,加深了视频片段结构化理解,可以实现精准定位。从表1、表2中可以看出,MABAN在两个数据集上的检索精度都明显高于其他先进算法,特别是在Acc@0.7指标上。Acc@0.7对检索结果和目标片段的重叠度要求更高,这说明本发明在检索精度上与其他算法相比具有较大的竞争优势。
表1本实验为在ActivityNet Captions数据集上与目前先进算法结果比较
方法 | Acc@0.5 | Acc@0.7 |
ABLR | 36.79 | - |
MLVI | 27.70 | 13.60 |
RWM | 36.90 | - |
MABAN(Ours) | 40.72 | 23.83 |
表2本实验为在Charades-STA数据集上与目前先进算法结果比较
实验二:本发明创新点的贡献程度。
本发明主要有三大创新点:多尺度位置调整、两阶段跨模片段交互(CMI)和时间点距离回归(TDR)。为了探究这三点的作用,在Charades-STA数据集上进行了相应的移除实验。构建了移除了三个点仅有大尺度位移的基本模型Base,具有中尺度位移的模型Middle,具有小尺度位移的模型Small。从表3的第3、4行可以看出,当移除多尺度调整,只剩大尺度位移时,检索精度有一定程度的下降,但是与其他先进算法相比仍然具有一定优势,这说明仅靠大尺度单一调整策略可以大致估计目标片段的位置。随着中尺度和小尺度位移策略的加入,检索精度有了较大提升。Base+Middle+Small+TDR是移除了CMI之后的模型,此模型的精度与MABAN相比有明显下降,这是由于本发明提出的CMI可以充分挖掘跨模态上下文信息,为视频结构化理解打下坚实基础。Base+Middle+Small+CMI为移除了TDR的模型,从表3可以看出,此模型的精度与MABAN相比有3%的下降,此模块主要是辅助模型加强边界感知推理能力,从而推进检索结果的进一步提升。从移除实验中可以看出,本文提出的多智能体边界感知结构成功应对了当前技术发展面临的视频检索中片段选择有限和视频结构理解不充分两大挑战,具有很大的商用潜力。
表3在Charades-STA数据集上的移除实验
方法 | Acc@0.5 | Acc@0.7 |
Base | 34.73 | 16.51 |
Base+CMI+TDR | 42.10 | 19.25 |
Base+CMI+TDR+Middle | 44.27 | 22.42 |
Base+Middle+Small+TDR | 37.63 | 16.99 |
Base+Middle+Small+CMI | 43.09 | 21.75 |
MABAN(Ours) | 46.99 | 24.06 |
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。
Claims (10)
1.一种基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。
2.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,该方法包括以下步骤:
S1:对环境中的视频和对应的自然语言描述进行编码,归一化当前片段的时间位置;
S2:在观察网络中构建当前片段的全局状态向量;
S3:在受限监督网络中限制全局状态向量;
S4:起点智能体和终点智能体根据步骤S3获得的全局状态向量分别给出下一步边界调整策略;
S5:根据步骤S4获得的边界调整策略更新环境中的片段的时间位置,重复S1-5直到遇到停止动作或到达最大迭代次数,获得目标片段。
3.根据权利要求2所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述步骤S1中,由I3D或C3D网络对视频进行编码获得视频视觉特征,采用Skip-Thought对自然语言描述进行编码生成文本向量。
4.根据权利要求3所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述全局状态向量由自然语言特征、跨模态片段特征、全局视觉特征和时间位置特征融合处理生成,其中,
所述自然语言特征由文本向量经过一层全联接层得到,
环境中的视频视觉特征经过两层Bi-GRU进行再编码获得再编码特征,所述全局视觉特征由再编码特征经过Mean-Pool层后生成,
所述再编码特征乘以选择滤波器生成的片段掩码后经过Mean-Pool层处理得到局部视觉特征,所述跨模态片段特征由局部视觉特征和自然语言特征融合后经过一层全联接层得到,
所述时间位置特征由当前片段时间位置经一层全联接层生成。
5.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述受限监督网络包括tIoU回归模块和位置回归模块,tIoU表示当前片段与目标片段的重叠度。
6.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述起点智能体和终点智能体均包括Actor-Critic模块和时间距离回归模块。
7.根据权利要求2所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述下一步边界调整策略的动作包括以设定尺度前移或后移时间点或者停止,所述设定尺度为多级尺度。
8.根据权利要求2所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述下一步边界调整策略由智能体的策略网络给出的动作所决定。
9.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述多智能体边界感知网络通过端到端训练获得,训练过程中,智能体的Actor-Critic分支的参数更新被定义为:
式中,πi为策略网络,其输出的决定了此智能体的动作,H(.)为信息熵计算,α是全局学习速率,β是比例因子,vi为估值网络,其输出的是对当前状态下智能体的估值,为智能体的最终累加奖励,为智能体i采取的动作,st为全局状态向量,为智能体i的策略网络参数的梯度,为智能体i的估值网络参数的梯度;
受限监督网络cs的参数θcs更新如下所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332422.8A CN111198966B (zh) | 2019-12-22 | 2019-12-22 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332422.8A CN111198966B (zh) | 2019-12-22 | 2019-12-22 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111198966A true CN111198966A (zh) | 2020-05-26 |
CN111198966B CN111198966B (zh) | 2023-09-26 |
Family
ID=70747069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911332422.8A Active CN111198966B (zh) | 2019-12-22 | 2019-12-22 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111198966B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112087672A (zh) * | 2020-08-13 | 2020-12-15 | 浙江大学 | 一种使用智能终端及服务器的视频流描述生成方法 |
CN112215328A (zh) * | 2020-10-29 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 一种智能体的训练、基于智能体的动作控制方法及装置 |
CN113204675A (zh) * | 2021-07-07 | 2021-08-03 | 成都考拉悠然科技有限公司 | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 |
CN114581748A (zh) * | 2022-05-06 | 2022-06-03 | 南京大学 | 基于机器学习的多智能体感知融合系统及其实现方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829797A (zh) * | 2018-04-25 | 2018-11-16 | 苏州思必驰信息科技有限公司 | 多智能体对话策略系统构建方法及自适应方法 |
CN109062901A (zh) * | 2018-08-14 | 2018-12-21 | 第四范式(北京)技术有限公司 | 神经网络训练方法和装置及命名实体识别方法和装置 |
CN109978176A (zh) * | 2019-03-05 | 2019-07-05 | 华南理工大学 | 一种基于状态动态感知的多智能体合作学习方法 |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN110377792A (zh) * | 2019-06-14 | 2019-10-25 | 浙江大学 | 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法 |
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
CN110475129A (zh) * | 2018-03-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、介质及服务器 |
-
2019
- 2019-12-22 CN CN201911332422.8A patent/CN111198966B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110475129A (zh) * | 2018-03-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、介质及服务器 |
CN108829797A (zh) * | 2018-04-25 | 2018-11-16 | 苏州思必驰信息科技有限公司 | 多智能体对话策略系统构建方法及自适应方法 |
CN109062901A (zh) * | 2018-08-14 | 2018-12-21 | 第四范式(北京)技术有限公司 | 神经网络训练方法和装置及命名实体识别方法和装置 |
CN109978176A (zh) * | 2019-03-05 | 2019-07-05 | 华南理工大学 | 一种基于状态动态感知的多智能体合作学习方法 |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN110377792A (zh) * | 2019-06-14 | 2019-10-25 | 浙江大学 | 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法 |
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
YANG YANG; JIE ZHOU; JIANGBO AI; YI BIN; ALAN HANJALIC; HENG TAO SHEN; YANLI JI: "Video Captioning by Adversarial LSTM", vol. 27 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112087672A (zh) * | 2020-08-13 | 2020-12-15 | 浙江大学 | 一种使用智能终端及服务器的视频流描述生成方法 |
CN112215328A (zh) * | 2020-10-29 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 一种智能体的训练、基于智能体的动作控制方法及装置 |
CN112215328B (zh) * | 2020-10-29 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 一种智能体的训练、基于智能体的动作控制方法及装置 |
CN113204675A (zh) * | 2021-07-07 | 2021-08-03 | 成都考拉悠然科技有限公司 | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 |
CN114581748A (zh) * | 2022-05-06 | 2022-06-03 | 南京大学 | 基于机器学习的多智能体感知融合系统及其实现方法 |
CN114581748B (zh) * | 2022-05-06 | 2022-09-23 | 南京大学 | 基于机器学习的多智能体感知融合系统及其实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111198966B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111198966A (zh) | 基于多智能体边界感知网络的自然语言视频片段检索方法 | |
CN110223517B (zh) | 基于时空相关性的短时交通流量预测方法 | |
CN110874578B (zh) | 一种基于强化学习的无人机视角车辆识别追踪方法 | |
Chen et al. | Deep reinforcement learning in recommender systems: A survey and new perspectives | |
WO2020047739A1 (zh) | 基于多时序属性元素深度特征的小麦重度病害预测方法 | |
CN112231489B (zh) | 防疫机器人知识学习与迁移方法和系统 | |
Saputra et al. | Learning monocular visual odometry through geometry-aware curriculum learning | |
CN109919221B (zh) | 基于双向双注意力机制图像描述方法 | |
CN109409307B (zh) | 一种基于时空上下文分析的在线视频行为检测方法 | |
CN111950393B (zh) | 一种基于边界搜索智能体的时序动作片段分割方法 | |
CN107146237A (zh) | 一种基于在线状态学习与估计的目标跟踪方法 | |
CN114519145A (zh) | 一种基于图神经网络挖掘用户长短期兴趣的序列推荐方法 | |
CN111105442B (zh) | 切换式目标跟踪方法 | |
Wu et al. | Vision-language navigation: a survey and taxonomy | |
Cao et al. | An overview of deep reinforcement learning | |
Ramasso et al. | Human action recognition in videos based on the transferable belief model: application to athletics jumps | |
Charalambous et al. | GREIL-Crowds: Crowd Simulation with Deep Reinforcement Learning and Examples | |
CN113704438A (zh) | 一种基于分层注意力机制的异构图的会话推荐方法 | |
Ejaz et al. | Autonomous visual navigation using deep reinforcement learning: An overview | |
Xu et al. | An improvement of loop closure detection based on bow for ratslam | |
Li et al. | ANN: a heuristic search algorithm based on artificial neural networks | |
CN113869170A (zh) | 一种基于图划分卷积神经网络的行人轨迹预测方法 | |
CN114997464A (zh) | 一种基于图时序信息学习的流行度预测方法 | |
Tran | Sslayout360: Semi-supervised indoor layout estimation from 360deg panorama | |
Zeng et al. | Reinforced tracker based on hierarchical convolutional features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |