CN111274438A - 一种语言描述引导的视频时序定位方法 - Google Patents

一种语言描述引导的视频时序定位方法 Download PDF

Info

Publication number
CN111274438A
CN111274438A CN202010040451.3A CN202010040451A CN111274438A CN 111274438 A CN111274438 A CN 111274438A CN 202010040451 A CN202010040451 A CN 202010040451A CN 111274438 A CN111274438 A CN 111274438A
Authority
CN
China
Prior art keywords
strategy
modal
leaf
video
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010040451.3A
Other languages
English (en)
Other versions
CN111274438B (zh
Inventor
李冠彬
吴捷
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010040451.3A priority Critical patent/CN111274438B/zh
Publication of CN111274438A publication Critical patent/CN111274438A/zh
Application granted granted Critical
Publication of CN111274438B publication Critical patent/CN111274438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种语言描述引导的视频时序定位方法,包括如下步骤:步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进,本发明通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程,可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。

Description

一种语言描述引导的视频时序定位方法
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于树状结构和渐进强化学习来实现语言描述引导的视频时序定位方法。
背景技术
自然语言的视频时序定位这一任务是计算机视觉和视频分析领域新兴的又具有挑战性的任务。其目标是确定未修剪视频中与给定自然语言对应的片段的时间边界。该任务与动作时序定位任务十分相关的,与动作时序定位任务相比,该任务更具挑战性:1)其不仅没有预定义的动作列表与标签,而且可能包含复杂的描述。2)该任务需要模型能够建立语言模态与视觉模态的关系,对多模态特征进行建模,对自然语言和视频内容有深入的理解。自然语言的视频时序定位任务涉及到视频分析、多模态表示、多模态交互、信息检索等许多高层的人工智能任务。
基于时间滑动窗口的遍历排序方法近年来在该领域取得了非常好的成绩。该方法首先通过设置滑动窗口来生成大量的候选边界框,接着把候选边界的视频信息送到匹配网络中得到置信度得分,最后根据置信度得分来获得整个视频的定位/预测结果。然而,该方法依赖于外部滑动窗口的匹配和排序,导致了效率低下,边界框的不灵活性和额外的空间消耗,而且该方法也偏离了人的感知机制。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种语言描述引导的视频时序定位方法,以通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程,可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。
为达上述目的,本发明提出一种语言描述引导的视频时序定位方法,包括如下步骤:
步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;
步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;
步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进。
优选地,步骤S1进一步包括:
步骤S100,利用3D卷积神经网络提取输入视频的全局和当前边界框内视频的局部特征;
步骤S101,利用Skip-thought技术提取自然语言描述的全局表示;
步骤S102,根据上述特征,利用门关注机制提取语言和视觉模态的多模态融合表征。
优选地,于步骤S1中,利用3D卷积神经网络提取输入视频的全局特征Vg和当前边界框内视频的局部表示
Figure BDA0002367568920000021
然后利用Skip-thought技术来提取自然语言描述的全局表示E,最后采用门注意力机制来获取多模态表示:
Figure BDA0002367568920000022
Figure BDA0002367568920000023
其中,
Figure BDA0002367568920000024
Figure BDA0002367568920000025
是分别表示全局与局部的多模态关注表示,σ是激活函数logistic sigmoid,
Figure BDA0002367568920000026
表示向量点乘。
优选地,于步骤S2中,所述树状结构策略包含根策略和叶策略,所述根策略决定主要依赖哪个子叶策略,叶策略对应于五个高级语义分支,所选的语义分支通过相应的子网络推理一个该分支下更加精炼的动作。
优选地,所述五个高级语义分支分别为尺度变化,左显著移动,右显著移动,左精细调整以及右精细调整。
优选地,步骤S3进一步包括:
步骤S300,利用外部奖赏训练叶策略的actor分支;
步骤S301,用MSE损失函数训练叶策略的critic分支;
步骤S302,利用外部奖赏和内部奖赏相结合的方法来训练根策略的actor分支;
步骤S303,利用MSE损失函数训练根策略的critic分支;
步骤S304,基于渐进强化学习机制,根据迭代次数计算目前选择的策略并训练。
优选地,于步骤S300中,所述叶策略的奖励函数
Figure BDA0002367568920000039
揭示了原始动作
Figure BDA00023675689200000310
对当前环境的影响,其在外部环境中直接获得:
Figure BDA0002367568920000031
其中ε代表的是奖励系数,Ut代表的是当前时刻的IoU大小。
优选地,所述根策略的奖励函数
Figure BDA0002367568920000032
设计如下:
Figure BDA0002367568920000033
Figure BDA0002367568920000034
为遍历所有可能的分支,并将相应的原始操作推理到环境中,生成5个不同的IoU中的最大IoU。
优选地,于步骤S304中,所述渐进强化学习机制为:对于每一组k迭代,渐进强化学习保持一个策略固定,只训练另一个策略,当达到k次迭代时,它会切换训练的策略。
优选地,基于树形结构策略的渐进强化学习的交替训练过程概括为:
Figure BDA0002367568920000035
Figure BDA0002367568920000036
其中
Figure BDA0002367568920000037
是一个指示训练策略选择的二进制变量,i表示整个训练过程中的迭代次数,
Figure BDA0002367568920000038
是取除法运算的下限整数,mod是模函数,Lleaf为训练所述叶策略的损失函数,Lroot为训练所述根策略的损失函数。
与现有技术相比,本发明一种语言描述引导的视频时序定位方法通过提取跨模态特征的多模态特征编码网络,学习视频和自然语言的跨模态信息以获得语言和视觉模态的多模态融合表征,并采用层次化的树状结构策略,对跨模态信息进行层次化分解,最后采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进,本可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。
附图说明
图1为本发明一种语言描述引导的视频时序定位方法的步骤流程图;
图2为本发明具体实施例中语言描述引导的视频时序定位的流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种语言描述引导的视频时序定位方法的步骤流程图,图2为本发明具体实施例中语言描述引导的视频时序定位的流程图。如图1及图2所示,本发明一种语言描述引导的视频时序定位方法,包括如下步骤:
步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征。在本发明具体实施例中,利用3D卷积网络提取视频的全局与局部特征,利用Skip-thought来提取自然语言的全局信息,并将门关注机制应用到上述特征获得语言和视觉模态的多模态融合表征。在本发明中,所述自然语言为描述视频中某个时刻的发生的事情,本发明的任务则是根据该自然语言定位视频的片段。
具体地,步骤S1进一步包括:
步骤S100,利用C3D(一种3D卷积神经网络)提取输入视频的全局和当前边界框内视频的局部特征;
步骤S101,利用Skip-thought技术提取自然语言描述的全局表示;
步骤S102,根据上述特征,利用门关注机制提取所述自然语言和视觉模态的多模态融合表征。
具体地,于本步骤中,利用C3D的fc6层中提取输入视频的全局特征Vg和当前边界框内视频的局部表示
Figure BDA0002367568920000051
接着利用Skip-thought技术来提取自然语言描述的全局表示E,最后采用门注意力机制来获取多模态表示:
Figure BDA0002367568920000052
Figure BDA0002367568920000053
其中,
Figure BDA0002367568920000054
Figure BDA0002367568920000055
是分别表示全局与局部的多模态关注表示。σ是激活函数logistic sigmoid,
Figure BDA0002367568920000056
表示向量点乘。
步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解。所述树状结构策略包含根策略和叶策略,所述根策略决定主要依赖哪个子叶策略,叶策略对应于五个高级语义分支,所选的语义分支再进一步推理一个该高级分支下更为精炼具体的动作。
在本发明中,根据步骤S1,所述跨模态信息为以下几个信息的结合体:视频的全局特征Vg;当前边界框内视频的局部表示
Figure BDA0002367568920000057
自然语言描述的全局表示E以及全局与局部的多模态关注表示
Figure BDA0002367568920000058
Figure BDA0002367568920000059
将该些信息作为输入分别输入到根策略和叶策略进行处理,所述根策略对多模态表示预测高层次分支,叶策略预测更加精细的动作。
具体地,树状结构策略在每个时间步由根策略和叶策略组成。根策略旨在学习在以下不同的情况下从叶策略中调用正确的子策略(高级语义分支),这里的不同情况包括但不限于:(1)当前的边界框和标注的边界框尺寸相差太大,需要进行尺度变化(2)当前的边界框距离标注的边界框很远,需显著移动;(3)当前的边界框距离标注的边界框有一定交集,只需要精细调整。在本发明具体实施例中,一共有5个高级语义分支,分别是尺度变化,左显著移动,右显著移动,左精细调整以及右精细调整。根策略由一层全连接的神经网络组成,根策略
Figure BDA0002367568920000061
决定这个时间步上依靠哪一个叶策略:
Figure BDA0002367568920000062
叶策略
Figure BDA0002367568920000063
对应五个高层分支。所选的语义分支将通过相应的子网络推理一个该分支下更加精炼的动作:
Figure BDA0002367568920000064
步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进。
具体地,步骤S3进一步包括:
步骤S300,利用外部奖赏训练叶策略的actor分支;
叶策略的奖励函数
Figure BDA0002367568920000065
揭示了原始动作
Figure BDA0002367568920000066
对当前环境的影响。它可以在外部环境中直接获得:
Figure BDA0002367568920000067
其中ε代表的是奖励系数,Ut代表的是当前时刻的IoU大小,接着采用actor-critic算法来训练叶策略,该actor分支的损失函数定义为Lleaf
步骤S301,用MSE损失函数训练叶策略的critic分支。
在本发明具体实施例中,所述MSE损失函数指的均方误差,指叶策略状态估计值V与叶奖赏真值R之差平方的期望值:
Figure BDA0002367568920000068
步骤S302,利用外部奖赏和内部奖赏相结合的方法来训练根策略的actor分支;
根策略的奖励函数定义为
Figure BDA0002367568920000071
由于根策略执行的操作不直接与环境交互,所以
Figure BDA0002367568920000072
被定义为包括两项:1)内在奖励:衡量
Figure BDA0002367568920000073
对子策略选择的影响;2)外在奖励:衡量所选子策略对环境执行的动作的间接影响。为了估计根策略选择高级语义分支的情况,模型遍历所有可能的分支,并将相应的原始操作推理到环境中,结果生成5个不同的IoU。这五个IoU中的最大IoU定义为
Figure BDA0002367568920000074
根策略奖励函数
Figure BDA0002367568920000075
设计如下:
Figure BDA0002367568920000076
接着同样采用actor-critic算法来训练根策略,该actor分支的损失函数定义为Lroot
步骤S303,利用MSE损失函数训练根策略的critic分支。
这里和步骤S301中,训练叶策略的critic分支的损失函数一致,只是优化的对象变成了根策略对应的网络,预测值V是根策略预测的,R为根奖赏,在此不予赘述。
步骤S304,基于渐进强化学习机制,根据迭代次数计算目前选择的策略并进行训练。
由于同时优化策略根和叶策略会导致训练过程不稳定,为了避免这种情况,本发明设计了一个渐进强化学习优化过程:对于每一组k迭代,渐进强化学习保持一个策略固定,只训练另一个策略。当达到k次迭代时,它会切换训练的策略。基于树形结构策略的渐进强化学习的交替训练过程可概括:
Figure BDA0002367568920000077
Figure BDA0002367568920000078
其中
Figure BDA0002367568920000079
是一个指示训练策略选择的二进制变量。i表示整个训练过程中的迭代次数。
Figure BDA00023675689200000710
是取除法运算的下限整数,mod是模函数。
综上所述,本发明一种语言描述引导的视频时序定位方法通过提取跨模态特征的多模态特征编码网络,学习视频和自然语言的跨模态信息以获得语言和视觉模态的多模态融合表征,并采用层次化的树状结构策略,对跨模态信息进行层次化分解,最后采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进,本可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种语言描述引导的视频时序定位方法,包括如下步骤:
步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;
步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;
步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进。
2.如权利要求1所述的一种语言描述引导的视频时序定位方法,其特征在于,步骤S1进一步包括:
步骤S100,利用3D卷积神经网络提取输入视频的全局和当前边界框内视频的局部特征;
步骤S101,利用Skip-thought技术提取自然语言描述的全局表示;
步骤S102,根据上述特征,利用门关注机制提取语言和视觉模态的多模态融合表征。
3.如权利要求2所述的一种语言描述引导的视频时序定位方法,其特征在于:于步骤S1中,利用3D卷积神经网络提取输入视频的全局特征Vg和当前边界框内视频的局部表示
Figure FDA0002367568910000011
然后利用Skip-thought技术来提取自然语言描述的全局表示E,最后采用门注意力机制来获取多模态表示:
Figure FDA0002367568910000012
Figure FDA0002367568910000013
其中,
Figure FDA0002367568910000014
Figure FDA0002367568910000015
分别表示全局与局部的多模态关注表示,σ是激活函数logisticsigmoid,⊙表示向量点乘。
4.如权利要求3所述的一种语言描述引导的视频时序定位方法,其特征在于:于步骤S2中,所述树状结构策略包含根策略和叶策略,所述根策略决定主要依赖哪个子叶策略,叶策略对应于五个高级语义分支,所选的语义分支通过相应的子网络推理一个该分支下更加精炼的动作。
5.如权利要求4所述的一种语言描述引导的视频时序定位方法,其特征在于:所述五个高级语义分支分别为尺度变化,左显著移动,右显著移动,左精细调整以及右精细调整。
6.如权利要求5所述的一种语言描述引导的视频时序定位方法,其特征在于,步骤S3进一步包括:
步骤S300,利用外部奖赏训练叶策略的actor分支;
步骤S301,用MSE损失函数训练叶策略的critic分支;
步骤S302,利用外部奖赏和内部奖赏相结合的方法来训练根策略的actor分支;
步骤S303,利用MSE损失函数训练根策略的critic分支;
步骤S304,基于渐进强化学习机制,根据迭代次数计算目前选择的策略并训练。
7.如权利要求6所述的一种语言描述引导的视频时序定位方法,其特征在于,于步骤S300中,所述叶策略的奖励函数
Figure FDA0002367568910000021
揭示了原始动作
Figure FDA0002367568910000022
对当前环境的影响,其在外部环境中直接获得:
Figure FDA0002367568910000023
其中ε代表的是奖励系数,Ut代表的是当前时刻的IoU大小。
8.如权利要求7所述的一种语言描述引导的视频时序定位方法,其特征在于,所述根策略的奖励函数
Figure FDA0002367568910000024
设计如下:
Figure FDA0002367568910000025
Figure FDA0002367568910000026
为遍历所有可能的分支,并将相应的原始操作推理到环境中,生成5个不同的IoU中的最大IoU。
9.如权利要求8所述的一种语言描述引导的视频时序定位方法,其特征在于,于步骤S304中,所述渐进强化学习机制为:对于每一组k迭代,渐进强化学习保持一个策略固定,只训练另一个策略,当达到k次迭代时,它会切换训练的策略。
10.如权利要求9所述的一种语言描述引导的视频时序定位方法,其特征在于,基于树形结构策略的渐进强化学习的交替训练过程概括为:
Figure FDA0002367568910000031
Figure FDA0002367568910000032
其中
Figure FDA0002367568910000033
是一个指示训练策略选择的二进制变量,i表示整个训练过程中的迭代次数,
Figure FDA0002367568910000034
是取除法运算的下限整数,mod是模函数,Lleaf为训练所述叶策略的损失函数,Lroot为训练所述根策略的损失函数。
CN202010040451.3A 2020-01-15 2020-01-15 一种语言描述引导的视频时序定位方法 Active CN111274438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010040451.3A CN111274438B (zh) 2020-01-15 2020-01-15 一种语言描述引导的视频时序定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010040451.3A CN111274438B (zh) 2020-01-15 2020-01-15 一种语言描述引导的视频时序定位方法

Publications (2)

Publication Number Publication Date
CN111274438A true CN111274438A (zh) 2020-06-12
CN111274438B CN111274438B (zh) 2023-06-23

Family

ID=71002171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010040451.3A Active CN111274438B (zh) 2020-01-15 2020-01-15 一种语言描述引导的视频时序定位方法

Country Status (1)

Country Link
CN (1) CN111274438B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782871A (zh) * 2020-06-18 2020-10-16 湖南大学 基于时空强化学习的跨模态视频时刻定位方法
CN112015947A (zh) * 2020-08-28 2020-12-01 中山大学 一种语言描述引导的视频时序定位方法、系统
CN112307778A (zh) * 2020-11-17 2021-02-02 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN113784199A (zh) * 2021-09-10 2021-12-10 中国科学院计算技术研究所 一种用于生成视频描述文本的系统和方法
CN114780789A (zh) * 2022-06-22 2022-07-22 山东建筑大学 基于自然语言查询的装配式构件施工监控视频定位方法
CN114860893A (zh) * 2022-07-06 2022-08-05 中国人民解放军国防科技大学 基于多模态数据融合与强化学习的智能决策方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
US20180124423A1 (en) * 2016-10-28 2018-05-03 Nec Laboratories America, Inc. Dynamic scene prediction with multiple interacting agents
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180124423A1 (en) * 2016-10-28 2018-05-03 Nec Laboratories America, Inc. Dynamic scene prediction with multiple interacting agents
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782871A (zh) * 2020-06-18 2020-10-16 湖南大学 基于时空强化学习的跨模态视频时刻定位方法
CN112015947A (zh) * 2020-08-28 2020-12-01 中山大学 一种语言描述引导的视频时序定位方法、系统
CN112015947B (zh) * 2020-08-28 2024-03-15 中山大学 一种语言描述引导的视频时序定位方法、系统
CN112307778A (zh) * 2020-11-17 2021-02-02 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN112307778B (zh) * 2020-11-17 2023-11-24 南京工业大学 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN113784199A (zh) * 2021-09-10 2021-12-10 中国科学院计算技术研究所 一种用于生成视频描述文本的系统和方法
CN113784199B (zh) * 2021-09-10 2022-09-13 中国科学院计算技术研究所 一种用于生成视频描述文本的系统、方法、存储介质与电子设备
CN114780789A (zh) * 2022-06-22 2022-07-22 山东建筑大学 基于自然语言查询的装配式构件施工监控视频定位方法
CN114860893A (zh) * 2022-07-06 2022-08-05 中国人民解放军国防科技大学 基于多模态数据融合与强化学习的智能决策方法及装置
CN114860893B (zh) * 2022-07-06 2022-09-06 中国人民解放军国防科技大学 基于多模态数据融合与强化学习的智能决策方法及装置

Also Published As

Publication number Publication date
CN111274438B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111274438A (zh) 一种语言描述引导的视频时序定位方法
Xi et al. The rise and potential of large language model based agents: A survey
Alzubaidi et al. A survey on deep learning tools dealing with data scarcity: definitions, challenges, solutions, tips, and applications
Schwalbe et al. A comprehensive taxonomy for explainable artificial intelligence: a systematic survey of surveys on methods and concepts
Chen et al. Deep reinforcement learning in recommender systems: A survey and new perspectives
US20200081445A1 (en) Systems and Methods for Graph-Based AI Training
CN112541060B (zh) 一种基于对抗训练的端到端任务型对话学习框架和方法
CN111046275A (zh) 基于人工智能的用户标签确定方法及装置、存储介质
Cideron et al. Higher: Improving instruction following with hindsight generation for experience replay
Zhang et al. SliceTeller: A data slice-driven approach for machine learning model validation
CN115797606A (zh) 基于深度学习的3d虚拟数字人交互动作生成方法及系统
KR102363370B1 (ko) UX-bit 및 몬테카를로 트리 탐색을 이용한 자동 디자인 생성 인공신경망 장치 및 방법
Wu et al. Vision-language navigation: a survey and taxonomy
CN117033602A (zh) 一种多模态的用户心智感知问答模型的构建方法
Cao et al. Reinforcement learning for generative AI: A survey
Charalambous et al. GREIL-crowds: crowd simulation with deep reinforcement learning and examples
CN113869377A (zh) 训练方法、装置及电子设备
CN117216223A (zh) 对话文本的生成方法和装置、存储介质及电子设备
Berlati et al. Ambiguity in sequential data: Predicting uncertain futures with recurrent models
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
Chen et al. Movement Evaluation Algorithm‐Based Form Tracking Technology and Optimal Control of Limbs for Dancers
Saini et al. Image compression using APSO
CN113947692A (zh) 一种通过k-means聚类进行多任务增强的分类系统及方法
CN112307288A (zh) 一种用于多渠道的用户聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant