CN111274438A - 一种语言描述引导的视频时序定位方法 - Google Patents
一种语言描述引导的视频时序定位方法 Download PDFInfo
- Publication number
- CN111274438A CN111274438A CN202010040451.3A CN202010040451A CN111274438A CN 111274438 A CN111274438 A CN 111274438A CN 202010040451 A CN202010040451 A CN 202010040451A CN 111274438 A CN111274438 A CN 111274438A
- Authority
- CN
- China
- Prior art keywords
- strategy
- modal
- leaf
- video
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000000750 progressive effect Effects 0.000 claims abstract description 21
- 230000002787 reinforcement Effects 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种语言描述引导的视频时序定位方法,包括如下步骤:步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进,本发明通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程,可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于树状结构和渐进强化学习来实现语言描述引导的视频时序定位方法。
背景技术
自然语言的视频时序定位这一任务是计算机视觉和视频分析领域新兴的又具有挑战性的任务。其目标是确定未修剪视频中与给定自然语言对应的片段的时间边界。该任务与动作时序定位任务十分相关的,与动作时序定位任务相比,该任务更具挑战性:1)其不仅没有预定义的动作列表与标签,而且可能包含复杂的描述。2)该任务需要模型能够建立语言模态与视觉模态的关系,对多模态特征进行建模,对自然语言和视频内容有深入的理解。自然语言的视频时序定位任务涉及到视频分析、多模态表示、多模态交互、信息检索等许多高层的人工智能任务。
基于时间滑动窗口的遍历排序方法近年来在该领域取得了非常好的成绩。该方法首先通过设置滑动窗口来生成大量的候选边界框,接着把候选边界的视频信息送到匹配网络中得到置信度得分,最后根据置信度得分来获得整个视频的定位/预测结果。然而,该方法依赖于外部滑动窗口的匹配和排序,导致了效率低下,边界框的不灵活性和额外的空间消耗,而且该方法也偏离了人的感知机制。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种语言描述引导的视频时序定位方法,以通过基于树结构的渐进强化学习框架来模拟人类由粗到精的决策过程,可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。
为达上述目的,本发明提出一种语言描述引导的视频时序定位方法,包括如下步骤:
步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;
步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;
步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进。
优选地,步骤S1进一步包括:
步骤S100,利用3D卷积神经网络提取输入视频的全局和当前边界框内视频的局部特征;
步骤S101,利用Skip-thought技术提取自然语言描述的全局表示;
步骤S102,根据上述特征,利用门关注机制提取语言和视觉模态的多模态融合表征。
优选地,于步骤S1中,利用3D卷积神经网络提取输入视频的全局特征Vg和当前边界框内视频的局部表示然后利用Skip-thought技术来提取自然语言描述的全局表示E,最后采用门注意力机制来获取多模态表示:
优选地,于步骤S2中,所述树状结构策略包含根策略和叶策略,所述根策略决定主要依赖哪个子叶策略,叶策略对应于五个高级语义分支,所选的语义分支通过相应的子网络推理一个该分支下更加精炼的动作。
优选地,所述五个高级语义分支分别为尺度变化,左显著移动,右显著移动,左精细调整以及右精细调整。
优选地,步骤S3进一步包括:
步骤S300,利用外部奖赏训练叶策略的actor分支;
步骤S301,用MSE损失函数训练叶策略的critic分支;
步骤S302,利用外部奖赏和内部奖赏相结合的方法来训练根策略的actor分支;
步骤S303,利用MSE损失函数训练根策略的critic分支;
步骤S304,基于渐进强化学习机制,根据迭代次数计算目前选择的策略并训练。
其中ε代表的是奖励系数,Ut代表的是当前时刻的IoU大小。
优选地,于步骤S304中,所述渐进强化学习机制为:对于每一组k迭代,渐进强化学习保持一个策略固定,只训练另一个策略,当达到k次迭代时,它会切换训练的策略。
优选地,基于树形结构策略的渐进强化学习的交替训练过程概括为:
与现有技术相比,本发明一种语言描述引导的视频时序定位方法通过提取跨模态特征的多模态特征编码网络,学习视频和自然语言的跨模态信息以获得语言和视觉模态的多模态融合表征,并采用层次化的树状结构策略,对跨模态信息进行层次化分解,最后采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进,本可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。
附图说明
图1为本发明一种语言描述引导的视频时序定位方法的步骤流程图;
图2为本发明具体实施例中语言描述引导的视频时序定位的流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种语言描述引导的视频时序定位方法的步骤流程图,图2为本发明具体实施例中语言描述引导的视频时序定位的流程图。如图1及图2所示,本发明一种语言描述引导的视频时序定位方法,包括如下步骤:
步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征。在本发明具体实施例中,利用3D卷积网络提取视频的全局与局部特征,利用Skip-thought来提取自然语言的全局信息,并将门关注机制应用到上述特征获得语言和视觉模态的多模态融合表征。在本发明中,所述自然语言为描述视频中某个时刻的发生的事情,本发明的任务则是根据该自然语言定位视频的片段。
具体地,步骤S1进一步包括:
步骤S100,利用C3D(一种3D卷积神经网络)提取输入视频的全局和当前边界框内视频的局部特征;
步骤S101,利用Skip-thought技术提取自然语言描述的全局表示;
步骤S102,根据上述特征,利用门关注机制提取所述自然语言和视觉模态的多模态融合表征。
具体地,于本步骤中,利用C3D的fc6层中提取输入视频的全局特征Vg和当前边界框内视频的局部表示接着利用Skip-thought技术来提取自然语言描述的全局表示E,最后采用门注意力机制来获取多模态表示:
步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解。所述树状结构策略包含根策略和叶策略,所述根策略决定主要依赖哪个子叶策略,叶策略对应于五个高级语义分支,所选的语义分支再进一步推理一个该高级分支下更为精炼具体的动作。
在本发明中,根据步骤S1,所述跨模态信息为以下几个信息的结合体:视频的全局特征Vg;当前边界框内视频的局部表示自然语言描述的全局表示E以及全局与局部的多模态关注表示和将该些信息作为输入分别输入到根策略和叶策略进行处理,所述根策略对多模态表示预测高层次分支,叶策略预测更加精细的动作。
具体地,树状结构策略在每个时间步由根策略和叶策略组成。根策略旨在学习在以下不同的情况下从叶策略中调用正确的子策略(高级语义分支),这里的不同情况包括但不限于:(1)当前的边界框和标注的边界框尺寸相差太大,需要进行尺度变化(2)当前的边界框距离标注的边界框很远,需显著移动;(3)当前的边界框距离标注的边界框有一定交集,只需要精细调整。在本发明具体实施例中,一共有5个高级语义分支,分别是尺度变化,左显著移动,右显著移动,左精细调整以及右精细调整。根策略由一层全连接的神经网络组成,根策略决定这个时间步上依靠哪一个叶策略:
步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进。
具体地,步骤S3进一步包括:
步骤S300,利用外部奖赏训练叶策略的actor分支;
其中ε代表的是奖励系数,Ut代表的是当前时刻的IoU大小,接着采用actor-critic算法来训练叶策略,该actor分支的损失函数定义为Lleaf。
步骤S301,用MSE损失函数训练叶策略的critic分支。
在本发明具体实施例中,所述MSE损失函数指的均方误差,指叶策略状态估计值V与叶奖赏真值R之差平方的期望值:
步骤S302,利用外部奖赏和内部奖赏相结合的方法来训练根策略的actor分支;
根策略的奖励函数定义为由于根策略执行的操作不直接与环境交互,所以被定义为包括两项:1)内在奖励:衡量对子策略选择的影响;2)外在奖励:衡量所选子策略对环境执行的动作的间接影响。为了估计根策略选择高级语义分支的情况,模型遍历所有可能的分支,并将相应的原始操作推理到环境中,结果生成5个不同的IoU。这五个IoU中的最大IoU定义为根策略奖励函数设计如下:
接着同样采用actor-critic算法来训练根策略,该actor分支的损失函数定义为Lroot。
步骤S303,利用MSE损失函数训练根策略的critic分支。
这里和步骤S301中,训练叶策略的critic分支的损失函数一致,只是优化的对象变成了根策略对应的网络,预测值V是根策略预测的,R为根奖赏,在此不予赘述。
步骤S304,基于渐进强化学习机制,根据迭代次数计算目前选择的策略并进行训练。
由于同时优化策略根和叶策略会导致训练过程不稳定,为了避免这种情况,本发明设计了一个渐进强化学习优化过程:对于每一组k迭代,渐进强化学习保持一个策略固定,只训练另一个策略。当达到k次迭代时,它会切换训练的策略。基于树形结构策略的渐进强化学习的交替训练过程可概括:
综上所述,本发明一种语言描述引导的视频时序定位方法通过提取跨模态特征的多模态特征编码网络,学习视频和自然语言的跨模态信息以获得语言和视觉模态的多模态融合表征,并采用层次化的树状结构策略,对跨模态信息进行层次化分解,最后采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进,本可以有效地分解复杂的动作策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更令人印象深刻的结果。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种语言描述引导的视频时序定位方法,包括如下步骤:
步骤S1,提取跨模态特征的多模态特征编码网络,以用于学习视频和自然语言的跨模态信息,获得所输入的语言和视觉模态的多模态融合表征;
步骤S2,采用层次化的树状结构策略,对跨模态信息进行层次化分解;
步骤S3,采用渐进强化学习机制,通过两个任务导向的奖励来提供正确的学分分配,鼓励树状结构中的不同策略的相互促进。
2.如权利要求1所述的一种语言描述引导的视频时序定位方法,其特征在于,步骤S1进一步包括:
步骤S100,利用3D卷积神经网络提取输入视频的全局和当前边界框内视频的局部特征;
步骤S101,利用Skip-thought技术提取自然语言描述的全局表示;
步骤S102,根据上述特征,利用门关注机制提取语言和视觉模态的多模态融合表征。
4.如权利要求3所述的一种语言描述引导的视频时序定位方法,其特征在于:于步骤S2中,所述树状结构策略包含根策略和叶策略,所述根策略决定主要依赖哪个子叶策略,叶策略对应于五个高级语义分支,所选的语义分支通过相应的子网络推理一个该分支下更加精炼的动作。
5.如权利要求4所述的一种语言描述引导的视频时序定位方法,其特征在于:所述五个高级语义分支分别为尺度变化,左显著移动,右显著移动,左精细调整以及右精细调整。
6.如权利要求5所述的一种语言描述引导的视频时序定位方法,其特征在于,步骤S3进一步包括:
步骤S300,利用外部奖赏训练叶策略的actor分支;
步骤S301,用MSE损失函数训练叶策略的critic分支;
步骤S302,利用外部奖赏和内部奖赏相结合的方法来训练根策略的actor分支;
步骤S303,利用MSE损失函数训练根策略的critic分支;
步骤S304,基于渐进强化学习机制,根据迭代次数计算目前选择的策略并训练。
9.如权利要求8所述的一种语言描述引导的视频时序定位方法,其特征在于,于步骤S304中,所述渐进强化学习机制为:对于每一组k迭代,渐进强化学习保持一个策略固定,只训练另一个策略,当达到k次迭代时,它会切换训练的策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040451.3A CN111274438B (zh) | 2020-01-15 | 2020-01-15 | 一种语言描述引导的视频时序定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040451.3A CN111274438B (zh) | 2020-01-15 | 2020-01-15 | 一种语言描述引导的视频时序定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274438A true CN111274438A (zh) | 2020-06-12 |
CN111274438B CN111274438B (zh) | 2023-06-23 |
Family
ID=71002171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010040451.3A Active CN111274438B (zh) | 2020-01-15 | 2020-01-15 | 一种语言描述引导的视频时序定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274438B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782871A (zh) * | 2020-06-18 | 2020-10-16 | 湖南大学 | 基于时空强化学习的跨模态视频时刻定位方法 |
CN112015947A (zh) * | 2020-08-28 | 2020-12-01 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN112307778A (zh) * | 2020-11-17 | 2021-02-02 | 南京工业大学 | 特定场景手语视频的翻译模型训练方法、翻译方法及系统 |
CN113784199A (zh) * | 2021-09-10 | 2021-12-10 | 中国科学院计算技术研究所 | 一种用于生成视频描述文本的系统和方法 |
CN114780789A (zh) * | 2022-06-22 | 2022-07-22 | 山东建筑大学 | 基于自然语言查询的装配式构件施工监控视频定位方法 |
CN114860893A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357838A (zh) * | 2017-06-23 | 2017-11-17 | 上海交通大学 | 基于多任务学习的对话策略在线实现方法 |
US20180124423A1 (en) * | 2016-10-28 | 2018-05-03 | Nec Laboratories America, Inc. | Dynamic scene prediction with multiple interacting agents |
CN108920468A (zh) * | 2018-05-07 | 2018-11-30 | 内蒙古工业大学 | 一种基于强化学习的蒙汉双语种互译方法 |
CN109948642A (zh) * | 2019-01-18 | 2019-06-28 | 中山大学 | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 |
-
2020
- 2020-01-15 CN CN202010040451.3A patent/CN111274438B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180124423A1 (en) * | 2016-10-28 | 2018-05-03 | Nec Laboratories America, Inc. | Dynamic scene prediction with multiple interacting agents |
CN107357838A (zh) * | 2017-06-23 | 2017-11-17 | 上海交通大学 | 基于多任务学习的对话策略在线实现方法 |
CN108920468A (zh) * | 2018-05-07 | 2018-11-30 | 内蒙古工业大学 | 一种基于强化学习的蒙汉双语种互译方法 |
CN109948642A (zh) * | 2019-01-18 | 2019-06-28 | 中山大学 | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782871A (zh) * | 2020-06-18 | 2020-10-16 | 湖南大学 | 基于时空强化学习的跨模态视频时刻定位方法 |
CN112015947A (zh) * | 2020-08-28 | 2020-12-01 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN112015947B (zh) * | 2020-08-28 | 2024-03-15 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN112307778A (zh) * | 2020-11-17 | 2021-02-02 | 南京工业大学 | 特定场景手语视频的翻译模型训练方法、翻译方法及系统 |
CN112307778B (zh) * | 2020-11-17 | 2023-11-24 | 南京工业大学 | 特定场景手语视频的翻译模型训练方法、翻译方法及系统 |
CN113784199A (zh) * | 2021-09-10 | 2021-12-10 | 中国科学院计算技术研究所 | 一种用于生成视频描述文本的系统和方法 |
CN113784199B (zh) * | 2021-09-10 | 2022-09-13 | 中国科学院计算技术研究所 | 一种用于生成视频描述文本的系统、方法、存储介质与电子设备 |
CN114780789A (zh) * | 2022-06-22 | 2022-07-22 | 山东建筑大学 | 基于自然语言查询的装配式构件施工监控视频定位方法 |
CN114860893A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
CN114860893B (zh) * | 2022-07-06 | 2022-09-06 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111274438B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274438A (zh) | 一种语言描述引导的视频时序定位方法 | |
Xi et al. | The rise and potential of large language model based agents: A survey | |
Alzubaidi et al. | A survey on deep learning tools dealing with data scarcity: definitions, challenges, solutions, tips, and applications | |
Schwalbe et al. | A comprehensive taxonomy for explainable artificial intelligence: a systematic survey of surveys on methods and concepts | |
Chen et al. | Deep reinforcement learning in recommender systems: A survey and new perspectives | |
US20200081445A1 (en) | Systems and Methods for Graph-Based AI Training | |
CN112541060B (zh) | 一种基于对抗训练的端到端任务型对话学习框架和方法 | |
CN111046275A (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
Cideron et al. | Higher: Improving instruction following with hindsight generation for experience replay | |
Zhang et al. | SliceTeller: A data slice-driven approach for machine learning model validation | |
CN115797606A (zh) | 基于深度学习的3d虚拟数字人交互动作生成方法及系统 | |
KR102363370B1 (ko) | UX-bit 및 몬테카를로 트리 탐색을 이용한 자동 디자인 생성 인공신경망 장치 및 방법 | |
Wu et al. | Vision-language navigation: a survey and taxonomy | |
CN117033602A (zh) | 一种多模态的用户心智感知问答模型的构建方法 | |
Cao et al. | Reinforcement learning for generative AI: A survey | |
Charalambous et al. | GREIL-crowds: crowd simulation with deep reinforcement learning and examples | |
CN113869377A (zh) | 训练方法、装置及电子设备 | |
CN117216223A (zh) | 对话文本的生成方法和装置、存储介质及电子设备 | |
Berlati et al. | Ambiguity in sequential data: Predicting uncertain futures with recurrent models | |
CN114661874B (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
Chen et al. | Movement Evaluation Algorithm‐Based Form Tracking Technology and Optimal Control of Limbs for Dancers | |
Saini et al. | Image compression using APSO | |
CN113947692A (zh) | 一种通过k-means聚类进行多任务增强的分类系统及方法 | |
CN112307288A (zh) | 一种用于多渠道的用户聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |