CN115212549A - 一种对抗场景下的对手模型构建方法及存储介质 - Google Patents
一种对抗场景下的对手模型构建方法及存储介质 Download PDFInfo
- Publication number
- CN115212549A CN115212549A CN202210616679.1A CN202210616679A CN115212549A CN 115212549 A CN115212549 A CN 115212549A CN 202210616679 A CN202210616679 A CN 202210616679A CN 115212549 A CN115212549 A CN 115212549A
- Authority
- CN
- China
- Prior art keywords
- state
- data
- opponent
- model
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000009471 action Effects 0.000 claims abstract description 32
- 230000002787 reinforcement Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000007704 transition Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 37
- 238000009826 distribution Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000006378 damage Effects 0.000 claims description 4
- 241000135164 Timea Species 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000007123 defense Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 abstract description 47
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F3/00—Board games; Raffle games
- A63F3/02—Chess; Similar board games
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种对抗场景下的对手模型构建方法及存储介质,该方法包括将整体环境模型区分为对手智能体状态表示模型和对手智能体状态转移模型:其中对手智能体状态表示模型利用编码器构造,将高维空间中的训练数据映射到低维空间,保持原始数据网络结构的低维节点的抽象压缩表示,使得较大相似度的节点具有类似的向量表示;对手智能体状态预测模型采用解码器结合深度强化学习网络构造,在低维潜在空间生成未来状态的预测表示;利用对手智能体状态类数据和动作类数据对模型进行学习训练,当达到训练目标或者收敛后,利用变分自编码器的生成模块,在隐空间对下一时刻状态预测并输出。
Description
技术领域
本发明涉及计算机兵棋推演模拟仿真领域,具体的,涉及在对抗场景下,基于对智能体的状态类数据和动作类数据进行对手模型构建方法及存储介质。
背景技术
当前战争已进入“发现即摧毁”的“秒杀”时代,战争作为复杂系统,具有高动态性和不确定性等特点,在资源有限的前提下,多方面临利益冲突,指挥员决策面临信息量大、决策难度大的难点痛点。“知己知彼,百战不殆”,为获得最大收益,必须考虑其它智能体可能采取的行动对己方的影响,开展智能体的理性决策需求迫切。
传统博弈论方法在状态转换和策略动态演化方面建模能力不足,绝对理性决策难以实现;传统强化学习又受限于对抗场景巨大的状态空间,收敛性差、决策缓慢。立足“料敌从宽、预己从严”的原则,对手智能体构建的原则一是要 “像”,二是要“强”。
因此如何提出一种提高对手智能体建模的准确性,降低计算的复杂性,增强系统的适应性,成为亟需解决的技术问题。
发明内容
本发明的目的在于提出一种对抗场景下的对手模型构建方法及存储介质,结合了变分自编码器和强化学习的优点,使得训练的对手智能体预测精准、计算简便。
为达此目的,本发明采用以下技术方案:
一种对抗场景下的对手模型构建方法,包括如下步骤:
数据采集以及预处理步骤S110:
采集对手智能体的历史数据,按照时间序列提取历史数据中的高维输入观测信息,进行数据预处理后,构造出样本集,所述样本集包括t时刻的状态动作转移环境状态量样本数据;其中,表示当前t时刻状态下的状态及动作数据对,表示发生状态转移后的下一步状态;
对手智能体状态模型构建及训练步骤S120:
构建对手智能体状态模型,所述对手智能体状态模型包括神经网络,输入带时序信息的对手状态数据,利用所述神经网络提取出时序特征组,再在隐空间将所述时序特征组进一步提取处理,生成标准正态分布N(z),以及该标准正态分布的均值和方差,再对这些标准正态分布N(z)做概率采样,生成隐状态t时刻的状态数据并输出,利用步骤S110中的状态动作转移环境状态量样本数据对所述对手智能体状态模型进行学习训练直至收敛,输出该观测状态的抽象表示;
对手智能体状态预测模型构建及训练步骤S130:
在低维隐空间中利用DDPG深度强化学习网络构建状态预测模型,输入t时刻的状态数据和对手智能体动作数据,输出t+1时刻的隐空间状态变量预测值,利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优;
状态转移模型构建及输出步骤S140:
可选的,在步骤S110中,所述历史数据包括对手智能体状态类数据和对手智能体动作类数据,所述对手智能体状态类数据包括各智能体的位置、性能,所述位置是指物理空间的位置,所述性能是指装备的损伤程度;所述对手智能体动作类数据包括各装备智能体的行动指令数据,行动指令在交战规则集中选取,包含攻击或防守的目标和动作;
所述数据预处理包括对数据进行归一化和异常值处理。
可选的,在步骤S120中,
所述对手智能体状态模型包括卷积神经网络模块和循环神经网络模块,利用卷积神经网络模块输入带时序信息的对手状态数据,提取特征,将连续n时刻的特征处理为时序特征组,输出至循环神经网络模块;循环神经网络模块对应均值方差计算模块,生成标准正态分布N(z),以及该标准正态分布的均值和方差,再对这些标准正态分布N(z)做概率采样,生成隐状态下t时刻的状态数据并输出。
可选的,步骤S130具体为:
在低维隐空间利用DDPG深度强化学习网络构建状态预测模型,DDPG深度强化学习网络包括:Actor现实策略网络、Actor估计策略网络、Critic现实得分网络和Critic估计得分网络,输入t时刻的状态数据和对手智能体动作数据,输出t+1时刻的状态预测值自身的隐状态,隐状态是前一时刻的隐状态和当前时刻数据的函数,即预测输出下一时刻状态值的概率密度函数,此时以概率密度函数的形式输出,概率密度函数不是一个确定值,是一个范围区间,其中,表示深度强化学习网络模型在t+1时刻的隐状态,即智能体对于自身行动所引发的环境变化的预测,
利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优。
可选的,在步骤S130中,
所述目标函数使用的是KL散度与重构前后的均方误差之和作为评价指标。
可选的,在步骤S140中,
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的对抗场景下的对手模型构建方法。
本发明具有如下优点:
1.神经网络结构和状态特征属性相结合方法,模仿人脑对高维数据的抽象思维和分布式的表达,较好地表现了模拟人类决策过程。面对场景任务迁移时,可灵活调整结构和特征属性的结合方式进行环境特征提取。
2.引入变分自编码器模型可对高维数据降维提取特征,不仅能够捕获对手策略网络数据中的高度非线性特征,还能节省开销加快数据处理速度,学习到其数据的分布,有一定的泛化能力,生成的数据具有灵活性和多样性。
3.将变分自编码器模型与深度强化学习相结合,在用深度强化学习训练对手模型的过程中,不断采集数据去扩充训练变分自编码器的数据集。同时,利用变分自编码器的目标函数构造附加奖励,加速智能体对陌生状态空间的探索,缩短探索用时,增加奖励次数,提高了强化学习的探索率和学习率。在训练模型的同时,实时填充经验池,支撑后期的网络训练。
附图说明
图1是根据本发明的对手建模的基本原理图;
图2是根据本发明具体实施例的对抗场景下对手模型的网络结构图;
图3是根据本发明具体实施例的对抗场景下的对手模型构建方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
因此本案提出一种对抗场景下基于变分自编码器和强化学习的对手模型构建方法与系统,将对手的状态特征隐式编码到强化学习推理过程中,属一种隐式对手模型构建方法。
对对手策略进行建模预测,简称对手建模。对手建模的过程可以看作是一个函数,输入观测到的交互历史信息与实时数据,输出下一时刻对手的动作、偏好、目标、计划等方面的预测值,整个过程原理如图1所示。
因此,为构建一个真实且强大的对手智能体,本发明提出一种结合变分自编码器与深度强化学习的对手模型预测方法,将整体环境模型区分为对手智能体状态表示模型和对手智能体状态转移模型:其中对手智能体状态表示模型利用编码器构造,将高维空间中的训练数据映射到低维空间,保持原始数据网络结构的低维节点的抽象压缩表示,使得较大相似度的节点具有类似的向量表示;对手智能体状态预测模型采用解码器结合深度强化学习网络构造,在低维潜在空间生成未来状态的预测表示;利用对手智能体状态类数据和动作类数据对模型进行学习训练,当达到训练目标或者收敛后,利用变分自编码器的生成模块,在隐空间对下一时刻状态预测并输出。
本发明的对手模型预测方法所设计的模型设计的模型包含两部分:
(1)变分自编码器既包含擅长自主态势理解的深度神经网络,能够深度模拟和表征决策,同时又能将复杂高维空间映射到便于数据处理的低维空间,具有降维功能。因此,通过使用无监督变分自编码器进行预训练,重新表征对手特征,可以初步实现对手智能体模型的“像”。
(2)强化学习不需要大量学习样本,就能在不确定环境下探索最佳收益。在低维空间中利用深度强化学习网络模型,学习预测未来状态表示,避免了深度神经网络在状态表示中对所训练数据过度拟合的问题。因此,通过深度强化学习预测对手模型,能训练出优化策略的智能体,实现对手智能体模型的“强”。
参见图3,示出了根据本发明具体实施例的对抗场景下的对手模型构建方法的流程图,包括如下步骤:
数据采集以及预处理步骤S110:
采集对手智能体的历史数据,按照时间序列提取历史数据中的高维输入观测信息,进行数据预处理后,构造出样本集,所述样本集包括t时刻的状态动作转移环境状态量样本数据;其中,表示当前t时刻状态下的状态及动作数据对,表示发生状态转移后的下一步状态。
所述历史数据包括对手智能体状态类数据和对手智能体动作类数据,所述对手智能体状态类数据包括各智能体的位置、性能,所述位置是指物理空间的位置,所述性能是指装备的损伤程度;所述对手智能体动作类数据包括各装备智能体的行动指令数据,行动指令在交战规则集中选取,包含攻击或防守的目标和动作。
所述数据预处理包括对数据进行归一化和异常值处理。
对手智能体状态模型构建及训练步骤S120:
在本步骤中,利用编码器降维表达对手智能体状态,将复杂分布的样本数据投影到简单的隐变量空间,实现对高维信息数据样本的特征提取,将高维空间中的训练数据映射到低维空间,保持原始数据网络结构的低维节点的抽象压缩表示,使得较大相似度的节点具有类似的向量表示。
本步骤为:构建对手智能体状态模型,所述对手智能体状态模型包括神经网络,输入带时序信息的对手状态数据,利用所述神经网络提取出时序特征组,再在隐空间将所述时序特征组进一步提取处理,生成标准正态分布N(z),以及该标准正态分布的均值和方差,再对这些标准正态分布N(z)做概率采样,生成隐状态t时刻的状态数据并输出;
具体的,所述对手智能体状态模型包括卷积神经网络模块和循环神经网络模块,利用卷积神经网络模块输入带时序信息的对手状态数据,提取特征,将连续n时刻的特征处理为时序特征组,输出至循环神经网络模块;循环神经网络模块对应均值方差计算模块,生成标准正态分布N(z),以及该标准正态分布的均值和方差,再对这些标准正态分布N(z)做概率采样,生成隐状态下t时刻的状态数据并输出。
对手智能体状态预测模型构建及训练步骤S130:
在本步骤中,对于对手状态预测模型采用解码器结合深度强化学习网络构造,在低维潜在空间生成未来状态的预测表示。
本步骤为:
在低维隐空间中利用DDPG深度强化学习网络构建状态预测模型,输入t时刻的状态数据和对手智能体动作数据,输出t+1时刻的隐空间状态变量预测值,利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优。
该步骤具体为:在低维隐空间(潜在空间)利用DDPG深度强化学习网络构建状态预测模型,DDPG深度强化学习网络包括:Actor现实策略网络、Actor估计策略网络、Critic现实得分网络和Critic估计得分网络,输入t时刻的状态数据和对手智能体动作数据,输出t+1时刻的状态预测值自身的隐状态,隐状态是前一时刻的隐状态和当前时刻数据的函数,即预测输出下一时刻状态值的概率密度函数,此时以概率密度函数的形式输出,概率密度函数不是一个确定值,是一个范围区间,其中,表示深度强化学习网络模型在t+1时刻的隐状态,即智能体对于自身行动所引发的环境变化的预测。
利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优。
进一步的,所述目标函数使用的是KL散度与均方误差之和作为指标,并根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最佳。
状态转移模型构建及输出步骤S140:
本步骤在于:将已经训练好的预测值,通过变分自编码器的解码器以反变换的方式恢复到高维度空间。
解码器的作用是根据标准正态分布的均值和方差,重新生成状态预测值。
因此,参见图2,示出了根据本发明的对抗场景下对手模型的网络结构图。
步骤S140中构建的状态转移模型也可以认为属于对手智能体状态预测模型的一部分,从而整体呈现出解码器结合深度强化学习的网络构造。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的对抗场景下的对手模型构建方法。
本发明具有如下优点:
1.神经网络结构和状态特征属性相结合方法,模仿人脑对高维数据的抽象思维和分布式的表达,较好地表现了模拟人类决策过程。面对场景任务迁移时,可灵活调整结构和特征属性的结合方式进行环境特征提取。
2.引入变分自编码器模型可对高维数据降维提取特征,不仅能够捕获对手策略网络数据中的高度非线性特征,还能节省开销加快数据处理速度,学习到其数据的分布,有一定的泛化能力,生成的数据具有灵活性和多样性。
3.将变分自编码器模型与深度强化学习相结合,在用深度强化学习训练对手模型的过程中,不断采集数据去扩充训练变分自编码器的数据集。同时,利用变分自编码器的目标函数构造附加奖励,加速智能体对陌生状态空间的探索,缩短探索用时,增加奖励次数,提高了深度强化学习的探索率和学习率。在训练模型的同时,实时填充经验池,支撑后期的网络训练。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (7)
1.一种对抗场景下的对手模型构建方法,其特征在于,包括如下步骤:
数据采集以及预处理步骤S110:
采集对手智能体的历史数据,按照时间序列提取历史数据中的高维输入观测信息,进行数据预处理后,构造出样本集,所述样本集包括t时刻的状态动作转移环境状态量样本数据;其中,表示当前t时刻状态下的状态及动作数据对,表示发生状态转移后的下一步状态;
对手智能体状态模型构建及训练步骤S120:
构建对手智能体状态模型,所述对手智能体状态模型包括神经网络,输入带时序信息的对手状态数据,利用所述神经网络提取出时序特征组,再在隐空间将所述时序特征组进一步提取处理,生成标准正态分布N(z),以及该标准正态分布的均值和方差,再对这些标准正态分布N(z)做概率采样,生成隐状态t时刻的状态数据并输出,利用步骤S110中的状态动作转移环境状态量样本数据对所述对手智能体状态模型进行学习训练直至收敛,输出该观测状态的抽象表示;
对手智能体状态预测模型构建及训练步骤S130:
在低维隐空间中利用DDPG深度强化学习网络构建状态预测模型,输入t时刻的状态数据和对手智能体动作数据,输出t+1时刻的隐空间状态变量预测值,利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优;
状态转移模型构建及输出步骤S140:
2.根据权利要求1所述的对抗场景下的对手模型构建方法,其特征在于,
在步骤S110中,所述历史数据包括对手智能体状态类数据和对手智能体动作类数据,所述对手智能体状态类数据包括各智能体的位置、性能,所述位置是指物理空间的位置,所述性能是指装备的损伤程度;所述对手智能体动作类数据包括各装备智能体的行动指令数据,行动指令在交战规则集中选取,包含攻击或防守的目标和动作;
所述数据预处理包括对数据进行归一化和异常值处理。
4.根据权利要求1所述的对抗场景下的对手模型构建方法,其特征在于,
步骤S130具体为:
在低维隐空间利用DDPG深度强化学习网络构建状态预测模型,DDPG深度强化学习网络包括:Actor现实策略网络、Actor估计策略网络、Critic现实得分网络和Critic估计得分网络,输入t时刻的状态数据和对手智能体动作数据,输出t+1时刻的状态预测值自身的隐状态,隐状态是前一时刻的隐状态和当前时刻数据的函数,即预测输出下一时刻状态值的概率密度函数,此时以概率密度函数的形式输出,概率密度函数不是一个确定值,是一个范围区间,其中,表示深度强化学习网络模型在t+1时刻的隐状态,即智能体对于自身行动所引发的环境变化的预测,
利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优。
5.根据权利要求4所述的对抗场景下的对手模型构建方法,其特征在于,
在步骤S130中,
所述目标函数使用的是KL散度与重构前后的均方误差之和作为评价指标。
7.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1-6中任意一项所述的对抗场景下的对手模型构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210616679.1A CN115212549A (zh) | 2022-06-01 | 2022-06-01 | 一种对抗场景下的对手模型构建方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210616679.1A CN115212549A (zh) | 2022-06-01 | 2022-06-01 | 一种对抗场景下的对手模型构建方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115212549A true CN115212549A (zh) | 2022-10-21 |
Family
ID=83607138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210616679.1A Pending CN115212549A (zh) | 2022-06-01 | 2022-06-01 | 一种对抗场景下的对手模型构建方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115212549A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115990875A (zh) * | 2022-11-10 | 2023-04-21 | 华南理工大学 | 一种基于隐空间插值的柔性线缆状态预测与控制系统 |
-
2022
- 2022-06-01 CN CN202210616679.1A patent/CN115212549A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115990875A (zh) * | 2022-11-10 | 2023-04-21 | 华南理工大学 | 一种基于隐空间插值的柔性线缆状态预测与控制系统 |
CN115990875B (zh) * | 2022-11-10 | 2024-05-07 | 华南理工大学 | 一种基于隐空间插值的柔性线缆状态预测与控制系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Seo et al. | Reinforcement learning with action-free pre-training from videos | |
Shah et al. | Rrl: Resnet as representation for reinforcement learning | |
CN111199550B (zh) | 图像分割网络的训练方法、分割方法、装置和存储介质 | |
US20230029460A1 (en) | Method, apparatus, and device for scheduling virtual objects in virtual environment | |
Ma et al. | Contrastive variational reinforcement learning for complex observations | |
CN110138595A (zh) | 动态加权网络的时间链路预测方法、装置、设备及介质 | |
Wei et al. | Learning motion rules from real data: Neural network for crowd simulation | |
CN111666919A (zh) | 一种对象识别方法、装置、计算机设备和存储介质 | |
CN113627596A (zh) | 基于动态图神经网络的多智能体对抗方法及系统 | |
Yu et al. | Review of deep reinforcement learning | |
CN112434791A (zh) | 多智能体强对抗仿真方法、装置及电子设备 | |
Yin et al. | Sample efficient deep reinforcement learning via local planning | |
CN115212549A (zh) | 一种对抗场景下的对手模型构建方法及存储介质 | |
Zhao et al. | Ode-based recurrent model-free reinforcement learning for pomdps | |
CN114037048B (zh) | 基于变分循环网络模型的信念一致多智能体强化学习方法 | |
CN118482720A (zh) | 一种基于因果推理和认知思维的连续视觉语言导航方法 | |
Fotiadis et al. | Disentangled generative models for robust prediction of system dynamics | |
CN118254170A (zh) | 一种基于深度强化学习的机械臂渐进式训练方法、存储介质和电子设备 | |
CN116360435A (zh) | 基于情节记忆的多智能体协同策略的训练方法和系统 | |
CN114282741A (zh) | 任务决策方法、装置、设备及存储介质 | |
CN114611990A (zh) | 一种网络信息体系要素体系贡献率评估方法和装置 | |
CN115168722A (zh) | 内容交互预测方法以及相关设备 | |
CN114333069A (zh) | 对象的姿态处理方法、装置、设备及存储介质 | |
CN112884129A (zh) | 一种基于示教数据的多步规则提取方法、设备及存储介质 | |
CN116339130B (zh) | 基于模糊规则的飞行任务数据获取方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |