CN115212549A - 一种对抗场景下的对手模型构建方法及存储介质 - Google Patents

一种对抗场景下的对手模型构建方法及存储介质 Download PDF

Info

Publication number
CN115212549A
CN115212549A CN202210616679.1A CN202210616679A CN115212549A CN 115212549 A CN115212549 A CN 115212549A CN 202210616679 A CN202210616679 A CN 202210616679A CN 115212549 A CN115212549 A CN 115212549A
Authority
CN
China
Prior art keywords
state
data
opponent
model
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210616679.1A
Other languages
English (en)
Inventor
王伟
林旺群
田成平
伊山
杜静
卜先锦
李妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Original Assignee
Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences filed Critical Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Priority to CN202210616679.1A priority Critical patent/CN115212549A/zh
Publication of CN115212549A publication Critical patent/CN115212549A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F3/00Board games; Raffle games
    • A63F3/02Chess; Similar board games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种对抗场景下的对手模型构建方法及存储介质,该方法包括将整体环境模型区分为对手智能体状态表示模型和对手智能体状态转移模型:其中对手智能体状态表示模型利用编码器构造,将高维空间中的训练数据映射到低维空间,保持原始数据网络结构的低维节点的抽象压缩表示,使得较大相似度的节点具有类似的向量表示;对手智能体状态预测模型采用解码器结合深度强化学习网络构造,在低维潜在空间生成未来状态的预测表示;利用对手智能体状态类数据和动作类数据对模型进行学习训练,当达到训练目标或者收敛后,利用变分自编码器的生成模块,在隐空间对下一时刻状态预测并输出。

Description

一种对抗场景下的对手模型构建方法及存储介质
技术领域
本发明涉及计算机兵棋推演模拟仿真领域,具体的,涉及在对抗场景下,基于对智能体的状态类数据和动作类数据进行对手模型构建方法及存储介质。
背景技术
当前战争已进入“发现即摧毁”的“秒杀”时代,战争作为复杂系统,具有高动态性和不确定性等特点,在资源有限的前提下,多方面临利益冲突,指挥员决策面临信息量大、决策难度大的难点痛点。“知己知彼,百战不殆”,为获得最大收益,必须考虑其它智能体可能采取的行动对己方的影响,开展智能体的理性决策需求迫切。
传统博弈论方法在状态转换和策略动态演化方面建模能力不足,绝对理性决策难以实现;传统强化学习又受限于对抗场景巨大的状态空间,收敛性差、决策缓慢。立足“料敌从宽、预己从严”的原则,对手智能体构建的原则一是要 “像”,二是要“强”。
因此如何提出一种提高对手智能体建模的准确性,降低计算的复杂性,增强系统的适应性,成为亟需解决的技术问题。
发明内容
本发明的目的在于提出一种对抗场景下的对手模型构建方法及存储介质,结合了变分自编码器和强化学习的优点,使得训练的对手智能体预测精准、计算简便。
为达此目的,本发明采用以下技术方案:
一种对抗场景下的对手模型构建方法,包括如下步骤:
数据采集以及预处理步骤S110:
采集对手智能体的历史数据,按照时间序列提取历史数据中的高维输入观测信息,进行数据预处理后,构造出样本集,所述样本集包括t时刻的状态动作转移环境状态量样本数据
Figure 557604DEST_PATH_IMAGE001
;其中,
Figure 208028DEST_PATH_IMAGE002
表示当前t时刻状态下的状态及动作数据对,
Figure 866543DEST_PATH_IMAGE003
表示发生状态转移后的下一步状态;
对手智能体状态模型构建及训练步骤S120:
构建对手智能体状态模型,所述对手智能体状态模型包括神经网络,输入带时序信息的对手状态数据
Figure 235207DEST_PATH_IMAGE004
,利用所述神经网络提取出时序特征组,再在隐空间将所述时序特征组进一步提取处理,生成标准正态分布N(z),以及该标准正态分布的均值
Figure 270159DEST_PATH_IMAGE005
和方差
Figure 775090DEST_PATH_IMAGE006
,再对这些标准正态分布N(z)做概率采样,生成隐状态t时刻的状态数据
Figure 870085DEST_PATH_IMAGE007
并输出,利用步骤S110中的状态动作转移环境状态量样本数据
Figure 726045DEST_PATH_IMAGE001
对所述对手智能体状态模型进行学习训练直至收敛,输出该观测状态的抽象表示
Figure 299109DEST_PATH_IMAGE007
对手智能体状态预测模型构建及训练步骤S130:
在低维隐空间中利用DDPG深度强化学习网络构建状态预测模型,输入t时刻的状态数据
Figure 655617DEST_PATH_IMAGE007
和对手智能体动作数据
Figure 921513DEST_PATH_IMAGE008
,输出t+1时刻的隐空间状态变量预测值
Figure 999190DEST_PATH_IMAGE009
,利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优;
状态转移模型构建及输出步骤S140:
利用解码器在隐变量空间中构建状态转移模型,通过重参数
Figure 641524DEST_PATH_IMAGE010
,恢复对手智能体特征信息里的采样数据,将隐变量映射为可观测变量的估计值,升维重构生成新的重构样本值
Figure 121047DEST_PATH_IMAGE011
可选的,在步骤S110中,所述历史数据包括对手智能体状态类数据和对手智能体动作类数据,所述对手智能体状态类数据包括各智能体的位置、性能,所述位置是指物理空间的位置,所述性能是指装备的损伤程度;所述对手智能体动作类数据包括各装备智能体的行动指令数据,行动指令在交战规则集中选取,包含攻击或防守的目标和动作;
所述数据预处理包括对数据进行归一化和异常值处理。
可选的,在步骤S120中,
所述对手智能体状态模型包括卷积神经网络模块和循环神经网络模块,利用卷积神经网络模块输入带时序信息的对手状态数据
Figure 557845DEST_PATH_IMAGE004
,提取特征
Figure 122818DEST_PATH_IMAGE012
,将连续n时刻的特征
Figure 772105DEST_PATH_IMAGE013
处理为时序特征组,输出至循环神经网络模块;循环神经网络模块对应均值方差计算模块,生成标准正态分布N(z),以及该标准正态分布的均值
Figure 371714DEST_PATH_IMAGE005
和方差
Figure 979413DEST_PATH_IMAGE006
,再对这些标准正态分布N(z)做概率采样,生成隐状态下t时刻的状态数据
Figure 31683DEST_PATH_IMAGE007
并输出。
可选的,步骤S130具体为:
在低维隐空间利用DDPG深度强化学习网络构建状态预测模型,DDPG深度强化学习网络包括:Actor现实策略网络、Actor估计策略网络、Critic现实得分网络和Critic估计得分网络,输入t时刻的状态数据
Figure 750240DEST_PATH_IMAGE007
和对手智能体动作数据
Figure 204355DEST_PATH_IMAGE014
,输出t+1时刻的状态预测值自身的隐状态
Figure 982955DEST_PATH_IMAGE015
,隐状态
Figure 522521DEST_PATH_IMAGE015
是前一时刻的隐状态
Figure 41839DEST_PATH_IMAGE016
和当前时刻数据
Figure 350461DEST_PATH_IMAGE009
的函数,即
Figure 299962DEST_PATH_IMAGE015
预测输出下一时刻状态值
Figure 61245DEST_PATH_IMAGE009
的概率密度函数
Figure 387184DEST_PATH_IMAGE017
,此时
Figure 550312DEST_PATH_IMAGE009
以概率密度函数
Figure 670715DEST_PATH_IMAGE017
的形式输出,概率密度函数
Figure 184873DEST_PATH_IMAGE017
不是一个确定值,是一个范围区间,其中,
Figure 48924DEST_PATH_IMAGE015
表示深度强化学习网络模型在t+1时刻的隐状态,即智能体对于自身行动所引发的环境变化的预测,
利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优。
可选的,在步骤S130中,
所述目标函数使用的是KL散度与重构前后的均方误差之和作为评价指标。
可选的,在步骤S140中,
解码器为反卷积模块,将循环神经网络提取的潜在变量
Figure 66558DEST_PATH_IMAGE009
从预设分布中采样重构,在隐空间对下一时刻状态预测值
Figure 623442DEST_PATH_IMAGE009
实施反卷积,生成和原始训练样本分布相似的新样本数据,得到重构样本值
Figure 359316DEST_PATH_IMAGE011
并输出。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行上述的对抗场景下的对手模型构建方法。
本发明具有如下优点:
1.神经网络结构和状态特征属性相结合方法,模仿人脑对高维数据的抽象思维和分布式的表达,较好地表现了模拟人类决策过程。面对场景任务迁移时,可灵活调整结构和特征属性的结合方式进行环境特征提取。
2.引入变分自编码器模型可对高维数据降维提取特征,不仅能够捕获对手策略网络数据中的高度非线性特征,还能节省开销加快数据处理速度,学习到其数据的分布,有一定的泛化能力,生成的数据具有灵活性和多样性。
3.将变分自编码器模型与深度强化学习相结合,在用深度强化学习训练对手模型的过程中,不断采集数据去扩充训练变分自编码器的数据集。同时,利用变分自编码器的目标函数构造附加奖励,加速智能体对陌生状态空间的探索,缩短探索用时,增加奖励次数,提高了强化学习的探索率和学习率。在训练模型的同时,实时填充经验池,支撑后期的网络训练。
附图说明
图1是根据本发明的对手建模的基本原理图;
图2是根据本发明具体实施例的对抗场景下对手模型的网络结构图;
图3是根据本发明具体实施例的对抗场景下的对手模型构建方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
因此本案提出一种对抗场景下基于变分自编码器和强化学习的对手模型构建方法与系统,将对手的状态特征隐式编码到强化学习推理过程中,属一种隐式对手模型构建方法。
对对手策略进行建模预测,简称对手建模。对手建模的过程可以看作是一个函数,输入观测到的交互历史信息与实时数据,输出下一时刻对手的动作、偏好、目标、计划等方面的预测值,整个过程原理如图1所示。
因此,为构建一个真实且强大的对手智能体,本发明提出一种结合变分自编码器与深度强化学习的对手模型预测方法,将整体环境模型区分为对手智能体状态表示模型和对手智能体状态转移模型:其中对手智能体状态表示模型利用编码器构造,将高维空间中的训练数据映射到低维空间,保持原始数据网络结构的低维节点的抽象压缩表示,使得较大相似度的节点具有类似的向量表示;对手智能体状态预测模型采用解码器结合深度强化学习网络构造,在低维潜在空间生成未来状态的预测表示;利用对手智能体状态类数据和动作类数据对模型进行学习训练,当达到训练目标或者收敛后,利用变分自编码器的生成模块,在隐空间对下一时刻状态预测并输出。
本发明的对手模型预测方法所设计的模型设计的模型包含两部分:
(1)变分自编码器既包含擅长自主态势理解的深度神经网络,能够深度模拟和表征决策,同时又能将复杂高维空间映射到便于数据处理的低维空间,具有降维功能。因此,通过使用无监督变分自编码器进行预训练,重新表征对手特征,可以初步实现对手智能体模型的“像”。
(2)强化学习不需要大量学习样本,就能在不确定环境下探索最佳收益。在低维空间中利用深度强化学习网络模型,学习预测未来状态表示,避免了深度神经网络在状态表示中对所训练数据过度拟合的问题。因此,通过深度强化学习预测对手模型,能训练出优化策略的智能体,实现对手智能体模型的“强”。
参见图3,示出了根据本发明具体实施例的对抗场景下的对手模型构建方法的流程图,包括如下步骤:
数据采集以及预处理步骤S110:
采集对手智能体的历史数据,按照时间序列提取历史数据中的高维输入观测信息,进行数据预处理后,构造出样本集,所述样本集包括t时刻的状态动作转移环境状态量样本数据
Figure 761479DEST_PATH_IMAGE001
;其中,
Figure 899199DEST_PATH_IMAGE002
表示当前t时刻状态下的状态及动作数据对,
Figure 626984DEST_PATH_IMAGE003
表示发生状态转移后的下一步状态。
所述历史数据包括对手智能体状态类数据和对手智能体动作类数据,所述对手智能体状态类数据包括各智能体的位置、性能,所述位置是指物理空间的位置,所述性能是指装备的损伤程度;所述对手智能体动作类数据包括各装备智能体的行动指令数据,行动指令在交战规则集中选取,包含攻击或防守的目标和动作。
所述数据预处理包括对数据进行归一化和异常值处理。
对手智能体状态模型构建及训练步骤S120:
在本步骤中,利用编码器降维表达对手智能体状态,将复杂分布的样本数据投影到简单的隐变量空间,实现对高维信息数据样本的特征提取,将高维空间中的训练数据映射到低维空间,保持原始数据网络结构的低维节点的抽象压缩表示,使得较大相似度的节点具有类似的向量表示。
本步骤为:构建对手智能体状态模型,所述对手智能体状态模型包括神经网络,输入带时序信息的对手状态数据
Figure 584575DEST_PATH_IMAGE018
,利用所述神经网络提取出时序特征组,再在隐空间将所述时序特征组进一步提取处理,生成标准正态分布N(z),以及该标准正态分布的均值
Figure 53078DEST_PATH_IMAGE019
和方差
Figure 45305DEST_PATH_IMAGE020
,再对这些标准正态分布N(z)做概率采样,生成隐状态t时刻的状态数据
Figure 678412DEST_PATH_IMAGE021
并输出;
利用步骤S110中的状态动作转移环境状态量样本数据
Figure 123300DEST_PATH_IMAGE001
对所述对手智能体状态模型进行学习训练直至收敛,输出该观测状态的抽象表示
Figure 132844DEST_PATH_IMAGE021
具体的,所述对手智能体状态模型包括卷积神经网络模块和循环神经网络模块,利用卷积神经网络模块输入带时序信息的对手状态数据
Figure 979577DEST_PATH_IMAGE018
,提取特征
Figure 49164DEST_PATH_IMAGE022
,将连续n时刻的特征
Figure 981348DEST_PATH_IMAGE023
处理为时序特征组,输出至循环神经网络模块;循环神经网络模块对应均值方差计算模块,生成标准正态分布N(z),以及该标准正态分布的均值
Figure 794584DEST_PATH_IMAGE019
和方差
Figure 761403DEST_PATH_IMAGE020
,再对这些标准正态分布N(z)做概率采样,生成隐状态下t时刻的状态数据
Figure 736312DEST_PATH_IMAGE021
并输出。
对手智能体状态预测模型构建及训练步骤S130:
在本步骤中,对于对手状态预测模型采用解码器结合深度强化学习网络构造,在低维潜在空间生成未来状态的预测表示。
本步骤为:
在低维隐空间中利用DDPG深度强化学习网络构建状态预测模型,输入t时刻的状态数据
Figure 421371DEST_PATH_IMAGE021
和对手智能体动作数据
Figure 772718DEST_PATH_IMAGE024
,输出t+1时刻的隐空间状态变量预测值
Figure 594043DEST_PATH_IMAGE025
,利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优。
该步骤具体为:在低维隐空间(潜在空间)利用DDPG深度强化学习网络构建状态预测模型,DDPG深度强化学习网络包括:Actor现实策略网络、Actor估计策略网络、Critic现实得分网络和Critic估计得分网络,输入t时刻的状态数据
Figure 739854DEST_PATH_IMAGE021
和对手智能体动作数据
Figure 643700DEST_PATH_IMAGE024
,输出t+1时刻的状态预测值自身的隐状态
Figure 798738DEST_PATH_IMAGE026
,隐状态
Figure 474570DEST_PATH_IMAGE026
是前一时刻的隐状态
Figure 56861DEST_PATH_IMAGE027
和当前时刻数据
Figure 450934DEST_PATH_IMAGE025
的函数,即
Figure 144083DEST_PATH_IMAGE026
预测输出下一时刻状态值
Figure 940001DEST_PATH_IMAGE025
的概率密度函数
Figure 427614DEST_PATH_IMAGE028
,此时
Figure 43403DEST_PATH_IMAGE025
以概率密度函数
Figure 540243DEST_PATH_IMAGE028
的形式输出,概率密度函数
Figure 190668DEST_PATH_IMAGE028
不是一个确定值,是一个范围区间,其中,
Figure 849182DEST_PATH_IMAGE026
表示深度强化学习网络模型在t+1时刻的隐状态,即智能体对于自身行动所引发的环境变化的预测。
利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优。
进一步的,所述目标函数使用的是KL散度与均方误差之和作为指标,并根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最佳。
状态转移模型构建及输出步骤S140:
本步骤在于:将已经训练好的预测值,通过变分自编码器的解码器以反变换的方式恢复到高维度空间。
该步骤为:利用解码器在隐变量空间中构建状态转移模型,通过重参数
Figure 217846DEST_PATH_IMAGE029
,恢复对手智能体特征信息里的采样数据,将隐变量映射为可观测变量的估计值,升维重构生成新的重构样本值
Figure 987219DEST_PATH_IMAGE030
解码器的作用是根据标准正态分布的均值和方差,重新生成状态预测值。
进一步的,在该步骤中,解码器为反卷积模块,将循环神经网络提取的潜在变量
Figure 492150DEST_PATH_IMAGE025
从预设分布中采样重构,在隐空间对下一时刻状态预测值
Figure 584215DEST_PATH_IMAGE025
实施反卷积,生成和原始训练样本分布相似的新样本数据,得到重构样本值
Figure 174597DEST_PATH_IMAGE030
并输出。
因此,参见图2,示出了根据本发明的对抗场景下对手模型的网络结构图。
步骤S140中构建的状态转移模型也可以认为属于对手智能体状态预测模型的一部分,从而整体呈现出解码器结合深度强化学习的网络构造。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的对抗场景下的对手模型构建方法。
本发明具有如下优点:
1.神经网络结构和状态特征属性相结合方法,模仿人脑对高维数据的抽象思维和分布式的表达,较好地表现了模拟人类决策过程。面对场景任务迁移时,可灵活调整结构和特征属性的结合方式进行环境特征提取。
2.引入变分自编码器模型可对高维数据降维提取特征,不仅能够捕获对手策略网络数据中的高度非线性特征,还能节省开销加快数据处理速度,学习到其数据的分布,有一定的泛化能力,生成的数据具有灵活性和多样性。
3.将变分自编码器模型与深度强化学习相结合,在用深度强化学习训练对手模型的过程中,不断采集数据去扩充训练变分自编码器的数据集。同时,利用变分自编码器的目标函数构造附加奖励,加速智能体对陌生状态空间的探索,缩短探索用时,增加奖励次数,提高了深度强化学习的探索率和学习率。在训练模型的同时,实时填充经验池,支撑后期的网络训练。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (7)

1.一种对抗场景下的对手模型构建方法,其特征在于,包括如下步骤:
数据采集以及预处理步骤S110:
采集对手智能体的历史数据,按照时间序列提取历史数据中的高维输入观测信息,进行数据预处理后,构造出样本集,所述样本集包括t时刻的状态动作转移环境状态量样本数据
Figure 900540DEST_PATH_IMAGE002
;其中,
Figure 332527DEST_PATH_IMAGE004
表示当前t时刻状态下的状态及动作数据对,
Figure 377843DEST_PATH_IMAGE006
表示发生状态转移后的下一步状态;
对手智能体状态模型构建及训练步骤S120:
构建对手智能体状态模型,所述对手智能体状态模型包括神经网络,输入带时序信息的对手状态数据
Figure 773052DEST_PATH_IMAGE008
,利用所述神经网络提取出时序特征组,再在隐空间将所述时序特征组进一步提取处理,生成标准正态分布N(z),以及该标准正态分布的均值
Figure 853004DEST_PATH_IMAGE010
和方差
Figure 941046DEST_PATH_IMAGE012
,再对这些标准正态分布N(z)做概率采样,生成隐状态t时刻的状态数据
Figure 473658DEST_PATH_IMAGE014
并输出,利用步骤S110中的状态动作转移环境状态量样本数据
Figure 938138DEST_PATH_IMAGE002
对所述对手智能体状态模型进行学习训练直至收敛,输出该观测状态的抽象表示
Figure 872595DEST_PATH_IMAGE016
对手智能体状态预测模型构建及训练步骤S130:
在低维隐空间中利用DDPG深度强化学习网络构建状态预测模型,输入t时刻的状态数据
Figure 131539DEST_PATH_IMAGE016
和对手智能体动作数据
Figure 902180DEST_PATH_IMAGE018
,输出t+1时刻的隐空间状态变量预测值
Figure DEST_PATH_IMAGE020
,利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优;
状态转移模型构建及输出步骤S140:
利用解码器在隐变量空间中构建状态转移模型,通过重参数
Figure DEST_PATH_IMAGE022
,恢复对手智能体特征信息里的采样数据,将隐变量映射为可观测变量的估计值,升维重构生成新的重构样本值
Figure DEST_PATH_IMAGE024
2.根据权利要求1所述的对抗场景下的对手模型构建方法,其特征在于,
在步骤S110中,所述历史数据包括对手智能体状态类数据和对手智能体动作类数据,所述对手智能体状态类数据包括各智能体的位置、性能,所述位置是指物理空间的位置,所述性能是指装备的损伤程度;所述对手智能体动作类数据包括各装备智能体的行动指令数据,行动指令在交战规则集中选取,包含攻击或防守的目标和动作;
所述数据预处理包括对数据进行归一化和异常值处理。
3.根据权利要求1所述的对抗场景下的对手模型构建方法,其特征在于,
在步骤S120中,
所述对手智能体状态模型包括卷积神经网络模块和循环神经网络模块,利用卷积神经网络模块输入带时序信息的对手状态数据
Figure 701508DEST_PATH_IMAGE008
,提取特征
Figure DEST_PATH_IMAGE026
,将连续n时刻的特征
Figure DEST_PATH_IMAGE028
处理为时序特征组,输出至循环神经网络模块;循环神经网络模块对应均值方差计算模块,生成标准正态分布N(z),以及该标准正态分布的均值
Figure 756052DEST_PATH_IMAGE010
和方差
Figure 451476DEST_PATH_IMAGE012
,再对这些标准正态分布N(z)做概率采样,生成隐状态下t时刻的状态数据并输出。
4.根据权利要求1所述的对抗场景下的对手模型构建方法,其特征在于,
步骤S130具体为:
在低维隐空间利用DDPG深度强化学习网络构建状态预测模型,DDPG深度强化学习网络包括:Actor现实策略网络、Actor估计策略网络、Critic现实得分网络和Critic估计得分网络,输入t时刻的状态数据
Figure 207948DEST_PATH_IMAGE016
和对手智能体动作数据
Figure DEST_PATH_IMAGE030
,输出t+1时刻的状态预测值自身的隐状态
Figure DEST_PATH_IMAGE032
,隐状态
Figure 279809DEST_PATH_IMAGE032
是前一时刻的隐状态
Figure DEST_PATH_IMAGE034
和当前时刻数据
Figure 188859DEST_PATH_IMAGE020
的函数,即
Figure 789605DEST_PATH_IMAGE032
预测输出下一时刻状态值
Figure 784106DEST_PATH_IMAGE020
的概率密度函数
Figure DEST_PATH_IMAGE036
,此时
Figure 144811DEST_PATH_IMAGE020
以概率密度函数
Figure 908368DEST_PATH_IMAGE036
的形式输出,概率密度函数
Figure 945594DEST_PATH_IMAGE036
不是一个确定值,是一个范围区间,其中,
Figure 161811DEST_PATH_IMAGE032
表示深度强化学习网络模型在t+1时刻的隐状态,即智能体对于自身行动所引发的环境变化的预测,
利用KL散度和重构前后的损失函数之和作为目标函数,根据需要设定具体阈值,如果达到训练目标,则停止训练,反之继续训练,通过不断调参使模型对目标函数的优化达到最优。
5.根据权利要求4所述的对抗场景下的对手模型构建方法,其特征在于,
在步骤S130中,
所述目标函数使用的是KL散度与重构前后的均方误差之和作为评价指标。
6.根据权利要求1所述的对抗场景下的对手模型构建方法,其特征在于,
在步骤S140中,
解码器为反卷积模块,将循环神经网络提取的潜在变量
Figure 309896DEST_PATH_IMAGE020
从预设分布中采样重构,在隐空间对下一时刻状态预测值
Figure 662380DEST_PATH_IMAGE020
实施反卷积,生成和原始训练样本分布相似的新样本数据,得到重构样本值
Figure 870507DEST_PATH_IMAGE024
并输出。
7.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1-6中任意一项所述的对抗场景下的对手模型构建方法。
CN202210616679.1A 2022-06-01 2022-06-01 一种对抗场景下的对手模型构建方法及存储介质 Pending CN115212549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210616679.1A CN115212549A (zh) 2022-06-01 2022-06-01 一种对抗场景下的对手模型构建方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210616679.1A CN115212549A (zh) 2022-06-01 2022-06-01 一种对抗场景下的对手模型构建方法及存储介质

Publications (1)

Publication Number Publication Date
CN115212549A true CN115212549A (zh) 2022-10-21

Family

ID=83607138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210616679.1A Pending CN115212549A (zh) 2022-06-01 2022-06-01 一种对抗场景下的对手模型构建方法及存储介质

Country Status (1)

Country Link
CN (1) CN115212549A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115990875A (zh) * 2022-11-10 2023-04-21 华南理工大学 一种基于隐空间插值的柔性线缆状态预测与控制系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115990875A (zh) * 2022-11-10 2023-04-21 华南理工大学 一种基于隐空间插值的柔性线缆状态预测与控制系统
CN115990875B (zh) * 2022-11-10 2024-05-07 华南理工大学 一种基于隐空间插值的柔性线缆状态预测与控制系统

Similar Documents

Publication Publication Date Title
Seo et al. Reinforcement learning with action-free pre-training from videos
Zhang et al. Chaos-induced and mutation-driven schemes boosting salp chains-inspired optimizers
Ma et al. Contrastive variational reinforcement learning for complex observations
CN109829541A (zh) 基于学习自动机的深度神经网络增量式训练方法及系统
CN112884131A (zh) 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN112052948B (zh) 一种网络模型压缩方法、装置、存储介质和电子设备
CN111666919B (zh) 一种对象识别方法、装置、计算机设备和存储介质
Chan et al. ACTRCE: Augmenting Experience via Teacher's Advice For Multi-Goal Reinforcement Learning
Wei et al. Learning motion rules from real data: Neural network for crowd simulation
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
CN112434791A (zh) 多智能体强对抗仿真方法、装置及电子设备
CN115212549A (zh) 一种对抗场景下的对手模型构建方法及存储介质
CN116128060A (zh) 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法
CN111738435A (zh) 一种基于移动设备的在线稀疏训练方法及系统
Yu et al. Review of deep reinforcement learning
CN115168720A (zh) 内容交互预测方法以及相关设备
Yin et al. Sample efficient deep reinforcement learning via local planning
Zhao et al. ODE-based Recurrent Model-free Reinforcement Learning for POMDPs
CN116977661A (zh) 一种数据处理方法、装置、设备、存储介质及程序产品
CN114333069B (zh) 对象的姿态处理方法、装置、设备及存储介质
CN114282741A (zh) 任务决策方法、装置、设备及存储介质
CN114611990A (zh) 一种网络信息体系要素体系贡献率评估方法和装置
CN115168722A (zh) 内容交互预测方法以及相关设备
Zhong et al. Unsupervised learning for forecasting action representations
Fotiadis et al. Disentangled generative models for robust prediction of system dynamics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination