CN116227361A

CN116227361A - 一种智能体决策方法及装置

Info

Publication number: CN116227361A
Application number: CN202310246259.3A
Authority: CN
Inventors: 张俊峰; 张扬; 陈企华; 周鹏; 张煜; 淦家杭; 张焕俊; 王常琳; 张媛媛; 李文哲; 高超; 田原
Original assignee: 32370 Troops Of Chinese Pla
Current assignee: 32370 Troops Of Chinese Pla
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-06
Anticipated expiration: 2043-03-06
Also published as: CN116227361B

Abstract

本发明公开了一种智能体决策方法及装置，该方法包括：构建智能体决策模型；获取环境态势信息；基于智能体决策模型对环境态势信息进行处理，确定出智能体决策结果；智能体决策结果用于指示智能体的战术动作执行。可见，本发明有利于提升决策灵活度，进而提高智能体战术策略探索能力。

Description

一种智能体决策方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种智能体决策方法及装置。

背景技术

在仿真系统中，虚拟战场存在战争迷雾，智能体需要考虑诸多因素：地形、气象等外部环境因素，自身的武器装备和战术策略信息，敌方及友邻的动态信息等等，同时作战单元行动空间很大，智能体很难把握战场态势，制定出科学合理的战术策略。传统的基于知识规则驱动的方法需要花费大量资源来维护，不够灵活。因此，提供一种智能体决策方法及装置，以提升决策灵活度，进而提高智能体战术策略探索能力。

发明内容

本发明所要解决的技术问题在于，提供一种智能体决策方法及装置有利于提升决策灵活度，进而提高智能体战术策略探索能力。

为了解决上述技术问题，本发明实施例第一方面公开了一种智能体决策方法，所述方法包括：

构建智能体决策模型；

获取环境态势信息；

基于所述智能体决策模型对所述环境态势信息进行处理，确定出智能体决策结果；所述智能体决策结果用于指示智能体的战术动作执行。

作为一种可选的实施方式，在本发明实施例第一方面中，所述构建智能体决策模型，包括：

获取决策任务；

对所述决策任务进行分解，得到子任务集；所述子任务集包括至少2个子任务；

基于所述子任务集中各所述子任务的任务关系构建行为树；所述行为树包括若干个树节点；每个所述树节点对应于一个所述子任务；

基于预设的决策模型集合对所述行为树中各所述树节点进行模型设定，得到智能体决策模型；所述智能体决策模型包括若干个节点模型；每个所述树节点对应于至少1个所述节点模型。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于所述智能体决策模型对所述环境态势信息进行处理，确定出智能体决策结果，包括：

从所述智能体决策模型中确定出所述环境态势信息的任务属性信息相匹配的目标模型集合；所述目标模型集合包括至少1个节点模型，至多2个所述节点模型；所述节点模型包括智能决策模型，和/或，逻辑决策模型；

判断所述目标模型集合中的所有所述节点模型是否存在所述智能决策模型，得到第一模型判断结果；

当所述第一模型判断结果为是时，判断所述任务属性信息对应的模型优先级是否与所述智能决策模型的模型优先级相一致，得到第二模型判断结果；

当所述第二模型判断结果为是时，基于所述智能决策模型对所述环境态势信息进行处理，得到智能体决策结果；

当所述第二模型判断结果为否时，基于所述逻辑决策模型对所述环境态势信息进行处理，得到所述智能体决策结果；

当所述第一模型判断结果为否时，基于所述逻辑决策模型对所述环境态势信息进行处理，得到所述智能体决策结果。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于所述智能决策模型对所述环境态势信息进行处理，得到智能体决策结果，包括：

对所述环境态势信息进行结构化处理，得到状态空间信息；所述状态空间信息为多维张量结构的数据信息；

利用所述智能决策模型中的第一策略模型对所述状态空间信息进行处理，得到智能体决策结果。

作为一种可选的实施方式，在本发明实施例第一方面中，所述智能体决策结果包括动作类型和动作参数；

所述第一策略模型包括第一模型、第二模型和第三模型；所述第二模型和所述第三模型并行连接于所述第一模型；

所述利用所述智能决策模型中的第一策略模型对所述状态空间信息进行处理，得到智能体决策结果，包括：

利用所述第一模型中的卷积层对所述状态空间信息进行2次卷积处理，得到卷积信息；

利用所述第一模型中的池化层对所述卷积信息进行空间金字塔池化操作，得到池化信息；

利用所述第一模型中的输出层对所述池化信息进行全连接处理，得到状态参数信息；

利用所述第二模型对所述状态参数信息进行卷积处理，得到所述动作参数；

利用所述第三模型对所述状态参数信息进行处理，得到所述动作类型。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用所述第三模型对所述状态参数信息进行处理，得到所述动作类型，包括：

利用所述第三模型中的全连接神经网络对所述状态参数信息进行处理，得到动作向量信息；所述动作向量信息的数据数量为256；

利用所述第三模型中的策略模型对所述动作向量信息处理，得到动作概率信息；所述动作概率信息中的动作概率表征所述智能体的战术动作的分布概率情况；所述动作概率信息中动作概率的数量为20；

基于预设的战术动作映射关系对所述动作概率信息进行匹配筛选处理，得到所述动作类型；所述战术动作映射关系表征所述战术动作对应的动作类型与动作执行概率阈值的对应关系。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述利用所述智能决策模型中的第一策略模型对所述状态空间信息进行处理，得到智能体决策结果之后，所述方法还包括：

基于所述智能体对所述智能体决策结果的执行，得到环境反馈信息；

基于奖励评估模型对所述环境反馈信息进行计算，得到环境评估得分；

其中，所述奖励评估模型为：

式中，R_ss'为环境评估得分；w₁、w₂和w_x为权重因子；Δh_h为所述智能体执行第1个战术动作中第h个动作对象的得分；Δf_i为所述智能体执行第2个战术动作中第i个动作对象的得分；Δd_j为所述智能体执行第x个战术动作中第j个动作对象的得分；n、m和l分别为第1个战术动作中动作对象、第2个战术动作中动作对象和第x个战术动作中动作对象的数量；

利用所述智能决策模型中的第二策略模型对所述环境评估得分进行误差计算，得到态势评估值；

利用所述态势评估值对所述第一策略模型进行更新。

本发明实施例第二方面公开了一种智能体决策装置，装置包括：

构建模块，用于构建智能体决策模型；

获取模块，用于获取环境态势信息；

确定模块，用于基于所述智能体决策模型对所述环境态势信息进行处理，确定出智能体决策结果；所述智能体决策结果用于指示智能体的战术动作执行。

本发明第三方面公开了另一种智能体决策装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的智能体决策方法中的部分或全部步骤。

本发明第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明实施例第一方面公开的智能体决策方法中的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，构建智能体决策模型；获取环境态势信息；基于智能体决策模型对环境态势信息进行处理，确定出智能体决策结果；智能体决策结果用于指示智能体的战术动作执行。可见，本发明有利于提升决策灵活度，进而提高智能体战术策略探索能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种智能体决策方法的流程示意图；

图2是本发明实施例公开的一种智能体决策装置的结构示意图；

图3是本发明实施例公开的另一种智能体决策装置的结构示意图；

图4是本发明实施例公开的第一策略模型的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种智能体决策方法及装置有利于提升决策灵活度，进而提高智能体战术策略探索能力。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种智能体决策方法的流程示意图。其中，图1所描述的智能体决策方法应用于作战仿真系统中，如用于智能体决策管理的本地服务器或云端服务器等，本发明实施例不做限定。如图1所示，该智能体决策方法可以包括以下操作：

101、构建智能体决策模型。

102、获取环境态势信息。

103、基于智能体决策模型对环境态势信息进行处理，确定出智能体决策结果。

本发明实施例中，智能体决策结果用于指示智能体的战术动作执行。

需要说明的是，目前基于机器学习等数据驱动的方法导致多智能体自主决策模型逼真度和灵活性不高。智能体决策建模往往还是停留在对博弈对抗过程的描述，采用的推理机制是固定的，针对特定应用预设搜索策略和推理策略进行决策，只有在作战条件确定，指挥规则明确、完备的情况下才能发挥效果，决策灵活度不够，不能对对抗策略进行寻优同时。而本发明的智能体决策方法利用行为树将决策知识转化为程序逻辑，解决战术决策过程的形式化表达问题，在行为树的基础上，融入强化学习节点，利用卷积神经网络表示战场态势，赋予智能体战术决策的灵活性。本发明的智能体决策方法在利用决策知识经验的同时具有战术探索能力，能够寻找到更优的战术策略，从而在仿真对抗中战胜对手。

可见，实施本发明实施例所描述的智能体决策方法能够通过获取出库订单信息，再利用订单类型确定规则确定出出库订单类型信息，进而确定目标订单，有利于提升决策灵活度，进而提高智能体战术策略探索能力。

在一个可选的实施例中，上述构建智能体决策模型，包括：

获取决策任务；

对决策任务进行分解，得到子任务集；子任务集包括至少2个子任务；

基于子任务集中各子任务的任务关系构建行为树；行为树包括若干个树节点；每个树节点对应于一个子任务；

基于预设的决策模型集合对行为树中各树节点进行模型设定，得到智能体决策模型；智能体决策模型包括若干个节点模型；每个树节点对应于至少1个节点模型。

需要说明的，上述通过将任务分解并构建行为树可将任务完成过程进行流程化控制，即以树逻辑进行形式化表达，标准化了任务完成过程，可提高智能体决策效率。进一步的，通过决策模型集合中的智能决策模型和逻辑决策模型对树节点进行个性化的模型设定，将传统的行为树和智能模型进行融合，以解决现有技术中在面对不完全的信息、不确定的条件时，很难设定相应的战术策略，无法设置相关控制流程的问题。与此同时，可通过对节点模型的优化更新，不断提高智能体探索战术策略的能力，进一步提高决策灵活度。

可选的，上述决策任务表征智能体获取的任务信息。进一步的，决策任务包含不同的子任务，子任务的类型可以是相同的，每个子任务之间是彼此独立的。

可见，实施本发明实施例所描述的智能体决策方法有利于提升决策灵活度，进而提高智能体战术策略探索能力。

在另一个可选的实施例中，基于智能体决策模型对环境态势信息进行处理，确定出智能体决策结果，包括：

从智能体决策模型中确定出环境态势信息的任务属性信息相匹配的目标模型集合；目标模型集合包括至少1个节点模型，至多2个节点模型；节点模型包括智能决策模型，和/或，逻辑决策模型；

判断目标模型集合中的所有节点模型是否存在智能决策模型，得到第一模型判断结果；

当第一模型判断结果为是时，判断任务属性信息对应的模型优先级是否与智能决策模型的模型优先级相一致，得到第二模型判断结果；

当第二模型判断结果为是时，基于智能决策模型对环境态势信息进行处理，得到智能体决策结果；

当第二模型判断结果为否时，基于逻辑决策模型对环境态势信息进行处理，得到智能体决策结果；

当第一模型判断结果为否时，基于逻辑决策模型对环境态势信息进行处理，得到智能体决策结果。

需要说明的是，上述逻辑决策模型是基于逻辑控制的知识规则。

在该可选的实施例中，作为一种可选的实施方式，上述从智能体决策模型中确定出环境态势信息的任务属性信息相匹配的目标模型集合，包括：

基于环境态势信息的任务属性信息中的任务编号与智能体决策模型中行为树的树节点编号的对应关系，确定出目标树节点；

基于目标树节点对应的所有节点模型，确定出目标模型集合。

需要说明的是，基于上述每个子任务之间是彼此独立，可确定得到每个任务编号对应于唯一一个树节点编号，以提高当前任务对树节点的识别精度，进而提高智能体决策的效能。

需要说明的是，通过任务属性信息中的任务编号智能体决策模型中行为树的树节点编号的对应关系可以高效确定当前任务的节点环节，由此可便捷快速地确定智能体决策所需的决策模型，以提高智能体决策的效率和精度。

需要说明的是，上述通过判断任务属性信息对应的模型优先级是否与智能决策模型的模型优先级相一致可快速确定同一树节点中存在多个节点模型时的目标模型，从而根据当前任务的属性高效确定用于智能体决策的模型规则，提高智能体对当前任务的决策效率。

在又一个可选的实施例中，基于智能决策模型对环境态势信息进行处理，得到智能体决策结果，包括：

对环境态势信息进行结构化处理，得到状态空间信息；状态空间信息为多维张量结构的数据信息；

利用智能决策模型中的第一策略模型对状态空间信息进行处理，得到智能体决策结果。

需要说明的是，上述状态空间信息包括战场环境信息和作战单元信息。进一步的，上述作战单元信息U是动态的、不确定的，甚至含有未知信息，可以表示为：

U＝{I,t,p,H,M,a}；

其中，I为作战单元的唯一标识符；t为作战单元的单位类型；p为作战单元的位置坐标；H为生命值；M为机动力；a为攻击力。

可选的，上述单位类型包括坦克，和/或，装甲车，和/或，迫榴炮，本发明实施例不做限定。

可选的，上述生命值随单位类型的变化而变化。

可选的，上述机动力表征作战单元的机动性能和机动距离。

可选的，上述攻击力表征作战单元对敌方目标的毁伤能力。

可选的，上述战场环境信息包括地形类型，和/或，坐标，和/或，高程，本发明实施例不做限定。

在又一个可选的实施例中，如图4所示，智能体决策结果包括动作类型和动作参数；

第一策略模型包括第一模型、第二模型和第三模型；第二模型和第三模型并行连接于第一模型；

利用智能决策模型中的第一策略模型对状态空间信息进行处理，得到智能体决策结果，包括：

利用第一模型中的卷积层对状态空间信息进行2次卷积处理，得到卷积信息；

利用第一模型中的池化层对卷积信息进行空间金字塔池化操作，得到池化信息；

利用第一模型中的输出层对池化信息进行全连接处理，得到状态参数信息；

利用第二模型对状态参数信息进行卷积处理，得到动作参数；

利用第三模型对状态参数信息进行处理，得到动作类型。

需要说明的是，上述动作类型与单位类型是相匹配的。每种单位类型可对应于多个不同类型的动作类型，不同单位类型的动作类型可以是相同的，也可以是不相同的。图4中的行动标识表征动作类型。

需要说明的是，上述动作参数是智能体执行动作类型所需参数序列的组合。

可选的，第一模型为图4中的卷积网络A。第二模型为卷积网络B。第三模型为包括全连接神经网络A和策略模型B的模型。

可选的，上述第一模型中的卷积层包括卷积核大小为5×5，步长为1和卷积核大小为3×3，步长为1的两个子卷积层。

进一步的，上述第一模型的输出的状态参数信息的大小为128×128×32。

需要说明的是，深度神经网络通常需要固定的输入尺寸，因此需要对输入进行预处理，对输入信息进行裁剪、拉伸或缩放到需要的尺寸，再将其输入网络。这种操作的缺点是可能会丢失一些信息，从而导致识别精度的降低。

进一步的，本申请实施例的第一模型中的池化层的空间金字塔池化操作最主要的解决的问题就是网络对于输入尺寸的限制，它可以固定输出的大小，对于输入的尺寸没有要求，并且可以使用不同尺寸的同一输入信息，使用不同尺度的池化得到大小相同的池化特征。同时，空间金字塔池化操作通过对特征映射采用不同尺寸的Pooling，获得不同大小的感受野，也就是多尺度提取特征。多尺度其实就是对信号不同粒度的采样，通常使用不同的尺度进行特征提取可以获得不同的特征，从而得到更强大的特征表达。

需要说明的是，第二模型的卷积核大小为1×1，其输出的动作参数的大小为128×128×1。

在一个可选的实施例中，上述利用第三模型对状态参数信息进行处理，得到动作类型，包括：

利用第三模型中的全连接神经网络对状态参数信息进行处理，得到动作向量信息；动作向量信息的数据数量为256；

利用第三模型中的策略模型对动作向量信息处理，得到动作概率信息；动作概率信息中的动作概率表征智能体的战术动作的分布概率情况；动作概率信息中动作概率的数量为20；

基于预设的战术动作映射关系对动作概率信息进行匹配筛选处理，得到动作类型；战术动作映射关系表征战术动作对应的动作类型与动作执行概率阈值的对应关系。

需要说明的是，上述动作概率信息中动作概率可以是空缺状态，其表征该位置的动作类型是保持当前动作。进一步的，设定数量为20的动作类型，可保障智能体能够实现所有子任务的动作类型，又保持高效的数据处理效率。

在该可选的实施例中，作为一种可选的实施方式，上述基于预设的战术动作映射关系对动作概率信息进行匹配筛选处理，得到动作类型，包括：

将动作概率信息中的所有动作概率从大到小进行排序，得到动作概率序列；

基于预设的战术动作映射关系，依序对动作概率序列中的动作概率进行判别，得到动作概率对应的判别结果序列；判别结果序列中的判别结果包括表征战术动作可执行的执行动作和战术动作不可执行的动作略过；

依序从判别结果序列中选取判别结果作为待选判别结果，当该待选判别结果为战术动作可执行的执行动作时，确定该待选判别结果为目标判别结果；

确定目标判别结果的战术动作所对应的类型信息为动作类型。

可选的，上述目标判别结果为所有战术动作可执行的执行动作的判别结果中动作概率最大值。

需要说明的是，通过对动作概率的匹配筛选可极大提高智能体决策的可靠性，进而提高决策体决策精度。

在另一个可选的实施例中，在利用智能决策模型中的第一策略模型对状态空间信息进行处理，得到智能体决策结果之后，方法还包括：

基于智能体对智能体决策结果的执行，得到环境反馈信息；

基于奖励评估模型对环境反馈信息进行计算，得到环境评估得分；

其中，奖励评估模型为：

式中，R_ss'为环境评估得分；w₁、w₂和w_x为权重因子；Δh_h为智能体执行第1个战术动作中第h个动作对象的得分；Δf_i为智能体执行第2个战术动作中第i个动作对象的得分；Δd_j为智能体执行第x个战术动作中第j个动作对象的得分；n、m和l分别为第1个战术动作中动作对象、第2个战术动作中动作对象和第x个战术动作中动作对象的数量；

利用智能决策模型中的第二策略模型对环境评估得分进行误差计算，得到态势评估值；

利用态势评估值对第一策略模型进行更新。

在该可选的实施例中，作为一种可选的实施方式，上述利用智能决策模型中的第二策略模型对环境评估得分进行误差计算，得到态势评估值，包括：

基于环境反馈信息中的当前状态和下一预期状态，计算当前期望回报和下一策略期望回报；

利用第二策略模型对环境评估得分、当前期望回报和下一策略期望回报进行计算，得到态势评估值；

其中，第二策略模型为

Aπ(s_t,a_t)＝r(s_t,a_t)+γv(s_t+1)-v(s_t)；

式中，Aπ(s_t,a_t)为在当前状态s_t执行动作a_t的态势评估值；v(s_t)为在当前状态s_t计算得到的当前期望回报；v(s_t+1)为在下一预期状态s_t+1计算得到的下一策略期望回报；γ为权重值；r(s_t,a_t)为基于环境评估得分计算得到的反馈值。

需要说明的是，上述利用态势评估值对第一策略模型进行更新是利用态势评估值进行策略梯度计算，并根据设定的学习率对第一策略模型的参数进行更新。

实施例二

请参阅图2，图2是本发明实施例公开的一种智能体决策装置的结构示意图。其中，图2所描述的装置能够应用于作战仿真系统中，如用于智能体决策管理的本地服务器或云端服务器等，本发明实施例不做限定。如图2所示，该装置可以包括：

构建模块201，用于构建智能体决策模型；

获取模块202，用于获取环境态势信息；

确定模块203，用于基于智能体决策模型对环境态势信息进行处理，确定出智能体决策结果；智能体决策结果用于指示智能体的战术动作执行。

可见，实施图2所描述的智能体决策装置有利于提升决策灵活度，进而提高智能体战术策略探索能力。

在另一个可选的实施例中，如图2所示，构建模块201构建智能体决策模型，包括：

获取决策任务；

在又一个可选的实施例中，如图2所示，确定模块203基于智能体决策模型对环境态势信息进行处理，确定出智能体决策结果，包括：

在又一个可选的实施例中，如图2所示，确定模块203基于智能决策模型对环境态势信息进行处理，得到智能体决策结果，包括：

在又一个可选的实施例中，如图2所示，智能体决策结果包括动作类型和动作参数；

确定模块203利用智能决策模型中的第一策略模型对状态空间信息进行处理，得到智能体决策结果，包括：

利用第三模型对状态参数信息进行处理，得到动作类型。

在又一个可选的实施例中，如图2所示，确定模块203利用第三模型对状态参数信息进行处理，得到动作类型，包括：

在又一个可选的实施例中，如图2所示，在确定模块203利用智能决策模型中的第一策略模型对状态空间信息进行处理，得到智能体决策结果之后，确定模块203还用于：

基于智能体对智能体决策结果的执行，得到环境反馈信息；

其中，奖励评估模型为：

利用态势评估值对第一策略模型进行更新。

实施例三

请参阅图3，图3是本发明实施例公开的又一种智能体决策装置的结构示意图。其中，图3所描述的装置能够应用于作战仿真系统中，如用于智能体决策管理的本地服务器或云端服务器等，本发明实施例不做限定。如图3所示，该装置可以包括：

存储有可执行程序代码的存储器301；

与存储器301耦合的处理器302；

处理器302调用存储器301中存储的可执行程序代码，用于执行实施例一所描述的智能体决策方法中的步骤。

实施例四

本发明实施例公开了一种计算机可读读存储介质，其存储用于电子数据交换的计算机程序，其中，该计算机程序使得计算机执行实施例一所描述的智能体决策方法中的步骤。

实施例五

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一所描述的智能体决策方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种智能体决策方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种智能体决策方法，其特征在于，所述方法包括：

构建智能体决策模型；

获取环境态势信息；

2.根据权利要求1所述的智能体决策方法，其特征在于，所述构建智能体决策模型，包括：

获取决策任务；

3.根据权利要求1所述的智能体决策方法，其特征在于，所述基于所述智能体决策模型对所述环境态势信息进行处理，确定出智能体决策结果，包括：

4.根据权利要求3所述的智能体决策方法，其特征在于，所述基于所述智能决策模型对所述环境态势信息进行处理，得到智能体决策结果，包括：

5.根据权利要求4所述的智能体决策方法，其特征在于，所述智能体决策结果包括动作类型和动作参数；

6.根据权利要求5所述的智能体决策方法，其特征在于，所述利用所述第三模型对所述状态参数信息进行处理，得到所述动作类型，包括：

7.根据权利要求4所述的智能体决策方法，其特征在于，在所述利用所述智能决策模型中的第一策略模型对所述状态空间信息进行处理，得到智能体决策结果之后，所述方法还包括：

其中，所述奖励评估模型为：

利用所述态势评估值对所述第一策略模型进行更新。

8.一种智能体决策装置，其特征在于，所述装置包括：

构建模块，用于构建智能体决策模型；

获取模块，用于获取环境态势信息；

9.一种智能体决策装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的智能体决策方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的智能体决策方法。