CN116452011A - 一种用于智能体决策的数据处理方法及装置 - Google Patents
一种用于智能体决策的数据处理方法及装置 Download PDFInfo
- Publication number
- CN116452011A CN116452011A CN202310265401.9A CN202310265401A CN116452011A CN 116452011 A CN116452011 A CN 116452011A CN 202310265401 A CN202310265401 A CN 202310265401A CN 116452011 A CN116452011 A CN 116452011A
- Authority
- CN
- China
- Prior art keywords
- action
- state
- target
- task
- action state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 230000009471 action Effects 0.000 claims abstract description 285
- 238000012545 processing Methods 0.000 claims abstract description 59
- 230000008901 benefit Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 17
- 239000003795 chemical substances by application Substances 0.000 claims description 67
- 239000013598 vector Substances 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 31
- 238000004088 simulation Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 11
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000007123 defense Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 208000037280 Trisomy Diseases 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06316—Sequencing of tasks or work
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于智能体决策的数据处理方法及装置,该方法包括:获取多目标任务信息;多目标任务信息包括第一任务对象信息和第二任务对象信息;第一任务对象信息包括N个第一任务对象;第二任务对象信息包括M个第二任务对象;N不小于M;基于多目标任务信息,确定出动作状态信息;动作状态信息包括M个并列排布的N×N矩阵;基于任务效益模型对动作状态信息进行处理,得到目标决策结果;目标决策结果用于指示第一任务对象对第二任务对象的动作执行。可见,本发明有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
Description
技术领域
本发明涉及仿真技术领域,尤其涉及一种用于智能体决策的数据处理方法及装置。
背景技术
随着武器技术的发展,传统的攻防对抗场景呈现不断复杂化的趋势。传统一对一的攻防对抗问题也难以满足复杂战场智能化的发展趋势。在各种新的研究中,对抗双方不断采用新的博弈策略从而取得战场优势。其中由目标主动防御引发的三体对抗问题成为研究的热点。一个多对多的博弈问题不能简单地分解为多个一对一单智能体博弈问题。因此,提供一种用于智能体决策的数据处理方法及装置,以实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
发明内容
本发明所要解决的技术问题在于,提供一种用于智能体决策的数据处理方法及装置有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
为了解决上述技术问题,本发明实施例第一方面公开了一种用于智能体决策的数据处理方法,所述方法包括:
获取多目标任务信息;所述多目标任务信息包括第一任务对象信息和第二任务对象信息;所述第一任务对象信息包括N个第一任务对象;所述第二任务对象信息包括M个第二任务对象;所述N不小于所述M;
基于所述多目标任务信息,确定出动作状态信息;所述动作状态信息包括所述M个并列排布的N×N矩阵;
基于任务效益模型对所述动作状态信息进行处理,得到目标决策结果;所述目标决策结果用于指示所述第一任务对象对所述第二任务对象的动作执行。
作为一种可选的实施方式,在本发明实施例第一方面中,所述基于任务效益模型对所述动作状态信息进行处理,得到目标决策结果,包括:
基于所述动作状态信息,确定出目标动作状态;所述目标动作状态为M×N的矩阵;
获取当前迭代次数;
判断当前迭代次数是否满足迭代阈值,得到迭代判断结果;
当所述迭代判断结果为是时,基于所述目标动作状态和所有历史目标动作状态,确定出目标决策结果;
当所述迭代判断结果为否时,利用任务效益模型对所述目标动作状态进行计算处理,得到动作奖励值;
基于所述目标动作状态和所述动作奖励值,确定出所述目标决策结果。
作为一种可选的实施方式,在本发明实施例第一方面中,所述利用任务效益模型对所述目标动作状态进行计算处理,得到动作奖励值,包括:
判断所述目标动作状态中的是否存在矩阵元素全部为0的列,得到奖励判断结果;
当所述奖励判断结果为是时,确定动作奖励值为奖励阈值;所述奖励阈值为不大于0的整数;
当所述奖励判断结果为否时,基于任务效益模型对所述目标动作状态进行计算,得到所述动作奖励值;
所述任务效益模型为:
其中,R为动作奖励值;vj为第j个第二任务对象的综合价值;ci为第i个第一任务对象的成本;xij为目标动作状态中的状态动作。
作为一种可选的实施方式,在本发明实施例第一方面中,所述基于所述目标动作状态和所述动作奖励值,确定出所述目标决策结果,包括:
判断所述动作奖励值是否满足最优性约束,得到最优判断结果;所述最优性约束表征动作奖励值优于预设的奖励阈值;
当所述最优判断结果为否时,对所述目标动作状态进行更新,并出发执行所述获取当前迭代次数;
当所述最优判断结果为是时,确定所述目标动作状态为所述目标决策结果。
作为一种可选的实施方式,在本发明实施例第一方面中,所述对所述目标动作状态进行更新,包括:
响应于所述目标动作状态的仿真动作执行,得到当前任务状态;
利用所述当前任务状态与所述动作状态信息之间的状态匹配关系,确定出待用动作状态;
利用优解模型对所述待用动作状态和所有所述历史目标动作状态进行计算,得到当前动作状态;
所述优解模型为:
其中,A为当前动作状态;Q为所有所述历史目标动作状态;Qx为所述待用动作状态;ε为优解系数;random()为所述待用动作状态对应的状态概率值;
利用更新模型将所述当前动作状态替换为新的目标动作状态;
所述更新模型为:
其中,Q(s1,a1)为新的目标动作状态;Q(s0,a0)为更新前的目标动作状态;α为校正系数;γ为折扣系数;Q(s′,a)为当前动作状态。
作为一种可选的实施方式,在本发明实施例第一方面中,所述当前动作状态为M×N的矩阵;所述当前动作状态的矩阵元素为0,和/或,1;
在所述利用优解模型对所述待用动作状态和所有所述历史目标动作状态进行计算,得到当前动作状态之后,所述方法还包括:
计算所述当前动作状态中所有所述矩阵元素的和,得到元素和值;
判断所述元素和值是否等于所述M,得到元素判断结果;
当所述元素判断结果为否时,触发执行所述利用所述当前任务状态与所述动作状态信息之间的状态匹配关系,确定出待用动作状态;
当所述元素判断结果为是时,触发执行所述利用优解模型对所述待用动作状态和所有所述历史目标动作状态进行计算,得到当前动作状态。
作为一种可选的实施方式,在本发明实施例第一方面中,所述基于所述多目标任务信息,确定出动作状态信息,包括:
对所述第二任务对象信息中的第二任务对象按序进行编排,得到动作对象序列;
对于所述第一任务对象信息中的任一所述第一任务对象,依据所述动作对象序列,生成M个状态动作向量;任意2个所述状态动作向量是不相一致的;所述状态动作向量中所有向量元素之和不大于所述N;所述状态动作向量的向量元素为0,和/或,1;
按所述状态动作向量的生成顺序,依序排列所述M个所述状态动作向量,得到状态动作矩阵;
构建所有所述状态动作矩阵进行并列对应关系,得到动作状态信息;所述并列对应关系表征任意2个所述状态动作矩阵中同一位置的矩阵元素不同时为1。
本发明实施例第二方面公开了一种用于智能体决策的数据处理装置,装置包括:
获取模块,用于获取多目标任务信息;所述多目标任务信息包括第一任务对象信息和第二任务对象信息;所述第一任务对象信息包括N个第一任务对象;所述第二任务对象信息包括M个第二任务对象;所述N不小于所述M;
确定模块,用于基于所述多目标任务信息,确定出动作状态信息;所述动作状态信息包括所述M个并列排布的N×N矩阵;
得到模块,用于基于任务效益模型对所述动作状态信息进行处理,得到目标决策结果;所述目标决策结果用于指示所述第一任务对象对所述第二任务对象的动作执行。
本发明第三方面公开了另一种用于智能体决策的数据处理装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的用于智能体决策的数据处理方法中的部分或全部步骤。
本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明实施例第一方面公开的用于智能体决策的数据处理方法中的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,获取多目标任务信息;多目标任务信息包括第一任务对象信息和第二任务对象信息;第一任务对象信息包括N个第一任务对象;第二任务对象信息包括M个第二任务对象;N不小于M;基于多目标任务信息,确定出动作状态信息;动作状态信息包括M个并列排布的N×N矩阵;基于任务效益模型对动作状态信息进行处理,得到目标决策结果;目标决策结果用于指示第一任务对象对第二任务对象的动作执行。可见,本发明有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种用于智能体决策的数据处理方法的流程示意图;
图2是本发明实施例公开的一种用于智能体决策的数据处理装置的结构示意图;
图3是本发明实施例公开的另一种用于智能体决策的数据处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种用于智能体决策的数据处理方法及装置有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种用于智能体决策的数据处理方法的流程示意图。其中,图1所描述的用于智能体决策的数据处理方法应用于仿真决策系统中,如用于智能体决策的数据处理管理的本地服务器或云端服务器等,本发明实施例不做限定。如图1所示,该用于智能体决策的数据处理方法可以包括以下操作:
101、获取多目标任务信息。
本发明实施例中,多目标任务信息包括第一任务对象信息和第二任务对象信息。
本发明实施例中,第一任务对象信息包括N个第一任务对象。
本发明实施例中,第二任务对象信息包括M个第二任务对象。
本发明实施例中,N不小于M。
102、基于多目标任务信息,确定出动作状态信息。
本发明实施例中,动作状态信息包括M个并列排布的N×N矩阵。
103、基于任务效益模型对动作状态信息进行处理,得到目标决策结果。
本发明实施例中,目标决策结果用于指示第一任务对象对第二任务对象的动作执行。
需要说明的是,第一任务对象可以为作战仿真中的主动动作的仿真主体。具体的,其可以为战斗机,和/或,防御导弹。
需要说明的是,第二任务对象可以为作战仿真中的来袭动作的仿真主体。具体的,其可以为来袭导弹。
需要说明的是,上述并列排布的N×N矩阵表征第一任务对象对第二任务对象的可能并行动作。
可见,实施本发明实施例所描述的用于智能体决策的数据处理方法有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在一个可选的实施例中,上述基于任务效益模型对动作状态信息进行处理,得到目标决策结果,包括:
基于动作状态信息,确定出目标动作状态;目标动作状态为M×N的矩阵;
获取当前迭代次数;
判断当前迭代次数是否满足迭代阈值,得到迭代判断结果;
当迭代判断结果为是时,基于目标动作状态和所有历史目标动作状态,确定出目标决策结果;
当迭代判断结果为否时,利用任务效益模型对目标动作状态进行计算处理,得到动作奖励值;
基于目标动作状态和动作奖励值,确定出目标决策结果。
需要说明的是,上述当前迭代次数表征多目标博弈决策的循环次数,每次迭代之后次数增加一次。
在该可选的实施例中,作为一种可选的实施方式,上述基于动作状态信息,确定出目标动作状态,包括:
获取当前任务状态;
基于当前任务状态与动作状态信息中状态动作矩阵的状态匹配关系,确定出M个目标状态动作向量;
将M个目标状态动作向量依据动作对象序列进行编码,得到目标动作状态。
需要说明的是,上述状态匹配关系可以是预先设定的,也可以是根据历史数据训练得到的,本发明实施例不做限定。
需要说明的是,上述当前任务状态表征第一任务对象与第二任务对象的动作匹配情况。
在该可选的实施例中,作为一种可选的实施方式,基于目标动作状态和所有历史目标动作状态,确定出目标决策结果,包括:
对目标动作状态和所有历史目标动作状态按奖励函数值从大到小进行排序,得到动作状态序列;
确定动作状态序列中排序第一的元素为目标决策结果。
可见,实施本发明实施例所描述的用于智能体决策的数据处理方法有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在另一个可选的实施例中,利用任务效益模型对目标动作状态进行计算处理,得到动作奖励值,包括:
判断目标动作状态中的是否存在矩阵元素全部为0的列,得到奖励判断结果;
当奖励判断结果为是时,确定动作奖励值为奖励阈值;奖励阈值为不大于0的整数;
当奖励判断结果为否时,基于任务效益模型对目标动作状态进行计算,得到动作奖励值;
任务效益模型为:
其中,R为动作奖励值;vj为第j个第二任务对象的综合价值;ci为第i个第一任务对象的成本;xij为目标动作状态中的状态动作。
需要说明的是,上述目标动作状态中存在矩阵元素全部为0的列表征第一任务对象没有全部被分配动作作用于第二任务对象。
需要说明的是,通过计算动作奖励值来判断当前的目标动作状态是否满足最优性约束,来指导对目标动作状态的优化选择,从而避免在多目标决策过程中生成不符合约束条件的情况出现,以提高数据处理的效率和精度。
可见,实施本发明实施例所描述的用于智能体决策的数据处理方法有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在又一个可选的实施例中,基于目标动作状态和动作奖励值,确定出目标决策结果,包括:
判断动作奖励值是否满足最优性约束,得到最优判断结果;最优性约束表征动作奖励值优于预设的奖励阈值;
当最优判断结果为否时,对目标动作状态进行更新,并出发执行获取当前迭代次数;
当最优判断结果为是时,确定目标动作状态为目标决策结果。
需要说明的是,上述奖励阈值可以是预先设定的,也可以是动态变化的,本发明实施例不做限定。
可见,实施本发明实施例所描述的用于智能体决策的数据处理方法有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在又一个可选的实施例中,对目标动作状态进行更新,包括:
响应于目标动作状态的仿真动作执行,得到当前任务状态;
利用当前任务状态与动作状态信息之间的状态匹配关系,确定出待用动作状态;
利用优解模型对待用动作状态和所有历史目标动作状态进行计算,得到当前动作状态;
优解模型为:
其中,A为当前动作状态;Q为所有历史目标动作状态;Qx为待用动作状态;ε为优解系数;random()为待用动作状态对应的状态概率值;
利用更新模型将当前动作状态替换为新的目标动作状态;
更新模型为:
其中,Q(s1,a1)为新的目标动作状态;Q(s0,a0)为更新前的目标动作状态;α为校正系数;γ为折扣系数;Q(s′,a)为当前动作状态。
需要说明的是,上述响应于目标动作状态的仿真动作执行是基于目标动作状态执行第一任务对象对第二任务对象的动作,以得到第一任务对象和第二任务对象对应的动作状态情况,即当前任务状态。
可见,实施本发明实施例所描述的用于智能体决策的数据处理方法有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在一个可选的实施例中,上述当前动作状态为M×N的矩阵;当前动作状态的矩阵元素为0,和/或,1;
在利用优解模型对待用动作状态和所有历史目标动作状态进行计算,得到当前动作状态之后,方法还包括:
计算当前动作状态中所有矩阵元素的和,得到元素和值;
判断元素和值是否等于M,得到元素判断结果;
当元素判断结果为否时,触发执行利用当前任务状态与动作状态信息之间的状态匹配关系,确定出待用动作状态;
当元素判断结果为是时,触发执行利用优解模型对待用动作状态和所有历史目标动作状态进行计算,得到当前动作状态。
可见,实施本发明实施例所描述的用于智能体决策的数据处理方法有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在另一个可选的实施例中,基于多目标任务信息,确定出动作状态信息,包括:
对第二任务对象信息中的第二任务对象按序进行编排,得到动作对象序列;
对于第一任务对象信息中的任一第一任务对象,依据动作对象序列,生成M个状态动作向量;任意2个状态动作向量是不相一致的;状态动作向量中所有向量元素之和不大于N;状态动作向量的向量元素为0,和/或,1;
按状态动作向量的生成顺序,依序排列M个状态动作向量,得到状态动作矩阵;
构建所有状态动作矩阵进行并列对应关系,得到动作状态信息;并列对应关系表征任意2个状态动作矩阵中同一位置的矩阵元素不同时为1。
需要说明的,上述动作对象序列是将第二任务对象进行标号,以便于后续对第二任务对象的有序处理。
需要说明的,上述通过对于第一任务对象信息中的任一第一任务对象,依据动作对象序列,生成M个状态动作向量可将N个第一任务对象对M个第二任务对象的所有可能动作。举例来说,当第一任务对象为4枚拦截弹,第二任务对象为2枚来袭导弹,则M个状态动作向量可如下表所示:
可见,实施本发明实施例所描述的用于智能体决策的数据处理方法有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
实施例二
请参阅图2,图2是本发明实施例公开的一种用于智能体决策的数据处理装置的结构示意图。其中,图2所描述的装置能够应用于仿真决策系统中,如用于智能体决策的数据处理管理的本地服务器或云端服务器等,本发明实施例不做限定。如图2所示,该装置可以包括:
获取模块,用于获取多目标任务信息;多目标任务信息包括第一任务对象信息和第二任务对象信息;第一任务对象信息包括N个第一任务对象;第二任务对象信息包括M个第二任务对象;N不小于M;
确定模块,用于基于多目标任务信息,确定出动作状态信息;动作状态信息包括M个并列排布的N×N矩阵;
得到模块,用于基于任务效益模型对动作状态信息进行处理,得到目标决策结果;目标决策结果用于指示第一任务对象对第二任务对象的动作执行。
可见,实施图2所描述的用于智能体决策的数据处理装置有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在另一个可选的实施例中,如图2所示,得到模块基于任务效益模型对动作状态信息进行处理,得到目标决策结果,包括:
基于动作状态信息,确定出目标动作状态;目标动作状态为M×N的矩阵;
获取当前迭代次数;
判断当前迭代次数是否满足迭代阈值,得到迭代判断结果;
当迭代判断结果为是时,基于目标动作状态和所有历史目标动作状态,确定出目标决策结果;
当迭代判断结果为否时,利用任务效益模型对目标动作状态进行计算处理,得到动作奖励值;
基于目标动作状态和动作奖励值,确定出目标决策结果。
可见,实施图2所描述的用于智能体决策的数据处理装置有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在又一个可选的实施例中,如图2所示,得到模块利用任务效益模型对目标动作状态进行计算处理,得到动作奖励值,包括:
判断目标动作状态中的是否存在矩阵元素全部为0的列,得到奖励判断结果;
当奖励判断结果为是时,确定动作奖励值为奖励阈值;奖励阈值为不大于0的整数;
当奖励判断结果为否时,基于任务效益模型对目标动作状态进行计算,得到动作奖励值;
任务效益模型为:
其中,R为动作奖励值;vj为第j个第二任务对象的综合价值;ci为第i个第一任务对象的成本;xij为目标动作状态中的状态动作。
可见,实施图2所描述的用于智能体决策的数据处理装置有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在又一个可选的实施例中,如图2所示,得到模块基于目标动作状态和动作奖励值,确定出目标决策结果,包括:
判断动作奖励值是否满足最优性约束,得到最优判断结果;最优性约束表征动作奖励值优于预设的奖励阈值;
当最优判断结果为否时,对目标动作状态进行更新,并出发执行获取当前迭代次数;
当最优判断结果为是时,确定目标动作状态为目标决策结果。
可见,实施图2所描述的用于智能体决策的数据处理装置有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在又一个可选的实施例中,如图2所示,得到模块对目标动作状态进行更新,包括:
响应于目标动作状态的仿真动作执行,得到当前任务状态;
利用当前任务状态与动作状态信息之间的状态匹配关系,确定出待用动作状态;
利用优解模型对待用动作状态和所有历史目标动作状态进行计算,得到当前动作状态;
优解模型为:
其中,A为当前动作状态;Q为所有历史目标动作状态;Qx为待用动作状态;ε为优解系数;random()为待用动作状态对应的状态概率值;
利用更新模型将当前动作状态替换为新的目标动作状态;
更新模型为:
其中,Q(s1,a1)为新的目标动作状态;Q(s0,a0)为更新前的目标动作状态;α为校正系数;γ为折扣系数;Q(s′,a)为当前动作状态。
可见,实施图2所描述的用于智能体决策的数据处理装置有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在又一个可选的实施例中,如图2所示,当前动作状态为M×N的矩阵;当前动作状态的矩阵元素为0,和/或,1;
在得到模块利用优解模型对待用动作状态和所有历史目标动作状态进行计算,得到当前动作状态之后,得到模块还用于:
计算当前动作状态中所有矩阵元素的和,得到元素和值;
判断元素和值是否等于M,得到元素判断结果;
当元素判断结果为否时,触发执行利用当前任务状态与动作状态信息之间的状态匹配关系,确定出待用动作状态;
当元素判断结果为是时,触发执行利用优解模型对待用动作状态和所有历史目标动作状态进行计算,得到当前动作状态。
可见,实施图2所描述的用于智能体决策的数据处理装置有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
在又一个可选的实施例中,如图2所示,确定模块基于多目标任务信息,确定出动作状态信息,包括:
对第二任务对象信息中的第二任务对象按序进行编排,得到动作对象序列;
对于第一任务对象信息中的任一第一任务对象,依据动作对象序列,生成M个状态动作向量;任意2个状态动作向量是不相一致的;状态动作向量中所有向量元素之和不大于N;状态动作向量的向量元素为0,和/或,1;
按状态动作向量的生成顺序,依序排列M个状态动作向量,得到状态动作矩阵;
构建所有状态动作矩阵进行并列对应关系,得到动作状态信息;并列对应关系表征任意2个状态动作矩阵中同一位置的矩阵元素不同时为1。
可见,实施图2所描述的用于智能体决策的数据处理装置有利于实现每个子单位的最优目标决策,提高用于智能体决策的数据处理的效率和精准度。
实施例三
请参阅图3,图3是本发明实施例公开的又一种用于智能体决策的数据处理装置的结构示意图。其中,图3所描述的装置能够应用于仿真决策系统中,如用于智能体决策的数据处理管理的本地服务器或云端服务器等,本发明实施例不做限定。如图3所示,该装置可以包括:
存储有可执行程序代码的存储器301;
与存储器301耦合的处理器302;
处理器302调用存储器301中存储的可执行程序代码,用于执行实施例一所描述的用于智能体决策的数据处理方法中的步骤。
实施例四
本发明实施例公开了一种计算机可读读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行实施例一所描述的用于智能体决策的数据处理方法中的步骤。
实施例五
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一所描述的用于智能体决策的数据处理方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种用于智能体决策的数据处理方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种用于智能体决策的数据处理方法,其特征在于,所述方法包括:
获取多目标任务信息;所述多目标任务信息包括第一任务对象信息和第二任务对象信息;所述第一任务对象信息包括N个第一任务对象;所述第二任务对象信息包括M个第二任务对象;所述N不小于所述M;
基于所述多目标任务信息,确定出动作状态信息;所述动作状态信息包括所述M个并列排布的N×N矩阵;
基于任务效益模型对所述动作状态信息进行处理,得到目标决策结果;所述目标决策结果用于指示所述第一任务对象对所述第二任务对象的动作执行。
2.根据权利要求1所述的用于智能体决策的数据处理方法,其特征在于,所述基于任务效益模型对所述动作状态信息进行处理,得到目标决策结果,包括:
基于所述动作状态信息,确定出目标动作状态;所述目标动作状态为M×N的矩阵;
获取当前迭代次数;
判断当前迭代次数是否满足迭代阈值,得到迭代判断结果;
当所述迭代判断结果为是时,基于所述目标动作状态和所有历史目标动作状态,确定出目标决策结果;
当所述迭代判断结果为否时,利用任务效益模型对所述目标动作状态进行计算处理,得到动作奖励值;
基于所述目标动作状态和所述动作奖励值,确定出所述目标决策结果。
3.根据权利要求2所述的用于智能体决策的数据处理方法,其特征在于,所述利用任务效益模型对所述目标动作状态进行计算处理,得到动作奖励值,包括:
判断所述目标动作状态中的是否存在矩阵元素全部为0的列,得到奖励判断结果;
当所述奖励判断结果为是时,确定动作奖励值为奖励阈值;所述奖励阈值为不大于0的整数;
当所述奖励判断结果为否时,基于任务效益模型对所述目标动作状态进行计算,得到所述动作奖励值;
所述任务效益模型为:
其中,R为动作奖励值;vj为第j个第二任务对象的综合价值;ci为第i个第一任务对象的成本;xij为目标动作状态中的状态动作。
4.根据权利要求2所述的用于智能体决策的数据处理方法,其特征在于,所述基于所述目标动作状态和所述动作奖励值,确定出所述目标决策结果,包括:
判断所述动作奖励值是否满足最优性约束,得到最优判断结果;所述最优性约束表征动作奖励值优于预设的奖励阈值;
当所述最优判断结果为否时,对所述目标动作状态进行更新,并出发执行所述获取当前迭代次数;
当所述最优判断结果为是时,确定所述目标动作状态为所述目标决策结果。
5.根据权利要求4所述的用于智能体决策的数据处理方法,其特征在于,所述对所述目标动作状态进行更新,包括:
响应于所述目标动作状态的仿真动作执行,得到当前任务状态;
利用所述当前任务状态与所述动作状态信息之间的状态匹配关系,确定出待用动作状态;
利用优解模型对所述待用动作状态和所有所述历史目标动作状态进行计算,得到当前动作状态;
所述优解模型为:
其中,A为当前动作状态;Q为所有所述历史目标动作状态;Qx为所述待用动作状态;ε为优解系数;random()为所述待用动作状态对应的状态概率值;
利用更新模型将所述当前动作状态替换为新的目标动作状态;
所述更新模型为:
其中,Q(s1,a1)为新的目标动作状态;Q(s0,a0)为更新前的目标动作状态;α为校正系数;γ为折扣系数;Q(s′,a)为所述当前动作状态。
6.根据权利要求5所述的用于智能体决策的数据处理方法,其特征在于,所述当前动作状态为M×N的矩阵;所述当前动作状态的矩阵元素为0,和/或,1;
在所述利用优解模型对所述待用动作状态和所有所述历史目标动作状态进行计算,得到当前动作状态之后,所述方法还包括:
计算所述当前动作状态中所有所述矩阵元素的和,得到元素和值;
判断所述元素和值是否等于所述M,得到元素判断结果;
当所述元素判断结果为否时,触发执行所述利用所述当前任务状态与所述动作状态信息之间的状态匹配关系,确定出待用动作状态;
当所述元素判断结果为是时,触发执行所述利用优解模型对所述待用动作状态和所有所述历史目标动作状态进行计算,得到当前动作状态。
7.根据权利要求1所述的用于智能体决策的数据处理方法,其特征在于,所述基于所述多目标任务信息,确定出动作状态信息,包括:
对所述第二任务对象信息中的第二任务对象按序进行编排,得到动作对象序列;
对于所述第一任务对象信息中的任一所述第一任务对象,依据所述动作对象序列,生成M个状态动作向量;任意2个所述状态动作向量是不相一致的;所述状态动作向量中所有向量元素之和不大于所述N;所述状态动作向量的向量元素为0,和/或,1;
按所述状态动作向量的生成顺序,依序排列所述M个所述状态动作向量,得到状态动作矩阵;
构建所有所述状态动作矩阵进行并列对应关系,得到动作状态信息;所述并列对应关系表征任意2个所述状态动作矩阵中同一位置的矩阵元素不同时为1。
8.一种用于智能体决策的数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取多目标任务信息;所述多目标任务信息包括第一任务对象信息和第二任务对象信息;所述第一任务对象信息包括N个第一任务对象;所述第二任务对象信息包括M个第二任务对象;所述N不小于所述M;
确定模块,用于基于所述多目标任务信息,确定出动作状态信息;所述动作状态信息包括所述M个并列排布的N×N矩阵;
得到模块,用于基于任务效益模型对所述动作状态信息进行处理,得到目标决策结果;所述目标决策结果用于指示所述第一任务对象对所述第二任务对象的动作执行。
9.一种用于智能体决策的数据处理装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的用于智能体决策的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的用于智能体决策的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310265401.9A CN116452011B (zh) | 2023-03-14 | 2023-03-14 | 一种用于智能体决策的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310265401.9A CN116452011B (zh) | 2023-03-14 | 2023-03-14 | 一种用于智能体决策的数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116452011A true CN116452011A (zh) | 2023-07-18 |
CN116452011B CN116452011B (zh) | 2023-10-24 |
Family
ID=87119272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310265401.9A Active CN116452011B (zh) | 2023-03-14 | 2023-03-14 | 一种用于智能体决策的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452011B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109544082A (zh) * | 2017-09-21 | 2019-03-29 | 成都紫瑞青云航空宇航技术有限公司 | 一种用于数字化战场对抗的系统和方法 |
CN112221149A (zh) * | 2020-09-29 | 2021-01-15 | 中北大学 | 一种基于深度强化学习的炮兵连智能作战演练系统 |
CN112307622A (zh) * | 2020-10-30 | 2021-02-02 | 中国兵器科学研究院 | 一种用于计算机生成兵力的自主规划系统及规划方法 |
CN113128705A (zh) * | 2021-03-24 | 2021-07-16 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
US20220172264A1 (en) * | 2019-06-12 | 2022-06-02 | Archithreads Llc | Automated negotiation agent with opponent's behavior prediction |
CN114897267A (zh) * | 2022-06-14 | 2022-08-12 | 哈尔滨工业大学(深圳) | 面向多对多智能体协同作战场景的火力分配方法及系统 |
CN114996856A (zh) * | 2022-06-27 | 2022-09-02 | 北京鼎成智造科技有限公司 | 一种用于飞机智能体机动决策的数据处理方法及装置 |
CN115358365A (zh) * | 2022-08-03 | 2022-11-18 | 北京通用人工智能研究院 | 实现通用人工智能的方法、装置、电子设备及存储介质 |
CN115660155A (zh) * | 2022-10-17 | 2023-01-31 | 清华大学 | 多智能体多样性策略的任务执行方法、装置及智能体 |
-
2023
- 2023-03-14 CN CN202310265401.9A patent/CN116452011B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109544082A (zh) * | 2017-09-21 | 2019-03-29 | 成都紫瑞青云航空宇航技术有限公司 | 一种用于数字化战场对抗的系统和方法 |
US20220172264A1 (en) * | 2019-06-12 | 2022-06-02 | Archithreads Llc | Automated negotiation agent with opponent's behavior prediction |
CN112221149A (zh) * | 2020-09-29 | 2021-01-15 | 中北大学 | 一种基于深度强化学习的炮兵连智能作战演练系统 |
CN112307622A (zh) * | 2020-10-30 | 2021-02-02 | 中国兵器科学研究院 | 一种用于计算机生成兵力的自主规划系统及规划方法 |
CN113128705A (zh) * | 2021-03-24 | 2021-07-16 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
CN114897267A (zh) * | 2022-06-14 | 2022-08-12 | 哈尔滨工业大学(深圳) | 面向多对多智能体协同作战场景的火力分配方法及系统 |
CN114996856A (zh) * | 2022-06-27 | 2022-09-02 | 北京鼎成智造科技有限公司 | 一种用于飞机智能体机动决策的数据处理方法及装置 |
CN115358365A (zh) * | 2022-08-03 | 2022-11-18 | 北京通用人工智能研究院 | 实现通用人工智能的方法、装置、电子设备及存储介质 |
CN115660155A (zh) * | 2022-10-17 | 2023-01-31 | 清华大学 | 多智能体多样性策略的任务执行方法、装置及智能体 |
Non-Patent Citations (1)
Title |
---|
钟友武 等: "自主近距空战中敌机的战术动作识别方法", 北京航空航天大学学报, vol. 33, no. 09, pages 1056 - 1059 * |
Also Published As
Publication number | Publication date |
---|---|
CN116452011B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696132B (zh) | 目标跟踪方法、装置、计算机可读存储介质及机器人 | |
CN112395247B (zh) | 数据的处理方法、存算一体芯片 | |
CN109993308B (zh) | 基于云平台共享学习系统及方法、共享平台及方法、介质 | |
CN109767000A (zh) | 基于Winograd算法的神经网络卷积方法及装置 | |
CN110135681A (zh) | 风险用户识别方法、装置、可读存储介质及终端设备 | |
CN113743594B (zh) | 网络流量预测模型建立方法、装置、电子设备及存储介质 | |
CN112613577B (zh) | 神经网络的训练方法、装置、计算机设备及存储介质 | |
CN111931916A (zh) | 深度学习模型的探索方法及装置 | |
CN109919043B (zh) | 一种行人跟踪方法、装置及设备 | |
CN116452011B (zh) | 一种用于智能体决策的数据处理方法及装置 | |
CN113326902B (zh) | 基于在线学习的策略获取方法、装置及设备 | |
CN117155594A (zh) | 面向女巫攻击的区块链自适应检测方法、终端及存储介质 | |
CN113361381B (zh) | 人体关键点检测模型训练方法、检测方法及装置 | |
CN114980007A (zh) | 无线传感器节点部署方法、装置、设备及可读存储介质 | |
CN113919505A (zh) | 一种逆强化学习处理方法、装置、存储介质及电子装置 | |
CN112418480A (zh) | 气象图像预测方法、装置、计算机设备和存储介质 | |
CN116701153B (zh) | 结算服务性能的评估方法、装置、电子设备及存储介质 | |
CN112734039B (zh) | 一种深度神经网络的虚拟对抗训练方法、装置及设备 | |
CN117153260B (zh) | 基于对比学习的空间转录组数据聚类方法、装置及介质 | |
CN110012176B (zh) | 智能客服的实现方法和装置 | |
CN114401106B (zh) | 一种加权无标度网络修复方法、装置、设备及存储介质 | |
CN113780574A (zh) | 智能体强化学习决策方法、装置、电子设备及其存储介质 | |
CN116976708A (zh) | 多智能体的数据评估决策方法、装置、设备及介质 | |
CN118070838A (zh) | 优化拉丁方实验设计方法、电子设备及存储介质 | |
CN115114025A (zh) | 多服务器场景下的数据分析管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |