CN117670095B - 多智能体自主对抗驱动的行动计划生成方法和装置 - Google Patents

多智能体自主对抗驱动的行动计划生成方法和装置 Download PDF

Info

Publication number
CN117670095B
CN117670095B CN202410126062.0A CN202410126062A CN117670095B CN 117670095 B CN117670095 B CN 117670095B CN 202410126062 A CN202410126062 A CN 202410126062A CN 117670095 B CN117670095 B CN 117670095B
Authority
CN
China
Prior art keywords
sample
key
sample data
action
countermeasure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410126062.0A
Other languages
English (en)
Other versions
CN117670095A (zh
Inventor
李渊
刘运韬
李晟泽
章杰元
张峰
顾孔静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202410126062.0A priority Critical patent/CN117670095B/zh
Publication of CN117670095A publication Critical patent/CN117670095A/zh
Application granted granted Critical
Publication of CN117670095B publication Critical patent/CN117670095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种多智能体自主对抗驱动的行动计划生成方法和装置,属于人工智能领域,其中方法包括:获取测试样本集;根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;基于各所述对抗样本数据的重要性权重值,确定关键样本集合;基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;基于每一个所述关键样本的重要性权重值和各所述行动层,构建行动计划图;基于所述行动计划图,生成表征行动序列的行动计划。实现了基于连续的对抗样本数据生成离散的、具有共性的行动计划。

Description

多智能体自主对抗驱动的行动计划生成方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多智能体自主对抗驱动的行动计划生成方法和装置。
背景技术
行动计划指的是根据上级意图,综合考虑敌我双方及环境等约束条件,运用科学规划的方法对可用兵力、资源、时间、空间等要素进行综合计算产生的一系列行动序列,以达到特定的任务目标。博弈对抗环境下的行动规划具有动态性、实时性和分布性的特点。为完成给定任务目标,需要根据实时态势对各行动进行动态调度。
现有技术中,以深度强化学习为基础的多智能体对抗技术已经广泛用求解特定博弈问题。但是,智能对抗方法通过训练好的神经网络来根据实时态势计算下一步的行动,具有不可解释性,无法将对抗过程形成可理解的行动计划。
自主对抗产生的结果在时间上是持续的运行过程,而行动计划往往是离散的行动序列,并且多智能的对抗结果会随着对手的变化而变化,环境的随机性也会对结果产生一定的随机扰动,因此,如何实现从连续的、随机多变的运行过程提取共性的行动计划是本领域技术人员亟待解决的问题。
发明内容
针对现有技术中存在的问题,本发明提供一种多智能体自主对抗驱动的行动计划生成方法和装置。
本发明提供一种多智能体自主对抗驱动的行动计划生成方法,包括:
获取测试样本集;所述测试样本集中包括至少一个智能体的对抗样本数据;
根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;
基于各所述对抗样本数据的重要性权重值,确定关键样本集合;
基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;
对经过排序后的所述关键样本集合中每一个关键样本,在所述关键样本的时间节点等于上一个关键样本的时间节点时,将所述关键样本和所述上一个关键样本置于同一个行动层中;或,在所述关键样本的时间节点大于所述上一个关键样本的时间节点时,添加新的行动层,并将所述关键样本置于所述新的行动层中;
基于每一个所述关键样本的重要性权重值和各所述行动层,构建行动计划图;
基于所述行动计划图,生成表征行动序列的行动计划。
根据本发明提供的一种多智能体自主对抗驱动的行动计划生成方法,所述方法还包括:
基于每一个所述智能体的对抗样本数据价值,采用公式(1)确定各所述对抗样本数据的评估值:
(1)
其中,N为智能体的个数,为每一个所述智能体对应的神经网络模型,/>为各所述对抗样本数据,s表示智能体的状态,a表示智能体的动作;
基于不同时刻各所述对抗样本数据的评估值,采用公式(2)确定各所述对抗样本数据的评估值变化量:
(2)
其中,为上一时刻的对抗样本数据,/>为各所述对抗样本数据的执行时刻,/>为所述上一时刻的对抗样本数据的执行时刻。
根据本发明提供的一种多智能体自主对抗驱动的行动计划生成方法,所述方法还包括:
基于各所述对抗样本数据之间的可达距离,采用公式(3)确定各所述对抗样本数据的离群值:
(3)
其中,为对抗样本数据/>第/>距离内的所有对抗样本数据的集合,为样本/>的局部密度;
基于各所述对抗样本数据在训练样本集中出现的次数,采用公式(4)确定各所述对抗样本数据的频繁项:
(4)
其中,为对抗样本数据/>在训练样本集中出现的次数。
根据本发明提供的一种多智能体自主对抗驱动的行动计划生成方法,各所述重要性权重值是基于各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项进行加权求和得到的。
根据本发明提供的一种多智能体自主对抗驱动的行动计划生成方法,所述方法还包括:
采用公式(5)确定各所述对抗样本数据的重要性权重值:
(5)
其中,为权重系数。
根据本发明提供的一种多智能体自主对抗驱动的行动计划生成方法,在所述基于所述关键样本集合,生成表征行动序列的行动计划之后,所述方法还包括:
将所述行动计划输入仿真平台,得到对抗胜率;
比较所述对抗胜率和预设阈值,在所述对抗胜率大于或等于预设阈值的情况下,输出所述行动计划。
根据本发明提供的一种多智能体自主对抗驱动的行动计划生成方法,所述基于各所述对抗样本数据的重要性权重值,确定关键样本集合,包括:
基于各所述对抗样本数据的重要性权重值的大小,对各所述对抗样本数据进行排序;
选取经过排序后的预设数量的对抗样本数据,确定关键样本集合。
本发明还提供一种多智能体自主对抗驱动的行动计划生成装置,包括:
获取模块,用于获取测试样本集;所述测试样本集中包括至少一个智能体的对抗样本数据;
第一确定模块,用于根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;
第二确定模块,用于基于各所述对抗样本数据的重要性权重值,确定关键样本集合;
排序模块,用于基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;
行动层确定模块,用于对经过排序后的所述关键样本集合中每一个关键样本,在所述关键样本的时间节点等于上一个关键样本的时间节点时,将所述关键样本和所述上一个关键样本置于同一个行动层中;或,在所述关键样本的时间节点大于所述上一个关键样本的时间节点时,添加新的行动层,并将所述关键样本置于所述新的行动层中;
构建模块,用于基于每一个所述关键样本的重要性权重值和各所述行动层,构建行动计划图;
生成模块,用于基于所述行动计划图,生成表征行动序列的行动计划。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的多智能体自主对抗驱动的行动计划生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的多智能体自主对抗驱动的行动计划生成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的多智能体自主对抗驱动的行动计划生成方法。
本发明提供的多智能体自主对抗驱动的行动计划生成方法和装置,通过获取包括至少一个智能体的对抗样本数据的测试样本集,然后基于各个对抗样本数据的评估值、评估值变化量、离群值和频繁项,确定每一个对抗样本数据的重要性权重值,基于每一个对抗样本数据的重要性权重值,从测试样本集中挑选出一定数量的对抗样本数据,以构成关键样本集合;然后基于关键样本集合中的关键样本我的行动时间节点,对各关键样本进行排序;对经过排序后的关键样本集合中每一个关键样本,在关键样本的时间节点等于上一个关键样本的时间节点时,将关键样本和上一个关键样本置于同一个行动层中;或,在关键样本的时间节点大于上一个关键样本的时间节点时,添加新的行动层,并将关键样本置于新的行动层中;基于上述步骤,构建行动计划图,生成用于表征行动序列的行动计划。实现了基于连续的对抗样本数据中生成离散的行动计划,并且在生成过程中考虑了多变的环境因素,生成了具有共性的行动计划。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的多智能体自主对抗驱动的行动计划生成方法的流程示意图之一;
图2是本发明提供的多智能体自主对抗驱动的行动计划生成方法的流程示意图之二;
图3是本发明提供的多智能体自主对抗驱动的行动计划生成方法的离群值概念示意图;
图4是本发明提供的多智能体自主对抗驱动的行动计划生成方法的流程示意图之三;
图5是本发明提供的多智能体自主对抗驱动的行动计划生成装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图6描述本发明的多智能体自主对抗驱动的行动计划生成方法和装置。
图1是本发明提供的多智能体自主对抗驱动的行动计划生成方法的流程示意图之一,如图1所示,本发明实施例提供的多智能体自主对抗驱动的行动计划生成方法的具体实施步骤如下:
步骤101、获取测试样本集;所述测试样本集中包括至少一个智能体的对抗样本数据;
具体地,在本步骤中,获取的测试样本集是基于训练样本集得到的,即测试样本集中包括的多个智能体的对抗样本数据是通过每个智能体对应的训练好的神经网络得到的。在具体实施中,基于给定的博弈对抗任务,运用多智能体强化学习方法对给定问题开展训练,得到神经网络模型。模型的训练过程是多智能体通过与环境交互进行随机探索,直至模型收敛的过程,即训练集中包含了大量多智能体随机探索的数据,可以理解为训练样本集经过神经网络模型的训练后得到了测试样本集。本申请实施例是对测试样本集中的智能体对抗样本数据进行提取和处理。
步骤102、根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;
具体地,在本步骤中,对测试样本集中的多个智能体的对抗样本数据进行处理,分别计算他们的评估值、评估值变化量、离群值和频繁项,基于上述值得到测试样本集中每一个智能体的对抗样本数据的重要性权值。
步骤103、基于各所述对抗样本数据的重要性权重值,确定关键样本集合;
具体地,在本步骤中,基于上述步骤得到测试样本集中每一个智能体的对抗样本数据的重要性权值,然后将测试集中的各个智能体,基于他们的对抗样本数据的重要性权值进行排序,选取一定数据量的对抗样本数据,以构建关键样本集合。
步骤104、基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;
具体地,在构建了关键样本集合后,关键样本集合中的对抗样本数据就称为关键样本。对关键样本集合中的对抗样本数据进行处理。在此处说明对抗样本数据的内容。每一个智能体的每一个对抗样本数据为(s,a),其中,s表示智能体的状态,a表示智能体采取的动作。t(s,a)表示动作执行的时刻。以多无人机空战为例,每个无人机是一个智能体。s是一个向量,一个测试样本集中可以包括多个s,即表示[我方无人机1位置、我方无人机1弹药量、我方无人机1航向角,…,我方无人机N位置、我方无人机N弹药量,…, 敌方无人机M位置、敌方无人机M弹药量]。每个无人机采取的动作a,可以包括开火、航向、雷达开关机等。在本步骤中,先获取关键样本集合中,每一个关键样本的对抗数据中的动作执行的时刻,即每一个关键样本的行动时间点,然后基于每一个关键样本的行动时间点的先后顺序,对这些关键样本进行排序,得到经过排序后的关键样本集合。
步骤105、对经过排序后的所述关键样本集合中每一个关键样本,在所述关键样本的时间节点等于所述上一个关键样本的时间节点时,将所述关键样本和所述上一个关键样本置于同一个行动层中;或,在所述关键样本的时间节点大于所述上一个关键样本的时间节点时,添加新的行动层,并将所述关键样本置于所述新的行动层中;
具体地,在本步骤中,基于关键样本集中的关键样本,确定对应的行动层,首先需要初始化行动节点,然后依次从关键样本集中取出关键样本,将当前取出的关键样本的时间节点与上一个取出的关键样本的时间节点进行比较,在当前取出的关键样本的时间节点与上一个取出的关键样本的时间节点相同时,则将该关键样本与上一个取出的关键样本放置于同一个行动层中;在当前取出的关键样本的时间节点大于上一个取出的关键样本的时间节点时,即代表当前取出的关键样本的执行时间在上一个取出的关键样本的执行时间之后,则添加一个新的行动层,并且将当前取出的关键样本放置于新的行动层中。
步骤106、基于每一个所述关键样本的重要性权重值和各所述行动层,构建行动计划图;
具体地,基于上述步骤,确定了不同的行动层,基于不同关键样本的时间节点,确定了每一个关键样本所在的行动层,除此之外,还需要将当前取出的关键样本的行动节点与上一层行动层的所有关键样本的节点建立边的连接关系,并且边的权重为当前取出的关键样本的重要性权重值。通过这样的方法,构建了行动计划图。图2是本发明提供的多智能体自主对抗驱动的行动计划生成方法的流程示意图之二,如图2所示,构建行动计划图的步骤为:
步骤201、开始;
步骤202、对关键样本从小到大进行排序;
步骤203、初始化行动节点
步骤204、依次取出关键样本
步骤205、判断是否等于/>
步骤206、在和/>相等的情况下,在当前行动层添加行动节点;或在/>和/>不相等的情况下,增加新的行动层并添加行动节点
具体地,在本步骤中,表示,上一个取出的关键样本的行动节点。
步骤207、新行动节点与上一层行动层中的所有行动节点建立连接;
具体地,建立连接的边的权重为当前取出的关键样本的重要性权重值。
步骤208、判断关键样本集中的关键样本是否取完;
具体地,判断关键样本集中的关键样本是否取完,在关键样本集中的所有关键样本都取完的情况下,执行步骤209;若关键样本集中还有关键样本未取出,则返回上述步骤204继续执行。
步骤209、结束构建。
即直到关键样本集中的关键样本都取出。
步骤107、基于所述行动计划图,生成表征行动序列的行动计划。
本步骤中,基于上述步骤构建了行动计划图,基于行动计划图,生成用于表征行动序列的行动计划,由于行动计划是离散的,可以基于行动计划图生成,即在某一个节点,智能体采取什么动作。
本发明实施例提供的多智能体自主对抗驱动的行动计划生成方法和装置,通过获取包括至少一个智能体的对抗样本数据的测试样本集,然后基于各个对抗样本数据的评估值、评估值变化量、离群值和频繁项,确定每一个对抗样本数据的重要性权重值,基于每一个对抗样本数据的重要性权重值,从测试样本集中挑选出一定数量的对抗样本数据,以构成关键样本集合;然后基于关键样本集合中的关键样本我的行动时间节点,对各关键样本进行排序;对经过排序后的关键样本集合中每一个关键样本,在关键样本的时间节点等于上一个关键样本的时间节点时,将关键样本和上一个关键样本置于同一个行动层中;或,在关键样本的时间节点大于上一个关键样本的时间节点时,添加新的行动层,并将关键样本置于新的行动层中;基于上述步骤,构建行动计划图,生成用于表征行动序列的行动计划。实现了连续的对抗样本数据中生成离散的行动计划,并且在生成过程中考虑了多变的环境因素,生成了具有共性的行动计划。
可选的,根据本发明实施例提供的一种多智能体自主对抗驱动的行动计划生成方法,还包括:
基于每一个智能体的对抗样本数据价值,采用公式(1)确定各所述对抗样本数据的评估值:
(1)
其中,N为智能体的个数,为每一个所述智能体对应的神经网络模型,/>为各所述对抗样本数据,s表示智能体的状态,a表示智能体的动作;
具体地,每一个智能体的对抗样本数据的评估值表示神经网络模型对对抗样本数据价值的估计,在一定程度上反映了对抗样本数据的重要性。在公式(1)中,对抗样本数据即为,由于每一个智能体对应一个神经网络模型,因此,假定智能体数量为N,每个智能体对应的神经网络模型用/>表示。
基于不同时刻各所述对抗样本数据的评估值,采用公式(2)确定各所述对抗样本数据的评估值变化量:
(2)
具体地,反应的是神经网络模型对对抗样本数据的评估值变化量,该变化量越大表示在该样本评估曲线变化越剧烈,一定程度上反映了样本对神经网络输出的影响程度。
其中,为上一时刻的对抗样本数据,/>为各所述对抗样本数据的执行时刻,/>为所述上一时刻的对抗样本数据的执行时刻。
本发明实施例的多智能体自主对抗驱动的行动计划生成方法和装置,对测试样本集中的对抗样本数据,分别计算这些对抗样本数据对应的智能体神经网络模型对该对抗样本数据的评估值和评估值变化量,评估值可反应对抗样本数据的价值,而评估值变化量可反应对抗样本数据的重要性,这些数值都是作为后续对抗样本数据的重要性权重值的基础,确保了测试样本集中数据的准确性。
可选的,根据本发明实施例提供的一种多智能体自主对抗驱动的行动计划生成方法,上述方法还包括:
基于各对抗样本数据之间的可达距离,采用公式(3)确定各所述对抗样本数据的离群值:
(3)
其中,在测试样本集中,与总体样本分布较为独立的样本点表示了一些特殊情况,在指定行动计划时应当重点考虑。这里用离群值衡量特定样本周围的样本点密度。离群值的计算较为复杂,首先,对于一个测试样本集中的任意两个样本,基于下述公式(a)计算任意两个样本之间的距离:
r(a)
定义样本的第/>距离/>,表示从样本出发距离小于等于/>的样本数量为/>。用/>表示样本/>第/>距离内的所有样本点的集合,包括第/>距离上的点。定义样本/>与样本/>的第/>可达距离,如公式(b)所示:
(b)
其中,为样本/>与样本/>的第/>可达距离。
接着,基于公式(c)确定样本的局部密度:
(c)
最后,基于样本的局部密度确定对抗样本数据/>的离群值。
离群值表示样本/>的第l距离内的所有点的平均密度与样本/>的密度的比值,其越大于1,表示样本/>的局部密度小于周围点的密度,样本可能是离群点。这个比值越小于1,表示样本/>的密度越大于周围点的密度,/>越可能是正常点。
图3是本发明提供的多智能体自主对抗驱动的行动计划生成方法的离群值概念示意图,如图3所示,样本的第6距离为/>,/>表示圈内点的集合,共6个点。样本/>与样本/>的第6可达距离为/>,样本/>与样本/>的第6可达距离为/>
进一步的,基于各对抗样本数据在训练样本集中出现的次数,采用公式(4)确定各对抗样本数据的频繁项:
(4)
其中,为对抗样本数据/>在训练样本集中出现的次数。
具体地,对于测试集中的样本点,统计/>在训练集中出现的次数记为/>。该值越大表示该样本在训练中出现的越频繁,对应的样本越重要。是指对抗样本数据属于测试样本集。
本发明实施例的多智能体自主对抗驱动的行动计划生成方法和装置,对测试样本集中的对抗样本数据,分别计算这些对抗样本数据的离群值和频繁项,离群值衡量特定样本周围的样本点密度,而频繁项反应对抗样本数据在训练样本集中出现的频率,一定程度上也反映了该对抗样本数据的重要性,这些数值都是作为后续对抗样本数据的重要性权重值的基础,确保了测试样本集中数据的准确性。
可选的,根据本发明实施例提供的一种多智能体自主对抗驱动的行动计划生成方法,上述的重要性权重值是基于各对抗样本数据的评估值、评估值变化量/>、离群值和频繁项/>进行加权求和得到的。
本发明实施例提供的多智能体自主对抗驱动的行动计划生成方法,通过对上述得到的评估值、评估值变化量/>、离群值/>和频繁项进行加权求,得到测试样本集中每一个对抗样本数据的重要性权值。
可选的,根据本发明实施例提供的一种多智能体自主对抗驱动的行动计划生成方法,上述方法还包括:
采用公式(5)确定各对抗样本数据的重要性权重值:
(5)
其中,为权重系数。
具体地,对上述步骤确定的评估值、评估值变化量、离群值和频繁项,进行加权求和,得到对抗样本数据的重要性权重值。
可选的,根据本发明实施例提供的一种多智能体自主对抗驱动的行动计划生成方法,在上述步骤107之后,还包括以下步骤,图4是本发明提供的多智能体自主对抗驱动的行动计划生成方法的流程示意图之三,如图4所示,在基于所述行动计划图,生成表征行动序列的行动计划之后,还包括:
步骤401、将所述行动计划输入仿真平台,得到对抗胜率;
具体地,将基于行动计划图生成的行动计划,输入预设的仿真平台中,从初始状态开始,遍历下一层行动层的行动节点,如果有节点的状态s能够与当前态势匹配,则执行该节点对应的动作a。如果没有匹配的状态,则执行重要性权重值最大的行动节点对应的动作。按照此种方式执行行动计划,通过多轮对抗,统计对抗胜率/>
步骤402、比较所述对抗胜率和预设阈值,在所述对抗胜率大于或等于预设阈值的情况下,输出所述行动计划。
具体地,在本步骤中,设定预设阈值,将上述步骤401得到的对抗胜率与设定的预设阈值进行比较,如果/>大于特定的阈值/>,则该行动计划图为最终的行动计划。否则,对/>每个参数从[0,1]中随机选取数值,并返回上述步骤106,重新构建行动序列直至找到符合要求。
本发明实施例的多智能体自主对抗驱动的行动计划生成方法,在获得了行动计划之后,为了确保行动计划的可用性,或者对行动计划的生成过程进行优化,通过仿真平台进行多次仿真,输出行动计划对应对抗胜率,基于对抗胜率和预设阈值的比较,对生成的行动计划进行验证并对行动计划生成的过程进行调优。
可选地,根据本发明实施例提供的一种多智能体自主对抗驱动的行动计划生成方法,上述步骤103,即基于各所述对抗样本数据的重要性权重值,确定关键样本集合,包括:
基于各所述对抗样本数据的重要性权重值的大小,对各所述对抗样本数据进行排序;
选取经过排序后的预设数量的对抗样本数据,确定关键样本集合。
具体地,将测试集中的对抗样本数据按照重要性权重值从大到小进行排序,选取前M个对抗样本数据,构成关键样本集合。M为超参数,需要根据具体问题进行调整,在此不做具体限定。
本发明实施例提供的多智能体自主对抗驱动的行动计划生成方法,基于测试样本集中对抗样本数据的重要性权重值,选取一定数量的对抗样本数据作为关键样本进行后续的处理,一定程度上节省了资源,并且确保了生成的行动计划的准确性。
下面对本发明提供的多智能体自主对抗驱动的行动计划生成装置进行描述,下文描述的多智能体自主对抗驱动的行动计划生成装置与上文描述的多智能体自主对抗驱动的行动计划生成方法可相互对应参照。
图5是本发明提供的多智能体自主对抗驱动的行动计划生成装置的结构示意图,如图5所示,多智能体自主对抗驱动的行动计划生成装置包括:
获取模块501,用于获取测试样本集;所述测试样本集中包括至少一个智能体的对抗样本数据;
第一确定模块502,用于根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;
第二确定模块503,用于基于各所述对抗样本数据的重要性权重值,确定关键样本集合;
排序模块504,用于基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;
行动层确定模块505,用于对经过排序后的所述关键样本集合中每一个关键样本,在所述关键样本的时间节点等于所述上一个关键样本的时间节点时,将所述关键样本和所述上一个关键样本置于同一个行动层中;或,在所述关键样本的时间节点大于所述上一个关键样本的时间节点时,添加新的行动层,并将所述关键样本置于所述新的行动层中;
构建模块506,用于基于每一个所述关键样本的重要性权重值和各所述行动层,构建行动计划图;
具体地,构建模块的具体实施为,基于上述行动层确定模块,确定了不同的行动层,基于不同关键样本的时间节点,确定了每一个关键样本所在的行动层,除此之外,还需要将当前取出的关键样本的行动节点与上一层行动层的所有关键样本的节点建立边的连接关系,并且边的权重为当前取出的关键样本的重要性权重值。通过这样的方法,构建了行动计划图。构建行动计划图的步骤为:
步骤201、开始;
步骤202、对关键样本从小到大进行排序;
步骤203、初始化行动节点
步骤204、依次取出关键样本
步骤205、判断是否等于/>
步骤206、在和/>相等的情况下,在当前行动层添加行动节点;或在/>和/>不相等的情况下,增加新的行动层并添加行动节点
具体地,在本步骤中,表示,上一个取出的关键样本的行动节点。
步骤207、新行动节点与上一层行动层中的所有行动节点建立连接;
具体地,建立连接的边的权重为当前取出的关键样本的重要性权重值。
步骤208、判断关键样本集中的关键样本是否取完;
具体地,判断关键样本集中的关键样本是否取完,在关键样本集中的所有关键样本都取完的情况下,执行步骤209;若关键样本集中还有关键样本未取出,则返回上述步骤204继续执行。
步骤209、结束构建。
最终会完成行动计划图的构建。
生成模块507,用于基于所述行动计划图,生成表征行动序列的行动计划。
本发明实施例提供的多智能体自主对抗驱动的行动计划生成方法和装置,通过各个模块质检的相互配合,通过获取包括至少一个智能体的对抗样本数据的测试样本集,然后基于各个对抗样本数据的评估值、评估值变化量、离群值和频繁项,确定每一个对抗样本数据的重要性权重值,基于每一个对抗样本数据的重要性权重值,从测试样本集中挑选出一定数量的对抗样本数据,以构成关键样本集合;然后基于关键样本集合中的关键样本我的行动时间节点,对各关键样本进行排序;对经过排序后的关键样本集合中每一个关键样本,在关键样本的时间节点等于上一个关键样本的时间节点时,将关键样本和上一个关键样本置于同一个行动层中;或,在关键样本的时间节点大于上一个关键样本的时间节点时,添加新的行动层,并将关键样本置于新的行动层中;基于上述步骤,构建行动计划图,生成用于表征行动序列的行动计划。实现了连续的对抗样本数据中生成离散的行动计划,并且在生成过程中考虑了多变的环境因素,生成了具有共性的行动计划。
图6是本发明提供的电子设备的结构示意图。图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述的多智能体自主对抗驱动的行动计划生成方法,该方法包括:获取测试样本集;所述测试样本集中包括至少一个智能体的对抗样本数据;根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;基于各所述对抗样本数据的重要性权重值,确定关键样本集合;基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;对经过排序后的所述关键样本集合中每一个关键样本,在所述关键样本的时间节点等于所述上一个关键样本的时间节点时,将所述关键样本和所述上一个关键样本置于同一个行动层中;或,在所述关键样本的时间节点大于所述上一个关键样本的时间节点时,添加新的行动层,并将所述关键样本置于所述新的行动层中;基于每一个所述关键样本的重要性权重值和各所述行动层,构建行动计划图;基于所述行动计划图,生成表征行动序列的行动计划。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的多智能体自主对抗驱动的行动计划生成方法,该方法包括:获取测试样本集;所述测试样本集中包括至少一个智能体的对抗样本数据;根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;基于各所述对抗样本数据的重要性权重值,确定关键样本集合;基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;对经过排序后的所述关键样本集合中每一个关键样本,在所述关键样本的时间节点等于所述上一个关键样本的时间节点时,将所述关键样本和所述上一个关键样本置于同一个行动层中;或,在所述关键样本的时间节点大于所述上一个关键样本的时间节点时,添加新的行动层,并将所述关键样本置于所述新的行动层中;基于每一个所述关键样本的重要性权重值和各所述行动层,构建行动计划图;基于所述行动计划图,生成表征行动序列的行动计划。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的多智能体自主对抗驱动的行动计划生成方法,该方法包括:获取测试样本集;所述测试样本集中包括至少一个智能体的对抗样本数据;根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;基于各所述对抗样本数据的重要性权重值,确定关键样本集合;基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;对经过排序后的所述关键样本集合中每一个关键样本,在所述关键样本的时间节点等于所述上一个关键样本的时间节点时,将所述关键样本和所述上一个关键样本置于同一个行动层中;或,在所述关键样本的时间节点大于所述上一个关键样本的时间节点时,添加新的行动层,并将所述关键样本置于所述新的行动层中;基于每一个所述关键样本的重要性权重值和各所述行动层,构建行动计划图;基于所述行动计划图,生成表征行动序列的行动计划。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种多智能体自主对抗驱动的行动计划生成方法,其特征在于,包括:
获取测试样本集;所述测试样本集中包括至少一个智能体的对抗样本数据;
根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;
基于各所述对抗样本数据的重要性权重值,确定关键样本集合;
基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;
对经过排序后的所述关键样本集合中每一个关键样本,在所述关键样本的时间节点等于上一个关键样本的时间节点时,将所述关键样本和所述上一个关键样本置于同一个行动层中;或,在所述关键样本的时间节点大于所述上一个关键样本的时间节点时,添加新的行动层,并将所述关键样本置于所述新的行动层中;
针对每一个关键样本,将所述关键样本的行动节点与上一层行动层的所有关键样本的行动节点建立边的连接关系,构建行动计划图,所述边的权重为所述关键样本的重要性权重值;
基于所述行动计划图,生成表征行动序列的行动计划;
其中,基于每一个所述智能体的对抗样本数据价值,采用公式(1)确定各所述对抗样本数据的评估值:
(1)
其中,N为智能体的个数,为每一个所述智能体对应的神经网络模型,/>为各所述对抗样本数据,s表示智能体的状态,a表示智能体的动作;
基于不同时刻各所述对抗样本数据的评估值,采用公式(2)确定各所述对抗样本数据的评估值变化量:
(2)
其中,为上一时刻的对抗样本数据,/>为各所述对抗样本数据的执行时刻,/>为所述上一时刻的对抗样本数据的执行时刻;
基于各所述对抗样本数据之间的可达距离,采用公式(3)确定各所述对抗样本数据的离群值:
(3)
其中,为对抗样本数据/>第/>距离内的所有对抗样本数据的集合,/>为样本/>的局部密度;
基于各所述对抗样本数据在训练样本集中出现的次数,采用公式(4)确定各所述对抗样本数据的频繁项:
(4)
其中,为对抗样本数据/>在训练样本集中出现的次数;
采用公式(5)确定各所述对抗样本数据的重要性权重值:
(5)
其中,为权重系数。
2.根据权利要求1所述的多智能体自主对抗驱动的行动计划生成方法,其特征在于,在所述基于所述关键样本集合,生成表征行动序列的行动计划之后,所述方法还包括:
将所述行动计划输入仿真平台,得到对抗胜率;
比较所述对抗胜率和预设阈值,在所述对抗胜率大于或等于预设阈值的情况下,输出所述行动计划。
3.根据权利要求1所述的多智能体自主对抗驱动的行动计划生成方法,其特征在于,所述基于各所述对抗样本数据的重要性权重值,确定关键样本集合,包括:
基于各所述对抗样本数据的重要性权重值的大小,对各所述对抗样本数据进行排序;
选取经过排序后的预设数量的对抗样本数据,确定关键样本集合。
4.一种多智能体自主对抗驱动的行动计划生成装置,其特征在于,包括:
获取模块,用于获取测试样本集;所述测试样本集中包括至少一个智能体的对抗样本数据;
第一确定模块,用于根据各所述对抗样本数据的评估值、评估值变化量、离群值和频繁项,对各所述对抗样本数据进行分析,确定各所述对抗样本数据的重要性权重值;
第二确定模块,用于基于各所述对抗样本数据的重要性权重值,确定关键样本集合;
排序模块,用于基于所述关键样本集合中各关键样本的行动时间节点的先后顺序,对各所述关键样本进行排序;
行动层确定模块,用于对经过排序后的所述关键样本集合中每一个关键样本,在所述关键样本的时间节点等于上一个关键样本的时间节点时,将所述关键样本和所述上一个关键样本置于同一个行动层中;或,在所述关键样本的时间节点大于所述上一个关键样本的时间节点时,添加新的行动层,并将所述关键样本置于所述新的行动层中;
构建模块,用于针对每一个关键样本,将所述关键样本的行动节点与上一层行动层的所有关键样本的行动节点建立边的连接关系,构建行动计划图,所述边的权重为所述关键样本的重要性权重值;
生成模块,用于基于所述行动计划图,生成表征行动序列的行动计划;
第一确定模块还用于:基于每一个所述智能体的对抗样本数据价值,采用公式(1)确定各所述对抗样本数据的评估值:
(1)
其中,N为智能体的个数,为每一个所述智能体对应的神经网络模型,/>为各所述对抗样本数据,s表示智能体的状态,a表示智能体的动作;
基于不同时刻各所述对抗样本数据的评估值,采用公式(2)确定各所述对抗样本数据的评估值变化量:
(2)
其中,为上一时刻的对抗样本数据,/>为各所述对抗样本数据的执行时刻,/>为所述上一时刻的对抗样本数据的执行时刻;
基于各所述对抗样本数据之间的可达距离,采用公式(3)确定各所述对抗样本数据的离群值:
(3)
其中,为对抗样本数据/>第/>距离内的所有对抗样本数据的集合,/>为样本/>的局部密度;
基于各所述对抗样本数据在训练样本集中出现的次数,采用公式(4)确定各所述对抗样本数据的频繁项:
(4)
其中,为对抗样本数据/>在训练样本集中出现的次数;
采用公式(5)确定各所述对抗样本数据的重要性权重值:
(5)
其中,为权重系数。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述的多智能体自主对抗驱动的行动计划生成方法。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的多智能体自主对抗驱动的行动计划生成方法。
CN202410126062.0A 2024-01-30 2024-01-30 多智能体自主对抗驱动的行动计划生成方法和装置 Active CN117670095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410126062.0A CN117670095B (zh) 2024-01-30 2024-01-30 多智能体自主对抗驱动的行动计划生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410126062.0A CN117670095B (zh) 2024-01-30 2024-01-30 多智能体自主对抗驱动的行动计划生成方法和装置

Publications (2)

Publication Number Publication Date
CN117670095A CN117670095A (zh) 2024-03-08
CN117670095B true CN117670095B (zh) 2024-05-10

Family

ID=90064366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410126062.0A Active CN117670095B (zh) 2024-01-30 2024-01-30 多智能体自主对抗驱动的行动计划生成方法和装置

Country Status (1)

Country Link
CN (1) CN117670095B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723931A (zh) * 2020-06-02 2020-09-29 中国人民解放军军事科学院战争研究院 一种多智能体对抗动作预测方法及装置
CN114492059A (zh) * 2022-02-07 2022-05-13 清华大学 基于场能的多智能体对抗场景态势评估方法及装置
CN114862168A (zh) * 2022-04-27 2022-08-05 中国人民解放军军事科学院战略评估咨询中心 一种推演仿真环境下多方案智能切换系统
CN114882755A (zh) * 2022-04-27 2022-08-09 中国人民解放军军事科学院战略评估咨询中心 一种面向智能对抗的多方案自主切换方法
CN117056738A (zh) * 2023-07-24 2023-11-14 中国电子科技集团公司第五十二研究所 一种基于兵棋推演系统的战场关键态势提取方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723931A (zh) * 2020-06-02 2020-09-29 中国人民解放军军事科学院战争研究院 一种多智能体对抗动作预测方法及装置
CN114492059A (zh) * 2022-02-07 2022-05-13 清华大学 基于场能的多智能体对抗场景态势评估方法及装置
CN114862168A (zh) * 2022-04-27 2022-08-05 中国人民解放军军事科学院战略评估咨询中心 一种推演仿真环境下多方案智能切换系统
CN114882755A (zh) * 2022-04-27 2022-08-09 中国人民解放军军事科学院战略评估咨询中心 一种面向智能对抗的多方案自主切换方法
CN117056738A (zh) * 2023-07-24 2023-11-14 中国电子科技集团公司第五十二研究所 一种基于兵棋推演系统的战场关键态势提取方法及系统

Also Published As

Publication number Publication date
CN117670095A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
JP6824382B2 (ja) 複数の機械学習タスクに関する機械学習モデルのトレーニング
CN110276442B (zh) 一种神经网络架构的搜索方法及装置
WO2019018375A1 (en) NEURONAL ARCHITECTURE RESEARCH FOR CONVOLUTION NEURAL NETWORKS
CN110197282B (zh) 一种基于遗传模糊逻辑树的威胁估计与态势评估方法
CN112232478A (zh) 一种基于分层注意力机制的多智能体强化学习方法及系统
Azzouz et al. Steady state IBEA assisted by MLP neural networks for expensive multi-objective optimization problems
Putra et al. Estimation of parameters in the SIR epidemic model using particle swarm optimization
Yildiz Reinforcement learning using fully connected, attention, and transformer models in knapsack problem solving
Camci et al. Qlp: Deep q-learning for pruning deep neural networks
CN116834037B (zh) 基于动态多目标优化的采摘机械臂轨迹规划方法及装置
CN109299491B (zh) 一种基于动态影响图对策的元模型建模方法及使用方法
CN117670095B (zh) 多智能体自主对抗驱动的行动计划生成方法和装置
Tripathi et al. A nature inspired hybrid optimisation algorithm for dynamic environment with real parameter encoding
Khurma et al. Binary Harris hawks optimisation filter based approach for feature selection
CN111723941B (zh) 规则生成方法、装置、电子设备和存储介质
CN114118441A (zh) 基于高效搜索策略在不确定性环境下的在线规划方法
Zhan et al. Dueling network architecture for multi-agent deep deterministic policy gradient
Aoun et al. Self inertia weight adaptation for the particle swarm optimization
Everitt et al. Marginal sequential Monte Carlo for doubly intractable models
Callaghan et al. Evolutionary strategy guided reinforcement learning via multibuffer communication
CN117648585B (zh) 基于任务相似度的智能决策模型泛化方法和装置
Ulusoy et al. A Q-Learning-Based Approach for Simple and Multi-Agent Systems
US20230351146A1 (en) Device and computer-implemented method for a neural architecture search
Cheng et al. Dual Parallel Policy Iteration With Coupled Policy Improvement
Xu et al. Dynamic Gaussian Mutation Beetle Swarm Optimization Method for Large-Scale Weapon Target Assignment Problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant