CN114326822B

CN114326822B - 一种基于演化博弈的无人机集群信息共享方法

Info

Publication number: CN114326822B
Application number: CN202210221048.XA
Authority: CN
Inventors: 杨国利; 周理; 成浩; 康元基
Original assignee: Pla 66136 Unit
Current assignee: Pla 66136 Unit
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-05-10
Anticipated expiration: 2042-03-09
Also published as: CN114326822A

Abstract

本发明提供了一种基于演化博弈的无人机集群信息共享方法，利用演化博弈理论，通过设置并不断更新信誉关系，提升无人机集群在信息共享中合作水平。无人机个体收集并处理其他个体的信誉信息进而更新个体知识以适应环境，再同集群内其他个体交互，完成经验交互和社会学习，实现共同进化，最终形成复杂有序的集体行为，避免了恶性竞争与局部竞争，实现整体信息共享合作。

Description

一种基于演化博弈的无人机集群信息共享方法

技术领域

本发明属于无人系统协同领域，具体涉及一种基于演化博弈的无人机集群信息共享方法。

背景技术

随着无人机自主化和网络化能力的提升，无人机在军事作战、物流运输、信息通信等领域的工作模式也不断创新。单无人机由于受探测能力、装备载荷等方面的限制，难以完成复杂环境下的多样化任务，因此由多架无人机组成的无人机集群是当前发展的重要方向。无人机集群因其卓越的机动能力和群体效应在智能作战、物流配送、安防巡逻等领域发挥着极其重要的作用，而其在没有人为控制的情况下能否有效自发形成自主协同能力是影响无人机集群战斗力的关键，同时也是无人系统业界众多研究人员关注的主要问题。考虑到无人机集群任务环境的复杂性、多样性和不确定性，且无人机小型化、低成本、集群化的特点越发明显，其对群体自主协同的要求日益强烈，无人机之间通过无线通信，实现信息共享，扩大对广阔环境态势的感知，有助于提高无人机集群的生存能力和任务完成质量。特别是在军事领域，无人机集群自主性的信息共享水平代表了信息网络自组合的健壮性，直接决定了能否成功突破敌方防御系统以及对目标实施有效攻击。

从生物、数学、计算机、控制、机器人等领域看，集群一般具有临近交互性、群体稳定性、环境适应性，其通过个体间简单行为规则的合作产生复杂有序的集体行为。群体行为协同与演化博弈是群体智能的重要研究内容，其通过探索交互群体的博弈、演化、涌现规律，为智能机器人设计、社会系统开发、经济模式分析提供了良好的视角。建立演化博弈模型深入理解群体行为已经在系统控制、计算机科学、进化生物学、物理学、经济学、社会学等领域引起广泛关注，相关成果涉及进化计算、集群智能、环境保护、智能交通、机器人等诸多场景。在典型的演化博弈框架下，博弈群体中众多参与者通过随机抽样方式选出两个参与者进行预先规定好的要素博弈，获得相应的收益，参与个体的博弈收益取决于博弈过程中自身策略以及对手策略。演化博弈群体中，参与者根据不同的理性水平和学习规则进行行为模仿或变异尝试，以此不断修正或改进自己的策略，最终使得效率较高、收益较大的策略经过选择过程得以大量复制，效率较低、收益较小的策略在迭代演化中逐步淘汰。通过演化博弈，实现群体整体稳定和较高效益。在演化博弈领域，博弈活动的参与者的理性水平通常是非常有限的，其在行动上被惯例惰性和简单模仿所驱使，且博弈本身的复杂性会伴随着信息的不完全、不完美，将演化博弈理论应用到无人机集群领域，符合现实情景群体去中心化、有限信息、整体自组织等方面的特点，更加真实地刻画了无人机行为决策的多样性和复杂性。基于演化博弈理论指导无人机集群个体在彼此交互、有限信息、有限资源的条件下稳定合作并持续协同，能够对完善和提高无人机集群协同能力和智能化水平提供全新的建模视角和解决方案。

近年来，国内外多家机构学者已就无人机集群协同开展深入研究。美国先后发布了“小精灵”项目、“LOCUST”计划、“山鹑”项目等，提出通过发射数据共享、自主协同的无人蜂群，实现规避障碍、队形保持、目标跟踪、侦察打击、电磁干扰等多样化任务，匈牙利罗兰大学Vicsek团队试验了四旋翼飞机的自主集群飞行，利用生物集群行为机制验证无人机自主飞行和决策。我国沈林成等人采用协商理论、信息素、博弈论、多智能体等方法对无人机集群协同控制问题开展了深入研究；臧义华等人基于区块链技术探索无人机集群作战信息共享架构，支撑无人机集群协同探测、指挥控制等多种作战任务；付伟伊等提出了基于联盟博弈的飞行自组网信息共享方法，能够有效降低信息共享延时；王龙等人对演化博弈驱动的智能体控制策略进行了卓有成效的探索；王训等人基于合作博弈模型研究智能体集群自主聚集策略。这些研究成果有效推动了无人机集群的相关技术的落地发展，具有非常高的指导价值，但是受当前研究水平限制，无人机集群行为学习、信息共享与任务决策更适合于组织较为松散的简单反应型任务，很难满足过程复杂、条件苛刻、约束多样的实际任务需求，还有待深入研究和验证。

无人机系统凭借其特有的机动性、经济性、适应性、抗毁性等特点，受到了社会各界的广泛关注，成为国防、工业、交通、物流等领域竞相发展的平台，其中无人机集群协同依赖彼此之间的信息共享。考虑到任务环境的复杂性、多样性和动态性，每个无人机需能够综合利用其对周围环境的感知信息进行数据挖掘，理解态势和自主决策。另外，无人机彼此之间的通信链路需具备一定的自组织能力，在通信受阻、指挥不畅的条件下支持网络重构，保证信息交互的实时性。然而在现实场景中，无人机集群在信息共享过程中由于受到资源分布不均、通信链路不稳、个体理性有限等限制，每个无人机都会从自身利益出发尽可能多地竞争信息资源，导致恶性竞争的出现，最终难以实现集群协同。演化博弈论能够对博弈参与者采取有限理性假设，在信息不完全、不完美的条件下，通过不断演化修正并改进自身的策略，以合作而非恶性竞争来实现信息共享，力求整体效能最优。因此基于演化博弈理论改进无人机集群的信息共享方法是一种切实可行的手段。随着网络平台、无线传感器、通信设备等信息技术的发展，交互群体在多次博弈活动中会产生大量的历史数据，这些数据反映了博弈双方的信誉信息，能够用来指导博弈参与者预测对手的未来行为，以规避恶性竞争者。而如何设计有效的模型将信誉信息和演化博弈决策结合起来，成为国内为学术界和产业界共同关心的一个重要问题。本发明旨在通过设计一套基于演化博弈的无人机集群信息共享方法，利用群体信誉信息辅助无人机集群在内部竞争和冲突中的策略选择和均衡问题，将个体私有信息与集体公有信息进行有效融合，提升信誉信息在演化博弈中的作用，最终实现群体稳定合作，最大化整体效益。

发明内容

针对现有技术中所存在的不足，本发明提供了一种基于演化博弈的无人机集群信息共享方法，包含以下步骤：

A、构建无人机集群信息共享模型；每个无人机可以与该无人机集群中的其他任一无人机进行通信，并关于是否共享信息进行合作或对抗博弈，以形成或更新信息共享合作关系的信誉信息或信誉度，从而确定是否能够向通信的无人机共享本机信息或获取通信无人机的信息；

B、构建无人机集群的信誉关系矩阵S：

其中，矩阵S包含n×n个元素，所述n为无人机的数量；矩阵S的对角线元素1表示每个无人机个体i关于自身的信誉度

的定义值；

表示无人机个体i关于个体j的信誉度，且

，i、j均为不大于n的自然数；信誉度

的数值大小与无人机个体i对无人机个体j信息共享的概率正相关；

C、无人机集群中的无人机个体i融合私有信誉信息和公有信誉信息计算生成关于信息共享的合作或对抗策略；所述私有信誉信息为无人机个体i关于无人机个体j的信誉度，所述公有信誉信息通过融合第三方无人机k对无人机个体j的信誉度得到；k为不大于n的自然数；

D、基于当次合作策略，对应的无人机个体i建立与无人机个体j的信息共享；参与信息共享博弈的无人机个体i与无人机个体j根据双方策略获得相应的博弈收益，并更新关于彼此的信誉度；

E、所述无人机集群进行不同无人机个体的两两博弈，并重复步骤C与步骤D，以使得所述无人机集群整体获取一轮次的信誉度更新和收益累计；

F、所述无人机集群基于一定周期内的累计收益进行群体演化，并重复步骤C至步骤E，以实现无人机集群信息共享的自主协同。

进一步的，在步骤C中，基于私有信誉信息的合作决策概率为：

，式中β为调节系数；基于私有信誉信息的对抗决策概率为：

。

进一步的，在步骤C中，无人机个体i关于个体j的信誉信息为

；式中为

为无人机个体k获得的关于无人机个体j的信誉信息；

为无人机个体i获得的关于无人机个体k的信誉信息。

进一步的，无人机个体i仅选择

大于零的无人机个体k作为可信第三方以获取关于无人机个体j的信誉信息。

进一步的，所述无人机个体k包含遍历所述无人机集群中无人机个体i与无人机个体j以外的无人机，无人机个体i关于无人机个体j的可信公有信誉信息通过计算得到，计算公式为：

。

进一步的，基于可信公有信誉信息的合作概率为：

，基于可信公有信誉信息的对抗决策概率为：

。

进一步的，可信公有信誉信息与私有信誉信息的融合判断逻辑为：在可信公有信誉信息的决策为对抗，私有信誉信息的决策为合作的前提下，无人机个体i以概率p进行合作，所述概率p为私有信誉信息偏好率；在私有信誉信息的博弈决策为对抗，可信公有信誉信息的博弈决策为合作的前提下，无人机个体i以概率q进行合作，所述概率q为可信公有信誉信息偏好率。

进一步的，所述无人机个体i根据无人机个体j的合作或对抗策略更新关于无人机个体j的私有信誉信息，更新步长为r，且

。

进一步的，所述无人机个体i与无人机个体j信息共享的合作博弈中，合作收益b大于合作代价c且大于零，无人机个体i的博弈收益记为

，无人机个体j的博弈收益记为

；博弈收益逻辑为：

无人机个体i采取对抗策略，无人机个体j采取合作策略，则

；

无人机个体i采取合作策略，无人机个体j采取对抗策略，则

；

无人机个体i与无人机个体j均采取合作策略，则

；

无人机个体i与无人机个体j均采取对抗策略，则

。

进一步的，所述无人机集群每T轮进行群体演化，群体演化过程具体实施步骤包含：

a)、在无人机集群中随机选取任一无人机个体i；

b)、无人机个体i以概率

进行变异操作，随机模仿集群中任一无人机个体j的信誉状态信息，即

，

；

c)、无人机个体i以概率

进行选择操作，首先计算每个无人机个体的适应度，计算公式为：

式中

，且为自然数；即T轮周期内的累积博弈收益的指数形式，然后以正比于个体适应度的概率在整个群体中选择一个无人机个体j模仿其信誉状态信息，即

，

。

本发明旨在解决基于信誉信息的无人机决策问题，以实现无人集群在演化博弈中的合作稳定性和效益最大化。本发明利用演化博弈理论，通过设置并不断更新信誉关系，提升无人机集群在信息共享中合作水平。无人机个体收集并处理其他个体的信誉信息进而更新个体知识以适应环境，再同集群内其他个体交互，完成经验交互和社会学习，实现共同进化，最终形成复杂有序的集体行为，避免了恶性竞争与局部竞争，实现整体信息共享合作。

附图说明

附图1为无人机集群组成示意图；

附图2为实施例中可信公有信誉信息融合过程示意图；

附图3为实施例中无人机群信息共享方法流程示意图；

附图4为实施例中无人机集群在不同决策模式下的合作比例演化图。

具体实施方式

下面结合附图及实施例对本发明中的技术方案进一步说明。

本发明所提及的无人机集群是以机-机协同为主，如图1所呈现的多架无人机组成的有限混合均匀无人机集群，无人机集群良好的信息共享将有效支撑无人机间的自主协同。在任务执行过程中，每个个体都拥有一定数量的信息资源，但是由于外部环境的多样性，无人机获得的信息资源可能分布不均。从“有限理性”的角度出发，各个无人机都会尽力竞争更多的信息资源为己所用，以达到自身效能的最大化。为实现整体效能的最大化，需要设计有效的信息共享机制，使得无人机集群能够通过彼此合作实现自主协同。

本发明提供了一种基于演化博弈的无人机集群信息共享方法，包含以下步骤：

B、构建无人机集群的信誉关系矩阵S：

的定义值；

表示无人机个体i关于个体j的信誉度，且

，i、j均为不大于n的自然数；信誉度

C、无人机集群中的无人机个体i融合私有信誉信息和公有信誉信息计算生成关于信息共享的合作或对抗策略；所述私有信誉信息为无人机i个体关于无人机j个体的信誉度，所述公有信誉信息通过融合第三方无人机k对无人机个体j的信誉度得到；k为不大于n的自然数；

无人机的私有信誉信息表示个体之间的信任程度，无人机集群集体公有信誉信息需通过第三方获取相关的公有信誉信息，而来自第三方个体信息的可信度是需要慎重考虑的问题。考虑到博弈参与者无法无差别地融合所有来自第三方的公共信息，需要设计一套机制规范公共信息的可信程度，进而吸收可信公共信息，屏蔽不可信公共信息。最终，无人机集群中的个体需融合私有信誉信息和公有信誉信息计算生成合作或对抗策略。

在步骤C中，基于私有信誉信息的合作决策概率为：

，式中β为调节系数；上式意味着无人机个体i关于j的信誉度

取值越大，i对j的信任度和关系紧密度越高，博弈过程中选择合作的概率就越大，无人机个体i向个体j共享信息的可能性也就越大；同理，基于私有信誉信息的对抗决策概率为：

。

除基于私有信誉信息的合作概率计算外，还需要考虑基于公有信誉信息的合作概率计算；无人机个体i关于个体j的公有信誉信息，需要融合所有与个体i交互且可信程度高的第三方个体关于个体j的信誉信息。具体而言，对于无人机个体i的可信第三方个体k，其需要满足

，无人机个体i通过向其咨询得到关于无人机个体j的信誉信息为

，而无人机个体i对该信息的置信程度为

，在步骤C中，无人机个体i通过无人机个体k获得关于无人机个体j的可信第三方信誉度为

；

由于可信信誉信息只考虑通过可信第三方获取公共信息，因此与第三方无人机个体k的关系需要满足

，最终经由可信第三方无人机个体获得的信誉信息包含下列情形：

a）如果

，且

，则

，来自第三方的信誉信息为正反馈；

b）如果

，且

，则

，来自第三方的信誉信息为负反馈。

如图2所示，遍历所有除无人机个体i、无人机个体j外的个体作为无人机第三方个体k，寻找其中需满足

的可信个体，融合其关于j的第三方信誉信息，进而可得个体i关于个体j的可信公有信誉度（creditable public reputation score），记为：

于是可得，基于可信公有信誉信息的合作决策概率记为：

其中β为调节参数。上式意味着个体i关于j的可信公有信誉度

取值越大，i对j的信任度和关系紧密度越高，博弈过程中选择合作的概率就越大，无人机个体i向个体j共享信息的可能性也就越大。

同理，进一步可得基于可信公有信誉信息的对抗决策概率：

。

综合有信誉信息和可信公有信誉信息进行决策，最终形成信息共享策略。鉴于私有信息决策和可信公有信息决策之间可能存在冲突，需要通过信息偏好参数进行协调，可信公有信誉信息与私有信誉信息的融合判断逻辑为：在可信公有信誉信息的决策为对抗，私有信誉信息的决策为合作的前提下，无人机个体i以概率p进行合作，对应的对抗概率为1-p，所述概率p为私有信誉信息偏好率；在私有信誉信息的博弈决策为对抗，可信公有信誉信息的博弈决策为合作的前提下，无人机个体i以概率q进行合作，所述概率q为可信公有信誉信息偏好率。当基于私有信誉信息的决策与可信共有信息的决策均为合作时，则选择合作。应用时，可根据实际情况与需要设置或优化调整可信公有信誉信息偏好率与私有信誉信息偏好率的大小。

参与博弈的无人机根据自身和博弈对手的策略，更新彼此关于对方的信誉度。对于参与博弈的无人机个体i和j，无人机集群更新信誉关系矩阵S具体过程如下：

a）如果i选择合作C，j选择合作C，那么个体i关于j的信誉度将有所提升，

；

b）如果i选择合作C，j选择对抗D，那么个体i关于j的信誉度将有所下降，

;

c）如果i选择对抗D，j选择合作C，那么个体i关于j的信誉度将维持不变，

；

d）如果i选择对抗D，j选择对抗D，那么个体i关于j的信誉度将有所下降，

.

其中，r为信誉信息更新步长，且

，实际应用时可选择较小的数值以精准控制。

参与信息共享博弈的无人机个体根据双方策略和收益矩阵获得相应的博弈收益

;

基于双方策略和博弈收益矩阵

，无人机个体i第t轮博弈的收益记为

，无人机个体j第t轮博弈的收益记为

。

a）如果i选择合作C，j选择合作C，那么

，

；

b）如果i选择合作C，j选择对抗D，那么

，

；

c）如果i选择对抗D，j选择合作C，那么

，

；

d）如果i选择对抗D，j选择对抗D，那么

，

。

无人机集群每T轮进行群体演化，进而催生收益较高的个体，淘汰收益较低的个体。演化过程围绕选择和变异操作展开，其中选择操作是指能够获得较高收益的个体在后续的演化中能够被更多的参与者跟进追随，变异是指部分参与者以随机的方式放弃当前状态模仿其他博弈个体，以期获得更高的博弈收益，规避局部最优。群体演化过程具体实施步骤包含：

a）在无人机集群中随机选取任一无人机个体i；

b）无人机个体i以概率

，

。

c）无人机个体i以概率

，式中

，

。

图4为无人机集群在信息共享中关于合作比例的计算机仿真图，其中无人机集群规模

，两两交互个体基于收益矩阵

进行博弈，其中收益参数b=4，c=1。无人机集群信誉信息更新步长

，群体演化周期T=10，变异概率

。基于上述参数，模拟无人机集群基于演化博弈进行信息共享，分别就公/私信誉信息缺失，私有信誉信息为主，公有信誉信息为主，公/私信誉信息兼顾四种决策模式进行比较，由图可以得出，在无人机集群信息共享决策中忽略公/私信誉信息、或只考虑私有信誉信息、或只考虑公有信誉信息都会导致对抗策略的增长，群体信息共享水平低下；只有在公私信息兼顾的情况下，合作策略才能成为群体的主导，此时无人机集群的信息共享程度达到最大化。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于演化博弈的无人机集群信息共享方法，其特征在于：包含以下步骤：

A、构建无人机集群信息共享模型；每个无人机可以与该无人机集群中的其他任一无人机进行通信，并关于是否共享信息进行合作或对抗博弈，以形成或更新信息共享合作关系的信誉度，从而确定是否能够向通信的无人机共享本机信息或获取通信无人机的信息；

B、构建无人机集群的信誉关系矩阵S：

的定义值；

表示无人机个体i关于个体j的信誉度，且

，i、j均为不大于n的自然数；信誉度

2.如权利要求1所述的一种基于演化博弈的无人机集群信息共享方法，其特征在于：在步骤C中，基于私有信誉信息的合作策略概率为：

，式中β为调节系数；基于私有信誉信息的对抗策略概率为：

。

3.如权利要求1或2所述的一种基于演化博弈的无人机集群信息共享方法，其特征在于：在步骤C中，无人机个体i经由第三方个体k获得关于个体j的公有信誉信息为

；式中

为无人机个体k获得的关于无人机个体j的信誉度；

为无人机个体i获得的关于无人机个体k的信誉度。

4.如权利要求3所述的一种基于演化博弈的无人机集群信息共享方法，其特征在于：无人机个体i仅选择

大于零的无人机个体k作为可信第三方以获取关于无人机个体j的公有信誉信息。

5.如权利要求4所述的一种基于演化博弈的无人机集群信息共享方法，其特征在于：所述无人机个体k包含遍历所述无人机集群中无人机个体i与无人机个体j以外的无人机，无人机个体i关于无人机个体j的可信公有信誉信息通过计算得到，计算公式为：

。

6.如权利要求5所述的一种基于演化博弈的无人机集群信息共享方法，其特征在于：基于可信公有信誉信息的合作概率为：

，基于可信公有信誉信息的对抗决策概率为：

。

7.如权利要求6所述的一种基于演化博弈的无人机集群信息共享方法，其特征在于：可信公有信誉信息与私有信誉信息的融合判断逻辑为：在可信公有信誉信息的策略为对抗，私有信誉信息的策略为合作的前提下，无人机个体i以概率p进行合作，所述概率p为私有信誉信息偏好率；在私有信誉信息的博弈策略为对抗，可信公有信誉信息的博弈策略为合作的前提下，无人机个体i以概率q进行合作，所述概率q为可信公有信誉信息偏好率。

8.如权利要求1所述的一种基于演化博弈的无人机集群信息共享方法，其特征在于：所述无人机个体i根据无人机个体j的合作或对抗策略更新关于无人机个体j的私有信誉信息，私有信誉信息更新步长为r，且