CN108170158A

CN108170158A - 基于数据驱动的无人机智能对抗控制方法

Info

Publication number: CN108170158A
Application number: CN201711263439.3A
Authority: CN
Inventors: 高阳; 祖伟; 李�浩; 张�杰; 尹登宇; 李翔; 马瑶
Original assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Current assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2018-06-15
Anticipated expiration: 2037-12-05
Also published as: CN108170158B

Abstract

本发明属于无人机编队领域，具体涉及一种基于数据驱动的无人机智能对抗控制方法，包括步骤：获取敌机状态、预测敌机模型、敌机惯性预测、敌机动作预测、敌机状态预测、获取本机状态、本机操作归一、本机动作列表、本机状态预测、构建评估标准、得到评估结果、选择候选操作、迭代提高决策深度、选择最优策略。本发明解决了当无人机采用人工遥控的工作方式，遇到空中威胁，需要激烈对抗，而又无法迅速做出合理操作的问题，达到智能对抗的目的，提升了对抗成功率。

Description

基于数据驱动的无人机智能对抗控制方法

技术领域

本发明属于无人机编队领域，具体涉及一种基于数据驱动的无人机智能对抗控制方法。

背景技术

无人机在军事领域，一开始作为靶机，供训练使用。后来随着技术发展，逐渐用于侦察与对地打击。作为一种非常有前景的技术装备，目前使用的方式主要是人工远程遥控。该方式具有工作距离短，通讯链路不稳定，通讯带宽低，响应时间慢等问题。当遇到激烈对抗时，无法迅速做出合理操作，所以只能执行一些低等级任务。

随着计算机单位功率计算能力的提升，机载计算机已经可以实现相对较大规模的计算。结合之前人类对本领域知识的认识，实现人工智能的应用，实现在线智能决策成为可能，从而将无人机用于更高等级的应用领域。

本发明的主要目的在于，提供一种针对单机近距离对抗的人工智能算法，以及实现该算法的系统，解决局部环境下无人机的1v1对抗问题。其主要思想是：通过传感器获得敌机的数据，通过当前及历史数据的分析，预测敌机战术意图；结合敌机战术意图与本机所处状态，枚举不同操作带来的后果；构建基于能量战术体系的评价机制，评价不同操作对态势带来的影响；采用博弈论的方法选择相对合理的战术，从而达到智能对抗的目的。

发明内容

为了解决现有技术中的上述问题，即为了局部环境下无人机的1v1对抗问题，本发明提出了一种基于数据驱动的无人机智能对抗控制方法，包括以下步骤：

步骤P1，按照第一时间间隔，周期性的采集并存储敌机状态数据；

步骤P2，基于所获取的敌机状态数据构建敌机飞行动力学模型；

步骤P3，基于敌机当前状态数据、历史状态数据，根据敌机飞行动力学模型，推算敌机预测状态；所述敌机预测状态为按照第一时间间隔推算预测时段内的N个状态；其中所述预测时段对应时长是第一时间间隔对应时长的N倍；

步骤P4，基于本机当前状态数据，依据预设的动作调整策略表，构建本机M种动作组合；

步骤P5，基于本机当前状态数据，根据本机飞行动力学模型，按照第一时间间隔推算每一种动作组合预测时段内的N个状态作为本机预测状态；

步骤P6，根据敌机预测状态，对本机每一种动作组合对应的本机预测状态进行态势评估，每种动作组合得到N个态势评估值；

步骤P7，根据每种动作组合的N个态势评估值计算每种动作组合的最终态势评估值；

步骤P8，选取最终态势评估值最大的前Q种动作组合，对应的预测时段之后的Q种本机预测状态；

步骤P9，分别以Q种本机预测状态为假设的本机当前状态、以敌机预测时段之后的敌机预测状态为假设的敌机当前状态，重复执行步骤P3至步骤P8得到Q*Q种预测状态以及Q*Q种动作组合；

步骤P10，选取最终态势评估值最大的前Q种预测状态及对应的动作组合；

步骤P11，重复执行步骤P9、步骤P10，直到设置的时间窗口期，选取最终态势评估值最大的预测状态对应的首个预测时段动作组合并输出。

进一步地，步骤P3中所述“推算敌机预测状态”，其方法为：

步骤P31，基于敌机当前状态数据，根据敌机飞行动力学模型，按照第一时间间隔推算预测时段内的N个状态作为惯性预测状态；其中所述预测时段对应时长是第一时间间隔对应时长的N倍；

步骤P32，根据敌机历史时段的历史状态数据，按照第一时间间隔推算预测时段内的N个状态作为动作预测状态；所述历史时段对应时长与预测时段对应时长相同；

步骤P33，将惯性预测状态和动作预测状态加权平均后得到N个状态，作为敌机预测状态。

进一步地，步骤P6中所述“进行态势评估”，其方法为：

将每一个状态数据进行-1到+1的归一化之后，再赋予预设的权重得到每一个状态数据对应的值；

选取计算得到状态数据对应的值大于设定阈值的部分求和，得到态势评估值。

进一步地，步骤P7中所述“根据每种动作组合的N个态势评估值计算每种动作组合的最终态势评估值”，其方法为：

对每个动作组合得到的N个态势评估值，根据时间越靠后的态势评估值价值越高原则进行时间加权，然后再对绝对值大于A的去除时间加权，选取绝对值最大的B个求和作为最终态势评估值。

进一步地，步骤P2中采用龙格-库塔法构建敌机飞行动力学模型。

进一步地，步骤P4中所述“动作调整策略表”中动作策略包括操纵杆X轴调整策略、操纵杆Y轴调整策略、油门调整策略。

进一步地，所述敌机状态数据、所述本机当前状态数据，均包括经度、纬度、高度、俯仰角、偏航角、滚转角、X轴速度、Y轴速度、Z轴速度、俯仰角速度、偏航角速度、滚转角速度、X轴加速度、Y轴加速度、Z轴加速度、俯仰角加速度、偏航角加速度、滚转角加速度。

进一步地，步骤P1中所述第一时间间隔为10毫秒，存储敌机状态数据为最近的10P内的数据。

进一步地，步骤P3中所述预测时段当前时刻之后的10P。

进一步地，N的取值为100。

进一步地，Q的取值为3。

进一步地，在所述最终态势评估值的计算中，所述时间加权对应的权值在0.01到1.00之间，A取值为0.8，B取值为20。

进一步地，所述时间窗口期的取值为50毫秒。

通过传感器获得敌机的数据，通过当前及历史数据的分析，预测敌机战术意图；结合敌机战术意图与本机所处状态，枚举不同操作带来的后果；构建基于能量战术体系的评价机制，评价不同操作对态势带来的影响；采用博弈论的方法选择相对合理的战术，从而达到智能对抗的目的，提升了对抗成功率。

附图说明

图1是本发明实施例的基于数据驱动的无人机智能对抗控制方法流程示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明提出了一种基于数据驱动的无人机智能对抗控制方法，如图1所示，包括以下步骤：

为了更清晰地对本发明技术方案进行说明，下文对具体的例子进行展开性详细描述。

步骤S1，按照第一时间间隔，周期性的采集并存储敌机状态数据。

敌机状态数据包括经度、纬度、高度、俯仰角、偏航角、滚转角、X轴速度、Y轴速度、Z轴速度、俯仰角速度、偏航角速度、滚转角速度、X轴加速度、Y轴加速度、Z轴加速度、俯仰角加速度、偏航角加速度、滚转角加速度，对应的单位分别为单位分别为，度、度、米、度、度、度、度/秒、度/秒、米/秒、度/秒、度/秒、度/秒、度/秒^2、度/秒^2、米/秒^2、度/秒^2、度/秒^2、度/秒^2。

第一时间间隔为10毫秒，每隔10毫秒进行一次数据采集，在CPU内部的高速缓存中进行存储，只保存最近10秒内的数据，按照先入先出规则，覆盖过期数据。时间更久的数据价值很低所以不保存。

步骤S2，基于所获取的敌机状态数据构建敌机飞行动力学模型。本实施例中采用龙格-库塔法(Runge-Kutta methods)构建敌机飞行动力学模型。

具体实施时，计算机内预设了飞行动力学模型以及常见飞机型号的参数，传感器获取的飞机的型号后，选择对应的飞行动力学模型参数。用龙格-库塔法和历史数据对模型参数进行确认。经过确认后的参数将固定下来使用，后续步骤中将不再调整。

步骤S3，基于敌机当前状态数据，根据敌机飞行动力学模型，按照第一时间间隔推算预测时段内的N个状态作为惯性预测状态；其中所述预测时段对应时长是第一时间间隔对应时长的N倍。N可以取100。

因为敌机受惯性约束，不可能在短时间内做出较大动作，假设在X轴加速度、Y轴加速度、Z轴加速度、俯仰角加速度、偏航角加速度、滚转角加速度不变，可以推测出下一秒内每隔10毫秒一个状态，共100个状态。

具体实施时，假设在X轴加速度、Y轴加速度、Z轴加速度、俯仰角加速度、偏航角加速度、滚转角加速度不变的情况下，计算每间隔10毫秒以后的经度、纬度、高度、俯仰角、偏航角、滚转角、X轴速度、Y轴速度、Z轴速度、俯仰角速度、偏航角速度、滚转角速度，共100次。

步骤S4，根据敌机历史时段的历史状态数据，按照第一时间间隔推算预测时段内的N个状态作为动作预测状态；所述历史时段对应时长与预测时段对应时长相同。

根据所存储的最近10秒内的1000条历史状态数据，考虑历史数据价值按照时间从近到远递减的因素，预测敌机的操作行为概率，再根据敌机飞行动力学模型，推测出下一秒内每间隔10毫秒的100个状态。

具体实施时，根据10秒内的1000条历史数据与计算机内预设的不同状态下飞机操作概率表，考虑历史数据价值按照时间从近到远递减的因素，得到最有可能的操作行为，再根据敌机飞行动力学模型、从而推测出下一秒内每间隔10毫秒的100个状态。

步骤S5，将惯性预测状态和动作预测状态加权平均后得到N个状态，作为敌机预测状态。

惯性预测的100个状态和动作预测的100个状态加权平均，得到敌机下一秒内每间隔10毫秒的100个状态预测，具体实施时，为提高鲁棒性，适当提高惯性预测结果的权重，惯性预测权重设置为0.6，动作预测权重设置为0.4。

步骤S6，基于本机当前状态数据，依据预设的动作调整策略表，构建本机M种动作组合。

本机当前状态数据，包括经度、纬度、高度、俯仰角、偏航角、滚转角、X轴速度、Y轴速度、Z轴速度、俯仰角速度、偏航角速度、滚转角速度、X轴加速度、Y轴加速度、Z轴加速度、俯仰角加速度、偏航角加速度、滚转角加速度。

具体实施时，单位分别为，度、度、米、度、度、度、度/秒、度/秒、米/秒、度/秒、度/秒、度/秒、度/秒^2、度/秒^2、米/秒^2、度/秒^2、度/秒^2、度/秒^2。每间隔10毫秒，在CPU内部的高速缓存中进行存储，最多保存15秒的数据，按照先入先出规则，覆盖过期数据。

本实施例将本机操作简化成操纵杆X轴调整、操纵杆Y轴调整、油门调整，每个调整归一化为-1.0到+1.0之间的值。这样动作调整策略表中动作策略可以简化为操纵杆X轴调整策略、操纵杆Y轴调整策略、油门调整策略。

具体实施时，将操纵杆X轴从-1024到+1024归一化到-1.0到+1.0，将操纵杆Y轴从-1024到+1024归一化到-1.0到+1.0，将油门从0到1024归一化到-1.0到+1.0。

结合本机当前状态数据，根据人类常用战术制定的动作调整策略表，分别采用不同的动作调整策略，构建本机大概率动作列表，A1、A2……A100，共100种动作组合。

具体实施时，根据本机状态和敌机状态得到相对状态，根据相对状态参考内置的动作调整策略表，得到大概率动作列表，A1、A2……A100，共100种动作组合(动作组合合理性递减)。

步骤S7，基于本机当前状态数据，根据本机飞行动力学模型，按照第一时间间隔推算每一种动作组合预测时段内的N个状态作为本机预测状态。

根据已有本机飞行动力学模型，本机动作列表中每一种动作组合，推测出本机每一种动作组合下在下一秒内每间隔10毫秒的100个状态。

具体实施时，由于100种动作组合之间毫无关系，所以可以采用并行计算的方式，极大的优化了计算速度。

步骤S8，根据敌机预测状态，对本机每一种动作组合对应的本机预测状态进行态势评估，每种动作组合得到N个态势评估值。

态势评估的方法：该方法的输入对象为：相对经度、相对纬度、相对高度、相对俯仰角、相对偏航角、相对滚转角、X轴相对速度、Y轴相对速度、Z轴相对速度、俯仰角相对速度、偏航角相对速度、滚转角相对速度、X轴相对加速度、Y轴相对加速度、Z轴相对加速度、俯仰角相对加速度、偏航角相对加速度、滚转角相对加速度；对每一个值先归一化到-1到+1之间，然后再赋予-1到+1之间的权重，权重负值表示该值越大优势越小，权重正值表示该值越大优势越大，然后去除加权之后绝对值小于0.01的值，再求和，作为态势评估值。

根据敌机下一秒内每间隔10毫秒的100个状态预测，本机下一秒内每间隔10毫秒的100个状态，采用态势评估的方法，对每个动作组合进行评估后得到每个动作组合的100个态势评估值。

步骤S9，根据每种动作组合的N个态势评估值计算每种动作组合的最终态势评估值。

本实施例中，对每个动作组合得到的100个态势评估值，根据时间越靠后的态势评估值价值越高的原则，分别乘以0.01到1.00进行时间加权，然后再对绝对值大于0.8的，不进行时间加权直接乘以1.00进行绝对优势加权，取出100个态势值中绝对值最大的20个，求和作为最终态势评估值。

步骤S10，选取最终态势评估值最大的前Q种动作组合，对应的预测时段之后的Q种本机预测状态。

本实施例中，根据每个动作组合的态势评估值，确定该动作周期的动作行为，态势评估值越大，表示该动作越合理，获得的优势越大，按照优势从大到小取前3名，对应的1秒后的预测状态分别为St11、St12、St13，本机对应的动作分别为A11、A12、A13。

步骤S11，分别以Q种本机预测状态为假设的本机当前状态、以敌机预测时段之后的敌机预测状态为假设的敌机当前状态，重复执行步骤S3至步骤S10得到Q*Q种预测状态以及Q*Q种动作组合。

本实施例中，分别将St11、St12、St13作为假设的当前状态，重复执行步骤S3到步骤S10，得到9个最终态势评估值及对应的9个动作组合。

步骤S12，选取最终态势评估值最大的前Q种预测状态及对应的动作组合。

本实施例中，将9个最终态势评估值，按照优势从大到小取前3名，对应为St21、St23、St23，及对应的3个动作组合，得到3个动作组合序列。

假如St21对应的前一状态为St13，则该动作组合序列为[A13，A21]。

步骤S13，重复执行步骤S11、步骤S12，直到设置的时间窗口期，选取最终态势评估值最大的预测状态对应的首个预测时段动作组合并输出。

本实施例中，不断重复步骤S11、步骤12，不断得到每一次的Stn1、Stn2、Stn3，与所对应的3个动作组合序列，直到计算时间窗口期(50毫秒)结束。其中n为迭代次数。

具体实施时，时间窗口(50毫秒)即将到达时(提前5毫秒)就终止计算，销毁本次步骤11、步骤12的迭代计算，恢复上一周期的计算结果。

最后一次的最终态势评估值最大的预测状态Stlast1为期待的状态，其对应的动作组合序列中，第一个动作组合A1x为本机动作组合的最佳选择。last表示最后一次迭代的次数。

举例：last为5，预测状态Stlast1对应的在先预测状态分别为St13、St21、St31、St41，则对应的动作组合序列为[A13、A21、A31、A41、A51]，第一个动作组合为A13。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于数据驱动的无人机智能对抗控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，步骤P3中所述“推算敌机预测状态”，其方法为：

3.根据权利要求1所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，步骤P6中所述“进行态势评估”，其方法为：

4.根据权利要求3所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，步骤P7中所述“根据每种动作组合的N个态势评估值计算每种动作组合的最终态势评估值”，其方法为：

5.根据权利要求1所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，步骤P2中采用龙格-库塔法构建敌机飞行动力学模型。

6.根据权利要求1所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，步骤P4中所述“动作调整策略表”中动作策略包括操纵杆X轴调整策略、操纵杆Y轴调整策略、油门调整策略。

7.据权利要求1所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，所述敌机状态数据、所述本机当前状态数据，均包括经度、纬度、高度、俯仰角、偏航角、滚转角、X轴速度、Y轴速度、Z轴速度、俯仰角速度、偏航角速度、滚转角速度、X轴加速度、Y轴加速度、Z轴加速度、俯仰角加速度、偏航角加速度、滚转角加速度。

8.据权利要求1-7任一项所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，步骤P1中所述第一时间间隔为10毫秒，存储敌机状态数据为最近的10P内的数据。

9.据权利要求8所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，步骤P3中所述预测时段当前时刻之后的10P。

10.据权利要求9所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，N的取值为100。

11.据权利要求10所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，Q的取值为3。

12.据权利要求4所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，在所述最终态势评估值的计算中，所述时间加权对应的权值在0.01到1.00之间，A取值为0.8，B取值为20。

13.据权利要求1-7任一项所述的基于数据驱动的无人机智能对抗控制方法，其特征在于，所述时间窗口期的取值为50毫秒。