CN111723941B

CN111723941B - 规则生成方法、装置、电子设备和存储介质

Info

Publication number: CN111723941B
Application number: CN202010491559.4A
Authority: CN
Inventors: 徐新海; 张峰; 李渊; 张帅; 李晟泽; 刘逊韵
Original assignee: Research Institute of War of PLA Academy of Military Science
Current assignee: Research Institute of War of PLA Academy of Military Science
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2021-09-24
Anticipated expiration: 2040-06-02
Also published as: CN111723941A

Abstract

本发明实施例提供一种规则生成方法、装置、电子设备和存储介质，其中方法包括：将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息；对每一目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则。本发明实施例提供的方法、装置、电子设备和存储介质，实现了从博弈对抗过程产生的海量数据中自动生成状态行动关联规则，生成的关联规则具有通用性，相比于人工方式，提高了规则生成的效率和准确性。

Description

规则生成方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种规则生成方法、装置、电子设备和存储介质。

背景技术

近年来，随着人工智能技术不断发展，基于强化学习的自主博弈对抗日益受到广泛关注。通过对博弈双方对抗过程的分析，并以产生式规则的形式描述自主博弈决策背后的逻辑，能够增强强化学习决策行为的解释性。

现有的产生式规则生成方式主要分为人工总结和自动生成两种方式。面对大量的博弈对抗过程数据，使用人工总结方式生成产生式规则，对个人经验依赖程度高、效率低下并且错误率高。此外，博弈对抗数据与特定的任务场景高度关联，直接从某一具体对抗过程中挖掘得到的规则难以迁移到不同但相似的另一任务中应用，导致规则不具有通用性。

发明内容

本发明实施例提供一种规则生成方法、装置、电子设备和存储介质，用以解决现有的规则生成方法不能从博弈对抗数据中挖掘到具有通用性的关联规则的问题。

第一方面，本发明实施例提供一种规则生成方法，包括：

将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息；所述任一目标智能体的地理状态信息包括所述任一目标智能体的当前地理位置坐标、所述任一目标智能体的队友智能体的当前地理位置坐标和对方智能体的当前地理位置坐标，所述任一目标智能体的地理行动信息包括所述任一目标智能体的目标地理位置坐标；

对每一目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则。

可选地，所述将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息，具体包括：

将任一目标智能体在地理坐标系下的地理状态信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对状态信息；所述相对状态信息包括各其余智能体相对于所述任一目标智能体的对抗关系和当前相对位置信息；

将任一目标智能体在地理坐标系下的地理行动信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对行动信息；所述相对行动信息包括所述任一目标智能体的目标相对位置信息。

可选地，所述相对坐标系下的相对位置信息是以所述任一目标智能体为原点的相对子区域中的一个；所述相对子区域是对以所述任一目标智能体为原点的三维区域进行划分得到的。

可选地，所述相对子区域具体是以所述任一目标智能体的运动方向为参照方向，对以所述任一目标智能体为原点的三维区域进行划分得到的。

可选地，所述将任一目标智能体在地理坐标系下的地理状态信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对状态信息，具体包括：

基于所述任一目标智能体的当前地理位置坐标，以及任一其余智能体的当前地理位置坐标，确定所述任一其余智能体相对于所述任一目标智能体的差向量；

基于所述任一目标智能体的速度向量，以及所述任一其余智能体相对于所述任一目标智能体的差向量，确定所述任一其余智能体所属的子区域作为所述任一其余智能体的当前相对位置信息。

可选地，所述将任一目标智能体在地理坐标系下的地理行动信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对行动信息，具体包括：

基于所述任一目标智能体的当前地理位置坐标，以及所述任一目标智能体的目标地理位置坐标，确定所述任一目标智能体的目标地理位置相对于当前地理位置的差向量；

基于所述任一目标智能体的速度向量，以及所述任一目标智能体的目标地理位置相对于当前地理位置的差向量，确定所述任一目标智能体的目标地理位置所属的子区域作为所述任一目标智能体的目标相对位置信息。

可选地，所述相对状态信息表示为包括各其余智能体相对于所述任一目标智能体的对抗关系和当前相对位置信息的状态三元组；所述相对行动信息表示为包括所述任一目标智能体的目标相对位置信息的行动二元组。

第二方面，本发明实施例提供一种规则生成装置，包括：

坐标转换单元，用于将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息；所述任一目标智能体的地理状态信息包括所述任一目标智能体的当前地理位置坐标、所述任一目标智能体的队友智能体的当前地理位置坐标和对方智能体的当前地理位置坐标，所述任一目标智能体的地理行动信息包括所述任一目标智能体的目标地理位置坐标；

规则生成单元，用于对每一目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的规则生成方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的规则生成方法的步骤。

本发明实施例提供的规则生成方法、装置、电子设备和存储介质，通过将目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息，实现了从博弈对抗过程产生的海量数据中自动生成状态行动关联规则，生成的关联规则具有通用性，相比于人工方式，提高了规则生成的效率和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的规则生成方法的流程示意图；

图2为本发明实施例提供的区域攻防多智能体对抗示意图；

图3为本发明实施例提供的相对坐标系下子区域示意图；

图4为本发明实施例提供的规则生成装置的结构示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

博弈对抗是指博弈双方在有预定约束和结果情况下的对抗性策略互动。对抗双方同时根据自身状态及外界环境的变化，调整策略和行动，最终使自己的收益最大化。从桌面上的围棋、扑克，到更加复杂的星际争霸等即时策略游戏，都是典型的博弈对抗场景。按照博弈控制方法的不同，博弈又可分为基于策略性规则的博弈和基于强化学习的自主博弈。

基于策略性规则的博弈本质上是基于专家领域知识对问题进行建模。这种方法计算量小、可解释性强，仅适用于相对简单系统的解析，对于更加复杂的系统则很难完全用策略性规则进行决策活动的建模。近年来，随着人工智能技术的不断发展，基于强化学习的自主博弈对抗日益受到广泛关注。计算机从人机围棋比赛和人机对抗游戏中屡屡获胜，其背后的深度强化学习算法可以经过大量训练，控制智能体根据其所处的状态，选择使其回报概率最大的行动，并最终在博弈对抗中获胜。但是这种方法无法给出行动产出过程的明确解释，无法使体现其决策背后的规则，这也是深度学习一直被诟病的“黑箱模型”。规则的可解释性在很多应用方面是必需的，如规则应用于医疗诊断、教育学习等场景的情形。

产生式规则是以IF[状态X]THEN[行动Y]形式描述的规则，它表示规则的执行主体在何种状态下应该采取何种行动，是一种可解释、易理解的策略描述方法。如果能基于博弈双方对抗过程的分析，并以产生式规则的形式描述决策背后的逻辑，则无疑会增强强化学习决策行为的解释性。生成的规则可作为一种通用的知识，在不同但相似的任务中迁移泛化。当前的产生式规则生成方式主要分为人工总结和自动生成两种方式。

人工总结方式主要依靠人工观察博弈对抗的具体过程，依靠个人经验归纳总结，得到博弈各方决策的一般性规律，形成具有一定通用性的规则。这种方式直观易理解，但非常依赖个人经验，而且单纯依靠人工方式很难应对复杂海量的博弈对抗过程数据，规则生成的效率低，错误率高。

自动生成方式则可以突破人工方式的局限性，现有的关联规则挖掘方法主要面向数据库数据，由于博弈对抗数据以时间步为单位产生，具有过程性、非结构化的特点，与数据库中的数据项(item)没有直接对应关系，导致关联规则挖掘算法无从下手；此外，博弈对抗产生的数据与特定的任务场景高度关联，例如任务场景中包含坐标位置、方向和速度等因素，直接从某一具体对抗过程中挖掘得到的规则难以迁移到不同但相似的另一任务中应用，导致规则不具有通用性。

针对现有技术存在的不足，图1为本发明实施例提供的规则生成方法的流程示意图，如图1所示，该方法包括：

步骤101，将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息；任一目标智能体的地理状态信息包括任一目标智能体的当前地理位置坐标、任一目标智能体的队友智能体的当前地理位置坐标和对方智能体的当前地理位置坐标，任一目标智能体的地理行动信息包括任一目标智能体的目标地理位置坐标；

具体地，人工智能领域中，智能体(agent)为具有智能的实体，例如智能无人机、机器人等。在博弈对抗过程中，智能体受到深度强化学习算法的控制。

地理坐标系为通过经度、纬度和高度对地球表面点位引用的坐标系。智能体的当前地理位置坐标为该智能体在地理坐标系下当前时间步的地理位置坐标，可以表示为(x₀,y₀,z₀)，其中，x₀表示经度，单位为度；y₀表示纬度，单位为度；z₀表示高度，单位为米。时间步为博弈对抗过程中的单位时间，例如一个单位时间步可以选择为1秒，博弈对抗数据以时间步为单位产生。

在博弈对抗过程中，目标智能体是指提供博弈对抗数据以进行关联规则挖掘的智能体。强化学习系统可以根据任一目标智能体的目前的地理状态信息，做出相应的应对行为，例如从当前地理位置迅速移动到目标地理位置，以规避可能受到对方智能体的攻击和/或为队友智能体提供支援。该目标智能体的上述行为可以用地理行动信息表示，地理行动信息包括该目标智能体的目标地理位置坐标。

博弈对抗过程原始数据中任一目标智能体状态和行动的表示均是在地理坐标系中表示，与任务区域相关，无法直接用于规则挖掘。具体体现在该目标智能体的地理位置坐标均为地理坐标系下的表示方法，包括经度、纬度和高度三个分量。如果直接将这种表示方法下的状态和行动用于IF[状态X]THEN[行动Y]形式的规则挖掘，则[状态X]和[行动Y]中的位置信息均为当前任务区域下的具体地理坐标值，由此得到的规则对于其他任务区域无法适用，失去了对不同但相似的任务的一般性指导意义。

针对这一问题，本发明实施例中将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以该目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息，因此进行规则挖掘时，[状态X]和[行动Y]中的位置信息均不再包含当前任务区域下的具体地理坐标值，由此得到的规则与任务区域无关，仅与该目标智能体的相对位置有关，对于不同但相似的任务具有一般性指导意义。

下面通过举例来说明。图2为本发明实施例提供的区域攻防多智能体对抗示意图，如图2所示，目标区域为两条经线和两条纬线包络的方形区域，红方参与对抗的智能体为A0和A1，蓝方参与对抗的智能体为B1、B2、B3和B4。蓝方作为进攻方，任务目标为尽可能保证自身安全地穿过目标空域，红方作为防守方，任务目标为守住目标空域防止蓝方穿过。红蓝对抗时间设置为3600时间步。

在某时间步，目标智能体A0的地理位置坐标为(x₀,y₀,z₀)，队友智能体A1的地理位置坐标为(x_a1,y_a1,z_a1)，对方智能体B1、B2、B3和B4的地理位置坐标分别为(x_b1,y_b1,z_b1)、(x_b2,y_b2,z_b2)、(x_b3,y_b3,z_b3)和(x_b4,y_b4,z_b4)。

目标智能体A0的地理状态信息包括该目标智能体的当前地理位置坐标、该目标智能体的队友智能体A1的当前地理位置坐标和对方智能体B1、B2、B3和B4的当前地理位置坐标。目标智能体A0根据当前地理状态信息，机动到目标位置A'0，目标地理位置坐标为(x′₀,y′₀,z′₀)，即目标智能体A0的地理行动信息包括目标地理位置坐标(x′₀,y′₀,z′₀)。

上述博弈对抗数据中目标智能体A0的状态和行动的表示均是在地理坐标系中表示，如果用于IF[状态X]THEN[行动Y]形式的规则挖掘，则[状态X]和[行动Y]中的位置信息均为当前任务区域下的具体地理坐标值，由此得到的规则对于其他任务区域无法适用。需要将目标智能体A0在地理坐标系下的地理状态信息和地理行动信息，转换为以目标智能体A0为原点的相对坐标系下的相对状态信息和相对行动信息，则进行规则挖掘时，[状态X]和[行动Y]中的位置信息将不再包含当前任务区域下的具体地理坐标值。

步骤102，对每一目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则。

具体地，对多个目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则。本发明实施例对目标智能体的数量不做具体限定。

所生成的状态行动关联规则可用于解释智能体的决策逻辑以供改进深度强化学习算法，或者指导智能体执行不同但相似的任务，提高智能体完成任务的效率。

下面以目标智能体A0为例，目标智能体A0在区域攻防中，根据当前相对状态信息，采取了对应的行动，可用相对行动信息表示。在此博弈过程中，控制目标智能体A0的强化学习算法的最终目的是求解一个策略，使得红方的防守效果最大化。求解该策略的过程，就是不断获得一系列的从目标智能体A0的相对状态信息到相对行动信息的映射数据。

从一系列相对状态信息到相对行动信息的映射数据中，挖掘状态和行动之间的一般规律，抽象为具有一定通用性的、以产生式形式表示的状态行动关联规则，即采用IF[状态X]THEN[行动Y]形式描述的规则，表示如果规则执行主体的当前状态匹配[状态X]，则采取[行动Y]。

关联规则挖掘算法可以采用Apriori算法，本发明实施例对关联规则挖掘算法不做具体限定。

例如上述示例中，从200局区域攻防对抗中选出红方全胜的22局，即红方的防守效果最大化。对红方全胜的22局进行数据整理，从红方中任意选取一个智能体作为目标智能体A0，得到关于目标智能体A0的1481条相对状态信息到相对行动信息的映射数据。

将目标智能体A0的1481条相对状态信息到相对行动信息的映射数据作为数据项itemSets，进行关联规则挖掘。关联规则挖掘的评估标准包括支持度和置信度。支持度表示不同项在数据集中共同出现的联合概率，即哪些相对状态信息和相对行动信息往往一起出现。

对于相对状态信息X和相对行动信息Y，其对应的支持度为：

式中，Support(X,Y)为相对状态信息X和相对行动信息Y的支持度函数，P(XY)为相对状态信息X和相对行动信息Y共同出现的联合概率，number(XY)相对状态信息X和相对行动信息Y共同出现的次数，size(itemSets)为数据项的大小。

置信度表示不同项出现的条件概率，即在相对状态信息X下触发相对行动信息Y的概率。

对于相对状态信息X和相对行动信息Y，其对应的置信度为：

式中，Confidence(Y,X)为相对状态信息X和相对行动信息Y的置信度函数，P(Y|X)为在相对状态信息X下触发相对行动信息Y的概率，P(X)为相对状态信息X出现的概率，P(XY)为相对状态信息X和相对行动信息Y共同出现的联合概率。

根据Apriori算法，支持度阈值设置为0.1，置信度阈值设置为0.6，挖掘出多个状态行动关联规则。由于状态行动关联规则中的位置信息均不再包含当前任务区域下的具体地理坐标值，由此得到的规则与任务区域无关，仅与该目标智能体的相对位置有关，对于不同但相似的任务具有一般性指导意义。

本发明实施例提供的规则生成方法，通过将目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息，实现了从博弈对抗过程产生的海量数据中自动生成状态行动关联规则，生成的关联规则具有通用性，相比于人工方式，提高了规则生成的效率和准确性。

基于上述实施例，步骤102中，采用Apriori算法进行关联规则挖掘。

具体地，Apriori算法的流程包括生成频繁项集和生成关联规则两个步骤。

频繁项集的生成算法可以通过如下流程实现：

Input：数据集合D，支持度阈值s

Output：Top-k的频繁项集S

1)遍历整个数据集，得到所有出现过的数据，作为候选频繁k＝1项集；

2)挖掘频繁k项集：

a)遍历数据计算候选k项集的支持度；

b)剪枝去掉候选k项集中支持度低于最小支持度s的数据集，得到频繁k项集。如果频繁k项集为空，则返回频繁k-1项集的集合作为算法结果，算法结束。如果得到的频繁k项集只有一项，则直接返回频繁k项集的集合作为算法结果，算法结束；

c)基于频繁k项集，连接生成候选k+1项集。

3)利用步骤2)，迭代得到k＝k+1项集结果。

生成关联规则的算法可以表示为：

基于上述任一实施例，将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息，具体包括：

将任一目标智能体在地理坐标系下的地理状态信息，转换为以任一目标智能体为原点的相对坐标系下的相对状态信息；相对状态信息包括各其余智能体相对于任一目标智能体的对抗关系和当前相对位置信息；

将任一目标智能体在地理坐标系下的地理行动信息，转换为以任一目标智能体为原点的相对坐标系下的相对行动信息；相对行动信息包括任一目标智能体的目标相对位置信息。

具体地，将任一目标智能体在地理坐标系下的地理状态信息，转换为以该目标智能体为原点的相对坐标系下的相对状态信息。

相应地，该目标智能体的当前地理位置坐标、该目标智能体的队友智能体的当前地理位置坐标和对方智能体的当前地理位置坐标可以转换为各其余智能体相对于该目标智能体的对抗关系和当前相对位置信息。

当前相对位置信息是指在以该目标智能体为原点的相对坐标系下队友智能体和对方智能体的当前位置信息。

将任一目标智能体在地理坐标系下的地理行动信息，转换为以该目标智能体为原点的相对坐标系下的相对行动信息。

相应地，该目标智能体的目标地理位置坐标可以转换为以该目标智能体为原点的相对坐标系下的目标相对位置信息。

目标相对位置信息是指在以该目标智能体为原点的相对坐标系下该目标智能体的目标位置信息。

本发明实施例提供的规则生成方法，通过将目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息，使得生成的关联规则具有通用性。

基于上述任一实施例，相对坐标系下的相对位置信息是以任一目标智能体为原点的相对子区域中的一个；相对子区域是对以任一目标智能体为原点的三维区域进行划分得到的。

具体地，对以任一目标智能体为原点的三维区域进行划分，可以将该三维区域划分为若干个相对子区域。

对于以任一目标智能体为原点的三维区域，可以根据直角坐标系的划分方法，也可以根据球坐标系的划分方法，本发明实施例对三维区域的划分方法不做具体限定。

对于以任一目标智能体为原点的三维区域，可以划分为多个相对子区域，本发明实施例对相对子区域的划分数量不做具体限定。

例如，图3为本发明实施例提供的相对坐标系下子区域示意图，如图3所示，以目标智能体A0为原点的三维区域进行划分得到8个相对子区域，将其分别表示为左-前-上、左-前-下、左-后-上、左-后-下、右-前-上、右-前-下、右-后-上、右-后-下。

在以目标智能体A0为原点的相对坐标系下，各其余智能体的相对位置信息是8个相对子区域中的一个。例如队友智能体A1的相对位置信息为左-前-下，对方智能体B1、B2、B3和B4的相对位置信息均为右-前-上。

本发明实施例提供的规则生成方法，通过对以目标智能体为原点的三维区域进行划分得到相对子区域，使得博弈对抗数据中的位置信息实现了结构化，便于使用关联规则挖掘算法，提高了规则生成的效率和准确性。

基于上述任一实施例，相对子区域具体是以任一目标智能体的运动方向为参照方向，对以任一目标智能体为原点的三维区域进行划分得到的。

具体地，目标智能体A0的速度向量为(v_x,v_y,v_z)，每个分量单位：米/秒。以目标智能体A0为原点，(v_x,0,0)为x轴，(0,v_y,0)为y轴，(0,0,z₀)为z轴，将以目标智能体A0为原点的三维区域划分为8个相对子区域。

本发明实施例提供的规则生成方法，通过以任一目标智能体的运动方向为参照方向，对以该目标智能体为原点的三维区域进行划分，划分后的相对子区域更能表现目标智能体的行动特征，提高了规则生成的准确性。

基于上述任一实施例，将任一目标智能体在地理坐标系下的地理状态信息，转换为以任一目标智能体为原点的相对坐标系下的相对状态信息，具体包括：

基于任一目标智能体的当前地理位置坐标，以及任一其余智能体的当前地理位置坐标，确定任一其余智能体相对于任一目标智能体的差向量；

基于任一目标智能体的速度向量，以及任一其余智能体相对于任一目标智能体的差向量，确定任一其余智能体所属的子区域作为任一其余智能体的当前相对位置信息。

具体地，以队友智能体A1为例，根据目标智能体A0的当前地理位置坐标，以及队友智能体A1的当前地理位置坐标，确定队友智能体A1相对于目标智能体A0的差向量，根据目标智能体A0的速度向量，以及队友智能体A1相对于目标智能体A0的差向量，确定队友智能体A1所属的子区域为左-前-下，将左-前-下作为队友智能体A1的当前相对位置信息。

队友智能体和/或对方智能体地理位置坐标转换为子区域的过程可以通过预处理算法实现，该算法可以表示为：

Input：智能体A₀地理坐标(x₀,y₀,z₀)，速度向量(v_x,v_y,v_z)，其他智能体或机动目标的地理坐标(x_p,y_p,z_p)，单位经度的距离d_lon(单位：米)，单位纬度的距离d_lat(单位：米)

Output：子区域(r_x,r_y,r_z)

运用上述确定方法，继续获得对方智能体B1、B2、B3和B4的当前相对位置信息。对方智能体B1、B2、B3和B4的相对位置信息均为右-前-上。

将目标智能体A0在地理坐标系下的地理状态信息，转换为以目标智能体A0为原点的相对坐标系下的相对状态信息。

转换前，目标智能体A0的地理状态信息包括该目标智能体的当前地理位置坐标(x₀,y₀,z₀)、该目标智能体的队友智能体A1的当前地理位置坐标(x_a1,y_a1,z_a1)，对方智能体B1、B2、B3和B4的当前地理位置坐标(x_b1,y_b1,z_b1)、(x_b2,y_b2,z_b2)、(x_b3,y_b3,z_b3)和(x_b4,y_b4,z_b4)。

转换后，目标智能体A0的相对状态信息包括各其余智能体相对于目标智能体A0的对抗关系和当前相对位置信息，即目标智能体A0的相对状态信息包括位于左-前-下队友智能体A1和位于右-前-上的对方智能体B1、B2、B3和B4。

基于上述任一实施例，将任一目标智能体在地理坐标系下的地理行动信息，转换为以任一目标智能体为原点的相对坐标系下的相对行动信息，具体包括：

基于任一目标智能体的当前地理位置坐标，以及任一目标智能体的目标地理位置坐标，确定任一目标智能体的目标地理位置相对于当前地理位置的差向量；

基于任一目标智能体的速度向量，以及任一目标智能体的目标地理位置相对于当前地理位置的差向量，确定任一目标智能体的目标地理位置所属的子区域作为任一目标智能体的目标相对位置信息。

具体地，根据目标智能体A0的当前地理位置坐标，以及目标智能体A0的目标地理位置坐标，确定目标智能体A0的目标地理位置A'0相对于当前地理位置的差向量，根据目标智能体A0的速度向量，以及目标智能体A0的目标地理位置A'0相对于当前地理位置的差向量，确定目标智能体A0目标地理位置A'0所属的子区域为左-前-上，将左-前-上作为目标智能体A0的目标相对位置信息。

目标智能体的目标地理位置坐标转换为子区域的过程可以通过上述预处理算法实现，在此不再赘述。

将目标智能体A0在地理坐标系下的地理行动信息，转换为以目标智能体A0为原点的相对坐标系下的相对行动信息。

转换前，目标智能体A0的地理行动信息包括目标智能体A0的目标地理位置坐标(x′₀,y′₀,z′₀)，即A'0的地理位置坐标。

转换后，目标智能体A0的相对行动信息包括目标智能体A0的目标相对位置信息，即目标位置A'0的子区域为左-前-上。

基于上述任一实施例，相对状态信息表示为包括各其余智能体相对于任一目标智能体的对抗关系和当前相对位置信息的状态三元组；相对行动信息表示为包括任一目标智能体的目标相对位置信息的行动二元组。

具体地，目标智能体A0的相对状态信息包括各其余智能体相对于目标智能体A0的对抗关系和当前相对位置信息，即目标智能体A0的相对状态信息包括位于左-前-下队友智能体A1和位于右-前-上的对方智能体B1、B2、B3和B4。

状态三元组<对抗关系,数量,当前相对位置信息>可以被用来表示目标智能体A0的相对状态信息，行动二元组<行动类别,目标相对位置信息>可以被用来表示目标智能体A0的相对行动信息。

目标智能体A0的状态三元组为{<队友，1，左-前-下>，<对方，4，右-前-上>}，行动二元组为<移动,左-前-上>。

本发明实施例提供的规则生成方法，通过状态三元组和行动二元组分别表示目标智能体的相对状态信息和相对行动信息，使得博弈对抗数据实现了结构化，便于使用关联规则挖掘算法，提高了规则生成的效率和准确性。

基于上述任一实施例，图4为本发明实施例提供的规则生成装置的结构示意图，如图4所示，该装置包括：

坐标转换单元401，用于将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息；任一目标智能体的地理状态信息包括任一目标智能体的当前地理位置坐标、任一目标智能体的队友智能体的当前地理位置坐标和对方智能体的当前地理位置坐标，任一目标智能体的地理行动信息包括任一目标智能体的目标地理位置坐标；

规则生成单元402，用于对每一目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则。

具体地，博弈对抗过程原始数据中任一目标智能体状态和行动的表示均是在地理坐标系中表示，与任务区域相关，无法直接用于规则挖掘。具体体现在该目标智能体的地理位置坐标均为地理坐标系下的表示方法，包括经度、纬度和高度三个分量。如果直接将这种表示方法下的状态和行动用于IF[状态X]THEN[行动Y]形式的规则挖掘，则[状态X]和[行动Y]中的位置信息均为当前任务区域下的具体地理坐标值，由此得到的规则对于其他任务区域无法适用，失去了对不同但相似的任务的一般性指导意义。

坐标转换单元401用于将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以该目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息，则进行规则挖掘时，[状态X]和[行动Y]中的位置信息均不再包含当前任务区域下的具体地理坐标值，由此得到的规则与任务区域无关，仅与该目标智能体的相对位置有关，对于不同但相似的任务具有一般性指导意义。

规则生成单元402用于对多个目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则。

本发明实施例提供的规则生成装置，通过将目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息，实现了从博弈对抗过程产生的海量数据中自动生成状态行动关联规则，生成的关联规则具有通用性，相比于人工方式，提高了规则生成的效率和准确性。

基于上述任一实施例，坐标转换单元401具体包括：

状态转换子单元，用于将任一目标智能体在地理坐标系下的地理状态信息，转换为以任一目标智能体为原点的相对坐标系下的相对状态信息；相对状态信息包括各其余智能体相对于任一目标智能体的对抗关系和当前相对位置信息；

行动转换子单元，用于将任一目标智能体在地理坐标系下的地理行动信息，转换为以任一目标智能体为原点的相对坐标系下的相对行动信息；相对行动信息包括任一目标智能体的目标相对位置信息。

基于上述任一实施例，状态转换子单元具体用于：

基于上述任一实施例，行动转换子单元具体用于：

基于上述任一实施例，图5为本发明实施例提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(CommunicationsInterface)504、存储器(memory)502和通信总线503，其中，处理器501，通信接口504，存储器502通过通信总线503完成相互间的通信。处理器501可以调用存储器502中的逻辑指令，以执行如下方法：

将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息；任一目标智能体的地理状态信息包括任一目标智能体的当前地理位置坐标、任一目标智能体的队友智能体的当前地理位置坐标和对方智能体的当前地理位置坐标，任一目标智能体的地理行动信息包括任一目标智能体的目标地理位置坐标；对每一目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则。

此外，上述的存储器502中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时上述各实施例提供的方法，例如包括：将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息；任一目标智能体的地理状态信息包括任一目标智能体的当前地理位置坐标、任一目标智能体的队友智能体的当前地理位置坐标和对方智能体的当前地理位置坐标，任一目标智能体的地理行动信息包括任一目标智能体的目标地理位置坐标；对每一目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种规则生成方法，其特征在于，包括：

对每一目标智能体的相对状态信息和相对行动信息进行关联规则挖掘，生成状态行动关联规则；

所述将任一目标智能体在地理坐标系下的地理状态信息和地理行动信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对状态信息和相对行动信息，具体包括：

2.根据权利要求1所述的规则生成方法，其特征在于，所述相对坐标系下的相对位置信息是以所述任一目标智能体为原点的相对子区域中的一个；所述相对子区域是对以所述任一目标智能体为原点的三维区域进行划分得到的。

3.根据权利要求2所述的规则生成方法，其特征在于，所述相对子区域具体是以所述任一目标智能体的运动方向为参照方向，对以所述任一目标智能体为原点的三维区域进行划分得到的。

4.根据权利要求3所述的规则生成方法，其特征在于，所述将任一目标智能体在地理坐标系下的地理状态信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对状态信息，具体包括：

5.根据权利要求3所述的规则生成方法，其特征在于，所述将任一目标智能体在地理坐标系下的地理行动信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对行动信息，具体包括：

6.根据权利要求2至5任一项所述的规则生成方法，其特征在于，所述相对状态信息表示为包括各其余智能体相对于所述任一目标智能体的对抗关系和当前相对位置信息的状态三元组；所述相对行动信息表示为包括所述任一目标智能体的目标相对位置信息的行动二元组。

7.一种规则生成装置，其特征在于，包括：

将任一目标智能体在地理坐标系下的地理行动信息，转换为以所述任一目标智能体为原点的相对坐标系下的相对行动信息；所述相对行动信息包括所述任一目标智能体的目标相对位置信息；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的规则生成方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6中任一项所述的规则生成方法的步骤。