CN112365048A

CN112365048A - 一种基于对手行为预测的无人车侦察方法

Info

Publication number: CN112365048A
Application number: CN202011243637.5A
Authority: CN
Inventors: 李若南; 候亚庆; 葛宏伟; 张强; 魏小鹏
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-12
Anticipated expiration: 2040-11-09
Also published as: CN112365048B

Abstract

本发明属于人工智能领域，更具体地，涉及一种基于对手行为预测的无人车侦察方法，用以实现无人车集群在复杂环境中的侦察能够更智能地应对各种事件的发生，解决复杂环境中无人车侦察时，在遇到对手的情况下通过预测模型预测对手行为从而躲避抓捕的问题。本发明通过流算法和多臂赌博机算法为无人车在众多的对手候选模型中挑选最适应当前状况的对手候选模型，利用所选择的对手候选模型进行对手行为预测；同时该算法考虑到内存的限制，在任何时刻只处理候选模型集合的一小部分，实时动态地选择候选模型子集。

Description

一种基于对手行为预测的无人车侦察方法

技术领域

本发明属于人工智能领域，更具体地，涉及一种基于对手行为预测的无人车侦察方法。

背景技术

随着科学技术的发展，无人车的技术越来越成熟，已经成功的用于农业，工业以及军事等多个行业。尤其在军事应用中，将无人车分为侦察机和靶机去完成更加困难和复杂的任务，这就需要无人车能够在复杂的环境中更智能的应对一些突发事件。比如在侦察中突然遇到对手，要有一定的应对措施可以躲避对手的抓捕。

随着人工智能的高速发展，智能体系统作为人工智能的主要研究领域之一。其中，促进智能体的自主性和智能性越来越受到广泛的关注。这种智能性的一个重要体现就是对其他智能体进行推理的能力。比如：其他人的行为、目标。了解对手可能采取的行动会影响智能体的期望分布，从而影响智能体对未来行为的规划。具有不同目标的其他智能体的预测行为通常被称为对手预测模型，如果它能够识别出对手智能体的潜在模式或弱点，那么这个模型在智能体交互或者对抗中就会起到重要的作用。通常，对手模型将观察到的交互历史作为输入，并返回对手智能体未来动作的预测。相关的工作主要是通过策略重构来从头开始学习对手模型，策略重构通过重构智能体的决策来对智能体的行为做出明确的预测。然而，这个过程可能需要很长的一段时间，因为有许多情况中需要在生成有用的模型之前，进行预测的活动。在智能体既没时间也没机会搜集足够的观测数据的情况下，这往往会带来一些问题。基于类型(或基于模型)的方法推断对手可能具有的模型。每一种类型都是一个完整的智能体行为规范，将观察到的交互历史作为输入，并为对手可能采取的行动分配概率。类型可以用不同的方式表示，如决策树、图、人工神经网络等。现有的研究通常认为，类型的规范是事先知道的。在缺乏先验知识的情况下，常常需要建立大量的模型来研究竞争对手的实际行为分布。然而，用所有可能的候选类型来预测实际的操作行为是困难和耗时的。

发明内容

针对上述问题，本发明提供一种基于对手行为预测的无人车侦察方法，用以实现无人车集群在复杂环境中的侦察能够更智能地应对各种事件的发生，解决复杂环境中无人车侦察时，在遇到对手的情况下通过预测模型预测对手行为从而躲避抓捕的问题，主要的内容是通过流算法和多臂赌博机算法为无人车在众多的对手候选模型中挑选最适应当前状况的对手候选模型，利用所选择的对手候选模型进行对手行为预测；同时该算法考虑到内存的限制，在任何时刻只处理候选模型集合的一小部分，实时动态地选择候选模型子集。

本发明解决其技术问题所采的技术方案是：

一种基于对手行为预测的无人车侦察方法，包括收集对手数据、构建并训练对手的预测候选模型、使用Top-K流选择算法选择候选模型集合M中的子集M^K(集合M中元素的个数|M|>0)、在侦察时使用多臂赌博机算法选择对手预测模型，以及使用选择出的对手预测模型预测对手的行为，具体如下：

步骤1、收集对手数据。

将无人车在历史的侦察任务中与对手交互的过程中所获得对手数据以三元组<S,A,R>的形式存储，其中，S代表无人车所遇到的环境状态，A代表无人车在该环境状态下作出的行为，R代表无人车作出行为之后环境给出的奖励值。

步骤2、构建并训练对手的预测候选模型。

(2.1)构建的候选模型使用的模型结构是一个名为FALCON的三通道网络结构。该网络结构如图1所示，分为上下两层：F₁层和F₂层。其中F₁层为输入层，分为三个域，分别是状态域S，行为域A和奖励域R，这三个域分别对应于收集对手数据中的三元组；F₂层存放的是不同的节点，每个节点中存放是三个输入域中的映射关系。一个节点的生成与FALCON中的参数有关，分别是选择参数

学习参数

贡献参数

以及警戒参数

警戒参数的取值范围是[0,1](c_i中i的取值为1，2，3分别对应输入层中的三个域)。

(2.2)使用步骤(2.1)中的FALCON网络结构构建对手预测候选模型。FALCON中的警戒参数

越大，生成F₂层节点的约束条件就越严格，即不同的警戒参数生成的节点中表示的输入域映射关系是不同的。因此采用不同的警戒参数作为不同的模型类型，构建|M|(|M|>0)个对手预测候选模型组成候选模型集合M。

(2.3)使用步骤1中收集到的对手数据训练步骤(2.2)中构建好的候选模型架构，每个训练后的模型都可以看作是一个类型。

步骤3、使用Top-K流选择算法选择候选模型集合M的子集M^K。

Top-K选择算法的目的是从一个集合M中找到一个大小为K(K＝|M^K|)的子集，该子集中的元素符合所要求的元素特征。Top-K流选择算法就是通过实时动态的每次只访问集合M中的一小部分元素从而选择出一个大小为K(K＝|M^K|)的子集。本发明中所使用的Top-K算法具体步骤如下：

(3.1)以流的方式实时输入步骤2构建的候选模型。构建的候选模型集合M中的模型按序输入到模型选择函数F(M^K)中。

(3.2)模型选择函数F(M^K)对于每一个按序输入的候选模型进行判断，决定该候选模型是否可以加入到子集M^K中；F(M^K)的形式如下：

其中，模型选择函数F(M^K)是Top-K流选择算法中用来选择候选模型的函数。m′表示的是对手候选模型集合M中实时输入到模型选择函数F(M^K)中的模型。当模型候选子集M^K中模型的个数少于K时，m′就直接加入候选模型子集中。m^e表示的是已经存在子集M^K中对手候选模型，当模型候选子集M^K中模型的个数等于K时，需要使用新输入进来的模型m′尝试替换的对手候选模型子集中已存在的模型m^e。若发生替换时最终选择函数计算的结果比未发生替换的结果大，则替换，反之则不替换。M^K是最终选择的候选模型的子集。K表示的是候选模型子集M^K的大小。

(3.3)步骤(3.2)中提到的替换的具体计算公式如下：

其中，M^K是对手预测候选模型集合M的一个子集，K是对手预测候选模型子集中模型的数量，I是单位矩阵，δ^-2是该公式设置的一个超参数。

函数定义的是模型之间的相似性，如公式(3)所示：

其中，k(mⁱ,m^j)为核函数，如公式(4)所示：

k(mⁱ,m^j)表示的是对手预测候选模型子集M^K中模型mⁱ和模型m^j的相似程度。i和j分别表示的是候选模型集合中第i个模型和第j个模型。

表示的是模型mⁱ在t时刻状态下选择的行为。A表示的是无人车可选行为的集合。|A|表示的是无人车可选行为的个数。T表示的是该模型在一系列状态下做出的一系列行为个数的总和。

步骤4、在侦察时使用多臂赌博机算法选择对手预测模型。

在所述步骤3选择出的候选模型子集M^K中，使用多臂赌博机算法计算候选模型子集中每个模型被选择的概率，选择最高概率所对应的候选模型在侦查的过程中进行对手行为的预测。具体步骤如下：

所述的模型被选择的概率公式如下：

其中，

表示的是编号为h的对手预测模型被选择进行对手预测的概率；τ是衡量利用和探索的参数。Q_h表示的是编号为的对手预测模型得到的平均奖励，计算方法如公式(6)所示：

count_h记录的是候选模型子集M^K中第h个模型被选中进行预测的次数；φ(h)记录的是对手行为预测模型的即时奖励。

多臂赌博机算法中的即时奖励φ(h)的设置如下：

其中当选择的对手预测候选模型预测成功时会获得一个值为1的即时奖励，预测失败时会收到一个值为-1的即时奖励。

步骤5、使用选择出的对手预测模型预测对手的行为。

无人车根据步骤4中选择出的对手预测模型预测对手行为，剔除掉自己可能被抓的行为，选择一个价值最高的行为进行交互。通过使用强化学习中计算状态行为对的价值公式计算无人车可选行为的价值。计算状态行为对的价值过程如公式(8)所示。最终无人车会选择价值最高的行为去执行。

Q(s,a)＝Q(s,a)+α[R+γmax_a’Q(s′,a′)-Q(s,a)](8)

Q(s,a)表示的是在状态s的情况下选择行为a所能得到的价值，α表示学习率，R表示即时奖励，γ表示衰变系数，s′表示的是状态s的下一个状态，Q(s′,a′)表示的是下一个状态下选择行为a′所获得的价值，该价值是过去历史中在该状态下选择行为所获得的状态行为对的最高值。

本发明的有益效果如下：

本发明提供的基于对手行为预测的无人车侦察的方法，可用于在复杂多变的侦察环境下应对对手的追捕；本发明设计了一种核函数来计算候选模型的相似程度，提出一种基于流算法的候选模型选择方法，有效地从所有的模型中提取出具有覆盖性和多样性的候选模型子集，然后使用多臂赌博机算法自适应地识别出最可信的模型，并将选择出的模型用于实时预测对手的行为；与传统求解子集要求完全访问所有数据的方法不同，本发明采用的是一种称为流模式的选择子集的方法，实时的选择添加子集候选模型而不必每次都要访问所有的候选模型，从而大大减小了时间和空间复杂度。

附图说明

图1是本发明实施例中基于对手行为预测的无人车侦察的方法的流程图。

图2是本发明实施例中模型选择示例图。

图3是本发明实施例中构建模型所采用的FALCON网络结构。

具体实施方式

在无人车侦察的过程中，需要预测对手的行为躲避对手的抓捕。本发明通过对无人车遇到的对手构建候选模型，然后使用候选模型对对手进行行为预测，无人车根据预测的对手行为选择合适的躲避行为。

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明的实施例基于强化学习知识以及相关子集求解的数学知识理论提出的一种无人车侦察方法。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为方便说明，先对本实施例中引入的符号作统一的如下表的说明：

表1符号对照表

符号名	符号含义	初始数值
			FALCON	一种记忆网络框架
α<sup>ck</sup>(k＝1,2,3)	FALCON中的选择参数	(0.1，0.1，0.1)
			β<sup>ck</sup>(k＝1,2,3)	FALCON中的学习率	(1.0，1.0，1.0)
γ<sup>ck</sup>(k＝1,2,3)	FALCON中的贡献率参数	(0.5，0.5，0.0)
			ρ<sup>ck</sup>(k＝1,2,3)	FALCON中的警戒参数	(0.2，0.2，0.5)
TD	强化学习中的时序差分法
			α	TD中的学习率	0.5
γ	TD中的折扣因子	0.1
			Q	状态行为对的价值	0.5
τ	平衡探索与利用的参数	0.05
			S	侦察环境中的状态
A	无人车行为空间集合
			R	无人车做出行为后得到的奖励

表1中的经验值的具体取值，是本实施例提供的优选取值的示例。

图1是本发明实施例提供的基于对手行为预测的无人车侦察方法的流程图。

下面结合一个应用实例对本发明的方法进一步说明：

在本实施例中，所有的无人车对手预测候选模型均使用FALCON框架，它的参数取值如表1所示，FALCON网络结构如图所示。

步骤1、在训练阶段，首先收集对手的历史数据，历史数据以三元组<S,A,R>的方式存储。该历史数据从以前侦察过程中获得的，用来训练以FALCON为框架构建的无人车对手候选模型。

具体来说，在构建的无人车候选模型中，每个模型中的选择参数

学习率参数

以及贡献率参数

设置如表1所示，为了构建不同的无人车对手候选模型，设置多组不同数值的警戒线参数

每个参数的范围是0到1。使用收集到的历史数据对构建的不同参数的候选模型进行训练，得到候选模型集合M。在本实施例中构建的候选模型集合M的大小为99。

步骤2、对于构建的无人车候选模型集合M使用Top-K流选择算法，基于覆盖性和多样性原则选择无人车候选模型子集M^K。

具体实施方式是将步骤1中得到的集合M中的模型逐个输入到Top-K流算法中进行模型的选择，选择的过程如图2所示。当候选模型子集M^K中的模型数量|M^K|小于K时，就将输入的候选模型直接加入到M^K中，当|M^K|等于K时，对以后逐个输入的候选模型m′，使用m′逐一替换M^K中的每个模型m^e，形成新的子集，对原有的子集以及替换后的子集使用Top-K流算法中的候选模型选择函数计算得到子集的结果。候选模型选择函数F(M^K)公式如下：

M^K是替换前后所得到M的子集，在该实施例中，构建了99种类型的候选模型即|M|＝99。K是候选模型子集中模型的数量，取值是9。I为单位矩阵，δ^-2是该公式的一个参数，设置为10⁸。

函数定义的是得到的子集中模型间的相似性，如公式(10)所示：

其中的k(mⁱ,m^j)为核函数，具体计算如下：

k(mⁱ,m^j)表示的是无人车候选模型子集中的mⁱ和m^j的相似程度。i和j分别表示的是候选模型子集中第i个模型和第j个模型。

表示的是模型mⁱ在t时刻状态下选择的前进方向。|A|表示的是无人车可选前进方向的个数，在本实施例中|A|＝8，八个方向使用0到7表示。分别对应东，东北，北，西北，西，西南，南和东南方向。T表示的是该候选模型在一系列状态下做出的一系列方向选择的总和。

当所有构建的候选模型经过Top-K流选择算法中的选择函数选择之后，会获得一个大小为K的无人车对手候选模型子集，该子集中的候选模型数量K(K＝9)远远小于构建的候选模型的数量|M|(|M|＝99)。

步骤3、在获得数量为K的候选模型子集之后，无人车在侦察的过程中就可以使用多臂赌博机算法对候选模型子集进行选择，并将其用于预测对手行为来躲避对手的追捕。具体来说，当无人车在侦察的过程中观察到对手时，就考虑躲避对手的追捕。此时，无人车根据多臂赌博机算法从步骤2中得到的子集中选择出一个模型，使用该模型进行对手行为预测。具体的选择过程如下：

首先根据公式(12)计算候选模型子集中的每个对手候选模型被选中的概率。

表示的步骤2得到的无人车候选模型子集中第h个模型被选中的概率。τ是衡量利用和探索的参数，取值为0.5。Q_h表示的是编号为h的对手预测模型得到的奖励。其计算的方法如公式(13)所示。

count_h记录的是当前的对手候选模型被选中进行预测的次数。φ(h)记录的是对手行为预测模型的即时奖励。该即时奖励具体为若预测正确成功的躲避了对手的抓捕，就会获得+1的奖励，若预测失败则会受到-1的惩罚。

经过多臂赌博机算法选择对手预测模型之后就将获得的状态信息s作为对手模型的输入。输出的是对手在这样的状态下可能做出行为，无人车根据对手模型预测的行为剔除掉可能被抓的行为a，依据强化学习中的计算状态行为对的方法计算每个状态行为对的价值，计算公式如(14)所示。

Q(s,a)＝Q(s,a)+α[R+γmax_a‘Q(s′,a′)-Q(s,a)] (14)

Q(s,a)表示的是无人车在当前环境下获得的环境状态s的情况下选择前进方向a所能得到的价值，α表示学习率，R表示即时奖励，γ表示衰变系数。s′表示的是状态s的下一个状态，Q(s′,a′)表示的是下一个状态下选择前进行方向a′所获得的价值，该价值是过去历史中在该状态下所获得的最高值。在与对手交互中，无人车选择一个价值最高的行为a躲避抓捕。

Claims

1.一种基于对手行为预测的无人车侦察方法，其特征在于，所述的基于对手行为预测的无人车侦察方法包括收集对手数据、构建并训练对手的预测候选模型、使用Top-K流选择算法选择候选模型集合M的子集M^K、在侦察时使用多臂赌博机算法选择对手预测模型，以及使用选择出的对手预测模型预测对手的行为；具体如下：

步骤1、收集对手数据

将无人车在以前的侦察任务中与对手交互的过程中所获得对手数据以三元组<S,A,R>的形式存储，其中，S代表无人车所遇到的环境状态，A代表无人车在该环境状态下作出的行为，R代表无人车作出行为之后环境给出的奖励值；

步骤2、构建并训练对手的预测候选模型

(2.1)构建的候选模型使用的模型结构是一个名为FALCON的三通道网络结构，分为上下两层：F₁层和F₂层；其中F₁层为输入层，分为三个域，分别是状态域S，行为域A和奖励域R，这三个域分别对应于收集对手数据中的三元组；F₂层存放的是不同的节点，每个节点中存放是三个输入域中的映射关系；一个节点的生成与FALCON中的参数有关，分别是选择参数

学习参数

贡献参数

以及警戒参数

警戒参数的取值范围是[0,1](c_i中i的取值为1，2，3分别对应输入层中的三个域)；

(2.2)使用步骤(2.1)中的FALCON网络结构构建对手预测候选模型；FALCON中的警戒参数

越大，生成F₂层节点的约束条件就越严格，即不同的警戒参数生成的节点中表示的输入域映射关系是不同的；因此采用不同的警戒参数作为不同的模型类型，构建|M|个对手预测候选模型组成候选模型集合M；

(2.3)使用步骤1中收集到的对手数据训练步骤(2.2)中构建好的候选模型架构，每个训练后的模型看作是一个类型；

步骤3、使用Top-K流选择算法选择候选模型集合M的子集M^K

(3.1)以流的方式实时输入步骤2构建的候选模型；构建的候选模型集合M中的模型按序输入到模型选择函数F(M^K)中；

其中，模型选择函数F(M^K)是Top-K流选择算法中用来选择候选模型的函数；m′表示的是对手候选模型集合M中实时输入到模型选择函数F(M^K)中的模型；当模型候选子集M^K中模型的个数少于K时，m′直接加入候选模型子集中；m^e表示的是已经存在子集M^K中对手候选模型，当模型候选子集M^K中模型的个数等于K时，需要使用新输入进来的模型m′尝试替换的对手候选模型子集中已存在的模型m^e；若发生替换时最终选择函数计算的结果比未发生替换的结果大，则替换，反之则不替换；M^K是最终选择的候选模型的子集；K表示的是候选模型子集M^K的大小；

(3.3)步骤(3.2)中提到的替换的具体计算公式如下：

其中，M^K是对手预测候选模型集合M的一个子集，K是对手预测候选模型子集中模型的数量，I是单位矩阵，δ^-2是该公式设置的一个超参数；

函数定义的是模型之间的相似性，如公式(3)所示：

其中，k(mⁱ,m^j)为核函数，如公式(4)所示：

k(mⁱ,m^j)表示的是对手预测候选模型子集M^K中模型mⁱ和模型m^j的相似程度；i和j分别表示的是候选模型集合中第i个模型和第j个模型；使用的公式(4)中的核函数来计算；

表示的是模型mⁱ在t时刻状态下选择的行为；A表示的是无人车可选行为的集合；|A|表示的是无人车可选行为的个数；T表示的是该模型在一系列状态下做出的一系列行为个数的总和；

步骤4、在侦察时使用多臂赌博机算法选择对手预测模型

在步骤3选择出的候选模型子集M^K中，使用多臂赌博机算法计算候选模型子集中每个模型被选择的概率，选择最高概率所对应的候选模型在侦查的过程中进行对手行为的预测；具体步骤如下：

所述的模型被选择的概率公式如下：

其中，

表示的是编号为h的对手预测模型被选择进行对手预测的概率；τ是衡量利用和探索的参数；Q_h表示的是编号为的对手预测模型得到的平均奖励，计算方法如公式(6)所示：

count_h记录的是候选模型子集M^K中第h个模型被选中进行预测的次数；φ(h)记录的是对手行为预测模型的即时奖励；

多臂赌博机算法中的即时奖励φ(h)的设置如下：

其中当选择的对手预测候选模型预测成功时会获得一个值为1的即时奖励，预测失败时会收到一个值为-1的即时奖励；

步骤5、使用选择出的对手预测模型预测对手的行为

无人车根据步骤4中选择出的对手预测模型预测对手行为，剔除掉自己可能被抓的行为，选择一个价值最高的行为进行交互；通过使用强化学习中计算状态行为对的价值公式计算无人车可选行为的价值；计算状态行为对的价值过程如公式(8)所示；最终无人车会选择价值最高的行为去执行；

Q(s,a)＝Q(s,a)+α[R+γmax_a’Q(s′,a′)-Q(s,a)](8)

Q(s,a)表示的是在状态s的情况下选择行为a所能得到的价值，α表示学习率，R表示即时奖励，γ表示衰变系数，s′表示的是状态s的下一个状态；Q(s′,a′)表示的是下一个状态下选择行为a′所获得的价值，是过去历史中在该状态下选择行为所获得的状态行为对的最高值。