CN112365048A - 一种基于对手行为预测的无人车侦察方法 - Google Patents

一种基于对手行为预测的无人车侦察方法 Download PDF

Info

Publication number
CN112365048A
CN112365048A CN202011243637.5A CN202011243637A CN112365048A CN 112365048 A CN112365048 A CN 112365048A CN 202011243637 A CN202011243637 A CN 202011243637A CN 112365048 A CN112365048 A CN 112365048A
Authority
CN
China
Prior art keywords
model
opponent
candidate
behavior
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011243637.5A
Other languages
English (en)
Other versions
CN112365048B (zh
Inventor
李若南
候亚庆
葛宏伟
张强
魏小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202011243637.5A priority Critical patent/CN112365048B/zh
Publication of CN112365048A publication Critical patent/CN112365048A/zh
Application granted granted Critical
Publication of CN112365048B publication Critical patent/CN112365048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于人工智能领域,更具体地,涉及一种基于对手行为预测的无人车侦察方法,用以实现无人车集群在复杂环境中的侦察能够更智能地应对各种事件的发生,解决复杂环境中无人车侦察时,在遇到对手的情况下通过预测模型预测对手行为从而躲避抓捕的问题。本发明通过流算法和多臂赌博机算法为无人车在众多的对手候选模型中挑选最适应当前状况的对手候选模型,利用所选择的对手候选模型进行对手行为预测;同时该算法考虑到内存的限制,在任何时刻只处理候选模型集合的一小部分,实时动态地选择候选模型子集。

Description

一种基于对手行为预测的无人车侦察方法
技术领域
本发明属于人工智能领域,更具体地,涉及一种基于对手行为预测的无人车侦察方法。
背景技术
随着科学技术的发展,无人车的技术越来越成熟,已经成功的用于农业,工业以及军事等多个行业。尤其在军事应用中,将无人车分为侦察机和靶机去完成更加困难和复杂的任务,这就需要无人车能够在复杂的环境中更智能的应对一些突发事件。比如在侦察中突然遇到对手,要有一定的应对措施可以躲避对手的抓捕。
随着人工智能的高速发展,智能体系统作为人工智能的主要研究领域之一。其中,促进智能体的自主性和智能性越来越受到广泛的关注。这种智能性的一个重要体现就是对其他智能体进行推理的能力。比如:其他人的行为、目标。了解对手可能采取的行动会影响智能体的期望分布,从而影响智能体对未来行为的规划。具有不同目标的其他智能体的预测行为通常被称为对手预测模型,如果它能够识别出对手智能体的潜在模式或弱点,那么这个模型在智能体交互或者对抗中就会起到重要的作用。通常,对手模型将观察到的交互历史作为输入,并返回对手智能体未来动作的预测。相关的工作主要是通过策略重构来从头开始学习对手模型,策略重构通过重构智能体的决策来对智能体的行为做出明确的预测。然而,这个过程可能需要很长的一段时间,因为有许多情况中需要在生成有用的模型之前,进行预测的活动。在智能体既没时间也没机会搜集足够的观测数据的情况下,这往往会带来一些问题。基于类型(或基于模型)的方法推断对手可能具有的模型。每一种类型都是一个完整的智能体行为规范,将观察到的交互历史作为输入,并为对手可能采取的行动分配概率。类型可以用不同的方式表示,如决策树、图、人工神经网络等。现有的研究通常认为,类型的规范是事先知道的。在缺乏先验知识的情况下,常常需要建立大量的模型来研究竞争对手的实际行为分布。然而,用所有可能的候选类型来预测实际的操作行为是困难和耗时的。
发明内容
针对上述问题,本发明提供一种基于对手行为预测的无人车侦察方法,用以实现无人车集群在复杂环境中的侦察能够更智能地应对各种事件的发生,解决复杂环境中无人车侦察时,在遇到对手的情况下通过预测模型预测对手行为从而躲避抓捕的问题,主要的内容是通过流算法和多臂赌博机算法为无人车在众多的对手候选模型中挑选最适应当前状况的对手候选模型,利用所选择的对手候选模型进行对手行为预测;同时该算法考虑到内存的限制,在任何时刻只处理候选模型集合的一小部分,实时动态地选择候选模型子集。
本发明解决其技术问题所采的技术方案是:
一种基于对手行为预测的无人车侦察方法,包括收集对手数据、构建并训练对手的预测候选模型、使用Top-K流选择算法选择候选模型集合M中的子集MK(集合M中元素的个数|M|>0)、在侦察时使用多臂赌博机算法选择对手预测模型,以及使用选择出的对手预测模型预测对手的行为,具体如下:
步骤1、收集对手数据。
将无人车在历史的侦察任务中与对手交互的过程中所获得对手数据以三元组<S,A,R>的形式存储,其中,S代表无人车所遇到的环境状态,A代表无人车在该环境状态下作出的行为,R代表无人车作出行为之后环境给出的奖励值。
步骤2、构建并训练对手的预测候选模型。
(2.1)构建的候选模型使用的模型结构是一个名为FALCON的三通道网络结构。该网络结构如图1所示,分为上下两层:F1层和F2层。其中F1层为输入层,分为三个域,分别是状态域S,行为域A和奖励域R,这三个域分别对应于收集对手数据中的三元组;F2层存放的是不同的节点,每个节点中存放是三个输入域中的映射关系。一个节点的生成与FALCON中的参数有关,分别是选择参数
Figure BDA0002769187320000031
学习参数
Figure BDA0002769187320000032
贡献参数
Figure BDA0002769187320000033
以及警戒参数
Figure BDA0002769187320000034
警戒参数的取值范围是[0,1](ci中i的取值为1,2,3分别对应输入层中的三个域)。
(2.2)使用步骤(2.1)中的FALCON网络结构构建对手预测候选模型。FALCON中的警戒参数
Figure BDA0002769187320000035
越大,生成F2层节点的约束条件就越严格,即不同的警戒参数生成的节点中表示的输入域映射关系是不同的。因此采用不同的警戒参数作为不同的模型类型,构建|M|(|M|>0)个对手预测候选模型组成候选模型集合M。
(2.3)使用步骤1中收集到的对手数据训练步骤(2.2)中构建好的候选模型架构,每个训练后的模型都可以看作是一个类型。
步骤3、使用Top-K流选择算法选择候选模型集合M的子集MK
Top-K选择算法的目的是从一个集合M中找到一个大小为K(K=|MK|)的子集,该子集中的元素符合所要求的元素特征。Top-K流选择算法就是通过实时动态的每次只访问集合M中的一小部分元素从而选择出一个大小为K(K=|MK|)的子集。本发明中所使用的Top-K算法具体步骤如下:
(3.1)以流的方式实时输入步骤2构建的候选模型。构建的候选模型集合M中的模型按序输入到模型选择函数F(MK)中。
(3.2)模型选择函数F(MK)对于每一个按序输入的候选模型进行判断,决定该候选模型是否可以加入到子集MK中;F(MK)的形式如下:
Figure BDA0002769187320000041
其中,模型选择函数F(MK)是Top-K流选择算法中用来选择候选模型的函数。m′表示的是对手候选模型集合M中实时输入到模型选择函数F(MK)中的模型。当模型候选子集MK中模型的个数少于K时,m′就直接加入候选模型子集中。me表示的是已经存在子集MK中对手候选模型,当模型候选子集MK中模型的个数等于K时,需要使用新输入进来的模型m′尝试替换的对手候选模型子集中已存在的模型me。若发生替换时最终选择函数计算的结果比未发生替换的结果大,则替换,反之则不替换。MK是最终选择的候选模型的子集。K表示的是候选模型子集MK的大小。
(3.3)步骤(3.2)中提到的替换的具体计算公式如下:
Figure BDA0002769187320000042
其中,MK是对手预测候选模型集合M的一个子集,K是对手预测候选模型子集中模型的数量,I是单位矩阵,δ-2是该公式设置的一个超参数。
Figure BDA0002769187320000045
函数定义的是模型之间的相似性,如公式(3)所示:
Figure BDA0002769187320000043
其中,k(mi,mj)为核函数,如公式(4)所示:
Figure BDA0002769187320000044
k(mi,mj)表示的是对手预测候选模型子集MK中模型mi和模型mj的相似程度。i和j分别表示的是候选模型集合中第i个模型和第j个模型。
Figure BDA0002769187320000046
表示的是模型mi在t时刻状态下选择的行为。A表示的是无人车可选行为的集合。|A|表示的是无人车可选行为的个数。T表示的是该模型在一系列状态下做出的一系列行为个数的总和。
步骤4、在侦察时使用多臂赌博机算法选择对手预测模型。
在所述步骤3选择出的候选模型子集MK中,使用多臂赌博机算法计算候选模型子集中每个模型被选择的概率,选择最高概率所对应的候选模型在侦查的过程中进行对手行为的预测。具体步骤如下:
所述的模型被选择的概率公式如下:
Figure BDA0002769187320000051
其中,
Figure BDA0002769187320000052
表示的是编号为h的对手预测模型被选择进行对手预测的概率;τ是衡量利用和探索的参数。Qh表示的是编号为的对手预测模型得到的平均奖励,计算方法如公式(6)所示:
Figure BDA0002769187320000053
counth记录的是候选模型子集MK中第h个模型被选中进行预测的次数;φ(h)记录的是对手行为预测模型的即时奖励。
多臂赌博机算法中的即时奖励φ(h)的设置如下:
Figure BDA0002769187320000054
其中当选择的对手预测候选模型预测成功时会获得一个值为1的即时奖励,预测失败时会收到一个值为-1的即时奖励。
步骤5、使用选择出的对手预测模型预测对手的行为。
无人车根据步骤4中选择出的对手预测模型预测对手行为,剔除掉自己可能被抓的行为,选择一个价值最高的行为进行交互。通过使用强化学习中计算状态行为对的价值公式计算无人车可选行为的价值。计算状态行为对的价值过程如公式(8)所示。最终无人车会选择价值最高的行为去执行。
Q(s,a)=Q(s,a)+α[R+γmaxa’Q(s′,a′)-Q(s,a)](8)
Q(s,a)表示的是在状态s的情况下选择行为a所能得到的价值,α表示学习率,R表示即时奖励,γ表示衰变系数,s′表示的是状态s的下一个状态,Q(s′,a′)表示的是下一个状态下选择行为a′所获得的价值,该价值是过去历史中在该状态下选择行为所获得的状态行为对的最高值。
本发明的有益效果如下:
本发明提供的基于对手行为预测的无人车侦察的方法,可用于在复杂多变的侦察环境下应对对手的追捕;本发明设计了一种核函数来计算候选模型的相似程度,提出一种基于流算法的候选模型选择方法,有效地从所有的模型中提取出具有覆盖性和多样性的候选模型子集,然后使用多臂赌博机算法自适应地识别出最可信的模型,并将选择出的模型用于实时预测对手的行为;与传统求解子集要求完全访问所有数据的方法不同,本发明采用的是一种称为流模式的选择子集的方法,实时的选择添加子集候选模型而不必每次都要访问所有的候选模型,从而大大减小了时间和空间复杂度。
附图说明
图1是本发明实施例中基于对手行为预测的无人车侦察的方法的流程图。
图2是本发明实施例中模型选择示例图。
图3是本发明实施例中构建模型所采用的FALCON网络结构。
具体实施方式
在无人车侦察的过程中,需要预测对手的行为躲避对手的抓捕。本发明通过对无人车遇到的对手构建候选模型,然后使用候选模型对对手进行行为预测,无人车根据预测的对手行为选择合适的躲避行为。
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明的实施例基于强化学习知识以及相关子集求解的数学知识理论提出的一种无人车侦察方法。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
为方便说明,先对本实施例中引入的符号作统一的如下表的说明:
表1符号对照表
符号名 符号含义 初始数值
FALCON 一种记忆网络框架
α<sup>ck</sup>(k=1,2,3) FALCON中的选择参数 (0.1,0.1,0.1)
β<sup>ck</sup>(k=1,2,3) FALCON中的学习率 (1.0,1.0,1.0)
γ<sup>ck</sup>(k=1,2,3) FALCON中的贡献率参数 (0.5,0.5,0.0)
ρ<sup>ck</sup>(k=1,2,3) FALCON中的警戒参数 (0.2,0.2,0.5)
TD 强化学习中的时序差分法
α TD中的学习率 0.5
γ TD中的折扣因子 0.1
Q 状态行为对的价值 0.5
τ 平衡探索与利用的参数 0.05
S 侦察环境中的状态
A 无人车行为空间集合
R 无人车做出行为后得到的奖励
表1中的经验值的具体取值,是本实施例提供的优选取值的示例。
图1是本发明实施例提供的基于对手行为预测的无人车侦察方法的流程图。
下面结合一个应用实例对本发明的方法进一步说明:
在本实施例中,所有的无人车对手预测候选模型均使用FALCON框架,它的参数取值如表1所示,FALCON网络结构如图所示。
步骤1、在训练阶段,首先收集对手的历史数据,历史数据以三元组<S,A,R>的方式存储。该历史数据从以前侦察过程中获得的,用来训练以FALCON为框架构建的无人车对手候选模型。
具体来说,在构建的无人车候选模型中,每个模型中的选择参数
Figure BDA0002769187320000081
学习率参数
Figure BDA0002769187320000082
以及贡献率参数
Figure BDA0002769187320000083
设置如表1所示,为了构建不同的无人车对手候选模型,设置多组不同数值的警戒线参数
Figure BDA0002769187320000084
每个参数的范围是0到1。使用收集到的历史数据对构建的不同参数的候选模型进行训练,得到候选模型集合M。在本实施例中构建的候选模型集合M的大小为99。
步骤2、对于构建的无人车候选模型集合M使用Top-K流选择算法,基于覆盖性和多样性原则选择无人车候选模型子集MK
具体实施方式是将步骤1中得到的集合M中的模型逐个输入到Top-K流算法中进行模型的选择,选择的过程如图2所示。当候选模型子集MK中的模型数量|MK|小于K时,就将输入的候选模型直接加入到MK中,当|MK|等于K时,对以后逐个输入的候选模型m′,使用m′逐一替换MK中的每个模型me,形成新的子集,对原有的子集以及替换后的子集使用Top-K流算法中的候选模型选择函数计算得到子集的结果。候选模型选择函数F(MK)公式如下:
Figure BDA0002769187320000085
MK是替换前后所得到M的子集,在该实施例中,构建了99种类型的候选模型即|M|=99。K是候选模型子集中模型的数量,取值是9。I为单位矩阵,δ-2是该公式的一个参数,设置为108
Figure BDA0002769187320000086
函数定义的是得到的子集中模型间的相似性,如公式(10)所示:
Figure BDA0002769187320000087
其中的k(mi,mj)为核函数,具体计算如下:
Figure BDA0002769187320000091
k(mi,mj)表示的是无人车候选模型子集中的mi和mj的相似程度。i和j分别表示的是候选模型子集中第i个模型和第j个模型。
Figure BDA0002769187320000092
表示的是模型mi在t时刻状态下选择的前进方向。|A|表示的是无人车可选前进方向的个数,在本实施例中|A|=8,八个方向使用0到7表示。分别对应东,东北,北,西北,西,西南,南和东南方向。T表示的是该候选模型在一系列状态下做出的一系列方向选择的总和。
当所有构建的候选模型经过Top-K流选择算法中的选择函数选择之后,会获得一个大小为K的无人车对手候选模型子集,该子集中的候选模型数量K(K=9)远远小于构建的候选模型的数量|M|(|M|=99)。
步骤3、在获得数量为K的候选模型子集之后,无人车在侦察的过程中就可以使用多臂赌博机算法对候选模型子集进行选择,并将其用于预测对手行为来躲避对手的追捕。具体来说,当无人车在侦察的过程中观察到对手时,就考虑躲避对手的追捕。此时,无人车根据多臂赌博机算法从步骤2中得到的子集中选择出一个模型,使用该模型进行对手行为预测。具体的选择过程如下:
首先根据公式(12)计算候选模型子集中的每个对手候选模型被选中的概率。
Figure BDA0002769187320000093
Figure BDA0002769187320000094
表示的步骤2得到的无人车候选模型子集中第h个模型被选中的概率。τ是衡量利用和探索的参数,取值为0.5。Qh表示的是编号为h的对手预测模型得到的奖励。其计算的方法如公式(13)所示。
Figure BDA0002769187320000095
counth记录的是当前的对手候选模型被选中进行预测的次数。φ(h)记录的是对手行为预测模型的即时奖励。该即时奖励具体为若预测正确成功的躲避了对手的抓捕,就会获得+1的奖励,若预测失败则会受到-1的惩罚。
经过多臂赌博机算法选择对手预测模型之后就将获得的状态信息s作为对手模型的输入。输出的是对手在这样的状态下可能做出行为,无人车根据对手模型预测的行为剔除掉可能被抓的行为a,依据强化学习中的计算状态行为对的方法计算每个状态行为对的价值,计算公式如(14)所示。
Q(s,a)=Q(s,a)+α[R+γmaxa‘Q(s′,a′)-Q(s,a)] (14)
Q(s,a)表示的是无人车在当前环境下获得的环境状态s的情况下选择前进方向a所能得到的价值,α表示学习率,R表示即时奖励,γ表示衰变系数。s′表示的是状态s的下一个状态,Q(s′,a′)表示的是下一个状态下选择前进行方向a′所获得的价值,该价值是过去历史中在该状态下所获得的最高值。在与对手交互中,无人车选择一个价值最高的行为a躲避抓捕。

Claims (1)

1.一种基于对手行为预测的无人车侦察方法,其特征在于,所述的基于对手行为预测的无人车侦察方法包括收集对手数据、构建并训练对手的预测候选模型、使用Top-K流选择算法选择候选模型集合M的子集MK、在侦察时使用多臂赌博机算法选择对手预测模型,以及使用选择出的对手预测模型预测对手的行为;具体如下:
步骤1、收集对手数据
将无人车在以前的侦察任务中与对手交互的过程中所获得对手数据以三元组<S,A,R>的形式存储,其中,S代表无人车所遇到的环境状态,A代表无人车在该环境状态下作出的行为,R代表无人车作出行为之后环境给出的奖励值;
步骤2、构建并训练对手的预测候选模型
(2.1)构建的候选模型使用的模型结构是一个名为FALCON的三通道网络结构,分为上下两层:F1层和F2层;其中F1层为输入层,分为三个域,分别是状态域S,行为域A和奖励域R,这三个域分别对应于收集对手数据中的三元组;F2层存放的是不同的节点,每个节点中存放是三个输入域中的映射关系;一个节点的生成与FALCON中的参数有关,分别是选择参数
Figure FDA0002769187310000011
学习参数
Figure FDA0002769187310000012
贡献参数
Figure FDA0002769187310000013
以及警戒参数
Figure FDA0002769187310000014
警戒参数的取值范围是[0,1](ci中i的取值为1,2,3分别对应输入层中的三个域);
(2.2)使用步骤(2.1)中的FALCON网络结构构建对手预测候选模型;FALCON中的警戒参数
Figure FDA0002769187310000015
越大,生成F2层节点的约束条件就越严格,即不同的警戒参数生成的节点中表示的输入域映射关系是不同的;因此采用不同的警戒参数作为不同的模型类型,构建|M|个对手预测候选模型组成候选模型集合M;
(2.3)使用步骤1中收集到的对手数据训练步骤(2.2)中构建好的候选模型架构,每个训练后的模型看作是一个类型;
步骤3、使用Top-K流选择算法选择候选模型集合M的子集MK
(3.1)以流的方式实时输入步骤2构建的候选模型;构建的候选模型集合M中的模型按序输入到模型选择函数F(MK)中;
(3.2)模型选择函数F(MK)对于每一个按序输入的候选模型进行判断,决定该候选模型是否可以加入到子集MK中;F(MK)的形式如下:
Figure FDA0002769187310000021
其中,模型选择函数F(MK)是Top-K流选择算法中用来选择候选模型的函数;m′表示的是对手候选模型集合M中实时输入到模型选择函数F(MK)中的模型;当模型候选子集MK中模型的个数少于K时,m′直接加入候选模型子集中;me表示的是已经存在子集MK中对手候选模型,当模型候选子集MK中模型的个数等于K时,需要使用新输入进来的模型m′尝试替换的对手候选模型子集中已存在的模型me;若发生替换时最终选择函数计算的结果比未发生替换的结果大,则替换,反之则不替换;MK是最终选择的候选模型的子集;K表示的是候选模型子集MK的大小;
(3.3)步骤(3.2)中提到的替换的具体计算公式如下:
Figure FDA0002769187310000022
其中,MK是对手预测候选模型集合M的一个子集,K是对手预测候选模型子集中模型的数量,I是单位矩阵,δ-2是该公式设置的一个超参数;
Figure FDA0002769187310000023
函数定义的是模型之间的相似性,如公式(3)所示:
Figure FDA0002769187310000024
其中,k(mi,mj)为核函数,如公式(4)所示:
Figure FDA0002769187310000025
k(mi,mj)表示的是对手预测候选模型子集MK中模型mi和模型mj的相似程度;i和j分别表示的是候选模型集合中第i个模型和第j个模型;使用的公式(4)中的核函数来计算;
Figure FDA0002769187310000031
表示的是模型mi在t时刻状态下选择的行为;A表示的是无人车可选行为的集合;|A|表示的是无人车可选行为的个数;T表示的是该模型在一系列状态下做出的一系列行为个数的总和;
步骤4、在侦察时使用多臂赌博机算法选择对手预测模型
在步骤3选择出的候选模型子集MK中,使用多臂赌博机算法计算候选模型子集中每个模型被选择的概率,选择最高概率所对应的候选模型在侦查的过程中进行对手行为的预测;具体步骤如下:
所述的模型被选择的概率公式如下:
Figure FDA0002769187310000032
其中,
Figure FDA0002769187310000033
表示的是编号为h的对手预测模型被选择进行对手预测的概率;τ是衡量利用和探索的参数;Qh表示的是编号为的对手预测模型得到的平均奖励,计算方法如公式(6)所示:
Figure FDA0002769187310000034
counth记录的是候选模型子集MK中第h个模型被选中进行预测的次数;φ(h)记录的是对手行为预测模型的即时奖励;
多臂赌博机算法中的即时奖励φ(h)的设置如下:
Figure FDA0002769187310000035
其中当选择的对手预测候选模型预测成功时会获得一个值为1的即时奖励,预测失败时会收到一个值为-1的即时奖励;
步骤5、使用选择出的对手预测模型预测对手的行为
无人车根据步骤4中选择出的对手预测模型预测对手行为,剔除掉自己可能被抓的行为,选择一个价值最高的行为进行交互;通过使用强化学习中计算状态行为对的价值公式计算无人车可选行为的价值;计算状态行为对的价值过程如公式(8)所示;最终无人车会选择价值最高的行为去执行;
Q(s,a)=Q(s,a)+α[R+γmaxa’Q(s′,a′)-Q(s,a)](8)
Q(s,a)表示的是在状态s的情况下选择行为a所能得到的价值,α表示学习率,R表示即时奖励,γ表示衰变系数,s′表示的是状态s的下一个状态;Q(s′,a′)表示的是下一个状态下选择行为a′所获得的价值,是过去历史中在该状态下选择行为所获得的状态行为对的最高值。
CN202011243637.5A 2020-11-09 2020-11-09 一种基于对手行为预测的无人车侦察方法 Active CN112365048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011243637.5A CN112365048B (zh) 2020-11-09 2020-11-09 一种基于对手行为预测的无人车侦察方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011243637.5A CN112365048B (zh) 2020-11-09 2020-11-09 一种基于对手行为预测的无人车侦察方法

Publications (2)

Publication Number Publication Date
CN112365048A true CN112365048A (zh) 2021-02-12
CN112365048B CN112365048B (zh) 2022-09-20

Family

ID=74509982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011243637.5A Active CN112365048B (zh) 2020-11-09 2020-11-09 一种基于对手行为预测的无人车侦察方法

Country Status (1)

Country Link
CN (1) CN112365048B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797966A (zh) * 2017-09-27 2018-03-13 潘颖慧 交互式动态影响图的最优k模型求解方法
CN108062566A (zh) * 2017-12-13 2018-05-22 北京工业大学 一种基于多核潜在特征提取的智能集成软测量方法
CN110826725A (zh) * 2019-11-07 2020-02-21 深圳大学 基于认知的智能体强化学习方法、装置、系统、计算机设备及存储介质
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797966A (zh) * 2017-09-27 2018-03-13 潘颖慧 交互式动态影响图的最优k模型求解方法
CN108062566A (zh) * 2017-12-13 2018-05-22 北京工业大学 一种基于多核潜在特征提取的智能集成软测量方法
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN110826725A (zh) * 2019-11-07 2020-02-21 深圳大学 基于认知的智能体强化学习方法、装置、系统、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
冉承新等: "基于改进遗传算法的移动目标成像侦测任务规划问题研究", 《宇航学报》 *
李波等: "交互式动态影响图及其精确求解算法", 《解放军理工大学学报(自然科学版)》 *
杨萍等: "具有自主决策能力的机动单元智能体研究", 《兵工学报》 *

Also Published As

Publication number Publication date
CN112365048B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
Marinaki et al. A glowworm swarm optimization algorithm for the vehicle routing problem with stochastic demands
Zhan et al. Learning-aided evolution for optimization
Hu et al. Deep bidirectional recurrent neural networks ensemble for remaining useful life prediction of aircraft engine
Alkhateeb et al. Discrete hybrid cuckoo search and simulated annealing algorithm for solving the job shop scheduling problem
US11783195B2 (en) Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
Acampora et al. A competent memetic algorithm for learning fuzzy cognitive maps
Xue et al. Self-adaptive particle swarm optimization-based echo state network for time series prediction
Anochi et al. Optimization of feedforward neural network by Multiple Particle Collision Algorithm
Faußer et al. Selective neural network ensembles in reinforcement learning: taking the advantage of many agents
Tweedale A review of cognitive decision-making within future mission systems
Zhou et al. A novel mission planning method for UAVs’ course of action
Rodrigues A hybrid multi-population metaheuristic applied to load-sharing optimization of gas compressor stations
Falcao et al. Q-learning based hyper-heuristic for scheduling system self-parameterization
Wickramasinghe et al. Continual learning: A review of techniques, challenges and future directions
CN112365048B (zh) 一种基于对手行为预测的无人车侦察方法
Chen et al. XCS with opponent modelling for concurrent reinforcement learners
Papageorgiou et al. Bagged nonlinear hebbian learning algorithm for fuzzy cognitive maps working on classification tasks
CN113344071A (zh) 一种基于深度策略梯度的入侵检测算法
Kang et al. Forecasting Evolution of Clusters in Game Agents with Hebbian Learning
Houssein et al. Salp swarm algorithm: modification and application
Gao et al. A Survey of Markov Model in Reinforcement Learning
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Reformat A fuzzy‐based multimodel system for reasoning about the number of software defects
CN115890738B (zh) 一种机器人迁移能力评价方法及系统
Hettegger et al. Investigation of Inspection and Maintenance Optimization with Deep Reinforcement Learning in Absence of Belief States

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant