CN113326902A - 基于在线学习的策略获取方法、装置及设备 - Google Patents

基于在线学习的策略获取方法、装置及设备 Download PDF

Info

Publication number
CN113326902A
CN113326902A CN202110772824.0A CN202110772824A CN113326902A CN 113326902 A CN113326902 A CN 113326902A CN 202110772824 A CN202110772824 A CN 202110772824A CN 113326902 A CN113326902 A CN 113326902A
Authority
CN
China
Prior art keywords
strategy
policy
agent
adversary
option
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110772824.0A
Other languages
English (en)
Other versions
CN113326902B (zh
Inventor
黄健
陈浩
付可
刘权
龚建兴
韩润海
李嘉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110772824.0A priority Critical patent/CN113326902B/zh
Publication of CN113326902A publication Critical patent/CN113326902A/zh
Application granted granted Critical
Publication of CN113326902B publication Critical patent/CN113326902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于在线学习的策略获取方法、装置及设备,获取并识别目标对手策略,并从智能体策略库中选取针对目标对手策略的智能体策略;根据智能体策略确定目标对手策略是已知对手策略的概率,并将概率加入概率队列;响应于确定概率队列中所有概率的和小于和阈值,基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。本申请基于智能体策略库中已有的智能体策略对在线学习进行加速,效率较高且性能较好。

Description

基于在线学习的策略获取方法、装置及设备
技术领域
本申请涉及智能体技术领域,尤其涉及一种基于在线学习的策略获取方法、装置及设备。
背景技术
智能体是人工智能领域中一个很重要的概念,任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体。在对抗型多智能体系统中,智能体不仅与环境交互,其中对手的行为也影响智能体的策略选择。为获取更好的对抗性能,智能体决策时通常考虑对手的行为。在许多情况下,智能体和对手分别维护了一个策略库,并适时从其中选择策略执行,从而最大化己方从环境中获得的奖励。因此,准确识别当前时刻对手策略并选择合适的应对策略对于己方智能体来说十分关键。
在重复博弈的场景中,相关技术每隔固定的时间间隔检测一次对手的策略是否发生改变,若检测到对手策略发生变化,转入学习阶段学习针对对手策略的最优策略。相关技术转入学习阶段时,从零开始学习最优策略,效率较低且性能较差。
发明内容
有鉴于此,本申请的目的在于提出一种基于在线学习的策略获取方法、装置及设备。
基于上述目的,本申请提供了一种基于在线学习的策略获取方法,包括:
获取并识别目标对手策略,并从智能体策略库中选取针对所述目标对手策略的智能体策略;
根据所述智能体策略确定所述目标对手策略是已知对手策略的概率,并将所述概率加入概率队列;
响应于确定所述概率队列中所有所述概率的和小于和阈值,基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略。
基于同一发明构思,本申请提供了一种基于在线学习的策略获取装置,包括:
智能体策略重用模块,被配置为获取并识别目标对手策略,并从智能体策略库中选取针对所述目标对手策略的智能体策略;
未知对手策略确定模块,被配置为根据所述智能体策略确定所述目标对手策略是已知对手策略的概率,并将所述概率加入概率队列;
智能体策略生成模块,被配置为响应于确定所述概率队列中所有所述概率的和小于和阈值,基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略。
基于同一发明构思,本申请提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
从上面所述可以看出,本申请提供的基于在线学习的策略获取方法、装置及设备,获取并识别目标对手策略,并从智能体策略库中选取针对目标对手策略的智能体策略;根据智能体策略确定目标对手策略是已知对手策略的概率,并将概率加入概率队列;响应于确定概率队列中所有概率的和小于和阈值,基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。本申请基于智能体策略库中已有的智能体策略对在线学习进行加速,效率较高且性能较好。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于在线学习的策略获取方法的一种流程示意图;
图2为本申请实施例提供的策略重用方法的一种流程示意图;
图3为本申请实施例提供的目标对手策略是已知对手策略的概率确定方法的一种流程示意图;
图4为本申请实施例提供的在线学习模型训练方法的一种流程示意图;
图5为本申请实施例提供的基于在线学习的策略获取方法的一种场景示意图;
图6为本申请实施例提供的网格世界及六种对手策略的示意图;
图7为本申请实施例提供的导航世界及五种对手策略的示意图;
图8为本申请实施例提供的足球世界及六种对手策略的示意图;
图9为本申请实施例提供的网格世界中智能体策略重用与新策略学习结果的示意图;
图10为本申请实施例提供的导航世界中智能体策略重用与新策略学习结果的示意图;
图11为本申请实施例提供的足球世界中智能体策略重用与新策略学习结果的示意图;
图12为本申请实施例提供的基于在线学习的策略获取装置的一种结构示意图;
图13为本申请实施例提供的一种更为具体的电子设备硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
智能体是人工智能领域中一个很重要的概念,任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体。在对抗型多智能体系统中,智能体不仅与环境交互,其中对手的行为也影响智能体的策略选择。为获取更好的对抗性能,智能体决策时通常考虑对手的行为。在许多情况下,智能体和对手分别维护了一个策略库,并适时从其中选择策略执行,从而最大化己方从环境中获得的奖励。因此,准确识别当前时刻对手策略并选择合适的应对策略对于己方智能体来说十分关键。
在重复博弈的场景中,相关技术每隔固定的时间间隔检测一次对手的策略是否发生改变,若检测到对手策略发生变化,转入学习阶段学习针对对手策略的最优策略。相关技术转入学习阶段时,从零开始学习最优策略,效率较低且性能较差。
从零开始学习最优策略,显然是效率较低且性能较差的,发明人发现,重用已有策略是提高智能体系统性能的有效机制,但是,当前已有策略已经不能满足应对对手策略的需求,发明人提出,相同环境下不同的对手策略具有部分相似性,利用已有策略加速新策略学习是提升多智能体系统性能的有效方式,在检测到对手使用未知策略时,考虑将策略库中已有应对策略迁移至新的学习任务,可以显著提高学习效率和智能体性能。
参考图1,其为本申请实施例提供的基于在线学习的策略获取方法的一种流程示意图。基于在线学习的策略获取方法,包括:
S110、获取并识别目标对手策略,并从智能体策略库中选取针对目标对手策略的智能体策略。
对抗型多智能体系统中包括至少两个智能体,其中,本申请的技术方案中所称智能体Agent为己方智能体,其他智能体可以部分或者全部视作对手opponent。智能体维护了智能体策略库
Figure 212749DEST_PATH_IMAGE001
,对手维护了对手策略库
Figure 766091DEST_PATH_IMAGE002
。默认智能体策略库
Figure 152073DEST_PATH_IMAGE001
中包含了对手策略库
Figure 994127DEST_PATH_IMAGE002
中所有对手策略的最优应对策略。
其中,策略为一组状态-动作参数对,即在获取到特定的环境及对手状态时,执行与该状态对应的动作。状态参数例如对手的位置坐标、中立单位的位置坐标和智能体的位置坐标等,其中,位置坐标可以为one-hot编码形式。动作参数例如移动方向和移动距离等。
在一些实施方式中,S110具体包括:
参考图2,其为本申请实施例提供的策略重用方法的一种流程示意图。
S210、利用对手策略库构建对手模型,融合对手模型到贝叶斯策略重用模型,得到融合后贝叶斯策略重用模型。
在一些实施方式中,对手模型包括神经网络模型。
其中,用
Figure 484276DEST_PATH_IMAGE003
表示对手模型,用
Figure 501911DEST_PATH_IMAGE004
表示对手模型的参数。
在一些实施方式中,更新对手模型,包括:
获取预设时间段内的对手行为数据;
基于预设时间段生成时间序列,基于对手行为数据生成与时间序列对应的行为序列;
利用最大化生成行为序列的对数概率,利用对数概率更新对手模型。
假设,对手在时间序列K内的行为序列为(s 0, o 0, s 1, o 1, …, s K , o K ),利用最大化生成该行为序列的对数概率,并利用该对数概率更新对手模型。
在一些实施方式中,更新对手模型,还包括:
将对手模型的信息熵引入对手模型的损失函数。
其中,用
Figure 917848DEST_PATH_IMAGE005
表示对手模型的信息熵。
则,对手模型的损失函数可以表示为:
Figure 653723DEST_PATH_IMAGE006
其中,
Figure 446099DEST_PATH_IMAGE007
为对手在状态参数
Figure 380557DEST_PATH_IMAGE008
下执行动作
Figure 170658DEST_PATH_IMAGE009
的估计概率,
Figure 393829DEST_PATH_IMAGE010
为信息熵常数,
Figure 756940DEST_PATH_IMAGE011
为对手模型的信息熵,
Figure 749166DEST_PATH_IMAGE012
表示一个训练样本集合的数学期望。
S220、利用融合后贝叶斯策略重用模型识别目标对手策略,并从智能体策略库中选取针对目标对手策略的智能体策略。
融合后贝叶斯策略重用模型根据在线交互中智能体所获得的奖励和对手行为信息判断对手的当前策略即目标对手策略。
由于默认智能体策略库
Figure 710169DEST_PATH_IMAGE013
中包含了对手策略库
Figure 545270DEST_PATH_IMAGE014
中所有对手策略的最优应对策略,因此,在没有检测到对手使用未知策略而转入新策略学习前,智能体每回合在智能体策略库
Figure 554814DEST_PATH_IMAGE013
中选择合适的应对策略。
相关技术在识别对手的策略时,其识别机制需要根据任务不同而人为设计,不具有泛化性。本申请通过融合对手模型的贝叶斯策略重用模型识别对手的策略,可以根据对手模型的特征而自动适应,具有良好的泛化性。
在一些实施方式中,在从智能体策略库中获取针对目标对手策略的智能体策略之后,还包括:
根据目标对手策略和智能体策略得到智能体第一信念;
通过对手模型得到智能体第二信念;
根据智能体第一信念和智能体第二信念得到智能体综合信念;
其中,智能体综合信念用于下一次从智能体策略库中获取针对目标对手策略的智能体策略。
假设,在回合
Figure 526181DEST_PATH_IMAGE015
结束后,智能体获得的累积效用奖励为
Figure 392506DEST_PATH_IMAGE016
,则对于每一个对手策略
Figure 142332DEST_PATH_IMAGE017
,智能体若仅使用贝叶斯策略重用模型更新其信念
Figure 221147DEST_PATH_IMAGE018
,则更新方式可以表示为:
Figure 250283DEST_PATH_IMAGE019
其中,
Figure 615405DEST_PATH_IMAGE020
为智能体在回合
Figure 34885DEST_PATH_IMAGE015
结束时使用的策略。
若回合
Figure 510866DEST_PATH_IMAGE015
结束时,智能体获得的回合奖励为
Figure 332191DEST_PATH_IMAGE021
,智能体使用的策略和估计的对手策略分别为
Figure 540319DEST_PATH_IMAGE020
Figure 73193DEST_PATH_IMAGE022
,则
Figure 228231DEST_PATH_IMAGE023
的大小一定程度上可以描述对手在回合
Figure 28697DEST_PATH_IMAGE015
使用策略
Figure 610988DEST_PATH_IMAGE022
的可能性。
信念
Figure 864115DEST_PATH_IMAGE024
为智能体第一信念。
进一步的,本申请利用对手在线行为信息,通过对手模型
Figure 822844DEST_PATH_IMAGE025
进一步识别对手策略。
智能体维护了一个长度为
Figure 743395DEST_PATH_IMAGE026
的先入先出队列
Figure 231008DEST_PATH_IMAGE027
用于存放最近
Figure 941737DEST_PATH_IMAGE026
步内对手的状态参数-动作对
Figure 563212DEST_PATH_IMAGE028
,其中
Figure 213636DEST_PATH_IMAGE029
,队列
Figure 934467DEST_PATH_IMAGE027
和对手模型
Figure 162186DEST_PATH_IMAGE025
用于估计生成对手行为信息
Figure 197138DEST_PATH_IMAGE027
的对手策略。则通过对手模型,智能体对于对手策略
Figure 295544DEST_PATH_IMAGE030
的信念
Figure 485479DEST_PATH_IMAGE031
更新可以表示为:
Figure 200495DEST_PATH_IMAGE032
Figure 39138DEST_PATH_IMAGE033
其中,
Figure 788788DEST_PATH_IMAGE025
Figure 54684DEST_PATH_IMAGE022
的对手模型(即对策略
Figure 929099DEST_PATH_IMAGE022
的估计),
Figure 430488DEST_PATH_IMAGE034
为当前回合的步数,
Figure 910011DEST_PATH_IMAGE035
定量描述了对手用策略
Figure 972907DEST_PATH_IMAGE022
生成
Figure 537880DEST_PATH_IMAGE027
的可能性。
信念
Figure 577380DEST_PATH_IMAGE036
为智能体第二信念。
智能体在每一步决策时,综合考虑
Figure 911410DEST_PATH_IMAGE037
Figure 909322DEST_PATH_IMAGE036
两种信念作为智能体每一时刻的信念
Figure 961591DEST_PATH_IMAGE038
Figure 804782DEST_PATH_IMAGE039
其中,
Figure 993318DEST_PATH_IMAGE040
为常数,
Figure 398017DEST_PATH_IMAGE034
为回合内步数。
信念
Figure 937583DEST_PATH_IMAGE041
为智能体综合信念。
Figure 256569DEST_PATH_IMAGE042
的引入是为了平衡
Figure 893086DEST_PATH_IMAGE037
Figure 967222DEST_PATH_IMAGE043
在综合信念中所占比重,在回合初始阶段
Figure 790821DEST_PATH_IMAGE037
起主导作用,随着累积对手行为数据越多,
Figure 851181DEST_PATH_IMAGE043
在综合信念中占主导地位,对策略选择的影响越大。
智能体每一步都进行一次策略选择,其选择应对策略
Figure 138943DEST_PATH_IMAGE044
的方式可以表示为:
Figure 524925DEST_PATH_IMAGE045
其中,
Figure 399602DEST_PATH_IMAGE046
为智能体在当前综合信念
Figure 263653DEST_PATH_IMAGE041
下能够获得的最优期望效用。
S120、根据智能体策略确定目标对手策略是已知对手策略的概率,并将概率加入概率队列。
目标对手策略是已知对手策略的概率指的是目标对手策略是否为已知对手策略的对手策略的概率。
概率队列用于存放识别到的对手策略是已知对手策略的概率。
在一些实施方式中,S120具体包括:
参考图3,其为本申请实施例提供的目标对手策略是已知对手策略的概率确定方法的一种流程示意图。
S310、利用智能体策略库和对手策略库构建性能模型。
在一些实施方式中,性能模型是指智能体使用智能体策略
Figure 405921DEST_PATH_IMAGE047
,对手使用对手策略
Figure 697225DEST_PATH_IMAGE048
时,智能体一个回合获得累积效用奖励
Figure 557734DEST_PATH_IMAGE049
的概率分布
Figure 225476DEST_PATH_IMAGE050
具体的,对于估计的对手策略
Figure 487830DEST_PATH_IMAGE048
,智能体使用智能体策略库中的每一个策略
Figure 215614DEST_PATH_IMAGE051
在环境中多次仿真,收集单回合智能体的累积效用奖励
Figure 799305DEST_PATH_IMAGE052
,并将其拟合为正态分布。
S320、利用性能模型根据目标对手策略和智能体策略确定目标对手策略是已知对手策略的概率。
在一些实施方式中,本申请维护了一个长度为
Figure 270737DEST_PATH_IMAGE053
的先入先出队列
Figure 122019DEST_PATH_IMAGE054
用于衡量最近
Figure 20705DEST_PATH_IMAGE053
个回合内对手使用已知对手策略的可能性。具体来讲,若回合
Figure 855805DEST_PATH_IMAGE015
结束时,智能体获得的回合奖励为
Figure 599771DEST_PATH_IMAGE055
,智能体使用的策略和估计的对手策略分别为
Figure 836717DEST_PATH_IMAGE056
Figure 12963DEST_PATH_IMAGE057
,则
Figure 945147DEST_PATH_IMAGE058
的大小一定程度上可以描述对手在回合
Figure 617437DEST_PATH_IMAGE015
使用策略
Figure 584256DEST_PATH_IMAGE059
的可能性。因此,
Figure 949378DEST_PATH_IMAGE060
描述了最近
Figure 165596DEST_PATH_IMAGE053
个回合对手使用已知对手策略的概率和。如果该概率和小于预设的和阈值
Figure 516943DEST_PATH_IMAGE061
,则认为对手使用了未知策略,智能体转入学习新的智能体策略,否则,下回合开始时仍重用智能体策略库
Figure 462902DEST_PATH_IMAGE062
中的智能体策略。
S130、响应于确定概率队列中所有概率的和小于和阈值,基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。
在一些实施方式中,将新智能体策略加入智能体策略库以更新智能体策略库,在下一次识别到该目标对手策略时选择使用。
在一些实施方式中,在线学习模型中包含Option学习网络、近端策略优化网络和Option集合;Option学习网络中包含Inter-option网络和Termination网络;近端策略优化网络中包含Actor网络和Critic网络;Option集合中包含多个Option,其中每个Option中包含初始状态参数集、Intra-option策略和结束概率。
在一些实施方式中,将智能体策略库中的所有智能体策略分别建模为Intra-option策略,并根据Intra-option策略构建Option。
其中,将每一个的智能体策略
Figure 874292DEST_PATH_IMAGE063
视作对应Option
Figure 141587DEST_PATH_IMAGE064
中的Intra-option策略
Figure 31046DEST_PATH_IMAGE065
。每个Option中包含初始状态参数集、Intra-option策略和结束概率。则Option
Figure 97091DEST_PATH_IMAGE066
可以定义为一个三元组
Figure 679382DEST_PATH_IMAGE067
,其中
Figure 198088DEST_PATH_IMAGE068
Figure 687975DEST_PATH_IMAGE069
的初始状态参数集,
Figure 218313DEST_PATH_IMAGE065
为Intra-option策略,
Figure 96140DEST_PATH_IMAGE070
为在状态参数
Figure 977508DEST_PATH_IMAGE071
退出当前Option
Figure 834868DEST_PATH_IMAGE064
的概率。本申请中,假设所有的Option均可用于所有的状态参数,即有
Figure 485292DEST_PATH_IMAGE072
在一些实施方式中,基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略,包括:
参考图4,其为本申请实施例提供的在线学习模型训练方法的一种流程示意图。
循环执行以下操作,直到从环境中获取的奖励超过奖励阈值,将超过奖励阈值的奖励对应的当前智能体策略作为新智能体策略:
S410、从环境中获取状态参数,并将状态参数输入Option学习网络和近端策略优化网络。
状态参数包含环境以及环境中对手的状态参数。
状态参数例如对手的位置坐标、中立单位的位置坐标和智能体的位置坐标等,其中,位置坐标可以为one-hot编码形式。
S420、利用Option学习网络根据状态参数从Option集合中选择Option,并将Option中的Intra-option策略和结束概率发送至近端策略优化网络。
具体包括:利用Inter-option网络从Option中获取Intra-option策略;利用Termination网络从Option中获取结束概率。
在线交互过程中,Inter-option网络根据当前状态参数
Figure 268440DEST_PATH_IMAGE073
,采用
Figure 637105DEST_PATH_IMAGE074
从Option集合
Figure 796690DEST_PATH_IMAGE075
中按照Option值函数
Figure 363938DEST_PATH_IMAGE076
选取Option
Figure 193354DEST_PATH_IMAGE077
用于策略迁移,其中
Figure 173948DEST_PATH_IMAGE078
代表Inter-option网络的参数。Options网络采用调用与返回机制,Termination网络在当前状态参数
Figure 12591DEST_PATH_IMAGE073
下依概率
Figure 732548DEST_PATH_IMAGE079
停止使用当前Option
Figure 998444DEST_PATH_IMAGE077
,其中
Figure 200755DEST_PATH_IMAGE080
代表Termination网络的参数。根据Termination网络的输出,如果停止使用当前Option
Figure 843089DEST_PATH_IMAGE081
,则Inter-option网络选择新的Option执行。
将Intra-option策略和结束概率作为重用损失发送至近端策略优化网络
S430、利用近端策略优化网络根据状态参数获得当前智能体策略。
可以将近端策略优化网络视作一个映射函数网络,输入自变量状态参数,输出应变量动作。状态-动作参数对视作智能体策略。
S440、根据当前智能体策略选择动作并执行,从环境中获取奖励。
在线交互的每个时间步长,智能体使用Inter-option网络选择Option
Figure 119350DEST_PATH_IMAGE064
(其对应的Intra-option策略为
Figure 680781DEST_PATH_IMAGE082
),依据利用近端策略优化网络获得的当前智能体策略
Figure 245755DEST_PATH_IMAGE083
(其中
Figure 285255DEST_PATH_IMAGE084
代表Actor的参数)选择动作
Figure 619284DEST_PATH_IMAGE085
并执行,在环境中获得奖励
Figure 853082DEST_PATH_IMAGE086
并转移至下一个状态参数
Figure 905351DEST_PATH_IMAGE087
。然后,智能体将经验
Figure 748542DEST_PATH_IMAGE088
保存至其经验池
Figure 202657DEST_PATH_IMAGE089
S450、更新Option学习网络和近端策略优化网络。
更新近端策略优化网络,具体包括:
假设近端策略优化网络PPO中Actor和Critic的参数分别表示为
Figure 105891DEST_PATH_IMAGE084
Figure 645457DEST_PATH_IMAGE090
Figure 292339DEST_PATH_IMAGE091
表示智能体的策略,
Figure 977792DEST_PATH_IMAGE092
表示
Figure 520769DEST_PATH_IMAGE034
时刻相对优势函数的估计,
Figure 875526DEST_PATH_IMAGE093
为折扣因子,
Figure 827564DEST_PATH_IMAGE094
为环境奖励。若不考虑Intra-option策略的影响,PPO中Actor截断的损失函数可以表示为:
Figure 990692DEST_PATH_IMAGE095
其中,clip为值域为
Figure 235729DEST_PATH_IMAGE096
的截断函数,
Figure 749887DEST_PATH_IMAGE097
Figure 738571DEST_PATH_IMAGE098
Figure 777111DEST_PATH_IMAGE099
的状态值函数,
Figure 193048DEST_PATH_IMAGE100
表示新旧策略的概率比,可以表示为:
Figure 928923DEST_PATH_IMAGE101
其中,
Figure 691605DEST_PATH_IMAGE102
为智能体上一更新时刻的策略。
Intra-option策略
Figure 688380DEST_PATH_IMAGE103
不直接参与智能体动作选择,而是在Actor策略更新中作为目标函数的一部分,用于引导智能体策略学习。具体来讲,除了
Figure 416165DEST_PATH_IMAGE104
之外,Actor的目标函数还包括由当前策略
Figure 763969DEST_PATH_IMAGE105
与Intra-option策略
Figure 969823DEST_PATH_IMAGE106
不一致而导致的
Figure 86683DEST_PATH_IMAGE107
,本发明用KL散度衡量二者的差异,其形式化描述为:
Figure 985369DEST_PATH_IMAGE108
Figure 56356DEST_PATH_IMAGE109
KL散度;
综上,Actor的目标函数
Figure 800321DEST_PATH_IMAGE110
可以表示为:
Figure 774617DEST_PATH_IMAGE111
其中,
Figure 906521DEST_PATH_IMAGE112
Figure 494498DEST_PATH_IMAGE107
折扣因子,随着学习进度的推进,
Figure 883233DEST_PATH_IMAGE112
应逐渐减小,从而使得智能体的策略更新逐渐由强化学习主导,实现Intra-option策略
Figure 850052DEST_PATH_IMAGE113
之上的继续学习。Actor策略的更新采用随机梯度上升的方式,从而实现最大化的
Figure 949595DEST_PATH_IMAGE114
。Critic的更新方式与PPO保持一致,其损失函数可以表示为:
Figure 431392DEST_PATH_IMAGE115
更新Option学习网络,具体包括:
Inter-option策略网络的更新采用类似强化学习DQN的方式,因为Option是时序抽象的动作,首先引入抵达
Figure 782739DEST_PATH_IMAGE116
的Option值函数(Option-value Function Upon Arrival)
Figure 417114DEST_PATH_IMAGE117
为:
Figure 890821DEST_PATH_IMAGE118
然后,在步骤五的经验池
Figure 220433DEST_PATH_IMAGE119
中采样一个包含
Figure 375471DEST_PATH_IMAGE120
个经验的训练样本,Inter-option网络的损失函数可以表示为:
Figure 441516DEST_PATH_IMAGE121
其中
Figure 758228DEST_PATH_IMAGE122
Termination网络学习智能体在当前状态参数退出各Option的概率,其更新方式与Option-Critic类似。Termination网络的目标是最大化期望的效用函数
Figure 276934DEST_PATH_IMAGE123
,本发明采用
Figure 970083DEST_PATH_IMAGE124
Figure 890635DEST_PATH_IMAGE080
的梯度更新Termination网络:
Figure 643827DEST_PATH_IMAGE125
其中,
Figure 151294DEST_PATH_IMAGE126
Figure 116976DEST_PATH_IMAGE127
为智能体从初始条件
Figure 892034DEST_PATH_IMAGE128
Figure 816128DEST_PATH_IMAGE034
步转移至
Figure 309426DEST_PATH_IMAGE129
的概率总和,由于
Figure 344378DEST_PATH_IMAGE130
是在线策略分布的采样估计,为了提高数据使用效率,在Termination网络更新时,可以忽略该项。
Figure 646046DEST_PATH_IMAGE131
为关于
Figure 865675DEST_PATH_IMAGE132
的优势函数。因此,Termination网络可由下式更新:
Figure 721636DEST_PATH_IMAGE133
其中,
Figure 920798DEST_PATH_IMAGE134
为Termination网络的学习率。
通过上式,如果
Figure 545814DEST_PATH_IMAGE069
为状态参数
Figure 936345DEST_PATH_IMAGE135
下的非最优Option,则智能体在状态参数
Figure 14022DEST_PATH_IMAGE135
退出Option
Figure 515410DEST_PATH_IMAGE069
的概率将不断增加,智能体则会选择其他更有可能加速策略学习的Option。通过上述方式,智能体可以自适应地决定何时利用或退出某Option。
参考图5,其为本申请实施例提供的基于在线学习的策略获取方法的一种场景示意图。其中,BPR指贝叶斯策略重用,PPO指近端策略优化网络。
对抗型多智能体系统中智能体和对手分别维护了策略库
Figure 994933DEST_PATH_IMAGE062
Figure 556365DEST_PATH_IMAGE136
,在未检测到对手使用未知策略前,智能体默认
Figure 121338DEST_PATH_IMAGE062
中包含
Figure 662303DEST_PATH_IMAGE136
的所有最优应对策略。首先,利用融合对手模型的BPR算法,根据在线交互中智能体所获得的奖励和对手行为信息判断对手的当前策略
Figure 261912DEST_PATH_IMAGE022
。如果此时的对手策略是已知对手策略,则重用最优应对策略
Figure 994244DEST_PATH_IMAGE137
;如果检测到此时对手使用了未知策略,则转入最优应对策略学习,并利用最优应对策略库
Figure 312093DEST_PATH_IMAGE062
加速策略收敛。具体来讲,将策略库中的最优应对策略
Figure 155284DEST_PATH_IMAGE138
作为Intra-option策略
Figure 609399DEST_PATH_IMAGE139
,并构建其对应的Option
Figure 512633DEST_PATH_IMAGE077
。在学习过程中,Inter-option网络决定何时选择何种Option用于加速新策略学习,而Termination网络决定何时停止使用当前Option。在智能体策略更新阶段,将当前策略与Intra-option策略分布的差异作为智能体策略更新误差的一部分。此外,Inter-option网络和Termination网络根据在线交互信息同步更新。
从上面所述可以看出,本申请提供的基于在线学习的策略获取方法,获取并识别目标对手策略,并从智能体策略库中选取针对目标对手策略的智能体策略;根据智能体策略确定目标对手策略是已知对手策略的概率,并将概率加入概率队列;响应于确定概率队列中所有概率的和小于和阈值,基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。本申请基于智能体策略库中已有的智能体策略对在线学习进行加速,效率较高且性能较好。
本申请将已有的最优应对策略建模为Intra-option策略,在此基础上,引入Option学习网络用于决定何时选择何种策略加速在线学习过程。此外,本申请设计了Intra-option策略引导智能体策略更新的机制,借助Option的调用与返回机制,智能体自适应地选择合适的可用策略作为优化目标。
为了说明本申请提供的基于在线学习的策略获取方法的有效性,本申请结合三个具体应用环境,设计了如下仿真实验,其中,OL-BPR表示本申请提供的基于在线学习的策略获取方法,对比算法包括:Bayes-Pepper、Bayes-ToMoP、Deep BPR+以及DRON。在所有的实验中,本申请假设智能体策略库
Figure 52199DEST_PATH_IMAGE062
中包含部分对手策略
Figure 934967DEST_PATH_IMAGE140
的最优应对策略。因此,当对手使用未知策略时,智能体应尽快识别该未知策略,并学习如何应对。
需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
网格世界中玩家的初始状态参数如图6所示。玩家的任务为在不发生碰撞的前提下到达不同的目标位置,不同的目标位置对应的奖励值不同:
Figure 243588DEST_PATH_IMAGE141
Figure 317724DEST_PATH_IMAGE142
。一旦有玩家到达一个目标位置,其位置不再发生改变,直到回合结束。每一个时间步长,玩家从动作集
Figure 79006DEST_PATH_IMAGE143
中选择动作。任何将玩家移出环境的动作将被忽略,当玩家发生碰撞时,智能体获得的惩罚为
Figure 201683DEST_PATH_IMAGE144
。此外,除了动作
Figure 489445DEST_PATH_IMAGE145
,智能体执行任何其他动作都会获得
Figure 609848DEST_PATH_IMAGE146
的额外惩罚,无论其位置是否发生改变。一旦G1和G2分别被两玩家占据或到达最大的时间步长
Figure 248639DEST_PATH_IMAGE147
,回合结束,玩家的位置重置。在每回合结束时,以智能体当回合的奖励总和的相反数作为对手的回合奖励。
在网格世界中,本申请为其中对手设计了六种策略,如图6所示。其中,智能体应对策略库
Figure 112690DEST_PATH_IMAGE062
包含对手策略(1)~(5)的最优应对策略,而策略(6)智能体未知。在本环境中,智能体应更关注对手的策略,而不能仅关注目标位置的奖励值,因为如果不能准确检测对手策略,智能体性能将因碰撞导致其性能下降。
玩家的one-hot坐标构成智能体的状态参数输入。共进行30组实验,每次实验由4000回合构成,前1000回合对手从策略(1)~(5)中随机选择策略,每500回合切换一次策略。从第1000回合起,对手使用策略(6)。
导航世界中玩家的初始状态参数如图7所示,障碍用灰色阴影表示。每个玩家的候选动作为
Figure 490844DEST_PATH_IMAGE148
,任何动作都不能将智能体移出环境或穿过障碍。本环境中共有三种类型的目标位置,如果两玩家在回合结束时到达同一个目标,智能体可以获得对应的奖励,其中
Figure 47727DEST_PATH_IMAGE149
Figure 908236DEST_PATH_IMAGE150
Figure 310399DEST_PATH_IMAGE151
。否则,如果玩家在回合结束时位于不同的目标位置,则智能体将受到
Figure 572753DEST_PATH_IMAGE152
的惩罚。本环境中最大的时间步长
Figure 97275DEST_PATH_IMAGE153
,一旦玩家到达一个目标位置后,直到回合结束,其位置不再发生改变。与网格世界的设定类似,回合结束时,以智能体当回合的奖励总和的相反数作为对手的回合奖励。
如图7所示,导航世界中对手共有五种策略,分别对应五个目标位置。两玩家位置坐标的one-hot编码构成智能体的状态参数。在策略准备阶段,DRON使用对手策略的类型作为额外的监督信号。智能体应对策略库
Figure 54867DEST_PATH_IMAGE062
包含对手策略(1)~(4)的最优应对策略,而策略(5)智能体未知。共进行30组实验,每次实验由6000回合构成,前1000回合对手从策略(1)~(4)中随机选择策略,每500回合切换一次策略。从第1000回合起,对手使用策略(5)。
足球世界中玩家和足球的初始位置如图8所示,在每回合开始时,对手拥有球权。每个网格只能由一个玩家占据,足球可以与玩家共用一个网格。当玩家发生碰撞时,交换球权,但玩家的位置不发生改变。每个时间步长,玩家从动作集合
Figure 650933DEST_PATH_IMAGE154
中选择动作执行,一旦某一玩家进球或对抗达到最大时间步长
Figure 643160DEST_PATH_IMAGE155
,回合结束,玩家和足球的位置重置。本环境中也有三种类型的目标位置,各自对应不同的瞬时奖励:
Figure 890646DEST_PATH_IMAGE156
Figure 929009DEST_PATH_IMAGE157
Figure 735291DEST_PATH_IMAGE158
。与前两个环境的设定类似,回合结束时,以智能体当回合的奖励总和的相反数作为对手的回合奖励。
如图8所示,足球环境中对手共有六种策略,每个目标位置对应两种对手策略。值得注意的是,智能体的进球位置与当前对手策略的目标位置一致时,进球才有效。例如,如果本回合对手使用策略(3),智能体将球带入环境右侧的G2球门时,本次进球才有效,智能体才能获得对应的奖励
Figure 582025DEST_PATH_IMAGE159
。如果智能体将球带入G1或G3球门,则进球无效。因此,在这种设定下,智能体必须准确识别对手策略才能从环境中获取最优奖励。全局状态参数由玩家的one-hot坐标和球权构成,智能体应对策略库
Figure 776246DEST_PATH_IMAGE062
包含对手策略(1)~(5)的最优应对策略,而策略(6)智能体未知。共进行30组实验,每次实验由4000回合构成,前1000回合对手从策略(1)~(5)中随机选择策略,每500回合切换一次策略。从第1000回合起,对手使用策略(6)。
网格世界中智能体的平均回合奖励如图9所示,同时,1~700回合的局部性能也在图中以子图的形式给出。从子图中可以看出,当对手策略在已知对手策略策略库中切换时,本申请提出的方法可以及时并准确地检测对手策略,整个过程没有性能损失。具体来讲,在1~100回合和500~600回合,OL-BPR获得的平均奖励最多,且性能最稳定。相比之下,DRON在前1000回合都没能达到最优奖励,因为其学习了一个泛化的策略,而不具有对手策略的检测能力。Bayes-ToMoP在此阶段Bayesian类算法中性能最差,因为当对手策略发生变化时,该算法首先检测对手是否也使用了BPR。此外,Bayes-Pepper和Deep BPR+的性能在500回合对手切换策略后有明显的突然下降,这是因为其只在回合结束后才更新信念。相比之下,OL-BPR可以在回合内根据对手的行为不断修正智能体的策略,从而可以准确识别对手策略并重用最优应对策略。
1000回合后,对手使用未知策略(6),各种算法出现了不同程度的性能下降。Bayes-Pepper在所有的算法中性能表现最差,这是因为其不具有学习能力,只能在现有策略库
Figure 708430DEST_PATH_IMAGE062
中选择策略进行应对。DRON的性能优于Bayes-Pepper,这是因为它用“混合专家框架(Mix-of-experts Architecture)”学习了一个具有泛化能力的策略。但其不能检测对手策略,也不具有再学习能力,因此DRON没能获得最优回合奖励。对比Deep BPR+和Bayes-ToMoP两种算法,Deep BPR+使用策略蒸馏网络获取已知对手策略对手策略的公共特征,并检测到对手使用未知策略后在此基础上学习新策略。因此,Deep BPR+的学习效率明显高于不带有策略蒸馏框架的Bayes-ToMoP。本申请提出的OL-BPR方法在所有算法中表现最好。具体来讲,对手使用未知策略后,OL-BPR性能下降最小,对抗策略收敛最快。这是因为OL-BPR可以有效利用Options中的Intra-option策略,借助调用与返回机制,智能体可以自适应地选择合适的已有策略用于加速学习。与不带有Options的OL-BPR w/o options相比,在学习前期OL-BPR性能优势明显,证明了本方法中Option学习网络的有效性。此外,Deep BPR+在学到新策略后需要重新训练策略蒸馏网络,耗时且消耗资源,如果此时对手切换到新的未知策略,智能体可能来不及使用新的策略蒸馏网络。相比之下,OL-BPR不需要维护额外的网络,新策略学习后可以只需加入策略库
Figure 380719DEST_PATH_IMAGE062
,若检测到对手使用了新的未知策略,Option学习网络可以自适应地选择合适的已有策略用于知识迁移。
导航世界和足球世界中智能体策略重用与新策略学习结果分别如图10和图11所示。从其中的子图可以看出,与其他基于Bayesian的算法相比,在对抗初始阶段Bayes-ToMoP重用最优应对策略的速度最慢,这是因为Bayes-ToMoP依赖近几个回合平均奖励的增减判断对手是否使用BPR,在对抗随机切换策略的对手时,这种策略检测方式效率较低。
导航世界中1000回合以后,对手使用未知策略(5)。与网格世界中的结果类似,Bayes-Pepper由于不具有检测未知对手策略的能力,性能最差。由对手策略(1)~(4)训练得到的DRON策略是一个泛化策略,在面对使用未知策略(5)的对手时,不能获得最优回合奖励。Deep BPR+借助策略蒸馏网络,在相同超参的设定下,性能明显优于Bayes-ToMoP。本申请提出的OL-BPR可以高效利用由已有策略构成的Options,在学习过程中,自适应地选取对应的Intra-option策略作为优化目标。借助Option学习网络的调用与返回机制,OL-BPR实现了时序扩展的策略重用,避免了已有知识误用。
相似的对比结果在图11中也有体现。1000回合后,对手使用未知策略(6),OL-BPR和Deep BPR+由于利用了策略库中的已有策略,性能明显优其他对比算法。与Deep BPR+相比,OL-BPR将Intra-option策略作为当前策略的优化目标,对已有知识的利用更为直接,利用效率更高。在2000回合以后OL-BPR性能基本达到最优奖励。
综上,本申请提出的OL-BPR可以准确识别对手策略并重用最优应对策略、检测对手是否使用未知策略,并借助Option学习网络加速对抗策略收敛。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种基于在线学习的策略获取装置。
参考图12,基于在线学习的策略获取装置,包括:
智能体策略重用模块,被配置为获取并识别目标对手策略,并从智能体策略库中选取针对目标对手策略的智能体策略;
未知对手策略确定模块,被配置为根据智能体策略确定目标对手策略是已知对手策略的概率,并将概率加入概率队列;
智能体策略生成模块,被配置为响应于确定概率队列中所有概率的和小于和阈值,基于智能体策略库和预先构建的在线学习模型获得针对目标对手策略的新智能体策略。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于在线学习的策略获取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于在线学习的策略获取方法。
图13示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于在线学习的策略获取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于在线学习的策略获取方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于在线学习的策略获取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
需要说明的是,本申请的实施例还可以以下方式进一步描述:
一种基于在线学习的策略获取方法,包括:
获取并识别目标对手策略,并从智能体策略库中选取针对所述目标对手策略的智能体策略;
根据所述智能体策略确定所述目标对手策略是已知对手策略的概率,并将所述概率加入概率队列;
响应于确定所述概率队列中所有所述概率的和小于和阈值,基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略。
可选的,其中,所述获取并识别目标对手策略,并从智能体策略库中选取针对所述目标对手策略的智能体策略,包括:
利用对手策略库构建对手模型,融合所述对手模型到贝叶斯策略重用模型,得到融合后贝叶斯策略重用模型;
利用所述融合后贝叶斯策略重用模型识别所述目标对手策略,并从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略。
可选的,还包括:
获取预设时间段内的对手行为数据;
基于所述预设时间段生成时间序列,基于所述对手行为数据生成与所述时间序列对应的行为序列;
利用最大化生成所述行为序列的对数概率,利用所述对数概率更新所述对手模型。
可选的,其中,在所述从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略之后,还包括:
根据所述目标对手策略和所述智能体策略得到智能体第一信念;
通过所述对手模型得到智能体第二信念;
根据所述智能体第一信念和所述智能体第二信念得到智能体综合信念;
其中,所述智能体综合信念用于下一次从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略。
可选的,其中,所述根据所述智能体策略确定所述目标对手策略是已知对手策略的概率,并将所述概率加入概率队列,包括:
利用所述智能体策略库和所述对手策略库构建性能模型;
利用所述性能模型根据所述目标对手策略和所述智能体策略确定所述目标对手策略是已知对手策略的概率。
可选的,其中,所述在线学习模型中包含Option学习网络、近端策略优化网络和Option集合;所述Option学习网络中包含Inter-option网络和Termination网络;所述近端策略优化网络中包含Actor网络和Critic网络;所述Option集合中包含多个Option,其中每个所述Option中包含Intra-option策略和结束概率;
所述响应于确定所述概率队列中所有所述概率的和小于和阈值,基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略,包括:
循环执行以下操作,直到从环境中获取的奖励超过奖励阈值,将超过所述奖励阈值的所述奖励对应的当前智能体策略作为所述新智能体策略:
从所述环境中获取状态参数,并将所述状态参数输入所述Option学习网络和所述近端策略优化网络;
利用所述Option学习网络根据所述状态参数从所述Option集合中选择所述Option,并将所述Option中的所述Intra-option策略和所述结束概率发送至所述近端策略优化网络;
利用所述近端策略优化网络根据所述状态参数获得所述当前智能体策略;
根据所述当前智能体策略选择动作并执行,从所述环境中获取所述奖励;
更新所述Option学习网络和所述近端策略优化网络。
可选的,其中,将所述智能体策略库中的所有所述智能体策略分别建模为所述Intra-option策略,并根据所述Intra-option策略构建所述Option。
可选的,其中,所述更新所述Option学习网络和所述近端策略优化网络,包括:
将所述Intra-option策略作为更新所述近端策略优化网络中的所述Actor网络的目标函数的一部分;
在所述从所述环境中获取所述奖励之后,获取下一状态参数,并将所述状态参数、所述动作、所述奖励、所述下一状态参数和所述Option作为一组经验用于作为更新所述Option学习网络中的所述Inter-option网络的损失函数的一部分。
一种基于在线学习的策略获取装置,包括:
智能体策略重用模块,被配置为获取并识别目标对手策略,并从智能体策略库中选取针对所述目标对手策略的智能体策略;
未知对手策略确定模块,被配置为根据所述智能体策略确定所述目标对手策略是已知对手策略的概率,并将所述概率加入概率队列;
智能体策略生成模块,被配置为响应于确定所述概率队列中所有所述概率的和小于和阈值,基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于在线学习的策略获取方法,包括:
获取并识别目标对手策略,并从智能体策略库中选取针对所述目标对手策略的智能体策略;
根据所述智能体策略确定所述目标对手策略是已知对手策略的概率,并将所述概率加入概率队列;
响应于确定所述概率队列中所有所述概率的和小于和阈值,基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略。
2.根据权利要求1所述的方法,其中,所述获取并识别目标对手策略,并从智能体策略库中选取针对所述目标对手策略的智能体策略,包括:
利用对手策略库构建对手模型,融合所述对手模型到贝叶斯策略重用模型,得到融合后贝叶斯策略重用模型;
利用所述融合后贝叶斯策略重用模型识别所述目标对手策略,并从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略。
3.根据权利要求2所述的方法,还包括:
获取预设时间段内的对手行为数据;
基于所述预设时间段生成时间序列,基于所述对手行为数据生成与所述时间序列对应的行为序列;
利用最大化生成所述行为序列的对数概率,利用所述对数概率更新所述对手模型。
4.根据权利要求2所述的方法,其中,在所述从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略之后,还包括:
根据所述目标对手策略和所述智能体策略得到智能体第一信念;
通过所述对手模型得到智能体第二信念;
根据所述智能体第一信念和所述智能体第二信念得到智能体综合信念;
其中,所述智能体综合信念用于下一次从所述智能体策略库中获取针对所述目标对手策略的所述智能体策略。
5.根据权利要求2所述的方法,其中,所述根据所述智能体策略确定所述目标对手策略是已知对手策略的概率,并将所述概率加入概率队列,包括:
利用所述智能体策略库和所述对手策略库构建性能模型;
利用所述性能模型根据所述目标对手策略和所述智能体策略确定所述目标对手策略是已知对手策略的概率。
6.根据权利要求1所述的方法,其中,所述在线学习模型中包含Option学习网络、近端策略优化网络和Option集合;所述Option学习网络中包含Inter-option网络和Termination网络;所述近端策略优化网络中包含Actor网络和Critic网络;所述Option集合中包含多个Option,其中每个所述Option中包含Intra-option策略和结束概率;
所述响应于确定所述概率队列中所有所述概率的和小于和阈值,基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略,包括:
循环执行以下操作,直到从环境中获取的奖励超过奖励阈值,将超过所述奖励阈值的所述奖励对应的当前智能体策略作为所述新智能体策略:
从所述环境中获取状态参数,并将所述状态参数输入所述Option学习网络和所述近端策略优化网络;
利用所述Option学习网络根据所述状态参数从所述Option集合中选择所述Option,并将所述Option中的所述Intra-option策略和所述结束概率发送至所述近端策略优化网络;
利用所述近端策略优化网络根据所述状态参数获得所述当前智能体策略;
根据所述当前智能体策略选择动作并执行,从所述环境中获取所述奖励;
更新所述Option学习网络和所述近端策略优化网络。
7.根据权利要求6所述的方法,其中,将所述智能体策略库中的所有所述智能体策略分别建模为所述Intra-option策略,并根据所述Intra-option策略构建所述Option。
8.根据权利要求6所述的方法,其中,所述更新所述Option学习网络和所述近端策略优化网络,包括:
将所述Intra-option策略作为更新所述近端策略优化网络中的所述Actor网络的目标函数的一部分;
在所述从所述环境中获取所述奖励之后,获取下一状态参数,并将所述状态参数、所述动作、所述奖励、所述下一状态参数和所述Option作为一组经验用于作为更新所述Option学习网络中的所述Inter-option网络的损失函数的一部分。
9.一种基于在线学习的策略获取装置,包括:
智能体策略重用模块,被配置为获取并识别目标对手策略,并从智能体策略库中选取针对所述目标对手策略的智能体策略;
未知对手策略确定模块,被配置为根据所述智能体策略确定所述目标对手策略是已知对手策略的概率,并将所述概率加入概率队列;
智能体策略生成模块,被配置为响应于确定所述概率队列中所有所述概率的和小于和阈值,基于所述智能体策略库和预先构建的在线学习模型获得针对所述目标对手策略的新智能体策略。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
CN202110772824.0A 2021-07-08 2021-07-08 基于在线学习的策略获取方法、装置及设备 Active CN113326902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110772824.0A CN113326902B (zh) 2021-07-08 2021-07-08 基于在线学习的策略获取方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772824.0A CN113326902B (zh) 2021-07-08 2021-07-08 基于在线学习的策略获取方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113326902A true CN113326902A (zh) 2021-08-31
CN113326902B CN113326902B (zh) 2021-11-05

Family

ID=77426082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772824.0A Active CN113326902B (zh) 2021-07-08 2021-07-08 基于在线学习的策略获取方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113326902B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154397A (zh) * 2021-11-09 2022-03-08 大连理工大学 一种基于深度强化学习的隐式对手建模方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106964145A (zh) * 2017-03-28 2017-07-21 南京邮电大学 一种仿人足球机器人传球控制方法及球队控球方法
CN108229685A (zh) * 2016-12-14 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种空地一体的无人智能决策方法
CN109726903A (zh) * 2018-12-19 2019-05-07 中国电子科技集团公司信息科学研究院 基于注意力机制的分布式多智能体协同决策方法
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
CN112742028A (zh) * 2021-01-22 2021-05-04 中国人民解放军国防科技大学 一种对抗博弈的编队决策方法、系统、介质及设备
CN112884152A (zh) * 2021-03-26 2021-06-01 中国人民解放军国防科技大学 一种基于对手模型和迭代推理的策略识别与重用方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229685A (zh) * 2016-12-14 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种空地一体的无人智能决策方法
CN106964145A (zh) * 2017-03-28 2017-07-21 南京邮电大学 一种仿人足球机器人传球控制方法及球队控球方法
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
CN109726903A (zh) * 2018-12-19 2019-05-07 中国电子科技集团公司信息科学研究院 基于注意力机制的分布式多智能体协同决策方法
CN112742028A (zh) * 2021-01-22 2021-05-04 中国人民解放军国防科技大学 一种对抗博弈的编队决策方法、系统、介质及设备
CN112884152A (zh) * 2021-03-26 2021-06-01 中国人民解放军国防科技大学 一种基于对手模型和迭代推理的策略识别与重用方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"空战机动中多智能体协同对抗问题研究": "陈浩等", 《第八届中国指挥控制大会论文集》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154397A (zh) * 2021-11-09 2022-03-08 大连理工大学 一种基于深度强化学习的隐式对手建模方法
CN114154397B (zh) * 2021-11-09 2024-05-10 大连理工大学 一种基于深度强化学习的隐式对手建模方法

Also Published As

Publication number Publication date
CN113326902B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN111291890B (zh) 一种博弈策略优化方法、系统及存储介质
US20210374538A1 (en) Reinforcement learning using target neural networks
CN108776483B (zh) 基于蚁群算法和多智能体q学习的agv路径规划方法和系统
CN110648049B (zh) 一种基于多智能体的资源分配方法与系统
CN112269382B (zh) 一种机器人多目标路径规划方法
CN113561986A (zh) 自动驾驶汽车决策方法及装置
CN111026272A (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN112734014A (zh) 基于置信上界思想的经验回放采样强化学习方法及系统
CN113326902B (zh) 基于在线学习的策略获取方法、装置及设备
CN113018866A (zh) 地图资源的加载方法和装置、存储介质、电子装置
Mousavi et al. Applying q (λ)-learning in deep reinforcement learning to play atari games
Huang et al. Combo-action: Training agent for fps game with auxiliary tasks
CN112613608A (zh) 一种强化学习方法及相关装置
CN112884152A (zh) 一种基于对手模型和迭代推理的策略识别与重用方法
CN114201303A (zh) 工业物联网环境下固定路径agv的任务卸载优化方法
CN116036601B (zh) 游戏处理方法、装置及计算机设备、存储介质
Loscalzo et al. Sample aware embedded feature selection for reinforcement learning
US11651282B2 (en) Learning method for learning action of agent using model-based reinforcement learning
Morales Deep Reinforcement Learning
Chen et al. Accurate policy detection and efficient knowledge reuse against multi-strategic opponents
Ozkohen et al. Learning to play donkey kong using neural networks and reinforcement learning
CN116796841A (zh) 智能体策略选择方法、电子设备及存储介质
CN113963551B (zh) 基于协作定位的车辆定位方法、系统、设备及介质
CN115401693A (zh) 机器人的控制方法、装置、电子设备及存储介质
CN116452011B (zh) 一种用于智能体决策的数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant