CN112990485A - 基于强化学习的知识策略选择方法与装置 - Google Patents

基于强化学习的知识策略选择方法与装置 Download PDF

Info

Publication number
CN112990485A
CN112990485A CN202110431783.9A CN202110431783A CN112990485A CN 112990485 A CN112990485 A CN 112990485A CN 202110431783 A CN202110431783 A CN 202110431783A CN 112990485 A CN112990485 A CN 112990485A
Authority
CN
China
Prior art keywords
decision
strategy
learning
reinforcement learning
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110431783.9A
Other languages
English (en)
Inventor
寇广
易晓东
王之元
韩晓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202110431783.9A priority Critical patent/CN112990485A/zh
Publication of CN112990485A publication Critical patent/CN112990485A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于强化学习的知识策略选择方法与装置,所述知识策略选择方法包括下层和上层:将下层的n个不同来源的决策系统
Figure 434328DEST_PATH_IMAGE001
作为一级策略源,分别输入
Figure 100004_DEST_PATH_IMAGE002
,产生n个不同的决策结果;通过上层的基于强化学习算法训练的元学习智能体
Figure 553594DEST_PATH_IMAGE003
,融合n个不同的决策结果并产生最终决策输出;所述元学习智能体
Figure 664638DEST_PATH_IMAGE003
在各个一级策略源产生的决策中探索,选择出在不同输入
Figure 830041DEST_PATH_IMAGE002
下,一级策略源中能够产生的相对最优决策。根据本发明的策略选择方法与选择装置实现了更高质量的决策与更强的泛化性。

Description

基于强化学习的知识策略选择方法与装置
技术领域
本发明涉及人工智能领域,具体涉及一种基于强化学习的知识策略选择方法与装置。
背景技术
随着人工智能领域深度学习技术的迅速发展,将深度学习与强化学习相结合的深度强化学习技术取得了成为了新的研究热点。传统的强化学习方法无法解决带有高维状态、动作空间的任务,而深度强化学习利用了深度学习强大的感知及拟合能力,通过端对端的学习方式实现了从原始输入到输出的智能控制,被认为是通往通用人工智能的重要途径。深度强化学习训练主要包含两个步骤:收集训练数据与更新决策策略。收集训练数据是指收集智能体与环境交互产生的数据,智能体和环境的交互过程如图1所示,智能体和环境在一个离散时间序列上相互作用,
Figure 230786DEST_PATH_IMAGE001
智能体收到环境状态信息,并且在此基础上选择动作,在
Figure 616768DEST_PATH_IMAGE002
时间点,智能体收到由所选择的动作带来的代表奖励的数值,并且处于新的状态。智能体与环境交互的过程可采用
Figure 130925DEST_PATH_IMAGE003
序列表示。训练数据通常以
Figure 994976DEST_PATH_IMAGE004
的形式存储。深度强化学习的目标是学习到一个最大化智能体累计期望回报的策略。智能体通过对训练数据采样更新决策神经网络,其学习方式有离线学习和在线学习两种。离线学习指产生训练数据的策略与智能体的行为策略不同。在线学习指采用当前行为策略产生的数据更新网络。深度强化学习算法还可根据更新梯度的计算方式不同,分为基于值函数的方法,基于策略梯度的方法。基于值函数的方法根据贝尔曼方程通过深度神经网络拟合出每个状态下智能体动作的价值,在价值函数的基础上学习出有效的智能体策略。基于策略梯度的方法采用神经网络直接拟合智能体的策略,产生各个状态下的智能体行为概率分布,采用梯度上升的方法根据奖励等信息实现策略的更新。
目前,实现优化决策模型的相关方法主要有集成学习stacking方法和混合专家模型方法。Stacking是一种训练元学习器结合个体学习器的方法,其基本思想是:首先使用原始的训练数据集来训练一级学习器;之后,使用以及学习器的输出作为输入特征,并使用对应原始标记作为信标机,组成一个新数据集训练二级学习器(元学习器)。混合专家模型方法则是将一个复杂的任务拆解成几个相对简单且更小的子任务,然后针对不同的子任务训练个体学习器(专家),该方法通常采用门控机制结合所有专家的局部输出得到最终输出。
Stacking属于监督学习方法,stacking方法为了避免元学习器过拟合的问题,需使用个体学习器没有使用过的样本产生元学习器的训练样本,使得算法的样本利用率不高;stacking方法二级学习器需要真实标记与所有个体学习器输出值作为训练数据,难以在时序决策问题中使用。
而混合专家模型方法采用‘分而治之’思想,需要将任务切分为子任务,需要设计门控函数结合子任务解。并且,现有技术中使用单一策略源得到的决策模型普遍具有决策质量不高的技术弊端。因此上面介绍的现有技术中的两种优化决策方法都存在其各自的不足之处。
对此,本发明提出了一种基于强化学习的知识策略选择方法与选择装置,采用强化学习算法对各个策略源产生的决策进行探索,组合不同策略源的决策方案得到了性能更强大的决策模型。相较于采用单个策略源的决策,本发明可以实现更高质量的决策与更强的泛化性。
发明内容
针对现有技术存在的问题,本发明的目的在于解决现有技术中的学习方法使用单一策略源导致决策质量不高,以及不能同时应用于非时序决策问题和时序决策问题;并且需要切分为子任务导致效率较低,本发明提出一种能够实现更高质量的决策与更强的泛化性的能够融合多个策略源的知识策略选择方法与选择装置。
根据本发明提供的基于强化学习的知识策略选择方法,所述知识策略选择方法包括下层和上层:
下层:将下层的n个不同来源的决策系统
Figure 278190DEST_PATH_IMAGE005
作为为一级策略源,分别在输入
Figure 303915DEST_PATH_IMAGE006
下产生n个不同的决策结果;
上层:通过上层的基于强化学习算法训练的元学习智能体
Figure 39790DEST_PATH_IMAGE007
,融合n个不同的决策结果并产生最终决策输出;所述元学习智能体
Figure 707531DEST_PATH_IMAGE007
在各个一级策略源产生的决策中探索,选择出在不同输入
Figure 609366DEST_PATH_IMAGE006
下,一级策略源中能够产生的相对最优决策。
进一步,所述一级策略源的输入
Figure 71571DEST_PATH_IMAGE006
为样本数据的输入或当前状态信息,输出为各自的决策结果
Figure 560322DEST_PATH_IMAGE008
;所述元学习智能体的输入为所有一级策略源的决策结果与
Figure 766175DEST_PATH_IMAGE006
,输出为决策模型最终的输出;所述知识策略选择方法可应用在非时序决策问题与时序决策问题中。
进一步,所述知识策略选择装置应用在非时序决策问题时,解决流程分为训练和测试两个阶段;
其中,在所述训练阶段,给定训练数据集
Figure 492823DEST_PATH_IMAGE009
,元学习智能体
Figure 391508DEST_PATH_IMAGE007
采用一级策略源的输出结果与标签数据训练;
在所述测试阶段,给定测试数据集
Figure 836396DEST_PATH_IMAGE010
,测试智能体的预测准确率。
进一步,在所述训练阶段,训练过程的流程为:首先,分批次向各个一级策略源
Figure 845941DEST_PATH_IMAGE005
输入数据
Figure 459718DEST_PATH_IMAGE006
,得到各自的决策结果
Figure 263726DEST_PATH_IMAGE008
;其次,智能体
Figure 195910DEST_PATH_IMAGE007
按照一定的探索策略从
Figure 212407DEST_PATH_IMAGE008
中选择决策
Figure 648068DEST_PATH_IMAGE011
作为决策系统最终的预测,收获
Figure 888556DEST_PATH_IMAGE012
的奖励;迭代上述步骤,智能体
Figure 806572DEST_PATH_IMAGE007
按照强化学习算法最终学习出决策策略
Figure 423498DEST_PATH_IMAGE013
进一步,在所述测试阶段,向元学习智能体
Figure 244823DEST_PATH_IMAGE007
输入测试数据
Figure 921792DEST_PATH_IMAGE006
,得到预测结果
Figure 828568DEST_PATH_IMAGE014
;预测结果
Figure 718027DEST_PATH_IMAGE014
中的预测正确比率或预测结果与标签数据的之间差距作为决策模型的最终准确率。
进一步,所述知识策略选择方法应用在时序决策问题时,其流程为:从马尔科夫过程的初始状态
Figure 925017DEST_PATH_IMAGE015
开始,一级策略源根据当前状态产生相应的决策
Figure 772888DEST_PATH_IMAGE016
,元学习智能体的动作空间为一级策略源产生的决策
Figure 432539DEST_PATH_IMAGE016
,输入状态
Figure 125689DEST_PATH_IMAGE015
,根据一定探索策略选择出最终决策:
Figure 921606DEST_PATH_IMAGE017
,执行得到环境给出的奖励值
Figure 430124DEST_PATH_IMAGE018
,并进入下一状态
Figure 311492DEST_PATH_IMAGE019
,重复迭代上述过程直至到达最终状态,智能体
Figure 73912DEST_PATH_IMAGE007
按照强化学习算法最终学习出决策策略
Figure 989915DEST_PATH_IMAGE013
另一方面,本发明提供一种基于强化学习的知识策略选择装置,所述知识策略选择装置为双层结构,下层包括n个不同来源的决策系统
Figure 648430DEST_PATH_IMAGE005
,作为一级策略源,上层为基于强化学习算法训练的元学习智能体
Figure 282673DEST_PATH_IMAGE007
,所述知识策略选择装置用于实现本发明的基于强化学习的知识策略选择方法。
进一步,所述非时序决策问题包含回归预测,分类预测和/或聚类问题,元学习智能体和一级策略源产生的决策没有时间上的连续性,一级策略源可以为训练完成的神经网络或线性回归函数的预测模型。
进一步,时序决策问题中,元学习智能体与一级策略源在前后时间步上产生的决策相关联;一级策略源可以为训练后的强化学习决策系统或专家系统。
另一方面,本发明还涉及一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述电子设备能够实现本发明的基于强化学习的知识策略选择方法。
相较于stacking方法,本发明中训练元学习器的方式不同:本发明采用强化学习方法训练元学习器,而不是监督学习方法。此外,stacking方法为了避免元学习器过拟合的问题,需使用个体学习器没有使用过的样本产生元学习器的训练样本,使得算法的样本利用率不高。而在本发明中,元学习器的训练数据与个体学习器的训练数据无直接联系,因此不存在过拟合的问题。此外,stacking方法二级学习器需要真实标记与所有个体学习器输出值作为训练数据,难以在时序决策问题中使用,而本发明既可应用在非时序决策问题中也可用在时序决策问题中。
与混合专家模型方法相比:不同于混合专家模型方法的‘分而治之’思想,本发明中不同的子策略是解决同一任务且来源不同的决策模型。因此,不存在混合专家模型方法中如何将任务切分为子任务的问题,同时,本发明通过训练二级元学习器实现策略的结合,省去了混合专家模型方法中设计门控函数结合子任务解的步骤。
本发明由于融合多个策略源的知识,组合优化不同来源的策略以得到更优的决策模型。在本发明中具体涉及的策略源包含专家知识系统,神经网络学习器等。本发明的主要研究内容是在非时序决策与时序决策问题中,通过训练元学习智能体集成不同策略源产生相对最优决策。本发明提出了一种基于强化学习的策略结合方法,采用强化学习算法对各个策略源产生的决策进行探索,组合不同策略源的决策方案得到了性能更强大的决策模型。相较于采用单个策略源的决策,本发明可以实现更高质量的决策与更强的泛化性。
附图说明
图1示出了现有技术中智能体与环境交互的过程;
图2示出了根据本发明的基于强化学习的知识策略选择方法与选择装置的架构示意图;
图3示出了根据本发明的基于强化学习的知识策略选择方法与选择装置的电子设备结构示意图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
根据附图2,本发明提供的基于强化学习的知识策略选择方法与装置,其目的在于结合不同来源策略的优势,训练出更优的决策模型。本发明中的策略不仅仅局限于神经网络学习器,还可为专家决策系统,传统决策算法等。单独使用这些策略无法达到最优效果,而每种策略都有着各自较优的决策范围。为了在同一任务中组合这些策略各自的决策优势,本发明采用强化学习方法训练元学习智能体,以试错的学习方式探索出不同策略源各自的决策优劣并输出最终的决策。此外,本发明中不同来源的策略间的差异性满足了集成学习对于子策略多样性的要求。通过上述方式,本发明融合了来自神经网络,人类知识,决策算法等不同来源的决策源,提供了性能更强的集成决策模型。
关于集成方法,是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差、偏差或改进预测的效果。集合方法可分为两大类:序列集成方法和并行集成方法。其中序列集成方法参与训练的基础学习器按照顺序生成。序列方法的原理是利用基础学习器之间的依赖关系。通过对之前训练中错误标记的样本赋值较高的权重,可以提高整体的预测效果。并行集成方法中参与训练的基础学习器为并行生成。并行方法的原理是利用基础学习器之间的独立性,通过平均可以显著降低错误。大多数集成方法使用单一基础学习算法来产生同质的基础学习器,即相同类型的学习器,为同质集成。还有一些使用异构学习器的方法,即不同类型的学习器,为异构集成。为了使集成方法比其中的任何单一算法更准确,基础学习器须尽可能准确和多样化。
根据本发明的基于强化学习的知识策略选择方法与装置,如图2所示,所述知识策略选择装置为双层结构:下层有
Figure 583205DEST_PATH_IMAGE020
个不同来源的决策系统
Figure 619294DEST_PATH_IMAGE005
,为一级策略源,命名为策略源1、策略源2…策略源n,n个策略源可分别获得决策结果1、决策结果2…决策结果n。上层为基于强化学习算法训练的元学习器(智能体),也称为元学习智能体
Figure 448710DEST_PATH_IMAGE007
,融合下层n个策略源并产生最终决策输出。其中,一级策略源的输入
Figure 570249DEST_PATH_IMAGE006
为样本数据的输入或当前状态信息,输出为各自的决策结果
Figure 674472DEST_PATH_IMAGE008
。元学习智能体
Figure 33909DEST_PATH_IMAGE007
的输入为所有一级策略源的决策结果及
Figure 63919DEST_PATH_IMAGE006
,输出为决策模型最终的输出。元学习智能体与一级策略源的决策粒度与频率相同,元学习智能体动作空间的长度等于一级策略源的数量
Figure 407176DEST_PATH_IMAGE020
。元学习智能体通过强化学习的方式训练:在各个一级策略源产生的决策中探索,选择出在不同输入
Figure 315089DEST_PATH_IMAGE006
下,下层n个策略源中能够产生的相对最优决策。即
Figure 794612DEST_PATH_IMAGE021
,且从任务整体角度看,
Figure 496989DEST_PATH_IMAGE022
Figure 327542DEST_PATH_IMAGE008
中的最优决策。
本发明提出的策略选择方法与装置的工作原理如下:n个一级策略源分别根据输入
Figure 507987DEST_PATH_IMAGE006
进行计算,获得n个决策结果,再将n个决策结果与输入
Figure 107596DEST_PATH_IMAGE006
共同输入到元学习智能体中,经过计算获得最优决策。
本发明提出的策略选择方法与装置可应用在非时序决策与时序决策问题中。下面分别就两种问题场景描述本发明的流程:
(一)非时序决策问题
非时序决策问题包含回归预测,分类预测,聚类等问题,通常采用监督学习等技术解决。这里的非时序决策问题可看作单步决策问题,其中的元学习智能体及一级策略源产生的决策没有时间上的连续性,一级策略源可以为训练完成的神经网络,线性回归函数等预测模型。方法在非时序决策问题上的解决流程可分为训练和测试两大阶段:
训练:给定训练数据集
Figure 980874DEST_PATH_IMAGE009
,元学习智能体
Figure 298723DEST_PATH_IMAGE007
采用一级策略源的输出结果与标签数据训练。智能体的动作空间为一级策略源的预测结果,长度为一级策略源的数量。为了训练智能体的预测向标签数据靠拢,设计非时序决策环境中的奖励函数为
Figure 17280DEST_PATH_IMAGE023
,其中
Figure 736974DEST_PATH_IMAGE024
为训练样本中的标签数据,
Figure 781154DEST_PATH_IMAGE014
为决策系统的预测。训练过程的流程为:首先,分批次向各个一级策略源
Figure 822184DEST_PATH_IMAGE005
输入数据
Figure 610012DEST_PATH_IMAGE006
,得到各自的决策结果
Figure 184213DEST_PATH_IMAGE008
;其次,智能体
Figure 133714DEST_PATH_IMAGE007
按照一定的探索策略从
Figure 160576DEST_PATH_IMAGE008
中选择决策
Figure 752094DEST_PATH_IMAGE011
作为决策系统最终的预测,收获
Figure 180802DEST_PATH_IMAGE012
的奖励。在迭代上述步骤的过程中,智能体
Figure 301204DEST_PATH_IMAGE007
按照强化学习算法最终学习出决策策略
Figure 80941DEST_PATH_IMAGE013
测试:给定测试数据集
Figure 210572DEST_PATH_IMAGE010
,测试智能体的预测准确率:向元学习智能体
Figure 228206DEST_PATH_IMAGE007
输入测试数据
Figure 50669DEST_PATH_IMAGE006
,得到预测结果
Figure 550658DEST_PATH_IMAGE014
。在测试过程中,预测结果
Figure 483979DEST_PATH_IMAGE014
中的预测正确比率或预测结果与标签数据的之间差距作为决策模型的最终准确率。
本发明中用于训练元学习智能体的强化学习算法可为基于策略梯度的方法和基于值函数的方法等。这里以策略梯度方法中的DDPG算法为例,给出本发明处理非时序决策问题的伪代码:
Figure 356120DEST_PATH_IMAGE025
(二)时序决策问题
时序决策问题是一类循序渐进的推理问题,其中较早的决策会影响后面的决策。时序决策问题通常采用马尔科夫决策过程建模。在时序决策问题中,元学习器与一级策略源在前后时间步上产生的决策相关联。其中,一级策略源可以为训练后的强化学习决策系统,专家系统等。此时,输入数据为决策系统当前所处的状态信息,一级策略源根据当前的状态做出对应的决策。同样地,元学习智能体对一级策略源的决策进行探索,选择出其中最优的决策作为最终的决策结果。与非时序决策不同的是,时序决策问题中的奖励函数为环境给出的奖励。
本发明在时序决策问题上的流程为:从马尔科夫过程的初始状态
Figure 349484DEST_PATH_IMAGE015
开始,一级策略源根据当前状态产生相应的决策
Figure 838234DEST_PATH_IMAGE016
,元学习智能体的动作空间为一级策略源产生的决策
Figure 44087DEST_PATH_IMAGE016
,输入状态
Figure 301893DEST_PATH_IMAGE015
,根据一定探索策略选择出最终决策:
Figure 466158DEST_PATH_IMAGE017
,执行得到环境给出的奖励值
Figure 176625DEST_PATH_IMAGE018
,并进入下一状态
Figure 186170DEST_PATH_IMAGE019
,重复迭代上述过程直至到达最终状态,智能体
Figure 564061DEST_PATH_IMAGE007
按照强化学习算法最终学习出决策策略
Figure 633649DEST_PATH_IMAGE013
同样,本发明中用于训练元学习智能体的强化学习算法可为基于策略梯度的方法,基于值函数的方法等,这里以基于值函数的DQN方法为例,给出本发明处理时序决策问题的伪代码:
Figure 96991DEST_PATH_IMAGE026
其中所述神经网络为前馈神经网络,也被称为多层感知机,是人工神经网络的一种。前馈神经网络结构包括输入层,隐藏层和输出层。其中每一层都包括若干神经元,层与层之间的神经元以全连接的方式进行连接。之所以称之为前馈,是因为数据在网络中是前向传播的,输入数据
Figure 146112DEST_PATH_IMAGE006
首先通过输入层的神经元节点,然后通过隐藏层的神经元节点,最后通过输出层节点产生输出数据
Figure 378510DEST_PATH_IMAGE027
。网络中的隐藏层可能有一层或多层,输入和输出层只有一层。前馈神经网络的本质为一个函数映射:
Figure 618998DEST_PATH_IMAGE028
Figure 304058DEST_PATH_IMAGE029
表示网络的参数,包括连接权重和偏置。前馈神经网络将输入数据
Figure 920984DEST_PATH_IMAGE006
映射到输出数据
Figure 7888DEST_PATH_IMAGE027
,通过最小化网络预测值
Figure 419278DEST_PATH_IMAGE027
与真实标签
Figure 591634DEST_PATH_IMAGE014
的损失函数近似最优函数
Figure 746671DEST_PATH_IMAGE030
本发明提出的基于强化学习的知识策略选择方法与选择装置,采用基于强化学习的策略结合方法,分别在非时序决策问题场景与时序决策问题场景下进行了实验验证。本发明选取了回归预测问题作为非时序决策问题的代表,选取微观操作环境作为时序决策问题场景。
在一级策略源选取方面:在回归预测问题中,本发明选取了一元线性回归模型与深度神经网络模型;在微观操作环境中,本发明选取了基于规则的决策系统与深度神经网络模型。在元学习智能体(元学习器)的训练方面:在回归预测问题中,本发明选取了DDPG算法作为元学习智能体的训练方法;在微观操作环境中,本发明选取了DQN算法作为元学习智能体的训练方法。
本发明将单独使用一级策略源决策的方法作为对照组,与本发明提出的决策选择方法与选择装置使用的决策方法进行对比,实验结果如下两表所示:
(1)回归预测问题
Figure 688083DEST_PATH_IMAGE031
(2)微观操作对抗问题
Figure 270374DEST_PATH_IMAGE032
此外,如图3所示,本发明还提供一种电子设备,包括如下部件:处理器301、存储器302、通信接口303和通信总线304;其中,所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信;所述通信接口303用于实现各设备之间的信息传输;所述处理器301用于调用所述存储器302中的计算机程序,所述处理器中包括上述基于强化学习的知识策略选择装置。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序可应用于根据本发明的基于强化学习的知识策略选择方法与选择装置以实现其最优决策。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行。

Claims (9)

1.一种基于强化学习的知识策略选择方法,其特征在于,所述知识策略选择方法包括下层和上层:
下层:将下层的n个不同来源的决策系统
Figure 676545DEST_PATH_IMAGE001
作为一级策略源,分别输入
Figure DEST_PATH_IMAGE002
,产生n个不同的决策结果;
上层:通过上层的基于强化学习算法训练的元学习智能体
Figure 266795DEST_PATH_IMAGE003
,融合n个不同的决策结果并产生最终决策输出;所述元学习智能体
Figure 932263DEST_PATH_IMAGE003
在各个一级策略源产生的决策中探索,选择出在不同输入
Figure 217750DEST_PATH_IMAGE002
下,一级策略源中能够产生的相对最优决策。
2.根据权利要求1所述的基于强化学习的知识策略选择方法,其特征在于,所述一级策略源的输入
Figure 610554DEST_PATH_IMAGE002
为样本数据的输入或当前状态信息,输出为各自的决策结果
Figure DEST_PATH_IMAGE004
;所述元学习智能体的输入为所有一级策略源的决策结果及
Figure 337202DEST_PATH_IMAGE002
,输出为决策模型最终的输出;所述知识策略选择方法可应用在非时序决策问题和时序决策问题中。
3.根据权利要求2所述的基于强化学习的知识策略选择方法,其特征在于,所述知识策略选择方法应用在非时序决策问题时,解决流程分为训练和测试两个阶段;
其中,在所述训练阶段,给定训练数据集
Figure 688418DEST_PATH_IMAGE005
,元学习智能体
Figure 195623DEST_PATH_IMAGE003
采用一级策略源的输出结果与对应的标签数据进行训练;
在所述测试阶段,给定测试数据集
Figure DEST_PATH_IMAGE006
,测试智能体的预测准确率。
4.根据权利要求3所述的基于强化学习的知识策略选择方法,其特征在于,在所述训练阶段,训练过程的流程为:首先,分批次向各个一级策略源
Figure 674008DEST_PATH_IMAGE001
输入数据
Figure 973272DEST_PATH_IMAGE002
,得到各自的决策结果
Figure 839596DEST_PATH_IMAGE004
;其次,智能体
Figure 975043DEST_PATH_IMAGE003
按照一定的探索策略从
Figure 319436DEST_PATH_IMAGE004
中选择决策
Figure 82993DEST_PATH_IMAGE007
作为决策系统最终的预测,收获
Figure DEST_PATH_IMAGE008
的奖励;迭代上述步骤,智能体
Figure 770152DEST_PATH_IMAGE003
按照强化学习算法最终学习出决策策略
Figure 392894DEST_PATH_IMAGE009
5.根据权利要求3所述的基于强化学习的知识策略选择方法,其特征在于,在所述测试阶段,向元学习智能体
Figure 806558DEST_PATH_IMAGE003
输入测试数据
Figure 814834DEST_PATH_IMAGE002
,得到预测结果
Figure DEST_PATH_IMAGE010
;预测结果
Figure 695066DEST_PATH_IMAGE010
中的预测正确比率或预测结果与标签数据的之间差距作为决策模型的最终准确率。
6.根据权利要求2所述的基于强化学习的知识策略选择方法,其特征在于,所述知识策略选择方法应用在时序决策问题时,其流程为:从马尔科夫过程的初始状态
Figure 664159DEST_PATH_IMAGE011
开始,一级策略源根据当前状态产生相应的决策
Figure DEST_PATH_IMAGE012
,元学习智能体的动作空间为一级策略源产生的决策
Figure 271726DEST_PATH_IMAGE012
,输入状态
Figure 9875DEST_PATH_IMAGE011
,根据一定探索策略选择出最终决策:
Figure 264270DEST_PATH_IMAGE013
,执行得到环境给出的奖励值
Figure DEST_PATH_IMAGE014
,并进入下一状态
Figure 376452DEST_PATH_IMAGE015
,重复迭代上述过程直至到达最终状态,智能体
Figure 866339DEST_PATH_IMAGE003
按照强化学习算法最终学习出决策策略
Figure 599940DEST_PATH_IMAGE009
7.一种基于强化学习的知识策略选择装置,其特征在于,所述知识策略选择装置为双层结构,下层包括n个不同来源的决策系统
Figure 149870DEST_PATH_IMAGE001
做为一级策略源,上层为基于强化学习算法训练的元学习智能体
Figure 93555DEST_PATH_IMAGE003
,所述知识策略选择装置用于实现上述权利要求1-6任一项所述的基于强化学习的知识策略选择方法。
8.根据权利要求7所述的基于强化学习的知识策略选择装置,其特征在于,所述非时序决策问题包含回归预测,分类预测和/或聚类问题,元学习智能体和一级策略源产生的决策没有时间上的连续性,一级策略源可以为训练完成的神经网络或线性回归函数的预测模型。
9.根据权利要求7所述的基于强化学习的知识策略选择装置,其特征在于,时序决策问题中,元学习智能体与一级策略源在前后时间步上产生的决策相关联;一级策略源可以为训练后的强化学习决策系统或专家系统。
CN202110431783.9A 2021-04-21 2021-04-21 基于强化学习的知识策略选择方法与装置 Pending CN112990485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110431783.9A CN112990485A (zh) 2021-04-21 2021-04-21 基于强化学习的知识策略选择方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110431783.9A CN112990485A (zh) 2021-04-21 2021-04-21 基于强化学习的知识策略选择方法与装置

Publications (1)

Publication Number Publication Date
CN112990485A true CN112990485A (zh) 2021-06-18

Family

ID=76341586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110431783.9A Pending CN112990485A (zh) 2021-04-21 2021-04-21 基于强化学习的知识策略选择方法与装置

Country Status (1)

Country Link
CN (1) CN112990485A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114609925A (zh) * 2022-01-14 2022-06-10 中国科学院自动化研究所 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN114925789A (zh) * 2022-03-28 2022-08-19 安徽建筑大学 一种基于rfid和集成学习的资产设备智能感知方法及装置
CN115840892A (zh) * 2022-12-09 2023-03-24 中山大学 一种复杂环境下多智能体层次化自主决策方法及系统
CN115986750A (zh) * 2022-12-30 2023-04-18 南京邮电大学 分层多智能体深度强化学习配电网电压调节方法
CN117899492A (zh) * 2024-03-20 2024-04-19 成都帆点创想科技有限公司 一种游戏玩法场景的实时推荐方法及系统
CN115986750B (zh) * 2022-12-30 2024-05-17 南京邮电大学 分层多智能体深度强化学习配电网电压调节方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114609925A (zh) * 2022-01-14 2022-06-10 中国科学院自动化研究所 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN114609925B (zh) * 2022-01-14 2022-12-06 中国科学院自动化研究所 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN114925789A (zh) * 2022-03-28 2022-08-19 安徽建筑大学 一种基于rfid和集成学习的资产设备智能感知方法及装置
CN114925789B (zh) * 2022-03-28 2023-07-04 安徽建筑大学 一种基于rfid和集成学习的资产设备智能感知方法及装置
CN115840892A (zh) * 2022-12-09 2023-03-24 中山大学 一种复杂环境下多智能体层次化自主决策方法及系统
CN115840892B (zh) * 2022-12-09 2024-04-19 中山大学 一种复杂环境下多智能体层次化自主决策方法及系统
CN115986750A (zh) * 2022-12-30 2023-04-18 南京邮电大学 分层多智能体深度强化学习配电网电压调节方法
CN115986750B (zh) * 2022-12-30 2024-05-17 南京邮电大学 分层多智能体深度强化学习配电网电压调节方法
CN117899492A (zh) * 2024-03-20 2024-04-19 成都帆点创想科技有限公司 一种游戏玩法场景的实时推荐方法及系统

Similar Documents

Publication Publication Date Title
Wang et al. Deep reinforcement learning for transportation network combinatorial optimization: A survey
Du et al. A survey on multi-agent deep reinforcement learning: from the perspective of challenges and applications
Ge et al. Cooperative deep Q-learning with Q-value transfer for multi-intersection signal control
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Papageorgiou et al. Fuzzy cognitive map ensemble learning paradigm to solve classification problems: Application to autism identification
Wu et al. Distributed agent-based deep reinforcement learning for large scale traffic signal control
Ye et al. Parallel cognition: Hybrid intelligence for human-machine interaction and management
Huang et al. Computational modeling of emotion-motivated decisions for continuous control of mobile robots
Milutinovic et al. End-to-end training of differentiable pipelines across machine learning frameworks
Huo et al. Cooperative control for multi-intersection traffic signal based on deep reinforcement learning and imitation learning
WO2021160857A1 (en) Method for injecting human knowledge into ai models
Song et al. Ensemble reinforcement learning: A survey
Yu et al. Hybrid attention-oriented experience replay for deep reinforcement learning and its application to a multi-robot cooperative hunting problem
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
Wang et al. Distributed reinforcement learning for robot teams: A review
Li et al. Hierarchical diffusion for offline decision making
Wang et al. Logistics-involved task scheduling in cloud manufacturing with offline deep reinforcement learning
Zhu et al. Extracting decision tree from trained deep reinforcement learning in traffic signal control
Huang et al. Improving traffic signal control operations using proximal policy optimization
Zhang et al. Universal value iteration networks: When spatially-invariant is not universal
Zhang et al. Clique-based cooperative multiagent reinforcement learning using factor graphs
CN115587615A (zh) 一种感知行动回路决策的内在奖励生成方法
Huo et al. Tensor-based cooperative control for large scale multi-intersection traffic signal using deep reinforcement learning and imitation learning
Wang et al. A graph neural network with negative message passing for graph coloring
Sachdeva et al. Gapformer: Fast autoregressive transformers meet rnns for personalized adaptive cruise control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210618

RJ01 Rejection of invention patent application after publication