CN112990485A

CN112990485A - 基于强化学习的知识策略选择方法与装置

Info

Publication number: CN112990485A
Application number: CN202110431783.9A
Authority: CN
Inventors: 寇广; 易晓东; 王之元; 韩晓旭
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-06-18

Abstract

本发明公开了一种基于强化学习的知识策略选择方法与装置，所述知识策略选择方法包括下层和上层：将下层的n个不同来源的决策系统

作为一级策略源,分别输入

，产生n个不同的决策结果；通过上层的基于强化学习算法训练的元学习智能体

，融合n个不同的决策结果并产生最终决策输出；所述元学习智能体

在各个一级策略源产生的决策中探索，选择出在不同输入

下，一级策略源中能够产生的相对最优决策。根据本发明的策略选择方法与选择装置实现了更高质量的决策与更强的泛化性。

Description

基于强化学习的知识策略选择方法与装置

技术领域

本发明涉及人工智能领域，具体涉及一种基于强化学习的知识策略选择方法与装置。

背景技术

随着人工智能领域深度学习技术的迅速发展，将深度学习与强化学习相结合的深度强化学习技术取得了成为了新的研究热点。传统的强化学习方法无法解决带有高维状态、动作空间的任务，而深度强化学习利用了深度学习强大的感知及拟合能力，通过端对端的学习方式实现了从原始输入到输出的智能控制，被认为是通往通用人工智能的重要途径。深度强化学习训练主要包含两个步骤：收集训练数据与更新决策策略。收集训练数据是指收集智能体与环境交互产生的数据，智能体和环境的交互过程如图1所示，智能体和环境在一个离散时间序列上相互作用,

智能体收到环境状态信息，并且在此基础上选择动作，在

时间点，智能体收到由所选择的动作带来的代表奖励的数值，并且处于新的状态。智能体与环境交互的过程可采用

序列表示。训练数据通常以

的形式存储。深度强化学习的目标是学习到一个最大化智能体累计期望回报的策略。智能体通过对训练数据采样更新决策神经网络，其学习方式有离线学习和在线学习两种。离线学习指产生训练数据的策略与智能体的行为策略不同。在线学习指采用当前行为策略产生的数据更新网络。深度强化学习算法还可根据更新梯度的计算方式不同，分为基于值函数的方法，基于策略梯度的方法。基于值函数的方法根据贝尔曼方程通过深度神经网络拟合出每个状态下智能体动作的价值，在价值函数的基础上学习出有效的智能体策略。基于策略梯度的方法采用神经网络直接拟合智能体的策略，产生各个状态下的智能体行为概率分布，采用梯度上升的方法根据奖励等信息实现策略的更新。

目前，实现优化决策模型的相关方法主要有集成学习stacking方法和混合专家模型方法。Stacking是一种训练元学习器结合个体学习器的方法，其基本思想是：首先使用原始的训练数据集来训练一级学习器；之后，使用以及学习器的输出作为输入特征，并使用对应原始标记作为信标机，组成一个新数据集训练二级学习器（元学习器）。混合专家模型方法则是将一个复杂的任务拆解成几个相对简单且更小的子任务，然后针对不同的子任务训练个体学习器（专家），该方法通常采用门控机制结合所有专家的局部输出得到最终输出。

Stacking属于监督学习方法，stacking方法为了避免元学习器过拟合的问题，需使用个体学习器没有使用过的样本产生元学习器的训练样本，使得算法的样本利用率不高；stacking方法二级学习器需要真实标记与所有个体学习器输出值作为训练数据，难以在时序决策问题中使用。

而混合专家模型方法采用‘分而治之’思想，需要将任务切分为子任务，需要设计门控函数结合子任务解。并且，现有技术中使用单一策略源得到的决策模型普遍具有决策质量不高的技术弊端。因此上面介绍的现有技术中的两种优化决策方法都存在其各自的不足之处。

对此，本发明提出了一种基于强化学习的知识策略选择方法与选择装置，采用强化学习算法对各个策略源产生的决策进行探索，组合不同策略源的决策方案得到了性能更强大的决策模型。相较于采用单个策略源的决策，本发明可以实现更高质量的决策与更强的泛化性。

发明内容

针对现有技术存在的问题，本发明的目的在于解决现有技术中的学习方法使用单一策略源导致决策质量不高，以及不能同时应用于非时序决策问题和时序决策问题；并且需要切分为子任务导致效率较低，本发明提出一种能够实现更高质量的决策与更强的泛化性的能够融合多个策略源的知识策略选择方法与选择装置。

根据本发明提供的基于强化学习的知识策略选择方法，所述知识策略选择方法包括下层和上层：

下层：将下层的n个不同来源的决策系统

作为为一级策略源，分别在输入

下产生n个不同的决策结果；

上层：通过上层的基于强化学习算法训练的元学习智能体

在各个一级策略源产生的决策中探索，选择出在不同输入

下，一级策略源中能够产生的相对最优决策。

进一步，所述一级策略源的输入

为样本数据的输入或当前状态信息，输出为各自的决策结果

；所述元学习智能体的输入为所有一级策略源的决策结果与

，输出为决策模型最终的输出；所述知识策略选择方法可应用在非时序决策问题与时序决策问题中。

进一步，所述知识策略选择装置应用在非时序决策问题时，解决流程分为训练和测试两个阶段；

其中，在所述训练阶段，给定训练数据集

，元学习智能体

采用一级策略源的输出结果与标签数据训练；

在所述测试阶段，给定测试数据集

，测试智能体的预测准确率。

进一步，在所述训练阶段，训练过程的流程为：首先，分批次向各个一级策略源

输入数据

，得到各自的决策结果

；其次，智能体

按照一定的探索策略从

中选择决策

作为决策系统最终的预测，收获

的奖励；迭代上述步骤，智能体

按照强化学习算法最终学习出决策策略

。

进一步，在所述测试阶段，向元学习智能体

输入测试数据

，得到预测结果

；预测结果

中的预测正确比率或预测结果与标签数据的之间差距作为决策模型的最终准确率。

进一步，所述知识策略选择方法应用在时序决策问题时，其流程为：从马尔科夫过程的初始状态

开始，一级策略源根据当前状态产生相应的决策

，元学习智能体的动作空间为一级策略源产生的决策

，输入状态

，根据一定探索策略选择出最终决策：

，执行得到环境给出的奖励值

，并进入下一状态

，重复迭代上述过程直至到达最终状态，智能体

按照强化学习算法最终学习出决策策略

。

另一方面，本发明提供一种基于强化学习的知识策略选择装置，所述知识策略选择装置为双层结构，下层包括n个不同来源的决策系统

，作为一级策略源，上层为基于强化学习算法训练的元学习智能体

，所述知识策略选择装置用于实现本发明的基于强化学习的知识策略选择方法。

进一步，所述非时序决策问题包含回归预测，分类预测和/或聚类问题，元学习智能体和一级策略源产生的决策没有时间上的连续性，一级策略源可以为训练完成的神经网络或线性回归函数的预测模型。

进一步，时序决策问题中，元学习智能体与一级策略源在前后时间步上产生的决策相关联；一级策略源可以为训练后的强化学习决策系统或专家系统。

另一方面，本发明还涉及一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述电子设备能够实现本发明的基于强化学习的知识策略选择方法。

相较于stacking方法，本发明中训练元学习器的方式不同：本发明采用强化学习方法训练元学习器，而不是监督学习方法。此外，stacking方法为了避免元学习器过拟合的问题，需使用个体学习器没有使用过的样本产生元学习器的训练样本，使得算法的样本利用率不高。而在本发明中，元学习器的训练数据与个体学习器的训练数据无直接联系，因此不存在过拟合的问题。此外，stacking方法二级学习器需要真实标记与所有个体学习器输出值作为训练数据，难以在时序决策问题中使用，而本发明既可应用在非时序决策问题中也可用在时序决策问题中。

与混合专家模型方法相比：不同于混合专家模型方法的‘分而治之’思想，本发明中不同的子策略是解决同一任务且来源不同的决策模型。因此，不存在混合专家模型方法中如何将任务切分为子任务的问题，同时，本发明通过训练二级元学习器实现策略的结合，省去了混合专家模型方法中设计门控函数结合子任务解的步骤。

本发明由于融合多个策略源的知识，组合优化不同来源的策略以得到更优的决策模型。在本发明中具体涉及的策略源包含专家知识系统，神经网络学习器等。本发明的主要研究内容是在非时序决策与时序决策问题中，通过训练元学习智能体集成不同策略源产生相对最优决策。本发明提出了一种基于强化学习的策略结合方法，采用强化学习算法对各个策略源产生的决策进行探索，组合不同策略源的决策方案得到了性能更强大的决策模型。相较于采用单个策略源的决策，本发明可以实现更高质量的决策与更强的泛化性。

附图说明

图1示出了现有技术中智能体与环境交互的过程；

图2示出了根据本发明的基于强化学习的知识策略选择方法与选择装置的架构示意图；

图3示出了根据本发明的基于强化学习的知识策略选择方法与选择装置的电子设备结构示意图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

根据附图2，本发明提供的基于强化学习的知识策略选择方法与装置，其目的在于结合不同来源策略的优势，训练出更优的决策模型。本发明中的策略不仅仅局限于神经网络学习器，还可为专家决策系统，传统决策算法等。单独使用这些策略无法达到最优效果，而每种策略都有着各自较优的决策范围。为了在同一任务中组合这些策略各自的决策优势，本发明采用强化学习方法训练元学习智能体，以试错的学习方式探索出不同策略源各自的决策优劣并输出最终的决策。此外，本发明中不同来源的策略间的差异性满足了集成学习对于子策略多样性的要求。通过上述方式，本发明融合了来自神经网络，人类知识，决策算法等不同来源的决策源，提供了性能更强的集成决策模型。

关于集成方法，是将几种机器学习技术组合成一个预测模型的元算法，以达到减小方差、偏差或改进预测的效果。集合方法可分为两大类：序列集成方法和并行集成方法。其中序列集成方法参与训练的基础学习器按照顺序生成。序列方法的原理是利用基础学习器之间的依赖关系。通过对之前训练中错误标记的样本赋值较高的权重，可以提高整体的预测效果。并行集成方法中参与训练的基础学习器为并行生成。并行方法的原理是利用基础学习器之间的独立性，通过平均可以显著降低错误。大多数集成方法使用单一基础学习算法来产生同质的基础学习器，即相同类型的学习器，为同质集成。还有一些使用异构学习器的方法，即不同类型的学习器，为异构集成。为了使集成方法比其中的任何单一算法更准确，基础学习器须尽可能准确和多样化。

根据本发明的基于强化学习的知识策略选择方法与装置，如图2所示，所述知识策略选择装置为双层结构：下层有

个不同来源的决策系统

，为一级策略源，命名为策略源1、策略源2…策略源n，n个策略源可分别获得决策结果1、决策结果2…决策结果n。上层为基于强化学习算法训练的元学习器（智能体），也称为元学习智能体

，融合下层n个策略源并产生最终决策输出。其中，一级策略源的输入

为样本数据的输入或当前状态信息，输出为各自的决策结果

。元学习智能体

的输入为所有一级策略源的决策结果及

，输出为决策模型最终的输出。元学习智能体与一级策略源的决策粒度与频率相同，元学习智能体动作空间的长度等于一级策略源的数量

。元学习智能体通过强化学习的方式训练：在各个一级策略源产生的决策中探索，选择出在不同输入

下，下层n个策略源中能够产生的相对最优决策。即

，且从任务整体角度看，

为

中的最优决策。

本发明提出的策略选择方法与装置的工作原理如下：n个一级策略源分别根据输入

进行计算，获得n个决策结果，再将n个决策结果与输入

共同输入到元学习智能体中，经过计算获得最优决策。

本发明提出的策略选择方法与装置可应用在非时序决策与时序决策问题中。下面分别就两种问题场景描述本发明的流程：

（一）非时序决策问题

非时序决策问题包含回归预测，分类预测，聚类等问题，通常采用监督学习等技术解决。这里的非时序决策问题可看作单步决策问题，其中的元学习智能体及一级策略源产生的决策没有时间上的连续性，一级策略源可以为训练完成的神经网络，线性回归函数等预测模型。方法在非时序决策问题上的解决流程可分为训练和测试两大阶段：

训练：给定训练数据集

，元学习智能体

采用一级策略源的输出结果与标签数据训练。智能体的动作空间为一级策略源的预测结果，长度为一级策略源的数量。为了训练智能体的预测向标签数据靠拢，设计非时序决策环境中的奖励函数为

，其中

为训练样本中的标签数据，

为决策系统的预测。训练过程的流程为：首先，分批次向各个一级策略源

输入数据

，得到各自的决策结果

；其次，智能体

按照一定的探索策略从

中选择决策

作为决策系统最终的预测，收获

的奖励。在迭代上述步骤的过程中，智能体

按照强化学习算法最终学习出决策策略

。

测试：给定测试数据集

，测试智能体的预测准确率：向元学习智能体

输入测试数据

，得到预测结果

。在测试过程中，预测结果

本发明中用于训练元学习智能体的强化学习算法可为基于策略梯度的方法和基于值函数的方法等。这里以策略梯度方法中的DDPG算法为例，给出本发明处理非时序决策问题的伪代码：

（二）时序决策问题

时序决策问题是一类循序渐进的推理问题，其中较早的决策会影响后面的决策。时序决策问题通常采用马尔科夫决策过程建模。在时序决策问题中，元学习器与一级策略源在前后时间步上产生的决策相关联。其中，一级策略源可以为训练后的强化学习决策系统，专家系统等。此时，输入数据为决策系统当前所处的状态信息，一级策略源根据当前的状态做出对应的决策。同样地，元学习智能体对一级策略源的决策进行探索，选择出其中最优的决策作为最终的决策结果。与非时序决策不同的是，时序决策问题中的奖励函数为环境给出的奖励。

本发明在时序决策问题上的流程为：从马尔科夫过程的初始状态

开始，一级策略源根据当前状态产生相应的决策

，元学习智能体的动作空间为一级策略源产生的决策

，输入状态

，根据一定探索策略选择出最终决策：

，执行得到环境给出的奖励值

，并进入下一状态

，重复迭代上述过程直至到达最终状态，智能体

按照强化学习算法最终学习出决策策略

。

同样，本发明中用于训练元学习智能体的强化学习算法可为基于策略梯度的方法，基于值函数的方法等，这里以基于值函数的DQN方法为例，给出本发明处理时序决策问题的伪代码：

其中所述神经网络为前馈神经网络，也被称为多层感知机，是人工神经网络的一种。前馈神经网络结构包括输入层，隐藏层和输出层。其中每一层都包括若干神经元，层与层之间的神经元以全连接的方式进行连接。之所以称之为前馈，是因为数据在网络中是前向传播的，输入数据

首先通过输入层的神经元节点，然后通过隐藏层的神经元节点，最后通过输出层节点产生输出数据

。网络中的隐藏层可能有一层或多层，输入和输出层只有一层。前馈神经网络的本质为一个函数映射：

，

表示网络的参数,包括连接权重和偏置。前馈神经网络将输入数据

映射到输出数据

，通过最小化网络预测值

与真实标签

的损失函数近似最优函数

。

本发明提出的基于强化学习的知识策略选择方法与选择装置，采用基于强化学习的策略结合方法，分别在非时序决策问题场景与时序决策问题场景下进行了实验验证。本发明选取了回归预测问题作为非时序决策问题的代表，选取微观操作环境作为时序决策问题场景。

在一级策略源选取方面：在回归预测问题中，本发明选取了一元线性回归模型与深度神经网络模型；在微观操作环境中，本发明选取了基于规则的决策系统与深度神经网络模型。在元学习智能体（元学习器）的训练方面：在回归预测问题中，本发明选取了DDPG算法作为元学习智能体的训练方法；在微观操作环境中，本发明选取了DQN算法作为元学习智能体的训练方法。

本发明将单独使用一级策略源决策的方法作为对照组，与本发明提出的决策选择方法与选择装置使用的决策方法进行对比，实验结果如下两表所示：

（1）回归预测问题

（2）微观操作对抗问题

此外，如图3所示，本发明还提供一种电子设备，包括如下部件：处理器301、存储器302、通信接口303和通信总线304；其中，所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信；所述通信接口303用于实现各设备之间的信息传输；所述处理器301用于调用所述存储器302中的计算机程序，所述处理器中包括上述基于强化学习的知识策略选择装置。

基于相同的发明构思，本发明又一实施例提供了一种非暂态计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序可应用于根据本发明的基于强化学习的知识策略选择方法与选择装置以实现其最优决策。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行。