CN112884129A

CN112884129A - 一种基于示教数据的多步规则提取方法、设备及存储介质

Info

Publication number: CN112884129A
Application number: CN202110262169.4A
Authority: CN
Inventors: 寇广; 易晓东; 王之元; 韩晓旭
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-01
Anticipated expiration: 2041-03-10
Also published as: CN112884129B

Abstract

本发明公开了一种基于示教数据的多步规则提取方法、设备及存储介质，包括规则生成模块与规则结合强化学习训练模块，所述方法包括以下步骤：首先，规则生成模块在强化学习环境中顺序执行示教数据中的动作序列；从示教数据对应的动作序列中取出连续动作序列；随机初始化智能体和神经网络；提取出规则；其次，合强化学习训练模块将提取出的规则融入至强化学习智能体训练过程。本发明将规则作为扩展动作融入至强化学习训练中，在使用规则的同时提出了一定的筛选规则机制，实现了专家知识与强化学习训练的有效动态结合。

Description

一种基于示教数据的多步规则提取方法、设备及存储介质

技术领域

本发明涉及人工智能领域，关于强化学习与信息抽取的技术，具体涉及一种基于示教数据的多步规则提取方法、设备及存储介质。

背景技术

目前，利用专家示教数据的训练算法大多数为模仿学习方法。模仿学习方法主要分为行为克隆方法与逆强化学习方法。行为克隆方法采用端到端的方式学习示教数据中状态与决策之间的映射关系。逆强化学习方法则从专家示教数据中学习积分函数，并将学到的积分函数用于强化学习算法的训练。模仿学习技术旨在模仿给定任务中的人类行为。智能体从专家示教数据中学习状态和动作之间的映射关系，以模仿专家水平执行任务。模仿学习过程的形式化表示采用马尔科夫决策过程描述。马尔科夫决策过程是序贯决策的数学模型，其形式化描述了决策智能体与环境的交互过程，用于模拟在具有马尔可夫性质的环境中智能体可实现的随机性策略与回报。模仿学习利用低层次的连续专家数据τ＝(s₀,a₀,s₁,a₁…)进行策略的学习。模仿学习方法主要分为两大类：行为克隆方法及逆强化学习方法。其中利用的专家数据由连续的状态-动作对组成，记录了专家策略在当前任务下的连续行为。

强化学习是一种基于智能体的试错学习的方法，其学习目标为得到最大化智能体累积收益回报的策略。同模仿学习，强化学习的形式化表示同样采用马尔科夫决策过程表示。马尔科夫决策过程通常采用五元组＜S,A,P,R,γ＞表示，其中S代表智能体的状态空间：S＝{s₀,s₁,…,s_T}，A为智能体的动作空间A＝{a₀,a₁,…,a_T}，P为智能体在这一决策空间内的状态转移概率

的集合：

R为智能体在此随机过程中的奖励函数：

指在状态s下，采取某个动作的奖励信号的期望，γ为折扣因子，用来表示对历史奖励信号的时间折扣。强化学习中智能体与环境交互的过程如图1所示。将规则抽取应用到强化学习领域的文献主要应用于多智能体规划，其中的代表文献为《基于强化学习的多智能体动态协作规则提取》。这篇文章的规则抽取根据智能体试错数据统计出的信念区间的合并与重新划分进行。是否进行规则的抽取或是修改，则根据Q-learning算法中Q值的变化是否超过阈值决定。这种规则提取方法较为依赖环境中智能体间的交互关系以及试错数据中的策略信念区间，没有涉及人类知识。这种方法的缺陷在于规则提取中手工设计部分较多，如阈值的设置，信念区间的计算方式等，并且在智能体的每步决策中都要进行规则抽取的运算，计算开销较大。

如果智能体直接采用专家数据训练，由于专家数据的策略分布与智能体策略分布不一致，会极大地增加训练难度。而规则作为另一种更常见的高层次人类知识表示形式，近年来也被引入在强化学习训练中，以指导智能体探索，提升算法训练。因此在示教数据如何向规则层面转换这一技术领域，还需要进一步改进以提升效率和质量。

发明内容

针对现有技术存在的问题，本本发明主要解决如何将在强化学习训练中有效利用低层次专家示教知识的问题，实现了示教数据向规则层面高效高质量转换。

根据本发明的基于示教数据的多步规则提取方法，包括规则生成模块与规则结合强化学习训练模块，所述方法包括以下步骤：

首先，规则生成模块在强化学习环境中顺序执行示教数据中的动作序列；从示教数据对应的动作序列中取出连续动作序列；随机初始化智能体和神经网络；提取出规则；

其次，规则结合强化学习训练模块将提取出的规则融入至强化学习智能体训练过程，规则结合强化学习训练模块的流程为：设置智能体动作空间中规则数量，通过扩展动作空间维度为原始动作空间维度，引入规则的ID作为智能体的可选动作，智能体决策为规则ID时，将会执行对应规则的动作序列，决策为原始动作时会直接执行，每隔一定时间步，根据规则的分数更新其动作空间中的规则。

进一步，规则生成模块首先对专家数据进行处理，将数据在强化学习仿真环境中模拟执行，分割成等距的数据片段，记录每个数据片段的累积环境奖励，设置规则分数计算机制，用以计算每个数据片段的分数作为规则的打分。

进一步，规则分数计算主要由探索价值和利用价值两个部分计算组成：探索价值与多步规则初始末尾状态距离成正比，与末尾状态的访问次数成反比

进一步，示教数据包含L+1对状态动作对，要提取的多步规则长度为K，其中K＜L。规则生成模块首先利用专家数据在环境中进行仿真：按照专家示教数据τ＝(s₀,a₀,s₁,a₁,…,s_L,a_L)中的动作序列(a₀,a₁,…,a_L)在强化学习的仿真环境中执行，收获环境的奖励，得到连续的交互数据

随后，规则生成模块从交互数据

中取出L-K段连续的长度为K的连续动作序列：Φ＝{{a₀,a₁,…,a_K-1},{a₁,a₂,…,a_K},…,{a_L-K+1,a_T-L+2,…,a_L}}作为备选多步规则对应的动作序列。同时保存这L-K段动作序列的初始状态集合Ψ＝{{s₀},{s₁},…,{s_L-K+1}}作为规则对应的触发条件集。

为了实现规则的有效利用，本发明评估备选规则对于强化学习智能体的价值，定义了如下的分数计算机制：

公式(1)中，对于第j条规则，定义U为规则的分数，衡量了规则价值的大小。

进一步，采用欧式距离计算初始状态与末尾状态间的距离D(s_j,s_j+K-1)；智能体状态空间的维度为n，状态间距采用公式(2)计算：

进一步，使用随机神经网络蒸馏方式估算状态的访问次数N(s_j+K-1)：首先随机初始化一个神经网络F，作为固定随机目标神经网络，其参数不更新。神经网络F的输入为智能体的下一个状态s_t+1，输出为f。其次，训练预测神经网络

输入同样为智能体的下一个状态s_t+1，输出为

预测神经网络使用智能体收集到的状态作为样本，来拟合目标神经网络。预测神经网络

与目标神经网络F之间的误差

作为智能体对于状态s_t+1的熟悉程度，若误差越大，认为状态s_t+1的数据量越少，智能体对于网络越陌生，也即访问状态s_t+1的次数较少。

进一步，在多步规则分数计算时，采用

估算N(s_j+K-1)，规则分数的估算公式为：

进一步，在经过规则生成模块处理的数据片段基础上，从强化学习智能体训练的开始，每隔P个时间步，运行规则分数计算机制，将分数最高的前m条规则加入到强化学习的训练过程中，促进智能体的学习。

进一步，一旦当前的状态s_t与某规则j的触发条件匹配，且智能体的决策选择到规则j时，执行规则对应的动作序列；智能体可以同时在环境中探索其原始动作空间中的动作与从专家示教数据中提取出的规则。

进一步，规则结合强化学习训练模块采用强化学习原有的价值评估标准：状态-动作的价值作为统一的价值评估机制；规则动作的Q值与智能体原始动作的Q值的更新方式相同，均采用Q-learning方法更新，更新公式如下：

另一方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时应用本发明的基于示教数据的多步规则提取方法。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明的基于示教数据的多步规则提取方法。

本发明根据智能体训练中对于规则的需求(如探索较少访问过的状态空间，利用价值更高的动作序列等)设计了一定的规则提取计算机制，从连续的专家决策数据提取生成多步规则，实现了低层次示教数据向高层次逻辑规则的转换。此外，为了更好地利用规则，本发明将规则作为扩展动作融入至强化学习训练中，在使用规则的同时提出了一定的筛选规则机制，实现了专家知识与强化学习训练的有效动态结合。

附图说明

图1示出了现有技术中的强化学习智能体与环境交互示意图；

图2示出了根据本发明的基于示教数据的多步规则提取方法流程图；

图3示出了根据本发明的规则分数计算机制示意图；

图4示出了根据本发明的电子设备的结构示意图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图2-4所示，根据本发明的基于示教数据提取多步规则，分为两大模块：规则生成模块与规则结合强化学习训练模块。其中规则生成模块负责从专家示教数据中提取规则。规则结合强化学习训练则将提取出的规则加入至强化学习的训练过程中，以促进智能体的训练。

本发明的流程图如图2所示。规则生成模块首先对专家数据进行处理：将数据在强化学习仿真环境中模拟执行，分割成等距的数据片段，记录每个数据片段的累积环境奖励。为了估算出每个数据片段的价值，本发明设计了规则分数计算机制，用以计算每个数据片段的分数作为规则的打分。规则结合强化学习训练模块则将分数较大的规则加入到智能体的动作空间中以结合强化学习训练，以提升其训练效果。

下面就规则生成模块与规则结合强化学习训练模块这两大模块展开描述：

(一)规则生成模块

假设示教数据包含L+1对状态动作对，要提取的多步规则长度为K，其中K＜L。规则生成模块首先利用专家数据在环境中进行仿真：按照专家示教数据τ＝(s₀,a₀,s₁,a₁,…,s_L,a_L)中的动作序列(a₀,a₁,…,a_L)在强化学习的仿真环境中执行，收获环境的奖励，得到连续的交互数据

随后，规则生成模块从交互数据

公式(1)中，定义U_j为第j条规则的分数，衡量了规则价值的大小；D(s_j,s_j+K-1)为规则初始状态s_j与规则结尾状态s_j+K-1的间距；N(s_j+K-1)指状态s_j+K-1的访问次数；

为采用规则j时收获到的累积奖励。规则分数计算主要由探索价值和利用价值两个部分计算组成：探索价值与多步规则初始末尾状态距离成正比，与末尾状态的访问次数成反比。规则的初始与末尾状态距离越大，认为规则的探索效率较高，没有在初始状态附近徘徊。规则的末尾状态访问次数越少，认为规则所指向的探索空间更需要被探索。规则利用价值计算部分则与规则对应动作序列带来的环境奖励信息有关，规则带来的收益越高，认为被利用的价值越大。探索价值与利用价值的权重采用a,b表示，代表了两个部分在规则计算的重要性占比。

在探索价值的计算方面，采用欧式距离计算初始状态与末尾状态间的距离D(s_j,s_j+K-1)。假设智能体状态空间的维度为n，状态间距采用公式(2)计算：

对于状态访问次数计算，在高维状态空间的情况下，如果采用计数的方法将会极大增加计算开销。为了解决高维状态空间的问题，本发明使用随机神经网络蒸馏方式估算状态的访问次数N(s_j+K-1)：首先随机初始化一个神经网络F，作为固定随机目标神经网络，其参数不更新。神经网络F的输入为智能体的下一个状态s_t+1，输出为f。其次，训练预测神经网络

输入同样为智能体的下一个状态s_t+1，输出为

与目标神经网络F之间的误差

作为智能体对于状态s_t+1的熟悉程度，若误差越大，认为状态s_t+1的数据量越少，智能体对于网络越陌生，也即访问状态s_t+1的次数较少。因此，在多步规则分数计算时，采用

估算N(s_j+K-1)，规则分数的估算公式为：

规则分数计算机制的运行示意图如图3所示。

(二)规则结合强化学习训练模块

规则结合强化学习训练模块将最终提取出的规则融入至强化学习智能体训练过程中，实现来源于专家知识的规则在强化学习训练中的动态利用。在经过规则生成模块处理的数据片段基础上，从强化学习智能体训练的开始，每隔P个时间步，运行规则分数计算机制，将分数最高的前m条规则加入到强化学习的训练过程中，促进智能体的学习。

规则结合强化学习训练模块将多步规则的ID加入到智能体的动作空间中。一旦当前的状态s_t与某规则j的触发条件匹配，且智能体的决策选择到规则j时，将执行规则对应的动作序列。通过这种方式，智能体可以同时在环境中探索其原始动作空间中的动作与从专家示教数据中提取出的规则。为了评估规则的价值，规则结合强化学习训练模块采用了强化学习原有的价值评估标准：状态-动作的价值(Q值)作为统一的价值评估机制。规则动作的Q值与智能体原始动作的Q值的更新方式相同，均采用Q-learning方法更新，更新公式如(4)所示。通过与环境的实际交互，智能体完成了对于规则的价值评估，实现了有选择性地使用提炼之后的专家数据知识。

考虑到智能体的动作空间维度过大会导致神经网络训练难度增大，本发明将智能体动作空间中的规则数量维持在固定的数量。在将提取出的规则加入到动作空间之前，会进行规则的删减：删除当前动作空间中使用频率与对应Q值均小于动作空间中所有规则平均值的规则。完成删减之后，再按规则分数排序补充分数较高的规则，直至达到数量上限。新规则对应的网络参数初始赋值为输出层网络参数的平均值。通过这样的方式，保证了智能体训练过程中规则数量维持稳定的同时探索具有潜在价值的规则。

综上，规则结合强化学习训练模块的流程为：设置智能体动作空间中规则数量为定值J，通过扩展动作空间维度为原始动作空间维度+J，引入规则的ID作为智能体的可选动作。智能体决策为规则ID时，将会执行对应规则的动作序列。决策为原始动作时会直接执行。每隔一定时间步，根据规则的分数更新其动作空间中的规则。通过这种方式，规则结合强化学习训练模块实现了专家知识与机器学习智能体训练策略的结合，采用同一智能体的学习和探索策略公平地评估了规则与原有动作的价值，在不影响智能体原有策略学习的情况下实现了人类专家知识的有效利用。

通过结合规则生成模块与规则结合强化学习训练模块的使用，本发明实现了利用示教数据抽取规则，进而融入到强化学习训练过程中起到提升智能体的策略学习的效果。本发明的伪代码如算法1所示。

如图4所示，根据本发明的电子设备具体包括如下内容：处理器301、存储器302、通信接口303和通信总线304；其中，所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信；所述通信接口303用于实现各设备之间的信息传输；所述处理器301用于调用所述存储器302中的计算机程序，所述处理器执行所述计算机程序时实现上述嵌入多步规则的混合强化学习训练方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：首先，本发明对于专家示教数据进行仿真等处理，根据一些计算机制计算出规则的分数，进而将分数较大的规则引入至强化学习智能体的训练中，起到提升训练的作用。其中，示教数据向规则的转化通过本发明中的规则生成模块实现，规则与强化学习的结合通过规则结合强化学习训练模块实现。

基于相同的发明构思，本发明又一实施例提供了一种非暂态计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于组合训练的规则嵌入多智能体强化学习方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：首先，本发明对于专家示教数据进行仿真等处理，根据一些计算机制计算出规则的分数，进而将分数较大的规则引入至强化学习智能体的训练中，起到提升训练的作用。其中，示教数据向规则的转化通过本发明中的规则生成模块实现，规则与强化学习的结合通过规则结合强化学习训练模块实现。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的一种基于示教数据的多步规则提取方法。

本发明提出了一种基于示教数据的多步规则提取方法，弥补了之前技术方案中无法实现从示教数据提取规则的技术空白。

Claims

1.一种基于示教数据的多步规则提取方法，其特征在于，包括规则生成模块与规则结合强化学习训练模块，所述方法包括以下步骤：

其次，合强化学习训练模块将提取出的规则融入至强化学习智能体训练过程，规则结合强化学习训练模块的流程为：设置智能体动作空间中规则数量，通过扩展动作空间维度为原始动作空间维度，引入规则的ID作为智能体的可选动作，智能体决策为规则ID时，将会执行对应规则的动作序列，决策为原始动作时会直接执行，每隔一定时间步，根据规则的分数更新其动作空间中的规则。

2.根据权利要求1所述的基于示教数据的多步规则提取方法，其特征在于，规则生成模块首先对专家数据进行处理，将数据在强化学习仿真环境中模拟执行，分割成等距的数据片段，记录每个数据片段的累积环境奖励，设置规则分数计算机制，用以计算每个数据片段的分数作为规则的打分。

3.根据权利要求1或2所述的基于示教数据的多步规则提取方法，其特征在于，规则分数计算主要由探索价值和利用价值两个部分计算组成：探索价值与多步规则初始末尾状态距离成正比，与末尾状态的访问次数成反比。

4.根据权利要求3所述的神经网络自适应输出层的设计方法，其特征在于，示教数据包含L+1对状态动作对，要提取的多步规则长度为K，其中K＜L。规则生成模块首先利用专家数据在环境中进行仿真：按照专家示教数据τ＝(s₀,a₀,s₁,a₁,…,s_L,a_L)中的动作序列(a₀,a₁,…,a_L)在强化学习的仿真环境中执行，收获环境的奖励，得到连续的交互数据

随后，规则生成模块从交互数据

中取出L-K段连续的长度为K的连续动作序列：Φ＝{{a₀,a₁,…,a_K-1},{a₁,a₂,…,a_K},…,{a_L-K+1,a_T-L+2,…,a_L}}作为备选多步规则对应的动作序列，同时保存这L-K段动作序列的初始状态集合Ψ＝{{s₀},{s₁},…,{s_L-K+1}}作为规则对应的触发条件集，

5.根据权利要求4所述的基于示教数据的多步规则提取方法，其特征在于，采用欧式距离计算初始状态与末尾状态间的距离D(s_j,s_j+K-1)；智能体状态空间的维度为n，状态间距采用公式(2)计算：

6.根据权利要求3所述的基于示教数据的多步规则提取方法，其特征在于，使用随机神经网络蒸馏方式估算状态的访问次数N(s_j+K-1)：首先随机初始化一个神经网络F，作为固定随机目标神经网络，其参数不更新。神经网络F的输入为智能体的下一个状态s_t+1，输出为f。其次，训练预测神经网络

输入同样为智能体的下一个状态s_t+1，输出为

与目标神经网络F之间的误差

7.根据权利要求6所述的基于示教数据的多步规则提取方法，其特征在于，在多步规则分数计算时，采用

估算N(s_j+K-1)，规则分数的估算公式为：

在经过规则生成模块处理的数据片段基础上，从强化学习智能体训练的开始，每隔P个时间步，运行规则分数计算机制，将分数最高的前m条规则加入到强化学习的训练过程中，促进智能体的学习。

8.根据权利要求1所述的基于示教数据的多步规则提取方法，其特征在于，一旦当前的状态s_t与某规则j的触发条件匹配，且智能体的决策选择到规则j时，执行规则对应的动作序列；智能体可以同时在环境中探索其原始动作空间中的动作与从专家示教数据中提取出的规则；规则结合强化学习训练模块采用强化学习原有的价值评估标准：状态-动作的价值作为统一的价值评估机制；规则动作的Q值与智能体原始动作的Q值的更新方式相同，均采用Q-learning方法更新，更新公式如下：

9.一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时应用如权利要求1-8任一项所述的基于示教数据的多步规则提取方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-8任一项所述的基于示教数据的多步规则提取方法。