CN115587615A

CN115587615A - 一种感知行动回路决策的内在奖励生成方法

Info

Publication number: CN115587615A
Application number: CN202211292921.0A
Authority: CN
Inventors: 孙国瀚; 林恺; 王博艺; 高建; 纪良运
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-01-10

Abstract

本发明属于计算机应用技术领域，具体涉及一种感知行动回路决策的内在奖励生成方法。本发明中，首先，搭建状态预测网络，并收集智能体训练过程中的环境状态与智能体动作数据对环境状态变化进行预测建模。其次，在强化学习训练过程中利用已训练的状态预测网络模型预测环境状态变化并生成预测差内在奖励。最后，将生成的预测差内在奖励与外部奖励结合，形成新的奖励以供策略更新网络使用。本发明构建SGBRT网络对环境状态进行预测并生成内在奖励，且利用内在奖励以加快策略更新网络的训练过程并提高训练效果。

Description

一种感知行动回路决策的内在奖励生成方法

技术领域

本发明属于计算机应用技术领域，具体涉及一种感知行动回路决策的内在奖励生成方法。

背景技术

在人类进行如驾驶、格斗等过程性任务时，通常会形成感知行动的回路，即感知任务环境、决策要做的行动、做出行动、任务环境变化、重新感知，直到任务完成或任务失败。随着近些年人工智能的快速发展，利用人工智能来代替人类智能完成真实环境中的过程性任务也日渐成为社会的诉求，为了完成这一目标，需要使人工智能完成两部分任务，环境状态感知以及行为决策。针对行为决策，人工智能需要利用感知到的环境状态来决策具体行动，并将行动输出到环境中以完成感知行动回路中的一环，如此循环直至过程性任务完成。利用强化学习方法便可解决感知行动回路中利用感知到的状态进行行为决策这一部分的任务。

强化学习是机器学习的重要分支，有着两个重要的组成部分：环境和智能体，以及三种智能体训练过程中的主要数据：状态、行动和奖励。其中智能体为强化学习的训练主体，也是决策的主体，环境为所要完成的任务中涉及的智能体外部信息的集合。智能体从环境中获取可用的信息作为状态，根据状态以及智能体的策略做出行动，并根据当前状态和智能体做出的行动利用为环境设计的奖励函数来获得奖励，也可称为外部奖励。强化学习的训练过程便是不断更新智能体的策略以最大化外部奖励的过程。

然而，面向感知行为决策的强化学习有一个需要解决的重要问题，那便是奖励函数的设置。强化学习的训练目标是为智能体寻找能够有效完成任务的策略，而策略更新完全依靠由奖励函数为智能体生成的奖励。因此，奖励函数的设置需要和任务贴合，才能高效地训练得到良好的策略。而感知行为决策的强化学习多使用真实环境，对于真实环境，感知到的状态一般比较复杂，也难以判断这些复杂状态下的哪些行为对完成整体任务有利，因此设计密集的奖励函数非常困难，若仅对智能体明显对任务有利的行为进行奖励又会造成奖励的稀疏进而让训练难以进行。对类似问题，Pathak等人设计了带有逆环境模型的预测差内在奖励机制，加速智能体对环境的探索；Bellemare等人设计了虚拟计数的方式来衡量状态的新颖性；Florsensa等人通过添加辅助任务的方式，逐步增大任务难度来加速训练。然而，由于一些环境的状态特征较为复杂，上述方法难以对环境的状态变化做出有效的预测，进而拖慢智能体对环境的探索。同时，真实环境的状态可能有着固有的随机性而无法被预测时，在这种状况下使用内在奖励也可能导致智能体进行无用探索，在一系列纯随机状态下转圈圈。

发明内容

为了克服现有技术的不足，针对需要进行感知的形势复杂多变、难以预测的真实环境，本发明设计一种感知行动回路决策的内在奖励生成方法，以辅助感知行动回路中行为决策部分任务的完成。首先，搭建状态预测网络，并收集智能体训练过程中的环境状态特征与智能体动作数据对环境状态变化进行预测建模。其次，在行为决策强化学习训练过程中利用已训练的状态预测网络模型预测环境状态变化并生成预测差内在奖励。最后，将生成的预测差内在奖励与外部奖励结合，形成新的奖励以供行为决策的策略更新网络使用。本发明构建SGBRT网络对环境状态进行预测并生成内在奖励，且利用内在奖励以加快策略更新网络的训练过程并提高训练效果。

本发明大致分为两部分：

(1)搭建状态预测网络并生成内在奖励，收集行为决策强化学习的训练过程数据，包括由状态感知过程感知到的环境状态信息以及行为决策过程中强化学习智能体做出的动作，通过监督学习方式(GBRT回归树模型)预测环境状态信息，并结合非监督学习方式(SOM聚类网络)消除预测过程中因感知到的状态固有的随机性而可能存在的噪声。该网络(简称SGBRT)主要由SOM聚类网络与GBRT回归树模型结合而成，使用SOM进行聚类可以将相似的状态特征进行统合，避免智能体由于环境本身的随机性进行无效探索，而GBRT则快速有效的对环境状态进行预测。将训练好的SGBRT网络引入强化学习训练过程，以计算预测误差。

(2)利用预训练SGBRT网络获取预测误差作为内在奖励，鼓励智能体对环境进行有效探索，提高智能体获得外部奖励的可能性，加速训练。将内在奖励与外部奖励标准化后按照一定比例进行融合，保证智能体在进行有效探索的同时不至于因探索而忘记本来的训练目标。用结合后的奖励代替原本的纯外部奖励，作为策略更新网络使用的奖励函数。

为了达到上述目的，本发明采用的技术方案如下：

一种感知行动回路决策的内在奖励生成方法，步骤如下：

步骤(1)状态预测网络搭建与训练

(1.1)首先从对行为决策策略更新算法进行了N步训练的强化学习整体过程中收集每一步中感知到的环境状态s_i和进行决策的智能体的动作a_i，将其结合得到x_i＝[s_i,a_i]，并设其维度为D。设置聚类簇个数为m时，SOM网络有m组竞争层神经元权重，每组权重的维数为D。初始化时对竞争层中的每个神经元给与小的随机初始值。随后当第t个样本x_t被用于训练网络时，先从竞争层中选择与样本最相似的神经元c，公式如下式：

其中w为竞争层神经元的权重，w_c为被选中的竞争层神经元的权重。公式(1)使用欧氏距离作为判断神经元与样本相似度的依据。在选择神经元之后，需要对神经元及其周围神经元进行权重更新，公式如下式：

w_t+1＝w_t+s_ct(x_t-w_t) (2)

其中w_t和w_t+1为第t步和即将更新的竞争层神经元权重，0<s_ct<1为一个自更新控制变量，被用于控制神经元权重的更新幅度，其确定方法如下：

其中，0<s₀<1为超参数，整体控制权重更新幅度；σ_t则用于控制权重更新半径，随着SOM训网络练的推进，σ_t会越来越小，权重更新半径也随之变小，公式如下：

其中σ₀和τ为超参数，σ₀为权重更新半径的初始值也是最大值，τ被用于控制权重更新半径缩小的速度。公式(3)和公式(4)表明，距离选中的神经元c越近的神经元的权重更新程度越大，且随着训练的进行，神经元权重更新半径逐渐减小。

(1.2)在进行SOM聚类操作之后，得到共m个聚类簇，首先需要为每个聚类簇计算其目标向量，对第j个聚类簇h_j计算其目标向量y_j的公式如下：

使用聚类簇目标均量作为训练预测网络的目标向量有助于减小由于环境本身不确定性导致的探索无关的预测误差，减小智能体无效重复探索的可能性。

随后，将SOM网络的竞争层的权重信息w作为输入，训练GBRT网络。GBRT网络的预测公式如下：

其中w_j为聚类簇h_j对应的SOM竞争层神经元权重，

为预测的聚类簇h_j的目标向量，f_k为GBRT网络中的一个子树，GBRT网络共由K个子树构成，Γ是所有子树的集合，GBRT网络通过对每个子树进行训练并集成，大大减轻了回归子树的不稳定性，GBRT网络将子树逐个加入到集合中，对每个子树的训练，都是为了使前一个集合的loss最小，其公式如下：

Fⁿ(w)＝F^n-1(w)+argminL(y,F^n-1(w)+f_n(w)) (7)

其中F^n-1为子树f_n加入之前的树集，Fⁿ为f_n加入之后的树集，通过引入任意损失函数L，便可进行逆梯度更新来训练GBRT网络。通过如上操作，利用SOM的聚类簇权重和目标向量作为输入训练GBRT得到SGBRT网络。

由于SGBRT网络训练需要较长时间，为防止该网络的训练成为强化学习总体任务的瓶颈，SGBRT网络的训练和行为决策强化学习训练是并行进行的，强化学习训练中的预测是基于预训练的SGBRT网络，在强化学习训练的同时，SGBRT网络也从强化学习的训练过程数据中收集样本，以训练新的模型，训练完成后便用新的模型替代强化学习网络中的预训练模型，并重新收集样本。

步骤(2)内在奖励生成与奖励结合

(2.1)在强化学习训练的第k步，其感知状态和智能体决策动作分别为s_k和a_k，将其输入预训练的状态预测网络，得到预测状态特征

便可计算得到第k步的预测误差作为内在奖励

公式如下：

该内在奖励将被用于和由环境附带或自行设计的奖励函数生成的简单外部奖励结合以鼓励智能体对感知行为回路的适用环境进行有效探索。

(2.2)取得步骤(2.1)中获得的内在奖励之后需要将内在奖励和外部奖励进行结合来进行强化学习训练。然而，由于内部奖励与外部奖励的来源有所不同，在将奖励进行结合之前需要先对奖励r进行标准化，公式如下：

其中mean和std分别为已经获得的所有奖励的均值和标准差，这两个值在训练过程中动态计算，将内在奖励r_i和外在奖励r_e都经过如上公式(9)计算后，两种奖励的尺度相似，得到

和

之后，将两种奖励相加，公式如下：

其中，0≤ε≤1为一个可供调节的超参数，用于调整内在奖励在训练中的作用，具体表现为，ε越大，智能体越倾向于根据经验优化策略，ε越小，智能体越倾向于对环境进行探索。随后，便可将结合后的奖励输入行为决策任务策略更新网络进行强化学习策略训练，由于本发明的结果与强化学习的策略更新算法耦合程度低，故使用不同策略更新算法并不影响本发明的使用及最终效果。

本发明的有益效果：

本发明目的是为感知行动回路强化学习任务生成内在奖励，以应对环境状态特征复杂多变，难以设计符合任务目标且密集的奖励函数这一问题。通过SGBRT网络可以在减少因环境本身不可预测性而可能导致的智能体无效探索的同时提高对环境状态的预测能力，生成高质量内在奖励以促进智能体对环境状态进行探索，加速行为决策强化学习训练进程以及提高最终得到的策略网络的任务效果。

附图说明

图1为本发明的内在奖励生成的整体框架。

图2为本发明的状态预测网络结构示意图。

图3(a)为本发明中强化学习部分任务训练流程图。

图3(b)为本发明中SGBRT预测网络训练流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明可用于感知行为回路中行为决策任务强化学习内在奖励生成，整体框架如图1所示，状态预测网络的结构如图2所示，内在奖励生成附加策略训练整体工作流程如图3(a)和图3(b)所示，下面结合一个实例说明本发明的具体实施方式。

本实施场景为Atari视频游戏通关策略生成，所论述的具体实施方案仅用于说明本发明的实现方式，而不限制本发明的范围。

下面主要针对Atari视频游戏任务策略生成对本发明的实施方案进行详细说明，主要分为内在奖励动态生成及智能体策略更新优化、状态特征预测网络训练两部分，结合图3(a)和图3(b)流程进行阐述：

(1)内在奖励动态生成及智能体策略更新优化：

本实例使用环境为OpenAI Gym的Atari视频游戏环境，由于本发明仅涉及感知行为回路中行为决策部分内容，故对该环境进行最为简单的感知，即直接提取游戏画面作为该环境的状态，形式为210×160×3的张量。首先对环境中的状态进行特征提取和降维，由于不同应用环境的状态表示和特征提取方式均有不同，故本发明并未涉及相关内容，本实例中使用固定随机参数的卷积神经网络对图像状态进行特征提取。强化学习网络开始步进训练，在得到一步训练的环境状态特征和智能体根据策略选择的动作之后，需判断预测网络训练样本队列是否达到最大容量，若未达到，则将这一步的训练数据存入样本队列，该样本队列将被用于训练预测网络。随后将训练数据输入预训练的预测网络，基于公式(1)选择SOM网络的竞争神经元，并利用选择的预测神经元权重作为输入基于公式(6)进行预测。然后利用得到的结果基于公式(8)计算内在奖励，之后取从环境中获得的外部奖励，基于公式(9)和(10)将内在奖励与外部奖励进行结合得到总奖励。最后将得到的总奖励输入策略更新模型对智能体的策略进行更新。本发明因与策略更新算法的耦合性弱而不限制策略更新模型的选择，本实例使用近邻策略优化模型。在达到事先预定的强化学习步数之前，循环如上内容。

(2)状态特征预测网络训练：

在进行状态特征预测网络的训练之前，先检测网络训练样本队列中的样本数目是否达到了训练预测网络所需的最小值，若达到了最小值，则开始训练。首先，获取样本队列的副本并将其清空以便上一部分向样本队列中添加新的样本。其次，利用样本队列中的数据，基于公式(2)(3)(4)训练SOM网络，并基于公式(5)为SOM网络中的每一个神经元计算目标向量。然后，利用SOM网络的竞争神经元权重和目标向量基于公式(7)训练GBRT。最后，更新第一部分中的预训练网络模型并重新判断网络样本队列中的样本数目是否达到最小值，然后重新训练新的预测网络。

经过以上步骤，便可生成内在奖励并将内在奖励与由环境附带的奖励函数生成的外在奖励结合形成总奖励，然后便可以将结合后的总奖励带入到强化学习策略更新算法中进行智能体的策略更新以实现强化学习任务的训练目标。

Claims

1.一种感知行动回路决策的内在奖励生成方法，其特征在于，步骤如下：

步骤(1)状态预测网络搭建与训练

(1.1)首先从对行为决策策略更新算法进行了N步训练的强化学习整体过程中收集每一步中感知到的环境状态s_i和智能体的动作a_i，结合得到x_i＝[s_i,a_i]，并设其维度为D；设置聚类簇个数为m时，SOM网络有m组竞争层神经元权重，每组权重的维数为D；初始化时对竞争层中的每个神经元给与随机初始值；随后当第t个样本x_t被用于训练网络时，先从竞争层中选择与样本最相似的神经元c，公式如下式：

其中w为竞争层神经元的权重，w_c为被选中的竞争层神经元的权重；公式(1)使用欧氏距离作为判断神经元与样本相似度的依据；在选择神经元之后，需要对神经元及其周围神经元进行权重更新，公式如下式：

w_t+1＝w_t+s_ct(x_t-w_t) (2)

其中w_t和w_t+1为第t步和即将更新的竞争层神经元权重，0<s_ct<1为一个自更新控制变量，用于控制神经元权重的更新幅度，确定方法如下：

其中，0<s₀<1为超参数，整体控制权重更新幅度；σ_t用于控制权重更新半径，随着SOM训网络练的推进，σ_t会越来越小，权重更新半径也随之变小，公式如下：

其中σ₀和τ为超参数，σ₀为权重更新半径的初始值也是最大值，τ被用于控制权重更新半径缩小的速度；公式(3)和公式(4)表明，距离选中的神经元c越近的神经元的权重更新程度越大，且随着训练的进行，神经元权重更新半径逐渐减小；

使用聚类簇目标均量作为训练预测网络的目标向量；

随后，将SOM网络的竞争层的权重信息w作为输入，训练GBRT网络；GBRT网络的预测公式如下：

其中w_j为聚类簇h_j对应的SOM竞争层神经元权重，

为预测的聚类簇h_j的目标向量，f_k为GBRT网络中的一个子树，GBRT网络共由K个子树构成，Γ是所有子树的集合，GBRT网络通过对每个子树进行训练并集成，GBRT网络将子树逐个加入到集合中，对每个子树的训练，使前一个集合的loss最小，公式如下：

Fⁿ(w)＝F^n-1(w)+argminL(y,F^n-1(w)+f_n(w)) (7)

其中F^n-1为子树f_n加入之前的树集，Fⁿ为f_n加入之后的树集，通过引入任意损失函数L，便可进行逆梯度更新来训练GBRT网络；通过如上操作，利用SOM的聚类簇权重和目标向量作为输入训练GBRT得到SGBRT网络；

SGBRT网络的训练和行为决策强化学习训练并行进行，强化学习训练中的预测是基于预训练的SGBRT网络，在强化学习训练的同时，SGBRT网络也从强化学习的训练过程数据中收集样本，以训练新的模型，训练完成后便用新的模型替代强化学习网络中的预训练模型，并重新收集样本；

步骤(2)内在奖励生成与奖励结合

计算得到第k步的预测误差作为内在奖励

公式如下：

(2.2)取得步骤(2.1)中获得的内在奖励之后将内在奖励和外部奖励进行结合来进行强化学习训练；然而，由于内部奖励与外部奖励的来源有所不同，在将奖励进行结合之前需要先对奖励r进行标准化，公式如下：

其中mean和std分别为已经获得的所有奖励的均值和标准差，这两个值在训练过程中动态计算，将内在奖励r_i和外在奖励r_e都经过公式(9)计算后，两种奖励的尺度相似，得到

和

之后，将两种奖励相加，公式如下：

其中，0≤ε≤1为一个可供调节的超参数，用于调整内在奖励在训练中的作用，具体表现为，ε越大，智能体越倾向于根据经验优化策略，ε越小，智能体越倾向于对环境进行探索；随后，将结合后的奖励输入行为决策任务策略更新网络进行强化学习策略训练。