CN114154612A

CN114154612A - 一种基于因果关系推断的智能体行为模型构建方法

Info

Publication number: CN114154612A
Application number: CN202111364562.0A
Authority: CN
Inventors: 王汉; 朴海音; 陈永红; 陶晓洋; 于津; 郝一行; 彭宣淇; 韩玥; 杨晟琦; 叶超; 樊松源; 孙阳
Original assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Current assignee: Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-03-08

Abstract

本申请属于人工智能技术领域，具体涉及一种基于因果关系推断的智能体行为模型构建方法。该方法包括步骤S1、通过对采用强化学习进行训练的智能体进行训练数据采集；步骤S2、选取一定比例的飞机智能体训练数据作为数据集；步骤S3、依据数据集中各数据间的联系，结合先验知识进行数据间的因果关系发现；步骤S4、对训练数据进行回归拟合生成合理的行为因果结构模型。本申请利用行为因果关系模型对智能体行为进行在线解释，可以达到很好的行为解释效果。

Description

一种基于因果关系推断的智能体行为模型构建方法

技术领域

本申请属于人工智能技术领域，具体涉及一种基于因果关系推断的智能体行为模型构建方法。

背景技术

在机器学习自主决策的领域，通过强化学习得到的智能体的行为是一个黑盒模型，缺乏可解释性。这对人类信任智能体的行为产生一定的阻碍，利用智能体训练数据分析智能体的行为模型是解释智能体的一种重要手段。人类可以通过对智能体的行为建模，预测智能体的行为，解释智能体为什么做某一个行为的原因，当前环境状态下智能体可以做出的最优解。因此，解释智能体的行为对人类信任智能体，优化智能体的训练方式又重要的指导意义。

目前智能体的行为解释中，人们对于智能体的行为解释基本依靠模型自身的可解释性与训练数据间的相关性。例如，基于规则产生的智能体本身的行为逻辑完全由人类编写，再某一种特定的情况下，可以很清晰的知道智能体下一步会采取什么决策，做出什么样的行为，不会有模棱两可的选择纯在。这种方式得到的智能体模型可解释性强，但过于依靠人类编写的智能体行为逻辑，很难体现机器的智能，处理复杂的任务时，力有不济。另一种产生智能体的方式是通过大量的数据和神经网络训练的方式，这种方式下，可以通过发现训练智能体的数据间的相关性来发现智能体的某一中行为与某些量之间的关系来解释智能体行为产生的依据。这种方式虽然利用了机器在处理大量数据时的优越性以及生成模型具有泛化能力的特点，但是它的解释智能体有一个很重大的缺陷，由数据间的相关性得到的解释无法符合人类的逻辑。

发明内容

为了解决上述问题，本申请提供了一种基于因果关系推断的智能体行为模型构建方法，此方法得出的因果行为结构图可以预测智能体的下一步动作，解释智能体做出某种行为的依据，在提升智能体行为的可解释性以及后续优化智能体的训练方式上都有重大意义。

本申请提供的基于因果关系推断的智能体行为模型构建方法，主要包括：

步骤S1、通过对采用强化学习进行训练的智能体进行训练数据采集；

步骤S2、选取一定比例的飞机智能体训练数据作为数据集；

步骤S3、依据数据集中各数据间的联系，结合先验知识进行数据间的因果关系发现；

步骤S4、对训练数据进行回归拟合生成合理的行为因果结构模型。

优选的是，步骤S1中，所述训练数据采集包括智能体训练过程中的环境状态、采取的动作和奖励信息。

优选的是，步骤S2中，选取70％的飞机智能体训练数据作为数据集，剩余30％的飞机智能体训练数据作为测试集。

优选的是，步骤S3中，进行数据间的因果关系发现包括：

基于独立性测试的方法，通过两个变量的相关系数确定独立性；

基于马尔可夫假设验证数据间的因果性。

优选的是，步骤S3中，进行数据间的因果关系发现包括：

在模型上增加噪声，对在线性模型与非线性模型分别作出验证。

优选的是，步骤S4中，所述行为因果结构模型包括输入层、隐藏层及输出层，所述隐藏层和输出层为全连接层，利用ReLU函数作为激活函数。

优选的是，步骤S4中，模型训练采用minibatch法，batch尺寸选为64。

优选的是，步骤S4之后，进一步包括将实时的观测数据输入行为因果结构模型预测智能体可能采取的动作，解释智能体的行为。

本申请利用基于因果关系推断的智能体行为解释方法预测出动作与智能体的行为基本一致，表明飞智能体的行为可以利用行为因果结构模型来解释；其次，通过这种行为解释的方式可以发现智能体一些不智能的特征，反过来能够调整智能体的训练方式。本申请利用行为因果关系模型对智能体行为进行在线解释，可以达到很好的行为解释效果。

附图说明

图1为本申请基于因果关系推断的智能体行为模型构建方法的一优选实施例的流程图。

图2为模型训练示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。

本申请提供了一种基于因果关系推断的智能体行为模型构建方法，如图1所示，主要包括：

步骤S2、选取一定比例的飞机智能体训练数据作为数据集；

为实现本发明的目的，采取的技术解决方案是一种基于因果关系推断的智能体行为解释方法。此方法通过智能体训练过程中产生的数据结合行为因果关系图的构建，生成可以预测智能体下一步动作的智能体行为解释模型。该方法的流程包括：

a)对强化学习训练智能体过程中样本数据进行离线采集；

b)结合数据间的因果性与人类经验得到行为因果结构图；

c)将数据输入行为结构因果模型进行离线训练，输出预测智能体下一步动作的行为解释模型；

d)将智能体进行任务时环境状态输入入行为解释模型对智能体的行为作出合理解释。

上述流程中a)、b)和c)为离线过程，目的是获得训练好的预测模型，d)为模型的在线应用，目的是得到智能体行为的合理解释。具体的实施例步骤如下：

1)强化学习训练智能体样本数据采集。

样本数据可以通过强化学习训练智能体过程中智能体与环境的交互过程中获取。样本数据主要包括三部分，即环境的状态、智能体的动作与智能体获得的奖励。一次智能体任务探索中的整个时间序列作为一组样本数据。环境的状态、智能体的动作与智能体获得的奖励和强化学习训练过程密切相关，采集的数据如表1所示。

表1智能体训练数据样本

时间	T
		环境	S<sup>i</sup>
动作	A<sup>i</sup>
		奖励	r<sup>i</sup>

本申请通过构建行为因果结构图的方式对强化学习训练的智能体进行行为解释建模。对训练智能体过程中产生的数据进行因果性分析，结合人类的经验知识，可以构建出合理的行为因果结构图，这是行为解释建模的基础。我们的目标是将环境状态、动作、与奖励之间的关系表示出来，考虑到强化学习产生数据的时序性，对数据间的关系进行因果性发现。

发现数据间因果性的方式有两种，一种是基于独立性测试的方法,通过两个变量X与Y的样本相关系数为：

判断独立性，在独立性的基础上结合马尔可夫假设验证因果性。

另一种是在模型上加噪声的方法：

Y＝f(X,E)，X⊥E；

可以将在线性模型Y＝a·X+E，与非线性模型Y＝f₂(f₁(x)+E)，分别作出验证，挑选合适的数据因果模型。

在数据因果性发现的基础上，结合人类对智能体进行的任务的理解分析，构建合理的行为因果结构图。

本申请行为因果结构图可以做到对智能体的行为作出定性的分析，但是这对精确预测智能体的下一步动作还是远远不够的，在已有的数据上训练出变量与变量间定量的回归模型。如图2所示：

X＝输入|∈R^N×D(D特征数量)

W₁＝第一层的权重|∈R^D×H(H第一层的隐藏单元数量)

z₂＝第一层网络的输出∈R^N×H

f＝非线性激活函数

a₂＝通过激活函数的第一层输出|∈R^N×H

W₂＝第二层权重|∈R^H×C(C为分类类别数)

(N为样本个数)

利用ReLU函数作为激活函数，ReLU(rectified linear unit)函数提供了一个很简单的非线性变换。给定元素x，该函数定义为：

ReLU(x)＝max(x,0)；

多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hidden layer)。隐藏层位于输入层和输出层之间。图展示了一个多层感知机的神经网络图。

模型图所示的多层感知机中，由模型图可见，隐藏层中的神经元和输入层中各个输入完全连接，输出层中的神经元和隐藏层中的各个神经元也完全连接。因此，多层感知机中的隐藏层和输出层都是全连接层。

多层感知机的输出可以表示为：

O＝(XW_h+b_h)W_o+b_o＝XW_hW_o+b_hW_o+b_o；

将样本数据中的70％作为训练集，30％作为测试集，训练采用minibatch法，batch尺寸选为64，将所有样本数据完整地训练一次后停止训练，输出最终的预测模型，模型即是前向传播过程中的权重矩阵和偏置项。整体的训练流程如图1中的训练部分所示。

有了训练好的模型即可用于智能体行为解释。将强化学习任务中每个时刻的环境状态结合训练好的权重矩阵和偏置项代入前向传播过程，得到的输出为一个二维向量，分别代表当前时刻动作发生的概率和不发生的概率，二者选取最大者即为当前时刻动作是否执行，对所有动作进行一次。找出最有可能发生的动作。

本申请数据采集和网络训练部分为离线过程，发射点预测为在线过程。

对于强化学习每一局序列样本，每个时间点都有一个选择动作的真值，即标签，而针对每个时间点，预测模型也会给出预测的动作，将两者之间的差异作为衡量预测效果的标准。这里选取准确率、查准率和查全率作为评价指标。对于二分类问题，可将样例根据其真实类别与预测类别的组合划分为四种情形，具体分类见表2。

表2分类结果混淆矩阵

准确率A、查准率P和查全率R分别定义为：

采用基于因果关系推断的智能体行为解释方法的试验结果表明该方法预测出的动作与强化学习训练出智能体的行为决策基本相仿。

综上，利用基于因果关系推断的智能体行为解释方法预测出动作与智能体的行为基本一致，这意味着飞智能体的行为可以利用行为因果结构模型来解释；其次，通过这种行为解释的方式可以发现智能体一些不智能的特征，反过来调整智能体的训练方式。

虽然，上文中已经用一般性说明及具体实施方案对本申请作了详尽的描述，但在本申请基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本申请精神的基础上所做的这些修改或改进，均属于本申请要求保护的范围。

Claims

1.一种基于因果关系推断的智能体行为模型构建方法，其特征在于，包括：

步骤S2、选取一定比例的飞机智能体训练数据作为数据集；

2.如权利要求1所述的基于因果关系推断的智能体行为模型构建方法，其特征在于，步骤S1中，所述训练数据采集包括智能体训练过程中的环境状态、采取的动作和奖励信息。

3.如权利要求1所述的基于因果关系推断的智能体行为模型构建方法，其特征在于，步骤S2中，选取70％的飞机智能体训练数据作为数据集，剩余30％的飞机智能体训练数据作为测试集。

4.如权利要求1所述的基于因果关系推断的智能体行为模型构建方法，其特征在于，步骤S3中，进行数据间的因果关系发现包括：

基于马尔可夫假设验证数据间的因果性。

5.如权利要求1所述的基于因果关系推断的智能体行为模型构建方法，其特征在于，步骤S3中，进行数据间的因果关系发现包括：

6.如权利要求5所述的基于因果关系推断的智能体行为模型构建方法，其特征在于，步骤S4中，所述行为因果结构模型包括输入层、隐藏层及输出层，所述隐藏层和输出层为全连接层，利用ReLU函数作为激活函数。

7.如权利要求1所述的基于因果关系推断的智能体行为模型构建方法，其特征在于，步骤S4中，模型训练采用minibatch法，batch尺寸选为64。

8.如权利要求1所述的基于因果关系推断的智能体行为模型构建方法，其特征在于，步骤S4之后，进一步包括将实时的观测数据输入行为因果结构模型预测智能体可能采取的动作，解释智能体的行为。