CN113240119B

CN113240119B - 一种用于游戏ai策略解释的跨模型蒸馏装置

Info

Publication number: CN113240119B
Application number: CN202110375385.XA
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 李朝华
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2024-03-19
Anticipated expiration: 2041-04-08
Also published as: CN113240119A

Abstract

本发明公开一种用于游戏AI策略解释的跨模型蒸馏装置，主要包括基于监督学习、决策树学习的模型蒸馏系统以及基于决策树规则提取的策略解释两个部分。本发明为研究人员提供了一种针对游戏AI的策略解释装置，能够实时对游戏AI的决策行为提供可理解的解释信息，从而揭示观测和行为之间的因果结构，增强游戏互动性，同时还能够为人类玩家的游戏过程提供技术参考。

Description

一种用于游戏AI策略解释的跨模型蒸馏装置

技术领域

本发明涉及一种用于游戏AI策略解释的跨模型蒸馏装置，是一种对基于强化学习习得的游戏AI策略的解释装置，属于游戏AI智能解说技术领域。

背景技术

游戏领域的智能AI一般基于深度强化学习算法训练得到，智能体通过和环境不断交互，自主适应游戏规则、学习技能，比如围棋界的AlphaGo，王者荣耀里的绝艺等。研究人员可以根据不同的游戏环境，基于不同的目标，制定不同的强化学习训练方法，从而获得更高水平、更具人类特征、具备多重风格的人工智能玩家。然而，游戏AI虽然能够达到人类预设的目标，却很难被人类理解——强化学习的主要模型为深度神经网络，该模型虽然具备良好的学习能力，但缺乏透明性，决策知识隐藏在模型的神经元之间，缺乏有指导意义或者可理解的结构，从而难以理解其具体的决策逻辑。如果训练得到的游戏AI同时具备讲解的能力，则既可以提高玩家的用户黏性，又可以对人类玩家的操作提供指导，大幅提高游戏竞争力。

游戏AI，无论是基于具体的哪种算法训练得到，其底层决策逻辑都是根据当前的观测做出行为反馈，因此欲对其解说，主要需要关注的是观测和行为之间的逻辑关系。当前大部分游戏AI策略解释方法，都是基于深度神经网络模型的数值进行分析，因此往往只能对特定的行为给出解释，有些不常见的行为则难以做出有效说明。同时，由于不同的游戏AI训练需要不同的算法、使用不同的模型结构，针对深度神经网络的方法必须对每个AI进行调整，在真实游戏解说中，需要耗费大量的时间和精力来进行适配，解释的效果也大幅依赖于适配结果。相比之下，机器学习领域的另一模型结构——决策树模型具备良好的结构化特性，能够更容易地提取出可理解的规则，便于研究其整体的输出过程。受限于决策树的学习能力，这类模型并不常见于游戏AI的训练之中。

因此，在游戏AI策略解释领域，亟需一种技术方案来解决上述问题。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种用于游戏AI策略解释的跨模型蒸馏装置，能够高效地实现从深度神经网络策略到决策树策略的转化，并支持对任意游戏AI的决策进行解释。

技术方案：一种用于游戏AI策略解释的跨模型蒸馏装置，包括基于监督学习、决策树学习的模型蒸馏系统以及基于决策树规则提取的策略解释两个部分。其中模型蒸馏系统部分包括游戏AI数据收集处理系统和决策树策略模型；决策树策略模型通过模型蒸馏获得，蒸馏所使用的数据集来源于游戏AI数据收集处理系统；策略解释部分，基于决策树模型自身的结构特征，给出行为数据和观测数据之间的因果关系，解释行为的由来。

游戏AI数据收集处理系统是模型蒸馏系统的第一个重要组成部分，该系统包含一个观测决策数据收集器和一个模型访问器。观测决策数据收集器的功能是在游戏AI进行游戏的过程中，对当前的观测数据和游戏AI的行为数据进行记录收集，并调整为统一的格式；模型访问器的功能是对游戏AI的值网络模型(Q网络或者V网络)进行访问，通过计算获得权重信息，并和观测决策数据收集器中收集得到的数据进行整合。数据的收集处理详细过程如下：

首先，需要获取得到游戏AI的策略模型和值网络模型以及可运行游戏环境；

其次，使用游戏AI的策略模型进行游戏，记录游戏过程中的观测数据和游戏AI的行为数据，分别编码为s和a，并整理为列表式数据格式，得到初始数据；

之后，使用模型访问器访问游戏AI的值网络模型，根据策略更新准则，计算得到各动作下的权重信息w(此处w表示向量)；

最后，将初始数据和权重信息进行合并，输出为(s，a，w)的列表格式，形成带有权重的样本数据，作为蒸馏数据集。

在游戏AI数据收集处理系统中，模型访问器基于策略更新准则计算权重信息是关键性创新。该过程利用了值网络模型中更多的决策信息，建立了值信息和样本权重之间的关系，以便于在后续模型蒸馏的过程中，对样本进行有区别地利用，从而提升蒸馏效果。

在基于强化学习的智能体模型训练中，无论采用哪种强化学习算法，都依赖值网络对未来进行评估，进而进行决策。因此，相对于游戏AI的行为数据，值网络模型能够提供更多的决策信息。根据强化学习策略更新准则，可得原策略π^*和蒸馏得到的策略π之间表现(获取得到的累积奖赏)差异为由此可以看出，为最大化累积奖赏，具体的样本权重信息可通过优势信息A(s,a)来近似计算。

该决策树策略模型通过模型蒸馏获得，蒸馏基于传统的决策树学习算法(包含ID3和CART)进行了改进，使其可以适用于带有权重的样本数据的拟合。具体的决策树学习过程如下：

步骤1，将蒸馏数据集输入树的根结点；

步骤2，计算每个分裂点下的信息增益或Gini指数。在计算信息增益或Gini指数时，使用样本的权重信息代替单一的数量信息进行计算；

步骤3，之后，选择评价指标最高的分裂点进行分裂；

步骤4，重复进行步骤2-3，直到达到预先设定的树的最大深度停止，即决策树策略模型训练完成。

策略解释基于模型蒸馏系统中的决策树策略模型分析得到，可给出在做出决策时最关注的特征这一可解释性信息。在具体解释的过程中包含以下步骤：

首先，获取得到需要解释的状态动作对(s，a)；

其次，将状态信息输入到训练得到的决策树策略模型中，得到做出决策过程中所经过的所有结点的信息。此处信息主要包含了当前结点下，对决策作用最大的特征，并给出具体的作用数值；

最后，基于过往节点信息累加，给出与最终决策最相关的特征，即完成解释。

有益效果：当前游戏AI策略解释相关的技术方案大多基于深度神经网络模型本身的输入输出进行，只能对AI的决策有一个大致的了解，对特定的观测下的AI行为有一个解释，而难以对一些极端情况进行解释和说明。另一方面，深度神经网络模型数值分析解释方法很大程度上依赖于研究人员对具体游戏的理解，在真实应用时需要耗费大量的时间和资源进行逐一适配。

与现有技术相比，本发明提供了一种高效的游戏AI策略解释方法，通过模型蒸馏避免了直接对深度神经网络的分析，为游戏开发人员提供了一种更有效更经济的游戏AI策略解释方法，通过此技术，游戏开发者能够对任意游戏AI的操作实现自动化解说，从而增强游戏互动性，同时还能够为人类玩家的游戏过程提供技术参考。

附图说明

图1是本发明装置原理图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，用于游戏AI策略解释的跨模型蒸馏装置，采用了从神经网络模型到决策树模型蒸馏实现策略解释的技术方案，主要包括模型蒸馏和策略解释两个部分。

一、模型蒸馏

(1)游戏AI决策数据的收集与处理

游戏AI决策数据的收集是实现模型蒸馏的第一步，该过程实现对原有模型的知识的提取，即游戏AI决策信息的提取，并存储为数据的形式。这之后，新模型通过对蒸馏数据集的拟合，来实现对原模型的模仿。

在强化学习策略蒸馏的过程中，数据的收集主要集中在行为数据上，即强化学习中的序列轨迹数据。具体的，在获取得到游戏AI的策略模型和游戏环境之后，使用游戏AI的策略模型进行游戏，记录游戏过程中的观测数据(记为s)和游戏AI的行为数据(记为a)，每个观测数据和对应的行为数据记为一条样本(s，a)，整理为列表式数据格式后，作为初始蒸馏数据集。

基于策略更新准则的数据收集与处理是关键性创新，该过程利用了游戏AI值网络模型中更多的决策信息，建立了值信息和样本(s，a)的权重之间的关系，以便于在后续模型蒸馏的过程中，对样本进行有区别地利用，从而提升蒸馏效果。

在基于强化学习的智能体模型训练中，无论采用哪种强化学习算法，都依赖值网络对未来进行评估，进而进行决策。因此，相对于最终的行为数据(序列轨迹数据)，值网络模型能够提供更多的决策信息。根据强化学习策略更新准则，可得原策略π^*和蒸馏得到的策略π之间表现(获取得到的累积奖赏)差异为

其中ρ_π(s)表示策略π下状态s的分布，π(s)表示策略π在状态下s的动作，/>表示策略π^*下对于状态s和动作π(s)的优势信息。因此，为最大化累积奖赏，每个样本(s，a)的权重信息w可以使用优势信息A(s,a)来近似计算。

在这里需要注意的是，不同的游戏有不同的设定，根据游戏可操控的动作行为类型的不同，可以大致分为两类：离散动作游戏和连续动作游戏。前者是指游戏玩家/游戏AI可执行的动作是离散的，有限的，比如格斗类游戏，只有有限的攻击和走位种类，后者则表示可执行的动作是连续的，比如愤怒的小鸟，射击的力度和角度都是可无限调整的。根据游戏类型的不同，需要不同的优势信息的计算方式。以下分别对这两类游戏给出具体的数据处理方式：

【实施例1】离散动作游戏下的数据处理

对于离散动作游戏下的数据处理，需要关注的是在当前状态s下，各个动作a下的优势信息。使用(a¹,a²,…,aⁿ)表示游戏中可选的动作集合，对于每个样本(s，a)，使用模型访问器访问游戏AI的值网络模型，获得V(s)和Q(s,a¹),Q(s,a²),…,Q(s,aⁿ),根据A(s,a)＝Q(s,a)-V(s)，获得对应的优势信息序列A(s,a¹),A(s,a²),…,A(s,aⁿ)。设定样本(s,a)的权重为w＝(s,a¹),A(s,a²),…,A(s,aⁿ)，整理得到(s,a,w)作为蒸馏数据集。

【实施例2】连续动作游戏下的数据处理

对于连续动作游戏下的优势信息计算，我们需要关注的是当前状态s下优势信息在动作空间下的分布。根据不同的使用场景，应有不同的应对方案：

1)对于相对简单的环境，可以将动作离散化，之后使用离散动作空间下的数据处理方式进行处理；

2)对于相对复杂的环境，则蒸馏数据集只保存样本(s，a)信息，之后在决策树学习的过程中，使用模型访问器，通过在线访问模型的方式获得Q和V值，进而得到A(s,a)。

(2)决策树策略模型的训练

得到蒸馏数据集后，通过拟合这些数据来学习决策树策略。决策树的学习过程如下：

步骤1，将蒸馏数据集输入树的根结点；

步骤2，计算每个切分变量下每个切分点下的评价指标，评价指标的具体计算方式以实施方案示例的形式给出；

步骤3，之后，选择评价指标最高的切分变量和对应的切分点进行分裂；

步骤4，重复进行步骤2-3，直到达到预先设定的决策树的最大深度停止，即决策树策略模型训练完成。

同样的，针对不同的游戏类型，有不同的计算评价指标的方式。具体实施方案如下：

【实施例1】离散动作空间下的评价指标

离散动作空间下，使用加权的信息增益作为评价指标：

首先，对分裂前的数据集计算加权熵，即对有权重的样本求熵。具体的加权熵的计算方式为其中C_a表示将样本全部分类为a时的权重和W_a(优势和)与总的权重和/>之间的比值；

其次，计算分裂后两个数据集上各自的加权熵，计算方式和之前保持一致；

最后，将分裂前的加权熵和分裂后的加权熵作差，作为加权的信息增益，获得一次评价。

【实施例2】连续动作空间下的评价指标

连续动作空间下，使用CART算法相似的方式进行评价指标的计算。具体的，使用每个样本预测为时的权重(优势)作为单个损失，评价指标为负的权重和/>其中/>为当前数据集下动作a的均值。

二、策略解释

通过从神经网络到决策树的模型蒸馏，可以得到一个具备高保真度高性能的决策树策略，此时使用对决策树的分析工具，即可提供良好的策略解释信息，对已有的策略的意图进行解释，具体实施方式如下：

【实施例1】显示关键性特征

首先，获取得到需要解释的状态动作对(s，a)；

其次，将状态信息输入到训练得到的决策树策略模型中，得到做出决策过程中所经过的所有结点的信息，此处信息主要包含了当前结点下，哪个特征起到了最关键的作用，并给出具体的作用数值；

Claims

1.一种用于游戏AI策略解释的跨模型蒸馏装置，其特征在于：包括基于监督学习、决策树学习的模型蒸馏系统以及基于决策树规则提取的策略解释两个部分；其中模型蒸馏系统部分包括游戏AI数据收集处理系统和决策树策略模型；决策树策略模型通过模型蒸馏获得，蒸馏所使用的数据集来源于游戏AI数据收集处理系统；策略解释部分，基于决策树模型自身的结构特征，给出行为数据和观测数据之间的因果关系，解释行为的由来；

所述游戏AI数据收集处理系统包含一个观测决策数据收集器和一个模型访问器；所述观测决策数据收集器在游戏AI进行游戏的过程中，对当前的观测数据和游戏AI的行为数据进行记录收集，并调整为统一的格式；模型访问器的功能是对游戏AI的值网络模型进行访问，通过计算获得权重信息，并和观测决策数据收集器中收集得到的数据进行整合；

所述游戏AI数据收集处理系统收集处理数据的详细过程如下：

之后，使用模型访问器访问游戏AI的值网络模型，根据策略更新准则，计算得到各动作下的权重信息w；

最后，将初始数据和权重信息进行合并，输出为(s，a，w)的列表格式，形成带有权重的样本数据，作为蒸馏数据集；

所述决策树策略模型通过模型蒸馏获得，决策树学习过程如下：

步骤1，将蒸馏数据集输入树的根结点；

步骤2，计算每个分裂点下的信息增益或Gini指数；在计算信息增益或Gini指数时，使用样本的权重信息代替单一的数量信息进行计算；

步骤3，之后，选择评价指标最高的分裂点进行分裂；

2.根据权利要求1所述的用于游戏AI策略解释的跨模型蒸馏装置，其特征在于：根据强化学习策略更新准则，可得原策略π^*和蒸馏得到的策略π之间表现差异为为最大化累积奖赏，具体的样本权重信息通过优势信息A(s,a)计算。

3.根据权利要求1所述的用于游戏AI策略解释的跨模型蒸馏装置，其特征在于：所述策略解释基于模型蒸馏系统中的决策树策略模型分析得到，给出在做出决策时最关注的特征这一可解释性信息；在具体解释的过程中包含以下步骤：

首先，获取得到需要解释的状态动作对(s，a)；

其次，将状态信息输入到训练得到的决策树策略模型中，得到做出决策过程中所经过的所有结点的信息；此处信息主要包含了当前结点下，对决策作用最大的特征，并给出具体的作用数值；