CN111882072A

CN111882072A - 一种与规则对弈的智能模型自动化课程训练方法

Info

Publication number: CN111882072A
Application number: CN202010654312.XA
Authority: CN
Inventors: 张柯; 陈敏杰; 闫飞; 孙方义; 王媛媛; 李业磊; 吴斌星
Original assignee: BEIJING HUARU TECHNOLOGY CO LTD
Current assignee: BEIJING HUARU TECHNOLOGY CO LTD
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-11-03
Anticipated expiration: 2040-07-09
Also published as: CN111882072B

Abstract

一种与规则对弈的智能模型自动化课程训练方法，包括：接收课程训练请求；配置硬件资源，初始化规则引擎、学习引擎、仿真引擎、规则库、智能模型与规则模型积分值；规则引擎根据由仿真引擎生成的环境状态和初始规则得到作用于仿真环境中的指令，采用蒙特卡洛方式循环执行多次，直到满足设定的评估指标为止；学习引擎根据由仿真引擎生成的环境状态和初始模型得到作用于仿真环境的指令，循环执行多次，直到满足设定的评估指标为止；分别重复进行上述步骤，直到规则模型满足退出条件。本发明相比于现有模型训练方式，能够利用专家经验自动化设置课程目标，大大提升了智能模型训练效率，有效避免了智能模型自我对弈时的训练不稳定问题。

Description

一种与规则对弈的智能模型自动化课程训练方法

技术领域

本发明涉及仿真模拟领域，具体的，涉及一种通过与规则对弈的智能模型自动化课程训练方法，通过引入规则模型，让智能模型在与规则模型对弈的过程中逐渐提升策略水平。

背景技术

现有的智能模型训练方法，一般是通过模仿学习或纯自我对弈方式进行训练。第一种方式是首先通过模仿学习对模型进行预训练，然后在此基础上进行策略提升训练，但此种方式需要大量的预训练数据集，在某些场景下不方便采集。第二种方式是通过智能体纯自我对弈的方式从零逐级提升各自的策略水平，此种方式虽然不需要预训练数据集，但是由于是从零学起，训练效率低下，并且容易陷入不稳定状态，无法快速有效提升智能模型策略水平。

因此，如何能提高智能模型的训练效率及稳定性，成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提出一种与规则对弈的智能模型自动化课程训练方法，本方法和系统相比于现有模型训练方式，能够利用专家经验自动化设置课程目标，大大提升了智能模型训练效率，有效避免了智能模型自我对弈时的训练不稳定问题。

为达此目的，本发明采用以下技术方案：

一种与规则对弈的智能模型自动化课程训练方法，其特征在于，包括如下步骤：

课程训练请求接收步骤S110：

接收课程训练请求，所述课程训练请求包括：硬件资源、初始想定、初始模型、规则库、强化学习算法和评估指标；

资源配置及初始化步骤S120：

配置硬件资源，初始化规则引擎、学习引擎、仿真引擎、规则库、智能模型与规则模型积分值；

规则模型训练及对抗步骤S130：

规则引擎根据由仿真引擎生成的环境状态和初始规则得到作用于仿真环境中的指令，采用蒙特卡洛方式循环执行多次，直到满足设定的评估指标为止；

智能模型训练及对抗评估步骤S140：

学习引擎根据由仿真引擎生成的环境状态和初始模型得到作用于仿真环境的指令，循环执行多次，直到满足设定的评估指标为止；

循环及退出步骤S150:分别重复进行步骤S130和步骤S140，从而实现规则模型与智能模型的自动化交替对抗，直到规则模型在规则模型训练及对抗步骤S130满足退出条件。

可选的，在课程训练请求接收步骤S110中，

所述硬件资源为用户基于课程训练规模而选择的硬件配置，包括机器数量、内存数量、CPU服务器数量、GPU服务器数量、磁盘容量；

所述初始想定为执行规则库或智能模型时的应用环境，所述应用环境为能够进行攻防对抗训练的应用环境；

所述初始模型为神经网络模型，可根据仿真环境状态输出控制指令并作用于仿真环境；

所述规则库为专家根据经验编码的若干条规则的集合；

所述强化学习算法为学习引擎和规则引擎进行课程训练时所用的算法；

评估指标为采用基于ELO等级分制度的积分值，其计算公式由下式给出：

E_i:i方在一次竞争过程中相对于j方的胜出概率，R_i为i方ELO积分值，R_j为j方ELO积分值。

可选的，所述强化学习算法为基于策略的算法；

评估指标设定为400分，此时若规则模型方高于智能模型方400分时，可认为规则模型对智能模型的胜出概率为91％。

可选的，所述资源配置及初始化步骤S120具体为：

根据课程训练请求，配置硬件资源，其中，规则引擎和学习引擎运行在GPU服务器上，仿真引擎运行在CPU服务器上，对规则库中的每条规则赋予初始权重，对规则模型与智能模型的积分值也进行初始化。

可选的，所述规则模型训练及对抗步骤S130具体为：

规则引擎根据初始课程训练请求，在满足规则模型完备性条件下，从规则库中以规则权重作为选择概率挑选若干规则组合成规则模型，规则组合顺序取决于具体应用领域；

当规则模型与智能模型放在仿真环境中对具体的应用环境进行仿真模拟，并使得规则模型与智能模型进行对抗，当完成一次对抗之后，规则模型的规则权重将根据对抗结果进行更新，若对抗结果为规则模型胜利，则增加规则的权重，若相反，则减小规则的权重；同时根据ELO等级分制度更新规则模型和智能模型的积分值；

当规则模型与智能模型各自更新ELO积分值后，若规则模型相对智能模型的积分差值不满足评估指标，此时规则模型根据更新后的规则权重从规则库中挑选若干规则组合成新的规则模型，然后依照前述方法与智能模型对抗，根据对抗结果更新规则权重及积分值，如此重复M次，直至规则模型相对智能模型的积分值满足评估指标时，停止与智能模型的对抗，保存最后一次更新的控制规则并将其作为规则模型。

可选的，在步骤S130中，规则组合顺序可采用优先级机制对规则进行组合，具体优先级的设置可在领域专家制定规则库时对每条规则赋予一定的优先级。

可选的，所述智能模型训练及对抗评估步骤S140具体为：

该步骤分为训练阶段和评估阶段，在训练阶段，学习引擎根据初始课程训练请求，利用初始模型对接收的仿真环境的状态做出决策，得到指令，并作用于仿真环境，仿真环境的状态发生变化，然后重复执行该步骤，得到大量的仿真环境训练样本，每个样本包括：仿真环境的状态，指令，奖赏，学习引擎从训练样本集挑选若干样本使用强化学习算法进行计算梯度，并更新初始模型的参数；

在评估阶段，智能模型利用更新后的初始模型参数再次作用于仿真环境，并与规则模型进行对抗，当完成一次对抗之后，根据对抗结果更新智能模型和规则模型的ELO积分值，若智能模型相对规则模型的积分差值不满足评估指标，此时智能模型重新回到训练阶段继续进行学习，如此重复N次，直到当上述积分差值满足评估指标时，保存最后一次学习的模型参数并将其作为智能模型。

可选的，根据ELO等级分制度更新规则模型和智能模型的积分值，具体为：按如下规则更新：

R_i＝R_o+K(W-E_i)

R_i为规则模型或智能模型对抗结束后的积分值，R_o为规则模型或智能模型对抗前的积分值，K为加成系数，由规则模型或智能模型根据当前积分值水平决定，W是对抗结果得分，赢＝1，输＝0。

可选的，所述退出条件为在规则模型训练及对抗步骤S130中，规则模型经过循环训练M次，M达到上限阈值时，但其积分值未能满足评估指标，此时终止自动化课程训练，储存上一阶段更新后的智能模型参数为最终的智能模型。

综上，本发明提出了一种与规则对弈的智能模型自动化课程训练方法，通过引入规则模型，让智能模型在与规则模型对弈的过程中逐渐提升策略水平，而规则模型也将通过强化学习的方式进行有效组合，从而战胜先前的智能模型，规则模型与智能模型相互对弈并不断为对方设置新的课程目标，直到规则模型不能收敛为止，此时智能模型自动化训练结束。本方法相比于现有模型训练方式，能够利用专家经验自动化设置课程目标，大大提升了智能模型训练效率，有效避免了智能模型自我对弈时的训练不稳定问题。

附图说明

图1是根据本发明具体实施例的与规则对弈的智能模型自动化课程训练方法的流程图；

图2是根据本发明另一个具体实施例的与规则对弈的智能模型自动化课程训练方法的示例。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

针对本发明使用的术语进行如下说明：

1.规则模型

基于知识的软件模型，应用基于规则的系统，采用归纳和推理机制，完成最终决策。

2.智能模型

基于神经网络的软件模型，由大量的、简单的神经元广泛地互相连接而形成的复杂网络系统。

3.课程训练

从有限的简单目标开始，逐渐增加训练目标的难度，从而将复杂的任务进行逐级分解达到加速学习的目的。

4.强化学习

强化学习是机器学习的范式和方法论之一，本质是解决自主决策的问题，并且可以连续决策，主要包含四个元素，智能体(某个或者多个实体)、环境状态、动作、奖励，用于描述和解决智能体在与环境的交互过程中，通过学习策略以达成回报最大化或实现特定目标的问题。

参见图1，示出了根据本发明的与规则对弈的智能模型自动化课程训练方法的流程图，包括如下步骤：

课程训练请求接收步骤S110：

接收课程训练请求，所述课程训练请求包括：硬件资源、初始想定、初始模型、规则库、强化学习算法和评估指标。

在一个具体的实施例中，所述课程训练请求可以通过远程终端发送，也可以通过预先编好的脚本发送课程训练请求。

在所述课程训练请求中，所述硬件资源为用户基于课程训练规模而选择的硬件配置，包括机器数量、内存数量、CPU服务器数量、GPU服务器数量、磁盘容量。

所述初始想定为执行规则库或智能模型时的应用环境，在本发明中，所述应用环境为能够进行攻防对抗训练的应用环境。例如，体育类、军事类、棋牌类等等。

所述初始模型为神经网络模型，可根据仿真环境状态输出控制指令并作用与仿真环境。

所述规则库为专家根据经验编码的若干条规则的集合。

所述强化学习算法为学习引擎和规则引擎进行课程训练时所用的算法，优选地，强化学习算法为基于策略的算法。评估指标为采用基于ELO等级分制度的积分值。

在所述基于ELO等级分制度的积分值中，评估指标可设定为400分，此时若规则模型方高于智能模型方400分时，可认为规则模型对智能模型的胜出概率为91％，其计算公式由下式给出：

E_i:i方在一次竞争过程中相对于j方的胜出概率。R_i为i方ELO积分值，R_j为j方ELO积分值。

当i方为规则模型时，j方为智能模型；反之，当i方为智能模型时，j方位规则模型。

资源配置及初始化步骤S120：

配置硬件资源，初始化规则引擎、学习引擎、仿真引擎、规则库、智能模型与规则模型积分值。

具体的，根据课程训练请求，配置硬件资源，其中，规则引擎和学习引擎运行在GPU服务器上，仿真引擎运行在CPU服务器上，对规则库中的每条规则赋予初始权重，对规则模型与智能模型的积分值也进行初始化。

示例性的，仿真引擎可以使用游戏引擎，如unity，也可以使用专业的仿真引擎，如XSimStudio。规则引擎可以使用推理引擎Drools来实现，学习引擎可以通过Pytorch、PaddlePaddle、MPI、Parameter Server等实现。

若规则库中有100条规则，则每条规则的初始权重为1/100。初始化规则模型与智能模型的ELO积分值为0分。

规则模型训练及对抗步骤S130：

规则引擎根据由仿真引擎生成的环境状态和初始规则得到作用于仿真环境中的指令，采用蒙特卡洛方式循环执行多次，直到满足设定的评估指标为止。

具体的，规则引擎根据初始课程训练请求，在满足规则模型完备性条件下，从规则库中以规则权重作为选择概率挑选若干规则组合成规则模型，规则组合顺序取决于具体应用领域。

当规则模型与智能模型放在仿真环境中对具体的应用环境进行仿真模拟，并使得规则模型与智能模型进行对抗，当完成一次对抗之后，规则模型的规则权重将根据对抗结果进行更新，若对抗结果为规则模型胜利，则增加规则的权重，若相反，则减小规则的权重；同时根据ELO等级分制度更新规则模型和智能模型的积分值。

当规则模型与智能模型各自更新ELO积分值后，若规则模型相对智能模型的积分差值不满足评估指标，此时规则模型根据更新后的规则权重从规则库中挑选若干规则组合成新的规则模型，然后依照前述方法与智能模型对抗，根据对抗结果更新规则权重及积分值，如此重复M次，直至规则模型相对智能模型的积分值满足评估指标时，停止与智能模型的对抗，保存最后一次更新的控制规则并将其作为规则模型。至此，上述过程为自动化课程训练第一阶段。

在本发明中，根据ELO等级分制度更新规则模型和智能模型的积分值，具体为：按如下规则更新：

R_i＝R_o+K(W-E_i)

R_i为规则模型或智能模型对抗结束后的积分值，R_o为规则模型或智能模型对抗前的积分值，K为加成系数，由规则模型或智能模型根据当前积分值水平决定。W是对抗结果得分，赢＝1，输＝0。E_i同上。

在步骤S130中，规则组合顺序可采用优先级机制对规则进行组合，具体优先级的设置可在领域专家制定规则库时对每条规则赋予一定的优先级。

本步骤主要用于持续不断的通过与智能模型进行对抗，来升级更新规则模型。

智能模型训练及对抗评估步骤S140：

学习引擎根据由仿真引擎生成的环境状态和初始模型得到作用于仿真环境的指令，循环执行多次，直到满足设定的评估指标为止。

具体的，该步骤分为训练阶段和评估阶段，在训练阶段，学习引擎根据初始课程训练请求，利用初始模型对接收的仿真环境的状态做出决策，得到指令，并作用于仿真环境，仿真环境的状态发生变化，然后重复执行该步骤，得到大量的仿真环境训练样本，每个样本包括：仿真环境的状态，指令，奖赏，学习引擎从训练样本集挑选若干样本使用强化学习算法进行计算梯度，并更新初始模型的参数；

在本步骤中，主要用于持续不断的通过与规则模型进行对抗，来通过训练来升级智能模型。

至此，上述过程为自动化课程训练第二阶段。

因此，通过第一阶段和第二阶段，来实现智能模型的自动化训练。下一步，将循环进行第一阶段和第二阶段，通过迭代对抗，来实现智能模型的升级。

其中，规则模型按照步骤S130进行训练，此为自动化课程训练第3阶段。

智能模型按照步骤S130进行训练，此为自动化课程训练第4阶段。

以此类推，规则模型与智能模型交替进行自动化课程训练，直到规则模型在第2*i+1阶段时，满足了退出条件。

所述退出条件为在规则模型训练及对抗步骤S130中，规则模型经过循环训练M次，M达到上限阈值时，但其积分值未能满足评估指标，也就表示规则引擎再无法根据更新后的规则权重从规则库中挑选若干规则组合成新的规则模型，以战胜智能模型，此时终止自动化课程训练，储存上一阶段更新后的智能模型参数为最终的智能模型。

参见图2，进一步示出了本发明另一个具体实施例的与规则对弈的智能模型自动化课程训练方法的示例。

综上，本发明通过引入规则引擎控制的规则模型，与智能模型进行自动对弈并不断提升智能模型的策略水平，形成了规则模型与智能模型相互对弈的自动化课程训练方法，达到了智能模型稳定训练的目的。本发明能够使得智能模型逐级提升策略水平，大大降低了智能模型的训练难度，提高了智能模型的训练效率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种与规则对弈的智能模型自动化课程训练方法，其特征在于，包括如下步骤：

课程训练请求接收步骤S110：

资源配置及初始化步骤S120：

规则模型训练及对抗步骤S130：

智能模型训练及对抗评估步骤S140：

2.根据权利要求1所述的智能模型自动化课程训练方法，其特征在于：

在课程训练请求接收步骤S110中，

所述规则库为专家根据经验编码的若干条规则的集合；

3.根据权利要求2所述的智能模型自动化课程训练方法，其特征在于：

所述强化学习算法为基于策略的算法；

4.根据权利要求1所述的智能模型自动化课程训练方法，其特征在于：

所述资源配置及初始化步骤S120具体为：

5.根据权利要求1所述的智能模型自动化课程训练方法，其特征在于：

所述规则模型训练及对抗步骤S130具体为：

6.根据权利要求5所述的智能模型自动化训练方法，其特征在于：

7.根据权利要求1所述的智能模型自动化训练方法，其特征在于：

所述智能模型训练及对抗评估步骤S140具体为：

8.根据权利要求5或7所述的智能模型自动化训练方法，其特征在于：

根据ELO等级分制度更新规则模型和智能模型的积分值，具体为：按如下规则更新：

R_i＝R_o+K(W-E_i)

9.根据权利要求8所述的智能模型自动化课程训练方法，其特征在于：

所述退出条件为在规则模型训练及对抗步骤S130中，规则模型经过循环训练M次，M达到上限阈值时，但其积分值未能满足评估指标，此时终止自动化课程训练，储存上一阶段更新后的智能模型参数为最终的智能模型。