CN111882072A - 一种与规则对弈的智能模型自动化课程训练方法 - Google Patents

一种与规则对弈的智能模型自动化课程训练方法 Download PDF

Info

Publication number
CN111882072A
CN111882072A CN202010654312.XA CN202010654312A CN111882072A CN 111882072 A CN111882072 A CN 111882072A CN 202010654312 A CN202010654312 A CN 202010654312A CN 111882072 A CN111882072 A CN 111882072A
Authority
CN
China
Prior art keywords
model
rule
training
intelligent
intelligent model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010654312.XA
Other languages
English (en)
Other versions
CN111882072B (zh
Inventor
张柯
陈敏杰
闫飞
孙方义
王媛媛
李业磊
吴斌星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HUARU TECHNOLOGY CO LTD
Original Assignee
BEIJING HUARU TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HUARU TECHNOLOGY CO LTD filed Critical BEIJING HUARU TECHNOLOGY CO LTD
Priority to CN202010654312.XA priority Critical patent/CN111882072B/zh
Publication of CN111882072A publication Critical patent/CN111882072A/zh
Application granted granted Critical
Publication of CN111882072B publication Critical patent/CN111882072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种与规则对弈的智能模型自动化课程训练方法,包括:接收课程训练请求;配置硬件资源,初始化规则引擎、学习引擎、仿真引擎、规则库、智能模型与规则模型积分值;规则引擎根据由仿真引擎生成的环境状态和初始规则得到作用于仿真环境中的指令,采用蒙特卡洛方式循环执行多次,直到满足设定的评估指标为止;学习引擎根据由仿真引擎生成的环境状态和初始模型得到作用于仿真环境的指令,循环执行多次,直到满足设定的评估指标为止;分别重复进行上述步骤,直到规则模型满足退出条件。本发明相比于现有模型训练方式,能够利用专家经验自动化设置课程目标,大大提升了智能模型训练效率,有效避免了智能模型自我对弈时的训练不稳定问题。

Description

一种与规则对弈的智能模型自动化课程训练方法
技术领域
本发明涉及仿真模拟领域,具体的,涉及一种通过与规则对弈的智能模型自动化课程训练方法,通过引入规则模型,让智能模型在与规则模型对弈的过程中逐渐提升策略水平。
背景技术
现有的智能模型训练方法,一般是通过模仿学习或纯自我对弈方式进行训练。第一种方式是首先通过模仿学习对模型进行预训练,然后在此基础上进行策略提升训练,但此种方式需要大量的预训练数据集,在某些场景下不方便采集。第二种方式是通过智能体纯自我对弈的方式从零逐级提升各自的策略水平,此种方式虽然不需要预训练数据集,但是由于是从零学起,训练效率低下,并且容易陷入不稳定状态,无法快速有效提升智能模型策略水平。
因此,如何能提高智能模型的训练效率及稳定性,成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种与规则对弈的智能模型自动化课程训练方法,本方法和系统相比于现有模型训练方式,能够利用专家经验自动化设置课程目标,大大提升了智能模型训练效率,有效避免了智能模型自我对弈时的训练不稳定问题。
为达此目的,本发明采用以下技术方案:
一种与规则对弈的智能模型自动化课程训练方法,其特征在于,包括如下步骤:
课程训练请求接收步骤S110:
接收课程训练请求,所述课程训练请求包括:硬件资源、初始想定、初始模型、规则库、强化学习算法和评估指标;
资源配置及初始化步骤S120:
配置硬件资源,初始化规则引擎、学习引擎、仿真引擎、规则库、智能模型与规则模型积分值;
规则模型训练及对抗步骤S130:
规则引擎根据由仿真引擎生成的环境状态和初始规则得到作用于仿真环境中的指令,采用蒙特卡洛方式循环执行多次,直到满足设定的评估指标为止;
智能模型训练及对抗评估步骤S140:
学习引擎根据由仿真引擎生成的环境状态和初始模型得到作用于仿真环境的指令,循环执行多次,直到满足设定的评估指标为止;
循环及退出步骤S150:分别重复进行步骤S130和步骤S140,从而实现规则模型与智能模型的自动化交替对抗,直到规则模型在规则模型训练及对抗步骤S130满足退出条件。
可选的,在课程训练请求接收步骤S110中,
所述硬件资源为用户基于课程训练规模而选择的硬件配置,包括机器数量、内存数量、CPU服务器数量、GPU服务器数量、磁盘容量;
所述初始想定为执行规则库或智能模型时的应用环境,所述应用环境为能够进行攻防对抗训练的应用环境;
所述初始模型为神经网络模型,可根据仿真环境状态输出控制指令并作用于仿真环境;
所述规则库为专家根据经验编码的若干条规则的集合;
所述强化学习算法为学习引擎和规则引擎进行课程训练时所用的算法;
评估指标为采用基于ELO等级分制度的积分值,其计算公式由下式给出:
Figure BDA0002576138150000021
Ei:i方在一次竞争过程中相对于j方的胜出概率,Ri为i方ELO积分值,Rj为j方ELO积分值。
可选的,所述强化学习算法为基于策略的算法;
评估指标设定为400分,此时若规则模型方高于智能模型方400分时,可认为规则模型对智能模型的胜出概率为91%。
可选的,所述资源配置及初始化步骤S120具体为:
根据课程训练请求,配置硬件资源,其中,规则引擎和学习引擎运行在GPU服务器上,仿真引擎运行在CPU服务器上,对规则库中的每条规则赋予初始权重,对规则模型与智能模型的积分值也进行初始化。
可选的,所述规则模型训练及对抗步骤S130具体为:
规则引擎根据初始课程训练请求,在满足规则模型完备性条件下,从规则库中以规则权重作为选择概率挑选若干规则组合成规则模型,规则组合顺序取决于具体应用领域;
当规则模型与智能模型放在仿真环境中对具体的应用环境进行仿真模拟,并使得规则模型与智能模型进行对抗,当完成一次对抗之后,规则模型的规则权重将根据对抗结果进行更新,若对抗结果为规则模型胜利,则增加规则的权重,若相反,则减小规则的权重;同时根据ELO等级分制度更新规则模型和智能模型的积分值;
当规则模型与智能模型各自更新ELO积分值后,若规则模型相对智能模型的积分差值不满足评估指标,此时规则模型根据更新后的规则权重从规则库中挑选若干规则组合成新的规则模型,然后依照前述方法与智能模型对抗,根据对抗结果更新规则权重及积分值,如此重复M次,直至规则模型相对智能模型的积分值满足评估指标时,停止与智能模型的对抗,保存最后一次更新的控制规则并将其作为规则模型。
可选的,在步骤S130中,规则组合顺序可采用优先级机制对规则进行组合,具体优先级的设置可在领域专家制定规则库时对每条规则赋予一定的优先级。
可选的,所述智能模型训练及对抗评估步骤S140具体为:
该步骤分为训练阶段和评估阶段,在训练阶段,学习引擎根据初始课程训练请求,利用初始模型对接收的仿真环境的状态做出决策,得到指令,并作用于仿真环境,仿真环境的状态发生变化,然后重复执行该步骤,得到大量的仿真环境训练样本,每个样本包括:仿真环境的状态,指令,奖赏,学习引擎从训练样本集挑选若干样本使用强化学习算法进行计算梯度,并更新初始模型的参数;
在评估阶段,智能模型利用更新后的初始模型参数再次作用于仿真环境,并与规则模型进行对抗,当完成一次对抗之后,根据对抗结果更新智能模型和规则模型的ELO积分值,若智能模型相对规则模型的积分差值不满足评估指标,此时智能模型重新回到训练阶段继续进行学习,如此重复N次,直到当上述积分差值满足评估指标时,保存最后一次学习的模型参数并将其作为智能模型。
可选的,根据ELO等级分制度更新规则模型和智能模型的积分值,具体为:按如下规则更新:
Ri=Ro+K(W-Ei)
Ri为规则模型或智能模型对抗结束后的积分值,Ro为规则模型或智能模型对抗前的积分值,K为加成系数,由规则模型或智能模型根据当前积分值水平决定,W是对抗结果得分,赢=1,输=0。
可选的,所述退出条件为在规则模型训练及对抗步骤S130中,规则模型经过循环训练M次,M达到上限阈值时,但其积分值未能满足评估指标,此时终止自动化课程训练,储存上一阶段更新后的智能模型参数为最终的智能模型。
综上,本发明提出了一种与规则对弈的智能模型自动化课程训练方法,通过引入规则模型,让智能模型在与规则模型对弈的过程中逐渐提升策略水平,而规则模型也将通过强化学习的方式进行有效组合,从而战胜先前的智能模型,规则模型与智能模型相互对弈并不断为对方设置新的课程目标,直到规则模型不能收敛为止,此时智能模型自动化训练结束。本方法相比于现有模型训练方式,能够利用专家经验自动化设置课程目标,大大提升了智能模型训练效率,有效避免了智能模型自我对弈时的训练不稳定问题。
附图说明
图1是根据本发明具体实施例的与规则对弈的智能模型自动化课程训练方法的流程图;
图2是根据本发明另一个具体实施例的与规则对弈的智能模型自动化课程训练方法的示例。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
针对本发明使用的术语进行如下说明:
1.规则模型
基于知识的软件模型,应用基于规则的系统,采用归纳和推理机制,完成最终决策。
2.智能模型
基于神经网络的软件模型,由大量的、简单的神经元广泛地互相连接而形成的复杂网络系统。
3.课程训练
从有限的简单目标开始,逐渐增加训练目标的难度,从而将复杂的任务进行逐级分解达到加速学习的目的。
4.强化学习
强化学习是机器学习的范式和方法论之一,本质是解决自主决策的问题,并且可以连续决策,主要包含四个元素,智能体(某个或者多个实体)、环境状态、动作、奖励,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。
参见图1,示出了根据本发明的与规则对弈的智能模型自动化课程训练方法的流程图,包括如下步骤:
课程训练请求接收步骤S110:
接收课程训练请求,所述课程训练请求包括:硬件资源、初始想定、初始模型、规则库、强化学习算法和评估指标。
在一个具体的实施例中,所述课程训练请求可以通过远程终端发送,也可以通过预先编好的脚本发送课程训练请求。
在所述课程训练请求中,所述硬件资源为用户基于课程训练规模而选择的硬件配置,包括机器数量、内存数量、CPU服务器数量、GPU服务器数量、磁盘容量。
所述初始想定为执行规则库或智能模型时的应用环境,在本发明中,所述应用环境为能够进行攻防对抗训练的应用环境。例如,体育类、军事类、棋牌类等等。
所述初始模型为神经网络模型,可根据仿真环境状态输出控制指令并作用与仿真环境。
所述规则库为专家根据经验编码的若干条规则的集合。
所述强化学习算法为学习引擎和规则引擎进行课程训练时所用的算法,优选地,强化学习算法为基于策略的算法。评估指标为采用基于ELO等级分制度的积分值。
在所述基于ELO等级分制度的积分值中,评估指标可设定为400分,此时若规则模型方高于智能模型方400分时,可认为规则模型对智能模型的胜出概率为91%,其计算公式由下式给出:
Figure BDA0002576138150000061
Ei:i方在一次竞争过程中相对于j方的胜出概率。Ri为i方ELO积分值,Rj为j方ELO积分值。
当i方为规则模型时,j方为智能模型;反之,当i方为智能模型时,j方位规则模型。
资源配置及初始化步骤S120:
配置硬件资源,初始化规则引擎、学习引擎、仿真引擎、规则库、智能模型与规则模型积分值。
具体的,根据课程训练请求,配置硬件资源,其中,规则引擎和学习引擎运行在GPU服务器上,仿真引擎运行在CPU服务器上,对规则库中的每条规则赋予初始权重,对规则模型与智能模型的积分值也进行初始化。
示例性的,仿真引擎可以使用游戏引擎,如unity,也可以使用专业的仿真引擎,如XSimStudio。规则引擎可以使用推理引擎Drools来实现,学习引擎可以通过Pytorch、PaddlePaddle、MPI、Parameter Server等实现。
若规则库中有100条规则,则每条规则的初始权重为1/100。初始化规则模型与智能模型的ELO积分值为0分。
规则模型训练及对抗步骤S130:
规则引擎根据由仿真引擎生成的环境状态和初始规则得到作用于仿真环境中的指令,采用蒙特卡洛方式循环执行多次,直到满足设定的评估指标为止。
具体的,规则引擎根据初始课程训练请求,在满足规则模型完备性条件下,从规则库中以规则权重作为选择概率挑选若干规则组合成规则模型,规则组合顺序取决于具体应用领域。
当规则模型与智能模型放在仿真环境中对具体的应用环境进行仿真模拟,并使得规则模型与智能模型进行对抗,当完成一次对抗之后,规则模型的规则权重将根据对抗结果进行更新,若对抗结果为规则模型胜利,则增加规则的权重,若相反,则减小规则的权重;同时根据ELO等级分制度更新规则模型和智能模型的积分值。
当规则模型与智能模型各自更新ELO积分值后,若规则模型相对智能模型的积分差值不满足评估指标,此时规则模型根据更新后的规则权重从规则库中挑选若干规则组合成新的规则模型,然后依照前述方法与智能模型对抗,根据对抗结果更新规则权重及积分值,如此重复M次,直至规则模型相对智能模型的积分值满足评估指标时,停止与智能模型的对抗,保存最后一次更新的控制规则并将其作为规则模型。至此,上述过程为自动化课程训练第一阶段。
在本发明中,根据ELO等级分制度更新规则模型和智能模型的积分值,具体为:按如下规则更新:
Ri=Ro+K(W-Ei)
Ri为规则模型或智能模型对抗结束后的积分值,Ro为规则模型或智能模型对抗前的积分值,K为加成系数,由规则模型或智能模型根据当前积分值水平决定。W是对抗结果得分,赢=1,输=0。Ei同上。
在步骤S130中,规则组合顺序可采用优先级机制对规则进行组合,具体优先级的设置可在领域专家制定规则库时对每条规则赋予一定的优先级。
本步骤主要用于持续不断的通过与智能模型进行对抗,来升级更新规则模型。
智能模型训练及对抗评估步骤S140:
学习引擎根据由仿真引擎生成的环境状态和初始模型得到作用于仿真环境的指令,循环执行多次,直到满足设定的评估指标为止。
具体的,该步骤分为训练阶段和评估阶段,在训练阶段,学习引擎根据初始课程训练请求,利用初始模型对接收的仿真环境的状态做出决策,得到指令,并作用于仿真环境,仿真环境的状态发生变化,然后重复执行该步骤,得到大量的仿真环境训练样本,每个样本包括:仿真环境的状态,指令,奖赏,学习引擎从训练样本集挑选若干样本使用强化学习算法进行计算梯度,并更新初始模型的参数;
在评估阶段,智能模型利用更新后的初始模型参数再次作用于仿真环境,并与规则模型进行对抗,当完成一次对抗之后,根据对抗结果更新智能模型和规则模型的ELO积分值,若智能模型相对规则模型的积分差值不满足评估指标,此时智能模型重新回到训练阶段继续进行学习,如此重复N次,直到当上述积分差值满足评估指标时,保存最后一次学习的模型参数并将其作为智能模型。
在本步骤中,主要用于持续不断的通过与规则模型进行对抗,来通过训练来升级智能模型。
至此,上述过程为自动化课程训练第二阶段。
因此,通过第一阶段和第二阶段,来实现智能模型的自动化训练。下一步,将循环进行第一阶段和第二阶段,通过迭代对抗,来实现智能模型的升级。
循环及退出步骤S150:分别重复进行步骤S130和步骤S140,从而实现规则模型与智能模型的自动化交替对抗,直到规则模型在规则模型训练及对抗步骤S130满足退出条件。
其中,规则模型按照步骤S130进行训练,此为自动化课程训练第3阶段。
智能模型按照步骤S130进行训练,此为自动化课程训练第4阶段。
以此类推,规则模型与智能模型交替进行自动化课程训练,直到规则模型在第2*i+1阶段时,满足了退出条件。
所述退出条件为在规则模型训练及对抗步骤S130中,规则模型经过循环训练M次,M达到上限阈值时,但其积分值未能满足评估指标,也就表示规则引擎再无法根据更新后的规则权重从规则库中挑选若干规则组合成新的规则模型,以战胜智能模型,此时终止自动化课程训练,储存上一阶段更新后的智能模型参数为最终的智能模型。
参见图2,进一步示出了本发明另一个具体实施例的与规则对弈的智能模型自动化课程训练方法的示例。
综上,本发明通过引入规则引擎控制的规则模型,与智能模型进行自动对弈并不断提升智能模型的策略水平,形成了规则模型与智能模型相互对弈的自动化课程训练方法,达到了智能模型稳定训练的目的。本发明能够使得智能模型逐级提升策略水平,大大降低了智能模型的训练难度,提高了智能模型的训练效率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (9)

1.一种与规则对弈的智能模型自动化课程训练方法,其特征在于,包括如下步骤:
课程训练请求接收步骤S110:
接收课程训练请求,所述课程训练请求包括:硬件资源、初始想定、初始模型、规则库、强化学习算法和评估指标;
资源配置及初始化步骤S120:
配置硬件资源,初始化规则引擎、学习引擎、仿真引擎、规则库、智能模型与规则模型积分值;
规则模型训练及对抗步骤S130:
规则引擎根据由仿真引擎生成的环境状态和初始规则得到作用于仿真环境中的指令,采用蒙特卡洛方式循环执行多次,直到满足设定的评估指标为止;
智能模型训练及对抗评估步骤S140:
学习引擎根据由仿真引擎生成的环境状态和初始模型得到作用于仿真环境的指令,循环执行多次,直到满足设定的评估指标为止;
循环及退出步骤S150:分别重复进行步骤S130和步骤S140,从而实现规则模型与智能模型的自动化交替对抗,直到规则模型在规则模型训练及对抗步骤S130满足退出条件。
2.根据权利要求1所述的智能模型自动化课程训练方法,其特征在于:
在课程训练请求接收步骤S110中,
所述硬件资源为用户基于课程训练规模而选择的硬件配置,包括机器数量、内存数量、CPU服务器数量、GPU服务器数量、磁盘容量;
所述初始想定为执行规则库或智能模型时的应用环境,所述应用环境为能够进行攻防对抗训练的应用环境;
所述初始模型为神经网络模型,可根据仿真环境状态输出控制指令并作用于仿真环境;
所述规则库为专家根据经验编码的若干条规则的集合;
所述强化学习算法为学习引擎和规则引擎进行课程训练时所用的算法;
评估指标为采用基于ELO等级分制度的积分值,其计算公式由下式给出:
Figure FDA0002576138140000021
Ei:i方在一次竞争过程中相对于j方的胜出概率,Ri为i方ELO积分值,Rj为j方ELO积分值。
3.根据权利要求2所述的智能模型自动化课程训练方法,其特征在于:
所述强化学习算法为基于策略的算法;
评估指标设定为400分,此时若规则模型方高于智能模型方400分时,可认为规则模型对智能模型的胜出概率为91%。
4.根据权利要求1所述的智能模型自动化课程训练方法,其特征在于:
所述资源配置及初始化步骤S120具体为:
根据课程训练请求,配置硬件资源,其中,规则引擎和学习引擎运行在GPU服务器上,仿真引擎运行在CPU服务器上,对规则库中的每条规则赋予初始权重,对规则模型与智能模型的积分值也进行初始化。
5.根据权利要求1所述的智能模型自动化课程训练方法,其特征在于:
所述规则模型训练及对抗步骤S130具体为:
规则引擎根据初始课程训练请求,在满足规则模型完备性条件下,从规则库中以规则权重作为选择概率挑选若干规则组合成规则模型,规则组合顺序取决于具体应用领域;
当规则模型与智能模型放在仿真环境中对具体的应用环境进行仿真模拟,并使得规则模型与智能模型进行对抗,当完成一次对抗之后,规则模型的规则权重将根据对抗结果进行更新,若对抗结果为规则模型胜利,则增加规则的权重,若相反,则减小规则的权重;同时根据ELO等级分制度更新规则模型和智能模型的积分值;
当规则模型与智能模型各自更新ELO积分值后,若规则模型相对智能模型的积分差值不满足评估指标,此时规则模型根据更新后的规则权重从规则库中挑选若干规则组合成新的规则模型,然后依照前述方法与智能模型对抗,根据对抗结果更新规则权重及积分值,如此重复M次,直至规则模型相对智能模型的积分值满足评估指标时,停止与智能模型的对抗,保存最后一次更新的控制规则并将其作为规则模型。
6.根据权利要求5所述的智能模型自动化训练方法,其特征在于:
在步骤S130中,规则组合顺序可采用优先级机制对规则进行组合,具体优先级的设置可在领域专家制定规则库时对每条规则赋予一定的优先级。
7.根据权利要求1所述的智能模型自动化训练方法,其特征在于:
所述智能模型训练及对抗评估步骤S140具体为:
该步骤分为训练阶段和评估阶段,在训练阶段,学习引擎根据初始课程训练请求,利用初始模型对接收的仿真环境的状态做出决策,得到指令,并作用于仿真环境,仿真环境的状态发生变化,然后重复执行该步骤,得到大量的仿真环境训练样本,每个样本包括:仿真环境的状态,指令,奖赏,学习引擎从训练样本集挑选若干样本使用强化学习算法进行计算梯度,并更新初始模型的参数;
在评估阶段,智能模型利用更新后的初始模型参数再次作用于仿真环境,并与规则模型进行对抗,当完成一次对抗之后,根据对抗结果更新智能模型和规则模型的ELO积分值,若智能模型相对规则模型的积分差值不满足评估指标,此时智能模型重新回到训练阶段继续进行学习,如此重复N次,直到当上述积分差值满足评估指标时,保存最后一次学习的模型参数并将其作为智能模型。
8.根据权利要求5或7所述的智能模型自动化训练方法,其特征在于:
根据ELO等级分制度更新规则模型和智能模型的积分值,具体为:按如下规则更新:
Ri=Ro+K(W-Ei)
Ri为规则模型或智能模型对抗结束后的积分值,Ro为规则模型或智能模型对抗前的积分值,K为加成系数,由规则模型或智能模型根据当前积分值水平决定,W是对抗结果得分,赢=1,输=0。
9.根据权利要求8所述的智能模型自动化课程训练方法,其特征在于:
所述退出条件为在规则模型训练及对抗步骤S130中,规则模型经过循环训练M次,M达到上限阈值时,但其积分值未能满足评估指标,此时终止自动化课程训练,储存上一阶段更新后的智能模型参数为最终的智能模型。
CN202010654312.XA 2020-07-09 2020-07-09 一种与规则对弈的智能模型自动化课程训练方法 Active CN111882072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010654312.XA CN111882072B (zh) 2020-07-09 2020-07-09 一种与规则对弈的智能模型自动化课程训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010654312.XA CN111882072B (zh) 2020-07-09 2020-07-09 一种与规则对弈的智能模型自动化课程训练方法

Publications (2)

Publication Number Publication Date
CN111882072A true CN111882072A (zh) 2020-11-03
CN111882072B CN111882072B (zh) 2023-11-14

Family

ID=73150875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010654312.XA Active CN111882072B (zh) 2020-07-09 2020-07-09 一种与规则对弈的智能模型自动化课程训练方法

Country Status (1)

Country Link
CN (1) CN111882072B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112704882A (zh) * 2021-01-14 2021-04-27 广州云从鼎望科技有限公司 基于模型的棋牌游戏策略更新的方法、系统、介质及装置
CN114327916A (zh) * 2022-03-10 2022-04-12 中国科学院自动化研究所 一种资源分配系统的训练方法、装置及设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407999A (zh) * 2016-08-25 2017-02-15 北京物思创想科技有限公司 结合规则来进行机器学习的方法及系统
CN107409126A (zh) * 2015-02-24 2017-11-28 思科技术公司 用于保护企业计算环境安全的系统和方法
CN108520664A (zh) * 2018-03-28 2018-09-11 北京华如科技股份有限公司 陆空实兵实装对抗训练系统
US20180357552A1 (en) * 2016-01-27 2018-12-13 Bonsai AI, Inc. Artificial Intelligence Engine Having Various Algorithms to Build Different Concepts Contained Within a Same AI Model
CN109670600A (zh) * 2018-12-14 2019-04-23 启元世界(北京)信息技术服务有限公司 基于云平台的决策方法和系统
CN109716345A (zh) * 2016-04-29 2019-05-03 普威达有限公司 计算机实现的隐私工程系统和方法
US20190213502A1 (en) * 2018-01-08 2019-07-11 International Business Machines Corporation Creating a signature for identifying a particular machine learning model
CN110147883A (zh) * 2019-05-28 2019-08-20 航天科工系统仿真科技(北京)有限公司 用于作战仿真的模型的训练方法、装置、设备和存储介质
US20190385068A1 (en) * 2016-12-07 2019-12-19 Takeoka Lab Corporation Program storage medium, apparatus and method provided with ruleset-selectable inference engine
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
WO2020106908A1 (en) * 2018-11-21 2020-05-28 Amazon Technologies, Inc. Reinforcement learning model training through simulation
CN111318025A (zh) * 2020-02-07 2020-06-23 网易(杭州)网络有限公司 游戏对象的匹配方法、装置、电子设备及计算机可读介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107409126A (zh) * 2015-02-24 2017-11-28 思科技术公司 用于保护企业计算环境安全的系统和方法
US20180357552A1 (en) * 2016-01-27 2018-12-13 Bonsai AI, Inc. Artificial Intelligence Engine Having Various Algorithms to Build Different Concepts Contained Within a Same AI Model
CN109716345A (zh) * 2016-04-29 2019-05-03 普威达有限公司 计算机实现的隐私工程系统和方法
CN106407999A (zh) * 2016-08-25 2017-02-15 北京物思创想科技有限公司 结合规则来进行机器学习的方法及系统
US20190385068A1 (en) * 2016-12-07 2019-12-19 Takeoka Lab Corporation Program storage medium, apparatus and method provided with ruleset-selectable inference engine
US20190213502A1 (en) * 2018-01-08 2019-07-11 International Business Machines Corporation Creating a signature for identifying a particular machine learning model
CN108520664A (zh) * 2018-03-28 2018-09-11 北京华如科技股份有限公司 陆空实兵实装对抗训练系统
WO2020106908A1 (en) * 2018-11-21 2020-05-28 Amazon Technologies, Inc. Reinforcement learning model training through simulation
CN109670600A (zh) * 2018-12-14 2019-04-23 启元世界(北京)信息技术服务有限公司 基于云平台的决策方法和系统
CN110147883A (zh) * 2019-05-28 2019-08-20 航天科工系统仿真科技(北京)有限公司 用于作战仿真的模型的训练方法、装置、设备和存储介质
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111318025A (zh) * 2020-02-07 2020-06-23 网易(杭州)网络有限公司 游戏对象的匹配方法、装置、电子设备及计算机可读介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HYRUM S. ANDERSON等: "Learning to Evade Static PE Machine Learning Malware Models via Reinforcement Learning", 《ARXIV:1801.08917V2》, pages 1 - 9 *
卢锐轩;孙莹;杨奇;王壮;吴昭欣;李辉;: "基于人工智能技术的智能自博弈平台研究", 战术导弹技术, no. 02, pages 47 - 52 *
林云川: "基于深度学习和蒙特卡洛树搜索的围棋博弈研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2019, pages 140 - 345 *
欧阳志宏等: "多层观察者模式的对抗训练裁决方法", 《现代防御技术》, vol. 47, no. 4, pages 97 - 101 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112704882A (zh) * 2021-01-14 2021-04-27 广州云从鼎望科技有限公司 基于模型的棋牌游戏策略更新的方法、系统、介质及装置
CN112704882B (zh) * 2021-01-14 2021-09-14 广州云从鼎望科技有限公司 基于模型的棋牌游戏策略更新的方法、系统、介质及装置
CN114327916A (zh) * 2022-03-10 2022-04-12 中国科学院自动化研究所 一种资源分配系统的训练方法、装置及设备

Also Published As

Publication number Publication date
CN111882072B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
Li et al. Suphx: Mastering mahjong with deep reinforcement learning
CN111111204B (zh) 交互模型训练方法、装置、计算机设备和存储介质
US7636701B2 (en) Query controlled behavior models as components of intelligent agents
CN110141867B (zh) 一种游戏智能体训练方法及装置
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
CN112016704B (zh) Ai模型训练方法、模型使用方法、计算机设备及存储介质
Knegt et al. Opponent modelling in the game of Tron using reinforcement learning
CN111882072A (zh) 一种与规则对弈的智能模型自动化课程训练方法
Tang et al. A review of computational intelligence for StarCraft AI
US20230311003A1 (en) Decision model training method and apparatus, device, storage medium, and program product
Nam et al. Generation of diverse stages in turn-based role-playing game using reinforcement learning
Ho et al. Contract bridge bidding by learning
Lockett et al. Evolving explicit opponent models in game playing
CN113318451A (zh) 一种基于机器学习的棋类自学习方法及装置
Salge et al. Relevant information as a formalised approach to evaluate game mechanics
CN112755538B (zh) 一种基于多智能体的实时战略游戏对局方法
Yu et al. Application of Retrograde Analysis on Fighting Games
Somasundaram et al. Double Q–learning Agent for Othello Board Game
Fernández-Ares et al. There can be only one: Evolving RTS bots via joust selection
Yılmaz et al. Q-learning with naïve bayes approach towards more engaging game agents
Lemley et al. CWU-Chess: An Adaptive Chess Program that Improves After Each Game
US11992772B1 (en) Contextually aware active social matchmaking
CN114511086A (zh) 一种策略生成方法、装置及设备
Bills et al. A Deductive Agent Hierarchy: Strategic Reasoning in Codenames
Reis Artificial Intelligence Methods for Automated Difficulty and Power Balance in Games

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant