CN113240119A - 一种用于游戏ai策略解释的跨模型蒸馏装置 - Google Patents
一种用于游戏ai策略解释的跨模型蒸馏装置 Download PDFInfo
- Publication number
- CN113240119A CN113240119A CN202110375385.XA CN202110375385A CN113240119A CN 113240119 A CN113240119 A CN 113240119A CN 202110375385 A CN202110375385 A CN 202110375385A CN 113240119 A CN113240119 A CN 113240119A
- Authority
- CN
- China
- Prior art keywords
- game
- model
- strategy
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003066 decision tree Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000006399 behavior Effects 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000001364 causal effect Effects 0.000 claims abstract description 3
- 238000004821 distillation Methods 0.000 claims description 42
- 230000009471 action Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000002787 reinforcement Effects 0.000 claims description 13
- 238000013480 data collection Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000009891 weiqi Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种用于游戏AI策略解释的跨模型蒸馏装置,主要包括基于监督学习、决策树学习的模型蒸馏系统以及基于决策树规则提取的策略解释两个部分。本发明为研究人员提供了一种针对游戏AI的策略解释装置,能够实时对游戏AI的决策行为提供可理解的解释信息,从而揭示观测和行为之间的因果结构,增强游戏互动性,同时还能够为人类玩家的游戏过程提供技术参考。
Description
技术领域
本发明涉及一种用于游戏AI策略解释的跨模型蒸馏装置,是一种对基于强化学习习得的游戏AI策略的解释装置,属于游戏AI智能解说技术领域。
背景技术
游戏领域的智能AI一般基于深度强化学习算法训练得到,智能体通过和环境不断交互,自主适应游戏规则、学习技能,比如围棋界的AlphaGo,王者荣耀里的绝艺等。研究人员可以根据不同的游戏环境,基于不同的目标,制定不同的强化学习训练方法,从而获得更高水平、更具人类特征、具备多重风格的人工智能玩家。然而,游戏AI虽然能够达到人类预设的目标,却很难被人类理解——强化学习的主要模型为深度神经网络,该模型虽然具备良好的学习能力,但缺乏透明性,决策知识隐藏在模型的神经元之间,缺乏有指导意义或者可理解的结构,从而难以理解其具体的决策逻辑。如果训练得到的游戏AI同时具备讲解的能力,则既可以提高玩家的用户黏性,又可以对人类玩家的操作提供指导,大幅提高游戏竞争力。
游戏AI,无论是基于具体的哪种算法训练得到,其底层决策逻辑都是根据当前的观测做出行为反馈,因此欲对其解说,主要需要关注的是观测和行为之间的逻辑关系。当前大部分游戏AI策略解释方法,都是基于深度神经网络模型的数值进行分析,因此往往只能对特定的行为给出解释,有些不常见的行为则难以做出有效说明。同时,由于不同的游戏AI训练需要不同的算法、使用不同的模型结构,针对深度神经网络的方法必须对每个AI进行调整,在真实游戏解说中,需要耗费大量的时间和精力来进行适配,解释的效果也大幅依赖于适配结果。相比之下,机器学习领域的另一模型结构——决策树模型具备良好的结构化特性,能够更容易地提取出可理解的规则,便于研究其整体的输出过程。受限于决策树的学习能力,这类模型并不常见于游戏AI的训练之中。
因此,在游戏AI策略解释领域,亟需一种技术方案来解决上述问题。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种用于游戏AI策略解释的跨模型蒸馏装置,能够高效地实现从深度神经网络策略到决策树策略的转化,并支持对任意游戏AI的决策进行解释。
技术方案:一种用于游戏AI策略解释的跨模型蒸馏装置,包括基于监督学习、决策树学习的模型蒸馏系统以及基于决策树规则提取的策略解释两个部分。其中模型蒸馏系统部分包括游戏AI数据收集处理系统和决策树策略模型;决策树策略模型通过模型蒸馏获得,蒸馏所使用的数据集来源于游戏AI数据收集处理系统;策略解释部分,基于决策树模型自身的结构特征,给出行为数据和观测数据之间的因果关系,解释行为的由来。
游戏AI数据收集处理系统是模型蒸馏系统的第一个重要组成部分,该系统包含一个观测决策数据收集器和一个模型访问器。观测决策数据收集器的功能是在游戏AI进行游戏的过程中,对当前的观测数据和游戏AI的行为数据进行记录收集,并调整为统一的格式;模型访问器的功能是对游戏AI的值网络模型(Q网络或者V网络)进行访问,通过计算获得权重信息,并和观测决策数据收集器中收集得到的数据进行整合。数据的收集处理详细过程如下:
首先,需要获取得到游戏AI的策略模型和值网络模型以及可运行游戏环境;
其次,使用游戏AI的策略模型进行游戏,记录游戏过程中的观测数据和游戏AI的行为数据,分别编码为s和a,并整理为列表式数据格式,得到初始数据;
之后,使用模型访问器访问游戏AI的值网络模型,根据策略更新准则,计算得到各动作下的权重信息w(此处w表示向量);
最后,将初始数据和权重信息进行合并,输出为(s,a,w)的列表格式,形成带有权重的样本数据,作为蒸馏数据集。
在游戏AI数据收集处理系统中,模型访问器基于策略更新准则计算权重信息是关键性创新。该过程利用了值网络模型中更多的决策信息,建立了值信息和样本权重之间的关系,以便于在后续模型蒸馏的过程中,对样本进行有区别地利用,从而提升蒸馏效果。
在基于强化学习的智能体模型训练中,无论采用哪种强化学习算法,都依赖值网络对未来进行评估,进而进行决策。因此,相对于游戏AI的行为数据,值网络模型能够提供更多的决策信息。根据强化学习策略更新准则,可得原策略π*和蒸馏得到的策略π之间表现(获取得到的累积奖赏)差异为由此可以看出,为最大化累积奖赏,具体的样本权重信息可通过优势信息A(s,a)来近似计算。
该决策树策略模型通过模型蒸馏获得,蒸馏基于传统的决策树学习算法(包含ID3和CART)进行了改进,使其可以适用于带有权重的样本数据的拟合。具体的决策树学习过程如下:
步骤1,将蒸馏数据集输入树的根结点;
步骤2,计算每个分裂点下的信息增益或Gini指数。在计算信息增益或Gini指数时,使用样本的权重信息代替单一的数量信息进行计算;
步骤3,之后,选择评价指标最高的分裂点进行分裂;
步骤4,重复进行步骤2-3,直到达到预先设定的树的最大深度停止,即决策树策略模型训练完成。
策略解释基于模型蒸馏系统中的决策树策略模型分析得到,可给出在做出决策时最关注的特征这一可解释性信息。在具体解释的过程中包含以下步骤:
首先,获取得到需要解释的状态动作对(s,a);
其次,将状态信息输入到训练得到的决策树策略模型中,得到做出决策过程中所经过的所有结点的信息。此处信息主要包含了当前结点下,对决策作用最大的特征,并给出具体的作用数值;
最后,基于过往节点信息累加,给出与最终决策最相关的特征,即完成解释。
有益效果:当前游戏AI策略解释相关的技术方案大多基于深度神经网络模型本身的输入输出进行,只能对AI的决策有一个大致的了解,对特定的观测下的AI行为有一个解释,而难以对一些极端情况进行解释和说明。另一方面,深度神经网络模型数值分析解释方法很大程度上依赖于研究人员对具体游戏的理解,在真实应用时需要耗费大量的时间和资源进行逐一适配。
与现有技术相比,本发明提供了一种高效的游戏AI策略解释方法,通过模型蒸馏避免了直接对深度神经网络的分析,为游戏开发人员提供了一种更有效更经济的游戏AI策略解释方法,通过此技术,游戏开发者能够对任意游戏AI的操作实现自动化解说,从而增强游戏互动性,同时还能够为人类玩家的游戏过程提供技术参考。
附图说明
图1是本发明装置原理图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,用于游戏AI策略解释的跨模型蒸馏装置,采用了从神经网络模型到决策树模型蒸馏实现策略解释的技术方案,主要包括模型蒸馏和策略解释两个部分。
一、模型蒸馏
(1)游戏AI决策数据的收集与处理
游戏AI决策数据的收集是实现模型蒸馏的第一步,该过程实现对原有模型的知识的提取,即游戏AI决策信息的提取,并存储为数据的形式。这之后,新模型通过对蒸馏数据集的拟合,来实现对原模型的模仿。
在强化学习策略蒸馏的过程中,数据的收集主要集中在行为数据上,即强化学习中的序列轨迹数据。具体的,在获取得到游戏AI的策略模型和游戏环境之后,使用游戏AI的策略模型进行游戏,记录游戏过程中的观测数据(记为s)和游戏AI的行为数据(记为a),每个观测数据和对应的行为数据记为一条样本(s,a),整理为列表式数据格式后,作为初始蒸馏数据集。
基于策略更新准则的数据收集与处理是关键性创新,该过程利用了游戏AI值网络模型中更多的决策信息,建立了值信息和样本(s,a)的权重之间的关系,以便于在后续模型蒸馏的过程中,对样本进行有区别地利用,从而提升蒸馏效果。
在基于强化学习的智能体模型训练中,无论采用哪种强化学习算法,都依赖值网络对未来进行评估,进而进行决策。因此,相对于最终的行为数据(序列轨迹数据),值网络模型能够提供更多的决策信息。根据强化学习策略更新准则,可得原策略π*和蒸馏得到的策略π之间表现(获取得到的累积奖赏)差异为其中ρπ(s)表示策略π下状态s的分布,π(s)表示策略π在状态下s的动作,表示策略π*下对于状态s和动作π(s)的优势信息。因此,为最大化累积奖赏,每个样本(s,a)的权重信息w可以使用优势信息A(s,a)来近似计算。
在这里需要注意的是,不同的游戏有不同的设定,根据游戏可操控的动作行为类型的不同,可以大致分为两类:离散动作游戏和连续动作游戏。前者是指游戏玩家/游戏AI可执行的动作是离散的,有限的,比如格斗类游戏,只有有限的攻击和走位种类,后者则表示可执行的动作是连续的,比如愤怒的小鸟,射击的力度和角度都是可无限调整的。根据游戏类型的不同,需要不同的优势信息的计算方式。以下分别对这两类游戏给出具体的数据处理方式:
【实施例1】离散动作游戏下的数据处理
对于离散动作游戏下的数据处理,需要关注的是在当前状态s下,各个动作a下的优势信息。使用(a1,a2,…,an)表示游戏中可选的动作集合,对于每个样本(s,a),使用模型访问器访问游戏AI的值网络模型,获得V(s)和Q(s,a1),Q(s,a2),…,Q(s,an),根据A(s,a)=Q(s,a)-V(s),获得对应的优势信息序列A(s,a1),A(s,a2),…,A(s,an)。设定样本(s,a)的权重为w=(s,a1),A(s,a2),…,A(s,an),整理得到(s,a,w)作为蒸馏数据集。
【实施例2】连续动作游戏下的数据处理
对于连续动作游戏下的优势信息计算,我们需要关注的是当前状态s下优势信息在动作空间下的分布。根据不同的使用场景,应有不同的应对方案:
1)对于相对简单的环境,可以将动作离散化,之后使用离散动作空间下的数据处理方式进行处理;
2)对于相对复杂的环境,则蒸馏数据集只保存样本(s,a)信息,之后在决策树学习的过程中,使用模型访问器,通过在线访问模型的方式获得Q和V值,进而得到A(s,a)。
(2)决策树策略模型的训练
得到蒸馏数据集后,通过拟合这些数据来学习决策树策略。决策树的学习过程如下:
步骤1,将蒸馏数据集输入树的根结点;
步骤2,计算每个切分变量下每个切分点下的评价指标,评价指标的具体计算方式以实施方案示例的形式给出;
步骤3,之后,选择评价指标最高的切分变量和对应的切分点进行分裂;
步骤4,重复进行步骤2-3,直到达到预先设定的决策树的最大深度停止,即决策树策略模型训练完成。
同样的,针对不同的游戏类型,有不同的计算评价指标的方式。具体实施方案如下:
【实施例1】离散动作空间下的评价指标
离散动作空间下,使用加权的信息增益作为评价指标:
其次,计算分裂后两个数据集上各自的加权熵,计算方式和之前保持一致;
最后,将分裂前的加权熵和分裂后的加权熵作差,作为加权的信息增益,获得一次评价。
【实施例2】连续动作空间下的评价指标
二、策略解释
通过从神经网络到决策树的模型蒸馏,可以得到一个具备高保真度高性能的决策树策略,此时使用对决策树的分析工具,即可提供良好的策略解释信息,对已有的策略的意图进行解释,具体实施方式如下:
【实施例1】显示关键性特征
首先,获取得到需要解释的状态动作对(s,a);
其次,将状态信息输入到训练得到的决策树策略模型中,得到做出决策过程中所经过的所有结点的信息,此处信息主要包含了当前结点下,哪个特征起到了最关键的作用,并给出具体的作用数值;
最后,基于过往节点信息累加,给出与最终决策最相关的特征,即完成解释。
Claims (6)
1.一种用于游戏AI策略解释的跨模型蒸馏装置,其特征在于:包括基于监督学习、决策树学习的模型蒸馏系统以及基于决策树规则提取的策略解释两个部分;其中模型蒸馏系统部分包括游戏AI数据收集处理系统和决策树策略模型;决策树策略模型通过模型蒸馏获得,蒸馏所使用的数据集来源于游戏AI数据收集处理系统;策略解释部分,基于决策树模型自身的结构特征,给出行为数据和观测数据之间的因果关系,解释行为的由来。
2.根据权利要求1所述的用于游戏AI策略解释的跨模型蒸馏装置,其特征在于:所述游戏AI数据收集处理系统包含一个观测决策数据收集器和一个模型访问器;所述观测决策数据收集器在游戏AI进行游戏的过程中,对当前的观测数据和游戏AI的行为数据进行记录收集,并调整为统一的格式;模型访问器的功能是对游戏AI的值网络模型进行访问,通过计算获得权重信息,并和观测决策数据收集器中收集得到的数据进行整合。
3.根据权利要求2所述的用于游戏AI策略解释的跨模型蒸馏装置,其特征在于:所述游戏AI数据收集处理系统收集处理数据的详细过程如下:
首先,需要获取得到游戏AI的策略模型和值网络模型以及可运行游戏环境;
其次,使用游戏AI的策略模型进行游戏,记录游戏过程中的观测数据和游戏AI的行为数据,分别编码为s和a,并整理为列表式数据格式,得到初始数据;
之后,使用模型访问器访问游戏AI的值网络模型,根据策略更新准则,计算得到各动作下的权重信息w;
最后,将初始数据和权重信息进行合并,输出为(s,a,w)的列表格式,形成带有权重的样本数据,作为蒸馏数据集。
5.根据权利要求1所述的用于游戏AI策略解释的跨模型蒸馏装置,其特征在于:所述决策树策略模型通过模型蒸馏获得,决策树学习过程如下:
步骤1,将蒸馏数据集输入树的根结点;
步骤2,计算每个分裂点下的信息增益或Gini指数;在计算信息增益或Gini指数时,使用样本的权重信息代替单一的数量信息进行计算;
步骤3,之后,选择评价指标最高的分裂点进行分裂;
步骤4,重复进行步骤2-3,直到达到预先设定的树的最大深度停止,即决策树策略模型训练完成。
6.根据权利要求5所述的用于游戏AI策略解释的跨模型蒸馏装置,其特征在于:所述策略解释基于模型蒸馏系统中的决策树策略模型分析得到,给出在做出决策时最关注的特征这一可解释性信息;在具体解释的过程中包含以下步骤:
首先,获取得到需要解释的状态动作对(s,a);
其次,将状态信息输入到训练得到的决策树策略模型中,得到做出决策过程中所经过的所有结点的信息;此处信息主要包含了当前结点下,对决策作用最大的特征,并给出具体的作用数值;
最后,基于过往节点信息累加,给出与最终决策最相关的特征,即完成解释。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110375385.XA CN113240119B (zh) | 2021-04-08 | 2021-04-08 | 一种用于游戏ai策略解释的跨模型蒸馏装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110375385.XA CN113240119B (zh) | 2021-04-08 | 2021-04-08 | 一种用于游戏ai策略解释的跨模型蒸馏装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240119A true CN113240119A (zh) | 2021-08-10 |
CN113240119B CN113240119B (zh) | 2024-03-19 |
Family
ID=77131234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110375385.XA Active CN113240119B (zh) | 2021-04-08 | 2021-04-08 | 一种用于游戏ai策略解释的跨模型蒸馏装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240119B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978050A (zh) * | 2019-03-25 | 2019-07-05 | 北京理工大学 | 基于svm-rf的决策规则提取及约简方法 |
CN110569900A (zh) * | 2019-09-05 | 2019-12-13 | 苏州大禹网络科技有限公司 | 游戏ai决策方法及装置 |
CN111553389A (zh) * | 2020-04-08 | 2020-08-18 | 哈尔滨工程大学 | 一种用于理解深度学习模型决策机制的决策树生成方法 |
US20200311476A1 (en) * | 2019-01-31 | 2020-10-01 | Beijing Sensetime Technology Development Co., Ltd. | Target object processing method and apparatus, electronic device, and storage medium |
CN111753878A (zh) * | 2020-05-20 | 2020-10-09 | 济南浪潮高新科技投资发展有限公司 | 一种网络模型部署方法、设备及介质 |
CN111753995A (zh) * | 2020-06-23 | 2020-10-09 | 华东师范大学 | 一种基于梯度提升树的局部可解释方法 |
CN111898172A (zh) * | 2019-05-06 | 2020-11-06 | 达索系统公司 | 虚拟世界中的经验学习 |
US20200356712A1 (en) * | 2019-05-06 | 2020-11-12 | Dassault Systemes | Experience learning in virtual world |
US20200356852A1 (en) * | 2019-05-07 | 2020-11-12 | Samsung Electronics Co., Ltd. | Model training method and apparatus |
CN112182362A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 训练用于在线预测点击率的模型的方法、设备及推荐系统 |
-
2021
- 2021-04-08 CN CN202110375385.XA patent/CN113240119B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311476A1 (en) * | 2019-01-31 | 2020-10-01 | Beijing Sensetime Technology Development Co., Ltd. | Target object processing method and apparatus, electronic device, and storage medium |
CN109978050A (zh) * | 2019-03-25 | 2019-07-05 | 北京理工大学 | 基于svm-rf的决策规则提取及约简方法 |
CN111898172A (zh) * | 2019-05-06 | 2020-11-06 | 达索系统公司 | 虚拟世界中的经验学习 |
US20200356712A1 (en) * | 2019-05-06 | 2020-11-12 | Dassault Systemes | Experience learning in virtual world |
US20200356852A1 (en) * | 2019-05-07 | 2020-11-12 | Samsung Electronics Co., Ltd. | Model training method and apparatus |
CN110569900A (zh) * | 2019-09-05 | 2019-12-13 | 苏州大禹网络科技有限公司 | 游戏ai决策方法及装置 |
CN111553389A (zh) * | 2020-04-08 | 2020-08-18 | 哈尔滨工程大学 | 一种用于理解深度学习模型决策机制的决策树生成方法 |
CN111753878A (zh) * | 2020-05-20 | 2020-10-09 | 济南浪潮高新科技投资发展有限公司 | 一种网络模型部署方法、设备及介质 |
CN111753995A (zh) * | 2020-06-23 | 2020-10-09 | 华东师范大学 | 一种基于梯度提升树的局部可解释方法 |
CN112182362A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 训练用于在线预测点击率的模型的方法、设备及推荐系统 |
Non-Patent Citations (4)
Title |
---|
MARCEL JOLY;MARIO Y.MIYAKE;: "Lessons learned from developing and implementing refinery production scheduling technologies", FRONTIERS OF ENGINEERING MANAGEMENT, no. 03, 15 September 2017 (2017-09-15) * |
YI LIU;XINGLIANG YUAN;ZEHUI XIONG;JIAWEN KANG;XIAOFEI WANG;DUSIT NIYATO;: "Federated Learning for 6G Communications: Challenges, Methods, and Future Directions", 中国通信, no. 09, 15 September 2020 (2020-09-15) * |
张凯峰等: "基于逆强化学习的示教学习方法综述", 《计算机研究与发展》, 29 January 2019 (2019-01-29) * |
王志刚;王海涛;佘琪;史雪松;张益民;: "机器人4.0:边缘计算支撑下的持续学习和时空智能", 计算机研究与发展, no. 09, 1 September 2020 (2020-09-01) * |
Also Published As
Publication number | Publication date |
---|---|
CN113240119B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN111282267B (zh) | 信息处理方法、装置、介质及电子设备 | |
JP5874292B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP5879899B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Beliaev et al. | Imitation learning by estimating expertise of demonstrators | |
CN105160249B (zh) | 一种基于改进的神经网络集成的病毒检测方法 | |
Vistro et al. | The cricket winner prediction with application of machine learning and data analytics | |
CN111061959B (zh) | 一种基于开发者特征的群智化软件任务推荐方法 | |
CN112163671A (zh) | 一种新能源场景生成方法及系统 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
CN110956277A (zh) | 一种交互式的迭代建模系统及方法 | |
CN112819192A (zh) | 一种基于蜂群算法优化的rf_gru网络短期电力负荷预测方法 | |
Künzel et al. | Coping with opponents: multi-objective evolutionary neural networks for fighting games | |
Karavolos et al. | Pairing character classes in a deathmatch shooter game via a deep-learning surrogate model | |
Castro et al. | Focusing on interpretability and accuracy of a genetic fuzzy system | |
CN113240119A (zh) | 一种用于游戏ai策略解释的跨模型蒸馏装置 | |
Dockhorn | Prediction-based search for autonomous game-playing | |
CN111445024A (zh) | 一种医学影像识别训练方法 | |
Zhou et al. | Discovering of game AIs’ characters using a neural network based AI imitator for AI clustering | |
CN113426109A (zh) | 一种基于因式分解机进行棋牌游戏行为克隆的方法 | |
Neto et al. | Ls-draughts-a draughts learning system based on genetic algorithms, neural network and temporal differences | |
Tupinambás et al. | Cryptocurrencies transactions advisor using a genetic Mamdani-type fuzzy rules based system | |
Rashad | A rough-Neuro model for classifying opponent behavior in real time strategy games | |
Kong et al. | Application of DQN-IRL Framework in Doudizhu’s Sparse Reward | |
CN113807005B (zh) | 基于改进fpa-dbn的轴承剩余寿命预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |