CN116384480A - 一种深度强化学习决策解释系统 - Google Patents

一种深度强化学习决策解释系统 Download PDF

Info

Publication number
CN116384480A
CN116384480A CN202310350754.9A CN202310350754A CN116384480A CN 116384480 A CN116384480 A CN 116384480A CN 202310350754 A CN202310350754 A CN 202310350754A CN 116384480 A CN116384480 A CN 116384480A
Authority
CN
China
Prior art keywords
environment
decision
algorithm
interpretation
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310350754.9A
Other languages
English (en)
Inventor
高阳
霍静
李文斌
杨光
庄韫恺
毛震
秦旺荣
韩东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing Research Institute Of Nanjing University
Original Assignee
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing Research Institute Of Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd, Nanjing Research Institute Of Nanjing University filed Critical Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Priority to CN202310350754.9A priority Critical patent/CN116384480A/zh
Publication of CN116384480A publication Critical patent/CN116384480A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种深度强化学习决策解释系统,包括仿真环境接入功能,算法环境接口功能,算法训练功能,决策解释功能;所述仿真环境接入功能包含Gym环境、Atari环境、FlyBird环境以及扩展环境接入;所述算法环境接口功能将仿真环境中的状态、动作、奖励数据进行编码;所述算法训练功能基于DQN算法训练生成该环境下最优决策动作,并存储为神经网络模型文件;所述最优动作决策与仿真环境交互生成状态、动作数据集;所述决策解释功能根据状态、动作数据集生成概率决策树模型;所述概率决策树模型能可视化展示影响决策的属性及属性值,输出影响决策的相关属性值。

Description

一种深度强化学习决策解释系统
技术领域
本发明涉及深度强化学习技术领域,更具体地说,涉及一种深度强化学习决策解释系统。
背景技术
深度强化学习技术是一种从环境中不断交互,最终发现最优行为策略的技术,可以解决交互问题的策略优化方法。但是,使用深度强化学习可以生成优化策略,但由于神经网络是黑盒模型,不知道决策如何生成的,生成的决策难以被人理解。
决策树算法也是一类常见的机器学习方法,也可以用于智能体决策,不同于神经网络,决策树可解释性强,完全符合人的决策思维。决策树算法采用树形结构,每个父节点根据属性大小分成两个子节点。
预测时,在树的内部节点处用某一属性值进行判断,根据判断结果决定进入哪个子节点,直到到达叶节点,得到决策动作。使用决策树生成算法拟合神经网络模型,使得决策树达到神经网络的决策效果。
发明内容
发明目的:为了解决上述问题,本发明提供了一种深度强化学习决策解释系统。
技术方案:一种深度强化学习决策解释系统,其特征在于,所述系统包括:仿真环境接入功能,算法环境接口功能,算法训练功能,决策解释功能。
优选的是,所述仿真环境接入功能接入多个仿真环境以及扩展仿真环境,仿真环境包括Gym环境、Atari环境、FlyBird环境,仿真环境中包含智能体,所述智能体执行决策动作,接入环境后,智能体获取环境信息并且与仿真环境进行交互。
优选的是,所述算法环境接口功能控制智能体获取环境的状态信息并进行编码,控制智能体执行决策动作,控制仿真环境推演。所述控制智能体获取环境的状态信息将环境信息转换编码成矩阵;所述控制智能体执行决策动作可控制智能体和仿真环境进行交互;所述控制仿真环境推演控制仿真环境推演到下一状态。
优选的是,所述算法训练功能使用DQN算法控制仿真环境中的智能体优化决策动作,根据环境状态信息,控制智能体执行最优动作,完成目标任务。
优选的是,所述决策解释功能使用基于数据蒸馏的概率决策树生成算法,根据算法训练功能生成的最优策略,收集智能体状态、决策动作数据集,使用数据蒸馏的方法根据数据集生成概率决策树并可视化该决策树。
有益效果:相比于现有技术,本发明的优点在于:
(1)相较于传统的决策树算法,基于数据蒸馏的概率决策树算法对决策数据拟合程度更好;本发明使用最小化分类误差的方法生成决策树模型,生成的决策树模型根据环境执行决策动作与原本的神经网络模型拟合度很高,可以很好的模拟出神经网络的决策效果。
(2)相较于传统的决策树算法,生成的解释模型更容易理解;本发明将数据集和动作决策分别使用直方图和饼图表示,并且直方图根据属性的大小进行分割,该属性的大小显示在直方图的下面;当数据纯度达到阈值时,生成饼图,在饼图下方显示数据的数量以及智能体执行的决策动作。
附图说明
图1为本发明的架构图;
图2为本发明的DQN算法数据流图;
图3为本发明的值函数网络结构图;
图4为本发明的策略蒸馏图;
图5为本发明的决策直方图;
图6为本发明的决策饼图。
图1至图6中标号说明:401-Gym仿真环境;402-Atari仿真环境;403-FlyBird仿真环境;404-扩展环境;405-仿真环境接入功能;406-环境状态信息;407-环境动作指令;408-算法环境接口功能;409-环境推演;410-DQN算法训练;411-算法训练功能;412-神经网络模型;413-决策数据生成;414-决策树解释算法;415-决策解释功能;416-决策树解释模型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,一种深度强化学习决策解释系统,包括仿真环境接入功能,所述Gym仿真环境407控制小车爬山、控制倒立摆平衡,所述Atari仿真环境406控制木棒打砖块,所述FlyBird仿真环境405控制小鸟躲避障碍物,所述其他仿真环境接口404通过接口接入其他仿真环境;包括算法环境接口功能,所述环境状态信息408获取环境状态信息编码结果,所述环境动作指令411将动作编码成向量,所述环境推演403控制仿真环境推演到新的状态;包括决策树解释功能,DQN算法训练409生成智能决策,以神经网络模型402存储到文件中;包括解释模型生成功能,决策树解释算法410使用,决策树解释模型401。
策略解释系统的实现方法如下:
(1)搭建仿真环境,使用pip安装gym,gym中包含多个仿真环境,然后使用pip安装gym[atari]、ale-py以及flappy-bird-gym环境,并且预留环境信息获取接口、执行动作决策接口、环境推演接口进行环境扩展。
(2)导入gym依赖包并打开CarPole-v0环境进行任务训练,使用CarPole-v0环境进行任务训练,action是离散值,有两个动作选项,分别表示左移和右移,用{0,1}表示。观察值是四维向量,分别表示滑块位置、滑块速度、Pole角度、Pole角速度,其中滑块位置范围是[-4.8,4.8],滑块速度范围是[-inf,inf],滑块角度是[-0.418rad,0.418rad],角速度范围是[-inf,inf]。
(3)实现仿真环境和数据的接口,其中包括环境状态信息获取接口,返回环境信息的编码;环境动作指令,使用动作指令控制仿真环境中的智能体执行动作;环境推演指令,控制仿真环境进行推演到下一个状态。
(4)请参阅图2中DQN算法数据流图,使用python编程语言以及Pytorch深度学习架构实现DQN算法,使用DQN算法训练仿真环境任务场景。
(5)请参阅图3中DQN算法的神经网络结构图,在DQN算法中,值函数Q不再是一个数值,而是一组向量,在神经网络中网络的权值用θ表示,值函数可以表示为Q(s,a,θ),所以神经网络可以用来表示一个和权值θ相关的值函数。
(6)通过更新值函数权值θ拟合出最优决策网络,最经典的做法就是使用反向传播算法最小化损失函数,损失函数的计算方式为
Figure BDA0004161413260000031
Figure BDA0004161413260000032
Figure BDA0004161413260000033
是目标网络参数,θi是当前网络参数。
(7)将损失函数输出的值对网络参数θi求偏导,计算方式为
Figure BDA0004161413260000041
Figure BDA0004161413260000042
(8)获取的四元组数据(St,At,Rt,St+1)数据存进数据缓冲池中,在学习的过程中读取数据缓冲池的数据。将数据存储到数据缓冲池中,使得数据满足独立同分布,打破数据之间的关联性。
(9)DQN算法包含两个神经网络,分别为当前值网络和目标值网络,根据两个网络的输出值计算误差,使用反向传播算法更新当前值网络的权值降低损失,每个几个时间步,当前值网络参数复制到目标值网络参数。不断优化值网络参数,控制智能体生成最优决策动作。
(10)DQN算法加载神经网络模型并初始化智能体,和CartPole-v0仿真环境交互,生成状态数据和动作数据,状态数据state使用4维向量表示,动作数据action使用2维向量表示。设定数据池的长度N,将(St,At)数据组存储到数据池中。
(11)使用数据蒸馏方法,根据(St,At)数据池生成SDT决策树解释模型,在一般的蒸馏范式中,只是以蒸馏数据集的形式实现从原模型到新模型的转移。在监督学习任务中,数据集从数据分布中采集得到,原模型对数据集进行标注后,形成蒸馏数据集。策略蒸馏所需要的数据从智能体和环境的交互中获得,一般由强化学习中的状态、动作、值函数等构成。
(12)请参阅图4是策略蒸馏图,在得到了蒸馏数据集后,我们使用决策树进行数据拟合。以行为克隆为例,我们的目标是贪心地模仿教师模型的示范行为,因此,决策树的优化目标为最小化分类误差。形式化上,使用T来表示决策树,每个结点N就是将数据集DN分为两个子数据集DN,L和DN,R的过程。使用E来表示分类误差,N来表示数据集大小,ε=E/N来表示分类误差率,决策树的优化目标为最小化每个结点下的分类误差和
Figure BDA0004161413260000043
在树的构建过程中,一种直接的构建方式就是寻找适当的分裂点,使得误差尽可能减少,即最大化误差减少,/>
Figure BDA0004161413260000044
(13)现在,考虑更为复杂的分类问题,假定不同的样本分为不同的类别具备不同的误分类损失,此时决策树的目标为最小化分类损失。定义样本分类为k∈y时的损失为Ck,则结点N在分类为k时的损失为
Figure BDA0004161413260000045
结点N总的损失为/>
Figure BDA0004161413260000051
使用Ck=Ck/W来表示分类损失率,则决策树的优化目标为:/>
Figure BDA0004161413260000052
最大化损失减少:
Figure BDA0004161413260000053
(14)从定义中,得出结论,
Figure BDA0004161413260000054
这就意味着,如果在某个结点处所有的分裂点分裂过后的子节点标签都和原结点相同,则Rc恒等于0。对于/>
Figure BDA0004161413260000055
argk∈yC(D)=argk∈yC(DL|x)=argk∈yC(DR|x),则Rc≡0。将算法引入熵的概念,通过最大化信息增益来代替最大化误差减少。关于损失的信息增益如下所示:
Figure BDA0004161413260000056
其中HC(D)=-∑k∈yCk(D)logCk(D)。
(15)请参阅图5是决策直方图,通过递归的方式将数据空间划分为不重叠的矩阵,一部分所有的点都满足该属性条件,另一部分都不满足该属性条件。递归执行上述过程,在子空间中继续选取一个属性进行划分,直到把整个直方图数据空间都划分完成。
(16)请参阅图6是决策饼图,当输出的数据浓度到达阈值时,生成饼图,不同颜色的饼图表示不同的决策动作。直方图和饼图共同表示概率决策树模型。
以上所述,仅为本发明较佳的具体实施方式;但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其改进构思加以等同替换或改变,都应涵盖在本发明的保护范围内。

Claims (5)

1.一种深度强化学习决策解释系统,其特征在于,包括仿真环境接入功能、算法环境接口功能、算法训练功能、以及决策解释功能;
所述仿真环境接入功能,包含Gym仿真环境、Atari仿真环境、FlyBird仿真环境、以及扩展环境;
所述算法环境接入功能,包含环境状态信息、环境动作指令、以及环境推演;
所述算法训练功能,包含DQN算法训练、以及神经网络模型;
所述决策解释功能,包含决策树解释算法、以及决策树解释模型。
2.如权利要求1所述的一种深度强化学习决策解释系统,其特征在于,
所述仿真环境接入功能包含多种仿真环境,包含Gym仿真环境、Atari仿真环境、FlyBird仿真环境、以及扩展环境,提供算法训练的任务场景,在仿真环境的任务场景中生成智能决策。
3.如权利要求1所述的一种深度强化学习决策解释系统,其特征在于,
所述算法环境接入功能接口连接算法与仿真环境,包含环境状态信息、环境动作指令、以及环境推演,将环境状态信息编码成状态向量,将环境动作指令编码成one-hot向量,根据状态信息执行动作指令,控制仿真环境推演。
4.如权利要求1所述的一种深度强化学习决策解释系统,其特征在于,
所述算法训练功能使用深度强化学习算法生成智能决策,其中包含DQN算法,神经网络模型,使用DQN算法训练任务场景,生成并优化智能决策,将智能决策用以神经网络模型文件形式存储。
5.如权利要求1所述的一种深度强化学习决策解释系统,其特征在于,
所述决策解释功能使用神经网络决策数据生成决策树模型,输出影响决策的属性数据,其中包含决策数据生成,决策树解释算法,决策树解释模型,使用神经网络生成决策数据,决策树解释算法使用决策数据生成决策树解释模型,输出决策影响因素的属性数据。
CN202310350754.9A 2023-04-04 2023-04-04 一种深度强化学习决策解释系统 Pending CN116384480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310350754.9A CN116384480A (zh) 2023-04-04 2023-04-04 一种深度强化学习决策解释系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310350754.9A CN116384480A (zh) 2023-04-04 2023-04-04 一种深度强化学习决策解释系统

Publications (1)

Publication Number Publication Date
CN116384480A true CN116384480A (zh) 2023-07-04

Family

ID=86962944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310350754.9A Pending CN116384480A (zh) 2023-04-04 2023-04-04 一种深度强化学习决策解释系统

Country Status (1)

Country Link
CN (1) CN116384480A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776751A (zh) * 2023-08-22 2023-09-19 北京航天晨信科技有限责任公司 一种智能决策算法模型设计开发辅助系统
CN116883175A (zh) * 2023-07-10 2023-10-13 青岛闪收付信息技术有限公司 一种投融资活动决策生成方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883175A (zh) * 2023-07-10 2023-10-13 青岛闪收付信息技术有限公司 一种投融资活动决策生成方法和装置
CN116776751A (zh) * 2023-08-22 2023-09-19 北京航天晨信科技有限责任公司 一种智能决策算法模型设计开发辅助系统
CN116776751B (zh) * 2023-08-22 2023-11-10 北京航天晨信科技有限责任公司 一种智能决策算法模型设计开发辅助系统

Similar Documents

Publication Publication Date Title
CN116384480A (zh) 一种深度强化学习决策解释系统
CN113110592B (zh) 一种无人机避障与路径规划方法
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
US12059619B2 (en) Information processing method and apparatus, computer readable storage medium, and electronic device
Chen et al. Agent-aware dropout dqn for safe and efficient on-line dialogue policy learning
CN113361680A (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN115099606B (zh) 一种电网调度模型的训练方法及终端
CN111368545A (zh) 一种基于多任务学习的命名实体识别方法和装置
CN115115914B (zh) 信息识别方法、装置以及计算机可读存储介质
Pecori et al. Incremental learning of fuzzy decision trees for streaming data classification
KR20210066545A (ko) 반도체 소자의 시뮬레이션을 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
CN113255873A (zh) 一种聚类天牛群优化方法、系统、计算机设备和存储介质
CN117454926A (zh) 仿生行为范式驱动的无人集群系统演化与反馈进化方法
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
Riemer et al. On the role of weight sharing during deep option learning
CN115344046A (zh) 一种基于改进深度q网络算法的移动机器人路径规划
CN114755926A (zh) 一种基于强化学习的多智能体系统最优一致性的控制方法
CN113743603A (zh) 控制方法、装置、存储介质及电子设备
CN112131089B (zh) 软件缺陷预测的方法、分类器、计算机设备及存储介质
CN111507499A (zh) 预测用模型的构建方法、测试方法、装置及系统
CN110705756A (zh) 一种基于输入凸神经网络的电力能耗优化控制方法
CN115660052A (zh) 一种融合后见之明思想的群体智能学习方法
CN115009291A (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN113298255A (zh) 基于神经元覆盖率的深度强化学习鲁棒训练方法和装置
Xue et al. Deep reinforcement learning based ontology meta-matching technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination