CN111898692A - 神经网络到决策树的转换方法、存储介质及电子设备 - Google Patents
神经网络到决策树的转换方法、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111898692A CN111898692A CN202010778784.6A CN202010778784A CN111898692A CN 111898692 A CN111898692 A CN 111898692A CN 202010778784 A CN202010778784 A CN 202010778784A CN 111898692 A CN111898692 A CN 111898692A
- Authority
- CN
- China
- Prior art keywords
- value
- decision
- decision tree
- neural network
- observation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Abstract
本发明公开了一种神经网络到决策树的转换方法、存储介质及电子设备,方法包括:获取局部视野网络系统的强化学习决策环境和神经网络决策策略,向强化学习决策环境中输入初始值以得到观测值和观测值对应的值函数,并将观测值输入至神经网络决策策略,以得到观测值对应的输出决策和q值向量,并将输出决策作为新的初始值,直至得到设定数量的观测值和与每个观测值对应的输出决策、值函数以及q值向量,并将每一个观测值和观测值对应的决策、值函数以及q值向量作为一组数据以得到包括多组数据的数据集,利用决策树算法对数据集进行训练以得到目标决策树,通过上述方法获得的目标决策树结构清晰且便于理解,并能够对待决策观测值进行决策得到决策结果。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及一种神经网络到决策树的转换、存储介质及电子设备。
背景技术
运用深度强化学习技术以使得计算机网络能够处理实验数据并且得出关于其的结论。例如,深度强化学习训练得到的神经网络可以用于拥塞控制、路由器数据流调度、视频流媒体传输码率调整等场景。然而,神经网络经常包含成千上万的神经元,在决策过程中通常需要经过一系列非线性的计算得出最终的结论,但由于现有的深度神经网络的结构复杂,不便于理解,因此难以获得信任和使用。
发明内容
本发明的目的在于为基于深度强化学习的局部视野网络系统提供了一种神经网络到决策树的转换方法、存储介质及电子设备,用于获得结构清晰且便于理解的决策树。
第一方面,本发明提供一种神经网络到决策树的转换方法,所述方法包括:
步骤a:获取局部视野网络系统的强化学习决策环境和神经网络决策策略;
步骤b:向所述强化学习决策环境中输入初始值并进行观测以得到观测值和该观测值对应的值函数,并将该观测值输入至所述神经网络决策策略,以得到该观测值对应的输出决策和q值向量;
步骤c:将所述输出决策作为新的初始值,并返回执行步骤b,直至得到设定数量的观测值和与每个观测值对应的输出决策、值函数以及q值向量,并将每一个观测值和该观测值对应的决策、值函数以及q值向量作为一组数据以得到包括多组数据的数据集;
步骤d:利用决策树算法对所述数据集进行训练以得到目标决策树,以使所述目标决策树能够对待决策观测值进行决策得到决策结果。
可选的,在上述神经网络到决策树的转换方法中,利用决策树算法对所述数据集进行训练以得到决策树,包括:
对所述数据集进行采样,以得到采样数据集;
对所述采样数据集采用分类与回归树算法进行训练,以得到初始决策树;
对所述初始决策树进行剪枝处理以得到目标决策树。
可选的,在上述神经网络到决策树的转换方法中,对所述数据集进行采样,以得到采样数据集,包括:
对所述数据集利用预设采样概率计算式进行采样处理,以得到采样数据集,其中,所述预设采样概率计算式为 表示只对括号中成立的情况进行计算,即D为数据集,i为观测值,o为输出决策,p(i,o)为观测值的采样概率,v(i)为值函数,mino′q(i,o′)为将观测值输入至强化学习决策环境中得到多个输出可能值中最小的输出可能值对应的q值向量。
可选的,在上述神经网络到决策树的转换方法中,对所述初始决策树进行剪枝处理以得到目标决策树,包括:
计算所述初始决策树中每个节点的代价复杂度,并根据每个所述节点的代价复杂度对各所述节点进行排序;
根据各所述节点的排序顺序对所述初始决策树中的节点进行修剪,以得到目标决策树。
可选的,在上述神经网络到决策树的转换方法中,计算所述初始决策树中每个节点的代价复杂度,包括:
利用复杂度计算式计算所述初始决策树中每个节点的代价复杂度,其中,所述复杂度计算式为:α(n)为节点n的代价复杂度,Δp为去除以节点n为根节点的子树之后与未去除之前相比整体预测性能准确率的损失,|Tn|为决策树中以n为根节点的子树的节点总数。
可选的,在上述神经网络到决策树的转换方法中,当神经网络决策策略对应的网络模型为基于深度Q网络训练得到的模型时,将所述观测值输入至所述神经网络决策策略,以得到该观测值对应的q值向量,包括:
获取将所述观测值输入至所述神经网络决策策略得到的多个输出可能值,计算每个所述输出可能值对应的贡献度,将每个所述贡献度进行向量化处理后叠加得到与所述观测值对应的q值向量。
可选的,在上述神经网络到决策树的转换方法中,当神经网络决策策略对应的网络模型为基于actor-critic机制设计的神经网络或基于PPO机制设计的网络训练得到的模型时,将所述观测值输入至所述神经网络决策策略,得到该观测值对应的q值向量,包括:
获取将所述观测值输入至所述神经网络决策策略得到的多个输出可能值,并获取所述神经网络决策策略选取每个输出可能值作为输出决策的概率值,并计算每个概率值的对数值以得到每个输出可能值对应的对数值,根据每个输出可能值对应的对数值进行向量化处理后叠加以得到与所述观测值对应的q值向量。
可选的,在上述神经网络到决策树的转换方法中,所述方法还包括:
获取验证观测值和与该验证观测值对应的验证结果,将所述验证观测值输入至所述目标决策树中,以得到一验证决策结果;
在所述验证决策结果与所述验证结果不匹配时,根据所述验证决策结果和所述验证结果调整所述目标决策树中的节点的阈值,以更新所述目标决策树。
第二方面,本发明还提供一种存储介质,该存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如上述的方法。
第三方面,本发明还提供一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如上述的方法。
本发明提供的一种神经网络到决策树的转换神经网络到决策树的转换方法、存储介质及电子设备,方法包括:获取局部视野网络系统的强化学习决策环境和神经网络决策策略,向强化学习决策环境中输入初始值以得到观测值和观测值对应的值函数,并将观测值输入至神经网络决策策略,以得到观测值对应的输出决策和q值向量,并将输出决策作为新的初始值,直至得到设定数量的观测值和与每个观测值对应的输出决策、值函数以及q值向量,并将每一个观测值和观测值对应的决策、值函数以及q值向量作为一组数据以得到包括多组数据的数据集,利用决策树算法对数据集进行训练以得到目标决策树,通过上述方法获得的目标决策树结构清晰且便于理解,并能够对待决策观测值进行决策得到决策结果。
附图说明
附图用来提供对本申请的技术方案或现有技术的进一步理解,并且构成说明书的一部分。其中,表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案,但并不构成对本申请技术方案的限制。
图1为本发明实施例提供的一种神经网络到决策树的转换方法的流程示意图。
图2为图1中步骤S140的流程示意图。
图3为图2中步骤S146的流程示意图。
图4为本发明实施例提供的一种神经网络到决策树的转换方法的另一流程示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
第一实施例
请参阅图1,本实施例提供了一种神经网络到决策树的转换方法,该方法应用于电子设备时,执行步骤S110至步骤S140。
步骤S110:获取局部视野网络系统的强化学习决策环境和神经网络决策策略。
步骤S120:向所述强化学习决策环境中输入初始值并进行观测以得到观测值和该观测值对应的值函数,并将该观测值输入至所述神经网络决策策略,以得到该观测值对应的输出决策和q值向量。
步骤S130:将所述输出决策作为新的初始值,并返回执行步骤S120,直至得到设定数量的观测值和与每个观测值对应的输出决策、值函数以及q值向量,并将每一个观测值和该观测值对应的决策、值函数以及q值向量作为一组数据以得到包括多组数据的数据集。
步骤S140:利用决策树算法对所述数据集进行训练以得到目标决策树,以使所述目标决策树对能够待决策观测值进行决策得到决策结果。
通过采用上述步骤S110至步骤S140,以实现利用所述神经网络决策策略和强化学习决策环境得到包括多组数据的数据集,以利用决策树算法数据集进行训练以得到目标决策树,从而使获得的目标决策树具有结构清晰且便于理解的特点,进而便于使该目标决策树容易获得信任和使用。
需要说明的是,局部视野网络系统为计算机系统,局部视野网络系统的神经网络决策策略为神经网络模型,决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。本申请的决策树能够对待决策观测值进行决策得到决策结果,该决策结果用于表征该待决策观测值对应的分类结果。
在步骤S110中,所述局部视野网络系统具体可以是深度强化学习的具有局部视野的计算机网络系统,其能够部署在服务器端、客户端或者中间件、交换机上(如:拥塞控制系统)。所述局部视野网络系统的神经网络决策策略对应的网络模型可以是基于深度Q网络进行训练得到的模型,也可以是actor-critic机制设计的神经网络对应的模型,还可以是基于PPO机制设计的网络对应的模型,在此不做具体限定,根据实际需求进行设置即可。
其中,强化学习是智能体(神经网络决策策略)以“试错”的方式进行学习,通过与环境(强化学习决策环境)进行交互获得的奖赏指导行为,目标是使神经网络决策策略依据观测值获得最大的奖赏(输出决策)。强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由强化学习决策环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learningsystem)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。
例如,在强化学习中把学习看做探评价过程,神经网络决策策略相当于神经网络模型,用于选择一个动作用于强化学习决策环境。强化学习决策环境接收该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给神经网络决策策略,以使神经网络决策策略能够根据强化信号和强化学习决策环境的当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
在步骤S120中,当向所述强化学习决策环境中输入的初始值为首次向所述强化学习决策环境中输入的初始值时,该初始值可以是预先设置的,通过向所述强化学习决策环境中输入初始值并进行观测以得到观测值,和该观测值在决策时刻并在决策环境中的值函数,其中,该观测值为一个强化信号,值函数表示该决策时刻,与当前输入观测值相对应的输出决策对基于深度强化学习的局部视野网络系统的优化目标的贡献度的平均值,且贡献度是指,选择某个输出决策时,其带来的优化目标的提升。
通过将该观测值输入至神经网络决策策略中,即可得到该观测值对应的输出决策,并可以获得该观测值对应的q值向量。
在本实施例中,当神经网络决策策略对应的网络模型为基于深度Q网络训练得到的模型时,将所述观测值输入至所述神经网络决策策略,以得到该观测值对应的q值向量,包括:获取将所述观测值输入至所述神经网络决策策略得到的多个输出可能值,计算每个所述输出可能值对应的贡献度,将每个所述贡献度进行向量化处理后叠加得到与所述观测值对应的q值向量。
需要说明的是,上述的q值向量具体为:在一次决策中,针对当前的观测值i,选择某个特定的输出决策o,则该输出决策对优化目标的贡献度为q(i,o)。而针对当前的观测值i对应有多个可能的输出(输出可能值),各输出可能值对其对应的贡献度值共同构成的一个向量,该向量即为q值向量。
在本实施例中,当神经网络决策策略对应的网络模型为基于actor-critic机制设计的神经网络或基于PPO机制设计的网络训练得到的模型时,将所述观测值输入至所述神经网络决策策略,得到该观测值对应的q值向量,包括:获取将所述观测值输入至所述神经网络决策策略得到的多个输出可能值,并获取所述神经网络决策策略选取每个输出可能值作为输出决策的概率值,并计算每个概率值的对数值以得到每个输出可能值对应的对数值,根据每个输出可能值对应的对数值进行向量化处理后叠加以得到与所述观测值对应的q值向量。
需要说明的是,上述的q值向量的获得方式具体可以是,获取将所述观测值输入至利用actor-critic决策方式的神经网络决策策略中以得到的多个输出可能值及将每个输出可能值作为输出决策的概率值,并求取每个概率值对应的对数值,以根据各输出可能值对应的对数值得到q值向量。
在步骤S130中,所述设定数量可以是100个、500个或1000个,在此不作具体限定,根据实际需求进行设置即可。
应当理解,在步骤S130中还包括:统计观测值的数量,并判断所述观测值的数量是否达到设定数量,并在未达到设定数量时返回执行步骤S120,以及在达到所述设定数量时,将每一个观测值和该观测值对应的决策、值函数以及q值向量作为一组数据以得到包括多组数据的数据集,且上述的多组数据的组数为所述设定数量。
通过将所述输出决策作为新的初始值以实现强化学习,达到动态地调整参数,以达到强化信号的目的。
在步骤S140中,利用决策树算法对所述数据集进行训练以得到目标决策树得方式可以是:对所述数据集中的各组数据利用决策树算法进行训练以得到目标决策树,也可以是对数据集中的多组数据进行采样后,利用决策树算法进行训练以得到目标决策树,在此不做具体限定,根据实际需求进行设置即可。
请结合参阅图2,在本实施例中,为提高决策树的训练速度,所述步骤S130包括:
步骤S132:对所述数据集进行采样,以得到采样数据集。
其中,对所述数据集进行采样的方式可以是,对数据集中的多组数据进行随机采样,也可以是对数据集中的多组数据采用预设采样概率计算式进行采样。
可选的,在本实施例中,上述步骤S132包括:对所述数据集利用预设采样概率计算式进行采样处理,以得到采样数据集,其中,所述预设采样概率计算式为表示只对括号中成立的情况进行计算,且D为数据集,i为观测值,o为输出决策,p(i,o)为观测值的采样概率,v(i)为值函数,mino′q(i,o′)为将观测值输入至强化学习决策环境中得到多个输出可能值中最小的输出可能值对应的q值向量。
通过对采用预设采样概率计算式对所述数据集进行采样,可以获得以下好处:(1)由于强化学习系统一般优化的是某个长期的优化目标(例如,围棋中比赛的胜利与否;网络系统中一段时间的平均流完成时间等等);而现有决策树算法则是优化每次决策的准确度,并不考虑这个决策对未来状态可能带来的潜在影响。预设的采样概率计算式放大了那些对长期目标(即值函数)有利的样本,可以使得决策树同样拥有较强的长期目标的优化能力。因此,采用预设的采样概率计算式进行采样,可以提高获得的决策树的长期目标优化能力,从而提升获得的决策树与原神经网络相比的可靠性。(2)上述构造的采样概率同样具有良好的理论特性,可以保证在一般训练集上,决策树决策得到的优化与原来神经网络的值的相对误差在理论上有界。
步骤S134:对所述采样数据集采用分类与回归树算法进行训练,以得到初始决策树。
其中,通过对所述采样数据集采用分类与回归树算法进行训练,以产生二叉决策树,且该二叉决策树的所有叶子节点全部分离,即,没有办法继续分裂,训练集上的样本落到本叶子节点上的均为相同输出o的二元组(i,o)。
步骤S136:对所述初始决策树进行剪枝处理以得到目标决策树。
其中,剪枝是决策树停止分支的方法之一,请结合参阅图3,在本实施例中,上述步骤S136包括:
步骤S136a:计算所述初始决策树中每个节点的代价复杂度,并根据每个所述节点的代价复杂度对各所述节点进行排序。
计算所述初始决策树中每个节点的代价复杂度的方式可以是:利用复杂度计算式计算所述初始决策树中每个节点的代价复杂度,其中,所述复杂度计算式为:α(n)为节点n的代价复杂度,Δp为去除以节点n为根节点的子树之后与未去除之前相比整体预测性能准确率的损失,|Tn|为决策树中以n为根节点的子树的节点总数。
其中,根据每个所述节点的代价复杂度对各所述节点进行排序的方式具体可以是:根据每个所述节点的代价复杂度按照由小到大的顺序对各所述节点进行排序。
步骤S136b:根据各所述节点的排序顺序对所述初始决策树中的节点进行修剪,以得到目标决策树。
上述步骤S136b具体是:当对排序顺序为前预设数量的节点进行修剪,以得到目标决策树。也可以是保留排序顺序为倒数预设数量的节点,并对排序顺序中除该排序顺序为倒数预设数量的节点之外的其他节点进行修剪。
通过对所述初始决策树进行修剪以得到目标决策树,可以使得所述目标决策树的结构更简单且便于理解,因此,网络管理员可以用所述目标决策树替换掉原始神经网络,将所述目标决策树作为强化学习系统的决策策略。借此,将神经网络替换为所属目标决策树后可以有以下几点好处:(1)易于理解。即原有的神经网络经常含有成千上万个神经元,网络管理员难以全部理解每个神经元的计算过程以及其对应的用处。本方法生成得到的目标决策树一般只含有100个左右的树节点,网络管理员可以清晰地了解每个决策是如何做出的(2)便于管理员进行故障诊断与排除。在前述网络管理员理解决策树的基础上,当决策树的策略出现故障时(例如:做出了不符合网络管理员预期的决策),网络管理员可以从决策树的决策过程了解到在哪一个节点的判断条件出了问题,从而进行针对性调整,排除故障。(3)减少部署资源的消耗。如前所述,神经网络经常含有成千上万的神经元,而局部视野网络系统(例如:网络交换机)通常是资源高度受限的,难以承载神经网络的资源消耗。转换成只有100个左右节点的决策树后,在线上运行时的资源消耗可以因此降低2-3个数量级。(4)易于线上动态调整。局部视野网络系统在运行时经常出现策略的动态调整:例如网络管理员可能会根据流量的特征经常调整交换机的调度策略,而在原有神经网络因其结构庞大复杂,难以进行这种动态调整,只能通过重新训练等方式线下调整。相比之下,所述目标决策树可以在线上通过修改节点的判断条件,动态调整决策策略来满足网络管理员的需求。
请参阅图4,为确保获得的目标决策树的可靠性,在本实施例中,所述方法还包括:
步骤S150:获取验证观测值和与该验证观测值对应的验证结果,将所述验证观测值输入至所述目标决策树中,以得到一验证决策结果。
步骤S160:在所述验证决策结果与所述验证结果不匹配时,根据所述验证决策结果和所述验证结果调整所述目标决策树中的节点的阈值,以更新所述目标决策树。
具体的,上述步骤S160可以是:在所述验证决策结果与所述验证结果的误差大于网络管理员预先设置的预设误差要求时,将所述验证决策结果和所述验证结果中不一致的样本补充至数据集D中,并返回执行步骤S132以更新所述目标决策树。
通过采用上述步骤S150-S160,以在获得目标决策树之后,通过向目标决策树中输入验证观测值,以根据该目标决策树基于验证观测值输出的验证决策结果和与验证观测值对应的验证结果更新目标决策树,以确保更新后的目标决策树的可靠性。
实施例二
本实施例还提供一种存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时可以实现实施例一中的神经网络到决策树的转换方法。
上述方法步骤的具体实施例过程可参见实施例一,本实施例在此不再重复赘述。
实施例三
本申请实施例提供了一种电子设备,该电子设备可以是手机、电脑或平板电脑等,包括存储器和处理器,所述存储器上存储有计算器程序,该计算机程序被处理器执行时实现如实施例一中所述的预测模型训练方法和实施例二所述的价格预测方法。可以理解,电子设备还可以包括,多媒体组件,输入/输出(I/O)接口,以及通信组件。
其中,处理器用于执行如实施例一中的预设模型训练方法的和实施例二中的价格预测方法中的全部或部分步骤。存储器用于存储各种类型的数据,这些数据例如可以包括电子设备中的任何应用程序或方法的指令,以及应用程序相关的数据。
所述处理器可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable LogicDevice,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例一中的神经网络到决策树的转换方法中的全部或部分步骤。
所述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
多媒体组件可以包括屏幕和音频组件,所述屏幕可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器,用于输出音频信号。
I/O接口为处理器和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。
通信组件用于该电子设备与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种神经网络到决策树的转换方法,其特征在于,所述方法包括:
步骤a:获取局部视野网络系统的强化学习决策环境和神经网络决策策略;
步骤b:向所述强化学习决策环境中输入初始值并进行观测以得到观测值和该观测值对应的值函数,并将该观测值输入至所述神经网络决策策略,以得到该观测值对应的输出决策和q值向量;
步骤c:将所述输出决策作为新的初始值,并返回执行步骤b,直至得到设定数量的观测值和与每个观测值对应的输出决策、值函数以及q值向量,并将每一个观测值和该观测值对应的决策、值函数以及q值向量作为一组数据以得到包括多组数据的数据集;
步骤d:利用决策树算法对所述数据集进行训练以得到目标决策树,以使所述目标决策树能够对待决策观测值进行决策得到决策结果。
2.根据权利要求1所述的神经网络到决策树的转换方法,其特征在于,利用决策树算法对所述数据集进行训练以得到决策树,包括:
对所述数据集进行采样,以得到采样数据集;
对所述采样数据集采用分类与回归树算法进行训练,以得到初始决策树;
对所述初始决策树进行剪枝处理以得到目标决策树。
4.根据权利要求2所述的神经网络到决策树的转换方法,其特征在于,对所述初始决策树进行剪枝处理以得到目标决策树,包括:
计算所述初始决策树中每个节点的代价复杂度,并根据每个所述节点的代价复杂度对各所述节点进行排序;
根据各所述节点的排序顺序对所述初始决策树中的节点进行修剪,以得到目标决策树。
6.根据权利要求1所述的神经网络到决策树的转换方法,其特征在于,当神经网络决策策略对应的网络模型为基于深度Q网络训练得到的模型时,将所述观测值输入至所述神经网络决策策略,以得到该观测值对应的q值向量,包括:
获取将所述观测值输入至所述神经网络决策策略得到的多个输出可能值,计算每个所述输出可能值对应的贡献度,将每个所述贡献度进行向量化处理后叠加得到与所述观测值对应的q值向量。
7.根据权利要求1所述的神经网络到决策树的转换方法,其特征在于,当神经网络决策策略对应的网络模型为基于actor-critic机制设计的神经网络或基于PPO机制设计的网络训练得到的模型时,将所述观测值输入至所述神经网络决策策略,得到该观测值对应的q值向量,包括:
获取将所述观测值输入至所述神经网络决策策略得到的多个输出可能值,并获取所述神经网络决策策略选取每个输出可能值作为输出决策的概率值,并计算每个概率值的对数值以得到每个输出可能值对应的对数值,根据每个输出可能值对应的对数值进行向量化处理后叠加以得到与所述观测值对应的q值向量。
8.根据权利要求1所述的神经网络到决策树的转换方法,其特征在于,所述方法还包括:
获取验证观测值和与该验证观测值对应的验证结果,将所述验证观测值输入至所述目标决策树中,以得到一验证决策结果;
在所述验证决策结果与所述验证结果不匹配时,根据所述验证决策结果和所述验证结果调整所述目标决策树中的节点的阈值,以更新所述目标决策树。
9.一种存储介质,该存储介质存储有计算机程序,其特征在于,所述计算机程序被一个或多个处理器执行时实现如权利要求1-8中任意一项所述的方法。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1-8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778784.6A CN111898692A (zh) | 2020-08-05 | 2020-08-05 | 神经网络到决策树的转换方法、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778784.6A CN111898692A (zh) | 2020-08-05 | 2020-08-05 | 神经网络到决策树的转换方法、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111898692A true CN111898692A (zh) | 2020-11-06 |
Family
ID=73245905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010778784.6A Pending CN111898692A (zh) | 2020-08-05 | 2020-08-05 | 神经网络到决策树的转换方法、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898692A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907236A (zh) * | 2023-02-17 | 2023-04-04 | 西南石油大学 | 基于改进决策树的井下复杂情况预测方法 |
WO2023161972A1 (ja) * | 2022-02-22 | 2023-08-31 | 三菱電機株式会社 | 学習済みモデル検証システム |
WO2024077651A1 (zh) * | 2022-10-10 | 2024-04-18 | 瑞声科技(新加坡)有限公司 | 一种神经网络转化方法、电子设备和存储介质 |
-
2020
- 2020-08-05 CN CN202010778784.6A patent/CN111898692A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023161972A1 (ja) * | 2022-02-22 | 2023-08-31 | 三菱電機株式会社 | 学習済みモデル検証システム |
JP7459406B2 (ja) | 2022-02-22 | 2024-04-01 | 三菱電機株式会社 | 学習済みモデル検証システム |
WO2024077651A1 (zh) * | 2022-10-10 | 2024-04-18 | 瑞声科技(新加坡)有限公司 | 一种神经网络转化方法、电子设备和存储介质 |
CN115907236A (zh) * | 2023-02-17 | 2023-04-04 | 西南石油大学 | 基于改进决策树的井下复杂情况预测方法 |
CN115907236B (zh) * | 2023-02-17 | 2023-11-03 | 西南石油大学 | 基于改进决策树的井下复杂情况预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3542322B1 (en) | Management and evaluation of machine-learned models based on locally logged data | |
US11790238B2 (en) | Multi-task neural networks with task-specific paths | |
CN111898692A (zh) | 神经网络到决策树的转换方法、存储介质及电子设备 | |
US20240119286A1 (en) | Adaptive artificial neural network selection techniques | |
CN110674869B (zh) | 分类处理、图卷积神经网络模型的训练方法和装置 | |
CN109816116A (zh) | 机器学习模型中超参数的优化方法及装置 | |
US11423235B2 (en) | Cognitive orchestration of multi-task dialogue system | |
CN110926782A (zh) | 断路器故障类型判断方法、装置、电子设备及存储介质 | |
US20200342307A1 (en) | Swarm fair deep reinforcement learning | |
CN111553488A (zh) | 一种针对用户行为的风险识别模型训练方法及系统 | |
CN111368973A (zh) | 用于训练超网络的方法和装置 | |
US20200019871A1 (en) | Constrained decision-making and explanation of a recommendation | |
CN115062606B (zh) | 对话数据分析及其模型训练方法、及电子设备 | |
JP2021060982A (ja) | データ分析システム診断方法、データ分析システム最適化方法、デバイス及び媒体 | |
KR102093079B1 (ko) | 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법 | |
US10952120B1 (en) | Online learning based smart steering system for wireless mesh networks | |
CN109977998B (zh) | 信息处理方法及装置、存储介质和电子装置 | |
Serugunda et al. | Autonomous network traffic classifier agent for autonomic network management system | |
CN108764489B (zh) | 基于虚拟样本的模型训练方法及设备 | |
JP7290608B2 (ja) | 機械学習装置、機械学習方法及び機械学習プログラム | |
CN115866610A (zh) | 基于强化学习(rl)和图神经网络(gnn)的无线接入网资源管理 | |
CN114648642A (zh) | 模型训练、图像检测、图像分类方法和装置 | |
US11810011B2 (en) | Generation of predictive model metrics using intermediate operations | |
Song et al. | Hierarchical Causal Bandit | |
KR102093089B1 (ko) | 레이블 데이터를 이용한 생성적 적대 신경망 기반의 분류 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201106 |
|
RJ01 | Rejection of invention patent application after publication |