CN106953801B - 基于层级结构学习自动机的随机最短路径实现方法 - Google Patents
基于层级结构学习自动机的随机最短路径实现方法 Download PDFInfo
- Publication number
- CN106953801B CN106953801B CN201710054545.4A CN201710054545A CN106953801B CN 106953801 B CN106953801 B CN 106953801B CN 201710054545 A CN201710054545 A CN 201710054545A CN 106953801 B CN106953801 B CN 106953801B
- Authority
- CN
- China
- Prior art keywords
- learning
- node
- layer
- learning automaton
- automaton
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/12—Shortest path evaluation
- H04L45/122—Shortest path evaluation by minimising distances, e.g. by selecting a route with minimum of number of hops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/36—Backward learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/29—Flow control; Congestion control using a combination of thresholds
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种基于层级结构学习自动机的随机最短路径实现方法,包括:学习自动机部署,将动态网络从源节点出发到目标阶段终止的结点部署学习自动机;初始化过程,每个学习自动机初始化自身的概率向量;路径选择,从父结点出发逐层选择结点,组成当前路径;环境反馈,将当前路径的代价函数与当前采样路径的均值比较,得到惩罚或者奖励;学习过程,被选择路径上每个学习自动机根据学习算法更新自身的概率向量;逐层判断更新终止过程,若终止,结束步骤,否则更新父节点返回路径选择继续进行。
Description
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种基于层级结构学习自动机的随机最短路径实现方法。
背景技术
最短路径问题是指在已知源节点和目标节点的前提下,确定最小的边长度(权重,代价等)的问题,可以分为确定性最短路径和随机性最短路径。确定性最短路径问题是边长度固定的最短路径问题,随机性最短路径是指在最短路径问题中允许边长度随机可变的问题。考虑到实际网络的动态性,相比于确定性最短路径,随机最短路径在现实问题中有着更广泛的应用。
目前解决随机最短路径的算法大体可以分为如下两类:一是将各个边的长度视作随机变量,寻找使得期望长度最短的路径;二是考虑边的增删可能,可以在不同的时间阶段在线确定最短路径的方法。但是任何情况下,当前的算法均需要预先确定网络中边长度的分布情况。如果此先验信息未知,当前的算法将失去其效用。
学习自动机是通过与环境的交互,调整自身决策行为的一种自治系统,隶属于加强学习的领域。在每一次迭代过程中,学习自动机依概率向量选择动作送入环境中。环境产生反馈后,更新算法以{动作,反馈}为输入,调整当前的概率分布,并作为下一轮循环中决策依据。每次循环相当于对环境的一次采样过程,这样的循环不断进行,直到学习自动机以概率1收敛到某动作。如果这个行为在环境中具有最大奖励概率,则这个学习自动机正确收敛。
学习自动机具有强大的随机决策能力,在通信网络和黑盒函数优化领域体现出其特有的优势。目前有用分布式学习自动机解决随机最短路径的成果,但速度和准确率都还有很大的提升空间。
发明内容
本发明针对上述现有技术存在的不足,提出一种基于层级结构学习自动机的随机最短路径实现方法,在速度、精度、开销上,均优于传统方法。
本发明是通过以下技术方案实现的:
本发明涉及一种基于层级结构学习自动机的随机最短路径实现方法,通过层级结构的学习自动机网络逐层更新收敛,当任一层网络达到收敛条件时,通过剔除该层最优节点除外的节点及其子节点进行层级结构修剪,从而将选择最短路径的问题转换为定位最优节点的问题,最终得到的最短路径即从第一层到最后一层的最优节点组成的序列。
所述的学习自动机网络中,源节点作为父节点,目标节点作为叶子节点。
所述的层级结构具体是指:随机网络G=(V,E,F),其中:V={1,2,…,n}表示节点的集合,表示边的集合,F是n×n的矩阵(n等于节点V的个数),每个元素Fi,j指边(i,j)的长度Lij的概率分布函数;该层级结构网络的源节点为vs,目标节点为vd,每个节点的父节点均逐一指向源节点vs。
所述的层级结构具体通过以下方式实现初始化:从源节点vs出发,在vs上部署一个学习自动机,该学习自动机行为的个数等于vs的出度;从vs的各个邻居节点v2出发,在各个v2上分别部署一个学习自动机,其行为个数等于v2的出度;再从v2的各个邻居节点v3出发,逐层按相同方式部署学习自动机,直到目标节点vd的学习自动机部署完成;最后删去未部署学习自动机的节点,由此形成了学习自动机的层级结构网络;每个学习自动机各自完成初始化工作,初始化各自的概率向量为均匀分布;设置当前节点为父节点,逐层依次选择下一节点,所有节点组成当前路径φ。
所述的逐层更新,具体包括以下步骤:
①选取层级结构中的当前路径中相邻节点的随机路径依次相加,得到当前路径的代价值Lφ。
②用动态阈值TK表示目前为止的所有采样路径的均值:当路径代价Lφ小于动态阈值TK时,奖励路径φ上的所有学习自动机,即β=1 if Lφ<Tk;否则惩罚路径φ上的所有学习自动机,即β=0 if Lφ≥Tk。
③学习自动机根据Lri(LinearReward-Inaction)学习算法更新自身的概率向量。
所述的Lri学习算法是指:学习自动机在环境奖励时更新概率向量,在环境惩罚时不更新概率向量的机制,具体是指:p(k+1)=T(p(k))ifβ=1,p(k+1)=p(k),其中:T为更新机制。
所述的更新,在更新概率向量时,学习自动机增大选定行为的概率,减小其余行为的概率,具体是指:pi(k+1)=pi(k)+(1-λ)pi(k),pj(k+1)=pj(k)-λpj(k)(j≠i),其中:i为选定的行为。
所述的收敛是指:当父节点vp的最大概率大于预先设定的阈值Pm时该层更新终止,移动父节点vp至最大概率对应的行为所在的节点(概率最大的子节点),并进行下一层更新,直到父节点vp到达目标节点vd,完整整个网络更新。
技术效果
在传统的基于分布式学习自动机的随机最短路径算法中,整个结构可以等效为一个学习自动机,该等效学习自动机的行为集合为可供选择的所有路径,最优行为即最短。而在层级结构学习自动机中,算法可以逐层收敛,每一层的行为个数为当前层的行为个数,远小于传统算法中可供选择的路径个数。行为集的个数变小可以大大加快算法收敛的速度,提升算法收敛的准确度。另一方面,层级结构的学习自动机可以不断修剪其结构,缩小搜索空间,进一步提升算法速度,减小开销。
与传统的分布式方法相比,本发明具有更快的速度、更高的准确率、更小却更高效的采样代价。在实际的工业应用中,可以更好的发挥其价值。
附图说明
图1、图2为本发明的实施例数据集;
图3为本发明的层级结构学习自动机模型示意图;
图中:a为原始的随机图,b为部署学习自动机之后的层级结构网络,c为b映射为层级结构的学习自动机模型图,d为c中的每个层级结构学习自动机的具体结构示意图。
具体实施方式
如图3a~图3d所示,本方法具体通过以下方式实现层级结构网络的初始化:以图3a为例,从源节点vs出发,在vs上部署一个学习自动机,该学习自动机行为的个数等于vs的出度;从vs的各个邻居节点v2出发,在各个v2上分别部署一个学习自动机,其行为个数等于v2的出度;再从v2的各个邻居节点v3出发,逐层按相同方式部署学习自动机,直到目标节点vd的学习自动机部署完成;最后删去未部署学习自动机的节点,由此形成了学习自动机的层级结构网络,如图3b所示;每个学习自动机各自完成初始化工作,初始化各自的概率向量为均匀分布;设置当前节点为父节点,逐层依次选择下一节点,所有节点组成当前路径φ。
如图3c,3d所示,在完成初始化后对网络进行逐层更新,具体包括以下步骤:
①选取层级结构中的当前路径中相邻节点的随机路径依次相加,得到当前路径的代价值Lφ。
②用动态阈值TK表示目前为止的所有采样路径的均值:当路径代价Lφ小于动态阈值TK时,奖励路径φ上的所有学习自动机;否则惩罚路径φ上的所有学习自动机。
③学习自动机根据Lri(LinearReward-Inaction)学习算法更新自身的概率向量。
本实施例采用图1的网络:该网络有10个节点,23条边,源节点为1,目标节点为10,最短路径为{1,4,9,10}。
参数设置:学习参数λ=0.01,收敛阈值Pm=0.9。
实施本发明的具体包括步骤如下:
步骤一:学习自动机的部署。从源节点学习自动机#1出发,在#1上部署一个学习自动机,此学习自动机行为的个数等于#1的出度3;分别从#1的各个邻居节点学习自动机#2、#3、#4出发,在#2、#3、#4上各自部署一个学习自动机,其行为个数分别等于#2、#3、#4的出度;再依次从#2、#3、#4的各个邻居节点出发进行相同方式的学习自动机部署,直到目标节点学习自动机#10所在的学习自动机部署完成。删去未部署学习自动机的节点,由此形成了学习自动机的分布式网络。
步骤二:初始化各个学习自动机如下:
2.1)学习自动机#1的邻居节点:#2、#3、#4。学习自动机#1部署3行为的学习自动机,初始化其概率向量为[1/3,1/3,1/3]
2.2)学习自动机#2的邻居节点:#5、#6。学习自动机#2部署2行为的学习自动机,初始化其概率向量为[1/2,1/2]
2.3)学习自动机#3的邻居节点:#2、#7、#8。学习自动机#3部署3行为的学习自动机,初始化其概率向量为[1/3,1/3,1/3]
2.4)学习自动机#4的邻居节点:#3、#9。学习自动机#4部署2行为的学习自动机,初始化其概率向量为[1/2,1/2]
2.5)学习自动机#5的邻居节点:#7、#10。学习自动机#5部署2行为的学习自动机,初始化其概率向量为[1/2,1/2]
2.6)学习自动机#6的邻居节点:#3、#5、#7。学习自动机#6部署3行为的学习自动机,初始化其概率向量为[1/3,1/3,1/3]
2.7)学习自动机#7的邻居节点:#6、#8、#9、#10。学习自动机#7部署4为的学习自动机,初始化其概率向量为[1/4,1/4,1/4,1/4]
2.8)学习自动机#8的邻居节点:#4、#7、#9。学习自动机#8部署3行为的学习自动机,初始化其概率向量为[1/3,1/3,1/3]
2.9)学习自动机#9的邻居节点:#10。学习自动机#9部署1行为的学习自动机,初始化其概率向量为[1]
步骤三:变量设置:设置父节点为学习自动机#1
步骤四:路径选择。设置当前节点为学习自动机#1,根据#1的概率向量选择行为,并激活相应的邻居节点,依次类推,逐层选择下一节点,所有节点组成当前路径。如φ={#1、#3、#7、#9、#10}。
步骤五:代价计算。将选取的当前路径φ={#1、#3、#7、#9、#10}中相邻节点的随机路径依次相加,得到当前路径的代价值Lφ。
步骤六:环境反馈。用动态阈值TK表示目前为止的所有采样路径的均值。当路径代价Lφ小于动态阈值TK,奖励路径φ={#1、#3、#7、#9、#10}上的所有学习自动机;否则,惩罚路径φ={#1、#3、#7、#9、#10}上的所有学习自动机。
步骤七:概率更新。学习自动机根据学习算法Lri更新自身的概率向量,具体如下:
7.1)在环境奖励时:
第一层:对于学习自动机#1。增大#1选择#3的概率,减小#1选择#2、#4的概率。学习参数为λ
第二层:对于学习自动机#3。增大#3选择#7的概率,减小#3选择#2、#8的概率。学习参数为λ/Pr{[1]→[3]},其中:Pr{[1]→[3]}表示第一层的概率更新后#1选择#3的概率
第三层:对于学习自动机#7。增大#7选择#9的概率,减小#7选择#6、#8、#10的概率。学习参数为λ/Pr{[3]→[7]},其中:Pr{[3]→[7]}表示第二层的概率更新后#3选择#7的概率
第四层:对于学习自动机#9。增大#9选择#10的概率。学习参数为λ/Pr{[7]→[9]},其中:Pr{[7]→[9]}表示第三层的概率更新后#7选择#9的概率
上述增大概率的公式为pi=pi+(1-λ)pi,减小概率的公式为pj=pj-λpj,其中:pi指路径上的当前层学习自动机选择下一层学习自动机的概率,pj指路径上的当前层学习自动机选择非路径学习自动机的概率。
7.2)在环境惩罚时:
各个学习自动机的概率向量保持不变。
至此一次迭代完成,返回步骤四继续执行下一次的迭代循环。
当学习自动机#1的最大概率大于预先设定的阈值Pm=0.9时,迭代终止,完成一轮的循环。
移动父节点至最优节点(概率最大的子节点),返回步骤四开始新一轮的循环。
假设第一轮循环,父节点学习自动机#1的最优节点为学习自动机#2;第二轮循环,父节点学习自动机#2的最优节点为学习自动机#4;第三轮循环,父节点学习自动机#4的最优节点为学习自动机#9;第四轮循环,父节点学习自动机#9的最优节点为学习自动机#10。第五轮循环,父节点到达目标节点学习自动机#10,更新终止。输出最终路径为学习自动机#1、#4、#9、#10。
以图1为例,图1的网络有10个节点,23条边,源节点为1,目标节点为10,最短路径为{1,4,9,10},学习参数设定为0.01时:
采用本发明提出的层级结构学习自动机的平均迭代次数为850.93,分布式学习自动机的三种算法的平均迭代次数分别是1002.69,972.61,942.61,依次提升了15.1353%,12.5107%,9.7501%。
采用本发明提出的层级结构学习自动机的准确率为100%,分布式学习自动机的三种算法的准确率均为100%,水平相当。
采用本发明提出的层级结构学习自动机的总采样次数为2735.75,分布式学习自动机的三种算法的总采样次数分别为3922.04,3666.11,3017.28,依次提升了30.2468%,25.3773%,9.3306%。
采用本发明提出的层级结构学习自动机的最优采样率为0.544871,分布式学习自动机的三种算法的最优采样率分别为0.455821,0.472926,0.535214,依次提升了19.5362%,15.2127%,1.8043%。
以图2为例,图2的网络有15个节点,42条边,源节点为1,目标节点为15,最短路径为{1,2,5,15},学习参数设定为0.005时:
采用本发明提出的层级结构学习自动机的平均迭代次数为4404.16,分布式学习自动机的三种算法的平均迭代次数分别是6800.97,6245.01,4658.9,依次提升了35.2422%,29.4771%,5.6703%。
采用本发明提出的层级结构学习自动机的准确率为90%,分布式学习自动机的三种算法的准确率分别为86%,86%,87%,依次提升了4.6512%,3.4483%,3.4483%。
采用本发明提出的层级结构学习自动机的总采样次数为13076.4,分布式学习自动机的三种算法的总采样次数分别为25803.7,24515.7,15082,依次提升了49.3237%,46.6661%,13.298%。
采用本发明提出的层级结构学习自动机的最优采样率为0.561212,分布式学习自动机的三种算法的最优采样率分别为0.330965,0.37075,0.53564,依次提升了69.5684%,51.3721%,4.7741%。
本发明可广泛应用于交通规划、通信网络、军事航空等领域。以通信领域为例,随着无线通信网络的发展特别是5G的兴起,对网络动态属性的适应性和鲁棒性要求进一步提升。通过充分发挥本发明在随机环境中的优势,可解决一系列与无线通信网络相关的问题。例如,一些无线网络黑客往往随机地沿最短路径攻击网络的安全性,在最短路径所在的网络节点部署监控器,可最大可能实现入侵检测的目的。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (3)
1.一种基于层级结构学习自动机的随机最短路径实现方法,其特征在于,通过层级结构的学习自动机网络逐层更新收敛,当任一层网络达到收敛条件时,通过剔除该层最优节点除外的节点及其子节点进行层级结构修剪,从而将选择最短路径的问题转换为定位最优节点的问题,最终得到的最短路径即从第一层到最后一层的最优节点组成的序列;
所述的学习自动机网络中,源节点作为父节点,目标节点作为叶子节点;所述的层级结构具体是指:随机网络G=(V,E,F),其中:V={1,2,…,n}表示节点的集合,表示边的集合,F是n×n的矩阵,n等于节点V的个数,每个元素Fi,j指边(i,j)的长度Lij的概率分布函数;该层级结构网络的源节点为vs,目标节点为vd,每个节点的父节点均逐一指向源节点vs;
所述的逐层更新,具体包括以下步骤:
①选取层级结构中的当前路径中相邻节点的随机路径依次相加,得到当前路径的代价值Lφ;
②用动态阈值TK表示目前为止的所有采样路径的均值:当路径代价Lφ小于动态阈值TK时,奖励路径φ上的所有学习自动机;否则惩罚路径φ上的所有学习自动机;
③学习自动机根据Lri学习算法更新自身的概率向量;
所述的收敛是指:当父节点vp的最大概率大于预先设定的阈值Pm时该层更新终止,移动父节点vp至最大概率对应的行为所在的节点,即概率最大的子节点,并进行下一层更新,直到父节点vp到达目标节点vd,完整整个网络更新。
2.根据权利要求1所述的实现方法,其特征是,所述的层级结构具体通过以下方式实现初始化:从源节点vs出发,在vs上部署一个学习自动机,该学习自动机行为的个数等于vs的出度;从vs的各个邻居节点v2出发,在各个v2上分别部署一个学习自动机,其行为个数等于v2的出度;再从v2的各个邻居节点v3出发,逐层按相同方式部署学习自动机,直到目标节点vd的学习自动机部署完成;最后删去未部署学习自动机的节点,由此形成了学习自动机的分布式网络;每个学习自动机各自完成初始化工作,初始化各自的概率向量为均匀分布;设置当前节点为父节点,逐层依次选择下一节点,所有节点组成当前路径φ。
3.根据权利要求1所述的实现方法,其特征是,所述的Lri学习算法是指:学习自动机在环境奖励时更新概率向量,在环境惩罚时不更新概率向量的机制,具体是指:p(k+1)=T(p(k))ifβ=1,p(k+1)=p(k),其中:T为更新机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710054545.4A CN106953801B (zh) | 2017-01-24 | 2017-01-24 | 基于层级结构学习自动机的随机最短路径实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710054545.4A CN106953801B (zh) | 2017-01-24 | 2017-01-24 | 基于层级结构学习自动机的随机最短路径实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106953801A CN106953801A (zh) | 2017-07-14 |
CN106953801B true CN106953801B (zh) | 2020-05-05 |
Family
ID=59465799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710054545.4A Expired - Fee Related CN106953801B (zh) | 2017-01-24 | 2017-01-24 | 基于层级结构学习自动机的随机最短路径实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106953801B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10454780B2 (en) | 2017-12-07 | 2019-10-22 | Cisco Technology, Inc. | Optimizing source routing using machine learning |
CN109614397B (zh) * | 2018-10-30 | 2023-06-20 | 创新先进技术有限公司 | 基于分布式系统获取关系网络的节点序列的方法和装置 |
WO2020110250A1 (ja) * | 2018-11-29 | 2020-06-04 | 三菱電機株式会社 | 無線通信装置、無線通信システムおよび無線通信プログラム |
CN111539534B (zh) * | 2020-05-27 | 2023-03-21 | 深圳大学 | 一种基于强化学习的通用分布式图处理方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101465793B (zh) * | 2007-12-18 | 2011-02-16 | 中国科学院计算技术研究所 | 一种获取网络中两点间最短路由路径的方法及装置 |
US20150016242A1 (en) * | 2013-07-12 | 2015-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Method and Apparatus for Optimized LFA Computations by Pruning Neighbor Shortest Path Trees |
CN104156462B (zh) * | 2014-08-21 | 2017-07-28 | 上海交通大学 | 基于元胞自动学习机的复杂网络社团挖掘方法 |
CN106067039B (zh) * | 2016-05-30 | 2019-01-29 | 桂林电子科技大学 | 基于决策树剪枝的模式匹配方法 |
-
2017
- 2017-01-24 CN CN201710054545.4A patent/CN106953801B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN106953801A (zh) | 2017-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qolomany et al. | Parameters optimization of deep learning models using particle swarm optimization | |
CN106953801B (zh) | 基于层级结构学习自动机的随机最短路径实现方法 | |
Jovanovic et al. | Ant colony optimization algorithm with pheromone correction strategy for the minimum connected dominating set problem | |
CN110428046B (zh) | 神经网络结构的获取方法及装置、存储介质 | |
CN113919485B (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
Tansey et al. | A fast and flexible algorithm for the graph-fused lasso | |
Sun et al. | Quantum-behaved particle swarm optimization with binary encoding | |
Ahmad et al. | Image classification based on automatic neural architecture search using binary crow search algorithm | |
Urade et al. | Dynamic particle swarm optimization to solve multi-objective optimization problem | |
Mendonca et al. | Graph-based skill acquisition for reinforcement learning | |
Xu et al. | Living with artificial intelligence: A paradigm shift toward future network traffic control | |
Vahidipour et al. | GAPN-LA: A framework for solving graph problems using Petri nets and learning automata | |
Ge et al. | Chaotic ant swarm for graph coloring | |
Nikitin et al. | Structural evolutionary learning for composite classification models | |
Askari et al. | Bayesian network structure learning based on cuckoo search algorithm | |
Tang et al. | An enhanced opposition-based particle swarm optimization | |
CN108491505B (zh) | 一种基于拓扑势值排序的dsatur图顶点着色方法 | |
Sztyglic et al. | Simplified belief-dependent reward mcts planning with guaranteed tree consistency | |
Guo et al. | Learning automata-based algorithms for solving the stochastic shortest path routing problems in 5G wireless communication | |
Shan et al. | Particle swarm and ant colony algorithms hybridized for multi-mode resource-constrained project scheduling problem with minimum time lag | |
Amiri et al. | A multiobjective hybrid evolutionary algorithm for clustering in social networks | |
Zhan et al. | Dueling network architecture for multi-agent deep deterministic policy gradient | |
Shokouhifar et al. | Feature selection using supervised fuzzy C-means algorithm with ant colony optimization | |
Wang et al. | Multi-objective artificial bee colony algorithm | |
Masadeh et al. | Selector-actor-critic and tuner-actor-critic algorithms for reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200505 Termination date: 20220124 |