CN106953801B

CN106953801B - 基于层级结构学习自动机的随机最短路径实现方法

Info

Publication number: CN106953801B
Application number: CN201710054545.4A
Authority: CN
Inventors: 李生红; 郭颖; 马颖华; 汤璐
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2020-05-05
Anticipated expiration: 2037-01-24
Also published as: CN106953801A

Abstract

一种基于层级结构学习自动机的随机最短路径实现方法，包括：学习自动机部署，将动态网络从源节点出发到目标阶段终止的结点部署学习自动机；初始化过程，每个学习自动机初始化自身的概率向量；路径选择，从父结点出发逐层选择结点，组成当前路径；环境反馈，将当前路径的代价函数与当前采样路径的均值比较，得到惩罚或者奖励；学习过程，被选择路径上每个学习自动机根据学习算法更新自身的概率向量；逐层判断更新终止过程，若终止，结束步骤，否则更新父节点返回路径选择继续进行。

Description

基于层级结构学习自动机的随机最短路径实现方法

技术领域

本发明涉及的是一种信息处理领域的技术，具体是一种基于层级结构学习自动机的随机最短路径实现方法。

背景技术

最短路径问题是指在已知源节点和目标节点的前提下，确定最小的边长度(权重，代价等)的问题，可以分为确定性最短路径和随机性最短路径。确定性最短路径问题是边长度固定的最短路径问题，随机性最短路径是指在最短路径问题中允许边长度随机可变的问题。考虑到实际网络的动态性，相比于确定性最短路径，随机最短路径在现实问题中有着更广泛的应用。

目前解决随机最短路径的算法大体可以分为如下两类：一是将各个边的长度视作随机变量，寻找使得期望长度最短的路径；二是考虑边的增删可能，可以在不同的时间阶段在线确定最短路径的方法。但是任何情况下，当前的算法均需要预先确定网络中边长度的分布情况。如果此先验信息未知，当前的算法将失去其效用。

学习自动机是通过与环境的交互，调整自身决策行为的一种自治系统，隶属于加强学习的领域。在每一次迭代过程中，学习自动机依概率向量选择动作送入环境中。环境产生反馈后，更新算法以{动作，反馈}为输入，调整当前的概率分布，并作为下一轮循环中决策依据。每次循环相当于对环境的一次采样过程，这样的循环不断进行，直到学习自动机以概率1收敛到某动作。如果这个行为在环境中具有最大奖励概率，则这个学习自动机正确收敛。

学习自动机具有强大的随机决策能力，在通信网络和黑盒函数优化领域体现出其特有的优势。目前有用分布式学习自动机解决随机最短路径的成果，但速度和准确率都还有很大的提升空间。

发明内容

本发明针对上述现有技术存在的不足，提出一种基于层级结构学习自动机的随机最短路径实现方法，在速度、精度、开销上，均优于传统方法。

本发明是通过以下技术方案实现的：

本发明涉及一种基于层级结构学习自动机的随机最短路径实现方法，通过层级结构的学习自动机网络逐层更新收敛，当任一层网络达到收敛条件时，通过剔除该层最优节点除外的节点及其子节点进行层级结构修剪，从而将选择最短路径的问题转换为定位最优节点的问题，最终得到的最短路径即从第一层到最后一层的最优节点组成的序列。

所述的学习自动机网络中，源节点作为父节点，目标节点作为叶子节点。

所述的层级结构具体是指：随机网络G＝(V,E,F)，其中：V＝{1,2,…，n}表示节点的集合，

表示边的集合，F是n×n的矩阵(n等于节点V的个数)，每个元素F_i,j指边(i,j)的长度L_ij的概率分布函数；该层级结构网络的源节点为v_s，目标节点为v_d，每个节点的父节点均逐一指向源节点v_s。

所述的层级结构具体通过以下方式实现初始化：从源节点v_s出发，在v_s上部署一个学习自动机，该学习自动机行为的个数等于v_s的出度；从v_s的各个邻居节点v₂出发，在各个v₂上分别部署一个学习自动机，其行为个数等于v₂的出度；再从v₂的各个邻居节点v₃出发，逐层按相同方式部署学习自动机，直到目标节点v_d的学习自动机部署完成；最后删去未部署学习自动机的节点，由此形成了学习自动机的层级结构网络；每个学习自动机各自完成初始化工作，初始化各自的概率向量为均匀分布；设置当前节点为父节点，逐层依次选择下一节点，所有节点组成当前路径φ。

所述的逐层更新，具体包括以下步骤：

①选取层级结构中的当前路径中相邻节点的随机路径依次相加，得到当前路径的代价值L_φ。

②用动态阈值T_K表示目前为止的所有采样路径的均值：当路径代价L_φ小于动态阈值T_K时，奖励路径φ上的所有学习自动机，即β＝1 if L_φ＜T_k；否则惩罚路径φ上的所有学习自动机，即β＝0 if L_φ≥T_k。

③学习自动机根据Lri(LinearReward-Inaction)学习算法更新自身的概率向量。

所述的Lri学习算法是指：学习自动机在环境奖励时更新概率向量，在环境惩罚时不更新概率向量的机制，具体是指：p(k+1)＝T(p(k))ifβ＝1,p(k+1)＝p(k)，其中：T为更新机制。

所述的更新，在更新概率向量时，学习自动机增大选定行为的概率，减小其余行为的概率，具体是指：p_i(k+1)＝p_i(k)+(1-λ)p_i(k),p_j(k+1)＝p_j(k)-λp_j(k)(j≠i)，其中：i为选定的行为。

④更新动态阈值

其中：k表示迭代次数。

所述的收敛是指：当父节点v_p的最大概率大于预先设定的阈值P_m时该层更新终止，移动父节点v_p至最大概率对应的行为所在的节点(概率最大的子节点)，并进行下一层更新，直到父节点v_p到达目标节点v_d，完整整个网络更新。

技术效果

在传统的基于分布式学习自动机的随机最短路径算法中，整个结构可以等效为一个学习自动机，该等效学习自动机的行为集合为可供选择的所有路径，最优行为即最短。而在层级结构学习自动机中，算法可以逐层收敛，每一层的行为个数为当前层的行为个数，远小于传统算法中可供选择的路径个数。行为集的个数变小可以大大加快算法收敛的速度，提升算法收敛的准确度。另一方面，层级结构的学习自动机可以不断修剪其结构，缩小搜索空间，进一步提升算法速度，减小开销。

与传统的分布式方法相比，本发明具有更快的速度、更高的准确率、更小却更高效的采样代价。在实际的工业应用中，可以更好的发挥其价值。

附图说明

图1、图2为本发明的实施例数据集；

图3为本发明的层级结构学习自动机模型示意图；

图中：a为原始的随机图，b为部署学习自动机之后的层级结构网络，c为b映射为层级结构的学习自动机模型图，d为c中的每个层级结构学习自动机的具体结构示意图。

具体实施方式

如图3a～图3d所示，本方法具体通过以下方式实现层级结构网络的初始化：以图3a为例，从源节点v_s出发，在v_s上部署一个学习自动机，该学习自动机行为的个数等于v_s的出度；从v_s的各个邻居节点v₂出发，在各个v₂上分别部署一个学习自动机，其行为个数等于v₂的出度；再从v₂的各个邻居节点v₃出发，逐层按相同方式部署学习自动机，直到目标节点v_d的学习自动机部署完成；最后删去未部署学习自动机的节点，由此形成了学习自动机的层级结构网络，如图3b所示；每个学习自动机各自完成初始化工作，初始化各自的概率向量为均匀分布；设置当前节点为父节点，逐层依次选择下一节点，所有节点组成当前路径φ。

如图3c，3d所示，在完成初始化后对网络进行逐层更新，具体包括以下步骤：

②用动态阈值T_K表示目前为止的所有采样路径的均值：当路径代价L_φ小于动态阈值T_K时，奖励路径φ上的所有学习自动机；否则惩罚路径φ上的所有学习自动机。

④更新动态阈值

其中：k表示迭代次数。

本实施例采用图1的网络：该网络有10个节点，23条边，源节点为1，目标节点为10，最短路径为{1，4，9，10}。

参数设置：学习参数λ＝0.01，收敛阈值P_m＝0.9。

实施本发明的具体包括步骤如下：

步骤一：学习自动机的部署。从源节点学习自动机#1出发，在#1上部署一个学习自动机，此学习自动机行为的个数等于#1的出度3；分别从#1的各个邻居节点学习自动机#2、#3、#4出发，在#2、#3、#4上各自部署一个学习自动机，其行为个数分别等于#2、#3、#4的出度；再依次从#2、#3、#4的各个邻居节点出发进行相同方式的学习自动机部署，直到目标节点学习自动机#10所在的学习自动机部署完成。删去未部署学习自动机的节点，由此形成了学习自动机的分布式网络。

步骤二：初始化各个学习自动机如下：

2.1)学习自动机#1的邻居节点：#2、#3、#4。学习自动机#1部署3行为的学习自动机，初始化其概率向量为[1/3,1/3,1/3]

2.2)学习自动机#2的邻居节点：#5、#6。学习自动机#2部署2行为的学习自动机，初始化其概率向量为[1/2,1/2]

2.3)学习自动机#3的邻居节点：#2、#7、#8。学习自动机#3部署3行为的学习自动机，初始化其概率向量为[1/3,1/3,1/3]

2.4)学习自动机#4的邻居节点：#3、#9。学习自动机#4部署2行为的学习自动机，初始化其概率向量为[1/2,1/2]

2.5)学习自动机#5的邻居节点：#7、#10。学习自动机#5部署2行为的学习自动机，初始化其概率向量为[1/2,1/2]

2.6)学习自动机#6的邻居节点：#3、#5、#7。学习自动机#6部署3行为的学习自动机，初始化其概率向量为[1/3,1/3,1/3]

2.7)学习自动机#7的邻居节点：#6、#8、#9、#10。学习自动机#7部署4为的学习自动机，初始化其概率向量为[1/4,1/4,1/4,1/4]

2.8)学习自动机#8的邻居节点：#4、#7、#9。学习自动机#8部署3行为的学习自动机，初始化其概率向量为[1/3,1/3,1/3]

2.9)学习自动机#9的邻居节点：#10。学习自动机#9部署1行为的学习自动机，初始化其概率向量为[1]

步骤三：变量设置：设置父节点为学习自动机#1

步骤四：路径选择。设置当前节点为学习自动机#1，根据#1的概率向量选择行为，并激活相应的邻居节点，依次类推，逐层选择下一节点，所有节点组成当前路径。如φ＝{#1、#3、#7、#9、#10}。

步骤五：代价计算。将选取的当前路径φ＝{#1、#3、#7、#9、#10}中相邻节点的随机路径依次相加，得到当前路径的代价值L_φ。

步骤六：环境反馈。用动态阈值T_K表示目前为止的所有采样路径的均值。当路径代价L_φ小于动态阈值T_K，奖励路径φ＝{#1、#3、#7、#9、#10}上的所有学习自动机；否则，惩罚路径φ＝{#1、#3、#7、#9、#10}上的所有学习自动机。

步骤七：概率更新。学习自动机根据学习算法Lri更新自身的概率向量，具体如下：

7.1)在环境奖励时：

第一层：对于学习自动机#1。增大#1选择#3的概率，减小#1选择#2、#4的概率。学习参数为λ

第二层：对于学习自动机#3。增大#3选择#7的概率，减小#3选择#2、#8的概率。学习参数为λ/Pr{[1]→[3]}，其中：Pr{[1]→[3]}表示第一层的概率更新后#1选择#3的概率

第三层：对于学习自动机#7。增大#7选择#9的概率，减小#7选择#6、#8、#10的概率。学习参数为λ/Pr{[3]→[7]}，其中：Pr{[3]→[7]}表示第二层的概率更新后#3选择#7的概率

第四层：对于学习自动机#9。增大#9选择#10的概率。学习参数为λ/Pr{[7]→[9]}，其中：Pr{[7]→[9]}表示第三层的概率更新后#7选择#9的概率

上述增大概率的公式为p_i＝p_i+(1-λ)p_i，减小概率的公式为p_j＝p_j-λp_j，其中：p_i指路径上的当前层学习自动机选择下一层学习自动机的概率，p_j指路径上的当前层学习自动机选择非路径学习自动机的概率。

7.2)在环境惩罚时：

各个学习自动机的概率向量保持不变。

步骤八：动态阈值更新

其中：k表示迭代次数。

至此一次迭代完成，返回步骤四继续执行下一次的迭代循环。

当学习自动机#1的最大概率大于预先设定的阈值P_m＝0.9时，迭代终止，完成一轮的循环。

移动父节点至最优节点(概率最大的子节点)，返回步骤四开始新一轮的循环。

假设第一轮循环，父节点学习自动机#1的最优节点为学习自动机#2；第二轮循环，父节点学习自动机#2的最优节点为学习自动机#4；第三轮循环，父节点学习自动机#4的最优节点为学习自动机#9；第四轮循环，父节点学习自动机#9的最优节点为学习自动机#10。第五轮循环，父节点到达目标节点学习自动机#10，更新终止。输出最终路径为学习自动机#1、#4、#9、#10。

以图1为例，图1的网络有10个节点，23条边，源节点为1，目标节点为10，最短路径为{1，4，9，10}，学习参数设定为0.01时：

采用本发明提出的层级结构学习自动机的平均迭代次数为850.93，分布式学习自动机的三种算法的平均迭代次数分别是1002.69，972.61，942.61，依次提升了15.1353％，12.5107％，9.7501％。

采用本发明提出的层级结构学习自动机的准确率为100％，分布式学习自动机的三种算法的准确率均为100％，水平相当。

采用本发明提出的层级结构学习自动机的总采样次数为2735.75，分布式学习自动机的三种算法的总采样次数分别为3922.04，3666.11，3017.28，依次提升了30.2468％，25.3773％，9.3306％。

采用本发明提出的层级结构学习自动机的最优采样率为0.544871，分布式学习自动机的三种算法的最优采样率分别为0.455821，0.472926，0.535214，依次提升了19.5362％，15.2127％，1.8043％。

以图2为例，图2的网络有15个节点，42条边，源节点为1，目标节点为15，最短路径为{1，2，5，15}，学习参数设定为0.005时：

采用本发明提出的层级结构学习自动机的平均迭代次数为4404.16，分布式学习自动机的三种算法的平均迭代次数分别是6800.97，6245.01，4658.9，依次提升了35.2422％，29.4771％，5.6703％。

采用本发明提出的层级结构学习自动机的准确率为90％，分布式学习自动机的三种算法的准确率分别为86％，86％，87％，依次提升了4.6512％，3.4483％，3.4483％。

采用本发明提出的层级结构学习自动机的总采样次数为13076.4，分布式学习自动机的三种算法的总采样次数分别为25803.7，24515.7，15082，依次提升了49.3237％，46.6661％，13.298％。

采用本发明提出的层级结构学习自动机的最优采样率为0.561212，分布式学习自动机的三种算法的最优采样率分别为0.330965，0.37075，0.53564，依次提升了69.5684％，51.3721％，4.7741％。

本发明可广泛应用于交通规划、通信网络、军事航空等领域。以通信领域为例，随着无线通信网络的发展特别是5G的兴起，对网络动态属性的适应性和鲁棒性要求进一步提升。通过充分发挥本发明在随机环境中的优势，可解决一系列与无线通信网络相关的问题。例如，一些无线网络黑客往往随机地沿最短路径攻击网络的安全性，在最短路径所在的网络节点部署监控器，可最大可能实现入侵检测的目的。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于层级结构学习自动机的随机最短路径实现方法，其特征在于，通过层级结构的学习自动机网络逐层更新收敛，当任一层网络达到收敛条件时，通过剔除该层最优节点除外的节点及其子节点进行层级结构修剪，从而将选择最短路径的问题转换为定位最优节点的问题，最终得到的最短路径即从第一层到最后一层的最优节点组成的序列；

所述的学习自动机网络中，源节点作为父节点，目标节点作为叶子节点；所述的层级结构具体是指：随机网络G＝(V,E,F)，其中：V＝{1,2,…，n}表示节点的集合，

表示边的集合，F是n×n的矩阵，n等于节点V的个数，每个元素F_i,j指边(i,j)的长度L_ij的概率分布函数；该层级结构网络的源节点为v_s，目标节点为v_d，每个节点的父节点均逐一指向源节点v_s；

所述的逐层更新，具体包括以下步骤：

①选取层级结构中的当前路径中相邻节点的随机路径依次相加，得到当前路径的代价值L_φ；

②用动态阈值T_K表示目前为止的所有采样路径的均值：当路径代价L_φ小于动态阈值T_K时，奖励路径φ上的所有学习自动机；否则惩罚路径φ上的所有学习自动机；

③学习自动机根据Lri学习算法更新自身的概率向量；

④更新动态阈值

其中：k表示迭代次数；

所述的收敛是指：当父节点v_p的最大概率大于预先设定的阈值P_m时该层更新终止，移动父节点v_p至最大概率对应的行为所在的节点，即概率最大的子节点，并进行下一层更新，直到父节点v_p到达目标节点v_d，完整整个网络更新。

2.根据权利要求1所述的实现方法，其特征是，所述的层级结构具体通过以下方式实现初始化：从源节点v_s出发，在v_s上部署一个学习自动机，该学习自动机行为的个数等于v_s的出度；从v_s的各个邻居节点v₂出发，在各个v₂上分别部署一个学习自动机，其行为个数等于v₂的出度；再从v₂的各个邻居节点v₃出发，逐层按相同方式部署学习自动机，直到目标节点v_d的学习自动机部署完成；最后删去未部署学习自动机的节点，由此形成了学习自动机的分布式网络；每个学习自动机各自完成初始化工作，初始化各自的概率向量为均匀分布；设置当前节点为父节点，逐层依次选择下一节点，所有节点组成当前路径φ。

3.根据权利要求1所述的实现方法，其特征是，所述的Lri学习算法是指：学习自动机在环境奖励时更新概率向量，在环境惩罚时不更新概率向量的机制，具体是指：p(k+1)＝T(p(k))ifβ＝1,p(k+1)＝p(k)，其中：T为更新机制。