CN115580578A

CN115580578A - 一种面向多业务需求保障的路由选择方法及装置

Info

Publication number: CN115580578A
Application number: CN202211069344.9A
Authority: CN
Inventors: 余志文; 赵瑞锋; 戴月; 卢建刚; 曾凯文
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2023-01-06
Anticipated expiration: 2042-09-01
Also published as: CN115580578B

Abstract

本发明涉及电力通信技术领域，公开了一种面向多业务需求保障的路由选择方法及装置，包括：根据接收到的若干个业务请求，得到所述业务请求对应的目标馈线终端设备，并计算与所述目标馈线终端设备之间存在的若干条路由；根据所述业务请求的类型和所述路由，分别建立授时误差模型、短报文通信时延模型和定位误差模型，所述业务请求的类型包括授时、短报文通信和定位；根据所述授时误差模型、所述短报文通信时延模型和所述定位误差模型，建立路由选择模型；通过改进的epsilon‑greedy算法对所述路由选择模型进行计算，得到所述业务请求对应的最优路由。本发明在满足多业务需求保障的同时，提高了信息传输的效率和电网系统的工作效率。

Description

一种面向多业务需求保障的路由选择方法及装置

技术领域

本发明涉及电力通信技术领域，特别是涉及一种面向多业务需求保障的路由选择方法及装置。

背景技术

目前，电力系统通信主要通过光纤专网方式进行数据传输，需要铺设大量光缆，在配电台区点多面广结构复杂的网络环境中具有施工难度大、成本高等缺点，难以实现电力通信网全覆盖，无法保障海量馈线装置终端(Feeder Terminal Unit，FTU)的定位、授时、通信等业务的需求。北斗三号全球卫星导航系统(BeiDou-3，BD3)集成卫星授时、短报文通信、以及精准定位等功能于一体，进行全天候、全天时观测，在杆塔监测、输电线路地质灾害监测、配电线路自动化监测、无人巡检等电力场景下均具有广阔应用空间。

但是现有的BD3装置运行维护成本高，定位、授时、短报文通信等功能模块集成度低，缺乏统一规范，操作难度大，容易出现数据通信协议不匹配等问题，在多业务数据流并发时，由于缺少统一的调度各业务对路由的优劣缺少全局判断，导致某些路由出现数据流堵塞，无法满足多业务需求保障。业务数据流的不平衡性导致系统整体工作效率下降。此外随着大量新型电力业务的兴起，传统的基于机器学习的多业务路由选择算法需要大量的样本进行训练，并且容易陷入局部最优且收敛速度慢，影响信息传输速率，降低信息传输效率，难以实现多业务需求保障。

发明内容

为了解决上述技术问题，本发明提供了一种面向多业务需求保障的路由选择方法及装置，通过在多业务并发的基础上进行灵活的路由规划，能够在降低成本和操作难度的同时提升各业务数据流之间的平衡，保障多业务需求，并且能够提高电网系统整体覆盖率和工作效率。

第一方面，本发明提供了一种面向多业务需求保障的路由选择方法，所述方法包括：

根据接收到的若干个业务请求，得到所述业务请求对应的目标馈线终端设备，并计算与所述目标馈线终端设备之间存在的若干条路由；

根据所述业务请求的类型和所述路由，分别建立授时误差模型、短报文通信时延模型和定位误差模型，所述业务请求的类型包括授时、短报文通信和定位；

根据所述授时误差模型、所述短报文通信时延模型和所述定位误差模型，建立路由选择模型；

通过改进的epsilon-greedy算法对所述路由选择模型进行计算，得到所述业务请求对应的最优路由；

其中，采用如下公式计算所述路由选择模型：

Request_i(SA,TN,U^TS(i),U^SMC(i),U^P(i),TSE_max,D_max,PE_max)

式中，SA表示业务请求的发送方，TN表示业务请求的接收方即目标馈线终端设备，U^TS(i),U^SMC(i),U^P(i)分别为第i次迭代授时数据包 TS的大小、短报文通信数据包SMC的大小和定位数据包P的大小, TSE_max为TN最大可以承受的授时误差，D_max为TN最大可以承受的短报文通信时延，PE_max为TN最大可以承受的定位误差。

进一步地，所述根据所述业务请求的类型和所述路由，分别建立授时误差模型、短报文通信时延模型和定位误差模型的步骤包括：

根据所述业务请求的类型，得到授时数据包大小、短报文通信数据包大小、定位数据包大小、链路传输授时数据速率、短报文通信数据速率和定位数据速率；

根据所述授时数据包大小和所述链路传输授时数据速率，得到授时数据包时延，并根据授时数据包的误差，得到授时误差模型；

根据所述短报文通信数据包大小和所述短报文通信数据速率，得到短报文通信时延模型；

根据所述定位数据包大小和所述定位数据速率，得到定位数据包时延，并根据所述定位数据包的信干燥比，得到定位误差模型。

进一步地，采用如下公式计算所述链路传输授时数据速率、所述短报文通信数据速率和所述定位数据速率：

式中，

分别为第i次迭代授时数据、短报文通信数据、定位数据传输时所占带宽,

分别为授时、短报文通信和定位三种业务传输功率，h_m1(i),h_m2(i),h_m3(i)分别为路由r_m1,r_m2,r_m3的增益，m1,m2,m3∈{1,...,M}且三者可以相等，M为SA到TN之间的所有路由数量，S_f1为除了授时业务以外的其他两种业务种类集合，S_f2为除了短报文通信业务以外的其他两种业务种类集合，S_f3为除了定位业务以外的其他两种业务种类集合，σ为高斯白噪声；

采用如下公式计算所述授时误差模型：

式中，TSE为授时误差，

为TN接收来自SA的授时数据包的时延，O^TS为接收授时收据包的误差，

为授时数据包的路由选择变量，m为路由r_m，R为M条路由的集合，R＝{r₁,…r₂,…,r_M}，i为第i 次迭代；

采用如下公式计算所述短报文通信时延模型：

式中，D为TN接收定位数据包的时延，U^SMC为短报文通信数据包大小，

为短报文通信数据速率，

为短报文通信数据包的路由选择变量；

采用如下公式计算所述定位误差模型：

式中，PE为定位误差，

为TN接收来自SA的定位数据包的时延，γ^P为信干燥比，

为定位数据包的路由选择变量。

进一步地，所述通过改进的epsilon-greedy算法对所述路由选择模型进行计算，得到所述业务请求对应的最优路由的步骤包括：

获取所述路由选择模型的开销函数，并根据所述开销函数将所述路由选择模型转化为多臂机模型；

使用基于softmax函数改进的epsilon-greedy算法对所述多臂机模型进行计算，得到所述业务请求对应的最优路由。

进一步地，所述使用基于softmax函数改进的epsilon-greedy算法对所述多臂机模型进行计算，得到所述业务请求对应的最优路由的步骤包括：

根据所述开销函数，得到选择摇臂的奖励；

对选择的所述摇臂的参数进行初始化，并根据所述奖励和所述摇臂的选择次数，得到选择所述摇臂的平均奖励；

根据所述平均奖励，使用softmax函数得到所述多臂机模型的最优摇臂，并根据预设的迭代次数，对所述最优摇臂进行迭代计算，将收敛的所述最优摇臂作为最优路由。

进一步地，采用如下公式计算所述开销函数：

F＝TSE+D+PE

式中，F为开销函数，TSE为授时误差模型，D为短报文通信时延模型，PE为定位误差模型；

采用如下公式计算所述选择摇臂的奖励：

式中，

为第i次迭代选择摇臂a_q的奖励。

进一步地，所述对选择的所述摇臂的参数进行初始化，并根据所述奖励和所述摇臂的选择次数，得到选择所述摇臂的平均奖励的步骤包括：对所述摇臂的选择次数、选择所述摇臂的奖励以及所述多臂机模型的探索因子进行初始化，并采用如下公式计算所述摇臂的选择次数：

式中，

为第i次迭代时摇臂a_q的选择次数，x_q(i)为第i次迭代摇臂a_q的选择变量；

采用如下公式计算所述平均奖励：

式中，

为第i次迭代选择摇臂a_q的平均奖励，

为第i次迭代选择摇臂a_q的奖励。

进一步地，采用如下公式计算所述最优摇臂：

式中，a_q*为最优摇臂，A为可选择的所有摇臂的集合，

为随机数，且

ε为探索因子，P(a_q)为摇臂a_q被选中的概率，T为 softmax函数中的温度参数，Q为三种业务路由选择的组合方式总数， Q＝M³，M为路由总数。

第二方面，本发明提供了一种面向多业务需求保障的路由选择装置，所述装置包括：

路由获取模块，用于根据接收到的若干个业务请求，得到所述业务请求对应的目标馈线终端设备，并计算与所述目标馈线终端设备之间存在的若干条路由；

业务模型构建模块，用于根据所述业务请求的类型和所述路由，分别建立授时误差模型、短报文通信时延模型和定位误差模型，所述业务请求的类型包括授时、短报文通信和定位；

路由选择模型构建模块，用于根据所述授时误差模型、所述短报文通信时延模型和所述定位误差模型，建立路由选择模型；

最优路由选择模块，用于通过改进的epsilon-greedy算法对所述路由选择模型进行计算，得到所述业务请求对应的最优路由；

其中，采用如下公式计算所述路由选择模型：

Request_i(SA,TN,U^TS(i),U^SMC(i),U^P(i),TSE_max,D_max,PE_max)

式中，SA表示业务请求的发送方，TN表示业务请求的接收方即目标馈线终端设备，U^TS(i),U^SMC(i),U^P(i)分别为第i次迭代授时数据包 TS的大小、短报文通信数据包SMC的大小和定位数据包P的大小, TSE_max为TN最大可以承受的授时误差，D_max为TN最大可以承受的短报文通信时延，PE_max为目标FTU最大可以承受的定位误差。

进一步地，所述业务模型构建模块包括：

处理器模块，用于根据所述业务请求的类型，得到授时数据包大小、短报文通信数据包大小、定位数据包大小、链路传输授时数据速率、短报文通信数据速率和定位数据速率；

授时模块，用于根据所述授时数据包大小和所述链路传输授时数据速率，得到授时数据包时延，并根据授时数据包的误差，得到授时误差模型；

短报文通信模块，用于根据所述短报文通信数据包大小和所述短报文通信数据速率，得到短报文通信时延模型；

定位模块，用于根据所述定位数据包大小和所述定位数据速率，得到定位数据包时延，并根据所述定位数据包的信干燥比，得到定位误差模型。

上述发明提供了一种面向多业务需求保障的路由选择方法及装置。通过所述方法，将授时、定位和短报文通信等多种功能进行高度集成和统一规范，解决了数据通信协议不匹配的问题，并且在多业务并发的基础上提供了灵活的路由规划，从而提升了业务数据流之间的平衡，保障了多业务需求，提高了电网系统的整体覆盖率和工作效率。

附图说明

图1是本发明实施例提供了面向多业务需求保障的路由选择方法的流程示意图；

图2是图1中步骤S20的流程示意图；

图3是图1中步骤S40的流程示意图；

图4是图3中步骤S402的流程示意图；

图5是本发明实施例提供了面向多业务需求保障的路由选择装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提出的一种面向多业务需求保障的路由选择方法，包括步骤S10～S40：

步骤S10，根据接收到的若干个业务请求，得到所述业务请求对应的目标馈线终端设备，并计算与所述目标馈线终端设备之间存在的若干条路由。

现有的BD3系统需要面对多业务数据流的并发状况，因此需要统一调度各业务对路由的优劣进行全局判断，但由于目前系统的业务功能没有高度集成而全局判断不足导致某些路由出现数据流堵塞的情况，为此，本发明将多种业务进行了集成，可以对并发的多种业务请求进行统一处理，在接收到多个业务请求后，先获取业务请求对应的目标馈线终端设备FTU，准备将不同的业务请求并发到目标FTU，然后判断与目标FTU之间存在的所有路由都有哪些，为下一步的路由选择做准备。

步骤S20，根据所述业务请求的类型和所述路由，分别建立授时误差模型、短报文通信时延模型和定位误差模型，所述业务请求的类型包括授时、短报文通信和定位。

在做路由选择之前，需要根据不同的业务请求类型来获取不同的数据包的相关参数，具体步骤如图2所示：

步骤S201，根据所述业务请求的类型，得到授时数据包大小、短报文通信数据包大小、定位数据包大小、链路传输授时数据速率、短报文通信数据速率和定位数据速率。

本实施例针对三种类型的业务请求进行并发处理，包括授时、短报文通信和定位三种，并根据不同的业务类型来分别计算对应的数据包的大小，即授时数据包大小、短报文通信数据包大小和定位数据包大小，并根据不同类型的数据包来计算其数据的传输速率。

为此，首先定义三个二值变量

分别为授时数据包、短报文通信数据包、定位数据包路由选择变量。

表示 SA在第i次迭代过程中选择路由r_m传输授时数据包，否则

另两种业务也是如此。根据香农公式，链路传输授时数据、短报文通信数据、定位数据的速率分别为：

式中，

分别为第i次迭代授时数据、短报文通信数据、定位数据传输时所占带宽，

分别为授时、短报文通信和定位三种业务传输功率，h_m1(i),h_m2(i),h_m3(i)分别为路由r_m1,r_m2,r_m3的增益，可以根据信号状况设置不同的增益值，m1,m2,m3∈{1,...,M}且三者可以相等，M为与目标馈线终端设备之间的所有路由数量，S_f1为除了授时业务以外的其他两种业务种类集合，S_f2为除了短报文通信业务以外的其他两种业务种类集合，S_f3为除了定位业务以外的其他两种业务种类集合，σ为高斯白噪声。

并将U_TS(i),U_SMC(i),U_P(i)分别定义为第i次迭代授时数据包大小，短报文通信数据包大小和定位数据包大小，然后进行后续的计算。

步骤S202，根据所述授时数据包大小和所述链路传输授时数据速率，得到授时数据包时延，并根据授时数据包的误差，得到授时误差模型。

在传输中，第i次迭代时目标FTU接收授时数据包的时延可以表示为：

而目标FTU接收授时数据包的误差为O^TS(i)，服从均值为α，方差为β²的正态分布，即O^TS(i)～N(α,β²)，则授时误差可以表示为：

步骤S203，根据所述短报文通信数据包大小和所述短报文通信数据速率，得到短报文通信时延模型。

在传输中，第i次迭代时目标FTU接收短报文通信数据包的时延则可以表示为：

步骤S204，根据所述定位数据包大小和所述定位数据速率，得到定位数据包时延，并根据所述定位数据包的信干燥比，得到定位误差模型。

在传输中，第i次迭代时目标FTU接收定位数据包的时延可以表示为：

而信干噪比为：

那么定位误差则可以表示为：

步骤S30，根据所述授时误差模型、所述短报文通信时延模型和所述定位误差模型，建立路由选择模型。

在得到上述三种业务模型之后，就可以以此来构建路由选择模型，假定与目标FTU之间有M条路由，其集合表示为R＝{r₁,…r₂,…,r_M}，在路由选择过程中，一共考虑I次迭代，其集合表示为I＝{1,…i,…I}，根据三种业务请求进行路由建模，可以得到：

Request_i(SA,TN,U^TS(i),U^SMC(i),U^P(i),TSE_max,D_max,PE_max)

式中，SA表示业务请求的发送方，TN表示业务请求的接收方即目标馈线终端设备FTU，U^TS(i),U^SMC(i),U^P(i)分别为第i次迭代授时数据包TS的大小、短报文通信数据包SMC的大小和定位数据包P的大小,TSE_max为TN最大可以承受的授时误差，D_max为TN大可以承受的短报文通信时延，PE_max为TN最大可以承受的定位误差。

步骤S40，通过改进的epsilon-greedy算法对所述路由选择模型进行计算，得到所述业务请求对应的最优路由。

在得到路由选择模型之后，需要对该模型进行优化以得到最优的全局路径，为此，我们使用了开销函数，本实施例中的开销函数为TS+D+PE，而优化的目标则为通过优化路由选择决策以最小化开销函数，根据业务数据流的并发情况和路由选择模型，本实施例的优化问题需要满足一些约束条件，包括：

(1)路由选择约束，即每次迭代每种业务只能选择一条路由进行数据传输。

(2)最大授时误差约束，即选择的路由造成的授时误差需小于待授时FTU的最大忍受误差，以保障授时的精确度。

(3)最大短报文通信时延约束，即选择的路由造成的时延需小于目标FTU的最大忍受时延，以保障信息的实时性。

(4)最大定位误差约束，即选择的路由造成的定位误差需小于待定位FTU的最大忍受误差，以保障定位的精确度。

为了满足上述的约束条件，可以将路由选择模型转化为多臂机问题MAB，而MAB问题的主要元素包括决策者、摇臂以及奖励，因此，在本发明实施例中，将SA定义为决策者，并定义A＝{a₀,…a₁,…,a_Q}为摇臂集合，其中Q为三种业务路由选择的组合方式总数，由路由总数 M来决定，比如M为3时

也就是说Q 可以表示为M³，摇臂a_q则表示其中一种路由选择方法。

同时，将第i次迭代时选择摇臂a_q的奖励定义为开销函数的倒数，即：

而当结果不满足优化问题约束时，奖励就为零。

也就是说步骤S40就可以转化为如图3所示的两个步骤：

步骤S401，获取所述路由选择模型的开销函数，并根据所述开销函数将所述路由选择模型转化为多臂机模型；

步骤S402，使用基于softmax函数改进的epsilon-greedy算法对所述多臂机模型进行计算，得到所述业务请求对应的最优路由。

目前用于解决MAB问题的常用算法为传统epsilon-greedy算法，但是该算法的缺陷在于在探索时采用完全随机的策略，而导致很可能会选择一个奖励很低的摇臂，为了解决这个问题，本发明采用了基于 softmax函数改进epsilon-greedy算法来解决MAB问题。具体步骤如图 4所示：

步骤S4021，根据所述开销函数，得到选择摇臂的奖励；

步骤S4022，对选择的所述摇臂的参数进行初始化，并根据所述奖励和所述摇臂的选择次数，得到选择所述摇臂的平均奖励；

步骤S4023，根据所述平均奖励，使用softmax函数得到所述多臂机模型的最优摇臂，并根据预设的迭代次数，对所述最优摇臂进行迭代计算，将收敛的所述最优摇臂作为最优路由。

首先，对需要使用到的参数进行初始化，即：

ε＝0.1，其中，

表示选择摇臂a_q的次数，ε为探索因子，在i≤Q时，我们依次选择每个摇臂并获得初始值。

根据模型的开销函数，可以得到每个摇臂的选择次数为：

进一步地，选择每个摇臂的平均奖励可以表示为：

式中，

为第i次迭代时摇臂a_q的选择次数，x_q(i)为第i次迭代摇臂a_q的选择变量，

为第i次迭代选择摇臂a_q的平均奖励，

为第i次迭代选择摇臂a_q的奖励，其中，若x_q(i)＝1，则在第i次迭代时选择摇臂a_q，反之x_q(i)＝0。

其次，生成随机数

然后基于softmax函数可以得到最优摇臂的表达式为：

式中，P(a_q)为摇臂a_q被选中的概率，T为softmax函数中的温度参数，温度高则倾向于随机选择各摇臂，而温度低则倾向于选择平均收益最高的摇臂，对于随机数

和ε，ε越大

比它小的概率就越大，整体就偏向于探索，反之则更偏向于利用，假设迭代次数为I，那么在i ≤I时，对上述的最优摇臂进行迭代，当算法收敛时所选择的a_q*就是最合理的全局最优解，也就是业务请求所要发送的路由中选择的最优路由。

本实施例提供的一种面向多业务需求保障的路由选择方法，相比传统方法由于缺少统一的调度各业务对路由的优劣缺少全局判断而导致路由容易出现数据流堵塞，无法满足多业务需求保障的问题，本发明能够在保障多业务的差异化需求的同时，还提供了灵活的路由规划，提升了业务数据流之间的平衡，提高了电网系统的工作效率。

请参阅图5，基于同一发明构思，本发明第二实施例提出的一种面向多业务需求保障的路由选择装置，包括：

路由获取模块10，用于根据接收到的若干个业务请求，得到所述业务请求对应的目标馈线终端设备，并计算与所述目标馈线终端设备之间存在的若干条路由；

业务模型构建模块20，用于根据所述业务请求的类型和所述路由，分别建立授时误差模型、短报文通信时延模型和定位误差模型，所述业务请求的类型包括授时、短报文通信和定位；

路由选择模型构建模块30，用于根据所述授时误差模型、所述短报文通信时延模型和所述定位误差模型，建立路由选择模型；

最优路由选择模块40，用于通过改进的epsilon-greedy算法对所述路由选择模型进行计算，得到所述业务请求对应的最优路由；

其中，采用如下公式计算所述路由选择模型：

Request_i(SA,TN,U^TS(i),U^SMC(i),U^P(i),TSE_max,D_max,PE_max)

进一步地，所述业务模型构建模块20包括：

处理器模块201，用于根据所述业务请求的类型，得到授时数据包大小、短报文通信数据包大小、定位数据包大小、链路传输授时数据速率、短报文通信数据速率和定位数据速率；

授时模块202，用于根据所述授时数据包大小和所述链路传输授时数据速率，得到授时数据包时延，并根据授时数据包的误差，得到授时误差模型；

短报文通信模块203，用于根据所述短报文通信数据包大小和所述短报文通信数据速率，得到短报文通信时延模型；

定位模块204，用于根据所述定位数据包大小和所述定位数据速率，得到定位数据包时延，并根据所述定位数据包的信干燥比，得到定位误差模型。

另一方面，本发明的面向多业务需求保障的路由选择装置还包括了电源模块205，其中电源模块205与授时模块202、短报文通信模块 203、定位模块204和处理器模块201相连接负责为装置内部提供持续稳定的供电，处理器模块201分别为授时模块202、短报文通信模/203 和定位模块204提供业务所需的算力以及平衡业务之间的流量以保障多业务需求。

本发明实施例提出的面向多业务需求保障的路由选择装置的技术特征和技术效果与本发明实施例提出的方法相同，在此不予赘述。上述面向多业务需求保障的路由选择装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

综上，本发明实施例提出的一种面向多业务需求保障的路由选择方法及装置，所述方法包括根据接收到的若干个业务请求，得到所述业务请求对应的目标馈线终端设备，并计算与所述目标馈线终端设备之间存在的若干条路由；根据所述业务请求的类型和所述路由，分别建立授时误差模型、短报文通信时延模型和定位误差模型，所述业务请求的类型包括授时、短报文通信和定位；根据所述授时误差模型、所述短报文通信时延模型和所述定位误差模型，建立路由选择模型；通过改进的epsilon-greedy算法对所述路由选择模型进行计算，得到所述业务请求对应的最优路由。本发明将多业务模块进行集成，对多业务数据流的并发进行统一的调度，对路由的优劣进行全局判断，从而在满足多业务需求保障的同时，提高了信息传输的效率，进一步提高了电网系统整体的工作效率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种面向多业务需求保障的路由选择方法，其特征在于，包括：

其中，采用如下公式计算所述路由选择模型：

Request_i(SA,TN,U^TS(i),U^SMC(i),U^P(i),TSE_max,D_max,PE_max)

式中，SA表示业务请求的发送方，TN表示业务请求的接收方即目标馈线终端设备，U^TS(i),U^SMC(i),U^P(i)分别为第i次迭代授时数据包TS的大小、短报文通信数据包SMC的大小和定位数据包P的大小,TSE_max为TN最大可以承受的授时误差，D_max为TN最大可以承受的短报文通信时延，PE_max为TN最大可以承受的定位误差。

2.根据权利要求1所述的面向多业务需求保障的路由选择方法，其特征在于，所述根据所述业务请求的类型和所述路由，分别建立授时误差模型、短报文通信时延模型和定位误差模型的步骤包括：

3.根据权利要求2所述的面向多业务需求保障的路由选择方法，其特征在于，采用如下公式计算所述链路传输授时数据速率、所述短报文通信数据速率和所述定位数据速率：

式中，

采用如下公式计算所述授时误差模型：

式中，TSE为授时误差，

采用如下公式计算所述短报文通信时延模型：

为短报文通信数据速率，

为短报文通信数据包的路由选择变量；

采用如下公式计算所述定位误差模型：

式中，PE为定位误差，

为TN接收来自SA的定位数据包的时延，γ^P为信干燥比，

为定位数据包的路由选择变量。

4.根据权利要求1所述的面向多业务需求保障的路由选择方法，其特征在于，所述通过改进的epsilon-greedy算法对所述路由选择模型进行计算，得到所述业务请求对应的最优路由的步骤包括：

5.根据权利要求4所述的面向多业务需求保障的路由选择方法，其特征在于，所述使用基于softmax函数改进的epsilon-greedy算法对所述多臂机模型进行计算，得到所述业务请求对应的最优路由的步骤包括：

根据所述开销函数，得到选择摇臂的奖励；

6.根据权利要求5所述的面向多业务需求保障的路由选择方法，其特征在于，采用如下公式计算所述开销函数：

F＝TSE+D+PE

采用如下公式计算所述选择摇臂的奖励：

式中，

为第i次迭代选择摇臂a_q的奖励。

7.根据权利要求6所述的面向多业务需求保障的路由选择方法，其特征在于，所述对选择的所述摇臂的参数进行初始化，并根据所述奖励和所述摇臂的选择次数，得到选择所述摇臂的平均奖励的步骤包括：对所述摇臂的选择次数、选择所述摇臂的奖励以及所述多臂机模型的探索因子进行初始化，并采用如下公式计算所述摇臂的选择次数：