CN113055489B

CN113055489B - 基于q学习的星地融合网络资源分配策略的实现方法

Info

Publication number: CN113055489B
Application number: CN202110308216.4A
Authority: CN
Inventors: 李汉阳; 刘更; 林秀春; 窦木辉
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-09-06
Anticipated expiration: 2041-03-23
Also published as: CN113055489A

Abstract

本发明涉及一种基于Q学习的星地融合网络资源分配策略的实现方法，属于天地一体化星地融合网络技术领域。本发明针对星地融合网络中的资源分配进行深入研究，提出了一种卫星和地面网络融合的资源分配策略，时刻以最大化收益为目标设计资源分配模型，并提出一种基于Q学习算法的星地融合网络资源分配策略，该策略以各回程网络的当前状态以及传输业务的特点为判决因素，不断学习训练出最佳决策集，执行最佳的资源分配策略，从而自适应缓解核心网回程链路压力，提高用户体验，保证了系统的实时性和可靠性。

Description

基于Q学习的星地融合网络资源分配策略的实现方法

技术领域

本发明属于天地一体化星地融合网络技术领域，具体涉及一种基于Q学习的星地融合网络资源分配策略的实现方法。

背景技术

随着移动互联网技术的飞速发展，用户的数据业务类型愈来愈多，由互联网产生的业务数据流量正在呈指数级增长，业务对终端处理器的计算能力和存储能力都提出了更高的要求以满足用户需求。针对卫星网络和地面通信网络的覆盖和传输能力与需求的失配性问题，以及星地融合网络业务服务的孤立性问题，星地融合网络的资源分配问题值得深度挖掘。无线自组网络在部署了资源节点后能够处理和存储海量数据，并能够将运算处理后的数据结果反馈至控制中心，不仅减少了中心节点的负载，还大大增加了数据的计算处理效率，实现海量设备之间的交互、管控和业务共享等功能，从而迎合了未来移动通信的趋势和应用要求。与传统的自组网网络架构不同的是，将星地融合网络与多级资源节点结合后，能够将多个资源节点进行分布式管控，同时利用卫星通信广播特性，实现多级资源节点的业务分配、多回程链路切换决策的制定、用户行为模型分析等功能，为星地融合网络中无线资源管理的研究奠定了坚实的理论基础。

由于不同种类的业务具有不同的特性，在交付过程中对传输链路的要求也不同。当用户对业务进行请求时，各个资源节点能够利用当前回程网络的信息状态和业务资源类型，对无线业务资源进行合理分配，最大程度上保证资源分配在相对合适的资源节点中，从而能够进一步提升星地融合网络的稳定性和可靠性。

随着5G通信、物联网、车联网以及各种新型应用的发展，用户的概念已经从传统狭义的“客户”角度扩展到广义的节点用户概念，网络的发展和业务的出现使得网络中用户行为特征呈现规律复杂、尺度多变的特征。无线网络业务承载中，计算、存储和通信所组成的多网络资源共同服务于用户的业务承载。现目前的自组网网络资源利用较为孤立，且各资源之间相互约束、相互抑制、相互关联，导致业务承载质量下降。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种星地融合网络资源分配策略实现方法，对用户请求的业务进行有效地控制判决。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于Q学习的星地融合网络资源分配策略的实现方法，该方法中，从每个决策判决开始到判决完成视为一个周期，用户在每个判决周期过程中按以下步骤进行资源分配：

步骤1、采集当前各级回程链路状态和用户请求业务状态信息s_t；在开始判决前，收集组成环境状态的多个参数形成状态集，影响状态集的参数包括当前回程网络的时延、丢包率、链路负载因素，以及用户请求的业务类型和业务复杂度，将状态集输入形成环境反馈，以此来确定资源业务将要被预取到的资源节点；

步骤2、通过环境反馈做出收益判决；基于状态信息s_t，根据业务QoS需求和QCI类型以及回报函数中每项因素的权重，做出回报最大的动作，即在Q表中查找当前Q值最大的动作项，以使用户在当前状态s_t下执行动作a_t时获得最大Q值maxQ(s_t,a_t)；

步骤3、强化信号并更新Q表；依据步骤2得到的收益，通过Q值函数对Q表进行更新，并将结果输入到训练队列进行循环迭代，为下一周期的判决做准备。每个判决周期的判决结果都是其下一个周期的状态输入，以此形成闭环直到得到最佳决策集为止。

优选地，基于所述的方法实现的资源分配系统模型建模方法，包括以下步骤：

步骤11、业务对时延和丢包的敏感度的设置：将各条回程链路的时延和丢包率预设成各个数值大小不同的档位，每次训练之前都通过函数随机选取一档数值，作为当前回程链路环境状态的指标参数；

步骤12、回程链路负载和带宽的设置：链路的负载和带宽采用以下两种方法之一进行建模，一是通过修改Amarisoft平台中的带宽的配置.asn文件进行修改；二是利用wondersharper软件进行网卡限流；

步骤13、业务优先级和复杂度设置：业务类型的判别是利用不同业务原始名的后缀，通过在源站部署的不同种类的业务，在核心网处得到预取资源业务的原始名，利用函数取其后缀名进行正则匹配，从而判断出每次预取的业务类型；

步骤14、动作集的设定：声明一个新的空间集，“ter”为地面级资源节点，“sat”为卫星级资源节点，根据当前所处的状态和Q值的大小选择回报最大的动作；

步骤15、选择判决的执行过程：关于业务资源分配的实现，设计采用SpringMVC框架和VSFTPD服务器进行对接，利用SpringMVC框架中的文件上传功能，将目标资源上传到VSFTPD服务器指定的文件夹下面，在资源节点中部署VSFTPD服务器后，将其IP、端口号、用户名和密码这些参数通过FTPClient与核心网处的源站服务器进行对接，同时采用UUID生成随机ID作为上传资源的资源名称，并且在完成上传后删除该目标资源。

优选地，步骤12中，通过修改Amarisoft平台中的带宽的配置.asn文件进行修改时，手动设置成5M、10M和20M这几种大小的带宽。

优选地，步骤12中，只要是基于Linux的操作系统则采用利用wondersharper软件进行网卡限流的方法。

优选地，步骤13中，设置优先级时，不同业务类型的优先级设置为不同，.mp4、.jpg、.txt这些类型资源归属于不同的优先级。

优选地，步骤13中，设置优先级时，通过业务类型间接反映出该业务的优先级信息。

本发明还提供了一种利用所述方法建模得到的资源分配系统。

本发明还提供了一种所述的方法在天地一体化星地融合网络技术领域中的应用。

本发明还提供了一种所述方法在天地一体化星地融合网络技术领域中的应用。

本发明还提供了一种所述的系统在天地一体化星地融合网络技术领域中的应用。

(三)有益效果

本发明针对星地融合网络中的资源分配进行深入研究，提出了一种卫星和地面网络融合的资源分配策略，时刻以最大化收益为目标设计资源分配模型，并提出一种基于Q学习算法的星地融合网络资源分配策略，该策略以各回程网络的当前状态以及传输业务的特点为判决因素，不断学习训练出最佳决策集，执行最佳的资源分配策略，从而自适应缓解核心网回程链路压力，提高用户体验，保证了系统的实时性和可靠性。

附图说明

图1为本发明的研究场景架构示意图；

图2为强化学习基本模型；

图3为Q学习算法的执行过程；

图4为多级节点的协作资源分配算法流程图；

图5为协作资源分配系统前后端交互图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明设计了一种基于Q学习(Q-learning)的星地融合网络资源分配策略实现方法，对用户请求的业务进行有效地控制判决。首先分别获取各个回程网络当前的状态及用户所请求业务类型的特点，采集系统状态集并制定动作集，接着根据多种属性和参数设计收益函数，以用户的长期收益为优化目标，利用Q学习算法做出资源分配策略，使资源分配决策更加准确，从而自适应缓解回程网络的压力，在降低服务时延的同时提高业务下载速率。

本发明设计的一种适用于天地一体化星地融合网络的资源分配策略实现方法，用于实现星地融合网络资源分配，旨在提供一个可以随时随地支持泛在接入的网络，并且验证一种结合地面网络资源与卫星网络资源的融合架构。在本设计中，地面接入网和卫星通信网分别由独立的服务器组成，为便于实验测试验证，不同轨道的卫星统一集中体现在卫星服务器上，通过卫星通信信道的仿真参数间接模拟出卫星通信的特点。本方法通过以下几个部分实现：

地面级资源节点：地面级资源节点是传统无线自组网架构中的各资源节点，由服务器实现，除了具备存储和计算能力外，还具备用户业务请求重定向以及回程网络状态信息的采集及感知的能力，能够通过信息交互和缓存信息实现多级资源节点的协作功能。

卫星级资源节点：卫星级资源节点也可以看作为整个系统的中心控制节点，由服务器实现，该节点除了具有地面资源节点的基本功能之外，还需具备业务资源对接和多级资源节点的协作控制功能，以及执行资源分配决策的能力。

为地面级资源节点、卫星级资源节点分配的资源业务：本发明选用多种不同类型的资源业务，如高清视频、图文信息及语音业务等，从而更能体现出不同层级的资源节点间各司其职的特点。业务的复杂度、业务优先级以及对时延和丢包的敏感度等指标都要进行预设置，尽可能地使各级资源节点尽其所能。

表1地面级资源节点的配置

表2卫星级资源节点的配置

定义该系统的用户集合C＝{c₁,…,c_i,…,c_n}，其中n代表用户的总数量。假设系统中的资源节点总个数为k个，定义资源节点总的集合表示为E＝{e₁，…,e_i,…,e_k}。，由于资源节点的类型有两种，不妨假设有E_t个地面级资源节点，其集合可以定义为

有E_s个卫星级资源节点，其集合可以定义为

其数量关系如下:

k＝E_t+E_s (1)

地面级资源节点的资源业务的容量大小为r_t与，卫星级资源节点的资源业务的容量大小r_s。，为了便于实验测试，假设每一个资源业务内容文件的大小均定义为ρ，整个系统中所有的资源业务集合为A＝{a₁,…,a_m,…,a_M}，其中M为资源业务的总个数。

为了使本发明的测试实验具有参考价值，应满足以下要求：

1)对于在传输时延较为敏感的业务时，地面级资源节点拥有比卫星级资源节点更高的资源分配优先级，因为地面链路相对于卫星链路更加靠近用户侧，同时，在正常通信状态下地面链路相应的服务时延也更低；

2)在为各个资源节点分配资源时，应优先考虑的是用户与节点间的位置距离，因为此时的服务等待时延主要取决于资源节点的地理位置；

为了便于后期的建模，针对每一级资源节点e_i，定义待分配的资源业务a_m的分配情况为：

θ_im∈{0,1} (2)

在(2)式中，当θ_im值为0时表示资源业务a_m未被分配在资源节点e_i上，当θ_im值为1表示资源业务a_m已经被分配在资源节点e_i中，假设每个资源业务在系统中是唯一存在的，这样不仅能够便于后期的建模，还能减少缓存空间利用不充分而带来的资源浪费，可以表示成如下：

除此之外，为了保证系统建模的真实性和有效性，对于任意资源节点e_i，其分配的业务容量原则上不能大于其硬件结构上的容量限制R_i，μ为调节因子，所以该约束条件可以表示成：

系统的状态集用S表示，状态包括当前服务的资源节点和其所在回程链路的实时状态(如当前回程链路的时延、丢包率等)，对应的回程网络编号ID和用户当前请求的业务大小及优先级。为了方便算法的部署，不妨将数值连续地参数离散化，如业务对时延的敏感度和业务对链路的负载可以分别表示为delay_i∈{1,2,3,4,5}，load_i∈{1,2,3,4}；同样，业务的复杂度和优先级也可以按照大小划分为不同的档位：业务复杂度size_i∈{1,2,3,4}，业务优先级priority_i∈{1,2,3}。因此，整个系统的状态集可以表示为S∈{{delay₁,load₁,size₁,priority₁}，…，{delay₅,load₄,size₄,priority₃}}。

图2为强化学习的基本模型，该模型对应本发明的系统，模型中的智能体对应本发明中待分配的资源业务，智能体可选择的动作由a表示，其动作空间可以表示为A_i＝{a|a∈{1,2}}，有卫星和地面两级资源节点可以进行资源的预分配，其中地面级资源节点的ID标号为1，卫星级资源节点的ID标号为2。基于当前状态s_t∈S，核心网处的源站服务器能够选择并执行动作a_t∈A，从而将资源业务进行预分配。智能体在每次动作执行完成后都能获得一个回报，其值可以表示为r_t，当对应状态s的决策集α(s)∈A如此反复迭代多次后，各级资源节点最终可以得到一个最佳决策集α^*(s)∈A，且系统的总期望折扣回报可表示为：

其中E表示期望运算符，γ_t代表t时刻当前的折扣因子，其取值范围为γ_t∈[0,1)，当γ_t为0时表示立即回报，当γ_t趋于1时表示将来回报，γ_t的数值大小反映了当前回报对将来回报的决定性程度，r(s_t,a_t)表示s_t状态下选择相应动作a_t对应的收益函数，s₀表示初始阶段的状态。基于最优决策集α^*(s)∈A，可以将以上问题化为求解Bellman方程最优解的问题，可以表示如下：

Φ^*(s)＝max_a∈A[γ_t∑P_s,s′(a)Φ^*(s′)+r(s,a)],s′∈S

(6)

其中，折扣因子γ_t取值范围为[0,1)，P_s,s′(a)为智能体执行动作a后由状态s转换到下一状态s′的状态转移概率。如果求解公式(6)，则需要同时获取r(s,a)和P_s,s′(a)的值，但P_s,s′(a)的取值在实际操作应用中不易获取，因为其值大小与当前的回程网络的环境和传输业务有关。由于本发明采用Q学习算法，在更新Q值函数时不需要获取P_s,s′(a)的值，只需要得到上一时刻的Q值大小和执行动作，以及折扣因子等。结合公式(6)，系统的Q值函数在最优决策集下可以表示为：

Q^*(s，a)＝γ_t∑P_s,s′(a)Φ^*(s′)+r(s，a)，s′∈S (7)

其中，Φ^*(s′)＝max_a∈A[Q^*(s,a)]，s′∈S，即Q(s，a)根据每次智能体执行的动作和环境反馈更新Q值函数，最终可以得到Q值的更新公式如(7)所示。

定义收益函数为如下所示：

R_sum＝R_delay+R_load+R_handoff (8)

其中，R_delay表示业务请求的时延带来的回报。时延是影响用户体验的关键因素，在保证业务交付质量的情况下，还要尽量选择时延影响较小的方案，因此R_delay的设计尤为重要。不妨定义一个时延阈值delay_t，该阈值是根据核心网的源站服务器预分配的业务在传统资源分配方案情况下得到的加权时延平均值。假设当请求和交付时延delay_i在大于某一阈值delay_t的情况下会对QoS造成影响，也就是会得到较小的回报reward；而当delay_i小于阈值delay_t时，视为时延对QoS不造成任何影响，即回报reward为0。综上，R_delay的表达式如公式(9)所示：

R_liad表示回传链路当前负载情况带来的回报，主要是考虑到某一级资源节点被分配的业务过多，会对回传网络造成较大的负载，随着负载越大，给用户体验带来的消极影响也越大。R_load的表达式如公式(10)所示，其中bw表示为该链路的初始带宽，bw_i表示用户在请求业务i时所需要占用的带宽：

R_handoff表示用户请求业务过程中由于切换回传链路所带来的开销代价，用Ψ_i表示在请求业务i时的切换开销函数。由于回程链路切换带来的一定是消极结果，所以收益函数为负值，还需要在切换开销函数Ψ_i前乘以调整参数-μ，所以网络开销函数的表达式如公式(11)所示：

R_handoff＝-μΨ_i

(11)

综上所述，在用户请求业务的各个时刻，该资源分配系统的收益函数都可以定量的表示，从而便于后期的功能测试。收益函数中系数β、δ、μ皆为效用函数相关属性的权重，用来调整相应reward的加权，其大小的设定依据取决于影响用户QoS指标重要性的加权因子。

图4为基于Q学习的协作资源分配算法流程图，从每个决策判决开始到判决完成视为一个周期，用户在每个判决周期过程中主要按以下流程进行：

1)采集当前各级回程链路状态和用户请求业务信息s_t。在开始判决前，智能体收集组成环境状态的多个参数形成状态集，影响状态集的参数有多种，如当前回程网络的时延、丢包率、链路负载等因素，以及用户请求的业务类型和业务复杂度等，将状态集输入到系统中形成环境反馈，以此来确定业务资源将要被预取到的资源节点；

2)通过环境反馈做出收益判决。基于上一步骤中的状态s_t，根据业务QoS需求和QCI类型以及回报函数中每项因素的权重，做出回报最大的动作，即在Q表中查找当前Q值最大的动作项，以使用户在当前状态s_t下执行动作a_t时获得最大Q值maxQ(s_t，a_t)。若当前智能体在探索阶段，则根据预先设定的概率随机选取一个资源节点进行资源分配即可；

强化信号并更新Q表。依据上一步骤系统得到的收益，通过Q值函数对Q表进行更新，并将结果输入到训练队列进行循环迭代，为下一周期的判决做准备。每个判决周期的判决结果都是其下一个周期的状态输入，以此形成闭环直到系统得到最佳决策集为止。

Q学习算法的实现一般分为离线训练和线上训练两种方式。离线训练算法在部署前需要大量的训练集来训练智能体，通过学习逐渐填充Q表，在算法部署后该Q表不会因为更新发生任何变化，智能体每次执行动作前都会查询Q表以选择最优的动作，这种方式的好处是简单方便，但是对于本系统模型，离线训练算法对无线网络状况或者用户请求的业务内容适应性较差，因其只依赖先前大量训练集训练得到的结果来执行动作。每次训练完成后都将相应的Q表存储在各资源节点中，智能体每次执行动作前都会根据状态s查询相对应的Q表，选择回报最大的动作a，选择完动作之后也就确定了相应的资源节点，此时用户在发起业务请求时，部署在核心网处的源站服务器会将用户请求的业务对接传送到该资源节点中，并将当前智能体的状态更新到s′，最后将最新的状态环境重新输入到算法模块中，循环更新Q表以进一步提高用户体验。

与离线训练算法不同，线上训练算法的特点是，智能体不仅仅依赖先前训练模型得到的训练结果，还可能会根据新的环境(新的训练数据)对原有的训练模型进行一些更新和矫正，能够使其在外界环境变化较大的情况下快速适应，可以根据用户不同的请求内容和当前链路环境得到不同的训练结果，所以线上训练算法能够很好地解决本系统中环境模型的不确定性，因此本发明的所用到的Q学习算法主要采用线上训练的方式来实现。但在初始化阶段需要适当进行少量的离线训练，尽量避免在训练结果收敛前出现偶然性。

本发明中的资源分配系统平台使用了两台Amarisoft设备，分别作为地面通信网的无线电台和地面核心网；地面级资源节点搭载英特尔至强W-2123CPU处理器，内置16GB的DDR4内存以及两块TITAN XP的GPU，卫星级资源节点中搭载英特尔酷睿i5CPU处理器，网线选用高速CAT5e类千兆网线，交换机采用两台TP-LINK千兆端口镜像交换机，以保证服务的正常运行。

为了能够更好地体现多级资源节点的协作优势，搭建了一套资源分配的服务端系统和可视化展示界面，包括服务端文件对接模块和后台数据业务交互框架。业务资源框架体现在各级资源节点中，在不同的资源节点搭建VSFTPD、BIND、Nginx及Tomcat的虚拟资源服务，并提供多种类型的业务资源，如4K高清视频、超高清图片、文字与语音业务等。对于每个资源节点，需要包含以下两种功能：

1)实时采集、统计、计算当前所在回传网络中的状态信息，包括回程链路时延、丢包率、链路负载和带宽等，从而完成协作资源分配的预操作；

2)将各级资源节点计算决策出的结果反馈至核心网的源站服务器中，从而负责接收源站服务器通过FTP协议所分配的各项业务资源，进行实现资源业务的FTP对接功能，完成资源分配。

根据上述基于Q学习的资源分配系统建模，服务端框架可使用后台服务轻量级框架，Tomcat作为整个系统的源站服务器，配合JDBC实现代码与数据库的交互，其中SpringMVC可以通过DispatcherServlet对后台业务的Model层、View层和Controller层进行解耦合，调用相应的HandlerMapping为前端浏览器提供HTML渲染。通过Mybatis能够将相关的业务数据持久化到MySQL数据库中，而Spring框架相当于SpringMVC和Mybatis的粘合剂，利用其IoC(控制反转)和AOP(切面编程)两大特性，能够将对象之间的依赖关系注入到Bean容器中，再通过切面编程实现业务代码块的解耦合，整个系统的前后端交互架构图如图5所示。

在本设计方案中通过大量的实验选取了合适的Q表大小和cost代价函数以保证训练的收敛速率。基于Q学习的星地融合网络资源分配的模型设计方案和步骤对应图4主要分为五个部分：业务对时延和丢包的敏感度设置、回程链路负载设置、业务优先级和复杂度设置、动作集的设定和选择判决过程。具体如下：

步骤1、业务对时延和丢包的敏感度的设置：如上所述，各条回程链路的时延和丢包率预设成各个数值大小不同的档位，每次训练之前都通过函数随机选取一档数值，做为当前回程链路环境状态的指标参数；

步骤2、回程链路负载和带宽的设置：链路的负载和带宽有两种方法进行建模，一是可以通过修改Amarisoft平台中的带宽的配置.asn文件进行修改，可以手动设置成5M、10M和20M这几种大小的带宽；二是可以利用wondersharper软件进行网卡限流，只要是基于Linux的操作系统都可以采用该方法，wondersharper软件不仅能够手动设置带宽的限制，还能输入变化的数值来实时执行相应的操作；

步骤3、业务优先级和复杂度设置：业务类型的判别可以利用不同业务原始名的后缀，通过在源站部署的不同种类的业务，在核心网处得到预取资源业务的原始名，利用函数取其后缀名进行正则匹配，从而可以判断出每次预取的业务类型。不同业务类型的优先级也不同，如.mp4、.jpg、.txt等类型资源归属于不同的优先级，也可以通过业务类型间接反映出该业务的优先级等信息；

步骤4、动作集的设定：动作集如上所述，声明一个新的空间集，“ter”为地面级资源节点，“sat”为卫星级资源节点，智能体会根据当前所处的状态和Q值的大小选择回报最大的动作，从而为后面将当前预取的业务资源分配至到相应的资源节点中服务；

步骤5、选择判决的执行过程：关于业务资源分配的实现，本发明设计采用SpringMVC框架和VSFTPD服务器进行对接，利用SpringMVC框架中的文件上传功能，将目标资源上传到VSFTPD服务器(地面级资源节点或卫星级资源节点)指定的文件夹下面，在资源节点中部署VSFTPD服务器后，将其IP、端口号、用户名和密码等参数通过FTPClient与核心网处的源站服务器进行对接，同时为了避免上传相同的资源发生资源冗余造成资源浪费，可采用UUID生成随机ID作为上传资源的资源名称来保证业务的唯一性，并且在完成上传后删除该目标资源。

在本发明中，由于系统环境模型不确定性的原因，采用线上训练的方式期望在经过较少次训练后能够在任何状态下做出最合适的动作，即能够使收益函数(rewardfunction)和代价函数(cost function)得到收敛。而线上训练的学习方式收敛速度主要取决于系统模型中的状态数量，数量越多其收敛速度越慢，因此需要设计合理的状态集数量和Q表大小来决定训练模型的收敛速率。

根据上述设计的收益函数，假设智能体初始状态为s₀，即在初始化阶段智能体无法获取当前回程网络状态等相关信息，环境状态的各档位大小默认设置为0，即s₀＝(0，0，0，0)。代价函数表示智能体在训练中由于选择某些动作受到的惩罚，在发明中可以量化为以下几个因素：与最佳决策集相比选取动作的差异、回程链路间切换造成切换代价、资源节点容量大小限制造成的业务资源内容缺失、业务资源内容分配至各资源节点过程中产生的质量损失。

本发明设计的星地融合网络资源分配系统，能够针对不同类型的业务和不同状态下的回程网络表现出更优异的性能体现，同时所提出的基于Q学习算法的资源分配策略，在该系统内对比其他的资源分配算法，在用户多业务请求的情况下能够带来更低的传输时延，进一步提升业务的传输速率，保证了系统资源传输的实时性和可靠性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于Q学习的星地融合网络资源分配策略的实现方法，其特征在于，该方法中，从每个决策判决开始到判决完成视为一个周期，用户在每个判决周期过程中按以下步骤进行资源分配：

步骤1、采集当前各级回程链路状态和用户请求业务状态信息s_t；在开始判决前，收集组成环境状态的多个参数形成状态集，影响状态集的参数包括当前回程网络的时延、丢包率、链路负载因素，以及用户请求的业务类型和业务复杂度，将状态集输入资源分配系统形成环境反馈，以此来确定资源业务将要被选取到的资源节点；

步骤2、通过环境反馈做出收益判决；基于状态信息s_t，根据业务QoS需求和QCI类型以及回报函数中每项因素的权重，做出回报最大的动作，即在Q表中查找当前Q值最大的动作项，以使用户在当前状态s_t下执行动作a_t时获得最大的Q值maxQ(s_t，a_t)，选择完动作之后也就确定了相应的资源节点，此时用户在发起业务请求时，部署在核心网处的源站服务器会将用户请求的业务对接传送到该资源节点中；

步骤3、强化信号并更新Q表；依据步骤2得到的收益，通过Q值函数对Q表进行更新，并将结果输入到训练队列进行循环迭代，为下一周期的判决做准备；每个判决周期的判决结果都是其下一个周期的状态输入，以此形成闭环直到得到最佳决策集为止。

2.一种基于权利要求1所述的方法实现的资源分配系统模型建立方法，其特征在于，包括以下步骤：

步骤12、回程链路负载和带宽的设置：链路的负载和带宽采用以下两种方法之一进行设置，一是通过修改Amarisoft平台中的带宽的配置.asn文件进行修改；二是利用wondersharper软件进行网卡限流；

步骤13、业务优先级和复杂度设置：业务类型的判别是利用不同业务原始名的后缀，通过在源站服务器部署的不同种类的业务，在核心网处得到预取资源业务的原始名，利用函数取其后缀名进行正则匹配，从而判断出每次预取的业务类型；

3.如权利要求2所述的方法，其特征在于，步骤12中，通过修改Amarisoft平台中的带宽的配置.asn文件进行修改时，手动设置成5M、10M和20M这几种大小的带宽。

4.如权利要求2所述的方法，其特征在于，步骤12中，只要是基于Linux的操作系统则采用利用wondersharper软件进行网卡限流的方法。

5.如权利要求2所述的方法，其特征在于，步骤13中，设置优先级时，不同业务类型的优先级设置为不同，.mp4、.jpg、.txt这些类型资源归属于不同的优先级。

6.如权利要求2所述的方法，其特征在于，步骤13中，设置优先级时，通过业务类型间接反映出该业务的优先级信息。