CN105391490A

CN105391490A - 一种基于认知的卫星通信网络选择算法

Info

Publication number: CN105391490A
Application number: CN201510683534.3A
Authority: CN
Inventors: 张邦宁; 刘爱军; 郭道省; 闫岩; 郭克峰; 童新海; 杨茂强; 史煜; 邹芹宇
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2015-10-20
Filing date: 2015-10-20
Publication date: 2016-03-09
Anticipated expiration: 2035-10-20
Also published as: CN105391490B

Abstract

本发明公开了一种基于认知的卫星通信网络选择算法，主用户使用传统的卫星通信网络接入技术建立通信链路，认知用户通过与外界环境的交互、学习和更新，在不对主用户产生有害干扰的同时，完成一种动态的卫星通信网络的选择。该算法克服了传统的静态网络选择技术完全依赖卫星通信网络状态和信息参数的缺点，使认知用户即使在缺少部分或者全部卫星通信网络状态和信息参数的环境下也能找到最优网络。基于认知的卫星通信网络选择算法能够使认知用户迅速确定当前环境下的最佳卫星通信网络，提高通信资源的利用效率。

Description

一种基于认知的卫星通信网络选择算法

技术领域

本发明属于卫星通信技术，具体涉及一种基于认知的卫星通信网络选择算法。

背景技术

在地面移动通信中，已经分配给用户的频谱资源经常处于空闲状态这种问题时常发生，卫星通信同样面临频谱利用率不均衡的现实情况。这种看上去无频谱资源可用而实则频谱资源充足的现象的症结在于，各个网系对频谱资源采取“独占”的授权分配政策。在授权用户没有利用授权频段时，其他用户也无权使用该频段，这一缺乏灵活性的政策造成了巨大浪费。因此，在卫星通信系统中引入认知的概念是非常重要而迫切的。利用认知技术，卫星网管中心对各个卫星通信网系的空间与频谱资源状况进行监测与分析，充分了解卫星通信频谱资源的实时变化，并依据认知结果，合理地为认知用户选择网络并组织分配卫星资源，从而为更多用户提供质量更高的卫星通信服务，提高整个卫星通信系统的组网效率和频谱资源利用率。

基于认知的卫星通信网络选择是指认知用户在多重卫星通信网络覆盖下，在开机初始寻找网络接入或者因为位置移动进行网络切换时，综合考虑用户业务信息、网络状态等，根据一定的算法策略，保证自身始终接入条件最优的网络。目前，常见的传统网络选择算法包含算数加权法、乘法加权法、逼近最优解序列偏好法、灰度关联分析法等。由于传统的网络选择技术是对已知参数的直接加权计算，因此不适用于用户在陌生环境或者先验信息不足时的网络选择。而基于认知的卫星通信网络选择算法通过认知用户与外界环境的交互、学习和更新，在不对主用户产生有害干扰的同时，完成一种动态的卫星通信网络的选择。近年来,研究学者针对强化学习提出了多种算法。张冬梅(DongmeiZhang),马华东(HuadongMa).“AQ-Learning-basedDecisionMakingSchemeforApplicationReconfigurationinSensorNetworks”(ComputerSupportedCooperativeWorkinDesign,2007.)一文对Q学习算法进行了相关研究与应用，Q学习是强化学习研究过程中的里程碑，Q学习可以从有延迟的回报中获取最优控制策略，从而选择能够达到目的的动作。Q学习对环境的先验知识要求较低，在大空间、复杂非线性系统中具有良好学习性能。李莉斯(Lilith,N),多冈西(Dogancay,K).“DistributedDynamicCallAdmissionControlandChannelAllocationUsingSARSA”(Communications,2005Asia-PacificConferenceon)一文对SARAS学习算法进行了相关研究与应用，SARAS学习是一种“在策略”算法，即值函数更新和选择动作的策略相同。SARAS学习与Q学习不同，Q学习是一种“离策略”算法，而且Q学习是基于后继状态的各假设动作的最大R值来更新R值，SARAS学习是利用学习策略所选择的实际动作a'来更新R值；Q学习依据修改后的R值确定动作，而SARAS学习依据当前R值确定下一状态时的动作。

发明内容

本发明的目的在于提供一种基于认知的卫星通信网络选择算法，认知用户通过与外界环境的交互、学习和更新，在不对主用户产生有害干扰的同时，完成一种动态的卫星通信网络的选择，实现单个认知用户在多重卫星通信网络覆盖并且卫星网管中心提供的各个卫星通信网络的状态和信息参数不足时仍然能够接入最佳网络。

实现本发明目的的技术解决方案为：一种基于认知的卫星通信网络选择算法，方法步骤如下：

步骤1、建立基于认知的卫星通信系统模型。

步骤2、在所述基于认知的卫星通信系统模型中，认知用户感知自身所处环境覆盖的卫星通信网络，若只有一个可用的卫星通信网络，则选择当前网络；若存在多重卫星通信网络，则认知用户通过卫星网管中心收集各个卫星通信网络的状态和信息参数，即先验信息，先验信息包括各个卫星通信网络的性能体验反馈、时延、速率、误码性能和网络负载，并转入步骤3。

步骤3、认知用户根据卫星网管中心提供的先验信息，使用合适的方法选择多重卫星通信网络覆盖下的最佳网络：

当先验信息完全时，认知用户根据自身的业务需求并且结合收集到的先验信息，直接进行网络选择；当缺少至少一项上述先验信息时，则认知用户利用强化学习技术获取各个卫星通信网络的反馈信息，从而进行网络选择，转入步骤4。

步骤4、所述认知用户利用强化学习技术获取各个卫星通信网络的反馈信息，从而进行网络选择，步骤如下：

步骤4-1、根据环境状态s，s∈S、认知用户执行的动作a，a∈A、状态-动作奖励值R(s,a)和状态转移概率函数P(s,a)，利用马尔可夫决策过程进行建模，并且以状态-动作奖励值R(s,a)作为衡量标准，其中A是动作选择集合，S是环境状态集合；

步骤4-2、初始化状态-动作奖励值R₁(s,a)，当认知用户无法获得任何先验信息时，令R₁(s,a)＝0；当认知用户已知部分先验信息时，不同的卫星通信网络对应不同的奖励值R₁(s,a)，其中，R_t(s,a)表示认知用户第t次访问该状态-动作对时的奖励值；

步骤4-3、认知用户在与多重卫星通信网络的交互过程中，获取环境状态s，根据当前环境状态s下的状态-动作奖励值R_t(s,a)，按照使R_t(s,a)最大的策略π选择动作a；

步骤4-4、认知用户执行动作a，得到性能体验反馈信号f(s,a)和下一时刻的环境状态s'，寻找环境状态s'下的状态-动作奖励值的最大值maxR_t(s',a')，并根据式(1)更新R_t(s,a)：

R_t+1(s,a)＝(1-λ_t)R_t(s,a)+λ_t(f_t+γm_aa_'xR_t(s',a'))(1)

其中，折扣因子γ体现未来反馈相对当前反馈的重要性，在t时刻的学习因子λ_t(s,a)的更新如式(2)所示，体现认知用户与环境的交互速率；

λ_{t} (s, a) = \frac{1}{1 + b * N_{t} (s, a)} - - - (2)

其中，N_t(s,a)表示在t时刻认知用户访问状态-动作对(s,a)的次数，b为衰减因子；

步骤4-5、判断认知用户是否找到当前环境下的最优网络，即认知用户的选择结果是否收敛，当认知用户接入最优网络时结束迭代循环；否则，返回步骤4-2。

所述步骤1中，基于认知的卫星通信系统模型包括卫星、主用户、认知用户和卫星网管中心，其中，一个卫星通信网络至少对应一颗卫星，卫星在通信网络内完成中继任务；主用户是每个卫星通信网络内的授权用户，不同卫星通信网络内的主用户相互之间没有影响，经过授权的主用户在通信时只需向各自卫星通信网络的卫星网管中心报备即可；认知用户是伺机利用空闲资源的未经授权的用户，在不影响主用户通信时，认知用户能够接入任何可用的卫星通信网络，进而建立卫星通信链路。

在基于认知的卫星通信链路中，主用户向卫星发出申请信号，卫星转发申请信号到卫星网管中心，由于主用户已经得到授权，则卫星网管中心接收到主用户的申请后分配相应的网络资源给主用户，认知用户通过与卫星和网管中心的交互获得反馈信息，从而根据收集到的信息接入最优的卫星通信网络。

本发明与现有技术相比，其显著优点在于：(1)与传统的网络选择技术相比，本发明将静态的选择过程改进为动态的学习过程，不但适用陌生环境而且在先验知识较少的特殊网络环境也具备较大的优势；(2)与同为机器学习的监督学习相比，强化学习产生的强化信号是对执行动作的优劣的一种评价而非直接指导，可以实现在线学习；(3)与同为机器学习的无监督学习相比，强化学习时刻与环境进行交互；(4)本发明根据认知用户在不同网络得到的服务质量不同实时调整服务的强化信号，使认知用户接入更加适合自己的网络，从而提高系统的资源利用效率，改善认知用户服务体验。

附图说明

图1为本发明的一种基于认知的卫星通信网络选择算法的流程图。

图2为本发明的一种基于认知的卫星通信网络选择算法的认知用户在具有不同数量先验信息时的网络选择仿真图，其中(a)为认知用户在陌生环境下的网络选择仿真图，(b)为认知用户在先验环境下的网络选择仿真图。

图3为本发明的一种基于认知的卫星通信网络选择算法的认知用户在不同场景下的网络选择仿真图，其中(a)为认知用户在场景一下的网络选择仿真图，(b)为认知用户在场景二下的网络选择仿真图，(c)为认知用户在场景三下的网络选择仿真图，(d)为认知用户在场景四下的网络选择仿真图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图1，一种基于认知的卫星通信网络选择算法，方法步骤如下：

步骤1、建立基于认知的卫星通信系统模型：

基于认知的卫星通信系统模型包括卫星、主用户、认知用户和卫星网管中心，其中，一个卫星通信网络至少对应一颗卫星，卫星在通信网络内完成中继任务；主用户是每个卫星通信网络内的授权用户，不同卫星通信网络内的主用户相互之间没有影响，经过授权的主用户在通信时只需向各自卫星通信网络的卫星网管中心报备即可；认知用户是伺机利用空闲资源的未经授权的用户，在不影响主用户通信时，认知用户能够接入任何可用的卫星通信网络，进而建立卫星通信链路。

步骤4-1、根据环境状态s，s∈S、认知用户执行的动作a，a∈A、状态-动作奖励值R(s,a)和状态转移概率函数P(s,a)，利用马尔可夫决策过程进行建模，并且以状态-动作奖励值R(s,a)作为衡量标准，其中A是动作选择集合，S是环境状态集合。

步骤4-2、初始化状态-动作奖励值R₁(s,a)，当认知用户无法获得任何先验信息时，令R₁(s,a)＝0；当认知用户已知部分先验信息时，不同的卫星通信网络对应不同的奖励值R₁(s,a)，其中，R_t(s,a)表示认知用户第t次访问该状态-动作对时的奖励值。

步骤4-3、认知用户在与多重卫星通信网络的交互过程中，获取环境状态s，根据当前环境状态s下的状态-动作奖励值R_t(s,a)，按照使R_t(s,a)最大的策略π选择动作a。

R(s,a)在策略π下的表达式如式(3)所示：

R^{π} (s, a) = F (s, a) + γ \underset{s^{'} &Element; S}{Σ} P_{s, s^{'}} (a) R^{π} (s^{'}, a^{'}) - - - (3)

π^{*} = \underset{a}{\arg} \max R^{π} (s, a) - - - (4)

式中，π^*为最优策略，R^π(s,a)表示在环境状态s下执行动作a的即时回报加上以后遵循最优策略π^*的值，F(s,a)为性能体验反馈信号f(s_t,a_t)的数学期望，P_s,s'(a)为环境状态s在动作a的作用下到达环境状态s'的转移概率。

R_{t + 1} (s, a) = (1 - λ_{t}) R_{t} (s, a) + λ_{t} (f_{t} + γ \max_{a^{'}} R_{t} (s^{'}, a^{'})) - - - (1)

其中，折扣因子γ体现未来反馈相对当前反馈的重要性，在t时刻的学习因子λ_t(s,a)的更新如式(2)所示，体现认知用户与环境的交互速率。

λ_{t} (s, a) = \frac{1}{1 + b * N_{t} (s, a)} - - - (2)

其中，N_t(s,a)表示在t时刻认知用户访问状态-动作对(s,a)的次数，b为衰减因子。

步骤4-5、判断认知用户是否找到当前环境下的最优网络，即认知用户的选择结果是否收敛，当认知用户接入最优网络时结束迭代循环，否则，开始新的迭代循环，即返回步骤4-2。

实施例1

一种基于认知的卫星通信网络选择算法，方法步骤如下：

步骤1、建立基于认知的卫星通信系统模型，其中包括第一卫星(Satellite-1，S1)、第二卫星(Satellite-2，S2)、第三卫星(Satellite-3，S3)、第四卫星(Satellite-4，S4)、第五卫星(Satellite-5，S5)、第六卫星(Satellite-6，S6)、第一主用户(PrimaryUser-1，PU1)、第二主用户(PrimaryUser-2，PU2)、第三主用户(PrimaryUser-3，PU3)、第四主用户(PrimaryUser-4，PU4)、第五主用户(PrimaryUser-5，PU5)、第六主用户(PrimaryUser-6，PU6)、认知用户(CognitiveUser，CU)和卫星网管中心(SatelliteNetworkManagementCenter，SNMC)。6个卫星通信网络C1到C6分别对应6颗卫星S1到S6和6个主用户PU1到PU6，6个卫星通信网络的参数如表1所示。

表1各个卫星通信网络的信息参数

步骤2、在所述基于认知的卫星通信系统模型中，认知用户感知自身所处环境覆盖的多重卫星通信网络，通过卫星网管中心收集各个卫星通信网络的状态和信息参数，即先验信息，先验信息包括各个卫星通信网络的性能体验反馈、时延、速率、误码性能和网络负载，转入步骤3；

步骤3、假设认知用户能够承受的误码率最大值为10×10^-4、时延为550ms，低速业务的最高速率小于0.2Mbps，高速业务的速率为0.15Mbps-2Mbps。环境没有干扰时，窄带网、宽带网、抗干扰网对低速业务终端的性能体验反馈分别为1、0.4、0.2，对高速业务终端的性能体验反馈分别为0.5、1、0.2；环境中存在干扰时，窄带网、宽带网、抗干扰网对业务终端的性能体验反馈分别为0、0、1。当网络负载过高时，对于任何业务终端的性能体验反馈均为0。

设置四种不同的场景如下：

场景一：环境中没有干扰，认知用户需要进行低速语音通信。

各个网络的性能体验反馈矩阵为数值越大，网络能为认知用户提供的服务质量越好。由于低速语音业务更加适合窄带网，所以如果窄带网络可用，其性能体验反馈高于宽带网和抗干扰网。。

场景二：环境中没有干扰，认知用户需要进行高速多媒体通信。

各个网络的性能体验反馈矩阵为由于高速多媒体业务更加适合宽带网，所以如果宽带网络可用，其性能体验反馈高于窄带网和抗干扰网。

场景三：环境中存在干扰，认知用户需要进行低速语音通信。

各个网络的性能体验反馈矩阵为由于环境中存在干扰，因此只能选用抗干扰网，其余类型网络的性能体验反馈值为零。

场景四：环境存在干扰，认知用户需要进行高速多媒体通信。

假设抗干扰网对高速业务和低速业务的性能体验反馈相同，各个网络的性能体验反馈矩阵为由于环境中存在干扰，因此只能选用抗干扰网，其余类型网络的性能体验反馈值为零。

认知用户根据收集到的先验信息，使用合适的方法选择多重卫星通信网络覆盖下的最佳网络。

当先验信息完全时，认知用户根据自身的业务需求并且结合收集到的先验信息，直接进行网络选择；为了验证基于认知的卫星通信网络选择算法的可行性，假设先验信息完全缺失，即认知用户处于陌生环境，那么此时认知用户利用强化学习技术获取各个卫星通信网络的反馈信息，从而进行网络选择，转入步骤4；

步骤4-1、根据环境状态s，s∈S、认知用户执行的动作a，a∈A、状态-动作奖励值R(s,a)和状态转移概率函数P(s,a)，利用马尔可夫决策过程(MarkovDecisionProcess，MDP)进行建模，并且以状态-动作奖励值R(s,a)作为衡量标准，其中A是动作选择集合，S是环境状态集合。

步骤4-2、初始化状态-动作奖励值R₁(s,a)，当认知用户无法获得任何先验信息，即处于陌生环境时，令R₁(s,a)＝0；当认知用户已知部分先验信息时，例如，设置已知的先验知识为各个卫星通信网络的网络负载，那么负载较高的网络对应的初始状态-动作奖励值R₁(s,a)相对较小，负载较低的网络对应的初始状态-动作奖励值R₁(s,a)相对较大。

步骤4-4、认知用户执行动作a，得到性能体验反馈信号f(s,a)和下一时刻的环境状态s'，寻找环境状态s'下的状态-动作奖励值的最大值maxR_t(s',a')，并根据式(1)更新R_t(s,a)。

利用Matlab软件对本发明所涉及的一种基于认知的卫星通信网络选择算法进行相关验证。

图2中的仿真结果表明，在场景二下，虽然两次仿真中认知用户具有不同数量的先验信息，即在仿真一中认知用户处于先验信息完全的先验环境，在仿真二中认知用户处于先验信息完全缺失的陌生环境，但是两次仿真中认知用户最后选择的最优网络完全相同。

图2中的仿真结果也表明，认知用户具有不同数量的先验信息时，网络选择的收敛速度不同。认知用户具有的先验信息数量越多，网络选择的收敛速度越快。

图3中的仿真结果表明，在场景一中，认知用户的网络选择收敛于C1；在场景二中，认知用户的网络选择收敛于C3；在场景三中，认知用户的网络选择收敛于C5；在场景四中，认知用户的网络选择收敛于C5。那么，认知用户在四个不同场景下的最佳网络分别为C1、C3、C5、C5。

仿真结果表明，即使在先验信息完全缺失的条件下，认知用户利用基于认知的卫星通信网络选择算法也能迅速确定当前环境下的最佳网络，提高通信资源的利用效率。

本发明的优点在于：(1)与传统的网络选择技术相比，本发明将静态的选择过程改进为动态的学习过程，不但适用陌生环境而且在先验知识较少的特殊网络环境也具备较大的优势；(2)与同为机器学习的监督学习相比，强化学习产生的强化信号是对执行动作的优劣的一种评价而非直接指导，可以实现在线学习；(3)与同为机器学习的无监督学习相比，强化学习时刻与环境进行交互；(4)本发明根据认知用户在不同网络得到的服务质量不同实时调整服务的强化信号，使认知用户接入更加适合自己的网络，从而提高系统的资源利用效率，改善认知用户服务体验。

Claims

1.一种基于认知的卫星通信网络选择算法，其特征在于，方法步骤如下：

步骤1、建立基于认知的卫星通信系统模型；

步骤2、在所述基于认知的卫星通信系统模型中，认知用户感知自身所处环境覆盖的卫星通信网络，若只有一个可用的卫星通信网络，则选择当前网络；若存在多重卫星通信网络，则认知用户通过卫星网管中心收集各个卫星通信网络的状态和信息参数，即先验信息，先验信息包括各个卫星通信网络的性能体验反馈、时延、速率、误码性能和网络负载，并转入步骤3；

当先验信息完全时，认知用户根据自身的业务需求并且结合收集到的先验信息，直接进行网络选择；当缺少至少一项上述先验信息时，则认知用户利用强化学习技术获取各个卫星通信网络的反馈信息，从而进行网络选择，转入步骤4；

R_{t + 1} (s, a) = (1 - λ_{t}) R_{t} (s, a) + λ_{t} (f_{t} + γ \max_{a^{'}} R_{t} (s^{'}, a^{'})) - - - (1)

λ_{t} (s, a) = \frac{1}{1 + b * N_{t} (s, a)} - - - (2)

2.根据权利要求1所述的基于认知的卫星通信网络选择算法，其特征在于：所述步骤1中，基于认知的卫星通信系统模型包括卫星、主用户、认知用户和卫星网管中心，其中，一个卫星通信网络至少对应一颗卫星，卫星在通信网络内完成中继任务；主用户是每个卫星通信网络内的授权用户，不同卫星通信网络内的主用户相互之间没有影响，经过授权的主用户在通信时只需向各自卫星通信网络的卫星网管中心报备即可；认知用户是伺机利用空闲资源的未经授权的用户，在不影响主用户通信时，认知用户能够接入任何可用的卫星通信网络，进而建立卫星通信链路；