CN105391490A - 一种基于认知的卫星通信网络选择算法 - Google Patents

一种基于认知的卫星通信网络选择算法 Download PDF

Info

Publication number
CN105391490A
CN105391490A CN201510683534.3A CN201510683534A CN105391490A CN 105391490 A CN105391490 A CN 105391490A CN 201510683534 A CN201510683534 A CN 201510683534A CN 105391490 A CN105391490 A CN 105391490A
Authority
CN
China
Prior art keywords
satellite communication
communication network
satellite
cognitive user
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510683534.3A
Other languages
English (en)
Other versions
CN105391490B (zh
Inventor
张邦宁
刘爱军
郭道省
闫岩
郭克峰
童新海
杨茂强
史煜
邹芹宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA University of Science and Technology
Original Assignee
PLA University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA University of Science and Technology filed Critical PLA University of Science and Technology
Priority to CN201510683534.3A priority Critical patent/CN105391490B/zh
Publication of CN105391490A publication Critical patent/CN105391490A/zh
Application granted granted Critical
Publication of CN105391490B publication Critical patent/CN105391490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18578Satellite systems for providing broadband data service to individual earth stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/18Selecting a network or a communication service

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于认知的卫星通信网络选择算法,主用户使用传统的卫星通信网络接入技术建立通信链路,认知用户通过与外界环境的交互、学习和更新,在不对主用户产生有害干扰的同时,完成一种动态的卫星通信网络的选择。该算法克服了传统的静态网络选择技术完全依赖卫星通信网络状态和信息参数的缺点,使认知用户即使在缺少部分或者全部卫星通信网络状态和信息参数的环境下也能找到最优网络。基于认知的卫星通信网络选择算法能够使认知用户迅速确定当前环境下的最佳卫星通信网络,提高通信资源的利用效率。

Description

一种基于认知的卫星通信网络选择算法
技术领域
本发明属于卫星通信技术,具体涉及一种基于认知的卫星通信网络选择算法。
背景技术
在地面移动通信中,已经分配给用户的频谱资源经常处于空闲状态这种问题时常发生,卫星通信同样面临频谱利用率不均衡的现实情况。这种看上去无频谱资源可用而实则频谱资源充足的现象的症结在于,各个网系对频谱资源采取“独占”的授权分配政策。在授权用户没有利用授权频段时,其他用户也无权使用该频段,这一缺乏灵活性的政策造成了巨大浪费。因此,在卫星通信系统中引入认知的概念是非常重要而迫切的。利用认知技术,卫星网管中心对各个卫星通信网系的空间与频谱资源状况进行监测与分析,充分了解卫星通信频谱资源的实时变化,并依据认知结果,合理地为认知用户选择网络并组织分配卫星资源,从而为更多用户提供质量更高的卫星通信服务,提高整个卫星通信系统的组网效率和频谱资源利用率。
基于认知的卫星通信网络选择是指认知用户在多重卫星通信网络覆盖下,在开机初始寻找网络接入或者因为位置移动进行网络切换时,综合考虑用户业务信息、网络状态等,根据一定的算法策略,保证自身始终接入条件最优的网络。目前,常见的传统网络选择算法包含算数加权法、乘法加权法、逼近最优解序列偏好法、灰度关联分析法等。由于传统的网络选择技术是对已知参数的直接加权计算,因此不适用于用户在陌生环境或者先验信息不足时的网络选择。而基于认知的卫星通信网络选择算法通过认知用户与外界环境的交互、学习和更新,在不对主用户产生有害干扰的同时,完成一种动态的卫星通信网络的选择。近年来,研究学者针对强化学习提出了多种算法。张冬梅(DongmeiZhang),马华东(HuadongMa).“AQ-Learning-basedDecisionMakingSchemeforApplicationReconfigurationinSensorNetworks”(ComputerSupportedCooperativeWorkinDesign,2007.)一文对Q学习算法进行了相关研究与应用,Q学习是强化学习研究过程中的里程碑,Q学习可以从有延迟的回报中获取最优控制策略,从而选择能够达到目的的动作。Q学习对环境的先验知识要求较低,在大空间、复杂非线性系统中具有良好学习性能。李莉斯(Lilith,N),多冈西(Dogancay,K).“DistributedDynamicCallAdmissionControlandChannelAllocationUsingSARSA”(Communications,2005Asia-PacificConferenceon)一文对SARAS学习算法进行了相关研究与应用,SARAS学习是一种“在策略”算法,即值函数更新和选择动作的策略相同。SARAS学习与Q学习不同,Q学习是一种“离策略”算法,而且Q学习是基于后继状态的各假设动作的最大R值来更新R值,SARAS学习是利用学习策略所选择的实际动作a'来更新R值;Q学习依据修改后的R值确定动作,而SARAS学习依据当前R值确定下一状态时的动作。
发明内容
本发明的目的在于提供一种基于认知的卫星通信网络选择算法,认知用户通过与外界环境的交互、学习和更新,在不对主用户产生有害干扰的同时,完成一种动态的卫星通信网络的选择,实现单个认知用户在多重卫星通信网络覆盖并且卫星网管中心提供的各个卫星通信网络的状态和信息参数不足时仍然能够接入最佳网络。
实现本发明目的的技术解决方案为:一种基于认知的卫星通信网络选择算法,方法步骤如下:
步骤1、建立基于认知的卫星通信系统模型。
步骤2、在所述基于认知的卫星通信系统模型中,认知用户感知自身所处环境覆盖的卫星通信网络,若只有一个可用的卫星通信网络,则选择当前网络;若存在多重卫星通信网络,则认知用户通过卫星网管中心收集各个卫星通信网络的状态和信息参数,即先验信息,先验信息包括各个卫星通信网络的性能体验反馈、时延、速率、误码性能和网络负载,并转入步骤3。
步骤3、认知用户根据卫星网管中心提供的先验信息,使用合适的方法选择多重卫星通信网络覆盖下的最佳网络:
当先验信息完全时,认知用户根据自身的业务需求并且结合收集到的先验信息,直接进行网络选择;当缺少至少一项上述先验信息时,则认知用户利用强化学习技术获取各个卫星通信网络的反馈信息,从而进行网络选择,转入步骤4。
步骤4、所述认知用户利用强化学习技术获取各个卫星通信网络的反馈信息,从而进行网络选择,步骤如下:
步骤4-1、根据环境状态s,s∈S、认知用户执行的动作a,a∈A、状态-动作奖励值R(s,a)和状态转移概率函数P(s,a),利用马尔可夫决策过程进行建模,并且以状态-动作奖励值R(s,a)作为衡量标准,其中A是动作选择集合,S是环境状态集合;
步骤4-2、初始化状态-动作奖励值R1(s,a),当认知用户无法获得任何先验信息时,令R1(s,a)=0;当认知用户已知部分先验信息时,不同的卫星通信网络对应不同的奖励值R1(s,a),其中,Rt(s,a)表示认知用户第t次访问该状态-动作对时的奖励值;
步骤4-3、认知用户在与多重卫星通信网络的交互过程中,获取环境状态s,根据当前环境状态s下的状态-动作奖励值Rt(s,a),按照使Rt(s,a)最大的策略π选择动作a;
步骤4-4、认知用户执行动作a,得到性能体验反馈信号f(s,a)和下一时刻的环境状态s',寻找环境状态s'下的状态-动作奖励值的最大值maxRt(s',a'),并根据式(1)更新Rt(s,a):
Rt+1(s,a)=(1-λt)Rt(s,a)+λt(ft+γmaa'xRt(s',a'))(1)
其中,折扣因子γ体现未来反馈相对当前反馈的重要性,在t时刻的学习因子λt(s,a)的更新如式(2)所示,体现认知用户与环境的交互速率;
λ t ( s , a ) = 1 1 + b * N t ( s , a ) - - - ( 2 )
其中,Nt(s,a)表示在t时刻认知用户访问状态-动作对(s,a)的次数,b为衰减因子;
步骤4-5、判断认知用户是否找到当前环境下的最优网络,即认知用户的选择结果是否收敛,当认知用户接入最优网络时结束迭代循环;否则,返回步骤4-2。
所述步骤1中,基于认知的卫星通信系统模型包括卫星、主用户、认知用户和卫星网管中心,其中,一个卫星通信网络至少对应一颗卫星,卫星在通信网络内完成中继任务;主用户是每个卫星通信网络内的授权用户,不同卫星通信网络内的主用户相互之间没有影响,经过授权的主用户在通信时只需向各自卫星通信网络的卫星网管中心报备即可;认知用户是伺机利用空闲资源的未经授权的用户,在不影响主用户通信时,认知用户能够接入任何可用的卫星通信网络,进而建立卫星通信链路。
在基于认知的卫星通信链路中,主用户向卫星发出申请信号,卫星转发申请信号到卫星网管中心,由于主用户已经得到授权,则卫星网管中心接收到主用户的申请后分配相应的网络资源给主用户,认知用户通过与卫星和网管中心的交互获得反馈信息,从而根据收集到的信息接入最优的卫星通信网络。
本发明与现有技术相比,其显著优点在于:(1)与传统的网络选择技术相比,本发明将静态的选择过程改进为动态的学习过程,不但适用陌生环境而且在先验知识较少的特殊网络环境也具备较大的优势;(2)与同为机器学习的监督学习相比,强化学习产生的强化信号是对执行动作的优劣的一种评价而非直接指导,可以实现在线学习;(3)与同为机器学习的无监督学习相比,强化学习时刻与环境进行交互;(4)本发明根据认知用户在不同网络得到的服务质量不同实时调整服务的强化信号,使认知用户接入更加适合自己的网络,从而提高系统的资源利用效率,改善认知用户服务体验。
附图说明
图1为本发明的一种基于认知的卫星通信网络选择算法的流程图。
图2为本发明的一种基于认知的卫星通信网络选择算法的认知用户在具有不同数量先验信息时的网络选择仿真图,其中(a)为认知用户在陌生环境下的网络选择仿真图,(b)为认知用户在先验环境下的网络选择仿真图。
图3为本发明的一种基于认知的卫星通信网络选择算法的认知用户在不同场景下的网络选择仿真图,其中(a)为认知用户在场景一下的网络选择仿真图,(b)为认知用户在场景二下的网络选择仿真图,(c)为认知用户在场景三下的网络选择仿真图,(d)为认知用户在场景四下的网络选择仿真图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
结合图1,一种基于认知的卫星通信网络选择算法,方法步骤如下:
步骤1、建立基于认知的卫星通信系统模型:
基于认知的卫星通信系统模型包括卫星、主用户、认知用户和卫星网管中心,其中,一个卫星通信网络至少对应一颗卫星,卫星在通信网络内完成中继任务;主用户是每个卫星通信网络内的授权用户,不同卫星通信网络内的主用户相互之间没有影响,经过授权的主用户在通信时只需向各自卫星通信网络的卫星网管中心报备即可;认知用户是伺机利用空闲资源的未经授权的用户,在不影响主用户通信时,认知用户能够接入任何可用的卫星通信网络,进而建立卫星通信链路。
在基于认知的卫星通信链路中,主用户向卫星发出申请信号,卫星转发申请信号到卫星网管中心,由于主用户已经得到授权,则卫星网管中心接收到主用户的申请后分配相应的网络资源给主用户,认知用户通过与卫星和网管中心的交互获得反馈信息,从而根据收集到的信息接入最优的卫星通信网络。
步骤2、在所述基于认知的卫星通信系统模型中,认知用户感知自身所处环境覆盖的卫星通信网络,若只有一个可用的卫星通信网络,则选择当前网络;若存在多重卫星通信网络,则认知用户通过卫星网管中心收集各个卫星通信网络的状态和信息参数,即先验信息,先验信息包括各个卫星通信网络的性能体验反馈、时延、速率、误码性能和网络负载,并转入步骤3。
步骤3、认知用户根据卫星网管中心提供的先验信息,使用合适的方法选择多重卫星通信网络覆盖下的最佳网络:
当先验信息完全时,认知用户根据自身的业务需求并且结合收集到的先验信息,直接进行网络选择;当缺少至少一项上述先验信息时,则认知用户利用强化学习技术获取各个卫星通信网络的反馈信息,从而进行网络选择,转入步骤4。
步骤4、所述认知用户利用强化学习技术获取各个卫星通信网络的反馈信息,从而进行网络选择,步骤如下:
步骤4-1、根据环境状态s,s∈S、认知用户执行的动作a,a∈A、状态-动作奖励值R(s,a)和状态转移概率函数P(s,a),利用马尔可夫决策过程进行建模,并且以状态-动作奖励值R(s,a)作为衡量标准,其中A是动作选择集合,S是环境状态集合。
步骤4-2、初始化状态-动作奖励值R1(s,a),当认知用户无法获得任何先验信息时,令R1(s,a)=0;当认知用户已知部分先验信息时,不同的卫星通信网络对应不同的奖励值R1(s,a),其中,Rt(s,a)表示认知用户第t次访问该状态-动作对时的奖励值。
步骤4-3、认知用户在与多重卫星通信网络的交互过程中,获取环境状态s,根据当前环境状态s下的状态-动作奖励值Rt(s,a),按照使Rt(s,a)最大的策略π选择动作a。
R(s,a)在策略π下的表达式如式(3)所示:
R π ( s , a ) = F ( s , a ) + γ Σ s ′ ∈ S P s , s ′ ( a ) R π ( s ′ , a ′ ) - - - ( 3 )
π * = arg a max R π ( s , a ) - - - ( 4 )
式中,π*为最优策略,Rπ(s,a)表示在环境状态s下执行动作a的即时回报加上以后遵循最优策略π*的值,F(s,a)为性能体验反馈信号f(st,at)的数学期望,Ps,s'(a)为环境状态s在动作a的作用下到达环境状态s'的转移概率。
步骤4-4、认知用户执行动作a,得到性能体验反馈信号f(s,a)和下一时刻的环境状态s',寻找环境状态s'下的状态-动作奖励值的最大值maxRt(s',a'),并根据式(1)更新Rt(s,a):
R t + 1 ( s , a ) = ( 1 - λ t ) R t ( s , a ) + λ t ( f t + γ max a ′ R t ( s ′ , a ′ ) ) - - - ( 1 )
其中,折扣因子γ体现未来反馈相对当前反馈的重要性,在t时刻的学习因子λt(s,a)的更新如式(2)所示,体现认知用户与环境的交互速率。
λ t ( s , a ) = 1 1 + b * N t ( s , a ) - - - ( 2 )
其中,Nt(s,a)表示在t时刻认知用户访问状态-动作对(s,a)的次数,b为衰减因子。
步骤4-5、判断认知用户是否找到当前环境下的最优网络,即认知用户的选择结果是否收敛,当认知用户接入最优网络时结束迭代循环,否则,开始新的迭代循环,即返回步骤4-2。
实施例1
一种基于认知的卫星通信网络选择算法,方法步骤如下:
步骤1、建立基于认知的卫星通信系统模型,其中包括第一卫星(Satellite-1,S1)、第二卫星(Satellite-2,S2)、第三卫星(Satellite-3,S3)、第四卫星(Satellite-4,S4)、第五卫星(Satellite-5,S5)、第六卫星(Satellite-6,S6)、第一主用户(PrimaryUser-1,PU1)、第二主用户(PrimaryUser-2,PU2)、第三主用户(PrimaryUser-3,PU3)、第四主用户(PrimaryUser-4,PU4)、第五主用户(PrimaryUser-5,PU5)、第六主用户(PrimaryUser-6,PU6)、认知用户(CognitiveUser,CU)和卫星网管中心(SatelliteNetworkManagementCenter,SNMC)。6个卫星通信网络C1到C6分别对应6颗卫星S1到S6和6个主用户PU1到PU6,6个卫星通信网络的参数如表1所示。
表1各个卫星通信网络的信息参数
步骤2、在所述基于认知的卫星通信系统模型中,认知用户感知自身所处环境覆盖的多重卫星通信网络,通过卫星网管中心收集各个卫星通信网络的状态和信息参数,即先验信息,先验信息包括各个卫星通信网络的性能体验反馈、时延、速率、误码性能和网络负载,转入步骤3;
步骤3、假设认知用户能够承受的误码率最大值为10×10-4、时延为550ms,低速业务的最高速率小于0.2Mbps,高速业务的速率为0.15Mbps-2Mbps。环境没有干扰时,窄带网、宽带网、抗干扰网对低速业务终端的性能体验反馈分别为1、0.4、0.2,对高速业务终端的性能体验反馈分别为0.5、1、0.2;环境中存在干扰时,窄带网、宽带网、抗干扰网对业务终端的性能体验反馈分别为0、0、1。当网络负载过高时,对于任何业务终端的性能体验反馈均为0。
设置四种不同的场景如下:
场景一:环境中没有干扰,认知用户需要进行低速语音通信。
各个网络的性能体验反馈矩阵为数值越大,网络能为认知用户提供的服务质量越好。由于低速语音业务更加适合窄带网,所以如果窄带网络可用,其性能体验反馈高于宽带网和抗干扰网。。
场景二:环境中没有干扰,认知用户需要进行高速多媒体通信。
各个网络的性能体验反馈矩阵为由于高速多媒体业务更加适合宽带网,所以如果宽带网络可用,其性能体验反馈高于窄带网和抗干扰网。
场景三:环境中存在干扰,认知用户需要进行低速语音通信。
各个网络的性能体验反馈矩阵为由于环境中存在干扰,因此只能选用抗干扰网,其余类型网络的性能体验反馈值为零。
场景四:环境存在干扰,认知用户需要进行高速多媒体通信。
假设抗干扰网对高速业务和低速业务的性能体验反馈相同,各个网络的性能体验反馈矩阵为由于环境中存在干扰,因此只能选用抗干扰网,其余类型网络的性能体验反馈值为零。
认知用户根据收集到的先验信息,使用合适的方法选择多重卫星通信网络覆盖下的最佳网络。
当先验信息完全时,认知用户根据自身的业务需求并且结合收集到的先验信息,直接进行网络选择;为了验证基于认知的卫星通信网络选择算法的可行性,假设先验信息完全缺失,即认知用户处于陌生环境,那么此时认知用户利用强化学习技术获取各个卫星通信网络的反馈信息,从而进行网络选择,转入步骤4;
步骤4、所述认知用户利用强化学习技术获取各个卫星通信网络的反馈信息,从而进行网络选择,步骤如下:
步骤4-1、根据环境状态s,s∈S、认知用户执行的动作a,a∈A、状态-动作奖励值R(s,a)和状态转移概率函数P(s,a),利用马尔可夫决策过程(MarkovDecisionProcess,MDP)进行建模,并且以状态-动作奖励值R(s,a)作为衡量标准,其中A是动作选择集合,S是环境状态集合。
步骤4-2、初始化状态-动作奖励值R1(s,a),当认知用户无法获得任何先验信息,即处于陌生环境时,令R1(s,a)=0;当认知用户已知部分先验信息时,例如,设置已知的先验知识为各个卫星通信网络的网络负载,那么负载较高的网络对应的初始状态-动作奖励值R1(s,a)相对较小,负载较低的网络对应的初始状态-动作奖励值R1(s,a)相对较大。
步骤4-3、认知用户在与多重卫星通信网络的交互过程中,获取环境状态s,根据当前环境状态s下的状态-动作奖励值Rt(s,a),按照使Rt(s,a)最大的策略π选择动作a。
步骤4-4、认知用户执行动作a,得到性能体验反馈信号f(s,a)和下一时刻的环境状态s',寻找环境状态s'下的状态-动作奖励值的最大值maxRt(s',a'),并根据式(1)更新Rt(s,a)。
步骤4-5、判断认知用户是否找到当前环境下的最优网络,即认知用户的选择结果是否收敛,当认知用户接入最优网络时结束迭代循环,否则,开始新的迭代循环,即返回步骤4-2。
利用Matlab软件对本发明所涉及的一种基于认知的卫星通信网络选择算法进行相关验证。
图2中的仿真结果表明,在场景二下,虽然两次仿真中认知用户具有不同数量的先验信息,即在仿真一中认知用户处于先验信息完全的先验环境,在仿真二中认知用户处于先验信息完全缺失的陌生环境,但是两次仿真中认知用户最后选择的最优网络完全相同。
图2中的仿真结果也表明,认知用户具有不同数量的先验信息时,网络选择的收敛速度不同。认知用户具有的先验信息数量越多,网络选择的收敛速度越快。
图3中的仿真结果表明,在场景一中,认知用户的网络选择收敛于C1;在场景二中,认知用户的网络选择收敛于C3;在场景三中,认知用户的网络选择收敛于C5;在场景四中,认知用户的网络选择收敛于C5。那么,认知用户在四个不同场景下的最佳网络分别为C1、C3、C5、C5。
仿真结果表明,即使在先验信息完全缺失的条件下,认知用户利用基于认知的卫星通信网络选择算法也能迅速确定当前环境下的最佳网络,提高通信资源的利用效率。
本发明的优点在于:(1)与传统的网络选择技术相比,本发明将静态的选择过程改进为动态的学习过程,不但适用陌生环境而且在先验知识较少的特殊网络环境也具备较大的优势;(2)与同为机器学习的监督学习相比,强化学习产生的强化信号是对执行动作的优劣的一种评价而非直接指导,可以实现在线学习;(3)与同为机器学习的无监督学习相比,强化学习时刻与环境进行交互;(4)本发明根据认知用户在不同网络得到的服务质量不同实时调整服务的强化信号,使认知用户接入更加适合自己的网络,从而提高系统的资源利用效率,改善认知用户服务体验。

Claims (2)

1.一种基于认知的卫星通信网络选择算法,其特征在于,方法步骤如下:
步骤1、建立基于认知的卫星通信系统模型;
步骤2、在所述基于认知的卫星通信系统模型中,认知用户感知自身所处环境覆盖的卫星通信网络,若只有一个可用的卫星通信网络,则选择当前网络;若存在多重卫星通信网络,则认知用户通过卫星网管中心收集各个卫星通信网络的状态和信息参数,即先验信息,先验信息包括各个卫星通信网络的性能体验反馈、时延、速率、误码性能和网络负载,并转入步骤3;
步骤3、认知用户根据卫星网管中心提供的先验信息,使用合适的方法选择多重卫星通信网络覆盖下的最佳网络:
当先验信息完全时,认知用户根据自身的业务需求并且结合收集到的先验信息,直接进行网络选择;当缺少至少一项上述先验信息时,则认知用户利用强化学习技术获取各个卫星通信网络的反馈信息,从而进行网络选择,转入步骤4;
步骤4、所述认知用户利用强化学习技术获取各个卫星通信网络的反馈信息,从而进行网络选择,步骤如下:
步骤4-1、根据环境状态s,s∈S、认知用户执行的动作a,a∈A、状态-动作奖励值R(s,a)和状态转移概率函数P(s,a),利用马尔可夫决策过程进行建模,并且以状态-动作奖励值R(s,a)作为衡量标准,其中A是动作选择集合,S是环境状态集合;
步骤4-2、初始化状态-动作奖励值R1(s,a),当认知用户无法获得任何先验信息时,令R1(s,a)=0;当认知用户已知部分先验信息时,不同的卫星通信网络对应不同的奖励值R1(s,a),其中,Rt(s,a)表示认知用户第t次访问该状态-动作对时的奖励值;
步骤4-3、认知用户在与多重卫星通信网络的交互过程中,获取环境状态s,根据当前环境状态s下的状态-动作奖励值Rt(s,a),按照使Rt(s,a)最大的策略π选择动作a;
步骤4-4、认知用户执行动作a,得到性能体验反馈信号f(s,a)和下一时刻的环境状态s',寻找环境状态s'下的状态-动作奖励值的最大值maxRt(s',a'),并根据式(1)更新Rt(s,a):
R t + 1 ( s , a ) = ( 1 - λ t ) R t ( s , a ) + λ t ( f t + γ max a ′ R t ( s ′ , a ′ ) ) - - - ( 1 )
其中,折扣因子γ体现未来反馈相对当前反馈的重要性,在t时刻的学习因子λt(s,a)的更新如式(2)所示,体现认知用户与环境的交互速率;
λ t ( s , a ) = 1 1 + b * N t ( s , a ) - - - ( 2 )
其中,Nt(s,a)表示在t时刻认知用户访问状态-动作对(s,a)的次数,b为衰减因子;
步骤4-5、判断认知用户是否找到当前环境下的最优网络,即认知用户的选择结果是否收敛,当认知用户接入最优网络时结束迭代循环;否则,返回步骤4-2。
2.根据权利要求1所述的基于认知的卫星通信网络选择算法,其特征在于:所述步骤1中,基于认知的卫星通信系统模型包括卫星、主用户、认知用户和卫星网管中心,其中,一个卫星通信网络至少对应一颗卫星,卫星在通信网络内完成中继任务;主用户是每个卫星通信网络内的授权用户,不同卫星通信网络内的主用户相互之间没有影响,经过授权的主用户在通信时只需向各自卫星通信网络的卫星网管中心报备即可;认知用户是伺机利用空闲资源的未经授权的用户,在不影响主用户通信时,认知用户能够接入任何可用的卫星通信网络,进而建立卫星通信链路;
在基于认知的卫星通信链路中,主用户向卫星发出申请信号,卫星转发申请信号到卫星网管中心,由于主用户已经得到授权,则卫星网管中心接收到主用户的申请后分配相应的网络资源给主用户,认知用户通过与卫星和网管中心的交互获得反馈信息,从而根据收集到的信息接入最优的卫星通信网络。
CN201510683534.3A 2015-10-20 2015-10-20 一种基于认知的卫星通信网络选择算法 Active CN105391490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510683534.3A CN105391490B (zh) 2015-10-20 2015-10-20 一种基于认知的卫星通信网络选择算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510683534.3A CN105391490B (zh) 2015-10-20 2015-10-20 一种基于认知的卫星通信网络选择算法

Publications (2)

Publication Number Publication Date
CN105391490A true CN105391490A (zh) 2016-03-09
CN105391490B CN105391490B (zh) 2019-02-05

Family

ID=55423360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510683534.3A Active CN105391490B (zh) 2015-10-20 2015-10-20 一种基于认知的卫星通信网络选择算法

Country Status (1)

Country Link
CN (1) CN105391490B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106851694A (zh) * 2017-03-21 2017-06-13 广东工业大学 一种用于异构网络的动态最优网络选择方法及装置
CN107948085A (zh) * 2017-12-28 2018-04-20 中国电子科技集团公司第二十研究所 一种基于业务和卫星信道特征的消息发送控制方法
WO2019173742A1 (en) 2018-03-08 2019-09-12 Smiths Interconnect, Inc. Network agnostic dynamic satcom system and associated network features
CN113613301A (zh) * 2021-08-04 2021-11-05 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
US11776938B2 (en) 2016-04-12 2023-10-03 Creeled, Inc. High density pixelated LED and devices and methods thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法
CN102238555A (zh) * 2011-07-18 2011-11-09 南京邮电大学 认知无线电中基于协作学习的多用户动态频谱接入方法
CN102256262A (zh) * 2011-07-14 2011-11-23 南京邮电大学 基于分布式独立学习的多用户动态频谱接入方法
WO2012072445A1 (en) * 2010-12-03 2012-06-07 Huawei Technologies Sweden Ab Method and apparatus of communications
CN103209419A (zh) * 2013-04-25 2013-07-17 西安电子科技大学 一种面向用户需求和提升网络性能的动态频谱接入的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法
WO2012072445A1 (en) * 2010-12-03 2012-06-07 Huawei Technologies Sweden Ab Method and apparatus of communications
CN102256262A (zh) * 2011-07-14 2011-11-23 南京邮电大学 基于分布式独立学习的多用户动态频谱接入方法
CN102238555A (zh) * 2011-07-18 2011-11-09 南京邮电大学 认知无线电中基于协作学习的多用户动态频谱接入方法
CN103209419A (zh) * 2013-04-25 2013-07-17 西安电子科技大学 一种面向用户需求和提升网络性能的动态频谱接入的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘健: "认知ATC系统模型与组网设计", 《军事通信技术》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11776938B2 (en) 2016-04-12 2023-10-03 Creeled, Inc. High density pixelated LED and devices and methods thereof
CN106851694A (zh) * 2017-03-21 2017-06-13 广东工业大学 一种用于异构网络的动态最优网络选择方法及装置
CN106851694B (zh) * 2017-03-21 2020-04-14 广东工业大学 一种用于异构网络的动态最优网络选择方法及装置
CN107948085A (zh) * 2017-12-28 2018-04-20 中国电子科技集团公司第二十研究所 一种基于业务和卫星信道特征的消息发送控制方法
CN107948085B (zh) * 2017-12-28 2021-02-02 中国电子科技集团公司第二十研究所 一种基于业务和卫星信道特征的消息发送控制方法
WO2019173742A1 (en) 2018-03-08 2019-09-12 Smiths Interconnect, Inc. Network agnostic dynamic satcom system and associated network features
CN111869134A (zh) * 2018-03-08 2020-10-30 史密斯英特康公司 网络不可知的动态satcom系统及相关联的网络特征
EP3763060A4 (en) * 2018-03-08 2021-12-22 Smiths Interconnect, Inc. NETWORK AGNOSTIC DYNAMIC SATCOM SYSTEM AND ASSOCIATED NETWORK FUNCTIONS
CN111869134B (zh) * 2018-03-08 2022-10-04 史密斯英特康公司 网络不可知的动态satcom系统及相关联的网络特征
US11962393B2 (en) 2018-03-08 2024-04-16 Smiths Interconnect, Inc. Network agnostic dynamic SATCOM system and associated network features
CN113613301A (zh) * 2021-08-04 2021-11-05 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
CN113613301B (zh) * 2021-08-04 2022-05-13 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法

Also Published As

Publication number Publication date
CN105391490B (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN112181666B (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法
CN111093203B (zh) 一种基于环境感知的服务功能链低成本智能部署方法
CN105391490A (zh) 一种基于认知的卫星通信网络选择算法
CN107690176B (zh) 一种基于q学习算法的网络选择方法
CN110620611B (zh) 一种基于geo与leo双层卫星网络的协同频谱感知方法
WO2021036414A1 (zh) 一种低轨移动卫星星座下星地下行链路同频干扰预测方法
CN111191918A (zh) 一种智能电网通信网的业务路由规划方法及装置
CN113687875B (zh) 一种车联网中车辆任务卸载方法及装置
Wang et al. Reputation-enabled federated learning model aggregation in mobile platforms
Zeng et al. Trust-based multi-agent imitation learning for green edge computing in smart cities
CN112312299A (zh) 服务卸载方法、装置及系统
Yu et al. Collaborative computation offloading for multi-access edge computing
CN103747003A (zh) 对等僵尸网络核心节点检测方法及检测装置
Rahmani et al. Multi-agent reinforcement learning-based pilot assignment for cell-free massive MIMO systems
CN114662705B (zh) 联邦学习方法、装置、电子设备和计算机可读存储介质
Li et al. Uncertainty measured active client selection for federated learning in smart grid
Hu et al. Network slicing via transfer learning aided distributed deep reinforcement learning
CN110392377B (zh) 一种5g超密集组网资源分配方法及装置
Yang et al. Research on cognitive radio engine based on genetic algorithm and radial basis function neural network
Cui et al. Network traffic prediction based on Hadoop
CN109873856A (zh) 一种基于规则进化的边云协同方法
CN104955059B (zh) 基于贝叶斯网络的蜂窝网基站状态时变模型建立方法
CN114599043A (zh) 一种基于深度强化学习的空天地一体化网络资源分配方法
Takeuchi et al. Public opinion formation with the spiral of silence on complex social networks
Guo et al. Multi-level federated learning mechanism with reinforcement learning optimizing in smart city

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant