CN114205053B

CN114205053B - 卫星通信系统强化学习自适应编码调制方法、系统及装置

Info

Publication number: CN114205053B
Application number: CN202111349324.2A
Authority: CN
Inventors: 邓中亮; 王珂; 林文亮; 郭荣雪; 刘允; 张海鹏; 张艺博
Original assignee: Beijing University of Posts and Telecommunications; CETC 54 Research Institute
Current assignee: Beijing University of Posts and Telecommunications; CETC 54 Research Institute
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2023-04-07
Anticipated expiration: 2041-11-15
Also published as: CN114205053A

Abstract

本发明提供一种卫星通信系统强化学习自适应编码调制方法、系统及装置，所述方法基于强化学习的方式在每个状态下选择价值最高的调制编码方式，能够实现对动作的最优。同时，在强化学习过程中，设置了直接学习和虚拟学习两部分，直接学习是直接通过真实数据进行学习并选择调制编码方式进行通信，虚拟学习则基于虚拟环境模型对状态和奖励值的更新进行仿真，并通过虚拟学习更新Q值表至各信道收敛，引入虚拟学习过程可以减少与真实环境的交互，提高收敛速度和通信质量。进一步地，通过对状态动作对设置优先级数值，并在虚拟学习过程中专注于采用优先级数值较高的对状态动作，减少智能体无意义的查找，提高效率。

Description

卫星通信系统强化学习自适应编码调制方法、系统及装置

技术领域

本发明涉及卫星通信技术领域，尤其涉及一种卫星通信系统强化学习自适应编码调制方法、系统及装置。

背景技术

卫星通信系统实际上是一种微波通信，它以卫星作为中继站转发微波信号，在多个地面站之间通信，卫星通信的主要目的是实现对地面的“无缝隙”覆盖，由于卫星工作于几百、几千、甚至上万公里的轨道上，因此覆盖范围远大于一般的移动通信系统。卫星通信系统通常分为卫星和地面两部分，每一部分在通信过程中都不可或缺。地面部分一般包括地面信关站和用户，地面信关站的主要功能为连接卫星与地面通信网。地面用户有两种方式接入，第一种是用户终端与卫星直连，第二种是通过地面信关站接入。

卫星通信过程中，需要根据实际通信条件和信道状态选择相应的调制编码方式，以保证通信质量。现有方法中有采用自适应编码进调制技术，其中常用的MCS(Modulationand Coding Scheme，调制编码方式)选择算法是查表法。

自适应编码调制技术是当前地面通信系统中常用的抗衰减技术之一，其算法思想就是在接收端进行信道估计得到当前的信道状态信息(Channel State Information，CSI)，再将CSI反馈给发射端，最后发射端根据收到的CSI选择当前最优的调制编码方式MCS。自适应编码调制技术的目的就是为了捕获持续改变的信道状态，并且在满足系统通信质量的同时充分利用系统资源。MCS选择算法就是根据每个SNR(Signal to noise ratio，信噪比)选择当下信道状态最优的调制编码方式MCS。自适应编码调制技术中调制编码方式的切换阈值的合理设置是影响系统性能的关键之一。目前切换阈值的选择标准按照有效性和可靠性划分，主要分为两种：基于系统吞吐量最大和基于系统目标误码率的MCS选择算法。基于系统吞吐量最大的MCS选择算法主要考虑能达到最大吞吐量的信噪比，而不考虑系统通信的质量。基于目标误码率的选择算法通过配置系统目标误码率以确定信号传送的可靠性。固定的SNR-MCS映射表是在某个固定信道环境中通过不断试验解调门限获得的，无法根据信道情况灵活调整。当通信环境波动较大时，固定的SNR-MCS映射表与当前通信环境不再匹配，即使发送端收到的CSI是及时准确的，查表法得到的MCS往往是次优解。因此，亟需一种卫星通信的编码调制方法以实现高质量通信。

发明内容

本发明实施例提供了一种卫星通信系统强化学习自适应编码调制方法、系统及装置，以消除或改善现有技术中存在的一个或更多个缺陷，解决现有自适应编码调制技术无法准确获得最优解并保证通信质量和传输效率的问题。

本发明的技术方案如下：

一方面，本发明提供一种卫星通信系统强化学习自适应编码调制方法，用于在发送端信关站运行，所述方法包括：

初始化强化学习算法的状态空间、动作空间和Q值表，并预设优先级阈值、优先级队列、虚拟环境模型和探索概率；所述状态空间为接收端信关站对信道估计得到的信噪比进行离散后得到的各信噪比区间的集合，所述动作空间为调制编码方式的集合，每一种调制编码方式为一种动作；所述Q值表中记载衡量给定状态下各调制编码方式的价值，将频谱效率作为奖励回报，所述虚拟环境模型以当前时刻状态和动作为输入以下一时刻状态和奖励回报为输出；所述优先级队列用于按照从高到低的顺序存储优先级数值大于所述预设优先级阈值的状态动作对，初始状态为空；

基于初始调制编码方式发送信号，并获取所述接收端信关站返回的初始信道状态和初始频谱效率，更新所述Q值表，计算所述初始信道状态下各状态动作对的优先级数值并更新所述优先级队列；

在基于实际信道数据的直接学习过程中，按照所述探索概率ε选择Q值表中Q值最大的状态动作对的调制编码方式发送信号，或按照1-ε的概率在所述动作空间中随机选择一种调制编码方式发送信号；接受所述接收端信关站返回的当前时刻对应的实际频谱效率和下一时刻的实际信道状态，更新所述Q值表，计算当前时刻采用的状态动作对的优先级数值并更新所述优先级队列；重复所述直接学习过程，动态选择编码调制方法；

在所述直接学习过程中，若所述接收端信关站某一时刻返回的实际信道状态是首次出现或所述优先级队列为非空，则在进入下一时刻直接学习过程之前采用虚拟环境模型进行虚拟状态和虚拟奖励回报的更新，并进行虚拟学习直至优先级队列为空且各信道状态收敛，在收敛状态下将虚拟学习得到的Q值表中Q值最大的状态动作对的调制编码方式用于下一时刻直接学习过程的信号发送；在虚拟学习过程中，每一个时刻都优先采用所述优先级队列首位的状态动作对的调制编码方式模拟发送信息，并对Q值表进行更新。

在一些实施例中，所述奖励回报的计算式为：

其中，M是调制阶数，ber是当前系统的误码率。

在一些实施例中，所述状态动作对的优先级数值P(s_t,a_t)的计算式为：

其中，s_t为t时刻的状态，a_t为t时刻的动作，r_t为t时刻状态s_t下动作a_t的观测奖励回报，γ为折扣因子；s_t+1为t+1时刻的状态，a_t+1为t+1时刻选择的Q值最大的动作，

表示t+1时刻状态s_t+1下动作a_t+1的Q值；Q(s_t,a_t)表示t时刻状态s_t下动作a_t的Q值。

在一些实施例中所述Q值表的更新公式为：

表示t+1时刻状态s_t+1下动作a_t+1的Q值；Q(s_t，a_t)表示t时刻状态s_t下动作a_t的Q值；α为学习速率。

在一些实施例中，所述方法设置多个所述虚拟环境模型，每个所述虚拟环境模型分别与一个信噪比区间对应，在虚拟学习过程中，根据当前的虚拟状态选择相应信噪比区间对应的虚拟环境模型计算下一时刻的虚拟状态和虚拟奖励回报。

在一些实施例中，所述学习速率为0.7～0.9，所述折扣因子为0.9～0.95，所述优先级阈值为0.03～0.05。

另一方面，本发明还提供一种卫星通信系统，包括：

发送端信关站，所述发送端信关站至少包括调制器、编码器和自适应处理模块；

接收端信关站，所述接收端信关站至少包括信道状态估计模块、解调器和译码器；

一个或多个通信卫星，所述通信卫星用于连接所述发送端信关站和所述接收端信关站进行通信；

所述信道状态估计模块用于获取信道状态信息并发送至所述自适应处理模块，所述自适应处理模块用于上述卫星通信系统强化学习自适应编码调制方法以发送信号。

在一些实施例中，所述系统还设置专用反馈信道，用于所述信道状态估计向所述自适应处理模块反馈所述信道状态信息。

另一方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

另一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明的有益效果至少是：

所述卫星通信系统强化学习自适应编码调制方法、系统及装置中，所述方法基于强化学习的方式在每个状态下选择价值最高的调制编码方式，能够实现对动作的最优。同时，在强化学习过程中，设置了直接学习和虚拟学习两部分，直接学习是直接通过真实数据进行学习并选择调制编码方式进行通信，虚拟学习则基于虚拟环境模型对状态和奖励值的更新进行仿真，并通过虚拟学习更新Q值表至各信道收敛，引入虚拟学习过程可以减少与真实环境的交互，提高收敛速度和通信质量。进一步地，通过对状态动作对设置优先级数值，并在虚拟学习过程中专注于采用优先级数值较高的对状态动作，减少智能体无意义的查找，提高效率。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例所述卫星通信系统强化学习自适应编码调制方法的逻辑示意图；

图2为本发明一实施例所述卫星通信系统强化学习自适应编码调制方法的流程图；

图3为本发明一实施例所述卫星通信系统强化学习自适应编码调制方法中虚拟学习过程的流程图；

图4为本发明一实施例所述卫星通信系统强化学习自适应编码调制方法的运行逻辑结构示意图；

图5为本发明一实施例所述卫星通信系统强化学习自适应编码调制方法中的Q值表结构图；

图6为本发明一实施例所述卫星通信系统强化学习自适应编码调制方法中优先级队列结构示意图；

图7为Q-learning、Dyna-q和Dyna-QP三种算法每次迭代需要的学习步数对比图；

图8为Q-learning、Dyna-q和Dyna-QP三种算法一次迭代的累积奖励对比图；

图9为理想状态、查表法、Q-learning、Dyna-q和Dyna-QP的累计奖励对比图；

图10为本发明一实施例所述卫星通信系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

由于卫星通信方式的特殊性，卫星通信系统的性能会受到多种因素的影响，主要包括信道环境复杂、传输距离长、传输资源有限等问题。因此，需要重点关注卫星通信传输的可靠性和有效性，并研究如何高效且高质量地进行卫星通信传输。

需要预先说明的是，本实施例中的方法基于卫星通信系统运行，所述卫星通信系统至少包括：发送端信关站、接收端信关站和至少一个通信卫星。发送端信关站用于将信息调制编码后发送出去，并通过通信卫星传输至接收端信关站，接收端信关站进行信道状态估计，并对接收到的信号进行解调和译码得到原始信息。

本实施例提供一种卫星通信系统强化学习自适应编码调制方法，用于在发送端信关站运行。参照图1至图4，所述方法包括步骤S101～S104：

需要说明的是，本实施例中步骤S101～S104并不是对步骤先后顺序的限定，应当理解为，在特定的应用场景中各步骤能够调换顺序或并行。

步骤S101：初始化强化学习算法的状态空间、动作空间和Q值表，并预设优先级阈值、优先级队列、虚拟环境模型和探索概率；状态空间为接收端信关站对信道估计得到的信噪比进行离散后得到的各信噪比区间的集合，动作空间为调制编码方式的集合，每一种调制编码方式为一种动作；Q值表中记载衡量给定状态下各调制编码方式的价值，将频谱效率作为奖励回报，虚拟环境模型以当前时刻状态和动作为输入以下一时刻状态和奖励回报为输出；优先级队列用于按照从高到低的顺序存储优先级数值大于预设优先级阈值的状态动作对，初始状态为空。

步骤S102：基于初始调制编码方式发送信号，并获取接收端信关站返回的初始信道状态和初始频谱效率，更新Q值表，计算初始信道状态下各状态动作对的优先级数值并更新优先级队列。

步骤S103：在基于实际信道数据的直接学习过程中，按照探索概率ε选择Q值表中Q值最大的状态动作对的调制编码方式发送信号，或按照1-ε的概率在动作空间中随机选择一种调制编码方式发送信号；接受接收端信关站返回的当前时刻对应的实际频谱效率和下一时刻的实际信道状态，更新Q值表，计算当前时刻采用的状态动作对的优先级数值并更新优先级队列；重复直接学习过程，动态选择编码调制方法。

步骤S104：在直接学习过程中，若接收端信关站某一时刻返回的实际信道状态是首次出现或优先级队列为非空，则在进入下一时刻直接学习过程之前采用虚拟环境模型进行虚拟状态和虚拟奖励回报的更新，并进行虚拟学习直至优先级队列为空且各信道状态收敛，在收敛状态下将虚拟学习得到的Q值表中Q值最大的状态动作对的调制编码方式用于下一时刻直接学习过程的信号发送；在虚拟学习过程中，每一个时刻都优先采用所述优先级队列首位的状态动作对的调制编码方式模拟发送信息，并对Q值表进行更新。

在步骤S101中，发送端信关站对接收端信关站通过信道估计得到的信噪比SNR进行离散化，并将离散后的SNR设置为状态空间。将调制编码方式的集合，即MCS集合，设置为动作空间。如图5所示，Q值表记载某一状态下各动作的价值，在本实施例中，Q值表记载某一时刻状态CSI下采用各调制编码方式MCS的价值，即相应状态动作对CSI-MCS的Q值。本实施例中所述的奖励回报是基于真实环境参数计算得到的观测奖励值。虚拟环境模型用于在虚拟学习过程中，根据当前状态和动作模拟计算出下一时刻的状态和奖励回报，以保证虚拟环境下，强化学习能够持续进行。需要说明的是，虚拟环境模型是根据不同的信道状态设置的，针对特定的信道状态设置不同的虚拟环境模型，虚拟环境模型就是用于模拟信道在真实环境中的工作状态，具体的，虚拟环境模型的具体形式以及工作方式可以参照论文“Sutton and Barto，Reinforcement Learning:An Introduction,MIT Press.”中记载的内容。如图6所示，优先级队列用于按照从高到低的顺序存储优先级数值大于预设优先级阈值的状态动作对，优先级序列中存储回报奖励相对更高的状态动作对CSI-MCS，用于在虚拟学习过程中优先执行，以减少智能体无意义的查找，提高效率。

在一些实施例中，所述奖励回报的计算式为：

其中，M是调制阶数，ber是当前系统的误码率。

在步骤S102中，在起始状态下，可以采用预设的初始调制编码方式发送信号，该初始调制编码方式可以是在动作空间中随机选取的，也可以是基于当前应用场景的状态采用其他方式选取的。获取接收端信关站返回的初始信道状态和初始频谱效率，并开始进行直接学习过程，通过直接强化学习过程选取每个时间步状态下价值最高的动作。

进一步的，在步骤S103给出了直接学习的具体过程，其中基于ε-贪婪策略选取动作，能够极大的提升直接学习过程中的探索性，防止过度收敛。直接学习过程中还计算每一个时间步的状态动作对的优先级数值，用于评价状态动作价值估计的误差，优先级数值越大，则表示该状态动作对价值更高，更应该被关注。本实施例中，设置优先级队列用于存放优先级数值大于优先级阈值的状态动作对，并且在优先级队列中，各状态动作对按照优先级数值从大到小的顺序排列。优先级队列在直接学习和虚拟学习过程中是通用的。

在一些实施例中，所述状态动作对的优先级数值P(s_t，a_t)的计算式为：

进一步的，所述Q值表的更新公式为：

表示t+1时刻状态s_t+1下动作a_t+1的Q值；Q(s_t,a_t)表示t时刻状态s_t下动作a_t的Q值；α为学习速率。

进一步的，在步骤S104中，为了减少与实际工作环境中的交互，发送端信关站在卫星通信运行过程中，每当一种状态首次出现时，就会进入虚拟环境进行学习，使各信道收敛以提高运行控制效率。同时，在某一时刻状态下，若存在一个或多个状态动作对的优先级数值高于优先级阈值，则证明强化学习收敛效果不好，因此，进入虚拟环境进行学习，使强化学习过程优先关注优先级数值较高的状态动作对，以减少无意义的查找，加快各信道状态的收敛。具体表现为，若状态CSI为首次出现或优先级队列为非空，则从直接学习中转入虚拟学习。在虚拟学习过程中，通过虚拟环境模型根据当前时刻的状态和动作预估下一时刻的状态和奖励回报，以实现对真实环境的模拟，保障虚拟学习能够持续进行。在虚拟环境中的每个时刻，也同样计算各状态动作对的优先级数值，并更新真实学习过程和虚拟学习过程中共用且唯一的优先级队列。虚拟环境中的每次动作都优选优先级队列首位的状态动作对的调制编码方式，虚拟学习过程直至优先级队列被取空且各信道状态收敛。这里需要说明，各信道状态的收敛是指在特定状态下，Q值表中各动作的Q值趋于不变。

具体的，所述方法设置多个虚拟环境模型，每个虚拟环境模型分别与一个信噪比区间对应，在虚拟学习过程中，根据当前的虚拟状态选择相应信噪比区间对应的虚拟环境模型计算下一时刻的虚拟状态和虚拟奖励回报。相应的，在虚拟学习过程中，每个时间步还根据相应的虚拟状态更新虚拟环境模型。

在一些实施例中，设置学习速率为0.7～0.9，折扣因子为0.9～0.95，优先级阈值为0.03～0.05。

另一方面，如图10所示，本发明还提供一种卫星通信系统，包括：

发送端信关站，发送端信关站至少包括调制器、编码器和自适应处理模块；

接收端信关站，接收端信关站至少包括信道状态估计模块、解调器和译码器；

一个或多个通信卫星，通信卫星用于连接发送端信关站和接收端信关站进行通信；

信道状态估计模块用于获取信道状态信息并发送至自适应处理模块，自适应处理模块用于上述卫星通信系统强化学习自适应编码调制方法以发送信号。

具体的，自适应处理模块根据选择的调制编码模式控制调制器和编码器对信源的待发送信息进行调制。解调器和译码器根据相应的调制编码方式对接收到的信息进行解码并传输至信宿，即信号接收端。

在一些实施例中，所述系统还设置专用反馈信道，用于信道状态估计向自适应处理模块反馈信道状态信息。

另一方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法的步骤。

另一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述方法的步骤。

下面结合以具体实施例对本发明进行说明：

本实施例提供一种卫星通信系统，如图10所示，包括发送端信关站、接收端信关站和用于中继的通信卫星。发送端信关站设置调制器、编码器和自适应处理模块，接收端信关站设置信道状态估计模块、解调器和译码器，信道状态估计模块对信道状态进行估计，并将信道状态信息通过反馈信道发送至自适应处理模块，自适应处理模块通过强化学习的方式不断根据信道状态学习调整选取调制编码方式发送信号，以获得更好的信号传输质量。

具体的，本实施例基于强化学习的自适应编码调制技术设计了一种针对卫星信道多变性的实时MCS选择算法，在Dyna-q算法的基础上考虑了卫星信道的实时变化与虚拟模型对环境的敏感度，在智能体学习卫星通信信道状态的过程中设计了一个关于CSI-MCS对的优先级函数和一个优先级阈值，本实施例将其称为Dyna-QP算法。将发送端的地面信关站建模为一个智能体，对接收端信道估计得到的信噪比SNR进行离散化，并将离散后的SNR设置为状态空间，将MCS集合设置为动作空间，将系统传输得到的频谱效率设置为奖励回报。通过优先级函数计算每个CSI-MCS对的优先级数值，当CSI-MCS对的优先级数值超过优先级阈值时，对该CSI-MCS对的累计奖励Q值进行更新，并将其加入优先级队列中。模型的规划和状态转移集中在这些奖励较大的CSI-MCS对上，这使得规划过程更加有效，提升了MCS选择算法的收敛性能，并有效提升了系统容量。

算法流程，参照图1、图2和图3：

1)初始化强化学习算法的状态空间、动作空间、学习率、折扣因子、探索概率、迭代次数、优先级阈值、Q值表、虚拟环境模型和优先级队列。

2)初始阶段，发射端信关站按照预设MCS调制编码信号，并经过卫星信道传输到接收端信关站。

3)接收端信关站对接收信号进行信道估计得到SNR，并经过反馈信道将SNR和频谱效率传送给发射端。

4)发送端信关站根据频谱效率更新Q值表，发送端信关站根据ε贪婪策略选择MCS，具体的，以ε的概率随机选择一种调制编码方式MCS，或以1-ε的概率选择Q值表中Q值最大的状态动作对对应的调制编码方式MCS_v。

5)在当前的状态下，计算各动作的优先级数值，并更新虚拟环境模型。判断当前的状态是否是首次出现，即当前CSI是否是首次出现，若是则进入虚拟环境进行循环。同时，更新优先级队列，如果存在状态动作对的优先级数值大于优先级阈值，则将相应的状态动作对按序插入优先级队列中，然后直接进入虚拟环境进行循环。否则直接按照MCS_v进行信号传输。

6)在虚拟环境循环时，在虚拟环境中学习一定次数之后，使得所有信道状态均收敛，得到此时价值最高的MCS，发送端基于此MCS进行自适应编码调制。否则返回第4步。

具体的，以时刻t为例，算法的输入为经过信道估计得到的t时刻的CSI值φ_t和该信道状态下的系统频谱效率eff_t。

S1：初始化所有CSI-MCS对的Q值表Q(s,a)和虚拟模型Model(s,a)，将Q值表Q(s,a)置为0，将优先级队列Queue置为空，优先级队列的大小为MCS动作空间的大小，将t时刻的CSI值φ_t映射为状态s_t，将该信道状态下系统的频谱效率eff_t映射为奖励回报r_t。状态空间S、动作空间A和奖励回报r的数学表达式如下：

S＝{CSI₁，CSI₂，…，CSI_m}； (4)

A＝{MCS₁，MCS₂，…，MCS_n}； (5)

其中，M是调制阶数，ber是当前系统的误码率。

S2：直接学习过程按照随机探索策略根据Q值表选择状态s_t对应的调制编码方式a_t，计算当前CSI-MCS对的频谱效率eff_t，即奖励回报r_t，并得到下一时刻t+1的信道状态信息s_t+1。然后更新CSI-MCS对的Q值，数学公式参照式3：

S3：计算当前状态下各CSI-MCS对(s_t，a_t)的优先级数值，如果优先级阈值P＞τ(阈值)，那么以优先级P(s_t，a_t)将CSI-MCS对(s_t，a_t)按序插入到优先级队列Queue中，优先级函数的数学公式参照式2：

S4：根据t时刻的CSI值φ_t和该信道状态下系统的频谱效率eff_t更新模型Model(s，a)。

S5：判断是否进行虚拟模型循环，若是当前CSI是首次出现(即没有经过虚拟学习过程，应当理解为，对于每中状态对应的Q指标，都首先通过虚拟强化学习过程进行学习收敛)，或非首次循环且优先级队列Queue非空，则进入虚拟模型间接学习过程。否则从第二步开始执行算法。

S6：当优先级队列Queue非空时，取出优先级队列Queue里队首的CSI-MCS对(s_t，a_t)，模型Model(S，A)进行规划得到频谱效率eff′_t和下一时刻t+1的CSI值γ′_t+1，即奖励回报r′_t和状态s′_t+1。

S7：通过优先级函数P(s,a)计算CSI-MCS对的优先级数值P(s_t,a_t)，如果优先级数值P(s_t，a_t)＞τ(阈值)，那么以优先级P(s_t,a_t)将CSI-MCS对(s_t,a_t)按序插入到优先级队列Queue中，优先级函数的数学公式参照式2。

S8：如果优先级队列为空，则从S2开始循环，否则从S5开始执行算法。

具体的，本实施例提出的基于强化学习的自适应编码调制技术通过优先级函数计算CSI-MCS对的优先级数值，使得智能体专注于奖励回报更高的CSI-MCS对，能够以更短的运算时间得到当前卫星信道状态下的更优的调制编码方式。设置系统仿真参数，如表1所示：

表1系统仿真参数

将强化学习算法应用于卫星自适应通信系统中，计算每种算法达到收敛时的步数。强化学习算法的学习参数配置如下表2所示。

表2强化学习仿真参数

参数	值
		学习速率α	0.8
折扣因子γ	0.95
		规划步数n	10
迭代次数m	50
		优先级阈值τ	0.04
每次迭代的步数上限	50

仿真实验结果如图7所示，随着迭代次数的不断增加，三种算法的迭代步数最终都收敛并趋近于1。Q-learning算法的仿真曲线波动较大，且收敛最慢，在迭代22次时收敛。Dyna-q算法和本专利提出的Dyna-QP算法相对收敛较快，在迭代18次时接近收敛。其中Dyna-QP算法收敛步数最少，收敛时间最快。

为了验证Dyna-QP算法的收敛精度，仿真了三种算法随着学习步数的增加对应的动作-价值函数的累积奖励，即最优CSI-MCS对的累积频谱效率值，仿真实验结果如图8所示。在每次迭代过程中，随着学习步数的增加，三种算法的累计奖励都逐步增加。其中，Dyna-QP算法增速最快，Dyna-q算法次之，Q-learning算法增速最慢。Dyna-QP算法在仿真有限的步数内的累计频谱效率明显高于另外两种算法，近似为Dyna-q算法累计奖励的2倍，Q-learning算法累计频谱效率的8倍。与Dyna-q算法相比，Dyna-QP算法的收敛速度明显加快，收敛精度明显提升，并在有限学习步数内得到了可观的奖励回报。

在卫星自适应系统中分别应用MCS固定查表法、基于Q-learning的MCS选择算法、基于Dyna-q的MCS选择算法和本实施例提出的基于Dyna-QP的MCS查表法，仿真结果如图9所示。基于强化学习的MCS选择算法具有良好的表现，与理论值相差较小。在基于模型的强化学习算法中，本实施例提出的基于Dyna-QP的MCS选择算法收敛性最优，因为它基于优先级算法能够专注于价值更高的MCS，在模型与真实低轨卫星通信环境不匹配时及时调整模型，节约了算法的信息复杂度，系统的频谱效率明显高于其他算法。

本实施例提出的应用于卫星通信系统的强化学习自适应编码调制技术通过计算CSI-MCS对的优先级数值对每一个CSI-MCS对的重要性进行量化，根据得到的CSI-MCS对的优先级数值使智能体专注于价值更高的CSI-MCS对。基于强化学习的自适应编码调制方法在卫星通信场景下获得了优于查表法、Q-learning算法和Dyna-q算法的收敛速度和系统容量性能。

综上所述，所述卫星通信系统强化学习自适应编码调制方法、系统及装置中，所述方法基于强化学习的方式在每个状态下选择价值最高的调制编码方式，能够实现对动作的最优。同时，在强化学习过程中，设置了直接学习和虚拟学习两部分，直接学习是直接通过真实数据进行学习并选择调制编码方式进行通信，虚拟学习则基于虚拟环境模型对状态和奖励值的更新进行仿真，并通过虚拟学习更新Q值表至各信道收敛，引入虚拟学习过程可以减少与真实环境的交互，提高收敛速度和通信质量。进一步地，通过对状态动作对设置优先级数值，并在虚拟学习过程中专注于采用优先级数值较高的对状态动作，减少智能体无意义的查找，提高效率。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种卫星通信系统强化学习自适应编码调制方法，其特征在于，用于在发送端信关站运行，所述方法包括：

2.根据权利要求1所述的卫星通信系统强化学习自适应编码调制方法，其特征在于，所述奖励回报的计算式为：

其中，M是调制阶数，ber是当前系统的误码率。

3.根据权利要求2所述的卫星通信系统强化学习自适应编码调制方法，其特征在于，所述状态动作对的优先级数值P(s_t,a_t)的计算式为：

4.根据权利要求3所述的卫星通信系统强化学习自适应编码调制方法，其特征在于，所述Q值表的更新公式为：

5.根据权利要求4所述的卫星通信系统强化学习自适应编码调制方法，其特征在于，所述方法设置多个所述虚拟环境模型，每个所述虚拟环境模型分别与一个信噪比区间对应，在虚拟学习过程中，根据当前的虚拟状态选择相应信噪比区间对应的虚拟环境模型计算下一时刻的虚拟状态和虚拟奖励回报。

6.根据权利要求4所述的卫星通信系统强化学习自适应编码调制方法，其特征在于，所述学习速率为0.7～0.9，所述折扣因子为0.9～0.95，所述优先级阈值为0.03～0.05。

7.一种卫星通信系统，其特征在于，包括：

所述信道状态估计模块用于获取信道状态信息并发送至所述自适应处理模块，所述自适应处理模块用于执行如权利要求1至6任意一项所述卫星通信系统强化学习自适应编码调制方法以发送信号。

8.根据权利要求7所述的卫星通信系统，其特征在于，所述系统还设置专用反馈信道，用于所述信道状态估计向所述自适应处理模块反馈所述信道状态信息。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。