CN111726217B

CN111726217B - 基于深度强化学习的宽带无线通信自主选频方法及系统

Info

Publication number: CN111726217B
Application number: CN202010608306.0A
Authority: CN
Inventors: 张健; 姜锐; 辜方林; 李芳芳; 郭克华; 陈定平
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2021-07-20
Anticipated expiration: 2040-06-29
Also published as: CN111726217A

Abstract

本发明涉及一种基于深度强化学习的宽带无线通信自主选频方法及系统。该方法包括：获取宽带OFDM波形信道；将宽带OFDM波形信道划分为多个独立子信道；将各独立子信道进行感知，将感知结果作为深度强化学习的环境状态信息；获取通信系统的待优化参数，将待优化参数的组合作为深度强化学习的动作空间，动作空间包含多个决策目标；构建深度强化学习神经网络；将环境状态信息作为深度强化学习神经网络的输入，决策目标作为深度强化学习神经网络的输出，对深度强化学习神经网络进行训练，得到训练后的深度强化学习神经网络；根据训练后的深度强化学习神经网络对待预测宽带OFDM波形信道进行自主选频，得到最优信道。本发明能够提高抗干扰能力。

Description

基于深度强化学习的宽带无线通信自主选频方法及系统

技术领域

本发明涉及宽带无线通信自主选频领域，特别是涉及一种基于深度强化学习的宽带无线通信自主选频方法及系统。

背景技术

随着认知无线电通信技术的发展，海量电子设备的增加，可用的频谱资源缺乏问题日益严峻，通信设备工作所面临的电磁环境越来越复杂，亟需提高通信设备在复杂电磁环境下的适应能力，特别是宽带无线通信系统，由于其占用带宽本身较宽，更易受到干扰的影响，提高其在复杂电磁环境下的适应能力显得尤为迫切。在目前无线通信系统中，扩频技术是应用最为广泛和成熟的抗干扰技术。扩频抗干扰技术通常包括直扩和跳频两种方式，其抗干扰的原理是将信号在频域上进行扩展，降低信号功率密度，使目标信号隐藏在干扰信号和噪声中，从而提高系统对干扰的适应能力。然而，对于无线宽带通信系统，由于扩频技术占用带宽和频谱资源高，而当前频谱资源本身受限，很难有足够的带宽提供跳频、扩频增益满足抗干扰的需求。

发明内容

本发明的目的是提供一种基于深度强化学习的宽带无线通信自主选频方法及系统，能够提高抗干扰能力。

为实现上述目的，本发明提供了如下方案：

一种基于深度强化学习的宽带无线通信自主选频方法，所述方法应用于一种基于OFDM传输体制的宽带无线通信系统，所述方法包括：

获取宽带OFDM波形信道；

将所述宽带OFDM波形信道进行划分，得到多个独立子信道；

将各所述独立子信道进行感知，得到感知结果，将所述感知结果作为深度强化学习的环境状态信息；

获取通信系统的待优化参数，将所述待优化参数的组合作为深度强化学习的动作空间，所述动作空间包含多个决策目标；

构建深度强化学习神经网络；

将所述环境状态信息作为所述深度强化学习神经网络的输入，所述决策目标作为深度强化学习神经网络的输出，对所述深度强化学习神经网络进行训练，得到训练后的深度强化学习神经网络；

获取待预测宽带OFDM波形信道；

根据所述训练后的深度强化学习神经网络对所述待预测宽带OFDM波形信道进行自主选频，得到最优信道。

可选的，所述将各所述独立子信道进行感知，得到感知结果，具体包括：

通信双方对各所述独立子信道的工作频段内频谱空洞的具体位置进行感知，得到感知信息；

将所述感知信息通过信令进行交互综合，得到感知结果。

可选的，所述动作空间包含信道选择、发射功率选择、调制方式选择和中心频率选择多个决策目标。

可选的，所述将所述环境状态信息作为所述深度强化学习神经网络的输入，所述决策目标作为深度强化学习神经网络的输出，对所述深度强化学习神经网络进行训练，得到训练后的深度强化学习神经网络，具体包括：

决策方以感知到的信道条件作为环境状态信息s，决策行为作为决策目标a，将效用函数作为深度强化学习中的回报函数r，观察动作执行后的系统状态s'，组合{s,a,r,s'}构建经验e；

根据所述经验基于经验回放机制和小批量梯度下降算法对深度强化学习神经网络进行训练，得到训练后的深度强化学习神经网络。

一种基于深度强化学习的宽带无线通信自主选频系统，包括：

宽带OFDM波形信道获取模块，用于获取宽带OFDM波形信道；

信道划分模块，用于将所述宽带OFDM波形信道进行划分，得到多个独立子信道；

信道感知模块，用于将各所述独立子信道进行感知，得到感知结果，将所述感知结果作为深度强化学习的环境状态信息；

动作空间确定模块，用于获取通信系统的待优化参数，将所述待优化参数的组合作为深度强化学习的动作空间，所述动作空间包含多个决策目标；

深度强化学习神经网络构建模块，用于构建深度强化学习神经网络；

训练模块，用于将所述环境状态信息作为所述深度强化学习神经网络的输入，所述决策目标作为深度强化学习神经网络的输出，对所述深度强化学习神经网络进行训练，得到训练后的深度强化学习神经网络；

待预测宽带OFDM波形信道获取模块，用于获取待预测宽带OFDM波形信道；

最优信道确定模块，用于根据所述训练后的深度强化学习神经网络对所述待预测宽带OFDM波形信道进行自主选频，得到最优信道。

可选的，所述信道感知模块，具体包括：

感知单元，用于通信双方对各所述独立子信道的工作频段内频谱空洞的具体位置进行感知，得到感知信息；

交互单元，用于将所述感知信息通过信令进行交互综合，得到感知结果。

可选的，所述训练模块，具体包括：

经验构建单元，用于决策方以感知到的信道条件作为环境状态信息s，决策行为作为决策目标a，将效用函数作为深度强化学习中的回报函数r，观察动作执行后的系统状态s'，组合{s,a,r,s'}构建经验e；

训练单元，用于根据所述经验基于经验回放机制和小批量梯度下降算法对深度强化学习神经网络进行训练，得到训练后的深度强化学习神经网络。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明主要针对单音干扰，窄带干扰和扫频干扰研究抗干扰决策，通过将宽带通信系统的带宽划分为若干个子信道，然后对子信道进行感知，依据电磁环境的动态改变，智能决策出最优的抗干扰策略，(策略包括用于通信的子信道的数量和分布，调制方式，发射功率等)，实现自适应抗干扰传输。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于深度强化学习的宽带无线通信自主选频方法流程图；

图2为本发明基于深度强化学习的宽带无线通信自主选频系统结构图。

图3为基于自主选频机制的链路自适应应用模型框图；

图4为OFDM波形信道带宽子信道划分模型示意图；

图5为射频前端工作频段的子信道划分示意图；

图6为基于自主选频机制的链路自适应应用模型示意图；

图7为基于自主选频机制的干扰规避应用模型示意图；

图8为本发明所采用的Deep Q-Learning算法模型结构图；

图9DQN算法的神经网络模型架构图；

图10为本发明结合场景的算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

注意到干扰在时、空、频等多域呈现出碎片化的分布特征，且这种分布特征往往不是快速时变的(非对抗环境)。故自主选频通信技术引入机会频谱接入的思想，它将系统工作频段内无干扰或干扰功率低于门限值的子频段视为“频谱空洞”，通信双方实时感知工作频段内频谱空洞的具体位置，并通过信令对频谱空洞信息进行交互。收端根据交互后得到的工作频段内频谱空洞信息作出决策并通知发方动态调整工作频率或其它通信参数，在满足接收性能需求的同时，将干扰对系统性能的影响减到最低，极大地提高系统的抗干扰能力。因此，自主选频是提升宽带无线通信设备抗干扰能力的重要手段。

人工智能以其解决复杂问题的高效性被广泛用于认知学习。本专利用到的强化学习算法是一种与模型无关的学习算法，其模型构建于环境与智能体的交互，是对状态动作对的值函数进行估计来求得的最优策略。将强化学习和认知无线电有机的结合起来，面对智能干扰器产生的不同干扰问题，嵌入强化学习算法的认知引擎能够通过对策略选择的试错和环境反馈信息，动态的调整认知系统的参数和策略选择情况，进而能够在环境信息不充分的条件下，相比于随机的选择策略有效的改善通信质量。

图1为本发明基于深度强化学习的宽带无线通信自主选频方法流程图。如图1所示，一种基于深度强化学习的宽带无线通信自主选频方法，所述方法应用于一种基于OFDM传输体制的宽带无线通信系统，所述方法包括：

步骤101：获取宽带OFDM波形信道。

步骤102：将所述宽带OFDM波形信道进行划分，得到多个独立子信道。

先将宽带OFDM波形信道设计为若干个独立子信道，这样每个子信道相互独立可以单独控制，也让后来的决策目标更加细化。然后使用宽带OFDM波形子信道带宽为基本单元将通信设备的射频前端工作带宽划分为整数个子信道。

该方法是建立在基于OFDM传输体制的宽带无线通信系统之上，设定宽带OFDM波形信道带宽为f_BW，OFDM体制采用N_sub个子载波，在此基础上，将信道带宽划分为N个独立的子信道，则每个信道占用L个子载波，且N_sub＝N×L。以OFDM体制波形的子信道带宽为基本单元，将射频前端带宽划分为M个子信道，将子信道编号为[-M/2,…,M/2-1]，假设射频前端的中心工作频点为f_c，则每个子信道的中心频点为f_m＝f_c+m×f_b。通过将宽带OFDM波形信道设计为若干独立子信道，同时将共享频段以宽带OFDM波形子信道带宽为基本单元划分为整数个子信道带宽，在发送端根据信道和干扰条件使用深度强化学习算法动态选择“时频空洞”发送有效信息，接收端通过选择工作的中心频率，结合宽带OFDM波形信道带宽的模拟滤波滤除带外干扰，防止干扰阻塞，在此基础上，以低速采样构造低实现复杂度的自主选频系统，确保信息在有效子信道上实现高可靠性、自适应速率传输。

步骤103：将各所述独立子信道进行感知，得到感知结果，将所述感知结果作为深度强化学习的环境状态信息，具体包括：

通信双方对各所述独立子信道的工作频段内频谱空洞的具体位置进行感知，得到感知信息。

将所述感知信息通过信令进行交互综合，得到感知结果。

由于工作带宽内信道条件如信道信息、干扰类型、干扰参数等都是时变的，所以通信双方需要实时感知工作频段内时变的信道条件，其中感知结果以基于功率谱的区域波动性指标的形式给出，该指标能够很好的反映出有用信号，干扰，底噪之间的差异。虽然通信双方感知的频段是相同的，但由于地理位置的不同，信道环境和受干扰情况有所不同，感知的结果也不尽相同，故通信双方通过信令对感知信息进行交互综合双方感知结果，并将结果作为深度强化学习中的环境状态信息S。

步骤104：获取通信系统的待优化参数，将所述待优化参数的组合作为深度强化学习的动作空间，所述动作空间包含多个决策目标，所述动作空间包含信道选择、发射功率选择、调制方式选择和中心频率选择多个决策目标。

抗干扰决策问题实际上是一个动态变化的无线环境中对通信系统的众多参数进行优化的问题，不同的应用场景待优化的参数有所不同，将候选参数的组合设定为决策空间。如信道选择、发射功率选择、调制方式选择、中心频率选择等。并将该决策空间作为深度强化学习中的动作空间A。设计与决策目标相对应的效用函数r作为深度强化学习中的回报函数，用于在某个环境状态下对当前的决策动作做出评价。

步骤105：构建深度强化学习神经网络。

步骤106：将所述环境状态信息作为所述深度强化学习神经网络的输入，所述决策目标作为深度强化学习神经网络的输出，对所述深度强化学习神经网络进行训练，得到训练后的深度强化学习神经网络，具体包括：

决策方以感知到的信道条件作为环境状态信息s，决策行为作为决策目标a，将效用函数作为深度强化学习中的回报函数r，观察动作执行后的系统状态s'，组合{s,a,r,s'}构建经验e。

为了使DQN模型即深度强化学习算法的模型能得到最优策略需要训练模型来得到最优的DQN参数θ，步骤如下：

首先初始化训练网络和目标网络的权重参数，初始化经验池D，随机初始化当前状态信息s＝s₀，然后以等概率策略选择初始动作a＝a₀，并执行该动作，计算当前状态动作对的效用函数r，对当前的动作决策做出评价，利用感知方对信道的实时监测能观察到下一环境状态s'，将获得的状态相关信息(s,a,r,s')存入经验池中。经验池D是一个先入先出的队列，由各经验e组成，若放入的经验总数大于d，则将最先放入的经验丢弃。当经验池中样本积累足够时更新预测Q网络参数θ，从经验池D中抽取B个经验组成集合来基于小批量样本采用随机梯度下降算法更新预测Q网络的权重参数。每经过C次迭代后，更新目标Q网络的权重参数为训练Q网络的权重参数。

步骤107：获取待预测宽带OFDM波形信道。

步骤108：根据所述训练后的深度强化学习神经网络对所述待预测宽带OFDM波形信道进行自主选频，得到最优信道。

本发明首先将宽带OFDM波形信道设计为若干个独立子信道，同时将射频前端工作频段以宽带OFDM波形子信道带宽为基本单元划分为整数个子信道。然后通信双方实时感知工作频段内频谱空洞的具体位置，并通过信令对频谱空洞信息进行交互，将交互后得到的感知信道信息以状态序列的方式作为DQN(Deep Q-Learning)模型状态输入s，状态序列包括当前系统状态和先前系统状态。最后决策方结合应用场景相应地进行动态决策，将决策动作视为DQN模型的动作信息a；根据决策目标定义相应的效用函数r作为深度强化学习中的回报函数，衡量动作选择性能。该方法中，状态信息作为已知条件，通信双方中的决策方作为主体决策动作选择，构建DQN强化学习模型，决策方与环境不断交互获得经验，并使用经验来训练DQN模型得到最优参数，从而得到各个状态下的最优策略。本方法在满足接收性能需求的同时，将干扰对系统性能的影响减到最低，极大地提高系统的抗干扰能力。

其应用模型根据射频前端工作的带宽和OFDM体制波形信道带宽大小，可以分为两种情况。当射频前端工作频段固定且只有OFDM体制波形信道带宽时，使用该方法构建基于自主选频机制的链路自适应应用模型。当射频前端工作频段较宽，远大于OFDM体制波形信道带宽时，构建基于自主选频机制的干扰规避应用模型。

1.基于自主选频机制的链路自适应应用模型

传统链路自适应模型是根据时变的信道条件动态选择不同传输效率和性能的调制编码方式(Modulation and Coding Scheme，MCS)，其主要研究内容是优化MCS切换门限，以获得最大的吞吐量。与传统的链路自适应模型不同，该模型中由于采用OFDM波形信道带宽子信道划分模型，不但可以根据时变的信道和干扰条件使用深度强化学习算法动态选择不同传输效率和性能的MCS，还可以动态选择子信道数目和子信道的分布，以获得最大的吞吐量。该模型基于深度强化学习算法，结合OFDM机制下宽带无线通信系统场景，综合信道选择和发射功率等参数分配问题，能有效解决未知干扰类型情况下的链路自适应问题，对比于传统选择策略能有效提高效能。

2.基于自主选频机制的干扰规避应用模型

该干扰规避应用模型中，如同模型1一样也是结合OFDM机制下宽带无线通信系统场景，但由于射频前端工作频段较宽，远大于OFDM体制波形信道带宽，发送端中心工作频点f_Tc和接收端中心工作频点f_Rc不再相同，而频段内的干扰的强度和频谱分布会根据时间变化，那么就需要接收端根据时变的信道和干扰条件动态选择中心频点f_Rc来实现干扰规避。其中通过模拟滤波来实现带外干扰抑制，防止阻塞。由于结合的场景的不同，所以该模型的决策目标相比于模型1有所不同，但使用的方法仍然一致。该模型是基于深度强化学习算法，结合OFDM机制下宽带无线通信系统场景，根据环境状态信息动态选择接收端的中心频点来实现干扰规避。

图2为本发明基于深度强化学习的宽带无线通信自主选频系统结构图。如图2所示，一种基于深度强化学习的宽带无线通信自主选频系统包括：

宽带OFDM波形信道获取模块201，用于获取宽带OFDM波形信道。

信道划分模块202，用于将所述宽带OFDM波形信道进行划分，得到多个独立子信道。

信道感知模块203，用于将各所述独立子信道进行感知，得到感知结果，将所述感知结果作为深度强化学习的环境状态信息。

动作空间确定模块204，用于获取通信系统的待优化参数，将所述待优化参数的组合作为深度强化学习的动作空间，所述动作空间包含多个决策目标，所述动作空间包含信道选择、发射功率选择、调制方式选择和中心频率选择多个决策目标。

深度强化学习神经网络构建模块205，用于构建深度强化学习神经网络。

训练模块206，用于将所述环境状态信息作为所述深度强化学习神经网络的输入，所述决策目标作为深度强化学习神经网络的输出，对所述深度强化学习神经网络进行训练，得到训练后的深度强化学习神经网络。

待预测宽带OFDM波形信道获取模块207，用于获取待预测宽带OFDM波形信道。

最优信道确定模块208，用于根据所述训练后的深度强化学习神经网络对所述待预测宽带OFDM波形信道进行自主选频，得到最优信道。

所述信道感知模块203，具体包括：

感知单元，用于通信双方对各所述独立子信道的工作频段内频谱空洞的具体位置进行感知，得到感知信息。

所述训练模块206，具体包括：

经验构建单元，用于决策方以感知到的信道条件作为环境状态信息s，决策行为作为决策目标a，将效用函数作为深度强化学习中的回报函数r，观察动作执行后的系统状态s'，组合{s,a,r,s'}构建经验e。

图3为基于自主选频机制的链路自适应应用模型框图；图4为OFDM波形信道带宽子信道划分模型示意图；图5为射频前端工作频段的子信道划分示意图；

图6为基于自主选频机制的链路自适应应用模型示意图；图7为基于自主选频机制的干扰规避应用模型示意图；图8为本发明所采用的Deep Q-Learning算法模型结构图；图9为DQN算法的神经网络模型架构图；图10为本发明结合场景的算法流程图。

实施例1：

基于自主选频机制的链路自适应应用模型，模型框图如图3所示，分为实时决策部分和模型训练部分，其中DQN模型训练部分是将频谱感知的结果以状态序列的方式作为环境信息输入，将频谱资源、波形参数、发射功率等参数决策结果作为输出，通过交互机制根据环境给予的反馈来不断更新网络的参数，将参数最优化，而最优参数其对应着最优策略。实时决策部分是将频谱感知的结果以状态序列的方式输入到训练好的DQN模型中去，得到对应状态下的最优决策结果。该模型建立在基于OFDM传输体制的宽带无线通信系统之上，OFDM波形信道带宽子信道划分如图4所示，设定宽带OFDM波形信道带宽为f_BW，OFDM体制采用N_sub个子载波，在此基础上，将信道带宽划分为N个独立的子信道，则每个信道占用L个子载波，且N_sub＝N×L。然后以OFDM体制波形的子信道带宽为基本单元对射频前端工作频段进行划分，划分模型如图5所示。将射频前端带宽划分为M个子信道，将子信道编号为[-M/2,…,M/2-1]，假设射频前端的中心工作频点为f_c，则每个子信道的中心频点为f_m＝f_c+m×f_b。决策方法具体步骤如下：

(1)该模型射频前端工作频段固定，且只有OFDM体制波形信道带宽大小，故发送方和接收方的中心频点相同，如图6所示通信双方实时感知工作频段内时变的信道条件，获得工作频段内的有效子信道和无效子信道，虽然通信双方感知的频段是相同的，但由于地理位置的不同，信道环境有所不同，感知的结果也不尽相同，故通信双方通过信令对感知信息进行交互，综合双方感知结果将同时判定为有效子信道的保留其余视为无效子信道，并将感知结果以状态序列的方式作为深度强化学习中的环境状态信息S。

(2)模型设定射频前端工作带宽共划分为M个子信道，设通信双方感知信息交互后得到K个有效子信道，则可选的子信道组合共有J＝2^K种。表示为如下集合:

F＝{F₀,F₁,...,F_J}

系统具有M₁种调制方式可选，表示为如下集合:

系统在发射功率上用干信比的方式表示，共M₂种可选，表示为如下集合:

确定了系统各个域的决策变量后，决策空间可以表示为：

A＝F×Mod×SIR

将其作为深度强化学习中的动作空间。

(3)评价通信系统的一个有效指标为误比特率，误比特率衡量了通信中传输消息的准确度。除了误比特率外还有一个指标为通信速率。通常来说，通信系统想要在误比特率低的前提下提高通信速率，但是提高通信速率需要较大的通信功率外，还需要高阶的调制方式，但是高阶的调制方式会带来误比特率的提高。所以要在这三者之间达到一个平衡。在适当的功率的前提下，提高通信速率，降低误码率。因此强化学习的目标可以由误比特率，通信速率，发射功率加权得到。

reward＝-ω₁log(ber)-ω₂SIR+ω₃R/R_max

由于主要针对的恶意干扰，所以发射功率使用干信比替代。强化学习追求的是最大化回报函数，而通信系统要求误比特率以及功率尽可能低，所以二者的权重为负。而对于通信来说，最重要的肯定是误比特率，所以三者的权重给予误比特率最大的权重0.8，其余两个分别是0.1。

(4)模型采用DQN算法来实现根据感知得到的信道信息对子信道数目和子信道的分布，传输速率和发射功率等参数的动态决策。DQN算法模型如图8所示，表示状态-动作对＜s,a＞的Q值。智能体建立两个卷积神经网络，预测网络Q(s,a；θ)用于评估当前状态动作对的价值函数，目标网络用以产生如下式所示的时间差分目标价值。

在时间差分学习中，算法估计某一状态值时，使用关于该状态的即时奖励r和下一状态的预测值

乘以衰减系数γ作为时间差分目标对状态值进行更新。DQN算法的神经网络模型架构如图9所示，由3个卷积层以及1个全连接层构成。输入层为64*64的状态序列，卷积层1使用32个5*5的卷积核，步长为2产生32个30*30的特征图，卷积层2使用64个3*3的卷积核，步长为2产生64个14*14的特征图，卷积层3使用64个3*3的卷积核，步长为2产生64个7*7的特征图，全连接层将特征向量进行拉伸，得到一个7*7*64的特征张量，使用全连接操作输出512个神经元。当DQN模型中神经网络的参数θ为最优参数θ^*时，相应的Q值为最大Q值，最优策略π^*可以由下式表示:

为了优化得到最优参数θ^*，需要用智能体获得的经验来训练DQN中的神经网络。智能体在时刻t根据预测网络生成的Q值采用ε贪婪规则对动作a_t行选择并执行，获取执行动作环境所给予反馈r_at，以及下一个状态s_t+1。将组合

定义为经验e_t，然后将该经验放入一个大小为d的经验池D中，经验池D是一个先入先出的队列，若放入的经验总数大于d，则将最先放入的经验丢弃。待经验池中经验样本数量足够时则对参数θ进行更新，更新时从D中抽取B个经验组成集合，采用均方误差计算时间差分误差作为损失函数，使用小批量随机梯度下降的方法对参数进行优化。结合以上技术，θ的更新公式可以定义为:

式中，

式中θ'表示目标DQN中的参数；B_t表示在时刻t从经验池中抽取的集合；γ表示折损参数表示随着时间的增加，越往后的时间策略对当前状态造成的影响衰减情况；

表示经验集合的一个经验.通过智能体与环境的不断交互，不断重复上述过程，参数的不断更新最终趋于稳定则DQN训练完成。DQN算法具体流程如算法1所示：

算法1Deep Q-Learning算法

输入:γ,B,M,K

初始化训练DQN参数θ和目标DQN参数θ'，令θ'＝θ；建立一个大小为d的先入先出的队列作为经验池D

for t＝1:T

观察环境得到状态s，根据ε贪婪规则选择动作a

采取动作a，获取环境给与的反馈r_a(s,s')，并观察得到新状态s'

将得到的经验＜s,a,r_a(s,s'),s'＞组合经验e_t，并将e_t放入经验池D中

从经验池中选取B个经验形成经验集合B_t，根据下式

更新θ

若t mod C＝＝0，则令θ'＝θ

end for

实施例2：

基于自主选频机制的干扰规避应用模型，其模型示意图如图7所示。它也是建立在OFDM传输体制的宽带无线通信系统之上。OFDM波形信道带宽子信道划分如图4所示，将信道带宽划分为N个独立的子信道。将射频前端工作频段视为共享频段以OFDM波形信道带宽为基本单元将射频前端带宽划分为M个子信道，如图5所示。但由于射频前端工作频段较宽，远大于OFDM体制波形信道带宽，发送端中心工作频点f_Tc和接收端中心工作频点f_Rc不再相同，而频段内的干扰的强度和频谱分布会根据时间变化，那么就需要接收端根据时变的信道和干扰条件动态选择中心频点f_Rc来实现干扰规避。具体步骤如下：

(1)由于在该模型通信设备的射频前端工作频段较宽，远大于OFDM体制波形信道带宽，所以通信双方都针对射频前端工作频段进行实时感知，感知频段内时变的信道条件，获得工作频段内的有效子信道和无效子信道，综合双方感知结果并将其以状态序列的方式作为深度强化学习中的环境状态信息S，相比于模型1由于带宽的增加，环境信息更加复杂。

(2)如图7所示，模型将大小为OFDM波形信道带宽(共N个子信道)的接收端工作频段看成一个滑窗，通过改变中心频点的位置在射频前端的工作频段(共M个子信道)内进行滑窗操作，可选的情况共有J＝M-N种，表示为如下集合:

F＝{F₀,F₁,...,F_J}

将其作为深度强化学习中的动作空间A。

(3)设定接收端工作频段内N个大小为OFDM波形信道带宽的子信道中共有个K个有效子信道，模型将这K个有效子信道的信干燥比(SINR)的均值定义为效用函数R，作为动作选择性能衡量标准：

R(s,a)＝SINR(s,a)

其中，

其中P_Ri为第i号有效子信道上的发射功率，P_Ji为第i号有效子信道的干扰功率，α为干扰功率在接收端的衰减因子。

(4)该模型使用的决策算法同模型1中介绍的DQN算法模型一致，但该模型的场景有所不同，所以决策目标有所不同，环境信息也更加复杂。使用该模型场景下的环境、动作、回报函数设定构建DQN模型，以频谱感知结果作为输入，输出中心工作频点选择策略。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度强化学习的宽带无线通信自主选频方法，所述方法应用于一种基于OFDM传输体制的宽带无线通信系统，其特征在于，包括：

获取宽带OFDM波形信道；

将所述宽带OFDM波形信道进行划分，得到多个独立子信道；

构建深度强化学习神经网络；

获取待预测宽带OFDM波形信道；

根据所述训练后的深度强化学习神经网络对所述待预测宽带OFDM波形信道进行自主选频，得到最优信道；

所述将各所述独立子信道进行感知，得到感知结果，具体包括：

将所述感知信息通过信令进行交互综合，得到感知结果。

2.根据权利要求1所述的基于深度强化学习的宽带无线通信自主选频方法，其特征在于，所述动作空间包含信道选择、发射功率选择、调制方式选择和中心频率选择多个决策目标。

3.根据权利要求1所述的基于深度强化学习的宽带无线通信自主选频方法，其特征在于，所述将所述环境状态信息作为所述深度强化学习神经网络的输入，所述决策目标作为深度强化学习神经网络的输出，对所述深度强化学习神经网络进行训练，得到训练后的深度强化学习神经网络，具体包括：

4.一种基于深度强化学习的宽带无线通信自主选频系统，其特征在于，包括：

宽带OFDM波形信道获取模块，用于获取宽带OFDM波形信道；

最优信道确定模块，用于根据所述训练后的深度强化学习神经网络对所述待预测宽带OFDM波形信道进行自主选频，得到最优信道；

所述信道感知模块，具体包括：

5.根据权利要求4所述的基于深度强化学习的宽带无线通信自主选频系统，其特征在于，所述动作空间包含信道选择、发射功率选择、调制方式选择和中心频率选择多个决策目标。

6.根据权利要求4所述的基于深度强化学习的宽带无线通信自主选频系统，其特征在于，所述训练模块，具体包括：