CN115412105B

CN115412105B - 基于usrp rio的强化学习通信干扰方法

Info

Publication number: CN115412105B
Application number: CN202210487299.2A
Authority: CN
Inventors: 田峰; 陈宇航; 王展; 侯跃峰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2024-03-12
Anticipated expiration: 2042-05-06
Also published as: CN115412105A

Abstract

本发明公开了一种基于USRP RIO的强化学习通信干扰方法，基于数据处理中心、工作在相同频带上的干扰机、发射机，以及与发射机连接的接收机；实现干扰机对发射机与接收机进行通信干扰；干扰机的感知节点周期性地扫描监测发射机与接收机之间的通信环境，获得发射机与接收机之间频谱数据信息，并发送给数据处理中心；数据处理中心接收并处理该频谱数据信息，获取通信信道信息，并且应用预设已训练好的Q学习引擎模型，获得通信信道信息对应的Q表信息，所述Q表信息包括干扰机当前状态信息S_n与干扰机当前状态信息S_n所对应其下一动作信息a _n的Q值；干扰机周期性读取Q表信息的Q值，并根据Q值对发射机与接收机进行通信干扰。

Description

基于USRP RIO的强化学习通信干扰方法

技术领域

本发明涉及通信领域，具体而言涉及基于USRP RIO的强化学习通信干扰方法。

背景技术

随着现代通信技术的发展，为了应对干扰问题，各种通信抗干扰方法层出不穷。在这样的环境下，传统的干扰技术越来越难以发挥作用。近些年来，人工智能技术的发展传统的干扰技术提供了新的解决思路。

认知无线电Cognitive Radio,CR，又被称为智能无线电，它的主要特征是灵活、智能、可重配置等。认知无线电技术可以通过硬件设备来感知外界的无线环境，并使用人工智能技术从环境中学习环境数据特征，从而实时调整相关通信参数，比如发射功率、载波频率和调制技术等，使其内部状态自动适应接收到的无线信号的变化情况，进一步实现任何时间、任何地点的高可靠通信以及对异构网络环境下的对有限的无线频谱资源进行高效地利用。认知无线电的核心思想就是通过频谱感知和系统的智能学习能力，实现动态频谱分配和频谱共享等。

频谱感知技术是指认知用户通过各种信号检测和处理手段来获取无线网络中的频谱使用信息，也是认知无线电技术的主要应用之一。能量检测是频谱感知方法中被研究和使用最多的一种算法。能量检测算法的一种实现方式是通过使用快速傅里叶变换将信号从时域转换至频域，然后测量频域信号中的各个频点能量，从而计算得到功率谱密度。最后，根据目标频带对应的功率谱密度，进行判断该目标频段是否有授权用户正在使用。

软件无线电技术Software Defined Radio，SDR，是在研究认知无线电时最常用的技术手段。软件无线电技术的核心是构造一个具有开放性、标准性、模块性的通用硬件平台，然后通过软件编程的方式来实现各种无线电通信功能，包括工作频段、调制解调类型、数据格式、通信协议等等。USRP RIO软件无线电平台是美国国家仪器公司发布的通用软件无线电平台，也是近几年来较为成熟的软件无线电平台之一。与其他的软件无线电设备相比，它使用的开发环境与语言是LabView，并且硬件处理能力更好，操作更方便，它的可调硬件参数更加的广泛，数值更加精确。

发明内容

本发明的目的在于，针对复杂的无线频谱空间中通信对抗问题，为了更好地干扰通信系统的通信，通过研究现有的通信干扰方法提供基于USRP RIO的强化学习通信干扰方法。

为实现上述目的，本发明提供如下技术方案：基于USRP RIO的强化学习通信干扰方法，基于数据处理中心、工作在相同频带上的干扰机、发射机，以及与发射机通信连接的接收机；实现干扰机对发射机与接收机进行通信干扰；所述干扰机的感知节点周期性地在预设扫描频段内扫描监测发射机与接收机之间的通信环境，获得发射机与接收机之间频谱数据信息，并将所述频谱数据信息发送给数据处理中心；所述数据处理中心接收并处理该频谱数据信息，进一步获取发射机与接收机的通信信道信息，基于该通信信道信息，应用预设已训练好的Q学习引擎模型，获得对应的Q表信息，所述Q表信息包括干扰机当前状态信息S_n与干扰机当前状态信息S_n所对应其下一动作信息a_n的Q值；所述干扰机周期性读取Q表信息的Q值，并根据Q值对发射机与接收机进行通信干扰。

进一步地，前述的数据处理中心基于干扰机感知节点周期性所获发射机和接收机之间的频谱数据信息，执行以下步骤A至步骤B获得实时通信信道信息；

步骤A：基于发射机与接收机之间频谱数据信息，数据处理中心对所述频谱数据信息进行采样处理，获得采样后的频谱数据信息；随后进入步骤B；

步骤B：对采样后的频谱数据信息进行频谱资源判决,获得发射机与接收机的通信信道信息。

进一步地，前述的Q学习引擎模型，基于通信信道信息，按照如下W训练方法获得：以通信信道信息为输入、通信信道信息所对应的Q表信息中的Q值为输出，针对预设带训练网络进行训练，获得Q学习引擎模型。

进一步地，通过步骤W1至步骤W5，针对待训练网络进行训练，获得Q学习引擎模型；

步骤W1：基于通信信道中干扰机当前状态信息Sn＝(jn,un)，jn表示干扰机当前干扰的信道，un表示当前通信用户使用的通信信道，计算当前状态信息Sn对应的下一动作信息a_n,a_n＝jn+1，并执行动作a_n，随后进入步骤W2；

步骤W2：计算当前通信用户使用的通信信道的下一通信信道信息u_n+1，并计算动作信息a_n的奖励值r_n，并更新干扰机状态为S_n＝S_n+1，对Q表中的Q值进行更新，随后返回步骤W1；

进一步地，前述的Q表信息中的Q值按如下公式：

Q_n+1(s_n,a_n)＝(1-α)Q_n(s_n,a_n)+α(r_n+γ*maxQ_n(s_n+1,a))，进行更新，

其中：α为学习率；Q_n(s_n,a_n)表示n时刻Q表中状态为s_n动作为a_n的Q值；s_n+1是在s_n状态选择动作a_n后的下一个状态；r_n表示执行动作a_n后获得的奖励；γ为折扣因子，表示未来奖励的重要性；r_n+γ*maxQ_n(s_n+1,a)表示本次Q函数的估计奖励值，Q_n+1(s_n,a_n)表示更新的Q值，最后在每次决策后更新Q表。

进一步地，前述的步骤A中，数据处理中心对所述频谱数据信息进行采样处理按如下方法进行采样：预设采样率M对所述频谱数据信息进行采样处理进行采样。

进一步地，前述的步骤B中，对采样后的频谱数据信息进行频谱资源判决,包括执行步骤B1至步骤B2；

步骤B1：对采样后的频谱数据信息通过如下公式M：

进行判决，获得通信信道信息；其中，E_i为不同的感知节点的同一频段能量检测的频谱数据信息的均值，i为不同的感知节点，N为感知节点的数量，h₀和h₁分别为判断空闲频谱数据信息和非空闲频谱数据信息的判决门限，F代表了通信信道信息的判决结果；当判决结果F＝-1时，表明该频谱数据信息为未被使用的空闲频谱数据信息，即该通信信道进为空闲信道；当判决结果F＝1时，表明该频谱数据信息为已被使用的非空闲频谱数据信息，即该通信信道进为正在通信的信道；当判决结果F＝0时，即无法准确界定该频谱数据信息是否已被使用；

如果判决结果F＝-1，则返回步骤B1；

如果判决结果F＝1，则返回步骤B1；

如果判决结果F＝0，则进入步骤B2；

步骤B2：统计当次判决的所有感知节点的同一频段能量检测的频谱数据信息的均值E_i，随后进入步骤B3或步骤B4；

步骤B3：统计当次判决的所有E_i<h₀的感知节点的数量N₀，如果N₀>N/2，则判决结果为F＝-1；如果N₀<N/2，则判决结果为F＝1；如果N₀＝N/2，则进入步骤B1；

步骤B4：统计当次判决的所有E_i>h₁的感知节点的数量N₁，如果N₁>N/2，则判决结果为F＝1，如果N₁<N/2，则判决结果为F＝-1；如果N_1＝N/2，则返回步骤B1。

进一步地，前述的干扰机通过能量检测的方法周期性获得发射机和接收机之间的频谱数据信息。

本发明的基于USRP RIO的强化学习通信干扰方法，与传统的通信干扰技术相比，基于强化学习的通信干扰技术具有一定的学习能力，干扰机能够学习通信用户的信道切换策略，在动态环境中快速做出干扰决策。通过基于USRP RIO软件无线电平台搭建的测试环境，验证了基于强化学习的通信干扰技术能够有效干扰通信用户的通信过程。本方案在实验室环境下，使用USRP RIO平台和LabView编程软件，进行了一系列的系统设计与实验，有效验证了本方案在实际环境中能够有效地干扰通信用户的通信，完成干扰任务。

附图说明

图1为系统模型图；

图2为本发明系统流程图；

图3为感知节点功能简图；

图4为感知节点数据封装图；

图5为发射机功能简图；

图6为接收机功能简图；

图7为数据处理中心功能简图

图8为发射机射频参数设置图；

图9为接收机射频参数设置图；

图10为发射机的视频播放截图；

图11为接收机的视频播放截图；

图12为正常传输视频数据的星座图；

图13为正常传输视频的误码率图；

图14为干扰机的射频参数配置图；

图15为发生干扰的视频播放截图；

图16为发生干扰的误码率；

图17为发生干扰的星座图；

图18为不同算法的有效干扰概率变化曲线。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本发明中参照附图来描述本发明的各方面，附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解，本发明通过上面介绍的多种构思和实施例，以及下面详细描述的构思和实施方式中的任意一种来实现，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

本发明的实验平台：在软件无线电中，除了基本的变频、A/D、D/A转换以及射频驱动由硬件平台USRP RIO 2943R实现，其余的功能都是由软件的形式设计完成。整个通信过程除去基本的收发功能外，几乎所有的扩展功能都是需要自行设计和编程。NI USRP RIO2943R的一系列物理参数如下：可调频率范围是1.2GHz～6GHz，实时带宽为40MHz，PCIex4总线速度800MB/s，Kintex7 FPGA芯片。实验的软件部分是使用LabView2015进行设计和调试程序。在软件本身提供的射频收发驱动的基础上，扩展一系列本发明需求的功能，从而实现整个发明

本发明的实验环境：设置本实验在测试系统中具体部署如图1所示。实验环境中，设置了一台发射机和一台接收机作为通信用户、一个Q学习引擎、一台干扰机、一个数据处理中心和若干个感知节点。在实验过程中，由发射机发送视频数据给接收机，由干扰机发射干扰信号进行干扰。发射机和接收机之间的通信方式为无线通信；感知节点与数据处理中心之间使用的是光纤连接的有线通信方式；数据处理中心发送数据给的Q-learning模块使用的也是光纤连接的有线通信方式。这样的设置方式，能够提升系统端所有通信的可靠性。实验的程序主要分为以下六个部分：发射机、接收机构成的通信用户，感知节点，数据处理中心，Q学习引擎模块，干扰机。发射机和接收机设置：发射机和接收机在实验中主要负责数据通信，传输视频数据。在USRP RIO平台上，一台设备可以配置两个单天线的用户。利用这一优点，本发明发射机和接收机设置在同一台USRP RIO设备上。虽然处于同一台设备上，但是他们之间的是通信方式还是通过无线通信来完成，可以有效地完成视频数据传输的功能。

本发明的系统流程如图2所示，基于数据处理中心、工作在相同频带上的干扰机、发射机，以及与发射机通信连接的接收机；实现干扰机对发射机与接收机进行通信干扰；所述干扰机的感知节点周期性地在预设扫描频段内扫描监测发射机与接收机之间的通信环境，获得发射机与接收机之间频谱数据信息，并将所述频谱数据信息发送给数据处理中心；所述数据处理中心接收并处理该频谱数据信息，通过双门限能量检测判断法进一步获取发射机与接收机的通信信道信息，基于该通信信道信息，应用预设已训练好的Q学习引擎模型，获得对应的Q表信息，所述Q表信息包括干扰机当前状态信息S_n与干扰机当前状态信息S_n所对应其下一动作信息a_n的Q值；并计算奖励值r_n+1，更新干扰机状态，以及更新Q表，所述干扰机周期性读取Q表信息的Q值，并根据Q值对发射机与接收机发送干扰信号进行通信干扰。

图5为发射机功能简图，说明图6为接收机功能简图。根据图6所示，发射机从信源开始，经过信源编码、信道编码、QAM调制、插入保护间隔、组帧等操作后，由RF发送模块发送到无线信道。在RF发送模块中增加了一个外扩接口，可以实现实时修改发射机的射频参数功能，如发送的中心频点、本振频率、发射增益等参数。由于系统测试时使用的是视频数据，所以信源处为VLC软件处理后的数据包。

如图6所示，接收机从天线处接收无线数据信息，通过RF接收模块后，进行帧同步、帧解析、信道均衡、QAM解调，信道译码以及信源译码最后到达信宿。信宿处为同样为VLC软件，在得到数据后，VLC经过内部解码，可以播放视频并且可以观察视频播放效果。

感知节点设置：感知节点的作用在于感知附近的无线环境内的频谱数据信息，并将其打包发送给数据处理中心。但由于USRP RIO设备的限制，其在同一时刻只能感知到较小带宽内的数据，因此为了提升感知的效果，为其添加了一个扫频功能，使其在设置好的带宽范围内，按顺序扫描各个频段内的数据，并将这些数据打包发送给数据处理中心处理。数据处理中心基于干扰机感知节点周期性所获发射机和接收机之间的频谱数据信息，干扰机可以通过能量检测的方法周期性获得发射机和接收机之间的频谱数据信息。之后执行以下步骤A至步骤B获得实时通信信道信息；

步骤A：基于发射机与接收机之间频谱数据信息，数据处理中心对所述频谱数据信息进行采样处理，获得采样后的频谱数据信息；可以预设采样率M对所述频谱数据信息进行采样处理进行采样。随后进入步骤B；

步骤B：对采样后的频谱数据信息进行频谱资源判决,获得发射机与接收机的通信信道信息。对采样后的频谱数据信息进行频谱资源判决,包括执行步骤B1至步骤B2；

步骤B1：对采样后的频谱数据信息通过如下公式M：

如果判决结果F＝-1，则返回步骤B1；

如果判决结果F＝1，则返回步骤B1；

如果判决结果F＝0，则进入步骤B2；

感知节点功能程序简图如图3所示。设置好射频发送和接收的参数后，启动程序开始感知数据的过程，然后会将感知节点到的数据按照图4的数据格式进行封装，再通过UDP传输的方式传送给数据处理中心。在扫频功能模块的控制下，感知过程将无间隙的在各个频段上进行，并且完成之预设感知范围的任务后，将开始进行下一次感知任务。USRP RIO平台的可调频率范围为1.2GHz～6GHz，这个范围过大，不利于实验中进行调试和观察结果，因此在测试过程中，选取2.2GHz～2.8GHz中的若干频段进行测试。

图7为数据处理中心的功能图。数据处理中心主要完成对数据的处理，掌握信道状态信息。当收到感知节点发来的数据时，对这些数据进行处理，得到通信信道信息，并通过UDP的方式将数据发送给Q学习引擎模块。基于通信信道信息，应用预设已训练好的Q学习引擎模型，获得对应的Q表信息，所述Q表信息包括干扰机当前状态信息S_n与干扰机当前状态信息S_n所对应其下一动作信息a_n的Q值；所述干扰机周期性读取Q表信息的Q值，并根据Q值对发射机与接收机进行通信干扰。

Q学习引擎模块设置：该模块根据频谱数据信息来执行Q学习的迭代训练，获得奖励值R,然后根据奖励值更新Q表。

干扰机设置：干扰机的功能是按照当前状态，根据策略表来确定下一个干扰信道，并发射干扰信号干扰通信。实验中通过一台USRP RIO设备作为干扰机，在该设备上可以使用不同信号作为干扰信号，如单音信号、多音信号、梳状谱信号、矩形波信号等等。利用Labview生成信号数据，数据以I/Q数据的形式保存，经过发射端调制之后，由USRP RIO设备的RF发送模块进行发送。

本发明的实验流程如下：

(1)配置预设参数。在启动程序前，需要对一系列预设参数进行配置，包括发射机、接收机。图8为发射机射频参数设置，初始中心频点为2.5GHz，本振频率为-1Hz，发射增益为0dBm。图9为接收机射频参数设置，接收频率的中心频点为2.5GHz。本振频率为-1Hz，接收增益为0dBm。

(2)运行发射机和接收机程序，开始进行数据通信，然后打开VLC脚本文件，开始生成视频源数据以及播放接收到的视频源数据。在未被干扰的情况下，视频传输质量良好，图10为发射机的视频播放截图，图11为接收机的视频播放截图，可以看到画面清晰流畅。图12为星座图，可见星座图清晰。图13为误码率图，可见误码率很低。

(3)运行感知节点、数据处理中心以及Q学习引擎程序。感知节点对频谱空间进行扫频检测数据，然后将数据发送给数据处理中心进行处理，获取信道状态信息，然后Q学习引擎进行迭代训练，获得奖励值R，然后根据奖励值更新Q表，不断进行训练和学习。

(4)干扰机将根据Q表选择下一个干扰信道并发送干扰信号，对信道进行干扰。图14为干扰机的射频配置图，此时接收机接收的视频效果如图15所示，可见有明显的丢帧和卡顿现象，视频传输效果差。图16和图17分别为此时的误码率和星座图，可见误码率较高，星座图并不清晰。

Q学习引擎模型，基于通信信道信息，以通信信道信息为输入、通信信道信息所对应的Q表信息中的Q值为输出，针对预设带训练网络进行训练，获得Q学习引擎模型。并且通过步骤W1至步骤W5，针对待训练网络进行训练，获得Q学习引擎模型；

步骤W2：计算当前通信用户使用的通信信道的下一通信信道信息u_n+1，并计算动作信息a_n的奖励值r_n，并更新干扰机状态为S_n＝S_n+1，对Q表中的Q值进行更新，随后返回步骤W1；所述的Q表信息中的Q值按如下公式：

其中：α为学习率；Q_n(s_n,a_n)表示n时刻Q表中状态为s_n动作为a_n的Q值；s_n+1是在s_n状态选择动作a_n后的下一个状态；r_n表示执行动作a_n后获得的奖励；γ为折扣因子，表示未来奖励的重要性；r_n+γ*maxQ_n(s_n+1,a)表示本次Q函数的估计奖励值，Q_n+1(s_n,a_n)表示更新的Q值，最后在每次决策后更新Q表；

在Matlab仿真实验设置中，设置通信用户有两种通信策略，信道切换策略如下：(1)通信用户采用固定扫频的方式进行通信，即通信用户会选择当前信道的下一个信道进行通信：

chl＝(chl+1)mod 7

(2)通信用户在当前信道会概率性的选择下一个通信信道，有20％的概率会采取下面的方式切换信道：

chl＝(chl+3)mod 7

有80％的概率会采取下面的方式进行通信：

chl＝(chl+2)mod 7

图18中干扰概率曲线是由干扰每100个时隙中成功干扰次数所占比例计算所得。从图18可以看出，干扰机法能够有效的对通信用户的策略进行学习，从而在很大概率上对通信用户进行有效干扰。与随机干扰算法相比，无论通信用户使用哪一种通信策略，使用基于Q学习算法的有效干扰概率均明显高于随机干扰算法，性能更好。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.基于USRP RIO的强化学习通信干扰方法，其特征在于，基于数据处理中心、工作在相同频带上的干扰机、发射机，以及与发射机通信连接的接收机；实现干扰机对发射机与接收机进行通信干扰；所述干扰机的感知节点周期性地在预设扫描频段内扫描监测发射机与接收机之间的通信环境，获得发射机与接收机之间频谱数据信息，并将所述频谱数据信息发送给数据处理中心；基于通信信道信息，应用预设已训练好的Q学习引擎模型，获得对应的Q表信息，所述Q表信息包括干扰机当前状态信息S_n与干扰机当前状态信息S_n所对应其下一动作信息a_n的Q值；所述干扰机周期性读取Q表信息的Q值，并根据Q值对发射机与接收机进行通信干扰；

其中，

所述数据处理中心接收并处理该频谱数据信息，进一步获取发射机与接收机的通信信道信息，具体包括以下步骤A至B:

步骤B：对采样后的频谱数据信息进行频谱资源判决,获得发射机与接收机的通信信道信息，包括执行步骤B1至步骤B4；

步骤B1：对采样后的频谱数据信息通过如下公式M：

如果判决结果F＝-1，则返回步骤B1；

如果判决结果F＝1，则返回步骤B1；

如果判决结果F＝0，则进入步骤B2；

步骤B4：统计当次判决的所有E_i>h₁的感知节点的数量N₁，如果N₁>N/2，则判决结果为F＝1，如果N₁<N/2，则判决结果为F＝-1；如果N_1＝N/2，则返回步骤B1；

所述Q学习引擎模型，基于通信信道信息，按照如下W训练方法获得：以通信信道信息为输入、通信信道信息所对应的Q表信息中的Q值为输出，针对预设待训练网络进行训练，获得Q学习引擎模型，具体是步骤W1至W2：

步骤W2：计算当前通信用户使用的通信信道的下一通信信道信息u_n+1，并计算动作信息a_n的奖励值r_n，并更新干扰机状态为S_n＝S_n+1，对Q表中的Q值进行更新，随后返回步骤W1。

2.根据权利要求1所述的基于USRP RIO的强化学习通信干扰方法，其特征在于，所述Q表信息中的Q值按如下公式：

3.根据权利要求1所述的基于USRP RIO的强化学习通信干扰方法，其特征在于，所述步骤A中，数据处理中心对所述频谱数据信息进行采样处理按如下方法进行采样：预设采样率M对所述频谱数据信息进行采样处理进行采样。

4.根据权利要求1所述的基于USRP RIO的强化学习通信干扰方法，其特征在于，干扰机通过能量检测的方法周期性获得发射机和接收机之间的频谱数据信息。