CN110995382A

CN110995382A - 基于元学习的避扰通信模型及其训练方法

Info

Publication number: CN110995382A
Application number: CN201911211538.6A
Authority: CN
Inventors: 江民民; 李大朋; 邱昕; 柴旭荣; 慕福奇
Original assignee: Institute of Microelectronics of CAS
Current assignee: Institute of Microelectronics of CAS
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-10

Abstract

本发明公开了一种基于元学习的避扰通信模型及其训练方法，包括：基于条件生成对抗网络生成虚拟合成的频谱数据；搭建初始训练模型，该初始训练模型内置有初始化的模型参数θ；获取第二损失函数：将训练数据迭代的输入至初始训练模型中进行计算，得到每次迭代计算的第一损失函数，将所有的该第一损失函数进行求和，将该求和的值作为该初始训练模型的第二损失函数；多次迭代该获取第二损失函数的过程，并基于该多次迭代得到的该第二损失函数，使用梯度下降法更新初始训练模型的模型参数θ。本发明提供的该基于元学习的避扰通信模型及其训练方法，利用条件生成对抗网络，解决了因实时在线更新模型导致的训练效率低、耗时、无法快速更新模型的问题。

Description

基于元学习的避扰通信模型及其训练方法

技术领域

本发明属于认知无线电抗干扰通信技术领域，具体而言涉及一种面向多干扰任务的基于元学习的避扰通信模型及其训练方法。

背景技术

当前，如火如荼的人工智能技术已经深入到信息领域的方方面面，认知无线电领域也不例外。认知无线电需要解决的问题就是：无线电装置通过所感知到的周围环境信息，自动调整到最佳工作状态，具体而言就是避扰通信，这是属于自控领域的最优决策问题，而人工智能技术的智能化、自适应的特点，恰好可以很好地解决这一类问题。智能避扰通信实现流程可以解释为：采集真实空口频谱环境作为智能避扰通信模型的训练集，通过训练智能避扰通信模型参数得到最终模型，在实际运用时将当前频谱环境作为模型的输入，模型将给出一个无干扰的频点，从而实现避扰通信目的。

而由于人工智能避扰通信训练需要与环境交互的特质，传统技术一般是通过真实硬件板卡实时在线采集数据集，采集一下数据再更新一下避扰通信模型网络参数，周而复始，一步步地更新模型参数，很明显，这种方法效率低、耗时长、无法快速更新模型，离实用相去甚远。因此，目前的智能避扰通信存在这样两个问题：(1)智能避扰通信模型训练时间受到硬件采集数据速度的制约，模型训练时需要不断的实时采集训练频谱数据，而硬件采集数据的速度一般是不太可能改变的，故智能避扰通信存在着耗时的问题。(2)通常通信干扰模式多种多样，而现有的人工智能技术仅能处理一至两种干扰模式，当出现新的干扰时之前训练的模型就会失效，如果要使模型适用于新任务，则需要重新采集新干扰数据从头训练，耗时耗力，严重阻碍了人工智能技术在避扰通信中的实际运用。

在避扰通信解决方案中，有一种方法叫做基于深度强化学习的抗干扰算法(Anti-jamming Deep Reinforcement Learning Algorithm，ADRLA)，算法通过多次迭代训练出的神经网络模型能够针对当前干扰模式(扫频模式、梳状模式)进行避扰通信，具体表现为：一个用户对抗多个干扰方，接收机感知当前频谱环境，并反馈给智能体，该智能体不断地根据当前频谱环境得出一个用户当前应该选择的最优无干扰频点，从而用户达到避扰通信的目的。但事实是，该基于深度强化学习的抗干扰算法(ADRLA)只是一种仿真方法，并没有实际运用到真实硬件环境中，故没有考虑到在真实硬件环境下实施会遇到的问题。上文中提到的采集模型训练数据困难，训练避扰通信模型费时，模型适用范围小、效率低，具有局限性，以及模型随干扰环境变化而不断更新，耗时耗力的问题仍然存在。

综上，由于现有技术深度强化学习的抗干扰算法(ADRLA)模型训练时间长和不能面向多干扰任务的特质，限制了当前智能避扰通信的实际应用，使其无法很好的落地和实用化。

发明内容

(一)要解决的技术问题

本发明的目的在于提供一种基于元学习的避扰通信模型及其训练方法，以至少部分解决上述问题。

(二)技术方案

本发明提供了一种基于元学习的避扰通信模型及其训练方法，其中，该基于元学习的避扰通信模型的训练方法，包括：

基于条件生成对抗网络生成虚拟合成频谱数据；

搭建初始训练模型，该初始训练模型内置有初始化的模型参数θ；

获取第二损失函数：

将该虚拟合成频谱数据迭代的输入至该初始训练模型中进行计算，得到每次迭代计算的第一损失函数；

将所有的第一损失函数进行求和，将该求和的值作为该初始训练模型的第二损失函数；

多次迭代该获取第二损失函数的过程，并基于该多次迭代得到的第二损失函数，使用梯度下降法更新该初始训练模型的模型参数θ。

进一步的，其中：

一些实施例中，上述的基于条件生成对抗网络生成虚拟合成频谱数据包括：

一收发机发射频率信号，得到真实频谱环境图；

对该真实频谱环境图进行标记，得到对应该真实频谱环境图的标签图；

结合多个真实频谱环境图和对应的标签图，生成条件生成对抗网络的训练数据集；

根据该训练数据集并利用条件生成对抗网络技术训练得到频谱虚拟环境生成器，一些实施例中，该频谱虚拟环境生成器的训练通过pix2pix算法实现；

将条件图输入至该频谱虚拟环境生成器产生该虚拟合成频谱数据。

一些实施例中，上述的得到每次迭代计算的第一损失函数包括：

在模型参数θ条件下采集训练样本，使用策略梯度方法计算第三损失函数，并更新一步参数，得到更新的模型参数θ′；

在该更新的模型参数θ′条件下采集测试样本，使用策略梯度方法计算得到第一损失函数L(T_i，θ_i)，但不更新参数，并返回该第一损失函数；

其中，训练样本和测试样本均为所述的虚拟合成频谱数据。

一些实施例中，在生成频谱虚拟环境生成器的训练数据集期间，该收发机通过“随机跳频”模式发射频率信号，该真实频谱环境图中包括：中心频率信号，背景信号，和/或中心频率信号和背景信号的重叠。

一些实施例中，该标签图或该条件图表示为：

L_t(f_i)＝L′_t(f_i)×Mask_t(f_i)，其中：

B_0.5是带宽的一半，f_i，i＝0，1，…，N是在采集频带里的第i个采样点，N是总采样点数，

和

分别是第j类背景信号的下和上频率界限，S_t(f_i)是采样点f_i的信号能量值，T为分割能量信号的阈值，且，rs取值为random或selected，rs取random时，

表示收发机在t时刻的随机发射中心频率，此时得到的L_t(f_i)为所述标签图，rs取selected时，

表示自定义的收发机信号，此时得到的L_t(f_i)为所述条件图。

一些实施例中，上述的收发机得到的真实频谱环境图的高度维度设置为与条件生成对抗网络的输入高度维度大小一致。

一些实施例中，该虚拟合成频谱数据包括：跟踪干扰模式频谱图、扫频干扰模式频谱图和梳状干扰模式频谱图，且该虚拟合成频谱数据为跟踪干扰模式时的决策网络可选择的行为＜虚拟合成频谱数据为扫频干扰模式时的决策网络可选择的行为。

另有，本发明提供的该基于元学习的避扰通信模型，通过上述训练方法实现。

(三)有益效果

本发明提供的该基于元学习的避扰通信模型及其训练方法，具有以下有益效果：

(1)本发明利用了条件生成对抗网络(CGAN)技术，解决了因实时在线更新模型导致的训练效率低、耗时、无法快速更新模型的问题；

(2)本发明针对在干扰模式动态变化的环境下因避扰模型不断调整适应而导致的耗时耗力、模型面向任务范围小、利用率低的问题，充分利用了由CGAN技术生成的虚拟频谱环境生成器，脱离了真实硬件板卡离线式一次性生成更加多样的干扰模式频谱环境，从而加速了获取避扰通信训练数据集的进程，接着基于元学习的思想训练面向多任务的避扰通信模型；

(3)该模型相比之前更加适用于动态变化的干扰环境，当干扰环境有了动态变化(比如扫频干扰模式变成跟踪干扰模式)这个避扰模型可以直接适用于变化后的干扰环境，相比之前的从头训练模型方法大大减少了时间和人力，模型利用率也大大提高，更加适合运用在真实环境中；

(4)本发明通过人工智能技术解决无线电避扰通信问题，在干扰模式动态变化的环境下快速训练神经网络，从而得到避扰通信模型，使模型能够在真实环境下面向多干扰任务的避扰通信。

附图说明

图1是现有技术中的ADRLA的实际工作原理图；

图2是本发明一实施例提供的该基于元学习的避扰通信模型及其训练方法的创新原理图；

图3是本发明一实施例中频谱虚拟环境生成器的运行机制；

图4是本发明一实施例中产生频谱虚拟环境生成器的细节；

图5是本发明一实施例中真实的SW图和其对应的标签图；

图6是本发明一实施例中pix2pix中生成器和判别器功能作用展示；

图7是本发明一实施例中对训练数据集输入维度改进前后的环境生成器生成效果图；

图8是本发明一实施例中改进决策网络的可选择行为后扫频干扰和跟踪干扰成功避扰通信结果展示。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

随着通信对抗技术的发展，电磁环境日益恶劣，通信系统随时会遭到敌方的干扰和破坏，因此对电磁环境的侦察技术和通信系统的抗干扰技术成为通信对抗技术的关键。现有技术中公开了一种深度强化学习的抗干扰算法(ADRLA)，其是基于深度强化学习算法的，故需要不断地实时用硬件采集训练数据，但硬件采集数据速度是不太可能改变的，因此实际应用时这种方法会遇到硬件采集数据耗时的问题。除此之外这种方法仅仅只能面向单一干扰任务，比如说这个方法训练出的模型只对扫频模式干扰有效对其他干扰模式就无效了，这是因为训练好的模型只针对在训练集中出现过的数据有效，对没在训练集出现过的数据无效。传统的机器学习模式是：遇到新的任务时，就获取特定任务的大型数据集，然后用这个数据集从头开始训练模型。深度强化学习的抗干扰算法(ADRLA)同样是这种模式，模型需要随干扰模式变化而不断更新调整，深度强化学习的抗干扰算法(ADRLA)实际情况如图1所示。很明显，这种不断地从头训练模型的特质会导致耗费人力和时间，使得基于人工智能技术的避扰通信很难运用于实际情况。

本发明针对当前基于人工智能技术训练神经网络得出的智能避扰通信模型很难调整适应于多干扰任务场景，无法摆脱硬件环境采集数据慢的制约，导致无法适用于干扰模式动态变化的环境且训练效率低、耗时长等问题，提出一种基于元学习的避扰通信模型及其训练方法，通过该方法训练出的避扰通信模型能够感知当前频谱环境自动调整模型参数，实现智能避扰通信模型迅速适应新任务，达到人工智能技术在避扰通信中的高效实用化和自适应的目的，进而实现只需一个避扰通信模型就可以抗多种干扰任务的目的，提高了避扰通信模型的利用率。除此之外，还提出一种基于条件生成对抗网络(CGAN)的离线式生成避扰通信模型训练数据集的方法，通过这种数据增强的方法可以脱离硬件板卡快速离线式训练模型，减少人力和时间的消耗。也即，本发明提出了：

1)提出一种基于元学习的避扰通信模型的训练方法，该训练方法面向多个干扰任务，比如：扫频干扰、跟踪干扰、梳状干扰等。该方法结合了深度强化学习(DRL)在决策问题上的优势，将DRL作为单个任务的解决方法，然后基于元学习的学会本质思想将这些单个任务放在一起训练，训练时单个任务的模型参数反馈给元学习模型(即避扰通信模型)，元学习模型按梯度下降法更新参数，从而最终得到面向多干扰任务的避扰通信模型；

2)提出一种基于条件生成对抗网络(CGAN)的数据增强方法，其利用生成对抗网络(GAN)能够生成符合真实数据分布的合成数据的优势，使用条件生成对抗网络(CGAN)技术生成避扰通信模型的训练数据(虚拟合成的频谱瀑布环境图，SW图)，从而避扰通信模型在训练时不用真实硬件实时采集真实频谱数据，达到离线式快速训练避扰通信模型的目的。

人工智能领域已提出一种全新概念：元学习，元学习的目标是学会学习，目前已有很多元学习思想可以应用在小样本学习和强化学习。本发明是基于元强化学习(Meta-RL)思想提出的一种智能避扰通信模型及其训练方法，针对一个避扰通信模型无法适用于多干扰任务从而耗时耗力的实际问题。本发明的创新架构如图2所示，接下来结合该避扰通信模型的训练方法及训练得到的该避扰通信模型的使用方式做进一步详细介绍，其中，本发明一实施例提供了一种该避扰通信模型的训练方法，包括以下几个部分：

一、虚拟频谱环境生成器(基于条件生成对抗网络生成虚拟合成频谱数据)：作用是通过给定的条件生成逼真的空间频谱环境，例如：扫频、跟踪、梳状等各种干扰频谱环境，具体运行机制如图3所示(这是一种扫频类干扰场景)，这些生成的逼真频谱图(即虚拟合成频谱数据)将作为下一步的元强化学习训练数据。

具体地，虚拟频谱环境生成器的实现技术是条件生成对抗网络(CGAN)，利用了条件生成对抗网络(CGAN)技术在图像合成中的优势，其能够生成符合预先设置的条件的合成图，因此能够控制合成频谱图干扰模式。由于条件生成对抗网络(CGAN)在没有足够多的训练数据集的情况下容易发生模态崩溃(生成的图没有多样性)，本实施例中提出了一种“随机跳频”程序产生条件生成对抗网络(CGAN)的训练集(随机跳频是指控制实际收发机USRP(Universal Software Radio Peripheral，通用软件无线电外设)随机选择发射中心频率和驻留时间)，然后训练条件生成对抗网络(CGAN)来制作频谱虚拟环境生成器，频谱虚拟环境生成器可以快速生成各种符合条件的频谱瀑布(SW)环境图。产生环境生成器的细节如图4所示：收发机通过“随机跳频”模式发射频率信号，得到真实频谱环境图；对该真实频谱环境图进行标记，得到对应该真实频谱环境图的标签图；结合多个真实频谱环境图和其对应的标签图，生成条件生成对抗网络的训练数据集；然后根据该训练数据集并利用条件生成对抗网络技术训练得到频谱虚拟环境生成器。

在一些实施例中，由于采集的该真实频谱环境图是通过“随机跳频”模式产生的，对随机生成的真实SW图像(即频谱瀑布环境图，以下简称为SW图)进行标记是一项非常繁琐的工作。

本实施例中，设计了一种快速自动标注方法，随机跳频程序控制下收发机信号的标签可以表示为：

式中，

是收发机在t时刻的随机发射中心频率，B_0.5是带宽的一半，f_i，i＝0，1，…，N是在采集频带里的第i个采样点，N是总采样点数；

一些实施例中，上述采集的真实频谱环境图可以包括中心频率信号，或中心频率信号和背景信号，因此，通常情况下，空间中还存在其他一些信号(即背景信号)，这些背景信号的标签可以表示为：

式中，

和

分别是第j类背景信号的下和上频率界限，如果存在M类不同的背景信号，则可以表示为：

由于无法判断出空间中是否存在背景信号，因此应该引入阈值来控制模式生成，阈值函数定义为：

式中，S_t(f_i)是采样点f的信号能量值(单位是dB)，T为分割低能量信号的阈值，最终标签能表示为：

L_t(f_i)＝L′_t(f_i)×Mask_t(f_i) (5)

上面那些参数中，像

和B_0.5是预先知道的，而参数

阳M能够自动被计算出。

对真实SW图自动进行标记后，结合真实SW图和相应的标签，建立条件生成对抗网络(CGAN)的训练数据集。一对真实的SW图及其对应的标签图如图5所示，然后把真实SW图和对应标签放在一起作为CGAN的一个训练数据，按这种方式生成1000张CGAN的训练数据集，以上就是对CGAN的训练数据集的生成方法的详细介绍。

接下来就是对CGAN的训练部分(即根据该训练数据集并利用CGAN技术训练得到频谱虚拟环境生成器)的说明，目前有很多种类的CGAN算法。在本实施例中使用算法pix2pix来构建频谱虚拟环境生成器。pix2pix包含一个生成器一个判别器，它们的功能作用如图6所示，判别器用来判别输入图片的真假，生成器用来生成符合真实图片分布的合成图，两者相互对抗进而各自提升能力，最终得到该频谱虚拟环境生成器。其中，pix2pix算法的具体的训练细节在此不做详细介绍。

最后，将条件图输入至该频谱虚拟环境生成器产生用于训练避扰通信模型的具有真实虚拟干扰场景的虚拟合成频谱数据。

一些实施例中，该条件图的获取与上述获取标签图类似，不同的是，标签图是结合真实的频谱图利用公式(1)-公式(5)生成的(不同的信号，比如：背景信号，中心频率信号，背景信号和中心频率信号重叠部分，在这个矩阵里的表示值不同)，如图4和图5所示的真实频谱图和标签图。而条件图也是利用公式(1)-公式(5)生成的一个矩阵，只不过收发机信号表示值是以指定的方式出现在这个矩阵中，如图3所示的条件图。即在进行如公式(1)－公式(5)的过程时，将

改为

对应的，

变为

此时，

即表示自定义的收发机信号，举一个例子：随着t增加，收发机信号在矩阵的表示值就递增地移到下一个间隔，此时结合公式(1)-公式(5)得到的L_t(f_i)即为扫频干扰模式条件图。

条件图的存在是为了代替真实硬件板卡产生虚拟的频谱图，条件图通过训练好的频谱虚拟环境生成器输出符合真实频谱图数据分布的虚拟频谱图数据，这样就可以解决因真实硬件板卡采集数据慢的问题，提高避扰通信模型的训练速度。

本实施例中，在训练环境生成器中，由于pix2pix模型的输入维度定义为256×256，而由USRP接收机采集到的SW图是100×1601，这使得真实SW图需要经过放缩到256×256大小才能作为pix2pix模型输入，但这会造成一个问题：跳频点处经过放缩插值上下部分会变长一点。这会使得模式生成器生成的SW图片不够真实，解决办法是将采集到的SW图维度变为256×1601(即将采集到的频谱图的高度维度和CGAN网络输入高度维度大小置为一致)，但环境生成器生成的合成SW图维度仍然是100×1601，环境生成器生成结果效果如图7所示(图7中的左图是训练数据集输入维度为100×1601的输出，右图是训练数据集输入维度为256×1601的输出)。

二、Meta-RL(基于多次迭代得到的损失函数和梯度下降法更新初始训练模型的模型参数)：作用是为了生成一个面向多任务(多种干扰模式)的避扰通信模型，具体而言就是一套基于元学习的学会本质思想的强化学习算法，一些实施例中，该部分包括：

获取第二损失函数：

多次迭代该获取第二损失函数的过程，并基于该多次迭代得到的第二损失函数，使用梯度下降法更新该初始训练模型的模型参数θ；

其中，得到每次迭代计算的第一损失函数包括：

且，训练样本和测试样本均为所述的虚拟合成频谱数据。

本实施例中，其核心思想介绍如下：

搭建神经网络架构(三层卷积层，两层全连接层)，初始化模型参数θ。

迭代一定次数(循环1)：

1.对每个任务T_i(即虚拟合成频谱数据，比如扫频干扰、跟踪干扰、梳状干扰等任务)进行迭代(循环2)：

1.1在每个迭代步中，在模型参数θ条件下采集训练样本，使用策略梯度(PolicyGradient)方法计算损失函数，并更新一步参数，这样就得到了当前任务T_i下的模型参数θ′；

1.2在更新的模型参数θ′条件下采集测试样本，使用策略梯度(Policy Gradient)方法计算损失函数L(T_i，θ_i)，但不更新参数，返回这个损失函数。

2.将所有任务返回的损失函数求和，将这个求和值作为初始模型的损失函数，使用梯度下降法更新初始模型参数θ。

这个算法利用频谱虚拟环境生成器产生多干扰模式频谱图作为训练数据集，由于模型的损失函数是各个子任务的损失函数的平均值，故模型训练梯度方向是离各个子任务最优解最近的方向，通过反复训练，来一批任务就朝着这批任务最优解最近的方向前进，这样就能学习到这些任务的本质，最终产生一个能面向多任务的模型，实际运用模型时去除循环1，只需循环2针对当前任务使用梯度下降法微调一下模型参数就能生成适用于当前任务的模型。

一些实施例中，基于频谱虚拟环境生成器产生虚拟合成频谱数据时，优选地，设置虚拟合成频谱数据为跟踪干扰模式时的决策网络可选择的行为＜虚拟合成频谱数据为扫频干扰模式时的决策网络可选择的行为。

本实施例中，在训练避扰模型时出现以下问题：子任务跟踪型干扰模式训练模型一直不能收敛，不能够像子任务扫频型干扰模式那样很快就收敛。原因是跟踪干扰模式在每一个状态下可选择的行为和扫频干扰模式一样(这里是19个，即10M带宽内有19个可选择的频点)，这会造成跟踪干扰模式的频谱环境图多样性远远高于扫频干扰模式，强化学习决策网络很难学到跟踪型干扰规律，难以训练。解决办法是跟踪干扰模式下适当减少决策网络可选择的行为(比如10个)，这可以更快的训练模型。图8是改进后扫频干扰和跟踪干扰成功避扰通信结果展示。

基于上述实施方式，本发明另一方面提供了一种基于上述训练方法得到的避扰通信模型，其作用是通过感知当前真实频谱环境进行避扰通信。该避扰通信模型使用真实硬件板卡(比如USRP)采集当前频谱环境，将当前频谱图作为之前训练的避扰通信模型的输入，模型将给出一个无干扰的频点，然后不断地将当前状态的频谱环境图作为模型输入就能达到避扰通信的目的了。

至此，完成本发明提供的该基于元学习的避扰通信模型及其训练方法的说明。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。