CN115238749A

CN115238749A - 一种基于Transformer的特征融合的调制识别方法

Info

Publication number: CN115238749A
Application number: CN202210933070.7A
Authority: CN
Inventors: 焦逊; 孔维思; 岳秀清; 廖东升; 肖庆正
Original assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Current assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-10-25
Anticipated expiration: 2042-08-04
Also published as: CN115238749B

Abstract

本发明涉及一种基于Transformer的特征融合的调制识别方法，属于信号识别领域。本发明利用Transformer编码器，提取I/Q和A/P序列不同位置特征向量之间的依赖关系，获得序列内部的编码向量序列；对编码向量进行交叉注意力计算，获得序列之间的关联特征向量；将I/Q和A/P序列的关联特征向量进行拼接，经过分类器后输出调制类别的概率分布和识别结果；设置交叉熵损失函数，将网络输出的调制类别的概率分布与样本标签进行计算，实现调制识别网络模型的参数更新。本发明利用交叉注意力模块提取I/Q和A/P序列之间的关联特征，结合特征拼接获得联合特征表示，提高基于特征融合的调制识别准确率；利用Transformer模型和交叉注意力模块中的并行计算架构，提升整个网络模型的训练速度。

Description

一种基于Transformer的特征融合的调制识别方法

技术领域

本发明属于信号识别技术领域，具体涉及一种基于Transformer的特征融合的调制识别方法。

背景技术

目前，各种无线电子设备的广泛适用和密集部署，使得电磁环境呈现出高度复杂、高实时响应、信息不完整和边界不确定的特点。在无线通信系统中，为保证有限频谱资源的高效化利用，需要对用户所占用的频谱资源进行监测和管理，如何从复杂的电磁数据中提取出信号调制样式、空闲频谱、未知干扰源等有效信息具有重要意义。此外，在DZDK中需要利用各种探测技术对非合作的辐射源信号进行截获、定位、分析和识别，以获取辐射源的位置、类型和技术参数等关键信息。

传统的信号识别方法主要基于循环平稳特征检测、高阶矩特征提取等信号处理工具，以及结合支持向量机、决策树、k邻近等机器学习技术。这些信号识别技术通常依赖于人工专家特征的提取，需要大量的领域知识和工程知识，识别过程较为复杂且较为费时。深度学习技术和硬件计算能力的快速发展，为高效准确的信号识别提供了新的解决途径。

多种基于深度学习的自动调制识别网络模型被提出:O'Shea T J直接以同相正交(I/Q)序列作为网络输入，通过卷积层与全连接层串联而成的CNN模型，证明了深度神经网络在调制识别上的可行性；S.Rajendran对IQ数据进行预处理，获得信号的幅度相位(A/P)序列，通过两层LSTM模型建模信号序列的时间依赖关系，进一步提高了识别精度；XiaoyuLiu则利用CNN和LSTM提出CLDNN模型，实现对I/Q序列的空间和时间特征的联合提取。为进一步提高自动调制识别的准确性，部分学者通过对信号进行预处理，获得信号的不同表现形式，利用深度神经网络提取不同的信号特征，通过特征层融合或决策层融合的方法实现信号的自动调制样式识别。Zufan Zhang提出DSCLDNN模型，首先将离散信号预处理成I/Q和A/P序列，分别利用CLDNN模型提取信号的深度特征，然后通过对特征向量的外积运算增加特征的多样性，最后经过压平、全连接层、Softmax层后输出决策结果。Tuo Wang同样以I/Q和A/P序列作为输入，首先利用卷积层和挤压激励模块充分提取信号的空间与通道特性，然后将提取到的深度特征进行拼接，并行通过多层独立循环神经网络后获得信号的联合特征表示，以独立循环神经网络中最后时刻的特征向量作为输出，经由全连接层和Softmax层获得决策结果。

综上所述，现有技术存在的问题是：

(1)用于自动调制识别的网络架构主要采用CNN模型、RNN模型，以及两者结合的形式，通过多个卷积层、循环神经网络层和全连接层叠加，最终输出调制类型的概率分布。然而，CNN模型中的卷积层只能提取局部特征，其感受野有限，通常需要堆叠一个深度网络才能拥有全局感受野；RNN模型需要按时间节点依次输入和处理来建模信号的时间依赖关系，并行处理能力较差且容易出现长序列的记忆遗忘问题；全连接模型可以建模全局依赖关系，而每个神经元的权重固定，且输入输出维度固定。

(2)为提高识别精度，部分研究利用I/Q和A/P序列实现多路特征提取，并采用拼接、相加或外积运算的特征融合方法，融合后的特征向量经过分类器获得判别结果。用于自动调制识别的特征融合方法较为简单，没有充分考虑不同特征之间的关联性，有可能造成特征冗余或缺失，使得识别精度没有得到充分提升。

解决上述技术问题的难度：如何利用新的网络架构，在可行的计算复杂度下提高识别准确率；在基于多路特征融合的调制识别中，如何充分考虑不同特征之间的关联性，获得有效的联合特征表示，进一步提高自动调制识别的准确性。本发明的研究意义在于：通过将原始信号进行的简单处理，获得信号的不同表示形式，利用前沿的深度学习框架获得各类型数据内部的特征依赖关系，从特征层面考虑不同形式数据之间的关联性，利用特征融合获得用于分类的联合特征向量，有助于在保证计算复杂度的情况下提高识别精度，增强用于调制识别的网络模型的稳定性和可行性。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种基于Transformer的特征融合的调制识别方法，以解决如何利用新的网络架构，在可行的计算复杂度下提高识别准确率；在基于多路特征融合的调制识别中，如何充分考虑不同特征之间的关联性，获得有效的联合特征表示，进一步提高自动调制识别的准确性等方面的问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种基于Transformer的特征融合的调制识别方法，该方法包括如下步骤：

S1:对获取到的离散复信号进行预处理，转换成I/Q和A/P序列；

S2:对于I/Q序列，首先经过卷积嵌入提取序列的空间特征，获得高维的嵌入向量序列；在序列前面添加可学习的类别向量；然后叠加位置编码向量；

S3：对于包含位置信息的嵌入向量，通过Transformer编码器模块提取I/Q序列不同位置特征向量之间的依赖关系，获得包含全局相关性的特征向量；

S4：A/P序列经过与S2、S3中相同的网络架构，获得A/P序列对应的特征向量；

S5：对I/Q序列和A/P序列的特征向量进行交叉注意力计算，获得序列之间的关联特征向量；

S6：将I/Q和A/P序列的关联特征向量进行拼接，经过分类器后输出调制类别的概率分布和识别结果；

S7：设置交叉熵损失函数，将网络输出的调制类别的概率分布与样本标签进行计算，实现S2至S6所述的调制识别网络模型的参数更新

(三)有益效果

本发明提出一种基于Transformer的特征融合的调制识别方法，本发明的优点及积极效果为：相较于现有技术，本发明利用Transformer编码器，分别提取I/Q和A/P序列不同位置特征向量之间的依赖关系，获得序列内部的特征编码向量；相较于现有技术，利用交叉注意力模块提取I/Q和A/P序列之间的关联特征，结合特征拼接获得联合特征表示，提高基于特征融合的调制识别准确率；利用Transformer模型和交叉注意力模块中的并行计算架构，提升整个网络模型的训练速度。

附图说明

图1是本发明提供的一种基于Transformer的特征融合的调制识别方法流程图；

图2是本发明实施例提供的卷积嵌入模型示意图；

图3是本发明实施例提供的Transformer编码器示意图；

图4是本发明实施例提供的Transformer编码器中自注意力模块示意图；

图5是本发明实施例提供的单层交叉注意力模块示意图；

图6是本发明实施例提供的分类器模型示意图；

图7是测试集上SNR＝-20时的调制识别混淆矩阵；

图8是测试集上SNR＝0时的调制识别混淆矩阵；

图9是测试集上SNR＝18时的调制识别混淆矩阵；

图10是不同方法在测试集上的准确率对比图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

为了解决上述问题，本发明提供一种基于Transformer的特征融合的调制识别方法，将原始信号预处理成I/Q序列和A/P序列的表示形式，利用Transformer模型和交叉注意力模块捕获序列内部的依赖关系和序列之间的特征关联，借助于Transformer的并行计算结构提升网络模型的训练速度，在可行的计算复杂度下有效提高识别精度。

一种基于Transformer的特征融合的调制识别方法，包括以下步骤：

S1:对获取到的离散复信号进行预处理，转换成I/Q和A/P序列；

S2:对于I/Q序列，首先经过卷积嵌入提取序列的空间特征，获得高维的嵌入向量序列；在序列前面添加可学习的类别向量；然后叠加位置编码；

S3：对于包含位置信息的嵌入向量序列，通过Transformer编码器模块提取I/Q序列不同位置特征向量之间的依赖关系，获得包含全局相关性的编码向量序列；

S4：A/P序列经过与S2、S3中相同的网络架构，获得A/P序列对应的编码向量序列；

S5：对I/Q序列和A/P序列的编码向量进行交叉注意力计算，获得序列之间的关联特征向量；

S7：设置交叉熵损失函数，将网络输出的调制类别的概率分布与样本标签进行计算，实现S2至S6所述的调制识别网络模型的参数更新。

进一步，所述步骤S1具体为：

假设获取到长度为N的离散信号

表示为：

s[n]＝s_I[n]+js_Q[n],n＝0,1,…N-1

其中，s_I[n]、s_Q[n]分别为离散信号的同相和正交分量。

I/Q序列表示为：

A/P序列表示为：

其中，幅度分量

相位分量

此外，由于信号的幅度和相位分量通常不在同一量级，为便于网络模型训练优化，对幅度分量进行L2归一化处理，相位分量则归一化至[-1,1]。

进一步，所述的步骤S2具体为：

(S2.1)I/Q序列经过多个卷积层，提取数据的空间特征，将数据从低维空间映射到高维空间，获得Transformer模型输入所需要的高维嵌入向量；经过卷积嵌入后得到M个d维的特征向量组成的嵌入向量序列

M为嵌入后的序列长度。

(S2.2)在嵌入向量序列前添加可学习的类别向量

用于全局的特征表示，并最终作为分类器的输入，降低网络模型的计算复杂度。

(S2.3)对嵌入向量序列

叠加位置编码，获得Transformer模型的输入。

Transformer模型的输入的公式表示为：

进一步，所述的步骤S3具体为：

包含位置信息的嵌入向量序列z_IQ经过Transformer编码器，计算不同位置特征向量之间的相关性，获得I/Q序列的编码向量序列。Transformer编码器是由L层结构相同的编码器串联而成，每层编码器的数学表达式为：

z'_IQ＝LN(Drop(MSA(z_IQ))+z_IQ)

z”_IQ＝LN(Drop(MLP(z'_IQ))+z'_IQ)

其中，LN表示层归一化处理，Drop表示神经单元随机丢失的Dropout操作，MSA表示多头自注意力模块，MLP则表示全连接前馈网络。Transformer编码器主要利用MSA模块捕获不同位置的特征向量之间的相关性，得到考虑不同位置相关性的编码向量；然后利用MLP模块筛选特征向量中的有用信息。Dropout、残差结构(上述公式中的“+”)和层归一化都是为了避免梯度消失和梯度爆炸，使网络更加稳定。

经过L层编码器后输出编码向量序列o_IQ，可以表示为

为I/Q数据的类别特征向量，

为I/Q数据的序列特征向量。

进一步，所述的步骤S3中的MSA具体为：

对于MSA模块公式表示为：

MSA(z_IQ)＝Concat(head₁,...,head_h)w^O

其中，Concat表示h个子头head的特征维度的拼接，w^O为线性变换权重。第i个子头head_i具体表示为：

其中，

为线性变换权重，Attention计算具体表示为：

其中，d_k为常数因子，保证Softmax操作后权值的一致性。

进一步，所述的步骤S3中的MLP具体为：

对于MLP模块，包含两个线性变换层和中间的ReLU激活函数，公式表示为：

MLP(z'_IQ)＝max(0,z'_IQw₁+b₁)w₂+b₂

其中，w₁和w₂表示线性权重，b₁和b₂则为偏置项。

进一步，所述的步骤S4中，A/P序列经过如S2、S3相同结构的网络模型，得到对应的编码向量序列

进一步，所述的步骤S5具体为：

I/Q和A/P序列的特征向量进行交叉注意力计算，即I/Q数据的类别特征向量

与A/P数据的序列特征向量

作交叉注意力计算，同样

与

作交叉注意力计算。交叉注意力模块同样由L_c层相同结构的交叉注意力子模块串联而成。以

和

为例，经过单层交叉注意力计算后的关联特征向量

公式表示为：

其中，MCA表示多头交叉注意力计算，捕获I/Q序列与A/P序列之间的关联特征，w^O为线性变换权重。head_i具体表示为：

其中，

分别为QKV变换的线性权重，Attention计算具体表示为：

其中，d_k为常数因子。

经过L_c层交叉注意力计算后，获得I/Q序列输出的关联特征向量c_IQ。类似地，

与

作交叉注意力计算后，得到A/P序列输出的关联特征向量c_AP。

进一步，所述的步骤S6具体为：

将交叉注意力计算后得到的关联特征向量c_IQ和c_AP进行拼接，获得联合特征向量

联合特征向量经过包含线性变换、激活函数、Softmax层的分类器，获得调制类别的概率分布p，进而获得信号调制样式的识别结果Max(p)。

进一步，所述的步骤S7具体为：

利用已有的样本训练集，将第i个原始信号sⁱ预处理后送入S2～S6所描述的调制识别网络模型，获得调制类别的概率分布pⁱ，结合样本标签y_i，利用交叉熵损失函数实现网络模型参数的更新。损失函数表示为：

其中，N为样本数。

为了使本发明的目的、技术方案更加清楚明白，一下结合实施例，对本发明进行进一步地详细说明。应当理解，此处所描述的具体实例仅仅用以解释本发明，并不用于限定本发明。

本发明通过将接收到的离散复信号预处理为I/Q和A/P序列，利用Transformer编码器分别提取I/Q和A/P序列不同位置特征向量之间的依赖关系，获得序列内部的特征编码向量；利用交叉注意力模块提取I/Q和A/P序列之间的关联特征，结合特征拼接获得联合特征表示；在可行的计算复杂度下提高自动调制识别的准确性和鲁棒性。

下面结合附图对本发明的网络模型和方法作详细描述。

如图1所示，本发明实施例提供的一种基于Transformer的特征融合的调制识别方法，包括以下步骤：

S1:对获取到的离散复信号进行预处理，转换成I/Q和A/P序列；

下面结合附图对本发明的应用原理作进一步的描述。

本发明实施例提供的一种基于Transformer的特征融合的调制识别方法，包括以下步骤：

S1：假设获取到长度为N的离散信号

表示为：

s[n]＝s_I[n]+js_Q[n],n＝0,1,…N-1

其中，s_I[n]、s_Q[n]分别为离散信号的同相和正交分量。

I/Q序列表示为：

A/P序列表示为：

其中，

本实施例中采用包含CPFSK、GFSK、PAM4、QAM16、QAM64、QPSK and WBFM共11类调制样式的无线通信数据集。数据集的SNR从-20dB以2dB等间隔增加到18dB，共20个SNR。每类信号每个SNR有1000个样本，每个样本的长度N＝128，故I/Q向量和A/P向量的维度为2×128。数据集的主要参数设置如下表1所示：

表1无线通信数据集的参数设置

S2：对于I/Q序列，首先经过卷积嵌入提取信号的低维特征，将序列从低维空间映射到高维特征空间；然后在序列前面添加可学习的类别向量，用于全局的特征表示，并最终实现分类；叠加位置编码，为嵌入向量序列添加位置信息。具体描述为：

(S2.1)I/Q序列经过多个卷积层，提取数据的空间特征，将数据从低维空间映射到高维空间，获得Transformer模型输入所需要的高维嵌入向量序列。经过如图2的卷积嵌入模型后，得到特征向量

64为卷积嵌入后的序列长度，80则是嵌入向量的投影维度。

(S2.2)在高维嵌入向量序列前添加可学习的类别向量

(S2.3)对嵌入向量序列

叠加sin-cos位置编码向量，获得Transformer模型的输入。

具体公式表示为：

S3：嵌入特征向量序列z_IQ经过如图3、图4所示的Transformer编码器，获得IQ序列的编码向量序列o_IQ，实施例中的Transformer编码器层数为1，对应的数学表达式为：

z'_IQ＝LN(Drop(MSA(z_IQ))+z_IQ)

o_IQ＝LN(Drop(MLP(z'_IQ))+z'_IQ)

其中，LN表示层归一化处理，Drop表示神经单元随机丢失的Dropout操作，MSA表示多头自注意力模块，MLP则表示全连接前馈网络。Transformer编码器主要利用MSA模块捕获不同位置的特征向量之间的相关性，得到考虑不同位置相关性的编码向量；然后利用MLP模块筛选特征向量中的有用信息。Dropout、残差结构和层归一化都是为了避免梯度消失和梯度爆炸，使网络更加稳定。

经过编码器后输出的编码向量序列o_IQ，可以表示为

为I/Q数据的类别特征向量，

为I/Q数据的序列特征向量。

进一步，所述的步骤S3中的MSA具体为：

对于MSA模块公式表示为：

MSA(z_IQ)＝Concat(head₁,...,head_h)w^O

其中，Concat表示h个子头head的特征维度的拼接，w^O为线性变换权重，实施例中设置h＝4。第i个子头head_i具体表示为：

其中，

为线性变换权重，Attention计算具体表示为：

其中，d_k为常数因子，保证Softmax操作后权值的一致性，实施例中设置d_k＝20。

进一步，所述的步骤S3中的MLP具体为：

MLP(z'_IQ)＝max(0,z'_IQw₁+b₁)w₂+b₂

其中，w₁和w₂表示线性权重，b₁和b₂则为偏置项，实施例中设置dim_mlp＝160。

S4：A/P序列经过如S2、S3相同结构的网络模型，得到对应的编码向量序列

S5：I/Q和A/P序列的特征向量进行交叉注意力计算，即I/Q数据的类别特征向量

与A/P数据的序列特征向量

作交叉注意力计算，同样

与

作交叉注意力计算。实施例中设置交叉注意力模块的层数为1。以

和

为例，经过如图5所示的交叉注意力计算后得到关联特征向量c_IQ，公式表示为：

其中，

分别为QKV变换的线性权重，实施例中多头数目设置为4，每个子头的特征维度为20，Attention计算的结构正如图4所示。

同样地，

与

作交叉注意力计算后，得到A/P序列输出的关联特征向量c_AP。

S6：将交叉注意力计算后得到的关联特征向量c_IQ和c_AP进行拼接，获得联合特征向量

联合特征向量经过如图6所示的分类器，获得调制类别的概率分布p，进而获得信号调制样式的识别结果Max(p)。

S7：利用S1中描述的数据集，将第i个原始信号sⁱ预处理后送入如图1所示的调制识别网络模型，获得调制类别的概率分布pⁱ，结合样本标签y_i，利用交叉熵损失函数实现网络模型参数的更新。损失函数表示为：

其中，N为样本数，通常在网络训练过程中N为批尺寸的大小。

为验证模型的可行性，利用S1中描述的无线通信数据集进行仿真实验，对分类结果进行分析，并与现有方法进行对比。仿真实验中，随机从每个类别每个SNR中按7:3的比例分成训练集和验证集，训练回合数为50，学习率设置为10^-3，采用Adam优化器，批尺寸为1024。

从图7到图9可以发现，随着SNR的增加，该专利提出的方法的准确率不断增加。当SNR＝18时，大多数调制样式的识别率接近于1，只有QAM16和QAM64、WBFM和AM-DSB这两组调制样式容易发生混淆，原因在于这两组调制样式的信号在幅度上较为接近。

为了体现该专利所提出的方法的可行性，仿真实验中与CNN、LSTM_AP、CLDNN_IQ、CLDNN_AP、DSCLDNN模型进行了对比，这几种方法都是基于CNN和LSTM模型实现特征提取和分类。DSCLDNN模型则是将I/Q和A/P序列分别经过CNN和LSTM模型获得深度特征，再利用外积运算实现特征融合。正如图10所示，本专利提出的方法在低SNR和高SNR时都取得了很好的识别效果，具有很好的识别稳定性。

仿真实验中还对各方法的浮点运算量、参数量、单回合训练时长和准确率进行了对比，正如表2所示。由于本专利采用了两路特征联合识别的方法，所以浮点运算量、模型参数量、单回合训练时长都有所增加，但是平均准确率也得到大幅提升。相比于DSCLDNN模型，本专利模型的计算量、训练时长还略有降低。总之，本专利所提出的基于Transformer的特征融合的调制识别方法，在复杂度可行的情况下提升了识别准确率，具有一定的应用价值和实际意义。

表2各方法的计算复杂度与准确率对比情况

模型	浮点运算量(M)	模型参数量(M)	单回合时长(S)	平均准确率(％)
					CNN	18.702	2.748	5	53.7
LSTM-A/P	25.888	0.201	8	56.9
					CLDNN-I/Q	66.867	0.517	11	55.7
CLDNN-A/P	66.866	0.517	11	53.8
					DSCLDMM	149.205	1.146	22	55.7
本专利方法	125.631	1.142	20	60.5

综上所述，本发明的优点及积极效果为：相较于现有技术，本发明利用Transformer编码器，分别提取I/Q和A/P序列不同位置特征向量之间的依赖关系，获得序列内部的特征编码向量；相较于现有技术，利用交叉注意力模块提取I/Q和A/P序列之间的关联特征，结合特征拼接获得联合特征表示，提高基于特征融合的调制识别准确率；利用Transformer模型和交叉注意力模块中的并行计算架构，提升整个网络模型的训练速度。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。