CN113553988A

CN113553988A - 一种基于复数神经网络和注意力机制的模拟信号识别方法

Info

Publication number: CN113553988A
Application number: CN202110885480.4A
Authority: CN
Inventors: 史清江; 彭颖; 董益宏
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-10-26

Abstract

一种基于复数神经网络和注意力机制的模拟信号识别方法，特征在于，其包括基于复数神经网络和注意力机制的模型设计方法及其复数元学习训练方法。本发明通过将复数神经网络和多头注意力机制应用于元学习模型，使得模型能更好地捕捉训练样本的类别特征，达到更好的分类效果和稳定的表现；同时，模型可以应用于大多数信号分类任务，并在少量的训练样本下也能取得较好的测试结果。

Description

一种基于复数神经网络和注意力机制的模拟信号识别方法

技术领域

本发明涉及模拟信号识别领域。

背景技术

信号识别在深度学习领域的成功需要使用大量的数据。而用传统的监督学习方法训练的深度学习模型在只有少量数据或需要适应未见过的任务或时间变化的任务时，往往表现不佳。在实际的信号识别任务中，收集和注释丰富的数据的代价是很昂贵的，尤其是对于一些罕见但重要的信号。另一方面，由于噪音的存在，在实际场景中，深度神经网络必须适应信噪比的实时变化。

在实际的信号识别任务中，模拟信号包括电流、电压、功率。

在复数神经网络中配备注意力机制的元学习方法还没有被研究。

发明内容

本申请原理将注意力机制和复值神经网络加入元学习中。

本发明公开了一种无线信号识别方法，包括基于复数神经网络和注意力机制的模型设计及其复数元学习训练方法，将模型首次取名为CAMEL(Complex-valued AttentionalMEta Learner)，所述CAMEL是由复数神经网络和复数多头注意力机制组成。通过将注意力机制扩展到复数域上，利用复数神经网络和注意力机制让模型纳入信号的先验知识，即复数域信息和时域信息，从而提高模型在信号分类识别问题的表现和准确率。而复数元学习训练方法能够使CAMEL通过少量训练样本的学习，在未接触过的新类的识别中达到很高的准确率，具有较强的泛化能力，从而解决小样本的信号分类问题。

本发明目的在于克服现有技术的不足，公开一种基于复数神经网络和注意力机制的模拟信号识别方法，特征在于，其包括基于复数神经网络和注意力机制的模型设计方法及其复数元学习训练方法。

具体实现包括以下步骤：

S1：对模拟信号数据预处理，筛选信噪比，构造训练集和测试集；模拟信号的度量或者模拟信号的特征包括电流、电压、功率，筛选信噪比，将模拟信号样本输入下文的CAMEL网络模型进行训练或者测试；

S2：设计CAMEL(Model-Agnostic Meta-Learning)网络模型，将S1预处理后的数据输入进CAMEL网络模型中训练，训练优化网络模型后并用于预测识别的结果；

所述的CAMEL网络模型，包括5个复数卷积块，在第二个复数卷积块与第三个复数卷积块之间构造一个复数值的多头注意力机制，并在5个复数卷积块的复值卷积操作完成后进行全连接并线性映射到5个类别，最后将复数通过取实部的方式转换为实数。

所述的方法，其特征在于，所述S2包括步骤：

S2.1：首先需要定义复数卷积的方法，根据复数运算的定义，复数卷积输出的实部为输入的实部的卷积减去输入的虚部的值的卷积，输出的虚部的值为输入的实部的卷积加输入的虚部的值的卷积，结合实部和虚部即可得到输出的复数值；

S2.2：输入模块；

输入模拟信号数据经过1×1卷积，输出通道为128，使数据的第一维从1变为128；

S2.3：通过第一复数卷积块；

其中复数卷积为1×3卷积，输入通道和输出通道均为128；复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化；

S2.4：通过第二复数卷积块；

其中复数卷积为1×3卷积，输入通道为128，输出通道为64；复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化；输出x向量；

S2.5：通过注意力机制，注意力公式为：

其中Q、K、V分别为Query set,Key set,Value set，即三个复矩阵Q、K和V；d_k表示K矩阵的行的维度；将输入x向量进行维度变换，其中x向量的第二维64为嵌入维度(embedding dimension)，最后两个维度合并成一个维度作为多头注意力机制运行的源序列长和目标序列长，变换后的结果作为Q、K、V输入；

采用多头注意力机制，每个头都会产生一个输出向量，再将产生的多个输出向量合并为一个矩阵，最后将此矩阵映射为一个向量y；

S2.6:通过第三复数卷积块；

其中复数卷积为1×3卷积，输入通道为64，输出通道为128；复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化；

S2.7:通过第四复数卷积块；

S2.8:通过第五复数卷积块；

S2.9:通过全连接层，并将输出结果线性映射到5个类别，最后取输出的实数部分作为最终分类结果。

所述的方法，其特征在于，所述S3复数元学习训练方法，包括步骤：

S3.1：CAMEL网络模型通过链式法则的反向传播来更新参数。采用非解析复合函数g(u),其中u＝h(x)，应用如下链式法则

其中g是一个连续函数，u^*表示u的共轭向量；对于矩阵导数，链式法则写成:

其中U和X是两个复矩阵，(·)^T表示矩阵的转置；

S3.2：根据S3.1，CAMEL网络模型能按预期进行参数更新；定义CAMEL网络模型的基本模型为带有复数注意力机制的元学习模型，目标是学习敏感的初始参数θ，使得模型通过对第i个支持集S_i进行少量梯度更新，在第i个查询集Q_i上表现良好并获得θ′_i；这里的T_i＝{S_i,Q_i}是从任务概率分布p(T)中随机抽样的任务；上述更新步骤称为内循环更新过程，表示为:

其中，α是学习率，

表示任务i的支持集上的梯度；元参数θ通过优化θ‘_i的表现来训练，元目标的定义如下:

式中，

表示内循环更新过程后任务i的查询集上的损失；通过从p(T)中独立抽取一批任务

来最小化函数

表示为:

元目标的优化称为外循环更新过程，表示为:

其中β表示元学习速率；

S3.3：为实现复数值的注意力机制，需要实现复数值的softmax函数，使用复梯度向量；

设

是复向量x的实函数，则复梯度向量为:

由上式，将广义复数softmax函数定义为:

其中R_sf(·)表示真实情况下的softmax函数，

表示将复数映射到实数域的任意函数；

给定一个复矩阵X，通过线性变换来计算复矩阵Q、K和V，那么复数值的注意力机制写成:

其中，C_sf(·)作用于矩阵的每一行，d_k表示K矩阵的行的维度；

S3.4：为搭建CAMEL网络模型，在S3.3的基础上实现基于复数值的多头注意力机制，允许模型关注并行的注意力函数得到的信息的不同表示：

式中，

W^O为投影矩阵，Concat(·)为输入矩阵的合并；

上述设计了基于复数的激活函数和归一化函数，使得CAMEL网络模型中的每一部分都采用复数进行运算，构成复数神经网络。

本发明有益效果：本发明通过将复数神经网络和多头注意力机制应用于元学习模型，使得模型能更好地捕捉训练样本的类别特征，达到更好的分类效果和稳定的表现。同时，模型可以应用于大多数信号分类任务，并在少量的训练样本下也能取得较好的测试结果。因此，本发明方法具有创新性和优异性能。

附图说明

图1是实施例1预测方法流程示意图。

图2是实施例1应用系统模型架构图。

图3是本发明神经网络结构示意图。

图4是实施例1在模拟信号数据集RADIOML 2016.04C上的准确率收敛曲线图，置信区间为95％。

图5是实施例1在模拟信号数据集RADIOML 2016.10A上的混淆矩阵图。

具体实施方式

一种无线信号识别方法，特征在于，其包括基于复数神经网络和注意力机制的模型设计方法及其复数元学习训练方法，具体实现包括以下步骤：

S1：对模拟信号数据预处理，筛选信噪比，构造训练集和测试集。

模拟信号的度量或者模拟信号的特征包括电流、电压、功率，筛选信噪比，将模拟信号样本输入下文的CAMEL网络模型进行训练或者测试。

基于few-shot小样本学习的思想，将训练集和测试集均划分为支持(support)集和查询(query)集。对于n-way k-shot学习，支持集和查询集中均有n类样本，支持集中每个类别有k个样本。

S2：设计CAMEL(Model-Agnostic Meta-Learning)网络模型，将S1预处理后的数据输入进CAMEL网络模型中，得出最终的预测结果。

如图3所示，所述的CAMEL网络模型，具有5个复数卷积块，在第二个复数卷积块与第三个复数卷积块之间构造一个复数值的多头注意力机制，并在5个复数卷积块的复值卷积操作完成后进行全连接并线性映射到5个类别，最后将复数通过取实部的方式转换为实数。本发明设计的MAML(Model-Agnostic Meta-Learning)能在较小的样本上进行训练学习并具有强大的泛化能力。对于没有见过的测试集数据，在经过含有少量样本的支持集的学习后，在查询集上获得很好的模型表现。

所述S2的过程如下，如图3所示：

S2.1：首先需要定义复数卷积的方法，根据复数运算的定义，复数卷积输出的实部为输入的实部的卷积减去输入的虚部的值的卷积，输出的虚部的值为输入的实部的卷积加输入的虚部的值的卷积，结合实部和虚部即可得到输出的复数值。

S2.2：输入模块。输入模拟信号数据经过1×1卷积，输出通道为128，使数据的第一维从1变为128。

S2.3：通过第一复数卷积块。其中复数卷积为1×3卷积，输入通道和输出通道均为128。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。

S2.4：通过第二复数卷积块。其中复数卷积为1×3卷积，输入通道为128，输出通道为64。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。最终，输出x向量。

S2.5：通过注意力机制，注意力公式为：

其中Q、K、V分别为Queryset,Keyset,Valueset，即三个复矩阵Q、K和V；d_k表示K矩阵的行的维度。将输入x向量进行维度变换，其中x向量的第二维64为嵌入维度(embeddingdimension)，最后两个维度合并成一个维度作为多头注意力机制运行的源序列长和目标序列长。变换后的结果作为Q、K、V输入。采用多头注意力机制，头数为8，每个头都会产生一个输出向量，再将产生的多个输出向量合并为一个矩阵，最后将此矩阵映射为一个向量y。

不同的随机初始化映射矩阵可以将输入向量x映射到不同的子空间，这可以让模型从不同角度理解输入的序列。因此同时几个注意力函数运算的组合效果可能会优于单个注意力机制，这种同时计算多个Attention的方法即为多头注意力机制。

S2.6:通过第三复数卷积块。其中复数卷积为1×3卷积，输入通道为64，输出通道为128。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。

S2.7:通过第四复数卷积块。其中复数卷积为1×3卷积，输入通道和输出通道均为128。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。

S2.8:通过第五复数卷积块。其中复数卷积为1×3卷积，输入通道和输出通道均为128。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。

S3复数元学习训练方法

S3.1：CAMEL网络模型通过链式法则的反向传播来更新参数。然而，传统的链式法则不起作用，需要定义用于复数变量的链式法则。链式法则对于非解析函数与传统形式不同，对于一个非解析复合函数g(u),其中u＝h(x)，应用如下链式法则；

其中g是一个连续函数，u^*表示u的共轭向量。注意，如果函数是可解析的，第二项等于0，且上式变成普通的链式法则。对于矩阵导数，链式法则可以写成:

其中U和X是两个复矩阵，(·)^T表示矩阵的转置。

S3.2：根据S3.1，CAMEL网络模型能按预期进行参数更新。定义CAMEL网络模型的基本模型为带有复数注意力机制的元学习模型，目标是学习敏感的初始参数θ，使得模型通过对第i个支持集S_i进行少量梯度更新，在第i个查询集Q_i上表现良好并获得θ′_i。这里的T_i＝{S_i,Q_i}是从任务概率分布p(T)中随机抽样的任务。上述更新步骤称为内循环更新过程，可以表示为:

其中，α是学习率，

表示任务i的支持集上的梯度。元参数θ通过优化θ‘_i的表现来训练。因此，元目标的定义如下:

式中，

表示内循环更新过程后任务i的查询集上的损失。由于潜在的p(T)是未知的，通常不进行上式等号右边的期望计算。因此，通过从p(T)中独立抽取一批任务

来最小化函数

表示为:

元目标的优化称为外循环更新过程，表示为:

其中β表示元学习速率。

S3.3：为实现复数值的注意力机制，需要实现复数值的softmax函数，使用复梯度向量。如果

是复向量x的实函数，则复梯度向量为:

由上式，将广义复数softmax函数定义为:

其中R_sf(·)表示真实情况下的softmax函数，

表示将复数映射到实数域的任意函数，如abs(·)(为已知的常见函数，即取复数的实部)、

等。

给定一个复矩阵X，通过线性变换来计算复矩阵Q、K和V，它类似于复数的全连接层。那么复数值的注意力机制写成:

其中，C_sf(·)作用于矩阵的每一行，d_k表示K矩阵的行的维度。

S3.4：为搭建CAMEL网络模型，在S3.3的基础上实现基于复数值的多头注意力机制，它允许模型关注并行的注意力函数得到的信息的不同表示：

式中，

W^O为投影矩阵，Concat(·)为输入矩阵的合并。本发明同时设计了基于复数的激活函数和归一化函数，使得模型中的每一部分都采用复数进行运算，构成复数神经网络。

实施例1实验及验证

为了使本发明的目的和效果更加清楚，下面以本发明的基于复数神经网络和注意力机制的元学习模型CAMEL的信号预测实验为例，利用模拟信号数据集RADIOML 2016.04C，对本发明的集成模型进行详细描述。

S1.1：原始输入数据的维度为2×128，其分类标签为11种调制模式：8PSK,AM-DSB,AM-SSB,BPSK,CPFSK,GFSK,PAM4,QAM16,QAM64,QPSK,WBFM。输入信号信噪比SNR的取值范围为-20dB～20dB，本实验仅选取SNR≥0的信号样本；

S1.2：将数据集划分为P(Prediction)集和O(Other)集，选取5类样本构成P集，另外6类样本构成O集。选取P集中95％的样本构成测试集，剩余5％的样本和O集中的所有样本构成训练集。

S1.3：训练过程：n-way k-shot学习，在n＝5,k＝1或5的情况下分别进行模型训练：k＝1时，对于支持集，每个类包含一个样本；k＝5时，支持集中每个类包含5个样本。两种情况下查询集每个类均包含15个样本。首先将S1中的输入数据从实数转换为复数值。

S2.1：复数卷积层对复数输入信号进行卷积运算。定义A为复数卷积核。给定x,A，和b，由于复数卷积层是线性的，可以分别计算其输出的实部和虚部：

根据以上两等式，复数卷积层可表示为:

其中

表示在实数域中的卷积操作。每次复数卷积后，使用复数值的ReLU激活函数，并在激活后进行复数值的批归一化。

S2.2：输入模拟信号数据经过1×1复数卷积，输出通道为128，使数据的第一维从1变为128。

S2.3：通过第一个复数卷积块。其中复数卷积为1×3卷积，输入通道和输出通道均为128。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。

通过复数激活(RELU)函数，激活函数是非线性的，因此它很难是解析的。大多数已知的激活函数在复数域内都不是解析函数，如Sigmoid、Tanh和ReLU等。特别是复数Sigmoid和Tanh是无界的，而复数ReLU中复数不能与0进行比较。为此，复值激活函数可定义为:

其中，R_af(·)为实际情况下的激活函数。这样，C_sigmoid和C_Tanh是有界的，因为它们的实部和虚部是有界的。同时，由于输入的实部和虚部可以与0进行比较，所以复数值的C_ReLU可以与0进行比较。由于上面定义的复数激活函数在大多数情况下是非解析的，因此导数需要使用复数的链式法则。模型中使用复数值的C_ReLU作为激活函数。

继续通过复数批归一化函数。对于一个复向量x，在进行归一化时必须要计算的方差是实数值，而且方差是非解析的。因此，在复值归一化的反向传播中，我们必须利用复梯度向量。定义γ为复值幅度参数，κ为复值位移参数，其复值归一化可表示为:

Var[x]＝E{[x-E[x]][x-E[x]]^H}

其中E[·]和Var[·]分别表示期望和方差，[x]^H表示x的共轭转置。模型中对复数值的激活函数输出结果进行复制批归一化。

S2.4：通过第二个复数卷积块。其中复数卷积为1×3卷积，输入通道为128，输出通道为64。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。

S2.5：通过多头注意力机制，头数为8。输入的变量Q、K、V均为S2.5的输出结果进行一定维度变换后得到的矩阵。每个头产生的输出向量通过一个矩阵将合并的注意力向量映射为单个向量。

S2.6:通过第三个复数卷积块。其中复数卷积为1×3卷积，输入通道为64，输出通道为128。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。

S2.7:通过第四个复数卷积块。其中复数卷积为1×3卷积，输入通道和输出通道均为128。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。

S2.8:通过第五个复数卷积块。其中复数卷积为1×3卷积，输入通道和输出通道均为128。复数卷积后，输出通过复数激活(ReLU)函数，调用复数激活(ReLU)函数后再进行基于复数的批归一化。

S3：将上述运算的结果输入到基于复数的多头注意力模型中，将输入x的第三维和第四维合并，作为该多头注意力机制运行的源序列长和目标序列长，嵌入维度(embeddingdimension)为通道数64,多头机制的头数为8。表示8个头进行并行的注意力函数运算，注意力函数输出结果矩阵拼接，最后映射回原维度。

通过S1-S2所述的CAMEL网络模型，输出预测值y_i，表示第i个训练样本的预测结果，再将y_i与真实值对比，通过反向传播更新网络参数。通过观察CAMEL网络模型表现，将训练轮数epoch设为40000，以保证能到达收敛状态，重复以上步骤，不断调整模型参数，主要是步长和学习旅的调整。最终结果与现有的主要的元学习模型方法相比，得到了最好的准确率：在5-way 1-shot的情况下准确率为96.30％±0.22％，5-way 5-shot的情况下准确率为97.51％±0.15％(执行区间为95％)。

实施例2实际场景

使用上述实施例1最后步骤训练得到的优化参数后的网络模型，同时进行迭代训练不断优化CAMEL网络模型，利用测试数据集测试其最终的表现，应用在实际的预测工作中。

举例，在基站，使用手机等设备的调制解调器(Modem)模块采集IQ信号(为模拟信号数据，划分为训练集和测试集)，参照实施例1步骤S1.1,原始输入数据的维度为2×128,使得数据维度为2×128，其中第一维维度为2，代表复数数据的实部和虚部。筛选合适信噪比(SNR)的信号数据，SNR大于等于0的信号数据，为输入预测进行准备。

将数据划分为训练集和测试集，输入CAMEL网络模型进行迭代优化训练和预测并计算准确率。最终结果得到了最好的准确率：在5-way1-shot的情况下准确率为96.30％±0.22％，5-way 5-shot的情况下准确率为97.51％±0.15％(执行区间为95％)。

Claims

1.一种基于复数神经网络和注意力机制的模拟信号识别方法，特征在于，其包括基于复数神经网络和注意力机制的模型设计方法及其复数元学习训练方法。

2.如权利要求1所述的方法，其特征在于，具体实现包括以下步骤：

S2：设计CAMEL(Model-Agnostic Meta-Learning)网络模型，将S1预处理后的数据输入进CAMEL网络模型中训练，训练优化网络模型后用于预测结果；

3.如权利要求2所述的方法，其特征在于，所述S2包括步骤：

S2.2：输入模块；

S2.3：通过第一复数卷积块；

S2.4：通过第二复数卷积块；

S2.5：通过注意力机制，注意力公式为：

其中Q、K、V分别为Query set,Key set,Value set，即三个复矩阵Q、K和V；d_k表示K矩阵的行的维度；将输入x向量进行维度变换，其中x向量的第二维64为嵌入维度(embeddingdimension)，最后两个维度合并成一个维度作为多头注意力机制运行的源序列长和目标序列长，变换后的结果作为Q、K、V输入；

S2.6:通过第三复数卷积块；

S2.7:通过第四复数卷积块；

S2.8:通过第五复数卷积块；

4.如权利要求1或者2所述的方法，其特征在于，所述S3复数元学习训练方法，包括步骤：

S3.1：CAMEL网络模型通过链式法则的反向传播来更新参数。采用非解析复合函数g(u),其中u＝h(x)，应用如下链式法则：