CN115079116A

CN115079116A - 基于Transformer和时间卷积网络的雷达目标识别方法

Info

Publication number: CN115079116A
Application number: CN202210391518.7A
Authority: CN
Inventors: 夏伟杰; 陈晴; 潘勉; 吕帅帅; 蒋洁
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-09-20

Abstract

本发明公开了一种基于Transformer和时间卷积网络的雷达目标识别方法，首先对原始HRRP样本集进行预处理；通过卷积模块对样本进行特征提取并改变数据格式；再通过基于VIT的MoCo对比学习模块，在特征空间上学习区分不同样本；之后将经过MoCo对比学习模块得到的特征，输入时间卷积模块，进一步地加强模型的表征能力，得到可分性更强的特征；最后通过全连接层将更有效的特征进行保留，最后采用softmax对网络的输出进行分类。本发明中应用引入时间卷积网络，使模型获取HRRP中更为全面的信息，进一步提高模型的特征提取能力，得到可分性更强的特征用于分类。

Description

基于Transformer和时间卷积网络的雷达目标识别方法

技术领域

本发明属于雷达目标识别领域，具体涉及一种基于Transformer 和时间卷积网络的雷达目标识别方法

背景技术

雷达(Radar)诞生于20世纪初，其名称的初始意义为“无线电探测与测距”，是一种利用电磁波来探测目标的电子设备。雷达通过向目标发射指定参数的电磁波，并接其后向散射回波，来获取目标的距离、方位、高度等信息。雷达可以实现对目标进行全天时、全天候、远距离的探测，被广泛应用于目标侦察、目标成像、导弹制导等领域，在军事领域中享有较高的地位，并在国防建设中起着举足轻重的作用。

现代战争以高科技信息战、电子战为中心。在军事场景中，能否对来袭目标进行提前探测，能否对实时信息进行有效的获取、检测，能否对战场形势进行实时高效监测，成为了战争胜败的重要因素。正因此，雷达作为一种可以稳定获取信息的重要设备，在战场情报信息获取手段中具有极高的地位。

根据雷达的距离分辨性能不同，RATA可以分为低分辨窄带和高分辨宽带两种不同的雷达目标识别任务。低分辨窄带信号的距离分辨率比较差，这意味着雷达观测目标在回波中被视为“点”目标，因此雷达回波中蕴含的目标信息较少，通常只能基于其回波序列的起伏、微多普勒以及调制等特征实现简单的辨别任务或者粗分类，这显然无法满足现代信息社会对RATA应用场景的需求。

高分辨宽带雷达的距离分辨率较好且远小于目标尺寸，其回波也被称为目标的一维高分辨距离像(HRRP)。HRRP信号提供了目标散射中心沿雷达视线方向的分布情况，反映了目标的尺寸、结构等重要信息，并因其数据量小、易于获取和处理的特点，被广泛地应用于雷达自动目标识别(RATR)领域。传统的基于HRRP的雷达目标识别方法大多是无监督且有损的，可分的特征会在建模过程中丢失一部分，从而影响模型的识别准确率和泛化性。而一些基于深度学习的HRRP 识别方法，在训练数据量较少时，会出现识别性能骤降的现象。

发明内容

为了解决上述问题，我们提出了一种新的深度学习雷达目标识别模型，

该模型由数据预处理模块、卷积模块、基于Transformer的MoCo 对比学习模块、卷积时间网络和分类模块组成。其中MoCo对比学习模块由数据增强、Transformer编码器模块和对比损失模块组成。经过预处理后的HRRP数据，先通过卷积模块并变换成三通道图片格式的数据；然后通过MoCo对比学习模块，在特征空间上学习区分不同样本，拉近同类别样本在特征空间中的距离，同时拉开不同类别样本之间的距离；接着将经过对比学习模块得到的表征输入时间卷积网络，得到可分性更强的特征用于分类，完成HRRP的识别。

基于Transformer和时间卷积网络的的雷达目标识别方法，包括以下步骤：

S1：对原始HRRP样本集进行预处理。

采用L2范数归一化对HRRP原始回波数据进行处理，将幅度划分到统一尺度内消除HRRP的幅度敏感性。采用重心对齐法来改善HRRP 的平移敏感性。

S2:通过卷积模块对样本进行特征提取并改变数据格式；

通过卷积模块CNN对预处理后的HRRP数据进行处理，通过控制和调整卷积模块卷积核的大小和步长，将一维距离像卷积成后续网络所需的数据格式。

S3:通过基于VIT的MoCo对比学习模块，在特征空间上学习区分不同样本，拉近同类别样本在特征空间中的距离，同时拉开不同类别样本之间的距离。

S4：将经过MoCo对比学习模块得到的特征，输入时间卷积模块，进一步地加强模型的表征能力，得到可分性更强的特征。

S5:通过全连接层将更有效的特征进行保留，最后采用softmax 对网络的输出进行分类；

优选地，所述步骤S1具体步骤如下：

S1.1：L2范数归一化。将幅度划分到统一尺度内。将原始的雷达HRRP数据表示为X＝[x₁,x₂,…,x_M]，则L2范数归一化后得到的 X^norm如下：

其中，X表示原始HRRP数据，M表示HRRP内包含的距离单元数量，x_m表示第m个距离单元内的幅值。通过范数归一化后得到

S1.2：重心对齐法。重心对齐法分为两步：首先需要计算出HRRP 的重心位置，然后通过平移使其重心位于HRRP距离单元的中心位置。雷达HRRP数据通过范数归一化后得到

则重心G的计算如下：

通过平移得到数据

优选地，所述S2详细步骤为：

将数据预处理之后的HRRP样本X^G，经过CH个大小为1×5卷积核来进行卷积操作，得到卷积的输出

其中X包含L个距离单元，CH表示通道数，F_cnn(ch)表示第ch个通道的卷积输出。F_cnn计算如下：

其中，

为卷积操作，

W_ch表示第ch个卷积核的权重矩阵参数，b_ch为相应的偏置，L表示序列长度。

然后，将卷积输出的特征经过批归一化和激活函数ReLU得到输出F_br，避免数据分布差异对识别性能的影响。最后，将F_br变换成 (Reshape)对比学习所需的数据格式，得到特征F_in，其中

其中CH×1×L＝C×H×W，C、H、W分别是图片的通道、高和宽。经过卷积模块得到特征

特征F_in的数据形式与图片一致，所以也把F_in称为卷积处理后的HRRP图片格式数据。

优选地，所述S3详细步骤为：

所述的MoCo对比学习模块由数据增强、编码器模块和对比损失模块组成。

S3.1:数据增强模块。

设计了一种组合使用随机剪裁(Random Crop)、依概率p水平翻转(HorizontalFlip)和依概率p垂直翻转(Vertical Flip)的数据增强方法。小批次的经过卷积处理后的HRRP图片格式数据为

对这一批次的数据进行增强：

对于其中一张图片格式数据

其增强后的

为其正样例，其余为负样例。同一张图片格式数据经过两种数据增强后得

和

分别进入梯度编码器f_q和动量编码器f_k

S3.2:编码器模块。

所述的编码器模块包括梯度编码器f_q和动量编码器f_k，通过VIT 模块构建为梯度编码器f_q和动量编码器f_k，两者区别在于梯度编码器 f_q梯度方式更新参数，而动量编码器f_k采用动量方式更新参数，两者的模块结构相同。

VIT模块针对图片格式数据来获取其深度双向表示，需要将数据进行分割并拉伸成向量形式即分块嵌入并加上位置编码，然后通过多头注意力模块进行的注意力分布计算，最后通过MLP层得到输出特征。

VIT模块具体如下：

S3.2.1:分块嵌入和位置编码。先将图片格式数据划分为几个区块(patches)，然后将其线性压缩为特征向量结构。对于输入特征

给定区块的大小尺寸P，将F″′_in划分为N个P×P×C的区块，如下公式：

C×H×W→N×(P²C)

得到N个区块之后，通过全连接网络将其线性变换为N个长度为E维的特征向量，并在向量起始位置添加一个标志位向量x_class。计算过程如下：

其中，

表示第i个区块，W_i为权重参数，且

Concat[·]为拼接操作。最终得到的F₀为分块嵌入的输出结果，

同样的，分块嵌入得到的特征缺少区块之间的相对位置信息，因此需要为F₀添加位置编码信息。使用可训练的一维位置编码，初始化一个可训练的随机变量，将其添加到嵌入特征F₀中：

F₁＝F₀+E_pos

其中，F₁为添加位置信息后的区块嵌入特征，

S3.2.2:层归一化。对于区块嵌入得到的特征

使用层归一化对其进行处理，计算过程为：

F_LN＝LayerNorm(F₁)

其中，μ为均值，

为方差，ε为一个很小的值用来防止分母为 0，γ和β代表缩放和平移的参数向量，与输入特征的维度保持一致。

S3.2.3:多头注意力模块。首先先介绍自注意力机制，层归一化后的嵌入表征F_LN乘以三个不同的参数矩阵，映射为查询矩阵Q、被查询的键值矩阵K和值矩阵V，公式可以表示为：

其中，

接着，使用Q矩阵去查询K矩阵，建立每一维特征与全局特征之间的联系，得到点积矩阵QK^T。通过点击得到的矩阵通常具有较大的方差，将其归一化后的结果不太稳定，不利于模型收敛，因此引入了“缩放因子

”。将QK^T除以

再通过Softmax函数将其归一化，得到V的注意力权重矩阵。

最后，自注意力机制的输出F_self-att如下：

多头注意力机制的原理与上述的自注意力机制原理类似。不同的是，这个过程要重复h次，也就是所谓的多头。由于每一次投影和点击运算的参数矩阵不同，因此得到的h个自注意力输出也不相同。将这h个自注意力结果拼接(Concat)起来，再经过一次线性变换，最终得到多头注意力机制的结果F_MH。多头注意力机制的计算过程如下所示：

head_i＝Attention(F_LNW_q ⁱ,F_LNW_k ⁱ,F_LNW_v ⁱ)

F_MH＝Concat[head₁；head₂；...；head_h]W_MH

其中，

head_i代表第i个注意力头的输出结果。

S3.2.4:MLP层。

MLP实际上就是两层全连接层，第一个全连接层将残差归一化后的多头注意力输出特征F_lr映射到高维隐藏空间，第二个全连接层将其映射到低维空间，进一步保留有用的特征信息，其过程为：

F_fc1＝F_lrW_{mlp_dim}+b_{mlp_dim}

F_fc2＝ReLU(F_fc1W_{embed_dim}+b_{embed_dim})(

其中，F_fc1表示第一个全连接层输出结果，F_fc2表示第二个全连接层输出的结果。W_{mlp_dim}和W_{embed_dim}是两次线性投影的参数矩阵，b_{mlp_dim}和b_{embed_dim}是对应的偏置。

最后，取MLP层的标志位向量

作为编码器的输出向量，该向量融合了所有区块(patches)的信息。

S3.3:对比损失模块，对比模块所用的损失函数如下所示：

其中，q是HRRP样本x经过上述模块得到的结果q。k⁺是与x相似的正样例经过上述模块得到的结果，k^-是与x不相似的负样例经过上述模块得到的结果。该损失函数使得q与正样例k⁺的相似度尽可能的大，与其他负样例的相似度尽可能小。

由于MoCo对比学习模块整体架构输入与一般的对比学习模块不同，MoCo对比学习模块的编码器模块有两个输入，因此损失函数也有所不同。对于同一个HRRP数据经过两次数据增强模块，因为数据增强模块的随机性得到2种增强版本

和

分别通过梯度编码器 f_q和动量编码器f_k得到特征q₁、

和q₂、

让q₁、

通过上式得到损失ctr₁，让q₂、

通过上式得到损失ctr₂，然后得到MoCo对比学习模块的对比损失函数为：

L_moco＝ctr₁+ctr₂

编码器f_q通过损失函数的梯度下降来优化参数，而编码器f_k则不进行梯度更新，而是通过下式进行动量更新：

θ_k←mθ_k+(1-m)θ_q (5.16)

其中，θ_q是编码器f_q的参数，θ_k是编码器f_k的参数。m为动量参数，m＝0.999，因此编码器f_k的更新虽然极为缓慢，但是依然能更新参数，解决了一致性的问题。

优选地，所述S4详细步骤为：

时间卷积模块由因果膨胀卷积、批归一化、ReLU函数、Dropout 和残差连接组成。

当卷积核f:

经过MoCo对比学习模块输出的 HRRP特征为

其中t为特征长度，

那么，HRRP特征经过因果膨胀卷积的计算之后的输出定义为：

其中，d表示扩张系数，d随卷积层的加深以2的指数幂增加， f(j)表示卷积核在j位置处的取值，0≤j≤ker-1，

是经过因果膨胀卷积后输出的特征。下式表示感受野的大小：

field＝(k-1)·d

然后，对因果膨胀卷积得到的特征进行批归一化操作。每个批次 (mini-batch)中包含num条数据：

定义该批次数据经过因果膨胀卷积操作之后的输出为

Fⁱ表示mini-batch中第 i条数据对应的因果膨胀卷积输出。那么，对

进行批归一化可定义为：

其中，F^o(k,l)、

分别为第o条数据在批归一化操作前后第 k个通道的第l个数值，γ^k、β^k为可训练的参数，ε定义为一个极小的数值以防止分母为0。μ_BN、

分别为均值和方差。

接着，将

输入激活函数得到

对mini-batch中的每一条数据重复上面的计算过程，得到映射输出特征F(q₁)，然后通过残差连接获取浅层信息，防止过拟合：

F_res＝ReLU(q₁+F(q₁))

优选地，所述S5详细步骤为：

最后使用一层全连接层和Softmax函数对特征预测，其过程为，先通过一层全连接层将时间卷积网络的输出特征F_res进行降维，得到预测向量：

F_f＝F_resW_f+b_f

其中，

C为HRRP样本目标总类别数。再通过Softmax 函数将预测向量映射为概率分布P：

其中，F_f(c)表示第c个元素，P(c|F_f)表示特征F_f属于第c类目标的概率。最后通过下式得到分类结果：

其中argmax(·)表示括号内的函数取最大值时，对应的c变量取值。

本发明的有益效果是：

1、本发明中应用引入基于Transformer的MoCo对比学习模块。对比学习通过Transformer编码器获取HRRP的深度双向表征，并利用对比损失来拉近同类别样本在特征空间中的距离。

2、本发明中应用引入时间卷积网络。使模型获取HRRP中更为全面的信息，进一步提高模型的特征提取能力，得到可分性更强的特征用于分类。

附图说明

图1：基于改进时序卷积网络的雷达目标识别方法的步骤流程图。

具体实施方式

参照图1，为本发明的一种基于改进时序卷积网络的雷达目标识别方法流程图，具体实施步骤如下：

训练阶段：

S1:采集数据集，将雷达采集到的HRRP数据集依据目标的种类进行合并，每种种类的样本分别在不同的数据段里选择训练样本和测试样本，在训练集和测试集的选取过程中，保证所选取的训练集样本与雷达所成姿态涵盖测试集样本与雷达所成的姿态。各类目标训练集和测试集样本数的比例为8:2，将挑选的数据集记作 T＝{(x_n,y_c)}_{n∈[1,N],c∈[1,C]}，其中x_n表示第n个样本，y_c表示样本属于第c类，一共采集了C类目标，N表示样本总数。

S2:对经过S1所提取数据集中的样本做预处理，具体操作步骤如下：

S2.1：L2范数归一化。将幅度划分到统一尺度内。将原始的雷达HRRP数据表示为X＝[x₁,x₂,…,x_M]，则L2范数归一化后得到的 X^norm如下：

S2.2：重心对齐法。重心对齐法分为两步：首先需要计算出HRRP 的重心位置，然后通过平移使其重心位于HRRP距离单元的中心位置。雷达HRRP数据通过范数归一化后得到

则重心G的计算如下：

通过平移得到数据

S3：通过卷积模块对样本进行特征提取并改变数据格式，具体步骤如下：

S3:将数据预处理之后的HRRP样本X^G，经过CH个大小为1×5 卷积核来进行卷积操作，得到卷积的输出

其中，

为卷积操作，

S4：通过基于VIT的MoCo对比学习模块，在特征空间上学习区分不同样本，拉近同类别样本在特征空间中的距离，同时拉开不同类别样本之间的距离，具体步骤如下：

S4.1:数据增强模块。

对这一批次的数据进行增强：

对于其中一张图片格式数据

其增强后的

和

分别进入梯度编码器f_q和动量编码器f_k

S4.2:编码器模块。

VIT的详细步骤为：

S4.2.1:分块嵌入和位置编码。先将图片格式数据划分为几个区块(patches)，然后将其线性压缩为特征向量结构。对于输入特征

C×H×W→N×(P²C)

得到N个区块之后，通过全连接网络将其线性变换为N个长度为E维的特征向量，并在向量起始位置添加一个标志位向量x_class，该向量融合了全局的语义信息，从而更好地表示整个特征序列的信息，有利于后续网络的识别工作。计算过程如下：

其中，

表示第i个区块，W_i为权重参数，且

F₁＝F₀+E_pos

其中，F₁为添加位置信息后的区块嵌入特征，

S4.2.2:层归一化。对于区块嵌入得到的特征

使用层归一化对其进行处理，计算过程为：

F_LN＝LayerNorm(F₁)

其中，μ为均值，

S4.2.3:多头注意力模块。首先先介绍自注意力机制，层归一化后的嵌入表征F_LN乘以三个不同的参数矩阵，映射为查询矩阵Q、被查询的键值矩阵K和值矩阵V，公式可以表示为：

其中，

”。将QK^T除以

再通过Softmax函数将其归一化，得到V的注意力权重矩阵。

最后，自注意力机制的输出F_self-att如下：

head_i＝Attention(F_LNW_q ⁱ,F_LNW_k ⁱ,F_LNW_v ⁱ)

F_MH＝Concat[head₁；head₂；...；head_h]W_MH

其中，

head_i代表第i个注意力头的输出结果。

S4.2.4:MLP层。

F_fc1＝F_lrW_{mlp_dim}+b_{mlp_dim}

F_fc2＝ReLU(F_fc1W_{embed_dim}+b_{embed_dim})(

最后，取MLP层的标志位向量

S4.3:对比损失模块，对比模块所用的损失函数如下所示：

和

分别通过梯度编码器 f_q和动量编码器f_k得到特征q₁、

和q₂、

让q₁、

通过上式得到损失ctr₁，让q₂、

L_moco＝ctr₁+ctr₂

θ_k←mθ_k+(1-m)θ_q (5.16)

S5：将经过MoCo对比学习模块得到的特征，输入时间卷积模块，进一步地加强模型的表征能力，得到可分性更强的特征，具体步骤如下：

当卷积核f:

经过MoCo对比学习模块输出的 HRRP特征为

其中t为特征长度，

那么，HRRP特征经过因果膨胀卷积的计算之后的输出定义为：

field＝(k-1)·d

定义该批次数据经过因果膨胀卷积操作之后的输出为

进行批归一化可定义为：

其中，F^o(k,l)、

分别为均值和方差。

接着，将

输入激活函数得到

F_res＝ReLU(q₁+F(q₁))

S6：通过全连接层将更有效的特征进行保留，最后采用softmax 对网络的输出进行分类：

F_f＝F_resW_f+b_f

其中，

S7:将经过S2处理后的HRRP样本测试集送入由S3、S4、S5、 S6步骤中已训练完成组成基于transformer和时间卷积网络的雷达识别的模型中进行训练、测试测试。

应当理解，本文所述的示例性实施例是说明性的而非限制性的。尽管结合附图描述了本发明的一个或多个实施例，本领域普通技术人员应当理解，在不脱离通过所附权利要求所限定的本发明的精神和范围的情况下，可以做出各种形式和细节的改变。

Claims

1.基于Transformer和时间卷积网络的雷达目标识别方法，其特征在于，包括以下步骤：

S1：对原始HRRP样本集进行预处理；

采用L2范数归一化对HRRP原始回波数据进行处理，将幅度划分到统一尺度内消除HRRP的幅度敏感性；采用重心对齐法来改善HRRP的平移敏感性；

S2:通过卷积模块对样本进行特征提取并改变数据格式；

通过卷积模块CNN对预处理后的HRRP数据进行处理，通过控制和调整卷积模块卷积核的大小和步长，将一维距离像卷积成后续网络所需的数据格式；

S3:通过基于VIT的MoCo对比学习模块，在特征空间上学习区分不同样本，拉近同类别样本在特征空间中的距离，同时拉开不同类别样本之间的距离；

S4：将经过MoCo对比学习模块得到的特征，输入时间卷积模块，进一步地加强模型的表征能力，得到可分性更强的特征；

S5:通过全连接层将更有效的特征进行保留，最后采用softmax对网络的输出进行分类。

2.根据权利要求1所述的基于Transformer和时间卷积网络的雷达目标识别方法，其特征在于，所述步骤S1具体步骤如下：

S1.1：L2范数归一化；将幅度划分到统一尺度内；将原始的雷达HRRP数据表示为X＝[x₁,x₂,…,x_M]，则L2范数归一化后得到的X^norm如下：

其中，X表示原始HRRP数据，M表示HRRP内包含的距离单元数量，x_m表示第m个距离单元内的幅值；通过范数归一化后得到

S1.2：重心对齐法；重心对齐法分为两步：首先需要计算出HRRP的重心位置，然后通过平移使其重心位于HRRP距离单元的中心位置；雷达HRRP数据通过范数归一化后得到

则重心G的计算如下：

通过平移得到数据

3.根据权利要求2所述的基于Transformer和时间卷积网络的雷达目标识别方法，其特征在于，所述S2详细步骤为：

其中X包含L个距离单元，CH表示通道数，F_cnn(ch)表示第ch个通道的卷积输出；F_cnn计算如下：

其中，

为卷积操作，

W_ch表示第ch个卷积核的权重矩阵参数，b_ch为相应的偏置，L表示序列长度；

然后，将卷积输出的特征经过批归一化和激活函数ReLU得到输出F_br，避免数据分布差异对识别性能的影响；最后，将F_br变换成(Reshape)对比学习所需的数据格式，得到特征F_in，其中

其中CH×1×L＝C×H×W，C、H、W分别是图片的通道、高和宽；经过卷积模块得到特征

4.根据权利要求3所述的基于Transformer和时间卷积网络的雷达目标识别方法，其特征在于，所述S3详细步骤为：

所述的MoCo对比学习模块由数据增强、编码器模块和对比损失模块组成；

S3.1:数据增强模块；

设计了一种组合使用随机剪裁(Random Crop)、依概率p水平翻转(Horizontal Flip)和依概率p垂直翻转(Vertical Flip)的数据增强方法；小批次的经过卷积处理后的HRRP图片格式数据为

对这一批次的数据进行增强：

对于其中一张图片格式数据

其增强后的

为其正样例，其余为负样例；同一张图片格式数据经过两种数据增强后得

和

分别进入梯度编码器f_q和动量编码器f_k

S3.2:编码器模块；

所述的编码器模块包括梯度编码器f_q和动量编码器f_k，通过VIT模块构建为梯度编码器f_q和动量编码器f_k，两者区别在于梯度编码器f_q梯度方式更新参数，而动量编码器f_k采用动量方式更新参数，两者的模块结构相同；

VIT模块针对图片格式数据来获取其深度双向表示，需要将数据进行分割并拉伸成向量形式即分块嵌入并加上位置编码，然后通过多头注意力模块进行的注意力分布计算，最后通过MLP层得到输出特征；

VIT模块具体如下：

S3.2.1:分块嵌入和位置编码；先将图片格式数据划分为几个区块(patches)，然后将其线性压缩为特征向量结构；对于输入特征

C×H×W→N×(P²C)

得到N个区块之后，通过全连接网络将其线性变换为N个长度为E维的特征向量，并在向量起始位置添加一个标志位向量x_class；计算过程如下：

其中，

表示第i个区块，W_i为权重参数，且

Concat[·]为拼接操作；最终得到的F₀为分块嵌入的输出结果，

同样的，分块嵌入得到的特征缺少区块之间的相对位置信息，因此需要为F₀添加位置编码信息；使用可训练的一维位置编码，初始化一个可训练的随机变量，将其添加到嵌入特征F₀中：

F₁＝F₀+E_pos

其中，F₁为添加位置信息后的区块嵌入特征，

S3.2.2:层归一化；对于区块嵌入得到的特征

使用层归一化对其进行处理，计算过程为：

F_LN＝LayerNorm(F₁)

其中，μ为均值，

为方差，ε为一个很小的值用来防止分母为0，γ和β代表缩放和平移的参数向量，与输入特征的维度保持一致；

S3.2.3:多头注意力模块；首先先介绍自注意力机制，层归一化后的嵌入表征F_LN乘以三个不同的参数矩阵，映射为查询矩阵Q、被查询的键值矩阵K和值矩阵V，公式可以表示为：

其中，

d_q＝d_k；

接着，使用Q矩阵去查询K矩阵，建立每一维特征与全局特征之间的联系，得到点积矩阵QK^T；通过点击得到的矩阵通常具有较大的方差，将其归一化后的结果不太稳定，不利于模型收敛，因此引入了“缩放因子

”；将QK^T除以

再通过Softmax函数将其归一化，得到V的注意力权重矩阵；

最后，自注意力机制的输出F_self-att如下：

多头注意力机制的原理与上述的自注意力机制原理类似；不同的是，这个过程要重复h次，也就是所谓的多头；由于每一次投影和点击运算的参数矩阵不同，因此得到的h个自注意力输出也不相同；将这h个自注意力结果拼接(Concat)起来，再经过一次线性变换，最终得到多头注意力机制的结果F_MH；多头注意力机制的计算过程如下所示：