CN110489567B

CN110489567B - 一种基于跨网络特征映射的节点信息获取方法及其装置

Info

Publication number: CN110489567B
Application number: CN201910787798.1A
Authority: CN
Inventors: 王国胤; 孟艺凝; 舒航; 刘群; 王如琪
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2022-03-22
Anticipated expiration: 2039-08-26
Also published as: CN110489567A

Abstract

本发明属于特征学习领域，特别涉及一种基于跨网络特征映射的节点信息获取方法及其装置，所述方法包括对源网络和目标网络的文本数据进行嵌入操作，得到源网络和目标网络的第二文本矩阵；将源网络的第二文本矩阵矩阵输入到源网络的神经网络中进行训练；训练源网络的过程中，源网络的第二文本矩阵通过多头注意力机制层得到注意力加权，获得源网络的第三文本矩；对源网络的第三文本矩阵进行归一化处理，并将结果输入到神经网络的全连接层；将全连接层更新的向量作为softmax层的输入，并最大化softmax函数，完成训练；利用训练好的源网络的神经网络迁移到目标网络的神经网络，获得目标网络中节点的向量表示；本发明不仅可以减少计算文本信息的减少时间复杂度，还可以降低模型过拟合的风险。

Description

一种基于跨网络特征映射的节点信息获取方法及其装置

技术领域

本发明属于特征学习领域，特别涉及一种基于跨网络特征映射的节点信息获取方法及其装置。

背景技术

以Facebook、Twitter、微信和微博为代表的大型在线社会网络不断发展，产生了海量体现网络结构的数据信息以及异构信息。采用机器学习技术对网络数据进行分析的一个重要问题是如何对数据进行表示。传统的网络表示使用高维的稀疏向量，但是高维稀疏的表示也成为了人们使用统计学习方法时的局限所在，因为高维的向量将花费更多的运行时间和空间。因此将网络中节点表示为低维的向量表示方法，有效融合网络结构与节点外部信息，形成更具区分性的网络表示成为未来的发展趋势。

社交网络中的节点并非完全独立，它们之间存在着链接关系，并且除了节点间的链接关系外，其自身也包含了很多信息，如图1所示的用户的文本信息。综合考虑用户的结构数据和异构数据中有价值的信息，然后将数据表示为向量，进而可以完成机器学习中各种相关任务如节点分类、链路预测、社区发现等。目前对含有异构信息的网络节点表示学习主要有基于谱方法的网络表示学习、基于最优化的网络表示学习、基于概率生成式模型的网络表示学习等。

近几年来Goole提出了attention机制，它完全摒弃了CNN和RNN的结构，从自然语言本身特征出发，设计出了full attention的机制，而且还达到了start of art的结果。Attention机制相比于CNN和RNN结构计算的时间复杂度更低且可以并行运行，同时可调参数减少，可以综合节点的全局信息。

迁移学习(Transfer Learning)可以从现有的数据中迁移知识，用来帮助将来的学习。迁移学习的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。它提高了模型在未经训练的数据上表现良好的能力，使预训练的模型有目的的去训练任务，这些任务迫使模型学习在相关上下文中有用的通用模型。

发明内容

为了增强机器对数据的理解、提升模型的性能，本发明提出一种基于跨网络特征映射的节点信息获取方法及其装置，所述节点信息获取方法包括若源网络中的节点的结构信息和文本信息均完备，而目标网络中节点的文本信息有部分缺失，利用迁移学习的方法利用训练好的源网络去学习目标网络中节点的表示，从而获得文本信息完整的目标节点中的节点描述，其中所述节点为网络中的用户、文章、设备或者服务器，获取节点描述的具体过程包括：

S1、获取源网络(Source network)和目标网络(Target network)的文本数据信息以及结构数据信息；

S2、利用实体链接工具获得源网络和目标网络文本中的实体以及实体对应的数据链接；

S3、将数据链接对应的文本数据加入到源网络和目标网络的文本数据中，形成新的源网络和目标网络文本数据；

S4、利用网络结构特征提取工具将源网络和目标网络的信息结构分别表示为V₁,V₂，其中，V₁和V₂的维度数均为1×dr；dr为结构向量维度；

S5、对源网络和目标网络的文本数据进行嵌入操作，得到源网络和目标网络的第一文本矩阵S₁,S₂，并将V₁和V₂向量分别加入到源网络和目标网络的第一文本矩阵中，得到源网络和目标网络的第二文本矩阵S₁',S₂'；

S6、将源网络的第二文本矩阵S₁'矩阵输入到源网络的神经网络中进行训练；

S7、训练源网络的过程中，源网络的第二文本矩阵S₁'通过多头注意力机制层得到注意力加权，获得源网络的第三文本矩阵S₁”；

S8、对源网络的第三文本矩阵S₁”进行归一化处理，并将结果输入到神经网络的全连接层；

S9、将全连接层更新的向量作为softmax层的输入，并最大化softmax函数，完成训练；

S10、利用训练好的源网络的神经网络迁移到目标网络的神经网络，获得目标网络中节点的向量表示。

进一步的，通过多头注意力机制层得到注意力加权的过程包括：

对输入的源网络的第二文本矩阵S₁'进行归一化处理；

多头注意力机制层由h个缩放点积注意力单元堆叠构成，在每个缩放点积注意力单元中的查询值Q、关键值K以及所有词的嵌入表示向量V做线性变换之后计算查询值Q、关键值K以及所有词的嵌入表示向量V的注意力，将h个缩放点积注意力单元计算得到的查询值Q、关键值K以及所有词的嵌入表示向量V的注意力拼接起来，对拼接的注意力再进行一次线性变换，输出得到多头注意力机制层得到注意力加权，表示为：

Muti_head_attention(Q,K,V)＝concat(head₁,head₂,...,head_i,...,head_h)；

其中，Muti_head_attention(Q,K,V)为多头注意力机制层输出的注意力加权；concat(·)表示拼接操作；head_i表示第i个缩放点积注意力单元获得的加权注意力；

表示在第i个缩放点积注意力单元中查询值Q的权值；

表示在第 i个缩放点积注意力单元中关键值K的权值；

表示在第i个缩放点积注意力单元中所有词的嵌入表示向量V的权值。

进一步的，归一化处理包括：

其中，x^*表示归一化处理后的数据；x表示归一化处理前的数据；max表示进行归一化处理的数据中的最大值；min表示进行归一化处理的数据中的最小值。

本发明还提出一种基于跨网络特征映射的节点描述系统，所述系统包括数据获取模块、数据迁移模块，所述数据获取模块包括网络文本抓取单元、实体链接抓取单元、实体链接数据获取单元；所述数据迁移模块包括网络结构特征提取单元、嵌入单元、基于多头注意力机制的参数迁移单元以及微调单元；其中：

所述网络文本抓取单元用于抓取源网络和目标网络的文本数据信息以及结构数据信息；

所述实体链接抓取单元用于抓取源网络和目标网络的文本数据信息中的实体以及实体对应的数据链接；

所述实体链接数据获取单元用于抓取实体对应的数据链接对应的文本数据；

所述网络结构特征提取单元用于将源网络和目标网络的信息结构表示为向量形式；

所述嵌入单元用于对源网络和目标网络的数据文本执行嵌入操作；

所述基于多头注意力机制的数据迁移单元用于对源网络的数据进行计算并进行训练，当完成训练之后，利用基于多头注意力机制的数据迁移单元初始化目标网络，完成参数迁移；

所述微调单元用于控制完成参数迁移的目标网络的神经网络针对不同任务接口进行微调。

本发明综合考虑了社交网络中用户的结构信息和文本信息来学习用户的节点表示，摒弃了传统的CNN和RNN的结构，利用multi-head-attention机制来计算节点结构和文本信息的全局联系，减少时间复杂度；考虑到数据稀疏对结果影响的问题，本文利用知识图谱中的实体链接技术，调用已有的工具包如：Fast Entity Linker，获得源网络和目标网络文本中的实体及其在维基百科上的链接，爬取维基百科词条加入到对应文本中，这样可以增加原有数据的语义信息，提高机器对文本的可读性和理解性，一定程度上有“数据对齐”的效果，同时在一定程度上还能减弱很多分类问题中出现的“边缘”问题，降低过拟合的风险，优化模型性能；同时目标网络中部分文本属性的缺失属于冷启动问题，而迁移学习可解决冷启动问题，因此本发明训练好一个文本数据和结构数据都完整的源网络，然后利用源网络参数去初始化目标网络，这样就可以将目标网络中缺失的属性“补全”，最后根据不同的任务来微调目标网络，使目标网络有目的地去学习，这样得到的目标网络节点向量既包含了完整的节点文本特征也包含了节点的结构特征，此向量表示对节点的描述比较全面。

附图说明

图1为本发明现实网络数据示意图；

图2为本发明一种基于跨网络特征映射的节点信息获取方法的流程图；

图3为本发明采用的multi-head-attention求解过程示意图；

图4为本发明采用的迁移学习结构示意图；

图5为本发明一种基于跨网络特征映射的节点描述系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方法进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于跨网络特征映射的节点信息获取方法及其装置，所述节点信息获取方法包括若源网络中的节点的结构信息和文本信息均完备，而目标网络中节点的文本信息有部分缺失，利用迁移学习的方法利用训练好的源网络源网络去学习目标网络中节点的表示，从而获得文本信息完整的目标节点中的节点描述，其中所述节点为网络中的用户、文章、设备或者服务器，获取节点描述的具体过程包括：

S1、获取源网络和目标网络的文本数据信息以及结构数据信息；

S4、利用网络结构特征提取工具将源网络和目标网络的信息结构分别表示为V₁,V₂，其中，V₁和V₂的维度数均为1×dr；

S8、对源网络的第三文本矩阵S₁”进行归一化(Normalization)处理，并将结果输入到神经网络的全连接层；

S9、将全连接层(Full connected)更新的向量作为softmax层的输入，并最大化softmax函数，完成训练；

S10、利用训练好的源网络的神经网络的通过迁移学习初始化目标网络的神经网络，获得目标网络中节点，即目标数据(target data)的向量表示(Word vector)；其中获得的节点的向量表示包括完整的文本特征和结构特征，节点的向量表示即为节点描述，将节点描述输入特定任务模式(task-specific-model)，例如节点分类、链路预测等任务进行后续操作。

在本实施例中，如图1～2，以Tiwtter作为源网络，以Facebook作为目标网络，实体对应的数据链接选择维基百科；利用雅虎开源的实体链接工具(Fast Entity Link)获得Tiwtter和Facebook文本中的实体以及实体对应的维基百科页面链接；

将实体对应的维基百科页面词条加入到Tiwtter和Facebook文本数据中，形成新的源网络和目标网络文本数据；

利用node2vec工具将Tiwtter和Facebook结构分别表示为V₁,V₂，其中V₁和V₂的维度数分别为1×dr；

如图4，利用Glove词向量对Tiwtter和Facebook的文本数据(Text data) 输入嵌入相关矩阵(Embedding marix)进行嵌入(Embedding)操作，得到源网络和目标网络的第一文本矩阵S₁、S₂，并将V₁和V₂向量加入到对应文本矩阵中，得到源网络和目标网络的第二文本矩阵S₁'、S₂'；在该过程中，对源网络的文本数据进行嵌入包括：

源网络的文本矩阵的列对应句子中的每个单词、行对应每个单词的向量表示；

单词的向量表示为随机初始的值或者预先训练好的词向量；若一个词没有预先训练好的词向量，则该词可被随机量化；

通过填充操作将长短不一的句子填充为统一长度；

若一个文本中句子的最大长度为n，s_i表示源网络中长度为n的句子中第i 个单词的向量表示为s_i＝(e₁,e₂,...,e_r)，e_r表示构成s_i中的第r个元素；

源网络文本矩阵表示为S＝(s₁,s₂,s₃,...s_n)，将源网络结构向量V₁加入到对应的文本矩阵中，最终输入到源网络的第一文本矩阵为S₁＝(s₁,s₂,s₃,…s_n,v₁)；其中 v₁表示源网络的结构信息。

对目标网络的文本数据进行嵌入包括：

对于包含文本的节点，文本矩阵的列对应句子中的每个单词、行对应每个单词的向量表示；

通过填充操作将长短不一的句子填充为统一长度；

设一个文本中句子的最大长度为n，s_i'表示目标网络中长度为n的句子中第 i个单词的向量表示为s_i'＝(e₁',e₂',...,e_r')，e_r'表示构成s_i'中的第r个元素；

目标网络中带有文本的节点，其文本矩阵可表示为：S'＝(s₁',s₂',s₃',...s_n')；

对于没有文本的节点，其文本矩阵为S'＝(s₁',s₂',s₃',...s_n')，其中 s₁',s₂',s₃',...s_n' ＝ 0 ；

将结构向量V₂加入到对应的文本矩阵中，最终目标网络的输入矩阵为S₂＝(s₁＇,s₂＇,s₃＇,…s_n＇,v₂)；其中v₂表示目标网络的结构信息。

将源网络的第二文本矩阵S₁'输入到源网络的神经网络中进行训练，将神经网络中的多头注意力机制(multi_head_attention)的头数设置为6，即缩放点积注意力单元的数量为6；通过多头注意力机制层得到注意力加权的过程包括：

多头注意力机制层由h个缩放点积注意力单元堆叠构成，在每个缩放点积注意力单元中的查询值Q、关键值K以及所有词的嵌入表示向量V做线性变换之后计算查询值Q、关键值K以及所有词的嵌入表示向量V的注意力，将h个缩放点积注意力单元计算得到的查询值Q、关键值K以及所有词的嵌入表示向量V的注意力拼接起来，对拼接的注意力再进行一次线性变换，输出得到多头注意力机制层得到注意力加权，其中若在一个缩放点积注意力单元中第i个词的嵌入表示为v_i，则该词的注意力表示为：

所有词的注意力表示为：

多头注意力机制层得到注意力加权表示为：

Muti_head_attention(Q,K,V)＝concat(head₁,head₂,...,head_i,...,head_h)；

其中，Q_i表示缩放点积注意力单元的查询值，K表示缩放点积注意力单元中的关键值，在本发明中，查询值Q_i以及关键值K的取值均为源网络的第二文本矩阵S₁'；V为所有词的嵌入表示，表示为

上标T表示矩阵或向量的转置；Muti_head_attention(Q,K,V)为多头注意力机制层输出的注意力加权； concat(·)表示拼接操作；head_i表示第i个缩放点积注意力单元获得的加权注意力；

表示在第i个缩放点积注意力单元中查询值Q的权值；

表示在第i个缩放点积注意力单元中关键值K的权值；

表示在第i个缩放点积注意力单元中所有词的嵌入表示向量V的权值；n表示在网络中句子的最大长度。

如图3，多头注意力(multi-head attention)是由多个h个缩放点积注意力单元(Scaled Dot-product Atttention)堆叠形成的，对输入的Q、K以及V通过线性层(liner)进行线性转化，然后输入每个缩放点积注意力单元，对所有缩放点积注意力单元堆叠后，将缩放点积注意力单元进行拼接(concat)，拼接后在线性层进行线性转化，然后输出；在每个缩放点积注意力单元中，将线性转化后的Q和K进行矩阵运算(MatMul)，即两个矩阵相乘的操作，可选地(opt)，可以在矩阵运算后进行掩膜操作(Mask)，通过归一化指数函数(SoftMax)输出，输出的值再与V进行矩阵运算。

对输入的源网络的第二文本矩阵S₁'进行归一化处理；归一化处理包括：

图1中Facebook需要进行的是链路预测任务，所以根据链路预测的标准对目标网络的神经网络的参数进行微调，达到最高分类精度。

本发明还提出一种基于跨网络特征映射的节点信息获取装置，所述系统包括数据获取模块、数据迁移模块，所述数据获取模块包括网络文本抓取单元、实体链接抓取单元、实体链接数据获取单元；所述数据迁移模块包括网络结构特征提取单元、嵌入单元以及基于多头注意力机制的数据迁移单元；其中：

所述基于多头注意力机制的数据迁移单元用于对源网络的数据进行计算并进行训练，当完成训练之后，将源网络的网络参数迁移到目标网络；

所述微调单元用于控制完成参数迁移的目标网络的神经网络针对不同任务接口进行微调；如图5，微调是指利用源网络神经网络的网络参数初始化目标网络神经网络之后，对获得的目标网络的节点描述根据实际任务需要，例如分类任务、链路预测任务等，对目标网络的参数，例如学习率、激活函数、训练次数等，进行微调，直到达到满意效果，该微调操作在不同的任务接口处完成；在微调时，目标网络的神经网络通过冻结神经网络中的部分模型(通常是靠近输入的多数卷积层)，训练剩下的卷积层(通常是靠近输出的部分卷积层)以及全连接层来实现；

例如目标网络需要进行文本分类任务，那么系统的接口层就是softmax层，最终输出的结果是文本的类别，而最后一层全连接层的输出就是节点在该任务下的表示向量。

进一步的，所述基于多头注意力机制的数据迁移单元包括h个缩放点积注意力单元、拼接器以及线性变换器，其中：

所述h个缩放点积注意力单元之间堆叠构成，每个缩放点积注意力子单元计算数据的注意力；优选的，本发明h＝6；

所述拼接器用于将h个缩放点积注意力单元计算获得注意力进行拼接获得多头注意力机制的最终权重值；

所述将文本第二矩阵输入到多头注意力机制层，然后对输出结果进行归一化处理；

所述的归一化处理结果输入到全连接层，全连接层设置固定的输出向量长度；

所述全连接层输出结果根据特定的任务如文本分类任务来设置softmax层，损失函数层等来训练目标网络。

如图5，基于跨网络特征映射的节点描述方法其应用系统的输入是两个不同的社交网络数据，一个社交网络中的结构和文本数据均完整，另一个社交网络中的结构数据完整，文本数据有缺失。将数据输入到本文封装好的方法中，输出的结果是不完整网络经过迁移学习以后所得到的节点向量表示，该向量包含了节点的文本信息和结构信息。将得到节点的向量表示，输出到不同的任务接口：节点分类、用户关系挖掘、链路预测等，就可以完成不同的社交网络任务。

与已有的节点表示学习相比，本发明充分考虑了社交网络节点的结构和文本信息，同时摒弃了CNN和RNN结构，利用multi-head-attention和迁移学习结合的方法来学习节点表示，并完成不同的机器学习任务。主要思想是利用 multi-head-attention层来构建源网络，这样可以充分考虑节点结构和文本在全局信息上的联系，同时可以减少时间复杂度，然后利用训练好的源网络参数来初始化目标网络，目标网络根据不同的机器学习任务来微调(fine-turning)整个网络。同时考虑到数据稀疏对结果影响的问题，本文利用知识图谱中的实体链接技术，调用已有的工具包如：Fast Entity Linker，获得源网络和目标网络文本中的实体及其在实体的数据链接，例如维基百科上的数据链接，爬取维基百科词条加入到对应文本中，这样可以增加原有数据的语义信息，提高机器对文本的可读性和理解性，一定程度上有“数据对齐”的效果，同时在一定程度上还能减弱很多分类问题中出现的“边缘”问题，降低过拟合的风险，优化模型性能。同时目标网络中部分文本属性的缺失属于冷启动问题，而迁移学习可解决冷启动问题，因此本发明训练好一个文本数据和结构数据都完整的源网络，然后利用源网络参数去初始化目标网络，这样就可以将目标网络中缺失的属性“补全”，最后根据不同的任务来微调目标网络，使目标网络有目的地去学习，这样得到的目标网络节点向量既包含了完整的节点文本特征也包含了节点的结构特征，此向量表示对节点的描述比较全面。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于跨网络特征映射的节点信息获取方法，其特征在于，若源网络中的节点的结构信息和文本信息均完备，而目标网络中节点的文本信息有部分缺失，利用迁移学习的方法利用训练好的源网络去学习目标网络中节点的表示，从而获得文本信息完整的目标节点中的节点描述，其中所述节点为网络中的用户、文章、设备或者服务器，获取节点描述的具体过程包括：

2.根据权利要求1所述的一种基于跨网络特征映射的节点信息获取方法，其特征在于，对源网络的文本数据进行嵌入包括：

通过填充操作将长短不一的句子填充为统一长度；

若一个文本中句子的最大长度为n，s_i表示源网络中长度为n的句子中第i个单词的向量表示为s_i＝(e₁,e₂,...,e_r)，e_r表示构成s_i中的第r个元素；

源网络文本矩阵表示为S＝(s₁,s₂,s₃,...s_n)，将源网络结构向量V₁加入到对应的文本矩阵中，最终输入到源网络的第一文本矩阵为S₁＝(s₁,s₂,s₃,…s_n,v₁)；其中v₁表示源网络的结构信息。

3.根据权利要求1所述的一种基于跨网络特征映射的节点信息获取方法，其特征在于，对目标网络的文本数据进行嵌入包括：

通过填充操作将长短不一的句子填充为统一长度；

设一个文本中句子的最大长度为n，s_i'表示目标网络中长度为n的句子中第i个单词的向量表示为s_i'＝(e₁',e₂',...,e_r')，e_r'表示构成s_i'中的第r个元素；

对于没有文本的节点，其文本矩阵为S'＝(s₁',s₂',s₃',...s_n')，其中s₁',s₂',s₃',...s_n' ＝ 0 ；

4.根据权利要求1所述的一种基于跨网络特征映射的节点信息获取方法，其特征在于，通过多头注意力机制层得到注意力加权的过程包括：

对输入的源网络的第二文本矩阵S₁'进行归一化处理；

多头注意力机制层由h个缩放点积注意力单元堆叠构成，在每个缩放点积注意力单元中的查询值Q、关键值K以及所有词的嵌入表示向量V做线性变换之后计算查询值Q、关键值K以及所有词的嵌入表示向量V的注意力，将h个缩放点积注意力单元计算得到的查询值Q、关键值K以及所有词的嵌入表示向量V的注意力拼接起来，对拼接的注意力再进行一次线性变换，输出得到多头注意力机制层得到注意力加权，多头注意力机制层得到注意力加权表示为：

Muti_head_attention(Q,K,V)＝concat(head₁,head₂,...,head_i,...,head_h)；

其中，Muti_head_attention(Q,K,V)为多头注意力机制层输出的注意力加权；concat(·)表示拼接操作；head_i表示前i个缩放点积注意力单元堆叠获得的加权注意力；

表示在第i个缩放点积注意力单元中查询值Q的权值；

表示在第i个缩放点积注意力单元中关键值K的权值；

5.根据权利要求4所述的一种基于跨网络特征映射的节点信息获取方法，其特征在于，归一化处理包括：

6.根据权利要求1所述的一种基于跨网络特征映射的节点信息获取方法，其特征在于，最大化softmax函数表示为：

其中，p(z_i)表示第i个节点Z_i在全连接层的输出；

表示第第i个节点Z_i单词向量中元素。

7.根据权利要求6所述的一种基于跨网络特征映射的节点信息获取方法，其特征在于，步骤S9还包括利用交叉熵损失作为损失函数来优化源网络的网络参数，交叉熵损失表示为：

其中n表示在网络中句子的最大长度。

8.一种基于跨网络特征映射的节点信息获取装置，其特征在于，所述装置包括数据获取模块、数据迁移模块以及微调单元，所述数据获取模块包括网络文本抓取单元、实体链接抓取单元、实体链接数据获取单元；所述数据迁移模块包括网络结构特征提取单元、嵌入单元以及基于多头注意力机制的数据迁移单元；其中：

所述基于多头注意力机制的数据迁移单元包括源网络的神经网络、目标网络的神经网络，将源网络的数据输入源网络的神经网络进行训练，当完成训练之后，将源网络的网络参数迁移到目标网络；

所述微调单元用于根据对应的不同的任务接口对目标网络的神经网络进行微调，利用微调后目标网络的神经网络获得节点在目标网络中的节点描述，该节点描述中包括完整的文本特征和结构特征。

9.根据权利要求8所述的一种基于跨网络特征映射的节点信息获取装置，其特征在于，所述源网络的神经网络包括多头注意力机制子单元单元，该子单元包括h个缩放点积注意力单元、拼接器以及线性变换器，其中：

所述h个缩放点积注意力单元之间通过堆叠构成，每个缩放点积注意力子单元计算输入的文本矩阵的注意力；

所述线性变换器用于对数据进行线性变换。