CN115422934A

CN115422934A - 一种航天文本数据的实体识别与链接方法、系统

Info

Publication number: CN115422934A
Application number: CN202210853365.3A
Authority: CN
Inventors: 李盛阳; 龚帅; 刘云飞
Original assignee: Technology and Engineering Center for Space Utilization of CAS
Current assignee: Technology and Engineering Center for Space Utilization of CAS
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-12-02
Anticipated expiration: 2042-07-08
Also published as: CN115422934B

Abstract

本发明公开了一种航天文本数据的实体识别与链接方法、系统，涉及航天中文信息检索领域。该方法包括：根据输入的航天文本数据获得的特征向量矩阵结合复杂长序列的编码结果，对定位后的特征向量矩阵进行解码，获得航天文本数据的指称集合，对指称集合和预设知识库的实体表示分别进行编码，通过双编码器模型对编码后的指称集合进行处理，再通过双编码器模型获得实体特征表示，并生成候选实体，将候选实体通过交叉编码器模型输出指称实体集合，以获得航天文本数据的实体识别和链接结果，解决了复杂长序列专业术语识别精度不高、实体链接速度缓慢、链接精度低等难点问题，有效提高了在空间科学与应用领域的实体识别与链接的效率。

Description

一种航天文本数据的实体识别与链接方法、系统

技术领域

本发明涉及中国载人航天工程空间科学与应用领域的中文信息检索领域，尤其涉及一种航天文本数据的实体识别与链接方法、系统-。

背景技术

现今，得益于自然语言处理(Natural Language Processing，简称 NLP)、数据挖掘和深度学习技术的发展，实体识别与实体链接技术在各个专业领域有了更丰富的应用需求，尤其在信息检索领域。实体识别与链接技术主要分为两个子任务，命名实体识别(NamedEntity Recognition，简称NER)和实体链接。

NER是NLP许多应用任务的基础，包括问答系统、知识图谱和事件抽取等。NER旨在使用预定义好的语义类别对无结构文本进行定位和分类，是一个以文本的字符为最小单位的序列标注任务。NER的解决方法多样，大类分为传统机器学习方法和深度学习方法。传统机器学习方法，比如支持向量机(SVM)，隐马尔可夫模型(HMMs)，条件随机场(CRF)等，在深度学习兴起前，这些方法是解决NER的主流模型，深度学习兴起后，衍生的卷积神经网络(CNN)，循环神经网络(RNN)，Transforme以及图神经网络 (GNN)等深度学习网络大大的提高了命名实体的识别精度，逐渐取代传统机器学习方法。

在中文专业领域的NER应用上，Li等人在2021年专针对中文农作物及病虫害进行了NER应用，基于BERT+BiLSTM的算法，从增加字符和分词等入手提高NER效果。Zhang等人基于Roberta-wwm模型提高中文电子病历NER效果。但是类似的中文实体识别领域应用，并未考虑到对复杂长序列实体的识别难点。

载人航天工程空间科学与应用领域存在大量复杂、长序列的专业术语，这些长序列的专业名词与术语使用现有算法识别精度低。这些术语的识别只是第一步，第二步是要将这些术语正确链接到知识库中，但是当前的链接算法过于依赖人工特征，并且对文本语义的建模能力不够，链接效果准确度不够且效率低。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种航天文本数据的实体识别与链接方法、系统。

本发明解决上述技术问题的技术方案如下：

一种航天文本数据的实体识别与链接方法，包括：

S1，根据输入的航天文本数据获得文本向量矩阵；

S2，根据所述文本向量矩阵获得所述航天文本数据的特征向量矩阵；

S3，将分类后的特征向量矩阵结合所述航天文本数据的复杂长序列的编码结果，对所述复杂长序列进行特征定位，获得定位后的特征向量矩阵；

S4，通过归一化指数函数结合条件随机场，对所述定位后的特征向量矩阵进行解码，获得所述航天文本数据的指称集合；

S5，对所述指称集合和预设知识库的实体表示分别进行编码，获得编码后的指称集合和编码后的实体表示；

S6，通过双编码器模型对编码后的指称集合进行处理，获得指称上下文特征表示，通过双编码器模型对编码后的实体进行处理，获得实体特征表示；

S7，通过预设方法对所述指称上下文特征表示和所述实体特征表示进行处理，生成候选实体，并对所述候选实体使用交叉编码器模型进行重排序，输出指称实体集合，以获得所述航天文本数据的实体识别和链接结果。

本发明的有益效果是：本方案解决了复杂长序列专业术语识别精度不高、实体链接速度缓慢、链接精度低等难点问题，在空间科学与应用领域的实体识别与链接数据集的实体与链接整体达到了58.1％，实现了领域文本的较为高效的实体识别与链接，满足实际工程应用的需求。

进一步地，所述S2，具体包括：

通过编码器对维度变换后的所述文本向量矩阵进行处理，获得所述航天文本数据的特征向量矩阵。

采用上述进一步方案的有益效果是：通过维度变换，便于后续多头自注意力模块的计算。

进一步地，所述S3之前，还包括：

通过前馈神经网络对所述特征向量矩阵进行字符分类，获得分类后的特征向量矩阵。

采用上述进一步方案的有益效果是：通过对所述特征向量矩阵进行字符分类，以便于在损失反向传播的过程中更快的收敛。

进一步地，所述S3之前，还包括：对所述航天文本数据进行长实体编码，获得所述航天文本数据的复杂长序列的编码结果。

采用上述进一步方案的有益效果是：通过编码提高了模型对长实体的注意能力，模型能够更好地区分长实体类别和非长实体的类别，从而提高对复杂长序列实体的识别能力。

进一步地，所述S6之前，还包括：

将所述指称集合和预设知识库的实体表示分别进行编码，获得编码后的指称集合和编码后的实体表示；

通过编码后的指称集合对双编码器进行训练，获得双编码器模型。

进一步地，所述S2之前，还包括：

将所述文本向量矩阵变换成预设维度的文本向量矩阵，获得维度变换后的文本向量矩阵；

所述根据所述文本向量矩阵获得所述航天文本数据的特征向量矩阵，具体包括：

根据所述维度变换后的文本向量矩阵获得所述航天文本数据的特征向量矩阵。

采用上述进一步方案的有益效果是：通过这一变换提高了模型对长实体的注意能力，模型能够更好地区分长实体类别和非长实体的类别，从而提高对复杂长序列实体的识别能力。

进一步地，所述S7具体包括：

通过点积法对所述指称上下文特征表示和所述实体特征表示进行处理；

通过交叉编码对候选实体进行重排序，根据排序结果输出指称实体集合，以获得所述航天文本数据的实体识别和链接结果。

本发明解决上述技术问题的另一种技术方案如下：

一种航天文本数据的实体识别与链接系统，包括：向量表示模块、特征提取模块、定位模块、解码模块、编码模块、识别处理模块和链接模块；

所述向量表示模块用于根据输入的航天文本数据获得文本向量矩阵；

所述特征提取模块用于根据所述文本向量矩阵获得所述航天文本数据的特征向量矩阵；

所述定位模块用于将分类后的特征向量矩阵结合所述航天文本数据的复杂长序列的编码结果，对所述复杂长序列进行特征定位，获得定位后的特征向量矩阵；

所述解码模块用于通过归一化指数函数结合条件随机场，对所述定位后的特征向量矩阵进行解码，获得所述航天文本数据的指称集合；

所述编码模块用于对所述指称集合和预设知识库的实体表示分别进行编码，获得编码后的指称集合和编码后的实体表示；

所述识别处理模块用于通过双编码器模型对编码后的指称集合进行处理，获得指称上下文特征表示，通过双编码器模型对编码后的实体进行处理，获得实体特征表示；

所述链接模块用于通过预设方法对所述指称上下文特征表示和所述实体特征表示进行处理，生成候选实体，并对所述候选实体使用交叉编码器模型进行重排序，输出指称实体集合，以获得所述航天文本数据的实体识别和链接结果。

进一步地，所述特征提取模块，具体用于通过编码器对维度变换后的所述文本向量矩阵进行处理，获得所述航天文本数据的特征向量矩阵。

进一步地，还包括：字符分类模块，用于通过前馈神经网络对所述特征向量矩阵进行字符分类，获得分类后的特征向量矩阵。

进一步地，还包括：长实体编码模块，用于对所述航天文本数据进行长实体编码，获得所述航天文本数据的复杂长序列的编码结果。

进一步地，还包括：双编码器模型获取模块，用于将所述指称集合和预设知识库的实体表示分别进行编码，获得编码后的指称集合和编码后的实体表示；

进一步地，还包括：维度变换模块，用于将所述文本向量矩阵变换成预设维度的文本向量矩阵，获得维度变换后的文本向量矩阵；

所述特征提取模块具体用于根据所述维度变换后的文本向量矩阵获得所述航天文本数据的特征向量矩阵。

进一步地，所述链接模块具体用于通过点积法对所述指称上下文特征表示和所述实体特征表示进行处理；

本发明的有益效果：针对空间科学与应用领域语料中的复杂长序列专业术语难以识别的问题，提出了基于Transformer与注意力增强的中文长实体识别算法，对自适应Transformer编码层输出张量中的长实体特征进行特殊变换，有效地提高了长实体的识别能力。

针对当前高效中文实体链接算法的缺乏问题，本发明用一个简单的双编码器分别建模指称及上下文表示和CMSSA知识库，然后通过点积这两者来得到候选实体，然后使用交叉编码器进行候选实体重排序，在SSA链接部分取得了非常好的性能。双编码器可以将编码表示缓存到本地，大大节省了链接时间。交叉编码器带来了极其优越的链接性能。

本发明技术方案提出了流水线实体识别与链接方法，集成了本发明提出的实体识别和实体链接算法，解决了空间科学与应用领域文本，实体识别困难，链接低效的问题，为空间科学与应用领域知识图谱原型系统的信息检索应用带来了积极的效果。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明的实施例提供的一种航天文本数据的实体识别与链接方法的流程示意图；

图2为本发明的实施例提供的一种航天文本数据的实体识别与链接系统的结构框图；

图3为本发明的其他实施例提供的流水线实体识别与链接算法的总体流程示意图；

图4为本发明的其他实施例提供的AENER整体结构示意图；

图5为本发明的其他实施例提供的自适应Transformer模型结构图；

图6为本发明的其他实施例提供的长实体索引定位过程描述示意图；

图7为本发明的其他实施例提供的AENER对长实体特征集合的处理过程示意图；

图8为本发明的其他实施例提供的中文实体链接算法结构示意图；

图9为本发明的其他实施例提供的候选实体生成过程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明实施例提供的一种航天文本数据的实体识别与链接方法，包括：

S1，根据输入的航天文本数据获得文本向量矩阵；其中，需要说明的是，航天文本数据可以是载人航天工程空间科学与应用领域文本数据。

在某一实施例中，S1可以具体包括：对输入的航天文本数据进行句子编码，对单字和双字分开编码，最终拼接为一个输入向量表示。

在另一实施例中，还可以包括，对输入的航天文本数据进行长实体编码，即将句子中存在的长实体标识出来，形成一个类似One-hot的向量，这个长实体编码结果仅在方法训练阶段使用。

在所示S2之前还可以包括：对拼接好的输入向量表示的隐藏层维度经过一个线性层变换为给定维度吗，本方法中单字和双字编码的维度分别为 50维，拼接之后的维度为100维，设置变换的维度为256维。这一变换的目的是方便后续多头自注意力计算。给定维度一般要大于标注类别的数量，给定维度在本方法中可以设置为256。

在另一实施例中，将维度变换后的文本向量矩阵输入自适应 Transformer编码器，通过多头自注意力与残差连接模块建模输入向量内部的特征表示，特征表示即句子对应的256维特征矩阵。本方法使用4个注意力头，输入张量映射复制为三份即Query(批尺寸＊句子长度＊256)、Key(批尺寸＊句子长度＊256)、Value(批尺寸＊句子长度＊256)，再将256维被切分为4个64维的向量，即Query、Key和Value被切分变换为Query(批尺寸＊4＊句子长度＊64)、Key(批尺寸＊4＊句子长度＊64)、Value(批尺寸＊4＊句子长度＊64)。在自注意力机制中，Query、Key、Value的维度完全一致。然后对Query和Key进行注意力的计算，计算过程引入了输入句子中字词之间的正余弦距离信息，具体的计算过程下文中有详细介绍，最终得到一个权重矩阵(批尺寸＊4＊句子长度＊句子长度)，再与Value进行矩阵相乘，将相乘后的矩阵尺寸进行变换，恢复到(批尺寸＊句子长度＊256)，即本步骤的输出张量。自适应Transform编码器是Transformer的一个变种，在多头自注意力计算中引入了字词间的正余弦距离，Transformer的主要结构由多头自注意力及两次残差连接组成。自适应Transformer编码器是本方法中间使用的一个基础结构，作用是初步良好地建模句子中实体与实体、实体及其上下文之间的语义关系。

在某一实施例中，S3之前还包括：将特征向量矩阵经过前馈神经网络变换向量的特征维数，通过线性层重新组合向量内部的特征表示，以便于在损失反向传播的过程中更快的收敛，这一特征表示涉及到整个句子的全局上下文语义关系。本方法中的前馈神经网络由一个线性层、Dropout层(本方法中设置为0.4)和一个线性层组成。第一个线性层输入为256维，输出为 256维，目的是进行隐藏层特征的重新组合。第二个线性层的输入为256维，输出维度为标签类别数量。比如一个类别A，对应的标签类别为4类，即该类别的开始字符(B-A)，中间字符(M-A)，结束字符(E-A)和单字表示的字符(S-A)，目的是进行句子字符的类别分类，经过第二个线性层后的输出张量为下一步骤的输入张量，即获得分类后的特征向量矩阵。

在某一实施例中，S3具体包括：对分类后的特征向量矩阵经过长实体注意力增强模块，结合步骤2的复杂长序列专业术语编码结果，对复杂长序列专业术语对应的特征进行定位，并对对应特征值集合取平均并加权一个新的可学习参数的变换，即一个初始值为1，随反向传播不断变化的参数，这一变换并不改变特征矩阵的维度，仅对内部的一些特征值进行了变化，所以本步骤的输出张量的维度与上一步骤的输出张量的维度一致。通过这一变换提高了模型对长实体的注意能力，模型能够更好地区分长实体类别和非长实体的类别，从而提高对复杂长序列实体的识别能力。本方法长实体的对应特征值集合通过一个坐标集合(批尺寸，长实体字符在句子中位置集合，长实体所属类别)定位得到。

需要说明的是，S4具体包括：对定位后的特征向量矩阵通过条件随机场和softmax进行解码输出，得到输入文本中的指称集合。指称集合即句子中的实体集合，为了区分实体链接中知识库中的实体，将实体识别出的实体称呼为指称。

需要说明的是，将得到的指称集合与知识库中的实体表示分别进行编码，编码即在句子中加上标识的开头、结尾及中间分隔的特殊字符，并将变换后的句子转换为id表示；其中知识库中的实体，即表示实体链接的库，由实体名称及实体内容描述组成，可以理解为一个百科词条的名称加上该名称的内容描述组成的一个表示。

需要说明的是，获得实体特征表示的过程分为两步，第一步通过双编码器的预训练Transfromer模型得到对应的隐藏层维度，如果使用Bert作为预训练Transformer模型，则对应的隐藏层维度一般为768，第二步将该矩阵降维为一个标量序列，方便进行下一步骤的点积计算。

S7，通过预设方法对所述指称上下文特征表示和所述实体特征表示进行处理，生成候选实体，并对所述候选实体进行重排序，输出指称实体集合，以获得所述航天文本数据的实体识别和链接结果。

需要说明的是，生成候选实体的过程具体包括：对指称上下文特征表示和实体特征表示通过点积进行候选实体的生成。即将1个句子的指称链接到本方法构建的3935个实体的知识库中，通过点积计算可以得到3935个标量，对这标量进行由大到小的排序，本方法设置的候选实体数量为100，所以3935个实体得分排名前100的实体即为候选实体。

所述并对所述候选实体进行重排序，输出指称实体集合，以获得所述航天文本数据的实体识别和链接结果，具体包括：使用交叉编码器对候选实体进行重排序。因为步骤11的候选实体中，正确实体的排名不一定是第1，所以本方法继续使用交叉编码器来对100候选实体的得分进行重新排序，输出指称-实体集合。即句子中识别出的所有指称(实体)及各个指称链接到知识库中实体的集合，以获得所述航天文本数据的实体识别和链接结果。

本方案解决了复杂长序列专业术语识别精度不高、实体链接速度缓慢、链接精度低等难点问题，在空间科学与应用领域的实体识别与链接数据集的实体与链接整体达到了58.1％，实现了领域文本的较为高效的实体识别与链接，满足实际工程应用的需求。

可选地，在上述任意实施例中，所述S2，具体包括：

通过维度变换，便于后续多头自注意力模块的计算。

可选地，在上述任意实施例中，所述S3之前，还包括：

通过对所述特征向量矩阵进行字符分类，以便于在损失反向传播的过程中更快的收敛。

可选地，在上述任意实施例中，所述S3之前，还包括：对所述航天文本数据进行长实体编码，获得所述航天文本数据的复杂长序列的编码结果。

通过编码提高了模型对长实体的注意能力，模型能够更好地区分长实体类别和非长实体的类别，从而提高对复杂长序列实体的识别能力。

可选地，在上述任意实施例中，所述S6之前，还包括：

需要说明的是，获得双编码器模型具体包括：对双编码器进行批次内样本预训练，得到双编码器模型。一个批次(batch)表示一个步骤8得到的指称及上下文的id表示的集合，本方法设置的批次为128，表示每次输入 128条指称及上下文id表示进入模型，同样，每一条指称都有对应的标签，即链接的正确实体及描述的id表示。批次内样本预训练即对同一个批次内的所有样本，将当前指称对应的正确实体id表示视为正样本，批次内其他 127个指称对应的样本视为负样本，通过损失函数进行模型的迭代优化，本步骤最终得到一个训练好的双编码器模型。

可选地，在上述任意实施例中，所述S2之前，还包括：

通过这一变换提高了模型对长实体的注意能力，模型能够更好地区分长实体类别和非长实体的类别，从而提高对复杂长序列实体的识别能力。

可选地，在上述任意实施例中，所述S7具体包括：

在某一实施例中，如图3所示，流水线实体识别与链接算法的总体流程：

步骤101，输入载人航天工程空间科学与应用领域文本数据。

步骤102，对输入进行句子编码，对单字和双字分开编码，最终拼接为一个输入向量表示。同时还对步骤101的输入文本进行另一个操作，对步骤 101输入文本进行长实体编码，即将句子中存在的长实体标识出来，形成一个类似One-hot的向量，在步骤106中使用，这个长实体编码结果仅在方法训练阶段使用。

步骤103，将步骤102首先得到的拼接好的输入向量表示的隐藏层维度经过一个线性层变换为给定维度。本方法中单字和双字编码的维度分别为 50维，拼接之后的维度为100维，设置变换的维度为256维。这一变换的目的是方便进行步骤104的多头自注意力计算。给定维度一般要大于标注类别的数量，在本方法中设置为256。

步骤104，将步骤103的变换结果向量输入自适应Transformer编码器，通过多头自注意力与残差连接模块建模输入向量内部的特征表示(即句子对应的256维特征矩阵)。本方法使用4个注意力头，输入张量映射复制为三份即Query(批尺寸＊句子长度＊256)、Key(批尺寸＊句子长度＊256)、 Value(批尺寸＊句子长度＊256)，再将256维被切分为4个64维的向量，即 Query、Key和Value被切分变换为Query(批尺寸＊4＊句子长度＊64)、Key(批尺寸＊4＊句子长度＊64)、Value(批尺寸＊4＊句子长度＊64)。在自注意力机制中，Query、Key、Value的维度完全一致。然后对Query和Key进行注意力的计算，计算过程引入了输入句子中字词之间的正余弦距离信息，最终得到一个权重矩阵(批尺寸＊4＊句子长度＊句子长度)，再与Value进行矩阵相乘，将相乘后的矩阵尺寸进行变换，恢复到(批尺寸＊句子长度＊256)，即本步骤的输出张量。自适应Transform编码器是Transformer的一个变种，在多头自注意力计算中引入了字词间的正余弦距离，Transformer的主要结构由多头自注意力及两次残差连接组成。自适应Transformer编码器是本方法中间使用的一个基础结构，作用是初步良好地建模句子中实体与实体、实体及其上下文之间的语义关系。

步骤105，将上一步的输出张量经过前馈神经网络变换向量的特征维数，通过线性层重新组合向量内部的特征表示，以便于在损失反向传播的过程中更快的收敛，这一特征表示涉及到整个句子的全局上下文语义关系。本方法中的前馈神经网络由一个线性层、Dropout层(本方法中设置为0.4) 和一个线性层组成。第一个线性层输入为256维，输出为256维，目的是进行隐藏层特征的重新组合。第二个线性层的输入为256维，输出维度为标签类别数量。比如一个类别A，对应的标签类别为4类，即该类别的开始字符 (B-A)，中间字符(M-A)，结束字符(E-A)和单字表示的字符(S-A)，目的是进行句子字符的类别分类。经过第二个线性层后的输出张量为下一步骤的输入张量。

步骤106，对步骤105的输出张量经过长实体注意力增强模块，结合步骤102的复杂长序列专业术语编码结果，对复杂长序列专业术语对应的特征进行定位，并对对应特征值集合取平均并加权一个新的可学习参数(一个初始值为1，随反向传播不断变化的参数)的变换，这一变换并不改变特征矩阵的维度，仅对内部的一些特征值进行了变化，所以本步骤的输出张量的维度与步骤105的输出张量的维度一致。通过这一变换提高了模型对长实体的注意能力，模型能够更好地区分长实体类别和非长实体的类别，从而提高对复杂长序列实体的识别能力。本方法长实体的对应特征值集合通过一个坐标集合(批尺寸，长实体字符在句子中位置集合，长实体所属类别)定位得到。

步骤107，对步骤106的输出张量通过条件随机场和softmax进行解码输出，得到输入文本中的指称集合。指称集合即句子中的实体集合，为了区分实体链接中知识库中的实体，将实体识别出的实体称呼为指称。

在另一实施例中，如图4所示，AENER(Attention Enhanced Named EntityRecognition Algorithm注意力增强的中文长实体识别算法)模型即本方法中进行实体识别的模型，对应前文步骤101-107。AENER的整体结构如图4所示，由嵌入表示层、编码层和解码层三层组成。下面分别从这三个部分进行介绍：

(1)嵌入表示层

嵌入表示层的作用是给输入文本一个初始的向量表示，有随机初始化、给定初始值和载入预训练词表等多种初始化方法。AENER通过载入预训练的词表来获得对句子的嵌入表示，一个好的初始特征表示可以帮助网络快速收敛。对一个句子进行嵌入编码时，使用″char+bichar″方法，″char″表示的″科″、″学″等与″bichar″表示的″科学″等。当下一个字符小于句子长度时，unigram(一元)编码当前字符，而bigram(二元)编码当前字符和当前字符的下一个字符，如下公式所示：

对一个句子s＝c₁，c₂，...，c_l，其中c_i表示字符在第i个位置。其中，e^c和e^b分别参考unigram和bigram查找表，各50维。如图4所示，输入句子的嵌入表示通过拼接unigram和bigram表示组成(100维)，然后通过AENER 编码层建模输入句子的语义表示，并作为AENER长实体编码模块的其中一个输入。

(2)编码层

AENER编码层沿用Transformer的基本结构，即多头注意力+前馈神经网络(FFN，Feed Forward Network)+残差连接的基本结构。如图4所示，在每一个模块后都经过了一个层归一化(layer normalization)操作，目的是对网络每一层每一个样本的隐藏层特征计算均值和方差，避免因输入特征落在激活函数的饱和区而出现梯度消息和梯度爆炸的问题。AENER编码层和最初的Transformer编码层有两点不同：

1)在计算多头注意力时，引入了自适应Transformer提出的字词间的正余弦距离信息，这一部分将在下文中展开介绍；

2)在基本编码结构之后，加入了本发明提出的长实体注意力增强模块，将在下文中展开介绍。

(3)解码层

对编码层输出张量进行Softmax(归一化指数函数)归一化之后，通过 CRF(条件随机场)进行解码输出。CRF是当前常用的解码算法，主要有两个特点：1)相比较隐马尔可夫模型和多层感知机，可以更有效建模不同标签之间的依赖，减少标签之间错误依赖的发生；2)使用维特比(Viterbi) 算法找到最大概率的路径，类似动态规划。如图4所示，解码输出的即为每一个字对应的预测标签类别。

在另一实施例中，自适应Transformer，如图5所示，自适应 Transformer相比较原始Transformer应用于NER，主要有一点改进：在编码层中计算自注意力的时候引入了字词间的正余弦距离信息。引入该信息后，自适应Transformer可以得到字、词之间的先后关系、相隔距离、实体边界等信息，提高NER效果。下面对这部分改进结合Transformer的主要结构进行介绍。图5与图4中的嵌入表示层和解码层完全一致，唯一的不同在于图5编码层仅保留了自适应Transformer结构。

Transformer编码器主要由多头自注意力和前馈神经网络层组成。自注意力机制允许算法通过若干可学习的参数矩阵来自动调整特征内部组合。给定一个矩阵

其中d表示序列长度，d_k表示输入维度，可学习矩阵w_q， wv被用于将H映射到不同的空间。

通过d/d_k对H进行划分。自注意力分数的点乘计算讨程如下公式：

Attn(Q，K，V)＝sofimax(A^rel)V，

其中Q_t表示第t个字符的查询(query)向量；j是第t个字符之外的其他字符之一；K_j是第j个字符的键(key)向量表示；

和

都是可学习参数；

是第t个字符和第j个字符之间的相对位置编码，其中的

是两个字符之间的注意力分数，

是第t个字符在确定相对距离下的偏差；

是在第j个字符上的偏差，而

是在两个字符之间的确定偏差与方向。

自适应Transformer的主要改进就是在公式：

自注意力分数计算中引入了公式：

字词之间的正余弦距离信息。

当使用若干个不同的自注意力组合时，就叫多头自注意力。计算过程如公式：

head^(h)＝Attn(Q^(h)，K^(h)，V^(h))，

Multihead(H)＝[head⁽¹⁾；…；head⁽ⁿ⁾]W_o，

其中n表示头的数量，而h表示头的索引，[head⁽¹⁾；…；head⁽ⁿ⁾]表示在编码层的最后一层将这些不同的注意力头拼接起来。一般来说，d_k×n＝d，这意味着[head⁽¹⁾；…；head⁽ⁿ⁾]的维度为

W_o是一个可学习的参数，维度为

多头注意力的输出张量与输入张量进行残差连接，并经过层归一化后输出到FFN进行处理，具体如公式：

FFN(x)＝max(0，xw₁+b₁)w₂+b₂，

其中ω₁，ω₂，b₁，b₂是可学习的参数，d_ff是一个超参数。经过FFN后的张量与输入张量进行残差连接，并经过层归一化后输出到解码层。

自适应Transformer对所有实体的处理方式都是一样的，但并未引入长实体信息。事实上不止自适应Transformer，以往的方法也都未考虑引入长实体本身的信息。因此，本发明提出了AENER，考虑在编码层中增加长实体信息，增强算法对长实体的识别能力，从而带动整体NER效果的提升。

在另一实施例中，注意力增强的长实体识别模块，相比较自适应 Transform在自注意力分数计算中引入字词直接的正余弦信息，AENER也考虑过在自注意力计算中引入长实体信息。但是当AENER的被用于长实体注意力的可学习矩阵集成到整体的自注意力分数计算中的时候，整体的性能发生了严重的退化，并且很难去控制对长实体的二次注意(对非长实体产生了更大的影响)。所以本发明考虑设计一个单独的基于长实体信息的注意力增强模块，分为长实体编码和长实体注意力增强两个部分。同时，也仔细考虑了该模块的放置位置。如果长实体注意力增强模块加入到嵌入层之后，编码层和FFN层前，长实体的特征将会在后续多头自注意力计算的过程中丢失。所以本发明考虑在Transformer编码层和FFN层后增加长实体注意力增强模块来增加模型对长实体的识别能力。AENER将自适应Transformer 编码层的输出张量与给定阈值下的长实体编码表示作为输入来建模长实体的特征信息。给定阈值下的长实体编码只有训练阶段可见。

其中，长实体编码可以包括：

长实体编码模块的目的是通过标注标签(及实体对应的实体类别，比如″无容器材料科学实验柜″对应的实体类别为″实验柜″、″空间生命科学与生物技术″对应的实体类别为″空间科学领域″)及预设长度阈值(长实体很难定义，本方法对长度阈值5-11的不同设置均进行了实验，均对长实体的识别能力有不同程度的提高，最终工程应用时，将长度阈值设置为8，即超过8个字符的实体为长实体)将长实体的坐标定位出来。如下公式所示：

Loc＝LongerEncoder(tags^T)，

输入句子标签经过转置之后经过一个LongerEncoder，转换为较长实体的位置序列，类似one-hot编码，将非较长实体及非实体全部标记为O，较长实体标记为1。长实体的编码过程示例如6所示。

需要说明的是，长实体注意力增强，如图7所示，描述了AENER的详细结构。首先通过长实体编码模块，得到长实体的坐标矩阵(B，L，C)，然后将该坐标矩阵映射到自适应Transformer编码层的输出张量，再对映射到的对应参数进行特殊变换，达到对长实体的更强注意力的目的。AENER的对参数的特殊变换过程如下公式：

其中，自适应Transformer编码层的输出张量用

表示，其中d表示输入维度，d_k是超参数。i表示序列中第i个长实体，η是一个可学习的参数，初始值为1，在训练过程中不断迭代更新。

在训练阶段，对第i个长实体在O中对应坐标Loc_i的特征值先拷贝一个副本，再对该长实体对应的特征值取平均，再乘以一个可学习的参数η，然后再与拷贝的特征值相加。在对空间科学与应用领域语料中每个句子中的复杂长序列实体执行以上操作之后，整体的性能和长实体的性能都有了明显的提高。因为整个模型本身就能识别大多数实体(包括长实体)，为了避免过大的参数造成整体模型的性能退化，因此只使用一个η作为在自适应Transformer层之后长实体的注意力参数。在给定阈值条件下长实体对应特征向量的变化过程如图7示。通过长实体注意力增强模块，AENER能够有效地增强对长实体的识别能力。

步骤108，对步骤107得到的指称集合与知识库中的实体表示(即实体链接的库，由实体名称及实体内容描述组成，可以理解为一个百科词条的名称加上该名称的内容描述组成的一个表示)分别进行编码，即在句子中加上标识的开头、结尾及中间分隔的特殊字符，并将变换后的句子转换为id表示。

步骤109，对双编码器进行批次内样本预训练，得到双编码器模型。一个批次(batch)表示一个步骤8得到的指称及上下文的id表示的集合，本方法设置的批次为128，表示每次输入128条指称及上下文id表示进入模型，同样，每一条指称都有对应的标签，即链接的正确实体及描述的id表示。批次内样本预训练即对同一个批次内的所有样本，将当前指称对应的正确实体id表示视为正样本，批次内其他127个指称对应的样本视为负样本，通过损失函数进行模型的迭代优化，本步骤最终得到一个训练好的双编码器模型。

步骤110，对步骤108中的指称上下文及实体的id表示通过步骤109 训练好的双编码器模型分别得到对应的特征表示。得到特征表示的过程分为两步，第一步通过双编码器的预训练Transfromer模型得到对应的隐藏层维度，如果使用Bert作为预训练Transformer模型，则对应的隐藏层维度一般为768，第二步将该矩阵降维为一个标量序列，方便进行下一步骤的点积计算。

步骤111，对指称上下文特征表示和实体特征表示通过点积进行候选实体的生成。即将1个句子的指称链接到本方法构建的3935个实体的知识库中，通过点积计算可以得到3935个标量，对这标量进行由大到小的排序，本方法设置的候选实体数量为100，所以3935个实体得分排名前100的实体即为候选实体。

步骤112，使用交叉编码器对候选实体进行重排序。因为步骤111的候选实体中，正确实体的排名不一定是第1，所以本方法继续使用交叉编码器来对100候选实体的得分进行重新排序。

步骤113，输出指称-实体集合。即句子中识别出的所有指称(实体) 及各个指称链接到知识库中实体的集合。

需要说明的是，在某一实施例中，基于多编码器的中文实体链接算法，中文实体链接算法结构如图8所示，分为三个步骤：

批次内样本预训练，首先通过对指称上下文及对应的正确实体条目进行批次内样本预训练得到双编码器模型。在进行候选实体生成之前，需要先进行批次内(in-batch)负样本的预训练。即设置一个相对较大的批尺寸，每一个指称都将同一个批次内其他指称对应的CMSSA知识库条目当作负样本。相比较直接载入预训练BERT模型进行候选实体生成，经过批次内负样本的预训练，模型能够找出同一个批次内的正确答案。

损失函数的计算过程如下所示：

其中，

Score(m_i，e_i)＝Vec_m×Vec_e，

表示指称对当前实体的得分，B表示批尺寸的值，b表示批次内的某条指称数据，m_i表示当前指称，e_i表示当前指称对应实体，e_b表示当前批次某个指称对应实体，Vec_(·)表示指称或实体的标量序列表示。这个损失函数将当前指称与同一批次的所有指称对应的实体的得分通过一定的变换后再反向传播。

在经过批次内负样本预训练双编码器模型之后，使用训练好的模型生成 CMSSA知识库的特征表示，并缓存为编码文本，大小为11.53MB。

在某一实施例中，如图9所示，候选实体生成可以包括：将经过批次内负样本预训练好的双编码器模型缓存CMSSA知识库表示和指称上下文表示，并对这两者点积得到CMSSA知识库条目的得分，进而按得分由高到低排序生成Top n个候选实体。

在某一实施例中，候选实体重排序可以包括：生成的候选实体与对应的指称上下文进行联合编码，通过交叉编码器编码表示后，进行重排序阶段的模型训练，最终得到链接正确的<指称，实体>对。

在某一实施例中，双编码器(Bi-encoder)通过对输入和候选标签分别执行自注意力运算，然后在最后部分将两者联合，得到一个最终的表示。由于特征表示是分开得到的，双编码器有能力缓存已编码的候选标签，并且在快速测试的时候，对每一个输入结果快速使用已缓存的特征表示。双编码器的整体结构如图8所示，″双″字体现在左边和右边输入文本和CMSSA知识库的分别编码与嵌入表示。下面对双编码器的具体细节进行阐述。

首先，将输入文本的上下文和候选实体分别编码成向量：

Vec_m＝DimensionR(Transformer₁(r_m))，

Vec_e＝DimensionR(Transformer₂(r_e))，

其中，r_m和r_e分别是指称和实体的输入表示，比如图9中左侧的″核心舱″就是指称，而右侧CMSSA知识库中的内容就是实体及对应的实体描述。 Dimension_R(·)是一个将由Transformer产生的向量序列降维到一个向量的函数。Vec_m表示对输入文本的上下文和指称的向量表示，Vec_e表示对实体及实体描述的向量表示。r_m由指称与该指称的上文和下文组成，比如图9中，指称为″核心舱″，对应的上文为″4月29号，″，对应的下文为″发射成功″，如下公式所示：

[CLS]context_l[MS]mention[ME]context_r[SEP]，

其中，context_l和context_r分别表示指称的上文和指称的下文，[MS]和[ME] 是分隔及表示指称的特殊字符。r_m的最大长度是一个可以调整的超参数，本课题在应用到SSA链接部分的时候，设置为128。最大长度设置为128有两点考虑：1)当设置大于等于256时，一方面显存占用大大增加，现有服务器难以满足条件，另一方面，SSA平均长度为92.8，最大长度设置为256 会出现大量空白标识；2)当设置小于等于64时，难以充分利用指称的上下文语义信息，从而影响最终结果。r_e由实体名称和实体的元信息组成，元信息包括属性名，属性和描述等内容，如下公式所示：

[CLS]entity[ENT]context[SEP]，

其中entity表示实体名称，即知识库中的节点名称，context表示实体的描述及属性，在CMSSA知识库中，context仅包含实体的描述。[ENT]是一个分隔entity和context的特殊字符。最后，在计算候选e_i的得分时，将该实体的向量表示和指称的向量表示进行点积，如下公式所示：

Score(m_i，e_i)＝Vec_m×Vec_e，

双编码器是在大规模预训练模型的基础上进行微调，本发明使用的预训练模型包含12层Transformer，隐藏层维度为768。本发明仅选择最基础的中文Bert预训练模型，因为比较各个大规模预训练模型的优劣不是本发明的研究目标。双编码器运用到中文实体链接中，本质上也是优化指称和实体的特征表示，从而在计算候选实体的时候得到更准确的结果，并且由于双编码器可以缓存CMSSA知识库中条目的特征表示，可以实现实时的快速推理(inference)速度，更便于实际应用。

在另一实施例中，交叉编码器可以包括：交叉编码器(Cross-encoder) 去除了实体表示的第一个标识，即：

[CLS]entity[ENT]context[SEP]，

中的[CLS])，然后与公式：

[CLS]context_l[MS]mention[ME]context_r[SEP]，

表示的指称及其上下文进行联合编码，获得一个最终的特征表示。这样，交叉编码器通过自注意力机制就能直接在实体表示和指称表示之间进行全局的语义信息交互，从全局角度同时进行实体与指称特征表示的迭代与更新。由于候选实体可以在Transformer的各个层中关注指称上下文，交叉编码器可以生成对候选实体更加敏感的指称及其上下文表示，而双编码器则做不到这一点。在这种情况下，交叉编码器可以为每个候选实体选择更有用的输入特征。在计算候选实体的得分时，使用一个线性层W来将指称上下文与候选实体的嵌入表示

从一个向量降维为一个标量(即得分)：

与双编码器类似，交叉编码器使用交叉熵作为损失函数。对于候选实体 e_i，最终只有e₁是正确的候选实体，而其他的都是负样本。由于交叉编码器的编码方式与双编码器不同，需要将指称上下文与每个候选实体表示都进行联合编码，需要占用更多的显存资源。交叉编码器的输入为指称上下文与候选实体的联合编码，比如每个指称生成Top100个候选实体，每个指称都分别与这100个候选实体进行联合编码，再送入交叉编码器中，根据正确的候选实体标签计算损失，迭代优化算法的正确链接能力。

需要i说明的是，算法参数设置，NER部分和实体链接部分，其中AENER 超参设置可以如表1所示、实体链接超参设置可以如表2所示：

表1

表2

在另一实施例中，实体识别与链接结果验证分析可以包括：数据来自于标注的在持续扩充中的载人航天工程空间科学与应用领域实体识别与链接数据集SSA。

实体识别结果

本发明技术方案测试了SSA实体识别数据集，结果如表3所示，不仅是复杂长序列实体的性能得到了提高，非-长实体的性能也得到了提高。这是由长实体的识别准确度提高，带来了非-长实体的提升(比如减少了部分短实体组合被算法误识别为长实体的情况)，进而提高了整体的性能。基线系统(baseline)TENER是公开的模型在SSA上效果最佳的方法，所以本发明使用该方法进行对比：在SSA实体部分测试集上的长实体、非-长实体和整体性能比较，如表3所示：

表3

实体链接结果

在候选实体重排序阶段，本发明比较了三个不同的编码器在SSA链接部分测试集上的表现，这三个编码器分别是双编码器、交叉编码器和poly 编码器。实验结果如表4所示，交叉编码器的F1值远远超过其他编码器，达到了79.2％。不同编码器在SSA链接部分的性能比较，如表4所示：

表4

对自适应Transformer编码层输出张量中的长实体特征进行特殊变换，有效提高了复杂长序列专业术语的识别能力。在SSA实体识别测试集的整体识别率F1达到了71.16％，相比较基线系统的F1提升了0.99％。

将基于多编码器的实体链接算法与AENER进行集成，形成一个流水线实体识别与链接算法，成功应用到空间科学与应用领域知识图谱原型系统中。在SSA链接数据集中交叉编码器的链接准确率远远超过其他编码器， F1达到了79.2％。

本发明提出了高效的长实体识别与链接方法，且实体链接算法已与 AENER(注意力增强的中文长实体识别算法)集成，形成了一个完整的流水线实体识别与链接算法，在SSA数据集上的实体与链接F1整体达到了 58.1％，并应用在空间科学与应用知识图谱原型系统的信息检索中，有力推动了该领域知识图谱的发展与应用。

可选地，在另一实施例中，实体识别部分，再加入大规模预训练模型进行预编码，可以进一步提高精度，但是会需要更多的时间代价，这是一个精度和速度的权衡。

可选地，在另一实施例中，实体链接部分，可以使用其余网络编码器替代交叉编码器，但是链接效果大概率比不上交叉编码器，但在时间代价上，会有更多的节省。

在某一实施例中，如图2所示，一种航天文本数据的实体识别与链接系统，包括：向量表示模块1101、特征提取模块1102、定位模块1103、解码模块1104、编码模块105、识别处理模块1106和链接模块1107；

所述向量表示模块1101用于根据输入的航天文本数据获得文本向量矩阵；

所述特征提取模块1102用于根据所述文本向量矩阵获得所述航天文本数据的特征向量矩阵；

所述定位模块1103用于将分类后的特征向量矩阵结合所述航天文本数据的复杂长序列的编码结果，对所述复杂长序列进行特征定位，获得定位后的特征向量矩阵；

所述解码模块1104用于通过归一化指数函数结合条件随机场，对所述定位后的特征向量矩阵进行解码，获得所述航天文本数据的指称集合；

所述编码模块1105用于对所述指称集合和预设知识库的实体表示分别进行编码，获得编码后的指称集合和编码后的实体表示；

所述识别处理模块1106用于通过双编码器模型对编码后的指称集合进行处理，获得指称上下文特征表示，通过双编码器模型对编码后的实体进行处理，获得实体特征表示；

所述链接模块1107用于通过预设方法对所述指称上下文特征表示和所述实体特征表示进行处理，生成候选实体，并对所述候选实体使用交叉编码器模型进行重排序，输出指称实体集合，以获得所述航天文本数据的实体识别和链接结果。

可选地，在上述任意实施例中，所述特征提取模块1102，具体用于通过编码器对维度变换后的所述文本向量矩阵进行处理，获得所述航天文本数据的特征向量矩阵。

通过维度变换，便于后续多头自注意力模块的计算。

可选地，在上述任意实施例中，还包括：字符分类模块，用于通过前馈神经网络对所述特征向量矩阵进行字符分类，获得分类后的特征向量矩阵。

可选地，在上述任意实施例中，还包括：长实体编码模块，用于对所述航天文本数据进行长实体编码，获得所述航天文本数据的复杂长序列的编码结果。

可选地，在上述任意实施例中，还包括：双编码器模型获取模块，用于将所述指称集合和预设知识库的实体表示分别进行编码，获得编码后的指称集合和编码后的实体表示；

可选地，在上述任意实施例中，还包括：维度变换模块，用于将所述文本向量矩阵变换成预设维度的文本向量矩阵，获得维度变换后的文本向量矩阵；

可选地，在上述任意实施例中，所述链接模块具体用于通过点积法对所述指称上下文特征表示和所述实体特征表示进行处理；

针对空间科学与应用领域语料中的复杂长序列专业术语难以识别的问题，提出了基于Transformer与注意力增强的中文长实体识别算法，对自适应Transformer编码层输出张量中的长实体特征进行特殊变换，有效地提高了长实体的识别能力。

可以理解，在一些实施例中，可以包含如上述各实施例中的部分或全部可选实施方式。

需要说明的是，上述各实施例是与在先方法实施例对应的产品实施例，对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明，在此不再赘述。

读者应理解，在本说明书的描述中，参考术语″一个实施例″、″一些实施例″、″示例″、″具体示例″、或″一些示例″等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM， Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种航天文本数据的实体识别与链接方法，其特征在于，包括：

S1，根据输入的航天文本数据获得文本向量矩阵；

2.根据权利要求1所述的一种航天文本数据的实体识别与链接方法，其特征在于，所述S2，具体包括：

3.根据权利要求1或2所述的一种航天文本数据的实体识别与链接方法，其特征在于，所述S3之前，还包括：

4.根据权利要求1所述的一种航天文本数据的实体识别与链接方法，其特征在于，所述S3之前，还包括：对所述航天文本数据进行长实体编码，获得所述航天文本数据的复杂长序列的编码结果。

5.根据权利要求1所述的一种航天文本数据的实体识别与链接方法，其特征在于，所述S6之前，还包括：

6.根据权利要求1所述的一种航天文本数据的实体识别与链接方法，其特征在于，所述S2之前，还包括：

7.根据权利要求1所述的一种航天文本数据的实体识别与链接方法，其特征在于，所述S7具体包括：

8.一种航天文本数据的实体识别与链接系统，其特征在于，包括：向量表示模块、特征提取模块、定位模块、解码模块、编码模块、识别处理模块和链接模块；

9.根据权利要求8所述的一种航天文本数据的实体识别与链接系统，其特征在于，所述特征提取模块，具体用于通过编码器对维度变换后的所述文本向量矩阵进行处理，获得所述航天文本数据的特征向量矩阵。

10.根据权利要求8或9所述的一种航天文本数据的实体识别与链接系统，其特征在于，还包括：字符分类模块，用于通过前馈神经网络对所述特征向量矩阵进行字符分类，获得分类后的特征向量矩阵。