CN113239663B

CN113239663B - 一种基于知网的多义词中文实体关系识别方法

Info

Publication number: CN113239663B
Application number: CN202110309085.1A
Authority: CN
Inventors: 赵忠华; 余在洋; 王禄恒; 张磊; 赵志云; 王勇; 葛自发; 孙小宁; 万欣欣; 李欣; 孙立远; 付培国; 王晴; 杜宛真
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-07-12
Anticipated expiration: 2041-03-23
Also published as: CN113239663A

Abstract

本发明公开了一种基于知网的多义词中文实体关系识别方法，其步骤包括：1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化，得到每一个字对的字颗粒度向量；然后对每一字颗粒度向量所在的位置信息进行编码，得到语料中每个字与预标注的待识别实体关系对的相对位置编码；2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合；3)基于知网生成每一语料的词颗粒度语义向量集合；4)利用各语义向量及其对应位置编码训练深度自注意力神经网络，得到深度自注意力神经网络编码器；5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器，得到该待处理语料中的实体关系。

Description

一种基于知网的多义词中文实体关系识别方法

技术领域

本发明设计一种基于多义词表征的中文新闻网事数据的实体关系抽取方法，对中文新闻网事数据中的实体关系进行抽取，属于自然语言处理范畴。

背景技术

伴随着言论开放程度越来越高，更多的官方媒体、自媒体、机构、个人参与到了新闻媒体社交活动中，随之而来的是大量的中文新闻网事数据。多类媒体下的新闻网络环境语料有文本结构差异大、词汇用语习惯性变化强、不同地域词语用法不一致等特点。所以说，有极大的价值去挖掘这类复杂的中文新闻网事数据语料的潜在信息。

在中文新闻网事数据当中，由于发布者所属机构、地区往往存在着很大的差异。在这样的背景下，提供一种自动化的实体关系识别工具，从而实现对这些新闻发布者的真实意图切实、快速的抓取网络舆情，可以极大的节约政府机构的人力成本。在中文新闻网事数据的基础上，本方法极大的为新闻网络监管者提供了便利。

目前，现有的中文新闻网事数据的实体关系抽取方法往往基于预训练的词向量字典，或是基于统计学的word2vec的词向量特征用于对原始的中文新闻网事数据进行向量化。但是，此类传统的向量化方法往往没有考虑到因中文新闻网事数据发布者所处地域、机构等的差异性所产生的一词多义等现象。最重要的是若仅使用这类方法在不同语境下表示多义词词汇，同时仅仅采用同一表示方法表示多义词，会导致忽略了多义词在不同语料中的多含义的特性。本方法主要是抽取中文新闻网事数据中的实体关系。与传统的实体关系抽取不同的是，中文新闻网事数据发布者来自多方媒体，发布信息术语具有极大的差异性。同时，由于中文本身在不同的上下文语境中存在有极大的歧义性，中文新闻网事数据的实体关系抽取相较于传统的单一发布媒体源的中文新闻网事数据的实体关系抽取更具困难性。

词向量的生成主要分为两大类：基于概率学和预训练模型的方法。较早的基于概率学的方法有Skip-gram方法、CBow方法等等。这类方法直接通过统计原始输入的样本，从而生成词向量。这类方法只能抓取出以字为单位的向量特征。虽然相较于其他词向量生成方法，它具有编码时间短，占用资源较少等优点。但其缺陷在于无法抓取丰富的以词为单位的中文词向量特征。同时Skip-gram方法、CBow方法等概率学方法需要设置训练窗口大小，而过小的窗口无法将预料当中的上下文信息体现在以字为单位的向量特征中，同时，过大的窗口往往无法提取出词向量在语料中的高纬度特征。所以说基于概率学的方法无法在歧义性较大的中文新闻网事数据中产生较好效果。

而基于预训练模型的方法如Bert中文词向量字典、Electra中文词向量字典等等。这类词向量生成方法往往基于Seq2Seq模型如：Transformer、LSTM、GPT等结构。这类方法通过对大量的网络数据进行编码，从而生成出词向量字典。虽然这类方法的训练数据量较大，但是这类网络训练数据本身随意性较强，所以相较于中文新闻网事数据有较大的差异性，从而导致这类预训练的词典，无法准确的表示出在中文新闻网事数据所体现的词义特征。同时由于这类字典不提供对多义词的多表示编码，所以仅对于不同语义的同一词汇仅做出一种表示。所以说此类基于预训练模型的词向量字典也无法表示出中文新闻网事数据的多维度信息。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于知网的多义词中文实体关系识别方法。本方法能够深度抽取出中文新闻网事数据中的潜在的实体关系，首先运用知网(Hownet)对中文新闻网事数据进行再编码，在编码的过程主要从两个方向上先后进行。本发明先以span的结构分别对语料中的词颗粒度语料和字颗粒度语料进行再编码；同时为了充分考虑到存在于新闻网事数据的一词多义的现象，将存在于中文新闻网事数据的多义词通过表示为多种颗粒度下的向量作为输入，在训练过程中同时输入至模型中作为训练样本；之后，会对待抽取的实体关系对进行位置编码。编码过程结束，由(Transformer-encoder)深度自注意力神经网络结构对Span编码结构下的新闻网事数据进行训练。通过多义词的词向量表示方法、和两种颗粒度下的表示向量可以更好的抽取出语料中的高纬度特征，同时采用(Transformer-encoder)深度自注意力神经网络的并行编码器，可以在一次训练中，考虑所有的上下文语义。结果表明，本方法能在中文新闻网事数据更好的实现实体关系抽取。

本法方法采用自然语言技术，自动化、准确高效的抽取出中文网事数据的实体关系。为维护网络信息内容安全、实时把握媒体言论提供了极大便利。

本发明第一方面是提供基于知网(Hownet)的中文网事数据实体关系抽取方法，在这一部分中将基于知网(Hownet)的中文词向量对中文网事数据再编码为词格结构(Span)，并提出了一种多颗粒度的中文网事数据编码方式，之后将以多颗粒度、词格结构(Span)的数据输入到深度自注意力神经网络结构(Transformer-encoder)，以提高对中文网事数据关系抽取的效果。

根据本发明的第一个方面，首先对中文网事数据中以句为单位的每一条语料样本基于知网(Hownet)进行词、字颗粒度的向量化。

在字颗粒度的条件下，首先对一条语料s＝{c₁,c₂…c_M}(M代表一条语料所含字总数，c代表一个字，s表示为一条语料，c_M为一条语料中第M个字)，采用skip-gram算法生成每一个字对应的向量。其中每一个字对应的向量定义为

(其中

代表语料中第i个字对应的向量，其中

代表字向量维度)。之后会对字颗粒度向量

所在的位置信息进行再编码，从而计算语料中的每个字和预标注的待识别实体关系对的相对位置编码，计算语料中第i个字c_i的相对于待识别实体关系对的位置编码

与计算公式定义如下：

同时

的计算公式同理。其中b¹、e¹代表当前待识别实体在语料中的起始位置和结束位置。将计算得到的

转置为向量

其中d^p为位置编码向量维度。之后将

向量拼接为

代表一个字向量。一条长度为M的语料的字颗粒度语义向量集合x^c表示为

在词颗粒度的条件下，一条语料将通过与知网(Hownet)字典中的词汇匹配出句中的词颗粒度原始中文词，其中单个词表示为w_b,e(b代表词汇w在语料中的起始相对位置，e代表词汇w在语料中的终止相对位置)。之后基于知网(Hownet)中的多义词字典和skip-gram词向量生成算法生成词向量集合Sense(w_b,e)，代表一个多义词(w_b,e)的多词义词向量集合。其中若一多义词w_b,e具有k重多义，则在词向量集合Sense(w_b,e)匹配其k重释义的语义向量表示为

故每一个多义词的释义包含于生成词向量集合Sense(w_b,e)表示为

一个多义词w_b,e的词向量表示为

(b代表词汇w在语料中的起始相对位置，e代表词汇w在语料中的终止相对位置，k代表该多义词w的第k种释义)。其中

(其中

代表词向量维度)。一个多义词的语义向量集合表示为

一条长度为N的语料的词颗粒度语义向量集合表示为

根据中文新闻网事数据中存在的发布者多源性所导致的语料多歧义性的情况，本发明在数据的语义向量生成过程中，从词颗粒度和子颗粒度两个角度对原始语料中的数据进行了再编码，从而更好的提取出原始语料在词颗粒度和子颗粒度两个方面的向量特征。同时基于知网(Hownet)的多义词字典，在词向量维度将多义词生成为多种词向量，从而全面的抽取出存在于语料中多义词表示特征。子向量和词向量维度的编码过程如图1，图2所示。本发明从存在于语料中的多颗粒维度以及词向量的多语义维度充分考虑到了词向量在中文新闻网事数据歧义性，从而提高了语义向量对原始语义表示的准确性。

根据本发明的第二个方面，对第一个方面的多颗粒度的语义向量编码为(Span)词格结构数据格式。从而更好的抽取出存在于语料中的如下3种关系(字与字，字与词汇，词汇与词汇)，属一种基于相对位置的再编码发明。

在一条中文网事数据中的所有字向量

词向量

基础上对以上两种颗粒度的向量拼接x＝{x^c,x^sen}从而构成多颗粒度的span结构语义向量，其中一条语义向量x_i对x^c(字向量)以及x^sen词向量进行了统一。其中x代表一条语料中的所有span结构语义向量集合。对存在于语料中的所有span进行相对位置编码。相对位置编码基于在语义向量在语料中的位置，记为：一条语义向量x_i(即可能为x^c中的一字向量或x^sen中的一词向量)的相对起始位置head,一条语义向量x_i的相对终止位置tail。其中head[i]，tail[i]代表x_i在语料中的起始、终止相对位置，如图3。

比如对于“达尔文研究所”，其对应的span结构为：达#尔#文#达尔文#研#究#所#研究所#；其中如‘达’为子颗粒度，‘达尔文’为词可粒度语义向量，将子颗粒度与词可粒度拼接构成span结构语义向量。故span结构语义向量为对子颗粒度以及词可粒度向量的总称。

在生成语料中所有位置编码的条件下，为了表示语料中词与字的相对位置关系：包含、交错、分离的相对位置关系。以一条语料为处理最小单位，故每一条语料生成四个对应的相对位置矩阵，包括矩阵d^(hh)、矩阵d^(ht)、矩阵d^(th)和矩阵d^(tt)，生成相对位置矩阵如图4，其中矩阵内的相对距离由如下公式计算：

其中i，j代表语义向量在语料中的位置序号，d_ij代表相对位置矩阵中第i行第j列元素的取值。

代表序号为i的语义向量x_i的相对起始位置与序号为j的语义向量x_j的相对起始位置的距离。

代表序号为i的语义向量x_i的相对起始位置与序号为j的语义向量x_j的相对终止位置的距离、

代表序号为i的语义向量x_i的相对终止位置与序号为j的语义向量x_j的相对起始位置的距离、

代表序号为i的语义向量x_i的相对终止位置与序号为j的语义向量x_j的相对终止位置的距离。

由于中文数据本身的歧义性以及网事阅读者的断句习惯的不同，会在中文网事数据的实体关系抽取过程中带来极大的的困难。在考虑到以上问题的基础上，本发明对存在于语料中的所有字、词颗粒度的相对位置进行了再编码，从而生成相对位置矩阵。充分考虑到了存在于多颗粒下的语义相关性信息，实现了在多种断句习惯下的所有词向量、字向量的再编码。从而为中文网事数据的实体关系抽取提供了更为准确的高纬度特征信息。

根据本发明的第三个方面，以(Transformer-encoder)深度自注意力神经网络架构，同时引入多颗粒度、多语义的Span格式数据，以及由Span结构生成的相对位置矩阵作为输入。对原始的中文新闻网事数据实体关系进行抽取。属一种实体关系分类方法。

对于语料中的单个Span结构语义向量(即可能为x^c中的一字向量或x^sen中的一词向量)，其位置向量由4个对应的位置距离

构成，为了便于输入至(Transformer-encoder)深度自注意力神经网络结构进行再编码。对4个维度的位置编码进行转置，R_i,j代表为存在于一条语料中的x_i与x_j之间的相对位置关系，公式如下：

其中，Relu为非线性激活函数，Wr为训练参数，

代表在向量维度上的拼接，

统一表示为P_d代表4个维度的位置编码。以

计算为例，首先计算一条中文语料中x_i相对起始位置与x_j相对起始位置之间的相对距离

之后基于如下公式计算

其中，k代表当前Span(即可能为x^c中的一字向量或x^sen中的一词向量)在整条拼接后的语料x＝{x^c,x^sen}的绝对位置。若绝对位置k为偶数，则采用sin函数。若k的绝对位置为奇数，则采用cos函数。d_model代表一条Span结构语义向量(即可能为x^c中的一字向量或x^sen中的一词向量)的向量维度。而d代表位置编码在相对位置矩阵中的取值。

之后基于相对位置R_i,j(R_i,j代表为存在于一条语料中的x_i与x_j之间的相对位置关系)和第一个方面中的多颗粒度下的语义向量(x_i与x_j)计算语义向量x_i对语义向量x_j的注意力权重A_i,j，公式如下：

W_q,W_k,R,W_k,E,u,v为(Transformer-encoder)深度自注意力神经网络参数，为本领域公知。其中W_q,W_k,R,

为训练参数。

为训练参数。d_model为span的输入维度，d_head为(Transformer-encoder)深度自注意力神经网络结构的输出维度。A_i,j代表语义向量x_i对语义向量x_j的注意力权重，

为语义向量x_i与x_j的词向量表示。

通过softmax函数计算(Transformer-encoder)深度自注意力神经网络的输出，公式如下：

m＝Att(A,V)＝softmax(A)V

其中V为训练参数，是(Transformer-encoder)深度自注意力神经网络参数，为本领域公知。其中维度表示为：

m为注意力权重线性变化的中间向量。

对(Transformer-encoder)深度自注意力神经网络的输出分布降维，从而实现对整体中文网事数据做词、字颗粒度的注意力机制，得到自注意力向量h^*。再将h^*输入至softmax函数得到该中文网事数据语料的实体关系分布。公式如下：

H＝tanh(m)

α＝softmax(l^TH)

h^*＝mα^T

o＝Wh^*+b

p(y∣S)＝softmax(o)

l、W、b为注意力机制的训练超参数。其中l为softmax函数的降维超参数、W为自注意力向量h^*的降维权重超参数、b为自注意力向量h^*的降维偏置项超参数。其中l、W、b的维度表示为

b∈R^Y，为模型的训练参数，Y代表输出的实体的类型数，p(y∣S)代表语义向量x_i、x_j对应的实体关系y属于S类别的概率。

本方面采用(Transformer-encoder)深度自注意力神经网络结构对中文网事数据进行了中文实体关系抽取，在给定的多颗粒度、多语义、多相对位置的关系的语义向量下，将语料中潜在的多语义、多相对位置关系融合，作为(Transformer-encoder)深度自注意力神经网络结构的输入训练数据。充分利用了(Span)词格结构下的多语义词义向量。从而更为准确的抽取出存在于中文网事数据的实体关系。

根据本发明的第四个方面，模型在训练阶段以句为单位对所有训练样本语料依据预训练的语义向量字典匹配对应的多颗粒度语义向量，依据知网(Hownet)知识库匹配多词义语义向量。从而生成多语义多颗粒度的语义向量。之后将数据输入至公知的(Transformer-encoder)深度自注意力神经网络结构中，从而输出对多语义多颗粒度的语义向量的解码向量，作为模型的中间向量。最后，将解码向量由公知的条件随机场方法(CRF)映射至对应的输出分布。

在训练过程中，本模型采用公知的交错熵算法，从而计算模型的预测分布与数据本身的真实分布之间的差值。其公式如下：

其中n代表类型所预测的关系的类型总数。p(y∣S)代表当前语料属于S类别的概率。Y_groundtruth代表当前词条语料的真实标签。

模型通过公知的梯度下降算法迭代公知的(Transformer-encoder)深度自注意力神经网络结构以及公知的条件随机场方法(CRF)中的模型参数。其公式如下

其中timestep代表当前训练模型轮次。Weight_timestep为相对应的当前训练模型轮次的模型所有参数缩写。

为公知的数学偏导数符号。lr为预设定的模型学习率，用于调节模型迭代速度。

本方面采用交叉熵的方式计算模型输出的预测分布与数据真实标签分布的差值。从而衡量模型在当前训练轮次的表现。之后，模型基于梯度下降算法，对存在于模型中的参数优化，进而优化模型输出。模型通过预设定的训练轮次常数以固定模型的训练次数，当模型达到最终训练轮次，则停止训练，并存储相对应的模型训练参数。

根据本发明的第五个方面，模型需对一组未标注的中文网事新闻数据进行实体关系识别，从而实现本发明的实体关系抽取功能的应用。

以一条中文网事数据为例。应用阶段本方法的预处理流程与训练阶段一致。依据外部的知识库知识，生成对应的多语义多颗粒度向量。之后根据生成的多语义多颗粒度向量构成Span结构数据，从而多维度的生成相对位置矩阵。将由模型外部预处理的多维度的生成相对位置矩阵以及多语义多颗粒度向量同时作为模型输入，输入至(Transformer-encoder)深度自注意力神经网络结构。此时的(Transformer-encoder)深度自注意力神经网络参数加载第四个方面存储的模型训练参数。从而得到模型的预测输出分布。

由于应用阶段须输出存在于语料中的最大概率值标签，故采用以下公知的最大概率值标签公式实现对语料标签的预测。

其中i代表标签的种类所对应的序号。

代表模型预测输出属于第i标签的预测值。label代表模型预测的当前语料所属的实体关系类型。

本方面在预处理阶段，在训练模型外构成多语义多颗粒度的语义向量以及多维度的相对位置矩阵以作为公知的(Transformer-encoder)深度自注意力神经网络结构的模型输入，其中模型的参数需加载训练阶段本地化的模型参数，从而得到精准的模型输出结果分布。模型输出分布需要采用本方面提出的的最大概率值标签公式以输出模型的关系标签。

本发明和现有技术相比有如下优势：

该中文新闻网事数据的实体关系抽取方法主要创新点是：(1)针对丰富存在于语料中的多义词采取了多颗粒度的语义向量编码方式。(2)针对存在于中文语料中因断句所导致的理解偏差现象，采用Span的结构对多断句形式下的数据进行了相对位置再编码。(3)采用Transforner-encoder结构融合多语义、多颗粒度、多相对位置的语义向量对存在于中文新闻网事数据的实体关系进行了分类。

附图说明

图1为子向量维度的编码过程图；

图2为词向量维度的编码过程图；

图3为对span进行相对位置编码示意图；

图4为相对位置矩阵生成方法流程图；

图5为多义词实体关系识别方法流程。

具体实施方式

下面结合附图对本发明的优选实例进行详细阐述。

本发明基于知网(Hownet)的多义词实体关系识别方法流程如图5，首先对原始输入语料生成字颗粒度的语义向量。之后基于知网(Hownet)的多义词字典，对存在于原始输入语料的词生成词颗粒度的语义向量。然后根据存在于语料中的所有字颗粒度语义向量、词颗粒度语义向量转化为(Span)词格结构数据并生成相对位置矩阵。最后将多颗粒度、多语义的(Span)词格数据以及由(Span)词格数据生成的相对位置矩阵共同作为(Transformer-encoder)深度自注意力神经网络编码器的输入数据从而对存在于中文新闻网事的实体关系进行抽取。

本方法中存在的多关键性特征直接影响实体关系抽取模型的有效性，因此，选取如下特征作为模型的关键特征：

1.字颗粒度特征：以字颗粒度为特征的语义向量。

2.词颗粒度特征集合：以词颗粒度为特征的语义向量集合，因为一个词可有多义，故表示为一个集合。

3.(Span)词格结构特征：包含语义特征的语义信息、相对起始位置信息、相对终止位置信息。

4.相对位置特征矩阵：包含存在于多颗粒度、多语义的(Span)词格数据中各个语义向量之间的相对位置关系所构成的4个维度的矩阵。

5.实体关系特征：由(Transformer-encoder)深度自注意力神经网络编码器抽取出的中文网事数据的实体关系。

本方法在(Transformer-encoder)深度自注意力神经网络中分为两步实现对中文网事数据的实体关系抽取，首先对语义向量进行以语义向量为训练最小单位的并行训练。然后对语义向量的训练结果采用softmax分布函数预测实体关系类型。

以上所述仅是本发明的一种优选方案，应当指出，对于本技术领域的普通人员来说，在不脱离本发明的原理前提下，还可以做出若干修饰和润色，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于知网的多义词中文实体关系识别方法，其步骤包括：

1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化，得到每一个字对的字颗粒度向量；然后对每一字颗粒度向量所在的位置信息进行编码，得到语料中每个字与预标注的待识别实体关系对的相对位置编码；

2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合

其中，M为一条语料样本的字数，语料样本中第i个字c_i对应的字颗粒度向量记为

c_i相对于待识别实体关系对的位置编码为

将

转置为向量

将

向量拼接为

代表c_i的字向量，i＝1～M；

3)基于知网获取中文网事数据中的每一条语料样本中的词汇并生成每一词汇的词向量集合；其中词汇w表示为w_b,e，当词汇w具有K重多义时，多义词w的第k种释义的语义向量表示为

b代表词汇w在语料中的起始相对位置，e代表词汇w在语料中的终止相对位置，k代表多义词w的第k种释义，k＝1～K；多义词w对应的语义向量集合表示为

一条长度为N的语料的词颗粒度语义向量集合表示为

为第N个词汇对应的语义向量集合；

4)将每条语料样本中的字向量

词向量

拼接得到向量x＝{x^c,x^sen}，构成多颗粒度的词格结构语义向量，对存在于语料中的所有词格span进行相对位置编码；其中，利用语义向量x_i代表x^c中的一字向量或x^sen中的一词向量，head[i]、tail[i]代表x_i在语料中的起始、终止相对位置；

5)根据每条语料样本中x_i对应的词格span相对位置编码，生成x_i的位置编码；

6)利用各语义向量及其对应位置编码训练深度自注意力神经网络，得到深度自注意力神经网络编码器；

7)对于待处理语料，生成该待处理语料中字和词汇的语义向量，然后将每一语义向量及其对应位置编码输入深度自注意力神经网络编码器，得到该待处理语料中的实体关系。

2.如权利要求1所述的方法，其特征在于，深度自注意力神经网络根据公式

确定语料中的语义向量x_i语义向量与x_j之间的相对位置关系R_i,j；然后基于相对位置关系R_i,j和语义向量x_i、x_j，计算语义向量x_i对语义向量x_j的注意力权重

然后基于注意力权重计算深度自注意力神经网络的输出m；然后依次通过公式H＝tanh(m)、α＝softmax(l^TH)、h^*＝mα^T、o＝Wh^*+b、p(y∣S)＝softmax(o)，计算实体关系；其中，

为x_i四个维度的位置编码；W_q,W_k,R,W_k,E,u,v，V为深度自注意力神经网络参数，m为注意力权重线性变化的中间向量，

为语义向量x_i的词向量表示，

为语义向量x_j的词向量表示，l为softmax函数的降维超参数、W为自注意力向量h^*的降维权重超参数、b为自注意力向量h^*的降维偏置项超参数，p(y∣S)代表语义向量x_i、x_j对应的实体关系y属于类别S的概率。

3.如权利要求2所述的方法，其特征在于，用d代表

位置编码方法为：

k代表词格span在x中的绝对位置，若绝对位置k为偶数，则采用sin函数；若k为奇数，则采用cos函数；其中d_model代表一条词格结构语义向量的向量维度；

代表x_i的相对起始位置与语义向量x_j的相对起始位置的距离，

代表x_i的相对起始位置与语义向量x_j的相对终止位置的距离，

代表x_i的相对终止位置与语义向量x_j的相对起始位置的距离，

代表x_i的相对终止位置与语义向量x_j的相对终止位置的距离。

4.如权利要求2所述的方法，其特征在于，

5.如权利要求1所述的方法，其特征在于，采用交错熵算法训练深度自注意力神经网络。

6.如权利要求1或5所述的方法，其特征在于，基于梯度下降算法优化深度自注意力神经网络中的参数。

7.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。