CN110196967A

CN110196967A - 基于深度转换架构的序列标注方法和装置

Info

Publication number: CN110196967A
Application number: CN201910486896.1A
Authority: CN
Inventors: 孟凡东; 刘宜进; 张金超; 周杰; 徐金安
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-09-03
Also published as: WO2020244475A1; JP2022517971A; US20210319181A1; JP7431833B2; US11681872B2

Abstract

本文描述了用于语言序列标注的方法和装置。这种用于语言序列标注的方法包括：读取语言序列的第一嵌入表示，语言序列的第一嵌入表示包括字符级词嵌入表示、预训练词嵌入表示和全局词嵌入表示；对所读取的语言序列的第一嵌入表示进行第一深度转换编码以得到一组隐藏层状态；以及对一组隐藏层状态进行解码以得到语言序列的标注结果，其中全局词嵌入表示是通过预先编码计算得到的针对语言序列的全局上下文表示。

Description

基于深度转换架构的序列标注方法和装置

技术领域

本公开涉及序列标注的技术领域，具体地涉及基于深度转换架构的序列标注方法和装置。

背景技术

序列标注是自然语言处理的基础工作，也是自然语言处理中具有挑战性的问题，其主要包括词性标注、命名实体识别等。例如，命名实体识别的主要任务是识别文本中的人名、地名、组织名等专有名词和有意义的时间、日期等短语。序列标注任务是信息提取的重要组成部分，其效果对机器翻译、智能对话系统等有较大影响。

当前，序列标注主要模型分为传统机器学习模型和神经网络模型。近年来，与传统机器学习模型相比，神经网络模型在序列标注任务中取得了更好的结果。Huang等人的《Bidirectional LSTM-CRF Models for Sequence Tagging》最先将双向长短期记忆LSTM网络应用于序列标注任务。该网络在少量人工特征的辅助下效果远超传统器学习模型。此后出现了在双向LSTM架构上增加新的字符级特征或语言模型特征的构思。例如Lample提出利用LSTM提取字符级形态学特征，该工作《Neural Architectures for Named EntityRecognition》发表在NAACL-2016。Peter提出将神经语言模型作为额外的词嵌入表示，该工作《Semi-supervised sequence tagging with bidirectional language models》发表在ACL-2017。

然而，上述现有技术中，相邻隐藏层状态之间的转换过程较浅，不足以提取丰富的语言学特征。此外，现有技术在语言序列中每个词的位置对全局信息的表示不足，难以对当前词做出准确预测。

发明内容

有鉴于此，本公开提供了全局信息强化的基于深度转换的序列标注方法和装置。

根据本公开的第一方面，提供了一种用于语言序列标注的方法。该方法包括：读取语言序列的第一嵌入表示，该语言序列的第一嵌入表示包括字符级词嵌入表示、预训练词嵌入表示和全局词嵌入表示。对所读取的语言序列的第一嵌入表示进行第一深度转换编码以得到一组隐藏层状态；以及对该组隐藏层状态进行解码以得到所述语言序列的标注结果。该全局词嵌入表示是通过预先编码计算得到的针对语言序列的全局上下文表示

在一些实施例中，全局词嵌入表示是通过以下步骤获得的：读取语言序列的第二嵌入表示，语言序列的第二嵌入表示包括字符级嵌入表示和预训练词嵌入表示。对所读取的语言序列的第二嵌入表示进行第二深度转换编码和信息聚合以得到全局词嵌入表示。

在一些实施例中，进行第一深度转换编码包括：对所读取的语言序列嵌入表示分别在正向和反向两个方向上进行第一深度转换编码。

在一些实施例中，在正向和反向两个方向上进行第一深度转换编码包括：对在正向和反向上的深度转换编码结果进行拼接。

在一些实施例中，进行第一深度转换编码包括：通过由线性变换强化门控循环单元L-GRU和转换门控循环单元T-GRU构成的深度转换循环网络进行第一深度转换编码。

在一些实施例中，进行所述第二深度转换编码包括：对所读取的语言序列嵌入表示分别在正向和反向两个方向上进行深度转换编码。

在一些实施例中，在正向和反向两个方向上进行第二深度转换编码包括：对在正向和反向上的深度转换编码结果进行拼接。

在一些实施例中，进行所述第二深度转换编码包括：通过由线性变换强化门控循环单元L-GRU和转换门控循环单元T-GRU构成的深度转换循环网络进行所述第二深度转换编码。

在一些实施例中，信息聚合可以是平均池化或最大池化。

根据本公开的第二方面，提供了一种用于语言序列标注的装置。该装置包括序列标注编码器和序列标注解码器。序列标注编码器包括第一读取模块和第一深度转换模块。第一读取模块，被配置用于读取语言序列的第一嵌入表示。语言序列的第一嵌入表示包括字符级词嵌入表示、预训练词嵌入表示和全局词嵌入表示。第一深度转换模块，被配置用于对所读取的语言序列的第一嵌入表示进行第一深度转换编码以得到一组隐藏层状态。序列标注解码器被配置用于对该组隐藏层状态进行解码以得到语言序列的标注结果。该全局词嵌入表示是通过预先编码计算得到的针对语言序列的全局上下文表示。

在一些实施例中，该装置还包括全局信息编码器，该全局信息编码器被用于获得全局词嵌入表示。全局信息编码器包括第二读取模块和第二深度转换模块和信息聚合模块。第二读取模块被配置用于读取语言序列的第二嵌入表示，所述语言序列的第二嵌入表示包括字符级嵌入表示和预训练词嵌入表示。第二深度转换模块和信息聚合模块被配置用于对所读取的语言序列的第二嵌入表示进行第二深度转换编码和信息聚合以得到全局词嵌入表示。

在一些实施例中，第一深度转换模块进行第一深度转换编码包括：对所读取的语言序列嵌入表示分别在正向和反向两个方向上进行第一深度转换编码。

在一些实施例中，第一深度转换模块包括由线性变换强化门控循环单元L-GRU和转换门控循环单元T-GRU构成的深度转换循环网络用于进行第一深度转换编码。

在一些实施例中，第二深度转换模块和信息聚合模块进行第二深度转换编码包括：对所读取的语言序列嵌入表示分别在正向和反向两个方向上进行第二深度转换编码。

在一些实施例中，第二深度转换模块和信息聚合模块包括由线性变换强化门控循环单元L-GRU和转换门控循环单元T-GRU构成的深度转换循环网络用于进行第二深度转换编码。

在一些实施例中，信息聚合可以是平均池化或最大池化。

根据本公开的第三方面，提供了一种计算设备。该计算设备包括存储器和处理器。存储器被配置为存储计算机可执行指令。处理器被配置为当计算机可执行指令被处理器执行时执行如上面所述的任一方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如上面所述的任一方法。

本公开提供的经全局信息强化的基于深度转换架构的序列标注方法和装置加深了循环神经网络相邻状态之间的转换过程。同时，通过全局信息编码器增强了每个词的局部信息，获得了更全面的特征表示，提高了预测的准确度。

附图说明

现在将更详细地并且参考附图来描述本公开的实施例，其中：

图1示出了根据本公开一实施例的序列标注用作底层技术的应用场景示意图；

图2示出了根据本公开另一实施例的序列标注用作底层技术的应用场景示意图；

图3示出了现有技术中的用于序列标注的编码器解码器架构示意图；

图4示出了根据本公开一实施例的全局信息强化的基于深度转化的序列标注架构图；

图5示意性示出了根据本公开一实施例的用于语言序列标注的方法的流程图；

图6示意性示出了根据本公开另一实施例的用于语言序列标注的方法的流程图；

图7示意性示出了根据本公开一实施例的用于语言序列标注的装置的示意图；

图8示意性示出了根据本公开另一实施例的用于语言序列标注的装置的示意图；

图9图示了一个示例系统，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。

具体实施方式

下面的说明提供用于充分理解和实施本公开的各种实施例的特定细节。本领域的技术人员应当理解，本公开的技术方案可以在没有这些细节中的一些的情况下被实施。在某些情况下，并没有示出或详细描述一些熟知的结构和功能，以避免不必要地使对本公开的实施例的描述模糊不清。在本公开中使用的术语以其最宽泛的合理方式来理解，即使其是结合本公开的特定实施例被使用的。

首先，对本公开的实施例中涉及的部分用语进行说明，以便于本领域技术人员理解：

深度转换DT：利用多级非线性循环单元来增加多个相邻时间步之间的处理深度的神经网络结构。

命名实体识别NER：指的是识别文本中具有特定意义的实体，包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具。

循环神经网络RNN：是一类以序列数据为输入，在序列演进方向上递归且所有节点（循环单元）按链式连接的递归神经网络。

长短期记忆LSTM：是一种时间循环神经网络，适合于处理和预测时间序列中的间隔和延时相对较长的事件。

门控循环单元GRU:是LSTM的一种变体。GRU保持了LSTM的效果，并且结构更简单，对RNN中的梯度消失有很大的帮助。其t时刻的隐藏层状态计算如下：。其中是元素积。为候选激活且通过计算，其中，W是待学习的网络参数，是时刻t的输入编码向量，是重置门控。重置门控和更新门控计算如下：

（1）

（2）。

转换门控循环单元T-GRU：T-GRU是一种类型的门控循环单元，其不会出现在深度转换网络的第一层，因此不具备GRU那样的输入编码向量，t时刻的隐藏层状态计算如下：

（3）

（4）

重置门控和更新门控计算如下：

（5）

（6）

其中，W是待学习的网络参数。

线性变换强化的门控循环单元L-GRU：L-GRU是一种类型的门控循环单元，其t时刻的隐藏层状态计算如下：

（7）

其中，候选激活计算如下：

（8）

重置门控、更新门控与上述式（1）、（2）相同，线性变换门控的计算如下：

（9）。

图1和图2分别示意示出了序列标注作为其底层技术的两种应用场景。序列标注通常作为一种底层处理应用，可以用于解决中文分词、词性标注、命名实体识别等问题。序列标注任务是信息提取的重要组成部分，其可以具体应用于机器翻译、智能对话系统等中。图1中示意性示出了本公开可以作为底层技术应用于其中的一种智能对话系统应用场景，具体示出了其中的一个人机交互界面。在该交互界面中，用户可以输入语音或者文字组成的语言序列。机器通过在后台对用户输入的语言序列，比如“卫生间在哪”等进行序列标注分析，可以理解用户的意图，比如用户的问题是什么。通过由机器提供针对用户问题的相应回复，比如“在商场二层、三层、四层”，可以实现机器与用户之间的智能对话。如本领域技术人员所理解的，本公开还可以被应用于多种其他需要对语言序列进行分析的场景。

序列标注被用于为线性输入序列，例如序列X=x₁,x₂,…x_n中的每个元素加上如标签集合Y=y₁,y₂,…y_n中的某个标签。序列标注方法本质上是对线性序列中的每个元素进行分类。例如，对于输入的语言序列：爱因斯坦出生于德国。在词性分析任务中，针对元素加词性标签，输出结果：爱因斯坦[名词]、出生[动词]、于[介词]、德国[名词]。在实体识别任务中，针对命名实体加标签，输出结果爱因斯坦[人名]、德国[组织名]。

图2示意性示出了本公开可以作为底层技术应用于其中的一种机器翻译应用场景，具体示出了其中一个人机交互界面。在该界面中可以利用技术提供方提供的后台服务，将在左侧框中输入的语言序列翻译成右侧框中的语言序列。例如图2中在左侧输入中文“我明天去北京玩”，则经过作为底层技术之一的序列标注等处理，在右侧框中输出“I'm goingto Beijing tomorrow"。本发明中的序列标注处理可以作为底层应用在后台对输入的语言进行分析和处理。

在序列标注任务中，核心架构是编码器-解码器方案。编码器处理可变长度输入，并建立固定长度的矢量表示。解码器基于经编码的表示生成可变长度序列（目标序列）。图3示出了用于序列标注的编码器-解码器架构示意图。如在图3中所示，以序列标注中的词性分析为例，输入编码器的可变长度输入为X=x₁,x₂,…x_n，编码器输出的经编码的表示为[z₁,z₂,…z_d]，解码器所输出的可变长度序列为Y=y₁,y₂,…y_n。

图4示出了根据本公开一实施例的全局信息强化的基于深度转化的序列标注架构图。待处理的语言序列为x₁,x₂,…x_n，每一项x_n标识待处理语言序列的一个单词。以对语言序列进行双向深度转换处理为例，分别以正向x₁,x₂,…x_n和反向x_n,x_n-1,…x₁的顺序对语言序列进行深度转换处理。图4中具有向右阴影的方块标识前向（从左向右）的深度转换DT单元，具有向左阴影的方块标识后向（从右向左）的深度转换单元，无阴影的方框标识单向DT单元，圆角方框标识词嵌入。

全局信息编码器401读取包括字符级词嵌入表示c₁,c₂,…c_n和预训练词嵌入表示w₁,w₂,…w_n的语言序列的第二嵌入表示。字符级词嵌入表示c_n和预训练词嵌入表示w_n分别与输入的语言序列中的子词x_n相对应。字符级词嵌入c_n是在字符级学习的词向量，是通过子词x_n在字符级别上进行卷积处理得到的。预训练的词向量是根据子词x_n在经预先训练存储的词向量表中查找得到的。在一个示例中，文本序列“我在家”的预训练词向量表示指的是：我=[0.5486464,0.14654642,…,0.4489789]是一个300维的向量；同样“在”和“家”也分别是一个300维的向量。对与子词x_n相对应的c_n和w_n进行拼接构成语言序列的第二嵌入表示。然后对读入的语言序列的第二嵌入表示进行深度转化编码。在一个实施例中，深度转化编码是双向进行的。在深度转化编码的网络架构中，最下面一层的深度转化单元4011采用的是L-GRU单元，其余层中的深度转化单元采用的是T-GRU单元。在图4所示的示例中，采用的T-GRU单元层数为1，如本领域技术人员可理解的是也可以采用其他层数的T-GRU单元，典型地2-3层。拼接4012针对同一子词x_n经正向和经反向深度转换处理的结果，并通过信息聚合处理4013降低维度得到全局词嵌入向量g。在一个实施例中，信息聚合处理可以包括平均池化、最大池化或注意力机制。

序列标注编码器402利用全局信息编码器401输出的全局词嵌入向量g对语言序列嵌入表示进行增强。示例性地，序列标注编码器402读取包括字符级词嵌入表示c₁,c₂,…c_n、预训练词嵌入表示w₁,w₂,…w_n和全局词嵌入向量g,g,…g的语言序列的第一嵌入表示。字符级词嵌入表示c_n和预训练词嵌入表示w_n分别与输入的语言序列中的子词x_n相对应。对与子词x_n相对应的c_n、w_n以及全局词嵌入向量g进行拼接构成语言序列的第一嵌入表示。具体地，考虑具有n的词语的语言序列X={x₁,x₂,…,x_n}，本发明的序列标注编码器402首先通过串接三个初级的嵌入c_t,w_t和g来捕获每个词表示x_t=[c_t;w_t;g]。字符级词嵌入表示c_t是根据循环卷积网络（CNN）获得的。预训练词嵌入表示w_t是通过从查找表查找获得的，这种方式是由Glove提出的。全局词嵌入表示是通过预先编码计算得到的针对语言序列的全局上下文表示。在一个实施例中，全局词嵌入表示g是从双向深度转换网络DT中提取的。

序列标注编码器402然后对读入的语言序列的第一嵌入表示进行深度转化编码。在一个实施例中，深度转化编码是双向进行的。在深度转化编码的网络架构中，最下面一层中的深度转化单元采用的是L-GRU单元，其余层中的深度转化单元采用的是T-GRU单元。在图4中所示的示例中，采用的T-GRU单元层数通常为2-5，如本领域技术人员可理解的是：也可以采用其他层数的T-GRU单元。序列标注编码器402与全局信息编器401相比，所采用的L-GRU层数均为1层。拼接针对同一子词x_n经正向和经反向深度转换处理的结果，得到每个词对应的隐藏层状态抽象表示。

序列标注解码器403将序列标注编码器402得到的隐藏层状态和针对前一时刻的标签信息进行解码，得到一组对应的隐藏层状态。接下来，对得到的隐藏层状态和前一时刻的标签信息进行线性转换和softmax操作，得到每个词的标签预测结果。序列标注解码器403采用的是单向结构，其循环神经元DT的结构与上述全局信息编码器401和序列标注编码器402中的循环神经元DT的结构相类似，深度转换神经网络的第一层（参见图4中的4031）为L-GRU,深度转换神经网络的其余层为T-GRU。在图4中所示的示例中，序列标注解码器403所采用的T-GRU单元层数通常为2-5，如本领域技术人员可理解的是：也可以采用其他层数的T-GRU单元。

图5示意性示出了根据本公开一实施例的用于语言序列标注的方法的流程图500。在步骤501中，序列标注编码器读取语言序列的第一嵌入表示，语言序列的第一嵌入表示包括字符级嵌入表示c_n、预训练词嵌入表示w_n和全局词嵌入表示g。针对每个子词x_n，对与其相对应的字符级嵌入表示c_n、预训练词嵌入表示w_n和全局词嵌入表示g进行拼接。该全局词嵌入表示g是通过预先编码计算所得到的针对语言序列的全局上下文表示。

在步骤502中，对在步骤501中读取的语言序列嵌入表示进行第一深度转换编码以得到一组隐藏层状态。在一个实施例中，第一深度转换编码包括对所读取的语言序列嵌入表示进行双向深度转换，即从左到右正向和从右到左反向的深度转换。针对双向深度转换，需要对正向和反向的深度转换编码结果进行拼接。在第一深度转化编码的网络架构中，最下面一层中的深度转化单元采用的是L-GRU单元，其余层中的深度转化单元采用的是T-GRU单元。在个示例中，采用的T-GRU单元层数通常为2-5，如本领域技术人员可理解的是也可以采用其他层数的T-GRU单元。

在步骤503中，对隐藏层状态进行解码以得到语言序列的标注结果。

图6示意性示出了根据本公开另一实施例的用于语言序列标注的方法的流程图600。图6在图5方法流程的基础上增加了步骤601和602。图6中的步骤603、604和605分别与图5中的501、502和503相同，因此可以参见上述关于图5中步骤501、502和503的描述。

在步骤601中，读取语言序列的第二嵌入表示，语言序列的第二嵌入表示包括字符级嵌入表示和预训练词嵌入表示。字符级词嵌入表示c_n和预训练词嵌入表示w_n分别与输入的语言序列中的子词x_n相对应。字符级词嵌入c_n是在字符级学习的词向量，是通过子词x_n在字符级别上进行卷积处理得到的。预训练的词向量是根据子词x_n在经预先训练存储的词向量表中查找得到的。

在步骤602中，对读取的语言序列的第二嵌入表示进行第二深度转换编码和信息聚合，以得到全局词嵌入表示。在一个实施例中，第二深度转换编码包括对所读取的语言序列嵌入表示分别在从左到右的正向和从右到左的反向两个方向上进行深度转换编码。在从正反两个方向上进行深度转换编码的情况下，对正向和反向两个方向上深度转换的结果进行拼接，进而进行信息聚合。信息聚合可以包括最大池化、平均池化或注意力机制。第二深度转换编码是通过由线性变换强化门控循环单元L-GRU和转换门控循环单元T-GRU构成的深度转换循环网络进行的。其中L-GRU位于深度转换循环网络中循环单元的第一层，T-GRU位于深度转换循环网络中循环单元的其它层。在一个实施例中，T-GRU在第一深度转换循环网络中的层数为1，如本领域技术人员所理解的，第二深度循环网络中可以具有其他层数的T-GRU，如2-3层。

图7示意性示出了根据本公开一实施例的用于语言序列标注的装置700的示意图。用于语言序列标注的装置700包括：序列标注编码器701和序列标注解码器702。序列标注编码器701包括第一读取模块7011和第一深度转换模块7012。第一读取模块7011被配置用于读取语言序列的第一嵌入表示，所述语言序列的第一嵌入表示包括字符级词嵌入表示、预训练词嵌入表示和全局词嵌入表示。第一深度转换模块7012对所读取的语言序列的第一嵌入表示进行第一深度转换编码以得到一组隐藏层状态。

序列标注解码器702被配置用于对该组隐藏层状态进行解码以得到语言序列的标注结果。

图8示意性示出了根据本公开另一实施例的用于语言序列标注的装置800的示意图。用于语言序列标注的装置800包括：全局信息编码器801、序列标注编码器802和序列标注解码器803。全局信息编码器801，包括第二读取模块8011和第二深度转换模块和信息聚合模块8012。第二读取模块8011被配置用于读取语言序列的第二嵌入表示。语言序列的第二嵌入表示包括字符级嵌入表示和预训练词嵌入表示。第二深度转换模块和信息聚合模块8012，对所读取的语言序列的第一嵌入表示进行第一深度转换编码和信息聚合以得到全局词嵌入表示。全局信息编码器可以进行双向深度转换编码，即从左到右转换编码以及从右到左深度转换编码。双向深度转换编码除了输入序列方向不同之外，没有其他差异。下面以单向转换编码器为例进行说明。L表示转化编码器深度，在i时刻深度j，深度转换编码器的隐状态计算如下：

（10）

（11）

经过深度换编码后，第i个词对应的状态为。以同样的方式计算两个方向的深度转换编码，并将两个方向编码得到的隐状态拼接起来，可以得到第i个词对应的最终编码表示。最终，将每个词的编码表示进行平均池化，得到最终的整个句子的全局表示。

序列标注编码器802包括第一读取模块8021和第一深度转换模块8022。第一读取模块8021被配置用于读取语言序列的第一嵌入表示。语言序列的第一嵌入表示包括字符级词嵌入表示、预训练词嵌入表示和全局词嵌入表示。第一深度转换模块8022对所读取的语言序列的第一嵌入表示进行第一深度转换编码以得到一组隐藏层状态。

序列标注解码器803被配置用于对该组隐藏层状态进行解码以得到所述语言序列的标注结果。

本发明的序列标注方案与传统的双向LSTM模型相比表现出更好的标注效果，且能够更加精准地识别语句中的命名实体、语法块、词性等信息，进而优化现有的相关应用系统，例如小微对话系统。

F1是业界通用的精确度和交回率的平均指标。以序列标注的评注指标F1为例，实际测试表明，本发明的方案在多个方面均实现了F1值的提升。表1示意性地示出了在命名实体识别和语法块识别中各种方案在F1性能方面的对比。

模型	命名实体识别F1	语法块识别F1
			当前最好基准	91.64	95.29
本发明	91.96（+0.32）	95.43（+0.14）
			本发明+BERT	93.47（+1.83）	97.30（+2.01）

表1。

如表1所示，对于序列标注中的命名实体识别，本发明的方案使得F1值在现有技术91.64的基础上提高了0.32；对于序列标注中的语法快识别，使得F1值在现有技术95.29的基础上提高了0.14。

另外，在本发明的基础上融合BERT（Bidirectional Encoder Representationsfrom Transformers）会使得性能进一步提升。

模型	参数量	命名实体识别F1
			堆叠循环神经网络	8.4M	90.94
本发明	7.4M	91.96（+1.02）

表2。

表2示出了与堆叠循环神经网络的性能比较。首先，尽管堆叠循环神经网络可以处理非常深的结构，但在词级别上连续隐藏层状态之间的转换深度仍较浅。其次，在堆叠循环神经网络中，沿序列轴向的隐藏层状态被简单地馈送到高层的相应位置，也就是说只有在深度架构中只传递位置感知特征。而在本公开中，在全局编码器的所有词位置的内部状态被变换为一个固定大小的向量。与堆叠循环神经网络相比，这种上下文感知表示提供了句子的更一般地和更具信息的特征。为获得更严谨的比较，采用与本发明相似的参数数值的堆叠循环神经网络。根据表2中的数值堆叠循环神经网络，在堆叠循环神经网络与本发明的技术方案之间仍存在很大的差距。如表2中所示，本发明以更小的参数量实现了比堆叠的循环神经网络更好的性能，见图中针对命名实体识别F1列，本发明的F1为91.96比堆叠循环神经网络高出1.02。由此，证实了本发明的技术方案能够有效利用全局信息，以学习更多序列标注任务的有用表示。

表3。

表3示出了模型消融实验的结果，即在分别去除字符级卷积网络（即图4中的4021）、预训练词向量（即图4中的4022）、全局信息（即图4中的4023）和深度传递循环网络DT（图4中的4024）之一的情况下，保留其他3个神经网络架构组成部分的情况下所得到的针对命名实体识别任务的F1值。可以看出在四个部分全部存在的情况下，F1值最高为91.96，高于消融字符级卷积网络情况下的90.94、消融预训练词向量情况下的88.59、消融了全局信息情况下的91.60以及消融了深度传递循环网络情况下的91.42。由此可见，本公开技术方案的性能高于其他消融方案。

尽管本发明用全局词嵌入信息对序列标注编码器的输入进行加强。也可以采用将其作为序列标注解码器的输入、作为softmax分类层输入等其他方式来加强全局词嵌入信息。第一种方案效果最佳，全局信息表示和多粒度的词向量拼接后，作为序列标注编码器的输入，经过复杂的组合计算，可以使每个词位置学到更具体、更丰富的表示，从而提升模型整体的效果。后两种方案中，全局信息和其他隐状态的特征空间比较类似。

图9图示了示例系统900，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备910。计算设备910可以是例如服务提供商的服务器、与客户端（例如，客户端设备）相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面关于图7用于语言序列标注的装置700或图8的用于语言序列标注的装置800可以采取计算设备910的形式。替换地，用于语言序列标注的装置700和800可以以序列标注应用916的形式被实现为计算机程序。

如图示的示例计算设备910包括彼此通信耦合的处理系统911、一个或多个计算机可读介质912以及一个或多个I / O接口913。尽管未示出，但是计算设备910还可以包括系统总线或其他数据和命令传送系统，其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合，所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例，诸如控制和数据线。

处理系统911代表使用硬件执行一个或多个操作的功能。因此，处理系统911被图示为包括可被配置为处理器、功能块等的硬件元件914。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件914不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质912被图示为包括存储器/存储装置915。存储器/存储装置915表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置915可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置915可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。计算机可读介质912可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O接口913代表允许用户向计算设备910输入命令和信息并且可选地还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）等等。输出设备的示例包括显示设备（例如，监视器或投影仪）、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备910可以以下面进一步描述的各种方式进行配置以支持用户交互。

计算设备910还包括序列标注应用916。序列标注应用916可以例如是关于图5描述的用于语言序列标注的装置700和800的软件实例，并且与计算设备910中的其他元件相组合地实现本文描述的技术。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”，“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备910访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备910的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指以这样的方式对信号中的信息进行编码来设置或改变其特征中的一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件914和计算机可读介质912代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件914体现的一个或多个指令和/或逻辑。计算设备910可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件914，可以至少部分地以硬件来实现将模块实现为可由计算设备910作为软件执行的模块。指令和/或功能可以由一个或多个制品（例如，一个或多个计算设备910和/或处理系统911）可执行/可操作以实现本文所述的技术、模块和示例。

在各种实施方式中，计算设备910可以采用各种不同的配置。例如，计算设备910可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备910还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备910还可以实现为电视类设备，其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备910的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台922而在“云”920上全部或部分地实现。

云920包括和/或代表用于资源924的平台922。平台922抽象云920的硬件（例如，服务器）和软件资源的底层功能。资源924可以包括在远离计算设备910的服务器上执行计算机处理时可以使用的应用和/或数据。资源924还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台922可以抽象资源和功能以将计算设备910与其他计算设备连接。平台922还可以用于抽象资源的分级以提供遇到的对于经由平台922实现的资源924的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统900内。例如，功能可以部分地在计算设备910上以及通过抽象云920的功能的平台922来实现。

应当理解，为清楚起见，参考不同的功能模块对本公开的实施例进行了描述。然而，将明显的是，在不偏离本公开的情况下，每个功能模块的功能性可以被实施在单个模块中、实施在多个模块中或作为其它功能模块的一部分被实施。例如，被说明成由单个模块执行的功能性可以由多个不同的模块来执行。因此，对特定功能模块的参考仅被视为对用于提供所描述的功能性的适当模块的参考，而不是表明严格的逻辑或物理结构或组织。因此，本公开可以被实施在单个模块中，或者可以在物理上和功能上被分布在不同的模块和电路之间。

将理解的是，尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、或部件，但是这些设备、元件、或部件不应当由这些术语限制。这些术语仅用来将一个设备、元件、或部件与另一个设备、元件、或部件相区分。

尽管已经结合一些实施例描述了本公开，但是其不旨在被限于在本文中所阐述的特定形式。相反，本公开的范围仅由所附权利要求来限制。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外，在权利要求中，词“包括”不排除其它元件，并且不定冠词“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供，不应该被解释为以任何方式限制权利要求的范围。

Claims

1.一种用于语言序列标注的方法，包括：

读取语言序列的第一嵌入表示，所述语言序列的第一嵌入表示包括字符级词嵌入表示、预训练词嵌入表示和全局词嵌入表示；

对所读取的语言序列的第一嵌入表示进行第一深度转换编码以得到一组隐藏层状态；以及

对该组隐藏层状态进行解码以得到所述语言序列的标注结果，

其中所述全局词嵌入表示是通过预先编码计算得到的针对语言序列的全局上下文表示。

2.根据权利要求1所述的方法，其中所述全局词嵌入表示是通过以下步骤获得的：

读取语言序列的第二嵌入表示，所述语言序列的第二嵌入表示包括字符级嵌入表示和预训练词嵌入表示；

对所读取的语言序列的第二嵌入表示进行第二深度转换编码和信息聚合以得到所述全局词嵌入表示。

3.根据权利要求1所述的方法，其中进行所述第一深度转换编码包括：对所读取的语言序列嵌入表示分别在正向和反向两个方向上进行第一深度转换编码。

4.根据权利要求3所述的方法，其中在正向和反向两个方向上进行第一深度转换编码包括：对在正向和反向上的深度转换编码结果进行拼接。

5.根据权利要求1所述的方法，其中进行所述第一深度转换编码包括：通过由线性变换强化门控循环单元L-GRU和转换门控循环单元T-GRU构成的深度转换循环网络进行第一深度转换编码。

6.根据权利要求2所述的方法，其中进行所述第二深度转换编码包括：对所读取的语言序列嵌入表示分别在正向和反向两个方向上进行深度转换编码。

7.根据权利要求6所述的方法，其中在正向和反向两个方向上进行第二深度转换编码包括：对在正向和反向上的深度转换编码结果进行拼接。

8.根据权利要求2所述的方法，其中进行所述第二深度转换编码包括：通过由线性变换强化门控循环单元L-GRU和转换门控循环单元T-GRU构成的深度转换循环网络进行所述第二深度转换编码。

9.根据权利要求2所述的方法，其中所述信息聚合可以是平均池化或最大池化。

10.一种用于语言序列标注的装置，包括：

序列标注编码器，包括：

第一读取模块，被配置用于读取语言序列的第一嵌入表示，所述语言序列的第一嵌入表示包括字符级词嵌入表示、预训练词嵌入表示和全局词嵌入表示，

第一深度转换模块，被配置用于对所读取的语言序列的第一嵌入表示进行第一深度转换编码以得到一组隐藏层状态；以及

序列标注解码器，被配置用于对该组隐藏层状态进行解码以得到所述语言序列的标注结果，

11.根据权利要求10所述的装置，还包括：

全局信息编码器，其用于获得所述全局词嵌入表示，包括：

第二读取模块，被配置用于读取语言序列的第二嵌入表示，所述语言序列的第二嵌入表示包括字符级嵌入表示和预训练词嵌入表示，

第二深度转换模块和信息聚合模块，被配置用于对所读取的语言序列的第二嵌入表示进行第二深度转换编码和信息聚合以得到所述全局词嵌入表示。

12.根据权利要求10所述的装置，其中所述第一深度转换模块进行所述第一深度转换编码包括：对所读取的语言序列嵌入表示分别在正向和反向两个方向上进行第一深度转换编码。

13.根据权利要求10所述的装置，其中所述第一深度转换模块包括由线性变换强化门控循环单元L-GRU和转换门控循环单元T-GRU构成的深度转换循环网络用于进行第一深度转换编码。

14.一种计算机程序指令的非瞬时性计算机可读介质，当有处理器执行所述计算机程序指令使所述处理器执行根据权利要求1-9中任一项所述的方法。

15.一种计算设备，包括处理器和其上存储计算机程序的存储器，所述计算机程序被配置为当在所述处理器上执行时使所述处理器执行权利要求1-9中任一项所述的方法。