CN113033192A

CN113033192A - 一种序列标注的训练方法、装置及计算机可读存储介质

Info

Publication number: CN113033192A
Application number: CN201911253417.8A
Authority: CN
Inventors: 张永伟; 童毅轩; 丁磊; 姜珊珊; 董滨
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-25
Anticipated expiration: 2039-12-09
Also published as: CN113033192B

Abstract

本发明提供了一种序列标注的训练方法、装置及计算机可读存储介质。本发明提供的序列标注的训练方法，在序列标注的训练过程中，使用自注意力机制自动学习字的词边界特征信息，从而无需依赖其他分词工具或词典就可以在序列标注中引入词边界特征信息，简化了序列标注的实现，提高了序列标注效率和准确性。

Description

一种序列标注的训练方法、装置及计算机可读存储介质

技术领域

本发明涉及自然语言处理(NLP，Natural Language Processing)技术领域，具体涉及一种序列标注的训练方法、装置及计算机可读存储介质。

背景技术

序列标注问题是自然语言中的常见问题，常见的序列标注问题的解决方案包括隐马尔可夫模型(HMM，Hidden Markov Model)、最大熵模型和条件随机场(CRF，ConditionalRandom Field)模型。目前，随着深度学习的发展，递归神经网络(RNN，Recurrent NeuralNetwork)已经应用于序列标注问题中，简化了序列标注问题的解决。

所谓“序列标注”，通常是指，对于一个一维线性输入序列，给线性序列中的每个元素打上标签集合中的某个标签，所以，其本质上是对线性序列中每个元素根据上下文内容进行分类的问题。一般情况下，对于NLP任务来说，线性序列就是输入的文本，例如，可以把一个汉字看作线性序列的一个元素，而不同任务其标签集合代表的含义可能不太相同，但是相同的问题都是：如何根据汉字的上下文给汉字打上一个合适的标签。

绝大多数NLP问题都可以转化为序列标注问题，序列标注问题包括自然语言处理中的分词、词性标注、命名实体识别、关键词抽取和词义角色标注等等。通常，在做序列标注时需要提供特定的标签集合，进而进行序列标注。

可见，如果能够简化序列标注的实现，提高序列标注的效率，将对开发高性能翻译，对话，舆情监测，主题跟踪以及语义理解等系统中具有重要意义。

发明内容

本发明实施例要解决的技术问题是提供一种序列标注的训练方法、装置及计算机可读存储介质，简化序列标注的实现，提高序列标注的效率。

根据本发明实施例的一个方面，提供了一种序列标注的训练方法，包括：

根据已标注标签的训练语句集，为训练语句集中的字生成字向量；

按照正向序列方向和反向序列方向，将所述训练语句中以当前字向量为边界的多个字向量序列，输入至两层自注意力模型，生成当前字向量在不同序列方向上的词边界特征向量；

将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接后输入至双向长短期记忆Bi-LSTM模型，获得所述Bi-LSTM模型的隐藏层状态输出；

根据所述Bi-LSTM模型的隐藏层状态输出，并利用条件随机场模型进行标签预测训练。

此外，根据本发明至少一个实施例，所述两层自注意力模型包括P-1个第一层自注意力模型和1个第二层自注意力模型，其中：

所述P-1个第一层自注意力模型的输入分别为长度2到P的字向量序列，所述字向量序列为从所述训练语句中的第一字向量开始，截止到所述当前字向量的序列，所述第一字向量为按照序列方向位于当前字向量之前的字向量，所述P为大于或等于3的整数；

所述第二层自注意力模型的输入为所述P-1个第一层自注意力模型的输出，第二层自注意力模型的输出作为当前字向量的词边界特征向量。

此外，根据本发明至少一个实施例，将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接后输入至双向长短期记忆Bi-LSTM模型，获得所述Bi-LSTM模型的隐藏层状态输出的步骤，包括：

将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接，得到两个拼接向量；

将所述两个拼接向量，分别作为所述Bi-LSTM模型两个方向上的输入参数，输入至所述Bi-LSTM模型；

对所述Bi-LSTM模型输出的正向隐藏层状态和反向隐藏层状态进行拼接，得到所述Bi-LSTM模型的隐藏层状态输出。

此外，根据本发明至少一个实施例，根据已标注标签的训练语句集，为训练语句集中的字生成字向量的步骤，包括：

根据已标注标签的训练语句集，构建包括多个字的字典，为字典中的每个字分配一个唯一的标识ID号；

对所述字典中的每个字所对应的ID号进行向量转换，生成该字的向量。

此外，根据本发明至少一个实施例，根据所述Bi-LSTM模型的隐藏层状态输出，并利用条件随机场模型进行标签预测训练的步骤，包括：

根据所述Bi-LSTM模型的隐藏层状态输出，在条件随机场模型中计算标签序列的最大似然估计，利用训练数据中每个字对应的标签，计算条件随机场的损失，并将条件随机场的损失作为Bi-LSTM模型的损失，进行联合模型的训练，所述联合模型包括所述两层自注意力模型、Bi-LSTM模型和条件随机场模型。

此外，根据本发明至少一个实施例，所述的序列标注的训练方法还包括：

利用训练得到的联合模型，对待标注语句进行标注。

本发明实施例还提供了一种序列标注的训练装置，包括：

字向量生成模块，用于根据已标注标签的训练语句集为训练语句集中的字生成字向量；

词边界特征生成模块，用于按照正向序列方向和反向序列方向，将所述训练语句中以当前字向量为边界的多个字向量序列，输入至两层自注意力模型，生成当前字向量在不同序列方向上的词边界特征向量；

模型训练模块，用于将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接后输入至双向长短期记忆Bi-LSTM模型，获得所述Bi-LSTM模型的隐藏层状态输出；以及，根据所述Bi-LSTM模型的隐藏层状态输出，并利用条件随机场模型进行标签预测训练。

此外，根据本发明至少一个实施例，所述模型训练模块，还用于将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接，得到两个拼接向量；将所述两个拼接向量，分别作为所述Bi-LSTM模型两个方向上的输入参数，输入至所述Bi-LSTM模型；对所述Bi-LSTM模型输出的正向隐藏层状态和反向隐藏层状态进行拼接，得到所述Bi-LSTM模型的隐藏层状态输出。

此外，根据本发明至少一个实施例，所述模型训练模块，还用于根据所述Bi-LSTM模型的隐藏层状态输出，在条件随机场模型中计算标签序列的最大似然估计，利用训练数据中每个字对应的标签，计算条件随机场的损失，并将条件随机场的损失作为Bi-LSTM模型的损失，进行联合模型的训练，所述联合模型包括所述两层自注意力模型、Bi-LSTM模型和条件随机场模型。

本发明实施例还提供了一种序列标注的训练装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的序列标注的训练方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的序列标注的训练方法的步骤。

与现有技术相比，本发明实施例提供的序列标注的训练方法、装置及计算机可读存储介质，使用自注意力机制自动学习字的词边界特征信息，从而无需依赖其他分词工具或词典就可以在序列标注中引入词边界特征信息，简化了序列标注的实现，提高了序列标注效率和准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的序列标注的训练方法的一种流程示意图；

图2为本发明实施例中生成词边界特征向量的一个示例图；

图3为本发明实施例的序列标注的训练装置的一种结构示意图；

图4为本发明实施例的序列标注的训练装置的另一种结构示意图；

图5为本发明实施例的序列标注的训练装置的又一结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例提供的序列标注的训练方法，特别适用于没有明显分词特征的语言中进行序列标注，并支持各种序列化标注任务，例如，对包括有中文、日文或韩文等语句进行序列标注，该方法能够简化序列标注的实现，提高序列标注的效率。请参照图1，给出了本发明实施例提供的序列标注的训练方法的一种流程示意图，如图1所示，本发明实施例提供的序列标注的训练方法包括：

步骤11，根据已标注标签的训练语句集，为训练语句集中的字生成字向量。

这里，本发明实施例可以预先获取已完成标签标注的多个训练语句，这些训练语句形成了一个训练语句集。本发明实施例可以基于该训练语句集进行序列标注模型的训练。训练语句集中的训练语句的数量，可以根据标签标注的应用场景来设置，通常，专业性较强的领域，如医学领域的医学术语的标注，可能需要较多数量的训练语句，以获得较好的训练效果。

在获得训练语句集之后，本发明实施例可以基于该训练语句集，构建一个基于字的字典，例如，统计所述训练语句集中的各个字的出现频次，并将出现频次大于某个预设门限的字加入到该字典中，从而生成了一个基于字的字典。在获得上述字典后，本发明实施例可以为字典中的每个字分配一个唯一的标识(ID)号，用于代表该字。然后，对所述字典中的每个字所对应的ID号进行向量转换，生成该字的字向量。具体的，本发明实施例可以采用诸如词到向量(word2vec)算法、卷积神经网络(CNN)、递归神经网络(RNN)、双向编码器表示(BERT，Bidirectional Encoder Representation from Transformers)算法或随机初始化等算法，对上述ID号进行向量转换，生成字对应的向量，即字向量。

步骤12，按照正向序列方向和反向序列方向，将所述训练语句中以当前字向量为边界的多个字向量序列，输入至两层自注意力模型，生成当前字向量在不同序列方向上的词边界特征向量。

这里，在获得字向量后，可以将训练语句中的字替换为对应的字向量，这样，训练语句可以转换成具有先后次序的多个字向量组成的序列，例如训练语句X可以表示为：

X＝(x₁,x₂,…,x_n)

其中，x_i表示训练语句中的第i个字，训练语句X可以通过字序列x₁,x₂,…,x_n来表示。通过将上述字替换为对应的字向量，可以将训练语句X表示为：

其中，

为字x_i对应的字向量。训练语句X也可以通过字向量序列

来表示。

上述字序列x₁,x₂,…,x_n和字向量序列

都是按照正向序列方向，将训练语句X中的各个字或字向量从前到后顺序排列得到的。如果按照反向序列方向，上述训练语句X对应的字序列和字向量序列分别为x_n,x_n-1,…,x₁和

为了获得字向量的词边界特征，本发明实施例引入了一个两层的自注意力模型，具体的，第一层包括有P-1个自注意力模型，第二层包括有1个自注意力模型，所述P为大于或等于3的整数。

其中，所述P-1个第一层自注意力模型的输入分别为长度2到P的字向量序列，所述字向量序列为从所述训练语句中的第一字向量开始，截止到所述当前字向量的序列，所述第一字向量为按照序列方向位于当前字向量之前的字向量。所述第二层自注意力模型的输入为所述P-1个第一层自注意力模型的输出，第二层自注意力模型的输出作为当前字向量的词边界特征向量。这里，字向量序列的长度是指该字向量序列包含的字向量的数量。

图2给出了两层自注意力模型及其生成词边界特征向量的一个示例。该示例中，训练语句或待标注语句对应的字序列为x₁,x₂,…,x_n，第一层自注意力模型包括有3个自注意力模型，第一层自注意力模型的输出作为第二层自注意力模型的输入。图2中以当前字向量为

为例，给出了按照序列正向方向，将以当前字向量

为边界的多个字向量序列，输入至两层自注意力模型，以生成当前字向量

的词边界特征向量Bun₉。此时，3个第一层自注意力模型的输入分别是长度2、3和4的字向量序列，这些字向量序列的起始字向量为在序列正向方向上位于

之前的字向量，分别为：字向量序列

字向量序列

字向量序列

需要说明的是，图2示出的是在正向序列方向上，将以当前字向量为边界的多个字向量序列输入至两层自注意力模型的示例。本发明实施例还同时获取在反向序列方向上，将以当前字向量为边界的多个字向量序列输入至两层自注意力模型，仍以当前字向量为

为例，在反向序列方向上，此时3个第一层自注意力模型的输入分别是长度2、3和4的字向量序列，这些字向量序列的起始字向量为在反向序列方向上位于

之前的字向量，分别为：字向量序列

字向量序列

字向量序列

考虑到序列长度是有限的，另外，某个时刻当前字向量之前的字向量可能不足，因此在第一层自注意力模型的输入的字向量序列长度不足的情况下，可以通过全0向量进行长度填充，保证字向量序列长度满足该自注意力模型对输入字向量序列长度的要求。

例如，在应用于命名实体识别时，对于一个给定的句子X＝(x₁,x₂,…,x_n)和一个外部实体词典，本发明实施例可以使用预先定义的特征模板，基于x_t的上下文构造字向量序列(也可以称作文本段)。表1列出了特征模板的若干示例，其中，n-gram表示该模板包括有n个字或字向量。当序列正向输入两层自注意力模型时，使用表1中的“模板→”；当序列反向输入两层自注意力模型时，使用表1中的“模板←”。

类型	模板→	模板←
			2-gram	x<sub>t-1</sub>x<sub>t</sub>	x<sub>t</sub>x<sub>t+1</sub>
3-gram	x<sub>t-2</sub>x<sub>t-1</sub>x<sub>t</sub>	x<sub>t</sub>x<sub>t+1</sub>x<sub>t+2</sub>
			…	…	…
n-gram	x<sub>t-n+1</sub>x<sub>t-n+2</sub>…x<sub>t</sub>	x<sub>t</sub>x<sub>t+1</sub>…x<sub>t+n-1</sub>

表1

然后，根据序列输入的方向和特征模板，以当前字向量为结束边界，根据特征模板长度，将不同长度的特征模板组合的字向量序列输入到两层自注意力模型中，得到当前字向量的词边界特征向量表示。如果从0时刻输入到当前字序列的长度小于特征模板的长度，则以全0向量进行长度补充。

通过以上步骤12，本发明实施例利用自注意机制获取了一组字向量序列(线性组合)的向量的表示。其中，第一层自注意力模型以基于特征模板生成的不同个数的字向量序列作为输入，为每个字向量序列产生一个权重矩阵：

A_l＝p＝softmax(w₁₂tanh(w₁₁V^T))

其中，V为字向量序列的词字向量，例如特征模板为x₆x₇x₈x₉时，则

为字x_t对应的字向量。w₁₁为权重矩阵，w₁₂为向量参数，p为特征模板的长度，即第一层自注意力模型输入的字向量序列的长度。

然后，每个第一层自注意力模型根据输入的以当前字为结尾的不同个数的字向量序列与权重矩阵A相乘，生成对应的向量表示Bun_l＝p：

Bun_l＝p＝V*A_l＝p

本发明实施例将这些向量表示作为第二层自注意力模型的输入，将第二层自注意力模型的输出作为当前字x_t的词边界特征向量，其计算过程如下：

Bun_t＝softmax(w₂₂tanh(w₂₁(Bun_l＝2,…,Bun_l＝P)^T))*(Bun_l＝2,…,Bun_l＝P)

这里，w₂₁为权重矩阵，w₂₂为向量参数。

通过以上步骤12，本发明实施例可以获得当前字向量的词边界特征向量，根据不同的序列输入方向，可以获得当前字向量在正向序列方向上的词边界特征向量

和当前字向量在反向序列方向上的词边界特征向量

自注意力计算是基于编码器的输入向量(如第一特征向量)生成3个向量，分别为查询向量Q、键向量K和值向量V，代表了query、key-value对。查询向量Q、键向量K、值向量V通常是由输入向量乘以不同维度的权重矩阵生成。根据query和key相似度计算注意力权重，然后根据注意力权重对value进行加权即得到注意力。注意力的计算公式为：

d_k为Q和K的维度

关于注意力计算的更多细节可以参考相关现有技术的介绍，为节约篇幅，本文不再详细说明。

步骤13，将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接后输入至双向长短期记忆(Bi-LSTM，Bi-directional Long Short-Term Memory)模型，获得所述Bi-LSTM模型的隐藏层状态输出。

这里，本发明实施例可以将当前字向量，分别和步骤12中获得的当前字向量在不同序列方向上的词边界特征向量进行拼接，得到两个拼接向量。然后，将所述两个拼接向量，分别作为所述Bi-LSTM模型两个方向上的输入参数，输入至所述Bi-LSTM模型。然后，对所述Bi-LSTM模型输出的正向隐藏层状态和反向隐藏层状态进行拼接，得到所述Bi-LSTM模型的隐藏层状态输出。以上过程可以通过以下公式表示：

其中，

为Bi-LSTM模型当前时刻输出的正向隐藏层状态，隐藏层状态

为当前字向量

在正向序列方向上的词边界特征向量，concat

表示对

和

进行拼接，

为Bi-LSTM模型上一时刻输出的正向隐藏层状态。类似的，

为Bi-LSTM模型当前时刻输出的反向隐藏层状态，隐藏层状态

为当前字向量

在反向序列方向上的词边界特征向量，

为Bi-LSTM模型上一时刻输出的反向隐藏层状态。

步骤14，根据所述双向LSTM模型的隐藏层状态输出，并利用条件随机场模型进行标签预测训练。

这里，本发明实施例可以根据所述Bi-LSTM模型的隐藏层状态输出，在条件随机场模型中计算标签序列的最大似然估计，利用训练数据中每个字对应的标签，计算条件随机场的损失，并将条件随机场的损失作为Bi-LSTM模型的损失，进行联合模型的训练，所述联合模型包括上述的两层自注意力模型、Bi-LSTM模型和条件随机场模型。

例如，对于一个给定的句子

具有预测标记序列y＝(y₁,y₂,…,y_n)，其预测分数s(X,y)可定义为：

其中，A为转移得分矩阵，A_i,j表示标签i到标签j的转移得分。

表示

映射到第y_t个标记的得分。P_t可定义为公式P_t＝W_sh_t+b_s，其中h_t为Bi-LSTM的隐藏层状态输出，W_s和b_s是可训练参数。

这样，句子X被标注为序列y的概率可以计算为：

Y_X为给定的句子X所有可能的标注序列

这里可以使用最大似然估计算法，最大化标签序列

的似然率对数

然后，在标签序列中找到最高条件概率的y来对序列进行标签标注：

这里，可以基于训练语句集进行多轮训练，直至达到预设的训练结束条件(收敛条件)，得到最终的最优模型。

通过以上步骤，本发明实施例使用自注意力机制自动学习字的词边界特征信息，无需依赖其他分词工具或词典，提升了词边界特征的生成效率，简化了序列标注的实现，提高了序列标注效率。

在上述步骤14之后，本发明实施例还可以利用训练得到的联合模型，对待标注语句进行标注。例如，在进行命名实体标注时，可以在解码时找到最高条件概率的y来序列化标注的输出。由于本发明实施例通过自注意力机制引入了词边界特征信息，其所训练得到的模型具有较好的标注效果，可以提高序列标注的准确性。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图3，本发明实施例提供的序列标注的训练装置300，该序列标注的训练装置300可以应用于各种序列标注场景中，能够简化序列标注模型的训练，提高序列标注的效率和准确性。如图3所示，该序列标注的训练装置300具体包括：

字向量生成模块301，用于根据已标注标签的训练语句集，为训练语句集中的字生成字向量。

词边界特征生成模块302，用于按照正向序列方向和反向序列方向，将所述训练语句中以当前字向量为边界的多个字向量序列，输入至两层自注意力模型，生成当前字向量在不同序列方向上的词边界特征向量。

模型训练模块303，用于将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接后输入至双向长短期记忆Bi-LSTM模型，获得所述Bi-LSTM模型的隐藏层状态输出；以及，根据所述Bi-LSTM模型的隐藏层状态输出，并利用条件随机场模型进行标签预测训练。

此外，根据本发明至少一个实施例，所述两层自注意力模型包括P-1个第一层自注意力模型和1个第二层自注意力模型，其中：所述P-1个第一层自注意力模型的输入分别为长度2到P的字向量序列，所述字向量序列为从所述训练语句中的第一字向量开始，截止到所述当前字向量的序列，所述第一字向量为按照序列方向位于当前字向量之前的字向量，所述P为大于或等于3的整数；所述第二层自注意力模型的输入为所述P-1个第一层自注意力模型的输出，第二层自注意力模型的输出作为当前字向量的词边界特征向量。

此外，根据本发明至少一个实施例，所述模型训练模块303，还用于将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接，得到两个拼接向量；将所述两个拼接向量，分别作为所述Bi-LSTM模型两个方向上的输入参数，输入至所述Bi-LSTM模型；对所述Bi-LSTM模型输出的正向隐藏层状态和反向隐藏层状态进行拼接，得到所述Bi-LSTM模型的隐藏层状态输出。

此外，根据本发明至少一个实施例，所述字向量生成模块301，还用于根据已标注标签的训练语句集，构建包括多个字的字典，为字典中的每个字分配一个唯一的标识ID号；对所述字典中的每个字所对应的ID号进行向量转换，生成该字的向量。

此外，根据本发明至少一个实施例，所述模型训练模块303，还用于根据所述Bi-LSTM模型的隐藏层状态输出，在条件随机场模型中计算标签序列的最大似然估计，利用训练数据中每个字对应的标签，计算条件随机场的损失，并将条件随机场的损失作为Bi-LSTM模型的损失，进行联合模型的训练，所述联合模型包括所述两层自注意力模型、Bi-LSTM模型和条件随机场模型。

通过以上模块，本发明实施例的序列标注的训练装置不需要依赖于分词工具或词典，即可将词边界特征引入到序列标注，可以简化序列标注的实现，提高序列标注的效率和准确性。

请参考图4，本发明实施例提供的另一种序列标注的训练装置400，该序列标注的训练装置400包括：

字向量生成模块401，用于根据已标注标签的训练语句集，为训练语句集中的字生成字向量。

词边界特征生成模块402，用于按照正向序列方向和反向序列方向，将所述训练语句中以当前字向量为边界的多个字向量序列，输入至两层自注意力模型，生成当前字向量在不同序列方向上的词边界特征向量。

模型训练模块403，用于将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接后输入至双向长短期记忆Bi-LSTM模型，获得所述Bi-LSTM模型的隐藏层状态输出；以及，根据所述Bi-LSTM模型的隐藏层状态输出，并利用条件随机场模型进行标签预测训练。

序列标注模块404，用于利用训练得到的联合模型，对待标注语句进行标注。

这里，以上字向量生成模块401、词边界特征生成模块402和模型训练模块403，与图3中的字向量生成模块301、词边界特征生成模块302和模型训练模块303功能类似，此处不再赘述。

通过以上序列标注模块404，本发明实施例可以利用训练得到的模型进行序列标注，提高序列标注的准确性和效率。

请参考图5，本发明实施例还提供了序列标注的训练装置的一种硬件结构框图，如图5所示，该序列标注的训练装置500包括：

处理器502；和

存储器504，在所述存储器504中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器502执行以下步骤：

进一步地，如图5所示，该序列标注的训练装置500还可以包括网络接口501、输入设备503、硬盘505、和显示设备506。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器502代表的一个或者多个中央处理器(CPU)，以及由存储器504代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口501，可以连接至网络(如因特网、局域网等)，从网络中接收数据(如训练语句)，并可以将接收到的数据保存在硬盘505中。

所述输入设备503，可以接收操作人员输入的各种指令，并发送给处理器502以供执行。所述输入设备503可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等)。

所述显示设备506，可以将处理器502执行指令获得的结果进行显示，例如显示序列标注的结果等。

所述存储器504，用于存储操作系统运行所必须的程序和数据，以及处理器502计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器504可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器504旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器504存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统5041和应用程序5042。

其中，操作系统5041，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5042，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5042中。

本发明上述实施例揭示的序列标注的训练方法可以应用于处理器502中，或者由处理器502实现。处理器502可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述序列标注的训练方法的各步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器502可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器504，处理器502读取存储器504中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器502执行时还可实现如下步骤：

利用训练得到的联合模型，对待标注语句进行标注。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的序列标注的训练方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种序列标注的训练方法，其特征在于，包括：

2.如权利要求1所述的序列标注的训练方法，其特征在于，

所述两层自注意力模型包括P-1个第一层自注意力模型和1个第二层自注意力模型，其中：

3.如权利要求1所述的序列标注的训练方法，其特征在于，将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接后输入至双向长短期记忆Bi-LSTM模型，获得所述Bi-LSTM模型的隐藏层状态输出的步骤，包括：

4.如权利要求1所述的序列标注的训练方法，其特征在于，根据已标注标签的训练语句集，为训练语句集中的字生成字向量的步骤，包括：

5.如权利要求1所述的序列标注的训练方法，其特征在于，根据所述Bi-LSTM模型的隐藏层状态输出，并利用条件随机场模型进行标签预测训练的步骤，包括：

6.如权利要求5所述的序列标注的训练方法，其特征在于，还包括：

利用训练得到的联合模型，对待标注语句进行标注。

7.一种序列标注的训练装置，其特征在于，包括：

字向量生成模块，用于根据已标注标签的训练语句集，为训练语句集中的字生成字向量；

8.如权利要求7所述的序列标注的训练装置，其特征在于，

9.如权利要求7所述的序列标注的训练装置，其特征在于，

所述模型训练模块，还用于将当前字向量分别和当前字向量在不同序列方向上的词边界特征向量拼接，得到两个拼接向量；将所述两个拼接向量，分别作为所述Bi-LSTM模型两个方向上的输入参数，输入至所述Bi-LSTM模型；对所述Bi-LSTM模型输出的正向隐藏层状态和反向隐藏层状态进行拼接，得到所述Bi-LSTM模型的隐藏层状态输出。

10.如权利要求7所述的序列标注的训练装置，其特征在于，

所述模型训练模块，还用于根据所述Bi-LSTM模型的隐藏层状态输出，在条件随机场模型中计算标签序列的最大似然估计，利用训练数据中每个字对应的标签，计算条件随机场的损失，并将条件随机场的损失作为Bi-LSTM模型的损失，进行联合模型的训练，所述联合模型包括所述两层自注意力模型、Bi-LSTM模型和条件随机场模型。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的序列标注的训练方法的步骤。