CN111737999A

CN111737999A - 一种序列标注方法、装置、设备及可读存储介质

Info

Publication number: CN111737999A
Application number: CN202010591943.1A
Authority: CN
Inventors: 周楠楠; 汤耀华; 杨海军; 徐倩
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-02

Abstract

本公开涉及自然语言处理技术领域，特别涉及一种序列标注方法、装置、设备及可读存储介质，用于提高序列标注的准确率，该方法为：针对待识别语句中包含的每一个分词，采用预先训练的字向量生成模型和预设的词向量生成模型，分别生成一个分词对应的第一词向量和第二词向量，并采用预先训练的权重系数，结合第一词向量和第二词向量，生成一个分词对应的第三词向量，然后，采用预先训练的序列标注模型，生成序列标注结果。这样，通过采用预先训练的权重系数进行词向量的融合，并将融合生成的第三词向量，作为序列标注模型的输入，优化了序列标注的处理过程，提高了序列标注的准确率、处理效率。

Description

一种序列标注方法、装置、设备及可读存储介质

技术领域

本公开涉及自然语言处理技术领域，特别涉及一种序列标注方法、装置、设备及可读存储介质。

背景技术

序列标注是自然语言处理中一项基本且重要的问题，其涵盖范围广泛，可用于解决一系列对字符进行分类的问题，如分词、词性标注、命名实体识别、关系抽取等。

目前，在进行序列标注时，通常采用字粒度的特征方式进行序列标注。然而，只考虑字粒度的特征方式，导致序列特征考虑的维度单一，从而造成序列标注存在误差，导致序列标注的准确性较低。

由此可见，需要设计一种新的方案，以克服上述缺陷。

发明内容

本公开的主要目的在于提供一种序列标注方法、装置、设备及可读存储介质，旨在优化序列标注的处理过程，提高序列标注的准确率。

为实现上述目的，本公开提供一种序列标注方法，所述序列标注方法包括：

获取待识别语句，并对所述待识别语句进行分词处理，以确定所述待识别语句中包含的各个分词；

采用预先训练的字向量生成模型，生成所述各个分词分别对应的第一词向量；

采用预设的词向量生成模型，生成所述各个分词分别对应的第二词向量；

基于预先训练的权重系数，结合所述第一词向量和第二词向量，生成所述各个分词分别对应的第三词向量；

基于获得的各个分词分别对应的第三词向量，采用预先训练的序列标注模型，生成序列标注结果。

可选的，获取待识别语句之前，进一步包括：

获取若干样本数据，并对所述若干样本数据标注相应的真实标注结果；

采用循环迭代的方式，针对各个样本数据，执行以下操作，直到满足预设的收敛条件为止：

对一个样本数据进行预处理，生成一个样本语句；

采用初始字向量生成模型、所述词向量生成模型、初始权重系数、初始序列标注模型，生成所述一个样本语句对应的预测标注结果；

基于所述预测标注结果，以及所述一个样本数据对应的真实标注结果，对所述初始字向量生成模型和所述初始序列标注模型进行训练；

基于所述预测标注结果，以及所述真实标注结果，对所述初始权重系数进行训练；

确定满足预设的收敛条件时，输出训练后的字向量生成模型、序列标注模型、权重系数。

可选的，基于所述预测标注结果，以及所述一个样本数据对应的真实标注结果，对所述初始字向量生成模型、所述初始权重系数、所述初始序列标注模型进行训练，具体包括：

将所述预测标注结果与所述一个样本数据对应的真实标注结果进行对比；

确定所述预测标注结果与所述真实标注结果之间存在误差时，根据所述误差对所述初始字向量生成模型和所述初始序列标注模型中包含的各个参数进行调整。

可选的，基于所述预测标注结果，以及所述真实标注结果，对所述初始权重系数进行训练，具体包括：

确定所述预测标注结果与所述真实标注结果之间存在误差时，根据所述误差对所述初始权重系数进行调整，其中，所述初始权重系数至少包含缩放参数或单项权重中的任一项或组合，所述缩放参数用于表征一个分词对应的第一词向量和第二词向量的加和的整体权重，所述单项权重用于表征所述各个分词对应的各个词向量的权重。

可选的，基于预先训练的权重系数，结合所述第一词向量和第二词向量，生成所述各个分词分别对应的第三词向量，具体包括：

基于所述预先训练的权重系数中包含的单项权重，对所述第一词向量和所述第二词向量进行加权求和，得到相应的整体值；

基于所述预先训练的权重系数中包含的缩放参数，将所述整体值进行调整，得到所述各个分词分别对应的第三词向量；

其中，所述预先训练的权重系数是基于样本语句的各分词对应的第一词向量和第二词向量，对所述样本语句的标注结果的影响权重进行学习得到的。

可选的，获取待识别语句之前，进一步包括：

获取待处理数据，并确定所述待处理数据的语句长度；

若所述语句长度未达到预设的固定语句长度，则采用预设的字符对所述待处理数据进行填补，生成待识别语句；

若所述语句长度超过预设的固定语句长度时，则将所述待处理数据中超过所述固定语句长度的部分进行截断，生成待识别语句；

若所述语句长度达到预设的固定语句长度时，则直接将所述待处理数据作为待识别语句。

可选的，基于预先训练的字向量生成模型，生成各个分词对应的第一词向量，具体包括：

采用预先训练的字向量生成模型，确定所述各个分词中包含的各个字分别对应的各个字向量；

基于所述各个字向量，采用池化操作，生成所述各个分词对应的第一词向量。

此外，为实现上述目的，本公开还提供一种序列标注装置，所述序列标注装置包括：

第一处理单元，用于获取待识别语句，并对所述待识别语句进行分词处理，以确定所述待识别语句中包含的各个分词；

第二处理单元，用于采用预先训练的字向量生成模型，生成所述各个分词分别对应的第一词向量；

第三处理单元，用于采用预设的词向量生成模型，生成所述各个分词分别对应的第二词向量；

第四处理单元，用于基于预先训练的权重系数，结合所述第一词向量和第二词向量，生成所述各个分词分别对应的第三词向量；

第五处理单元，用于基于获得的各个分词分别对应的第三词向量，采用预先训练的序列标注模型，生成序列标注结果。

此外，为实现上述目的，本公开还提供一种序列标注装置，所述序列标注装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的序列标注程序，所述序列标注程序被所述处理器执行时实现如上述任一项所述的序列标注方法的步骤。

此外，为实现上述目的，本公开还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有序列标注程序，所述序列标注程序被处理器执行时实现如上述任一项所述的序列标注方法的步骤。

综上所述，针对待识别语句中包含的各个分词，采用预先训练的字向量生成模型和预设词向量生成模型，分别生成各个分词对应的第一词向量和第二词向量，然后，采用预先训练的权重系数，结合第一词向量和第二词向量，生成各个分词对应的第三词向量，之后，基于各个分词对应的第三词向量，采用预先训练的序列标注模型，生成序列标注结果。这样，通过采用预先训练的权重系数进行词向量的融合，不仅考虑到了词向量这一维度的特征，优化了序列标注的处理过程，提高了序列标注的准确率，同时，通过将词向量融合生成的第三词向量，作为序列标注模型的输入，从而进一步提升了序列标注的准确率，并减少了序列标注过程的数据处理时长，提高了序列标注的处理效率。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例中提供的一种模型训练方法的流程示意图；

图2为本公开实施例中提供的一种序列标注方法的流程示意图；

图3为本公开实施例中提供的一种序列标注装置的逻辑架构示意图；

图4为本公开实施例中提供的一种序列标注装置的实体架构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了进一步提高序列标注的准确率，本公开实施例中，针对待识别语句中包含的各个分词，分别采用预先训练的字向量生成模型、预设的词向量生成模型，生成各个分词对应的第一词向量、第二词向量，然后，基于预先训练的权重系数，结合第一词向量和第二词向量，生成各个分词对应的第三词向量，接着，基于获得的各个分词对应的第三词向量，采用预先训练的序列标注模型，生成序列标注结果。

下面结合附图对本公开优先的实施方式做出进一步详细说明。

本公开实施例中，序列标注包括但不限于是指分词、词性标注、命名实体识别、关系抽取等，为了便于描述，下文中，仅以命名实体识别为例进行说明。

参阅图1所示，本公开实施例中，对字向量生成模型、权重系数、序列标注模型的训练流程如下：

S101：获取若干样本数据，并对若干样本数据标注相应的真实标注结果。

例如，获取样本数据1{小明今天去银行还款两千元}、样本数据2{小明于 2020年2月2日在北京体育馆看球赛}，并对样本数据1、样本数据2标注相应的真实标注结果1、真实标注结果2，其中，真实标注结果1表征样本数据1中“小明”为人名、“今天”为时间、“银行”为机构名、“两千元”为货币量，真实标注结果2表征样本数据2中“小明”为人名、“2020年2月2日”为时间、 “北京体育馆”为机构名。

需要说明的是，本公开实施例中，采用循环迭代的方式，基于若干样本数据，对初始字向量生成模型、初始权重系数、初始序列标注模型进行训练，直到满足预设的收敛条件为止。

在每一次的迭代过程中，采用批处理的形式进行模型训练，即，根据预设的批处理大小，确定每一次读取相应数目的样本数据进行模型训练。

例如，假设，预设的批处理大小为32，确定每一次读取32个样本数据进行模型训练。

又例如，假设，预设的批处理大小为64，确定每一次读取64个样本数据进行模型训练。

为了便于描述，下文中，仅以读取一个样本数据为例，对训练过程进行说明。

S102：读取一个样本数据，并对一个样本数据进行预处理，生成一个样本语句。

具体的，读取一个样本数据，并确定一个样本数据的语句长度。

例如，读取样本数据1{小明今天去银行还款两千元}，并确定样本数据1 的语句长度为12个字符。

本公开实施例中，基于一个样本数据的语句长度，存在但不限于以下几种情况：

第一种情况：一个样本数据的语句长度未达到预设的固定语句长度。

若一个样本数据的语句长度未达到预设的固定语句长度，则采用预设的字符对一个样本数据进行填补，生成一个样本语句。

例如，假设，预设的固定语句长度为128个字符，预设的字符为[PAD]，样本数据1的语句长度为12个字符，此时，样本数据1的语句长度未达到128个字符，采用[PAD]对样本数据1进行填补，生成样本语句1。

第二种情况：一个样本数据的语句长度达到预设的固定语句长度。

若一个样本数据的语句长度超过预设的固定语句长度，则将一个样本数据超过固定语句长度的部分进行截断，生成一个样本语句。

例如，假设，预设的固定语句长度为128个字符，样本数据2的语句长度为130个字符，此时，样本数据2的语句长度超过128个字符，将样本数据2超过128个字符的部分进行截断，生成样本语句2。

第三种情况：一个样本数据的语句长度达到预设的固定语句长度。

若一个样本数据的语句长度达到预设的固定语句长度时，则直接将一个样本数据作为一个样本语句。

例如，假设，预设的固定语句长度为128个字符，样本数据3的语句长度为128个字符，则直接将样本数据3作为样本语句3。

需要说明的是，本公开实施例中，在确定一个样本数据的语句长度之前，基于预设的句首标签和预设的句末标签，在一个样本数据的句首设置句首标签，在一个样本数据的句末设置句末标签。

例如，假设，预设的句首标签为[CLS]，预设的句末标签为[SEP]，针对样本数据1，基于[CLS]和[SEP]，在样本数据1的句首设置[CLS]，在一个样本数据的句末设置[SEP]。

S103、采用初始字向量生成模型、预设的词向量生成模型、初始权重系数、初始序列标注模型，生成一个样本语句对应的预测标注结果。

具体的，基于一个样本语句，采用预设的分词算法，确定样本语句中包含的各个分词。

需要说明的是，本公开实施例中，预设的分词算法可以采用但不限于结巴分词、汉语言处理(Han Language Processing，Hanlp)分词、语言技术平台 (LanguageTechnology Plantform，LTP)分词，本公开对此限定。

例如，基于样本语句1，采用结巴分词，确定样本语句1中包含分词1“小明”、分词2“今天”、分词3“去”、分词4“银行”、分词5“还款”、分词6“两千元”。

分别针对每一个分词，执行以下操作：

A1、采用初始字向量生成模型，生成一个分词对应的第一词向量。

需要说明的是，本公开实施例中，字向量生成模型为来自转换器的双向编码器表示(Bidirectional Encoder Representation from Transformers，BERT) 模型。

具体的，采用初始字向量生成模型，确定一个分词中包含的各个字分别对应的各个字向量。

例如，采用初始BERT模型，确定分词5“还款”中，“还”对应的字向量1，“款”对应的字向量2，其中，字向量1和字向量2均为768维。

由于向量维度过高，下文中，仅以各个向量的前3维为例，进行说明。

确定一个分词中包含的各个字分别对应的各个字向量之后，可采用但不限于以下两种方式，生成一个分词对应的第一词向量：

第一种方式：基于各个字向量，采用最大值池化操作，生成一个分词对应的第一词向量。

例如，假设，字向量1的前3维的取值为0.4、0.6、0.8，,字向量2的前3维的取值为0.3、0.7、0.8，那么，基于字向量1和字向量2，采用最大值池化操作，生成分词5“还款”对应的第一词向量w_5，1，其中，w_5，1的前3维的取值为0.4、 0.7、0.8。

第二种方式：基于各个字向量，采用平均值池化操作，生成一个分词对应的第一词向量。

例如，假设，字向量1的前3维的取值为0.4、0.6、0.8，,字向量2的前3维的取值为0.3、0.7、0.8，那么，基于字向量1和字向量2，采用平均值池化操作，生成分词5“还款”对应的第一词向量w_5，1，其中，w_5，1的前3维的取值为0.35、 0.65、0.8。

A2、采用预设的词向量生成模型，生成一个分词对应的第二词向量。

需要说明的是，本公开实施例中，词向量生成模型可采用但不限于嵌入式语言模型(Embedding from Language Model，ELMo)模型、词的向量化表示(Global Vectors forword representation，GloVe)模型等。

例如，采用ELMo模型，生成分词5“还款”对应的第二词向量w_5，2，其中，w_5，2的前3维的取值为0.75、0.65、0.4。

A3、基于初始权重系数，结合第一词向量和第二词向量，生成一个分词对应的第三词向量。

本公开实施例中，采用以下公式确定一个分词对应的第三词向量w_i：

其中，缩放参数γ_i表示第i个分词对应的第一词向量和第二词向量的加和的整体权重，单项权重α_i，j表示第i个分词的第j个词向量的权重，w_i，j表示第i 个分词的第j个词向量。

需要说明的是，本公开实施例中，权重系数至少包含γ_i或α_i，j中的任一项或组合，下文中，仅以权重系数为γ_i和为例进行说明。

例如，假设，初始γ₅的取值为1，初始α_5，1的取值为0.5，初始α_5，2的取值为0.5，w_5，1的前3维的取值为0.35、0.65、0.8，w_5，2的前3维的取值为0.75、 0.65、0.4，结合w_5，1和w_5，2，生成分词5“还款”对应的第三词向量w₅，其中， w₅的前3维的取值为0.55、0.65、0.6。

确实各个分词对应的第三词向量之后，基于获得的各个分词对应的第三词向量，采用初始序列标注模型，生成一个样本语句对应的预测标注结果。

本公开实施例中，序列标注模型采用双向循环神经网络(BidirectionalRecurrent Neural Network，BiRNN)+条件随机场(Conditional Random Fields， CRF)模型，其中，BiRNN包含但不限于双向长短期记忆网络(Bidirectional Long Short-TermMemory，BiLSTM)、双向门控循环单元(Bidirection Gated Recurrent Unit，BiGRU)。

例如，确定分词1、分词2、分词3、分词4、分词5、分词6对应的w₁、w₂、 w₃、w₄、w₅、w₆之后，基于样本语句1的w₁、w₂、w₃、w₄、w₅、w₆，采用初始BiLSTM+CRF模型，生成样本语句1对应的预测标注结果1，预测标注结果1 表征样本数据1中“小明”为人名、“银行”为机构名。

S104：判断预测标注结果与真实标注结果之间是否存在误差，若是，则执行步骤S105，否则，执行步骤S107。

具体的，将预测标注结果与一个样本数据对应的真实标注结果进行对比，判断预测标注结果与真实标注结果之间是否存在误差。

例如，预测标注结果1表征样本数据1中“小明”为人名、“银行”为机构名，真实标注结果1表征样本数据1中“小明”为人名、“今天”为时间、 “银行”为机构名、“两千元”为货币量，将预测标注结果1，与样本数据1 对应的真实标注结果1进行对比，判断预测标注结果1与真实标注结果1之间存在误差，执行步骤S105。

S105：根据误差对初始字向量生成模型和初始序列标注模型中包含的各个参数进行调整。

需要说明的是，本公开实施例中，对初始字向量生成模型和初始序列标注模型中包含的各个参数进行调整，也可以理解为对初始字向量生成模型和初始序列标注模型中包含的各个函数进行调整。

例如，将预测标注结果1，与样本数据1对应的真实标注结果1进行对比，确定预测标注结果1与真实标注结果1之间存在误差时，根据误差对初始BERT 模型和初始BiLSTM+CRF模型中包含的各个参数进行调整，仅以初始BERT模型中用于生成相应的嵌入的position_embeddings函数为例，对 position_embeddings函数进行调整，仅以初始BiLSTM+CRF模型中转移分数 (transition score)函数为例，对transition score函数进行调整。

S106：根据误差对初始权重系数进行调整。

例如，将预测标注结果1，与样本数据1对应的真实标注结果1，确定预测标注结果与真实标注结果1之间存在误差时，对初始γ_i和初始进行调整。

S107：判断是否满足预设的收敛条件，若是，则执行步骤S108，否则，执行步骤S102。

具体的，本公开实施例中，可采用但不限于以下方式判定满足预设的收敛条件：

第一种方式：确定连续N次迭代过程中，每一次迭代过程中样本数据的预测准确率与前一次迭代过程中样本数据的预测准确率之间的差值，满足预设的准确率差值范围时，确定满足预设的收敛条件。

需要说明的是，本公开实施例中，N的取值可根据实际应用场景进行设定。

例如，假设，N的取值为2，预设的准确率差值范围为1％-5％，第10次迭代过程中样本数据的预测准确率1为80％，第9次迭代过程中样本数据的预测准确率2为75％，第8次迭代过程中样本数据的预测准确率3为70％，显然，第10 次迭代过程中样本数据的预测准确率1与第9次迭代过程样本数据的预测准确率2之间的差值为5％，第9次迭代过程中样本数据的预测准确率2与第8次迭代过程样本数据的预测准确率3之间的差值为5％，此时，确定连续2次迭代过程中，每一次迭代过程中样本数据的预测准确率与前一次迭代过程中样本数据的预测准确率之间的差值，满足预设的1％-5％，那么，判定满足预设的收敛条件。

第二种方式：确定连续M次迭代过程中，每一次迭代过程中样本数据的损失与前一次迭代过程中样本数据的损失之间的差值，满足预设的损失差值范围时，确定满足预设的收敛条件。

需要说明的是，本公开实施例中，M的取值可根据实际应用场景进行设定。

例如，假设，M的取值为3，预设的损失差值范围为2％-6％，第7次迭代过程中样本数据的损失1为24％，第6次迭代过程中样本数据的损失2为20％，第5 次迭代过程中样本数据的损失3为16％，第4次迭代过程中样本数据的损失4为 14％，显然，第7次迭代过程中样本数据的损失1与第6次迭代过程样本数据的损失2之间的差值为4％，第6次迭代过程中样本数据的损失2与第5次迭代过程样本数据的损失3之间的差值为4％，第5次迭代过程中样本数据的损失3与第4 次迭代过程样本数据的损失4之间的差值为2％，此时，确定连续3次迭代过程中，每一次迭代过程中样本数据的损失与前一次迭代过程中样本数据的损失之间的差值，满足预设的2％-6％，那么，确定满足预设的收敛条件。

第三种方式：确定当前迭代次数达到预设的最大迭代次数时，确定满足预设的收敛条件。

例如，假设，预设的最大迭代次数为10，确定当前迭代次数达到10时，确定满足预设的收敛条件。

S108：输出训练后的字向量生成模型、序列标注模型、权重系数。

例如，输出训练后的BERT模型、BiLSTM+CRF模型、γ_i和。

下面，采用训练得到的字向量生成模型、序列标注模型、权重系数，对序列标注过程进行说明。

参阅图2所示，本公开实施例中，进行序列标注的流程如下：

S201：获取待识别语句，并对待识别语句进行分词处理，以确定待识别语句中包含的各个分词。

具体的，获取待处理数据，并确定待处理数据的语句长度。

例如，获取待处理数据1{小王去公园锻炼}，并确定待处理数据1的语句长度为7个字符。

基于待处理数据的语句长度，存在但不限于以下几种情况：

第一种情况：待处理数据的语句长度未达到预设的固定语句长度。

若待处理数据的语句长度未达到预设的固定语句长度，则采用预设的字符对待处理数据进行填补，生成待识别语句。

例如，假设，预设的固定语句长度为128个字符，预设的字符为[PAD]，样本数据1的语句长度为12个字符，此时，待处理数据1的语句长度未达到128 个字符，采用[PAD]对待处理数据1进行填补，生成待识别语句1。

第二种情况：待处理数据的语句长度达到预设的固定语句长度。

若待处理数据的语句长度超过预设的固定语句长度，则将待处理数据超过固定语句长度的部分进行截断，生成待识别语句。

例如，假设，预设的固定语句长度为128个字符，待处理数据2的语句长度为140个字符，此时，待处理数据2的语句长度超过128个字符，将待处理数据2超过128个字符的部分进行截断，生成待识别语句2。

第三种情况：待处理数据的语句长度达到预设的固定语句长度。

若待处理数据的语句长度达到预设的固定语句长度时，则直接将待处理数据作为待识别语句。

例如，假设，预设的固定语句长度为128个字符，待处理数据3的语句长度为128个字符，则直接将待处理数据3作为待识别语句3。

需要说明的是，本公开实施例中，在确定待处理数据的语句长度之前，基于预设的句首标签和预设的句末标签，在一个待处理数据的句首设置句首标签，在一个待处理数据的句末设置句末标签。

例如，假设，预设的句首标签为[CLS]，预设的句末标签为[SEP]，针对待处理数据1，基于[CLS]和[SEP]，在待处理数据1的句首设置[CLS]，在一个待处理数据1的句末设置[SEP]。

生成待识别语句之后，对待识别语句进行分词处理，确定待识别语句中包含的各个分词。

需要说明的是，本公开实施例中，可以采用预设的分词算法对待识别语句进行分词处理，预设的分词算法可以但不限于采用结巴分词、Hanlp分词、 LTP分词等，本公开对此不做限定。

例如，基于待识别语句1，采用结巴分词，确定待识别语句1中包含分词1 “小王”、分词2“去”、分词3“公园”、分词4“锻炼”。

S202：采用预先训练的字向量生成模型，生成各个分词分别对应的第一词向量。

为了便于描述，下文中，仅以待识别语句中包含的一个分词为例，对第一词向量、第二词向量、第三词向量的生成过程进行说明。

需要说明的是，本公开实施例中，预先训练的字向量生成模型是指模型训练过程输出的字向量生成模型。

具体的，采用预先训练的字向量生成模型，确定一个分词中包含的各个字分别对应的各个字向量。

例如，采用预先训练的BERT模型，确定分词3“公园”中，“公”对应的字向量1，“园”对应的字向量2，其中，字向量1和字向量2均为768维。

例如，假设，字向量1的前3维的取值为0.1、0.2、0.3，,字向量2的前3维的取值为0.1、0.3、0.3，那么，基于字向量1和字向量2，采用最大值池化操作，生成分词3“公园”对应的第一词向量w_3，1，其中，w_3，1的前3维的取值为0.1、 0.3、0.3。

例如，假设，字向量1的前3维的取值为0.1、0.2、0.3，,字向量2的前3维的取值为0.1、0.3、0.3，那么，基于字向量1和字向量2，采用平均值池化操作，生成分词3“公园”对应的第一词向量w_3，1，其中，w_3，1的前3维的取值为0.1、 0.25、0.3。

S203：采用预设的词向量生成模型，生成各个分词分别对应的第二词向量。

需要说明的是，本公开实施例中，词向量生成模型可采用但不限于ELMo 模型、GloVe模型等。

例如，采用ELMo模型，生成分词3“公园”对应的第二词向量w_3，2，其中，w_3，2的前3维的取值为0.1、0.1、0.1。

S204：基于预先训练的权重系数，结合第一词向量和第二词向量，生成各个分词分别对应的第三词向量。

需要说明的是，本公开实施例中，预先训练的权重系数是指模型训练过程输出的权重系数。

其中，γ_i表示第i个分词对应的第一词向量和第二词向量的加和的整体权重，α_i，j表示第i个分词的第j个词向量的权重，w_i，j表示第i个分词的第j个词向量，本公开实施例中，权重系数为γ_i和。

例如，假设，预先训练的γ₃的取值为1，预先训练的的取值为0.5，预先训练的的取值为0.5，w_3，1的前3维的取值为0.1、0.25、0.3，w_3，2的前3维的取值为0.1、0.1、0.1，结合w_3，1和w_3，2，生成分词3“公园”对应的第三词向量 w₃，其中，w₃的前3维的取值为0.1、0.175、0.2。

S205：基于获得的各个分词分别对应的第三词向量，采用预先训练的序列标注模型，生成序列标注结果。

需要说明的是，本公开实施例中，预先训练的序列标注模型是指模型训练过程输出的序列标注模型。

例如，确定待识别语句1的分词1、分词2、分词3、分词4对应的w₁、w₂、 w₃、w₄之后，基于待识别语句1的各个分词分别对应的w₁、w₂、w₃、w₄，采用预先训练的BiLSTM+CRF模型，生成待识别语句1对应的序列标注结果1，序列标注结果1表征待识别语句1中“小王”为人名、“公园”为地名。

基于同一发明构思，参阅图3所示，本公开实施例中，提供一种序列识别装置，至少包括：第一处理单元301、第二处理单元302、第三处理单元303、第四处理单元304和第五处理单元305，其中，

第一处理单元301，用于获取待识别语句，并对所述待识别语句进行分词处理，以确定所述待识别语句中包含的各个分词；

第二处理单元302，用于采用预先训练的字向量生成模型，生成所述各个分词分别对应的第一词向量；

第三处理单元303，用于采用预设的词向量生成模型，生成所述各个分词分别对应的第二词向量；

第四处理单元304，用于基于预先训练的权重系数，结合所述第一词向量和第二词向量，生成所述各个分词分别对应的第三词向量；

第五处理单元305，用于基于获得的各个分词分别对应的第三词向量，采用预先训练的序列标注模型，生成序列标注结果。

可选的，所述序列识别装置进一步包括训练单元，所述训练单元用于：

对一个样本数据进行预处理，生成一个样本语句；

可选的，基于所述预测标注结果，以及所述一个样本数据对应的真实标注结果，对所述初始字向量生成模型、所述初始权重系数、所述初始序列标注模型进行训练时，所述训练单元具体用于：

可选的，基于所述预测标注结果，以及所述真实标注结果，对所述初始权重系数进行训练时，所述训练单元具体用于：

可选的，基于预先训练的权重系数，结合所述第一词向量和第二词向量，生成所述各个分词分别对应的第三词向量，所述第四处理单元304具体用于：

可选的，获取待识别语句之前，所述第一处理单元301进一步用于：

获取待处理数据，并确定所述待处理数据的语句长度；

可选的，基于预先训练的字向量生成模型，生成一个分词对应的第一词向量时，所述第二处理单元302具体用于：

基于同一发明构思，参阅图4所示，本公开实施例提供一种序列标注装置，至少包括：存储器401、处理器402及存储在所述存储器401上并可在所述处理器402上运行的序列标注程序，所述序列标注程序被所述处理器402执行时实现如上所述的序列标注方法的步骤。

基于同一发明构思，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有序列标注程序，所述序列标注程序被处理器执行时实现如上所述的序列标注方法的步骤。

综上所述，本公开实施例中，针对待识别语句中包含的各个分词，采用预先训练的字向量生成模型和预设词向量生成模型，分别生成各个分词对应的第一词向量和第二词向量，然后，采用预先训练的权重系数，结合第一词向量和第二词向量，生成各个分词对应的第三词向量，之后，基于各个分词对应的第三词向量，采用预先训练的序列标注模型，生成序列标注结果。这样，通过采用预先训练的权重系数进行词向量的融合，不仅考虑到了词向量这一维度的特征，优化了序列标注的处理过程，提高了序列标注的准确率，同时，通过将词向量融合生成的第三词向量，作为序列标注模型的输入，从而进一步提升了序列标注的准确率，并减少了序列标注过程的数据处理时长，提高了序列标注的处理效率。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种序列标注方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，获取待识别语句之前，进一步包括：

对一个样本数据进行预处理，生成一个样本语句；

3.如权利要求2所述的方法，其特征在于，基于所述预测标注结果，以及所述一个样本数据对应的真实标注结果，对所述初始字向量生成模型、所述初始权重系数、所述初始序列标注模型进行训练，具体包括：

4.如权利要求2所述的方法，其特征在于，基于所述预测标注结果，以及所述真实标注结果，对所述初始权重系数进行训练，具体包括：

确定所述预测标注结果与所述真实标注结果之间存在误差时，根据所述误差对所述初始权重系数进行调整，其中，所述初始权重系数至少包含缩放参数或单项权重中的任一项或组合，所述缩放参数用于表征一个分词对应的第一词向量和第二词向量的加和的整体权重，所述单项权重用于表征一个分词对应的各个词向量的权重。

5.如权利要求1-4中任一项所述的方法，其特征在于，基于预先训练的权重系数，结合所述第一词向量和第二词向量，生成所述各个分词分别对应的第三词向量，具体包括：

6.如权利要求1-4中任一项所述的方法，其特征在于，获取待识别语句之前，进一步包括：

获取待处理数据，并确定所述待处理数据的语句长度；

7.如权利要求1-4中任一项所述的方法，其特征在于，基于预先训练的字向量生成模型，生成各个分词对应的第一词向量，具体包括：

8.一种序列标注装置，其特征在于，包括：

9.一种序列标注设备，其特征在于，所述序列标注设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的序列标注程序，所述序列标注程序被所述处理器执行时实现如权利要求1至7中任一项所述的序列标注方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有序列标注程序，所述序列标注程序被处理器执行时实现如权利要求1至7中任一项所述的序列标注方法的步骤。