CN111666734B

CN111666734B - 序列标注方法及装置

Info

Publication number: CN111666734B
Application number: CN202010334370.4A
Authority: CN
Inventors: 叶蔚; 张世琨; 盛中昊; 刘学洋; 胡文蕙
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2021-08-10
Anticipated expiration: 2040-04-24
Also published as: CN111666734A

Abstract

本发明实施例提供一种序列标注方法及装置。其中，方法包括：获取待分析的句子；将待分析的句子输入至序列标注模型，输出句子的分词结果及每个词的标注结果；其中，序列标注模型是基于样本句子及样本句子对应的分词和标注数据进行基于强化学习的训练获得的。本发明实施例提供的序列标注方法及装置，通过强化学习技术隐式地学习文本的分词信息，能缓解中文序列标注中分词与目标的不匹配。

Description

序列标注方法及装置

技术领域

本发明实施例涉及计算机技术领域，更具体地，涉及一种序列标注方法及装置。

背景技术

序列标注技术是自然语言处理领域的一项重要技术，如词性标注、组块分析、命名实体识别等基础任务都可以使用序列标注技术解决。传统的方法使用隐马尔科夫模型、最大熵马尔科夫模型和条件随机场解决问题。为了增强模型效果，许多手工特征被加入模型，如词性、地名词典等信息被集成到了命名实体识别任务中。

在中文序列标注任务中，通常要将文本先进行分词，先分词再进行序列标注的流水线容易导致分词与目标不匹配的问题，尤其是诸如命名实体识别这样级别的任务。

发明内容

本发明实施例提供一种序列标注方法及装置，用以解决或者至少部分地解决现有技术存在的分词与目标不匹配的缺陷。

第一方面，本发明实施例提供一种序列标注方法，包括：

获取待分析的句子；

将待分析的句子输入至序列标注模型，输出所述句子的分词结果及每个词的标注结果；

其中，所述序列标注模型是基于样本句子及所述样本句子对应的分词和标注数据进行基于强化学习的训练获得的。

优选地，所述序列标注模型包括判别子模型和策略网络；

相应地，所述将待分析的句子输入至序列标注模型，输出所述句子的分词结果及每个词的标注结果的具体步骤包括：

所述将待分析的句子中的当前字输入至所述判别子模型，输出所述当前字的上下文表征；

将所述当前字的上下文表征输入至所述策略网络，输出是否在当前字分词的决策结果；

根据是否在待分析的句子中每个字分词的决策结果及每个字的上下文表征，获取所述句子的分词结果及每个词的标注结果。

优选地，所述将待分析的句子输入至序列标注模型，输出所述句子的分词结果及每个词的标注结果之前，还包括：

根据所述样本句子及所述样本句子对应的分词和标注数据，对序列标注模型进行基于强化学习的训练，获得训练好的序列标注模型。

优选地，所述根据所述样本句子及所述样本句子对应的分词和标注数据，对序列标注模型进行基于强化学习的训练，获得训练好的序列标注模型的具体步骤包括：

根据所述样本句子及所述样本句子对应的分词和标注数据，分别对所述判别子模型和所述策略网络进行预训练；

根据所述样本句子及所述样本句子对应的分词和标注数据，对预训练后的所述判别子模型和所述策略网络进行联合训练，获取所述训练好的序列标注模型。

优选地，所述根据所述样本句子及所述样本句子对应的分词和标注数据，对序列标注模型进行基于强化学习的训练，获得训练好的序列标注模型之前，还包括：

对中文序列标注的语料和标注数据进行预处理，获取所述样本句子及所述样本句子对应的分词和标注数据。

优选地，所述判别子模型包括上层长短期记忆网络、下层长短期记忆网络和条件随机场。

优选地，所述策略网络为多层全连接神经网络。

第二方面，本发明实施例提供一种序列标注装置，包括：

获取模块，用于获取待分析的句子；

预测模块，用于将待分析的句子输入至序列标注模型，输出所述句子的分词结果及每个词的标注结果；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，执行所述程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的序列标注方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的序列标注方法的步骤。

本发明实施例提供的序列标注方法及装置，通过强化学习技术隐式地学习文本的分词信息，能缓解中文序列标注中分词与目标的不匹配。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例提供的序列标注方法的流程示意图；

图2为根据本发明实施例提供的序列标注装置的结构示意图；

图3为根据本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有技术的上述问题，本发明实施例提供一种序列标注方法及装置，其发明构思是，通过强化学习技术隐式地学习文本的分词信息，缓解中文序列标注中分词与目标不匹配的问题。

图1为根据本发明实施例提供的序列标注方法的流程示意图。如图1所示，该方法包括：步骤S101、获取待分析的句子。

具体地，为了对待分析的句子进行序列标注，可以将待分析的句子作为序列标注模型的输入。

步骤S102、将待分析的句子输入至序列标注模型，输出句子的分词结果及每个词的标注结果。

其中，序列标注模型是基于样本句子及样本句子对应的分词和标注数据进行基于强化学习的训练获得的。

具体地，对于输入判别模型的每个字，序列标注模型做出是否在当前字分词的决策；

所有字的位置是否分词完成决策并得到每个词的上下文表征之后，序列标注模型得到实体标签预测结果；

对待分析的句子执行上述操作，得到待分析的句子的分词结果及每个词的标注结果。

本发明实施例通过强化学习技术隐式地学习文本的分词信息，能缓解中文序列标注中分词与目标的不匹配。

基于上述各实施例的内容，序列标注模型包括判别子模型和策略网络。

具体地，判别子模型，用于对句子进行表征，从而获得每个字及每个词的标注结果。

策略网络，用于对句子进行分词。

需要说明的是，判别子模型的当前输出，影响策略网络的当前输出；反过来，策略网络的当前输出，影响判别子模型的下一输出。

相应地，将待分析的句子输入至序列标注模型，输出句子的分词结果及每个词的标注结果的具体步骤包括：将待分析的句子中的当前字输入至判别子模型，输出当前字的上下文表征。

具体地，将待分析的句子中的每个字依次输入判别子模型。

对于待分析的句子中的当前字，判别子模型输出当前字的上下文表征。

将当前字的上下文表征输入至策略网络，输出是否在当前字分词的决策结果。

具体地，判别子模型输出当前字的上下文表征，为策略网络的输入。

策略网络根据当前字的上下文表征，输出是否在当前字分词的决策结果。

根据是否在待分析的句子中每个字分词的决策结果及每个字的上下文表征，获取句子的分词结果及每个词的标注结果。

具体地，根据每个字在当前字分词的决策结果及每个字的上下文表征，可以获得句子的分词结果及每个词的标注结果。

基于上述各实施例的内容，将待分析的句子输入至序列标注模型，输出句子的分词结果及每个词的标注结果之前，还包括：根据样本句子及样本句子对应的分词和标注数据，对序列标注模型进行基于强化学习的训练，获得训练好的序列标注模型。

具体地，可以预先搭建训练环境，例如使用TensorFlow GPU环境。

训练可以基于强化学习技术。

强化学习是机器学习的一个分支，其的思想源于行为心理学的研究，核心是通过试错的方式获得当前状态下不同行为所得到的奖励或惩罚，从而学到在给定情境下期望奖励最大的行为，其基本元素有环境(Environment)、代理(Agent)、状态(State)、决策(Action)和回报(Reward)等。

神经网络有强大的特征提取能力，用神经网络替代价值函数，依据强化学习的Q-Learning为深度网络提供目标值，对网络参数不断更新直至收敛。

基于上述各实施例的内容，根据样本句子及样本句子对应的分词和标注数据，对序列标注模型进行基于强化学习的训练，获得训练好的序列标注模型的具体步骤包括：根据样本句子及样本句子对应的分词和标注数据，分别对判别子模型和策略网络进行预训练。

具体地，在根据样本句子及样本句子对应的分词和标注数据，对判别子模型进行预训练时，固定策略网络的参数，根据训练中序列标注模型的输出更新判别子模型的参数，完成对判别子模型的预训练。

在根据样本句子及样本句子对应的分词和标注数据，对策略网络进行预训练时，固定判别子模型的参数，根据训练中序列标注模型的输出更新策略网络的参数，完成对判别子模型的预训练。

根据样本句子及样本句子对应的分词和标注数据，对预训练后的判别子模型和策略网络进行联合训练，获取训练好的序列标注模型。

对待分析的句子执行上述操作，得到样本句子的分词结果及每个词的标注结果。

根据样本句子的分词结果及每个词的标注结果，以及样本句子及样本句子对应的分词和标注数据的差异，更新判别子模型和策略网络的参数，完成联合训练。

基于上述各实施例的内容，根据样本句子及样本句子对应的分词和标注数据，对序列标注模型进行基于强化学习的训练，获得训练好的序列标注模型之前，还包括：对中文序列标注的语料和标注数据进行预处理，获取样本句子及样本句子对应的分词和标注数据。

具体地，收集中文序列标注的语料和标注数据，进行统一的存储和管理。

对中文序列标注的语料和标注数据进行预处理的具体步骤可以包括：

将中文序列标注训练数据进行清洗和整理，将数据切分成句子并过滤异常句子和过长的句子，获得样本句子(即训练样本)；

处理训练样本，将每个样本句子处理成字的列表并得到相应标签；

处理外部特征，使用外部分词工具，对每个字给予其所在词的词性、出现位置等信息。

通过上述步骤，可以获得多个样本句子及每一样本句子对应的分词和标注数据。

可以理解的是，为了便于训练，可以将训练样本分为训练集、验证集和测试集。

基于上述各实施例的内容，判别子模型包括上层长短期记忆网络、下层长短期记忆网络和条件随机场。

具体地，判别子模型可以包括嵌入层、上层长短期记忆网络、下层长短期记忆网络和条件随机场。

嵌入层，用于对输入的每个字构造向量表征，具体包括构造字向量、字在分词结果中当前词的词性向量，以及字在分词结果中出现在当前词的位置向量。

下层长短期记忆网络以每个字的向量作为的长短期记忆网络的序列输入。若在当前词需要分词则将当前表征输入上层长短期记忆网络，并将下层长短期记忆网络的隐状态清零。在预训练判别模型时，分词的决策来自于外部分词工具的分词结果，在预训练策略网络和联合训练模型时，分词的决策来自于策略网络。

下层长短期记忆网络的隐状态维度可以根据实际进行设置，例如为300。本发明实施例对此不作具体限制。

上层长短期记忆网络，以下层长短期记忆网络每个词的表征作为输入。

上层长短期记忆网络的隐状态维度可以根据实际进行设置，例如为300。本发明实施例对此不作具体限制。

条件随机场，以上层长短期记忆网络每个词的输出作为输入，得到序列的标注结果，并以负对数似然作为判别模型损失。

预训练判别子模型包含以下步骤：

1、固定策略网络参数，一句话以每个字输入判别模型；

2、根据外部分词工具的分词结果决定当前字是否分词，若分词则将当前时刻下层长短期记忆网络的输出输入上层长短期记忆网络，并更新上层长短期记忆网络的状态；

3、将上层长短期记忆网络每个词的输出输入条件随机场，以对数似然作为损失更新判别模型参数；

4、对每个批次的训练数据执行1-3的操作

5、在每一轮训练结束后，得到判别模型在验证集上的预测结果，统计严格F1值。保存F1值最优的模型，当最优F1值在一定轮数没有增长后停止预训练判别模型。

基于上述各实施例的内容，策略网络为多层全连接神经网络。

具体地，策略网络包括：

输入层：策略网络的输入为判别网络输入当前字时下层长短期记忆网络和上层上短期记忆网络的输出作为输入，维度为600(不限于600)；

第一全连接层：第一个全连接层将维度为600(不限于600)的输入转换到维度为128(不限于128)的向量，并使用tanh函数激活；

第二全连接层：第二个全连接层将维度为128的向量转移到维度为2的向量；

Softmax层：讲全连接层输出通过Softmax激活，向量的每个维度分别对应在当前词是否分词的概率。

预训练策略网络包含以下步骤：

1、固定判别模型参数，一句话以每个字输入判别模型；

2、对于每个时刻输入判别模型的字，由判别模型上下两层长短期记忆网络在当前时刻的输出作为策略网络的输入，得到当前字分词的决策，并影响判别模型后续句子状态的表征；

3、根据策略网络的分词结果，判别网络得到模型的预测结果，并与真实标注结果对比，统计严格F1值；

4、F1值作为策略网络每个时刻输入的延迟奖励反馈，更新策略网络参数；

5、对每个批次的训练数据执行1-4的操作；

6、在每一轮训练结束后，得到判别模型在验证集上的预测结果，统计严格F1值。保存F1值最优的模型，当最优F1值在一定轮数没有增长后停止预训练判别模型。

联合训练判别模型和策略网络包含以下步骤：

1、一句话以每个字输入判别模型；

3、根据策略网络的分词结果，将上层长短期记忆网络每个词的输出输入条件随机场，以对数似然作为损失更新判别模型参数；

4、一句话以每个字输入判别模型；

5、对于每个时刻输入判别模型的字，由判别模型上下两层长短期记忆网络在当前时刻的输出作为策略网络的输入，得到当前字分词的决策，并影响判别模型后续句子状态的表征；

6、根据策略网络的分词结果，判别网络得到模型的预测结果，并与真实标注结果对比，统计严格F1值；

7、F1值作为策略网络每个时刻输入的延迟奖励反馈，更新策略网络参数；

8、对每个批次的训练数据执行1-7的操作；

9、在每一轮训练结束后，得到判别模型在验证集上的预测结果，统计严格F1值。保存F1值最优的模型，当最优F1值在一定轮数没有增长后停止预训练判别模型。

图2为根据本发明实施例提供的序列标注装置的结构示意图。基于上述各实施例的内容，如图2所示，该装置包括获取模块201和预测模块202，其中：

获取模块201，用于获取待分析的句子；

预测模块202，用于将待分析的句子输入至序列标注模型，输出句子的分词结果及每个词的标注结果；

具体地，获取模块201与预测模块202电连接。

为了对待分析的句子进行序列标注，获取模块201可以将待分析的句子作为序列标注模型的输入。

对于输入判别模型的每个字，预测模块202做出是否在当前字分词的决策；所有字的位置是否分词完成决策并得到每个词的上下文表征之后，序列标注模型得到实体标签预测结果。

本发明实施例提供的序列标注装置，用于执行本发明上述各实施例提供的序列标注方法，该序列标注装置包括的各模块实现相应功能的具体方法和流程详见上述序列标注方法的实施例，此处不再赘述。

该序列标注装置用于前述各实施例的序列标注方法。因此，在前述各实施例中的序列标注方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

图3为根据本发明实施例提供的电子设备的实体结构示意图。基于上述实施例的内容，如图3所示，该电子设备可以包括：处理器(processor)301、存储器(memory)302和总线303；其中，处理器301和存储器302通过总线303完成相互间的通信；处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令，以执行上述各方法实施例所提供的序列标注方法，例如包括：获取待分析的句子；将待分析的句子输入至序列标注模型，输出句子的分词结果及每个词的标注结果；其中，序列标注模型是基于样本句子及样本句子对应的分词和标注数据进行基于强化学习的训练获得的。

本发明另一实施例公开一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的序列标注方法，例如包括：获取待分析的句子；将待分析的句子输入至序列标注模型，输出句子的分词结果及每个词的标注结果；其中，序列标注模型是基于样本句子及样本句子对应的分词和标注数据进行基于强化学习的训练获得的。

此外，上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明另一实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的序列标注方法，例如包括：获取待分析的句子；将待分析的句子输入至序列标注模型，输出句子的分词结果及每个词的标注结果；其中，序列标注模型是基于样本句子及样本句子对应的分词和标注数据进行基于强化学习的训练获得的。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行上述各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种序列标注方法，其特征在于，包括：

获取待分析的句子；

将待分析的句子输入至序列标注模型，输出所述句子的分词结果及每个词的标注结果；其中，所述序列标注模型是基于样本句子及所述样本句子对应的分词和标注数据进行基于强化学习的训练获得的，所述序列标注模型包括判别子模型和策略网络；所述判别子模型包括嵌入层、上层长短期记忆网络、下层长短期记忆网络和条件随机场，所述条件随机场以所述上层长短期记忆网络每个词的输出作为输入，得到序列的标注结果，并以负对数似然作为判别子模型损失；

所述将待分析的句子输入至序列标注模型，输出所述句子的分词结果及每个词的标注结果的具体步骤包括：所述将待分析的句子中的当前字输入至所述判别子模型，输出所述当前字的上下文表征；将所述当前字的上下文表征输入至所述策略网络，输出是否在当前字分词的决策结果；根据是否在待分析的句子中每个字分词的决策结果及每个字的上下文表征，获取所述句子的分词结果及每个词的标注结果。

2.根据权利要求1所述的序列标注方法，其特征在于，所述将待分析的句子输入至序列标注模型，输出所述句子的分词结果及每个词的标注结果之前，还包括：根据所述样本句子及所述样本句子对应的分词和标注数据，对序列标注模型进行基于强化学习的训练，获得训练好的序列标注模型。

3.根据权利要求2所述的序列标注方法，其特征在于，所述根据所述样本句子及所述样本句子对应的分词和标注数据，对序列标注模型进行基于强化学习的训练，获得训练好的序列标注模型的具体步骤包括：根据所述样本句子及所述样本句子对应的分词和标注数据，分别对所述判别子模型和所述策略网络进行预训练；根据所述样本句子及所述样本句子对应的分词和标注数据，对预训练后的所述判别子模型和所述策略网络进行联合训练，获取所述训练好的序列标注模型。

4.根据权利要求2所述的序列标注方法，其特征在于，所述根据所述样本句子及所述样本句子对应的分词和标注数据，对序列标注模型进行基于强化学习的训练，获得训练好的序列标注模型之前，还包括：对中文序列标注的语料和标注数据进行预处理，获取所述样本句子及所述样本句子对应的分词和标注数据。

5.根据权利要求2至4任一所述的序列标注方法，其特征在于，所述策略网络为多层全连接神经网络。

6.一种序列标注装置，其特征在于，包括：获取模块，用于获取待分析的句子；预测模块，用于将待分析的句子输入至序列标注模型，输出所述句子的分词结果及每个词的标注结果；其中，所述序列标注模型是基于样本句子及所述样本句子对应的分词和标注数据进行基于强化学习的训练获得的；

所述序列标注模型包括判别子模型和策略网络；所述判别子模型包括嵌入层、上层长短期记忆网络、下层长短期记忆网络和条件随机场，所述条件随机场以所述上层长短期记忆网络每个词的输出作为输入，得到序列的标注结果，并以负对数似然作为判别子模型损失；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的序列标注方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述的序列标注方法的步骤。