CN110929518A

CN110929518A - 一种使用重叠拆分规则的文本序列标注算法

Info

Publication number: CN110929518A
Application number: CN201911248256.3A
Authority: CN
Inventors: 朱利; 崔诚煜; 李元伟; 陈杭
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-03-27
Anticipated expiration: 2039-12-09
Also published as: CN110929518B

Abstract

本发明提供了一种使用重叠拆分规则的文本序列标注算法，经验上，完成一个基于深度学习的序列标注任务模型，在训练阶段，其最大序列长度固定为有限值；而在预测阶段，自然文本序列长度常常超过模型最大序列长度，此时会造成模型的F1值降低。采用重叠拆分规则方式，对于待预测文本长度超过模型最大序列长度时，将超长文本拆分为若干不大于最大序列长度的子序列，各个子序列之间设置重叠区域，即重叠拆分处理。重叠拆分方式规则能够适用于不同类型的特征抽取器模型，可以在一定程度上提升模型预测效果，同时对于RNN特征抽取器，可以大幅度提升处理效率，在我们已完成的序列标注任务工程上有广泛的、非常好的应用。

Description

一种使用重叠拆分规则的文本序列标注算法

技术领域

本发明属于自然语言处理领域，特别涉及自然语言的序列标注算法，如分词、词性标注、命名实体识别等，进一步地涉及一种使用重叠拆分规则的文本序列标注算法。

背景技术

人类社会的知识和信息大多以人类创造的语言文字的形式进行记录，计算机可以方便快捷的对文本进行存储和记录。但是，计算机仅能传递、保存信息，无法直接识别、理解、运用语言文字。自然语言处理就是一种处理人类自然语言文本的算法技术。

其中，分词(Words Segmentation)、词性标注(POS Tagging)和命名实体识别(Named Entity Recognition)是自然语言处理的基础任务。

1)、分词，将一句话(字的序列)分割成词的序列。如句子“张某某目前任职于水利局。”，被分解成“张某某”，“目前”，“任职”，“于”，“水利局”，“。”。

2)、词性标注，为每一个词赋予一个词性。如名词、动词、形容词等。如前例中，“张某某”、“水利局”是名词，“目前”是副词，“任职”是动词，“于”是介词，“。”是标点符号。

3)、命名实体识别，提取文中特定类型的词汇实体。如文中的“张某某”(类型：人名)，“水利局”(类型：机构)等，其余文字不是实体。

分词、词性标注、命名实体识别都可以被转化为序列标注(Sequence Labeling)问题。序列标注通过为每一个单元(字或词，英文为token)赋予一个标签，从而达到分块和分类的目的。最常用的标签方式有(BIEOS)标签等，如：

1)、分词，“张(B)小(I)川(E)目(B)前(E)任(B)职(E)于(S)水(B)利(I)局(E)。(B)”，其中的B代表开始(Begin)，I代表中间(Inside)，E代表结尾(End)，S代表单字成词或实体 (Single)，出现B或S的地方即为边界，通过对B、S、E标签标识出的边界，就可以提取出词汇：“张某某”，“目前”，“任职”，“于”，“水利局”，“。”。

2)、词性标注，“张(B-NR)小(I-NR)川(E-NR)目(B-ADV)前(E-ADV)任(B-V)职(E-V)于(S-PREP)水(B-NG)利(I-NG)局(E-NG)。(B-WJ)”，其中B-NR中的B代表边界，NR代表类别，这里表示人名。这种方式既区分了边界又标识了类别，即词性。

3)、实体识别，“张(B-Person)小(I-Person)川(E-Person)目(O)前(O)任(O)职(O)于(O) 水(B-Organiztion)利(I-Organiztion)局(E-Organiztion)。(O)”，跟词性标注类似，只是多了一个标签O，表示Outside，表示不是任务所关注的类别。通过对标签进行处理，就可以提取出实体：“张某某”(类型：Person)、“水利局”(类型：Time)。

序列标注任务目前最流行的算法是“深度学习模型+CRF”：

1)模型部分。如在序列标注中目前最为经典的BI-LSTM-CRF模型中的BI-LSTM，指双向的LSTM循环神经网络，是一种深度学习模型，其任务是为每一个单元，这里以字为例，所属的各种类别分配一个分数，相当于对每一个字执行分类任务。如图1所示，“张”字对应一个7维向量，其中第“B-Person”维分数最高，说明这个字对应这个类别的概率越高，即把“张”字划分为“B-Person”类别。Bi-LSTM可以被替换成其他的模型，如Bi-GRU，多层CNN，多层BI-LSTM，Transformer等各种常见特征抽取器。

2)CRF部分，这里特指Linear Chain CRF(Conditional Random Field)，它是一种概率图模型。在这里的主要作用是对标签之间的关系做优化，找出概率最大的一个标签序列(一般使用Viterbi算法进行解码)。如B-Person标签后面不可能跟I-Orgnization标签，而跟I-Person标签的可能性更高。经过CRF层的优化，序列标注精度得以提升。值得一提的是，随着技术的发展，2018年谷歌研发了性能更强的BERT模型 (https://arxiv.org/pdf/1810.04805)，它采用Transformer作为特征抽取器，模型表达能力很强，很大程度上可以克服如B-Person标签后面跟随I-Orgnization标签的问题，因此， CRF部分可以去掉。该算法的主要流程如图2所示。序列标注任务的模型训练指标，主要采用F1值进行评价，它权衡了预测的精确率和召回率。

以上序列标注模型的系统输入是句子序列，而句子序列则存在一定的固有分布。据统计，在中文里，句子的长度分配比例大致符合Poisson分布，结果如表1所示。

表1句子长度和字数占比

从表1中可以看出，在大量的互联网新闻文本中，句子长度超过100字的个数占比为 1.5％，这些句子包含的汉字个数占比为6.2％，该统计考虑了互联网文本由于使用HTML格式，造成了若干无标点文本误组成的超长文本。

现有技术是一种有监督的机器学习算法，在训练阶段有数以百万至上亿的参数需要进行拟合调优。参数量过大或过小会带来各种问题，模型训练必须对序列最大长度、模型层数、特征维度等超参数做出控制。

其中，模型训练的序列最大长度对模型的性能和效果影响巨大。例如，在训练模型阶段，选取序列最大长度为100个token，例如，示例句子“张某某目前任职于水利局，他曾经主管负责过市河道水利工程......”的最大长度不超过100个字。然而，如表1所示，在模型的预测使用阶段，句子的长度有一定比例会超过100个token，对于超长句子，不同的模型有不同的处理方式。RNN、LSTM、GRU等循环神经网络特征抽取器由于满足自回归，可以直接方便地处理超长序列；而CNN、Transformer等特征抽取器，一般情况下，需要对序列做强制截断处理。

各类特征抽取器对于超长序列均存在效果下降的问题。

1、对于RNN、LSTM、GRU等循环神经网络特征抽取器，问题在于，模型训练仅训练了最大序列长度范围内的序列特征，而对超出部分，预测效果(主要指F1值)会随着长度的增加缓慢下降。

例如：

句1：张某某目前任职于水(8)利(9)局(10)。

句2：北京市政府出台了一系列措施，用于改善市区的便民设施情况；其中，一项很重要的工作就是居民的用水安全和用水便捷程度；这样的工作繁琐而细碎，需要消耗大量的人力物力；不过，北京市水利局却有办法解决这个问题，原因在于，张某某曾经在水(111)利(112)局(113)担任局长。

以上两句子中，“水利局”指待识别的机构名称(Organization)，括号中数字表示该字在句子中的索引位置，即句1中，第8个字至第10个字为“水利局”，句2同理。将以上两句子输入已训练好的模型，假设模型规定最大序列长度为100，第一句由于索引位置在最大序列长度100字范围内，第二句中“水利局”三个字位置超过100字，故第一句预测准确“水利局(Organization)”的概率要高于第二句。

此外，由于循环神经网络固有的自回归特性，需循环迭代；若句子长度超长，将耗费大量时间，这在工程上是不允许的。

2、对于CNN、Transformer等特征抽取器，强制截断会直接导致效果降低。相反，若为模型设计较大的最大序列长度，会导致模型过大，计算空间效率低下。

例如：

句1：......张某某目前任职于水(99)利(100)局(101)。...

句2：......张某某目前任职于水(99)利(100)

句3：局(1)。...

将句1强制拆分后的结果为句2和句3，这样，“水利局”实体被强制拆分在两个分句中，则预测结果一定是错误的。

发明内容

为了解决上述处理序列标注任务中的超长句子时存在的技术难题，本发明提供了一种方法，能够适用于各类序列标注任务的、适用于不同类型的特征抽取器的经验性规则，可以在一定程度上提升超长句子序列的模型预测效果，同时对于RNN等循环神经网络，可以大幅度提升处理效率，在工程上有非常好的应用，为一种使用重叠拆分规则的文本序列标注算法，具体的技术方案为：采用拆分方法具体为：

(1)训练完成一个基于深度学习的序列标注任务模型后，在预测阶段，对于待预测文本长度超过模型最大序列长度时，将超长文本拆分为若干不大于最大序列长度的子序列，各个子序列之间设置重叠区域；

(2)获得的若干子序列可以通过并行的方式使用模型做预测，将得到的序列结果按照一套通用的经验规则做拼接合并，即得到最终的超长文本的序列标注结果。

作为改进，上述文本序列标注算法适用于针对分词、词性标注、命名实体识别三种任务中任一种或者至少两种的组合。

作为改进，方法(1)的重叠区域预测结果中，存在当一个实体或词汇包含另一个实体或词汇的关系，且都有实体或词汇取到截断边界时，则直接合并，取较长的实体或词汇。

作为改进，方法(1)的重叠区域预测结果中，仅有一个句子的重叠部分有实体或词汇取到截断边界时，则去掉该实体或词汇，然后进行合并。

作为改进，方法(1)的重叠区域预测结果中，当针对命名实体识别任务时，若一边有实体标签、而另一边为空标签时，以有实体的一侧为准进行合并。

作为改进，所述空标签为O标签。

作为改进，方法(1)的重叠区域预测结果中，当实体或词汇结构没有包含关系，只有部分重叠时，取并集。

作为改进，当实体或词汇类型不一致时，取相对靠后的部分的标签类别。

有益效果：本发明提供的一种使用重叠拆分规则的文本序列标注算法，能够适用于各类序列标注任务的、适用于不同类型的特征抽取器的规则，可以在一定程度上提升超长文本序列的模型预测效果，同时对于RNN等循环神经网络，可以大幅度提升处理效率，在我们完成的序列标注任务工程上有广泛的、非常好的应用。

附图说明

图1为现有技术中BI-LSTM-CRF模型的主要流程示意图。

图2为现有技术中序列标注模型的主要流程示意图。

图3为本发明中使用重叠拆分规则的文本序列标注算法的示意图。

具体实施方式

下面对本发明附图结合实施例作出详细说明。

以下针对本发明的具体实施例进行详细说明。

(1)对于有标点符号的句子，按照标点符号进行分割，如“，”、“。”、“；”等等。将分割后的句子输入模型进行预测，最后将结果进行拼接。经验上，序列标注任务往往需要按标点做分句处理，但本专利实施时可以跨过该步，直接进行重叠拆分。

(2)对于没有分隔符号的句子，且长度依然超过最大序列训练长度时，则需要设置重叠区域，进行重叠拆分。设置重叠区域的目的在于确保断句的地方也能被正确识别。

实施例1

重叠拆分：假设最大句子长度为10，重叠部分长度是3，则可将以下句子分割得到若干短句。

例句1：其中一项很重要的工作就是居民的用水安全和用水便捷程度，见表2。

表2例句1进行重叠拆分的案例示范

其

中

一

项

很

重

要

的

工

作

就

是

居

民

的

用

水

安

全

。

其

中

一

项

很

重

要

的

工

作

的

工

作

就

是

居

民

的

用

水

的

用

水

安

全

。

由此，进行拆分后变为上述四个分句，可以得到均满足模型最大序列长度的句子，这样可以解决循环神经网络处理速度过慢的问题。

将上述分句使用训练好的序列标注模型进行预测，得到各个分句的预测标签结果。将各个分句的结果标签按规则合并，即得到最终的超长文本序列标签，具体规则为(以BIEOS标注标准为例)：

当一个实体或词汇包含另一个实体或词汇，若两个句子的重叠部分中，都有实体或词汇取到截断边界即出现B、E、S标签，则直接合并，取较长的实体或词汇。这可针对分词、词性标注、命名实体识别三种任务。

实施例2

描述：一个实体(或词汇)包含另一个实体(或词汇)，即存在包含关系。

若两个句子的重叠部分中，都有实体(或词汇)取到截断边界(B、E、S标签)，则直接合并，取较长的实体(或词汇)。这可针对分词、词性标注、命名实体识别三种任务。(1)如下例2命名实体识别结果，“贵阳市大数据中心”复盖了“大数据中心”，取较长实体“贵阳市大数据中心”，见表3。

表3例2进行重叠拆分的案例示范

Token	重叠部分1	重叠部分2
			贵	O
州	O
			在	O
贵	B-Organization	O
			阳	I-Organization	O
市	I-Organization	O
			大	I-Organization	B-Organization
数	I-Organization	I-Organization
			据	I-Organization	I-Organization
中	I-Organization	I-Organization
			心	E-Organization	E-Organization
设	O	O
			立		O
了		O
			咨		O

(2)如下例3分词结果，其中，“贵阳市”复盖了“贵阳”和“市”，取较长词汇“贵阳市”，词性标注消解方案同分词一致：

表4例3进行重叠拆分的案例示范

Token	重叠部分1	重叠部分2
			贵	B
州	E
			在	S
贵	B	B
			阳	I	E
市	E	S
			大	B	B
数	I	I
			据	E	E
中	B	B
			心	E	E
设		B
			立		E
了		S
			咨		B

若两个句子的重叠部分中，仅有一个句子的重叠部分有实体或词汇取到截断边界即出现B、E、S标签，则去掉该实体或词汇，然后进行合并。

实施例3

若两个句子的重叠部分中，仅有一个句子的重叠部分有实体(或词汇)取到截断边界(B、E、S标签)，则去掉该实体(或词汇)，然后进行合并。

(1)如下例4命名实体识别结果：“政”字和“市”字分别是两个重叠部分的起始字符和末尾字符，其中一个有实体，另一个没有，则需要先将“政府采购网”这个完整实体忽略，然后进行合并。

表5例4进行重叠拆分的案例示范

Token	重叠部分1	重叠部分2
			贵	B-Organization
州	I-Organization
			省	I-Organization
政	I-Organization	B-Organization
			府	I-Organization	I-Organization
采	I-Organization	I-Organization
			购	I-Organization	I-Organization
网	E-Organization	E-Organization
			、	O	O
贵	O	B-Organization
			阳	O	I-Organization
市	O	I-Organization
			政		I-Organization
府		I-Organization
			采		I-Organization
购		I-Organization
			网		E-Organization

(2)如下例5分词结果，“府”字对应“E”标签和“S”标签，即其中一个部分中取到截断边界，而另外一个则与其他字构成词，则需要先将“府”-“S”这个完整成词忽略，然后进行合并。词性标注策略与分词完全一致：

表6例5进行重叠拆分的案例示范

当针对命名实体识别任务时，若一边有实体标签、而另一边为空标签(如O标签)，以有实体的一侧为准。

实施例4

针对命名实体识别，还有一种特殊情况，即一边有实体标签、而另一边没有(即O标签)。分词和词性标注不存在此种情况。若两个句子的重叠部分中，一个有实体，另一个空白标签(即O标签)，以有实体的一侧为准。

如下例6命名实体识别结果，重叠部分中一边有实体标签，而另一边由于截断造成“O”标签，则以有实体为准进行合并：

表7例6进行重叠拆分的案例示范

实体或词汇结构有重叠，没有包含关系，即只有部分重叠时，有重叠时，一般规则是取并集，且当实体类型不一致时，取相对靠后的部分的标签类别，词性标注同理。同时分词不存在类别标签的问题。

实施例5

实体(或词汇)结构有重叠，没有包含关系，即只有部分重叠时，有重叠时，一般规则是取并集，且当实体类型不一致时，取相对靠后的部分的标签类别。词性标注同理。分词不存在类别标签的问题。

(1)如下例7命名实体识别结果：“京”字和“通”字分别是两个截断部分的首字和末字，按照规则的定义，需要先将“北京万通”这个实体的类型忽略掉，然后再对这两个重叠部分进行合并，得到最终的结果。

表8例7进行重叠拆分的案例示范

Token	重叠部分1	重叠部分2
			于	O
北	B-Organization	B-Company
			京	I-Organization	I-Company
万	I-Organization	I-Company
			通	E-Organization	I-Company
互		I-Company
			联		I-Company
科		I-Company
			技		I-Company
有		I-Company
			限		I-Company
公		I-Company
			司		E-Company

(2)如下例8分词结果：两个重叠部分的结果分别是“万通互”字和“通互联”，按照算法的定义，直接对这两个重叠部分进行合并，得到最终的结果，不存在类型标签的问题。

表9例8进行重叠拆分的案例示范

(3)如下例9词性标注结果：两个重叠部分的结果分别是“万通互”字和“通互联”，按照规则的定义，将两个类型标签取一致，即都取专有名词类“NP”，然后对这两个重叠部分进行合并，得到最终的结果。

表10例9进行重叠拆分的案例示范

Token	重叠部分1	重叠部分2
			于	S-PREP
北	B-NL
			京	E-NL
万	B-NR
			通	I-NR	B-NP
互	E-NR	I-NP
			联		E-NP
科		B-N
			技		E-N
有		B-ADJ
			限		E-ADJ
公		B-N
			司		E-N

根据以上规则分析，可知，上述规则适用性广，可以适应常见的序列标注任务，可涵盖大部分重叠拆分造成的标签不一致情况。且该套方法直接寻找模型输出端结果，处理速度快。

同时，本发明在5000万字标注了分词、词性、实体的新闻舆情数据中进行命名实体识别模型训练和测试，词性包括22种中文词性类别，实体包括人名(Person)、机构(Orgnization)和公司(Company)三种类别。使用模型是Bi-LSTM-CRF模型，由于该重叠拆分算法与特征抽取器无关、也与CRF层无关，故将其替换为其它模型如 CNN,Transformer等，同样适用。

模型的最大序列长度为100字，在不采用该重叠拆分的算法时，命名实体识别模型在测试集上的F1值达到了94.6％，预测速度平均为46000字每秒，且由于文本句子长度变化较大，实际工程当中，最长的带预测文本长度达到了1000余字，预测耗时不稳定。

在采用该重叠拆分算法后，模型在测试集的F1值为95.3％，在同等资源配置情况下，预测速度平均为160000字每秒，且由于重叠拆分，句子最大长度固定，预测耗时非常稳定。

由于CNN、Transformer等类型特征抽取器的预测损失主要来自于截断损失，一种直接的处理方式是强制拆分，另一种是本发明算法重叠拆分。针对上述同样的训练和测试数据集，使用基于Bert(使用了Transformer，最大序列长度为100)的命名实体识别模型进行试验。在使用强制拆分时，在测试集上F1值达到了96.8％；而使用了重叠拆分的模型在测试集上F1值取得97.4％。这证明，重叠拆分优于强制拆分。重叠拆分规则在实际的工程的分词、词性标注、命名实体识别任务上均有使用，且效果非常理想。

同理，重叠拆分算法在依据上述标注数据基础上，完成的分词和词性标注任务上有同样的效果提升，实验数据汇总如下：

表11重叠拆分算法的实验数据

根据以上重叠拆分技术方案，可以得出结论，由于将超长句子进行拆分，然后依据经验规则合并，必然会造成某些实体被误识别。从这一点上看，该方案会带来一定效果损失，记该损失为rule_loss；同时，由于该方案避免了超长句子超过模型训练长度，模型拟合能力下降，实际上对预测能力有一定提升，该提升记作max_length_improve。记不采用该技术方案的F1值为orig_f1，则可得，采用该技术方案之后的F1值为new_f1＝orig_f1-rule_loss-max_length_improve。从上述结果上看，采用重叠拆分算法后，规则带来的损失小于直接预测超长句子的损失，从而带来了效果提升。与此同时，还在分词任务和词性标注任务上做了试验，模型在超长文本序列的处理上均有提升。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种使用重叠拆分规则的文本序列标注算法，其特征在于：采用拆分方法具体为：

2.一种根据权利要求1所述的使用重叠拆分规则的文本序列标注算法，其特征在于：所述算法适用于针对分词、词性标注、命名实体识别三种任务。

3.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法，其特征在于：方法(1)的重叠区域中，存在当一个实体或词汇包含另一个实体或词汇的关系，且都有实体或词汇取到截断边界时，则直接合并，取较长的实体或词汇。

4.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法，其特征在于：方法(1)的重叠区域预测结果中，仅有一个句子的重叠部分有实体或词汇取到截断边界时，则去掉该实体或词汇，然后进行合并。

5.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法，其特征在于：方法(1)的重叠区域预测结果中，当针对命名实体识别任务时，若一边有实体标签、而另一边为空标签时，以有实体的一侧为准进行合并。

6.根据权利要求5所述的一种使用重叠拆分规则的文本序列标注算法，其特征在于：所述空标签为O标签。

7.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法，其特征在于：方法(1)的重叠区域预测结果中，当实体或词汇结构没有包含关系，只有部分重叠时，取并集。

8.根据权利要求7所述的一种使用重叠拆分规则的文本序列标注算法，其特征在于：当实体或词汇类型不一致时，取相对靠后的部分的标签类别。