CN107622050A

CN107622050A - 基于Bi‑LSTM和CRF的文本序列标注系统及方法

Info

Publication number: CN107622050A
Application number: CN201710828497.XA
Authority: CN
Inventors: 金勇�; 吴兵; 朱阳光; 李力
Original assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Current assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-01-23
Anticipated expiration: 2037-09-14
Also published as: CN107622050B

Abstract

本发明公开了基于Bi‑LSTM和CRF的文本序列标注系统及方法，系统包括学习模块和标注模块，标注模块包括分词模块、语料标注模块和调优模块，语料标注模块包括词性标注模块和实体识别模块；方法为将获取的语料进行预处理，将预处理后的语料输入预设的学习模型，调整学习模型的参数并保存，根据学习模型输出的序列分类结果为语料分别添加对应的预测标签，对于未知语料，进行分词，利用调整后的学习模型对分词后的未知语料进行初次标注，将初次标注的未知语料进行调优，对调优后的语料进行最终标注；本发明使用户可以根据需求对词库进行调整，具有人机交互调整的功能，实现同一领域自动标注，不同领域半自动标注过程，提升效率，降低成本。

Description

基于Bi-LSTM和CRF的文本序列标注系统及方法

技术领域

本发明涉及信息技术领域，具体的说是基于Bi-LSTM和CRF的文本序列标注系统及方法。

背景技术

随着互联网、移动互联网以及大数据技术的发展，各种文本数据资源的规模呈现爆炸式增长，主要包括社交媒体(例如微博号、公众号、Facebook、Twitter等)和新闻媒体(例如人民日报、凤凰新闻、搜狐新闻等)网站上的非结构化数据，以及百度百科和维基百科等百科网站上的半结构化数据，自然语言处理(Natural Language Processing，NLP)在文本信息提取过程中扮演非常重要的角色。文本挖掘过程中，如何在海量文本数据中提取出有用信息，对企业或者用户都是很有价值的。序列标注是一种最基础也是最常用的NLP方法。如何快速有效的预知中文序列中每个词语对应的标签(比如，名词，人名，地名，时间等)，对于关系挖掘，知识图谱等重要人工智能任务具有重要作用。

目前的中文序列标注在应用中主要存在如下四个问题：第一，中文分词效果不太好，比如人名“王保全”，如果事先没有人名库或者特殊处理(正则化或者其他语法处理)，人名就会被分词成“王”和“保全”。这样由于分词都没分出来，后续的标注肯定会出错。第二，当前大多数中文序列标注方法都采取隐马尔科夫模型(Hidden Markov Model,HMM)或者条件随机场(Conditional Random Field,CRF)等传统方法，虽然加上合适的词库取得的效果也还可以，但是HMM对序列整体的描述功能较弱，CRF过分依赖于特征的选择。第三，新兴的主流的深度学习方在NLP领域取得了很大的突破，尤其是循环神经网络(Recurrent NeuralNetwork，RNN)在NLP领域取得了优良表现。在英文序列标注方面已经有很多关于RNN用于NLP的成功案例，而在中文序列标注方面的案例却不太多。第四，针对不同的业务，当涉及到不同领域时，需要重新人工标注一份语料进行模型训练，由于模型对于训练语料的要求特别高，需要大量的准确标注的语料数据，这样会花费大量的人力物力。

基于此，针对上述现状中存在的问题，本发明提出了一种有效而且半自动的基于Bi-LSTM和CRF的文本序列标注系统及方法。

发明内容

为了解决上述现有技术的问题，本发明提供一种有效而且半自动的基于Bi-LSTM和CRF的文本序列标注系统及方法。

本发明解决其技术问题所采用的技术方案是：

基于Bi-LSTM和CRF的文本序列标注系统，包括：学习模块和标注模块，所述学习模块，用于将获取的语料输入预设的学习模型，根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签，利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配，并将匹配后的分类标签内的语料提供给所述标注模块；

所述标注模块包括分词模块、语料标注模块和调优模块，所述语料标注模块包括词性标注模块和实体识别模块，所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果；

其中，所述学习模型包括Bi-LSTM模型和CRF模型，所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入；

所述分词模块，利用分词算法将未知语料进行分类，利用匹配后的分类标签内的语料进行预测，分发给对应的语料标注模块；

所述语料标注模块，用于对分词模块分发的语料进行标注；

所述调优模块，用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。

进一步地，所述Bi-LSTM模型和CRF模型具体用于：

将相邻LSTM层产生的两个序列组成为一个新的序列，把新的序列作为下一层的输入。

进一步地，所述分词模块利用分词算法进行分词。

更进一步地，所述分词模块利用的分词算法为结巴分词。

进一步地，所述语料标注模块具体用于：判断分词模块分发的语料的标签是否与语料标注模块所对应的标注结果相匹配；

当判断为是时，对分词模块分发的语料进行标注；

当判断为否时，通过调优模块将分错的语料添加到分词模块中进行调优。

更进一步地，所述语料标注模块还具体用于：将标注的语料添加到分词模块中以及通过调优模块对语料进行正则化处理。

基于Bi-LSTM和CRF的文本序列标注方法，包括以下步骤：

步骤1、将获取的语料进行预处理；

步骤2、将步骤1中预处理后的语料输入预设的学习模型，调整学习模型的参数并保存；

步骤3、根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签，利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配，对于未知语料，利用分词算法进行分词，利用调整后的学习模型对分词后的未知语料进行初次标注；

步骤4、将步骤3中初次标注的未知语料进行调优，对调优后的语料进行最终标注。

进一步地，所述步骤1中的预处理包括合并大粒度分词和统一格式。

进一步地，所述步骤2中调整模型参数包括词向量维度、网络层数、隐含层节点个数、学习率和学习率衰减率。

进一步地，所述步骤4中的调优具体为：

a、对于分词没有结果的语料，在分词算法中加入词库强制分词；

b、对于训练语料中没有出现的语料，通过加入词库或者正则化处理方法进行调优。

与现有技术相比，本发明的有益效果是：

本发明使用户可以根据自己的需求对相应的词库进行调整，具有人机交互调整的功能，实现了同一领域自动标注，不同领域半自动标注过程，大大提升了中文自然语言处理在序列标注领域的效率，降低了人力标注成本，同时也可以将此系统及方法用于多个行业的文本信息提取。

附图说明

图1为本发明的系统流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例及附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明所述的基于Bi-LSTM和CRF的文本序列标注系统，包括：学习模块1和标注模块2，所述学习模块1，用于将获取的语料输入预设的学习模型，根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签，利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配，并将匹配后的分类标签内的语料提供给所述标注模块；

所述标注模块2包括分词模块201、语料标注模块203和调优模块202，所述语料标注模块203包括词性标注模块和实体识别模块，所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果，所述词性标注模块包括名词、形容词、动词、地点、标点、连词、副词、介词等的标注，所述实体识别模块包括人名、地名、机构名、时间等的标注；

其中，所述学习模型1包括Bi-LSTM模型和CRF模型，所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入；

所述分词模块201，利用分词算法将未知语料进行分类，利用匹配后的分类标签内的语料进行预测，分发给对应的语料标注模块；

所述语料标注模块203，用于对分词模块分发的语料进行标注；

所述调优模块202，用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。

在上述技术方案中，基于Bi-LSTM模型、CRF模型以及词库积累的中文序列标注系统。长短记忆神经网络(LSTM)是一种常见的RNN模型，具有优良的模型训练效果和对序列的长远记忆功能，因为LSTM有门机制，可以记忆或者遗忘前面内容。而Bi-LSTM能够充分利用上下文信息，不仅能利用序列前面的信息来预测可能出现的词语，同时也利用序列后面的信息对前面可能出现的词语进行预测。序列的输出层采用CRF的Viterbi解码预测序列对应的标签，利用联合概率来进一步优化序列的整体效果。将Bi-LSTM模型和CRF模型的Viterbi推导算法结合在一起训练中文序列标注模型，既考虑了词语标签的局部预测(Bi-LSTM)，又将整个序列的全局因素(CRF)连接在一起。通过多次训练测试得到合适的参数，用于后续自动标注系统。

具体实施时，所述Bi-LSTM模型和CRF模型具体用于：

具体实施时，所述分词模块201利用分词算法进行分词。

具体实施时，所述分词模块201利用的分词算法为结巴分词。

具体实施时，所述语料标注模块203具体用于：判断分词模块201分发的语料的标签是否与语料标注模块所对应的标注结果相匹配；

当判断为是时，对分词模块201分发的语料进行标注；

当判断为否时，通过调优模块202将分错的语料添加到分词模块201中进行调优。

具体实施时，所述语料标注模块203还具体用于：将标注的语料添加到分词模块201中以及通过调优模块202对语料进行正则化处理，例如，“2017年”和“6月8日”分别被识别为两个时间词，但是需要将这两个时间词合并成一个时间词。

基于Bi-LSTM和CRF的文本序列标注方法，包括以下步骤：

步骤1、将获取的语料进行预处理；

具体实施时，所述步骤1中的预处理包括合并大粒度分词和统一格式，大粒度分词表意能力更强，统一格式包括将全角字符转变成半角字符。

具体实施时，所述步骤2中调整模型参数包括词向量维度、网络层数、隐含层节点个数、学习率和学习率衰减率。

具体实施时，所述步骤4中的调优具体为：

本系统在用2014年人民日报的标注语料进行模型训练时，训练集占70％，验证集占20％，测试集(封闭性测试)占10％。训练语料中包括199490个中文词语和102个词性标签。训练模型含有两层Bi-LSTM层，每一层128个隐含节点，学习率0.1，最大迭代次数为6次。最终在验证集中平均准确率为99.1％，测试集中平均准确率为97.3％，实验结果证明此模型在序列标注中效果很好。

通过以上实施方式，系统按行业积累各行业词库，比如新闻行业，有一些特殊的新闻用语，可以应对各行业项目需求，通过对人工标注语料的多次训练和调优，以及对开放性语料的不停测试，实验结果表明效果不错，证明了此中文标注系统的有效性。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于Bi-LSTM和CRF的文本序列标注系统，包括：学习模块和标注模块，其特征在于，

所述学习模块，用于将获取的语料输入预设的学习模型，根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签，利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配，并将匹配后的分类标签内的语料提供给所述标注模块；

所述语料标注模块，用于对分词模块分发的语料进行标注；

2.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统，其特征在于，所述Bi-LSTM模型和CRF模型具体用于：

3.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统，其特征在于，所述分词模块利用分词算法进行分词。

4.根据权利要求3所述的基于Bi-LSTM和CRF的文本序列标注系统，其特征在于，所述分词模块利用的分词算法为结巴分词。

5.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统，其特征在于，所述语料标注模块具体用于：判断分词模块分发的语料的标签是否与语料标注模块所对应的标注结果相匹配；

当判断为是时，对分词模块分发的语料进行标注；

6.根据权利要求1或5所述的基于Bi-LSTM和CRF的文本序列标注系统，其特征在于，所述语料标注模块还具体用于：

将标注的语料添加到分词模块中以及通过调优模块对语料进行正则化处理。

7.基于Bi-LSTM和CRF的文本序列标注方法，其特征在于，包括以下步骤：

步骤1、将获取的语料进行预处理；

8.根据权利要求7所述的基于Bi-LSTM和CRF的文本序列标注方法，其特征在于，所述步骤1中的预处理包括合并大粒度分词和统一格式。

9.根据权利要求7所述的基于Bi-LSTM和CRF的文本序列标注方法，其特征在于，所述步骤2中调整模型参数包括词向量维度、网络层数、隐含层节点个数、学习率和学习率衰减率。

10.根据权利要求7所述的基于Bi-LSTM和CRF的文本序列标注方法，其特征在于，所述步骤4中的调优具体为：