CN112364623A

CN112364623A - 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法

Info

Publication number: CN112364623A
Application number: CN202011204830.8A
Authority: CN
Inventors: 于江德; 胡顺义; 王希杰; �谷川�; 赵红丹
Original assignee: Anyang Normal University
Current assignee: Anyang Normal University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-12

Abstract

本发明属于词法分析技术领域，公开了基于Bi‑LSTM‑CRF的三位一体字标注汉语词法分析方法，基于三位一体字标注汉语词法分析的思路构建模型的训练语料和测试语料；搭建Bi‑LSTM‑CRF模型；输入训练语料通过多次迭代训练Bi‑LSTM‑CRF模型；切分输入的汉语文本，并将其输入训练好的模型；确定输入汉语文本最终的词法信息标记序列；依据词法信息标记序列对输入文本进行汉语分词、汉语词性标注和汉语命名实体识别，获得最终的汉语词法分析结果。本发明免去采用传统机器学习建模的人工特征工程，将表示学习方法引入机器学习中，可以将特征表示、提取、选择交给模型自动完成，提升了效率，提高了汉语词法分析的精度。

Description

基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法

技术领域

本发明属于词法分析技术领域，具体涉及基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法。

背景技术

在中文信息处理领域，汉语词法分析是其中一项重要的基础性课题。它不仅是句法分析、语义分析、篇章理解等深层中文信息处理的基础，也是机器翻译、问答系统、信息抽取和阅读理解等应用的关键环节。汉语词法分析主要包括汉语分词、词性标注与命名实体识别三项子任务，下面分析目前已有技术方案时主要有两个关注点：(1)分别对三项子任务独立处理还是三项子任务融合起来一体化处理；(2)汉语词法分析建模以传统机器学习为主还是以近些年主流的深度神经网络为主。

就关注点(1)而言，在国内外相关研究中，大部分学者习惯将三项子任务独立起来进行考虑，尤其习惯于将汉语分词和词性标注依次处理，分词之后再在词序列基础上考虑词性标注问题。这种将汉语词法分析的三项子任务独立处理的方法容易造成错误向上传递放大累加，并且多类信息难以整合利用的不足。也有一些学者对汉语词法分析的分词、词性标注、命名实体识别三项任务的一体化进行了探索。文献[1](刘群，张华平，俞鸿魁，等. 基于层叠隐马模型的汉语词法分析.计算机研究与发展,2004,41(8):1421-1429.)公开了一种基于层叠隐马模型的汉语词法分析，该方法将汉语分词、词性标注和未登录词识别集成到一个完整的理论框架中，但该方法需要词典的支持，对词性标注也是在词序列的基础上进行。专利文献[2](安阳师范学院于江德等于2013年9月16日提交的公开号为CN103473221A的中国专利“汉语词法分析方法”)公开了一种基于传统机器学习模型的汉语词法分析方法，该方法将汉语词法分析的三项子任务统一到一个字序列标注框架中实现，真正实现了三项子任务一体化处理，但该方法需要进行大量的设定样本窗口大小、设置特征模板集、上下文特征选择等特征工程工作，这些工作需要大量的人工参与，设计并选择有效的特征费时费力。

就关注点(2)而言，在汉语词法分析建模方面，2015年之前多以传统机器学习来建模实现，2015年之后，多以深度神经网络为主建模实现。上面所提到的文献[1]和专利文献[2] 均采用传统机器学习建模实现，这些方法需要进行较多的人工特征工程，耗费人力较多。文献[3](姜维，王晓龙，关毅，等.基于多知识源的中文词法分析系统.计算机学报,2007, 30(1):137-145.)公开了一种基于混合语言模型的汉语词法分析系统，该方法将汉语分词、词性标注和命名实体识别集成到一个系统中，但实现时还是三项子任务独立处理，且都是基于传统机器学习建模。文献[4](谢腾，杨俊安，刘辉.基于BERT_BiLSTM_CRF模型的中文实体识别.计算机系统应用,2020,29(7):48-55.)公开了一种基于BERT_BiLSTM_CRF模型的中文命名实体识别方法，该方法使用深度神经网络实现中文命名实体识别。专利文献[5](平安科技有限公司于2019年4月22日提交的公开号为CN 110222329A的中国专利“一种基于深度学习的中文分词方法和装置”)公开了一种基于深度学习的中文分词方法和装置，该方法仅基于深度学习完成了汉语词法分析中的分词子任务。文献[4]和专利文献 [5]虽然使用深度神经网络对任务建模，但都是对汉语词法分析三项子任务之一进行处理。

鉴于此，特提出本发明。本发明提出一种将汉语词法分析的三项子任务统一到字序列标注框架中的三位一体字标注汉语词法分析方法，且基于Bi-LSTM-CRF(双向长短期记忆网络 -条件随机场，Bidirectional Long Short-Term Memory-Conditional Randomfield, Bi-LSTM-CRF)进行汉语词法分析建模，免去采用传统机器学习建模的人工特征工程，将表示学习方法引入机器学习中，可以将特征表示、提取、选择交给模型自动完成，在一定程度上减少了人工，提升了效率，提高了汉语词法分析的精度。

发明内容

本发明的目的在于：提供一种基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法，将汉语词法分析的三项子任务统一到字序列标注框架中，且基于Bi-LSTM-CRF进行汉语词法分析建模，免去采用传统机器学习建模的人工特征工程，将表示学习方法引入机器学习中，可以将特征表示、提取、选择交给算法自动完成，在一定程度上减少了人工，提升了效率，提高了汉语词法分析的精度。

本发明采用的技术方案如下：

基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法，该方法包括以下步骤：

(1)基于三位一体字标注汉语词法分析的思路构建模型的训练语料和测试语料，具体为：

(11)将汉语词法分析的三个子任务全部统一到字标注的框架中，在每个字的标记中包含了词位、词性、命名实体三类信息，形式为“词位_词性或命名实体类别”，字标记由两部分组成，中间用下划线隔开，下划线之前是词位信息，之后是词性或命名实体类别信息，每个字的标记“词位_词性或命名实体类别”称为该字的词法信息标记；

(12)将已经经过汉语词法分析，即已经进行了汉语分词、词性标注与命名实体识别之后的语料按三位一体字标注汉语词法分析方法的思路转换成字标注序列，即每个字对应一个词法信息标记，这里的字包含汉字及标点符号、数字、英文字母等非中文字符，转换得到三位一体字标注的汉语词法分析语料；

(13)将三位一体字标注汉语词法分析语料按一定比例划分为训练语料和测试语料，这些语料用于模型的迭代训练。

(2)搭建Bi-LSTM-CRF模型，采用该模型完成三位一体字标注汉语词法分析的训练和预测；所述Bi-LSTM-CRF模型如图1所示，具体如下：

(21)最上边是字向量层：用于接收字序列输入数据，输入的字序列数据是以字向量的方式输入到模型中，且模型训练前输入随机初始化的字向量，最终字向量在模型训练结束时得到；

(22)中间是Bi-LSTM层：由一层或多层双向长短期记忆网络构成，Bi-LSTM层能够使用输入的字序列的“历史”和“未来”信息，用于对所输入的字序列数据的特征进行有效提取计算，Bi-LSTM层的最后接一个节点数为词法信息标记类别数的全连接层；

(23)最下边是CRF层：通过前面两层的前馈计算后输入到CRF层，该层基于词法信息标记的转移概率矩阵，实现字序列的词法信息标记预测，得到字序列的最终词法信息标记序列；

(3)输入训练语料通过多次迭代训练搭建的Bi-LSTM-CRF模型，得到训练好的模型参数，这些参数包括训练语料中各个字的字向量，以及模型的权重参数、偏置项参数，还包括CRF 层的转移概率矩阵等；

(4)切分输入的汉语文本，并将其输入训练好的模型：将输入的汉语文本切分为多个语句，一个语句为一个字序列；将输入的汉语文本对应的字序列输入训练好的Bi-LSTM-CRF模型；

(5)确定输入汉语文本最终的词法信息标记序列：CRF层采用Viterbi算法确定所述输入的汉语文本对应的字序列的最终的词法信息标记序列；

(6)依据词法信息标记序列对输入文本进行汉语分词、汉语词性标注和汉语命名实体识别，从而获得最终的汉语词法分析结果。

进一步的，所述步骤(11)中，词位是指该字在所构成的特定词语中所占据的构词位置，规定字只有四种词位B、M、E、S，其中，B代表当前字占据一个多字词的词首，M代表当前字占据一个多字词的词中，E代表当前字占据一个多字词的词尾，S代表当前字是一个单字词。

进一步的，所述步骤(11)中，词性是该字所在的特定词语所属词语类别；其中，该字所在的词语若为命名实体，则标记中下划线后为相应命名实体类别。

进一步的，所述命名实体类别包括人名、地名、组织机构名三类，分别用PER、LOC、ORG标识。

进一步的，所述步骤(6)中，具体根据最终的词法信息标记序列中的“词位信息”进行汉语分词，得到分词结果；根据最终的词法信息标记序列中的“词性信息”进行汉语词性标注，得到词性标注结果；或根据最终的词法信息标记序列中的“命名实体信息”进行汉语命名实体识别，得到命名实体识别结果。

进一步的，其中，对于多字词的情况，选取词尾字的词法信息标记中的词性信息或命名实体信息作为整个词语的词性或命名实体。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)本发明中，将汉语词法分析的三项子任务：汉语分词、词性标注、命名实体识别统一到字序列标注框架中实现，每个字的标记中包含了词位、词性、命名实体三类词法信息，即基于三位一体词法信息标注的汉语词法分析，因此克服了错误向上传递放大累加，并且多类信息难以整合利用的不足，能显著提高汉语分词、词性标注、命名实体识别的精度。

(2)本发明中，基于Bi-LSTM-CRF进行汉语词法分析建模，免去采用传统机器学习建模的人工特征工程，将表示学习方法引入机器学习中，可以将特征表示、提取、选择交给算法自动完成，在一定程度上减少了人工，提升了效率。

(3)本发明中，对未登录词语也能较好的切分和标注，尤其是人名、地名、组织机构名三类命名实体。

附图说明

图1为本发明实施例1的Bi-LSTM-CRF模型示意图；

图2为本发明实施例1的三位一体字标注示意图；

图3为本发明实施例1的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例提供一种基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法，该方法包括以下步骤：

(1)基于三位一体字标注汉语词法分析的思路构建模型的训练语料和测试语料，具体为；

其中，词位是指该字在所构成的特定词语中所占据的构词位置，规定字只有四种词位B、 M、E、S，其中，B代表当前字占据一个多字词的词首，M代表当前字占据一个多字词的词中，E代表当前字占据一个多字词的词尾，S代表当前字是一个单字词；

其中，词性是该字所在的特定词语所属词语类别；其中，该字所在的词语若为命名实体，则标记中下划线后为相应命名实体类别；

其中，所述命名实体类别包括人名、地名、组织机构名三类，分别用PER、LOC、ORG标识。

例如：字串序列“小华去学术论坛开会”，汉语词法分析结果为“小华/PER去/V学术/ORG论坛/ORG开会/Vi”。

(13)将三位一体字标注汉语词法分析语料按一定9∶1的比例划分为训练语料和测试语料，这些语料用于模型的迭代训练。

如下表1，列出了训练语料中所有的词法信息标记：

表1

(23)最下边是CRF层：通过前面两层的前馈计算后输入到CRF层，该层基于词法信息标记的转移概率矩阵，实现字序列的词法信息标记预测，得到字序列的最终的词法信息标记序列；

具体的，根据最终的词法信息标记序列中的“词位信息”进行汉语分词，得到分词结果；根据最终的词法信息标记序列中的“词性信息”进行汉语词性标注，得到词性标注结果；或根据最终的词法信息标记序列中的“命名实体信息”进行汉语命名实体识别，得到命名实体识别结果；其中，对于多字词的情况，选取词尾字的词法信息标记中的词性信息或命名实体信息作为整个词语的词性或命名实体。

例如，字串序列“小华去学术论坛开会”，按三位一体字标注汉语词法分析构建语料的思路输入训练好的模型可以得到该字串的标注结果，如图2所示。再由该字串的词法信息标记序列可以得到最终的汉语词法分析结果：“小华/PER去/V学术论坛/ORG开会/Vi”以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法，其特征在于，该方法包括以下步骤：

(1)基于三位一体字标注汉语词法分析的思路构建模型的训练语料和测试语料，具体步骤如下：

(13)将三位一体字标注汉语词法分析语料按一定比例划分为训练语料和测试语料，这些语料用于模型的迭代训练，

(2)搭建Bi-LSTM-CRF模型，采用该模型完成三位一体字标注汉语词法分析的训练和预测，具体如下：

(3)输入训练语料提高多次迭代训练搭建的Bi-LSTM-CRF模型，得到训练好的模型参数，这些参数包括训练语料中各个字的字向量，以及模型的权重参数、偏置项参数，还包括CRF层的转移概率矩阵等；

2.根据权利要求1所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法，其特征在于，所述步骤(11)中，词位是指该字在所构成的特定词语中所占据的构词位置，规定字只有四种词位B、M、E、S，其中，B代表当前字占据一个多字词的词首，M代表当前字占据一个多字词的词中，E代表当前字占据一个多字词的词尾，S代表当前字是一个单字词。

3.根据权利要求1所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法，其特征在于，所述步骤(11)中，词性是该字所在的特定词语所属词语类别；其中，该字所在的词语若为命名实体，则标记中下划线后为相应命名实体类别。

4.根据权利要求3所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法，其特征在于，所述命名实体类别包括人名、地名、组织机构名三类，分别用PER、LOC、ORG标识。

5.根据权利要求1所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法，其特征在于，所述步骤(6)中，具体根据最终的词法信息标记序列中的“词位信息”进行汉语分词，得到分词结果；根据最终的词法信息标记序列中的“词性信息”进行汉语词性标注，得到词性标注结果；或根据最终的词法信息标记序列中的“命名实体信息”进行汉语命名实体识别，得到命名实体识别结果。

6.根据权利要求5所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法，其特征在于，对于多字词的情况，选取词尾字的词法信息标记中的词性信息或命名实体信息作为整个词语的词性或命名实体。