CN109213997A

CN109213997A - 一种基于双向长短时记忆网络模型的中文分词方法

Info

Publication number: CN109213997A
Application number: CN201810933201.5A
Authority: CN
Inventors: 邵党国; 郑娜
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2019-01-15
Anticipated expiration: 2038-08-16
Also published as: CN109213997B

Abstract

本发明公开了一种基于双向长短时记忆网络模型的中文分词方法，首先获得任一领域的数据集，并将数据集分为训练集和测试集，然后将训练集进行预处理，将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理，再把处理好的训练集和数据集msr分别输入Bi‑LSTM神经网络模型中进行训练，得到训练集的模型X_Bi‑LSTM模型和msr_Bi‑LSTM模型，然后分别用X_Bi‑LSTM模型、msr_Bi‑LSTM模型对测试集进行标签预测，并对两种模型的预测概率进行权重组合，得到组合后的各汉字标签的概率，然后利用Viterbe算法对组合后的各标签概率进行计算得到各汉字属于各标签的最终概率，并将概率最大值所属标签作为各汉字的标签，从而完成中文分词，本发明可获得较好的分词结果，提高了分词的准确率。

Description

一种基于双向长短时记忆网络模型的中文分词方法

技术领域

本发明涉及一种基于双向长短时记忆网络模型的中文分词方法，属于自然语言处理领域。

背景技术

在中文中，词与词之间不存在分隔符，词本身也缺乏明显的形态标记，因此，中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序列，即中文分词，因而分词是中文自然语言处理的第一步，这是不同于其他语言的自然语言处理系统的重要特点，也是影响自然语言处理在中文信息处理中应用的重要因素。近年来，国内外众多学者在中文分词领域做了大量研究工作，取得了一定的研究成果。但是，从实用化、效率、功能角度看，其还不能满足实际需求。

公知的中文分词主要包括四种方法：1.基于词典的分词方法，如吴春颖(<基于二元语法的N-最大概率中文粗分模型>,2007,27(12):2902-2905)；2.基于统计的分词方法，如Tseng H(<A conditional random field word segmenter for sighan bakeoff 2005>,2005:168-171)；3.基于理解的分词方法，如Wu A(<Word segmentation in sentenceanalysis>,1998)；4.基于神经网络的分词方法，如Zheng X(<Deep learning for Chineseword segmentation and POS tagging>,2013)。其中基于词典的分词方法程序简单易行，分词速度快，但是其分词精度受词典的影响很大，而且不能处理歧义词。基于统计的分词方法只有训练语料规模足够大并且覆盖面足够广的情况下才可以获得较高的分词准确率，其新词识别能力相对较弱。基于理解的分词方法的思想是模拟人对句子的理解，在分词的同时进行句法、语义分析，这种方法需要大量的语言知识做支撑。基于神经网络的分词方法借助神经网络自动学习数据特征，避免了传统的分词方法由于人为设置的局限性，但是神经网络模型受上下文窗口大小的影响比较大，当窗口较大时容易引入过多特征带来的杂质信息并容易出现过拟合问题，而且传统的循环神经网络(如RNN)只是依靠句子顺序上的上文信息，并不能利用句子中的未来文本信息。

发明内容

本发明的目的在于提供一种基于双向长短时记忆网络模型的中文分词方法，本发明通过对某一领域内的信息训练来学习领域内的信息特征，对领域外的信息(msr)训练来学习领域外的特征，从而分别获得分词模型，通过以上分词模型对某一领域内信息进行分词时可获得较好的分词结果，提高了分词的准确率。

本发明的技术方案是：首先获得任一领域的数据集，并将数据集分为训练集和测试集，然后将训练集进行预处理，将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理，再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi-LSTM神经网络模型中进行训练，分别得到训练集的模型和msr_Bi-LSTM模型，训练集的模型记为X_Bi-LSTM模型，然后分别用X_Bi-LSTM模型、msr_Bi-LSTM模型对测试集进行标签预测，并对两种模型的预测概率进行权重组合，得到组合后的各汉字标签的概率，然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率，对比各汉字在各标签下的概率值，将概率最大值所属标签作为各汉字的标签，从而完成中文分词。

本发明方法的具体步骤如下：

Step1：首先获得任一领域的文本数据集，并将文本数据集分为训练集和测试集，然后将训练集进行预处理，预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注，其中对于多字词，B为多字词中的第一个字的标签，M为多字词中去除第一个字和最后一个字后其他字的标签，E为多字词中最后一个字的标签，S为单字词的标签，数据集msr为已标注完成的数据集，然后将标注后的训练集和数据集msr进行字嵌入处理，具体过程为根据标点符号对标注后的训练集和数据集msr进行切分，并将切分后的结果分别用数组data和label表示，其中data数据组包括每一个汉字，label数据组包括每一个汉字对应的标签，然后将data数据组和label数据组分别进行数字化处理，对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示，并存储在d[‘x’]中，对label数据组的标签用阿拉伯数字进行表示，并存储在d[‘y’]中，然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化，每个汉字转化成长度为n的向量，得到各汉字在1～n维度下的概率；

Step2：将Step1得到的训练集中的各汉字的向量和各汉字对应的标签的数据输入至Bi-LSTM神经网络模型中进行训练，得到训练集的模型X_Bi-LSTM模型，将数据集msr中的各数据输入至Bi-LSTM神经网络模型中进行训练，得到msr_Bi-LSTM模型；

Step3：利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测，分别得到两种预测概率P_1i、P_2i，其中P_1i表示利用X_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率，i＝B,M,E,S，P_2i表示利用msr_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率，然后将两种模型的预测概率进行权重组合，得到测试集中各汉字的标签综合预测概率P，公式如下：

P＝a*P_1i+b*P_2i；

Step4：利用Viterbi算法得出测试集中的各汉字在各标签下的概率，比较该汉字在各标签下的概率，取概率最大值所属标签作为各汉字最终的标签。

本发明方法应用在冶金领域，在预测冶金信息分词时，使用Bi-LSTM网络训练领域外信息和领域内信息分别获得较好的分词模型，通过权重结合领域外模型和领域内模型的预测结果，来解决冶金语料不足导致的模型不理想以及对冶金信息中域外单词分词的问题，实现对冶金信息的较好分词。

LSTM神经网络模型和Bi-LSTM神经网络模型的工作原理如下：

LSTM神经网络模型通过输入门、忘记门和输出门三种门对细胞的行为进行控制，门上的操作基于Sigmoid网络层和元素级的逐点乘积组成。通过Sigmoid输出介于0到1之间的数值用来表示信息的通过程度，其中1表示信息全部可以通过，0表示信息都不可以通过。

通过忘记门的Sigmoid层可以使细胞忘记信息，其中σ表示sigmod函数,W_f表示遗忘门的权重矩阵,h_t-1表示上一层的输出，x_t为当前层的输入，b_f为遗忘门的偏置项，f_t表示遗忘门的输出。

f_t＝σ(W_f·(h_t-1,x_t)+b_f)

当在细胞中存储信息时，首先通过输入门的Sigmoid获取将要更新的信息i_t，然后通过tanh函数创建新的向量最后用f_t乘以旧的细胞状态C_t-1实现要遗忘的信息，再与的乘积相加获得细胞状态的更新。W_i、b_i分别表示激活函数是sigmod函数时输入门的权重矩阵和输入门的偏置项,W_C、b_C分别表示激活函数是tanh函数时输入门的权重矩阵和输入门的偏置项,C_t表示当前细胞状态。

i_t＝σ(W_i·(h_t-1,x_t)+b_i)

通过输出门的Sigmoid层决定输出哪些信息。然后用tanh函数处理细胞的状态，最后两部分的乘积即为要输出的值。O_t表示输出过程的中间结果,W_o表示输出门的权重矩阵,h·表示上一序列的隐藏状态,x·表示本序列数据,b_o表示输出门的偏置项,h_t表示输出门的输出。

O_t＝σ(W_o·(h·,x·)+b_o)

h_t＝O_t·tanh(C_t)

双向LSTM即Bi-LSTM神经网络模型借助双向循环网络(Bidirectional RNN,BRNN)的思想，通过前向和后向两层分别从句子的前方和后方运行。由于Bi-LSTM可以同时捕获历史和未来两个方向上的长距离信息，所以分别把数据集msr和训练数据集经过字嵌入后输入Bi-LSTM神经网络中进行训练得到基于训练数据集的X_Bi-LSTM分词模型和基于数据集msr的msr_Bi-LSTM分词模型。

当通过Step3产生每个字对应的标签概率之后，需要通过标签推断层确定当前字最终对应的标签，本发明方法中采用Viterbi算法进行计算，具体为：当前字对应某个标签的概率等于前一个字在某个标签下的概率加上标签间的转移概率再加上通过训练得到的模型对其当前字预测得到该标签的概率，由于前一个字在四个标签下都有值，所以计算当前字在每个标签下的概率时会根据不同的转移概率得到多个值，选择最大的作为最终值，然后取每一列中最大概率值的作为当前字所属的标签即最短路径，得到每个字所属的最终标签。

本发明的有益效果是：

1、本发明通过对某一领域内的信息加入领域外的知识，并使用基于双向长短时记忆(Bi-LSTM)的深度学习模型对某一领域内的信息训练以学习某一领域内的特征，对领域外的信息(msr)训练以学习领域外的特征，进而分别获得两种分词模型，把领域外模型和领域内模型的预测结果进行权重的结合，再通过Viterbi处理解决了语料不足导致的模型不理想以及对信息中域外单词分词的问题。

2、本发明可获得较好的分词结果，提高了分词的准确率。

3、本发明与公知的分词方法相比，对特定领域的信息分词有针对性，实现较好的分词。

附图说明

图1为本发明的流程图；

图2为本发明实施例1的模型训练过程图；

图3为本发明实施例1的模型预测过程图；

图4为本发明实施例1中长短时记忆网络模型图；

图5为本发明实施例1中双向长短时记忆网络模型图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

实施例1：如图1所示，为基于双向长短时记忆网络模型在冶金领域的中文分词方法的工作流程，具体步骤为：

Step1：由于冶金信息领域缺乏权威的语料，所以爬取冶金信息网的数据，获得冶金领域的文本数据集，并将文本数据集分为训练集和测试集，然后将训练集进行预处理，预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注如表1所示，其中对于多字词，B为多字词中的第一个字的标签，M为多字词中去除第一个字和最后一个字后其他字的标签，E为多字词中最后一个字的标签，S为单字词的标签，数据集msr为已标注完成的数据集，然后将标注后的训练集和数据集msr进行字嵌入处理，具体过程为根据标点符号对标注后的训练集和数据集msr进行切分，并将切分后的结果分别用数组data和label表示如表2所示，其中data数据组包括每一个汉字，label数据组包括每一个汉字对应的标签，然后将data数据组和label数据组分别进行数字化处理，对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示，并存储在d[‘x’]中，对label数据组的标签用阿拉伯数字进行表示，并存储在d[‘y’]中，如表3所示，然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化，每个汉字转化成长度为n的向量，得到各汉字在1～n维度下的概率，如表4所示；

表1四词位标注形式

表2 data和label数据形式

表3 d[‘x’]和d[‘y’]数据形式

表4字嵌入

Step2：将Step1得到的训练集中的各汉字的向量和各汉字对应的标签的数据输入至Bi-LSTM神经网络模型中进行训练，得到训练集的模型X_Bi-LSTM模型，将数据集msr中的各数据输入至Bi-LSTM神经网络模型中进行训练，如图2所示，为本实施例模型的训练过程，得到msr_Bi-LSTM模型；

Step3：利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测，如图3所示，为本实施例发明的模型预测过程，分别得到两种预测概率P_1i、P_2i，其中P_1i表示利用X_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率，i＝B,M,E,S，P_2i表示利用msr_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率，然后将两种模型的预测概率进行权重组合，得到测试集中各汉字的标签综合预测概率P，如表5所示，公式如下：

P＝a*P_1i+b*P_2i；

表5字对应的标签概率

字号	8	43	32	88	36	198	7	2	41	163	...	...
													s	0.2	0.3	0.3	0.1	0.2	0.2	0.3	0.2	0.2	0.2	...	...
b	0.5	0.1	0.3	0.3	0.3	0.3	0.2	0.1	0.5	0.2	...	...
													m	0.1	0.2	0.1	0.1	0.3	0.4	0.4	0.4	0.1	0.4	...	...
e	0.3	0.4	0.3	0.5	0.2	0.1	0.1	0.3	0.3	0.2	...	...
													合计	1	1	1	1	1	1	1	1	1	1

本实施例的长短时记忆网络模型图如图4所示；

本实施例的双向长短时记忆网络模型图如图5所示；

Step4：利用Viterbi算法得出测试集中的各汉字在各标签下的概率，比较该汉字在各标签下的概率，如表6所示，取概率最大值所属标签作为各汉字最终的标签。

表6最终字对应的标签概率

字号	8	43	32	88	36	198	7	2	41	163	...	...
													s	0.1	0.3	0.1	0.3	0.2	0.1	0.2	0.1	0.1	0.1	...	...
b	0.5	0.2	0.5	0.1	0.5	0.2	0.1	0.2	0.5	0.2	...	...
													m	0.2	0.1	0.2	0.2	0.2	0.6	0.5	0.1	0.3	0.6	...	...
e	0.2	0.4	0.2	0.4	0.1	0.1	0.2	0.6	0.1	0.1	...	...

通过表6可以得出，字号8的标签为b，字号43的标签为e，字号32的标签为b，字号88的标签为e，字号36的标签为b，字号198的标签为m，字号7的标签为m，字号2的标签为e，字号41的标签为b，字号163的标签为m，等等，通过本发明方法对本冶金领域的中文数据完成了分词，且分词效果好，准确率高。

实施例2：本实施例方法同实施例1，不同之处在于，本实施例应用在非冶金领域，对选取的文本利用四词位(BEMS)标注，得到结果如表7所示：

表7四词位标注形式

根据标点符号对标注数据进行切分，并将切分后的结果分别用数组data和label表示如表8所示：

表8 data和label数据形式

其中data数据组包括每一个汉字，label数据组包括每一个汉字对应的标签，然后将data数据组和label数据组分别进行数字化处理，对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示，并存储在d[‘x’]中，对label数据组的标签用阿拉伯数字进行表示，并存储在d[‘y’]中，如表9所示，然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化，每个汉字转化成长度为n的向量，得到各汉字在1～n维度下的概率，如表10所示；

表9 d[‘x’]和d[‘y’]数据形式

表10字嵌入

字号	5	6	320	80	16	19	56	62	...	...
											第1维概率	0.01	0.05	0.05	0.11	0.12	0.16	0.04	0.13	...	...
第2维概率	0.23	0.13	0.11	0.05	0.05	0.09	0.21	0.05	...	...
											第3维概率	0.09	0.12	0.16	0.06	0.15	0.02	0.16	0.05	...	...
第4维概率	0.06	0.01	0.03	0.17	0.04	0.04	0.04	0.13	...	...
											第i维概率	...	...	...	...	...	...	...	...	...	...
第n维概率	0.11	0.06	0.02	0.04	0.06	0.15	0.08	0.05	...	...

利用得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测，并将预测概率进行权重组合，结果如表11所示：

表11字对应的标签概率

利用Viterbi算法得出测试集中的各汉字在各标签下的概率，比较该汉字在各标签下的概率，如表12所示，取概率最大值所属标签作为各汉字最终的标签。

表12最终字对应的标签概率

字号	5	6	320	80	16	19	56	62	63	37	...	...
													s	0.1	0.2	0.4	0.5	0.3	0.2	0.7	0.6	0.4	0.1	...	...
b	0.6	0.2	0.2	0.1	0.4	0.1	0.1	0.2	0.2	0.6	...	...
													m	0.1	0.1	0.2	0.1	0.2	0.2	0.1	0.1	0.3	0.1	...	...
e	0.2	0.5	0.2	0.3	0.1	0.5	0.1	0.1	0.1	0.2	...	...

通过表12可以得出，字号5的标签为b，字号6的标签为e，字号320的标签为s，字号80的标签为s，字号16的标签为b，字号19的标签为e，字号56的标签为s，字号62的标签为s，字号63的标签为s，字号67的标签为b。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于双向长短时记忆网络模型的中文分词方法，其特征在于，首先获得任一领域的数据集，并将数据集分为训练集和测试集，然后将训练集进行预处理，将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理，再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi-LSTM神经网络模型中进行训练，分别得到训练集的模型和msr_Bi-LSTM模型，训练集的模型记为X_Bi-LSTM模型，然后分别用X_Bi-LSTM模型、msr_Bi-LSTM模型对测试集进行标签预测，并对两种模型的预测概率进行权重组合，得到组合后的各汉字标签的概率，然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率，对比各汉字在各标签下的概率值，将概率最大值所属标签作为各汉字的标签，从而完成中文分词。

2.根据权利要求1所述的基于双向长短时记忆网络模型的中文分词方法，其特征在于：所述方法的具体步骤如下：

P＝a*P_1i+b*P_2i；

3.权利要求1～2所述的基于双向长短时记忆网络模型的中文分词方法应用在冶金领域。