CN108491372B

CN108491372B - 一种基于seq2seq模型的中文分词方法

Info

Publication number: CN108491372B
Application number: CN201810094751.2A
Authority: CN
Inventors: 史景伦; 刘玉德; 宁培阳; 王桂鸿
Original assignee: South China University of Technology SCUT
Current assignee: Southern Theater Command General Hospital of PLA
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2021-06-08
Anticipated expiration: 2038-01-31
Also published as: CN108491372A

Abstract

本发明公开了一种基于seq2seq模型的中文分词方法，包括：步骤1、对文本语料进行预处理，把输入的每一个句子中的文字按照字频高低转为汉字数字序列，并按照字在词中的位置，转化为对应的标签序列；步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中，输出字向量矩阵；步骤3、将步骤2得到的字向量矩阵采用mini‑batch进行分块，输入到采用注意力机制的seq2seq模型中，得到预测标签序列；步骤4、序列后处理，将步骤3中的预测标签序列与原始文本语料的标签序列进行比对，按每个标签的含义合成最终分词后的句子，按空格分隔开。所述方法采用seq2seq深度学习框架，结合注意力机制用于中文分词任务当中，有效提高了分词的准确率。

Description

一种基于seq2seq模型的中文分词方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于seq2seq模型的中文分词方法。

背景技术

中文分词是自然语言处理领域中一项至关重要的基础研究技术，指的是将一个中文字符串切分成多个单独的词。中文分词与英文的一个最大的区别是，英文句子中有天然的空格作为分隔符，而中文句子中并没有。最小单元若采用字，则字的含义较为含糊。一般在自然语言处理中，词是语言里最小的、可以自由运用的单位，所以分词中的质量直接决定了句子可否被正确理解。此外，中文分词也是自然语言处理里面其他上层应用的一个关键步骤，像汉语文本自动标注、自动摘要、机器翻译、搜索引擎、文本分类等，这些任务的准确率极大依赖于分词的准确性。

目前的分词方案有如下几种：(1)基于字典的字符串匹配方法；(2)基于语言规则的方法；(3)基于传统概率统计机器学习的方法；(4)基于深度学习的方法。基于字典的方法较为简单，速度较快，但对歧义和未登录的词分词效果差。基于语法规则的方法是由语言专家提取出语言的特征来作为分词的根据，在通用体域准确率较好，但在特定领域适应性差，且高度依赖语言专家的领域知识。基于机器学习的方法有隐马尔可夫模型、条件随机场等，这种利用概率的方法按照一些规则，对数据进行自学习，能平等地看待词典词和未登录词，但依旧受限于规则的制定和特征的提取。基于深度学习方法的好处是可以实现通过数据对模型进行训练，自动提取模型中主要的特征，并且有更强大的空间与时间的记忆性，像CNN和LSTM。目前主流方法采用的是端到端的LSTM模型，但依旧存在长时信息丢失的问题，端到端的设计也限制了网络的进一步修改。

发明内容

本发明的目的是针对现有技术的不足，提供了一种基于seq2seq模型的中文分词方法，所述方法采用seq2seq深度学习框架，结合注意力机制用于中文分词任务当中，有效提高了分词的准确率。

本发明的目的可以通过如下技术方案实现：

一种基于seq2seq模型的中文分词方法，所述方法包括以下步骤：

步骤1、对文本语料进行预处理，把输入的每一个句子中的文字按照字频高低转为汉字数字序列，并按照字在词中的位置，转化为对应的标签序列；

步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中，输出字向量矩阵；

步骤3、将步骤2得到的字向量矩阵采用mini-batch进行分块，输入到采用注意力机制的seq2seq模型中，得到预测标签序列，其中seq2seq模型包括编码层和解码层；

步骤4、序列后处理，将步骤3中的预测标签序列与原始文本语料的标签序列进行比对，按每个标签的含义合成最终分词后的句子，按空格分隔开。

进一步地，所述seq2seq模型的编码层采用双向GRU层，每个时序的输出为h_j，其中，

表示前向后向的每个时序的输出。

进一步地，所述seq2seq模型的解码层包括单向的GRU层、softmax层和维特比算法层，并结合了注意力机制。

进一步地，所述单向的GRU层每个时序的隐藏层输出为s_i＝f(y_i-1,s_i-1,c_i)，其中i为时间序号，y_i是预测标签输出，c_i为注意力机制输出。

进一步地，所述注意力机制输出c_i的具体公式为：

其中权重a_ij表示公式为：

上式e_ij＝a(s_i-1,h_j)表示一种对齐模型。

进一步地，将单向的GRU层每个时序的隐藏层输出s_i输入到softmax层后得到y_i＝p(y_i|θ)＝softmax(y_i-1,s_i,c_i)，在训练阶段采用Adam优化算法进行迭代，在测试阶段则把y_i输入到维特比层进行纠错后再输出预测标签序列y_i，全部预测标签序列y_i组成Y，再输入步骤4进行序列后处理。

进一步地，所述方法采用的标签系统是{BMES}标签系统，其中B指Begin表示词头，M指Middle表示词中，E指End表示词尾，S指Single表示单个字的词。

上述方法的思想是把标签当成序列看待，转为序列生成序列的问题。除了步骤2中字向量的初始化是采用GLOVE模型训练得到的参数外，其他神经单元均采用区间[-1,1]的截断高斯分布进行初始化。

本发明与现有技术相比，具有如下优点和有益效果：

本发明基于seq2seq模型的中文分词方法采用seq2seq深度学习框架，结合注意力机制用于中文分词任务当中，能更加充分地利用句子的上下文信息与局部信息，有效提高了分词的准确率。

附图说明

图1为本发明实施例基于seq2seq模型的中文分词方法的整体流程图。

图2为本发明实施例seq2seq模型中采用的注意力机制结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供了一种基于seq2seq模型的中文分词方法，以SIGHAN Bakeoff 2005数据集MSR为训练数据集对所述方法进行详细说明，整体流程图如图1所示，具体包括以下步骤：

步骤1：对训练语料进行预处理。MSR训练数据集是已经分好词的句子，先统计数据集的基本信息。根据字频高低对数据集的每个字进行排序，并转为相应的汉字数字序号，生成数字序列a。标签采用{BMES}，B指Begin表示词头，M指Middle表示词中，E指End表示词尾，S指Single表示单个字的词。按照字在词的位置，转化成对应的标签序列b。如输入句子为“我喜欢中国”，输出数字序列a＝{12，356，232，98，812}，b＝{S，B，E，B，E}，并保存每个句子的字数。

步骤2：将步骤1中得到的数字序列a按句输入到字向量转化层中，输出字向量矩阵x，字向量输出维度为100维。为了让字符的表示更加具有可比性，字向量采用较为成熟的GLOVE模型对中文维基百科语料库训练得到。因此，像一个汉字的对应字向量类似为：<0.2138，-0.4592，-.8213，...>，故整个数据集的输出为一个大小[m，maxlen，100]的三维矩阵x，其中m为句子数，maxlen是最长的句子长度。

步骤3：将步骤2中得到的字向量矩阵x采用mini-batch进行分块，输入到采用注意力机制的seq2seq模型中。其中seq2seq模型由编码层和解码层构成，如图1所示。

a：编码层，采用双向的GRU层，节点数定为80个，输入为x，前向的输出为

后向的输出为

两者采用联接方式，组成

在整个句子都输入到编码层后，再输出到解码层。

b：解码层，采用单向的GRU层、softmax层和维特比算法层，并结合了注意力机制。其中GRU层的节点数为60，每个时序的隐藏层输出s_i与编码器的上一个时序的输出y_i-1、上一个时序的隐藏层输出s_i-1、编码层通过注意力机制得到的中间语义信息c_i有关，即s_i＝f(y_i-1,s_i-1,c_i)。

其中中间语义信息是编码层结合注意力机制训练得到的，如图2所示，它对编码层的每个时序进行加权分配编码器每个时序的权重，权重大的时序对解码的输出影响较大，有如下公式：

其中权重a_ij表示公式为：

上式e_ij＝a(s_i-1,h_j)表示一种对齐模型，在本实施例中具体的的对齐模型可用如下公式表示：

e_ij＝v^Ttanh(Ws_i-1+Vh_j) (3)

对齐模型与整个seq2seq模型放在一起进行训练，联合公式(2)与(3)就可以得到权重α_ij，再联合公式(1)得到c_i，最后求出s_i。

接着，s_i输入到softmax层，把分类信息转为四类标签的概率输出，得到标签的概率序列y_i＝p(y_i|θ)＝softmax(y_i-1,s_i,c_i)。在训练阶段，利用交叉熵作为损失函数，为了加快训练速度，采用Adam优化算子，学习率采用自学习的方式，初始学习率为0.0003。另外，batch的大小设置为256，模型的权重均采用区间[-1,1]的截断高斯分布初始化，并采用early stopping的方法防止过拟合。在测试阶段，利用句子的真实长度控制句子标签的长度，并引入了维特比算法对softmax层输出的概率进行进一层纠错。维特比算法利用动态规划的思想排除不合理的标签序列，如“E”或“M”开头的词标签，得到全局最优且合理的标签序列，即Y＝viterbi(Y)。这时，输出的即为预测标签序列Y，如“S,B,E,B,E”

步骤4：序列后处理，将步骤3得到的预测标签序列Y与原始的汉字句子进行一一比对，按每个标签的含义合成最终分词后的句子E，按空格分隔开。如“我喜欢中国”的输出标签为“S,B,E,B,E”,最后会合成已分好词的句子“我喜欢中国”。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于seq2seq模型的中文分词方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于seq2seq模型的中文分词方法，其特征在于，所述seq2seq模型的编码层采用双向GRU层，每个时序的输出为h_j，其中，

表示前向后向的每个时序的输出。

3.根据权利要求1所述的一种基于seq2seq模型的中文分词方法，其特征在于，所述seq2seq模型的解码层包括单向的GRU层、softmax层和维特比算法层，并结合了注意力机制。

4.根据权利要求3所述的一种基于seq2seq模型的中文分词方法，其特征在于，所述单向的GRU层每个时序的隐藏层输出为s_i＝f(y_i-1,s_i-1,c_i)，其中i为时间序号，y_i是预测标签输出，c_i为注意力机制输出。

5.根据权利要求4所述的一种基于seq2seq模型的中文分词方法，其特征在于，所述注意力机制输出c_i的具体公式为：

其中：h_j为每个时序的输出；权重a_ij表示公式为：

上式e_ij＝a(s_i-1,h_j)表示一种对齐模型。

6.根据权利要求4所述的一种基于seq2seq模型的中文分词方法，其特征在于，将单向的GRU层每个时序的隐藏层输出s_i输入到softmax层后得到y_i＝softmax(y_i-1,s_i,c_i)，在训练阶段采用Adam优化算法进行迭代，在测试阶段则把y_i输入到维特比层进行纠错后再输出预测标签序列y_i，全部预测标签序列y_i组成Y，再输入步骤4进行序列后处理。

7.根据权利要求1所述的一种基于seq2seq模型的中文分词方法，其特征在于，所述方法采用的标签系统是{BMES}标签系统，其中B指Begin表示词头，M指Middle表示词中，E指End表示词尾，S指Single表示单个字的词。