CN111209749A

CN111209749A - 一种将深度学习应用于中文分词的方法

Info

Publication number: CN111209749A
Application number: CN202010000500.0A
Authority: CN
Inventors: 曾诚; 张敏; 温超东; 任俊伟; 谭道强; 盛潇
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-29

Abstract

本发明属于计算机语言处理技术领域，尤其是一种将深度学习应用于中文分词的方法，针对循环神经网络进行中文分词时复杂性高，分词速度慢且容易出现长期依赖的问题，现提出以下方案，包括如下步骤，先进行数据预处理，再构建用于模型输入的字典，最后使用模型进行训练，数据预处理包括借助文中原有的标点符号，段落分隔符等具有分割作用的符号对文档进行切分，提取句子的字特征。本发明通过Universal‑Transformer和条件随机场的分词方法，运用了BPEmd、Universal‑Transformer和条件随机场结合的方式进行中文分词，在充分利用多种不同算法各自的优势，并且通过庞大的训练语料数据集合不断更新迭代模型的参数，依赖于模型的强大学习能力，使得中文分词结果能够更加的准确。

Description

一种将深度学习应用于中文分词的方法

技术领域

本发明涉及计算机语言处理技术领域，尤其涉及一种将深度学习应用于中文分词的方法。

背景技术

自然语言处理是信息时代最重要的技术之一，而中文分词(Chinese WordSegmentation)就是将汉字序列切分成一个个单独的词的过程，它是进行自然语言处理的基础，分词应用领域十分广泛，比如词性标注、命名实体识别、语音合成、自动分类、机器翻译等，进行这些任务时，最细粒度的是词语，由词语组成句子，句子再组成段落、文章，传统的分词方法基于统计，这类方法的优点是简单，便于实现，而且效率一般比较高，但准确性不高，对于歧义问题无法很好的解决，特定领域的专业性文档更是如此；基于深度学习的分词方法，泛化能力很强，不依赖于词典，从大规模的语料集合中进行训练，准确性相比较传统分词方法得到了大幅度的提升，但是算法复杂度高，很容易出现梯度消失或梯度爆炸的问题，同时严重依赖于所选取的语料集合，从而发生过拟合。

目前深度学习中文分词算法主要是基于长短时记忆网络(LSTM)为代表的循环神经网络模型及其衍生模型，但循环神经网络的计算是顺序的，也就是说相关算法只能依次从左到右或者从右到左计算，这种机制带来了两个问题：时间片t的计算依赖t-1时刻的计算结果，这样就限制了模型的并行计算能力；顺序计算的过程中信息会丢失，尽管LSTM等门机制的结构一定程度上缓解了长期依赖问题，但是对于特别长期的依赖现象，LSTM依旧无能为力。

发明内容

基于循环神经网络进行中文分词时复杂性高，分词速度慢且容易出现长期依赖的问题，本发明提出了一种将深度学习应用于中文分词的方法。

本发明提出的一种将深度学习应用于中文分词的方法，包括如下步骤：

S1：数据预处理，借助文中原有的标点符号，段落分隔符等具有分割作用的符号对文档进行切分，提取句子的字特征，得到第一数据；

S2：构建用于模型输入的字典，字典包括源字典src_dict和目标字典tgt_dict两部分，将第一数据进一步处理构建用于模型输入的字典，得到第二数据；

S3：使用模型进行训练，将src_dict和tgt_dict输入到训练模型中，使用BPEmd模型对预处理的数据进行字嵌入预训练，第一数据作为Universal-Transformer的输入，得到维度增加后的特征向量，第二数据作为CRF层的输入，得到目标字向量模型。

优选地，所述S1中字特征包括四种词位置，分别为：词的首字B、词的中间字M、词的尾字E、单字成词S，通过词位置对目标语料数据进行标注得到第一数据，将语料数据转化成为json格式，为了加速训练将第一数据转为hdf5格式。

优选地，用空格把语料数据集合切分成句子序列，再用制表符“\t”把句子序列切分成单个字符和带有字符对应的词位置标注两个序列，遍历两个序列，统计每个字符出现的频次，如果频次小于阈值5则选择忽略，最终得到源字典src_dict和目标字典tgt_dict。

优选地，所述S3中使用模型进行训练，得到训练的模型包括：

S31：使用BPEmd模型对预处理的数据进行字嵌入预训练，使字向量的字特征维度增加，得到维度增加后的特征向量；

S32：所述S1中的第一数据作为Universal-Transformer的输入，模型编码某个字符，与序列中其他字符进行运算，得到该字符与序列中左右字符的句法和语义关系编码，得到提取了字符上下文关系特征的向量；

S33：所述S1中的第二数据作为CRF层的输入，对语料数据的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到目标字向量模型。

优选地，准备足够大的训练语料数据集合，确定期望的确定期望的词表大小，将单词拆分为字符序列并在末尾添加后缀“</w>”，统计单词频率，统计每一个连续字节对的出现频率，选择最高频者合并成新的，重复前述步骤直到达到设定的词表大小或下一个最高频的字节对出现频率为1，其中停止符"</w>"的意义在于表示词后缀，随着合并次数的增加。

优选地，所述S32中，Universal-Transformer模型输入一个字符序列，由编码器和解码器提取字符之间的语义语法特征后，根据任务类型输出另一个字符序列，从编码器输入的句子首先会经过一个自注意力层，这层帮助编码器在对每个字符编码时关注输入序列的其他字符，自注意力层的输出会传递到前馈神经网络中，前馈网络是一个Transition层，通过共享权重的方法循环计算，这里的循环是指深度循环，每个位置的单词对应的前馈神经网络都完全一样，编码器的输出作为解码器的输入，解码器中也有编码器的自注意力层和前馈层，这两个层之间还有一个注意力层，用来关注输入序列的相关部分，比如一个序列序列(a,b,c,d)，先经过embedding表示成(

,

)，在经过一层attention+ transition表示成(

,

)，如果是循环神经网络，要先计算

，再计算

和

，而transformer的自注意力层可以同时计算(

,

)，再计算t+1的，这样，每个 self-attention+transition的输出

可以表示为：

这里Transition function可以和之前一样是全连接层，也可以是卷积层。

Universal-Transformer的位置嵌入考虑字符的位置和时间维度，每一次循环都会重新做一次坐标嵌入。

优选地，所述S33中，把输出数据输入到CRF模型中，对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到目标模型，CRF使得标记序列的每个元素依赖于观察序列中相互联系的特征，而且模型可以基于特征的重要性来赋予各特征不同的权重，模型中可以加入一些约束来保证最终预测结果是有效的，这些约束可以在训练数据时被CRF自动学习得到，给定观察序列X，如果目标序列Y的条件概率分布p(Y|X)满足马尔科夫性：

那么p(Y|X)为线性链条条件随机场，在标注问题中，对于输入的可观测序列，某个特定的状态序列的概率定义为：

其中，

为转移函数,表示观察序列在其标注序列在

和

之间的转移概率，

为状态函数，表示对于观察序列X第i位置的标记为y:的概率，

、

分别对应着相应函数的权重，需要从训练样本中估计出来。

本发明中的有益效果为：

通过Universal-Transformer和条件随机场的分词方法，运用了BPEmd、Universal-Transformer和条件随机场结合的方式进行中文分词，在充分利用不同算法各自的优势，并且通过庞大的训练语料数据集合不断更新迭代模型的参数，依赖于模型的强大学习能力，使得中文分词结果能够更加的准确。

附图说明

图1为本发明提出的一种将深度学习应用于中文分词的方法的流程图；

图2为本发明提出的一种将深度学习应用于中文分词的方法的训练语料数据集合的预处理流程流程图；

图3为本发明提出的一种将深度学习应用于中文分词的方法的Universal-Transformer的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-3，一种将深度学习应用于中文分词的方法，包括如下步骤：

S1中字特征包括四种词位置，分别为：词的首字B、词的中间字M、词的尾字E、单字成词S，通过词位置对目标语料数据进行标注得到第一数据，将语料数据转化成为json格式，为了加速训练将第一数据转为hdf5格式，借以切分文档的分割符号，先将训练语料集合分割成为短句子序列，再提取每个字的词位置得到字向量，能有效降低中文分词的人工特征工程量，提高分词的准确率。

如未预处理的文字格式为：程序员\n 张某某\nr \w通过上述的数据转换为：程序员张某某。 B-N I-N I-N B-NR I-NR I-NR S-W。

S2中src_dict为遍历第一数据，根据阈值统计出来的单个字符，tgt_dict为根据阈值统计出来的单个字符对应的词位置，这里定义阈值为5，小于该阈值的字将被忽略。

其中，用空格把语料数据集合切分成句子序列，再用制表符“\t”把句子序列切分成单个字符和带有字符对应的词位置标注两个序列，遍历两个序列，统计每个字符出现的频次，如果频次小于阈值5则选择忽略，最终得到源字典src_dict和目标字典tgt_dict，得到的字典详细记录了字典名称、字符数量、字符切分条件、包含英文字符统一规划为小写、对于未登录词用<UNK>统一标记。

S3中使用模型进行训练，得到训练的模型包括：

其中，BPEmd模型或BPE编码是一种简单的数据压缩形式，将连续字节数据替换为该数据中不存在的字节，在后期使用时用替换表重建原始数据，具体来说，准备足够大的训练语料数据集合，确定期望的确定期望的词表大小，将单词拆分为字符序列并在末尾添加后缀“</w>”，统计单词频率，目前粒度是字符，例如，“low”的频率为5，那么我们将其改写为“low </w>”：5统计每一个连续字节对的出现频率，选择最高频者合并成新的，重复前述步骤直到达到设定的词表大小或下一个最高频的字节对出现频率为1，其中停止符"</w>"的意义在于表示词后缀，随着合并次数的增加，此表的大小通常先增加后减小。

S32中，Universal-Transformer模型输入一个字符序列，由编码器和解码器提取字符之间的语义语法特征后，根据任务类型输出另一个字符序列，从编码器输入的句子首先会经过一个自注意力（self-attention）层，这层帮助编码器在对每个字符编码时关注输入序列的其他字符，自注意力层的输出会传递到前馈（feed-forward）神经网络中，前馈网络是一个Transition层，通过共享权重的方法循环计算，这里的循环是指深度（depth）循环，每个位置的单词对应的前馈神经网络都完全一样，编码器的输出作为解码器的输入，解码器中也有编码器的自注意力（self-attention）层和前馈（feed-forward）层，这两个层之间还有一个注意力层，用来关注输入序列的相关部分，比如一个序列序列(a,b,c,d)，先经过embedding表示成(

,

)，在经过一层attention+transition表示成(

,

)，如果是循环神经网络，要先计算

，再计算

和

，而transformer的自注意力层可以同时计算(

,

)，再计算t+1的，这样，每个self-attention+transition 的输出

可以表示为：

S33中，把输出数据输入到CRF模型中，对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到目标模型，CRF使得标记序列的每个元素依赖于观察序列中相互联系的特征，而且模型可以基于特征的重要性来赋予各特征不同的权重，它不同于最大熵模型在每一个节点归一化从而导致只能找到局部最优解，而是对所有的特征统一做全局归一化操作，所以解决了标记偏置问题，模型中可以加入一些约束来保证最终预测结果是有效的，这些约束可以在训练数据时被CRF自动学习得到，给定观察序列X，如果目标序列Y的条件概率分布p(Y|X)满足马尔科夫性：

其中，

为转移函数,表示观察序列在其标注序列在

和

之间的转移概率，

为状态函数，表示对于观察序列X第i位置的标记为y:的概率，

、

分别对应着相应函数的权重，需要从训练样本中估计出来。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种将深度学习应用于中文分词的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种将深度学习应用于中文分词的方法，其特征在于，所述S1中字特征包括四种词位置，分别为：词的首字B、词的中间字M、词的尾字E、单字成词S，通过词位置对目标语料数据进行标注得到第一数据，将语料数据转化成为json格式，为了加速训练将第一数据转为hdf5格式。

3.根据权利要求2所述的一种将深度学习应用于中文分词的方法，其特征在于，所述S2中用空格把语料数据集合切分成句子序列，再用制表符“\t”把句子序列切分成单个字符和带有字符对应的词位置标注两个序列，遍历两个序列，统计每个字符出现的频次，如果频次小于阈值5则选择忽略，最终得到源字典src_dict和目标字典tgt_dict。

4.根据权利要求3所述的一种将深度学习应用于中文分词的方法，其特征在于，所述S3中使用模型进行训练，得到训练的模型步包括：

S33：所述S2中的第二数据作为CRF层的输入，对语料数据的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到目标字向量模型。

5.根据权利要求4所述的一种将深度学习应用于中文分词的方法，其特征在于，准备足够大的训练语料数据集合，确定期望的确定期望的词表大小，将单词拆分为字符序列并在末尾添加后缀“</w>”，统计单词频率，统计每一个连续字节对的出现频率，选择最高频者合并成新的，重复前述步骤直到达到设定的词表大小或下一个最高频的字节对出现频率为1，其中停止符"</w>"的意义在于表示词后缀，随着合并次数的增加。

6.根据权利要求5所述的一种将深度学习应用于中文分词的方法，其特征在于，所述 S32中，Universal-Transformer模型输入一个字符序列，由编码器和解码器提取字符之间的语义语法特征后，根据任务类型输出另一个字符序列，从编码器输入的句子首先会经过一个自注意力层，这层帮助编码器在对每个字符编码时关注输入序列的其他字符，自注意力层的输出会传递到前馈神经网络中，前馈网络是一个Transition层，通过共享权重的方法循环计算，这里的循环是指深度循环，每个位置的单词对应的前馈神经网络都完全一样，编码器的输出作为解码器的输入，解码器中也有编码器的自注意力层和前馈层，这两个层之间还有一个注意力层，用来关注输入序列的相关部分，比如一个序列序列(a,b,c,d)，先经过embedding表示成(

,

)，在经过一层attention+transition表示成(

,

)，如果是循环神经网络，要先计算

，再计算

和

，而transformer的自注意力层可以同时计算(

,

)，再计算t+1的，这样，每个self-attention+transition的输出

可以表示为：

这里Transition function可以和之前一样是全连接层，也可以是卷积层；Universal-Transformer的位置嵌入考虑字符的位置和时间维度，每一次循环都会重新做一次坐标嵌入。

7.根据权利要求6所述的一种将深度学习应用于中文分词的方法，其特征在于，所述S33中，把输出数据输入到CRF模型中，对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到目标模型，CRF使得标记序列的每个元素依赖于观察序列中相互联系的特征，而且模型可以基于特征的重要性来赋予各特征不同的权重，模型中可以加入一些约束来保证最终预测结果是有效的，这些约束可以在训练数据时被CRF自动学习得到，给定观察序列X，如果目标序列Y的条件概率分布p(Y|X)满足马尔科夫性：

其中，

为转移函数,表示观察序列在其标注序列在

和

之间的转移概率，

为状态函数，表示对于观察序列X第i位置的标记为y:的概率，

、

分别对应着相应函数的权重，需要从训练样本中估计出来。