CN112464663A

CN112464663A - 一种多特征融合的中文分词方法

Info

Publication number: CN112464663A
Application number: CN202011399750.2A
Authority: CN
Inventors: 王会珍; 姜涛; 张新新
Original assignee: Xiaoniu Situo Beijing Technology Co ltd
Current assignee: Xiaoniu Situo Beijing Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-09

Abstract

本发明公开一种多特征融合的中文分词方法，包括以下步骤：1)模型构建，对输入文本序列进行分布式向量化，得到词向量、位置向量以及偏旁部首向量表示，作为分词模型的嵌入层；将BilSTM网络层和CRF线性层结合训练，得到中文分词模型；2)模型训练，使用已标注结果的文本数据输入到上述BiLSTM‑CRF模型，以此训练模型；3)模型预测，使用训练得到的基于BilSTM‑CRF的中文分词模型，将待分词句子序列输入到模型中，从而得到分词标签序列。本发明将标注文本中的词向量、位置向量和偏旁部首向量融合到基于BiLSTM‑CRF的深度学习模型，用于提升自然语言处理领域中中文分词任务的准确性。

Description

一种多特征融合的中文分词方法

技术领域

本发明涉及自然语言处理技术，具体为一种多特征融合的中文分词方法。

背景技术

英文词语之间是以空格作为自然分界符的，但是中文文本中词与词之间没有明确的区分标记，而是以连续字符串形式呈现。因此，中文词语分析是中文自然语言处理的基础和关键。在人机自然语言交互中，成熟的中文分词算法能够达到更好的自然语言处理效果，帮助计算机理解复杂的中文语言。

随着深度学习技术的发展，深度学习成为近年中文分词方向上的研究热点。由递归神经网络改进的双向长短期记忆条件随机场模型(BiLSTM-CRF)将中文分词问题转化成了序列标注问题，不仅能够利用上下文信息的特性，而且能够通过CRF层考虑输出标签之间前后的依赖关系，同时具有很好的泛化能力，能够很好地处理分词。然而BiLSTM-CRF模型只使用了字嵌入向量，忽略了文本中很多的语义表示，从而影响分词效果。

发明内容

针对现有中文分词方法忽略了文本中很多的语义表示、影响分词效果等不足，本发明要解决的问题是提供一种对传统中文分词深度学习模型进行改进、提高分词效果的多特征融合的中文分词方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种多特征融合的中文分词方法，包括以下步骤：

1)模型构建，对输入文本序列进行分布式向量化，得到词向量、位置向量以及偏旁部首向量表示，作为分词模型的嵌入层；将BilSTM网络层和CRF线性层结合训练，得到中文分词模型；

2)模型训练，使用已标注结果的文本数据输入到上述BiLSTM-CRF模型，以此训练模型；

3)模型预测，使用训练得到的基于BilSTM-CRF的中文分词模型，将待分词句子序列输入到模型中，从而得到分词标签序列。

步骤1)中，对模型训练的输入文本序列进行分布式向量化，得到词向量，是将中文句子分词，即sentence＝(w₁，w₂，w₃，...，w_i，……w_n)，w_i表示句子中第i个词语；使用人工标注后的分词结果，生成词向量x_word＝(x₁，x₂，x₃，...，x_n)。

步骤1)中，位置向量是用0,1,2,…表示该字在词中的位置，用离散的方式生成位置向量表示x_position＝(x₁，x₂，x₃，...，x_n)。

步骤1)中，得到偏旁部首向量包括以下步骤：

使用偏旁部首向量按偏旁分类采用one-hot编码，或者将汉字按照构造法分为几个部分，经过CNN网络生成偏旁部首向量；

考虑每一个偏旁部首都有一个独特的位置，把一个字的偏旁部首看作一个书写顺序的序列，采用BiLSTM来捕获偏旁部首信息，偏旁部首向量表示x_radical＝(x₁，x₂，x₃，...，x_n)与其他以字向量为基础的向量进行拼接作为编码端输入。

步骤2)中，训练BilSTM-CRF模型，将BilSTM网络层和CRF线性层结合训练，得到中文分词模型，具体为：

利用BilSTM-CRF模型，将分布式向量x_embedding作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列

与反向LSTM的

在各个位置输出的隐状态进行按位置拼接

得到完整的隐状态序列(h₁,h₂,...,h_n)∈R^n*m；

设置dropout，接入一个线性层，将隐状态向量从m维映射到k维，k是标注集的标签数，从而得到自动提取的句子特征，记作矩阵P＝(p₁,p₂,...,p_i,...,p_n)∈R^n*k，其中，R^n*k表示n*k维空间,p_i∈R^k的每一维都视作字分类到第i个标签的打分值，再对P进行Softmax，则相当于对各个位置独立进行k类分类；

在模型的第三层CRF层进行句子级的序列标注；CRF层的参数是一个(k+2)×(k+2)的矩阵A，A_ij表示的是从第i个标签到第j个标签的转移得分，记一个长度等于句子长度的标签序列y＝(y₁,y₂,...,y_n)，那么模型对于句子x的标签等于y的打分为：

整个序列的打分等于各个位置的打分之和，每个位置的打分由两部分得到，一部分由LSTM输出决定，另一部分则由CRF的转移矩阵A决定；

利用Softmax得到归一化后，句子x的标签等于y的概率：

其中，score(x,y′)表示整个序列中句子x等于某一标签y′的打分。

模型训练时通过最大化对数似然函数实现，对一个训练样本(x,y^x)的对数似然公式如下：

logP(y^xx)＝score(x,y^x)-log(∑exp(score(x,y′)))

模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径：

其中，argmax表示找到最优结果的函数，y^*作为输出预测标签序列。

本发明具有以下有益效果及优点：

1.本发明公开一种多特征融合的中文分词方法，将标注文本中的词向量、位置向量和偏旁部首向量融合到基于BiLSTM-CRF的深度学习模型，用于提升自然语言处理领域中中文分词任务的准确性。

2.本发明通过融合多个特征向量来有效地表示文本中的语义信息，获取更多的上下文信息，从而提升分词模型性能，应用于自然语言处理领域。

附图说明

图1为本发明多特征融合的中文分词方法流程图；

图2为本发明方法中偏旁部首向量生成模型示意图；

图3为本发明方法中embedding向量拼接模型示意图；

图4为本发明方法中一个实施例的分词模型实现过程图。

具体实施方式

如图1所示，本发明提供一种多特征融合的中文分词方法，包括以下步骤：

由图1所示，主要步骤分为三步，模型构建、模型训练和模型预测，即预测(使用)分词。首先需要使用标注数据训练BiLSTM-CRF模型，这里的标注数据指的是已分词了的句子序列，正确的分词数据可以让模型学习到中文语句是如何分词的。得到训练好的模型后，即可对未分词的输入文本进行分词，最终得到输入文本的分词结果。

输入分词模型的文本序列首先需要分布式向量化，除了字向量外，还有词向量、词性向量、位置向量、偏旁部首向量、五笔向量等，本发明使用的特征向量是词向量、位置向量、偏旁部首向量三种特征向量。

词是语言里最小的可以独立运用的单位。虽然中文命名实体识别大多基于字向量进行处理，然而中文汉字并不能完全代替词所包含的语义信息，因此一些模型中还是需要词向量。步骤1)中，对模型训练的输入文本序列进行分布式向量化，得到词向量，是将中文句子分词，即sentence＝(w₁，w₂，w₃，...，w_i，……w_n)，w_i表示句子中第i个词语；使用人工标注后的分词结果，生成词向量x_word＝(x₁，x₂，x₃，...，x_n)。

位置向量类似于字向量，但是又有区别于字向量。如使用BI标注格式处理文本时，字向量只能明确标记出词的首位，但是词的中间和尾部都是相同的；使用BIES格式标注文本虽然可以识别尾部，但是如果词的中间字比较多时，仍然会丢失。步骤1)中，位置向量是用0,1,2,…表示该字在词中的位置，用离散的方式生成位置向量表示x_position＝(x₁，x₂，x₃，...，x_n)。

偏旁是合体字的构字部件，如今合体字各部位的部件统称为偏旁。同一偏旁的汉字在某些方面通常有相似的含义。汉字通常可以由较小的原始偏旁部首组成，这些偏旁部首是构成汉字的最基本单位。这些偏旁部首是汉字的内在特征，带来了附加的语义信息。例如，汉字“你”、“他”和“们”都具有与人相关的含义，因为它们有共同的偏旁“亻”，它是汉字“人”变体。然而中文汉字内部的偏旁部首可能已经改变了原来的形状。例如，汉字“腿”的第一个偏旁是“月”，这是传统偏旁部首“肉”的简化形式，而“朝”的偏旁也是“月”，这个实际上的确是“月”的意思。为了处理这些变体，将一些重要的偏旁部首替换为传统的偏旁部首形状，以恢复其原始含义。步骤1)中，得到偏旁部首向量包括以下步骤：

使用偏旁部首向量按偏旁分类采用one-hot编码，或者将汉字按照构造法分为几个部分，经过CNN网络生成偏旁部首向量。

如图2所示，考虑每一个偏旁部首都有一个独特的位置，把一个字的偏旁部首看作一个书写顺序的序列，采用BiLSTM来捕获偏旁部首信息，偏旁部首向量表示x_radical＝(x₁，x₂，x₃，...，x_n)与其他以字向量为基础的向量进行拼接作为编码端输入。

由上得到三种特征向量表示，从而可以获取词向量、位置向量和偏旁部首向量拼接的分布式向量表示，即

其中x_word＝(x₁，x₂，x₃，...，x_n)，x_position＝(x₁，x₂，x₃，...，x_n)，x_radical＝(x₁，x₂，x₃，...，x_n)，如图3所示。

BilSTM-CRF模型是将BILSTM网络和CRF模型结合起来，即在BiLSTM网络的隐藏层后加一层CRF线性层，该模型通过双层LSTM层很好地结合了上下文的特征，并且经由CRF层有效地考虑了句子前后的标签信息。

步骤1)中，训练BilSTM-CRF模型，将BilSTM网络层和CRF线性层结合训练，得到中文分词模型，具体为：

与反向LSTM的

在各个位置输出的隐状态进行按位置拼接

得到完整的隐状态序列(h₁,h₂,...,h_n)∈R^n*m；

设置dropout，接入一个线性层，将隐状态向量从m维映射到k维，k是标注集的标签数，从而得到自动提取的句子特征，记作矩阵P＝(p₁,p₂,...,p_i,...,p_n)∈R^n*k，其中R^n*k表示n*k维空间，p_i∈R^k的每一维都视作字分类到第i个标签的打分值，再对P进行Softmax，则相当于对各个位置独立进行k类分类；

在模型的第三层CRF层进行句子级的序列标注；CRF层的参数是一个(k+2)×(k+2)的矩阵A，A_ij表示的是从第i个标签到第j个标签的转移得分，进而在一个位置进行标注的时候可以利用此前已经标注过的标签，之所以要加2是应为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列y＝(y₁,y₂,...,y_i,...y_n)，那么模型对于句子x的标签等于y的打分为：

利用Softmax得到归一化后的概率：

模型训练时通过最大化对数似然函数实现：

logP(y^x|x)＝score(x,y^x)-log(∑exp(score(x,y′)))

其中，score(x,y′)表示整个序列中句子x等于某一标签y′的打分。模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径。

如图4所示，待分词句子序列为“共创美好的新世纪”，经过训练得到的模型，从而得到预测结果标签序列“BIBIBBBI”，即“共创美好的新世纪”。

本实施例中使用的训练数据包含四十五万条以BMES标注格式的分词句子，该训练数据来自于公开数据集人民日报数据集2014版本中部分数据。本实施例的测试集使用了CTB8数据集作为评估系统的测试集。

由下表可知，与单一特征嵌入的深度学习模型对比，多特征融合的分词模型更好地理解中文词语切分规则。

	Precison	Recall	F1
				深度学习模型	80.86	85.05	82.90
多特征融合分词模型	82.8	87.82	85.24

Claims

1.一种多特征融合的中文分词方法，其特征在于包括以下步骤：

2.根据权利要求1所述的多特征融合的中文分词方法，其特征在于：步骤1)中，对模型训练的输入文本序列进行分布式向量化，得到词向量，是将中文句子分词，即sentence＝(w₁，w₂，w₃，...，w_i，......w_n)，w_i表示句子中第i个词语；使用人工标注后的分词结果，生成词向量x_word＝(x₁，x₂，x₃，...，x_n)。

3.根据权利要求1所述的多特征融合的中文分词方法，其特征在于：步骤1)中，位置向量是用0，1，2，...表示该字在词中的位置，用离散的方式生成位置向量表示x_position＝(x₁，x₂，x₃，...x_n)。

4.根据权利要求1所述的多特征融合的中文分词方法，其特征在于：步骤1)中，得到偏旁部首向量包括以下步骤：

5.根据权利要求1所述的多特征融合的中文分词方法，其特征在于：步骤2)中，训练BilSTM-CRF模型，将BilSTM网络层和CRF线性层结合训练，得到中文分词模型，具体为：

与反向LSTM的

在各个位置输出的隐状态进行按位置拼接

得到完整的隐状态序列(h₁，h₂，...，h_n)∈R^n*m；

设置dropout，接入一个线性层，将隐状态向量从m维映射到k维，k是标注集的标签数，从而得到自动提取的句子特征，记作矩阵P＝(p₁，p₂，...，p_i，...，p_n)∈R^n*k，其中，R^n*k表示n*k维空间，p_i∈R^k的每一维都视作字分类到第i个标签的打分值，再对P进行Softmax，则相当于对各个位置独立进行k类分类；

在模型的第三层CRF层进行句子级的序列标注；CRF层的参数是一个(k+2)×(k+2)的矩阵A，A_ij表示的是从第i个标签到第j个标签的转移得分，记一个长度等于句子长度的标签序列y＝(y₁，y₂，...，y_n)，那么模型对于句子x的标签等于y的打分为：

利用Softmax得到归一化后，句子x的标签等于y的概率：

其中，score(x，y′)表示整个序列中句子x等于某一标签y′的打分。

模型训练时通过最大化对数似然函数实现，对一个训练样本(x，y^x)的对数似然公式如下：

logP(y^x|x)＝score(x，y^x)-log(∑exp(score(x，y′)))