CN111507103B

CN111507103B - 一种利用部分标注集的自训练神经网络分词模型

Info

Publication number: CN111507103B
Application number: CN202010159438.XA
Authority: CN
Inventors: 张旻; 黄涛; 姜明; 汤景凡
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-12-29
Anticipated expiration: 2040-03-09
Also published as: CN111507103A

Abstract

本发明公开了一种利用部分标注集的自训练神经网络分词模型。本发明首先结合正向最大匹配算法，设计了一种通过词典和无标注集获得人工部分标注集的方法。然后，本发明通过修改损失函数，将有标注集和部分标注集共同用于训练基于双向循环神经网络的中文分词模型。最后，本发明利用自训练思想，设计了分词准确率置信度和差异置信度，迭代地将部分标注集转化为有标注集，不断优化基于双向循环神经网络的中文分词模型，从而使最终的模型在无标注数据领域能取得较好的分词效果。本发明不但能解决训练集不足以及跨领域分词问题，而且可以避免耗费人力进行数据集标注。

Description

一种利用部分标注集的自训练神经网络分词模型

技术领域

本发明涉及中文分词任务，具体来讲是一种利用部分标注集的自训练神经网络分词模型，属于自然语言处理技术领域。

背景技术

近几年，基于深度神经网络的中文分词模型在分词准确率上取得了突破性的进展。然而，这类模型非常依赖有标注的数据集。当有标注集数量不足，或者训练集与测试集属于不同领域时，模型的分词准确率都会大幅下降。目前，为了解决训练集不足和模型的跨领域问题，已经有很多方法被提出。这些方法大多使用了词典、无标注数据集等额外资源。然而，部分标注集作为另一种额外资源，却很少被用于中文分词中。部分标注集是指在一个文本序列中，已经有部分词汇被确定切分好了。现存的使用部分标注集的方式主要是修改损失函数。另外，前几年也有人利用部分标注集来自训练中文分词感知机模型。关于如何利用部分标注集来自训练基于深度神经网络的中文分词模型还没有人研究过。

发明内容

本发明针对基于深度神经网络的中文分词模型存在的训练集不足和跨领域分词问题，提出了一种利用部分标注集的自训练神经网络分词模型，以解决上述分词问题。

一种利用部分标注集的自训练神经网络分词模型，包括如下步骤：

步骤(1)利用基于词典的字符串匹配算法，从无标注集中获取部分标注集。

步骤(2)通过改进损失函数，利用有标注集和部分标注集共同训练基于双向循环神经网络(Bidirectional Long Short Term Memory,BiLSTM)的中文分词模型。

步骤(3)利用基于BiLSTM的中文分词模型对部分标注集进行分词标注。

步骤(4)计算每个序列的分词准确率置信度和差异置信度。

步骤(5)将满足置信度条件的部分标注集转为有标注集。迭代步骤(2)-步骤(5)直到k次。

进一步的，所述的步骤(1)中利用基于词典的字符串匹配算法，从无标注集中获取部分标注集的过程如下：

1.1利用词典最大正向匹配算法，将匹配到的领域特殊词汇以及长度超过4的词汇打上确定标注。

1.2对于一个文本序列，根据其中确定标注的词汇，划分出多个未切分文本片段。

1.3对于每个未切分文本片段中的第i个汉字c_i，计算它的n-grams窗口词汇。

1.4利用窗口词汇给未标注汉字c_i打上部分确定标注。

进一步的，所述的步骤(2)中通过改进损失函数，利用有标注集和部分标注集共同训练基于双向循环神经网络的中文分词模型的过程如下：

2.1利用有标注集训练基于BiLSTM的中文分词模型，交叉熵损失函数表示如下：

其中，y_i表示输入序列的第i个确定标注，

表示模型对输入序列的第i个预测标注，n表示输入序列的长度。

2.2利用部分标注集训练上述基于BiLSTM的中文分词模型，损失函数表示如下：

其中，N表示确定标注的索引号，|N|表示N的数量大小。y_i表示输入序列在索引为i的位置的确定标注。

表示模型对输入序列索引为i位置的预测标注。M表示部分确定标注的索引号，||M||表示

其中

表示L0正则化。

表示输入序列索引为j位置的部分确定标注。

表示模型对输入序列索引为j位置的预测标注。上述公式的整体理解是，在确定标注位置，使用原来的损失函数，通过减小损失函数，让模型的预测标注更贴近确定标注；在部分确定标注位置，修改原来的损失函数，让模型最小化错误标注上的预测值。

进一步的，所述的步骤(4)中计算每个序列的分词准确率置信度和差异置信度的过程如下：

4.1设第i个汉字的部分确定标注为(B_i，M_i，E_i，S_i),其中B_i，M_i，E_i，S_i的值为0或1。设模型对第i个汉字的预测概率为

其中

计算每个序列的分词准确率置信度：

上式中，bool_i表示一个布尔类型的值。max_index表示计算四个标注中最大值的位置索引的集合。若bool_i＝true，则预测概率

中最大值的位置索引集合是部分确定标注(B_i，M_i，E_i，S_i)中最大值的位置索引集合的子集。

上式中P_pl表示分词准确率置信度，S表示一个序列。

4.2对于序列的差异置信度，首先按照部分确定标注(B_i，M_i，E_i，S_i)中1的个数，计算出差异均值θ_k。因为部分确定标注中1的个数只可能为2,3,4，所以k取值为2,3或4。例如：k＝2表示计算的是部分确定标注(B_i，M_i，E_i，S_i)中1的个数为2的情况。

bool_i，k＝(sum(B_i，M_i，E_i，S_i)＝＝k)&&bool_i (5)

上述两个式子中，L表示所有序列的总个数；sum(B_i，M_i，E_i，S_i)表示(B_i，M_i，E_i，S_i)中1的个数。

表示保留可能标注的位置的值。

表示将

中最大值与第二大值相减所得的值。

一个汉字的预测标注是否满足差异置信度，表示如下：

最后，一个序列S的差异置信度计算如下：

进一步的，所述的步骤(5)中，将满足置信度条件的部分标注集转为有标注集的过程如下：

5.1选取分词准确率高的前m条部分标注集序列。m可根据部分标注集规模来选取。

5.2在前m条部分标注集序列中选取差异置信度高的前25％的部分标注集。

5.3对于筛选出的部分标注集，转为有标注集。

具体：确定标注的位置采用最初构造部分标注集时的标注，部分确定标注的位置采用模型输出

中，最大位置标注值为1，其余位置均标注为0。

5.4将新的有标注集加入原始有标注集，并在部分标注集中剔除已转化的部分。

5.5迭代步骤(2)(3)(4)(5)直到k次。k是一个可以人为设定的终止迭代条件。

本发明的优点及有益效果如下：

本发明首先提出一种利用词典与无标注集来获取部分标注集的方法。该方法获取的部分标注集质量较高，为后续的模型训练以及置信度计算提供了数据支持。然后，本文通过改进损失函数，让部分标注集和有标注集能共同训练分词模型。这使得模型能充分学习目标领域的知识。最后，通过设置分词准确率置信度和差异置信度，让部分标注集能转化为有标注集，从而更好地训练模型。最终的分词模型能在目标领域取得很高的分词准确率。这一方法不但能解决训练集不足以及跨领域分词问题，而且可以避免耗费人力进行数据集标注。

附图说明

图1是本发明的整体实施方案流程图。

图2是获取部分标注集的算法流程图。

具体实施方式

下面结合附图对本发明作进一步描述：

如图1和2所示，一种利用部分标注集的自训练神经网络分词模型，具体包括如下步骤：

1)利用基于词典的字符串匹配算法，从无标注集中获取部分标注集：

1.2对于一个文本序列，根据其中的确定标注词汇，划分出多个未切分文本片段。

1.3对于每个未切分文本片段中的第i个汉字c_i，计算出c_i的n-grams窗口词汇，只需要3-grams以下的，如表1所示。如果c_i是文本片段的第一、第二、倒数第一、倒数第二个词汇，则取值如表2所示。

表1 3-grams以下的窗口词汇

Type	Template
		2-gram	c<sub>i-1</sub>c<sub>i</sub>，c<sub>i</sub>c<sub>i+1</sub>
3-gram	c<sub>i-2</sub>c<sub>i-1</sub>c<sub>i</sub>，c<sub>i-1</sub>c<sub>i</sub>c<sub>i+1</sub>，c<sub>i</sub>c<sub>i+1</sub>c<sub>i+2</sub>

表2特殊位置的n-grams窗口词汇

1.4利用窗口词汇给未标注汉字c_i打上部分确定标注f_i，具体算法步骤如表3。

表3获取未标注汉字c_i的部分确定标注f_i

表3中，f_ij表示f_i在索引j位置的值。例如，f_i1＝1，则f_i＝(1，0，0，0)。

2)通过改进损失函数，利用有标注集和部分标注集共同训练基于双向循环神经网络(Bidirectional Long Short Term Memory,BiLSTM)的中文分词模型：

2.1使用Word2Vec将输入序列中的每个汉字映射到其对应的词嵌入表示。

2.2将词嵌入输入BiLSTM，其网络结构是由一个前向的LSTM和一个后向的LSTM叠加组成的。在每一个时刻i，词嵌入层会同时提供一个输入给前、后向的LSTM。然后将前后向的LSTM的输出进行拼接，就得到了BiLSTM在i时刻的输出，公式如下：

上式中，forward_LSTM()代表前向的LSTM，E_i表示第i个汉字的词嵌入，

表示i-1时刻，前向LSTM的隐层输出，θ_f表示网络参数。反向参数类似，不再赘述。

2.3通过softmax非线性映射层，将BiLSTM的输出映射为预测概率。

logit_i＝Wh_i+b

上式中logit_i表示将h_i线性映射到分类上的概率结果，W与b分别是权重矩阵和偏置量。

表示模型对输入序列的第i个汉字的预测概率,n表示序列长度。

2.4利用有标注集训练基于BiLSTM的中文分词模型时，交叉熵损失函数表示如下：

其中，y_i表示输入序列的第i个确定标注，n表示输入序列的长度。

2.5利用部分标注集训练基于BiLSTM的中文分词模型时，损失函数表示如下：

上式中N表示确定标注的索引号，|N|表示N的数量大小。y_i表示输入序列在索引为i的位置的确定标注。

其中

表示L0正则化。

表示输入序列索引为j位置的部分确定标注。

2.6使用Adam算法优化模型参数，使损失函数最小化。

3)利用BiLSTM分词模型对部分标注集进行分词标注：

这一步需要利用步骤(2)训练的BiLSTM分词模型来获得部分标注集的预测标注

4)计算每个序列的分词准确率置信度和差异置信度：

其中

计算每个序列的分词准确率置信度。

上式中，bool_i表示一个布尔类型的值。max_index表示计算四个标注中最大值的位置索引的集合。上式可简单理解为：若bool_i＝true，则预测概率

上式中P_pl表示分词准确率置信度，S表示一个序列。

bool_i，k＝(sum(B_i，M_i，E_i，S_i)＝＝k)&&bool_i

表示保留可能标注的位置的值。

表示将

中最大值与第二大值相减所得的值。

一个汉字的预测标注是否满足差异置信度，表示如下：

最后，一个序列S的差异置信度计算如下：

5)将满足置信度条件的部分标注集转为有标注集。迭代步骤(2)(3)(4)(5)直到k次：

5.1选取分词准确率高的前m条部分标注集序列。m可根据部分标注集规模来选取，需要适中。

5.2在上述的部分标注集中选取差异置信度高的前25％的部分标注集。

5.3对于筛选出的部分标注集，转为有标注集。具体是确定标注的位置采用最初构造部分标注集时的标注，部分确定标注的位置采用模型输出

中，最大位置值为1，其余位置标注为0。

Claims

1.一种利用部分标注集的自训练神经网络分词方法，其特征在于包括如下步骤：

步骤(1)利用基于词典的字符串匹配算法，从无标注集中获取部分标注集；

步骤(2)通过改进损失函数，利用有标注集和部分标注集共同训练基于双向长短期记忆网络Bidirectional Long Short Term Memory，即BiLSTM的中文分词模型；

步骤(3)利用基于BiLSTM的中文分词模型对部分标注集进行分词标注；

步骤(4)计算每个序列的分词准确率置信度和差异置信度；

步骤(5)将满足置信度条件的部分标注集转为有标注集；

步骤(6)迭代步骤(2)-步骤(5)直到P次，P是一个人为设定的终止迭代条件；

步骤(1)中利用基于词典的字符串匹配算法，从无标注集中获取部分标注集的过程如下：

1.1利用词典最大正向匹配算法，将匹配到的领域特殊词汇以及长度超过4的词汇打上确定标注；

1.2对于一个文本序列，根据其中确定标注的词汇，划分出多个未切分文本片段；

1.3对于每个未切分文本片段中的第i个汉字c_i，计算它的n-grams窗口词汇；

1.4利用窗口词汇给未标注汉字c_i打上部分确定标注；

步骤(2)中通过改进损失函数，利用有标注集和部分标注集共同训练基于双向长短期记忆网络的中文分词模型的过程如下：

其中，y_i表示输入序列的第i个确定标注，

表示模型对输入序列的第i个预测标注，n表示输入序列的长度；

其中，N表示确定标注的索引号，|N|表示N的数量大小；y_i表示输入序列在索引为i的位置的确定标注；

表示模型对输入序列索引为i位置的预测标注；M表示部分确定标注的索引号，||M||表示

其中

表示L0正则化；

表示输入序列索引为j位置的部分确定标注；

表示模型对输入序列索引为j位置的预测标注；

步骤(4)中计算每个序列的分词准确率置信度和差异置信度的过程如下：

4.1设第i个汉字的部分确定标注为(B_i，M_i，E_i，S_i)，其中B_i，M_i，E_i，S_i的值为0或1；设模型对第i个汉字的预测概率为

其中

计算每个序列的分词准确率置信度：

上式中，bool_i表示一个布尔类型的值；max_index表示计算四个标注中最大值的位置索引的集合；若bool_i＝true，则预测概率

中最大值的位置索引集合是部分确定标注(B_i，M_i，E_i，S_i)中最大值的位置索引集合的子集；

上式中P_pl表示分词准确率置信度，S表示一个序列；

4.2对于序列的差异置信度，首先按照部分确定标注(B_i，M_i，E_i，S_i)中1的个数，计算出差异均值θ_k；因为部分确定标注中1的个数只可能为2，3，4，所以k取值为2，3或4；

bool_i，k＝(sum(B_i，M_i，E_i，S_i)＝＝k)&&bool_i (5)

上述两个式子中，L表示所有序列的总个数；sum(B_i，M_i，E_i，S_i)表示(B_i，M_i，E_i，S_i)中1的个数；

表示保留可能标注的位置的值；

表示将

中最大值与第二大值相减所得的值；

一个汉字的预测标注是否满足差异置信度，表示如下：

最后，一个序列S的差异置信度计算如下：

步骤(5)中，将满足置信度条件的部分标注集转为有标注集的过程如下：

5.1选取分词准确率高的前m条部分标注集序列；m根据部分标注集规模来选取；

5.2在前m条部分标注集序列中选取差异置信度高的前25％的部分标注集；

5.3对于筛选出的部分标注集，转为有标注集；

具体：确定标注的位置采用最初构造部分标注集时的标注，部分确定标注的位置根据模型输出的四维向量

来确定，将

四者最大值置为1，其余置为0；