CN108519978A

CN108519978A - 一种基于主动学习的中文正式文本分词方法

Info

Publication number: CN108519978A
Application number: CN201810316873.1A
Authority: CN
Inventors: 王亚强; 何梦秋; 何思佑; 唐聃; 舒红平
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-09-11

Abstract

本申请提供一种基于主动学习的中文正式文本分词方法，包括：使用当前的标注数据集L训练一个朴素贝叶斯分类器；使用当前的朴素贝叶斯分类器标注未标注数据集U；使用抽样方法选择最有信息量的片段给专家标注；将新抽样的标注好的片段添加到标注数据集L中；不断迭代直到预先设定的满足条件停止。本申请的方法能够有效减少人工标注数据的同时得到一个性能较好的分词器。采用主动学习的方法抽取数据训练得到的模型比随机抽取的方法抽取数据训练得到的模型性能(采用F值度量)提升5个百分点左右。主动学习结合EM迭代后抽取数据训练得到的模型比单独采用主动学习方法抽取数据训练得到的模型，每次性能均提升1.5个百分点左右。

Description

一种基于主动学习的中文正式文本分词方法

技术领域

本发明涉及分词技术领域，尤其涉及一种基于主动学习和期望最大化算法的基于主动学习的中文正式文本分词方法。

背景技术

分词是自然语言处理的关键的基础性步骤，是诸多应用系统，如：信息检索、命名实体识别、机器翻译、句法分析等的不可或缺的关键性环节，其分词效果直接影响这些应用的最终使用效果。可是相对于英语这样的屈折语文本，中文等黏着语文本词与词之间没有明显的类似于空格这样的明显的分隔符。让计算机自动识别中文字串词与词之间的边界就是中文分词。现如今，已经有大量的关于中文分词的研究，其问题归纳起来主要有三个方面：边界歧义、未登录词和分词规范。

传统的基于词典的中文分词方法能够高效地分割文本，但是这些方法需要大量的手工标注的语料库，大规模的数据标注需要花费大量的时间以及金钱。同时，传统的监督方法不能解决中文分词的两大难点——边界歧义和未登录词。所以越来越多的基于字序列标注的中文分词方法被提了出来，每个词都可以通过上下文特征进行表示，然后通过统计模型判断出当前字在构词中的作用——词头、词中、词尾或者单字词，通过大量实验证明，基于字序列标注的中文分词方法明显优于基于字典的中文分词方法。然而，基于字序列标注的中文分词方法，还是没有解决需要大量手工标注数据的问题。

一种有效的解决方法就是主动学习，主动学习能够通过数据本身的一些参数来筛选最有价值的标注数据，从而极大地降低手工标注的数据的数量，只需要标注少量数据就能得到相对高准确率的分词效果。主动学习已经运用到很多文本研究任务中，例如，命名实体识别、词义消歧。但是主动学习运用的中文分词的研究还很少。

我们将中文分词转换成一个三分类问题，不同于字序列标注的中文分词放法，我们将中文字串中字与字之间的位置看作是一个待分对象，之所以这么做，是根据人们在应用中对中文分词的使用习惯来的，人们在阅读文本的时候，习惯的是判断从哪些位置分开，而不是去画横线来判断那几个字成词。同时字与字之间的位置的上下文本构成该位置的特征。看似字与字之间的位置只有分与不分两种类别，但是只做二分类存在很严重的问题，如“对象识别”，文本中存在大量的“对”的单字词，那么只做二分类问题处理，很容易划分成“对象识别”，如果我们先判断“对”与“象”之间的位置的上文“对”是否是词尾，再根据该位置下文“象”是否为词头去验证上文的判断结果，能够发现上文“对”是一个词尾，而下文“象”是一个词中，并且下文作为词中的概率比上文作为词尾的概率更大，那么我们就能得到正确划分结果“对象识别”。

传统的中文分词方法主要是依据词典匹配，然后通过贪心算法划分出可能的最大长度的词。传统的贪心算法有正向最大匹配、逆向最大匹配、双向匹配这种方法需要大量的人工标注数据，同时不能解决中文分词的两大难题，词义分歧和未登录词。1986年，梁南元等将最大匹配方法运用到中文分词中，最大匹配方法就是一种典型的基于词典的中文分词方法，其缺点是不能解决边界歧义和未登录词问题。所以越来越多的学者提出了基于字序列标注的中文分词方法，2002年，Nianwen Xue等首次提出了该方法，该方法对中文字符串的每一个字进行标注，如{B,I,E,S}，分别代表词头、词中、词尾和单字词，然后用序列标注模型(如SVM、CRF)训练人工标注的数据得到一个分词器进行分词。然而按字标注的不符合人的使用习惯，我们对一句话进行分词时，倾向于去判断字与字之间的位置是否划分，而不是某几个字能够成词，所以需要对字与字之间的位置进行分类。

发明内容

本发明的目的在于解决上述现有技术存在的缺陷，提供一种结合主动学习和期望最大化算法的朴素贝叶斯基于主动学习的中文正式文本分词方法。

一种基于主动学习的中文正式文本分词方法，包括以下步骤：

步骤1：用现有的少量已标注数据去学习训练得到一个预测模型；

步骤2：通过训练得到的预测模型去预测未标注数据，从而得到预测结果，所述预测结果为从未标注数据中筛选出待标注的数据；

步骤3：利用抽样方法从待标注的数据中选择最有信息量的数据片段提交给专家标注；

步骤4：将标注后的数据和所述已标注数据结合一起重新训练所述预测模型，不断迭代，直到达到一定标注比例结束迭代；

所述抽样方法包括：不确定性抽样方法、结合多样性的不确定性抽样方法两种，每种方法均采取片段选取窗口可控的片段选择方法，所述片段选择方法为同时选取所述待标注数据的前后文1元、2元、3元特征作为重新确定的待标注数据。

进一步得，如上所述的方法，在步骤2之后，步骤3之前，包括：利用 EM算法对待标注的数据进行迭代，直到分类结果不再变化，将迭代结果作为待标注的数据。

进一步得，如上所述的方法，所述预测模型为朴素贝叶斯分类器，所述朴素贝叶斯分类器通过计算下式来预测一个新样例的类别

N(c_j)表示在训练数据中，属于类别c_j的样例总数；N(|D|)表示训练数据中的样例总数；N(f_j,c_j)表示特征f_j属于类别c_j的总数；N(f_n,c_j)表示特征f_n属于类别c_j的总数；|F|表示特征空间大小。

进一步得，如上所述的方法，所述不确定性抽样方法采用条件熵来度量每个位置的不确定性，条件熵是在一个变量X的条件下，另一个随机变量Y 的不确定性，公式如下：

其中X是一个离散型随机变量，取值空间为R，其概率分布为 p(x)＝P(X＝x),x∈R。

进一步得，如上所述的方法，所述结合多样性的不确定性抽样方法就是在不确定性抽样的基础上引入了词频，公式为：

Φ(x)_un_div＝(-H(x|y))*Φ(x)_div

Φ(x)_div为词频统计，即不同二元组的分别计数。

有益效果：

本申请的方法能够有效减少人工标注数据的同时得到一个性能较好的分词器。本申请当采用片段选择方法，即同时取前后文1元、2元、3元特征的时候分词效果最好，同时采用主动学习的方法选择同样数量标注数据来训练得到的模型的性能要远远优于随机选择标注数据来训练得到的模型，都抽取16％的数据进行标注的时候，采用主动学习的方法抽取数据训练得到的模型比随机抽取的方法抽取数据训练得到的模型性能(采用F值度量)提升5个百分点左右。另外，主动学习结合EM迭代后抽取数据训练得到的模型比单独采用主动学习方法抽取数据训练得到的模型，每次性能均提升1.5个百分点左右。

附图说明

图1为本发明主动学习示意图一；

图2为本发明主动学习示意图二；

图3为不同n-gram的模型分词性能图；

图4为不同选取方法下模型性能对比图；

图5为不同选取窗口下，分词器性能对比图；

图6为是否增加EM算法模型性能对比图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明提供一种主动学习的方法，如图1所示，包括以下步骤：

具体地，在标注数据很少甚至没有的情况下，手动标注数据是一件很耗时、耗力的事情。主动学习就是通过学习算法，尽可能少的提交人工数据标注请求次数已达到构建最好的训练数据的目的。如图1所示，本申请采用现有的少量标注数据去学习训练得到一个预测模型，通过训练得到的模型去预测未标注数据，然后通过查询函数从预测结果中选择最有信息量的数据片段提交给专家标注，最后将标注后的数据和原本的标注数据结合一起训练模型。不断迭代，直到达到一定标注比例结束迭代。

不确定性抽样方法(uncertainty)

我们采用条件熵来度量每个位置的不确定性。熵又称为自信息，可以视为描述一个随机变量的不确定性。熵的公式如下：

其中X是一个离散型随机变量，取值空间为R，其概率分布为 p(x)＝P(X＝x),x∈R。一个随机变量的熵越大，他的不确定性越大，那么，正确估计其值得可能性就越小。

条件熵是在一个变量X的条件下，另一个随机变量Y的不确定性。公式如下：

对应到本申请，X就是某一个位置的所有上下文特征集合，Y就是类别集合。

结合多样性的不确定性抽样方法(diversity)

Φ(x)_un_div＝(-H(x|y))*Φ(x)_div

多样性抽样就是在不确定性抽样的基础上引入了词频，每一个位置的前一个字和后一个字出现的次数很大，就说明这个位置是一个词中的概率很大，不确定性越小；反之，确定性越大。所以公式相乘时，在条件熵前面加上符号，使之和词频Φ(x)_div变化趋势一致。整体来说就变成了值越大，不确定性越小，值越小，不确定性越大。

片段选择片段选择方法

通过上述两种抽样方法选取出最不确定的样例集合，该集合大小为所有未标注数据的位置集合的百分之二。得到需要标注的位置集合后，实验通过模拟人工标志来实现标注数据。在标注过程中，句子越长标注人员越容易标错，所以实验只标注选出位置相邻片段，通过传入参数设置片段长度。与以往方法不同的是，以往只会标注单个样例(本申请片段选择方法在窗口为1的情况下，与该方法一样)，但对于中文分词来说，完整的片段信息相当重要，所以本申请采用可控窗口来保留这种片段完整性信息。模拟人工标注举例(片段选择方法的窗口为3)。

包括办理保护候鸟倡导活动(包括办理保护候鸟倡导活动)

选取窗口为3的情况下，筛选出“理”和“保”之间的位置，我们需要标注片段“括办理保护候”；而对于“候”和“鸟”之间的位置，我们标注“保护候鸟倡导”。考虑到现实使用系统，我们会给整个句子，然后提示标注片段，所以用户可以扩展成完整的片段标注，即对于“括办理保护候”，我们会标注“包括办理保护候鸟”，对于“保护候鸟倡导”，我们会标注“保护候鸟倡导”，当然实验也采用了后面的方法去模拟人工标注的数据。

进一步地，本发明在实施例1的基础上，提供了一种结合EM算法的更优化的主动学习的方法，如图2所示，包括以下步骤：

步骤3：用EM算法对待标注的数据进行迭代，直到分类结果不再变化，将迭代结果作为待标注的数据；

步骤4：利用抽样方法从待标注的数据中选择最有信息量的数据片段提交给专家标注；

步骤5：将标注后的数据和所述已标注数据结合一起重新训练所述预测模型，不断迭代，直到达到一定标注比例结束迭代；

具体地，由于主动学习的训练数据较少，所以训练数据会缺失一些参数，使用EM能够把这些参数从未标注数据集中估算出来，提升分类器性能，从而使得主动学习能够不再选择这些数据，以减少人工标注数据数量。

上述实施例所述预测模型为朴素贝叶斯分类器，所述朴素贝叶斯是一种基于独立假设的概率分类方法，其源于古典数学理论，具有稳定的分类效率。本申请将某个位置的上下文作为特征集合表示为，

d＝<f₁,f₂,...,f_|d|>

类别集合表示为，

C＝<c₁,c₂,...,c_|C|>

监督学习分类就可以看作是给定一个新样例d，然后估计它的后验概率，表示如下，

P(C＝c_j|d)

然后计算对应的概率最大的类别c^j，将它赋给样例d。

根据贝叶斯准则，后验概率可以表示为

公式中，P(C＝c_j)是类别c_j的先验概率，可以从训练样本中简单的估计出来，也就是该类别的样例在总的训练样例的比例。

如果我们只需要分类的话，P(f₁,f₂,...,f_|d|)就不会对结果产生影响，因为对于每一种类别下，它的值都是一样的。所以计算难点只有P(f₁,f₂,...,f_|d||C＝c_j)

将它展开如下，

P(f₁,f₂,...,f_|d||C＝c_j)

＝P(f₁|f₂,...,f_|d|,C＝c_j)×P(f₂,...,f_|d||C＝c_j)

我们可以一次这么展开计算，可见计算量相当庞大。为了进一步计算，需要作出条件独立假设，即每一个类别和所有的特征都是独立的，也就是

P(f₁,f₂,...,f_|d||C＝c_j)＝P(f₁|C＝c_j)

于是我们得到

然后，我们只需要从训练数据中估计先验概率P(C＝c_j)和条件概率P(f_i|C＝c_j)，估计如下，

该公式中，N(c_j)表示在训练数据中，属于类别c_j的样例总数；N(|D|)表示训练数据中的样例总数；N(f_j,c_j)表示特征f_j属于类别c_j的总数；N(f_n,c_j)表示特征f_n属于类别c_j的总数；|F|表示特征空间大小。然后为了避免零概率的发生，我们引入了拉普拉斯平滑。

最后我们通过计算下式来预测一个新样例的类别，

实验例：

数据一般包括正式数据和非正式数据，例如文献、人民日报属于正式数据，微博属于非正式数据。本文采用的数据来源于《计算机科学》、《计算机应用》、《软件学报》、《医学信息学杂志》等16种核心期刊，总共采用了10000条论文标题。本文数据属于正式文本，同时其包含的信息量大，拥有短小精简的特征。

实验评估

本申请采用常用的F-score来度量分类器的性能，也就是查准率和查全率的调和平均值。我们这里用如表的混淆矩阵来介绍本文实验的查准率和查全率。

表1混合矩阵表

	分词后切分	分词后未切分
			实际上应切分	TP	FN
实际上不切分	FP	TN

根据表1的混合矩阵，位置切分的查准率(p)和查全率(r)定义如下。

查准率p就是被正确切分的数量除以被所有被分类器切分的数量。查全率r 是被正确切分的数量除以被所有实际应切分的数量。然而，实际中常出现查准率很高而查全率很低的情况。所以采用F-score来度量分类器的性能，F-score的定义如下。

F-score更接近p和r中更小的那个，当F-score很高的时候，p和r都会很高。

实验结果

本次实验首先验证的是n-元组特征提取对分类器性能影响。

如图3所示，本申请实验例是对一段话的字符之间位置进行分类，每个位置的上下文组成了他的特征。图展示了在相同的训练数据下提取上下文1元、2 元、3元作为特征时，分类器的性能是最好的。都采用固定的80％作为训练数据时，3元特征，模型性能最差，1元和2元其次，1、2元混合和2、3元混合较好，1、2、3元混合最优。

如图4所示，该实验例表明在抽取较少量训练数据的情况下采用主动学习的方法去选择人工标注数据比随机抽取效果要好的多，训练数据不断增加的情况下，训练得到的模型的性能差距在不断减小，但采用主动学习的方法后，性能远远优于随机抽取方法，当抽取数据达到16％时，前者高出5个百分点左右。在主动学习的抽取方法中diversity方法又比uncertainty较好。如图5所示，基于diversity抽样方式的基础下，在从1不断扩大片段选取窗口，分类器的性能逐步得到提升，从窗口1到窗口2提升明显，从窗口2到窗口3提升最大，窗口3到窗口4提升减慢，窗口4到窗口5提升较小。

如图6所示，加入EM后，采用diversity来选取同样数量的标注数据，训练得到的分类器的性能优于为采用EM选取数据训练的分类器。当训练数据不断增加时，分类器性能差距越来越大，当抽取16％数据时，加入EM后抽取数据训练得到的模型要高出1.5个百分点左右。证明了EM能够帮助主动学习查询到信息量更大的标注数据，从而得到了更加优秀的分类器。

综上，主动学习方法能够有效减少人工标注数据，同时本申请实验只需要标注筛选出来的片段，而不是整个句子，有效减小人工标注错误。抽取16％的数据进行标注的时候，采用主动学习的方法抽取数据训练得到的模型比随机抽取的方法抽取数据训练得到的模型性能(采用F值度量)提升5个百分点左右。另外，对训练数据集中存在的片段不予标注，这样能够有效减少人工标注数量。而且在结合EM算法和主动学习后，能够使得在标注同样数量的训练数据下训练得到的模型性能更加优秀。模型性能提升1.5个百分点左右。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于主动学习的中文正式文本分词方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在步骤2之后，步骤3之前，包括：利用EM算法对待标注的数据进行迭代，直到分类结果不再变化，将迭代结果作为待标注的数据。

3.根据权利要求1或2所述的方法，其特征在于，所述预测模型为朴素贝叶斯分类器，所述朴素贝叶斯分类器通过计算下式来预测一个新样例的类别

其中，

4.根据权利要求1或2所述的方法，其特征在于，所述不确定性抽样方法采用条件熵来度量每个位置的不确定性，条件熵是在一个变量X的条件下，另一个随机变量Y的不确定性，公式如下：

其中X是一个离散型随机变量，取值空间为R，其概率分布为p(x)＝P(X＝x),x∈R。

5.根据权利要求1或2所述的方法，其特征在于，所述结合多样性的不确定性抽样方法就是在不确定性抽样的基础上引入了词频，公式为：

Φ(x)_un_div＝(-H(x|y))*Φ(x)_div

Φ(x)_div为词频统计，即不同二元组的分别计数。