CN103678656A

CN103678656A - 一种基于重复字串的微博新词非监督自动抽取方法

Info

Publication number: CN103678656A
Application number: CN201310719081.6A
Authority: CN
Inventors: 孙晓; 李承程; 叶嘉麒; 唐陈意; 任福继
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2014-03-26

Abstract

本发明公开了一种基于重复字串的微博新词非监督自动抽取方法，先对待处理的微博文档进行文本切分，利用动态规划的分词方法切分文本，切分出待识别的字串，将待识别字串中切词碎片组合，组合成待识别的新词，然后根据统计选词模型从待识别的字串提取出候选新词，紧接着利用规则过滤模型对候选词进行过滤，最后得到最终的新词。本发明的有益效果是有效的保证了较高的准确率，并不过分依赖规则字库，同时保证了新词的抽取速度。

Description

一种基于重复字串的微博新词非监督自动抽取方法

技术领域

本发明属于新词语检索方法技术领域，涉及一种基于重复字串的微博新词非监督自动抽取方法。

背景技术

新词识别是困扰中文自动分词领域的主要问题之一，而随着微博的发展，加速了新词的出现速度。新词的非监督自动识别对于其他自然语言处理任务至关重要。中文文本的自动切分是自然语言处理领域一项重要的基础工作。新词的识别和处理是制约中文分词系统精度进一步提高的困难之一。目前，新词抽取研究主要集中在实体名词的抽取，特别是人名、地名、机构名的抽取。其他新词在构成上基本没有普遍的规律，相关的研究较少，识别率也很低。新词抽取所使用的方法主要有基于统计和基于规则的方法。基于统计的方法容易实现，但受统计语料的影响非常明显；基于规则的方法准确率高，但对规则库完备性有很大的依赖性。

发明内容

本发明的目的在提供一种基于重复字串的微博新词非监督自动抽取方法，解决了现有的新词抽取准确率低，对规则库完备性依赖程度性高的问题。

本发明所采用的技术方案是先对待处理的微博文档进行文本切分，利用动态规划的分词方法切分文本，切分出待识别的字串，将待识别字串中切词碎片组合，组合成待识别的新词，然后根据统计选词模型从待识别的字串提取出候选新词，紧接着利用规则过滤模型对候选词进行过滤，最后得到最终的新词。

本发明的技术特点还在于动态规划的分词方法为：首先用最长次匹配法切分待处理文本，建立候选词路径有向图，然后计算图中每个节点的代价值，接着利用Dijkastra算法计算出最小代价路径，得到最佳切词路径。统计选词模型基于大量微博语料进行统计，包括基于局部重复字串的特征和基于全局用词信息的特征；基于局部重复字串的特征包括：字串共现次数和基于字串共现次数的互信息；基于全局用词信息的特征包括成词率、位置相关成词率、构词相似度；规则过滤模型包括停用词表、姓氏成词率的调整规则、量词词首停用的规则。

本发明的有益效果是有效的保证了较高的准确率，并不过分依赖规则字库，同时保证了新词的抽取速度。

附图说明

图1是本发明一种基于重复字串的微博新词非监督自动抽取方法的多字字串与二字词的互信息特征值比较图；

图2是本发明多字词和二字词的IWP特征比较图；

图3是本发明二字词和多字词的POS_IWP值比较图。

具体实施方式：

下面结合附图和具体实施方式对本发明进行详细说明。

先对待处理的微博文档进行文本切分，利用动态规划的分词方法切分文本，切分出待识别的字串，将待识别字串中切词碎片组合，组合成待识别的新词，动态规划的分词方法为：首先用最长次匹配法切分待处理文本，建立候选词路径有向图出自论文：【孙晓,黄德根.基于最长次长匹配分词的一体化中文分词与词性标注[J].大连理工大学学报.2010.,50(6):1028-1034.】,然后计算图中每个节点的代价值，接着利用Dijkastra算法计算出最小代价路径，得到最佳切词路径。例：设句子S=C₀C₁C₂……C_n,其中S代表句子，C_i（0≤i≤n）表示句子S中的第i个汉字，根据最长次匹配法将句子S所有可能的切分路径组成有向图DAG。令DAG=<V，E，Ψ>，其中，V={P_i|0≤i≤(m+1)}为节点P的集合，m为句子中字的个数；E={e_ij|i<j，0≤i≤m，1≤j≤m+1}为图中边e的集合，eij表示从节点P_i指向节点P_j的有向边；Ψ={e_ij=<P_i,P_j>}，表示边eij与节点P_i和P_j的关系。

假定句子S有k中切分方式，则对应于有向图DAG而言有k条不同路径。设W_j=W_j[0]W_j[1]W_j[2]…W_j[l]是S的第j条切分路径（0≤j≤k），该路径中共有l个单词，W_j[i]（0≤j≤l）是路径中的第i个单词。利用公式（1）计算句子S第j条切分路径的概率：公式（1）：P(W_j)＝P(W_j[0])*P(W_j[1]|W_j[0])*…*P(W_j[1]|W_j[0]…W_j[l-1])，根据公式（1），定义S的第j条切分路径中第i（0≤i≤l）个单词的频度；

Pd (W_{j}) = l + \sqrt{Π_{i = 0}^{l} Pd (W_{j} [i])} - - - (2)

引入特征词系数C(W_j[i])，由公式（2）得到有向图DAG的第j条候选路径中的节点代价：

N \cos t (W_{j}) = - \frac{1}{l + 1} Σ_{i = 0}^{l} \log {Pd (W_{j} [i] + Sg (W_{j} [i]) * C (W_{j} [i])}

(3)

其中，Sg(W_j[i])是特征词标志

C（W_j[i]）为W_j[i]的特征词调整系数。由统计得到。

C (W_{j} [i]) = \frac{\log (Nt (W_{j} [i]) + 2)}{\log (N (W_{j} [i]) + 2)} - - - (5)

公式（5）中N(W_j[i])为训练预料中单词W_j[i]出现的总次数，Nt(W_j[i])是单词W_j[i]在训练预料中作为特征词出现的次数。

最后利用Dijkastra最小代价路径算法计算有向图DAG中的最小代价路径，将结果输出，即为文本切分结果，分词结果中切分出的连续的单个字称为切分碎片。将经过切词的字串中的切分碎片组合，将连续的单字进行连续的排列组合，列出的所有组合字即为待识别新词。例如：字串“情溢天海”，经过切词后得到四个连续的单字“情/溢/天/海”，将其进行连续排列组合，“情”“溢”“天”“海”“情溢”“溢天”“天海”“情溢天”“溢天海”“情溢天海”都为待识别新词。将上一步中列出的所有待识别新词经过统计选词模型选择，识别出可能的候选新词。

统计选词模型：在本模型主要将引入两种特征：局部重复字串的特征和基于全局用词信息的特征作为模型参数，在训练数据进行上对待识别新词的特征进行阈值计算，将特征进行函数组合，对这些函数进行实验选择，得到的最佳识别效果的特征函数即为本发明中将使用的统计特征函数，并将其作为统计选词模型。

统计选词模型包括基于局部重复字串的特征和基于全局用词信息的特征；基于局部重复字串的特征包括：字串共现次数和基于字串共现次数的互信息；“局部”指的是当前要处理的文档，根据当前文档中能够获得的统计信息，计算特征值。

字串共现次数RT(RepeatedTime)：

字串共现次数，即字串在文档中重复出现的次数。因为我们的研究对象是“重复字串”，所以如果某一候选新词在文中只出现过一次，则不在处理范围之内。

基于字串共现次数的互信息I：

互信息是信息论中的一个概念，可以用来衡量两个事件的相关程度。本文中互信息表示的含义是字串ab中a与b联系的紧密程度。

令P(x)为x在语料中出现的概率，P(ab)为字串ab共现概率，I(ab)则表示a与b的互信息。传统的互信息公式为：

I (ab) = \log \frac{P (ab)}{P (a) * p (b)} - - - (6)

这种传统的互信息公式只给出了二字字串的计算公式，也就是说将抽取对象限制在二字新词，本发明基于。但是对于多字字串，不妨设为C₁C₂……C_n，C_i(0≤i≤n)表示字符串中的第i个单词，n为字符串中单词的个数。如果分母仍然定义为P(C₁)P(C₂)……P(C_n)，则字串越长，互信息值越大。P(Ci)表示单词Ci在语料中出现的概率。为了避免该情况，本文对多字字串互信息公式定义如下：

I (C_{1} C_{2} . . . C_{n}) = \log \frac{P (C_{1} C_{2} . . . . . C_{n})}{{[P (C_{1}) P (C_{2}) . . . . P (C_{n})]}^{2 / n}} - - - (7)

其中I(C₁C₂……C_n)即为字串C₁C₂……C_n的互信息。为检验公式（7），将新词语料中多字词的特征值与二字词的特征值比较，如图1所示为多字字串与二字词的互信息特征值比较图，从图1中可以看出，二者的取值范围、数据分布都很相似，这也表示I(C1C2……Cn)可以很好的描述多字字串的互信息特征。对传统的互信息公式，考虑极端的情况：两个字的出现是完全依赖的，即总是一起出现的。有：

I (ab) = \log \frac{P (ab)}{P (a) P (b)} = \log \frac{P (ab)}{P (ab) P (ab)} - - - (8)

即在完全依赖的二元组中，当二元组出现的次数增加时，其互信息值减小。这并非实验符合要求。因为直观上来讲，词的出现次数越高，是新词的可能性也就越大。对于这个问题，本文所设计的解决方法是将字串重复出现次数引入互信息公式，称之为基于字串共现次数的互信息。我们曾尝试了多种具体的引入方法，其中比较好的引入方法有以下两种：

CI(ab)＝C(ab)*I(ab) （9）

LCI(ab)＝log(C(ab))*I(ab) （10）

CI、LCI的多字字串公式依公式2作了相应的扩展，在这里称为扩展互信息，其中I(ab)为由公式（8）计算所得的字串a、b的互信息，C(ab)为ab出现的总次数。

基于全局用词信息的特征包括成词率、位置相关成词率、构词相似度；

“全局”是相对于上一节的“局部”而言的，指的是汉字用词信息——根据汉字用词信息，计算这一部分特征的值。

成词率IWP：

通过对语料库的统计发现，有些汉字的独立性很差，一般情况下均与其他汉字成词出现，如：们、彷、凰，鸳等，而有些汉字则恰恰相反，一般都是作为单字出现，如：洗、又、您等。为了表示这种汉字成词的特点，引入汉字的成词率IWP（In-wordprobability）特征。二字字串的IWP值是组成字串的汉字的IWP乘积。定义如下：

IWP (x) = \frac{C (x, w)}{C (x)} - - - (11)

IWP(ab)=IWP(a)*IWP(b )（12）

其中，C(x，w)是汉字x作为词在统计语料中出现的次数，C(x)是x出现的总次数。很多参考文献只将该特征作用于二字字串，本文希望该特征可以作用的新词长度不受限制，所以引入多字字串的IWP定义。当然，对多字字串IWP的定义，如果仍然是组成该字串的汉字的IWP乘积，则字串越长，IWP值越小。

多字字串IWP定义为：

IWP (C_{1} C_{2} . . . C_{n}) = {[Σ_{i = 1}^{n} IWP (C_{i})]}^{2 / n} - - - (13)

为检验IWP（C1C2……Cn），将多字词的IWP特征值与二字词IWP值比较，如图2所示。从图2中可以看出，多字词与二字词在数值分布上完全具有可比性，这也说明IWP的多字字串计算公式可以很好的描述多字新词的特征。

位置相关成词率POS_IWP：

汉语中有一部分汉字，如词的前/后缀，倾向于出现在词的某一位置。例如“率”通常出现在词的结尾，如召回率、精确率。由此特点，得到扩展的IWP特征：位置相关成词率特征POS_IWP。表示汉字出现在词的某一位置时的概率。

根据汉字在词中的位置，分为词首成词概率Fir_POS_IWP、词中成词概率Mid_POS_IWP和词尾成词概率Last_POS_IWP。计算公式如下：

Fir_POS_IWP(x)＝C(x_Fir)/C(x) （14）

Mid_POS_IWP(x)＝C(x_Mid)/C(x) （15）

Last_POS_IWP(x)＝C(x_Last)/C(x) （16）

其中C(x)为汉字x在语料中出现的次数，C(x,Fir)、C(x,Mid)、C(x,Last)表示x在词首、词中、词尾出现的次数。词的前缀、后缀多出现在多字词中，所以，对分词词典中的10000个二字词和10000个多字词，计算比较它们的该特征值，如图3所示。根据图3中显示，多字词的POS_IWP特征整体上大于二字词，而且在分布上也更集中。所以，在特征使用时，该特征只作用于多字词。

构词相似度FANA：

统计词语在构成上的特点，可发现总有一些字对在构成上具有相似性，如字对“上/下”，就有“上/下班”、“上/下台”等。而很多新词在形成时，就是以词典中现有的词作为模版。如已知字对“上/下”在构词上具有很大的相似性，且“下载”为词典中已有的词，则可判定字串“上载”为新词。同时，这种相似性又具有位置相关的特点，如可以用“下载”来判定“上载”是新词，但不可以判定“载下”是新词。HongqiaoLi（2004）就该特征曾作过详细的分析。本文采用的公式就是其中关于该特征的方法，并针对微博语料做了相应的改进。构造统计选词模型：

上述提到几类特征需要通过统计已有词的构词信息获取，获取最优的单个特征阈值和多特征组合阈值，具体分两步：首先统计获取单个特征的最优阈值同时测试最优阈值所对应的新词识别准确率F_new；接着根据单个特征的最优阈值组合成总体统计选词模型，这也是本发明的关键。在本次实验中采用微博2013上半年100万词的语料作为训练学习语料（该语料已经分词并修正），用于统计获得单个特征的阈值和总体构词选词模型的总阈值Thres_value；另外将2013年下半年的100万词语料作为测试语料（该语料同样经过分词和修正，上下半年的词表均可统计获得，下半年的词不在上半年词表中的，可以视为新词），用于获得F_new，两部分语料已有的分词工具进行分词，分词工具参考论文：【孙晓,黄德根.基于最长次长匹配分词的一体化中文分词与词性标注[J].大连理工大学学报.2010.,50(6):1028-1034.】，并由合肥工业大学情感计算与先进智能机器安徽省重点实验室进行过人工修正分词错误。首先利用上半年语料，统计其中所有的词的构词特征，获得所有词的单个特征的数值，然后根据自然语言处理中的规则与统计的转换规则（出现概率超过85%的一个现象可以将其视为一条规则，且该规则的正确率至少为85%），因此统计某单个特征在所有词上的数值，将可以覆盖85%的词的最小值作为该单个特征的阈值，即该阈值可以覆盖训练语料中85%的词，将其作为该单个特征的固定阈值，阈值参考表1，其中列出了通过上半年语料实验获取的特征阈值，同时，为了验证该阈值的有效性，利用该阈值在下半年的语料上进行测试，因为下半年的新词是已知的（在下半年词表中，且不在上半年词表中，记为新词），所以可以测试该特征可以正确的过滤多少新词，即新词的准确率F_new，通过实验统计，最终选取的设定的单个特征的固定特征阈值和相应阈值在下半年语料上测试时，对新词的判断正确率F_new，通过正确率F_new可以证明所设定的阈值的有效性。之所以选择覆盖率为85%是因为如果将阈值设定过于宽泛，将所有的训练语料中的词都包含进来，则这个阈值的普适性就很差，表1所示为单个特征作用时的阈值和测试结果，进一步要将表1中的单个特征整合成一个Thres_value作为判定新词的总体阈值：

表1

由表1可知，若词X的互信息I（X）的值为2.8608，用这个阈值在语料上进行测试，对新词的识别正确率为86.81%，同理若词X的成词率IWP(X)值等于0.8518，可以得到对新词识别正确率为89.458%。

根据单个特征值阈值整合得到总体统计选词模型函数Thres_value：

Thres_value=(IWP–0.851852)*100+(POS_IWP-0.23892)*34

+ln(FANA)+(CI-9.2024)/5 （17）

（11）式就是将表1中的4个单个特征整合形成一个总体特征，也是本发明用来过滤新词设定的统计选词模型函数，利用动态规划的分词方法切词之后，计算所有待识别新词的上述六种特征值，并利用统计选词模型函数进行测试，若词X的函数值满足Thres_value>=0，则在本发明中，认为该词可能为新词，并将其作为候选新词进行下一步规则过滤。再根据规则过滤模型对上步得到的候选新词过滤后得到最终新词选取结果。若候选新词经过本发明规定的规则，过滤了不符合规则的候选词，则留下的候选新词即为新词，并输出。在下面将要介绍本发明所用的三种规则。

规则过滤模型

停用词表，

通过大量的语料统计分析发现，某些单字由于自身意义或者词性的原因，很少用来组成新词。本文将它们收集起来，归结为停用词表，如表2所示。在本发明中，若候选新词中所包含停用词表中的词，则认为该候选新词不可能成词，应当过滤。

表2停用词表举例

姓氏成词率的调整规则

基于前期统计实验结果，发现有很多中文姓名只提取到名而没有提取到姓，例如：“李宇春”只提取到“宇春”，“廖风德”只提取到“风德”等。所以，制定姓氏用字的调整规则，具体规则如下:首先统计分词语料中的姓氏用字，如“李、张、苏、潘”等，获得一个姓氏用字表，当它们作为候选新词的首字出现时，将其成词率置为95%，因为姓氏用字表中的字在人民日报语料中95%的概率是作为姓出现，所以直接用这个数值作为设定阈值。

量词词首停用的规则

分析新词抽取错误的字串，发现有很多字串都是量词+名词的形式，例如“首/歌”、“包/药”等。以“首/歌”为例，分析原因，是因为文档中多次出现“两/首/歌”、“这/首/歌”之类的碎片，可能每个碎片都只出现了一到两次，但它们重复的部分——“首/歌”就出现了很多次，于是被当成“新词”抽取出来。从词语构成来看，量词一般不出现在词的第一个字。所以，制定量词词首停用的规则，该停用规则如下：首先统计语料中出现的量词，如“盒、包、轮”等，汇集成词首量词表。如果候选词中第一个字是量词，则认为该候选词不会组成新词，直接过滤掉。

以下列举具体实施例进行说明：

实施例1：

原语料：面对一波高过一波的“倒咏”声，李咏只能在自己的博客中喊冤。

文本切分后：面对/一/波/高/过/一/波/的/“/倒/咏/”/声/，李/咏/只/能/在/自己/的/博/客/中/喊冤/。

分词碎片：“一/波/高/过/一/波/的/“/倒/咏/”、“声”、“李/咏/只/能/在”、“的/博/客/中”

待识别新词：“一”“波”“高”“过”“的”“一波”“波高”……“倒”“咏”“倒咏”“声”“李”“咏”“只”“能”“在”“李咏”“咏在”“在只”……“博”“客”“中”“的博”“博客”“客中”……

经过统计选词模型函数Thres_value计算：满足Thres_value>=0的待识别新词有Thres_value(一波)=0.13325；Thres_value(倒咏)=0.21123；Thres_value(在只)=0.01134；Thres_value(李咏)=0.10224；Thres_value(博客)=0.43562

候选新词：“一波”、“倒咏”、“在只”、“李咏”、“博客”

规则过滤模型：经过规则一，将存在量词的“一波”和存在介词“在只”过滤掉，经过规则二，将“李咏”的成词率IWP设定为95%，重新计算模型函数，“李咏”的所有四个单个特征均可获得（基于之前的微博语料统计时计算得到的构词信息），因此利用计算公式（11）得到Thres_value(李咏)=0.21247，

最后得出的新词：“倒咏”、“李咏”、“博客”。

Claims

1.一种基于重复字串的微博新词非监督自动抽取方法，其特征在于：先对待处理的微博文档进行文本切分，利用动态规划的分词方法切分文本，切分出待识别的字串，将待识别字串中切词碎片组合，组合成待识别的新词，然后根据统计选词模型从待识别的字串提取出候选新词，紧接着利用规则过滤模型对候选词进行过滤，最后得到最终的新词。

2.按照权利要求1所述一种基于重复字串的微博新词非监督自动抽取方法，其特征在于：所述动态规划的分词方法为：首先用最长次匹配法切分待处理文本，建立候选词路径有向图，然后计算图中每个节点的代价值，接着利用Dijkastra算法计算出最小代价路径，得到最佳切词路径。

3.按照权利要求2所述一种基于重复字串的微博新词非监督自动抽取方法，其特征在于：所述统计选词模型基于大量微博语料进行统计，包括基于局部重复字串的特征和基于全局用词信息的特征；基于局部重复字串的特征包括：字串共现次数和基于字串共现次数的互信息；基于全局用词信息的特征包括成词率、位置相关成词率、构词相似度。

4.按照权利要求1所述一种基于重复字串的微博新词非监督自动抽取方法，其特征在于：所述规则过滤模型包括停用词表、姓氏成词率的调整规则、量词词首停用的规则。