CN102930055A

CN102930055A - 结合内部聚合度和外部离散信息熵的网络新词发现方法

Info

Publication number: CN102930055A
Application number: CN2012104698920A
Authority: CN
Inventors: 林怀忠; 陈泽锋; 李鹏飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-11-18
Filing date: 2012-11-18
Publication date: 2013-02-13
Anticipated expiration: 2032-11-18
Also published as: CN102930055B

Abstract

本发明公开了一种结合内部聚合度和外部离散信息熵的网络新词发现方法，包括：对网络语料库包含的所有文本句子进行切词处理，并将切分出来的所有互不相同的字串作为候选字串；对在网络语料库中出现的频率超过固定阈值的候选字串，计算其内部聚合度和外部离散信息熵，并根据该候选字串的内部聚合度和外部离散信息熵进一步判断候选目标词串是否为网络新词。本发明方法提出针对判断一个候选字串是否为网络新词的两个关键因素：候选字串的内部聚合度和外部离散信息熵，同时考虑了候选字串的稳定性、独立性和完整性，能够有效的发现网络上出现的新词。

Description

结合内部聚合度和外部离散信息熵的网络新词发现方法

技术领域

本发明涉及一种网络新词发现的方法，属于计算机自然语言处理领域。

背景技术

随着互联网的快速发展和网民规模不断膨胀，新词大量出现在网络并迅速渗入人们的日常生活，这已经成为一种语言现象。同时，在诸如信息检索、自动分词、词典编纂以及机器翻译等众多中文信息处理领域，新词发现的效果，在很大程度上影响着这些中文信息处理领域的效果，尤其以中文自动分词技术最为明显，由于中文自身的特点，它不像英文那样在词与词之间有明显的空格间隔，如何将不断涌现的新词准确切分出来已经是中文信息处理中至关重要的一步，因此，有效的识别新词，将对提高中文信息处理相关领域的效果起到重要的作用。

在新词发现方法方面，目前主要有基于规则和基于统计两大类方法。

基于规则的网络新词发现方法其主要思想是根据新词的字与字的组合方式、词语外型特点或词语内部构造特征建立规则库，然后通过规则匹配方法来识别新词。具体是通过一方面以新词的词语内部构词特征为基础建立常规新词识别规则库，另一方面从网上词语的构词特点出发建立特殊新词识别规则库，并将这些规则分为常规构词规则、词语过滤规则、特殊构词规则等，利用这些规则组合过滤识别网络新词。但是，由于建立新词发现规则的过程需要对大量新词的特点进行细致的分析，这个过程需要投入大量的人力和时间，且新词发现规则通常都与具体的领域相关，只能在有限的领域中发现新词时使用，不易移植到其他领域中；另外，该新词发现方法关于抽取出来的规则的形式较单一，很难将所有的情况都覆盖到，因此这种方法通常准确率不高且建立一个新词识别系统的周期很长。

基于统计的网络新词发现方法，一般是基于统计概论，利用词频过滤策略提取出候选字串，然后再利用语言学知识将不是新词语的候选字串排除；或者是基于统计字与字的共现频率，计算字与字之间的相关度，寻找相关度最大的字与字的组合。基于统计的网络新词发现方法可以较好的利用统计信息来发现新词，但是，缺少对词语的内部和外部结构特征的考虑，同时，这种方法，在识别出现频率较低的词语时，效果不好，且基于统计的方法在发现较长的新词语时，将导致时间复杂度急剧增大,因此基于统计的新词发现方法一般会受限在识别比较短的新词语。

发明内容

本发明的目的是提供一种结合内部聚合度和外部离散信息熵的网络新词发现的新方法。

为实现上述目的，本发明所采取的技术方案是：本发明结合内部聚合度和外部离散信息熵的网络新词发现方法包括：

步骤1）：对网络语料库包含的所有文本句子进行切词处理，将每个文本句子中的长度小于等于n的字串切分出来，并将切分出来的所有互不相同的字串作为候选字串；其中，n为整数且n≥1，每个所述文本句子是一个不包含任何标点符号的语句；

步骤2）：任意选出一个未作过新词判断处理的候选字串；

步骤3）：判断所选出的当前候选字串在所述网络语料库中出现的频率是否小于阈值M，M＞0；如果不是，则执行步骤4），否则在仍然存在未作过新词判断处理的候选字串时返回执行步骤2)；

步骤4）：对当前候选字串作k-1种切分，每一种切分都将当前候选字串切分成两个子字串，其中，k为当前候选字串的长度；分别计算每一种切分所获得的两个子字串随机结合构成当前候选字串的概率，并进一步计算当前候选字串的内部聚合度；

在所有候选字串中找出以当前候选字串为前缀的全部字串，并将以当前候选字串为前缀的全部字串构成当前候选字串的右邻接字串集，计算所述右邻接字串集的信息熵；在所有候选字串中找出以当前候选字串为后缀的全部字串，并将以当前候选字串为后缀的全部字串构成当前候选字串的左邻接字串集，计算所述左邻接字串集的信息熵；以所述右邻接字串集的信息熵和左邻接字串集的信息熵中的较小者作为当前候选字串的外部离散信息熵；

步骤5）：如果当前候选字串的内部聚合度超过预先设定的内部聚合度阈值，并且，当前候选字串的外部离散信息熵超过预先设定的外部离散信息熵阈值，那么判断当前候选字串为网络新词，并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2），其中，所述内部聚合度的阈值和外部离散信息熵的阈值均大于0；

如果当前候选字串的内部聚合度未超过预先设定的所述内部聚合度阈值，或者，当前候选字串的外部离散信息熵未超过预先设定的所述外部离散信息熵阈值，那么判断当前候选字串不是网络新词，并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2）。

进一步地，本发明所述步骤1）中的n=5。

进一步地，本发明所述步骤3）中的M=25。

进一步地，本发明在所述步骤4）中，当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率的计算公式如式（Ⅰ）所示：

p_j(sub1_j,sub2_j)=p(sub1_j)×p(sub2_j) （Ⅰ）

式（Ⅰ）中,p_j(sub1_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率；sub1_j、sub2_j分别表示对当前候选字串进行一种切分时所获得的两个子字串；p(sub1_j)和p(sub2_j)分别对应表示子字串sub1_j、sub2_j在网络语料库中出现的概率，且p(sub1_j)=count(sub1_j)/L，p(sub2_j)=count(sub2_j)/L；count(sub1_j)、count(sub2_j)分别对应表示子字串sub1_j、sub2_j在网络语料库中出现的频率；L表示所有候选字串在网络语料库中出现的频率之和。

进一步地，本发明在所述步骤4）中，当前候选字串的内部聚合度的计算公式如式（Ⅱ）所示：

IC(w_i)=p(w_i)/max(p_j(sub1_j,sub2_j)) 1≤j＜k （Ⅱ）

式（Ⅱ）中，w_i表示当前候选字串，IC(w_i)表示当前候选字串的内部聚合度，p(w_i)表示当前候选字串在网络语料库中出现的概率，且p(w_i)=count(w_i)/L，count(w_i)表示当前候选字串在网络语料库中出现的频率，L表示所有候选字串在网络语料库中出现的频率之和，p_j(sub1_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率，max(p_j(sub1_j,sub2_j))表示按所有切分方法对当前候选字串进行切分而对应得到的所有p_j(sub1_j,sub2_j)中的最大值，k表示当前候选字串的长度，k的大小与当前候选字串中包含的字符个数相等。

进一步地，本发明在所述步骤4）中，所述右邻接字串集的信息熵的计算公式如式(Ⅲ）所示：

I (Rset) = Σ_{d = 1}^{nr} - p (w_{id}) \log_{2} (p (w_{id})) - - - (III)

式(Ⅲ）中，I(Rset)表示右邻接字串集的信息熵，Rset表示右邻接字串集，w_id表示在Rset中的第d个字串，1≤d≤nr，nr表示Rset中的互不相同字串的数目，p(w_id)表示字串w_id在Rset中出现的概率，p(w_id)=count(w_id)/L_rset，count(w_id)表示字串w_id在网络语料库中出现的频率，L_rset表示Rset中的所有字串在网络语料库中出现的频率之和。

进一步地，本发明在所述步骤4）中，所述左邻接字串集的信息熵的计算公式如式（Ⅳ）所示：

I (Lest) = Σ_{e}^{nL} - p (w_{ie}) \log_{2} (p (w_{ie})) - - - (IV)

式（Ⅳ）中,I(Lset)表示左邻接字串集的信息熵，Lset表示左邻接字串集，w_ie表示左邻接字串集Lset中的第e个字串，1≤e≤nL，nL表示左邻接字串集Lset中的互不相同字串的数目，p(w_ie)表示w_ie在左邻接字串集Lset中出现的概率；p(w_ie)=count(w_ie)/L_lset，count(w_ie)表示w_ie在网络语料库中出现的频率，L_lset表示左邻接字串集Lset中的所有字串在网络语料库中出现的频率之和。

进一步地，本发明在所述步骤5）中，所述内部聚合度的阈值等于4.5。

进一步地，本发明在所述步骤5）中，所述外部离散信息熵的阈值等于0.8。

与现有技术相比，本发明方法具有与基于规则和基于统计的网络新词发现方法不同的发明构思，新开辟了一种网络新词的发现路径；并且，本发明方法克服了基于规则和基于统计的新词发现方法所存在的新词发现准确率低的缺点，能够准确、快速地检测到网络流行的新词。

附图说明

图1为本发明网络新词发现方法的流程示意图。

具体实施方式

众所周知，一个候选字串作为网络新词具有以下规律：即该候选字串在网络上应该具有一定的使用频率，而不是偶尔出现。在此基础上，本发明的发明人进一步发现以下规律：（a）该候选字串在网络中出现的概率要明显大于该候选字串的子字串随机结合构成该候选字串的概率；（b）该候选字串作为一个独立的单元出现在多种不同上下文中时具有相同的含义。有基于此，与现有技术不同，本发明在判断一个候选字串是否为网络新词时，同时考虑了以上规律所涉及的三个因素，首次提出针对判断一个候选字串是否为网络新词的另两个关键因素：候选字串的内部聚合度（Inner Cohesion，简称“IC”）和外部离散信息熵（External Dispersion，简称“ED”）。其中，IC体现候选字串在网络中出现的概率与该候选字串的子字串随机结合构成该候选字串的概率的比值大小，候选字串的IC值的大小能反映该候选字串的内部构词特征，对于符合构词习惯的候选字串，其IC值会比其他不符合构词习惯的候选字串更大，引入该参数可以大大降低将那些出现频率高但不符合构词规则的候选字串误判为网络新词的概率，从而提高准确新词发现的准确率；ED体现候选字串的独立性，是考察候选字串外部特征的参数，能够减小将出现频率高但词义不完整的候选字串误判为网络新词的概率。有鉴于此，本发明提出了一种结合内部聚合度和外部离散信息熵的新的网络新词发现方法。由于本发明方法全面考虑了候选字串的出现频率、内部聚合度和外部离散信息熵这三个因素，克服了基于统计的新词发现方法缺少对词语的内部和外部结构特征考虑造成的准确率不高、以及在识别出现频率较低的词语时效果不好的缺点。另外，本发明不需要预先定制新词发现规则，不需要花费大量人力和时间去定制规则，且避免了基于规则的方法因为定制的规则形式较单一、覆盖率有限而造成的准确率不高的问题，因此，本发明方法能够准确地检测到网络出现的新词。

具体地说，如图1所示，本发明结合内部聚合度和外部离散信息熵的网络新词的发现方法的步骤如下：

步骤1）：对网络语料库D包含的所有文本句子进行切词处理，将每个文本句子中的长度不大于n的字串切分出来，并将切分出来的所有互不相同的字串作为候选字串。需要说明的是，每个文本句子是一个不包含任何标点符号的语句，n为整数且n≥1。由于网络新词的长度通常不大于5，可优选n=5。。

以下举例说明对文本句子进行切词处理的方法。假设n=5，则对网络语料库D中包含的其中一个文本句子“这辈子都不再用山寨机了”进行切词处理，由此获得的所有长度不超过5的字串分别如下：

（1）这、辈、子、都、不、再、用、山、寨、机、了；

（2）这辈、辈子、子都、都不、不再、再用、用山、山寨、寨机、机了；

（3）这辈子、辈子都、子都不、都不再、不再用、再用山、用山寨、山寨机、寨机了；

（4）这辈子都、辈子都不、子都不再、都不再用、不再用山、再用山寨、用山寨机、山寨机了；

（5）这辈子都不、辈子都不再、子都不再用、都不再用山、不再用山寨、再用山寨机、用山寨机了。

如前所述，对网络语料库D中的所有文本句子切词后，将切分出来的所有互不相同的字串作为候选字串。以下为方便描述，可将切分出来的互不相同的所有字串（即候选字串）构成字串全集USet进行表示，记字串全集USet中的第i个候选字串为w_i，0＜i≤S，S为USet中包含的候选字串的总数。

每一个候选字串w_i在网络语料库D中出现的频率记为count(w_i)，USet中的所有候选字串在网络语料库D中出现的频率之和记为L。

为方便理解，可将USet中的各候选字串w_i及其在网络语料库D中出现的频率count(w_i)、以及USet中的所有候选字串在网络语料库D中出现的频率之和L之间的关系表示如下：

步骤2）：从USet中任意取出其中一个未曾作过新词判断处理的候选字串w_i作为当前候选字串。

步骤3）：判断步骤2）所取出的当前候选字串w_i在网络语料库D中出现的频率count(w_i)是否小于阈值M（M＞0，优选M=25）。如果count(w_i)≥M，则执行步骤4）；如果count(w_i)＜M并且USet中仍然存在未曾作过新词判断处理的候选字串，那么返回执行步骤2)；而当count(w_i)＜M时，如果USet中的所有候选字串均已作过新词判断处理，那么此时可以结束本发明网络新词发现方法。

步骤4）：对当前候选字串w_i进行切分。具体方法为：如果当前候选字串w_i的长度为k，那么，切分的方法共计有k-1种，每一种切分都将当前候选字串w_i切分成两个子字串（这两个子字串首尾连接即构成该当前候选字串），其中，记第j种切分获得的两个子字串为sub1_j和sub2_j（j为正整数且1≤j＜k）。例如，当前候选字串“山寨机”的长度为3，则共有两种不同的切分：第1种切分获得的两个子字串是：sub1_1=“山”，sub2_1=“寨机”；第2种切分获得的两个子字串是：sub1_2=“山寨”，sub2_2=“机”。

第j种切分获得的两个子字串sub1_j和sub2_j随机结合构成当前候选字串w_i的概率p_j(sub1_j,sub2_j)的计算公式如式（Ⅰ）所示：

p_j(sub1_j,sub2_j)=p(sub1_j)×p(sub2_j) （Ⅰ）

其中,p(sub1_j)和p(sub2_j)分别对应表示sub1_j和sub2_j子字串在网络语料库D中出现的概率，p(sub1_j)=count(sub1_j)/L，p(sub2_j)=count(sub2_j)/L；count(sub1_j)和count(sub2_j)分别对应表示子字串sub1_j和sub2_j在网络语料库D中出现的频率；L为USet中所有候选字串w_i在网络语料库D中出现的频率之和。

例如，当前候选字串“山寨机”的第一种切分获得的两个子字串sub1_1=“山”、sub2_1=“寨机”随机结合成“山寨机”的概率的计算方法如下：在USet中获得“山”和“寨机”出现的频率分别为count(山)=1562、count(寨机)=187。进一步计算p(山)=1562/L、p(寨机)=187/L，则p(山，寨机)=p(山)×p(寨机)=1562/L×187/L。

当前候选字串w_i的内部聚合度IC(w_i)的计算公式如下：

IC(w_i)=p(w_i)/max(p_j(sub1_j,sub2_j)) 1≤j＜k （Ⅱ）

其中，p(w_i)表示当前候选字串w_i在网络语料库D中出现的概率，p(w_i)=count(w_i)/L，count(w_i)表示当前候选字串w_i在网络语料库D中出现的频率，L为USet中所有候选字串在网络语料库D中出现的频率之和，max(p_j(sub1_j,sub2_j))表示使用k-1种切分方法对当前候选字串w_i进行切分所得到的所有p_j(sub1_j,sub2_j)中的最大值；k表示w_i的长度，k的大小与w_i中包含的字符个数相等。

此外，在USet中找出所有以当前候选字串w_i为前缀的字串，并将所有以当前候选字串w_i为前缀的字串构成当前候选字串w_i的右邻接字串集Rset。

然后计算当前候选字串w_i的右邻接字串集Rset的信息熵I(Rset)，计算公式如式(Ⅲ）所示：

I (Rset) = Σ_{d = 1}^{nr} - p (w_{id}) \log_{2} (p (w_{id})) - - - (III)

式(Ⅲ）中，w_id表示在Rset中的第d个字串，nr表示Rset中互不相同的字串的数目，p(w_id)表示w_id在Rset中出现的概率，p(w_id)=count(w_id)/L_rset，count(w_id)表示当前候选字串w_id在网络语料库D中出现的频率，L_rset表示Rset中的所有字串在网络语料库D中出现的频率之和。

在USet中找出所有以当前候选字串w_i为后缀的字串，并将所有以当前候选字串w_i为后缀的字串构成w_i的左邻接字串集Lset。

然后计算当前候选字串w_i的左邻接字串集的信息熵I(Lset)，计算公式如下：

I (Lest) = Σ_{e}^{nL} - p (w_{ie}) \log_{2} (p (w_{ie})) - - - (IV)

其中,w_ie表示在Lset中的第e个字串，nL表示Lset中互不相同字串的数目，p(w_ie)表示w_ie在Lset中出现的概率；p(w_ie)=count(w_ie)/L_lset，count(w_ie)表示w_ie在网络语料库D中出现的频率，L_lset表示在Lset中所有字串在网络语料库D中出现的频率之和。

以I(Rset)和I(Lset)两者中的较小者作为当前候选字串w_i的外部离散信息熵ED(w_i)=min{I(Rset),I(Lset)}。

步骤5）：如果IC(w_i)超过预先设定的内部聚合度的阈值COH，并且，ED(w_i)超过预先设定的外部离散信息熵的阈值DISP，则判断当前候选字串w_i为网络新词，可将它加入到网络新词词库ND中。其中，COH＞0和DISP＞0，通常设置COH=4.5，DISP=0.8。如果IC(w_i)未超过预先设定的内部聚合度阈值COH，或者ED(w_i)未超过预先设定的外部离散信息熵阈值DISP，则判断当前候选字串w_i不是网络新词，不将它加入网络新词词库ND。

此时，如果USet中仍然存在未曾作过新词判断处理的候选字串，则返回执行步骤2），从而继续判断USet中其他未作过新词判断处理的候选字串是否为新词，直至USet中的所有候选字串均都已作过新词判断处理。

Claims

1.一种结合内部聚合度和外部离散信息熵的网络新词发现方法，其特征在于，包括：

步骤2）：任意选出一个未作过新词判断处理的候选字串；

2.根据权利要求1所述的方法，其特征是：所述步骤1）中的n=5。

3.根据权利要求1所述的方法，其特征是：所述步骤3）中的M=25。

4.根据权利要求1所述的方法，其特征是：在所述步骤4）中，当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率的计算公式如式（Ⅰ）所示：

p_j(sub1_j,sub2_j)=p(sub1_j)× p(sub2_j)（Ⅰ）

5.根据权利要求1或4所述的方法，其特征是：在所述步骤4）中，当前候选字串的内部聚合度的计算公式如式（Ⅱ）所示：

IC(w_i)=p(w_i)/max(p_j(sub1_j,sub2_j))1≤j＜k （Ⅱ）

6.根据权利要求1或4所述的方法，其特征是：在所述步骤4）中，所述当前候选字串的右邻接字串集的信息熵的计算公式如式(Ⅲ）所示：

I (Rset) = Σ_{d = 1}^{nr} - p (w_{id}) \log_{2} (p (w_{id})) - - - (III)

式(Ⅲ）中，I(Rset)表示当前候选字串的右邻接字串集的信息熵，Rset表示当前候选字串的右邻接字串集，w_id表示Rset中的第d个字串，1≤d≤nr，nr表示Rset中的互不相同字串的数目，p(w_id)表示字串w_id在Rset中出现的概率，p(w_id)=count(w_id)/L_rset，count(w_id)表示字串w_id在网络语料库中出现的频率，L_rset表示Rset中的所有字串在网络语料库中出现的频率之和。

7.根据权利要求1或4所述的方法，其特征是：在所述步骤4）中，所述当前候选字串的左邻接字串集的信息熵的计算公式如式（Ⅳ）所示：

I (Lest) = Σ_{e}^{nL} - p (w_{ie}) \log_{2} (p (w_{ie})) - - - (IV)

式（Ⅳ）中,I(Lset)表示当前候选字串的左邻接字串集的信息熵，Lset表示当前候选字串的左邻接字串集，w_ie表示Lset中的第e个字串，1≤e≤nL，nL表示Lset中的互不相同字串的数目，p(w_ie)表示字串w_ie在Lset中出现的概率；p(w_ie)=count(w_ie)/L_lset，count(w_ie)表示字串w_ie在网络语料库中出现的频率，L_lset表示Lset中的所有字串在网络语料库中出现的频率之和。

8.根据权利要求5所述的方法，其特征是：在所述步骤4）中，所述当前候选字串的右邻接字串集的信息熵的计算公式如式(Ⅲ）所示：

I (Rset) = Σ_{d = 1}^{nr} - p (w_{id}) \log_{2} (p (w_{id})) - - - (III)

式(Ⅲ）中，I(Rset)表示当前候选字串的右邻接字串集的信息熵，Rset表示当前候选字串的右邻接字串集，w_id表示在Rset中的第d个字串，1≤d≤nr，nr表示Rset中的互不相同字串的数目，p(w_id)表示字串w_id在Rset中出现的概率，p(w_id)=count(w_id)/L_rset，count(w_id)表示字串w_id在网络语料库中出现的频率，L_rset表示Rset中的所有字串在网络语料库中出现的频率之和；

所述当前候选字串的左邻接字串集的信息熵的计算公式如式（Ⅳ）所示：

I (Lest) = Σ_{e}^{nL} - p (w_{ie}) \log_{2} (p (w_{ie})) - - - (IV)

式（Ⅳ）中,I(Lset)表示当前候选字串的左邻接字串集的信息熵，Lset表示当前候选字串的左邻接字串集，w_ie表示Lset中的第e个字串，1≤e≤nL，nL表示Lset中的互不相同字串的数目，p(w_ie)表示w_ie在Lset中出现的概率；p(w_ie)=count(w_ie)/L_lset，count(w_ie)表示w_ie在网络语料库中出现的频率，L_lset表示Lset中的所有字串在网络语料库中出现的频率之和。

9.根据权利要求1所述的方法，其特征是：在所述步骤5）中，所述内部聚合度的阈值等于4.5。

10.根据权利要求1或9所述的方法，其特征是：在所述步骤5）中，所述外部离散信息熵的阈值等于0.8。