CN102930055A - 结合内部聚合度和外部离散信息熵的网络新词发现方法 - Google Patents

结合内部聚合度和外部离散信息熵的网络新词发现方法 Download PDF

Info

Publication number
CN102930055A
CN102930055A CN2012104698920A CN201210469892A CN102930055A CN 102930055 A CN102930055 A CN 102930055A CN 2012104698920 A CN2012104698920 A CN 2012104698920A CN 201210469892 A CN201210469892 A CN 201210469892A CN 102930055 A CN102930055 A CN 102930055A
Authority
CN
China
Prior art keywords
candidate character
character string
word
current candidate
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104698920A
Other languages
English (en)
Other versions
CN102930055B (zh
Inventor
林怀忠
陈泽锋
李鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201210469892.0A priority Critical patent/CN102930055B/zh
Publication of CN102930055A publication Critical patent/CN102930055A/zh
Application granted granted Critical
Publication of CN102930055B publication Critical patent/CN102930055B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种结合内部聚合度和外部离散信息熵的网络新词发现方法,包括:对网络语料库包含的所有文本句子进行切词处理,并将切分出来的所有互不相同的字串作为候选字串;对在网络语料库中出现的频率超过固定阈值的候选字串,计算其内部聚合度和外部离散信息熵,并根据该候选字串的内部聚合度和外部离散信息熵进一步判断候选目标词串是否为网络新词。本发明方法提出针对判断一个候选字串是否为网络新词的两个关键因素:候选字串的内部聚合度和外部离散信息熵,同时考虑了候选字串的稳定性、独立性和完整性,能够有效的发现网络上出现的新词。

Description

结合内部聚合度和外部离散信息熵的网络新词发现方法
技术领域
本发明涉及一种网络新词发现的方法,属于计算机自然语言处理领域。
背景技术
随着互联网的快速发展和网民规模不断膨胀,新词大量出现在网络并迅速渗入人们的日常生活,这已经成为一种语言现象。同时,在诸如信息检索、自动分词、词典编纂以及机器翻译等众多中文信息处理领域,新词发现的效果,在很大程度上影响着这些中文信息处理领域的效果,尤其以中文自动分词技术最为明显,由于中文自身的特点,它不像英文那样在词与词之间有明显的空格间隔,如何将不断涌现的新词准确切分出来已经是中文信息处理中至关重要的一步,因此,有效的识别新词,将对提高中文信息处理相关领域的效果起到重要的作用。
在新词发现方法方面,目前主要有基于规则和基于统计两大类方法。
基于规则的网络新词发现方法其主要思想是根据新词的字与字的组合方式、词语外型特点或词语内部构造特征建立规则库,然后通过规则匹配方法来识别新词。具体是通过一方面以新词的词语内部构词特征为基础建立常规新词识别规则库,另一方面从网上词语的构词特点出发建立特殊新词识别规则库,并将这些规则分为常规构词规则、词语过滤规则、特殊构词规则等,利用这些规则组合过滤识别网络新词。但是,由于建立新词发现规则的过程需要对大量新词的特点进行细致的分析,这个过程需要投入大量的人力和时间,且新词发现规则通常都与具体的领域相关,只能在有限的领域中发现新词时使用,不易移植到其他领域中;另外,该新词发现方法关于抽取出来的规则的形式较单一,很难将所有的情况都覆盖到,因此这种方法通常准确率不高且建立一个新词识别系统的周期很长。
基于统计的网络新词发现方法,一般是基于统计概论,利用词频过滤策略提取出候选字串,然后再利用语言学知识将不是新词语的候选字串排除;或者是基于统计字与字的共现频率,计算字与字之间的相关度,寻找相关度最大的字与字的组合。基于统计的网络新词发现方法可以较好的利用统计信息来发现新词,但是,缺少对词语的内部和外部结构特征的考虑,同时,这种方法,在识别出现频率较低的词语时,效果不好,且基于统计的方法在发现较长的新词语时,将导致时间复杂度急剧增大,因此基于统计的新词发现方法一般会受限在识别比较短的新词语。
发明内容
本发明的目的是提供一种结合内部聚合度和外部离散信息熵的网络新词发现的新方法。
为实现上述目的,本发明所采取的技术方案是:本发明结合内部聚合度和外部离散信息熵的网络新词发现方法包括:
步骤1):对网络语料库包含的所有文本句子进行切词处理,将每个文本句子中的长度小于等于n的字串切分出来,并将切分出来的所有互不相同的字串作为候选字串;其中,n为整数且n≥1,每个所述文本句子是一个不包含任何标点符号的语句;
步骤2):任意选出一个未作过新词判断处理的候选字串;
步骤3):判断所选出的当前候选字串在所述网络语料库中出现的频率是否小于阈值M,M>0;如果不是,则执行步骤4),否则在仍然存在未作过新词判断处理的候选字串时返回执行步骤2);
步骤4):对当前候选字串作k-1种切分,每一种切分都将当前候选字串切分成两个子字串,其中,k为当前候选字串的长度;分别计算每一种切分所获得的两个子字串随机结合构成当前候选字串的概率,并进一步计算当前候选字串的内部聚合度;
在所有候选字串中找出以当前候选字串为前缀的全部字串,并将以当前候选字串为前缀的全部字串构成当前候选字串的右邻接字串集,计算所述右邻接字串集的信息熵;在所有候选字串中找出以当前候选字串为后缀的全部字串,并将以当前候选字串为后缀的全部字串构成当前候选字串的左邻接字串集,计算所述左邻接字串集的信息熵;以所述右邻接字串集的信息熵和左邻接字串集的信息熵中的较小者作为当前候选字串的外部离散信息熵;
步骤5):如果当前候选字串的内部聚合度超过预先设定的内部聚合度阈值,并且,当前候选字串的外部离散信息熵超过预先设定的外部离散信息熵阈值,那么判断当前候选字串为网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2),其中,所述内部聚合度的阈值和外部离散信息熵的阈值均大于0;
如果当前候选字串的内部聚合度未超过预先设定的所述内部聚合度阈值,或者,当前候选字串的外部离散信息熵未超过预先设定的所述外部离散信息熵阈值,那么判断当前候选字串不是网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2)。
进一步地,本发明所述步骤1)中的n=5。
进一步地,本发明所述步骤3)中的M=25。
进一步地,本发明在所述步骤4)中,当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率的计算公式如式(Ⅰ)所示:
pj(sub1_j,sub2_j)=p(sub1_j)×p(sub2_j)    (Ⅰ)
式(Ⅰ)中,pj(sub1_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率;sub1_j、sub2_j分别表示对当前候选字串进行一种切分时所获得的两个子字串;p(sub1_j)和p(sub2_j)分别对应表示子字串sub1_j、sub2_j在网络语料库中出现的概率,且p(sub1_j)=count(sub1_j)/L,p(sub2_j)=count(sub2_j)/L;count(sub1_j)、count(sub2_j)分别对应表示子字串sub1_j、sub2_j在网络语料库中出现的频率;L表示所有候选字串在网络语料库中出现的频率之和。
进一步地,本发明在所述步骤4)中,当前候选字串的内部聚合度的计算公式如式(Ⅱ)所示:
IC(wi)=p(wi)/max(pj(sub1_j,sub2_j))  1≤j<k    (Ⅱ)
式(Ⅱ)中,wi表示当前候选字串,IC(wi)表示当前候选字串的内部聚合度,p(wi)表示当前候选字串在网络语料库中出现的概率,且p(wi)=count(wi)/L,count(wi)表示当前候选字串在网络语料库中出现的频率,L表示所有候选字串在网络语料库中出现的频率之和,pj(sub1_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率,max(pj(sub1_j,sub2_j))表示按所有切分方法对当前候选字串进行切分而对应得到的所有pj(sub1_j,sub2_j)中的最大值,k表示当前候选字串的长度,k的大小与当前候选字串中包含的字符个数相等。
进一步地,本发明在所述步骤4)中,所述右邻接字串集的信息熵的计算公式如式(Ⅲ)所示:
I ( Rset ) = Σ d = 1 nr - p ( w id ) log 2 ( p ( w id ) ) - - - ( III )
式(Ⅲ)中,I(Rset)表示右邻接字串集的信息熵,Rset表示右邻接字串集,wid表示在Rset中的第d个字串,1≤d≤nr,nr表示Rset中的互不相同字串的数目,p(wid)表示字串wid在Rset中出现的概率,p(wid)=count(wid)/L_rset,count(wid)表示字串wid在网络语料库中出现的频率,L_rset表示Rset中的所有字串在网络语料库中出现的频率之和。
进一步地,本发明在所述步骤4)中,所述左邻接字串集的信息熵的计算公式如式(Ⅳ)所示:
I ( Lest ) = Σ e nL - p ( w ie ) log 2 ( p ( w ie ) ) - - - ( IV )
式(Ⅳ)中,I(Lset)表示左邻接字串集的信息熵,Lset表示左邻接字串集,wie表示左邻接字串集Lset中的第e个字串,1≤e≤nL,nL表示左邻接字串集Lset中的互不相同字串的数目,p(wie)表示wie在左邻接字串集Lset中出现的概率;p(wie)=count(wie)/L_lset,count(wie)表示wie在网络语料库中出现的频率,L_lset表示左邻接字串集Lset中的所有字串在网络语料库中出现的频率之和。
进一步地,本发明在所述步骤5)中,所述内部聚合度的阈值等于4.5。
进一步地,本发明在所述步骤5)中,所述外部离散信息熵的阈值等于0.8。
与现有技术相比,本发明方法具有与基于规则和基于统计的网络新词发现方法不同的发明构思,新开辟了一种网络新词的发现路径;并且,本发明方法克服了基于规则和基于统计的新词发现方法所存在的新词发现准确率低的缺点,能够准确、快速地检测到网络流行的新词。
附图说明
图1为本发明网络新词发现方法的流程示意图。
具体实施方式
众所周知,一个候选字串作为网络新词具有以下规律:即该候选字串在网络上应该具有一定的使用频率,而不是偶尔出现。在此基础上,本发明的发明人进一步发现以下规律:(a)该候选字串在网络中出现的概率要明显大于该候选字串的子字串随机结合构成该候选字串的概率;(b)该候选字串作为一个独立的单元出现在多种不同上下文中时具有相同的含义。有基于此,与现有技术不同,本发明在判断一个候选字串是否为网络新词时,同时考虑了以上规律所涉及的三个因素,首次提出针对判断一个候选字串是否为网络新词的另两个关键因素:候选字串的内部聚合度(Inner Cohesion,简称“IC”)和外部离散信息熵(External Dispersion,简称“ED”)。其中,IC体现候选字串在网络中出现的概率与该候选字串的子字串随机结合构成该候选字串的概率的比值大小,候选字串的IC值的大小能反映该候选字串的内部构词特征,对于符合构词习惯的候选字串,其IC值会比其他不符合构词习惯的候选字串更大,引入该参数可以大大降低将那些出现频率高但不符合构词规则的候选字串误判为网络新词的概率,从而提高准确新词发现的准确率;ED体现候选字串的独立性,是考察候选字串外部特征的参数,能够减小将出现频率高但词义不完整的候选字串误判为网络新词的概率。有鉴于此,本发明提出了一种结合内部聚合度和外部离散信息熵的新的网络新词发现方法。由于本发明方法全面考虑了候选字串的出现频率、内部聚合度和外部离散信息熵这三个因素,克服了基于统计的新词发现方法缺少对词语的内部和外部结构特征考虑造成的准确率不高、以及在识别出现频率较低的词语时效果不好的缺点。另外,本发明不需要预先定制新词发现规则,不需要花费大量人力和时间去定制规则,且避免了基于规则的方法因为定制的规则形式较单一、覆盖率有限而造成的准确率不高的问题,因此,本发明方法能够准确地检测到网络出现的新词。
具体地说,如图1所示,本发明结合内部聚合度和外部离散信息熵的网络新词的发现方法的步骤如下:
步骤1):对网络语料库D包含的所有文本句子进行切词处理,将每个文本句子中的长度不大于n的字串切分出来,并将切分出来的所有互不相同的字串作为候选字串。需要说明的是,每个文本句子是一个不包含任何标点符号的语句,n为整数且n≥1。由于网络新词的长度通常不大于5,可优选n=5。。
以下举例说明对文本句子进行切词处理的方法。假设n=5,则对网络语料库D中包含的其中一个文本句子“这辈子都不再用山寨机了”进行切词处理,由此获得的所有长度不超过5的字串分别如下:
(1)这、辈、子、都、不、再、用、山、寨、机、了;
(2)这辈、辈子、子都、都不、不再、再用、用山、山寨、寨机、机了;
(3)这辈子、辈子都、子都不、都不再、不再用、再用山、用山寨、山寨机、寨机了;
(4)这辈子都、辈子都不、子都不再、都不再用、不再用山、再用山寨、用山寨机、山寨机了;
(5)这辈子都不、辈子都不再、子都不再用、都不再用山、不再用山寨、再用山寨机、用山寨机了。
如前所述,对网络语料库D中的所有文本句子切词后,将切分出来的所有互不相同的字串作为候选字串。以下为方便描述,可将切分出来的互不相同的所有字串(即候选字串)构成字串全集USet进行表示,记字串全集USet中的第i个候选字串为wi,0<i≤S,S为USet中包含的候选字串的总数。
每一个候选字串wi在网络语料库D中出现的频率记为count(wi),USet中的所有候选字串在网络语料库D中出现的频率之和记为L。
为方便理解,可将USet中的各候选字串wi及其在网络语料库D中出现的频率count(wi)、以及USet中的所有候选字串在网络语料库D中出现的频率之和L之间的关系表示如下:
Figure BDA00002422382300071
步骤2):从USet中任意取出其中一个未曾作过新词判断处理的候选字串wi作为当前候选字串。
步骤3):判断步骤2)所取出的当前候选字串wi在网络语料库D中出现的频率count(wi)是否小于阈值M(M>0,优选M=25)。如果count(wi)≥M,则执行步骤4);如果count(wi)<M并且USet中仍然存在未曾作过新词判断处理的候选字串,那么返回执行步骤2);而当count(wi)<M时,如果USet中的所有候选字串均已作过新词判断处理,那么此时可以结束本发明网络新词发现方法。
步骤4):对当前候选字串wi进行切分。具体方法为:如果当前候选字串wi的长度为k,那么,切分的方法共计有k-1种,每一种切分都将当前候选字串wi切分成两个子字串(这两个子字串首尾连接即构成该当前候选字串),其中,记第j种切分获得的两个子字串为sub1_j和sub2_j(j为正整数且1≤j<k)。例如,当前候选字串“山寨机”的长度为3,则共有两种不同的切分:第1种切分获得的两个子字串是:sub1_1=“山”,sub2_1=“寨机”;第2种切分获得的两个子字串是:sub1_2=“山寨”,sub2_2=“机”。
第j种切分获得的两个子字串sub1_j和sub2_j随机结合构成当前候选字串wi的概率pj(sub1_j,sub2_j)的计算公式如式(Ⅰ)所示:
pj(sub1_j,sub2_j)=p(sub1_j)×p(sub2_j)  (Ⅰ)
其中,p(sub1_j)和p(sub2_j)分别对应表示sub1_j和sub2_j子字串在网络语料库D中出现的概率,p(sub1_j)=count(sub1_j)/L,p(sub2_j)=count(sub2_j)/L;count(sub1_j)和count(sub2_j)分别对应表示子字串sub1_j和sub2_j在网络语料库D中出现的频率;L为USet中所有候选字串wi在网络语料库D中出现的频率之和。
例如,当前候选字串“山寨机”的第一种切分获得的两个子字串sub1_1=“山”、sub2_1=“寨机”随机结合成“山寨机”的概率的计算方法如下:在USet中获得“山”和“寨机”出现的频率分别为count(山)=1562、count(寨机)=187。进一步计算p(山)=1562/L、p(寨机)=187/L,则p(山,寨机)=p(山)×p(寨机)=1562/L×187/L。
当前候选字串wi的内部聚合度IC(wi)的计算公式如下:
IC(wi)=p(wi)/max(pj(sub1_j,sub2_j))  1≤j<k    (Ⅱ)
其中,p(wi)表示当前候选字串wi在网络语料库D中出现的概率,p(wi)=count(wi)/L,count(wi)表示当前候选字串wi在网络语料库D中出现的频率,L为USet中所有候选字串在网络语料库D中出现的频率之和,max(pj(sub1_j,sub2_j))表示使用k-1种切分方法对当前候选字串wi进行切分所得到的所有pj(sub1_j,sub2_j)中的最大值;k表示wi的长度,k的大小与wi中包含的字符个数相等。
此外,在USet中找出所有以当前候选字串wi为前缀的字串,并将所有以当前候选字串wi为前缀的字串构成当前候选字串wi的右邻接字串集Rset。
然后计算当前候选字串wi的右邻接字串集Rset的信息熵I(Rset),计算公式如式(Ⅲ)所示:
I ( Rset ) = Σ d = 1 nr - p ( w id ) log 2 ( p ( w id ) ) - - - ( III )
式(Ⅲ)中,wid表示在Rset中的第d个字串,nr表示Rset中互不相同的字串的数目,p(wid)表示wid在Rset中出现的概率,p(wid)=count(wid)/L_rset,count(wid)表示当前候选字串wid在网络语料库D中出现的频率,L_rset表示Rset中的所有字串在网络语料库D中出现的频率之和。
在USet中找出所有以当前候选字串wi为后缀的字串,并将所有以当前候选字串wi为后缀的字串构成wi的左邻接字串集Lset。
然后计算当前候选字串wi的左邻接字串集的信息熵I(Lset),计算公式如下:
I ( Lest ) = Σ e nL - p ( w ie ) log 2 ( p ( w ie ) ) - - - ( IV )
其中,wie表示在Lset中的第e个字串,nL表示Lset中互不相同字串的数目,p(wie)表示wie在Lset中出现的概率;p(wie)=count(wie)/L_lset,count(wie)表示wie在网络语料库D中出现的频率,L_lset表示在Lset中所有字串在网络语料库D中出现的频率之和。
以I(Rset)和I(Lset)两者中的较小者作为当前候选字串wi的外部离散信息熵ED(wi)=min{I(Rset),I(Lset)}。
步骤5):如果IC(wi)超过预先设定的内部聚合度的阈值COH,并且,ED(wi)超过预先设定的外部离散信息熵的阈值DISP,则判断当前候选字串wi为网络新词,可将它加入到网络新词词库ND中。其中,COH>0和DISP>0,通常设置COH=4.5,DISP=0.8。如果IC(wi)未超过预先设定的内部聚合度阈值COH,或者ED(wi)未超过预先设定的外部离散信息熵阈值DISP,则判断当前候选字串wi不是网络新词,不将它加入网络新词词库ND。
此时,如果USet中仍然存在未曾作过新词判断处理的候选字串,则返回执行步骤2),从而继续判断USet中其他未作过新词判断处理的候选字串是否为新词,直至USet中的所有候选字串均都已作过新词判断处理。

Claims (10)

1.一种结合内部聚合度和外部离散信息熵的网络新词发现方法,其特征在于,包括:
步骤1):对网络语料库包含的所有文本句子进行切词处理,将每个文本句子中的长度小于等于n的字串切分出来,并将切分出来的所有互不相同的字串作为候选字串;其中,n为整数且n≥1,每个所述文本句子是一个不包含任何标点符号的语句;
步骤2):任意选出一个未作过新词判断处理的候选字串;
步骤3):判断所选出的当前候选字串在所述网络语料库中出现的频率是否小于阈值M,M>0;如果不是,则执行步骤4),否则在仍然存在未作过新词判断处理的候选字串时返回执行步骤2);
步骤4):对当前候选字串作k-1种切分,每一种切分都将当前候选字串切分成两个子字串,其中,k为当前候选字串的长度;分别计算每一种切分所获得的两个子字串随机结合构成当前候选字串的概率,并进一步计算当前候选字串的内部聚合度;
在所有候选字串中找出以当前候选字串为前缀的全部字串,并将以当前候选字串为前缀的全部字串构成当前候选字串的右邻接字串集,计算所述右邻接字串集的信息熵;在所有候选字串中找出以当前候选字串为后缀的全部字串,并将以当前候选字串为后缀的全部字串构成当前候选字串的左邻接字串集,计算所述左邻接字串集的信息熵;以所述右邻接字串集的信息熵和左邻接字串集的信息熵中的较小者作为当前候选字串的外部离散信息熵;
步骤5):如果当前候选字串的内部聚合度超过预先设定的内部聚合度阈值,并且,当前候选字串的外部离散信息熵超过预先设定的外部离散信息熵阈值,那么判断当前候选字串为网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2),其中,所述内部聚合度的阈值和外部离散信息熵的阈值均大于0;
如果当前候选字串的内部聚合度未超过预先设定的所述内部聚合度阈值,或者,当前候选字串的外部离散信息熵未超过预先设定的所述外部离散信息熵阈值,那么判断当前候选字串不是网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2)。
2.根据权利要求1所述的方法,其特征是:所述步骤1)中的n=5。
3.根据权利要求1所述的方法,其特征是:  所述步骤3)中的M=25。
4.根据权利要求1所述的方法,其特征是:在所述步骤4)中,当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率的计算公式如式(Ⅰ)所示:
pj(sub1_j,sub2_j)=p(sub1_j)× p(sub2_j)(Ⅰ)
式(Ⅰ)中,pj(sub1_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率;sub1_j、sub2_j分别表示对当前候选字串进行一种切分时所获得的两个子字串;p(sub1_j)和p(sub2_j)分别对应表示子字串sub1_j、sub2_j在网络语料库中出现的概率,且p(sub1_j)=count(sub1_j)/L,p(sub2_j)=count(sub2_j)/L;count(sub1_j)、count(sub2_j)分别对应表示子字串sub1_j、sub2_j在网络语料库中出现的频率;L表示所有候选字串在网络语料库中出现的频率之和。
5.根据权利要求1或4所述的方法,其特征是:在所述步骤4)中,当前候选字串的内部聚合度的计算公式如式(Ⅱ)所示:
IC(wi)=p(wi)/max(pj(sub1_j,sub2_j))1≤j<k    (Ⅱ)
式(Ⅱ)中,wi表示当前候选字串,IC(wi)表示当前候选字串的内部聚合度,p(wi)表示当前候选字串在网络语料库中出现的概率,且p(wi)=count(wi)/L,count(wi)表示当前候选字串在网络语料库中出现的频率,L表示所有候选字串在网络语料库中出现的频率之和,pj(sub1_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率,max(pj(sub1_j,sub2_j))表示按所有切分方法对当前候选字串进行切分而对应得到的所有pj(sub1_j,sub2_j)中的最大值,k表示当前候选字串的长度,k的大小与当前候选字串中包含的字符个数相等。
6.根据权利要求1或4所述的方法,其特征是:在所述步骤4)中,所述当前候选字串的右邻接字串集的信息熵的计算公式如式(Ⅲ)所示:
I ( Rset ) = Σ d = 1 nr - p ( w id ) log 2 ( p ( w id ) ) - - - ( III )
式(Ⅲ)中,I(Rset)表示当前候选字串的右邻接字串集的信息熵,Rset表示当前候选字串的右邻接字串集,wid表示Rset中的第d个字串,1≤d≤nr,nr表示Rset中的互不相同字串的数目,p(wid)表示字串wid在Rset中出现的概率,p(wid)=count(wid)/L_rset,count(wid)表示字串wid在网络语料库中出现的频率,L_rset表示Rset中的所有字串在网络语料库中出现的频率之和。
7.根据权利要求1或4所述的方法,其特征是:在所述步骤4)中,所述当前候选字串的左邻接字串集的信息熵的计算公式如式(Ⅳ)所示:
I ( Lest ) = Σ e nL - p ( w ie ) log 2 ( p ( w ie ) ) - - - ( IV )
式(Ⅳ)中,I(Lset)表示当前候选字串的左邻接字串集的信息熵,Lset表示当前候选字串的左邻接字串集,wie表示Lset中的第e个字串,1≤e≤nL,nL表示Lset中的互不相同字串的数目,p(wie)表示字串wie在Lset中出现的概率;p(wie)=count(wie)/L_lset,count(wie)表示字串wie在网络语料库中出现的频率,L_lset表示Lset中的所有字串在网络语料库中出现的频率之和。
8.根据权利要求5所述的方法,其特征是:在所述步骤4)中,所述当前候选字串的右邻接字串集的信息熵的计算公式如式(Ⅲ)所示:
I ( Rset ) = Σ d = 1 nr - p ( w id ) log 2 ( p ( w id ) ) - - - ( III )
式(Ⅲ)中,I(Rset)表示当前候选字串的右邻接字串集的信息熵,Rset表示当前候选字串的右邻接字串集,wid表示在Rset中的第d个字串,1≤d≤nr,nr表示Rset中的互不相同字串的数目,p(wid)表示字串wid在Rset中出现的概率,p(wid)=count(wid)/L_rset,count(wid)表示字串wid在网络语料库中出现的频率,L_rset表示Rset中的所有字串在网络语料库中出现的频率之和;
所述当前候选字串的左邻接字串集的信息熵的计算公式如式(Ⅳ)所示:
I ( Lest ) = Σ e nL - p ( w ie ) log 2 ( p ( w ie ) ) - - - ( IV )
式(Ⅳ)中,I(Lset)表示当前候选字串的左邻接字串集的信息熵,Lset表示当前候选字串的左邻接字串集,wie表示Lset中的第e个字串,1≤e≤nL,nL表示Lset中的互不相同字串的数目,p(wie)表示wie在Lset中出现的概率;p(wie)=count(wie)/L_lset,count(wie)表示wie在网络语料库中出现的频率,L_lset表示Lset中的所有字串在网络语料库中出现的频率之和。
9.根据权利要求1所述的方法,其特征是:在所述步骤5)中,所述内部聚合度的阈值等于4.5。
10.根据权利要求1或9所述的方法,其特征是:在所述步骤5)中,所述外部离散信息熵的阈值等于0.8。
CN201210469892.0A 2012-11-18 2012-11-18 结合内部聚合度和外部离散信息熵的网络新词发现方法 Expired - Fee Related CN102930055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210469892.0A CN102930055B (zh) 2012-11-18 2012-11-18 结合内部聚合度和外部离散信息熵的网络新词发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210469892.0A CN102930055B (zh) 2012-11-18 2012-11-18 结合内部聚合度和外部离散信息熵的网络新词发现方法

Publications (2)

Publication Number Publication Date
CN102930055A true CN102930055A (zh) 2013-02-13
CN102930055B CN102930055B (zh) 2015-11-04

Family

ID=47644852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210469892.0A Expired - Fee Related CN102930055B (zh) 2012-11-18 2012-11-18 结合内部聚合度和外部离散信息熵的网络新词发现方法

Country Status (1)

Country Link
CN (1) CN102930055B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390065A (zh) * 2013-08-01 2013-11-13 北京优佳荣科技有限公司 一种基于通讯群组的数据提取方法和装置
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及系统
CN104102658A (zh) * 2013-04-09 2014-10-15 腾讯科技(深圳)有限公司 文本内容挖掘方法及装置
CN104216892A (zh) * 2013-05-31 2014-12-17 亿览在线网络技术(北京)有限公司 歌曲搜索中非语义、非词组的切换方法
CN105095381A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 新词识别方法和装置
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105512109A (zh) * 2015-12-11 2016-04-20 北京锐安科技有限公司 新词汇的发现方法及装置
CN105630890A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 基于智能问答系统会话历史的新词发现方法及系统
CN103955450B (zh) * 2014-05-06 2016-09-21 杭州东信北邮信息技术有限公司 一种新词自动提取方法
CN106126606A (zh) * 2016-06-21 2016-11-16 国家计算机网络与信息安全管理中心 一种短文本新词发现方法
CN106528523A (zh) * 2016-09-22 2017-03-22 中山大学 一种网络新词识别方法
CN106776573A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种词库生成方法及装置
CN106815190A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 一种词语识别方法、装置及服务器
CN106970904A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 新词发现的方法及装置
CN106970919A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 新词组发现的方法及装置
CN107092588A (zh) * 2016-02-18 2017-08-25 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置和系统
CN107608953A (zh) * 2017-07-25 2018-01-19 同济大学 一种基于不定长上下文的词向量生成方法
CN108875040A (zh) * 2015-10-27 2018-11-23 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN108959259A (zh) * 2018-07-05 2018-12-07 第四范式(北京)技术有限公司 新词发现方法及系统
CN109670170A (zh) * 2018-11-21 2019-04-23 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN109918658A (zh) * 2019-02-28 2019-06-21 云孚科技(北京)有限公司 一种从文本中获取目标词汇的方法及系统
CN110222328A (zh) * 2019-04-08 2019-09-10 平安科技(深圳)有限公司 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN111898010A (zh) * 2020-07-10 2020-11-06 时趣互动(北京)科技有限公司 新关键词挖掘方法、装置及电子设备
CN112395395A (zh) * 2021-01-19 2021-02-23 平安国际智慧城市科技股份有限公司 文本关键词提取方法、装置、设备及存储介质
CN112559694A (zh) * 2021-02-19 2021-03-26 腾讯科技(深圳)有限公司 新词发现的方法、装置、计算机存储介质和电子设备
CN113361238A (zh) * 2021-05-21 2021-09-07 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113449082A (zh) * 2021-07-16 2021-09-28 上海明略人工智能(集团)有限公司 一种新词发现方法、系统、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077816A1 (en) * 2000-08-30 2002-06-20 Ibm Corporation Method and system for automatically extracting new word
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN101976233A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 基于序列模式的新词发现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077816A1 (en) * 2000-08-30 2002-06-20 Ibm Corporation Method and system for automatically extracting new word
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN101976233A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 基于序列模式的新词发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾自艳,史忠植: ""基于概率统计技术和规则方法的新词发现"", 《计算机工程》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102658A (zh) * 2013-04-09 2014-10-15 腾讯科技(深圳)有限公司 文本内容挖掘方法及装置
CN104102658B (zh) * 2013-04-09 2018-09-07 腾讯科技(深圳)有限公司 文本内容挖掘方法及装置
CN104216892B (zh) * 2013-05-31 2018-01-02 亿览在线网络技术(北京)有限公司 歌曲搜索中非语义、非词组的切换方法
CN104216892A (zh) * 2013-05-31 2014-12-17 亿览在线网络技术(北京)有限公司 歌曲搜索中非语义、非词组的切换方法
CN103390065A (zh) * 2013-08-01 2013-11-13 北京优佳荣科技有限公司 一种基于通讯群组的数据提取方法和装置
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及系统
CN103955450B (zh) * 2014-05-06 2016-09-21 杭州东信北邮信息技术有限公司 一种新词自动提取方法
CN105095381A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 新词识别方法和装置
CN105095381B (zh) * 2015-06-30 2019-06-25 北京奇虎科技有限公司 新词识别方法和装置
CN108875040A (zh) * 2015-10-27 2018-11-23 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN108875040B (zh) * 2015-10-27 2020-08-18 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN106815190A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 一种词语识别方法、装置及服务器
CN106815190B (zh) * 2015-11-27 2020-06-23 阿里巴巴集团控股有限公司 一种词语识别方法、装置及服务器
CN105512109B (zh) * 2015-12-11 2019-04-16 北京锐安科技有限公司 新词汇的发现方法及装置
CN105512109A (zh) * 2015-12-11 2016-04-20 北京锐安科技有限公司 新词汇的发现方法及装置
CN105630890B (zh) * 2015-12-18 2017-06-16 北京中科汇联科技股份有限公司 基于智能问答系统会话历史的新词发现方法及系统
CN105630890A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 基于智能问答系统会话历史的新词发现方法及系统
CN106970904A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 新词发现的方法及装置
CN106970919A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 新词组发现的方法及装置
CN106970919B (zh) * 2016-01-14 2020-05-12 北京国双科技有限公司 新词组发现的方法及装置
CN106970904B (zh) * 2016-01-14 2020-06-05 北京国双科技有限公司 新词发现的方法及装置
CN107092588A (zh) * 2016-02-18 2017-08-25 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置和系统
CN106126606A (zh) * 2016-06-21 2016-11-16 国家计算机网络与信息安全管理中心 一种短文本新词发现方法
CN106126606B (zh) * 2016-06-21 2019-08-20 国家计算机网络与信息安全管理中心 一种短文本新词发现方法
CN106528523B (zh) * 2016-09-22 2019-05-10 中山大学 一种网络新词识别方法
CN106528523A (zh) * 2016-09-22 2017-03-22 中山大学 一种网络新词识别方法
CN106776573A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种词库生成方法及装置
CN107608953A (zh) * 2017-07-25 2018-01-19 同济大学 一种基于不定长上下文的词向量生成方法
CN108959259A (zh) * 2018-07-05 2018-12-07 第四范式(北京)技术有限公司 新词发现方法及系统
CN109670170A (zh) * 2018-11-21 2019-04-23 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN109670170B (zh) * 2018-11-21 2023-04-07 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN109918658A (zh) * 2019-02-28 2019-06-21 云孚科技(北京)有限公司 一种从文本中获取目标词汇的方法及系统
CN110222328B (zh) * 2019-04-08 2022-11-22 平安科技(深圳)有限公司 基于神经网络的分词和词类标注方法、装置、设备及存储介质
WO2020206913A1 (zh) * 2019-04-08 2020-10-15 平安科技(深圳)有限公司 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN110222328A (zh) * 2019-04-08 2019-09-10 平安科技(深圳)有限公司 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN111898010A (zh) * 2020-07-10 2020-11-06 时趣互动(北京)科技有限公司 新关键词挖掘方法、装置及电子设备
CN112395395A (zh) * 2021-01-19 2021-02-23 平安国际智慧城市科技股份有限公司 文本关键词提取方法、装置、设备及存储介质
CN112395395B (zh) * 2021-01-19 2021-05-28 平安国际智慧城市科技股份有限公司 文本关键词提取方法、装置、设备及存储介质
CN112559694A (zh) * 2021-02-19 2021-03-26 腾讯科技(深圳)有限公司 新词发现的方法、装置、计算机存储介质和电子设备
CN112559694B (zh) * 2021-02-19 2021-05-25 腾讯科技(深圳)有限公司 新词发现的方法、装置、计算机存储介质和电子设备
CN113361238B (zh) * 2021-05-21 2022-02-11 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113361238A (zh) * 2021-05-21 2021-09-07 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113449082A (zh) * 2021-07-16 2021-09-28 上海明略人工智能(集团)有限公司 一种新词发现方法、系统、电子设备及介质

Also Published As

Publication number Publication date
CN102930055B (zh) 2015-11-04

Similar Documents

Publication Publication Date Title
CN102930055B (zh) 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
US11544459B2 (en) Method and apparatus for determining feature words and server
US20190065576A1 (en) Single-entity-single-relation question answering systems, and methods
CN103123618B (zh) 文本相似度获取方法和装置
US8645418B2 (en) Method and apparatus for word quality mining and evaluating
CN109815336B (zh) 一种文本聚合方法及系统
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN109388803A (zh) 中文分词方法及系统
CN102955856A (zh) 一种基于特征扩展的中文短文本分类方法
CN104298746A (zh) 一种基于短语网络图排序的领域文献关键词提取方法
US20140032207A1 (en) Information Classification Based on Product Recognition
CN103617290B (zh) 中文机器阅读系统
CN109614626A (zh) 基于万有引力模型的关键词自动抽取方法
CN102279890A (zh) 基于微博的情感词提取收集方法
CN102081642A (zh) 搜索引擎检索结果聚类的中文标签提取方法
CN103092828A (zh) 基于语义分析和语义关系网络的文本相似度度量方法
CN104899230A (zh) 舆情热点自动监测系统
CN104866558A (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN103955450A (zh) 一种新词自动提取方法
CN102651003A (zh) 一种跨语言搜索的方法和装置
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151104

Termination date: 20161118

CF01 Termination of patent right due to non-payment of annual fee