CN104077274B - 一种从文档集中抽取热词短语的方法和装置 - Google Patents
一种从文档集中抽取热词短语的方法和装置 Download PDFInfo
- Publication number
- CN104077274B CN104077274B CN201410265383.5A CN201410265383A CN104077274B CN 104077274 B CN104077274 B CN 104077274B CN 201410265383 A CN201410265383 A CN 201410265383A CN 104077274 B CN104077274 B CN 104077274B
- Authority
- CN
- China
- Prior art keywords
- phrase
- word
- words
- document set
- phrases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000014509 gene expression Effects 0.000 claims description 40
- 238000001914 filtration Methods 0.000 claims description 11
- 102100030976 Collagen alpha-2(IX) chain Human genes 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种从文档集中抽取热词短语的方法和装置,其中分词单元对所述文档集中的每个分句进行分词;判断单元为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;热词短语抽取单元为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。与现有技术相比,本发明提供的方法和装置可以更准确地从各种语料库中抽取热词短语。
Description
技术领域
本发明涉及信息处理技术,尤其涉及一种从文档集中抽取热词短语的方法和装置。
背景技术
随着互联网信息的爆炸式增长,人们针对热点话题来获取热点信息的需求越来越高,例如针对话题“发改委”、“证监会”、“余额宝”等来获取与之相关的对象、事件和热门话题的讨论热点,因而如何更好地从各种语料资源中抽取热词短语已成为自然语言处理领域的重要课题。就现有的热词短语抽取技术而言,通常比较依赖于分词系统,如果分词系统的分词效果不好,直接导致热词短语抽取的效果很差,而现有的分词系统通常对诸如期刊、报纸上等正规文献上的语句进行分词的效果较好,而对于用词不规范的网络用词进行分词的效果较差,由此进一步导致大部分网络热词短语不能很好地被抽取;而且,现有的热词短语抽取技术通常只能抽取包含较少词的短语,比如包含两个词或三个词,并且对短语的抽取比较依赖于语言学规则(诸如语法、句法规则),灵活度不高;另外,现有的热词短语抽取技术通常采用的策略是将较短的词语扩充为较长的词语,导致不能将大部分较长的且含有噪声词(如“的”、“了”、“致”)的热词短语成功抽取,也即现有的热词短语抽取技术的鲁棒性较差。
发明内容
本发明解决的技术问题之一是提升热词短语抽取的准确性。
根据本发明的一个方面的一个实施例,提供了一种从文档集中抽取热词短语的方法,包括:
对所述文档集中的每个分句进行分词;
针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;
基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。
根据本发明的一个实施例,本方法还包括:
基于短语频率tf、语段频率df、以及tf·loga(M/df)中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,a>1,短语频率tf表示所述短语在所述文档集中出现的总次数,语段频率df表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目。
根据本发明的一个实施例,判断短语边界明显度的步骤包括:
通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或
通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显度。
根据本发明的一个实施例,所述短语中各词之间关系的紧密程度包括短语中词间关联度或/和内聚度。
根据本发明的一个实施例,所述判断短语边界明显度和短语中各词之间关系的紧密程度的步骤包括:先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。
根据本发明的另一个方面的一个实施例,还提供了一种从文档集中抽取热词短语的装置,包括:
分词单元,被配置为对所述文档集中的每个分句进行分词;
判断单元,被配置为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;
热词短语抽取单元,被配置为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。
根据本发明的一个实施例,所述热词短语抽取单元被配置为基于短语频率tf、语段频率df、以及tf·loga(M/df)中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,短语频率tf表示所述短语在所述文档集中出现的总次数,语段频率df表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目,a>1。
根据本发明的一个实施例,判断单元被配置为基于以下中的任一项判断短语边界明显度:
通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或
通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显度。
根据本发明的一个实施例,所述短语中各词之间关系的紧密程度包括短语中词间关联度或/和内聚度。
根据本发明的一个实施例,所述判断单元被配置为在判断短语边界明显度和短语中各词之间关系的紧密程度中:先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。
与依赖分词的现有技术相比,本发明一个实施例提供的从文档集中抽取热词短语的方法针对每个分句中所有K个以下连续词组成的短语进行统计学上的判断,这样,即使分词不准确,由于一些词语从统计学上仍然会连在一起频繁出现而被识别成热词短语,因此相比于现有技术的方案,可以有效提升热词短语抽取的鲁棒性,无论对于正规文献上的语句还是网络用语,都能很好地从中抽取热词短语。
另外,对于包含较多词或/和包含噪声词的热点短语,本发明的一个实施例也可以有效地抽取,抽取的热点短语如“致我们逝去的青春”、“关注越南局势”、“雾霾天气”等等。噪声词是指如“的”等无实际意义的词。
再者,本发明提供的方法是无需人干预的,完全数据驱动的,无需根据业务需要进行繁琐复杂的规则处理。
并且,本发明一个实施例提供的从文档集中抽取热词短语的方法,基于短语频率tf、语段频率df、以及tf·loga(M/df)中的至少一个,对所述抽取的一部分短语进行排序,并基于排序从抽取出的热词短语中进一步过滤掉一部分热词短语,从而更准确地从文档集中抽取热词短语。
并且,本发明的一个实施例提供的从文档集中抽取热词短语的方法,通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差并与相应阈值比较,判断短语边界明显度,可以进一步提升热词短语抽取的鲁棒性。
并且,本发明一个实施例提供的从文档集中抽取热词短语的方法,通过先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度,可以进一步提升热词短语抽取的准确性和鲁棒性。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个实施例的从文档集中抽取热词短语的方法流程图;
图2示出根据本发明另一个实施例的从文档集中抽取热词短语的装置的示意性框图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个实施例的从文档集中抽取热词短语的方法1流程图。根据本发明的一个实施例,方法1包括:
步骤s101,对所述文档集中的每个分句进行分词;
步骤s102,针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,可由用户根据需要提前设置。边界明显度指示短语与短语左右的词的搭配自由度;
步骤s103,基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。
其中,文档集可以指单个文档或多个文档的集合,当然,此处的文档集仅为示例,还可以为其他的语料资源,诸如词典、微博数据库等,同样适用于本发明。其中,分句可以指文档中诸如逗号、分号等停顿符号之间的相对独立的意群。
具体地,在步骤s101中,对所述文档集中的每个分句进行分词。此处的分词方法具体不作限定,诸如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等,都可适用于本发明,并在此以引用方式包含于此。例如,对文档集中的分句“ABCDEFGHIJK”进行分词,得到:A_B_C_D_E_F_G_H_I_J_K(其中的下划线表示空格),其中的空格经分词处理得到,字母A-K中的每个字母代表该分句经过分词处理依次得到的词。
在步骤s102中,针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度。
具体地,仍以分句“ABCDEFGHIJK”为例,设定一个初始值K,例如K为6,针对该分句中所有6个以下连续词组成的短语,判断其边界明显度和/或短语中各词之间关系的紧密程度。对于分句“ABCDEFGHIJK”而言,其中所有6个以下连续词组成的短语包括:
A
A B
A B C
A B C D
A B C D E
A B C D E F
B
B C
B C D
B C D E
B C D E F
B C D E F G
C
C D
……
可选地,所述判断短语边界明显度的步骤包括:
通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或
通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显度。
以短语“给力”为例,其出现在文档集中的左侧词集合为“太、好”,假设“太”出现了30次,“好”出现了20次,则
此方差较小,说明“给力”左搭配的词经常不同,左边界明显。
再以“我们逝去的青春”为例,发现其在文档中的左侧词集合为“致”和#,其中#表示无左侧词,“致”出现了49次,无左侧词出现了1次,则
显示此方差较大,说明“我们逝去的青春”左边经常固定搭配,左边界不明显。“致”和“我们逝去的青春”连起来更可能是一个短语。
通常,如果所述短语的左、右信息熵越高,那么所述短语边界明显度越高,也即短语与短语左右的词的搭配自由度越高。
可选地,通过以下公式计算所述短语的左、右信息熵:
所述短语的左信息熵的计算如下:
或
其中,w表示所述短语,ai表示所述文档集中紧挨着短语w的左侧词集合{a1,a2,a3,…,as}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,m>1,C(ai,w)表示紧挨着短语w的左边出现在所述文档集中的次数,LCE(w)表示短语w的左信息熵;
所述短语的右信息熵的计算如下:
或
其中,w表示所述短语,bi表示所述文档集中紧挨着短语w的右侧词集合{b1,b2,b3,…,bp}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,n>1,C(w,bi)表示词bi紧挨着短语w的右边出现在所述文档集中的次数,RCE(w)表示短语w的右信息熵。
其中所述短语中各词之间关系的紧密程度可以进一步包括短语中词间关联度或/和内聚度。
可选地,采用以下方式计算所述短语的词间关联度:
如果所述短语是由两个词组成的短语,采用二元短语词间关联度PMI(w)或不定元(指超过二元)短语词间关联度MMI(w)计算短语的词间关联度;通常,如果二元短语对应的PMI(w)值越高,则表示组成该短语的各词的密切程度越高。优选地,采用二元短语词间关联度PMI(w)计算二元短语的词间关联度,可以有效地节约计算资源。
如果所述短语是由三个以上词组成的短语,采用三元以上短语词间关联度EMI(w)或不定元短语词间关联度MMI(w)计算短语的词间关联度;就采用不定元短语词间关联度MMI(w)计算短语的词间关联度而言,该方法的计算复杂度适中,所得到的词间关联度的值较接近于该短语中各词的实际关联情况,因而准确性较高。
其中,PMI(w)、EMI(w)和MMI(w)的表达式分别如下:
PMI(w)=loga(C(w1,w2)*N)/(N(w1)*N(w2))
w表示所述短语,w1表示短语w的第一个词,w2表示短语w的第二个词,N(w1)和N(w2)分别表示词w1和w2在所述文档集中出现的次数,C(w1,w2)表示词w1和w2有序连续出现在所述文档集中的次数,a>1,N表示文档集中的语段数;
N表示文档集中的语段数,k表示组成所述短语w的词语个数,Fi表示文档集中包含组成短语w的第i个词的语段数,F表示文档集中包含短语w的语段数,a>1;
k表示组成短语w的词语个数,wi表示短语w中的第i个词,N(wi)表示词wi在文档集中出现的次数,C(w)表示短语w在文档集中出现的次数。
可选地,采用MED(w)、AVG_PMI(w)、MAX_PMI(w)、AVG_SCP(w)、MAX_SCP(w)和NMED(w)中的至少一个计算所述短语的内聚度,
其中,MED(w)的表达式如下:
其中,N1表示文档集中包含短语w(指与短语w严格匹配)的语段数,N2表示文档集中包含短语w的所有词(指短语w中各个词同时出现在一个语段中)的语段数;由上可明显地看到,如果短语w的MED(w)值最高,说明该短语w的内聚度越高。
其中,AVG_PMI(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1...wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1...wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1...wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数,m>1;
MAX_PMI(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1...wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1...wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1...wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数,m>1;
AVG_SCP(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1...wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1...wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1...wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数;
MAX_SCP(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1...wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1...wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1...wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数;
NMED(w)的表达式如下:
或
其中,μ(w)表示文档集中含有短语w中所有词的语段数,表示文档集中含有短语w的语段数,N为文档集中语段数,m>1。
在步骤s103中,基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。
具体地,可以基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,对所述K个以下连续词组成的短语进行排序,基于排序从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。
可选地,将所述K个以下连续词组成的短语中排在前f名的短语作为热词短语输出,或者,将所述K个以下连续词组成的短语所对应的判断结果超过一定阈值的短语作为热词短语输出。
为了更清楚地描述步骤s101至步骤s103,以下给出了通过对文档集D中的每个分句进行分词,针对每个分句中所有K个以下连续词组成的短语,判断短语左、右信息熵和短语中词间关联度、内聚度,基于判断结果从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出的对应算法:
输入:某一特定话题的文档集合D={d1,d2,...,dn}
T1,T2,T3,T4为事先指定的阈值,可以根据需要灵活设置
初始化:热词短语集合
For diin D,Do
利用任何一个分词工具进行分词,并且将每个文档中所有的K元以下的短语找出
将di中的所有K元以下的短语加入集合H
输出:热词短语集合H(如与hi对应的Flag为false,则将其从H中去掉,最后输入的集合H仅包括Flag为true的hi)
需要说明的是,上述算法仅是本方法中优选实施例的示例,并不是对本方法的限定。
由于对短语进行词间内聚度的计算所耗费的计算资源较多,计算复杂度较高,导致计算时间的周期较长,因而为了大幅度减少计算时间,优选地,在所述判断短语边界明显度和短语中各词之间关系的紧密程度的步骤中:先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。为了更清楚地描述该优选实施例,以下给出了与该优选实施例对应的算法,本算法与上述算法的区别仅在于判断短语边界明显度、词间关联度和词间内聚度的顺序的不同:
输入:某一特定话题的文档集合D={d1,d2,...,dn}
T1,T2,T3,T4为事先指定的阈值,可以根据需要灵活设置
初始化:热词短语集合
FOr diin D,DO
利用任何一个分词工具进行分词,并且将每个文档中所有的K元以下的短语找出
将di中的所有K元以下的短语加入集合H
输出:热词短语集合H(如与hi对应的Flag为false,则将其从H中去掉,最后输入的集合H仅包括Flag为true的hi)。
优选地,方法1还包括:
步骤s104(未在附图示出),基于短语频率tf、语段频率df、以及tf·loga(M/df)中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,仅输出剩下的热词短语作为找到的热词短语。其中,a>1,用户可以预先设置,短语频率tf表示所述短语在所述文档集中出现的总次数,语段频率df表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目。
例如,基于短语频率tf、语段频率df、以及tf·loga(M/df)中的至少一个,对所述输出的热词短语分别进行计算,并基于计算的结果进行排序。如果设定需要保留K名的热词短语,则取排序在前K名的热词短语作为最后选定的热词短语。如果是基于短语频率tf、语段频率df、以及tf·loga(M/df)中的两个或三个进行排序,则为短语频率tf、语段频率df、以及tf·loga(M/df)中的所述两个或三个加权后相加,得到一个综合分数,按照该综合分数进行排序。
或者,设定一定阈值。如果是基于短语频率tf、语段频率df、以及tf·loga(M/df)中的一个进行过滤,则当短语频率tf、语段频率df、以及tf·loga(M/df)小于阈值时将其过滤掉。如果是基于短语频率tf、语段频率df、以及tf·loga(M/df)中的两个或三个进行过滤,将短语频率tf、语段频率df、以及tf·loga(M/df)中的所述两个或三个分别与相应的阈值比较,如果小于相应阈值则将其过滤掉。另外,也可以为短语频率tf、语段频率df、以及tf·loga(M/df)中的所述两个或三个加权后相加,得到一个综合分数,该综合分数低于阈值则将其过滤掉。
利用综合分数进行排序后过滤的有益效果是,使过滤结果更能综合反映不同的需求指标。
图2示出根据本发明另一个实施例的从文档集中抽取热词短语的装置的示意性框图。根据本发明的另一实施例,从文档集中抽取热词短语的装置2包括:
分词单元201,被配置为对所述文档集中的每个分句进行分词;
判断单元202,被配置为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;
热词短语抽取单元203,被配置为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。
应当理解,图2所示的框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些单元或装置。
可选地,所述热词短语抽取单元被配置为基于短语频率tf、语段频率df、以及tf·loga(M/df)中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,短语频率tf表示所述短语在所述文档集中出现的总次数,语段频率df表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目,a>1。
可选地,所述判断单元被配置为基于以下中的任一项判断短语边界明显度:
通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或
通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数的平均值,并与相应阈值比较,判断短语边界明显度。
可选地,所述短语中各词之间关系的紧密程度包括短语中词间关联度或/和内聚度。
可选地,所述判断单元被配置为基于以下公式计算所述短语的左、右信息熵:
所述短语的左信息熵的计算如下:
或
其中,w表示所述短语,ai表示所述文档集中紧挨着短语w的左侧词集合{a1,a2,a3,…,as}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,m>1,C(ai,w)表示紧挨着短语w的左边出现在所述文档集中的次数,LCE(w)表示短语w的左信息熵;
所述短语的右信息熵的计算如下:
或
其中,w表示所述短语,bi表示所述文档集中紧挨着短语w的右侧词集合{b1,b2,b3,…,bp}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,n>1,C(w,bi)表示词bi紧挨着短语w的右边出现在所述文档集中的次数,RCE(w)表示短语w的右信息熵。
可选地,所述判断单元被配置为根据组成所述短语的词数,采用对应的方式计算短语的词间关联度:
如果所述短语是由两个词组成的短语,采用二元短语词间关联度PMI(w)或不定元短语词间关联度MMI(w)计算短语的词间关联度;
如果所述短语是由三个以上词组成的短语,采用三元以上短语词间关联度EMI(w)或不定元短语词间关联度MMI(w)计算短语的词间关联度,
其中,PMI(w)、EMI(w)和MMI(w)的表达式分别如下:
PMI(w)=(C(w1,w2))/(N(w1)*N(w2))
w表示所述短语,w1表示短语w的第一个词,w2表示短语w的第二个词,N(w1)和N(w2)分别表示词w1和w2在所述文档集中出现的次数,C(w1,w2)表示词w1和w2有序连续出现在所述文档集中的次数;
N表示文档集中的语段数,k表示组成所述短语w的词语个数,Fi表示文档集中包含组成短语w的第i个词的语段数,F表示文档集中包含短语w的语段数,a>1;
k表示组成短语w的词语个数,wi表示短语w中的第i个词,N(wi)表示词wi在文档集中出现的次数,C(w)表示短语w在文档集中出现的次数。
可选地,所述判断单元被配置为采用MED(w)、AVG_PMI(w)、MAX_PMI(w)、AVG_SCP(w)、MAX_SCP(w)和NMED(w)中的至少一个计算所述短语的内聚度,
其中,MED(w)的表达式如下:
其中,N1表示文档集中包含短语w的语段数,N2表示文档集中包含短语w的所有词的语段数;
AVG_PMI(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1...wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1...wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1...wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数,m>1;
MAX_PMI(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1...wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1...wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1...wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数,m>1;
AVG_SCP(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1...wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1...wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1...wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数;
MAX_SCP(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1...wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1...wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1...wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数;
NMED(w)的表达式如下:
或
其中,μ(w)表示文档集中含有短语w中所有词的语段数,表示文档集中含有短语w的语段数,N为文档集中语段数,m>1。
可选地,所述判断单元被配置为在判断短语边界明显度和短语中各词之间关系的紧密程度中:先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。
所属技术领域的技术人员知道,本发明可以实现为设备、装置、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件,也可以是完全的软件,还可以是硬件和软件结合的形式。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (12)
1.一种从文档集中抽取热词短语的方法,包括:
对所述文档集中的每个分句进行分词;
针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;
基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出;其中,
判断短语边界明显度包括:
通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或
通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显度;其中,
通过以下公式计算所述短语的左、右信息熵:
所述短语的左信息熵的计算如下:
或
其中,w表示所述短语,ai表示所述文档集中紧挨着短语w的左侧词集合{a1,a2,a3,…,as}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,m>1,C(ai,w)表示紧挨着短语w的左边出现在所述文档集中的次数,LCE(w)表示短语w的左信息熵;
所述短语的右信息熵的计算如下:
或
其中,w表示所述短语,bi表示所述文档集中紧挨着短语w的右侧词集合{b1,b2,b3,…,bp}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,n>1,C(w,bi)表示词bi紧挨着短语w的右边出现在所述文档集中的次数,RCE(w)表示短语w的右信息熵。
2.根据权利要求1所述的方法,还包括:
基于短语频率tf、语段频率df、以及tf·loga(M/df)中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,a>1,短语频率tf表示所述短语在所述文档集中出现的总次数,语段频率,df表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目。
3.根据权利要求1所述的方法,其中所述短语中各词之间关系的紧密程度包括短语中词间关联度或/和内聚度。
4.根据权利要求3所述的方法,其中
如果所述短语是由两个词组成的短语,采用二元短语词间关联度PMI(w)或不定元短语词间关联度MMI(w)计算短语的词间关联度;
如果所述短语是由三个以上词组成的短语,采用三元以上短语词间关联度EMI(w)或不定元短语词间关联度MMI(w)计算短语的词间关联度,
其中,PMI(w)、EMI(w)和MMI(w)的表达式分别如下:
PMI(w)=(C(w1,w2))/(N(w1)*N(w2))
w表示所述短语,w1表示短语w的第一个词,w2表示短语w的第二个词,N(w1)和N(w2)分别表示词w1和w2在所述文档集中出现的次数,C(w1,w2)表示词w1和w2有序连续出现在所述文档集中的次数;
N表示文档集中的语段数,k表示组成所述短语w的词语个数,Fi表示文档集中包含组成短语w的第i个词的语段数,F表示文档集中包含短语w的语段数,a>1;
k表示组成短语w的词语个数,wi表示短语w中的第i个词,N(wi)表示词wi在文档集中出现的次数,C(w)表示短语w在文档集中出现的次数。
5.根据权利要求3所述的方法,其中采用MED(w)、AVG_PMI(w)、MAX_PMI(w)、AVG_SCP(w)、MAX_SCP(w)和NMED(w)中的至少一个计算所述短语的内聚度,
其中,MED(w)的表达式如下:
其中,N1表示文档集中包含短语w的语段数,N2表示文档集中包含短语w的所有词的语段数;
AVG_PMI(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1…wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1…wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1…wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数,m>1;
MAX_PMI(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1…wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1…wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1…wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数,m>1;
AVG_SCP(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1…wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1…wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1…wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数;
MAX_SCP(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1…wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1…wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1…wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数;
NMED(w)的表达式如下:
或
其中,μ(w)表示文档集中含有短语w中所有词的语段数,表示文档集中含有短语w的语段数,N为文档集中语段数,m>1。
6.根据权利要求3所述的方法,其中判断短语边界明显度和短语中各词之间关系的紧密程度包括:先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。
7.一种从文档集中抽取热词短语的装置,包括:
分词单元,被配置为对所述文档集中的每个分句进行分词;
判断单元,被配置为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;
热词短语抽取单元,被配置为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出;其中,
判断单元被配置为基于以下中的任一项判断短语边界明显度:
通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或
通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显度;其中,
判断单元被配置为基于以下公式计算所述短语的左、右信息熵:
所述短语的左信息熵的计算如下:
或
其中,w表示所述短语,ai表示所述文档集中紧挨着短语w的左侧词集合{a1,a2,a3,…,as}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,m>1,C(ai,w)表示紧挨着短语w的左边出现在所述文档集中的次数,LCE(w)表示短语w的左信息熵;
所述短语的右信息熵的计算如下:
或
其中,w表示所述短语,bi表示所述文档集中紧挨着短语w的右侧词集合{b1,b2,b3,…,bp}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,n>1,C(w,bi)表示词bi紧挨着短语w的右边出现在所述文档集中的次数,RCE(w)表示短语w的右信息熵。
8.根据权利要求7所述的装置,其中所述热词短语抽取单元被配置为基于短语频率tf、语段频率df、以及tf·loga(M/df)中的至少一个,对所述输出的热词短语进行排序,并基于排序从输出的热词短语中进一步过滤掉一部分热词短语,其中,a>1,短语频率tf表示所述短语在所述文档集中出现的总次数,语段频率df表示所述文档集中包含所述短语的语段数目,M表示所述文档集所包含语段的数目。
9.根据权利要求7所述的装置,其中所述短语中各词之间关系的紧密程度包括短语中词间关联度或/和内聚度。
10.根据权利要求9所述的装置,其中所述判断单元被配置为根据组成所述短语的词数,采用对应的方式计算短语的词间关联度:
如果所述短语是由两个词组成的短语,采用二元短语词间关联度PMI(w)或不定元短语词间关联度MMI(w)计算短语的词间关联度;
如果所述短语是由三个以上词组成的短语,采用三元以上短语词间关联度EMI(w)或不定元短语词间关联度MMI(w)计算短语的词间关联度,
其中,PMI(w)、EMI(w)和MMI(w)的表达式分别如下:
PMI(w)=(C(w1,w2))/(N(w1)*N(w2))
w表示所述短语,w1表示短语w的第一个词,w2表示短语w的第二个词,N(w1)和N(w2)分别表示词w1和w2在所述文档集中出现的次数,C(w1,w2)表示词w1和w2有序连续出现在所述文档集中的次数;
N表示文档集中的语段数,k表示组成所述短语w的词语个数,Fi表示文档集中包含组成短语w的第i个词的语段数,F表示文档集中包含短语w的语段数,a>1;
k表示组成短语w的词语个数,wi表示短语w中的第i个词,N(wi)表示词wi在文档集中出现的次数,C(w)表示短语w在文档集中出现的次数。
11.根据权利要求9所述的装置,其中所述判断单元被配置为采用MED(w)、AVG_PMI(w)、MAX_PMI(w)、AVG_SCP(w)、MAX_SCP(w)和NMED(w)中的至少一个计算所述短语的内聚度,
其中,MED(w)的表达式如下:
其中,N1表示文档集中包含短语w的语段数,N2表示文档集中包含短语w的所有词的语段数;
AVG_PMI(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1…wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1…wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1…wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数,m>1;
MAX_PMI(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1…wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1…wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1…wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数,m>1;
AVG_SCP(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1…wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1…wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1…wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数;
MAX_SCP(w)的表达式如下:
其中,k表示组成短语w的词语个数,wi表示短语w中的第i个词,p(w1…wk)表示组成短语w的词语w1至wk有序连续出现在所述文档集中的次数,p(w1…wi)表示词语w1至wi有序连续出现在所述文档集中的次数,p(wi+1…wk)表示词语wi+1至wk有序连续出现在所述文档集中的次数;
NMED(w)的表达式如下:
或
其中,μ(w)表示文档集中含有短语w中所有词的语段数,表示文档集中含有短语w的语段数,N为文档集中语段数,m>1。
12.根据权利要求9所述的装置,其中判断单元被配置为在判断短语边界明显度和短语中各词之间关系的紧密程度中:先判断短语边界明显度和短语中词间关联度,且如果短语边界明显度和短语中词间关联度都大于相应阈值,判断短语中词间内聚度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410265383.5A CN104077274B (zh) | 2014-06-13 | 2014-06-13 | 一种从文档集中抽取热词短语的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410265383.5A CN104077274B (zh) | 2014-06-13 | 2014-06-13 | 一种从文档集中抽取热词短语的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104077274A CN104077274A (zh) | 2014-10-01 |
CN104077274B true CN104077274B (zh) | 2017-05-10 |
Family
ID=51598534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410265383.5A Expired - Fee Related CN104077274B (zh) | 2014-06-13 | 2014-06-13 | 一种从文档集中抽取热词短语的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104077274B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330022B (zh) * | 2017-06-21 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 一种获取热点话题的方法及装置 |
CN108052500B (zh) * | 2017-12-13 | 2021-06-22 | 北京数洋智慧科技有限公司 | 一种基于语义分析的文本关键信息提取方法及装置 |
CN109918656B (zh) * | 2019-02-28 | 2022-12-23 | 武汉斗鱼鱼乐网络科技有限公司 | 一种直播热点获取方法、装置、服务器及存储介质 |
CN110874531B (zh) * | 2020-01-20 | 2020-07-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN114186557A (zh) * | 2022-02-17 | 2022-03-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 主题词确定方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727494A (zh) * | 2009-12-29 | 2010-06-09 | 华中师范大学 | 特定区域内网络热词生成系统 |
CN102637165A (zh) * | 2012-02-17 | 2012-08-15 | 清华大学 | 一种中文的观点、评价信息的属性-观点对抽取方法 |
CN103577501A (zh) * | 2012-08-10 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 热点话题搜索系统及热点话题搜索方法 |
-
2014
- 2014-06-13 CN CN201410265383.5A patent/CN104077274B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727494A (zh) * | 2009-12-29 | 2010-06-09 | 华中师范大学 | 特定区域内网络热词生成系统 |
CN102637165A (zh) * | 2012-02-17 | 2012-08-15 | 清华大学 | 一种中文的观点、评价信息的属性-观点对抽取方法 |
CN103577501A (zh) * | 2012-08-10 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 热点话题搜索系统及热点话题搜索方法 |
Non-Patent Citations (2)
Title |
---|
Hot Topic Extraction Based on Timeline Analysis and Multidimensional Sentence Modeling;Kuan-Yu Chen et al.;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20070831;第19卷(第8期);1016-1025页 * |
新词识别和热词排名方法研究;耿升华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315(第3期);3.2、4.4、5.3部分 * |
Also Published As
Publication number | Publication date |
---|---|
CN104077274A (zh) | 2014-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saha et al. | Proposed approach for sarcasm detection in twitter | |
CN107180025B (zh) | 一种新词的识别方法及装置 | |
CN104077274B (zh) | 一种从文档集中抽取热词短语的方法和装置 | |
US9965460B1 (en) | Keyword extraction for relationship maps | |
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
EP3203383A1 (en) | Text generation system | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
Layton et al. | Recentred local profiles for authorship attribution | |
CN105975453A (zh) | 评论标签提取方法和装置 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN109255022B (zh) | 一种用于网络文章的摘要自动提取方法 | |
US20180260390A1 (en) | Translation assistance system, translation assitance method and translation assistance program | |
Weerasinghe et al. | Feature Vector Difference based Authorship Verification for Open-World Settings. | |
CN102999533A (zh) | 一种火星文识别方法和系统 | |
JP2019200784A (ja) | 分析方法、分析装置及び分析プログラム | |
CN109344246A (zh) | 一种电子问卷生成方法、计算机可读存储介质及终端设备 | |
CN117271736A (zh) | 一种问答对的生成方法和系统、电子设备及存储介质 | |
Al-Azzawy et al. | Arabic words clustering by using K-means algorithm | |
Sembok et al. | Arabic word stemming algorithms and retrieval effectiveness | |
Malandrakis et al. | Sail: Sentiment analysis using semantic similarity and contrast features | |
CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
US20220028391A1 (en) | Method for processing a video file comprising audio content and visual content comprising text content | |
Sun et al. | Syntactic parsing of web queries | |
Reddy et al. | Obtaining description for simple images using surface realization techniques and natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170510 |
|
CF01 | Termination of patent right due to non-payment of annual fee |