CN104573027A - 一种从文档集中挖掘特征词的系统和方法 - Google Patents

一种从文档集中挖掘特征词的系统和方法 Download PDF

Info

Publication number
CN104573027A
CN104573027A CN201510017522.7A CN201510017522A CN104573027A CN 104573027 A CN104573027 A CN 104573027A CN 201510017522 A CN201510017522 A CN 201510017522A CN 104573027 A CN104573027 A CN 104573027A
Authority
CN
China
Prior art keywords
word segmentation
segmentation result
positive correlation
likelihood ratio
result table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510017522.7A
Other languages
English (en)
Other versions
CN104573027B (zh
Inventor
屠守中
黄民烈
朱小燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510017522.7A priority Critical patent/CN104573027B/zh
Publication of CN104573027A publication Critical patent/CN104573027A/zh
Application granted granted Critical
Publication of CN104573027B publication Critical patent/CN104573027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种从文档集中挖掘特征词的系统和方法,其中所述方法包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明所提供的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。

Description

一种从文档集中挖掘特征词的系统和方法
技术领域
本发明主要涉及数据挖掘领域,尤其涉及一种从文档集中挖掘特征词的系统和方法。
背景技术
当今社会,信息呈爆炸式增长。对于大量涌现的信息,如何准确而迅速地抽取信息中具有话题代表性的词(即特征词),以帮助人们快速了解新闻时事、社会动态,更能够帮助政府把握当前社会舆论倾向,并作出正确的价值观导向。以我们经常使用的信息媒介——微博,话题“雾霾”为例,如何从大量微博评论中准确而迅速地抽取中具有话题代表性的词,诸如“PM2.5”、“致癌”、“口罩”等特征词,以帮助人们快速了解与雾霾有关的社会动态;仍以微博为例,对于话题“吸毒”,如何从大量微博评论中准确而迅速地抽取中具有话题代表性的词,诸如“吸毒正常”、“不碍事”、“支持”等特征词,以帮助政府迅速把握当前社会舆论倾向,以采取有效措施作出正确的价值观导向。
现有技术中,为了解决上述问题,有学者提出了自举学习的方法,其中有Likelihood Ratio Test for Bootstrapping方法(简称“LRTBOOT”),即基于似然比检验的自举学习方法。但是该方法通常在数据量巨大的时候,挖掘出的特征词与话题相关度不高,也即文档旨意代表性不强。
发明内容
本发明提出了一种从文档集中挖掘特征词的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。
根据本发明的一个方面,提供了一种从文档集中挖掘特征词的方法,该方法包括步骤:
对所述文档集中的每个分句进行分词处理,得到分词结果表;
计算分词结果表中每两个分词结果之间的正相关似然比统计量;
对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。
优选地,所述对所述文档集中的每个分句进行分词处理,得到分词结果表的步骤具体包括:
对所述文档集中的每个分句进行分词处理,得到初步分词结果表;
统计长度为1~N的、由所述初步分词结果表中的词连续组成的组合词语分别出现在所述文档集中的分句频次,其中N是正整数,表示词的个数;
基于对所述组合词语的点互信息统计量的计算对所述组合词语进行排序,基于排序至少抽取一部分的组合词语,形成分词结果表。
优选地,所述基于排序至少抽取一部分的组合词语,形成分词结果表的步骤具体包括:
基于排序至少抽取一部分的组合词语,形成候选分词结果表;
基于对所述候选分词结果表中各组合词语的左信息熵和右信息熵的计算并与相应阈值比较,保留左信息熵和右信息熵均大于相应阈值的组合词语,形成分词结果表。
优选地,所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:
基于每两个分词结果之间的正相关似然比统计量,得到与所述分词结果表对应的正相关矩阵;
其中,正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。
优选地,所述对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括:
对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量所对应的所述正相关矩阵的一行或一列进行排序,基于排序从分词结果表中提取一定数量的与该一行或该一列对应的分词结果作为特征词输出。
优选地,所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:
对分词结果表中每两个分词结果之间的正相关似然比统计量进行邻近参考调整。
优选地,所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:
对所述正相关矩阵中的每个正相关似然比统计量进行邻近参考调整,其中所述邻近参考调整具体包括:
取所述正相关矩阵中所述种子词与分词结果表中的其他分词结果之间的正相关似然比统计量所在的正相关矩阵的一行或一列;
-a对于所述该一行或该一列的各正相关似然比统计量所在所述正相关矩阵的一列或一行按值排序,计算所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的所有正相关似然比统计量的平均值,并以所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的正相关似然比统计量和所述平均值进行求和后的均值来替换对应的一列或一行的原正相关似然比统计量;
循环执行上述步骤-a,直到替换后的正相关矩阵与上一次替换后的正相关矩阵的余弦距离小于一定阈值。
优选地,所述方法还包括:
统计分词结果表中由名词或/和形容词组成的组合词语分别出现在所述文档集中的分句频次,从所述分词结果表中过滤频次低于一定阈值的由名词或/和形容词组成的组合词语。
优选地,所述从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括:
按照词性从分词结果表中提取一定数量的分词结果作为情感词输出。
优选地,其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的公式为:
其中, p ij [ 1 ] = n ij Σ j Σ i n ij , p ij [ 2 ] = n ij Σ i n ij × n ij Σ j n ij ,
其中,wi、wj表示分词结果表中的任意一个不同的分词结果,Positive_Assosiation(wi,wj)表示任意两个不同的分词结果的正相关似然比统计量,nii表示分词结果wi、wj同时出现在所述文档集中的分句频次,njj表示分词结果wi、wj同时不出现在所述文档集中的分句频次,nij表示分词结果wi出现而分词结果wj不出现在所述文档集中的分句频次,nji表示分词结果wi不出现而分词结果wj出现在所述文档集中的分句频次,表示备择假设下nii发生的概率估计、表示备择假设下njj发生的概率估计、表示零假设下nii发生的概率估计、表示零假设下njj发生的概率估计、表示备择假设下nji发生的概率估计、表示零假设下nji发生的概率估计。
根据本发明的另一个方面,还提供了一种从文档集中挖掘特征词的系统,该系统包括:
分词装置,用于对所述文档集中的每个分句进行分词处理,得到分词结果表;
计算装置,用于计算分词结果表中每两个分词结果之间的正相关似然比统计量;
输出装置,用于对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。
本发明所述技术方案,基于正相关似然比的统计方法对大量文档集中词语与词语之间的关系进行度量,提高了挖掘出的特征词与话题的相关度。并在此基础上,利用关系强度矩阵进行的迭代排序操作,进一步提高了挖掘出的特征词与话题的相关度。另外,本发明还可以基于特定词性输出不同类型的特征词,诸如代表情感的情感词。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个实施例的从文档集中挖掘特征词的方法流程图;
图2示出根据本发明另一个实施例的从文档集中挖掘特征词的系统的示意性框图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面将结合本发明实施例中的附图,对本发明作进一步详细描述。应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的情况下所获得的其他实施例,都属于本发明保护的范围。
在描述前,需要说明的是,本实施例描述的种子词通常代表文档集的核心话题。
参照图1,示出了本发明一个实施例的从文档集中挖掘特征词的方法流程图。如图1所示,所述方法包括步骤:
步骤102:对所述文档集中的每个分句进行分词处理,得到分词结果表。
其中,文档集可以指单个文档或多个文档的集合,当然,此处的文档集可以包括诸如微博数据库、博客等各种媒介数据库或字典等信息或信息的集合。其中,分句可以指文档中诸如逗号、分号等停顿符号之间相对独立的意群。
具体地,对所述文档集中的每个分句进行分词处理中,分词方法在此不作具体限定,可以采用中科院ICTCLAS分词系统对文档集中的每个分句进行分词处理,也可以采用其他诸如基于字符串匹配的分词方法、基于理解的分词方法等方法或对应的系统进行分词处理。例如,对文档集中的分句“马航失联”进行分词,得到“马/名词”、“航/名词”、“失/动词”、“联/动词”的四个词语。在本实施例中,对文档集中的每个分句进行分词处理后,得到大量词语,这些词语的集合即为分词结果表。
优选地,为了弥补分词系统将本来完整的词语切得过于零散而无法得到满意的分词结果,对所述分词过程进一步进行处理,也即,所述对所述文档集中的每个分句进行分词处理,得到分词结果表的步骤具体包括:
-对所述文档集中的每个分句进行分词处理,得到初步分词结果表;
-统计长度为1~N的、由所述初步分词结果表中的词连续组成的组合词语分别出现在所述文档集中的分句频次,其中N是正整数,表示词的个数;
具体地,以文档集为多条微博评论的集合为例,所述长度为1~N的、由所述初步分词结果表中的词连续组成的组合词语分别出现在所述文档集中的分句频次是指该组合词语所出现在不同微博评论的评论数,也即,对于同一条微博评论、同一个组合词语,无论该组合词语在该条微博评论出现了多少次,都只算1次。优选地,所述N的取值为4。
-基于对所述组合词语的点互信息统计量的计算对所述组合词语进行排序,基于排序至少抽取一部分的组合词语,形成分词结果表。
具体地,所述组合词语的点互信息统计量的计算公式可以为:
PMI = log ( N k ( w 1 , w 2 , . . . , w k ) Π i = 1 k N ( w i ) ) = log ( Π i = 1 k w 1 , w 2 , . . . , w k | w i )
其中,k表示组成该组合词语的词语个数,wi表示组合词语中的第i个词语,N(wi)表示词语wi出现在所述文档集中的分句频次,N(w1,w2,…,wk)表示组合词语w1w2…wk出现在所述文档集中的分句频次,Nk(w1,w2,…,wk)为N(w1,w2,…,wk)的k次乘方。
具体地,基于计算所得的PMI值从高到低对组合词语排序,并基于该排序至少抽取一部分排在前面的PMI值相对较高的组合词语,形成分词结果表。
优选地,为了进一步弥补分词系统将本来完整的词语切得过于零散而无法得到满意的分词结果,对所述分词过程进一步进行处理,此处的处理可以在上文的点互信息统计量的计算上作进一步处理,也可以在分词以后直接进行该处理步骤。具体地,所述基于排序至少抽取一部分的组合词语,形成分词结果表的步骤具体包括:
-基于排序至少抽取一部分的组合词语,形成候选分词结果表;
-基于对所述候选分词结果表中各组合词语的左信息熵和右信息熵的计算并与相应阈值比较,保留左信息熵和右信息熵均大于相应阈值的组合词语,形成分词结果表。
具体地,如果所述组合词语的左右信息熵越高,那么组合词语边界明显度越高,也即组合词语与其左右的词的搭配自由度越高。可选地,通过以下公式计算所述组合词语的左右信息熵:
所述组合词语的左信息熵的计算如下:
LIE ( w ) = - Σ i = 1 n p i log p i ;
其中,w表示所述组合词语,N(ti)表示所述文档集中组合词语w左侧是词ti的分句频次。N(w)表示所述文档集中组合词语w的分句频次。同理,可以以与上文相同的公式计算所述组合词语的右信息熵,只是在计算右信息熵时,所述N(ti)表示所述文档集中组合词语w右侧是词ti的分句频次。
优选地,所述阈值取值为2,保留左信息熵和右信息熵均大于2的组合词语,形成分词结果表。
优选地,由于名词、形容词通常相对于其他词性更能体现文档的主题特征,所述对所述文档集中的每个分句进行分词处理,得到分词结果表还包括:
-统计分词结果表中由名词或/和形容词组成的组合词语分别出现在所述文档集中的分句频次,从所述分词结果表中过滤频次低于一定阈值的由名词或/和形容词组成的组合词语。
步骤104:计算分词结果表中每两个分词结果之间的正相关似然比统计量。
通常,似然比统计量的公式如下文所示:
其中
p ij [ 1 ] = n ij Σ j Σ i n ij
p ij [ 2 ] = n ij Σ i n ij × n ij Σ j n ij
其中,wi,wj表示任意的两个分词结果,nii表示文档集中分词结果wi,wj同时出现在同一分句的分句频次,njj表示文档集中分词结果wi,wj同时不出现在同一分句的分句频次,nij表示文档集中分词结果wi出现而wj不出现在同一分句的分句频次,nji表示文档集中分词结果wi不出现而wj出现在同一分句的分句频次,表示备择假设下nii发生的概率估计、表示备择假设下njj发生的概率估计、表示零假设下nii发生的概率估计、表示零假设下njj发生的概率估计、表示备择假设下nji发生的概率估计、表示零假设下nji发生的概率估计。
通常,对于文档集中的任何两个词,都可以对其作出如下两种假设:
备择假设:两个词是相关的;
零假设:两个词是不相关的。
如果两个词具有正相关性,也即,两个词共同出现在文档集中同一分句或共同不出现在同一分句,则正相关因子较大,负相关因子较小,反之亦然。其中,所述的正、负相关因子如上文中的公式所示。因此,当在上文公式中i=j的情况下,两个词对应的备择假设的概率估计大于零假设的概率估计,从而这两个词的的似然比统计量为正,并且,如果两个词对应的两种假设概率估计的偏差越大,或者该情况下的观测频率越大,对应的似然比统计量越大。同理,如果两个词具有负相关性,当在上文公式中i≠j的情况下,如果两个词对应的两种假设概率估计的偏差越大,或者该情况下的观测频率越大,对应的似然比统计量也越大。
因此,为了区分正相关和负相关,优选地,本实施例中,可以采用如下公式计算分词结果表中每两个分词结果之间的正相关似然比统计量:
其中, p ij [ 1 ] = n ij Σ j Σ i n ij , p ij [ 2 ] = n ij Σ i n ij × n ij Σ j n ij ,
其中,wi、wj表示分词结果表中的任意一个不同的分词结果,Positive_Assosiation(wi,wj)表示任意两个不同的分词结果的正相关似然比统计量,nii表示分词结果wi、wj同时出现在所述文档集中的分句频次,njj表示分词结果wi、wj同时不出现在所述文档集中的分句频次,nij表示分词结果wi出现而分词结果wj不出现在所述文档集中的分句频次,nji表示分词结果wi不出现而分词结果wj出现在所述文档集中的分句频次,表示备择假设下nii发生的概率估计、表示备择假设下njj发生的概率估计、表示零假设下nii发生的概率估计、表示零假设下njj发生的概率估计、表示备择假设下nji发生的概率估计、表示零假设下nji发生的概率估计。
相应地,可以在上述公式的基础上计算两个词语的负相关似然比统计量如下:
Negative_Assosiation(wi,wj)=-Positive_Assosiation(wi,wj)
步骤106,对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。
具体地,本实施例中所述给定的来自分词结果表的种子词的给定方式可以分为两种情况:
情况一,在本方法对应的程序输入阶段即给定,所述种子词可以为一个或多个。在这种情况下,所述给定的来自分词结果表的种子词是指所述分词结果表中与在程序输入阶段给定的种子词相同的分词结果;
情况二,在本方法对应的程序运行过程中,从分词结果表中选取一个或多个分词结果作为种子词,也即给定的来自分词结果表的种子词。
当然,所述种子词给定的方式也并不限于上述两种,也可以由其他方式来获取,在此不作限定。
通过对种子词与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,可以基于排序从分词结果表中提取一定数量的分词结果作为特征词输出,而该输出的特征词与所述种子词的相关度较高。
优选地,为了进一步得到特定类型的特征词,比如情感词,可以按照情感词对应的词性从分词结果表中提取一定数量的分词结果输出,例如,从分词结果表中提取词性为形容词、动词和叹词的分词结果输出。
可选地,在上文中,所述步骤104中得到的正相关似然比统计量,可以以诸如数组、矩阵等存储方式进行存储,在此对正相关似然比统计量的存储方式不作限定。以矩阵的存储方式为例,其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:
-基于每两个分词结果之间的正相关似然比统计量,得到与所述分词结果表对应的正相关矩阵;
其中,正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。
上文的正相关矩阵也可在此称为关联矩阵,具体表现形式可以如下所示:
其中,c表示分词结果表中分词结果的个数,P1c表示分词结果表中第一个分词结果和第c个分词结果的正相关似然比统计量,Pc1表示分词结果表中第c个分词结果和第一个分词结果的正相关似然比统计量,Pcc表示分词结果表中第c个分词结果与其自身的正相关似然比统计量。
对于上述正相关矩阵而言,该矩阵为对称矩阵,有Pij=Pji,其中i和j分别表示分词结果表中各分词结果的编号,其中,0≤i≤c,0≤j≤c,上述正相关矩阵中的每一行或每一列表示该矩阵中的某个词与分词结果表中的各分词结果之间的正相关似然比统计量。可选地,上述矩阵也可以以转置后的形式来表示。
可选地,对于以矩阵为存储方式的分词结果表中每两个分词结果之间的正相关似然比统计量,所述对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括:
-对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量所对应的所述正相关矩阵的一行或一列进行排序,基于排序从分词结果表中提取一定数量的与该一行或该一列对应的分词结果作为特征词输出。
由此,排序后的该一行或该一列对应的分词结果与该种子词的正相关似然比统计量从高到低依次排列,从而提取出排名靠前的一定数量的分词结果作为特征词输出。
由于似然比统计量只是能够反应两个词语之间的相关程度,而并不能体现词语的特异性。所谓特异性,可以认为词更能体现特定话题对应文档的特征而不是所有话题对应的文档的特征。例如,在“医患关系”话题下,基于种子词“医生”可抽取到特征词“医德”和“人”,然而,“医德”相对于“人”更能够体现这个话题的特征,但是,“医德”可能在上述矩阵中与种子词的正相关统计值还不及“人”与种子词的统计值的一半。这是因为在似然比统计量的公式中,词频和概率估计的偏差共同决定了统计量的大小,然而对于“人”这样的词语,概率差别较小,但是因为词频过高,导致统计量高于某些特异性强,但是词频不是很高。
也即,对于特异性较低,而似然比统计值较高的词语,它们有一个共同的特征,就是这些词语与很多不同话题的特征词的正相关性都很强。然而,不同话题的特征词之间是负相关的,因而为了进一步提升所输出的词语的特异性,可选地,所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:
-对分词结果表中每两个分词结果之间的正相关似然比统计量进行邻近参考调整(此处的邻近参考调整亦可称为邻近参考迭代)。
为了进一步说明上文中的邻近参考调整,以以矩阵为存储方式的分词结果表中每两个分词结果之间的正相关似然比统计量为例,对所述正相关矩阵中的每个正相关似然比统计量进行邻近参考调整,其中所述邻近参考调整具体包括:
-取所述正相关矩阵中所述种子词与分词结果表中的其他分词结果之间的正相关似然比统计量所在的正相关矩阵的一行或一列;
-a对于所述该一行或该一列的各正相关似然比统计量所在所述正相关矩阵的一列或一行按值排序,计算所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的所有正相关似然比统计量的平均值,并以所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的正相关似然比统计量和所述平均值进行求和后的均值来替换对应的一列或一行的原正相关似然比统计量;
-循环执行上述步骤-a,直到替换后的正相关矩阵与上一次替换后的正相关矩阵的余弦距离小于一定阈值。
对于上述步骤可以进一步参考下文中所示的对应算法:
通过上述方法,利用每个词语高度正相关的参考词集(每一个词语都有关系紧密,即强度值相对比较高的一些词语,将这些词语看做当前词语的参考词集),利用词集里所有词语相对于种子词的平均强度值去修改当前词语与种子词的强度值,由此输出的词语与对应话题的相关性更高,特异性也更高。
参考图2,图2示出了本发明另一个实施例的从文档集中挖掘特征词的系统的示意性框图。根据图2,所述从文档集中挖掘特征词的系统包括:
分词装置201,用于对所述文档集中的每个分句进行分词处理,得到分词结果表;
计算装置202,用于计算分词结果表中每两个分词结果之间的正相关似然比统计量;
输出装置203,用于对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。
应当理解,图2所示的框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些单元或装置。
可选地,所述分词装置具体用于:
对所述文档集中的每个分句进行分词处理,得到初步分词结果表;
统计长度为1~N的、由所述初步分词结果表中的词连续组成的组合词语分别出现在所述文档集中的分句频次,其中N是正整数,表示词的个数;
基于对所述组合词语的点互信息统计量的计算对所述组合词语进行排序,基于排序至少抽取一部分的组合词语,形成分词结果表。
可选地,所述分词装置在基于排序至少抽取一部分的组合词语,形成分词结果表的过程具体包括:
基于排序至少抽取一部分的组合词语,形成候选分词结果表;
基于对所述候选分词结果表中各组合词语的左信息熵和右信息熵的计算并与相应阈值比较,保留左信息熵和右信息熵均大于相应阈值的组合词语,形成分词结果表。
可选地,所述计算装置还用于:
基于每两个分词结果之间的正相关似然比统计量,得到与所述分词结果表对应的正相关矩阵;
其中,正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。
可选地,所述输出装置用于:
对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量所对应的所述正相关矩阵的一行或一列进行排序,基于排序从分词结果表中提取一定数量的与该一行或该一列对应的分词结果作为特征词输出。
可选地,所述计算装置还用于:
对分词结果表中每两个分词结果之间的正相关似然比统计量进行邻近参考调整。
可选地,所述计算装置还用于:
对所述正相关矩阵中的每个正相关似然比统计量进行邻近参考调整;
其中所述邻近参考调整具体包括:
取所述正相关矩阵中所述种子词与分词结果表中的其他分词结果之间的正相关似然比统计量所在的正相关矩阵的一行或一列;
-a对于所述该一行或该一列的各正相关似然比统计量所在所述正相关矩阵的一列或一行按值排序,计算所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的所有正相关似然比统计量的平均值,并以所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的正相关似然比统计量和所述平均值进行求和后的均值来替换对应的一列或一行的原正相关似然比统计量;
循环执行上述步骤-a,直到替换后的正相关矩阵与上一次替换后的正相关矩阵的余弦距离小于一定阈值。
可选地,所述分词装置还用于:
统计分词结果表中由名词或/和形容词组成的组合词语分别出现在所述文档集中的分句频次,从所述分词结果表中过滤频次低于一定阈值的由名词或/和形容词组成的组合词语。
可选地,所述输出装置具体用于:
按照特定词性从分词结果表中提取一定数量的分词结果输出。
可选地,所述计算装置计算分词结果表中每两个分词结果之间的正相关似然比统计量的公式为:
其中, p ij [ 1 ] = n ij Σ j Σ i n ij , p ij [ 2 ] = n ij Σ i n ij × n ij Σ j n ij ,
其中,wi、wj表示分词结果表中的任意一个不同的分词结果,Positive_Assosiation(wi,wj)表示任意两个不同的分词结果的正相关似然比统计量,nii表示分词结果wi、wj同时出现在所述文档集中的分句频次,njj表示分词结果wi、wj同时不出现在所述文档集中的分句频次,nij表示分词结果wi出现而分词结果wj不出现在所述文档集中的分句频次,nji表示分词结果wi不出现而分词结果wj出现在所述文档集中的分句频次,表示备择假设下nii发生的概率估计、表示备择假设下njj发生的概率估计、表示零假设下nii发生的概率估计、表示零假设下njj发生的概率估计、表示备择假设下nji发生的概率估计、表示零假设下nji发生的概率估计。
基于本发明提供的方法和系统,可以有效而准确地挖掘出能够更强地表现文档集旨意的特征词。对此,可以参考下文中的表1-1至表3-2。表格1-1至表格3-2分别示出了对应于三个不同的种子词“医生”、“雾霾”、“余额宝”所采用的四种不同技术手段所挖掘出的特征词和特征词中的情感词与所述种子词的相关性的准确度的统计数据,所述准确度的判定方法在此不作限定,可以基于本领域的惯用标准进行判断。其中:
各表中的top列表示抽取出的词语的数量;
各表中的Method-One列表示在混合话题下基于现有技术中的自举学习方法所挖掘出的词语与所述种子词的相关性的准确度的统计数据;
各表中的Method-Two列表示在单独话题下基于现有技术中的自举学习方法所挖掘出的词语与所述种子词的相关性的准确度的统计数据;
各表中的Method-Three列表示在混合话题下基于本发明中对正相关似然比统计量进行计算和排序所挖掘出的词语与所述种子词的相关性的准确度的统计数据;
各表中的Method-Four列表示在混合话题下基于本发明中对正相关似然比统计量进行计算和排序并对正相关似然比统计量进行邻近参考调整,所挖掘出的词语与所述种子词的相关性的准确度的统计数据;
对于种子词“医生”,所挖掘出的特征词和特征词中的情感词与所述种子词的相关性的准确度的统计数据分别参考表1-1和表1-2:
Top Method-One Method-Two Method-Three Method-Four
50 82.00% 64.00% 90.00% 98.00%
100 61.00% 45.00% 70.00% 76.00%
150 48.00% 42.67% 56.67% 59.33%
200 41.50% 39.50% 47.50% 46.00%
250 35.20% 34.80% 39.60% 39.20%
300 30.33% 31.00% 34.33% 35.00%
表1-1
Top Method-One Method-Two Method-Three Method-Four
20 100.00% 80.00% 95.00% 100.00%
40 80.00% 65.00% 80.00% 95.00%
60 70.00% 53.33% 71.67% 85.00%
80 62.50% 51.25% 66.25% 72.50%
100 53.00% 45.00% 56.00% 66.00%
120 46.67% 45.83% 52.50% 55.83%
140 40.71% 43.57% 47.86% 50.00%
160 40.00% 42.50% 45.00% 44.38%
表1-2
对于种子词“雾霾”,所挖掘出的特征词和特征词中的情感词与所述种子词的相关性的准确度的统计数据分别参考表2-1和表2-2:
Top Method-One Method-Two Method-Three Method-Four
50 62.00% 48.00% 70.00% 86.00%
100 51.00% 36.00% 58.00% 71.00%
150 44.00% 32.00% 50.67% 56.67%
200 37.00% 30.00% 41.50% 44.50%
250 32.00% 28.00% 34.80% 35.60%
300 27.67% 27.00% 30.00% 29.67%
表2-1
Top Method-One Method-Two Method-Three Method-Four
20 70.00% 55.00% 70.00% 75.00%
40 37.50% 30.00% 37.50% 40.00%
60 25.00% 28.33% 33.33% 31.67%
80 18.75% 21.25% 28.75% 23.75%
100 18.00% 17.00% 26.00% 21.00%
表2-2
对于种子词“余额宝”,所挖掘出的特征词和特征词中的情感词与所述种子词的相关性的准确度的统计数据分别参考表3-1和表3-2:
Top Method-One Method-Two Method-Three Method-Four
50 72.00% 74.00% 90.00% 92.00%
100 54.00% 59.00% 80.00% 76.00%
150 47.33% 49.33% 64.67% 64.00%
200 38.00% 42.00% 53.50% 53.50%
250 33.20% 37.60% 44.80% 46.40%
300 29.33% 34.67% 38.67% 41.00%
表3-1
Top Method-One Method-Two Method-Three Method-Four
20 40.00% 35.00% 70.00% 90.00%
40 32.50% 37.50% 55.00% 75.00%
60 31.67% 35.00% 50.00% 51.67%
80 30.00% 37.50% 45.00% 38.75%
100 27.00% 39.00% 39.00% 36.00%
120 23.33% 35.00% 37.50% 36.67%
140 25.00% 30.00% 34.29% 33.57%
160 26.25% 26.25% 32.50% 32.50%
表3-2
通过上文各表的实验结果可以明显看出,本发明提供的技术方案由于排除了负相关词语,强调了正相关词语,从而显著提升了所挖掘出的词语与种子的正相关性。从上述表格也可以明显看出,对于Method-Four,当抽取的词语数量较少时,准确度明显优于其他技术方案,当抽取的词语明显增多到一定数量时,准确度的优势不再明显,这是因为抽取的词语越多,所抽取的词语具有参考性的价值就可能越低,这也是本方案中的邻近参考调整之所以在正相关矩阵达到一定稳定状态时停止迭代调整的原因。
所属技术领域的技术人员知道,本发明可以实现为设备、装置、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件,也可以是完全的软件,还可以是硬件和软件结合的形式。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种从文档集中挖掘特征词的方法,包括:
对所述文档集中的每个分句进行分词处理,得到分词结果表;
计算分词结果表中每两个分词结果之间的正相关似然比统计量;
对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。
2.根据权利要求1所述的方法,其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:
基于每两个分词结果之间的正相关似然比统计量,得到与所述分词结果表对应的正相关矩阵;
其中,正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。
3.根据权利要求2所述的方法,其中所述对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括:
对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量所对应的所述正相关矩阵的一行或一列进行排序,基于排序从分词结果表中提取一定数量的与该一行或该一列对应的分词结果作为特征词输出。
4.根据权利要求2所述的方法,其中所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:
对所述正相关矩阵中的每个正相关似然比统计量进行邻近参考调整;
其中所述邻近参考调整具体包括:
取所述正相关矩阵中所述种子词与分词结果表中的其他分词结果之间的正相关似然比统计量所在的正相关矩阵的一行或一列;
-a对于所述该一行或该一列的各正相关似然比统计量所在所述正相关矩阵的一列或一行按值排序,计算所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的所有正相关似然比统计量的平均值,并以所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的正相关似然比统计量和所述平均值进行求和后的均值来替换对应的一列或一行的原正相关似然比统计量;
循环执行上述步骤-a,直到替换后的正相关矩阵与上一次替换后的正相关矩阵的余弦距离小于一定阈值。
5.根据权利要求1所述的方法,其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的公式为:
Positive _ Assosiation ( w i , w j ) = Σ j Σ i ( - 1 ) | i - j | n ij log p ij [ 1 ] p ij [ 2 ]
其中, p ij [ 1 ] = n ij Σ j Σ i n ij , p ij [ 2 ] = n ij Σ i n ij × n ij Σ j n ij ,
其中,wi、wj表示分词结果表中的任意一个不同的分词结果,Positive_Assosiation(wi,wj)表示任意两个不同的分词结果的正相关似然比统计量,nii表示分词结果wi、wj同时出现在所述文档集中的分句频次,njj表示分词结果wi、wj同时不出现在所述文档集中的分句频次,nij表示分词结果wi出现而分词结果wj不出现在所述文档集中的分句频次,nji表示分词结果wi不出现而分词结果wj出现在所述文档集中的分句频次。
6.一种从文档集中挖掘特征词的系统,包括:
分词装置,用于对所述文档集中的每个分句进行分词处理,得到分词结果表;
计算装置,用于计算分词结果表中每两个分词结果之间的正相关似然比统计量;
输出装置,用于对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。
7.根据权利要求6所述的系统,其中计算装置还用于:
基于每两个分词结果之间的正相关似然比统计量,得到与所述分词结果表对应的正相关矩阵;
其中,正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。
8.根据权利要求7所述的系统,其中输出装置用于:
对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量所对应的所述正相关矩阵的一行或一列进行排序,基于排序从分词结果表中提取一定数量的与该一行或该一列对应的分词结果作为特征词输出。
9.根据权利要求7所述的系统,其中所述计算装置还用于:
对所述正相关矩阵中的每个正相关似然比统计量进行邻近参考调整;
其中所述邻近参考调整具体包括:
取所述正相关矩阵中所述种子词与分词结果表中的其他分词结果之间的正相关似然比统计量所在的正相关矩阵的一行或一列;
-a对于所述该一行或该一列的各正相关似然比统计量所在所述正相关矩阵的一列或一行按值排序,计算所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的所有正相关似然比统计量的平均值,并以所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的正相关似然比统计量和所述平均值进行求和后的均值来替换对应的一列或一行的原正相关似然比统计量;
循环执行上述步骤-a,直到替换后的正相关矩阵与上一次替换后的正相关矩阵的余弦距离小于一定阈值。
10.根据权利要求6所述的系统,其中所述计算装置计算分词结果表中每两个分词结果之间的正相关似然比统计量的公式为:
Positive _ Assosiation ( w i , w j ) = Σ j Σ i ( - 1 ) | i - j | n ij log p ij [ 1 ] p ij [ 2 ]
其中, p ij [ 1 ] = n ij Σ j Σ i n ij , p ij [ 2 ] = n ij Σ i n ij × n ij Σ j n ij ,
其中,wi、wj表示分词结果表中的任意一个不同的分词结果,Positive_Assosiation(wi,wj)表示任意两个不同的分词结果的正相关似然比统计量,nij表示分词结果wi、wj同时出现在所述文档集中的分句频次,njj表示分词结果wi、wj同时不出现在所述文档集中的分句频次,nij表示分词结果wi出现而分词结果wj不出现在所述文档集中的分句频次,nji表示分词结果wi不出现而分词结果wj出现在所述文档集中的分句频次。
CN201510017522.7A 2015-01-13 2015-01-13 一种从文档集中挖掘特征词的系统和方法 Active CN104573027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510017522.7A CN104573027B (zh) 2015-01-13 2015-01-13 一种从文档集中挖掘特征词的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510017522.7A CN104573027B (zh) 2015-01-13 2015-01-13 一种从文档集中挖掘特征词的系统和方法

Publications (2)

Publication Number Publication Date
CN104573027A true CN104573027A (zh) 2015-04-29
CN104573027B CN104573027B (zh) 2018-07-24

Family

ID=53089089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510017522.7A Active CN104573027B (zh) 2015-01-13 2015-01-13 一种从文档集中挖掘特征词的系统和方法

Country Status (1)

Country Link
CN (1) CN104573027B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447750A (zh) * 2015-11-17 2016-03-30 小米科技有限责任公司 信息识别方法、装置、终端及服务器
CN107577667A (zh) * 2017-09-14 2018-01-12 北京奇艺世纪科技有限公司 一种实体词处理方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529902B1 (en) * 1999-11-08 2003-03-04 International Business Machines Corporation Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling
US20080195389A1 (en) * 2007-02-12 2008-08-14 Microsoft Corporation Text-dependent speaker verification
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN102129427A (zh) * 2010-01-13 2011-07-20 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置
CN103235774A (zh) * 2013-04-27 2013-08-07 杭州电子科技大学 一种科技项目申请书特征词提取方法
CN103246640A (zh) * 2013-04-23 2013-08-14 北京十分科技有限公司 一种检测重复文本的方法及装置
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
US20140201185A1 (en) * 2013-01-17 2014-07-17 Adobe Systems Incorporated Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
CN104035969A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的特征词库构建方法和系统
CN104156349A (zh) * 2014-03-19 2014-11-19 邓柯 基于统计词典模型的未登录词发现和分词系统及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529902B1 (en) * 1999-11-08 2003-03-04 International Business Machines Corporation Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling
US20080195389A1 (en) * 2007-02-12 2008-08-14 Microsoft Corporation Text-dependent speaker verification
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN102129427A (zh) * 2010-01-13 2011-07-20 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置
US20140201185A1 (en) * 2013-01-17 2014-07-17 Adobe Systems Incorporated Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103246640A (zh) * 2013-04-23 2013-08-14 北京十分科技有限公司 一种检测重复文本的方法及装置
CN103235774A (zh) * 2013-04-27 2013-08-07 杭州电子科技大学 一种科技项目申请书特征词提取方法
CN104156349A (zh) * 2014-03-19 2014-11-19 邓柯 基于统计词典模型的未登录词发现和分词系统及方法
CN104035969A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的特征词库构建方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447750A (zh) * 2015-11-17 2016-03-30 小米科技有限责任公司 信息识别方法、装置、终端及服务器
CN105447750B (zh) * 2015-11-17 2022-06-03 小米科技有限责任公司 信息识别方法、装置、终端及服务器
CN107577667A (zh) * 2017-09-14 2018-01-12 北京奇艺世纪科技有限公司 一种实体词处理方法和装置
CN107577667B (zh) * 2017-09-14 2020-10-27 北京奇艺世纪科技有限公司 一种实体词处理方法和装置

Also Published As

Publication number Publication date
CN104573027B (zh) 2018-07-24

Similar Documents

Publication Publication Date Title
Morrison et al. Disambiguation of patent inventors and assignees using high-resolution geolocation data
CN110727880B (zh) 一种基于词库与词向量模型的敏感语料检测方法
CN104866478A (zh) 恶意文本的检测识别方法及装置
CN110321562B (zh) 一种基于bert的短文本匹配方法及装置
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
US10796092B2 (en) Token matching in large document corpora
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
CN106021230A (zh) 一种分词方法及装置
CN105512104A (zh) 词典降维方法及装置、信息分类方法及装置
CN111079408A (zh) 一种语种识别方法、装置、设备及存储介质
CN113343677A (zh) 一种意图识别方法、装置、电子设备及存储介质
CN105159927A (zh) 目标文本主题词的选取方法、装置及终端
Bauersfeld et al. Cracking double-blind review: Authorship attribution with deep learning
CN104573027A (zh) 一种从文档集中挖掘特征词的系统和方法
CN108415971B (zh) 采用知识图谱推荐供求信息的方法和装置
Sagcan et al. Toponym recognition in social media for estimating the location of events
Cocos et al. Word sense filtering improves embedding-based lexical substitution
CN110347934B (zh) 一种文本数据过滤方法、装置及介质
CN113254429A (zh) 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
CN106547877B (zh) 基于6w业务逻辑模型的数据元智能标识解析方法
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN113568969B (zh) 信息抽取方法、装置、设备以及计算机可读存储介质
Gueddah et al. The impact of Arabic inter-character proximity and similarity on spell-checking
CN106682107B (zh) 数据库表关联关系确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant