CN103514213B - 词语提取方法及装置 - Google Patents
词语提取方法及装置 Download PDFInfo
- Publication number
- CN103514213B CN103514213B CN201210218450.9A CN201210218450A CN103514213B CN 103514213 B CN103514213 B CN 103514213B CN 201210218450 A CN201210218450 A CN 201210218450A CN 103514213 B CN103514213 B CN 103514213B
- Authority
- CN
- China
- Prior art keywords
- document
- word
- information
- candidate
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 41
- 238000000034 method Methods 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims abstract description 28
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims description 14
- 239000000203 mixture Substances 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 10
- 230000002596 correlated effect Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 14
- 150000001875 compounds Chemical class 0.000 description 6
- 229940068517 fruit extracts Drugs 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- FYYHWMGAXLPEAU-UHFFFAOYSA-N Magnesium Chemical compound [Mg] FYYHWMGAXLPEAU-UHFFFAOYSA-N 0.000 description 3
- QAOWNCQODCNURD-UHFFFAOYSA-N Sulfuric acid Chemical compound OS(O)(=O)=O QAOWNCQODCNURD-UHFFFAOYSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 235000011149 sulphuric acid Nutrition 0.000 description 3
- 239000001117 sulphuric acid Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种词语抽取方法,属于信息检索领域。所述方法包括:获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;处理所述目标文档获得候选词语;根据文档信息计算每个候选词语的词频TF和反向文档频率IDF;根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。本发明通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,可以达到提取到的词语在领域上更加相关、地域上更加相关或时间上更加相关的效果。
Description
技术领域
本发明涉及信息检索领域,特别涉及一种词语提取方法及装置。
背景技术
在中文信息处理和信息检索领域中,人们需要快速地了解一篇文档的内容时,通常是提取几个词语或者短语,作为该文档的主要内容的提要。根据不同的应用场景,提取到的词语或者短语可以称之为关键字、线索词或者标签。
现有技术中,通常采用的一种词语提取方法包括:第一,从文档中选取候选词语;具体地讲,候选词语一般是单个词或者由多个单词组成的短语。在英文文档中,每个词都是以空格作为自然分界符,选取候选词语较为简单;在中文文档中,可以通过语义分析来分割文档中的语句,从而获得各种词性模式的词语,词性包括形容词、名词、动词、介词和量词等,然后将某种词性模式的词语作为候选词语;第二,在候选词语中提取具有代表性的词语。具体地讲,可以对候选词语进行某种方式的统计,根据候选词语的统计性质对每个候选词语进行排序,选取排名最靠前的n个候选词语作为提取到的词语。当需要提取与特定领域相关的词语时,第二步骤中通常采用的排序方法为TF-IDF(Term Frequency-InverseDocument Frequency,词频-反向文档频率)。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:现有技术仅根据词语在特定领域的采样文档中出现的频率来对候选词语进行统计,最终提取到的词语并不能够准确地代表特定领域的特性。
发明内容
为了提取更具有领域代表性的词语,本发明实施例提供了一种词语提取方法及装置。所述技术方案如下:
一方面,本发明实施例提供了一种词语提取方法,所述方法包括:
获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;
处理所述目标文档获得候选词语;
根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;
根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。
另一方面,本发明实施例提供了一种词语提取装置,所述装置包括:
文档获取模块,用于获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;
文档处理模块,用于处理所述目标文档获得候选词语;
参数计算模块,用于根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;
词语提取模块,用于根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。
本发明实施例提供的技术方案带来的有益效果是:
通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,本发明实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的词语提取方法的方法流程图;
图2是本发明实施例二提供的词语提取方法的方法流程图;
图3是本发明实施例三提供的词语提取方法的方法流程图;
图4是本发明实施例四提供的词语提取方法的方法流程图;
图5是本发明实施例五提供的词语提取装置的一种结构方框图;
图6是本发明实施例五提供的词语提取装置的另一结构方框图;
图7是本发明实施例五提供的词语提取装置的再一结构方框图;
图8是本发明实施例五提供的词语提取装置的又一结构方框图;
图9是本发明实施例五提供的词语提取装置的还一结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本文的重点和难点之一为:在原有TF-IDF排序方法的基础上,结合诸如文档权重信息、时间权重信息之类的文档信息的计算,从而形成改进的TF-IDF排序方法,以便达到更好的词语排序和提取效果。
实施例一
请参考图1,其示出了本发明实施例一提供的词语提取方法的方法流程图。该词语提取方法可以包括:
步骤102,获取至少一个目标文档和与目标文档对应的文档信息,文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;
当需要提取代表某一特定领域的词语时,首先可以选取一至多篇(也即若干篇)属于该特定领域的目标文档。特别地,还需要获取每个目标文档对应的文档信息,文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种。其中,文档权重信息可以通过目标文档的点击数或者PageRank(也称网页级别,Google排名运算法则的一部分)值来计算;文档地域权重信息可以通过目标文档在预定地域的点击数或者PageRank值来计算;文档时间权重信息可以通过目标文档的创建时间和当前时间之间的差值来计算。
步骤104,处理目标文档获得候选词语;
对若干篇目标文档可以进行提取候选词语的处理,该处理过程可以包括:第一,对目标文档的正文进行分词,以获得至少一个词语;第二,对分词获得的词语进行词性分析,词性具体包括:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等;第三,根据词语的词性识别词语的实体信息,实体信息具体包括:人名、机构名、地名、时间、日期、货币和百分比等;第四,将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语,比如,预定词性可以是形容词+动词。
步骤106,根据文档信息计算候选词语的词频TF和反向文档频率IDF;
根据文档信息来计算每个候选词语的词频TF和反向文档频率IDF。简单来讲,对于每个候选词语在一篇目标文档中的词频TF,都需要乘以该目标文档的文档信息来计算;对于每个候选词语的反向文档频率IDF,都需要结合所有目标文档和参考文档的文档信息来计算。其中,参考文档可以为大于3000篇的领域色彩较为中性的文档,比如参考文档可以是人民日报或者新闻报道之类的文档。
步骤108,根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。
对于每一个候选词语,都可以计算到一一对应的词频TF和反向文档频率IDF。然后可以根据每一个候选词语的词频TF和反向文档频率IDF的乘积来由大到小对候选词语排序,并根据排序结果提取排名最靠前的n个候选词语作为提取到的词语。
综上所述,本实施例提供的词语提取方法,通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,本发明实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。
实施例二
请参考图2,其示出了本发明实施例二提供的词语提取方法的方法流程图。本实施例中,以文档信息为文档权重信息为例来描述,该词语提取方法可以包括:
步骤201,获取至少一个目标文档和与目标文档对应的文档信息,文档信息包括文档权重信息;
当需要提取代表某一特定领域的词语时,首先可以选取一至多篇(也即若干篇)属于该特定领域的目标文档。特别地,还需要获取每个目标文档对应的文档信息,文档信息可以是文档权重信息。文档权重信息可以通过目标文档的点击数或者PageRank值来计算。具体地讲,对于包含若干篇目标文档的目标文档库中的某一指定目标文档dj,计算文档权重信息Aj为:
其中,hits(dj)为目标文档dj的点击数,Max(hits(di),1<i<N)表示在目标文档库中最大的文档点击数。
另外,本实施例中还需要使用到参考文档库,参考文档库可以由若干篇(比如3000多篇)在领域色彩上较为中性的参考文档,参考文档可以是诸如人民日报之类的新闻类文档、综合性门户网站的网页资讯文档。因为新闻领域的文档是多个领域文档的一个集合,我们把新闻领域的文档可以看成常用语言,而特定领域具有专业性,在用词方面具有差异。也就是说,如果一个词语在诸如人民日报的文档上出现的频度较低而在特定领域的文档上出现得比较频繁,那么,这样的词语具有领域特点的概率更高。
与上面同理的是,对于包含若干篇参考文档的参考文档库中的某一指定参考文档dj,也可以计算文档权重信息Aj为:
其中,hits(dj)为参考文档dj的点击数,Max(hits(di),1<i<N)表示在参考文档库中最大的文档点击数。
或者,还可以将参考文档库和目标文档库结合为一个文档库,此时对于任何一个文档的文档权重信息的计算过程保持不变。
步骤202,处理目标文档获得候选词语;
对若干篇目标文档中的每一个目标文档可以进行提取候选词语的处理,该处理过程可以包括:第一,对至少一个目标文档的正文进行分词,以获得至少一个词语;第二,对分词获得的词语进行词性分析,词性具体包括:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等;第三,根据词语的词性识别词语的实体信息,实体信息具体包括:人名、机构名、地名、时间、日期、货币和百分比等;第四,将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语,比如,预定词性可以是形容词+动词。
上述的处理过程,可以使用开源分析工具来完成,比如,当目标文档是中文文档时,可以使用中国科学院ICTCLAS(Institute of Computing Technology ChineseLexical Analysis System,汉语词法分析系统)、哈工大的HIT-IRLAS词法分析器等;当目标文档是英文文档时,可以使用Stanford Parse(也称斯坦福词法分析器)。优选地,还可以对候选词语进行浅层句法分析或者语块分析,形成语块结构信息,进一步地将语块结构信息作为候选词语,比如语块结构信息可以是非递归的名称短语、动词短语等等。
经过上述处理,可以得到初步的候选词语。
步骤203,根据预定条件对候选词语进行过滤,预定条件包括:符合预定词性、符合预定语块结构和符合预定词汇表中的至少一条;
当获得若干个候选词语之后,为了取得更为准确的提取效果和节省计算量,可以对候选词语按照预定条件进行过滤,以便过滤掉与该领域的特性相关较差的词语。预定条件可以是判断每个候选词语的词性是否符合预定词性;判断每个候选词语的语块结构是否为预定语块结构;判断每个候选词语是否符合预定词汇表等判断条件中的任意一条或者几条的组合。比如,对于医药领域,药品化合物的名称经常是重要的候选词语,而药品化合物大部分都是名词(如硫酸XXX镁片),所以可以通过判断每个候选词语的词性是否为名词来进行过滤;又比如:对于体育领域,体育运动的名称经常是重要的候选词语,而体育运动的名称经常是“动词+名词”或者“动词+形容词”的短语(如射箭、跳高),所以可以判断每个候选词语的语块结构是否为“动词+名词”或者“动词+形容词”来进行过滤。
经过上述处理后,可以得到过滤后的候选词语。
步骤204,根据文档信息计算候选词语的词频TF;
对于每个候选词语,可以根据文档信息计算词频TF。在本实施例中,文档信息wj等于文档权重信息Aj。对于一个目标文档dj中的词语ti,根据文档信息wj计算词频TFi,j为:
其中,TFi,j为候选词语ti在目标文档dj中的词频,ni,j为词语ti在目标文档dj中的出现次数,∑knk,j为目标文档dj中所有词语的出现次数之和。
步骤205,根据文档信息计算候选词语的反向文档频率IDF;
对于每个候选词语,还可以根据文档信息计算反向文档频率IDF。在本实施例中,文档信息wj等于文档权重信息Aj。对于词语ti,根据文档信息wj计算反向文档频率IDFi为:
其中,IDFi是候选词语ti的反向文档频率,|D|是总文档库中的文档数之和,是总文档库中包含词语ti的文档的文档信息wj之和。需要说明的是,此处的文档库包括参考文档库和由上述至少一个目标文档形成的目标文档库。
当计算为0时,令等于固定常数,固定常数的取值范围为(0,0.01)。
步骤206,根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。
对于每一个候选词语,都可以计算到一一对应的词频TF和反向文档频率IDF。然后可以根据每一个候选词语的词频TF和反向文档频率IDF的乘积来由大到小对候选词语排序,并根据排序结果提取排名最靠前的n个候选词语作为提取到的词语。
综上所述,本实施例提供的词语提取方法,通过结合具体为文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题,可以达到提取到的关键词在领域上更加相关的效果。
实施例三
请参考图3,其示出了本发明实施例三提供的词语提取方法的方法流程图。本实施例中,以文档信息为文档地域权重信息为例来描述,该词语提取方法可以包括:
步骤301,获取至少一个目标文档和与目标文档对应的文档信息,文档信息包括文档地域权重信息;
当需要提取代表某一特定领域的词语时,首先可以选取一至多篇(也即若干篇)属于该特定领域的目标文档。特别地,还需要获取每个目标文档对应的文档信息,文档信息可以是文档地域权重信息。文档地域权重信息可以通过目标文档在预定地域的点击数或者PageRank值来计算。比如,一篇目标文档总的点击数为1000,而在北京地区的点击数为398,则根据北京地区的点击数398可以计算到对应于北京地区的文档地域权重信息。具体地讲,对于包含若干篇目标文档的目标文档库中的某一指定目标文档dj,计算文档地域权重信息Bj为:
其中,hits(dj)为目标文档dj在预定地区(如北京地区)的点击数,Max(hits(di),1<i<N)表示在目标文档库中在预定地区(如北京地区)最大的文档点击数。
对于地域信息的获得,可以采用分析IP地址、分析作者地址等方式。另外需要说明的是,点击数在不同的实施例中可以使用其他信息代替,比如特定领域是微博,目标文档是微博博文时,点击数可以使用微博的评论数、转发数和@的用户数中的任意一种来代替。
另外,本实施例中还需要使用到参考文档库,参考文档库可以由若干篇(比如3000多篇)在领域色彩上较为中性的参考文档,参考文档可以是诸如人民日报之类的新闻类文档、综合性门户网站的网页资讯文档。因为新闻领域的文档是多个领域文档的一个集合,我们把新闻领域的文档可以看成常用语言,而特定领域具有专业性,在用词方面具有差异。也就是说,如果一个词语在诸如人民日报的文档上出现的频度较低而在特定领域的文档上出现得比较频繁,那么,这样的词语具有领域特点的概率更高。
与上面同理的是,对于包含若干篇参考文档的参考文档库中的某一指定参考文档dj,也可以计算文档地域权重信息Bj为:
其中,hits(dj)为参考文档dj的在预定地区(如北京地区)点击数,Max(hits(di),1<i<N)表示参考文档库中在预定地区(如北京地区)最大的文档点击数。
或者,还可以将参考文档库和目标文档库结合为一个文档库,此时对于任何一个文档的文档地域权重信息的计算过程保持不变。
步骤302,处理目标文档获得候选词语;
对若干篇目标文档中的每一个目标文档可以进行提取候选词语的处理,该处理过程可以包括:第一,对至少一个目标文档的正文进行分词,以获得至少一个词语;第二,对分词获得的词语进行词性分析,词性具体包括:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等;第三,根据词语的词性识别词语的实体信息,实体信息具体包括:人名、机构名、地名、时间、日期、货币和百分比等;第四,将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语,比如,预定词性可以是形容词+动词。
上述的处理过程,可以使用开源分析工具来完成,比如,当目标文档是中文文档时,可以使用中国科学院ICTCLAS(Institute of Computing Technology ChineseLexical Analysis System,汉语词法分析系统)、哈工大的HIT-IRLAS词法分析器等;当目标文档是英文文档时,可以使用Stanford Parse(也称斯坦福词法分析器)。优选地,还可以对候选词语进行浅层句法分析或者语块分析,形成语块结构信息,进一步地将语块结构信息作为候选词语,比如语块结构信息可以是非递归的名称短语、动词短语等等。
经过上述处理,可以得到初步的候选词语。
步骤303,根据预定条件对候选词语进行过滤,预定条件包括:符合预定词性、符合预定语块结构和符合预定词汇表中的至少一条;
当获得若干个候选词语之后,为了取得更为准确的提取效果和节省计算量,可以对候选词语按照预定条件进行过滤,以便过滤掉与该领域的特性相关较差的词语。预定条件可以是判断每个候选词语的词性是否符合预定词性;判断每个候选词语的语块结构是否为预定语块结构;判断每个候选词语是否符合预定词汇表等判断条件中的任意一条或者几条的组合。比如,对于医药领域,药品化合物的名称经常是重要的候选词语,而药品化合物大部分都是名词(如硫酸XXX镁片),所以可以通过判断每个候选词语的词性是否为名词来进行过滤;又比如:对于体育领域,体育运动的名称经常是重要的候选词语,而体育运动的名称经常是“动词+名词”或者“动词+形容词”的短语(如射箭、跳高),所以可以判断每个候选词语的语块结构是否为“动词+名词”或者“动词+形容词”来进行过滤。
经过上述处理后,可以得到过滤后的候选词语。
步骤304,根据文档信息计算候选词语的词频TF;
对于每个候选词语,可以根据文档信息计算词频TF。在本实施例中,文档信息wj等于文档地域权重信息Bj。对于一个目标文档dj中的词语ti,根据文档信息wj计算词频TFi,j为:
其中,TFi,j为候选词语ti在目标文档dj中的词频,ni,j为词语ti在目标文档dj中的出现次数,∑knk,j为目标文档dj中所有词语的出现次数之和。
步骤305,根据文档信息计算候选词语的反向文档频率IDF;
对于每个候选词语,还可以根据文档信息计算反向文档频率IDF。在本实施例中,文档信息wj等于文档地域权重信息Bj。对于词语ti,根据文档信息wj计算反向文档频率IDFi为:
其中,IDFi是候选词语ti的反向文档频率,|D|是总文档库中的文档数之和,是总文档库中包含词语ti的文档的文档信息wj之和。需要说明的是,此处的总文档库包括参考文档库和由上述至少一个目标文档形成的目标文档库。
当计算为0时,令等于固定常数,固定常数的取值范围为(0,0.01)。
步骤306,根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。
对于每一个候选词语,都可以计算到一一对应的词频TF和反向文档频率IDF。然后可以根据每一个候选词语的词频TF和反向文档频率IDF的乘积来由大到小对候选词语排序,并根据排序结果提取排名最靠前的n个候选词语作为提取到的词语。
综上所述,本实施例提供的词语提取方法,通过结合具体为文档地域权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题,可以达到提取到的关键词在地域上更加相关的效果。
实施例四
请参考图4,其示出了本发明实施例四提供的词语提取方法的方法流程图。本实施例中,以文档信息为文档时间权重信息为例来描述,该词语提取方法可以包括:
步骤401,获取至少一个目标文档和与目标文档对应的文档信息,文档信息包括文档地域权重信息;
当需要提取代表某一特定领域的词语时,首先可以选取一至多篇(也即若干篇)属于该特定领域的目标文档。特别地,还需要获取每个目标文档对应的文档信息,文档信息可以是文档时间权重信息。文档时间权重信息可以通过目标文档的创建时间和当前时间之间的差值来计算。具体地讲,对于包含若干篇目标文档的目标文档库中的某一指定目标文档dj,计算文档时间权重信息为:
其中,T0为文档dj的创建时间,T1为当前时间,当计算|T1-T0|为0时,令|T1-T0|等于固定常数,固定常数的取值范围为(0,0.01)。时间的粒度可以根据实施例的不同选择小时、天、周、月和年中的任一种,通常为天。
另外,本实施例中还需要使用到参考文档库,参考文档库可以由若干篇(比如3000多篇)在领域色彩上较为中性的参考文档,参考文档可以是诸如人民日报之类的新闻类文档、综合性门户网站的网页资讯文档。因为新闻领域的文档是多个领域文档的一个集合,我们把新闻领域的文档可以看成常用语言,而特定领域具有专业性,在用词方面具有差异。也就是说,如果一个词语在诸如人民日报的文档上出现的频度较低而在特定领域的文档上出现得比较频繁,那么,这样的词语具有领域特点的概率更高。
与上面同理的是,对于包含若干篇参考文档的参考文档库中的某一指定参考文档dj,也可以计算文档时间权重信息Cj为:
其中,T0为文档dj的创建时间,T1为当前时间,当计算|T1-T0|为0时,令|T1-T0|等于固定常数,固定常数的取值范围为(0,0.01)。
或者,还可以将参考文档库和目标文档库结合为一个文档库,此时对于任何一个文档的文档时间权重信息的计算过程保持不变。
步骤402,处理目标文档获得候选词语;
对若干篇目标文档中的每一个目标文档可以进行提取候选词语的处理,该处理过程可以包括:第一,对至少一个目标文档的正文进行分词,以获得至少一个词语;第二,对分词获得的词语进行词性分析,词性具体包括:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等;第三,根据词语的词性识别词语的实体信息,实体信息具体包括:人名、机构名、地名、时间、日期、货币和百分比等;第四,将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语,比如,预定词性可以是形容词+动词。
上述的处理过程,可以使用开源分析工具来完成,比如,当目标文档是中文文档时,可以使用中国科学院ICTCLAS(Institute of Computing Technology ChineseLexical Analysis System,汉语词法分析系统)、哈工大的HIT-IRLAS词法分析器等;当目标文档是英文文档时,可以使用Stanford Parse(也称斯坦福词法分析器)。优选地,还可以对候选词语进行浅层句法分析或者语块分析,形成语块结构信息,进一步地将语块结构信息作为候选词语,比如语块结构信息可以是非递归的名称短语、动词短语等等。
经过上述处理,可以得到初步的候选词语。
步骤403,根据预定条件对候选词语进行过滤,预定条件包括:符合预定词性、符合预定语块结构和符合预定词汇表中的至少一条;
当获得若干个候选词语之后,为了取得更为准确的提取效果和节省计算量,可以对候选词语按照预定条件进行过滤,以便过滤掉与该领域的特性相关较差的词语。预定条件可以是判断每个候选词语的词性是否符合预定词性;判断每个候选词语的语块结构是否为预定语块结构;判断每个候选词语是否符合预定词汇表等判断条件中的任意一条或者几条的组合。比如,对于医药领域,药品化合物的名称经常是重要的候选词语,而药品化合物大部分都是名词(如硫酸XXX镁片),所以可以通过判断每个候选词语的词性是否为名词来进行过滤;又比如:对于体育领域,体育运动的名称经常是重要的候选词语,而体育运动的名称经常是“动词+名词”或者“动词+形容词”的短语(如射箭、跳高),所以可以判断每个候选词语的语块结构是否为“动词+名词”或者“动词+形容词”来进行过滤。
经过上述处理后,可以得到过滤后的候选词语。
步骤404,根据文档信息计算候选词语的词频TF;
对于每个候选词语,可以根据文档信息计算词频TF。在本实施例中,文档信息wj等于文档时间权重信息Cj。对于一个目标文档dj中的词语ti,根据文档信息wj计算词频TFi,j为:
其中,TFi,j为候选词语ti在目标文档dj中的词频,ni,j为词语ti在目标文档dj中的出现次数,∑knk,j为目标文档dj中所有词语的出现次数之和。
步骤405,根据文档信息计算候选词语的反向文档频率IDF;
对于每个候选词语,还可以根据文档信息计算反向文档频率IDF。在本实施例中,文档信息wj等于文档时间权重信息Cj。对于词语ti,根据文档信息wj计算反向文档频率IDFi为:
其中,IDFi候选词语ti的反向文档频率,|D|是总文档库中的文档数之和,是总文档库中包含词语ti的文档的文档信息wj之和。需要说明的是,此处的总文档库包括参考文档库和由上述至少一个目标文档形成的目标文档库。
当计算为0时,令等于固定常数,固定常数的取值范围为(0,0.01)。
步骤406,根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。
对于每一个候选词语,都可以计算到一一对应的词频TF和反向文档频率IDF。然后可以根据每一个候选词语的词频TF和反向文档频率IDF的乘积来由大到小对候选词语排序,并根据排序结果提取排名最靠前的n个候选词语作为提取到的词语。
综上所述,本实施例提供的词语提取方法,通过结合具体为文档时间权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题,可以达到提取到的关键词在时间上更加相关的效果。比如在诸如体育、娱乐、打折或者快讯等时间属性很强的领域中,根据上述方法可以获得和时间相关的热点词语。
需要说明的是,在其它实施例中,文档信息还可以是文档权重信息与文档时间权重信息的乘积、文档地域权重信息和文档时间权重信息的乘积,比如,wj=Aj*Cj。
实施例五
请参考图5,其示出了本发明实施例五提供的词语提取装置的结构方框图。该词语提取装置可以包括文档获取模块520、文档处理模块540、参数计算模块560和词语提取模块580。
文档获取模块520用于获取至少一个目标文档和与每个目标文档对应的文档信息,文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种。
文档处理模块540用于处理至少一个目标文档获得候选词语;
参数计算模块560用于根据文档信息计算词频TF和反向文档频率IDF;
词语提取模块580用于根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。
具体地讲,文档获取模块520可以具体包括:文档信息计算单元522,如图6所示。文档信息计算单元522用于计算文档信息wj为文档权重信息、文档地域权重信息、文档时间权重信息、文档权重信息与文档时间权重信息的乘积、文档地域权重信息与文档时间权重信息中的任意一种。
文档权重信息为:
其中,hits(dj)为文档dj的点击数,Max(hits(di),1<i<N)表示文档库中最大的文档点击数。
文档地域权重信息为:
其中,hits(dj)为文档dj在预定地域的点击数,Max(hits(di),1<i<N)表示文档库中在预定地域最大的文档点击数。
文档时间权重信息为:
其中,T0为文档dj的创建时间,T1为当前时间,当计算|T1-T0|为0时,令|T1-T0|等于固定常数,固定常数的取值范围为(0,0.01)。
上述文档dj为目标文档时,上述文档库为包括所述至少一个目标文档的目标文档库;上述文档dj为参考文档时,上述文档库为参考文档库。
具体地讲,文档处理模块540可以具体包括:词语分割单元542、词性分析单元544、信息识别单元546和词语候选单元548,如图7所示。其中,词语分割单元542用于对至少一个目标文档的正文进行分词,以获得至少一个词语;词性分析单元544用于对词语分割单元542获得的词语进行词性分析;信息识别单元546用于根据词性分析单元544分析到的词语的词性识别词语的实体信息;词语候选单元548用于将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语。
具体地讲,参数计算模块560可以具体包括:TF计算单元562和IDF计算单元564,如图8所示。
TF计算单元562用于对于目标文档dj中的词语ti,根据文档信息wj计算词频TFi,j为:
其中,TFi,j为候选词语ti在目标文档dj中的词频,ni,j为词语ti在目标文档dj中的出现次数,∑knk,j为目标文档dj中所有词语的出现次数之和。
IDF计算单元564用于对于文档库中的词语ti,根据文档信息wj计算反向文档频率IDFi为:
其中,IDFi是候选词语ti的反向文档频率,|D|是总文档库中的文档数之和,是总文档库中包含词语ti的文档的文档信息wj之和,总文档库包括参考文档库和文档获取模块520获取到的至少一个目标文档形成的目标文档库。
当计算为0时,令等于固定常数,固定常数的取值范围为(0,0.01)。
进一步地,词语抽取装置,还可以包括:词语过滤模块550,如图9所示。词语过滤模块550用于根据预定条件对候选词语进行过滤,预定条件包括:符合预定词性、符合预定语块结构和符合预定词汇表中的至少一条。
综上所述,本实施例提供的词语提取装置,通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,本发明实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。
需要说明的是:上述实施例提供的词语提取装置在提取词语时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的词语提取装置与词语提取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种词语抽取方法,其特征在于,所述方法包括:
获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种,所述文档权重信息通过所述目标文档的点击数或者网页级别PageRank值来计算,所述文档地域权重信息通过所述目标文档在预定地域的点击数或者PageRank值来计算,所述文档时间权重信息通过所述目标文档的创建时间和当前时间之间的差值来计算;
处理所述目标文档获得候选词语;
根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;
根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。
2.根据权利要求1所述的词语抽取方法,其特征在于,所述处理所述目标文档获得候选词语,具体包括:
对所述目标文档的正文进行分词,以获得至少一个词语;
对所述词语进行词性分析;
根据所述词语的词性识别所述词语的实体信息;
将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语。
3.根据权利要求1所述的词语抽取方法,其特征在于,所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF,具体包括:
对于候选词语ti,根据文档信息wj计算词频TFi,j为:
其中,TFi,j为所述候选词语ti在目标文档dj中的词频,ni,j为所述候选词语ti在目标文档dj中的出现次数,Σknk,j为所述目标文档dj中所有词语的出现次数之和。
4.根据权利要求1所述的词语抽取方法,其特征在于,所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF,具体包括:
对于候选词语ti,根据文档信息wj计算反向文档频率IDFi为:
其中,IDFi是所述候选词语ti的反向文档频率,|D|是总文档库中的文档数之和,是所述总文档库中包含所述候选词语ti的文档的文档信息之和,所述总文档库包括参考文档库和包括所述至少一个目标文档的目标文档库;
当计算为0时,令等于固定常数,所述固定常数的取值范围为(0,0.01)。
5.根据权利要求3或4所述的词语抽取方法,其特征在于,所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF之前,还包括:
计算所述文档信息wj为文档权重信息、文档地域权重信息、文档时间权重信息、所述文档权重信息与所述文档时间权重信息的乘积、所述文档地域权重信息与所述文档时间权重信息中的任意一种;
所述文档权重信息为:
其中,hits(dj)为文档dj的点击数,Max(hits(di),1<i<N)表示文档库中最大的文档点击数;
或者,所述文档地域权重信息为:
其中,hits(dj)为文档dj在预定地域的点击数,Max(hits(di),1<i<N)表示文档库中在所述预定地域最大的文档点击数;
或者,所述文档时间权重信息为:
其中,T0为文档dj的创建时间,T1为当前时间,当计算|T1-T0|为0时,令|T1-T0|等于固定常数,所述固定常数的取值范围为(0,0.01);
所述文档dj为目标文档时,所述文档库为包括所述至少一个目标文档的目标文档库;所述文档dj为参考文档时,所述文档库为参考文档库。
6.一种词语抽取装置,其特征在于,所述装置包括:
文档获取模块,用于获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种,所述文档权重信息通过所述目标文档的点击数或者网页级别PageRank值来计算,所述文档地域权重信息通过所述目标文档在预定地域的点击数或者PageRank值来计算,所述文档时间权重信息通过所述目标文档的创建时间和当前时间之间的差值来计算;
文档处理模块,用于处理所述目标文档获得候选词语;
参数计算模块,用于根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;
词语提取模块,用于根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。
7.根据权利要求6所述的词语抽取装置,其特征在于,所述文档处理模块,具体包括:
词语分割单元、词性分析单元、信息识别单元和词语候选单元;
所述词语分割单元,用于对所述目标文档的正文进行分词,以获得至少一个词语;
所述词性分析单元,用于对所述词语进行词性分析;
所述信息识别单元,用于根据所述词语的词性识别所述词语的实体信息;
所述词语候选单元,用于将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语。
8.根据权利要求6所述的词语抽取装置,其特征在于,所述参数计算模块,具体包括:
TF计算单元;
所述TF计算单元,用于对于候选词语ti,根据文档信息wj计算词频TFi,j为:
其中,TFi,j为所述候选词语ti在目标文档dj中的词频,ni,j为所述词语ti在目标文档dj中的出现次数,Σknk,j为所述目标文档dj中所有词语的出现次数之和。
9.根据权利要求6所述的词语抽取装置,其特征在于,所述参数计算模块,具体包括:
IDF计算单元;
对于候选词语ti,根据文档信息wj计算反向文档频率IDFi为:
其中,IDFi是所述候选词语ti的反向文档频率,|D|是总文档库中的文档数之和,是所述总文档库中包含所述词语ti的文档的文档信息之和,所述文档库包括参考文档库和包括所述至少一个目标文档的目标文档库;
当计算为0时,令等于固定常数,所述固定常数的取值范围为(0,0.01)。
10.根据权利要求8或9所述的词语抽取装置,其特征在于,所述词语抽取装置,还包括:
文档信息计算单元;
所述文档信息计算单元,用于计算所述文档信息wj为文档权重信息、文档地域权重信息、文档时间权重信息、所述文档权重信息与所述文档时间权重信息的乘积、所述文档地域权重信息与所述文档时间权重信息中的任意一种;
所述文档权重信息为:
其中,hits(dj)为文档dj的点击数,Max(hits(di),1<i<N)表示文档库中最大的文档点击数;
或者,所述文档地域权重信息为:
其中,hits(dj)为文档dj在所述地域的点击数,Max(hits(di),1<i<N)表示文档库中在所述地域最大的文档点击数;
或者,所述文档时间权重信息为:
其中,T0为文档dj的创建时间,T1为当前时间,当计算|T1-T0|为0时,令|T1-T0|等于固定常数,所述固定常数的取值范围为(0,0.01);
所述文档dj为目标文档时,所述文档库为包括所述至少一个目标文档的目标文档库;所述文档dj为参考文档时,所述文档库为参考文档库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210218450.9A CN103514213B (zh) | 2012-06-28 | 2012-06-28 | 词语提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210218450.9A CN103514213B (zh) | 2012-06-28 | 2012-06-28 | 词语提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103514213A CN103514213A (zh) | 2014-01-15 |
CN103514213B true CN103514213B (zh) | 2016-12-21 |
Family
ID=49896946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210218450.9A Expired - Fee Related CN103514213B (zh) | 2012-06-28 | 2012-06-28 | 词语提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103514213B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951435A (zh) * | 2015-07-28 | 2015-09-30 | 陈包容 | 聊天过程中智能显示关键词的方法及装置 |
CN105005555A (zh) * | 2015-07-28 | 2015-10-28 | 陈包容 | 基于聊天时间的关键词提取方法及装置 |
CN105426361A (zh) * | 2015-12-02 | 2016-03-23 | 上海智臻智能网络科技股份有限公司 | 关键词提取方法及装置 |
CN105760474B (zh) * | 2016-02-14 | 2021-02-19 | Tcl科技集团股份有限公司 | 一种基于位置信息的文档集的特征词提取方法及系统 |
CN105844118B (zh) * | 2016-04-15 | 2020-02-21 | 量子创新(北京)信息技术有限公司 | 用于数据泄露防护的方法和系统 |
CN105893859B (zh) * | 2016-04-15 | 2019-05-03 | 宝利九章(北京)数据技术有限公司 | 用于数据泄露防护的方法和系统 |
CN105956482B (zh) * | 2016-04-15 | 2019-06-04 | 宝利九章(北京)数据技术有限公司 | 用于数据泄露防护的方法和系统 |
CN107463548B (zh) * | 2016-06-02 | 2021-04-27 | 阿里巴巴集团控股有限公司 | 短语挖掘方法及装置 |
CN109241387A (zh) * | 2018-08-28 | 2019-01-18 | 四川长虹电器股份有限公司 | 抓取社交媒体信息的爬虫分析方法 |
CN109145307B (zh) * | 2018-09-12 | 2022-09-13 | 广州视源电子科技股份有限公司 | 用户画像识别方法、推送方法、装置、设备和存储介质 |
CN109543185B (zh) * | 2018-11-22 | 2021-11-16 | 联想(北京)有限公司 | 语句主题获取方法和装置 |
CN111079426B (zh) * | 2019-12-20 | 2021-06-15 | 中南大学 | 一种获取领域文档词项分级权重的方法及装置 |
CN111753048B (zh) * | 2020-05-21 | 2024-02-02 | 高新兴科技集团股份有限公司 | 文档检索方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN101196904A (zh) * | 2007-11-09 | 2008-06-11 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110202545A1 (en) * | 2008-01-07 | 2011-08-18 | Takao Kawai | Information extraction device and information extraction system |
-
2012
- 2012-06-28 CN CN201210218450.9A patent/CN103514213B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN101196904A (zh) * | 2007-11-09 | 2008-06-11 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103514213A (zh) | 2014-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103514213B (zh) | 词语提取方法及装置 | |
US8356025B2 (en) | Systems and methods for detecting sentiment-based topics | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
CN102880600B (zh) | 基于通用知识网络的词语语义倾向性预测方法 | |
CN105786991A (zh) | 结合用户情感表达方式的中文情感新词识别方法和系统 | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
Rahab et al. | Siaac: Sentiment polarity identification on arabic algerian newspaper comments | |
Albishre et al. | Effective 20 newsgroups dataset cleaning | |
CN102609427A (zh) | 舆情垂直搜索分析系统及方法 | |
Kallimani et al. | Information extraction by an abstractive text summarization for an Indian regional language | |
Vadapalli et al. | Twitterosint: automated cybersecurity threat intelligence collection and analysis using twitter data | |
Singh et al. | Sentiment analysis using lexicon based approach | |
Nakayama et al. | Wikipedia Link Structure and Text Mining for Semantic Relation Extraction. | |
Liebeck et al. | IWNLP: Inverse Wiktionary for natural language processing | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
CN102982025B (zh) | 一种搜索需求识别方法及装置 | |
Khalil et al. | Which configuration works best? an experimental study on supervised Arabic twitter sentiment analysis | |
CN104063382B (zh) | 面向油气管道领域的多策略融合的标准术语处理方法 | |
Xiang et al. | Sina mandarin alphabetical words: a web-driven code-mixing lexical resource | |
Ma et al. | Combining n-gram and dependency word pair for multi-document summarization | |
Tian et al. | Research of product ranking technology based on opinion mining | |
Gayen et al. | Automatic identification of Bengali noun-noun compounds using random forest | |
Zhang et al. | Sentiment classification based on syntax tree pruning and tree kernel | |
Peters et al. | Crowdsourcing in article evaluation | |
US20140236940A1 (en) | System and method for organizing search results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161221 |
|
CF01 | Termination of patent right due to non-payment of annual fee |