CN105740229B - 关键词提取的方法及装置 - Google Patents
关键词提取的方法及装置 Download PDFInfo
- Publication number
- CN105740229B CN105740229B CN201610051994.9A CN201610051994A CN105740229B CN 105740229 B CN105740229 B CN 105740229B CN 201610051994 A CN201610051994 A CN 201610051994A CN 105740229 B CN105740229 B CN 105740229B
- Authority
- CN
- China
- Prior art keywords
- word
- factor
- factormap
- keyword
- influence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种关键词提取的方法及装置,该方法使用词的位置因子以及词的TextRank得分计算词的影响因子,选取影响因子最大的预设个数词作为文本的关键词,具有较好的准确性,并且计算过程基于单个文本不受其他文本的影响因此提取的结果具有一致性。
Description
技术领域
本发明涉及关键词提取技术领域,具体的涉及一种关键词提取的方法及其装置。
背景技术
关键词是文本信息的抽象表示,能够反映文本的主要内容,是文本索引及信息检索的基本单位。当前互联网技术飞速发展,每天都有海量信息产生,这些信息中很大一部分以文本的形式存在,使用关键词对文本进行说明可实现对文本的有效组织,对信息的高效检索以及推荐等应用有很大价值。面对海量的文本数据,人工提取关键词存在各种困难。
目前常用的一种自动提取关键词的方法是对文本进行分词,计算出所有词语的TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)值并进行排序,获取TF-IDF值最大的预设数值个词语作为文本的关键字。现有的使用TF-IDF值最大的预设数值个词语作为文本关键字的方法有以下缺点:
1、依赖文本集合其他文本的内容,当其他文本与当前文本的关联度较小时,关键词提取的准确性较低并且随着文本集合的改变会导致提取结果的不稳定;
2、只使用了词的统计信息未考虑词的空间位置信息,对词的重要程度的贡献也会影响提取的准确性。
发明内容
本发明的目的在于提供一种关键词提取的方法及装置,该发明解决了仅通过TF-IDF值并进行排序方法进行关键词提取时容易出现的提取准确性、稳定性结果降低的技术问题。
本发明的一方面提供了一种关键词提取的方法,包括以下步骤:
步骤S100:对待处理文本进行分词并标注词性,过滤不符合词性要求的词,得到样本文本,计算样本文本中每个词的位置因子和TextRank得分;
步骤S200:将每个词的位置因子和TextRank得分的乘积作为该词的影响因子;
步骤S300:对每个词按照影响因子大小进行排序,并选取影响因子最大的预设个数词作为样本文本的关键词。
进一步地,位置因子的计算方法包括以下步骤:
步骤S110:初始化位置因子函数f和factorMap;
步骤S120:遍历样本文本的分词列表,对于第i个词w计算其位置因子值f(i),若w不存在于factorMap中,则将w加入factorMap并设置其值为f(i),若w存在于factorMap中,则更新factorMap(w)=factorMap(w)+f(i);
步骤S130:遍历样本文本的分词列表完毕后,输出所得factorMap,作为样本文本中每个词的位置因子。
进一步地,位置因子函数f为f(i)=(len+1-i)/len,其中len为过滤后的分词列表长度,i为样本文本分词列表中第i个词的位置数。
进一步地,步骤S300包括以下步骤:
步骤S310:将样本文本中每个词的影响因子按键值对形式存储为affectMap,对affectMap中的每个词按照影响因子值从大到小进行排序,得到关键词候选列表candidateList;
步骤S320:从candidateLis列表中选取前N个名词作为关键词并保存,N为预设的关键词个数。
进一步地,过滤步骤后保留名词、动词、形容词及副词词性的词。
本发明的另一方面还提供了一种如上述的关键词提取方法用装置,包括:分词过滤模块,用于对待处理文本进行分词并标注词性,过滤不符合词性要求的词,得到样本文本,计算样本文本中每个词的位置因子和TextRank得分;乘积模块,用于将每个词的位置因子和TextRank得分的乘积作为该词的影响因子;影响因子排序模块,用于对每个词按照影响因子大小进行排序,并选取影响因子最大的预设个数词作为样本文本的关键词。
进一步地,分词过滤模块中包括:
初始模块,用于初始化位置因子函数和factorMap;
遍历模块,用于遍历样本文本的分词列表,对于第i个词w计算其位置因子值f(i),若w不存在于factorMap中,则将w加入factorMap并设置其值为f(i),若w存在于factorMap中,则更新factorMap(w)=factorMap(w)+f(i);
位置因子模块,用于遍历样本文本的分词列表完毕后,输出所得factorMap,作为样本文本中每个词的位置因子。
进一步地,影响因子排序模块包括:排序模块,用于将样本文本中每个词的影响因子按键值对形式存储为affectMap,对affectMap中的每个词按照影响因子值从大到小进行排序,得到关键词候选列表candidateList;取词模块,用于从candidateLis列表中选取前N个名词作为关键词并保存,N为预设的关键词个数。
本发明的技术效果:
本发明提供的关键词提取方法,在现有TF-IDF关键词提取方法的基础上,使用词的位置信息以及词的TextRank得分计算词的影响因子,选取影响因子最大的预设个数词作为文本的关键词,从而避免了单纯使用TF-IDF关键词提取方法过于依赖文本集合其他文本的内容的问题,从而提高了关键词提取的准确性,并且整个计算过程基于单个文本可不受其他文本的影响因此提取了所得提取结果的一致性。
本发明提供的关键词提取装置
具体请参考根据本发明的关键词提取的方法及装置提出的各种实施例的如下描述,将使得本发明的上述和其他方面显而易见。
附图说明
图1是本发明提供的关键词提取的方法优选实施例的流程示意图;
图2是本发明提供的关键词提取的装置的优选实施例的结构示意图。
具体实施方式
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
参见图1,本发明提供的关键词提取的方法,包括以下步骤:
步骤S100:对待处理文本进行分词并标注词性,过滤不符合词性要求的词,得到样本文本,计算样本文本中每个词的位置因子和TextRank得分;
步骤S200:将每个词的位置因子和TextRank得分的乘积作为该词的影响因子;
步骤S300:对每个词按照影响因子大小进行排序,并选取影响因子最大的预设个数词作为样本文本的关键词。
采用上述方法,通过计算除去不符合要求的词所得样本文本中各词的位置因子,而位置因子表示词在文本中的空间分布重要性,数值越大越重要。从而将被现有TF-IDF关键词提取方法忽略的词所处位置因子考虑进入,能有效的避免了只使用了词的统计信息未考虑词的空间位置信息,对词的重要程度的贡献也会影响提取的准确性。TextRank得分表示词的权重。词的影响因子表示词对文本的重要程度,影响因子值越大,则说明该词越重要。
对文本进行分词,按常规方法进行即可。读入文本,对待处理文本进行分词并标注词性。例如可以采用N-最短路径进行分词,采用隐马尔科夫模型进行词性标注。
对分词列表进行过滤,可以根据所需提取的关键词的词性进行保留,优选的,只保留名词、动词、形容词及副词,从而提高提取关键词的准确性。分词过滤后的文本为样本文本,该样本文本为分词列表。
该方法中所用TextRank得分可以按现有方法进行,如下:
样本文本中每个词的TextRank得分集合为scoreMap。TextRank计算方法使用公式为:
式(1)
其中,d为阻尼系数,Vi表示词图中的第i个词,wji表示词图中的第i个词与其输入中的第j个词之间的权重,In(Vi)表示词图中第i个词的输入,Out(Vj)表示词图中第j个词的输出。具体的详细计算过程可参见Rada Mihalcea and Paul Tarau的论文《TextRank:Bringing Order into Texts》(Unt Scholarly Works,2004:404-411),这里不做详述。在实施中,可以采用窗口大小为5来计算TextRank得分,词之间的权重取1,即对于任意词i和词j取其wji=1。
对于位置因子的计算可以根据现有方法进行,所得每个词的位置因子值集合为factorMap。优选的,位置因子的计算方法包括以下步骤:
步骤S110:初始化位置因子函数f和factorMap;
步骤S120:遍历样本文本的分词列表,对于第i个词w计算其位置因子值f(i),若w不存在于factorMap中,则将w加入factorMap并设置其值为f(i),若w存在于factorMap中,则更新factorMap(w)=factorMap(w)+f(i);
步骤S130:遍历样本文本的分词列表完毕后,输出所得factorMap,作为样本文本中每个词的位置因子。
采用上述提取方法基于以下假设:词在文本中出现的次数越多位置因子值越大。将词在文本不同位置的位置因子函数值的累加值作为位置因子值,综合考虑了词在文本中的空间分布,可体现词的空间重要程度。从而对现有提取方法欠缺考虑的地方进行补充。
factorMap以键值对形式存储,其中键为样本文本中的词,值为该词对应的位置因子值。。
优选的,本发明基于在文档中位置越靠前的词越重要的假设,位置因子函数f采用f(i)=(len+1-i)/len的形式,其中len为过滤后的分词列表长度,i为样本文本分词列表中第i个词的位置数。按此假设,是出于通常情况下,一篇文章中的关键词不但会反复出现,还会多在文章中开宗明义地出现。因而如此设置,即可通过计算公式获取每个词较准确的位置因子,从而避免了位置因子对所得提取结果的不良干扰。
scoreMap以键值对(键值对)的形式存储,其中键为词,值为词的TextRank得分。
步骤S200中基于factorMap和scoreMap计算词的关联因子,计算得到词的影响因子集合affectMap。遍历scoreMap,将每个词w加入affectMap并设置其值为scoreMap(w)*factorMap(w)。采用位置因子和TextRank得分的乘积作为每个词的影响因子,能避免现有的关键词提取方法过于依赖文本集合中的其他文本内容,当其他文本与当前文本的关联度较小时,关键词提取的准确性较低并且随着文本集合的改变会导致提取结果的不稳定的问题。
对于每个词的影响因子的排序比较,可以按常规方法进行,优选的,步骤S300包括以下步骤:
步骤S310:将样本文本中每个词的影响因子按键值对形式存储为affectMap,对affectMap中的每个词按照影响因子值从大到小进行排序,得到关键词候选列表candidateList;
步骤S320:从candidateLis列表选取前N个名词作为关键词并保存,N为预设的关键词个数。
1、本发明提供的方法在关键词的提取中综合考虑了词的位置信息(位置因子)和权重(TextRank得分),提高了对关键词的提取准确性;
2、本发明提供的方法计算过程基于单个文本进行,不受其他文本内容的影响,提取结果具有一致性,可实现对同一文本每次提取的结果均相同。
参见图2,本发明另一方面还提供了一种使用上述方法的关键词提取装置,包括:
分词过滤模块100,用于对待处理文本进行分词并标注词性,过滤不符合词性要求的词,得到样本文本,计算样本文本中每个词的位置因子和TextRank得分;
乘积模块200,用于将每个词的位置因子和TextRank得分的乘积作为该词的影响因子;
影响因子排序模块300,用于对每个词按照影响因子大小进行排序,并选取影响因子最大的预设个数词作为样本文本的关键词。
采用该装置通过计算除去不符合要求的词所得样本文本中各词的位置因子,而位置因子表示词在文本中的空间分布重要性,数值越大越重要。从而将被现有TF-IDF关键词提取方法忽略的词所处位置因子考虑进入,能有效的避免了只使用了词的统计信息未考虑词的空间位置信息,对词的重要程度的贡献也会影响提取的准确性。
分词过滤模块中包括:
初始模块,用于初始化位置因子函数和factorMap;
遍历模块,用于遍历样本文本的分词列表,对于第i个词w计算其位置因子值f(i),若w不存在于factorMap中,则将w加入factorMap并设置其值为f(i),若w存在于factorMap中,则更新factorMap(w)=factorMap(w)+f(i);
位置因子模块,用于遍历样本文本的分词列表完毕后,输出所得factorMap,作为样本文本中每个词的位置因子。
优选的,影响因子排序模块包括:
排序模块,用于将样本文本中每个词的影响因子按键值对形式存储为affectMap,对affectMap中的每个词按照影响因子值从大到小进行排序,得到关键词候选列表candidateList;
取词模块,用于从candidateLis列表中选取前N个名词作为关键词并保存,N为预设的关键词个数。
按此进行排序,能快速获取具有最高影响因子的待提取关键词。
本领域技术人员将清楚本发明的范围不限制于以上讨论的示例,有可能对其进行若干改变和修改,而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明,但这样的说明和描述仅是说明或示意性的,而非限制性的。本发明并不限于所公开的实施例。
通过对附图,说明书和权利要求书的研究,在实施本发明时本领域技术人员可以理解和实现所公开的实施例的变形。在权利要求书中,术语“包括”不排除其他步骤或元素,而不定冠词“一个”或“一种”不排除多个。在彼此不同的从属权利要求中引用的某些措施的事实不意味着这些措施的组合不能被有利地使用。权利要求书中的任何参考标记不构成对本发明的范围的限制。
Claims (6)
1.一种关键词提取的方法,其特征在于,包括以下步骤:
步骤S100:对待处理文本进行分词并标注词性,过滤不符合词性要求的词,得到样本文本,计算所述样本文本中每个词的位置因子和TextRank得分;
步骤S200:将每个词的所述位置因子和所述TextRank得分的乘积作为该词的影响因子;
步骤S300:对每个词按照所述影响因子大小进行排序,并选取所述影响因子最大的预设个数词作为样本文本的关键词;
所述位置因子的计算方法包括以下步骤:
步骤S110:初始化位置因子函数f和factorMap;
步骤S120:遍历所述样本文本的分词列表,对于第i个词w计算其位置因子值f(i),若w不存在于factorMap中,则将w加入factorMap并设置其值为f(i),若w存在于factorMap中,则更新factorMap(w)=factorMap(w)+f(i);
步骤S130:遍历所述样本文本的分词列表完毕后,输出所得factorMap,作为样本文本中每个词的位置因子。
2.根据权利要求1所述的关键词提取的方法,其特征在于,所述位置因子函数f为f(i)=(len+1-i)/len,其中len为过滤后的分词列表长度,i为所述样本文本分词列表中第i个词的位置数。
3.根据权利要求2所述的关键词提取的方法,其特征在于,所述步骤S300包括以下步骤:
步骤S310:将所述样本文本中每个词的影响因子按键值对形式存储为affectMap,对所述affectMap中的每个词按照影响因子值从大到小进行排序,得到关键词候选列表candidateList;
步骤S320:从所述candidateLis列表中选取前N个名词作为关键词并保存,N为预设的关键词个数。
4.根据权利要求3所述的关键词提取的方法,其特征在于,所述过滤步骤后保留名词、动词、形容词及副词词性的词。
5.一种如权利要求1~4中任一项所述的关键词提取方法用装置,其特征在于,包括:
分词过滤模块,用于对待处理文本进行分词并标注词性,过滤不符合词性要求的词,得到样本文本,计算所述样本文本中每个词的位置因子和TextRank得分;
乘积模块,用于将每个词的所述位置因子和所述TextRank得分的乘积作为该词的影响因子;
影响因子排序模块,用于对每个词按照所述影响因子大小进行排序,并选取所述影响因子最大的预设个数词作为样本文本的关键词;
所述分词过滤模块中包括:
初始模块,用于初始化位置因子函数和factorMap;
遍历模块,用于遍历所述样本文本的分词列表,对于第i个词w计算其位置因子值f(i),若w不存在于factorMap中,则将w加入factorMap并设置其值为f(i),若w存在于factorMap中,则更新factorMap(w)=factorMap(w)+f(i);
位置因子模块,用于遍历所述样本文本的分词列表完毕后,输出所得factorMap,作为样本文本中每个词的位置因子。
6.根据权利要求5所述的关键词提取方法用装置,其特征在于,所述影响因子排序模块包括:
排序模块,用于将所述样本文本中每个词的影响因子按键值对形式存储为affectMap,对所述affectMap中的每个词按照影响因子值从大到小进行排序,得到关键词候选列表candidateList;
取词模块,用于从所述candidateLis列表中选取前N个名词作为关键词并保存,N为预设的关键词个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610051994.9A CN105740229B (zh) | 2016-01-26 | 2016-01-26 | 关键词提取的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610051994.9A CN105740229B (zh) | 2016-01-26 | 2016-01-26 | 关键词提取的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105740229A CN105740229A (zh) | 2016-07-06 |
CN105740229B true CN105740229B (zh) | 2018-05-11 |
Family
ID=56247368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610051994.9A Active CN105740229B (zh) | 2016-01-26 | 2016-01-26 | 关键词提取的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740229B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372064B (zh) * | 2016-11-18 | 2019-04-19 | 北京工业大学 | 一种文本挖掘的特征词权重计算方法 |
CN106970910B (zh) * | 2017-03-31 | 2020-03-27 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN107145476A (zh) * | 2017-05-23 | 2017-09-08 | 福建师范大学 | 一种基于改进tf‑idf关键词提取算法 |
CN107861949B (zh) * | 2017-11-22 | 2020-11-20 | 珠海市君天电子科技有限公司 | 文本关键词的提取方法、装置及电子设备 |
CN108549626B (zh) * | 2018-03-02 | 2020-11-20 | 广东技术师范学院 | 一种慕课的关键词提取方法 |
CN108376134A (zh) * | 2018-04-19 | 2018-08-07 | 安徽商贸职业技术学院 | 一种基于位置序统计的电商在线评论文本词语分析方法 |
CN110633464A (zh) * | 2018-06-22 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种语义识别方法、装置、介质及电子设备 |
CN109493978B (zh) * | 2018-11-12 | 2021-05-25 | 北京懿医云科技有限公司 | 疾病研究热点挖掘方法及装置、存储介质、电子设备 |
CN109815400A (zh) * | 2019-01-23 | 2019-05-28 | 四川易诚智讯科技有限公司 | 基于长文本的人物兴趣提取方法 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
CN113641918B (zh) * | 2021-08-16 | 2022-07-19 | 江苏云居检测技术有限公司 | 一种基于大数据的区域空气环境质量监测系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
JP2015132899A (ja) * | 2014-01-09 | 2015-07-23 | 日本放送協会 | 重要語抽出装置、及びプログラム |
-
2016
- 2016-01-26 CN CN201610051994.9A patent/CN105740229B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
JP2015132899A (ja) * | 2014-01-09 | 2015-07-23 | 日本放送協会 | 重要語抽出装置、及びプログラム |
CN104298746A (zh) * | 2014-10-10 | 2015-01-21 | 北京大学 | 一种基于短语网络图排序的领域文献关键词提取方法 |
Non-Patent Citations (2)
Title |
---|
中文文本自动标注技术研究及其应用;南江霞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815(第08期);正文第35页第4.3节,第36页第4.3.1节,第38-39页第4.4节 * |
词语位置加权TextRank的关键词抽取研究;夏天;《现代图书情报技术》;20130930;第29卷(第9期);30-34 * |
Also Published As
Publication number | Publication date |
---|---|
CN105740229A (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740229B (zh) | 关键词提取的方法及装置 | |
CN108287922B (zh) | 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN106055538B (zh) | 主题模型和语义分析相结合的文本标签自动抽取方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
Froud et al. | Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering | |
CN108268668B (zh) | 一种基于话题多样性的文本数据观点摘要挖掘方法 | |
CN106484664A (zh) | 一种短文本间相似度计算方法 | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN102054029A (zh) | 一种基于社会网络和人名上下文的人物信息消歧处理方法 | |
Gupta et al. | Text summarization of Hindi documents using rule based approach | |
CN105224520B (zh) | 一种中文专利文献术语自动识别方法 | |
US20110213763A1 (en) | Web content mining of pair-based data | |
CN110188349A (zh) | 一种基于抽取式多文档摘要方法的自动化写作方法 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN106569996B (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN105989058A (zh) | 一种汉语新闻摘要生成系统及方法 | |
CN106980620A (zh) | 一种对中文字串进行匹配的方法及装置 | |
CN106294358A (zh) | 一种信息的检索方法及系统 | |
CN105488098A (zh) | 一种基于领域差异性的新词提取方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN106776572A (zh) | 一种人称识别方法 | |
CN108038204A (zh) | 针对社交媒体的观点检索系统及方法 | |
CN114138969A (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |