CN102682049A - 一种文本的候选关键词的提取方法 - Google Patents

一种文本的候选关键词的提取方法 Download PDF

Info

Publication number
CN102682049A
CN102682049A CN201110337333XA CN201110337333A CN102682049A CN 102682049 A CN102682049 A CN 102682049A CN 201110337333X A CN201110337333X A CN 201110337333XA CN 201110337333 A CN201110337333 A CN 201110337333A CN 102682049 A CN102682049 A CN 102682049A
Authority
CN
China
Prior art keywords
text
candidate keywords
template
natural
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110337333XA
Other languages
English (en)
Other versions
CN102682049B (zh
Inventor
韩建波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN201110337333.XA priority Critical patent/CN102682049B/zh
Publication of CN102682049A publication Critical patent/CN102682049A/zh
Application granted granted Critical
Publication of CN102682049B publication Critical patent/CN102682049B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本的候选关键词的提取方法,给每个自然词确定对应的词项,并存储到自然词数据库中,设置多个候选关键词模板,存入模板库,根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项,从模板库中按顺序抽取候选关键词模板,按照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续的自然词中对应当前文约束项序列的自然词组合作为候选关键词,直到所有的候选关键词模板完成比对。采用了本发明的技术方案,能够提高文本的标引质量,从而提高文本检索的查准率。

Description

一种文本的候选关键词的提取方法
技术领域
本发明涉及文本检索技术领域,尤其涉及一种文本的候选关键词的提取方法。
背景技术
随着信息社会的发展,人们面对的是海量的信息源,其中一种重要的信息源就是文本信息。如何在浩如烟海的文本信息中,获取自己需要的文本,是人们工作学习的首要问题。
目前多是对每一个文本给出相关的关键词,人们通过关键词的检索来获取自己需要的文本。如何给每个文本给出合适的关键词,是提高文本查全率和查准率的重要环节。
在利用计算机标引文本时,目前都是采用文本自身的词汇作为关键词抽取出来,具体步骤如下:
1、对预处理的文本进行词法分析。例如,预处理文本为“据悉2008年北京奥运会将于8月8日开幕。”
词法分析之后的结果就是:据悉/v 2008年/m 北京/ns 奥运会/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj。
2、提取候选关键词
根据词性和词形等约束,来提取候选关键词,并记录用于计算权重的信息,比如候选关键词出现的位置信息。
如上例,如果存在约束1:词性要求是名词(n)、动词(v)和命名实体(nr,ns,nt,nz);约束2:要求词语不能是停用词。
则根据约束1,可提取“据悉/v、 北京/ns、 奥运会/n、 开幕/v”等词;
根据约束2,可删除“据悉/v”,(本处假设“据悉”为停用词)。
3、统计候选关键词信息并计算权重。统计第2步处理的结果,根据相关信息进行计算权重。相关信息一般指词性、词形、词位、词长等元素,带入一定的公式中计算。
4、选择关键词。将第3步的处理结果进行降序排列,根据一定的选择策略来选择关键词。比较简单的选择策略为提取排完序的候选关键词序列的前几个词语作为关键词。
以上技术方案存在的问题是:获得的关键词都是含义简单的单词,通用性较强,难以深入地反映文本的真实意义,因此检索出来的文本针对性不够,准确性不高。
发明内容
本发明的目的在于提出一种文本的候选关键词的提取方法,能够提高文本的标引质量,从而提高文本检索的查准率。
为达此目的,本发明采用以下技术方案:
一种文本的候选关键词的提取方法,包括以下步骤:
A、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中;
B、设置不少于1个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括不少于2个约束项,每个约束项包括一个自然词字段和一个预定的词项;
C、根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项;
D、从模板库中按顺序抽取1个候选关键词模板;
E、按照所述文本的自然词的顺序,将所述候选关键词模板与所述文本全部自然词逐个进行比对,如果连续的自然词都满足所述候选关键词模板中的约束项的词项要求,则将所述连续的自然词中对应所述候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为所述文本的候选关键词;
F、返回步骤D,直到所有的候选关键词模板完成比对。
所述候选关键词模板还包括模板项序列的权值。
采用了本发明的技术方案,由于采用结构合理的、字数较多的短句作为文本的关键词,因此该关键词能够更专一的标引文本,从而利用该关键词进行文本检索时,能够准确地检索到需要的文本。
附图说明
图1是本发明具体实施方式中文本的候选关键词的提取流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1是本发明具体实施方式中文本的候选关键词的提取流程图。如图1所示,该候选关键词的提取流程包括以下步骤:
步骤101、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中。
例如“据悉/v 2008年/m 北京/ns 奥运会/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj”中,各个自然词后面跟随的字母就代表某个词项,这里的词项可以是词性、词形、命名实体、语义,等等。
步骤102、设置多个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列及其权值,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括多个约束项,每个约束项包括一个自然词字段和一个预定的词项。
例如,模板“(*,m)(*,ns) (奥运会,*) (*,d):0.1”,模板项序列为“(*,m)(*,ns) (奥运会,*) (*,d)”,其中(*,ns) 是词性约束,(奥运会,*)是词形约束,模板权重为“0.1”。
其中模板项序列由关键词的上文约束项、当前文约束项序列和下文约束项组成,还以上面大模板为例,上文约束项为“(*,m)”,它不属于候选关键词内容,下文约束项为“(*,d)”,它也不属于候选关键词内容,当前文约束项序列为“(*,ns) (奥运会,*)”,其内容为候选关键词内容。
步骤103、根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项。
例如文本“据悉2008年北京奥运会将于8月8日开幕。”进行词法分析后,结果为“据悉/v 2008年/m 北京/ns 奥运会/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj”。
步骤104、从模板库中按顺序抽取1个候选关键词模板。例如候选关键词模板“(*,m)(*,ns)(奥运会,*)(*,d):0.1”。
步骤105、按照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续的自然词中对应候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为文本的候选关键词。
例如,针对“据悉/v 2008年/m 北京/ns 奥运会/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj”这个文本,采用候选关键词模板“(*,m)(*,ns)(奥运会,*)(*,d):0.1”进行比对,首先用约束项“(*,m)”在文本中逐个自然词进行比对,找到“2008年/m”匹配,再将后面的约束项“(*,ns)(奥运会,*)(*,d)”与文本中“2008年/m”后面的连续自然词逐个进行比对,确定“北京/ns 奥运会/n 将/d”与约束项“(*,ns)(奥运会,*)(*,d)”都能够匹配,因此将文本中“2008年/m 北京/ns 奥运会/n 将/d”的上文约束项“2008年/m”和下文约束项“将/d”删除,抽取对应当前文约束项序列“(*,ns)(奥运会,*)”的“北京/ns 奥运会/n”中的“北京奥运会”作为文本的候选关键词。
返回步骤104,按顺序抽取下1个候选关键词模板,直到所有的候选关键词模板完成比对。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (2)

1.一种文本的候选关键词的提取方法,其特征在于,包括以下步骤:
A、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中;
B、设置不少于1个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括不少于2个约束项,每个约束项包括一个自然词字段和一个预定的词项;
C、根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项;
D、从模板库中按顺序抽取1个候选关键词模板;
E、按照所述文本的自然词的顺序,将所述候选关键词模板与所述文本全部自然词逐个进行比对,如果连续的自然词都满足所述候选关键词模板中的约束项的词项要求,则将所述连续的自然词中对应所述候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为所述文本的候选关键词;
返回步骤D,直到所有的候选关键词模板完成比对。
2.根据权利要求1所述的一种文本的候选关键词的提取方法,其特征在于,所述候选关键词模板还包括模板项序列的权值。
CN201110337333.XA 2011-10-31 2011-10-31 一种文本的候选关键词的提取方法 Expired - Fee Related CN102682049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110337333.XA CN102682049B (zh) 2011-10-31 2011-10-31 一种文本的候选关键词的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110337333.XA CN102682049B (zh) 2011-10-31 2011-10-31 一种文本的候选关键词的提取方法

Publications (2)

Publication Number Publication Date
CN102682049A true CN102682049A (zh) 2012-09-19
CN102682049B CN102682049B (zh) 2014-04-23

Family

ID=46813994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110337333.XA Expired - Fee Related CN102682049B (zh) 2011-10-31 2011-10-31 一种文本的候选关键词的提取方法

Country Status (1)

Country Link
CN (1) CN102682049B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049498A1 (en) * 2002-07-03 2004-03-11 Dehlinger Peter J. Text-classification code, system and method
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN101114281A (zh) * 2007-08-30 2008-01-30 上海交通大学 开放式文档同构引擎系统
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049498A1 (en) * 2002-07-03 2004-03-11 Dehlinger Peter J. Text-classification code, system and method
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN101114281A (zh) * 2007-08-30 2008-01-30 上海交通大学 开放式文档同构引擎系统
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与系统

Also Published As

Publication number Publication date
CN102682049B (zh) 2014-04-23

Similar Documents

Publication Publication Date Title
CN103365925B (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
CN103399901B (zh) 一种关键词抽取方法
Benajiba et al. ANERsys 2.0: Conquering the NER task for the Arabic language by combining the maximum entropy with POS-tag information.
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN104991943A (zh) 音乐搜索方法及装置
CN103077164A (zh) 文本分析方法及文本分析器
CN103309852A (zh) 一种基于统计和规则的特定领域的合成词发现方法
CN104199965A (zh) 一种语义信息检索方法
CN103902525B (zh) 维吾尔语词性标注方法
CN103150356B (zh) 一种应用的泛需求检索方法及系统
CN102214166A (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN102004775A (zh) 一种基于智能搜索的福富企业搜索引擎技术
CN101894143A (zh) 一种联邦检索及检索结果集成展现方法及系统
Al-Kabi et al. Benchmarking and assessing the performance of Arabic stemmers
CN105989058A (zh) 一种汉语新闻摘要生成系统及方法
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
CN110175585A (zh) 一种简答题自动批改系统及方法
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
CN102682049B (zh) 一种文本的候选关键词的提取方法
Saharia et al. A suffix-based noun and verb classifier for an inflectional language
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN103838794A (zh) 一种适用于专业搜索引擎的分词方法
Wang et al. Nlqxform: A language model-based question to sparql transformer
CN105608136A (zh) 一种基于汉语复句的语义相关度计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHANGHAI TIANMAI JUYUAN CULTURE AND MEDIA CO., LTD

Free format text: FORMER OWNER: TVMINING (BEIJING) MEDIA TECHNOLOGY CO., LTD.

Effective date: 20141226

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100007 DONGCHENG, BEIJING TO: 200436 ZHABEI, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20141226

Address after: 200436, No. 166, No. three, 6 Shanghai Road, Zhabei District, China

Patentee after: SHANGHAI TIANMAI JUYUAN CULTURE MEDIA CO.,LTD.

Address before: 100007 Beijing City, Dongcheng District Andingmen East Street, No. 28, building E, room 808

Patentee before: TVMINING (BEIJING) MEDIA TECHNOLOGY Co.,Ltd.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150928

Address after: 100007 Beijing City, Dongcheng District Andingmen East Street, No. 28, building E, room 808

Patentee after: TVMINING (BEIJING) MEDIA TECHNOLOGY Co.,Ltd.

Address before: 200436, No. 166, No. three, 6 Shanghai Road, Zhabei District, China

Patentee before: SHANGHAI TIANMAI JUYUAN CULTURE MEDIA CO.,LTD.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method for extracting candidate keywords of text

Effective date of registration: 20151014

Granted publication date: 20140423

Pledgee: Beijing Guohua financing Company limited by guarantee

Pledgor: TVMINING (BEIJING) MEDIA TECHNOLOGY Co.,Ltd.

Registration number: 2015990000797

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140423

Termination date: 20211031