CN102262625B - 网页关键词提取方法及装置 - Google Patents

网页关键词提取方法及装置 Download PDF

Info

Publication number
CN102262625B
CN102262625B CN200910261694.3A CN200910261694A CN102262625B CN 102262625 B CN102262625 B CN 102262625B CN 200910261694 A CN200910261694 A CN 200910261694A CN 102262625 B CN102262625 B CN 102262625B
Authority
CN
China
Prior art keywords
webpage
text
notional word
score
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910261694.3A
Other languages
English (en)
Other versions
CN102262625A (zh
Inventor
陆元飞
王婵娟
孙斌
刘刚
朱汝维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN200910261694.3A priority Critical patent/CN102262625B/zh
Publication of CN102262625A publication Critical patent/CN102262625A/zh
Application granted granted Critical
Publication of CN102262625B publication Critical patent/CN102262625B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种网页关键词提取方法及装置,涉及关键词提取领域,提高了网页关键词提取的准确率和召回率。本发明包括:获取网页的种子关键词及候选关键词;获取网页的种子关键词及候选关键词;统计所述候选关键词与所述种子关键词同句出现的次数;根据所述次数对所述候选关键词进行打分,得到相应的得分;根据所述得分对所述候选关键词进行排序;按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。本发明主要用于网页关键词的提取过程中。

Description

网页关键词提取方法及装置
技术领域
本发明涉及互联网领域,尤其涉及一种网页关键词提取方法及装置。
背景技术
网页关键词的提取是海量数据背景下的互联网应用中的一个热点问题。为网页提取适当的关键词,可以用以提示和概括网页的内容。对广告商来说,网页的关键词有着非常重要的商业价值。广告商可以根据一个网页的关键词,在该网页上投放适当的商业广告。
目前已存在许多网页关键词提取方法,这些方法的着眼点大多为词语的出现频率、词语在全文所处的区域、词语本身的语义特征。采用的方法大约有以下几类:统计学的方法:如TF,TFIDF方法;信息论的方法,如基于最大熵模型自动提取关键词;机器学习的方法,如基于决策树或基于朴素贝叶斯;自然语言处理的方法:如基于词的语义相似性度量。这些方法根据应用对象的不同,有不同的效果。
在实现上述网页关键词提取的过程中,发明人发现现有技术中至少存在如下问题:已有的网页关键词的提取,是对网页正文的候选关键词进行评价,并经排序以后,提取前N个词作为网页的关键词,但这N个关键词中,并非所有的词都是真正与正文主题有关的关键词,而没被提取出的候选关键词中,却仍然存在一些与正文主题很相关的词,使得网页关键词提取的准确率和召回率都存在缺陷。
发明内容
本发明的实施例提供一种网页关键词提取方法及装置,以提高网页关键词提取的准确率和召回率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种网页关键词提取方法,包括:
获取网页的种子关键词及候选关键词;
统计所述候选关键词与所述种子关键词同句出现的次数;
根据所述次数对所述候选关键词进行打分,得到相应的得分;
根据所述得分对所述候选关键词进行排序;
按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。
一种网页关键词提取装置,包括:
第一获取单元,用于获取网页的种子关键词;
第二获取单元,用于获取所述网页的候选关键词;
统计单元,用于统计所述候选关键词与所述种子关键词同句出现的次数;
打分单元,用于根据所述统计单元得到的次数对所述候选关键词进行打分,得到相应的得分;
排序单元,用于根据所述打分单元得到的得分对所述候选关键词进行排序;
选取单元,用于按照所述得分从高到低的顺序从所述第二获取单元获取的候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述第一获取单元获取的种子关键词也作为所述网页的关键词。
本发明技术方案中,首选获取网页的种子关键词和候选关键词,根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词;与现有技术相比,本发明技术方案中,首选获取所述网页的种子关键词并将其作为网页的关键词,所述种子关键词是与网页的正文最相关的实词;并且根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,有效的将不必要的候选关键词作为所述网页的关键词,提高了网页关键词提取的准确率,并且将与网页正文主题最相关的关键词也通过所述种子关键词获取,也提高了网页关键词的召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1网页关键词提取方法的流程图;
图2为本发明实施例2网页关键词提取方法的流程图;
图3为本发明实施例3一种网页关键词提取装置组成框图;
图4为本发明实施例3另一种网页关键词提取装置组成框图;
图5为本发明实施例3另一种网页关键词提取装置组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种网页关键词提取方法,如图1所示,该方法包括:
101、获取网页的种子关键词及候选关键词。
其中,所述获取网页的种子关键词可以采用以下方法,包括:第一种,根据用户的需求设置所述网页的种子关键词;第二种,从网页中获取所述网页的种子关键词。当从网页中获取所述网页的种子关键词时,可以采用但不局限于以下方法,当所述网页中存在正文的标题时,从所述正文的标题中获取所述网页的种子关键词;当所述网页中不存在正文的标题时,从所述正文的首段中获取所述网页的种子关键词;第三种,根据用户的需求设置所述网页的种子关键词,并结合从网页中获取所述网页的种子关键词。在具体实施本发明实施例时,可以根据具体的实施采用具体的方法,本发明实施例对此不进行限制。
所述获取页面的候选关键词可以采用以下方法,包括:从所述网页中提取正文,并对所述正文进行分词得到正文实词列表;对所述正文实词列表中的正文实词进行打分得到所述正文实词的得分,并按照所述得分对所述正文实词进行排序;按照所述得分从高到低的顺序从所述正文实词列表中选取预定数量的正文实词作为所述网页的候选关键词。
102、根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。
其中,根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词可以采用但不局限于如下方法,该方法包括:统计所述候选关键词与所述种子关键词同句出现的次数;根据所述次数对所述候选关键词进行打分,得到相应的得分;根据所述得分对所述候选关键词进行排序;按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词。
其中,由于在种子关键词出现时,若候选关键词与所述种子关键词同句出现,则表明该候选关键词是与网页主体内容相关的关键词,那么该候选关键词与所述种子关键词同句出现的频率越高,表明该候选关键词最有可能是与所述网页主体内容相关的关键词,可以考虑将该类词作为网页的关键词,以便提高关键词提取的召回率。
本发明实施例中,首选获取网页的种子关键词和候选关键词,根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词;与现有技术相比,本发明实施例中,首选获取所述网页的种子关键词并将其作为网页的关键词,所述种子关键词是与网页的正文最相关的实词;并且根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,有效的将不必要的候选关键词作为所述网页的关键词,提高了网页关键词提取的准确率,并且将与网页正文主题最相关的关键词也通过所述种子关键词获取,也提高了网页关键词的召回率。
实施例2
本发明实施例提供一种网页关键词提取方法,在实施本发明实施例时,首先需要获取网页的种子关键词,在获取所述网页的种子关键词时,可以采用以下方法,包括:根据用户的需求设置所述网页的种子关键词;和/或从网页中获取所述网页的种子关键词,本发明实施例具体按照从网页中获取所述网页的种子关键词为例,阐述网页关键词的提取方法,如图2所示,该方法包括:
201、从网页中获取所述网页的种子关键词。
其中,在选取网页的种子关键词时,为确保选取的种子关键词的准确率,当所述网页中存在正文的标题时,从所述网页正文的标题中获取所述网页的种子关键词;当所述网页中不存在正文的标题时,从所述网页正文的首段中获取所述网页的种子关键词。
当从所述网页正文的标题中获取所述网页的种子关键词具体包括:
从所述网页中提取正文的标题,并对所述标题进行分词,得到标题实词列表;对所述标题实词列表中的标题实词进行打分得到所述标题实词的得分,并按照所述得分对所述标题实词进行排序;按照所述得分从高到低的顺序从所述标题实词列表中选取预定数量的标题实词作为所述网页的种子关键词。其中,所述预定数量的标题实词在具体实施时可以根据用户的需求具体设定,本发明实施例对此不进行限制。其中,从网页中提取正文的标题的方法可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制;并且当从所述网页中提取网页正文的标题后,对所述正文的标题进行分词,并对所述获取的分词进行打分的方法,都可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制。
当所述网页中不存在正文的标题时,从所述网页正文的首段中获取所述网页的种子关键词包括:
从所述网页中提取正文的首段,并对所述首段进行分词,得到首段实词列表;对所述首段实词列表中的首段实词进行打分,得到所述首段实词的得分,并按照所述得分对所述首段实词进行排序;按照所述得分从高到低的顺序从所述首段实词列表中选取预定数量的首段实词作为所述网页的种子关键词。其中,所述预定数量的首段实词在具体实施时可以根据用户的需求具体设定,本发明实施例对此不进行限制。其中,从网页中提取正文的首段的方法可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制;并且当从所述网页中提取网页正文的首段后,对所述正文的首段进行分词,并对所述获取的分词进行打分的方法,都可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制。
202、从网页的正文中获取所述网页的候选关键词。
其中,所述从网页的正文中获取所述网页的候选关键词包括:从所述网页中提取正文,并对所述正文进行分词得到正文实词列表;对所述正文实词列表中的正文实词进行打分得到所述正文实词的得分,并按照所述得分对所述正文实词进行排序;按照所述得分从高到低的顺序从所述正文实词列表中选取预定数量的正文实词作为所述网页的候选关键词。其中,从网页中提取正文的方法可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制;并且当从所述网页中提取网页正文后,对所述正文进行分词,并对所述获取的分词进行打分的方法,都可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制。
203、统计所述候选关键词与所述种子关键词同时出现的次数。
其中,由于在种子关键词出现时,若候选关键词与所述种子关键词同句出现,则表明该候选关键词是与网页主体内容相关的关键词,那么该候选关键词与所述种子关键词同句出现的频率越高,表明该候选关键词最有可能是与所述网页主体内容相关的关键词,可以考虑将该类词作为网页的关键词,以便提高网页召回的准确率。
204、根据所述次数对所述候选关键词进行打分,得到所述候选关键词相应的得分。
其中,根据所述次数对所述候选关键词进行打分,可以采用现有技术中的任何打分方法,本发明实施例对此不进行限制。例如,可以采用线性模型打分(分数=频率),或者采用指数模型打分(分数=1g(频率)),也可以采用梯阶打分(分数=1(0<频率<2);分数=2(2<=频率<5);分数=5(5<=频率),可以根据应用场合不同具体调整)。
205、根据所述得分对所述候选关键词进行排序。
其中,所述根据得分对所述候选关键词进行排序,可以按照所述得分降序进行排序,也可以按照所述得分升序进行排序,本发明实施例对此不进行限制。
206、按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述从网页中获取所述网页的种子关键词也作为所述网页的关键词。
其中,所述预定数量的候选关键词在具体实施时可以根据用户的需求具体设定,本发明实施例对此不进行限制。
本发明实施例中步骤201和步骤202之间不存在先后顺序之分,只是为了描述的方便,将从网页中获取所述网页的种子关键词放在步骤201,将从网页的正文中获取所述网页的候选关键词放在步骤202;此处也可以将从网页中获取所述网页的种子关键词放在步骤202,将从网页的正文中获取所述网页的候选关键词放在步骤201,本发明实施例对此不进行限制。
本发明实施例中,首选获取网页的种子关键词和候选关键词,根据所述种子关键词统计所述候选关键词与所述种子关键词同时出现的次数,根据所述次数对所述获取的网页的候选关键词进行打分,并根据所述打分的得分对所述候选关键词进行排序,按照所述得分从高到低的顺序,从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词;与现有技术相比,本发明实施例中,首选获取所述网页的种子关键词并将其作为网页的关键词,所述种子关键词是与网页的正文最相关的实词;并且根据所述种子关键词从所述候选关键词中选取与所述种子关键词同时出现次数得分比较高的候选关键词,作为所述网页的关键词,有效的将不必要的候选关键词作为所述网页的关键词,提高了网页关键词提取的准确率,并且将与网页正文主题最相关的关键词也通过所述种子关键词获取,也提高了网页关键词的召回率。
并且,本发明实施例中,在网页的种子关键词和网页候选关键词的获取过程中,都可以采用现有技术中已有的关键词提取模型实现种子关键词以及网页的候选关键词的提取,从而实现对原有关键词提取模型的兼容。
进一步,由于本发明实施例中种子主体词的获取时灵活的,可以根据用户的需求具体设置,因此本发明实施例中的网页关键词的提取能够适应各种类型的网页。
实施例3
本发明实施例提供一种网页关键词提取装置,如图3所示,该装置包括:第一获取单元31、第二获取单元32和选取单元33。
第一获取单元31,用于获取网页的种子关键词;其中,所述获取网页的种子关键词可以采用以下如下方法,包括:第一种,根据用户的需求设置网页的种子关键词;第二种,从网页中获取所述网页的种子关键词;第三种,根据用户的需求设置所述网页的种子关键词,并结合从网页中获取所述网页的种子关键词。在具体实施本发明实施例时,可以根据具体的实施采用具体的方法,本发明实施例对此不进行限制。
第二获取单元32,用于获取所述网页的候选关键词;在获取了网页的种子关键词和网页的候选关键词后,选取单元33,用于根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。其中,所述选取单元33根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词可以采用但不局限于如下方法,该方法包括:通过所述种子关键词和所述候选关键词同句出现的次数的得分,从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词。
本发明实施例还提供一种网页关键词提取装置,如图4所示,该装置包括:第一获取单元31、第二获取单元32、统计单元33、打分单元34、排序单元35和选取单元36。
第一获取单元31,用于获取网页的种子关键词;第二获取单元32,用于获取所述网页的候选关键词;统计单元33,用于统计所述候选关键词与所述种子关键词同句出现的次数;打分单元34,用于根据所述统计单元33得到的次数对所述候选关键词进行打分,得到相应的得分;排序单元35,用于根据所述打分单元33得到的得分对所述候选关键词进行排序;选取单元36,用于按照所述得分从高到低的顺序从所述第二获取单元32获取的候选关键词中选取预定数量的候选关键词作为所述网页的关键词,将所述第一获取单元31获取的种子关键词也作为所述网页的关键词。
本发明技术方案中,首选获取网页的种子关键词和候选关键词,根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词;与现有技术相比,本发明技术方案中,首选获取所述网页的种子关键词并将其作为网页的关键词,所述种子关键词是与网页的正文最相关的实词;并且根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,有效的将不必要的候选关键词作为所述网页的关键词,提高了网页关键词提取的准确率,并且将与网页正文主题最相关的关键词也通过所述种子关键词获取,也提高了网页关键词的召回率。
其中,在一个实施例中,如图5所示,所述第一获取单元31可以包括:第一提取模块311、第一分词模块312、第一打分模块313、第一排序模块314和第一选取模块315。
所述第一获取单元31通过从网页获取所述网页的种子关键词时可以采用以下两种方法,具体为:第一种,当所述网页中存在正文的标题时,从所述正文的标题中获取所述网页的种子关键词;第二种,当所述网页中不存在正文的标题时,从所述正文的首段中获取所述网页的种子关键词。
若所述网页中存在正文的标题时,所述第一获取单元31通过从网页获取所述网页的种子关键词时,第一提取模块311,用于从所述网页中提取正文的标题;第一分词模块312,用于对所述第一提取模块311提取的标题进行分词得到标题实词列表;第一打分模块313,用于对所述第一分词模块312得到的标题实词列表中的标题实词进行打分得到所述标题实词的得分;第一排序模块314,用于按照所述得分对所述标题实词进行排序;第一选取模块315,用于按照所述得分从高到低的顺序从所述标题实词列表中选取预定数量的标题实词作为所述网页的种子关键词。其中,所述预定数量的标题实词在具体实施时可以根据用户的需求具体设定,本发明实施例对此不进行限制。其中,第一提取模块311从网页中提取正文的标题方法可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制;并且当从所述网页中提取网页正文的标题后,第一分词模块312对所述正文的标题进行分词,第一打分模块313对所述获取的分词进行打分的方法,都可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制。
在另一个实施例中,若所述网页中不存在正文的标题时,如图5所示,所述第一获取单元31可以包括:第二提取模块316、第二分词模块317、第二打分模块318、第二排序模块319和第二选取模块3110。第二获取单元31,用于从网页的首段获取所述网页的种子关键词时,第二提取模块316,用于从所述网页中提取正文的首段;所述第二分词模块317,用于对所述第二提取模块316提取的首段进行分词得到首段实词列表;第二打分模块318,用于对所述第二分词模块317得到的首段实词列表中的首段实词进行打分得到所述首段实词的得分;第二排序模块319,用于照所述得分对所述首段实词进行排序;第二选取模块3110,用于按照所述得分从高到低的顺序从所述首段实词列表中选取预定数量的首段实词作为所述网页的种子关键词。其中,所述预定数量的首段实词在具体实施时可以根据用户的需求具体设定,本发明实施例对此不进行限制。其中,所述第二提取模块316从网页中提取正文首段方法可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制;并且当从所述网页中提取网页正文首段后,所述第二分词模块317对所述正文首段进行分词,所述第二打分模块318对所述获取的分词进行打分的方法,都可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制。
在一个实施例中,如图5所示,所述第二获取单元32,可以包括:第三提取模块321、第三分词模块322、第三打分模块323、第三排序模块324和第三选取模块325。
所述第三获取单元32在获取所述网页的候选关键词时,第三提取模块321用于从所述网页中提取正文;第三分词模块322,用于对所述第三提取模块321提取的正文进行分词得到正文实词列表;第三打分模块323,用于对所述正文实词列表中的正文实词进行打分得到所述正文实词的得分;第三排序模块324,用于按照所述得分对所述正文实词进行排序;第三选取模块325,用于按照所述得分从高到低的顺序从所述正文实词列表中选取预定数量的正文实词作为所述网页的候选关键词。其中,所述预定数量的正文实词在具体实施时可以根据用户的需求具体设定,本发明实施例对此不进行限制。其中,第三提取模块321从网页中提取正文的方法可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制;并且当从所述网页中提取网页正文后,第三分词模块322对所述正文进行分词,第三打分模块323对所述获取的分词进行打分的方法,都可以采用现有技术中的任何一种方法,本发明实施例对此不进行限制。
本发明实施例中,首选获取网页的种子关键词和候选关键词,根据所述种子关键词统计所述候选关键词与所述种子关键词同时出现的次数,根据所述次数对所述获取的网页的候选关键词进行打分,并根据所述打分的得分对所述候选关键词排序,按照所述得分从高到低的顺序,从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词;与现有技术相比,本发明实施例中,首选获取所述网页的种子关键词并将其作为网页的关键词,所述种子关键词是与网页的正文最相关的实词;并且根据所述种子关键词从所述候选关键词中选取与所述种子关键词同时出现次数得分比较高的候选关键词,作为所述网页的关键词,有效的将不必要的候选关键词作为所述网页的关键词,提高了网页关键词提取的准确率,并且将与网页正文主题最相关的关键词也通过所述种子关键词获取,也提高了网页关键词提取的召回率。
并且,本发明实施例中,在网页的种子关键词和网页候选关键词的获取过程中,都可以采用现有技术中已有的关键词提取模型实现种子关键词以及网页的候选关键词的提取,从而实现对原有关键词提取模型的兼容。
进一步,由于本发明实施例中种子主体词的获取时灵活的,可以根据用户的需求具体设置,因此本发明实施例中的网页关键词的提取能够适应各种类型的网页。
在具体实施本发明的过程中,可以将本发明的技术方案作为单独技术方案实施,也可以将本发明技术方案作为现有网页关键词提取的加强技术方案实施,本发明对此不进行限制,只要涉及了本发明技术方案,都在本发明的保护范围之内。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (4)

1.一种网页关键词提取方法,其特征在于,包括:
从网页中获取所述网页的种子关键词,所述从网页中获取所述网页的种子关键词包括:当所述网页中存在正文的标题时,从所述正文的标题中获取所述网页的种子关键词;
所述从所述正文的标题中获取所述网页的种子关键词包括:从所述网页中提取正文的标题,并对所述标题进行分词,得到标题实词列表,对所述标题实词列表中的标题实词进行打分,得到所述标题实词的得分,并按照所述得分对所述标题实词进行排序,按照所述得分从高到低的顺序,从所述标题实词列表中选取预定数量的标题实词作为所述网页的种子关键词;
获取网页的候选关键词;
所述获取网页的候选关键词包括:从所述网页中提取正文,并对所述正文进行分词得到正文实词列表,对所述正文实词列表中的正文实词进行打分,得到所述正文实词的得分,并按照所述得分对所述正文实词进行排序,按照所述得分从高到低的顺序从所述正文实词列表中选取预定数量的正文实词作为所述网页的候选关键词;
统计所述候选关键词与所述种子关键词同句出现的次数;
根据所述次数对所述候选关键词进行打分,得到相应的得分;
根据所述得分对所述候选关键词进行排序;
按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。
2.一种网页关键词提取方法,其特征在于,包括:
从网页中获取所述网页的种子关键词,所述从网页中获取所述网页的种子关键词包括:当所述网页中不存在正文的标题时,从所述正文的首段中获取所述网页的种子关键词;
所述从所述正文的首段中获取所述网页的种子关键词包括:从所述网页中提取正文的首段,并对所述首段进行分词,得到首段实词列表,对所述首段实词列表中的首段实词进行打分,得到所述首段实词的得分,并按照所述得分对所述首段实词进行排序,按照所述得分从高到低的顺序从所述首段实词列表中选取预定数量的首段实词作为所述网页的种子关键词;
获取网页的候选关键词;
所述获取网页的候选关键词包括:从所述网页中提取正文,并对所述正文进行分词得到正文实词列表,对所述正文实词列表中的正文实词进行打分,得到所述正文实词的得分,并按照所述得分对所述正文实词进行排序,按照所述得分从高到低的顺序从所述正文实词列表中选取预定数量的正文实词作为所述网页的候选关键词;
统计所述候选关键词与所述种子关键词同句出现的次数;
根据所述次数对所述候选关键词进行打分,得到相应的得分;
根据所述得分对所述候选关键词进行排序;
按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。
3.一种网页关键词提取装置,其特征在于,包括:
第一获取单元,用于从网页中获取所述网页的种子关键词,具体用于:当所述网页中存在正文的标题时,从所述正文的标题中获取所述网页的种子关键词;
所述第一获取单元包括:
第一提取模块,用于当网页中存在正文的标题时,从所述网页中提取所述正文的标题;
第一分词模块,用于对所述第一提取模块提取的标题进行分词得到标题实词列表;
第一打分模块,用于对所述第一分词模块得到的标题实词列表中的标题实词进行打分,得到所述标题实词的得分;
第一排序模块,用于按照所述得分对所述标题实词进行排序;
第一选取模块,用于按照所述得分从高到低的顺序从所述标题实词列表中选取预定数量的标题实词作为所述网页的种子关键词;
第二获取单元,用于获取所述网页的候选关键词;
所述第二获取单元包括:
第三提取模块,用于从所述网页中提取正文;
第三分词模块,用于对所述第三提取模块提取的正文进行分词得到正文实词列表;
第三打分模块,用于对所述第三分词模块得到的正文实词列表中的正文实词进行打分,得到所述正文实词的得分;
第三排序模块,用于按照所述得分对所述正文实词进行排序;
第三选取模块,用于按照所述得分从高到低的顺序从所述正文实词列表中选取预定数量的正文实词作为所述网页的候选关键词;
统计单元,用于统计所述候选关键词与所述种子关键词同句出现的次数;
打分单元,用于根据所述统计单元得到的次数对所述候选关键词进行打分,得到相应的得分;
排序单元,用于根据所述打分单元得到的得分对所述候选关键词进行排序;
选取单元,用于按照所述得分从高到低的顺序从所述第二获取单元获取的候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述第一获取单元获取的种子关键词也作为所述网页的关键词。
4.一种网页关键词提取装置,其特征在于,包括:
第一获取单元,用于从网页中获取所述网页的种子关键词,具体用于:当所述网页中不存在正文的标题时,从所述正文的首段中获取所述网页的种子关键词;
所述第一获取单元包括:
第二提取模块,用于当所述网页中不存在正文的标题时,从所述网页中提取所述正文的首段;
第二分词模块,用于对所述第二提取模块提取的首段进行分词得到首段实词列表;
第二打分模块,用于对所述第二分词模块得到的首段实词列表中的首段实词进行打分,得到所述首段实词的得分;
第二排序模块,用于按照所述得分对所述首段实词进行排序;
第二选取模块,用于按照所述得分从高到低的顺序从所述首段实词列表中选取预定数量的首段实词作为所述网页的种子关键词;
第二获取单元,用于获取所述网页的候选关键词;
所述第二获取单元包括:
第三提取模块,用于从所述网页中提取正文;
第三分词模块,用于对所述第三提取模块提取的正文进行分词得到正文实词列表;
第三打分模块,用于对所述第三分词模块得到的正文实词列表中的正文实词进行打分,得到所述正文实词的得分;
第三排序模块,用于按照所述得分对所述正文实词进行排序;
第三选取模块,用于按照所述得分从高到低的顺序从所述正文实词列表中选取预定数量的正文实词作为所述网页的候选关键词;
统计单元,用于统计所述候选关键词与所述种子关键词同句出现的次数;
打分单元,用于根据所述统计单元得到的次数对所述候选关键词进行打分,得到相应的得分;
排序单元,用于根据所述打分单元得到的得分对所述候选关键词进行排序;
选取单元,用于按照所述得分从高到低的顺序从所述第二获取单元获取的候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述第一获取单元获取的种子关键词也作为所述网页的关键词。
CN200910261694.3A 2009-12-24 2009-12-24 网页关键词提取方法及装置 Expired - Fee Related CN102262625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910261694.3A CN102262625B (zh) 2009-12-24 2009-12-24 网页关键词提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910261694.3A CN102262625B (zh) 2009-12-24 2009-12-24 网页关键词提取方法及装置

Publications (2)

Publication Number Publication Date
CN102262625A CN102262625A (zh) 2011-11-30
CN102262625B true CN102262625B (zh) 2014-02-26

Family

ID=45009256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910261694.3A Expired - Fee Related CN102262625B (zh) 2009-12-24 2009-12-24 网页关键词提取方法及装置

Country Status (1)

Country Link
CN (1) CN102262625B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823803B (zh) * 2012-11-16 2018-12-07 腾讯科技(深圳)有限公司 一种关键词筛选的方法、装置和设备
CN104063387B (zh) * 2013-03-19 2017-07-28 三星电子(中国)研发中心 在文本中抽取关键词的装置和方法
CN103279490A (zh) * 2013-04-26 2013-09-04 百度在线网络技术(北京)有限公司 Web页面的标签提取方法及装置
CN103258053B (zh) * 2013-05-31 2018-01-26 深圳市宜搜科技发展有限公司 一种领域特征词的提取方法及系统
CN103399901B (zh) * 2013-07-25 2016-06-08 三星电子(中国)研发中心 一种关键词抽取方法
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备
CN103544267B (zh) * 2013-10-16 2017-05-03 北京奇虎科技有限公司 一种基于搜索建议词进行搜索的方法以及装置
CN104199898B (zh) * 2014-08-26 2018-05-15 北京小度互娱科技有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN104679731B (zh) * 2015-03-12 2018-05-08 百度在线网络技术(北京)有限公司 提取页面中关键词的方法及装置
CN104965926B (zh) * 2015-07-14 2019-03-26 安一恒通(北京)科技有限公司 网页提供方法及装置
CN105260359B (zh) * 2015-10-16 2018-10-02 晶赞广告(上海)有限公司 语义关键词提取方法及装置
CN105488151A (zh) * 2015-11-27 2016-04-13 小米科技有限责任公司 参考文档的推荐方法及装置
CN105528404A (zh) * 2015-12-03 2016-04-27 北京锐安科技有限公司 种子关键字字典建立方法和装置及关键词提取方法和装置
CN107526744B (zh) * 2016-06-21 2022-11-18 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN110298028B (zh) * 2019-05-21 2023-08-18 杭州未名信科科技有限公司 一种文本段落的关键句提取方法和装置
CN110263345B (zh) * 2019-06-26 2023-09-05 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN113836307B (zh) * 2021-10-15 2024-02-20 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101331487A (zh) * 2005-12-15 2008-12-24 微软公司 广告关键词交叉销售

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101331487A (zh) * 2005-12-15 2008-12-24 微软公司 广告关键词交叉销售

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hao Wu 等.Advertising Keyword Generation Using Active Learning.《WWW 2009 MADRID》.2009,第1095-1096页. *
李维刚等.基于网络挖掘的实体关系元组自动获取.《电子学报》.2007,第35卷(第11期),第2111-2116页. *

Also Published As

Publication number Publication date
CN102262625A (zh) 2011-11-30

Similar Documents

Publication Publication Date Title
CN102262625B (zh) 网页关键词提取方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN103473263B (zh) 一种面向新闻事件演变过程的可视化展现方法
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
CN110807326B (zh) 结合gpu-dmm与文本特征的短文本关键词提取方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
US20120278705A1 (en) System and Method for Automatically Extracting Metadata from Unstructured Electronic Documents
CN102207961B (zh) 一种网页自动分类方法及装置
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN101609459A (zh) 一种情感特征词提取系统
CN106960040B (zh) 一种url的类别确定方法及装置
WO2008100522A1 (en) Document matching engine using asymmetric signature generation
CN101383782A (zh) 一种获取网络资源标识的方法及系统
CN101673266A (zh) 音频、视频内容的搜索方法
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN101714147B (zh) 相同或相似文件的过滤方法
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN107977420A (zh) 一种演进式文档的摘要提取方法、装置及可读存储介质
CN106202349A (zh) 网页分类字典生成方法及装置
CN101673263B (zh) 视频内容的搜索方法
CN101216836B (zh) 一种网页锚文本去噪系统及方法
CN103136212A (zh) 一种类别新词的挖掘方法及装置
CN109815337A (zh) 确定文章类别的方法及装置
CN102819595A (zh) 网页分类方法、装置及网络设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140226

Termination date: 20181224

CF01 Termination of patent right due to non-payment of annual fee