CN102270244A - 基于核心语句的网页内容关键词快速提取方法 - Google Patents

基于核心语句的网页内容关键词快速提取方法 Download PDF

Info

Publication number
CN102270244A
CN102270244A CN 201110248573 CN201110248573A CN102270244A CN 102270244 A CN102270244 A CN 102270244A CN 201110248573 CN201110248573 CN 201110248573 CN 201110248573 A CN201110248573 A CN 201110248573A CN 102270244 A CN102270244 A CN 102270244A
Authority
CN
China
Prior art keywords
statement
phrase
concentrated
text
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110248573
Other languages
English (en)
Other versions
CN102270244B (zh
Inventor
孟庆康
文斌
刘�东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN 201110248573 priority Critical patent/CN102270244B/zh
Publication of CN102270244A publication Critical patent/CN102270244A/zh
Application granted granted Critical
Publication of CN102270244B publication Critical patent/CN102270244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及关键词语检索技术,其公开了一种基于核心语句的网页内容关键词快速提取方法,解决传统技术中网页内容关键词提取复杂、效率低的问题。其技术方案的要点可概括为:通过先对标题进行分词,再对获取到的词组在正文中查询定位,得到词组所在语句,最后再对语句进行分词以获得词组并在词组中提取关键词的方式,不需要对正文部分进行全部分词处理,减少了处理过程,大大提高关键词提取效率;并通过采取对语句排序修正和对字符长度精简的措施,保证语句集中的语句为网页内容中的核心语句,有效地提高关键词提取的精度。本发明适用于对网页内容进行关键词提取。

Description

基于核心语句的网页内容关键词快速提取方法
技术领域
本发明涉及关键词语检索技术,具体的说,是涉及一种基于核心语句的网页内容关键词快速提取方法。
背景技术
目前网页内容关键词的计算机自动提取方法主要采用以下方式:1.对网页的全体内容进行分词(即根据词库及文字组合规则将内容划分为一个个单独的词组);2.结合相关的加权算法如TF-IDF(Term Frequency-Inverse Document Frequency)分别计算出各个词组在文章中的频率;3.按照出现频率的高低对各个词组进行排序,并提取排序靠前的词组作为关键词。
上述方式由于在处理过程中需要对文章全体内容进行分词,大大的增加了处理复杂程度和时间成本,特别是在大批量网页数据的关键词提取中效率低下,给运营商带来了诸多不便。
发明内容
本发明所要解决的技术问题是:提出一种基于核心语句的网页内容关键词快速提取方法,快速、高效提取关键词,解决传统技术中网页内容关键词提取复杂、效率低的问题。
本发明解决上述技术问题所采用的技术方案是:基于核心语句的网页内容关键词快速提取方法,包括以下步骤:
a.获取网页信息内容的标题和正文;
b.对标题进行分词,获取分词后的各个词组并构建包含这些词组的词组集;
d.对词组集中的词组在正文中进行查询定位,提取各个词组所在的语句,并构建包含这些语句的语句集;
e.判断语句集中的所有语句的总字符长度是否超过预先设定的字符长度阈值,如果超过,则执行步骤f,如果未超过,则执行步骤g;
f.删除语句集中的部分语句,直至剩余所有语句的总字符长度不超过预先设定的字符长度阈值;
g.对语句集中的语句进行分词,获取分词后的各个词组,并从中提取关键词。
进一步,步骤a中,由计算机根据HTML语法格式对网页信息内容的标题和正文进行区分,获取网页信息内容的标题和正文。
进一步,步骤b中,对标题进行分词的方法是:根据词库及文字组合规则将标题划分为一个个单独的词组。
进一步,在步骤b与步骤d之间还包括步骤:
c.对词组集中的各个词组按照权重值的大小来进行排序,所述权重值的大小由网络使用频率的高低来决定,网络使用频率高的词组的权重值大,网络使用频率低的词组的权重值小。
进一步,在步骤d中,对词组集中的词组按照权重值大小的顺序在正文中进行查询定位,优先对权重值大的词组进行查询定位。
进一步,在步骤d中,还包括:按照查询定位的先后顺序对语句集中的各个语句进行排序,优先查询定位的语句的排序靠前。
进一步,在步骤d中,还包括:对语句集中的各个语句的排序进行修正,修正方法为:将语句集中来源于正文第一段或最后一段的语句的排序靠前。
进一步,在步骤f中,按照一定的规则删除语句集中的部分语句,所述一定规则为:优先删除语句集中排序最后的语句,再删除语句集中排序倒数第二的语句……依次类推。
进一步,步骤g的具体步骤包括:
g1.对语句集中的语句进行分词,获取分词后的各个词组;
g2.计算各个词组重复出现的频率;
g3.根据实际需要选择重复出现频率较高的一个或数个词组作为关键词。
本发明的有益效果是:通过先对标题进行分词,再对获取到的词组在正文中查询定位,得到词组所在语句,最后再对语句进行分词以获得词组并在词组中提取关键词的方式,不需要对正文部分进行全部分词处理,减少了处理过程,大大提高关键词提取效率;并通过采取对语句排序修正和对字符长度精简的措施,保证语句集中的语句为网页内容中的核心语句,有效地提高关键词提取的精度。
附图说明
图1为本发明实施例的方法流程图。
具体实施方式
传统技术中采取对网页内容全文分词,再对分词后的词组的频率进行统计,选择出现频率高的词组作为关键词的方式来提取关键词,其由于要对网页内容全文分词,工作量大,关键词提取效率不高;而针对上述问题,本发明提出了一种基于核心语句的网页内容关键词快速提取方法,其方案可以概括为:通过先对标题进行分词,再对获取到的词组在正文中查询定位,得到词组所在语句,最后再对语句进行分词以获得词组并在词组中提取关键词的方式,不需要对正文部分进行全部分词处理,减少了处理过程,大大提高关键词提取效率;并通过采取对语句排序修正和对字符长度精简的措施,保证语句集中的语句为网页内容中的核心语句,有效地提高关键词提取的精度。
为使得本发明的技术方案更清晰完整,下面结合附图及实施例对本发明作进一步的描述。
如图1所示,本例中的基于核心语句的网页内容关键词快速提取方法,包括以下步骤:
a.获取网页信息内容的标题和正文:由计算机根据HTML语法格式对网页信息内容的标题和正文进行区分,获取网页信息内容的标题和正文;
b.对标题进行分词,并构建词组集:根据词库及文字组合规则将标题划分为一个个单独的词组,再构建包含这些词组的词组集,如:W={w1、w2、…、wi、…wn},其中W表示词组集,wi表示单独的词组,n表示词组的个数;
c.对词组集中的各个词组按照权重值的大小来进行排序:其中权重值的大小由网络使用频率的高低来决定,网络使用频率高的词组的权重值大,网络使用频率低的词组的权重值小,按此顺序对词组集中的词组进行排序,如:排序后W={w1、w2、…、wi、…wn},则表示w1的权重值最大,w2的权重值次之……wn的权重值最小;排序的目的是为了后续步骤中对词组的查询定位作准备;
d.在正文部分对各词组进行查询定位,提取其所在的语句并构建语句集:即对词组集中的词组按照权重值大小的顺序(与词组集中的词组的排序顺序一致)在正文中进行查询定位,优先对权重值大的词组进行查询定位,并构建包含这些语句的语句集,如:S={s1、s2、s3、s4…、sj、…sm},其中S为语句集,si为单独的语句,m为语句的个数,语句集中的语句的排序是按照查询定位的先后顺序进行的,由于查询定位的先后顺序是由词组的权重值大小来决定的,因此语句集中的语句的排序与词组的权重值大小有着密切的关联;换言之,某个词组的权重值最大,那么其是最先被查询定位的,其所在的语句(可能为一个语句,也可能为多个语句)就应该被排在语句集中的最前;某个词组的权重值第二,那么其是第二个被查询定位的,其所在的语句(可能为一个语句,也可能为多个语句)应该紧跟着第一个被查询定位的词组所在的语句之后……依次类推,某个词组的权重值最小,那么其是最后被查询定位的,其所在的语句(可能为一个语句,也可能为多个语句)就应该被排在语句集中的最后;
e.对语句集中的各个语句的排序进行修正:由于网页信息的描述一般都是采取总、分、总的形式,即正文部分第一段和最后一段中包含关键词的可能性最大,那么本例中就采取相应的修正方式:将语句集中来源于正文第一段和最后一段的语句的排序靠前,如上述步骤d中,虽然经过排序后S={s1、s2、s3、s4…、sj、…sm},s2排序第二位,但是由于s2为正文部分第一段中的语句,其出现关键词的可能性很大,因此将其排序靠前,那么修正后的排序为S={s2、s1、s3、s4…、sj、…sm};同理,如果该语句集中出现了两个来源于正文部分第一段或最后一段的语句,如:除了s2为正文部分第一段中的语句外,s3为正文部分最后一段中的语句,其出现关键词的可能性也很大,因此也需将其排序靠前,但是由于修正前s2就排在s3前,那么在保证s2与s3的排序先后关系的前提下,经过修正,新的排序为S={s2、s3、s1、s4…、sj、…sm};
f.根据情况对修正后的语句集进行缩减,获取核心语句集:即首先判断语句集中的所有语句的总字符长度是否超过预先设定的字符长度阈值(如:140个字符),如果未超过,则此时语句集中的所有语句均为核心语句,如果超过,则进行语句的删除,删除的先后顺序为:首先删除排序最后的那个语句,再删除排序倒数第二的那个语句,顺序删除sm、s(m-1)、s(m-2)…如此类推,直至剩余语句的总字符长度不超过预先设定的字符长度阈值,如此,将剩余的语句作为核心语句;
g.对核心语句进行分词,获取分词后的各个词组,并从中提取关键词:即首先对当前语句集中的语句(核心语句)进行分词,获取分词后的各个词组;再计算各个词组重复出现的频率;最后根据实际需要选择重复出现频率较高的一个或数个词组作为关键词;如:根据各个词组(在分词后得到的词组集中)重复出现的频率对词组进行排序,A={A1、A2、A3、A4…、Aj、…},则表示A1词组在A集合中重复出现的频率最高、A2词组在A集合中重复出现的频率第二高、A3词组在A集合中重复出现的频率第三高……依次类推;如果需要选择一个词组作为关键词,则选择A1;如果需要选择两个词组作为关键词,则选择A1和A2;如果需要选择三个词组作为关键词,则选择A1、A2和A3。

Claims (9)

1.基于核心语句的网页内容关键词快速提取方法,其特征在于,包括以下步骤:
a.获取网页信息内容的标题和正文;
b.对标题进行分词,获取分词后的各个词组并构建包含这些词组的词组集;
d.对词组集中的词组在正文中进行查询定位,提取各个词组所在的语句,并构建包含这些语句的语句集;
e.判断语句集中的所有语句的总字符长度是否超过预先设定的字符长度阈值,如果超过,则执行步骤f,如果未超过,则执行步骤g;
f.删除语句集中的部分语句,直至剩余所有语句的总字符长度不超过预先设定的字符长度阈值;
g.对语句集中的语句进行分词,获取分词后的各个词组,并从中提取关键词。
2.如权利要求1所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,步骤a中,由计算机根据HTML语法格式对网页信息内容的标题和正文进行区分,获取网页信息内容的标题和正文。
3.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,步骤b中,对标题进行分词的方法是:根据词库及文字组合规则将标题划分为一个个单独的词组。
4.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤b与步骤d之间还包括步骤:
c.对词组集中的各个词组按照权重值的大小来进行排序,所述权重值的大小由网络使用频率的高低来决定,网络使用频率高的词组的权重值大,网络使用频率低的词组的权重值小。
5.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤d中,对词组集中的词组按照权重值大小的顺序在正文中进行查询定位,优先对权重值大的词组进行查询定位。
6.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤d中,还包括:按照查询定位的先后顺序对语句集中的各个语句进行排序,优先查询定位的语句的排序靠前。
7.如权利要求6所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤d中,还包括:对语句集中的各个语句的排序进行修正,修正方法为:将语句集中来源于正文第一段或最后一段的语句的排序靠前。
8.如权利要求7所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤f中,按照一定的规则删除语句集中的部分语句,所述一定规则为:优先删除语句集中排序最后的语句,再删除语句集中排序倒数第二的语句……依次类推。
9.如权利要求8所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,步骤g的具体步骤包括:
g1.对语句集中的语句进行分词,获取分词后的各个词组;
g2.计算各个词组重复出现的频率;
g3.根据实际需要选择重复出现频率较高的一个或数个词组作为关键词。
CN 201110248573 2011-08-26 2011-08-26 基于核心语句的网页内容关键词快速提取方法 Active CN102270244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110248573 CN102270244B (zh) 2011-08-26 2011-08-26 基于核心语句的网页内容关键词快速提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110248573 CN102270244B (zh) 2011-08-26 2011-08-26 基于核心语句的网页内容关键词快速提取方法

Publications (2)

Publication Number Publication Date
CN102270244A true CN102270244A (zh) 2011-12-07
CN102270244B CN102270244B (zh) 2013-03-13

Family

ID=45052549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110248573 Active CN102270244B (zh) 2011-08-26 2011-08-26 基于核心语句的网页内容关键词快速提取方法

Country Status (1)

Country Link
CN (1) CN102270244B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN104424177A (zh) * 2013-08-26 2015-03-18 高德软件有限公司 一种抽取核心词的方法及装置
CN104679731A (zh) * 2015-03-12 2015-06-03 百度在线网络技术(北京)有限公司 提取页面中关键词的方法及装置
CN105550372A (zh) * 2016-01-28 2016-05-04 浪潮软件集团有限公司 一种语句训练装置、方法和信息提取系统
CN106021280A (zh) * 2016-04-28 2016-10-12 周奇 一种查询关键词的方法和装置
CN110232183A (zh) * 2018-12-07 2019-09-13 腾讯科技(深圳)有限公司 关键词提取模型训练方法、关键词提取方法、装置及存储介质
CN116795789A (zh) * 2023-08-24 2023-09-22 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216825A (zh) * 2007-12-29 2008-07-09 朱廷劭 标引关键词提取/预测方法、在线广告推荐方法和装置
JP2011022624A (ja) * 2009-07-13 2011-02-03 Nec Corp ウェブページ検索システム、ウェブページ検索方法、ウェブページ検索サーバ及びウェブページ検索プログラム
US20110137943A1 (en) * 2009-12-03 2011-06-09 Motoshige Asano Apparatus for deciding word-related keywords, and method and program for controlling operation of same
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216825A (zh) * 2007-12-29 2008-07-09 朱廷劭 标引关键词提取/预测方法、在线广告推荐方法和装置
JP2011022624A (ja) * 2009-07-13 2011-02-03 Nec Corp ウェブページ検索システム、ウェブページ検索方法、ウェブページ検索サーバ及びウェブページ検索プログラム
US20110137943A1 (en) * 2009-12-03 2011-06-09 Motoshige Asano Apparatus for deciding word-related keywords, and method and program for controlling operation of same
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN102799647B (zh) * 2012-06-30 2015-01-21 华为技术有限公司 网页去重方法和设备
US10346257B2 (en) 2012-06-30 2019-07-09 Huawei Technologies Co., Ltd. Method and device for deduplicating web page
CN104424177A (zh) * 2013-08-26 2015-03-18 高德软件有限公司 一种抽取核心词的方法及装置
CN104424177B (zh) * 2013-08-26 2017-09-15 高德软件有限公司 一种抽取核心词的方法及装置
CN104679731A (zh) * 2015-03-12 2015-06-03 百度在线网络技术(北京)有限公司 提取页面中关键词的方法及装置
CN105550372A (zh) * 2016-01-28 2016-05-04 浪潮软件集团有限公司 一种语句训练装置、方法和信息提取系统
CN106021280A (zh) * 2016-04-28 2016-10-12 周奇 一种查询关键词的方法和装置
CN110232183A (zh) * 2018-12-07 2019-09-13 腾讯科技(深圳)有限公司 关键词提取模型训练方法、关键词提取方法、装置及存储介质
CN110232183B (zh) * 2018-12-07 2022-05-27 腾讯科技(深圳)有限公司 关键词提取模型训练方法、关键词提取方法、装置及存储介质
US11947911B2 (en) 2018-12-07 2024-04-02 Tencent Technology (Shenzhen) Company Limited Method for training keyword extraction model, keyword extraction method, and computer device
CN116795789A (zh) * 2023-08-24 2023-09-22 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置

Also Published As

Publication number Publication date
CN102270244B (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
CN102270244B (zh) 基于核心语句的网页内容关键词快速提取方法
CN109710947B (zh) 电力专业词库生成方法及装置
CN106649783B (zh) 一种同义词挖掘方法和装置
CN104598577B (zh) 一种网页正文的提取方法
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
CN103631802B (zh) 歌曲信息检索方法、装置及相应的服务器
CN102708147B (zh) 一种科技术语的新词识别方法
CN103838718A (zh) 一种翻译系统及翻译方法
CN103123618A (zh) 文本相似度获取方法和装置
CN103823796A (zh) 一种翻译系统及翻译方法
CN102567409A (zh) 一种提供检索关联词的方法及装置
CN110390038A (zh) 基于dom树的页面分块方法、装置、设备及存储介质
CN107357777B (zh) 提取标签信息的方法和装置
CN101872363B (zh) 一种抽取关键词的方法
CN105740218A (zh) 一种机器翻译后编辑处理方法
CN103646029A (zh) 一种针对博文的相似度计算方法
CN102681985A (zh) 一种面向形态丰富语言的翻译方法和系统
CN109543023B (zh) 基于trie和LCS算法的文献分类方法和系统
CN103207921A (zh) 一种从中文电子文档中自动提取词语的方法
CN104239292B (zh) 一种获取专业词汇译文的方法
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
CN105528404A (zh) 种子关键字字典建立方法和装置及关键词提取方法和装置
WO2013143362A1 (zh) 一种为文本添加超级链接的方法,装置以及计算机存储介质
CN104166712A (zh) 科技文献检索方法及系统
CN101782924A (zh) 信息处理方法、信息处理设备和程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant