CN102270244A

CN102270244A - 基于核心语句的网页内容关键词快速提取方法

Info

Publication number: CN102270244A
Application number: CN 201110248573
Authority: CN
Inventors: 孟庆康; 文斌; 刘�东
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2011-08-26
Filing date: 2011-08-26
Publication date: 2011-12-07
Anticipated expiration: 2031-08-26
Also published as: CN102270244B

Abstract

本发明涉及关键词语检索技术，其公开了一种基于核心语句的网页内容关键词快速提取方法，解决传统技术中网页内容关键词提取复杂、效率低的问题。其技术方案的要点可概括为：通过先对标题进行分词，再对获取到的词组在正文中查询定位，得到词组所在语句，最后再对语句进行分词以获得词组并在词组中提取关键词的方式，不需要对正文部分进行全部分词处理，减少了处理过程，大大提高关键词提取效率；并通过采取对语句排序修正和对字符长度精简的措施，保证语句集中的语句为网页内容中的核心语句，有效地提高关键词提取的精度。本发明适用于对网页内容进行关键词提取。

Description

基于核心语句的网页内容关键词快速提取方法

技术领域

本发明涉及关键词语检索技术，具体的说，是涉及一种基于核心语句的网页内容关键词快速提取方法。

背景技术

目前网页内容关键词的计算机自动提取方法主要采用以下方式：1.对网页的全体内容进行分词(即根据词库及文字组合规则将内容划分为一个个单独的词组)；2.结合相关的加权算法如TF-IDF(Term Frequency-Inverse Document Frequency)分别计算出各个词组在文章中的频率；3.按照出现频率的高低对各个词组进行排序，并提取排序靠前的词组作为关键词。

上述方式由于在处理过程中需要对文章全体内容进行分词，大大的增加了处理复杂程度和时间成本，特别是在大批量网页数据的关键词提取中效率低下，给运营商带来了诸多不便。

发明内容

本发明所要解决的技术问题是：提出一种基于核心语句的网页内容关键词快速提取方法，快速、高效提取关键词，解决传统技术中网页内容关键词提取复杂、效率低的问题。

本发明解决上述技术问题所采用的技术方案是：基于核心语句的网页内容关键词快速提取方法，包括以下步骤：

a.获取网页信息内容的标题和正文；

b.对标题进行分词，获取分词后的各个词组并构建包含这些词组的词组集；

d.对词组集中的词组在正文中进行查询定位，提取各个词组所在的语句，并构建包含这些语句的语句集；

e.判断语句集中的所有语句的总字符长度是否超过预先设定的字符长度阈值，如果超过，则执行步骤f，如果未超过，则执行步骤g；

f.删除语句集中的部分语句，直至剩余所有语句的总字符长度不超过预先设定的字符长度阈值；

g.对语句集中的语句进行分词，获取分词后的各个词组，并从中提取关键词。

进一步，步骤a中，由计算机根据HTML语法格式对网页信息内容的标题和正文进行区分，获取网页信息内容的标题和正文。

进一步，步骤b中，对标题进行分词的方法是：根据词库及文字组合规则将标题划分为一个个单独的词组。

进一步，在步骤b与步骤d之间还包括步骤：

c.对词组集中的各个词组按照权重值的大小来进行排序，所述权重值的大小由网络使用频率的高低来决定，网络使用频率高的词组的权重值大，网络使用频率低的词组的权重值小。

进一步，在步骤d中，对词组集中的词组按照权重值大小的顺序在正文中进行查询定位，优先对权重值大的词组进行查询定位。

进一步，在步骤d中，还包括：按照查询定位的先后顺序对语句集中的各个语句进行排序，优先查询定位的语句的排序靠前。

进一步，在步骤d中，还包括：对语句集中的各个语句的排序进行修正，修正方法为：将语句集中来源于正文第一段或最后一段的语句的排序靠前。

进一步，在步骤f中，按照一定的规则删除语句集中的部分语句，所述一定规则为：优先删除语句集中排序最后的语句，再删除语句集中排序倒数第二的语句……依次类推。

进一步，步骤g的具体步骤包括：

g1.对语句集中的语句进行分词，获取分词后的各个词组；

g2.计算各个词组重复出现的频率；

g3.根据实际需要选择重复出现频率较高的一个或数个词组作为关键词。

本发明的有益效果是：通过先对标题进行分词，再对获取到的词组在正文中查询定位，得到词组所在语句，最后再对语句进行分词以获得词组并在词组中提取关键词的方式，不需要对正文部分进行全部分词处理，减少了处理过程，大大提高关键词提取效率；并通过采取对语句排序修正和对字符长度精简的措施，保证语句集中的语句为网页内容中的核心语句，有效地提高关键词提取的精度。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

传统技术中采取对网页内容全文分词，再对分词后的词组的频率进行统计，选择出现频率高的词组作为关键词的方式来提取关键词，其由于要对网页内容全文分词，工作量大，关键词提取效率不高；而针对上述问题，本发明提出了一种基于核心语句的网页内容关键词快速提取方法，其方案可以概括为：通过先对标题进行分词，再对获取到的词组在正文中查询定位，得到词组所在语句，最后再对语句进行分词以获得词组并在词组中提取关键词的方式，不需要对正文部分进行全部分词处理，减少了处理过程，大大提高关键词提取效率；并通过采取对语句排序修正和对字符长度精简的措施，保证语句集中的语句为网页内容中的核心语句，有效地提高关键词提取的精度。

为使得本发明的技术方案更清晰完整，下面结合附图及实施例对本发明作进一步的描述。

如图1所示，本例中的基于核心语句的网页内容关键词快速提取方法，包括以下步骤：

a.获取网页信息内容的标题和正文：由计算机根据HTML语法格式对网页信息内容的标题和正文进行区分，获取网页信息内容的标题和正文；

b.对标题进行分词，并构建词组集：根据词库及文字组合规则将标题划分为一个个单独的词组，再构建包含这些词组的词组集，如：W＝{w1、w2、…、wi、…wn}，其中W表示词组集，wi表示单独的词组，n表示词组的个数；

c.对词组集中的各个词组按照权重值的大小来进行排序：其中权重值的大小由网络使用频率的高低来决定，网络使用频率高的词组的权重值大，网络使用频率低的词组的权重值小，按此顺序对词组集中的词组进行排序，如：排序后W＝{w1、w2、…、wi、…wn}，则表示w1的权重值最大，w2的权重值次之……wn的权重值最小；排序的目的是为了后续步骤中对词组的查询定位作准备；

d.在正文部分对各词组进行查询定位，提取其所在的语句并构建语句集：即对词组集中的词组按照权重值大小的顺序(与词组集中的词组的排序顺序一致)在正文中进行查询定位，优先对权重值大的词组进行查询定位，并构建包含这些语句的语句集，如：S＝{s1、s2、s3、s4…、sj、…sm}，其中S为语句集，si为单独的语句，m为语句的个数，语句集中的语句的排序是按照查询定位的先后顺序进行的，由于查询定位的先后顺序是由词组的权重值大小来决定的，因此语句集中的语句的排序与词组的权重值大小有着密切的关联；换言之，某个词组的权重值最大，那么其是最先被查询定位的，其所在的语句(可能为一个语句，也可能为多个语句)就应该被排在语句集中的最前；某个词组的权重值第二，那么其是第二个被查询定位的，其所在的语句(可能为一个语句，也可能为多个语句)应该紧跟着第一个被查询定位的词组所在的语句之后……依次类推，某个词组的权重值最小，那么其是最后被查询定位的，其所在的语句(可能为一个语句，也可能为多个语句)就应该被排在语句集中的最后；

e.对语句集中的各个语句的排序进行修正：由于网页信息的描述一般都是采取总、分、总的形式，即正文部分第一段和最后一段中包含关键词的可能性最大，那么本例中就采取相应的修正方式：将语句集中来源于正文第一段和最后一段的语句的排序靠前，如上述步骤d中，虽然经过排序后S＝{s1、s2、s3、s4…、sj、…sm}，s2排序第二位，但是由于s2为正文部分第一段中的语句，其出现关键词的可能性很大，因此将其排序靠前，那么修正后的排序为S＝{s2、s1、s3、s4…、sj、…sm}；同理，如果该语句集中出现了两个来源于正文部分第一段或最后一段的语句，如：除了s2为正文部分第一段中的语句外，s3为正文部分最后一段中的语句，其出现关键词的可能性也很大，因此也需将其排序靠前，但是由于修正前s2就排在s3前，那么在保证s2与s3的排序先后关系的前提下，经过修正，新的排序为S＝{s2、s3、s1、s4…、sj、…sm}；

f.根据情况对修正后的语句集进行缩减，获取核心语句集：即首先判断语句集中的所有语句的总字符长度是否超过预先设定的字符长度阈值(如：140个字符)，如果未超过，则此时语句集中的所有语句均为核心语句，如果超过，则进行语句的删除，删除的先后顺序为：首先删除排序最后的那个语句，再删除排序倒数第二的那个语句，顺序删除sm、s(m-1)、s(m-2)…如此类推，直至剩余语句的总字符长度不超过预先设定的字符长度阈值，如此，将剩余的语句作为核心语句；

g.对核心语句进行分词，获取分词后的各个词组，并从中提取关键词：即首先对当前语句集中的语句(核心语句)进行分词，获取分词后的各个词组；再计算各个词组重复出现的频率；最后根据实际需要选择重复出现频率较高的一个或数个词组作为关键词；如：根据各个词组(在分词后得到的词组集中)重复出现的频率对词组进行排序，A＝{A1、A2、A3、A4…、Aj、…}，则表示A1词组在A集合中重复出现的频率最高、A2词组在A集合中重复出现的频率第二高、A3词组在A集合中重复出现的频率第三高……依次类推；如果需要选择一个词组作为关键词，则选择A1；如果需要选择两个词组作为关键词，则选择A1和A2；如果需要选择三个词组作为关键词，则选择A1、A2和A3。

Claims

1.基于核心语句的网页内容关键词快速提取方法，其特征在于，包括以下步骤：

a.获取网页信息内容的标题和正文；

2.如权利要求1所述的基于核心语句的网页内容关键词快速提取方法，其特征在于，步骤a中，由计算机根据HTML语法格式对网页信息内容的标题和正文进行区分，获取网页信息内容的标题和正文。

3.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法，其特征在于，步骤b中，对标题进行分词的方法是：根据词库及文字组合规则将标题划分为一个个单独的词组。

4.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法，其特征在于，在步骤b与步骤d之间还包括步骤：

5.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法，其特征在于，在步骤d中，对词组集中的词组按照权重值大小的顺序在正文中进行查询定位，优先对权重值大的词组进行查询定位。

6.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法，其特征在于，在步骤d中，还包括：按照查询定位的先后顺序对语句集中的各个语句进行排序，优先查询定位的语句的排序靠前。

7.如权利要求6所述的基于核心语句的网页内容关键词快速提取方法，其特征在于，在步骤d中，还包括：对语句集中的各个语句的排序进行修正，修正方法为：将语句集中来源于正文第一段或最后一段的语句的排序靠前。

8.如权利要求7所述的基于核心语句的网页内容关键词快速提取方法，其特征在于，在步骤f中，按照一定的规则删除语句集中的部分语句，所述一定规则为：优先删除语句集中排序最后的语句，再删除语句集中排序倒数第二的语句……依次类推。

9.如权利要求8所述的基于核心语句的网页内容关键词快速提取方法，其特征在于，步骤g的具体步骤包括：

g1.对语句集中的语句进行分词，获取分词后的各个词组；

g2.计算各个词组重复出现的频率；