CN104679730A

CN104679730A - 网页摘要抽取方法及其装置

Info

Publication number: CN104679730A
Application number: CN201510089870.5A
Authority: CN
Inventors: 刘庆朝; 何文娟; 周娜; 冯艳伟
Original assignee: Liu Xiulei
Current assignee: Liu Xiulei
Priority date: 2015-02-13
Filing date: 2015-02-27
Publication date: 2015-06-03
Also published as: CN104794108A

Abstract

本发明公开了一种网页摘要抽取方法，用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要。本发明的网页摘要抽取方法能够准确地从网页中提取摘要，使用户快速确定网页是否相关，是否进一步查看，从而解决了用户快速查找相关文档的困扰。本发明还提供一种网页摘要抽取装置。

Description

网页摘要抽取方法及其装置

技术领域

本发明涉及一种网页摘要抽取方法及其装置，尤其涉及一种基于关键词的网页摘要抽取方法及其装置。

背景技术

目前对于网页摘要抽取方法有以下几类：1.基于文本集的方法。该方法引入机器学习的方法，从文本集和摘要中学习有关规则。主要分为两个阶段：训练阶段和测试阶段。训练阶段从训练文本集中抽取文本的重要特征，并通过学习算法生成规则；测试阶段则将训练阶段学到的规则应用于测试文本集，生成摘要。该方法的不足是需要利用训练生成的规则才能生成摘要，过分依赖训练文本集，难以保证生成摘要的准确性。2.基于领域本体的方法：该方法主要通过本体对于应用领域层次上的语义信息以及本体的内部关系分析文本，过滤不相关信息，使主题更加突出，摘要的抽取更加准确，该方法的不足是由于中文领域本体的缺乏，需要自己构建领域本体，工作量大。

因此，需要出现一种既能保证生成摘要的准确性，又能减少工作量的网页摘要抽取方法的出现。

发明内容

针对上述问题，本发明提供一种能够从网页中正确提取摘要的方法及其装置。

本发明提供一种网页摘要抽取方法，用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要，其特征在于，包括以下步骤：(1)查询词预处理步骤：利用分词工具将查询词分词为若干个子查询词，统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息；(2)文本预处理步骤：将预处理后的网页文本分成若干个句子，利用分词工具将每个句子进行分词并保存每个词在网页文本中的分布信息，并统计句子个数和文本中词的个数；(3)词频及词分布信息统计步骤：统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和包含的子查询词的种类，并在句子对出现的子查询词进行标注以及标明具体为那个子查询词；(4)评分步骤：基于步骤(3)的统计数据，利用评分工具对每个句子进行评分，计算每个句子的分数；(5)排序和生成摘要步骤：按分数从高到低对句子进行排序，选取前K个句子来生成摘要，其中0≦K≦3。

本发明还提供一种网页摘要抽取装置，其特征在于，包括：查询词预处理单元，利用分词工具将查询词分词为若干个子查询词，统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息；文本预处理单元，将文本分成若干个句子，利用分词工具将每个句子进行分词并保存每个词在网页文本中的分布信息，并统计句子个数和文本中词的个数；词频及词分布信息单元，统计若干个句子中出现至少一个所述子查询词的句子数，统计某个所述子查询词在每个句子中出现的频率，以及统计每个句子中出现子查询词的种类，并在句子对出现的子查询词进行标注以及标明具体为那个子查询词；评分单元，利用评分工具对每个句子进行评分，计算每个句子的分数；排序单元，按分数从高到低对句子进行排序；以及组织摘要单元，选取前K个句子来生成摘要，其中0≦K≦3。

本发明能够在响应用户查询的时候，根据查询词在文档中出现的位置，提取出查询词周围相关的文字并返回给用户，由于一篇文档会被不同的查询词召回，因此，本发明会根据不同的查询词，对同一个文档形成不同的摘要文字。同时，对给定的文本中的关键字进行加粗、加红等显示方式，已凸显它和普通文本的区别。从而使用户能够快速查找所需的相关信息。

附图说明

图1是本发明的网页摘要抽取方法的示意图。

图2是本发明的网页摘要抽取装置的示意图。

具体实施方式

本发明的宗旨是从网页中准确地提取摘要，主要解决以下问题：

1.概述搜索出的网页的大概内容，使用户快速确定网页是否相关，是否进一步查看。从而解决了用户快速查找相关文档的困扰。

2.对于搜索系统来说，当响应用户查询的时候，根据查询词在文档中出现的位置，提取出查询词周围相关的文字并返回给用户。

3.摘要提取的准确率问题。本发明主要将词频、标题、词分布等要素作为评判句子重要性的语句来抽取出重要的句子作为摘要。有效的提高了摘要提取的准确率问题。

为解决上述技术问题，本发明网页摘要抽取方法采用了以下技术：

(1)文本处理技术。本发明中主要两个地方使用到该技术，一个是查询词或标题预处理单元，另一个是文本预处理单元。

(2)结果排序技术。本发明首先对给定的文档进行分句，分句主要依据于"。！？….！？"等符号的出现。然后对每一句进行评分，评分主要依据下述三个因素：1)句子中包含查询词分词后的子查询词的个数，包括重复出现的子查询词；2)句子中包含连续子查询词的个数；3)句子中包含的子查询词的种类。最后根据评分来进行排序，找出排在前K的得分比较高的的句子。

为使本领技术人员进一步了解本发明的特征及技术内容，下面结合附图和实施例，对本发明的技术方案进行详细描述。

一般，用户根据欲获取的信息选择好检索词后，将该检索词输入检索框，搜索引擎通常很短时间内即可在海量网页中找到关于该检索词的相关内容，这些内容将并不直接反馈给用户，因而用户很难知道所检索的网页中那些是自己所需要的，如果每个网页都进行浏览，将会浪费大量时间。因而，如何快速且高效的将网页中的内容以摘要的形式呈现给用户，以便用户及时了解网页是否相关以作出判断显得至关重要。

图1是本发明的网页摘要抽取方法的示意图。如图1所示，本发明的网页摘要抽取方法包括：

步骤S1：查询词预处理步骤

利用分词工具将查询词分词为若干个子查询词；

具体地，可利用词频统计工具，如IKAnalyzer分词器、ICTCLAS、Ansj、结巴分词等将查询词分词为若干个子查询词，统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息，包括每个子查询词在查询词中的位置和前后相邻关系的信息，并标识出查询词中重复出现的子查询词；

步骤S2：文本预处理步骤

将预处理后的网页文本分成若干个句子，利用分词工具将每个句子进行分词并保存每个词在网页文本中的分布信息；

具体地，依据"。！？….！？"等符号的出现对文本进行分句处理，然后利用分词工具，如IKAnalyzer分词器对每个句子进行分词处理，并保存每个词在文本中的位置信息，包括开始位置和结束位置。

分布信息对句子评分起作用，按照子查询词的分布信息来进行评分，例如，假设查询词包括子查询词A、B、C，那么出现形如...AB...C...或...ABC...这样的句子肯定比形如...A...B...C...这样的句子的评分要高。

步骤S3：词频及词分布信息统计步骤

统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和包含的子查询词的种类，并在句子对出现的子查询词进行标注以及标明具体为那个子查询词；其中，子查询词的种类是指出现的子查询词的个数。

步骤S4：评分步骤

基于步骤S3的统计数据，利用评分工具对每个句子进行评分，计算每个句子的分数；

具体地，利用BM25算法为每个句子计算BM25贡献的分数，以及为每个句子计算词分布信息贡献的分数，加权BM25贡献的分数和词分布信息贡献的分数得到每个句子的分数。

BM25算法，通常用来作搜索相关性平分。其主要思想为：对Query进行语素解析，生成语素qi；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。

本发明采用BM25公式来计算BM25贡献的分数，BM25公式如下：

Score (Q, d) = Σ_{i = 1}^{n} w_{i} * R (q_{i}, d) - - - (1)

其中Q代表查询词，d代表句子。Score(Q,d)表示输入查询词Q时，每个句子d的分数。将查询词分词，得到查询词的集合{q_i}，右边的连加代表每个查询词对每个句子的分值，最后加起来也就是所有查询词对句子的分值，w_i表示查询词q_i的权重；R(qi，d)表示查询词qi与句子d的相关性得分。

公式中R(q_i,d)代表一个查询词对一个句子的分数，并没有具体限定根据不同的应用可以用不同的公式。本发明中将每个子查询词的权重w_i都设为1，具体应用的公式为：score＝kinds+(continutation+occur)/100.0 (2)

其中kinds是句子中包含子查询词的种类；continuation是连续子查询词的个数；occur是句子中包含子查询词的个数。

为每个句子计算词分布信息贡献的分数时，主要依据子查询词的分部信息来进行评分，如果若干个子查询词按顺序排在一起，则给予较高的分数。在本发明中，分布信息实际上是上述公式(2)中的continuation，在一个句子中如果出现两个子查询词相连的情况，该句子的分值就加1。具体的，continuation初始值设为0，有两个相连的查询词continuation就加1，如...AB...C...的continuation＝1，...ABC...的continuation＝2，...A...B...C...的ontinuation＝0。

步骤S5：排序和生成摘要步骤

按分数从高到低对句子进行排序，选取前K个句子来生成摘要，其中0≦K≦3，一般情况下，K为3。

在步骤S5中，如果K个句子生成的摘要的长度超过了用户自定义的长度，则将超过自定义的长度的内容进行删除，以得到合适的摘要，并对各子查询词进行标注，如以加粗、加红等显示方式对其进行标注，以凸显它和普通文本的区别。

为进一步阐述本发明的网页摘要抽取方法，下面举例说明。

下面以查询词“新春佳节”为例，按照上述步骤来提取网页摘要。

第一步：输入查询词和文本

查询词：新春佳节

文本：

【据说，明朝的祝枝山，有一次曾同人开过这样一个玩笑。新春佳节的时候，祝枝山路过一户富人家的门前，见到朱漆的大门上贴着一张红纸。他想了想，就叫人拿来笔墨，在上面写了十二个大字：今年真好晦气全无财帛进门。那家主人出来一看，念道：“今年真好晦气，全无财帛进门。”顿时脸色铁青。他想这不分明是触我的霉头吗？于是,他要就动手打祝枝山。而祝枝山却对他笑笑,不慌不忙地说:“我明明写的是好话,你自己看不懂嘛！”说完,他就用笔点了几下,便成为:“今年真好,晦气全无,财帛进门。”那主人见了，不禁转怒为喜，连声称好。】

第二步：查询词预处理

将查询词分词，分为“新春”和“佳节”两个词。

第三步：文本预处理

对文本分句，结果如下，每句一行：

【据说，明朝的祝枝山，有一次曾同人开过这样一个玩笑。

新春佳节的时候，祝枝山路过一户富人家的门前，见到朱漆的大门上贴着一张红纸。

他想了想，就叫人拿来笔墨，在上面写了十二个大字：今年真好晦气全无财帛进门。

那家主人出来一看，念道：“今年真好晦气，全无财帛进门。”顿时脸色铁青。

他想这不分明是触我的霉头吗？

于是,他要就动手打祝枝山。

而祝枝山却对他笑笑,不慌不忙地说:“我明明写的是好话,你自己看不懂嘛！”说完,他就用笔点了几下,便成为:“今年真好，晦气全无，财帛进门。”那主人见了，不禁转怒为喜，连声称好。】

第四步：对句子评分

评分公式为：score＝kinds+(continutation+occur)/100.0。

kinds是句子中包含子查询词的种类；continuation是连续子查询词的个数；occur是句子中包含子查询词的个数，对每个句子计算kinds、continuation、occur三个值。下面对前两句具体说明：

1、查询词：新春佳节

句子：据说，明朝的祝枝山，有一次曾同人开过这样一个玩笑。

kinds初始化为0，查看句子中是否有“新春”，没有，kinds值不变，查看句子中是否有“佳节”，没有，kinds值不变，kinds＝0；

continuation初始化为0，句子中没有出现连续的查询词，continuation＝0；

句子中出现查询词个数为0，occur＝0；

所以，这句话的得分score＝0。

2、查询词：新春佳节

句子：新春佳节的时候，祝枝山路过一户富人家的门前，见到朱漆的大门上贴着一张红纸。

kinds初始化为0，查看句子中是否有“新春”，有，kinds加1，查看句子中是否有“佳节”，有，kinds加1，kinds＝2；

continuation初始化为0，句子中有出现连续的查询词，continuation＝1；

句子中出现查询词个数为2，occur＝2；

所以，这句话的得分score＝2.03。

按照上述方法，除第二句外，其余句子得分都是0。

第四步：生成摘要

选取得分最高的前三句作为摘要，并对查询词标红。结果如下：

<font color＝'red'>新春佳节</font>的时候，祝枝山路过一户富人家的门前，见到朱漆的大门上贴着一张红纸。他想了想，就叫人拿来笔墨，在上面写了十二个大字：今年真好晦气全无财帛进门。那家主人出来一看，念道：“今年真好晦气，全无财帛进门。

本发明还提供一种网页摘要抽取装置。如图2所示，本发明的网页摘要抽取装置包括查询词预处理单元1，其利用分词工具将查询词分词为若干个子查询词，统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息；文本预处理单元2，用于将文本分成若干个句子，利用分词工具对每个句子进行分词并保存每个词在网页文本中的分布信息，并统计句子个数和文本中词的个数；词频及词分布信息单元3，用于统计若干个句子中出现至少一个子查询词的句子数，统计某个子查询词在每个句子中出现的频率，以及统计每个句子中出现子查询词的种类，并在句子对出现的子查询词进行标注以及标明具体为哪个子查询词；评分单元4，利用评分工具对每个句子进行评分，计算每个句子的分数；排序单元5，按分数从高到低对句子进行排序；以及组织摘要单元6，选取前K个句子来生成摘要，其中0≦K≦3。

在本发明中，如果K个句子生成的摘要长度大于设定的摘要长度，则排序单元5对超过摘要长度的句子内容进行删除，以及对摘要中出现的子查询词进行标注。另外，每个子查询词在查询词中的分布信息包括每个子查询词在查询词中的位置和前后相邻信息，每个词在网页文本中的分布信息包括每个词在文本中的开始位置和结束位置信息。

评分单元4对每个句子计算BM25贡献的分数以及对每句子计算词分布信息贡献的分数，加权BM25贡献的分数和词分布信息贡献的分数，得到每个句子的分数。

在本发明中，可利用词频统计工具，如IKAnalyzer分词器进行分词。

本发明的网页摘要抽取装置能够准确的从网页中抽取摘要，供用户参考使用，极大地减少了用户的搜索时间。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种网页摘要抽取方法，用于从通过输入用户选定的查询词所得到的与所述查询词相关的网页中抽取摘要，其特征在于，包括以下步骤：

(1)查询词预处理步骤

利用分词工具将查询词分词为若干个子查询词；

(2)文本预处理步骤

将预处理后的网页文本分成若干个句子，利用分词工具将每个句子进行分词并保存每个子查询词在网页文本中的分布信息；

(3)词频及词分布信息统计步骤

统计每个句子包含的子查询词的个数、包含的连续子查询词的个数和包含的子查询词的种类，并在句子对出现的子查询词进行标注以及标明具体为那个子查询词；

(4)评分步骤

基于步骤(3)的统计数据，利用评分工具对每个句子进行评分，计算每个句子的分数；

(5)排序和生成摘要步骤

按分数从高到低对句子进行排序，选取前K个句子来生成摘要，其中0≦K≦3。

2.根据权利要求1所述的网页摘要抽取方法，其特征在于，所述步骤(5)还包括：如果所述K个句子生成的摘要长度大于设定的摘要长度，则对超过所述摘要长度的句子内容进行删除，以及对摘要中出现的子查询词进行标注。

3.根据权利要求1所述的网页摘要抽取方法，其特征在于，所述每个子查询词在查询词中的分布信息包括每个子查询词在查询词中的位置和前后相邻信息，所述每个子查询词在网页文本中的分布信息包括每个子查询词在文本中的开始位置和结束位置信息。

4.根据权利要求1所述的网页摘要抽取方法，其特征在于，所述步骤(4)中的所述评分工具为BM25算法，具体为：对每个句子计算BM25贡献的分数以及对每句子计算词分布信息贡献的分数，加权BM25贡献的分数和词分布信息贡献的分数，得到每个句子的分数。

5.根据权利要求4所述的网页摘要抽取方法，其特征在于，采用公式score＝kinds+(continutation+occur)/100.0来对每个句子计算BM25贡献的分数，其中kinds是句子中包含子查询词的种类；continuation是连续子查询词的个数；occur是句子中包含子查询词的个数。

6.根据权利要求1至4任一项所述的网页摘要抽取方法，其特征在于，所述分词工具为IKAnalyzer分词器、ICTCLAS、Ansj或结巴分词。

7.一种网页摘要抽取装置，其特征在于，包括：

查询词预处理单元，利用分词工具将查询词分词为若干个子查询词，统计每个子查询词出现的频率以及每个子查询词在查询词中的分布信息；

文本预处理单元，将文本分成若干个句子，利用分词工具将每个句子进行分词并保存每个词在网页文本中的分布信息，并统计句子个数和文本中词的个数；

词频及词分布信息单元，统计若干个句子中出现至少一个所述子查询词的句子数，统计某个所述子查询词在每个句子中出现的频率，以及统计每个句子中出现子查询词的种类，并在句子对出现的子查询词进行标注以及标明具体为那个子查询词；

评分单元，利用评分工具对每个句子进行评分，计算每个句子的分数；

排序单元，按分数从高到低对句子进行排序；以及

组织摘要单元，选取前K个句子来生成摘要，其中0≦K≦3。