CN104361081A

CN104361081A - 一种基于web文档的自动摘要方法

Info

Publication number: CN104361081A
Application number: CN201410642510.9A
Authority: CN
Inventors: 刘文婷
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2014-11-13
Filing date: 2014-11-13
Publication date: 2015-02-18

Abstract

本发明公开了一种基于WEB文档的自动摘要方法，具体包括以下几个步骤：(1)利用Html文档对象模型标签树抓取WEB文档正文信息；(2)对抓取的WEB文档正文信息进行分块、分句；(3)对抓取的WEB文档正文信息，依据关键词库进行分词，分词后去除无意义的非关键词，并将网络新词及专业词语扩充到关键词库，对于网络上已停用的非关键词，扩充到非关键词库；(4)计算分词权值和分句、分块权值；(5)根据摘要精细程度，选择分块、分句的个数，最后从中选出权值最高的几个分块、分句形成文档摘要信息。本发明能够分析WEB文档信息，给用户提供简洁的、信息全面的页面内容的概要，以提高用户获取信息的效率。

Description

一种基于WEB文档的自动摘要方法

技术领域

本发明涉及文本处理技术领域，具体涉及一种基于WEB文档的自动摘要方法。

背景技术

在文本处理技术领域，如何在海量的WEB信息中快速而又准确地获取信息成为当前的研究热点，为了有效的提高信息获取效率，文档自动摘要技术的研究应运而生，并且得到了广泛的关注。它能够将繁杂、冗长的文档内容用简洁、明了的语言概括出来，对信息的快速甄别进而获取信息带来了很大的帮助。目前已有的文档自动摘要方法主要侧重于基于句子抽取的方法，形成的摘要还较粗糙，不能为用户提供简洁的文档内容概要，用户获取信息的效率较低。

发明内容

针对现有技术存在的不足，本发明目的是提供一种基于WEB文档的自动摘要方法，能够分析WEB文档信息，给用户提供简洁的、信息全面的页面内容的概要，以提高用户获取信息的效率。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明的一种基于WEB文档的自动摘要方法，具体包括以下几个步骤：

(1)利用Html文档对象模型标签树抓取WEB文档正文信息；

(2)对抓取的WEB文档正文信息进行分块、分句；

(3)对抓取的WEB文档正文信息，依据关键词库进行分词，分词后去除无意义的非关键词，并将网络新词及专业词语扩充到关键词库，对于网络上已停用的非关键词，扩充到非关键词库；

(4)计算分词权值和分句、分块权值；

(5)根据摘要精细程度，选择分块、分句的个数，最后从中选出权值最高的几个分块、分句形成文档摘要信息。

步骤(1)中，利用Html文档对象模型标签树抓取WEB文档正文信息具体步骤如下：Html文档对象模型通过解析器载入整个Html文档内容，根据Html文档对象模型的嵌套关系，将Html文档中嵌套标签解析成一个节点树，在内存中构建对象集合，通过Html文档对象模型标签树的遍历获取WEB文档正文信息。

Html文档内容包含以下信息：(1a)正文：即网页要发布的主体内容；(2a)页面的附带信息；(3a)HTML标记。

步骤(2)中，对抓取的WEB文档正文信息进行分块、分句方法如下：如果Html文档内容有标签来展示文档段落，则根据标签抓取元素，实现分块，采用分块模式；如果Html文档内容没有标签，则采用分句模式，即将文档按句尾标点符号进行分割。

步骤(3)中，所述分词的过程具体如下：载入所述关键词库，预先把带有明显特征的词切分出来，所述明显特征的词指WEB文档正文标题和正文每一段的第一句中的关键词，并将WEB文档正文信息依照切分出的词分成几个小段，再基于反向最长匹配策略进行机械分词，并将网络新词及专业词语扩充到关键词库，完成关键词库的动态更新。

上述反向最长匹配策略具体方法如下：将WEB文档内容逐一与关键词库中的词条进行匹配，匹配成功的标准是在关键词库中找到某个词条，即完成对WEB文档中某个关键词的识别。

步骤(4)中，分词权值的计算方法如下：分词去除非关键词后，按词频计算单个分词的权值，并对带明显特征的分词的权值重新进行修正，修正方法为：带明显特征的分词权值增加n,其中，n为除带明显特征外的关键词的最大权值。

步骤(4)中，分句、分块权值的计算方法如下：根据分词权值，再加权计算分句或分块中所包含关键词的权值，作为分句、分块权值，加权计算方法为：设分句、分块K的权值为Q(K)，其中，包含m个关键词，每个关键词出现的次数为n，每个关键词的权值为q(i)，则Q(K)满足关系：

Q (K) = Σ_{i = 1}^{m} n * q (i) .

步骤(5)中，所述摘要精细程度作为系统的基本参数进行定义，设系统定义的总级数为K，系统选择的级数为N，如果采用分句模式，则统计WEB文档的句子总数，记为L，则选择的分句总个数为如果采用分块模式，则统计WEB文档的总块数，记为M，则选择的分块总个数为其中，WEB文档的句子统计方法为：统计WEB文档中“？”、“。”、“！”、“……”符号出现的次数，即为句子总数L；WEB文档的总块数统计方法为：Html文档内容中标签的个数，即为总块数M。

步骤(5)中，采用jQuery编程技术，以一个统一资源定位符URL作为信息来源,实现网页截图，再将生成的摘要信息与原始的网页截图进行对照，用来衡量摘要是否概括了原网页的主要内容。

本发明以一个URL作为输入，综合利用Html文档对象模型标签树抓取WEB文档信息，再对获取的信息的进行分块；采用特征扫描切分法对抓取的信息进行分词，去除无意义的非关键词；确定各分词的权值，并构建非关键词库；根据分词的权值结果对每块的权值进行计算，最后从中选出最高权值的句子形成文档摘要信息。

本发明应用于信息检索或咨询类网站，能够从大量的WEB信息中自动生成简洁、全面的摘要，从而帮助用户显著提高获取信息的效率和质量；本发明也能应用于电子商务领域，能够帮助用户获取更准确的商品信息，提高购物效率，改善购物环境。

附图说明

图1为本发明的基于WEB文档的自动摘要方法工作流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

本发明通过扩充关键词库，创建面向用户的非关键词库，将文本信息进行分词以及特征词的提取，生成能够准确反映全文意思的摘要。

本发明涉及文本处理技术领域，特别涉及一种基于WEB文档的自动摘要方法。该方法具体为：以一个URL作为输入，综合利用Html文档dom(Document Object Model，文档对象模型)标签树抓取WEB文档信息，再对获取的信息的进行分块；采用特征扫描切分法对抓取的信息进行分词，去除无意义的非关键词；确定各分词的权值，并构建非关键词库；根据分词的权值结果对每块的权值进行计算，最后从中选出最高权值的句子形成文档摘要信息。本发明应用于信息检索或咨询类网站，能够从大量的WEB信息中自动生成简洁、全面的摘要，从而帮助用户显著提高获取信息的效率和质量；本发明也能应用于电子商务领域，能够帮助用户获取更准确的商品信息，提高购物效率，改善购物环境。

参见图1，本发明的一种基于WEB文档的自动摘要方法，具体包括以下几个步骤：

第一步S100，综合利用Html文档dom(Document Object Model，文档对象模型)树抽取WEB文档信息；

为了获取WEB文档信息，并且生成WEB文档的截图，需要以下过程，分别为：

1-1)采用浏览器编程技术，以一个URL作为信息来源，实现整个网页预览或截图，自动生成的摘要信息与网页的预览或截图进行比对，有利于对摘要信息的理解；

1-2)以一个URL作为信息的来源，依照DOM树结构抓取网页文档的主要信息，在解析DOM的Html文档时，DOM通过解析器载入整个Html内容，根据DOM的嵌套关系，将文档中标签嵌套关系解析成一个节点树，在内存中构建出树结构的对象集合，通过对Html页面中的元素的DOM树的遍历获取信息；

1-3)其中Html页面主要包含以下信息：

1)正文：即网页要发布的主体内容，例如一则新闻，一篇论文，一则公文，一篇博客文章等。

2)页面的附带信息：一个网页除了发布主体内容之外，都会再提供一些附带信息，最常见的是广告和对其他网站、网页的链接信息。

3)HTML标记：<body></body>等，这些信息不会显示到浏览器上，但一个网页在浏览器上的内容的表现格式则是由这些HTML标记规定的。

因此，网页当中除了含有标题和正文这些我们所需要的信息以外，还含有上面列举的第2种和第3种这些我们不需要的无关信息。要获取网页文本，首先要做的事情是去除网页中无关信息。剔除网页当中无关信息的过程称为信息抓取。

第二步S200，对抓取的WEB文档信息进行分块或分句，具体为：对于抓取的WEB文档信息，如果Html页面有标签来展示文档段落，可以根据标签抓取元素，直接实现分段。如果Html页面没有标签，则采用分句模式。将文档按句尾标点符号进行分割，句尾标点符号包括“。”，“！”，“？”，“......”等；

第三步S300，对抓取的WEB文档信息进行分词，具体为：

3-1)分词方式采用基于词典词库的反向最长匹配的机械分词。具体为，在分词过程中，将字符串与一个“足够大”的词典中的词条进行匹配，匹配成功的标准是在机械词典中找到某个字符串，即完成了对某字符串的词的识别，其中的匹配策略采用反向最长匹配方法。

3-2)分词过程主要为，载入关键词典，预先把待分析权重带有明显特征的词切分出来，并将原来的字符串依照切分出的词分成较小的几段，在此基础上对抓取到的信息进行再进行机械分词过程中需要对一些网络新词，专业词语等特殊词语扩充到关键词词典；

3-3)更新关键词库主要为，关键词库没有的关键词主要包括两大类：(1)新涌现的通用词或专业术语等；2)专有名词，又称为命名实体。如人名、外国译名、地名、机构名、网络流行语等；

3-4)对抓取到的信息进行分词后，去除无意义的词或对摘要没有帮助的词，同时把去除的词扩充到非关键词库，随着非关键词库的建立，可以用做进一步优化分词过程的基础词库。

第四步S400，分别计算分词权值、分句或分块权值的计算，具体为：

4-1)分词权值的计算：分词去除非关键词后，按词频计算单个分词的权值，把带明显特征的分词的权值重新进行修正，如，对于有明显特征的分词在计算出的权值基础加上所有分词权值的最大值。

4-2)分块和分句权值的计算：依据分词权值，再加权计算分块或分句的权值。

第五步S500，根据系统设定的摘要精细程度，形成摘要信息，具体方法为：

选择权值最高的几个分块和分句，构成摘要信息，选择分块和分句的个数取决于摘要的精细程度。摘要精细程度作为系统的基本参数进行定义，如摘要精细程度定义为5级，定义每级摘要选择的分块或分句数，级别越低越精细，选择的分块或分句越多，假定级数为N选择的分块或分句为M*(K-N)，其中M表示每级需要选择的句子数，K表示定义的总级数，N表示系统定义的级数。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于WEB文档的自动摘要方法，其特征在于，具体包括以下几个步骤：

(1)利用Html文档对象模型标签树抓取WEB文档正文信息；

(2)对抓取的WEB文档正文信息进行分块、分句；

(4)计算分词权值和分句、分块权值；

2.根据权利要求1所述的基于WEB文档的自动摘要方法，其特征在于，步骤(1)中，利用Html文档对象模型标签树抓取WEB文档正文信息具体步骤如下：

Html文档对象模型通过解析器载入整个Html文档内容，根据Html文档对象模型的嵌套关系，将Html文档中嵌套标签解析成一个节点树，在内存中构建对象集合，通过Html文档对象模型标签树的遍历获取WEB文档正文信息。

3.根据权利要求2所述的基于WEB文档的自动摘要方法，其特征在于，Html文档内容包含以下信息：

(1a)正文：即网页要发布的主体内容；

(2a)页面的附带信息；

(3a)HTML标记。

4.根据权利要求1所述的基于WEB文档的自动摘要方法，其特征在于，步骤(2)中，对抓取的WEB文档正文信息进行分块、分句方法如下：

如果Html文档内容有标签来展示文档段落，则根据标签抓取元素，实现分块，采用分块模式；

如果Html文档内容没有标签，则采用分句模式，即将文档按句尾标点符号进行分割。

5.根据权利要求1所述的基于WEB文档的自动摘要方法，其特征在于，步骤(3)中，所述分词的过程具体如下：

载入所述关键词库，预先把带有明显特征的词切分出来，所述明显特征的词指WEB文档正文标题和正文每一段的第一句中的关键词，并将WEB文档正文信息依照切分出的词分成几个小段，再基于反向最长匹配策略进行机械分词，并将网络新词及专业词语扩充到关键词库，完成关键词库的动态更新。

6.根据权利要求5所述的基于WEB文档的自动摘要方法，其特征在于，所述反向最长匹配策略具体方法如下：

将WEB文档内容逐一与关键词库中的词条进行匹配，匹配成功的标准是在关键词库中找到某个词条，即完成对WEB文档中某个关键词的识别。

7.根据权利要求1所述的基于WEB文档的自动摘要方法，其特征在于，步骤(4)中，分词权值的计算方法如下：

分词去除非关键词后，按词频计算单个分词的权值，并对带明显特征的分词的权值重新进行修正，修正方法为：带明显特征的分词权值增加n,其中，n为除带明显特征外的关键词的最大权值。

8.根据权利要求7所述的基于WEB文档的自动摘要方法，其特征在于，步骤(4)中，分句、分块权值的计算方法如下：

根据分词权值，再加权计算分句或分块中所包含关键词的权值，作为分句、分块权值，加权计算方法为：设分句、分块K的权值为Q(K)，其中，包含m个关键词，每个关键词出现的次数为n，每个关键词的权值为q(i)，则Q(K)满足关系：

9.根据权利要求1所述的基于WEB文档的自动摘要方法，其特征在于，步骤(5)中，所述摘要精细程度作为系统的基本参数进行定义，设系统定义的总级数为K，系统选择的级数为N，如果采用分句模式，则统计WEB文档的句子总数，记为L，则选择的分句总个数为如果采用分块模式，则统计WEB文档的总块数，记为M，则选择的分块总个数为

10.根据权利要求1所述的基于WEB文档的自动摘要方法，其特征在于，步骤(5)中，采用jQuery编程技术，以一个统一资源定位符URL作为信息来源,实现网页截图，再将生成的摘要信息与原始的网页截图进行对照，用来衡量摘要是否概括了原网页的主要内容。