CN101944109B

CN101944109B - 一种基于页面分块的图片摘要提取系统及方法

Info

Publication number: CN101944109B
Application number: CN2010102758449A
Authority: CN
Inventors: 董守斌; 张朝斌; 张凌; 李粤; 袁华
Original assignee: Count Network Co Ltd Of Park In Guangzhou; South China University of Technology SCUT
Current assignee: Count Network Co Ltd Of Park In Guangzhou; South China University of Technology SCUT
Priority date: 2010-09-06
Filing date: 2010-09-06
Publication date: 2012-06-27
Anticipated expiration: 2030-09-06
Also published as: CN101944109A

Abstract

本发明公开了一种基于页面分块的图片摘要提取系统，包括页面预处理模块、页面分类模块、页面分块模块、主题块识别模块和信息提取模块。本发明还公开了一种基于页面分块的图片摘要提取方法，具体包括：步骤S1、从Internet上把页面抓取下来；步骤S2、页面预处理模块对页面进行预处理；步骤S3、页面分类模块对预处理后的页面分类；步骤S4、页面分块模块进行语义块划分；步骤S5、页面分块模块将主题型页面发送到主题块识别模块，主题块识别模块识别出主题块，并发送给信息提取模块；页面分块模块将非主题型页面发送到信息提取模块；步骤S6、信息提取模块下载图片并与页面关联。本发明具有提取速度快、准确度高、效果好的优点。

Description

一种基于页面分块的图片摘要提取系统及方法

技术领域

本发明涉及图片摘要提取技术领域，尤其涉及一种基于页面分块的图片摘要提取系统及方法。

背景技术

在信息化飞速发展的今天，无论是企业、政府、学校等组织内部还是外部都存在着多种信息源。互联网上的信息量巨大，而组织内部存在的知识文档数量也正呈爆炸性趋势增长。

目前的检索系统，多只提供页面标题、文字摘要与页面快照功能。这样必然不能满足用户日益增长的检索需求。文字摘要是从页面文本中提取与页面和检索词最为相关的文字段作为页面的一种摘要，虽然该摘要在一定程度上也能很好的填补用户对页面的认知盲点，但却缺少页面的直观信息。

发明内容

本发明的目的之一在于克服现有技术的缺点和不足，提供一种基于页面分块的图片摘要提取系统，该系统可以从页面中提取与页面最为相关的图片作为该页面的一种摘要，填补现有技术中的文字摘要不能带来的信息盲点。

本发明的目的之二在于提供一种基于页面分块的图片摘要提取方法，该方法可以从页面中提取与页面最为相关的图片作为该页面的一种摘要，并具有提取速度快、准确度高、用户体验度高和展示效果好的优点。

本发明的目的之一是通过下述技术方案实现的：一种基于页面分块的图片摘要提取系统，包括：

页面预处理模块，用于对页面进行预处理，并把预处理后的页面发送给页面分类模块；

页面分类模块，用于对预处理后的页面进行分类，分为主题型页面或非主题型页，并将分类后的页面发送至页面分块模块；

页面分块模块，用于根据布局标签和视觉特性对页面进行语义块划分，并将分块后的主题型页面发送到主题块识别模块，将分块后的非主题型页面发送到信息提取模块；

主题块识别模块，用于从分块后的主题型页面中识别出主题块，并把主题块发送给信息提取模块；

和信息提取模块，用于对分块后的页面中的图片进行过滤，获取图片URL，下载图片并将压缩的图片保存路径写入索引，与页面关联。

所述信息提取模块包括：

图片预处理模块，用于根据管理员预设的条件对图片进行过滤，将余下的满足要求的图片发送到图片下载模块；

图片下载模块，用于接收图片预处理模块发送的过滤后的图片，获取非主题型页面中的第一个页面分块的第一张图片URL，或主题型页面中主题块的第一张图片URL，对其进行下载，保存到本地；

图片压缩模块，用于对图片下载模块下载的图片进行压缩，并将压缩的图片保存路径写入索引，与页面关联，作为该页面的图片摘要。

本发明的目的之二是通过下述技术方案实现的：一种基于页面分块的图片摘要提取方法，具体包括以下步骤：

步骤S 1、通过信息采集系统从Internet上把页面抓取下来，然后将页面送到页面预处理模块，进入步骤S2；

步骤S2、页面预处理模块对页面进行预处理，并把预处理后的页面发送给页面分类模块，进入步骤S3；

步骤S3、页面分类模块对预处理后的页面进行分类，分为主题型页面或非主题型页面，并将分类后的页面发送给页面分块模块，进入步骤S4；

步骤S4、页面分块模块根据布局标签和视觉特性对页面进行语义块划分，完成页面分块后，进入步骤S5；

步骤S5、根据步骤S3页面类型的判断结果，若是主题型页面，则页面分块模块将分块后的页面发送到主题块识别模块，进入步骤S6；若是非主题型页面，则页面分块模块将分块后的页面发送到信息提取模块，进入步骤S7；

步骤S6、主题块识别模块从分块后的主题型页面中识别出主题块，并把主题块发送到信息提取模块，进入步骤S7；

步骤S7、信息提取模块对分块后的页面中的图片进行过滤，获取图片URL(Uniform/Universal Resource Locator，网页地址)，下载图片并将压缩的图片保存路径写入索引，与页面关联，具体包括以下步骤：

S7.1、信息提取模块中的图片预处理模块根据管理员预设的过滤条件对图片进行过滤，将满足要求的图片发送到图片下载模块，进入步骤S7.2；

S7.2、信息提取模块中的图片下载模块获取过滤后的非主题型页面中的第一个页面分块的第一张图片URL，或获取过滤后的主题型页面中主题块的第一张图片URL，并对其进行下载，保存到本地，进入步骤S7.3；

S7.3、信息提取模块中的图片压缩模块对图片进行压缩，并将压缩的图片保存路径写入索引，与页面关联，作为该页面的图片摘要。

为更好地实现本发明，所述步骤S2具体包括以下步骤：

S2.1、页面预处理模块对页面的HTML代码进行修复和规范化整理，进入步骤S2.2；

S2.2、页面预处理模块对整理好的规范网页构造DOM树，并对DOM树作裁剪，删除对后续信息提取没有用处的节点，并保留字体大小、粗细和颜色的视觉属性信息，进入步骤S2.3；

S2.3、页面预处理模块把处理后的页面发送给页面分类模块。

优选的，所述步骤S3具体包括以下步骤：

S3.1、页面分类模块提取页面的锚文本与页面的非锚文本，进入步骤S3.2；

S3.2、页面分类模块采用3个变量来描述页面的语义特征：用LinkLength表示锚文本文字长度、用ContentLength表示非锚文本文字长度、用PunctuationCount表示页面内标点符号的数目；

提取上述的3种语义特征，并求出N值：

N＝LinkLength/(LinkLength+ContentLength+PunctuationCount)

若N值大于或等于预设的判断阈值，则页面分类模块识别页面类型为主题型页面；若N值小于判断阈值，则页面分类模块识别页面类型为非主题型页，进入步骤S3.3；

S3.3页面分类模块将分类后的页面发送给页面分块模块。

优选的，所述步骤S4中页面分块模块根据布局标签和视觉特性对页面进行语义块划分，具体是指页面分块模块采用MLPS算法(Multi-level PageSegmentation，分层次页面分块算法)对页面进行语义块划分，具体包括以下步骤：

S4.1、页面分块模块输入步骤S2.2中的DOM树，并从最高层开始读取DOM树，进入步骤S4.2；

S4.2、页面分块模块取出该层的第一个节点，进入步骤S4.3；

S4.3、页面分块模块判断该节点是否为布局标签，若不是，则进入步骤S4.4；若是，则跳转至步骤S4.5；

S4.4、页面分块模块判断同层是否存在下一个节点，若存在，则取出该节点，并返回步骤S4.3；若不存在，则跳转至步骤S4.7；

S4.5、页面分块模块判断该节点是否满足继续分块的规则，若不满足，则把该节点以及其所有的子节点作为一个分块，跳转至步骤S4.7；若满足继续分块的规则，则进入步骤S4.6；

S4.6、页面分块模块判断该节点的下一层是否有布局标签，若有布局标签，则读取该节点的下一层子节点，返回S4.2；否则，则把该节点以及其所有的子节点作为一个分块，并进入步骤S4.7；

S4.7、页面分块模块判断该层是否为DOM树最底层，若不是，则读取下一层节点，返回步骤S4.2；若是，跳转至步骤S4.8；

S4.8、页面分块模块完成页面的划分，退出页面分块的操作。

优选的，所述步骤S4.5中页面分块模块判断该节点是否满足继续分块的规则，具体包括下述规则：

A、如果该节点和它所有子节点的背景颜色、字体颜色和大小都一样；

B、如果该节点的字符个数小于管理员预设的阈值1；

C、如果该节点的最大子节点小于管理员预设的阈值2；

D、如果该节点的最大子节点的高度或者宽度小于管理员预设的阈值3；

和E、如果该节点的文本长度与各子节点文本长度不一致；

若满足上述条件之一，则不继续分块；若上述条件都不满足，则继续分块。

优选的，所述步骤S4中的布局标签为<div>标签或<table>标签。

优选的，所述步骤S6具体包括以下步骤：

S6.1、主题块识别模块构建空间向量模型，将一个文本表示为经过TF-IDF权重处理后的向量空间中的一个向量，其中对网页标题中的文字进行TF-IDF权重处理后形成的向量为主题向量，对整篇网页中的文字进行TF-IDF权重处理后形成的向量为文档向量；

S6.2、主题块识别模块计算主题向量与文档向量之间的相似度，并通过相似度对所有文档向量进行排序，取其中与主题向量相似度最高的文档向量为主题块，主题块识别模块将主题块发送到信息提取模块。

本发明与现有技术相比，具有下述优点和有益效果：

第一、本发明可以从页面中提取与页面最为相关的图片作为该页面的一种摘要，即图片摘要；图片摘要提取技术，能够使用户更容易、更直观地从图片这个更为直接的对象获取网页信息；

第二、提取速度快：简单易于实施的图片提取方法，提取速度快，特别适用于在线检索系统；

第三、提取准确度高：通过计算图片与网页的主题相关性，从网页众多的图片中提取与网页主题最为相关的图片进行展示；

第四、用户体验度高：通过主题相关的图片的展示，使得用户更容易从检索结果列表中挑选自己的目标网页；

第五、展示效果好：检索结果的摘要从简单的文字展示扩展为带图片的摘要，将使得检索结果页面更加美观，可以有效地提高检索系统的性能。

附图说明

图1是本实施例中一种基于页面分块的图片摘要系统的结构示意图；

图2是本实施例中信息提取模块的结构示意图；

图3是本实施例中一种基于页面分块的图片摘要方法的流程示意图；

图4是本实施例中信息提取模块提取图片的流程图；

图5是本实施例中页面分块模块对页面进行分块的流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

一种基于页面分块的图片摘要提取系统，如图1所示，包括：

如图2所示，为更好的实现本发明，所述信息提取模块包括：

一种应用于上述系统的基于页面分块的图片摘要方法，如图3所示，具体包括以下步骤：

步骤S1、通过信息采集系统(或称爬虫，crawler)从Internet上把页面抓取下来，然后将页面送到页面预处理模块，进入步骤S2；

步骤S2、页面预处理模块对页面的HTML代码进行修复和规范化整理，然后对整理好的规范网页构造DOM树，并对DOM树作裁剪，删除对后续信息提取没有用处的节点，即<STYLE>、<SCRIPT>等标签的节点，以提高后续对DOM操作的效率；同时，保留字体大小、粗细、颜色等视觉属性信息，以供后续的页面分块模块使用；

页面预处理模块把预处理后的页面发送到页面分类模块中，进入步骤S3；

步骤S3、所述页面分类模块提取页面的锚文本与页面的非锚文本，采用3个变量来描述页面的语义特征：用LinkLength表示锚文本文字长度、用ContentLength表示非锚文本文字长度、用PunctuationCount表示页面内标点符号的数目；提取上述3种语义特征，并求出N值：

N＝LinkLength/(LinkLength+ContentLength+PunctuationCount)

若N值大于或等于管理员预设的判断阈值，则页面分类模块识别页面类型为主题型页面；若N值小于判断阈值，则页面分类模块识别页面类型为非主题型页；

上述判断阈值由管理员设定，本实施例设定为0.6；

页面分类模块把分类好的页面发送到页面分块模块中，进入步骤S4；

步骤S4、页面分块模块采用MLPS算法，利用布局标签和视觉特性对页面进行语义块划分，但同时注意视觉属性相似块的合并，避免在含有大量布局标签的网页中形成大量的语义块，完成页面分块后，进入步骤S5；

步骤S5、如图4所示，根据步骤S3页面类型的判断结果，若是主题型页面，则页面分块模块将分块后的页面发送到主题块识别模块，进入步骤S6；若是非主题型页面，则页面分块模块将分块后的页面发送到信息提取模块，进入步骤S7；

步骤S6、主题块识别模块对分块后的主题型页面进行主题块识别：

所述主题块识别模块构建空间向量模型，将一个文本表示为经过TF-IDF权重处理后的向量空间中的一个向量，对网页title中的文字经过TF-IDF权重处理后形成的向量称为主题向量，对整篇网页中的文字进行TF-IDF权重处理后形成的向量称为文档向量；

计算主题向量与文档向量之间的相似度，并通过相似度对所有文档向量进行排序，取其中与主题向量相似度最高的文档向量为主题块，主题块识别模块将主题块发送到信息提取模块，进入步骤S7；

步骤S7、信息提取模块对分块后的页面中的图片进行过滤，获取图片URL，下载图片并将压缩的图片保存路径写入索引，与页面关联，具体是指：

信息提取模块中的图片预处理模块根据管理员预设的过滤条件对图片进行过滤，先过滤掉大小、长宽比、像素等不满足要求的图片(例如尺寸小于80*80的图片等)，将余下的满足要求的图片发送到图片下载模块；

信息提取模块中的图片下载模块获取过滤后的非主题型页面中的第一个页面分块的第一张图片URL，或获取过滤后的主题型页面中主题块的第一张图片URL，并对其进行下载，保存到本地；

信息提取模块中的图片压缩模块对图片进行压缩，并将压缩的图片保存路径写入索引，与页面关联，作为该页面的图片摘要。

所述步骤S4、页面分块模块采用MLPS算法，如图5所示，具体包括以下步骤：

S4.1、页面分块模块输入步骤S2中的DOM树，并从最高层开始读取DOM树，进入步骤S4.2；

S4.2、页面分块模块取出该层的第一个节点，进入步骤S4.3；

S4.6、页面分块模块判断下该节点的下一层是否有布局标签，若有布局标签，则读取该节点的下一层子节点，返回S4.2；否则，则把该节点以及其所有的子节点作为一个分块，并进入步骤S4.7；

S4.8、页面分块模块完成页面的划分，退出页面分块的操作。

其中S4.5中页面分块模块判断该节点是否满足继续分块的规则，具体为：

规则一：如果该节点和它所有子节点的背景颜色，字体颜色和大小都一样，就不要分块；

规则二：如果该节点的字符个数小于管理员预设的阈值1(本实施例设定为30)则不要分块；

规则三：如果该节点的最大子节点小于管理员预设的阈值2(本实施例设定为5)则不要分块；

规则四：如果该节点的最大子节点的高度或者宽度小于管理员预设的阈值3(本实施例设定为15)，则不分块；

规则五：如果该节点的文本长度与各子节点文本长度不一致，则不要分块。

系统管理员通过设定上述规则中的阈值1、阈值2、阈值3，可以控制本系统页面分块的粒度与精度，最终输出结果是一个属性列表，该属性列表存储了各个分块的高度、宽度、背景色、文本内容、外链等信息。

所述布局标签为<div>标签或<table>标签。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于页面分块的图片摘要提取系统，其特征在于，包括：

页面分类模块，用于对预处理后的页面进行分类，分为主题型页面或非主题型页，并将分类后的页面发送给页面分块模块；

和信息提取模块，用于对分块后的页面中的图片进行过滤，获取图片URL，下载图片并将压缩的图片保存路径写入索引，与页面关联；

所述信息提取模块包括：

图片预处理模块，用于根据管理员预设的条件对图片进行过滤，将满足要求的图片发送到图片下载模块；

2.一种基于页面分块的图片摘要提取方法，其特征在于，具体包括以下步骤：

步骤S1、通过信息采集系统从Internet上把页面抓取下来，然后将页面送到页面预处理模块，进入步骤S2；

步骤S6、主题块识别模块从分块后的主题型页面中识别出主题块，并把主题块发送给信息提取模块，进入步骤S7；

步骤S7、信息提取模块对分块后的页面中的图片进行过滤，获取图片URL，下载图片并将压缩的图片保存路径写入索引，与页面关联，具体包括以下步骤：

3.根据权利要求2所述基于页面分块的图片摘要提取方法，其特征在于，所述步骤S2具体包括以下步骤：

S2.3、页面预处理模块把处理后的页面发送给页面分类模块。

4.根据权利要求2所述基于页面分块的图片摘要提取方法，其特征在于，所述步骤S3具体包括以下步骤：

提取上述的3种语义特征，并求出N值：

N＝LinkLength/(LinkLength+ContentLength+PunctuationCount)

若N值大于或等于管理员预设的判断阈值，则页面分类模块识别页面类型为主题型页面；若N值小于判断阈值，则页面分类模块识别页面类型为非主题型页，进入步骤S3.3；

S3.3页面分类模块将分类后的页面发送给页面分块模块。

5.根据权利要求3所述基于页面分块的图片摘要提取方法，其特征在于，所述步骤S4中页面分块模块根据布局标签和视觉特性对页面进行语义块划分，具体包括以下步骤：

S4.2、页面分块模块取出该层的第一个节点，进入步骤S4.3；

S4.6、页面分块模块判断该节点的下一层是否有布局标签，若有布局标签，则读取该节点的下一层子节点，返回S4.2；否则，则把该节点以及其所有的子节点作为一个分块，跳转至步骤S4.7；

S4.8、页面分块模块完成页面的划分，退出页面分块的操作。

6.根据权利要求5所述基于页面分块的图片摘要提取方法，其特征在于，所述步骤S4.5中页面分块模块判断该节点是否满足继续分块的规则，具体包括下述规则：

B、如果该节点的字符个数小于管理员预设的阈值1；

C、如果该节点的最大子节点小于管理员预设的阈值2；

D、如果该节点的最大子节点的高度或者宽度小于管理员预设的阈值3；和E、如果该节点的文本长度与各子节点文本长度不一致；

7.根据权利要求2所述基于页面分块的图片摘要提取方法，其特征在于，所述步骤S4中的布局标签为<div>标签或<table>标签。

8.根据权利要求2所述基于页面分块的图片摘要提取方法，其特征在于，所述步骤S6具体包括以下步骤：