CN101944109B - 一种基于页面分块的图片摘要提取系统及方法 - Google Patents

一种基于页面分块的图片摘要提取系统及方法 Download PDF

Info

Publication number
CN101944109B
CN101944109B CN2010102758449A CN201010275844A CN101944109B CN 101944109 B CN101944109 B CN 101944109B CN 2010102758449 A CN2010102758449 A CN 2010102758449A CN 201010275844 A CN201010275844 A CN 201010275844A CN 101944109 B CN101944109 B CN 101944109B
Authority
CN
China
Prior art keywords
page
module
piecemeal
picture
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010102758449A
Other languages
English (en)
Other versions
CN101944109A (zh
Inventor
董守斌
张朝斌
张凌
李粤
袁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Count Network Co Ltd Of Park In Guangzhou
South China University of Technology SCUT
Original Assignee
Count Network Co Ltd Of Park In Guangzhou
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Count Network Co Ltd Of Park In Guangzhou, South China University of Technology SCUT filed Critical Count Network Co Ltd Of Park In Guangzhou
Priority to CN2010102758449A priority Critical patent/CN101944109B/zh
Publication of CN101944109A publication Critical patent/CN101944109A/zh
Application granted granted Critical
Publication of CN101944109B publication Critical patent/CN101944109B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于页面分块的图片摘要提取系统,包括页面预处理模块、页面分类模块、页面分块模块、主题块识别模块和信息提取模块。本发明还公开了一种基于页面分块的图片摘要提取方法,具体包括:步骤S1、从Internet上把页面抓取下来;步骤S2、页面预处理模块对页面进行预处理;步骤S3、页面分类模块对预处理后的页面分类;步骤S4、页面分块模块进行语义块划分;步骤S5、页面分块模块将主题型页面发送到主题块识别模块,主题块识别模块识别出主题块,并发送给信息提取模块;页面分块模块将非主题型页面发送到信息提取模块;步骤S6、信息提取模块下载图片并与页面关联。本发明具有提取速度快、准确度高、效果好的优点。

Description

一种基于页面分块的图片摘要提取系统及方法
技术领域
本发明涉及图片摘要提取技术领域,尤其涉及一种基于页面分块的图片摘要提取系统及方法。
背景技术
在信息化飞速发展的今天,无论是企业、政府、学校等组织内部还是外部都存在着多种信息源。互联网上的信息量巨大,而组织内部存在的知识文档数量也正呈爆炸性趋势增长。
目前的检索系统,多只提供页面标题、文字摘要与页面快照功能。这样必然不能满足用户日益增长的检索需求。文字摘要是从页面文本中提取与页面和检索词最为相关的文字段作为页面的一种摘要,虽然该摘要在一定程度上也能很好的填补用户对页面的认知盲点,但却缺少页面的直观信息。
发明内容
本发明的目的之一在于克服现有技术的缺点和不足,提供一种基于页面分块的图片摘要提取系统,该系统可以从页面中提取与页面最为相关的图片作为该页面的一种摘要,填补现有技术中的文字摘要不能带来的信息盲点。
本发明的目的之二在于提供一种基于页面分块的图片摘要提取方法,该方法可以从页面中提取与页面最为相关的图片作为该页面的一种摘要,并具有提取速度快、准确度高、用户体验度高和展示效果好的优点。
本发明的目的之一是通过下述技术方案实现的:一种基于页面分块的图片摘要提取系统,包括:
页面预处理模块,用于对页面进行预处理,并把预处理后的页面发送给页面分类模块;
页面分类模块,用于对预处理后的页面进行分类,分为主题型页面或非主题型页,并将分类后的页面发送至页面分块模块;
页面分块模块,用于根据布局标签和视觉特性对页面进行语义块划分,并将分块后的主题型页面发送到主题块识别模块,将分块后的非主题型页面发送到信息提取模块;
主题块识别模块,用于从分块后的主题型页面中识别出主题块,并把主题块发送给信息提取模块;
和信息提取模块,用于对分块后的页面中的图片进行过滤,获取图片URL,下载图片并将压缩的图片保存路径写入索引,与页面关联。
所述信息提取模块包括:
图片预处理模块,用于根据管理员预设的条件对图片进行过滤,将余下的满足要求的图片发送到图片下载模块;
图片下载模块,用于接收图片预处理模块发送的过滤后的图片,获取非主题型页面中的第一个页面分块的第一张图片URL,或主题型页面中主题块的第一张图片URL,对其进行下载,保存到本地;
图片压缩模块,用于对图片下载模块下载的图片进行压缩,并将压缩的图片保存路径写入索引,与页面关联,作为该页面的图片摘要。
本发明的目的之二是通过下述技术方案实现的:一种基于页面分块的图片摘要提取方法,具体包括以下步骤:
步骤S 1、通过信息采集系统从Internet上把页面抓取下来,然后将页面送到页面预处理模块,进入步骤S2;
步骤S2、页面预处理模块对页面进行预处理,并把预处理后的页面发送给页面分类模块,进入步骤S3;
步骤S3、页面分类模块对预处理后的页面进行分类,分为主题型页面或非主题型页面,并将分类后的页面发送给页面分块模块,进入步骤S4;
步骤S4、页面分块模块根据布局标签和视觉特性对页面进行语义块划分,完成页面分块后,进入步骤S5;
步骤S5、根据步骤S3页面类型的判断结果,若是主题型页面,则页面分块模块将分块后的页面发送到主题块识别模块,进入步骤S6;若是非主题型页面,则页面分块模块将分块后的页面发送到信息提取模块,进入步骤S7;
步骤S6、主题块识别模块从分块后的主题型页面中识别出主题块,并把主题块发送到信息提取模块,进入步骤S7;
步骤S7、信息提取模块对分块后的页面中的图片进行过滤,获取图片URL(Uniform/Universal Resource Locator,网页地址),下载图片并将压缩的图片保存路径写入索引,与页面关联,具体包括以下步骤:
S7.1、信息提取模块中的图片预处理模块根据管理员预设的过滤条件对图片进行过滤,将满足要求的图片发送到图片下载模块,进入步骤S7.2;
S7.2、信息提取模块中的图片下载模块获取过滤后的非主题型页面中的第一个页面分块的第一张图片URL,或获取过滤后的主题型页面中主题块的第一张图片URL,并对其进行下载,保存到本地,进入步骤S7.3;
S7.3、信息提取模块中的图片压缩模块对图片进行压缩,并将压缩的图片保存路径写入索引,与页面关联,作为该页面的图片摘要。
为更好地实现本发明,所述步骤S2具体包括以下步骤:
S2.1、页面预处理模块对页面的HTML代码进行修复和规范化整理,进入步骤S2.2;
S2.2、页面预处理模块对整理好的规范网页构造DOM树,并对DOM树作裁剪,删除对后续信息提取没有用处的节点,并保留字体大小、粗细和颜色的视觉属性信息,进入步骤S2.3;
S2.3、页面预处理模块把处理后的页面发送给页面分类模块。
优选的,所述步骤S3具体包括以下步骤:
S3.1、页面分类模块提取页面的锚文本与页面的非锚文本,进入步骤S3.2;
S3.2、页面分类模块采用3个变量来描述页面的语义特征:用LinkLength表示锚文本文字长度、用ContentLength表示非锚文本文字长度、用PunctuationCount表示页面内标点符号的数目;
提取上述的3种语义特征,并求出N值:
N=LinkLength/(LinkLength+ContentLength+PunctuationCount)
若N值大于或等于预设的判断阈值,则页面分类模块识别页面类型为主题型页面;若N值小于判断阈值,则页面分类模块识别页面类型为非主题型页,进入步骤S3.3;
S3.3页面分类模块将分类后的页面发送给页面分块模块。
优选的,所述步骤S4中页面分块模块根据布局标签和视觉特性对页面进行语义块划分,具体是指页面分块模块采用MLPS算法(Multi-level PageSegmentation,分层次页面分块算法)对页面进行语义块划分,具体包括以下步骤:
S4.1、页面分块模块输入步骤S2.2中的DOM树,并从最高层开始读取DOM树,进入步骤S4.2;
S4.2、页面分块模块取出该层的第一个节点,进入步骤S4.3;
S4.3、页面分块模块判断该节点是否为布局标签,若不是,则进入步骤S4.4;若是,则跳转至步骤S4.5;
S4.4、页面分块模块判断同层是否存在下一个节点,若存在,则取出该节点,并返回步骤S4.3;若不存在,则跳转至步骤S4.7;
S4.5、页面分块模块判断该节点是否满足继续分块的规则,若不满足,则把该节点以及其所有的子节点作为一个分块,跳转至步骤S4.7;若满足继续分块的规则,则进入步骤S4.6;
S4.6、页面分块模块判断该节点的下一层是否有布局标签,若有布局标签,则读取该节点的下一层子节点,返回S4.2;否则,则把该节点以及其所有的子节点作为一个分块,并进入步骤S4.7;
S4.7、页面分块模块判断该层是否为DOM树最底层,若不是,则读取下一层节点,返回步骤S4.2;若是,跳转至步骤S4.8;
S4.8、页面分块模块完成页面的划分,退出页面分块的操作。
优选的,所述步骤S4.5中页面分块模块判断该节点是否满足继续分块的规则,具体包括下述规则:
A、如果该节点和它所有子节点的背景颜色、字体颜色和大小都一样;
B、如果该节点的字符个数小于管理员预设的阈值1;
C、如果该节点的最大子节点小于管理员预设的阈值2;
D、如果该节点的最大子节点的高度或者宽度小于管理员预设的阈值3;
和E、如果该节点的文本长度与各子节点文本长度不一致;
若满足上述条件之一,则不继续分块;若上述条件都不满足,则继续分块。
优选的,所述步骤S4中的布局标签为<div>标签或<table>标签。
优选的,所述步骤S6具体包括以下步骤:
S6.1、主题块识别模块构建空间向量模型,将一个文本表示为经过TF-IDF权重处理后的向量空间中的一个向量,其中对网页标题中的文字进行TF-IDF权重处理后形成的向量为主题向量,对整篇网页中的文字进行TF-IDF权重处理后形成的向量为文档向量;
S6.2、主题块识别模块计算主题向量与文档向量之间的相似度,并通过相似度对所有文档向量进行排序,取其中与主题向量相似度最高的文档向量为主题块,主题块识别模块将主题块发送到信息提取模块。
本发明与现有技术相比,具有下述优点和有益效果:
第一、本发明可以从页面中提取与页面最为相关的图片作为该页面的一种摘要,即图片摘要;图片摘要提取技术,能够使用户更容易、更直观地从图片这个更为直接的对象获取网页信息;
第二、提取速度快:简单易于实施的图片提取方法,提取速度快,特别适用于在线检索系统;
第三、提取准确度高:通过计算图片与网页的主题相关性,从网页众多的图片中提取与网页主题最为相关的图片进行展示;
第四、用户体验度高:通过主题相关的图片的展示,使得用户更容易从检索结果列表中挑选自己的目标网页;
第五、展示效果好:检索结果的摘要从简单的文字展示扩展为带图片的摘要,将使得检索结果页面更加美观,可以有效地提高检索系统的性能。
附图说明
图1是本实施例中一种基于页面分块的图片摘要系统的结构示意图;
图2是本实施例中信息提取模块的结构示意图;
图3是本实施例中一种基于页面分块的图片摘要方法的流程示意图;
图4是本实施例中信息提取模块提取图片的流程图;
图5是本实施例中页面分块模块对页面进行分块的流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
一种基于页面分块的图片摘要提取系统,如图1所示,包括:
页面预处理模块,用于对页面进行预处理,并把预处理后的页面发送给页面分类模块;
页面分类模块,用于对预处理后的页面进行分类,分为主题型页面或非主题型页,并将分类后的页面发送至页面分块模块;
页面分块模块,用于根据布局标签和视觉特性对页面进行语义块划分,并将分块后的主题型页面发送到主题块识别模块,将分块后的非主题型页面发送到信息提取模块;
主题块识别模块,用于从分块后的主题型页面中识别出主题块,并把主题块发送给信息提取模块;
和信息提取模块,用于对分块后的页面中的图片进行过滤,获取图片URL,下载图片并将压缩的图片保存路径写入索引,与页面关联。
如图2所示,为更好的实现本发明,所述信息提取模块包括:
图片预处理模块,用于根据管理员预设的条件对图片进行过滤,将余下的满足要求的图片发送到图片下载模块;
图片下载模块,用于接收图片预处理模块发送的过滤后的图片,获取非主题型页面中的第一个页面分块的第一张图片URL,或主题型页面中主题块的第一张图片URL,对其进行下载,保存到本地;
图片压缩模块,用于对图片下载模块下载的图片进行压缩,并将压缩的图片保存路径写入索引,与页面关联,作为该页面的图片摘要。
一种应用于上述系统的基于页面分块的图片摘要方法,如图3所示,具体包括以下步骤:
步骤S1、通过信息采集系统(或称爬虫,crawler)从Internet上把页面抓取下来,然后将页面送到页面预处理模块,进入步骤S2;
步骤S2、页面预处理模块对页面的HTML代码进行修复和规范化整理,然后对整理好的规范网页构造DOM树,并对DOM树作裁剪,删除对后续信息提取没有用处的节点,即<STYLE>、<SCRIPT>等标签的节点,以提高后续对DOM操作的效率;同时,保留字体大小、粗细、颜色等视觉属性信息,以供后续的页面分块模块使用;
页面预处理模块把预处理后的页面发送到页面分类模块中,进入步骤S3;
步骤S3、所述页面分类模块提取页面的锚文本与页面的非锚文本,采用3个变量来描述页面的语义特征:用LinkLength表示锚文本文字长度、用ContentLength表示非锚文本文字长度、用PunctuationCount表示页面内标点符号的数目;提取上述3种语义特征,并求出N值:
N=LinkLength/(LinkLength+ContentLength+PunctuationCount)
若N值大于或等于管理员预设的判断阈值,则页面分类模块识别页面类型为主题型页面;若N值小于判断阈值,则页面分类模块识别页面类型为非主题型页;
上述判断阈值由管理员设定,本实施例设定为0.6;
页面分类模块把分类好的页面发送到页面分块模块中,进入步骤S4;
步骤S4、页面分块模块采用MLPS算法,利用布局标签和视觉特性对页面进行语义块划分,但同时注意视觉属性相似块的合并,避免在含有大量布局标签的网页中形成大量的语义块,完成页面分块后,进入步骤S5;
步骤S5、如图4所示,根据步骤S3页面类型的判断结果,若是主题型页面,则页面分块模块将分块后的页面发送到主题块识别模块,进入步骤S6;若是非主题型页面,则页面分块模块将分块后的页面发送到信息提取模块,进入步骤S7;
步骤S6、主题块识别模块对分块后的主题型页面进行主题块识别:
所述主题块识别模块构建空间向量模型,将一个文本表示为经过TF-IDF权重处理后的向量空间中的一个向量,对网页title中的文字经过TF-IDF权重处理后形成的向量称为主题向量,对整篇网页中的文字进行TF-IDF权重处理后形成的向量称为文档向量;
计算主题向量与文档向量之间的相似度,并通过相似度对所有文档向量进行排序,取其中与主题向量相似度最高的文档向量为主题块,主题块识别模块将主题块发送到信息提取模块,进入步骤S7;
步骤S7、信息提取模块对分块后的页面中的图片进行过滤,获取图片URL,下载图片并将压缩的图片保存路径写入索引,与页面关联,具体是指:
信息提取模块中的图片预处理模块根据管理员预设的过滤条件对图片进行过滤,先过滤掉大小、长宽比、像素等不满足要求的图片(例如尺寸小于80*80的图片等),将余下的满足要求的图片发送到图片下载模块;
信息提取模块中的图片下载模块获取过滤后的非主题型页面中的第一个页面分块的第一张图片URL,或获取过滤后的主题型页面中主题块的第一张图片URL,并对其进行下载,保存到本地;
信息提取模块中的图片压缩模块对图片进行压缩,并将压缩的图片保存路径写入索引,与页面关联,作为该页面的图片摘要。
所述步骤S4、页面分块模块采用MLPS算法,如图5所示,具体包括以下步骤:
S4.1、页面分块模块输入步骤S2中的DOM树,并从最高层开始读取DOM树,进入步骤S4.2;
S4.2、页面分块模块取出该层的第一个节点,进入步骤S4.3;
S4.3、页面分块模块判断该节点是否为布局标签,若不是,则进入步骤S4.4;若是,则跳转至步骤S4.5;
S4.4、页面分块模块判断同层是否存在下一个节点,若存在,则取出该节点,并返回步骤S4.3;若不存在,则跳转至步骤S4.7;
S4.5、页面分块模块判断该节点是否满足继续分块的规则,若不满足,则把该节点以及其所有的子节点作为一个分块,跳转至步骤S4.7;若满足继续分块的规则,则进入步骤S4.6;
S4.6、页面分块模块判断下该节点的下一层是否有布局标签,若有布局标签,则读取该节点的下一层子节点,返回S4.2;否则,则把该节点以及其所有的子节点作为一个分块,并进入步骤S4.7;
S4.7、页面分块模块判断该层是否为DOM树最底层,若不是,则读取下一层节点,返回步骤S4.2;若是,跳转至步骤S4.8;
S4.8、页面分块模块完成页面的划分,退出页面分块的操作。
其中S4.5中页面分块模块判断该节点是否满足继续分块的规则,具体为:
规则一:如果该节点和它所有子节点的背景颜色,字体颜色和大小都一样,就不要分块;
规则二:如果该节点的字符个数小于管理员预设的阈值1(本实施例设定为30)则不要分块;
规则三:如果该节点的最大子节点小于管理员预设的阈值2(本实施例设定为5)则不要分块;
规则四:如果该节点的最大子节点的高度或者宽度小于管理员预设的阈值3(本实施例设定为15),则不分块;
规则五:如果该节点的文本长度与各子节点文本长度不一致,则不要分块。
若满足上述条件之一,则不继续分块;若上述条件都不满足,则继续分块。
系统管理员通过设定上述规则中的阈值1、阈值2、阈值3,可以控制本系统页面分块的粒度与精度,最终输出结果是一个属性列表,该属性列表存储了各个分块的高度、宽度、背景色、文本内容、外链等信息。
所述布局标签为<div>标签或<table>标签。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于页面分块的图片摘要提取系统,其特征在于,包括:
页面预处理模块,用于对页面进行预处理,并把预处理后的页面发送给页面分类模块;
页面分类模块,用于对预处理后的页面进行分类,分为主题型页面或非主题型页,并将分类后的页面发送给页面分块模块;
页面分块模块,用于根据布局标签和视觉特性对页面进行语义块划分,并将分块后的主题型页面发送到主题块识别模块,将分块后的非主题型页面发送到信息提取模块;
主题块识别模块,用于从分块后的主题型页面中识别出主题块,并把主题块发送给信息提取模块;
和信息提取模块,用于对分块后的页面中的图片进行过滤,获取图片URL,下载图片并将压缩的图片保存路径写入索引,与页面关联;
所述信息提取模块包括:
图片预处理模块,用于根据管理员预设的条件对图片进行过滤,将满足要求的图片发送到图片下载模块;
图片下载模块,用于接收图片预处理模块发送的过滤后的图片,获取非主题型页面中的第一个页面分块的第一张图片URL,或主题型页面中主题块的第一张图片URL,对其进行下载,保存到本地;
图片压缩模块,用于对图片下载模块下载的图片进行压缩,并将压缩的图片保存路径写入索引,与页面关联,作为该页面的图片摘要。
2.一种基于页面分块的图片摘要提取方法,其特征在于,具体包括以下步骤:
步骤S1、通过信息采集系统从Internet上把页面抓取下来,然后将页面送到页面预处理模块,进入步骤S2;
步骤S2、页面预处理模块对页面进行预处理,并把预处理后的页面发送给页面分类模块,进入步骤S3;
步骤S3、页面分类模块对预处理后的页面进行分类,分为主题型页面或非主题型页面,并将分类后的页面发送给页面分块模块,进入步骤S4;
步骤S4、页面分块模块根据布局标签和视觉特性对页面进行语义块划分,完成页面分块后,进入步骤S5;
步骤S5、根据步骤S3页面类型的判断结果,若是主题型页面,则页面分块模块将分块后的页面发送到主题块识别模块,进入步骤S6;若是非主题型页面,则页面分块模块将分块后的页面发送到信息提取模块,进入步骤S7;
步骤S6、主题块识别模块从分块后的主题型页面中识别出主题块,并把主题块发送给信息提取模块,进入步骤S7;
步骤S7、信息提取模块对分块后的页面中的图片进行过滤,获取图片URL,下载图片并将压缩的图片保存路径写入索引,与页面关联,具体包括以下步骤:
S7.1、信息提取模块中的图片预处理模块根据管理员预设的过滤条件对图片进行过滤,将满足要求的图片发送到图片下载模块,进入步骤S7.2;
S7.2、信息提取模块中的图片下载模块获取过滤后的非主题型页面中的第一个页面分块的第一张图片URL,或获取过滤后的主题型页面中主题块的第一张图片URL,并对其进行下载,保存到本地,进入步骤S7.3;
S7.3、信息提取模块中的图片压缩模块对图片进行压缩,并将压缩的图片保存路径写入索引,与页面关联,作为该页面的图片摘要。
3.根据权利要求2所述基于页面分块的图片摘要提取方法,其特征在于,所述步骤S2具体包括以下步骤:
S2.1、页面预处理模块对页面的HTML代码进行修复和规范化整理,进入步骤S2.2;
S2.2、页面预处理模块对整理好的规范网页构造DOM树,并对DOM树作裁剪,删除对后续信息提取没有用处的节点,并保留字体大小、粗细和颜色的视觉属性信息,进入步骤S2.3;
S2.3、页面预处理模块把处理后的页面发送给页面分类模块。
4.根据权利要求2所述基于页面分块的图片摘要提取方法,其特征在于,所述步骤S3具体包括以下步骤:
S3.1、页面分类模块提取页面的锚文本与页面的非锚文本,进入步骤S3.2;
S3.2、页面分类模块采用3个变量来描述页面的语义特征:用LinkLength表示锚文本文字长度、用ContentLength表示非锚文本文字长度、用PunctuationCount表示页面内标点符号的数目;
提取上述的3种语义特征,并求出N值:
N=LinkLength/(LinkLength+ContentLength+PunctuationCount)
若N值大于或等于管理员预设的判断阈值,则页面分类模块识别页面类型为主题型页面;若N值小于判断阈值,则页面分类模块识别页面类型为非主题型页,进入步骤S3.3;
S3.3页面分类模块将分类后的页面发送给页面分块模块。
5.根据权利要求3所述基于页面分块的图片摘要提取方法,其特征在于,所述步骤S4中页面分块模块根据布局标签和视觉特性对页面进行语义块划分,具体包括以下步骤:
S4.1、页面分块模块输入步骤S2.2中的DOM树,并从最高层开始读取DOM树,进入步骤S4.2;
S4.2、页面分块模块取出该层的第一个节点,进入步骤S4.3;
S4.3、页面分块模块判断该节点是否为布局标签,若不是,则进入步骤S4.4;若是,则跳转至步骤S4.5;
S4.4、页面分块模块判断同层是否存在下一个节点,若存在,则取出该节点,并返回步骤S4.3;若不存在,则跳转至步骤S4.7;
S4.5、页面分块模块判断该节点是否满足继续分块的规则,若不满足,则把该节点以及其所有的子节点作为一个分块,跳转至步骤S4.7;若满足继续分块的规则,则进入步骤S4.6;
S4.6、页面分块模块判断该节点的下一层是否有布局标签,若有布局标签,则读取该节点的下一层子节点,返回S4.2;否则,则把该节点以及其所有的子节点作为一个分块,跳转至步骤S4.7;
S4.7、页面分块模块判断该层是否为DOM树最底层,若不是,则读取下一层节点,返回步骤S4.2;若是,跳转至步骤S4.8;
S4.8、页面分块模块完成页面的划分,退出页面分块的操作。
6.根据权利要求5所述基于页面分块的图片摘要提取方法,其特征在于,所述步骤S4.5中页面分块模块判断该节点是否满足继续分块的规则,具体包括下述规则:
A、如果该节点和它所有子节点的背景颜色、字体颜色和大小都一样;
B、如果该节点的字符个数小于管理员预设的阈值1;
C、如果该节点的最大子节点小于管理员预设的阈值2;
D、如果该节点的最大子节点的高度或者宽度小于管理员预设的阈值3;和E、如果该节点的文本长度与各子节点文本长度不一致;
若满足上述条件之一,则不继续分块;若上述条件都不满足,则继续分块。
7.根据权利要求2所述基于页面分块的图片摘要提取方法,其特征在于,所述步骤S4中的布局标签为<div>标签或<table>标签。
8.根据权利要求2所述基于页面分块的图片摘要提取方法,其特征在于,所述步骤S6具体包括以下步骤:
S6.1、主题块识别模块构建空间向量模型,将一个文本表示为经过TF-IDF权重处理后的向量空间中的一个向量,其中对网页标题中的文字进行TF-IDF权重处理后形成的向量为主题向量,对整篇网页中的文字进行TF-IDF权重处理后形成的向量为文档向量;
S6.2、主题块识别模块计算主题向量与文档向量之间的相似度,并通过相似度对所有文档向量进行排序,取其中与主题向量相似度最高的文档向量为主题块,主题块识别模块将主题块发送到信息提取模块。
CN2010102758449A 2010-09-06 2010-09-06 一种基于页面分块的图片摘要提取系统及方法 Expired - Fee Related CN101944109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102758449A CN101944109B (zh) 2010-09-06 2010-09-06 一种基于页面分块的图片摘要提取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102758449A CN101944109B (zh) 2010-09-06 2010-09-06 一种基于页面分块的图片摘要提取系统及方法

Publications (2)

Publication Number Publication Date
CN101944109A CN101944109A (zh) 2011-01-12
CN101944109B true CN101944109B (zh) 2012-06-27

Family

ID=43436100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102758449A Expired - Fee Related CN101944109B (zh) 2010-09-06 2010-09-06 一种基于页面分块的图片摘要提取系统及方法

Country Status (1)

Country Link
CN (1) CN101944109B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185253A1 (en) * 2011-01-18 2012-07-19 Microsoft Corporation Extracting text for conversion to audio
CN102982046B (zh) * 2011-09-07 2017-09-26 中国移动通信集团公司 一种网页数据压缩存储方法和系统
CN102624647A (zh) * 2012-01-12 2012-08-01 百度在线网络技术(北京)有限公司 一种对移动终端的消息进行处理的方法及其装置
CN103377233A (zh) * 2012-04-26 2013-10-30 腾讯科技(深圳)有限公司 网页分享方法及相应的系统
CN103425644B (zh) * 2012-05-14 2016-04-06 腾讯科技(深圳)有限公司 网页正文中图片的提取方法及装置
CN103577445B (zh) * 2012-07-31 2017-06-20 蓝网科技股份有限公司 在浏览器上快速显示医学图像的方法
CN103678407A (zh) * 2012-09-24 2014-03-26 富士通株式会社 数据处理方法和数据处理设备
CN103778104B (zh) * 2012-10-22 2017-05-03 富士通株式会社 信息处理装置、信息处理方法以及电子设备
CN107885862B (zh) * 2012-12-20 2020-04-24 联想(北京)有限公司 一种图像显示方法和装置
CN103279537A (zh) * 2013-05-31 2013-09-04 上海世范软件技术有限公司 一种网页数据获取方法及装置
CN104123363B (zh) * 2014-07-21 2018-07-13 北京奇虎科技有限公司 网页主图提取方法及装置
CN105574047A (zh) * 2014-10-17 2016-05-11 任子行网络技术股份有限公司 一种基于网站主页特征分析的中文网站分类方法和系统
CN104817002A (zh) * 2015-03-25 2015-08-05 浙江亿能电梯有限公司 一种改进型小型电梯
CN105760540A (zh) * 2016-03-15 2016-07-13 广州阿里巴巴文学信息技术有限公司 用于对网页页面进行处理的方法、设备和电子设备
CN106326451B (zh) * 2016-08-26 2019-11-08 武汉大学 一种基于视觉特征提取的网页传感信息块判决方法
CN106844441A (zh) * 2016-12-15 2017-06-13 北京容联光辉科技有限公司 一种信息分享的方法及装置
CN108509469A (zh) * 2017-05-17 2018-09-07 苏州纯青智能科技有限公司 一种基于分块的网页正文信息提取方法
CN109492177B (zh) * 2018-11-02 2019-12-17 中国搜索信息科技股份有限公司 一种基于网页语义结构的网页分块方法
CN110175288B (zh) * 2019-05-23 2020-05-19 中国搜索信息科技股份有限公司 一种面向青少年群体的文字和图像数据的过滤方法及系统
CN110781195B (zh) * 2019-08-19 2021-03-12 腾讯科技(深圳)有限公司 一种兴趣点信息更新的系统、方法和装置
CN110673846B (zh) * 2019-09-04 2023-02-17 北京泰和纬度网络技术有限公司 一种用于网页分块的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1349083A1 (en) * 2002-03-27 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Rule-based data extraction from web pages
KR100478903B1 (ko) * 2004-10-05 2005-03-28 (주)아사달 매개 파일을 이용한 웹사이트 편집 장치 및 방법
CN101227542A (zh) * 2007-01-18 2008-07-23 富士施乐株式会社 图像处理系统、图像处理方法及计算机可读介质
CN101226548A (zh) * 2008-01-11 2008-07-23 孟小峰 基于视觉的Web数据抽取系统和方法
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294476A1 (en) * 2005-06-23 2006-12-28 Microsoft Corporation Browsing and previewing a list of items

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1349083A1 (en) * 2002-03-27 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Rule-based data extraction from web pages
KR100478903B1 (ko) * 2004-10-05 2005-03-28 (주)아사달 매개 파일을 이용한 웹사이트 편집 장치 및 방법
CN101227542A (zh) * 2007-01-18 2008-07-23 富士施乐株式会社 图像处理系统、图像处理方法及计算机可读介质
CN101226548A (zh) * 2008-01-11 2008-07-23 孟小峰 基于视觉的Web数据抽取系统和方法
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置

Also Published As

Publication number Publication date
CN101944109A (zh) 2011-01-12

Similar Documents

Publication Publication Date Title
CN101944109B (zh) 一种基于页面分块的图片摘要提取系统及方法
CN108038119A (zh) 利用新词发现投资标的的方法、装置及存储介质
CN104598577B (zh) 一种网页正文的提取方法
Peters et al. Content extraction using diverse feature sets
EP2633432A1 (en) Extraction of content from a web page
CN104102639B (zh) 基于文本分类的推广触发方法和装置
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN104504109A (zh) 图片搜索方法和装置
Wu et al. Automatic web content extraction by combination of learning and grouping
CN102663023A (zh) 一种提取网页内容的实现方法
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN102542061A (zh) 一种产品的智能分类方法
CN105550359B (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN109446410A (zh) 知识点推送方法、装置及计算机可读存储介质
CN103827852A (zh) 在搜索引擎结果页面上聚集web页面
CN108153781A (zh) 提取业务领域的关键词的方法和装置
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN103778141A (zh) 一种混合pdf图书目录自动抽取算法
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN104077385A (zh) 一种文件的分类及检索方法
CN104598561A (zh) 一种基于文本的农业视频智能分类方法及装置
CN108388556B (zh) 同类实体的挖掘方法及系统
CN106897289B (zh) 信息搜索的优化方法及装置
KR100876214B1 (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
CN101673263B (zh) 视频内容的搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120627

Termination date: 20180906