CN106649767B - 一种网页信息抽取方法及装置 - Google Patents

一种网页信息抽取方法及装置 Download PDF

Info

Publication number
CN106649767B
CN106649767B CN201611226578.4A CN201611226578A CN106649767B CN 106649767 B CN106649767 B CN 106649767B CN 201611226578 A CN201611226578 A CN 201611226578A CN 106649767 B CN106649767 B CN 106649767B
Authority
CN
China
Prior art keywords
block
text
page
webpage
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611226578.4A
Other languages
English (en)
Other versions
CN106649767A (zh
Inventor
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201611226578.4A priority Critical patent/CN106649767B/zh
Publication of CN106649767A publication Critical patent/CN106649767A/zh
Application granted granted Critical
Publication of CN106649767B publication Critical patent/CN106649767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Abstract

本发明公开一种网页信息抽取方法及装置,该方法基于网页中各网页元素的位置信息及预定的划分标准,在将网页页面划分为多于一个的页面块的基础上,通过基于待抽取部分在网页页面中对应的相应视觉特征需求信息,从划分所得的各个页面块中确定出待抽取部分所对应的信息块,如基于网页正文在网页页面中的视觉特征需求信息,从多于一个的页面块中确定出正文块等,进而在此基础上,可实现从确定出的待抽取部分对应的信息块中进行所需的信息抽取。可见,本发明实现了一种基于网页分割及待抽取部分在网页页面中的视觉特征的网页信息抽取方案,由于待抽取部分在网页页面中的视觉特征具有较高的确定性,从而应用本发明方案可有效提升网页信息的提取准确率。

Description

一种网页信息抽取方法及装置
技术领域
本发明属于互联网信息处理技术领域,尤其涉及一种网页信息抽取方法及装置。
背景技术
在互联网新闻聚合或新闻推荐等应用中,需要使用爬虫爬取大量的新闻网站,然后将爬取结果中具有相关性的新闻聚合在一起,并根据用户的阅读习惯建立起用户的兴趣模型,最终根据用户的兴趣模型将聚合的相关新闻推送至对其感兴趣的用户。
新闻网站通常包括首页和新闻页面两种不同的页面,首页中一般会包含一个最新更新新闻的新闻列表,新闻页面则包含具体的新闻题目、发布者、发布时间、关键词、正文等内容,除此之外,新闻页面往往还包括各种广告信息、用户评论或用于跳转至其他内容的多个链接等噪音数据(相对于新闻内容而言)。在互联网新闻聚合或新闻推荐等应用中,通常仅需提取新闻页面中新闻的题目、正文及关键词等用户较为关心的内容,而对于其他内容如发布者、上述噪音数据等则一般不予提取。
传统的新闻内容提取方式,往往只是根据新闻页面对应的HTML(HyperTextMarkup Language,超文本标记语言)网页文件中的HTML标签密度等信息,来识别并提取新闻内容,比如一般来说,正文内容对应的HTML标签密度较低,从而传统的新闻正文自动识别及提取方式,会将标签密度较低的页面内容识别为新闻正文,然而,此种基于HTML标签密度来识别、提取新闻内容的方式,存在信息识别、提取准确率低的问题,如很多非正文的内容也常被识别为新闻正文。
发明内容
有鉴于此,本发明的目的在于提供一种网页信息抽取方法及装置,旨在解决现有技术存在的上述问题,提升网页信息的提取准确率。
为此,本发明公开如下技术方案:
一种网页信息抽取方法,包括:
基于网页中各网页元素的视觉信息及预定的第一划分标准,将网页页面划分为多于一个的页面块;
从所述多于一个的页面块中确定出符合第一条件的至少一个第一页面块;其中,所述第一条件为基于正文题目在网页页面中的第一视觉特征需求信息所确定的条件;
在所述至少一个第一页面块中搜索出与预先获得的正文题目属性值相匹配的题目元素,并从所述题目元素所在的第一页面块中确定出仅包含所述题目元素的题目块,抽取所述题目块中的题目信息;
从所述多于一个的页面块中确定出符合第二条件的正文块,并抽取所述正文块中的正文信息;其中,所述第二条件为基于网页正文在网页页面中的第二视觉特征需求信息所确定的条件,所述正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;
依据所述题目块和所述正文块在页面中对应的视觉信息,并结合正文关键词在网页页面中的第三视觉特征需求信息,确定出关键词块,并抽取所述关键词块中的关键词信息;所述关键词块为所述多于一个的页面块中的某一个页面块的子块。
上述方法,优选的,所述网页元素的视觉信息包括网页元素在网页中的布局特征信息,则所述基于网页中各网页元素的视觉信息及预定的第一划分标准,将网页页面划分为多于一个的页面块,包括:
基于网页中各网页元素的布局特征信息,确定网页页面的各个分割线;
依据所述分割线及预定的第一划分标准,将网页页面划分为多于一个的页面块。
上述方法,优选的,所述第一视觉特征需求信息包括正文题目在网页页面中的第一位置需求信息,则所述从所述多于一个的页面块中确定出符合第一条件的至少一个第一页面块,包括:
从所述多于一个的页面块中,确定出在网页页面中所处的位置符合第一位置需求信息的至少一个第一页面块。
上述方法,优选的,所述在所述至少一个第一页面块中搜索出与预先获得的正文题目属性值相匹配的题目元素,并从所述题目元素所对应的第一页面块中确定出仅包含所述题目元素的题目块,包括:
从所述至少一个第一页面块对应的网页源文件信息中,搜索出与预先从网页源文件的标头信息中获得的正文题目属性值相匹配的题目元素,并在搜索成功时不再对所述至少一个第一页面块中未搜索的第一页面块进行搜索;
基于所述题目元素所在的第一页面块中各网页元素的视觉信息,及预定的第二划分标准,将所述题目元素所在的第一页面块划分为多于一个的第一页面块子块;
确定出所述题目元素所在的第一页面块子块;
判断所述题目元素所在的第一页面块子块是否仅包含所述题目元素,若是,则确定出所述题目元素所在的第一页面块子块为所述题目块;若否,则继续对所述题目元素所在的第一页面块子块进行划分,直至确定出仅包含所述题目元素的题目块为止。
上述方法,优选的,所述第二条件所依据的第二视觉特征需求信息为:基于预设的候选正文视觉需求信息及正文文字在预定视觉特征上的相似度所确定的信息,则所述从所述多于一个的页面块中确定出符合第二条件的正文块,包括:
从所述多于一个的页面块中确定出符合候选正文视觉需求信息的一个最小块作为候选正文块,所述候选正文视觉需求信息包括:在网页页面中所占面积与网页页面总面积的比值不低于第一预定阈值,且在网页页面中所处的位置符合第二位置需求信息;所述候选正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;
从所述候选正文块中确定出文字长度最大的子块作为正文种子块;
在所述候选正文块中,若所述正文种子块的上部存在与所述正文种子块相邻的上位子块,且所述上位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述上位子块,并将合并后所得的块作为新的正文种子块;
在所述候选正文块中,若所述正文种子块的下部存在与所述正文种子块相邻的下位子块,且所述下位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述下位子块,并将合并后所得的块作为新的正文种子块,直至所述候选正文块中不存在所述相似度不低于第二预定阈值的上位子块及下位子块为止,合并结束后所得的最新正文种子块作为所述正文块;其中,所述上位子块及所述下位子块为所述候选正文块的子块。
上述方法,优选的,所述依据所述题目块和所述正文块在页面中对应的视觉信息,并结合正文关键词在网页页面中的第三视觉特征需求信息,确定出关键词块,包括:
依据所述题目块和所述正文块在页面中对应的视觉信息,确定出候选关键词总块,所述候选关键词总块为网页页面中处于所述题目块及所述正文块之间的块;
基于候选关键词总块中各网页元素的视觉信息,及预定的第三划分标准,将所述候选关键词总块划分为多于一个的候选关键词块;
从各个候选关键词块中确定出符合第三视觉特征需求信息的关键词块,所述关键词块为某一个候选关键词块或某一个候选关键词块的子块;
若未能从各个候选关键词块中确定出关键词块,则将处于所述正文块正下方的块作为新的候选关键词总块,并从所述新的候选关键词总块中确定符合第三视觉特征需求信息的关键词块。
一种网页信息抽取装置,包括:
第一划分单元,用于基于网页中各网页元素的视觉信息及预定的第一划分标准,将网页页面划分为多于一个的页面块;
确定单元,用于从所述多于一个的页面块中确定出符合第一条件的至少一个第一页面块;其中,所述第一条件为基于正文题目在网页页面中的第一视觉特征需求信息所确定的条件;
第一抽取单元,用于在所述至少一个第一页面块中搜索出与预先获得的正文题目属性值相匹配的题目元素,并从所述题目元素所在的第一页面块中确定出仅包含所述题目元素的题目块,抽取所述题目块中的题目信息;
第二抽取单元,用于从所述多于一个的页面块中确定出符合第二条件的正文块,并抽取所述正文块中的正文信息;其中,所述第二条件为基于网页正文在网页页面中的第二视觉特征需求信息所确定的条件,所述正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;
第三抽取单元,用于依据所述题目块和所述正文块在页面中对应的视觉信息,并结合正文关键词在网页页面中的第三视觉特征需求信息,确定出关键词块,并抽取所述关键词块中的关键词信息;所述关键词块为所述多于一个的页面块中的某一个页面块的子块。
上述装置,优选的,所述第一视觉特征需求信息包括正文题目在网页页面中的第一位置需求信息,则所述确定单元,进一步用于:从所述多于一个的页面块中,确定出在网页页面中所处的位置符合第一位置信息的至少一个第一页面块;
所述第一抽取单元,进一步用于:
从所述至少一个第一页面块对应的网页源文件信息中,搜索出与预先从网页源文件的标头信息中获得的正文题目属性值相匹配的题目元素,并在搜索成功时不再对所述至少一个第一页面块中未搜索的第一页面块进行搜索;基于所述题目元素所在的第一页面块中各网页元素的视觉信息,及预定的第二划分标准,将所述题目元素所在的第一页面块划分为多于一个的第一页面块子块;确定出所述题目元素所在的第一页面块子块;判断所述题目元素所在的第一页面块子块是否仅包含所述题目元素,若是,则确定出所述题目元素所在的第一页面块子块为所述题目块;若否,则继续对所述题目元素所在的第一页面块子块进行划分,直至确定出仅包含所述题目元素的题目块为止。
上述装置,优选的,所述第二条件所依据的第二视觉特征需求信息为:基于预设的候选正文视觉需求信息及正文文字在预定视觉特征上的相似度所确定的条件,则所述第二抽取单元从所述多于一个的页面块中确定出符合第二条件的正文块,进一步包括:
从所述多于一个的页面块中确定出符合候选正文视觉需求信息的一个最小块作为候选正文块,所述候选正文视觉需求信息包括:在网页页面中所占面积与网页页面总面积的比值不低于第一预定阈值,且在网页页面中所处的位置符合第二位置需求信息;所述候选正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;
从所述候选正文块中确定出文字长度最大的子块作为正文种子块;
在所述候选正文块中,若所述正文种子块的上部存在与所述正文种子块相邻的上位子块,且所述上位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述上位子块,并将合并后所得的块作为新的正文种子块;
在所述候选正文块中,若所述正文种子块的下部存在与所述正文种子块相邻的下位子块,且所述下位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述下位子块,并将合并后所得的块作为新的正文种子块,直至所述候选正文块中不存在所述相似度不低于第二预定阈值的上位子块及下位子块为止,合并结束后所得的最新正文种子块作为所述正文块;其中,所述上位子块及所述下位子块为所述候选正文块的子块。
上述装置,优选的,所述第三抽取单元确定出关键词块,进一步包括:
依据所述题目块和所述正文块在页面中对应的视觉信息,确定出候选关键词总块,所述候选关键词总块为网页页面中处于所述题目块及所述正文块之间的块;基于候选关键词总块中各网页元素的视觉信息,及预定的第三划分标准,将所述候选关键词总块划分为多于一个的候选关键词块;从各个候选关键词块中确定出符合第三视觉特征需求信息的关键词块,所述关键词块为某一个候选关键词块或某一个候选关键词块的子块;若未能从各个候选关键词块中确定出关键词块,则将处于所述正文块正下方的块作为新的候选关键词总块,并从所述新的候选关键词总块中确定符合第三视觉特征需求信息的关键词块。
由以上方案可知,本发明公开的网页信息抽取方法,在基于网页中各网页元素的视觉信息及预定的划分标准,将网页页面划分为多于一个的页面块的基础上,通过基于待抽取部分在网页页面中对应的相应视觉特征需求信息,从划分所得的各个页面块中确定出待抽取部分所对应的信息块,如基于网页正文在网页页面中的视觉特征需求信息,从多于一个的页面块中确定出正文块等,进而在此基础上,可实现从确定出的待抽取部分对应的信息块中进行所需的信息抽取。可见,本发明实现了一种基于网页分割及待抽取部分在网页页面中的视觉特征的网页信息抽取方案,由于待抽取部分在网页页面中的视觉特征具有较高的确定性,如正文题目一般在水平方向上处于网页页面的中部,在垂直方向上处于网页的中上部等等,从而应用本发明方案可有效提升网页信息的提取准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1(a)是一个HTML页面的外观示意图;
图1(b)是采用现有的VIPS算法对图1(a)的HTML页面进行页面分割的示意图;
图2是本发明实施例一提供的网页信息抽取方法的流程图;
图3(a)是另一个HTML页面的外观示意图;
图3(b)是本发明实施例一提供的采用VIPS对图3(a)的HTML页面进行初步分割后所得的分割块示意图;
图4是本发明实施例二提供的从网页中抽取题目信息的实现过程流程图;
图5是本发明实施例二提供的基于题目信息的视觉特征需求进行页面分割的示意图;
图6是本发明实施例三提供的从网页中抽取正文信息的实现过程流程图;
图7是本发明实施例三提供的基于正文信息的视觉特征需求进行页面分割的示意图;
图8是本发明实施例四提供的从网页中抽取关键词信息的实现过程流程图;
图9是本发明实施例四提供的基于关键词的视觉特征需求进行页面分割的示意图;
图10是本发明实施例五提供的网页信息抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决现有网页信息抽取技术存在的网页信息识别率低的问题,如易将新闻页面的非正文内容识别为新闻正文,本发明实施例提供一种网页信息抽取方法及装置,该方法或装置是一种基于网页分割及待抽取部分在网页页面中的视觉特征,进行网页信息识别及抽取的方案,可以应用于新闻聚合、新闻推荐等各种应用中。
本发明具体基于VIPS(Visual Based Page Segment Algorithm,基于视觉的Web页面分割算法)并结合待抽取部分在网页页面中的视觉信息,来实现网页页面中待抽取部分的信息识别及抽取。
具体地,由于在现实的网页阅览场景中,人们并不需要对网页页面的内容如新闻页面的内容等进行逐字扫描式阅览,而一般是根据网页页面中各网页元素的布局位置、背景颜色、字体大小等布局特征,对页面进行快速的区域划分,然后找到其所关注的区域,如具体找到所关注的新闻题目、新闻正文等区域进行阅览,而网站的设计者,也都充分利用这一原理,将诸如新闻题目、新闻正文等较为重要的信息放在页面的比较明显的位置上,并通过间隔、字体、背景颜色等加以强调。
受到启发,微软在2003年提出VIPS算法,VIPS算法充分利用了Web页面的布局特征,首先从HTML网页文件中提取出所有的HTML元素,然后根据各HTML元素的布局特征,如各HTML元素的位置信息、背景颜色、字体大小等检测出网页页面的分割条,包括水平方向和垂直方向的分隔条,最后从检测出的分割条中选取出宽度最大的分割条(水平方向和/或垂直方向),并基于宽度最大的分割条对网页页面进行初步分割。之后,对于初步分割所得的每一个页面块,可使用VIPS算法继续将其分割为更小的页面块。
在基于网页页面中各HTML元素的布局特征对网页页面进行初步分割的基础上,VIPS采用自顶向下的方式对初步分割所得的各页面块继续进行分割。其中,每当VIPS对网页页面进行一次分割,VIPS均会依据划分所得的每一页面块内各HTML元素的布局特征相似性,给出该页面块的DOC值,DOC值反映了页面块内部内容的关联性,DOC值越大,则表明页面块内部内容之间的关联越紧密,反之则越稀松。
从而,在基于网页页面的布局特征对网页页面进行初步分割的基础上,VIPS会针对初步分割所得的每一页面块,均给出一相应的DOC值,后续,VIPS基于每一页面块内的HTML元素的布局特征,继续对每一页面块进行划分,同时基于设定的DOC上限值(可根据经验确定)对整个网页页面的区域划分粒度进行控制,当整个网页页面中当前划分所得的最小划分粒度的每一个子块的DOC值达到设定的DOC上限值后,对网页页面的划分结束。
参考图1,其中,图1(a)示出了一个HTML页面的外观,图1(b)示出了使用VIPS算法对该HTML页面进行划分后所得的各页面块的示意图,其中,整个页面最初被划分为4个块:VB1、VB2、VB3和VB4,而在设定的DOC上限值的控制下,VB1又被划分为两个子块:VB1_1和VB1_2,其他块的划分情况也类似于此,具体可参考图1(b)所示,此处不再详述。
然而,VIPS只是对页面进行了划分,无法判断划分后所得的各个部分的语义类型(如具体属于题目、正文还是关键词等);另外,VIPS算法需要对整个页面进行遍历式划分,这会导致即使是无关的区域(如页眉、页脚、边栏)也要进行大量无效的划分操作;并且在根据DOC值进行划分粒度的控制时,由于VIPS基于设定的DOC上限对整个网页页面进行划分,对于正文及题目来说,可能会分别出现划分粒度太细及太粗的问题,从而往往无法准确地满足信息抽取时所需的检测粒度,因此,直接使用VIPS并不能解决网页页面中重要信息(如新闻题目、正文)的自动识别、抽取问题。
为此,本发明提出一种基于区域分割(自顶向下)的网页信息抽取方法及装置,该方法/装置基于VIPS,但与现有VIPS不同的是,本发明方案在基于VIPS对网页页面进行初步划分的基础上,仅仅在特定区域(而非整个页面区域)对网页进行细分,并且,根据待抽取部分(如新闻题目、正文、关键词)在页面中的视觉特征需求,以最终是否在页面中发现待抽取部分为准进行页面划分粒度的控制,以避免过细或者过粗的划分,从而确保较高的识别效率,接下来,将通过多个实施例对本发明方案进行详细阐述。
实施例一
参考图2,图2示出了本发明的一种网页信息抽取方法的流程图,该方法可以包括以下步骤:
步骤201、基于网页中各网页元素的视觉信息及预定的第一划分标准,将网页页面划分为多于一个的页面块。
本实施例中,所述网页指互联网网页,其具体可以是诸如新闻、学术期刊、论文等各种类型的web网页。网页中的网页元素具体可以是网页源文件如HTML网页文件中的HTML元素。
此处,网页中网页元素的视觉信息,可以包括网页元素在网页中的布局位置、背景颜色、字体大小等布局信息,则该步骤201可以通过以下过程实现:基于网页中各网页元素的布局特征信息,确定网页页面的各个分割线;依据所述分割线及预定的第一划分标准,将网页页面划分为多于一个的页面块。
本步骤201具体利用VIPS,基于网页中各HTML元素的布局信息,如布局位置、字体大小、背景颜色等对网页页面进行初步划分,该初步划分可以是基于VIPS所进行的一轮或多于一轮的页面分割。所划分的轮数以预先制定的所述第一划分标准为依据进行确定。所述第一划分标准具体为基于该步骤201对网页进行初步划分时所需的划分精细程度所制定的标准。
参考图3(a)示出的网页页面,假设在基于VIPS对图3(a)的页面进行一轮分割后,得到如图3(b)所示的4个页面块VB1、VB2、VB3及VB4(即所述分割线
Figure BDA0001193739400000101
为该页面的所有分割线中的最粗分割线),且假设此轮划分后所得的划分结果达到所述第一划分标准要求的精细程度,则本步骤的划分操作结束,否则,如果未达到,则可基于VIPS对前一轮的划分结果继续进行划分,直至达到该第一划分标准对应的划分精细程度为止,例如,可继续将VB2划分为VB2_1、VB2_2、VB2_3这3个子块以实现更精细的划分等。
在此基础上,仅仅在初步划分所得的各区域中的特定区域(而非整个页面区域)对网页进行细分,并且,根据待抽取部分(如新闻题目、正文、关键词)在页面中的视觉特征需求,以最终是否在页面中发现待抽取部分为准进行页面划分粒度的控制,进而实现待抽取部分的识别和信息抽取。接下来,将通过以下的各步骤实现对网页中的题目、正文及关键词等待抽取部分进行识别及信息抽取。
本实施例中,所述正文指网页主体信息所对应的网页正文,如新闻网页中的新闻正文等,所述题目及关键词分别指与网页正文相对应的正文题目及正文关键词,如与新闻正文对应的新闻题目及新闻关键词等。
步骤202、从所述多于一个的页面块中确定出符合第一条件的至少一个第一页面块;其中,所述第一条件为基于正文题目在网页页面中的第一视觉特征需求信息所确定的条件。
所述第一视觉特征需求信息包括第一位置需求信息,所述第一位置需求信息具体为正文题目在网页页面中所处的位置需满足的信息,该第一位置需求信息具体可基于正文题目在网页页面中的惯常布局特征来确定,例如,一般来说,正文题目在网页页面中所处的位置具有以下特征:在水平方向上处于页面中部,在垂直方向上处于页面中部或上部,基于此,所述第一位置需求信息即可以包含该位置特征信息,从而,基于包括该第一位置需求信息的所述第一视觉特征需求,所确定的所述第一条件可以为:在水平方向上处于网页页面的中部,垂直方向上处于网页页面的中部或上部。
步骤203、在所述至少一个第一页面块中搜索出与预先获得的正文题目属性值相匹配的题目元素,并从所述题目元素所在的第一页面块中确定出仅包含所述题目元素的题目块,抽取所述题目块中的题目信息。
所述预先获得的正文题目属性值,具体为从网页源文件如HTML网页文件的标头信息中所获得的title属性值。其中,标头是HTML页面中用<header>标签包含的部分,在标头与HTML主体之间尚需空一行分割,HTML网页文件的标头信息中一般包括title属性值,即网页的正文题目属性值。
在此基础上,该步骤具体可以通过以下过程实现:从所述多于一个的页面块中,确定出在网页页面中所处的位置符合第一位置需求信息的至少一个第一页面块;从所述至少一个第一页面块对应的网页源文件信息中,搜索出与预先从网页源文件的标头信息中获得的正文题目属性值相匹配的题目元素,并在搜索成功时不再对所述至少一个第一页面块中未搜索的第一页面块进行搜索。
该步骤可以通过以下过程实现从所述题目元素所在的第一页面块中确定出仅包含所述题目元素的题目块:基于所述题目元素所在的第一页面块中各网页元素的视觉信息,及预定的第二划分标准,将所述题目元素所在的第一页面块划分为多于一个的第一页面块子块;确定出所述题目元素所在的第一页面块子块;判断所述题目元素所在的第一页面块子块是否仅包含所述题目元素,若是,则确定出所述题目元素所在的第一页面块子块为所述题目块;若否,则继续对所述题目元素所在的第一页面块子块进行划分,直至确定出仅包含所述题目元素的题目块为止。
在确定出题目块的基础上,可从该块中抽取出相应的题目信息,从而完成了题目部分的信息抽取。
步骤204、从所述多于一个的页面块中确定出符合第二条件的正文块,并抽取所述正文块中的正文信息;其中,所述第二条件为基于网页正文在网页页面中的第二视觉特征需求信息所确定的条件,所述正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块。
具体地,所述第二条件所依据的第二视觉特征需求信息为:基于预设的候选正文视觉需求信息及正文文字在预定视觉特征上的相似度所确定的信息。
在此基础上,可通过以下过程实现正文块的确定:
从所述多于一个的页面块中确定出符合候选正文视觉需求信息的一个最小块作为候选正文块,所述候选正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;从所述候选正文块中确定出文字长度最大的子块作为正文种子块;在所述候选正文块中,若所述正文种子块的上部存在与所述正文种子块相邻的上位子块,且所述上位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述上位子块,并将合并后所得的块作为新的正文种子块;在所述候选正文块中,若所述正文种子块的下部存在与所述正文种子块相邻的下位子块,且所述下位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述下位子块,并将合并后所得的块作为新的正文种子块,直至所述候选正文块中不存在所述相似度不低于第二预定阈值的上位子块及下位子块为止,合并结束后所得的最新正文种子块作为所述正文块;其中,所述上位子块及所述下位子块为所述候选正文块的子块。
其中,所述候选正文视觉需求信息包括:在网页页面中所占面积与网页页面总面积的比值不低于第一预定阈值,且在网页页面中所处的位置符合第二位置需求信息。所述第二位置需求信息具体可基于正文在网页页面中的惯常布局特征来确定,例如,一般来说,正文在网页页面中所处的位置具有以下特征:在水平方向上处于页面中部,在垂直方向上处于页面中部或上部,基于此,所述第二位置需求信息即可包含该布局特征信息。
需要说明书的是,本发明中某一页面块在某一方向上在网页页面中所处的位置(中部或上部等),具体可以以该页面块的几何中心与整个页面几何中心的相对位置来衡量、确定,例如,块A在垂直方向上处于页面的中部或上部,相应地,具体可以是块A的几何中心与页面几何中心在同一水平线上,或块A的几何中心在页面几何中心的上部。
当确定出正文块后,可从所述正文块中抽取出相应的正文信息,从而实现了正文信息的抽取。
步骤205、依据所述题目块和所述正文块在页面中对应的视觉信息,并结合正文关键词在网页页面中的第三视觉特征需求信息,确定出关键词块,并抽取所述关键词块中的关键词信息;所述关键词块为所述多于一个的页面块中的某一个页面块的子块。
该步骤可以通过以下过程实现:
基于候选关键词总块中各网页元素的位置信息,及预定的第三划分标准,将所述候选关键词总块划分为多于一个的候选关键词块;所述候选关键词总块为网页页面中处于所述题目块及所述正文块之间的块;从各个候选关键词块中确定出符合第三视觉特征需求信息的关键词块,所述关键词块为某一个候选关键词块或某一个候选关键词块的子块;若未能从各个候选关键词块中确定出关键词块,则将处于所述正文块正下方的块作为新的候选关键词总块,并从所述新的候选关键词总块中确定符合第三视觉特征需求信息的关键词块。
接下来,会通过相应实施例分别对从网页中抽取题目、正文、关键词的实现过程进行详细阐述。
由以上方案可知,本发明公开的网页信息抽取方法,在基于网页中各网页元素的位置信息及预定的划分标准,将网页页面划分为多于一个的页面块的基础上,通过基于待抽取部分在网页页面中对应的相应视觉特征需求信息,从划分所得的各个页面块中确定出待抽取部分所对应的信息块,如基于网页正文在网页页面中的视觉特征需求信息,从多于一个的页面块中确定出正文块等,进而在此基础上,可实现从确定出的待抽取部分对应的信息块中进行所需的信息抽取。可见,本发明实现了一种基于网页分割及待抽取部分在网页页面中的视觉特征的网页信息抽取方案,由于待抽取部分在网页页面中的视觉特征具有较高的确定性,如正文题目一般在水平方向上处于网页页面的中部,在垂直方向上处于网页的中上部等等,从而应用本发明方案可有效提升网页信息的提取准确率。
实施例二
本实施二对从网页中抽取题目信息的实现过程进行详述,参考图4,具体可通过以下步骤实现网页中题目信息的抽取:
步骤401、从所述多于一个的页面块中,确定出在网页页面中所处的位置符合第一位置需求信息的至少一个第一页面块。
所述第一位置需求信息具体为正文题目在网页页面中所处的位置需满足的信息,本实施例依据正文题目在网页页面中的惯常布局特征,将所述第一位置需求信息确定为:在水平方向上处于网页页面的中部,垂直方向上处于网页页面的中部或上部。
本步骤具体从对网页页面进行初步划分所得的各个页面块中,确定出符合所述第一位置需求信息,即确定出在水平方向上处于网页页面的中部,垂直方向上处于网页页面的中部或上部的至少一个第一页面块。参考图3(b),假设对网页页面初步划分后所得的各页面块为VB1、VB2、VB3及VB4,则本步骤可确定出符合所述第一位置需求信息的页面块为VB1、VB2,也就是说在VB1、VB2、VB3及VB4四个页面块中,一般情况下,正文题目仅可能出现在VB1或VB2中,而不太可能出现在VB3、VB4中。
步骤402、从所述至少一个第一页面块对应的网页源文件信息中,搜索出与预先从网页源文件的标头信息中获得的正文题目属性值相匹配的题目元素,并在搜索成功时不再对所述至少一个第一页面块中未搜索的第一页面块进行搜索。
所述预先获得的正文题目属性值,具体为从网页源文件如HTML网页文件的标头信息中所获得的title属性值。
由于正文题目一般在水平方向上处于网页页面的中部,垂直方向上处于网页页面的中部或上部,因此,本步骤仅从符合该位置需求(即第一位置需求信息)的一个或多于一个的页面块中,搜索与预先获得的正文题目属性值相匹配的题目元素,如对于图3(b)中初步划分所得的VB1、VB2、VB3、VB4四个块,仅对VB1、VB2进行搜索,具体地,可从VB1、VB2在HTML网页文件中对应的部分搜索具有标题标识的相关元素,如搜索h1/h2元素等,由于在HTML网页文件中具有标题标识的元素可能是正文题目元素,也可能是一些非正文题目的元素,如广告题目对应的HTML元素等,从而在搜索出h1/h2元素时,需判断该元素的内容与title属性值的编辑距离是否低于预定的距离阈值,如果低于,则表示搜索出的h1/h2元素的内容与预先获得的title属性值相匹配,从而搜索成功。
一旦搜索成功,则不再继续对符合第一位置需求信息的页面块中未搜索的块进行搜索,以提高搜索效率,避免对无效区域进行操作,例如,假设在从VB2(VB2在HTML网页文件中对应的部分)中搜索出与所述title属性值相匹配的题目元素即h1/h2元素后,则不再继续对VB1进行搜索。
步骤403、基于所述题目元素所在的第一页面块中各网页元素的视觉信息,及预定的第二划分标准,将所述题目元素所在的第一页面块划分为多于一个的第一页面块子块。
在确定出题目元素所在的第一页面块后,继续依据该页面块中各网页元素的视觉信息,及预定的第二划分标准对该页面块进行划分,而对于其他不包含题目元素的页面块则不执行划分操作。
所述第二划分标准具体为:根据对题目元素所在的第一页面块进行划分时实际所需的划分精细程度所制定的标准。该步骤具体可依据所述第二划分标准,利用VIPS对题目元素所在的第一页面块进行一轮或多于一轮的分割操作。
步骤404、确定出所述题目元素所在的第一页面块子块。
在对题目元素所在的第一页面块进行分割,得到各个第一页面块子块的基础上,本步骤继续从分割所得的各个第一页面块子块中对题目元素进行搜索,以确定题目元素所在的子块。一旦搜索成功,则不再继续对其他未搜索的子块进行搜索。
步骤405、判断所述题目元素所在的第一页面块子块是否仅包含所述题目元素。
步骤406、若是,则确定出所述题目元素所在的第一页面块子块为所述题目块。
步骤407、若否,则继续对所述题目元素所在的第一页面块子块进行划分,直至确定出仅包含所述题目元素的题目块为止。
在以上步骤基础上,步骤405判断题目元素所在的第一页面块子块是否仅包含所述题目元素,若是,则表示该子块为包含题目元素的最小页面块,从而可确定出该子块即为题目块,最终可对该题目块进行信息抽取,并将抽取出的信息作为题目信息。
否则,若该子块并非仅包含所述题目元素,则继续对该子块进行划分,直至确定出仅包含所述题目元素的题目块为止。其中,该步骤的划分过程与步骤403的划分过程类似,是对步骤403的划分过程的递归应用,具体参考步骤403的描述即可,此处不再进行详述。
参考图5所示,采用本实施例的题目抽取方案,当将网页页面初步分割为VB1,VB2,VB3和VB4之后,由于在VB2中发现与预先获得的title属性值相匹配的题目元素,从而其他页面块无需进一步划分,而仅需对VB2进行继续展开,如图5所示,将VB2继续划分为VB2_1、VB2_2和VB2_3,并在VB2_2中发现题目元素,类似地,继续对VB2_2进行划分,得到VB2_2_1和VB2_2_2,继续对VB2_2_1进行划分,得到VB2_2_1_1及VB2_2_1_2,直到发现VB2_2_1_1仅包含题目元素,从而确定出VB2_2_1_1是题目块,最终抽取该VB2_2_1_1块的信息作为题目信息。
通过本实施例的方案,可实现准确、有效地对网页中的题目信息进行抽取,且可避免对其他无效区域(相对于题目而言的无效)进行操作,确保了较高的信息抽取效率。
实施例三
本实施三对从网页中抽取正文信息的实现过程进行详述,参考图6,具体可通过以下步骤实现网页中题目信息的抽取:
步骤601、从所述多于一个的页面块中确定出符合候选正文视觉需求信息的一个最小块作为候选正文块,所述候选正文视觉需求信息包括:在网页页面中所占面积与网页页面总面积的比值不低于第一预定阈值,且在网页页面中所处的位置符合第二位置需求信息;所述候选正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块。
本实施例通过从对网页页面进行初步划分所得的各个页面块中,确定出符合候选正文视觉需求信息的最小块,并将其作为候选正文块,在此基础上,通过对候选正文块进行操作,实现从候选正文块中确定出最终的正文块。其中,候选正文块的任何子块(如按VIPS对候选正文块继续划分后所得的各个子块)不符合所述候选正文视觉需求信息的要求。
一般来说,网页正文如新闻正文等会在页面中占据相当大一部分比例(如20%以上),且一般在水平方向上处于网页页面的中部,在垂直方向上处于网页的中部或上部,基于此,本实施例将所述候选正文视觉需求信息确定为:在网页页面中所占面积与网页页面总面积的比值不低于第一预定阈值,且在网页页面中所处的位置符合第二位置需求信息。
其中,由于后续需要从该候选正文块中确定出最终的正文块,从而所确定出的所述候选正文块至少需包含正文块,基于此,所述第一预定阈值一般为一个较大的数值,如可以是依据经验所确定的正文面积占整个页面面积的比例上限值;所述第二位置需求信息即为:在水平方向上处于网页页面的中部,在垂直方向上处于网页的中部或上部。
如图5所示,依据所述候选正文视觉需求信息,可确定出图5对应的页面中VB2_2_2为符合该需求信息的最小块,从而该VB2_2_2块即为候选正文块。
步骤602、从所述候选正文块中确定出文字长度最大的子块作为正文种子块。
在确定出候选正文块的基础上,继续对该候选正文块进行操作,实现从中确定出正文块,而对于其他无关的块(相对于正文而言)则不再执行相应操作。
具体的,可首先基于VIPS对该候选正文块进行划分,得到候选正文块的各个子块,之后,从候选正文块的各个子块中找到文字长度最大的子块作为正文种子块,比如,对图5中候选正文块VB2_2_2进行划分后,可得到如图7所示的该候选正文块的各个子块:VB2_2_2_1、VB2_2_2_2、VB2_2_2_3、VB2_2_2_4和VB2_2_2_5,其中,VB2_2_2_4是文字长度最大的子块,从而可将VB2_2_2_4确定为正文种子块。
步骤603、在所述候选正文块中,若所述正文种子块的上部存在与所述正文种子块相邻的上位子块,且所述上位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述上位子块,并将合并后所得的块作为新的正文种子块。
正文文字间在文字密度、字体大小和/或背景颜色等方面具有较高的相似性,基于此,本实施例中,所述预定视觉特征上的相似度可以指在文字密度、字体大小和/或背景颜色等方面的相似度。所述第二预定阈值可以是基于经验所确定的正文信息在上述相应视觉特征上的相似度下限值。
在所述候选正文块中,如果正文种子块的上部存在与其相邻的上位子块,且该上位子块与正文种子块在预定视觉特征上的相似度不低于第二预定阈值,比如该上位子块的文字密度不小于正文种子块文字密度的30%(假设此时两者在文字密度的相似度不低于所述第二预定阈值),则将所述正文种子块及所述上位子块进行合并,得到新的正文种子块。
步骤604、在所述候选正文块中,若所述正文种子块的下部存在与所述正文种子块相邻的下位子块,且所述下位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述下位子块,并将合并后所得的块作为新的正文种子块,直至所述候选正文块中不存在所述相似度不低于第二预定阈值的上位子块及下位子块为止,合并结束后所得的最新正文种子块作为所述正文块;其中,所述上位子块及所述下位子块为所述候选正文块的子块。
相对应地,如果正文种子块的下部存在与其相邻的下位子块,且该下位子块与正文种子块在预定视觉特征上的相似度不低于第二预定阈值,比如该下位子块的文字密度不小于正文种子块文字密度的30%(假设此时两者在文字密度的相似度不低于所述第二预定阈值),则将所述正文种子块及所述下位子块进行合并,得到新的正文种子块。
本实施例通过迭代执行上述合并过程获得最终的正文块,其中迭代过程直至不存在符合上述要求的上位子块及下位子块时结束。迭代结束时所得的最新的正文种子块即为最终的正文块。从而,在此基础上,可抽取该正文块的信息作为网页的正文信息。
仍以图7为例,当确定出文字长度最大的子块VB2_2_2_4初步作为正文种子块后,向上,VB2_2_2_4和VB2_2_2_3合并成新的正文种子块;向下,所述新的正文种子块(即VB2_2_2_4加VB2_2_2_3)与VB2_2_2_5继续合并成新的正文种子块,而对于候选正文块中包括的图片部分,鉴于其与参与合并的文字类子块具有相似的位置特征(均在水平方向上处于网页中部,垂直方向上处于网页中上部),考虑其极有可能是正文配图,会对用户阅读网页正文产生较大的辅助作用,因此,本实施例优选地,针对图片部分的子块,不必满足上述文字类子块合并时需满足的要求,直接将其合并至正文块即可,从而最后合并后可得到正文块VB2_2_2。
本实施例实现了基于网页正文的视觉特征信息对网页正文进行抽取,正文识别及抽取的准确率较高,且避免了对无效区域进行操作,能够确保一较高的抽取效率。
实施例四
本实施四对从网页中抽取关键词的实现过程进行详述,参考图8,具体可通过以下步骤实现网页中关键词信息的抽取:
步骤801、依据所述题目块和所述正文块在页面中对应的视觉信息,确定出候选关键词总块,所述候选关键词总块为网页页面中处于所述题目块及所述正文块之间的块。
一般来说,在网页页面中,多数情况下,正文关键词处于正文题目与正文之间,少数情况下,正文关键词处于正文的正下方,如具体处于正文正下方的偏左部分或正文正下方的偏右部分等。
基于此,本实施例依据确定出的题目块及正文块在页面中的视觉信息,如具体所处的位置等,来定位出一候选关键词总块,如在图7中,可确定出候选关键词总块为处于题目块VB2_2_1_1与正文块VB2_2_2之间的块VB2_2_1_2,后续通过对该候选关键词总块进行分割,并依据关键词对应的视觉特征需求从分割所得的各子块中确定出关键词块。
步骤802、基于候选关键词总块中各网页元素的视觉信息,及预定的第三划分标准,将所述候选关键词总块划分为多于一个的候选关键词块;所述候选关键词总块为网页页面中处于所述题目块及所述正文块之间的块。
其中,可基于候选关键词总块中各网页元素的视觉信息,及预定的第三划分标准,将所述候选关键词总块划分为多于一个的候选关键词块;候选关键词总块中各网页元素的视觉信息可以包括:候选关键词总块中各网页元素的布局位置、间距(如词间距)、背景颜色、字体大小等布局信息;所述第三划分标准具体为基于对候选关键词总块进行划分时实际所需的划分精细程度所制定的标准。
实际划分时,可采用VIPS并结合所述第三划分标准,对所述候选关键词总块进行所需的一轮或多于一轮的分割,得到各个候选关键词块。
参考图9,当依据本实施例方法,从题目块VB2_2_1_1与正文块VB2_2_2之间确定出候选关键词总块VB2_2_1_2之后,可将该候选关键词总块VB2_2_1_2基于VIPS继续划分为VB2_2_1_2_1和VB2_2_1_2_2。其中,通过与图3(a)的实际页面对比可知,VB2_2_1_2_1实际对应作者和日期信息,VB2_2_1_2_2实际对应关键词信息,后续通过依据关键词需满足的第三视觉特征需求信息对这两个块加以识别。
步骤803、从各个候选关键词块中确定出符合第三视觉特征需求信息的关键词块,所述关键词块为某一个候选关键词块或某一个候选关键词块的子块。
网页的正文关键词信息一般对应一个包含多个关键词的关键词列表(该列表一般至少包括3个关键词),关键词列表中的各关键词具有较为相似的视觉特征,例如,一般情况下,各关键词采用相同的字体,背景颜色,且各个关键词中相邻关键词间的词间距相同,基于此,本实施例中,所述第三视觉特征需求信息即可以是包含上述关键词特征的信息。
本步骤具体从各个候选关键词块中确定出符合所述第三视觉特征需求信息的候选关键词块,并判断确定出的该候选关键词块是否仅包含符合所述第三视觉特征需求信息的关键词列表,如果否,则继续对该候选关键词块进行基于VIPS的划分,直至确定出一个仅包含符合所述第三视觉特征需求信息的关键词列表的块为止,则该块即为关键词块。之后,可通过抽取该关键词块中的关键词列表信息,来实现关键词信息的抽取。
由于在网页页面中,每个关键词一般都会对应包含一个链接,该链接要么带有关键词标识,如该链接具体在HTML网页文件中直接对应有“tag|key”字样,要么拥有一个class属性并且属性内容中带有“tag|key”字样。也就是说,每个正文关键词在HTML文件中均会对应一个关键词标识(反过来,带有关键词标识的元素不一定对应正文关键词,可能对应广告词等非正文关键词的信息),基于此,在本发明其他实施例中,还可通过查验所确定出的各关键词的关键词标识来验证关键词的正确性,一般来说,如果确定出的关键词不存在关键词标识,则可获知该关键词存在误判,需重新确定及抽取关键词。
另外,在本发明其他实施例中,还可通过将所述第三视觉特征需求信息以及存在关键词标识,共同作为关键词的确定依据,来进行候选关键词总块的区域划分以及在此基础上的关键词块的确定。
如图9所示,通过对块VB2_2_1_2_2进行划分处理,可知该块由一系列具有相似特征的子块VB2_2_1_2_2_1、VB2_2_1_2_2_2、VB2_2_1_2_2_3和VB2_2_1_2_2_4(图9中未标出,具体为图9中VB2_2_1_2_2包括的四个子块)构成,具体地,各子块中的字体大小相同、背景颜色相同、且相邻子块间的间距相同,从而识别出块VB2_2_1_2_2即为关键词块,最终通过抽取该块中各子块的信息即可实现正文关键词信息的抽取。
步骤804、若未能从各个候选关键词块中确定出关键词块,则将处于所述正文块正下方的块作为新的候选关键词总块,并从所述新的候选关键词总块中确定符合第三视觉特征需求信息的关键词块。
如果从处于题目块及正文块之间的所述候选关键词总块中未确定出符合要求的关键词块,则继续将正文块正下方的块作为新的候选关键词总块,并按上述从候选关键词总块中确定出关键词块的实现过程,对该新的候选关键词总块进行处理,直至确定出符合要求的关键词块(或最终仍未确定出关键词块)为止,进而在此基础上实现关键词信息的抽取(或在未确定出关键词块的情况下抽取失败)。
本发明基于待抽取部分在网页页面中的视觉特征信息,可以准确、高效地对正文题目、网页正文及正文关键词等各个待抽取部分进行基于页面分割的信息识别及信息抽取,在对页面进行分割时,可基于是否找到待抽取部分对页面进行划分粒度的控制,从而实现了页面划分粒度的按需控制,且在对页面进行分割时,可避免对待抽取部分所在区域以外的其他无效区域进行分割,有效提高了基于页面分割的网页信息抽取效率。
实施例五
本实施例五公开一种网页信息抽取装置,参考图10示出的网页信息抽取装置的结构示意图,该装置包括:
第一划分单元101,用于基于网页中各网页元素的视觉信息及预定的第一划分标准,将网页页面划分为多于一个的页面块;确定单元102,用于从所述多于一个的页面块中确定出符合第一条件的至少一个第一页面块;其中,所述第一条件为基于正文题目在网页页面中的第一视觉特征需求信息所确定的条件;第一抽取单元103,用于在所述至少一个第一页面块中搜索出与预先获得的正文题目属性值相匹配的题目元素,并从所述题目元素所在的第一页面块中确定出仅包含所述题目元素的题目块,抽取所述题目块中的题目信息;第二抽取单元104,用于从所述多于一个的页面块中确定出符合第二条件的正文块,并抽取所述正文块中的正文信息;其中,所述第二条件为基于网页正文在网页页面中的第二视觉特征需求信息所确定的条件,所述正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;第三抽取单元105,用于依据所述题目块和所述正文块在页面中对应的视觉信息,并结合正文关键词在网页页面中的第三视觉特征需求信息,确定出关键词块,并抽取所述关键词块中的关键词信息;所述关键词块为所述多于一个的页面块中的某一个页面块的子块。
在本发明实施例的一实施方式中,所述确定单元,进一步用于:从所述多于一个的页面块中,确定出在网页页面中所处的位置符合第一位置信息的至少一个第一页面块;
所述第一抽取单元,进一步用于:
从所述至少一个第一页面块对应的网页源文件信息中,搜索出与预先从网页源文件的标头信息中获得的正文题目属性值相匹配的题目元素,并在搜索成功时不再对所述至少一个第一页面块中未搜索的第一页面块进行搜索;基于所述题目元素所在的第一页面块中各网页元素的视觉信息,及预定的第二划分标准,将所述题目元素所在的第一页面块划分为多于一个的第一页面块子块;确定出所述题目元素所在的第一页面块子块;判断所述题目元素所在的第一页面块子块是否仅包含所述题目元素,若是,则确定出所述题目元素所在的第一页面块子块为所述题目块;若否,则继续对所述题目元素所在的第一页面块子块进行划分,直至确定出仅包含所述题目元素的题目块为止。
在本发明实施例的一实施方式中,所述第二抽取单元从所述多于一个的页面块中确定出符合第二条件的正文块,进一步包括:
从所述多于一个的页面块中确定出符合候选正文视觉需求信息的一个最小块作为候选正文块,所述候选正文视觉需求信息包括:在网页页面中所占面积与网页页面总面积的比值不低于第一预定阈值,且在网页页面中所处的位置符合第二位置需求信息;所述候选正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;从所述候选正文块中确定出文字长度最大的子块作为正文种子块;在所述候选正文块中,若所述正文种子块的上部存在与所述正文种子块相邻的上位子块,且所述上位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述上位子块,并将合并后所得的块作为新的正文种子块;在所述候选正文块中,若所述正文种子块的下部存在与所述正文种子块相邻的下位子块,且所述下位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述下位子块,并将合并后所得的块作为新的正文种子块,直至所述候选正文块中不存在所述相似度不低于第二预定阈值的上位子块及下位子块为止,合并结束后所得的最新正文种子块作为所述正文块;其中,所述上位子块及所述下位子块为所述候选正文块的子块。
在本发明实施例的一实施方式中,所述第三抽取单元确定出关键词块,进一步包括:
依据所述题目块和所述正文块在页面中对应的视觉信息,确定出候选关键词总块,所述候选关键词总块为网页页面中处于所述题目块及所述正文块之间的块;基于候选关键词总块中各网页元素的视觉信息,及预定的第三划分标准,将所述候选关键词总块划分为多于一个的候选关键词块;从各个候选关键词块中确定出符合第三视觉特征需求信息的关键词块,所述关键词块为某一个候选关键词块或某一个候选关键词块的子块;若未能从各个候选关键词块中确定出关键词块,则将处于所述正文块正下方的块作为新的候选关键词总块,并从所述新的候选关键词总块中确定符合第三视觉特征需求信息的关键词块。
此处,需要说明的是,本实施例涉及的网页信息抽取装置的描述,与上文各实施例方法的描述是类似的,且同方法的有益效果描述,对于本发明的网页信息抽取装置在本实施例中未披露的技术细节,请参照本发明方法实施例的说明,本实施对此不再作赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种网页信息抽取方法,其特征在于,包括:
基于网页中各网页元素的视觉信息及预定的第一划分标准,将网页页面初步划分为多于一个的页面块;
从初步划分的所述多于一个的页面块中确定出符合第一条件的至少一个第一页面块;其中,所述第一条件为基于正文题目在网页页面中的第一视觉特征需求信息所确定的条件;
在所述至少一个第一页面块中搜索出与预先获得的正文题目属性值相匹配的题目元素,并从所述题目元素所在的第一页面块中确定出仅包含所述题目元素的题目块,抽取所述题目块中的题目信息;
从初步划分的所述多于一个的页面块中确定出符合第二条件的正文块,并抽取所述正文块中的正文信息;其中,所述第二条件为基于网页正文在网页页面中的第二视觉特征需求信息所确定的条件,所述正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;
依据所述题目块和所述正文块在页面中对应的视觉信息,并结合正文关键词在网页页面中的第三视觉特征需求信息,确定出关键词块,并抽取所述关键词块中的关键词信息;所述关键词块为初步划分的所述多于一个的页面块中的某一个页面块的子块;以实现基于题目、正文及正文关键词这些待抽取部分在网页页面中的视觉特征需求,对初步划分所得的网页页面中对应于所述待抽取部分的特定区域进行细分,并以最终是否在网页页面中发现待抽取部分为准进行所述特定区域划分粒度的控制,进而实现待抽取部分的识别和信息抽取。
2.根据权利要求1所述的方法,其特征在于,所述网页元素的视觉信息包括网页元素在网页中的布局特征信息,则所述基于网页中各网页元素的视觉信息及预定的第一划分标准,将网页页面划分为多于一个的页面块,包括:
基于网页中各网页元素的布局特征信息,确定网页页面的各个分割线;
依据所述分割线及预定的第一划分标准,将网页页面划分为多于一个的页面块。
3.根据权利要求1所述的方法,其特征在于,所述第一视觉特征需求信息包括正文题目在网页页面中的第一位置需求信息,则所述从所述多于一个的页面块中确定出符合第一条件的至少一个第一页面块,包括:
从所述多于一个的页面块中,确定出在网页页面中所处的位置符合第一位置需求信息的至少一个第一页面块。
4.根据权利要求3所述的方法,其特征在于,所述在所述至少一个第一页面块中搜索出与预先获得的正文题目属性值相匹配的题目元素,并从所述题目元素所对应的第一页面块中确定出仅包含所述题目元素的题目块,包括:
从所述至少一个第一页面块对应的网页源文件信息中,搜索出与预先从网页源文件的标头信息中获得的正文题目属性值相匹配的题目元素,并在搜索成功时不再对所述至少一个第一页面块中未搜索的第一页面块进行搜索;
基于所述题目元素所在的第一页面块中各网页元素的视觉信息,及预定的第二划分标准,将所述题目元素所在的第一页面块划分为多于一个的第一页面块子块;
确定出所述题目元素所在的第一页面块子块;
判断所述题目元素所在的第一页面块子块是否仅包含所述题目元素,若是,则确定出所述题目元素所在的第一页面块子块为所述题目块;若否,则继续对所述题目元素所在的第一页面块子块进行划分,直至确定出仅包含所述题目元素的题目块为止。
5.根据权利要求1所述的方法,其特征在于,所述第二条件所依据的第二视觉特征需求信息为:基于预设的候选正文视觉需求信息及正文文字在预定视觉特征上的相似度所确定的信息,则所述从所述多于一个的页面块中确定出符合第二条件的正文块,包括:
从所述多于一个的页面块中确定出符合候选正文视觉需求信息的一个最小块作为候选正文块,所述候选正文视觉需求信息包括:在网页页面中所占面积与网页页面总面积的比值不低于第一预定阈值,且在网页页面中所处的位置符合第二位置需求信息;所述候选正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;
从所述候选正文块中确定出文字长度最大的子块作为正文种子块;
在所述候选正文块中,若所述正文种子块的上部存在与所述正文种子块相邻的上位子块,且所述上位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述上位子块,并将合并后所得的块作为新的正文种子块;
在所述候选正文块中,若所述正文种子块的下部存在与所述正文种子块相邻的下位子块,且所述下位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述下位子块,并将合并后所得的块作为新的正文种子块,直至所述候选正文块中不存在所述相似度不低于第二预定阈值的上位子块及下位子块为止,合并结束后所得的最新正文种子块作为所述正文块;其中,所述上位子块及所述下位子块为所述候选正文块的子块。
6.根据权利要求1所述的方法,其特征在于,所述依据所述题目块和所述正文块在页面中对应的视觉信息,并结合正文关键词在网页页面中的第三视觉特征需求信息,确定出关键词块,包括:
依据所述题目块和所述正文块在页面中对应的视觉信息,确定出候选关键词总块,所述候选关键词总块为网页页面中处于所述题目块及所述正文块之间的块;
基于候选关键词总块中各网页元素的视觉信息,及预定的第三划分标准,将所述候选关键词总块划分为多于一个的候选关键词块;
从各个候选关键词块中确定出符合第三视觉特征需求信息的关键词块,所述关键词块为某一个候选关键词块或某一个候选关键词块的子块;
若未能从各个候选关键词块中确定出关键词块,则将处于所述正文块正下方的块作为新的候选关键词总块,并从所述新的候选关键词总块中确定符合第三视觉特征需求信息的关键词块。
7.一种网页信息抽取装置,其特征在于,包括:
第一划分单元,用于基于网页中各网页元素的视觉信息及预定的第一划分标准,将网页页面初步划分为多于一个的页面块;
确定单元,用于从初步划分的所述多于一个的页面块中确定出符合第一条件的至少一个第一页面块;其中,所述第一条件为基于正文题目在网页页面中的第一视觉特征需求信息所确定的条件;
第一抽取单元,用于在所述至少一个第一页面块中搜索出与预先获得的正文题目属性值相匹配的题目元素,并从所述题目元素所在的第一页面块中确定出仅包含所述题目元素的题目块,抽取所述题目块中的题目信息;
第二抽取单元,用于从初步划分的所述多于一个的页面块中确定出符合第二条件的正文块,并抽取所述正文块中的正文信息;其中,所述第二条件为基于网页正文在网页页面中的第二视觉特征需求信息所确定的条件,所述正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;
第三抽取单元,用于依据所述题目块和所述正文块在页面中对应的视觉信息,并结合正文关键词在网页页面中的第三视觉特征需求信息,确定出关键词块,并抽取所述关键词块中的关键词信息;所述关键词块为初步划分的所述多于一个的页面块中的某一个页面块的子块;
所述第一抽取单元、所述第二抽取单元及所述第三抽取单元,用于实现基于题目、正文及正文关键词这些待抽取部分在网页页面中的视觉特征需求,对初步划分所得的网页页面中对应于所述待抽取部分的特定区域进行细分,并以最终是否在网页页面中发现待抽取部分为准进行所述特定区域划分粒度的控制,进而实现待抽取部分的识别和信息抽取。
8.根据权利要求7所述的装置,其特征在于,所述第一视觉特征需求信息包括正文题目在网页页面中的第一位置需求信息,则所述确定单元,进一步用于:从所述多于一个的页面块中,确定出在网页页面中所处的位置符合第一位置信息的至少一个第一页面块;
所述第一抽取单元,进一步用于:
从所述至少一个第一页面块对应的网页源文件信息中,搜索出与预先从网页源文件的标头信息中获得的正文题目属性值相匹配的题目元素,并在搜索成功时不再对所述至少一个第一页面块中未搜索的第一页面块进行搜索;基于所述题目元素所在的第一页面块中各网页元素的视觉信息,及预定的第二划分标准,将所述题目元素所在的第一页面块划分为多于一个的第一页面块子块;确定出所述题目元素所在的第一页面块子块;判断所述题目元素所在的第一页面块子块是否仅包含所述题目元素,若是,则确定出所述题目元素所在的第一页面块子块为所述题目块;若否,则继续对所述题目元素所在的第一页面块子块进行划分,直至确定出仅包含所述题目元素的题目块为止。
9.根据权利要求7所述的装置,其特征在于,所述第二条件所依据的第二视觉特征需求信息为:基于预设的候选正文视觉需求信息及正文文字在预定视觉特征上的相似度所确定的条件,则所述第二抽取单元从所述多于一个的页面块中确定出符合第二条件的正文块,进一步包括:
从所述多于一个的页面块中确定出符合候选正文视觉需求信息的一个最小块作为候选正文块,所述候选正文视觉需求信息包括:在网页页面中所占面积与网页页面总面积的比值不低于第一预定阈值,且在网页页面中所处的位置符合第二位置需求信息;所述候选正文块为所述多于一个的页面块中的某一个页面块或某一个页面块的子块;
从所述候选正文块中确定出文字长度最大的子块作为正文种子块;
在所述候选正文块中,若所述正文种子块的上部存在与所述正文种子块相邻的上位子块,且所述上位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述上位子块,并将合并后所得的块作为新的正文种子块;
在所述候选正文块中,若所述正文种子块的下部存在与所述正文种子块相邻的下位子块,且所述下位子块与所述正文种子块在预定视觉特征上的相似度不低于第二预定阈值,则合并所述正文种子块及所述下位子块,并将合并后所得的块作为新的正文种子块,直至所述候选正文块中不存在所述相似度不低于第二预定阈值的上位子块及下位子块为止,合并结束后所得的最新正文种子块作为所述正文块;其中,所述上位子块及所述下位子块为所述候选正文块的子块。
10.根据权利要求7所述的装置,其特征在于,所述第三抽取单元确定出关键词块,进一步包括:
依据所述题目块和所述正文块在页面中对应的视觉信息,确定出候选关键词总块,所述候选关键词总块为网页页面中处于所述题目块及所述正文块之间的块;基于候选关键词总块中各网页元素的视觉信息,及预定的第三划分标准,将所述候选关键词总块划分为多于一个的候选关键词块;从各个候选关键词块中确定出符合第三视觉特征需求信息的关键词块,所述关键词块为某一个候选关键词块或某一个候选关键词块的子块;若未能从各个候选关键词块中确定出关键词块,则将处于所述正文块正下方的块作为新的候选关键词总块,并从所述新的候选关键词总块中确定符合第三视觉特征需求信息的关键词块。
CN201611226578.4A 2016-12-27 2016-12-27 一种网页信息抽取方法及装置 Active CN106649767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611226578.4A CN106649767B (zh) 2016-12-27 2016-12-27 一种网页信息抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611226578.4A CN106649767B (zh) 2016-12-27 2016-12-27 一种网页信息抽取方法及装置

Publications (2)

Publication Number Publication Date
CN106649767A CN106649767A (zh) 2017-05-10
CN106649767B true CN106649767B (zh) 2020-03-17

Family

ID=58832817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611226578.4A Active CN106649767B (zh) 2016-12-27 2016-12-27 一种网页信息抽取方法及装置

Country Status (1)

Country Link
CN (1) CN106649767B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633399A (zh) * 2018-06-01 2019-12-31 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109344733A (zh) * 2018-09-11 2019-02-15 中共中央办公厅电子科技学院 一种基于视觉特征的网页关键内容检测系统及方法
CN112732955A (zh) * 2021-03-31 2021-04-30 国网浙江省电力有限公司 标准成本核算中的财务凭证存储记录方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937438B (zh) * 2009-06-30 2013-06-05 富士通株式会社 网页内容提取方法和装置
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
CN102253979B (zh) * 2011-06-23 2013-07-24 天津海量信息技术有限公司 基于视觉的web页面萃取方法
CN103744920A (zh) * 2013-12-27 2014-04-23 苏州大学 一种商品属性名值对抽取方法及系统

Also Published As

Publication number Publication date
CN106649767A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
JP6653334B2 (ja) 情報抽出方法及び装置
US8255793B2 (en) Automatic visual segmentation of webpages
Cai et al. Vips: a vision-based page segmentation algorithm
US10223455B2 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
CN109543126B (zh) 基于块文字占比的网页正文信息提取方法
US20090300046A1 (en) Method and system for document classification based on document structure and written style
CN107590219A (zh) 网页人物主题相关信息提取方法
EP2425353A1 (en) Method and apparatus for identifying synonyms and using synonyms to search
CN112818694A (zh) 一种基于规则和改进预训练模型的命名实体识别方法
CN104657410A (zh) 基于问题修复链接的方法和系统
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN106649767B (zh) 一种网页信息抽取方法及装置
CN104598577A (zh) 一种网页正文的提取方法
CN106407195B (zh) 用于网页消重的方法和系统
JP2005063432A (ja) マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
CN109740097B (zh) 一种基于逻辑链接块的网页正文抽取方法
CN110083760B (zh) 一种基于可视块的多记录型动态网页信息提取方法
Gali et al. Extracting representative image from web page
CN108628703B (zh) 一种基于视觉相似性镜像网站发现方法及系统
CN109388665B (zh) 作者关系在线挖掘方法及系统
Kaddu et al. To extract informative content from online web pages by using hybrid approach
CN113157857A (zh) 面向新闻的热点话题检测方法、装置及设备
CN105808566A (zh) 一种基于搜索词从网页中提取摘要的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant