CN101937438A - 网页内容提取方法和装置 - Google Patents

网页内容提取方法和装置 Download PDF

Info

Publication number
CN101937438A
CN101937438A CN2009101397455A CN200910139745A CN101937438A CN 101937438 A CN101937438 A CN 101937438A CN 2009101397455 A CN2009101397455 A CN 2009101397455A CN 200910139745 A CN200910139745 A CN 200910139745A CN 101937438 A CN101937438 A CN 101937438A
Authority
CN
China
Prior art keywords
webpage
text node
text
layout
layout piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009101397455A
Other languages
English (en)
Other versions
CN101937438B (zh
Inventor
付雷
孟遥
孙俊
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN 200910139745 priority Critical patent/CN101937438B/zh
Publication of CN101937438A publication Critical patent/CN101937438A/zh
Application granted granted Critical
Publication of CN101937438B publication Critical patent/CN101937438B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种网页内容提取方法和装置,其中该网页内容提取方法,包括如下步骤:对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。本发明开创性地融合了图像布局分析和自然语言处理的相关技术,形成了一个全自动、高效、准确的网页内容提取方案。

Description

网页内容提取方法和装置
技术领域
本发明涉及互联网信息处理领域及图像处理领域,特别涉及一种基于视觉布局分析的网页内容提取方法和装置,其通过应用图像处理的文档布局分析技术和自然语言处理的相关统计技术来完成对网页正文内容的自动提取。
背景技术
当前,互联网已经成为现有信息系统的主要信息来源之一。由于互联网的开放性和用户的随意性,Web网页在存在大量有价值的信息的同时也存在大量诸如导航、版权、广告等与正文无关的噪声信息。噪声信息的存在使得后续信息服务的数据质量无法保证。从网页中提取有价值的内容来保证数据质量无疑可以为后续的网页信息处理应用奠定基础。在信息搜索、信息过滤、文本分类、文本聚类、文摘等应用中,去除掉网页中的噪声信息,提取网页的内容是非常重要的一步。比如在信息搜索中,在去除掉噪声信息的网页内容基础上建立索引可以有效地提高搜索的准确率;而在信息过滤、文本分类、文本聚类和网页自动摘要等应用中,准确的网页内容对系统的性能有很大的提升作用。
网页内容提取技术经历了长时间的发展,演化出了多种方法,这些方法大致可以分为以下几类:基于用户设计的特定语言来开发提取网页内容的包装器的方法;基于HTML文档的树结构(DOM树或标签树),通过自动或半自动的方法来推导提取内容的包装器的方法;基于自然语言处理相关技术的提取方法;以及基于已标注样本学习的包装器推导方法;基于Ontology的内容提取方法。
上述的分类方法只是众多分类方法中的一种,各种分类方法的界限并不是截然分明的,现有的很多方法也通常是多种技术的有机结合。
在传统的提取网页正文的方法中,虽然考虑了网页的布局信息,但其采用的方法都是从DOM树推导出来的一种伪布局,DOM树中的节点的顺序与显示的布局之间有很大的差异,所以传统的方法得到的布局只是对网页的一种粗略的分块,从而经常造成提取内容的部分缺失和噪音夹杂的问题。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于现有技术的上述情形,本发明的目的是提供一种基于视觉布局分析的网页内容提取方法和装置,其通过应用图像处理的文档布局分析技术和自然语言处理的相关统计技术来完成对网页正文内容的自动提取,从而能够有效地克服或减轻现有技术中的上述技术问题。
为了实现上述目的,根据本发明的一方面,提供了一种网页内容提取方法,其包括如下步骤:对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。
根据本发明的另一方面,还提供了一种网页内容提取装置,其包括:布局分析单元,用于对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;布局块识别单元,用于对每个布局块进行光学字符识别,以生成所述布局块中的识别文本;网页分析单元,用于对所述网页进行分析,以建立所述网页的文档对象模型树;文本节点映射单元,用于利用所述文档对象模型树中的文本节点的真实文本与所述布局块中的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及网页内容提取单元,用于至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。
根据本发明的另一方面,还提供了用于实现上述网页内容提取方法的计算机程序产品。
根据本发明的另一方面,还提供了计算机可读介质,其上记录有用于实现上述网页内容提取方法的计算机程序代码。
在本发明的上述技术方案中,可以使用基于图像的文档布局分析技术对网页进行视觉布局分割,从某种意义上来说该方案模拟了用户浏览网页时对网页布局的第一感知,克服了传统方案中从网页的文档对象模型(DOM)树来推导出网页分块的不确定性,复杂程度相比之下也大大降低,同时,还结合了自然语言处理的相关技术来完成对网页内容的提取,提高了提取内容的正确性。
由上可知,本发明开创性地融合了图像布局分析和自然语言处理的相关技术,形成了一个全自动、高效、准确的网页内容提取方案。
附图说明
本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明实施例的网页内容提取方法的总体流程图;
图2具体示出了图1所示的步骤S110的视觉布局分析处理的流程图;
图3示出了对示例性输入网页进行视觉布局分析处理的示意图;
图4示出了与图3的输入网页相对应的DOM树及其中的文本节点的示意图;
图5具体示出了图1所示的步骤S140的文本节点映射处理的流程图;
图6示出了布局块的坐标示意图;以及
图7示出了根据本发明实施例的网页内容提取装置的框图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其它元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
下面参照附图详细描述根据本发明实施例的网页内容提取方法。
图1示出了根据本发明实施例的网页内容提取方法的总体流程图。
首先,在步骤S110,对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块。
接下来,在步骤S120,对每个布局块进行光学字符识别(OCR),以生成所述布局块的识别文本。
接下来,在步骤S130,对所述网页进行分析,以建立所述网页的文档对象模型(DOM)树。
接下来,在步骤S140,利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中。
最后,在步骤S150中,至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。
下面结合附图对根据本发明实施例的网页提取方法的各个步骤的具体实施方式进行详细描述。但是,本领域的技术人员应当清楚,本发明不局限于下述具体实施方式。
根据本发明的一个具体实施例,图1所示的步骤S110的视觉布局分析处理的流程图如图2所示,其具体包括:
在步骤S210,将输入的网页转存为图片;以及
在步骤S220,利用基于图像的布局分析算法,对图片进行区域布局划分。
步骤S220中的处理所采用的布局分析算法例如可以采用现有技术中公知的各种基于图像的文档布局分析算法,例如“Whitespace cover”算法。该算法通过寻找图像中的最大空白区域来完成各区域的界定与分割,具体实现请参见T.M.Breuel所著的“Two geometric algorithms for layoutanalysis”(Workshop on Document Analysis Systems,2002)。通过基于图像的布局分析算法,完成对网页的布局分割,形成各布局块,并给出各布局块在网页中的坐标信息。这样,可以很直观地模拟出用户浏览网页时对于网页布局的视觉感知与定位,较之传统的基于DOM树来反推网页布局的方法更加直接,更加准确。图3示出了对示例性输入网页进行视觉布局分析处理的示意图,其中该图的上半部分示意性地示出了输入网页,而下半部分示意性地示出了所产生的各布局块及其中的识别文本。
对于图1的步骤S130中的网页分析处理,其基本做法就是,依次读入网页的内容,识别每一个HTML标签的名称、类别、参数和内容,以树状结构进行存储,从而形成网页的DOM树。该过程对于本领域的技术人员是熟知的,在此不再赘述。图4示出了与图3的输入网页相对应的DOM树及其中的文本节点的示意图。
根据本发明的一个具体实施例,图1所示的步骤S140的文本节点映射处理的流程图如图2所示,其具体包括:在步骤S610,根据自然语言处理中的n元语法统计技术,形成与所述文本节点的真实文本相对应的n元短语集合;在步骤S620,对于每个布局块,通过将所述n元短语集合中的短语包含在所述布局块的识别文本中的数目除以所述n元短语集合中的总短语数目来计算所述布局块相对于所述文本节点的短语包含率;以及,在步骤S630,将所述文本节点映射到其短语包含率大于预定阈值的布局块中。
对于步骤S610的处理,n元短语集合可以以字为单位来形成,也可以以词为单位来形成。在n元短语集合以词为单位形成的情况下,需要首先对文本节点的真实文本进行分词。举例来说,假设文本节点的真实文本为“视觉布局分析”,且n为3的情况下,则在以字为单位的情况下,其3元短语集合为{“视觉布”,“觉布局”,“布局分”,“局分析”},而在以词为单位的情况下,“视觉布局分析”首先经分词为“视觉”、“布局”和“分析”这三个词,因而其3元短语集合为{“视觉布局分析”}。
对于步骤S620的处理,遍历所有的布局块,计算布局块相对于当前文本节点的短语包含率。具体地说,首先,对于当前文本节点的n元短语集合中的每个短语,判断其是否能够在布局块的识别文本中搜索到。如果能够搜索到,则将相应的计数值增1。在处理完该n元短语集合中的所有短语后,将最终得到的计数值除以n元短语集合中的短语总数来算出布局块相对于当前文本节点的短语包含率。
对于步骤S630的处理,预定阈值可以根据经验调整,优选地可以设为0.8。
可选地,如果当前文本节点在任一布局块中的短语包含率都小于预定阈值,则该文本节点不被映射到任何布局块。在这种情况下,可以查找与当前文本节点相邻的已被映射文本节点,并且将当前文本节点映射到所找出的相邻文本节点所被映射的布局块中,从而可以将DOM树中的所有文本节点都一一映射到某个布局块中。
由于位于DOM树同一层上的文本节点,即编号连续的节点通常在网页显示时其中的内容也是上下接续的,因此查找与当前文本节点相邻的已被映射文本节点优选地可以通过以下方式来实现:
首先,对网页的DOM树中的各个文本节点按照广度优先的次序进行顺序编号。优选地,该处理可以在步骤S130分析网页来建立DOM树时一并完成。例如,图4示出了与图3的输入网页相对应的DOM树中各个文本节点的编号;
然后,查找其编号与当前文本节点的编号连续的已被映射文本节点,作为与当前文本节点相邻的已被映射文本节点,即,其编号比当前文本节点的编号大1或小1的已被映射文本节点。
根据本发明的一个具体实施例,图1的步骤S150中的网页提取处理具体包括:根据布局块在网页中的位置坐标信息,判定布局块是否位于网页的预定区域,优选地是网页的中间区域;以及至少根据判定的结果来提取所述网页的正文内容。
具体地说,首先,根据各布局块在网页中的坐标信息过滤掉网页的边缘布局块。人们习惯于将网页的内容放在网页的相对中央的部分,边缘的布局块多为一些广告、导航、相关链接等信息,这类布局块中含有网页正文的几率很小。假定网页的布局块及网页本身的坐标如图6所示,则可以分别在X轴及Y轴方向上设定阈值参数来过滤布局块,如布局块的坐标满足如下两对条件,则认为该布局块为候选正文块,否则认为该布局块不包含网页的正文内容:
条件1:x1/w>a&&x2/w<b
条件2:y1/h>c&&y2/h<d
其中,a、b、c、d四个阈值可以根据欲提取内容的网页的类型及经验设定。
优选地,在确定了候选正文块以后,可以根据在本技术领域内公知的各种手段,对候选各块进行进一步的判断,以决定其是否可以作为正文内容被提取出来。
例如,在决策的过程中,可以采用链接正文比和/或DOM树节点的标签属性来判断其是否是正文。所谓的链接正文比是指布局块内容中包含链接的文字的长度Llink与整个布局块包含内容的长度Lnode的比例R:
R=Llink/Lnode
如果R大于预定阈值,则认为该块包含的文字非正文,因为其链接文字的长度过大,极有可能是相关链接及其他形式的噪音内容。该预定阈值可以根据网页的类型及经验设定。同时,根据DOM树节点的标签属性来进一步过滤布局块,对于一些常用的用户交互式的节点,如<input>、<select>、<option>、<form>等标签,这些标签主要是用来与用户进行交互使用,不构成网页的内容,因此,如果一个布局块中全部为此类节点或者有部分此类节点,则将该布局块或布局块中这些节点对应的内容过滤掉,得到最终的网页内容。
虽然上面结合附图详细描述了根据本发明实施例的网页提取方法,但是本领域的技术人员应当明白,图1所示的流程图仅仅是示例性的,并且可以根据实际应用和具体要求的不同,对图1所示的方法流程进行相应的修改。
根据需要,可以对图1所示的方法中的某些步骤的执行顺序进行调整,或者可以省去或者添加某些处理步骤。例如,虽然图3中示出了网页分析处理(即,步骤S130)在视觉布局分析处理和布局块识别处理(即,步骤S110和S120)之后执行,但是显然它们也可以并行执行,或者是颠倒顺序地执行。
根据本发明的上述技术方案,可以基于图像的布局分析得到相对精确的网页布局,同时利用OCR技术获得布局块中的大致内容,再结合自然语言处理中的相关技术完成对布局块真实内容的恢复和最终的网页正文内容的提取,这种方法适合任何类型的网页,不需要针对不同的网站进行特殊处理,同时,该方法得到的布局更接近于用户浏览网页时的视觉感知,更能准确的反映出网页中主体内容所在的位置,在充分利用了布局位置信息和自然语言处理中的n元短语(n-gram)统计技术的基础上,最大程度上保证了提取内容的完整性和正确性,很好地克服了传统方法中经常造成提取内容的部分缺失和噪音夹杂的问题。
下面将结合附图描述根据本发明实施例的网页提取装置。图7示出了根据本发明实施例的网页提取装置700的框图,其中,为了简明起见仅仅示出了与本发明密切相关的部分。在网页提取装置700中,能够执行以上参考图1所描述的网页接入方法。
如图7所示,网页提取装置700可以包括布局分析单元710、布局块文本识别单元720、网页分析单元730、文本节点映射单元740以及网页内容提取单元750。
其中,布局分析单元710可以对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块。布局块文本识别单元720可以对每个布局块进行光学字符识别,以生成所述布局块中的识别文本。网页分析单元730可以对所述网页进行分析,以建立所述网页的文档对象模型树。文本节点映射单元740可以利用所述文档对象模型树中的文本节点的真实文本与所述布局块中的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中。网页内容提取单元750可以至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。
在本发明的一个具体实施例中,布局分析单元710可以进一步包括:网页转存单元,用于将所述网页转存为所述图片;以及布局划分单元,用于利用基于图像的布局分析算法,对所述图片进行区域布局划分。
在本发明的一个具体实施例中,文本节点映射单元740可以进一步包括:n元短语集合形成单元,用于根据自然语言处理中的n元语法统计技术,形成与所述文本节点的真实文本相对应的n元短语集合;短语包含率计算单元,用于对于每个布局块通过将所述n元短语集合中的短语包含在所述布局块的识别文本中的数目除以所述n元短语集合中的总短语数目来计算所述布局块相对于所述文本节点的短语包含率;以及第一映射单元,用于将所述文本节点映射到其短语包含率大于预定阈值的布局块中。
在本发明的一个具体实施例中,文本节点映射单元740还可以包括:相邻节点查找单元,用于如果所述文本节点未被映射到任一布局块中,则查找与所述文本节点相邻的已被映射文本节点;以及第二映射单元,用于将所述文本节点映射到所找出的相邻文本节点所被映射的布局块中。
在本发明的一个具体实施例中,相邻节点查找单元可以进一步包括:文本节点编号单元,用于对所述文档对象模型树中的各个文本节点按照广度优先的次序进行顺序编号;以及查找单元,用于查找其编号与所述文本节点的编号连续的已被映射文本节点,作为与所述文本节点相邻的所述已被映射文本节点。
在本发明的一个具体实施例中,网页内容提取单元750可以进一步包括:区域判定单元,用于根据所述布局块在所述网页中的位置坐标信息,判定所述布局块是否位于所述网页的预定区域;以及提取单元,用于至少根据所述区域判定单元作出的判定结果来提取所述网页的正文内容。
在本发明的一个具体实施例中,提取单元还利用所述布局块中所包含的文字长度与所包含的链接文字的长度的比例以及所述文本节点的属性中的一个或两者来提取所述网页的正文内容。
由于在上文中已经参照方法的流程图对网页提取装置700的各个组成部件的具体和/或可选处理过程进行了描述,因此,在此为了避免重复,就不再对它们的操作和处理过程进行详述了。
在此需要说明的是,图7所示的网页提取装置700的结构仅仅是示例性的,本领域技术人员可以根据需要对图7所示的结构框图进行修改。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims (14)

1.一种网页内容提取方法,包括如下步骤:
对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;
对每个布局块进行光学字符识别,以生成所述布局块的识别文本;
对所述网页进行分析,以建立所述网页的文档对象模型树;
利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及
至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。
2.根据权利要求1所述的网页内容提取方法,其中对网页的图片进行视觉布局分析进一步包括:
将所述网页转存为所述图片;以及
利用基于图像的布局分析算法,对所述图片进行区域布局划分。
3.根据权利要求1所述的网页内容提取方法,其中将所述文档对象模型树中的每个文本节点映射到所述布局块之一中进一步包括:
根据自然语言处理中的n元语法统计技术,形成与所述文本节点的真实文本相对应的n元短语集合;
对于每个布局块,通过将所述n元短语集合中的短语包含在所述布局块的识别文本中的数目除以所述n元短语集合中的总短语数目来计算所述布局块相对于所述文本节点的短语包含率;以及
将所述文本节点映射到其短语包含率大于预定阈值的布局块中。
4.根据权利要求3所述的网页内容提取方法,其中将所述文档对象模型树中的每个文本节点映射到所述布局块之一中还包括:
如果所述文本节点未被映射到任一布局块中,则查找与所述文本节点相邻的已被映射文本节点;以及
将所述文本节点映射到所找出的相邻文本节点所被映射的布局块中。
5.根据权利要求4所述的网页内容提取方法,其中查找与所述文本节点相邻的已被映射节点进一步包括:
对所述文档对象模型树中的各个文本节点按照广度优先的次序进行顺序编号;以及
查找其编号与所述文本节点的编号连续的已被映射文本节点,作为与所述文本节点相邻的所述已被映射文本节点。
6.根据权利要求1所述的网页内容提取方法,其中至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容进一步包括:
根据所述布局块在所述网页中的位置坐标信息,判定所述布局块是否位于所述网页的预定区域;以及
至少根据所述判定的结果来提取所述网页的正文内容。
7.根据权利要求6所述的网页内容提取方法,其中至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容还包括:
利用所述布局块中所包含的文字长度与所包含的链接文字的长度的比例以及所述文本节点的属性中的一个或两者来提取所述网页的正文内容。
8.一种网页内容提取装置,包括:
布局分析单元,用于对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;
布局块识别单元,用于对每个布局块进行光学字符识别,以生成所述布局块中的识别文本;
网页分析单元,用于对所述网页进行分析,以建立所述网页的文档对象模型树;
文本节点映射单元,用于利用所述文档对象模型树中的文本节点的真实文本与所述布局块中的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及
网页内容提取单元,用于至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。
9.根据权利要求8所述的网页内容提取装置,其中所述布局分析单元进一步包括:
网页转存单元,用于将所述网页转存为所述图片;以及
布局划分单元,用于利用基于图像的布局分析算法,对所述图片进行区域布局划分。
10.根据权利要求8所述的网页内容提取装置,其中所述文本节点映射单元进一步包括:
n元短语集合形成单元,用于根据自然语言处理中的n元语法统计技术,形成与所述文本节点的真实文本相对应的n元短语集合;
短语包含率计算单元,用于对于每个布局块通过将所述n元短语集合中的短语包含在所述布局块的识别文本中的数目除以所述n元短语集合中的总短语数目来计算所述布局块相对于所述文本节点的短语包含率;以及
第一映射单元,用于将所述文本节点映射到其短语包含率大于预定阈值的布局块中。
11.根据权利要求10所述的网页内容提取装置,其中所述文本节点映射单元还包括:
相邻节点查找单元,用于如果所述文本节点未被映射到任一布局块中,则查找与所述文本节点相邻的已被映射文本节点;以及
第二映射单元,用于将所述文本节点映射到所找出的相邻文本节点所被映射的布局块中。
12.根据权利要求11所述的网页内容提取装置,其中所述相邻节点查找单元进一步包括:
文本节点编号单元,用于对所述文档对象模型树中的各个文本节点按照广度优先的次序进行顺序编号;以及
查找单元,用于查找其编号与所述文本节点的编号连续的已被映射文本节点,作为与所述文本节点相邻的所述已被映射文本节点。
13.根据权利要求8所述的网页内容提取装置,其中所述网页内容提取单元进一步包括:
区域判定单元,用于根据所述布局块在所述网页中的位置坐标信息,判定所述布局块是否位于所述网页的预定区域;以及
提取单元,用于至少根据所述区域判定单元作出的判定结果来提取所述网页的正文内容。
14.根据权利要求13所述的网页内容提取装置,其中所述提取单元还利用所述布局块中所包含的文字长度与所包含的链接文字的长度的比例以及所述文本节点的属性中的一个或两者来提取所述网页的正文内容。
CN 200910139745 2009-06-30 2009-06-30 网页内容提取方法和装置 Expired - Fee Related CN101937438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910139745 CN101937438B (zh) 2009-06-30 2009-06-30 网页内容提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910139745 CN101937438B (zh) 2009-06-30 2009-06-30 网页内容提取方法和装置

Publications (2)

Publication Number Publication Date
CN101937438A true CN101937438A (zh) 2011-01-05
CN101937438B CN101937438B (zh) 2013-06-05

Family

ID=43390772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910139745 Expired - Fee Related CN101937438B (zh) 2009-06-30 2009-06-30 网页内容提取方法和装置

Country Status (1)

Country Link
CN (1) CN101937438B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253979A (zh) * 2011-06-23 2011-11-23 天津海量信息技术有限公司 基于视觉的web页面萃取方法
CN102622333A (zh) * 2011-01-18 2012-08-01 微软公司 提取文本以转换成音频
CN102622395A (zh) * 2011-12-20 2012-08-01 深信服网络科技(深圳)有限公司 虚拟化应用辅助访问网页的方法、服务器及客户端
CN102737122A (zh) * 2012-06-08 2012-10-17 浙江大学 一种提取网页中验证码图片的方法
CN102810097A (zh) * 2011-06-02 2012-12-05 高德软件有限公司 网页正文内容提取方法及装置
CN103064824A (zh) * 2013-01-17 2013-04-24 深圳市中兴移动通信有限公司 通过截屏添加待编辑文件内容的方法和装置
CN103617164A (zh) * 2013-10-22 2014-03-05 小米科技有限责任公司 网页预取方法、装置及终端设备
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN104598577A (zh) * 2015-01-14 2015-05-06 晶赞广告(上海)有限公司 一种网页正文的提取方法
CN104615728A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种网页正文提取方法及装置
CN104881428A (zh) * 2015-04-02 2015-09-02 广州神马移动信息科技有限公司 一种信息图网页的信息图提取、检索方法和装置
CN105183886A (zh) * 2015-09-25 2015-12-23 中国民生银行股份有限公司 网页内容提取方法及装置
CN105320851A (zh) * 2014-08-05 2016-02-10 腾讯科技(深圳)有限公司 网页安全性检测方法及装置
CN105550278A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于深度学习的网页区域识别算法
CN105550904A (zh) * 2015-12-30 2016-05-04 芜湖乐锐思信息咨询有限公司 基于网络化运营的产品布局分析系统
CN106156236A (zh) * 2014-10-28 2016-11-23 李光耀 视觉网页分析系统与方法
CN106649767A (zh) * 2016-12-27 2017-05-10 东软集团股份有限公司 一种网页信息抽取方法及装置
CN106789856A (zh) * 2015-11-25 2017-05-31 阿里巴巴集团控股有限公司 一种信息编码方法、解码方法及装置
CN108228609A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 信息过滤方法和装置
CN108959287A (zh) * 2017-05-17 2018-12-07 中兴通讯股份有限公司 一种网页内容处理方法及装置、存储介质
CN109145285A (zh) * 2017-06-19 2019-01-04 通用汽车环球科技运作有限责任公司 短语提取文本分析方法和系统
CN109189682A (zh) * 2018-08-27 2019-01-11 广州云测信息技术有限公司 一种脚本录制方法和装置
CN110110198A (zh) * 2017-12-28 2019-08-09 中移(苏州)软件技术有限公司 一种网页信息抽取方法及装置
CN110309392A (zh) * 2019-03-21 2019-10-08 广州国音智能科技有限公司 一种获取网页正文内容的方法和相关装置
US10599767B1 (en) 2018-05-31 2020-03-24 The Ultimate Software Group, Inc. System for providing intelligent part of speech processing of complex natural language
CN111475699A (zh) * 2020-03-07 2020-07-31 咪咕文化科技有限公司 网站数据爬取方法和装置、电子设备、及可读存储介质
US10747651B1 (en) 2018-05-31 2020-08-18 The Ultimate Software Group, Inc. System for optimizing system resources and runtime during a testing procedure
US10769056B2 (en) 2018-02-26 2020-09-08 The Ultimate Software Group, Inc. System for autonomously testing a computer system
CN112036412A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种网页识别方法、装置、设备及存储介质
US10977155B1 (en) 2018-05-31 2021-04-13 The Ultimate Software Group, Inc. System for providing autonomous discovery of field or navigation constraints
US11010284B1 (en) 2018-05-31 2021-05-18 The Ultimate Software Group, Inc. System for understanding navigational semantics via hypothesis generation and contextual analysis
US11113175B1 (en) 2018-05-31 2021-09-07 The Ultimate Software Group, Inc. System for discovering semantic relationships in computer programs
WO2021248492A1 (en) * 2020-06-12 2021-12-16 Microsoft Technology Licensing, Llc Semantic representation of text in document
WO2022100338A1 (zh) * 2020-11-10 2022-05-19 腾讯科技(深圳)有限公司 一种图片搜索方法、装置、电子设备、计算机可读存储介质及计算机程序产品
US11403364B2 (en) 2017-10-13 2022-08-02 Huawei Technologies Co., Ltd. Method and terminal device for extracting web page content
US11941423B2 (en) 2018-06-25 2024-03-26 Huawei Technologies Co., Ltd. Data processing method and related device
US11954461B2 (en) 2018-02-26 2024-04-09 Ukg Inc. Autonomously delivering software features

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7428700B2 (en) * 2003-07-28 2008-09-23 Microsoft Corporation Vision-based document segmentation
US7421651B2 (en) * 2004-12-30 2008-09-02 Google Inc. Document segmentation based on visual gaps

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622333A (zh) * 2011-01-18 2012-08-01 微软公司 提取文本以转换成音频
CN102810097A (zh) * 2011-06-02 2012-12-05 高德软件有限公司 网页正文内容提取方法及装置
CN102810097B (zh) * 2011-06-02 2016-03-02 高德软件有限公司 网页正文内容提取方法及装置
CN102253979A (zh) * 2011-06-23 2011-11-23 天津海量信息技术有限公司 基于视觉的web页面萃取方法
CN102253979B (zh) * 2011-06-23 2013-07-24 天津海量信息技术有限公司 基于视觉的web页面萃取方法
CN102622395A (zh) * 2011-12-20 2012-08-01 深信服网络科技(深圳)有限公司 虚拟化应用辅助访问网页的方法、服务器及客户端
CN102622395B (zh) * 2011-12-20 2015-04-22 深信服网络科技(深圳)有限公司 虚拟化应用辅助访问网页的方法、服务器及客户端
CN102737122B (zh) * 2012-06-08 2014-12-10 浙江大学 一种提取网页中验证码图片的方法
CN102737122A (zh) * 2012-06-08 2012-10-17 浙江大学 一种提取网页中验证码图片的方法
CN103064824A (zh) * 2013-01-17 2013-04-24 深圳市中兴移动通信有限公司 通过截屏添加待编辑文件内容的方法和装置
CN103617164A (zh) * 2013-10-22 2014-03-05 小米科技有限责任公司 网页预取方法、装置及终端设备
CN103617164B (zh) * 2013-10-22 2017-02-01 小米科技有限责任公司 网页预取方法、装置及终端设备
CN105320851A (zh) * 2014-08-05 2016-02-10 腾讯科技(深圳)有限公司 网页安全性检测方法及装置
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN106156236B (zh) * 2014-10-28 2020-01-31 李光耀 视觉网页分析系统与方法
CN106156236A (zh) * 2014-10-28 2016-11-23 李光耀 视觉网页分析系统与方法
CN104598577A (zh) * 2015-01-14 2015-05-06 晶赞广告(上海)有限公司 一种网页正文的提取方法
CN104598577B (zh) * 2015-01-14 2017-09-15 晶赞广告(上海)有限公司 一种网页正文的提取方法
CN104615728A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种网页正文提取方法及装置
CN104615728B (zh) * 2015-02-09 2018-02-23 浪潮集团有限公司 一种网页正文提取方法及装置
CN104881428A (zh) * 2015-04-02 2015-09-02 广州神马移动信息科技有限公司 一种信息图网页的信息图提取、检索方法和装置
CN104881428B (zh) * 2015-04-02 2019-03-29 广州神马移动信息科技有限公司 一种信息图网页的信息图提取、检索方法和装置
CN105183886A (zh) * 2015-09-25 2015-12-23 中国民生银行股份有限公司 网页内容提取方法及装置
CN106789856A (zh) * 2015-11-25 2017-05-31 阿里巴巴集团控股有限公司 一种信息编码方法、解码方法及装置
CN105550278A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于深度学习的网页区域识别算法
CN105550904A (zh) * 2015-12-30 2016-05-04 芜湖乐锐思信息咨询有限公司 基于网络化运营的产品布局分析系统
CN108228609A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 信息过滤方法和装置
CN106649767A (zh) * 2016-12-27 2017-05-10 东软集团股份有限公司 一种网页信息抽取方法及装置
CN108959287A (zh) * 2017-05-17 2018-12-07 中兴通讯股份有限公司 一种网页内容处理方法及装置、存储介质
CN108959287B (zh) * 2017-05-17 2021-08-03 中兴通讯股份有限公司 一种网页内容处理方法及装置、存储介质
CN109145285B (zh) * 2017-06-19 2023-01-31 通用汽车环球科技运作有限责任公司 短语提取文本分析方法和系统
CN109145285A (zh) * 2017-06-19 2019-01-04 通用汽车环球科技运作有限责任公司 短语提取文本分析方法和系统
US11403364B2 (en) 2017-10-13 2022-08-02 Huawei Technologies Co., Ltd. Method and terminal device for extracting web page content
CN110110198A (zh) * 2017-12-28 2019-08-09 中移(苏州)软件技术有限公司 一种网页信息抽取方法及装置
CN110110198B (zh) * 2017-12-28 2021-06-15 中移(苏州)软件技术有限公司 一种网页信息抽取方法及装置
US11954461B2 (en) 2018-02-26 2024-04-09 Ukg Inc. Autonomously delivering software features
US10769056B2 (en) 2018-02-26 2020-09-08 The Ultimate Software Group, Inc. System for autonomously testing a computer system
US10747651B1 (en) 2018-05-31 2020-08-18 The Ultimate Software Group, Inc. System for optimizing system resources and runtime during a testing procedure
US10977155B1 (en) 2018-05-31 2021-04-13 The Ultimate Software Group, Inc. System for providing autonomous discovery of field or navigation constraints
US11010284B1 (en) 2018-05-31 2021-05-18 The Ultimate Software Group, Inc. System for understanding navigational semantics via hypothesis generation and contextual analysis
US10599767B1 (en) 2018-05-31 2020-03-24 The Ultimate Software Group, Inc. System for providing intelligent part of speech processing of complex natural language
US11113175B1 (en) 2018-05-31 2021-09-07 The Ultimate Software Group, Inc. System for discovering semantic relationships in computer programs
US11748232B2 (en) 2018-05-31 2023-09-05 Ukg Inc. System for discovering semantic relationships in computer programs
US11537793B2 (en) 2018-05-31 2022-12-27 Ukg Inc. System for providing intelligent part of speech processing of complex natural language
US11941423B2 (en) 2018-06-25 2024-03-26 Huawei Technologies Co., Ltd. Data processing method and related device
CN109189682A (zh) * 2018-08-27 2019-01-11 广州云测信息技术有限公司 一种脚本录制方法和装置
CN110309392A (zh) * 2019-03-21 2019-10-08 广州国音智能科技有限公司 一种获取网页正文内容的方法和相关装置
CN111475699A (zh) * 2020-03-07 2020-07-31 咪咕文化科技有限公司 网站数据爬取方法和装置、电子设备、及可读存储介质
CN111475699B (zh) * 2020-03-07 2023-09-08 咪咕文化科技有限公司 网站数据爬取方法和装置、电子设备、及可读存储介质
WO2021248492A1 (en) * 2020-06-12 2021-12-16 Microsoft Technology Licensing, Llc Semantic representation of text in document
CN112036412A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种网页识别方法、装置、设备及存储介质
WO2022100338A1 (zh) * 2020-11-10 2022-05-19 腾讯科技(深圳)有限公司 一种图片搜索方法、装置、电子设备、计算机可读存储介质及计算机程序产品

Also Published As

Publication number Publication date
CN101937438B (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
CN101937438B (zh) 网页内容提取方法和装置
CN102831121B (zh) 一种网页信息抽取的方法和系统
CN112699246B (zh) 基于知识图谱的领域知识推送方法
CN103605794B (zh) 一种网站分类方法
CN105630941B (zh) 基于统计和网页结构的Web正文内容抽取方法
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN103309862B (zh) 一种网页类型识别方法和系统
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN103488746A (zh) 一种获取业务信息的方法及装置
CN103927397A (zh) 一种基于区块树的Web页面链接块的识别方法
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN100432996C (zh) 基于网页页面布局提取网页核心内容的系统、方法
CN112528664B (zh) 基于多任务联合学习与地址层级结构知识的地址匹配方法
CN112597773A (zh) 文档结构化方法、系统、终端及介质
CN103810251A (zh) 一种文本提取方法及装置
CN108229567A (zh) 驾驶员身份识别方法及装置
CN111369294B (zh) 软件造价估算方法及装置
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN111522901A (zh) 文本中地址信息的处理方法及装置
CN101350019B (zh) 基于预定义槽间向量模型的网页信息抽取方法
CN103440315A (zh) 一种基于主题的Web页面清洗方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130605

Termination date: 20180630

CF01 Termination of patent right due to non-payment of annual fee