CN101515272B - 提取网页内容的方法和装置 - Google Patents

提取网页内容的方法和装置 Download PDF

Info

Publication number
CN101515272B
CN101515272B CN200810080786A CN200810080786A CN101515272B CN 101515272 B CN101515272 B CN 101515272B CN 200810080786 A CN200810080786 A CN 200810080786A CN 200810080786 A CN200810080786 A CN 200810080786A CN 101515272 B CN101515272 B CN 101515272B
Authority
CN
China
Prior art keywords
target
dda
dir
node
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810080786A
Other languages
English (en)
Other versions
CN101515272A (zh
Inventor
杜成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN200810080786A priority Critical patent/CN101515272B/zh
Priority to JP2008324056A priority patent/JP2009193571A/ja
Publication of CN101515272A publication Critical patent/CN101515272A/zh
Application granted granted Critical
Publication of CN101515272B publication Critical patent/CN101515272B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种用于提取网页内容的方法和装置。所述方法包括:基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;融合所述DDA提取结果和DIR提取结果,产生融合结果。根据本发明,能够得到比传统技术更优的网页提取结果。

Description

提取网页内容的方法和装置
技术领域
本发明涉及网页处理,更具体地说,本发明涉及提取网页内容的装置和方法。
背景技术
如今,因特网已经成为最大的信息来源,人们的日常生活越来越依赖于网络。随着网络的普及,网页内容提取(也称为网页分割)的应用越来越广泛。
举例来说,网页内容提取可以使得网页搜索的速度更快,结果更加精确。和传统的文本文档相比,网页的内容更加多样化,同一个网页的不同区域可以包含不同的主题。而且,出于浏览和发布的需要,网页中往往包含很多和主题无关的内容,如广告、导航条、装饰、版权信息以及联系方法等。由于网页的以上特征,相较于把整个网页作为一个信息检索单元,通过对网页进行分割,把每个分割单元作为独立的信息检索单元会使网页搜索结果更加精确。并且,通过网页分割可以排除与网页主题无关的内容,从而使网页搜索的速度更快,结果更加精确。
再例如,网页内容提取也可用于在手持设备上浏览网页。近年来,手持设备,如掌上电脑、个人数字助理(PDA)、移动电话等发展迅速。但是使用手持设备上网仍然很大程度上受到显示器过小的限制。传统的网页都是针对个人计算机设计的,对于手持设备用户来说,如果需要不停地滚动网页来寻找所需的信息,上网将变得枯燥和费事。通过网页分割,可以将网页的内容一块一块地显示在手持设备上,从而解决了这一问题。
此外,如果用户需要使用已有文档来产生新的文档,则对已有的版面进行分割是必不可少的步骤。
由于其广泛的应用背景,用户对于网页内容提取的需求很大。研究人员已经提出了一些用于网页内容提取的系统和方法。
例如,美国专利申请公开No.2006/0149775A1公开了一种基于文档的可视模型分割文档的方法。在该方法中,根据文档中可视的空白或间隙来确定可视模型,利用该可视模型确定文档的层次结构,并利用所确定的层次结构进行文档分割。但是对于那些逻辑结构和物理结构不一致的文档,该方法容易造成错误分割。
再例如,美国专利申请公开No.2006/0106798A1公开了一种自上而下的、和标签树无关的用于检测网页结构的方法。该方法基于目标的尺寸、位置、颜色以及背景等,通过投影的方法把文档分成若干块,之后,通过比较块之间的视觉相似程度来判断是否继续分为更小的块或与其他块合并。
现有的文档内容提取方法主要可以分为两类。第一类方法专注于文档图像处理,通过图像处理的方法来实现文档内容提取,本文中将其称为文档图像处理(DIR)方法。第二类方法专注于文档文件格式分析,通过分析输入文件描述的文档结构来提取内容,本文中将这类方法称为数字文档分析(DDA)。但是无论是DDA方法还是DIR方法都有其自己的局限性。
参考文献
专利文献1:美国专利申请公开No.2003/0215136A1,METHOD ANDSYSTEM FOR DOCUMENT SEGMENTATION,Hui Chao等,2003年11月20日;
专利文献2:美国专利申请公开No.2006/0149775A1,DOCUMENTSEGMENTATION BASED ON VISUAL GAPS,Daniel Egnor,2006年7月6日;
专利文献3:美国专利申请公开No.2006/0106798A1,VISION-BASEDDOCUMENT SEGMENTATION,Ji-Rong Wen等,2006年5月18日;
非专利文献1:JL Fisher,SC Hinds and DP D’amato,“A rule-based systemfor document image segmentation”,Proc.10th ICPR,第567-572页,1990年7月;
非专利文献2:Deng Cai,Shipeng Yu,Ji-Rong Wen and Wei-Ying Ma,“Extracting Content Structure for Web Pages based on Visual Representation”,The Fifth Asia Pacific Web Conference(APWeb2003),2003年。
发明内容
本发明提出了一种网页内容提取方法,其融和DDA和DIR方法的网页提取结果,从而产生比两种方法都更优的网页提取结果。本发明可用于网页检索,以及涉及网页分割、网页信息重用的文档解决方案。
根据本发明的一个方面,一种用于提取网页内容的方法包括:基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;融合所述DDA提取结果和DIR提取结果,产生融合结果。其中,提取结果可以表示为至少一个目标的集合,所述目标代表与网页中的矩形区域相对应的网页内容,所述目标至少包含相应矩形区域的位置信息和该目标的类型信息,并且所述类型包括文字、图片和表格。
根据本发明的一方面,所述融合DDA提取结果和DIR提取结果包括:确定DDA目标与DIR目标之间的对应关系;基于DDA目标和DIR目标之间的对应关系以及DDA目标和DIR目标的类型执行DDA提取结果与DIR提取结果的融合。其中,确定DDA目标和DIR目标之间的对应关系包括计算DDA目标与DIR目标的重叠尺度。如果DIR提取结果表示为G={G1,G2,...,GM},DDA提取结果表示为D={D1,D2,...,DN},则DDA目标Di与DIR目标Gj的重叠尺度通过下式计算:
σ ij = Area ( G i ∩ D j ) Area ( G i ) 以及 τ ij = Area ( G i ∩ D j ) Area ( D j ) ,i=1,2,...,M,j=1,2,...,N,其中,Area(Dj)是Dj对应的矩形区域的面积,Area(Gi)是Gi对应的矩形区域的面积,Area(Gi∩Dj)是Dj对应的矩形区域与Gi对应的矩形区域之间的重叠面积,并且N和M分别是DDA提取结果和DIR提取结果中的目标个数。
根据本发明的一方面,执行DDA提取结果与DIR提取结果的融合包括:基于DDA目标和DIR目标之间的对应关系以及目标类型对DDA目标和DIR目标进行分类;以及按照目标的类别来融合DDA提取结果和DIR提取结果,从而产生融合结果。
根据本发明的以方面,对于一个DIR目标Gi,如果存在DDA目标Dj,使得τij≈1并且σij≈1,而且Gi和Dj的类型相同,则将该Gi和该Dj分类到匹配类;对于一个DIR目标Gi,如果存在DDA目标Dj,使得τij≈1并且σij≈1,而且Gi和Dj的类型不同,则将该Gi和该Dj分类到类型错误类;对于一个DIR目标Gi,如果对于所有DDA目标均有σij≈0,则将该Gi分类到漏检类;对于一个DDA目标Dj,如果对于所有DIR目标均有τij≈0,则将该Dj分类到虚警类;对于一个DIR目标Gi,如果 Σ j = 1 N σ ij > T 1 ,并且将与之重叠的DDA目标合并后得到的合并目标与该Gi匹配,则将该Gi以及与该Gi重叠的DDA目标分类到分割类,其中,T1是第一预定阈值;对于一个DDA目标Dj,如果 Σ i = 1 M τ ij > T 2 , 并且将与之重叠的DIR目标合并后得到的合并目标与该Dj匹配,则将该Dj以及与之重叠的DIR目标分类到合并类,其中,T2是第二预定阈值;以及将不属于以上类别的DDA目标和DIR目标分类到其他类。
根据本发明的一方面,将匹配类中的DDA目标添加到融合结果中;将类型错误类中的DIR目标的位置信息和相应的DDA目标的类型信息结合产生一个新的目标,并把该新的目标添加到融合结果;将虚警类中所有的目标都添加到融合结果中;将分割类中的DIR目标添加到融合结果中;对于合并类,如果与DDA目标重叠的DIR目标都是图片类型的目标,则将相应的DIR目标添加到融合结果中;如果与DDA目标重叠的DIR目标中既包括图片类型的目标又包括文字类型的目标,则将相应的DDA目标添加到融合结果中;如果与DDA目标重叠的DIR目标都是文字类型的目标,则将与DDA目标重叠的DIR目标合并而成的合并目标添加到融合结果中;以及将其他类中的DDA目标添加到融合结果中。
根据本发明的一方面,基于DDA方法提取输入网页的网页内容包括:提取输入网页的文档对象模型(DOM)树,并至少保存DOM树中每个节点的父节点、字节点、标签名称、内部文字和位置的属性信息;利用DOM树分别提取输入网页中的文字目标、图片目标和表格目标。利用DOM树提取文字目标包括:对于DOM树中的每个节点,如果该节点的内部文字属性不为空,而且该节点的子节点中不包含块节点,则确定该节点表示的元素为候选文字目标;参考候选文字目标的属性信息对所确定的候选文字区域执行合并操作,以得到文字目标,其中,如果节点的标签名称不是“INPUT”、“!”、“A”、“B”、“U”、“I”、“BIG”、“SMALL”、“FONT”、“HR”、“BR”、“PRE”、“TT”、“S”、“BLOCKQUOTE”、“ADDRESS”、“DFN”、“SAMP”、“KBD”、“VAR”、“CODE”、“CITE”、“ABBR”、“ACRONYM”、“SUB”、“SUP”、“INS”、“DEL”、“P”、“EM”、“TEXT”、“STRONG”、“/A”之一,则该节点为块节点。对候选文字目标执行合并操作包括:如果两个文字目标在位置上重叠,则将它们合并为一个文字目标;如果一个文字目标被另外一个文字目标包含,则删除被包含的文字目标;如果两个文字目标所对应的矩形区域在垂直方向上位置相邻,并且它们的字体和文字高度属性相同,它们的左边缘相近,而且宽度相似,则将它们合并为一个文字区域。
根据本发明的一方面,如果DOM树节点的标签名称是“IMG”,并且其尺寸大于第三预定阈值,则确定该节点为图片目标。如果DOM树节点的标签名称为“TABLE”,并且该DOM树节点包含至少3个“TR”子节点,而且多数的“TR”子节点包含多于一个的“TD”子节点,则确定该节点为表格区域。
根据本发明的另一方面,提供一种用于提取网页内容的装置,包括:数字文档分析(DDA)网页内容提取单元,其基于DDA方法提取输入网页的网页内容,产生DDA提取结果;文档图像识别(DIR)网页内容提取单元,其基于DIR方法提取输入网页的网页内容,产生DIR提取结果;融合单元,其融合所述DDA提取结果和DIR提取结果,产生融合结果。
附图说明
图1是示出根据本发明实施例的网页内容提取装置的示例结构的框图;
图2是示出根据本发明实施例的网页内容提取方法的流程图。
图3是示出图1中的DDA网页内容提取单元的示例结构的框图;
图4示出了网页文件源码及其对应的DOM树的例子;
图5是示出根据本发明示例实施例的DDA网页内容提取方法的流程图;
图6是示出图1中的结果融合单元的示例结构的框图;
图7是示出根据本发明实施例的融合DDA和DIR提取结果的方法流程图;
图8A-8C分别示出了DDA网页内容提取结果、DIR网页内容提取结果和融合结果的示例;
具体实施方式
下面将参照附图详细描述本发明的示例实施例。附图中,相似的附图标记始终指代相似的元素。
图1是示出根据本发明实施例的网页内容提取装置100的示例性结构的框图。根据本发明的示例实施例,网页内容提取装置100包括输入单元110、DDA网页内容提取单元120、网页到图像转换单元130、DIR网页内容提取单元140以及DDA和DIR提取结果融合单元150。输入单元110用于输入网页。在本发明的示例实施例中,输入的网页例如可以是超文本标记语言(HTML)格式的网页文件。DDA网页内容提取单元120对输入网页进行基于DDA方法的网页内容提取处理,产生并输出DDA网页内容提取结果。下文中将参照图3对DDA网页内容提取单元进行更具体地描述。网页到图像转换单元130接收输入网页,将其转换成具有与输入网页相同外观的图像文件并输出。DIR网页内容提取单元140对该图像文件进行处理,产生并输出DIR网页内容提取结果。这里,DIR网页内容提取单元可以使用任意的基于图像处理的文档内容提取方法来进行提取。鉴于基于图像处理的文档内容提取方法为公知技术,在此省略对DIR网页内容提取单元的详细描述。结果融合单元150接收DDA和DIR网页内容提取结果,对两个结果进行比较,产生并输出融合后的网页内容提取结果。下文中将参照图6对结果融合单元150进行更详细地描述。在本发明的示例实施例中,网页内容提取结果可以表示为目标集合,该集合中的每一个目标代表网页中一个矩形区域内的网页内容,并且该目标可以包含该相应的网页内矩形区域的位置信息以及类型信息。在本发明的示例实施例中,所述类型可以包括文字、表格和图片。
图2是示出根据本发明示例实施例的网页内容提取方法的流程图。参照图2,在步骤S210输入网页文件,在步骤S220基于DDA方法提取输入网页的内容,产生并输出包括至少一个目标(称为DDA目标)的DDA网页内容提取结果。在步骤S230将输入网页转换成具有与输入网页相同外观的图像文件,并在步骤S240基于DIR方法提取该图像文件的内容,产生并输出包括至少一个目标(称为DIR目标)的DIR网页内容提取结果。最后,在步骤S250将DDA提取结果和DIR提取结果进行比较,基于DDA目标与DIR目标的对应关系以及目标类型来融合DDA提取结果和DIR提取结果,产生新的目标集合作为最终的网页内容提取结果。应当注意,步骤S220与步骤S230-S240可以以任意次序顺序执行,也可以并行执行。
下面,参照图3对DDA网页内容提取单元120进行具体描述。图3是示出根据本发明实施例的DDA网页内容提取单元120的示例结构的框图。DDA网页内容提取单元120对网页文件结构进行处理,以分别提取文字、表格和图片类型的网页内容(下文中称为文字区域、表格区域和图片区域),并输出DDA网页内容提取结果。参照图3,DDA网页内容提取单元120包括文档目标模型(DOM)树提取单元310、文字区域提取单元320、图片区域提取单元340、表格区域提取单元350和输出单元360。
DOM树提取单元310接收输入网页,提取输入网页的DOM树。如上所述,在本发明的示例实施例中,输入的网页可以是超文本标记语言(HTML)格式的网页文件。DOM树是对应于输入网页的树形结构。网页中的每个元素都被表示为该树形结构中的一个节点,并通过不同的路径连接到根节点。图4示出了网页文件源码及其对应的DOM树的例子。DOM树提取单元310在提取DOM树之后,保存网页中每个元素的父节点、子节点、标签名称、内部文字以及位置信息等属性,并使所述属性可以被后续单元访问。注意,在网页的源码中,元素的位置信息并没有被记录,DOM树提取单元310可以考虑特定的网页浏览器,例如微软公司的Internet Explorer,计算出元素的位置信息。在本发明的示例实施例中,DOM树提取单元310可以借助于微软公司提供的COM接口MSHTML来计算元素的位置信息。
文字区域提取单元320利用DOM树提取单元310提取的DOM树来提取文字区域,并将所提取的文字区域输出给输出单元360。具体来说,文手区域提取单元320包括候选文字区域提取单元321和候选文字区域合并单元322。候选文字区域提取单元321通过DOM树访问每个网页元素,如果该元素的内部文字属性不为空,而且该元素的子节点中不包含块节点,则候选文字区域提取单元321确定(提取)该元素为候选文字区域,并将其添加到候选文字区域序列中。这里,如果一个节点的标签名称不是“INPUT”、“!”、“A”、“B”、“U”、“I”、“BIG”、“SMALL”、“FONT”、“HR”、“BR”、“PRE”、“TT”、“S”、“BLOCKQUOTE”、“ADDRESS”、“DFN”、“SAMP”、“KBD”、“VAR”、“CODE”、“CITE”、“ABBR”、“ACRONYM”、“SUB”、“SUP”、“INS”、“DEL”、“P”、“EM”、“TEXT”、“STRONG”、“/A”之一,则该节点被定义为块节点。在访问了每一个网页元素之后,候选文字区域提取单元321将生成的候选文字区域序列输出到候选文字区域合并单元322。候选文字区域合并单元322参考候选文字区域的属性信息,对候选文字区域执行合并操作。例如,如果两个文字区域在位置上重叠,则可以将它们合并为一个更大的文字区域。或者,如果一个文字区域被另外一个文字区域包含,则可以删除较小的文字区域。再例如,如果两个文字区域在垂直方向上位置相邻,字体以及文字高度等属性相同,左边缘相近,并且宽度相似,则可以将它们合并为一个更大的文字区域。以上给出了合并单元执行合并操作所遵循的规则的例子,然而本发明不限于此,也可以使用其它规则。文字区域合并单元322将合并后的文字区域输出到输出单元360以作为文字类型的DDA目标。
图片区域提取单元340利用DOM树提取单元310提取的DOM树来提取图片区域。在本发明的示例实施例中,图片区域提取单元340也可以对提取文字区域之后DOM树中剩余的元素进行处理来提取图片区域。如果一个元素的标签名称是“IMG”,并且它的尺寸大于预定阈值,则确定该元素为图片区域,并将所确定的图片区域输出到输出单元360以作为图片类型的DDA目标。
表格区域提取单元350利用DOM树提取单元310提取的DOM树来提取表格区域。在本发明的示例实施例中,表格区域提取单元350也可以对提取文字区域和图片区域之后DOM树中剩余的元素进行处理来提取表格区域。表格区域提取单元350可以将标签名称是“TABLE”的元素确定为表格区域。或者,考虑到网页文件中“TABLE”元素经常被用来规范版面,而不是表示真正的表格区域,因此,表格区域提取单元350也可以对标签名称为“TABLE”的元素进行进一步地判断以确定表格区域。例如,如果一个元素的标签名称是“TABLE”,并且包含至少3个“TR”子节点,而且多数的“TR”子节点包含多于一个的“TD”子节点,则确定该元素为表格区域。表格区域提取单元350将所提取的表格区域输出到输出单元360,以作为表格类型的DDA目标。
输出单元360集合文字区域提取单元320、图片区域提取单元340和表格区域提取单元350提取的DDA目标,以作为DDA网页内容提取结果输出。
以上,参照图3对DDA网页内容提取单元进行了详细描述。然而应当理解,以上描述仅仅是示例性的,而非限制性的。本发明的DDA网页内容提取单元也可以具有其它结构,或者采用其它的基于DDA的方法来提取网页内容。
图5是示出根据本发明示例实施例的DDA网页内容提取方法的流程图。参照图5,该DDA网页内容提取方法首先在步骤S510提取输入网页的DOM树。在步骤S520,利用DOM树提取候选文字区域,并在步骤S530参考候选文字区域的属性信息对候选文字区域执行合并操作,产生类型为文字的DDA目标。在步骤S540,利用DOM树提取图片区域作为图片类型的DDA目标。在步骤S550,利用DOM树提取表格区域作为表格类型的DDA目标。在步骤S560,集合文字、图片和表格类型的DDA目标以作为DDA网页内容提取结果输出。注意,上述步骤S520-S530、步骤S540和步骤S550被示为并行执行。然而本发明不限于此,以上步骤也可以以任意次序顺序执行。
下面,参考图6对结果融合单元150进行详细描述。图6是示出根据本发明示例实施例的结果融合单元150的示例结构的框图。结果融合单元150接收DDA网页内容提取单元120输出的DDA网页内容提取结果(以下称为DDA提取结果)和DIR网页内容提取单元140输出的DIR网页内容提取结果(以下称为DIR提取结果),确定DDA目标和DIR目标之间的对应关系,基于该对应关系和目标类型融合DDA提取结果和DIR提取结果,由此产生更优的融合的网页内容提取结果(以下称为融合结果)。如图6所示,根据本发明示例实施例的结果融合单元150可以包括对应关系确定单元610和融合执行单元620。对应关系确定单元610接收DDA提取结果和DIR提取结果并确定DDA目标和DIR目标之间的对应关系。在一种实现方式中,DDA目标和DIR目标之间的对应关系可以表示为DDA目标和DIR目标所对应的矩形区域的重叠尺度。如上所述,网页内容提取结果可以表示为代表网页内容的目标的集合。在这里,将DIR提取结果表示为目标集合G={G1,G2,...,GM},将DDA提取结果表示为目标集合D={D1,D2,...,DN},其中,每个目标Gi和每个目标Dj均对应于网页中的矩形区域,并且至少包含相应矩形区域的位置信息和类型信息,M和N分别为DIR网页内容提取单元120和DDA网页内容提取单元140提取的目标个数。则重叠尺度可以定义如下:
σ ij = Area ( G i ∩ D j ) Area ( G i ) , i = 1,2 , . . . , M , j = 1,2 , . . . , N - - - ( 1 )
τ ij = Area ( G i ∩ D j ) Area ( D j ) , i = 1,2 , . . . , M , j = 1,2 , . . . , N - - - ( 2 )
这里Area(Dj)是第j个DDA目标对应的矩形区域的面积,Area(Gi)是第i个DIR目标对应的矩形区域的面积,Area(Gi∩Dj)是第i个DIR目标和第j个DDA目标所对应的矩形区域之间的重叠面积。也就是说,对应关系确定单元610计算任意Dj与Gi之间的重叠尺度。
融合执行单元620根据DDA目标和DIR目标之间的对应关系以及目标类型来融合DDA提取结果和DIR提取结果。在一种实现方式中,融合执行单元621可以包括分类单元621和选择单元622。分类单元621根据重叠尺度和目标类型对DDA目标和DIR目标进行分类。如上所述,目标类型包括文字、图片以及表格。在本发明的示例实施例中,分类单元620可以将DDA目标和DIR目标分成如下7类:
1)、对于一个DIR目标Gi,如果存在DDA目标Dj,使得τij≈1并且σij≈1,而且Gi和Dj的类型相同(同为文字,图片或表格),则Gi和Dj被分类到匹配类。
2)、对于一个DIR目标Gi,如果存在一个DDA目标Dj,使得τij≈1并且σij≈1,而且Gi和Dj的类型不同,则将Gi和Dj分类到类型错误类。
3)、对于一个DIR目标Gi,如果对于所有DDA目标,均有σij≈0,也就是说不存在与之重叠的DDA目标,则该Gi被分类到漏检类。
4)、对于一个DDA目标Dj,如果对于所有DIR目标,均有τij≈0,也就是说不存在与之重叠的DIR目标,则该Dj被分类到虚警类。
5)、对于一个DIR目标Gi,如果 Σ j = 1 N σ ij > T 1 ,并且将与之重叠的DDA目标合并后得到的合并目标与该Gi匹配,则将该Gi以及与该Gi重叠的DDA目标分类到分割类,并将与该Gi重叠的DDA目标定义为该Gi的分割。其中,T1是可以由用户根据输入网页的特性以及用户的需求来预先确定的预定阈值,T1越小,分类到分割类的目标越多。
6)、对于一个DDA目标Dj,如果 Σ i = 1 M σ ij > T 2 , 并且将与之重叠的DIR目标合并后得到的合并目标与该Dj匹配,则将该Dj以及与之重叠的DIR目标分类到合并类,并将Dj称为与Dj重叠的DIR目标的合并。其中,T2是可以由用户根据输入网页的特性以及用户的需求来预先确定的预定阈值,T2越小,分类到合并类的目标越多。
7)、将剩余的不属于以上6类的DDA目标和DIR目标分类为其他类。
选择单元622根据分类单元621的分类结果选择目标以构成融合结果R={R1,R2,...,RL}并输出,其中,L为融合结果中目标的个数,从而实现对DDA和DIR提取结果的融合。在本发明的示例实施例中,选择单元622可以对不同的类别采取不同的融合策略。举例来说,对于匹配类中的每对目标,选择单元622可以选择对应的DDA目标并将其添加到融合结果中;对于类型错误类中的每对目标,选择单元622可以将DIR目标的位置信息和DDA目标的类型信息结合产生一个新的目标,并把该新的目标添加到融合结果中。再例如,选择单元622可以简单地忽略漏检类中所有的目标;并且将虚警类中所有的目标都添加到融合结果中。此外,对于分割类,选择单元622可以将其中的DIR目标添加到融合结果中。对于合并类中的每组目标,可以根据目标类型来选择添加到融合结果中的目标。例如,如果与DDA目标(例如Dj)重叠的至少一个DIR目标都是图片类型的目标,则将相应的至少一个DIR目标添加到融合结果中;如果与DDA目标重叠的至少一个DIR目标中既包括图片类型的目标又包括文字类型的目标,则将相应的DDA目标(例如Dj)添加到融合结果中;如果与DDA目标(例如Dj)重叠的至少一个DIR目标都是文字类型的目标,则将相应的至少一个DIR目标合并为新的目标,并将该新的目标添加到融合结果中。对于其他类中的目标,选择单元622可以将其中的DDA目标添加到融合结果中。
图7是示出根据本发明实施例的融合DDA提取结果和DIR提取结果的方法流程图。在本发明实施例中,基于DDA目标和DIR目标的对应关系和类型来对DDA提取结果和DIR提取结果进行融合。参照图7,首先,在步骤S710接收DDA提取结果和DIR提取结果。然后在步骤S720确定DDA目标和DIR目标之间的对应关系,该对应关系可以通过计算DDA目标和DIR目标之间的重叠尺度来确定。在步骤S730,基于重叠尺度和目标类型来对DDA目标和DIR目标进行分类。在步骤S740,基于类别和目标类型来确定包括在最终的融合网页内容提取结果中的目标。
图8A-8C分别示出了DDA网页内容提取结果、DIR网页内容提取结果和融合结果的示例。例如,从图中可以看出,DDA提取结果中的D2到D5过于精细,对应的DIR提取结果G2更好;而DIR提取结果漏掉了右下角的页码信息,该信息被DDA方法检测到,为D13。本发明的网页内容提取装置将DDA提取结果和DIR提取结果进行融合,从而能够得到更好的网页内容提取结果,如图8C所示。
以上参照附图对本发明进行了描述。应当理解,以上内容仅仅是示例性的,而非限制性的。本领域技术人员可以在不偏离权利要求书所限定的本发明的精神和范围的前提下,对这里公开的装置和方法进行形式和细节上的各种变更。

Claims (26)

1.一种用于提取网页内容的方法,包括:
基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;
基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;
融合所述DDA提取结果和DIR提取结果,产生融合结果,
其中,所述提取结果包括至少一个目标,所述目标代表与网页中的矩形区域相对应的网页内容,所述目标至少包含相应矩形区域的位置信息和类型信息,并且所述类型包括文字、图片和表格,
其中,所述融合DDA提取结果和DIR提取结果包括:
确定DDA提取结果包含的DDA目标与DIR提取结果包含的DIR目标之间的对应关系;
基于所述对应关系以及目标类型执行DDA提取结果与DIR提取结果的融合。
2.如权利要求1所述的方法,其中,确定DDA目标和DIR目标之间的对应关系包括计算DDA目标与DIR目标的重叠尺度。
3.如权利要求2所述的方法,其中,DIR提取结果表示为G={G1,G2,...,GM},DDA提取结果表示为D={D1,D2,...,DN},则DDA目标Dj与DIR目标Gi的重叠尺度通过下式计算:
σ ij = Area ( G i ∩ D j ) Area ( G i ) 以及 τ ij = Area ( G i ∩ D j ) Area ( D j ) , i=1,2,…,M,j=1,2,…,N,
其中,Area(Dj)是Dj对应的矩形区域的面积,Area(Gi)是Gi对应的矩形区域的面积,Area(Gi∩Dj)是Dj对应的矩形区域与Gi对应的矩形区域之间的重叠面积,并且N和M分别是DDA提取结果和DIR提取结果包含的目标个数。
4.如权利要求3所述的方法,其中,基于所述对应关系和目标类型执行DDA提取结果与DIR提取结果的融合包括:
基于DDA目标和DIR目标之间的对应关系以及目标类型对DDA目标和DIR目标进行分类;以及
按照目标的类别来融合DDA提取结果和DIR提取结果,从而产生融合结果。
5.如权利要求4所述的方法,其中,按照以下规则对DDA目标和DIR目标进行分类:
对于一个DIR目标Gi,如果存在DDA目标Dj,使得τij≈1并且σij≈1,而且Gi和Dj的类型相同,则将该Gi和该Dj分类到匹配类;
对于一个DIR目标Gi,如果存在DDA目标Dj,使得τij≈1并且σij≈1,而且Gi和Dj的类型不同,则将该Gi和该Dj分类到类型错误类;
对于一个DIR目标Gi,如果对于所有DDA目标均有σij≈0,则将该Gi分类到漏检类;
对于一个DDA目标Dj,如果对于所有DIR目标均有τij≈0,则将该Dj分类到虚警类;
对于一个DIR目标Gi,如果
Figure FSB00000843007400021
并且将与之重叠的DDA目标合并后得到的合并目标与该Gi匹配,则将该Gi以及与该Gi重叠的DDA目标分类到分割类,其中,T1是第一预定阈值;
对于一个DDA目标Dj,如果并且将与之重叠的DIR目标合并后得到的合并目标与该Dj匹配,则将该Dj以及与之重叠的DIR目标分类到合并类,其中,T2是第二预定阈值;以及
将不属于以上类别的DDA目标和DIR目标分类到其他类。
6.如权利要求5所述的方法,其中,按照目标的类别来融合DDA提取结果和DIR提取结果以产生融合结果包括:
将匹配类中的DDA目标添加到融合结果中;
将类型错误类中的DIR目标的位置信息和相应的DDA目标的类型信息结合产生一个新的目标,并把该新的目标添加到融合结果;
将虚警类中所有的目标都添加到融合结果中;
将分割类中的DIR目标添加到融合结果中;
对于合并类,如果与DDA目标重叠的DIR目标都是图片类型的目标,则将相应的DIR目标添加到融合结果中;如果与DDA目标重叠的DIR目标中既包括图片类型的目标又包括文字类型的目标,则将相应的DDA目标添加到融合结果中;如果与DDA目标重叠的DIR目标都是文字类型的目标,则将与DDA目标重叠的DIR目标合并而成的合并目标添加到融合结果中;以及
将其他类中的DDA目标添加到融合结果中。
7.如权利要求1所述的方法,其中,基于DDA方法提取输入网页的网页内容包括:
提取输入网页的文档对象模型(DOM)树,并至少保存DOM树中每个节点的父节点、子节点、标签名称、内部文字和位置的属性信息;
利用DOM树分别提取输入网页中的文字目标、图片目标和表格目标。
8.如权利要求7所述的方法,其中,利用DOM树提取文字目标包括:
对于DOM树中的每个节点,如果该节点的内部文字属性不为空,而且该节点的子节点中不包含块节点,则确定该节点表示的元素为候选文字目标;
参考候选文字目标的属性信息对所确定的候选文字区域执行合并操作,以得到文字目标,
其中,如果节点的标签名称不是“INPUT”、“!”、“A”、“B”、“U”、“I”、“BIG”、“SMALL”、“FONT”、“HR”、“BR”、“PRE”、“TT”、“S”、“BLOCKQUOTE”、“ADDRESS”、“DFN”、“SAMP″、“KBD″、“VAR”、“CODE”、“CITE”、“ABBR”、“ACRONYM”、“SUB”、“SUP”、“INS”、“DEL”、“P”、“EM”、“TEXT”、“STRONG”、“/A”之一,则该节点为块节点。
9.如权利要求8所述的方法,其中,对候选文字目标执行合并操作包括:
如果两个文字目标在位置上重叠,则将它们合并为一个文字目标。
10.如权利要求8所述的方法,其中,对候选文字目标执行合并操作包括:如果一个文字目标被另外一个文字目标包含,则删除被包含的文字目标。
11.如权利要求8所述的方法,其中,对候选文字目标执行合并操作包括:
如果两个文字目标所对应的矩形区域在垂直方向上位置相邻,并且它们的字体和文字高度属性相同,它们的左边缘相近,而且宽度相似,则将它们合并为一个文字区域。
12.如权利要求7所述的方法,其中,利用DOM树提取图片目标包括:
如果DOM树节点的标签名称是“IMG”,并且其尺寸大于第三预定阈值,则确定该节点为图片目标。
13.如权利要求7所述的方法,其中,利用DOM树提取表格目标包括:
如果DOM树节点的标签名称为“TABLE”,并且该DOM树节点包含至少3个“TR”子节点,而且多数的“TR”子节点包含多于一个的“TD”子节点,则确定该节点为表格区域。
14.一种用于提取网页内容的装置,包括:
数字文档分析(DDA)网页内容提取单元,其基于DDA方法提取输入网页的网页内容,产生DDA提取结果;
文档图像识别(DIR)网页内容提取单元,其基于DIR方法提取输入网页的网页内容,产生DIR提取结果;
融合单元,其融合所述DDA提取结果和DIR提取结果,产生融合结果,
其中,提取结果表示为至少一个目标的集合,所述目标代表与网页中的矩形区域相对应的网页内容,所述目标至少包含相应矩形区域的位置信息和类型信息,并且所述类型包括文字、图片和表格,
其中,所述融合单元包括:
对应关系确定单元,其确定DDA目标与DIR目标之间的对应关系;
融合执行单元,其基于DDA目标和DIR目标之间的对应关系以及DDA目标和DIR目标的类型执行DDA提取结果与DIR提取结果的融合,以生成融合结果。
15.如权利要求14所述的装置,其中,所述对应关系确定单元通过计算DDA目标与DIR目标的重叠尺度来确定DDA目标和DIR目标之间的对应关系。
16.如权利要求15所述的装置,其中,DIR提取结果表示为G={G1,G2,...,GM},DDA提取结果表示为D={D1,D2,...,DN},则DDA目标Di与DIR目标Gj的重叠尺度通过下式计算:
σ ij = Area ( G i ∩ D j ) Area ( G i ) 以及 τ ij = Area ( G i ∩ D j ) Area ( D j ) , i=1,2,…,M,j=1,2,…,N,
其中,Area(Dj)是Dj对应的矩形区域的面积,Area(Gi)是Gi对应的矩形区域的面积,Area(Gi∩Dj)是Dj对应的矩形区域与Gi对应的矩形区域之间的重叠面积,并且N和M分别是DDA提取结果和DIR提取结果中的目标个数。
17.如权利要求14所述的装置,其中,所述融执行合单元包括:
分类单元,其基于DDA目标和DIR目标之间的对应关系以及目标类型对DDA目标和DIR目标进行分类;以及
选择单元,其按照DDA目标和DIR目标的类别来确定所述融合结果中包含的目标。
18.如权利要求17所述的装置,其中,所述分类单元按照以下规则对DDA目标和DIR目标进行分类:
对于一个DIR目标Gi,如果存在DDA目标Dj,使得τij≈1并且σij≈1,而且Gi和Dj的类型相同,则将该Gi和该Dj分类到匹配类;
对于一个DIR目标Gi,如果存在DDA目标Dj,使得τij≈1并且σij≈1,而且Gi和Dj的类型不同,则将该Gi和该Dj分类到类型错误类;
对于一个DIR目标Gi,如果对于所有DDA目标均有σij≈0,则将该Gi分类到漏检类;
对于一个DDA目标Dj,如果对于所有DIR目标均有τij≈0,则将该Dj分类到虚警类;
对于一个DIR目标Gi,如果并且将与之重叠的DDA目标合并后得到的合并目标与该Gi匹配,则将该Gi以及与该Gi重叠的DDA目标分类到分割类,其中,T1是第一预定阈值;
对于一个DDA目标Dj,如果并且将与之重叠的DIR目标合并后得到的合并目标与该Dj匹配,则将该Dj以及与之重叠的DIR目标分类到合并类,其中,T2是第二预定阈值;以及
将不属于以上类别的DDA目标和DIR目标分类到其他类。
19.如权利要求18所述的装置,其中,所述选择单元如下确定融合结果中包括的目标:
将匹配类中的DDA目标添加到融合结果中;
将类型错误类中的DIR目标的位置信息和相应的DDA目标的类型信息结合产生一个新的目标,并把该新的目标添加到融合结果;
将虚警类中所有的目标都添加到融合结果中;
将分割类中的DIR目标添加到融合结果中;
对于合并类,如果与DDA目标重叠的DIR目标都是图片类型的目标,则将相应的DIR目标添加到融合结果中;如果与DDA目标重叠的DIR目标中既包括图片类型的目标又包括文字类型的目标,则将相应的DDA目标添加到融合结果中;如果与DDA目标重叠的DIR目标都是文字类型的目标,则将与DDA目标重叠的DIR目标合并而成的合并目标添加到融合结果中;以及
将其他类中的DDA目标添加到融合结果中。
20.如权利要求14所述的装置,其中,所述DDA网页内容提取单元包括:
文档对象模型(DOM)树提取单元,其提取输入网页的DOM树,并至少保存DOM树中每个节点的父节点、子节点、标签名称、内部文字和位置的属性信息;
文字目标提取单元,其利用DOM树提取输入网页中的文字目标;
图片目标提取单元,其利用DOM树提取输入网页中的图片目标;以及
表格目标提取单元,其利用DOM树提取输入网页中的表格目标。
21.如权利要求20所述的装置,其中,根据所述文字目标提取单元包括:
候选文字目标提取单元,对于DOM树中的每个节点,如果该节点的内部文字属性不为空,而且该节点的子节点中不包含块节点,则其确定该节点表示的元素为候选文字目标;
合并单元,其参考候选文字目标的属性信息对所确定的候选文字区域执行合并操作,以得到文字目标,
其中,如果节点的标签名称不是“INPUT”、“!”、“A”、“B”、“U”、“I”、“BIG”、“SMALL”、“FONT”、“HR”、“BR”、“PRE”、“TT”、“S”、“BLOCKQUOTE”、“ADDRESS”、“DFN”、“SAMP”、“KBD”、“VAR”、“CODE”、“CITE”、“ABBR”、“ACRONYM”、“SUB”、“SUP”、“INS”、“DEL”、“P”、“EM”、“TEXT”、“STRONG”、“/A”之一,则该节点为块节点。
22.如权利要求21所述的装置,其中,如果两个文字目标在位置上重叠,则所述合并单元将它们合并为一个文字目标。
23.如权利要求21所述的装置,其中,如果一个文字目标被另外一个文字目标包含,则所述合并单元删除被包含的文字目标。
24.如权利要求21所述的装置,其中,如果两个文字目标所对应的矩形区域在垂直方向上位置相邻,并且它们的字体和文字高度属性相同,它们的左边缘相近,而且宽度相似,则所述合并单元将它们合并为一个文字区域。
25.如权利要求20所述的装置,其中,如果DOM树节点的标签名称是“IMG”,并且其尺寸大于第三预定阈值,则所述图片目标提取单元确定该节点为图片目标。
26.如权利要求20所述的装置,其中,如果DOM树节点的标签名称为“TABLE”,并且该DOM树节点包含至少3个“TR”子节点,而且多数的“TR”子节点包含多于一个的“TD”子节点,则所述表格目标确定单元确定该节点为表格区域。
CN200810080786A 2008-02-18 2008-02-18 提取网页内容的方法和装置 Expired - Fee Related CN101515272B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200810080786A CN101515272B (zh) 2008-02-18 2008-02-18 提取网页内容的方法和装置
JP2008324056A JP2009193571A (ja) 2008-02-18 2008-12-19 ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810080786A CN101515272B (zh) 2008-02-18 2008-02-18 提取网页内容的方法和装置

Publications (2)

Publication Number Publication Date
CN101515272A CN101515272A (zh) 2009-08-26
CN101515272B true CN101515272B (zh) 2012-10-24

Family

ID=41039729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810080786A Expired - Fee Related CN101515272B (zh) 2008-02-18 2008-02-18 提取网页内容的方法和装置

Country Status (2)

Country Link
JP (1) JP2009193571A (zh)
CN (1) CN101515272B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011072434A1 (en) * 2009-12-14 2011-06-23 Hewlett-Packard Development Company,L.P. System and method for web content extraction
CN101944109B (zh) * 2010-09-06 2012-06-27 华南理工大学 一种基于页面分块的图片摘要提取系统及方法
US20120185253A1 (en) * 2011-01-18 2012-07-19 Microsoft Corporation Extracting text for conversion to audio
CN102314497B (zh) * 2011-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备
CN102411475A (zh) * 2011-10-08 2012-04-11 宇龙计算机通信科技(深圳)有限公司 一种对数据进行操作的方法及移动终端
CN103488652B (zh) * 2012-06-08 2018-11-16 北京千橡网景科技发展有限公司 网页内容提取方法和网页内容提取装置
CN103488619B (zh) * 2013-07-05 2017-05-24 百度在线网络技术(北京)有限公司 一种用于进行文档文件处理的方法及装置
CN105786828A (zh) * 2014-12-19 2016-07-20 广州市动景计算机科技有限公司 页面提取方法及装置、设备终端
WO2018103540A1 (zh) * 2016-12-09 2018-06-14 腾讯科技(深圳)有限公司 网页内容提取方法、装置、存储介质
CN108959287B (zh) * 2017-05-17 2021-08-03 中兴通讯股份有限公司 一种网页内容处理方法及装置、存储介质
CN110188107B (zh) * 2019-06-05 2020-05-01 中科鼎富(北京)科技发展有限公司 一种从表格中抽取信息的方法及装置
CN110765740B (zh) * 2019-10-11 2023-08-11 深圳市比一比网络科技有限公司 一种基于dom树的全类型文本替换方法、系统、装置及存储介质
CN112270224A (zh) * 2020-10-14 2021-01-26 招商银行股份有限公司 保险责任解析方法、装置及计算机可读存储介质
CN114817639B (zh) * 2022-05-18 2024-05-10 山东大学 基于对比学习的网页图卷积文档排序方法及系统
CN114996212B (zh) * 2022-06-01 2024-08-20 抖音视界有限公司 用于管理电子书籍中的元素的方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567303A (zh) * 2003-07-03 2005-01-19 富士通株式会社 结构文档信息块的自动分割方法和装置
CN1577328A (zh) * 2003-07-28 2005-02-09 微软公司 基于视觉的文档分割
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567303A (zh) * 2003-07-03 2005-01-19 富士通株式会社 结构文档信息块的自动分割方法和装置
CN1577328A (zh) * 2003-07-28 2005-02-09 微软公司 基于视觉的文档分割
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置

Also Published As

Publication number Publication date
JP2009193571A (ja) 2009-08-27
CN101515272A (zh) 2009-08-26

Similar Documents

Publication Publication Date Title
CN101515272B (zh) 提取网页内容的方法和装置
Vishwakarma et al. Detection and veracity analysis of fake news via scrapping and authenticating the web search
CN102156737B (zh) 一种中文网页主题内容的提取方法
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN104598577B (zh) 一种网页正文的提取方法
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
CN102253979B (zh) 基于视觉的web页面萃取方法
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN103870973A (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
KR20090090840A (ko) 사용자 맞춤형 정보 제공 시스템 및 그 방법
CN111813874B (zh) 太赫兹知识图谱构建方法及系统
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN115757991A (zh) 一种网页识别方法、装置、电子设备和存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN102999511A (zh) 一种页面快速转换方法、装置和系统
US20170235835A1 (en) Information identification and extraction
CN106202312B (zh) 一种用于移动互联网的兴趣点搜索方法和系统
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
Xiang et al. Effective page segmentation combining pattern analysis and visual separators for browsing on small screens
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
KR101850853B1 (ko) 빅데이터를 이용한 검색 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121024

Termination date: 20190218

CF01 Termination of patent right due to non-payment of annual fee