CN107590288A - 用于抽取网页图文块的方法和装置 - Google Patents

用于抽取网页图文块的方法和装置 Download PDF

Info

Publication number
CN107590288A
CN107590288A CN201710941523.XA CN201710941523A CN107590288A CN 107590288 A CN107590288 A CN 107590288A CN 201710941523 A CN201710941523 A CN 201710941523A CN 107590288 A CN107590288 A CN 107590288A
Authority
CN
China
Prior art keywords
picture
text block
candidate
node
routing information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710941523.XA
Other languages
English (en)
Other versions
CN107590288B (zh
Inventor
徐国强
尹存祥
沈剑平
钟辉强
骆彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710941523.XA priority Critical patent/CN107590288B/zh
Publication of CN107590288A publication Critical patent/CN107590288A/zh
Priority to US16/133,355 priority patent/US10755091B2/en
Application granted granted Critical
Publication of CN107590288B publication Critical patent/CN107590288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了用于抽取网页图文块的方法和装置。该方法的一具体实施方式包括:从待处理网页的文档对象模型中提取出图片节点;基于预设的过滤规则对图片节点进行过滤,得到候选图片节点;对每一个候选图片节点,在预设的最大遍历深度范围内依次向候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为候选图片节点对应的候选图文块,并生成候选图文块的路径信息;基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇;对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息。该实施方式提升了网页图文块的抽取效率。

Description

用于抽取网页图文块的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于抽取网页图文块的方法和装置。
背景技术
随着互联网技术的发展,互联网中信息数据的组织类型越来越丰富,如何在不同数据组织方式的大量网页中高效率地获取关键信息成为一个重要研究方向。
通常网页中的图片和文字组成的图文块包含网页的关键信息,例如某一机械加工设备厂商的网站中的产品信息、加工技术等关键信息通常通过图片和文字的方式来展现。在抽取网页中的图文块时,现有的方法一般为人工分析页面的HTML(HyperText MarkupLanguage,超文本标记语言)结构,通过人工标注得到图文块的路径,或者利用标注插件,提取出标注人员点击的图文块页面元素的路径。这种方法需要人工对每一个页面单独标注,标注效率低;并且页面结构会动态更新,即页面的HTML结构会改变,则需要重新标注图文块的路径,无法实现自动更新。
发明内容
为了解决上述背景技术部分提到的一个或多个技术问题,本申请实施例提供了用于抽取网页图文块的方法和装置。
第一方面,本申请实施例提供了一种用于抽取网页图文块的方法,包括:从待处理网页的文档对象模型中提取出图片节点;基于预设的过滤规则对图片节点进行过滤,得到候选图片节点;对每一个候选图片节点,在预设的最大遍历深度范围内依次向候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为候选图片节点对应的候选图文块,并依据候选图文块在文档对象模型中的位置生成候选图文块的路径信息;基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇,得到至少一个图文块簇;对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息。
在一些实施例中,在基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇,得到至少一个图文块簇之前,上述方法还包括:将候选图文块结构化为包含以下数据信息的结构:候选图文块的路径信息、按照预设的格式格式化后的候选图文块的路径信息、候选图文块对应的候选图片节点中的图片资源路径、以及候选图文块的路径信息的哈希值。
在一些实施例中,上述路径信息包括以可扩展标记语言路径语言标记的路径信息,候选图文块的路径信息的哈希值为去除候选图文块的路径信息中的谓语条件之后的哈希值;上述对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息,包括:对每个图文块簇,根据候选图文块的路径信息确定出各候选图文块的共同祖先节点,得到共同祖先节点的路径信息的谓语条件;根据共同祖先节点的路径信息的谓语条件合并图文块簇内的各候选图文块的路径信息,作为图文块簇的路径信息。
在一些实施例中,上述方法还包括:比对各图文块簇的路径信息,以滤除重叠的路径信息。
在一些实施例中,在从待处理网页的文档对象模型中提取出图片节点之前,上述方法还包括:对待处理网页的文档对象模型进行数据清洗,去除文档对象模型中的无效节点。
第二方面,本申请实施例提供了一种用于抽取网页图文块的装置,包括:提取单元,用于从待处理网页的文档对象模型中提取出图片节点;过滤单元,用于基于预设的过滤规则对图片节点进行过滤,得到候选图片节点;查找单元,用于对每一个候选图片节点,在预设的最大遍历深度范围内依次向候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为候选图片节点对应的候选图文块,并依据候选图文块在文档对象模型中的位置生成候选图文块的路径信息;聚簇单元,用于基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇,得到至少一个图文块簇;确定单元,用于对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息。
在一些实施例中,上述装置还包括:结构化处理单元,用于在聚簇单元基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇,得到至少一个图文块簇之前,将候选图文块结构化为包含以下数据信息的结构:候选图文块的路径信息、按照预设的格式格式化后的候选图文块的路径信息、候选图文块对应的候选图片节点中的图片资源路径、以及候选图文块的路径信息的哈希值。
在一些实施例中,上述路径信息包括以可扩展标记语言路径语言标记的路径信息,候选图文块的路径信息的哈希值为去除候选图文块的路径信息中的谓语条件之后的哈希值;上述确定单元进一步用于按照如下方式确定图文块簇的路径信息:对每个图文块簇,根据候选图文块的路径信息确定出各候选图文块的共同祖先节点,得到共同祖先节点的路径信息的谓语条件;根据共同祖先节点的路径信息的谓语条件合并图文块簇内的各候选图文块的路径信息,作为图文块簇的路径信息。
在一些实施例中,上述装置还包括:比对单元,用于比对各图文块簇的路径信息,以滤除重叠的路径信息。
在一些实施例中,上述装置还包括:清洗单元,用于在提取单元从待处理网页的文档对象模型中提取出图片节点之前,对待处理网页的文档对象模型进行数据清洗,去除文档对象模型中的无效节点。
本申请提供的用于抽取网页图文块的方法和装置,首先从待处理网页的文档对象模型中提取出图片节点,随后基于预设的过滤规则对图片节点进行过滤,得到候选图片节点,然后对每一个候选图片节点,遍历文档对象模型得出对应的文本节点,而后将候选图片节点和对应的文本节点合并生成候选图文块,并依据候选图片节点和对应的文本节点在文档对象模型中的位置生成候选图文块的路径信息;之后基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇,得到多个图文块簇,最后对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息,实现了网页图文块的路径信息的自动生成和获取,提升了网页图文块抽取的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于抽取网页图文块的方法的一个实施例的流程示意图;
图3是根据本申请的用于抽取网页图文块的方法的另一个实施例的流程示意图;
图4是根据本申请的用于抽取网页图文块的装置的一个实施例的结构示意图;
图5是根据适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了本申请可以应用于其中的示例性系统架构图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端设备101通过网络104与服务器105交互,以接收或发送消息等。用户120可以使用终端设备102、103通过网络与服务器105交互,以接收或发送消息等。在这里,用户110可以是用于提供后台网页数据的用户,例如可以是网站的维护人员,用户120可以是请求访问用户110提供的后台网页数据的用户。终端设备102、103上可以安装有各种信息获取类应用,例如网页浏览器类、搜索类应用、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持互联网访问的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101提交的页面变更请求进行响应、对终端设备102、103提交的页面访问请求进行响应的后台服务器,后台服务器可以对页面变更请求进行解析、查找地址、变更内容等处理,对页面访问请求进行解析、关联数据查找、数据分析等处理,并将处理结果返回给终端设备101、102、103等设备。
需要说明的是,本申请实施例所提供的用于抽取网页图文块的方法可以由服务器105执行,相应地,用于抽取网页图文块的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器。
继续参考图2,示出了根据本申请的用于抽取网页图文块的方法的一个实施例的流程200。该用于抽取网页图文块的方法,包括以下步骤:
步骤201,从待处理网页的文档对象模型中提取出图片节点。
在本实施例中,用于抽取网页图文块的方法运行于其上的电子设备(例如图1所示服务器105)可以首先获取待处理网页的HTML结构,即获取待处理网页的HTML源代码。
通常一个网页对应一个HTML文档,HTML文档按照特定的格式来组织页面元素的展示方式,其中定义了很多标签,这些标签是定义浏览器如何显示对应内容的标记符。HTML文档包括头部(head)和主体内容(body),其中主体内容以标签“<body>”和“</body>”为开头标记符和结尾标记符。
在主体内容中,可以包括标题、正文文本、图像、表格、排版格式等内容。其中标题可以以标签“<title>”标记,正文文本可以以各种文本标签标记,例如预格式化文本标签“<pre>”、字体尺寸标签”<font size=?>”等,图像可以以标签“<img>”来标记,表格可以以标签“<table>”来标记,排版格式可以包括段落标签、换行标签、缩进标签等等。
在本实施例中,可以将待处理网页的HTML文档转换为DOM(Document ObjectModel文档对象模型)。DOM是HTML的获取、添加、删除等的接口,DOM通常为以树结构组织的节点的集合。在DOM树中,HTML文档的内容被转化为节点,每个节点可以表示HTML文档中的一个元素、一个文本或一个属性。整个HTML文档是一个文档节点,每个HTML元素是元素节点,HTML元素内的文本是文本节点,每个HTML属性是属性节点,注释是注释节点。
在本实施例中,可以按照待处理网页的DOM树,从中提取出图片节点,也即提取出图像标签“<img>”对应的节点。这里的图片节点对应于网页中的图像元素及图像元素的属性,可以包括图片的来源属性(src属性)和替代文本属性(alt属性)。可选地,图片节点还可以包括图片的高度(height属性)和宽度(width属性)、排列方式(align属性)、边界(border属性)等。
步骤202,基于预设的过滤规则对图片节点进行过滤,得到候选图片节点。
之后,可以基于预设的过滤规则对提取出的图片节点进行过滤。在这里,预设的过滤规则可以是与图片的尺寸、样式、来源、替代文本、在DOM树中的周围文本、父节点等内容相关的规则。也就是说即可以根据图片的这些信息设定过滤规则,例如通常尺寸较小的图片包含的信息量有限,可以将这些图片过滤掉,则过滤规则可以包括滤除尺寸小于预设尺寸的图片。
上述过滤规则可以是根据产品和业务需求制定的规则。例如在一些业务场景中,图片的替代文本字节数过少则可能表示图片中没有实质内容,可以设定过滤规则为滤除alt属性中文本字节数过短的图片。在根据预先设定的过滤规则对图片节点过滤之后,可以得到候选图片节点。
步骤203,对每一个候选图片节点,在预设的最大遍历深度范围内依次向候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为候选图片节点对应的候选图文块,并依据候选图文块在文档对象模型中的位置生成候选图文块的路径信息。
在本实施例中,可以依次遍历DOM树中候选图片节点的祖先节点,来查找出候选图片节点所标记的图片关联的文本。具体地,可以预先设定最大遍历深度,例如为3层,并在候选图片节点向上的3层的节点范围内从候选图片节点的父节点开始依次向候选图片节点的祖先节点进行遍历,直到遍历到的祖先节点中包含文本,则确定该祖先节点为候选图片节点对应的候选图文块。进一步地,在遍历过程中,对遍历到的每一个祖先节点,可以判断该祖先节点的元素中是否包含文本内容,若是,则该祖先节点即为候选图片节点对应的图文块节点;若否,则可以继续向上一层的祖先节点遍历。可选地,如果在预设的最大遍历深度范围内未找到带有文本的节点,则可以确定该候选图片节点不存在对应的图文块。
在这里,候选图文块为待处理网页的DOM树中的一个节点,该节点包含一个作为候选图片节点的子节点。即候选图文块中包含文本内容,并且包含图片子节点。
在确定各候选图片节点对应的候选图文块之后,可以根据该候选图文块在DOM树中的位置确定出候选图文块的路径信息。在DOM树中,一个节点的路径信息可以是用于表示访问该节点的路径,可以以特定的路径语言的表达式来表示,例如可以用XML(ExtensibleMarkup Language,可扩展标记语言)路径语言Xpath来表示。在本实施例中,上述电子设备可以根据候选图文块的节点位置生成候选图文块的Xpath路径表达式,作为候选图文块的路径信息。
步骤204,基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇,得到至少一个图文块簇。
在本实施例中,可以对各候选图文块的路径信息进行哈希运算,得到候选图文块的路径信息的md5(Message Digest Algorithm MD5中文名为消息摘要算法第五版)值,然后依据候选图文块的md5,将候选图文块划分为一个或多个图文块簇。同一个图文块簇中的各候选图文块的md5值相同。
步骤205,对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息。
在将各候选图文块聚类为一个或多个图文块簇之后,可以根据每个图文块簇内的各候选图文块的路径信息找到各图文块簇的共同祖先节点,将共同祖先节点的路径信息作为图文块簇的路径信息。这样,可以通过一个表示祖先节点位置的路径信息来标识图文块簇内所有候选图文块的位置。
具体来说,每个图文块簇中的任意两个候选图文块的路径信息的表达式哈希值相同,则两个图文块的路径信息的表达式中必然包含一串相同的字符。可以根据图文块的路径信息的表达式中的相同的字符串确定出共同祖先节点的路径信息。
举例来说,如果一个图文块簇中的两个图文块的路径信息的Xpath信息的表达式分别为:“xpath:/html/body/div[1]/div[3]/div[1]/div[2]”和“xpath:/html/body/div[1]/div[3]/div[1]/div[1]”,这两个表达式中包含相同的字符串“xpath:/html/body/div[1]/div[3]/div[1]”,则可以确定该字符串为这两个图文块的共同祖先节点的路径信息的表达式,从而可以确定出这两个图文块的共同祖先节点。进而,通过提取同一图文块簇中的所有图文块的路径信息的表达式的共同字符串,可以确定出同一图文块簇中各图文块的共同祖先节点的路径信息。
在确定每个图文块簇内的各图文块的共同祖先节点的路径信息之后,可以将每个图文块簇中各图文块的共同祖先节点的路径信息确定为对应图文块簇的路径信息,这样,可以得到至少一个图文块簇的路径信息,在浏览器中可以利用该路径信息将对应节点的所有内容(包括各子节点及其属性)从待处理网页中抽取出来,从而实现了网页中图文块的抽取。
本申请上述实施例的用于抽取网页图文块的方法,通过从待处理网页的文档对象模型中提取出图片节点,随后基于预设的过滤规则对图片节点进行过滤,得到候选图片节点,然后对每一个候选图片节点,遍历文档对象模型得出对应的文本节点,而后将候选图片节点和对应的文本节点合并生成候选图文块,并依据候选图片节点和对应的文本节点在文档对象模型中的位置生成候选图文块的路径信息;之后基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇,得到多个图文块簇,最后对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息,实现了网页图文块的路径信息的自动获取,相比于人工标注进行图文块抽取的方式,提升了网页图文块抽取的效率。
本申请上述实施例的应用场景可以为:搜索引擎可以在后台对网页数据库中的网页进行处理,通过提取出网页的DOM树中的图片节点,随后对图片节点进行过滤得到候选图片节点,然后对每个候选图片节点在DOM树中找到关联的文本内容,从而确定出候选文本块,最后通过对候选文本块聚簇,在利用簇内文本块的共同祖先节点的路径信息来表征簇内所有图文块的访问路径,从而可以通过生成的路径信息将网页中的图文块抽取出来。则搜索引擎在提供搜索结果时,可以将抽取出的图文块展示在搜索结果页面中。、
请参考图3,其示出了根据本申请的用于抽取网页图文块的方法的另一个实施例的流程示意图。如图3所示,本实施例的用于抽取网页图文块的方法流程300,包括以下步骤:
步骤301,对待处理网页的文档对象模型进行数据清洗,去除文档对象模型中的无效节点。
在本实施例中,可以首先对获取到的待处理网页的DOM树进行数据清洗,去掉一些无效节点。无效节点可以包括不包含页面元素等实质内容的节点,例如纯样式节点,也可以包括与页面主题无关的节点,例如广告链接、无效文字等。
具体地,可以将诸如水平线标签<hr>等样式标签删除,也可以从标签定义的文本中识别出广告链接并进行去除,还可以将一些定义了无效文字的标签清除。
通过对待处理网页进行数据清洗,可以简化待处理网页的HTML结构,便于后续处理步骤中查找节点时提升查找效率。
步骤302,从待处理网页的文档对象模型中提取出图片节点。
在本实施例中,待处理网页的HTML文档中的图片节点通常以图片标签“<img>”来标识,可以通过定位该图片标签“<img>”来提取出所有的图片节点。在这里,图片节点可以包括图片的来源属性(src属性)和替代文本属性(alt)属性。
步骤303,基于预设的过滤规则对图片节点进行过滤,得到候选图片节点。
在提取出DOM树中的所有图片节点之后,可以根据预设的过滤规则对图片节点进行过滤。这里的过滤规则可以是预先按照业务需求制定的规则,例如可以将图片尺寸过小的图片节点过滤掉,将图片的替代文本字符数小于预设字符数的图片节点过滤掉,等等。
步骤304,对每一个候选图片节点,在预设的最大遍历深度范围内依次向候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为候选图片节点对应的候选图文块,并依据候选图文块在文档对象模型中的位置生成候选图文块的路径信息。
在本实施例中,可以依次遍历DOM树中候选图片节点的祖先节点,来查找出候选图片节点所标记的图片关联的文本。具体地,可以预先设定最大遍历深度,例如为3层,则可以在候选图片节点向上的3层范围内依次向候选图片节点的祖先节点进行遍历,即先遍历候选图片节点的父节点,若候选节点的父节点不满足条件,则继续向上遍历,直到遍历到的祖先节点中包含文本,则确定该祖先节点为候选图片节点对应的候选图文块。
可选地,上述最大遍历深度可以为经验值,具体地,可以利用大量的网页来统计图片对应的图片节点和与包含图片关联的文本的节点之间的深度来设定上述最大遍历深度。
步骤305,将候选图文块结构化。
在本实施例中,可以将候选图文块结构化为包含以下数据信息的结构:候选图文块的路径信息、按照预设的格式格式化后的候选图文块的路径信息、候选图文块对应的候选图片节点中的图片资源路径、以及候选图文块的路径信息的哈希值。
具体来说,候选图文块的路径信息可以由特定语言的路径表达式来表示,可以按照预设的格式对候选图文块的路径信息进行格式化。可以提取出候选图文块对应的图片节点中的图片资源路径,具体可以将图片标签的src属性保留,去除其他的属性(例如alt属性、height属性、width属性等)。并且可以对候选图文块的路径表达式进行哈希运算,得到哈希值。
进一步地,上述候选图文块的路径信息可以由Xpath表达式来表示,上述结构化后的候选图文块包括如表一所示的字段:
表一候选图文块的字段及其描述
字段名称 字段描述
format_xpath 格式化的Xpath表达式
dom 图文块对应的DOM节点
md5 xpath的哈希值
xpath 候选图文块的Xpath表达式
src 候选图文块中图片的资源路径
其中,格式化的Xpath表达式可以为将xpath的各节点拆分后以特定的格式组织的xpath的另一种表达式,例如可以格式化为:{‘group’:group,‘xpath’:[{‘digit’:digit,’tag’:tag},…]},“group”表示候选图文块Xpath表达式中节点的谓语条件,例如候选图文块的xpath为:/html/body/div[1],则方括号“[]”中的1为节点div的谓语条件,表示body的第1个div子元素,该候选图文块的group值为1。“digit”表示数字单位,digit的值可以为1、2、10等,“tag”可以为标签名称,例如div。
通过对候选图文块进行结构化处理,可以去除候选图文块中与节点的路径信息无关的数据,同时便于后续过程中对候选图文块根据路径信息的哈希值进行聚簇,从而找出可抽取出所有图文块的祖先节点的路径信息。
步骤306,基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇,得到至少一个图文块簇。
在本实施例中,上述路径信息包括以Xpath标记的路径信息,候选图文块的路径信息的哈希值为去除候选图文块的路径信息中的谓语条件(方括号“[]”所限定的条件)之后的哈希值。举例来说,候选图文块的路径信息可以为如下的xpath:/html/body/div[1]/div[3]/div[1]/div[2]/div[2],则候选图文块的路径信息的哈希值可以为字符串“/html/body/div/div/div/div/div”进行哈希运算之后的哈希值。
可以利用结构化后的候选图文块的数据结构,将具有相同哈希值的候选图文块聚为一簇,从而得到一个或多个图文块簇。
步骤307,对每个图文块簇,根据候选图文块的路径信息确定出各候选图文块的共同祖先节点,得到共同祖先节点的路径信息的谓语条件。
在本实施例中,可以根据各候选图文块的数据结构中的xpath找出同一图文块簇内的各候选图文块的共同祖先节点,得到共同祖先节点的路径信息的谓语条件,即得到共同祖先节点的group值。
具体地,可以由最上层的节点开始,一一比对同样一图文块簇内的多个图文块的xpath表达式中所标记的各个节点,若当前比对的图文块簇内的所有图文块的节点一致则继续比对下一层的节点,不一致则将上一个一致的节点确定为两个图文块的共同祖先节点。
举例来说,若一个图文块簇中包含两个图文块,两个图文块簇的xpath分别为“/html/body/div[1]/div[3]/div[1]/div[2]/div[2]”和“/html/body/div[1]/div[3]/div[1]/div[3]”,两个图文块的共同祖先节点的路径信息为“/html/body/div[1]/div[3]/div[1]”,共同的祖先节点的路径信息的谓语条件为“1”。
在本实施例的一些可选的实现方式中,可以利用按照预设的格式格式化后的候选图文块的路径信息format_group计算出图文块簇内不同图文块的路径信息的共同差异节点,得到group值。具体来说,format_xpath中各节点被拆分为独立的元素,可以比对得出不同图文块的format_xpath中相异的节点,然后将相异节点中位于DOM树的最上层节点的父节点的group值作为共同祖先节点的路径信息的谓语条件。
步骤308,根据共同祖先节点的路径信息的谓语条件合并图文块簇内的各候选图文块的路径信息,作为图文块簇的路径信息。
之后,可以根据共同祖先节点的Xpath表达式的谓语条件将图文块簇内的各候选图文块簇的路径信息进行合并,即将具有同一祖先节点的各子节点的路径信息合并,具体的合并方法可为:将共同祖先节点的路径信息的Xpath表达式作为图文块簇的路径信息。
通过对各图文块簇内的候选图文块的路径信息进行合并,可以得出多个路径信息,通过各路径信息可以抽取出待处理网页中的所有图文块。
步骤309,比对各图文块簇的路径信息,以滤除重叠的路径信息。
在本实施例中,得到各图文块簇的路径信息之后,可以对不同图文块簇的路径信息进行比对,若不同图文块簇的路径信息的表达式之间存在包含关系,可以滤除掉较短的表达式。
通常路径信息表达式越短,其所定位的节点位置在DOM树中越靠近顶端。通过滤除重叠的路径信息表达式中较短的表达式,可以过滤掉定位至祖先节点的路径信息,从而避免将待处理网页中除了图文块之外的内容一并抽取出来。
上述方法流程中的步骤302、步骤303和步骤304分别与前述实施例中的步骤201、步骤202和步骤203相同,上文针对步骤201、步骤202和步骤203的描述也适用于本实施中的步骤302、步骤303和步骤304,此处不再赘述。
从图3可以看出,相较于图2所示的实施例,本实施例的用于抽取网页图文块的方法增加了对待处理网页的文档对象模型进行数据清洗,去除文档对象模型中的无效节点的步骤、对候选图文块结构化的步骤、以及比对各图文块簇的路径信息,以滤除重叠的路径信息的步骤,同时细化了确定图文块簇的路径信息的步骤,由此,本实施例的用于抽取网页图文块的方法可以进一步提升了用于定位图文块的路径信息的获取效率,并且能够提升图文块定位的准确性。
进一步参考图4,作为对上述方法的实现,本申请提供了一种用于抽取网页图文块的装置的一个实施例。
如图4所示,本申请实施例的用于抽取网页图文块的装置400可以包括:提取单元401、过滤单元402、查找单元403、聚簇单元404和确定单元405。其中,提取单元401用于从待处理网页的文档对象模型中提取出图片节点;过滤单元402用于基于预设的过滤规则对所述图片节点进行过滤,得到候选图片节点;查找单元403用于对每一个候选图片节点,在预设的最大遍历深度范围内依次向所述候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为所述候选图片节点对应的候选图文块,并依据所述候选图文块在所述文档对象模型中的位置生成所述候选图文块的路径信息;聚簇单元404用于基于各所述候选图文块的路径信息的哈希值对各所述候选图文块进行聚簇,得到至少一个图文块簇;确定单元405用于对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息。
在本实施例中,提取单元401可以从待处理网页的文档对象模型中提取出图像标签“<img>”对应的节点,提取出的节点即为图片节点。这里的图片节点对应于网页中的图像元素及图像元素的属性,可以包括图片的来源属性(src属性)和替代文本属性(alt属性)。可选地,图片节点还可以包括图片的高度(height属性)和宽度(width属性)、排列方式(align属性)、边界(border属性)等。
过滤单元402可以按照预设的与图片的尺寸、样式、来源、替代文本、周围文本、父节点等内容相关的过滤规则对提取单元401提取出的图片节点进行过滤。例如可以将小于预设尺寸的图片对应的图片节点滤除、或者保留尺寸大于预设尺寸的图片对应的图片节点,将alt属性中字节数小于预设字节数的图片节点滤除等等。
查找单元403可以在DOM树中查找图片节点对应的带有文本的节点,以找出图片对应的文本内容,从而形成图文块。具体的查找方式可以为从图片节点的父节点依次向图片节点的祖先节点遍历,直到遍历到带有文本的祖先节点,作为候选图文块,并将该节点的路径信息作为用于标记抽取候选图文块的路径的路径信息。
聚簇单元404可以利用候选图文块的路径信息的哈希值对候选图文块进行聚簇,具体可以将路径信息的哈希值相同的候选图文块聚为同一个图文块簇。
确定单元405可以对每个图文块簇,找出各图文块的距DOM树的顶端最远的共同祖先节点,将共同祖先节点的路径信息确定为图文块簇的路径信息。浏览器可以根据该路径信息自动抽取出对应的图文块簇中的一个或多个图文块。
在一些实施例中,上述装置400还可以包括:结构化处理单元,用于在聚簇单元基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇,得到至少一个图文块簇之前,将候选图文块结构化为包含以下数据信息的结构:候选图文块的路径信息、按照预设的格式格式化后的候选图文块的路径信息、候选图文块对应的候选图片节点中的图片资源路径、以及候选图文块的路径信息的哈希值。
在进一步的实施例中,上述路径信息可以包括以可扩展标记语言路径语言(XML)标记的路径信息,候选图文块的路径信息的哈希值为去除候选图文块的路径信息中的谓语条件之后的哈希值;
在一些实施例中,上述确定单元405可以进一步用于按照如下方式确定图文块簇的路径信息:对每个图文块簇,根据候选图文块的路径信息确定出各候选图文块的共同祖先节点,得到共同祖先节点的路径信息的谓语条件;根据共同祖先节点的路径信息的谓语条件合并图文块簇内的各候选图文块的路径信息,作为图文块簇的路径信息。
在一些实施例中,上述装置400还可以包括:比对单元,用于比对各图文块簇的路径信息,以滤除重叠的路径信息。
在一些实施例中,上述装置400还可以包括:清洗单元,用于在提取单元从待处理网页的文档对象模型中提取出图片节点之前,对待处理网页的文档对象模型进行数据清洗,去除文档对象模型中的无效节点。
应当理解,装置400中记载的诸单元与参考图2和图3描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置400及其中包含的单元,在此不再赘述。
本申请上述实施例以供的用于抽取网页图文块的装置400,能够自动根据网页的HTML结构生成用于抽取网页图文块的路径信息,实现了网页图文块的自动抽取,无需人工辅助标注和抽取,提升了网页图文块抽取的效率。
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。图5示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括提取单元、过滤单元、查找单元、聚簇单元以及确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,提取单元还可以被描述为“从待处理网页的文档对象模型中提取出图片节点的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:从待处理网页的文档对象模型中提取出图片节点;基于预设的过滤规则对所述图片节点进行过滤,得到候选图片节点;对每一个候选图片节点,在预设的最大遍历深度范围内依次向所述候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为所述候选图片节点对应的候选图文块,并依据所述候选图文块在所述文档对象模型中的位置生成所述候选图文块的路径信息;基于各所述候选图文块的路径信息的哈希值对各所述候选图文块进行聚簇,得到至少一个图文块簇;对每个图文块簇,基于各候选图文块的路径信息确定所述图文块簇内的各候选图文块的共同祖先节点,基于所述共同祖先节点确定所述图文块簇的路径信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种用于抽取网页图文块的方法,其特征在于,所述方法包括:
从待处理网页的文档对象模型中提取出图片节点;
基于预设的过滤规则对所述图片节点进行过滤,得到候选图片节点;
对每一个候选图片节点,在预设的最大遍历深度范围内依次向所述候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为所述候选图片节点对应的候选图文块,并依据所述候选图文块在所述文档对象模型中的位置生成所述候选图文块的路径信息;
基于各所述候选图文块的路径信息的哈希值对各所述候选图文块进行聚簇,得到至少一个图文块簇;
对每个图文块簇,基于各候选图文块的路径信息确定所述图文块簇内的各候选图文块的共同祖先节点,基于所述共同祖先节点确定所述图文块簇的路径信息。
2.根据权利要求1所述的方法,其特征在于,在基于各所述候选图文块的路径信息的哈希值对各所述候选图文块进行聚簇,得到至少一个图文块簇之前,所述方法还包括:
将所述候选图文块结构化为包含以下数据信息的结构:所述候选图文块的路径信息、按照预设的格式格式化后的所述候选图文块的路径信息、所述候选图文块对应的候选图片节点中的图片资源路径、以及所述候选图文块的路径信息的哈希值。
3.根据权利要求2所述的方法,其特征在于,所述路径信息包括以可扩展标记语言路径语言标记的路径信息,所述候选图文块的路径信息的哈希值为去除所述候选图文块的路径信息中的谓语条件之后的哈希值;
所述对每个图文块簇,基于各候选图文块的路径信息确定所述图文块簇内的各候选图文块的共同祖先节点,基于所述共同祖先节点确定所述图文块簇的路径信息,包括:
对每个图文块簇,根据所述候选图文块的路径信息确定出各候选图文块的共同祖先节点,得到所述共同祖先节点的路径信息的谓语条件;
根据所述共同祖先节点的路径信息的谓语条件合并所述图文块簇内的各候选图文块的路径信息,作为所述图文块簇的路径信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
比对各图文块簇的路径信息,以滤除重叠的路径信息。
5.根据权利要求1所述的方法,其特征在于,在从待处理网页的文档对象模型中提取出图片节点之前,所述方法还包括:
对所述待处理网页的文档对象模型进行数据清洗,去除所述文档对象模型中的无效节点。
6.一种用于抽取网页图文块的装置,其特征在于,所述装置包括:
提取单元,用于从待处理网页的文档对象模型中提取出图片节点;
过滤单元,用于基于预设的过滤规则对所述图片节点进行过滤,得到候选图片节点;
查找单元,用于对每一个候选图片节点,在预设的最大遍历深度范围内依次向所述候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为所述候选图片节点对应的候选图文块,并依据所述候选图文块在所述文档对象模型中的位置生成所述候选图文块的路径信息;
聚簇单元,用于基于各所述候选图文块的路径信息的哈希值对各所述候选图文块进行聚簇,得到至少一个图文块簇;
确定单元,用于对每个图文块簇,基于各候选图文块的路径信息确定所述图文块簇内的各候选图文块的共同祖先节点,基于所述共同祖先节点确定所述图文块簇的路径信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:结构化处理单元,用于在所述聚簇单元基于各所述候选图文块的路径信息的哈希值对各所述候选图文块进行聚簇,得到至少一个图文块簇之前,将所述候选图文块结构化为包含以下数据信息的结构:
所述候选图文块的路径信息、按照预设的格式格式化后的所述候选图文块的路径信息、所述候选图文块对应的候选图片节点中的图片资源路径、以及所述候选图文块的路径信息的哈希值。
8.根据权利要求7所述的装置,其特征在于,所述路径信息包括以可扩展标记语言路径语言标记的路径信息,所述候选图文块的路径信息的哈希值为去除所述候选图文块的路径信息中的谓语条件之后的哈希值;
所述确定单元进一步用于按照如下方式确定所述图文块簇的路径信息:
对每个图文块簇,根据所述候选图文块的路径信息确定出各候选图文块的共同祖先节点,得到所述共同祖先节点的路径信息的谓语条件;
根据所述共同祖先节点的路径信息的谓语条件合并所述图文块簇内的各候选图文块的路径信息,作为所述图文块簇的路径信息。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
比对单元,用于比对各图文块簇的路径信息,以滤除重叠的路径信息。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:清洗单元,用于在所述提取单元从待处理网页的文档对象模型中提取出图片节点之前,对所述待处理网页的文档对象模型进行数据清洗,去除所述文档对象模型中的无效节点。
11.一种服务器,其特征在于,包括:
存储器,用于存储一个或多个程序;
一个或多个处理器,当所述一个或多个程序被一个或多个所述处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201710941523.XA 2017-10-11 2017-10-11 用于抽取网页图文块的方法和装置 Active CN107590288B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710941523.XA CN107590288B (zh) 2017-10-11 2017-10-11 用于抽取网页图文块的方法和装置
US16/133,355 US10755091B2 (en) 2017-10-11 2018-09-17 Method and apparatus for retrieving image-text block from web page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710941523.XA CN107590288B (zh) 2017-10-11 2017-10-11 用于抽取网页图文块的方法和装置

Publications (2)

Publication Number Publication Date
CN107590288A true CN107590288A (zh) 2018-01-16
CN107590288B CN107590288B (zh) 2020-09-18

Family

ID=61052295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710941523.XA Active CN107590288B (zh) 2017-10-11 2017-10-11 用于抽取网页图文块的方法和装置

Country Status (2)

Country Link
US (1) US10755091B2 (zh)
CN (1) CN107590288B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737620A (zh) * 2020-05-29 2020-10-02 北京沃东天骏信息技术有限公司 一种页面访问方法、装置、设备及介质
CN116629209A (zh) * 2023-07-25 2023-08-22 苏州浪潮智能科技有限公司 一种数据处理的方法、装置、系统、设备及可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309336B (zh) * 2018-03-12 2023-08-08 腾讯科技(深圳)有限公司 图像检索方法、装置、系统、服务器以及存储介质
CN111125435B (zh) * 2019-12-17 2023-08-11 北京百度网讯科技有限公司 视频标签的确定方法、装置和计算机设备
CN112579862B (zh) * 2020-12-22 2022-06-14 福建江夏学院 基于MD5值比对的Xpath自动提取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080205775A1 (en) * 2007-02-26 2008-08-28 Klaus Brinker Online document clustering
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及系统
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
CN106557565A (zh) * 2016-11-22 2017-04-05 福州大学 一种基于网页聚类的正文信息提取方法
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140258032A1 (en) * 2007-11-14 2014-09-11 Panjiva, Inc. Transaction facilitating marketplace platform
CN106339398B (zh) * 2015-07-09 2019-10-18 广州市动景计算机科技有限公司 一种网页页面的预读取方法、装置及智能终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080205775A1 (en) * 2007-02-26 2008-08-28 Klaus Brinker Online document clustering
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及系统
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置
CN106557565A (zh) * 2016-11-22 2017-04-05 福州大学 一种基于网页聚类的正文信息提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TOMAS GRIGALIS1 ET AL.: "Clustering visually similar web page elements for structured web data extraction", 《WEB ENGINEERING. 12TH INTERNATIONAL CONFERENCE, ICWE 2012》 *
梁正友,等: "基于图文有效信息量的网页正文定位", 《计算机工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737620A (zh) * 2020-05-29 2020-10-02 北京沃东天骏信息技术有限公司 一种页面访问方法、装置、设备及介质
CN116629209A (zh) * 2023-07-25 2023-08-22 苏州浪潮智能科技有限公司 一种数据处理的方法、装置、系统、设备及可读存储介质
CN116629209B (zh) * 2023-07-25 2023-11-03 苏州浪潮智能科技有限公司 一种数据处理的方法、装置、系统、设备及可读存储介质

Also Published As

Publication number Publication date
US10755091B2 (en) 2020-08-25
US20190108393A1 (en) 2019-04-11
CN107590288B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN107590288A (zh) 用于抽取网页图文块的方法和装置
CN100440222C (zh) 用于文本易读性增强的系统和方法
Liu et al. Vide: A vision-based approach for deep web data extraction
US7975220B2 (en) Apparatus, program product and method for structured document management
CN100568226C (zh) 用于重新格式化具有混乱超链接的区域的方法
Akpınar et al. Vision based page segmentation algorithm: Extended and perceived success
US20080033996A1 (en) Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content
US8205153B2 (en) Information extraction combining spatial and textual layout cues
CN102651002A (zh) 一种网页信息抽取方法及其系统
CN103365877B (zh) 对网页进行转码后建立目录的方法以及服务器
CN106951495A (zh) 用于呈现信息的方法和装置
CN111552704A (zh) 一种数据报表生成方法、装置、计算机设备及存储介质
CN105426508A (zh) 网页生成方法和装置
CN106503211A (zh) 面向信息发布类网站的移动版自动生成的方法
CN106446072A (zh) 网页内容的处理方法和装置
CN103491116A (zh) 正文相关的结构化数据的处理方法及装置
CN112463152A (zh) 一种基于ast的网页适配方法及装置
CN108959204B (zh) 互联网金融项目信息抽取方法和系统
CN102902673A (zh) 一种用于动态生成网页的方法和装置
US20100100807A1 (en) Data processing device, and data processing method
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN114443928A (zh) 一种网络文本数据爬虫方法与系统
CN105512096B (zh) 一种基于文档中内嵌字体的优化方法及装置
US20080015843A1 (en) Linguistic Image Label Incorporating Decision Relevant Perceptual, Semantic, and Relationships Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant