CN106294722A - 一种网页内容自动提取方法及装置 - Google Patents

一种网页内容自动提取方法及装置 Download PDF

Info

Publication number
CN106294722A
CN106294722A CN201610646941.1A CN201610646941A CN106294722A CN 106294722 A CN106294722 A CN 106294722A CN 201610646941 A CN201610646941 A CN 201610646941A CN 106294722 A CN106294722 A CN 106294722A
Authority
CN
China
Prior art keywords
structure body
group
character
sum
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610646941.1A
Other languages
English (en)
Other versions
CN106294722B (zh
Inventor
李海锋
帅博
张建森
赵晓鸿
吴波
邹世民
郭炜炜
崔梦轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANZHEN DEFENCE TECHNOLOGY (SHANGHAI) Co.,Ltd.
Original Assignee
Shanghai Ziyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ziyu Network Technology Co Ltd filed Critical Shanghai Ziyu Network Technology Co Ltd
Priority to CN201610646941.1A priority Critical patent/CN106294722B/zh
Publication of CN106294722A publication Critical patent/CN106294722A/zh
Application granted granted Critical
Publication of CN106294722B publication Critical patent/CN106294722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种网页内容自动提取方法及装置,其中方法包括:对目标网页提取区域结构体,对所述区域结构体进行划分得到主结构体;提取所述主结构体的有序链接组作为标准连接组;提取所述主结构体中每条数据信息所在的最小结构体,利用所述最小结构体生成信息结构体集合;基于所述主结构体的根路径Rpath、标准链接组相对于主结构体的根路径Rpath以及信息结构体相对于主结构体的根路径Rpath生成信息提取范式;根据所述信息提取范式进行网页内容的自动提取。本发明实施例所提供的一种网页内容自动提取的方法及装置,能够实现对网页内容的自动提取,并且能够适应通用网页内容进行提取,适用性广。

Description

一种网页内容自动提取方法及装置
技术领域
本发明涉及网页内容提取技术领域,具体而言,涉及一种网页内容自动提取方法及装置。
背景技术
目前,随着互联网的快速发展,任何利用网页数据进行生产或者研究的项目必然先遇到网页内容提取的问题。因此,近年来各种与网页内容提取相关的研究工作得到广泛关注,其中涵盖了人工智能、数据挖掘、数据库和信息检索等多个领域;现有技术进行网页内容提取的方案中,都需要人工对网页提取内容进行手工校对或事先标记,无法做到自动化操作,或者只能处理某一类特定网站的信息提取,无法做到通用网页内容的自动提取。
发明内容
有鉴于此,本发明实施例的目的在于提供一种网页内容自动提取方法及装置。能够实现对通用网页内容的自动提取。
首先,第一方面,本发明实施例提供了一种网页内容自动提取方法,包括:
对目标网页提取区域结构体,对所述区域结构体进行划分得到主结构体;
提取所述主结构体的有序链接组作为标准连接组;
提取所述主结构体中每条数据信息所在的最小结构体,利用所述最小结构体生成信息结构体集合;
基于所述主结构体的根路径Rpath、标准链接组相对于主结构体的根路径Rpath以及信息结构体相对于主结构体的根路径Rpath生成信息提取范式;
根据所述信息提取范式进行网页内容的自动提取。
结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中:
所述对目标网页提取区域结构体之前,包括:
对目标网页进行预处理,并建立标签树;
基于所述标签树提取目标网页的结构体,基于所述结构体生成区域结构体。
结合第一方面,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中:
所述基于所述结构体生成区域结构体,包括:
计算所述目标网页中所包含的链接的根路径Rpath;
对所述根路径Rpath相同的链接进行筛选和组合,生成链接组;
针对所包含链接的数目大于或等于目标参数值M的链接组,计算出其各个链接的分支路径Ipath,并将该组中所有链接的分支路径Ipath的最大公共部分作为该链接组确定的最小结构体路径;
将最小结构体路径相同的结构体进行合并,计算每个结构体包含的字符数,然后计算合并后的字符总数,筛选出字符总数大于页面总数的一半的结构体组成结构体集合,并将所述集合中字符总数最小的结构体作为区域结构体。
结合第一方面,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中:
所述对所述区域结构体进行划分得到主结构体,包括:
对区域结构体进行结构体划分,得到划分结果集合;
计算所述划分结果集合中各个结构体所包含的字符总数,筛选出字符总数最多的结构体;
将所述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较;;
如果该字符总数最多的结构体所包含的字符总数大于整个目标网页字符总数的一半,则将该字符总数最多的结构体作为主结构体;
如果所述字符总数最多的结构体所包含的字符总数小于目标页面字符总数的一半,且所述划分结果集合中的结构体数目小于目标参数值M,则主结构体为独立的结构体集合。
如果所述字符总数最多的结构体所包含的字符总数小于目标页面字符总数的一半,且所述划分结果集合中的结构体数目大于或者等于目标参数值M,则将所述区域结构体作为主结构体。
结合第一方面,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中:
所述提取所述主结构体的有序链接组作为标准连接组,包括:
当所述字符总数最多的结构体作为主结构体时,所述字符总数最多的结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为该字符总数最多的结构体的有序链接组;
当所述区域结构体作为主结构体时,所述区域结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为区域结构体的有序链接组;
当主结构体为独立的结构体集合时,所述区域结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为区域结构体的有序链接组。
结合第一方面,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中:
所述信息提取范式为:主结构体的Rpath(N)(标准链接组相对主结构体的Rpath)[信息结构体相对主结构体的Rpath];
公式中,N代表主结构体所含结构体数目,若N≥1,则N代表主结构体的表现形式;若N=1,则表示主结构体为一个独立的整块结构体;若1<N<目标参数值M,则表示主结构体为一个结构体的集合,它所包含的结构体数目为N。
第二方面,本发明实施例还提供了一种网页内容自动提取装置,包括:
主结构体生成模块,用于对目标网页提取区域结构体,对所述区域结构体进行划分得到主结构体;
标准链接组生成模块,用于提取所述主结构体的有序链接组作为标准连接组;
信息结构体集合生成模块,用于提取所述主结构体中每条数据信息所在的最小结构体,利用所述最小结构体生成信息结构体集合;
信息提取范式生成模块,用于基于所述主结构体的根路径、标准链接组相对于主结构体的根路径以及信息结构体相对于主结构体的根路径生成信息提取范式;
网页内容自动提取模块,用于根据所述信息提取范式进行网页内容的自动提取。
结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中:
所述装置还包括:
预处理模块,用于对目标网页进行预处理,并建立标签树;
区域结构体生成模块,用于基于所述标签树提取目标网页的结构体,基于所述结构体生成区域结构体。
结合第二方面,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中:
所述区域结构体生成模块,包括:
第一计算单元,用于计算所述目标网页中所包含的链接的根路径;
链接组生成单元,用于对所述根路径Rpath相同的链接进行筛选和组合,生成链接组;
第二计算单元,用于针对所包含链接的数目大于或等于目标参数值M的链接组,计算出其各个链接的分支路径,将该组中所有链接分支路径的最大公共部分作为该组链接确定的最小结构体路径;
将最小结构体路径相同的结构体进行合并,并计算出每个结构体包含的字符数,然后计算合并后的字符总数,筛选出字符总数大于页面总数的一半的结构体组成结构体集合,并将所述集合中字符总数最小的结构体作为区域结构体。
结合第二方面,本发明实施例提供了上述第二方面的第三种可能的实现方式,其中:
所述主结构体生成模块,还包括:
划分单元,用于对区域结构体进行结构体划分,得到划分结果集合;
第三计算单元,用于计算所述划分结果集合中各个结构体所包含的字符总数,筛选出字符总数最多的结构体;
比较单元,用于将所述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较;如果该字符总数最多的结构体所包含的字符总数大于整个目标网页字符总数的一半,则将该字符总数最多的结构体作为主结构体;
如果所述字符总数最多的结构体所包含的字符总数小于目标网页字符总数的一半,且所述划分结果集合中的结构体数目小于目标参数值M,则主结构体为独立的结构体集合;
如果所述字符总数最多的结构体所包含的字符总数小于目标网页字符总数的一半,且所述划分结果集合中的结构体数目大于或者等于目标参数值M,则将所述区域结构体作为主结构体。
本发明实施例中提供的一种网页内容的自动提取方法和装置,基于结构体的建立进行网页内容的自动提取,省却了现有技术中网页内容提取工作中需要人工进行的校对或者标记等工作,省时高效;并且,在实现自动提取网页内容的同时,能够适应通用网页内容进行提取,适用性广。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种网页内容自动提取方法的流程示意图;
图2示出了本发明实施例所提供的一种网页内容自动提取装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在利用网页数据进行生产或者研究的工作中,一般都会首先进行网页内容提取的工作,现有技术中网页内容的提取往往都需要人力的参与,比如人工进行对网页提取内容结果进行校对、对网页内容进行标记等等,无法做到自动化的提取,并且只能够处理某一类特定网站的信息提取;有鉴于此,本发明实施例所提供的一种网页内容自动提取的方法以解决上述问题。
为便于对本申请是实例的方案的进行介绍,首先对标签树和结构体的概念进行介绍;其中,一个网页页面基于它的HTML源文件中的标签可以转化成一棵树来表示,这棵树叫做标签树;这棵树的根节点是〈HTML〉标签,并且所有的内容节点(文本,图片等)都是这棵树的叶节点,每一个内部节点代表一对标签(开始的标签和结束的标签),或者仅代表一个标签(该标签没有对应的结束的标签时,比如说〈BR〉),根标签和内部的节点统称为标签节点。
上述标签树中的一个标签节点及其子树共同构成一个结构体,该结构体在网页中呈现为一片连续的区域;标签树中的一个标签节点及其子树共同构成的结构体由该标签节点的分支路径Ipath来表示,该结构体称为该标签的结构体;进一步的,结构体的嵌套关系可以用Rpath描述,例如节点nk的结构体的嵌套关系是n1.n2…nk-1.nk;因此,如果两个节点的结构体的嵌套关系相同,那么这两个节点的Rpath必然相同;反之亦然。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种网页内容自动提取方法进行详细介绍。
如图1所示的实施例,本实施例中供的一种网页内容自动提取的方法,包括以下步骤:
S110、对目标网页提取区域结构体,对该区域结构体进行划分得到主结构体;
S120、提取上述主结构体的有序链接组作为标准连接组;
S130、提取上述主结构体中每条数据信息所在的最小结构体,利用该最小结构体生成信息结构体集合;
S140、基于主结构体的根路径Rpath、标准链接组相对于主结构体的根路径Rpath以及信息结构体相对于主结构体的根路径Rpath生成信息提取范式;
S150、根据上述信息提取范式进行网页内容的自动提取。
上述目标网页为HTML文档,本发明实施例中所提供的网页内容自动提取方法,在基于结构体的基础上,通过对区域结构体、主结构体、标准链接组、信息结构体集合进行分层次递进分析,最终形成信息提取范式,除了具有能够实现网页内容自动提取和处理通用网页的特点,还具有提取内容准确率高和召回率高的积极效果。
进一步的,在对目标网页提取区域结构体之前还包括:
对目标网页进行预处理,并建立标签树;
基于上述标签树提取目标网页的结构体,基于该结构体生成区域结构体。
上述基于所述结构体生成区域结构体过程中,其中采用的结构体的筛选原理是:主数据区域(即包含目标网页主要内容的区域)中的字符数占整个目标页面字符总数的一半以上;基于该原理,上述由结构体生成区域结构体的过程,包括:
求取计算出目标网页中所包含的链接的根路径Rpath;
对根路径Rpath相同的链接进行筛选和组合,生成链接组;
针对所包含链接的数目大于或等于目标参数值M的链接组,计算出其链接组内各个链接的分支路径Ipath,将该链接组中所有链接的分支路径Ipath的最大公共部分作为该组链接确定的最小结构体路径;其中,此处的目标参数值M为网页自动分选因子,并且M的取值范围为3-8或者M的取值范围为网站链接总数的1/10-1/5。
将最小结构体路径相同的结构体进行合并,计算每个结构体包含的字符数,然后计算合并后的字符总数,筛选出字符总数大于页面总数的一半的结构体组成结构体集合,并将该结构体集合中字符总数最小的结构体作为区域结构体。
上述生成的区域结构体中一定包含了所有主要数据信息,但它不一定是包含所有主要数据信息的最小结构体;因此需要对区域结构体进行结构体划分得到主结构体。
上述对区域结构体进行划分,最终得到主结构体,其中包括:
对区域结构体进行结构体划分,得到划分结果集合;此处对区域结构体进行结构体划分,也可以采用与上述的区域结构体生成的方式相同的处理过程;
计算上述划分结果集合中各个结构体所包含的字符总数,筛选出字符总数最多的结构体(最大结构体);此处的字符可以为ASCII(American Standard Code forInformation Interchange,美国标准信息交换代码)码等普通字符,也可以为数字、特殊标记等;
将上述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较;
如果该字符总数最多的结构体所包含的字符总数大于整个目标网页页面字符总数的一半,则将该字符总数最多的结构体作为主结构体;
如果所述字符总数最多的结构体所包含的字符总数小于目标网页页面字符总数的一半,说明没有任何结构体独立包含所有的主要数据信息,此时如果划分结果集合中的结构体数目小于目标参数值M,则认为主结构体为一些独立的结构体集合;
如果所述字符总数最多的结构体所包含的字符总数小于目标网页字符总数的一半,且所述划分结果集合中的结构体数目大于或者等于目标参数值M,则将所述区域结构体本身作为主结构体。
提取主结构体的有序链接组作为标准链接组,当字符总数最多的结构体作为主结构体时,该字符总数最多的结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为该字符总数最多的结构体的有序链接组;
当区域结构体作为主结构体时,区域结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为区域结构体的有序链接组;
当主结构体为独立的结构体集合时,所述区域结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为区域结构体的有序链接组。
上述主结构体中一定包含了所有主要数据信息,但并不是其中所有的信息都是我们想要的,只有和标准链接组相关的信息才是需要的,因此进一步提出信息结构体集合的概念:主结构体中每条数据信息所在的最小结构体集合称为信息结构体集合。
假如主结构体经过结构分离算法后得到的结果集合为R{r1,r2,r3,…,rm},其中各个元素代表一个独立的相对等势的子结构体。R{r1,r2,r3,…,rm}中元素和信息所在最小结构体之间的映射为:假设结构体z1包含子结构体r1,z1和r2相对于主结构体等势,且任何包含z1(z1除外)的结构体都不与r2相对于主结构体等势,那么,本文将z1称为r1所对应的信息结构体。以此类,我们分别将z2,z3,…,zm作为r2,r3,…,rm所对应的信息结构体,则有Z{z1,z2,z3,…,zm}称为信息结构体集合。
上述得到主结构体、标准链接组、信息结构体集合后,基于上述主结构体的根路径Rpath、标准链接组相对于主结构体的根路径Rpath以及信息结构体相对于主结构体的根路径Rpath生成信息提取范式,得到信息提取范式以后,利用该信息提取范式进行网页内容的自动提取。
本实施例所提供的一种网页内容自动提取方法中,包括网页预处理、区域结构体生成、主结构体生成、标准链接组生成、信息结构体集合生成、信息提取范式生成、网页内容提取等部分;本发明实施例提供的网页内容自动提取的方法是基于结构体建立的基础之上的,本实施例中,从HTML文档出发,主要经过标签识别、网页元素获取、脚本和格式文件识别,区分不同的特征,利用文档解析算法,为建立标签树奠定基础。在此基础上,通过定义标签树和结构体,利用网页解析算法完成区域结构体的生成,然后,采用结构体分离算法,实现主结构体、标准链接组和信息结构体集合的生成,为提取网页关键数据奠定基础。最终,根据信息提取方法实现网页内容的自动提取,进一步的通过智能识别网页中的标题、列表、时间等信息,识别网页的标题域、正文、时间标签等内容,针对不同的页面,提取敏感字段,如产品参数、价格等。因此在本实施例方法中,不需要实现对特定网站信息或网页特定格式信息进行预先人工设置,因此能够适应较好地应用于通用网页内容的自动提取。
如图2所示的实施例,本发明实施例还提供了一种网页内容自动提取装置,包括:
主结构体生成模块210,用于对目标网页提取区域结构体,对区域结构体进行划分得到主结构体;
标准链接组生成模块220,用于提取主结构体的有序链接组作为标准连接组;
信息结构体集合生成模块230,用于提取主结构体中每条数据信息所在的最小结构体,利用该最小结构体生成信息结构体集合;
信息提取范式生成模块240,用于基于主结构体的根路径、标准链接组相对于主结构体的根路径以及信息结构体相对于主结构体的根路径生成信息提取范式;
网页内容自动提取模块250,用于根据上述信息提取范式进行网页内容的自动提取。
进一步的,上述的一种网页内容自动提取装置,还包括:
预处理模块,用于对目标网页进行预处理,并建立标签树;
区域结构体生成模块,用于基于所述标签树提取目标网页的结构体,基上述区域结构体生成模块,包括:
第一计算单元,用于计算所述目标网页中所包含的链接的根路径;
链接组生成单元,用于对所述根路径Rpath相同的链接进行筛选和组合,生成链接组;
第二计算单元,用于针对所包含链接的数目大于或等于目标参数值M的链接组,计算出其各个链接的分支路径,将该组中所有链接分支路径的最大公共部分作为该组链接确定的最小结构体路径;
筛选单元,将最小结构体路径相同的结构体进行合并,并计算出每个结构体包含的字符数,然后计算合并后的字符总数,筛选出字符总数大于页面总数的一半的结构体组成结构体集合,并将所述集合中字符总数最小的结构体作为区域结构体。
上述主结构体生成模块,还包括:
划分单元,用于对区域结构体进行结构体划分,得到划分结果集合;
第三计算单元,用于计算所述划分结果集合中各个结构体所包含的字符总数,筛选出字符总数最多的结构体;
比较单元,用于将所述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较;如果该字符总数最多的结构体所包含的字符总数大于整个目标网页字符总数的一半,则将该字符总数最多的结构体作为主结构体;
如果所述字符总数最多的结构体所包含的字符总数小于目标页面字符总数的一半,且所述划分结果集合中的结构体数目小于目标参数值M,则将所述划分结果集合作为主结构体;
如果所述字符总数最多的结构体所包含的字符总数小于目标页面字符总数的一半,且所述划分结果集合中的结构体数目大于或者等于目标参数值M,则将所述区域结构体作为主结构体。
需要说明的是,本发明实施例中所提供的一种网页内容自动提取方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种网页内容自动提取方法,其特征在于,包括:
对目标网页提取区域结构体,对所述区域结构体进行划分得到主结构体;
提取所述主结构体的有序链接组作为标准连接组;
提取所述主结构体中每条数据信息所在的最小结构体,利用所述最小结构体生成信息结构体集合;
基于所述主结构体的根路径Rpath、标准链接组相对于主结构体的根路径Rpath以及信息结构体相对于主结构体的根路径Rpath生成信息提取范式;
根据所述信息提取范式进行网页内容的自动提取。
2.根据权利要求1所述的方法,其特征在于,所述对目标网页提取区域结构体之前,包括:
对目标网页进行预处理,并建立标签树;
基于所述标签树提取目标网页的结构体,基于所述结构体生成区域结构体。
3.根据权利要求2所述的方法,其特征在于,所述基于所述结构体生成区域结构体,包括:
计算所述目标网页中所包含的链接的根路径Rpath;
对所述根路径Rpath相同的链接进行筛选和组合,生成链接组;
针对所包含链接的数目大于或等于目标参数值M的链接组,计算出其各个链接的分支路径Ipath,将该组中所有链接的分支路径Ipath的最大公共部分作为该链接组确定的最小结构体路径;
将最小结构体路径相同的结构体进行合并,计算每个结构体包含的字符数,然后计算合并后的字符总数,筛选出字符总数大于页面总数的一半的结构体组成结构体集合,并将所述结构体集合中字符总数最小的结构体作为区域结构体。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述对所述区域结构体进行划分得到主结构体,包括:
对区域结构体进行结构体划分,得到划分结果集合;
计算所述划分结果集合中各个结构体所包含的字符总数,筛选出字符总数最多的结构体;
将所述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较;
如果该字符总数最多的结构体所包含的字符总数大于整个目标网页字符总数的一半,则将该字符总数最多的结构体作为主结构体;
如果所述字符总数最多的结构体所包含的字符总数小于目标网页字符总数的一半,且所述划分结果集合中的结构体数目小于目标参数值M,主结构体为独立的结构体集合;
如果所述字符总数最多的结构体所包含的字符总数小于目标网页字符总数的一半,且所述划分结果集合中的结构体数目大于或者等于目标参数值M,则将所述区域结构体作为主结构体。
5.根据权利要求4所述的方法,其特征在于,所述提取所述主结构体的有序链接组作为标准连接组,包括:
当所述字符总数最多的结构体作为主结构体时,所述字符总数最多的结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为该字符总数最多的结构体的有序链接组;
当所述区域结构体作为主结构体时,所述区域结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为区域结构体的有序链接组;
当主结构体为独立的结构体集合时,所述区域结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为区域结构体的有序链接组。
6.根据权利要求1所述的方法,其特征在于,所述信息提取范式为:主结构体的Rpath(N)(标准链接组相对主结构体的Rpath)[信息结构体相对主结构体的Rpath];
公式中,N代表主结构体所含结构体数目,若N≥1,则N代表主结构体的表现形式;若N=1,则表示主结构体为一个独立的整块结构体;若1<N<目标参数值M,则表示主结构体为一个结构体的集合,它所包含的结构体数目为N。
7.一种网页内容自动提取装置,其特征在于,包括:
主结构体生成模块,用于对目标网页提取区域结构体,对所述区域结构体进行划分得到主结构体;
标准链接组生成模块,用于提取所述主结构体的有序链接组作为标准连接组;
信息结构体集合生成模块,用于提取所述主结构体中每条数据信息所在的最小结构体,利用所述最小结构体生成信息结构体集合;
信息提取范式生成模块,用于基于所述主结构体的根路径、标准链接组相对于主结构体的根路径以及信息结构体相对于主结构体的根路径生成信息提取范式;
网页内容自动提取模块,用于根据所述信息提取范式进行网页内容的自动提取。
8.根据权利要求7所述的一种网页内容自动提取装置,其特征在于,还包括:
预处理模块,用于对目标网页进行预处理,并建立标签树;
区域结构体生成模块,用于基于所述标签树提取目标网页的结构体,基于所述结构体生成区域结构体。
9.根据权利要求8所述的一种网页内容自动提取装置,其特征在于,所述区域结构体生成模块,包括:
第一计算单元,用于计算所述目标网页中所包含的链接的根路径;
链接组生成单元,用于对所述根路径Rpath相同的链接进行筛选和组合,生成链接组;
第二计算单元,用于针对所包含链接的数目大于或等于目标参数值M的链接组,计算出其各个链接的分支路径,将该组中所有链接分支路径的最大公共部分作为该链接组确定的最小结构体路径;
筛选单元,将最小结构体路径相同的结构体进行合并,并计算出每个结构体包含的字符数,然后计算合并后的字符总数,筛选出字符总数大于页面总数的一半的结构体组成结构体集合,并将所述集合中字符总数最小的结构体作为区域结构体。
10.根据权利要求7~9任一项所述的一种网页内容自动提取装置,其特征在于,所述主结构体生成模块,还包括:
划分单元,用于对区域结构体进行结构体划分,得到划分结果集合;
第三计算单元,用于计算所述划分结果集合中各个结构体所包含的字符总数,筛选出字符总数最多的结构体;
比较单元,用于将所述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较;如果该字符总数最多的结构体所包含的字符总数大于整个目标网页字符总数的一半,则将该字符总数最多的结构体作为主结构体;
如果所述字符总数最多的结构体所包含的字符总数小于目标页面字符总数的一半,且所述划分结果集合中的结构体数目小于目标参数值M,则将所述划分结果集合作为主结构体;
如果所述字符总数最多的结构体所包含的字符总数小于目标页面字符总数的一半,且所述划分结果集合中的结构体数目大于或者等于目标参数值M,则将所述区域结构体作为主结构体。
CN201610646941.1A 2016-08-09 2016-08-09 一种网页内容自动提取方法及装置 Active CN106294722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610646941.1A CN106294722B (zh) 2016-08-09 2016-08-09 一种网页内容自动提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610646941.1A CN106294722B (zh) 2016-08-09 2016-08-09 一种网页内容自动提取方法及装置

Publications (2)

Publication Number Publication Date
CN106294722A true CN106294722A (zh) 2017-01-04
CN106294722B CN106294722B (zh) 2019-11-22

Family

ID=57667147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610646941.1A Active CN106294722B (zh) 2016-08-09 2016-08-09 一种网页内容自动提取方法及装置

Country Status (1)

Country Link
CN (1) CN106294722B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209906A (zh) * 2018-02-07 2019-09-06 北京京东尚科信息技术有限公司 用于提取网页信息的方法和装置
CN111625748A (zh) * 2020-06-01 2020-09-04 深圳市小满科技有限公司 网站的导航栏信息提取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法
CN103761312A (zh) * 2014-01-24 2014-04-30 福州大学 一种多记录网页的信息抽取系统及方法
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统
CN104462532A (zh) * 2014-12-23 2015-03-25 北京奇虎科技有限公司 网页正文提取的方法和装置
CN104965901A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种目标页面内容抓取方法和装置
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统
CN103761312A (zh) * 2014-01-24 2014-04-30 福州大学 一种多记录网页的信息抽取系统及方法
CN104462532A (zh) * 2014-12-23 2015-03-25 北京奇虎科技有限公司 网页正文提取的方法和装置
CN104965901A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种目标页面内容抓取方法和装置
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209906A (zh) * 2018-02-07 2019-09-06 北京京东尚科信息技术有限公司 用于提取网页信息的方法和装置
CN111625748A (zh) * 2020-06-01 2020-09-04 深圳市小满科技有限公司 网站的导航栏信息提取方法、装置、电子设备及存储介质
CN111625748B (zh) * 2020-06-01 2024-01-09 深圳市小满科技有限公司 网站的导航栏信息提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN106294722B (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN107423391B (zh) 网页结构化数据的信息提取方法
CN101464905B (zh) 一种网页信息抽取的系统及方法
CN102890681B (zh) 一种生成网页结构模板的方法及系统
CN103488746B (zh) 一种获取业务信息的方法及装置
CN111062451B (zh) 一种基于文本引导图模型的图像描述生成方法
TW201250492A (en) Method and system of extracting web page information
CN103823824A (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN105653668A (zh) 云环境中基于DOMTree的网页内容分析提取优化方法
CN108804472A (zh) 一种网页内容抽取方法、装置及服务器
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN106339455B (zh) 基于文本标签特征挖掘的网页正文提取方法
CN109241383A (zh) 一种基于深度学习的网页类型智能识别方法及系统
CN106503212A (zh) 一种网页元素样式的设置方法及装置
CN104462532B (zh) 网页正文提取的方法和装置
CN110275966B (zh) 一种知识抽取方法及装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN105630772B (zh) 一种网页评论内容的抽取方法
CN108681547A (zh) 一种基于小程序的网页内容转换方法及装置
CN103559199A (zh) 网页信息抽取方法和装置
CN105677638A (zh) Web信息抽取方法
CN104899219A (zh) 伪静态url的筛除方法、系统及网页爬取方法、系统
CN107436931B (zh) 网页正文抽取方法及装置
CN106934055A (zh) 一种基于不充分模态信息的半监督网页自动分类方法
CN106294722A (zh) 一种网页内容自动提取方法及装置
CN104572720B (zh) 一种网页信息排重的方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210604

Address after: Room 1205-a72, 968, 128 Memorial Road, Baoshan District, Shanghai, 200439

Patentee after: JIANZHEN DEFENCE TECHNOLOGY (SHANGHAI) Co.,Ltd.

Address before: 201900 16 / F, 61 Lane 1600, Yixian Road, Baoshan District, Shanghai

Patentee before: SHANGHAI ZIYU NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right