CN106294722A

CN106294722A - 一种网页内容自动提取方法及装置

Info

Publication number: CN106294722A
Application number: CN201610646941.1A
Authority: CN
Inventors: 李海锋; 帅博; 张建森; 赵晓鸿; 吴波; 邹世民; 郭炜炜; 崔梦轩
Original assignee: Shanghai Ziyu Network Technology Co Ltd
Current assignee: JIANZHEN DEFENCE TECHNOLOGY (SHANGHAI) Co.,Ltd.
Priority date: 2016-08-09
Filing date: 2016-08-09
Publication date: 2017-01-04
Anticipated expiration: 2036-08-09
Also published as: CN106294722B

Abstract

本发明提供了一种网页内容自动提取方法及装置，其中方法包括：对目标网页提取区域结构体，对所述区域结构体进行划分得到主结构体；提取所述主结构体的有序链接组作为标准连接组；提取所述主结构体中每条数据信息所在的最小结构体，利用所述最小结构体生成信息结构体集合；基于所述主结构体的根路径Rpath、标准链接组相对于主结构体的根路径Rpath以及信息结构体相对于主结构体的根路径Rpath生成信息提取范式；根据所述信息提取范式进行网页内容的自动提取。本发明实施例所提供的一种网页内容自动提取的方法及装置，能够实现对网页内容的自动提取，并且能够适应通用网页内容进行提取，适用性广。

Description

一种网页内容自动提取方法及装置

技术领域

本发明涉及网页内容提取技术领域，具体而言，涉及一种网页内容自动提取方法及装置。

背景技术

目前，随着互联网的快速发展,任何利用网页数据进行生产或者研究的项目必然先遇到网页内容提取的问题。因此,近年来各种与网页内容提取相关的研究工作得到广泛关注，其中涵盖了人工智能、数据挖掘、数据库和信息检索等多个领域；现有技术进行网页内容提取的方案中，都需要人工对网页提取内容进行手工校对或事先标记，无法做到自动化操作，或者只能处理某一类特定网站的信息提取，无法做到通用网页内容的自动提取。

发明内容

有鉴于此，本发明实施例的目的在于提供一种网页内容自动提取方法及装置。能够实现对通用网页内容的自动提取。

首先，第一方面，本发明实施例提供了一种网页内容自动提取方法，包括：

对目标网页提取区域结构体，对所述区域结构体进行划分得到主结构体；

提取所述主结构体的有序链接组作为标准连接组；

提取所述主结构体中每条数据信息所在的最小结构体，利用所述最小结构体生成信息结构体集合；

基于所述主结构体的根路径Rpath、标准链接组相对于主结构体的根路径Rpath以及信息结构体相对于主结构体的根路径Rpath生成信息提取范式；

根据所述信息提取范式进行网页内容的自动提取。

结合第一方面，本发明实施例提供了上述第一方面的第一种可能的实现方式，其中：

所述对目标网页提取区域结构体之前，包括：

对目标网页进行预处理，并建立标签树；

基于所述标签树提取目标网页的结构体，基于所述结构体生成区域结构体。

结合第一方面，本发明实施例提供了上述第一方面的第二种可能的实现方式，其中：

所述基于所述结构体生成区域结构体，包括：

计算所述目标网页中所包含的链接的根路径Rpath；

对所述根路径Rpath相同的链接进行筛选和组合，生成链接组；

针对所包含链接的数目大于或等于目标参数值M的链接组，计算出其各个链接的分支路径Ipath，并将该组中所有链接的分支路径Ipath的最大公共部分作为该链接组确定的最小结构体路径；

将最小结构体路径相同的结构体进行合并，计算每个结构体包含的字符数，然后计算合并后的字符总数，筛选出字符总数大于页面总数的一半的结构体组成结构体集合，并将所述集合中字符总数最小的结构体作为区域结构体。

结合第一方面，本发明实施例提供了上述第一方面的第三种可能的实现方式，其中：

所述对所述区域结构体进行划分得到主结构体，包括：

对区域结构体进行结构体划分，得到划分结果集合；

计算所述划分结果集合中各个结构体所包含的字符总数，筛选出字符总数最多的结构体；

将所述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较；；

如果该字符总数最多的结构体所包含的字符总数大于整个目标网页字符总数的一半，则将该字符总数最多的结构体作为主结构体；

如果所述字符总数最多的结构体所包含的字符总数小于目标页面字符总数的一半，且所述划分结果集合中的结构体数目小于目标参数值M，则主结构体为独立的结构体集合。

如果所述字符总数最多的结构体所包含的字符总数小于目标页面字符总数的一半，且所述划分结果集合中的结构体数目大于或者等于目标参数值M，则将所述区域结构体作为主结构体。

结合第一方面，本发明实施例提供了上述第一方面的第四种可能的实现方式，其中：

所述提取所述主结构体的有序链接组作为标准连接组，包括：

当所述字符总数最多的结构体作为主结构体时,所述字符总数最多的结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为该字符总数最多的结构体的有序链接组；

当所述区域结构体作为主结构体时,所述区域结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为区域结构体的有序链接组；

当主结构体为独立的结构体集合时,所述区域结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为区域结构体的有序链接组。

结合第一方面，本发明实施例提供了上述第一方面的第五种可能的实现方式，其中：

所述信息提取范式为：主结构体的Rpath(N)(标准链接组相对主结构体的Rpath)[信息结构体相对主结构体的Rpath]；

公式中，N代表主结构体所含结构体数目，若N≥1，则N代表主结构体的表现形式；若N＝1，则表示主结构体为一个独立的整块结构体；若1<N<目标参数值M，则表示主结构体为一个结构体的集合,它所包含的结构体数目为N。

第二方面，本发明实施例还提供了一种网页内容自动提取装置，包括：

主结构体生成模块，用于对目标网页提取区域结构体，对所述区域结构体进行划分得到主结构体；

标准链接组生成模块，用于提取所述主结构体的有序链接组作为标准连接组；

信息结构体集合生成模块，用于提取所述主结构体中每条数据信息所在的最小结构体，利用所述最小结构体生成信息结构体集合；

信息提取范式生成模块，用于基于所述主结构体的根路径、标准链接组相对于主结构体的根路径以及信息结构体相对于主结构体的根路径生成信息提取范式；

网页内容自动提取模块，用于根据所述信息提取范式进行网页内容的自动提取。

结合第二方面，本发明实施例提供了上述第二方面的第一种可能的实现方式，其中：

所述装置还包括：

预处理模块，用于对目标网页进行预处理，并建立标签树；

区域结构体生成模块，用于基于所述标签树提取目标网页的结构体，基于所述结构体生成区域结构体。

结合第二方面，本发明实施例提供了上述第二方面的第二种可能的实现方式，其中：

所述区域结构体生成模块，包括：

第一计算单元，用于计算所述目标网页中所包含的链接的根路径；

链接组生成单元，用于对所述根路径Rpath相同的链接进行筛选和组合，生成链接组；

第二计算单元，用于针对所包含链接的数目大于或等于目标参数值M的链接组，计算出其各个链接的分支路径，将该组中所有链接分支路径的最大公共部分作为该组链接确定的最小结构体路径；

将最小结构体路径相同的结构体进行合并，并计算出每个结构体包含的字符数，然后计算合并后的字符总数，筛选出字符总数大于页面总数的一半的结构体组成结构体集合，并将所述集合中字符总数最小的结构体作为区域结构体。

结合第二方面，本发明实施例提供了上述第二方面的第三种可能的实现方式，其中：

所述主结构体生成模块，还包括：

划分单元，用于对区域结构体进行结构体划分，得到划分结果集合；

第三计算单元，用于计算所述划分结果集合中各个结构体所包含的字符总数，筛选出字符总数最多的结构体；

比较单元，用于将所述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较；如果该字符总数最多的结构体所包含的字符总数大于整个目标网页字符总数的一半，则将该字符总数最多的结构体作为主结构体；

如果所述字符总数最多的结构体所包含的字符总数小于目标网页字符总数的一半，且所述划分结果集合中的结构体数目小于目标参数值M，则主结构体为独立的结构体集合；

如果所述字符总数最多的结构体所包含的字符总数小于目标网页字符总数的一半，且所述划分结果集合中的结构体数目大于或者等于目标参数值M，则将所述区域结构体作为主结构体。

本发明实施例中提供的一种网页内容的自动提取方法和装置，基于结构体的建立进行网页内容的自动提取，省却了现有技术中网页内容提取工作中需要人工进行的校对或者标记等工作，省时高效；并且，在实现自动提取网页内容的同时，能够适应通用网页内容进行提取，适用性广。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种网页内容自动提取方法的流程示意图；

图2示出了本发明实施例所提供的一种网页内容自动提取装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在利用网页数据进行生产或者研究的工作中，一般都会首先进行网页内容提取的工作，现有技术中网页内容的提取往往都需要人力的参与，比如人工进行对网页提取内容结果进行校对、对网页内容进行标记等等，无法做到自动化的提取，并且只能够处理某一类特定网站的信息提取；有鉴于此，本发明实施例所提供的一种网页内容自动提取的方法以解决上述问题。

为便于对本申请是实例的方案的进行介绍，首先对标签树和结构体的概念进行介绍；其中，一个网页页面基于它的HTML源文件中的标签可以转化成一棵树来表示,这棵树叫做标签树；这棵树的根节点是〈HTML〉标签,并且所有的内容节点(文本,图片等)都是这棵树的叶节点，每一个内部节点代表一对标签(开始的标签和结束的标签),或者仅代表一个标签(该标签没有对应的结束的标签时,比如说〈BR〉),根标签和内部的节点统称为标签节点。

上述标签树中的一个标签节点及其子树共同构成一个结构体,该结构体在网页中呈现为一片连续的区域；标签树中的一个标签节点及其子树共同构成的结构体由该标签节点的分支路径Ipath来表示,该结构体称为该标签的结构体；进一步的，结构体的嵌套关系可以用Rpath描述,例如节点nk的结构体的嵌套关系是n1.n2…nk-1.nk；因此,如果两个节点的结构体的嵌套关系相同,那么这两个节点的Rpath必然相同；反之亦然。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种网页内容自动提取方法进行详细介绍。

如图1所示的实施例，本实施例中供的一种网页内容自动提取的方法，包括以下步骤：

S110、对目标网页提取区域结构体，对该区域结构体进行划分得到主结构体；

S120、提取上述主结构体的有序链接组作为标准连接组；

S130、提取上述主结构体中每条数据信息所在的最小结构体，利用该最小结构体生成信息结构体集合；

S140、基于主结构体的根路径Rpath、标准链接组相对于主结构体的根路径Rpath以及信息结构体相对于主结构体的根路径Rpath生成信息提取范式；

S150、根据上述信息提取范式进行网页内容的自动提取。

上述目标网页为HTML文档，本发明实施例中所提供的网页内容自动提取方法，在基于结构体的基础上，通过对区域结构体、主结构体、标准链接组、信息结构体集合进行分层次递进分析，最终形成信息提取范式，除了具有能够实现网页内容自动提取和处理通用网页的特点，还具有提取内容准确率高和召回率高的积极效果。

进一步的，在对目标网页提取区域结构体之前还包括：

对目标网页进行预处理，并建立标签树；

基于上述标签树提取目标网页的结构体，基于该结构体生成区域结构体。

上述基于所述结构体生成区域结构体过程中，其中采用的结构体的筛选原理是：主数据区域(即包含目标网页主要内容的区域)中的字符数占整个目标页面字符总数的一半以上；基于该原理，上述由结构体生成区域结构体的过程，包括：

求取计算出目标网页中所包含的链接的根路径Rpath；

对根路径Rpath相同的链接进行筛选和组合，生成链接组；

针对所包含链接的数目大于或等于目标参数值M的链接组，计算出其链接组内各个链接的分支路径Ipath，将该链接组中所有链接的分支路径Ipath的最大公共部分作为该组链接确定的最小结构体路径；其中，此处的目标参数值M为网页自动分选因子，并且M的取值范围为3-8或者M的取值范围为网站链接总数的1/10-1/5。

将最小结构体路径相同的结构体进行合并，计算每个结构体包含的字符数，然后计算合并后的字符总数，筛选出字符总数大于页面总数的一半的结构体组成结构体集合，并将该结构体集合中字符总数最小的结构体作为区域结构体。

上述生成的区域结构体中一定包含了所有主要数据信息,但它不一定是包含所有主要数据信息的最小结构体；因此需要对区域结构体进行结构体划分得到主结构体。

上述对区域结构体进行划分，最终得到主结构体，其中包括：

对区域结构体进行结构体划分，得到划分结果集合；此处对区域结构体进行结构体划分，也可以采用与上述的区域结构体生成的方式相同的处理过程；

计算上述划分结果集合中各个结构体所包含的字符总数，筛选出字符总数最多的结构体(最大结构体)；此处的字符可以为ASCII(American Standard Code forInformation Interchange，美国标准信息交换代码)码等普通字符，也可以为数字、特殊标记等；

将上述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较；

如果该字符总数最多的结构体所包含的字符总数大于整个目标网页页面字符总数的一半，则将该字符总数最多的结构体作为主结构体；

如果所述字符总数最多的结构体所包含的字符总数小于目标网页页面字符总数的一半,说明没有任何结构体独立包含所有的主要数据信息，此时如果划分结果集合中的结构体数目小于目标参数值M，则认为主结构体为一些独立的结构体集合；

如果所述字符总数最多的结构体所包含的字符总数小于目标网页字符总数的一半，且所述划分结果集合中的结构体数目大于或者等于目标参数值M，则将所述区域结构体本身作为主结构体。

提取主结构体的有序链接组作为标准链接组，当字符总数最多的结构体作为主结构体时,该字符总数最多的结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为该字符总数最多的结构体的有序链接组；

当区域结构体作为主结构体时,区域结构体的有序链接组就是主结构体的有序链接组,此时的标准链接组即为区域结构体的有序链接组；

上述主结构体中一定包含了所有主要数据信息,但并不是其中所有的信息都是我们想要的,只有和标准链接组相关的信息才是需要的，因此进一步提出信息结构体集合的概念：主结构体中每条数据信息所在的最小结构体集合称为信息结构体集合。

假如主结构体经过结构分离算法后得到的结果集合为R{r₁,r₂,r₃,…,r_m},其中各个元素代表一个独立的相对等势的子结构体。R{r₁,r₂,r₃,…,r_m}中元素和信息所在最小结构体之间的映射为：假设结构体z₁包含子结构体r₁,z₁和r₂相对于主结构体等势,且任何包含z₁(z₁除外)的结构体都不与r₂相对于主结构体等势,那么,本文将z₁称为r₁所对应的信息结构体。以此类,我们分别将z₂,z₃,…,z_m作为r₂,r₃,…,r_m所对应的信息结构体,则有Z{z₁,z₂,z₃,…,z_m}称为信息结构体集合。

上述得到主结构体、标准链接组、信息结构体集合后，基于上述主结构体的根路径Rpath、标准链接组相对于主结构体的根路径Rpath以及信息结构体相对于主结构体的根路径Rpath生成信息提取范式，得到信息提取范式以后，利用该信息提取范式进行网页内容的自动提取。

本实施例所提供的一种网页内容自动提取方法中，包括网页预处理、区域结构体生成、主结构体生成、标准链接组生成、信息结构体集合生成、信息提取范式生成、网页内容提取等部分；本发明实施例提供的网页内容自动提取的方法是基于结构体建立的基础之上的，本实施例中，从HTML文档出发，主要经过标签识别、网页元素获取、脚本和格式文件识别，区分不同的特征，利用文档解析算法，为建立标签树奠定基础。在此基础上，通过定义标签树和结构体，利用网页解析算法完成区域结构体的生成，然后，采用结构体分离算法，实现主结构体、标准链接组和信息结构体集合的生成，为提取网页关键数据奠定基础。最终，根据信息提取方法实现网页内容的自动提取，进一步的通过智能识别网页中的标题、列表、时间等信息，识别网页的标题域、正文、时间标签等内容，针对不同的页面，提取敏感字段，如产品参数、价格等。因此在本实施例方法中，不需要实现对特定网站信息或网页特定格式信息进行预先人工设置，因此能够适应较好地应用于通用网页内容的自动提取。

如图2所示的实施例，本发明实施例还提供了一种网页内容自动提取装置，包括：

主结构体生成模块210，用于对目标网页提取区域结构体，对区域结构体进行划分得到主结构体；

标准链接组生成模块220，用于提取主结构体的有序链接组作为标准连接组；

信息结构体集合生成模块230，用于提取主结构体中每条数据信息所在的最小结构体，利用该最小结构体生成信息结构体集合；

信息提取范式生成模块240，用于基于主结构体的根路径、标准链接组相对于主结构体的根路径以及信息结构体相对于主结构体的根路径生成信息提取范式；

网页内容自动提取模块250，用于根据上述信息提取范式进行网页内容的自动提取。

进一步的，上述的一种网页内容自动提取装置，还包括：

预处理模块，用于对目标网页进行预处理，并建立标签树；

区域结构体生成模块，用于基于所述标签树提取目标网页的结构体，基上述区域结构体生成模块，包括：

筛选单元，将最小结构体路径相同的结构体进行合并，并计算出每个结构体包含的字符数，然后计算合并后的字符总数，筛选出字符总数大于页面总数的一半的结构体组成结构体集合，并将所述集合中字符总数最小的结构体作为区域结构体。

上述主结构体生成模块，还包括：

如果所述字符总数最多的结构体所包含的字符总数小于目标页面字符总数的一半，且所述划分结果集合中的结构体数目小于目标参数值M，则将所述划分结果集合作为主结构体；

需要说明的是，本发明实施例中所提供的一种网页内容自动提取方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种网页内容自动提取方法，其特征在于，包括：

提取所述主结构体的有序链接组作为标准连接组；

根据所述信息提取范式进行网页内容的自动提取。

2.根据权利要求1所述的方法，其特征在于，所述对目标网页提取区域结构体之前，包括：

对目标网页进行预处理，并建立标签树；

3.根据权利要求2所述的方法，其特征在于，所述基于所述结构体生成区域结构体，包括：

计算所述目标网页中所包含的链接的根路径Rpath；

针对所包含链接的数目大于或等于目标参数值M的链接组，计算出其各个链接的分支路径Ipath，将该组中所有链接的分支路径Ipath的最大公共部分作为该链接组确定的最小结构体路径；

将最小结构体路径相同的结构体进行合并，计算每个结构体包含的字符数，然后计算合并后的字符总数，筛选出字符总数大于页面总数的一半的结构体组成结构体集合，并将所述结构体集合中字符总数最小的结构体作为区域结构体。

4.根据权利要求1～3任一项所述的方法，其特征在于，所述对所述区域结构体进行划分得到主结构体，包括：

对区域结构体进行结构体划分，得到划分结果集合；

将所述字符总数最多的结构体所包含的字符总数与整个目标网页所包含的字符总数进行比较；

如果所述字符总数最多的结构体所包含的字符总数小于目标网页字符总数的一半，且所述划分结果集合中的结构体数目小于目标参数值M，主结构体为独立的结构体集合；

5.根据权利要求4所述的方法，其特征在于，所述提取所述主结构体的有序链接组作为标准连接组，包括：

6.根据权利要求1所述的方法，其特征在于，所述信息提取范式为：主结构体的Rpath(N)(标准链接组相对主结构体的Rpath)[信息结构体相对主结构体的Rpath]；

7.一种网页内容自动提取装置，其特征在于，包括：

8.根据权利要求7所述的一种网页内容自动提取装置，其特征在于，还包括：

预处理模块，用于对目标网页进行预处理，并建立标签树；

9.根据权利要求8所述的一种网页内容自动提取装置，其特征在于，所述区域结构体生成模块，包括：

第二计算单元，用于针对所包含链接的数目大于或等于目标参数值M的链接组，计算出其各个链接的分支路径，将该组中所有链接分支路径的最大公共部分作为该链接组确定的最小结构体路径；

10.根据权利要求7～9任一项所述的一种网页内容自动提取装置，其特征在于，所述主结构体生成模块，还包括：