CN112597410A

CN112597410A - 基于规则配置库对网页内容执行结构化提取的方法及装置

Info

Publication number: CN112597410A
Application number: CN202011437614.8A
Authority: CN
Inventors: 叶山茂; 赵晶; 喻波; 王志海; 安鹏
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-04-02

Abstract

本发明提供一种基于规则配置库对网页内容执行结构化提取的方法及装置，所述方法包括：建立规则库，所述规则库中的规则包括解析网页内容所需的配置项；获取待解析的网页内容，获取其对应的网站的url，查询所述规则库；获取待解析的网页，并根据该网页的url，以正则匹配的方式从所述规则库中查找对应的规则，输出规则的配置项；基于所述输出规则的配置项，对所述待解析的网页进行解析；将解析出的结果处理成个性化设置所需的格式。根据本发明的方案，能够共享并复用规则，对网页内容进行高精度、细粒度的提取，提取个性化数据，提取出的数据能够满足第三方数据处理系统的需要。

Description

基于规则配置库对网页内容执行结构化提取的方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种基于规则配置库对网页内容执行结构化提取的方法及装置。

背景技术

近些年来，互联网技术得到了快速发展，大数据处理技术在这个过程中应运而生，并对互联网经济产生了深刻的影响，给互联网经济发展带来了极大的机遇。这也促使越来越多的企业和机构进入到大数据技术领域或使用大数据技术成功助力自身发展。

大数据技术中，数据来源是至关重要的一个组成部分，而当前互联网网页中包含了大量各式各样数据内容。所以，如何对网页数据内容进行高效、准确的收集成为了大数据时代迫切需要的技术。

现有技术中，对网页数据进行采集的工具，例如八爪鱼、火车头等，但这些工具都需要对的网页即时配置规则，之后，运行规则再导出结果数据。

但上述实现方式，在即时配置规则时，需要专业技术才能配置成功，并且，需要即时对规则进行配置，对规则的共享和重复利用存在困难；不能对网页内容进行高精度的提取；提取出的数据的格式、展示方式不满足第三方数据处理系统的需要；无法提取个性化数据。

发明内容

为解决上述技术问题，本发明提出了一种基于规则配置库对网页内容执行结构化提取的方法及装置，所述方法及装置，用以解决现有技术中，即时配置规则时，需要专业技术才能配置成功，并且，需要即时对规则进行配置，对规则的共享和重复利用存在困难；不能对网页内容进行高精度的提取；提取出的数据的格式、展示方式不满足第三方数据处理系统的需要；无法提取个性化数据的问题。

根据本发明的第一方面，提供一种基于规则配置库对网页内容执行结构化提取的方法，所述方法包括以下步骤：

步骤S101：建立规则库，所述规则库包括网络规则库及本地规则库；所述规则库中的规则包括解析网页内容所需的配置项；

步骤S102：获取待解析的网页内容，获取其对应的网站的url，查询所述规则库，若存在与网站的url对应的规则，则允许用户对所述对应的规则进行复用、修改和扩展；若不存在与网站的url对应的规则，由用户创建对应的规则；

步骤S103：获取待解析的网页，并根据该网页的url，以正则匹配的方式从所述规则库中查找对应的规则，输出规则的配置项；

步骤S104：基于所述输出规则的配置项，对所述待解析的网页进行解析；

步骤S105：将解析出的结果处理成个性化设置所需的格式。

进一步地，网络规则库通过镜像导入实现规则共享；本地规则库通过数据库存储并在局域网中共享。

进一步地，所述规则的配置项包括xpath返回值、css选择器、正则表达式、处理脚本的方式、json格式。

进一步地，xpath返回值包括节点、节点集合、文本、以及节点和文本的混合；JSON格式具有两种形式，分别是名称、值组成的数据对的集合，以及值的有序列表。

根据本发明第二方面，提供一种基于规则配置库对网页内容执行结构化提取的装置，所述装置包括：

规则库模块：配置为建立规则库，所述规则库包括网络规则库及本地规则库；所述规则库中的规则包括解析网页内容所需的配置项；

规则设置模块：配置为获取待解析的网页内容，获取其对应的网站的url，查询所述规则库，若存在与网站的url对应的规则，则允许用户对所述对应的规则进行复用、修改和扩展；若不存在与网站的url对应的规则，由用户创建对应的规则；

规则匹配模块：配置为获取待解析的网页，并根据该网页的url，以正则匹配的方式从所述规则库中查找对应的规则，输出规则的配置项；

解析模块：配置为基于所述输出规则的配置项，对所述待解析的网页进行解析；

格式转化模块：配置为将解析出的结果处理成个性化设置所需的格式。

根据本发明第三方面，提供一种基于规则配置库对网页内容执行结构化提取的系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的基于规则配置库对网页内容执行结构化提取的方法。

根据本发明第四方面，提供一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于规则配置库对网页内容执行结构化提取的方法。

根据本发明的上述方案，建立规则库，并基于查询确定规则，再利用具体的规则的配置项，对待解析的网页进行解析，并将解析出的结果处理成个性化设置所需的格式，能有效地解决对规则的共享和重复利用存在困难；不能对网页内容进行高精度的提取；提取出的数据的格式、展示方式不满足第三方数据处理系统的需要；无法提取个性化数据的问题。能够共享并复用规则，对网页内容进行高精度、细粒度的提取，提取个性化数据，提取出的数据能够满足第三方数据处理系统的需要。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明提供如下附图进行说明。在附图中：

图1为本发明一个实施方式的基于规则配置库对网页内容执行结构化提取的方法流程图；

图2为本发明一个实施方式的基于规则配置库对网页内容执行结构化提取的数据流向示意图；

图3为本发明又一个实施方式的基于规则配置库对网页内容执行结构化提取的实现过程示意图；

图4为本发明一个实施方式的基于规则配置库对网页内容执行结构化提取的装置结构框图。

具体实施方式

定义及解释：

网页提取：指对互联网网站页面，也即技术上表现形式为html的文档的内容进行提取，包括其中的文字、图片、声音、视频等。

数据结构化：把整体文本内容解构并重组为json、表格、xml等形式的数据格式的过程中，把原始的文本内容称作非结构化数据，重组后的结果可称作结构化数据。

解析规则：指把网页内容提取为结构化数据中所遵循的处理流程(比如xpath提取、正则匹配、编写脚本处理器等)，以及每个处理流程所使用的输入参数。

首先结合图1说明为本发明一个实施方式的基于规则配置库对网页内容执行结构化提取的方法流程图。如图1-2所示，所述方法包括以下步骤：

步骤S105：将解析出的结果处理成个性化设置所需的格式。

所述步骤S101：建立规则库，所述规则库包括网络规则库及本地规则库；所述规则库中的规则包括解析网页内容所需的配置项，其中：

网络规则库通过镜像导入实现规则共享；本地规则库通过数据库存储并在局域网中共享。

所述步骤S102：获取待解析的网页内容，获取其对应的网站的url，查询所述规则库，若存在与网站的url对应的规则，则允许用户对所述对应的规则进行复用、修改和扩展；若不存在与网站的url对应的规则，由用户创建对应的规则，其中：

针对不同的网页格式，创建对应的解析规则。一般来说，同一个网站下的网页内容，都有固定的格式。对所有需要解析的网站建立规则，向所有用户开放建立规则的权限。为防止不同用户对同一网站建立的规则的产生冲突，例如发生覆盖或不兼容，需要用户在创建规则之前，先根据需要解析的内容的url地址查询是否已存在对应的规则，若存在，可以使用直接复用或对存在的规则进行修改和扩展，达到规则库在系统内的共享的目的。

所述步骤S103：获取待解析的网页，并根据该网页的url，以正则匹配的方式从所述规则库中查找对应的规则，输出规则的配置项，其中：

所述规则的配置项包括xpath返回值、css选择器、正则表达式、处理脚本的方式、json格式。

xpath是一门在xml文档中查找信息的语言。xpath用于在XML文档中通过元素和属性进行导航。本实施例中，xpath返回值包括节点、节点集合、文本、以及节点和文本的混合。

正则表达式是对字符串操作的一种逻辑公式，字符串包括普通字符和特殊字符(例如元字符)，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的过滤逻辑。正则表达式是一种文本模式，该模式描述在网页中搜索文本时要匹配的一个或多个字符串。

json是一种轻量级的数据交换格式，本实施例中，JSON格式具有两种形式，分别是名称、值组成的数据对的集合，以及值的有序列表。

在不同的语言中，名称、值组成的数据对被理解为对象(object)，纪录(record)，结构(struct)，字典(dictionary)，哈希表(hash table)，有键列表(keyed list)，或者关联数组(associative array)。值的有序列表被理解为数组(array)。

所述步骤S105：将解析出的结果处理成个性化设置所需的格式，包括：跟据用户的个性化设置，将解析出的结果处理输出成需求的数据格式，特别是满足第三方数据处理系统的需要的数据格式。

本发明的又一个实施方式的基于规则配置库对网页内容执行结构化提取的方法，如图3所示。

该实施案例为基于规则库配置解析的网络数据采集系统，采集系统从网站采集网页数据，将数据输出到数据解析系统，接着上，从规则库获取规则，并使用规则提取文本内容，进而将提取到的数据格式化，并输出到数据库，再由其他系统从数据库读取结构化数据进行后续处理。

本发明实施例进一步给出一种基于规则配置库对网页内容执行结构化提取的装置，如图4所示，所述装置包括：

本发明实施例进一步给出一种基于规则配置库对网页内容执行结构化提取的系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的一种基于规则配置库对网页内容执行结构化提取的方法。

本发明实施例进一步给出一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于规则配置库对网页内容执行结构化提取的方法。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，实体机服务器，或者网络云服务器等，需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于规则配置库对网页内容执行结构化提取的方法，其特征在于，包括以下步骤：

步骤S105：将解析出的结果处理成个性化设置所需的格式。

2.如权利要求1所述的基于规则配置库对网页内容执行结构化提取的方法，其特征在于，网络规则库通过镜像导入实现规则共享；本地规则库通过数据库存储并在局域网中共享。

3.如权利要求1所述的基于规则配置库对网页内容执行结构化提取的方法，其特征在于，所述规则的配置项包括xpath返回值、css选择器、正则表达式、处理脚本的方式、json格式。

4.如权利要求3所述的基于规则配置库对网页内容执行结构化提取的方法，其特征在于，xpath返回值包括节点、节点集合、文本、以及节点和文本的混合；JSON格式具有两种形式，分别是名称、值组成的数据对的集合，以及值的有序列表。

5.一种基于规则配置库对网页内容执行结构化提取的装置，其特征在于，所述装置包括：

6.如权利要求5所述的基于规则配置库对网页内容执行结构化提取的装置，其特征在于，网络规则库通过镜像导入实现规则共享；本地规则库通过数据库存储并在局域网中共享。

7.如权利要求5所述的基于规则配置库对网页内容执行结构化提取的装置，其特征在于，所述规则的配置项包括xpath返回值、css选择器、正则表达式、处理脚本的方式、json格式。

8.如权利要求7所述的基于规则配置库对网页内容执行结构化提取的装置，其特征在于，xpath返回值包括节点、节点集合、文本、以及节点和文本的混合；JSON格式具有两种形式，分别是名称、值组成的数据对的集合，以及值的有序列表。

9.一种基于规则配置库对网页内容执行结构化提取的系统，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1-4之任一项所述的基于规则配置库对网页内容执行结构化提取的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1-4之任一项所述的基于规则配置库对网页内容执行结构化提取的方法。