CN116263792B

CN116263792B - 一种复杂互联网数据爬取的方法及系统

Info

Publication number: CN116263792B
Application number: CN202310429915.3A
Authority: CN
Inventors: 薛玲; 李仲正; 檀晓阳
Original assignee: Yunmu Future Technology Hunan Co ltd
Current assignee: Yunmu Future Technology Hunan Co ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-18
Anticipated expiration: 2043-04-21
Also published as: CN116263792A

Abstract

本发明公开了一种复杂互联网数据爬取的方法和系统，该方法包括：构建分块数据库以及分块信息索引；获取待存储的网页数据；根据所述网页数据的源代码的标签对所述网页数据进行分块以得到文字数据、图像数据；将分块后的网页数据进行特征处理后与所述分块信息索引进行对比。本发明通过构建分块数据库以及分块信息索引，使得在进行数据爬取时，能够在数据存储之前进行数据冗余处理，避免存储到较多的重复数据，影响数据库的操作效率。首先对爬取的数据进行分块，分块后通过建立分块数据库来储存爬取的数据，使得爬取的数据在存储时能够根据数据类型进行规整，避免了数据存储混乱的问题，并且不需要进行全文比对，从而能够提高冗余处理效率。

Description

一种复杂互联网数据爬取的方法及系统

技术领域

本发明涉及信息技术领域，尤其涉及一种复杂互联网数据爬取的方法及系统。

背景技术

在进行网络数据提取时，由于网络数据的来源途径多样，导致提取到的数据中存在大量重复数据，出于成本考虑，这些重复数据在存储时也只是进行简单的去重，例如仅仅根据哈希校验或者常规过滤器进行去重，这种去重方式只能过滤到内容完全重复的情况，如果进行过网页调整，则无法识别过滤，后续需要进行人工去重。

此外，对于大量的图像数据，一般也只是通过常规方式去重，这种处理方式效率低下，而如果不进行去重，则使得进行数据存储时，出现大量冗余数据，不仅增加了存储成本，也给后续使用带来不便。

发明内容

为了解决上述现有技术中存在的技术问题，本发明提供了一种复杂互联网数据爬取的方法及系统。

一种复杂互联网数据爬取的方法，该方法包括：

构建分块数据库以及分块信息索引，所述分块数据库包括用于储存文字数据的文字数据库和用于存储图像数据的图像数据库，所述分块信息索引为对文字数据、图像数据进行分块特征标注形成的特征信息，并且所述分块信息索引与分块数据库具有一一对应关系；

获取待存储的网页数据；

根据所述网页数据的源代码的标签对所述网页数据进行分块以得到文字数据、图像数据；将分块后的网页数据进行特征处理后与所述分块信息索引进行对比，若一致，则将所述分块后的网页数据链接至该对比一致的分块信息索引中，并生成对应的二级索引码；若不一致，则生成对应于该不一致的分块后的网页数据的分块信息索引以及一级索引码，并将所述分块后的网页数据存储于对应的分块数据库中。

在一个具体实施方式中，将所述网页数据进行特征处理后与所述分块信息索引进行对比包括：

当所述网页数据为文字数据时，提取文字数据的标签正文内容，计算文字数据的字符数，将所述标签正文内容开头的前预设个字符和结尾的后预设个字符合并后形成特征数据，将所述特征数据与分块信息索引中的特征信息进行对比；

当所述网页数据为图像数据时，记录图像数据的分辨率，并提取图像中目标区域中预设个像素点的灰度值形成特征数据，将所述特征数据与分块信息索引中的特征信息进行对比。

在一个具体实施方式中，提取图像中目标区域中预设个像素点的灰度值，包括：获取图像分辨率，根据图像分辨率确定目标区域；所述目标区域为第一顶点、第二顶点、第三顶点、第四顶端围成的区域，其中，第一顶点为(M/2-i，N/2-j)，第二顶点为(M/2+i+1，N/2-j)，第三顶点为(M/2+i+1，N/2+j+1)，第四顶点为(M/2-i，N/2+j+1)，其中，M为像素点列数，N为像素点行数，i、j∈[5，10]，且i和j均为整数。

在一个具体实施方式中，前预设个字符和后预设个字符均为10-20个字符。

在一个具体实施方式中，构建网页信息数据库，所述网页数据库用于存储网页数据的数据来源、索引码和网页数据重复字段。

在一个具体实施方式中，构建所述网页信息数据库包括：

获取待存储的网页数据的来源；

根据所述网页数据从分块数据库读取该网页数据对应的索引码；

依次判断文字数据、图像数据和视频数据对应的索引码类型，当所述索引码为一级索引码时，网页数据重复字段对应位置1；当所述索引码为二级索引码时，网页数据重复字段对应位置0，当索引码不存在时，网页数据重复字段对应位置空；

根据所述网页数据的来源、索引码和网页数据重复字段构建网页信息数据库。

本发明同时提供一种复杂互联网数据爬取的系统，包括：

分块数据库构建模块，用于构建分块数据库以及分块信息索引，所述分块数据库包括用于储存文字数据的文字数据库和用于存储图像数据的图像数据库，所述分块信息索引为对文字数据、图像数据进行分块特征标注形成的特征信息，并且所述分块信息索引与分块数据库具有一一对应关系；

网页数据获取模块，用于获取待存储的网页数据；

分块模块，用于根据所述网页数据的源代码的标签对所述网页数据进行分块以得到文字数据、图像数据；

数据处理模块，用于将分块后的网页数据进行特征处理后与所述分块信息索引进行对比，若一致，则将所述分块后的网页数据链接至该对比一致的分块信息索引中，并生成对应的二级索引码；若不一致，则生成对应于该不一致的分块后的网页数据的分块信息索引以及一级索引码，并将所述分块后的网页数据存储于对应的分块数据库中。

在一个具体实施方式中，数据处理模块具体还包括：

文字数据处理单元，用于当所述网页数据为文字数据时，提取文字数据的标签正文内容，计算文字数据的字符数，将所述标签正文内容开头的前预设个字符和结尾的后预设个字符合并后形成特征数据，将所述特征数据与分块信息索引中的特征信息进行对比；

图像数据处理单元，用于当所述网页数据为图像数据时，记录图像数据的分辨率，并提取图像中目标区域中预设个像素点的灰度值形成特征数据，将所述特征数据与分块信息索引中的特征信息进行对比。

在一个具体实施方式中，图像数据处理单元提取图像中目标区域中预设个像素点的灰度值的过程具体为：

获取图像分辨率，根据图像分辨率确定目标区域；所述目标区域为第一顶点、第二顶点、第三顶点、第四顶端围成的区域，其中，第一顶点为(M/2-i，N/2-j)，第二顶点为(M/2+i+1，N/2-j)，第三顶点为(M/2+i+1，N/2+j+1)，第四顶点为(M/2-i，N/2+j+1)，其中，M为像素点列数，N为像素点行数，i、j∈[5，10]，且i和j均为整数。

本发明同时提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述方法的步骤。

本发明提供的技术方案，具有如下有益效果：

本发明提供的一种复杂互联网数据爬取的方法，通过构建分块数据库以及分块信息索引，使得在进行数据爬取时，能够在数据存储之前进行数据冗余处理，避免存储到较多的重复数据，影响数据库的操作效率。首先对爬取的数据进行分块，分块后通过建立分块数据库来储存爬取的数据，使得爬取的数据在存储时能够根据数据类型进行规整，避免了数据存储混乱的问题，此外，对应于每个分块数据，其均有对应的分块信息索引，本发明通过该分块数据索引来判断数据是否重复，而不需要进行全文比对，从而能够提高冗余处理效率。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种复杂互联网数据爬取的方法流程示意图；

图2是本发明实施例提供的目标区域确定方法；

图3是本发明实施例提供的一种复杂互联网数据爬取的系统模块框图；

图4本发明实施例提供的一种电子设备示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请参见图1，图1是本发明实施例提供的一种复杂互联网数据爬取的方法流程示意图，该方法包括：

S1、构建分块数据库以及分块信息索引，所述分块数据库包括用于储存文字数据的文字数据库和用于存储图像数据的图像数据库，所述分块信息索引为对文字数据、图像数据进行分块特征标注形成的特征信息，并且所述分块信息索引与分块数据库具有一一对应关系；

具体的，文字数据库中的最小单元为网页中的正文文字整体，例如，在某个网页中，包括多段文字，不同段落之间还包括有图片等，本申请在进行处理时需要对文字进行整体调整，因此需要先过滤掉非文字的网页噪声信息，一般的，网页噪声都集中在<table>节点中，因此需要对<table>节点中的信息删除，以及删除<style>、<textarea>、<object>等标签；将<p>、<br>、<tr>标签更换为换行符，删除空白标签。图像数据库则分别存储每张图片。

对应的，分块信息索引根据文字数据库和图像数据库的特征分别建立索引，以便后续进行查重和索引。分块信息索引包括索引号、特征信息。如果是文字数据，则索引号与文字数据库中对应的文字进行关联，特征信息包括文字数据库中对应文字数据的前预设个字符和后预设个字符以及总字符数。如果是图像数据，则索引号与图像数据库中对应的图片进行关联，特征信息包括图像中目标区域中预设个像素点的灰度值和图像的分辨率。

S2、获取待存储的网页数据；待存储的网页数据即通过数据爬取的方式得到的未处理的原始数据；以对原始数据进行处理后存储。

S3、根据所述网页数据的源代码的标签对所述网页数据进行分块以得到文字数据、图像数据；

S4、将分块后的网页数据进行特征处理后与所述分块信息索引进行对比，若一致，则将所述分块后的网页数据链接至该对比一致的分块信息索引中，并生成对应的二级索引码；若不一致，则生成对应于该不一致的分块后的网页数据的分块信息索引以及一级索引码，并将所述分块后的网页数据存储于对应的分块数据库中。

在该过程中，二级索引码表示该文字数据或图像数据的内容已经被存储在数据库中，此时不需要再次存储该文字数据或图像数据到数据库中，直接通过二级索引码指向对应的数据库即可。而如果该文字数据或图像数据的内容为新内容，则将该新内容存储在数据库中，并且设置为一级索引码，表示该数据为首次出现的数据，因此，二级索引码和一级索引码还用于区分对应数据是否是重复数据，以便作为后续处理时的参考。

需要说明的是，这里提到的文字数据的标签正文内容即为过滤掉标签以及非文字噪声的正文文字整体，在进行处理时，需要与对应分块信息索引的格式一致，以便于后续进行比对。本实施例中，前预设个字符和后预设个字符一般为20-20个。

在一个具体实施方式中，提取图像中目标区域中预设个像素点的灰度值，包括：

具体的，以图2为例进行说明，假设图像的分辨率为10×8，即M＝10，N＝8，为了方便说明，该示例中i、j的取值不受上述范围限制，选取A、B、C、D四个顶点围成的正方形区域为目标区域，此时i＝1，j＝2对应的，顶点A的坐标为(10/2-1,8/2-2)，顶点B的坐标为(10/2+1+1,8/2-2)，顶点C的坐标为(10/2+1+1,8/2+2+1)，顶点C的坐标为(10/2-1,8/2+2+1)。

本实施例中的像素点包括RGB三通道的子像素。因此，该灰度值为RGB三通道的子像素灰阶值的平均值。

在一个具体实施方式中，构建所述网页信息数据库包括：

获取待存储的网页数据的来源；

请参见图3，本发明同时提供一种复杂互联网数据爬取的系统，包括：

分块数据库构建模块1，用于构建分块数据库以及分块信息索引，所述分块数据库包括用于储存文字数据的文字数据库和用于存储图像数据的图像数据库，所述分块信息索引为对文字数据、图像数据进行分块特征标注形成的特征信息，并且所述分块信息索引与分块数据库具有一一对应关系；

网页数据获取模块2，用于获取待存储的网页数据；

分块模块3，用于根据所述网页数据的源代码的标签对所述网页数据进行分块以得到文字数据、图像数据；

数据处理模块4，用于将分块后的网页数据进行特征处理后与所述分块信息索引进行对比，若一致，则将所述分块后的网页数据链接至该对比一致的分块信息索引中，并生成对应的二级索引码；若不一致，则生成对应于该不一致的分块后的网页数据的分块信息索引以及一级索引码，并将所述分块后的网页数据存储于对应的分块数据库中。

在一个具体实施方式中，数据处理模块具体还包括：

本发明实施例还提供了一种电子设备，如图4所示，包括处理器41、通信接口42、存储器43和通信总线44，其中，处理器41，通信接口42，存储器43通过通信总线44完成相互间的通信，

存储器43，用于存放计算机程序；

处理器41，用于执行存储器43上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的方法可以应用于电子设备。具体的，该电子设备可以为：台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定，任何可以实现本发明的电子设备，均属于本发明的保护范围。

对于装置/电子设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

该终端设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

本领域技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式，这里将它们都统称为“模块”或“系统”。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中，与其它硬件一起提供或作为硬件的一部分，也可以采用其他分布形式，如通过Internet或其它有线或无线电信系统。

本申请是参照本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种复杂互联网数据爬取的方法，其特征在于，该方法包括：

获取待存储的网页数据；

根据所述网页数据的源代码的标签对所述网页数据进行分块以得到文字数据、图像数据；

将分块后的网页数据进行特征处理后与所述分块信息索引进行对比，若一致，则将所述分块后的网页数据链接至该对比一致的分块信息索引中，并生成对应的二级索引码；若不一致，则生成对应于该不一致的分块后的网页数据的分块信息索引以及一级索引码，并将所述分块后的网页数据存储于对应的分块数据库中。

2.根据权利要求1所述的复杂互联网数据爬取的方法，其特征在于，将所述网页数据进行特征处理后与所述分块信息索引进行对比包括：

3.根据权利要求2所述的复杂互联网数据爬取的方法，其特征在于，提取图像中目标区域中预设个像素点的灰度值，包括：

4.根据权利要求2所述的复杂互联网数据爬取的方法，其特征在于，前预设个字符和后预设个字符均为10-20个字符。

5.根据权利要求1所述的复杂互联网数据爬取的方法，其特征在于，构建网页信息数据库，所述网页数据库用于存储网页数据的数据来源、索引码和网页数据重复字段。

6.根据权利要求5所述的复杂互联网数据爬取的方法，其特征在于，构建所述网页信息数据库包括：

获取待存储的网页数据的来源；

7.一种复杂互联网数据爬取的系统，其特征在于，包括：

网页数据获取模块，用于获取待存储的网页数据；

8.根据权利要求7所述的复杂互联网数据爬取的系统，其特征在于，数据处理模块具体还包括：

9.根据权利要求8所述的复杂互联网数据爬取的系统，其特征在于，图像数据处理单元提取图像中目标区域中预设个像素点的灰度值的过程具体为：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1-6任一项所述方法的步骤。