CN109726196B

CN109726196B - 一种数据清洗方法、装置及设备

Info

Publication number: CN109726196B
Application number: CN201811423670.9A
Authority: CN
Inventors: 郭聪; 帅伟良
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-07-28
Anticipated expiration: 2038-11-27
Also published as: CN109726196A

Abstract

本发明实施例提供了一种数据清洗方法、装置及设备，该方法包括：确定待清洗数据对应的网页中已获得网页数据的第一目标网页；判断待清洗数据对应的网页中是否存在与第一目标网页存在依赖关系的第二目标网页；如果存在，判断是否已获得第二目标网页的网页数据；如果已获得，对第一目标网页的网页数据进行清洗；如果未获得，记录第一目标网页和第二目标网页之间的依赖关系，并在对第二目标网页的网页数据进行清洗时，根据依赖关系确定第一目标网页，并在已获得与第一目标网页存在依赖关系的所有网页的网页数据的情况下，对第一目标网页的网页数据进行清洗。应用本发明实施例提供方案清洗数据时，能够提高数据清洗的效率。

Description

一种数据清洗方法、装置及设备

技术领域

本发明涉及互联网技术领域，特别是涉及一种数据清洗方法、装置及设备。

背景技术

数据清洗是指去除重复、错误的数据从而得到有价值的数据。实际应用中，由于待清洗数据可能是由多个网页的网页数据构成的，因此，需要获得待清洗数据对应的各个网页的网页数据，然后对所获得的各个网页的网页数据进行清洗，以此来完成待清洗数据的清洗。

可见应用上述方式进行数据清洗时，是在获得待清洗数据对应的所有网页的网页数据之后，才开始进行数据清洗。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

由于获得待清洗数据对应的所有网页的网页数据之后，才能开始进行数据清洗，使得进行数据清洗的开始时间延后，因此，现有技术中从开始获取待清洗数据对应的各个网页的网页数据，到对所获得的各个网页的网页数据进行清洗结束耗时长，进而数据清洗效率低。

发明内容

本发明实施例的目的在于提供一种数据清洗方法、装置及设备，以提高数据清洗的效率。具体技术方案如下：

本发明实施的一方面，提供了一种数据清洗方法，所述方法包括：

确定待清洗数据对应的网页中已获得网页数据的网页，作为第一目标网页；

根据所述第一目标网页的网页数据，判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页；

在存在所述第二目标网页的情况下，判断是否已获得所述第二目标网页的网页数据；

如果已获得，对所述第一目标网页的网页数据进行清洗；

如果未获得，记录所述第一目标网页和所述第二目标网页之间的依赖关系，并在对所述第二目标网页的网页数据进行清洗时，根据所述依赖关系确定所述第一目标网页，并在已获得与所述第一目标网页存在依赖关系的所有网页的网页数据的情况下，对所述第一目标网页的网页数据进行清洗。

可选的，所述方法还包括：

在不存在所述第二目标网页的情况下，对所述第一目标网页的网页数据进行清洗。

可选的，所述根据所述第一目标网页的网页数据，判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页的步骤，包括：

判断所述第一目标网页的网页数据中是否存在网页标签；

如果存在，将所述网页标签对应的网页确定为所述第二目标网页。

可选的，所述记录所述第一目标网页和所述第二目标网页之间的依赖关系的步骤，包括：

获取所述第一目标网页的网页标签和所述第二目标网页的网页标签；

将所述第一目标网页的网页标签和所述第二目标网页的网页标签之间的对应关系确定为所述依赖关系；

将所述依赖关系存储到分布式数据库中。

可选的，所述网页标签为：统一资源定位符URL。

本发明实施的又一方面，还提供了一种数据清洗装置，所述装置包括：

第一确定模块，用于确定待清洗数据对应的网页中已获得网页数据的网页，作为第一目标网页；

第一判断模块，用于根据所述第一目标网页的网页数据，判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页，并在判断结果为是时触发第二判断模块；

第二判读模块，用于判断是否已获得所述第二目标网页的网页数据，并在判断结果为是时触发第一清洗模块，在判断结果为否时触发第二清洗模块；

第一清洗模块，用于对所述第一目标网页的网页数据进行清洗；

第二清洗模块，用于记录所述第一目标网页和所述第二目标网页之间的依赖关系，并在对所述第二目标网页的网页数据进行清洗时，根据所述依赖关系确定所述第一目标网页，并在已获得与所述第一目标网页存在依赖关系的所有网页的网页数据的情况下，对所述第一目标网页的网页数据进行清洗。

可选的，所述装置还包括：第三清洗模块，

所述第一判断模块，还用于在判断结果为否时触发所述第三清洗模块；

所述第三清洗模块，用于对所述第一目标网页的网页数据进行清洗。

可选的，所述第一判断模块，具体用于

判断所述第一目标网页的网页数据中是否存在网页标签；

可选的，所述第二清洗模块，包括：

获取子模块，用于获取所述第一目标网页的网页标签和所述第二目标网页的网页标签；

确定子模块，用于将所述第一目标网页的网页标签和所述第二目标网页的网页标签之间的对应关系确定为所述依赖关系；

存储子模块，用于将所述依赖关系存储到分布式数据库中。

可选的，所述网页标签为：统一资源定位符URL。

本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的数据清洗方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的数据清洗方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的数据清洗方法。

本发明实施例提供的一种数据清洗方法、装置及设备，可以在对待清洗数据进行清洗的过程中，对于待清洗数据对应的网页中已获得网页数据的第一目标网页，如果已经获得与第一目标网页存在依赖关系的第二目标网页的网页数据，则直接对第一目标网页的网页数据进行清洗；如果并未获得与第一目标网页存在依赖关系的第二目标网页的网页数据，则得到获得第二目标网页的网页数据之后，对第一目标网页的网页数据进行清洗。可见，应用本发明实施例提供的方案清洗数据时，在获取待清洗数据对应的所有网页的网页数据的过程中，同步对已获得的各个网页的网页数据进行数据清洗，因而，能够降低从开始获取待清洗数据对应的各个网页的网页数据，到对所获得的各个网页的网页数据进行清洗结束所需的时间，进而能够提高数据清洗的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种数据清洗方法的流程示意图；

图2为本发明实施例提供的一种待清洗数据对应的网页之间的依赖关系示意图；

图3为本发明实施例提供的一种数据清洗装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参见图1，示出了本发明实施例提供的一种数据清洗方法的流程示意图，该方法包括：

S100，确定待清洗数据对应的网页中已获得网页数据的网页，作为第一目标网页。

待清洗数据也就是需要进行数据清洗的数据，具体的，待清洗数据可以为网站对应的数据，而由于网站对应有多个网页，此时待清洗数据也就是网站对应的所有网页的网页数据；待清洗数据还可以为网站中部分网页的网页数据，比如，视频网站中通常包括：电影、电视剧、动漫等多个部分，那么待清洗数据则可以为电影部分对应的各个网页的网页数据。

S110，根据第一目标网页的网页数据，判断待清洗数据对应的网页中是否存在与第一目标网页存在依赖关系的第二目标网页，并在判断结果为是时执行S120。

依赖关系也可以称为两个网页之间的关联关系。一种实现方式中，依赖关系可以是单向的，也就是一个网页的网页数据依赖于另一个网页的网页数据，此时，与第一目标网页存在依赖关系的第二目标网页也就是第一目标网页依赖于第二目标网页。比如，第一目标网页为电影部分的父网页，父网页中显示有A、B、C三个电影的简介，相应地，第二目标网页则为A、B、C三个电影的具体内容对应的各个子网页，也就是父网页依赖于各个子网页，当用户在父网页中点击电影A的简介时，会跳转到电影A对应的子网页，用户可以在电影A对应的子网页中观看电影A。

一种实现方式中，可以通过判断第一目标网页的网页数据中是否存在网页标签的方式来判断待清洗数据对应的网页中是否存在与第一目标网页存在依赖关系的第二目标网页；如果第一目标网页的网页数据中存在网页标签，则说明待清洗数据对应的网页中存在第二目标网页，可以将网页标签对应的网页确定为第二目标网页，否则，说明待清洗数据对应的网页中不存在第二目标网页。

为了能够更早的对待清洗数据对应的各个网页的网页数据清洗完毕，一种实现方式中，在待清洗数据对应的网页中不存在与第一目标网页存在依赖关系的第二目标网页的情况下，可以直接对第一目标网页的网页数据进行清洗。

S120，判断是否已获得第二目标网页的网页数据，并在判断结果为是时执行S130，在判断结果为否时执行S140。

获得第二目标网页的网页数据也就是下载第二网页的网页数据，具体的，可以利用爬虫技术爬取第二网页的网页数据。

一种实现方式中，第二目标网页可以为一个网页，此时，只需要获得该一个网页的网页数据即可；第二目标网页也可以为多个网页，此时则要用获得所有网页的网页数据。

S130，对第一目标网页的网页数据进行清洗。

在已经获得第二目标网页的网页数据的情况下，可以直接对第一目标网页的网页数据进行清洗。

S140，记录第一目标网页和第二目标网页之间的依赖关系，并在对第二目标网页的网页数据进行清洗时，根据依赖关系确定第一目标网页，并在已获得与第一目标网页存在依赖关系的所有网页的网页数据的情况下，对第一目标网页的网页数据进行清洗。

一种实现方式中，在记录第一目标网页和第二目标网页之间的依赖关系的过程中，可以获取第一目标网页的网页标签和第二目标网页的网页标签；将第一目标网页的网页标签和第二目标网页的网页标签之间的对应关系确定为依赖关系；将依赖关系存储到分布式数据库中。其中，分布式数据库可以为：Hbase。比如，第一目标网页为网页a，第二目标网页为网页b，相应地，可以将URL(b)：URL(a)作为第一目标网页与第二目标网页之间的依赖关系存储到分布式数据库Hbase中。上述网页标签之间的对应关系可以为网页标签之间的单向指向关系，也可以为网页标签之间的双向指向关系。

一种实现方式中，第二目标网页可以为一个网页，此时，则只需要获得该一个网页的网页数据，并开始对该一个网页进行清洗时，即可根据依赖关系确定第一目标网页，并对第一目标网页的网页数据进行清洗；第二目标网页也可以为多个网页，此时则需要获得所有第二目标网页的网页数据，并开始对所有第二目标网页进行清洗时，根据依赖关系确定第一目标网页，并对第一目标网页的网页数据进行清洗。

一种实现方式中，上述S140中并在对第二目标网页的网页数据进行清洗时，可以分为以下两种情况：

情况一，并不存在与第二目标网页存依赖关系的子网页，此时，则可以在获得第二目标网页的网页数据后，开始对第二目标网页的网页数据进行清洗时，根据依赖关系确定第一目标网页，并在已获得与第一目标网页存在依赖关系的所有网页的网页数据的情况下，对第一目标网页的网页数据进行清洗。

情况二，存在与第二目标网页存依赖关系的子网页，此时，则需要在获得第二目标网页的网页数据后，等到与第二目标网页存依赖关系的子网页的网页数据获取完毕，并开始对与第二目标网页存依赖关系的子网页进行清洗时，开始对第二目标网页进行清洗，并根据依赖关系确定第一目标网页，并在已获得与第一目标网页存在依赖关系的所有网页的网页数据的情况下，对第一目标网页的网页数据进行清洗。

一种实现方式中，上述网页标签可以为：URL(Uniform Resource Locator，统一资源定位符)。

相应地，在对第二目标网页的网页数据进行清洗时可以根据分布式数据库中存储的依赖关系确定第一目标网页，并在已经获得与第一目标网页存在依赖关系的所有网页的网页数据的情况下，对第一目标网页的网页数据进行清洗。

以下以一具体实施例来对本发明实施例提供的数据清洗方法进行说明：

参见图2，为本发明实施例提供的一种待清洗数据对应的网页之间的依赖关系示意图，待清洗数据对应有网页A、B、C、D、E，在开始对各个网页的网页数据进行爬取，并对所爬取的网页中的网页数据进清洗的过程中，

已获得网页B、C的网页数据，对于网页C当判断与网页C不存在依赖关系的网页时，可以直接对网页C的网页数据进行清洗；

对于网页B，确定与网页B存在依赖关系的网页有网页D和网页E，如果网页D的网页数据和网页E的网页数据没有爬取完毕，则在Hbase中存储网页B、网页D和网页E之间的依赖关系，当爬取网页D的网页数据后开始对网页D的网页数据进行清洗时，根据Hbase中存储的依赖关系确定网页B，并在确定已经爬取网页E的网页数据之后，开始清洗网页B的网页数据。

对于网页A，当爬取到网页A的网页数据后，确定与网页A存在依赖关系的网页有网页B和网页C，而由于网页B的网页数据和网页C的网页数据已经爬取完毕，因此可以直接对网页A的网页数据进行清洗。基于此，完成对待清洗数据的数据清洗过程。相比于，现有技术中需要等到分别将网页A、B、C、D、E的网页数据爬取完毕后再进行数据清洗的方式，能够降低从开始获取待清洗数据对应的各个网页的网页数据，到对所获得的各个网页的网页数据进行清洗结束所需的时间。

本发明实施例提供的各个方案中，可以在对待清洗数据进行清洗的过程中，对于待清洗数据对应的网页中已获得网页数据的第一目标网页，如果已经获得与第一目标网页存在依赖关系的第二目标网页的网页数据，则直接对第一目标网页的网页数据进行清洗；如果并未获得与第一目标网页存在依赖关系的第二目标网页的网页数据，则得到获得第二目标网页的网页数据之后，对第一目标网页的网页数据进行清洗。由于在获取待清洗数据对应的所有网页的网页数据的过程中，同步对已获得的各个网页的网页数据进行数据清洗，因而，能够降低从开始获取待清洗数据对应的各个网页的网页数据，到对所获得的各个网页的网页数据进行清洗结束所需的时间，进而能够提高数据清洗的效率。

参见图3，示出了本发明实施例提供的一种数据清洗装置的结构示意图，该装置包括：

第一确定模块300，用于确定待清洗数据对应的网页中已获得网页数据的网页，作为第一目标网页；

第一判断模块310，用于根据所述第一目标网页的网页数据，判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页，并在判断结果为是时触发第二判断模块320；

第二判读模块320，用于判断是否已获得所述第二目标网页的网页数据，并在判断结果为是时触发第一清洗模块330，在判断结果为否时触发第二清洗模块340；

第一清洗模块330，用于对所述第一目标网页的网页数据进行清洗；

第二清洗模块340，用于记录所述第一目标网页和所述第二目标网页之间的依赖关系，并在对所述第二目标网页的网页数据进行清洗时，根据所述依赖关系确定所述第一目标网页，并在已获得与所述第一目标网页存在依赖关系的所有网页的网页数据的情况下，对所述第一目标网页的网页数据进行清洗。

本发明实施例一种实现方式中，所述装置还包括：第三清洗模块，

所述第一判断模块310，还用于在判断结果为否时触发所述第三清洗模块；

本发明实施例一种实现方式中，所述第一判断模块310，具体用于

判断所述第一目标网页的网页数据中是否存在网页标签；

本发明实施例一种实现方式中，所述第二清洗模块340，包括：

存储子模块，用于将所述依赖关系存储到分布式数据库中。

本发明实施例一种实现方式中，所述网页标签为：统一资源定位符URL。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器001、通信接口002、存储器003和通信总线004，其中，处理器001，通信接口002，存储器003通过通信总线004完成相互间的通信，

存储器003，用于存放计算机程序；

处理器001，用于执行存储器003上所存放的程序时，实现本发明实施例提供的数据清洗方法。

具体的，上述数据清洗方法，包括：

如果已获得，对所述第一目标网页的网页数据进行清洗；

需要说明的是，上述处理器001执行存储器003上所存放的程序实现数据清洗方法的其他实施例，与前述方法实施例部分提供的实施例相同，这里不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral PomponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(Non-Volatile Memory，简称NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，实现本发明实施例提供的数据清洗方法。

具体的，上述数据清洗方法，包括：

如果已获得，对所述第一目标网页的网页数据进行清洗；

需要说明的是，通过上述计算机可读存储介质实现数据清洗方法的其他实施例，与前述方法实施例部分提供的实施例相同，这里不再赘述。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，实现本发明实施例提供的数据清洗方法。

具体的，上述数据清洗方法，包括：

如果已获得，对所述第一目标网页的网页数据进行清洗；

需要说明的是，通过上述计算机程序产品实现数据清洗方法的其他实施例，与前述方法实施例部提供的实施例相同，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据清洗方法，其特征在于，所述方法包括：

如果已获得，对所述第一目标网页的网页数据进行清洗；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述第一目标网页的网页数据，判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页的步骤，包括：

判断所述第一目标网页的网页数据中是否存在网页标签；

4.如权利要求1所述的方法，其特征在于，所述记录所述第一目标网页和所述第二目标网页之间的依赖关系的步骤，包括：

将所述依赖关系存储到分布式数据库中。

5.如权利要求3或4所述的方法，其特征在于，所述网页标签为：统一资源定位符URL。

6.一种数据清洗装置，其特征在于，所述装置包括：

第二判断模块，用于判断是否已获得所述第二目标网页的网页数据，并在判断结果为是时触发第一清洗模块，在判断结果为否时触发第二清洗模块；

7.如权利要求6所述的装置，其特征在于，所述装置还包括：第三清洗模块，

8.如权利要求6所述的装置，其特征在于，所述第一判断模块，具体用于判断所述第一目标网页的网页数据中是否存在网页标签；

9.如权利要求6所述的装置，其特征在于，所述第二清洗模块，包括：

存储子模块，用于将所述依赖关系存储到分布式数据库中。

10.如权利要求8或9所述的装置，其特征在于，所述网页标签为：统一资源定位符URL。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。