CN106294429A

CN106294429A - 重复数据识别方法和装置

Info

Publication number: CN106294429A
Application number: CN201510276123.2A
Authority: CN
Inventors: 王丰金
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2017-01-04
Also published as: WO2016188283A1

Abstract

本申请提出一种重复数据识别方法和装置，该重复数据识别方法包括获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的；将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值；根据所述数据相似度数值，识别重复数据。该方法能够实现重复数据的自动识别。

Description

重复数据识别方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种重复数据识别方法和装置。

背景技术

在大数据时代，企业内部越来越多的业务需要使用大数据技术来分析业务、支撑业务，但是不同的业务团队在分析业务的过程中有很多相似的业务逻辑，加上各个业务团队之间沟通不及时，导致大规模离线数据处理平台上有很多相似数据，并且随着业务的发展，这种相似数据会越来越多，这不但浪费了大规模离线数据处理平台的存储资源，而且也浪费了大规模离线数据处理平台的计算资源。

现有技术中，一般都是开发人员在看到别的业务团队的相似数据后，才发现有重复数据。或者正好有开发人员对两边的业务都比较熟悉，所以了解业务两边的重复数据，平台层面并没有一个很好的方法来解决这个问题。

但是，这种方式存在如下问题：需要人工去熟悉所有的数据，才能完全识别出大规模数据处理平台上的重复数据；当大规模数据处理平台上的数据增长到一定级别以后，人工识别已经不可能。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种重复数据识别方法，该方法可以实现重复数据的自动识别。

本申请的另一个目的在于提出一种重复数据识别装置。

为达到上述目的，本申请第一方面实施例提出的重复数据识别方法，包括：获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的；将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值；根据所述数据相似度数值，识别重复数据。

本申请第一方面实施例提出的重复数据识别方法，通过采用相似度模型对待识别的两组数据进行重复数据识别，可以在需要识别重复数据时，有一个统一的标准，不需要人为识别，实现重复数据的自动识别。

为达到上述目的，本申请第二方面实施例提出的重复数据识别装置，包括：获取模块，用于获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的；计算模块，用于将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值；识别模块，用于根据所述数据相似度数值，识别重复数据。

本申请第二方面实施例提出的重复数据识别装置，通过采用相似度模型对待识别的两组数据进行重复数据识别，可以在需要识别重复数据时，有一个统一的标准，不需要人为识别，实现重复数据的自动识别。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一实施例提出的重复数据识别方法的流程示意图；

图2是本申请另一实施例提出的重复数据识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一实施例提出的重复数据识别方法的流程示意图，该方法包括：

S11：获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的。

其中，待识别的两组数据可以分别记录在两张表内，相应的，特性相似度数值是对两个表的特征进行相似度计算得到的。

可选的，所述待识别的两组数据分别记录在两张表内，所述相似度特征数值包括如下项中的至少一项：

表血缘方面的相似度数值，表语义方面的相似度数值，表内容方面的相似度数值。

可选的，所述表血缘方面的相似度数值包括如下项中的至少一项：表血缘相似度数值，字段血缘相似度数值；或者，

所述表语义方面的相似度数值包括如下项中的至少一项：表结构(schema)相似度数值，表名相似度数值；或者，

所述表内容方面的相似度数值包括如下项中的至少一项：表记录数相似度数值，表分区大小相似度数值。

其中，不同情况下需要的相似度特征数值可以是不同的。可以根据当前情况获取相应的上述的六种相似度特征数值中的至少一项。

在当前情况下，可以确定当前需要的相似度特征数值，之后可以在线计算需要的相似度特征数值，或者，从已经计算得到的上述六种相似度特征数值中获取当前需要的相似度特征数值。

可选的，所述获取当前情况下需要的相似度特征数值，包括：

如果当前情况是进行上下游表比较，则获取如下的相似度特征数值：表结构相似度数值，表名相似度数值，表记录数相似度数值，以及，表分区大小相似度数值；或者，

如果当前情况是进行相似表比较，则获取如下的相似度特征数值：表血缘相似度数值，字段血缘相似度数值，表结构相似度数值，表名相似度数值，表记录数相似度数值，以及，表分区大小相似度数值；或者，

如果当前情况是进行表来源相似比较，则获取如下的相似度特征数值：

表血缘相似度数值，字段血缘相似度数值，表结构相似度数值，以及，表名相似度数值。

上述的六种相似度特征数值的计算公式可以分别表示为：

(1)表血缘的相似度数值S1：使用余弦相似性来计算两张表的相似性。

具体如下：表A的父血缘是(a,b)、表B的父血缘是(b,c)，取两个并集并排序得出表A和表B的余弦相似向量C＝(a,b,c)，对比相似性向量可以得出表A的相似性向量A1＝(1,1,0),表B的相似性向量B1＝(0,1,1)，表A表B的表血缘相似度数值的计算公式为：S1＝A1*B1。

(2)字段血缘相似度数值S2：同样使用余弦相似性来计算。不过首先要获得表A表B的字段血缘，然后使用表血缘类似的方法计算表A和表B的相似性向量A1、B1，进而计算字段血缘相似度数值，计算公式为：S2＝A1*B1。

(3)表schema相似度数值S3：schema的相似性同样使用余弦相似性来计算，不过这里注意分区列不参与计算，同样的方法得到两张表的相似性向量A1、B1，进而计算表schema相似度数值，计算公式为：S3＝A1*B1。

(4)表名相似度数值S4：需要先将表名按照下划线拆开，然后去除无用词，主要是纯数字无特殊意义的词，两张表根据剩下的词计算相似性向量A1、B1，进而计算表名相似度数值，计算公式为：S4＝A1*B1。

(5)表记录数相似度数值S5：通过计算两张表分区记录数的波动性来衡量两张表记录数的相似性，计算公式为：

S 5 = - \frac{\log 10 (\frac{Σ (x - \overset{&OverBar;}{x}) (y - \overset{&OverBar;}{y})}{n})}{6},

其中，

x表示表A的一个分区的记录数，表示A参与计算的分区记录数的平均数，y表示表B的一个分区的记录数，表示表B参与计算的分区记录数的平均数，n是统计的分区的个数，n取值范围是(7,60)，越大越精确。

(6)表分区大小相似度数值S6：使用分区大小的波动相似性衡量两张表分区大小的相似性，计算公式同(5)，不过这里计算时注意统一单位。

S12：将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值。

可选的，所述将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值，包括：

如果当前情况是进行上下游表比较，则采用如下计算公式计算所述数据相似度数值：

S＝(0.8*S3+0.2*S4)*0.4+(0.7*S5+0.3*S6)*0.4；或者，

如果当前情况是进行相似表比较，则采用如下计算公式计算所述数据相似度数值：

S＝(0.4*S1+0.6*S2)*0.4+(0.8*S3+0.2*S4)*0.1+(0.7*S5+0.3*S6)*0.5；或者，

如果当前情况是进行表来源相似比较，则采用如下计算公式计算所述数据相似度数值：

S＝(0.4*S1+0.6*S2)*0.65+(0.8*S3+0.2*S4)*0.35；

其中，S是数据相似度数值，S1是表血缘相似度数值，S2是字段血缘相似度数值，S3是表结构相似度数值，S4是表名相似度数值，S5是表记录数相似度数值，S6是表分区大小相似度数值。

具体的，上下游表相似时，这里的上下游指的是离线数据加工层级，首先根据表血缘梳理出上下游表，然后使用表schema的相似度数值S3、表名相似度数值S4、表记录数相似度数值S5、表分区大小相似度数值S6构建此类表的相似度模型，计算公式如下：

S＝(0.8*S3+0.2*S4)*0.4+(0.7*S5+0.3*S6)*0.4。

计算相似的表时，使用上述六个特征构建此类表的相似度模型，计算公式如下：

S＝(0.4*S1+0.6*S2)*0.4+(0.8*S3+0.2*S4)*0.1+(0.7*S5+0.3*S6)*0.5。

来源相似的表指的是流入离线数据处理平台的源头表，使用上面前四种特征构建相似度模型，计算公式如下：

S＝(0.4*S1+0.6*S2)*0.65+(0.8*S3+0.2*S4)*0.35。

S13：根据所述数据相似度数值，识别重复数据。

其中，这里的识别重复数据不限于识别出两组完全一致的数据，而是指识别出两组数据的相似程度。

可选的，所述根据所述数据相似度数值，识别重复数据，包括：

根据所述数据相似度数值，确定所述数据相似度数值属于的预设的数值阈值；

根据预设的数值阈值与相似程度的对应关系，确定所述数据相似度数值属于的数值阈值对应的相似程度，得到所述待识别的两组数据的相似程度。

具体的，上述三种场景的数据相似度数值S的取值范围均为[0,1]，取值越大相似性越大。例如，0.9以上表示两张表数据重复，0.7～0.9之间表示两张表数据重复性比较大，小于0.7表示两张表重复性比较低。

本实施例的方法可以应用到Hadoop集群，或者odps集群等。

本实施例中，通过采用相似度模型对待识别的两组数据进行重复数据识别，可以在需要识别重复数据时，有一个统一的标准，不需要人为识别，实现重复数据的自动识别。本实施例通过选择上述各种具体的相似度特征数值，以及根据不同情况采用不同的相似度特征数值进行识别，可以非常适用于大规模的重复数据识别。

图2是本申请另一实施例提出的重复数据识别装置的结构示意图，该装置20包括：获取模块21，计算模块22和识别模块23。

获取模块21，用于获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的；

可选的，所述获取模块21具体用于：

上述的六种相似度特征数值的计算公式可以分别表示为：

(2)表血缘的相似度数值S1：使用余弦相似性来计算两张表的相似性。

S 5 = - \frac{\log 10 (\frac{Σ (x - \overset{&OverBar;}{x}) (y - \overset{&OverBar;}{y})}{n})}{6},

其中，

计算模块22，用于将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值；

可选的，所述计算模块22具体用于：

S＝(0.8*S3+0.2*S4)*0.4+(0.7*S5+0.3*S6)*0.4；或者，

S＝(0.4*S1+0.6*S2)*0.4+(0.8*S3+0.2*S4)*0.1+(0.7*S5+0.3*S6)*0.5；或者，

S＝(0.4*S1+0.6*S2)*0.65+(0.8*S3+0.2*S4)*0.35；

S＝(0.8*S3+0.2*S4)*0.4+(0.7*S5+0.3*S6)*0.4。

S＝(0.4*S1+0.6*S2)*0.4+(0.8*S3+0.2*S4)*0.1+(0.7*S5+0.3*S6)*0.5。

S＝(0.4*S1+0.6*S2)*0.65+(0.8*S3+0.2*S4)*0.35。

识别模块23，用于根据所述数据相似度数值，识别重复数据。

可选的，所述识别模块23具体用于：

本实施例的方法可以应用到Hadoop集群，或者odps集群等。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种重复数据识别方法，其特征在于，包括：

获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的；

将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值；

根据所述数据相似度数值，识别重复数据。

2.根据权利要求1所述的方法，其特征在于，所述待识别的两组数据分别记录在两张表内，所述相似度特征数值包括如下项中的至少一项：

3.根据权利要求2所述的方法，其特征在于，

所述表血缘方面的相似度数值包括如下项中的至少一项：表血缘相似度数值，字段血缘相似度数值；或者，

所述表语义方面的相似度数值包括如下项中的至少一项：表结构相似度数值，表名相似度数值；或者，

4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取当前情况下需要的相似度特征数值，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值，包括：

S＝(0.8*S3+0.2*S4)*0.4+(0.7*S5+0.3*S6)*0.4；或者，

S＝(0.4*S1+0.6*S2)*0.4+(0.8*S3+0.2*S4)*0.1+(0.7*S5+0.3*S6)*0.5；或者，

S＝(0.4*S1+0.6*S2)*0.65+(0.8*S3+0.2*S4)*0.35；

6.根据权利要求1或5所述的方法，其特征在于，所述根据所述数据相似度数值，识别重复数据，包括：

7.一种重复数据识别装置，其特征在于，包括：

获取模块，用于获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的；

计算模块，用于将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值；

识别模块，用于根据所述数据相似度数值，识别重复数据。

8.根据权利要求7所述的装置，其特征在于，所述获取模块具体用于：

9.根据权利要求8所述的装置，其特征在于，所述计算模块具体用于：

S＝(0.8*S3+0.2*S4)*0.4+(0.7*S5+0.3*S6)*0.4；或者，

S＝(0.4*S1+0.6*S2)*0.4+(0.8*S3+0.2*S4)*0.1+(0.7*S5+0.3*S6)*0.5；或者，

S＝(0.4*S1+0.6*S2)*0.65+(0.8*S3+0.2*S4)*0.35；

10.根据权利要求7-9任一项所述的装置，其特征在于，所述识别模块具体用于：