CN112817957B

CN112817957B - 一种数据一致性的智能检查方法及装置

Info

Publication number: CN112817957B
Application number: CN202110167316.XA
Authority: CN
Inventors: 林涛; 李晁铭; 黄伟如; 金成伟; 郑建飞; 赵仕嘉; 张宇
Original assignee: Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Current assignee: Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2024-04-30
Anticipated expiration: 2041-02-07
Also published as: CN112817957A

Abstract

本发明公开了一种数据一致性的智能检查方法及装置，该方法包括：从包括若干数据集的全量数据集中提取非一致数据集集合；对于非一致数据集集合中的每个非一致数据集组，均执行以下操作：从非一致数据集组的第一数据集的字段及非一致数据集组的第二数据集的字段中确定所有关联字段组；构建用于表示所有关联字段组中字段之间的关联关系的二分图；根据二分图从所有关联字段组中确定满足预设条件的所有关联字段组组合；计算每个关联字段组组合的一致度；根据所有关联字段组组合的一致度，筛选第一数据集与第二数据集之间的非一致信息。可见，实施本发明能够快速分析出数据之间的关联关系，进而快速提取两个数据集之间的非一致性信息。

Description

一种数据一致性的智能检查方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种数据一致性的智能检查方法及装置。

背景技术

当前，企业在运营发展过程中均会产生一系列的数据，这些数据可以称之为“数据资产”。数据资产的一致性、准确性是数据资产建设过程中数据质量的关键指标之一。然而，由于数据没有统一规划、各领域业务数据模型定义出现重复，导致了数据资产在实体模型、属性定义维度不唯一、不一致的情况时有发生，严重影响数据资产在服务业务应用中的使用价值。

在数据处理过程中，数据资产一致性检查工作是数据资产建设中的重要过程，同时也是一项非常复杂的工作。现有技术通常通过表名、字段名、er图等设计辅助资料对数据资产的一致性进行检查，工作量巨大且效率低下。同时还需要数据处理人员在对数据集理解的基础上，对数据集进行人工检查分析，工作质量受限于数据处理人员的专业业务能力，准确性低且效率低下。随着数据资产中数据规模的增长以及复杂度的提高，现有技术已经不能满足数据一致性检查的需求。

可见，如何快速、准确地实现对数据一致性的智能检查显得尤为重要。

发明内容

本发明所要解决的技术问题在于，提供一种数据一致性的智能检查方法及装置，能够快速判断两个数据集之间的一致性，快速分析出数据之间的关联关系，有利于对复杂度较高、规模较大的数据资产进行快速排查，提高数据资产建设过程中的数据质量。

为了解决上述技术问题，本发明第一方面公开了一种数据一致性的智能检查方法，所述方法包括：

从包括若干数据集的全量数据集中提取非一致数据集集合，所述非一致数据集集合包括至少一个非一致数据集组，每个所述非一致数据集组包括第一数据集和第二数据集，所述第一数据集和所述第二数据集均包括若干字段以及与每个字段对应的若干数据；

对于每个所述非一致数据集组，均执行以下操作：

从所述第一数据集的字段及所述第二数据集的字段中确定所有关联字段组，所述关联字段组包括存在关联关系的第一字段和第二字段，所述第一字段和所述第二字段分别为所述第一数据集及所述第二数据集的其中一个字段；

构建用于表示所有所述关联字段组中字段之间的关联关系的二分图；

根据所述二分图从所有所述关联字段组中确定满足预设条件的所有关联字段组组合，每个所述关联字段组组合包括至少一个关联字段组；

计算每个所述关联字段组组合的一致度；

根据所有所述关联字段组组合的一致度，筛选所述第一数据集与所述第二数据集之间的非一致信息。

作为一种可选的实施方式，在本发明第一方面中，所述从所述第一数据集的字段及所述第二数据集的字段中确定所有关联字段组，包括：

从所述第一数据集包括的未被选择过的字段中选择某一字段，从所述第二数据集包括的所有字段中筛选与所述某一字段的字段类型相同的所有第一类字段，根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段；

当判断结果为是时，将所述某一字段与每个所述目标字段分别确定为关联字段组，并触发执行所述的从所述第一数据集包括的未被选择过的字段中选择某一字段，从所述第二数据集包括的所有字段中筛选与所述某一字段的字段类型相同的所有第一类字段，根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段，直至所述第一数据集中不存在未被选择过的字段；

当判断结果为否时，重新触发执行所述的从所述第一数据集包括的未被选择过的字段中选择某一字段，从所述第二数据集包括的所有字段中筛选与所述某一字段的字段类型相同的所有第一类字段，根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段，直至所述第一数据集中不存在未被选择过的字段。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述二分图从所有所述关联字段组中确定满足预设条件的所有关联字段组组合，包括：

根据最大匹配算法确定所述二分图的最大匹配值，作为最大非一致字段数；

以间隔字段数为步长，从由初始字段数与所述最大非一致字段数组成的数据范围内确定出非一致字段数集合，所述非一致字段数集合包括至少一个非一致字段数且所述非一致字段数集合包括所述初始字段数，当所述非一致字段数集合包括至少两个非一致字段数时，相邻两个所述非一致字段数之间的差值等于所述间隔字段数；

对于每个所述非一致字段数，根据所述二分图从所有所述关联字段组中确定满足该非一致字段数对应的预设条件的至少一个关联字段组组合，得到该非一致字段数对应的所有关联关系组合；

其中，所述关联字段组组合包括的各个所述关联字段组之间不存在重叠字段，且所述关联字段组合包括的关联字段组的数量等于该关联字段组合对应的非一致字段数。

作为一种可选的实施方式，在本发明第一方面中，所述计算每个所述关联字段组组合的一致度，包括：

根据每个所述关联字段组组合中每个所述关联字段组的邻接矩阵，计算每个所述关联字段组组合的组合邻接矩阵；

确定每个所述关联字段组组合的组合邻接矩阵对应的目标元素，每个所述关联字段组组合的组合邻接矩阵对应的目标元素的元素值等于该关联字段组组合对应的非一致字段数；

根据每个所述关联字段组组合的组合邻接矩阵对应的目标元素，确定每个所述关联字段组组合的组合邻接矩阵的所有行及所有列中存在该关联字段组组合的组合邻接矩阵对应的目标元素的总行数及总列数；

根据确定出的一致度计算公式，计算每个关联字段组组合的一致度；

其中，所述一致度计算公式为：

其中，r_overlap为某一所述关联字段组组合的一致度，w为该关联字段组组合对应的非一致字段数，n和m分别为该关联字段组组合的组合邻接矩阵的所有行及所有列中存在该所述关联字段组组合的组合邻接矩阵对应的目标元素的总行数及总列数。

作为一种可选的实施方式，在本发明第一方面中，所述计算每个所述关联字段组组合的一致度之前，所述方法还包括：

设定每个所述关联字段组的矩阵，其中，每个所述关联字段组的矩阵为全零矩阵且行数和列数分别为该关联字段组中第一字段的数据数目和第二字段的数据数目；

对于每个所述关联字段组，比较该关联字段组中第一字段的第p个数据和该关联字段组中第二字段的第q个数据是否相同，若相同，则将该关联字段组的矩阵中第p行且第q列的元素的值设定为预设元素值，得到该关联字段组的邻接矩阵。

作为一种可选的实施方式，在本发明第一方面中，所述根据所有所述关联字段组组合的一致度，筛选所述第一数据集与所述第二数据集之间的非一致信息，包括：

确定所有所述关联字段组组合中一致度最小的关联关系组合，作为目标关联关系组合；

筛选所述目标关联关系组合的所有所述关联字段组和/或所有所述关联字段组的第一字段及第二字段中的关联数据，作为所述第一数据集与所述第二数据集之间的非一致信息。

作为一种可选的实施方式，在本发明第一方面中，所述根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段，包括：

当确定出所述某一字段的字段类型为数值类型时，对于从所述第二数据集包括的所有字段中与所述某一字段的字段类型相同的每个所述第一类字段，根据所述某一字段中数据的最佳类簇数目以及该第一类字段中数据的最佳类簇数目确定平均类簇数目，根据所述平均类簇数目分别对所述某一字段中数据和该第一类字段中数据执行聚类操作，得到所述某一字段的聚类结果以及该第一类字段的聚类结果；分别对所述某一字段的聚类结果中的类簇和该第一类字段的聚类结果中的类簇按照类簇中心值大小进行同序排序，得到所述某一字段的聚类排序结果和该第一类字段的聚类排序结果；

确定所述某一字段的聚类排序结果和该第一类字段的聚类排序结果之间的所有类簇对，每个所述类簇对包括第一类簇和第二类簇，所述第一类簇属于所述某一字段的聚类排序结果，所述第二类簇属于该第一类字段的聚类排序结果，且所述第二类簇在该第一类字段的聚类排序结果中的顺序与所述第一类簇在所述某一字段的聚类排序结果中的顺序相同；

计算每个所述类簇对包括的第一类簇与第二类簇的类簇中心值差值，得到每个类簇对所对应的中心值差值；

判断所有所述类族对中是否存在对应的中心值差值大于预设阈值的至少一个类族对，当判断结果为是时，确定该第一类字段与所述某一字段不存在关联关系；

当判断结果为否时，确定所述某一字段的聚类结果的归一化类簇数据量以及该第一类字段的聚类结果的归一化类簇数据量，根据所述某一字段的聚类结果的归一化类簇数据量以及该第一类字段的聚类结果的归一化类簇数据量计算所述某一字段和该第一类字段之间的巴氏距离；

当判断出所述巴氏距离小于预设阈值时，确定该第一类字段与所述某一字段存在关联关系；

当判断出所述巴氏距离大于等于预设阈值时，确定该第一类字段与所述某一字段不存在关联关系。

当确定出所述某一字段的字段类型为唯一值类型时，对于从所述第二数据集包括的所有字段中与所述某一字段的字段类型相同的每个所述第一类字段，计算所述某一字段中数据和该第一类字段中数据的交并比系数；

当判断出所述交并比系数大于预设阈值时，确定该第一类字段与所述某一字段存在关联关系；

当判断出所述交并比系数小于等于预设阈值时，确定该第一类字段与所述某一字段不存在关联关系。

当确定出所述某一字段的字段类型为枚举值或时间值类型时，对于从所述第二数据集包括的所有字段中与所述某一字段的字段类型相同的每个所述第一类字段，确定所述某一字段中数据与该第一类字段中数据的交集，根据所述交集确定所述某一字段数据中所述交集的每个元素出现的频数以及该第一类字段数据中所述交集的每个元素出现的频数，并根据所述某一字段数据中所述交集的每个元素出现的频数确定所述某一字段的频数集合以及根据该第一类字段数据中所述交集的每个元素出现的频数确定该第一类字段的频数集合；

确定所述某一字段的频数集合的归一化频数以及该第一类字段的频数集合的归一化频数，根据所述某一字段的频数集合的归一化频数以及该第一类字段的频数集合的归一化频数计算所述某一字段和该第一类字段之间的巴氏距离；

本发明第二方面公开了一种数据一致性的智能检查装置，所述装置包括：

提取模块，用于从包括若干数据集的全量数据集中提取非一致数据集集合，所述非一致数据集集合包括至少一个非一致数据集组，每个所述非一致数据集组包括第一数据集和第二数据集，所述第一数据集和所述第二数据集均包括若干字段以及与每个字段对应的若干数据；

非一致信息筛选模块，用于对于每个所述非一致数据集组，均执行以下操作：

计算每个所述关联字段组组合的一致度；

作为一种可选的实施方式，在本发明第二方面中，所述非一致信息筛选模块从所述第一数据集的字段及所述第二数据集的字段中确定所有关联字段组的具体方式为：

作为一种可选的实施方式，在本发明第二方面中，所述非一致信息筛选模块根据所述二分图从所有所述关联字段组中确定满足预设条件的所有关联字段组组合，每个所述关联字段组组合包括至少一个关联字段组的具体方式为：

作为一种可选的实施方式，在本发明第二方面中，所述非一致信息筛选模块计算每个所述关联字段组组合的一致度的具体方式为：

其中，所述一致度计算公式为：

作为一种可选的实施方式，在本发明第二方面中，所述非一致信息筛选模块还用于：

在计算每个所述关联字段组组合的一致度之前，设定每个所述关联字段组的矩阵，其中，每个所述关联字段组的矩阵为全零矩阵且行数和列数分别为该关联字段组中第一字段的数据数目和第二字段的数据数目；

作为一种可选的实施方式，在本发明第二方面中，所述非一致信息筛选模块根据所有所述关联字段组组合的一致度，筛选所述第一数据集与所述第二数据集之间的非一致信息的具体方式为：

作为一种可选的实施方式，在本发明第二方面中，所述非一致信息筛选模块根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段的具体方式为：

本发明第三方面公开了另一种数据一致性的智能检查装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的一种数据一致性的智能检查方法中的部分或全部步骤。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，所述计算机程序代码被调用时，用于执行本发明第一方面公开的一种数据一致性的智能检查方法中的部分或全部步骤。

与现有技术相比，本发明具有以下有益效果：

本发明中，从包括若干数据集的全量数据集中提取非一致数据集集合；对于非一致数据集集合中的每个非一致数据集组，均执行以下操作：从非一致数据集组的第一数据集的字段及非一致数据集组的第二数据集的字段中确定所有关联字段组；构建用于表示所有关联字段组中字段之间的关联关系的二分图；根据二分图从所有关联字段组中确定满足预设条件的所有关联字段组组合；计算每个关联字段组组合的一致度；根据所有关联字段组组合的一致度，筛选第一数据集与第二数据集之间的非一致信息。可见，实施本发明能够快速分析出数据之间的关联关系，进而快速提取两个数据集之间的非一致性信息，有利于对复杂度较高、规模较大的数据资产进行快速排查，提高数据资产建设过程中的数据质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种数据一致性的智能检查方法的流程示意图；

图2是本发明实施例公开的一种数据一致性的智能检查装置的结构示意图；

图3是本发明实施例公开的另一种数据一致性的智能检查装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明涉及一种数据一致性的智能检查方法及装置，该数据一致性的智能检查方法及装置能够快速分析出数据之间的关联关系，进而快速提取两个数据集之间的非一致性信息。本发明一个或多个实施例可以应用于任意数据的一致性检查，包括数字数据，也包括能够建模转化为数字数据的模拟数据。本发明实施例不限于应用于企业数据资产分析、社会数据资料分析等大型规模数据业务中，例如企业业务部门之间的数据一致性检查等；也可以应用于其他需要进行数据一致性检查的中小型规模数据业务中，例如数据库中的数据检查、程序或指令的变量的数据检查等。

实施例一

请参阅图1，图1是本发明实施例公开的一种数据一致性的智能检查方法的流程示意图。如图1所示，该数据一致性的智能检查方法可以包括以下操作：

100、从包括若干数据集的全量数据集中提取非一致数据集集合，非一致数据集集合包括至少一个非一致数据集组，每个非一致数据集组包括第一数据集和第二数据集，第一数据集和第二数据集均包括若干字段以及与每个字段对应的若干数据。

本发明实施例中，数据集均包括若干字段以及与每个字段对应的若干数据。可以根据特定的数据同步变化情况，例如时序维度动态数据变化情况或者频数维度动态数据变化情况，从包括若干数据集的全量数据集中筛选出非一致数据集。例如，对于全量数据集可以描述为Ω＝{X₁,X₂,...,X_K}，其中X_i表示全量数据集中第i个数据集。通过数据集之间两两对比，如果数据集X_i和X_j两者同步变化(新增或更新)，并且两者同一时间变化的数据存在交集，即数据集中某些字段上的数值完全相同或者变化前后数值相同，则将数据集X_i(也即步骤101中的非一致数据集包括的第一数据集)和X_j(也即步骤101中的非一致数据集包括的第二数据集)作为非一致数据集组(X_i,X_j)，所有非一致数据集组整体构成非一致数据集集合Γ＝{(X_i,X_j)|X_i,X_j∈Ω}。

101、对于每个非一致数据集组，均执行以下操作，包括步骤1011-1015。

1011、从第一数据集的字段及第二数据集的字段中确定所有关联字段组，关联字段组包括存在关联关系的第一字段和第二字段，第一字段和第二字段分别为第一数据集及第二数据集的其中一个字段。

本发明实施例中，对于非一致数据集集合中的每个非一致数据集组(X_i,X_j)，提取出两个数据集各自的所有字段，通过字段业务含义确定字段类型，分析字段数据分布规律，按照字段类型如数值类型、唯一值类型、枚举类型、时间类型等分别挖掘关联关系，确定集合X_i和X_j的字段中的所有关联字段组。其中，每个关联字段组包括存在关联关系的第一字段和第二字段，第一字段和第二字段分别为第一数据集及第二数据集的其中一个字段。

1012、构建用于表示所有关联字段组中字段之间的关联关系的二分图。

本发明实施例中，从该非一致数据集组的所有关联字段组中确定出属于第一数据集的第一字段集合以及属于第二数据集的第二字段集合；

建立第一字段集合与第二字段集合中所有具有关联关系的字段之间的连线，得到用于表示该非一致数据集组的所有关联字段组中字段之间的关联关系的二分图。

1013、根据二分图从所有关联字段组中确定满足预设条件的所有关联字段组组合，每个关联字段组组合包括至少一个关联字段组。

本发明实施例中，可以根据预设条件从该非一致数据集组的所有关联字段组中确定出所有关联字段组组合，每个关联字段组组合包括至少一个关联字段组。预设条件可以设定为所依据的数据间相关的标识信息，例如属于同一用户或者用户组添加或者控制的数据、属于同一个时间段内均发生新增或者变更的数据等，也可以设定为不依据数据间相关的标识信息，例如依据最大匹配算法来确定所有可能的匹配组合等，本实施例不作限定。

1014、计算每个关联字段组组合的一致度。

1015、根据所有关联字段组组合的一致度，筛选第一数据集与第二数据集之间的非一致信息。

在一个可选的实施例中，从第一数据集的字段及第二数据集的字段中确定所有关联字段组，可以包括：

从第一数据集包括的未被选择过的字段中选择某一字段，从第二数据集包括的所有字段中筛选与某一字段的字段类型相同的所有第一类字段，根据与某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有第一类字段中是否存在与某一字段存在关联关系的至少一个目标字段；

当判断结果为是时，将某一字段与每个目标字段分别确定为关联字段组，并触发执行从第一数据集包括的未被选择过的字段中选择某一字段，从第二数据集包括的所有字段中筛选与某一字段的字段类型相同的所有第一类字段，根据与某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有第一类字段中是否存在与某一字段存在关联关系的至少一个目标字段，直至第一数据集中不存在未被选择过的字段；

当判断结果为否时，重新触发执行从第一数据集包括的未被选择过的字段中选择某一字段，从第二数据集包括的所有字段中筛选与某一字段的字段类型相同的所有第一类字段，根据与某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有第一类字段中是否存在与某一字段存在关联关系的至少一个目标字段，直至第一数据集中不存在未被选择过的字段。

在该可选的实施例中，进一步可选的，根据二分图从所有关联字段组中确定满足预设条件的所有关联字段组组合，可以包括：

根据字段关联关系二分图，以集合X_i中字段数目为行，集合X_j中字段数目为列，生成一个全零矩阵R，如果第一个数据集中第a个字段d_ia与第二个数据集中第b个字段d_jb存在关联关系，则将矩阵R中元素R_ab值设置为预设值，预设值优选为-1；以矩阵R作为代价矩阵，利用最大匹配算法，例如匈牙利算法，计算出最大匹配，其中最大匹配的表达式可以描述为U＝{(d_ia,d_jb)|R_ab＝预设值,d_ia∈X_i,d_jb∈X_j}，以最大匹配U中的配对数目作为最大非一致字段数；

以间隔字段数为步长，从由初始字段数与最大非一致字段数组成的数据范围内确定出非一致字段数集合，非一致字段数集合包括至少一个非一致字段数且非一致字段数集合包括初始字段数，当非一致字段数集合包括至少两个非一致字段数时，相邻两个非一致字段数之间的差值等于间隔字段数；需要注意的是，间隔字段数优选为1，初始字段数也优选为1；

对于每个非一致字段数，根据二分图从所有关联字段组中确定满足该非一致字段数对应的预设条件的至少一个关联字段组组合，得到该非一致字段数对应的所有关联关系组合；

其中，关联字段组组合包括的各个关联字段组之间不存在重叠字段，且关联字段组合包括的关联字段组的数量等于该关联字段组合对应的非一致字段数。

又进一步可选的，计算每个关联字段组组合的一致度，可以包括：

将每个关联字段组组合中所有关联字段组的邻接矩阵进行相加，计算得到每个关联字段组组合的组合邻接矩阵；需要说明的是，当关联字段组的邻接矩阵之间不为同型矩阵的时候，可以对矩阵进行补零，构建同型矩阵后再进行相加；

确定每个关联字段组组合的组合邻接矩阵对应的目标元素，每个关联字段组组合的组合邻接矩阵对应的目标元素的元素值等于该关联字段组组合对应的非一致字段数；

根据每个关联字段组组合的组合邻接矩阵对应的目标元素，确定每个关联字段组组合的组合邻接矩阵的所有行及所有列中存在该关联字段组组合的组合邻接矩阵对应的目标元素的总行数及总列数；

其中，一致度计算公式为：

其中，r_overlap为某一关联字段组组合的一致度，w为该关联字段组组合对应的非一致字段数，n和m分别为该关联字段组组合的组合邻接矩阵的所有行及所有列中存在该关联字段组组合的组合邻接矩阵对应的目标元素的总行数及总列数。

又进一步可选的，在计算每个关联字段组组合的一致度之前，该方法还可以包括：

设定每个关联字段组的矩阵，其中，每个关联字段组的矩阵为全零矩阵且行数和列数分别为该关联字段组中第一字段的数据数目和第二字段的数据数目；

对于每个关联字段组，比较该关联字段组中第一字段的第p个数据和该关联字段组中第二字段的第q个数据是否相同，若相同，则将该关联字段组的矩阵中第p行且第q列的元素的值设定为预设元素值(预设元素值优选为1)，得到该关联字段组的邻接矩阵。

需要说明的是，计算每个关联字段组的邻接矩阵的方法也可以操作如下：

对于每个关联字段组的矩阵中的每个元素，均执行如下目标操作：

确定该元素的目标行数及目标列数，从该关联字段组的第一字段中筛选与目标行数相匹配的数据以及从该关联字段组的第二字段中筛选与目标列数相匹配的数据，比较从该关联字段组的第一字段中筛选出的与目标行数相匹配的数据与从该关联字段组的第二字段中筛选出的与目标列数相匹配的数据是否相同，若相同，则将该元素的值设定为预设元素值(预设元素值优选为1)，以更新该关联字段组的矩阵；例如，如果该元素的目标行数为1，目标列数为2，则从该关联字段组的第一字段中筛选第1位置处或第1的整数倍位置处的数据以及从该关联字段组的第二字段中筛选第2位置处或者第2的整数倍位置处的数据，比较两个数据是否相同；

对于每个关联字段组，当对该关联字段组的矩阵中的所有元素均执行完毕目标操作之后，将更新后的该关联字段组的矩阵确定为该关联字段组的邻接矩阵。

又进一步可选的，根据所有关联字段组组合的一致度，筛选第一数据集与第二数据集之间的非一致信息，可以包括：

确定所有关联字段组组合中一致度最小的关联关系组合，作为目标关联关系组合；

筛选目标关联关系组合的所有关联字段组和/或所有关联字段组的第一字段及第二字段中的关联数据，作为第一数据集与第二数据集之间的非一致信息。

又进一步可选的，上述根据与某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有第一类字段中是否存在与某一字段存在关联关系的至少一个目标字段，可以包括：

当确定出某一字段的字段类型为数值类型时，对于从第二数据集包括的所有字段中与某一字段的字段类型相同的每个第一类字段，根据某一字段中数据的最佳类簇数目以及该第一类字段中数据的最佳类簇数目确定平均类簇数目，根据平均类簇数目分别对某一字段中数据和该第一类字段中数据执行聚类操作，得到某一字段的聚类结果以及该第一类字段的聚类结果；分别对某一字段的聚类结果中的类簇和该第一类字段的聚类结果中的类簇按照类簇中心值大小进行同序(升序或者降序)排序，得到某一字段的聚类排序结果和该第一类字段的聚类排序结果；

确定某一字段的聚类排序结果和该第一类字段的聚类排序结果之间的所有类簇对，每个类簇对包括第一类簇和第二类簇，第一类簇属于某一字段的聚类排序结果，第二类簇属于该第一类字段的聚类排序结果，且第二类簇在该第一类字段的聚类排序结果中的顺序与第一类簇在某一字段的聚类排序结果中的顺序相同；

计算每个类簇对包括的第一类簇与第二类簇的类簇中心值差值，得到每个类簇对所对应的中心值差值；

判断所有类族对中是否存在对应的中心值差值大于预设阈值的至少一个类族对，当判断结果为是时，确定该第一类字段与某一字段不存在关联关系；

当判断结果为否时，确定某一字段的聚类结果的归一化类簇数据量以及该第一类字段的聚类结果的归一化类簇数据量，根据某一字段的聚类结果的归一化类簇数据量以及该第一类字段的聚类结果的归一化类簇数据量计算某一字段和该第一类字段之间的巴氏距离；

当判断出巴氏距离小于预设阈值时，确定该第一类字段与某一字段存在关联关系；

当判断出巴氏距离大于等于预设阈值时，确定该第一类字段与某一字段不存在关联关系。

例如，当确定某一字段d_ia的数据类型为数值类型时，筛选出的第一类字段为d_jb，利用KMeans聚类算法分别对字段d_ia和d_jb中的数据进行聚类，利用肘部法分别确定字段d_ia和d_jb的最佳类簇数目K_ia和K_jb，以其均值作为最终类簇数目K，即:

以类簇数目K分别对字段d_ia和d_jb进行聚类，得到聚类结果C_ia＝{(c_ias,num_ias)|s＝1,2,...,K}和C_jb＝{(c_jbt,num_jbt)|t＝1,2,...,K}。其中c表示类簇中心，num表示类簇中的数据量；

对于聚类结果C_ia和C_jb分别按类簇中心c进行升序排序，则C_ia和C_jb中每个类簇都一一对应，如果存在两个对应的类簇中心c_iao和c_jbo之间的差值大于设定阈值，则确定字段d_ia和d_jb不存在关联关系；否则通过如下巴氏距离再进行判断；

分别对排序后聚类结果C_ia和C_jb的类簇数据量进行归一化，即：

然后计算两者类簇数据量的之间的巴氏距离，即：

如果巴氏距离小于阈值，则确定字段d_ia和d_jb存在关联关系；否则确定字段d_ia和d_jb不存在关联关系。

或者，上述根据与某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有第一类字段中是否存在与某一字段存在关联关系的至少一个目标字段，也可以包括：

当确定出某一字段的字段类型为唯一值类型时，对于从第二数据集包括的所有字段中与某一字段的字段类型相同的每个第一类字段，计算某一字段中数据和该第一类字段中数据的交并比系数；

当判断出交并比系数大于预设阈值时，确定该第一类字段与某一字段存在关联关系；

当判断出交并比系数小于等于预设阈值时，确定该第一类字段与某一字段不存在关联关系。

例如，当确定某一字段d_ia的数据类型为唯一值类型时，筛选出的第一类字段为d_jb，统计出两者中数据的交集d_ia∩d_jb和并集d_ia∪d_jb，计算出交并比IoU，即：

如果IoU大于阈值，则确定字段d_ia和d_jb存在关联关系；否则确定确定字段d_ia和d_jb不存在关联关系。

或者，上述根据与某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有第一类字段中是否存在与某一字段存在关联关系的至少一个目标字段，还可以包括：

当确定出某一字段的字段类型为枚举值或时间值类型时，对于从第二数据集包括的所有字段中与某一字段的字段类型相同的每个第一类字段，确定某一字段中数据与该第一类字段中数据的交集，根据交集确定某一字段数据中交集的每个元素出现的频数以及该第一类字段数据中交集的每个元素出现的频数，并根据某一字段数据中交集的每个元素出现的频数确定某一字段的频数集合以及根据该第一类字段数据中交集的每个元素出现的频数确定该第一类字段的频数集合；

确定某一字段的频数集合的归一化频数以及该第一类字段的频数集合的归一化频数，根据某一字段的频数集合的归一化频数以及该第一类字段的频数集合的归一化频数计算某一字段和该第一类字段之间的巴氏距离；

例如，当确定某一字段d_ia的数据类型为枚举值类型时，筛选出的第一类字段为d_jb，统计出字段d_ia和d_jb中枚举值的交集{v_l|v_l∈d_ia and v_l∈d_jb,l＝1,...,L}；

根据枚举值交集，分别统计出字段d_ia和d_jb中数据出现的频数F_ia＝{f_ial|l＝1,...,L}和F_jb＝{f_jbl|l＝1,...,L}，并分别进行归一化，即：

通过枚举值对应字段d_ia和d_jb归一化后的频数，计算出两者数据频数分布之间的巴氏距离，即：

又例如，当确定某一字段d_ia的数据类型为时间值类型时，筛选出的第一类字段为d_jb，分别对字段d_ia和d_jb中时间值类型数据按固定时间区间(例如：月、日、小时等)转化，统计出字段d_ia和d_jb中时间值类型数据的交集；

根据时间值类型数据的交集，分别统计出字段d_ia和d_jb中数据出现的频数T_ia＝{τ_iat|t＝1,...,Y}和T_jb＝{τ_jbt|t＝1,...,Y}，并分别进行归一化，即：

通过时间区间对应字段d_ia和d_jb归一化后的时间频数，计算出两者时间频数分布之间的巴氏距离，即：

可见，本发明所描述的数据一致性的智能检查方法，快速分析出数据之间的关联关系，能够快速判断两个数据集之间的一致性，进而能够对复杂度较高、规模较高的数据资产进行快速排查，提高数据资产建设过程中的数据质量。

实施例二

请参阅图2，图2是本发明实施例公开的一种数据一致性的智能检查装置的结构示意图。如图2所示，该数据一致性的智能检查装置可以包括：

提取模块201，用于从包括若干数据集的全量数据集中提取非一致数据集集合，非一致数据集集合包括至少一个非一致数据集组，每个非一致数据集组包括第一数据集和第二数据集，第一数据集和第二数据集均包括若干字段以及与每个字段对应的若干数据；

非一致信息筛选模块202，用于对于每个非一致数据集组，均执行以下操作：

从第一数据集的字段及第二数据集的字段中确定所有关联字段组，关联字段组包括存在关联关系的第一字段和第二字段，第一字段和第二字段分别为第一数据集及第二数据集的其中一个字段；

构建用于表示所有关联字段组中字段之间的关联关系的二分图；

根据二分图从所有关联字段组中确定满足预设条件的所有关联字段组组合，每个关联字段组组合包括至少一个关联字段组；

计算每个关联字段组组合的一致度；

根据所有关联字段组组合的一致度，筛选第一数据集与第二数据集之间的非一致信息。

在一个可选的实施例中，非一致信息筛选模块202从第一数据集的字段及第二数据集的字段中确定所有关联字段组的具体方式可以为：

又进一步可选的，非一致信息筛选模块202根据二分图从所有关联字段组中确定满足预设条件的所有关联字段组组合，每个关联字段组组合包括至少一个关联字段组的具体方式可以为：

根据最大匹配算法确定二分图的最大匹配值，作为最大非一致字段数；

以间隔字段数为步长，从由初始字段数与最大非一致字段数组成的数据范围内确定出非一致字段数集合，非一致字段数集合包括至少一个非一致字段数且非一致字段数集合包括初始字段数，当非一致字段数集合包括至少两个非一致字段数时，相邻两个非一致字段数之间的差值等于间隔字段数；

又进一步可选的，非一致信息筛选模块202计算每个关联字段组组合的一致度的具体方式可以为：

根据每个关联字段组组合中每个关联字段组的邻接矩阵，计算每个关联字段组组合的组合邻接矩阵；

其中，一致度计算公式为：

又进一步可选的，非一致信息筛选模块202还可以用于：

在计算每个关联字段组组合的一致度之前，设定每个关联字段组的矩阵，其中，每个关联字段组的矩阵为全零矩阵且行数和列数分别为该关联字段组中第一字段的数据数目和第二字段的数据数目；

对于每个关联字段组，比较该关联字段组中第一字段的第p个数据和该关联字段组中第二字段的第q个数据是否相同，若相同，则将该关联字段组的矩阵中第p行且第q列的元素的值设定为预设元素值，得到该关联字段组的邻接矩阵。

又进一步可选的，非一致信息筛选模块202根据所有关联字段组组合的一致度，筛选第一数据集与第二数据集之间的非一致信息的具体方式可以为：

又进一步可选的，非一致信息筛选模块202根据与某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有第一类字段中是否存在与某一字段存在关联关系的至少一个目标字段的具体方式可以为：

当确定出某一字段的字段类型为数值类型时，对于从第二数据集包括的所有字段中与某一字段的字段类型相同的每个第一类字段，根据某一字段中数据的最佳类簇数目以及该第一类字段中数据的最佳类簇数目确定平均类簇数目，根据平均类簇数目分别对某一字段中数据和该第一类字段中数据执行聚类操作，得到某一字段的聚类结果以及该第一类字段的聚类结果；分别对某一字段的聚类结果中的类簇和该第一类字段的聚类结果中的类簇按照类簇中心值大小进行同序排序，得到某一字段的聚类排序结果和该第一类字段的聚类排序结果；

或者，非一致信息筛选模块202根据与某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有第一类字段中是否存在与某一字段存在关联关系的至少一个目标字段的具体方式可以为：

可见，本发明公开的数据资产一致性的智能检查装置，能够快速分析出数据之间的关联关系，能够快速判断两个数据集之间的一致性，进而能够对复杂度较高、规模较高的数据资产进行快速排查，提高数据资产建设过程中的数据质量。

实施例三

请参阅图3，图3是本发明实施例公开的另一种数据一致性的智能检查装置的结构示意图。如图3所示，该数据一致性的智能检查装置可以包括：

存储有可执行程序代码的存储器301；

与存储器301耦合的处理器302；

处理器302调用存储器301中存储的可执行程序代码，用于执行实施例一所描述的数据一致性的智能检查方法中的步骤。

实施例四

本发明实施例公开了一种计算机读存储介质，其存储用于电子数据交换的计算机程序，其中，该计算机程序使得计算机执行实施例一所描述的数据一致性的智能检查方法中的步骤。

实施例五

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一所描述的数据一致性的智能检查方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

需要说明的是本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在计算机(PC、嵌入式智能设备等)上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

最后应说明的是：本发明实施例公开的一种数据一致性的智能检查方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种数据一致性的智能检查方法，其特征在于，所述方法包括：

对于每个所述非一致数据集组，均执行以下操作：

计算每个所述关联字段组组合的一致度；

根据所有所述关联字段组组合的一致度，筛选所述第一数据集与所述第二数据集之间的非一致信息；

其中，所述从所述第一数据集的字段及所述第二数据集的字段中确定所有关联字段组，包括：

当判断结果为否时，重新触发执行所述的从所述第一数据集包括的未被选择过的字段中选择某一字段，从所述第二数据集包括的所有字段中筛选与所述某一字段的字段类型相同的所有第一类字段，根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段，直至所述第一数据集中不存在未被选择过的字段；

其中，所述根据所述二分图从所有所述关联字段组中确定满足预设条件的所有关联字段组组合，包括：

2.根据权利要求1所述的数据一致性的智能检查方法，其特征在于，所述计算每个所述关联字段组组合的一致度，包括：

其中，所述一致度计算公式为：

3.根据权利要求2所述的数据一致性的智能检查方法，其特征在于，所述计算每个所述关联字段组组合的一致度之前，所述方法还包括：

4.根据权利要求3所述的数据一致性的智能检查方法，其特征在于，所述根据所有所述关联字段组组合的一致度，筛选所述第一数据集与所述第二数据集之间的非一致信息，包括：

5.根据权利要求1-4任一项所述的数据一致性的智能检查方法，其特征在于，所述根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段，包括：

判断所有所述类簇对中是否存在对应的中心值差值大于预设阈值的至少一个类簇对，当判断结果为是时，确定该第一类字段与所述某一字段不存在关联关系；

6.根据权利要求1-4任一项所述的数据一致性的智能检查方法，其特征在于，所述根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段，包括：

7.根据权利要求1-4任一项所述的数据一致性的智能检查方法，其特征在于，所述根据与所述某一字段的字段类型相匹配的关联关系确定方法判断筛选出的所有所述第一类字段中是否存在与所述某一字段存在关联关系的至少一个目标字段，包括：

8.一种数据一致性的智能检查装置，其特征在于，所述装置包括：

计算每个所述关联字段组组合的一致度；

其中，所述非一致信息筛选模块从所述第一数据集的字段及所述第二数据集的字段中确定所有关联字段组的具体方式为：

其中，所述非一致信息筛选模块根据所述二分图从所有所述关联字段组中确定满足预设条件的所有关联字段组组合，每个所述关联字段组组合包括至少一个关联字段组的具体方式为：