CN108038132A

CN108038132A - 数据质量分析方法及装置、存储介质、终端

Info

Publication number: CN108038132A
Application number: CN201711153207.2A
Authority: CN
Inventors: 汤奇峰; 王也; 蒋宇; 蒋宇一
Original assignee: Shanghai Data Trading Center Ltd
Current assignee: Shanghai Data Trading Center Ltd
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2018-05-15

Abstract

一种数据质量分析方法及装置、存储介质、终端，所述方法包括接收第一供应方提供的多个待评估数据；对于每一待评估数据，按照第二供应方集合中提供相同数据的第二供应方的数量确定待评估数据的层级；统计层级大于等于2的每一待评估数据的标签值的数量，并将数量最大的标签值作为该待评估数据的准确数据；对于层级大于等于2的待评估数据，确定第一供应方在每一层级的待评估数据的准确率；确定第一供应方在层级0和层级1的待评估数据的准确率；根据第一供应方在每一层级的待评估数据的准确率和数据量权重，计算所述第一供应方的总准确率。本发明技术方案可以提高数据评估的准确性。

Description

数据质量分析方法及装置、存储介质、终端

技术领域

本发明涉及数据流通技术领域，尤其涉及一种数据质量分析方法及装置、存储介质、终端。

背景技术

大数据已经被广泛认为是一种战略性的新型资源，可以定义当今时代产生的海量数据以及相关的技术发展与服务创新。大数据蕴藏着巨大的商业价值。在数据流通领域，随着数据量迅速增长，不同数据源的数据质量参次不齐，数据质量有不同的概念和标准，数据质量一般包括数据的准确性、完整性、及时性、一致性等定量描述。对于大数据时代下的用户来说，其所需存储、处理的数据量大，数据来源和数据结构繁多复杂，为大数据的分析和应用带来很多挑战。用户要想充分发挥大数据所赋予的机遇和优势，前提是必须拥有可靠、准确、及时的高质量的数据，只有从高质量的大规模数据中提取隐含的、有用的信息，才能做出更加精准、更加符合市场和客户需求的决策。为此，用户需要更加注重大数据时代下的数据质量及其重要性。

现有技术中，市场上数据监测和数据质量分析方现有普遍的模式是购买一定数量的“精准数据”，在数据完成流通过程后，通过对比数据包与“精准数据”进行比对，形成准确性验证报告。

但是，由于市场上不存在完全准确的标签数据，“精准数据”本身存在一定的误差，因此对于用“准确数据”进行数据质量验证的方法实际上有很大的误差。在实际应用中，我们无法得到数据的真实值，市场上不存在数据标签完全准确的标签数据，比如来自运营商身份证验证的数据，依然存在手机卡借旁人使用的情况，产生一定的准确性误差的问题。

发明内容

本发明解决的技术问题是如何提高数据评估的准确性。

为解决上述技术问题，本发明实施例提供一种数据质量分析方法，数据质量分析方法包括：

接收第一供应方提供的多个待评估数据；对于每一待评估数据，按照第二供应方集合中提供相同数据的第二供应方的数量确定所述待评估数据的层级，所述层级等于所述第二供应方的数量，所述第二供应方不同于所述第一供应方；统计层级大于等于2的每一待评估数据的标签值的数量，并将数量最大的标签值作为该待评估数据的准确数据；对于层级大于等于2的待评估数据，将所述第一供应方提供的待评估数据的标签值和所述待评估数据的准确数据进行比对，并根据比对结果确定所述第一供应方在每一层级的待评估数据的准确率；根据层级大于等于2的待评估数据的标签值比例、层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例和所述第一供应方在层级大于等于2的待评估数据的平均准确率，确定所述第一供应方在层级0和层级1的待评估数据的准确率，所述标签值比例为各个标签值的数量之间的比例；根据所述第一供应方在每一层级的待评估数据的准确率和数据量权重，计算所述第一供应方的总准确率。

可选的，所述根据层级大于等于2的待评估数据的标签值比例、层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例和所述第一供应方在层级大于等于2的待评估数据的平均准确率，确定所述第一供应方在层级0和层级1的待评估数据的准确率包括：分别根据所述层级大于等于2的待评估数据的标签值比例与层级0的待评估数据的标签值比例以及层级1的待评估数据的标签值比例的差值确定层级0标签值偏差度和层级1标签值偏差度；分别根据所述层级0标签值偏差度和层级1标签值偏差度以及预设线性参数计算层级0修正值和层级1修正值；分别根据所述平均准确率以及层级0修正值和层级1修正值的差值确定所述第一供应方在层级0和层级1待评估数据的准确率。

可选的，所述按照第二供应方集合中提供相同数据的第二供应方的数量确定所述待评估数据的层级之后还包括：对每一层级的待评估数据进行抽样，并根据预设样本总量以及每一层级的待评估数据的层总量和层方差确定每一层级的待评估数据的抽样数量。

可选的，采用以下公式对每一层级的待评估数据进行抽样：

其中，n为预设样本总量，n_h为层级h的待评估数据的抽样数量，N_h为层级h待评估数据的层总量，L为层总数，S_h为层级h待评估数据的方差。

可选的，所述对每一层级待评估数据进行抽样包括：确定层级0待评估数据和层级1待评估数据的抽样数量为0；对于层级大于等于2的待评估数据，对每一层级的待评估数据抽取样本，并计算每一层级的待评估数据的层方差；对于层级大于等于2的待评估数据，根据预设样本总量以及每一层级的待评估数据的层总量和层方差进行预分配，以确定每一层级的待评估数据的第一抽样数量；如果存在第一抽样数量大于该层级的待评估数据的层总量，则该层级的待评估数据的最终抽样数量为该层级的待评估数据的层总量；根据预设样本总量与已抽取的最终抽样数量之差以及每一层级的待评估数据的层总量和层方差对其余各层级的待评估数据的第一抽样数量重新预分配，直至任意层级的待评估数据的最终抽样数量小于其层总量。

可选的，采用以下公式对其余各层级的待评估数据的第一抽样数量重新预分配：

其中，n_h为层级h的待评估数据的抽样数量，N_h为层级h的待评估数据的层总量，L为层总数，S_h为层级h的待评估数据的方差，N_k为所述已抽取的最终抽样数量。

本发明实施例还公开了一种数据质量分析装置，数据质量分析装置包括：待评估数据接收模块，适于接收第一供应方提供的多个待评估数据；层级确定模块，适于对于每一待评估数据，按照第二供应方集合中提供相同数据的第二供应方的数量确定所述待评估数据的层级，所述层级等于所述第二供应方的数量，所述第二供应方不同于所述第一供应方；准确数据计算模块，适于统计层级大于等于2的每一待评估数据的标签值的数量，并将数量最大的标签值作为该待评估数据的准确数据；第一准确率计算模块，适于对于层级大于等于2的待评估数据，将所述第一供应方提供的待评估数据的标签值和所述待评估数据的准确数据进行比对，并根据比对结果确定所述第一供应方在每一层级的待评估数据的准确率；第二准确率计算模块，适于根据层级大于等于2的待评估数据的标签值比例、层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例和所述第一供应方在层级大于等于2的待评估数据的平均准确率，确定所述第一供应方在层级0和层级1的待评估数据的准确率，所述标签值比例为各个标签值的数量之间的比例；总准确率计算模块，适于根据所述第一供应方在每一层级的待评估数据的准确率和数据量权重，计算所述第一供应方的总准确率。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述数据质量分析方法的步骤。

本发明实施例还公开了一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述数据质量分析方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明技术方案通过接收第一供应方提供的多个待评估数据；对于每一待评估数据，按照第二供应方集合中提供相同数据的第二供应方的数量确定所述待评估数据的层级；统计层级大于等于2的每一待评估数据的标签值的数量，并将数量最大的标签值作为该待评估数据的准确数据；对于层级大于等于2的待评估数据，将所述第一供应方提供的待评估数据的标签值和所述待评估数据的准确数据进行比对，并根据比对结果确定所述第一供应方在每一层级的待评估数据的准确率；根据层级大于等于2的待评估数据的标签值比例、层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例和所述第一供应方在层级大于等于2的待评估数据的平均准确率，确定所述第一供应方在层级0和层级1的待评估数据的准确率；根据所述第一供应方在每一层级的待评估数据的准确率和数据量权重，计算所述第一供应方的总准确率。本发明技术方案通过提供相同数据的第二供应方的数量确定所述待评估数据的层级，然后分别对每一层级的待评估数据做准确率评估，通过分层的方式可以提高数据质量分析的准确性；此外，计算准确率时利用的是数量最大的标签值，也即少数服从多数原则，从而避免使用现有技术中的精准数据，提高数据质量分析的准确性；进一步地，由于层级0和层级1的待评估数据的第二供应方的数量较少，采用层级本身数据进行评估不准确，因此可以利用层级大于等于2的待评估数据的平均准确率、以及两者标签值比例的差异来确定层级0和层级1的待评估数据的准确率，从而进一步提高数据质量分析的准确性。此外，与现有技术中以先验知识为标准的分层标准相比，本发明技术方案以第二供应方的数量为基础的分层标准，减小了人为标准对评价体系的干预，进一步提高了数据质量分析的准确性。

进一步，对每一层级的待评估数据进行抽样，并根据预设样本总量以及每一层级的待评估数据的层总量和层方差确定每一层级的待评估数据的抽样数量。本发明技术方案通过对每一层级的待评估数据进行抽样，可以减小准确率计算过程的计算量，提高数据质量分析的效率；此外，利用层总量和层方差确定抽样数量，可以调整抽样数量在每一层级的比例；在待评估数据分散时，或者该层级的待评估数据数量较大时，相应地增加抽样数量，从而进一步提高数据质量分析的准确性。

进一步地，确定层级0待评估数据和层级1待评估数据的抽样数量为0；对于层级大于等于2的待评估数据，对每一层级的待评估数据抽取样本，并计算每一层级的待评估数据的层方差；对于层级大于等于2的待评估数据，根据预设样本总量以及每一层级的待评估数据的层总量和层方差进行预分配，以确定每一层级的待评估数据的第一抽样数量；如果存在第一抽样数量大于该层级的待评估数据的层总量，则该层级的待评估数据的最终抽样数量为该层级的待评估数据的层总量；根据预设样本总量与已抽取的最终抽样数量之差以及每一层级的待评估数据的层总量和层方差对其余各层级的待评估数据的第一抽样数量重新预分配，直至任意层级的待评估数据的最终抽样数量小于其层总量。本发明技术方案中，考虑到每一层级数据的差异，可以确定层级0和层级1的抽样数量为0；其他层级的抽样数量在利用层方差和层总量分配后，再进行调整；也即，抽样数量大于层总量时，会导致预设样本总量减小，为了避免这种情况，可以调整该层级待评估数据的抽样数量为层总量，并再对其他层级的抽样数量重新分配，从而进一步提高数据质量分析的准确性。此外，与现有技术中所使用的奈曼抽样与按比例抽样法相比，本发明技术方案通过使用改进型奈曼抽样法，保证了抽样样本数量不变的基础上，兼顾了方差对样本量的影响，从而进一步提高数据质量分析的准确性。

附图说明

图1是本发明实施例一种数据质量分析方法的流程图；

图2是图1所示步骤S105的一种具体实施方式的流程图；

图3是本发明实施例一种数据质量分析方法的部分流程图；

图4是本发明实施例一种数据质量分析装置的结构示意图；

图5是图4所示第二准确率计算模块405的一种具体实施方式的流程图；

图6是本发明实施例一种数据质量分析装置的部分结构示意图。

具体实施方式

如背景技术中所述，由于市场上不存在完全准确的标签数据，“精准数据”本身存在一定的误差，因此对于用“准确数据”进行数据质量验证的方法实际上有很大的误差。在实际应用中，我们无法得到数据的真实值，市场上不存在数据标签完全准确的标签数据，比如来自运营商身份证验证的数据，依然存在手机卡借旁人使用，产生一定的准确性误差的问题。

本发明技术方案通过提供相同数据的第二供应方的数量确定所述待评估数据的层级，然后分别对每一层级的待评估数据做准确率评估，通过分层的方式可以提高数据质量分析的准确性；此外，计算准确率时利用的是数量最大的标签值，也即少数服从多数原则，从而避免使用现有技术中的精准数据，提高数据质量分析的准确性；进一步地，由于层级0和层级1的待评估数据的第二供应方的数量较少，采用层级本身数据进行评估不准确，因此可以利用层级大于等于2的待评估数据的平均准确率、以及两者标签值比例的差异来确定层级0和层级1的待评估数据的准确率，从而进一步提高数据质量分析的准确性。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种数据质量分析方法的流程图。

图1所示的数据质量分析方法可以包括以下步骤：

步骤S101：接收第一供应方提供的多个待评估数据；

步骤S102：对于每一待评估数据，按照第二供应方集合中提供相同数据的第二供应方的数量确定所述待评估数据的层级，所述层级等于所述第二供应方的数量，所述第二供应方不同于所述第一供应方；

步骤S103：统计层级大于等于2的每一待评估数据的标签值的数量，并将数量最大的标签值作为该待评估数据的准确数据；

步骤S104：对于层级大于等于2的待评估数据，将所述第一供应方提供的待评估数据的标签值和所述待评估数据的准确数据进行比对，并根据比对结果确定所述第一供应方在每一层级的待评估数据的准确率；

步骤S105：根据层级大于等于2的待评估数据的标签值比例、层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例和所述第一供应方在层级大于等于2的待评估数据的平均准确率，确定所述第一供应方在层级0和层级1的待评估数据的准确率，所述标签值比例为各个标签值的数量之间的比例；

步骤S106：根据所述第一供应方在每一层级的待评估数据的准确率和数据量权重，计算所述第一供应方的总准确率。

在步骤S101的具体实施中，接收第一供应方提供的多个待评估数据。每一待评估数据可以具备标识(Identity,ID)。该ID可以指向用户，例如可以是身份证号、手机号、姓名等。

在步骤S102的具体实施中，第二供应方集合可以是预先配置的，所述第二供应方不同于所述第一供应方。例如，在数据交易平台，可以有多个供应方提供数据；需要对某一供应方的数据质量分析时，可以将剩余其他供应方作为第二供应方集合。

由于同一数据可由有至少一个供应方提供，因此可以利用提供相同数据的第二供应方的数量对待评估数据进行分层，也即确定每一待评估数据的层级。所述层级可以等于所述第二供应方的数量，也可以是所述第二供应方的数量的其他任意可实施的变形，本发明实施例对此不做限制。

在本发明一个具体应用场景中，可参照表1。ID为0001、0002、0003至0010表示第一供应方的待评估数据。G1、G2、G3至G7表示第二供应方。1表示该第二供应方提供该数据，0表示该第二供应方不提供该数据。例如，对于待评估数据0001，第二供应方G1提供与0001相同的数据，则待评估数据0001的层级为1；相似地，对于待评估数据0003，第二供应方G1和G2提供与0003相同的数据，则待评估数据0003的层级为2；其他待评估数据的层级确定方式以此类推，此处不再赘述。

表1

ID	G1	G2	G3	G4	G5	G6	G7	累计
									0001	1	0	0	0	0	0	0	1
0002	0	1	0	0	0	0	0	1
									0003	1	1	0	0	0	0	0	2
0004	1	0	1	0	0	0	0	2
									0005	0	0	1	0	1	0	0	2
0006	1	0	1	0	1	0	0	3
									0007	1	1	1	0	0	0	0	3
0008	1	0	0	0	0	1	1	3
									0009	1	1	1	1	0	0	0	4
0010	1	1	1	0	1	1	0	5

经过步骤S102，可以确定每一待评估数据的层级以及多个层级的待评估数据。进一步地，每一层级的待评估数据包括第一供应方提供的待评估数据以及第二供应方提供的与该待评估数据相同的数据。

层级为0的待评估数据表示没有第二供应方提供相同的数据，仅有第一供应方本身提供该数据。层级为1的待评估数据表示只有一个第二供应方提供相同的数据。由于提供相同数据的供应方数量较少，因此采用各个供应方提供的数据的标签值进行评估的方式时，会出现没有交叉比对的对象，或者两种标签值不一致无法判断的情况。由此，对于层级为0的待评估数据和层级为1的待评估数据，可以采用与层级大于等于2的待评估数据不同的计算方式。

在步骤S103和步骤S104的具体实施中，计算的是层级大于等于2的待评估数据的准确率。具体而言，先统计每一层级的每一待评估数据在第二供应方提供的相同的数据中每种标签值的数量。也即，提供每一类型的标签值的第二供应方的数量。数量最大的标签值可以作为该待评估数据的准确数据。例如，数据0001的标签值具有两种类型：男性和女性；提供标签值为男性的0001数据的供应方为供应方一和供应方三；提供标签值为女性的0001数据的供应方为供应方二，则标签值男性的数量为2，标签值女性的数量为1；进而，男性为数据0001的准确数据。

进一步而言，每一待评估数据对应一个准确数据。更具体地，每一ID的数据具备一个准确数据。

计算层级大于等于2的待评估数据的准确率时，将第一供应方提供的每一待评估数据的标签值和该待评估数据的准确数据进行比对，比对结果可以包括该待评估数据的标签值与准确数据相同，以及该待评估数据的标签值与准确数据不同。标签值与准确数据相同的待评估数据与多个待评估数据的总量的比值即是第一供应方在该层级的待评估数据的准确率。例如，第一供应方有100个待评估数据，其中，在层级为3的待评估数据中，有80个待评估数据的标签值与对应的准确数据相同，则第一供应方在层级为3的待评估数据的准确率为80％。

在步骤S105的具体实施中，计算的是层级0和层级1的待评估数据的准确率。如前所述，层级为0的待评估数据和层级为1的待评估数据采用各个供应方提供的数据的标签值进行评估的方式时，会出现没有交叉比对的对象，或者两种标签值不一致无法判断的情况。由此，通过分析层级为0的待评估数据和层级为1的待评估数据的差异(也可以称为数据构成比例)与层级大于等于2的待评估数据的结构区别，施加惩罚函数在原有层级大于等于2的待评估数据的平均准确率的基础上进行纠偏处理。

具体而言，可以通过层级大于等于2的待评估数据的标签值比例与层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例来确定数据差异。其中，所述标签值比例为每一待评估数据在第二供应方提供的相同数据中各个标签值的数量之间的比例。

例如，对于用户性别数据，标签值为男性和女性；层级1的待评估数据中男性与女性的数量比例为7:3。而层级大于等于2的待评估数据中男性与女性的数量比例为1:1。由此，可以根据比例7:3以及比例1:1对第一供应方在层级1的待评估数据的准确率进行修正；也可以利用层级1的待评估数据中多出的标签值为男性的4成比例的数据进行一定量的修正。

经过步骤S105后，可以确定第一供应方在每一层级的待评估数据的准确率。进而，再结合第一供应方在每一层级的待评估数据的数据量权重计算所述第一供应方的总准确率。

在本发明另一个应用场景中，请参照表2。第一供应方在层级1的准确率为70％，权重为70％；在层级2的准确率为77％，权重为10％；在层级3的准确率为81％，权重为10％；在层级4的准确率为82％，权重为10％。则总准确率＝70％×70％+77％×10％+81％×10％+82％×10％＝73％。

表2

本发明实施例通过提供相同数据的第二供应方的数量确定所述待评估数据的层级，然后分别对每一层级的待评估数据做准确率评估，通过分层的方式可以提高数据质量分析的准确性；此外，计算准确率时利用的是数量最大的标签值，也即少数服从多数原则，从而避免使用现有技术中的精准数据，提高数据质量分析的准确性；进一步地，由于层级0和层级1的待评估数据的第二供应方的数量较少，采用层级本身数据进行评估不准确，因此可以利用层级大于等于2的待评估数据的平均准确率、以及两者标签值比例的差异来确定层级0和层级1的待评估数据的准确率，从而进一步提高数据质量分析的准确性。

优选地，请一并参照图1和图2，步骤S105可以包括以下步骤：

步骤S201：分别根据所述层级大于等于2的待评估数据的标签值比例与层级0的待评估数据的标签值比例以及层级1的待评估数据的标签值比例的差值确定层级0标签值偏差度和层级1标签值偏差度。

本实施例中，为了区分层级大于等于2的待评估数据与层级0的待评估数据或层级1的待评估数据的差异，可以利用每一待评估数据在第二供应方提供的相同数据中各个标签值的数量之间的比例的差值来表示。也即确定层级0标签值偏差度和层级1标签值偏差度。

步骤S202：分别根据所述层级0标签值偏差度和层级1标签值偏差度以及预设线性参数计算层级0修正值和层级1修正值。

本实施例中，确定标签值偏差度对第一供应方在层级0或层级1的待评估数据的准确率的影响。具体而言，标签值偏差度与所述准确率可以是线性关系。该线性关系的参数可以预先分析确定。例如，通过采取少量数据，通过线下分析，计算准确率与标签值偏差度，最后应用统计软件建立回归模型。例如，线性模型中，标签值偏差度与修正值的的关系可以表示为a＝标签值偏差度×m+n，其中，a为修正值，m，n为通过回归分析确定的预设线性参数。

可以理解的是，预设线性参数可以根据实际的应用环境进行适应性的配置，本发明实施例对此不做限制。

步骤S203：分别根据所述平均准确率以及层级0修正值和层级1修正值的差值确定所述第一供应方在层级0和层级1待评估数据的准确率。

本实施例中，在确定修正值后，可以结合第一供应方在层级大于等于2的待评估数据中的平均准确率确定第一供应方在层级0和层级1待评估数据的准确率。例如，如果平均准确率的平均值为80％，那么层级0和层级1待评估数据的准确率为80％-a。

本实施例中，通过标签值偏差度和修正值，使得不可测评层级，也即层级0和层级1也可以考量进整体的数据评估，从而可以保证数据质量评估的精确性。

继续参照图1，步骤S102之后还可以包括以下步骤：对每一层级的待评估数据进行抽样，并根据预设样本总量以及每一层级的待评估数据的层总量和层方差确定每一层级的待评估数据的抽样数量。

本实施例中，由于待评估数据以及第二供应方提供的相同数据的数据量比较大，进行全量运算将会导致效率低，因此可以对每一层级的待评估数据进行抽样。更具体地，对第二供应方提供的与所述待评估数据相同的数据进行抽样，并在后续步骤中利用抽样后的数据进行准确率的计算。

在样本量确定的前提下，比例分配实际上并不是最有效的分配方案。为了提高估计效率，可根据每一层级的待评估数据的层总量和层方差调整样本量分配方案。具体地，层方差较小的数据即使抽取样本量很小，计算的结果与真实结果差距也不会很大，层方差较大的数据抽样数量少会导致计算值波动很大，因此需要增加样本量。故抽样数量与层方差可以是正比例关系。

可以理解的是，层方差可以根据先验信息判断和估算来获取。例如，对于性别数据，可以用同一ID下性别判断结果的一致程度来近似。

需要说明的是，也可以根据预设样本总量以及每一层级的待评估数据的层总量和层标准差确定每一层级的待评估数据的抽样数量；层标准差是层方差的平方根，层标准差和层方差都可以表征该层级的数据的离散性。在实际应用中，本领域技术人员可以根据实际需要确定使用层方差或层标准差。

本发明实施例通过对每一层级的待评估数据进行抽样，可以减小准确率计算过程的计算量，提高数据质量分析的效率；此外，利用层总量和层方差确定抽样数量，可以调整抽样数量在每一层级的比例；在待评估数据分散时，或者该层级的待评估数据数量较大时，相应地增加抽样数量，从而进一步提高数据质量分析的准确性。

本实施例中，由于各个供应方数据的总体并不可得，需要通过设计相应的抽样方案来取样。抽样是进行数据质量分析的重要环节，所抽样本的代表性对评估结果往往具有决定性影响。可以采用分层随机抽样的方法获取样本，通过分层样本建立准确性预测模型，进而对各个供应方的数据可信度进行评估。

在样本代表性的基础上获取一个满足事后“代表性检查”的样本是实际抽样的关键所在。此外，评估效果取决于所设计的抽样方案是否能够保证样本的代表性。例如，分层抽样若能合理、准确地分层，那么在层内即可进行简单随机抽样，通过总方差分解可得其抽样分布，且比纯简单随机抽样具有更小的方差，这就是说分层样本比简单随机样本更具有代表性，因而可以提高估计效率。但是，样本的代表性是相对而言的。对于可信度交叉验证问题，代表性样本不能单纯具有随机性，还要适当兼顾结构性。由于供应方数据总体的耦合结构复杂，这无疑将加大代表性样本的复杂程度，同时也给抽样方案设计带来难度。

因此，在抽样过程中，需要明确怎样的样本才具有代表性；然后，关注和解决如何根据实际情况尽可能提高样本的代表性程度，获取一个尽量较优的样本。由于缺乏数据的真实值作为比较基准，一般需要借助统计推断方法对来自不同数据源的数据信息进行融合，进而对数据质量进行评估。对于可验证层(也即层级大于等于2的数据)，可以采用投票方式进行，而对于层级0和层级1的数据，由于只有单一协同数据源，无法从统计理论角度进行数据质量分析，需要结合一定的假设条件才能给出一个估计。假设各供应方中不同质量的数据均匀混合，即认为可验证层和不可验证层的准确率相等，这样就可以利用可验证层的估计结果去估计不可验证层的准确率。进一步细化的话，例如各供应方中相同性别(或相同性别和年龄分组)的ID均匀混合，进而考虑年龄、性别等组合对不可验证层进行分层再估计。考虑到不可验证层内可能存在虚假数据，会直接影响准确率的估计结果，所以可以对该层的数据结构特征及其合理性进行验证，并通过一定的惩罚函数调整准确率估计结果。

进一步地，采用以下公式对每一层级的待评估数据进行抽样：

在实际应用中，层级0和层级1的层方差通常最大，按照前述的抽样方式其抽样数量也较大。但是，由于缺乏对比方，层级0和层级1的抽样数量应该为0。更高层级例如层级五、层级六、层级七等的层方差近似，但是层级七的层总量比层级五的层总量小的多，很可能100％抽样也无法做到支撑抽样，达不到预设样本总量。而样本量达不到预设样本总量时，会导致对待评估数据的准确率估计出错。

由此，对于抽样方案还需要进一步的改进。

优选地，请一并参照图1和图3，在步骤S102之后还可以包括以下步骤：

步骤S301：确定层级0待评估数据和层级1待评估数据的抽样数量为0。

本实施例中，由于层级0待评估数据和层级1待评估数据缺乏对比方，因此可以不参与计算准确率，也即不抽取样本。

步骤S302：对于层级大于等于2的待评估数据，对每一层级的待评估数据抽取样本，并计算每一层级的待评估数据的层方差。

本实施例中，每一层级的待评估数据的层方差可以通过预先抽取样本来计算层方差。本领域技术人员应当理解的是，计算层方差的可以采用现有技术中任意可实施的算法，本发明实施例对此不做限制。

可以理解的是，也可以计算每一层级的待评估数据的层标准差，层标准差为层方差的平方根。

步骤S303：对于层级大于等于2的待评估数据，根据预设样本总量以及每一层级的待评估数据的层总量和层方差进行预分配，以确定每一层级的待评估数据的第一抽样数量。

本实施例中，可以根据各个层级的数据的层总量和层方差之积的比例来分配总样本量。

具体地，可以采用前述公式进行预分配，得到第一抽样数量。进行预分配之后，每一层级待评估数据的第一抽样数量可能小于该层级的层总量，也可以等于该层级的层总量，还可以大于该层级的层总量。当任一层级的待评估数据的第一抽样数量小于等于该层级的层总量时，可以继续执行下一步骤(也即计算准确率)；如果存在第一抽样数量大于对应层级的层总量时，则会发生抽样总量减小的情况，影响准确率的计算，因此需要对这种情况下的抽样数量进行调整。

步骤S304：如果存在第一抽样数量大于该层级的待评估数据的层总量，则该层级的待评估数据的最终抽样数量为该层级的待评估数据的层总量。

步骤S305：根据预设样本总量与已抽取的最终抽样数量之差以及每一层级的待评估数据的层总量和层方差对其余各层级的待评估数据的第一抽样数量重新预分配，直至任意层级的待评估数据的最终抽样数量小于其层总量。

本实施例中，对于第一抽样数量大于层总量的该层级的待评估数据，可以直接将该层级的待评估数据的层总量作为该层级的待评估数据的最终抽样数量。对于除该层级的待评估数据之外的其他层级的待评估数据，可以利用预设样本总量与已抽取的最终抽样数量之差进行重新预分配，以避免出现样本总量减少的情况，保证预设样本总量不变，进而保证数据准确率预估的准确性。

进一步地，采用以下公式对其余各层级的待评估数据的第一抽样数量重新预分配：

在步骤S303至步骤S305的一种具体实施方式中，对每一层级的待评估数据的第一抽样数量按照奈曼(Neyman)分配进行预分配。公式为：

其中，n_h为层级h的待评估数据的抽样数量，N_h为层级h的待评估数据的层总量，L为层总数，S_h为层级h的待评估数据的方差，N_k为所述已抽取的最终抽样数量。如果存在n_k>N_k,那么层级层抽取全量数据N_k。对其余各层抽样数量重新预分配其中，N_k为层级K的层总量。重复上述过程直到对任意层级a，n_a<N_a，取最后一次预分配结果作为最终分配结果。

本发明实施例中，考虑到每一层级数据的差异，可以确定层级0和层级1的抽样数量为0；其他层级的抽样数量在利用层方差和层总量分配后，再进行调整；也即，抽样数量大于层总量时，会导致预设样本总量减小，为了避免这种情况，可以调整该层级待评估数据的抽样数量为层总量，并再对其他层级的抽样数量重新分配，从而进一步提高数据质量分析的准确性。

在本发明又一个应用场景中，请参照表3。表3示出的是对分层后的待评估数据进行抽样后进行数据质量分析的结果。

其中，层级1、层级2、层级3和层级4的原始层总量分别为70万、10万、10万和10万。根据每一层级的方差确定以及原始层总量确定的抽样数量分别为0、1000、800和700。根据抽样数量计算层级2、层级3和层级4的准确率分别为77％、81％和82％。其平均准确率为80％。此外，计算得到层级1的修正值为10％，则层级1的准确率为80％-10％＝70％。层级1、层级2、层级3和层级4的层权重分别为70％、10％、10％和10％。则总准确率＝70％×70％+77％×10％+81％×10％+82％×10％＝73％。

表3

请参照图4，数据质量分析装置40还可以包括：

待评估数据接收模块401，适于接收第一供应方提供的多个待评估数据；

层级确定模块402，适于对于每一待评估数据，按照第二供应方集合中提供相同数据的第二供应方的数量确定所述待评估数据的层级，所述层级等于所述第二供应方的数量，所述第二供应方不同于所述第一供应方；

准确数据计算模块403，适于统计层级大于等于2的每一待评估数据的标签值的数量，并将数量最大的标签值作为该待评估数据的准确数据；

第一准确率计算模块404，适于对于层级大于等于2的待评估数据，将所述第一供应方提供的待评估数据的标签值和所述待评估数据的准确数据进行比对，并根据比对结果确定所述第一供应方在每一层级的待评估数据的准确率；

第二准确率计算模块405，适于根据层级大于等于2的待评估数据的标签值比例、层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例和所述第一供应方在层级大于等于2的待评估数据的平均准确率，确定所述第一供应方在层级0和层级1的待评估数据的准确率，所述标签值比例为各个标签值的数量之间的比例；

总准确率计算模块406，适于根据所述第一供应方在每一层级的待评估数据的准确率和数据量权重，计算所述第一供应方的总准确率。

本实施例通过提供相同数据的第二供应方的数量确定所述待评估数据的层级，然后分别对每一层级的待评估数据做准确率评估，通过分层的方式可以提高数据质量分析的准确性；此外，计算准确率时利用的是数量最大的标签值，也即少数服从多数原则，从而避免使用现有技术中的精准数据，提高数据质量分析的准确性；进一步地，由于层级0和层级1的待评估数据的第二供应方的数量较少，采用层级本身数据进行评估不准确，因此可以利用层级大于等于2的待评估数据的平均准确率、以及两者标签值比例的差异来确定层级0和层级1的待评估数据的准确率，从而进一步提高数据质量分析的准确性。

优选地，一并参照图5，第二准确率计算模块405可以包括：

标签值偏差度计算单元4051，适于分别根据所述层级大于等于2的待评估数据的标签值比例与层级0的待评估数据的标签值比例以及层级1的待评估数据的标签值比例的差值确定层级0标签值偏差度和层级1标签值偏差度；

修正值计算单元4052，适于分别根据所述层级0标签值偏差度和层级1标签值偏差度以及预设线性参数计算层级0修正值和层级1修正值；

准确率计算单元4053，适于分别根据所述平均准确率以及层级0修正值和层级1修正值的差值确定所述第一供应方在层级0和层级1待评估数据的准确率。

优选地，图4所示数据质量分析装置40还可以包括：抽样模块(图未示)，适于对每一层级的待评估数据进行抽样，并根据预设样本总量以及每一层级的待评估数据的层总量和层方差确定每一层级的待评估数据的抽样数量。

本实施例通过对每一层级的待评估数据进行抽样，可以减小准确率计算过程的计算量，提高数据质量分析的效率；此外，利用层总量和层方差确定抽样数量，可以调整抽样数量在每一层级的比例；在待评估数据分散时，或者该层级的待评估数据数量较大时，相应地增加抽样数量，从而进一步提高数据质量分析的准确性。

进一步地，抽样模块采用以下公式对每一层级的待评估数据进行抽样：其中，n为预设样本总量，n_h为层级h的待评估数据的抽样数量，N_h为层级h待评估数据的层总量，L为层总数，S_h为层级h待评估数据的方差。

请参照图6，抽样模块60可以包括：

第一抽样数量确定单元601，适于确定层级0待评估数据和层级1待评估数据的抽样数量为0；

层方差计算单元602，适于对于层级大于等于2的待评估数据，对每一层级的待评估数据抽取样本，并计算每一层级的待评估数据的层方差；

预分配单元603，适于对于层级大于等于2的待评估数据，根据预设样本总量以及每一层级的待评估数据的层总量和层方差进行预分配，以确定每一层级的待评估数据的第一抽样数量；

调整单元604，适于在存在第一抽样数量大于该层级的待评估数据的层总量时，该层级的待评估数据的最终抽样数量为该层级的待评估数据的层总量；

最终抽样数量确定单元605，适于根据预设样本总量与已抽取的最终抽样数量之差以及每一层级的待评估数据的层总量和层方差对其余各层级的待评估数据的第一抽样数量重新预分配，直至任意层级的待评估数据的最终抽样数量小于其层总量。

进一步地，最终抽样数量确定单元605可以采用以下公式对其余各层级的待评估数据的第一抽样数量重新预分配：

关于所述数据质量分析装置40的工作原理、工作方式的更多内容，可以参照图1至图3中的相关描述，这里不再赘述。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行图1至图3中所示的数据质量分析方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。

本发明实施例还公开了一种终端，所述终端可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1至图3中所示的数据质量分析方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种数据质量分析方法，其特征在于，包括：

接收第一供应方提供的多个待评估数据；

对于每一待评估数据，按照第二供应方集合中提供相同数据的第二供应方的数量确定所述待评估数据的层级，所述层级等于所述第二供应方的数量，所述第二供应方不同于所述第一供应方；

统计层级大于等于2的每一待评估数据的标签值的数量，并将数量最大的标签值作为该待评估数据的准确数据；

对于层级大于等于2的待评估数据，将所述第一供应方提供的待评估数据的标签值和所述待评估数据的准确数据进行比对，并根据比对结果确定所述第一供应方在每一层级的待评估数据的准确率；

根据层级大于等于2的待评估数据的标签值比例、层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例和所述第一供应方在层级大于等于2的待评估数据的平均准确率，确定所述第一供应方在层级0和层级1的待评估数据的准确率，所述标签值比例为各个标签值的数量之间的比例；

根据所述第一供应方在每一层级的待评估数据的准确率和数据量权重，计算所述第一供应方的总准确率。

2.根据权利要求1所述的数据质量分析方法，其特征在于，所述根据层级大于等于2的待评估数据的标签值比例、层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例和所述第一供应方在层级大于等于2的待评估数据的平均准确率，确定所述第一供应方在层级0和层级1的待评估数据的准确率包括：

分别根据所述层级大于等于2的待评估数据的标签值比例与层级0的待评估数据的标签值比例以及层级1的待评估数据的标签值比例的差值确定层级0标签值偏差度和层级1标签值偏差度；

分别根据所述层级0标签值偏差度和层级1标签值偏差度以及预设线性参数计算层级0修正值和层级1修正值；

分别根据所述平均准确率以及层级0修正值和层级1修正值的差值确定所述第一供应方在层级0和层级1待评估数据的准确率。

3.根据权利要求1所述的数据质量分析方法，其特征在于，所述按照第二供应方集合中提供相同数据的第二供应方的数量确定所述待评估数据的层级之后还包括：

对每一层级的待评估数据进行抽样，并根据预设样本总量以及每一层级的待评估数据的层总量和层方差确定每一层级的待评估数据的抽样数量。

4.根据权利要求3所述的数据质量分析方法，其特征在于，采用以下公式对每一层级的待评估数据进行抽样：

5.根据权利要求3所述的数据质量分析方法，其特征在于，所述对每一层级待评估数据进行抽样包括：

确定层级0待评估数据和层级1待评估数据的抽样数量为0；

对于层级大于等于2的待评估数据，对每一层级的待评估数据抽取样本，并计算每一层级的待评估数据的层方差；

对于层级大于等于2的待评估数据，根据预设样本总量以及每一层级的待评估数据的层总量和层方差进行预分配，以确定每一层级的待评估数据的第一抽样数量；

如果存在第一抽样数量大于该层级的待评估数据的层总量，则该层级的待评估数据的最终抽样数量为该层级的待评估数据的层总量；

根据预设样本总量与已抽取的最终抽样数量之差以及每一层级的待评估数据的层总量和层方差对其余各层级的待评估数据的第一抽样数量重新预分配，直至任意层级的待评估数据的最终抽样数量小于其层总量。

6.根据权利要求5所述的数据质量分析方法，其特征在于，采用以下公式对其余各层级的待评估数据的第一抽样数量重新预分配：

7.一种数据质量分析装置，其特征在于，包括：

待评估数据接收模块，适于接收第一供应方提供的多个待评估数据；

层级确定模块，适于对于每一待评估数据，按照第二供应方集合中提供相同数据的第二供应方的数量确定所述待评估数据的层级，所述层级等于所述第二供应方的数量，所述第二供应方不同于所述第一供应方；

准确数据计算模块，适于统计层级大于等于2的每一待评估数据的标签值的数量，并将数量最大的标签值作为该待评估数据的准确数据；

第一准确率计算模块，适于对于层级大于等于2的待评估数据，将所述第一供应方提供的待评估数据的标签值和所述待评估数据的准确数据进行比对，并根据比对结果确定所述第一供应方在每一层级的待评估数据的准确率；

第二准确率计算模块，适于根据层级大于等于2的待评估数据的标签值比例、层级0的待评估数据的标签值比例或层级1的待评估数据的标签值比例和所述第一供应方在层级大于等于2的待评估数据的平均准确率，确定所述第一供应方在层级0和层级1的待评估数据的准确率，所述标签值比例为各个标签值的数量之间的比例；

总准确率计算模块，适于根据所述第一供应方在每一层级的待评估数据的准确率和数据量权重，计算所述第一供应方的总准确率。

8.根据权利要求7所述的数据质量分析装置，其特征在于，所述第二准确率计算模块包括：

标签值偏差度计算单元，适于分别根据所述层级大于等于2的待评估数据的标签值比例与层级0的待评估数据的标签值比例以及层级1的待评估数据的标签值比例的差值确定层级0标签值偏差度和层级1标签值偏差度；

修正值计算单元，适于分别根据所述层级0标签值偏差度和层级1标签值偏差度以及预设线性参数计算层级0修正值和层级1修正值；

准确率计算单元，适于分别根据所述平均准确率以及层级0修正值和层级1修正值的差值确定所述第一供应方在层级0和层级1待评估数据的准确率。

9.根据权利要求7所述的数据质量分析装置，其特征在于，还包括：

抽样模块，适于对每一层级的待评估数据进行抽样，并根据预设样本总量以及每一层级的待评估数据的层总量和层方差确定每一层级的待评估数据的抽样数量。

10.根据权利要求9所述的数据质量分析装置，其特征在于，所述抽样模块采用以下公式对每一层级的待评估数据进行抽样：

11.根据权利要求9所述的数据质量分析装置，其特征在于，所述抽样模块包括：

第一抽样数量确定单元，适于确定层级0待评估数据和层级1待评估数据的抽样数量为0；

层方差计算单元，适于对于层级大于等于2的待评估数据，对每一层级的待评估数据抽取样本，并计算每一层级的待评估数据的层方差；

预分配单元，适于对于层级大于等于2的待评估数据，根据预设样本总量以及每一层级的待评估数据的层总量和层方差进行预分配，以确定每一层级的待评估数据的第一抽样数量；

调整单元，适于在存在第一抽样数量大于该层级的待评估数据的层总量时，该层级的待评估数据的最终抽样数量为该层级的待评估数据的层总量；

最终抽样数量确定单元，适于根据预设样本总量与已抽取的最终抽样数量之差以及每一层级的待评估数据的层总量和层方差对其余各层级的待评估数据的第一抽样数量重新预分配，直至任意层级的待评估数据的最终抽样数量小于其层总量。

12.根据权利要求11所述的数据质量分析装置，其特征在于，所述最终抽样数量确定单元采用以下公式对其余各层级的待评估数据的第一抽样数量重新预分配：

13.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至6中任一项所述数据质量分析方法的步骤。

14.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至6中任一项所述数据质量分析方法的步骤。