CN107633257A - 数据质量评估方法及装置、计算机可读存储介质、终端 - Google Patents

数据质量评估方法及装置、计算机可读存储介质、终端 Download PDF

Info

Publication number
CN107633257A
CN107633257A CN201710699174.5A CN201710699174A CN107633257A CN 107633257 A CN107633257 A CN 107633257A CN 201710699174 A CN201710699174 A CN 201710699174A CN 107633257 A CN107633257 A CN 107633257A
Authority
CN
China
Prior art keywords
data
assessed
accuracy rate
value
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710699174.5A
Other languages
English (en)
Other versions
CN107633257B (zh
Inventor
汤奇峰
蒋宇
蒋宇一
王也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Data Trading Center Ltd
Original Assignee
Shanghai Data Trading Center Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Data Trading Center Ltd filed Critical Shanghai Data Trading Center Ltd
Priority to CN201710699174.5A priority Critical patent/CN107633257B/zh
Publication of CN107633257A publication Critical patent/CN107633257A/zh
Application granted granted Critical
Publication of CN107633257B publication Critical patent/CN107633257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种数据质量评估方法及装置、计算机可读存储介质、终端,所述数据质量评估方法包括:接收第一供应方提供的多个待评估数据;利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类,以得到分类结果;根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率。通过本发明可以提高属性类数据评估的准确性。

Description

数据质量评估方法及装置、计算机可读存储介质、终端
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据质量评估方法及装置、计算机可读存储介质、终端。
背景技术
大数据已经被广泛认为是一种战略性的新型资源,可以定义当今时代产生的海量数据以及相关的技术发展与服务创新。大数据蕴藏着巨大的商业价值。在数据流通领域,随着数据量迅速增长,不同数据源的数据质量参次不齐,数据质量有不同的概念和标准,数据质量一般包括数据的准确性、完整性、及时性、一致性等定量描述。对于大数据时代下的用户来说,其所需存储、处理的数据量大,数据来源和数据结构繁多复杂,为大数据的分析和应用带来很多挑战。用户要想充分发挥大数据所赋予的机遇和优势,前提是必须拥有可靠、准确、及时的高质量的数据,只有从高质量的大规模数据中提取隐含的、有用的信息,才能做出更加精准、更加符合市场和客户需求的决策。为此,用户需要更加注重大数据时代下的数据质量及其重要性。
现有技术中,市场上数据监测和数据质量评估方现有普遍的模式是购买一定数量的“精准数据”,在数据完成流通过程后,通过对比数据包与“精准数据”进行比对,形成准确性验证报告。
但是,由于市场上不存在属性类用户画像数据标签完全准确的标签数据,“精准数据”本身存在一定的误差,因此对于用“准确数据”进行数据质量验证的方法实际上有很大的误差。在实际应用中,我们无法得到数据的真实值,市场上不存在互联网静态数据标签完全准确的标签数据,比如即使来自运营商身份证验证的数据,依然存在手机卡借旁人使用,产生一定的准确性误差的问题。
发明内容
本发明解决的技术问题是如何提高属性类数据评估的准确性。
为解决上述技术问题,本发明实施例提供一种数据质量评估方法,数据质量评估方法包括:接收第一供应方提供的多个待评估数据;利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类,以得到分类结果;根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率。
可选的,所述多个待评估数据具有多个层级,相同层级的待评估数据具有相同的数据来源,所述利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类包括:对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类,以得到所述分类结果。
可选的,所述对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类包括:对每一层级的待评估数据进行抽样,并利用多个第二供应方提供的数据对抽样后的各个层级的待评估数据进行投票分类。
可选的,所述根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率包括:根据所述分类结果和每一层级的待评估数据的实际标签值计算每一层级的待评估数据的准确率;计算各个层级的待评估数据的准确率与对应的权重的乘积之和,以作为所述多个待评估数据的准确率,每一层级的权重为该层级的待评估数据的数量与所述多个待评估数据的总量的比值。
可选的,所述多个待评估数据为属性数据,每一属性数据包括主体标识和至少一个键值,每一键值对应一个实际标签值,所述分类结果包括对每一待评估数据投票后的估计标签值,每一待评估数据的估计标签值为针对该待评估数据的实际标签值的投票值。
可选的,所述利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类包括:对于每一待评估数据,确定所述多个第二供应方提供的数据中与待评估数据的主体标识相同的投票数据;根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,确定所述待评估数据的估计标签值,以作为所述分类结果。
可选的,所述根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,确定所述待评估数据的估计标签值包括:根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,计算所述待评估数据属于各个标签值的概率值;选取所述概率值最大的标签值作为所述待评估数据的估计标签值。
可选的,所述数据质量评估方法还包括:将所述待评估数据的主体标识与预设有效数据中的主体标识进行比对,以得到所述待评估数据中有效数据的数量;计算所述待评估数据中有效数据的数量与所述预设有效数据的总量的比值,以作为活跃ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
可选的,所述数据质量评估方法还包括:将所述待评估数据的主体标识与预设新增数据中的主体标识进行比对,以得到所述待评估数据中新增数据的数量;计算所述待评估数据中新增数据的数量与所述预设新增数据的总量的比值,以作为新增ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
可选的,所述利用第二供应方提供的数据进行投票分类之前包括:按照预设维度将所述待评估数据划分为多个评估对象,每一评估对象的准确率为该评估对象所包括的所有待评估数据的准确率。
可选的,所述多个待评估数据为流通之前的数据。
本发明实施例还公开了一种数据质量评估装置,数据质量评估装置包括:待评估数据接收模块,适于接收第一供应方提供的多个待评估数据;投票分类模块,适于利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类,以得到分类结果;准确率计算模块,适于根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率。
可选的,所述多个待评估数据具有多个层级,相同层级的待评估数据具有相同的数据来源,所述投票分类模块包括:分类单元,适于对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类,以得到所述分类结果。
可选的,分类单元对每一层级的待评估数据进行抽样,并利用多个第二供应方提供的数据对抽样后的各个层级的待评估数据进行投票分类。
可选的,所述准确率计算模块包括:层级准确率计算单元,适于根据所述分类结果和每一层级的待评估数据的实际标签值计算每一层级的待评估数据的准确率;准确率确定单元,适于计算各个层级的待评估数据的准确率与对应的权重的乘积之和,以作为所述多个待评估数据的准确率,每一层级的权重为该层级的待评估数据的数量与所述多个待评估数据的总量的比值。
可选的,所述多个待评估数据为属性数据,每一属性数据包括主体标识和至少一个键值,每一键值对应一个实际标签值,所述分类结果包括对每一待评估数据投票后的估计标签值,每一待评估数据的估计标签值为针对该待评估数据的实际标签值的投票值。
可选的,所述投票分类模块包括:投票数据确定单元,适于对于每一待评估数据,确定所述多个第二供应方提供的数据中与待评估数据的主体标识相同的投票数据;分类结果确定单元,适于根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,确定所述待评估数据的估计标签值,以作为所述分类结果。
可选的,所述分类结果确定单元包括:概率值计算子单元,适于根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,计算所述待评估数据属于各个标签值的概率值;估计标签值确定子单元,适于选取所述概率值最大的标签值作为所述待评估数据的估计标签值。
可选的,所述数据质量评估装置还包括:第一数据比对模块,适于将所述待评估数据的主体标识与预设有效数据中的主体标识进行比对,以得到所述待评估数据中有效数据的数量;活跃ID覆盖率计算模块,适于计算所述待评估数据中有效数据的数量与所述预设有效数据的总量的比值,以作为活跃ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
可选的,所述数据质量评估装置还包括:第二数据比对模块,适于将所述待评估数据的主体标识与预设新增数据中的主体标识进行比对,以得到所述待评估数据中新增数据的数量;新增ID覆盖率计算模块,适于计算所述待评估数据中新增数据的数量与所述预设新增数据的总量的比值,以作为新增ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
可选的,所述数据质量评估装置还包括:评估对象划分模块,适于按照预设维度将所述待评估数据划分为多个评估对象,每一评估对象的准确率为该评估对象所包括的所有待评估数据的准确率。
可选的,所述多个待评估数据为流通之前的数据。
本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述数据质量评估方法的步骤。
本发明实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述数据质量评估方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明技术方案接收第一供应方提供的多个待评估数据;利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类,以得到分类结果;根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率。相对于现有技术中采用单一的精准数据与待评估数据进行比对,本发明技术方案利用多个第二供应方提供的数据来对待评估数据进行投票分类,并利用分类结果计算所述多个待评估数据的准确率,在保证了分类结果的准确性的基础上,还提高了数据评估的准确性。
进一步,所述多个待评估数据具有多个层级,相同层级的待评估数据具有相同的数据来源,所述利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类包括:对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类,以得到所述分类结果。本发明技术方案中,由于相同层级的待评估数据具有相同的数据来源,因此相同层级的待评估数据具有相近的准确率,故通过对每一层级的待评估数据进行评估分类,可以进一步提高分类结果的准确性,进而提高数据评估的准确性。
进一步,所述对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类包括:对每一层级的待评估数据进行抽样,并利用多个第二供应方提供的数据对抽样后的各个层级的待评估数据进行投票分类。由于待评估数据的数据量通常较大,因此本发明技术方案通过对每一层级的待评估数据进行抽样,并对抽样后的待评估数据进行投票分类,可以在保证分类结果的准确性的基础上,减小计算量,提高数据评估的速度。
进一步,所述利用第二供应方提供的数据进行投票分类之前包括:按照预设维度将所述待评估数据划分为多个评估对象,每一评估对象的准确率为该评估对象所包括的所有待评估数据的准确率。本发明技术方案按照预设维度将待评估数据划分为多个评估对象,并以评估对象为整体进行评估,得到评估对象的准确率,可以满足实际应用中用户的多样化评估需求,提高数据质量评估方法的适用范围。
进一步,将所述待评估数据的主体标识与预设有效数据中的主体标识进行比对,以得到所述待评估数据中有效数据的数量;计算所述待评估数据中有效数据的数量与所述预设有效数据的总量的比值,以作为活跃ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。将所述待评估数据的主体标识与预设有效数据中的主体标识进行比对,以得到所述待评估数据中有效数据的数量;计算所述待评估数据中有效数据的数量与所述预设有效数据的总量的比值,以作为活跃ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。本发明技术方案通过计算活跃ID覆盖率和/或新增ID覆盖率,并结合多个待评估数据的准确率加入质量报告,从而实现了对待评估数据的多方面的评估,进而提高了对数据质量评估的性能。
附图说明
图1是本发明实施例一种数据质量评估方法的流程图;
图2是图1所示步骤S102的一种具体实施步骤的流程图;
图3是本发明实施例一种数据质量评估装置的结构示意图。
具体实施方式
如背景技术中所述,由于市场上不存在属性类用户画像数据标签完全准确的标签数据,“精准数据”本身存在一定的误差,因此对于用“准确数据”进行数据质量验证的方法实际上有很大的误差。在实际应用中,我们无法得到数据的真实值,市场上不存在互联网静态数据标签完全准确的标签数据,比如即使来自运营商身份证验证的数据,依然存在手机卡借旁人使用,产生一定的准确性误差的问题。
并且,本申请发明人还发现,目前的数据质量监测实际上是一种数据质量的事后监测,不能保证数据流通过程中数据的质量。
相对于现有技术中采用单一的精准数据与待评估数据进行比对,本发明技术方案利用多个第二供应方提供的数据来对待评估数据进行投票分类,并利用分类结果计算所述多个待评估数据的准确率,在保证了分类结果的准确性的基础上,还提高了数据评估的准确性。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种数据质量评估方法的流程图。
图1所示的数据质量评估方法可以包括以下步骤:
步骤S101:接收第一供应方提供的多个待评估数据;
步骤S102:利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类,以得到分类结果;
步骤S103:根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率。
本实施例中,所述待评估数据可以是属性类数据。具体而言,数据可以包括属性类(也称非行为类)数据和行为类数据。属性类数据可以表示用户的静态属性,可以用于用户的划分。例如可以是性别、年龄、学历、收入、资产、婚姻等。行为类数据可以表示用户的动态属性,例如可以是用户在互联网环境下的上网行为、娱乐偏好、社交习惯、出行方式、学习手段等。行为类数据可以在一定程度上能反映出该用户感兴趣的领域。
由于行为类数据是可变的,具有不稳定性,而属性类数据是不变的,因此在对数据的准确性进行评估时,主要是针对属性类数据进行评估的。
具体实施中,第一供应方具有待评估数据。则在步骤S101中,接收第一供应方提供的多个待评估数据。
进而在步骤S102中,利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类。其中,第二供应方提供的数据可以是预先选取的。具体而言,对于待评估数据,每个第二供应方可以根据自身提供的数据的标签值对其进行投票分类。分类结果可以表示对待评估数据的标签值的投票值。
具体而言,每一数据可以包括键值(key)和标签值(value)。其中,标签值可以是键值下的多个可选值。具体地,键值可以作为数据的标签,那么标签值与键值相对应。例如,在键值为年龄时,标签值可以为年龄值或年龄所在的数值范围。
进而在步骤S103中,根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率。具体而言,对于每一待评估数据,如果分类结果中的投票值与实际标签值一致,则该待评估数据是准确的;如果分类结果中的投票值与实际标签值不一致,则该待评估数据是不准确的。将所有待评估数据与其分类结果对比后,可以得到所有待评估数据的准确率。
进一步而言,分类结果中的投票值与实际标签值一致可以是投票值与实际标签值相同,或者投票值与实际标签值的误差在预设误差范围内,例如,实际标签值为数值范围18-20,投票值为数值范围21-22,则可以判定投票值与实际标签值一致。
相对于现有技术中采用单一的精准数据与待评估数据进行比对,本发明技术方案利用多个第二供应方提供的数据来对待评估数据进行投票分类,并利用分类结果计算所述多个待评估数据的准确率,在保证了分类结果的准确性的基础上,还提高了数据评估的准确性。
优选地,所述多个待评估数据具有多个层级,相同层级的待评估数据具有相同的数据来源。相应地,步骤S102可以包括以下步骤:对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类,以得到所述分类结果。
本实施例中,第一供应方可以预先根据待评估数据的数据来源将所述多个待评估数据划分为多个层级。具体地,可以根据待评估数据是否实名认证将所述多个待评估数据划分为两个层级。
具体而言,数据来源可以采用关联账户的数量来表示。那么可以根据待评估数据的关联账户的数量将所述多个待评估数据划分为多个层级。例如第一层级的待评估数据的关联账户的数量大于等于3,第二层级的待评估数据的关联账户的数量为2,第三层级的待评估数据的关联账户的数量为1,第四层级的待评估数据为剩余数据。
本实施例中得到的是针对每一层级中的每一待评估数据的分类结果。
由于相同层级的待评估数据具有相同的数据来源,因此相同层级的待评估数据具有相近的准确率,故通过对每一层级的待评估数据进行评估分类,可以进一步提高分类结果的准确性,进而提高数据评估的准确性。
进一步地,步骤S102可以包括以下步骤:对每一层级的待评估数据进行抽样,并利用多个第二供应方提供的数据对抽样后的各个层级的待评估数据进行投票分类。
本实施例中,可以采用随机抽样的方式进行抽样。由于相同层级的待评估数据具有相近的准确率,不同层级的待评估数据的准确率差异很大,因此,可以从各个层级的待评估数据中抽取样本来进行准确率的计算。
由于待评估数据的数据量通常较大,因此本发明实施例通过对每一层级的待评估数据进行抽样,并对抽样后的待评估数据进行投票分类,可以在保证分类结果的准确性的基础上,减小计算量,提高数据评估的速度。
进一步地,步骤S103可以包括以下步骤:根据所述分类结果和每一层级的待评估数据的实际标签值计算每一层级的待评估数据的准确率;计算各个层级的待评估数据的准确率与对应的权重的乘积之和,以作为所述多个待评估数据的准确率,每一层级的权重为该层级的待评估数据的数量与所述多个待评估数据的总量的比值。
本实施例中,可以根据分类结果确定每一层级的待评估数据的准确率。各个层级的待评估数据对应的权重可以是该层级的待评估数据的数量与所述多个待评估数据的总数的比值。则所述多个待评估数据的准确率可以采用以下公式来计算:其中,为总体准确率,为第i层的准确率(i=1,2,…,N),Wi为第i层的权重。
优选地,所述多个待评估数据为属性数据,每一属性数据包括主体标识(Identity,ID)和至少一个键值,每一键值对应一个实际标签值,所述分类结果包括对每一待评估数据投票后的估计标签值,每一待评估数据的估计标签值为针对该待评估数据的实际标签值的投票值。
具体地,可参照表1,表1可以表示属性数据的结构。
主体标识 键值 标签值 城市
323 性别 F SH
483 性别 M BJ
747 性别 M BJ
427 性别 F SH
表1
如表1所示,主体标识可以是身份证号或手机号的后三位,键值为性别,标签值为键值对应的值,其中F表示女性,M表示男性;城市表示数据所属的城市。
进一步地,如图2所示,步骤S102可以包括以下步骤:步骤S1021:对于每一待评估数据,确定所述多个第二供应方提供的数据中与待评估数据的主体标识相同的投票数据;步骤S1022:根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,确定所述待评估数据的估计标签值,以作为所述分类结果。
具体而言,第二供应方提供的数据也可以具有多个层级,每一层级的数据对应一个准确率。则所述投票数据所属的第二供应方的预设准确率可以是,所述投票数据所属的层级的数据的准确率。
本实施例中,由于第二供应方提供的数据相对准确,因此利用第二供应方提供的数据中与待评估数据的主体标识相同的投票数据,可以确定所述待评估数据的估计标签值,进而可以利用估计标签值对待评估数据的准确性进行判断。
具体而言,对于第二供应方,还可以通过抽样的方式对其预设准确率进行验证和修正。
进一步地,步骤S1022可以包括以下步骤:根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,计算所述待评估数据属于各个标签值的概率值;选取所述概率值最大的标签值作为所述待评估数据的估计标签值。
在本发明一具体应用场景中,待评估数据的主体标识为ID1,键值为性别;第二供应方A、B和C的预设准确率分别是95%、75%和65%。在无任何证据下,待评估数据的标签值为男和女的概率分别是50%。
其中,第二供应方A、B和C所提供的数据中对应ID1的标签值分别是女、男和男。则待评估数据属于标签值为男的概率值P1可以采用以下公式计算:P1=P(无任何证据下性别为男)×P(A判定其为女性|实际性别为男)×P(B判定其为男性|实际性别为男)×P(C判定其为男性|实际性别为男)=50%×(1-95%)×75%×65%=0.012。
待评估数据属于标签值为女的概率值P2可以采用以下公式计算:
P2=P(无任何证据下性别为女)×P(A判定其为女性|实际性别为女)×P(B判定其为女性|实际性别为女)×P(C判定其为女性|实际性别为女)=50%×95%×(1-75%)×(1-65%)=0.041575。
由于概率值P2大于概率值P1,因此主体标识为ID1的待评估数据的估计标签值为女。
进而,主体标识为ID1的待评估数据将其实际标签值与估计标签值进行比对,如果实际标签值为女,则该条待评估数据是准确的;如果实际标签值为男,则该条待评估数据是不准确的。
优选地,图1所示的数据质量评估方法还可以包括以下步骤:将所述待评估数据的主体标识与预设有效数据中的主体标识进行比对,以得到所述待评估数据中有效数据的数量;计算所述待评估数据中有效数据的数量与所述预设有效数据的总量的比值,以作为活跃ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
本实施例中,预设有效数据可以是预先选取的。本领域技术人员可以理解的是,对于不同的应用场景,有效数据的类型不同,本发明实施例可以根据实际的应用环境选取有效数据的类型和预设有效数据。
优选地,图1所示的数据质量评估方法还可以包括以下步骤:将所述待评估数据的主体标识与预设新增数据中的主体标识进行比对,以得到所述待评估数据中新增数据的数量;计算所述待评估数据中新增数据的数量与所述预设新增数据的总量的比值,以作为新增ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
本实施例中,预设新增数据可以是预先选取的。新增数据可以是相对于特定时刻的数据相比新增的数据。所述特定时刻可以是上一次计算新增ID覆盖率的时刻。
本发明实施例通过计算活跃ID覆盖率和/或新增ID覆盖率,并结合多个待评估数据的准确率加入质量报告,从而实现了对待评估数据的多方面的评估,进而提高了对数据质量评估的性能。
本发明一具体应用场景中,数据活跃ID覆盖率可以表征待评估数据的覆盖性。数据活跃ID覆盖率可以通过如下方式确定:待评估数据的ID总体与自动数据交换系统(Automatic Data Exchange System,ADX)在3个月内广播的有效ID总体通过对比碰撞得到有效ID数量,再除以该3个月内广播的有效ID总体中的ID总数量。
数据新增活跃ID覆盖率可以表征待评估数据的及时性。数据新增活跃ID覆盖率可以通过如下方式确定:待评估数据的ID总体与ADX在1个月内广播的新增有效ID总体通过对比碰撞得到新增有效ID数量,再除以该1个月内广播的新增有效ID总体中的ID总数量。
需要说明的是,有效ID总体与新增有效ID总体的选取时间范围可以根据实际的应用环境进行适应性地修改,本发明实施例对此不做限制。
优选地,在图1所示的步骤S102之前还可以包括以下步骤:按照预设维度将所述待评估数据划分为多个评估对象,每一评估对象的准确率为该评估对象所包括的所有待评估数据的准确率。
本实施例中,为了满足用户对各种类型数据进行质量评估的需求,可以按照预设维度将所述待评估数据划分为多个评估对象,并以评估对象为整体进行评估,得到评估对象的准确率,可以满足实际应用中用户的多样化评估需求,提高数据质量评估方法的适用范围。
具体而言,预设维度可以选自时刻、数据供应方、城市、键值。评估对象可以表示为:{Stijk},其中,t为统计日期,i为数据供应方代码(例如中国电信、中国联通等),j为城市代码(比如上海、北京等),k为键值代码(比如性别、年龄)。也就是说,可以根据预设维度将待评估数据分解为数据供应方i、各城市j、各键值k的评估对象{Stijk}。
本发明一具体应用场景中,可继续参照表1,可以按照预设维度城市,将表1中的待评估数据划分为两个评估对象。其中,评估对象1为城市为SH的待评估数据;评估对象2为城市为BJ的待评估数据。
优选地,所述多个待评估数据为流通之前的数据。
相对于现有技术中在数据流通之后对数据进行评估,本发明实施例在数据流通之前对待评估数据进行质量评估,可以保证待评估数据在数据流通过程中的准确性。
本发明实施例通过预先定义预设维度来划分为评估对象,利用本实施例的数据质量评估方法,在多个数据供应方提供的多源数据进行数据流通之前进行评估,以形成数据的质量报告。
图3是本发明实施例一种数据质量评估装置的结构示意图。
图3所示的数据质量评估装置30可以包括待评估数据接收模块301、投票分类模块302和准确率计算模块303。
其中,待评估数据接收模块301适于接收第一供应方提供的多个待评估数据;投票分类模块302适于利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类,以得到分类结果;准确率计算模块303适于根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率。
相对于现有技术中采用单一的精准数据与待评估数据进行比对,本发明实施例利用多个第二供应方提供的数据来对待评估数据进行投票分类,并利用分类结果计算所述多个待评估数据的准确率,在保证了分类结果的准确性的基础上,还提高了数据评估的准确性。
优选地,所述多个待评估数据具有多个层级,相同层级的待评估数据具有相同的数据来源,所述投票分类模块302可以包括分类单元3021,适于对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类,以得到所述分类结果。
由于相同层级的待评估数据具有相同的数据来源,因此相同层级的待评估数据具有相近的准确率,故通过对每一层级的待评估数据进行评估分类,可以进一步提高分类结果的准确性,进而提高数据评估的准确性。
进一步地,分类单元3021对每一层级的待评估数据进行抽样,并利用多个第二供应方提供的数据对抽样后的各个层级的待评估数据进行投票分类。
优选地,准确率计算模块303可以包括层级准确率计算单元3031和准确率确定单元3032。
其中,层级准确率计算单元3031适于根据所述分类结果和每一层级的待评估数据的实际标签值计算每一层级的待评估数据的准确率;准确率确定单元3032适于计算各个层级的待评估数据的准确率与对应的权重的乘积之和,以作为所述多个待评估数据的准确率,每一层级的权重为该层级的待评估数据的数量与所述多个待评估数据的总量的比值。
优选地,所述多个待评估数据为属性数据,每一属性数据包括主体标识和至少一个键值,每一键值对应一个实际标签值,所述分类结果包括对每一待评估数据投票后的估计标签值,每一待评估数据的估计标签值为针对该待评估数据的实际标签值的投票值。
优选地,投票分类模块302可以包括投票数据确定单元3022和分类结果确定单元3023。
其中,投票数据确定单元3022适于对于每一待评估数据,确定所述多个第二供应方提供的数据中与待评估数据的主体标识相同的投票数据;分类结果确定单元3023适于根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,确定所述待评估数据的估计标签值,以作为所述分类结果。
进一步地,分类结果确定单元3023可以包括概率值计算子单元30231和估计标签值确定子单元30232。
其中,概率值计算子单元30231适于根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,计算所述待评估数据属于各个标签值的概率值;估计标签值确定子单元30232适于选取所述概率值最大的标签值作为所述待评估数据的估计标签值。
优选地,图3所示的数据质量评估装置30还可以包括第一数据比对模块304和活跃ID覆盖率计算模块305。
其中,第一数据比对模块304适于将所述待评估数据的主体标识与预设有效数据中的主体标识进行比对,以得到所述待评估数据中有效数据的数量;活跃ID覆盖率计算模块305适于计算所述待评估数据中有效数据的数量与所述预设有效数据的总量的比值,以作为活跃ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
本发明实施例通过计算活跃ID覆盖率和/或新增ID覆盖率,并结合多个待评估数据的准确率加入质量报告,从而实现了对待评估数据的多方面的评估,进而提高了对数据质量评估的性能。
优选地,图3所示的数据质量评估装置30还可以包括第二数据比对模块306和新增ID覆盖率计算模块307。
其中,第二数据比对模块306适于将所述待评估数据的主体标识与预设新增数据中的主体标识进行比对,以得到所述待评估数据中新增数据的数量;新增ID覆盖率计算模块307适于计算所述待评估数据中新增数据的数量与所述预设新增数据的总量的比值,以作为新增ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
优选地,图3所示的数据质量评估装置30还可以包括评估对象划分模块308,评估对象划分模块308适于按照预设维度将所述待评估数据划分为多个评估对象,每一评估对象的准确率为该评估对象所包括的所有待评估数据的准确率。
本发明实施例按照预设维度将待评估数据划分为多个评估对象,并以评估对象为整体进行评估,得到评估对象的准确率,可以满足实际应用中用户的多样化评估需求,提高数据质量评估方法的适用范围。
优选地,所述多个待评估数据为流通之前的数据。
在数据流通系统中,数据质量评估装置30可以布置在数据互联分布式前置机系统上,并输出质量报告。
关于所述数据质量评估装置30的工作原理、工作方式的更多内容,可以参照图1至图2所示实施例的相关描述,这里不再赘述。
本发明实施例还公开了一种可读存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行图1或图2中所示的数据质量评估方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。
本发明实施例还公开了一种终端,所述终端可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1或图2中所示的数据质量评估方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (24)

1.一种数据质量评估方法,其特征在于,包括:
接收第一供应方提供的多个待评估数据;
利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类,以得到分类结果;
根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率。
2.根据权利要求1所述的数据质量评估方法,其特征在于,所述多个待评估数据具有多个层级,相同层级的待评估数据具有相同的数据来源,所述利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类包括:
对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类,以得到所述分类结果。
3.根据权利要求2所述的数据质量评估方法,其特征在于,所述对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类包括:
对每一层级的待评估数据进行抽样,并利用多个第二供应方提供的数据对抽样后的各个层级的待评估数据进行投票分类。
4.根据权利要求2所述的数据质量评估方法,其特征在于,所述根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率包括:
根据所述分类结果和每一层级的待评估数据的实际标签值计算每一层级的待评估数据的准确率;
计算各个层级的待评估数据的准确率与对应的权重的乘积之和,以作为所述多个待评估数据的准确率,每一层级的权重为该层级的待评估数据的数量与所述多个待评估数据的总量的比值。
5.根据权利要求1所述的数据质量评估方法,其特征在于,所述多个待评估数据为属性数据,每一属性数据包括主体标识和至少一个键值,每一键值对应一个实际标签值,所述分类结果包括对每一待评估数据投票后的估计标签值,每一待评估数据的估计标签值为针对该待评估数据的实际标签值的投票值。
6.根据权利要求5所述的数据质量评估方法,其特征在于,所述多个待评估数据与所述多个第二供应方提供的数据具有相同的键值,所述利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类包括:
对于每一待评估数据,确定所述多个第二供应方提供的数据中与待评估数据的主体标识相同的投票数据;
根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,确定所述待评估数据的估计标签值,以作为所述分类结果。
7.根据权利要求6所述的数据质量评估方法,其特征在于,所述根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,确定所述待评估数据的估计标签值包括:
根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,计算所述待评估数据属于各个标签值的概率值;
选取所述概率值最大的标签值作为所述待评估数据的估计标签值。
8.根据权利要求1所述的数据质量评估方法,其特征在于,还包括:
将所述待评估数据的主体标识与预设有效数据中的主体标识进行比对,以得到所述待评估数据中有效数据的数量;
计算所述待评估数据中有效数据的数量与所述预设有效数据的总量的比值,以作为活跃ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
9.根据权利要求1所述的数据质量评估方法,其特征在于,还包括:
将所述待评估数据的主体标识与预设新增数据中的主体标识进行比对,以得到所述待评估数据中新增数据的数量;
计算所述待评估数据中新增数据的数量与所述预设新增数据的总量的比值,以作为新增ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
10.根据权利要求1所述的数据质量评估方法,其特征在于,所述利用多个第二供应方提供的数据进行投票分类之前包括:
按照预设维度将所述待评估数据划分为多个评估对象,每一评估对象的准确率为该评估对象所包括的所有待评估数据的准确率。
11.根据权利要求1至10任一项所述的数据质量评估方法,其特征在于,所述多个待评估数据为流通之前的数据。
12.一种数据质量评估装置,其特征在于,包括:
待评估数据接收模块,适于接收第一供应方提供的多个待评估数据;
投票分类模块,适于利用多个第二供应方提供的数据对所述多个待评估数据进行投票分类,以得到分类结果;
准确率计算模块,适于根据所述分类结果和所述多个待评估数据的实际标签值计算所述多个待评估数据的准确率。
13.根据权利要求12所述的数据质量评估装置,其特征在于,所述多个待评估数据具有多个层级,相同层级的待评估数据具有相同的数据来源,所述投票分类模块包括:
分类单元,适于对于每一层级的待评估数据,利用多个第二供应方提供的数据进行投票分类,以得到所述分类结果。
14.根据权利要求13所述的数据质量评估装置,其特征在于,分类单元对每一层级的待评估数据进行抽样,并利用多个第二供应方提供的数据对抽样后的各个层级的待评估数据进行投票分类。
15.根据权利要求13所述的数据质量评估装置,其特征在于,所述准确率计算模块包括:
层级准确率计算单元,适于根据所述分类结果和每一层级的待评估数据的实际标签值计算每一层级的待评估数据的准确率;
准确率确定单元,适于计算各个层级的待评估数据的准确率与对应的权重的乘积之和,以作为所述多个待评估数据的准确率,每一层级的权重为该层级的待评估数据的数量与所述多个待评估数据的总量的比值。
16.根据权利要求12所述的数据质量评估装置,其特征在于,所述多个待评估数据为属性数据,每一属性数据包括主体标识和至少一个键值,每一键值对应一个实际标签值,所述分类结果包括对每一待评估数据投票后的估计标签值,每一待评估数据的估计标签值为针对该待评估数据的实际标签值的投票值。
17.根据权利要求16所述的数据质量评估装置,其特征在于,所述多个待评估数据与所述多个第二供应方提供的数据具有相同的键值,所述投票分类模块包括:
投票数据确定单元,适于对于每一待评估数据,确定所述多个第二供应方提供的数据中与待评估数据的主体标识相同的投票数据;
分类结果确定单元,适于根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,确定所述待评估数据的估计标签值,以作为所述分类结果。
18.根据权利要求17所述的数据质量评估装置,其特征在于,所述分类结果确定单元包括:
概率值计算子单元,适于根据所述投票数据的标签值和所述投票数据所属的第二供应方的预设准确率,计算所述待评估数据属于各个标签值的概率值;
估计标签值确定子单元,适于选取所述概率值最大的标签值作为所述待评估数据的估计标签值。
19.根据权利要求12所述的数据质量评估装置,其特征在于,还包括:
第一数据比对模块,适于将所述待评估数据的主体标识与预设有效数据中的主体标识进行比对,以得到所述待评估数据中有效数据的数量;
活跃ID覆盖率计算模块,适于计算所述待评估数据中有效数据的数量与所述预设有效数据的总量的比值,以作为活跃ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
20.根据权利要求12所述的数据质量评估装置,其特征在于,还包括:
第二数据比对模块,适于将所述待评估数据的主体标识与预设新增数据中的主体标识进行比对,以得到所述待评估数据中新增数据的数量;
新增ID覆盖率计算模块,适于计算所述待评估数据中新增数据的数量与所述预设新增数据的总量的比值,以作为新增ID覆盖率,并加入质量报告,所述质量报告还包括所述多个待评估数据的准确率。
21.根据权利要求12所述的数据质量评估装置,其特征在于,还包括:
评估对象划分模块,适于按照预设维度将所述待评估数据划分为多个评估对象,每一评估对象的准确率为该评估对象所包括的所有待评估数据的准确率。
22.根据权利要求12至21任一项所述的数据质量评估装置,其特征在于,所述多个待评估数据为流通之前的数据。
23.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至11中任一项所述数据质量评估方法的步骤。
24.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至11中任一项所述数据质量评估方法的步骤。
CN201710699174.5A 2017-08-15 2017-08-15 数据质量评估方法及装置、计算机可读存储介质、终端 Active CN107633257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710699174.5A CN107633257B (zh) 2017-08-15 2017-08-15 数据质量评估方法及装置、计算机可读存储介质、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710699174.5A CN107633257B (zh) 2017-08-15 2017-08-15 数据质量评估方法及装置、计算机可读存储介质、终端

Publications (2)

Publication Number Publication Date
CN107633257A true CN107633257A (zh) 2018-01-26
CN107633257B CN107633257B (zh) 2020-04-17

Family

ID=61100043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710699174.5A Active CN107633257B (zh) 2017-08-15 2017-08-15 数据质量评估方法及装置、计算机可读存储介质、终端

Country Status (1)

Country Link
CN (1) CN107633257B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509626A (zh) * 2018-04-08 2018-09-07 百度在线网络技术(北京)有限公司 用于验证数据的方法和装置
CN109903097A (zh) * 2019-03-05 2019-06-18 云南电网有限责任公司信息中心 一种用户画像构建方法以及用户画像构建装置
CN110309309A (zh) * 2019-07-03 2019-10-08 中国搜索信息科技股份有限公司 一种用于评估人工标注数据质量的方法及系统
CN112116395A (zh) * 2020-09-24 2020-12-22 北京百度网讯科技有限公司 一种用户数据处理方法、装置、电子设备以及存储介质
CN113434746A (zh) * 2021-06-23 2021-09-24 深圳市酷开网络科技股份有限公司 基于用户标签的数据处理方法、终端设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1653554A (zh) * 2002-05-20 2005-08-10 桑迪士克股份有限公司 通过使用关于所存储数据的质量的信息来增加错误校正码的效率和操作多电平存储系统
CN102708149A (zh) * 2012-04-01 2012-10-03 河海大学 数据质量管理方法和系统
CN103247008A (zh) * 2013-05-07 2013-08-14 国家电网公司 一种电力统计指标数据的质量评估方法
CN103530347A (zh) * 2013-10-09 2014-01-22 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及系统
CN106056287A (zh) * 2016-06-03 2016-10-26 华东理工大学 基于上下文对数据集进行数据质量评估的设备及方法
CN106202569A (zh) * 2016-08-09 2016-12-07 北京北信源软件股份有限公司 一种基于大数据量的清洗方法
CN106649840A (zh) * 2016-12-30 2017-05-10 国网江西省电力公司经济技术研究院 一种适用于电力数据质量评估与规则校验的方法
CN106845846A (zh) * 2017-01-23 2017-06-13 重庆邮电大学 大数据资产评估方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1653554A (zh) * 2002-05-20 2005-08-10 桑迪士克股份有限公司 通过使用关于所存储数据的质量的信息来增加错误校正码的效率和操作多电平存储系统
CN102708149A (zh) * 2012-04-01 2012-10-03 河海大学 数据质量管理方法和系统
CN103247008A (zh) * 2013-05-07 2013-08-14 国家电网公司 一种电力统计指标数据的质量评估方法
CN103530347A (zh) * 2013-10-09 2014-01-22 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及系统
CN106056287A (zh) * 2016-06-03 2016-10-26 华东理工大学 基于上下文对数据集进行数据质量评估的设备及方法
CN106202569A (zh) * 2016-08-09 2016-12-07 北京北信源软件股份有限公司 一种基于大数据量的清洗方法
CN106649840A (zh) * 2016-12-30 2017-05-10 国网江西省电力公司经济技术研究院 一种适用于电力数据质量评估与规则校验的方法
CN106845846A (zh) * 2017-01-23 2017-06-13 重庆邮电大学 大数据资产评估方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509626A (zh) * 2018-04-08 2018-09-07 百度在线网络技术(北京)有限公司 用于验证数据的方法和装置
CN109903097A (zh) * 2019-03-05 2019-06-18 云南电网有限责任公司信息中心 一种用户画像构建方法以及用户画像构建装置
CN110309309A (zh) * 2019-07-03 2019-10-08 中国搜索信息科技股份有限公司 一种用于评估人工标注数据质量的方法及系统
CN110309309B (zh) * 2019-07-03 2021-04-13 中国搜索信息科技股份有限公司 一种用于评估人工标注数据质量的方法及系统
CN112116395A (zh) * 2020-09-24 2020-12-22 北京百度网讯科技有限公司 一种用户数据处理方法、装置、电子设备以及存储介质
CN113434746A (zh) * 2021-06-23 2021-09-24 深圳市酷开网络科技股份有限公司 基于用户标签的数据处理方法、终端设备及存储介质
CN113434746B (zh) * 2021-06-23 2023-10-13 深圳市酷开网络科技股份有限公司 基于用户标签的数据处理方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN107633257B (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN107633257A (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN108665159A (zh) 一种风险评估方法、装置、终端设备及存储介质
Wu et al. Deep censored learning of the winning price in the real time bidding
Zhang et al. When are influentials equally influenceable? The strength of strong ties in new product adoption
CN107203912A (zh) 动态定价方法和装置
CN108629698A (zh) 一种保险产品的定价方法、装置、终端设备及存储介质
CN105956768A (zh) 一种基于组合赋权和改进topsis的发电企业竞争力评估方法
CN106815452A (zh) 一种作弊检测方法及装置
CN109446391A (zh) 用户阅读行为分析方法、电子装置、计算机可读存储介质
CN107545038A (zh) 一种文本分类方法与设备
CN107657357B (zh) 数据的处理方法及装置
CN109711875A (zh) 内容推荐方法及装置
Chukwuma et al. Effect of product packaging on the sales volume of small and medium scale bakery firms in South East Nigeria
CN107507023B (zh) 一种信息投放方法及装置
CN110858343A (zh) 一种数据资产价值评估系统以及方法
CN111325572B (zh) 一种数据处理方法及装置
Mardones et al. Evaluation of Non-survey Methods for the Construction of Regional Input–Output Matrices When There is Partial Historical Information
CN116562836A (zh) 多维迫选题性格测验的方法、装置、电子设备和存储介质
CN107240019A (zh) 评估用户业务偏好方法、用户投资风险偏好方法及装置
CN106815290B (zh) 一种基于图挖掘的银行卡归属的确定方法及装置
Stewart Jr Research report on corporate forecasts
CN115049429A (zh) 增益预测方法、装置和计算机设备
CN108805603A (zh) 营销活动质量评估方法、服务器及计算机可读存储介质
CN104715000A (zh) 用于支持评价分析的装置和方法
CN114285896A (zh) 信息推送方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant