数据质量确定方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体涉及一种数据质量确定方法、装置、电子设备及存储介质。
背景技术
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。数据仓库中的每一例数据应用于整个体系,理论上将产生正面或负面的作用,这个作用的量化评价值可以定义为应用效能;数据仓库中每一条数据的价值可以基于应用效能而量化。
在大数据时代,数据质量直接关系到数据挖掘、机器学习的质量。同时,数据的质量及价值也会随着时间而逐渐衰减,因此,需要在事中能量化评估数据的质量。
当前评估数据质量的方案通常是两类:事前的定性评价和事前的量化评估。本公开发明人发现,这两类数据质量评估方法都局限于事前评估,不能进行基于反馈的事中质量管理;没有考虑到同一数据源的继承关系,也没有考虑到数据在实际应用中的价值波动;也没有考虑大数据体系、多源数据体系中,数据质量因外部变化而产生的变化;数据质量评估模型或核心参数均为人定,非客观。
发明内容
本公开实施例提供一种数据质量确定方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种数据质量确定方法。
具体的,所述数据质量确定方法,包括:
获取目标应用场景下与待评价数据质量相关的预设因子;其中,所述预设因子包括以下至少之一:所述待评价数据所在目标数据源在所述目标应用场景下前一时间周期的质量、所述待评价数据在所述目标应用场景下当前时间周期的应用效能、所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的质量、与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量;
根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量。
进一步地,所述数据质量确定方法还包括:
确定所述待评价数据在所述目标应用场景下当前时间周期每次被调用后得到的多个反馈信息;
根据所述多个反馈信息确定所述待评价数据在所述目标应用场景下当前时间周期的应用效能。
进一步地,所述根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量,包括以下至少之一:
根据所述目标数据源在所述目标应用场景下前一时间周期的质量、预设衰减因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
根据所述待评价数据在所述目标应用场景下当前时间周期的应用效能、所述待评价数据在所述目标应用场景下当前时间周期被调用的次数,确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
根据所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的质量、所述种子数据集在所述目标应用场景下当前时间周期与所述待评价数据之间的相似度,确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
根据与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量、所述相关数据在所述目标应用场景下当前时间周期与所述待评价数据之间的相关度,确定所述待评价数据以及所述当前时间周期在所述目标应用场景下的质量。
进一步地,所述根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量,还包括:
在所述当前时间周期为所述待评价数据的初始评价周期时,根据所述目标数据源在所述目标应用场景下当前时间周期之前的质量确定所述待评价数据在所述目标应用场景下当前时间周期的质量。
进一步地,所述根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量,包括:
根据以下至少两个值之和确定所述待评价数据在所述目标应用场景下当前时间周期的质量:
所述目标数据源在所述目标应用场景下前一时间周期的平均质量被所述预设衰减因子衰减后得到的值;
根据所述待评价数据在所述目标应用场景下当前时间周期的应用效能与所述待评价数据在所述当前时间周期内被调用的次数之乘积值;
根据所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的平均质量以及所述种子数据集与所述待评价数据之间的相似度之乘积值;
根据与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量以及所述相关数据与所述待评价数据之间的相关度之乘积值。
进一步地,所述根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量,包括:
根据如下公式确定所述待评价数据在所述目标应用场景下当前时间周期的质量:
其中,Hmxi表示所述待评价数据x在当前时间周期i以及所述目标应用场景m下的质量,Amn0表示所述目标数据源n在当前时间周期i之前以及所述目标应用场景m下的平均质量,Amn(i-1)表示所述目标数据源n在前一时间周期i-1以及所述目标应用场景m下的平均质量,zmnxi表示所述待评价数据x在所述当前时间周期i以及所述目标应用场景m下的应用效能,gmnxi表示所述待评价数据x在所述当前时间周期i以及所述目标应用场景m下的调用次数,Tmn(i-1)表示所述目标数据源x中预设种子数据集在前一时间周期i-1以及所述目标应用场景m下的平均质量,λmx(i-1)表示所述目标数据源x中预设种子数据集在前一时间周期i-1以及所述目标应用场景m下与所述待评价数据x之间的相似度;Mmx(i-1)表示与所述待评价数据x的任一相关数据在前一时间周期i-1以及所述目标应用场景m下的质量,δ表示所述相关数据在前一时间周期i-1以及所述目标应用场景m下与所述待评价数据之间的相关度,Δ为人工审核的额外调整分,β为预设系数。
第二方面,本公开实施例中提供了一种数据质量确定装置。
具体的,所述数据质量确定装置,包括:
获取模块,被配置为获取目标应用场景下与待评价数据质量相关的预设因子;其中,所述预设因子包括以下至少之一:所述待评价数据所在目标数据源在所述目标应用场景下前一时间周期的质量、所述待评价数据在所述目标应用场景下当前时间周期的应用效能、所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的质量、与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量;
第一确定模块,被配置为根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量。
进一步地,所述数据质量确定装置,还包括:
第二确定模块,被配置为确定所述待评价数据在所述目标应用场景下当前时间周期每次被调用后得到的多个反馈信息;
第三确定模块,被配置为根据所述多个反馈信息确定所述待评价数据在所述目标应用场景下当前时间周期的应用效能。
进一步地,所述第一确定模块,包括以下至少之一:
第一确定子模块,被配置为根据所述目标数据源在所述目标应用场景下前一时间周期的质量、预设衰减因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
第二确定子模块,被配置为根据所述待评价数据在所述目标应用场景下当前时间周期的应用效能、所述待评价数据在所述目标应用场景下当前时间周期被调用的次数,确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
第三确定子模块,被配置为根据所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的质量、所述种子数据集在所述目标应用场景下当前时间周期与所述待评价数据之间的相似度,确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
第四确定子模块,被配置为根据与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量、所述相关数据在所述目标应用场景下当前时间周期与所述待评价数据之间的相关度,确定所述待评价数据以及所述当前时间周期在所述目标应用场景下的质量。
进一步地,所述第一确定模块,还包括:
第五确定子模块,被配置为在所述当前时间周期为所述待评价数据的初始评价周期时,根据所述目标数据源在所述目标应用场景下当前时间周期之前的质量确定所述待评价数据在所述目标应用场景下当前时间周期的质量。
进一步地,所述第一确定模块,包括:
第六确定子模块,被配置为根据以下至少两个值之和确定所述待评价数据在所述目标应用场景下当前时间周期的质量:
所述目标数据源在所述目标应用场景下前一时间周期的平均质量被所述预设衰减因子衰减后得到的值;
根据所述待评价数据在所述目标应用场景下当前时间周期的应用效能与所述待评价数据在所述当前时间周期内被调用的次数之乘积值;
根据所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的平均质量以及所述种子数据集与所述待评价数据之间的相似度之乘积值;
根据与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量以及所述相关数据与所述待评价数据之间的相关度之乘积值。
进一步地,所述第一确定模块,包括:
第十一确定子模块,被配置为根据如下公式确定所述待评价数据在所述目标应用场景下当前时间周期的质量:
其中,Hmxi表示所述待评价数据x在当前时间周期i以及所述目标应用场景m下的质量,Amn0表示所述目标数据源n在当前时间周期i之前以及所述目标应用场景m下的平均质量,Amn(i-1)表示所述目标数据源n在前一时间周期i-1以及所述目标应用场景m下的平均质量,zmnxi表示所述待评价数据x在所述当前时间周期i以及所述目标应用场景m下的应用效能,gmnxi表示所述待评价数据x在所述当前时间周期i以及所述目标应用场景m下的调用次数,Tmn(i-1)表示所述目标数据源x中预设种子数据集在前一时间周期i-1以及所述目标应用场景m下的平均质量,λmx(i-1)表示所述目标数据源x中预设种子数据集在前一时间周期i-1以及所述目标应用场景m下与所述待评价数据x之间的相似度;Mmx(i-1)表示与所述待评价数据x的任一相关数据在前一时间周期i-1以及所述目标应用场景m下的质量,δ表示所述相关数据在前一时间周期i-1以及所述目标应用场景m下与所述待评价数据之间的相关度,Δ为人工审核的额外调整分,β为预设系数。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,数据质量确定装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持数据质量确定装置执行上述第一方面中数据质量确定方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述数据质量确定装置还可以包括通信接口,用于数据质量确定装置与其他设备或通信网络通信。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现第一方面所述的方法步骤。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储数据质量确定装置所用的计算机指令,其包含用于执行上述第一方面中数据质量确定方法所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例通过获取目标应用场景下与待评价数据质量相关的预设因子,并基于预设因子确定待评价数据在当前时间周期、在目标应用场景下的质量。预设因子包括目标应用场景下待评价数据所在目标数据源、种子数据集和/或其他数据源中的相关数据在前一时间周期、在同样的目标应用场景下的质量,预设因子还可以包括待评价数据在当前时间周期被该目标应用场景调用后所得到的应用效能。本公开实施例通过上述与待评价数据相关的各种数据在前一时间周期、并在同样的应用场景下的质量以及待评价数据在当前时间周期、同样的应用场景下的有效性反馈确定待评价数的质量,能够在多数据源、多应用的大数据环境下,无论是新数据零启动场景、还是老数据新应用场景,都能根据数据源、自身的应用效能、同源相似种子数据、异源相似数据等维度,对该待评价数据进行价值量化评估,并随着时间周期波动而不断变化。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的数据质量确定方法的流程图;
图2示出根据本公开另一实施方式的数据质量确定方法的流程图;
图3示出根据本公开一实施方式的数据质量确定装置的结构框图;
图4示出根据本公开另一实施方式的数据质量确定装置的结构框图;
图5是适于用来实现根据本公开一实施方式的数据质量确定方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出根据本公开一实施方式的数据质量确定方法的流程图。如图1所示,所述数据质量确定方法包括以下步骤S101-S102:
在步骤S101中,获取目标应用场景下与待评价数据质量相关的预设因子;其中,所述预设因子包括以下至少之一:所述待评价数据所在目标数据源在所述目标应用场景下前一时间周期的质量、所述待评价数据在所述目标应用场景下当前时间周期的应用效能、所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的质量、与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量;
在步骤S102中,根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量。
经过长期数据运营,可以发现数据质量的量化很关键,但影响数据质量的因素很多,且多为不可掌握因素,例如外部环境改变,人改变等等。因此,本公开实施例针对数据仓库中的每个数据源以及每个数据源下的每条数据进行质量评估,每条数据的质量可以随着时间周期的变化而不断地调整。
本实施例中,数据应用场景可以包括多种,具体根据数据仓库中数据性质的不同而不同。目标应用场景为数据应用场景中的任一应用场景。数据源为数据仓库中的一组数据,目标数据源为数据仓库中的任一数据源,待评价数据为某一数据源中的任意一条数据。目标应用场景调用数据仓库内数据的流程如下:①目标应用场景m向数据仓库发起数据调用请求,通过入参告诉数据仓库需要调用什么样的数据;②数据仓库根据入参和事先约定的数据应用场景m应用数据规则(调用第x条数据则输出“高危”或“1”,或者直接输出这条数据)选择是否调用数据;若不调用则直接回复0/null。例如若选择调用来自目标数据源n中的第x条数据,则将结果(不一定直接输出第x条数据,可以在第x条数据上做逻辑、规则的变化)输出给目标应用场景m;③目标应用场景m收到输出结果后进行应用,并最终反馈应用该第x条数据得到的正负应用效能。
本实施例中,待评价数据的应用效能可以根据目标应用场景通过调用并应用目标数据源中的该待评价数据得到,也即该应用效能为该待评价数据的实际价值,假如待评价数据在目标应用场景下应用后防止了某种风险或者产生了价值,则可以认为该待评价数据的应用效能为正,可以量化为正或1,如果待评价数据在目标应用场景下应用后导致收到投诉等负面影响,则可以认为该待评价数据的应用效能为负,可以量化为负或-1等。应用效能的量化方式可以根据实际情况定义,在此不做限制。
待评价数据的质量除了跟数据应用场景相关外,还会随着时间的变化不断变化,因此本实施例中在评估待评价数据的质量时同时考虑了时间周期。时间周期的长短可以根据时间情况确定,在此不做限制。
本实施例采用的上述方法在待评价数据存储至数据仓库,并投入使用的初始时间周期内就可以对待评价数据进行质量评估。例如,在第Q(Q大于等于1)个时间周期时,在目标应用场景m下第x条待评价数据(属于第n个目标数据源)开始正式进行应用;在第Q+i(i大于等于1)个时间周期(也即当前时间周期)时,在目标应用场景m下第x条待评价数据(属于第n个目标数据源)的质量根据上述预设因子中的一个或多个来计算。
本公开实施例通过获取目标应用场景下与待评价数据质量相关的预设因子,并基于预设因子确定待评价数据在当前时间周期、在目标应用场景下的质量。预设因子包括目标应用场景下待评价数据所在目标数据源、种子数据集和/或其他数据源中的相关数据在前一时间周期、在同样的目标应用场景下的质量,预设因子还可以包括待评价数据在当前时间周期被该目标应用场景调用后所得到的应用效能。本公开实施例通过上述与待评价数据相关的各种数据在前一时间周期、并在同样的应用场景下的质量以及待评价数据在当前时间周期、同样的应用场景下的有效性反馈确定待评价数的质量,能够在多数据源、多应用的大数据环境下,无论是新数据零启动场景、还是老数据新应用场景,都能根据数据源、自身的应用效能、同源相似种子数据、异源相似数据等维度,对该待评价数据进行价值量化评估,并随着时间周期波动而不断变化。
在本实施例的一个可选实现方式中,如图2所示,所述方法还进一步包括:
在步骤S201中,确定所述待评价数据在所述目标应用场景下当前时间周期每次被调用后得到的多个反馈信息;
在步骤S202中,根据所述多个反馈信息确定所述待评价数据在所述目标应用场景下当前时间周期的应用效能。
该可选的实现方式下,待评价数据在当前时间周期内可以被目标应用场景调用多次,每次调用后目标应用场景可以根据应用结果给出反馈信息,反馈信息可以包括此次调用并应用待评价数据产生了正面的作用(如待评价数据在目标应用场景下应用后防止了某种风险或者产生了价值)或者负面的作用(如待评价数据在目标应用场景下应用后导致收到投诉),则可以根据每次调用的反馈信息确定待评价数据在当前时间周期内的应用效能。假如正应用效能被设置为1,负应用效能被设置为-1,那么在当前时间周期内被调用了g次,产生正应用效能的次数为h次,负应用效能的次数为g-h次,那么待评价数据在当前时间周期下的总应用效能值z=1*h+(-1)*(g-h)。
在本实施例的一个可选实现方式中,所述步骤S102,即根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量的步骤,进一步还包括以下至少之一:
根据所述目标数据源在所述目标应用场景下前一时间周期的质量、预设衰减因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
根据所述待评价数据在所述目标应用场景下当前时间周期的应用效能、所述待评价数据在所述目标应用场景下当前时间周期被调用的次数,确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
根据所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的质量、所述种子数据集在所述目标应用场景下当前时间周期与所述待评价数据之间的相似度,确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
根据与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量、所述相关数据在所述目标应用场景下当前时间周期与所述待评价数据之间的相关度,确定所述待评价数据以及所述当前时间周期在所述目标应用场景下的质量。
该可选的实现方式中,待评价数据是包括多条数据的目标数据源中的其中一条数据,基于数据继承这一特性可以知道待评价数据的质量高低与数据源的平均质量相关,因此本实施例中可以根据待评价数据所在目标数据源的质量来确定,目标数据源的质量可以根据目标数据源中各条数据的质量平均值来衡量,由于在确定待评价数据在当前时间周期内的质量时,当前时间周期内目标数据源的平均质量还不确定,因此可以根据前一时间周期目标数据源的平均质量来确定待评价数据;此外,随着待评价数据投入使用时间的增长,目标数据源对其质量的影响会逐渐减弱,因此还可以预先定义一预设衰减因子,随着时间周期的增长使得目标数据源的质量对待评价数据质量的影响减弱。
待评价数据的质量还跟待评价数据在当前时间周期内被调用和在目标应用场景下应用后反馈的应用效能有关,因此可以根据待评价数据在当前时间周期的总应用效能值来确定;此外,调用次数越多的待评价数据其活跃程度越高,其质量分数可以越高,因此还可以在总应用效能值的基础上考虑调用次数后,确定待评价数据的质量。
待评价数据的质量还跟目标数据源中的其他数据在目标应用场景下的质量相关,尤其是跟目标数据源中的种子数据集相似的情况下。所述目标数据源中预设的种子数据集可以是目标数据源中活跃度高和/或质量高的多条数据。种子数据集可以在每个时间周期完成后根据活跃度和/或质量动态调整。待评价数据如果与种子数据集相似度高,则其质量相应也会高,而如果跟种子数据集的相似度较低,则质量相应也会低。待评价数据与种子数据集之间的相似度的计算规则可以根据实际情况设置,例如两者所代表的用户之间较为相似,则可以认为两者较为相似,相似度可以根据用户之间的相似度来确定。因此,本公开实施例还通过种子数据集前一时间周期的质量以及与带评价数据的相关度确定待评价数据的质量。
待评价数据也与目标数据之外的其他数据源中的一些相关数据在目标应用场景下的质量相关。如果其他数据源中与待评价数据的相关性很高的数据的质量较高,则待评价数据的质量也会相对较高,反之,如果其他数据源中与待评价数据的相关度很高的数据的质量较低,则待评价数据的质量也会相对较低。其他数据源中的其他数据与待评价数据的相关性可以根据实际情况下而定,例如其他数据与待评价数据之间发生过数据交互,则两者可以认为具有相关性,而相关度可以基于交互频率、次数等确定。在相关数据较多的情况下,可以预先设置一阈值,将相关度高于阈值的相关数据的质量确定为预设因子。因此,本公开实施例还根据与待评价数据相似度较高的其他数据源中的数据的质量衡量待评价数据的质量。
在本实施例的一个可选实现方式中,所述步骤S102,即根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量的步骤,进一步还包括以下步骤:
在所述当前时间周期为所述待评价数据的初始评价周期时,根据所述目标数据源在所述目标应用场景下当前时间周期之前的质量确定所述待评价数据在所述目标应用场景下当前时间周期的质量。
该可选的实现方式中,当待评价数据初始投入使用时,由于还没有前一周期的数据,因此可以以其所在目标数据源在目标应用场景下的质量来确定。在待评价数据开始投入使用时,其所在的目标数据源通常都是已经在使用当中了,除非是整个数据源都开始投入使用或者其他情况,因此目标数据源在目标应用场景下的平均质量可以基于目标数据源中其他数据的质量确定,并且可以作为待评价数据的初始质量的确定依据。
在本实施例的一个可选实现方式中,所述步骤S102,即根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量的步骤,进一步包括以下步骤:
根据以下至少两个值之和确定所述待评价数据在所述目标应用场景下当前时间周期的质量:
所述目标数据源在所述目标应用场景下前一时间周期的平均质量被所述预设衰减因子衰减后得到的值;
根据所述待评价数据在所述目标应用场景下当前时间周期的应用效能与所述待评价数据在所述当前时间周期内被调用的次数之乘积值;
根据所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的平均质量以及所述种子数据集与所述待评价数据之间的相似度之乘积值;
根据与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量以及所述相关数据与所述待评价数据之间的相关度之乘积值。
该可选的实现方式中,通过将上述多个预设因子中的至少两个之和来确定待评价数据在目标应用场景下当前时间周期的质量,并且还可以根据预设因子的具体性质进行参数调整。例如,可以将目标数据源的平均数据质量通过衰减因子进行衰减后再叠加其他预设因子,主要是因为随着待评价数据投入使用的时间增加,目标数据源对待评价数据质量的影响在减弱;待评价数据本身的应用效能,由于其被调用的次数越多,表示活跃度越高,而活跃度越高的比活跃度越低的待评价数据的质量相对来说要高,因此可以在应用效能的基础上乘以调用次数;预设种子数据集的质量对待评价数据的质量的影响大小与它们之间的相似度相关,因此可以在预设种子数据集的质量基础上乘以相似度;其他数据源中与待评价数据集相关的数据的质量对待评价数据的质量的影响大小也与它们之间的相关度相关,因此可以在相关数据的质量基础上乘以相关度。种子数据集与待评价数据之间的相似度以及相关数据与待评价数据之间的相关度可以根据数据实际性质及应用场景等预先确定,例如种子数据集与待评价数据集之间的相似度可以基于数据所代表的用户之间的相似度等来确定相似性,而相关数据与待评价数据之间的相关度可以基于两者之间是否发生过数据交互来确定,相关度的大小可以基于交互频率等确定,具体可以根据实际情况而定,在此不做限制。
在本实施例的一个可选实现方式中,所述步骤S102,即根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量的步骤,进一步还包括以下步骤:
根据如下公式确定所述待评价数据在所述目标应用场景下当前时间周期的质量:
其中,Hmxi表示所述待评价数据x在当前时间周期i以及所述目标应用场景m下的质量,Amn0表示所述目标数据源n在当前时间周期i之前以及所述目标应用场景m下的平均质量,Amn(i-1)表示所述目标数据源n在前一时间周期i-1以及所述目标应用场景m下的平均质量,zmnxi表示所述待评价数据x在所述当前时间周期i以及所述目标应用场景m下的应用效能,gmnxi表示所述待评价数据x在所述当前时间周期i以及所述目标应用场景m下的调用次数,Tmn(i-1)表示所述目标数据源x中预设种子数据集在前一时间周期i-1以及所述目标应用场景m下的平均质量,λmx(i-1)表示所述目标数据源x中预设种子数据集在前一时间周期i-1以及所述目标应用场景m下与所述待评价数据x之间的相似度;Mmx(i-1)表示与所述待评价数据x的任一相关数据在前一时间周期i-1以及所述目标应用场景m下的质量,δ表示所述相关数据在前一时间周期i-1以及所述目标应用场景m下与所述待评价数据之间的相关度,Δ为人工审核的额外调整分,β为预设系数。
该可选的实现方式中,通过上面的公式计算待评价数据的质量。从上述公式可以看出,待评价数据的质量与多个因素相关,且不同的因素可以从不同方面反映出待评价数据的质量高低,例如目标数据源的质量因子可以体现质量的继承性,种子数据集的质量因子可以规避待评价数据本身质量高但是由于活跃度不高,最终导致计算出来的质量低下的问题,待评价数据自身的应用效能是决定待评价数据质量高低的关键因素。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图3示出根据本公开一实施方式的数据质量确定装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示,所述数据质量确定装置包括:
获取模块301,被配置为获取目标应用场景下与待评价数据质量相关的预设因子;其中,所述预设因子包括以下至少之一:所述待评价数据所在目标数据源在所述目标应用场景下前一时间周期的质量、所述待评价数据在所述目标应用场景下当前时间周期的应用效能、所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的质量、与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量;
第一确定模块302,被配置为根据所述预设因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量。
经过长期数据运营,可以发现数据质量的量化很关键,但影响数据质量的因素很多,且多为不可掌握因素,例如外部环境改变,人改变等等。因此,本公开实施例针对数据仓库中的每个数据源以及每个数据源下的每条数据进行质量评估,每条数据的质量可以随着时间周期的变化而不断地调整。
本实施例中,数据应用场景可以包括多种,具体根据数据仓库中数据性质的不同而不同。目标应用场景为数据应用场景中的任一应用场景。数据源为数据仓库中的一组数据,目标数据源为数据仓库中的任一数据源,待评价数据为某一数据源中的任意一条数据。目标应用场景调用数据仓库内数据的流程如下:①目标应用场景m向数据仓库发起数据调用请求,通过入参告诉数据仓库需要调用什么样的数据;②数据仓库根据入参和事先约定的数据应用场景m应用数据规则(调用第x条数据则输出“高危”或“1”,或者直接输出这条数据)选择是否调用数据;若不调用则直接回复0/null。例如若选择调用来自目标数据源n中的第x条数据,则将结果(不一定直接输出第x条数据,可以在第x条数据上做逻辑、规则的变化)输出给目标应用场景m;③目标应用场景m收到输出结果后进行应用,并最终反馈应用该第x条数据得到的正负应用效能。
本实施例中,待评价数据的应用效能可以根据目标应用场景通过调用并应用目标数据源中的该待评价数据得到,也即该应用效能为该待评价数据的实际价值,假如待评价数据在目标应用场景下应用后防止了某种风险或者产生了价值,则可以认为该待评价数据的应用效能为正,可以量化为正或1,如果待评价数据在目标应用场景下应用后导致收到投诉等负面影响,则可以认为该待评价数据的应用效能为负,可以量化为负或-1等。应用效能的量化方式可以根据实际情况定义,在此不做限制。
待评价数据的质量除了跟数据应用场景相关外,还会随着时间的变化不断变化,因此本实施例中在评估待评价数据的质量时同时考虑了时间周期。时间周期的长短可以根据时间情况确定,在此不做限制。
本实施例采用的上述装置在待评价数据存储至数据仓库,并投入使用的初始时间周期内就可以对待评价数据进行质量评估。例如,在第Q(Q大于等于1)个时间周期时,在目标应用场景m下第x条待评价数据(属于第n个目标数据源)开始正式进行应用;在第Q+i(i大于等于1)个时间周期(也即当前时间周期)时,在目标应用场景m下第x条待评价数据(属于第n个目标数据源)的质量根据上述预设因子中的一个或多个来计算。
本公开实施例通过获取目标应用场景下与待评价数据质量相关的预设因子,并基于预设因子确定待评价数据在当前时间周期、在目标应用场景下的质量。预设因子包括目标应用场景下待评价数据所在目标数据源、种子数据集和/或其他数据源中的相关数据在前一时间周期、在同样的目标应用场景下的质量,预设因子还可以包括待评价数据在当前时间周期被该目标应用场景调用后所得到的应用效能。本公开实施例通过上述与待评价数据相关的各种数据在前一时间周期、并在同样的应用场景下的质量以及待评价数据在当前时间周期、同样的应用场景下的有效性反馈确定待评价数的质量,能够在多数据源、多应用的大数据环境下,无论是新数据零启动场景、还是老数据新应用场景,都能根据数据源、自身的应用效能、同源相似种子数据、异源相似数据等维度,对该待评价数据进行价值量化评估,并随着时间周期波动而不断变化。
在本实施例的一个可选实现方式中,如图4所示,所述数据质量确定装置进一步还包括:
第二确定模块401,被配置为确定所述待评价数据在所述目标应用场景下当前时间周期每次被调用后得到的多个反馈信息;
第三确定模块402,被配置为根据所述多个反馈信息确定所述待评价数据在所述目标应用场景下当前时间周期的应用效能。
该可选的实现方式下,待评价数据在当前时间周期内可以被目标应用场景调用多次,每次调用后目标应用场景可以根据应用结果给出反馈信息,反馈信息可以包括此次调用并应用待评价数据产生了正面的作用(如待评价数据在目标应用场景下应用后防止了某种风险或者产生了价值)或者负面的作用(如待评价数据在目标应用场景下应用后导致收到投诉),则可以根据每次调用的反馈信息确定待评价数据在当前时间周期内的应用效能。假如正应用效能被设置为1,负应用效能被设置为-1,那么在当前时间周期内被调用了g次,产生正应用效能的次数为h次,负应用效能的次数为g-h次,那么待评价数据在当前时间周期下的总应用效能值z=1*h+(-1)*(g-h)。
在本实施例的一个可选实现方式中,所述第一确定模块302,还包括以下至少之一:
第一确定子模块,被配置为根据所述目标数据源在所述目标应用场景下前一时间周期的质量、预设衰减因子确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
第二确定子模块,被配置为根据所述待评价数据在所述目标应用场景下当前时间周期的应用效能、所述待评价数据在所述目标应用场景下当前时间周期被调用的次数,确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
第三确定子模块,被配置为根据所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的质量、所述种子数据集在所述目标应用场景下当前时间周期与所述待评价数据之间的相似度,确定所述待评价数据在所述目标应用场景下当前时间周期的质量;
第四确定子模块,被配置为根据与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量、所述相关数据在所述目标应用场景下当前时间周期与所述待评价数据之间的相关度,确定所述待评价数据以及所述当前时间周期在所述目标应用场景下的质量。
该可选的实现方式中,待评价数据是包括多条数据的目标数据源中的其中一条数据,基于数据继承这一特性可以知道待评价数据的质量高低与数据源的平均质量相关,因此本实施例中可以根据待评价数据所在目标数据源的质量来确定,目标数据源的质量可以根据目标数据源中各条数据的质量平均值来衡量,由于在确定待评价数据在当前时间周期内的质量时,当前时间周期内目标数据源的平均质量还不确定,因此可以根据前一时间周期目标数据源的平均质量来确定待评价数据;此外,随着待评价数据投入使用时间的增长,目标数据源对其质量的影响会逐渐减弱,因此还可以预先定义一预设衰减因子,随着时间周期的增长使得目标数据源的质量对待评价数据质量的影响减弱。
待评价数据的质量还跟待评价数据在当前时间周期内被调用和在目标应用场景下应用后反馈的应用效能有关,因此可以根据待评价数据在当前时间周期的总应用效能值来确定;此外,调用次数越多的待评价数据其活跃程度越高,其质量分数可以越高,因此还可以在总应用效能值的基础上考虑调用次数后,确定待评价数据的质量。
待评价数据的质量还跟目标数据源中的其他数据在目标应用场景下的质量相关,尤其是跟目标数据源中的种子数据集相似的情况下。所述目标数据源中预设的种子数据集可以是目标数据源中活跃度高和/或质量高的多条数据。种子数据集可以在每个时间周期完成后根据活跃度和/或质量动态调整。待评价数据如果与种子数据集相似度高,则其质量相应也会高,而如果跟种子数据集的相似度较低,则质量相应也会低。待评价数据与种子数据集之间的相似度的计算规则可以根据实际情况设置,例如两者所代表的用户之间较为相似,则可以认为两者较为相似,相似度可以根据用户之间的相似度来确定。因此,本公开实施例还通过种子数据集前一时间周期的质量以及与带评价数据的相关度确定待评价数据的质量。
待评价数据也与目标数据之外的其他数据源中的一些相关数据在目标应用场景下的质量相关。如果其他数据源中与待评价数据的相关性很高的数据的质量较高,则待评价数据的质量也会相对较高,反之,如果其他数据源中与待评价数据的相关度很高的数据的质量较低,则待评价数据的质量也会相对较低。其他数据源中的其他数据与待评价数据的相关性可以根据实际情况下而定,例如其他数据与待评价数据之间发生过数据交互,则两者可以认为具有相关性,而相关度可以基于交互频率、次数等确定。在相关数据较多的情况下,可以预先设置一阈值,将相关度高于阈值的相关数据的质量确定为预设因子。因此,本公开实施例还根据与待评价数据相似度较高的其他数据源中的数据的质量衡量待评价数据的质量。
在本实施例的一个可选实现方式中,所述第一确定模块302,进一步还包括:
第五确定子模块,被配置为在所述当前时间周期为所述待评价数据的初始评价周期时,根据所述目标数据源在所述目标应用场景下当前时间周期之前的质量确定所述待评价数据在所述目标应用场景下当前时间周期的质量。
该可选的实现方式中,当待评价数据初始投入使用时,由于还没有前一周期的数据,因此可以以其所在目标数据源在目标应用场景下的质量来确定。在待评价数据开始投入使用时,其所在的目标数据源通常都是已经在使用当中了,除非是整个数据源都开始投入使用或者其他情况,因此目标数据源在目标应用场景下的平均质量可以基于目标数据源中其他数据的质量确定,并且可以作为待评价数据的初始质量的确定依据。
在本实施例的一个可选实现方式中,所述第一确定模块302,进一步包括:
第六确定子模块,被配置为根据以下至少两个值之和确定所述待评价数据在所述目标应用场景下当前时间周期的质量:
所述目标数据源在所述目标应用场景下前一时间周期的平均质量被所述预设衰减因子衰减后得到的值;
根据所述待评价数据在所述目标应用场景下当前时间周期的应用效能与所述待评价数据在所述当前时间周期内被调用的次数之乘积值;
根据所述目标数据源中预设种子数据集在所述目标应用场景下前一时间周期的平均质量以及所述种子数据集与所述待评价数据之间的相似度之乘积值;
根据与所述待评价数据的相关数据在所述目标应用场景下前一时间周期的质量以及所述相关数据与所述待评价数据之间的相关度之乘积值。
该可选的实现方式中,通过将上述多个预设因子中的至少两个之和来确定待评价数据在目标应用场景下当前时间周期的质量,并且还可以根据预设因子的具体性质进行参数调整。例如,可以将目标数据源的平均数据质量可以通过衰减因子进行衰减后再叠加其他预设因子,主要是因为随着待评价数据投入使用的时间增加,目标数据源对待评价数据质量的影响在减弱;待评价数据本身的应用效能,由于其被调用的次数越多,表示活跃度越高,而活跃度越高的比活跃度越低的待评价数据的质量相对来说要高,因此可以在应用效能的基础上乘以调用次数;预设种子数据集的质量对待评价数据的质量的影响大小与它们之间的相似度相关,因此可以在预设种子数据集的质量基础上乘以相似度;其他数据源中与待评价数据集相关的数据的质量对待评价数据的质量的影响大小也与它们之间的相关度相关,因此可以在相关数据的质量基础上乘以相关度。种子数据集与待评价数据之间的相似度以及相关数据与待评价数据之间的相关度可以根据数据实际性质及应用场景等预先确定,例如种子数据集与待评价数据集之间的相似度可以基于数据所代表的用户之间的相似度等来确定相似性,而相关数据与待评价数据之间的相关度可以基于两者之间是否发生过数据交互来确定,相关度的大小可以基于交互频率等确定,具体可以根据实际情况而定,在此不做限制。
在本实施例的一个可选实现方式中,所述第一确定模块,进一步包括:
第十一确定子模块,被配置为根据如下公式确定所述待评价数据在所述目标应用场景下当前时间周期的质量:
其中,Hmxi表示所述待评价数据x在当前时间周期i以及所述目标应用场景m下的质量,Amn0表示所述目标数据源n在当前时间周期i之前以及所述目标应用场景m下的平均质量,Amn(i-1)表示所述目标数据源n在前一时间周期i-1以及所述目标应用场景m下的平均质量,zmnxi表示所述待评价数据x在所述当前时间周期i以及所述目标应用场景m下的应用效能,gmnxi表示所述待评价数据x在所述当前时间周期i以及所述目标应用场景m下的调用次数,Tmn(i-1)表示所述目标数据源x中预设种子数据集在前一时间周期i-1以及所述目标应用场景m下的平均质量,λmx(i-1)表示所述目标数据源x中预设种子数据集在前一时间周期i-1以及所述目标应用场景m下与所述待评价数据x之间的相似度;Mmx(i-1)表示与所述待评价数据x的任一相关数据在前一时间周期i-1以及所述目标应用场景m下的质量,δ表示所述相关数据在前一时间周期i-1以及所述目标应用场景m下与所述待评价数据之间的相关度,Δ为人工审核的额外调整分,β为预设系数。
该可选的实现方式中,通过上面的公式计算待评价数据的质量。从上述公式可以看出,待评价数据的质量与多个因素相关,且不同的因素可以从不同方面反映出待评价数据的质量高低,例如目标数据源的质量因子可以体现质量的继承性,种子数据集的质量因子可以规避待评价数据本身质量高但是由于活跃度不高,最终导致计算出来的质量低下的问题,待评价数据自身的应用效能是决定待评价数据质量高低的关键因素。
图5是适于用来实现根据本公开实施方式的数据质量确定方法的电子设备的结构示意图。
如图5所示,电子设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述图1所示的实施方式中的各种处理。在RAM503中,还存储有电子设备500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施方式,上文参考图1描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行图1所示方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。