一种数据有效性的验证方法和装置
技术领域
本公开涉及大数据技术领域,特别涉及一种数据有效性的验证方法和装置。
背景技术
随着互联网技术的飞速发展,整个社会被强行推入“大数据”时代。不管人们是否愿意,我们的个人数据正在不经意间被动地被企业、个人搜集并使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势。与此同时,用户数据亦是危险的“潘多拉之盒”,数据一旦泄漏,用户的隐私将被侵犯。近年来,已经发生了多起用户隐私泄露事件,公民的个人的隐私数据保护遇到了严峻的挑战。大数据带来的整体性变革,使得个体用户很难对抗个人隐私被全面暴露的风险。面对频发的隐私泄露事件,隐私保护问题需要得到有效的解决。
在实际业务当中,我们可能遇到这样的场景:需要借助第三方渠道的变量数据来提升现有模型的效果,仅当这些数据对我们建模会有帮助的时候,才购买相应的第三方数据。因此,我们需要在不获取第三方数据的情况下预先评判其有效性,并且在这个过程中不能泄露我方用户的隐私数据。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种数据有效性的验证方法和装置,以在确定外部数据有效性的同时保护内部数据隐私。
具体地,本说明书一个或多个实施例是通过如下技术方案实现的:
第一方面,提供一种数据有效性的验证方法,所述方法应用于验证第二数据方拥有的第二数据是否有效;所述方法由第一数据方执行,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述方法包括:
根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
根据测试样本的标签和所述预测值,得到所述测试样本对应的残差;
使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
第二方面,提供一种数据有效性的验证方法,所述方法由第二数据方执行,包括:
接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
第三方面,提供一种数据有效性的验证装置,所述装置应用于验证第二数据方拥有的第二数据是否有效;所述装置应用于第一数据方,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述装置包括:
模型训练模块,用于根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
模型预测模块,用于将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
残差计算模块,用于根据测试样本的标签和所述预测值,得到测试样本对应的残差;
回归处理模块,用于使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
数据发送模块,用于将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
验证处理模块,用于接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
第四方面,提供一种数据有效性的验证装置,所述装置应用于第二数据方,该装置包括:
残差接收模块,用于接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
数据匹配模块,用于接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
回归处理模块,用于基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
指标反馈模块,用于将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
第五方面,提供一种数据有效性的验证设备,所述设备应用于第一数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
根据测试样本的标签和所述预测值,得到所述测试样本对应的残差;
使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
第六方面,提供一种数据有效性的验证设备,所述设备应用于第二数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
本说明书一个或多个实施例的数据有效性的验证方法和装置,通过两个数据方之间交互的是建模的残差和回归评价指标,并非用户的隐私数据,因此能够在双方交互过程中不泄露用户的任何隐私数据。并且,还可以根据回归评价指标评测外部数据的数据有效性,实现了在保护内部数据隐私的同时评测外部数据有效性。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的数据集示意图;
图2为本说明书一个或多个实施例提供的数据有效性的验证方法;
图3为本说明书一个或多个实施例提供的一种数据有效性的验证装置;
图4为本说明书一个或多个实施例提供的另一种数据有效性的验证装置。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在实际业务当中,可能遇到这样的场景:数据方A拥有自有的数据,想要评测如果借助数据方B的数据,能否对自身的模型效果有所提升。例如,假设数据方A利用自身拥有数据训练了一个机器学习模型M,但是,在模型测试时发现,该模型的预测效果不太理想,与预期预测值具有一定的差距。如果使用数据方B的数据参与模型M的训练和优化,可以使得模型M的效果有所提升,那么可以选择购买数据方B的数据来辅助建模。
在上述的场景中,将涉及到一个问题即:如何确定数据方B是否有效,如果数据方B的数据对模型M的建模有帮助,有助于提升模型M的效果,则确认数据方B的数据是有效的。而采用何种方式验证数据方B的数据有效性,将是本说明书至少一个实施例要描述的内容,并且,在数据有效性的验证方法中,将实现:数据方A不获取数据方B的数据,且数据方A不泄露自身的拥有数据。
如下以数据方A和数据方B为例,描述数据有效性的验证方法,且该方法要验证数据方B的数据是否有效。
例如,可以将数据方A称为第一数据方,将数据方B称为第二数据方。
首先,请参见图1所示,第一数据方拥有的数据可以称为第一数据。该第一数据中可以包括:机器学习模型的训练集和测试集。
其中,训练集用于机器学习模型的训练,例如,该训练集中的训练样本DA(XA,YA)中,XA是变量,YA是标签。所述标签YA表示上述变量XA通过所述机器学习模型的预期预测值,相当于一种有监督的模型。
测试集用于机器学习模型的预测,例如,测试集中的测试样本DB(XB,YB)同样包括变量和标签。
例如,上述的训练样本和测试样本的变量,可以均包括“入模变量”和“未入模变量”。其中,训练样本中的入模变量参与了模型的训练,且测试样本中的入模变量参与了模型预测,而未入模变量没有参与模型的训练和预测。
举例如下:以判断某个用户是优质用户或者劣质用户为例,该用户可以用多个变量表示,比如,年龄、住址、工作年限、年收入等。假设一个用户可以用8个变量表示,U{f1,f2,f3,f4…….f8}即为一个用户U包括f1至f8这八个变量。在训练模型时,可以先使用其中的五个变量f1至f5,而f6至f8暂时先不参与模型的训练。
那么,在训练样本DA(XA,YA)中,可以包括多个用户样本,比如,用户U1、用户U2、用户U3等。每一个用户样本都是DA(XA,YA),包括变量和标签,其中的变量XA可以包括上述的用户的五个变量f1至f5,每个用户样本中的变量都是这五个变量;而所述的标签YA可以是该用户是优质用户或者劣质用户,比如,优质用户用11表示,劣质用户用00表示。
用于机器学习模型的预测的测试样本DB(XB,YB)同样包括变量和标签,在进行模型预测时,DB使用的变量包括用户的五个变量f1至f5,f6至f8未参与预测,标签是该用户是优质用户或者劣质用户。测试集在预测时,是将测试样本的入模变量输入训练好的模型,并判断模型的输出结果是否与标签一致。
如下可以通过表1示例训练样本、测试样本、以及其中的入模变量和未入模变量。如表1所示,U1、U2和U3这些样本将参与模型的训练,可以称为训练样本。但是,在参与模型训练时,只有其中的f1至f5变量参与,可以称为入模变量,而f6至f8变量暂时并未参与模型训练,称为未入模变量。YA是标签。再如,测试集中的U7和U8这些样本是用于模型的预测,将将这些测试样本中的入模变量输入训练好的模型,并得到模型的输出结果。同样的,U7和U8在输入模型时,也是只有f1至f5变量参与,f6至f8变量未参与。如下表1仅是示例,实际实施中并不局限于此,各个样本中包括的变量可以变更。
表1第一数据DA(XA,YA)
而第二数据方拥有的数据可以称为第二数据。通过如下表2示例第二数据。这里需要说明的是,第二数据可以是与表1中的训练样本和测试样本具有相同的样本标识,比如,表1和表2都包括用户U1的数据,都是用户ID为0011的用户的数据,区别只是第一数据包括该用户U1的f1至f8变量,而第二数据包括该用户U1的f9至f11变量,变量不同;或者,其他例子中,第一数据和第二数据也可以是包括相同的变量但变量值不同。
表2第二数据DB(XB)
用户 |
f9 |
f10 |
f11 |
U1 |
** |
** |
** |
U3 |
** |
** |
** |
在上述的例子中,使用表1中的测试样本对模型进行测试时,发现模型的效果不太理想,那么,第一数据方A是选择自身拥有的数据(比如,U1至U3中的f6至f8)来继续优化模型,还是选择第二数据方B的数据(比如,f9至f11)来优化模型呢,第二数据方B也同样拥有U1至U3的数据,只是拥有的变量可能不同,数据方B拥有的是用户的f9至f11。比如,数据方A拥有某用户的工作年限和年收入变量,而数据方B拥有该同一用户的同事、家庭成员等变量。
采用不同的变量训练优化模型,也许对模型效果的影响会存在差异。在本例子中,如果使用数据方B的变量f9至f11中的至少一个来优化模型,相比于使用数据方A自身的变量f6至f8优化模型更能提升模型效果,那么将可以确定数据方B的数据是有效的,否则,如果数据方A自身的变量优化模型的效果更为明显,则数据方B的数据是无效的。即数据的有效性可以通过数据方A和数据方B两方对模型效果的提升比较来衡量。
此外,还需要说明的是,上述表1和表2只是示例,实际实施中并不局限于此。比如,数据方B可以包括与数据方A相同的变量,例如,可以也包括f7和f8,只是与数据方A具有不同的变量值。
图2描述了本说明书至少一个实施例提供的数据有效性的验证方法,该方法可以包括如下处理,具体实施中不限制各步骤的执行顺序:
在步骤200中,根据训练样本,训练机器学习模型。
本步骤可以使用训练样本中的入模变量和标签训练模型。例如,可以用表1中的U1、U2和U3的数据训练模型,其中的U1、U2和U3是用户样本,每个用户样本可以包括八个变量,而在训练时,可以使用其中的f1至f5五个变量。
在步骤202中,将测试样本中的入模变量输入机器学习模型得到预测值。
例如,表1中的测试样本U7和U8并未参与模型的训练,但是可以用于模型的测试。可以将测试样本中的f1至f5五个变量作为输入,输入步骤200中训练完成的模型中,得到的模型输出结果即预测值。所述测试样本中的标签表示测试样本的入模变量输入机器学习模型的预期预测值。
在步骤204中,根据预测值和测试样本中的标签,得到所述测试样本对应的残差。例如,U7和U8对应的标签是表1中的YA7和YA8,而残差可以是预测值与标签之间的差,该残差可以用于表示模型的实际输出结果与期望输出结果之间的差异,从而可以用于衡量模型的预测效果。
在步骤206中,使用未入模变量回归拟合残差,得到第一回归评价指标。
本步骤中,数据方A的训练集中可以包括多个样本,例如,表1中的U1至U3,每个用户样本都可以包括多个未入模变量,比如,f6至f8。数据方A可以使用各个未入模变量回归拟合步骤204中得到的多个残差。所述的残差可以是多个,测试样本中的多个用户样本分别对应的残差,可以使用各个未入模变量回归拟合这些残差。求得的回归方程可以得到各个变量分别对应的变量重要性权重,并且,还可以计算本次回归的回归评价指标,数据方A计算得到的回归评价指标可以称为第一回归评价指标。回归评价指标可以有多种,例如,可以是均方误差(Mean Squared Error,MSE)、平均绝对误差等。回归评价指标可以用于衡量回归拟合的效果。
举例如下:测试样本中的多个用户样本,每个样本可以对应一个残差,多个所述样本可以得到多个残差。可以使用数据方A的训练样本中的各个未入模变量回归拟合上述的多个残差。拟合的目的是使得根据训练样本能够拟合出一个多项式函数,这个函数能够很好的拟合上述的多个残差。
例如,假设上述多个残差可以包括y1、y2……yn。其中,n是自然数。
每个训练样本中的未入模变量可以包括:x1、x2……xi。其中,i是自然数。
y1=a1*x11+a2*x12+…….ai*x1i;……(1)
y2=a1*x21+a2*x22+…….ai*x2i;……(2)
……………
yn=a1*xn1+a2*xn2+…….ai*xni;……(n)
其中,各个残差y1至yn是已知的,各个训练样本中的未入模变量的取值也是已知的,例如,上述公式(1)中的{x11、x12……x1n}是一个训练样本中的各个变量的取值,公式(2)中的{x21、x22……x2n}是另一个训练样本中的各个变量的取值。通过上述的几个方程,计算系数a1、a2……ai的取值,最终得到回归方程y=a1*x1+a2*x2+…….ai*xi。
求得的回归方程可以得到各个变量分别对应的变量重要性权重,上述的a1、a2……ai的取值即为各个变量分别对应的变量重要性权重。
需要说明的是,上述的举例是以线性回归为例,但并不局限于此。还可以采用其他的回归方式,如,多项式回归。
并且,还可以计算本次回归的回归评价指标。回归评价指标可以有多种,例如,可以是均方误差、均方根误差(Root Mean Squard Error,RMSE)、平均绝对误差等。回归评价指标可以用于衡量回归拟合的效果。
例如,回归评价指标以均方误差为例:
在公式(5)中,m表示测试样本的数量,yi表示真实值,yn表示预测值,真实值和预测值做差,然后平方之后求和平均。例如,对于各个测试样本,每个测试样本对应一个残差,以其中一个测试样本为例,该测试样本对应的残差就是真实值,而使用该测试样本中的变量的值代入上述得到的回归方程,得到的残差值就是预测值。按照上述的公式(5),对各个测试样本的真实值和预测值做差,并平方之后求和平均,即可以得到回归评价指标均方误差。
在步骤208中,将所述残差发送至第二数据方,还发送未入模变量对应的样本标识。本步骤可以将数据方A的测试样本对应的残差发送至数据方B,还将训练样本和测试样本对应的样本标识发送给数据方B。可以将该U1对应的标识(如,该标识可以是用户标识1100)发送至数据方B。
在步骤210中,第二数据方根据所述样本标识进行样本匹配,获得用于参与后续回归拟合的第二数据。
例如,数据方B可以根据U1的用户ID进行样本匹配,获得用于参与后续回归拟合的第二数据。比如,可以参见上述的表2,得到数据方B拥有的U1和U3的数据,且得到变量f9至f11。
在步骤212中,第二数据方基于所述第二数据回归拟合所述残差,得到第二回归评价指标。同样,可以计算回归评价指标,还可以得到各个变量对应的变量重要性权重,该权重可以是回归方程中该变量的权重。例如,可以根据f9至f11回归拟合残差,得到第二回归评价指标。
第二回归评价指标的计算同步骤206,不再详述。可以使用数据方B的训练样本拟合残差得到回归方程,并利用测试样本计算回归评价指标。
在步骤214中,第二数据方将第二回归评价指标返回给第一数据方。
此外,数据方B还可以获取第二数据的如下至少一项参数:样本匹配率和变量缺失率。其中,所述的样本匹配率可以理解为数据方B能够找到多大比率的数据方A要求的数据,比如,数据方A传给数据方B的样本标识有八个,即要求数据方B提供八个用户的用户样本。而数据方B只有6个,那么样本匹配率可以是6/8*100%=75%。所述的变量缺失率可以理解为:数据方B能够找到数据方A要求的某个变量,只是变量值有些缺失。比如,数据方B侧有10个用户样本的数据,这10个用户样本都还有变量f10,但是其中有两个用户在f10处的变量值是空,即出现了变量缺失,变量缺失率可以是20%。
数据方B可以将第二回归评价指标返回给数据方A,还可以将所述样本匹配率和变量缺失率中的至少一项返回给数据方A,以使得第一数据方结合第二回归评价指标、所述样本匹配率和变量缺失率确定第二数据的有效性。
在步骤216中,第一数据方通过比较未入模变量对应的第一回归评价指标与第二数据的第二回归评价指标,来确定第二数据的数据有效性。
本步骤中,数据方A可以单独根据回归评价指标的比较,确定第二数据的有效性。比如,可以将第二数据的第二回归评价指标与原有未入模变量的第一回归评价指标相对比,给出数据方B的数据是否有效的判断。或者,也可以综合考虑样本匹配率、变量缺失率和回归评价指标,对数据方B的数据有效性进行判断。
对于数据有效性的原则,数据方A可以灵活设定多种原则。例如,可以为样本匹配率和样本缺失率设定阈值,低于阈值的第二数据不论回归评价指标如何,都可以认定为无效数据。例如,将第二数据的第二回归评价指标优于原有未入模变量的第一回归评价指标,则确定为第二数据有效。
此外,数据方A还可以根据数据方B返回的各个变量的变量重要性权重,选择使用其中的权重较高的一些变量,不需要选择全部变量。比如,可以设定权重阈值,选择使用权重超过该阈值的变量。或者,还可以是将权重按照高低进行排序,选择排序在前几位的几个变量。
此外,本步骤的数据有效性的判断,可以是计算机自动执行,也可以是人工执行,比如,数据方B在将样本匹配率、样本缺失率和回归评价指标返回给数据方A后,由数据方A的管理人员根据这些返回的指标进行判断,以确定数据方B的数据是否有效,是否值得购买。
本说明书一个或多个实施例的数据有效性的验证方法,数据方A只是将建模的残差发送给数据方B,数据方B也只是将回归评价指标或者变量重要性权重返回给数据方A,数据方交互的是建模残差和回归评价指标,并非用户的隐私数据,因此能够在双方交互过程中不泄露用户的任何隐私数据。并且,还可以根据数据方B返回的回归评价指标评测数据方B的数据有效性,实现了在保护内部数据隐私的同时评测外部数据有效性。此外,该方案将内部的未入模变量的回归评价指标与外部数据的相应指标进行比价,考虑了自身拥有的数据,只在外部数据较优于内部数据时(比如数据方B的数据优于数据方A的数据,所述的优可以是更能提升模型效果)才选择使用外部数据,从而最大限度的节省成本。
图3为本说明书至少一个实施例提供的数据有效性的验证装置,所述装置应用于验证第二数据方拥有的第二数据是否有效;所述装置应用于第一数据方,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本。如图3所示,该装置可以包括:模型训练模块31、模型预测模块32、残差计算模块33、回归处理模块34、数据发送模块35和验证处理模块36。
模型训练模块,用于根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
模型预测模块,用于将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
残差计算模块,用于根据测试样本的标签和所述预测值,得到测试样本对应的残差;
回归处理模块34,用于使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
数据发送模块35,用于将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
验证处理模块36,用于接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
图4为本说明书至少一个实施例提供的另一种数据有效性的验证装置,所述装置应用于第二数据方,如图4所示,该装置可以包括:残差接收模块41、数据匹配模块42、回归处理模块43和指标反馈模块44。
残差接收模块,用于接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
数据匹配模块,用于接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
回归处理模块43,用于基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
指标反馈模块44,用于将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
在一个例子中,回归处理模块43,还用于在基于所述第二数据回归拟合所述残差的过程中,得到第二数据中的各个变量的变量重要性权重;将所述各个变量的变量重要性权重,返回给所述第一数据方,以使得第一数据方根据变量重要性权重选择使用其中的部分变量。
本说明书实施例还提供了一种数据有效性的验证设备,所述设备应用于第一数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
根据测试样本的标签和所述预测值,得到所述测试样本对应的残差;
使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
本说明书实施例还提供了一种数据有效性的验证设备,所述设备应用于第二数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
上述方法实施例中所示流程中的各个步骤,其执行顺序不限制于流程图中的顺序。此外,各个步骤的描述,可以实现为软件、硬件或者其结合的形式,例如,本领域技术人员可以将其实现为软件代码的形式,可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时,所述的可执行指令可以存储在存储器中,并被设备中的处理器执行。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据采集设备或者数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。