CN109508558A - 一种数据有效性的验证方法和装置 - Google Patents

一种数据有效性的验证方法和装置 Download PDF

Info

Publication number
CN109508558A
CN109508558A CN201811286876.1A CN201811286876A CN109508558A CN 109508558 A CN109508558 A CN 109508558A CN 201811286876 A CN201811286876 A CN 201811286876A CN 109508558 A CN109508558 A CN 109508558A
Authority
CN
China
Prior art keywords
data
evaluation index
training
sample
data side
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811286876.1A
Other languages
English (en)
Other versions
CN109508558B (zh
Inventor
方文静
王力
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811286876.1A priority Critical patent/CN109508558B/zh
Publication of CN109508558A publication Critical patent/CN109508558A/zh
Application granted granted Critical
Publication of CN109508558B publication Critical patent/CN109508558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种数据有效性的验证方法和装置,其中,方法可以包括:根据训练样本中的入模变量和标签;将测试样本中的入模变量输入机器学习模型得到预测值;测试样本还包括标签;根据测试样本的标签和预测值,得到测试样本对应的残差;使用未入模变量回归拟合残差,得到第一回归评价指标;将残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合残差,并得到第二回归评价指标;接收第二数据方返回的第二回归评价指标,以通过比较第二回归评价指标和第一回归评价指标确定第二数据的数据有效性。

Description

一种数据有效性的验证方法和装置
技术领域
本公开涉及大数据技术领域,特别涉及一种数据有效性的验证方法和装置。
背景技术
随着互联网技术的飞速发展,整个社会被强行推入“大数据”时代。不管人们是否愿意,我们的个人数据正在不经意间被动地被企业、个人搜集并使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势。与此同时,用户数据亦是危险的“潘多拉之盒”,数据一旦泄漏,用户的隐私将被侵犯。近年来,已经发生了多起用户隐私泄露事件,公民的个人的隐私数据保护遇到了严峻的挑战。大数据带来的整体性变革,使得个体用户很难对抗个人隐私被全面暴露的风险。面对频发的隐私泄露事件,隐私保护问题需要得到有效的解决。
在实际业务当中,我们可能遇到这样的场景:需要借助第三方渠道的变量数据来提升现有模型的效果,仅当这些数据对我们建模会有帮助的时候,才购买相应的第三方数据。因此,我们需要在不获取第三方数据的情况下预先评判其有效性,并且在这个过程中不能泄露我方用户的隐私数据。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种数据有效性的验证方法和装置,以在确定外部数据有效性的同时保护内部数据隐私。
具体地,本说明书一个或多个实施例是通过如下技术方案实现的:
第一方面,提供一种数据有效性的验证方法,所述方法应用于验证第二数据方拥有的第二数据是否有效;所述方法由第一数据方执行,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述方法包括:
根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
根据测试样本的标签和所述预测值,得到所述测试样本对应的残差;
使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
第二方面,提供一种数据有效性的验证方法,所述方法由第二数据方执行,包括:
接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
第三方面,提供一种数据有效性的验证装置,所述装置应用于验证第二数据方拥有的第二数据是否有效;所述装置应用于第一数据方,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述装置包括:
模型训练模块,用于根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
模型预测模块,用于将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
残差计算模块,用于根据测试样本的标签和所述预测值,得到测试样本对应的残差;
回归处理模块,用于使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
数据发送模块,用于将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
验证处理模块,用于接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
第四方面,提供一种数据有效性的验证装置,所述装置应用于第二数据方,该装置包括:
残差接收模块,用于接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
数据匹配模块,用于接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
回归处理模块,用于基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
指标反馈模块,用于将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
第五方面,提供一种数据有效性的验证设备,所述设备应用于第一数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
根据测试样本的标签和所述预测值,得到所述测试样本对应的残差;
使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
第六方面,提供一种数据有效性的验证设备,所述设备应用于第二数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
本说明书一个或多个实施例的数据有效性的验证方法和装置,通过两个数据方之间交互的是建模的残差和回归评价指标,并非用户的隐私数据,因此能够在双方交互过程中不泄露用户的任何隐私数据。并且,还可以根据回归评价指标评测外部数据的数据有效性,实现了在保护内部数据隐私的同时评测外部数据有效性。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的数据集示意图;
图2为本说明书一个或多个实施例提供的数据有效性的验证方法;
图3为本说明书一个或多个实施例提供的一种数据有效性的验证装置;
图4为本说明书一个或多个实施例提供的另一种数据有效性的验证装置。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在实际业务当中,可能遇到这样的场景:数据方A拥有自有的数据,想要评测如果借助数据方B的数据,能否对自身的模型效果有所提升。例如,假设数据方A利用自身拥有数据训练了一个机器学习模型M,但是,在模型测试时发现,该模型的预测效果不太理想,与预期预测值具有一定的差距。如果使用数据方B的数据参与模型M的训练和优化,可以使得模型M的效果有所提升,那么可以选择购买数据方B的数据来辅助建模。
在上述的场景中,将涉及到一个问题即:如何确定数据方B是否有效,如果数据方B的数据对模型M的建模有帮助,有助于提升模型M的效果,则确认数据方B的数据是有效的。而采用何种方式验证数据方B的数据有效性,将是本说明书至少一个实施例要描述的内容,并且,在数据有效性的验证方法中,将实现:数据方A不获取数据方B的数据,且数据方A不泄露自身的拥有数据。
如下以数据方A和数据方B为例,描述数据有效性的验证方法,且该方法要验证数据方B的数据是否有效。
例如,可以将数据方A称为第一数据方,将数据方B称为第二数据方。
首先,请参见图1所示,第一数据方拥有的数据可以称为第一数据。该第一数据中可以包括:机器学习模型的训练集和测试集。
其中,训练集用于机器学习模型的训练,例如,该训练集中的训练样本DA(XA,YA)中,XA是变量,YA是标签。所述标签YA表示上述变量XA通过所述机器学习模型的预期预测值,相当于一种有监督的模型。
测试集用于机器学习模型的预测,例如,测试集中的测试样本DB(XB,YB)同样包括变量和标签。
例如,上述的训练样本和测试样本的变量,可以均包括“入模变量”和“未入模变量”。其中,训练样本中的入模变量参与了模型的训练,且测试样本中的入模变量参与了模型预测,而未入模变量没有参与模型的训练和预测。
举例如下:以判断某个用户是优质用户或者劣质用户为例,该用户可以用多个变量表示,比如,年龄、住址、工作年限、年收入等。假设一个用户可以用8个变量表示,U{f1,f2,f3,f4…….f8}即为一个用户U包括f1至f8这八个变量。在训练模型时,可以先使用其中的五个变量f1至f5,而f6至f8暂时先不参与模型的训练。
那么,在训练样本DA(XA,YA)中,可以包括多个用户样本,比如,用户U1、用户U2、用户U3等。每一个用户样本都是DA(XA,YA),包括变量和标签,其中的变量XA可以包括上述的用户的五个变量f1至f5,每个用户样本中的变量都是这五个变量;而所述的标签YA可以是该用户是优质用户或者劣质用户,比如,优质用户用11表示,劣质用户用00表示。
用于机器学习模型的预测的测试样本DB(XB,YB)同样包括变量和标签,在进行模型预测时,DB使用的变量包括用户的五个变量f1至f5,f6至f8未参与预测,标签是该用户是优质用户或者劣质用户。测试集在预测时,是将测试样本的入模变量输入训练好的模型,并判断模型的输出结果是否与标签一致。
如下可以通过表1示例训练样本、测试样本、以及其中的入模变量和未入模变量。如表1所示,U1、U2和U3这些样本将参与模型的训练,可以称为训练样本。但是,在参与模型训练时,只有其中的f1至f5变量参与,可以称为入模变量,而f6至f8变量暂时并未参与模型训练,称为未入模变量。YA是标签。再如,测试集中的U7和U8这些样本是用于模型的预测,将将这些测试样本中的入模变量输入训练好的模型,并得到模型的输出结果。同样的,U7和U8在输入模型时,也是只有f1至f5变量参与,f6至f8变量未参与。如下表1仅是示例,实际实施中并不局限于此,各个样本中包括的变量可以变更。
表1第一数据DA(XA,YA)
而第二数据方拥有的数据可以称为第二数据。通过如下表2示例第二数据。这里需要说明的是,第二数据可以是与表1中的训练样本和测试样本具有相同的样本标识,比如,表1和表2都包括用户U1的数据,都是用户ID为0011的用户的数据,区别只是第一数据包括该用户U1的f1至f8变量,而第二数据包括该用户U1的f9至f11变量,变量不同;或者,其他例子中,第一数据和第二数据也可以是包括相同的变量但变量值不同。
表2第二数据DB(XB)
用户 f9 f10 f11
U1 ** ** **
U3 ** ** **
在上述的例子中,使用表1中的测试样本对模型进行测试时,发现模型的效果不太理想,那么,第一数据方A是选择自身拥有的数据(比如,U1至U3中的f6至f8)来继续优化模型,还是选择第二数据方B的数据(比如,f9至f11)来优化模型呢,第二数据方B也同样拥有U1至U3的数据,只是拥有的变量可能不同,数据方B拥有的是用户的f9至f11。比如,数据方A拥有某用户的工作年限和年收入变量,而数据方B拥有该同一用户的同事、家庭成员等变量。
采用不同的变量训练优化模型,也许对模型效果的影响会存在差异。在本例子中,如果使用数据方B的变量f9至f11中的至少一个来优化模型,相比于使用数据方A自身的变量f6至f8优化模型更能提升模型效果,那么将可以确定数据方B的数据是有效的,否则,如果数据方A自身的变量优化模型的效果更为明显,则数据方B的数据是无效的。即数据的有效性可以通过数据方A和数据方B两方对模型效果的提升比较来衡量。
此外,还需要说明的是,上述表1和表2只是示例,实际实施中并不局限于此。比如,数据方B可以包括与数据方A相同的变量,例如,可以也包括f7和f8,只是与数据方A具有不同的变量值。
图2描述了本说明书至少一个实施例提供的数据有效性的验证方法,该方法可以包括如下处理,具体实施中不限制各步骤的执行顺序:
在步骤200中,根据训练样本,训练机器学习模型。
本步骤可以使用训练样本中的入模变量和标签训练模型。例如,可以用表1中的U1、U2和U3的数据训练模型,其中的U1、U2和U3是用户样本,每个用户样本可以包括八个变量,而在训练时,可以使用其中的f1至f5五个变量。
在步骤202中,将测试样本中的入模变量输入机器学习模型得到预测值。
例如,表1中的测试样本U7和U8并未参与模型的训练,但是可以用于模型的测试。可以将测试样本中的f1至f5五个变量作为输入,输入步骤200中训练完成的模型中,得到的模型输出结果即预测值。所述测试样本中的标签表示测试样本的入模变量输入机器学习模型的预期预测值。
在步骤204中,根据预测值和测试样本中的标签,得到所述测试样本对应的残差。例如,U7和U8对应的标签是表1中的YA7和YA8,而残差可以是预测值与标签之间的差,该残差可以用于表示模型的实际输出结果与期望输出结果之间的差异,从而可以用于衡量模型的预测效果。
在步骤206中,使用未入模变量回归拟合残差,得到第一回归评价指标。
本步骤中,数据方A的训练集中可以包括多个样本,例如,表1中的U1至U3,每个用户样本都可以包括多个未入模变量,比如,f6至f8。数据方A可以使用各个未入模变量回归拟合步骤204中得到的多个残差。所述的残差可以是多个,测试样本中的多个用户样本分别对应的残差,可以使用各个未入模变量回归拟合这些残差。求得的回归方程可以得到各个变量分别对应的变量重要性权重,并且,还可以计算本次回归的回归评价指标,数据方A计算得到的回归评价指标可以称为第一回归评价指标。回归评价指标可以有多种,例如,可以是均方误差(Mean Squared Error,MSE)、平均绝对误差等。回归评价指标可以用于衡量回归拟合的效果。
举例如下:测试样本中的多个用户样本,每个样本可以对应一个残差,多个所述样本可以得到多个残差。可以使用数据方A的训练样本中的各个未入模变量回归拟合上述的多个残差。拟合的目的是使得根据训练样本能够拟合出一个多项式函数,这个函数能够很好的拟合上述的多个残差。
例如,假设上述多个残差可以包括y1、y2……yn。其中,n是自然数。
每个训练样本中的未入模变量可以包括:x1、x2……xi。其中,i是自然数。
y1=a1*x11+a2*x12+…….ai*x1i;……(1)
y2=a1*x21+a2*x22+…….ai*x2i;……(2)
……………
yn=a1*xn1+a2*xn2+…….ai*xni;……(n)
其中,各个残差y1至yn是已知的,各个训练样本中的未入模变量的取值也是已知的,例如,上述公式(1)中的{x11、x12……x1n}是一个训练样本中的各个变量的取值,公式(2)中的{x21、x22……x2n}是另一个训练样本中的各个变量的取值。通过上述的几个方程,计算系数a1、a2……ai的取值,最终得到回归方程y=a1*x1+a2*x2+…….ai*xi
求得的回归方程可以得到各个变量分别对应的变量重要性权重,上述的a1、a2……ai的取值即为各个变量分别对应的变量重要性权重。
需要说明的是,上述的举例是以线性回归为例,但并不局限于此。还可以采用其他的回归方式,如,多项式回归。
并且,还可以计算本次回归的回归评价指标。回归评价指标可以有多种,例如,可以是均方误差、均方根误差(Root Mean Squard Error,RMSE)、平均绝对误差等。回归评价指标可以用于衡量回归拟合的效果。
例如,回归评价指标以均方误差为例:
在公式(5)中,m表示测试样本的数量,yi表示真实值,yn表示预测值,真实值和预测值做差,然后平方之后求和平均。例如,对于各个测试样本,每个测试样本对应一个残差,以其中一个测试样本为例,该测试样本对应的残差就是真实值,而使用该测试样本中的变量的值代入上述得到的回归方程,得到的残差值就是预测值。按照上述的公式(5),对各个测试样本的真实值和预测值做差,并平方之后求和平均,即可以得到回归评价指标均方误差。
在步骤208中,将所述残差发送至第二数据方,还发送未入模变量对应的样本标识。本步骤可以将数据方A的测试样本对应的残差发送至数据方B,还将训练样本和测试样本对应的样本标识发送给数据方B。可以将该U1对应的标识(如,该标识可以是用户标识1100)发送至数据方B。
在步骤210中,第二数据方根据所述样本标识进行样本匹配,获得用于参与后续回归拟合的第二数据。
例如,数据方B可以根据U1的用户ID进行样本匹配,获得用于参与后续回归拟合的第二数据。比如,可以参见上述的表2,得到数据方B拥有的U1和U3的数据,且得到变量f9至f11。
在步骤212中,第二数据方基于所述第二数据回归拟合所述残差,得到第二回归评价指标。同样,可以计算回归评价指标,还可以得到各个变量对应的变量重要性权重,该权重可以是回归方程中该变量的权重。例如,可以根据f9至f11回归拟合残差,得到第二回归评价指标。
第二回归评价指标的计算同步骤206,不再详述。可以使用数据方B的训练样本拟合残差得到回归方程,并利用测试样本计算回归评价指标。
在步骤214中,第二数据方将第二回归评价指标返回给第一数据方。
此外,数据方B还可以获取第二数据的如下至少一项参数:样本匹配率和变量缺失率。其中,所述的样本匹配率可以理解为数据方B能够找到多大比率的数据方A要求的数据,比如,数据方A传给数据方B的样本标识有八个,即要求数据方B提供八个用户的用户样本。而数据方B只有6个,那么样本匹配率可以是6/8*100%=75%。所述的变量缺失率可以理解为:数据方B能够找到数据方A要求的某个变量,只是变量值有些缺失。比如,数据方B侧有10个用户样本的数据,这10个用户样本都还有变量f10,但是其中有两个用户在f10处的变量值是空,即出现了变量缺失,变量缺失率可以是20%。
数据方B可以将第二回归评价指标返回给数据方A,还可以将所述样本匹配率和变量缺失率中的至少一项返回给数据方A,以使得第一数据方结合第二回归评价指标、所述样本匹配率和变量缺失率确定第二数据的有效性。
在步骤216中,第一数据方通过比较未入模变量对应的第一回归评价指标与第二数据的第二回归评价指标,来确定第二数据的数据有效性。
本步骤中,数据方A可以单独根据回归评价指标的比较,确定第二数据的有效性。比如,可以将第二数据的第二回归评价指标与原有未入模变量的第一回归评价指标相对比,给出数据方B的数据是否有效的判断。或者,也可以综合考虑样本匹配率、变量缺失率和回归评价指标,对数据方B的数据有效性进行判断。
对于数据有效性的原则,数据方A可以灵活设定多种原则。例如,可以为样本匹配率和样本缺失率设定阈值,低于阈值的第二数据不论回归评价指标如何,都可以认定为无效数据。例如,将第二数据的第二回归评价指标优于原有未入模变量的第一回归评价指标,则确定为第二数据有效。
此外,数据方A还可以根据数据方B返回的各个变量的变量重要性权重,选择使用其中的权重较高的一些变量,不需要选择全部变量。比如,可以设定权重阈值,选择使用权重超过该阈值的变量。或者,还可以是将权重按照高低进行排序,选择排序在前几位的几个变量。
此外,本步骤的数据有效性的判断,可以是计算机自动执行,也可以是人工执行,比如,数据方B在将样本匹配率、样本缺失率和回归评价指标返回给数据方A后,由数据方A的管理人员根据这些返回的指标进行判断,以确定数据方B的数据是否有效,是否值得购买。
本说明书一个或多个实施例的数据有效性的验证方法,数据方A只是将建模的残差发送给数据方B,数据方B也只是将回归评价指标或者变量重要性权重返回给数据方A,数据方交互的是建模残差和回归评价指标,并非用户的隐私数据,因此能够在双方交互过程中不泄露用户的任何隐私数据。并且,还可以根据数据方B返回的回归评价指标评测数据方B的数据有效性,实现了在保护内部数据隐私的同时评测外部数据有效性。此外,该方案将内部的未入模变量的回归评价指标与外部数据的相应指标进行比价,考虑了自身拥有的数据,只在外部数据较优于内部数据时(比如数据方B的数据优于数据方A的数据,所述的优可以是更能提升模型效果)才选择使用外部数据,从而最大限度的节省成本。
图3为本说明书至少一个实施例提供的数据有效性的验证装置,所述装置应用于验证第二数据方拥有的第二数据是否有效;所述装置应用于第一数据方,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本。如图3所示,该装置可以包括:模型训练模块31、模型预测模块32、残差计算模块33、回归处理模块34、数据发送模块35和验证处理模块36。
模型训练模块,用于根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
模型预测模块,用于将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
残差计算模块,用于根据测试样本的标签和所述预测值,得到测试样本对应的残差;
回归处理模块34,用于使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
数据发送模块35,用于将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
验证处理模块36,用于接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
图4为本说明书至少一个实施例提供的另一种数据有效性的验证装置,所述装置应用于第二数据方,如图4所示,该装置可以包括:残差接收模块41、数据匹配模块42、回归处理模块43和指标反馈模块44。
残差接收模块,用于接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
数据匹配模块,用于接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
回归处理模块43,用于基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
指标反馈模块44,用于将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
在一个例子中,回归处理模块43,还用于在基于所述第二数据回归拟合所述残差的过程中,得到第二数据中的各个变量的变量重要性权重;将所述各个变量的变量重要性权重,返回给所述第一数据方,以使得第一数据方根据变量重要性权重选择使用其中的部分变量。
本说明书实施例还提供了一种数据有效性的验证设备,所述设备应用于第一数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
根据测试样本的标签和所述预测值,得到所述测试样本对应的残差;
使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
本说明书实施例还提供了一种数据有效性的验证设备,所述设备应用于第二数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
上述方法实施例中所示流程中的各个步骤,其执行顺序不限制于流程图中的顺序。此外,各个步骤的描述,可以实现为软件、硬件或者其结合的形式,例如,本领域技术人员可以将其实现为软件代码的形式,可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时,所述的可执行指令可以存储在存储器中,并被设备中的处理器执行。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据采集设备或者数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (10)

1.一种数据有效性的验证方法,所述方法应用于验证第二数据方拥有的第二数据是否有效;所述方法由第一数据方执行,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本;
所述方法包括:
根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
根据测试样本的标签和所述预测值,得到所述测试样本对应的残差;
使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
2.根据权利要求1所述的方法,所述第一回归评价指标或第二回归评价指标,是均方误差。
3.一种数据有效性的验证方法,所述方法由第二数据方执行,包括:
接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
4.根据权利要求3所述的方法,所述方法还包括:
获取所述第二数据的如下至少一项参数:样本匹配率和变量缺失率;
将所述样本匹配率和变量缺失率中的至少一项返回给第一数据方,以使得第一数据方结合所述参数和回归评价指标确定第二数据的有效性。
5.根据权利要求3所述的方法,所述方法还包括:
在基于所述第二数据回归拟合所述残差的过程中,得到第二数据中的各个变量的变量重要性权重;
将所述各个变量的变量重要性权重,返回给所述第一数据方,以使得第一数据方根据变量重要性权重选择使用其中的部分变量。
6.一种数据有效性的验证装置,所述装置应用于验证第二数据方拥有的第二数据是否有效;所述装置应用于第一数据方,所述第一数据方拥有的第一数据包括:机器学习模型的训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述装置包括:
模型训练模块,用于根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
模型预测模块,用于将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
残差计算模块,用于根据测试样本的标签和所述预测值,得到测试样本对应的残差;
回归处理模块,用于使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
数据发送模块,用于将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
验证处理模块,用于接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
7.一种数据有效性的验证装置,所述装置应用于第二数据方,该装置包括:
残差接收模块,用于接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
数据匹配模块,用于接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
回归处理模块,用于基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
指标反馈模块,用于将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
8.根据权利要求7所述的装置,
所述回归处理模块,还用于在基于所述第二数据回归拟合所述残差的过程中,得到第二数据中的各个变量的变量重要性权重;将所述各个变量的变量重要性权重,返回给所述第一数据方,以使得第一数据方根据变量重要性权重选择使用其中的部分变量。
9.一种数据有效性的验证设备,所述设备应用于第一数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
根据训练样本中的入模变量和标签,训练所述机器学习模型;所述训练样本还包括未参与机器学习模型训练的未入模变量;
将所述测试样本中的所述入模变量输入所述机器学习模型得到预测值;所述测试样本还包括标签,所述标签表示测试样本的入模变量输入机器学习模型的预期预测值;
根据测试样本的标签和所述预测值,得到所述测试样本对应的残差;
使用所述未入模变量回归拟合所述残差,得到第一回归评价指标;
将所述残差发送至第二数据方,以使得第二数据方使用拥有的第二数据拟合所述残差,并得到第二回归评价指标;
接收所述第二数据方返回的第二回归评价指标,以通过比较所述第二回归评价指标和第一回归评价指标,来确定第二数据的数据有效性。
10.一种数据有效性的验证设备,所述设备应用于第二数据方,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
接收第一数据方发送的残差,所述残差是第一数据方根据测试样本中的入模变量输入机器学习模型得到的预测值以及测试样本的标签得到;所述第一数据方拥有的第一数据包括:训练集和测试集,所述训练集包括多个训练样本,所述测试集包括多个测试样本;所述机器学习模型是根据训练样本中的入模变量和标签训练得到;所述训练样本中还包括未入模变量;
接收第一数据方发送的样本标识,并根据所述样本标识进行样本匹配获得用于参与回归拟合的第二数据;
基于所述第二数据回归拟合所述残差,得到第二回归评价指标;
将所述第二回归评价指标返回给第一数据方,以使得第一数据方通过比较所述第二回归评价指标和第一回归评价指标来确定第二数据的数据有效性。
CN201811286876.1A 2018-10-31 2018-10-31 一种数据有效性的验证方法、装置和设备 Active CN109508558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811286876.1A CN109508558B (zh) 2018-10-31 2018-10-31 一种数据有效性的验证方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811286876.1A CN109508558B (zh) 2018-10-31 2018-10-31 一种数据有效性的验证方法、装置和设备

Publications (2)

Publication Number Publication Date
CN109508558A true CN109508558A (zh) 2019-03-22
CN109508558B CN109508558B (zh) 2022-11-18

Family

ID=65747185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811286876.1A Active CN109508558B (zh) 2018-10-31 2018-10-31 一种数据有效性的验证方法、装置和设备

Country Status (1)

Country Link
CN (1) CN109508558B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559602A (zh) * 2021-02-21 2021-03-26 北京工业大数据创新中心有限公司 一种工业设备征兆的目标样本的确定方法及系统
CN112654982A (zh) * 2019-07-26 2021-04-13 株式会社日立高新技术 数据处理装置、方法、以及半导体制造装置
CN113689144A (zh) * 2020-09-11 2021-11-23 北京沃东天骏信息技术有限公司 产品描述的质量评定系统和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184272A1 (en) * 2001-06-05 2002-12-05 Burges Chris J.C. System and method for trainable nonlinear prediction of transform coefficients in data compression
CN101719147A (zh) * 2009-11-23 2010-06-02 合肥兆尹信息科技有限责任公司 一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统
US20120189320A1 (en) * 2011-01-22 2012-07-26 Viasat, Inc. Skew compensation and tracking in communications systems
CN105376097A (zh) * 2015-11-30 2016-03-02 沈阳工业大学 网络流量的一种混合预测方法
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
CN107315711A (zh) * 2017-05-24 2017-11-03 佛山科学技术学院 一种自适应的外生变量识别方法
US20180076957A1 (en) * 2016-09-13 2018-03-15 Hiroshi Watanabe Network without Abuse of a Private Key

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184272A1 (en) * 2001-06-05 2002-12-05 Burges Chris J.C. System and method for trainable nonlinear prediction of transform coefficients in data compression
CN101719147A (zh) * 2009-11-23 2010-06-02 合肥兆尹信息科技有限责任公司 一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统
US20120189320A1 (en) * 2011-01-22 2012-07-26 Viasat, Inc. Skew compensation and tracking in communications systems
CN105376097A (zh) * 2015-11-30 2016-03-02 沈阳工业大学 网络流量的一种混合预测方法
US20180076957A1 (en) * 2016-09-13 2018-03-15 Hiroshi Watanabe Network without Abuse of a Private Key
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
CN107315711A (zh) * 2017-05-24 2017-11-03 佛山科学技术学院 一种自适应的外生变量识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHANG SUN等: "Data Preprocessing of Wind Turbine Based on Least Squares Support Vector Machine and Neighbor Model", 《网页在线公开:HTTPS://IEEEXPLORE.IEEE.ORG/STAMP/STAMP.JSP?TP=&ARNUMBER=7978744》 *
胡正平等: "多观测样本联合信息加权稀疏表示分类算法", 《信号处理》 *
赵鹏等: "基于迁移鲁棒稀疏编码的图像表示方法", 《计算机学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112654982A (zh) * 2019-07-26 2021-04-13 株式会社日立高新技术 数据处理装置、方法、以及半导体制造装置
CN113689144A (zh) * 2020-09-11 2021-11-23 北京沃东天骏信息技术有限公司 产品描述的质量评定系统和方法
CN112559602A (zh) * 2021-02-21 2021-03-26 北京工业大数据创新中心有限公司 一种工业设备征兆的目标样本的确定方法及系统

Also Published As

Publication number Publication date
CN109508558B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN109299161A (zh) 一种数据选择方法和装置
Jabbari et al. What is DevOps? A systematic mapping study on definitions and practices
AU2016216684B2 (en) Flow analysis instrumentation
Vanderfeesten et al. Quality metrics for business process models
El-Adaway et al. Multiagent system for construction dispute resolution (MAS-COR)
EP3418910A1 (en) Big data-based method and device for calculating relationship between development objects
CN109508558A (zh) 一种数据有效性的验证方法和装置
US9536196B2 (en) Goal-oriented process generation
CN109242710A (zh) 社交网络节点影响力排序方法及系统
Zhou et al. A comprehensive process similarity measure based on models and logs
Molka et al. Conformance checking for BPMN-based process models
US8195489B2 (en) Method for computing an enterprise process compliance index
Huang et al. An efficient decision support system for the selection of appropriate crowd in crowdsourcing
Oke Effect of bond administration on construction project delivery
CN109657482A (zh) 一种数据有效性的验证方法和装置
Hidayat et al. Process model extension using heuristics miner:(Case study: Incident management of Volvo IT Belgium)
Hamad Using Artificial Bee Colony Algorithm for Test Data Generation and Path Testing Coverage
Chen An investigation and evaluation of risk assessment methods in Information systems
Srinivasan et al. Ranking critical activities in process architectures
Kuhlen et al. Business process analysis by model checking.
Angel et al. Estimating the size of e-learning system using learning object points method
Zhang et al. A rough set-based method for dual hesitant fuzzy soft sets based on decision making
Woo et al. A framework for the effective adoption of software development methodologies
Sundararajan et al. Early determination of Optimal Test Flows with Requirements Analytics
Munoz et al. Defining categorical reasoning of numerical feature models with feature-wise and variant-wise quality attributes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant