CN110851482A - 为多个数据方提供数据模型的方法及装置 - Google Patents

为多个数据方提供数据模型的方法及装置 Download PDF

Info

Publication number
CN110851482A
CN110851482A CN201911080553.1A CN201911080553A CN110851482A CN 110851482 A CN110851482 A CN 110851482A CN 201911080553 A CN201911080553 A CN 201911080553A CN 110851482 A CN110851482 A CN 110851482A
Authority
CN
China
Prior art keywords
data
model
party
contribution
providing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911080553.1A
Other languages
English (en)
Other versions
CN110851482B (zh
Inventor
陈超超
王力
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911080553.1A priority Critical patent/CN110851482B/zh
Publication of CN110851482A publication Critical patent/CN110851482A/zh
Application granted granted Critical
Publication of CN110851482B publication Critical patent/CN110851482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了为多个数据方提供数据模型的方法和装置。根据一个实施方式,先利用多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数,然后分别确定各个数据方所提供的用户数据对第一模型的各个数据贡献度,接着,按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供第一模型。该实施方式用于多方安全计算时,可以在保护各个数据方的私有数据的基础上,激励各个数据方提供高质量的数据,达到共享数据的目的,从而提高训练的数据模型的有效性。

Description

为多个数据方提供数据模型的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及利用多个数据方的数据为多个数据方提供数据模型的方法及装置。
背景技术
随着大数据化的发展趋势,数据共享已成为具有研究价值和实用性问题。数据共享通常是指多个数据方,在保护各自数据隐私的情况下,共同进行数据挖掘或机器学习工作,以期挖掘出数据中更大的价值的内容。举例而言,三个金融平台(如三个银行)作为三个数据方,各自拥有若干用户的征信数据,可以联合起来训练一个综合的征信模型,用于在向用户放贷等业务的参考。各数据方在向其他数据方提供自己的数据的时候,除了自身数据提供给其他数据方是否安全,各数据方会考虑的问题包括,其他数据方会不会用假数据或低质量数据欺骗自己。如何才能激励各个参与方都能将高质量训练数据贡献出来,以训练出全局较优的模型,是实践中值得思考的问题。
发明内容
本说明书一个或多个实施例描述的利用多个数据方的数据进行模型训练的方法及装置,可以用于解决背景技术部分提到的一个或多个问题。
根据第一方面,提供了一种为多个数据方提供数据模型的方法,其中,所述方法包括:利用所述多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数;分别确定各个数据方所提供的用户数据对所述第一模型的各个数据贡献度,其中,单个数据方所提供的用户数据的数据贡献度基于所述第一模型和利用其他数据方所提供的用户数据训练的第二模型确定,所述第一模型和所述第二模型包含相同的算法;按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供所述第一模型。
在一个实施例中,所述单个数据方所提供的用户数据的数据贡献度,基于测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的对比结果确定,所述对比结果包括,测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的差值、测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的比值中的一项,所述数据贡献度与所述对比结果正相关。
在一个实施例中,所述评价指标根据准确度、召回率、误差率中的至少一项确定。
在一个实施例中,所述提供方案包括对所述第一模型的多个模型参数添加随机扰动,所述多个数据方包括第一数据方,所述按照各个数据贡献度的大小,确定分别针对各个数据方提供第一模型的各个提供方案包括:按照各个数据贡献度的大小,确定针对所述第一数据方,进行随机扰动的扰动参数;按照所确定的扰动参数对所述第一模型的多个模型参数添加随机扰动,并将经过随机扰动后的第一模型提供给所述第一数据方。
在一个实施例中,针对所述第一数据方的随机扰动在所述多个模型参数上的扰动量满足高斯分布,且高斯分布的均值为预定值,方差与所述第一数据方的数值贡献度负相关。
在一个实施例中,所述提供方案包括单个数据方额外提供的资源份额,所述按照各个数据贡献度的大小,确定分别针对各个数据方提供第一模型的各个提供方案包括:按照单个数据方的数据贡献度的大小,确定所述单个数据方额外提供的各个资源份额,其中,单个数据方额外提供的资源份额与所述单个数据方对应的数据贡献度负相关。
在一个实施例中,所述按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案包括:将各个数据贡献度分别与参考数据贡献度进行对比;根据对比结果确定分别针对各个数据方提供数据模型的各个提供方案。
在一个实施例中,所述参考数据贡献度是预先设定的参考值,或者各个数据贡献度中的最大值。
在一个实施例中,单个数据贡献度与所述参考数据贡献度的对比结果包括以下至少一项:所述参考数据贡献度与单个数据贡献度的差值;单个数据贡献度与所述参考数据贡献度的比值。
根据第二方面,提供了一种为多个数据方提供数据模型的装置,其中,所述装置包括:
模型训练单元,配置为利用所述多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数;
数据质量确定单元,配置为分别确定各个数据方所提供的用户数据对所述第一模型的各个数据贡献度,其中,单个数据方所提供的用户数据的数据贡献度基于所述第一模型和利用其他数据方所提供的用户数据训练的第二模型确定,所述第一模型和所述第二模型包含相同的算法;
模型提供单元,配置为按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供所述第一模型。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第一方面的方法。
本说明书实施例提供了为多个数据方提供数据模型的方法和装置,可以利用多个数据方提供的用户数据训练出更优的数据模型。该数据模型至少可以被提供用户数据的各个数据方使用。为了在模型训练过程中,各个数据方都提供较高质量的数据,还对各个数据方提供的用户数据,通过数据贡献度进行质量评估,并按照质量评估结果为各个数据方确定个性化的模型提供方案,用于提供第一模型。如此,可以激励各个数据方提供高质量的用户数据,从而提高训练的数据模型的有效性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书实施例的一个实施场景示意图;
图2示出根据一个实施例的为多个数据方提供数据模型的流程示意图;
图3示出一个具体例子的数据贡献度的确定流程示意图;
图4示出根据各个数据方的数据贡献度为各个数据方提供数据模型的一个具体例子示意图;
图5示出根据一个实施例的为多个数据方提供数据模型的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
首先,结合图1示出一个具体实施场景进行说明。如图1所示,在该实施场景中,多个数据方分别拥有自己的数据。这些数据可以通过模型训练平台进行融合,得到综合度较高的数据模型,以分别提供给各个数据方。
这里,多个数据方可以是相同类别的数据方,例如都是银行类别数据方,或者都是购物平台数据方等等。多个数据方也可以是不同类别的数据方,例如数据方1是购物平台数据方,数据方2是贷款类别数据方,等等。相应地,各个数据方能够提供的数据类别可以相同也可以不相同,例如,购物平台数据方可以提供用户的消费数据,银行数据方可以提供用户的收支流水,贷款类别数据方可以提供用户的贷款及还款情况,等等。
模型训练平台可以是区别于各个提供数据的数据方的他方平台,也可以是各个数据方中的任一数据方平台,还可以分布于各个数据方。该平台可以用于训练模型,并提供给各个数据方,以供各个数据方使用训练好的数据模型。这里的数据模型可以是回归模型、分类模型,等等,数据模型的作用根据场景需求确定,例如预测用户的信用度、预测用户的年龄,等等,本说明书实施例对此不做限定。
值得说明的是,图中示出的数据方、模型训练平台的数量仅为示例,实际应用中,数据方的数量为两个或两个以上,根据实际需求设置。模型训练平台可以是设置于提供数据的数据方之外的他方计算平台,也可以是设置于某个数据方的计算平台,还可以是分布于各个数据方的计算平台,在此不做限定。
下面详细描述为多个数据方提供数据模型的具体过程。
图2示出根据一个实施例的为多个数据方提供数据模型的方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器。例如图1示出的模型训练平台。模型训练平台可以从多个数据方中的各个数据方获取数据,并训练出相应数据模型提供给各个数据方。特别地,图2提供的为多个数据方提供数据模型的方法尤其适用于多方安全计算领域。
如图2所示,为多个数据方提供数据模型的方法包括以下步骤:步骤201,利用多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数;步骤202,分别确定各个数据方所提供的用户数据对第一模型的各个数据贡献度,其中,单个数据方所提供的用户数据的数据贡献度基于第一模型和利用其他数据方所提供的用户数据训练的第二模型确定,第一模型和第二模型包含相同的算法;步骤203,按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供第一模型。
首先,步骤201,利用多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数。这里,第一模型就是为多个数据方提供数据模型的基础模型。“第一”是为了描述的方便,不表示对数据模型的限定。第一模型可以是用于对用户的某方面属性(如信用度)进行评估的分类模型、回归模型等,根据需求和具体场景而定,在此不作限定。例如,在分类场景中,第一模型可以是包括决策树、支持向量机、梯度提升决策树、随机森林、神经网络等等中的一个或多个算法的模型。
这里的多个数据方可以是同类别的数据方,也可以是不同类别的数据方。各个数据方根据职能可以提供相应的数据。例如,银行作为数据方可以提供用户的收支流水数据、年龄数据、性别数据、借贷数据、还款数据等等中的一项或多项。购物平台作为数据方可以提供用户的消费偏好、消费周期、消费金额、支付方式等等数据中的一项或多项。
通过相应的数据,可以提取出相应的特征。例如,从用户的消费偏好中提取用户的消费特征“5”,表示用户偏好服饰类商品的消费,“51”表示用户偏好高端服饰消费,等等。
在一个可选的实现方式中,各个数据方提供的数据也可以包括按照约定的方法提取出的特征数据(即对原始数据进行处理之后的数据)。
在一个可选的实现方式中,各个数据方提供的数据还可以是按照约定加密方式进行加密的数据。如通过诸如同态加密(Homomorphic Encryption)、秘密共享(Shamir)之类的方式加密的数据。此时,对数据的运算处理也可以是加密状态下的运算处理,以保证各个数据方相互之间的数据保密。可选地,加密状态下的运算可以在多个数据方的协作下完成,在此不再赘述。
在上述的多个数据方是同类别的数据方的情况下,各个数据方提供的数据可以是相互独立的。也即,对于单个数据方,其提供的每条数据都可以对应一个独立样本。例如,银行作为数据方,提供的一条数据对应一个用户,该用户对应有用户特征和用户标签,用户特征例如是用户职业、用户年龄、用户收入、用户借贷额度等等,用户标签可以是守约用户或违约用户。
在上述的多个数据方是不同类别的数据方的情况下,各个数据方之间也可以根据需求将数据组合,得到相应样本。例如,购物平台作为数据方可以提供用户的消费偏好、消费金额、消费周期、职业、性别、支付方式等等用户特征,借贷平台作为数据方可以提供用户的借贷周期、借贷金额等等用户特征,以及用户守约或违约记录。通过两个数据方的数据中,同一用户(包含唯一通用的用户标识,例如手机号或身份证号等)的相应数据进行组合,可以得到更多用户特征,以及守约用户或违约用户的用户标签,作为一个训练样本。可以理解的是,在上述例子中,针对某一个用户,单独通过借贷平台作为数据方提供的数据也可以确定出包含较少用户特征,并对应有用户标签的训练样本。
可以理解,各个数据方提供的数据在用于训练模型时,可以是有标签的监督学习方法也可以是没有标签的无监督学习方法。上面的例子中主要是以有标签的监督学习样本为例进行了说明,在通过无监督学习方法训练第一模型的情况下,上面的训练样本可以不包括用户标签。
第一模型可以包括多个模型参数,例如神经网络的各个神经元的权重,回归模型中各个特征的权重,等等。训练第一模型的过程,就是确定第一模型中的多个模型参数的过程。在监督学习的学习方式下,训练第一模型时,可以将各个训练样本的用户特征,输入选定的模型,通过用户标签与模型输出结果的对比,调整模型参数,从而训练出第一模型。
本领域技术人员可以理解,在第一模型是无监督模型时,可能只能从各个数据方的数据中提取到用户特征。训练第一模型时,可以通过线性回归等方法确定模型参数,例如各个特征对应的项的权重。
总之,根据各个数据方提供的用户数据,可以扩充训练样本的数量,或者扩充同一用户的特征维度,从而构造更加完备的训练数据集,使得训练的数据模型(如上述的第一模型)具有更优的数据分析效果。
在常规技术中,训练得到的第一模型可以作为更优的模型反馈给各个数据方使用。然而,考虑到各个数据方由于考虑数据安全等因素,提供的数据质量问题,例如是否包含假数据等,在本说明书实施例中可以进一步通过对各个数据方提供的数据质量进行评估,并按照所提供数据的数据质量为其确定模型提供方案,使得提供的用户数据质量越高,得到的模型越好,从而激励各个数据方提供高质量的真实数据。
进一步地,通过步骤202,分别确定各个数据方所提供的用户数据对第一模型的各个数据贡献度。其中,单个数据方所提供用户数据的数据贡献度基于第一模型和利用其他数据方所提供的用户数据训练的第二模型确定。
可以理解,数据贡献度是用于衡量相应数据方所提供的数据质量的量化指标。数据贡献度越大,说明相应数据方提供的数据质量越高,否则,说明相应数据方提供的数据质量越低。
在本说明书实施例中,评价某个数据方的业务数据质量高低时,可以通过该数据方提供的业务数据对数据模型质量的影响进行。而模型质量的评价指标,可以根据实际需求来确定,例如,分类模型可以通过准确率和/或召回率来评价模型质量。其中,准确率、召回率等都是通过相应模型对测试集(也可以称之为测试样本集)的处理结果确定的。利用准确率和/或召回率来评价模型质量时,准确率越高,模型质量越好,或者召回率越高,模型质量越好,或者F1分数(可以看作准确率和召回率的加权平均)越高,模型质量越好,等等。在一些回归模型上,还可以将误差率作为评价指标。误差率可以通过错误程度来反映。例如,用于预测年龄的模型,误差率可以和预测值与真实值的偏差正相关。如,误差率={(预测年龄1-真实年龄1)2+(预测年龄2-真实年龄2)2+……}1/2/N(真实年龄1+真实年龄2+……),N为测试集中的样本数。
为了确定某个数据方提供的用户数据对模型质量的影响,可以利用其它数据方提供的用户数据训练出一个第二模型,将该第二模型与加入当前数据方提供的用户数据训练得到的第一模型进行相应评价指标的比较时,可以确定当前数据方所提供数据的数据贡献度。可以通过测试数据集分别在第一模型和第二模型上得到的相应评价指标进行比较,获得对比结果。这里的对比结果例如是:测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的差值、测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的比值等等。在以上所列出的对比结果下,数据贡献度可以与对比结果正相关。在其他可选的实施方式中,上述的对比结果还可以有其他形式,数据贡献度与对比结果的关系可以随着对比结果的不同形式而定,在此不作限定。
作为一个示例,图3给出了多个数据方包含两个数据方A和B的情况下,对数据方B所提供数据的数据贡献度的确定方法。
如图3所示,数据方A提供的用户数据可以分为测试集和训练集。可以理解的是,因为要评估数据方B的数据质量,即假定只有数据方B提供的数据质量未知,因此,该示例中的测试集数据由数据方A提供。其中,训练集可以用于训练模型2(第二模型),用训练集和数据方B提供的用户数据一起训练模型1(第一模型),利用测试集数据分别在模型1和模型2上进行测试,得到针对模型1的第一评价指标,和针对模型2的第二评价指标。第一评价指标相对于第二评价指标的变化,就是数据方B提供的用户数据对模型质量的影响,用于反映数据方B的数据贡献度。可选地,数据方B的数据贡献度可以与第一评价指标和第二评价指标的差正相关。例如,在第一评价指标为模型1对测试集数据预测的第一准确度,第二评价指标为模型2对测试集数据预测的第二准确度的时候,数据方B的数据贡献度=第一准确度-第二准确度。
可以理解的是,当数据方有两个以上时,数据方B以外各个数据方可以综合在一起看作图3中的数据方A。此时的测试集可以包括数据方B以外各个数据方的测试样本。
值得说明的是,相同的样本训练包含不同算法的模型,其最终的评价指标,如准确度,可能是不同的。因此,在本说明书实施例中,在评价某个数据方所提供的用户数据质量时,使用的第一模型(如图3中的模型1)和第二模型(如图3中的模型2),包含相同的算法。应当理解,第一模型和第二模型使用的算法相同,但不要求结构完全一致。这里说的结构完全一致,是指节点数量相同,当模型包括多层节点(如神经网络)时,节点层数相同,每一层的节点数量相同。在具体实践中,训练第一模型和第二模型时,使用数据有所差别,例如在增加了数据方B的数据后,样本特征数量增加,也就是说模型输入节点个数增加,这不影响对模型质量的评价结果,或者说,由于样本特征增加,对模型质量产生了影响,这本身就是对数据评价的一个方面。
如此,在该步骤202中,对各个数据方,都可以针对其所提供数据的数据质量进行评估,分别确定各自相应的数据贡献度。
接着,在步骤203中,按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供第一模型。在该步骤中,可以按照各个数据方所提供的数据质量好坏(对应数据贡献度大小),来确定不同的模型提供方案,为相应数据方提供不同质量的模型。
根据一个可能的设计,为了得到不同质量的模型,上述提供方案中可以包括对第一模型进行干扰。通常,干扰程度越大,得到模型质量越差。
在一个实施例中,上述干扰可以是将一定数量的模型参数修改为预定值,例如0。这里的一定数量,就是干扰程度的象征。模型参数的修改数量越大,干扰程度越大。通常,模型参数的修改数量与相应数据方所提供数据的数据贡献度负相关。也就是说,数据贡献度越小,相应数据方提供的数据质量越差,提供给该数据方的模型质量也越差(模型参数修改数量越多)。可选地,对于数据贡献度最大的数据方,模型参数的修改数量为0。
在另一个实施例中,上述干扰可以是对第一模型的多个模型参数添加随机扰动。以多个数据方中的任一数据方为第一数据方为例,可以按照各个数据贡献度的大小,确定针对第一数据方,进行随机扰动的扰动参数,并按照所确定的扰动参数对第一模型的多个模型参数添加随机扰动,并将经过随机扰动后的第一模型提供给第一数据方。如,第一模型的模型参数为(w0,w1,w2……),添加随机扰动量(w0',w1',w2'……),得到模型参数为(w0+w0',w1+w1',w2+w2'……)。
在一个可选的实施例中,添加的在多个模型参数上的扰动量满足高斯分布,模型参数的随机扰动量符合高斯分布。当高斯分布的均值一定(如均值为0)时,随机扰动量的方差越大,扰动越大,模型质量越差。为了保证添加随机扰动后的模型的稳定性,可以将随机扰动的高斯分布均值设为预定值(如0),而随机扰动的高斯分布方差,与第一数据方的数值贡献度负相关。如在上述例子中,w02+w12+w22+……与第一数据方的数值贡献度负相关。
根据另一个可能的设计,还可以通过对各个数据方使用模型所需额外提供的资源份额,来激励各个数据方提供高质量的用户数据。其中,提供方案中的单个数据方额外提供的资源份额,可以和该数据方的数据贡献度负相关。也就是说,一个数据方的数据贡献度越小,使用第一模型需要额外提供的资源份额越大。
在其他设计中,还可以通过其他处理方式确定向各个数据方提供第一模型的提供方案,在此不再赘述。
按照各种提供方案提供给各个数据方的第一模型,变成了质量参差不齐的模型。这样提供给各个数据方的模型各不相同,可以有效激励各个数据方提供高质量的用户数据。
在一个实施方式中,还可以先确定参考贡献度,在确定提供方案时,将各个数据贡献度分别与参考数据贡献度进行对比,根据对比结果确定分别针对各个数据方提供数据模型的各个提供方案。
在一个可选的实现中,可以预先设定一个参考值作为参考数据贡献度,例如20%,将各个数据贡献度与该参考数据贡献度进行对比。
在另一个可选的实现中,可以将最大的数据贡献度作为参考数据贡献度,将各个数据贡献度与该参考数据贡献度进行对比。
其中,上述的对比可以采用比值或差值等的形式。其中,差值例如可以是参考数据贡献度与单个数据贡献度的差值,比值例如可以是单个数据贡献度与参考数据贡献度的比值。
在确定对各个数据方的模型提供方案时,可以根据具体的对比结果进行。例如,当上述的对比采用参考值与数据贡献度的差值形式时,该差值越大,说明其提供的数据质量越差。此时,前述实施方式中,随机扰动量的方差可以该差值正相关,或者,相应数据方额外提供的资源份额可以与该差值正相关,或者,模型参数的修改数量可以和该差值正相关。可选地,差值为0时:随机扰动量的方差为0、相应数据方额外提供的资源份额为0,或者模型参数的修改数量为0。当上述的对比采用数据贡献度与参考值的比值形式时,对于一个数据方而言,该比值越小,说明其提供的数据质量越差。此时,前述的各种实施方式中,随机扰动量的方差、相应数据方额外提供的资源份额或者模型参数的修改数量,可以和该比值正相关。可选地,比值为1时:随机扰动量的方差为0、相应数据方额外提供的资源份额为0,或者模型参数的修改数量为0。
为了更直观展示本说明书实施例达到的技术效果,请参考图4。图4示出了根据各个数据方的数据贡献度为各个数据方提供数据模型的一个具体例子。在图4的例子中,利用数据方A和数据方B提供的用户数据训练出第一模型,其中第一模型中的模型参数用矩阵W表示。另外,确定数据方A的数据贡献度为a,数据方B的数据贡献度为b。通过比较,a>b。在为数据方提供模型时,可以通过两方面进行激励。
一方面,通过对模型进行预定处理实现对数据方的模型激励。在图4示出的具体例子中,对于数据贡献度较高的数据方A,按照模型参数矩阵W为其提供训练得到的第一模型,对于数据贡献度较低的数据方B,对模型参数矩阵W添加随机扰动,例如添加均值为0,方差为a-b的随机扰动量,得到模型参数矩阵W',并将训练得到的第一模型按照模型参数矩阵W'提供给数据方B。
另一方面,通过额外提供的资源份额(如支付的费用数量),实现对数据方的资源激励。在图4示出的具体例子中,数据贡献度较高的数据方A,可以无需另外支付任何资源份额,就可以使用训练好的第一模型,而数据贡献度较低的数据方B,需要提供一定的资源份额,才可以使用训练好的第一模型。数据方B需要提供的资源份额例如是N×(a-b),其中,N是预先协商的资源份额基数,例如100万人民币/年。
其中,图4中的模型激励和资源激励,可以单独实行,也可以共同实行。也就是说,对于数据贡献度较小的一方,可能在额外提供一定资源份额的基础上,得到经过扰动的第一模型。这样,数据方为了减少额外支出,以及/或者使用高质量模型,就需要在模型训练时提供高质量数据。
回顾以上过程,本说明书实施例所提供的为多个数据方提供数据模型的方法,可以利用多个数据方提供的用户数据训练出更优的数据模型。该数据模型至少可以被提供用户数据的各个数据方使用。为了在模型训练过程中,各个数据方都提供较高质量的数据,还对各个数据方提供的用户数据,通过数据贡献度进行质量评估,并按照质量评估结果为各个数据方确定个性化的模型提供方案,用于提供第一模型。如此,可以激励各个数据方提供高质量的用户数据,从而提高训练的数据模型的有效性。
根据另一方面的实施例,还提供一种为多个数据方提供数据模型的装置。图5示出根据一个实施例的为多个数据方提供数据模型的装置的示意性框图。如图5所示,为多个数据方提供数据模型的装置500包括:模型训练单元51,配置为利用多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数;数据质量确定单元52,配置为分别确定各个数据方所提供的用户数据对第一模型的各个数据贡献度,其中,单个数据方所提供的用户数据的数据贡献度基于第一模型和利用其他数据方所提供的用户数据训练的第二模型确定,第一模型和第二模型包含相同的算法;模型提供单元53,配置为按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供第一模型。
根据一个实施方式,单个数据方所提供的用户数据的数据贡献度,基于测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的对比结果确定,该对比结果可以包括以下之一:测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的差值、1与测试数据集在第二模型上的评价指标与测试数据集在第一模型上的评价指标的比值的差。其中,数据贡献度与对比结果正相关。
在一个实施例中,上述评价指标根据准确度、召回率、误差率中的至少一项确定。
根据一个可能的设计,上述提供方案包括对第一模型的多个模型参数添加随机扰动,多个数据方包括第一数据方,模型提供单元53还可以配置为:
按照各个数据贡献度的大小,确定针对第一数据方,进行随机扰动的扰动参数;
按照所确定的扰动参数对第一模型的多个模型参数添加随机扰动,并将经过随机扰动后的第一模型提供给第一数据方。
在进一步的实施例中,针对第一数据方的随机扰动在多个模型参数上的扰动量满足高斯分布,且高斯分布的均值为预定值,方差与第一数据方的数值贡献度负相关。
根据另一个可能的设计,上述提供方案可以包括单个数据方额外提供的资源份额,模型提供单元53还可以配置为:
按照单个数据方的数据贡献度的大小,确定单个数据方额外提供的各个资源份额,其中,单个数据方额外提供的资源份额与单个数据方对应的数据贡献度负相关。
根据在一个可能的设计,模型提供单元53还可以配置为:
将各个数据贡献度分别与参考数据贡献度进行对比,其中,参考数据贡献度是预先设定的参考值,或者各个数据贡献度中的最大值;
根据对比结果确定分别针对各个数据方提供数据模型的各个提供方案。
值得说明的是,以上对图5所示的为多个数据方提供数据模型的装置500,与图2示出的方法实施例相对应,图2对应的方法实施例中的相应描述也适用于图5所示的为多个数据方提供数据模型的装置,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行相应描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现相应描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本本说明书的技术构思的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本本说明书的技术构思的保护范围之内。

Claims (18)

1.一种为多个数据方提供数据模型的方法,其中,所述方法包括:
利用所述多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数;
分别确定各个数据方所提供的用户数据对所述第一模型的各个数据贡献度,其中,单个数据方所提供的用户数据的数据贡献度基于所述第一模型和利用其他数据方所提供的用户数据训练的第二模型确定,所述第一模型和所述第二模型包含相同的算法;
按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供所述第一模型。
2.根据权利要求1所述的方法,其中,所述单个数据方所提供的用户数据的数据贡献度,基于测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的对比结果确定,所述对比结果包括,测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的差值,或者测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的比值,所述数据贡献度与所述对比结果正相关。
3.根据权利要求2所述的方法,其中,所述评价指标根据准确度、召回率、误差率中的至少一项确定。
4.根据权利要求1所述的方法,其中,所述提供方案包括对所述第一模型的多个模型参数添加随机扰动,所述多个数据方包括第一数据方,所述按照各个数据贡献度的大小,确定分别针对各个数据方提供第一模型的各个提供方案包括:
按照各个数据贡献度的大小,确定针对所述第一数据方,进行随机扰动的扰动参数;
按照所确定的扰动参数对所述第一模型的多个模型参数添加随机扰动,并将经过随机扰动后的第一模型提供给所述第一数据方。
5.根据权利要求4所述的方法,其中,针对所述第一数据方的随机扰动在所述多个模型参数上的扰动量满足高斯分布,且高斯分布的均值为预定值,方差与所述第一数据方的数值贡献度负相关。
6.根据权利要求1所述的方法,其中,所述提供方案包括单个数据方额外提供的资源份额,所述按照各个数据贡献度的大小,确定分别针对各个数据方提供第一模型的各个提供方案包括:
按照单个数据方的数据贡献度的大小,确定所述单个数据方额外提供的各个资源份额,其中,单个数据方额外提供的资源份额与所述单个数据方对应的数据贡献度负相关。
7.根据权利要求1所述的方法,其中,所述按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案包括:
将各个数据贡献度分别与参考数据贡献度进行对比;
根据对比结果确定分别针对各个数据方提供数据模型的各个提供方案。
8.根据权利要求7所述的方法,其中,所述参考数据贡献度是预先设定的参考值,或者各个数据贡献度中的最大值。
9.根据权利要求7所述的方法,其中,单个数据贡献度与所述参考数据贡献度的对比结果包括以下至少一项:
所述参考数据贡献度与单个数据贡献度的差值;
单个数据贡献度与所述参考数据贡献度的比值。
10.一种为多个数据方提供数据模型的装置,其中,所述装置包括:
模型训练单元,配置为利用所述多个数据方分别提供的用户数据训练第一模型,确定第一模型的多个模型参数;
数据质量确定单元,配置为分别确定各个数据方所提供的用户数据对所述第一模型的各个数据贡献度,其中,单个数据方所提供的用户数据的数据贡献度基于所述第一模型和利用其他数据方所提供的用户数据训练的第二模型确定,所述第一模型和所述第二模型包含相同的算法;
模型提供单元,配置为按照各个数据贡献度的大小,确定分别针对各个数据方提供数据模型的各个提供方案,以根据各个提供方案向相应数据方提供所述第一模型。
11.根据权利要求10所述的装置,其中,所述单个数据方所提供的用户数据的数据贡献度,基于测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的对比结果确定,所述对比结果包括以下之一:测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的差值、测试数据集在第一模型上的评价指标与测试数据集在第二模型上的评价指标的比值;所述数据贡献度与所述对比结果正相关。
12.根据权利要求11所述的装置,其中,所述评价指标根据准确度、召回率、误差率中的至少一项确定。
13.根据权利要求10所述的装置,其中,所述提供方案包括对所述第一模型的多个模型参数添加随机扰动,所述多个数据方包括第一数据方,所述模型提供单元还配置为:
按照各个数据贡献度的大小,确定针对所述第一数据方,进行随机扰动的扰动参数;
按照所确定的扰动参数对所述第一模型的多个模型参数添加随机扰动,并将经过随机扰动后的第一模型提供给所述第一数据方。
14.根据权利要求13所述的装置,其中,针对所述第一数据方的随机扰动在所述多个模型参数上的扰动量满足高斯分布,且高斯分布的均值为预定值,方差与所述第一数据方的数值贡献度负相关。
15.根据权利要求10所述的装置,其中,所述提供方案包括单个数据方额外提供的资源份额,所述模型提供单元还配置为:
按照单个数据方的数据贡献度的大小,确定所述单个数据方额外提供的各个资源份额,其中,单个数据方额外提供的资源份额与所述单个数据方对应的数据贡献度负相关。
16.根据权利要求10所述的装置,其中,所述模型提供单元还配置为:
将各个数据贡献度分别与参考数据贡献度进行对比,其中,所述参考数据贡献度是预先设定的参考值,或者各个数据贡献度中的最大值;
根据对比结果确定分别针对各个数据方提供数据模型的各个提供方案。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项所述的方法。
CN201911080553.1A 2019-11-07 2019-11-07 为多个数据方提供数据模型的方法及装置 Active CN110851482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911080553.1A CN110851482B (zh) 2019-11-07 2019-11-07 为多个数据方提供数据模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911080553.1A CN110851482B (zh) 2019-11-07 2019-11-07 为多个数据方提供数据模型的方法及装置

Publications (2)

Publication Number Publication Date
CN110851482A true CN110851482A (zh) 2020-02-28
CN110851482B CN110851482B (zh) 2022-02-18

Family

ID=69598329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911080553.1A Active CN110851482B (zh) 2019-11-07 2019-11-07 为多个数据方提供数据模型的方法及装置

Country Status (1)

Country Link
CN (1) CN110851482B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723404A (zh) * 2020-08-21 2020-09-29 支付宝(杭州)信息技术有限公司 联合训练业务模型的方法及装置
CN111738453A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 基于样本加权的业务模型训练方法、装置及系统
WO2021184347A1 (zh) * 2020-03-20 2021-09-23 云图技术有限公司 实现隐私保护的数据处理方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251118A (zh) * 2016-07-21 2016-12-21 国网天津市电力公司 一种基于讨价还价模型的动态联盟利益分配方法
CN107025509A (zh) * 2016-02-01 2017-08-08 腾讯科技(深圳)有限公司 基于业务模型的决策系统和方法
CN107704930A (zh) * 2017-09-25 2018-02-16 阿里巴巴集团控股有限公司 基于共享数据的建模方法、装置、系统及电子设备
US20180068224A1 (en) * 2016-09-08 2018-03-08 International Business Machines Corporation Model based data processing
CN109426894A (zh) * 2017-08-22 2019-03-05 阿里巴巴集团控股有限公司 用户信息共享、竞价方法、装置、系统及电子设备
CN109559214A (zh) * 2017-09-27 2019-04-02 阿里巴巴集团控股有限公司 虚拟资源分配、模型建立、数据预测方法及装置
CN110162995A (zh) * 2019-04-22 2019-08-23 阿里巴巴集团控股有限公司 评估数据贡献程度的方法及其装置
CN110363305A (zh) * 2019-07-17 2019-10-22 深圳前海微众银行股份有限公司 联邦学习方法、系统、终端设备及存储介质
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025509A (zh) * 2016-02-01 2017-08-08 腾讯科技(深圳)有限公司 基于业务模型的决策系统和方法
CN106251118A (zh) * 2016-07-21 2016-12-21 国网天津市电力公司 一种基于讨价还价模型的动态联盟利益分配方法
US20180068224A1 (en) * 2016-09-08 2018-03-08 International Business Machines Corporation Model based data processing
CN109426894A (zh) * 2017-08-22 2019-03-05 阿里巴巴集团控股有限公司 用户信息共享、竞价方法、装置、系统及电子设备
CN107704930A (zh) * 2017-09-25 2018-02-16 阿里巴巴集团控股有限公司 基于共享数据的建模方法、装置、系统及电子设备
CN109559214A (zh) * 2017-09-27 2019-04-02 阿里巴巴集团控股有限公司 虚拟资源分配、模型建立、数据预测方法及装置
CN110162995A (zh) * 2019-04-22 2019-08-23 阿里巴巴集团控股有限公司 评估数据贡献程度的方法及其装置
CN110363305A (zh) * 2019-07-17 2019-10-22 深圳前海微众银行股份有限公司 联邦学习方法、系统、终端设备及存储介质
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何英哲 等: "机器学习系统的隐私和安全问题综述", 《计算机研究与发展》 *
林勇 等: "有干预的统计数据博弈:模型与管理意义", 《兰州商学院学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021184347A1 (zh) * 2020-03-20 2021-09-23 云图技术有限公司 实现隐私保护的数据处理方法和装置
CN111738453A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 基于样本加权的业务模型训练方法、装置及系统
CN111723404A (zh) * 2020-08-21 2020-09-29 支付宝(杭州)信息技术有限公司 联合训练业务模型的方法及装置

Also Published As

Publication number Publication date
CN110851482B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
US11676087B2 (en) Systems and methods for vulnerability assessment and remedy identification
US20230169604A1 (en) Dynamic authentication of identity in a computationally efficient manner
CN111915023B (zh) 一种基于联邦学习的超参数确定方法及装置
CN110851482B (zh) 为多个数据方提供数据模型的方法及装置
Wang et al. Impact and user perception of sandwich attacks in the defi ecosystem
US9798788B1 (en) Holistic methodology for big data analytics
US20130332249A1 (en) Optimal supplementary award allocation
Cai et al. Fair allocation through selective information acquisition
Florez-Lopez Effects of missing data in credit risk scoring. A comparative analysis of methods to achieve robustness in the absence of sufficient data
US20150262184A1 (en) Two stage risk model building and evaluation
Sar Shalom et al. Data quality matters in recommender systems
CN112163963A (zh) 业务推荐方法、装置、计算机设备和存储介质
Singh et al. Cloud computing adoption challenges in the banking industry
Byanjankar et al. Data‐driven optimization of peer‐to‐peer lending portfolios based on the expected value framework
Xiao et al. Visual analysis of risks in peer-to-peer lending market
US11854018B2 (en) Labeling optimization through image clustering
Speakman et al. Three population covariate shift for mobile phone-based credit scoring
Bach et al. Fraud prevention in the leasing industry using the Kohonen self-organising maps
CN116361542A (zh) 产品推荐方法、装置、计算机设备和存储介质
US20220277249A1 (en) Benchmarking based on company vendor data
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN107423982A (zh) 基于账户的业务实现方法和装置
CN113094595A (zh) 对象识别方法、装置、计算机系统及可读存储介质
US20160232606A1 (en) Systems and Methods for Use in Providing Lending Products to Consumers
US20230342605A1 (en) Multi-stage machine-learning techniques for risk assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant