CN111353554A - 预测缺失的用户业务属性的方法及装置 - Google Patents
预测缺失的用户业务属性的方法及装置 Download PDFInfo
- Publication number
- CN111353554A CN111353554A CN202010384204.5A CN202010384204A CN111353554A CN 111353554 A CN111353554 A CN 111353554A CN 202010384204 A CN202010384204 A CN 202010384204A CN 111353554 A CN111353554 A CN 111353554A
- Authority
- CN
- China
- Prior art keywords
- service
- attribute
- data
- model
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013138 pruning Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种预测缺失的用户业务属性的方法,用于基于多个业务方在保护数据隐私的前提下共同训练的业务模型,由多个业务方中的第一方预测针对第一用户的业务数据中缺失的第一业务属性。该方法的一个实施方式包括:针对与第一用户对应的第一业务数据,基于业务模型提取其对应的各个参考特征,单个参考特征根据业务模型针对第一业务数据的业务处理结果对相应业务特征的梯度确定;将各个参考特征输入预先训练的预测模型,得到输出结果,其中,预测模型通过第一方中具有第一业务属性的多条业务数据构造的各个训练样本进行训练;根据输出结果确定第一用户的第一业务属性。该实施方式可以有效预测当前业务方部分缺失的业务属性。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及基于隐私保护,通过计算机预测缺失的用户业务属性的方法和装置。
背景技术
安全多方计算又称为多方安全计算,即多个业务方共同计算出一个函数的结果,而不泄露这个函数各方的输入数据,计算的结果公开给其中的一方或多方。例如,安全多方计算一个典型的应用是共同训练一个业务模型。在业务模型训练过程中,任何一个参与方无法获知其他方的训练数据,而最终的业务模型可以由各个业务方获取。通常,共同训练业务模型的多个业务方使用的业务数据具有一定的相关性。
发明内容
本说明书一个或多个实施例描述了一种预测缺失的用户业务属性的方法及装置,用以解决背景技术提到的一个或多个问题。
根据第一方面,提供了一种预测缺失的用户业务属性的方法,用于基于多个业务方在保护数据隐私的前提下共同训练的业务模型,由所述多个业务方中的第一方预测其针对第一用户的业务数据中缺失的第一业务属性,所述业务模型用于对单个用户基于业务数据提取的业务特征进行处理,得到业务处理结果,所述方法包括:针对所述第一业务数据,基于所述业务模型提取其中的各个已知业务属性分别对应的各个参考特征,单个参考特征根据所述业务模型针对所述第一业务数据的业务处理结果对相应业务特征的梯度确定;将各个参考特征输入预先训练的预测模型,得到输出结果,其中,所述预测模型通过所述第一方中具有第一业务属性的多条业务数据构造的各个训练样本进行训练;根据所述输出结果确定所述第一用户的第一业务属性。
在一个实施例中,所述第一方中具有第一业务属性的多条业务数据包括第二业务数据,针对所述第二业务数据通过以下方式构造训练样本:根据所述第二业务数据中的第一业务属性,确定第一标签;针对所述第二业务数据中,第一业务属性之外的其他业务属性,提取各个样本参考特征,单个样本参考特征根据所述业务模型针对所述第二业务数据的业务处理结果对相应业务特征的梯度确定;基于各个样本参考特征和所述第一标签,确定与所述第二业务数据对应的训练样本。
在一个进一步的实施例中,所述基于各个样本参考特征和所述第一标签,确定与所述第二业务数据对应的训练样本包括:在所述第一标签是对应于所述第二业务数据中的第一业务属性的标签的情况下,各个样本参考特征和所述第一标签,构造与所述第二业务数据对应的正样本;在所述第一标签不是对应于所述第二业务数据中的第一业务属性的标签的情况下,基于各个样本参考特征和所述第一标签,构造与所述第二业务数据对应的负样本。
在一个实施例中,所述预测模型为逻辑回归模型或深度神经网络。
在一个实施例中,所述输出结果为分别对应于所述第一业务属性的各个属性候选项的各个概率,所述根据所述输出结果确定所述第一业务数据的第一业务属性包括:根据各个概率中最大的至少一个概率对应的各个属性候选项,确定所述第一用户的第一业务属性。
在一个实施例中,所述输出结果为所述第一用户的第一业务属性是第一属性候选项的第一概率,所述根据所述输出结果确定所述第一业务数据的第一业务属性包括:基于所述第一概率与预定概率阈值的对比,确定所述第一用户的第一业务属性。
根据第二方面,提供了一种预测缺失的用户业务属性的装置,用于基于多个业务方在保护数据隐私的前提下共同训练的业务模型,由所述多个业务方中的第一方预测其针对第一用户的业务数据中缺失的第一业务属性,所述业务模型用于对单个用户基于业务数据提取的业务特征进行处理,得到业务处理结果;所述装置设于所述第一方,包括:
提取单元,配置为针对所述第一业务数据,基于所述业务模型提取其中的各个已知业务属性分别对应的各个参考特征,单个参考特征根据所述业务模型针对所述第一业务数据的业务处理结果对相应业务特征的梯度确定;
处理单元,配置为将各个参考特征输入预先训练的预测模型,得到输出结果,其中,所述预测模型通过所述第一方中具有第一业务属性的多条业务数据构造的各个训练样本进行训练;
确定单元,配置为根据所述输出结果确定所述第一用户的第一业务属性。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,在预测缺失的用户业务属性的过程中,可以通过多方联合训练的业务模型,构建训练样本。其中,训练样本对应的参考特征由业务模型的业务处理结果对用于训练业务模型的业务特征的梯度来确定,由于这种梯度里面包含了丰富的业务特征与业务模型、业务特征对应的业务属性之间的关联信息,因此,可以训练有效的预测模型,来预测各条业务数据中缺失的业务属性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书技术构思中预测缺失的用户业务属性的实施架构示意图;
图2示出根据一个实施例的预测缺失的用户业务属性的方法流程图;
图3示出本说明书实施实施例可能被恶意应用的一个具体的特殊场景中训练业务模型的业务特征分布示意图;
图4示出根据一个实施例的预测缺失的用户业务属性的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
首先,结合图1示出一个具体实施场景进行说明。如图1所示,在该实施场景中,多个业务方分别拥有自己的业务数据,这些业务方之间可以相互进行数据通信,联合进行安全数据运算,也可以相互独立,并且都可以与安全可信计算平台进行数据交互。在本说明书中,假设各个业务方仅与安全可信计算平台进行数据交互。其中,图1示出的计算平台可以是安全可信的其它方平台,也可以是分布于各个业务方的分布式平台,在此不做限定
在业务模型训练场景中,计算平台可以向各个业务方分发业务模型的当前参数值,由各个业务方利用自身业务数据(例如字符、图片、音频、视频、动画等至少一个类型的数据),确定各个模型参数的梯度,或者对各个模型参数的值进行调整,并将处理结果反馈给计算平台,计算平台可以按照各个业务方反馈的模型参数梯度,对模型参数进行调整,或者根据各个业务方反馈的模型参数调整后的值,融合得到一个调整值,作为相应模型参数的当前值。其中,在各个业务方反馈的是各个模型参数的梯度的情况下,可以对各个梯度采用加权平均、取最大值、取最小值等方式进行处理,得到一个对模型参数进行调整的综合梯度。在各个业务方反馈的是调整后的模型参数值的情况下,计算平台可以通过加权平均、回归等方式确定模型参数综合调整后的值。业务模型训练好之后,各个业务方可以通过计算平台获取训练好的业务模型。
值得说明的是,图1中示出的业务方(也可以是数据方,即数据拥有方)的数量仅为示例,实际应用中,业务方的数量为两个或两个以上,根据实际需求设置,在此不做限定。
其中,在本说明书中,业务数据可以是用于描述业务方提供业务的对象的数据。将用户作为各个业务方的业务相对方,也就是业务方提供业务的对象,业务数据就可以是用于描述用户的数据,例如年龄、性别、职业、收入、购物习惯、消费习惯等等。这些描述类型可以称为用户的业务属性。
可以理解,一条业务数据可以包括多个业务属性,共同训练业务模型时,各个业务方的业务数据通常具有一定关联性。例如,对于多个金融平台共同训练用于确定用户的贷款违约风险的业务模型的具体场景下,需要的业务属性例如可以包括但不限于以下的至少一项:年龄、性别、职业、收入、支付习惯、还款习惯、历史逾期记录,等等。在一个实施例中,在不同的业务平台,可以收集用户的不同业务属性。例如,第一业务方记录有用户张三的“年龄、性别、职业、支付习惯”,第二业务方记录有用户张三的“年龄、性别、历史逾期记录”等等。在另一个实施例中,在不同的业务平台,可以收集不同用户的业务属性。例如,第一业务方记录有用户张三和李四的若干业务属性,第二业务方记录有用户王五和李六的若干业务属性,等等。在其他实施例中,在不同的业务平台,还可以交叉收集用户的业务属性。例如,第一业务方记录有用户张三的“年龄、性别、职业、支付习惯”业务属性和李四的各种业务属性,第二业务方记录有用户张三的“年龄、性别、历史逾期记录”业务属性和李六的各种业务属性,等等。
一个业务属性,可以对应多个业务属性候选项,例如,“性别”业务属性,可以对应“男”、“女”两个属性候选项。对一个用户而言,根据其业务数据中具体的业务属性,可以提取相应的业务特征。提取业务特征的过程可以理解为确定在具体业务特征上的特征值的过程。例如性别对应的业务特征为x1,如果一个用户的业务数据中,“性别”业务属性对应具体属性候选项“男”,则可以确定x1=1,即,提取到相应的业务特征。
由多个业务方按照各自记录的业务标签(如是否违约用户的),确定模型参数梯度,以训练业务模型。在业务训练过程中,各个业务方不获取其他方的业务数据。
可以理解,由于各个业务方可能对某些用户的业务数据记录不够全面,例如,第一业务方在用户张三的业务数据中没有性别业务属性的记录。如果该业务方希望分析自有数据中的性别特性,那么可以预测自有业务数据中缺失的性别业务属性的,以对业务数据进行性别分析。
为了预测某些业务数据的某个缺失的业务属性,可以先训练一个预测模型。该缺失的业务属性例如可以是性别、收入等中的一项。可以理解,这里的缺失业务属性通常是针对部分业务数据的未知业务属性。也就是说,一个业务方针对该单个业务属性,在一部分业务数据中可以有相关记录,一部分业务数据中没有相关记录。例如上述例子中,张三对应的业务数据具有性别属性“男”,王七和钱九对应的业务数据不包括性别业务属性,则对于王七和钱九来说,性别是缺失的业务属性。
为了充分利用自身数据,可以考虑利用业务数据中其他业务属性来推测缺失的业务属性。如此,考虑利用自有业务数据中包含有该需要推测的业务属性的业务数据来构建训练样本集。单个训练样本可以对应有相应业务数据中的若干业务属性或由业务属性提取的各个参考特征,而上述要推测的业务属性作为样本标签。
可以理解,业务模型是用于对业务特征(与具体业务属性对应)进行各种处理,得到业务处理结果的模型,业务模型的业务处理结果携带有业务特征(代表着业务属性)给出的信息,例如一条业务数据的一个业务特征发生变化输出结果可能随之发生变化。并且,业务模型是多个业务方共同训练的,在业务模型中还包含了更多其他信息。因此,为了获得更准确的预测模型,进一步考虑基于业务模型来构建预测某个业务属性的预测模型。
值得说明的是,这里业务模型的业务处理结果,不一定是最终的输出结果,也可能是最终的输出结果所依赖的处理结果。例如,在业务模型的输出结果是划分到二个类别之一的概率结果(如违约高风险概率)时,这里的业务处理结果可以是最终的输出结果,而如果业务模型的输出结果是二个类别之一对应的符号(例如违约高风险用户对应的数值1)时,这里的业务处理结果可以是最终的输出结果所依赖的处理结果(如输出数值1之前确定的违约高风险用户概率)。
通常,多个业务方共同训练的业务模型对从相关业务属性中提取的业务特征进行了复杂的线性或非线性运算,因此,训练好的业务模型对某个业务特征的梯度(偏导数)可能包含有相应业务特征对业务模型的影响,还可能包含有业务属性之间的复杂关联关系,例如年龄和性别之间的关联关系、收入和性别之间的关联关系等。为此,为了充分利用更多有效信息,获得更准确的预测模型,考虑将业务模型对由业务属性提取的业务特征的梯度,作为训练预测模型的参考特征,构建训练样本。本领域技术人员可以理解,业务模型的业务处理结果可以看作各个业务特征与各个模型参数的表达结果,业务模型对某个业务特征的梯度,可以理解为将业务模型的业务处理结果看作该业务特征的表达式,利用其他业务特征与各个模型参数作为已知数,确定的偏导数结果。
作为一个具体示例,假设由多个业务方共同训练的业务模型的业务处理结果记为G,多个业务方包括第一方,第一方要分析业务属性S1,对应业务特征x1。首先,根据已知业务属性S1的n条业务数据,构建正样本集。其中,n可以是预设的自然数,也可以是第一方的业务数据中已知业务属性S1的真实业务数据条数。例如构建正样本集的业务数据可以为:
x12,x13,x14……x1t;y1=x11
x22,x23,x24……x2t;y2=x21
……
xn2,xn3,xn4……xnt;y2=xn1
其中,上述构建正样本集的业务数据中,x表示业务特征,第一个下标(1至n)表示业务数据序号,第二个下标(1到t)表示业务特征序号。在上面的具体示例中,假设待预测的业务属性对应的是第一个业务特征,所以正样本的样本标签可以与相应业务属性的属性候选项一致,如取相应业务特征的特征值xi1。
进一步地,还可以根据已知待预测缺失的用户业务属性的业务数据构造负样本集。负样本集的样本标签可以是与业务数据中原有的属性候选项之外的其他属性候选项对应的其他标签。该其他标签可以是指定的,也可以是随机选择的。例如,业务属性S1对应的是性别,相应业务特征的特征值可以取0或1,分别用于表示“男”、“女”,那么,构建负样本时,可以将样本标签对应的值进行转换,例如正样本中是1,则转换为0后作为负样本,反之亦然。再例如,业务属性S1对应的是收入,对应属性候选项可以包括:无收入、低收入、中等收入、高收入、超高收入等。如果一条用于构造训练样本的业务数据中,收入业务属性为“中等收入”,则相应负样本的样本标签可以取无收入、低收入、高收入、超高收入中的任意一项。可选地,负样本可以由与正样本一致的业务数据进行构造,假如与收入相应的业务特征的特征值可以取0(对应无收入)、1(对应低收入)、2(对应中等收入)、3(对应高收入)、4(对应超高收入),当正样本中提取到的作为样本标签的相应业务特征值为2时,可以从其余特征值中随机选择一个值(如0),和相应的参考特征一起构建负样本。例如根据以上构建正样本集的业务数据,确定对应的构建负样本集的业务数据为:
x12,x13,x14……x1t;y^ 1=x^ 11
x22,x23,x24……x2t;y^ 2=x^ 21
……
xn2,xn3,xn4……xnt;y^ 2=x^ n1
其中,这里的标签项中,增加了上标“^”,用于和正样本的标签构成区分,以表示负样本的标签。
针对以上构建正、负样本集的业务数据,可以提取相应的参考特征,以构成训练样本集,例如:
……
……
可以理解,根据业务模型的业务处理结果,一个业务特征的梯度可以是其他业务特征的函数,因此,将其他已知的业务特征代入,可以确定各个参考特征的特征值。训练样本的参考特征可以称为样本参考特征。实践中,负样本集和正样本集可以采用相同的业务数据进行构建,也可以采用不同的业务数据进行构建,本说明书对此不做限定。
值得说明的是,在实际实施过程中,上述确定梯度的过程中可能涉及一些梯度还是其他方提供的业务特征的函数。可以理解,当前方无法获知其他方的业务特征上的特征值。于是,在一个可选的实施方式中,对于无法获知特征值的单个业务特征,可以根据先验知识确定该业务特征的特征均值,例如收入均值等,进而可以确定相关的梯度值。在另一个可选的实施方式中,还可以对于包含无法获知特征值的业务特征的某个梯度,为每个无法获知特征值的业务特征随机生成一个特征值,确定该梯度。进一步可选地,可以多次以对无法获知特征值的业务特征随机生成特征值的方式确定相应的多个梯度,将这多个梯度的平均值,作为该梯度的最终梯度值(即相应样本参考特征)。
通过训练样本集可以训练预测模型。在本说明书中,预测模型可以是诸如逻辑回归(Logistic Regression,LR)、深度神经网络(Deep Neural Networks,DNN)之类的各种模型,本说明书对此不作限定。
进一步地,第一业务方对于缺失业务属性S1的一条业务数据,可以根据其他业务属性,按照与构建样本的参考特征一致的方式,提取各个参考特征,将各个参考特征输入训练好的预测模型后,根据预测模型的输出结果,可以确定该业务数据的业务属性S1。下面详细描述预测缺失的用户业务属性的方法。
图2示出了根据本说明书一个实施例的预测缺失的用户业务属性的流程示意图。该预测缺失的用户业务属性的流程可以用于基于多个业务方在保护数据隐私的前提下共同训练的业务模型,由多个业务方中的第一方预测针对第一用户的业务数据中缺失的第一业务属性。这里的业务模型用于对单个用户基于业务数据提取的业务特征进行处理,得到业务处理结果。该流程的执行主体可以是任一具有一定计算能力的计算机、设备或服务器等。其中,执行该流程的第一方可以是多个业务方中的任一个业务方。
如图2所示,预测缺失的用户业务属性的流程包括:步骤201,针对与第一用户对应的第一业务数据,基于业务模型提取其中的各个已知业务属性分别对应的各个参考特征,单个参考特征根据业务模型针对第一业务数据的业务处理结果对相应业务特征的梯度确定;步骤202,将各个参考特征输入预先训练的预测模型,得到输出结果,其中,预测模型通过第一方中具有第一业务属性的多条业务数据构造的各个训练样本进行训练;步骤203,根据输出结果确定第一用户的第一业务属性。
首先,通过步骤201,针对与第一用户对应的第一业务数据,基于业务模型提取其中的各个已知业务属性分别对应的各个参考特征。其中,这里的参考特征是为了区别业务模型使用的业务特征,该名称不对特征本身的含义进行限定。参考特征可以是用于描述各种业务属性之间的关系的特征。这里说的确定各个参考特征,可以理解为,提取第一业务数据在各个参考特征上的特征值。业务属性之间的关系,可以通过业务属性对应的业务特征之间的关系来描述。
其中,业务属性可以根据具体场景而定,例如,在金融平台的借贷风险场景中,业务属性可以包括性别、年龄、收入、消费金额偏好、消费类别偏好等等。针对单个业务属性,可以对应一个业务特征。例如业务属性“性别”对应的业务特征“性别”,该业务特征的可能取值可以为2个,一个表示属性候选项“男”,一个表示属性候选项“女”。业务属性和业务特征的区别在于,业务属性是针对业务数据中的业务主体(例如用户)的描述信息,而业务特征是针对业务模型所确定的输入项,如x1。
单个业务特征对业务模型的业务处理结果的影响,可以通过相应业务处理结果对该单个业务特征的梯度来确定。尤其在业务模型描述了业务特征之间错综复杂的非线性关系时,相应业务处理结果对该单个业务特征的梯度还可以描述相应业务属性之间的关联关系。因此,在本说明书的技术构思下,在确定第一业务数据缺失的第一业务属性时,可以将业务模型的业务处理结果对与其他业务属性对应的各个业务特征的梯度作为参考特征。第一业务数据对应的各个参考特征的确定方式与样本参考特征类似,在此不再赘述。
特别地:在一个可选的实施方式中,对于存在无法获知特征值的业务特征的梯度,可以根据先验知识确定单个相应业务特征的特征均值,例如收入均值等,进而可以确定相关的梯度值;在另一个可选的实施方式中,还可以对于包含无法获知特征值的业务特征的某个梯度,为每个无法获知特征值的业务特征随机生成一个特征值,确定该梯度,进一步可选地,可以多次以对无法获知特征值的业务特征随机生成特征值的方式确定相应的多个梯度,将这多个梯度的平均值,作为该梯度的最终梯度值(即相应参考特征)。
接着,在步骤202中,将各个参考特征输入预先训练的预测模型,得到输出结果。其中,预测模型可以通过第一方的具有第一业务属性的多条业务数据构造的各个训练样本进行训练。预测模型的训练原理及过程如前文所述,在此不再赘述。将第一业务数据的各个参考特征输入训练好的预测模型后,可以得到预测模型的输出结果。该输出结果的具体含义与训练过程中的样本标签相对应。
在一个实施例中,输出结果可以是业务属性对应的某个属性候选项的概率。例如对于“性别”业务属性,是属性候选项“男”的概率。当业务属性有2个属性候选项,分别用0、1表示的情况下,输出结果的数值可以是1表示的属性候选项对应的类别的概率。
在另一个实施例中,输出结果可以是业务属性对应的各个属性候选项的概率。例如,对于“收入”业务属性,输出结果可以包括分别对应于“超高收入”、“高收入”、“中等收入”、“低收入”、“无收入”等属性候选项分类类别的概率。此时,输出结果可以是一个向量,向量中的各个元素分别对应各个属性候选项。如输出结果为(0.81,0.17,0.01,0.01,0),表示第一用户的收入分别为“超高收入”的概率为0.81、“高收入”的概率为0.17、“中等收入”的概率为0.01、“低收入”的概率为0.01、“无收入”的概率为0。
在又一个实施例中,输出结果可以是业务属性对应的具体属性候选项。例如,对于“性别”业务属性,直接输出“1”(如对应男的属性候选项),对于“收入”业务属性,直接输出“3”(对应高收入属性候选项),等等。
在其他实施例中,预测模型的输出结果还可以是其他形式,在此不再一一列举。
在可选的实现方式中,预测模型还可以是多任务模型,例如同时针对业务属性“性别”和“收入”进行预测,在此不做限定。
进一步地,步骤203,根据输出结果确定第一用户的第一业务属性。可以理解,根据输出结果,可以确定第一用户缺失的第一业务属性。例如确定第一用户的业务数据中,性别为“男”,或者收入为“高收入”等。
通常,在步骤202中的输出结果是分类到某个属性候选项的概率的情况下,可以根据预设的概率阈值,确定第一用户的第一业务属性是否为该属性候选项。通常,输出结果中的概率大于该概率阈值时,确定第一用户的第一业务属性为该属性候选项。
在步骤202中的输出结果是分别对应于各个属性候选项的概率时,可以取概率值最大的若干属性候选项,作为第一用户的第一业务属性。也可以按照预设的概率阈值,确定第一用户的第一业务属性包括概率大于该概率阈值的多个候选属性项。
在步骤202中的输出结果为最终分类类别对应的数值时,可以直接根据输出结果确定第一用户的第一业务属性。例如预测性别业务属性时,输出结果为数值1,确定第一用户的性别业务属性为“男”。
进一步地,第一方可以根据预测的缺失用户属性(如第一业务属性)进行各种业务分析,例如,确定金融用户的性别分布、收入分布等。在本说明书实施例中,虽然以金融平台为例进行了描述,然而,该技术构思的适用场景不限于金融平台,多个业务方还可以是诸如医疗机构、学校之类的业务平台,在此不作限定。这里的用户可以是一个ID、一个身份标识等等的统称。
值得说明的是,如果联合训练业务模型的数据方仅有两方,并且两方的业务数据针对相同的业务相对方,例如都是金融用户张三、李四等等,两方用于训练业务模型的业务数据包含相同的若干用户的不同业务属性,那么一方利用上述流程,可能会探测到另一方的数据隐私。
如图3所示,假设第一方和第二方是两个金融业务平台,用于训练业务模型的各个训练样本均由第一方和第二方共同提供,单个训练样本对应单个金融业务平台用户,第一方和第二方通过用户标识(如手机号码、身份证号)等标识同一个用户,进行基于隐私保护的业务模型训练。在训练业务模型过程中,第一方贡献包含业务属性S1至业务属性Sq的业务数据,并针对各个训练样本从这些业务属性数据中提取相应的业务特征,第二方贡献包含业务属性St至业务属性Sp的业务数据,并针对各个训练样本从这些业务数据中提取相应的业务特征。此时,第一方虽然贡献了业务属性S1至业务属性Sq的业务数据,但并不表示第一方没有存储其他业务属性数据。假设第一方贡献的业务数据中不包括性别,而第二方贡献的业务数据中包括性别,但是第一方对少量用户采集有性别业务属性,那么,第一方可能按照少量采集有性别业务属性的业务数据构建本说明书实施例提供的预测模型,并用于预测各个用户对应的性别业务属性。如此,第一方就相当于获取了第二方数据的业务属性信息。如果第一方恶意探测第二方的隐私数据,对部分用户分别采集不同的业务属性,例如收入、违约次数等业务属性,并对其他用户进行相关业务属性预测,则第二方的数据有暴露风险。
虽然这不是本申请提供技术方案的本意,但是,在特殊情况下,可能被业务方用于恶意行为,为此,本说明书还提供一种针对这种恶意行为的破解方法:在业务模型下发到各个业务方之前,对业务模型进行加噪声处理。例如,对模型参数采用剪枝、差分隐私之类的方式添加噪声。
也就是说,对于绝对值小于阈值的模型参数,进行归零处理,其他模型参数不变。其中,可以为服务方或各个业务方协商指定的一个参数,例如为不大于0.001的数。这样,就相当于对业务模型中的部分项删除,即剪枝处理。这样处理之后的业务模型,由于添加了噪声,即使某一业务方通过本说明书实施例提供的流程窥探其他业务方的数据隐私,也由于噪声的干扰,导致业务特征之间的关联关系受到干扰,从而影响预测模型的准确度。例如,不经过剪枝处理的业务模型,在对性别的预测结果为,是男性的概率为0.75时,可以确定相应业务数据缺失的性别属性为男性。而利用经过剪枝后的业务模型,可能预测概率为0.5,甚至0.3时,相应业务数据的性别属性仍可能为男性,从而导致准确度下降。如此,可以防止本说明书架构下的技术方案被恶意利用,一个业务方无法有效窥探另一方的数据隐私。
回顾以上过程,本说明书实施例提供的预测缺失的用户业务属性的方法,可以通过多方联合训练的业务模型,构建训练样本。其中,训练样本对应的参考特征由业务模型的业务处理结果对用于训练业务模型的业务特征的梯度来确定,由于这种梯度里面包含了丰富的业务特征与业务模型、业务特征对应的业务属性之间的关联信息,因此,可以训练有效的预测模型,来预测各条业务数据中缺失的业务属性。特别地,对于该方法可能被恶意利用的情况,本说明书还提供了相应的解决方案,可以有效保护共同训练业务模型的各个数据方的数据隐私。
根据另一方面的实施例,还提供一种预测缺失的用户业务属性的装置。其中,这里的业务数据可以是文字、图像、语音、视频、动画等各种类型的数据。该装置可以设于多个业务方中的第一方,用于基于这多个业务方在保护数据隐私的前提下共同训练的业务模型,由第一方预测针对第一用户的业务数据中缺失的第一业务属性。其中,业务模型可以用于对单个用户基于业务数据提取的业务特征进行处理,得到业务处理结果。
图4示出根据一个实施例的预测缺失的用户业务属性的装置的示意性框图。如图4所示,装置400包括:提取单元41,配置为针对与第一用户对应的第一业务数据,基于业务模型提取其中的各个已知业务属性分别对应的各个参考特征,单个参考特征根据业务模型针对第一业务数据的业务处理结果对相应业务特征的梯度确定;处理单元42,配置为将各个参考特征输入预先训练的预测模型,得到输出结果,其中,预测模型通过第一方中具有第一业务属性的多条业务数据构造的各个训练样本进行训练;确定单元43,配置为根据输出结果确定第一用户的第一业务属性。
根据一个可选的实现方式,第一方中具有第一业务属性的多条业务数据包括第二业务数据,装置400还可以包括训练样本构造单元(未示出),配置为针对第二业务数据通过以下方式构造训练样本:
根据第二业务数据中的第一业务属性,确定第一标签;
针对第二业务数据中,第一业务属性之外的其他业务属性,提取各个样本参考特征,单个样本参考特征根据业务模型针对第二业务数据的业务处理结果对相应业务特征的梯度确定;
基于各个样本参考特征和第一标签,确定与第二业务数据对应的训练样本。
在进一步的实施例中,训练样本构造单元进一步配置为:
在第一标签是对应于第二业务数据中的第一业务属性的标签的情况下,基于各个样本参考特征和第一标签,构造与第二业务数据对应的正样本;
在第一标签不是对应于第二业务数据中的第一业务属性的标签的情况下,基于各个样本参考特征和第一标签,构造与第二业务数据对应的负样本。
根据一个实施例,预测模型为逻辑回归模型或深度神经网络。
在一方面的实施方式中,输出结果为第一业务属性的各个属性候选项上分别对应的各个概率,确定单元43进一步配置为:
根据各个概率中最大的至少一个概率对应的各个属性候选项,确定第一用户的第一业务属性。
在一方面的实施方式中,输出结果为第一用户的第一业务属性为第一属性候选项的第一概率,确定单元43进一步配置为::
基于第一概率与预定概率阈值的对比,确定第一用户的第一业务属性。
值得说明的是,图4所示的装置400是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置400,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,存储器中存储有可执行代码,处理器执行可执行代码时,实现结合图2的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。
Claims (14)
1.一种预测缺失的用户业务属性的方法,用于基于多个业务方在保护数据隐私的前提下共同训练的业务模型,由所述多个业务方中的第一方预测其针对第一用户的第一业务数据中缺失的第一业务属性,所述业务模型用于对单个用户基于业务数据提取的业务特征进行处理,得到业务处理结果;所述方法包括:
针对所述第一业务数据,基于所述业务模型提取其中的各个已知业务属性分别对应的各个参考特征,单个参考特征根据所述业务模型针对所述第一业务数据的业务处理结果对相应业务特征的梯度确定;
将各个参考特征输入预先训练的预测模型,得到输出结果,其中,所述预测模型通过所述第一方中具有第一业务属性的多条业务数据构造的各个训练样本进行训练;
根据所述输出结果确定所述第一用户的第一业务属性。
2.根据权利要求1所述的方法,其中,所述第一方中具有第一业务属性的多条业务数据包括第二业务数据,针对所述第二业务数据通过以下方式构造训练样本:
根据所述第二业务数据中的第一业务属性,确定第一标签;
针对所述第二业务数据中,第一业务属性之外的其他业务属性,提取各个样本参考特征,单个样本参考特征根据所述业务模型针对所述第二业务数据的业务处理结果对相应业务特征的梯度确定;
基于各个样本参考特征和所述第一标签,确定与所述第二业务数据对应的训练样本。
3.根据权利要求2所述的方法,其中,所述基于各个样本参考特征和所述第一标签,确定与所述第二业务数据对应的训练样本包括:
在所述第一标签是对应于所述第二业务数据中的第一业务属性的标签的情况下,基于各个样本参考特征和所述第一标签,构造与所述第二业务数据对应的正样本;
在所述第一标签不是对应于所述第二业务数据中的第一业务属性的标签的情况下,基于各个样本参考特征和所述第一标签,构造与所述第二业务数据对应的负样本。
4.根据权利要求1所述的方法,其中,所述预测模型为逻辑回归模型或深度神经网络。
5.根据权利要求1所述的方法,其中,所述输出结果为分别对应于所述第一业务属性的各个属性候选项的各个概率,所述根据所述输出结果确定所述第一用户的第一业务属性包括:
根据各个概率中最大的至少一个概率对应的各个属性候选项,确定所述第一用户的第一业务属性。
6.根据权利要求1所述的方法,其中,所述输出结果为对应于所述第一用户的第一业务属性是第一属性候选项的第一概率,所述根据所述输出结果确定所述第一用户的第一业务属性包括:
基于所述第一概率与预定概率阈值的对比,确定所述第一用户的第一业务属性。
7.一种预测缺失的用户业务属性的装置,用于基于多个业务方在保护数据隐私的前提下共同训练的业务模型,由所述多个业务方中的第一方预测其针对第一用户的第一业务数据中缺失的第一业务属性,所述业务模型用于对单个用户基于业务数据提取的业务特征进行处理,得到业务处理结果;所述装置包括:
提取单元,配置为针对所述第一业务数据,基于所述业务模型提取其中的各个已知业务属性分别对应的各个参考特征,单个参考特征根据所述业务模型针对所述第一业务数据的业务处理结果对相应业务特征的梯度确定;
处理单元,配置为将各个参考特征输入预先训练的预测模型,得到输出结果,其中,所述预测模型通过所述第一方中具有第一业务属性的多条业务数据构造的各个训练样本进行训练;
确定单元,配置为根据所述输出结果确定所述第一用户的第一业务属性。
8.根据权利要求7所述的装置,其中,所述第一方中具有第一业务属性的多条业务数据包括第二业务数据,所述装置还包括训练样本构造单元,配置为针对所述第二业务数据通过以下方式构造训练样本:
根据所述第二业务数据中的第一业务属性,确定第一标签;
针对所述第二业务数据中,第一业务属性之外的其他业务属性,提取各个样本参考特征,单个样本参考特征根据所述业务模型针对所述第二业务数据的业务处理结果对相应业务特征的梯度确定;
基于各个样本参考特征和所述第一标签,确定与所述第二业务数据对应的训练样本。
9.根据权利要求8所述的装置,其中,所述训练样本构造单元进一步配置为:
在所述第一标签是对应于所述第二业务数据中的第一业务属性的标签的情况下,基于各个样本参考特征和所述第一标签,构造与所述第二业务数据对应的正样本;
在所述第一标签不是对应于所述第二业务数据中的第一业务属性的标签的情况下,基于各个样本参考特征和所述第一标签,构造与所述第二业务数据对应的负样本。
10.根据权利要求7所述的装置,其中,所述预测模型为逻辑回归模型或深度神经网络。
11.根据权利要求7所述的装置,其中,所述输出结果为分别对应于所述第一业务属性的各个属性候选项的各个概率,所述确定单元进一步配置为:
根据各个概率中最大的至少一个概率对应的各个属性候选项,确定所述第一用户的第一业务属性。
12.根据权利要求7所述的装置,其中,所述输出结果为所述第一用户的第一业务属性是第一属性候选项的第一概率,所述确定单元进一步配置为::
基于所述第一概率与预定概率阈值的对比,确定所述第一用户的第一业务属性。
13.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-6中任一项的所述的方法。
14.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010384204.5A CN111353554B (zh) | 2020-05-09 | 2020-05-09 | 预测缺失的用户业务属性的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010384204.5A CN111353554B (zh) | 2020-05-09 | 2020-05-09 | 预测缺失的用户业务属性的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353554A true CN111353554A (zh) | 2020-06-30 |
CN111353554B CN111353554B (zh) | 2020-08-25 |
Family
ID=71197695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010384204.5A Active CN111353554B (zh) | 2020-05-09 | 2020-05-09 | 预测缺失的用户业务属性的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353554B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783143A (zh) * | 2020-07-24 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 用户数据的业务模型使用确定方法、系统及系统 |
CN112380319A (zh) * | 2020-11-12 | 2021-02-19 | 平安科技(深圳)有限公司 | 一种模型训练的方法及相关装置 |
CN115828171A (zh) * | 2023-02-13 | 2023-03-21 | 支付宝(杭州)信息技术有限公司 | 一种端云协同执行业务的方法、装置、介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777024A (zh) * | 2016-12-08 | 2017-05-31 | 北京小米移动软件有限公司 | 识别恶意用户的方法及装置 |
US10057367B2 (en) * | 2016-03-02 | 2018-08-21 | Huawei Technologies Canada Co., Ltd. | Systems and methods for data caching in a communications network |
CN109299728A (zh) * | 2018-08-10 | 2019-02-01 | 深圳前海微众银行股份有限公司 | 联邦学习方法、系统及可读存储介质 |
CN110557447A (zh) * | 2019-08-26 | 2019-12-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN111081337A (zh) * | 2020-03-23 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种协同任务预测方法及计算机可读存储介质 |
-
2020
- 2020-05-09 CN CN202010384204.5A patent/CN111353554B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10057367B2 (en) * | 2016-03-02 | 2018-08-21 | Huawei Technologies Canada Co., Ltd. | Systems and methods for data caching in a communications network |
CN106777024A (zh) * | 2016-12-08 | 2017-05-31 | 北京小米移动软件有限公司 | 识别恶意用户的方法及装置 |
CN109299728A (zh) * | 2018-08-10 | 2019-02-01 | 深圳前海微众银行股份有限公司 | 联邦学习方法、系统及可读存储介质 |
CN110557447A (zh) * | 2019-08-26 | 2019-12-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN111081337A (zh) * | 2020-03-23 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种协同任务预测方法及计算机可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783143A (zh) * | 2020-07-24 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 用户数据的业务模型使用确定方法、系统及系统 |
CN111783143B (zh) * | 2020-07-24 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 用户数据的业务模型使用确定方法、装置及系统 |
CN112380319A (zh) * | 2020-11-12 | 2021-02-19 | 平安科技(深圳)有限公司 | 一种模型训练的方法及相关装置 |
CN112380319B (zh) * | 2020-11-12 | 2023-10-17 | 平安科技(深圳)有限公司 | 一种模型训练的方法及相关装置 |
CN115828171A (zh) * | 2023-02-13 | 2023-03-21 | 支付宝(杭州)信息技术有限公司 | 一种端云协同执行业务的方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111353554B (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van Breugel et al. | Decaf: Generating fair synthetic data using causally-aware generative networks | |
US20200372369A1 (en) | System and method for machine learning architecture for partially-observed multimodal data | |
Pena et al. | Bias in multimodal AI: Testbed for fair automatic recruitment | |
CN110457912B (zh) | 数据处理方法、装置和电子设备 | |
CN111353554B (zh) | 预测缺失的用户业务属性的方法及装置 | |
Zaidan et al. | A new digital watermarking evaluation and benchmarking methodology using an external group of evaluators and multi‐criteria analysis based on ‘large‐scale data’ | |
CN113536383B (zh) | 基于隐私保护训练图神经网络的方法及装置 | |
US20190035015A1 (en) | Method and apparatus for obtaining a stable credit score | |
CN113240505B (zh) | 图数据的处理方法、装置、设备、存储介质及程序产品 | |
JP2017535857A (ja) | 変換されたデータを用いた学習 | |
CN111489155B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN113221104B (zh) | 用户异常行为的检测方法及用户行为重构模型的训练方法 | |
CN111144576A (zh) | 模型训练方法、装置和电子设备 | |
CN112200382B (zh) | 一种风险预测模型的训练方法和装置 | |
CN113011884B (zh) | 账户特征的提取方法、装置、设备及可读存储介质 | |
CN112100642B (zh) | 在分布式系统中保护隐私的模型训练方法及装置 | |
CN111428217A (zh) | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 | |
US11985153B2 (en) | System and method for detecting anomalous activity based on a data distribution | |
CN112016850A (zh) | 业务评估方法以及装置 | |
WO2024179575A1 (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
Xiang et al. | Collaborative ensemble learning under differential privacy | |
Dhabliya et al. | Addressing Bias in Machine Learning Algorithms: Promoting Fairness and Ethical Design | |
CN115034886A (zh) | 一种违约风险预测方法及装置 | |
Ali-Eldin et al. | A risk evaluation approach for authorization decisions in social pervasive applications | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |