CN112101609A - 关于用户还款及时性的预测系统、方法、装置及电子设备 - Google Patents

关于用户还款及时性的预测系统、方法、装置及电子设备 Download PDF

Info

Publication number
CN112101609A
CN112101609A CN202010725692.1A CN202010725692A CN112101609A CN 112101609 A CN112101609 A CN 112101609A CN 202010725692 A CN202010725692 A CN 202010725692A CN 112101609 A CN112101609 A CN 112101609A
Authority
CN
China
Prior art keywords
data
client
user
terminal
bank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010725692.1A
Other languages
English (en)
Other versions
CN112101609B (zh
Inventor
公茂果
高原
王钊
梁爽
王善峰
武越
张明阳
李豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010725692.1A priority Critical patent/CN112101609B/zh
Publication of CN112101609A publication Critical patent/CN112101609A/zh
Application granted granted Critical
Publication of CN112101609B publication Critical patent/CN112101609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种关于用户还款及时性的预测方法,第一客户端获取目标用户的第一标识数据和第一特征数据组;利用对偶模型预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发给第二客户端;获得第一特征数据组的第一加密加权值并发给服务端;第二客户端利用接收到的加密数据确定目标用户在第二客户端的第二目标特征数据组,获得第二目标特征数据组的第二加密加权值并发给服务端;服务端对接收到的第一加密加权值和第二加密加权值求和,对求和结果解密得到表征目标用户还款及时性的目标标签数据,并发给第一客户端;第一客户端为销售企业端或银行端之一,第二客户端为销售企业端或银行端之另一。

Description

关于用户还款及时性的预测系统、方法、装置及电子设备
技术领域
本发明属于金融领域,具体涉及一种关于用户还款及时性的预测系统、方法、装置及电子设备。
背景技术
在金融领域,银行基于业务需求,常常需要预测用户是否能够及时对信用卡等借贷业务还款,但银行自身的用户数据可能并不足以进行预测。与此同时,销售企业也期望预测用户是否能够及时还款从而进行用户画像。因此,银行和销售企业期望在不泄露各自用户的隐私数据的情况下联合完成用户还款及时性的预测过程。
在这种情况下,“联邦学习”的概念应运而生。联邦学习实际上是一种加密的分布式机器学习技术,销售企业和银行可以在不披露底层数据的前提下利用纵向联邦学习方法,共建联邦学习模型,预测表征用户是否能够及时还款的标签数据。
但是,在实际应用中,由于销售企业和银行的用户交集可能较小,导致双方共有的用户数据极其有限,在少量的共有用户数据集上训练得到的纵向联邦学习模型对于用户还款及时性的预测效果并不理想。
发明内容
为了解决销售企业和银行在纵向联邦学习中共有用户数据集不足的问题,提升两者的纵向联邦学习模型对于用户还款及时性的预测效果,本发明实施例提供了一种关于用户还款及时性的预测系统、方法、装置、电子设备、存储介质,以及一种联邦学习模型训练方法。
本发明要解决的技术问题通过以下技术方案实现:
本发明实施例提供了一种关于用户还款及时性的预测系统,包括第一客户端、第二客户端,以及服务端:所述第一客户端,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;并且,利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;所述第二客户端,用于利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;所述服务端,用于对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户的还款及时性;其中,所述第一客户端为销售企业端或银行端之一,所述第二客户端为销售企业端或银行端之另一;所述销售企业端、所述银行端各自拥有预先训练的对偶模型;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述销售企业端和所述银行端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
本发明实施例提供了一种关于用户还款及时性的预测方法,所述方法包括:第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;并且,利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户的还款及时性;其中,所述第一客户端为销售企业端或银行端之一,所述第二客户端为销售企业端或银行端之另一;所述销售企业端、所述银行端各自拥有预先训练的对偶模型;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述销售企业端和所述银行端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
本发明实施例提供了另一种关于用户还款及时性的预测方法,应用于关于用户还款及时性的预测系统的第一客户端,所述系统还包括第二客户端,以及服务端,所述方法包括:获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组;将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;以使得所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;以使得所述服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户的还款及时性;接收所述服务端返回的所述目标标签数据;其中,所述第一客户端为销售企业端或银行端之一,所述第二客户端为销售企业端或银行端之另一;所述销售企业端、所述银行端各自拥有预先训练的对偶模型;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述销售企业端和所述银行端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
本发明实施例提供了一种关于用户还款及时性的预测装置,应用于关于用户还款及时性的预测系统的第一客户端,所述系统还包括第二客户端,以及服务端,所述装置包括:获取模块,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;预测模块,用于利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组;第一加密发送模块,用于将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;以使得所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;第二加密发送模块,用于利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;以使得所述服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户的还款及时性;接收模块,用于接收所述服务端返回的所述目标标签数据;其中,所述第一客户端为销售企业端或银行端之一,所述第二客户端为销售企业端或银行端之另一;所述销售企业端、所述银行端各自拥有预先训练的对偶模型;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述销售企业端和所述银行端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述第一种关于用户还款及时性的预测方法的步骤。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一种关于用户还款及时性的预测方法的步骤。
本发明实施例提供了一种联邦学习模型训练方法,所述方法包括:参与联邦学习模型训练的销售企业端和银行端分别获取各自的用户数据;所述销售企业端的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据;所述销售企业端和所述银行端确定共有用户,得到共有用户数据集;所述销售企业端和所述银行端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述销售企业端和所述银行端的标识数据的并集,并补全各自的特征数据组,得到所述销售企业端和所述银行端扩展的共有用户数据集;所述销售企业端和所述银行端基于所述扩展的共有用户数据集,在所述服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型。
本发明实施例中,拥有联邦学习模型的所述服务端,从第二客户端接收到的所述第二加密加权值是,待预测用户还款及时性的所述第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对所述第二客户端,利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端,再由所述第二客户端利用接收到的加密数据,确定所述目标用户在该第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得的所述第二目标特征数据组的加密加权值。因此,可以在所述第二客户端没有目标用户的特征数据组时,利用所述第一客户端对偶预测的第二预测特征数据组作为所述第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习销售企业端和银行端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在所述第二客户端中并未真实存在,因此,不会泄露所述第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决销售企业端和银行端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升关于用户还款及时性的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方案可扩展到各种有效的模型,具有广泛的应用前景。
以下将结合附图及对本发明做进一步详细说明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种联邦学习模型训练方法的流程示意图;
图2为本发明实施例所提供的一种关于用户还款及时性的预测系统的结构示意图;
图3为本发明实施例所提供的一种关于用户还款及时性的预测方法的结构示意图;
图4为本发明实施例所提供的另一种关于用户还款及时性的预测方法的流程示意图;
图5为本发明实施例所提供的一种关于用户还款及时性的预测装置的结构示意图;
图6为本发明实施例所提供的一种关于用户还款及时性预测的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决销售企业和银行在纵向联邦学习中共有用户数据集不足的问题,提升两者的纵向联邦学习模型对于用户还款及时性的预测效果,本发明实施例提供了一种关于用户还款及时性的预测系统、方法、装置、电子设备、存储介质,以及一种联邦学习模型训练方法。
为了便于理解方案,首先对本发明实施例提供的一种联邦学习模型训练方法予以介绍。
第一方面,本发明实施例提供了一种联邦学习模型训练方法,用于后续的用户还款及时性的标签数据的预测,请参见图1,图1为本发明实施例所提供的一种联邦学习模型训练方法的流程示意图。可以包括以下步骤:
S101,参与联邦学习模型训练的销售企业端和银行端分别获取各自的用户数据;
本发明实施例中,参与联邦学习模型训练的销售企业端和银行端之间地位平等;销售企业端为隶属于销售企业的客户端,具体可以为销售企业的一个服务器或数据库等;销售企业可以为超市、电商平台等等;银行端为隶属于银行的客户端,具体可以为银行的一个服务器或数据库等。关于销售企业端和银行端的形式在此不做限制。
可以理解的是,销售企业端和银行端获取的用户数据属于自身机构的隐私数据。
销售企业端和银行端获取用户数据的方式可以是接收用户输入的用户数据,也可以是从预设存储地址获取预先存储的用户数据等等,当然,销售企业端和银行端获取用户数据可以采用一定的加密方式,这都是合理的,在此,并不对本发明实施例中销售企业端和银行端获取用户数据的方式进行限定。
销售企业端获取到的用户数据包括:用户的标识数据和特征数据组;银行端获取到的用户数据包括:用户的标识数据、特征数据组以及标签数据。
其中,标识数据为区别用户身份的数据,包括ID(Identity document,身份标识号),具体可以为数字、符号、图形、图像等形式。比如可以为用户的身份证号、姓名等。在此,并不对本发明实施例的标识数据的形式进行限制,任何可以区别用户身份的数据形式均可以作为本发明实施例的标识数据的形式。
销售企业端的特征数据组包括在销售企业消费的用户的月消费额特征数据、消费次数特征数据、会员级别特征数据;银行端的特征数据组包括银行用户的月薪特征数据、信用卡额度特征数据。可以理解的是,特征数据可以以数值、向量等形式表征。
在本发明实施例中,银行端的标签数据表征用户还款的及时性;训练阶段的标签数据可以是由人工标注的,当然也可以是使用其他算法自动标注的。一种常用的情况下,标签数据可以为一个概率值,可以表示用户还款及时性的概率,比如0.5或者50%,表示用户能够及时还款的概率为0.5或者50%;另一种常用的情况下,标签数据可以为一个二分类结果,可以表示用户是否能够及时还款,标签数据为“是”,表示能够及时还款,标签数据为“否”,表示不能够及时还款。当然,标签数据也可以用数字、字母、符号、图形等表示是否能够及时还款,比如,以“1”表示是,“0”表示否;或者以“Y”表示是,以“N”表示否;或者以圆形表示是,以三角形表示否,等等,这都是合理的。
需要说明的是,销售企业端和银行端的用户数据中,标识数据有重叠,也就是说,销售企业端和银行端具有部分重叠用户,但因为两者的类型和业务不同,两者的特征数据组完全不同。
S102,销售企业端和银行端确定共有用户,得到共有用户数据集;
可选的一种实现方式中,销售企业端和银行端利用加密的用户对齐技术,确定共有的标识数据;将销售企业端和银行端中,包含共有的标识数据的用户数据的合集,确定为共有用户数据集。
比如,销售企业端A的用户数据为
Figure BDA0002601578340000081
银行端B的用户数据为
Figure BDA0002601578340000082
其中,x为特征数据组,y为标签数据。通过加密的用户对齐技术可以得到A和B的共有用户数据集为
Figure BDA0002601578340000083
需要说明的是,在本文中后续的A均代表销售企业端,B均代表银行端。
在该步骤中,销售企业端和银行端在不公开各自用户数据的前提下,确认共有用户,并且不暴露不互相重叠的用户,以便联合共有用户的用户数据进行后续的训练。
当然,本发明实施例中,确定共有用户的方法不限于加密的用户对齐技术。关于加密的用户对齐技术,可以参见现有技术中的相关介绍,在此不做赘述。
S103,销售企业端和银行端基于共有用户数据集进行加密对偶学习,将各自的标识数据增加至销售企业端和银行端的标识数据的并集,并补全各自的特征数据组,得到销售企业端和银行端扩展的共有用户数据集;
现有联邦学习模型的训练过程,是直接在共有用户数据集上进行,但在实际应用中,共有用户数据集通常极其有限,无法实现较好的训练效果,且属于销售企业端和银行端的大量独有的用户数据被浪费。
目前机器学习领域内,对偶学习广泛应用于机器翻译模型的修正,对偶学习基本思想是两个对偶的任务能形成一个闭环反馈系统,可以从未标注的数据上获得反馈信息,进而利用该反馈信息提高对偶任务中的两个机器学习模型。本发明实施例考虑是否能够在联邦学习中引入对偶学习的思想,利用对偶学习增强销售企业端和银行端的用户数据之间的内在概率联系,实现从一方预测对方的用户数据,从而扩展共有用户数据集。具体的,S103可以包括以下步骤:
S1031,销售企业端和银行端各自建立对偶模型;
在可选的一种实现方式中,对偶模型可以为一个由编码器和解码器组成的神经网络,在可选的其他实现方式中,对偶模型还可以为长短期记忆网络、卷积神经网络等,在此,并不对本发明实施例中的对偶模型的结构进行限定。
对偶模型用于预测本端用户的特征数据组在另一端的特征数据组。以A和B之间的对偶预测举例说明:
针对A的对偶模型MA,其任务是找到一个映射函数f,实现f:xA→xB,即通过输入A的特征数据组xA来计算对B的特征数据组xB的预测值
Figure BDA0002601578340000091
针对B的对偶模型MB,其任务是找到一个映射函数g,实现g:xB→xA,即通过输入B的特征数据组xB来计算对A的特征数据组xA的预测值
Figure BDA0002601578340000092
可以理解的是,xA
Figure BDA0002601578340000093
包括月消费额特征数据、消费次数特征数据、会员级别特征数据;xB
Figure BDA0002601578340000094
包括月薪特征数据、信用卡额度特征数据。
S1032,销售企业端和银行端将共有用户数据集划分为训练集和测试集,并对训练集中属于本端的用户数据进行加密,得到销售企业端和银行端各自的加密用户数据;
首先,销售企业端和银行端将共有用户数据集划分为训练集和测试集,以在训练集上进行后续的对偶模型训练,在测试集上验证对偶模型的训练效果。具体的,可以采用以下任意一种实现方式进行共有用户数据集的划分:
可选的一种实现方式中,可以将共有用户数据集任意划分为两部分,一部分为训练集,一部分为测试集;
可选的另一种实现方式中,可以将共有用户数据集平均划分为两部分,一部分为训练集,一部分为测试集;
可选的又一种实现方式中,可以将共有用户数据集平均划分为K份,其中K为大于1的自然数。将其中一份作为测试集,将其余部分作为训练集。在该种实现方式中,训练集的用户数据多于测试集的用户数据,可以保证对偶模型训练具有足够的样本数,提升训练的准确性,同时利用少量数据进行验证以简化验证的复杂度。
其次,销售企业端和银行端对训练集中属于本端的用户数据进行加密,得到销售企业端和银行端各自的加密用户数据。
如前,本发明实施例将在训练集上进行后续的对偶模型训练,因此,销售企业端和银行端为了后续训练过程中用户数据的隐私保护,需要将属于本端的用户数据进行加密,得到加密用户数据。加密方式可以采用归一化、标准化、基于相关性的差分加密等方式中的任意一种,当然,本发明实施例中用户数据的加密方式不限于以上。
为了简化理解,在后续步骤的对偶模型训练过程中,xA表示A的加密用户数据,xB表示B的加密用户数据。
需要补充说明的是,在涉及对偶模型的部分,针对每个对偶模型的输入数据和输出数据均进行有加密/解密操作,以保证数据传输的隐私性和安全性。
S1033,销售企业端和银行端迭代性地基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,直至利用训练集和测试集进行联邦对偶交叉验证,判定满足对偶模型收敛条件时停止迭代,获得各自训练完成的对偶模型;
在本步骤中,销售企业端和银行端基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,即进行对偶模型训练过程。也就是由A和B进行上述交互的对偶模型训练,更新MA和MB的对偶模型参数,当A和B均完成对偶模型参数的一次更新时,视为销售企业端和银行端完成一次对偶模型的训练。
可以在迭代N次上述训练过程后,执行验证过程,即利用训练集和测试集进行联邦对偶交叉验证,判定是否满足对偶模型收敛条件,如果是,则停止对偶模型的迭代训练,获得各自训练完成的对偶模型,如果否,则继续对偶模型的迭代训练,直至对偶模型收敛。其中,N为大于等于1的自然数,N可以根据需要合理选择,比如,可以在迭代3次后执行验证过程,也可以在每次迭代后均执行验证过程,这都是合理的。
为了便于理解,将步骤S1033划分为对偶模型的训练过程和验证过程。
1)针对于对偶模型的训练过程的介绍如下:
在A和B的对偶学习中,训练(f,g)的方法可以是使A和B用户数据空间中的经验风险最小化,即:
Figure BDA0002601578340000111
Figure BDA0002601578340000112
其中,Nc是共有用户数据集;i表示某个用户;f是MA的任务函数,
Figure BDA0002601578340000113
是A中用户i的用户数据,θAB是MA的模型参数,如果MA为神经网络则θAB可以为神经网络的权重;g是MB的任务函数,
Figure BDA0002601578340000114
是B中用户i的用户数据;θBA是MB的模型参数,如果MB为神经网络则θBA可以为神经网络的权重;lalign是直接预测的损失函数,即经验风险,用于表征对偶模型的预测值和真实值之间的差值。
然而,上述公式(1)和(2)中的损失函数没有考虑到f和g映射之间的概率对偶性,概率对偶性可以保证同一用户在双方产生的数据的内在联系,基于此,由任意一方的数据可以推测另一方的数据。概率对偶性以公式体现即为:
P(xA)P(xB|xA;θAB)=P(xB)P(xA|xB;θBA)=P(xA,xB) (3)
其中,P(xA)表示xA在A的用户数据中的概率;P(xB)表示xB在B的用户数据中的概率;P(xB|xA;θAB)表示在A的用户数据中出现xA时,B的用户数据中同一用户的xB出现的概率;P(xA|xB;θBA)表示在B的用户数据中出现xB时,A的用户数据中同一用户的xA出现的概率;P(xA,xB)表示同一用户的xA和xB同时出现在A B用户数据中的概率。
因此,引入公式(3)所述的概率对偶性作为约束条件,并利用拉格朗日乘数法将其转化为正则项,可以得到对偶损失函数的表达式为:
Figure BDA0002601578340000121
其中,ldual表示对偶损失函数;
Figure BDA0002601578340000122
表示对偶模型输出的预测值,即预测的特征数据组;
Figure BDA0002601578340000123
Figure BDA0002601578340000124
Figure BDA0002601578340000125
表示B的用户数据中出现xB时,A的用户数据中出现
Figure BDA0002601578340000126
的概率;
Figure BDA0002601578340000127
表示A的用户数据中出现xA时,B的用户数据中出现
Figure BDA0002601578340000128
的概率。
为了简便,将
Figure BDA0002601578340000129
记为
Figure BDA00026015783400001210
Figure BDA00026015783400001211
记为
Figure BDA00026015783400001212
则公式(4)可以变为:
Figure BDA00026015783400001213
因此,对于对偶模型MA和MB,各自的损失函数可以利用以下公式计算:
Figure BDA00026015783400001214
其中λ为加权值。
在对偶模型的训练过程中,需要最小化以上损失函数L,来提高预测数据的可靠性。以对偶模型MA为例,其任务是通过输入xA得到预测值
Figure BDA00026015783400001215
可以理解的是,未经训练的模型MA输出的预测值
Figure BDA00026015783400001216
与真实值xB之间存在误差,由于MA的输入xA与真实值xB为固定值,因此,只能通过改变MA的模型参数,来调整MA输出的预测值
Figure BDA0002601578340000131
通过将预测值
Figure BDA0002601578340000132
和真实值xB之间的误差(即模型损失)最小化,实现预测值逼近真实值的目的,以完成MA的训练。
上述模型损失最小化的问题可以近似成一个在损失空间寻找最小值的过程,可以采用梯度下降法等方法求解,求得模型损失对于输出的梯度,即损失函数的梯度值,将其作为优化方向。因此,实际上,本发明实施例的对偶模型训练中,需要最小化的损失函数可以为:
Figure BDA0002601578340000133
那么,对偶模型的训练过程实际上可以为:销售企业端和银行端基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,分别基于接收到的计算结果,获得各自的损失函数的梯度值;分别利用各自的损失函数的梯度值,更新各自的对偶模型参数,以完成一次对偶模型的训练过程。
以下具体说明A和B的一次对偶模型训练过程,其中,A和B预先初始化模型参数θAB和θBA,并在共有用户数据集中的训练集
Figure BDA0002601578340000134
上进行对偶训练。
针对A来说,
Figure BDA0002601578340000135
具体为:
Figure BDA0002601578340000136
针对B来说,
Figure BDA0002601578340000137
具体为:
Figure BDA0002601578340000141
其中,
Figure BDA0002601578340000142
表示MA的输出层的梯度,λB为B的加权值,可以预先由B设定,
Figure BDA0002601578340000143
表示MB的输出层的梯度,λA为A的加权值,可以预先由A设定。
为了便于理解,先对A和B的对偶训练过程中,MA的一次训练过程进行说明,MA的一次训练过程具体可以包括以下步骤:
①A将xA输入MA中,利用MA的函数
Figure BDA0002601578340000144
进行计算,输出预测值
Figure BDA0002601578340000145
并将
Figure BDA0002601578340000146
发送给B;
②B接收到
Figure BDA0002601578340000147
后,计算
Figure BDA0002601578340000148
与自身用户数据中xB的差值
Figure BDA0002601578340000149
由于对偶模型MA和MB分别由A和B独立设计并保存在本地,B对MA的网络结构并不了解,因此B只能计算出MA输出层的梯度
Figure BDA00026015783400001410
而无法得到MA其它网络层的梯度,即B将
Figure BDA00026015783400001411
对MA的输出层
Figure BDA00026015783400001412
求梯度,得到梯度
Figure BDA00026015783400001413
并且,B计算xB的概率P(xB)、以及
Figure BDA00026015783400001414
的概率
Figure BDA00026015783400001415
从而计算
Figure BDA00026015783400001416
继而,B将上述两个计算结果求和,得到
Figure BDA00026015783400001417
并将其发送给A;
③A计算xA的概率P(xA)、以及
Figure BDA00026015783400001418
的概率
Figure BDA00026015783400001419
继而计算
Figure BDA00026015783400001420
但由于
Figure BDA00026015783400001421
涉及到A的概率分布信息,不能直接发送给B,因此,A将其进行加法同态加密为
Figure BDA00026015783400001422
并将
Figure BDA0002601578340000151
发送给B;
④B接收到
Figure BDA0002601578340000152
后,由于对加法同态加密进行乘法不会影响解密,因此B计算
Figure BDA0002601578340000153
并将
Figure BDA0002601578340000154
返回给A;
⑤A将接收到的
Figure BDA0002601578340000155
解密,得到
Figure BDA0002601578340000156
⑥A将接收到的
Figure BDA0002601578340000157
Figure BDA0002601578340000158
求和,得到梯度:
Figure BDA0002601578340000159
Figure BDA00026015783400001510
之后A可以利用链式法则进一步计算MA各层的梯度,在MA中进行反向传播来更新模型参数θAB,完成MA的一次训练过程。可以理解的是,MB的一次训练过程与MA类似。
实际上A和B是交互完成各自的对偶训练,实现双方对偶模型的参数更新。为了对双方交互过程进行整体认知,以下将AB对偶训练的数据交互过程整体进行简要介绍,具体可以包括以下步骤:
A初始化θAB,B初始化θBA;在共有用户数据集中的训练集
Figure BDA00026015783400001511
中重复执行以下过程:
A针对每个i,输入一用户特征数据组
Figure BDA00026015783400001512
利用
Figure BDA00026015783400001513
计算得到
Figure BDA00026015783400001514
并将
Figure BDA0002601578340000161
发送给B;
B针对每个i,输入一用户特征数据组
Figure BDA0002601578340000162
利用
Figure BDA0002601578340000163
计算得到
Figure BDA0002601578340000164
并将
Figure BDA0002601578340000165
发送给A;
并且,B根据接收到的
Figure BDA0002601578340000166
计算
Figure BDA0002601578340000167
并将其发送给A;
并且,B计算
Figure BDA0002601578340000168
并加法同态加密得到
Figure BDA0002601578340000169
将其发送给A;
A根据接收到的
Figure BDA00026015783400001610
计算
Figure BDA00026015783400001611
并将其发送给B;
并且,A计算
Figure BDA00026015783400001612
并加法同态加密得到
Figure BDA00026015783400001613
将其发送给B;
并且,A计算
Figure BDA00026015783400001614
将其发送给B;
B计算
Figure BDA00026015783400001615
将其发送给A;
并且,B对每一个i,解密
Figure BDA00026015783400001616
得到
Figure BDA00026015783400001617
继而求和计算得到
Figure BDA00026015783400001618
A对每一个i,解密
Figure BDA00026015783400001619
得到
Figure BDA0002601578340000171
继而求和计算得到
Figure BDA0002601578340000172
A利用反向传播算法计算MA每一层的梯度值,更新θAB;B利用反向传播算法计算MB每一层的梯度值,更新θBA,至此完成A和B的一次对偶训练。
可见,在上述对偶训练中,双方进行对偶预测、梯度数据计算,加密互传各自的计算结果,获得各自损失函数的梯度值,更新各自的对偶模型参数,但并未泄露各自的隐私数据。
共有用户数据集中的训练集
Figure BDA0002601578340000173
都训练完一次称作一个epoch,每个epoch后,可以执行验证过程。
2)针对于对偶模型的验证过程的介绍如下:
在本发明实施例中,利用训练集和测试集进行联邦对偶交叉验证,可以包括以下步骤:
银行端从自身多个用户数据中选取含有标签数据,且不属于共有用户数据集的所有用户数据作为新增用户数据,利用银行端的对偶模型获得新增用户数据在销售企业端的新增预测用户数据;
销售企业端和银行端基于训练集进行第一次联邦学习模型训练,并在测试集上验证标签数据的预测准确率,获得第一预测准确率;
销售企业端和银行端基于在训练集加入新增用户数据、新增预测用户数据之后的数据集,进行第二次联邦学习模型训练,并在测试集上验证标签数据的预测准确率,获得第二预测准确率;
销售企业端和银行端判断第二预测准确率与第一预测准确率的差值是否小于预设阈值,若是,则满足对偶模型收敛条件。
可以理解的是,如果第二预测准确率与第一预测准确率的差值未小于预设阈值,则重新迭代对偶模型的训练过程。
其中,预设阈值T根据经验值选取,比如T=0.1~0.15中的任意值。
为了便于理解上述验证过程,以下举例说明:
A和B的共有用户数据集为
Figure BDA0002601578340000174
其中共有用户的标识数据为U1、U2、U3;训练集由双方U1、U2对应的用户数据构成,在训练集上进行对偶训练过程;测试集由双方U3对应的用户数据构成。B的用户中,不属于DC用户且含有标签数据的用户仅有U4
⑴,B选取U4的用户数据,作为新增用户数据
Figure BDA0002601578340000181
利用MB预测U4在A的特征数据组,得到新增预测用户数据
Figure BDA0002601578340000182
⑵,基于AB的U1、U2用户数据构成的训练集,进行第一次联邦学习模型训练,即进行联邦学习模型MF1的训练,并在AB的U3用户数据构成的测试集上验证标签数据的预测准确率,获得第一预测准确率;
⑶,在训练集中加入B的新增用户数据
Figure BDA0002601578340000183
以及B预测的A方的新增预测用户数据
Figure BDA0002601578340000184
即为训练集补充样本,并在补充样本后的训练集上进行第二次联邦学习模型训练,即进行联邦学习模型MF2的训练,并在测试集上验证标签数据的预测准确率,获得第二预测准确率;
⑷,判断第二预测准确率与第一预测准确率的差值是否小于预设阈值T=0.12,若是,则满足对偶模型收敛条件。即如果使用了补充样本的联邦学习模型MF2的训练效果比未使用补充样本的联邦学习模型MF1的训练效果好,则可以认为对偶模型是有效的,实现收敛。
其中,预测准确率是在测试集上,比较联邦学习模型预测的标签数据与真实的标签数据的差异程度确定的,差异程度越小表示联邦学习模型对于用户还款及时性的标签数据的预测准确率越高。
本发明实施例中,通过联邦对偶交叉验证的方式,可以提高对偶模型预测样本的可靠性。
S1034,销售企业端和银行端利用各自训练完成的对偶模型进行相互预测,获得各自补充后的标识数据,补充后的标识数据为销售企业端和银行端的标识数据的并集;以及,通过预测本端的特征数据组在另一端的特征数据组,获得销售企业端和银行端各自补全的特征数据组;
可以理解的是,当步骤S1033判定满足对偶模型收敛条件后,销售企业端和银行端得到各自训练完成的对偶模型。此时,销售企业端和银行端利用各自的对偶模型进行相互预测,可以实现自身标识数据和特征数据组的补充。即通过对偶预测,销售企业端和银行端的标识数据补充为两者的标识数据的并集。比如上述A和B各自的标识数据均补充成为AB所有标识数据。
同时,通过预测本端的特征数据组在另一端的特征数据组,可以使得新增的用户标识数据对应的特征数据组由空白得到了补充,获得销售企业端和银行端各自补全的特征数据组。可见,相比于S102中确定的共有用户,在S1034后,共有的用户标识数据和特征数据组都有明显增加。
S1035,根据销售企业端和银行端各自的补充后的标识数据和补全的特征数据组,得到销售企业端和银行端扩展的共有用户数据集。
销售企业端或者银行端的补充后的标识数据和补全的特征数据组构成该端的扩展的用户数据;由于销售企业端或者银行端的补充后的标识数据一致,因此,集合两者的扩展的用户数据,可以得到两者扩展的共有用户数据集。
S104,销售企业端和银行端基于扩展的共有用户数据集,在服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型。
可以理解的是,通过S103步骤,获得了销售企业端和银行端的扩展的共有用户数据集,针对纵向联邦学习来说,共有用户的标识数据增加,有利于提高模型训练效果。之后,可以利用扩展的共有用户数据集训练纵向联邦学习模型。该过程可以参考现有技术中纵向联邦学习模型的训练过程。以下进行概要介绍。
为了保证训练过程中数据的保密性,需要借助第三方协作者进行加密训练。第三方协作者C可以由政府或Intel的安全计算节点担任。
以线性回归模型为例,S104的联邦学习模型的训练过程可以包括以下步骤:
第一步:C把公钥分发给A和B,用以对训练过程中需要交换的数据进行加密;
第二步:A和B之间以加密形式交互用于计算梯度的中间结果;
第三步:A和B分别基于加密的梯度值进行计算,同时B根据其标签数据计算损失,并把这些结果汇总给C。C通过汇总结果计算总梯度并将其解密。
第四步:C将解密后的梯度分别回传给A和B;A和B根据梯度更新各自模型的参数。
迭代上述步骤直至损失函数收敛,则完成联邦学习模型的训练,A和B拥有训练得到的联邦学习模型参数,C中保存有训练好的联邦学习模型。
需要说明的是,本发明实施例中,联邦学习模型可以为逻辑回归模型、树形结构模型和神经网络模型等众多机器学习模型中的任意一种,在此,并不对本发明实施例中的联邦学习模型进行限制。
本发明实施例提供的联邦学习模型训练方法,在联邦学习问题中引入了对偶学习,提出一种联邦对偶学习框架。销售企业端和银行端通过对偶学习,可以准确地从一方推断另一方加密的数据,而不泄露隐私或导致原始数据丢失,并采用联邦对偶交叉验证来提高补充数据的可靠性。从而能够有效解决销售企业端和银行端在纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,有利于后续用户还款及时性的标签数据预测的准确率。此外,由于本发明实施例实施过程中数据结构几乎无损,该联邦对偶学习框架可扩展到各种有效的模型,具有广泛的应用前景。
在上述训练完成的联邦学习模型基础上,第二方面,本发明实施例提供了一种关于用户还款及时性的预测系统,请参见图2,图2为本发明实施例所提供的一种关于用户还款及时性的预测系统的结构示意图。关于联邦学习模型的训练过程参见前文,在此不做赘述。
如图2所示,本发明实施例所提供的一种关于用户还款及时性的预测系统100可以包括:第一客户端110、第二客户端120,以及服务端130,第一客户端110、第二客户端120为训练阶段的销售企业端和银行端。
第一客户端110,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用第一客户端110的对偶模型,预测第一特征数据组在第二客户端120的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端120;并且,利用第一客户端110训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,并将第一加密加权值发送给服务端130;
第二客户端120,用于利用接收到的加密数据,确定目标用户在第二客户端120的第二目标特征数据组,利用第二客户端120训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,并将第二加密加权值发送给服务端130;
服务端130,用于对接收到的第一加密加权值和第二加密加权值求和,并对求和结果进行解密,得到目标用户的目标标签数据,并将目标标签数据返回给第一客户端110;其中,目标标签数据表征目标用户的还款及时性;
其中,第一客户端110为销售企业端或银行端之一,第二客户端120为销售企业端或银行端之另一;销售企业端、银行端各自拥有预先训练的对偶模型;服务端130拥有预先训练的联邦学习模型;联邦学习模型是销售企业端和银行端经过加密对偶训练扩展共有用户数据集后,借助服务端进行联邦学习得到的;销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
为了方案清楚,下面对关于用户还款及时性的预测系统100中的各个组成部分分别进行介绍:
第一客户端110和第二客户端120对应训练阶段的销售企业端和银行端。第一客户端110为销售企业端或银行端之一,第二客户端120为销售企业端或银行端之另一;
当第一客户端110为销售企业端,第二客户端120为银行端时,第一特征数据组包括月消费额特征数据、消费次数特征数据、会员级别特征数据,第二特征数据组包括月薪特征数据、信用卡额度特征数据;
当第一客户端110为银行端,第二客户端120为销售企业端时,第一特征数据组包括月薪特征数据、信用卡额度特征数据,第二特征数据组包括月消费额特征数据、消费次数特征数据、会员级别特征数据。关于销售企业端和银行端的内容参见前文。
以下,以第一客户端110为销售企业端,第二客户端120为银行端进行介绍,另一种方案与此类似,在此不做赘述。
1)针对于第一客户端110的介绍内容如下:
本发明实施例中,第一客户端110为需要进行用户还款及时性的标签数据预测的销售企业端A。第一客户端110具体执行以下步骤:
①,第一客户端110,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用第一客户端110的对偶模型,预测第一特征数据组在第二客户端120的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端120;具体的:
A获取待预测标签数据的目标用户U的第一标识数据U和第一特征数据组
Figure BDA0002601578340000211
其中,
Figure BDA0002601578340000212
包括月消费额特征数据
Figure BDA0002601578340000213
消费次数特征数据
Figure BDA0002601578340000214
会员级别特征数据
Figure BDA0002601578340000215
A利用其对偶模型MA,预测
Figure BDA0002601578340000216
在B的第二预测特征数据组
Figure BDA0002601578340000217
Figure BDA0002601578340000218
包括月薪特征数据
Figure BDA0002601578340000219
信用卡额度特征数据
Figure BDA00026015783400002110
A分别对U和
Figure BDA00026015783400002111
加密,加密方式可以采用归一化、标准化、基于相关性的差分加密等方式中的任意一种。
A将U的加密数据和
Figure BDA0002601578340000221
的加密数据发送给B。
②,第一客户端110利用第一客户端110训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,并将第一加密加权值发送给服务端130;
需要说明的是,第一客户端110训练得到的联邦学习模型参数为,与第一客户端110的第一特征数据组中的多个特征数据一一对应的权重;即,A训练得到的联邦学习模型参数为:与
Figure BDA0002601578340000222
对应的权重
Figure BDA0002601578340000223
Figure BDA0002601578340000224
对应的权重
Figure BDA0002601578340000225
和与
Figure BDA0002601578340000226
对应的权重
Figure BDA0002601578340000227
那么,相应的,利用第一客户端110训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,可以包括:
利用与第一客户端110的第一特征数据组中的多个特征数据一一对应的权重,对第一特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第一加权值;对第一加权值进行同态加密,得到第一加密加权值。
针对该步骤具体的:
A计算
Figure BDA0002601578340000228
Figure BDA0002601578340000229
Figure BDA00026015783400002210
并将上述三个加权后的特征数据求和,得到第一加权值为
Figure BDA00026015783400002211
A对第一加权值进行同态加密,得到第一加密加权值[[uA]]。
A将第一加密加权值[[uA]]发送给服务端130。
2)针对于第二客户端120的介绍内容如下:
本发明实施例中,第二客户端120为银行端B。第二客户端120具体执行以下步骤:
①,第二客户端120利用接收到的加密数据,确定目标用户在第二客户端120的第二目标特征数据组;具体包括以下步骤:
第二客户端120,利用第一标识数据的加密数据,判断第二客户端120是否存在第一标识数据;
如果是,将第二客户端120中第一标识数据对应的特征数据组确定为目标用户在第二客户端120的第二目标特征数据组,如果否,对接收到的第二预测特征数据组的加密数据进行解密,得到第二预测特征数据组,并将第二预测特征数据组确定为目标用户在第二客户端120的第二目标特征数据组。
具体的:
B利用U的加密数据,通过加密的用户对齐技术,确定自身的标识数据中是否有U,如果是,B将自身的用户数据中,U对应的特征数据组
Figure BDA0002601578340000231
确定为U在B中的第二目标特征数据组,可以理解的是,
Figure BDA0002601578340000232
也包括
Figure BDA0002601578340000233
Figure BDA0002601578340000234
两个特征数据;如果否,B对接收到的
Figure BDA0002601578340000235
的加密数据进行解密,得到
Figure BDA0002601578340000236
并将
Figure BDA0002601578340000237
确定为U在B中的第二目标特征数据组。
②,第二客户端120利用第二客户端120训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,并将第二加密加权值发送给服务端130。
需要说明的是,第二客户端120训练得到的联邦学习模型参数为,与第二客户端120的特征数据组中的多个特征数据一一对应的权重;即B训练得到的联邦学习模型参数为:与
Figure BDA0002601578340000238
对应的权重
Figure BDA0002601578340000239
Figure BDA00026015783400002310
对应的权重
Figure BDA00026015783400002311
可以理解的是,第二客户端120训练得到的联邦学习模型参数与第二客户端120的第二目标特征数据组中的多个特征数据是一一对应的。
那么,相应的,利用第二客户端120训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,可以包括:
利用与第二客户端120的第二目标特征数据组中的多个特征数据一一对应的权重,对第二目标特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第二加权值;对第二加权值进行同态加密,得到第二加密加权值。
针对该步骤具体的:
B计算
Figure BDA00026015783400002312
Figure BDA00026015783400002313
并将上述两个加权后的特征数据求和,得到第二加权值为
Figure BDA00026015783400002314
B对第二加权值进行同态加密,得到第二加密加权值[[uB]]。
B将第二加密加权值[[uB]]发送给服务端130。
3)针对于服务端130的介绍内容如下:
本发明实施例中,服务端130为,协助第一客户端110、第二客户端120完成联邦学习模型训练的一个服务端,即为前文的第三方协作者C。
服务端130对接收到的第一加密加权值和第二加密加权值求和,并对求和结果进行解密,得到目标用户的目标标签数据,并将目标标签数据返回给第一客户端110。其中,目标标签数据表征目标用户的还款及时性。至此完成对目标用户的目标标签数据的预测过程。
举例说明:服务端130,也就是C,对接收到的第一加密加权值和第二加密加权值求和,得到:
Figure BDA0002601578340000241
并对上述求和结果解密,得到目标用户U的目标标签数据
Figure BDA0002601578340000242
并把标签数据y返回给A。至此完成目标用户U的标签数据的预测。
可选的,在第一客户端110接收到目标标签数据后,可以进行显示,也可以将目标标签数据发送给目标用户。
本发明实施例中,和现有联邦学习中关于用户还款及时性的标签数据预测系统相比,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户还款及时性的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习销售企业端和银行端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决销售企业端和银行端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升关于用户还款及时性的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测系统可扩展到各种有效的模型,具有广泛的应用前景。
在上述训练完成的联邦学习模型基础上,第三方面,本发明实施例提供了一种关于用户还款及时性的预测方法,请参见图3,图3为本发明实施例所提供的一种关于用户还款及时性的预测方法的流程示意图。第一客户端和第二客户端对应前述的联邦学习模型训练过程中的销售企业端和银行端。关于联邦学习模型的训练过程参见前文,在此不做赘述。参见图3,所述方法包括以下步骤:
S301,第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;并且,利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;
S302,第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;
S303,服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户的还款及时性;
其中,所述第一客户端为销售企业端或银行端之一,所述第二客户端为销售企业端或银行端之另一;所述销售企业端、所述银行端各自拥有预先训练的对偶模型;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述销售企业端和所述银行端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
可选的,当所述第一客户端为销售企业端,所述第二客户端为银行端时,所述第一特征数据组包括月消费额特征数据、消费次数特征数据、会员级别特征数据,所述第二特征数据组包括月薪特征数据、信用卡额度特征数据;
当所述第一客户端为银行端,所述第二客户端为销售企业端时,所述第一特征数据组包括月薪特征数据、信用卡额度特征数据,所述第二特征数据组包括月消费额特征数据、消费次数特征数据、会员级别特征数据。
可选的,利用第一客户端训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,可以包括:
利用与第一客户端的第一特征数据组中的多个特征数据一一对应的权重,对第一特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第一加权值;
对第一加权值进行同态加密,得到第一加密加权值。
其中,第一客户端训练得到的联邦学习模型参数为,与第一客户端的第一特征数据组中的多个特征数据一一对应的权重。
可选的,在第一客户端接收到目标标签数据后,可以进行显示,也可以将目标标签数据发送给目标用户。
可选的,利用第二客户端训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,可以包括:
利用与第二客户端的第二目标特征数据组中的多个特征数据一一对应的权重,对第二目标特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第二加权值;
对第二加权值进行同态加密,得到第二加密加权值。
其中,第二客户端训练得到的联邦学习模型参数为,与第二客户端的第二目标特征数据组中的多个特征数据一一对应的权重。
可选的,第二客户端利用接收到的加密数据,确定目标用户在第二客户端的第二目标特征数据组,包括:
第二客户端利用第一标识数据的加密数据,判断第二客户端是否存在第一标识数据;
如果是,将第二客户端中第一标识数据对应的特征数据组确定为目标用户在第二客户端的第二目标特征数据组,如果否,对接收到的第二预测特征数据组的加密数据进行解密,得到第二预测特征数据组,并将第二预测特征数据组确定为目标用户在第二客户端的第二目标特征数据组。
关于联邦学习模型的训练过程以及其他内容,请参见前文,在此不做赘述。
本发明实施例中,和现有联邦学习中关于用户还款及时性的标签数据预测方法相比,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户还款及时性的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习销售企业端和银行端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决销售企业端和银行端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升关于用户还款及时性的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方法可扩展到各种有效的模型,具有广泛的应用前景。
在上述训练完成的联邦学习模型基础上,第四方面,本发明实施例提供了另一种关于用户还款及时性的预测方法,请参见图4,图4为本发明实施例所提供的另一种关于用户还款及时性的预测方法的流程示意图。关于联邦学习模型的训练过程参见前文,在此不做赘述。
本发明实施例所提供的该种关于用户还款及时性的预测方法,应用于关于用户还款及时性的预测系统的第一客户端,系统还包括一个第二客户端,以及服务端。第一客户端和第二客户端对应前述的联邦学习模型训练过程中的销售企业端和银行端。如图4所示,该方法可以包括如下步骤:
S401,获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;
S402,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组;
S403,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端;以使得第二客户端利用接收到的加密数据,确定目标用户在第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,并将第二加密加权值发送给服务端;
S404,利用第一客户端训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,并将第一加密加权值发送给服务端;以使得服务端对接收到的第一加密加权值和第二加密加权值求和,并对求和结果进行解密,得到目标用户的目标标签数据,并将目标标签数据返回给第一客户端;其中,目标标签数据表征目标用户的还款及时性;
S405,接收服务端返回的目标标签数据;
其中,第一客户端为销售企业端或银行端之一,第二客户端为销售企业端或银行端之另一;销售企业端、银行端各自拥有预先训练的对偶模型;服务端拥有预先训练的联邦学习模型;联邦学习模型是销售企业端和银行端经过加密对偶训练扩展共有用户数据集后,借助服务端进行联邦学习得到的;销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
针对S401-S405的内容,参见前文第一方面的联邦学习模型训练方法、第二方面的关于用户还款及时性的预测系统、以及第三方面所述的关于用户还款及时性的预测方法的相关内容,在此不做赘述。
本发明实施例中,和现有联邦学习中关于用户还款及时性的标签数据预测方法相比,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户还款及时性的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习销售企业端和银行端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决销售企业端和银行端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升关于用户还款及时性的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方法可扩展到各种有效的模型,具有广泛的应用前景。
为了对本发明实施例所提出的关于用户还款及时性的预测系统,和关于用户还款及时性的预测方法进行形象理解,以下以一个具体实例进行说明。
具体的,首先,销售企业A和银行B建立纵向联邦学习模型并完成训练。具体包括以下步骤:
(1)A和B获取各自的用户数据,如下表1所示;
A的用户数据中,标识数据为企业的ID,具体为用户身份证号;特征数据组包括月消费额特征数据x1、消费次数特征数据x2、会员级别特征数据x3
B的用户数据中,标识数据为企业的ID,具体为用户身份证号;特征数据组包括月薪特征数据x4、信用卡额度特征数据x5,B还拥有标签数据y,y表示用户是否能够及时还款,以“Yes”表示能够及时还款,以“No”表示不能够及时还款。
需要说明的是,表1中的数据仅仅作为示例,在实际中,A和B的用户数目不一定相同;A的特征数据的维度(表1示例为3),与B的特征数据和标签数据维度之和(表1示例为3)也不一定相同。
表1销售企业A和银行B的原始用户数据
Figure BDA0002601578340000301
Figure BDA0002601578340000311
(2)A和B确定共有用户,得到共有用户数据集;
A和B通过加密的用户对齐技术,确定双方共有的ID是U1~U3,从而确定共有用户数据集为双方U1~U3对应的用户数据集合,即
Figure BDA0002601578340000312
(3)A建立对偶模型MA,B建立对偶模型MB,将共有用户数据集划分为训练集和测试集,其中,训练集为双方U1~U2对应的用户数据集合,测试集为双方U3对应的用户数据集合,并且A和B对训练集中的自身用户数据加密,得到各自的加密用户数据;
(4)A和B在训练集上进行对偶模型的训练过程,参见前文步骤S1033的训练过程,具体过程不再赘述。通过N次对偶模型的训练,A和B的对偶模型参数被更新,但各自的用户数据并未发生变化;
(5)A和B进行对偶模型的验证过程:
B选取不属于DC且含有标签数据的所有用户数据,即U4的用户数据,作为新增用户数据,即为ZB=(U4,20,00040000,Yes),利用MB预测U4在A的特征数据x1~x3,得到新增预测用户数据
Figure BDA0002601578340000313
基于训练集,进行联邦学习模型MF1的训练,并在测试集上验证标签数据y的预测准确率,获得第一预测准确率;
在加入ZB以及
Figure BDA0002601578340000314
的训练集上进行联邦学习模型MF2的训练,并在测试集上验证标签数据y的预测准确率,获得第二预测准确率;
判断第二预测准确率与第一预测准确率的差值是否小于预设阈值T=0.14,若是,则满足对偶模型收敛条件,若否则继续进行对偶模型训练,直至通过联邦对偶交叉验证满足对偶模型收敛条件,得到A和B训练完成的对偶模型;
(6)A和B利用各自训练完成的对偶模型互相进行对偶预测,以补充各自的标识数据和特征数据组;如表2所示,其中粗体字为预测补充的特征数据。
表2对偶预测后AB的用户数据
Figure BDA0002601578340000321
(7)A和B确定扩展的共有用户数据集;
如表2所示,A和B的U1~U9的用户数据即为扩展的共有用户数据集,可见,表2所示的扩展的共有用户数据集相比表1的共有用户数据集,双方共有的ID大大增加,特征数据也有明显的补充。
(8)A和B基于扩展的共有用户数据集,在服务端C的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型。
关于该步骤的联邦学习模型训练过程,参见S104以及现有技术有关描述,在此不再赘述。训练结束后,C保存有联邦学习模型,A有联邦学习模型权重
Figure BDA0002601578340000322
Figure BDA0002601578340000323
Figure BDA0002601578340000324
分别与x1、x2和x3对应,B有联邦学习模型权重
Figure BDA0002601578340000325
Figure BDA0002601578340000326
分别与x4和x5对应。
其次,A期望对一个新增用户U10,预测表征其是否能够及时还款的标签数据y,具体过程可以包括:
A获取U10的ID和第一特征数据组
Figure BDA0002601578340000327
其中,
Figure BDA0002601578340000328
包括
Figure BDA0002601578340000329
Figure BDA00026015783400003210
Figure BDA00026015783400003211
三个特征数据。A利用其对偶模型MA,预测
Figure BDA00026015783400003212
在B的第二预测特征数据组
Figure BDA00026015783400003213
Figure BDA0002601578340000331
包括特征数据
Figure BDA0002601578340000332
Figure BDA0002601578340000333
A分别对U10
Figure BDA0002601578340000334
加密,并将U10的加密数据和
Figure BDA0002601578340000335
的加密数据发送给B;
A计算第一加权值为
Figure BDA0002601578340000336
对其进行同态加密,得到第一加密加权值[[uA]],并将[[uA]]发送给C;
B对U10的加密数据利用加密的用户对齐技术,确定自身的ID中是否有U10,如果是,B将自身的用户数据中,U10对应的特征数据组
Figure BDA0002601578340000337
确定为U10在B中的第二目标特征数据组,如果否,B对接收到的
Figure BDA0002601578340000338
的加密数据进行解密,得到
Figure BDA0002601578340000339
并将
Figure BDA00026015783400003310
确定为U10在B中的第二目标特征数据组;
针对于表2,很显然,B中不存在U10,那么,B将接收到的
Figure BDA00026015783400003311
的加密数据进行解密,得到
Figure BDA00026015783400003312
并将
Figure BDA00026015783400003313
确定为U10在B中的第二目标特征数据组;
B计算第二加权值为
Figure BDA00026015783400003314
对其进行同态加密,得到第二加密加权值[[uB]],并将[[uB]]发送给C;
C计算
Figure BDA00026015783400003315
并对上述求和结果解密,得到目标用户U10的标签数据
Figure BDA00026015783400003316
并把标签数据y返回给A。即A得到了预测到的关于U10是否能够及时还款的标签数据,比如预测到的U10的标签数据为“Yes”,表示U10能够及时还款。
当然,B也可以对表2中未出现的一个新用户的ID进行上述预测过程,预测过程与上述过程类似;A或者B也可以对其已有的用户数据中,不具有标签数据的一个ID进行上述预测过程,比如,ID可以为U5~U9中的一个。表3为对U5~U9进行是否能够及时还款的标签数据y预测后的双方用户数据,待预测方可以是A,也可以是B。黑色粗体字为预测得到的U5~U9对应的标签数据。
表3对U5~U9预测y后的用户数据
Figure BDA0002601578340000341
具体预测过程与前文的过程类似,在此不再赘述。
相应于第三方面的关于用户还款及时性的预测方法,第五方面,本发明实施例提供了一种关于用户还款及时性的预测装置,应用于关于用户还款及时性的预测系统的第一客户端,系统还包括第二客户端,以及服务端。第一客户端、第二客户端为训练阶段的销售企业端和银行端。其中,关于联邦学习模型的训练过程参见前文,在此不做赘述。
请参见图5,图5为本发明实施例所提供的一种关于用户还款及时性的预测装置的结构示意图。装置包括:
获取模块510,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;
预测模块520,用于利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组;
第一加密发送模块530,用于将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端;以使得第二客户端利用接收到的加密数据,确定目标用户在第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得第二目标特征数据组的第二加密加权值,并将第二加密加权值发送给服务端;
第二加密发送模块540,用于利用第一客户端训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值,并将第一加密加权值发送给服务端;以使得服务端对接收到的第一加密加权值和第二加密加权值求和,并对求和结果进行解密,得到目标用户的目标标签数据,并将目标标签数据返回给第一客户端;其中,目标标签数据表征目标用户的还款及时性;
接收模块550,用于接收服务端返回的目标标签数据;
其中,第一客户端为销售企业端或银行端之一,第二客户端为销售企业端或银行端之另一;销售企业端、银行端各自拥有预先训练的对偶模型;服务端拥有预先训练的联邦学习模型;联邦学习模型是销售企业端和银行端经过加密对偶训练扩展共有用户数据集后,借助服务端进行联邦学习得到的;销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
针对关于用户还款及时性的预测装置各个模块的内容,参见前文的联邦学习模型的训练过程和关于用户还款及时性的预测系统,以及关于用户还款及时性的预测方法的相关内容,在此不做赘述。
可选的,第二加密发送模块540包括:
加密子模块,用于利用第一客户端训练得到的联邦学习模型参数,获得第一特征数据组的第一加密加权值;
发送子模块,用于将第一加密加权值发送给服务端。
可选的,加密子模块具体包括:
加权单元,用于利用与第一客户端的第一特征数据组中的多个特征数据一一对应的权重,对第一特征数据组中的各个特征数据对应加权,并对所有加权后的特征数据求和,得到第一加权值;
加密单元,用于对第一加权值进行同态加密,得到第一加密加权值。
其中,第一客户端训练得到的联邦学习模型参数为,与第一客户端的第一特征数据组中的多个特征数据一一对应的权重。
本发明实施例中,和现有联邦学习中关于用户还款及时性的标签数据预测装置相比,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户还款及时性的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习销售企业端和银行端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决销售企业端和银行端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升关于用户还款及时性的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测装置可扩展到各种有效的模型,具有广泛的应用前景。
相应于第三方面的关于用户还款及时性的预测方法,第六方面,本发明实施例还提供了一种电子设备,用于表征用户还款及时性的标签数据的预测,请参见图6,图6为本发明实施例所提供的一种关于用户还款及时性预测的电子设备的结构示意图。如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如第三方面的关于用户还款及时性的预测方法的步骤。在此不做赘述。
具体的,该电子设备可以为:台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定,任何可以实现本发明的电子设备,均属于本发明的保护范围。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
通过上述电子设备,和现有联邦学习中关于用户还款及时性的标签数据预测方法相比,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户还款及时性的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习销售企业端和银行端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决销售企业端和银行端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升关于用户还款及时性的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方法可扩展到各种有效的模型,具有广泛的应用前景。
相应于第三方面的关于用户还款及时性的预测方法,第七方面,本发明实施例还提供了一种计算机可读存储介质,用于表征用户还款及时性的标签数据的预测。该计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,可以实现本发明实施例第三方面所提供的关于用户还款及时性的预测方法的步骤。
上述计算机可读存储介质存储在运行时,执行本发明实施例所提供的关于用户还款及时性的预测方法的应用程序,因此能够实现:和现有联邦学习中关于用户还款及时性的标签数据预测方法相比,拥有联邦学习模型的服务端,从第二客户端接收到的第二加密加权值是,待预测用户还款及时性的第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组后,针对第二客户端,利用第一客户端的对偶模型,预测第一特征数据组在第二客户端的第二预测特征数据组,将第一标识数据和第二预测特征数据组的加密数据发送给第二客户端,再由第二客户端利用接收到的加密数据,确定目标用户在该第二客户端的第二目标特征数据组,利用第二客户端训练得到的联邦学习模型参数,获得的第二目标特征数据组的加密加权值。因此,可以在第二客户端没有目标用户的特征数据组时,利用第一客户端对偶预测的第二预测特征数据组作为第二客户端的第二目标特征数据组,即在数据缺失的情况下补充数据,增加了联邦学习模型的用户数据。
本发明实施例中,通过对偶学习的方式,可以学习销售企业端和银行端双方共有用户数据之间的内在联系,通过对偶学习可以从一方准确地推断另一方加密的数据,而不泄露隐私或导致原始数据丢失。对偶模型经过训练并采用对偶交叉验证来提高补充数据的可靠性,使得训练得到的对偶模型具有一定的对偶预测准确性,可以利用独属于一方的非共有用户数据,推测另一方的用户数据,由于推测得到的用户数据在另一方中并不存在,即第二预测特征数据组在第二客户端中并未真实存在,因此,不会泄露第二客户端的用户隐私,避免了隐私泄露问题。通过对偶预测,利用一方独有的用户数据和由这部分用户数据预测的对方用户数据,可以大幅补充原有的共有用户数据集,为联邦学习模型增加可靠的样本数据,从而能够有效解决销售企业端和银行端的纵向联邦学习中共有用户少引发的共有用户数据集不足的问题,能够提升关于用户还款及时性的标签数据的预测效果,达到与非分布式学习媲美的预测准确率。而且,由于本发明实施例实施过程中数据结构几乎无损,应用该联邦对偶学习框架的预测方法可扩展到各种有效的模型,具有广泛的应用前景。
对于电子设备以及计算机可读存储介质实施例而言,由于其所涉及的方法内容基本相似于前述的方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,本发明实施例的装置、电子设备及存储介质分别是应用上述关于用户还款及时性的预测方法的装置、电子设备及存储介质,则上述关于用户还款及时性的预测方法的所有实施例均适用于该装置、电子设备及存储介质,且均能达到相同或相似的有益效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (17)

1.一种关于用户还款及时性的预测系统,其特征在于,包括第一客户端、第二客户端,以及服务端:
所述第一客户端,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;并且,利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;
所述第二客户端,用于利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;
所述服务端,用于对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户的还款及时性;
其中,所述第一客户端为销售企业端或银行端之一,所述第二客户端为销售企业端或银行端之另一;所述销售企业端、所述银行端各自拥有预先训练的对偶模型;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述销售企业端和所述银行端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
2.根据权利要求1所述的系统,其特征在于,当所述第一客户端为销售企业端,所述第二客户端为银行端时,所述第一特征数据组包括月消费额特征数据、消费次数特征数据、会员级别特征数据,所述第二特征数据组包括月薪特征数据、信用卡额度特征数据;
当所述第一客户端为银行端,所述第二客户端为销售企业端时,所述第一特征数据组包括月薪特征数据、信用卡额度特征数据,所述第二特征数据组包括月消费额特征数据、消费次数特征数据、会员级别特征数据。
3.根据权利要求2所述的系统,其特征在于,所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,包括:
所述第二客户端,利用所述第一标识数据的加密数据,判断所述第二客户端是否存在所述第一标识数据;
如果是,将所述第二客户端中所述第一标识数据对应的特征数据组确定为所述目标用户在所述第二客户端的第二目标特征数据组,如果否,对接收到的所述第二预测特征数据组的加密数据进行解密,得到所述第二预测特征数据组,并将所述第二预测特征数据组确定为所述目标用户在所述第二客户端的第二目标特征数据组。
4.根据权利要求1所述的系统,其特征在于,所述联邦学习模型的训练过程包括:
参与联邦学习模型训练的所述销售企业端和所述银行端分别获取各自的用户数据;
所述销售企业端和所述银行端确定共有用户,得到共有用户数据集;
所述销售企业端和所述银行端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述销售企业端和所述银行端的标识数据的并集,并补全各自的特征数据组,得到所述销售企业端和所述银行端扩展的共有用户数据集;
所述销售企业端和所述银行端基于所述扩展的共有用户数据集,在所述服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型。
5.根据权利要求4所述的系统,其特征在于,所述销售企业端和所述银行端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述销售企业端和所述银行端的标识数据的并集,并补全各自的特征数据组,得到所述销售企业端和所述银行端扩展的共有用户数据集,包括:
所述销售企业端和所述银行端各自建立对偶模型,所述对偶模型用于预测本端用户的特征数据组在另一端的特征数据组;
所述销售企业端和所述银行端将所述共有用户数据集划分为训练集和测试集,并对所述训练集中属于本端的用户数据进行加密,得到所述销售企业端和所述银行端各自的加密用户数据;
所述销售企业端和所述银行端迭代性地基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,直至利用所述训练集和所述测试集进行联邦对偶交叉验证,判定满足对偶模型收敛条件时停止迭代,获得各自训练完成的对偶模型;
所述销售企业端和所述银行端利用各自训练完成的对偶模型进行相互预测,获得各自补充后的标识数据,所述补充后的标识数据为所述销售企业端和所述银行端的标识数据的并集;以及,通过预测本端的特征数据组在另一端的特征数据组,获得所述销售企业端和所述银行端各自补全的特征数据组;
根据所述销售企业端和所述银行端各自的所述补充后的标识数据和所述补全的特征数据组,得到所述销售企业端和所述银行端扩展的共有用户数据集。
6.根据权利要求5所述的系统,其特征在于,所述利用所述训练集和所述测试集进行联邦对偶交叉验证,包括:
所述银行端从自身多个用户数据中选取含有标签数据,且不属于所述共有用户数据集的所有用户数据作为新增用户数据,利用所述银行端的对偶模型获得所述新增用户数据在所述销售企业端的新增预测用户数据;
所述销售企业端和所述银行端基于所述训练集进行第一次联邦学习模型训练,并在所述测试集上验证标签数据的预测准确率,获得第一预测准确率;
所述销售企业端和所述银行端基于在所述训练集加入所述新增用户数据、所述新增预测用户数据之后的数据集,进行第二次联邦学习模型训练,并在所述测试集上验证标签数据的预测准确率,获得第二预测准确率;
所述销售企业端和所述银行端判断所述第二预测准确率与所述第一预测准确率的差值是否小于预设阈值,若是,则满足对偶模型收敛条件。
7.一种关于用户还款及时性的预测方法,其特征在于,所述方法包括:
第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组,将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;并且,利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;
第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;
服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户的还款及时性;
其中,所述第一客户端为销售企业端或银行端之一,所述第二客户端为销售企业端或银行端之另一;所述销售企业端、所述银行端各自拥有预先训练的对偶模型;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述销售企业端和所述银行端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
8.根据权利要求7所述的方法,其特征在于,当所述第一客户端为销售企业端,所述第二客户端为银行端时,所述第一特征数据组包括月消费额特征数据、消费次数特征数据、会员级别特征数据,所述第二特征数据组包括月薪特征数据、信用卡额度特征数据;
当所述第一客户端为银行端,所述第二客户端为销售企业端时,所述第一特征数据组包括月薪特征数据、信用卡额度特征数据,所述第二特征数据组包括月消费额特征数据、消费次数特征数据、会员级别特征数据。
9.根据权利要求8所述的方法,其特征在于,所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,包括:
所述第二客户端,利用所述第一标识数据的加密数据,判断所述第二客户端是否存在所述第一标识数据;
如果是,将所述第二客户端中所述第一标识数据对应的特征数据组确定为所述目标用户在所述第二客户端的第二目标特征数据组,如果否,对接收到的所述第二预测特征数据组的加密数据进行解密,得到所述第二预测特征数据组,并将所述第二预测特征数据组确定为所述目标用户在所述第二客户端的第二目标特征数据组。
10.根据权利要求7所述的方法,其特征在于,所述联邦学习模型的训练过程包括:
参与联邦学习模型训练的所述销售企业端和所述银行端分别获取各自的用户数据;
所述销售企业端和所述银行端确定共有用户,得到共有用户数据集;
所述销售企业端和所述银行端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述销售企业端和所述银行端的标识数据的并集,并补全各自的特征数据组,得到所述销售企业端和所述银行端扩展的共有用户数据集;
所述销售企业端和所述银行端基于所述扩展的共有用户数据集,在所述服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型。
11.根据权利要求10所述的方法,其特征在于,所述销售企业端和所述银行端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述销售企业端和所述银行端的标识数据的并集,并补全各自的特征数据组,得到所述销售企业端和所述银行端扩展的共有用户数据集,包括:
所述销售企业端和所述银行端各自建立对偶模型,所述对偶模型用于预测本端用户的特征数据组在另一端的特征数据组;
所述销售企业端和所述银行端将所述共有用户数据集划分为训练集和测试集,并对所述训练集中属于本端的用户数据进行加密,得到所述销售企业端和所述银行端各自的加密用户数据;
所述销售企业端和所述银行端迭代性地基于各自的加密用户数据和对偶模型,进行对偶预测、梯度数据计算,并加密互传各自的计算结果,更新各自的对偶模型参数,直至利用所述训练集和所述测试集进行联邦对偶交叉验证,判定满足对偶模型收敛条件时停止迭代,获得各自训练完成的对偶模型;
所述销售企业端和所述银行端利用各自训练完成的对偶模型进行相互预测,获得各自补充后的标识数据,所述补充后的标识数据为所述销售企业端和所述银行端的标识数据的并集;以及,通过预测本端的特征数据组在另一端的特征数据组,获得所述销售企业端和所述银行端各自补全的特征数据组;
根据所述销售企业端和所述银行端各自的所述补充后的标识数据和所述补全的特征数据组,得到所述销售企业端和所述银行端扩展的共有用户数据集。
12.根据权利要求11所述的方法,其特征在于,所述利用所述训练集和所述测试集进行联邦对偶交叉验证,包括:
所述银行端从自身多个用户数据中选取含有标签数据,且不属于所述共有用户数据集的所有用户数据作为新增用户数据,利用所述银行端的对偶模型获得所述新增用户数据在所述销售企业端的新增预测用户数据;
所述销售企业端和所述银行端基于所述训练集进行第一次联邦学习模型训练,并在所述测试集上验证标签数据的预测准确率,获得第一预测准确率;
所述销售企业端和所述银行端基于在所述训练集加入所述新增用户数据、所述新增预测用户数据之后的数据集,进行第二次联邦学习模型训练,并在所述测试集上验证标签数据的预测准确率,获得第二预测准确率;
所述销售企业端和所述银行端判断所述第二预测准确率与所述第一预测准确率的差值是否小于预设阈值,若是,则满足对偶模型收敛条件。
13.一种关于用户还款及时性的预测方法,其特征在于,应用于关于用户还款及时性的预测系统的第一客户端,所述系统还包括第二客户端,以及服务端,所述方法包括:
获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;
利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组;
将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;以使得所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;
利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;以使得所述服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户的还款及时性;
接收所述服务端返回的所述目标标签数据;
其中,所述第一客户端为销售企业端或银行端之一,所述第二客户端为销售企业端或银行端之另一;所述销售企业端、所述银行端各自拥有预先训练的对偶模型;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述销售企业端和所述银行端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
14.一种关于用户还款及时性的预测装置,其特征在于,应用于关于用户还款及时性的预测系统的第一客户端,所述系统还包括第二客户端,以及服务端,所述装置包括:
获取模块,用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组;
预测模块,用于利用所述第一客户端的对偶模型,预测所述第一特征数据组在所述第二客户端的第二预测特征数据组;
第一加密发送模块,用于将所述第一标识数据和所述第二预测特征数据组的加密数据发送给所述第二客户端;以使得所述第二客户端利用接收到的加密数据,确定所述目标用户在所述第二客户端的第二目标特征数据组,利用所述第二客户端训练得到的联邦学习模型参数,获得所述第二目标特征数据组的第二加密加权值,并将所述第二加密加权值发送给所述服务端;
第二加密发送模块,用于利用所述第一客户端训练得到的联邦学习模型参数,获得所述第一特征数据组的第一加密加权值,并将所述第一加密加权值发送给所述服务端;以使得所述服务端对接收到的所述第一加密加权值和所述第二加密加权值求和,并对求和结果进行解密,得到所述目标用户的目标标签数据,并将所述目标标签数据返回给所述第一客户端;其中,所述目标标签数据表征所述目标用户的还款及时性;
接收模块,用于接收所述服务端返回的所述目标标签数据;
其中,所述第一客户端为销售企业端或银行端之一,所述第二客户端为销售企业端或银行端之另一;所述销售企业端、所述银行端各自拥有预先训练的对偶模型;所述服务端拥有预先训练的联邦学习模型;所述联邦学习模型是所述销售企业端和所述银行端经过加密对偶训练扩展共有用户数据集后,借助所述服务端进行联邦学习得到的;所述销售企业端用于联邦学习模型训练的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端用于联邦学习模型训练的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求7-12任一所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求7-12任一所述的方法步骤。
17.一种联邦学习模型训练方法,其特征在于,所述方法包括:
参与联邦学习模型训练的销售企业端和银行端分别获取各自的用户数据;所述销售企业端的用户数据包括由月消费额特征数据、消费次数特征数据、会员级别特征数据组成的特征数据组,以及用户的标识数据;所述银行端的用户数据包括由月薪特征数据、信用卡额度特征数据组成的特征数据组、表征用户还款及时性的标签数据,以及用户的标识数据;
所述销售企业端和所述银行端确定共有用户,得到共有用户数据集;
所述销售企业端和所述银行端基于所述共有用户数据集进行加密对偶学习,将各自的标识数据增加至所述销售企业端和所述银行端的标识数据的并集,并补全各自的特征数据组,得到所述销售企业端和所述银行端扩展的共有用户数据集;
所述销售企业端和所述银行端基于所述扩展的共有用户数据集,在所述服务端的协助下,进行联邦学习模型训练,直至达到联邦学习模型收敛条件,获得训练完成的联邦学习模型。
CN202010725692.1A 2020-07-24 2020-07-24 关于用户还款及时性的预测系统、方法、装置及电子设备 Active CN112101609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010725692.1A CN112101609B (zh) 2020-07-24 2020-07-24 关于用户还款及时性的预测系统、方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010725692.1A CN112101609B (zh) 2020-07-24 2020-07-24 关于用户还款及时性的预测系统、方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112101609A true CN112101609A (zh) 2020-12-18
CN112101609B CN112101609B (zh) 2023-08-01

Family

ID=73749486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010725692.1A Active CN112101609B (zh) 2020-07-24 2020-07-24 关于用户还款及时性的预测系统、方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112101609B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700010A (zh) * 2020-12-30 2021-04-23 深圳前海微众银行股份有限公司 基于联邦学习的特征补全方法、装置、设备及存储介质
CN117094421A (zh) * 2023-10-16 2023-11-21 亚信科技(中国)有限公司 非对称纵向联邦学习方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060229896A1 (en) * 2005-04-11 2006-10-12 Howard Rosen Match-based employment system and method
GB0717631D0 (en) * 2006-10-24 2007-10-17 Atureliya Senake A system to enable collaborative investment
CN101976435A (zh) * 2010-10-07 2011-02-16 西安电子科技大学 基于对偶约束的联合学习超分辨方法
CN110347669A (zh) * 2019-07-16 2019-10-18 成都威嘉软件有限公司 基于流式大数据分析的风险防范方法
CN110874649A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 基于状态机的联邦学习方法、系统、客户端及电子设备
CA3060678A1 (en) * 2018-10-29 2020-04-29 Flinks Technology Inc. Systems and methods for determining credit worthiness of a borrower
WO2020098030A1 (zh) * 2018-11-12 2020-05-22 网宿科技股份有限公司 一种请求任务的调度方法及调度中心服务器
CN111275207A (zh) * 2020-02-10 2020-06-12 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060229896A1 (en) * 2005-04-11 2006-10-12 Howard Rosen Match-based employment system and method
GB0717631D0 (en) * 2006-10-24 2007-10-17 Atureliya Senake A system to enable collaborative investment
CN101976435A (zh) * 2010-10-07 2011-02-16 西安电子科技大学 基于对偶约束的联合学习超分辨方法
CA3060678A1 (en) * 2018-10-29 2020-04-29 Flinks Technology Inc. Systems and methods for determining credit worthiness of a borrower
WO2020098030A1 (zh) * 2018-11-12 2020-05-22 网宿科技股份有限公司 一种请求任务的调度方法及调度中心服务器
CN110347669A (zh) * 2019-07-16 2019-10-18 成都威嘉软件有限公司 基于流式大数据分析的风险防范方法
CN110874649A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 基于状态机的联邦学习方法、系统、客户端及电子设备
CN111275207A (zh) * 2020-02-10 2020-06-12 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孔颖;: "基于数据挖掘的分类算法在潜在客户识别中的应用", 计算机时代, no. 09 *
盖新貌: "终端信任链理论模型及其实现机制研究", 中国博士学位论文全文数据库, no. 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700010A (zh) * 2020-12-30 2021-04-23 深圳前海微众银行股份有限公司 基于联邦学习的特征补全方法、装置、设备及存储介质
CN117094421A (zh) * 2023-10-16 2023-11-21 亚信科技(中国)有限公司 非对称纵向联邦学习方法、装置、电子设备及存储介质
CN117094421B (zh) * 2023-10-16 2023-12-15 亚信科技(中国)有限公司 非对称纵向联邦学习方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112101609B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN112085159B (zh) 一种用户标签数据预测系统、方法、装置及电子设备
US11580417B2 (en) System and method for processing data and managing information
US20230078061A1 (en) Model training method and apparatus for federated learning, device, and storage medium
AU2021218153A1 (en) Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device
CN113407987B (zh) 保护隐私的确定业务数据特征有效值的方法及装置
US10726501B1 (en) Method to use transaction, account, and company similarity clusters derived from the historic transaction data to match new transactions to accounts
CN110210233B (zh) 预测模型的联合构建方法、装置、存储介质及计算机设备
CN112039702B (zh) 基于联邦学习和相互学习的模型参数训练方法及装置
US11816142B2 (en) Secure matching and identification of patterns
WO2022156594A1 (zh) 联邦模型训练方法、装置、电子设备、计算机程序产品及计算机可读存储介质
CN113361962A (zh) 基于区块链网络识别企业风险性的方法及装置
CN113221183A (zh) 实现隐私保护的多方协同更新模型的方法、装置及系统
CN111428887A (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
CN112101609B (zh) 关于用户还款及时性的预测系统、方法、装置及电子设备
CN111860865A (zh) 模型构建和分析的方法、装置、电子设备和介质
WO2022237175A1 (zh) 图数据的处理方法、装置、设备、存储介质及程序产品
CN112084520A (zh) 保护数据隐私的双方联合训练业务预测模型的方法及装置
Zheng et al. A matrix factorization recommendation system-based local differential privacy for protecting users’ sensitive data
CN115618008A (zh) 账户状态模型构建方法、装置、计算机设备和存储介质
CN112507372B (zh) 实现隐私保护的多方协同更新模型的方法及装置
CN116432040B (zh) 基于联邦学习的模型训练方法、装置、介质以及电子设备
CN110990859B (zh) 在数据隐私保护下执行机器学习的方法和系统
CN115759248A (zh) 基于去中心混合联邦学习的金融系统分析方法及存储介质
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
Sumathi et al. Scale-based secured sensitive data storage for banking services in cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant