CN115292750A - 一种应用于金融场景的隐私逻辑回归方法及系统 - Google Patents
一种应用于金融场景的隐私逻辑回归方法及系统 Download PDFInfo
- Publication number
- CN115292750A CN115292750A CN202211023740.8A CN202211023740A CN115292750A CN 115292750 A CN115292750 A CN 115292750A CN 202211023740 A CN202211023740 A CN 202211023740A CN 115292750 A CN115292750 A CN 115292750A
- Authority
- CN
- China
- Prior art keywords
- data
- logistic regression
- privacy
- providers
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及金融数据处理技术领域,具体公开了一种应用于金融场景的隐私逻辑回归方法及系统。本发明实施例通过将多个数据提供方的可提供数据对应的元数据描述信息发布;采用隐私求交集技术,对多个数据提供方的样本数据进行对齐;对多个对齐数据进行预处理;使用秘密分享技术进行多方联合建模;利用逻辑回归模型,对于多个数据提供方提供的待预测数据进行预测。能够保证数据的可用不可见,数据所有权和使用权分离,在保护数据隐私安全的情况下,让数据实现最大价值,采用秘密分享技术,安全性能够得到保障,对金融业务的隐私计算安全性提供有效的支持,提升计算效率,减少建模耗时,在最大限度保持精准度的同时,大大降低了计算耗时。
Description
技术领域
本发明属于金融数据处理技术领域,尤其涉及一种应用于金融场景的隐私逻辑回归方法及系统。
背景技术
随着互联网技术的不断发展,时至今日,产生了海量的数据。随着数据的海量增加,个人隐私数据被泄露、被滥用的事件屡现不止,个人隐私信息安全受到十分严峻的挑战。人们对保护隐私信息的诉求日益强烈,国家也日益加强对隐私数据保护的立法,市场也日益重视对数据安全保护的实践。特别是在金融领域,人们对数据的隐私保护要求更高,所以各大金融机构纷纷在精准营销、信贷风控、保险定价与理赔等场景下进行隐私计算商业化应用落地试点。
在如火如荼的商业化探索中,金融领域落地比较多的是建立评分卡模型,里面一般都使用了逻辑回归算法进行建模。当进行建模时,单个组织受自身业务所限,能采集到的用户特征相对比较少,模型效果一般不够好,为了进一步提升模型效果,往往需要在保护数据隐私安全的情况下进行跨组织的数据合作,隐私逻辑回归方法应运而生。
然而现有的技术中,在进行跨组织的数据合作时,有可能获取的是一方的明文数据,那么就可被无限复制,继而泄露数据和隐私;由于需要可信第三方的参与,但是通过模型可能反推出原始数据,且技术路径无法完全证明安全性,在金融行业落地存在一定的隐患;现有的隐私逻辑回归算法的效率性不高,不利于商业落地应用,商业应用大部分场景对时效性要求比较高。
发明内容
本发明实施例的目的在于提供一种应用于金融场景的隐私逻辑回归方法及系统,旨在解决背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种应用于金融场景的隐私逻辑回归方法,所述方法具体包括以下步骤:
将多个数据提供方的可提供数据对应的元数据描述信息发布,供数据使用方查阅后,决定是否使用对应的数据进行建模;
采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据;
对多个所述对齐数据进行预处理,生成多个预处理数据;
使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型;
利用所述逻辑回归模型,对于多个所述数据提供方提供的待预测数据进行预测。
作为本发明实施例技术方案进一步的限定,所述采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据具体包括以下步骤:
任务发起方向多个所述数据提供方发起数据对齐任务,多个所述数据提供方在接收到所述数据对齐任务之后,向所述任务发起方反馈发送第一任务发起成功响应;
多个所述数据提供方分别提取各自数据集的索引列,启动隐私求交集任务,得到相同的交集结果;
多个所述数据提供方分别根据所述交集结果,提取特征列和标签列;
根据多个所述特征列和多个所述标签列进行数据样本对齐,将多个样本数据虚拟融合成一个数据集,得到对齐数据。
作为本发明实施例技术方案进一步的限定,所述采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据还包括以下步骤:
在完成数据对齐之后,多个数据节点进行返回响应,告知任务发起方。
作为本发明实施例技术方案进一步的限定,所述预处理包括归一化、分箱和特征筛选,所述预处理的过程在多个所述数据提供方各自本地进行操作。
作为本发明实施例技术方案进一步的限定,所述预处理包括归一化、分箱和特征筛选,所述预处理的过程在多个所述数据提供方进行多方联合数据预处理。
作为本发明实施例技术方案进一步的限定,所述使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型具体包括以下步骤:
任务发起方对计算辅助方和多个所述数据提供方发起逻辑回归任务,所述计算辅助方和多个所述数据提供方在接收到所述逻辑回归任务之后,向所述任务发起方反馈发送第二任务发起成功响应;
多个所述预处理数据分片发送至所述计算辅助方和多个所述数据提供方;
所述计算辅助方和多个所述数据提供方根据多个所述预处理数据执行隐私逻辑回归计算,生成回归计算结果;
根据所述回归计算结果,构建逻辑回归模型。
作为本发明实施例技术方案进一步的限定,所述使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型还包括以下步骤:
将所述逻辑回归模型保存;
生成执行成功通知,并将所述执行成功通知发送至任务发起方。
作为本发明实施例技术方案进一步的限定,在构建逻辑回归模型和对于多个所述数据提供方提供的待预测数据进行预测时,对于涉及的sigmoid(x)= 1/(1+exp(-x))函数进行拟合优化。
作为本发明实施例技术方案进一步的限定,所述拟合优化的方式有:多分段一元一次函数、一元三次多项式函数、一元五次多项式函数和一元六次多项式函数。
本发明的另一目的在于提供一种应用于金融场景的隐私逻辑回归系统,所述系统包括数据元数据发布模块、数据对齐模块、数据预处理模块、模型构建模块和模型应用模块,其中:
数据元数据发布模块,用于将多个数据提供方的可提供数据对应的元数据描述信息发布,供数据使用方查阅后,决定是否使用对应的数据进行建模;
数据对齐模块,用于采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据;
数据预处理模块,用于对多个所述对齐数据进行预处理,生成多个预处理数据;
模型构建模块,用于使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型;
模型应用模块,用于利用所述逻辑回归模型,对于多个所述数据提供方提供的待预测数据进行预测。
与现有技术相比,本发明的有益效果是:
1、能保证数据的可用不可见,保护各参与方的隐私数据,数据所有权和使用权分离,易于进行数据价值定价,可实现大规模的数据在市场进行安全流通,在保护数据隐私安全的情况下,让数据实现最大价值;
2、底层基于密码学的安全多方计算框架,采用秘密分享技术,安全性在数学上可证明。对金融业务的隐私计算安全性提供理论支持;
3、隐私逻辑回归中的sigmoid函数耗时占比比较大,本发明为了提升计算效率,减少建模耗时,对sigmoid函数进行了分段函数近似拟合,在最大限度保持精准度的同时,大大降低了计算耗时。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1示出了本发明实施例提供的方法的流程图。
图2示出了本发明实施例提供的系统的应用架构图。
图3示出了本发明实施例中数据样本对齐的流程示意图。
图4示出了本发明实施例中联合构建模型的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解的是,现有的技术中存在着一些不足:(1)在进行跨组织的数据合作时,有可能获取的是一方的明文数据,那么就可被无限复制,继而泄露数据和隐私;(2)由于需要可信第三方的参与,但是通过模型可能反推出原始数据,且技术路径无法完全证明安全性,在金融行业落地存在一定的隐患;(3) 现有的隐私逻辑回归算法的效率性不高,不利于商业落地应用,商业应用大部分场景对时效性要求比较高。
为解决上述问题,本发明实施例通过将多个数据提供方的可提供数据对应的元数据描述信息发布;采用隐私求交集技术,对多个数据提供方的样本数据进行对齐;对多个对齐数据进行预处理;使用秘密分享技术进行多方联合建模;利用逻辑回归模型,对于多个数据提供方提供的待预测数据进行预测。能够保证数据的可用不可见,数据所有权和使用权分离,在保护数据隐私安全的情况下,让数据实现最大价值,采用秘密分享技术,安全性能够得到保障,对金融业务的隐私计算安全性提供有效的支持,提升计算效率,减少建模耗时,在最大限度保持精准度的同时,大大降低了计算耗时。
图1示出了本发明实施例提供的方法的流程图。
本发明实施例适用于两个及两个以上数据提供方的场景,由于两个以上数据提供方的场景与两个数据提供方的场景类似,所以本发明实施例中仅以两个数据提供方为例进行说明,假设有数据提供方1和数据提供方2。
具体的,一种应用于金融场景的隐私逻辑回归方法,所述方法具体包括以下步骤:
步骤S101,将多个数据提供方的可提供数据对应的元数据描述信息发布,供数据使用方查阅后,决定是否使用对应的数据进行建模。
在本发明实施例中,数据提供方1和数据提供方2将可提供数据对应的元数据描述信息进行发布,供数据使用方查阅后,决定是否使用该数据来进行建模,但这个过程并不会泄露数据原始数据。
步骤S102,采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据。
在本发明实施例中,采用隐私求交集的技术,对齐数据提供方1和数据提供方2提供的样本数据,在不泄露交集外数据的情况下,获取两方对齐后的对齐数据,为下一步数据预处理和建模做好准备,具体的,如图3示出了本发明实施例中数据样本对齐的流程示意图,任务发起方对数据提供方1和数据提供方2发起一个数据对齐任务,数据提供方1和数据提供方2收到任务后,返回第一任务发起成功响应给任务发起方,数据提供方1和数据提供方2分别提取各自数据集的索引列,然后启动隐私求交集任务,使得数据提供方1和数据提供方2双方得到相同的交集结果,所使用的隐私求交集算法,可以实现不泄露两方交集之外的数据的情况下,获取双方的交集,进而数据提供方1和数据提供方2各自分别根据交集结果,提取各自所需提供的特征列及标签列,再按照将特征列及标签列,将两方的数据虚拟融合成一个数据集,得到对齐数据,供后续的数据预处理和建模使用,完成数据对齐之后,数据节点1和数据节点2 返回响应,告知任务发起方,数据对齐任务成功完成。
具体的,在本发明提供的优选实施方式中,所述采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据具体包括以下步骤:
任务发起方向多个所述数据提供方发起数据对齐任务,多个所述数据提供方在接收到所述数据对齐任务之后,向所述任务发起方反馈发送第一任务发起成功响应;
多个所述数据提供方分别提取各自数据集的索引列,启动隐私求交集任务,得到相同的交集结果;
多个所述数据提供方分别根据所述交集结果,提取特征列和标签列;
根据多个所述特征列和多个所述标签列进行数据样本对齐,将多个样本数据虚拟融合成一个数据集,得到对齐数据。
进一步的,所述采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据还包括以下步骤:
在完成数据对齐之后,多个数据节点进行返回响应,告知任务发起方。
进一步的,所述应用于金融场景的隐私逻辑回归方法还包括以下步骤:
步骤S103,对多个所述对齐数据进行预处理,生成多个预处理数据。
在本发明实施例中,对多个数据提供方对齐后的对齐数据进行一些预处理,比如归一化、分箱、特征筛选等,可以在数据方各自本地进行操作或者多方联合进行数据预处理。
可以理解的是,归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式,主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内;分箱法是指通过考察周围的值来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,用“箱的宽度”来表示每个箱值的取值区间,由于分箱方法考虑相邻的值,因此是一种局部平滑方法,分箱的主要目的是去噪,将连续数据离散化,增加粒度。
步骤S104,使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型。
在本发明实施例中,通过按照多个预处理数据,使用秘密分享技术安全地实现多方联合建模,构建逻辑回归模型,充分实现数据可用不可见,具体的,如图4示出了本发明实施例中联合构建模型的流程示意图,任务发起方对数据提供方1、数据提供方2和计算辅助方发起一个逻辑回归任务,各方在收到任务后,向任务发起方反馈发送第二任务发起成功响应,在计算辅助方的帮助下,数据提供方1和数据提供方2分别将数据预处理后的预处理数据发送到三个计算方,其中数据提供方1和数据提供方2分别作为计算方1和计算方2,计算辅助方作为计算方3,分片发送完成后,三个计算方执行隐私逻辑回归计算,生成回归计算结果,进而根据回归计算结果,构建逻辑回归模型,并将完成构建的逻辑回归模型保存,然后告知任务发起方任务执行成功。
具体的,在本发明提供的优选实施方式中,所述使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型具体包括以下步骤:
任务发起方对计算辅助方和多个所述数据提供方发起逻辑回归任务,所述计算辅助方和多个所述数据提供方在接收到所述逻辑回归任务之后,向所述任务发起方反馈发送第二任务发起成功响应;
多个所述预处理数据分片发送至所述计算辅助方和多个所述数据提供方;
所述计算辅助方和多个所述数据提供方根据多个所述预处理数据执行隐私逻辑回归计算,生成回归计算结果;
根据所述回归计算结果,构建逻辑回归模型。
进一步的,所述使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型还包括以下步骤:
将所述逻辑回归模型保存;
生成执行成功通知,并将所述执行成功通知发送至任务发起方。
进一步的,所述应用于金融场景的隐私逻辑回归方法还包括以下步骤:
步骤S105,利用所述逻辑回归模型,对于多个所述数据提供方提供的待预测数据进行预测。
在本发明实施例中,对于数据提供方1和数据提供方2提供新的待预测数据,利用得到的隐私逻辑回归模型对待预测数据进行预测。
进一步的,在进行隐私机器学习或隐私推理的时候,sigmoid(x)=1/(1+exp(-x))涉及的运算比较复杂,在使用同态或多方安全计算等隐私计算技术实现的时候,很难实现或者实现的代价非常高,不利于金融场景的商业落地。因此为了降低计算复杂度,减少任务耗时,在兼顾计算的精准度的情况下,使用类似函数去近似sigmoid函数。本发明为了能兼容多种商业场景需求,这里提出了多种sigmoid函数的拟合方式。使用者可根据金融落地场景的耗时和精准度进行权衡选择。
本发明主要提出了以下几种函数来实现sigmoid的近似,如:多分段一元一次函数、一元三次多项式函数、一元五次多项式函数和一元六次多项式函数,并提供相关的拟合优度比较。
假设f(x)是sigmoid(x)的近似函数,根据sigmoid的特性,在x∈(-∞,10)时, f(x)可近似为0;在x∈[10,+∞)时,f(x)可近似为1。因此,只需对sigmoid(x)函数在x∈[-10,10)的曲线使用近似函数拟合即可。
具体的,在本发明的一个实施例中,银行A有一款金融产品,需要建立一个基于逻辑回归的评分卡模型,用于找到比较精准的客户,然后再推销,以提高销售成功率,减少开发客户的成本。然而利用银行A已有的用户特征建模,模型效果并不理想,还需要引入更多的用户特征以提高模型预测的精准度,而电商平台B有较多的相关的用户特征,而这些特征大多数是银行A所难以收集的。因国家法规与个人隐私信息保护的相关要求,银行A不能直接获取电商B 的明文数据。则可以利用隐私逻辑回归方法,因为隐私计算的方法耗时比明文场景耗时大很多,对逻辑回归中耗时占比较大的sigmoid函数进行分段函数近似拟合后,大大简化计算,减少任务耗时,更能符合商业落地场景。
进一步的,图2示出了本发明实施例提供的系统的应用架构图。
其中,在本发明提供的又一个优选实施方式中,一种应用于金融场景的隐私逻辑回归系统,包括:
数据元数据发布模块101,用于将多个数据提供方的可提供数据对应的元数据描述信息发布,供数据使用方查阅后,决定是否使用对应的数据进行建模。
在本发明实施例中,数据元数据发布模块101用于数据提供方1和数据提供方2,数据提供方1和数据提供方2将可提供数据对应的元数据描述信息进行发布,供数据使用方查阅后,决定是否使用该数据来进行建模,但这个过程并不会泄露数据原始数据。
数据对齐模块102,用于采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据。
在本发明实施例中,数据对齐模块102采用隐私求交集的技术,对齐数据提供方1和数据提供方2提供的样本数据,在不泄露交集外数据的情况下,获取两方对齐后的对齐数据,为下一步数据预处理和建模做好准备,具体的,如图3示出了本发明实施例中数据样本对齐的流程示意图,任务发起方对数据提供方1和数据提供方2发起一个数据对齐任务,数据提供方1和数据提供方2 收到任务后,返回第一任务发起成功响应给任务发起方,数据提供方1和数据提供方2分别提取各自数据集的索引列,然后启动隐私求交集任务,使得数据提供方1和数据提供方2双方得到相同的交集结果,所使用的隐私求交集算法,可以实现不泄露两方交集之外的数据的情况下,获取双方的交集,进而数据提供方1和数据提供方2各自分别根据交集结果,提取各自所需提供的特征列及标签列,再按照将特征列及标签列,将两方的数据虚拟融合成一个数据集,得到对齐数据,供后续的数据预处理和建模使用,完成数据对齐之后,数据节点1 和数据节点2返回响应,告知任务发起方,数据对齐任务成功完成。
数据预处理模块103,用于对多个所述对齐数据进行预处理,生成多个预处理数据。
在本发明实施例中,数据预处理模块103对多个数据提供方对齐后的对齐数据进行一些预处理,比如归一化、分箱、特征筛选等,可以在数据方各自本地进行操作或者多方联合进行数据预处理。
模型构建模块104,用于使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型。
在本发明实施例中,模型构建模块104通过按照多个预处理数据,使用秘密分享技术安全地实现多方联合建模,构建逻辑回归模型,充分实现数据可用不可见,具体的,如图4示出了本发明实施例中联合构建模型的流程示意图,任务发起方对数据提供方1、数据提供方2和计算辅助方发起一个逻辑回归任务,各方在收到任务后,向任务发起方反馈发送第二任务发起成功响应,在计算辅助方的帮助下,数据提供方1和数据提供方2分别将数据预处理后的预处理数据发送到三个计算方,其中数据提供方1和数据提供方2分别作为计算方1和计算方2,计算辅助方作为计算方3,分片发送完成后,三个计算方执行隐私逻辑回归计算,生成回归计算结果,进而根据回归计算结果,构建逻辑回归模型,并将完成构建的逻辑回归模型保存,然后告知任务发起方任务执行成功。
模型应用模块105,用于利用所述逻辑回归模型,对于多个所述数据提供方提供的待预测数据进行预测。
在本发明实施例中,模型应用模块105对于数据提供方1和数据提供方2 提供新的待预测数据,利用得到的隐私逻辑回归模型对待预测数据进行预测。
综上所述,本发明实施例通过将多个数据提供方的可提供数据对应的元数据描述信息发布;采用隐私求交集技术,对多个数据提供方的样本数据进行对齐;对多个对齐数据进行预处理;使用秘密分享技术进行多方联合建模;利用逻辑回归模型,对于多个数据提供方提供的待预测数据进行预测。能够保证数据的可用不可见,数据所有权和使用权分离,在保护数据隐私安全的情况下,让数据实现最大价值,采用秘密分享技术,安全性能够得到保障,对金融业务的隐私计算安全性提供有效的支持,提升计算效率,减少建模耗时,在最大限度保持精准度的同时,大大降低了计算耗时。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM 以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM (RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种应用于金融场景的隐私逻辑回归方法,其特征在于,所述方法具体包括以下步骤:
将多个数据提供方的可提供数据对应的元数据描述信息发布,供数据使用方查阅后,决定是否使用对应的数据进行建模;
采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据;
对多个所述对齐数据进行预处理,生成多个预处理数据;
使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型;
利用所述逻辑回归模型,对于多个所述数据提供方提供的待预测数据进行预测。
2.根据权利要求1所述的应用于金融场景的隐私逻辑回归方法,其特征在于,所述采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据具体包括以下步骤:
任务发起方向多个所述数据提供方发起数据对齐任务,多个所述数据提供方在接收到所述数据对齐任务之后,向所述任务发起方反馈发送第一任务发起成功响应;
多个所述数据提供方分别提取各自数据集的索引列,启动隐私求交集任务,得到相同的交集结果;
多个所述数据提供方分别根据所述交集结果,提取特征列和标签列;
根据多个所述特征列和多个所述标签列进行数据样本对齐,将多个样本数据虚拟融合成一个数据集,得到对齐数据。
3.根据权利要求2所述的应用于金融场景的隐私逻辑回归方法,其特征在于,所述采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据还包括以下步骤:
在完成数据对齐之后,多个数据节点进行返回响应,告知任务发起方。
4.根据权利要求1所述的应用于金融场景的隐私逻辑回归方法,其特征在于,所述预处理包括归一化、分箱和特征筛选,所述预处理的过程在多个所述数据提供方各自本地进行操作。
5.根据权利要求1所述的应用于金融场景的隐私逻辑回归方法,其特征在于,所述预处理包括归一化、分箱和特征筛选,所述预处理的过程在多个所述数据提供方进行多方联合数据预处理。
6.根据权利要求1所述的应用于金融场景的隐私逻辑回归方法,其特征在于,所述使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型具体包括以下步骤:
任务发起方对计算辅助方和多个所述数据提供方发起逻辑回归任务,所述计算辅助方和多个所述数据提供方在接收到所述逻辑回归任务之后,向所述任务发起方反馈发送第二任务发起成功响应;
多个所述预处理数据分片发送至所述计算辅助方和多个所述数据提供方;
所述计算辅助方和多个所述数据提供方根据多个所述预处理数据执行隐私逻辑回归计算,生成回归计算结果;
根据所述回归计算结果,构建逻辑回归模型。
7.根据权利要求6所述的应用于金融场景的隐私逻辑回归方法,其特征在于,所述使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型还包括以下步骤:
将所述逻辑回归模型保存;
生成执行成功通知,并将所述执行成功通知发送至任务发起方。
8.根据权利要求1所述的应用于金融场景的隐私逻辑回归方法,其特征在于,在构建逻辑回归模型和对于多个所述数据提供方提供的待预测数据进行预测时,对于涉及的sigmoid(x)=1/(1+exp(-x))函数进行拟合优化。
9.根据权利要求8所述的应用于金融场景的隐私逻辑回归方法,其特征在于,所述拟合优化的方式有:多分段一元一次函数、一元三次多项式函数、一元五次多项式函数和一元六次多项式函数。
10.一种应用于金融场景的隐私逻辑回归系统,其特征在于,所述系统包括数据元数据发布模块、数据对齐模块、数据预处理模块、模型构建模块和模型应用模块,其中:
数据元数据发布模块,用于将多个数据提供方的可提供数据对应的元数据描述信息发布,供数据使用方查阅后,决定是否使用对应的数据进行建模;
数据对齐模块,用于采用隐私求交集技术,对多个所述数据提供方的样本数据进行对齐,获取两方对齐后的对齐数据;
数据预处理模块,用于对多个所述对齐数据进行预处理,生成多个预处理数据;
模型构建模块,用于使用秘密分享技术,按照多个所述预处理数据进行多方联合建模,构建逻辑回归模型;
模型应用模块,用于利用所述逻辑回归模型,对于多个所述数据提供方提供的待预测数据进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211023740.8A CN115292750A (zh) | 2022-08-24 | 2022-08-24 | 一种应用于金融场景的隐私逻辑回归方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211023740.8A CN115292750A (zh) | 2022-08-24 | 2022-08-24 | 一种应用于金融场景的隐私逻辑回归方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115292750A true CN115292750A (zh) | 2022-11-04 |
Family
ID=83832284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211023740.8A Withdrawn CN115292750A (zh) | 2022-08-24 | 2022-08-24 | 一种应用于金融场景的隐私逻辑回归方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292750A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522102A (zh) * | 2023-05-17 | 2023-08-01 | 联洋国融(北京)科技有限公司 | 基于隐私计算动态调整意外险模型数据库的方法及装置 |
-
2022
- 2022-08-24 CN CN202211023740.8A patent/CN115292750A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522102A (zh) * | 2023-05-17 | 2023-08-01 | 联洋国融(北京)科技有限公司 | 基于隐私计算动态调整意外险模型数据库的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Perera et al. | Blockchain technology: Is it hype or real in the construction industry? | |
Chen et al. | A survey of blockchain applications in different domains | |
KR20180014534A (ko) | 블록체인 기반 트랜잭션 검증 시스템 및 그 방법 | |
CN111680995A (zh) | 一种支付链构建方法、装置、计算机设备及可读存储介质 | |
CN115292750A (zh) | 一种应用于金融场景的隐私逻辑回归方法及系统 | |
CN112862587A (zh) | 基于区块链的信贷数据处理方法、装置、计算机和介质 | |
CN114978484A (zh) | 用于保护隐私的数据处理方法、装置和计算机设备 | |
Shinde et al. | Enhanced road construction process with machine learning and blockchain technology | |
Lage | Blockchain: from industry 4.0 to the machine economy | |
Victor et al. | A taxonomy for distributed ledger analytics | |
Azcoitia et al. | Try Before You Buy: A practical data purchasing algorithm for real-world data marketplaces | |
US20230135294A1 (en) | Cosigning Using Tokenized Reputation Scores | |
Wong et al. | Determinants of cryptocurrency adoption behavior in Malaysia | |
CN112231746B (zh) | 联合数据分析方法、装置、系统及计算机可读存储介质 | |
Zheng | Data trading with differential privacy in data market | |
Firdayati et al. | Designing architecture blockchain of hyperledger fabric for purchasing strategy | |
Abdullah et al. | Blockchain Technologies in e-Government Services: A Literature Review | |
Siyal et al. | A novel trust service provider for Internet based commerce applications | |
CN114066655A (zh) | 预言机数据的聚合方法及装置 | |
CN114549123A (zh) | 一种分布式系统中的业务分流方法、装置以及设备 | |
Shukla et al. | Delend: A p2p loan management scheme using public blockchain in 6g network | |
Kiyeng et al. | Design of Blockchain Based Smart Contract for Tendering | |
CN112862570A (zh) | 商显产业链交易推荐方法、装置、设备、存储介质及系统 | |
Caycho-Vilchez et al. | Structural characterization of ecommerce for its growth and development in Peru | |
Henry | Towards trustworthy, flexible, and privacy-preserving peer-to-peer business process management systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221104 |