CN112231746B - 联合数据分析方法、装置、系统及计算机可读存储介质 - Google Patents
联合数据分析方法、装置、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112231746B CN112231746B CN202010946827.7A CN202010946827A CN112231746B CN 112231746 B CN112231746 B CN 112231746B CN 202010946827 A CN202010946827 A CN 202010946827A CN 112231746 B CN112231746 B CN 112231746B
- Authority
- CN
- China
- Prior art keywords
- model
- sample set
- data
- sample
- grouping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000007405 data analysis Methods 0.000 title claims abstract description 40
- 239000003999 initiator Substances 0.000 claims abstract description 80
- 238000004364 calculation method Methods 0.000 claims abstract description 72
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 7
- 238000012821 model calculation Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 description 25
- 238000004422 calculation algorithm Methods 0.000 description 19
- 230000006872 improvement Effects 0.000 description 12
- 238000012360 testing method Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000000586 desensitisation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- 235000005979 Citrus limon Nutrition 0.000 description 1
- 244000131522 Citrus pyriformis Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 244000000231 Sesamum indicum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 229940069428 antacid Drugs 0.000 description 1
- 239000003159 antacid agent Substances 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/52—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
- G06F21/53—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种联合数据分析方法、装置、系统及计算机可读存储介质,该方法包括:需求发起方根据模型生成ID分组样本集合,数据提供方根据所述ID分组样本集合使用安全计算环境建立镜像等价模型,需求发起方可以使用数据提供方联合计算得到的模型进行分析样本,获得分析结果,即直接使用,或者根据等价模型改进自身原有模型。该方法通过镜像等价模型得到关联其多方的特征,在没有相互泄露数据的情况下扩展了分析维度,提高了分析精确度。
Description
技术领域
本发明属于大数据分析技术领域,特别是大数据多中心分析技术领域,具体涉及一种联合数据分析方法、装置、系统及计算机可读存储介质。
背景技术
本发明属于数据分析技术领域,特别是大数据多中心分析技术领域,需要保护数据原始信息的领域。目前大数据发展迅速,特别是互联网大数据征信领域,需求发起方,例如银行。互联网金融企业,需要其他行业公司的数据,以更好地展开业务。例如征信分析,以适应大数据时代的发展要求。
在实践中,在获取使用这些非本公司本单位的数据或特定数据时候会遇到一系列法律法规,利益分配,安全管理,成本等方面的问题。而且为了业务安全,需求发起方不想对数据提供方透露的具体的数据标签内容以及具体的信息的要求。
例如:银行通常不愿意泄露自己数据,即使是元数据,各种标签,也不愿意泄露。特别是用于分析征信的各种标签和算法。以防欺诈。但是普通的联邦学习,需要计算多方的特征,标签统一化,存在泄露可能。
目前需求发起方为了满足自己的数据需求目前主要是几种方式:
第一种购买数据,需求发起方向数据提供者购买的数据,数据需要传出数据提供方,这些数据要经过脱敏等合规性处理,而且数据处理量大,工作代价大其次数据的时效性存在疑问,数据更新不及时。时间上,数据质量上不一定能满足业务发展要求。数据脱敏后,很多有价值的信息丧失,数据价值受损,另一方面,很多数据提供方因为法律法规以及利益上的担忧,通常也不愿意提供数据。
第二种方式,是数据提供方根据自己的数据资源和潜在要求统一提供一个整体的分数供需求发起方使用,很多数据源自身有大量的数据,以及相关算法。很多情况下只能提供一个分数,这个分数通常是数据方根据自身业务特征制定的算法实现的,对满足需求发起方的需求存在很大差距,例如:现有很多数据服务方提供服务的方式是提供一个分数,特别是征信服务只是提供一个征信分数,例如芝麻信用,FICO分,需求发起方使用时候并无法充分利用算法提供方的资源。只是一个结果分数,不能充分满足需求发起方的需求,也没有充分发挥数据的价值。
另一种方式采用联邦学习等新技术,但需要各方共享所有元数据(数据标签),例如联邦学习方法,进行多中心联合分析计算时候,相关方需要样本对齐,特征对齐,需要公开特征,标签,统一特征,标签,但是由于某些业务的特殊需求,特别是涉及到征信数据分析时候,为了防止潜在的风险,需要尽可能的不泄露标签,这样泄露标签特别是征信应用,可能泄露会引起重大风险。因为如果让外界知道征信分析用的特征和标签(元数据),就会针对性的造假,进行欺诈,使得银行已有模型失效或功能降低,造成损失。
因此,现有技术存在如下缺陷:
1、很多场景,不满足业务要求,无法做到完全合规合法。
2、需要泄漏标签,特征。
3、计算过程存在风险,一方很可能获得另一方的原始信息数据。
4、不能充分发挥数据的价值。
发明内容
本发明的目的在于针对现有技术的不足,提供一种联合数据分析方法、装置、系统及计算机可读存储介质,通过使用安全计算环境建立镜像等价模型,得到关联其多方的特征,在没有相互泄露数据的情况下扩展分析维度,提高分析精确度。
为实现上述目的,本发明采用如下技术方案实现:
本发明的第一方面提供了一种联合数据分析方法,包括如下步骤:
需求发起方确定参与计算的数据样本集合;
所述需求发起方根据预定需求生成模型或选择现有模型,对所述数据样本集合进行分析计算,得到ID分组样本集合;
根据需求发起方得到的所述ID分组样本集合,数据提供方在安全计算环境下对己方的数据样本集合进行联合分析计算以训练生成等效模型;
所述需求发起方直接使用所述等效模型对数据样本集合进行分析计算,得到ID样本分组集合;或者根据所述等效模型对所述ID分组样本集合进行分析处理,得到优化的ID样本分组集合。
进一步的,还包括步骤:
所述需求发起方根据优化的ID样本分组集合对自己的模型进行改进,得到改进后的模型。
进一步的,所述ID分组样本集合包括分层分组的多个不同的ID分组样本集合,每组样本集合中的样本具有共同的标签,不同的样本集合对应不同的模型。
进一步的,所述需求发起方根据所述等效模型对所述ID分组样本集合进行分析处理,得到优化的ID样本分组集合,包括:
假定所述ID分组样本集合包括N组样本集合,N≥2;第k组样本集合对应第k个等效模型,k∈N;
使用第k个等效模型对除第k组样本集合以外的其他组样本集合进行计算,得到的数据添加到所述第k组样本集合中以优化所述第k组样本集合;
反复执行上一步直至所有的等效模型都经过计算以优化相应的样本集合。
进一步的,所述安全计算环境包括在数据提供方嵌入安全计算单元,使得在计算过程中数据提供方无法知晓数据使用情况,需求发起方也无法知晓等效模型。
进一步的,定期对所述等效模型进行更新,并对ID分组样本集合进行优化更新。
进一步的,将所述数据样本集合分成两个集合:生成模型用样本集合和对比样本集合,这两个集合相同或部分重叠或不同;
生成模型用样本集合参与和数据提供方进行安全计算环境下的等效模型生成和样本优化得到优化后的样本集合,对比样本集合进行需求发起方的模型计算得到样本集合,对两者进行效果比较和评估,以便于进一步优化模型。
进一步的,所述数据提供方包括多个,将所述生成模型用样本集合分成对应的多个以提供给多个所述数据提供方,或者将相同的所述生成模型用样本集合提供给多个所述数据提供方;
根据得到的优化的样本集合对不同数据提供方的等效模型进行比较和评估,以便于进一步优化模型。
进一步的,所述需求发起方确定参与计算的数据样本集合的步骤包括:需求发起方和数据提供方在安全计算环境下进行样本的匿名碰撞,得到共同的数据样本集合。
本发明的第二方面提供了一种联合数据分析装置,包括:
需求发起方:包括数据模块、模型模块、安全计算单元模块和本地计算单元模块;数据模块确定参与计算的数据样本集合;模型模块根据预定需求生成模型或选择现有模型,计算单元模块对所述数据样本集合进行分析计算,得到ID分组样本集合;
数据提供方:包括数据模块、模型模块、安全计算单元模块和本地计算单元模块;根据需求发起方得到的所述ID分组样本集合,数据提供方在安全计算环境下对己方的数据样本集合进行联合分析计算以训练生成等效模型;
所述需求发起方根据所述等效模型对所述ID分组样本集合进行分析处理,得到优化的ID样本分组集合;
需求发起方和数据提供方通过通信线路连接。
进一步的,还包括:
所述需求发起方根据优化的ID样本分组集合对模型进行改进,得到改进后的模型。
进一步的,所述ID分组样本集合包括分层分组的多个不同的ID分组样本集合,每组样本集合中的样本具有共同的标签,不同的样本集合对应不同的模型。
进一步的,所述需求发起方根据所述等效模型对所述ID分组样本集合进行分析处理,得到优化的ID样本分组集合,包括:
假定所述ID分组样本集合包括N组样本集合,N≥2;第k组样本集合对应第k个等效模型,k∈N;
使用第k个等效模型对除第k组样本集合以外的其他组样本集合进行计算,得到的数据添加到所述第k组样本集合中以优化所述第k组样本集合;
反复执行上一步直至所有的等效模型都经过计算以优化相应的样本集合。
进一步的,还包括更新单元,定期对所述等效模型进行更新,并对ID分组样本集合进行优化更新。
进一步的,所述需求发起方将所述数据样本集合分成两个集合:生成模型用样本集合和对比样本集合,这两个集合相同或部分重叠或不同;
生成模型用样本集合参与和数据提供方进行安全计算环境下的等效模型生成和样本优化得到优化后的样本集合,对比样本集合进行需求发起方的模型计算得到样本集合,对两者进行效果比较和评估,以便于进一步优化模型。
进一步的,所述数据提供方包括多个,将所述生成模型用样本集合分成对应的多个以提供给多个所述数据提供方,或者将相同的所述生成模型用样本集合提供给多个所述数据提供方;
根据得到的优化的样本集合对不同数据提供方的等效模型进行比较和评估,以便于进一步优化模型。
进一步的,需求发起方和数据提供方在安全计算环境下进行样本的匿名碰撞,得到共同的数据样本集合。
本发明的第三方面提供了一种联合数据分析系统,该系统包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行,以使所述一个或多个处理器用于执行如前所述的方法。
本发明的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可操作来执行如前所述的方法。
综上所述,本发明涉及一种联合数据分析方法、装置、系统及计算机可读存储介质,该方法包括:需求发起方根据模型生成ID分组样本集合,数据提供方根据所述ID分组样本集合使用安全计算环境建立镜像等价模型,需求发起方可以使用数据提供方联合计算得到的模型进行分析样本,获得分析结果,即直接使用,或者根据等价模型改进自身原有模型。该方法通过镜像等价模型得到关联其多方的特征,在没有相互泄露数据的情况下扩展了分析维度,提高了分析精确度。
附图说明
图1是本发明实施例的联合数据分析方法的流程示意图;
图2是本发明实施例的联合数据分析系统的结构框图;
图3是本发明实施例的联合数据分析方法的基本流程示意图;
图4是本发明实施例之一的联合数据分析方法的流程示意图;
图5是本发明实施例之二的联合数据分析方法的流程示意图;
图6是本发明实施例之三的联合数据分析方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明的第一方面提供了一种联合数据分析方法,如图1所示,包括如下步骤:
步骤S100,需求发起方(又可称为数据需求方)确定参与计算的数据样本集合。
步骤S200,所述需求发起方根据预定需求生成模型或选择现有模型,对所述数据样本集合进行分析计算,得到ID分组样本集合。所述ID分组样本集合包括分层分组的多个不同的ID分组样本集合,每组样本集合中的样本具有共同的标签,不同的样本集合对应不同的模型。
步骤S300,根据需求发起方得到的所述ID分组样本集合,数据提供方在安全计算环境下对己方的数据样本集合进行联合分析计算以训练生成等效模型。经过所述等效模型分析计算得到的ID分组样本集合与所述需求发起方得到的ID分组样本集合相同。所述安全计算环境包括在数据提供方嵌入安全计算单元,使得在计算过程中数据提供方无法知晓数据使用情况,需求发起方也无法知晓等效模型的具体内容。
步骤S400,所述需求发起方根据所述等效模型对所述ID分组样本集合进行分析处理,得到优化的ID样本分组集合。
具体的,假定所述ID分组样本集合包括N组样本集合,N≥2;第k组样本集合对应第k个等效模型,k∈N;
使用第k个等效模型对除第k组样本集合以外的其他组样本集合进行计算,得到的数据添加到所述第k组样本集合中以优化所述第k组样本集合;
反复执行上一步直至所有的等效模型都经过计算以优化相应的样本集合。本发明提出的上述方法,能够在合规合法的基础上,多方数据联合计算,同时又不泄露各自的原始数据、以及数据特征和数据标签,特别在征信领域,满足银行方的业务需求和要求。
进一步的,还包括步骤S500:所述需求发起方根据优化的ID样本分组集合对模型进行改进,得到改进后的模型。
进一步的,定期对所述等效模型进行更新,并对ID分组样本集合进行优化更新。
进一步的,将所述数据样本集合分成两个集合:生成模型用样本集合和对比样本集合,这两个集合相同或部分重叠或不同;生成模型用样本集合参与和数据提供方进行安全计算环境下的等效模型生成和样本优化得到优化后的样本集合,对比样本集合进行需求发起方的模型计算得到样本集合,对两者进行效果比较和评估,以便于进一步优化模型。
进一步的,所述数据提供方包括多个,将所述生成模型用样本集合分成对应的多个以提供给多个所述数据提供方,或者将相同的所述生成模型用样本集合提供给多个所述数据提供方;根据得到的优化的样本集合对不同数据提供方的等效模型进行比较和评估,以便于进一步优化模型。
进一步的,所述需求发起方确定参与计算的数据样本集合的步骤包括:需求发起方和数据提供方在安全计算环境下进行样本的匿名碰撞,得到共同的数据样本集合。
本发明的第二方面提供了一种联合数据分析装置,包括:
需求发起方:包括数据模块、模型模块、安全计算单元模块和本地计算单元模块;数据模块确定参与计算的数据样本集合;模型模块根据预定需求生成模型或选择现有模型,计算单元模块对所述数据样本集合进行分析计算,得到ID分组样本集合;数据提供方:包括数据模块、模型模块、安全计算单元模块和本地计算单元模块;根据需求发起方得到的所述ID分组样本集合,数据提供方在安全计算环境下对己方的数据样本集合进行联合分析计算以训练生成等效模型;所述需求发起方根据所述等效模型对所述ID分组样本集合进行分析处理,得到优化的ID样本分组集合;需求发起方和数据提供方通过通信线路连接。
系统结构如图2所示:以两方为例,多方每方的结构一致。
参与计算的每一方都包括:数据模块,模型模块,安全计算单元模块和本地计算单元模块,双方之间有通信线路连接。
其中:
数据模块:参与计算方的数据存储模块,用于存储参与计算的数据。包括内部数据,中间数据等。
模型模块:参与计算方的数据模型模块,用于记录所有模型、算法,包括内部模型算法,中间模型算法等。
安全计算单元模块:用于构建安全计算环境,执行安全计算功能,安全存储的数据功能,存储加密的模型。特别是和其他方共同执行安全计算任务,以达到数据保护的目的计算。特别是机器学习、深度学习、数据分析计算、生成模型、改进模型和测试使用模型。根据计算要求把数据模块的数据和模型模块中的算法,导入到安全计算环境中,以执行安全计算功能。
本地计算模块:根据业务要求用于执行非安全计算功能,是不需要对数据进行保护的情况下的计算任务。特别是机器学习、深度学习、数据分析计算、生成模型、改进模型和测试使用模型。
进一步的,还包括更新单元,定期对所述等效模型进行更新,并对ID分组样本集合进行优化更新。
进一步的,所述数据提供方包括多个,将所述生成模型用样本集合分成对应的多个以提供给多个所述数据提供方,或者将相同的所述生成模型用样本集合提供给多个所述数据提供方;根据得到的优化的样本集合对不同数据提供方的等效模型进行比较和评估,以便于进一步优化模型。
进一步的,需求发起方和数据提供方在安全计算环境下进行样本的匿名碰撞,得到共同的数据样本集合。
具体来说:多个数据方各方都有很多内部数据、内部样本、内部特征,内部标签、内部模型和内部方法。各方特别是需求发起方(A方)都希望能够借鉴其他方的数据改进自己的算法和数据使用的准确度和应用场景。
如征信分析场景,各方数据有共同的ID作为样本特征。需求发起方(A方)利用这个ID样本特征,在安全计算环境下可以从多个数据提供方得到不同的镜像等价模型,进行优化自身模型。
如果业务场景允许,计算可以使用多个数据方愿意公布的特定样本特征,(即除ID外,更多元数据,例如增加数据的特征项,年龄)。数据提供方可以多方,即存在B方,C方,D方等等。
本发明的基本原理是需求发起方和数据提供方的采用安全计算环境为基础,通过机器学习方法计算生成镜像等效模型。通过镜像等效模型来实现自身样本特征的增加。
需求发起方和数据提供方,通过匿名ID碰撞,确定总体样本数据集合,通过匿名ID分层分组分析,在安全计算环境下与数据方联合生成或者选用数据方提供模型,需求发起方通过使用应用模型获得ID分析数据,得到分析数据再用于改进需求方自身模型。这样双方的模型和数据最大程度保持隔离,保证需求发起方的信息安全程度的同时,进而使用数据方的各种数据、算法资源。这样通过寻找发现双方的等效模型来等价实现数据维度的增加和扩容。
可以广泛应用于评分模型的生成,使用,改进,优化对照等,贷前,贷中,贷后各个环节。而且在过程中,除基本ID外没有任何交互任何信息,只有ID的集合在安全条件按下进行联合计算。当然在具体业务法规条件允许下,可以增加ID的种类,元数据的种类,以增加计算,分析效率和能力。
本方法流程稍微复杂,图3是基本流程,基本流程主要是描述处理过程,便于理解。
基本流程如下(两方计算,三种分组为例,更多参与方计算(例如3方,4方),其他数量分组(例如5层,20层分组)可以类推)。
第1步:A方作为需求发起方,确定需求目的,利用自身原有模型M(Base,A)对自己数据样本特征进行处理分析计算。
第2步:A方得到标签为第1,第2,第3的样本集合,(可以是更多种类的标签,如征信评估中分20层,也就是20种),每个样本集合含有一定数量的样本,每个样本集合中的样本拥有共同的标签。
第3步:A方把不同样本集合和总样本集合发送给B方,也就是大数据资源能力提供方(数据提供方)。(这是便于理解的描述,实际本发明中采用安全计算环境,A方不需要把数据样本传送给B方,只是通过安全计算环境下的联合计算就可以得到模型,达到此目的)
第4步:B方把A方的样本集合作为样本标签,结合B方自身的数据、模型、算法进行机器学习,生成的模型分别对应第1类标签模型M(1,B),第2类标签模型M(2,B),M(3,B)。(这是便于理解的描述,实际本发明中采用安全计算环境,A方不需要把数据样本传送给B方,只是通过安全计算环境下的联合计算就可以得到模型,达到此目的)
第5步:A方使用B方生成的模型:具体是用B方第1类标签模型M(1,B),对A方第2类样本集合、第3类样本集合进行处理分析得到第1类优化样本集合;用B方第2类标签模型M(2,B),对A方第1类样本集合、第3类样本集合进行处理分析得到第2类优化样本集合;用B方第3类标签模型M(3,B),对A方第1类样本集合、第2类样本集合进行处理分析得到第3类优化样本集合;这一步就是使用B方生成的模型,处理A方的样本数据,得到该标签的差别样本集合。反应了对于该标签两方数据的特征不一致导致的差别。相当于增加了数据处理的维度。(这也是便于理解的描述,实际本发明中采用安全计算环境,生成的模型始终处于安全计算环境,A方不需要把数据样本传送给B方,只是通过安全计算环境下的使用生成的模型,联合计算就可以达到此目的)
第6步:B方把得到优化样本集合传回给A方,A方结合自身第2步得到初始样本集合进行优化,得到优化后的第1类样本集合,第2类样本集合,第3类样本集合。(这也是便于理解的描述,安全计算的结果返回给A方)
第7步:优化后样本集合可以直接使用,或者结合A方数据的其他特征,改进原有模型(Base,A),得到改进后模型M(imp,A)模型。
上述流程可以完成工作,但是如果不采用安全计算技术会存在信息泄露,不能满足要求。
在理解基本流程基础上,本发明所涉及的安全计算环境下的流程如图4所示(以三种分组为例,其他数量分组可以类推),做到生成镜像等效模型,而过程中,需求发起方没有泄露关键重要信息。
第1步:A方作为需求发起方,和B方数据提供方(也可以称为大数据资源能力提供方,也可以有多个提供方,下面简称B方)在安全计算环境下进行样本的匿名碰撞,得到共同的参与数据样本集合。
本步骤在安全计算环境下进行,所有中间计算结果都是加密的,各方都无法获得。因为A方因为是需求发起方,可以作为被授权者获得碰撞结果,但是中间所有的数值都无法知晓。本步骤,A方得到参与数据样本集合,B方也会得到参与数据样本集合。A方B方的参与数据样本集合中的碰撞ID集合相同,但是B方的样本集合包括B方作为数据提供方包括样本ID的其他特征标签等数据内容。
可采用如下方式:多方安全计算,TEE计算方式,联邦学习方式,或各种方式组合。其中B方参与数据样本集合,根据业务要求保存在安全计算模块中,包括B方在内的各方都无法知道B方的哪些数据样本被碰撞。从而也保护了A方的秘密。根据业务要求A方需要看到碰撞结果。因此A方可以被安全计算环境授权看到结果)。本步骤如果不进行碰撞,后续分析效果会效果差。如果通过其他方式事先准备好,则可以跳过。
第2步:A方根据自身数据、业务要求生成模型,或利用选择自身原有的模型M(Base,A),对参与数据样本集合特征进行处理分析计算。例如:该模式是分层分组模型得到不同的ID分组样本集合,例如:分为3层。A方得到标签为第1,第2,第3的样本集合,(可以是更多种类的标签,如征信评估中分20层,也就是20种标签),每个样本集合含有一定数量的样本。每个样本集合中的样本拥有共同的标签。本步骤在A方内部完成,且没有涉及到其他方的数据。可以采用本地计算模块完成。
第3步:A方的使用上一步不同种类的样本结合和B方的参与数据样本集合,在安全计算环境下进行联合分析计算,完成机器学习,训练生成模型。
本步骤可以安全计算环境下完成。采用监督学习、半监督学习或者无监督学习方式。例如:采用SVM,逻辑回归和EM算法算法实现,得到模型就是在B方相当于A方的基础模型M(Base,A)的等效作用的模型。本步骤等可以理解为:把不同A方的标签样本集合和总样本集合发送给B方,在B方内用B方的样本特征进行机器学习,得到模型,这个模型就是B方的等效于A方的模型,但是由于采用安全计算模式B方不能知道具体样本和和生成的模型具体内容。从而达到了A方利用B方的数据,而却不让B方了解A方用了哪些B方数据和怎么使用的。
例如:安全计算环境下,A方三个标签为第1,第2,第3的样本集合和B方的参与数据样本集合,通过机器技术学习,会得到三个样本集合对应的1类标签的模型M(1.B),对应的2类标签的模型M(2.B),对应的3类标签的模型M(3.B)。
例如:可以采用TEE方式的安全计算环境,B方嵌入一个安全计算单元,用于训练模型,例如支持向量机(SVM)分类器。具体操作为:
A通过远程验证(remote attestation)的方式可以确定B中运行的TEE是否可靠,并且和安全计算单元建立安全信道。需要指出的是,虽然TEE在B中运行,但B并不可以获得TEE内的任何信息。如果B伪装或破坏安全单元,则A也可以通过远程验证立刻知晓,并终止服务。
通过了远程验证,TEE开始训练模型,最终得到分类器(例如SVM)。整个过程在TEE单元完成,不需要和外界联系。
最后,TEE通过安全信道通知A模型训练完毕,可以使用。需要强调的是,模型始终在TEE内,并不对外公布。
第4步:在安全计算环境下用第4步生成的模型对A方的样本集合进行分析处理计算。得到优化样本集合。
例如:用第3步得到第1类标签模型M(1,B),对A方第2类样本集合,第3类样本集合进行处理分析得到第1类优化样本集合;用B方第2类标签模型M(2,B),对A方第1类样本集合,第3类样本集合进行处理分析得到第2类优化样本集合;用B方第3类标签模型M(3,B),对A方第1类样本集合,第2类样本集合进行处理分析得到第3类优化样本集合;第1类优化样本集合,第2类优化样本集合第3类优化样本集合。
例如:采用多方安全计算方式,TEE计算方式,联邦学习方式,或者组合进行计算。
例如:紧接着上一步TEE的例子,此时模型已经训练完成。可以对上述分类要求在TEE内进行分类处理得到优化标签,其结果通过安全信道(A和TEE之间通过RA建立)发给A方做进一步后处理。最终,A得到了新的优化分类结果,但模型还在TEE中。这样,在A达到目的的同时,也保护了B的隐私。
第5步:A方结合自身第2步得到初始样本集合进行优化,得到优化后的第1类样本集合,第2类样本集合,第3类样本集合。本步骤全部在A方系统内进行,且没有涉及到其他方的数据。
第6步:优化后样本集合可以直接使用,或者结合A方数据的其他特征,改进原有模型(Base,A),得到改进后模型M(imp,A)模型。本步骤全部在A方系统内进行,且没有涉及到其他方的数据。
行为监测流程方式如图5所示,包括如下步骤:
第1步到第4步相同。
第5步:随着时间推移,A方的样本集合和第4步生成的模型定期在安全计算环境下进行测试,例如第1类样本集合用对应的1类标签的模型M(1.B)检测计算,第2类样本集合用对应的2类标签的模型M(2.B)检测计算,检测其对应关系是否保持。因为在安全计算环境下进行,B方并不知道具体的数据和结果。
具体实现可采用如下方式:方式1:采用多方安全计算方式;方式2采用TEE方式;方式3采用联邦学习方式。或者以上方式的组合。B方无法知道模型如何使用,输入和输出结果也不知道。
等价另外一种方式重新进行第3步生成新的对应标签模型,对比前后标签模型的差别。根据前后模型的差别,判断是否异常。
第6步:根据第5步的结果,根据预定义的业务规则采取行动:如改进模型,重新生成B方对应标签模型等等
另外一种流程方式如图6所示,包括:A方并不建立对应分类的模型,而是以自己的样本作为特征和数据提供方的样本特征联合机器学习计算。获得一个监控模型。这种流程下,第4步生成的模型,并不对用对应A方分类样本集合,而是根据B方的数据特征生成的模型,该模型用于后续的行为监控。
第1步到第4步相同。但第4步生成的模型并不和A方的对应,而是根据A方的样本数据集合作为特征,结合B方的样本数据特征生成的新模型。
第5步:A方的样本集合和第4步生成的模型定期在安全计算环境下进行测试,例如第1类样本集合用的X,Y,Z类标签的模型M(1.X,B),M(2,.Y,B),M(3.Y,B)检测计算,第2类样本集合用X,Y,Z类标签的模型M(1.X,B),M(2,.Y,B),M(3.Y,B)检测计),等等,得到结果,因为在安全计算环境下进行,B方并不知道具体的数据和结果。这里X,Y,Z只是为了表述方便,不一定是三个,可以是1个或更多。
具体实现可采用如下方式:方式1:采用多方安全计算方式;方式2采用TEE方式;方式3采用联邦学习方式。或者以上方式的组合。B方无法知道模型如何使用,输入和输出结果也不知道。
第6步:随着时间推移,根据业务要求重复第5步,
第7步:根据第6步的结果看计算每次计算结果是否存在差别,根据预定义的业务规则采取形容:如改进模型,重新生成B方标签模型等等。
等价另外一种方式,重新进行第3步生成新的标签模型,对比前后标签模型的差别。
优化流程:A方在进行初始的样本数据分组,分成两个集合:生成模型用样本集合,对比样本集合,这两个集合可以相同或部分重叠或不同。生成模型用样本集合参与和B方联合进行安全计算环境下的机器学习和模型生成改进,对比样本集合保持A方原有流程,定期进行效果比较和评估,以便于进行模型改进和应用。
进一步:A方对生成模型样本集合进行进一步分组,分成多组,这些集合可以相同或部分重叠或不同。例如:第一分组生成模型用样本集合参与和B方联合的模型改进,第二分组生成模型用样本参与和C方联合的模型,对和不同方生成的模型进行测试比较,定期进行效果比较和模型改进
进一步:A方在生成模型用方样本集合进行进一步分组,分为多个集合,这些集合可以相同或部分重叠或不同。例如:第一分组生成模型用样本集合参与和B方联合的模型改进,第二分组生成模型用样本参与和C方D方联合的模型对和不同方生成的模型进行测试比较,定期进行效果比较和模型改进,
A方在进行初始的样本数据分组的依据可以是随机,也可以是根据自身样本数据的特征,根据业务需求进行。
优化业务流程:多模型选择:在很多情况下B方数据方的数据特征丰富性可能会生成多个满足A方要求的模型,例如:对应的1类标签的模型M01(1.B),M02(1.B)等等,也可以是用多个模型(对应图4的应用场景)。A方对这些模型如何评价选择,可以用以下方法进行选择利用:
第1种方法,指定生成:A方需求方,指定要求使用B方的数据特征,例如:指定使用B方公布的数据特征,指定使用具有正态分布的特征,指定使用样本量大于5000个的特征。指定使用样本的时间特征。使用特定特征。该特征可以是B方的原始特征的组合特征。生成模型的类型。
第2种方法测试数据评价:A方需求方,在使用自己的初始模式生成样本集合,将此集合进行划分,划分为生成模型用样本集合,测试用样本集合,这两个集合可以相同或部分重叠或不同,样本数量也可以不同,分别用于和B方生成模型,测试和B方生成的模型。例如:对同一样本集合B方生成了四个模型,A方使用测试样本集合对这四个进行测试。根据测试结果选择特定模型的计算结果。
第3种方法,可以结合上述两种方法,进一步得到多个模型可以采用线性回归的方法综合利用多个模型的得到一种最终的模型。具体说初步计算得到了同时对应第1类标签的四个标签的模型,可以使用模型训练方法综合得到在一个最终使用的模型。
优化流程:在特定场景下,在合规合法的条件下:A方和B方,协商好采用特定B方的样本特征,来作为模型生成基础。特定场景下:A方和B方协商,允许生成模型,选择模型时候,人工参与模型的建立,选择样本特征,调整参数,选择模型。加快模型生成。
优化流程:进一步如果B方也不愿意让A方知道具体哪些样本,具体哪些特征,以及特征的使用方法。即要求样本的特征,样本标签对双方都保密,则在在做如下改进:
第1步:碰撞后的结果,也不对A方开放。碰撞后的A方的结果也保存在安全计算环境下。
第2步:在A方安全计算环境下进行。安全计算模块保存分类的样本集合。
第5,6步也A方的采用安全计算方式进行。标签模型的计算也保存在安全计算模块中。只有最后得使用结果A方才能看到。
和加密联邦学习的区别在于,每步骤都是通过唯一ID特征分类来进行模型生成。
优化流程:在特定场景下ABC多方如有一方ID标签(最基础的元数据)也不愿意泄露,可以匿名碰撞的方式进行,找到相同的ID标签(元数据)。以两方为例A方和B方,可以在安全计算环境下,采用自然语言理解以及数据特征的属性来进行ID特征匹配。即不同泄露ID的情况下,双方找到实质上相同ID。
具体方法如下:在可以在安全计算环境下对双方的样本特征进行自然语言理解,寻找一致的特征,对样本的特征的数值进行分布计算,寻找一致的分布。跟进业务场景,设计测试案例,对选择到的特征进行测试,以判断是否为可以作为可用的共同ID。如果符合要求则在安全计算环境下保存。以便后续计算采用。
接下来通过具体实施例在具体的应用场景中对本发明进行说明。
具体实施例1:
场景描述:A方不愿意让B方(以及C方等下同)知道A方用了具体哪些样本,具体哪些特征,以及特征的使用方法。具体是银行场景征信评分模型场景:银行不愿意泄露的需要任何样本特征。就是银行(也就是A方)不想让大数据公司(B方C方等)知道银行用了哪些大数据公司的特征,具体的使用方法更不能泄露,因为具体信息的泄露有可能会导致针对性的欺诈。这种场景就是希望使用别人数据,又不愿意告诉别人使用哪些,怎么使用。
例如:银行是A方,银行有一个用于信用卡申请的评分模型。这个模型是银行使用内部数据、内部算法得到的。这个模型不能满足更高的业务要求,因此需要改进,特别是如何利用外部数据合规情况下进行改进。过去的做法是买数据,此做法不合规,时效性差,现在采用本发明的方式进行。
基本实施流程如下:
银行方(A方)确定内部数据,目标确定。评价方法等业务要求以及A方的基础模型(根据原有资源得到),确定外部数据资源的合作伙伴B方(可以有多个数据资源方如B方,C方,D方,为了方便仅以B方C方为例)。
第1步:银行方A方选取一个ID样本集合和B方C方进行匿名碰撞(例如:银行A选择内部潜在数据ID集合20000个,经过碰撞后得到ID集合15000个,也就是说这15000个ID既存在于银行A,也存在于数据提供方B,还存在于数据提供方C),如果不进行碰撞,有可能计算量大,有效数据量很小,效果差。(这一步可选,也可以通过其他方式如业务商谈方式定好)
第2步:A方根据基础模型对潜在被评价数据样本进行分析计算,为简单起见分为2类,得到标签第1类的ID集合,标签第2类的ID集合。(比如:银行使用自己的模型对上述15000个选取,10000个潜在客户进行分类,得到第1类的ID客户7000个(申请通过),第2类的ID客户3000个(申请不通过),也可以分为多组,例如最优客户2000,中等客户3000,有风险客户3000,坏客户2000,为了方便起见分为两组描述,分组之间和总数不存在一定的总分关系,可以存在重叠关系)
第3步:A方把第1类的ID样本集合,第2类的ID样本集合作为样本特征和B方的数据样本在安全计算环境下进行联邦学习计算,得到模型:此模型是根据B方自己的数据样本特征生成的模型,为A方服务的等效模型,分别是对应第1类标签模型、对应第2类标签模型。例如数据提供方在加密环境下收到银行方的第1类ID样本集合7000个ID,第2类ID样本集合3000个,B方大数据怎对应有10000个ID样本,每个样本有时间,手机型号,IMEI,APP列表等直接特征,也有经过加工的组合特征。在加密环境下,采用机器学习的方式得到镜像等效模型,模型M(1.B),和M(2.B)。这些模型就是根据数据提供方B掌握的ID对应的其他标签或特征得到的模型算法,这些模型虽然全部采用B方的样本特征,但是却和A方的基础模型具有等效的功能,即可以从总体ID集合中10000个,得到第1类ID集合7000个,第2类ID集合3000个。这个称为镜像模型。可以采用非监督,半监督算法实现。生成的模型根据业务要求加密保存,这样数据方B方不知道的具体内容。模型可以是多个模型。可以采用前面的方法进行选择处理。
在安全计算环境下得到镜像模型M(1.B),和M(2.B)对A方的ID集样本合分别再处理。得到改进ID样本集合(例如:使用模型M(1.B)处理第2类ID样本集合,M(2.B)处理第1类ID样本集合,得到两组优化样本集合。
A方根据两组优化样本集合改进ID样本集合,以优化模型,方便后续使用。例如1银行得到的新的第1类ID样本集合+和新的第2类ID样本集合-直接使用或者作为模型改进的评判依据,A方在改进模型的时候虽然还是使用全部自己的样本特征,效果确实等价于包括B方数据模型的结果,也是镜像等效模型。
具体实施例2:用于行为监控
例如:银行是A方,银行已经向若干人授予了信用卡,需要即使了解被授予人的行为特征保证资金安全,那么如果能够即使发现相关人的反常则可以有效提供决策依据,保证资金安全或者争取跟多的收益。通常的用于信用卡的行为评分模型。这个模型是银使用内部数据、内部算法得到的。这个模型时效性差,无法充分利用外部数据,不能满足更高的业务要求,因此需要改进,特别是如何利用外部数据合规情况下进行改进。采用本发明的方案如下:
前三个步骤和实施例1类似,具体的数据内容不同,但是过程一样
第1步:和上面相同
第2步:和上面相同,通常会具有很多分层而不是两三层。为方便起见以2层为例描述。
第3步:和上面类似,生成对应ID样本集合的模型,该模型倾向于画像模型。
随着时间定期使用A方在安全计算环境下使用第三步的画像模型,根据画像模型计算结果进行处理。(例如,对已经发放贷款,发放信用卡的用户,定期采用B方画像模型进行检测。例如突然检测到其画像转换为不良。以便于采取措施。)
进一步A方可以进行分组,一组数据参与和数据方的联合计算,另外一组不参与,两组之间进行比较。
以上,通过具体的流程和实施例对本发明进行了进一步的说明。本发明的目的在于双方不透露各自标签,采用安全计算技术为基础,采用机器学习为基础手段,采用创新的数据处理流程技术,实现双方的数据资源的共享利用,具体的采用镜像模型实现。使得需求发起方,就是双方(或多方)只根据最简单的ID对应关系,通过不同ID集合的对应关系,利用自身的数据建立的模型一定程度上等价于外部数据建立的模型。
本发明的第三方面提供了一种联合数据分析系统,该系统包括:存储器以及一个或多个处理器;其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行,以使所述一个或多个处理器用于执行如前所述的方法。
本发明的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可操作来执行如前所述的方法。
综上所述,本发明涉及一种联合数据分析方法、装置、系统及计算机可读存储介质,该方法包括:需求发起方根据模型生成ID分组样本集合,数据提供方根据所述ID分组样本集合使用安全计算环境建立镜像等价模型,需求发起方可以使用数据提供方联合计算得到的模型进行分析样本,获得分析结果,即直接使用,或者根据等价模型改进自身原有模型。该方法通过镜像等价模型得到关联其多方的特征,在没有相互泄露数据的情况下扩展了分析维度,提高了分析精确度。
术语解释:
安全计算:联邦学习:一种多中心,多数据源的联合分析计算方法。
镜像模型(等效模型):两个不同的系统中,对类似的输入有类似的输出的对应模型。
样本:是指数据的特定实例:x。(采用粗体x表示它是一个矢量。)将样本分为以下两类:有标签样本、无标签样本,指的是用于进行分析的每条数据。
特征(feature):在进行预测时使用的输入变量。特征是输入变量,即简单线性回归中的x变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方式指定:
x1,x2,...xN
在垃圾邮件检测器示例中,特征可能包括:
电子邮件文本中的字词
发件人的地址
发送电子邮件的时段
电子邮件中包含“一种奇怪的把戏”这样的短语。
标签(label):标签指样本的“答案”或“结果”部分。有标签数据集中的每个样本都包含一个或多个特征以及一个标签。例如,在房屋数据集中,特征可能包括卧室数、卫生间数以及房龄,而标签则可能是房价。在垃圾邮件检测数据集中,特征可能包括主题行、发件人以及电子邮件本身,而标签则可能是“垃圾邮件”或“非垃圾邮件”。标签是要预测的事物,即简单线性回归中的y变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。
特征和标签是相对性的,作为学习过程的输入就是特征,作为模型计算结果就是标签。
模型(model):机器学习系统从训练数据学到的内容的表示形式。
模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。:是从大数据公司的各个数据的特征形成标签的算法计算就是模型,计算过程就是使用模型。
生成这个模型的过程就是机器学习,深度学习,或者研究人员研究。
机器学习的结果就是得到模型。
分桶(bucketing)分箱(binning),分类数据(categorical data):将一个特征(通常是连续特征)转换成多个二元特征(称为桶或箱),通常根据值区间进行转换。例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位,则可以将介于0.0到15.0度之间的所有温度都归入一个分箱,将介于15.1到30.0度之间的所有温度归入第二个分箱,并将介于30.1到50.0度之间的所有温度归入第三个分箱。
数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。分组层可能是简单的等分分组也可能是非常复杂的多因素分组。
非监督式机器学习(unsupervised machine learning):
训练模型,以找出数据集(通常是无标签数据集)中的规律。
非监督式机器学习最常见的用途是将数据分为不同的聚类,使相似的样本位于同一组中。例如,非监督式机器学习算法可以根据音乐的各种属性将歌曲分为不同的聚类。所得聚类可以作为其他机器学习算法(例如音乐推荐服务)的输入。在很难获取真标签的领域,聚类可能会非常有用。例如,在反滥用和反欺诈等领域,聚类有助于人们更好地了解相关数据。
非监督式机器学习的另一个例子是主成分分析(PCA)。例如,通过对包含数百万购物车中物品的数据集进行主成分分析,可能会发现有柠檬的购物车中往往也有抗酸药。
监督式机器学习(supervised machine learning):
根据输入数据及其对应的标签来训练模型。监督式机器学习类似于学生通过研究一系列问题及其对应的答案来学习某个主题。在掌握了问题和答案之间的对应关系后,学生便可以回答关于同一主题的新问题(以前从未见过的问题)。请与非监督式机器学习进行比较。
特征工程(feature engineering)指以下过程:确定哪些特征可能在训练模型方面非常有用,然后将日志文件及其他来源的原始数据转换为所需的特征。在TensorFlow中,特征工程通常是指将原始日志文件条目转换为tf.Example协议缓冲区。另请参阅tf.Transform。特征工程有时称为特征提取。
合成特征(synthetic feature):
一种特征,不在输入特征之列,而是从一个或多个输入特征衍生而来。合成特征包括以下类型:
对连续特征进行分桶,以分为多个区间分箱。
将一个特征值与其他特征值或其本身相乘(或相除)。
创建一个特征组合。
仅通过标准化或缩放创建的特征不属于合成特征。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (17)
1.一种联合数据分析方法,其特征在于,包括如下步骤:
需求发起方和数据提供方在安全计算环境下进行样本的匿名碰撞,得到共同的数据样本集合;
所述需求发起方根据预定需求生成模型或选择现有模型,对所述数据样本集合进行分析计算,得到ID分组样本集合;
数据提供方根据从需求发起方得到的所述ID分组样本集合,将所述样本集合作为样本标签,数据提供方在安全计算环境下结合己方的数据样本集合进行联合分析计算以训练生成对应的等效标签模型,所述等效标签模型与所述ID分组样本集合中的ID分组标签相对应;
数据提供方在安全计算环境下采用等效标签模型中各ID分组标签对应的模型对所述ID分组样本集合中不同于等效标签模型的ID分组标签的样本集合进行处理,得到ID分组标签的差别样本集合;
所述需求发起方在安全计算环境下使用所述标签的差别样本集合结合所述ID分组样本集合进行分析计算,得到优化的ID样本分组集合。
2.根据权利要求1所述的联合数据分析方法,其特征在于,还包括步骤:
所述需求发起方根据优化的ID样本分组集合对自己的模型进行改进,得到改进后的模型。
3.根据权利要求1或2所述的联合数据分析方法,其特征在于,所述ID分组样本集合包括分层分组的多个不同的ID分组样本集合,每组样本集合中的样本具有共同的标签,不同的样本集合对应不同的模型。
4.根据权利要求3所述的联合数据分析方法,其特征在于,所述需求发起方根据所述等效标签模型对所述ID分组样本集合进行分析处理,得到优化的ID样本分组集合,包括:
假定所述ID分组样本集合包括N组样本集合,N≥2;第k组样本集合对应第k个等效标签模型,k∈N;
使用第k个等效标签模型对除第k组样本集合以外的其他组样本集合进行计算,得到的数据添加到所述第k组样本集合中以优化所述第k组样本集合;
反复执行上一步直至所有的等效标签模型都经过计算以优化相应的样本集合。
5.根据权利要求4所述的联合数据分析方法,其特征在于,所述安全计算环境包括在数据提供方嵌入安全计算单元,使得在计算过程中数据提供方无法知晓数据使用情况,需求发起方也无法知晓等效标签模型。
6.根据权利要求5所述的联合数据分析方法,其特征在于,定期对所述等效标签模型进行更新,并对ID分组样本集合进行优化更新。
7.根据权利要求6所述的联合数据分析方法,其特征在于,将所述数据样本集合分成两个集合:生成模型用样本集合和对比样本集合,这两个集合相同或部分重叠或不同;
生成模型用样本集合参与和数据提供方进行安全计算环境下的等效标签模型生成和样本优化得到优化后的样本集合,对比样本集合进行需求发起方的模型计算得到样本集合,对两者进行效果比较和评估,以便于进一步优化模型。
8.根据权利要求7所述的联合数据分析方法,其特征在于,所述数据提供方包括多个,将所述生成模型用样本集合分成对应的多个以提供给多个所述数据提供方,或者将相同的所述生成模型用样本集合提供给多个所述数据提供方;
根据得到的优化的样本集合对不同数据提供方的等效标签模型进行比较和评估,以便于进一步优化模型。
9.一种联合数据分析装置,其特征在于,包括:
需求发起方:包括数据模块、模型模块、安全计算单元模块和本地计算单元模块;
数据提供方:包括数据模块、模型模块、安全计算单元模块和本地计算单元模块;
需求发起方的数据模块和数据提供方的数据模块在安全计算环境下进行样本的匿名碰撞,得到共同的数据样本集合;
需求发起方的模型模块根据预定需求生成模型或选择现有模型,计算单元模块对所述数据样本集合进行分析计算,得到ID分组样本集合;
数据提供方根据从需求发起方得到的所述ID分组样本集合,将所述样本集合作为样本标签,数据提供方在安全计算环境下结合己方的数据样本集合进行联合分析计算以训练生成对应的等效标签模型,所述等效标签模型与所述ID分组样本集合中的ID分组标签相对应;
数据提供方还在安全计算环境下采用等效标签模型中各ID分组标签对应的模型对所述ID分组样本集合中不同于等效标签模型的ID分组标签的样本集合进行处理,得到ID分组标签的差别样本集合;
所述需求发起方在安全计算环境下使用所述标签的差别样本集合结合所述ID分组样本集合进行分析计算,得到优化的ID样本分组集合;
需求发起方和数据提供方通过通信线路连接。
10.根据权利要求9所述的联合数据分析装置,其特征在于,还包括:
所述需求发起方根据优化的ID样本分组集合对模型进行改进,得到改进后的模型。
11.根据权利要求9或10所述的联合数据分析装置,其特征在于,所述ID分组样本集合包括分层分组的多个不同的ID分组样本集合,每组样本集合中的样本具有共同的标签,不同的样本集合对应不同的模型。
12.根据权利要求11所述的联合数据分析装置,其特征在于,所述需求发起方根据所述等效标签模型对所述ID分组样本集合进行分析处理,得到优化的ID样本分组集合,包括:
假定所述ID分组样本集合包括N组样本集合,N≥2;第k组样本集合对应第k个等效标签模型,k∈N;
使用第k个等效标签模型对除第k组样本集合以外的其他组样本集合进行计算,得到的数据添加到所述第k组样本集合中以优化所述第k组样本集合;
反复执行上一步直至所有的等效标签模型都经过计算以优化相应的样本集合。
13.根据权利要求12所述的联合数据分析装置,其特征在于,还包括更新单元,定期对所述等效标签模型进行更新,并对ID分组样本集合进行优化更新。
14.根据权利要求13所述的联合数据分析装置,其特征在于,所述需求发起方将所述数据样本集合分成两个集合:生成模型用样本集合和对比样本集合,这两个集合相同或部分重叠或不同;
生成模型用样本集合参与和数据提供方进行安全计算环境下的等效标签模型生成和样本优化得到优化后的样本集合,对比样本集合进行需求发起方的模型计算得到样本集合,对两者进行效果比较和评估,以便于进一步优化模型。
15.根据权利要求14所述的联合数据分析装置,其特征在于,所述数据提供方包括多个,将所述生成模型用样本集合分成对应的多个以提供给多个所述数据提供方,或者将相同的所述生成模型用样本集合提供给多个所述数据提供方;
根据得到的优化的样本集合对不同数据提供方的等效标签模型进行比较和评估,以便于进一步优化模型。
16.一种联合数据分析系统,其特征在于,该系统包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行,以使所述一个或多个处理器用于执行权利要求1-8任一项所述的方法。
17.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可操作来执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010946827.7A CN112231746B (zh) | 2020-09-10 | 2020-09-10 | 联合数据分析方法、装置、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010946827.7A CN112231746B (zh) | 2020-09-10 | 2020-09-10 | 联合数据分析方法、装置、系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231746A CN112231746A (zh) | 2021-01-15 |
CN112231746B true CN112231746B (zh) | 2024-02-02 |
Family
ID=74116139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010946827.7A Active CN112231746B (zh) | 2020-09-10 | 2020-09-10 | 联合数据分析方法、装置、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231746B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114121206B (zh) * | 2022-01-26 | 2022-05-20 | 中电云数智科技有限公司 | 一种基于多方联合k均值建模的病例画像方法及装置 |
CN114417361B (zh) * | 2022-03-31 | 2022-08-26 | 天聚地合(苏州)科技股份有限公司 | 基于区块链的跨域ai隐私计算的协商方法及系统 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650422A (zh) * | 2016-10-13 | 2017-05-10 | 中国科学院信息工程研究所 | 一种利用TrustZone技术防止第三方输入法敏感数据泄露的系统与方法 |
CN109033854A (zh) * | 2018-07-17 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 基于模型的预测方法和装置 |
EP3522056A1 (en) * | 2018-02-06 | 2019-08-07 | Nokia Technologies Oy | Distributed computing system for anonymized computation |
CN110232150A (zh) * | 2019-05-21 | 2019-09-13 | 平安科技(深圳)有限公司 | 一种用户数据分析方法、装置、可读存储介质及终端设备 |
CN110263575A (zh) * | 2019-06-21 | 2019-09-20 | 上海富数科技有限公司 | 基于哈希算法和会话控制实现数据融合及数据隐私保护的方法 |
CN110633805A (zh) * | 2019-09-26 | 2019-12-31 | 深圳前海微众银行股份有限公司 | 纵向联邦学习系统优化方法、装置、设备及可读存储介质 |
CN110751294A (zh) * | 2019-10-31 | 2020-02-04 | 深圳前海微众银行股份有限公司 | 联合多方特征数据的模型预测方法、装置、设备及介质 |
CN111027713A (zh) * | 2019-12-10 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 共享机器学习系统及方法 |
CN111104731A (zh) * | 2019-11-19 | 2020-05-05 | 北京集奥聚合科技有限公司 | 一种用于联邦学习的图形化模型全生命周期建模方法 |
CN111177762A (zh) * | 2019-12-30 | 2020-05-19 | 北京同邦卓益科技有限公司 | 一种数据处理方法、装置、服务器及联邦学习系统 |
CN111224986A (zh) * | 2020-01-07 | 2020-06-02 | 杭州宇链科技有限公司 | 一种基于可信执行环境的多方隐私计算系统 |
CN111382189A (zh) * | 2019-12-20 | 2020-07-07 | 厦门市美亚柏科信息股份有限公司 | 一种异源异构数据碰撞分析方法、终端设备及存储介质 |
CN111402068A (zh) * | 2020-02-22 | 2020-07-10 | 中国平安财产保险股份有限公司 | 基于大数据的保费数据分析方法、装置及存储介质 |
CN111461215A (zh) * | 2020-03-31 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 业务模型的多方联合训练方法、装置、系统及设备 |
CN111488995A (zh) * | 2020-04-08 | 2020-08-04 | 北京字节跳动网络技术有限公司 | 用于评估联合训练模型的方法和装置 |
CN111553483A (zh) * | 2020-04-30 | 2020-08-18 | 同盾控股有限公司 | 基于梯度压缩的联邦学习的方法、装置及系统 |
CN111563280A (zh) * | 2020-05-06 | 2020-08-21 | 杭州锘崴信息科技有限公司 | 安全计算系统及其工作方法 |
US10769167B1 (en) * | 2019-12-20 | 2020-09-08 | Lifebit Biotech Limited | Federated computational analysis over distributed data |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11003793B2 (en) * | 2018-02-22 | 2021-05-11 | International Business Machines Corporation | Identification of optimal data utility-preserving anonymization techniques by evaluation of a plurality of anonymization techniques on sample data sets that correspond to different anonymization categories |
SG11202010188PA (en) * | 2018-05-28 | 2020-11-27 | Royal Bank Of Canada | System and method for secure electronic transaction platform |
CN111460453B (zh) * | 2019-01-22 | 2023-12-12 | 百度在线网络技术(北京)有限公司 | 机器学习训练方法、控制器、装置、服务器、终端和介质 |
-
2020
- 2020-09-10 CN CN202010946827.7A patent/CN112231746B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650422A (zh) * | 2016-10-13 | 2017-05-10 | 中国科学院信息工程研究所 | 一种利用TrustZone技术防止第三方输入法敏感数据泄露的系统与方法 |
EP3522056A1 (en) * | 2018-02-06 | 2019-08-07 | Nokia Technologies Oy | Distributed computing system for anonymized computation |
CN109033854A (zh) * | 2018-07-17 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 基于模型的预测方法和装置 |
CN110232150A (zh) * | 2019-05-21 | 2019-09-13 | 平安科技(深圳)有限公司 | 一种用户数据分析方法、装置、可读存储介质及终端设备 |
CN110263575A (zh) * | 2019-06-21 | 2019-09-20 | 上海富数科技有限公司 | 基于哈希算法和会话控制实现数据融合及数据隐私保护的方法 |
CN110633805A (zh) * | 2019-09-26 | 2019-12-31 | 深圳前海微众银行股份有限公司 | 纵向联邦学习系统优化方法、装置、设备及可读存储介质 |
CN110751294A (zh) * | 2019-10-31 | 2020-02-04 | 深圳前海微众银行股份有限公司 | 联合多方特征数据的模型预测方法、装置、设备及介质 |
CN111104731A (zh) * | 2019-11-19 | 2020-05-05 | 北京集奥聚合科技有限公司 | 一种用于联邦学习的图形化模型全生命周期建模方法 |
CN111027713A (zh) * | 2019-12-10 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 共享机器学习系统及方法 |
CN111382189A (zh) * | 2019-12-20 | 2020-07-07 | 厦门市美亚柏科信息股份有限公司 | 一种异源异构数据碰撞分析方法、终端设备及存储介质 |
US10769167B1 (en) * | 2019-12-20 | 2020-09-08 | Lifebit Biotech Limited | Federated computational analysis over distributed data |
CN111177762A (zh) * | 2019-12-30 | 2020-05-19 | 北京同邦卓益科技有限公司 | 一种数据处理方法、装置、服务器及联邦学习系统 |
CN111224986A (zh) * | 2020-01-07 | 2020-06-02 | 杭州宇链科技有限公司 | 一种基于可信执行环境的多方隐私计算系统 |
CN111402068A (zh) * | 2020-02-22 | 2020-07-10 | 中国平安财产保险股份有限公司 | 基于大数据的保费数据分析方法、装置及存储介质 |
CN111461215A (zh) * | 2020-03-31 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 业务模型的多方联合训练方法、装置、系统及设备 |
CN111488995A (zh) * | 2020-04-08 | 2020-08-04 | 北京字节跳动网络技术有限公司 | 用于评估联合训练模型的方法和装置 |
CN111553483A (zh) * | 2020-04-30 | 2020-08-18 | 同盾控股有限公司 | 基于梯度压缩的联邦学习的方法、装置及系统 |
CN111563280A (zh) * | 2020-05-06 | 2020-08-21 | 杭州锘崴信息科技有限公司 | 安全计算系统及其工作方法 |
Non-Patent Citations (4)
Title |
---|
巴塞尔银行监管委员会.《巴塞尔银行监管委员会文献汇编》.中国金融出版社,2002,第336页. * |
熊赟等.《大数据挖掘》.上海科学技术出版社,2016,第139-140页. * |
生物医疗大数据隐私与安全保护的应对策略与技术;窦佐超,汪诚弘,邓杰仁,郑灏,谢康,沈百荣,王爽;《中华医学图书情报杂志》;第第28卷卷(第第11期期);第11-15页 * |
韩海庭 ; 吴晖 ; 孙圣力 ; 屈秀伟.现代计算理论在征信领域的应用研究.《征信》.2020,第14-21页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112231746A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Osmani et al. | Blockchain for next generation services in banking and finance: cost, benefit, risk and opportunity analysis | |
Pourhabibi et al. | Fraud detection: A systematic literature review of graph-based anomaly detection approaches | |
Weber et al. | Scalable graph learning for anti-money laundering: A first look | |
Wang et al. | A review on graph neural network methods in financial applications | |
WO2020253358A1 (zh) | 业务数据的风控分析处理方法、装置和计算机设备 | |
Jain et al. | Accuracy enhancement in machine learning during blockchain based transaction classification | |
Miglani et al. | Blockchain management and machine learning adaptation for IoT environment in 5G and beyond networks: A systematic review | |
Nguyen et al. | Autogan-based dimension reduction for privacy preservation | |
CN112231746B (zh) | 联合数据分析方法、装置、系统及计算机可读存储介质 | |
WO2021189926A1 (zh) | 业务模型训练方法、装置、系统及电子设备 | |
Budak et al. | Evaluation of the impact of blockchain technology on supply chain using cognitive maps | |
CN113361962A (zh) | 基于区块链网络识别企业风险性的方法及装置 | |
Śmietanka et al. | Algorithms in future insurance markets | |
CN111383113A (zh) | 可疑客户预测方法、装置、设备及可读存储介质 | |
Saito et al. | Improving lime robustness with smarter locality sampling | |
He et al. | A privacy-preserving decentralized credit scoring method based on multi-party information | |
Cheng et al. | Regulating systemic crises: Stemming the contagion risk in networked-loans through deep graph learning | |
Goyal et al. | Detection of fake accounts on social media using multimodal data with deep learning | |
Qayyum et al. | FRD-LSTM: a novel technique for fake reviews detection using DCWR with the Bi-LSTM method | |
Khati et al. | Non-fungible tokens applications: A systematic mapping review of academic research | |
Wang et al. | Caesar: An online payment anti-fraud integration system with decision explainability | |
Yang et al. | Achieving privacy-preserving cross-silo anomaly detection using federated XGBoost | |
CN114493850A (zh) | 基于人工智能的在线公证方法、系统及存储介质 | |
Sundaram et al. | Supply chain management finance application in bank official website using blockchain | |
Jayakumar et al. | Design of mutual trust between the IoT nodes using adaptive network-based fuzzy inference system in edge computing systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |