CN117828662A - 一种基于隐私计算技术数据安全的风控审批方法及系统 - Google Patents
一种基于隐私计算技术数据安全的风控审批方法及系统 Download PDFInfo
- Publication number
- CN117828662A CN117828662A CN202311845487.9A CN202311845487A CN117828662A CN 117828662 A CN117828662 A CN 117828662A CN 202311845487 A CN202311845487 A CN 202311845487A CN 117828662 A CN117828662 A CN 117828662A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- approval
- privacy
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000005516 engineering process Methods 0.000 title claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000011217 control strategy Methods 0.000 claims abstract description 16
- 230000000694 effects Effects 0.000 claims abstract description 15
- 238000012502 risk assessment Methods 0.000 claims abstract description 14
- 230000006399 behavior Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 32
- 238000012550 audit Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 17
- 230000006854 communication Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 11
- 230000035945 sensitivity Effects 0.000 claims description 11
- 238000013480 data collection Methods 0.000 claims description 10
- 238000000586 desensitisation Methods 0.000 claims description 10
- 238000013179 statistical model Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000013503 de-identification Methods 0.000 claims description 4
- 238000012552 review Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000011049 filling Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000002955 isolation Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 8
- 238000011835 investigation Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Landscapes
- Storage Device Security (AREA)
Abstract
本发明提出一种基于隐私计算技术数据安全的风控审批方法及系统,包括:对敏感数据进行加密处理;建立完善的数据权限审批流程,对加密后的数据的访问和使用,针对不同数据,定义相应的使用范围和约束条件;定期对数据使用记录进行审计,并及时发现和纠正任何潜在的违规行为或安全风险;建立风险评估模型,使用加密后的数据对模型进行训练,评估模型效果;步骤5:当进行审批时,系统从数据源提供侧获取到进件信息的加密数据,使用模型效果已呈收敛的模型进行模型预测,得到对应的模型分数,结合所给予的风控策略进行判定,实现相对安全的自动审批。确保数据安全隔离的前提下进行数据共享应用,进而完成在线交易中的大数据风控审批决策。
Description
技术领域
本发明涉及金融科技领域,尤其涉及一种基于隐私计算技术数据安全的风控审批方法及系统。
背景技术
在金融风控领域场景中,客户征信和外部资信数据源极其重要,是线上消费信贷的风控决策的核心要素,不可或缺。但在助贷等多种业务模式中,银行等资方机构往往不掌握客户的资信数据,需要从助贷平台或合作金融机构侧获取,但受限于监管条例和隐私保护法规等制约,以往通过API接口等形式的数据获取方式不再合规。
随着关于征信业务管理办法等相关文件陆续出台,对于居民个人人行征信信息管理日益合规。鉴于此背景,在开展助贷业务中涉及到查询获取的客户人行征信报告、网络行为等征信信息,需使用由监管机构认可的隐私计算方式进行传输使用,在确保数据安全、客户隐私不泄露前提下,解决征信数据共享、风控决策、大数据模型运算等风控领域隐私数据应用问题。
发明内容
本发明提供一种基于隐私计算技术数据安全的风控审批方法及系统,采用去中心化的联邦学习架构,使各参与客户端可以直接通信,不需要借助第三方(服务器),训练全局模型的任务是由某一个参与方发起,且当其他参与方对模型进行训练后,各参与方需要将其本地模型加密传输给其余参与方。
根据本发明的第一方面,本发明提供一种基于隐私计算技术数据安全的风控审批方法,包括以下步骤:
步骤1:对敏感数据进行加密处理;
步骤2:建立完善的数据权限审批流程,对加密后的数据的访问和使用,针对不同数据,定义相应的使用范围和约束条件;
步骤3:建立完整的记录和审计机制,记录包括数据调用者、访问时间、访问目的相关信息,定期对数据使用记录进行审计,并及时发现和纠正任何潜在的违规行为或安全风险;
步骤4:使用已授权的加密数据,结合实际业务及业务经验,选择机器学习算法或统计模型来建立风险评估模型,使用加密后的数据对模型进行训练,评估模型效果;
步骤5:当进行审批时,系统从数据源提供侧获取到进件信息的加密数据,使用步骤4中模型效果已呈收敛的模型进行模型预测,得到对应的模型分数,结合所给予的风控策略进行判定,实现相对安全的自动审批。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选地,步骤1中,所述对敏感数据进行加密处理包括:
1.1.传输层加密:通过使用传输层安全协议对数据进行端到端的加密,在数据从客户端发送到服务器的过程中,采用安全的通信通道,使用加密算法对数据进行加密,防止中间人攻击或窃听;
1.2.存储层加密:对数据在存储介质上的存储进行加密,使用对称加密算法或非对称加密算法对存储的数据进行加密;
1.3.数据字段加密:使用加密技术对敏感数据进行加密处理,对个人身份信息和其他敏感信息进行匿名化处理,通过去标识化、数据脱敏、数据聚合手段来降低数据的敏感性,保护个人隐私。
可选地,步骤1.1中,所述通过使用传输层安全协议对数据进行端到端的加密包括:
1.1.1.建立连接:客户端向服务器发起连接请求,服务器响应并返回其公钥证书;
1.1.2.验证证书:客户端验证服务器发送的证书,通过检查证书颁发者的信任链、证书是否过期以及域名是否匹配;
1.1.3.协商密钥:一旦证书验证通过,客户端和服务器之间开始TLS握手过程,协商出对称密钥,用于后续的加密通信;
1.1.4.数据传输:一旦握手完成,客户端和服务器可以使用协商好的对称密钥对通信数据进行加密和解密,确保端到端的数据传输安全。
可选地,步骤2中,所述建立完善的数据权限审批流程包括:
2.1.数据收集与匿名化:用户提交审批申请时,系统收集所需数据,在数据收集阶段,对个人身份信息进行匿名化处理,将具体的个人身份信息与数据分离,以降低数据的敏感性,同时确保数据可用;
2.2.隐私计算审批模型构建:基于差分隐私技术或同态加密隐私计算技术,构建审批模型,确保在审批过程中不会泄露用户的原始数据和计算结果;
2.3.审批模型训练与部署:在经过足够多样化的数据上训练审批模型,确保模型能够有效地评估不同类型的审批申请;训练完成后,将模型部署到审批系统中供实际使用;
2.4.安全的数据访问与权限控制:通过建立数据访问权限控制机制,让只有授权的人员才能访问特定数据,并且需要进行严格的身份验证;同时记录数据的访问和使用情况,以便进行审计和追溯,确保数据不被滥用和泄露;
2.5.审批结果反馈:审批系统根据隐私计算审批模型的评估结果,生成审批结果并反馈给申请人。在此过程中,需要确保审批结果不会泄露敏感信息。
可选地,步骤3中,所述建立完整的记录和审计机制包括:风控策略发布:在进行数据处理和计算之前,对数据访问和使用的规则和约束进行定义和发布,保护用户隐私,并确保数据处理和计算操作符合法律法规和道德标准。
可选地,所述风控策略包括:
3.1.数据使用规定:明确规定数据的使用范围,包括哪些实体有权访问数据、数据可以用于哪些特定目的以及不得用于哪些目的;
3.2.访问控制:定义访问控制规则,指定谁有权访问数据,以及在什么条件下可以访问数据,通过访问权限、身份验证、审计日志方式来实现;
3.3.数据处理规范:定义数据处理的规范和标准,包括对数据进行加密、脱敏、匿名化处理方式的要求,以确保在数据处理过程中保护用户隐私;
3.4.数据共享规则:定义数据共享的规则,明确数据可以与哪些实体共享,共享的方式和条件,同时也规定共享后的使用限制。
可选地,步骤4中,在建立模型的过程中,需要考虑到数据的不平衡性、模型的泛化能力以及隐私保护的要求;包括以下步骤:
4.1.模型数据收集:首先需要收集相关的数据,这些数据包括个人信息、交易记录、行为数据,确保采集的数据符合隐私政策和法律法规,并且能够用于分析和建模;
4.2.数据预处理:对收集的数据进行清洗、去重、填充缺失值的预处理工作,以确保数据的质量和完整性;考虑到敏感数据进行隐私保护,采用加密、脱敏或者匿名化手段;
4.3.特征工程:在数据预处理后,进行特征工程,从原始数据中提取出对建立风险评估模型有意义的特征;
4.4.建立模型:选择机器学习算法或统计模型来建立风险评估模型;模型包括逻辑回归、决策树、随机森林、支持向量机,在建立模型的过程中,需要考虑到数据的不平衡性、模型的泛化能力以及隐私保护的要求;
4.5.模型评估:建立模型后,对其进行评估,使用交叉验证、ROC曲线、精确率-召回率曲线指标来评估模型的性能;
4.6.部署和监控:当模型建立并通过评估后,将其部署到实际的系统中,同时建立监控机制,定期监测模型的表现,并及时调整和更新模型以应对新的风险和异常情况。
可选地,所述步骤4.5中,使用交叉验证、ROC曲线、精确率-召回率曲线指标来评估模型的性能包括:
计算真正例率、计算假正例率,绘制ROC曲线,横轴是FPR,纵轴是TPR,通过计算曲线下面积AUC-ROC来量化模型性能,AUC值越高,模型性能越好;其中,真正例率是指正类别样本中被正确预测为正例的比例,也称为灵敏度或召回率;假正例率是指负类别样本中被错误预测为正例的比例。
可选地,所述步骤5包括:
5.1.访问控制:建立严格的访问控制机制,只有经过授权的人员才能够访问和使用数据,确保未经授权的人员无法获取敏感数据;
5.2.审批流程:建立数据使用审批流程,确保所有对敏感数据的使用都必须经过严格的审批程序,根据数据使用的具体目的、使用范围、使用时限等进行粒度划分,以便核查数据使用是否符合规定;
5.3.数据使用记录与审计:对数据使用情况进行记录和审计,确保能够对每一次数据使用操作进行追溯和核查,记录包括谁、何时、以及为何目的使用了数据,以便于监管部门或内部审计部门进行核查;
5.4.数据使用限制:在数据使用时可以采取技术手段对数据的使用进行限制,例如对数据进行匿名化处理、设定访问权限和使用时段方式来限制数据的使用范围和时效性;
5.5.合规审查与监测:定期进行数据使用的合规审查和监测,确保数据使用行为符合相关法律法规和内部政策,及时发现并纠正可能存在的违规行为。
根据本发明的第二方面,提供一种基于隐私计算技术数据安全的风控审批系统,包括:
数据加密模块,用于对敏感数据进行加密处理,确保数据在传输和存储过程中的安全性;
数据审批模块,用于建立完善的数据权限审批流程,对加密后的数据的访问和使用,针对不同数据,定义相应的使用范围和约束条件;
策略发布模块,用于建立完整的记录和审计机制,确保数据使用的可追溯性和透明性;记录包括数据调用者、访问时间、访问目的相关信息,定期对数据使用记录进行审计,并及时发现和纠正任何潜在的违规行为或安全风险;
模型建立模块,用于使用已授权的加密数据,结合实际业务及业务经验,选择机器学习算法或统计模型来建立风险评估模型,使用加密后的数据对模型进行训练,评估模型效果;
数据核查模块,用于在进行审批时,系统从数据源提供侧获取到进件信息的加密数据,使用模型效果已呈收敛的模型进行模型预测,得到对应的模型分数,结合所给予的风控策略进行判定,实现相对安全的自动审批。
本发明的技术效果和优点:
本发明公开了一种基于隐私计算技术数据安全的风控审批方法及系统,提供了一种基于隐私计算技术,确保数据安全隔离的前提下进行数据共享应用,进而完成在线交易中的大数据风控审批决策。
附图说明
图1为本发明实施例提供的风控准入审核流程图;
图2为本发明实施例提供的去中心化结构图。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
在本实施例中,数据源侧的处理:资信原始数据在数据源侧进行数据的加工,从原始数据加工成风控策略和模型所需要的特征变量,再进行加密处理(对称加密),然后上传平台,将加密后的密文数据进行进一步的同态加密处理。
数据使用方侧的处理:在系统页面进行风控规则的配置和模型的上传,将其中的关键部分进行和数据源侧同样的对称加密和同态加密处理,确保规则阈值和和模型算法核心无法被破解。
系统提供api接口,数据使用方可以实时调用,获取策略和模型的计算结果,整个业务流程中,数据使用方不接触原始数据和中间结果数据,同时策略和模型的内容也不透露个对方。
基于背景技术中的问题,本发明提供了一种基于隐私计算技术数据安全的风控审批方法,具体参考如图1所示,所述方法包括以下步骤:
步骤1:使用加密技术对敏感数据进行加密处理,确保数据在传输和存储过程中的安全性;
上述技术方案中,所述对敏感数据进行加密处理包括:在传输各环节进行完善的加密。包括传输层、存储层、数据字段、端到端、访问权限;其分别如下:
1.1传输层加密:
通过使用传输层安全协议(例如SSL/TLS)对数据进行端到端的加密,确保数据在网络传输过程中的机密性和完整性。在数据从客户端发送到服务器的过程中,采用安全的通信通道,使用加密算法对数据进行加密,防止中间人攻击或窃听。具体包括:
1.1.1建立连接:
客户端向服务器发起连接请求,服务器响应并返回其公钥证书。
1.1.2验证证书:
客户端验证服务器发送的证书,确保其合法性。通过检查证书颁发者的信任链、证书是否过期以及域名是否匹配等。
1.1.3协商密钥:
一旦证书验证通过,客户端和服务器之间开始TLS握手过程,协商出对称密钥(Session Key),用于后续的加密通信。
1.1.4数据传输:
一旦握手完成,客户端和服务器可以使用协商好的对称密钥对通信数据进行加密和解密,确保端到端的数据传输安全。
1.2存储层加密:
对数据在存储介质上的存储进行加密,确保数据在存储过程中的安全性。
可以使用对称加密算法(如AES)或非对称加密算法(如RSA)对存储的数据进行加密。
1.3数据字段加密:
使用加密技术对敏感数据进行加密处理、预处理阶段。
数据匿名化:在数据收集阶段,对个人身份信息和其他敏感信息进行匿名化处理。通过去标识化、数据脱敏、数据聚合等手段来实现,以降低数据的敏感性,保护个人隐私。
去标识化(De-identification):删除或替换数据中可以直接或间接识别个人身份的信息来降低数据的敏感性。例如,将姓名、身份证号码、电话号码等个人身份信息删除或替换为匿名编码,使得无法直接关联到具体个人。
数据脱敏(Data Masking):将敏感信息转换为不可逆的、难以还原的形式的处理方法。例如,对于电话号码可以进行部分隐藏,只显示前几位或后几位;对于日期可以进行泛化处理,只保留年份或月份而不显示具体日期。
数据聚合(Data Aggregation):将原始数据进行汇总和统计,通过合并数据记录或者提取数据的统计特征,降低个体识别的可能性。例如,将具体身高转换为身高范围(如“160-165cm”),从而隐藏个人的具体信息。
差分隐私保护:对于敏感数据,可以考虑应用差分隐私技术,通过向数据添加噪音的方式来保护个体隐私。这样可以在一定程度上防止针对个体的隐私推断攻击。
数据加密:对于特别敏感的数据,在收集后可以立即进行加密处理。采用对称加密或非对称加密算法对数据进行加密,以确保数据在存储和处理过程中的安全性。
数据质量检验:对收集的数据进行质量检验,包括数据完整性、一致性和准确性等方面的验证,以确保建立在这些数据基础上的风险评估结果的可靠性。
数据去重和融合:在多个参与方提供数据的情况下,考虑数据去重和融合的问题,避免重复数据影响审批结果,并确保数据在合并过程中的隐私和安全。通过对个别敏感字段进行加密,可以在数据存储过程中将部分敏感信息保护起来,即使数据库被盗,也能减少敏感信息的泄露风险。
1.4端到端加密:
采用端到端加密的方式,确保数据在整个计算过程中的安全性。数据在输入、计算和输出阶段都进行加密,只有授权的用户才能解密和获取明文结果,保护数据隐私。
步骤2:建立完善的数据权限审批流程,对加密后的数据的访问和使用,针对不同数据,定义相应的使用范围和约束条件,保证数据的使用安全;
上述技术方案中,建立完善的数据权限审批流程具体包括:
2.1数据收集与匿名化:
用户提交审批申请时,系统将收集所需数据,如申请人身份信息、申请内容等。在数据收集阶段,对个人身份信息进行匿名化处理,将具体的个人身份信息与数据分离,以降低数据的敏感性,同时确保数据可用性。
2.2隐私计算审批模型构建:
基于差分隐私技术或同态加密等隐私计算技术,构建审批模型,确保在审批过程中不会泄露用户的原始数据和计算结果。案例如下:
输入:数据集DA和DB.
输出:DA∩DB.
1.B公司根据FHE方案生成公私钥对.
2.B公司对集合DB中的元素进行加密,得到密文集合并将其发给A公司.得到密文集合{c,c,…,c,}并将其发给A公司
3.A公司对每个密文ci进行如下操作:1随机产生非零随机数riεZn;
计算di=ri∏x∈S(ci-x).A公司将集合{d1,d2,…,d}发送给B公司
4.B公司对{d1,d2,…,d}进行解密,解密为0的元素就是交集中的元素.
2.3审批模型训练与部署:
在经过足够多样化的数据上训练审批模型,以确保模型能够有效地评估不同类型的审批申请。训练完成后,将模型部署到审批系统中供实际使用。
2.4安全的数据访问与权限控制:
通过建立数据访问权限控制机制,让只有授权的人员才能访问特定数据,并且需要进行严格的身份验证。同时记录数据的访问和使用情况,以便进行审计和追溯,确保数据不被滥用和泄露。
2.5审批结果反馈:
审批系统根据隐私计算审批模型的评估结果,生成审批结果并反馈给申请人。在此过程中,需要确保审批结果不会泄露敏感信息。
步骤3:建立完整的记录和审计机制,记录包括数据调用者、访问时间、访问目的相关信息,定期对数据使用记录进行审计,并及时发现和纠正任何潜在的违规行为或安全风险;
上述技术方案中,所述建立完整的记录和审计机制包括:风控策略发布:在进行数据处理和计算之前,对数据访问和使用的规则和约束进行定义和发布,保护用户隐私,并确保数据处理和计算操作符合法律法规和道德标准。
上述技术方案中,策略发布具体包括:
3.1数据使用规定:
明确规定数据的使用范围,包括哪些实体有权访问数据、数据可以用于哪些特定目的以及不得用于哪些目的等。
3.2访问控制:
定义访问控制规则,指定谁有权访问数据,以及在什么条件下可以访问数据。通过访问权限、身份验证、审计日志等方式来实现。
3.3数据处理规范:
定义数据处理的规范和标准,包括对数据进行加密、脱敏、匿名化等处理方式的要求,以确保在数据处理过程中保护用户隐私。
3.4数据共享规则:
定义数据共享的规则,明确数据可以与哪些实体共享,共享的方式和条件,同时也规定了共享后的使用限制。
步骤4:使用已授权的加密数据,结合实际业务及业务经验,选择机器学习算法或统计模型来建立风险评估模型,使用加密后的数据对模型进行训练,评估模型效果;
上述技术方案中,在建立模型的过程中,需要考虑到数据的不平衡性、模型的泛化能力以及隐私保护的要求;包括以下步骤:
4.1模型数据收集:
首先需要收集相关的数据,这些数据可能包括个人信息、交易记录、行为数据等。确保采集的数据符合隐私政策和法律法规,并且可以用于分析和建模。
4.2数据预处理:
对收集的数据进行清洗、去重、填充缺失值等预处理工作,以确保数据的质量和完整性。考虑到敏感数据进行隐私保护,可以采用加密、脱敏或者匿名化等手段。
4.3特征工程:
在数据预处理后,进行特征工程,从原始数据中提取出对建立风险评估模型有意义的特征。涉及到特征选择、特征变换、特征组合等步骤。
特征选择(Feature Selection):
过滤式特征选择:使用统计指标(如相关性、方差等)对特征进行排名,然后选择排名靠前的特征或基于机器学习模型的性能,逐步选择最佳特征子集。
特征变换(Feature Transformation):
标准化/归一化:将特征缩放到相似的尺度,例如使用Z-score标准化或Min-Max归一化。
多项式特征:通过多项式变换生成新的特征,扩展特征空间以增加非线性拟合能力。
主成分分析(PCA):通过线性变换将原始特征投影到新的特征空间,以减少维度并保留最重要的信息。
特征组合(Feature Combination):
交叉特征:通过组合两个或多个特征来创建新的特征,例如使用乘积、求和或其他方式进行组合。
文本特征处理:对文本型特征进行分词、提取关键词、计算TF-IDF等方式进行特征组合。
4.4建立模型:
选择适当的机器学习算法或统计模型来建立风险评估模型。常见的模型包括逻辑回归、决策树、随机森林、支持向量机等。在建立模型的过程中,需要考虑到数据的不平衡性、模型的泛化能力以及隐私保护的要求。
4.5模型评估:
建立模型后,对其进行评估,使用交叉验证、ROC曲线、精确率-召回率曲线等指标来评估模型的性能。步骤如下:
1、计算真正例率(True Positive Rate,Sensitivity):
真正例率是指正类别样本中被正确预测为正例的比例,也称为灵敏度或召回率。
True Positive Rate(TPR)=(True Positives)/(True Positives
+False Negatives)
2、计算假正例率(False Positive Rate,FPR):
假正例率是指负类别样本中被错误预测为正例的比例。
False Positive Rate(FPR)=(False PositivesFals)/(False
Positives+True Negatives)
参数说明:
True Positives(真正例)是模型正确预测为正例的样本数量。
False Negatives(假负例)是模型将实际正例错误预测为负例的样本数量。
绘制ROC曲线,横轴是FPR,纵轴是TPR。通过计算曲线下面积(AUC-ROC)
来量化模型性能,AUC值越高,模型性能越好。
4.6部署和监控:
当模型建立并通过评估后,可以将其部署到实际的系统中。同时建立监控机制,定期监测模型的表现,并及时调整和更新模型以应对新的风险和异常情况。
步骤5:当进行审批时,系统从数据源提供侧获取到进件信息的加密数据,使用步骤4中模型效果已呈收敛的模型进行模型预测,得到对应的模型分数,结合所给予的风控策略进行判定,实现相对安全的自动审批。
上述技术方案中,数据使用核查具体包括:
5.1访问控制:
建立严格的访问控制机制,只有经过授权的人员才能够访问和使用数据。这可以通过身份认证、权限管理等方式来实现,确保未经授权的人员无法获取敏感数据。
5.2审批流程:
建立数据使用审批流程,确保所有对敏感数据的使用都必须经过严格的审批程序。根据数据使用的具体目的、使用范围、使用时限等信息进行粒度划分,以便核查数据使用是否符合规定。
5.3数据使用记录与审计:
对数据使用情况进行记录和审计,确保能够对每一次数据使用操作进行追溯和核查。记录包括谁、何时、以及为何目的使用了数据,以便于监管部门或内部审计部门进行核查。
5.4数据使用限制:
在数据使用时可以采取技术手段对数据的使用进行限制,例如对数据进行匿名化处理、设定访问权限和使用时段等方式来限制数据的使用范围和时效性。
5.5合规审查与监测:
定期进行数据使用的合规审查和监测,确保数据使用行为符合相关法律法规和内部政策,及时发现并纠正可能存在的违规行为。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
为快速构架一套完善的基于隐私计算技术数据安全的风控审批系统,本发明实施例采用FATE框架来实现前文所述功能。FATE是一个成熟且完善的联邦学习框架,旨在提供安全、可控、高效的联邦学习解决方案,其允许多个参与方(可能是不同的设备、组织或服务器)在不共享原始数据的情况下协同训练机器学习模型。为简化流程,使用docker部署FATE各组件,以下对各组件作用作出简述:
Fate-Flow:流程管理模块,负责整个计算过程的协调和管理。
Fate-Manager:集群管理模块,负责管理整个Fate集群的资源。
Fate-Serving:模型服务模块,负责部署和提供模型服务。
Fate-Proxy:代理模块,负责通信的安全性和隐私性。
Fate-Flow-Web:Web服务模块,提供用户与系统交互的界面。
参与方注册和数据准备:
系统的参与方通过Fate-Flow-Web进行注册。在注册过程中,Fate-Flow-Web确保参与方的身份验证和数据拥有权。每个参与方将本地数据按照任务要求准备好,以确保数据的隐私。
通过数据上传模块,上传数据的方式有两种形式上传csv文件、直接连接数据库,将单表数据进行导入。
方式一:使用python的pandas依赖包模块读取DataFrame中的数据,与此同时生成公钥、私钥,使用公钥对数据进行加密。这样,即使在加密状态下,也能够对数据进行计算而不暴露原始数据,将加密后的数据配合公钥,进行加密操作、落库。
方式二:使用python的SQLAlchemy模块,在读写过程中使用公钥进行加密,落库操作。
同时对导入数据的格式展示,展示字段名、以及对应的字段类型。
数据隐私保护:包含数据发布、授权管理模块;
可将通过数据上传模块导入的加密数据,进行发布操作,提供给外部注册、联合建模方展示,通过授权管理的形式进行赋予权限调用。在数据调用的同时,记录通信过程中的日志,并进行落库,以便进行审计和追溯,以确保系统的安全性和合规性。
3.1、基于Fate中Fate-Proxy模块实现通信的安全性。在数据传输过程中通过TLS/SSL协议的加密通信,采用身份验证的机制,确保通信双方的身份是可信的。以防止在数据传输过程中被未授权的实体截取或窃听,确保通信的机密性。
3.2、使用同态加密技术,用于在模型训练和参数聚合的过程中对加密的数据进行计算,而不需要解密原始数据。以下是同态加密的一般步骤:
3.2.1加密阶段:
密钥生成:生成一对密钥,分别是公钥(public key)和私钥(private key)。
明文加密:将原始数据(明文)使用公钥进行加密,得到密文。这个过程可以用加密函数表示为C=Encrypt(P),其中C是密文,P是明文。
3.2.2同态计算阶段:
同态加法:
允许在加密状态下对两个密文进行加法运算,得到的结果在解密后等于两个明文相加。表示为C3=HomomorphicAdd(C1,C2)。
同态乘法:允许在加密状态下对两个密文进行乘法运算,得到的结果在解密后等于两个明文相乘。表示为C3=HomomorphicMultiply(C1,C2)。
多次操作:可以通过多次同态加法和同态乘法等操作,对密文进行复杂的计算。
3.2.3解密阶段:
解密:使用私钥对最终的结果进行解密,得到最终的明文。表示为P=Decrypt(C)
4、进行联邦学习模型训练:
模型初始化:通过Fate-Flow协调者初始化全局模型。
本地训练:参与方在本地使用本地数据对模型进行训练,生成梯度更新。
定义一个目标函数(损失函数)J,用以衡量模型对训练数据的拟合程度。模型的参数用θ表示。梯度表示为 表示梯度运算符。梯度的每个分量对应于θ中的一个参数,表示对应参数的目标函数偏导数。
此处各个参与方在本地训练模型时计算的梯度指模型参数相对于本地训练数据的损失的梯度
梯度聚合:参与方使用Fate-Proxy将加密后的梯度传输给Fate-Flow,Fate-Flow协调者对所有梯度进行聚合,更新全局模型。
迭代训练:重复以上步骤,直至模型收敛。
5、在线交易风控审批决策:
模型部署:Fate-Flow将最终的全局模型部署到Fate-Serving。
在线交易请求:当有在线交易请求时,Fate-Serving接收请求特征,并使用全局模型生成风控审批决策。
风控审批:具体参考如图2中,在贷前准备环节,渠道侧将所需特征变量告知风控侧,当渠道侧发起准入申请时,风控侧会请求征信平台,将渠道侧所需特征变量信息汇总整合,进行对称加密后,上传至隐私计算平台,上传成功后,返回数据对应的唯一id。
渠道侧在隐私计算平台中,在系统页面配置风控规则并上传已训练好的模型文件,并对关键部分进行对称加密处理。通过返回的已整合的特征变量的唯一id,请求获取平台加密后的数据,渠道测将风控策略、模型进行加密后进行上传,在隐私计算平台中进行相应的解密。结合从数据源提供侧获取的加密数据,根据步骤4中使用训练完已呈收敛的模型进行预测,得到预测的模型分,对风控策略进行解密操作后,结合得到的模型分根据风控策略给予判定结果,实现相对安全的自动审批。
6.结果反馈和模型更新:
结果反馈:Fate-Serving将审批结果反馈给Fate-Flow。
模型更新:根据风控审核结果,Fate-Flow对全局模型进行更新,如果某个参与方的预测结果与实际结果有较大偏差,Fate-Flow会通过梯度下降等优化算法更新全局模型的参数,以更好地适应各个参与方的数据,更新后的全局模型被重新部署到Fate-Serving,整个过程可以迭代进行,以不断优化模型性能,提高风控审批的准确性。
综上,本发明实施例采用隐私计算、同态加密等技术,提出一种基于隐私计算技术的风控策略和模型运算的系统方案。该系统是采用分布式架构,无中心节点,各个参与方可以同时作为数据提供方和使用方。
另外地,本发明实施例还提供一种基于隐私计算技术数据安全的风控审批系统,包括:
数据加密模块,用于对敏感数据进行加密处理,确保数据在传输和存储过程中的安全性;
数据审批模块,用于建立完善的数据权限审批流程,对加密后的数据的访问和使用,针对不同数据,定义相应的使用范围和约束条件;
策略发布模块,用于建立完整的记录和审计机制,确保数据使用的可追溯性和透明性;记录包括数据调用者、访问时间、访问目的相关信息,定期对数据使用记录进行审计,并及时发现和纠正任何潜在的违规行为或安全风险;
模型建立模块,用于使用已授权的加密数据,结合实际业务及业务经验,选择机器学习算法或统计模型来建立风险评估模型,使用加密后的数据对模型进行训练,评估模型效果;
数据核查模块,用于在进行审批时,系统从数据源提供侧获取到进件信息的加密数据,使用模型效果已呈收敛的模型进行模型预测,得到对应的模型分数,结合所给予的风控策略进行判定,实现相对安全的自动审批。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于隐私计算技术数据安全的风控审批方法,其特征在于,包括以下步骤:
步骤1:对敏感数据进行加密处理;
步骤2:建立完善的数据权限审批流程,对加密后的数据的访问和使用,针对不同数据,定义相应的使用范围和约束条件;
步骤3:建立完整的记录和审计机制,记录包括数据调用者、访问时间、访问目的相关信息,定期对数据使用记录进行审计,并及时发现和纠正任何潜在的违规行为或安全风险;
步骤4:使用已授权的加密数据,结合实际业务及业务经验,选择机器学习算法或统计模型来建立风险评估模型,使用加密后的数据对模型进行训练,评估模型效果;
步骤5:当进行审批时,系统从数据源提供侧获取到进件信息的加密数据,使用步骤4中模型效果已呈收敛的模型进行模型预测,得到对应的模型分数,结合所给予的风控策略进行判定,实现相对安全的自动审批。
2.根据权利要求1所述的一种基于隐私计算技术数据安全的风控审批方法,其特征在于,步骤1中,所述对敏感数据进行加密处理包括:
1.1.传输层加密:通过使用传输层安全协议对数据进行端到端的加密,在数据从客户端发送到服务器的过程中,采用安全的通信通道,使用加密算法对数据进行加密,防止中间人攻击或窃听;
1.2.存储层加密:对数据在存储介质上的存储进行加密,使用对称加密算法或非对称加密算法对存储的数据进行加密;
1.3.数据字段加密:使用加密技术对敏感数据进行加密处理,对个人身份信息和其他敏感信息进行匿名化处理,通过去标识化、数据脱敏、数据聚合手段来降低数据的敏感性,保护个人隐私。
3.根据权利要求2所述的一种基于隐私计算技术数据安全的风控审批方法,其特征在于,步骤1.1中,所述通过使用传输层安全协议对数据进行端到端的加密包括:
1.1.1.建立连接:客户端向服务器发起连接请求,服务器响应并返回其公钥证书;
1.1.2.验证证书:客户端验证服务器发送的证书,通过检查证书颁发者的信任链、证书是否过期以及域名是否匹配;
1.1.3.协商密钥:一旦证书验证通过,客户端和服务器之间开始TLS握手过程,协商出对称密钥,用于后续的加密通信;
1.1.4.数据传输:一旦握手完成,客户端和服务器可以使用协商好的对称密钥对通信数据进行加密和解密,确保端到端的数据传输安全。
4.根据权利要求1所述的一种基于隐私计算技术数据安全的风控审批方法,其特征在于,步骤2中,所述建立完善的数据权限审批流程包括:
2.1.数据收集与匿名化:用户提交审批申请时,系统收集所需数据,在数据收集阶段,对个人身份信息进行匿名化处理,将具体的个人身份信息与数据分离,以降低数据的敏感性,同时确保数据可用;
2.2.隐私计算审批模型构建:基于差分隐私技术或同态加密隐私计算技术,构建审批模型,确保在审批过程中不会泄露用户的原始数据和计算结果;
2.3.审批模型训练与部署:在经过足够多样化的数据上训练审批模型,确保模型能够有效地评估不同类型的审批申请;训练完成后,将模型部署到审批系统中供实际使用;
2.4.安全的数据访问与权限控制:通过建立数据访问权限控制机制,让只有授权的人员才能访问特定数据,并且需要进行严格的身份验证;同时记录数据的访问和使用情况,以便进行审计和追溯,确保数据不被滥用和泄露;
2.5.审批结果反馈:审批系统根据隐私计算审批模型的评估结果,生成审批结果并反馈给申请人。在此过程中,需要确保审批结果不会泄露敏感信息。
5.根据权利要求1所述的一种基于隐私计算技术数据安全的风控审批方法,其特征在于,步骤3中,所述建立完整的记录和审计机制包括:风控策略发布:在进行数据处理和计算之前,对数据访问和使用的规则和约束进行定义和发布,保护用户隐私,并确保数据处理和计算操作符合法律法规和道德标准。
6.根据权利要求5所述的一种基于隐私计算技术数据安全的风控审批方法,其特征在于,所述风控策略包括:
3.1.数据使用规定:明确规定数据的使用范围,包括哪些实体有权访问数据、数据可以用于哪些特定目的以及不得用于哪些目的;
3.2.访问控制:定义访问控制规则,指定谁有权访问数据,以及在什么条件下可以访问数据,通过访问权限、身份验证、审计日志方式来实现;
3.3.数据处理规范:定义数据处理的规范和标准,包括对数据进行加密、脱敏、匿名化处理方式的要求,以确保在数据处理过程中保护用户隐私;
3.4.数据共享规则:定义数据共享的规则,明确数据可以与哪些实体共享,共享的方式和条件,同时也规定共享后的使用限制。
7.根据权利要求1所述的一种基于隐私计算技术数据安全的风控审批方法,其特征在于,步骤4中,在建立模型的过程中,需要考虑到数据的不平衡性、模型的泛化能力以及隐私保护的要求;包括以下步骤:
4.1.模型数据收集:首先需要收集相关的数据,这些数据包括个人信息、交易记录、行为数据,确保采集的数据符合隐私政策和法律法规,并且能够用于分析和建模;
4.2.数据预处理:对收集的数据进行清洗、去重、填充缺失值的预处理工作,以确保数据的质量和完整性;考虑到敏感数据进行隐私保护,采用加密、脱敏或者匿名化手段;
4.3.特征工程:在数据预处理后,进行特征工程,从原始数据中提取出对建立风险评估模型有意义的特征;
4.4.建立模型:选择机器学习算法或统计模型来建立风险评估模型;模型包括逻辑回归、决策树、随机森林、支持向量机,在建立模型的过程中,需要考虑到数据的不平衡性、模型的泛化能力以及隐私保护的要求;
4.5.模型评估:建立模型后,对其进行评估,使用交叉验证、ROC曲线、精确率-召回率曲线指标来评估模型的性能;
4.6.部署和监控:当模型建立并通过评估后,将其部署到实际的系统中,同时建立监控机制,定期监测模型的表现,并及时调整和更新模型以应对新的风险和异常情况。
8.根据权利要求7所述的一种基于隐私计算技术数据安全的风控审批方法,其特征在于,所述步骤4.5中,使用交叉验证、ROC曲线、精确率-召回率曲线指标来评估模型的性能包括:
计算真正例率、计算假正例率,绘制ROC曲线,横轴是FPR,纵轴是TPR,通过计算曲线下面积AUC-ROC来量化模型性能,AUC值越高,模型性能越好;其中,真正例率是指正类别样本中被正确预测为正例的比例,也称为灵敏度或召回率;假正例率是指负类别样本中被错误预测为正例的比例。
9.根据权利要求1所述的一种基于隐私计算技术数据安全的风控审批方法,其特征在于,所述步骤5包括:
5.1.访问控制:建立严格的访问控制机制,只有经过授权的人员才能够访问和使用数据,确保未经授权的人员无法获取敏感数据;
5.2.审批流程:建立数据使用审批流程,确保所有对敏感数据的使用都必须经过严格的审批程序,根据数据使用的具体目的、使用范围、使用时限等进行粒度划分,以便核查数据使用是否符合规定;
5.3.数据使用记录与审计:对数据使用情况进行记录和审计,确保能够对每一次数据使用操作进行追溯和核查,记录包括谁、何时、以及为何目的使用了数据,以便于监管部门或内部审计部门进行核查;
5.4.数据使用限制:在数据使用时可以采取技术手段对数据的使用进行限制,例如对数据进行匿名化处理、设定访问权限和使用时段方式来限制数据的使用范围和时效性;
5.5.合规审查与监测:定期进行数据使用的合规审查和监测,确保数据使用行为符合相关法律法规和内部政策,及时发现并纠正可能存在的违规行为。
10.一种基于隐私计算技术数据安全的风控审批系统,其特征在于,
数据加密模块,用于对敏感数据进行加密处理,确保数据在传输和存储过程中的安全性;
数据审批模块,用于建立完善的数据权限审批流程,对加密后的数据的访问和使用,针对不同数据,定义相应的使用范围和约束条件;
策略发布模块,用于建立完整的记录和审计机制,确保数据使用的可追溯性和透明性;记录包括数据调用者、访问时间、访问目的相关信息,定期对数据使用记录进行审计,并及时发现和纠正任何潜在的违规行为或安全风险;
模型建立模块,用于使用已授权的加密数据,结合实际业务及业务经验,选择机器学习算法或统计模型来建立风险评估模型,使用加密后的数据对模型进行训练,评估模型效果;
数据核查模块,用于在进行审批时,系统从数据源提供侧获取到进件信息的加密数据,使用模型效果已呈收敛的模型进行模型预测,得到对应的模型分数,结合所给予的风控策略进行判定,实现相对安全的自动审批。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311845487.9A CN117828662A (zh) | 2023-12-28 | 2023-12-28 | 一种基于隐私计算技术数据安全的风控审批方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311845487.9A CN117828662A (zh) | 2023-12-28 | 2023-12-28 | 一种基于隐私计算技术数据安全的风控审批方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117828662A true CN117828662A (zh) | 2024-04-05 |
Family
ID=90507331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311845487.9A Pending CN117828662A (zh) | 2023-12-28 | 2023-12-28 | 一种基于隐私计算技术数据安全的风控审批方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828662A (zh) |
-
2023
- 2023-12-28 CN CN202311845487.9A patent/CN117828662A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11934540B2 (en) | System and method for multiparty secure computing platform | |
US20230006809A1 (en) | Homomorphic computations on encrypted data within a distributed computing environment | |
US11663364B2 (en) | Whole-lifecycle encrypted big data analysis method and system for the data from the different sources | |
US20210406386A1 (en) | System and method for multiparty secure computing platform | |
EP3477527A1 (en) | Privacy management | |
US11431736B2 (en) | Detecting synthetic online entities facilitated by primary entities | |
CN114026823A (zh) | 用于处理匿名数据的计算机系统及其操作方法 | |
WO2022216317A1 (en) | Apparatus, systems and methods for storing user profile data on a distributed database for anonymous verification | |
Li | Combination of blockchain and AI for music intellectual property protection | |
Heister et al. | How blockchain and AI enable personal data privacy and support cybersecurity | |
Singh et al. | A technical look at the Indian personal data protection bill | |
Wang et al. | Blockchain user digital identity big data and information security process protection based on network trust | |
KR102307668B1 (ko) | 인증 시스템 및 인증 방법 | |
CN117828662A (zh) | 一种基于隐私计算技术数据安全的风控审批方法及系统 | |
Sloane | Raising data privacy standards: The united states' need for a uniform data protection regulation | |
Bitar et al. | Gdpr: Securing personal data in compliance with new eu-regulations | |
Fantaye | An Introduction and Overview of Privacy-Enhancing Technologies for Data Processing and Analysis | |
Toreini et al. | Fairness as a Service (FaaS): verifiable and privacy-preserving fairness auditing of machine learning systems | |
US12028357B2 (en) | Detecting synthetic online entities facilitated by primary entities | |
KR102181009B1 (ko) | 임의후견 사무관리감독을 위한 블록체인 기반 자산활동 관리 서비스 제공 방법 | |
US20220342874A1 (en) | Electronic multi-tenant data management systems and clean rooms | |
US20220222367A1 (en) | Data aggregation for analysis and secure storage | |
EP4211575A1 (en) | System and method for multiparty secure computing platform | |
Wanjiru | Integrated Personal Data Protection Tool | |
Adams | Business User's Perspective and Experience with Proposed Resolutions to Security and Privacy Issues in Cloud Data Storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |