CN113947471A - 一种构建风险评估模型的方法、装置及设备 - Google Patents

一种构建风险评估模型的方法、装置及设备 Download PDF

Info

Publication number
CN113947471A
CN113947471A CN202111171644.3A CN202111171644A CN113947471A CN 113947471 A CN113947471 A CN 113947471A CN 202111171644 A CN202111171644 A CN 202111171644A CN 113947471 A CN113947471 A CN 113947471A
Authority
CN
China
Prior art keywords
risk assessment
assessment model
institution
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111171644.3A
Other languages
English (en)
Inventor
刘思玥
吴云崇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111171644.3A priority Critical patent/CN113947471A/zh
Publication of CN113947471A publication Critical patent/CN113947471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本说明书实施例公开了一种构建风险评估模型的方法、装置及设备。所述方法包括获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用;根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。

Description

一种构建风险评估模型的方法、装置及设备
技术领域
本申请涉及风险合规技术领域,尤其涉及一种构建风险评估模型的方法、装置及设备。
背景技术
合规风险广泛存在于金融机构业务和管理的各个方面,在互联网行业中,合规风险可以指在企业的运营或内部管理过程中,因未能够与国家的法律、法规、政策、以及行业范例或服务水平协定相保持一致而导致的风险。
风控,可以包括风险管理和风险控制。风险管理是指如何在项目或者企业在一定的风险的环境里,把风险减至最低的管理过程。风险控制是指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或者减少风险事件发生时造成的损失。在互联网金融行业,风控可以包含对所有可能风险事件的控制,涉及人员操作风险、业务操作风险、技术操作风险和外部事件带来的风险。
传统的风控建模方法是评分卡模型,建模人员需要将参与建模的机构的数据样本汇总在一起,并在本地汇总后建模,这就需要每个机构中的数据出域,才能完成建模。而这一建模行为极易造成合规风险。
因此,亟需提供一种风险评估模型的建立方案,以解决建模造成的合规风险。
发明内容
本说明书实施例提供一种构建风险评估模型的方法、装置即设备,以解决现有的建模方法存在的数据出域导致违规的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种构建风险评估模型的方法,所述方法应用于第一机构的第一服务器,所述方法包括:
获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用;
根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
本说明书实施例提供的一种构建风险评估模型的装置,所述装置应用于第一机构的第一服务器,所述装置包括:
风险评估模型获取模块,用于获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用;
模型更新模块,用于根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
本说明书实施例提供的一种构建风险评估模型的设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用;
根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现构建风险评估模型的方法。
本说明书一个实施例实现了能够达到以下有益效果:通过获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用;根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。采用上述方法,在构建风险评估模型时,单次迭代中仅依赖机构内部的数据,无需在网络上频繁进行数据交换,能极大地缩短模型训练的时间开销。同时,在不同机构中采用增量学习的方法,在保证数据不出域的情况下,对风险评估模型进行构建,能够避免构建模型时因数据出域而引发的合规风险。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中构建风险评估模型的方法的整体方案示意图;
图2为本说明书实施例提供的一种构建风险评估模型的方法的流程图;
图3为本说明书实施例提供的一种构建风险评估模型的方法的泳道示意图;
图4是本说明书实施例提供的一种构建风险评估模型的设备示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
“合规风险”指的是:银行因未能遵循法律法规、监管要求、规则、自律性组织制定的有关准则、已经适用于银行自身业务活动的行为准则,而可能遭受法律制裁或监管处罚、重大财务损失或声誉损失的风险。合规风险广泛存在于金融机构业务和管理的各个方面,在互联网行业中,合规风险可以指在企业的运营或内部管理过程中,因未能够与国家的法律、法规、政策、以及行业范例或服务水平协定相保持一致而导致的风险。
风险评估(Risk Assessment)是指,在风险事件发生之前或之后(但还没有结束),该事件给人们的生活、生命、财产等各个方面造成的影响和损失的可能性进行量化评估的工作。即,风险评估就是量化测评某一事件或事物带来的影响或损失的可能程度。
从信息安全的角度来讲,风险评估是对信息资产(即某事件或事物所具有的信息集)所面临的威胁、存在的弱点、造成的影响,以及三者综合作用所带来风险的可能性的评估。作为风险管理的基础,风险评估是组织确定信息安全需求的一个重要途径,属于组织信息安全管理体系策划的过程。进行合规风险评估,能够充分发挥合规风险评估在风险管理中的作用。
合规风险管理是指企业主动避免违规事件发生,主动发现并采取适当措施纠正已发生的违规事件,持续改进相关制度和相应做法的周而复始的循环过程。
现有技术中,以信贷风控场景为例,信贷风控场景中需要利用同一场景下多个信贷机构的样本构建风险评估模型。例如,当某第三方风控公司计划开发针对银行信用卡客群的通用申请评分模型时,该模型的开发过程中将使用多家银行的信用卡相关的信贷数据,建模人员需要将参与建模的机构的样本汇总在一起,进行数据清洗、特征匹配、模型开发、模型校准和模型测试等工作,因此需要金融机构将借贷客群的身份信息、借贷信息等数据输出到外部的建模环境里,即数据出域。借贷人的信息会在不同机构间进行流转,造成用户的信息泄露。
随着监管部门逐步加强对公民个人隐私数据的保护,现有的建模方法明显存在着严重的合规风险。不少法律法规条文密集出台,从多方面体系化地完善我国个人信息隐私保护方面的法律法规体系。在相关法律的强力约束下,未经个人用户直接授权时金融机构不得将用户隐私数据、金融活动数据与第三方机构进行共享。因此传统的在第三方公司内部进行数据汇总与整合的模式陷入不可持续的困境。
现有技术中,选择采用基于联邦学习的原理进行模型开发。模型训练过程完全由事先设定好的程序完成,模型开发人员无法在开发过程中进行干预,因此对特征工程、参数调优等核心工作并不友好,无法充分挖掘建模样本的信息;模型训练过程中将在网络上进行海量的数据交换,因此对网络性能有严格的要求,且训练过程的时间开销远大于常规的训练;需要有提供联邦学习平台服务的第三方公司参与,因此模型开发的经济成本、时间成本较高。
另外,现有技术中还有单个机构中根据网络中不断更新的数据对模型进行增量学习的方案。但是这种方法,往往只能在一个机构中获取数据进行模型训练,数据覆盖率较低,并且训练得到的风险评估模型仅能用于对该机构的数据进行风险评估,并不能对其他机构的数据进行风险评估。现有技术中,一旦需要训练通用型的风险评估模型,就需要利用同一应用场景下的多家机构的数据进行构建,这就将导致用户数据被输出到其他机构,导致违规的缺陷。
基于此,本方案中提供一种建立风险评估模型的方案,利用支持增量学习的特定算法在不同的机构的样本中依次进行本地训练,最终得到融合各机构样本信息的模型,能够满足业务与合规的双重需求。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例中构建风险评估模型的方法的整体方案示意图。如图1所示,机构1采用机构1中的样本数据进行模型初始化,训练得到模型1,机构2根据本机构的样本数据,在模型1的基础上,更新模型1的参数,如此循环,机构M采用机构M中的样本数据,在上一步模型的基础上进行参数更新,得到更新后的模型M。需要说明的是,图1中的附图表示的是每个机构根据自身机构中的数据对上一个机构训练得到的模型继续进行本地训练,得到更新参数后的模型。并不是每个机构分别单独训练得到一个模型。而是不通过机构根据自身机构中的数据对模型进行不断的增量迭代更新,得到最终融合各个机构样本数据的模型。例如:机构1采用本机构中的样本数据对模型进行训练,得到模型1,确定模型1对应的参数估计值A为0.5,把模型1放到机构2中,采用机构2中的样本数据对模型1的参数进行更新,对参数A继续进行优化,得到模型2,参数估计值A’为0.55;以此类推,机构N采用机构N中的用户数据对上一个机构输出的模型N-1继续进行训练,得到模型n,得到最终融合各个机构样本数据的模型N。
接下来,将针对说明书实施例提供的一种构建风险评估模型的方法结合附图进行具体说明:
图2为本说明书实施例提供的一种构建风险评估模型的方法的流程图。从程序角度而言,流程的执行主体可以为搭载于应用服务器的程序或应用客户端。本实施例中,执行主体可以是第一机构的第一服务器。需要说明的是,这里提到的“第一服务器以及第一机构”中的“第一”仅用于对不同机构或不同服务器进行区分,并不表示具体的含义。本实施例中,第一机构的第一服务器在构建模型时,需要在上一个机构构建完成的模型基础上,继续对模型进行构建。
如图2所示,该流程可以包括以下步骤:
步骤210:获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用。
需要说明的是,第二机构可以表示的是与第一机构不同的其他机构。具体的,在根据第二机构中的数据进行模型训练的过程,由部署在第二机构中的第二服务器来完成。
上述步骤中的风险评估模型可以指的是第二机构中的第二服务器根据第二机构中的样本数据进行训练得到的模型。该风险评估模型可以用来对第二机构进行风险评估。
第二机构在训练风险评估模型时,不会从其他机构拿取数据,仅根据本机构中的数据进行训练。单次迭代中仅依赖第二机构内部的数据,无需在网络上频繁进行数据交换。
步骤220:根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
第一机构的服务器在训练模型时,也不会从第二机构中拿取数据,但是第一机构的服务器会在第二机构训练的到的风险评估模型基础上继续训练。
第一服务器根据第一机构中的第二样本数据对第二服务器训练得到的风险评估模型进行基础训练得到的更新后的风险评估模型,可以对第一机构和第二机构中的数据进行风险评估。
例如:存在机构A、机构B以及机构C,机构A中的样本数据为数据1,机构B中的样本数据为数据2,机构C中的样本数据为数据3。机构A中的服务器采用数据1训练得到风险评估模型1,机构B能够获取风险评估模型1,机构B中的服务器采用数据2继续对风险评估模型1进行训练,实际上就是采用数据2对风险评估模型1中的参数进行更新,得到更新后的模型2,机构C能够获取风险评估模型2,机构C中的服务器采用数据3继续对风险评估模型2进行训练,实际上就是采用数据3对风险评估模型2中的参数进行更新,得到更新后的风险评估模型3。风险评估模型3可以对机构A、机构B以及机构C中的数据进行风险评估。
需要说明的是,上述方法可以理解为:风险评估模型训练的过程中,将风险评估模型的优化目标函数分解成单个或单批的样本,这些不同批次的样本由不同的机构贡献。将传统的“数据动、模型不动”转化成“数据不动、模型动”,将数据出域的高风险转化成模型出域的无风险。
另外,上述步骤中的第一机构可以表示的是一家机构,也可以表示的是多家机构,例如:当需要训练一个能够通用于多家银行机构的风险评估模型时,第一机构可以是其中一家银行,该银行中的数据只允许在该机构中进行处理。当需要训练一个能够通用于金融机构的风险评估模型时,第一机构可以是一类机构,例如:第一机构可以是多家银行,但是,此时,除非存在特殊安全协议,否则每个银行中的数据也仅限于在本银行内被使用。
应当理解,本说明书一个或多个实施例所述的方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
图2中的方法,通过获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用;根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。采用上述方法,在构建风险评估模型时,单次迭代中仅依赖机构内部的数据,无需在网络上频繁进行数据交换,能极大地缩短模型训练的时间开销。同时,在不同机构中采用增量学习的方法,在保证数据不出域的情况下,对风险评估模型进行构建,能够避免构建模型时因数据出域而引发的合规风险。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
可选的,上述图2中的方法还可以包括:
将所述更新后的风险评估模型发送给第三机构;所述第三机构根据本机构中的第三样本数据,更新所述更新后的风险评估模型中的第二参数,得到再次更新后的风险评估模型。
第二机构训练后的模型,可以发送给第三机构,由第三机构继续训练。需要说明的是,在实际应用中,当需要训练在金融机构中通用型的风险评估模型时,可以选择训练的样本,例如:如果需要训练在金融机构中通用的风险评估模型时,可以选择银行、证券机构、保险机构、信托机构、基金机构等中的数据进行模型训练。如果当需要训练的风险评估模型只要求在银行之间适用时,可以选择各个银行的数据作为模型的训练数据。
对于本实施例,第二机构训练得到更新后的风险评估模型之后,由第三机构在此基础上,根据本机构中的数据对更显后的风险评估模型进行训练。在实际训练过程中,可以对更新后的风险评估模型中的第二参数进行更新。
需要说明的是,模型的训练过程,需要计算求解模型的参数,模型的训练过程可以理解为采用新的数据对模型的参数进行不断的更新,直至再次更新后的风险评估模型的评分准确率满足预设准确率为止。
在构建风险评估模型的过程中,构建模型分为模型训练过程以及模型测试过程,理论上,训练模型时应当在所有对应的机构中训练,最终得到训练完成的模型,但是在实际应用中,无法真正做到遍历所有的机构,因此,在训练模型时,可以对训练模型的机构进行选择,尽可能保证数据的覆盖率,对于选择的机构,每个机构可以在上一个机构的基础上,对模型的参数进行更新,最终得到训练完成的风险评估模型。
在得到训练完成的风险评估模型之后,需要对该模型进行测试,也确定该模型的性能。具体在对模型进行测试时,可以将再次更新后的风险评估模型输入到各个机构中进行本地测试。即将训练完成的风险评估模型再次依次代入到各机构的测试样本上进行测试并且评估模型性能。当发现模型在部分机构的样本上的性能未达到预期时,则在当前机构上进行调优,直到模型在所有机构的样本上的性能均达到预期。具体可以包括以下步骤:
对于任意一个机构,将该机构中的数据输入所述再次更新后的风险评估模型中,得到所述再次更新后的风险评估模型的预测结果;
根据所述预测结果,计算所述再次更新后的风险评估模型的预测准确率;
判断所述再次更新后的风险评估模型的预测准确率是否达到对应于所述任意一个机构的预设准确率,得到判断结果;
当所述判断结果表示所述再次更新后的风险评估模型的预测准确率达到对应于任意一个机构的预设准确率时,确定所述再次更新后的风险评估模型通过所述任意一个机构的测试。
可选的,所述判断所述再次更新后的风险评估模型的预测准确率是否达到对应于任意一个机构的预设准确率,得到判断结果之后,还可以包括:
当所述再次更新后的风险评估模型的预测准确率未达到对应于任意一个机构的预设准确率时,采用任意一个机构中的样本数据对所述再次更新后的风险评估模型进行训练,对所述再次更新后的风险评估模型中的参数进行调优,直至所述再次更新后的风险评估模型的预测准确率满足所述任意一个机构对应的预设值为止,得到调优后的风险评估模型。
需要说明的是,每个机构在根据自身机构对风险评估模型进行训练时,都可以对应有一个预测准确率。例如:参与模型训练的机构有机构1-机构5,其中,机构1要求采用自身机构训练的模型达到90%的预测准确率,机构2要求采用自身机构训练的模型达到95%的预测准确率,……,机构5要求采用自身机构训练的模型达到99%的预测准确率。每个机构在采用自身机构中的数据对模型进行训练时,需要对模型的参数进行不断更新,直至训练的模型满足本机构对应的预设准确率为止。
通过上述方法,各个机构中训练模型时,数据仅在本机构中进行迭代运用,不会被运用与其他机构的模型训练,避免数据出域。由于模型本身并不包含用户的任何信息,因此,构建模型的过程中不会将用户数据输出到其他机构,不违背相应法规。
在一实施例中,本方案中的风险评估模型的训练过程可以结合区块链进行实现,每个机构在本地训练风险评估模型后的结果,可以以隐私保护的方式存储在区块链系统中。
在本说明书实施例中,每个机构在利用本机构内的进行本地训练时,训练得到的风险评估模型可以保存在区块链系统中。其他机构需要采用本机构数据继续对风险评估模型进行更新时,可以从区块链系统中获取上一机构训练完成的风险评估模型。在采用本机构数据对风险评估模型更新完成后,也可以对更新完成的风险评估模型进行加密后,上传至区块链系统中进行保存。其中,为了进一步保证其安全性,存储在区块链系统中的风险评估模型可以是加密后的模型,其他机构在获取该模型后,还需要对其进行解密,以确保操作过程中的数据安全。
在实际应用中,为了证明风险评估模型训练的有效性,可以在各个机构训练完成后,向其他机构证明训练得到的模型是本机构采用本机构中的数据进行训练得到的,具体地,可以通过生成可验证声明(Verifiable Claim,VC)的方式来实现这一需求。VC也是DID中的一项重要应用。所述VC可以存储于区块链平台。本方案中,多家机构需要利用本机构中的数据进行本地训练,最终得到需要的风险评估模型。每一个机构利用本机构中的数据都会训练得到一个模型,因此,可以对每个机构训练得到的模型携带版本信息。例如,VC的内容可以包括训练该模型的机构的数字签名以及该模型对应的版本信息。此时,可验证声明可以证明该版本信息的模型是本机构训练得到的模型,但是是否采用本机构中的样本数据,还需要查看相应的数据标识。因此,任意一个机构在训练得到某一版本的模型时,除了将可验证声明存储在区块链系统中之外,还可以将训练该模型时采用的样本数据的数据标识也存储在区块链系统中。各个机构可以通过用于管理机构的身份的分布式身份标识代理服务(Decentralized Identity Service,DIS)来创建各个机构的分布式数字身份标识以及分布式数字身份标识的文档(Decentralized Identitfiers Document,DID Doc),且各个机构的DID及DID Doc均可以存储在区块链平台中。因此,在本说明书实施例中,可以将样本数据的数据标识存储在DID文档(DID Doc)中。
某一机构在对上一家机构得到的风险评估模型进行更新时,除了从上一家机构获得风险评估模型之外,还可以通过区块链来验证对应的VC以及训练时采用的样本数据的数据标识。具体的,某一机构可以从区块链上获取所DID Doc中的公钥,验证上一家机构的输出结果时,还采用相应的公钥验证上一家机构发送的VC的签名,从而确认所述VC是由上一家机构颁发的,且是完整的,即没有经过篡改。这样,基于区块链平台的不可篡改特性以及签名机构的可信,可以提升对风险评估模型的真实有效性认可。
需要说明的是,各个机构与区块链系统之间具有交互作用,各个机构可以将训练的到的风险评估模型以及生成的其他结果数据上传到区块链系统中进行存储,也可以获取区块链系统中存储的其他机构上传的结果数据。
隐私保护可以通过多种技术来实现,例如密码学技术(如同态加密Homomorphicencryption,或零知识证明Zero-knowledge proof),再如硬件隐私技术和网络隔离技术等。其中硬件隐私保护技术典型的包括可信执行环境(Trusted Execution Environment,TEE)。
例如,区块链节点均可以通过TEE实现区块链交易的安全执行环境。TEE是基于CPU硬件的安全扩展,且与外部完全隔离的可信执行环境。目前工业界十分关注TEE的方案,几乎所有主流的芯片和软件联盟都有自己的TEE解决方案,比如软件方面的TPM(TrustedPlatform Module,可信赖平台模块)以及硬件方面的英特尔SGX(Software GuardExtensions,软件保护扩展)、ARM Trustzone(信任区)和AMD PSP(Platform SecurityProcessor,平台安全处理器)等。TEE可以起到硬件黑箱作用,在TEE中执行的代码和数据即便是操作系统层都无法偷窥,只有通过代码中预先定义的接口才能对其进行操作。在效率方面,由于TEE的黑箱性质,在TEE中进行运算的是明文数据,而不是同态加密中复杂的密码学运算,计算过程效率几乎没有损失。因此,通过在区块链节点上部署TEE环境,可以在性能损失相对较小的前提下很大程度上满足区块链场景下的隐私需求,从而保障数据的隐私。
本说明书实施例中,每个机构在采用本机构中的数据对风险评估模型进行本地训练时,可以采用隐私计算的方法进行处理,可以保证在不泄露机构数据的情况下,进行安全可信计算。因此,风险评估模型的训练过程可以在TEE中执行,从而确保模型训练过程的安全可信。
通过上述方法,将风险评估模型的训练过程与区块链系统进行结合,可以保证训练过程的安全可靠,训练结果的可信性。而且还能保证训练过程中数据的安全性。
可选的,所述风险评估模型可以为逻辑回归模型;所述获取第二机构的第二服务器训练得到的风险评估模型,具体可以包括:
确定第二机构发送的所述风险评估模型中的第一参数;
所述根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型,具体可以包括:
根据所述第一参数以及所述第二样本数据,对逻辑回归模型进行训练,得到更新后的风险评估模型。
需要说明的是,逻辑回归(Logistic Regression,LR)模型,可以理解为在线性回归的基础上,套用一个逻辑函数,相当于y=f(x),表明自变量x与因变量y的关系。例如:以信贷场景为例,X为用户的相关数据,例如:用户基本信息、用户的信贷数据以及用户的历史风险数据等。Y为观测值,可以表示被检测机构是否存在风险。通过构建线性回归模型,即可以根据输入的用户数据预测机构中的数据是否存在风险。
可选的,所述确定第二机构发送的所述风险评估模型中的第一参数,具体可以包括:
根据所述第二机构中的第一样本数据,采用最大似然估计确定所述风险评估模型的第一参数。
可选的,所述根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,具体可以包括:
根据所述第二样本数据,采用梯度上升法对所述第一参数进行更新。
最大似然法(Maximum Likelihood,ML)也称为最大概似估计,也叫极大似然估计,是一种具有理论性的点估计法。当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。
在机器学习算法中,在最小化损失函数时,可以通过梯度下降思想来求得最小化的损失函数和对应的参数值,反过来,如果要求最大化的损失函数,可以通过梯度上升思想来求取。
需要说明的是,在本方案中,基于增量学习进行建模,因此,只要是支持增量学习算法的模型都可以应用在本方案的实施例中。例如:深度学习模型、神经网络模型等。利用支持增量学习的特定算法在不同的机构的样本中依次进行本地训练,最终得到融合各机构样本信息的风险评估模型。在每一次训练中,可以将当前机构的样本代入到模型参数估计的公式里对现有参数进行进一步的优化。
以逻辑回归模型以及神经网络模型两种模型的构建方式为例进行说明:
方式一、构建逻辑回归模型。
该模型通过利用梯度上升法最大化对数似然函数的方式求解最优参数。在优化对数似然函数时,对数似然函数在待更新参数上的梯度可以分解成单个样本的贡献,因此在参数更新的过程中可独立地利用新的样本对当前的参数进行更新。
例如:在利用极大似然估计法求解逻辑回归模型参数和利用反向传播求解前馈型神经网络参数中,都是基于梯度上升(下降)法,且梯度可以分解成任意组的样本的分量之和,即梯度对样本具有可加型。可以利用梯度对样本的可加性来实现模型在不同机构基于增量学习的建模过程。具体过程步骤可以如下:
假设有N家机构参与建模,样本集分别为:{X1,Y1},{X2,Y2},…,{XN,YN},
其中,第i家机构的样本集为:
Figure BDA0003293530590000121
Figure BDA0003293530590000122
其中,Xi,Yi分别是第i个机构提供的自变量数据集和因变量数据集,mi表示第i家机构共有mi个样本,p表示自变量的个数。
基于逻辑回归模型的增量学习过程如下:
步骤1:基于第一家机构的样本X1,Y1,构建逻辑回归模型,得到回归模型的系数估计
Figure BDA0003293530590000123
其中
Figure BDA0003293530590000124
表示基于第1家机构的样本训练得到的对第b个变量Xb的系数的估计值。
步骤2:N家机构中,从第二家机构遍历至第N家机构,k值从1遍历至K,采用以下公式:
Figure BDA0003293530590000125
Figure BDA0003293530590000126
当||βk+1(k)||<∈时终止k的遍历,且令β(i)=β(k)
其中,在第i个机构的训练中,MLE优化法的初始参数
Figure BDA0003293530590000127
为模型在第i-1个机构的样本中得到的βb的估计值,b从0遍历至p;K设定为一个很大的常数,例如1000000;∈设定为一个很小的常数,例如10-5;h为学习步长,可以设置为较小的常数,例如10-3,也可以利用交叉验证法或其他调参法得到最优的h;算子||*||表示向量的2范数,例如
Figure BDA0003293530590000128
Figure BDA0003293530590000129
xi是向量x的第i个分量。
步骤3、重复步骤2直到β趋于稳定,此时每次重复步骤2时,i从1开始累积到N,即需要将第一家机构的样本纳入迭代中。
方式二、构建神经网络模型。
神经网络模型可以是基于反向传播法进行参数估计的模型,用于风控模型的增量学习建模。其基本原理可以是将损失函数分解成不同的子数据集的损失函数的总和。
例如:以一个3个输入层节点、1个隐藏层(2个节点)、1个输出层节点的全联接前馈型神经网络为例进行说明:
输入层、隐藏层和输出层的关系可以为:
Figure BDA0003293530590000131
Figure BDA0003293530590000132
Figure BDA0003293530590000133
其中,x1,x2,x3为自变量,h1,h2是隐藏层节点且接受来自x1,x2,x3的信息,通过激活函数转化后输入到输出层节点o,再进行一步通过激活函数进行转化后输出。h1,h2,o的激活函数为F1,F2和F3,下标i表示第i个独立的样本,b*表示偏置项。
假设激活函数F*可导且导函数为f*。在回归任务(例如预测违约损失金额)的场景下,可以用均方误差函数作为损失函数,有:
Figure BDA0003293530590000134
在这样的模型中,可以使用梯度下降法结合反向传播法(back propagation,BP算法)进行参数求解。
通过上述方法,可以在机构1的样本上构建支持增量学习算法的模型,确定模型各参数的估计值,损失函数或对数似然函数在各参数上的梯度,其他机构在该机构得到的模型基础上对模型参数进行更新,完成风险评估模型的构建。
可选的,在实际应用场景中,本方案可以应用在需要进行风控的应用场景内,如:可以是信贷机构中的风险控制,也可以是金融保险机构中的风险控制。因此,上述实施例中的所述第一机构以及所述第二机构可以属于信贷机构;从各个信贷机构中采集的样本数据至少可以包括所述第一机构中的用户基本数据、信贷数据以及风险数据。其中,用户基本数据可以包括用户的姓名、性别、年龄、职业、籍贯、身份证号等信息。信贷数据可以用户的贷款记录,具体可以包括贷款时间、抵押信息、担保信息、贷款金额、贷款年限、贷款次数等信息。风险数据可以包括历史风险标签,例如:用户的信用风险、宏观政策风险、内部的操作风险以及流动性风险等。需要说明的是,这些数据都属于用户相关数据,为了保证其合规性,这些数据仅能在存储用户数据的机构内被使用,不能将机构通过网络或其他方式传输给其他机构进行使用。同样的,所述第一机构以及所述本第二机构还可以属于金融保险机构;此时,机构中的用户基本数据可以包括用户的性别、年龄、出生日期、所在地、职业类型、年可支配收入、社保情况、贷款情况、生活习惯、家庭情况等信息。保险数据可以包括保单信息、保险类型、保险期限、保险责任类型以及保险缴费等。风险数据可以包括历史风险标签,例如:骗保风险。
以金融保险机构为例,用于训练初始风险评估模型的第一家机构可以根据本机构中的用户数据、保险数据以及风险数据不断迭代训练得到初始的风险评估模型,然后其他金融保险机构在此模型基础上采用本机构中的数据进行本地训练,从而对风险评估模型进行更新。在模型训练的单次迭代中仅依赖机构内部的数据,无需在网络上频繁进行数据交换,因此对网络性能没有强要求并且能极大地缩短模型训练的时间开销。同时,模型开发人员可以深度介入到模型训练的过程中,可以深度挖掘数据的性能。在支持增量学习的算法中,本说明书中的一个或多个实施例中的模型,其模型精度上并不弱于现有的模型,同时,能够避免模型训练时由于数据出域引发的合规风险。
另外,在实际的模型构建过程中,由于不同的机构,存储的数据可能具有不同的数据格式,因此,在根据这些数据进行模型构建时,为了提高模型构建的效率,可以预先设定训练数据的数据格式,预设的数据格式可以为风险评估模型训练时要求的数据格式。每个机构在根据本机构的数据进行本地训练时,可以先将数据转换为要求的数据格式,然后再进行模型构建,具体地,可以采用以下步骤:
所述根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型之前,还可以包括:
获取第二样本数据的数据格式;
将所述第二样本数据的数据格式按照预设数据格式进行转换。
上述实施例中的方法可以结合附图3进行说明:
图3为本说明书实施例提供的一种构建风险评估模型的方法的泳道示意图。
如图3所示,以训练评估信贷机构的风险评估模型为例,该方法的相关主体包括第一机构、第二机构、第三机构。需要说明的是,具体在执行步骤时,是由各个机构中的服务器来执行,机构的数量也是根据实际情况进行选择,图3中为了简便说明本方案,直接将机构作为各流程的执行主体进行描述,并且只列举3个机构之间的交互,对方案保护范围不构成限制。具体的实现过程如下:
在进行风险评估模型的构建过程中,输入的数据是第一机构中的第二样本数据,该样本数据可以包括用户基本数据、信贷数据以及风险数据。
第一机构根据输入的第二样本数据求解模型的参数,得到风险评估模型1。
判断该风险评估模型的评分准确率是否满足第一机构对应的第一预设准确率,若不满足,则继续采用本机构中的样本数据对该模型中的参数进行更新,直至该风险评估模型的评分准确率满足第一机构对应的第一预设准确率为止。若满足,将风险评估模型1发送给第二机构。
第二机构根据本机构中的第一样本数据对风险评估模型1的参数进行更新,得到更新后的风险评估模型2,风险评估模型2的评分准确率也需要满足机构2对应的第二预设准确率,在满足之后,将风险评估模型2发送给第三机构,以此类推,直至遍历完所有机构,例如:一共有N个机构,机构N在上一个机构输入的模型N-1基础上,训练得到模型N,模型N的评分准确率满足第N机构对应的第N预设准确率。将模型N再次依次带入第一机构-第N机构进行本地测试,测试成功后,结束流程,输出最终的目标风险评估模型。
通过上述方法,可以达到以下技术效果:
1)在模型训练的单次迭代中仅依赖机构内部的数据,无需在网络上频繁进行数据交换,因此对网络性能没有强要求并且能极大地缩短模型训练的时间开销。
2)模型开发人员可以深度介入到模型训练的过程中,可以深度挖掘数据的性能。
3)将模型训练中的优化目标函数分解成单个或单批的样本,这些不同批次的样本由不同的机构贡献。将传统的“数据动、模型不动”转化成“数据不动、模型动”,将数据出域的高风险转化成模型出域的无风险。
4)模型本身并不包含用户的任何信息,因此可以在遵循相关法律法规的基础上将风险评估模型从参与模型训练的机构输出到外部环境。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。该装置可以包括:
风险评估模型获取模块,用于获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用;
模型更新模块,用于根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
基于上述装置,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
可选的,所述装置还可以包括:
模型发送模块,用于将所述更新后的风险评估模型发送给第三机构;所述第三机构根据本机构中的第三样本数据,更新所述更新后的风险评估模型中的第二参数,得到再次更新后的风险评估模型。
可选的,所述再次更新后的风险评估模型的评分准确率满足预设准确率。
可选的,所述装置,还可以包括:
模型测试模块,用于将所述再次更新后的风险评估模型输入到各个机构中进行本地测试。
可选的,所述模型测试模块,具体可以包括:
预测结果确定单元,用于对于任意一个机构,将该机构中的数据输入所述再次更新后的风险评估模型中,得到所述再次更新后的风险评估模型的预测结果;
预测准确率计算单元,用于根据所述预测结果,计算所述再次更新后的风险评估模型的预测准确率;
判断单元,用于判断所述再次更新后的风险评估模型的预测准确率是否达到对应于所述任意一个机构的预设准确率,得到判断结果;
测试通过确定单元,用于当所述判断结果表示所述再次更新后的风险评估模型的预测准确率达到对应于任意一个机构的预设准确率时,确定所述再次更新后的风险评估模型通过所述任意一个机构的测试。
可选的,所述模型测试模块,还可以包括:
测试调优单元,用于当所述再次更新后的风险评估模型的预测准确率未达到对应于任意一个机构的预设准确率时,采用任意一个机构中的样本数据对所述再次更新后的风险评估模型进行训练,对所述再次更新后的风险评估模型中的参数进行调优,直至所述再次更新后的风险评估模型的预测准确率满足所述任意一个机构对应的预设值为止,得到调优后的风险评估模型。
可选的,所述风险评估模型为逻辑回归模型;所述风险评估模型获取模块,具体可以包括:
第一参数确定单元,用于确定第二机构发送的所述风险评估模型中的第一参数;
所述模型更新模块,具体包括:
更新单元,用于根据所述第一参数以及所述第二样本数据,对逻辑回归模型进行训练,得到更新后的风险评估模型。
可选的,所述装置,还可以包括:
数据格式获取模块,用于获取第二样本数据的数据格式;
数据格式转换模块,用于将所述第二样本数据的数据格式按照预设数据格式进行转换。
可选的,所述第一参数确定单元,具体可以用于:
根据所述第二机构中的第一样本数据,采用最大似然估计确定所述风险评估模型的第一参数。
可选的,所述模型更新模块,具体可以用于:
根据所述第二样本数据,采用梯度上升法对所述第一参数进行更新。
可选的,所述风险评估模型获取模块,具体可以包括:
风险评估模型获取单元,用于从区块链系统中获取加密后的风险评估模型,并进行解密。
可选的,所述装置,还可以包括:
风险评估模型存储模块,用于将所述更新后的风险评估模型进行加密,并上传至所述区块链系统中进行存储。
可选的,所述装置,还可以包括:
第一可验证声明获取模块,用于获取用于表示所述风险评估模型是由所述第二机构采用所述第一样本数据进行训练的第一可验证声明;所述第一可验证声明中至少包括所述第二机构的数字签名以及所述风险评估模型的版本信息,所述区块链系统中还存储有与所述版本信息对应的所述第一样本数据的数据标识。
可选的,所述装置,还可以包括:
第二可验证声明生成模块,用于生成第二可验证声明,所述第二可验证声明用于表示所述更新后的风险评估模型是由所述第一机构采用所述第二样本数据进行训练得到的;所述第二可验证声明中至少包括所述第一机构的数字签名以及所述更新后的风险评估模型的版本信息。
可选的,所述装置,还可以包括:
保存模块,用于将所述第二可验证声明以及与所述更新后的风险评估模型的版本信息对应的所述第二样本数据的数据标识发送至所述区块链系统中进行保存。
可选的,所述装置,还可以包括:
可信操作系统加载模块,用于预先加载可信操作系统,以提供所述第一服务器、第二服务器执行训练模型过程的运行环境。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
图4是本说明书实施例提供的一种构建风险评估模型的设备示意图。如图4所示,设备400可以包括:
至少一个处理器410;以及,
与所述至少一个处理器通信连接的存储器430;其中,
所述存储器430存储有可被所述至少一个处理器410执行的指令420,所述指令被所述至少一个处理器410执行,以使所述至少一个处理器410能够:
获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用;
根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
基于同样的思路,本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现以下方法:
获取第二机构的第二服务器训练得到的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据仅被允许在所述第二机构的设备中使用;
根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据仅被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于图4所示的构建风险评估模型的设备而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、AtmelAT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (25)

1.一种构建风险评估模型的方法,所述方法应用于第一机构的第一服务器,所述方法包括:
获取第二机构的第二服务器的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据被允许在所述第二机构的设备中使用;
根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
2.根据权利要求1所述的方法,所述方法还包括:
将所述更新后的风险评估模型发送给第三机构;所述第三机构根据本机构中的第三样本数据,更新所述更新后的风险评估模型中的第二参数,得到再次更新后的风险评估模型。
3.根据权利要求2所述的方法,所述再次更新后的风险评估模型的评分准确率满足预设准确率。
4.根据权利要求2所述的方法,所述得到再次更新后的风险评估模型之后,还包括:
将所述再次更新后的风险评估模型输入到各个机构中进行本地测试。
5.根据权利要求4所述的方法,所述将所述再次更新后的风险评估模型输入到各个机构中进行本地测试,具体包括:
对于任意一个机构,将该机构中的数据输入所述再次更新后的风险评估模型中,得到所述再次更新后的风险评估模型的预测结果;
根据所述预测结果,计算所述再次更新后的风险评估模型的预测准确率;
判断所述再次更新后的风险评估模型的预测准确率是否达到对应于所述任意一个机构的预设准确率,得到判断结果;
当所述判断结果表示所述再次更新后的风险评估模型的预测准确率达到对应于所述任意一个机构的预设准确率时,确定所述再次更新后的风险评估模型通过所述任意一个机构的测试。
6.根据权利要求1所述的方法,所述获取第二机构的第二服务器训练得到的风险评估模型,具体包括:
从区块链系统中获取加密后的风险评估模型,并进行解密。
7.根据权利要求6所述的方法,所述根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型之后,还包括:
将所述更新后的风险评估模型进行加密,并上传至所述区块链系统中进行存储。
8.根据权利要求6所述的方法,所述获取第二机构的第二服务器训练得到的风险评估模型之后,还包括:
获取用于表示所述风险评估模型是由所述第二机构采用所述第一样本数据进行训练的第一可验证声明;所述第一可验证声明中至少包括所述第二机构的数字签名以及所述风险评估模型的版本信息,所述区块链系统中还存储有与所述版本信息对应的所述第一样本数据的数据标识。
9.根据权利要求6所述的方法,所述根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型之后,还包括:
生成第二可验证声明,所述第二可验证声明用于表示所述更新后的风险评估模型是由所述第一机构采用所述第二样本数据进行训练得到的;所述第二可验证声明中至少包括所述第一机构的数字签名以及所述更新后的风险评估模型的版本信息。
10.根据权利要求8所述的方法,所述根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型之前,还包括:
从所述区块链系统中获取分布式数字身份标识的文档中的公钥;
采用所述公钥验证所述第一可验证声明;
所述第一可验证声明验证通过后,根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型。
11.根据权利要求9所述的方法,生成第二可验证声明之后,还包括:
将所述第二可验证声明以及与所述更新后的风险评估模型的版本信息对应的所述第二样本数据的数据标识发送至所述区块链系统中进行保存;所述区块链系统中还保存有加密后的更新后的风险评估模型。
12.根据权利要求1所述的方法,还包括:
预先加载可信操作系统,以提供所述第一服务器、第二服务器执行训练模型过程的运行环境。
13.根据权利要求5所述的方法,所述判断所述再次更新后的风险评估模型的预测准确率是否达到对应于所述任意一个机构的预设准确率,得到判断结果之后,还包括:
当所述再次更新后的风险评估模型的预测准确率未达到对应于所述任意一个机构的预设准确率时,采用所述任意一个机构中的样本数据对所述再次更新后的风险评估模型进行训练,对所述再次更新后的风险评估模型中的参数进行调优,直至所述再次更新后的风险评估模型的预测准确率满足所述任意一个机构对应的预设值为止,得到调优后的风险评估模型。
14.根据权利要求1所述的方法,所述风险评估模型为逻辑回归模型;所述获取第二机构的第二服务器训练得到的风险评估模型,具体包括:
确定第二机构发送的所述风险评估模型中的第一参数;
所述根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型,具体包括:
根据所述第一参数以及所述第二样本数据,对逻辑回归模型进行训练,得到更新后的风险评估模型。
15.根据权利要求1所述的方法,所述第一机构以及所述第二机构属于信贷机构;
所述第二样本数据至少包括所述第一机构中的用户基本数据、信贷数据以及风险数据。
16.根据权利要求1所述的方法,所述第一机构以及所述第二机构属于金融保险机构;
所述第二样本数据至少包括所述第二机构中的用户基本数据、保险数据以及风险数据。
17.根据权利要求1所述的方法,所述根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型之前,还包括:
获取第二样本数据的数据格式;
将所述第二样本数据的数据格式按照预设数据格式进行转换。
18.根据权利要求14所述的方法,所述确定第二机构发送的所述风险评估模型中的第一参数,具体包括:
根据所述第二机构中的第一样本数据,采用最大似然估计确定所述风险评估模型的第一参数。
19.根据权利要求1所述的方法,所述根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,具体包括:
根据所述第二样本数据,采用梯度上升法对所述第一参数进行更新。
20.一种构建风险评估模型的装置,所述装置应用于第一机构的第一服务器,所述装置包括:
风险评估模型获取模块,用于获取第二机构的第二服务器的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据被允许在所述第二机构的设备中使用;
模型更新模块,用于根据所述第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
21.根据权利要求20所述的装置,所述风险评估模型获取模块,具体包括:
风险评估模型获取单元,用于从区块链系统中获取加密后的风险评估模型,并进行解密。
22.根据权利要求21所述的装置,所述装置,还包括:
第一可验证声明获取模块,用于获取用于表示所述风险评估模型是由所述第二机构采用所述第一样本数据进行训练的第一可验证声明;所述第一可验证声明中至少包括所述第二机构的数字签名以及所述风险评估模型的版本信息,所述区块链系统中还存储有与所述版本信息对应的所述第一样本数据的数据标识。
23.根据权利要求22所述的装置,所述装置,还包括:
第二可验证声明生成模块,用于生成第二可验证声明,所述第二可验证声明用于表示所述更新后的风险评估模型是由所述第一机构采用所述第二样本数据进行训练得到的;所述第二可验证声明中至少包括所述第一机构的数字签名以及所述更新后的风险评估模型的版本信息。
24.一种构建风险评估模型的设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取第二机构的第二服务器的风险评估模型;所述风险评估模型为根据所述第二机构中的第一样本数据进行训练得到的;所述第一样本数据被允许在所述第二机构的设备中使用;根据第一机构中的第二样本数据,更新所述风险评估模型中的第一参数,得到更新后的风险评估模型;所述第二样本数据被允许在所述第一机构的设备中使用;所述更新后的风险评估模型用于对所述第一机构和所述第二机构的数据进行风险评估。
25.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至19中任一项所述的构建风险评估模型的方法。
CN202111171644.3A 2020-12-25 2020-12-25 一种构建风险评估模型的方法、装置及设备 Pending CN113947471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111171644.3A CN113947471A (zh) 2020-12-25 2020-12-25 一种构建风险评估模型的方法、装置及设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011559506.8A CN112288573B (zh) 2020-12-25 2020-12-25 一种构建风险评估模型的方法、装置及设备
CN202111171644.3A CN113947471A (zh) 2020-12-25 2020-12-25 一种构建风险评估模型的方法、装置及设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202011559506.8A Division CN112288573B (zh) 2020-12-25 2020-12-25 一种构建风险评估模型的方法、装置及设备

Publications (1)

Publication Number Publication Date
CN113947471A true CN113947471A (zh) 2022-01-18

Family

ID=74426315

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202011559506.8A Active CN112288573B (zh) 2020-12-25 2020-12-25 一种构建风险评估模型的方法、装置及设备
CN202111171644.3A Pending CN113947471A (zh) 2020-12-25 2020-12-25 一种构建风险评估模型的方法、装置及设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202011559506.8A Active CN112288573B (zh) 2020-12-25 2020-12-25 一种构建风险评估模型的方法、装置及设备

Country Status (1)

Country Link
CN (2) CN112288573B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033605A (zh) * 2021-02-08 2021-06-25 广东迅科动力科技有限公司 电机的故障判断方法、装置、终端设备及计算机存储介质
CN112801557A (zh) * 2021-04-07 2021-05-14 支付宝(杭州)信息技术有限公司 基于区块链的风险评价方法和装置
CN112906139A (zh) * 2021-04-08 2021-06-04 平安科技(深圳)有限公司 车辆故障风险评估方法、装置、电子设备及存储介质
CN114819614A (zh) * 2022-04-22 2022-07-29 支付宝(杭州)信息技术有限公司 数据处理方法、装置、系统及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310206A (zh) * 2019-07-01 2019-10-08 阿里巴巴集团控股有限公司 用于更新风险控制模型的方法和系统
CN110991782A (zh) * 2019-02-21 2020-04-10 北京嘀嘀无限科技发展有限公司 一种风险订单研判方法和系统
CN111047423A (zh) * 2019-11-01 2020-04-21 支付宝(杭州)信息技术有限公司 一种风险确定方法、装置及电子设备
CN111598633A (zh) * 2020-07-24 2020-08-28 北京淇瑀信息科技有限公司 一种基于增量学习的在线广告投放方法、装置和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127197A (zh) * 2019-12-31 2020-05-08 南京币鑫数据科技有限公司 一种外贸供应链金融风险控制的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991782A (zh) * 2019-02-21 2020-04-10 北京嘀嘀无限科技发展有限公司 一种风险订单研判方法和系统
CN110310206A (zh) * 2019-07-01 2019-10-08 阿里巴巴集团控股有限公司 用于更新风险控制模型的方法和系统
CN111047423A (zh) * 2019-11-01 2020-04-21 支付宝(杭州)信息技术有限公司 一种风险确定方法、装置及电子设备
CN111598633A (zh) * 2020-07-24 2020-08-28 北京淇瑀信息科技有限公司 一种基于增量学习的在线广告投放方法、装置和电子设备

Also Published As

Publication number Publication date
CN112288573B (zh) 2021-09-21
CN112288573A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112288573B (zh) 一种构建风险评估模型的方法、装置及设备
US11907266B2 (en) Method and system for self-aggregation of personal data and control thereof
US11899622B2 (en) Management of erasure or retention of user data stored in data stores
AU2018365181B2 (en) Building segment-specific executable program code for modeling outputs
CN109478263A (zh) 用于体系结构评估和策略执行的系统和设备
US11907403B2 (en) Dynamic differential privacy to federated learning systems
US20220198054A1 (en) Rights management regarding user data associated with data lifecycle discovery platform
CA3197813A1 (en) Machine-learning techniques involving monotonic recurrent neural networks
US20180253737A1 (en) Dynamicall Evaluating Fraud Risk
US11507291B2 (en) Data block-based system and methods for predictive models
CA3154647C (en) Maintaining data privacy in a shared detection model system
US20220198044A1 (en) Governance management relating to data lifecycle discovery and management
US20230023630A1 (en) Creating predictor variables for prediction models from unstructured data using natural language processing
US20220327541A1 (en) Systems and methods of generating risk scores and predictive fraud modeling
US11894971B2 (en) Techniques for prediction models using time series data
US11893130B2 (en) Data lifecycle discovery and management
Luo et al. Overview of intelligent online banking system based on HERCULES architecture
CN114402301B (zh) 在共享检测模型系统中维护数据隐私的系统和方法
CN113614726A (zh) 对联邦学习系统的动态差异隐私
US20230196136A1 (en) Machine learning model predictions via augmenting time series observations
CN112948889B (zh) 在数据隐私保护下执行机器学习的方法和系统
WO2023060150A1 (en) Data compression techniques for machine learning models
US20220345323A1 (en) Method, computer program and system for enabling a verification of a result of a computation
US20230342605A1 (en) Multi-stage machine-learning techniques for risk assessment
Wen et al. An introduction of transaction session‐induced security scheme using blockchain technology: Understanding the features of Internet of Things–based financial security systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination