CN112308238A - 解析模型的训练方法、装置、电子设备及存储介质 - Google Patents
解析模型的训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112308238A CN112308238A CN202011254963.6A CN202011254963A CN112308238A CN 112308238 A CN112308238 A CN 112308238A CN 202011254963 A CN202011254963 A CN 202011254963A CN 112308238 A CN112308238 A CN 112308238A
- Authority
- CN
- China
- Prior art keywords
- wind control
- model
- sample
- characteristic data
- test sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Biophysics (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种解析模型的训练方法、装置、电子设备及存储介质;方法包括:获取风控模型的测试样本,测试样本包括至少两个样本用户特征数据;对测试样本进行样本扩展,以构建训练样本,该训练样本包括:对应至少两个样本用户特征数据的至少两个扩展特征数据、及将至少两个扩展特征数据输入风控模型得到的风控评估结果;以训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;该解析模型,用于基于输入风控模型的至少两个用户特征数据,预测得到各用户特征数据对于相应的风控评估结果的影响权重;通过本发明,能够对风控模型输出风控评估结果的预测依据进行解析,提高模型预测结果的置信度。
Description
技术领域
本发明涉及人工智能和区块链技术领域,尤其涉及一种解析模型的训练方法、装置、电子设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。随着人工智能技术的逐渐发展,人工智能已经越来越多地应用于金融风控等领域,比如通过人工智能模型对用户进行风控评估,以基于评估结果为用户办理相应的业务。
如此模型的评估结果的准确性则相当关键。相关技术中,对于模型的预测效果,往往是通过该模型在测试数据集中的表现来说明。但是由于模型对于用户来说是一个黑盒,用户只能看到输出结果,通过模型在测试数据集中的表现来说明模型预测的准确性,用户并不能完全相信或者认可。
发明内容
本发明实施例提供一种解析模型的训练方法、装置、电子设备及存储介质,能够对风控模型输出风控评估结果的预测依据进行解析,提高模型预测结果的置信度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种解析模型的训练方法,包括:
获取风控模型的测试样本,所述测试样本包括至少两个样本用户特征数据;对所述测试样本进行样本扩展,以构建训练样本,所述训练样本包括:对应所述至少两个样本用户特征数据的至少两个扩展特征数据、及将所述至少两个扩展特征数据输入所述风控模型得到的风控评估结果;
以所述训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;
其中,所述解析模型,用于基于输入所述风控模型的至少两个用户特征数据,预测得到各用户特征数据对于相应的风控评估结果的影响权重。
上述方案中,所述获取风控模型的测试样本之前,所述方法还包括:
将所述风控模型的初始模型发送给至少两个参与方设备;
接收各所述参与方设备针对所述初始模型返回的训练结果;
其中,所述训练结果,为相应的所述参与方设备基于存储的样本数据对所述初始模型进行训练得到;
对接收到的各所述参与方设备的训练结果进行聚合,得到聚合后的训练结果;
通过聚合后的训练结果更新所述初始模型的参数,以得到所述风控模型。
上述方案中,所述对接收到的各所述参与方设备的训练结果进行聚合,得到聚合后的训练结果,包括:
获取各所述参与方设备的样本数据量,以得到所述参与方设备的样本数据总量;
基于各所述参与方设备的样本数据量,以及所述样本数据总量,得到各所述参与方设备所对应的权重;
基于各所述参与方设备所对应的权重,对各所述参与方设备的训练结果进行加权平均处理,得到所述聚合后的训练结果。
上述方案中,所述获取风控模型的测试样本,包括:
分别从至少两个参与方设备中获取经过数据脱敏后的样本数据;
提取各所述参与方设备的样本数据之间的交集特征;
基于提取的所述交集特征,构建所述风控模型的测试样本。
上述方案中,所述方法还包括:
对训练得到的所述解析模型进行加密;
将所述加密后的解析模型,分别发送至所述风控模型对应的各参与方设备。
本发明实施例还提供一种解析模型的应用方法,所述方法包括:
获取风控模型的输入数据、及所述风控模型基于所述输入数据预测得到的风控评估结果;
其中,所述输入数据包括针对目标用户的至少两个用户特征数据;
通过所述解析模型对所述输入数据进行预测处理,得到所述输入数据中各用户特征数据对于所述风控评估结果的影响权重;
其中,所述解析模型通过上述实施例提供的解析模型的训练方法训练得到。
本发明实施例还提供一种解析模型的训练装置,包括:
获取模块,用于获取风控模型的测试样本,所述测试样本包括至少两个样本用户特征数据;
构建模块,用于对所述测试样本进行样本扩展,以构建训练样本,所述训练样本包括:对应所述至少两个样本用户特征数据的至少两个扩展特征数据、及将所述至少两个扩展特征数据输入所述风控模型得到的风控评估结果;
拟合模块,用于以所述训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;
其中,所述解析模型,用于基于输入所述风控模型的至少两个用户特征数据,预测得到各用户特征数据对于相应的风控评估结果的影响权重。
上述方案中,所述构建模块,还用于分别为所述测试样本中的各样本用户特征数据添加噪声,得到所述测试样本对应的至少两个扩展特征数据;
基于所述测试样本对应的至少两个扩展特征数据,构建所述训练样本。
上述方案中,所述构建模块,还用于针对所述测试样本,生成目标大小的高斯噪声;
分别为所述测试样本中的各样本用户特征数据添加所述目标大小的高斯噪声,得到所述测试样本对应的至少两个扩展特征数据。
上述方案中,所述构建模块,还用于确定对应所述测试样本的噪声添加范围;
基于所述噪声添加范围,确定所述测试样本对应的噪声添加大小;
基于确定的所述噪声添加大小,为所述测试样本中的各样本用户特征数据添加相应大小的噪声,得到所述测试样本对应的至少两个扩展特征数据。
上述方案中,所述构建模块,还用于确定对应所述测试样本的噪声添加范围;
基于所述噪声添加范围及目标添加次数,确定每次添加至所述测试样本的噪声的大小;
基于确定的每次添加至所述测试样本的噪声的大小,对所述测试样本中的各样本用户特征数据执行所述目标添加次数的噪声添加操作,得到所述测试样本对应的至少两个扩展特征数据。
上述方案中,所述构建模块,还用于通过所述风控模型,对所述测试样本对应的至少两个扩展特征数据进行预测,得到相应的风控评估结果;
基于所述测试样本对应的至少两个扩展特征数据、以及相应的风控评估结果构建所述训练样本。
上述方案中,所述构建模块,还用于获取所述测试样本对应的各扩展特征数据的特征含义;
依据各所述扩展特征数据的特征含义,对所述测试样本对应的扩展特征数据进行筛选,得到所述测试样本对应的目标扩展特征数据;
基于所述测试样本对应的目标扩展特征数据,构建所述训练样本。
上述方案中,所述装置还包括:
聚合模块,用于将所述风控模型的初始模型发送给至少两个参与方设备;
接收各所述参与方设备针对所述初始模型返回的训练结果;
其中,所述训练结果,为相应的所述参与方设备基于存储的样本数据对所述初始模型进行训练得到;
对接收到的各所述参与方设备的训练结果进行聚合,得到聚合后的训练结果;
通过聚合后的训练结果更新所述初始模型的参数,以得到所述风控模型。
上述方案中,所述聚合模块,还用于获取各所述参与方设备的样本数据量,以得到所述参与方设备的样本数据总量;
基于各所述参与方设备的样本数据量,以及所述样本数据总量,得到各所述参与方设备所对应的权重;
基于各所述参与方设备所对应的权重,对各所述参与方设备的训练结果进行加权平均处理,得到所述聚合后的训练结果。
上述方案中,所述获取模块,还用于分别从至少两个参与方设备中获取经过数据脱敏后的样本数据;
提取各所述参与方设备的样本数据之间的交集特征;
基于提取的所述交集特征,构建所述风控模型的测试样本集。
上述方案中,所述装置还包括:
加密模块,用于对训练得到的所述解析模型进行加密;
将所述加密后的解析模型,分别发送至所述风控模型对应的各参与方设备。
上述方案中,所述装置还包括:
呈现模块,用于呈现用于描述所述风控模型的预测依据的图形界面;
在所述图形界面中,呈现所述风控模型预测得到的所述风控评估结果所对应的预测依据;
其中,所述预测依据,用于指示所述输入数据中各用户特征数据对于所述风控评估结果的影响权重。
上述方案中,所述装置还包括:
存储模块,用于调用区块链网络的智能合约对训练得到的所述解析模型进行共识验证,得到验证结果;
当所述验证结果表征共识验证通过后,将训练得到的所述解析模型存储至所述区块链网络中。
本发明实施例还提供一种解析模型的应用装置,包括:
数据获取模块,用于获取风控模型的输入数据、及所述风控模型基于所述输入数据预测得到的风控评估结果;
其中,所述输入数据包括针对目标用户的至少两个用户特征数据;
预测模块,用于通过所述解析模型对所述输入数据进行预测处理,得到所述输入数据中各用户特征数据对于所述风控评估结果的影响权重;
其中,所述解析模型通过上述实施例提供的解析模型的训练方法训练得到。
上述方案中,所述预测模块,还用于将所述输入数据包括的至少两个用户特征数据输入所述解析模型;
通过所述解析模型,对所述至少两个用户特征数据进行预测处理,得到所述风控评估结果与所述至少两个用户特征数据之间的线性关系;
其中,所述线性关系,用于描述各所述用户特征数据对于所述风控评估结果的影响权重。
本发明实施例还提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的解析模型的训练方法。
本发明实施例还提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的解析模型的应用方法。
本发明实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本发明实施例提供的解析模型的训练方法。
本发明实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本发明实施例提供的解析模型的应用方法。
本发明实施例具有以下有益效果:
与相关技术中以模型在测试数据集中的表现来说明模型的预测效果相比,本发明实施例通过获取风控模型的包括样本用户特征数据的测试样本,并对该测试样本进行样本扩展,以构建包括样本用户特征数据对应的扩展特征数据、以及扩展特征数据对应的风控评估结果的训练样本,从而以训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;
这里,该解析模型能够基于输入风控模型的至少两个用户特征数据,预测得到各用户特征数据对于风控模型的风控评估结果的影响权重。如此,基于该解析模型,可以对风控模型预测输出风控评估结果的预测依据进行解析,并预测得到各预测依据对于风控评估结果的影响权重,能够对风控模型进行更为全面准确的解析说明,便于用户理解,从而提高模型预测结果的置信度。
附图说明
图1是本发明实施例提供的解析模型的训练方法的实施场景示意图;
图2是本发明实施例提供的电子设备的结构示意图;
图3是本发明实施例提供的解析模型的训练方法的流程示意图;
图4是本发明实施例提供的解析模型的训练样本的构建流程示意图;
图5是本发明实施例提供的解析模型的预测结果的可视化示意图;
图6是本发明实施例提供的区块链网络的应用架构示意图;
图7是本发明实施例提供的区块链网络600中区块链的结构示意图;
图8是本发明实施例提供的区块链网络600的功能架构示意图;
图9是本发明实施例提供的解析模型的应用方法的流程示意图;
图10是本发明实施例提供的解析模型的训练方法的流程示意图;
图11是本发明实施例提供的基于联邦学习的解析模型的训练示意图;
图12是本发明实施例提供的解析模型的训练装置的结构示意图;
图13是本发明实施例提供的解析模型的应用装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作在一些实施例中详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,描一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)签名,即数字签名,只有信息的发送者才能产生的、别人无法伪造的一段数字串,同时也是对信息的发送者发送信息真实性的有效证明;数字签名通常定义两种互补的运算,一个用于签名,另一个用于验证,是非对称密钥加密技术与数字摘要技术的应用。
2)交易(Transaction),等同于计算机术语“事务”,交易包括了需要提交到区块链网络执行的操作,并非单指商业语境中的交易,鉴于在区块链技术中约定俗成地使用了“交易”这一术语,本发明实施例遵循了这一习惯。
例如,部署(Deploy)交易用于向区块链网络中的节点安装指定的智能合约并准备好被调用;调用(Invoke)交易用于通过调用智能合约在区块链中追加交易的记录,并对区块链的状态数据库进行操作,包括更新操作(包括增加、删除和修改状态数据库中的键值对)和查询操作(即查询状态数据库中的键值对)。
3)区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
4)区块链网络(Blockchain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
5)账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易的快速查询。
6)智能合约(Smart Contracts),也称为链码(Chaincode)或应用代码,部署在区块链网络的节点中的程序,节点执行接收的交易中所调用的智能合约,来对状态数据库的键值对数据进行更新或查询的操作。
7)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,实现共识的机制包括工作量证明(PoW,Proof of Work)、权益证明(PoS,Proof of Stake)、股份授权证明(DPoS,Delegated Proof-of-Stake)、消逝时间量证明(PoET,Proof of Elapsed Time)等。
8)联邦机器学习(Federated machine learning/Federated Learning),又名联邦学习,联合学习,联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现AI协作。
9)数据脱敏,是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
10)风控,是指多银行贷款资金的风险把控,是对风险的一个评估,主要体现在两个方面,包括贷款前的风险评估以及放款后的风险监控。在业务开展初期需要引入海量跨行业数据作为风控模型的基础,建立全面的风险管理体系,并在有数据不足的情况下,建立反欺诈模型、评分模型、授信策略模型、定价模型等风控模型。例如,通过海量数据分析得出模型参数,这些模型参数用于风控模型,基于输入的用户特征数据,可以得出一个用于评分评级的风控评估结果。
基于上述对本发明实施例中涉及的名词和术语的解释,下面说明本发明实施例提供的解析模型的训练方法的实施场景,参见图1,图1是本发明实施例提供的解析模型的训练方法的实施场景示意图,为实现支撑一个示例性应用,终端(包括终端200-1和终端200-2),通过网络300连接服务器100,其中,终端200-1和终端200-2可以是各银行存储有用户特征数据的参与方设备,服务器100可以是用于协助各银行终端进行联邦学习以得到风控模型的服务方设备,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
服务方设备(包括服务器100),用于将风控模型的初始模型发送给各参与方设备;接收各参与方设备针对初始模型返回的训练结果;对接收到的各参与方设备的训练结果进行聚合,得到聚合后的训练结果;通过聚合后的训练结果更新初始模型的参数,得到风控模型并下发至各参与方设备;
各参与方设备(包括终端200-1和终端200-2),用于基于各自所存储的样本数据独立训练该风控模型的初始模型,并将训练过程中得到的训练结果返回至服务方设备;接收下发的风控模型。
服务方设备(包括服务器100),还用于获取风控模型的测试样本;对测试样本进行样本扩展,以构建训练样本;以训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;下发该解析模型至各参与方设备。
在实际应用中,该风控模型可以是信贷逾期模型,如此则可基于目标用户的用户特征数据,输出目标用户是否逾期的风控评估结果。当参与方设备(比如终端200-1)通过风控模型对输入数据进行预测得到风控评估结果后,可通过从服务方设备(比如服务器100)接收到的解析模型,基于风控模型的输入数据,预测得到输入数据中各用户特征数据对于风控评估结果的影响权重并呈现于图形界面中,以实现对风控模型的风控评估结果的预测依据进行线性解析。
在实际应用中,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明在此不做限制。
下面对本发明实施例提供的解析模型的训练方法的电子设备的硬件结构做详细说明,电子设备包括但不限于服务器或终端。参见图2,图2是本发明实施例提供的电子设备的结构示意图,图2所示的电子设备200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。电子设备200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的解析模型的训练装置可以采用软件方式实现,图2示出了存储在存储器250中的解析模型的训练装置255,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、构建模块2552和拟合模块2553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的解析模型的训练装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的解析模型的训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的解析模型的训练方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
基于上述对本发明实施例的解析模型的训练方法的实施场景及电子设备的说明,下面说明本发明实施例提供的解析模型的训练方法。参见图3,图3是本发明实施例提供的解析模型的训练方法的流程示意图,本发明实施例提供的解析模型的训练方法包括:
步骤301:服务方设备获取风控模型的测试样本。
其中,该风控模型,用于基于输入的针对目标用户的至少两个用户特征数据,输出对应目标用户的风控评估结果;该测试样本包括至少两个样本用户特征数据。
这里,该服务方设备或者参与方设备,均可以包括服务器,也可以包括终端。在实际应用中,参与方设备可以是存储有用户特征数据的各银行的终端,服务方设备可以是用于协助各银行终端进行联邦学习以得到风控模型的服务器或终端。
如此,该风控模型即为服务方设备、以及参与训练该风控模型的各参与方设备,基于银行存储的用户特征数据,通过联邦学习的方式得到的全局模型,其能够基于输入的针对目标用户的至少两个用户特征数据,输出对应目标用户的风控评估结果。举例来说,当风控模型为信贷逾期模型时,则可基于目标用户的用户特征数据,输出目标用户是否逾期的风控评估结果。
在一些实施例中,服务方设备可通过如下方式得到上述风控模型:将风控模型的初始模型发送给至少两个参与方设备;接收各参与方设备针对初始模型返回的训练结果;对接收到的各参与方设备的训练结果进行聚合,得到聚合后的训练结果;通过聚合后的训练结果更新初始模型的参数,以得到风控模型。其中,该训练结果,为相应的参与方设备基于存储的样本数据对初始模型进行训练得到。
这里,由于该风控模型可以是联邦学习的全局模型,因此服务方设备可通过如下方式训练得到该风控模型:
第一,服务方设备可预先构建风控模型的初始模型,在联邦学习的训练之初,将构建的初始模型发送至参与训练该风控模型的各参与方设备。
第二,各参与方设备接收到该初始模型,基于各自所存储的样本数据独立训练该风控模型的初始模型,并将训练过程中得到的训练结果返回至服务方设备。具体地,该训练结果可以包括各参与方设备训练结束后初始模型的模型参数、训练过程中的中间结果(比如梯度)等。
第三,服务方设备接收到各参与方设备、针对该风控模型的初始模型返回的训练结果,对接收到的各述参与方设备的训练结果进行聚合处理,从而得到聚合后的训练结果。
第四,服务方设备基于聚合后的训练结果更新该初始模型的参数,从而得到该风控模型。
在一些实施例中,服务方设备可通过如下方式对各参与方设备的训练结果进行聚合:获取各参与方设备的样本数据量,以得到参与方设备的样本数据总量;基于各参与方设备的样本数据量,以及样本数据总量,得到各参与方设备所对应的权重;基于各参与方设备所对应的权重,对各参与方设备的训练结果进行加权平均处理,得到聚合后的训练结果。
这里,服务方设备可根据各参与方设备对应的权重,对各参与方设备的训练结果进行聚合处理。在实际实施时,各参与方设备对应的权重可基于各自存储的训练样本的样本数据量、或者各参与方设备的计算能力确定。
具体地,当基于存储的训练样本的样本数据量确定各参与方设备对应的权重时,可以获取各参与方设备训练样本的样本数据量,以通过加和的方式得到参与方设备训练样本的样本数据总量;然后将各参与方设备对应的样本数据量、与样本数据总量之间比值,确定为相应参与方设备对应的权重。
当基于各参与方设备的计算能力确定各参与方设备对应的权重时,可以获取各参与方设备的计算能力,以通过加和的方式得到参与方设备的总计算能力;然后将各参与方设备的计算能力、与参与方设备的总计算能力之间的比值,确定为相应参与方设备对应的权重。
在一些实施例中,在确定各参与方设备对应的权重后,基于各参与方设备对应的权重,对各参与方设备的训练结果进行加权平均处理,从而得到聚合后的训练结果。
具体地,当该训练结果包括训练结束后初始模型的模型参数时,根据各参与方设备对应的权重,对各参与方设备返回的模型参数进行加权平均处理,将加权平均得到的结果作为风控模型的模型参数,从而得到该风控模型。
当该训练结果包含初始模型训练过程中的中间结果-梯度时,根据各参与方设备对应的权重,对各参与方设备返回的梯度进行加权平均处理,得到聚合梯度,进而根据得到聚合梯度、以及学习率更新风控模型的模型参数,从而得到该风控模型。
在训练得到风控模型后,由于该风控模型的结构相对复杂,为方便对该风控模型的模型质量、预测效果以及风控评估结果的预测依据,进行快速准确地解析,在本发明实施例中,还训练得到风控模型对应的解析模型。
由于训练得到的解析模型能够基于风控模型的输入数据,预测得到该输入数据中各用户特征数据对于风控模型的风控评估结果的影响权重。因此在解析模型的训练之前,可以获取该风控模型的测试样本,以基于该测试样本来构建解析模型的训练样本。
在一些实施例中,服务方设备可通过如下方式获取风控模型的测试样本:分别从至少两个参与方设备中获取经过数据脱敏后的样本数据;提取各参与方设备的样本数据之间的交集特征;基于提取的交集特征,构建风控模型的测试样本。
这里,在实际应用中,在经过各参与方设备的许可后,服务方设备可从各参与方设备获取部分样本数据来构建风控模型的测试样本。具体地,服务方设备可从参与风控模型训练的至少两个参与方设备中,获取各参与方设备存储的样本数据。比如,服务方设备可向各参与方设备发送样本数据的获取请求,以使参与方设备基于该获取请求返回相应的样本数据。
在实际实施时,各参与方设备为保证各自所存储的样本数据的安全性,可对即将发送至服务方设备的样本数据进行数据脱敏处理,以对样本数据中的某些敏感信息通过脱敏规则进行数据的变形,实现样本数据中敏感隐私数据的可靠保护。具体地,各参与方设备可对样本数据中的用户信息(比如身份证号、手机号、卡号等)进行数据脱敏,得到经过数据脱敏后的样本数据。然后将经过数据脱敏后的样本数据发送至服务方设备。
服务方设备接收到各参与方设备发送的经过数据脱敏后的样本数据,确定各参与方设备的样本数据之间存在的交集特征,即各参与方设备的样本数据中存在的相同的用户特征。然后对各参与方设备的样本数据之间的交集特征进行提取,从而基于提取得到的交集特征构建该风控模型的测试样本。
在实际应用中,该风控模型可以是经过联邦学习得到的全局模型,而构建风控模型的测试样本集时,所获取的交集特征是指各参与方设备的样本数据中存在的相同的用户特征,即该测试样本集是按照横向(即用户维度)对样本数据进行切分所得到。因此,该风控模型还可以具体是经过横向联邦学习所得到的全局模型。
需要说明的是,本发明实施例通过数据脱敏的方式保证各设备参与方的样本数据的安全性,在另外一些实施例中,还可以对各设备参与方的样本数据进行加密,以保证样本数据的安全性。对此,本发明实施例中不作限定。
步骤302:对测试样本进行样本扩展,以构建训练样本。
这里,该训练样本包括:对应至少两个样本用户特征数据的至少两个扩展特征数据、及将至少两个扩展特征数据输入风控模型得到的风控评估结果。
在一些实施例中,服务方设备可通过如下方式构建训练样本:分别为测试样本中的各样本用户特征数据添加噪声,得到测试样本对应的至少两个扩展特征数据;基于测试样本对应的至少两个扩展特征数据,构建训练样本。
这里,在获取到风控模型的测试样本之后,为构建解析模型的训练样本,还针对每个测试样本分别进行样本扩展,具体地,为测试样本中的各样本用户特征数据添加噪声,得到该测试样本对应的至少两个扩展特征数据。从而基于扩展后的样本,即测试样本对应的至少两个扩展特征数据,构建用于训练解析模型的训练样本。
在一些实施例中,服务方设备可通过如下方式得到测试样本对应的扩展特征数据:针对测试样本,生成目标大小的高斯噪声;分别为测试样本中的各样本用户特征数据添加目标大小的高斯噪声,得到测试样本对应的至少两个扩展特征数据。
这里,可以针对测试样本,生成目标大小的高斯噪声,当为测试样本中的各样本用户特征数据添加噪声时,将该测试样本对应的目标大小的高斯噪声,添加至相应测试样本中的各样本用户特征数据中,从而得到该测试样本对应的至少两个扩展特征数据。
在实际应用中,该高斯噪声是指概率密度函数服从高斯分布(即正态分布)的一类噪声,为测试样本中的样本用户特征数据添加高斯噪声,可以保证原始的样本用户特征数据和添加噪声后的噪声样本数据的距离相差不会太远,以保证基于此类噪声样本数据构建的解析模型的训练样本的准确性。
在一些实施例中,服务方设备还可通过如下方式得到测试样本对应的扩展特征数据:确定对应测试样本的噪声添加范围;基于噪声添加范围,确定测试样本对应的噪声添加大小;基于确定的噪声添加大小,为测试样本中的各样本用户特征数据添加相应大小的噪声,得到测试样本对应的至少两个扩展特征数据。
这里,为了保证原始的样本用户特征数据和添加噪声后的噪声样本数据的距离相差不要太远,需要确定对应测试样本的噪声添加范围,该噪声添加范围可以是针对各样本用户特征数据依据实际情况预先设置的。
在确定对应测试样本的噪声添加范围后,基于噪声添加范围,确定测试样本对应的噪声添加大小;然后可以为测试样本中的各样本用户特征数据添加相应大小的噪声,以得到测试样本对应的至少两个扩展特征数据。
需要说明的是,这里是针对测试样本,添加了一次噪声。也就是说,基于测试样本中的每一个样本用户特征数据,可以得到该样本用户特征数据对应的一个扩展特征数据。
在一些实施例中,服务方设备还可通过如下方式得到各测试样本对应的扩展特征数据:确定对应测试样本的噪声添加范围;基于噪声添加范围及目标添加次数,确定每次添加至测试样本的噪声的大小;基于确定的每次添加至测试样本的噪声的大小,对测试样本中的各样本用户特征数据执行目标添加次数的噪声添加操作,得到测试样本对应的至少两个扩展特征数据。
这里,为了构建数据量更大的解析模型的训练样本,还可以通过如下方式对测试样本进行扩展:针对该测试样本,确定相应的噪声添加范围,具体可以是根据样本数据特征预先设置该测试样本对应的噪声添加范围。在确定测试样本对应的噪声添加范围后,还需获取测试样本对应的目标添加次数,具体地该目标添加次数也可以是预先针对测试样本设置的。
在得到噪声添加范围及目标添加次数后,基于该噪声添加范围,确定每次添加至测试样本的噪声的大小。进而基于确定的每次添加至测试样本的噪声的大小,对测试样本中的各样本用户特征数据执行目标添加次数的噪声添加操作,得到测试样本对应的至少两个扩展特征数据。
需要说明的是,这里是针对测试样本,添加了多次噪声。也就是说,基于测试样本中的每一个样本用户特征数据,可以得到该样本用户特征数据对应的多个扩展特征数据。基于此,可以增加构建解析模型的训练样本的数据量,以提升解析模型的训练效果。
在得到测试样本对应的至少两个扩展特征数据后,此时基于该测试样本对应的至少两个扩展特征数据,构建用于训练解析模型的训练样本。在一些实施例中,服务方设备基于扩展特征数据,可通过如下方式构建训练样本:通过风控模型,对测试样本对应的至少两个扩展特征数据进行预测,得到相应的风控评估结果;基于测试样本对应的至少两个扩展特征数据、以及相应的风控评估结果构建训练样本。
在实际应用中,服务方设备可通过风控模型,分别对测试样本对应的至少两个扩展特征数据进行预测,得到各扩展特征数据对应的风控评估结果;然后基于测试样本对应的至少两个扩展特征数据、以及各扩展特征数据对应的风控评估结果构建训练样本。
在一些实施例中,服务方设备可通过如下方式构建训练样本:获取测试样本对应的各扩展特征数据的特征含义;依据各扩展特征数据的特征含义,对测试样本对应的扩展特征数据进行筛选,得到测试样本对应的目标扩展特征数据;基于测试样本对应的目标扩展特征数据,构建训练样本。
这里,测试样本中对应的扩展特征数据均具备相应的特征含义,该扩展特征数据对应的特征含义、与扩展特征数据未添加噪声之前的原始的样本用户特征数据的特征含义是一致的。该特征含义用于描述相应样本用户特征数据的实际含义,比如“过去半年的收入”、“过去半年的消费行为”、“职业”、“年龄”等。而在实际应用中,该样本用户特征数据中可能存在没有实际含义的数据,比如某个样本用户特征数据虽然存在,但是并未标识其实际含义,无法确定该样本用户特征数据的特征是“年龄”、是“职业”,还是其他。此时在基于扩展特征数据构建训练样本时,则需要对扩展特征数据进行筛选,以去除不具备实际含义的数据。
在实际应用中,可依据扩展特征数据的特征含义进行筛选。具体地,获取测试样本对应的扩展特征数据的特征含义,依据扩展特征数据的特征含义,对不具备实际特征含义的扩展特征数据进行筛选去除,得到测试样本对应的目标扩展特征数据,该目标扩展特征数据均具备相应的特征含义;此时则基于各测试样本对应的目标扩展特征数据,构建训练样本集。
举例来说,参见图4,图4是本发明实施例提供的解析模型的训练样本的构建流程示意图。这里,针对测试样本执行以下操作:针对测试样本(x,y)中的样本用户特征数据x,均多次添加不同的噪声,得到扩展特征数据x1、x2……xn;将得到的扩展特征数据输入风控模型中,通过风控模型对扩展特征数据进行预测,得到相应的风控评估结果,包括y1、y2……yn,以得到数据集(x1,y1)、(x2,y2)……(xn,yn)。
然后对得到的数据集(x1,y1)、(x2,y2)……(xn,yn)进行筛选,去除无具体特征含义的数据,得到扩展特征数据(x1',y1')、(x2',y2')……(xn',yn'),从而基于筛选后的扩展特征数据构建解析模型的训练样本,进而基于构建的训练样本,训练解析模型。
步骤303:以训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型。
其中,该解析模型,用于基于输入风控模型的至少两个用户特征数据,预测得到各用户特征数据对于相应的风控评估结果的影响权重。
在构建得到解析模型的训练样本之后,基于该训练样本,对解析模型进行模型训练,以得到训练完成的解析模型。由于该训练样本由至少两个扩展特征数据、及通过风控模型对至少两个噪声数据进行预测所得的风控评估结果构成;在一些实施例中,服务方设备可通过如下方式训练得到解析模型:以训练样本中的各扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型,以使该解析模型能够输出风控评估结果与至少两个扩展特征数据之间的线性关系。
这里,在实际实施时,该解析模型为线性模型,可用于输出因变量与至少两个自变量之间的线性关系。因此,该解析模型能够用于对风控模型的风控评估结果的预测依据,进行快速准确地线性解析,以得到风控模型基于输入的用户特征数据为什么输出该风控评估结果。也就是说,该解析模型能够基于风控模型的输入数据,预测得到该输入数据中各用户特征数据对于风控模型的风控评估结果的影响权重。具体地,可以针对解析模型预测输出的各用户特征数据对于风控评估结果的影响权重,按照各用户特征数据对应的影响权重对用户特征数据进行降序排序,将位于排序靠前的目标数量的用户特征数据,作为影响风控模型的风控评估结果的重要影响因子。从而实现对风控模型的风控评估结果的预测依据进行线性解析。
在一些实施例中,服务方设备还可呈现用于描述风控模型的预测依据的图形界面;在图形界面中,呈现风控模型预测得到的所述风控评估结果所对应的预测依据。其中,该预测依据,用于指示输入数据中各用户特征数据对于风控评估结果的影响权重。
在实际应用中,服务方设备在得到风控模型预测得到的风控评估结果所对应的预测依据后,还可将其呈现在图形界面中以方便用户查看和了解。
举例来说,参见图5,图5是本发明实施例提供的解析模型的预测结果的可视化示意图。这里,在银行的风控建模场景中,该风控模型用于预测办理银行业务的目标用户是否为逾期用户。当针对该风控模型,输入目标用户的用户特征数据后,通过该风控模型预测得到该目标用户为逾期用户。在得到风控模型的风控评估结果后,为方便银行向目标用户解释输出“目标用户为逾期用户”的原因,可将目标用户的用户特征数据输入上述训练得到的解析模型中,通过解析模型预测得到,目标用户的用户特征数据对于风控评估结果“目标用户为逾期用户”的影响权重。
如图5所示,对于风控模型的风控评估结果为“目标用户为逾期用户”的预测依据包括:过去半年的收入、历史逾期次数、过去半年的消费行为、最近一个月的消费行为、职业和年龄等用户特征数据。而各用户特征数据的影响权重如图5中的条形图所示,该条形图的长度用于描述目标用户的各特征数据对于预测结果的影响权重。其中,影响权重较大的包括“过去半年的收入”和“历史逾期次数”,即风控模型输出“目标用户为逾期用户”的风控评估结果,大概率是因为该目标用户在过去的半年的收入不高,且历史上有过逾期的记录。
在一些实施例中,服务方设备可对训练得到的解析模型进行加密;将加密后的解析模型,分别发送至风控模型对应的各参与方设备。
在实际应用中,服务方设备在训练得到解析模型后,可以将该训练得到的解析模型,分别发送至风控模型对应的各参与方设备,以使各参与方设备均可基于该解析模型对风控模型的风控评估结果的预测依据进行解析。
在实际实施时,服务方设备可以对该解析模型进行加密,然后将加密后的解析模型分别发送至各参与方设备,以保证解析模型的安全性。在实际实施时,服务方设备可以采用对称加密、或者不对称加密的方式对解析模型进行加密。
具体地,对于对称加密,可以通过密钥协商算法协商得到密钥,比如通过超文本传输安全协议(Hyper Text Transfer Protocol over SecureSocket Layer,HTTPS)的密钥协商过程来协商对称加密算法的密钥;然后采用对称加密算法对解析模型进行加密处理,得到加密后的解析模型。
对于非对称加密,可以通过非对称加密算法(比如RSA加密算法)得到公钥和私钥。服务方设备和各参与方设备同步各自持有的密钥对中的公钥,进而服务方设备在发送解析模型时,可使用各参与设备的公钥进行加密,然后将加密后的解析模型发送至相应的参与方设备;当各参与方设备接收到加密的解析模型后,通过自身持有的私钥进行解密,以得到该解析模型。
为进一步保证解析模型的安全性,还可以采用数字签名的方式,服务方设备在发送解析模型时,还可以携带自身的数字签名。参与方设备接收到解析模型后,首先对携带的数字签名进行验证,如果验证通过,则继续后续操作,比如保存该解析模型;如果验证不通过,则丢弃并重新请求解析模型。在实际实施时,该数字签名还可以和上述的加密方案进行结合,即在加密的解析模型的基础上再进行数字签名,以使参与方设备在接收到该解析模型后,只有在数字签名验证通过时才执行解析模型的解密操作。
在一些实施例中,服务方设备可调用区块链网络的智能合约对训练得到的解析模型进行共识验证,得到验证结果;当验证结果表征共识验证通过后,将训练得到的解析模型存储至区块链网络中。
在实际应用中,服务方设备在训练得到解析模型后,还可以结合区块链技术,将解析模型存储至区块链网络,以使在各参与方获取该解析模型时,能够直接从区块链网络中获取到解析模型。
这里,在训练得到解析模型后,生成用于存储解析模型的交易,并发送生成的交易至区块链网络的节点,以使节点对交易共识后将解析模型存储至区块链网络;在存储至区块链网络之前,服务方设备还可获取解析模型对应的密钥的摘要信息;将得到的密钥的摘要信息存储至区块链网络。
接下来对本发明实施例中的区块链网络进行说明。图6为本发明实施例提供的区块链网络的应用架构示意图,包括区块链网络600(示例性示出了共识节点610,如共识节点610-1至共识节点610-3)、认证中心700、业务主体800,下面分别说明。
区块链网络600的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备(例如终端/服务器),都可以在不需要授权的情况下接入区块链网络600;以联盟链为例,业务主体在获得授权后其下辖的电子设备可以接入区块链网络600。如此,成为区块链网络600中的客户端节点。
在一些实施例中,客户端节点可以只作为区块链网络600的观察者,即提供支持业务主体发起交易(例如,用于上链存储数据或查询链上数据)功能,对于区块链网络600的共识节点610的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络600中,通过区块链网络600实现数据和业务处理过程的可信和可追溯。
区块链网络600中的共识节点接收来自不同业务主体(如业务主体800)的客户端节点(如归属于业务主体800的客户端节点810)提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回至业务主体的客户端节点中显示。
下面以业务主体接入区块链网络以实现解析模型的获取为例说明区块链的示例性应用。
参见图6,解析模型的训练方法涉及的业务主体800,从认证中心700进行登记注册获得数字证书,数字证书中包括业务主体的公钥、以及认证中心700对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络会根据身份进行验证,例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络600请求接入而成为客户端节点。
首先,业务主体800的客户端节点810在获取解析模型时,生成用于获取区块链中存储的解析模型的交易,在交易中指定了实现解析模型的获取操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点810的数字证书、签署的数字签名(例如,使用客户端节点810的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络600中的共识节点。
然后,区块链网络600的共识节点610接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体800的身份,确认业务主体800是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署共识节点610自己的数字签名(例如,使用节点610-1的私钥对交易的摘要进行加密得到),并继续在区块链网络600中广播。
最后,区块链网络600中的共识节点610接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络600中的共识节点610在广播新区块时,会对新区块进行共识过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的获取解析模型的交易,从状态数据库中查询解析模型对应的键值对,并返回交易结果。
作为区块链的示例,参见图7,图7是本发明实施例提供的区块链网络600中区块链的结构示意图,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长,区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。
下面说明本发明实施例提供的区块链网络的示例性的功能架构,参见图8,图8是本发明实施例提供的区块链网络600的功能架构示意图,包括应用层1、共识层2、网络层3、数据层4和资源层5,下面分别进行说明。
资源层5封装了实现区块链网络600中的各个节点610的计算资源、存储资源和通信资源。
数据层4封装了实现账本的各种数据结构,包括以文件系统中的文件实现的区块链,键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。
网络层3封装了点对点(P2P,Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。
其中,P2P网络协议实现区块链网络600中节点610之间的通信,数据传播机制保证了交易在区块链网络600中的传播,数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点610之间传输数据的可靠性;接入认证机制用于根据实际的业务场景对加入区块链网络600的业务主体的身份进行认证,并在认证通过时赋予业务主体接入区块链网络600的权限;业务主体身份管理用于存储允许接入区块链网络600的业务主体的身份、以及权限(例如能够发起的交易的类型)。
共识层2封装了区块链网络600中的节点610对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法,支持共识算法的可插拔。
交易管理用于验证节点610接收的交易中携带的数字签名,验证业务主体的身份信息,并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息);对于获得接入区块链网络600的授权的业务主体而言,均拥有认证中心颁发的数字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的合法身份。
账本管理用于维护区块链和状态数据库。对于取得共识的区块,追加到区块链的尾部;执行取得共识的区块中的交易,当交易包括更新操作时更新状态数据库中的键值对,当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作,包括:根据区块序列号(例如交易的哈希值)查询区块;根据区块哈希值查询区块;根据交易序列号查询区块;根据交易序列号查询交易;根据业务主体的账号(序列号)查询业务主体的账号数据;根据通道名称查询通道中的区块链。
应用层1封装了区块链网络能够实现的各种业务,包括交易的溯源、存证和验证等。
应用本发明上述实施例,通过获取风控模型的包括样本用户特征数据的测试样本,并对该测试样本进行样本扩展,以构建包括样本用户特征数据对应的扩展特征数据、以及扩展特征数据对应的风控评估结果的训练样本,从而以训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;
这里,该解析模型能够基于输入风控模型的至少两个用户特征数据,预测得到各用户特征数据对于风控模型的风控评估结果的影响权重。如此,基于该解析模型,可以对风控模型预测输出风控评估结果的预测依据进行解析,并预测得到各预测依据对于风控评估结果的影响权重,能够对风控模型进行更为全面准确的解析说明,便于用户理解,从而提高模型预测结果的置信度。
在对本发明实施例提供的解析模型的训练方法进行说明之后,接下来说明本发明实施例提供的解析模型的应用方法。参见图9,图9是本发明实施例提供的解析模型的应用方法的流程示意图,本发明实施例提供的解析模型的应用方法包括:
步骤901:服务方设备获取风控模型的输入数据、及风控模型基于输入数据预测得到的风控评估结果。
其中,该输入数据包括针对目标用户的至少两个用户特征数据。
步骤902:通过解析模型对输入数据进行预测处理,得到输入数据中各用户特征数据对于风控评估结果的影响权重。
在一些实施例中,服务方设备可通过如方式得到输入数据中各用户特征数据对于风控评估结果的影响权重:将输入数据包括的至少两个用户特征数据输入解析模型;通过解析模型,对至少两个用户特征数据进行预测处理,得到风控评估结果与至少两个用户特征数据之间的线性关系;其中,该线性关系,用于描述各用户特征数据对于风控评估结果的影响权重。
在实际应用中,服务方设备在基于上述提供的解析模型的训练方法训练得到解析模型后,可基于该解析模型对风控模型的风控评估结果的预测依据,进行快速准确地线性解析。
具体地,将风控模型的输入数据中包含的目标用户的至少两个用户特征数据,输入到解析模型中。通过解析模型,分别对该至少两个用户特征数据进行预测,得到风控模型针对该输入数据的风控评估结果、与该至少两个用户特征数据之间的线性关系。该线性关系用于描述各用户特征数据对于风控评估结果的影响权重。
应用本发明上述实施例,可通过解析模型对风控模型的风控评估结果的预测依据,进行快速准确地线性解析,以得到各用户特征数据对于该风控模型的风控评估结果的影响权重,如此能够对风控模型进行更为全面准确的解析说明,便于用户理解。
下面将说明本发明实施例在一个实际的应用场景中的示例性应用。本发明实施例提供的解析模型的训练方法可以由服务方设备及至少两个参与方设备协同实施,其中,该服务方设备和参与方设备均可以是服务器,也可以是终端。参见图10,图10为本发明实施例提供的解析模型的训练方法的流程示意图,本发明实施例提供的解析模型的训练方法包括:
步骤1001:服务方设备将风控模型的初始模型发送给各参与方设备。
步骤1002:参与方设备基于各自所存储的样本数据独立训练该风控模型的初始模型,并将训练过程中得到的训练结果返回至服务方设备。
步骤1003:服务方设备接收各参与方设备针对初始模型返回的训练结果;对接收到的各参与方设备的训练结果进行聚合,得到聚合后的训练结果。
步骤1004:通过聚合后的训练结果更新初始模型的参数,得到风控模型并下发至各参与方设备。
这里,该风控模型,用于基于输入的针对目标用户的至少两个用户特征数据,输出对应目标用户的风控评估结果。
步骤1005:各参与方设备接收风控模型,并基于输入的针对目标用户的至少两个用户特征数据,通过风控模型输出对应目标用户的风控评估结果。
步骤1006:服务方设备获取风控模型的测试样本,该测试样本包括至少两个样本用户特征数据。
这里,参见图11,图11是本发明实施例提供的基于联邦学习的解析模型的训练示意图。在服务方设备S、以及各参与方设备(C1、C2……Cm)通过联邦学习的方式训练得到风控模型后,由于该风控模型的结构相对复杂,为方便对该风控模型的模型质量、预测效果以及预测输出结果的预测依据,进行快速准确地解析,在本发明实施例中,还针对该风控模型,训练得到风控模型对应的解析模型,该解析模型能够基于风控模型的输入数据,预测得到输入数据中各用户特征数据对于风控模型的风控评估结果的影响权重。
在实际应用中,服务方设备可分别从至少两个参与方设备中获取经过数据脱敏后的样本数据;提取各参与方设备的样本数据之间的交集特征;基于提取的交集特征,构建风控模型的测试样本。
步骤1007:分别为测试样本中的各样本用户特征数据添加噪声,得到测试样本对应的扩展特征数据。
步骤1008:通过风控模型,对测试样本对应的扩展特征数据进行预测,得到相应的风控评估结果。
步骤1009:基于测试样本对应的扩展特征数据、以及相应的风控评估结果构建训练样本。
步骤1010:基于训练样本,训练得到解析模型。
在实际实施时,该解析模型为线性模型。在基于训练样本训练该解析模型时,可分别以各训练样本包括的各扩展特征数据作为自变量、以相应的风控模型的预测结果作为因变量,来拟合该线性模型,直至损失函数收敛,从而得到该解析模型。
步骤1011:对训练得到的解析模型进行加密,将加密后的解析模型分别发送至各参与方设备。
步骤1012:参与方设备接收到解析模型,通过解析模型对风控模型的输入数据进行预测,得到输入风控模型的各用户特征数据对于风控模型的风控评估结果的影响权重。
步骤1013:通过图形界面,呈现风控模型预测得到的风控评估结果所对应的预测依据、以及相应的影响权重。
如图5所示,图5是本发明实施例提供的解析模型的预测结果的可视化示意图。这里,对于风控模型的风控评估结果为“目标用户为逾期用户”的预测依据包括:过去半年的收入、历史逾期次数、过去半年的消费行为、最近一个月的消费行为、职业和年龄等用户特征数据。而各用户特征数据的影响权重如图5中的条形图所示,该条形图的长度用于描述目标用户的各特征数据对于预测结果的影响权重。其中,影响权重较大的包括“过去半年的收入”和“历史逾期次数”,即风控模型输出“目标用户为逾期用户”的风控评估结果,大概率是因为该目标用户在过去的半年的收入不高,且历史上有过逾期的记录。
应用本发明上述实施例,通过获取风控模型的包括样本用户特征数据的测试样本,并对该测试样本进行样本扩展,以构建包括样本用户特征数据对应的扩展特征数据、以及扩展特征数据对应的风控评估结果的训练样本,从而以训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;
这里,该解析模型能够基于输入风控模型的至少两个用户特征数据,预测得到各用户特征数据对于风控模型的风控评估结果的影响权重。如此,基于该解析模型,可以对风控模型预测输出风控评估结果的预测依据进行解析,并预测得到各预测依据对于风控评估结果的影响权重,能够对风控模型进行更为全面准确的解析说明,便于用户理解,从而提高模型预测结果的置信度。
下面继续说明本发明实施例提供的解析模型的训练装置255,参见图12,图12是本发明实施例提供的解析模型的训练装置255的结构示意图,本发明实施例提供的解析模型的训练装置255包括:
获取模块2551,用于获取风控模型的测试样本,所述测试样本包括至少两个样本用户特征数据;
构建模块2552,用于对所述测试样本进行样本扩展,以构建训练样本,所述训练样本包括:对应所述至少两个样本用户特征数据的至少两个扩展特征数据、及将所述至少两个扩展特征数据输入所述风控模型得到的风控评估结果;
拟合模块2553,用于以所述训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;
其中,所述解析模型,用于基于输入所述风控模型的至少两个用户特征数据,预测得到各用户特征数据对于相应的风控评估结果的影响权重。
在一些实施例中,所述构建模块2552,还用于分别为所述测试样本中的各样本用户特征数据添加噪声,得到所述测试样本对应的至少两个扩展特征数据;
基于所述测试样本对应的至少两个扩展特征数据,构建所述训练样本。
在一些实施例中,所述构建模块2552,还用于针对所述测试样本,生成目标大小的高斯噪声;
分别为所述测试样本中的各样本用户特征数据添加所述目标大小的高斯噪声,得到所述测试样本对应的至少两个扩展特征数据。
在一些实施例中,所述构建模块2552,还用于确定对应所述测试样本的噪声添加范围;
基于所述噪声添加范围,确定所述测试样本对应的噪声添加大小;
基于确定的所述噪声添加大小,为所述测试样本中的各样本用户特征数据添加相应大小的噪声,得到所述测试样本对应的至少两个扩展特征数据。
在一些实施例中,所述构建模块2552,还用于确定对应所述测试样本的噪声添加范围;
基于所述噪声添加范围及目标添加次数,确定每次添加至所述测试样本的噪声的大小;
基于确定的每次添加至所述测试样本的噪声的大小,对所述测试样本中的各样本用户特征数据执行所述目标添加次数的噪声添加操作,得到所述测试样本对应的至少两个扩展特征数据。
在一些实施例中,所述构建模块2552,还用于通过所述风控模型,对所述测试样本对应的至少两个扩展特征数据进行预测,得到相应的风控评估结果;
基于所述测试样本对应的至少两个扩展特征数据、以及相应的风控评估结果构建所述训练样本。
在一些实施例中,所述构建模块2552,还用于获取所述测试样本对应的各扩展特征数据的特征含义;
依据各所述扩展特征数据的特征含义,对所述测试样本对应的扩展特征数据进行筛选,得到所述测试样本对应的目标扩展特征数据;
基于所述测试样本对应的目标扩展特征数据,构建所述训练样本。
在一些实施例中,所述装置还包括:
聚合模块,用于将所述风控模型的初始模型发送给至少两个参与方设备;
接收各所述参与方设备针对所述初始模型返回的训练结果;
其中,所述训练结果,为相应的所述参与方设备基于存储的样本数据对所述初始模型进行训练得到;
对接收到的各所述参与方设备的训练结果进行聚合,得到聚合后的训练结果;
通过聚合后的训练结果更新所述初始模型的参数,以得到所述风控模型。
在一些实施例中,所述聚合模块,还用于获取各所述参与方设备的样本数据量,以得到所述参与方设备的样本数据总量;
基于各所述参与方设备的样本数据量,以及所述样本数据总量,得到各所述参与方设备所对应的权重;
基于各所述参与方设备所对应的权重,对各所述参与方设备的训练结果进行加权平均处理,得到所述聚合后的训练结果。
在一些实施例中,所述获取模块2551,还用于分别从至少两个参与方设备中获取经过数据脱敏后的样本数据;
提取各所述参与方设备的样本数据之间的交集特征;
基于提取的所述交集特征,构建所述风控模型的测试样本集。
在一些实施例中,所述装置还包括:
加密模块,用于对训练得到的所述解析模型进行加密;
将所述加密后的解析模型,分别发送至所述风控模型对应的各参与方设备。
在一些实施例中,所述装置还包括:
呈现模块,用于呈现用于描述所述风控模型的预测依据的图形界面;
在所述图形界面中,呈现所述风控模型预测得到的所述风控评估结果所对应的预测依据;
其中,所述预测依据,用于指示所述输入数据中各用户特征数据对于所述风控评估结果的影响权重。
在一些实施例中,所述装置还包括:
存储模块,用于调用区块链网络的智能合约对训练得到的所述解析模型进行共识验证,得到验证结果;
当所述验证结果表征共识验证通过后,将训练得到的所述解析模型存储至所述区块链网络中。
应用本发明上述实施例,通过获取风控模型的包括样本用户特征数据的测试样本,并对该测试样本进行样本扩展,以构建包括样本用户特征数据对应的扩展特征数据、以及扩展特征数据对应的风控评估结果的训练样本,从而以训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;
这里,该解析模型能够基于输入风控模型的至少两个用户特征数据,预测得到各用户特征数据对于风控模型的风控评估结果的影响权重。如此,基于该解析模型,可以对风控模型预测输出风控评估结果的预测依据进行解析,并预测得到各预测依据对于风控评估结果的影响权重,能够对风控模型进行更为全面准确的解析说明,便于用户理解,从而提高模型预测结果的置信度。
下面说明本发明实施例提供的解析模型的应用装置1300,参见图13,图13是本发明实施例提供的解析模型的应用装置1300的结构示意图,本发明实施例提供的解析模型的应用装置1300包括:
数据获取模块1310,用于获取风控模型的输入数据、及所述风控模型基于所述输入数据预测得到的风控评估结果;
其中,所述输入数据包括针对目标用户的至少两个用户特征数据;
预测模块1320,用于通过所述解析模型对所述输入数据进行预测处理,得到所述输入数据中各用户特征数据对于所述风控评估结果的影响权重;
其中,所述解析模型通过上述实施例提供的解析模型的训练方法训练得到。
在一些实施例中,所述预测模块1320,还用于将所述输入数据包括的至少两个用户特征数据输入所述解析模型;
通过所述解析模型,对所述至少两个用户特征数据进行预测处理,得到所述风控评估结果与所述至少两个用户特征数据之间的线性关系;
其中,所述线性关系,用于描述各所述用户特征数据对于所述风控评估结果的影响权重。
应用本发明上述实施例,可通过解析模型对风控模型的风控评估结果的预测依据,进行快速准确地线性解析,以得到各用户特征数据对于该风控模型的风控评估结果的影响权重,如此能够对风控模型进行更为全面准确的解析说明,便于用户理解。
本发明实施例还提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的解析模型的训练方法。
本发明实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本发明实施例提供的解析模型的训练方法。
本发明实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本发明实施例提供的解析模型的训练方法。
本发明实施例还提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的解析模型的应用方法。
本发明实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本发明实施例提供的解析模型的应用方法。
本发明实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本发明实施例提供的解析模型的应用方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (14)
1.一种解析模型的训练方法,其特征在于,所述方法包括:
获取风控模型的测试样本,所述测试样本包括至少两个样本用户特征数据;
对所述测试样本进行样本扩展,以构建训练样本,所述训练样本包括:对应所述至少两个样本用户特征数据的至少两个扩展特征数据、及将所述至少两个扩展特征数据输入所述风控模型得到的风控评估结果;
以所述训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;
其中,所述解析模型,用于基于输入所述风控模型的至少两个用户特征数据,预测得到各用户特征数据对于相应的风控评估结果的影响权重。
2.如权利要求1所述的方法,其特征在于,所述对所述测试样本进行样本扩展,以构建训练样本,包括:
分别为所述测试样本中的各样本用户特征数据添加噪声,得到所述测试样本对应的至少两个扩展特征数据;
基于所述测试样本对应的至少两个扩展特征数据,构建所述训练样本。
3.如权利要求2所述的方法,其特征在于,所述分别为所述测试样本中的各样本用户特征数据添加噪声,得到所述测试样本对应的至少两个扩展特征数据,包括:
针对所述测试样本,生成目标大小的高斯噪声;
分别为所述测试样本中的各样本用户特征数据添加所述目标大小的高斯噪声,得到所述测试样本对应的至少两个扩展特征数据。
4.如权利要求2所述的方法,其特征在于,所述分别为所述测试样本中的各样本用户特征数据添加噪声,得到所述测试样本对应的至少两个扩展特征数据,包括:
确定对应所述测试样本的噪声添加范围;
基于所述噪声添加范围,确定所述测试样本对应的噪声添加大小;
基于确定的所述噪声添加大小,为所述测试样本中的各样本用户特征数据添加相应大小的噪声,得到所述测试样本对应的至少两个扩展特征数据。
5.如权利要求2所述的方法,其特征在于,所述分别为所述测试样本中的各样本用户特征数据添加噪声,得到所述测试样本对应的至少两个扩展特征数据,包括:
确定对应所述测试样本的噪声添加范围;
基于所述噪声添加范围及目标添加次数,确定每次添加至所述测试样本的噪声的大小;
基于确定的每次添加至所述测试样本的噪声的大小,对所述测试样本中的各样本用户特征数据执行所述目标添加次数的噪声添加操作,得到所述测试样本对应的至少两个扩展特征数据。
6.如权利要求2所述的方法,其特征在于,所述基于所述测试样本对应的至少两个扩展特征数据,构建所述训练样本,包括:
通过所述风控模型,对所述测试样本对应的至少两个扩展特征数据进行预测,得到相应的风控评估结果;
基于所述测试样本对应的至少两个扩展特征数据、以及相应的风控评估结果构建所述训练样本。
7.如权利要求2所述的方法,其特征在于,所述基于所述测试样本对应的至少两个扩展特征数据,构建所述训练样本,包括:
获取所述测试样本对应的各扩展特征数据的特征含义;
依据各所述扩展特征数据的特征含义,对所述测试样本对应的扩展特征数据进行筛选,得到所述测试样本对应的目标扩展特征数据;
基于所述测试样本对应的目标扩展特征数据,构建所述训练样本。
8.如权利要求1所述的方法,其特征在于,所述方法还包括:
呈现用于描述所述风控模型的预测依据的图形界面;
在所述图形界面中,呈现所述风控模型预测得到的所述风控评估结果所对应的预测依据;
其中,所述预测依据,用于指示所述输入数据中各用户特征数据对于所述风控评估结果的影响权重。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
调用区块链网络的智能合约对训练得到的所述解析模型进行共识验证,得到验证结果;
当所述验证结果表征共识验证通过后,将训练得到的所述解析模型存储至所述区块链网络中。
10.一种解析模型的应用方法,其特征在于,所述方法包括:
获取风控模型的输入数据、及所述风控模型基于所述输入数据预测得到的风控评估结果;
其中,所述输入数据包括针对目标用户的至少两个用户特征数据;
通过所述解析模型对所述输入数据进行预测处理,得到所述输入数据中各用户特征数据对于所述风控评估结果的影响权重;
其中,所述解析模型通过权利要求1至9中任一项所述的方法训练得到。
11.如权利要求10所述的方法,其特征在于,所述通过所述解析模型对所述输入数据进行预测处理,得到所述输入数据中各用户特征数据对于所述风控评估结果的影响权重,包括:
将所述输入数据包括的至少两个用户特征数据输入所述解析模型;
通过所述解析模型,对所述至少两个用户特征数据进行预测处理,得到所述风控评估结果与所述至少两个用户特征数据之间的线性关系;
其中,所述线性关系,用于描述各所述用户特征数据对于所述风控评估结果的影响权重。
12.一种解析模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取风控模型的测试样本,所述测试样本包括至少两个样本用户特征数据;
构建模块,用于对所述测试样本进行样本扩展,以构建训练样本,所述训练样本包括:对应所述至少两个样本用户特征数据的至少两个扩展特征数据、及将所述至少两个扩展特征数据输入所述风控模型得到的风控评估结果;
拟合模块,用于以所述训练样本中的扩展特征数据作为自变量、以相应的风控评估结果作为因变量拟合线性模型,得到解析模型;
其中,所述解析模型,用于基于输入所述风控模型的至少两个用户特征数据,预测得到各用户特征数据对于相应的风控评估结果的影响权重。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现如权利要求1至9任一项所述的解析模型的训练方法。
14.一种计算机可读存储介质,其特征在于,存储有可执行指令,所述可执行指令被执行时,用于实现如权利要求1至9任一项所述的解析模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011254963.6A CN112308238A (zh) | 2020-11-11 | 2020-11-11 | 解析模型的训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011254963.6A CN112308238A (zh) | 2020-11-11 | 2020-11-11 | 解析模型的训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112308238A true CN112308238A (zh) | 2021-02-02 |
Family
ID=74324979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011254963.6A Pending CN112308238A (zh) | 2020-11-11 | 2020-11-11 | 解析模型的训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308238A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780365A (zh) * | 2021-08-19 | 2021-12-10 | 支付宝(杭州)信息技术有限公司 | 样本生成方法和装置 |
WO2023169497A1 (zh) * | 2022-03-11 | 2023-09-14 | 上海熵熵微电子科技有限公司 | 一种数据的脱密共享方法、装置、设备及介质 |
WO2024101064A1 (ja) * | 2022-11-10 | 2024-05-16 | 株式会社日立製作所 | 連合学習システム、連合学習方法 |
-
2020
- 2020-11-11 CN CN202011254963.6A patent/CN112308238A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780365A (zh) * | 2021-08-19 | 2021-12-10 | 支付宝(杭州)信息技术有限公司 | 样本生成方法和装置 |
WO2023169497A1 (zh) * | 2022-03-11 | 2023-09-14 | 上海熵熵微电子科技有限公司 | 一种数据的脱密共享方法、装置、设备及介质 |
WO2024101064A1 (ja) * | 2022-11-10 | 2024-05-16 | 株式会社日立製作所 | 連合学習システム、連合学習方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7379369B2 (ja) | ユーザ口座集計データのセキュア分配を含むユーザ口座へのアクセスのセキュア許可 | |
US20210174368A1 (en) | Techniques For Expediting Processing Of Blockchain Transactions | |
CN111401558B (zh) | 数据处理模型训练方法、数据处理方法、装置、电子设备 | |
US11562228B2 (en) | Efficient verification of machine learning applications | |
CN110569658B (zh) | 基于区块链网络的用户信息处理方法、装置、电子设备及存储介质 | |
US11855971B2 (en) | Offline authorization of interactions and controlled tasks | |
CN111681091B (zh) | 基于时间域信息的金融风险预测方法、装置及存储介质 | |
CN112308238A (zh) | 解析模型的训练方法、装置、电子设备及存储介质 | |
CN112506747B (zh) | 一种业务进程监控方法、装置、电子设备及存储介质 | |
CN112132198A (zh) | 数据处理方法、装置、系统和服务器 | |
WO2022237194A1 (zh) | 联邦学习系统中账户的异常检测方法、装置及电子设备 | |
US11354669B2 (en) | Collaborative analytics for fraud detection through a shared public ledger | |
CN110597908A (zh) | 一种基于区块链的征信记录方法、设备及存储介质 | |
CN113568973B (zh) | 基于区块链和联邦学习的金融征信数据共享方法及装置 | |
US20200005308A1 (en) | Collaborative analytics for fraud detection through a shared public ledger | |
US20240048582A1 (en) | Blockchain data breach security and cyberattack prevention | |
CN111178896B (zh) | 乘车支付方法、装置及存储介质 | |
US20230070625A1 (en) | Graph-based analysis and visualization of digital tokens | |
US11556238B1 (en) | Implementation of architecture document via infrastructure as code | |
CN112150299B (zh) | 年金数据处理方法、装置、介质及电子设备 | |
US11563558B2 (en) | Behavior driven graph expansion | |
CN112231367B (zh) | 基于人工智能的业务处理方法、装置及电子设备 | |
US20240086923A1 (en) | Entity profile for access control | |
US20230412393A1 (en) | Multisignature Custody of Digital Assets | |
US20240161185A1 (en) | Decision tree model training process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |