CN114372871A - 信用评分值的确定方法及其装置、电子设备及存储介质 - Google Patents
信用评分值的确定方法及其装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114372871A CN114372871A CN202210017882.7A CN202210017882A CN114372871A CN 114372871 A CN114372871 A CN 114372871A CN 202210017882 A CN202210017882 A CN 202210017882A CN 114372871 A CN114372871 A CN 114372871A
- Authority
- CN
- China
- Prior art keywords
- account
- characteristic
- value
- feature
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Biophysics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种信用评分值的确定方法及其装置、电子设备及存储介质,涉及机器学习领域,其中,该确定方法包括:基于目标账户的账户标识,获取目标账户的多个账户特征,得到特征集合,将特征集合输入至预先训练的联邦学习模型,得到每个账户特征的参数值,对每个账户特征进行权重编码,得到账户特征所属的特征分箱的证据权重值,基于每个账户特征的参数值以及账户特征所属的特征分箱的证据权重值,确定目标账户在当前评分机构的信用评分值。本发明解决了相关技术中通过获取多个机构的数据来共同训练客户信用评分模型,提升评分准确率的方式,无法保证客户数据隐私的安全的技术问题。
Description
技术领域
本发明涉及机器学习领域,具体而言,涉及一种信用评分值的确定方法及其装置、电子设备及存储介质。
背景技术
在金融业务场景中,评分卡是一种以分值的方式来衡量一个客户的信用风险大小的手段,为业务申请审批提供决策依据。一般来说,客户的评分卡的分数越高,表示该客户的信用越好,风险也就越小。
相关技术中,评分卡模型通常基于逻辑回归(Logistic Regression,LR)算法,该算法具备良好的可解释性和鲁棒性,并且易于监测和部署。然而,仅仅采用基于逻辑回归算法搭建的模型进行客户的信用评分计算,其模型准确率很难提高。在实际应用中,如果想要进一步提升模型准确率,可以采用以下两种方式实现:(1)选择比LR算法更加复杂的决策树或者神经网络等算法,但由于复杂算法的可解释性不佳,很难在实际场景中落地应用;(2)通过补充更丰富的数据源来训练模型,例如,银行数据、互联网类数据、运营商类数据或者政务类数据等共同使用,但是,通过补充数据源来提高模型准确率,需要采用多个机构的数据共同训练,涉及到隐私数据安全问题,无法保证客户数据隐私的安全。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种信用评分值的确定方法及其装置、电子设备及存储介质,以至少解决相关技术中通过获取多个机构的数据来共同训练客户信用评分模型,提升评分准确率的方式,无法保证客户数据隐私的安全的技术问题。
根据本发明实施例的一个方面,提供了一种信用评分值的确定方法,包括:基于目标账户的账户标识,获取所述目标账户的多个账户特征,得到特征集合,其中,每个所述账户特征对应一个特征值,对多个所述特征值进行分箱处理,得到多个特征分箱;将所述特征集合输入至预先训练的联邦学习模型,得到每个所述账户特征的参数值;对每个所述账户特征进行权重编码,得到所述账户特征所属的特征分箱的证据权重值;基于每个所述账户特征的参数值以及所述账户特征所属的特征分箱的证据权重值,确定所述目标账户在当前评分机构的信用评分值。
可选地,在基于目标账户的账户标识,获取所述目标账户的多个账户特征之前,所述确定方法包括:获取多个评分机构的样本数据集,其中,每个所述样本数据集至少包括:账户特征,至少一个样本数据集还包括:样本标签;对所述样本数据集进行预处理,并将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱;基于所述多个特征分箱,计算每个所述特征分箱的证据权重值WOE,并基于所述证据权重值,计算每个所述账户特征的信息值IV;基于所述信息值,筛选大于等于预设价值阈值的信息值所对应的账户特征,得到筛选出的账户特征集合;基于预设逻辑回归模型,拟合所述账户特征集合中每个账户特征的特征参数,以完成对所述联邦学习模型的训练任务。
可选地,在所述样本数据集包括样本标签的情况下,将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱的步骤,包括:获取每个所述账户特征的特征值,并对所述特征值进行排序处理,得到排序结果;基于预设分箱策略,对所述排序结果中所述特征值进行分箱处理,得到多个特征分箱。
可选地,在将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,所述确定方法还包括:计算每两个相邻的特征分箱的卡方值;将最小卡方值所指示的相邻特征分箱合并为一个特征分箱;返回计算每两个相邻的特征分箱的卡方值的步骤,直至所述卡方值大于预设阈值或者分箱数量等于分析数量阈值。
可选地,在所述样本数据集包括样本标签的情况下,所述确定方法还包括:控制包含所述样本标签的样本数据集所对应的目标评分机构生成公钥和私钥;控制所述目标评分机构向未包含所述样本标签的样本数据集所对应的其它评分机构发送所述公钥,并保留所述私钥。
可选地,在所述样本数据集不包括样本标签的情况下,在将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,所述确定方法还包括:获取目标评分机构生成的公钥以及标签向量,其中,所述标签向量为所述目标评分机构对所述样本标签进行同态加密后得到的;基于所述标签向量,计算每个所述特征分箱的样本总数和正样本数,得到计算结果;采用所述公钥对所述计算结果进行加密,并将加密后的所述计算结果发送至所述目标评分机构。
可选地,基于预设逻辑回归模型,拟合所述账户特征集合中每个账户特征的特征参数的步骤,包括:获取随机特征参数,并初始化每个所述账户特征的参数,得到初始化参数;采用预设计算公式对所述账户特征以及与所述账户特征对应的所述初始化参数进行计算,得到参数计算结果;基于不同评分机构所对应的参数计算结果,计算模型参数的梯度;基于模型参数的梯度以及所述随机特征参数,更新所述初始化参数;返回采用预设计算公式对所述账户特征以及与所述账户特征对应的所述初始化参数进行计算,得到参数计算结果的步骤,直到所述逻辑回归模型达到预设模型收敛模式,得到与每个所述账户特征对应的特征参数。
可选地,基于不同评分机构所对应的参数计算结果,计算模型参数的梯度的步骤,包括:获取管理中心节点生成的公钥;采用所述公钥对所述计算结果进行加密,并将加密后的所述计算结果发送至多个评分机构。
可选地,获取多个评分机构的样本数据集的步骤,包括:基于多个评分机构中每个账户的账户信息,采用预设隐私集合求交策略对目标用户关联的账户进行数据对齐,得到所述目标用户在每个评分机构的样本数据集。
根据本发明实施例的另一方面,还提供了一种信用评分值的确定装置,包括:获取单元,用于基于目标账户的账户标识,获取所述目标账户的多个账户特征,得到特征集合,其中,每个所述账户特征对应一个特征值,对多个所述特征值进行分箱处理,得到多个特征分箱;输入单元,用于将所述特征集合输入至预先训练的联邦学习模型,得到每个所述账户特征的参数值;编码单元,用于对每个所述账户特征进行权重编码,得到所述账户特征所属的特征分箱的证据权重值;确定单元,用于基于每个所述账户特征的参数值以及所述账户特征所属的特征分箱的证据权重值,确定所述目标账户在当前评分机构的信用评分值。
可选地,所述确定装置包括:第一获取模块,用于在基于目标账户的账户标识,获取所述目标账户的多个账户特征之前,获取多个评分机构的样本数据集,其中,每个所述样本数据集至少包括:账户特征,至少一个样本数据集还包括:样本标签;第一分箱模块,用于对所述样本数据集进行预处理,并将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱;第一计算模块,用于基于所述多个特征分箱,计算每个所述特征分箱的证据权重值WOE,并基于所述证据权重值,计算每个所述账户特征的信息值IV;第一筛选模块,用于基于所述信息值,筛选大于等于预设价值阈值的信息值所对应的账户特征,得到筛选出的账户特征集合;第一拟合模块,用于基于预设逻辑回归模型,拟合所述账户特征集合中每个账户特征的特征参数,以完成对所述联邦学习模型的训练任务。
可选地,在所述样本数据集包括样本标签的情况下,所述第一分箱模块包括:第一获取子模块,用于获取每个所述账户特征的特征值,并对所述特征值进行排序处理,得到排序结果;第一分箱子模块,用于基于预设分箱策略,对所述排序结果中所述特征值进行分箱处理,得到多个特征分箱。
可选地,所述确定装置还包括:第二计算模块,用于在将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,计算每两个相邻的特征分箱的卡方值;第一合并模块,用于将最小卡方值所指示的相邻特征分箱合并为一个特征分箱;循环执行上述模块,直至所述卡方值大于预设阈值或者分箱数量等于分析数量阈值。
可选地,在所述样本数据集包括样本标签的情况下,所述确定装置还包括:第一控制模块,用于控制包含所述样本标签的样本数据集所对应的目标评分机构生成公钥和私钥;第二控制模块,用于控制所述目标评分机构向未包含所述样本标签的样本数据集所对应的其它评分机构发送所述公钥,并保留所述私钥。
可选地,所述确定装置还包括:第二获取模块,用于在所述样本数据集不包括样本标签的情况下,在将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,获取目标评分机构生成的公钥以及标签向量,其中,所述标签向量为所述目标评分机构对所述样本标签进行同态加密后得到的;第三计算模块,用于基于所述标签向量,计算每个所述特征分箱的样本总数和正样本数,得到计算结果;第一加密模块,用于采用所述公钥对所述计算结果进行加密,并将加密后的所述计算结果发送至所述目标评分机构。
可选地,所述第一拟合模块包括:第二获取子模块,用于获取随机特征参数,并初始化每个所述账户特征的参数,得到初始化参数;第一计算子模块,用于采用预设计算公式对所述账户特征以及与所述账户特征对应的所述初始化参数进行计算,得到参数计算结果;第二计算子模块,用于基于不同评分机构所对应的参数计算结果,计算模型参数的梯度;第一更新子模块,用于基于模型参数的梯度以及所述随机特征参数,更新所述初始化参数;循环执行上述模块,直到所述逻辑回归模型达到预设模型收敛模式,得到与每个所述账户特征对应的特征参数。
可选地,所述第二计算子模块包括:第三获取子模块,用于获取管理中心节点生成的公钥;第一加密子模块,用于采用所述公钥对所述计算结果进行加密,并将加密后的所述计算结果发送至多个评分机构。
可选地,所述第一获取模块包括:第一对齐子模块,用于基于多个评分机构中每个账户的账户信息,采用预设隐私集合求交策略对目标用户关联的账户进行数据对齐,得到所述目标用户在每个评分机构的样本数据集。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的信用评分值的确定方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项所述的信用评分值的确定方法。
在本公开中,基于目标账户的账户标识,获取目标账户的多个账户特征,得到特征集合,将特征集合输入至预先训练的联邦学习模型,得到每个账户特征的参数值,对每个账户特征进行权重编码,得到账户特征所属的特征分箱的证据权重值,基于每个账户特征的参数值以及账户特征所属的特征分箱的证据权重值,确定目标账户在当前评分机构的信用评分值。在本申请中,可通过联邦学习模型,使得每个评分机构的数据在不离开本地的情况下,直接得到用户的账户特征的参数值以及账户特征所属的特征分箱的证据权重值,从而计算得到各用户的信用评分值,不仅能够保障各方用户数据的隐私安全,还可以扩充用户数据的特征维度,从而提升对用户信用进行评分的准确率,更好的判断用户的风险等级,为业务审批提供更加准确的决策依据,进而解决了相关技术中通过获取多个机构的数据来共同训练客户信用评分模型,提升评分准确率的方式,无法保证客户数据隐私的安全的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的信用评分值的确定方法的流程图;
图2是根据本发明实施例的一种可选的纵向联邦信用评分的建模过程的示意图;
图3是根据本发明实施例的一种可选的纵向联邦各方数据集的示意图;
图4是根据本发明实施例的一种可选的联邦学习建模数据处理过程的示意图;
图5是根据本发明实施例的一种可选的信用评分值的确定装置的示意图;
图6是根据本发明实施例的一种用于信用评分值的确定方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
联邦学习:是一种分布式的机器学习范式,能够解决数据孤岛问题。
纵向联邦学习:不同参与方(在本发明实施例中以评分机构进行表示)的数据样本有较大的重叠,但样本特征的重叠度不高。
证据权重(Weight Evidence,WOE),是对原始自变量的一种编码形式。
信息价值或信息量(Information Value,IV),可以用来衡量自变量的预测能力,在本发明实施例中可以用于衡量某一账户特征的信息价值,表示该账户特征对目标变量(即标签)的预测能力。
需要说明的是,本公开中的信用评分值的确定方法及其装置可用于机器学习领域在确定信用评分值的情况下,也可用于除机器学习领域之外的任意领域在确定信用评分值的情况下,本公开中对信用评分值的确定方法及其装置的应用领域不做限定。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本发明下述各实施例可应用于各种确定信用评分值的系统/应用/设备中,信用评分值用于评价用户的信用好坏,评分值越高,用户的信用越好,在借贷等场景中,能够作为业务审批的决策依据。本发明通过引入纵向联邦学习机制,在确保多方数据不离开本地的情况下,可以实现数据的可用不可见,能够保障各方原始数据的隐私安全,同时,完成多方数据的联邦建模,扩充建模可用的样本特征维度,从而提升信用评分的准确率,更好的判断用户的风险等级,为业务审批提供更加准确的决策依据。
下面结合各个实施例来详细说明本发明。
实施例一
根据本发明实施例,提供了一种信用评分值的确定方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的信用评分值的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,基于目标账户的账户标识,获取目标账户的多个账户特征,得到特征集合,其中,每个账户特征对应一个特征值,对多个特征值进行分箱处理,得到多个特征分箱。
步骤S102,将特征集合输入至预先训练的联邦学习模型,得到每个账户特征的参数值。
步骤S103,对每个账户特征进行权重编码,得到账户特征所属的特征分箱的证据权重值。
步骤S104,基于每个账户特征的参数值以及账户特征所属的特征分箱的证据权重值,确定目标账户在当前评分机构的信用评分值。
通过上述步骤,可以基于目标账户的账户标识,获取目标账户的多个账户特征,得到特征集合,将特征集合输入至预先训练的联邦学习模型,得到每个账户特征的参数值,对每个账户特征进行权重编码,得到账户特征所属的特征分箱的证据权重值,基于每个账户特征的参数值以及账户特征所属的特征分箱的证据权重值,确定目标账户在当前评分机构的信用评分值。在本发明实施例中,可通过联邦学习模型,使得每个评分机构的数据在不离开本地的情况下,直接得到用户的账户特征的参数值以及账户特征所属的特征分箱的证据权重值,从而计算得到各用户的信用评分值,不仅能够保障各方用户数据的隐私安全,还可以扩充用户数据的特征维度,从而提升对用户信用进行评分的准确率,更好的判断用户的风险等级,为业务审批提供更加准确的决策依据,进而解决了相关技术中通过获取多个机构的数据来共同训练客户信用评分模型,提升评分准确率的方式,无法保证客户数据隐私的安全的技术问题。
下面结合上述各步骤对本发明实施例进行详细说明。
在本发明实施例中,在基于目标账户的账户标识,获取目标账户的多个账户特征之前,确定方法包括:获取多个评分机构的样本数据集,其中,每个样本数据集至少包括:账户特征,至少一个样本数据集还包括:样本标签;对样本数据集进行预处理,并将预处理后的样本数据集中的账户特征进行分箱处理,得到多个特征分箱;基于多个特征分箱,计算每个特征分箱的证据权重值WOE,并基于证据权重值,计算每个账户特征的信息值IV;基于信息值,筛选大于等于预设价值阈值的信息值所对应的账户特征,得到筛选出的账户特征集合;基于预设逻辑回归模型,拟合账户特征集合中每个账户特征的特征参数,以完成对联邦学习模型的训练任务。
在本发明实施例中,在开始对联邦学习模型进行训练之前,需要每个联邦参与方(即每个评分机构),准备好各自的样本数据集(即获取多个评分机构的样本数据集),并且,每个样本数据集至少包括:账户特征(即表示用户的相关属性特征,例如,年龄特征、购物喜好特征等),且至少有一个评分机构的样本数据集还包括:样本标签,例如,假定评分机构A提供的样本数据集包括二分类标签(即样本标签)和账户特征,其样本数据集表示为{XA,YA},Y={0,1};评分机构B提供的样本数据集包括账户特征,其样本数据集表示为{XB}。
在本发明实施例中,评分机构包括但不限于:金融机构(例如,银行等)、互联网机构(例如,购物应用、外卖应用等)、运营商机构、网络电商等。
可选的,获取多个评分机构的样本数据集的步骤,包括:基于多个评分机构中每个账户的账户信息,采用预设隐私集合求交策略对目标用户关联的账户进行数据对齐,得到目标用户在每个评分机构的样本数据集。本实施例中,在每个评分机构准备好各自的样本数据集后,可以基于多个评分机构中每个账户的账户信息,采用预设隐私集合求交策略(例如,隐私集合求交(Private Set Intersection,PSI)的方式)对目标用户关联的账户进行数据对齐(即对所有的样本数据集进行加密对齐),得到目标用户在每个评分机构的样本数据集(该样本数据集是可以用于模型训练和预测的数据集)。
在本发明实施例中,每个评分机构在得到各自的样本数据集后,可以针对各自的样本数据集进行模型的训练构建,具体为:
可以先对样本数据集进行预处理,每个评分机构可以在各自环境独立完成己方特征的缺失值填充等预处理,并将预处理后的样本数据集中的账户特征进行分箱处理,得到多个特征分箱。
可选的,在样本数据集包括样本标签的情况下,将预处理后的样本数据集中的账户特征进行分箱处理,得到多个特征分箱的步骤,包括:获取每个账户特征的特征值,并对特征值进行排序处理,得到排序结果;基于预设分箱策略,对排序结果中特征值进行分箱处理,得到多个特征分箱。
另一种可选的,在将预处理后的样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,确定方法还包括:计算每两个相邻的特征分箱的卡方值;将最小卡方值所指示的相邻特征分箱合并为一个特征分箱;返回计算每两个相邻的特征分箱的卡方值的步骤,直至卡方值大于预设阈值或者分箱数量等于分析数量阈值。
在本发明实施例中,主要把连续性或者稀疏性的账户特征转化为类别型变量(即将预处理后的样本数据集中的账户特征进行分箱处理,得到多个特征分箱,从而使账户特征离散化),例如,对年龄特征可以进行年龄段划分,以转化为类别型变量。在样本数据集包括样本标签的情况下,分箱处理的具体步骤为:
步骤1:针对某一种账户特征,按照其特征值大小进行排序(即获取每个账户特征的特征值,并对特征值进行排序处理,得到排序结果),使用预设分箱策略(例如,等频或者等距分箱策略),使每个样本属于其中一箱(即对排序结果中特征值进行分箱处理,得到多个特征分箱)。
步骤2:按照如下公式(1)计算每一对相邻特征分箱的卡方值(即计算每两个相邻的特征分箱的卡方值)。
其中,Ai,j表示第i个分箱,第j类标签样本个数,Ei,j表示Ai,j的数学期望,N为总样本,Ri为第i个分箱的样本数,Cj为第j类标签的样本数,χ2为卡方值。假设将账户特征分为k箱,有i=0,1,…,k,j=0,1分别表示二分类的负样本和正样本。
步骤3:将卡方值最小的相邻两箱合并为一箱(即将最小卡方值所指示的相邻特征分箱合并为一个特征分箱)。
步骤4:循环执行步骤2、3,直到卡方值不低于设定阈值或者分箱数达到设定值(即直至卡方值大于预设阈值或者分箱数量等于分析数量阈值的情况下,结束循环流程)。
在本发明实施例中,由公式(1)可以看出,有标签的评分机构可以根据公式(1)完成己方特征的分箱,而无标签的评分机构,相关参数值需要在加密处理后通过交互通信,确保有标签的评分机构的原始标签和无标签的评分机构的原始特征值的可用不可见,完成安全计算。当样本数据集不包括样本标签时,联邦卡方分箱过程如表1所示:
表1
可选的,在样本数据集包括样本标签的情况下,确定方法还包括:控制包含样本标签的样本数据集所对应的目标评分机构生成公钥和私钥;控制目标评分机构向未包含样本标签的样本数据集所对应的其它评分机构发送公钥,并保留私钥。
在本发明实施例中,有标签的评分机构(即包含样本标签的样本数据集所对应的目标评分机构)可以生成公钥和私钥,保留私钥,将公钥发送给无标签的评分机构(即向未包含样本标签的样本数据集所对应的其它评分机构发送公钥)。
另一种可选的,在样本数据集不包括样本标签的情况下,在将预处理后的样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,确定方法还包括:获取目标评分机构生成的公钥以及标签向量,其中,标签向量为目标评分机构对样本标签进行同态加密后得到的;基于标签向量,计算每个特征分箱的样本总数和正样本数,得到计算结果;采用公钥对计算结果进行加密,并将加密后的计算结果发送至目标评分机构。
在本发明实施例中,无标签的评分机构获取目标评分机构生成的公钥以及标签向量(该标签向量为目标评分机构对样本标签进行同态加密后得到的),在分箱之后,可基于标签向量计算每个分箱的样本总数和正样本数(即基于标签向量,计算每个特征分箱的样本总数和正样本数,得到计算结果),并将计算结果通过公钥加密发送给有标签方评分机构(即将加密后的计算结果发送至目标评分机构)。
可选的,在得到多个特征分箱后,可以基于多个特征分箱,计算每个特征分箱的证据权重值WOE,并基于证据权重值,计算每个账户特征的信息值IV。
在本发明实施例中,为提升原始样本数据集的可理解性以及对标签的预测能力,在完成分箱后,可以对特征进行WOE值编码和IV值计算,与分箱中的卡方值计算类似,WOE值和IV值的计算也依赖于每个分箱中的正负样本数。
对于有标签的评分机构,假设针对某一种账户特征,分为k箱,第i个分箱的WOE值计算公式(2)如下:
第i个分箱的IV值计算公式(3)为:
则该特征的IV值计算公式(4)为:
对于无标签的评分机构,WOE值和IV值的计算过程如表2所示:
表2
可选的,在得到账户特征的信息值后,可以基于信息值,筛选大于等于预设价值阈值的信息值所对应的账户特征,得到筛选出的账户特征集合。
在本发明实施例中,IV值可以衡量某一账户特征的信息价值,表示该账户特征对目标变量(即标签)的预测能力。在计算获得评分机构的所有账户特征的IV值后,可以根据IV值大小进行特征选择(基于信息值,筛选大于等于预设价值阈值的信息值所对应的账户特征,得到筛选出的账户特征集合),剔除不重要的特征(即小于预设价值阈值的信息值所对应的账户特征),例如,预设价值阈值可以设为0.02,从而IV<0.02表示相应的账户特征不重要。有标签的评分机构在计算获得无标签的评分机构的特征IV值后,将特征选择结果发送给无标签的评分机构,即可完成评分机构的特征选择。
可选的,在筛选出的账户特征集合后,可以基于预设逻辑回归模型,拟合账户特征集合中每个账户特征的特征参数,以完成对联邦学习模型的训练任务。
在本发明实施例中,可以对逻辑回归模型进行训练,输入的数据为经特征选择后的各方数据(即筛选出的账户特征集合),拟合账户特征集合中每个账户特征的特征参数,完成对联邦学习模型的训练。在本实施例中,假设评分机构A具有样本标签数据,评分机构B没有样本标签数据,特征分布在A和B两方,用XA,XB分别表示双方的特征向量,ΘA,ΘB分别表示双方特征对应的参数向量。那么,逻辑回归LR模型的目标函数可用公式(5)表示:
对应的损失函数可用公式(6)表示:
其中,xi表示第i个样本的特征值,yi表示第i个样本的标签值,i表示第i个样本,n表示有n个样本。
对参数θ的梯度可用公式(7)表示:
其中,Y表示样本标签。
并且,可以按照公式(8)更新参数θ:
其中,α表示学习率参数。
可选的,基于预设逻辑回归模型,拟合账户特征集合中每个账户特征的特征参数的步骤,包括:获取随机特征参数,并初始化每个账户特征的参数,得到初始化参数;采用预设计算公式(即公式(7))对账户特征以及与账户特征对应的初始化参数进行计算,得到参数计算结果;基于不同评分机构所对应的参数计算结果,计算模型参数的梯度(采用公式(7)计算模型参数的梯度);基于模型参数的梯度以及随机特征参数,更新初始化参数(采用公式(8)更新初始化参数);返回采用预设计算公式对账户特征以及与账户特征对应的初始化参数进行计算,得到参数计算结果的步骤,直到逻辑回归模型达到预设模型收敛模式,得到与每个账户特征对应的特征参数。
在本发明实施例中,具体的拟合账户特征集合中每个账户特征的特征参数的步骤如表3所示:
表3
可选的,基于不同评分机构所对应的参数计算结果,计算模型参数的梯度的步骤,包括:获取管理中心节点生成的公钥;采用公钥对计算结果进行加密,并将加密后的计算结果发送至多个评分机构。
在本发明实施例中,管理中心节点可以生成公钥和私钥,并采用公钥对计算结果进行加密,并将加密后的计算结果发送至多个评分机构,评分机构在采用加密后的计算结果得到加密后的最终结果后,可以将加密后的最终结果发送给管理中心节点,在管理中心节点采用私钥解密后,各评分机构才可以得到解密后的最终结果。
步骤S101,基于目标账户的账户标识,获取目标账户的多个账户特征,得到特征集合,其中,每个账户特征对应一个特征值,对多个特征值进行分箱处理,得到多个特征分箱。
在本发明实施例中,各评分机构可以基于目标账户的账户标识,获取目标账户的多个账户特征,得到特征集合,假设特征集合共有n个账户特征,其中评分机构A有m个,评分机构B有n-m个,即XA=[x1,x2,…,xm],XB=[xm+1,xm+2,…,xn],并且每个账户特征对应一个特征值,对多个特征值进行分箱处理,可以得到多个特征分箱。
步骤S102,将特征集合输入至预先训练的联邦学习模型,得到每个账户特征的参数值。
在本发明实施例中,基于上述假设,可以将得到特征集合输入至预先训练的联邦学习模型,得到每个账户特征的参数值:
即ΘA=[θ1,θ2,…,θm],ΘB=[θm+1,θm+2,…,θn-m]。
步骤S103,对每个账户特征进行权重编码,得到账户特征所属的特征分箱的证据权重值。
步骤S104,基于每个账户特征的参数值以及账户特征所属的特征分箱的证据权重值,确定目标账户在当前评分机构的信用评分值。
针对第i个特征的第j分箱,可以根据公式(9)得出对应的分值,公式(9)如下:
scorei,j=b×θi×WOEi,j (9);
可以根据公式(9)得到评分机构A的特征的分值以及评分机构B的特征的分值:
则,相应用户的总分值为:
score总=a+scoreA+scoreB (10);
其中,a,b是常数。
在本发明实施例中,产生新用户时,只需得到该新用户在多个评分机构的特征变量xi的参数值以及其所属的特征分箱的证据权重值WOEi,j,根据公式(9)计算每个特征的得分,进而根据公式(10)将所有特征的得分相加,再加上初始基础分a,即可得到对用户的信用评分值。
本发明实施例中,通过引入纵向联邦学习机制,在确保多方数据不离开本地的情况下,可以实现数据的可用不可见,能够保障各方原始数据的隐私安全,同时,完成多方数据的联邦建模,扩充建模可用的样本特征维度,从而提升信用评分的准确率,更好的判断用户的风险等级,为业务审批提供更加准确的决策依据,并且,与现有的信用评分模型相比,本实施例中的模型不仅有金融机构已有的用户数据,还有用户的互联网社交、运营商电信和政务类等数据,可以更为全面的刻画用户风险画像,提升模型的评分效果。
实施例二
图2是根据本发明实施例的一种可选的纵向联邦信用评分的建模过程的示意图,如图2所示,纵向联邦信用评分的建模过程包括样本标识加密对齐、联邦学习建模和联邦评分三大部分,具体如下:
第一部分,数据集准备和样本标识加密对齐,在开始构建联邦评分模型之前,需要每个联邦参与方,即每个评分机构,准备好各自的数据集,再通过隐私集合求交(PrivateSet Intersection,PSI)的方式完成双方样本标识加密对齐(原始数据不能直接传输),各参与方都形成用于模型训练和预测的数据集。在本实施例中,统一假定:评分机构A提供样本数据集的二分类标签和特征,数据集表示为{XA,YA},Y={0,1};评分机构B提供样本数据集的特征,数据集表示为{XB}。图3是根据本发明实施例的一种可选的纵向联邦各方数据集的示意图,如图3所示,展示了纵向联邦学习中的A方数据包括:特征XA和标签YA;B方数据包括:特征XB。
第二部分,联邦学习建模,数据双方评分机构A和评分机构B针对各自的样本数据集进行模型的训练构建,图4是根据本发明实施例的一种可选的联邦学习建模数据处理过程的示意图,如图4所示,在得到数据集之后,执行如下步骤:
(1)数据预处理。双方在各自环境独立完成己方数据集的缺失值填充等处理。
(2)联邦卡方分箱。把连续性或者稀疏性的类别特征转化为类别型变量,例如,对年龄特征进行年龄段划分转化为类别型变量。卡方分箱的具体过程为:
步骤1:针对某一特征列,按特征值大小进行排序,可以使用等频或者等距分箱,使每个样本属于其中一箱。
步骤2:按照如下公式(1)计算每一对相邻分箱的卡方值,
其中,Ai,j表示第i个分箱,第j类标签样本个数,Ei,j表示Ai,j的数学期望,N为总样本,Ri为第i个分箱的样本数,Cj为第j类标签的样本数。假设将账户特征分为k箱,有i=0,1,…,k,j=0,1分别表示二分类的负样本和正样本。
步骤3:将卡方值最小的相邻两箱合并为一箱。
步骤4:不断重复步骤2、3,直到卡方值不低于设定阈值或者分箱数达到设定值。
由公式(1)可以看出,评分机构可以根据公式(1)完成己方特征的分箱,而无标签的评分机构,相关参数值需要在加密处理后通过交互通信,确保有标签的评分机构的原始标签和无标签的评分机构的原始特征值的可用不可见,完成安全计算。当评分机构的样本数据集不包括样本标签时,联邦卡方分箱过程如实施例一中的表1所示。
(3)联邦WOE值、IV值计算。为提升原始样本数据集的可理解性以及对标签的预测能力,在完成分箱后,需要对特征进行WOE值编码和特征IV值计算,与联邦卡方分箱的卡方值计算类似,WOE值和IV值的计算也依赖于每个分箱中的正负样本数。针对某一特征,分为k箱,第i个分箱的WOE值计算公式(2)为:
第i个分箱的IV值计算公式(3)为:
则该特征的IV值计算公式(4)为:
对于无标签的评分机构,WOE值和IV值的计算过程如实施例一中的表2所示。
(4)特征选择。IV值衡量某一特征变量的信息价值,表示该特征变量对目标变量(标签)的预测能力。在计算获得双方所有特征的IV值后,根据IV值大小进行特征选择,剔除不重要的特征,例如,可以设置当IV<0.02时表示特征不重要。有标签方A在计算获得无标签方B的特征IV值后,将特征选择结果发送给B,即可完成双方的特征选择。
(5)联邦逻辑回归。输入经特征选择后的各方数据,通过联邦逻辑回归模型的学习训练,拟合各特征的对应参数。由于特征分布在企业A和B双方,用XA,XB分别表示双方的特征向量,ΘA,ΘB分别表示双方特征对应的参数向量。那么,逻辑回归LR模型的目标函数可用公式(5)表示:
对应的损失函数可用公式(6)表示:
对参数θ的梯度可用公式(7)表示:
并且,可以按照公式(8)更新参数θ:
具体的拟合各特征的对应参数的步骤如实施例一中的表3所示。
第三部分,联邦评分模型,可以根据模型训练结果和用户的特征值计算出该用户的信用评分值,作为风险评估的指标依据。假设评分机构的数据对齐后,共有n个特征,其中评分机构A有m个,评分机构B有n-m个,即XA=[x1,x2,…,xm],XB=[xm+1,xm+2,…,xn],按照第二部分步骤完成联邦学习建模的训练构建,得到各方特征对应的参数,即ΘA=[θ1,θ2,…,θm],ΘB=[θm+1,θm+2,…,θn-m]。
针对第i个特征的第j分箱,可以根据公式(9)得出对应的分值,公式(9)如下:
scorei,j=b×θi×WOEi,j (9);
可以根据公式(9)得到评分机构A的特征的分值以及评分机构B的特征的分值:
则,相应用户的总分值为:
score总=a+scoreA+scoreB (10);
其中,a,b是常数。
当新用户产生时,只需得到该用户在多个评分机构的特征变量xi的参数值以及其所属的特征分箱的证据权重值WOEi,j,根据公式(9)计算每个特征的得分,进而根据公式(10)将所有特征的得分相加,再加上初始基础分a,即可得到对用户的信用评分值。
本发明实施例可以达到的有益效果如下:
(1)本实施例可以实现各评分机构的数据不离开本地,在己方环境独立计算,并与其他评分机构加密交互中间结果,完成数据特征的联邦卡方分箱、联邦WOE值、IV值计算和联邦LR建模,保障了各方原始特征数据和标签值的不泄露,确保数据隐私安全。
(2)多个评分机构的纵向联邦,有效扩充了可用数据集的特征维度,不同机构拥有用户不同类型的属性特征,纵向联邦实现了跨行业及跨机构的数据安全共用,提升了模型可用特征的丰富度。
(3)通过多维度更丰富的特征数据,有效提升了信用评分模型效果,与现有的信用评分模型相比,本实施例中的模型不仅有金融机构已有的用户数据,还有用户的互联网社交、运营商电信和政务类等数据,可以更为全面的刻画用户风险画像,提升模型的评分效果。
实施例三
本实施例中提供的一种信用评分值的确定装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图5是根据本发明实施例的一种可选的信用评分值的确定装置的示意图,如图5所示,该确定装置可以包括:获取单元50,输入单元51,编码单元52,确定单元53,其中,
获取单元50,用于基于目标账户的账户标识,获取目标账户的多个账户特征,得到特征集合,其中,每个账户特征对应一个特征值,对多个特征值进行分箱处理,得到多个特征分箱;
输入单元51,用于将特征集合输入至预先训练的联邦学习模型,得到每个账户特征的参数值;
编码单元52,用于对每个账户特征进行权重编码,得到账户特征所属的特征分箱的证据权重值;
确定单元53,用于基于每个账户特征的参数值以及账户特征所属的特征分箱的证据权重值,确定目标账户在当前评分机构的信用评分值。
上述确定装置,可以通过获取单元50基于目标账户的账户标识,获取目标账户的多个账户特征,得到特征集合,通过输入单元51将特征集合输入至预先训练的联邦学习模型,得到每个账户特征的参数值,通过编码单元52对每个账户特征进行权重编码,得到账户特征所属的特征分箱的证据权重值,通过确定单元53基于每个账户特征的参数值以及账户特征所属的特征分箱的证据权重值,确定目标账户在当前评分机构的信用评分值。在本发明实施例中,可通过联邦学习模型,使得每个评分机构的数据在不离开本地的情况下,直接得到用户的账户特征的参数值以及账户特征所属的特征分箱的证据权重值,从而计算得到各用户的信用评分值,不仅能够保障各方用户数据的隐私安全,还可以扩充用户数据的特征维度,从而提升对用户信用进行评分的准确率,更好的判断用户的风险等级,为业务审批提供更加准确的决策依据,进而解决了相关技术中通过获取多个机构的数据来共同训练客户信用评分模型,提升评分准确率的方式,无法保证客户数据隐私的安全的技术问题。
可选的,确定装置包括:第一获取模块,用于在基于目标账户的账户标识,获取目标账户的多个账户特征之前,获取多个评分机构的样本数据集,其中,每个样本数据集至少包括:账户特征,至少一个样本数据集还包括:样本标签;第一分箱模块,用于对样本数据集进行预处理,并将预处理后的样本数据集中的账户特征进行分箱处理,得到多个特征分箱;第一计算模块,用于基于多个特征分箱,计算每个特征分箱的证据权重值WOE,并基于证据权重值,计算每个账户特征的信息值IV;第一筛选模块,用于基于信息值,筛选大于等于预设价值阈值的信息值所对应的账户特征,得到筛选出的账户特征集合;第一拟合模块,用于基于预设逻辑回归模型,拟合账户特征集合中每个账户特征的特征参数,以完成对联邦学习模型的训练任务。
可选的,在样本数据集包括样本标签的情况下,第一分箱模块包括:第一获取子模块,用于获取每个账户特征的特征值,并对特征值进行排序处理,得到排序结果;第一分箱子模块,用于基于预设分箱策略,对排序结果中特征值进行分箱处理,得到多个特征分箱。
可选的,确定装置还包括:第二计算模块,用于在将预处理后的样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,计算每两个相邻的特征分箱的卡方值;第一合并模块,用于将最小卡方值所指示的相邻特征分箱合并为一个特征分箱;循环执行上述模块,直至卡方值大于预设阈值或者分箱数量等于分析数量阈值。
可选的,在样本数据集包括样本标签的情况下,确定装置还包括:第一控制模块,用于控制包含样本标签的样本数据集所对应的目标评分机构生成公钥和私钥;第二控制模块,用于控制目标评分机构向未包含样本标签的样本数据集所对应的其它评分机构发送公钥,并保留私钥。
可选的,确定装置还包括:第二获取模块,用于在样本数据集不包括样本标签的情况下,在将预处理后的样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,获取目标评分机构生成的公钥以及标签向量,其中,标签向量为目标评分机构对样本标签进行同态加密后得到的;第三计算模块,用于基于标签向量,计算每个特征分箱的样本总数和正样本数,得到计算结果;第一加密模块,用于采用公钥对计算结果进行加密,并将加密后的计算结果发送至目标评分机构。
可选的,第一拟合模块包括:第二获取子模块,用于获取随机特征参数,并初始化每个账户特征的参数,得到初始化参数;第一计算子模块,用于采用预设计算公式对账户特征以及与账户特征对应的初始化参数进行计算,得到参数计算结果;第二计算子模块,用于基于不同评分机构所对应的参数计算结果,计算模型参数的梯度;第一更新子模块,用于基于模型参数的梯度以及随机特征参数,更新初始化参数;循环执行上述模块,直到逻辑回归模型达到预设模型收敛模式,得到与每个账户特征对应的特征参数。
可选的,第二计算子模块包括:第三获取子模块,用于获取管理中心节点生成的公钥;第一加密子模块,用于采用公钥对计算结果进行加密,并将加密后的计算结果发送至多个评分机构。
可选的,第一获取模块包括:第一对齐子模块,用于基于多个评分机构中每个账户的账户信息,采用预设隐私集合求交策略对目标用户关联的账户进行数据对齐,得到目标用户在每个评分机构的样本数据集。
上述的确定装置还可以包括处理器和存储器,上述获取单元50,输入单元51,编码单元52,确定单元53等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定目标账户在当前评分机构的信用评分值。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:基于目标账户的账户标识,获取目标账户的多个账户特征,得到特征集合,将特征集合输入至预先训练的联邦学习模型,得到每个账户特征的参数值,对每个账户特征进行权重编码,得到账户特征所属的特征分箱的证据权重值,基于每个账户特征的参数值以及账户特征所属的特征分箱的证据权重值,确定目标账户在当前评分机构的信用评分值。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的信用评分值的确定方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项的信用评分值的确定方法。
图6是根据本发明实施例的一种用于信用评分值的确定方法的电子设备(或移动设备)的硬件结构框图。如图6所示,电子设备可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种信用评分值的确定方法,其特征在于,包括:
基于目标账户的账户标识,获取所述目标账户的多个账户特征,得到特征集合,其中,每个所述账户特征对应一个特征值,对多个所述特征值进行分箱处理,得到多个特征分箱;
将所述特征集合输入至预先训练的联邦学习模型,得到每个所述账户特征的参数值;
对每个所述账户特征进行权重编码,得到所述账户特征所属的特征分箱的证据权重值;
基于每个所述账户特征的参数值以及所述账户特征所属的特征分箱的证据权重值,确定所述目标账户在当前评分机构的信用评分值。
2.根据权利要求1所述的确定方法,其特征在于,在基于目标账户的账户标识,获取所述目标账户的多个账户特征之前,所述确定方法包括:
获取多个评分机构的样本数据集,其中,每个所述样本数据集至少包括:账户特征,至少一个样本数据集还包括:样本标签;
对所述样本数据集进行预处理,并将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱;
基于所述多个特征分箱,计算每个所述特征分箱的证据权重值WOE,并基于所述证据权重值,计算每个所述账户特征的信息值IV;
基于所述信息值,筛选大于等于预设价值阈值的信息值所对应的账户特征,得到筛选出的账户特征集合;
基于预设逻辑回归模型,拟合所述账户特征集合中每个账户特征的特征参数,以完成对所述联邦学习模型的训练任务。
3.根据权利要求2所述的确定方法,其特征在于,在所述样本数据集包括样本标签的情况下,将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱的步骤,包括:
获取每个所述账户特征的特征值,并对所述特征值进行排序处理,得到排序结果;
基于预设分箱策略,对所述排序结果中所述特征值进行分箱处理,得到多个特征分箱。
4.根据权利要求2所述的确定方法,其特征在于,在将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,所述确定方法还包括:
计算每两个相邻的特征分箱的卡方值;
将最小卡方值所指示的相邻特征分箱合并为一个特征分箱;
返回计算每两个相邻的特征分箱的卡方值的步骤,直至所述卡方值大于预设阈值或者分箱数量等于分析数量阈值。
5.根据权利要求2所述的确定方法,其特征在于,在所述样本数据集包括样本标签的情况下,所述确定方法还包括:
控制包含所述样本标签的样本数据集所对应的目标评分机构生成公钥和私钥;
控制所述目标评分机构向未包含所述样本标签的样本数据集所对应的其它评分机构发送所述公钥,并保留所述私钥。
6.根据权利要求5所述的确定方法,其特征在于,在所述样本数据集不包括样本标签的情况下,在将预处理后的所述样本数据集中的账户特征进行分箱处理,得到多个特征分箱之后,所述确定方法还包括:
获取目标评分机构生成的公钥以及标签向量,其中,所述标签向量为所述目标评分机构对所述样本标签进行同态加密后得到的;
基于所述标签向量,计算每个所述特征分箱的样本总数和正样本数,得到计算结果;
采用所述公钥对所述计算结果进行加密,并将加密后的所述计算结果发送至所述目标评分机构。
7.根据权利要求2所述的确定方法,其特征在于,基于预设逻辑回归模型,拟合所述账户特征集合中每个账户特征的特征参数的步骤,包括:
获取随机特征参数,并初始化每个所述账户特征的参数,得到初始化参数;
采用预设计算公式对所述账户特征以及与所述账户特征对应的所述初始化参数进行计算,得到参数计算结果;
基于不同评分机构所对应的参数计算结果,计算模型参数的梯度;
基于模型参数的梯度以及所述随机特征参数,更新所述初始化参数;
返回采用预设计算公式对所述账户特征以及与所述账户特征对应的所述初始化参数进行计算,得到参数计算结果的步骤,直到所述逻辑回归模型达到预设模型收敛模式,得到与每个所述账户特征对应的特征参数。
8.根据权利要求7所述的确定方法,其特征在于,基于不同评分机构所对应的参数计算结果,计算模型参数的梯度的步骤,包括:
获取管理中心节点生成的公钥;
采用所述公钥对所述计算结果进行加密,并将加密后的所述计算结果发送至多个评分机构。
9.根据权利要求2所述的确定方法,其特征在于,获取多个评分机构的样本数据集的步骤,包括:
基于多个评分机构中每个账户的账户信息,采用预设隐私集合求交策略对目标用户关联的账户进行数据对齐,得到所述目标用户在每个评分机构的样本数据集。
10.一种信用评分值的确定装置,其特征在于,包括:
获取单元,用于基于目标账户的账户标识,获取所述目标账户的多个账户特征,得到特征集合,其中,每个所述账户特征对应一个特征值,对多个所述特征值进行分箱处理,得到多个特征分箱;
输入单元,用于将所述特征集合输入至预先训练的联邦学习模型,得到每个所述账户特征的参数值;
编码单元,用于对每个所述账户特征进行权重编码,得到所述账户特征所属的特征分箱的证据权重值;
确定单元,用于基于每个所述账户特征的参数值以及所述账户特征所属的特征分箱的证据权重值,确定所述目标账户在当前评分机构的信用评分值。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的信用评分值的确定方法。
12.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至9中任意一项所述的信用评分值的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210017882.7A CN114372871A (zh) | 2022-01-07 | 2022-01-07 | 信用评分值的确定方法及其装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210017882.7A CN114372871A (zh) | 2022-01-07 | 2022-01-07 | 信用评分值的确定方法及其装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372871A true CN114372871A (zh) | 2022-04-19 |
Family
ID=81144618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210017882.7A Pending CN114372871A (zh) | 2022-01-07 | 2022-01-07 | 信用评分值的确定方法及其装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372871A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611008A (zh) * | 2022-05-09 | 2022-06-10 | 北京淇瑀信息科技有限公司 | 基于联邦学习的用户服务策略确定方法、装置及电子设备 |
CN114936872A (zh) * | 2022-05-11 | 2022-08-23 | 山东远盾网络技术股份有限公司 | 一种基于大数据的信息分析方法 |
CN115880053A (zh) * | 2022-12-05 | 2023-03-31 | 中电金信软件有限公司 | 一种评分卡模型的训练方法及装置 |
CN115880053B (zh) * | 2022-12-05 | 2024-05-31 | 中电金信软件有限公司 | 一种评分卡模型的训练方法及装置 |
-
2022
- 2022-01-07 CN CN202210017882.7A patent/CN114372871A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611008A (zh) * | 2022-05-09 | 2022-06-10 | 北京淇瑀信息科技有限公司 | 基于联邦学习的用户服务策略确定方法、装置及电子设备 |
CN114611008B (zh) * | 2022-05-09 | 2022-07-22 | 北京淇瑀信息科技有限公司 | 基于联邦学习的用户服务策略确定方法、装置及电子设备 |
WO2023216494A1 (zh) * | 2022-05-09 | 2023-11-16 | 北京淇瑀信息科技有限公司 | 基于联邦学习的用户服务策略确定方法及装置 |
CN114936872A (zh) * | 2022-05-11 | 2022-08-23 | 山东远盾网络技术股份有限公司 | 一种基于大数据的信息分析方法 |
CN115880053A (zh) * | 2022-12-05 | 2023-03-31 | 中电金信软件有限公司 | 一种评分卡模型的训练方法及装置 |
CN115880053B (zh) * | 2022-12-05 | 2024-05-31 | 中电金信软件有限公司 | 一种评分卡模型的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112085159B (zh) | 一种用户标签数据预测系统、方法、装置及电子设备 | |
WO2022206510A1 (zh) | 联邦学习的模型训练方法、装置、设备及存储介质 | |
Pena et al. | Bias in multimodal AI: Testbed for fair automatic recruitment | |
CN110084377A (zh) | 用于构建决策树的方法和装置 | |
CN114401079B (zh) | 多方联合信息价值计算方法、相关设备及存储介质 | |
CN111666460A (zh) | 基于隐私保护的用户画像生成方法、装置及存储介质 | |
CN111723404A (zh) | 联合训练业务模型的方法及装置 | |
CN114372871A (zh) | 信用评分值的确定方法及其装置、电子设备及存储介质 | |
CN113449048B (zh) | 数据标签分布确定方法、装置、计算机设备和存储介质 | |
CN113362048B (zh) | 数据标签分布确定方法、装置、计算机设备和存储介质 | |
CN109376766A (zh) | 一种画像预测分类方法、装置及设备 | |
CN111563267A (zh) | 用于联邦特征工程数据处理的方法和装置 | |
CN112529101A (zh) | 分类模型的训练方法、装置、电子设备及存储介质 | |
CN112116103A (zh) | 基于联邦学习的个人资质评估方法、装置及系统及存储介质 | |
CN115034836A (zh) | 一种模型训练方法及相关装置 | |
CN114168988A (zh) | 一种联邦学习模型聚合方法及电子装置 | |
CN113240461A (zh) | 基于纵向联邦学习的潜在客户的识别方法、系统及介质 | |
Khan et al. | Vertical federated learning: A structured literature review | |
CN111553743A (zh) | 联邦产品推荐方法、装置、设备及计算机存储介质 | |
CN111553742A (zh) | 联邦产品推荐方法、装置、设备及计算机存储介质 | |
CN115660814A (zh) | 风险预测方法、装置、计算机可读存储介质及电子设备 | |
CN115456766A (zh) | 信用风险预测方法及装置 | |
CN114422105A (zh) | 联合建模方法、装置、电子设备及存储介质 | |
CN114065641A (zh) | 多分类梯度提升树的构建方法、装置及电子设备 | |
CN114463063A (zh) | 数据处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |