CN113743677A

CN113743677A - 基于联邦学习的个人信用评价模型训练方法及评价方法

Info

Publication number: CN113743677A
Application number: CN202111088347.2A
Authority: CN
Inventors: 顾见军
Original assignee: Chengdu Digital Technology Co ltd
Current assignee: Chengdu Digital Technology Co ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-03
Anticipated expiration: 2041-09-16
Also published as: CN113743677B

Abstract

本发明涉及基于联邦学习的个人信用评价模型训练方法及评价方法，包括获取多方关于目标用户的异构数据；对多方的异构数据进行特征处理；根据特征处理后数据的类型和特征生成各方的异构信息网络图；将各方的异构信息网络图分别输入至预先训练的个人信用评价模型，获得个人信用评价模型输出的各方信用计算结果；根据所述各方信用计算结果，基于预设公式，对个人信用评价值进行综合计算，获得个人信用评价值。本申请利用联邦学习的安全性特征和异构信息网络的元路径丰富的表达特征，实现了对多方异构数据的统一表达，可更加直接、客观地评价个人的各类信用风险，对个人信用风险在预测准确度和鲁棒性等方面具有较好的效果。

Description

基于联邦学习的个人信用评价模型训练方法及评价方法

技术领域

本发明涉及机器学习技术领域，尤其涉及基于联邦学习的个人信用评价模型训练方法及评价方法。

背景技术

随着大数据时代的发展，数据安全越来越被重视，法规也在不断完善。联邦学习是一种新兴的基于机器学习的技术，近几年得到各界的广泛关注。所谓联邦学习，是指多参与方在不暴露本地数据的前提下，进行联合训练机器学习模型，并且在整个学习过程中，客户端的数据并未将本地数据暴露给其他方，能够保证数据隐私和安全，因此在解决数据孤岛问题的同时保障了数据隐私安全。由于联邦学习技术能保障数据隐私和安全，因此也越来越被重视。

个人信用评价是基于个人的基本信息和信用数据，运用数据挖掘技术和统计分析方法，通过对个人信用历史和信用行为等大量数据系统的分析，挖掘出数据中蕴含的信用行为模式和信用特征，建立当前信用信息和未来信用表现之间的函数关系，并把当前个人信用信息转化为表征未来某种信用风险的分值。

目前的个人信用评价方法主要是基于个人的基本信息和信用数据，运用数据挖掘技术和统计分析方法，通过对个人信用历史和信用行为等大量数据系统的分析，挖掘出数据中蕴含的信用行为模式和信用特征，建立当前信用信息和未来信用表现之间的函数关系，并把当前个人信用信息转化为表征未来某种信用风险的分值。它主要通过对个人客户的结构化信息进行量化计算得出信用分值，反映个人客户的信用状况。

目前个人信用评价方法一般采用线性加权求和法计算综合评价的分，其数学模型为：Y_i＝∑W_jF_ij，(j＝1,2，…，n)，其中，n为多级指标的个数，Y_i是第i个参评学科领域综合评价得分值，且0<Y_i<100；W_j是第j个指标的权重，且∑W_j＝1；F_ij是第i个参评学科领域第j个指标归一处理后的评价值。

随着社会的发展，对于个人信用风险的刻画越来越多样化，有结构化数据、半结构化数据、非结构化数据，传统的个人信用评价方法在刻画金融风险的多源化和多样化上具有明显的缺点，具体如下：

(1)随着社会的发展，个人信用风险也呈现多样化和多源化的特点，许多非结构化的数据或者半结构化的数据或者信息需要引入个人风险评价模型，而传统的个人信用评价方法只能计算金融机构定量的风险，对于金融机构面临的许多非定量的风险，无法计算，因此传统的个人信用评价方法不适合现代金融中对于信贷对方多维度的刻画，而只能从单一的定量的维度进行刻画；

(2)传统个人信用评价需要采用多方数据时，一般依赖标准的API接口或者XML文件来进行数据交互，这种方式会造成在传输过程中或者计算过程中隐私数据的泄密，无法确保评估过程中数据的隐私和安全，而且随着法律的健全，这种直接交互个人数据的数据调用方式也不符合法律规定和要求，无法满足金融机构对于个人信用评价的要求。

(3)传统风险分析，对风险内涵范围界定较模糊，对风险判定也无统一的规则。由于对风险内涵的理解不同、对风险判定的标准不同，导致分析结果会带有较强烈的个人色彩，不同分析人员对同一标的物所判定的风险结果也会显现出差异化。

发明内容

针对现有的个人信用评价方法的不足，本申请提提供基于联邦学习的个人信用评价模型训练方法及评价方法。

本申请通过下述技术方案实现：

基于联邦学习的个人信用评价模型训练方法，包括以下步骤：

对多方的异构数据进行特征处理，所述异构数据包括结构化数据、半结构化数据、非结构化数据；

根据特征处理后数据的类型和特征生成各方的异构信息网络图；

各方根据各自的异构信息网络图数据对本地的信用评价模型进行训练，获得参与方信用评价模型训练的中间模型和模型参数；

根据各参与方信用评价模型训练的中间模型和模型参数初始化主控制端节点的个人信用评价模型；

主控制端节点利用所述各方的异构信息网络图数据对所述初始化后的个人信用评价模型进行训练，获得训练好的个人信用评价模型；

将个人信用评价模型每次训练后的模型参数反馈给各参与方，参与方根据所述反馈的模型参数更新本地的信用评价模型。

本申请提供的基于联邦学习的个人信用评价方法，包括以下步骤：

获取多方关于目标用户的异构数据；

对多方的异构数据进行特征处理；

将各方的异构信息网络图分别输入至预先训练的个人信用评价模型，获得个人信用评价模型输出的个人信用评价值；

所述个人信用评价值采用所述的个人信用评价模型训练方法得到。

特别的，所述个人信用评价模型为：

上式中，Y为个人信用评价值，W_i为权重系数，X_i为根据各方数据计算得到的各方信用评价中间值，P_i为各方的联邦学习优化参数值，P_i-1为各方上一步联邦学习优化参数值，a为优化步长，

为单一变量优化函数。

其中，采用以下公式计算X_i：

上式中，r_j为v_j节点的百分占比，q_j为v_j节点的信用分值。

本申请提供的基于联邦学习的个人信用评价系统，包括第三方设备、个人方设备、银行方设备和主控端设备；

所述第三方设备、个人方设备、银行方设备均包括特征处理模块、生成模块和联邦学习协同模块；

所述主控端设备包括联邦学习主控制端模块、信用评价模块和模型优化模块；

所述特征处理模块，用于对异构数据进行特征处理；

所述生成模块，用于根据特征处理后的数据生成异构信息网络图；

所述联邦学习协同模块，用于根据异构信息网络图数据对本地的信用评价模型进行训练；

联邦学习主控制端模块，用于根据各方数据对个人信用评价模型进行训练，获得训练好的个人信用评价模型；

信用评价模块，用于将各方的异构信息网络图分别输入至预先训练的个人信用评价模型，获得个人信用评价模型输出的个人信用评价值；

模型优化模块，用于在所述个人信用评价模型的训练过程中，获取模型参数，并发送至各方的联邦学习协同模块，以使联邦学习协同模块根据所述模型参数更新本地信用评价模型。

与现有技术相比，本申请具有以下有益效果：

1，本申请充分利用联邦学习的安全性特征和异构信息网络的元路径丰富的表达特征，实现了对多方异构数据的统一表达，在此基础上将多方个人相关数据通过联邦学习协同模块输入至联邦学习主控制端模块，实现了将各类多源化的个人数据统一到一个一致性个人信用评价模型中，最后通过个人信用评价模型计算，得到个人信用评价值，从而实现了基于联邦学习的个人信用评价。

2，本申请解决了个人信用评价中的针对异构数据无法统一性评价的问题，本申请可更加直接、客观地评价个人的各类信用风险，对个人信用风险在预测准确度和鲁棒性等方面具有较好的效果。

附图说明

此处所说明的附图用来提供对本申请实施方式的进一步理解，构成本申请的一部分，并不构成对本发明实施方式的限定。

图1为本发明实施例中的基于联邦学习的个人信用评价的流程图；

图2为本发明实施例中第三方个人数据的特征处理流程图；

图3为本发明实施例中第三方个人数据生成异构信息网络图流程图；

图4为本发明实施例中第三方个人数据、个人数据、银行内部数据的联邦学习协同模块流程图；

图5为本发明实施例中个人数据的特征处理流程图；

图6为本发明实施例中个人数据生成异构信息网络图流程图；

图7为本发明实施例中银行内部数据的特征处理流程图；

图8为本发明实施例中银行内部数据生成异构信息网络图流程图；

图9为本发明实施例中联邦学习主控制端模块流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述。显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

如图1所示，本实施例公开的基于联邦学习的个人信用评价方法，包括以下步骤：

第三方个人数据进行特征处理，对第三方个人数据按照数据结构类型进行分类，具体分为结构化数据、半结构化数据、非结构化数据；根据分类数据的类型和特征生成异构信息网络图；异构信息网络图数据输入联邦学习协同模块，进行联邦学习前的各项设置；

个人数据进行特征处理，对个人数据按照数据结构类型进行分类，分为结构化数据、半结构化数据、非结构化数据；根据分类数据的类型和特征生成异构信息网络图；异构信息网络图数据输入联邦学习协同模块，进行联邦学习前的各项设置；

银行内部数据进行特征处理，对银行内部数据按照数据结构类型进行分类，分为结构化数据、半结构化数据、非结构化数据；根据分类数据的类型和特征生成异构信息网络图；异构信息网络图数据输入联邦学习协同模块，进行联邦学习前的各项设置；

联邦学习主控制端模块通过联邦学习协同模块获取第三方个人数据、个人数据、银行内部数据，同时聚合各参与节点计算的数据，并且得到联邦学习协同模块模型训练后的模型参数值，然后再将各方的异构信息网络图分别输入至个人信用评价模型，个人信用评价模型进行个人信用评价计算，输出个人信用评价值。

其中，还包括模型优化，主控节点将每次训练后的模型参数反馈给各参与方，各参与方根据反馈的模型参数更新本地的信用评价模型。具体为：联邦学习主控制端同步向参与节点发送模型训练请求以及个人信用评价模型参数，每迭代一个参与节点的训练，主控制端节点更新一次个人信用评价模型，更新为此参与节点训练的中间模型；迭代完成后，主控制端节点得到最终的个人信用评价模型。

特别的，如图1-图4所示，第三方个人数据的数据处理流程如下：

首先，如图2所示，第三方个人数据进行特征处理，步骤如下：首先是第三方个人数据输入到数据解析器，按照结构化数据、半结构化数据、非结构化数据三大类进行数据解析和分类；然后解析完的数据输入到数据转换器，将解析的数据按照异构信息网络图的要求和个人信用评价模型的要求进行数据转换，等待输入到异构信息网络图；

随后，如图3所示，经过特征处理后的第三方个人数据根据数据的分类类型和特征生成异构信息网络图，该异构信息网络图包括了结构化第三方个人数据v₁、半结构化第三方个人数据v₂、非结构化第三方个人数据v₃；其中结构化第三方个人数据v₁可以存储各种结构化第三方个人数据，其中半结构化第三方个人数据v₂可以存储各种半结构化第三方个人数据，其中非结构化第三方个人数据v₃可以存储各种非结构化第三方个人数据；

然后，如图4所示，联邦学习协同模块进行多方数据计算前的准备，首先将第三方个人数据的异构信息网络图进行数据预处理，然后对预处理后的数据进行本地信用评价模型训练，然后把此参与节点本地信用评价模型训练的中间模型和模型参数通过同步接口发送至联邦学习主控制端模块。

特别的，如图1、图4-图6所示，个人数据的处理流程如下：

首先，如图5所示，个人数据进行特征处理，步骤如下：个人数据输入到数据解析器进行数据解析，按照结构化数据、半结构化数据、非结构化数据三大类进行数据解析和分类，然后解析完的数据输入到数据转换器，将解析的数据按照异构信息网络图的要求和个人信用评价模型的要求进行数据转换，等待输入到异构信息网络图；

随后，如图6所示，经过特征处理后的个人数据根据数据的分类类型和特征生成异构信息网络图，该异构信息网络图包括了结构化第三方个人数据v₅、半结构化第三方个人数据v₆、非结构化第三方个人数据v₇；其中结构化第三方个人数据v₅可以存储各种结构化第三方个人数据，其中半结构化第三方个人数据v₆可以存储各种半结构化第三方个人数据，其中非结构化第三方个人数据v₇可以存储各种非结构化第三方个人数据；

然后，如图4所示，联邦学习协同模块进行多方数据计算前的准备，首先将个人数据的异构信息网络图进行数据预处理，然后对预处理的数据进行本地信用评价模型训练，然后把此参与节点本地信用评价模型训练的中间模型和模型参数通过同步接口发送至联邦学习主控制端模块。

特别的，如图1、图4、图7、图8所示，银行内部数据的数据处理流程如下：

首先，如图7所示，银行内部数据进行特征处理，步骤如下：银行内部数据输入到数据解析器进行数据解析，按照结构化数据、半结构化数据、非结构化数据三大类进行数据解析和分类，然后解析完的数据输入到数据转换器，将解析的数据按照异构信息网络图的要求和个人信用评价模型的要求进行数据转换，等待输入到异构信息网络图；

随后，如图8所示，经过特征处理后的银行内部数据根据数据的分类类型和特征生成异构信息网络图，该异构信息网络图包括了结构化第三方个人数据v₉、半结构化第三方个人数据v₁₀、非结构化第三方个人数据v₁₁；其中结构化第三方个人数据v₉可以存储各种结构化第三方个人数据，其中半结构化第三方个人数据v₁₀可以存储各种半结构化第三方个人数据，其中非结构化第三方个人数据v₁₁可以存储各种非结构化第三方个人数据；

然后，如图4所示，联邦学习协同模块进行多方计算前的准备，首先将个人数据的异构信息网络图进行数据预处理，然后对预处理的数据进行本地信用评价模型训练，然后把此参与节点本地信用评价模型训练的中间模型和模型参数通过同步接口发送至联邦学习主控制端模块。

如图3、图6、图8所示，各方数据均可以用异构信息网络来表示，每一种类型数据可以用一个有向图G＝(V，E)来表示，其中V是个人数据节点类型，E是边类型；其中G代表所有的个人数据，V代表单个的个人数据集，E代表V之间不同的关系。并且用映射函数φ:V→A来表示每一个v∈V属于节点类型集合A:φ(v)∈A，用映射函数ψ:E→R.表示每条边e∈E属于边的类型集合R:ψ(e)∈R，在这个异构信息网络中，|A|>1或者|R|>1。

特别的，如图9所示，联邦学习主控制端模块先利用参与节点的协同模块发送过来的模型参数初始化个人信用评价模型，然后再将各方的异构信息网络图分别输入至初始化后的个人信用评价模型，个人信用评价模型对个人信用评价进行计算，输出个人信用评价值Y。

Y的计算公式如下：

上式中，W_i为权重系数，X_i为根据各方数据计算得到的各方信用评价中间值，P_i联邦学习优化参数值，P_i-1为上一步联邦学习优化参数值，a为优化步长，

为单一变量优化函数；r_j为v_j节点的百分占比，q_j为v_j节点的信用分值，r_j、q_j可凭经验直接赋值。

最后，如图1所示，通过模型优化模块优化优化步长a和单一变量优化函数

来实现对个人信用评价模型的优化。

以下对本申请的个人信用评价方法进行举例说明，见例1：

例1

如图1所示，第三方个人数据、个人数据、银行内部数据分别进行特征处理，按照数据结构类型进行分类，分为结构化数据、半结构化数据、非结构化数据；然后，根据分类数据的类型和特征生成异构信息网络图；异构信息网络图数据输入联邦学习协同模块，进行联邦学习前的各项设置。

联邦学习主控制端模块先利用参与节点的协同模块发送过来的模型参数初始化个人信用评价模型，然后根据各方数据的不同的r_j和q_j值以及公式

计算第三方个人数据、个人数据、银行内部数据的X_i值，如表1所示。

表1

然后，根据如下公式进行个人信用评价计算，获得个人信用评价值Y：

其中，P_i由公式

计算得出，P₀为联邦学习优化初始参数值，P₀＝1；优化步长a＝0.5；单一变量优化函数

其中x是优化迭代次数，x＞0；当x＝1时，各个参数计算结果如表2所示：

表2

类型	W<sub>i</sub>	X<sub>i</sub>	P<sub>i</sub>
				第三方个人数据	0.1	64	0.9
个人数据	0.2	64	0.9
				银行内部数据	0.6	92	0.9

表2

根据公式

得出Y＝0.1*64*0.9+0.2*64*0.9+0.6*92*0.9＝66.96

最后，通过模型优化模块优化优化步长a值和单一变量优化函数

来实现对个人信用评价模型的优化。

基于上述个人信用评价方法，本实施例还公开了基于联邦学习的个人信用评价系统，包括第三方设备、个人方设备、银行方设备和主控端设备；

第三方设备、个人方设备、银行方设备均包括特征处理模块、生成模块和联邦学习协同模块；

主控端设备包括联邦学习主控制端模块、信用评价模块和模型优化模块；

特征处理模块，用于对异构数据进行特征处理；

生成模块，用于根据特征处理后的数据生成异构信息网络图；

联邦学习协同模块，用于根据异构信息网络图数据对本地的信用评价模型进行训练；

模型优化模块，用于在个人信用评价模型的训练过程中，获取模型参数，并发送至各方的联邦学习协同模块，以使联邦学习协同模块根据模型参数更新本地信用评价模型。

特别地，根据本实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如一种电子设备，包括：

至少一个处理器，存储器，存储有至少一个计算机程序；

当至少一个计算机程序被至少一个处理器执行，使得至少一个处理器执行如的个人信用评价方法或个人信用评价模型训练方法。

又如一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现的个人信用评价方法或个人信用评价模型训练方法。

本申请通过联邦学习能够保证数据隐私和安全的特性，实现了对基于多源异构的个人数据的个人信用的评价，在此基础上，通过将多方个人数据进行数据解析和转换后，生成结构化个人数据、半结构化个人数据、非结构化个人数据，然后通过异构信息网络图的特性将个人数据中的三种不同类型的个人数据进行了数据结构的转化，链接不同对象之间的不同元路径表示了不同类型数据结构的个人数据的链接和表示网络，这样实现了对不同特征个人数据的统一表示。并且通过联邦学习的机制，实现了对基于不同特征个人数据的统一的信用的评价计算，最后通过优化模块实现联邦学习模块的不断迭代和优化。本发明克服了传统个人信用评价过程中的数据结构单一性问题，同时实现了对多源异构个人数据的统一的信用评价。

本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。