CN111461874A

CN111461874A - 一种基于联邦模式的信贷风险控制系统及方法

Info

Publication number: CN111461874A
Application number: CN202010283266.7A
Authority: CN
Inventors: 郑小林; 李健萌
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-07-28

Abstract

本发明涉及大数据技术，旨在提供一种基于联邦模式的信贷风险控制系统及方法。该系统包括用于接入并转化数据的异构数据接入层、用于对原始数据进行预处理的数据预处理层、用于使不同数据提供者的训练样本保持对齐的样本对齐层，以及利用参与方本地数据训练本地模型并在梯度聚合后形成全局模型的联邦学习层。本发明提出了统一数据接入格式、数据预处理以及基于联邦学习的风险预测模型，解决了数据异构和隐私泄露为风险控制带来的挑战问题。不需要中心服务器参与到模型训练和学习过程中，能够保证用户隐私不被窃听。能联合众多不同的参与方进行风险控制建模，规范化建模流程，最终提升风险控制能力，为企业减少成本。

Description

一种基于联邦模式的信贷风险控制系统及方法

技术领域

该发明涉及大数据技术，具体涉及一种基于联邦模式的信贷风险控制系统及方法，是大数据技术在金融领域的信用贷款分支中的应用，特别适用于企业进行贷前风险控制流程。

背景技术

在泛金融领域中，涉及信贷业务的风险控制是几乎所有金融企业最为关心的核心环节之一。但传统的信贷风险控制方法需要大量人工(审核专员)的参与，同时具有较高的隐私泄露风险、人为操纵风险以及用户诈骗风险。例如，传统风控方法中对用户数据的采集方式主要通过申请人自己提供，然后审批机构通过人工方式去核实这些信息的准确性，最终根据自己内部建立的一套评价方法对该申请人进行信用评价，进而确定是否授信以及授信额度，较为典型的有专家评价法和评分评价法。

在西方发达国家银行早期开展信用贷款业务时，对风险的评价与大多来源于内部审核专家丰富的经验总结，属于定性分析方法。例如5C分析法，此类方法通过各个维度的评价可以简单判断出贷款用户的潜在风险，为后续复杂模型的发展奠定了重要的基础。但是不可否认的是此类定性评价方法得到的最终结果仅仅取决于风控专家的主观评价，这就导致了风控专家在评价过程中的心态、以及所处的环境等因素都会在一定程度上影响最终风控预测的结果，因而准确性不高。另一方面，随着时代发展，借款群体越来越庞大，而培养一名风控专家却需要较长的周期，二者之间便产生矛盾。

随着计算机技术的崛起以及数学模型的应用引起了众多商业银行的注意。人们开始探索如何有效将定性评价和定量分析法结合起来，评分评价法应运而生。引入基于数理统计的方法后贷款审批的效率大大提升，评分过程通过系统自动完成，风控专员只需要关注灰色区域的分值，能够大大减小人工处理业务量，但该评价方法依赖于表内数据，评价缺乏完整性。

随着大数据时代到来，基于历史数据的评价方法难以对缺乏历史数据的借款人进行有效评价，且模型本身较为简单容易被恶意用户攻击。近年来，各企业纷纷寻求新方法构建风险控制模型。大数据风控正式随着大数据处理技术发展而出现的基于机器学习的新型评估方法。

但通过对金融信贷领域风险控制研究成果的分析，我们发现大多数风险控制方法重点关注于传统风险控制评分卡模型。该技术的本质经由专家经验总结而来，随后得益于计算机技术的发展和数学模型应用，形成了以评分卡模型为核心的评分评价法。此类技术综合考虑了专家经验和数学模型，兼顾主观与客观分析，其有效性在长期的实践过程中也得以验证，直到现在，该类技术仍是众多商业银行进行风险控制采纳的主流技术。但该技术存在着信息不对称、信用数据获取维度少、较高的人工采集成本缺陷，已经越来越不适用如今的大数据时代。

大数据风险控制技术则一般被用于互联网金融企业内部，该技术在风险评估时不但会利用银行内部数据，还会从互联网上获取用户相关行为数据包括但不限于运营商数据、电商数据、公共事业单位、社交数据、多方借贷数据；另外其使用的一般是较为复杂的机器学习模型，如梯度提升决策树或是以神经网络为代表的深度学习算法。

但此大数据风险控制技术存在一个基本前提同时也是其致命缺陷，即假设各数据方的数据可以合法的融合。换句话说，要利用大数据进行风控首先得先把分散在各处的数据整合至一处，然后再合并后的宽表运行风险控制模型，进行后续风险控制管理。

然而，如今随着国内外数据监管以及公众隐私保护的逐步加强，不同企业间数据的交换在未来将不再被允许，此时，当前的风险控制技术都将失效。本发明着眼于隐私保护下的风险控制技术，提出了基于联邦模式的大数据风险控制技术，为未来企业风险控制技术的发展就被重大意义。

此外，适用于信贷风险控制建模的算法非常多，基于传统的评分卡模型可以构建简单有效的模型，利用复杂的机器学习手段，例如，LR，GBDT+LR，XGBoost都可以实现用户风险控制，这些方法被广泛用于互联网金融领域的风控。但是这些手段都没有考虑到在进行多方联合建模时的用户数据隐私保护问题。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种基于联邦模式的信贷风险控制系统及方法。

为解决技术问题，本发明的解决方案是：

提供一种基于联邦模式的信贷风险控制系统，包括异构数据接入层、数据预处理层、样本对齐层和联邦学习层；其中，

异构数据接入层，用于接入多个数据提供者的存储形式杂乱的数据，将其转化为统一规整的结构化数据并对外提供一致的接口；

数据预处理层，用于针对经过结构化转化的原始数据进行预处理操作；

样本对齐层，用于通过加密样本对齐使不同数据提供者的训练样本保持对齐；

联邦学习层，用于联合作为参与方的各个数据提供者与中心服务器进行通信：利用参与方的本地数据训练出本地模型，通过网络上传至中心服务器；由中心服务器对全部本地模型进行梯度聚合，然后分发给各参与方用于更新并最终形成一个全局模型。

本发明中，所述预处理操作包括：对原始数据进行分箱、独热编码、数值归一化、缺失值填充、映射编码、哈希编码、缩放或离散化处理，将原始的数值、字符串以及比率数值转化为适合模型输入的特征。

本发明中，所述参与方的本地服务器上各设置通信模块，用于负责各参与方之间样本对齐、梯度更新和聚合时的；通信模块包括发送模块和接收模块两个子功能模块，分别负责报文的发送与接收。

本发明进一步提供了一种基于联邦模式的信贷风险控制方法，包括以下步骤：

(1)以若干个数据提供者作为参与方，将各参与方形式杂乱的数据转化为统一规整的结构化数据，并对外提供一致的接口；

(2)对经过结构化转化的原始数据进行预处理操作，使数据特征适合模型输入；

(3)通过加密样本对齐的操作，在各参与方不暴露数据的前提下确保各训练样本对齐；

(4)利用参与方的本地数据训练出本地模型后，联合各参与方与中心服务器之间的通信，通过网络上传至中心服务器；由中心服务器对全部本地模型进行梯度聚合，然后分发给各参与方，最终形成一个全局模型；该过程中，各参与方和中心服务器利用全局模型进行的加密数据交互式训练，在不泄漏任何用户数据隐私的情况下完成模型训练；

(5)将待预测样本数据发送至中心服务器，中心服务器复制请求并分别传输至各参与方；各参与方将计算得到的本地结果回传至中心服务器，中心服务器解密后得到用于评价用户信贷风险的信用分值。

本发明中，所述步骤(1)中，将参与方本地原始数据的原始格式先转换JSON中间表示，再通过Spark计算框架统一进行分布式解析生成Hive表结构，对外提供一致的Hive接口；该过程中只提供基本的字段类型的转换操作，为了统一进行数据描述以及数据变换，定义标准操作符具有如下格式：

<源数据格式，源字段类型，目标数据格式，目标字段类型>。

本发明中，所述步骤(2)中，通过定义标准的操作符实现数据分箱、编码、缩放、或离散化操作；根据不同的预处理方式，定义不同的数据预处理算子以实现数据形式的转换；算子的标准格式定义如下所示：

算子名称[配置项][输入项]＝>[输出项]。

本发明中，所述步骤(3)中包括：各参与方先在中心服务器上注册，指明自身提供数据集的类型、本地IP、监听的端口信息；中心服务器维护全局统一的各参与方元数据哈希表，该表中包含着每个参与方相关的元信息；

当其中一个参与方需要与某个特定数据集的持有方进行联邦建模时，首先向中心服务器发起查询信息，中心服务器检查该特定数据集的当前状态，若其持有方已处于就绪状态，则向发起查询的参与方返回持有方的IP地址和端口信息；此后两方自行进行加密样本对齐过程，不需要中心服务器参与以保证用户隐私不被窃听。

本发明中，所述步骤(4)中，中心服务器负责进行梯度汇总和各参与方模型的更新，具体训练过程包括：

(1)中心服务器利用RSA算法生成私钥和公钥，并向各参与方同时下发自身的公钥以用于加密需要传输的数据；

(2)各参与方分别在本地数据库中计算特征中间结果并求得梯度，然后利用公钥加密后传输给中心服务器；

(3)中心服务器利用私钥进行解密并进行梯度聚合，然后传给各参与方，各参与方更新本地模型。

与现有技术相比，本发明的有益效果是：

1、本发明的主要创新点在于，提出了统一数据接入格式、数据预处理以及基于联邦学习的风险预测模型，解决了数据异构和隐私泄露为风险控制带来的挑战问题。

2、本发明提出了基于联邦学习的风险预测模型，该方法将加密技术应用于学习模型的训练过程中，以中心服务器为信任节点的前提进行学习训练。不需要中心服务器参与到模型训练和学习过程中，能够保证用户隐私不被窃听。

3、本发明中，统一数据接入格式和数据预处理采用了数据集成技术，实现了对数据的规范化和匿名化处理，实现了基本的数据隐私保护功能。

4、本发明提出的异构数据接入方案，能够方便的对各类数据进行接入；

5、本发明抽象出了数据预处理算子的概念，并基于此构建了数据预处理层，能够减轻风险控制建模人员的数据预处理负担；

6、本发明提出了一种巧妙简洁的数据对齐方案，能够实现不同参与方的训练数据样本对齐；

7、本发明构建了基于联邦模式的用户风险控制模型训练系统，可以有效防止用户数据泄露，保证企业合规使用数据，保护用户数据隐私。

8、本发明能联合众多不同的参与方进行风险控制建模，规范化建模流程，最终提升风险控制能力，为企业减少成本。

附图说明

图1本发明所述联邦学习架构；

图2异构数据接入流程；

图3参与方注册流程；

图4参与方查询流程；

图5发送模块工作流程；

图6接收模块工作流程；

图7样本对齐流程；

图8联邦训练流程；

图9联邦预测流程。

具体实施方式

首先需要说明的是，本发明涉及大数据技术，是计算机技术在一种信贷风险控制领域的一种应用。在本发明的实现过程中，会涉及到多个软件功能模块的应用。申请人认为，如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后，在结合现有公知技术的情况下，本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。前述软件功能模块包括但不限于：异构数据接入层、数据预处理层、样本对齐层以及联邦学习层等，凡本发明申请文件提及的均属此范畴，申请人不再一一列举。

下面结合附图，对本发明的具体实施方式进行详细描述。实施例中，不失一般性假定了有两个参与方进行联邦训练且训练模型为LR模型的训练过程。

如图1所示，本发明提出的基于联邦模式的信贷风控系统。该系统旨在联合众多不同的参与方进行风险控制建模，规范化建模流程，最终提升风险控制能力，从而为企业减少成本。

整个系统分为四层，分别是异构数据接入层、数据预处理层、样本对齐层以及联邦学习层。异构数据接入层通过将参与方内部杂乱的数据存储形式，转为统一规整的结构化数据接入大数据平台，实现了对外提供一致Hive接口，方便业务以及技术人员进行统一的分析。数据预处理层则构建于异构数据接入层之上，其封装了常见的数据预处理手段，例如分箱、独热编码、数值归一化、缺失值填充等。该层通过算子转化操作，将原始的数值、字符串以及比率数值转化为适合风险控制模型输入的特征。实现了数据预处理和风险控制模型的分离，对于风险控制建模人员快速迭代算法具备重要的意义。在数据预处理之上则是样本对齐层。样本对齐层实现了在不交换原始数据的情况下，使得参与建模的两方能够就训练样本达成一致。该层涉及非对称加密技术。最上层是联邦学习层，各方确定完参与建模的样本后，开始通过联邦学习方法进行联合建模，梯度的聚合与分发通过公共的第三方平台(中心服务器)完成。

4.1异构数据接入层

在任何一个企业内部，由于业务发展不同、操作管理数据的人员不同，业务一线的数据格式往往复杂多样、数据格式杂乱无章，这造成了对于后续的数据处理、转换非常麻烦。在实际操作中，如果能够在企业内部业务一线部署一套异构数据接入模块，将给后续研究人员风控建模工作带来极大的便利性。如图2所示。

为了能够统一进行数据描述以及数据变换，本发明定义了一套标准的操作符。标准操作符具有如下格式：

<源数据格式，源字段类型，目标数据格式，目标字段类型>

鉴于JSON语法具备清晰和简洁的层次结构，我们将原始格式先转换JSON中间表示，再通过Spark计算框架统一进行分布式解析生成Hive表结构。异构数据接入不进行样本数据的预处理操作，只提供基本的字段类型的转换操作，因此我们参考JSON语法描述的标准类型为准。

4.2数据预处理层

数据预处理是指在风控建模前对原始数据进行一系列清洗、转换、离散化等操作，是风控建模中非常重要的一个环节，因为从实际业务系统中接入的数据往往是脏的，例如：

数据重复，实际风控建模的数据来源于不同的业务场景，由不同的人员负责，由于不同人员对数据的使用方法不同往往导致相同的数据拥有不同的数据类型，例如用户申请时间，对于一线的审核人员更关注该字段的易读性，一般是形如“2019年10月1日”的字符串类型，而对于后端技术开发人员，更关注该用户申请时间的精准性，方便后续与其他业务进行一致性数据校验，一般使用的是用户申请时精确到秒级的时间戳，属于整型类型。虽然二者的数据格式与表现形式均不同，但其传达的信息完全一致。

数据缺失，实际信贷场景中偶尔发生的系统崩溃以及在业务执行过程中操作人员未操作失或是申请用户刻意隐瞒申请资料等情况，会导致采集到的数据存在缺失等现象，根据缺失发生的维度可以将数据缺失划分为两种情况，即样本缺失与特征维度缺失。

针对存在的上述问题，本发明整理了目前最常见的数据预处理方案，通过定义标准的操作符实现数据分箱、编码、缩放、离散化等操作。

表1支持的数据类型

如表1所示，对于数字型字段，提供数据缩放、数据离散化两类转换方式。根据上述不同的预处理方式，本发明定义并实现了不同的数据预处理算子，算子实现了从目前已有的数据中通过某种操作转换为另一种形式的数据，一个算子的标准格式定义如下所示：

算子名称[配置项][输入项]＝>[输出项]

其中算子名称是实现数据转换操作的表示名称，用于区分不同的操作，方便人们进行检索，可类比于高级编程语言中的函数名称，该名字一般具备特殊且显而易见的含义。配置项则代表实现该预处理操作需要提供的配置，系统中会实现默认配置，但用户可提供自定义配置项将默认配置项覆盖，例如进行哈希编码时需要提供希望使用的哈希函数，进行分桶/箱时需要提供桶/箱的个数等，可类比于高级编程语言中的默认参数。输入与输出则分别代表算子需要接收的输入数据以及最终算子运算完成后的输出数据，一般一来说每一个算子只能接收一个输入，最终产生一个输出。

数据缩放是指对字段的标准化、归一化等操作。该操作实现消除不同字段的单位和尺度差异的作用，对于机器学习优化算法在参数空间寻找最优解具有重要的意义。在风险控制场景中，常见数字型字段有用户的存款、贷款、理财、基金等金额类字段以及用户近期通话次数等统计类字段，由于统计口径与方式不同，这些字段的单位有所差别，即量纲不同。通过数据缩放统一量纲，为后续建模建立了坚实的基础。数据离散化是指在不改变数据相对大小的前提下，对数据进行重新映射。该转换可以有效解决数据缺失及失真问题，对提高风控模型的稳定度，降低模型过拟合风险具有显著作用。例如在信贷场景中，客户经理操作失误可能会将用户的年龄填错或者用户填写申请表字迹不清，导致最终表内出现“年龄100岁”这样的字段，通过数据离散化可以将年龄映射到[0,24]，[25,49],[50,75],[76,]四个区间内，以所在区间ID代表实际年龄，可以有效避免异常数据带来的影响。常见的离散化方式有等宽、等频、等距、聚类特征。

对于字符串型字段，主要提供编码转换。在现实场景中，存在着大量字符串型的字段，例如性别(男、女)、户籍所在地(北京市、上海市、广州市等)、所在单位性质(事业单位、民营企业、外资企业等)等。诸如此类的字符串格式主要是为了方便人类理解，但无法直接输入机器学习模型中。此处将字符串作数值映射后，再根据实际后续模型决定是否进行独热编码。

最后是序列类型，该类型在移动运营商内部广泛存在，用户每月的缴存账单天然形成一组序列。针对序列类型，目前常见的手段是进行简单的数据聚合操作，例如针对用户近三个月的通话记录，将近三个月通话次数进行求和生成新字段进行后续建模。

4.3样本对齐层

样本对齐是指在联邦学习前应保证各参与方之间就参与训练的样本保持一致。在个人信用风险控制领域，由于两个参与方的样本不可能完全重合，所以在进入联邦训练模型前，通过加密样本对齐技术，在参与各方不暴露数据的前提下，确认多方的共有样本具有重大意义。例如小微互联网金融企业内部有样本的借贷历史数据以及贷款表现数据，移动运营商包含用户所有的通话记录短信记录等数据，银行则拥有用户的存款贷款理财等数据，但不出意外，这些数据的规模以及面向的服务对象均有所不同。如果各参与方双方无法感知其共有样本则后续建模过程无从谈起。

样本对齐层首先要进行的是对齐的双方互相发现，这里本发明通过一个设置在中心服务器上的注册服务器实现需要匹配的双方进行互相发现，也就是说，参与方A首先需要获取的是对齐对方的IP地址和端口，然后才能建立网络连接。任何希望进入联邦训练的参与方首先均需要在中心服务器上进行注册，指明自身提供数据集的类型、本地IP、监听的端口等信息。

参与方具体注册过程如图3所示，注册服务器维护全局统一的各参与方元数据哈希表，该表中包含着每个参与方相关的元信息，例如，各参与方拥有的数据集类型，本地的IP地址以及当前监听的端口，以及该参与方当前是否准备好进行联邦建模等信息。每个想参与联邦建模的企业，首先都需要在注册服务器上进行自身信息的注册，只有这样各参与方才能进行互相感知，否则，每个企业都是处于孤立状态，其他参与方无法与之进行样本对齐。第一步参与方将自身的元信息整理为报文并发送注册请求，接着注册服务器在哈希表上插入一条对应的条目，并返回注册成功信息。

参与方查询过程如图4所示，参与方C需要与BANK数据集持有方进行联邦建模，首先向中心服务器发起查询信息，中心服务器检查当前BANK数据集的状态，即A方是否准备好进行联邦建模，若已处于就绪状态，则向参与方C返回A相关的IP地址以及相应的端口信息，此后C与A进行加密样本对齐过程，不需要中心服务器参与，有效保证用户隐私不被中心服务器窃听。

另外样本对齐需要涉及各参与方之间相互进行通信，因此需要一个通信子模块，通信子模块负责各参与方之间样本对齐层、梯度更新以及聚合等多种重要模块之间的通信，是连接各个模块的重要通信桥梁，如果该模块发生错误会导致样本无法对齐、风控模型参数学习等各项错误，因此该子模块在通信过程中必须具备高可用性，即保证任意时刻数据报文的完整性，不允许任何形式的丢包，不完整包现象。为了能够保证通信子模块的稳定，我们对通信模块的设计划分为两个子功能模块，即发送模块和接收模块，分别负责报文的发送与接收。

发送模块的具体流程如图5所示，发送模块首先需要做的是准备数据，需传输的数据可以分成两大类，一种是用于样本对齐层的样本ID块，一种是用于后续联邦训练时传输的本地模型相关参数集合。这两类数据均需占用较大的内存空间，例如每个企业内部的样本ID数目都在数十万级别，模型参数更是百万以上，因此在准备完数据后，第一步是要进行数据压缩，通过数据压缩可大幅减少系统运行期间内存消耗，对于高性能完成联邦训练具有重要意义。另外由于样本ID一般是身份证号等与用户隐私密切相关的私密数据，因此压缩完成需要进行加密，最后生成报文，接着需要确定接收端的IP地址以及接收端口，进行TCP三次握手后，收发双发进入收发状态，发送方将准备好的报文进行发送，接收方样本对齐最后需要重点考虑的是隐私安全问题，直接通过明文传输所包含的样本标识符，将很容易向接受方暴露企业拥有的所有样本ID，因此需要加密传输。另一方面，不同企业希望能够感知共有样本的同时，不要暴露自身的差集，因此需要哈希技术。为此需要构建基于哈希加密的样本对齐层。在接收到报文后将进行报文数据的确认，由发送方判断数据是否发送完毕，若仍有待发送的数据，则进入第一步进行循环发送，否则断开连接并结束整个发送流程。

接收子模块的功能则类似于服务器处理流程，其执行流程如图6所示，与发送子模块相对应，接收模块需要处理的也是两大类信息，一种是样本对齐层的样本ID块，一种是模型参数。开始进入接收流程后，接收方首先需要绑定本地的IP地址以及约定的端口，然后进入监听流程，监听是否有来自某发送方的发送请求，若有发送方需要发送报文，需首先与发送方的IP和端口进行连接，并开辟一段内存空间用于接收缓冲区，然后将接收的报文存下来，接着解析报文，解压缩并解码相应的报文，解码出数据后将相应的数据进行保存，知道接收方已无相关的信息发送。最后断开连接，重新进入监听状态。

样本对齐层的设计方案如图7所示，方案利用了RSA加密算法，该算法由Rivest、Shamir、Adleman三人共同提出，是一种最常见的公钥加密算法。对大整数进行因数分解的难度为RSA算法的可靠性提供了坚实的基础。大体上来说，RSA算法有六大组成部分，分别为原文(Origin Text)、密文(Cipher Text)、公钥(Public Key)、私钥(PrivateKey)、加密算法(Encryption)、解密算法(Decryption)。首先参与方A在本地根据RSA算法生成加密样本ID所需的公钥、私钥对，然后将私钥保存在本地，将公钥通过通信子模块发送至参与方B，接着参与方B先用约定的哈希函数将本地样本原始ID进行哈希映射，保证用户ID不会被明文传输，接着用参与方A的公钥加密该映射过后的样本集，生成加密后的B方样本集，接着再次调用通信子模块，将整个样本集进行发送，参与A方接收到相应的样本数据后，解密得到经过哈希映射后的B方样本集，再将本地样本经相同映射函数进行映射，再与来自B方的样本进行匹配，最后把匹配的样本ID发送至B方，完整样本对齐过程。

4.4联邦学习层

在经过数据预处理层以及样本对齐层后，不同企业内部的数据已经转化为可以直接输入模型的特征，且不同企业之间就可训练的样本ID也已经达成一致。接下需要进行的联合多参与方并与中心服务器进行通信，在本地利用本地数据训练出一个本地模型，然后通过网络上传至中心服务器上，该中心服务器负责对梯度进行聚合并重新将全局模型分发到各个参与方，最终形成一个全局模型。

整个联邦训练层的示意图如图8所示，图中展示了经过样本对齐后的两个参与方进行联邦建模的整体流程，其中中心服务器负责进行梯度汇总以及负责各方模型的更新。具体整体的训练过程如下几个步骤所示：

1.首先中心服务器利用RSA算法进行私钥公钥的生成

2.中心服务器向两个参与方同时下发自身的公钥，该公钥将用来加密需要传输的数据

3.两个参与方分别在自身的数据集上计算特征中间结果

4.两个参与方分别求得梯度，并利用公钥加密后传输给中心服务器

5.中心服务器利用私钥进行解密

6.中心服务器进行梯度聚合后传给两个参与方

7.两个参与方更新本地模型

综上所述经过多个参与方以及中心服务器之间的加密数据交互式训练，在不泄漏任何用户数据隐私的情况下，完成了模型训练过程。

在最终预测时，若各参与方均信任中心服务器，则可通过中心服务器进行样本预测，否则，各参与方在训练完成后，各自保存部分模型，预测过程只能通过各方共同参与协作完成。如图9所示，客户端将待预测样本数据发送至中心服务器，中心服务器复制请求并分别传输至各参与方，接着各参与方计算本地结果回传至中心服务器，中心服务器解密后得到用户的信用分值。

Claims

1.一种基于联邦模式的信贷风险控制系统，其特征在于，包括异构数据接入层、数据预处理层、样本对齐层和联邦学习层；其中，

2.根据权利要求1所述的信贷风险控制系统，其特征在于，所述预处理操作包括：对原始数据进行分箱、独热编码、数值归一化、缺失值填充、映射编码、哈希编码、缩放或离散化处理，将原始的数值、字符串以及比率数值转化为适合模型输入的特征。

3.根据权利要求1所述的信贷风险控制系统，其特征在于，所述参与方的本地服务器上各设置通信模块，用于负责各参与方之间样本对齐、梯度更新和聚合时的；通信模块包括发送模块和接收模块两个子功能模块，分别负责报文的发送与接收。

4.一种基于联邦模式的信贷风险控制方法，其特征在于，包括以下步骤：

5.根据权利要求4所述的信贷风险控制方法，其特征在于，所述步骤(1)中，将参与方本地原始数据的原始格式先转换JSON中间表示，再通过Spark计算框架统一进行分布式解析生成Hive表结构，对外提供一致的Hive接口；该过程中只提供基本的字段类型的转换操作，为了统一进行数据描述以及数据变换，定义标准操作符具有如下格式：

6.根据权利要求4所述的信贷风险控制方法，其特征在于，所述步骤(2)中，通过定义标准的操作符实现数据分箱、编码、缩放、或离散化操作；根据不同的预处理方式，定义不同的数据预处理算子以实现数据形式的转换；算子的标准格式定义如下所示：

算子名称[配置项][输入项]＝>[输出项]。

7.根据权利要求4所述的信贷风险控制方法，其特征在于，所述步骤(3)中包括：各参与方先在中心服务器上注册，指明自身提供数据集的类型、本地IP、监听的端口信息；中心服务器维护全局统一的各参与方元数据哈希表，该表中包含着每个参与方相关的元信息；

8.根据权利要求4所述的信贷风险控制方法，其特征在于，所述步骤(4)中，中心服务器负责进行梯度汇总和各参与方模型的更新，具体训练过程包括：