CN117853217A

CN117853217A - 数据隐私保护的金融违约率预测方法、装置以及设备

Info

Publication number: CN117853217A
Application number: CN202311620308.1A
Authority: CN
Inventors: 曹思腾; 杨耀; 陈奎; 董今妮; 卢冰洁; 王英瑾
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-04-09

Abstract

本申请涉及一种数据隐私保护的金融违约率预测方法、装置、计算机设备和存储介质。所述方法包括：在利用金融样本数据对预训练模型训练的过程中，获取各风险因子的贡献度并确定其中的目标风险因子；确定目标风险因子的分数映射区间以及各分数映射区间所对应的映射比例；基于分数映射区间以及映射比例，对金融样本数据进行数据映射处理得到模糊样本数据；利用模糊样本数据重新构建模型进行训练得到违约率预测模型；基于分数映射区间和映射比例，对待预测金融数据进行数据映射处理后输入违约率预测模型，输出违约概率。采用本方法能够实现数据隐私保护场景下的金融违约率与目标风险因子的强相关性，提高金融违约率预测的准确率。

Description

数据隐私保护的金融违约率预测方法、装置以及设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据隐私保护的金融违约率预测方法、装置、计算机设备以及存储介质。

背景技术

在数据隐私保护场景中，用户个人金融信息在数据建模过程常作为关键风险因子进行应用。对于如用户违约率等金融风险因子反映了金融机构的信贷风险和客户信誉度，是重要的金融风险评估指标。用户违约率通常取决于多种因素，例如借款人的信用评分、还款历史、借款金额、借款期限、收入来源、借款目的、行业和区域等。通过对这些风险因素的评估和考虑，金融机构可以采取措施来降低用户违约率，降低风险、提高整体运作的稳定性。

在现有的智能风控模型的实际建模和分析过程中，发现用户的违约率波动通常与几个主要的风险因子相关，银行风险部门通过对风险因子的实时监控并通过过往经验和数据统计分析相结合的方法获取风险因子在特殊数值区间的波动，预防风险行为的发生。

但是在处理金融数据时，庞大的数据量以及瞬息变化的特殊数值区间，使得现有的风险因子监控和违约率预测具备较低的准确率。此外，在数据应用的场景下，个人隐私信息一旦泄露可能会被不法分子利用，给个人带来财产损失。因此亟需采取更加智能的数据安全措施来提升隐私保护水平，同时精准把控风险产生。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现金融数据的隐私保护、提高金融违约率预测准确率的数据隐私保护的金融违约率预测方法、装置、计算机设备以及计算机可读存储介质。

第一方面，本申请提供了一种数据隐私保护的金融违约率预测方法。所述方法包括：

在利用金融样本数据对预训练模型训练的过程中，获取各风险因子的贡献度，并确定其中的目标风险因子；

确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例；

基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据；

利用所述模糊样本数据重新构建模型进行训练，得到违约率预测模型；

基于所述分数映射区间以及所述映射比例，对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率。

在其中一个实施例中，所述获取各风险因子的贡献度，并确定其中的目标风险因子包括：

在利用所述金融样本数据对预训练模型训练的过程中，获取各所述风险因子对所述预训练模型的贡献度，选择所述贡献度大于设定阈值的风险因子作为所述目标风险因子。

在其中一个实施例中，所述在确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例包括：

设置所述目标风险因子的初始分数映射区间，并确定所述初始分数映射区间的至少一个初始边界值的搜索范围；

在所述搜索范围内进行临时边界值搜索，得到多个临时边界值组合；

计算各所述临时边界值组合的信息值，获取所述信息值大于第一阈值且小于等于第二阈值的临时边界值组合作为可用边界值组合；

基于所述可用边界值组合，生成所述目标风险因子的分数映射区间，并设置分数映射区间中各区间所对应的映射比例。

在其中一个实施例中，所述基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据包括：

根据所述分数映射区间以及所述映射比例，生成所述分数映射区间中各区间所对应的数据映射公式；

判断所述金融样本数据在所述分数映射区间内所对应的数据映射公式，对所述金融样本数据进行数据映射处理，得到模糊样本数据。

在其中一个实施例中，所述对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率包括：

基于所述分数映射区间中各区间所对应的数据映射公式，对所述待预测金融数据进行数据映射处理，得到数据映射处理后的待预测金融数据；

将所述数据映射处理后的待预测金融数据输入所述违约率预测模型，输出得到违约概率。

在其中一个实施例中，所述方法还包括：

当所述违约概率大于设定的风险违约率阈值时，对所述待预测金融数据进行违约预警。

在其中一个实施例中，在利用金融样本数据对预训练模型训练之前，所述方法还包括：获取原始金融数据进行数据清洗和数据校正，得到所述金融样本数据。

第二方面，本申请还提供了一种数据隐私保护的金融违约率预测装置。所述装置包括：

风险因子提取模块，用于在利用金融样本数据对预训练模型训练的过程中，获取各风险因子的贡献度，并确定其中的目标风险因子；

区间比例确定模块，用于确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例；

数据隐私保护模块，用于基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据；

模型构建模块，用于利用所述模糊样本数据重新构建模型进行训练，得到违约率预测模型；

金融违约预测模块，用于基于所述分数映射区间以及所述映射比例，对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面的内容。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的内容

上述数据隐私保护的金融违约率预测方法、装置、计算机设备以及存储介质，通过在利用金融样本数据对预训练模型训练的过程中，获取各风险因子的贡献度，并确定其中的目标风险因子；确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例；基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据；利用所述模糊样本数据重新构建模型进行训练，得到违约率预测模型；基于所述分数映射区间以及所述映射比例，对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率，解决了现有技术中金融违约率预测不准确的问题，实现了数据隐私保护场景下的金融违约率与目标风险因子的强相关性，提高金融违约率预测的准确率。

附图说明

图1为一个实施例中数据隐私保护的金融违约率预测方法的应用环境图；

图2为一个实施例中数据隐私保护的金融违约率预测方法的流程示意图；

图3为一个实施例中步骤202的具体流程示意图；

图4为一个实施例中步骤203的具体流程示意图；

图5为一个实施例中步骤205的具体流程示意图；

图6为一个实施例中数据隐私保护的金融违约率预测装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请实施例提供的数据隐私保护的金融违约率预测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统106可以存储服务器104需要处理的数据。数据存储系统106可以集成在服务器104上，也可以放在云上或其他网络服务器上。

终端102上，在利用金融样本数据对预训练模型训练的过程中，获取各风险因子的贡献度并确定其中的目标风险因子；而后确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例；基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据；利用所述模糊样本数据重新构建模型进行训练，得到违约率预测模型；基于所述分数映射区间以及所述映射比例，对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种数据隐私保护的金融违约率预测方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤201，在利用金融样本数据对预训练模型训练的过程中，获取各风险因子的贡献度，并确定其中的目标风险因子。

其中，风险因子由所述金融样本数据的数据类型所决定，例如金融样本数据类型包括年龄、性别以及收入等，则风险因子则包括年龄风险因子、性别风险因子以及收入风险因子等。

可选地，在利用金融样本数据对预训练模型训练之前，获取原始金融数据进行数据清洗和数据校正，得到所述金融样本数据，提高金融样本数据的有效使用率。

具体地，在利用金融样本数据对预训练模型训练的过程中，通过模型的特征重要性(Feature Importance)计算方法，计算得出风险因子对模型结果的正负影响和影响程度，基于正负影响以及影响程度确定风险因子的贡献度，基于贡献度从所有风险因子中选择目标风险因子。

步骤202，确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例。

具体地，结合金融业务经验以及信息量(Information Value)计算方法，确定目标风险因子的分数映射区间以及各区间的映射比例。

步骤203，基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据。

步骤204，利用所述模糊样本数据重新构建模型进行训练，得到违约率预测模型。

步骤205，基于所述分数映射区间以及所述映射比例，对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率。

上述数据隐私保护的金融违约率预测方法中，通过在利用金融样本数据对预训练模型训练的过程中，获取各风险因子的贡献度，并确定其中的目标风险因子；确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例；基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据；利用所述模糊样本数据重新构建模型进行训练，得到违约率预测模型；基于所述分数映射区间以及所述映射比例，对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率，解决了现有技术中金融违约率预测不准确的问题，实现了数据隐私保护场景下的金融违约率与目标风险因子的强相关性，提高金融违约率预测的准确率。

在一个实施例中，步骤201中所述获取各风险因子的贡献度，并确定其中的目标风险因子，具体包括以下内容：

具体地，设置贡献度的阈值，将贡献度大于设定阈值的风险因子作为目标风险因子。例如，性别风险因子贡献度小于设定阈值，因此与金融违约率的相关性较弱，年龄风险因子和收入风险因子的贡献度大于审定阈值，与金融违约率的相关性较强，因此可将年龄风险因子以及收入风险因子作为目标风险因子。

在本实施例中，通过对风险因子进行筛选，不仅提高了金融违约率的精确度，而且减少后续步骤中不必要的数据处理，提高了金融违约率的预测效率。

在一个实施例中，如图3所示，步骤202所述在确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例，具体包括以下步骤：

步骤301，设置所述目标风险因子的初始分数映射区间，并确定所述初始分数映射区间的至少一个初始边界值的搜索范围。

具体地，首先根据金融业务经验设置目标风险因子的初始分数映射区间，由于人为设置的初始分数映射区间准确性不高，因此采用信息量计算方法，获取初始分数映射区间的每个初始边界值的搜索范围。

步骤302，在所述搜索范围内进行临时边界值搜索，得到多个临时边界值组合。

步骤303，计算各所述临时边界值组合的信息值，获取所述信息值大于第一阈值且小于等于第二阈值的临时边界值组合作为可用边界值组合。

具体地，对每个临时边界值组合计算对应的信息值，并设置第一阈值和第二阈值。临时边界值组合的信息值小于第一阈值，说明该临时边界值组合划分的分数映射区间不具备预测能力。临时边界值组合的信息值大于第二阈值，说明该临时边界值组合划分的分数映射区间需要进行分群变量处理，将每个区间拆成单独的数据群体分别训练子模型。只有临时边界值组合的信息值大于第一阈值且小于等于第二阈值，才能将该临时边界值组合作为可用边界值组合。

可选地，若存在多个临时边界值组合的信息值大于第一阈值且小于等于第二阈值，则将信息值最大的临时边界值组合作为可用边界值组合。

步骤304，基于所述可用边界值组合，生成所述目标风险因子的分数映射区间，并设置分数映射区间中各区间所对应的映射比例。

具体地，根据可用边界值组合生成对应的目标风险因子的分数映射区间。同时设置每个区间的映射比例，放大关键区间的映射比例。

本实施例中，利用信息量计算方法对设置的初始分数映射区间重新进行区间划分，使得每个目标风险因子的分数映射区间更准确，并且设置每个区间的映射比例，放大了目标风险因子中关键区间对金融违约率预测结果的影响，提高金融违约率预测的准确度。

在一个实施例中，如图4所示，步骤203所述基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据，具体包括以下步骤：

步骤401，根据所述分数映射区间以及所述映射比例，生成所述分数映射区间中各区间所对应的数据映射公式。

步骤402，判断所述金融样本数据在所述分数映射区间内所对应的数据映射公式，对所述金融样本数据进行数据映射处理，得到模糊样本数据。

具体地，根据分数映射区间中每个区间的映射比例，生成各区间对应的数据映射公式。判断各金融样本数据在分数映射区间中所处的区间位置，获取对应的数据映射公式进行数据映射，得到模糊样本数据。

在本实施例中，利用分数映射区间中每个区间的数据映射公式对金融样本数据进行数据映射处理，实现了金融信息的数据隐私保护。

在其中一个实施例中，如图5所示，步骤205所述对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率，具体包括以下步骤：

步骤501，基于所述分数映射区间中各区间所对应的数据映射公式，对所述待预测金融数据进行数据映射处理，得到数据映射处理后的待预测金融数据。

步骤502，将所述数据映射处理后的待预测金融数据输入所述违约率预测模型，输出得到违约概率。

具体地，在利用违约率预测模型对待预测金融数据进行违约概率预测时，先判断待预测金融数据在分数映射区间中所处的区间，利用区间内的数据映射公式对待预测金融数据进行数据映射，得到数据映射处理后的待预测金融数据输入违约率预测模型中，输出得到违约概率。

在一个实施例中，所述方法还包括以下内容：

具体地，判断违约率预测模型输出的违约概率是否大于设定的风险违约率阈值，当违约概率大于风险违约率阈值时，对待预测金融数据进行违约预警。

在一个示例实施例中，提供一种数据隐私保护的金融违约率预测方法，以用户年龄为目标风险因子为例，具体包括以下步骤：

S1，获取原始金融数据进行数据清洗和数据校正，得到金融样本数据。利用金融样本数据对预训练模型进行训练，并在训练过程中进行特征重要性(Feature Importance)计算，获取各风险因子对模型结果的正负影响和影响程度。根据正负影响以及影响程度计算风险因子的贡献度，将贡献度大于设定阈值的风险因子中选择目标风险因子，其中，所述目标风险因子包括用户年龄。

S2，根据金融业务经验设置目标风险因子为用户年龄时的初始分数映射区间为[0,30]、[31,50]、[50,80]，若年龄大于80，则取80为年龄值。采用信息量计算(InformationValue)方法，获取初始分数映射区间中第一个划分区间的初始边界值30，在20至40的搜索范围内进行临时边界值搜索，第二个初始边界值为50，在40至60岁搜索范围内进行临时边界值搜索，得到多个临时边界值组合，例如24与50、33与60、27与55等。计算各临时边界值组合的IV信息值，获取IV信息值大于0.02小于等于0.5的临时边界值组合，并从中选择取IV信息值最大的一组边界值组合作为可用边界值组合，例如可用边界值组合为27与55。

S3，根据可用边界值组合生成对应的目标风险因子的分数映射区间为[0,27]、[28,55]、[56,80]，同时设置每个区间的映射比例依次为：1/3、3、1/3。

S4，根据分数映射区间以及所述映射比例，生成各区间所对应的数据映射公式，判断金融样本数据在分数映射区间内所对应的数据映射公式，对所述金融样本数据进行数据映射处理，得到模糊样本数据。利用模糊样本数据重新构建模型进行训练，得到违约率预测模型。

例如45处于分数映射区间的区间[28,55]内，所对应的数据映射公式为：y＝3x，x表示金融样本数据，y表示模糊样本数据，因此45所对应的模糊样本数据为135。

S5，判断待预测金融数据在分数映射区间中所处的区间，利用区间内的数据映射公式对待预测金融数据进行数据映射，得到数据映射处理后的待预测金融数据输入违约率预测模型中，输出得到违约概率。

S6，判断违约率预测模型输出的违约概率是否大于设定的风险违约率阈值，当违约概率大于风险违约率阈值时，对待预测金融数据进行违约预警。

需要说明的是，上述示例实施例中的目标风险因子为用户年龄只是金融违约率预测时参与预测的一部分用户年龄数据，实际是多种目标风险因子所对应的其他金融数据共同作用得到所述违约概率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据隐私保护的金融违约率预测方法方法的数据隐私保护的金融违约率预测方法装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据隐私保护的金融违约率预测方法装置实施例中的具体限定可以参见上文中对于数据隐私保护的金融违约率预测方法方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种数据隐私保护的金融违约率预测方法装置，包括：风险因子提取模块、区间比例确定模块、数据隐私保护模块、模型构建模块和金融违约率预测模块，其中：

风险因子提取模块61，用于在利用金融样本数据对预训练模型训练的过程中，获取各风险因子的贡献度，并确定其中的目标风险因子；

区间比例确定模块62，用于确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例；

数据隐私保护模块63，用于基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据；

模型构建模块64，用于利用所述模糊样本数据重新构建模型进行训练，得到违约率预测模型；

金融违约预测模块65，用于基于所述分数映射区间以及所述映射比例，对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率。

在其中一个实施例中，所述风险因子提取模块61还用于：在利用所述金融样本数据对预训练模型训练的过程中，获取各所述风险因子对所述预训练模型的贡献度，选择所述贡献度大于设定阈值的风险因子作为所述目标风险因子。

在其中一个实施例中，所述区间比例确定模块62还用于：设置所述目标风险因子的初始分数映射区间，并确定所述初始分数映射区间的至少一个初始边界值的搜索范围；在所述搜索范围内进行临时边界值搜索，得到多个临时边界值组合；计算各所述临时边界值组合的信息值，获取所述信息值大于第一阈值且小于等于第二阈值的临时边界值组合作为可用边界值组合；基于所述可用边界值组合，生成所述目标风险因子的分数映射区间，并设置分数映射区间中各区间所对应的映射比例。

在其中一个实施例中，所述数据隐私保护模块63还用于：根据所述分数映射区间以及所述映射比例，生成所述分数映射区间中各区间所对应的数据映射公式；判断所述金融样本数据在所述分数映射区间内所对应的数据映射公式，对所述金融样本数据进行数据映射处理，得到模糊样本数据。

在其中一个实施例中，所述金融违约预测模块65还用于：基于所述分数映射区间中各区间所对应的数据映射公式，对所述待预测金融数据进行数据映射处理，得到数据映射处理后的待预测金融数据；将所述数据映射处理后的待预测金融数据输入所述违约率预测模型，输出得到违约概率。

在其中一个实施例中，所述金融违约预测模块65还用于：当所述违约概率大于设定的风险违约率阈值时，对所述待预测金融数据进行违约预警。

在其中一个实施例中，所述风险因子提取模块61还用于：获取原始金融数据进行数据清洗和数据校正，得到所述金融样本数据。

上述数据隐私保护的金融违约率预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据隐私保护的金融违约率预测方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

S1，在利用金融样本数据对预训练模型训练的过程中，获取各风险因子的贡献度，并确定其中的目标风险因子。

S2，确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例。

S3，基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据。

S4，利用所述模糊样本数据重新构建模型进行训练，得到违约率预测模型。

S5，基于所述分数映射区间以及所述映射比例，对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在利用所述金融样本数据对预训练模型训练的过程中，获取各所述风险因子对所述预训练模型的贡献度，选择所述贡献度大于设定阈值的风险因子作为所述目标风险因子。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：设置所述目标风险因子的初始分数映射区间，并对所述初始分数映射区间的至少一个初始边界值进行信息量计算，确定所述至少一个初始边界值的搜索范围；在所述搜索范围内进行临时边界值搜索，得到多个临时边界值组合；计算各所述临时边界值组合的信息值，获取所述信息值大于第一阈值且小于等于第二阈值的临时边界值组合作为可用边界值组合；基于所述可用边界值组合，生成所述目标风险因子的分数映射区间，并设置分数映射区间中各区间所对应的映射比例。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据所述分数映射区间以及所述映射比例，生成所述分数映射区间中各区间所对应的数据映射公式；判断所述金融样本数据在所述分数映射区间内所对应的数据映射公式，对所述金融样本数据进行数据映射处理，得到模糊样本数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于所述分数映射区间中各区间所对应的数据映射公式，对所述待预测金融数据进行数据映射处理，得到数据映射处理后的待预测金融数据；将所述数据映射处理后的待预测金融数据输入所述违约率预测模型，输出得到违约概率。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当所述违约概率大于设定的风险违约率阈值时，对所述待预测金融数据进行违约预警。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取原始金融数据进行数据清洗和数据校正，得到所述金融样本数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在利用所述金融样本数据对预训练模型训练的过程中，获取各所述风险因子对所述预训练模型的贡献度，选择所述贡献度大于设定阈值的风险因子作为所述目标风险因子。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：设置所述目标风险因子的初始分数映射区间，并确定所述初始分数映射区间的至少一个初始边界值的搜索范围；在所述搜索范围内进行临时边界值搜索，得到多个临时边界值组合；计算各所述临时边界值组合的信息值，获取所述信息值大于第一阈值且小于等于第二阈值的临时边界值组合作为可用边界值组合；基于所述可用边界值组合，生成所述目标风险因子的分数映射区间，并设置分数映射区间中各区间所对应的映射比例。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据所述分数映射区间以及所述映射比例，生成所述分数映射区间中各区间所对应的数据映射公式；判断所述金融样本数据在所述分数映射区间内所对应的数据映射公式，对所述金融样本数据进行数据映射处理，得到模糊样本数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于所述分数映射区间中各区间所对应的数据映射公式，对所述待预测金融数据进行数据映射处理，得到数据映射处理后的待预测金融数据；将所述数据映射处理后的待预测金融数据输入所述违约率预测模型，输出得到违约概率。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当所述违约概率大于设定的风险违约率阈值时，对所述待预测金融数据进行违约预警。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取原始金融数据进行数据清洗和数据校正，得到所述金融样本数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据隐私保护的金融违约率预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据隐私保护的金融违约率预测方法，其特征在于，所述获取各风险因子的贡献度，并确定其中的目标风险因子包括：

3.根据权利要求1所述的数据隐私保护的金融违约率预测方法，其特征在于，所述在确定所述目标风险因子的分数映射区间以及各所述分数映射区间所对应的映射比例包括：

4.根据权利要求1所述的数据隐私保护的金融违约率预测方法，其特征在于，所述基于所述分数映射区间以及所述映射比例，对所述金融样本数据进行数据映射处理，得到模糊样本数据包括：

5.根据权利要求4所述的数据隐私保护的金融违约率预测方法，其特征在于，所述对待预测金融数据进行数据映射处理后输入所述违约率预测模型，输出违约概率包括：

6.根据权利要求1所述的数据隐私保护的金融违约率预测方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的数据隐私保护的金融违约率预测方法，其特征在于，在利用金融样本数据对预训练模型训练之前，所述方法还包括：

获取原始金融数据进行数据清洗和数据校正，得到所述金融样本数据。

8.一种数据隐私保护的金融违约率预测装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。