CN113888318A

CN113888318A - 风险检测方法及系统

Info

Publication number: CN113888318A
Application number: CN202111228338.9A
Authority: CN
Inventors: 张晓赤; 彭继春; 马芳芳
Original assignee: Zhejiang Agricultural Financing Guarantee Co ltd
Current assignee: Zhejiang Agricultural Financing Guarantee Co ltd
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-04

Abstract

本发明公开一种风险检测方法及系统，其中方法包括以下步骤：获取目标数据；基于预设的业务同质项对所述目标数据进行同质性分析，获得所述目标数据所对应的评估类目；基于所述评估类目和预设的风险检测模型，由所述风险检测模型对所述目标数据进行风险等级评估，获得风险评估结果。本发明利用风险检测模型对目标数据进行风险检测，与人工审核相比大大加快检测速度，且本发明中各类评估类目均有一个与其相对应的风险检测模型，先识别目标数据所在的评估类目，再利用该评估类目所对应风险检测模型对目标数据的风险等级进行预测，使具有不同业务逻辑的担保业务相隔离，针对性强，能够快速、准确地对目标数据的风险等级进行评估预测。

Description

风险检测方法及系统

技术领域

本发明涉及风险检测领域，尤其涉及一种农业信贷担保业务的风险检测技术。

背景技术

现今农业信贷担保业务的开展中，难以及时准确的对担保业务进行风险检测，原因如下：

1、农业信贷担保业务办理过程中所涉及的业务数据涉及维度广泛，数据类型繁多，审核人员难以及时，准确的完成风险检测；

2、现今农业经营主体大部分为家庭，存在缺乏有效抵押物，农作物种植风险大等因素，进一步增加审核人员风险检测工作的难度。

发明内容

本发明针对现有技术农业信贷担保业务办理过程中，难以及时准确评价担保业务风险缺点，提供了一种风险检测技术。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种风险检测方法，包括以下步骤：

获取目标数据，目标数据即担保业务所涉及的业务数据，包括申请数据、征信数据和经营数据，申请数据包含客户信息以及贷款信息，经营数据体现经营能力、发展前景，征信数据和经营数据共同体现偿债能力和履约能力；

本领域技术人员可根据客户信息从相应的金融机构、大数据局、财政厅、农业农村厅、征信机构等第三方系统中获取征信数据和经营数据，此为现有技术，故不再本说明书中进行详细介绍。

基于预设的业务同质项对所述目标数据进行同质性分析，获得所述目标数据所对应的评估类目；

基于所述评估类目和预设的风险检测模型，由所述风险检测模型对所述目标数据进行风险等级评估，获得风险评估结果。

由于农业信贷担保场景具有业务数据涉及维度广泛，数据类型繁多的特点，如仅应用单一一个风险检测模型实现进行等级评估，即，直接将目标数据输入深度学习模型，由深度学习模型输出相应的风险等级评估，将存在模型预测时间长、精确度低等缺陷，无法达到准确快速进行风险检测的要求。

本申请中各评估类目均有一个与其相对应的风险检测模型，在实际风险检测过程中，对目标数据进行同质性分析，以识别目标数据所在的评估类目，再利用该评估类目所对应风险检测模型对目标数据的风险等级进行预测，此方案使具有不同业务逻辑的担保业务相隔离，针对性强，能够快速、准确地对目标数据的风险等级进行评估预测。

作为一种可实施方式，风险检测模型的构建方法包括以下步骤：

收集各评估类目所对应的样本数据，并为所述样本数据标注风险标签，获得与评估类目相对应的训练数据；

基于所述训练数据训练获得与所述评估类目相对应的风险检测模型。

作为一种可实施方式：

所述风险检测模型包括特征提取子模型和分类子模型，所述特征提取子模型的输出数据为所述分类子模型的输入数据，所述分类子模型的输出数据为风险评估结果；

所述特征提取子模型包括若干个依次串联堆叠的RBM层；

构建模型的过程中，各RBM层随机生成丢弃概率，基于所述丢弃概率按照Dropout机制进行模型训练。

以一次迭代训练过程为例，对Dropout机制进行详细介绍：

各RBM层按照丢弃概率随机丢弃(暂时丢弃)网络中部分隐藏神经元(输入输出神经元保持不变)，获得修改后的风险检测网络。

将训练数据输入修改后的风险检测网络，获得相应的预测结果，并基于所得预测结果生成相应的损失值；

利用所得损失值对修改后的风险检测网络进行反向更新后恢复丢弃的隐藏神经元，即，丢弃的隐藏神经元所对应的参数保持不变，未丢弃的神经元所对应的参数被更新。

现有技术中，Dropout机制中丢弃隐藏神经元的概率，即丢弃概率为固定值，本申请中各RBM层的丢弃概率均为随机生成的大于0小于1的随机数，本申请通过对丢弃概率的设计有效减少特征检测器(即RBM层)间的相互作用，进一步提升模型预测结果的精确性。

作为一种可实施方式：

所述分类子模型采用softmax分类器。

作为一种可实施方式，业务同质项的获取方法包括以下步骤：

获取业务项，并获取各业务项的人工评分，基于所述人工评分从所述业务项中提取样本业务项；

获取各样本业务项的指标重要性，基于所述指标重要性从所述样本业务项中提取业务同质项。

上述人工评分为对各样本业务项的主观评分，指标重要性为对各样本业务项的客观评分，本申请结合主观评价和客观评价共同选取业务同质项以进行同质性分析，所得业务同质项更准确，评估类别的分类更合理，所构建的风险检测模型准确度更高。

作为一种可实施方式：

运用缺一法将对所得样本业务项进行分组，获得若干样本组，每个样本组缺失一样本业务项，各样本组所缺失的样本业务项互不相同；

获取各样本组所对应的评估样本类目，并构建与所述样本组相应的检测模型组，所述检测模型组包括与所述评估样本类目一一对应的风险检测样本模型，所述风险检测样本模型可采用本申请所公开的风险检测模型，还可采用现有已公开的任意一种分类模型；

测试各检测模型组的错误率，错误率越高，表示所缺失的样本业务项越重要，故本申请中将所述错误率作为相应样本组所缺失的样本业务项的指标重要性。

作为一种可实施方式，在农担场景中，所述业务同质项包括：

业务类型、申请额度和申请周期。

本申请还公开一种风险检测系统，包括：

数据获取模块，用于获取目标数据；

同质性分析模块，用于基于预设的业务同质项对所述目标数据进行同质性分析，获得所述目标数据所对应的评估类目；

风险检测模块，用于基于所述评估类目和预设的风险检测模型，由所述风险检测模型对所述目标数据进行风险等级评估，获得风险评估结果。

作为一种可实施方式，还包括模型构建模块，所述模型构建模块包括：

训练数据获取单元，用于收集各评估类目所对应的样本数据，并为所述样本数据标注风险标签，获得与评估类目相对应的训练数据；

训练单元，用于基于所述训练数据训练获得与所述评估类目相对应的风险检测模型。

作为一种可实施方式，还包括指标配置模块，所述指标配置模块包括：

主观评价单元，用于获取业务项，并获取各业务项的人工评分，基于所述人工评分从所述业务项中提取样本业务项；

客观评价的单元，用于获取各样本业务项的指标重要性，基于所述指标重要性从所述样本业务项中提取业务同质项。

本发明由于采用了以上技术方案，具有显著的技术效果：

本发明利用风险检测模型对目标数据进行风险检测，与人工审核相比大大加快检测速度，且本发明中各类评估类目均有一个与其相对应的风险检测模型，先识别目标数据所在的评估类目，再利用该评估类目所对应风险检测模型对目标数据的风险等级进行预测，使具有不同业务逻辑的担保业务相隔离，针对性强，能够快速、准确地对目标数据的风险等级进行评估预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种风险检测方法的流程示意图；

图2是风险检测模型的网络架构示意图；

图3是实施例1中同质性分析的流程示意图；

图4是本发明一种风险检测系统的模块连接示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1、一种风险检测方法，如图1所示，包括以下步骤：

S100、配置用于同质性分析的业务同质项，具体包括以下步骤：

S110、获取业务项，并获取各业务项的人工评分，基于所述人工评分从所述业务项中提取样本业务项；

业务项为农业信贷担保业务中所涉及的各类数据的类别，例如经营主体(家庭、企业、合作社等)、业务类型(林业、渔业等)；

人工评分为人工对各业务项的重要性的评分；

获取各业务项的人工评分后，将业务项按照人工评分从高到低的顺序排序，然后基于预设的提取规则，提取人工评分最高的若干个业务项作为样本业务项；

本领域技术人员可根据实际需要自行设定提取规则，例如可设定数量阈值(如提取前10个业务项)与比率阈值(如提取前10％的业务项)，本领域技术人员不对其进行详细限定。

本实施例中，通过请10位相关专家各业务项的重要性进行打分，评分范围为1—10分，分数越高表示重要性越高；然后，采用均值法计算得到每个业务项的平均分，将所得平均分作为对应业务项的人工评分；最后，按照人工评分从高到低的顺序对业务项进行重要性排序，并输出前30％的业务项作为样本业务项。

S120、获取各样本业务项的指标重要性，基于所述指标重要性从所述样本业务项中提取业务同质项。

指标重要性的获取方式包括以下步骤：

S121、运用缺一法将对所得样本业务项进行分组，获得若干样本组，每个样本组缺失一样本业务项，各样本组所缺失的样本业务项互不相同；

例如样本业务项包括A、B、C、D、E，可分为以下五组：

第一样本组：B、C、D、E；

第二样本组：A、C、D、E；

第三样本组：A、B、D、E；

第四样本组：A、B、C、E；

第五样本组：A、B、C、D；

S122、获取各样本组所对应的评估样本类目，并构建与所述样本组相应的检测模型组，所述检测模型组包括与所述评估样本类目一一对应的风险检测样本模型；

基于样本业务项即可获得各样本组所对应的评估样本类目，此为现有技术，本实施例不对其进行详细告知；

知悉样本组所对应的评估样本类目后，为对应评估样本类目构建相应的风险检测样本模型，以获得对应样本组的检测模型组，具体步骤为；

收集历史数据，所述历史数据为在先完成担保业务审批后的担保数据，基于审批结果为所述历史数据添加风险标签，例如将本实施例中风险标签为高风险、中风险和低风险，本领域技术人员可根据实际情况自行设定风险标签的数量；

将所述历史数据分为训练数据和测试数据，本实施例中训练数据与测试数据的比例关系为7:3；

将所述训练数据按照对应样本组的样本业务项进行同质性分析，基于分析结果将所述训练数据分为若干训练子集，所述训练子集与对应样本组的评估样本类目一一对应；

利用训练子集训练预设的分类网络，获得与评估样本类目相对应的风险检测样本模型；

基于各风险检测样本模型构成对应样本组的检测模型组。

分类网络可采用由多层RBM网络和softmax分类器所构成的分类网络，还可采用现有任意一种已公开的分类网络。

S122、测试各检测模型组的错误率，错误率越高，表示所缺失的样本业务项越重要，故本申请中将所述错误率作为相应样本组所缺失的样本业务项的指标重要性。

将所述测试数据按照对应样本组的样本业务项进行同质性分析，基于分析结果将所述训练数据分为若干测试子集，所述测试子集与对应样本组的评估样本类目一一对应，利用测试子集对相应的风险检测样本模型进行测试，获得相应风险检测样本模型的错误分类数；

统计检测模型组中各风险检测样本模型的错误分类数，获得相应的错误分类总数，可将错误分类总数作为错误率，或将错误分类总数于分类总数(测试数据中业务数据的总数)的比例作为错误率。

本实施例按照错误率从高到低的顺序对样本业务项进行重要性排序，并输出前30％的样本业务项作为同质业务项。

例如上述五个样本组按照错误率从高到低的顺序排序结果为，第三样本组(缺C)、第一样本组(缺A)、第二样本组(缺B)、第五样本组(缺E)、第四样本组(缺D)，对样本业务项进行重要性排序的结果为：C、A、B、E、D。

本实施例中所提取的，农业信贷担保场景下业务同质项为业务类型(农作物种植业、林业、畜牧业、渔业)、贷款额度(大、小)和贷款周期(长、短)，本领域技术人员可根据实际需要设定贷款额度大小与贷款周期长短的判定阈值。

本实施例通过步骤S110对业务项的重要性进行主观评价，并通过步骤S120对所提取的样本业务项的重要性进行客观评价，使得最终获得的业务同质项能够对担保业务的进行有效细分，细分所得的评估类目的数目合理，且有效避免不同评估类目对应的业务数据相干扰，有效提高农业信贷担保业务中风险检测的准确性。

S200、构建若干个风险检测模型，所述风险检测模型与评估类目一一对应；

本实施例中风险检测模型包括特征提取子模型和分类子模型，所述特征提取子模型的输出数据为所述分类子模型的输入数据，所述分类子模型的输出数据为风险评估结果；

所述特征提取子模型包括若干个依次串联堆叠的RBM层；

构建方法包括以下步骤：

S210、构建训练数据：

将历史数据按照业务同质项进行同质性分析，确定各历史数据所处的评估类目，将评估类目下的历史数据作为对应评估类目的样本数据；

为各样本数据标注风险标签，可基于对应样本数据的审核结果进行自动标注，还可进行人工标注，本实施例不对其进行详细限定；

将标注风险标签的样本数据作为与评估类目相对应的训练数据。

S220、模型训练：

模型训练包括预训练步骤和训练步骤，将训练数据分为预训练集、训练集和测试集进行模型训练，本领域技术人员可根据实际需要自行设定预训练集、训练集和测试集的比例，本实施例中预训练集、训练集和测试集的比例为3:4:3，其中测试集用于对训练所得的风险检测模型的准确率进行测试，此为模型训练过程中的常规步骤，故不再本实施例中进行详细介绍。

预训练步骤中将一部分训练数据输入多层RBM网络，用改进的Dropout算法逐层无监督地训练每一层RBM网络，训练完毕后得到每层RBM网络的权值和阈值，初步确定网络框架；

参照图2，训练步骤中，于预训练得到的多层RBM网络顶端加入softmax分类器，完成整个风险检测模型的构建，然后，把剩余数据输入所述风险检测模型，采用改进的Dropout算法进行模型训练，并将风险检测模型预测的风险标签与真实的风险标签相比对，基于对比结果对风险检测模型进行反向更新，图2中W表示正向传播中各RBM的输出的特征；

上述改进的Dropout算法为：

每次迭代训练过程中，令每层RBM生成一个随机值，将该随机值作为丢弃概率，并按照该丢弃概率丢弃神经元，利用输入的训练数据对丢弃部分神经元的风险检测模型进行训练(前向传播及反向更新)后恢复丢弃的神经元风险检测模型，进行下一次迭代训练。

本实施例通过对Dropout算法的改进，使得前向传播时按照动态变化的丢弃概率随机丢弃神经元，避免模型过分依赖某些局部的特征，有效的缓解过拟合的发生，从而提升风险检测模型的泛化能力。

S300、基于业务同质项和风险检测模型对目标数据进行风险检测，具体包括以下步骤：

S310、获取目标数据；

本实施例中，接收包含客户信息和贷款信息的申请数据，在根据客户信息从第三方系统中获取对应的征信数据和经营数据，将申请数据、征信数据和经营数据作为目标数据。

S320、参照图3，基于预设的业务同质项对所述目标数据进行同质性分析，获得所述目标数据所对应的评估类目；

注，由于评估类目过多，故图3中仅指示部分评估类目；由于客户信息包含经营类型，贷款信息包含贷款金额和贷款周期，故本实施例中可直接基于申请数据进行同质性分析。

S330、基于所述评估类目和预设的风险检测模型，由所述风险检测模型对所述目标数据进行风险等级评估，获得风险评估结果。

基于步骤S320同质性分析获得的评估类目，确定进行风险评估的风险检测模型；

对目标数据进行标准化处理后，将处理后的数据输入所对应的风险检测模型，由所述风险检测模型输出相应的风险标签，即风险评估结果，风险评估结果包括高风险、中风险和低风险；

S340、基于风险评估结果进行辅助决策：

本领域技术人员可根据实际需要自行设定决策规则，例如本实施例中对风险评估结果为中风险和低风险的担保申请进行自动通过，将对风险评估结果为高风险的担保申请进行自动拒绝。

S350、基于风险评估结果进行预警：

当风险评估结果为中风险或高风险时，将风险评估结果反馈给相应工作人员进行预警，如信贷担保机构的工作人员或相应监管部门的工作人员，以便于相应工作人员进行核实。

S360、目标数据存档，即，将目标数据作为历史数据进行保存于对应评估类目下。

S370、模型更新：

S371、历史数据收集：

步骤S360中，为风险评估结果为低风险目标数据标注风险标签后保存于对应评估类目下，此时风险标签标注为低风险。

获取风险反馈信息，基于风险反馈信息为对应的历史数据标注风险标签；

风险反馈信息包括工作人员反馈的风险等级信息，还包括相应监控部门反馈的风险等级信息，例如本实施例中获取监控部门公布的风险案例数据，将风险案例数据作为历史数据保存于对应评估类目下，并为该历史数据标记风险标签。

S372、周期性获取更新数据：

本领域技术人员可以根据实际需要自行设定模型更新周期，如1个月；

基于模型更新周期提取具有风险标签的历史数据，获得各评估类目所对应的更新数据；

利用所述更新数据更新相对应的风险检测模型。

本实施例通过模型更新步骤的设计，周期性更新各风险检测模型，进一步提高各风险检测模型的精度与效度。

实施例2、一种风险检测系统，如图4所示包括：

数据获取模块100，用于获取目标数据；

同质性分析模块200，用于基于预设的业务同质项对所述目标数据进行同质性分析，获得所述目标数据所对应的评估类目；

风险检测模块300，用于基于所述评估类目和预设的风险检测模型，由所述风险检测模型对所述目标数据进行风险等级评估，获得风险评估结果。

进一步地，还包括模型构建模块400，所述模型构建模块包括：

进一步地，还包括指标配置模块500，所述指标配置模块包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是：

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种风险检测方法，其特征在于包括以下步骤：

获取目标数据；

2.根据权利要求1所述的风险检测方法，其特征在于，风险检测模型的构建方法包括以下步骤：

3.根据权利要求2所述的风险检测方法，其特征在于：

所述特征提取子模型包括若干个依次串联堆叠的RBM层；

4.根据权利要求3所述的风险检测方法，其特征在于：

所述分类子模型采用softmax分类器。

5.根据权利要求1至4任一所述的风险检测方法，其特征在于，业务同质项的获取方法包括以下步骤：

6.根据权利要求5所述的风险检测方法，其特征在于：

运用缺一法将对所得样本业务项进行分组，获得若干样本组，每个样本组缺失一样本业务项；

获取各样本组所对应的评估样本类目，并构建与所述样本组相应的检测模型组，所述检测模型组包括与所述评估样本类目一一对应的风险检测样本模型；

测试各检测模型组的错误率，将所述错误率作为相应样本组所缺失的样本业务项的指标重要性。

7.根据权利要求5所述的风险检测方法，其特征在于，所述业务同质项包括：

业务类型、申请额度和申请周期。

8.一种风险检测系统，其特征在于，包括：

数据获取模块，用于获取目标数据；

9.根据权利要求8所述的风险检测系统，其特征在于，还包括模型构建模块，所述模型构建模块包括：

10.根据权利要求8或9所述的风险检测系统，其特征在于，还包括指标配置模块，所述指标配置模块包括：