CN117078026A - 一种基于数据血缘的风控指标管理方法及系统 - Google Patents
一种基于数据血缘的风控指标管理方法及系统 Download PDFInfo
- Publication number
- CN117078026A CN117078026A CN202311343718.6A CN202311343718A CN117078026A CN 117078026 A CN117078026 A CN 117078026A CN 202311343718 A CN202311343718 A CN 202311343718A CN 117078026 A CN117078026 A CN 117078026A
- Authority
- CN
- China
- Prior art keywords
- wind control
- credibility
- data source
- indexes
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000008280 blood Substances 0.000 title claims abstract description 40
- 210000004369 blood Anatomy 0.000 title claims abstract description 40
- 238000007726 management method Methods 0.000 title claims abstract description 14
- 230000009467 reduction Effects 0.000 claims abstract description 125
- 238000012545 processing Methods 0.000 claims description 45
- 238000011156 evaluation Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000013523 data management Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
Abstract
本发明提供一种基于数据血缘的风控指标管理方法及系统,属于数据管理技术领域,具体包括:基于预设规则和用户的授信申请信息进行用户的风控指标的提取,并基于风控指标的数据血缘进行关联风控指标的确定,通过关联风控指标的关联数据源以及与风控预测结果的关联关系对风控指标进行降维处理得到降维风控指标,基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,通过降维风控指标的可信度对降维风控指标进行重构处理得到重构风控指标,并结合综合可信度进行所述用户的授信风险的确定,提升了授信风险的处理效率和准确性。
Description
技术领域
本发明属于数据管理技术领域,尤其一种基于数据血缘的风控指标管理方法及系统。
背景技术
为了实现对用户的授信申请的处理,现有技术方案中通过对用户的授信申请信息或者其它类型的基本信息的解析形成特定的风控指标,并根据风控指标的分析,通过搭建数学模型等方式实现对用户的授信申请的风险控制。
但是在现有技术方案中却忽视了不同的风控指标的数据血缘,一方面有可能会导致风控指标的可信度会受到一定程度的影响,另外一方面也会导致风控指标的维度过高从而导致授信申请的处理效率受到一定程度的影响。
针对上述技术问题,本发明提供了一种基于数据血缘的风控指标管理方法及系统。
发明内容
为实现本发明目的,本发明采用如下技术方案:
根据本发明的一个方面,提供了一种基于数据血缘的风控指标管理方法。
一种基于数据血缘的风控指标管理方法,其特征在于,具体包括:
S1基于预设规则和用户的授信申请信息进行所述用户的风控指标的提取,并基于所述风控指标的数据血缘进行关联风控指标的确定,通过关联风控指标的关联数据源以及与风控预测结果的关联关系对所述风控指标进行降维处理得到降维风控指标;
S2对所述降维风控指标进行数据血缘分析得到所述降维风控指标的数据源,并通过所述数据源的类型、更新时间以及与其它数据源的数据一致性评估结果进行所述数据源的可信度的评估;
S3根据所述用户的降维风控指标的数据源的数量以及不同的数据源的可信度进行所述用户的综合可信度的确定,并基于所述综合可信度确定是否能够进行所述用户的授信申请处理,若是,则进入下一步骤,若否,则输出可信度不足;
S4基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,并通过所述降维风控指标的可信度对所述降维风控指标进行重构处理得到重构风控指标,并结合所述综合可信度进行所述用户的授信风险的确定。
本发明的有益效果在于:
1、通过关联风控指标的关联数据源以及与风控预测结果的关联关系对所述风控指标进行降维处理得到降维风控指标,不仅考虑到关联风控指标的关联数据源的提取难度以及数量的差异导致的计算难度的差异,同时还考虑到关联风控指标的与风控预测结果的关联性,既保证了风控预测的计算效率,同时还保证了风控预测结果的准确性。
2、通过数据源的类型、更新时间以及与其它数据源的数据一致性评估结果进行数据源的可信度的评估,避免了原由的仅仅采用风控指标而忽视了数据源的可信度导致的预测结果不够准确的技术问题,实现了从多重因素的角度对数据源的可信度的评估。
3、通过根据用户的降维风控指标的数据源的数量以及不同的数据源的可信度进行用户的综合可信度的确定,实现了从数据源的角度对用户的授信申请的相关数据的可信度的评估,充分考虑到降维风控指标所对应的不同的数据源的可信度的差异以及数据源的数量的差异对可信度的影响。
4、通过综合重构风控指标以及综合可信度进行所述用户的授信风险的确定,既考虑到不同的降维风控指标由于数据源的差异导致的对授信风险的影响程度的差异,同时还考虑到整体的综合可信度,在保证授信申请的处理效率的基础上,提升了授信风险的处理可靠性。
进一步的技术方案在于,所述用户的风控指标通过所述用户的基本身份信息、历史信贷数据以及还款数据、工作信息、社保信息中的其中一项或者多项进行确定。
进一步的技术方案在于,所述关联风控指标为存在数据血缘的风控指标,具体的根据所述风控指标的处理过程进行确定。
进一步的技术方案在于,所述一般数据源的可信度的取值范围在0到1之间,其中所述一般数据源的可信度越大,则所述一般数据源越可信。
进一步的技术方案在于,基于所述综合可信度确定是否能够进行所述用户的授信申请处理,具体包括:
当所述用户的综合可信度在预设可信度范围内时,则确定能够进行所述用户的授信申请处理;
当所述用户的综合可信度不在预设可信度范围内时,则确定不能够进行所述用户的授信申请处理。
进一步的技术方案在于,基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,具体包括:
基于不同的降维风控指标的数据源的可信度进行所述降维风控指标的数据源的可信度的最小值的确定,并基于所述降维风控指标的数据源的可信度的最小值进行所述降维风控指标的可信度的确定。
第二方面,本发明提供了一种基于数据血缘的风控指标管理系统,采用上述的一种基于数据血缘的风控指标管理方法,具体包括:
降维处理模块,数据源评估模块,指标可信度确定模块,授信风险确定模块;
其中所述降维处理模块负责基于预设规则和用户的授信申请信息进行所述用户的风控指标的提取,并基于所述风控指标的数据血缘进行关联风控指标的确定,通过关联风控指标的关联数据源以及与风控预测结果的关联关系对所述风控指标进行降维处理得到降维风控指标;
所述数据源评估模块负责对所述降维风控指标进行数据血缘分析得到所述降维风控指标的数据源,并通过所述数据源的类型、更新时间以及与其它数据源的数据一致性评估结果进行所述数据源的可信度的评估;
所述指标可信度确定模块负责根据所述用户的降维风控指标的数据源的数量以及不同的数据源的可信度进行所述用户的综合可信度的确定,并基于所述综合可信度确定是否能够进行所述用户的授信申请处理;
所述授信风险确定模块负责基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,并通过所述降维风控指标的可信度对所述降维风控指标进行重构处理得到重构风控指标,并结合所述综合可信度进行所述用户的授信风险的确定。
其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显;
图1是一种基于数据血缘的风控指标管理方法的流程图;
图2是降维风控指标确定的方法的流程图;
图3是数据源的可信度的评估的方法的流程图;
图4是用户的综合可信度的确定的方法的流程图;
图5是一种基于数据血缘的风控指标管理系统的框架图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
申请人发现,在进行用户的授信申请的逾期风险的评估的时候,现有技术方案中往往通过对用户的授信申请信息进行提取从而得到风控指标,而由于不同的风控指标之间本质上是存在一定程度的数据血缘的关联性,因此若不考虑不同的风控指标之间的数据血缘的关联性进行降维操作,则会导致授信申请的处理效率变慢,同时不同的风控指标通过数据血缘还可以确定其数据源,不同数据源的可信度也存在一定程度的差异,若不考虑数据源的可信度,则同样无法实现对授信申请的可靠处理。
为解决上述问题,申请人采用以下技术手段:
首先通过不同的风控指标的数据血缘关系进行风控指标中存在数据血缘关系的关联风控指标的确定,并通过灰色关联分析法进行关联风控指标与授信风险结果之间的关联因子的确定,通过不同的关联风控指标提取所需要的数据源的数量以及关联因子对关联风控指标进行降维处理得到降维风控指标,在其中的一个可能的实施例中,首先将关联因子较大的作为降维风控指标,然后对于剩余的则将数据源较少的作为降维风控指标;
在得到降维风控指标之后,通过降维风控指标的关联的数据源的类型、更新时间以及与其他的数据源的一致情况进行数据源的可信度的确定,具体的,对于社保、公积金、征信数据等数据源通过更新时间进行可信度的确定,对于其他的数据源,则通过其与社保、公积金、征信数据的数据源的一致情况和更新时间进行可信度的确定。
在得到不同的降维风控指标的关联的数据源的可信度后,可以通过用户的降维风控指标的关联的数据源的数量以及可信度进行综合可信度的确定,并根据综合可信度确定用户的身份可信后,再进入下一步骤,在其中的一个可能的实施例中,可以通过关联的数据源的可信度的和进行综合可信度的确定;
通过不同的降维风控指标的关联的数据源的可信度对降维风控指标进行重构处理得到重构后的降维风控指标,并结合用户的综合可信度进行授信申请的风险的确定,具体的可以通过综合可信度以及重构后的降维风控指标所得到的风控风险的乘积进行授信申请的风险的确定。
以下将从方法类实施例以及系统类实施例两个角度实现对上述技术方案的进一步阐释。
为解决上述问题,根据本发明的一个方面,如图1所示,提供了根据本发明的一个方面,提供了一种基于数据血缘的风控指标管理方法,其特征在于,具体包括:
S1基于预设规则和用户的授信申请信息进行所述用户的风控指标的提取,并基于所述风控指标的数据血缘进行关联风控指标的确定,通过关联风控指标的关联数据源以及与风控预测结果的关联关系对所述风控指标进行降维处理得到降维风控指标;
需要说明的是,所述用户的风控指标通过所述用户的基本身份信息、历史信贷数据以及还款数据、工作信息、社保信息中的其中一项或者多项进行确定。
需要进一步说明的是,上述步骤S1中的所述关联风控指标为存在数据血缘的风控指标,具体的根据所述风控指标的处理过程进行确定。
在可能的一个实施例中,如图2所示,上述步骤S1中的所述降维风控指标确定的方法为:
通过灰色关联分析法确定关联风控指标与风控预测结果的灰度关联因子,并基于所述灰度关联因子将所述关联风控指标划分为强关联指标和一般关联指标,并将所述强关联指标作为降维关联指标;
基于所述一般关联指标的关联数据源进行所述一般关联指标的关联数据源的数量的确定,并判断所述一般关联指标的关联数据源的数量是否大于预设数量,若是,则确定所述一般关联指标不属于降维关联指标,若否,则进入下一步骤;
基于所述一般关联指标的关联数据源的数量以及类型进行所述一般关联指标的提取难度的确定,并基于所述提取难度确定所述一般关联指标是否不属于降维关联指标,若是,则确定所述一般关联指标不属于降维关联指标,若否,则进入下一步骤;
获取与所述一般关联指标存在血缘关系的风控指标的数量,并结合所述一般关联指标的提取难度以及灰度关联因子进行所述一般关联指标的综合评估因子的确定,通过所述综合评估因子确定所述一般关联指标是否属于降维关联指标。
可以理解的是,上述步骤中的基于所述灰度关联因子将所述关联风控指标划分为强关联指标和一般关联指标,具体包括:
当所述关联风控指标的灰度关联因子大于预设值时,则确定所述关联风控指标为强关联指标,若否,则确定所述关联风控指标为一般关联指标。
在另外的一个可能的实施例中,上述步骤S1中的所述降维风控指标确定的方法为:
通过灰色关联分析法确定关联风控指标与风控预测结果的灰度关联因子,并基于所述灰度关联因子将所述关联风控指标划分为强关联指标和一般关联指标;基于所述关联风控指标的关联数据源的数量以及类型进行所述关联风控指标的提取难度的确定;
当所述关联风控指标为强关联指标时:
通过所述关联风控指标的灰度关联因子进行所述关联风控指标的提取难度阈值的确定,并基于所述提取难度以及提取难度阈值确定所述关联风控指标是否属于降维风控指标;
当所述关联风控指标为一般关联指标时:
基于所述提取难度确定所述一般关联指标是否不属于降维关联指标,若是,则确定所述一般关联指标不属于降维关联指标,若否,则进入下一步骤;
获取与所述一般关联指标存在血缘关系的风控指标的数量,并结合所述一般关联指标的提取难度以及灰度关联因子进行所述一般关联指标的综合评估因子的确定,通过所述综合评估因子确定所述一般关联指标是否属于降维关联指标。
S2对所述降维风控指标进行数据血缘分析得到所述降维风控指标的数据源,并通过所述数据源的类型、更新时间以及与其它数据源的数据一致性评估结果进行所述数据源的可信度的评估;
在其中的一个可能的实施例中,如图3所示,上述步骤S2中的所述数据源的可信度的评估的方法为:
通过所述数据源的类型将所述数据源划分为可信数据源和一般数据源,并判断所述数据源是否为可信数据源,若是,则通过所述可信数据源的更新时间进行所述可信数据源的可信度的评估,若否,则进入下一步骤;
通过所述一般数据源的信息项与可信数据源的信息项的匹配结果进行所述一般数据源的不匹配信息项的确定,并通过所述不匹配信息项的数量以及比例确定所述一般数据源是否可信,若是,则进入下一步骤,若否,则通过所述一般数据源的通过所述不匹配信息项的数量以及比例进行所述一般数据源的可信度的评估;
通过所述一般数据源的不匹配信息项的数量以及所述不匹配信息项所对应的可信数据源的可信度确定所述一般数据源是否可信,若是,则进入下一步骤,若否,则通过所述一般数据源的不匹配信息项的数量以及所述不匹配信息项所对应的可信数据源的可信度进行所述一般数据源的可信度的评估;
基于所述一般数据源的不匹配信息项的数量以及所述不匹配信息项所对应的可信数据源的可信度进行所述一般数据源的问题评估值的确定,通过所述一般数据源的匹配信息项的数量以及所述匹配信息项所对应的可信数据源的可信度进行所述一般数据源的匹配评估值的确定;
基于所述一般数据源的更新时间、匹配评估值以及问题评估值进行所述一般数据源的可信度的评估。
进一步需要说明的是,所述一般数据源的可信度的取值范围在0到1之间,其中所述一般数据源的可信度越大,则所述一般数据源越可信。
在另外的一个可能的实施例中,上述步骤S2中的所述数据源的可信度的评估的方法为:
通过所述数据源的类型将所述数据源划分为可信数据源和一般数据源,当所述数据源为可信数据源时,通过所述可信数据源的更新时间进行所述可信数据源的可信度的评估;
当所述数据源为一般数据源时:
通过所述一般数据源的信息项与可信数据源的信息项的匹配结果进行所述一般数据源的不匹配信息项的确定,基于所述一般数据源的不匹配信息项的数量以及所述不匹配信息项所对应的可信数据源的可信度进行所述一般数据源的问题评估值的确定,通过所述一般数据源的匹配信息项的数量以及所述匹配信息项所对应的可信数据源的可信度进行所述一般数据源的匹配评估值的确定;
基于所述一般数据源的更新时间、匹配评估值以及问题评估值进行所述一般数据源的可信度的评估。
S3根据所述用户的降维风控指标的数据源的数量以及不同的数据源的可信度进行所述用户的综合可信度的确定,并基于所述综合可信度确定是否能够进行所述用户的授信申请处理,若是,则进入下一步骤,若否,则输出可信度不足;
在其中的一个可能的实施例中,如图4所示,上述步骤S3中的所述用户的综合可信度的确定的方法为:
S31根据所述用户的降维风控指标的数据源的数量确定所述用户的风控指标是否可信,若是,则进入步骤S33,若否,则进入步骤S32;
S32基于所述用户的降维风控指标的数据源的可信度进行所述用户的降维风控指标的数据源的可信度和以及可信度的最大值的确定,并基于所述用户的降维风控指标的数据源的可信度和以及可信度的最大值确定所述用户的风控指标是否可信,若是,则进入下一步骤,若否,则通过所述用户的降维风控指标的数据源的数量以及可信度和进行所述用户的综合可信度的确定;
S33通过所述用户的降维风控指标的数据源的类型进行可信数据源和一般数据源的确定,并通过所述可信数据源的数量以及一般数据源的数量进行所述用户的基础可信度的确定;
S34获取所述用户的降维风控指标的数据源的可信度的平均值,并集合所述用户的降维风控指标的数据源的可信度和以及可信度的最大值进行所述用户的可信度修正量的确定,并基于所述可信度修正量以及所述基础可信度进行所述用户的综合可信度的确定。
进一步的,基于所述综合可信度确定是否能够进行所述用户的授信申请处理,具体包括:
当所述用户的综合可信度在预设可信度范围内时,则确定能够进行所述用户的授信申请处理;
当所述用户的综合可信度不在预设可信度范围内时,则确定不能够进行所述用户的授信申请处理。
S4基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,并通过所述降维风控指标的可信度对所述降维风控指标进行重构处理得到重构风控指标,并结合所述综合可信度进行所述用户的授信风险的确定。
需要进一步说明的是,上述步骤S4中的基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,具体包括:
基于不同的降维风控指标的数据源的可信度进行所述降维风控指标的数据源的可信度的最小值的确定,并基于所述降维风控指标的数据源的可信度的最小值进行所述降维风控指标的可信度的确定。
可以理解的是,所述用户的授信风险的确定的方法为:
通过所述重构风控指标进行所述用户的逾期风险的确定,并基于所述用户的逾期风险以及所述综合可信度进行所述用户的授信风险的确定。
在其中的一个可能的实施例中,通过所述重构风控指标进行所述用户的逾期风险的确定采用基于LSTM算法的神经网络进行确定,其具体的构建步骤为:
定义网络:构建LSTM神经网络,进行时间步长、输入特征的数量、隐含层和输出层的神经元的数量的初始化,在本申请中输入特征的数量根据重构风控指标的数量确定。
损失函数的初始化:使用均方误差丢失函数的高效ADAM优化算法,优化器选择默认的Adam优化器,损失函数选择均方误差损失函数。
训练神经网络:将数据集进行划分得到训练数据集和验证数据集,并通过训练数据集进行神经网络的训练。
评估神经网络的收敛性能:通过损失函数值对验证数据集上的神经网络的预测结果进行评估。
输出预测结果:将用户的重构风控指标作为出入量,送入到训练完成的LSTM算法的神经网络中,进行用户的逾期风险的确定。
另一方面,如图5所示,本发明提供了一种基于数据血缘的风控指标管理系统,采用上述的一种基于数据血缘的风控指标管理方法,具体包括:
降维处理模块,数据源评估模块,指标可信度确定模块,授信风险确定模块;
其中所述降维处理模块负责基于预设规则和用户的授信申请信息进行所述用户的风控指标的提取,并基于所述风控指标的数据血缘进行关联风控指标的确定,通过关联风控指标的关联数据源以及与风控预测结果的关联关系对所述风控指标进行降维处理得到降维风控指标;
所述数据源评估模块负责对所述降维风控指标进行数据血缘分析得到所述降维风控指标的数据源,并通过所述数据源的类型、更新时间以及与其它数据源的数据一致性评估结果进行所述数据源的可信度的评估;
所述指标可信度确定模块负责根据所述用户的降维风控指标的数据源的数量以及不同的数据源的可信度进行所述用户的综合可信度的确定,并基于所述综合可信度确定是否能够进行所述用户的授信申请处理;
所述授信风险确定模块负责基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,并通过所述降维风控指标的可信度对所述降维风控指标进行重构处理得到重构风控指标,并结合所述综合可信度进行所述用户的授信风险的确定。
采用以上实施例,本申请主要取得以下有益技术效果:
通过关联风控指标的关联数据源以及与风控预测结果的关联关系对所述风控指标进行降维处理得到降维风控指标,不仅考虑到关联风控指标的关联数据源的提取难度以及数量的差异导致的计算难度的差异,同时还考虑到关联风控指标的与风控预测结果的关联性,既保证了风控预测的计算效率,同时还保证了风控预测结果的准确性。
通过数据源的类型、更新时间以及与其它数据源的数据一致性评估结果进行数据源的可信度的评估,避免了原由的仅仅采用风控指标而忽视了数据源的可信度导致的预测结果不够准确的技术问题,实现了从多重因素的角度对数据源的可信度的评估。
通过根据用户的降维风控指标的数据源的数量以及不同的数据源的可信度进行用户的综合可信度的确定,实现了从数据源的角度对用户的授信申请的相关数据的可信度的评估,充分考虑到降维风控指标所对应的不同的数据源的可信度的差异以及数据源的数量的差异对可信度的影响。
通过综合重构风控指标以及综合可信度进行所述用户的授信风险的确定,既考虑到不同的降维风控指标由于数据源的差异导致的对授信风险的影响程度的差异,同时还考虑到整体的综合可信度,在保证授信申请的处理效率的基础上,提升了授信风险的处理可靠性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (11)
1.一种基于数据血缘的风控指标管理方法,其特征在于,具体包括:
基于预设规则和用户的授信申请信息进行所述用户的风控指标的提取,并基于所述风控指标的数据血缘进行关联风控指标的确定,通过关联风控指标的关联数据源以及与风控预测结果的关联关系对所述风控指标进行降维处理得到降维风控指标;
对所述降维风控指标进行数据血缘分析得到所述降维风控指标的数据源,并通过所述数据源的类型、更新时间以及与其它数据源的数据一致性评估结果进行所述数据源的可信度的评估;
根据所述用户的降维风控指标的数据源的数量以及不同的数据源的可信度进行所述用户的综合可信度的确定,并基于所述综合可信度确定是否能够进行所述用户的授信申请处理,若是,则进入下一步骤,若否,则输出可信度不足;
基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,并通过所述降维风控指标的可信度对所述降维风控指标进行重构处理得到重构风控指标,并结合所述综合可信度进行所述用户的授信风险的确定。
2.如权利要求1所述的风控指标管理方法,其特征在于,所述用户的风控指标通过所述用户的基本身份信息、历史信贷数据以及还款数据、工作信息、社保信息中的其中一项或者多项进行确定。
3.如权利要求1所述的风控指标管理方法,其特征在于,所述关联风控指标为存在数据血缘的风控指标,具体的根据所述风控指标的处理过程进行确定。
4.如权利要求1所述的风控指标管理方法,其特征在于,所述降维风控指标确定的方法为:
通过灰色关联分析法确定关联风控指标与风控预测结果的灰度关联因子,并基于所述灰度关联因子将所述关联风控指标划分为强关联指标和一般关联指标,并将所述强关联指标作为降维关联指标;
基于所述一般关联指标的关联数据源进行所述一般关联指标的关联数据源的数量的确定,并判断所述一般关联指标的关联数据源的数量是否大于预设数量,若是,则确定所述一般关联指标不属于降维关联指标,若否,则进入下一步骤;
基于所述一般关联指标的关联数据源的数量以及类型进行所述一般关联指标的提取难度的确定,并基于所述提取难度确定所述一般关联指标是否不属于降维关联指标,若是,则确定所述一般关联指标不属于降维关联指标,若否,则进入下一步骤;
获取与所述一般关联指标存在血缘关系的风控指标的数量,并结合所述一般关联指标的提取难度以及灰度关联因子进行所述一般关联指标的综合评估因子的确定,通过所述综合评估因子确定所述一般关联指标是否属于降维关联指标。
5.如权利要求4所述的风控指标管理方法,其特征在于,基于所述灰度关联因子将所述关联风控指标划分为强关联指标和一般关联指标,具体包括:
当所述关联风控指标的灰度关联因子大于预设值时,则确定所述关联风控指标为强关联指标,若否,则确定所述关联风控指标为一般关联指标。
6.如权利要求1所述的风控指标管理方法,其特征在于,所述数据源的可信度的评估的方法为:
通过所述数据源的类型将所述数据源划分为可信数据源和一般数据源,并判断所述数据源是否为可信数据源,若是,则通过所述可信数据源的更新时间进行所述可信数据源的可信度的评估,若否,则进入下一步骤;
通过所述一般数据源的信息项与可信数据源的信息项的匹配结果进行所述一般数据源的不匹配信息项的确定,并通过所述不匹配信息项的数量以及比例确定所述一般数据源是否可信,若是,则进入下一步骤,若否,则通过所述一般数据源的通过所述不匹配信息项的数量以及比例进行所述一般数据源的可信度的评估;
通过所述一般数据源的不匹配信息项的数量以及所述不匹配信息项所对应的可信数据源的可信度确定所述一般数据源是否可信,若是,则进入下一步骤,若否,则通过所述一般数据源的不匹配信息项的数量以及所述不匹配信息项所对应的可信数据源的可信度进行所述一般数据源的可信度的评估;
基于所述一般数据源的不匹配信息项的数量以及所述不匹配信息项所对应的可信数据源的可信度进行所述一般数据源的问题评估值的确定,通过所述一般数据源的匹配信息项的数量以及所述匹配信息项所对应的可信数据源的可信度进行所述一般数据源的匹配评估值的确定;
基于所述一般数据源的更新时间、匹配评估值以及问题评估值进行所述一般数据源的可信度的评估。
7.如权利要求1所述的风控指标管理方法,其特征在于,所述一般数据源的可信度的取值范围在0到1之间,其中所述一般数据源的可信度越大,则所述一般数据源越可信。
8.如权利要求1所述的风控指标管理方法,其特征在于,所述数据源的可信度的评估的方法为:
通过所述数据源的类型将所述数据源划分为可信数据源和一般数据源,当所述数据源为可信数据源时,通过所述可信数据源的更新时间进行所述可信数据源的可信度的评估;
当所述数据源为一般数据源时:
通过所述一般数据源的信息项与可信数据源的信息项的匹配结果进行所述一般数据源的不匹配信息项的确定,基于所述一般数据源的不匹配信息项的数量以及所述不匹配信息项所对应的可信数据源的可信度进行所述一般数据源的问题评估值的确定,通过所述一般数据源的匹配信息项的数量以及所述匹配信息项所对应的可信数据源的可信度进行所述一般数据源的匹配评估值的确定;
基于所述一般数据源的更新时间、匹配评估值以及问题评估值进行所述一般数据源的可信度的评估。
9.如权利要求1所述的风控指标管理方法,其特征在于,基于所述综合可信度确定是否能够进行所述用户的授信申请处理,具体包括:
当所述用户的综合可信度在预设可信度范围内时,则确定能够进行所述用户的授信申请处理;
当所述用户的综合可信度不在预设可信度范围内时,则确定不能够进行所述用户的授信申请处理。
10.如权利要求1所述的风控指标管理方法,其特征在于,基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,具体包括:
基于不同的降维风控指标的数据源的可信度进行所述降维风控指标的数据源的可信度的最小值的确定,并基于所述降维风控指标的数据源的可信度的最小值进行所述降维风控指标的可信度的确定。
11.一种基于数据血缘的风控指标管理系统,采用权利要求1-10任一项所述的一种基于数据血缘的风控指标管理方法,其特征在于,具体包括:
降维处理模块,数据源评估模块,指标可信度确定模块,授信风险确定模块;
其中所述降维处理模块负责基于预设规则和用户的授信申请信息进行所述用户的风控指标的提取,并基于所述风控指标的数据血缘进行关联风控指标的确定,通过关联风控指标的关联数据源以及与风控预测结果的关联关系对所述风控指标进行降维处理得到降维风控指标;
所述数据源评估模块负责对所述降维风控指标进行数据血缘分析得到所述降维风控指标的数据源,并通过所述数据源的类型、更新时间以及与其它数据源的数据一致性评估结果进行所述数据源的可信度的评估;
所述指标可信度确定模块负责根据所述用户的降维风控指标的数据源的数量以及不同的数据源的可信度进行所述用户的综合可信度的确定,并基于所述综合可信度确定是否能够进行所述用户的授信申请处理;
所述授信风险确定模块负责基于不同的降维风控指标的数据源的可信度进行不同的降维风控指标的可信度的确定,并通过所述降维风控指标的可信度对所述降维风控指标进行重构处理得到重构风控指标,并结合所述综合可信度进行所述用户的授信风险的确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311343718.6A CN117078026B (zh) | 2023-10-17 | 2023-10-17 | 一种基于数据血缘的风控指标管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311343718.6A CN117078026B (zh) | 2023-10-17 | 2023-10-17 | 一种基于数据血缘的风控指标管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117078026A true CN117078026A (zh) | 2023-11-17 |
CN117078026B CN117078026B (zh) | 2024-02-06 |
Family
ID=88704728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311343718.6A Active CN117078026B (zh) | 2023-10-17 | 2023-10-17 | 一种基于数据血缘的风控指标管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078026B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408805A (zh) * | 2023-12-15 | 2024-01-16 | 杭银消费金融股份有限公司 | 一种基于稳定性建模的信贷风控方法与系统 |
CN117709906A (zh) * | 2024-02-04 | 2024-03-15 | 杭银消费金融股份有限公司 | 一种外部数据源查询决策方法与装置 |
CN117876103A (zh) * | 2024-03-12 | 2024-04-12 | 杭银消费金融股份有限公司 | 一种人行征信用户画像搭建方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218069A1 (en) * | 2017-01-31 | 2018-08-02 | Experian Information Solutions, Inc. | Massive scale heterogeneous data ingestion and user resolution |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN112634016A (zh) * | 2020-12-21 | 2021-04-09 | 重庆业如数科科技有限公司 | 一种基于社区物业数据进行授信的系统及方法 |
CN113989026A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海微众银行股份有限公司 | 风控模型自适应构建方法、装置、设备及存储介质 |
US11481603B1 (en) * | 2017-05-19 | 2022-10-25 | Wells Fargo Bank, N.A. | System for deep learning using knowledge graphs |
CN115797044A (zh) * | 2022-11-15 | 2023-03-14 | 东方微银科技股份有限公司 | 基于聚类分析的信贷风控预警方法及系统 |
CN115860912A (zh) * | 2022-11-30 | 2023-03-28 | 重庆富民银行股份有限公司 | 基于变量血缘的风控监控预警系统及方法 |
CN115983965A (zh) * | 2022-12-30 | 2023-04-18 | 重庆富民银行股份有限公司 | 一种实现银行风险策略血缘分析的方法和系统 |
CN116150152A (zh) * | 2023-01-18 | 2023-05-23 | 厦门友微科技有限公司 | 一种风控特征血缘关系的确定方法及装置 |
CN116629456A (zh) * | 2023-07-20 | 2023-08-22 | 杭银消费金融股份有限公司 | 业务逾期风险预测方法、系统与存储介质 |
CN116664277A (zh) * | 2023-05-31 | 2023-08-29 | 重庆富民银行股份有限公司 | 一种风控数据源智能切换系统及方法 |
-
2023
- 2023-10-17 CN CN202311343718.6A patent/CN117078026B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218069A1 (en) * | 2017-01-31 | 2018-08-02 | Experian Information Solutions, Inc. | Massive scale heterogeneous data ingestion and user resolution |
CN110383319A (zh) * | 2017-01-31 | 2019-10-25 | 益百利信息解决方案公司 | 大规模异构数据摄取和用户解析 |
US11481603B1 (en) * | 2017-05-19 | 2022-10-25 | Wells Fargo Bank, N.A. | System for deep learning using knowledge graphs |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN112634016A (zh) * | 2020-12-21 | 2021-04-09 | 重庆业如数科科技有限公司 | 一种基于社区物业数据进行授信的系统及方法 |
CN113989026A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海微众银行股份有限公司 | 风控模型自适应构建方法、装置、设备及存储介质 |
CN115797044A (zh) * | 2022-11-15 | 2023-03-14 | 东方微银科技股份有限公司 | 基于聚类分析的信贷风控预警方法及系统 |
CN115860912A (zh) * | 2022-11-30 | 2023-03-28 | 重庆富民银行股份有限公司 | 基于变量血缘的风控监控预警系统及方法 |
CN115983965A (zh) * | 2022-12-30 | 2023-04-18 | 重庆富民银行股份有限公司 | 一种实现银行风险策略血缘分析的方法和系统 |
CN116150152A (zh) * | 2023-01-18 | 2023-05-23 | 厦门友微科技有限公司 | 一种风控特征血缘关系的确定方法及装置 |
CN116664277A (zh) * | 2023-05-31 | 2023-08-29 | 重庆富民银行股份有限公司 | 一种风控数据源智能切换系统及方法 |
CN116629456A (zh) * | 2023-07-20 | 2023-08-22 | 杭银消费金融股份有限公司 | 业务逾期风险预测方法、系统与存储介质 |
Non-Patent Citations (2)
Title |
---|
汪绪彪;: "云计算数据的关联风险评估模型仿真", 计算机仿真, no. 06 * |
沈隆,周颖: "基于大数据变量最优组合的违约预测模型——以中国小企业为例 ", 《系统工程理论与实践》, pages 1 - 19 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408805A (zh) * | 2023-12-15 | 2024-01-16 | 杭银消费金融股份有限公司 | 一种基于稳定性建模的信贷风控方法与系统 |
CN117408805B (zh) * | 2023-12-15 | 2024-03-22 | 杭银消费金融股份有限公司 | 一种基于稳定性建模的信贷风控方法与系统 |
CN117709906A (zh) * | 2024-02-04 | 2024-03-15 | 杭银消费金融股份有限公司 | 一种外部数据源查询决策方法与装置 |
CN117709906B (zh) * | 2024-02-04 | 2024-05-14 | 杭银消费金融股份有限公司 | 一种外部数据源查询决策方法与装置 |
CN117876103A (zh) * | 2024-03-12 | 2024-04-12 | 杭银消费金融股份有限公司 | 一种人行征信用户画像搭建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117078026B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117078026B (zh) | 一种基于数据血缘的风控指标管理方法及系统 | |
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN116342259A (zh) | 一种用户信用自动评级方法、装置、电子设备及介质 | |
CN111309822B (zh) | 用户身份识别方法及装置 | |
US9390121B2 (en) | Analyzing large data sets to find deviation patterns | |
CN112001788B (zh) | 一种基于rf-dbscan算法的信用卡违约欺诈识别方法 | |
Katariya et al. | Adaptive sampling for coarse ranking | |
CN113139687B (zh) | 一种预测信用卡用户违约的方法及装置 | |
Gajowniczek et al. | ESTIMATING THE ROC CURVE AND ITS SIGNIFICANCE FOR CLASSIFICATION MODELS’ASSESSMENT | |
CN112785420A (zh) | 信用评分模型的训练方法、装置、电子设备及存储介质 | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
CN115357764A (zh) | 一种异常数据检测方法及装置 | |
CN112884570A (zh) | 一种模型安全性的确定方法、装置和设备 | |
Seng | Considering the effects of mobile phones on financial inclusion in Cambodia | |
CN113344692A (zh) | 多信息源融合的网络借贷信用风险评估模型的建立方法 | |
CN112329862A (zh) | 基于决策树的反洗钱方法及系统 | |
CN110991517A (zh) | 一种面向脑卒中非平衡数据集的分类方法及系统 | |
CN110322055B (zh) | 一种提高数据风险模型评分稳定性的方法和系统 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN114095268A (zh) | 用于网络入侵检测的方法、终端及存储介质 | |
Krusinskas et al. | THE RESEARCH OF RELIABILITY OF BANKRUPTCY PREDICTION MODELS IN LITHUANIAN COMPANIES. | |
Manakova et al. | Ensembling Clustering Method for Evaluating of the Economic Security Components. Case Study: The Regions of Ukraine | |
US20230394069A1 (en) | Method and apparatus for measuring material risk in a data set | |
Nasution et al. | Credit Risk Detection in Peer-to-Peer Lending Using CatBoost | |
Zhang | Essays on Empirical likelihood for Heaviness Estimation, Outlier Detection and Clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |