CN111861698A - 一种基于贷款多头数据的贷前审批预警方法及系统 - Google Patents

一种基于贷款多头数据的贷前审批预警方法及系统 Download PDF

Info

Publication number
CN111861698A
CN111861698A CN202010633876.5A CN202010633876A CN111861698A CN 111861698 A CN111861698 A CN 111861698A CN 202010633876 A CN202010633876 A CN 202010633876A CN 111861698 A CN111861698 A CN 111861698A
Authority
CN
China
Prior art keywords
data
loan
conflict
evaluation
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010633876.5A
Other languages
English (en)
Other versions
CN111861698B (zh
Inventor
陈亚娟
龙泳先
何侃
廖博帆
杨磊磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruizhi Tuyuan Technology Co ltd
Original Assignee
Beijing Ruizhi Tuyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruizhi Tuyuan Technology Co ltd filed Critical Beijing Ruizhi Tuyuan Technology Co ltd
Priority to CN202010633876.5A priority Critical patent/CN111861698B/zh
Publication of CN111861698A publication Critical patent/CN111861698A/zh
Application granted granted Critical
Publication of CN111861698B publication Critical patent/CN111861698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种基于贷款多头数据的贷前审批预警方法及系统,包括:步骤S1:通过预设数据源获取用户的贷款多头数据;步骤S2:基于预设规则对贷款多头数据进行预处理,获得第一数据;步骤S3:采用预设方法对第一数据进行筛选,获得第二数据;步骤S4:将第二数据输入预先训练好的模型中,模型输出用户的判别与评价、预警等级分数。本发明的基于贷款多头数据的贷前审批预警方法,利用大数据其独特的客观化的信用体系,与商业银行贷前控制信用体系相结合,建立起人与物、物与物之间庞大的数据资源库,通过这种创新型的数据资源共享,为银行的贷前控制获取前所未有的海量实体行为数据,提供用户的判别与评价、预警等级分数。

Description

一种基于贷款多头数据的贷前审批预警方法及系统
技术领域
本发明涉及贷前审批预警技术领域,特别涉及一种基于贷款多头数据的贷前审批预警方法及系统。
背景技术
目前,现行的商业银行贷前控制信用体系大多以来的是银行人员的主观判断和经验积累,属于主观信用模式,很容易致使对企业的实际运营情况掌握不透彻这种情况,虚拟数据的使商业银行发放出很多不良贷款,严重困扰控股商业银行的发展。
发明内容
本发明目的之一在于提供了一种基于贷款多头数据的贷前审批预警方法,利用大数据其独特的客观化的信用体系,与商业银行贷前控制信用体系相结合,建立起人与物、物与物之间庞大的数据资源库,通过这种创新型的数据资源共享,为银行的贷前控制获取前所未有的海量实体行为数据,提供用户的判别与评价、预警等级分数。
本发明实施例提供的一种基于贷款多头数据的贷前审批预警方法,包括:
步骤S1:通过预设数据源获取用户的贷款多头数据;
步骤S2:基于预设规则对贷款多头数据进行预处理,获得第一数据;
步骤S3:采用预设方法对第一数据进行筛选,获得第二数据;
步骤S4:将第二数据输入预先训练好的模型中,模型输出用户的判别与评价、预警等级分数。
优选的,预设数据源包括:数据采集器、券商业务数据、合作方数据和第三方数据市场中一种或多种结合;
预设规则包括:数据清洗、数据集成、数据规约和数据变换;
数据清洗包括:去重、缺失值处理、异常值处理、特征编码和标准化处理中一种或多种;
预设方法包括:质量检查、变量衍生、击中率检查、匹配数据的质量检查、PSI检查、IV检查;
模型包括:逻辑回归模型。
优选的,基于贷款多头数据的贷前审批预警方法,还包括:采用历史数据对初始模型进行增强学习训练得到预先训练好的模型,具体包括:
步骤S11:导入历史数据划分m个训练样本,并对参数ω,b进行初始化;
步骤S12:获取预测的输出结果y2;计算公式如下:
y2=log(ωTX+b);
其中,所述X表示m个所述训练样本组成的样本矩阵,所述ω表示回归分析矩阵,所述y2表示预测输出结果,所述b表示一个常数;
步骤S13:计算对应的损失函数,计算公式如下:
L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1);
其中,所述L(y1,y2)表示损失函数,所述y1表示输出结果y2=1的概率;
步骤S14:定义代价函数j(ω,b)为m个训练样本的损失函数的平均值,计算公式为
Figure BDA0002567060040000021
其中,y2 i为第i个所述训练样本的输出结果,y1 i为第i个所述训练样本的输出结果为1的概率;
步骤S15:计算梯度,计算公式为:
Figure BDA0002567060040000022
其中,所述Z表示m个样本的数据信息下标其表示为维度,所述A表示预测结果,所述Y表示真实结果,所述ω表示回归分析矩阵,所述X表示样本矩阵,所述m表示样本维度,所述b表示常数;
步骤S16:更新参数ω,b,更新公式为:
Figure BDA0002567060040000031
其中,所述ω表示更新后的回归分析矩阵,所述b表示更新后的常数
在预设迭代次数内,重复执行步骤S11至步骤S16,得到导数最小的代价函数,将此时模型作为预先训练好的模型。
优选的,步骤S2:基于预设规则对贷款多头数据进行预处理,获得第一数据;具体包括:
获取b组每组M个所述贷款多头数据的评估数据;所述评估数据记为:Pf={(Of,p,μf,p),(F,αF),p=1,…,M};
获取识别框架K={O1,…,Oh}、对应所述识别框架中元素的效用函数μ(Oh)和评估值函数q(Oh);
确定每组所述评估数据的效用,计算公式如下:
Figure BDA0002567060040000032
其中,μf,p为第f组所述评估数据的效用,Of,p为第f组评估数据的第p个评估数据;μf,p为Of,p根据所述评估数据基于所述识别框架和所述效用函数获得的效用值,F为所述评估数据的初始效用值,αF所述评估数据的初始效用值的权重;
确定每组所述评估数据的评估值,计算公式如下:
Figure BDA0002567060040000033
其中,T(Pf)为第f组所述评估数据的评估值,μf,p为Of,p根据所述评估数据基于所述识别框架和所述评估值函数获得的评估值,d为初始效用值与所述初始评估值的关系系数;
基于b组所述评估数据的评估值,计算所述贷款多头数据的可信度T,计算公式为:
Figure BDA0002567060040000041
其中,E为所述评估数据的评估值的标准方差,λ为修正系数;
当所述贷款多头数据的可信度T大于预设阈值时,将所述贷款多头数据作为第一数据。
优选的,步骤S2:基于预设规则对贷款多头数据进行预处理,获得第一数据;具体还包括:
将贷款多头数据进行聚类分组,获得多组待筛选数据;
提取其中一组待筛选数据,
解析待筛选数据,确定提取的一组待筛选数据中相互冲突的第一冲突数据和第二冲突数据;
解析第一冲突数据和第二冲突数据,分别获取第一冲突数据和第二冲突数据的预设数据源的置信度权重和对应的置信值;
基于置信度权重和置信值,计算第一冲突数据和第二冲突数据的总体置信度,计算公式为:
Figure BDA0002567060040000042
其中,D表示第一冲突数据的总体置信度,m表示在提取的一组待筛选数据中第一冲突数据的条数,β1,i表示第i条第一冲突数据对应的预设数据源的置信度权重,D1,i表示第i条第一冲突数据对应的置信值,D′表示第二冲突数据的总体置信度,n表示在提取的一组待筛选数据中第二冲突数据的条数,β2,j表示第j条第二冲突数据对应的预设数据源的置信度权重,D2,i表示第j条第二冲突数据对应的置信值;
计算第一冲突数据和第二冲突的置信比.计算公式如下:
Figure BDA0002567060040000043
当置信比大于预设比值时,保留第一冲突数据和第二冲突数据中总体置信度高的,删除总体置信度低的;当置信比小于等于预设比值时,重新从预设数据源获取第一冲突数据和第二冲突数据,和/或,输出第一冲突数据和第二冲突数据。
本发明还提供一种基于贷款多头数据的贷前审批预警系统,包括:
数据获取模块,用于通过预设数据源获取用户的贷款多头数据;
第一数据获取模块,用于基于预设规则对贷款多头数据进行预处理,获得第一数据;
第二数据获取模块,用于采用预设方法对第一数据进行筛选,获得第二数据;
预警模块,用于将第二数据输入预先训练好的模型中,模型输出用户的判别与评价、预警等级分数。
优选的,预设数据源包括:数据采集器、券商业务数据、合作方数据和第三方数据市场中一种或多种结合;
预设规则包括:数据清洗、数据集成、数据规约和数据变换;
数据清洗包括:去重、缺失值处理、异常值处理、特征编码和标准化处理中一种或多种;
预设方法包括:质量检查、变量衍生、击中率检查、匹配数据的质量检查、PSI检查、IV检查;
模型包括:逻辑回归模型。
优选的,基于贷款多头数据的贷前审批预警系统,还包括:模型训练模块,用于采用历史数据对初始模型进行增强学习训练得到预先训练好的模型;
模型训练模块执行包括如下操作:
步骤S11:导入历史数据划分m个训练样本,并对参数ω,b进行初始化;
步骤S12:获取预测的输出结果y2;计算公式如下:
y2=log(ωTX+b);
其中,所述X表示m个所述训练样本组成的样本矩阵,所述ω表示回归分析矩阵,所述y2表示预测输出结果,所述b表示一个常数;
步骤S13:计算对应的损失函数,计算公式如下:
L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1);
其中,所述L(y1,y2)表示损失函数,所述y1表示输出结果y2=1的概率;
步骤S14:定义代价函数j(ω,b)为m个训练样本的损失函数的平均值,计算公式为
Figure BDA0002567060040000061
其中,y2 i为第i个所述训练样本的输出结果,y1 i为第i个所述训练样本的输出结果为1的概率;
步骤S15:计算梯度,计算公式为:
Figure BDA0002567060040000062
其中,所述Z表示m个样本的数据信息下标其表示为维度,所述A表示预测结果,所述Y表示真实结果,所述ω表示回归分析矩阵,所述X表示样本矩阵,所述m表示样本维度,所述b表示常数;
步骤S16:更新参数ω,b,更新公式为:
Figure BDA0002567060040000063
其中,所述ω表示更新后的回归分析矩阵,所述b表示更新后的常数
在预设迭代次数内,重复执行步骤S11至步骤S16,得到导数最小的代价函数,将此时模型作为预先训练好的模型。
优选的,第一数据获取模块执行包括如下操作:
获取b组每组M个所述贷款多头数据的评估数据;所述评估数据记为:Pf={(Of,p,μf,p),(F,αF),p=1,…,M};
获取识别框架K={O1,…,Oh}、对应所述识别框架中元素的效用函数μ(Oh)和评估值函数q(Oh);
确定每组所述评估数据的效用,计算公式如下:
Figure BDA0002567060040000071
其中,μf,p为第f组所述评估数据的效用,Of,p为第f组评估数据的第p个评估数据;μf,p为Of,p根据所述评估数据基于所述识别框架和所述效用函数获得的效用值,F为所述评估数据的初始效用值,αF所述评估数据的初始效用值的权重;
确定每组所述评估数据的评估值,计算公式如下:
Figure BDA0002567060040000072
其中,T(Pf)为第f组所述评估数据的评估值,μf,p为Of,p根据所述评估数据基于所述识别框架和所述评估值函数获得的评估值,d为初始效用值与所述初始评估值的关系系数;
基于b组所述评估数据的评估值,计算所述贷款多头数据的可信度T,计算公式为:
Figure BDA0002567060040000073
其中,E为所述评估数据的评估值的标准方差,λ为修正系数;
当所述贷款多头数据的可信度T大于预设阈值时,将所述贷款多头数据作为第一数据。
优选的,第一数据还执行包括如下操作:
将贷款多头数据进行聚类分组,获得多组待筛选数据;
提取其中一组待筛选数据,
解析待筛选数据,确定提取的一组待筛选数据中相互冲突的第一冲突数据和第二冲突数据;
解析第一冲突数据和第二冲突数据,分别获取第一冲突数据和第二冲突数据的预设数据源的置信度权重和对应的置信值;
基于置信度权重和置信值,计算第一冲突数据和第二冲突数据的总体置信度,计算公式为:
Figure BDA0002567060040000081
其中,D表示第一冲突数据的总体置信度,m表示在提取的一组待筛选数据中第一冲突数据的条数,β1,i表示第i条第一冲突数据对应的预设数据源的置信度权重,D1,i表示第i条第一冲突数据对应的置信值,D′表示第二冲突数据的总体置信度,n表示在提取的一组待筛选数据中第二冲突数据的条数,β2,j表示第j条第二冲突数据对应的预设数据源的置信度权重,D2,i表示第j条第二冲突数据对应的置信值;
计算第一冲突数据和第二冲突的置信比,计算公式如下:
Figure BDA0002567060040000082
当置信比大于预设比值时,保留第一冲突数据和第二冲突数据中总体置信度高的,删除总体置信度低的;当置信比小于等于预设比值时,重新从预设数据源获取第一冲突数据和第二冲突数据,和/或,输出第一冲突数据和第二冲突数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于贷款多头数据的贷前审批预警方法的示意图;
图2为本发明实施例中一种预警输出的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于贷款多头数据的贷前审批预警方法,如图1所示,包括:
步骤S1:通过预设数据源获取用户的贷款多头数据;
步骤S2:基于预设规则对贷款多头数据进行预处理,获得第一数据;
步骤S3:采用预设方法对第一数据进行筛选,获得第二数据;
步骤S4:将第二数据输入预先训练好的模型中,模型输出用户的判别与评价、预警等级分数。
上述技术方案的工作原理及有益效果为:
首先,通过预设数据源获取用户的贷款多头数据:不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收,正是因为整个产业链条的分工合作,金融信贷产业才可以总体维稳、获益。不论是金融第一梯队银行类,还是二、三梯队非银机构,风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据,以此支撑信用风险精准判断与预险。由此可见选择合适的第三方数据源,是实现优质风控的关键要素之一,故预设可靠的数据源是保证预警方法的重要保障。
然后,基于预设规则对贷款多头数据进行预处理,获得第一数据;数据质量有三个要素,包括准确性、完整性和一致性。不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点。导致不正确的数据可能有多种原因:收集数据的设备可能出现故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值。这成为被掩盖的缺失数据。错误也可能在数据传输中出现。也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。重复元组也需要数据清理。不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可以得到的。其他数据没有包含在内,可能只是因为输入时认为是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其他记录不一致的数据可能已经被删除。此外,历史或修改的数据可能被忽略。缺失的数据,特别是某些属性上缺失值的元组,可能需要推导出来;故需要对数据进行预处理保证数据的准确性、完整性和一致性。
然后,采用预设方法对第一数据进行筛选,获得第二数据;保证人模前数据的有效及准确性;
最后,将第二数据输入预先训练好的模型中,模型输出用户的判别与评价、预警等级分数。对于金融机构的信贷风险把控,很重要的一个环节在于贷前审批的风险把控。而在贷前的风险控制,归根结底是排查出还款概率低的人群。例如预警等级软件的输出分为A,B,C,D,E,1,2等7个风险等级,以及F,G可扩展等级(客户可自行决定是否需要的2个风险等级)。其数据划分如图2所示,图中,A为最高预警等级,B为次高,以此类推到G等级,1和2等级是由黑名单产生,不参与A-G的排序,他们的风险特征居中(可类比D和E)。
本发明的基于贷款多头数据的贷前审批预警方法,利用大数据其独特的客观化的信用体系,与商业银行贷前控制信用体系相结合,建立起人与物、物与物之间庞大的数据资源库,通过这种创新型的数据资源共享,为银行的贷前控制获取前所未有的海量实体行为数据,提供用户的判别与评价、预警等级分数。
在一个实施例中,预设数据源包括:数据采集器、券商业务数据、合作方数据和第三方数据市场中一种或多种结合;
不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收,正是因为整个产业链条的分工合作,金融信贷产业才可以总体维稳、获益。
不论是金融第一梯队银行类,还是二、三梯队非银机构,风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据,以此支撑信用风险精准判断与预险。
由此可见选择合适的第三方数据源,是实现优质风控的关键要素之一
我们的数据来源主要分为四类,包括数据采集器,券商业务数据,合作方数据,第三方数据市场。
其中,数据采集器数据指在PC端或者移动端,通过API,SDK,JS等软件方式采集到的客户行为信息。
券商业务数据主要有证券交易所以公开、集中的方式进行的集中竞价交易,大宗交易,协议转让,盘后交易等买卖的集中交易数据信息。投资者向具有融资融券业务资格的证券公司提供担保物,借入资金买入证券或借入证券并卖出等交易行为的融资融券数据。用户在券商的线上投资平台,投资分析决策系统等投资系统上进行买卖的投资系统数据。
合作方数据主要是与软件开发方存在合作关系的机构所提供的反应客户行为偏好,消费状况等相关情况的数据信息,包括公共号数据,电商站数据,媒体数据等
第三方数据市场是大流量平台利用其数据能力推出的满足特定的部门或者用户对于数据的需求的开放性数据产品市场。
预设规则包括:数据清洗、数据集成、数据规约和数据变换;
数据预处理的主要技术包括数据清理技术,其可以用来清除数据中的噪声,纠正不一致。数据集成技术,其可以将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
数据归约技术,其可以通过如狙击、删除冗余特征或聚类来降低数据的规模。数据变换技术,其可以用来把数据压缩到较小的区间,如0.0到1.0。这可以提高设计距离度量的挖掘算法的准确率和效率。
数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源。低质量的数据导致低质量的数据挖掘。由此可见进行有效的数据预处理的重要性可见一斑。
数据清洗包括:去重、缺失值处理、异常值处理、特征编码和标准化处理中一种或多种;
去重:去掉数据集中重复出现的数据。
缺失值处理:缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。通常对其进行删除或者填补操作。
异常值处理:即在数据集中存在不合理的值。通常需要判别是否异常并进行相应的修正。
特征编码:通常原始数据中的有些特征是无法直接被模型识别的,因此需要将这些特征转换为数学模型能够识别的形式。我们使用特征二元化或独热编码进行分类变量处理。
标准化处理:数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。便于不同单位或量级的指标能够进行比较和加权。
预设方法包括:质量检查、变量衍生、击中率检查、匹配数据的质量检查、PSI检查、IV检查;
QC检查:主要检查数据是否合理,以便决定是否使用此类数据或使用哪些变量,主要检查每个变量的分布情况,唯一值,特殊值的具体含义等。
变量衍生:根据已有的变量,按照衍生逻辑生成衍生变量用以入模
击中率检查:对数据源与客户数据按照特定的击中逻辑进行匹配以检查匹配度以及击中数据的捉黑能力等
匹配数据的qc检查:带上权重的qc检查,根据业务逻辑检查变量的异常值分布,有效值分布,风险趋势变化等,同时对于变量相互之间的关系进行数据检查。
PSI检查:PSI是模型稳定性指标,用于检查数据变量的稳定性以决定入模变量。PSI:PopulationStability Index,群体稳定性指数。
IV检查:Information Value,IV是变量所含信息量指标,用于检查变量对于预警等级计算模型所需信息的贡献情况,以筛选最具解释性的变量。
我们主要保留异常值占比小于95%,PSI指标大于0.25,且IV值大于0.01的指标,并根据业务逻辑增加适当变量用于入模。
模型包括:逻辑回归模型。
在一个实施例中,基于贷款多头数据的贷前审批预警方法,还包括:采用历史数据对初始模型进行增强学习训练得到预先训练好的模型,具体包括:
步骤S11:导入历史数据划分m个训练样本,并对参数ω,b进行初始化;
步骤S12:获取预测的输出结果y2;计算公式如下:
y2=log(ωTX+b);
其中,所述X表示m个所述训练样本组成的样本矩阵,所述ω表示回归分析矩阵,所述y2表示预测输出结果,所述b表示一个常数;
步骤S13:计算对应的损失函数,计算公式如下:
L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1);
其中,所述L(y1,y2)表示损失函数,所述y1表示输出结果y2=1的概率;
步骤S14:定义代价函数j(ω,b)为m个训练样本的损失函数的平均值,计算公式为
Figure BDA0002567060040000131
其中,y2 i为第i个所述训练样本的输出结果,y1 i为第i个所述训练样本的输出结果为1的概率;
步骤S15:计算梯度,计算公式为:
Figure BDA0002567060040000132
其中,所述Z表示m个样本的数据信息下标其表示为维度,所述A表示预测结果,所述Y表示真实结果,所述ω表示回归分析矩阵,所述X表示样本矩阵,所述m表示样本维度,所述b表示常数;
步骤S16:更新参数ω,b,更新公式为:
Figure BDA0002567060040000141
其中,所述ω表示更新后的回归分析矩阵,所述b表示更新后的常数
在预设迭代次数内,重复执行步骤S11至步骤S16,得到导数最小的代价函数,将此时模型作为预先训练好的模型。
上述技术方案的工作原理及有益效果为:
通过特征处理初步筛选出了在对模型解释性,稳定性,数据质量等方面最优的变量,下一步对这些变量进行逻辑回归建模。梯度下降是神经网络中训练模型最常用的一种优化方法,采用梯度下降过程中的代价函数对模型的变量进行指导优化,当模型得到的代价函数的导数为最小时,在此时模型已达到最优。这个训练到最优化的逻辑回归算法模型就可以用来对客户进行判别与评价返回预警等级分数。
在一个实施例中,步骤S2:基于预设规则对贷款多头数据进行预处理,获得第一数据;具体包括:
上述技术方案的工作原理及有益效果为:
通过对贷款多头数据的评估数据的分析,确定贷款多头数据的可信度,从而剔除不可信数据,保证进行预警分析的数据的可信程度,进而提高预警方法输出的用户的判别与评价、预警等级分数的准确性。
在一个实施例中,步骤S2:基于预设规则对贷款多头数据进行预处理,获得第一数据;具体还包括:
将贷款多头数据进行聚类分组,获得多组待筛选数据;
提取其中一组待筛选数据,
解析待筛选数据,确定提取的一组待筛选数据中相互冲突的第一冲突数据和第二冲突数据;
解析第一冲突数据和第二冲突数据,分别获取第一冲突数据和第二冲突数据的预设数据源的置信度权重和对应的置信值;
基于置信度权重和置信值,计算第一冲突数据和第二冲突数据的总体置信度,计算公式为:
Figure BDA0002567060040000151
Figure BDA0002567060040000152
其中,D表示第一冲突数据的总体置信度,m表示在提取的一组待筛选数据中第一冲突数据的条数,β1,i表示第i条第一冲突数据对应的预设数据源的置信度权重,D1,i表示第i条第一冲突数据对应的置信值,D′表示第二冲突数据的总体置信度,n表示在提取的一组待筛选数据中第二冲突数据的条数,β2,j表示第j条第二冲突数据对应的预设数据源的置信度权重,D2,i表示第j条第二冲突数据对应的置信值;
计算第一冲突数据和第二冲突的置信比.计算公式如下:
Figure BDA0002567060040000153
当置信比大于预设比值时,保留第一冲突数据和第二冲突数据中总体置信度高的,删除总体置信度低的;当置信比小于等于预设比值时,重新从预设数据源获取第一冲突数据和第二冲突数据,和/或,输出第一冲突数据和第二冲突数据。
上述技术方案的工作原理及有益效果为:
对于贷款多头数据中相互冲突的数据,采用获取的数据源方面出发对冲突的数据的置信度进行分析,确定各个相互冲突数据的可信度,从而对冲突数据进行筛选,保证进行预警分析的数据的可信程度,进而提高预警方法输出的用户的判别与评价、预警等级分数的准确性。
本发明还提供一种基于贷款多头数据的贷前审批预警系统,包括:
数据获取模块,用于通过预设数据源获取用户的贷款多头数据;
第一数据获取模块,用于基于预设规则对贷款多头数据进行预处理,获得第一数据;
第二数据获取模块,用于采用预设方法对第一数据进行筛选,获得第二数据;
预警模块,用于将第二数据输入预先训练好的模型中,模型输出用户的判别与评价、预警等级分数。
上述技术方案的工作原理及有益效果为:
首先,数据获取模块通过预设数据源获取用户的贷款多头数据:不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收,正是因为整个产业链条的分工合作,金融信贷产业才可以总体维稳、获益。不论是金融第一梯队银行类,还是二、三梯队非银机构,风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据,以此支撑信用风险精准判断与预险。由此可见选择合适的第三方数据源,是实现优质风控的关键要素之一,故预设可靠的数据源是保证预警方法的重要保障。
然后,第一数据获取模块基于预设规则对贷款多头数据进行预处理,获得第一数据;数据质量有三个要素,包括准确性、完整性和一致性。不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点。导致不正确的数据可能有多种原因:收集数据的设备可能出现故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值。这成为被掩盖的缺失数据。错误也可能在数据传输中出现。也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。重复元组也需要数据清理。不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可以得到的。其他数据没有包含在内,可能只是因为输入时认为是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其他记录不一致的数据可能已经被删除。此外,历史或修改的数据可能被忽略。缺失的数据,特别是某些属性上缺失值的元组,可能需要推导出来;故需要对数据进行预处理保证数据的准确性、完整性和一致性。
然后,第二数据获取模块采用预设方法对第一数据进行筛选,获得第二数据;保证人模前数据的有效及准确性;
最后,预警模块将第二数据输入预先训练好的模型中,模型输出用户的判别与评价、预警等级分数。对于金融机构的信贷风险把控,很重要的一个环节在于贷前审批的风险把控。而在贷前的风险控制,归根结底是排查出还款概率低的人群。例如预警等级软件的输出分为A,B,C,D,E,1,2等7个风险等级,以及F,G可扩展等级(客户可自行决定是否需要的2个风险等级)。其数据划分如图2所示,图中,A为最高预警等级,B为次高,以此类推到G等级,1和2等级是由黑名单产生,不参与A-G的排序,他们的风险特征居中(可类比D和E)。
本发明的基于贷款多头数据的贷前审批预警方法,利用大数据其独特的客观化的信用体系,与商业银行贷前控制信用体系相结合,建立起人与物、物与物之间庞大的数据资源库,通过这种创新型的数据资源共享,为银行的贷前控制获取前所未有的海量实体行为数据,提供用户的判别与评价、预警等级分数。
在一个实施例中,预设数据源包括:数据采集器、券商业务数据、合作方数据和第三方数据市场中一种或多种结合;
不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收,正是因为整个产业链条的分工合作,金融信贷产业才可以总体维稳、获益。
不论是金融第一梯队银行类,还是二、三梯队非银机构,风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据,以此支撑信用风险精准判断与预险。
由此可见选择合适的第三方数据源,是实现优质风控的关键要素之一
我们的数据来源主要分为四类,包括数据采集器,券商业务数据,合作方数据,第三方数据市场。
其中,数据采集器数据指在PC端或者移动端,通过API,SDK,JS等软件方式采集到的客户行为信息。
券商业务数据主要有证券交易所以公开、集中的方式进行的集中竞价交易,大宗交易,协议转让,盘后交易等买卖的集中交易数据信息。投资者向具有融资融券业务资格的证券公司提供担保物,借入资金买入证券或借入证券并卖出等交易行为的融资融券数据。用户在券商的线上投资平台,投资分析决策系统等投资系统上进行买卖的投资系统数据。
合作方数据主要是与软件开发方存在合作关系的机构所提供的反应客户行为偏好,消费状况等相关情况的数据信息,包括公共号数据,电商站数据,媒体数据等
第三方数据市场是大流量平台利用其数据能力推出的满足特定的部门或者用户对于数据的需求的开放性数据产品市场。
预设规则包括:数据清洗、数据集成、数据规约和数据变换;
数据预处理的主要技术包括数据清理技术,其可以用来清除数据中的噪声,纠正不一致。数据集成技术,其可以将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
数据归约技术,其可以通过如狙击、删除冗余特征或聚类来降低数据的规模。数据变换技术,其可以用来把数据压缩到较小的区间,如0.0到1.0。这可以提高设计距离度量的挖掘算法的准确率和效率。
数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源。低质量的数据导致低质量的数据挖掘。由此可见进行有效的数据预处理的重要性可见一斑。
数据清洗包括:去重、缺失值处理、异常值处理、特征编码和标准化处理中一种或多种;
去重:去掉数据集中重复出现的数据。
缺失值处理:缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。通常对其进行删除或者填补操作。
异常值处理:即在数据集中存在不合理的值。通常需要判别是否异常并进行相应的修正。
特征编码:通常原始数据中的有些特征是无法直接被模型识别的,因此需要将这些特征转换为数学模型能够识别的形式。我们使用特征二元化或独热编码进行分类变量处理。
标准化处理:数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。便于不同单位或量级的指标能够进行比较和加权。
预设方法包括:质量检查、变量衍生、击中率检查、匹配数据的质量检查、PSI检查、IV检查;
QC检查:主要检查数据是否合理,以便决定是否使用此类数据或使用哪些变量,主要检查每个变量的分布情况,唯一值,特殊值的具体含义等。
变量衍生:根据已有的变量,按照衍生逻辑生成衍生变量用以入模
击中率检查:对数据源与客户数据按照特定的击中逻辑进行匹配以检查匹配度以及击中数据的捉黑能力等
匹配数据的qc检查:带上权重的qc检查,根据业务逻辑检查变量的异常值分布,有效值分布,风险趋势变化等,同时对于变量相互之间的关系进行数据检查。
PSI检查:PSI是模型稳定性指标,用于检查数据变量的稳定性以决定入模变量。PSI:PopulationStabilityIndex,群体稳定性指数。
IV检查:Information Value,IV是变量所含信息量指标,用于检查变量对于预警等级计算模型所需信息的贡献情况,以筛选最具解释性的变量。
我们主要保留异常值占比小于95%,PSI指标大于0.25,且IV值大于0.01的指标,并根据业务逻辑增加适当变量用于入模。
模型包括:逻辑回归模型。
在一个实施例中,基于贷款多头数据的贷前审批预警系统,还包括:模型训练模块,用于采用历史数据对初始模型进行增强学习训练得到预先训练好的模型;
模型训练模块执行包括如下操作:
步骤S11:导入历史数据划分m个训练样本,并对参数ω,b进行初始化;
步骤S12:获取预测的输出结果y2;计算公式如下:
y2=log(ωTX+b);
其中,所述X表示m个所述训练样本组成的样本矩阵,所述ω表示回归分析矩阵,所述y2表示预测输出结果,所述b表示一个常数;
步骤S13:计算对应的损失函数,计算公式如下:
L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1);
其中,所述L(y1,y2)表示损失函数,所述y1表示输出结果y2=1的概率;
步骤S14:定义代价函数j(ω,b)为m个训练样本的损失函数的平均值,计算公式为
Figure BDA0002567060040000201
其中,y2 i为第i个所述训练样本的输出结果,y1 i为第i个所述训练样本的输出结果为1的概率;
步骤S15:计算梯度,计算公式为:
Figure BDA0002567060040000202
其中,所述Z表示m个样本的数据信息下标其表示为维度,所述A表示预测结果,所述Y表示真实结果,所述ω表示回归分析矩阵,所述X表示样本矩阵,所述m表示样本维度,所述b表示常数;
步骤S16:更新参数ω,b,更新公式为:
Figure BDA0002567060040000211
其中,所述ω表示更新后的回归分析矩阵,所述b表示更新后的常数
在预设迭代次数内,重复执行步骤S11至步骤S16,得到导数最小的代价函数,将此时模型作为预先训练好的模型。
上述技术方案的工作原理及有益效果为:
通过特征处理初步筛选出了在对模型解释性,稳定性,数据质量等方面最优的变量,下一步对这些变量进行逻辑回归建模。梯度下降是神经网络中训练模型最常用的一种优化方法,采用梯度下降过程中的代价函数对模型的变量进行指导优化,当模型得到的代价函数的导数为最小时,在此时模型已达到最优。这个训练到最优化的逻辑回归算法模型就可以用来对客户进行判别与评价返回预警等级分数。
在一个实施例中,第一数据获取模块执行包括如下操作:
获取b组每组M个所述贷款多头数据的评估数据;所述评估数据记为:Pf={(Of,p,μf,p),(F,αF),p=1,…,M};
获取识别框架K={O1,…,Oh}、对应所述识别框架中元素的效用函数μ(Oh)和评估值函数q(Oh);
确定每组所述评估数据的效用,计算公式如下:
Figure BDA0002567060040000212
其中,μf,p为第f组所述评估数据的效用,Of,p为第f组评估数据的第p个评估数据.μf,p为Of,p根据所述评估数据基于所述识别框架和所述效用函数获得的效用值,F为所述评估数据的初始效用值,αF所述评估数据的初始效用值的权重;
确定每组所述评估数据的评估值,计算公式如下:
Figure BDA0002567060040000213
其中,T(Pf)为第f组所述评估数据的评估值,μf,p为Of,p根据所述评估数据基于所述识别框架和所述评估值函数获得的评估值,d为初始效用值与所述初始评估值的关系系数;
基于b组所述评估数据的评估值,计算所述贷款多头数据的可信度T,计算公式为:
Figure BDA0002567060040000221
其中,E为所述评估数据的评估值的标准方差,λ为修正系数;
当所述贷款多头数据的可信度T大于预设阈值时,将所述贷款多头数据作为第一数据。
上述技术方案的工作原理及有益效果为:
通过对贷款多头数据的评估数据的分析,确定贷款多头数据的可信度,从而剔除不可信数据,保证进行预警分析的数据的可信程度,进而提高预警方法输出的用户的判别与评价、预警等级分数的准确性。
在一个实施例中,第一数据还执行包括如下操作:
将贷款多头数据进行聚类分组,获得多组待筛选数据;
提取其中一组待筛选数据,
解析待筛选数据,确定提取的一组待筛选数据中相互冲突的第一冲突数据和第二冲突数据;
解析第一冲突数据和第二冲突数据,分别获取第一冲突数据和第二冲突数据的预设数据源的置信度权重和对应的置信值;
基于置信度权重和置信值,计算第一冲突数据和第二冲突数据的总体置信度,计算公式为:
Figure BDA0002567060040000222
Figure BDA0002567060040000223
其中,D表示第一冲突数据的总体置信度,m表示在提取的一组待筛选数据中第一冲突数据的条数,β1,i表示第i条第一冲突数据对应的预设数据源的置信度权重,D1,i表示第i条第一冲突数据对应的置信值,D′表示第二冲突数据的总体置信度,n表示在提取的一组待筛选数据中第二冲突数据的条数,β2,j表示第j条第二冲突数据对应的预设数据源的置信度权重,D2,j表示第j条第二冲突数据对应的置信值;
计算第一冲突数据和第二冲突的置信比,计算公式如下:
Figure BDA0002567060040000231
当置信比大于预设比值时,保留第一冲突数据和第二冲突数据中总体置信度高的,删除总体置信度低的;当置信比小于等于预设比值时,重新从预设数据源获取第一冲突数据和第二冲突数据,和/或,输出第一冲突数据和第二冲突数据。
上述技术方案的工作原理及有益效果为:
对于贷款多头数据中相互冲突的数据,采用获取的数据源方面出发对冲突的数据的置信度进行分析,确定各个相互冲突数据的可信度,从而对冲突数据进行筛选,保证进行预警分析的数据的可信程度,进而提高预警方法输出的用户的判别与评价、预警等级分数的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于贷款多头数据的贷前审批预警方法,其特征在于,包括:
步骤S1:通过预设数据源获取用户的贷款多头数据;
步骤S2:基于预设规则对所述贷款多头数据进行预处理,获得第一数据;
步骤S3:采用预设方法对所述第一数据进行筛选,获得第二数据;
步骤S4:将所述第二数据输入预先训练好的模型中,所述模型输出用户的判别与评价、预警等级分数。
2.如权利要求1所述的基于贷款多头数据的贷前审批预警方法,其特征在于,
所述预设数据源包括:数据采集器、券商业务数据、合作方数据和第三方数据市场中一种或多种结合;
所述预设规则包括:数据清洗、数据集成、数据规约和数据变换;
所述数据清洗包括:去重、缺失值处理、异常值处理、特征编码和标准化处理中一种或多种;
所述预设方法包括:质量检查、变量衍生、击中率检查、匹配数据的质量检查、PSI检查、IV检查;
所述模型包括:逻辑回归模型。
3.如权利要求2所述的基于贷款多头数据的贷前审批预警方法,其特征在于,还包括:采用历史数据对初始模型进行增强学习训练得到所述预先训练好的模型,具体包括:
步骤S11:导入历史数据划分m个训练样本,并对参数ω,b进行初始化;
步骤S12:获取预测的输出结果y2;计算公式如下:
y2=log(ωTX+b);
其中,所述X表示m个所述训练样本组成的样本矩阵,所述ω表示回归分析矩阵,所述y2表示预测输出结果,所述b表示一个常数;
步骤S13:计算对应的损失函数,计算公式如下:
L(y1,y2)=-(y2 log(y1))+(1-y2)log(1-y1);
其中,所述L(y1,y2)表示损失函数,所述y1表示输出结果y2=1的概率;
步骤S14:定义代价函数j(ω,b)为m个训练样本的损失函数的平均值,计算公式为
Figure FDA0002567060030000021
其中,y2 i为第i个所述训练样本的输出结果,y1 i为第i个所述训练样本的输出结果为1的概率;
步骤S15:计算梯度,计算公式为:
Figure FDA0002567060030000022
其中,所述Z表示m个样本的数据信息下标其表示为维度,所述A表示预测结果,所述Y表示真实结果,所述ω表示回归分析矩阵,所述X表示样本矩阵,所述m表示样本维度,所述b表示常数;
步骤S16:更新参数ω,b,更新公式为:
Figure FDA0002567060030000023
其中,所述ω表示更新后的回归分析矩阵,所述b表示更新后的常数
在预设迭代次数内,重复执行步骤S11至步骤S16,得到导数最小的代价函数,将此时模型作为所述预先训练好的模型。
4.如权利要求1所述的基于贷款多头数据的贷前审批预警方法,其特征在于,所述步骤S2:基于预设规则对所述贷款多头数据进行预处理,获得第一数据;具体包括:
获取b组每组M个所述贷款多头数据的评估数据;所述评估数据记为:Pf={(Of,p,μf,p),(F,αF),p=1,···,M};
获取识别框架K={O1,···,Oh}、对应所述识别框架中元素的效用函数μ(Oh)和评估值函数q(Oh);
确定每组所述评估数据的效用,计算公式如下:
Figure FDA0002567060030000031
其中,μf,p为第f组所述评估数据的效用,Of,p为第f组评估数据的第p个评估数据.μf,p为Of,p根据所述评估数据基于所述识别框架和所述效用函数获得的效用值,F为所述评估数据的初始效用值,αF所述评估数据的初始效用值的权重;
确定每组所述评估数据的评估值,计算公式如下:
Figure FDA0002567060030000032
其中,T(Pf)为第f组所述评估数据的评估值,μf,p为Of,p根据所述评估数据基于所述识别框架和所述评估值函数获得的评估值,d为初始效用值与所述初始评估值的关系系数;
基于b组所述评估数据的评估值,计算所述贷款多头数据的可信度T,计算公式为:
Figure FDA0002567060030000033
其中,E为所述评估数据的评估值的标准方差,λ为修正系数;
当所述贷款多头数据的可信度T大于预设阈值时,将所述贷款多头数据作为第一数据。
5.如权利要求1所述的基于贷款多头数据的贷前审批预警方法,其特征在于,所述步骤S2:基于预设规则对所述贷款多头数据进行预处理,获得第一数据;具体还包括:
将所述贷款多头数据进行聚类分组,获得多组待筛选数据;
提取其中一组待筛选数据,
解析所述待筛选数据,确定提取的一组待筛选数据中相互冲突的第一冲突数据和第二冲突数据;
解析所述第一冲突数据和所述第二冲突数据,分别获取第一冲突数据和第二冲突数据的预设数据源的置信度权重和对应的置信值;
基于所述置信度权重和置信值,计算所述第一冲突数据和所述第二冲突数据的总体置信度,计算公式为:
Figure FDA0002567060030000041
Figure FDA0002567060030000042
其中,D表示所述第一冲突数据的总体置信度,m表示在提取的一组所述待筛选数据中所述第一冲突数据的条数,β1,i表示第i条所述第一冲突数据对应的预设数据源的置信度权重,D1,i表示第i条所述第一冲突数据对应的置信值,D′表示所述第二冲突数据的总体置信度,n表示在提取的一组所述待筛选数据中所述第二冲突数据的条数,β2,j表示第j条所述第二冲突数据对应的预设数据源的置信度权重,D2,j表示第j条所述第二冲突数据对应的置信值;
计算所述第一冲突数据和所述第二冲突的置信比,计算公式如下:
Figure FDA0002567060030000043
当置信比大于预设比值时,保留所述第一冲突数据和所述第二冲突数据中总体置信度高的,删除总体置信度低的;当置信比小于等于预设比值时,重新从预设数据源获取所述第一冲突数据和所述第二冲突数据,和/或,输出所述第一冲突数据和所述第二冲突数据。
6.一种基于贷款多头数据的贷前审批预警系统,其特征在于,包括:
数据获取模块,用于通过预设数据源获取用户的贷款多头数据;
第一数据获取模块,用于基于预设规则对所述贷款多头数据进行预处理,获得第一数据;
第二数据获取模块,用于采用预设方法对所述第一数据进行筛选,获得第二数据;
预警模块,用于将所述第二数据输入预先训练好的模型中,所述模型输出用户的判别与评价、预警等级分数。
7.如权利要求1所述的基于贷款多头数据的贷前审批预警系统,其特征在于,
所述预设数据源包括:数据采集器、券商业务数据、合作方数据和第三方数据市场中一种或多种结合;
所述预设规则包括:数据清洗、数据集成、数据规约和数据变换;
所述数据清洗包括:去重、缺失值处理、异常值处理、特征编码和标准化处理中一种或多种;
所述预设方法包括:质量检查、变量衍生、击中率检查、匹配数据的质量检查、PSI检查、IV检查;
所述模型包括:逻辑回归模型。
8.如权利要求7所述的基于贷款多头数据的贷前审批预警系统,其特征在于,还包括:模型训练模块,用于采用历史数据对初始模型进行增强学习训练得到所述预先训练好的模型;
所述模型训练模块执行包括如下操作:
步骤S11:导入历史数据划分m个训练样本,并对参数ω,b进行初始化;
步骤S12:获取预测的输出结果y2;计算公式如下:
y2=log(ωTX+b);
其中,所述X表示m个所述训练样本组成的样本矩阵,所述ω表示回归分析矩阵,所述y2表示预测输出结果,所述b表示一个常数;
步骤S13:计算对应的损失函数,计算公式如下:
L(y1,y2)=-(y2 log(y1))+(1-y2)log(1-y1);
其中,所述L(y1,y2)表示损失函数,所述y1表示输出结果y2=1的概率;
步骤S14:定义代价函数j(ω,b)为m个训练样本的损失函数的平均值,计算公式为
Figure FDA0002567060030000051
其中,y2 i为第i个所述训练样本的输出结果,y1 i为第i个所述训练样本的输出结果为1的概率;
步骤S15:计算梯度,计算公式为:
Figure FDA0002567060030000061
其中,所述Z表示m个样本的数据信息下标其表示为维度,所述A表示预测结果,所述Y表示真实结果,所述ω表示回归分析矩阵,所述X表示样本矩阵,所述m表示样本维度,所述b表示常数;
步骤S16:更新参数ω,b,更新公式为:
Figure FDA0002567060030000062
其中,所述ω表示更新后的回归分析矩阵,所述b表示更新后的常数
在预设迭代次数内,重复执行步骤S11至步骤S16,得到导数最小的代价函数,将此时模型作为所述预先训练好的模型。
9.如权利要求6所述的基于贷款多头数据的贷前审批预警系统,其特征在于,所述第一数据获取模块执行包括如下操作:
获取b组每组M个所述贷款多头数据的评估数据;所述评估数据记为:Pf={(Of,p,μf,p),(F,αF),p=1,···,M};
获取识别框架K={O1,···,Oh}、对应所述识别框架中元素的效用函数μ(Oh)和评估值函数q(Oh);
确定每组所述评估数据的效用,计算公式如下:
Figure FDA0002567060030000063
其中,μf,p为第f组所述评估数据的效用,Of,p为第f组评估数据的第p个评估数据;μf,p为Of,p根据所述评估数据基于所述识别框架和所述效用函数获得的效用值,F为所述评估数据的初始效用值,αF所述评估数据的初始效用值的权重;
确定每组所述评估数据的评估值,计算公式如下:
Figure FDA0002567060030000071
其中,T(Pf)为第f组所述评估数据的评估值,μf,p为Of,p根据所述评估数据基于所述识别框架和所述评估值函数获得的评估值,d为初始效用值与所述初始评估值的关系系数;
基于b组所述评估数据的评估值,计算所述贷款多头数据的可信度T,计算公式为:
Figure FDA0002567060030000072
其中,E为所述评估数据的评估值的标准方差,λ为修正系数;
当所述贷款多头数据的可信度T大于预设阈值时,将所述贷款多头数据作为第一数据。
10.如权利要求6所述的基于贷款多头数据的贷前审批预警系统,其特征在于,所述第一数据还执行包括如下操作:
将所述贷款多头数据进行聚类分组,获得多组待筛选数据;
提取其中一组待筛选数据,
解析所述待筛选数据,确定提取的一组待筛选数据中相互冲突的第一冲突数据和第二冲突数据;
解析所述第一冲突数据和所述第二冲突数据,分别获取第一冲突数据和第二冲突数据的预设数据源的置信度权重和对应的置信值;
基于所述置信度权重和置信值,计算所述第一冲突数据和所述第二冲突数据的总体置信度,计算公式为:
Figure FDA0002567060030000073
其中,D表示所述第一冲突数据的总体置信度,m表示在提取的一组所述待筛选数据中所述第一冲突数据的条数,β1,i表示第i条所述第一冲突数据对应的预设数据源的置信度权重,D1,i表示第i条所述第一冲突数据对应的置信值,D′表示所述第二冲突数据的总体置信度,n表示在提取的一组所述待筛选数据中所述第二冲突数据的条数,β2,j表示第j条所述第二冲突数据对应的预设数据源的置信度权重,D2,j表示第j条所述第二冲突数据对应的置信值;
计算所述第一冲突数据和所述第二冲突的置信比,计算公式如下:
Figure FDA0002567060030000081
当置信比大于预设比值时,保留所述第一冲突数据和所述第二冲突数据中总体置信度高的,删除总体置信度低的;当置信比小于等于预设比值时,重新从预设数据源获取所述第一冲突数据和所述第二冲突数据,和/或,输出所述第一冲突数据和所述第二冲突数据。
CN202010633876.5A 2020-07-02 2020-07-02 一种基于贷款多头数据的贷前审批预警方法及系统 Active CN111861698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010633876.5A CN111861698B (zh) 2020-07-02 2020-07-02 一种基于贷款多头数据的贷前审批预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010633876.5A CN111861698B (zh) 2020-07-02 2020-07-02 一种基于贷款多头数据的贷前审批预警方法及系统

Publications (2)

Publication Number Publication Date
CN111861698A true CN111861698A (zh) 2020-10-30
CN111861698B CN111861698B (zh) 2021-07-16

Family

ID=73152845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010633876.5A Active CN111861698B (zh) 2020-07-02 2020-07-02 一种基于贷款多头数据的贷前审批预警方法及系统

Country Status (1)

Country Link
CN (1) CN111861698B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070604A (zh) * 2020-11-12 2020-12-11 四川享宇金信金融科技有限公司 异常行为关联预警方法、装置及设备
CN112232951A (zh) * 2020-12-17 2021-01-15 中证信用云科技(深圳)股份有限公司 基于多维度交叉特征的信用评价方法、装置、设备及介质
CN112508694A (zh) * 2021-02-05 2021-03-16 北京淇瑀信息科技有限公司 资源额度申请的处理方法、装置及电子设备
CN112785095A (zh) * 2021-03-12 2021-05-11 北京顶象技术有限公司 贷款预测方法、装置、电子设备和计算机可读存储介质
CN113438075A (zh) * 2021-06-25 2021-09-24 四川新网银行股份有限公司 一种基于秘密分享算法的多头时序图计算方法及存储介质
CN114936918A (zh) * 2022-05-20 2022-08-23 天道金科股份有限公司 基于区块链的风控数据跟踪方法、终端设备及存储介质
CN115393056A (zh) * 2022-08-31 2022-11-25 重庆大学 一种基于大数据的用户信息评估及风控方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165840A (zh) * 2018-08-20 2019-01-08 平安科技(深圳)有限公司 风险预测处理方法、装置、计算机设备和介质
CN109886699A (zh) * 2019-02-18 2019-06-14 北京三快在线科技有限公司 行为识别方法及装置、电子设备、存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165840A (zh) * 2018-08-20 2019-01-08 平安科技(深圳)有限公司 风险预测处理方法、装置、计算机设备和介质
CN109886699A (zh) * 2019-02-18 2019-06-14 北京三快在线科技有限公司 行为识别方法及装置、电子设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANNE-LAURE JOUSSELME,ETAL: "Distances in evidence thery:Comprehensive survey and generalizations", 《INTERNATIONAL JOURNAL OF APPROXIMATE REASONING》 *
YAGER RONALD R: "On the Dempster-Shafer framework and new combination rules", 《INFORMATION SCIENCES》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070604A (zh) * 2020-11-12 2020-12-11 四川享宇金信金融科技有限公司 异常行为关联预警方法、装置及设备
CN112232951A (zh) * 2020-12-17 2021-01-15 中证信用云科技(深圳)股份有限公司 基于多维度交叉特征的信用评价方法、装置、设备及介质
CN112508694A (zh) * 2021-02-05 2021-03-16 北京淇瑀信息科技有限公司 资源额度申请的处理方法、装置及电子设备
CN112508694B (zh) * 2021-02-05 2021-07-02 北京淇瑀信息科技有限公司 服务器处理资源额度申请的方法、装置及电子设备
CN112785095A (zh) * 2021-03-12 2021-05-11 北京顶象技术有限公司 贷款预测方法、装置、电子设备和计算机可读存储介质
CN113438075A (zh) * 2021-06-25 2021-09-24 四川新网银行股份有限公司 一种基于秘密分享算法的多头时序图计算方法及存储介质
CN114936918A (zh) * 2022-05-20 2022-08-23 天道金科股份有限公司 基于区块链的风控数据跟踪方法、终端设备及存储介质
CN114936918B (zh) * 2022-05-20 2024-03-29 天道金科股份有限公司 基于区块链的风控数据跟踪方法、终端设备及存储介质
CN115393056A (zh) * 2022-08-31 2022-11-25 重庆大学 一种基于大数据的用户信息评估及风控方法、装置及设备

Also Published As

Publication number Publication date
CN111861698B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN111861698B (zh) 一种基于贷款多头数据的贷前审批预警方法及系统
TW530234B (en) Methods and systems for efficiently sampling portfolios for optimal underwriting
CN111861174B (zh) 一种针对用户画像的信用评估方法
US7162445B2 (en) Methods and systems for quantifying cash flow recovery and risk
KR20010103784A (ko) 입력이 없는 상황에서의 가치 평가 예측 모델
JP2004500644A (ja) 評価システムの迅速な配置方法とシステム
JP2004500646A (ja) 競争入札の収益のシミュレーション方法とシステム
WO2001050310A9 (en) Methods and systems for automated inferred valuation of credit scoring
AU2444101A (en) Methods and systems for finding value and reducing risk
AU2585401A (en) Rapid valuation of portfolios of assets such as financial instruments
CN111861697B (zh) 一种基于贷款多头数据的用户画像生成方法及系统
KR20010108282A (ko) 입찰가 판정 방법, 시스템 및 컴퓨터
EP1264256A1 (en) Cross correlation tool for automated portfolio descriptive statistics
Chen et al. Forecasting PGR of the financial industry using a rough sets classifier based on attribute-granularity
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
Bakhshi et al. Developing a hybrid approach to credit priority based on accounting variables (using analytical network process (ANP) and multi-criteria decision-making)
Andersson et al. Bankruptcy determinants among Swedish SMEs:-The predictive power of financial measures
Pambudi How Far Has Our MSMEs Credit Underwriting Assessment in Indonesian Commercial Banks Progressed?
Tshauambea Improved Peer-to-Peer Lending Credit Scoring Mechanism using Machine Learning Techniques
Ertuğrul Customer Transaction Predictive Modeling via Machine Learning Algorithms
Tajik et al. Machine learning support to provide an intelligent credit risk model for banks' real customers
CN116523628A (zh) 一种基于公共信用大数据的信用模型定义方法
CN117764692A (zh) 一种用于预测信用风险违约概率的方法
CN118071482A (zh) 构建零售信用风险预测模型的方法和消费信贷业务Scorebetad模型
CN113989022A (zh) 基于svm模型的线上供应链信息处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant