CN110415111A - 基于用户数据与专家特征合并逻辑回归信贷审批的方法 - Google Patents

基于用户数据与专家特征合并逻辑回归信贷审批的方法 Download PDF

Info

Publication number
CN110415111A
CN110415111A CN201910707782.5A CN201910707782A CN110415111A CN 110415111 A CN110415111 A CN 110415111A CN 201910707782 A CN201910707782 A CN 201910707782A CN 110415111 A CN110415111 A CN 110415111A
Authority
CN
China
Prior art keywords
data
credit
approval
examination
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910707782.5A
Other languages
English (en)
Inventor
王晨曦
林路
王慜骊
郏维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUNYARD SYSTEM ENGINEERING Co Ltd
Original Assignee
SUNYARD SYSTEM ENGINEERING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUNYARD SYSTEM ENGINEERING Co Ltd filed Critical SUNYARD SYSTEM ENGINEERING Co Ltd
Priority to CN201910707782.5A priority Critical patent/CN110415111A/zh
Publication of CN110415111A publication Critical patent/CN110415111A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Analysis (AREA)
  • Finance (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于用户数据与专家特征合并逻辑回归信贷审批的方法,包括输入数据进行清洗、数据降维和预处理、对数据进行分类、对数据进行特征工程并提取特征、引入专家特征、对特征进行预测和输出审批名单。本发明中,该信贷审批的方法将传统金融模型中的专家特征和经典机器学习方法结合起来,并结合市场实时更新数据和特征工程来对可能的动态变化的未来违约可能性进行预测,采用了预测模型和优化的逻辑回归算法,满足复杂的信贷约束,获得的违约概率预测和风险溢价的结果更加准确,并且使得审核人员可以从繁重的信用风险评估审核和定价中解放出来,使得大规模的小微企业信贷审批得以快速实现,确保智能评级和规避风险成为可能。

Description

基于用户数据与专家特征合并逻辑回归信贷审批的方法
技术领域
本发明涉及信贷人工智能技术领域,尤其涉及基于用户数据与专家特征合并逻辑回归信贷审批的方法。
背景技术
随着普惠金融的更加深入,金融借贷市场日趋成熟,小微企业对贷款的需求量越来越大,同时对贷款审批效率、贷款发放时间和贷款发放管理等方面的要求不断提高,在现有条件下,如何节约审核时间、提高审核准确率、贷款池优化管理成为目前面临的巨大挑战,如何科学合理的对各类风险进行定价,是银行信贷部门实现高效率运营管理、降低运营成本、保证客户服务质量和水平的重要环节。
风险溢价主要是根据公司实际资金成本,客户的违约概率来确定,审核过程中的主要问题是如何保证发放的贷款利息及本金能按时足额到账,审批流程又足够短,且又不引起人力资源的浪费。一般企业中大都由管理人员或者专门的人员进行详细的审核,该工作方式存在天然缺陷:审核效率低、耗时长,对审计人员的工作能力及体力提出较高要求;一方面,每个审核人员有自己的关注点和偏好,会引起审核结果的差异,对上班员工的自我调节能力存在一定的考验;(客户信贷呈需求量极大,人数众多,而单笔金额较小特点,致使人工审核完成该工作难度及工作量均较大,则人工审核很难完成;另一方面,对于市场上实时发生的风险类数据,尤其是大量文本类的数据,人工审核没有起到良好的关注和结合,往往仅凭自己经验主义的判断和模式化的处理,容易发生误判的情况。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的基于用户数据与专家特征合并逻辑回归信贷审批的方法。
为了实现上述目的,本发明采用了如下技术方案:基于用户数据与专家特征合并逻辑回归信贷审批的方法,包括以下步骤:
S01:输入数据进行清洗,输入需要处理的数据,如数据某一变量有缺失,则对于少数非核心数据的予以删去,如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据;
S02:数据降维和预处理,可采用分箱处理的方式,其中,对于数据的样本不均衡性,由于信贷客户数据的类型很明显,可采用聚类过采样方式件处理;
S03:对数据进行分类,主要分为三部分,一部分为专家特征数据,一部分为实时特征数据,另外一部分为外部数据,这三部分在应用的时候又需要划分为训练集和验证集,前述三部分数据在应用时根据需要划分为训练集和验证集;
S04:对数据进行特征工程并提取特征,对于长段文本类的数据采用深度学习的办法对其内部包含的实体进行抽取,找出其中包含的风险信息,并在舆情系统中予以展现;
S05:引入专家特征,引入所需的专家特征,并划定专家特征所需数据的范围与前述特征工程中划定的数据范围交集最小;
S06:对特征进行预测,将专家特征和特征工程选取的特征分别标注,对这些特征分别做逻辑回归并做出预测;
S07:输出审批名单,将最终的审批名单输出,并随机按比例加入训练集和验证集,在新的数据导入之后,可以重新重复S02-S06的步骤。
作为上述技术方案的进一步描述:
所述步骤S03中,数据在划分的过程当中,由下述的三个模型来确定专家特征的范围:1、Z分数专家特征;2、实时特征数据;3、与市场高度相关的期货,期权相关数据;对于其他特征类数据和专家类数据重合的,可以尽量将其归类如专家数据中,确保专家特征的范围的准确性。
作为上述技术方案的进一步描述:
所述步骤S04中,可采用哑变量的方法进行训练找出相应的结果,其中,哑变量为虚拟变量,又称虚设变量或名义变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1,引入哑变量虽可能使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实情况,提高了风险信息的寻找快捷准确性。
作为上述技术方案的进一步描述:
所述S03步骤还包括以下子步骤:
S03.1:数据划分中第一步先划分出训练集和验证集,此步骤中应首先将连续数据和离散数据分为两类进行区分;
S03.2:将连续数据中的与连续变化响应不敏感的数据做离散化或分箱处理;
S03.3:离散数据根据数据的类型,做哑变量的处理;
S03.4:将处理好的连续数据画出直方图,测算其分布;
S03.5:将离散型变量和哑变量做用样的的处理,画出频率图;
S03.6:采用连续多次抽样的方式对每一字段的信息进行按预设比例抽样,抽出的样本中最接近于所有总数据的作为测试集,剩下的作为训练集;
S03.7:对于少数几乎不能作为划分依据的数据变量,做单独标记,单独处理和测试,或做删去处理。
作为上述技术方案的进一步描述:
所述S04步骤还包括以下子步骤;
S04.1:特征选择,除取值变化量小的特征:变化量小是基于其于其方差或标准差是否小于预定值;
S04.2:特征相关性检验,比较相关系数之后,基于学习模型的相关性排序,如果之间有相互矛盾的地方,则以互信息以及相关的方差分析为准;
S04.3:线性模型和正则化或随机森林选择特征。
作为上述技术方案的进一步描述:
所述步骤S04.2中,可以比较三种相关系数,分别为皮尔逊相关系数、互信息和最大信息系数以及距离相关系数。
作为上述技术方案的进一步描述:
所述步骤S05中,包含以专家特征为基础三种提取的方法,分别为对于全中国的数据总体,或客户所在地特殊数据基于Z-score方法得到的特殊Z-score值、结构化债权模型的风险调整值和精简模型的风险调整值。
作为上述技术方案的进一步描述:
所述步骤S06中,采用最后的逻辑回归方法对以上所有参数做训练,得出分类预测模型,最终给出结果,对于结果的判别采用个性化或风险预设值的方法做出决策,并且对于文本中提取出的风险特征,采用规则模型对用户推送提示。
作为上述技术方案的进一步描述:
所述步骤S05中,专家特征分为两个模型,分别为Z得分模型和结构模型,均可以通过带入参数计算出违约概率的具体数值。
作为上述技术方案的进一步描述:
所述步骤S02中,数据降维主要采用主成因分析法,将已标记的信用分作为标签,通过传统主成因找到最简化的相关性矩阵,对于相互之间具有相关性的主元,将其用多因素方差分析的方法将他们之间自变量和因变量的关系区分出来,作为未来用作复合特征的依据。
有益效果
本发明提供了基于用户数据与专家特征合并逻辑回归信贷审批的方法。具备以下有益效果:
(1):该信贷审批的方法能够快速、有效进行自动化对信贷模型的信贷生命周期内是否违约进行预测,并利用专家特征和截面市场数据特征,实现两者相结合做出风险评估的预测,从而计算信贷审批额度,进而进行快速审批处理。
(2):该信贷审批的方法将传统金融模型中的专家特征和经典机器学习方法结合起来,并结合市场实时更新数据和特征工程来对可能的动态变化的未来违约可能性进行预测,提高了模型精度,采用了预测模型采用了优化的逻辑回归算法,满足复杂的信贷约束,获得的违约概率预测和风险溢价的结果更加准确。
(3):该信贷审批的方法基于违约概率和风险溢价结果的转变,使得审核人员可以从繁重的信用风险评估审核和定价中解放出来,使得大规模的小微企业信贷审批得以快速实现,确保智能评级和规避风险成为可能,提高了信贷审批的高效性。
附图说明
图1为本发明提出的基于用户数据与专家特征合并逻辑回归信贷审批的方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
如图1所示,基于用户数据与专家特征合并逻辑回归信贷审批的方法,包括以下步骤:
S01:输入数据进行清洗,输入需要处理的数据,如数据某一变量有缺失,则对于少数非核心数据的予以删去,如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据,数据在未处理前可分为三类数据,一是银行内部的客户数据,二是自有公开历史信息数据,三是市场公开实时数据;
S02:数据降维和预处理,可采用分箱处理的方式,其中,对于数据的样本不均衡性,由于信贷客户数据的类型很明显,可采用聚类过采样方式件处理;
S03:对数据进行分类,主要分为三部分,一部分为专家特征数据,一部分为实时特征数据,另外一部分为外部数据,这三部分在应用的时候又需要划分为训练集和验证集,前述三部分数据在应用时根据需要划分为训练集和验证集);
S04:对数据进行特征工程并提取特征,对于长段文本类的数据采用深度学习的办法对其内部包含的实体进行抽取,找出其中包含的风险信息,并在舆情系统中予以展现;
S05:引入专家特征,引入所需的专家特征,并划定专家特征所需数据的范围与前述特征工程中划定的数据范围交集最小;
S06:对特征进行预测,将专家特征和特征工程选取的特征分别标注,对这些特征分别做逻辑回归并做出预测;
S07:输出审批名单,将最终的审批名单输出,并随机按比例加入训练集和验证集,在新的数据导入之后,可以重新重复S02-S06的步骤。
步骤S03中,数据在划分的过程当中,由下述的三个模型来确定专家特征的范围:1、Z分数专家特征,主要包括银行内对任意一个客户,或数据输入中包含的财务类数据;2、实时特征数据,主要包括市场的金融类数据,与违约概率高度相关的数据包括但不限于市场同类型公司贝塔值,通货膨胀率,市场无风险利率,银行间同业拆借利率等;3、与市场高度相关的期货,期权相关数据;对于其他特征类数据和专家类数据重合的,可以尽量将其归类如专家数据中,确保专家特征的范围的准确性。
步骤S04中,可采用哑变量的方法进行训练找出相应的结果,其中,哑变量为虚拟变量,又称虚设变量或名义变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1,引入哑变量虽可能使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实,提高了风险信息的寻找快捷准确性。
S03步骤还包括以下子步骤:
S03.1:数据划分中第一步先划分出训练集和验证集,此步骤中应首先将连续数据和离散数据分为两类进行区分;
S03.2:将连续数据中的对连续变化响应不敏感的数据做离散化或分箱处理;
S03.3:离散数据根据数据的类型,做哑变量的处理;
S03.4:将处理好的连续数据画出直方图,测算其分布;
S03.5:将离散型变量和哑变量做用样的的处理,画出频率图;
S03.6:采用连续多次抽样的方式对每一字段的信息进行按预设比例抽样,抽出的样本中最接近于所有总数据的作为测试集,剩下的作为训练集;
S03.7:对于少数几乎不能作为划分依据的数据变量,做单独标记,单独处理和测试,或做删去处理。
S04步骤还包括以下子步骤;
S04.1:特征选择,除取值变化量小的特征:变化量小是基于其于其方差或标准差是否小于预定值;
S04.2:特征相关性检验,比较相关系数之后,基于学习模型的相关性排序,如果之间有相互矛盾的地方,则以互信息以及相关的方差分析为准,根据预估得分删去低于设定阈值的特征,之后采用卡方检验方式对特征进行测试,如果数据量过于庞大繁杂,或者为了检验其非线性的性质,则用决策树和随机森林的办法计算;
如果在数据中,尤其是外部数据和网络舆情类数据发现符合判定为长文本类型的数据时,其长度标准由用户自行设定,则使用预先训练好的深度学习模型对实体进行识别,然后做以下步骤:
S04.2.1:用舆情分类法对该信息进行正负舆情判断,并统计正负舆情信息的数量或比值;
S04.2.2:对信息进行深度分类,如满足部分重大风险信息分类,则采用规则模型直接予以剔除;
S04.2.3:对于规则模型予以剔除的数据信息、负面舆情数量和正负舆情比满足设定条件的数据,向客户推送提示。
S04.3:线性模型和正则化或随机森林选择特征。
步骤S04.2中,可以比较三种相关系数,分别为皮尔逊相关系数、互信息和最大信息系数以及距离相关系数。
步骤S05中,包含以专家特征为基础三种提取的方法,分别为对于全中国的数据总体,或客户所在地特殊数据基于Z-score方法得到的特殊Z-score值、结构化债权模型的风险调整值和精简模型的风险调整值。
步骤S06中,采用最后的逻辑回归方法对以上所有参数做训练,得出分类预测模型,最终给出结果,对于结果的判别采用个性化或风险预设值的方法做出决策,并且对于文本中提取出的风险特征,采用规则模型对用户推送提示,其中,倾向性选择、预设值和输出结果的关系如下如下:如倾向于专家特征的则以专家特征为准,如果倾向于特征工程作出的特征,则按特征工程的结果,严把关则将矛盾结果判定为可能违约,松把关则判定为通过发放贷款。
步骤S05中,专家特征分为两个模型,分别时Z得分模型和结构模型,可以计算出违约概率的具体数值参数;
Z得分模型中,如果采用默认设置,则直接将名词解释中的模型参数应用,带入客户数据中的相应值计算出Z得分,如果预设认为样本很偏,则可录入一组训练数据,并设定一组评判阈值来对Z模型的参数变化进行判断,如用逻辑回归模型训练出的结果最终超过阈值,则对用户进行警告,如结果在阈值范围之内,则接受新的参数并计算Z得分;
结构模型的具体步骤是将名词解释中的结构模型公式中的参数,按照下列方法计算出来:
At:剩余收入估计法、未来自由现金流折现估计法,计算历史和现在企业价值数据;
r:连续无风险收益率设定为t时刻十年期国债收益率;
σ:设定为历史At增长率的标准差;
K:为上证50期权行权价格按A0时刻为基准归一化以后的值;
于是公式中的ln(At/K)可以由按A0时刻归一化的At值除以K得到;
当第二个模型可作为简约模型,其中K值设定为贷款总金额,具体的风险调整的步骤如下:
应用说明中的公式之后简约模型的输出为违约概率:
假定违约的概率发生服从泊松分布,则在t时间内不发生违约的概率为exp(-λt),则发生违约的概率是1-exp(-λt),则期望无风险时间则为E(td)=1/λ,而将此时间作为风险调整的概率分布对说明的式(3)做积分则可以得到风险调整后的t时刻的违约概率,此违约概率即可作为相应的简约模型给出的参数;
如果采用评分形式输出将三个模型做出的风险预测结果汇总加和,如果0表示不违约,1表示违约,则0表示低风险,1表示需关注,2表示高风险,3表示不可贷款;
如有训练数据,可将训练数据计算出的三个模型的结果归一化以后进行逻辑回归预测,得出的结果用1或0表示是否违约。
步骤S02中,数据降维主要采用主成因分析法,将已标记的信用分作为相应,通过传统主成因找到最简化的相关性矩阵,对于相互之间具有相关性的主元,将其用多因素方差分析的方法将他们之间自变量和因变量的关系区分出来,作为未来用作复合特征的依据,如发现数据中存在样本不均衡的问题的时候,聚类算法对少数类进行聚类,将少数类样本划分为多个类簇,然后计算出类簇的密度因子来确定各类簇的采样倍率,最后根据每个类簇中样本与多数类边界的距离确定采样权重。
结构模型解释:模型根据假设某一家公司的资产负债表构建,利用期权定价的思想,从期权的视角来审视公司债务的经济含义。
结构模型的假设条件如下:
公司的资产A可在一个无摩擦且不存在套利的市场中交易;
公司资产的价值服从对数正态分布;
无风险利率不随时间改变;
公司的资产负债表结构较为简单,负债端只有一种零息债券;
满足以上四个假设条件的情况下,我们可以利用期权定价的BSM模型对信贷进行估值,信贷在Dt时刻的价值为:
Dt=AtN(-d1)+Kexp(-r(T-t))N(d2)
其中:
At:在t时刻客户或贷款企业的资产价值;
r:表示连续无风险利率;
σ:表示收益率的标准差;
K:为假设的行权价格;
T:为全贷款周期;
N:为正态分布函数。
简约式模型解释:信贷假设信贷等效的零息债可在无摩擦且无套利机会的市场上进行交易;
无风险利率是随机的;
经济状态可以由一组宏观因子构成的随机向量表示;
经济与回收率是随机的,信贷的违约概率不是常数并会随着经济状态的变化而变化;
单个信贷违约概率还取决于某公司自身相关的情况;
由此给出模型公式:
其中,K表示信贷还款的面值;
E:利用风险中性概率,对K进行调整后的期望值;
ri表示第i年的无风险利率。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,包括以下步骤:
S01:输入数据进行清洗,输入需要处理的数据,如数据某一变量有缺失,则对于少数非核心数据的予以删去,如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据;
S02:数据降维和预处理,可采用分箱处理的方式,其中,对于数据的样本不均衡性,由于信贷客户数据的类型很明显,可采用聚类过采样方式件处理;
S03:对数据进行分类,主要分为三部分,一部分为专家特征数据,一部分为实时特征数据,另外一部分为外部数据,前述三部分数据在应用时根据需要划分为训练集和验证集;
S04:对数据进行特征工程并提取特征,对于长段文本类的数据采用深度学习的办法对其内部包含的实体进行抽取提取,找出其中包含的风险信息,并在舆情系统中予以展现;
S05:引入专家特征,引入所需的专家特征,并划定专家特征所需数据的范围与前述特征工程中划定的数据范围交集最小;
S06:对特征进行预测,将专家特征和特征工程选取的特征分别标注,对这些特征分别做逻辑回归并做出预测;
S07:输出审批名单,将最终的审批名单输出,并随机按比例加入训练集和验证集,在新的数据导入之后,可以重新重复S02-S06的步骤。
2.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,所述步骤S03中,数据在划分的过程当中,由下述的三个模型来确定专家特征的范围:1、Z分数专家特征;2、实时特征数据;3、与市场高度相关的期货,期权相关数据;对于其他特征类数据和专家类数据重合的,可以尽量将其归类入专家数据中,确保专家特征的范围的准确性。
3.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,所述步骤S04中,可采用哑变量的方法进行训练找出相应的结果,其中,哑变量为虚拟变量,又称虚设变量或名义变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1,引入哑变量虽可能使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实情况,提高了风险信息的寻找快捷准确性。
4.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,所述S03步骤还包括以下子步骤:
S03.1:数据划分中第一步先划分出训练集和验证集,此步骤中应首先将连续数据和离散数据分为两类进行区分;
S03.2:将连续数据中的对连续变化响应不敏感的数据做离散化或分箱处理;
S03.3:离散数据根据数据的类型,做哑变量的处理;
S03.4:将处理好的连续数据画出直方图,测算其分布;
S03.5:将离散型变量和哑变量做用样的的处理,画出频率图;
S03.6:采用连续多次抽样的方式对每一字段的信息进行按预设比例抽样,抽出的样本中最接近于所有总数据的作为测试集,剩下的作为训练集;
S03.7:对于少数几乎不能作为划分依据的数据变量,做单独标记,单独处理和测试,或做删去处理。
5.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,所述S04步骤还包括以下子步骤;
S04.1:特征选择,除取值变化量小的特征:变化量小是基于其于其方差或标准差是否小于预定值;
S04.2:特征相关性检验,比较相关系数之后,基于学习模型的相关性排序,如果之间有相互矛盾的地方,则以互信息以及相关的方差分析为准;
S04.3:线性模型和正则化或随机森林选择特征。
6.根据权利要求5所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,所述步骤S04.2中,可以比较三种相关系数,分别为皮尔逊相关系数、互信息和最大信息系数以及距离相关系数。
7.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,所述步骤S05中,包含以专家特征为基础三种提取的方法,分别为对于全中国的数据总体,或客户所在地特殊数据基于Z-score方法得到的特殊Z-score值、结构化债权模型的风险调整值和精简模型的风险调整值。
8.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,所述步骤S06中,采用最后的逻辑回归方法对以上所有参数做训练,得出分类预测模型,最终给出结果,对于结果的判别采用个性化或风险预设值的方法做出决策,并且对于文本中提取出的风险特征,采用规则模型对用户推送提示。
9.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,所述步骤S05中,专家特征分为两个模型,分别时Z得分模型和结构模型,可以计算出违约概率的具体数值参数。
10.根据权利要求1所述的基于用户数据与专家特征合并逻辑回归信贷审批的方法,其特征在于,所述步骤S02中,数据降维主要采用主成因分析法,将已标记的信用分作为标签,通过传统主成因找到最简化的相关性矩阵,对于相互之间具有相关性的主元,将其用多因素方差分析的方法将他们之间自变量和因变量的关系区分出来,作为未来用作复合特征的依据。
CN201910707782.5A 2019-08-01 2019-08-01 基于用户数据与专家特征合并逻辑回归信贷审批的方法 Pending CN110415111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910707782.5A CN110415111A (zh) 2019-08-01 2019-08-01 基于用户数据与专家特征合并逻辑回归信贷审批的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910707782.5A CN110415111A (zh) 2019-08-01 2019-08-01 基于用户数据与专家特征合并逻辑回归信贷审批的方法

Publications (1)

Publication Number Publication Date
CN110415111A true CN110415111A (zh) 2019-11-05

Family

ID=68365185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910707782.5A Pending CN110415111A (zh) 2019-08-01 2019-08-01 基于用户数据与专家特征合并逻辑回归信贷审批的方法

Country Status (1)

Country Link
CN (1) CN110415111A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292182A (zh) * 2020-03-27 2020-06-16 北京信息科技大学 一种信贷欺诈检测方法及系统
CN111654853A (zh) * 2020-08-04 2020-09-11 索信达(北京)数据技术有限公司 一种基于用户信息的数据分析方法
CN111951105A (zh) * 2020-08-24 2020-11-17 上海银行股份有限公司 基于多维大数据分析的智能信贷风控系统
CN112016905A (zh) * 2020-09-11 2020-12-01 平安国际智慧城市科技股份有限公司 基于审批流程的信息展示方法、装置、电子设备及介质
CN112634023A (zh) * 2020-12-28 2021-04-09 四川新网银行股份有限公司 一种用于群体性风险监测的早期预警系统及方法
CN113379211A (zh) * 2021-05-31 2021-09-10 交通运输信息安全中心有限公司 基于区块链的物流信息平台违约风险管控系统及方法
CN115797044A (zh) * 2022-11-15 2023-03-14 东方微银科技股份有限公司 基于聚类分析的信贷风控预警方法及系统
TWI805880B (zh) * 2019-12-17 2023-06-21 臺灣銀行股份有限公司 銀行內部之信用風險評估系統及其方法
CN116434880A (zh) * 2023-03-06 2023-07-14 哈尔滨理工大学 一种基于模糊自洽式聚类集成的高熵合金硬度预测方法
CN117435904A (zh) * 2023-12-20 2024-01-23 电子科技大学 一种单一特征排序及复合特征提取方法
CN117455417A (zh) * 2023-12-22 2024-01-26 深圳刷宝科技有限公司 一种智能风控审批策略自动迭代优化方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012018968A1 (en) * 2010-08-06 2012-02-09 The Dun And Bradstreet Corporation Method and system for quantifying and rating default risk of business enterprises
CN107644375A (zh) * 2016-07-22 2018-01-30 花生米浙江数据信息服务股份有限公司 一种专家模型与机器学习模型融合的小商户信用评估方法
CN108009911A (zh) * 2017-11-29 2018-05-08 上海出版印刷高等专科学校 一种识别p2p网络借贷借款人违约风险的方法
CN108154430A (zh) * 2017-12-28 2018-06-12 上海氪信信息技术有限公司 一种基于机器学习和大数据技术的信用评分构建方法
CN109191282A (zh) * 2018-08-23 2019-01-11 北京玖富普惠信息技术有限公司 一种基于行为模型的贷中监测评分方法以及系统
CN109360084A (zh) * 2018-09-27 2019-02-19 平安科技(深圳)有限公司 征信违约风险的评估方法及装置、存储介质、计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012018968A1 (en) * 2010-08-06 2012-02-09 The Dun And Bradstreet Corporation Method and system for quantifying and rating default risk of business enterprises
CN107644375A (zh) * 2016-07-22 2018-01-30 花生米浙江数据信息服务股份有限公司 一种专家模型与机器学习模型融合的小商户信用评估方法
CN108009911A (zh) * 2017-11-29 2018-05-08 上海出版印刷高等专科学校 一种识别p2p网络借贷借款人违约风险的方法
CN108154430A (zh) * 2017-12-28 2018-06-12 上海氪信信息技术有限公司 一种基于机器学习和大数据技术的信用评分构建方法
CN109191282A (zh) * 2018-08-23 2019-01-11 北京玖富普惠信息技术有限公司 一种基于行为模型的贷中监测评分方法以及系统
CN109360084A (zh) * 2018-09-27 2019-02-19 平安科技(深圳)有限公司 征信违约风险的评估方法及装置、存储介质、计算机设备

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI805880B (zh) * 2019-12-17 2023-06-21 臺灣銀行股份有限公司 銀行內部之信用風險評估系統及其方法
CN111292182A (zh) * 2020-03-27 2020-06-16 北京信息科技大学 一种信贷欺诈检测方法及系统
CN111654853A (zh) * 2020-08-04 2020-09-11 索信达(北京)数据技术有限公司 一种基于用户信息的数据分析方法
CN111654853B (zh) * 2020-08-04 2020-11-10 索信达(北京)数据技术有限公司 一种基于用户信息的数据分析方法
CN111951105A (zh) * 2020-08-24 2020-11-17 上海银行股份有限公司 基于多维大数据分析的智能信贷风控系统
CN112016905A (zh) * 2020-09-11 2020-12-01 平安国际智慧城市科技股份有限公司 基于审批流程的信息展示方法、装置、电子设备及介质
CN112016905B (zh) * 2020-09-11 2022-08-26 平安国际智慧城市科技股份有限公司 基于审批流程的信息展示方法、装置、电子设备及介质
CN112634023A (zh) * 2020-12-28 2021-04-09 四川新网银行股份有限公司 一种用于群体性风险监测的早期预警系统及方法
CN113379211A (zh) * 2021-05-31 2021-09-10 交通运输信息安全中心有限公司 基于区块链的物流信息平台违约风险管控系统及方法
CN115797044A (zh) * 2022-11-15 2023-03-14 东方微银科技股份有限公司 基于聚类分析的信贷风控预警方法及系统
CN115797044B (zh) * 2022-11-15 2024-03-29 东方微银科技股份有限公司 基于聚类分析的信贷风控预警方法及系统
CN116434880A (zh) * 2023-03-06 2023-07-14 哈尔滨理工大学 一种基于模糊自洽式聚类集成的高熵合金硬度预测方法
CN116434880B (zh) * 2023-03-06 2023-09-08 哈尔滨理工大学 一种基于模糊自洽式聚类集成的高熵合金硬度预测方法
CN117435904A (zh) * 2023-12-20 2024-01-23 电子科技大学 一种单一特征排序及复合特征提取方法
CN117435904B (zh) * 2023-12-20 2024-03-15 电子科技大学 一种单一特征排序及复合特征提取方法
CN117455417A (zh) * 2023-12-22 2024-01-26 深圳刷宝科技有限公司 一种智能风控审批策略自动迭代优化方法及系统
CN117455417B (zh) * 2023-12-22 2024-04-09 深圳刷宝科技有限公司 一种智能风控审批策略自动迭代优化方法及系统

Similar Documents

Publication Publication Date Title
CN110415111A (zh) 基于用户数据与专家特征合并逻辑回归信贷审批的方法
Huang et al. Enterprise credit risk evaluation based on neural network algorithm
Ma et al. Financial credit risk prediction in internet finance driven by machine learning
Shi et al. Data mining via multiple criteria linear programming: applications in credit card portfolio management
CN109657894A (zh) 企业信用风险预警方法、装置、设备及存储介质
CN107633265A (zh) 用于优化信用评估模型的数据处理方法及装置
CN109409677A (zh) 企业信用风险评估方法、装置、设备及存储介质
CN109829631A (zh) 一种基于记忆网络的企业风险预警分析方法及系统
CN107464037A (zh) 基于多指标维度模型的企业画像方法及系统
Alden et al. Detection of financial statement fraud using evolutionary algorithms
CN109961368A (zh) 基于机器学习的数据处理方法及装置
CN112926651A (zh) 企业信贷评估方法及系统
CN107633455A (zh) 基于数据模型的信用评估方法及装置
CN110163467A (zh) 一种基于纺织行业中小型企业信用的风险量化建模方法
Nyitrai Dynamization of bankruptcy models via indicator variables
CN107808246A (zh) 征信数据的智能评估方法及系统
CN107609771A (zh) 一种供应商价值评价方法
CN108734567A (zh) 一种基于大数据人工智能风控的资产管理系统及其评估方法
Tong et al. The research of agricultural SMEs credit risk assessment based on the supply chain finance
Hui et al. The model and empirical research of application scoring based on data mining methods
Jiang et al. On the build and application of bank customer churn warning model
Mao et al. Information system construction and research on preference of model by multi-class decision tree regression
Yi Penga et al. Classification for three-group of credit cardholders’ behavior via a multiple criteria approach
Lee et al. Application of machine learning in credit risk scorecard
Febriminanto et al. Machine Learning Analytics For Predicting Tax Revenue Potential

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310000

Applicant after: Sinyada Technology Co.,Ltd.

Address before: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310000

Applicant before: SUNYARD SYSTEM ENGINEERING Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105

RJ01 Rejection of invention patent application after publication