CN116611911A - 基于支持向量机的信用风险预测方法及装置 - Google Patents

基于支持向量机的信用风险预测方法及装置 Download PDF

Info

Publication number
CN116611911A
CN116611911A CN202310409793.1A CN202310409793A CN116611911A CN 116611911 A CN116611911 A CN 116611911A CN 202310409793 A CN202310409793 A CN 202310409793A CN 116611911 A CN116611911 A CN 116611911A
Authority
CN
China
Prior art keywords
data
credit
risk prediction
support vector
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310409793.1A
Other languages
English (en)
Inventor
李明骏
郑凡奇
周洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310409793.1A priority Critical patent/CN116611911A/zh
Publication of CN116611911A publication Critical patent/CN116611911A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Genetics & Genomics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Physiology (AREA)
  • Technology Law (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于支持向量机的信用风险预测方法及装置,涉及信用风险预测领域和金融领域。该方法包括:获取待评估客户的多个信用指标数据;根据所述信用指标数据以及预先创建的信用风险预测模型进行信用评估,得到所述待评估客户对应的信用风险预测结果;其中,所述信用风险预测模型是基于多个客户的历史信用数据训练以及基于改进遗传算法优化得到的。本申请的通过改进遗传算法优化信用风险预测模型的参数组合,克服了群体智能算法在接近最优解时种群多样性减少,易陷入局部最优,搜索精度降低等不足,提高了信用风险预测模型的预测准确率。

Description

基于支持向量机的信用风险预测方法及装置
技术领域
本申请涉及信用风险预测领域和金融领域,具体涉及一种基于支持向量机的信用风险预测方法及装置。
背景技术
随着互联网、大数据和人工智能等技术的发展,金融行业数据量日益增大,数据类型越来越多,数据更新速度日益加快,这为金融机构的信用风险评估工作带来了挑战,传统的信用风险评估方式已经无法适应环境的不断变化,无法满足金融行业的发展需要。
目前,神经网络、专家系统等方法已被应用于信用风险评估中。然而,进行神经网络学习时需要提供许多高质量的训练样本,利用神经网络进行训练的过程收敛速率慢,所得到的结果往往是局部最好;专家系统也有知识难以获取、知识库维护不方便等问题。
利用支持向量机(SVM)的方法进行数据训练能够很好的解决人工神经网络方法所存在的不足,在历史数据量少、非线性、高维度的情况下具有较强的处理能力和泛化能力,也能求解出全局最优解。但是支持向量机的分类性能在相当程度上是依赖于惩罚系数和核函数参数。
一些学者利用网格搜索等传统算法和群智能算法对SVM进行参数优化,如通过遗传算法和蚁群算法等对支持向量机进行参数优化,取得了比较好的诊断效果,但是这些算法比较容易陷入局部最优,搜索到局部极小值,而非全局最优值。因此,如何优化支持向量机模型,找到寻找出最佳惩罚系数和核函数参数,提高信用风险预测准确率,是亟待解决的问题。
发明内容
为了解决现有技术中存在的上述问题的至少之一,本申请实施例提供一种基于支持向量机的信用风险预测方法及装置。
根据本申请实施例的第一方面,本申请提供一种基于支持向量机的信用风险预测方法,包括:
获取待评估客户的多个信用指标数据;
根据所述信用指标数据以及预先创建的信用风险预测模型进行信用评估,得到所述待评估客户对应的信用风险预测结果;
其中,所述信用风险预测模型是基于多个客户的历史信用数据训练以及基于改进遗传算法优化得到的。
在一实施例中,所述信用指标数据包括盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据。
在一实施例中,创建所述信用风险预测模型的步骤包括:
根据多个历史客户的盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据确定样本数据集;
基于改进遗传算法以及所述样本数据集对支持向量机模型的待优化参数进行优化,得到支持向量机模型的最优结构参数以及最优支持向量机模型;
基于所述样本数据集对最优支持向量机模型进行训练和验证,得到所述信用风险预测模型。
在一实施例中,所述根据多个历史客户的盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据确定样本数据集,包括:
获取多个客户的历史信用数据,所述历史信用数据包括盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据;
基于主成分分析法对各客户的历史信用数据进行降维分析,得到用于信用风险预测的多个信用指标;
基于所述信用指标获取各客户的历史信用指标数据,并对各历史信用指标数据进行标准化处理;
根据各客户标准化处理后的历史信用指标数据以及各客户对应的样本标签,生成样本数据集。
在一实施例中,所述基于改进遗传算法以及所述样本数据集对支持向量机模型的待优化参数进行优化,得到支持向量机模型的最优结构参数,包括:
根据待优化参数随机生成初始代种群;
根据改进后的交叉概率函数和变异概率函数生成多代种群;
根据改进后的适应度函数以及所述样本数据集分别计算所述初始代种群和各代种群各个体的适应度,并根据所述适应度确定所有种群中的最优个体;所述最优个体为所述最优结构参数。
在一实施例中,改进后的交叉概率函数为:
改进后的变异概率函数为:
其中,pc为交叉概率,pm为变异概率,fmax为当代种群中个体的最大适应度值,f1为当代种群中两个交叉个体中的最大适应度值,f2为当代种群中突变个体的适应度值,favg为当代种群中个体的平均适应度值,pcmax为最大的交叉概率,pcmin为最小的交叉概率,pmmax为最大的变异概率,pmmin为最小的变异概率,λ为预设参数。
在一实施例中,根据改进后的适应度函数以及样本数据集计算个体的适应度,包括:
将所述样本数据集划分为N组样本数据;
利用基于所述个体的支撑向量机分类器分别对N组样本数据进行分类,得到N组样本数据对应的分类结果;
根据各组样本数据对应的分类结果以及各组样本数据的样本标签确定与N组样本数据对应的N个分类准确率;
根据改进后的适应度函数以及所述N个分类准确率,确定所述个体的适应度。
根据本申请实施例的第二方面,本申请提供一种基于支持向量机的信用风险预测装置,包括:
数据获取模块,用于获取待评估客户的多个信用指标数据;
信用风险预测模块,用于根据所述信用指标数据以及预先创建的信用风险预测模型进行信用评估,得到所述待评估客户对应的信用风险预测结果;
其中,所述信用风险预测模型是基于多个客户的历史信用数据训练以及基于改进遗传算法优化得到的。
在一实施例中,所述基于支持向量机的信用风险预测装置还包括:
样本数据集确定模块,用于根据多个历史客户的盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据确定样本数据集;
模型优化模块,用于基于改进遗传算法以及所述样本数据集对支持向量机模型的待优化参数进行优化,得到支持向量机模型的最优结构参数以及最优支持向量机模型;
模型训练模块,用于基于所述样本数据集对最优支持向量机模型进行训练和验证,得到所述信用风险预测模型。
在一实施例中,所述样本数据集确定模块包括:
数据采集单元,用于获取多个客户的历史信用数据,所述历史信用数据包括盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据;
数据降维单元,用于基于主成分分析法对各客户的历史信用数据进行降维分析,得到用于信用风险预测的多个信用指标;
数据处理单元,用于基于所述信用指标获取各客户的历史信用指标数据,并对各历史信用指标数据进行标准化处理;以及根据各客户标准化处理后的历史信用指标数据以及各客户对应的样本标签,生成样本数据集。
在一实施例中,所述模型优化模块包括:
种群确定单元,用于根据待优化参数随机生成初始代种群;以及根据改进后的交叉概率函数和变异概率函数生成多代种群;
适应度确定单元,用于根据改进后的适应度函数以及所述样本数据集分别计算所述初始代种群和各代种群各个体的适应度,
最优结构参数确定单元,用于根据所述适应度确定所有种群中的最优个体;所述最优个体为所述最优结构参数。
在一实施例中,适应度确定单元具体用于:
将所述样本数据集划分为N组样本数据;
利用基于所述个体的支撑向量机分类器分别对N组样本数据进行分类,得到N组样本数据对应的分类结果;
根据各组样本数据对应的分类结果以及各组样本数据的样本标签确定与N组样本数据对应的N个分类准确率;
根据改进后的适应度函数以及所述N个分类准确率,确定所述个体的适应度。
根据本申请实施例的第三方面,本申请提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请提供的任一基于支持向量机的信用风险预测方法。
根据本申请实施例的第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本申请提供的任一基于支持向量机的信用风险预测方法。
本申请的基于支持向量机的信用风险预测方法及装置,通过改进遗传算法优化信用风险预测模型的参数组合,克服了群体智能算法在接近最优解时种群多样性减少,易陷入局部最优,搜索精度降低等不足,提高了信用风险预测模型的预测准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请提供的基于支持向量机的信用风险预测方法的一种示意图。
图2为本申请提供的确定信用指标的步骤示意图。
图3为本申请提供的创建信用风险预测模型的步骤示意图。
图4为本申请提供的优化支持向量机模型参数的步骤示意图。
图5为本申请提供的优化支持向量机模型参数的另一种步骤示意图。
图6为本申请提供的确定个体适应度的步骤示意图。
图7为本申请提供的基于支持向量机的信用风险预测装置的一种示意图。
图8为本申请提供的基于支持向量机的信用风险预测装置的另一种示意图。
图9为本申请提供的基于支持向量机的信用风险预测装置的另一种示意图。
图10为本申请提供的基于支持向量机的信用风险预测装置的另一种示意图。
图11为本申请提供的一种计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
需要说明的是,本申请的基于支持向量机的信用风险预测方法及装置可用于信用风险预测领域和金融领域,也可用于除信用风险预测领域和金融领域之外的任意领域,本申请对基于支持向量机的信用风险预测方法及装置的应用领域不做限定。
本申请中技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本申请实施例中的用户信息均是通过合法合规途径获得,并且对用户信息的获取、存储、使用、处理等经过客户授权同意的。
根据本申请实施例的第一方面,本申请提供一种基于支持向量机的信用风险预测方法,如图1所示,该方法包括:
步骤S101,获取待评估客户的多个信用指标数据;
其中,信用指标是预先确定的,当对待评估客户进行评估时,按照预先确定的信用指标获取相应的数据作为待评估客户的信用指标数据。本申请的信用指标数据包括能够反映待评估客户的经营状况的指标,而非现有的信用风险评估中所用的客户贷款信息、违约信息等指标。与现有技术相比,本申请的信用指标更易获取,且不涉及商业机密,同时与企业是否违约息息相关,有利于在保护客户隐私的同时对客户的信用风险做出评估。
步骤S102,根据所述信用指标数据以及预先创建的信用风险预测模型进行信用评估,得到所述待评估客户对应的信用风险预测结果;
其中,所述信用风险预测模型是基于多个客户的历史信用数据训练以及基于改进遗传算法优化得到的。
本申请的信用风险预测模型采用支撑向量机(Support Vector Machine,SVM)模型,并基于改进遗传算法对支持向量机模型的参数进行优化。
根据上述实施例,通过改进遗传算法优化信用风险预测模型的参数组合,克服了群体智能算法在接近最优解时种群多样性减少,易陷入局部最优,搜索精度降低等不足;本申请基于优化后的信用风险预测模型进行信用评估,提高了信用风险预测模型的预测准确率。
在一实施例中,本申请的信用指标包括盈利能力指标、长期负债能力指标、短期偿债能力指标以及运营能力指标,相对应地,待评估客户的信用指标数据包括盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据。
进一步地,盈利能力指标包括总资产净利润(Return on Assets,ROA)和营业净利率(Return on Sales,ROS);长期负债能力指标包括利息保障倍数(InterestCoverageRatio,ICR)、资产负债率(Debt Asset Ratio,DAR)以及长期资本负债率(Long-termLiability Rate,LLR);短期偿债能力指标包括流动比率(Liquid Ratio,LR)、速动比率(Quick Ratio,QR)和现金比率(Cash Ratio,CR);运营能力指标包括总资产周转率(TotalAssets Turnover,AT)和营运资金周转率(Working CapitalTurnover,WCT)。
其中,本申请给出的上述十个信用指标的定义参见下表1:
表1:信用指标及定义
在一实施例中,如图2所示,确定信用指标的步骤包括:
步骤S201,获取多个客户(例如企业、公司)的历史信用数据;
其中,历史信用数据包括盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据,具体包括各客户的总资产净利润(Return on Assets,ROA)、主营业务比率等多个财务比率的历史数据。
步骤S202,基于主成分分析法对各客户的历史信用数据进行降维分析,得到用于信用风险预测的多个信用指标。
例如,通过主成分分析方法(PrincipalComponent Analysis,PCA)对各企业的多个历史数据进行降维处理,经过主成分分析后得到前M(例如M取值为10)个主成分的累计贡献率,为88.6%,说明前M个主成分基本包含了全部指标所具有的信息。因此,本文提取这前M个主成分作为信用指标,以及后续采集样本数据的依据。
根据上述实施例,本申请考虑到样本数据维度较高且不同指标间可能存在较高的相关性,对企业相关指标进行分析,通过PCA进行降维处理,降低这种类型的数据对信用风险预测模型的识别正确率的影响,很大程度上提升了模型的识别正确率。
在一实施例中,如图3所示,创建所述信用风险预测模型的步骤包括一下步骤S301至步骤S303:
步骤S301,根据多个历史客户的盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据确定样本数据集;
在步骤S301中,首先,基于图2对应实施例中确定的信用指标,获取多个客户的历史信用指标数据,并对各历史信用指标数据进行标准化处理;
然后,根据各客户标准化处理后的历史信用指标数据以及各客户对应的样本标签,生成样本数据集。
其中,各客户对应的样本标签为标记客户是否会发生违约的标签,该标签与客户的经营状况相关。本申请将获得商业贷款的客户划分为两类,一类是不会发生违约的客户,另一类是会发生违约的客户。本申请假设经营状况良好的客户不会发生违约,经营状况不好的客户会发生违约,因此本申请为经营状况良好的企业赋予样本标签“1”,代表其不会发生违约,为经营状况不好的企业赋予其样本标签“-1”,代表其会发生违约。
样本数据集中包括多条样本数据,每条样本数据包括一个客户的历史信用指标数据以及该客户对应的样本标签。历史信用指标数据为与上表1中的十个信用指标对应的数据;样本标签表示为企业贷款违约(Loan Defaults,LD),其中,经营状况好的企业,其LD记为1,经营状况不好的企业,其LD记为-1。
对于各客户的经营状况的确定可参照Wind数据库,对于客户的历史信用数据或历史信用指标数据可以从CSMAR数据库中获取。
该样本数据集用以训练和验证支持向量机,以找到一个超平面来区分经营状况良好的客户和经营状况不好的客户,进而得到客户是否会发生违约的信用风险预测结果。
步骤S302,基于改进遗传算法以及所述样本数据集对支持向量机模型的待优化参数进行优化,得到支持向量机模型的最优结构参数以及最优支持向量机模型;
在步骤S302中,首先,获取通用的支持向量机模型及其待优化参数,其中待优化参数包括支持向量机模型中的损失惩罚参数C以及核函数参数σ。
然后,基于改进遗传算法对支持向量机模型的待优化参数进行优化处理。遗传算法是利用某种编码技术,将问题的解空间转化为染色体空间,将决策变量转换为具有某种结构的染色体个体,然后由这些个体随机组成的群体通过选择、交叉和变异挑选高适应度的个体迭代创建下一代个体,进而生成下一代群体。同时,为了获得满足约束条件的个体,可设置终止条件来使搜索过程停止,遗传寻优结束以后,会在种群中产生一个优秀个体,该个体的表现型将达到问题的最优解。
本申请的改进遗传算法对传统的遗传算法中的交叉概率函数、变异概率函数以及计算个体适应度的函数进行了改进,将支持向量机模型的待优化参数的解空间转化为染色体空前,将待优化参数以及根据待优化参数随机产生的参数转化为染色体个体,基于改进后的个体适应度计算函数、改进后的交叉概率函数以及改进后的变异概率函数,实现高适应度的个体的选择和下一代种群的生成,重复迭代,直至满足终止条件。最后从历次迭代中挑选出的高适应度的个体中选择适应度最高的个体,作为支持向量机模型的最优结构参数。
设置有最优结构参数的支持向量机模型即步骤S302中的最优支持向量机模型。
步骤S303,基于所述样本数据集对最优支持向量机模型进行训练和验证,得到所述信用风险预测模型。
在步骤S303中,从步骤S301中得到的样本数据集中随机抽取70%的样本数据作为训练集,目的是为了训练支持向量机(SVM)模型,而将剩余30%的样本数据作为测试集,目的是为了测试支持向量机(SVM)模型的预测准确性以评价模型是否准确。
训练和测试完成后得到的支持向量机模型即本申请的信用风险预测模型。
根据上述实施例可知,本申请采用改进遗传算法对支持向量机模型进行优化,相比于传统的遗传算法,本申请的改进遗传算法提高了寻优效率与遍历均匀性,改善了群体搜索能力,一定程度上克服了群体智能算法在接近最优解时种群多样性减少,易陷入局部最优,搜索精度降低等不足,提高了算法模型的挖掘能力和准确率。
同时,本申请利用支持向量机(SVM)的方法进行数据训练的过程中能够很好的解决神经网络等方法所存在的不足,在处理样本少、非线性、维数较高的模式这类问题上具有较强的处理能力,同时它也有较强的泛化能力,也能求解出全局最优解,适用于具有历史数据量少、非线性、高维度等特点的金融风险相关数据指标的分析场景中。
在一实施例中,如图4所示,步骤S302,基于改进遗传算法以及所述样本数据集对支持向量机模型的待优化参数进行优化,得到支持向量机模型的最优结构参数,还包括:
步骤S401,根据待优化参数随机生成初始代种群;
步骤S402,根据改进后的交叉概率函数和变异概率函数生成多代种群;
步骤S403,根据改进后的适应度函数以及所述样本数据集分别计算所述初始代种群和各代种群各个体的适应度,并根据所述适应度确定所有种群中的最优个体;所述最优个体为所述最优结构参数。
其中,步骤S402和步骤S403的执行顺序不限于图4所示,实际应用中,步骤S402和步骤S403交叉执行,例如,执行步骤S401生成初始代种群;然后执行步骤S403对初始代种群中的个体进行模型训练、验证和适应度计算,得到初始代种群中的最优个体;然后执行步骤S402生成第二代种群;然后执行步骤S403对第二代种群中的个体进行模型训练、验证和适应度计算,确定第二代种群中的最优个体;然后重复迭代步骤S402和步骤S403,针对步骤S402得到的各代种群,通过执行步骤S403确定各代种群中适应度最高的个体,直至满足迭代终止条件。
从确定的各代种群中的最优个体中选择适应度最高的个体(即最优个体),作为最优结构参数。
图4及对应说明简化了对待优化参数的优化过程的描述,以下将通过图5展示更具体地待优化参数的优化流程。
如图5所示,对待优化参数进行优化的流程包括以下步骤S1至S10:
S1:根据支持向量机模型的待优化参数随机产生初始代种群;
其中,待优化参数为通用支持向量机模型中的损失惩罚参数C以及核函数参数σ,待优化参数可表示为X0={C,σ}。
根据待优化参数随机生成预设数量的个体,组成初始代种群。
S2:训练当代种群中每个个体对应的支持向量机模型;
例如,针对当代种群中的每个个体,执行如下操作:将个体作为待训练支持向量机模型的参数,并使用训练集对待训练支持向量机模型进行训练,以及使用测试集对待训练支持向量机模型进行有效性检验,得到与个体对应的训练完成的支持向量机模型。
本步骤得到的训练完成的支持向量机模型与当代种群中的个体一一对应。
S3:确定当代种群中每个个体的适应度;
例如,针对当代种群中的每个个体,执行如下操作:基于样本数据集、改进后的适应度函数以及个体对应的训练完成的支持向量机模型确定个体对应的适应度。
本步骤得到的适应度与当代种群中的个体一一对应。
S4:根据个体对应的适应度从当代种群中选择并存储个体;
例如,选择并存储当代种群中适应度最高的个体。
S5:判断是否满足终止条件;若是,则执行步骤S9,若否,则执行步骤S6;
S6:个体交叉;
例如,使用改进后的交叉概率函数确定当代种群中的交叉概率,并对当代种群中的个体进行均匀交叉,得到交叉后的个体。
S7:个体变异;
例如,使用改进后的变异概率函数确定当代种群中的变异概率,并对交叉后的个体进行均匀变异。
S8:生成新一代种群;
例如,将均匀变异后的个体作为新一代个体,生成新一代种群,将新一代种群成作为当代种群;返回步骤S2;
S9:输出从各代种群中选择并存储的个体;
S10:选择最优个体,确定最优结构参数;
例如,从输出的个体中选择适应度最高的个体作为最优个体,最优个体中的损失惩罚参数C以及核函数参数σ,即最优结构参数。
在一实施例中,图5步骤(6)中的改进后的交叉概率函数为:
其中,pc为交叉概率,fmax为当代种群中个体的最大适应度值,f1为当代种群中两个交叉个体中的最大适应度值,favg为当代种群中个体的平均适应度值,pcmax为最大的交叉概率,pcmin为最小的交叉概率,λ为预设参数。本申请中,设置pcmax=0.9,pcmin=0.6,λ=2。
图5步骤(7)中的改进后的变异概率函数为:
其中,pm为变异概率,fmax为当代种群中个体的最大适应度值,f2为当代种群中突变个体的适应度值,favg为当代种群中个体的平均适应度值,pmmax为最大的变异概率,pmmin为最小的变异概率,λ为预设参数。本申请中,设置pmmax=0.1,pmmin=0.001,λ=2。
在一实施例中,如图6所示,图4步骤S403中的根据改进后的适应度函数以及样本数据集计算个体的适应度,或者图5步骤(3)中的基于样本数据集、改进后的适应度函数以及个体对应的训练完成的支持向量机模型确定个体对应的适应度,包括:
步骤S601,将所述样本数据集划分为N组样本数据;
其中,每组样本数据中包括多条样本数据,本步骤中的N组样本数据可以均匀划分得到(即每组样本数据包含相同数据的样本数据),也可随机划分得到(即各组样本数据中包含的样本数据的数量可能相同,也可能不同),本申请对此不进行限制。
本步骤的样本数据集即为步骤S301中确定的样本数据集。
步骤S602,利用基于所述个体的支撑向量机分类器分别对N组样本数据进行分类,得到N组样本数据对应的分类结果;
例如,以某代种群中的某一个体为例,基于该个体的支持向量机分类器指通过图5步骤(2)得到的该个体对应的训练完成的支持向量机模型,该模型经过了训练集的训练和测试集的有效性检验。
针对步骤S601中确定的每一组样本数据,以其中一组样本数据为例,将该组样本数据中包含的各样本数据分别输入到该个体的对应的训练完成的支持向量机模型,得到该组样本数据中包含的各样本数据对应的分类结果,每个分类结果为1或-1。
然后依次将剩余的各组样本数据输入到该个体对应的训练完成的支持向量机模型,即可得到该个体对应的训练完成的支持向量机模型对N组样本数据中的所有样本数据进行分类得到的分类结果。
步骤S603,根据各组样本数据对应的分类结果以及各组样本数据的样本标签确定与N组样本数据对应的N个分类准确率;
例如,承接上例,以某代种群中的某一个体为例,步骤S602中得到了该个体对应的训练完成的支持向量机模型对N组样本数据中的所有样本数据进行分类得到的分类结果。
本步骤针对每组样本数据,以其中一组样本数据为例,确定该个体对应的训练完成的支持向量机模型对该组样本数据的分类准确率。具体地,将该组样本数据中包含的各样本数据的样本标签与对应的分类结果进行比较,对于一个样本数据而言,若样本标签与分类结果一致,则该个体对应的训练完成的支持向量机模型对该样本数据的分类准确,若不一致,则分类不准确。
计算该组样本数据中的分类准确的样本数据的数量,与该组样本数据中包含的样本数据的总数的比值,得到该个体对应的训练完成的支持向量机模型对该组样本数据的分类准确率。
然后以同样的方法依次确定该个体对应的训练完成的支持向量机模型对剩余的各组样本数据的分类准确率。
通过步骤S603,可得到该个体对应的训练完成的支持向量机模型对N组样本数据的N个分类准确率。
步骤S604,根据改进后的适应度函数以及所述N个分类准确率,确定所述个体的适应度。
改进后的适应度函数如下:
其中,f为个体的适应度,N为样本数据的组数,Mi为该个体对应的训练完成的支持向量机模型对第i组样本数据的分类准确率。
将步骤S602得到的该个体对应的训练完成的支持向量机模型对N组样本数据的N个分类准确率输入到改进后的适应度函数中,得到平均分类准确率,即该个体的适应度。
通过以上步骤S601至步骤S604,可得到各代种群中的所有个体的适应度。然后根据图5的步骤(4)从同一代种群中选择并存储适应度最高的个体。经过图5迭代之后,针对每一代种群,都选择并存储了其中的至少一个个体。满足终止条件后,将存储的个体输出,并在输出的个体中选择适应度最高的个体作为最优个体,最优个体中的损失惩罚参数C以及核函数参数σ,即最优结构参数。
获得最优结构参数之后,将最优结构参数作为待训练支持向量机模型的参数,得到最优支持向量机模型。然后执行步骤S303,基于样本数据集中的训练集对最优支持向量机模型进行训练,基于样本数据集中的测试集对最优支持向量机模型进行验证,得到该信用风险预测模型,即可通过该信用风险预测模型对待评估客户的信用风险进行评估。
通过上述实施例可知,本申请公开了一种基于支持向量机的信用风险预测方法,包括以下的步骤:首先,抽取建模样本,获取客户数据作为建模指标体系,所述客户数据包括正负标签和影响还款表现的信用数据;然后对信用数据进行主成分分析和标准化处理,划分训练集样本和测试集样本;对遗传算法进行改进并优化支持向量机参数,然后训练集输入到预测模型完成训练;将测试集数据输入到训练优化后的预测模型,检验评估模型的效果。本文提出改进遗传算法优化支持向量机的参数组合,克服了群体智能算法在接近最优解时种群多样性减少、易陷入局部最优、搜索精度降低等不足,提高了信用风险预测模型的预测准确率。
基于同一发明构思,本申请实施例还提供了基于支持向量机的信用风险预测装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于基于支持向量机的信用风险预测装置解决问题的原理与基于支持向量机的信用风险预测方法相似,因此基于支持向量机的信用风险预测装置的实施可以参见基于支持向量机的信用风险预测方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
根据本申请实施例的第二方面,本申请提供一种基于支持向量机的信用风险预测装置,如图7所示,该装置包括:
数据获取模块701,用于获取待评估客户的多个信用指标数据;
信用风险预测模块702,用于根据所述信用指标数据以及预先创建的信用风险预测模型进行信用评估,得到所述待评估客户对应的信用风险预测结果;
其中,所述信用风险预测模型702是基于多个客户的历史信用数据训练以及基于改进遗传算法优化得到的。
在一实施例中,如图8所示,所述基于支持向量机的信用风险预测装置还包括:
样本数据集确定模块703,用于根据多个历史客户的盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据确定样本数据集;
模型优化模块704,用于基于改进遗传算法以及所述样本数据集对支持向量机模型的待优化参数进行优化,得到支持向量机模型的最优结构参数以及最优支持向量机模型;
模型训练模块705,用于基于所述样本数据集对最优支持向量机模型进行训练和验证,得到所述信用风险预测模型。
在一实施例中,如图9所示,所述样本数据集确定模块703包括:
数据采集单元7031,用于获取多个客户的历史信用数据,所述历史信用数据包括盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据;
数据降维单元7032,用于基于主成分分析法对各客户的历史信用数据进行降维分析,得到用于信用风险预测的多个信用指标;
数据处理单元7033,用于基于所述信用指标获取各客户的历史信用指标数据,并对各历史信用指标数据进行标准化处理;以及根据各客户标准化处理后的历史信用指标数据以及各客户对应的样本标签,生成样本数据集。
在一实施例中,如图10所示,所述模型优化模块704包括:
种群确定单元7041,用于根据待优化参数随机生成初始代种群;以及根据改进后的交叉概率函数和变异概率函数生成多代种群;
适应度确定单元7042,用于根据改进后的适应度函数以及所述样本数据集分别计算所述初始代种群和各代种群各个体的适应度,
最优结构参数确定单元7043,用于根据所述适应度确定所有种群中的最优个体;所述最优个体为所述最优结构参数。
在一实施例中,适应度确定单元7042具体用于:
将所述样本数据集划分为N组样本数据;
利用基于所述个体的支撑向量机分类器分别对N组样本数据进行分类,得到N组样本数据对应的分类结果;
根据各组样本数据对应的分类结果以及各组样本数据的样本标签确定与N组样本数据对应的N个分类准确率;
根据改进后的适应度函数以及所述N个分类准确率,确定所述个体的适应度。
本申请的基于支持向量机的信用风险预测装置,通过改进遗传算法优化信用风险预测模型的参数组合,克服了群体智能算法在接近最优解时种群多样性减少,易陷入局部最优,搜索精度降低等不足,提高了信用风险预测模型的预测准确率。
在一实施例中,本申请还提供一种计算机设备,参见图11,所述电子设备100具体包括:
中央处理器(processor)110、存储器(memory)120、通信模块(Communications)130、输入单元140、输出单元150以及电源160。
其中,所述存储器(memory)120、通信模块(Communications)130、输入单元140、输出单元150以及电源160分别与所述中央处理器(processor)110相连接。所述存储器120中存储有计算机程序,所述中央处理器110可调用所述计算机程序,所述中央处理器110执行所述计算机程序时实现上述实施例中的基于支持向量机的信用风险预测方法中的全部步骤。
在一实施例中,本申请的实施例还提供一种计算机可读存储介质,用于存储计算机程序,所述计算机程序可被处理器执行。所述计算机程序被处理器执行时实现本发明所提供的任一基于支持向量机的信用风险预测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于支持向量机的信用风险预测方法,其特征在于,包括:
获取待评估客户的多个信用指标数据;
根据所述信用指标数据以及预先创建的信用风险预测模型进行信用评估,得到所述待评估客户对应的信用风险预测结果;
其中,所述信用风险预测模型是基于多个客户的历史信用数据训练以及基于改进遗传算法优化得到的。
2.根据权利要求1所述的基于支持向量机的信用风险预测方法,其特征在于,所述信用指标数据包括盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据。
3.根据权利要求1所述的基于支持向量机的信用风险预测方法,其特征在于,创建所述信用风险预测模型的步骤包括:
根据多个历史客户的盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据确定样本数据集;
基于改进遗传算法以及所述样本数据集对支持向量机模型的待优化参数进行优化,得到支持向量机模型的最优结构参数以及最优支持向量机模型;
基于所述样本数据集对最优支持向量机模型进行训练和验证,得到所述信用风险预测模型。
4.根据权利要求3所述的基于支持向量机的信用风险预测方法,其特征在于,所述根据多个历史客户的盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据确定样本数据集,包括:
获取多个客户的历史信用数据,所述历史信用数据包括盈利能力数据、长期负债能力数据、短期偿债能力数据以及运营能力数据;
基于主成分分析法对各客户的历史信用数据进行降维分析,得到用于信用风险预测的多个信用指标;
基于所述信用指标获取各客户的历史信用指标数据,并对各历史信用指标数据进行标准化处理;
根据各客户标准化处理后的历史信用指标数据以及各客户对应的样本标签,生成样本数据集。
5.根据权利要求3所述的基于支持向量机的信用风险预测方法,其特征在于,所述基于改进遗传算法以及所述样本数据集对支持向量机模型的待优化参数进行优化,得到支持向量机模型的最优结构参数,包括:
根据待优化参数随机生成初始代种群;
根据改进后的交叉概率函数和变异概率函数生成多代种群;
根据改进后的适应度函数以及所述样本数据集分别计算所述初始代种群和各代种群各个体的适应度,并根据所述适应度确定所有种群中的最优个体;所述最优个体为所述最优结构参数。
6.根据权利要求3所述的基于支持向量机的信用风险预测方法,其特征在于,改进后的交叉概率函数为:
改进后的变异概率函数为:
其中,pc为交叉概率,pm为变异概率,fmax为当代种群中个体的最大适应度值,f1为当代种群中两个交叉个体中的最大适应度值,f2为当代种群中突变个体的适应度值,favg为当代种群中个体的平均适应度值,pcmax为最大的交叉概率,pcmin为最小的交叉概率,pmmax为最大的变异概率,pmmin为最小的变异概率,λ为预设参数。
7.根据权利要求3所述的基于支持向量机的信用风险预测方法,其特征在于,根据改进后的适应度函数以及样本数据集计算个体的适应度,包括:
将所述样本数据集划分为N组样本数据;
利用基于所述个体的支撑向量机分类器分别对N组样本数据进行分类,得到N组样本数据对应的分类结果;
根据各组样本数据对应的分类结果以及各组样本数据的样本标签确定与N组样本数据对应的N个分类准确率;
根据改进后的适应度函数以及所述N个分类准确率,确定所述个体的适应度。
8.一种基于支持向量机的信用风险预测装置,其特征在于,包括:
数据获取模块,用于获取待评估客户的多个信用指标数据;
信用风险预测模块,用于根据所述信用指标数据以及预先创建的信用风险预测模型进行信用评估,得到所述待评估客户对应的信用风险预测结果;
其中,所述信用风险预测模型是基于多个客户的历史信用数据训练以及基于改进遗传算法优化得到的。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于支持向量机的信用风险预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于支持向量机的信用风险预测方法。
CN202310409793.1A 2023-04-17 2023-04-17 基于支持向量机的信用风险预测方法及装置 Pending CN116611911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310409793.1A CN116611911A (zh) 2023-04-17 2023-04-17 基于支持向量机的信用风险预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310409793.1A CN116611911A (zh) 2023-04-17 2023-04-17 基于支持向量机的信用风险预测方法及装置

Publications (1)

Publication Number Publication Date
CN116611911A true CN116611911A (zh) 2023-08-18

Family

ID=87673631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310409793.1A Pending CN116611911A (zh) 2023-04-17 2023-04-17 基于支持向量机的信用风险预测方法及装置

Country Status (1)

Country Link
CN (1) CN116611911A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151851A (zh) * 2023-09-12 2023-12-01 浪潮数字(山东)建设运营有限公司 基于遗传算法的银行风险预测方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151851A (zh) * 2023-09-12 2023-12-01 浪潮数字(山东)建设运营有限公司 基于遗传算法的银行风险预测方法、装置和电子设备
CN117151851B (zh) * 2023-09-12 2024-04-30 浪潮数字(山东)建设运营有限公司 基于遗传算法的银行风险预测方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN110009479B (zh) 信用评价方法及装置、存储介质、计算机设备
CN110738564A (zh) 贷后风险评估方法及装置、存储介质
CN110852856A (zh) 一种基于动态网络表征的发票虚开识别方法
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN112561320A (zh) 机构风险预测模型的训练方法、机构风险预测方法和装置
Mezei et al. Credit risk evaluation in peer-to-peer lending with linguistic data transformation and supervised learning
CN110222733A (zh) 一种高精度的多阶神经网络分类方法及系统
CN116611911A (zh) 基于支持向量机的信用风险预测方法及装置
CN116468536A (zh) 一种自动化风险控制规则生成的方法
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN113298121B (zh) 基于多数据源建模的消息发送方法、装置和电子设备
CN116911994B (zh) 对外贸易风险预警系统
Rofik et al. The Optimization of Credit Scoring Model Using Stacking Ensemble Learning and Oversampling Techniques
Rawat et al. Artificial Narrow Intelligence Techniques in Intelligent Digital Financial Inclusion System for Digital Society
CN112836750A (zh) 一种系统资源分配方法、装置及设备
CN112132589A (zh) 一种基于多次融合构建欺诈识别模型的方法
CN113177733B (zh) 基于卷积神经网络的中小微企业数据建模方法及系统
Kadam et al. Loan Approval Prediction System using Logistic Regression and CIBIL Score
Peng Research on credit risk identification of Internet financial enterprises based on big data
CN111160929B (zh) 一种客户类型的确定方法及装置
CN113781056A (zh) 预测用户欺诈行为的方法及装置
CN113256404A (zh) 数据处理方法及装置
CN111951099A (zh) 一种信用卡发卡模型及其运用方法
KR102334923B1 (ko) 인공지능을 이용한 대출 확대 가설 검정 시스템 및 이를 이용한 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination