CN111080437A - 金融主客体动态信用评估方法及装置 - Google Patents
金融主客体动态信用评估方法及装置 Download PDFInfo
- Publication number
- CN111080437A CN111080437A CN201911273481.2A CN201911273481A CN111080437A CN 111080437 A CN111080437 A CN 111080437A CN 201911273481 A CN201911273481 A CN 201911273481A CN 111080437 A CN111080437 A CN 111080437A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- evaluation index
- index
- indexes
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000011156 evaluation Methods 0.000 claims abstract description 398
- 238000012549 training Methods 0.000 claims abstract description 108
- 238000013210 evaluation model Methods 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000007637 random forest analysis Methods 0.000 claims description 33
- 238000011084 recovery Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 51
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- WVAKRQOMAINQPU-UHFFFAOYSA-N 2-[4-[2-[5-(2,2-dimethylbutyl)-1h-imidazol-2-yl]ethyl]phenyl]pyridine Chemical compound N1C(CC(C)(C)CC)=CN=C1CCC1=CC=C(C=2N=CC=CC=2)C=C1 WVAKRQOMAINQPU-UHFFFAOYSA-N 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种金融主客体动态信用评估方法及装置,所述方法包括:获取按第一设定数量的指标类别分类的多组初选评估指标集,获取现有数据及信用评分作为标签形成样本训练集;根据样本训练集对每一指标类别对应的初选评估指标集进行排序得到各一级评估指标集;将各一级评估指标集中设定比例较重要的指标提取生成唯一的二级评估指标集;根据样本训练集筛选二级评估指标集得到目标评估指标集;根据目标评估指标集采集数据添加信用等级或评分作标签形成目标训练集,用目标训练集对深度置信网络进行训练得到评估模型;采集待测对象的评估数据,代入评估模型计算得到评估结果。本发明能够同时兼顾不同属性的评估指标之间的差异性,获得精确的评估结果。
Description
技术领域
本发明属于智能交易服务信用评估技术领域,尤其涉及一种金融主客体动态信用评估方法及装置。
背景技术
商业银行对客户的信用评价是银行贷款及相关业务的核心内容,对客户的信用评估是否合理、科学、准确关系着银行贷款的成败。
银行的风险管理是国际国内金融界关注的焦点,在西方发达国家,商业银行的信用风险管理技术已经比较成熟,许多定量技术和支持工具、软件已付诸商业应用,继传统的比例分析之后,统计方法得到了广泛的应用,如判别分析和logistic回归等。
在新兴市场和转轨型经济环境下,商业行而言,加强信用风险的管理尤为重要。中国目前信用风险的管理技术较为落后,特别是客户信用分析与评估技术仍处于传统的比例分析阶段,主要通过对企业的单一财务指标进行加权平均确定,其缺陷在于评估指标和加权值的确定带有很大的主观性,使得评估结果和实际状况有很大的出入。
发明内容
本发明针对现有技术中的不足,提供一种金融主客体动态信用评估方法及装置,用于克服在信用评价过程中选取评估指标泛化性弱,评估效果差的问题。
本发明解决问题的技术方案是:
一方面,提供一种金融主客体动态信用评估方法,包括:
获取按第一设定数量的指标类别分类的多组初选评估指标集,并根据各初选评估指标采集现有数据并获取信用等级或评分作为标签,形成样本训练集;
根据所述样本训练集,对各初选评估指标集内的评估指标分别按重要程度降序排列形成对应的一级评估指标集;
按设定比例的获取各一级评估指标集中靠前的评估指标,形成唯一的二级评估指标集;
根据所述样本训练集筛选所述二级评估指标集内的评估指标得到目标评估指标集;
根据所述目标指标集所包含的评估指标采集现有数据并获取信用等级或评分作为标签形成目标训练集,并采用所述目标训练集对深度置信网络训练得到评估模型;
根据所述目标指标集采集待测对象对应的评估指标数据,输入所述评估模型得到信用评估结果。
在一些实施例中,根据所述样本训练集,对各初选评估指标集内的评估指标分别按重要程度降序排列形成对应的一级评估指标集,包括:
根据所述样本训练集对各初选评估指标集分别建立随机森林,并获取各随机森林对应的袋外样本数据;
有恢复地逐一调整各组袋外样本数据中各评估指标的数值,并计算每次调整前和调整后各评估指标对应的袋外样本数据误差率变化量;
将各初选评估指标集内各评估指标按照对应的袋外样本数据误差率变化量大小降序排列,得到对应的评估指标按重要程度降序排列各一级评估指标集。
在一些实施例中,有恢复地逐一调整各组袋外样本数据中各评估指标的数值,并计算每次调整前和调整后各评估指标对应的袋外样本数据误差率变化量,包括:
按设定调整比例,有恢复地逐一调整各组袋外样本数据中各评估指标的数值;
将各评估指标的数值调整前的袋外样本数据与调整后的袋外样本数据分别代入对应的随机森林,计算得到该评估指标对应的调整前的袋外样本数据误差率和调整后的袋外样本数据误差率,以及袋外样本数据误差率变化量。
在一些实施例中,根据所述样本训练集筛选所述二级评估指标集内的评估指标得到目标评估指标集,包括:
将所述样本训练集随机均分为n组数据,n为正整数,每次基于其中的n-1组对所述二级评估指标集内的评估指标按重要程度降序排列,得到n组二级评估指标子集;
分别对各组二级评估指标子集,按设定剔除比例连续剔除不重要的评估指标,用所述样本训练集对每次剔除后保留的评估指标构建随机森林并计算对应的袋外样本数据误差率,将其中袋外样本数据误差率最小的一组评估指标输出为二级评估指标优选集,各二级评估指标优选集与各组二级评估指标子集分别对应;
获取n个二级评估指标优选集中出现频次高于设定阈值的评估指标,生成目标评估指标集。
在一些实施例中,将所述样本训练集随机均分为n组数据,n为正整数,每次基于其中的n-1组对所述二级评估指标集内的评估指标按重要程度降序排列,得到n组二级评估指标子集,包括:
根据分组后的样本训练集对各二级评估指标集分别建立随机森林,并获取各随机森林对应的多组袋外样本数据;
有恢复地逐一调整各组袋外样本数据中各评估指标的数值,并计算每次调整前和调整后二级评估指标集内各评估指标对应的袋外样本数据误差率变化量;
将二级评估指标集内各评估指标按照对应的袋外样本数据误差率变化量大小降序排列,得到评估指标按重要程度降序排列的与各组袋外样本数据分别对应的二级评估指标子集。
在一些实施例中,所述第一设定数量的指标类别,至少包括:主体结构评估类、运营能力评估类、经营环境评估类、经营稳定性评估类、影响力评估类、营销能力评估类、经营数据量评估类以及数据处理能力评估类。
在一些实施例中,根据所述目标指标集所包含的评估指标采集现有数据并添加信用等级或评分作为标签形成目标训练集,并采用所述目标训练集对深度置信网络训练得到评估模型,包括:
根据所述目标指标集所包含的评估指标采集样本数据并添加信用等级或评分作为标签,生成目标训练集;
将所述目标训练集带入BP神经网络模型训练得到评估模型。
在一些实施例中,根据所述目标指标集采集待测对象对应的评估指标数据,输入所述评估模型得到信用评估结果之后,还包括:
每间隔指定时长根据所述目标指标集采集待测对象的评估指标数据,输入所述评估模型得到评估结果;
若所述评估结果低于设定参数,发出报警信息。
另一方面,本发明申请还提供一种金融主体信用评估装置,包括:
初选评估指标集形成单元,用于按第一设定数量的指标类别分别获取所述初选评估指标集;
目标评估指标集形成单元,用于根据所述样本训练集筛选所述初选评估指标,形成所述目标评估指标集;
训练模型生成单元,用于从所述样本训练集中获取目标训练集对所述深度置信网络进行训练,得到所述评估模型;
信用评估单元,用于根据所述目标指标集采集待评估对象的评估数据带入评估模型,得到对应的信用评估结果。
另一方面,本申请还提供一种计算机存储介质,该计算机存储介质中存储有计算机程序,当计算机程序被执行时执行如上述的方法步骤。
本发明所述金融主客体动态信用评估方法,通过将初选评估指标按类别进行分组,在组内和组间分别进行筛选,能够在保证相同属性的评估指标进行有效比对筛选的基础上,同时兼顾不同属性的评估指标之间的差异性,获得效果更优的评估指标体系。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明一实施例所述金融主客体动态信用评估方法的流程示意图;
图2为本发明一实施例所述金融主客体动态信用评估方法中对初选评估指标集进行排序的流程示意图;
图3为本发明一实施例所述金融主客体动态信用评估方法中筛选目标评估指标集的流程示意图;
图4为本发明一实施例所述金融主客体动态信用评估方法中对二级评估指标集进行多样本排序的流程示意图;
图5为本发明一实施例所述金融主客体动态信用评估方法中BP神经网络的结构示意图。
具体实施方式
通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
商业银行对用户的信用的评价结果是一系列金融活动的基础,是金融事务进行的重要标准。由于市场的急速扩张,对于企业单位或者个人的信用评价需求日益提高。现有的评价体系中,很大程度上保留了人为判断和选择的步骤,受评价人员主观因素影响大,不利于建立较高泛化性的评估指标体系,并实现对于用户信用的准确评价。
需要预先说明的是,本申请中“初选评估指标集”是对评估指标分类后形成的集合,“评估指标数据”表示所采集的评估指标对应的具体数值。
本发明申请为了克服人为主观因素的影响,基于样本数据对评估指标的进行客观评价,建立可信度较高的评估指标体系,完成对用户信用度的评价,提供了一种金融主客体动态信用评估方法,如图1所示,包括步骤S101~步骤S106:
步骤S101:获取按第一设定数量的指标类别分类的多组初选评估指标集,并根据各初选评估指标采集现有数据并获取信用等级或评分作为标签,形成样本训练集。
步骤S102:根据所述样本训练集,对各初选评估指标集内的评估指标分别按重要程度降序排列形成对应的一级评估指标集。
步骤S103:按设定比例的获取各一级评估指标集中靠前的评估指标,形成唯一的二级评估指标集。
步骤S104:根据所述样本训练集筛选所述二级评估指标集内的评估指标得到目标评估指标集。
步骤S105:根据所述目标指标集所包含的评估指标采集现有数据并获取信用等级或评分作为标签形成目标训练集,并采用所述目标训练集对深度置信网络训练得到评估模型。
步骤S106:根据所述目标指标集采集待测对象对应的评估指标数据,输入所述评估模型得到信用评估结果。
在步骤S101中,首先将初选评估指标按照评估指标的属性进行分类,指标类别的数量可以根据具体的分类标准确定,也即第一设定数量是按照具体分类标准确定的正整数。
示例性的,对于企业,初选评估指标的指标类别可以包括:主体结构评估类、运营能力评估类、经营环境评估类、经营稳定性评估类、影响力评估类、营销能力评估类、经营数据量评估类以及数据处理能力评估类。在另一些实施例中,也可以设置更多类别或按照其他标准进行划分。
其中,主体结构评估类要是对企业的基本情况和高管能力进行评价,可以包括企业资质、公司结构、技术人员配置、企业规模等指标。
运营能力评估类是对企业现阶段的综合运营能力进行评价,可以包括:销售收入、销售收入增长率、缴税额、企业投资、企业债务等指标。
经营环境评估类是企业的生命周期和地区因素对企业可能造成的影响的评价,企业生命周期、地区GDP、国家GDP等指标。
经营稳定性评估类是对企业经营过程中可持续性的评价,可以包括:职位招聘信息数量、股价行情、办公地址变更次数、诉讼参与次数等指标。
影响力评估类是社会对于企业认可度的评价,可以包括:相关舆论信息数量、行政罚单数量等指标。
营销能力评估类是对企业直接收入的评价,可以包括:网络营销渠道数量、营销团队数量、销售额等指标。
经营数据量评估类是对企业数字化程度的评价,可以包括:网络平台数据量、内部数据量、用户数据量等指标。
数据处理能力评估类是对企业利用数据信息手段和能力的评价,可以包括:专用程序装载量、数据更新周期、数字化服务平台数量等指标。
参照上述结构,也可以对个人用户设置针对性的初选评估指标。
在对初选评估指标进行分类后,进一步根据初选评估指标的具体内容,在现有数据中采集多个样本客户对于各初选评估指标的数据,并添加已经评定的信用等级或信用评分作为标签,形成样本数据集,样本数据集包括:样本名称或序号、对应的各初选评估指标的数值以及包含信用评估结果的标签。
在步骤S102中,基于步骤S101中所形成的样本训练集,对各初选指标集中的评估指标进行排序,以获得相同属性的评估指标之间的对比结果,排除不同属性评估指标之间的干扰。
具体的,可以采用构件深度置信网络,通过分析权重进行排序等方法,也可以通过其他方式进行排序。
本申请实施例中,通过对构件随机森林,调整袋外样本数据,对比袋外样本数据误差率变化量进行评价,具体的,在步骤S102中,根据所述样本训练集,对各初选评估指标集内的评估指标分别按重要程度降序排列形成对应的一级评估指标集,如图2所示,可以包括步骤S201~步骤S203:
步骤S201:根据所述样本训练集对各初选评估指标集分别建立随机森林,并获取各随机森林对应的袋外样本数据。
根据步骤S101中第一设定数量的指标类别的划分,形成了多个初选评估指标集,采用样本训练集中对应的数据,通过随机森林算法,分别构建随机森林,并分别获取各随机森林对应的袋外样本数据(OOB,Out-Of-Bag)。
示例性的,在步骤S101中,第一设定数量为8,按照8个指标类别,将初选评估指标划分为8类,形成8个初选评估指标集,采用样本训练集中对应的数据,分别对8个初选评估指标集建立随机森林(RF,RandomForest),形成对应的8个随机森林RF1~RF8,根据随机森林算法固有的特性,构建随机森林过程中会有约37%的样本不会采集到的,这部分数据称为袋外样本数据,将每个随机森林所对应的袋外样本数据提出,形成与RF1~RF8一一对应的OOB1~OOB8。
步骤S202:有恢复地逐一调整各组袋外样本数据中各评估指标的数值,并计算每次调整前和调整后各评估指标对应的袋外样本数据误差率变化量。
为了评价各初选评估指标集中各评估指标的重要性,通过观察各评估指标数值变化对袋外样本数据影响进行评价,具体指标为袋外样本数据误差率的变化程度,也即袋外样本数据误差率变化量(OOBERROR)。
步骤S202中所采用的样本训练集是包括了所有初选评估指标的数据,在对各初选评估指标集建立随机森林时,可以直接从样本训练集中获取数据,也可以先对样本训练集按照各初选评估指标集种的评估指标进行分割,或重新采集数据添加标签作为训练集。
具体的,对于步骤S202有恢复地逐一调整各组袋外样本数据中各评估指标的数值,并计算每次调整前和调整后各评估指标对应的袋外样本数据误差率变化量,可以包括S2021~S2022:
S2021:按设定调整比例,有恢复地逐一调整各组袋外样本数据中各评估指标的数值。
按设定比例调整,是为了保证调整幅度统一,以获得具有可比性的数据。有恢复地逐一调整各组袋外样本数据中各评估指标的数值,是要求在评价每一个评估指标时,保持原始数据一致,也是为了获得具有可比性的数据。
S2022:将各评估指标的数值调整前的袋外样本数据与调整后的袋外样本数据分别代入对应的随机森林,计算得到该评估指标对应的调整前的袋外样本数据误差率和调整后的袋外样本数据误差率,以及袋外样本数据误差率变化量。
结合步骤S201中的示例,对于8个初选评估指标集中的第一个,将OOB1的数据代入RF1得到调整前的袋外样本数据误差率;进一步的,调整第一个初选评估指标集中第一个评估指标A1在OOB1中各对应的值,例如将每个样本中A1对应的数值分别上调5%或指定数值,将调整后的OOB1代入RF1计算,得到调整后的袋外样本数据误差率;将调整前的袋外样本数据误差率与调整后的袋外样本数据误差率做差,得到A1对应的袋外样本数据误差率变化量。在一些实施例中,也可以计算调整前后袋外样本数据误差率的变化率。
参照上述步骤,可以计算得到第一个初选评估指标集中各评估指标A1~Am(m为第一个初选评估指标集中评估指标的数量)对应的袋外样本数据误差率变化量,袋外样本数据误差率变化量与评估指标的重要程度正相关。
进一步的,分别计算得到8个初选评估指标集中各评估指标对应的袋外样本数据误差率变化量。
步骤S203:将各初选评估指标集内各评估指标按照对应的袋外样本数据误差率变化量大小降序排列,得到对应的评估指标按重要程度降序排列各一级评估指标集。
由于袋外样本数据误差率变化量与评估指标的重要程度正相关,因此,将每个初选评估指标集中评估指标按照对应的袋外样本数据误差率变化量大小,从大到小排序,相应的就得到了各评估指标按重要程度降序排列的各一级评估指标集。
结合步骤S202中的示例,根据第一个初选评估指标集中各评估指标A1~Am对应的袋外样本数据误差率变化量的大小对A1~Am进行排序,即得到了第一个初选评估指标集对应的排序后的一级评估指标集。
参照上述方法,即可得到各初选评估指标集对应的各一级评估指标集。
在步骤S103中,对所获得的各一级评估指标集进一步筛选。由于各一级评估指标集内的评估指标已经按照重要程度降序排列,因此,按照设定比例对每个指标类别的评估指标获取相对重要的一部分,以获得每个指标类别下评价效果较好的评估指标。具体地,对各一级评估指标集中靠前的设定比例的评估指标进行提取,合并生成唯一的二级评估指标集。在一些实施例中,也可以对各指标类别分别设定提取的比例,例如,第一指标类别提取70%,第二指标类别提取80%,以此类推。
在步骤S104中,对于已经在同一指标类别内部,按照属性进行筛选后的评估指标所形成的二级评估指标集,还需要进一步综合评定选取最优的评估指标。
具体地,可以采用构件深度置信网络,通过分析权重进行排序等方法,也可以通过其他方式进行排序,然后获得重要性较高的部分指标。
在本发明申请中,对于步骤S104,根据所述样本训练集筛选所述二级评估指标集内的评估指标得到目标评估指标集,如图3所示,提供方法包括步骤S301~S303:
步骤S301:将样本训练集随机均分为n组数据,n为正整数,每次基于其中的n-1组对二级评估指标集内的评估指标按重要程度降序排列,得到n组二级评估指标子集。
为了提高最终筛选出来的目标评估指标集的泛化性,将样本训练集分为多组数据,分别评价再综合评定。其中,这里由于样本训练集中包含二级评估指标集以外的评估指标,在运用过程中,可以只选取与二级评估指标集中评估指标对应的数据参数。也可以先对样本训练集进行筛选,去除二级评估指标集以外的评估指标和数据。也可以根据二级评估指标集重新采集数据添加标签,形成新的训练集。本实施例中,为了简化步骤,直接从样本训练集中提取所需的数据参数。
根据样本训练集生成多组样本数据,以此为基础分别对二级评估指标集中的评估指标进行排序,可以得到多组不同的排序组合。
示例性的,样本训练集中有500个样本,将其分为5组,序号分别是1~100、101~200、201~300、301~400以及401~500,每次剔除其中1组将剩下的组成一个训练集,可得到5组训练集。
分别利用这5组训练集对二级评估指标集中的评估指标建立随机森林,并通过调整袋外样本数据的值,观察袋外样本误差率变化量将二级评估指标集中的评估指标按重要程度由高到低降序排列,得到5组排列方式。
具体地,如图4所示,排序的步骤可以包括步骤S3011~S3013:
步骤S3011:根据分组后的样本训练集对各二级评估指标集分别建立随机森林,并获取各随机森林对应的多组袋外样本数据。
步骤S3012:有恢复地逐一调整各组袋外样本数据中各评估指标的数值,并计算每次调整前和调整后二级评估指标集内各评估指标对应的袋外样本数据误差率变化量。
步骤S3013:将二级评估指标集内各评估指标按照对应的袋外样本数据误差率变化量大小降序排列,得到评估指标按重要程度降序排列的与各组袋外样本数据分别对应的二级评估指标子集。
对于步骤S3011~S3013中的排序内容,可以参照步骤S201~步骤S203,此处不再赘述。进一步地,需要做出提示的是,虽然排序的方法近似,但是步骤S201~步骤S203中是通过样本对各组初选评估指标进行一次排序,而步骤S3011~S3013中是通过分割组合后的多个样本对一组二级评估指标进行了多次排序。
结合步骤S301中的示例,对于二级评估指标集,在通过样本训练集产生的5组训练集分别进行排序后,分别产生了5组排序为:
M1{B1、B5、B7、B4、B3、B2、B6、B8、B9、B10};
M2{B1、B7、B5、B2、B4、B3、B6、B10、B9、B8};
M3{B7、B1、B4、B5、B2、B6、B3、B9、B10、B8};
M4{B1、B5、B7、B4、B2、B3、B6、B10、B9、B8};
M5{B1、B4、B5、B7、B3、B6、B2、B9、B10、B8};
其中,M1~M5表示5组二级评估指标子集,B1~B10表示二级评估指标集中的10个指标。需要强调的是,本示例中的分组数量、指标数量以及排序等仅为演示,不是对步骤中具体数值的限定。
步骤S302:分别对各组二级评估指标子集,按设定剔除比例连续剔除不重要的评估指标,用样本训练集对每次剔除后保留的评估指标构建随机森林并计算对应的袋外样本数据误差率,将其中袋外样本数据误差率最小的一组评估指标输出为二级评估指标优选集,各二级评估指标优选集与各组二级评估指标子集分别对应。
进一步地,为了进一步剔除二级评估指标子集中不重要的评估指标,在产生的各二级评估指标子集中按设定剔除比例,也可以是设定数量,连续剔除不重要的评估指标,用样本训练集对每次剔除后保留的评估指标构建随机森林并计算对应的袋外样本数据误差率,将其中袋外样本数据误差率最小的一组评估指标输出为二级评估指标优选集。
结合步骤S301中给出的示例,以M1为例,按每次2个指标连续剔除不重要的评估指标,得到如下子集N1~N5,采用样本训练集中的数据对N1~N5分别构建随机森林,并计算带外样本数据误差率;
N1{B1、B5、B7、B4、B3、B2、B6、B8、B9、B10};---OOBERROR20.1%
N2{B1、B5、B7、B4、B3、B2、B6、B8};------------------OOBERROR21.5%
N3{B1、B5、B7、B4、B3、B2};--------------------------------OOBERROR19.8%
N4{B1、B5、B7、B4};---------------------------------------OOBERROR22.1%
N5{B1、B5};---------------------------------------------OOBERROR23.0%
从以上数据可得到,二级评估指标子集M1对应的评价效果最好的子集为N3,N3的袋外误差率最低,并定义为M1对应的二级评估指标优选集H1。
参照上述方法可以得到M1~M5对应的二级评估指标优选集分别为H1~H5:
H1{B1、B5、B7、B4、B3、B2};
H2{B1、B7、B5、B2};
H3{B7、B1、B4、B5、B2、B6、B3、B9};
H4{B1、B5、B7、B4、B2、B3};
H5{B1、B4}。
步骤S303:获取n个二级评估指标优选集中出现频次高于设定阈值的评估指标,生成目标评估指标集。
结合根据步骤S302中的示例,将二级评估指标优选集H1~H5中出现频次高于3的评估指标提取作为目标评估指标集Q,即Q{B1、B2、B3、B4、B5、B7}。
在步骤S105中,根据所述目标指标集所包含的评估指标采集现有数据并添加信用等级或评分作为标签形成目标训练集,并采用所述目标训练集对深度置信网络训练得到评估模型,包括S1051~S1052:
S1051:根据目标指标集所包含的评估指标采集样本数据并添加信用等级或评分作为标签,生成目标训练集。
根据目标指标集中的评估指标采集样本数据,可以直接从样本训练集中筛选,也可以重新采集数据,形成目标训练集。
S1052:将目标训练集带入BP神经网络模型训练得到评估模型。
将目标训练集中样本各评估指标的值作为输入,将标签中的信用等级或评分作为输出,训练BP神经网络模型,得到评估模型。在另一些实施例中,也可以采用其他类型的深度神经网络进行训练并建立评估模型。
示例性的,参照图5,BP神经网络模型可以包括3层,分别为输入层节点、中间层节点以及输出层节点;输入层节点为目标评估指标集中各评估指标对应的值,x1、x2……xi;中间层节点的输出信息作为输出层节点的输入信息,Vij为输入层到中间层的连接权重;输出层节点为信用评价结果,Wj为中间层到输出层节点的连接权重。通过样本的训练和调整权重参数,得到评估模型。具体的训练步骤和参数调整方式可以参照BP神经网络算法结构中的内容。
在步骤S106中,针对目标评估指标集中的评估指标,采集待测对象对应的评估指标数据并输入至评估模型运算得到最终的评价结果。
在一些实施例中,步骤S106之后,还包括:
每间隔指定时长根据所述目标指标集采集待测对象的评估指标数据,输入所述评估模型得到评估结果;若所述评估结果低于设定参数,发出报警信息。
在本实施例中,为了实现对待测对象的动态评估、实时评估,每间隔指定时长采集待测对象的评估指标数据,代入评估模型计算信用评分或等级,能够及时掌握待测对象的信用状态变化,并调整商业活动具体措施。当待测对象的信用等级或评分低于设定参数时,通过警报信息提示。
另一方面,本发明申请还提供一种金融主体信用评估装置,包括:
初选评估指标集形成单元,用于按第一设定数量的指标类别分别获取所述初选评估指标集;
目标评估指标集形成单元,用于根据所述样本训练集筛选所述初选评估指标,形成所述目标评估指标集;
训练模型生成单元,用于从所述样本训练集中获取目标训练集对所述深度置信网络进行训练,得到所述评估模型;
信用评估单元,用于根据所述目标指标集采集待评估对象的评估数据带入评估模型,得到对应的信用评估结果。
其中,初选评估指标集形成单元、目标评估指标集形成单元、训练模型生成单元以及信用评估单元可以是单片机、计算机存储介质或其他能够存储并运行程序的硬件单元。
另一方面,本申请还提供一种计算机存储介质,该计算机存储介质中存储有计算机程序,当计算机程序被执行时执行如上述的方法步骤。
综上所述,本发明所述金融主客体动态信用评估方法及装置,通过将初选评估指标按类别进行分组,在组内和组间分别进行筛选,能够在保证相同属性的评估指标进行有效比对筛选的基础上,同时兼顾不同属性的评估指标之间的差异性,获得效果更优的评估指标体系。同时利用深度置信网络进行训练,杜绝人为评估主观影响。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种金融主客体动态信用评估方法,其特征在于,包括:
获取按第一设定数量的指标类别分类的多组初选评估指标集,并根据各初选评估指标采集现有数据并获取信用等级或评分作为标签,形成样本训练集;
根据所述样本训练集,对各初选评估指标集内的评估指标分别按重要程度降序排列形成对应的一级评估指标集;
按设定比例的获取各一级评估指标集中靠前的评估指标,形成唯一的二级评估指标集;
根据所述样本训练集筛选所述二级评估指标集内的评估指标得到目标评估指标集;
根据所述目标指标集所包含的评估指标采集现有数据并获取信用等级或评分作为标签形成目标训练集,并采用所述目标训练集对深度置信网络训练得到评估模型;
根据所述目标指标集采集待测对象对应的评估指标数据,输入所述评估模型得到信用评估结果。
2.根据权利要求1所述的金融主客体动态信用评估方法,其特征在于,根据所述样本训练集,对各初选评估指标集内的评估指标分别按重要程度降序排列形成对应的一级评估指标集,包括:
根据所述样本训练集对各初选评估指标集分别建立随机森林,并获取各随机森林对应的袋外样本数据;
有恢复地逐一调整各组袋外样本数据中各评估指标的数值,并计算每次调整前和调整后各评估指标对应的袋外样本数据误差率变化量;
将各初选评估指标集内各评估指标按照对应的袋外样本数据误差率变化量大小降序排列,得到对应的评估指标按重要程度降序排列各一级评估指标集。
3.根据权利要求2所述的金融主客体动态信用评估方法,其特征在于,有恢复地逐一调整各组袋外样本数据中各评估指标的数值,并计算每次调整前和调整后各评估指标对应的袋外样本数据误差率变化量,包括:
按设定调整比例,有恢复地逐一调整各组袋外样本数据中各评估指标的数值;
将各评估指标的数值调整前的袋外样本数据与调整后的袋外样本数据分别代入对应的随机森林,计算得到该评估指标对应的调整前的袋外样本数据误差率和调整后的袋外样本数据误差率,以及袋外样本数据误差率变化量。
4.根据权利要求1所述的金融主客体动态信用评估方法,其特征在于,根据所述样本训练集筛选所述二级评估指标集内的评估指标得到目标评估指标集,包括:
将所述样本训练集随机均分为n组数据,n为正整数,每次基于其中的n-1组对所述二级评估指标集内的评估指标按重要程度降序排列,得到n组二级评估指标子集;
分别对各组二级评估指标子集,按设定剔除比例连续剔除不重要的评估指标,用所述样本训练集对每次剔除后保留的评估指标构建随机森林并计算对应的袋外样本数据误差率,将其中袋外样本数据误差率最小的一组评估指标输出为二级评估指标优选集,各二级评估指标优选集与各组二级评估指标子集分别对应;
获取n个二级评估指标优选集中出现频次高于设定阈值的评估指标,生成目标评估指标集。
5.根据权利要求4所述的金融主客体动态信用评估方法,其特征在于,将所述样本训练集随机均分为n组数据,n为正整数,每次基于其中的n-1组对所述二级评估指标集内的评估指标按重要程度降序排列,得到n组二级评估指标子集,包括:
根据分组后的样本训练集对各二级评估指标集分别建立随机森林,并获取各随机森林对应的多组袋外样本数据;
有恢复地逐一调整各组袋外样本数据中各评估指标的数值,并计算每次调整前和调整后二级评估指标集内各评估指标对应的袋外样本数据误差率变化量;
将二级评估指标集内各评估指标按照对应的袋外样本数据误差率变化量大小降序排列,得到评估指标按重要程度降序排列的与各组袋外样本数据分别对应的二级评估指标子集。
6.根据权利要求1所述的金融主客体动态信用评估方法,其特征在于,所述第一设定数量的指标类别,至少包括:主体结构评估类、运营能力评估类、经营环境评估类、经营稳定性评估类、影响力评估类、营销能力评估类、经营数据量评估类以及数据处理能力评估类。
7.根据权利要求1所述的金融主客体动态信用评估方法,其特征在于,根据所述目标指标集所包含的评估指标采集现有数据并添加信用等级或评分作为标签形成目标训练集,并采用所述目标训练集对深度置信网络训练得到评估模型,包括:
根据所述目标指标集所包含的评估指标采集样本数据并添加信用等级或评分作为标签,生成目标训练集;
将所述目标训练集带入BP神经网络模型训练得到评估模型。
8.根据权利要求1所述的金融主客体动态信用评估方法,其特征在于,根据所述目标指标集采集待测对象对应的评估指标数据,输入所述评估模型得到信用评估结果之后,还包括:
每间隔指定时长根据所述目标指标集采集待测对象的评估指标数据,输入所述评估模型得到评估结果;
若所述评估结果低于设定参数,发出报警信息。
9.一种金融主体信用评估装置,其特征在于,包括:
初选评估指标集形成单元,用于按第一设定数量的指标类别分别获取所述初选评估指标集;
目标评估指标集形成单元,用于根据所述样本训练集筛选所述初选评估指标,形成所述目标评估指标集;
训练模型生成单元,用于从所述样本训练集中获取目标训练集对所述深度置信网络进行训练,得到所述评估模型;
信用评估单元,用于根据所述目标指标集采集待评估对象的评估数据带入评估模型,得到对应的信用评估结果。
10.一种计算机存储介质,其特征在于,该计算机存储介质中存储有计算机程序,当计算机程序被执行时执行如权利要求1至8任一项所述的方法步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910468460X | 2019-05-31 | ||
CN201910468460 | 2019-05-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111080437A true CN111080437A (zh) | 2020-04-28 |
Family
ID=70314033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911273481.2A Pending CN111080437A (zh) | 2019-05-31 | 2019-12-12 | 金融主客体动态信用评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111080437A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116225A (zh) * | 2020-09-07 | 2020-12-22 | 中国人民解放军63921部队 | 装备系统的作战效能评估方法、装置和存储介质 |
CN112232951A (zh) * | 2020-12-17 | 2021-01-15 | 中证信用云科技(深圳)股份有限公司 | 基于多维度交叉特征的信用评价方法、装置、设备及介质 |
CN113095941A (zh) * | 2021-04-01 | 2021-07-09 | 深圳前海旭辉资产管理有限公司 | 一种金融数据分析方法及服务器 |
CN113159915A (zh) * | 2021-02-25 | 2021-07-23 | 华夏方圆信用评估有限公司 | 基于大数据的智能金融信用动态评估方法及系统 |
CN113627730A (zh) * | 2021-07-10 | 2021-11-09 | 万链指数(青岛)信息科技有限公司 | 一种企业评估方法、装置、设备及计算机存储介质 |
CN114418155A (zh) * | 2022-01-20 | 2022-04-29 | 深圳壹账通科技服务有限公司 | 一种评分卡训练的处理方法、装置、设备及介质 |
CN115860924A (zh) * | 2023-02-15 | 2023-03-28 | 国网数字科技控股有限公司 | 供应链金融信用风险预警方法及相关设备 |
-
2019
- 2019-12-12 CN CN201911273481.2A patent/CN111080437A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116225A (zh) * | 2020-09-07 | 2020-12-22 | 中国人民解放军63921部队 | 装备系统的作战效能评估方法、装置和存储介质 |
CN112232951A (zh) * | 2020-12-17 | 2021-01-15 | 中证信用云科技(深圳)股份有限公司 | 基于多维度交叉特征的信用评价方法、装置、设备及介质 |
CN113159915A (zh) * | 2021-02-25 | 2021-07-23 | 华夏方圆信用评估有限公司 | 基于大数据的智能金融信用动态评估方法及系统 |
CN113159915B (zh) * | 2021-02-25 | 2023-12-01 | 华夏方圆信用评估有限公司 | 基于大数据的智能金融信用动态评估方法及系统 |
CN113095941A (zh) * | 2021-04-01 | 2021-07-09 | 深圳前海旭辉资产管理有限公司 | 一种金融数据分析方法及服务器 |
CN113627730A (zh) * | 2021-07-10 | 2021-11-09 | 万链指数(青岛)信息科技有限公司 | 一种企业评估方法、装置、设备及计算机存储介质 |
CN114418155A (zh) * | 2022-01-20 | 2022-04-29 | 深圳壹账通科技服务有限公司 | 一种评分卡训练的处理方法、装置、设备及介质 |
CN115860924A (zh) * | 2023-02-15 | 2023-03-28 | 国网数字科技控股有限公司 | 供应链金融信用风险预警方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111080437A (zh) | 金融主客体动态信用评估方法及装置 | |
CN111738462B (zh) | 电力计量装置故障抢修主动服务预警方法 | |
CN106156809A (zh) | 用于更新分类模型的方法及装置 | |
Chitra et al. | Customer retention in banking sector using predictive data mining technique | |
CN109711424B (zh) | 一种基于决策树的行为规则获取方法、装置及设备 | |
CN106910017A (zh) | 一种基于用户行为数据挖掘的电能体验分析方法和系统 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN113537807B (zh) | 一种企业智慧风控方法及设备 | |
CN111738822A (zh) | 审计员推荐方法及装置 | |
CN116911994B (zh) | 对外贸易风险预警系统 | |
CN113435713B (zh) | 基于gis技术和两模型融合的风险地图编制方法及系统 | |
CN112232945B (zh) | 一种确定个人客户授信的方法及装置 | |
CN115204501A (zh) | 企业评估方法、装置、计算机设备和存储介质 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN113159634A (zh) | 一种金融产品管理方法、装置及电子设备 | |
CN112116139A (zh) | 一种电力需求预测方法及系统 | |
Richard et al. | An Automated Clustering Process for Helping Practitioners to Identify Similar EV Charging Patterns across Multiple Temporal Granularities. | |
CN113763181A (zh) | 一种风险压力测试系统 | |
Magableh et al. | An empirical study on the effect of education on labor productivity | |
KR102519812B1 (ko) | 대량 특허의 가치 평가 시스템 | |
CN117236506A (zh) | 基于遗传算法的银行外呼资源的分配方法及系统 | |
Angesti et al. | Prediction of the Telkom University's Undergraduates Waiting Period for Getting a Job using the CART Algorithm | |
Nurajijah et al. | Gradient Tree Boosting for HR Talent Management Application | |
Lukić | Economic Performance of the Economy of Kosovo and Metohija | |
Teng et al. | Impact of natural resources on income equality in Gulf Cooperation Council: Evidence from machine learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |