CN112926989A - 一种基于多视图集成学习的金融交易风险评估方法及设备 - Google Patents

一种基于多视图集成学习的金融交易风险评估方法及设备 Download PDF

Info

Publication number
CN112926989A
CN112926989A CN202110300807.7A CN202110300807A CN112926989A CN 112926989 A CN112926989 A CN 112926989A CN 202110300807 A CN202110300807 A CN 202110300807A CN 112926989 A CN112926989 A CN 112926989A
Authority
CN
China
Prior art keywords
feature
view
formula
clustering
ensemble learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110300807.7A
Other languages
English (en)
Other versions
CN112926989B (zh
Inventor
高英
曾行
肖皓朗
梁凌睿
林菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110300807.7A priority Critical patent/CN112926989B/zh
Publication of CN112926989A publication Critical patent/CN112926989A/zh
Application granted granted Critical
Publication of CN112926989B publication Critical patent/CN112926989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及金融风险评估算法领域,尤其涉及一种基于多视图集成学习的金融交易风险评估方法,目的是对金融交易数据(如信用贷款、在线支付)进行信息挖掘,继而对存在风险的交易记录进行识别的金融交易风险评估方法,包括四个步骤:S1:先决条件处理;约定判断标准,而后选择原始样本数据,根据判断标准对样本数据进行初步筛选;S2:基于聚类的视图划分;S3:基于特征分布的视图权重计算;对视图集合内的每一个视图分配决策权重;S4:基于决策树的集成学习算法的集成学习;结合判断标准,得到该视图的基于判断标准下的类别标签。

Description

一种基于多视图集成学习的金融交易风险评估方法及设备
技术领域
本发明涉及金融风险评估算法领域,尤其涉及一种基于多视图集成学习的金融交易风险评估方法。
背景技术
在金融风险防控领域中,相关研究已经提出了许多风险评估和欺诈检测方法。这些方法可以分为三类,包括基于专业知识的风控方法、基于统计学的风控方法和基于机器学习的风控方法。
1.基于专业知识的风控方法
早先,金融领域中的风险防控主要依靠金融机构或监管机构的专业人员的主观判断,风险防控的准确率受到专业人员的知识水平、业务能力和从业经验的影响。
2.基于统计学的风控方法
随着数据科学的发展,开始出现了基于统计学的金融风险防控方法。Emekter等人使用Logistic回归分析特征和违约概率之间的关系,并采用实际的违约风险来衡量分析结果的可靠性。统计学方法是以理论为驱动的,强调数据分布假设、模型推导、参数推断和可解释性,这使得统计学方法在金融风险防控领域有着广泛的应用。但也正因为如此,这些统计学方法往往只能分析特征和金融风险之间的简单关系,不足以揭示不同变量之间可能存在的复杂非线性关系。
3.基于机器学习的风控方法
随着机器学习在各个领域大放异彩,金融风险防控领域开始探索机器学习方法预测信贷违约、信用卡欺诈等应用。Sahil等人使用了包括逻辑回归、支持向量机、随机森林、梯度提升树等十种有监督的机器学习算法检测交易欺诈。Serrano-Cinca等人使用决策树揭示了P2P借贷中特征和风险评级之间的非线性关系。Alex等人提出了一种改进的贝叶斯网络分类器,将其应用到信用卡欺诈检测任务中。相关研究表明,基于机器学习的方法具有较高的准确率。然而,现有的这些方法往往在处理数据特征时,将其当成单一的视图进行看待,无法高效利用各个特征背后的业务关联性,因此模型的预测性能仍然存在较大的提升空间。
发明内容
针对现有技术中所存在的不足,本发明提供了一种基于多视图集成学习的金融交易风险评估方法,目的是对金融交易数据(如信用贷款、在线支付)进行信息挖掘,继而对存在风险的交易记录进行识别的金融交易风险评估方法。
根据本发明的实施例,一种基于多视图集成学习的金融交易风险评估方法,包括下述步骤:
S1:先决条件处理;约定判断标准,而后选择原始样本数据,根据判断标准对样本数据进行初步筛选;
S2:基于聚类的视图划分;从筛选后的样本数据中进行特征采集,将采集到的所有特征视为一个数据集,预设视图划分数,通过视图划分数确定初始聚类中心的个数,依次计算原始特征集合中的每个特征到聚类中心的距离,并将其分配到距离最小的聚类中心所对应的类集合中,并不断更新类集合的聚类中心,而后输出聚类后的特征子集的集合可以得到一个视图集合;
S3:基于特征分布的视图权重计算;对视图集合内的每一个视图分配决策权重;
S4:基于决策树的集成学习算法的集成学习;根据S2中得到的特征子集的集合,将原始的特征空间映射为一组特征子空间,然后使用基于决策树的集成学习算法作为每个特征子集对应的视图的训练的基分类器,使用加权投票的方式对所有的基分类器的分类概率进行加和汇总,结合判断标准,得到该视图的基于判断标准下的类别标签。
优选的,在S2中,将原始特征集合记为F,F={f1,f2,f3,.....f.N},预设的视图划分数为k,预设的视图划分数k与输出聚类后的特征子集的数量相对应,具体的视图划分方法流程如下:
①:随机选择k个特征作为初始的聚类中心;
C={ci|ci∈F},(|C|=k) (1)
式(1)中:C-初始的聚类中心的集合、ci-初始的聚类中心、F-原始特征集合、k-预设的视图划分数;
②:对于原始特征集合F内的某个特征fi,按公式(2)计算fi到k个初始的聚类中心的距离d,并将其分配到距离最小的聚类中心所对应的类集合Ft中,依次计算原始特征集合F内的每个特征;
d=‖fi-ci2,(ci∈C) (2)
式(2)中:d-fi到初始的聚类中心的距离、fi-数据集中的某个特征、ci-初始的聚类中心、C-初始的聚类中心的集合;
③:对于每一个类集合Ft,按照公式(3)更新它的聚类中心;
Figure BDA0002986175380000031
式(3)中:Ft-类集合、f-类集合Ft中的某个特征;
④:重复步骤②-③,直至没有特征fi再重新分配给不同的聚类中心ci,输出聚类后的特征子集的集合
Figure BDA0002986175380000032
特征子集的集合内的每个特征子集对应一个视图,即得出一个划分完成的视图集V,V={V1,V2,V3,......VL}(L=k)。
优选的,在S3中:
①:对于视图集V中的任意一个视图Vi,使用权重分量ωn描述特征数目对视图Vi权重的影响,ωn的计算方法如式(4)所示:
Figure BDA0002986175380000033
式(4)中:|Fi|-特征子集Fi中的特征数目、|F|-原始特征集合中的特征数目;
②:继续使用权重分量ωp描述特征相关性对视图Vi权重的影响,ωn的计算公式如式(5)所示:
Figure BDA0002986175380000034
式(5)中:
Figure BDA0002986175380000038
-特征子集Fi中的每个特征fi的特征距离均值;
其中
Figure BDA0002986175380000039
的计算方法如式(6)所示:
Figure BDA0002986175380000035
式(6)中:fm,fn-特征子集Fi中的两个不同特征;
③:将得到的两个权重分量ωp与ωn按照式(7)求平均值ωi,ωi即为视图Vi的最终权重;
Figure BDA0002986175380000036
式(7)中:ωi-视图Vi的最终权重。
优选的,在S4中,根据在S2中得到的若干特征子集Fi,将原始的特征空间
Figure BDA0002986175380000037
使用式(8)映射为与特征子集Fi数量对应的若干特征子空间Xi
Figure BDA0002986175380000041
式(8)中:Xi-一组特征子空间、Yi-特征子空间Xi所对应的数据样本标签、
Figure BDA0002986175380000043
-实数集、N-原始样本数据数、d-特征到初始的聚类中心的距离;
然后使用基于决策树的集成学习算法作为每个特征子集Fi对应的视图Vi的训练的基分类器,使用加权投票的方式对所有的基分类器的分类概率进行加和汇总,结合判断标准,得到视图Vi基于判断标准下的的类别标签,其计算方法如下:
Figure BDA0002986175380000042
式(9)中:CE(x)-所有的基分类器的分类概率。
优选的,S4中所述的基于决策树的集成学习算法为:梯度提升树、XGBoost、AdaBoost中的任意一种。
本发明还公开一种电子设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-4中任意一项所述的一种基于多视图集成学习的金融交易风险评估方法。
相比于现有技术,本发明具有如下有益效果:
(1)金融交易数据通常具有数据特征数目庞大、业务内在关联复杂等问题。本发明所提出的基于多视图集成学习的金融风险评估方法能够利用聚类思想将原始数据划分成差异化的多视图数据,在各个视图上所训练的基学习器将能够更加有效捕捉本视图中的风险信息,有利于最终基学习器集成后的风险识别性能的提升。
(2)金融交易数据按照多视图的方法进行划分后,各个视图的特征数目和分布往往不同,存在视图决策权重分配的问题。本发明所提出的基于多视图集成学习的金融风险评估方法能够根据划分后的各个视图中特征的数目和分布情况,衡量各个视图在决策中的重要程度,为各个视图所对应的基学习器分配合适的决策权重,提高最终集成学习器的风险识别准确率。
本发明的实现结合了多视图学习、集成学习、聚类、距离度量等多种技术手段,在金融交易风险识别中,具有准确率高、适应性强、可扩展性、可移植性等特点,算法优势显著,应用场景宽广。
附图说明
图1为本发明的逻辑流程图。
具体实施方式
下面结合附图及实施例对本发明中的技术方案进一步说明。
在金融风险防控领域中,通常能够采集得到大量的特征,这些特征不但数量十分巨大,而且具有内在关联性,难以准确划分视图。因此,本发明针对金融风险防控的视图划分问题,使用了基于K-means的视图划分方法。具体描述如下:
一种基于多视图集成学习的金融交易风险评估方法,包括下述步骤:
S1:先决条件处理;约定判断标准,而后选择原始样本数据,根据判断标准对样本数据进行初步筛选;在这里我们选择银行信用贷款场景进行说明。我们使用风险等级作为判断标准,约定分类向量(1,0,0)表示高风险客户、(0,1,0)表示中风险客户、(0,0,1)表示低风险客户;假定一开始采集到10万条客户数据,并且人为对它们标注完毕客户风险等级,得到2万条高风险客户数据、3万条中风险客户数据和5万条中风险客户数据。为了使得计算结果具有表达性以及保证方法的执行效果,筛选高中低风险客户数据各2万条,保证各个风险等级客户数量均衡;
S2:基于聚类的视图划分;从筛选后的样本数据中进行特征采集,将采集到的所有特征视为一个数据集,预设视图划分数,通过视图划分数确定初始聚类中心的个数,依次计算原始特征集合中的每个特征到聚类中心的距离,并将其分配到距离最小的聚类中心所对应的类集合中,并不断更新类集合的聚类中心,而后输出聚类后的特征子集的集合可以得到一个视图集合;
S3:基于特征分布的视图权重计算;对视图集合内的每一个视图分配决策权重;
S4:根据S2中得到的特征子集的集合,将原始的特征空间映射为一组特征子空间,然后使用基于决策树的集成学习算法作为每个特征子集对应的视图的训练的基分类器,使用加权投票的方式对所有的基分类器的分类概率进行加和汇总,结合判断标准,得到该视图的基于判断标准下的类别标签。
在S2中,将原始特征集合记为F,F={f1,f2,f3,.....f.N},在我们预设的场景中,F具体包含了“性别”、“年龄”、“年收入”、“是否有房产”、“名下信用卡数量”、“历史逾期次数”、“是否还贷中”等特征,预设的视图划分数为k,在这里将k的值设为2,预设的视图划分数k与输出聚类后的特征子集的数量相对应,具体的视图划分方法流程如下:
①:随机选择k个特征作为初始的聚类中心;假设选定了“性别”和“名下信用卡数量”,则其对应的初始的聚类中心分别记为c1和c2,则
C={c1,c2},(|C|=2) (10)
式(10)中:C-初始的聚类中心的集合、c1-初始的聚类中心“性别”、c2-初始的聚类中心“名下信用卡数量”、F-原始特征集合;
②:对于原始特征集合F内的某个特征fi,假定本次选取的特征fi是“年龄”,按公式(2)计算特征fi“年龄”到C1,C2这2个初始的聚类中心的距离,假定特征fi“年龄”到C1的距离更近,则将其分配到包含C1的类集合Ft中,而后依次计算原始特征集合F内的其余特征;
d=||fi-ci||2,(ci∈C) (2)
式(2)中:d-fi到初始的聚类中心的距离、fi-数据集中的某个特征、ci-初始的聚类中心、C-初始的聚类中心的集合;
③:对于每一个类集合Ft,按照公式(3)更新它的聚类中心,假定更新后的聚类中心由“性别”变为“年龄”;
Figure BDA0002986175380000061
式(3)中:Ft-类集合、f-类集合Ft中的某个特征;
④:重复步骤②-③,直至没有特征fi再重新分配给不同的聚类中心ci,此时每个类集合Ft将不再变化,每个类集合Ft输出后将作为后续步骤的特征子集Fi,即本次聚类结果得到的是特征子集的集合
Figure BDA0002986175380000062
这本场景中即输出1个特征子集的集合:F'={{“性别”、“年龄”}、{“年收入”、“是否有房产”、“名下信用卡数量”、“历史逾期次数”、“是否还贷中”}},特征子集的集合内的每个特征子集(本场景下含有2个特征子集)对应一个视图,即得出一个划分完成的视图集V,V={V1,V2}。
在S3中:
①:对于视图集V中的任意一个视图Vi,使用权重分量ωn描述特征数目对视图Vi权重的影响,ωn的计算方法如式(4)所示:
Figure BDA0002986175380000063
式(4)中:|Fi|-特征子集Fi中的特征数目、|F|-原始特征集合中的特征数目;
例如,对于包含“性别”的视图,它的权重分量的计算结果即为2/7;
②:继续使用权重分量ωp描述特征相关性对视图Vi权重的影响,ωn的计算公式如式(5)所示:
Figure BDA0002986175380000071
式(5)中:
Figure BDA0002986175380000072
-特征子集Fi中的每个特征fi的特征距离均值;
例如,对于视图{“性别”、“年龄”},“性别”的特征距离为2,“年龄”的特征距离为1,所有特征子集中的每个特征的特征距离均值之和为20,则权重分量的计算结果为3/20。
其中
Figure BDA0002986175380000073
的计算方法如式(6)所示:
Figure BDA0002986175380000074
式(6)中:fm,fn-特征子集Fi中的两个不同特征;
③:将得到的两个权重分量ωp与ωn按照式(7)求平均值ωi,ωi即为视图Vi的最终权重;
Figure BDA0002986175380000075
式(7)中:ωi-视图Vi的最终权重;根据上述得到的和,的计算结果为2/7+3/20=61/140,则另一个视图的计算结果会是79/140。
在S4中,根据在S2中得到的若干特征子集Fi,将原始的特征空间
Figure BDA0002986175380000076
使用式(8)映射为与特征子集Fi数量对应的若干特征子空间Xi
Figure BDA0002986175380000077
式(8)中:Xi-一组特征子空间、Yi-特征子空间Xi所对应的数据样本标签、
Figure BDA0002986175380000078
-实数集、N-原始样本数据数、d-特征到初始的聚类中心的距离;
然后使用基于决策树的集成学习算法作为每个特征子集Fi对应的视图Vi的训练的基分类器,使用加权投票的方式对所有的基分类器的分类概率进行加和汇总,结合判断标准,得到视图Vi基于判断标准下的的类别标签,其计算方法如下:
Figure BDA0002986175380000079
式(9)中:CE(x)-所有的基分类器的分类概率。
根据上文,我们得到了2个特征子空间,即2个视图,使用基于决策树的集成学习算法,在2个视图上训练得到2个基分类器,基分类器的训练过程是由计算机设备按照学习算法进行的大量运算。假定第1个基分类器在一次风险评估中输出的分类向量为(1,0,0),第2个基分类器输出的分类向量为(0,1,0),那么加权投票的最终分类向量应为(61/140,79/140,0),这个分类概率向量的最高分量是第2位,这个最终分类概率向量可以视为(0,1,0),按照一开始的约定,它对应的是中风险客户。
在步骤S4中,所述的基于决策树的集成学习算法为:梯度提升树、XGBoost、AdaBoost中的任意一种,但本发明优选为梯度提升树作为每个视图训练的基分类器。
本发明还公开了一种电子设备,包括至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上文所述的一种基于多视图集成学习的金融交易风险评估方法。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于多视图集成学习的金融交易风险评估方法,其特征在于,包括下述步骤:
S1:先决条件处理;约定判断标准,而后选择原始样本数据,根据判断标准对样本数据进行初步筛选;
S2:基于聚类的视图划分;从筛选后的样本数据中进行特征采集,将采集到的所有特征视为一个数据集,预设视图划分数,通过视图划分数确定初始聚类中心的个数,依次计算原始特征集合中的每个特征到聚类中心的距离,并将其分配到距离最小的聚类中心所对应的类集合中,并不断更新类集合的聚类中心,而后输出聚类后的特征子集的集合可以得到一个视图集合;
S3:基于特征分布的视图权重计算;对视图集合内的每一个视图分配决策权重;
S4:基于决策树的集成学习算法的集成学习;根据S2中得到的特征子集的集合,将原始的特征空间映射为一组特征子空间,然后使用基于决策树的集成学习算法作为每个特征子集对应的视图的训练的基分类器,使用加权投票的方式对所有的基分类器的分类概率进行加和汇总,结合判断标准,得到该视图的基于判断标准下的类别标签。
2.根据权利要求1所述的一种基于多视图集成学习的金融交易风险评估方法,其特征在于,在S2中,将原始特征集合记为F,F={f1,f2,f3,.....f.N},预设的视图划分数为k,预设的视图划分数k与输出聚类后的特征子集的数量相对应,具体的视图划分方法流程如下:
①:随机选择k个特征作为初始的聚类中心;
C={ci|ci∈F},(|C|=k) (1)
式(1)中:C-初始的聚类中心的集合、ci-初始的聚类中心、F-原始特征集合、k-预设的视图划分数;
②:对于原始特征集合F内的某个特征fi,按公式(2)计算fi到k个初始的聚类中心的距离d,并将其分配到距离最小的聚类中心所对应的类集合Ft中,依次计算原始特征集合F内的每个特征;
d=||fi-ci||2,(ci∈C) (2)
式(2)中:d-fi到初始的聚类中心的距离、fi-数据集中的某个特征、ci-初始的聚类中心、C-初始的聚类中心的集合;
③:对于每一个类集合Ft,按照公式(3)更新它的聚类中心;
Figure FDA0002986175370000011
式(3)中:Ft-类集合、f-类集合Ft中的某个特征;
④:重复步骤②-③,直至没有特征fi再重新分配给不同的聚类中心ci,输出聚类后的特征子集的集合
Figure FDA0002986175370000021
特征子集的集合内的每个特征子集对应一个视图,即得出一个划分完成的视图集V,V={V1,V2,V3,......VL}(L=k)。
3.根据权利要求2所述的一种基于多视图集成学习的金融交易风险评估方法,其特征在于,在S3中:
①:对于视图集V中的任意一个视图Vi,使用权重分量ωn描述特征数目对视图Vi权重的影响,ωn的计算方法如式(4)所示:
Figure FDA0002986175370000022
式(4)中:|Fi|-特征子集Fi中的特征数目、|F|-原始特征集合中的特征数目;
②:继续使用权重分量ωp描述特征相关性对视图Vi权重的影响,ωn的计算公式如式(5)所示:
Figure FDA0002986175370000023
式(5)中:
Figure FDA0002986175370000024
-特征子集Fi中的每个特征fi的特征距离均值;
其中
Figure FDA0002986175370000025
的计算方法如式(6)所示:
Figure FDA0002986175370000026
式(6)中:fm,fn-特征子集Fi中的两个不同特征;
③:将得到的两个权重分量ωp与ωn按照式(7)求平均值ωi,ωi即为视图Vi的最终权重;
Figure FDA0002986175370000027
式(7)中:ωi-视图Vi的最终权重。
4.根据权利要求3所述的一种基于多视图集成学习的金融交易风险评估方法,其特征在于,在S4中,根据在S2中得到的若干特征子集Fi,将原始的特征空间
Figure FDA0002986175370000028
使用式(8)映射为与特征子集Fi数量对应的若干特征子空间Xi
Figure FDA0002986175370000031
式(8)中:Xi-一组特征子空间、Yi-特征子空间Xi所对应的数据样本标签、
Figure FDA0002986175370000032
-实数集、N-原始样本数据数、d-特征到初始的聚类中心的距离;
然后使用基于决策树的集成学习算法作为每个特征子集Fi对应的视图Vi的训练的基分类器,使用加权投票的方式对所有的基分类器的分类概率进行加和汇总,结合判断标准,得到视图Vi基于判断标准下的的类别标签,其计算方法如下:
Figure FDA0002986175370000033
式(9)中:CE(x)-所有的基分类器的分类概率。
5.根据权利要求1所述的一种基于多视图集成学习的金融交易风险评估方法,其特征在于,S4中所述的基于决策树的集成学习算法为:梯度提升树、XGBoost、AdaBoost中的任意一种。
6.一种电子设备,其特征在于,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-5中任意一项所述的一种基于多视图集成学习的金融交易风险评估方法。
CN202110300807.7A 2021-03-22 2021-03-22 一种基于多视图集成学习的银行贷款风险评估方法及设备 Active CN112926989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110300807.7A CN112926989B (zh) 2021-03-22 2021-03-22 一种基于多视图集成学习的银行贷款风险评估方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110300807.7A CN112926989B (zh) 2021-03-22 2021-03-22 一种基于多视图集成学习的银行贷款风险评估方法及设备

Publications (2)

Publication Number Publication Date
CN112926989A true CN112926989A (zh) 2021-06-08
CN112926989B CN112926989B (zh) 2023-09-05

Family

ID=76175279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110300807.7A Active CN112926989B (zh) 2021-03-22 2021-03-22 一种基于多视图集成学习的银行贷款风险评估方法及设备

Country Status (1)

Country Link
CN (1) CN112926989B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660834A (zh) * 2022-12-23 2023-01-31 河北雄安舜耕数据科技有限公司 基于决策树的个贷风险评估方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130064444A1 (en) * 2011-09-12 2013-03-14 Xerox Corporation Document classification using multiple views
CN105590156A (zh) * 2014-11-25 2016-05-18 中国银联股份有限公司 高风险银行卡的检测方法以及数据处理装置
CN106651373A (zh) * 2016-12-02 2017-05-10 中国银联股份有限公司 一种混合欺诈交易检测分类器建立方法及装置
CN107944874A (zh) * 2017-12-13 2018-04-20 阿里巴巴集团控股有限公司 基于迁移学习的风控方法、装置及系统
US20190132224A1 (en) * 2017-10-26 2019-05-02 Accenture Global Solutions Limited Systems and methods for identifying and mitigating outlier network activity
CN111062806A (zh) * 2019-12-13 2020-04-24 合肥工业大学 个人金融信用风险评价方法、系统和存储介质
CN111127184A (zh) * 2019-11-01 2020-05-08 复旦大学 一种分布式组合信用评估方法
US20200285895A1 (en) * 2019-03-07 2020-09-10 Sony Corporation Method, apparatus and computer program for selecting a subset of training transactions from a plurality of training transactions
US20200286095A1 (en) * 2019-03-07 2020-09-10 Sony Corporation Method, apparatus and computer programs for generating a machine-learning system and for classifying a transaction as either fraudulent or genuine
CN111914060A (zh) * 2020-06-28 2020-11-10 杭州电子科技大学 一种基于在线点评数据的商户多视图特征提取及模型构建方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130064444A1 (en) * 2011-09-12 2013-03-14 Xerox Corporation Document classification using multiple views
CN105590156A (zh) * 2014-11-25 2016-05-18 中国银联股份有限公司 高风险银行卡的检测方法以及数据处理装置
CN106651373A (zh) * 2016-12-02 2017-05-10 中国银联股份有限公司 一种混合欺诈交易检测分类器建立方法及装置
US20190132224A1 (en) * 2017-10-26 2019-05-02 Accenture Global Solutions Limited Systems and methods for identifying and mitigating outlier network activity
CN107944874A (zh) * 2017-12-13 2018-04-20 阿里巴巴集团控股有限公司 基于迁移学习的风控方法、装置及系统
US20200285895A1 (en) * 2019-03-07 2020-09-10 Sony Corporation Method, apparatus and computer program for selecting a subset of training transactions from a plurality of training transactions
US20200286095A1 (en) * 2019-03-07 2020-09-10 Sony Corporation Method, apparatus and computer programs for generating a machine-learning system and for classifying a transaction as either fraudulent or genuine
CN111127184A (zh) * 2019-11-01 2020-05-08 复旦大学 一种分布式组合信用评估方法
CN111062806A (zh) * 2019-12-13 2020-04-24 合肥工业大学 个人金融信用风险评价方法、系统和存储介质
CN111914060A (zh) * 2020-06-28 2020-11-10 杭州电子科技大学 一种基于在线点评数据的商户多视图特征提取及模型构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡忠义 等: "基于多分类器动态集成的P2P违约风险评估", 《管理学报》 *
胡忠义 等: "基于多分类器动态集成的P2P违约风险评估", 《管理学报》, vol. 16, no. 6, 30 June 2019 (2019-06-30), pages 915 - 922 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660834A (zh) * 2022-12-23 2023-01-31 河北雄安舜耕数据科技有限公司 基于决策树的个贷风险评估方法
CN115660834B (zh) * 2022-12-23 2023-04-07 河北雄安舜耕数据科技有限公司 基于决策树的个贷风险评估方法

Also Published As

Publication number Publication date
CN112926989B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Bahnsen et al. Example-dependent cost-sensitive decision trees
Yue et al. A review of data mining-based financial fraud detection research
Sánchez-Lasheras et al. A hybrid device for the solution of sampling bias problems in the forecasting of firms’ bankruptcy
US20220383322A1 (en) Clustering-based data selection for optimization of risk predictive machine learning models
CN116823496A (zh) 基于人工智能的智能保险风险评估和定价系统
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN117010914A (zh) 风险团伙的识别方法、装置、计算机设备及存储介质
Dosalwar et al. Analysis of loan availability using machine learning techniques
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控系统
CN112926989A (zh) 一种基于多视图集成学习的金融交易风险评估方法及设备
CN117196813A (zh) 一种银行现金交易流程管理方法及系统
Jose et al. Detection of credit card fraud using resampling and boosting technique
Xiao et al. Explainable fraud detection for few labeled time series data
Wu et al. Customer churn prediction for commercial banks using customer-value-weighted machine learning models
US20240152818A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
CN115907954A (zh) 账户的识别方法、装置、计算机设备和存储介质
Avacharmal Leveraging Supervised Machine Learning Algorithms for Enhanced Anomaly Detection in Anti-Money Laundering (AML) Transaction Monitoring Systems: A Comparative Analysis of Performance and Explainability
CN115293783A (zh) 风险用户识别方法、装置、计算机设备和存储介质
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
Lee et al. Application of machine learning in credit risk scorecard
Mridha et al. Credit Approval Decision using Machine Learning Algorithms
CN113822751A (zh) 一种线上贷款的风险预测方法
Liu et al. A comparison of machine learning algorithms for prediction of past due service in commercial credit
Holm Machine learning and spending patterns: A study on the possibility of identifying riskily spending behaviour

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant