CN112926989A

CN112926989A - 一种基于多视图集成学习的金融交易风险评估方法及设备

Info

Publication number: CN112926989A
Application number: CN202110300807.7A
Authority: CN
Inventors: 高英; 曾行; 肖皓朗; 梁凌睿; 林菁
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-06-08
Anticipated expiration: 2041-03-22
Also published as: CN112926989B

Abstract

本发明涉及金融风险评估算法领域，尤其涉及一种基于多视图集成学习的金融交易风险评估方法，目的是对金融交易数据(如信用贷款、在线支付)进行信息挖掘，继而对存在风险的交易记录进行识别的金融交易风险评估方法，包括四个步骤：S1：先决条件处理；约定判断标准，而后选择原始样本数据，根据判断标准对样本数据进行初步筛选；S2：基于聚类的视图划分；S3：基于特征分布的视图权重计算；对视图集合内的每一个视图分配决策权重；S4：基于决策树的集成学习算法的集成学习；结合判断标准，得到该视图的基于判断标准下的类别标签。

Description

一种基于多视图集成学习的金融交易风险评估方法及设备

技术领域

本发明涉及金融风险评估算法领域，尤其涉及一种基于多视图集成学习的金融交易风险评估方法。

背景技术

在金融风险防控领域中，相关研究已经提出了许多风险评估和欺诈检测方法。这些方法可以分为三类，包括基于专业知识的风控方法、基于统计学的风控方法和基于机器学习的风控方法。

1.基于专业知识的风控方法

早先，金融领域中的风险防控主要依靠金融机构或监管机构的专业人员的主观判断，风险防控的准确率受到专业人员的知识水平、业务能力和从业经验的影响。

2.基于统计学的风控方法

随着数据科学的发展，开始出现了基于统计学的金融风险防控方法。Emekter等人使用Logistic回归分析特征和违约概率之间的关系，并采用实际的违约风险来衡量分析结果的可靠性。统计学方法是以理论为驱动的，强调数据分布假设、模型推导、参数推断和可解释性，这使得统计学方法在金融风险防控领域有着广泛的应用。但也正因为如此，这些统计学方法往往只能分析特征和金融风险之间的简单关系，不足以揭示不同变量之间可能存在的复杂非线性关系。

3.基于机器学习的风控方法

随着机器学习在各个领域大放异彩，金融风险防控领域开始探索机器学习方法预测信贷违约、信用卡欺诈等应用。Sahil等人使用了包括逻辑回归、支持向量机、随机森林、梯度提升树等十种有监督的机器学习算法检测交易欺诈。Serrano-Cinca等人使用决策树揭示了P2P借贷中特征和风险评级之间的非线性关系。Alex等人提出了一种改进的贝叶斯网络分类器，将其应用到信用卡欺诈检测任务中。相关研究表明，基于机器学习的方法具有较高的准确率。然而，现有的这些方法往往在处理数据特征时，将其当成单一的视图进行看待，无法高效利用各个特征背后的业务关联性，因此模型的预测性能仍然存在较大的提升空间。

发明内容

针对现有技术中所存在的不足，本发明提供了一种基于多视图集成学习的金融交易风险评估方法，目的是对金融交易数据(如信用贷款、在线支付)进行信息挖掘，继而对存在风险的交易记录进行识别的金融交易风险评估方法。

根据本发明的实施例，一种基于多视图集成学习的金融交易风险评估方法，包括下述步骤：

S1：先决条件处理；约定判断标准，而后选择原始样本数据，根据判断标准对样本数据进行初步筛选；

S2：基于聚类的视图划分；从筛选后的样本数据中进行特征采集，将采集到的所有特征视为一个数据集，预设视图划分数，通过视图划分数确定初始聚类中心的个数，依次计算原始特征集合中的每个特征到聚类中心的距离，并将其分配到距离最小的聚类中心所对应的类集合中，并不断更新类集合的聚类中心，而后输出聚类后的特征子集的集合可以得到一个视图集合；

S3：基于特征分布的视图权重计算；对视图集合内的每一个视图分配决策权重；

S4：基于决策树的集成学习算法的集成学习；根据S2中得到的特征子集的集合，将原始的特征空间映射为一组特征子空间，然后使用基于决策树的集成学习算法作为每个特征子集对应的视图的训练的基分类器，使用加权投票的方式对所有的基分类器的分类概率进行加和汇总，结合判断标准，得到该视图的基于判断标准下的类别标签。

优选的，在S2中，将原始特征集合记为F，F＝{f₁,f₂,f₃,.....f._N}，预设的视图划分数为k，预设的视图划分数k与输出聚类后的特征子集的数量相对应，具体的视图划分方法流程如下：

①：随机选择k个特征作为初始的聚类中心；

C＝{c_i|c_i∈F}，(|C|＝k) (1)

式(1)中：C-初始的聚类中心的集合、c_i-初始的聚类中心、F-原始特征集合、k-预设的视图划分数；

②：对于原始特征集合F内的某个特征f_i，按公式(2)计算f_i到k个初始的聚类中心的距离d，并将其分配到距离最小的聚类中心所对应的类集合F_t中，依次计算原始特征集合F内的每个特征；

d＝‖f_i-c_i‖₂，(c_i∈C) (2)

式(2)中：d-f_i到初始的聚类中心的距离、f_i-数据集中的某个特征、c_i-初始的聚类中心、C-初始的聚类中心的集合；

③：对于每一个类集合F_t，按照公式(3)更新它的聚类中心；

式(3)中：F_t-类集合、f-类集合F_t中的某个特征；

④：重复步骤②-③，直至没有特征f_i再重新分配给不同的聚类中心c_i，输出聚类后的特征子集的集合

特征子集的集合内的每个特征子集对应一个视图，即得出一个划分完成的视图集V，V＝{V₁,V₂,V₃,......V_L}(L＝k)。

优选的，在S3中：

①：对于视图集V中的任意一个视图V_i，使用权重分量ω_n描述特征数目对视图V_i权重的影响，ω_n的计算方法如式(4)所示：

式(4)中：|F_i|-特征子集F_i中的特征数目、|F|-原始特征集合中的特征数目；

②：继续使用权重分量ω_p描述特征相关性对视图V_i权重的影响，ω_n的计算公式如式(5)所示：

式(5)中：

-特征子集F_i中的每个特征f_i的特征距离均值；

其中

的计算方法如式(6)所示：

式(6)中：f_m,f_n-特征子集F_i中的两个不同特征；

③：将得到的两个权重分量ω_p与ω_n按照式(7)求平均值ω_i，ω_i即为视图V_i的最终权重；

式(7)中：ω_i-视图V_i的最终权重。

优选的，在S4中，根据在S2中得到的若干特征子集F_i，将原始的特征空间

使用式(8)映射为与特征子集F_i数量对应的若干特征子空间X_i；

式(8)中：X_i-一组特征子空间、Y_i-特征子空间X_i所对应的数据样本标签、

-实数集、N-原始样本数据数、d-特征到初始的聚类中心的距离；

然后使用基于决策树的集成学习算法作为每个特征子集F_i对应的视图V_i的训练的基分类器，使用加权投票的方式对所有的基分类器的分类概率进行加和汇总，结合判断标准，得到视图V_i基于判断标准下的的类别标签，其计算方法如下：

式(9)中：C_E(x)-所有的基分类器的分类概率。

优选的，S4中所述的基于决策树的集成学习算法为：梯度提升树、XGBoost、AdaBoost中的任意一种。

本发明还公开一种电子设备，包括：至少一个处理器以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-4中任意一项所述的一种基于多视图集成学习的金融交易风险评估方法。

相比于现有技术，本发明具有如下有益效果：

(1)金融交易数据通常具有数据特征数目庞大、业务内在关联复杂等问题。本发明所提出的基于多视图集成学习的金融风险评估方法能够利用聚类思想将原始数据划分成差异化的多视图数据，在各个视图上所训练的基学习器将能够更加有效捕捉本视图中的风险信息，有利于最终基学习器集成后的风险识别性能的提升。

(2)金融交易数据按照多视图的方法进行划分后，各个视图的特征数目和分布往往不同，存在视图决策权重分配的问题。本发明所提出的基于多视图集成学习的金融风险评估方法能够根据划分后的各个视图中特征的数目和分布情况，衡量各个视图在决策中的重要程度，为各个视图所对应的基学习器分配合适的决策权重，提高最终集成学习器的风险识别准确率。

本发明的实现结合了多视图学习、集成学习、聚类、距离度量等多种技术手段，在金融交易风险识别中，具有准确率高、适应性强、可扩展性、可移植性等特点，算法优势显著，应用场景宽广。

附图说明

图1为本发明的逻辑流程图。

具体实施方式

下面结合附图及实施例对本发明中的技术方案进一步说明。

在金融风险防控领域中，通常能够采集得到大量的特征，这些特征不但数量十分巨大，而且具有内在关联性，难以准确划分视图。因此，本发明针对金融风险防控的视图划分问题，使用了基于K-means的视图划分方法。具体描述如下：

一种基于多视图集成学习的金融交易风险评估方法，包括下述步骤：

S1：先决条件处理；约定判断标准，而后选择原始样本数据，根据判断标准对样本数据进行初步筛选；在这里我们选择银行信用贷款场景进行说明。我们使用风险等级作为判断标准，约定分类向量(1,0,0)表示高风险客户、(0,1,0)表示中风险客户、(0,0,1)表示低风险客户；假定一开始采集到10万条客户数据，并且人为对它们标注完毕客户风险等级，得到2万条高风险客户数据、3万条中风险客户数据和5万条中风险客户数据。为了使得计算结果具有表达性以及保证方法的执行效果，筛选高中低风险客户数据各2万条，保证各个风险等级客户数量均衡；

S4：根据S2中得到的特征子集的集合，将原始的特征空间映射为一组特征子空间，然后使用基于决策树的集成学习算法作为每个特征子集对应的视图的训练的基分类器，使用加权投票的方式对所有的基分类器的分类概率进行加和汇总，结合判断标准，得到该视图的基于判断标准下的类别标签。

在S2中，将原始特征集合记为F，F＝{f₁,f₂,f₃,.....f._N}，在我们预设的场景中，F具体包含了“性别”、“年龄”、“年收入”、“是否有房产”、“名下信用卡数量”、“历史逾期次数”、“是否还贷中”等特征，预设的视图划分数为k，在这里将k的值设为2，预设的视图划分数k与输出聚类后的特征子集的数量相对应，具体的视图划分方法流程如下：

①：随机选择k个特征作为初始的聚类中心；假设选定了“性别”和“名下信用卡数量”，则其对应的初始的聚类中心分别记为c₁和c₂，则

C＝{c₁，c₂}，(|C|＝2) (10)

式(10)中：C-初始的聚类中心的集合、c₁-初始的聚类中心“性别”、c₂-初始的聚类中心“名下信用卡数量”、F-原始特征集合；

②：对于原始特征集合F内的某个特征f_i，假定本次选取的特征f_i是“年龄”，按公式(2)计算特征f_i“年龄”到C₁，C₂这2个初始的聚类中心的距离，假定特征f_i“年龄”到C₁的距离更近，则将其分配到包含C₁的类集合F_t中，而后依次计算原始特征集合F内的其余特征；

d＝||f_i-c_i||₂，(c_i∈C) (2)

③：对于每一个类集合F_t，按照公式(3)更新它的聚类中心，假定更新后的聚类中心由“性别”变为“年龄”；

式(3)中：F_t-类集合、f-类集合F_t中的某个特征；

④：重复步骤②-③，直至没有特征f_i再重新分配给不同的聚类中心c_i，此时每个类集合F_t将不再变化，每个类集合F_t输出后将作为后续步骤的特征子集F_i，即本次聚类结果得到的是特征子集的集合

这本场景中即输出1个特征子集的集合：F'＝{{“性别”、“年龄”}、{“年收入”、“是否有房产”、“名下信用卡数量”、“历史逾期次数”、“是否还贷中”}}，特征子集的集合内的每个特征子集(本场景下含有2个特征子集)对应一个视图，即得出一个划分完成的视图集V，V＝{V₁,V₂}。

在S3中：

例如，对于包含“性别”的视图，它的权重分量的计算结果即为2/7；

式(5)中：

-特征子集F_i中的每个特征f_i的特征距离均值；

例如，对于视图{“性别”、“年龄”}，“性别”的特征距离为2，“年龄”的特征距离为1，所有特征子集中的每个特征的特征距离均值之和为20，则权重分量的计算结果为3/20。

其中

的计算方法如式(6)所示：

式(6)中：f_m,f_n-特征子集F_i中的两个不同特征；

式(7)中：ω_i-视图V_i的最终权重；根据上述得到的和，的计算结果为2/7+3/20＝61/140，则另一个视图的计算结果会是79/140。

在S4中，根据在S2中得到的若干特征子集F_i，将原始的特征空间

式(9)中：C_E(x)-所有的基分类器的分类概率。

根据上文，我们得到了2个特征子空间，即2个视图，使用基于决策树的集成学习算法，在2个视图上训练得到2个基分类器，基分类器的训练过程是由计算机设备按照学习算法进行的大量运算。假定第1个基分类器在一次风险评估中输出的分类向量为(1,0,0)，第2个基分类器输出的分类向量为(0,1,0)，那么加权投票的最终分类向量应为(61/140,79/140,0)，这个分类概率向量的最高分量是第2位，这个最终分类概率向量可以视为(0,1,0)，按照一开始的约定，它对应的是中风险客户。

在步骤S4中，所述的基于决策树的集成学习算法为：梯度提升树、XGBoost、AdaBoost中的任意一种，但本发明优选为梯度提升树作为每个视图训练的基分类器。

本发明还公开了一种电子设备，包括至少一个处理器以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上文所述的一种基于多视图集成学习的金融交易风险评估方法。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。