CN117078007A - 一种融合尺度标签的多尺度风控系统及其方法 - Google Patents
一种融合尺度标签的多尺度风控系统及其方法 Download PDFInfo
- Publication number
- CN117078007A CN117078007A CN202311028075.6A CN202311028075A CN117078007A CN 117078007 A CN117078007 A CN 117078007A CN 202311028075 A CN202311028075 A CN 202311028075A CN 117078007 A CN117078007 A CN 117078007A
- Authority
- CN
- China
- Prior art keywords
- term
- long
- short
- scale
- risk feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 205
- 230000007774 longterm Effects 0.000 claims abstract description 201
- 238000012549 training Methods 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 29
- 238000013527 convolutional neural network Methods 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 19
- 238000011176 pooling Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Abstract
本申请公开了一种融合尺度标签的多尺度风控系统及其方法,其通过根据产品的实际期数分别确定长期表现期以及短期表现期,同时定义坏客户的逾期程度,并基于选定的长期、短期表现期和逾期程度构建长期y标签和短期y标签;接着,使用机器学习模型从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量。进而融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量,并基于此来确定长期逾期概率和短期逾期概率,进而降低风控环节的复杂度和操作风险。
Description
技术领域
本申请涉及多尺度风控领域,且更为具体地,涉及一种融合尺度标签的多尺度风控系统及其方法。
背景技术
风控模型是大数据风控体系中的核心部件。风控模型需识别出逾期风险较高的用户并加以针对性管控,进而实现控制风险,提高收益的目标。风控模型多为有监督学习模型,因此在建模过程中需要事先定义y标签(即如何定义逾期用户)。风控模型的y标签定义包括表现期及逾期程度两方面。表现期指放款后的时间周期(如3/6/12期),逾期程度指逾期天数(如15天/30天)。通过组合不同的表现期和逾期程度,可得到不同的y标签(如3期内是否逾期15天以上,6期内是否逾期30天以上)。
不同时间尺度下的y标签所对应的逾期用户各不相同,导致其逾期的原因也有差别。短期内逾期的用户通常还款意愿较低,短期内未逾期而长期内逾期的用户通常还款能力较低。为保证放款全周期风险可控,风控模型需准确识别出上述两类不同尺度下的高风险用户。然而,受制于不同尺度下逾期用户的本质差异,基于短期y标签构建的模型通常难以准确识别长期高风险用户,基于长期y标签构建的模型反过来也难以准确识别短期高风险用户。
为解决上述问题,通常需基于短期y标签和长期y标签分别构建模型,这不仅会增加建模时间成本,且在实际应用时需要部署、调用多个模型,进而增加了风控环节的复杂度和操作风险。
因此,期待一种优化的融合尺度标签的多尺度风控方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种融合尺度标签的多尺度风控系统及其方法,其通过根据产品的实际期数分别确定长期表现期以及短期表现期,同时定义坏客户的逾期程度,并基于选定的长期、短期表现期和逾期程度构建长期y标签和短期y标签;接着,使用机器学习模型从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量。进而融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量,并基于此来确定长期逾期概率和短期逾期概率。
根据本申请的一个方面,提供了一种融合尺度标签的多尺度风控方法,其包括:
获取待评估用户的短期标签记录和长期标签记录;
从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量;
融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量;以及
基于所述多尺度风险特征向量,确定长期逾期概率和短期逾期概率。
根据本申请的另一个方面,提供了一种融合尺度标签的多尺度风控系统,其包括:
信息获取模块,用于获取待评估用户的短期标签记录和长期标签记录;
风险特征提取模块,用于从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量;
融合模块,用于融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量;以及
逾期概率生成模块,用于基于所述多尺度风险特征向量,确定长期逾期概率和短期逾期概率。
与现有技术相比,本申请提供的一种融合尺度标签的多尺度风控系统及其方法,其通过根据产品的实际期数分别确定长期表现期以及短期表现期,同时定义坏客户的逾期程度,并基于选定的长期、短期表现期和逾期程度构建长期y标签和短期y标签;接着,接着,使用机器学习模型从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量。进而融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量,并基于此来确定长期逾期概率和短期逾期概率,进而降低风控环节的复杂度和操作风险。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的融合尺度标签的多尺度风控方法的流程图;
图2为根据本申请实施例的融合尺度标签的多尺度风控方法的系统架构图;
图3为根据本申请实施例的融合尺度标签的多尺度风控方法的训练阶段的流程图;
图4为根据本申请实施例的融合尺度标签的多尺度风控系统的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
不同时间尺度下的y标签所对应的逾期用户各不相同,导致其逾期的原因也有差别。短期内逾期的用户通常还款意愿较低,短期内未逾期而长期内逾期的用户通常还款能力较低。为保证放款全周期风险可控,风控模型需准确识别出上述两类不同尺度下的高风险用户。然而,受制于不同尺度下逾期用户的本质差异,基于短期y标签构建的模型通常难以准确识别长期高风险用户,基于长期y标签构建的模型反过来也难以准确识别短期高风险用户。为解决上述问题,通常需基于短期y标签和长期y标签分别构建模型,这不仅会增加建模时间成本,且在实际应用时需要部署、调用多个模型,进而增加了风控环节的复杂度和操作风险。
因此,期待一种优化的融合尺度标签的多尺度风控方案。
在本申请的技术方案中,提出了一种融合尺度标签的多尺度风控系统及其方法。图1为根据本申请实施例的融合尺度标签的多尺度风控方法的流程图。图2为根据本申请实施例的融合尺度标签的多尺度风控方法的系统架构图。如图1和图2所示,根据本申请的实施例的融合尺度标签的多尺度风控方法,包括步骤:S1,获取待评估用户的短期标签记录和长期标签记录;S2,从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量;S3,融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量;以及,S4,基于所述多尺度风险特征向量,确定长期逾期概率和短期逾期概率。
具体地,在步骤S1中,获取待评估用户的短期标签记录和长期标签记录。所述短期标签记录和长期标签记录分别为0101的二级制序列。
根据本申请的实施例,首先根据产品的实际期数分别确定长期表现期以及短期表现期,同时定义坏客户的逾期程度,并基于选定的长期、短期表现期和逾期程度构建长期y标签和短期y标签。接着,将建模样本中所有记录拆分为短期标签记录和长期标签记录,拆分后的两条记录原入模变量完全相同,另外加入尺度标签作为新入模变量,取值0或1,其中,当尺度标签为0时,该条记录包含原入模变量和新加入的尺度标签0,y标签取短期y标签,并且,当尺度标签为1时,该条记录包含原入模变量和新加入的尺度标签1,y标签取长期y标签。相应的,若原样本有1000条记录,在拆分后建模样本应有2000条记录,分别为原样本对应的长期标签记录和短期标签记录。进一步地,基于处理后的样本进行建模,模型输入为待评估用户的短期标签记录和长期标签记录,模型输出为长期逾期概率和短期逾期概率。
具体地,在步骤S2中,从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量。也就是,使用机器学习模型作为特征提取器从所述短期标签记录和所述长期标签记录提取短期违约记录特征和长期违约记录特征。特别地,在本申请的一个具体示例中,所述S2,包括:将所述待评估用户的短期标签记录通过基于一维卷积神经网络模型的短期风险特征提取器以得到短期风险特征向量。也就是,在本申请的技术方案中,使用基于一维卷积神经网络模型的短期风险特征提取器对所述待评估用户的短期标签记录进行一维卷积编码以捕捉短期标签记录中各个局部邻域内的短期标签信息之间的关联模式特征。
根据本申请的实施例,将所述待评估用户的短期标签记录通过基于一维卷积神经网络模型的短期风险特征提取器以得到短期风险特征向量,包括:将所述待评估用户的短期标签记录展开为短期标签记录输入向量,使用所述基于一维卷积神经网络模型的短期风险特征提取器的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于一维卷积神经网络模型的短期风险特征提取器的最后一层的输出为所述短期风险特征向量,所述基于一维卷积神经网络模型的短期风险特征提取器的第一层的输入为所述短期标签记录输入向量。
一维卷积神经网络(1D CNN)是一种用于处理序列数据的深度学习模型。与传统的卷积神经网络(CNN)不同,1D CNN在卷积操作时只在一个维度上进行滑动,适用于处理一维序列数据,例如时间序列数据、文本数据等。1D CNN的结构和原理如下:输入层:接受一维序列数据作为输入。输入数据的形状通常为(样本数,时间步长,特征数);卷积层:卷积层是1DCNN的核心部分。它使用一组可学习的卷积核(也称为滤波器)在输入数据上进行滑动操作,提取局部特征。卷积操作可以看作是对输入数据进行滤波,通过计算输入数据与卷积核的点积来得到特征图;池化层:池化层用于降低特征图的维度,减少模型的参数量,并且可以提取特征的空间层次结构。常见的池化操作包括最大池化和平均池化,它们分别取特征图中每个区域的最大值或平均值作为池化结果;激活函数:在卷积层和池化层之后,通常会添加激活函数来引入非线性。常用的激活函数包括ReLU(Rectified Linear Unit)、sigmoid和tanh等;全连接层:全连接层将池化层的输出展平成一维向量,并将其连接到一个或多个全连接层。全连接层的作用是将高层次的特征与分类器相连接,进行最终的分类或回归;输出层:输出层根据具体的任务需求确定,可以是一个或多个神经元,使用不同的激活函数进行分类、回归或其他任务。
更具体地,在本申请的一个具体示例中,所述S2,包括:将所述待评估用户的长期标签记录通过基于多尺度邻域特征提取模块的长期风险特征提取器以得到长期风险特征向量。其中,所述多尺度邻域特征提取模块包括并行的第一卷积层和第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的特征融合层,其中,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。也就是,使用所述基于多尺度邻域特征提取模块的长期风险特征提取器对所述长期标签记录进行多尺度一维卷积编码以得到所述长期风险特征向量。
根据本申请的实施例,将所述待评估用户的长期标签记录通过基于多尺度邻域特征提取模块的长期风险特征提取器以得到长期风险特征向量,包括:首先,将所述待评估用户的长期标签记录展开为长期标签记录输入向量,接着,将所述长期标签记录输入向量输入所述基于多尺度邻域特征提取模块的长期风险特征提取器的第一卷积层以得到第一邻域尺度长期风险特征向量,其中,所述第一卷积层具有第一长度的第一一维卷积核;将所述长期标签记录输入向量输入所述基于多尺度邻域特征提取模块的长期风险特征提取器的第二卷积层以得到第二邻域尺度长期风险特征向量,其中,所述第二卷积层具有第二长度的第二一维卷积核,所述第一长度不同于所述第二长度;以及,将所述第一邻域尺度长期风险特征向量和所述第二邻域尺度长期风险特征向量进行级联以得到所述长期风险特征向量。其中,将所述长期标签记录输入向量输入所述基于多尺度邻域特征提取模块的长期风险特征提取器的长期风险特征提取器的第一卷积层以得到第一邻域尺度长期风险特征向量,包括:使用所述多尺度邻域特征提取模块的第一卷积层以如下一维卷积公式对所述长期标签记录输入向量进行一维卷积编码以得到所述第一邻域尺度长期风险特征向量; 其中,所述公式为:
其中,a为第一卷积核在x方向上的宽度、为第一卷积核参数向量、/>为与卷积核函数运算的局部向量矩阵,w为第一一维卷积核的尺寸,X表示所述长期标签记录输入向量,/>表示对所述长期标签记录输入向量进行一维卷积编码;以及,将所述长期标签记录输入向量输入所述基于多尺度邻域特征提取模块的长期风险特征提取器的第二卷积层以得到第二邻域尺度长期风险特征向量,包括:使用所述基于多尺度邻域特征提取模块的长期风险特征提取器的第二卷积层以如下一维卷积公式对所述长期标签记录输入向量进行一维卷积编码以得到所述第二邻域尺度长期风险特征向量;其中,所述公式为:
其中,b为第二卷积核在x方向上的宽度、为第二卷积核参数向量、/>为与卷积核函数运算的局部向量矩阵,m为第二一维卷积核的尺寸,X表示所述长期标签记录输入向量,/>表示对所述长期标签记录输入向量进行一维卷积编码。
值得注意的是,应用于短期标签记录和长期标签记录的机器学习模型为不同类型的模型,但两者所采用的模型具有关联性,其中,所述关联性为两者都使用一维卷积编码,差异性在于所述基于多尺度邻域特征提取模块的长期风险特征提取器进行的是多尺度一维卷积编码,其原因为在处理所述长期标签记录中更期待捕捉所述长期标签记录中短程和长程的局部关联模式特征信息。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量,例如:数据预处理:首先,对短期标签记录进行数据预处理,包括数据清洗、缺失值处理和数据归一化等操作;特征选择:从短期标签记录中选择与风险相关的特征。可以使用统计方法、领域知识或特征选择算法来确定最相关的特征;特征编码:对选定的特征进行编码,将其转化为计算机可处理的形式。常用的编码方法包括独热编码、标签编码等;构建输入序列:将编码后的特征按照时间顺序组成输入序列。可以根据需求设置序列的长度;一维卷积神经网络(1DCNN):使用1D CNN模型对输入序列进行特征提取。1D CNN通过卷积和池化操作提取序列数据中的局部特征;特征向量提取:从1D CNN的输出中提取短期风险特征向量。可以通过全连接层、池化层或其他方法来提取特征向量。对于长期风险特征向量的提取:数据预处理:同样,对长期标签记录进行数据预处理,包括数据清洗、缺失值处理和数据归一化等操作;特征选择:从长期标签记录中选择与风险相关的特征。可以使用统计方法、领域知识或特征选择算法来确定最相关的特征;特征编码:对选定的特征进行编码,将其转化为计算机可处理的形式;构建特征向量:将编码后的特征组成长期风险特征向量。可以根据需求设置特征向量的维度。
具体地,在步骤S3中,融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量。也就是,在得到所述短期风险特征向量和所述长期风险特征向量,进一步融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量。特别地,在本申请一个具体的示例中,使用级联函数来融合所述短期风险特征向量和所述长期风险特征向量以得到所述多尺度风险特征向量,其中,所述级联函数用公式可表示为:
其中,和/>均表示对输入进行点卷积、/>为激活函数,[]表示拼接操作,/>表示所述短期风险特征向量中各个位置的特征值,/>表示所述长期风险特征向量中各个位置的特征值。这里,所述级联函数能够使得网络具有一定逻辑推理能力,挖掘所述短期风险特征向量和所述长期风险特征向量之间的关联信息,以利于提高后续长期逾期概率和短期逾期概率的计算精准度。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量,例如:数据预处理:对短期风险特征向量和长期风险特征向量进行预处理,包括数据清洗、缺失值处理和标准化等;特征选择:根据任务需求和特征的相关性,选择合适的短期风险特征和长期风险特征;特征编码:对选定的短期风险特征和长期风险特征进行编码,例如使用独热编码、标签编码或者数值编码等;多尺度邻域特征提取模块:设计一个多尺度邻域特征提取模块,用于从短期风险特征向量和长期风险特征向量中提取多尺度的邻域特征。这可以通过使用滑动窗口或者卷积操作来实现;特征向量提取:将提取的多尺度邻域特征合并为一个多尺度风险特征向量。可以通过连接、加权平均或者其他融合方法来实现。
具体地,在步骤S4中,基于所述多尺度风险特征向量,确定长期逾期概率和短期逾期概率。特别地,在本申请一个具体的示例中,所述S4,包括:将所述多尺度风险特征向量通过第一分类器和第二分类器以得到第一概率值和第二概率值,所述第一概率值和所述第二概率值分别表示长期逾期概率和短期逾期概率。也就是,在本申请的技术方案中,在得到所述多尺度风险特征向量后,分别训练两个具有不同参数的分类器(第一分类器和第二分类器)以分别计算长期逾期概率和短期逾期概率。这里,应所述多尺度风险特征向量包含短期违约信息和长期违约信息,而所述第一分类器和所述第二分类器又分别通过不同的训练策略获得,因此,所述第一分类器在进行长期逾期概率的计算时是同时基于短期违约信息和长期违约信息来进行长期预期概率计算,而所述第二分类器在进行短期逾期概率的计算时是同时基于短期违约信息和长期违约信息来进行短期预期概率计算,通过这样的方式,实现融合尺度标签的多尺度风控目的。
分类器是一种机器学习模型或算法,用于将输入数据分配到不同的类别或标签中。分类器是监督学习中的一种常见模型,其训练过程基于已知的输入样本和对应的标签,以学习如何将新的未标记样本分类到正确的类别中。分类器的训练过程通常涉及以下步骤:准备训练数据集,包括输入特征和对应的标签;选择合适的分类器算法;使用训练数据集对分类器进行训练,通过调整模型的参数或优化算法来最小化分类误差或最大化分类准确率;使用验证数据集评估分类器的性能,进行模型选择和调优;最终,使用训练好的分类器对新的未标记样本进行分类预测。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式基于所述多尺度风险特征向量,确定长期逾期概率和短期逾期概率,例如:数据准备:收集包括多尺度风险特征向量、标签(逾期/非逾期)和其他相关数据的训练集和测试集;特征选择:根据任务需求和特征的相关性,选择合适的多尺度风险特征;模型选择:根据任务的特点和数据集的规模,选择合适的机器学习模型或算法来建立逾期概率预测模型。常见的模型包括逻辑回归、支持向量机、决策树等;训练模型:使用训练集对所选模型进行训练。通过迭代优化模型参数,使模型能够更好地拟合训练数据,提高预测准确性;模型评估:使用测试集评估训练好的模型的性能。常用的评估指标包括准确率、精确率、召回率、F1分数等;长期逾期概率预测:使用训练好的模型对新的样本进行预测,得到长期逾期概率。这可以通过模型的输出(例如逻辑回归的概率值)来实现;短期逾期概率预测:根据任务需求,可以使用不同的方法来估计短期逾期概率。例如,可以使用时间序列分析方法、回归方法或者其他预测模型来预测短期逾期概率。
应可以理解,在利用上述神经网络模型进行推断之前,需要对所述基于一维卷积神经网络模型的短期风险特征提取器、所述基于多尺度邻域特征提取模块的长期风险特征提取器、所述第一分类器和所述第二分类器进行训练。也就是说,在本申请的融合尺度标签的多尺度风控方法中,还包括训练阶段,用于对所述基于一维卷积神经网络模型的短期风险特征提取器、所述基于多尺度邻域特征提取模块的长期风险特征提取器、所述第一分类器和所述第二分类器进行训练。
图3为根据本申请实施例的融合尺度标签的多尺度风控方法的训练阶段的流程图。如图3所示,根据本申请实施例的融合尺度标签的多尺度风控方法,包括:训练阶段,包括:S110,获取训练数据,所述训练数据包括待评估用户的训练短期标签记录和训练长期标签记录;S120,基于所述基于一维卷积神经网络模型的短期风险特征提取器和所述基于多尺度邻域特征提取模块的长期风险特征提取器,从所述训练短期标签记录和所述训练长期标签记录提取训练短期风险特征向量和训练长期风险特征向量;S130,融合所述训练短期风险特征向量和所述训练长期风险特征向量以得到训练多尺度风险特征向量;S140,将所述训练多尺度风险特征向量通过第一分类器和第二分类器以得到第一分类损失函数值和第二分类损失函数值;S150,计算所述训练短期风险特征向量和所述训练长期风险特征向量之间的共有流形隐式相似性因数;S160,以所述第一分类损失函数值、所述第二分类损失函数值和所述共有流形隐式相似性因数的加权和作为损失函数值,对所述基于一维卷积神经网络模型的短期风险特征提取器、所述基于多尺度邻域特征提取模块的长期风险特征提取器、所述第一分类器和所述第二分类器进行训练。
特别地,在本申请的技术方案中,所述短期风险特征向量和所述长期风险特征向量分别表达所述待评估用户的短期标签记录和长期标签记录的局部文本语义关联特征,考虑到所述短期标签记录和所述长期标签记录自身的源数据在文本表达尺度上的差异,所述长期风险特征向量在表达多尺度局部文本语义关联的同时,也会相对于所述短期风险特征向量产生关联尺度表达上的差异。这样,在使用级联函数来融合所述短期风险特征向量和所述长期风险特征向量时,尽管通过点卷积和激活操作可以一定程度上构建所述短期风险特征向量和所述长期风险特征向量的关联性,但作为级联表示,所述多尺度风险特征向量在融合所述短期风险特征向量和所述长期风险特征向量各自的特征表达在高维特征空间内的特征流形差异时,仍期望提升融合后的高维特征分布的高维特征流形的几何单调性,从而避免所述多尺度风险特征向量通过分类器进行分类回归时的收敛困难。基于此,本申请的申请人考虑通过所述短期风险特征向量和所述长期风险特征向量在经由关联表达之后的特征流形的共有流形来进行流形几何约束,也就是,针对所述短期风险特征向量和所述长期风险特征向量/>引入特征向量的共有流形隐式相似性因数作为损失函数,具体表示为:
其中表示所述短期风险特征向量,/>表示所述长期风险特征向量,/>表示向量的二范数,且/>表示矩阵的Frobenius范数的平方根,所述短期风险特征向量和所述长期风险特征向量均为列向量形式,/>、/>、/>和/>为权重超参数,/>表示向量乘法,/>表示按位置点乘,/>表示按位置差分,/>表示所述共有流形隐式相似性损失函数值。这里,所述共有流形隐式相似性因数可以以所述短期风险特征向量/>和所述长期风险特征向量/>间的结构化关联来表示各自特征流形在交叉维度下的共有流形,并以相同因数化权重来共享特征向量的差异性、对应性、关联性等流形结构性因素的共同约束,从而对依赖共有流形的几何衍生结构表示的分布相似性进行度量,以实现所述短期风险特征向量/>和所述长期风险特征向量/>的融合特征的非线性几何单调性,以提升所述多尺度风险特征向量通过分类器进行分类回归时的收敛效果。
综上,根据本申请实施例的融合尺度标签的多尺度风控方法被阐明,其通过根据产品的实际期数分别确定长期表现期以及短期表现期,同时定义坏客户的逾期程度,并基于选定的长期、短期表现期和逾期程度构建长期y标签和短期y标签;接着,接着,使用机器学习模型从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量。进而融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量,并基于此来确定长期逾期概率和短期逾期概率。
进一步地,还提供一种融合尺度标签的多尺度风控系统。
图4为根据本申请实施例的融合尺度标签的多尺度风控系统的框图。如图4所示,根据本申请实施例的融合尺度标签的多尺度风控系统300,包括:信息获取模块310,用于获取待评估用户的短期标签记录和长期标签记录;风险特征提取模块320,用于从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量;融合模块330,用于融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量;以及,逾期概率生成模块340,用于基于所述多尺度风险特征向量,确定长期逾期概率和短期逾期概率。
如上所述,根据本申请实施例的融合尺度标签的多尺度风控系统300可以实现在各种无线终端中,例如具有融合尺度标签的多尺度风控算法的服务器等。在一种可能的实现方式中,根据本申请实施例的融合尺度标签的多尺度风控系统300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该融合尺度标签的多尺度风控系统300可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该融合尺度标签的多尺度风控系统300同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该融合尺度标签的多尺度风控系统300与该无线终端也可以是分立的设备,并且该融合尺度标签的多尺度风控系统300可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
1)根据产品的实际期数分别确定长期表现期以及短期表现期,同时定义坏客户的逾期程度,并基于选定的长期、短期表现期和逾期程度构建长期y标签和短期y标签。
2)将建模样本中所有记录拆分为短期标签记录和长期标签记录,拆分后的两条记录原入模变量完全相同,另外加入尺度标签作为新入模变量,取值0或1:
- 当尺度标签为0时,该条记录包含原入模变量和新加入的尺度标签0,y标签取短期y标签;
- 当尺度标签为1时,该条记录包含原入模变量和新加入的尺度标签1,y标签取长期y标签。
若原样本有1000条记录,在拆分后建模样本应有2000条记录,分别为原样本对应的长期标签记录和短期标签记录。
3)基于处理后的样本进行建模,模型输入为原入模变量和尺度标签,模型输出为y标签,可选用XGboost、LGBM等有监督学习方法训练模型。
使用方法:
1)将尺度标签置0,与最终入模变量一同输入模型,得短期逾期概率
2)将尺度标签置1,与最终入模变量一同输入模型,得长期逾期概率
本发明所提出的融合长短期逾期标签的建模方法可在单个模型中同时捕捉到用户的长期、短期风险特征。在实际应用中通过输入尺度标签,可同时获取用户的长期逾期风险和短期逾期风险。本发明有效降低了建模时间成本、模型应用复杂度和潜在操作风险。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种融合尺度标签的多尺度风控方法,其特征在于,包括:
获取待评估用户的短期标签记录和长期标签记录;
从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量;
融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量;以及
基于所述多尺度风险特征向量,确定长期逾期概率和短期逾期概率。
2.根据权利要求1所述的融合尺度标签的多尺度风控方法,其特征在于,从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量,包括:
将所述待评估用户的短期标签记录通过基于一维卷积神经网络模型的短期风险特征提取器以得到短期风险特征向量。
3.根据权利要求2所述的融合尺度标签的多尺度风控方法,其特征在于,从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量,还包括:将所述待评估用户的长期标签记录通过基于多尺度邻域特征提取模块的长期风险特征提取器以得到长期风险特征向量。
4.根据权利要求3所述的融合尺度标签的多尺度风控方法,其特征在于,所述多尺度邻域特征提取模块包括并行的第一卷积层和第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的特征融合层,其中,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。
5.根据权利要求4所述的融合尺度标签的多尺度风控方法,其特征在于,融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量,包括:使用级联函数来融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量。
6.根据权利要求5所述的融合尺度标签的多尺度风控方法,其特征在于,基于所述多尺度风险特征向量,确定长期逾期概率和短期逾期概率,包括:将所述多尺度风险特征向量通过第一分类器和第二分类器以得到第一概率值和第二概率值,所述第一概率值和所述第二概率值分别表示长期逾期概率和短期逾期概率。
7.根据权利要求6所述的融合尺度标签的多尺度风控方法,其特征在于,还包括训练步骤:对所述基于一维卷积神经网络模型的短期风险特征提取器、所述基于多尺度邻域特征提取模块的长期风险特征提取器、所述第一分类器和所述第二分类器进行训练。
8.根据权利要求7所述的融合尺度标签的多尺度风控方法,其特征在于,所述训练步骤,包括:
获取训练数据,所述训练数据包括待评估用户的训练短期标签记录和训练长期标签记录;
基于所述基于一维卷积神经网络模型的短期风险特征提取器和所述基于多尺度邻域特征提取模块的长期风险特征提取器,从所述训练短期标签记录和所述训练长期标签记录提取训练短期风险特征向量和训练长期风险特征向量;
融合所述训练短期风险特征向量和所述训练长期风险特征向量以得到训练多尺度风险特征向量;
将所述训练多尺度风险特征向量通过第一分类器和第二分类器以得到第一分类损失函数值和第二分类损失函数值;
计算所述训练短期风险特征向量和所述训练长期风险特征向量之间的共有流形隐式相似性因数;
以所述第一分类损失函数值、所述第二分类损失函数值和所述共有流形隐式相似性因数的加权和作为损失函数值,对所述基于一维卷积神经网络模型的短期风险特征提取器、所述基于多尺度邻域特征提取模块的长期风险特征提取器、所述第一分类器和所述第二分类器进行训练。
9.根据权利要求8所述的融合尺度标签的多尺度风控方法,其特征在于,计算所述训练短期风险特征向量和所述训练长期风险特征向量之间的共有流形隐式相似性因数,包括:以如下公式计算所述训练短期风险特征向量和所述训练长期风险特征向量之间的共有流形隐式相似性因数;
其中,所述公式为:
其中表示所述短期风险特征向量,/>表示所述长期风险特征向量,/>表示向量的二范数,且/>表示矩阵的Frobenius范数的平方根,所述短期风险特征向量和所述长期风险特征向量均为列向量形式,/>、/>、/>和/>为权重超参数,/>表示向量乘法,/>表示按位置点乘,/>表示按位置差分,/>表示所述共有流形隐式相似性损失函数值。
10.一种融合尺度标签的多尺度风控系统,其特征在于,包括:
信息获取模块,用于获取待评估用户的短期标签记录和长期标签记录;
风险特征提取模块,用于从所述短期标签记录和所述长期标签记录提取短期风险特征向量和长期风险特征向量;
融合模块,用于融合所述短期风险特征向量和所述长期风险特征向量以得到多尺度风险特征向量;以及
逾期概率生成模块,用于基于所述多尺度风险特征向量,确定长期逾期概率和短期逾期概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311028075.6A CN117078007A (zh) | 2023-08-16 | 2023-08-16 | 一种融合尺度标签的多尺度风控系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311028075.6A CN117078007A (zh) | 2023-08-16 | 2023-08-16 | 一种融合尺度标签的多尺度风控系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117078007A true CN117078007A (zh) | 2023-11-17 |
Family
ID=88718824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311028075.6A Pending CN117078007A (zh) | 2023-08-16 | 2023-08-16 | 一种融合尺度标签的多尺度风控系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078007A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333290A (zh) * | 2023-12-01 | 2024-01-02 | 杭银消费金融股份有限公司 | 一种一体化多尺度风控模型构建方法 |
-
2023
- 2023-08-16 CN CN202311028075.6A patent/CN117078007A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333290A (zh) * | 2023-12-01 | 2024-01-02 | 杭银消费金融股份有限公司 | 一种一体化多尺度风控模型构建方法 |
CN117333290B (zh) * | 2023-12-01 | 2024-03-26 | 杭银消费金融股份有限公司 | 一种一体化多尺度风控模型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034368B (zh) | 一种基于dnn的复杂设备多重故障诊断方法 | |
CN111553759A (zh) | 一种产品信息推送方法、装置、设备及存储介质 | |
CN116795886B (zh) | 用于销售数据的数据分析引擎及方法 | |
CN116663568B (zh) | 基于优先级的关键任务识别系统及其方法 | |
CN114612251A (zh) | 风险评估方法、装置、设备及存储介质 | |
CN114048468A (zh) | 入侵检测的方法、入侵检测模型训练的方法、装置及介质 | |
CN117078007A (zh) | 一种融合尺度标签的多尺度风控系统及其方法 | |
CN110852881A (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN112560997A (zh) | 故障识别模型训练方法、故障识别方法及相关装置 | |
CN116257759A (zh) | 一种深度神经网络模型的结构化数据智能分类分级系统 | |
CN116703642A (zh) | 基于数字孪生技术的产品制造生产线智能管理系统 | |
WO2022063076A1 (zh) | 对抗样本的识别方法及装置 | |
CN117041017B (zh) | 数据中心的智能运维管理方法及系统 | |
CN113569048A (zh) | 一种基于企业经营范围自动划分所属行业的方法及系统 | |
CN110991247B (zh) | 一种基于深度学习与nca融合的电子元器件识别方法 | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
CN115238645A (zh) | 资产数据识别方法、装置、电子设备和计算机存储介质 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN117057743B (zh) | 建筑工程项目咨询费用管理方法及其系统 | |
CN116911929B (zh) | 基于大数据的广告服务终端及方法 | |
CN117155706B (zh) | 网络异常行为检测方法及其系统 | |
CN116843345A (zh) | 基于人工智能技术对客户交易的智能风控系统及方法 | |
CN116977021B (zh) | 基于大数据的系统对接自动推单方法 | |
CN117893239A (zh) | 基于人工智能的商品价格预测方法及系统 | |
CN116896471A (zh) | 基于大数据的安全管理方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |