CN115526708A - 一种逾期风险概率的确定方法、装置、电子设备和介质 - Google Patents
一种逾期风险概率的确定方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN115526708A CN115526708A CN202211197037.9A CN202211197037A CN115526708A CN 115526708 A CN115526708 A CN 115526708A CN 202211197037 A CN202211197037 A CN 202211197037A CN 115526708 A CN115526708 A CN 115526708A
- Authority
- CN
- China
- Prior art keywords
- account
- account numbers
- historical transaction
- transaction information
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种逾期风险概率的确定方法、装置、电子设备和介质,涉及金融风险技术领域。该方法的具体实施方式包括:获取多个账号的历史交易信息;对历史交易信息进行预处理,提取各个账号的时间序列特征;遍历各个账号的历史交易信息,查找相互之间存在交易关系的账号,构建各个账号之间的交易关系的图数据;将图数据和时间序列特征输入图卷积神经网络,得到多个账号之间的关联关系特征;对时间序列特征和关联关系特征进行组合,将特征组合结果输入风险预测模型,确定各个账号的逾期风险概率。该实施方式能够利用图卷积神经网络对用户的账号之间的拆借关系进行分析,准确识别可能存在高危风险的用户,提高逾期风险预测的准确度。
Description
技术领域
本发明涉及金融风险技术领域,尤其涉及一种逾期风险概率的确定方法、装置、电子设备和介质。
背景技术
逾期风险是指贷款人无法按照约定时间向金融机构还款的可能性,因此,为了保证业务的安全进行,金融机构在向外贷款审批时,需要对客户质量进行甄别,以控制可能存在的贷款逾期风险。
现有的逾期风险控制过程中,通常是利用账号的历史行为(比如,转账线下支付、还款等)数据,通过卷积神经网络对账号行为序列进行特征提取及分析,以预测用户贷款的逾期风险。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
然而,由于一个用户名下可能存在一个或多个账号(比如,一张或多张借贷记卡),用户可能利用多个账号互相拆借、套现,现有的逾期风险预测中,卷积神经网络仅能处理账号的个体行为特征,无法对用户多个账号之间可能的拆借关系进行分析,使得现有的用户逾期风险预测的准确率低下,无法准确对客户质量进行甄别,会使金融机构面临较大的坏账风险。
发明内容
有鉴于此,本发明实施例提供一种逾期风险概率的确定方法、装置、电子设备和计算机介质,能够利用图卷积神经网络对用户的账号之间的拆借关系进行分析,准确识别可能存在高危风险的用户,可以大大提高逾期风险预测的准确度,降低金融机构的风险损失。
为实现上述目的,根据本发明实施例的一个方面,提供了一种逾期风险概率的确定方法,包括:
获取多个账号的历史交易信息;
对所述历史交易信息进行预处理,提取各个所述账号的时间序列特征;
遍历各个所述账号的历史交易信息,查找相互之间存在交易关系的所述账号,构建各个所述账号之间的交易关系的图数据;
将各个所述账号之间的交易关系的图数据和所述时间序列特征输入图卷积神经网络,根据所述图卷积神经网络的输出,得到多个所述账号之间的关联关系特征;
对所述时间序列特征和所述关联关系特征进行组合,将特征组合结果输入风险预测模型,利用所述风险预测模型的输出确定各个所述账号的逾期风险概率。
可选地,所述对所述历史交易信息进行预处理,包括:
对所述历史交易信息进行数据清洗,处理所述历史交易信息中的重复信息、缺失信息和异常信息;
针对经过所述数据清洗后的所述历史交易信息,对数值变量进行归一化处理,并对分类变量进行独热编码;
针对经过所述数据清洗后的所述历史交易信息,将数值变量的归一化值和分类变量的独热编码进行组合,得到包括各个所述账号的历史交易信息的预处理结果。
可选地,所述对数值变量进行归一化处理,包括:
将所述数值变量与全部所述数值变量中的最小值之差作为分子,将全部所述数值变量中的最大值与最小值之差作为分母,计算各个所述数值变量的归一化值。
可选地,所述对分类变量进行独热编码,包括:
将所述分类变量的变量值映射到整数值;
利用二进制向量表示所述整数值,得到各个所述分类变量的独热编码。
可选地,所述提取各个所述账号的时间序列特征,包括:
按照账号维度,将所述预处理结果进行扁平化;
将每一个所述账号的扁平化数据输入预训练的行为特征模型;
根据所述行为特征模型的输出,确定各个所述账号的时间序列特征。
可选地,所述行为特征模型采用LSTM网络、Bi-RNN网络或者GRU网络。
可选地,确定所述行为特征模型,包括:
获取多个样本账号的样本交易特征和样本时间序列;
将各个所述样本账号的所述样本交易特征作为行为特征模型的输入、所述样本时间序列作为所述行为特征模型的输出,对所述行为特征模型进行迭代训练;
根据训练结果,生成所述行为特征模型。
可选地,在所述将每一个所述账号的扁平化数据输入预训练的行为特征模型之前,还包括:
对所述扁平化数据进行层标准化处理。
可选地,所述将各个所述账号之间的交易关系的图数据和所述时间序列特征输入预训练的所述图卷积神经网络,替换为:
将所述时间序列特征输入所述图卷积神经网络,以确定多个所述账号之间的所述关联关系矩阵。
可选地,所述将各个所述账号之间的交易关系的图数据和所述时间序列特征输入预训练的所述图卷积神经网络,替换为:
将各个所述账号之间的交易关系的所述图数据输入图卷积神经网络,以确定多个所述账号之间的所述关联关系矩阵。
可选地,所述对所述时间序列特征和所述关联关系特征进行组合,包括:
将所述时间序列特征和所述关联关系特征进行拼接,确定所述特征组合结果。
可选地,所述账号为借记卡账号,和/或,贷记卡账号。
根据本发明实施例的再一个方面,提供了一种逾期风险概率的确定装置,包括:
获取模块,用于获取多个账号的历史交易信息;
预处理模块,用于对所述历史交易信息进行预处理,提取各个所述账号的时间序列特征;
预处理模块,还用于遍历各个所述账号的历史交易信息,查找相互之间存在交易关系的所述账号,构建各个所述账号之间的交易关系的图数据;
特征提取模块,用于将各个所述账号之间的交易关系的图数据和所述时间序列特征输入图卷积神经网络,根据所述图卷积神经网络的输出,得到多个所述账号之间的关联关系特征;
预测模块,用于对所述时间序列特征和所述关联关系特征进行组合,将特征组合结果输入风险预测模型,利用所述风险预测模型的输出确定各个所述账号的逾期风险概率。
根据本发明实施例的另一个方面,提供了一种逾期风险概率的确定的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明提供的逾期风险概率的确定方法。
根据本发明实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明提供的逾期风险概率的确定方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用对用户的历史交易信息预处理,按照账号维度进行扁平化,输入行为特征模型得到时间序列特征,并将时间序列特征和各个账号之间的交易关系的图数据输入图卷积神经网络,提取账号之间的关联关系特征,拼接时间序列特征和关联关系特,输入逾期风险预测模型,从而预测得到各个账号的逾期风险的技术手段,所以克服了现有的逾期风险预测无法对用户多个账号之间可能的拆借关系进行分析,使得现有的用户逾期风险预测的准确率低下,无法准确对客户质量进行甄别,会使金融机构面临较大的坏账风险的技术问题,进而达到能够利用图卷积神经网络对用户的账号之间的拆借关系进行分析,准确识别可能存在高危风险的用户,可以大大提高逾期风险预测的准确度,降低金融机构的风险损失的技术效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的逾期风险概率的确定方法的主要流程的示意图;
图2是根据本发明实施例的历史交易信息的预处理方法的主要流程的示意图;
图3是根据本发明实施例的时间序列特征的确定方法的主要流程的示意图;
图4是根据本发明实施例的行为特征模型的确定方法的主要流程的示意图;
图5是根据本发明实施例的标准化层的嵌入示意图;
图6是根据本发明实施例的关联关系特征的确定方法的主要流程的示意图;
图7是根据本发明实施例的账号之间的交易关系的示意图;
图8是根据本发明实施例的逾期风险概率的确定装置的主要模块的示意图;
图9示出了适于应用于本发明实施例的逾期风险概率的确定方法或逾期风险概率的确定装置的示例性系统架构图;
图10是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图结构:或称Graph结构、Graph数据,是一种非线性的数据结构,图结构中的各个节点之间的邻接关系可以是任意的。
图神经网络:Graph Neural Network,简称GNN,用于处理典型的不规则的Graph数据,利用深度学习框架结合半监督学习,通过对图结构的节点、边等元素制定分析策略,可以表示图数据中的顶点、边点那个关系型数据,并输入到各种神经网络中进行训练,在节点分类、边信息传播和图聚类等任务上效果良好。
图卷积神经网络:Graph Convolutional Network,简称GCN,是指引入Spatial卷积或Spectral卷积等的GNN,可以将抽取节点之间的邻接关系,以提取Graph结构的关系特征,并利用关系特征对Graph数据进行节点分类(node classification)、图分类(graphclassification)、边预测(link prediction)等,得到图的嵌入表示(graph embedding)。
LSTM:Long Short-Term Memory,即长短期记忆网络,是一种时间循环神经网络,可以很好地刻画具有时空关联的序列数据。
Bi-RNN:Bidirectional Recurrent Neural Network,即双向循环神经网络,实质是两层RNN头对头的堆叠,其输出和序列之前的元素以及未来的元素皆相关。
GRU:Gate Recurrent Unit,即门控循环单元,属于RNN的一种,相较于LSTM结构更加简单,可以降低计算的成本。
现有的金融机构在进行贷款审批等业务时,为了保证用户能够按期还款,控制逾期风险以保障业务安全,通常将用户行为序列(比如,用户在何时支付、用户在何时转账等)输入卷积神经网络,根据卷积神经网络的输出确定用户的逾期风险。
然而,现有的逾期风险预测中,以单个账号为单位进行行为数据分析,无法准确分析用户账号是否存在逾期风险;而且,由于用户可能办理了多张借贷记卡,可能利用多张借贷记卡进行拆借,采用“套现”的方式“以卡养卡”(比如,在使用一张信用卡进行消费后,再使用另一张信用卡将额度取出,还第一张卡上的欠款,等第一张卡额度恢复再来还另一张卡的欠款),现有的卷积神经网络在分析多张借贷记卡之间的拆借关系时存在局限性,使得现有的逾期风险预测准确度较低,无法精准识别高危账号。
通过本发明的逾期风险的确定方法,利用GCN提取用户的多个账号之间的拆解关系,引入每个账号的图embedding信息,从而可以准确预测各个账号的逾期风险,识别高危账号,大大提高了逾期风险预测的准确度,同时降低金融机构的成本损失风险和坏账风险。
图1是根据本发明实施例的逾期风险概率的预测方法的主要流程的示意图,如图1所示,本发明的逾期风险概率的预测方法包括如下步骤:
步骤S101,获取多个账号的历史交易信息。
在本发明实施例中,账号为借记卡账号和/或贷记卡账号,用于分析用户的借记卡、贷记卡之间的拆借关系,从而确定用户是否采用套现的方式以卡养卡,以对用户偿还贷款的逾期风险概率进行评估和预测。
在本发明实施例中,交易信息包括交易时间、交易方式(比如,借方、贷方等)、交易对象(比如,交易对方的账号)、交易金额、交易余额、交易类型(比如,还款、转账、支付等)、交易机构、是否开通手机银行、是否开通网银等。
在本发明实施例中,历史交易信息包括了账号的每一笔历史交易的历史交易时间、历史交易方式、历史交易对象、历史交易金额、历史交易余额、历史交易类型、历史交易机构、是否开通手机银行、是否开通网银等。比如,账号的历史交易信息为历史还款交易,对应的历史交易时间为历史还款时间、历史交易对象为历史还款账号、历史交易方式为借方;又比如,账号的历史交易信息为历史借款交易,对应的历史交易时间为历史借款时间、历史交易对象为历史借款账号、历史交易方式为借方。
比如,账号x0001的5笔历史交易的历史交易信息[历史交易时间,历史交易方式,历史交易对象,历史交易金额,历史交易余额,历史交易类型,历史交易机构,是否开通手机银行,是否开通网银]分别为:
①[20210101,借方,a00001,3,500,借款,B001,是,是];
②[20210102,借方,b00001,500,80,还款,C001,是,否];
③[20210103,借方,c00001,80,62,转账,C001,是,是];
④[20210104,借方,b00001,62,58,还款,C001,是,是];
⑤[30001012,借方,a00001,98,3,还款,B001,是,否]。
步骤S102,对所述历史交易信息进行预处理,提取各个所述账号的时间序列特征。
在本发明实施例中,获取到多个账号的历史交易信息后,对各个账号的历史交易信息进行预处理,转变为二进制变量数组,以便于后续模型的训练及使用。
在本发明实施例中,如图2所示,本发明的历史交易信息的预处理方法包括如下步骤:
步骤S201,对所述历史交易信息进行数据清洗,处理所述历史交易信息中的重复信息、缺失信息和异常信息。
数据清洗是指筛选重复、多余的数据,和/或,补充缺失数据,和/或,纠正错误数据,从而提高数据质量,防止统计过程中的数据误差。
在本发明实施例中,处理历史交易信息中的重复信息是指清除重复、多余的交易数据,比如,由于网络连接故障导致用户的某一笔交易的交易数据重复存储,则仅保留其中一次的交易数据,删除其余的重复交易数据;处理历史交易信息中的缺失信息是指补充缺失的交易数据,比如,转账交易的交易数据中不存在交易对象,需要查询数据库,补充对应的交易对象;处理历史交易信息中的异常信息是指改正错误的交易数据,比如,某一笔交易的交易时间远大于当前时间,表明交易时间有误,需要查询数据库,纠正交易时间,如交易⑤的交易时间“30001012”远大于当前时间,查询数据库,纠正交易⑤的交易时间为“20211012”。
步骤S202,对经过所述数据清洗后的所述历史交易信息进行数据变换。
步骤S2021,针对经过所述数据清洗后的所述历史交易信息,对数值变量进行归一化处理。
在本发明实施例中,归一化是指将各个数值变量的数据线性变换为新的标尺,以统一数据的量化尺度,进而在后续训练过程中提高模型的收敛速度。比如,数值变量为交易金额、交易余额等,归一化的方法可以采用最大最小值归一化,将数值变量与全部数值变量中的最小值之差作为分子,将全部数值变量中的最大值与最小值之差作为分母,计算各个数值变量的归一化值;其中,归一化值为0~1之间的数值。具体地:
以交易①-⑤的交易金额[3,500,80,62,98]为例,对各个交易金额进行归一化处理,分别将数值变量3、500、80、62、98与全部数值变量中的最小值3之差0、497、77、59、95作为分子,将全部数值变量中的最大值500与最小值3之差497作为分母,计算各个数值变量的归一化值为[0,1,0.15,0.12,0.19]。
步骤S2022,针对经过所述数据清洗后的所述历史交易信息,对分类变量进行独热编码。
独热编码又称One-Hot编码、或者一位有效编码,利用多位状态寄存器对多个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候,其中只有一位有效。
在本发明实施例中,利用独热编码对经过数据清洗后的历史交易信息中的分类变量进行编码处理。分类变量包括交易方式、交易类型、是否开通手机银行、是否开通网银,各个分类变量的变量值包括:
交易方式包括[借方,贷方]、交易类型包括[还款,转账,借款]、是否开通手机银行包括[是,否]、是否开通网银包括[是,否]。
独热编码时,将分类变量的变量值映射到整数值,包括:
经过数据清洗后的交易①的交易方式对应的独热编码为[1,0]、交易类型对应的独热编码为[0,0,1]、是否开通手机银行对应的独热编码为[1,0]、是否开通网银的独热编码为[1,0];交易②为[1,0]、[1,0,0]、[1,0]、[0,1];交易③为[1,0]、[0,1,0]、[1,0]、[1,0];交易④为[1,0]、[1,0,0]、[1,0]、[1,0];交易⑤为[1,0]、[1,0,0]、[1,0]、[0,1]。
在本发明实施例中,或者,可以根据交易账号,对每一个交易账号的历史交易信息按照交易日期进行合并处理。
步骤S203,确定经过所述数据变换的预处理结果。
在本发明实施例中,将步骤S2021的数值变量的归一化值和步骤S2022的分类变量的独热编码进行组合,得到包括各个账号的历史交易信息的预处理结果,比如,预处理结果为[none,M,N]数组,none表示账号的数量,可以为任意值;M表示账号的历史交易的数量;N表示每个历史交易的交易信息,由独热编码表示。
在本发明实施例中,通过本发明的历史交易信息的预处理方法,对历史交易信息进行预处理,从而可以便于后续的模型训练及使用过程中的信息识别,大大提高模型的训练速度和预测效率。
在本发明实施例中,获取到预处理结果后,将预处理结果输入LSTM模型,提取各个账号的时间序列特征,时间序列特征可以表示各个账号在历史交易过程中的操作行为,比如,转账、借款等,用以描述各个账号的历史行为,从而后续可以利用各个账号的历史行为分析各个账号之间的拆借关系。
在本发明实施例中,如图3所示,本发明的时间序列特征的确定方法包括如下步骤:
步骤S301,按照账号维度,将所述预处理结果进行扁平化。
在本发明实施例中,针对每一个账号,将预处理结果按照账号维度聚合,扁平化处理后得到各个账号的扁平化数据,比如,预处理结果为[none,M,N]数组,针对每一个账号,将预处理结果按照账号维度聚合得到[M,N]数组,将每一个账号的[M,N]数组按照扁平化矩阵的方式进行排列,得到的扁平化数据为M个[1,N]数组,比如,账号x0001聚合得到[6,9]数组,按照扁平化矩阵的方式进行排列,得到的账号x0001的扁平化数据为6个[1,9]数组。
步骤S302,将每一个所述账号的扁平化数据输入预训练的行为特征模型。
在本发明实施例中,行为特征模型采用LSTM网络,用于对账号的在时间序列下的行为特征进行分析。比如,将每个账号的M个[1,N]数组输入预训练的行为特征模型。LSTM的输入为3D数组(batch_size,time_steps,input_size),对应各个账号的[M,N]数组,LSTM的输出可以是2D数组或3D数组。
或者,行为特征模型可以采用Bi-RNN网络或者GRU网络。
在本发明实施例中,如图4所示,本发明的行为特征模型的确定方法包括如下步骤:
步骤S401,获取多个样本账号的样本交易特征和样本时间序列。
在本发明实施例中,样本交易特征为各个样本账号的样本扁平化数据,比如,样本扁平化数据为账号x0002的5个[1,6]数组,样本时间序列为账号x0002的交易行为特征随时间的变化,账号x0002的样本时间序列为[t1,100,10,t2,010,10,t3,001,10],表示账号x0002在t1通过手机银行进行了还款交易、在t2通过手机银行进行了转账交易、在t3通过手机银行进行了借款交易。
步骤S402,将各个所述样本账号的所述样本交易特征作为行为特征模型的输入、所述样本时间序列作为所述行为特征模型的输出,对所述行为特征模型进行迭代训练。
在本发明实施例中,行为特征模型为LSTM模型,利用baseline模型对LSTM网络的权重施加约束。LSTM通过“门(gate)”控制丢弃或者增加信息,从而实现遗忘或记忆的功能。“门”是一种使信息选择性通过的结构,由一个sigmoid函数和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间,0代表完全丢弃,1代表完全通过。LSTM单元包括遗忘门(forgetgate)、输入门(input gate)和输出门(output gate)。LSTM模型利用梯度下降法(Gradientdescent)最小化训练误差,反向迭代修改网络的权重值。
在本发明实施例中,或者,行为特征模型为Bi-RNN模型或者GRU模型。
步骤S403,根据训练结果,生成所述行为特征模型。
在本发明实施例中,通过本发明的行为特征模型的确定方法,利用样本账号的扁平化的二进制特征和样本账号的样本时间序列对行为特征模型进行训练,得到训练好的行为特征模型,使得后续使用过程中,可以基于各个账号的扁平化数据确定各个账号的时间序列特征,分析各个账号历史交易的操作行为,从而为逾期风险概率的预测提供前期条件。
步骤S303,根据所述行为特征模型的输出,确定各个所述账号的时间序列特征。
在本发明实施例中,行为特征模型的输出为各个账号的时间序列特征,各个账号的时间序列特征为1*n(n<N)数组,用以表征账号在过往时期的操作行为,比如,何时转账、何时还款、何时借款等,也即,时间序列特征既包含账号的交易信息又包含账号交易的时间序列信息,账号x0001的时间序列特征可以是[001,10,100,10,010,10,100,10,100,10]。
在本发明实施例中,进一步地,在步骤S302之前,还包括:
层标准化(也称,layer normalization)处理,用于对不同时间步的账号交易数据进行标准化,使得行为特征模型可以处理任意长度的序列,本发明的标准化层的嵌入示意图如图5所示,layer_normalization对同一层的全部神经元进行标准化(包括规定网络内部的数据样式等),从而提高行为特征模型的训练速度和精度,保障模型的稳定性。
在本发明实施例中,根据本发明的时间序列特征的确定方法,利用LSTM模型提取各个账号的行为序列特征,可以对各个账号的操作行为进行分析,从而后续基于行为序列特征和账号之间的关联关系特征,可以更准确的预测账号的逾期风险概率。
步骤S103,将多个所述账号的所述历史交易信息和所述时间序列特征输入图卷积神经网络,根据所述图卷积神经网络的输出,得到多个所述账号之间的关联关系特征。
在本发明实施例中,引入图嵌入向量,将各个账号之间的关联关系作为图数据,利用图卷积神经网络抽取账号之间的关联关系特征。
在本发明实施例中,如图6所示,本发明的关联关系特征的确定方法包括如下步骤:
步骤S601,遍历各个所述账号的历史交易信息,查找相互之间存在交易关系的所述账号,构建各个所述账号之间的交易关系的图数据。
在本发明实施例中,通过遍历各个账号的历史交易信息,查找存在交易关系的账号,并构建各个账号之间的交易关系的图数据,可以基于图数据抽取账号之间的关联关系特征。
在本发明实施例中,将账号作为向量空间的节点,根据账号之间的交易关系确定节点之间的边如何连接,如图7所示,表示账号A和账号B之间存在交易关系、账号A和账号C之间存在交易关系、账号B和账号C之间存在交易关系、账号B和账号D之间存在交易关系,相应地,各个账号之间的交易关系的邻接矩阵P可以表示为:
其中,在确定各个账号之间是否存在交易关系时,主要判断账号之间的交易类型是否是转账,尤其要判断是否是借记卡账号与贷记卡账号之间、贷记卡账号之间的转账,从而定位账号之间的拆借关系,进而准确预测逾期风险概率。
步骤S602,将各个所述账号之间的交易关系的图数据和所述时间序列特征输入预训练的所述图卷积神经网络。
在本发明实施例中,图卷积神经网络用于对账号之间的关联关系进行分析,作为神经网络层,不同网络层之间的传播方式为:
上式中:
H(l+1)为第l层的输出特征;
σ为非线性激活函数。
从而后续可以准确定位存在拆借关系的高危账号。
步骤S603,根据所述图卷积神经网络的输出,确定多个所述账号之间的关联关系特征。
在本发明实施例中,账号之间的交易关系越紧密,则关联关系特征中对应之间的节点越靠近彼此。比如,账号x0001与其它各个账号(B、C、D、E、F、G)的关联关系特征为[0.85,0.21,0.37,0,0.69,0.83]。
在本发明实施例中,或者,可以选择将时间序列特征输入图卷积神经网络,以确定多个账号之间的关联关系矩阵。
在本发明实施例中,或者,可以选择将各个账号之间的交易关系的图数据输入图卷积神经网络,以确定多个账号之间的关联关系矩阵。
在本发明实施例中,通过本发明的关联关系特征的确定方法,利用图卷积神经网络,对账号之间存在的交易关系进行分析,提取账号之间的关联关系特征,从而后续基于行为序列特征和账号之间的关联关系特征,可以更准确的预测账号的逾期风险概率。
步骤S104,对所述时间序列特征和所述关联关系特征进行组合,将特征组合结果输入风险预测模型,利用所述风险预测模型的输出确定各个所述账号的逾期风险概率。
在本发明实施例中,将各个账号的一维时间序列特征和图卷积神经网络输出的关联关系特征进行直接拼接,比如,账号x0001的时间序列特征[001,10,100,10,010,10,100,10,100,10]、账号x0001与其它各个账号的关联关系特征[0.85,0.21,0.37,0,0.69,0.83]直接拼接为[001,10,100,10,010,10,100,10,100,10,0.85,0.21,0.37,0,0.69,0.83],确定拼接后的时间序列特征和关联关系特征为特征组合结果,将特征组合结果输入风险预测模型,得到各个账号的逾期风险概率。具体地:
将特征组合结果输入风险预测网络,经过全连接层的激活,得到全连接层输出的各个账号的逾期风险概率;全连接层的激活函数为sigmoid函数。
在本发明实施例中,风险预测模型的算法可以采用逻辑回归、SVM、xgboost以及LightGBM等算法。
在本发明实施例中,基于时间序列特征和关联关系特征,可以准确识别用户“从一个账号消费、再利用另一个账号套现将额度取出、返还第一个账号的欠款”此类的“套现/以卡养卡”的行为,因为此类行为通常在交易时间上具有连贯性、交易金额又相互接近,因此,利用风险预测模型利用时间序列特征、关联关系特征两者的组合,可以准确预测各个账号的逾期风险概率,识别高危账号,可以为金融审批业务提供来极高又极其准确的参考。
在本发明实施例中,通过获取多个账号的历史交易信息;对所述历史交易信息进行预处理,提取各个所述账号的时间序列特征;将多个所述账号的所述历史交易信息和所述时间序列特征输入图卷积神经网络,根据所述图卷积神经网络的输出,得到多个所述账号之间的关联关系特征;对所述时间序列特征和所述关联关系特征进行组合,将特征组合结果输入风险预测模型,利用所述风险预测模型的输出确定各个所述账号的逾期风险概率等步骤,能够利用图卷积神经网络对用户的账号之间的拆借关系进行分析,准确识别可能存在高危风险的用户,可以大大提高逾期风险预测的准确度,降低金融机构的风险损失。
图8是根据本发明实施例的逾期风险概率的确定装置的主要模块的示意图,如图8所示,本发明的逾期风险概率的确定装置400包括:
获取模块801,用于获取多个账号的历史交易信息。
在本发明实施例中,所述获取模块801用于获取多个账号的历史交易信息,包括账号的每一笔历史交易的历史交易时间、历史交易方式、历史交易对象、历史交易金额、历史交易余额、历史交易类型、历史交易机构、是否开通手机银行、是否开通网银等。
预处理模块802,用于对所述历史交易信息进行预处理,提取各个所述账号的时间序列特征。
在本发明实施例中,获取到多个账号的历史交易信息后,所述预处理模块802对各个账号的历史交易信息进行预处理,转变为二进制变量数组,所述预处理模块802将预处理结果输入LSTM模型,提取各个账号的时间序列特征。
特征提取模块803,用于将多个所述账号的所述历史交易信息和所述时间序列特征输入图卷积神经网络,根据所述图卷积神经网络的输出,得到多个所述账号之间的关联关系特征。
在本发明实施例中,所述特征提取模块803引入图嵌入向量,将各个账号之间的关联关系作为图数据,和时间序列特征一起输入图卷积神经网络,利用图卷积神经网络抽取账号之间的关联关系特征。
预测模块804,用于对所述时间序列特征和所述关联关系特征进行组合,将特征组合结果输入风险预测模型,利用所述风险预测模型的输出确定各个所述账号的逾期风险概率。
在本发明实施例中,所述预测模块804将时间序列特征和关联关系特征进行拼接,确定拼接后的时间序列特征和关联关系特征为特征组合结果,将特征组合结果输入风险预测模型,得到各个账号的逾期风险概率。
在本发明实施例中,通过获取模块、预处理模块、特征提取模块和预测模块等模块,能够利用图卷积神经网络对用户的账号之间的拆借关系进行分析,准确识别可能存在高危风险的用户,可以大大提高逾期风险预测的准确度,降低金融机构的风险损失。
图9示出了适于应用于本发明实施例的逾期风险概率的确定方法或逾期风险概率的确定装置的示例性系统架构图,如图9所示,本发明实施例的逾期风险概率的确定方法或逾期风险概率的确定装置的示例性系统架构包括:
如图9所示,系统架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器105之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用,例如逾期风险预测类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对用户利用终端设备901、902、903所浏览的逾期风险预测类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的逾期风险预测请求等数据进行分析等处理,并将处理结果(例如逾期风险预测概率)反馈给终端设备901、902、903。
需要说明的是,本发明实施例所提供的逾期风险概率的确定方法一般由服务器905执行,相应地,逾期风险概率的确定装置一般设置于服务器905中。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图10是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图,如图10所示,本发明实施例的终端设备或服务器的计算机系统1000包括:
中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM1003中,还存储有系统1000操作所需的各种程序和数据。CPU1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、预处理模块、特征提取模块和预测模块等模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,特征提取模块还可以被描述为“将多个所述账号的所述历史交易信息和所述时间序列特征输入图卷积神经网络,根据所述图卷积神经网络的输出,得到多个所述账号之间的关联关系特征的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取多个账号的历史交易信息;对所述历史交易信息进行预处理,提取各个所述账号的时间序列特征;将多个所述账号的所述历史交易信息和所述时间序列特征输入图卷积神经网络,根据所述图卷积神经网络的输出,得到多个所述账号之间的关联关系特征;对所述时间序列特征和所述关联关系特征进行组合,将特征组合结果输入风险预测模型,利用所述风险预测模型的输出确定各个所述账号的逾期风险概率。
根据本发明实施例的技术方案,将图卷积神经网络加入逾期风险概率的预测,利用图卷积神经网络对用户多个账号之间的拆借关系进行分析,得到客户各个账号的图嵌入信息,对潜在的“以卡养卡”行为进行分析,整合及预测均为账号粒度,大大提高了逾期风险概率预测的准确度,避免审批误判。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (16)
1.一种逾期风险概率的确定方法,其特征在于,包括:
获取多个账号的历史交易信息;
对所述历史交易信息进行预处理,提取各个所述账号的时间序列特征;
遍历各个所述账号的历史交易信息,查找相互之间存在交易关系的所述账号,构建各个所述账号之间的交易关系的图数据;
将各个所述账号之间的交易关系的图数据和所述时间序列特征输入图卷积神经网络,根据所述图卷积神经网络的输出,得到多个所述账号之间的关联关系特征;
对所述时间序列特征和所述关联关系特征进行组合,将特征组合结果输入风险预测模型,利用所述风险预测模型的输出确定各个所述账号的逾期风险概率。
2.根据权利要求1所述的方法,其特征在于,所述对所述历史交易信息进行预处理,包括:
对所述历史交易信息进行数据清洗,处理所述历史交易信息中的重复信息、缺失信息和异常信息;
针对经过所述数据清洗后的所述历史交易信息,对数值变量进行归一化处理,并对分类变量进行独热编码;
针对经过所述数据清洗后的所述历史交易信息,将数值变量的归一化值和分类变量的独热编码进行组合,得到包括各个所述账号的历史交易信息的预处理结果。
3.根据权利要求2所述的方法,其特征在于,所述对数值变量进行归一化处理,包括:
将所述数值变量与全部所述数值变量中的最小值之差作为分子,将全部所述数值变量中的最大值与最小值之差作为分母,计算各个所述数值变量的归一化值。
4.根据权利要求2所述的方法,其特征在于,所述对分类变量进行独热编码,包括:
将所述分类变量的变量值映射到整数值;
利用二进制向量表示所述整数值,得到各个所述分类变量的独热编码。
5.根据权利要求1所述的方法,其特征在于,所述提取各个所述账号的时间序列特征,包括:
按照账号维度,将所述预处理结果进行扁平化;
将每一个所述账号的扁平化数据输入预训练的行为特征模型;
根据所述行为特征模型的输出,确定各个所述账号的时间序列特征。
6.根据权利要求5所述的方法,其特征在于,所述行为特征模型采用LSTM网络、Bi-RNN网络或者GRU网络。
7.根据权利要求6所述的方法,其特征在于,确定所述行为特征模型,包括:
获取多个样本账号的样本交易特征和样本时间序列;
将各个所述样本账号的所述样本交易特征作为行为特征模型的输入、所述样本时间序列作为所述行为特征模型的输出,对所述行为特征模型进行迭代训练;
根据训练结果,生成所述行为特征模型。
8.根据权利要求5所述的方法,其特征在于,在所述将每一个所述账号的扁平化数据输入预训练的行为特征模型之前,还包括:
对所述扁平化数据进行层标准化处理。
9.根据权利要求1所述的方法,其特征在于,所述将各个所述账号之间的交易关系的图数据和所述时间序列特征输入预训练的所述图卷积神经网络,替换为:
将所述时间序列特征输入所述图卷积神经网络,以确定多个所述账号之间的所述关联关系矩阵。
10.根据权利要求1所述的方法,其特征在于,所述将各个所述账号之间的交易关系的图数据和所述时间序列特征输入预训练的所述图卷积神经网络,替换为:
将各个所述账号之间的交易关系的所述图数据输入图卷积神经网络,以确定多个所述账号之间的所述关联关系矩阵。
11.根据权利要求1所述的方法,其特征在于,所述对所述时间序列特征和所述关联关系特征进行组合,包括:
将所述时间序列特征和所述关联关系特征进行拼接,确定所述特征组合结果。
12.根据权利要求1所述的方法,其特征在于,所述账号为借记卡账号,和/或,贷记卡账号。
13.一种逾期风险概率的确定装置,其特征在于,包括:
获取模块,用于获取多个账号的历史交易信息;
预处理模块,用于对所述历史交易信息进行预处理,提取各个所述账号的时间序列特征;
预处理模块,还用于遍历各个所述账号的历史交易信息,查找相互之间存在交易关系的所述账号,构建各个所述账号之间的交易关系的图数据;
特征提取模块,用于将各个所述账号之间的交易关系的图数据和所述时间序列特征输入图卷积神经网络,根据所述图卷积神经网络的输出,得到多个所述账号之间的关联关系特征;
预测模块,用于对所述时间序列特征和所述关联关系特征进行组合,将特征组合结果输入风险预测模型,利用所述风险预测模型的输出确定各个所述账号的逾期风险概率。
14.一种逾期风险概率的确定的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-12中任一所述的方法。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211197037.9A CN115526708A (zh) | 2022-09-28 | 2022-09-28 | 一种逾期风险概率的确定方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211197037.9A CN115526708A (zh) | 2022-09-28 | 2022-09-28 | 一种逾期风险概率的确定方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115526708A true CN115526708A (zh) | 2022-12-27 |
Family
ID=84699915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211197037.9A Pending CN115526708A (zh) | 2022-09-28 | 2022-09-28 | 一种逾期风险概率的确定方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115526708A (zh) |
-
2022
- 2022-09-28 CN CN202211197037.9A patent/CN115526708A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423365B2 (en) | Transaction card system having overdraft capability | |
US11587101B2 (en) | Platform for detecting abnormal entities and activities using machine learning algorithms | |
JP2020522832A (ja) | 信用力があると判定された消費者にローンを発行するシステムおよび方法 | |
CN112270547A (zh) | 基于特征构造的金融风险评估方法、装置和电子设备 | |
US11811708B2 (en) | Systems and methods for generating dynamic conversational responses using cluster-level collaborative filtering matrices | |
US11790183B2 (en) | Systems and methods for generating dynamic conversational responses based on historical and dynamically updated information | |
CN113435900A (zh) | 交易风险确定方法、装置和服务器 | |
CN114756720B (zh) | 时序数据的预测方法及装置 | |
CN116664306A (zh) | 风控规则的智能推荐方法、装置、电子设备及介质 | |
CN115983982A (zh) | 信贷风险识别方法、装置、设备及计算机可读存储介质 | |
Kadam et al. | Loan Approval Prediction System using Logistic Regression and CIBIL Score | |
CN115545712A (zh) | 一种交易行为的欺诈预测方法、装置、设备和存储介质 | |
CN115526708A (zh) | 一种逾期风险概率的确定方法、装置、电子设备和介质 | |
CN114662570A (zh) | 业务风险预测方法、装置、计算机设备与存储介质 | |
CN112328899B (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN114612239A (zh) | 基于算法、大数据、人工智能的股票舆情监测和风控系统 | |
CN113094595A (zh) | 对象识别方法、装置、计算机系统及可读存储介质 | |
CN114240100A (zh) | 贷款评估方法、装置、计算机设备和存储介质 | |
CN112734352A (zh) | 一种基于数据维度的单据审核方法和装置 | |
CN111429257A (zh) | 一种交易监控方法和装置 | |
KR102519878B1 (ko) | 금융기관 신용공여 사업에서의 인공지능 기반 리스크 관리 솔루션을 제공하기 위한 장치, 방법 및 명령을 기록한 기록 매체 | |
US20240169355A1 (en) | Settlement card having locked-in card specific merchant and rule-based authorization for each transaction | |
US20230196453A1 (en) | Deduplication of accounts using account data collision detected by machine learning models | |
US20240161117A1 (en) | Trigger-Based Electronic Fund Transfers | |
EP4283537A1 (en) | Automated systems for machine learning model development, analysis, and refinement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |