CN112561688A - 基于图嵌入的信用卡逾期预测方法、装置及电子设备 - Google Patents
基于图嵌入的信用卡逾期预测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112561688A CN112561688A CN202011520990.3A CN202011520990A CN112561688A CN 112561688 A CN112561688 A CN 112561688A CN 202011520990 A CN202011520990 A CN 202011520990A CN 112561688 A CN112561688 A CN 112561688A
- Authority
- CN
- China
- Prior art keywords
- field
- target
- credit card
- path
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 89
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000010801 machine learning Methods 0.000 claims abstract description 32
- 238000005295 random walk Methods 0.000 claims abstract description 27
- 238000003860 storage Methods 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 15
- 230000002159 abnormal effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本公开实施例公开了一种基于图嵌入的信用卡逾期预测方法、装置及电子设备,该方法包括:获取信用卡账单数据集中各目标字段的内容;根据各目标字段的内容构建异构图;基于各目标字段生成元路径;基于生成的元路径,在所述异构图上进行随机游走,获得对应的游走路径;计算各游走路径中各节点对应的目标字段的内容的词嵌入向量;对于所述信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集;利用所述训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型;以及,基于所述机器学习模型进行信用卡逾期预测。
Description
技术领域
本公开涉及金融领域,更具体地,涉及一种基于图嵌入的信用卡逾期预测方法、一种基于图嵌入的信用卡逾期预测装置、一种电子设备、及一种计算机可读存储介质。
背景技术
信用卡逾期预测是银行金融业务中一个重要主题。一个好的信用卡逾期预测模型,对于银行的个人信用评级、定制催收方案、信用卡额度管理等一系列业务作业有很好的指导作用。然而,相关技术中并没有给出如何构建用于信用卡逾期预测的机器学习模型以及如何利用该机器学习模型进行信用卡逾期预测。
发明内容
本公开实施例的一个目的是提供一种基于图嵌入的信用卡逾期预测的新的技术方案。
根据本公开的第一方面,提供一种基于图嵌入的信用卡逾期预测方法,其包括:
获取信用卡账单数据集中各目标字段的内容;
根据各目标字段的内容构建异构图;
基于各目标字段生成元路径;
基于生成的元路径,在所述异构图上进行随机游走,获得对应的游走路径;
计算各游走路径中各节点对应的目标字段的内容的词嵌入向量;
对于所述信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集;
利用所述训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型;以及,
基于所述机器学习模型进行信用卡逾期预测。
可选地,所述方法还包括获取所述信用卡账单数据集的步骤,
所述获取所述信用卡账单数据集,包括:
获取多个信用卡因素数据表;其中,所述信用卡因素数据表至少包括用户交易数据表、用户属性数据表、信用卡数据表以及用户违约数据表;
对所述多个信用卡因素数据表进行拼接处理,获得目标信用卡因素数据表;
对所述目标信用卡因素数据表进行聚合处理,获得所述信用卡账单数据集。
可选地,所述获取信用卡账单数据集中各目标字段的内容,包括:
提取所述信用卡账单数据集中各属性字段;
基于梯度提升树算法,计算所述各属性字段的特征重要性值;
根据所述各属性字段的特征重要性值,获得各目标字段;以及,
获得所述各目标字段的内容。
可选地,所述根据所述各属性字段的特征重要性值,获得各目标字段,包括:
根据各属性字段的特征重要性值的降序排序次序,获取前设定数量的特征重要性值对应的属性字段,作为各基础字段;
在任一所述基础字段的取值种类低于设定的取值种类阈值时,将对应的所述基础字段作为第一目标基础字段;其中,各基础字段中包括第一目标基础字段和除所述第一目标基础字段外的第二目标基础字段;
对各所述第一目标基础字段进行字段组合,获得组合字段;以及,
将各所述第二基础字段和各所述组合字段作为各所述目标字段。
可选地,在获取所述信用卡账单数据集中各目标字段的内容后,还包括:
根据设定的配置规则,为各目标字段的内容配置对应的序号;其中,所述设定的配置规则满足以下各项:为相同字段类型的目标字段的相同内容配置同一序号;为相同字段类型的目标字段的不同内容配置不同序号;以及,为不同字段类型的目标字段的内容配置不同序号;
保存各目标字段的内容与所配置的序号间的映射关系。
可选地,所述根据各目标字段的内容构建异构图,包括:
以各目标字段的内容所对应的序号为节点,以相邻两个节点间的连接为边,构建异构图。
可选地,所述根据各目标字段生成元路径,包括:
获取所要生成的元路径的元路径数量;
以各目标字段中任一目标字段为节点,根据设定的生成规则生成所述数量个元路径;
其中,所述设定的生成规则满足以下各项:
所述元路径中相邻节点的字段类型不同;
所述元路径的路径长度小于或等于设定的路径长度阈值;以及,
所述元路径的起始节点和终止节点的字段类型相同。
可选地,所述基于生成的元路径,在所述异构图上进行随机游走,获得对应的游走路径,包括:
获取在所述异常图上进行随机游走的游走次数;
对于每个元路径的第i次随机游走,从所述异构图各节点中选取与该元路径的起始节点具有相同字段类型的节点作为目标节点;其中,i的取值为1至N的每一个自然数,N为所述游走次数;
以所述目标节点为起始游走节点,按照该元路径中的节点顺序,随机在所述异构图上选择对应的节点进行游走,获得该元路径的第i次随机游走的游走路径。
可选地,各目标字段的内容均具有对应的序号,且,所述异构图中各节点为对应目标字段的内容的序号,
在获得对应的游走路径后,还包括:
获取各目标字段的内容与所配置的序号间的映射关系的映射数据;
对于每条所述游走路径,根据所述映射数据和该游走路径上各节点的序号,获得各节点的序号所对应的目标字段的内容。
可选地,所述计算各游走路径中各节点对应的目标字段的内容的词嵌入向量,包括:
基于自然语言处理算法,将各游走路径上的各节点对于的目标字段的内容作为语料数据进行训练,以获得各目标字段的内容的词嵌入向量。
可选地,所述对于所述信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集,包括:
对于所述信用卡账单数据集中的每一条数据,从各目标字段中获取所述数据的主键字段;
根据其他目标字段与所述主键字段间的字段关系,对所述其他目标字段的内容的词嵌入向量进行处理;
将进行所述处理后的所述其他目标字段的内容的词嵌入向量与所述主键字段的内容的词嵌入向量进行拼接得到一条训练样本数据;
基于所述训练样本数据,最终得到训练样本数据集。
可选地,所述根据其他目标字段与所述主键字段间的字段关系,对所述其他目标字段的内容的词嵌入向量进行处理,包括:
在所述主键字段与所述其他目标字段间的字段关系为一对一的关系时,保留所述其他目标字段的内容的词嵌入向量;以及,
在所述主键字段与所述其他目标字段间的字段关系为一对多的关系时,获取所述其他目标字段的内容的词嵌入向量的平均值。
可选地,所述利用所述训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型,包括:
利用预设的至少一种模型训练算法,基于所述训练样本来训练出用于进行信用卡逾期预测的机器学习模型。
可选地,所述方法还包括:
响应于配置执行随机游走过程的游走参数的触发操作,提供配置接口;其中,所述游走参数至少包括所述元路径数量和所述游走次数;
根据所述配置接口配置所述游走参数。
可选地,所述游走参数为基于yaml规范编写的参数。
根据本公开的第二方面,还提供一种基于图嵌入的信用卡逾期预测装置,其包括:
第一获取模块,用于获取信用卡账单数据集中各目标字段的内容;
构建模块,用于根据各目标字段的内容构建异构图;
生成模块,用于基于各目标字段生成元路径;
第二获取模块,用于基于生成的元路径,在所述异构图上进行随机游走,获得对应的游走路径;
计算模块,用于计算各游走路径中各节点对应的目标字段的内容的词嵌入向量;
拼接模块,用于对于所述信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集;
训练模块,用于利用所述训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型;以及,
预测模块,用于基于所述机器学习模型针进行信用卡逾期预测。
可选地,所述第一获取模块,还用于:
获取多个信用卡因素数据表;其中,所述信用卡因素数据表至少包括用户交易数据表、用户属性数据表、信用卡数据表以及用户违约数据表;
对所述多个信用卡因素数据表进行拼接处理,获得目标信用卡因素数据表;
对所述目标信用卡因素数据表进行聚合处理,获得所述信用卡账单数据集。
可选地,所述第一获取模块具体用于:
提取所述信用卡账单数据集中各属性字段;
基于梯度提升树算法,计算所述各属性字段的特征重要性值;
根据所述各属性字段的特征重要性值,获得各目标字段;以及,
获得所述各目标字段的内容。
可选地,所述第一获取模块具体用于:
根据各属性字段的特征重要性值的降序排序次序,获取前设定数量的特征重要性值对应的属性字段,作为基础字段;
在任一所述基础字段的取值种类低于设定的取值种类阈值时,将对应的所述基础字段作为第一目标基础字段;其中,各基础字段中包括第一目标基础字段和除所述第一目标基础字段外的第二目标基础字段;
对各所述第一目标基础字段进行字段组合,获得组合字段;以及,
将各所述第二基础字段和各所述组合字段作为各所述目标字段。
可选地,所述装置还包括第一配置模块,用于:
根据设定的配置规则,为各目标字段的内容配置对应的序号;其中,所述设定的配置规则满足以下各项:为相同字段类型的目标字段的相同内容配置同一序号;为相同字段类型的目标字段的不同内容配置不同序号;以及,为不同字段类型的目标字段的内容配置不同序号;
保存各目标字段的内容与所配置的序号间的映射关系。
可选地,所述构建模块具体用于:
以各目标字段的内容所对应的序号为节点,以相邻两个节点间的连接为边,构建异构图。
可选地,所述生成模块具体用于:
获取所要生成的元路径的元路径数量;
以各目标字段中任一目标字段为节点,根据设定的生成规则生成所述数量个元路径;
其中,所述设定的生成规则满足以下各项:
所述元路径中相邻节点的字段类型不同;
所述元路径的路径长度小于或等于设定的路径长度阈值;以及,
所述元路径的起始节点和终止节点的字段类型相同。
可选地,所述第二获取模块具体用于:
获取在所述异常图上进行随机游走的游走次数;
对于每个元路径的第i次随机游走,从所述异构图各节点中选取与该元路径的起始节点具有相同字段类型的节点作为目标节点;其中,i的取值为1至N的每一个自然数,N为所述游走次数;
以所述目标节点为起始游走节点,按照该元路径中的节点顺序,随机在所述异构图上选择对应的节点进行游走,获得该元路径的第i次随机游走的游走路径。
可选地,所述第二获取模块还用于:
获取各目标字段的内容与所配置的序号间的映射关系的映射数据;
对于每条所述游走路径,根据所述映射数据和该游走路径上各节点的序号,获得各节点的序号所对应的目标字段的内容。
可选地,所述计算模块具体用于:
基于自然语言处理算法,将各游走路径上的各节点对于的目标字段的内容作为语料数据进行训练,以获得各目标字段的内容的词嵌入向量。
可选地,所述拼接模块具体用于:
对于所述信用卡账单数据集中的每一条数据,从各目标字段中获取所述数据的主键字段;
根据其他目标字段与所述主键字段间的字段关系,对所述其他目标字段的内容的词嵌入向量进行处理;
将进行所述处理后的所述其他目标字段的内容的词嵌入向量与所述主键字段的内容的词嵌入向量进行拼接得到一条训练样本数据;
基于所述训练样本数据,最终得到训练样本数据集。
可选地,所述拼接模块具体用于:
在所述主键字段与所述其他目标字段间的字段关系为一对一的关系时,保留所述其他目标字段的内容的词嵌入向量;以及,
在所述主键字段与所述其他目标字段间的字段关系为一对多的关系时,获取所述其他目标字段的内容的词嵌入向量的平均值。
可选地,所述训练模块具体用于:
利用预设的至少一种模型训练算法,基于所述训练样本来训练出用于进行信用卡逾期预测的机器学习模型。
可选地,所述装置还包括第二配置模块,用于:
响应于配置执行随机游走过程的游走参数的触发操作,提供配置接口;其中,所述游走参数至少包括所述元路径数量和所述游走次数;
根据所述配置接口配置所述游走参数。
可选地,所述游走参数为基于yaml规范编写的参数。
根据本公开的第三方面,还提供一种包括至少一个计算装置和至少一个存储装置的设备,其中,所述至少一个存储装置用于存储指令,所述指令用于控制所述至少一个计算装置执行根据以上第一方面所述的方法。
根据本公开的第四方面,还提供一种计算机可读存储介质,其中,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如以上第一方面所述的方法。
本公开的一个有益效果在于,根据本公开实施例的方法,其在获得信用卡账单数据集后,能够依靠图嵌入技术对信用卡账单数据集中各目标字段及各目标字段的内容进行处理,即对客户行为路线进行精准描绘,以得到各目标字段的内容的词嵌入向量,并对于信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集,以及,利用训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型,进而利用该机器学习模型进行信用卡逾期预测,从而提高逾期预测的准确率。
附图说明
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
图1是显示可用于实现本公开的实施例的电子设备的硬件配置的例子的框图;
图2示出了本公开实施例的基于图嵌入的信用卡逾期预测方法的流程示意图;
图3示出了本公开实施例的异构图的示意图;
图4a示出了本公开实施例的基于异构图进行随机游走的游走示意图;
图4b示出了本公开另一实施例的基于异构图进行随机游走的游走示意图;
图5示出了一个例子的基于图嵌入的信用卡逾期预测方法的流程示意图;
图6示出了本公开实施例的基于图嵌入的信用卡逾期预测装置的原理框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
下面,参照附图描述根据本发明实施例的各个实施例和例子。
<硬件配置>
本公开实施例的方法可以由至少一台电子设备实施,即,用于实施该方法的装置6000可以布置在该至少一台电子设备上。图1示出了任意电子设备的硬件结构。图1所示的电子设备可以是便携式电脑、台式计算机、工作站、服务器等,也可以是任意的具有处理器等计算装置和存储器等存储装置的其他设备,在此不做限定。
如图1所示,该电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100用于执行计算机程序。该计算机程序可以采用比如x86、Arm、RISC、MIPS、SSE等架构的指令集编写。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。电子设备1000可以通过扬声器1700输出语音信息,及可以通过麦克风1800采集语音信息等。
图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本公开的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本公开实施例的基于图嵌入的信用卡逾期预测方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
在一个实施例中,提供了一种包括至少一个计算装置和至少一个存储装置的设备,该至少一个存储装置用于存储指令,该指令用于控制该至少一个计算装置执行根据本公开任意实施例的方法。
该设备可以包括至少一台图1所示的电子设备1000,以提供至少一个例如是处理器的计算装置和至少一个例如是存储器的存储装置,在此不做限定。
<方法实施例>
在本实施例中,提供一种基于图嵌入的信用卡逾期预测方法,该基于图嵌入的信用卡逾期预测方法可以是由电子设备实施,该电子设备可以是如图1所示的电子设备1000,电子设备1000可以是服务器,也可以是终端设备。即,本实施例的方法可以是由服务器实施,也可以是由终端设备实施,还可以是由服务器和终端设备共同实施。
在本实施例的方法有终端设备参与实施的应用中,交互可以包括人机交互。在本实施例的方法有服务器参与实施的应用中,交互可以包括服务器与终端设备之间的交互。
根据图2所示,本实施例的基于图嵌入的信用卡逾期预测方法可以包括如下步骤S2100~S2800:
步骤S2100,获取信用卡账单数据集中各目标字段的内容。
信用卡账单数据集中包括大量的信用卡账单数据。
目标字段可以基于信用卡账单数据集中的属性字段得到,该目标字段即为构建异构图的构图字段。目标字段可以是用户id、账单日、信用卡类型、历史违约次数、上笔交易区间等字段,也就是说,信用卡账单数据集中的一条数据可以为:用户id:用户A,账单日:20日,信用卡类型为:A类信用卡,上笔交易区间:10,历史违约次数:0次。
本实施例中,该基于图嵌入的信用卡逾期预测方法还包括先获取信用卡账单数据集的步骤,包括:获取多个信用卡因素数据表;对多个信用卡因素数据表进行拼接处理,获得目标信用卡因素数据表;对目标信用卡因素数据表进行聚合处理,获得信用卡账单数据集。
以上信用卡因素数据表至少包括用户交易数据表、用户属性数据表、信用卡数据表以及用户违约数据表。
该用户交易数据表至少包括用户id、商户id、交易时间、交易金额、交易类型等属性字段。其中,该用户交易数据表中包括大量的用户交易数据。
该用户属性数据表至少包括用户id、用户年龄、用户学历、用户授信额度等属性字段。其中,该用户属性数据表中包括大量的用户属性数据。
该信用卡数据表至少包括不同信用卡类别的发行时间、有效期、促销活动等属性字段。其中,该信用卡数据表中包括大量的信用卡数据
该用户违约数据表至少包括客户信用卡违约行为记录等属性字段。其中,该用户违约数据表中包括大量的与用户违约相关的数据。
根据该实施例,其可以对几张原数据表进行拼表处理,以将原数据表合并成一张宽表,进而采用均值、最值等聚合方法将该宽表聚合到账单粒度,即信用卡账单数据,进而基于信用卡账单数据获得信用卡账单数据集,在获得信用卡账单数据集后,便可提取该信用卡账单数据集中的各目标字段和对应的内容。
根据该实施例,其在获得信用卡账单数据集后,可以在信用卡账单数据集中的部分数据标注下该账单是否逾期的标签,例如可以是在该账单没有逾期的情况下标注0,以及,在该账单逾期的情况下标注1。当然,也可以是信用卡账单数据集中的所有数据标注下该账单是否逾期的标签。
本实施例中,本步骤S2100中获取信用卡账单数据集中各目标字段的内容可以进一步包括如下步骤S2110~S2140:
步骤S2110,提取信用卡账单数据集中各属性字段。
本步骤S2110中,所提取出的属性字段可以是用户id,账单日,信用卡类型,历史违约次数,交易区间,用户学历等属性字段。
步骤S2120,基于梯度提升树算法,计算各属性字段的特征重要性值。
本步骤S2120中,其会调用梯度提升树算法(Light Gradient Boosting Machine,LightGBM)的特征重要性输出接口,以利用该LightGBM模型计算各属性字段的特征重要值。
步骤S2130,根据各属性字段的特征重要性值,获得各目标字段。
本步骤S2130中,其根据各属性字段的特征重要性值,获得各目标字段可以进一步包括如下步骤S2131~S2134:
步骤S2131,根据各属性字段的特征重要性值的降序排序次序,获取前设定数量的特征重要性值对应的属性字段,作为各基础字段。
以上设定数量可以是根据实际应用场景和实际需求设置的数值,本实施例在此不做限定。例如可以是获取排序靠前的20%的特征重要性值对应的属性字段,组成各基础字段。
各基础字段中包括以上第一目标基础字段和除一下第一目标基础字段外的第二目标基础字段。
步骤S2132,在任一基础字段的取值种类低于设定的取值种类阈值时,将对应的基础字段作为第一目标基础字段。
设定的取值种类阈值可以是根据实际应用场景和实际需求设置的数值,本实施例在此不做限定。
可以理解的是,在提取到的各属性字段中,往往存在某些属性字段的取值种类不均匀的情况。此时,如果该属性字段取值较少而直接作为节点进行异构图的构建,就会导致该节点度数过高,影响异构图的使用效果。因此,需要将取值种类较少的属性字段进行组合,以平衡各个节点取值种类。组合后的字段作为组合字段整体作为一个节点输入到异构图中。
例如,属性字段为信用卡类别字段,该信用卡类别的取值种类为6,即共有6个类别的信用卡,由于该信用卡类别的取值种类低于设定的取值种类阈值,在此,可以将该信用卡类别字段作为第一目标基础字段。
又例如,属性字段为开卡人金融等级字段,该开卡人金融等级的取值种类为5,即共有5个级别,由于该开卡人金融等级字段的取值种类低于设定的取值种类阈值,在此,可以将该开卡人金融等级字段作为第一目标基础字段。
再例如,属性字段为账单周期字段,该账单周期的取值种类为31,即共有31个类别,由于该账单周期字段的取值种类低于设定的取值种类阈值,在此,可以将该账单周期字段作为第一目标基础字段。
步骤S2133,对各第一目标基础字段进行字段组合,获得各组合字段。
继续上述步骤S2132的示例,由于信用卡类别字段、开卡人金融等级字段和账单周期字段的取值种类均小于设定的取值种类阈值,如果将该字段单独作为节点,则由于取值类别少的问题,会导致其节点的度过高,从而使得异构图的计算量膨胀,无法有效进行计算。在此,可以将这些类别进行组合后,形成“卡-人-帐”的组合节点,其类别将增加为6*5*30的900个类别,有效降低度数,便于异构图的运算过程。
步骤S2134,将各第二基础字段和各组合字段作为目标字段。
以上各基础字段中包括第一目标基础字段和除第一目标基础字段外的第二目标基础字段。
根据以上步骤S2131~S2134,其能够将取值种类较少的属性字段进行组合,从而能够平衡各个节点的取值种类。
步骤S2140,获得各目标字段的内容。
本步骤S2140中,目标字段包括用户id、账单日、信用卡类型、上笔交易区间、历史违约次数,也就是说,信用卡账单数据集中的一条数据可以为:用户id:用户A,账单日:20日,信用卡类型为:A类信用卡,上笔交易区间:10,历史违约次数:0次。
本实施例中,在获取信用卡账单数据集中各目标字段的内容后,该基于图嵌入的信用卡逾期预测还包括:根据设定的配置规则,为各目标字段的内容配置对应的序号;保存各目标字段的内容与所配置的序号间的映射关系。
以上设定的配置规则满足以下各项:为相同字段类型的目标字段的相同内容配置同一序号;为相同字段类型的目标字段的不同内容配置不同序号;以及,为不同字段类型的目标字段的内容配置不同序号。
可以理解的是,根据以上步骤S2100所获得的是信用卡账单数据集中各目标字段的内容为原始取值形式,而对于异构图的构建,其需要序号化的数据作为输入,因此还需要对各目标字段的内容进行序号化处理。
该实施例中,在保留有连续型字段时,还需要对该连续型字段进行分桶处理,分桶数量与其他字段取值种类保持近似。
该实施例中,可以是依次对每个目标字段的内容进行编号,按字段内容排序后,从1开始依次累加序号,内容相同时序号不增加。例如[金额1、金额2,金额3,金额1],此类序列被编号为[1,2,3,1],其中,前三个金额由于互不重复,因此有独立的序号,而第四个金额与第一个重复,因此序号也与第一个相同,在得到各目标字段的内容的序号后,便可保存各目标字段的内容与所配置的序号间的映射关系,以方便后续步骤使用。
在获取信用卡账单数据中各目标字段的内容之后,进入:
步骤S2200,根据各目标字段的内容构建异构图。
本实施例中,在根据以上步骤S2200获得信用卡账单数据集中各目标字段的内容后,便可根据本步骤S2200构建异构图。
本实施例中,本步骤S2200根据各目标字段的内容构建异构图可以进一步包括:以各目标字段的内容所对应的序号为节点,以相邻两个节点间的连接为边,构建异构图。
该实施例中,两个目标字段的字段内容被认为是联通的,在此可以生成当前异构图所需要的所有边,同时,还需要对处理后的字段两两组合。所构建的异构图具有如下特性:节点间两两可达,且两节点间的两个方向均可到达。
示例性地,以信用卡账单数据中的一条数据为例“用户id:用户A,账单日:20日,信用卡类型为:A类信用卡,上笔交易区间:10,历史违约次数:0次”,序号化之后的该条数据可以为:1,5,9,20,23,其中,1为用户A的序号,5为账单日20号的序号,9为A类信用卡的序号,20为上笔交易区间10的序号,23为历史违约次数0的序号,可以得到图3所示的异构图。可以理解的是,各目标字段的内容的序号还可以是带上该目标字段的字段类型,例如图4a和图4b中A-1,A-5,B-3,B-9,C-2,C-6中的A,B,C表示的是不同目标字段的字段类型,例如A表示金额字段,B表示信用卡类型字段,以及C表示账单日字段。
在根据各目标字段的内容构建异构图之后,进入:
步骤S2300,基于各目标字段生成元路径。
本实施例中,在根据本步骤S2300基于各目标字段生成元路径后,便可基于生成的元路径在该异构图上进行随机游走,进而获得对应的游走路径。
本实施例中,本步骤S2300中基于各目标字段生成元路径可以进一步包括如下步骤S2310~S2320:
步骤S2310,获取所要生成的元路径的元路径数量。
该元路径数量可以是根据实际应用场景和实际需求设置的数值,本实施例在此不做限定。
步骤S2320,以各目标字段中任一目标字段为节点,根据设定的生成规则生成该数量个元路径。
设定的生成规则满足以下各项:元路径中相邻节点的字段类型不同;元路径的路径长度小于或等于设定的路径长度阈值;以及,元路径的起始节点和终止节点的字段类型相同。
该设定的路径长度阈值可以是根据实际应用场景和实际需求设置的数值,该设定的路径长度阈值可以为6。
以设定数量为3,设定的路径长度阈值为6为例,即需要生成3条元路径,每一条元路径的长度小于等于6,同时,元路径必须以某种类型的节点开始,并以该类型的节点结束,同时,元路径中不包括连续的重复节点类型,在此,以目标字段类型包括A,B,C,D,E,F,在此,所生成的第一条元路径可以为A-C-E-F-A,所生成的第二条元路径可以为F-D-E-C-F,所生成的第三条元路径可以为[A,B,C,A]。
在基于各目标字段生成元路径之后,进入:
步骤S2400,基于生成的元路径,在异构图上进行随机游走,获得对应的游走路径。
本实施例中,随机游走是依照元路径的设置情况进行的,随机游走的过程,就是依照元路径在异构图上不断选择路径前进的过程。每当需要前往下一个节点的时候,其游走到与当前节点连接的任意一个节点的概率都是均等的。
在本实施例中,本步骤S2400中基于生成的元路径,在异构图上进行随机游走,获得对应的游走路径可以进一步包括如下步骤S2410~S2430:
步骤S2410,获取在异常图上进行随机游走的游走次数。
该游走次数可以是根据实际应用场景和实际需求设置的数值,本实施例在此不做限定。
步骤S2420,对于每个元路径的第i次随机游走,从异构图各节点中选取与该元路径的起始节点具有相同字段类型的节点作为目标节点。
i的取值为1至N的每一个自然数,N为游走次数。
步骤S2430,以目标节点为起始游走节点,按照该元路径中的节点顺序,随机在异构图上选择对应的节点进行游走,获得该元路径的第i次随机游走的游走路径
接下来以元路径[A,B,C,A],游走次数为2,在图4a和图4b所示的异构图上进行随机游走为例对以上步骤S2420和本步骤S2430进行详细说明,图4a和图4b仅是示出了异构图上的6个节点,并没有画出该6个节点之间的连接关系,该6个节点可以分别为A-1,A-5,B-3,B-9,C-2,C-5。
对于该元路径的第一次随机游走,可以从图4a所示的异构图中的6个节点中随机选取一个A类节点作为目标节点例如以A-1为目标节点,则以A-1为起始游走节点,按照ABCA的顺序,随机在异构图上选择对应的节点进行第一次游走,获得该元路径的第一次随机游走的游走路径可以为图4a所示的A-1,B-9,C-2,A-5。
对于该元路径的第二次随机游走,可以从图4b所示的异构图中的6个节点中随机选取一个A类节点作为目标节点例如以A-5为目标节点,则以A-5为起始游走节点,按照ABCA的顺序,随机在异构图上选择对应的节点进行第一次游走,获得该元路径的第一次随机游走的游走路径可以为图4b所示的A-5,B-3,C-2,A-5。
可以理解的是,对于每一条元路径,每个不同的起始游走节点的取值会触发一次游走过程。按照以上游走方式完成所有预设的元路径,即完成了随机游走过程。
本实施例中,由于游走过程记录的是每个节点的序号,在此,需要利用之前保存的各节点对应的目标字段的内容与序号间的映射,将节点的序映射回该节点对应的目标字段的内容,并进行保存,在此,在获得对应的游走路径后,该基于图嵌入的信用卡逾期预测方法还包括:获取各目标字段的内容与所配置的序号间的映射关系的映射数据;对于每条游走路径,根据映射数据和该游走路径上各节点的序号,获得各节点的序号所对应的目标字段的内容。
示例性地,某一条游走路径的序号为:2,4,1,9,3,5,则取值可以为‘A’,‘beijing’,20,‘CCB’,99。
在基于生成的元路径,在异构图上进行随机游走,获得对应的游走路径之后,进入:
步骤S2500,计算各游走路径中各节点对应的目标字段的内容的词嵌入向量。
本实施例中,本步骤S2500中计算各游走路径中各节点对应的目标字段的内容的词嵌入向量可以进一步包括:基于自然语言处理算法,将各游走路径上的各节点对于的目标字段的内容作为语料数据进行训练,以获得各目标字段的内容的词嵌入向量。
该实施例中,其采用skip-gram作为底层算法,将各条游走路径构成的节点对应的目标字段的内容组合视为语料数据进行训练,从而得到每个词,即每个节点取值的词嵌入向量。
在计算各游走路径中各节点对应的目标字段的内容的词嵌入向量之后,进入:
步骤S2600,对于信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集。
根据以上步骤,此时信用卡账单数据集中的每一条数据中的各目标字段的内容均替换为自身的词嵌入向量,在此,需要对词嵌入向量进行拼接,以获得训练样本数据,进而组成训练样本数据集。可以理解的是,该训练样本数据集可以划分为训练数据集和验证数据集,该训练数据集中的每一条数据具有该账单是否逾期的标签。
本实施例中,本步骤S2600对于信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集可以进一步包括如下步骤S2610~S2640:
步骤S2610,对于信用卡账单数据集中的每一条数据,从各目标字段中获取数据的主键字段。
数据的主键字段的词嵌入向量必须保留,如主键字段是客户号,则该节点对应的词嵌入向量即为最主要的词嵌入向量,进行拼接和保留。
步骤S2620,根据其他目标字段与主键字段间的字段关系,对其他目标字段的内容的词嵌入向量进行处理。
数据的其他字段的词嵌入向量可以选择性保留,其他字段包含了大量长尾信息,作为主键字段的辅助,需要进行一定保留。
本实施例中,本步骤S2620中根据其他目标字段与主键字段间的字段关系,对其他目标字段的内容的词嵌入向量进行处理可以进一步包括:
第一种情况:在主键字段与其他目标字段间的字段关系为一对一的关系时,保留其他目标字段的内容的词嵌入向量。
以上一对一关系是指一个主键字段只会对应一个相关字段,例如,主键字段为客户号,相关字段为客户行内id,则为一对一关系。
对于该种情况,如果主键字段与待保留的字段是一对一关系,则直接进行拼接保留。
第二种情况,在主键字段与其他目标字段间的字段关系为一对多的关系时,获取其他目标字段的内容的词嵌入向量的平均值。
一对多关系是指相关字段是多取值的,例如主键为客户号,相关字段为用户历史购买产品,则属于一对多关系。
对于该种情况,如果主键字段与待保留的字段是一对多关系,则对该字段所有向量取均值后,再进行拼接保留。
步骤S2630,将进行处理后的其他目标字段的内容的词嵌入向量与主键字段的内容的词嵌入向量进行拼接得到一条训练样本数据。
步骤S2640,基于训练样本数据,最终得到训练样本数据集。
在对于信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集之后,进入:
步骤S2700,利用训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型。
本实施例中,可以利用训练样本数据集中的训练数据集训练出进行信用卡逾期预测的机器学习模型。
本实施例中,本步骤S2700中利用训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型可以进一步包括:利用预设的至少一种模型训练算法,基于训练样本来训练出用于进行信用卡逾期预测的机器学习模型。
该预设的模型训练算法可以是以上LightGBM算法。
在利用训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型之后,进入:
步骤S2800,基于机器学习模型进行信用卡逾期预测。
本实施例中,可以利用训练样本数据集中的验证数据集基于机器学习模型进行信用卡逾期预测,进而获得每一条验证数据的预测标签,该预测标签即为表示该条账单是否逾期的标签,可以在该账单逾期的情况下,标签为1,该账单未逾期的情况下,标签为0。
根据本公开实施例的方法,其在获得信用卡账单数据集后,能够依靠图嵌入技术对信用卡账单数据集中各目标字段及各目标字段的内容进行处理,即对客户行为路线进行精准描绘,以得到各目标字段的内容的词嵌入向量,并对于信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集,以及,利用训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型,进而利用该机器学习模型进行信用卡逾期预测,从而提高逾期预测的准确率。
在一个实施例中,该基于图嵌入的信用卡逾期预测还可以包括:响应于配置执行随机游走过程的游走参数的触发操作,提供配置接口;根据配置接口配置游走参数。
该实施例中,游走参数至少包括元路径数量和游走次数。并且,该游走参数是基于yaml规范编写的参数。
该实施例中,配置接口可以是输入框、下拉列表、语音输入入口等能够供用户输入信息的任意入口,在此不做限定。
该实施例中,还可以通过该配置接口配置其他参数,例如以上信用卡因素数据表的表名,机器学习模型的存储路径以及梯度提升树算法的参数等。
<例子>
接下来示出一个例子的基于图嵌入的信用卡逾期预测方法,参照图5所示,该基于图嵌入的信用卡逾期预测方法可以包括如下步骤:
步骤S5010,获取信用卡账单数据集。
步骤S5020,获取信用卡账单数据集中各目标字段及各目标字段的内容。
步骤S5030,根据设定的配置规则,为各目标字段的内容配置对应的序号。
步骤S5040,以各目标字段的内容所对应的序号为节点,以相邻两个节点间的连接为边,构建异构图。
步骤S5050,根据各目标字段生成元路径。
步骤S5060,基于生成的元路径,在异构图上进行随机游走,获得对应的游走路径。
步骤S5070,计算各游走路径中各节点对应的目标字段的内容的词嵌入向量。
步骤S5080,对于信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集。
步骤S5090,利用训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型。
步骤S50100,基于该机器学习模型进行信用卡逾期预测。
<装置实施例>
在本实施例中,提供一种基于图嵌入的信用卡逾期预测装置6000,如图6所示,包括第一获取模块6100、构建模块6200、生成模块6300、第二获取模块6400、计算模块6500、拼接模块6600、训练模块6700及预测模块6800。
第一获取模块6100,用于获取信用卡账单数据集中各目标字段的内容。
构建模块6200,用于根据各目标字段的内容构建异构图。
生成模块6300,用于基于各目标字段生成元路径。
第二获取模块6400,用于基于生成的元路径,在所述异构图上进行随机游走,获得对应的游走路径。
计算模块6500,用于计算各游走路径中各节点对应的目标字段的内容的词嵌入向量。
拼接模块6600,用于对于所述信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集。
训练模块6700,用于利用所述训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型。
预测模块6800,用于基于所述机器学习模型针进行信用卡逾期预测。
在一个实施例中,所述第一获取模块6100,还用于:获取多个信用卡因素数据表;其中,所述信用卡因素数据表至少包括用户交易数据表、用户属性数据表、信用卡数据表以及用户违约数据表;对所述多个信用卡因素数据表进行拼接处理,获得目标信用卡因素数据表;对所述目标信用卡因素数据表进行聚合处理,获得所述信用卡账单数据集。
在一个实施例中,所述第一获取模块6100具体用于:提取所述信用卡账单数据集中各属性字段;基于梯度提升树算法,计算所述各属性字段的特征重要性值;根据所述各属性字段的特征重要性值,获得各目标字段;以及,获得所述各目标字段的内容。
在一个实施例中,所述第一获取模块6100具体用于:根据各属性字段的特征重要性值的降序排序次序,获取前设定数量的特征重要性值对应的属性字段,作为基础字段;在任一所述基础字段的取值种类低于设定的取值种类阈值时,将对应的所述基础字段作为第一目标基础字段。
其中,各基础字段中包括第一目标基础字段和除所述第一目标基础字段外的第二目标基础字段;对各所述第一目标基础字段进行字段组合,获得组合字段;以及,将各所述第二基础字段和各所述组合字段作为各所述目标字段。
在一个实施例中,所述装置还包括第一配置模块(图中未示出),用于:根据设定的配置规则,为各目标字段的内容配置对应的序号;其中,所述设定的配置规则满足以下各项:为相同字段类型的目标字段的相同内容配置同一序号;为相同字段类型的目标字段的不同内容配置不同序号;以及,为不同字段类型的目标字段的内容配置不同序号;保存各目标字段的内容与所配置的序号间的映射关系。
在一个实施例中,所述构建模块6200具体用于:以各目标字段的内容所对应的序号为节点,以相邻两个节点间的连接为边,构建异构图。
在一个实施例中,所述生成模块6300具体用于:获取所要生成的元路径的元路径数量;以各目标字段中任一目标字段为节点,根据设定的生成规则生成所述数量个元路径。
其中,所述设定的生成规则满足以下各项:所述元路径中相邻节点的字段类型不同;所述元路径的路径长度小于或等于设定的路径长度阈值;以及,所述元路径的起始节点和终止节点的字段类型相同。
在一个实施例中,所述第二获取模块6400具体用于:获取在所述异常图上进行随机游走的游走次数;对于每个元路径的第i次随机游走,从所述异构图各节点中选取与该元路径的起始节点具有相同字段类型的节点作为目标节点;其中,i的取值为1至N的每一个自然数,N为所述游走次数;以所述目标节点为起始游走节点,按照该元路径中的节点顺序,随机在所述异构图上选择对应的节点进行游走,获得该元路径的第i次随机游走的游走路径。
在一个实施例中,所述第二获取模块6400还用于:获取各目标字段的内容与所配置的序号间的映射关系的映射数据;对于每条所述游走路径,根据所述映射数据和该游走路径上各节点的序号,获得各节点的序号所对应的目标字段的内容。
在一个实施例中,所述计算模块6500具体用于:基于自然语言处理算法,将各游走路径上的各节点对于的目标字段的内容作为语料数据进行训练,以获得各目标字段的内容的词嵌入向量。
在一个实施例中,所述拼接模块6600具体用于:对于所述信用卡账单数据集中的每一条数据,从各目标字段中获取所述数据的主键字段;根据其他目标字段与所述主键字段间的字段关系,对所述其他目标字段的内容的词嵌入向量进行处理;将进行所述处理后的所述其他目标字段的内容的词嵌入向量与所述主键字段的内容的词嵌入向量进行拼接得到一条训练样本数据;基于所述训练样本数据,最终得到训练样本数据集。
在一个实施例中,所述拼接模块6600具体用于:在所述主键字段与所述其他目标字段间的字段关系为一对一的关系时,保留所述其他目标字段的内容的词嵌入向量;以及,在所述主键字段与所述其他目标字段间的字段关系为一对多的关系时,获取所述其他目标字段的内容的词嵌入向量的平均值。
在一个实施例中,所述训练模块6700具体用于:利用预设的至少一种模型训练算法,基于所述训练样本来训练出用于进行信用卡逾期预测的机器学习模型。
在一个实施例中,所述装置还包括第二配置模块(图中未示出),用于:响应于配置执行随机游走过程的游走参数的触发操作,提供配置接口;其中,所述游走参数至少包括所述元路径数量和所述游走次数;根据所述配置接口配置所述游走参数。
在一个实施例中,所述游走参数为基于yaml规范编写的参数。
<存储介质实施例>
本实施例提供了一种计算机可读存储介质,其中,其上存储有计算机程序,所述计算机程序在被处理器执行时实现根据上述方法实施例中任一项所述的方法。
本发明可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (10)
1.一种基于图嵌入的信用卡逾期预测方法,包括:
获取信用卡账单数据集中各目标字段的内容;
根据各目标字段的内容构建异构图;
基于各目标字段生成元路径;
基于生成的元路径,在所述异构图上进行随机游走,获得对应的游走路径;
计算各游走路径中各节点对应的目标字段的内容的词嵌入向量;
对于所述信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集;
利用所述训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型;以及,
基于所述机器学习模型进行信用卡逾期预测。
2.根据权利要求1所述的方法,其中,所述方法还包括获取所述信用卡账单数据集的步骤,
所述获取所述信用卡账单数据集,包括:
获取多个信用卡因素数据表;其中,所述信用卡因素数据表至少包括用户交易数据表、用户属性数据表、信用卡数据表以及用户违约数据表;
对所述多个信用卡因素数据表进行拼接处理,获得目标信用卡因素数据表;
对所述目标信用卡因素数据表进行聚合处理,获得所述信用卡账单数据集。
3.根据权利要求1所述的方法,其中,所述获取信用卡账单数据集中各目标字段的内容,包括:
提取所述信用卡账单数据集中各属性字段;
基于梯度提升树算法,计算所述各属性字段的特征重要性值;
根据所述各属性字段的特征重要性值,获得各目标字段;以及,
获得所述各目标字段的内容。
4.根据权利要求3所述的方法,其中,所述根据所述各属性字段的特征重要性值,获得各目标字段,包括:
根据各属性字段的特征重要性值的降序排序次序,获取前设定数量的特征重要性值对应的属性字段,作为各基础字段;
在任一所述基础字段的取值种类低于设定的取值种类阈值时,将对应的所述基础字段作为第一目标基础字段;其中,各基础字段中包括第一目标基础字段和除所述第一目标基础字段外的第二目标基础字段;
对各所述第一目标基础字段进行字段组合,获得组合字段;以及,
将各所述第二基础字段和各所述组合字段作为各所述目标字段。
5.根据权利要求1所述的方法,其中,在获取所述信用卡账单数据集中各目标字段的内容后,还包括:
根据设定的配置规则,为各目标字段的内容配置对应的序号;其中,所述设定的配置规则满足以下各项:为相同字段类型的目标字段的相同内容配置同一序号;为相同字段类型的目标字段的不同内容配置不同序号;以及,为不同字段类型的目标字段的内容配置不同序号;
保存各目标字段的内容与所配置的序号间的映射关系。
6.根据权利要求5所述的方法,其中,所述根据各目标字段的内容构建异构图,包括:
以各目标字段的内容所对应的序号为节点,以相邻两个节点间的连接为边,构建异构图。
7.根据权利要求1所述的方法,其中,所述根据各目标字段生成元路径,包括:
获取所要生成的元路径的元路径数量;
以各目标字段中任一目标字段为节点,根据设定的生成规则生成所述数量个元路径;
其中,所述设定的生成规则满足以下各项:
所述元路径中相邻节点的字段类型不同;
所述元路径的路径长度小于或等于设定的路径长度阈值;以及,
所述元路径的起始节点和终止节点的字段类型相同。
8.一种基于图嵌入的信用卡逾期预测装置,包括:
第一获取模块,用于获取信用卡账单数据集中各目标字段的内容;
构建模块,用于根据各目标字段的内容构建异构图;
生成模块,用于基于各目标字段生成元路径;
第二获取模块,用于基于生成的元路径,在所述异构图上进行随机游走,获得对应的游走路径;
计算模块,用于计算各游走路径中各节点对应的目标字段的内容的词嵌入向量;
拼接模块,用于对于所述信用卡账单数据集中的每一条数据,将该条数据的各目标字段的内容的词嵌入向量进行拼接得到一条训练样本数据,最终获得训练样本数据集;
训练模块,用于利用所述训练样本数据集训练出用于进行信用卡逾期预测的机器学习模型;以及,
预测模块,用于基于所述机器学习模型进行信用卡逾期预测。
9.一种包括至少一个计算装置和至少一个存储装置的设备,其中,所述至少一个存储装置用于存储指令,所述指令用于控制所述至少一个计算装置执行根据权利要求1至7中任一项所述的方法;或者,所述设备通过所述计算装置和所述存储装置实现根据权利要求8所述的装置。
10.一种计算机可读存储介质,其中,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011520990.3A CN112561688B (zh) | 2020-12-21 | 2020-12-21 | 基于图嵌入的信用卡逾期预测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011520990.3A CN112561688B (zh) | 2020-12-21 | 2020-12-21 | 基于图嵌入的信用卡逾期预测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112561688A true CN112561688A (zh) | 2021-03-26 |
CN112561688B CN112561688B (zh) | 2024-10-15 |
Family
ID=75032003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011520990.3A Active CN112561688B (zh) | 2020-12-21 | 2020-12-21 | 基于图嵌入的信用卡逾期预测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112561688B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159921A (zh) * | 2021-04-23 | 2021-07-23 | 上海晓途网络科技有限公司 | 一种逾期预测方法、装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108389125A (zh) * | 2018-02-27 | 2018-08-10 | 挖财网络技术有限公司 | 信贷申请的逾期风险预测方法及装置 |
US10062039B1 (en) * | 2017-06-28 | 2018-08-28 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using word embedding within text-based documents and multimodal documents |
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
CN109255506A (zh) * | 2018-11-22 | 2019-01-22 | 重庆邮电大学 | 一种基于大数据的互联网金融用户贷款逾期预测方法 |
CN109767008A (zh) * | 2019-01-07 | 2019-05-17 | 武汉大学 | 一种基于元模式的高度异构网络多态特征学习方法 |
CN110704692A (zh) * | 2019-09-12 | 2020-01-17 | 重庆大学 | 基于图嵌入的员工离职行为预测方法及装置 |
CN111192131A (zh) * | 2019-12-12 | 2020-05-22 | 上海淇玥信息技术有限公司 | 金融风险预测方法、装置和电子设备 |
CN111400560A (zh) * | 2020-03-10 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种基于异构图神经网络模型进行预测的方法和系统 |
CN111708922A (zh) * | 2020-06-19 | 2020-09-25 | 北京百度网讯科技有限公司 | 用于表示异构图节点的模型生成方法及装置 |
KR20200115369A (ko) * | 2019-03-29 | 2020-10-07 | 조진삼 | 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템 |
CN112041880A (zh) * | 2018-04-11 | 2020-12-04 | 金融及风险组织有限公司 | 用于评估信用风险的深度学习方法 |
US20200394542A1 (en) * | 2019-06-11 | 2020-12-17 | International Business Machines Corporation | Automatic visualization and explanation of feature learning output from a relational database for predictive modelling |
-
2020
- 2020-12-21 CN CN202011520990.3A patent/CN112561688B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10062039B1 (en) * | 2017-06-28 | 2018-08-28 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using word embedding within text-based documents and multimodal documents |
CN108389125A (zh) * | 2018-02-27 | 2018-08-10 | 挖财网络技术有限公司 | 信贷申请的逾期风险预测方法及装置 |
CN112041880A (zh) * | 2018-04-11 | 2020-12-04 | 金融及风险组织有限公司 | 用于评估信用风险的深度学习方法 |
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
CN109255506A (zh) * | 2018-11-22 | 2019-01-22 | 重庆邮电大学 | 一种基于大数据的互联网金融用户贷款逾期预测方法 |
CN109767008A (zh) * | 2019-01-07 | 2019-05-17 | 武汉大学 | 一种基于元模式的高度异构网络多态特征学习方法 |
KR20200115369A (ko) * | 2019-03-29 | 2020-10-07 | 조진삼 | 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템 |
US20200394542A1 (en) * | 2019-06-11 | 2020-12-17 | International Business Machines Corporation | Automatic visualization and explanation of feature learning output from a relational database for predictive modelling |
CN110704692A (zh) * | 2019-09-12 | 2020-01-17 | 重庆大学 | 基于图嵌入的员工离职行为预测方法及装置 |
CN111192131A (zh) * | 2019-12-12 | 2020-05-22 | 上海淇玥信息技术有限公司 | 金融风险预测方法、装置和电子设备 |
CN111400560A (zh) * | 2020-03-10 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种基于异构图神经网络模型进行预测的方法和系统 |
CN111708922A (zh) * | 2020-06-19 | 2020-09-25 | 北京百度网讯科技有限公司 | 用于表示异构图节点的模型生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
孙权;汤韬;郑建宾;潘婧;赵金涛;: "金融交易数据驱动的图谱网络智能化欺诈侦测", 应用科学学报, no. 05 * |
张帅: "基于互联网文本的P2P平台风险预测研究与实现", 中国优秀硕士学位论文 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159921A (zh) * | 2021-04-23 | 2021-07-23 | 上海晓途网络科技有限公司 | 一种逾期预测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112561688B (zh) | 2024-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956843B2 (en) | Determining optimal device refresh cycles and device repairs through cognitive analysis of unstructured data and device health scores | |
US10387515B2 (en) | Network search query | |
US20150347950A1 (en) | Agent Ranking | |
US20190164172A1 (en) | Geographic risk and money laundering alert system | |
US11348043B2 (en) | Collective-aware task distribution manager using a computer | |
US20170213135A1 (en) | Candidate visualization techniques for use with genetic algorithms | |
US10956674B2 (en) | Creating cost models using standard templates and key-value pair differential analysis | |
CN111506575B (zh) | 一种网点业务量预测模型的训练方法、装置及系统 | |
US11157983B2 (en) | Generating a framework for prioritizing machine learning model offerings via a platform | |
US10769281B2 (en) | Compliant software component infrastructure deployment | |
US20170372347A1 (en) | Sequence-based marketing attribution model for customer journeys | |
US20220414331A1 (en) | Automatically generated question suggestions | |
US11978060B2 (en) | Dynamic categorization of it service tickets using natural language description | |
CN111159565A (zh) | 构建基于多目标优化的推荐模型的方法、装置及设备 | |
US20180068330A1 (en) | Deep Learning Based Unsupervised Event Learning for Economic Indicator Predictions | |
US20190147543A1 (en) | Composite account structure | |
CN112330427B (zh) | 用于商品排序的方法、电子设备和存储介质 | |
US9785464B2 (en) | Intellective switching between tasks | |
CN110689425A (zh) | 基于收益进行额度定价的方法、装置和电子设备 | |
US10332048B2 (en) | Job profile generation based on intranet usage | |
US20190171985A1 (en) | Data assignment to identifier codes | |
CN112132323A (zh) | 一种商品对象的价值量的预测方法、装置及电子设备 | |
CN112561688A (zh) | 基于图嵌入的信用卡逾期预测方法、装置及电子设备 | |
US20170032300A1 (en) | Dynamic selection of resources on which an action is performed | |
CN110795638A (zh) | 用于输出信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |