CN111815425A

CN111815425A - 一种基于实体嵌入的用户信用风险等级判定方法及系统

Info

Publication number: CN111815425A
Application number: CN202010731651.3A
Authority: CN
Inventors: 殷钱安; 梁淑云; 刘胜; 马影; 陶景龙; 王启凡; 魏国富; 徐�明; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-10-23

Abstract

本发明提供一种基于实体嵌入的用户信用风险等级判定方法，包括数据提取，对数据集中需要进行离散化的连续型变量进行分箱，形成对应的离散型变量特征；以每个用户为对象，利用神经网络对离散型特征进行向量训练，将离散特征向量化，构建成实体向量；然后以用户为对象，将每个离散型特征对应的实体向量、连续型变量进行拼接，得到用户维度的数据特征向量数据集data3；利用textCNN算法构建用户信用风险等级判定模型；用户信用风险等级预测，选取预测集用户ID，经实体嵌入后输入分类模型，从而对预测集用户的风险等级进行预测。

Description

一种基于实体嵌入的用户信用风险等级判定方法及系统

技术领域

本发明涉及计算机数据安全技术领域，具体来说是一种基于实体嵌入的用户信用风险等级判定方法及系统。

背景技术

伴随着市场经济的发展，信用风险仍是金融行业长期以来面临的主要风险之一。随着互联网技术及应用快速发展，互联网金融应运而生。大量的金融消费等行为方式从线下转到线上，在转移的过程中会出现不同的问题和挑战，比如风险，金融公司会面临各种各样的信用风险和欺诈风险。在互联网金融迅猛发展的背景下，风险控制问题已然成为行业焦点，基于大数据的风控模型正在成为互联网金融领域的热门战场。

如申请号为201910583894.4公开的一种面向客服在线质检的文本分类方法，该方法通过将语音在转换成文本，然后对文本数据进行标注，然后构建不同的分类模型，通过分类模型对文本数据进行分类，分类时充分考虑实体顺序，从而改善分类效果。但是，该方法针对非结构数据进行处理，不适用结构性数据。另外，信用评分方面，常用的数据出来方法为分箱，分箱后再通过独热编码处理，然而具有许多类别的独热编码变量会导致非常稀疏的向量，这在计算上是无效的，并且难以优化。虽然标签编码解决了这一问题，但只能用于基于树的模型。

基于上述问题，针对金融行业的结构性数据特性，及信用风险涉及到用户的基本信息，用户社会信息，用户行为能力等诸多业务特征，使得深度学习无法有效的在用户风险评分上进行应用。

发明内容

本发明所要解决的技术问题在于针对金融行业的信用风险评分判定，提供一种适合结构性数据分类的方法。

本发明通过以下技术手段实现解决上述技术问题的：

一种基于实体嵌入的用户信用风险等级判定方法，包括以下步骤：

S01.数据提取，获取所有用户数据，已标注风险等级的用户数据作为训练集数据，未标注风险等级的用户记录作为预测数据集，两部分数据集按行合并成数据集data1；

S02.数据特征处理，对数据集data1中需要进行离散化的连续型变量进行分箱，形成对应的离散型变量特征；以用户为对象将data1中原有离散型变量、未离散化的连续变量以及新构造的离散特征进行合并，得到数据集data2；

S03.特征向量化，根据数据集data2，以每个用户为对象，利用神经网络对离散型特征进行向量训练，将离散特征向量化，构建成实体向量；然后以用户为对象，将每个离散型特征对应的实体向量、连续型变量进行拼接，得到用户维度的数据特征向量数据集data3；

S04.构建用户信用风险等级判定模型，将数据集data3输入textCNN算法进行训练，得到用户信用风险等级判定的分类模型；

S05.用户信用风险等级预测，选取步骤S01中的预测集用户ID，采用步骤S03的方法得到对应的预测集数据特征向量集，然后将预测集数据特征向量集输入步骤S04获得的分类模型，从而对预测集用户的风险等级进行预测。

进一步的，所述步骤S02中，采用卡方分箱法对数据集data1中需要进行离散化的连续型变量进行分箱。

进一步的，所述步骤S03中，采用word2vec方法进行离散特征向量化处理。

本发明还提供一种基于实体嵌入的用户信用风险等级判定系统，包括：

数据提取模块，获取所有用户数据，已标注风险等级的用户数据作为训练集数据，未标注风险等级的用户记录作为预测数据集，两部分数据集按行合并成数据集data1；

数据特征处理模块，对数据集data1中需要进行离散化的连续型变量进行分箱，形成对应的离散型变量特征；以用户为对象将data1中原有离散型变量、未离散化的连续变量以及新构造的离散特征进行合并，得到数据集data2；

特征向量化模块，根据数据集data2，以每个用户为对象，利用神经网络对离散型特征进行向量训练，将离散特征向量化，构建成实体向量；然后以用户为对象，将每个离散型特征对应的实体向量、连续型变量进行拼接，得到用户维度的数据特征向量数据集data3；

构建用户信用风险等级判定模型模块，将数据集data3输入textCNN算法进行训练，得到用户信用风险等级判定的分类模型；

用户信用风险等级预测模块，选取数据提取模块中的预测集用户ID，采用特征向量化模块的方法得到对应的预测集数据特征向量集，然后将预测集数据特征向量集输入构建用户信用风险等级判定模型模块获得的分类模型，从而对预测集用户的风险等级进行预测。

进一步的，所述数据特征处理模块中，采用卡方分箱法对数据集data1中需要进行离散化的连续型变量进行分箱。

进一步的，所述特征向量化模块中，采用word2vec方法进行离散特征向量化处理。

本发明还提供一种存储介质，其中存储多条指令，所述指令适用于处理器加载并执行，所述多条指令为：

数据提取，获取所有用户数据，已标注风险等级的用户数据作为训练集数据，未标注风险等级的用户记录作为预测数据集，两部分数据集按行合并成数据集data1；

数据特征处理，对数据集data1中需要进行离散化的连续型变量进行分箱，形成对应的离散型变量特征；以用户为对象将data1中原有离散型变量、未离散化的连续变量以及新构造的离散特征进行合并，得到数据集data2；

特征向量化，根据数据集data2，以每个用户为对象，利用神经网络对离散型特征进行向量训练，将离散特征向量化，构建成实体向量；然后以用户为对象，将每个离散型特征对应的实体向量、连续型变量进行拼接，得到用户维度的数据特征向量数据集data3；

用户信用风险等级预测，选取数据提取模块中的预测集用户ID，采用特征向量化模块的方法得到对应的预测集数据特征向量集，然后将预测集数据特征向量集输入构建用户信用风险等级判定模型模块获得的分类模型，从而对预测集用户的风险等级进行预测。

本发明的优点在于：

本实施例实体嵌入后利用神经网络进行训练的同时，也要训练分配给每个类别的向量。因此，在训练过程结束时，我们最终会得到一个代表每个类别的向量。而且训练得到的实体嵌入可以进行可视化，可以有效地为每个类别提供可视化，解决深度学习无法输出特征重要性问题。

训练好的实体嵌入可以保存，既可以用于非深度学习模型，也可以用于深度学习模型。信用风险涉及到用户基本信息、用户社会信息、用户行为能力等诸多业务特征，使得深度学习无法有效地在用户信用风险评分上进行应用，有效地解决了深度学习模型在复杂实际场景上的应用。

附图说明

图1为本发明实施例中基于实体嵌入的用户信用风险等级判定方法的处理过程流程图；

图2为本发明实施例中基于实体嵌入的用户信用风险等级判定方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、图2所示，一种基于实体嵌入的用户信用风险等级判定方法，包括以下步骤：

步骤1.数据提取，获取所有用户数据，包括用户信息、用户行为等属性，已标注风险等级的用户数据作为训练集数据，未标注风险等级的用户记录作为预测数据集，两部分数据集按行合并成数据集data1；

步骤2.数据特征处理，对数据集data1中需要进行离散化的连续型变量进行分箱，形成对应的离散型变量特征；以用户为对象将data1中原有离散型变量、未离散化的连续变量以及新构造的离散特征进行合并，得到数据集data2；

本实施例中，根据各变量业务特征，对特征变量进行划分，筛选出连续型变量、离散型变量两大类；然后根据数据集每个变量的业务内容和特征值分布，从连续型变量中筛选出需离散化的特征变量。

本实施了利用卡方分箱法对需离散化的连续型变量进行分箱，例如用户1，用户2，……，用户10的年龄特征字段对应的数组(18,25,32,40,55,52,47,36,22,60)，若以10为组距进行分箱，则可得到(1,2,3,4,5,5,4,3,2,6)分类数组，并与相应的特征名进行组合得到对应分类标识(age1,age2,age3,age4,age5,age5,age4,age3,age2,age6)。

卡方分箱法是一种有监督的特征分箱方法。卡方分箱是典型的基于合并机制的自底向上离散化方法。其基于如下假设：如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。此处衡量分布相似性的指标就是卡方值。卡方值越低，类分布的相似度越高。

步骤3.特征向量化，根据数据集data2，以每个用户为对象，利用神经网络对离散型特征进行向量训练，将离散特征向量化，构建成实体向量；然后以用户为对象，将每个离散型特征对应的实体向量、连续型变量进行拼接，得到用户维度的数据特征向量数据集data3；本实施例采用word2vec方法，进行离散特征向量化处理；

步骤4.构建用户信用风险等级判定模型，将数据集data3输入textCNN算法进行训练，得到用户信用风险等级判定的分类模型；

步骤5.用户信用风险等级预测，选取步骤1中的预测集用户ID，采用步骤3的方法得到对应的预测集数据特征向量集，然后将预测集数据特征向量集输入步骤4获得的分类模型，从而对预测集用户的风险等级进行预测。

本实施例还提供一种基于实体嵌入的用户信用风险等级判定系统，包括

数据提取模块，获取所有用户数据，包括用户信息、用户行为等属性，已标注风险等级的用户数据作为训练集数据，未标注风险等级的用户记录作为预测数据集，两部分数据集按行合并成数据集data1；

卡方分箱法是一种有监督的特征分箱方法。方分箱是典型的基于合并机制的自底向上离散化方法。其基于如下假设：如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。此处衡量分布相似性的指标就是卡方值。卡方值越低，类分布的相似度越高。

特征向量化模块，根据数据集data2，以每个用户为对象，利用神经网络对离散型特征进行向量训练，将离散特征向量化，构建成实体向量；然后以用户为对象，将每个离散型特征对应的实体向量、连续型变量进行拼接，得到用户维度的数据特征向量数据集data3；本实施例采用word2vec方法，进行离散特征向量化处理；

用户信用风险等级预测模块，选取步骤1中的预测集用户ID，采用步骤3的方法得到对应的预测集数据特征向量集，然后将预测集数据特征向量集输入步骤4获得的分类模型，从而对预测集用户的风险等级进行预测。

本实施例还提供一种存储介质，其中存储多条指令，指令适用于处理器加载并执行，所述多条指令为：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于实体嵌入的用户信用风险等级判定方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于实体嵌入的用户信用风险等级判定方法，其特征在于：所述步骤S02中，采用卡方分箱法对数据集data1中需要进行离散化的连续型变量进行分箱。

3.根据权利要求1所述的一种基于实体嵌入的用户信用风险等级判定方法，其特征在于：所述步骤S03中，采用word2vec方法进行离散特征向量化处理。

4.一种基于实体嵌入的用户信用风险等级判定系统，其特征在于：包括：

5.根据权利要求4所述的一种基于实体嵌入的用户信用风险等级判定系统，其特征在于：所述数据特征处理模块中，采用卡方分箱法对数据集data1中需要进行离散化的连续型变量进行分箱。

6.根据权利要求4所述的一种基于实体嵌入的用户信用风险等级判定方法，其特征在于：所述特征向量化模块中，采用word2vec方法进行离散特征向量化处理。

7.一种存储介质，其中存储多条指令，所述指令适用于处理器加载并执行，其特征在于：所述多条指令为：