CN113239199A

CN113239199A - 一种基于多方数据集的信用分类方法

Info

Publication number: CN113239199A
Application number: CN202110541128.9A
Authority: CN
Inventors: 钱鹰; 刘振龙; 刘歆; 韦庆杰; 安春生; 姜美兰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-10
Anticipated expiration: 2041-05-18
Also published as: CN113239199B

Abstract

本发明涉及一种基于多方数据集的信用分类方法，属于数据挖掘领域。本发明方法包括：输入信用评估相关的多方数据集；对多个数据集数据进行数据预处理，解决原始数据集中存在的多种问题，并得到标准输入数据集；利用机器学习中的聚类算法与数据生成算法，将多个数据集进行对齐，得到对齐后的新数据集；将文本类型特征与数值类型特征分别输入到两个模型中单独训练；最后结合两个模型中的训练结果，使用逻辑回归方法计算最终两个模型权重，并输出最终的评估结果。本发明通过引入数据对齐方法与信用评估算法解决多个信用数据集中样本数量无法对齐的问题，提高了可被用于训练的样本数量，减少了由于训练样本不足带来的机器学习模型分类无法收敛的问题。

Description

一种基于多方数据集的信用分类方法

技术领域

本发明属于数据挖掘领域，涉及一种基于多方数据集的信用分类方法。

背景技术

由于数据的来源多种多样，例如贷款信息，消费数据，以及自行提供的个人基础信息等等。同一用户或企业在多方提供的数据集中往往会存在信息不全，例如具有个人基础信息，但没有消费数据等，导致多个数据集无法对齐，训练样本不足等问题。因此，设计一种能够将多方数据集进行对齐方法，增加信用分类的训练样本的是十分必要的。

对于信用分类方法，现有的主流信用分类方法都是针对单一数据集中信用分类。其中，随机森林，XGBoost和LightGBM是最典型的方法。随机森林是经典的Bagging类集成方法，随机森林思想是将若干个弱分类器的分类结果进行投票选择，从而组成一个强分类器。XGBoost则是属于Boosting类集成算法的一种，XGBoost的主要思想是：首先，根据信息增益，不断的通过决策树的特征分裂来生成一颗新的树。每颗新构建的决策树的目标是拟合之前训练完成后真实值与预测值之间的残差；其次，当训练完成后，输入的样本在计算后，会在每一颗决策树上对应一个叶子节点，叶子节点代表当前决策树的分类或预测结果；最后，将所有叶子节点上的值进行相加，得到最终的结果。与XGBoost相比，LightGBM通过采用直方图算法，并且将原有的决策树生成方式由按层分裂改为按叶子分裂。在不损失准确率的情况下，在内存消耗和训练时间上相比XGBoost都有极大的降低。

综上所述，目前信用分类还存在以下的问题：

(1)当前信用分类方法大多针对单一数据集，对于多个不同来源的数据集不能有效进行处理；

(2)以决策树为代表的集成模型，凭借着迭代地选取统计信息增益最大的特征来构建决策树，通过选取信息增益大的数值特征进行组合来提高训练精度，在应对数值类型特征具有优势但不能有效地利用稀疏特征进行树的分裂。

因此，本发明提出了一种基于多方数据集的信用分类方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于多方数据集的信用分类方法。

为达到上述目的，本发明提供如下技术方案：

一种基于多方数据集的信用分类方法，该方法包括以下步骤：

S110：输入信用评估相关的多方数据，构建信用评估数据集；

S120：对数据集进行预处理，包括：缺失值处理和归一化，解决原始数据集中存在的多种问题，并得到标准输入数据集；

S130：为有效利用多个数据集中的样本信息，使用机器学习中的聚类算法与数据生成算法，将多个数据集进行对齐，得到对齐生成后的新数据集；

S140：为更好的应对存在大量文本特征导致的稀疏问题，将对齐后的数据集按照特征种类进行拆分，划将文本特征与数值类型特征类型分别输入到两个模型中单独训练；

S150：使用逻辑回归方法，讲上诉两个模型的输出结果作为输入，计算两个模型的最佳权重值，并输出最终评估结果。

可选的，所述对数据集进行预处理具体为：

首先针对缺失数据，分别计算缺失比例，当缺失比例大于特定比例时，将特征直接从数据集中删除；在剩下的缺失数据中，如果特征分布比较均匀，则计算该特征的均值进行缺失填补；如果特征分布不均匀，则采用众数或者中位数进行填补；若缺失特征是离散型特征，并且其离散个数较少，则将该变量转换为哑变量；对于缺失比例小的特征，使用决策树或线性回归模型进行预测，进行填补。

其次针对大数特征，使用Min-max方法进行标准化，计算公式如下：

其中，x′为标准化后的值；x为原始特征值；X_min为该特征在所有样本中的最小值；X_max为特征在所有样本中的最大值。

可选的，所述S130具体包括以下步骤：

S210：输入待对齐的数据集；

S220：将能够通过索引等方式对齐的样本进行对齐，得到初步对齐后数据集；

S230：利用机器学习中的聚类算法，即K-Means聚类算法，将对齐后的数据集C与样本个数最大的数据集A’分别进行聚类，划分为多个不同的簇A′₁，A′₂，A′₃...A′_n与C₁，C₂，C₃...C_n，其中n为聚类的簇的个数，并且数据集A’与数据集C聚类的簇的个数相同，n具体的值根据数据集中样本大小来设定；

S240：统计样本个数最大的数据集聚类后的不同簇A′₁，A′₂，A′₃...A′_n中，在对齐后数据集不同簇C₁，C₂，C₃...C_n中的占比，根据占比数量，将不同数据集聚类出来的簇进行对应，即使得A′_i1与C_j形成对应关系；

S250：最后根据不同簇之间的对应关系，使用SMOTE方法进行样本生成，将生成结果加入到最终对齐数据集中作为数据集对齐的输出。

可选的，所述聚类算法具体为：

(1)从N个样本随机选取K个样本作为中心点；

(2)对剩余的每个样本测量其到每个中心点的距离，并归到最近的中心点的类；

(3)重新计算已经得到的各个类的中心点；

(4)迭代步骤(2)和(3)直至新的中心点与原中心点相等或小于指定阈值，算法结束。

可选的，所述根据占比数量，将不同数据集聚类出来的簇进行对应具体为：

其中，P_i代表样本数量最大的数据集聚类后的第i个簇的对应结果；N_i代表样本数量最大的数据集第i个簇的样本个数；

代表样本数量最大的数据集第i个簇中，占对齐后数据集第k个簇的样本个数。

可选的，所述根据数据生成算法具体为：

其中，x_new代表新生成的特征，x代表某一样本，

代表样本x的一个近邻。

可选的，所述将文本特征与数值类型特征类型分别输入到两个模型中单独训练中，两个模型分别为文本分类模型和数值分类模型；

所述文本分类模型为因子分解机神经网FNN；

所述数值分类模型为GBDT2NN，GBDT2NN使用树蒸馏技术，将多颗决策树结构转换为神经网络结构，通过使用神经网络模型来近似树状结构的函数，实现结构知识的精馏。

可选的，所述S140～S150的训练方法包括以下步骤：

S310：获取信用分类数据集，将数据集划分为训练集和测试集；

S320：将数据集进行拆分，单独提取出文本类型特征和数值类型特征；

S330：将文本类型特征输入到FNN网络中进行训练，采用FM预训练得到的隐含层及其权重作为神经网络的第一层的初始值，之后再不断堆叠全连接层，最终输出预测的结果，计算文本特征的分类损失，提取文本特征的分类信息，计算FNN分类损失函数；

S340：见数值类型特征输入到GBDT2NN网络中进行训练，提取数值分类特征，计算GBDT2NN分类损失函数；

S350：将FNN得到的文本分类结果与GBDT2NN得到的数值类型分类结果输入到LR模型中，计算LR模型的损失函数；

S360：最小化多个损失函数之和来调整FNN、GBDT2NN以及LR参数，重复执行S330～S350，直到分类损失基本不再变化。

可选的，所述FNN的交叉熵损失函数为：

其中，y是该样本实际类别，

是网络预测输入样本的为第i类的概率；

GBDT2NN的学习过程为：

其中，H(L^t，i；w^t)是以w^t为参数的一层全连接网络；

是树学习过程中的损失函数；w和w₀是用于将嵌入映射到叶子节点值的参数；p^t，i为样本在树种的叶子节点的预测值；

LR分类损失为：

其中，m是在训练时的样本总数；h_θ(xⁱ)是模型预测输入样本为信用良好的概率；yⁱ是该第i个样本的实际类别。

一种处理装置，包括处理器、存储装置，处理器，适用于执行各条程序；

存储装置，适用于存储多条程序；

所述程序适用于由处理器加载并执行以实现权利要求1～9中任一项所述的基于多方数据集的信用分类方法。

本发明的有益效果在于：

(1)本发明解决了多个信用数据集无法对齐问题。本发明的数据对齐方法，有效的利用聚类方法将样本划分为多个簇，并在相对应簇中使用数据生成方法来填补缺失的特征，为后续分类任务提供了更多的训练样本。

(2)本发明解决了集成决策树类相关的分类模型对稀疏数据学习不充分等问题，提高了分类准确性。本发明将文本数据与数值数据分开训练，通过将文本类型特征单独放入FNN中进行训练，数值类型特征单独放入到GBDT2NN模型中训练。大量研究表明，神经网络能够通过嵌入结构来学习稀疏数据的有效性。该方法提高了在稀疏数据下的信用分类准确度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1是本发明的流程示意图；

图2是本发明的简略结构示意图；

图3是本发明一种基于聚类的数据集对齐方法结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例1

请参阅图1～图2，本发明实施例提供一种基于多方数据集的信用分类方法，包括如下步骤：

步骤S110，输入信用评估相关的多方数据，构建信用评估数据集；

示例性地，将两个样本内容、数量不一致的数据集进行输入，发明方法对输入数据集大小不做限制，可以按照具体情况设置，但数据集之间必须相关。

步骤S120，对多个数据集数据进行数据预处理，包括：缺失值处理，归一化等等，解决原始数据集中存在的多种问题，并得到标准输入数据集；

对输入的数据集进行缺失值处理，根据设定缺失比例超过80％的特征进行删除，同时对于数值类型特征使用均值进行填补，对于数值类型特征可以使用众数进行填补。填补方式可以是均值、中位数、众数等等。对于部分大数特征，使用Min-max方法对其特征值缩放到0到1之间。

步骤S130，为了有效利用多个数据集中的样本信息，使用机器学习中的聚类算法与数据生成算法，将多个数据集进行对齐，得到对齐生成后的新数据集；

将经过数据预处理后的数据集放入到数据集对齐算法中，该算法使用的聚类算法包括但不限制于K-Means算法，数据生成算法使用SMOTE。该算法详细步骤见实施例2中对应的步骤，在此不再赘述。在该方法结束后，输出一个对齐生成后的数据集。

步骤S140，为了更好的应对存在大量文本特征导致的稀疏问题，讲对齐后的数据集按照特征种类进行拆分，划将文本特征与数值类型特征类型分别输入到两个模型中单独训练；

在信用分类场景下，存在着大量的文本类特征与数值特征，文本特征例如职业，教育水平、所在城市等等；数值特征例如年龄、存款余额等等。将数据对齐后的数据集按照特征类别进行拆分，将数值类型特征放入GBDT2NN模型中进行训练，将文本类型特征放入FNN模型中进行训练，两个模型最终都会输出一个0到1的概率值，之所以使用FNN是因为FNN引入隐向量，缓解了数据稀疏带来的参数难以训练的问题。

步骤S150，使用逻辑回归方法，讲上诉两个模型的输出结果作为输入，计算两个模型的最佳权重值，并输出最终评估结果。

将上述S140步骤中得到的两个预测结果，放入到LR模型中进行训练，得到FNN与GBDT2NN模型对最终结果的权重占比。计算损失函数如下：

其中，m是在训练时的样本总数；h_θ(xⁱ)是模型预测输入样本为信用良好的概率；yⁱ是该第i个样本的实际类别；

将待测试的数据放入模型中，得到信用评估分类结果。

实施例2

请参阅图3，本发明实施例提供了一种基于聚类的数据集对齐方法，包括如下步骤：

步骤S210，输入待对齐的数据集；

示例性地，将两个样本数量不一致的数据集进行输入，本申请对输入数据集大小不做限制，可以按照具体情况设置，但数据集必须相关。

步骤S220，将能够通过索引等方式对齐的样本进行对齐，得到初步对齐后数据集；

示例性地，设左边数据集A为样本数量较大的数据集，右边数据集B为样本数量较小的数据集，对A和B使用内连接的方式，得到以id相匹配的初步对齐数据集C；对A和B使用左连接的方式得到数据集A′。连接的特征可以是用户姓名、id等信息，以具体数据集为准。

步骤S230，利用机器学习中的聚类算法，将对齐后的数据集与样本个数最大的数据集分别进行聚类，划分为多个不同的簇；

将数据集A′与数据集C使用K-Means聚类方法分别进行聚类，划分为相同个数的簇。例如A′₁，A′₂，A′₃...A′_n与C₁，C₂，C₃...C_n。其中n具体的值可以根据数据集中样本大小来设定。

步骤S240，统计样本个数最大的数据集聚类后的不同簇中，在对齐后数据集不同簇中的占比，根据占比数量，将不同数据集聚类出来的簇进行对应；

根据ID特征，分别计算A′₁，A′₂，A′₃...A′_n的各个簇中，在C₁，C₂，C₃...C_n中的占比，根据占比的数量为标准，将A′_i1与C_j形成对应关系。其占比公式为：

步骤S250，最据不同簇之间的对应关系，使用SMOTE方法进行样本生成，将生成结果加入到最终对齐数据集中作为数据集对齐的输出。

在对应关系生成后，对A′₁，A′₂，A′₃...A′_n的各个簇中，需要填补特征的变量，在对应的C_j范围内，使用SMOTE方法进行数据生成，计算公式如下：

其中，x_new为新生成的样本特征，x在C_j范围内某个样本B数据集的特征，

样本x的一个近邻。

将生成后的B数据集的特征随机填补到A′_i中，重复S250步骤，直到A′数据集全部填充完毕，输出A′数据集作为对齐后的数据。

实施例3

本发明实施例提供一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的一种基于多方数据集的信用分类方法。

实施例4

本发明实施例提供一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的一种基于多方数据集的信用分类方法。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多方数据集的信用分类方法，其特征在于：该方法包括以下步骤：

S110：输入信用评估相关的多方数据，构建信用评估数据集；

S150：使用逻辑回归方法，将上诉两个模型的输出结果作为输入，计算两个模型的最佳权重值，并输出最终评估结果。

2.根据权利要求1所述的一种基于多方数据集的信用分类方法，其特征在于：所述对数据集进行预处理具体为：

首先针对缺失数据，分别计算缺失比例，当缺失比例大于特定比例时，将特征直接从数据集中删除；在剩下的缺失数据中，如果特征分布比较均匀，则计算该特征的均值进行缺失填补；如果特征分布不均匀，则采用众数或者中位数进行填补；若缺失特征是离散型特征，并且其离散个数较少，则将该变量转换为哑变量；对于缺失比例小的特征，使用决策树或线性回归模型进行预测，进行填补；