CN111178897B

CN111178897B - 在不平衡数据上快速特征学习的代价敏感的动态聚类方法

Info

Publication number: CN111178897B
Application number: CN201911309071.9A
Authority: CN
Inventors: 宋明黎; 郑铜亚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-08-08
Anticipated expiration: 2039-12-18
Also published as: CN111178897A

Abstract

在不平衡数据集上进行快速特征学习的代价敏感的动态聚类方法，首先将不平衡数据的训练集全体送入前馈神经网络中，得到输出层之前的样本表征；设定聚类的类别数目K，将属于数据集大类的样本表征取出，用K‑Means方法将这批样本聚为K类；利用得到的这批样本的聚类标签作为训练的类别标签，计算代价敏感系数下的神经网络损失，利用反向传播训练神经网络；迭代计算下一批样本表征，并设置K‑Means的初始化标签为上一轮大类样本的K‑Means标签，继续训练过程直到收敛。能够较好地解决不平衡数据集训练中出现的模型偏置情况，在大类和小类的分类结果上均表现良好，用于金融数据中不平衡数据的分类学习。

Description

在不平衡数据上快速特征学习的代价敏感的动态聚类方法

技术领域

本发明属于金融交易风险控制领域，针对金融交易风险控制中欺诈案例相比正常案例非常稀少导致的不平衡机器学习等问题，提出了在不平衡数据上一种快速特征学习的代价敏感的动态聚类方法。

背景技术

随着传统金融互联网化以及互联网金融的快速发展，网络黑色产业链以集团化、产业化的趋势迅速发展。为抵御黑色产业链的盗卡、伪卡、薅羊毛、套现、非法集资等行为，金融行业结合大数据平台和业务人员的专家经验，构建金融业务中央风控系统。然而，黑色产业链攻击多变、拥有大量的代理IP、虚拟号码，基于规则的风控系统不能灵活地防御攻击行为。因此，研究基于机器学习的智能风控系统是十分必要的。

在智能风控系统中，一个核心的部分是基于监督学习的二分类问题，即根据每一笔交易行为的若干维特征，判断该笔交易是否欺诈。然而，实际中的欺诈行为仅为正常交易行为的千分之一甚至万分之一，数据集存在严重的不平衡，影响了机器学习的效果，导致系统判断欺诈行为的准确率和召回率偏低。针对数据集不平衡的问题，很多研究者提出了不同的不平衡学习算法，众多的不平衡学习算法根据处理方式不同划分为不同的类别。

在二分类的不平衡学习研究中，提出在输入端解决数据集不平衡问题的是基于采样的方法。基于采样的方法又可以分为针对小类样本的过采样方法和针对大类样本的下采样方法。基于采样的方法优点是操作简单，时间复杂度小，并且因为采样与模型无关，可以和各种模型集成使用。该方法的局限性在于，过采样方法使得模型容易对小类样本过拟合，泛化能力差；下采样方法会引入随机噪声，使得模型训练不鲁棒，损失训练集中的信息。

在二分类的不平衡学习研究中，提出在损失函数端解决数据集不平衡问题的是代价敏感方法。代价敏感方法对误分类的损失施加不同的权重，通常对小类样本分类损失施加较大的权重，而对大类样本损失施加较小的权重，从而解决模型训练时小类的损失过小导致学习不充分的问题。代价敏感方法的缺点在于需要一个难以定义的代价矩阵，对不同的损失指定不同的系数。

在二分类的不平衡学习研究中，还有一类方法，提出在特征空间为样本学习更好的数据表征。基于数据表征的方法通常采用样本对的方式训练表征，使得同类别表征相近，不同类别表征相离，该方法的效果较好，性能鲁棒。但是，该方法的时间复杂度通常是样本数量N的平方，训练比较困难。

发明内容

本发明要克服现有技术的不足，在减少时间复杂度的情况下，提供一种代价敏感的动态聚类方法，可以实现在不平衡数据上的快速特征学习。

在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法，包括下列步骤：

1)设定基准的前馈神经网络；

准备好二分类的不平衡数据集，训练集样本有N个，每个样本的特征维度是d维。构建基准的前馈神经网络，包含三层：输入层、隐藏层和输出层，每一层的神经元个数分别为d、2d和1。神经网络中间的参数分别记为W⁰和W¹，隐藏层采用的激活函数为RELU，形式为f(x)＝max(x，0)，输出层采用Sigmoid函数，形式为f(x)＝1/1+e^-x。记输入的样本特征为x，隐藏层的表达为h，则h＝RELU(W⁰*x)，输出层的表达为o，则o＝Sigmoid(W¹*h)。

2)重新标记大类的样本标签

通常，二分类的不平衡数据集中，占据数据集比例较大的类别称为负类，比例较小的类别称为正类。记N个训练集样本中负类的样本为M个，则由负类样本列向量构成的负类样本矩阵为X^M＝{x₁，x₂，...，x_M}，获取该M个负类样本的隐藏层输出H^M＝{h₁，h₂，...，h_M}。

设定H^M的聚类的类别数目为K，将基准的前馈神经网络输出层改为K+1类的Softmax，形式为获取M个样本对应的类别标签labels＝{l_i|l_i＝argmax_i{W¹*h_i}}，其中argmax返回的是向量中最大值的下标。

如下运行类K-Means算法：

1.若第一次聚类，则随机选择K个样本的隐层特征作为K个类别的中心点：Centers＝{c₁，c₂，...，c_k}；否则，按照上一轮的标签计算新的中心点：Centers＝{c_i|c_i＝AVG({h_j|l_j＝＝i})}，其中AVG是取若干个向量的均值。

2.更新M个样本的所属类别：label(h_i)＝argmin_j||c_j-h_i||，其中argmin返回的是向量中最小值的下标。若到达最大迭代次数，或者样本所属类别不再改变，则跳出，否则继续执行1。

3)训练重新定义的神经网络

按照2)中重新定义前馈神经网络之后，获取到M个负类样本对应的类别标签labels^M，这些标签属于K个类别。将负类样本的标签和原有正类样本的标签合并，得到N个训练集样本对应的重新定义后的标签labels^N，这些标签属于K+1个类别。此时，训练集样本特征矩阵为X^N，对应标签为labels^N，代价敏感的损失函数定义为其中p_i是对应样本x_i的类别所属概率，c_pos和1-c_pos分别是正类样本和负类样本的代价敏感系数，记负类样本个数为M，训练集样本总个数为N，则c_pos＝M/N。设定训练优化器为AdamOptimizer，学习率为0.001，批大小为8，按照minibatch的形式不断更新神经网络的参数直到整个训练集数据训练完一轮。若到达最大迭代次数，或者损失低于最低值，则跳出；否则继续执行2)中的类K-Means算法，得到N个样本的新标签label^N。

本发明首先将不平衡数据的训练集全体送入前馈神经网络中，得到输出层之前的样本表征；设定聚类的类别数目K，将属于数据集大类的样本表征取出，用K-Means方法将这批样本聚为K类；利用得到的这批样本的聚类标签作为训练的类别标签，计算代价敏感系数下的神经网络损失，利用反向传播训练神经网络；迭代计算下一批样本表征，并设置K-Means的初始化标签为上一轮大类样本的K-Means标签，继续训练过程直到收敛。能够较好地解决不平衡数据集训练中出现的模型偏置情况，在大类和小类的分类结果上均表现良好，用于金融数据中不平衡数据的分类学习。

本发明的方法是一种在不平衡数据上代价敏感的动态聚类方法，用于解决不平衡数据上快速进行特征学习的问题。针对数据表征方法中时间复杂度过高的问题，本发明提出了用K-Means方法对大类样本的隐式表征进行聚类的方法，以较小的复杂度实现了样本对之间特征学习的效果。对于损失函数的不平衡问题，本发明采用了易于计算的代价敏感系数，使得模型的学习更为平稳鲁棒。

本发明具有的有益的效果是：可以大幅减少基于数据表征方法的训练时间，利用代价敏感的动态聚类方法，快速学习有效的数据表征。与传统的不平衡学习方法相比，该方法可以学习不平衡数据的有效表征，同时计算类别均衡的损失函数，训练时间复杂度小。

附图说明

图1是本发明方法的流程图。

具体实施方式

一种在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法，包括下列步骤：

1)设定基准的前馈神经网络；

2)重新标记大类的样本标签

如下运行类K-Means算法：

3)训练重新定义的神经网络

通过上述步骤，可以在大幅减少训练时间的情况下，实现在不平衡数据上的快速表征学习。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法，包括下列步骤：

1)设定基准的前馈神经网络；

准备好二分类的不平衡数据集，训练集样本有N个，每个样本的特征维度是d维；构建基准的前馈神经网络，包含三层：输入层、隐藏层和输出层，每一层的神经元个数分别为d、2d和1；前馈神经网络中间的参数分别记为W⁰和W¹，隐藏层采用的激活函数为RELU，输出层采用Sigmoid激活函数；记输入的样本特征为x，隐藏层的表达为h，则h＝RELU(W⁰*x)，输出层的表达为o，则o＝Sigmoid(W¹*h)；

2)重新标记大类的样本标签；

二分类的不平衡数据集中，占据数据集比例较大的类别称为负类，比例较小的类别称为正类；记N个训练集样本中负类的样本为M个，则由负类样本列向量构成的负类样本矩阵为X^M＝{x₁，x₂，...，x_M}，获取该M个负类样本的隐藏层输出H^M＝{h₁，h₂，...，h_M}；

设定H^M的聚类的类别数目为K，将基准的前馈神经网络输出层改为K+1类的Softmax激活函数；获取M个样本对应的类别标签labels^M＝{l_i|l_i＝argmax_i{W¹*h_i}}，其中argmax返回的是向量中最大值的下标；

如下运行类K-Means算法：

步骤a.若第一次聚类，则随机选择K个样本的隐藏层特征作为K个类别的中心点：Centers＝{c₁，c₂，...，c_k}；否则，按照上一轮的标签计算新的中心点：Centers＝{c_i|c_i＝AVG({h_j|l_j＝＝i})}，其中AVG是取若干个向量的均值；

步骤b.更新M个样本的所属类别：label(h_i)＝argmin_j||c_j-h_i||，其中argmin返回的是向量中最小值的下标；若到达最大迭代次数，或者样本所属类别不再改变，则跳出，否则继续执行步骤a；

3)训练重新定义的前馈神经网络；

按照步骤2)中重新定义前馈神经网络之后，获取到M个负类样本对应的类别标签labels^M，这些标签属于K个类别；将负类样本的标签和原有正类样本的标签合并，得到N个训练集样本对应的重新定义后的标签labels^N，这些标签属于K+1个类别；此时，训练集样本特征矩阵为X^N，对应标签为labels^N，代价敏感的损失函数定义为其中p_i是对应样本x_i的类别所属概率，c_pos和1-c_pos分别是正类样本和负类样本的代价敏感系数，记负类样本个数为M，训练集样本总个数为N，则c_pos＝M/N；设定训练优化器为AdamOptimizer，学习率为0.001，批大小为8，按照minibatch的形式不断更新前馈神经网络的参数直到整个训练集数据训练完一轮；若到达最大迭代次数，或者损失低于最低值，则跳出；否则继续执行步骤2)中的类K-Means算法，得到N个训练集样本对应的重新定义后的标签labels^N；

4)将步骤3)中得到前馈神经网络用于金融数据中不平衡数据的分类学习。