CN111178897B - 在不平衡数据上快速特征学习的代价敏感的动态聚类方法 - Google Patents
在不平衡数据上快速特征学习的代价敏感的动态聚类方法 Download PDFInfo
- Publication number
- CN111178897B CN111178897B CN201911309071.9A CN201911309071A CN111178897B CN 111178897 B CN111178897 B CN 111178897B CN 201911309071 A CN201911309071 A CN 201911309071A CN 111178897 B CN111178897 B CN 111178897B
- Authority
- CN
- China
- Prior art keywords
- samples
- class
- neural network
- sample
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Abstract
在不平衡数据集上进行快速特征学习的代价敏感的动态聚类方法,首先将不平衡数据的训练集全体送入前馈神经网络中,得到输出层之前的样本表征;设定聚类的类别数目K,将属于数据集大类的样本表征取出,用K‑Means方法将这批样本聚为K类;利用得到的这批样本的聚类标签作为训练的类别标签,计算代价敏感系数下的神经网络损失,利用反向传播训练神经网络;迭代计算下一批样本表征,并设置K‑Means的初始化标签为上一轮大类样本的K‑Means标签,继续训练过程直到收敛。能够较好地解决不平衡数据集训练中出现的模型偏置情况,在大类和小类的分类结果上均表现良好,用于金融数据中不平衡数据的分类学习。
Description
技术领域
本发明属于金融交易风险控制领域,针对金融交易风险控制中欺诈案例相比正常案例非常稀少导致的不平衡机器学习等问题,提出了在不平衡数据上一种快速特征学习的代价敏感的动态聚类方法。
背景技术
随着传统金融互联网化以及互联网金融的快速发展,网络黑色产业链以集团化、产业化的趋势迅速发展。为抵御黑色产业链的盗卡、伪卡、薅羊毛、套现、非法集资等行为,金融行业结合大数据平台和业务人员的专家经验,构建金融业务中央风控系统。然而,黑色产业链攻击多变、拥有大量的代理IP、虚拟号码,基于规则的风控系统不能灵活地防御攻击行为。因此,研究基于机器学习的智能风控系统是十分必要的。
在智能风控系统中,一个核心的部分是基于监督学习的二分类问题,即根据每一笔交易行为的若干维特征,判断该笔交易是否欺诈。然而,实际中的欺诈行为仅为正常交易行为的千分之一甚至万分之一,数据集存在严重的不平衡,影响了机器学习的效果,导致系统判断欺诈行为的准确率和召回率偏低。针对数据集不平衡的问题,很多研究者提出了不同的不平衡学习算法,众多的不平衡学习算法根据处理方式不同划分为不同的类别。
在二分类的不平衡学习研究中,提出在输入端解决数据集不平衡问题的是基于采样的方法。基于采样的方法又可以分为针对小类样本的过采样方法和针对大类样本的下采样方法。基于采样的方法优点是操作简单,时间复杂度小,并且因为采样与模型无关,可以和各种模型集成使用。该方法的局限性在于,过采样方法使得模型容易对小类样本过拟合,泛化能力差;下采样方法会引入随机噪声,使得模型训练不鲁棒,损失训练集中的信息。
在二分类的不平衡学习研究中,提出在损失函数端解决数据集不平衡问题的是代价敏感方法。代价敏感方法对误分类的损失施加不同的权重,通常对小类样本分类损失施加较大的权重,而对大类样本损失施加较小的权重,从而解决模型训练时小类的损失过小导致学习不充分的问题。代价敏感方法的缺点在于需要一个难以定义的代价矩阵,对不同的损失指定不同的系数。
在二分类的不平衡学习研究中,还有一类方法,提出在特征空间为样本学习更好的数据表征。基于数据表征的方法通常采用样本对的方式训练表征,使得同类别表征相近,不同类别表征相离,该方法的效果较好,性能鲁棒。但是,该方法的时间复杂度通常是样本数量N的平方,训练比较困难。
发明内容
本发明要克服现有技术的不足,在减少时间复杂度的情况下,提供一种代价敏感的动态聚类方法,可以实现在不平衡数据上的快速特征学习。
在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法,包括下列步骤:
1)设定基准的前馈神经网络;
准备好二分类的不平衡数据集,训练集样本有N个,每个样本的特征维度是d维。构建基准的前馈神经网络,包含三层:输入层、隐藏层和输出层,每一层的神经元个数分别为d、2d和1。神经网络中间的参数分别记为W0和W1,隐藏层采用的激活函数为RELU,形式为f(x)=max(x,0),输出层采用Sigmoid函数,形式为f(x)=1/1+e-x。记输入的样本特征为x,隐藏层的表达为h,则h=RELU(W0*x),输出层的表达为o,则o=Sigmoid(W1*h)。
2)重新标记大类的样本标签
通常,二分类的不平衡数据集中,占据数据集比例较大的类别称为负类,比例较小的类别称为正类。记N个训练集样本中负类的样本为M个,则由负类样本列向量构成的负类样本矩阵为XM={x1,x2,...,xM},获取该M个负类样本的隐藏层输出HM={h1,h2,...,hM}。
设定HM的聚类的类别数目为K,将基准的前馈神经网络输出层改为K+1类的Softmax,形式为获取M个样本对应的类别标签labels={li|li=argmaxi{W1*hi}},其中argmax返回的是向量中最大值的下标。
如下运行类K-Means算法:
1.若第一次聚类,则随机选择K个样本的隐层特征作为K个类别的中心点:Centers={c1,c2,...,ck};否则,按照上一轮的标签计算新的中心点:Centers={ci|ci=AVG({hj|lj==i})},其中AVG是取若干个向量的均值。
2.更新M个样本的所属类别:label(hi)=argminj||cj-hi||,其中argmin返回的是向量中最小值的下标。若到达最大迭代次数,或者样本所属类别不再改变,则跳出,否则继续执行1。
3)训练重新定义的神经网络
按照2)中重新定义前馈神经网络之后,获取到M个负类样本对应的类别标签labelsM,这些标签属于K个类别。将负类样本的标签和原有正类样本的标签合并,得到N个训练集样本对应的重新定义后的标签labelsN,这些标签属于K+1个类别。此时,训练集样本特征矩阵为XN,对应标签为labelsN,代价敏感的损失函数定义为其中pi是对应样本xi的类别所属概率,cpos和1-cpos分别是正类样本和负类样本的代价敏感系数,记负类样本个数为M,训练集样本总个数为N,则cpos=M/N。设定训练优化器为AdamOptimizer,学习率为0.001,批大小为8,按照minibatch的形式不断更新神经网络的参数直到整个训练集数据训练完一轮。若到达最大迭代次数,或者损失低于最低值,则跳出;否则继续执行2)中的类K-Means算法,得到N个样本的新标签labelN。
本发明首先将不平衡数据的训练集全体送入前馈神经网络中,得到输出层之前的样本表征;设定聚类的类别数目K,将属于数据集大类的样本表征取出,用K-Means方法将这批样本聚为K类;利用得到的这批样本的聚类标签作为训练的类别标签,计算代价敏感系数下的神经网络损失,利用反向传播训练神经网络;迭代计算下一批样本表征,并设置K-Means的初始化标签为上一轮大类样本的K-Means标签,继续训练过程直到收敛。能够较好地解决不平衡数据集训练中出现的模型偏置情况,在大类和小类的分类结果上均表现良好,用于金融数据中不平衡数据的分类学习。
本发明的方法是一种在不平衡数据上代价敏感的动态聚类方法,用于解决不平衡数据上快速进行特征学习的问题。针对数据表征方法中时间复杂度过高的问题,本发明提出了用K-Means方法对大类样本的隐式表征进行聚类的方法,以较小的复杂度实现了样本对之间特征学习的效果。对于损失函数的不平衡问题,本发明采用了易于计算的代价敏感系数,使得模型的学习更为平稳鲁棒。
本发明具有的有益的效果是:可以大幅减少基于数据表征方法的训练时间,利用代价敏感的动态聚类方法,快速学习有效的数据表征。与传统的不平衡学习方法相比,该方法可以学习不平衡数据的有效表征,同时计算类别均衡的损失函数,训练时间复杂度小。
附图说明
图1是本发明方法的流程图。
具体实施方式
一种在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法,包括下列步骤:
1)设定基准的前馈神经网络;
准备好二分类的不平衡数据集,训练集样本有N个,每个样本的特征维度是d维。构建基准的前馈神经网络,包含三层:输入层、隐藏层和输出层,每一层的神经元个数分别为d、2d和1。神经网络中间的参数分别记为W0和W1,隐藏层采用的激活函数为RELU,形式为f(x)=max(x,0),输出层采用Sigmoid函数,形式为f(x)=1/1+e-x。记输入的样本特征为x,隐藏层的表达为h,则h=RELU(W0*x),输出层的表达为o,则o=Sigmoid(W1*h)。
2)重新标记大类的样本标签
通常,二分类的不平衡数据集中,占据数据集比例较大的类别称为负类,比例较小的类别称为正类。记N个训练集样本中负类的样本为M个,则由负类样本列向量构成的负类样本矩阵为XM={x1,x2,...,xM},获取该M个负类样本的隐藏层输出HM={h1,h2,...,hM}。
设定HM的聚类的类别数目为K,将基准的前馈神经网络输出层改为K+1类的Softmax,形式为获取M个样本对应的类别标签labels={li|li=argmaxi{W1*hi}},其中argmax返回的是向量中最大值的下标。
如下运行类K-Means算法:
1.若第一次聚类,则随机选择K个样本的隐层特征作为K个类别的中心点:Centers={c1,c2,...,ck};否则,按照上一轮的标签计算新的中心点:Centers={ci|ci=AVG({hj|lj==i})},其中AVG是取若干个向量的均值。
2.更新M个样本的所属类别:label(hi)=argminj||cj-hi||,其中argmin返回的是向量中最小值的下标。若到达最大迭代次数,或者样本所属类别不再改变,则跳出,否则继续执行1。
3)训练重新定义的神经网络
按照2)中重新定义前馈神经网络之后,获取到M个负类样本对应的类别标签labelsM,这些标签属于K个类别。将负类样本的标签和原有正类样本的标签合并,得到N个训练集样本对应的重新定义后的标签labelsN,这些标签属于K+1个类别。此时,训练集样本特征矩阵为XN,对应标签为labelsN,代价敏感的损失函数定义为其中pi是对应样本xi的类别所属概率,cpos和1-cpos分别是正类样本和负类样本的代价敏感系数,记负类样本个数为M,训练集样本总个数为N,则cpos=M/N。设定训练优化器为AdamOptimizer,学习率为0.001,批大小为8,按照minibatch的形式不断更新神经网络的参数直到整个训练集数据训练完一轮。若到达最大迭代次数,或者损失低于最低值,则跳出;否则继续执行2)中的类K-Means算法,得到N个样本的新标签labelN。
通过上述步骤,可以在大幅减少训练时间的情况下,实现在不平衡数据上的快速表征学习。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法,包括下列步骤:
1)设定基准的前馈神经网络;
准备好二分类的不平衡数据集,训练集样本有N个,每个样本的特征维度是d维;构建基准的前馈神经网络,包含三层:输入层、隐藏层和输出层,每一层的神经元个数分别为d、2d和1;前馈神经网络中间的参数分别记为W0和W1,隐藏层采用的激活函数为RELU,输出层采用Sigmoid激活函数;记输入的样本特征为x,隐藏层的表达为h,则h=RELU(W0*x),输出层的表达为o,则o=Sigmoid(W1*h);
2)重新标记大类的样本标签;
二分类的不平衡数据集中,占据数据集比例较大的类别称为负类,比例较小的类别称为正类;记N个训练集样本中负类的样本为M个,则由负类样本列向量构成的负类样本矩阵为XM={x1,x2,...,xM},获取该M个负类样本的隐藏层输出HM={h1,h2,...,hM};
设定HM的聚类的类别数目为K,将基准的前馈神经网络输出层改为K+1类的Softmax激活函数;获取M个样本对应的类别标签labelsM={li|li=argmaxi{W1*hi}},其中argmax返回的是向量中最大值的下标;
如下运行类K-Means算法:
步骤a.若第一次聚类,则随机选择K个样本的隐藏层特征作为K个类别的中心点:Centers={c1,c2,...,ck};否则,按照上一轮的标签计算新的中心点:Centers={ci|ci=AVG({hj|lj==i})},其中AVG是取若干个向量的均值;
步骤b.更新M个样本的所属类别:label(hi)=argminj||cj-hi||,其中argmin返回的是向量中最小值的下标;若到达最大迭代次数,或者样本所属类别不再改变,则跳出,否则继续执行步骤a;
3)训练重新定义的前馈神经网络;
按照步骤2)中重新定义前馈神经网络之后,获取到M个负类样本对应的类别标签labelsM,这些标签属于K个类别;将负类样本的标签和原有正类样本的标签合并,得到N个训练集样本对应的重新定义后的标签labelsN,这些标签属于K+1个类别;此时,训练集样本特征矩阵为XN,对应标签为labelsN,代价敏感的损失函数定义为其中pi是对应样本xi的类别所属概率,cpos和1-cpos分别是正类样本和负类样本的代价敏感系数,记负类样本个数为M,训练集样本总个数为N,则cpos=M/N;设定训练优化器为AdamOptimizer,学习率为0.001,批大小为8,按照minibatch的形式不断更新前馈神经网络的参数直到整个训练集数据训练完一轮;若到达最大迭代次数,或者损失低于最低值,则跳出;否则继续执行步骤2)中的类K-Means算法,得到N个训练集样本对应的重新定义后的标签labelsN;
4)将步骤3)中得到前馈神经网络用于金融数据中不平衡数据的分类学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309071.9A CN111178897B (zh) | 2019-12-18 | 2019-12-18 | 在不平衡数据上快速特征学习的代价敏感的动态聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309071.9A CN111178897B (zh) | 2019-12-18 | 2019-12-18 | 在不平衡数据上快速特征学习的代价敏感的动态聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178897A CN111178897A (zh) | 2020-05-19 |
CN111178897B true CN111178897B (zh) | 2023-08-08 |
Family
ID=70650219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911309071.9A Active CN111178897B (zh) | 2019-12-18 | 2019-12-18 | 在不平衡数据上快速特征学习的代价敏感的动态聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178897B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633319B (zh) * | 2020-11-23 | 2022-11-22 | 贵州大学 | 一种不完备数据集中平衡输入数据类别多目标检测方法 |
CN114638336B (zh) * | 2021-12-26 | 2023-09-22 | 海南大学 | 聚焦于陌生样本的不平衡学习 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545275A (zh) * | 2017-07-27 | 2018-01-05 | 华南理工大学 | 重采样与代价敏感学习融合的不平衡数据集成分类方法 |
CN108388929A (zh) * | 2018-03-27 | 2018-08-10 | 四川大学 | 基于代价敏感和半监督分类的客户分类方法及装置 |
WO2019033636A1 (zh) * | 2017-08-16 | 2019-02-21 | 哈尔滨工业大学深圳研究生院 | 基于最小化损失学习的不平衡样本分类方法 |
CN110110754A (zh) * | 2019-04-03 | 2019-08-09 | 华南理工大学 | 基于代价局部泛化误差的不平衡问题的分类方法 |
-
2019
- 2019-12-18 CN CN201911309071.9A patent/CN111178897B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545275A (zh) * | 2017-07-27 | 2018-01-05 | 华南理工大学 | 重采样与代价敏感学习融合的不平衡数据集成分类方法 |
WO2019033636A1 (zh) * | 2017-08-16 | 2019-02-21 | 哈尔滨工业大学深圳研究生院 | 基于最小化损失学习的不平衡样本分类方法 |
CN108388929A (zh) * | 2018-03-27 | 2018-08-10 | 四川大学 | 基于代价敏感和半监督分类的客户分类方法及装置 |
CN110110754A (zh) * | 2019-04-03 | 2019-08-09 | 华南理工大学 | 基于代价局部泛化误差的不平衡问题的分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111178897A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021128510A1 (zh) | 基于sdae和改进gwo-svm的轴承缺陷识别方法 | |
CN109190665B (zh) | 一种基于半监督生成对抗网络的通用图像分类方法和装置 | |
CN110084610B (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN113572742B (zh) | 基于深度学习的网络入侵检测方法 | |
CN108985268B (zh) | 基于深度迁移学习的归纳式雷达高分辨距离像识别方法 | |
CN111222638B (zh) | 一种基于神经网络的网络异常检测方法及装置 | |
CN111222457B (zh) | 一种基于深度可分离卷积的鉴别视频真伪性的检测方法 | |
Cai et al. | Imbalanced evolving self-organizing learning | |
CN111985310A (zh) | 一种用于人脸识别的深度卷积神经网络的训练方法 | |
CN111178897B (zh) | 在不平衡数据上快速特征学习的代价敏感的动态聚类方法 | |
CN109214444B (zh) | 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法 | |
CN113378160A (zh) | 一种基于生成式对抗网络的图神经网络模型防御方法及装置 | |
CN112087442A (zh) | 基于注意力机制的时序相关网络入侵检测方法 | |
Xiao et al. | Addressing overfitting problem in deep learning-based solutions for next generation data-driven networks | |
CN112949954B (zh) | 基于识别学习建立财务欺诈识别模型的方法 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN115760127A (zh) | 一种基于规则注意力机制的交易欺诈检测方法及系统 | |
CN117435982A (zh) | 一种多维度快速识别网络水军的方法 | |
CN116150687A (zh) | 一种基于多分类g-wlstsvm模型的流体管道泄漏识别方法 | |
CN112765148A (zh) | 一种基于改进svm多分类的网络入侵检测方法 | |
CN113609480B (zh) | 基于大规模网络流的多路学习入侵检测方法 | |
CN110197201A (zh) | 一种电梯保养5s检测方法与系统 | |
Liiv et al. | Iterative gradient-based adversarial attacks on neural network image classifiers | |
Cao et al. | Detection and fine-grained classification of malicious code using convolutional neural networks and swarm intelligence algorithms | |
Pan et al. | Use probabilistic neural network to construct early warning model for business financial distress |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |