CN116186611A - 一种不平衡数据的分类方法、装置、终端设备及介质 - Google Patents
一种不平衡数据的分类方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN116186611A CN116186611A CN202310444786.5A CN202310444786A CN116186611A CN 116186611 A CN116186611 A CN 116186611A CN 202310444786 A CN202310444786 A CN 202310444786A CN 116186611 A CN116186611 A CN 116186611A
- Authority
- CN
- China
- Prior art keywords
- training data
- samples
- sample
- density
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 327
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000009826 distribution Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 19
- 239000000306 component Substances 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 238000004821 distillation Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 239000012533 medium component Substances 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 6
- 238000007635 classification algorithm Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于数据处理技术领域,提供了一种不平衡数据的分类方法、装置、终端设备及介质,通过对训练数据样本进行聚类,得到数据聚类簇;根据每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;根据判别密度和预先设置的临界密度,确定训练数据样本的样本种类;通过过采样和欠采样平衡每个数据聚类簇中训练数据样本的数量;利用知识蒸馏网络的教师网络,生成每个训练数据样本的新标签;根据新标签,构建学生网络损失函数,并利用其对学生网络进行训练,得到分类预测模型;利用分类预测模型对待分类数据进行分类,识别欺诈行为。本申请能提高不平衡数据分类的准确性。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种不平衡数据的分类方法、装置、终端设备及介质。
背景技术
欺诈行为是一种违法行为,会给受欺诈的人们造成严重的经济损失,对欺诈行为数据进行分类识别,是预防欺诈行为发生的有效办法。
数据分类是一种广为应用的数据分析形式,作为监督学习的代表,被广泛运用于各个领域,它以发现隐藏在数据和类别背后的关联性规则为目标,根据实例在特征空间上的分布对其进行所属类别的划分。随着科学和信息技术的进步,极大推动了社会发展。数据分类方法已经渗透到生产生活各个领域之中,其规模也在不断的增长。分类分析的主要应用方向是训练带有标签的数据集生成分类器,再用分类器去预测未带标签的同类数据的标签,希望能够给它们戴上正确的标签。
现存的常见分类算法有决策树分类算法、神经网络分类算法、邻近算法(KNN,K-NearestNeighbor)、支持向量机分类算法等算法。此类算法没有将数据分布均衡问题纳入考虑范围内,即使分类器对于整体样本的分类准确率很高,其中的不平衡数据中的少数欺诈行为数据的识别率还是比较低的。但是实际数据集中一些类别的欺诈行为样本数量可能比其他类别想象的少很多,甚至不在同一数据量级,因此,之前的方法对实际遇到的问题就无法适用。
发明内容
本申请提供了一种不平衡数据的分类方法、装置、终端设备及介质,可以解决现有技术对不平衡数据分类不准确的问题。
第一方面,本申请提供了一种不平衡数据的分类方法,包括:
将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;训练数据样本表示已分类的欺诈检测样本;
根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度;
根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本,稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同;
利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;新标签包括软标签和伪标签;
根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;
利用分类预测模型对待分类数据进行分类,识别欺诈行为。
可选的,根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度,包括:
计算训练数据样本与数据聚类簇中其它训练数据样本之间的欧氏距离,并按照欧氏距离由大到小的顺序对其它训练数据样本进行排序;
通过计算公式
可选的,根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类,包括:
若训练数据样本的判别密度大于等于预先设置的临界密度,则将训练数据样本确定为稠密样本;
可选的,对数据聚类簇中的训练数据样本进行过采样,包括:
若数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本;
对数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本;
利用SMOTE算法对数据聚类簇中的边界样本进行插值,得到新的训练数据样本。
可选的,利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签,包括:
根据概率分布和预先设置的临界概率,得到训练数据样本的新标签。
可选的,根据概率分布和预先设置的临界概率,得到训练数据样本的新标签,包括:
若分类概率分布中的最大概率大于临界概率,则将最大概率对应的标签作为训练数据样本的伪标签;否则,将最大概率对应的标签作为训练数据样本的软标签。
可选的,学生网络损失函数的表达式如下:
其中,表示蒸馏温度/>为1时,学生网络输出的概率分布向量/>与学生网络产生的标签向量/>的交叉熵,/>表示概率分布向量/>的第/>个分量,,/>表示标签向量/>中分量的总数量,/>表示标签向量/>的第/>个分量,/>,/>表示蒸馏温度/>为/>时,学生网络输出的概率分布向量/>与教师网络输出的概率分布向量/>的交叉熵,/>表示概率分布向量/>的第/>个分量,/>,/>表示概率分布向量/>中分量的总数量,/>表示标签向量/>的第/>个分量,/>。
第二方面,本申请提供了一种不平衡数据的分类装置,包括:
聚类模块,用于将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;训练数据样本表示已分类的欺诈检测样本;判别密度模块,用于根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度;
样本种类模块,用于根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本,稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
平衡模块,用于针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同;
教师网络模块,用于利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;新标签包括软标签和伪标签;
学生网络模块,用于根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;
分类模块,用于利用分类预测模型对待分类数据进行分类,识别欺诈行为。
第三方面,本申请提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的不平衡数据的分类方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的不平衡数据的分类方法。
本申请的上述方案有如下的有益效果:
本申请通过对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本,能够使不平衡数据达到平衡,从而提高不平衡数据分类的准确性;利用学生网络损失函数对学生网络进行训练,得到分类预测模型,能够提高分类预测模型的拟合程度,从而提高不平衡数据分类的准确性。
本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的不平衡数据的分类方法的流程图;
图2为本申请一实施例提供的不平衡数据的分类装置的结构示意图;
图3为本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
针对目前对不平衡数据分类不准确的问题,本申请提供了一种不平衡数据的分类方法、装置、终端设备及介质,该方法通过对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本,能够使不平衡数据达到平衡,从而提高不平衡数据分类的准确性;利用学生网络损失函数对学生网络进行训练,得到分类预测模型,能够提高分类预测模型的拟合程度,从而提高不平衡数据分类的准确性。
如图1所示,本申请提供的不平衡数据的分类方法包括以下步骤:
步骤11,将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇。
上述训练数据样本表示已分类的欺诈检测样本。
在本申请的一些实施例中,上述将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,可以根据每种标签的训练数据样本数量划分多数类训练数据样本和少数类训练数据样本。示例性的,若某一种标签的训练数据样本数量占所有训练数据样本数量的比重超过预设阈值,则将该一种标签对应训练数据样本划分为多数类训练数据样本,否则,将该一种标签对应训练数据样本划分为少数类训练数据样本。
在本申请的一些实施例中,可选择聚类算法对训练数据样本进行聚类,如基于密度峰值的快速聚类方法(CFSFDP, Clustering by fast search and find of densitypeaks)。
示例性的,在本申请的一实施例中,利用CFSFDP方法对多个带标签的训练数据样本进行聚类,其具体过程如下:
步骤1c,通过计算公式
步骤1e,通过计算公式,得到每个训练数据样本的聚类中心判别值/>,并将每个训练数据样本的聚类中心判别值作为纵坐标,以该聚类中心判别值对应的训练数据样本的编号(下标)为横坐标构建图像,非聚类中心的/>值较为平滑,类似一条连续的曲线。而从非聚类中心点到聚类中心点的/>值有一个明显的跳跃,因此,跳跃点的个数就是聚类的簇数,跳跃点就是聚类中心点。
值得一提的是,对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性。
步骤12,根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度。
其中,每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度。
步骤13,根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类。
其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本。
稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本。
步骤14,针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本。
其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同。
步骤15,利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签。
上述新标签包括软标签和伪标签。
步骤16,根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型。
上述学生网络损失函数的表达式如下:
其中,表示蒸馏温度/>为1时,学生网络输出的概率分布向量/>与学生网络产生的标签向量/>的交叉熵,/>表示概率分布向量/>的第/>个分量,/>,表示标签向量/>中分量的总数量,/>表示标签向量/>的第/>个分量,/>,表示蒸馏温度/>为/>时,学生网络输出的概率分布向量/>与教师网络输出的概率分布向量/>的交叉熵,/>表示概率分布向量/>的第/>个分量,/>,表示概率分布向量/>中分量的总数量,/>表示标签向量/>的第/>个分量,。/>
在本申请的一些实施例中,可选取长短期记忆人工神经网络(LSTM,Long Short-Term Memory)构建学生网络,并在LSTM的全连接层后加上dropout层,设置比例为0.5。此举能防止模型过拟合。
在本申请的一些实施例中,训练完后的学生网络会作为新的教师网络,并重新构建新的学生网络损失函数,来对学生网络进行训练,反复循环3次,以提升分类模型的准确度。
步骤17,利用分类预测模型对待分类数据进行分类,识别欺诈行为。
示例性的,将待分类数据输入分类预测模型中,将得到待分类数据的标签和分类,根据标签和分类,可识别该数据对应的行为是否为欺诈行为。
下面对步骤12(根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度)的具体过程进行示例性说明。
步骤12.1,计算训练数据样本与数据聚类簇中其它训练数据样本之间的欧氏距离,并按照欧氏距离由大到小的顺序对其它训练数据样本进行排序。
步骤12.2,将前K个其它训练数据样本作为训练数据样本的K邻近样本,得到训练数据样本的K邻近样本集合。
步骤12.3,通过计算公式
下面对步骤13(根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类)的具体过程进行示例性说明。
步骤13.1,若训练数据样本的判别密度大于等于预先设置的临界密度,则将训练数据样本确定为稠密样本。
步骤13.2,若训练数据样本的判别密度小于等于预先设置的临界密度,且训练数据样本的K邻近训练数据样本中存在一个或多个稠密样本,则将训练数据样本确定为边界样本。
步骤13.3,若训练数据样本的判别密度小于等于预先设置的临界密度,且训练数据样本的K邻近训练数据样本中不存在稠密样本,则将训练数据样本确定为稀疏陷入样本。
下面对步骤14(针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本)中对数据聚类簇中的训练数据样本进行过采样的具体过程进行示例性说明。
步骤14.1,若数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本。
步骤14.2,对数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本。
步骤14.3,利用SMOTE算法对数据聚类簇中的边界样本进行插值,得到新的训练数据样本。
上述SMOTE算法表示合成少数类过采样方法(SMOTE,Synthetic MinorityOversampling Technique),是一种常见的过采样方法,在此不对其原理过程进行赘述。
下面对步骤15(利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签)的具体过程进行示例性说明。
步骤15.1,通过计算公式
上述过程是对教师网络中softmax操作的替换。
示例性的,在本申请的一实施例中,得到的一样本点的分类概率分布表示为[分类1:0.8,分类2:0.1,分类3:0.1],该分类概率分布表示该样本点属于分类1的概率为0.8,属于分类2的概率为0.1,属于分类3的概率为0.1。
步骤15.2,根据概率分布和预先设置的临界概率,得到训练数据样本的新标签。
具体的,若分类概率分布中的最大概率大于临界概率,则将最大概率对应的标签作为训练数据样本的伪标签;否则,将最大概率对应的标签作为训练数据样本的软标签。
示例性的,在本申请的一实施例中,得到的一样本点的分类概率分布中的最大概率为“分类1:0.8”,而预先设置的临界概率为0.6,则此时该样本点被划分为分类1,此时,该样本点的标签(伪标签)为:[分类1:1,其它分类:0]。
在本申请的另一个实施例中,得到的一样本点的分类概率分布中的最大概率为“分类1:0.5”,而预先设置的临界概率为0.6,则此时该样本点被划分为分类1,此时,该样本点的标签(软标签)为:[分类1:0.5,其它分类:0.5]。
由上述步骤可见,本申请提供的不平衡数据的分类方法通过对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本,能够使不平衡数据达到平衡,从而提高不平衡数据分类的准确性;利用学生网络损失函数对学生网络进行训练,得到分类预测模型,能够提高分类预测模型的拟合程度,从而提高不平衡数据分类的准确性。
下面对本申请提供的一种不平衡数据的分类装置进行示例性说明。
如图2所示,该不平衡数据的分类装置200包括:
聚类模块201,用于将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;训练数据样本表示已分类的欺诈检测样本;
判别密度模块202,用于根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度;
样本种类模块203,用于根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本,稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
平衡模块204,用于针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同;
教师网络模块205,用于利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;新标签包括软标签和伪标签;
学生网络模块206,用于根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;
分类模块207,用于利用分类预测模型对待分类数据进行分类,识别欺诈行为。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
如图3所示,本申请的实施例提供了一种终端设备,如图3所示,该实施例的终端设备D10包括:至少一个处理器D100(图3中仅示出一个处理器)、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102,所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。
具体的,所述处理器D100执行所述计算机程序D102时,对多个带标签的训练数据样本进行聚类,得到多个数据聚类簇;根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;利用分类预测模型对待分类数据进行分类,识别欺诈行为。其中,通过对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本,能够使不平衡数据达到平衡,从而提高不平衡数据分类的准确性;利用学生网络损失函数对学生网络进行训练,得到分类预测模型,能够提高分类预测模型的拟合程度,从而提高不平衡数据分类的准确性。
所称处理器D100可以是中央处理单元(CPU,Central Processing Unit),该处理器D100还可以是其他通用处理器、数字信号处理器 (DSP,Digital Signal Processor)、专用集成电路 (ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元,例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备,例如所述终端设备D10上配备的插接式硬盘,智能存储卡(SMC,SmartMedia Card ),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到不平衡数据的分类装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种不平衡数据的分类方法,其特征在于,包括:
将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对所述多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;所述训练数据样本表示已分类的欺诈检测样本;
根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;所述每个训练数据样本的判别密度表示所述训练数据样本附近的其他训练数据样本的密度;
根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类;其中,所述样本种类包括稠密样本,边界样本以及稀疏陷入样本,所述稀疏陷入样本表示所述判别密度小于所述临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
针对每个数据聚类簇,若所述数据聚类簇中的训练数据样本为少数类训练数据样本,则对所述数据聚类簇中的训练数据样本进行过采样;否则,删除所述数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与所述数据聚类簇中训练数据样本的标签相同;
利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签;所述新标签包括软标签和伪标签;
根据每个训练数据样本的新标签,构建学生网络损失函数,并利用所述学生网络损失函数对学生网络进行训练,得到分类预测模型;
利用所述分类预测模型对待分类数据进行分类,识别欺诈行为。
3.根据权利要求2所述的分类方法,其特征在于,所述根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类,包括:
若所述训练数据样本的判别密度大于等于预先设置的临界密度,则将所述训练数据样本确定为稠密样本;
若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本的K邻近训练数据样本中存在一个或多个稠密样本,则将所述训练数据样本确定为边界样本;
若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本的K邻近训练数据样本中不存在稠密样本,则将所述训练数据样本确定为稀疏陷入样本。
4.根据权利要求3所述的分类方法,其特征在于,对所述数据聚类簇中的训练数据样本进行过采样,包括:
若所述数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本;
对所述数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本;
利用SMOTE算法对所述数据聚类簇中的边界样本进行插值,得到新的训练数据样本。
6.根据权利要求5所述的分类方法,其特征在于,所述根据所述概率分布和预先设置的临界概率,得到所述训练数据样本的新标签,包括:
若所述分类概率分布中的最大概率大于所述临界概率,则将所述最大概率对应的标签作为所述训练数据样本的伪标签;否则,将该概率分布向量作为所述训练数据样本的软标签。
8.一种不平衡数据的分类装置,其特征在于,包括:
聚类模块,用于将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对所述多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;所述训练数据样本表示已分类的欺诈检测样本;
判别密度模块,用于根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;所述每个训练数据样本的判别密度表示所述训练数据样本附近的其他训练数据样本的密度;
样本种类模块,用于根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类;其中,所述样本种类包括稠密样本,边界样本以及稀疏陷入样本,所述稀疏陷入样本表示所述判别密度小于所述临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
平衡模块,用于针对每个数据聚类簇,若所述数据聚类簇中的训练数据样本为少数类训练数据样本,则对所述数据聚类簇中的训练数据样本进行过采样;否则,删除所述数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与所述数据聚类簇中训练数据样本的标签相同;
教师网络模块,用于利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签;所述新标签包括软标签和伪标签;
学生网络模块,用于根据每个训练数据样本的新标签,构建学生网络损失函数,并利用所述学生网络损失函数对学生网络进行训练,得到分类预测模型;
分类模块,用于利用所述分类预测模型对待分类数据进行分类,识别欺诈行为。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的不平衡数据的分类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的不平衡数据的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310444786.5A CN116186611A (zh) | 2023-04-24 | 2023-04-24 | 一种不平衡数据的分类方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310444786.5A CN116186611A (zh) | 2023-04-24 | 2023-04-24 | 一种不平衡数据的分类方法、装置、终端设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116186611A true CN116186611A (zh) | 2023-05-30 |
Family
ID=86449271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310444786.5A Pending CN116186611A (zh) | 2023-04-24 | 2023-04-24 | 一种不平衡数据的分类方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186611A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862078A (zh) * | 2023-09-04 | 2023-10-10 | 杭州宇谷科技股份有限公司 | 一种换电套餐用户逾期的预测方法、系统、装置及介质 |
CN116895002A (zh) * | 2023-08-11 | 2023-10-17 | 山东大学 | 基于多重图对比学习的源自由域适应目标检测方法及系统 |
CN116933074A (zh) * | 2023-07-04 | 2023-10-24 | 天地科技股份有限公司北京技术研究分公司 | 煤矿三违行为识别模型训练方法、装置及存储介质 |
-
2023
- 2023-04-24 CN CN202310444786.5A patent/CN116186611A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933074A (zh) * | 2023-07-04 | 2023-10-24 | 天地科技股份有限公司北京技术研究分公司 | 煤矿三违行为识别模型训练方法、装置及存储介质 |
CN116933074B (zh) * | 2023-07-04 | 2024-04-05 | 天地科技股份有限公司北京技术研究分公司 | 煤矿三违行为识别模型训练方法、装置及存储介质 |
CN116895002A (zh) * | 2023-08-11 | 2023-10-17 | 山东大学 | 基于多重图对比学习的源自由域适应目标检测方法及系统 |
CN116862078A (zh) * | 2023-09-04 | 2023-10-10 | 杭州宇谷科技股份有限公司 | 一种换电套餐用户逾期的预测方法、系统、装置及介质 |
CN116862078B (zh) * | 2023-09-04 | 2023-12-12 | 杭州宇谷科技股份有限公司 | 一种换电套餐用户逾期的预测方法、系统、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116186611A (zh) | 一种不平衡数据的分类方法、装置、终端设备及介质 | |
CN103136504B (zh) | 人脸识别方法及装置 | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
CN110414367B (zh) | 一种基于gan和ssn的时序行为检测方法 | |
CN111553127A (zh) | 一种多标记的文本类数据特征选择方法及装置 | |
CN109299263B (zh) | 文本分类方法、电子设备 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
CN115473726A (zh) | 一种识别域名的方法及装置 | |
CN109842614B (zh) | 基于数据挖掘的网络入侵检测方法 | |
Kumar et al. | Imbalanced classification in diabetics using ensembled machine learning | |
CN113987243A (zh) | 一种图像聚档方法、图像聚档装置和计算机可读存储介质 | |
CN117574262A (zh) | 一种面向小样本问题的水声信号分类方法、系统及介质 | |
Zhang et al. | Recursive sample classification and gene selection based on SVM: method and software description | |
CN115984946A (zh) | 一种基于集成学习的人脸识别模型遗忘方法及系统 | |
Ha et al. | FC-MST: Feature correlation maximum spanning tree for multimedia concept classification | |
CN113609480B (zh) | 基于大规模网络流的多路学习入侵检测方法 | |
CN112766423B (zh) | 人脸识别模型的训练方法、装置、计算机设备及存储介质 | |
CN109918905B (zh) | 行为推论模型生成装置及其行为推论模型生成方法 | |
Devi Arockia Vanitha et al. | Multiclass cancer diagnosis in microarray gene expression profile using mutual information and support vector machine | |
CN113852629A (zh) | 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质 | |
CN111581640A (zh) | 一种恶意软件检测方法、装置及设备、存储介质 | |
CN110570025A (zh) | 一种微信文章真实阅读率的预测方法、装置及设备 | |
CN113222056B (zh) | 面向图像分类系统攻击的对抗样本检测方法 | |
Nijaguna et al. | Multiple kernel fuzzy clustering for uncertain data classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230530 |
|
RJ01 | Rejection of invention patent application after publication |