CN116186611A - 一种不平衡数据的分类方法、装置、终端设备及介质 - Google Patents

一种不平衡数据的分类方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN116186611A
CN116186611A CN202310444786.5A CN202310444786A CN116186611A CN 116186611 A CN116186611 A CN 116186611A CN 202310444786 A CN202310444786 A CN 202310444786A CN 116186611 A CN116186611 A CN 116186611A
Authority
CN
China
Prior art keywords
training data
samples
sample
density
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310444786.5A
Other languages
English (en)
Inventor
刘利枚
李彪
刘星宝
杨俊丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202310444786.5A priority Critical patent/CN116186611A/zh
Publication of CN116186611A publication Critical patent/CN116186611A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种不平衡数据的分类方法、装置、终端设备及介质,通过对训练数据样本进行聚类,得到数据聚类簇;根据每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;根据判别密度和预先设置的临界密度,确定训练数据样本的样本种类;通过过采样和欠采样平衡每个数据聚类簇中训练数据样本的数量;利用知识蒸馏网络的教师网络,生成每个训练数据样本的新标签;根据新标签,构建学生网络损失函数,并利用其对学生网络进行训练,得到分类预测模型;利用分类预测模型对待分类数据进行分类,识别欺诈行为。本申请能提高不平衡数据分类的准确性。

Description

一种不平衡数据的分类方法、装置、终端设备及介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种不平衡数据的分类方法、装置、终端设备及介质。
背景技术
欺诈行为是一种违法行为,会给受欺诈的人们造成严重的经济损失,对欺诈行为数据进行分类识别,是预防欺诈行为发生的有效办法。
数据分类是一种广为应用的数据分析形式,作为监督学习的代表,被广泛运用于各个领域,它以发现隐藏在数据和类别背后的关联性规则为目标,根据实例在特征空间上的分布对其进行所属类别的划分。随着科学和信息技术的进步,极大推动了社会发展。数据分类方法已经渗透到生产生活各个领域之中,其规模也在不断的增长。分类分析的主要应用方向是训练带有标签的数据集生成分类器,再用分类器去预测未带标签的同类数据的标签,希望能够给它们戴上正确的标签。
现存的常见分类算法有决策树分类算法、神经网络分类算法、邻近算法(KNN,K-NearestNeighbor)、支持向量机分类算法等算法。此类算法没有将数据分布均衡问题纳入考虑范围内,即使分类器对于整体样本的分类准确率很高,其中的不平衡数据中的少数欺诈行为数据的识别率还是比较低的。但是实际数据集中一些类别的欺诈行为样本数量可能比其他类别想象的少很多,甚至不在同一数据量级,因此,之前的方法对实际遇到的问题就无法适用。
发明内容
本申请提供了一种不平衡数据的分类方法、装置、终端设备及介质,可以解决现有技术对不平衡数据分类不准确的问题。
第一方面,本申请提供了一种不平衡数据的分类方法,包括:
将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;训练数据样本表示已分类的欺诈检测样本;
根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度;
根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本,稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同;
利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;新标签包括软标签和伪标签;
根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;
利用分类预测模型对待分类数据进行分类,识别欺诈行为。
可选的,根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度,包括:
计算训练数据样本与数据聚类簇中其它训练数据样本之间的欧氏距离,并按照欧氏距离由大到小的顺序对其它训练数据样本进行排序;
将前
Figure SMS_1
个其它训练数据样本作为所述训练数据样本的/>
Figure SMS_2
邻近样本,得到所述训练数据样本的/>
Figure SMS_3
邻近样本集合;
通过计算公式
Figure SMS_4
得到判别密度
Figure SMS_6
;其中,/>
Figure SMS_9
表示第/>
Figure SMS_10
个训练数据样本/>
Figure SMS_7
的判别密度,/>
Figure SMS_8
表示所述/>
Figure SMS_11
邻近样本集合中的第/>
Figure SMS_12
个其它训练数据样本,/>
Figure SMS_5
可选的,根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类,包括:
若训练数据样本的判别密度大于等于预先设置的临界密度,则将训练数据样本确定为稠密样本;
若训练数据样本的判别密度小于等于预先设置的临界密度,且训练数据样本的
Figure SMS_13
邻近训练数据样本中存在一个或多个稠密样本,则将训练数据样本确定为边界样本;
若训练数据样本的判别密度小于等于预先设置的临界密度,且训练数据样本的
Figure SMS_14
邻近训练数据样本中不存在稠密样本,则将训练数据样本确定为稀疏陷入样本。
可选的,对数据聚类簇中的训练数据样本进行过采样,包括:
若数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本;
对数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本;
利用SMOTE算法对数据聚类簇中的边界样本进行插值,得到新的训练数据样本。
可选的,利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签,包括:
通过计算公式
Figure SMS_15
得到训练数据样本的分类概率分布
Figure SMS_17
;其中,/>
Figure SMS_19
表示第/>
Figure SMS_21
个训练数据样本的分类概率分布,/>
Figure SMS_18
表示教师网络最后一层第/>
Figure SMS_20
个输出节点的输出,/>
Figure SMS_22
表示教师网络最后一层第/>
Figure SMS_23
个输出节点的输出,/>
Figure SMS_16
表示蒸馏温度;
根据概率分布和预先设置的临界概率,得到训练数据样本的新标签。
可选的,根据概率分布和预先设置的临界概率,得到训练数据样本的新标签,包括:
若分类概率分布中的最大概率大于临界概率,则将最大概率对应的标签作为训练数据样本的伪标签;否则,将最大概率对应的标签作为训练数据样本的软标签。
可选的,学生网络损失函数的表达式如下:
Figure SMS_24
Figure SMS_25
Figure SMS_26
Figure SMS_27
其中,
Figure SMS_30
表示蒸馏温度/>
Figure SMS_37
为1时,学生网络输出的概率分布向量/>
Figure SMS_45
与学生网络产生的标签向量/>
Figure SMS_29
的交叉熵,/>
Figure SMS_36
表示概率分布向量/>
Figure SMS_44
的第/>
Figure SMS_51
个分量,
Figure SMS_34
,/>
Figure SMS_40
表示标签向量/>
Figure SMS_49
中分量的总数量,/>
Figure SMS_53
表示标签向量/>
Figure SMS_32
的第/>
Figure SMS_38
个分量,/>
Figure SMS_46
,/>
Figure SMS_52
表示蒸馏温度/>
Figure SMS_35
为/>
Figure SMS_42
时,学生网络输出的概率分布向量/>
Figure SMS_50
与教师网络输出的概率分布向量/>
Figure SMS_55
的交叉熵,/>
Figure SMS_28
表示概率分布向量/>
Figure SMS_41
的第/>
Figure SMS_47
个分量,/>
Figure SMS_54
,/>
Figure SMS_31
表示概率分布向量/>
Figure SMS_39
中分量的总数量,/>
Figure SMS_48
表示标签向量/>
Figure SMS_56
的第/>
Figure SMS_33
个分量,/>
Figure SMS_43
第二方面,本申请提供了一种不平衡数据的分类装置,包括:
聚类模块,用于将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;训练数据样本表示已分类的欺诈检测样本;判别密度模块,用于根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度;
样本种类模块,用于根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本,稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
平衡模块,用于针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同;
教师网络模块,用于利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;新标签包括软标签和伪标签;
学生网络模块,用于根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;
分类模块,用于利用分类预测模型对待分类数据进行分类,识别欺诈行为。
第三方面,本申请提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的不平衡数据的分类方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的不平衡数据的分类方法。
本申请的上述方案有如下的有益效果:
本申请通过对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本,能够使不平衡数据达到平衡,从而提高不平衡数据分类的准确性;利用学生网络损失函数对学生网络进行训练,得到分类预测模型,能够提高分类预测模型的拟合程度,从而提高不平衡数据分类的准确性。
本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的不平衡数据的分类方法的流程图;
图2为本申请一实施例提供的不平衡数据的分类装置的结构示意图;
图3为本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
针对目前对不平衡数据分类不准确的问题,本申请提供了一种不平衡数据的分类方法、装置、终端设备及介质,该方法通过对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本,能够使不平衡数据达到平衡,从而提高不平衡数据分类的准确性;利用学生网络损失函数对学生网络进行训练,得到分类预测模型,能够提高分类预测模型的拟合程度,从而提高不平衡数据分类的准确性。
如图1所示,本申请提供的不平衡数据的分类方法包括以下步骤:
步骤11,将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇。
上述训练数据样本表示已分类的欺诈检测样本。
在本申请的一些实施例中,上述将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,可以根据每种标签的训练数据样本数量划分多数类训练数据样本和少数类训练数据样本。示例性的,若某一种标签的训练数据样本数量占所有训练数据样本数量的比重超过预设阈值,则将该一种标签对应训练数据样本划分为多数类训练数据样本,否则,将该一种标签对应训练数据样本划分为少数类训练数据样本。
在本申请的一些实施例中,可选择聚类算法对训练数据样本进行聚类,如基于密度峰值的快速聚类方法(CFSFDP, Clustering by fast search and find of densitypeaks)。
示例性的,在本申请的一实施例中,利用CFSFDP方法对多个带标签的训练数据样本进行聚类,其具体过程如下:
步骤1a,针对每个训练数据样本
Figure SMS_57
,计算该训练数据样本与其他训练数据样本之间的欧式距离,并对计算得到的多个欧式距离进行升序排序,得到距离序列/>
Figure SMS_58
Figure SMS_59
表示其他训练数据样本的总数量。
步骤1b,通过计算公式
Figure SMS_60
,得到训练数据样本/>
Figure SMS_61
对应的截断距离/>
Figure SMS_62
其中,
Figure SMS_63
表示对/>
Figure SMS_64
进行四舍五入的结果,/>
Figure SMS_65
表示由超参数/>
Figure SMS_66
和总样本数/>
Figure SMS_67
得出的一个值,是一个计算截断距离并控制聚类结果的参数,/>
Figure SMS_68
表示超参数,/>
Figure SMS_69
步骤1c,通过计算公式
Figure SMS_70
Figure SMS_71
得到训练数据样本
Figure SMS_74
的局部密度/>
Figure SMS_76
,/>
Figure SMS_78
表示与训练数据样本/>
Figure SMS_73
的距离/>
Figure SMS_77
小于
Figure SMS_79
的其他训练数据样本/>
Figure SMS_80
,/>
Figure SMS_72
,/>
Figure SMS_75
步骤1d,设
Figure SMS_81
表示/>
Figure SMS_82
的降序排列下标序,则/>
Figure SMS_83
;然后在比训练数据样本/>
Figure SMS_84
的局部密度大的其他训练数据样中,找一个距离训练数据样本/>
Figure SMS_85
最近的其他训练数据样本,并通过计算公式
Figure SMS_86
得到训练数据样本
Figure SMS_87
和与训练数据样本/>
Figure SMS_88
最近的其他训练数据样本之间的距离
Figure SMS_89
步骤1e,通过计算公式
Figure SMS_90
,得到每个训练数据样本的聚类中心判别值/>
Figure SMS_91
,并将每个训练数据样本的聚类中心判别值作为纵坐标,以该聚类中心判别值对应的训练数据样本的编号(下标)为横坐标构建图像,非聚类中心的/>
Figure SMS_92
值较为平滑,类似一条连续的曲线。而从非聚类中心点到聚类中心点的/>
Figure SMS_93
值有一个明显的跳跃,因此,跳跃点的个数就是聚类的簇数,跳跃点就是聚类中心点。
步骤1f,设
Figure SMS_94
为某一非聚类中心,/>
Figure SMS_95
为密度大于/>
Figure SMS_96
且距离/>
Figure SMS_97
最近的点,则/>
Figure SMS_98
与/>
Figure SMS_99
的类别相同。重复步骤1f,直至/>
Figure SMS_100
为聚类中心点。
值得一提的是,对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性。
步骤12,根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度。
其中,每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度。
步骤13,根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类。
其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本。
稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本。
步骤14,针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本。
其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同。
步骤15,利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签。
上述新标签包括软标签和伪标签。
步骤16,根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型。
上述学生网络损失函数的表达式如下:
Figure SMS_101
Figure SMS_102
Figure SMS_103
Figure SMS_104
其中,
Figure SMS_112
表示蒸馏温度/>
Figure SMS_116
为1时,学生网络输出的概率分布向量/>
Figure SMS_123
与学生网络产生的标签向量/>
Figure SMS_110
的交叉熵,/>
Figure SMS_119
表示概率分布向量/>
Figure SMS_126
的第/>
Figure SMS_132
个分量,/>
Figure SMS_109
Figure SMS_120
表示标签向量/>
Figure SMS_127
中分量的总数量,/>
Figure SMS_133
表示标签向量/>
Figure SMS_111
的第/>
Figure SMS_114
个分量,/>
Figure SMS_122
Figure SMS_128
表示蒸馏温度/>
Figure SMS_108
为/>
Figure SMS_117
时,学生网络输出的概率分布向量/>
Figure SMS_125
与教师网络输出的概率分布向量/>
Figure SMS_130
的交叉熵,/>
Figure SMS_105
表示概率分布向量/>
Figure SMS_113
的第/>
Figure SMS_121
个分量,/>
Figure SMS_129
Figure SMS_107
表示概率分布向量/>
Figure SMS_115
中分量的总数量,/>
Figure SMS_124
表示标签向量/>
Figure SMS_131
的第/>
Figure SMS_106
个分量,
Figure SMS_118
。/>
在本申请的一些实施例中,可选取长短期记忆人工神经网络(LSTM,Long Short-Term Memory)构建学生网络,并在LSTM的全连接层后加上dropout层,设置比例为0.5。此举能防止模型过拟合。
在本申请的一些实施例中,训练完后的学生网络会作为新的教师网络,并重新构建新的学生网络损失函数,来对学生网络进行训练,反复循环3次,以提升分类模型的准确度。
步骤17,利用分类预测模型对待分类数据进行分类,识别欺诈行为。
示例性的,将待分类数据输入分类预测模型中,将得到待分类数据的标签和分类,根据标签和分类,可识别该数据对应的行为是否为欺诈行为。
下面对步骤12(根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度)的具体过程进行示例性说明。
步骤12.1,计算训练数据样本与数据聚类簇中其它训练数据样本之间的欧氏距离,并按照欧氏距离由大到小的顺序对其它训练数据样本进行排序。
步骤12.2,将前K个其它训练数据样本作为训练数据样本的K邻近样本,得到训练数据样本的K邻近样本集合。
步骤12.3,通过计算公式
Figure SMS_134
得到判别密度
Figure SMS_135
其中,
Figure SMS_136
表示第/>
Figure SMS_137
个训练数据样本/>
Figure SMS_138
的判别密度,/>
Figure SMS_139
表示/>
Figure SMS_140
邻近样本集合中的第/>
Figure SMS_141
个其它训练数据样本,/>
Figure SMS_142
下面对步骤13(根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类)的具体过程进行示例性说明。
步骤13.1,若训练数据样本的判别密度大于等于预先设置的临界密度,则将训练数据样本确定为稠密样本。
步骤13.2,若训练数据样本的判别密度小于等于预先设置的临界密度,且训练数据样本的K邻近训练数据样本中存在一个或多个稠密样本,则将训练数据样本确定为边界样本。
步骤13.3,若训练数据样本的判别密度小于等于预先设置的临界密度,且训练数据样本的K邻近训练数据样本中不存在稠密样本,则将训练数据样本确定为稀疏陷入样本。
下面对步骤14(针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本)中对数据聚类簇中的训练数据样本进行过采样的具体过程进行示例性说明。
步骤14.1,若数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本。
步骤14.2,对数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本。
步骤14.3,利用SMOTE算法对数据聚类簇中的边界样本进行插值,得到新的训练数据样本。
上述SMOTE算法表示合成少数类过采样方法(SMOTE,Synthetic MinorityOversampling Technique),是一种常见的过采样方法,在此不对其原理过程进行赘述。
下面对步骤15(利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签)的具体过程进行示例性说明。
步骤15.1,通过计算公式
Figure SMS_143
得到训练数据样本的分类概率分布
Figure SMS_144
其中,
Figure SMS_145
表示第/>
Figure SMS_146
个训练数据样本的分类概率分布,/>
Figure SMS_147
表示教师网络最后一层第/>
Figure SMS_148
个输出节点的输出,/>
Figure SMS_149
表示教师网络最后一层第/>
Figure SMS_150
个输出节点的输出,/>
Figure SMS_151
表示蒸馏温度。
上述过程是对教师网络中softmax操作的替换。
示例性的,在本申请的一实施例中,得到的一样本点的分类概率分布表示为[分类1:0.8,分类2:0.1,分类3:0.1],该分类概率分布表示该样本点属于分类1的概率为0.8,属于分类2的概率为0.1,属于分类3的概率为0.1。
步骤15.2,根据概率分布和预先设置的临界概率,得到训练数据样本的新标签。
具体的,若分类概率分布中的最大概率大于临界概率,则将最大概率对应的标签作为训练数据样本的伪标签;否则,将最大概率对应的标签作为训练数据样本的软标签。
示例性的,在本申请的一实施例中,得到的一样本点的分类概率分布中的最大概率为“分类1:0.8”,而预先设置的临界概率为0.6,则此时该样本点被划分为分类1,此时,该样本点的标签(伪标签)为:[分类1:1,其它分类:0]。
在本申请的另一个实施例中,得到的一样本点的分类概率分布中的最大概率为“分类1:0.5”,而预先设置的临界概率为0.6,则此时该样本点被划分为分类1,此时,该样本点的标签(软标签)为:[分类1:0.5,其它分类:0.5]。
由上述步骤可见,本申请提供的不平衡数据的分类方法通过对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本,能够使不平衡数据达到平衡,从而提高不平衡数据分类的准确性;利用学生网络损失函数对学生网络进行训练,得到分类预测模型,能够提高分类预测模型的拟合程度,从而提高不平衡数据分类的准确性。
下面对本申请提供的一种不平衡数据的分类装置进行示例性说明。
如图2所示,该不平衡数据的分类装置200包括:
聚类模块201,用于将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;训练数据样本表示已分类的欺诈检测样本;
判别密度模块202,用于根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;每个训练数据样本的判别密度表示训练数据样本附近的其他训练数据样本的密度;
样本种类模块203,用于根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;其中,样本种类包括稠密样本,边界样本以及稀疏陷入样本,稀疏陷入样本表示判别密度小于临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
平衡模块204,用于针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与数据聚类簇中训练数据样本的标签相同;
教师网络模块205,用于利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;新标签包括软标签和伪标签;
学生网络模块206,用于根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;
分类模块207,用于利用分类预测模型对待分类数据进行分类,识别欺诈行为。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
如图3所示,本申请的实施例提供了一种终端设备,如图3所示,该实施例的终端设备D10包括:至少一个处理器D100(图3中仅示出一个处理器)、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102,所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。
具体的,所述处理器D100执行所述计算机程序D102时,对多个带标签的训练数据样本进行聚类,得到多个数据聚类簇;根据多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;根据每个训练数据样本的判别密度和预先设置的临界密度,确定训练数据样本的样本种类;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本;利用训练后的知识蒸馏网络的教师网络,生成多个数据聚类簇中每个训练数据样本的新标签;根据每个训练数据样本的新标签,构建学生网络损失函数,并利用学生网络损失函数对学生网络进行训练,得到分类预测模型;利用分类预测模型对待分类数据进行分类,识别欺诈行为。其中,通过对多个带标签的训练数据样本进行聚类,能够降低训练数据样本的噪声,有利于提高不平衡数据分类的准确性;针对每个数据聚类簇,若数据聚类簇中的训练数据样本为少数类训练数据样本,则对数据聚类簇中的训练数据样本进行过采样;否则,删除数据聚类簇中的边界样本和稀疏陷入样本,能够使不平衡数据达到平衡,从而提高不平衡数据分类的准确性;利用学生网络损失函数对学生网络进行训练,得到分类预测模型,能够提高分类预测模型的拟合程度,从而提高不平衡数据分类的准确性。
所称处理器D100可以是中央处理单元(CPU,Central Processing Unit),该处理器D100还可以是其他通用处理器、数字信号处理器 (DSP,Digital Signal Processor)、专用集成电路 (ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元,例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备,例如所述终端设备D10上配备的插接式硬盘,智能存储卡(SMC,SmartMedia Card ),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到不平衡数据的分类装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种不平衡数据的分类方法,其特征在于,包括:
将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对所述多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;所述训练数据样本表示已分类的欺诈检测样本;
根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;所述每个训练数据样本的判别密度表示所述训练数据样本附近的其他训练数据样本的密度;
根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类;其中,所述样本种类包括稠密样本,边界样本以及稀疏陷入样本,所述稀疏陷入样本表示所述判别密度小于所述临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
针对每个数据聚类簇,若所述数据聚类簇中的训练数据样本为少数类训练数据样本,则对所述数据聚类簇中的训练数据样本进行过采样;否则,删除所述数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与所述数据聚类簇中训练数据样本的标签相同;
利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签;所述新标签包括软标签和伪标签;
根据每个训练数据样本的新标签,构建学生网络损失函数,并利用所述学生网络损失函数对学生网络进行训练,得到分类预测模型;
利用所述分类预测模型对待分类数据进行分类,识别欺诈行为。
2.根据权利要求1所述的分类方法,其特征在于,所述根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度,包括:
计算所述训练数据样本与所述数据聚类簇中其它训练数据样本之间的欧氏距离,并按照所述欧氏距离由大到小的顺序对所述其它训练数据样本进行排序;
将前
Figure QLYQS_1
个其它训练数据样本作为所述训练数据样本的/>
Figure QLYQS_2
邻近样本,得到所述训练数据样本的/>
Figure QLYQS_3
邻近样本集合;
通过计算公式
Figure QLYQS_4
得到所述判别密度
Figure QLYQS_6
;其中,/>
Figure QLYQS_9
表示第/>
Figure QLYQS_10
个训练数据样本/>
Figure QLYQS_7
的判别密度,/>
Figure QLYQS_8
表示所述
Figure QLYQS_11
邻近样本集合中的第/>
Figure QLYQS_12
个其它训练数据样本,/>
Figure QLYQS_5
3.根据权利要求2所述的分类方法,其特征在于,所述根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类,包括:
若所述训练数据样本的判别密度大于等于预先设置的临界密度,则将所述训练数据样本确定为稠密样本;
若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本的K邻近训练数据样本中存在一个或多个稠密样本,则将所述训练数据样本确定为边界样本;
若所述训练数据样本的判别密度小于等于预先设置的临界密度,且所述训练数据样本的K邻近训练数据样本中不存在稠密样本,则将所述训练数据样本确定为稀疏陷入样本。
4.根据权利要求3所述的分类方法,其特征在于,对所述数据聚类簇中的训练数据样本进行过采样,包括:
若所述数据聚类簇中稠密样本的个数大于等于三个,则选取三个稠密样本,并在以该三个稠密样本为顶点三角形的外切圆内生成新的训练数据样本;否则,利用线性插值生成新的训练数据样本;
对所述数据聚类簇中的稀疏陷入样本进行复制,得到新的训练数据样本;
利用SMOTE算法对所述数据聚类簇中的边界样本进行插值,得到新的训练数据样本。
5.根据权利要求4所述的分类方法,其特征在于,所述利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签,包括:
通过计算公式
Figure QLYQS_13
得到所述训练数据样本的分类概率分布
Figure QLYQS_15
;其中,/>
Figure QLYQS_17
表示第/>
Figure QLYQS_20
个训练数据样本的分类概率分布,/>
Figure QLYQS_16
表示所述教师网络最后一层第/>
Figure QLYQS_18
个输出节点的输出,/>
Figure QLYQS_19
表示所述教师网络最后一层第/>
Figure QLYQS_21
个输出节点的输出,/>
Figure QLYQS_14
表示蒸馏温度;
根据所述概率分布和预先设置的临界概率,得到所述训练数据样本的新标签。
6.根据权利要求5所述的分类方法,其特征在于,所述根据所述概率分布和预先设置的临界概率,得到所述训练数据样本的新标签,包括:
若所述分类概率分布中的最大概率大于所述临界概率,则将所述最大概率对应的标签作为所述训练数据样本的伪标签;否则,将该概率分布向量作为所述训练数据样本的软标签。
7.根据权利要求6所述的分类方法,其特征在于,所述学生网络损失函数的表达式如下:
Figure QLYQS_22
Figure QLYQS_23
Figure QLYQS_24
/>
Figure QLYQS_25
其中,
Figure QLYQS_30
表示蒸馏温度/>
Figure QLYQS_34
为1时,所述学生网络输出的概率分布向量/>
Figure QLYQS_42
与所述学生网络产生的标签向量/>
Figure QLYQS_27
的交叉熵,/>
Figure QLYQS_36
表示所述概率分布向量/>
Figure QLYQS_43
的第/>
Figure QLYQS_49
个分量,
Figure QLYQS_33
,/>
Figure QLYQS_41
表示所述标签向量/>
Figure QLYQS_48
中分量的总数量,/>
Figure QLYQS_54
表示标签向量/>
Figure QLYQS_28
的第/>
Figure QLYQS_37
个分量,/>
Figure QLYQS_44
,/>
Figure QLYQS_50
表示蒸馏温度/>
Figure QLYQS_31
为/>
Figure QLYQS_39
时,所述学生网络输出的概率分布向量/>
Figure QLYQS_47
与所述教师网络输出的概率分布向量/>
Figure QLYQS_53
的交叉熵,/>
Figure QLYQS_26
表示所述概率分布向量/>
Figure QLYQS_38
的第/>
Figure QLYQS_45
个分量,/>
Figure QLYQS_52
,/>
Figure QLYQS_29
表示所述概率分布向量/>
Figure QLYQS_40
中分量的总数量,/>
Figure QLYQS_46
表示所述标签向量/>
Figure QLYQS_51
的第/>
Figure QLYQS_32
个分量,/>
Figure QLYQS_35
8.一种不平衡数据的分类装置,其特征在于,包括:
聚类模块,用于将多个带标签的训练数据样本划分为多数类训练数据样本和少数类训练数据样本,并分别对所述多数类训练数据样本和少数类训练数据样本进行聚类,得到多个数据聚类簇;所述训练数据样本表示已分类的欺诈检测样本;
判别密度模块,用于根据所述多个数据聚类簇的每个数据聚类簇中各训练数据样本之间的欧氏距离,得到每个训练数据样本的判别密度;所述每个训练数据样本的判别密度表示所述训练数据样本附近的其他训练数据样本的密度;
样本种类模块,用于根据每个训练数据样本的判别密度和预先设置的临界密度,确定所述训练数据样本的样本种类;其中,所述样本种类包括稠密样本,边界样本以及稀疏陷入样本,所述稀疏陷入样本表示所述判别密度小于所述临界密度的训练数据样本,且该训练数据样本附近的其他训练数据样本均不是稠密样本;
平衡模块,用于针对每个数据聚类簇,若所述数据聚类簇中的训练数据样本为少数类训练数据样本,则对所述数据聚类簇中的训练数据样本进行过采样;否则,删除所述数据聚类簇中的边界样本和稀疏陷入样本;其中,不同样本种类的训练数据样本对应的过采样方法不同,过采样生成的新的训练数据样本的标签与所述数据聚类簇中训练数据样本的标签相同;
教师网络模块,用于利用训练后的知识蒸馏网络的教师网络,生成所述多个数据聚类簇中每个训练数据样本的新标签;所述新标签包括软标签和伪标签;
学生网络模块,用于根据每个训练数据样本的新标签,构建学生网络损失函数,并利用所述学生网络损失函数对学生网络进行训练,得到分类预测模型;
分类模块,用于利用所述分类预测模型对待分类数据进行分类,识别欺诈行为。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的不平衡数据的分类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的不平衡数据的分类方法。
CN202310444786.5A 2023-04-24 2023-04-24 一种不平衡数据的分类方法、装置、终端设备及介质 Pending CN116186611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310444786.5A CN116186611A (zh) 2023-04-24 2023-04-24 一种不平衡数据的分类方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310444786.5A CN116186611A (zh) 2023-04-24 2023-04-24 一种不平衡数据的分类方法、装置、终端设备及介质

Publications (1)

Publication Number Publication Date
CN116186611A true CN116186611A (zh) 2023-05-30

Family

ID=86449271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310444786.5A Pending CN116186611A (zh) 2023-04-24 2023-04-24 一种不平衡数据的分类方法、装置、终端设备及介质

Country Status (1)

Country Link
CN (1) CN116186611A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862078A (zh) * 2023-09-04 2023-10-10 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、系统、装置及介质
CN116895002A (zh) * 2023-08-11 2023-10-17 山东大学 基于多重图对比学习的源自由域适应目标检测方法及系统
CN116933074A (zh) * 2023-07-04 2023-10-24 天地科技股份有限公司北京技术研究分公司 煤矿三违行为识别模型训练方法、装置及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116933074A (zh) * 2023-07-04 2023-10-24 天地科技股份有限公司北京技术研究分公司 煤矿三违行为识别模型训练方法、装置及存储介质
CN116933074B (zh) * 2023-07-04 2024-04-05 天地科技股份有限公司北京技术研究分公司 煤矿三违行为识别模型训练方法、装置及存储介质
CN116895002A (zh) * 2023-08-11 2023-10-17 山东大学 基于多重图对比学习的源自由域适应目标检测方法及系统
CN116862078A (zh) * 2023-09-04 2023-10-10 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、系统、装置及介质
CN116862078B (zh) * 2023-09-04 2023-12-12 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、系统、装置及介质

Similar Documents

Publication Publication Date Title
CN116186611A (zh) 一种不平衡数据的分类方法、装置、终端设备及介质
CN103136504B (zh) 人脸识别方法及装置
CN111143838B (zh) 数据库用户异常行为检测方法
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
CN110414367B (zh) 一种基于gan和ssn的时序行为检测方法
CN111553127A (zh) 一种多标记的文本类数据特征选择方法及装置
CN109299263B (zh) 文本分类方法、电子设备
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN115473726A (zh) 一种识别域名的方法及装置
CN109842614B (zh) 基于数据挖掘的网络入侵检测方法
Kumar et al. Imbalanced classification in diabetics using ensembled machine learning
CN113987243A (zh) 一种图像聚档方法、图像聚档装置和计算机可读存储介质
CN117574262A (zh) 一种面向小样本问题的水声信号分类方法、系统及介质
Zhang et al. Recursive sample classification and gene selection based on SVM: method and software description
CN115984946A (zh) 一种基于集成学习的人脸识别模型遗忘方法及系统
Ha et al. FC-MST: Feature correlation maximum spanning tree for multimedia concept classification
CN113609480B (zh) 基于大规模网络流的多路学习入侵检测方法
CN112766423B (zh) 人脸识别模型的训练方法、装置、计算机设备及存储介质
CN109918905B (zh) 行为推论模型生成装置及其行为推论模型生成方法
Devi Arockia Vanitha et al. Multiclass cancer diagnosis in microarray gene expression profile using mutual information and support vector machine
CN113852629A (zh) 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质
CN111581640A (zh) 一种恶意软件检测方法、装置及设备、存储介质
CN110570025A (zh) 一种微信文章真实阅读率的预测方法、装置及设备
CN113222056B (zh) 面向图像分类系统攻击的对抗样本检测方法
Nijaguna et al. Multiple kernel fuzzy clustering for uncertain data classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230530

RJ01 Rejection of invention patent application after publication