CN116108387A - 一种类不平衡数据过采样方法及相关设备 - Google Patents
一种类不平衡数据过采样方法及相关设备 Download PDFInfo
- Publication number
- CN116108387A CN116108387A CN202310397766.7A CN202310397766A CN116108387A CN 116108387 A CN116108387 A CN 116108387A CN 202310397766 A CN202310397766 A CN 202310397766A CN 116108387 A CN116108387 A CN 116108387A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- nearest neighbor
- natural
- core sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002159 abnormal effect Effects 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种类不平衡数据过采样方法及相关设备,包括:获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的信用卡异常交易数据集作为不平衡数据集;随机选取多个少数类样本作为核心样本点,确定自然最近邻集合、自然最近邻域;根据不平衡数据集中样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;根据比例确定每个核心样本点在不平衡数据集中的空间分布情况、生成的新样本的数量权重、位置权重;根据数量权重、位置权重获取新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;提高了预测金融欺诈行为的精度。
Description
技术领域
本发明涉及金融类不平衡数据处理技术领域,特别涉及一种类不平衡数据过采样方法及相关设备。
背景技术
随着人工智能技术的不断发展,数据的收集、存储、处理技术也在不断进步。融合了多学科的机器学习与数据挖掘技术已成为分析处理数据并转化为所需知识的重要方法。传统的机器学习通常假设数据类别的分布是趋于平衡的,数据的类别对应的样本数相差不大。然而,在实际情况中,数据类别分布不平衡普遍存在与各个应用领域当中。例如在信用卡欺诈检测中,欺诈交易可能只占全部交易比例的1%,这时算法只需评判所有交易为正常交易,即可获得99%的分类准确率,这种情况忽略了欺诈交易的可能,对企业和个人财产造成严重损失。所以,针对数据的类不平衡特性进行平衡化处理具有极高的研究价值和应用前景。
现有的针对数据的类不平衡处理主要包括针对少数类样本进行过采样或者针对多数类样本进行欠采样,或者二者方法的结合。其中,过采样是指通过一定的方法和技术通过增加少数类样本,从而达到数据类不平衡的方法。
标准欧式距离是在欧式距离的基础上,将样本在各个维度上的取值都标准化到期望为0,方差为1。
发明内容
本发明提供了一种类不平衡数据过采样方法及相关设备,其目的是为了消除离群点对平衡数据集中样本特征的干扰,提高预测金融欺诈行为的精度。
为了达到上述目的,本发明提供了一种类不平衡数据过采样方法,包括:
步骤1,获取待处理的信用卡异常交易数据集,将信用卡异常交易数据集作为不平衡数据集,不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;
步骤2,随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;每个自然最近邻集合中包括核心样本点的多个近邻元素;
步骤3,根据不平衡数据集中每个样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;
步骤4,根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况;
步骤5,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在自然最近邻域中生成的新样本的数量权重;
步骤6,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在每个自然最近邻域生成的新样本点的位置权重;
步骤7,根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
进一步来说,在步骤2之前,包括:
计算两个少数类样本之间的标准欧式距离,公式如下:
进一步来说,步骤2包括:
随机选取少数类样本集中的部分少数类样本作为核心样本点;
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中不包含所述核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
进一步来说,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例,表达式为:
进一步来说,步骤4包括:
根据多数类样本在每个自然最近邻集合中所占的比例;
进一步来说,在自然最近邻域生成的新样本点的位置权重为:
进一步来说,步骤7包括:
确定不平衡数据集中所需生成新样本的数量,表达式为:
计算每个自然最近邻域中所需生成新样本的数量,表达式为:
将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现类不平衡数据过采样方法。
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现类不平衡数据过采样方法。
本发明的上述方案有如下的有益效果:
本发明通过获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的信用卡异常交易数据集作为不平衡数据集;随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;分别针对每个自然最近邻集合,根据不平衡数据集中每个样本的空间分布情况,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例;根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况、在自然最近邻域中生成的新样本的数量权重以及在自然最近邻域生成的新样本点的位置权重;根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;与现有技术相比,通过引入自然最近邻方法解决传统过采样方法中需要频繁确定近邻值的问题,能够实现自适应的选择样本近邻点,消除离群点对平衡数据集中样本特征的干扰,并在所形成的自然邻域中,根据邻域中少数类样本点周围数据分布状态,自适应的分配所需生成的样本数量,提高了生成样本的质量的同时扩大了生成样本的范围,提高了预测金融欺诈行为的精度。
本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例中步骤2的具体流程图;
图3为本发明实施例中步骤3-6的具体流程图;
图4为本发明实施例中步骤7的具体流程图;
图5为本发明实施例识别离群点的示意图;
图6为本发明实施例中核心样本点的自然最近邻与自然邻域选取示意图;
图11为本发明实施例中核心样本点的自然最近邻域的示意图;
图12为本发明实施例生成新样本的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是锁定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术样本特征只要彼此之间未构成冲突就可以相互结合。
本发明针对现有的问题,提供了一种类不平衡数据过采样方法及相关设备。
如图1所示,本发明的实施例提供了一种类不平衡数据过采样方法,包括:
步骤1,获取待处理的信用卡异常交易数据集,将信用卡异常交易数据集作为不平衡数据集,不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;
步骤2,随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;每个自然最近邻集合中包括核心样本点的多个近邻元素;
步骤3,根据不平衡数据集中每个样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;
步骤4,根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况;
步骤5,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在自然最近邻域中生成的新样本的数量权重;
步骤6,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在每个自然最近邻域生成的新样本点的位置权重;
步骤7,根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
具体来说,在步骤2之前,包括:
具体来说,如图2所示,步骤2包括:
随机选取少数类样本集中的部分少数类样本作为核心样本点;
针对少数类样本集中除核心样本点以外的少数类样本,若少数类样本的最近邻集合中不包含核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
对于当前值下,若除核心样本点以外的少数类样本的最近邻集合中包含核心样本点,则该少数类样本为核心样本点的逆近邻元素,元素集合记为,若核心样本点无逆近邻,则定义近邻元素的数量,重复前述的两个步骤,若该点仍无逆近邻,则判定该点为离群点,并舍弃该少数类样本,重新选择核心样本点;
重复搜索不平衡数据集,获得各个核心样本点的自然最近邻集合以及与自然最近邻集合对应的自然最近邻域。
具体来说,如图3所示,步骤3包括:
具体来说,步骤4包括:
根据多数类样本在每个自然最近邻集合中所占的比例;
对于自然最近邻集合中多数类样本点较多的核心样本点增加其数据生成权重,即
具体来说,在自然最近邻域生成的少数类样本点的位置权重为:
具体来说,如图4所示,步骤7包括:
确定不平衡数据集中所需生成新样本的数量,表达式为:
将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
如图8所示,当核心样本点为,,核心样本点的最近邻元素为样本,样本的最近邻元素为样本,故样本为核心样本点的逆近邻元素,且在核心样本点的最近邻集合中,所以样本为核心样本点的自然最近邻元素,定义进行下一步;
当时,由图10所示,核心样本点的最近邻元素为样本、样本、样本,样本的最近邻元素为核心样本点、样本、样本,样本的最近邻元素为核心样本点、样本、样本,样本的最近邻元素为样本、样本、样本,故核心样本点的自然逆近邻集合不发生改变,核心样本点的自然最近邻元素为、,自然最近邻域如图11所示;
确定剩余核心样本点的自然最近邻集合与自然最近领域,并求得各自自然最近领域样本点样本生成数量权重与样本生成权重,根据数量权重和位置权重和区域样本生成公式生成个新样本的样本特征,生成新的少数类样本,如图12所示。
在本发明实施例中,获取不平衡数据集进行举例,该不平衡数据集为类别比为12:1的信用卡异常交易数据集;
步骤2,随机选取核心样本点=[1.2023,-0.6947,-5.5263,6.6624,-8.5255,0.7427,-7.6787],具体为交易特征=[区域经济信息,社会地位信息,交易时间,交易金额的周期,地理位置,地理位置的时间差异,交易金额]的量化表示,由于金融数据的隐私性,本发明实施例将其进行脱敏性处理;
首先计算核心样本点与其他样本点的距离,选取,的最近邻元素为样本=[1.2498,-0.7183,-5.3903,6.4542,-8.4853,0.6353,-7.0199],样本的最近邻元素为核心样本点,故样本为核心样本点的自然逆近邻元素,定义进行循环;
,核心样本点的最近邻元素为样本、样本,样本=[1.7035,-1.3053,-6.7167,6.3536,-8.6016,0.4499,-7.5062],样本的最近邻元素为样本、样本,故样本为核心样本点的自然逆近邻元素,定义进行循环;
,核心样本点的最近邻元素为样本、样本、样本,样本=[1.7017,-1.4394,-6.9999,6.3162,-8.6708,0.316,-7.4177],样本的最近邻元素为样本、样本、样本,故样本为核心样本点的自然逆近邻元素,定义进行循环;
,核心样本点的最近邻元素为样本、样本、样本、样本,样本=[1.5156,-1.2072,-6.2346,5.4507,-7.3337,1.3612,-6.6081],样本的最近邻元素为样本、样本、样本、样本,故样本不为核心样本点的逆近邻元素,所以核心样本点的自然最近邻集合为{,,},自然最近邻域为从核心样本点出发各点之间连线构成的区域,,;
{1.0732,-0.504,-5.1509,6.7533,-8.4891,0.8524,-7.7515
1.1313,-0.5899,-5.3199,6.7124,-8.5055,0.803,-7.7187
1.1397,-0.6022,-5.3443,6.7065,-8.5078,0.7959,-7.714
……
1.1074,-0.5546,-5.2505,6.7292,-8.4988,0.8233,-7.7322}。
本发明实施例通过获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的信用卡异常数据集作为不平衡数据集;随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;分别针对每个自然最近邻集合,根据不平衡数据集中每个样本的空间分布情况,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例;根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况、在自然最近邻域中生成的新样本的数量权重以及在自然最近邻域生成的新样本点的位置权重;根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到集新样本,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;与现有技术相比,通过引入自然最近邻方法解决传统过采样方法中需要频繁确定近邻值的问题,能够实现自适应的选择样本近邻点,消除离群点对平衡数据集中样本特征的干扰,并在所形成的自然邻域中,根据邻域中少数类样本点周围数据分布状态,自适应的分配所需生成的样本数量,提高了生成样本的质量的同时扩大了生成样本的范围,提高了预测金融欺诈行为的精度。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现类不平衡数据过采样方法。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到构建装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实施例还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现类不平衡数据过采样方法。
需要说明的是,终端设备可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(UMPC,Ultra-mobile Personal Computer)、上网本、个人数字助理(PDA,PersonalDigital Assistant)等终端设备上,例如,终端设备可以是WLAN中的站点(ST,STAION),可以是蜂窝电话、无绳电话、会话启动协议(SIP,Session Initiation Protocol)电话、无线本地环路(WLL,Wireless Local Loop)站、个人数字处理(PDA,Personal DigitalAssistant)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备等。本发明实施例实施例对终端设备的具体类型不作任何限制。
所称处理器可以是中央处理单元(CPU,Central Processing Unit),该处理器还可以是其他通用处理器、数字信号处理器(DSP,Digital Signal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(SMC,Smart Media Card),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本发明实施例方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种类不平衡数据过采样方法,其特征在于,包括:
步骤1,获取待处理的信用卡异常交易数据集,将所述信用卡异常交易数据集作为不平衡数据集,所述不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;
步骤2,随机选取所述少数类样本集中的部分少数类样本作为核心样本点,确定每个所述核心样本点的自然最近邻集合以及与每个所述自然最近邻集合对应的自然最近邻域;每个所述自然最近邻集合中包括所述核心样本点的多个近邻元素;
步骤3,根据所述不平衡数据集中每个样本的空间分布情况,计算所述多数类样本在每个所述自然最近邻集合中所占的比例;
步骤4,根据所述多数类样本在每个所述自然最近邻集合中所占的比例,确定每个所述核心样本点在所述不平衡数据集中的空间分布情况;
步骤5,根据每个所述核心样本点在所述不平衡数据集中的空间分布情况,确定在所述自然最近邻域中生成的新样本的数量权重;
步骤6,根据每个所述核心样本点在所述不平衡数据集中的空间分布情况,确定在每个所述自然最近邻域生成的新样本点的位置权重;
步骤7,根据所述数量权重和所述位置权重,获取在每个所述自然最近邻域中生成的新样本的样本特征,并基于所述样本特征得到新样本集,将所述新样本集与所述不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
3.根据权利要求2所述的类不平衡数据过采样方法,其特征在于,所述步骤2包括:
随机选取所述少数类样本集中的多个少数类样本作为核心样本点;
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中不包含所述核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
8.根据权利要求7所述的类不平衡数据过采样方法,其特征在于,所述步骤7包括:
确定所述不平衡数据集中所需生成新样本的数量,表达式为:
计算每个所述自然最近邻域中所需生成新样本的数量,表达式为:
将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的类不平衡数据过采样方法。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的类不平衡数据过采样方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310397766.7A CN116108387B (zh) | 2023-04-14 | 2023-04-14 | 一种类不平衡数据过采样方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310397766.7A CN116108387B (zh) | 2023-04-14 | 2023-04-14 | 一种类不平衡数据过采样方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116108387A true CN116108387A (zh) | 2023-05-12 |
CN116108387B CN116108387B (zh) | 2023-07-04 |
Family
ID=86264176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310397766.7A Active CN116108387B (zh) | 2023-04-14 | 2023-04-14 | 一种类不平衡数据过采样方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116108387B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868775A (zh) * | 2016-03-23 | 2016-08-17 | 深圳市颐通科技有限公司 | 基于pso算法的不平衡样本分类方法 |
CN110275910A (zh) * | 2019-06-20 | 2019-09-24 | 东北大学 | 一种不平衡数据集的过采样方法 |
CN112633426A (zh) * | 2021-03-11 | 2021-04-09 | 腾讯科技(深圳)有限公司 | 处理数据类别不均衡的方法、装置、电子设备及存储介质 |
KR20220007470A (ko) * | 2020-07-10 | 2022-01-18 | 박수환 | 위치정보 분석 및 머신러닝 기법을 활용한 모바일 이상거래 탐지 장치 및 그 동작 방법 |
CN114862404A (zh) * | 2022-05-05 | 2022-08-05 | 湖北工业大学 | 基于聚类样本与极限梯度的信用卡欺诈检测方法及设备 |
US20220383322A1 (en) * | 2021-05-30 | 2022-12-01 | Actimize Ltd. | Clustering-based data selection for optimization of risk predictive machine learning models |
-
2023
- 2023-04-14 CN CN202310397766.7A patent/CN116108387B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868775A (zh) * | 2016-03-23 | 2016-08-17 | 深圳市颐通科技有限公司 | 基于pso算法的不平衡样本分类方法 |
CN110275910A (zh) * | 2019-06-20 | 2019-09-24 | 东北大学 | 一种不平衡数据集的过采样方法 |
KR20220007470A (ko) * | 2020-07-10 | 2022-01-18 | 박수환 | 위치정보 분석 및 머신러닝 기법을 활용한 모바일 이상거래 탐지 장치 및 그 동작 방법 |
CN112633426A (zh) * | 2021-03-11 | 2021-04-09 | 腾讯科技(深圳)有限公司 | 处理数据类别不均衡的方法、装置、电子设备及存储介质 |
US20220383322A1 (en) * | 2021-05-30 | 2022-12-01 | Actimize Ltd. | Clustering-based data selection for optimization of risk predictive machine learning models |
CN114862404A (zh) * | 2022-05-05 | 2022-08-05 | 湖北工业大学 | 基于聚类样本与极限梯度的信用卡欺诈检测方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116108387B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9953160B2 (en) | Applying multi-level clustering at scale to unlabeled data for anomaly detection and security | |
WO2019149059A1 (zh) | 确定业务对应的决策策略的方法、装置和电子设备 | |
CN105389488B (zh) | 身份认证方法及装置 | |
US20190035015A1 (en) | Method and apparatus for obtaining a stable credit score | |
CN106355391A (zh) | 一种业务处理方法及装置 | |
US20230035570A1 (en) | Authenticating Based On User Behavioral Transaction Patterns | |
CN110717758B (zh) | 异常交易识别方法和装置 | |
CN109598414A (zh) | 风险评估模型训练、风险评估方法、装置及电子设备 | |
CN111090780A (zh) | 可疑交易信息的确定方法及装置、存储介质、电子设备 | |
CN106850780A (zh) | 系统级的应用程序信息推荐方法、装置和移动终端 | |
US20200286091A1 (en) | Automated multi-currency refund service | |
CN111275416A (zh) | 数字货币异常交易检测方法、装置、电子设备及介质 | |
CN111582872A (zh) | 异常账号检测模型训练、异常账号检测方法、装置及设备 | |
CN116108387B (zh) | 一种类不平衡数据过采样方法及相关设备 | |
CN113177609A (zh) | 数据类别不均衡的处理方法及设备、系统、存储介质 | |
CN109242515A (zh) | 跨平台的异常账号识别方法和装置 | |
CN110796178B (zh) | 决策模型训练方法及样本特征选择方法、装置和电子设备 | |
CN111275071A (zh) | 预测模型训练、预测方法、装置及电子设备 | |
CN115481300A (zh) | 一种基于自然邻域密度的数据不平衡分类过采样方法、装置、设备及介质 | |
CN112446777A (zh) | 一种信用评估方法、装置、设备及存储介质 | |
CN108235228B (zh) | 一种安全校验方法和装置 | |
CN115601044A (zh) | 欺诈检测模型训练、欺诈检测方法、装置及电子设备 | |
CN112488825B (zh) | 基于区块链的对象交易方法及装置 | |
CN113988670A (zh) | 综合性企业信用风险预警方法及系统 | |
CN111860655A (zh) | 用户的处理方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |