CN116108387A - 一种类不平衡数据过采样方法及相关设备 - Google Patents

一种类不平衡数据过采样方法及相关设备 Download PDF

Info

Publication number
CN116108387A
CN116108387A CN202310397766.7A CN202310397766A CN116108387A CN 116108387 A CN116108387 A CN 116108387A CN 202310397766 A CN202310397766 A CN 202310397766A CN 116108387 A CN116108387 A CN 116108387A
Authority
CN
China
Prior art keywords
sample
samples
nearest neighbor
natural
core sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310397766.7A
Other languages
English (en)
Other versions
CN116108387B (zh
Inventor
刘利枚
黄志伟
刘星宝
石彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202310397766.7A priority Critical patent/CN116108387B/zh
Publication of CN116108387A publication Critical patent/CN116108387A/zh
Application granted granted Critical
Publication of CN116108387B publication Critical patent/CN116108387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种类不平衡数据过采样方法及相关设备,包括:获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的信用卡异常交易数据集作为不平衡数据集;随机选取多个少数类样本作为核心样本点,确定自然最近邻集合、自然最近邻域;根据不平衡数据集中样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;根据比例确定每个核心样本点在不平衡数据集中的空间分布情况、生成的新样本的数量权重、位置权重;根据数量权重、位置权重获取新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;提高了预测金融欺诈行为的精度。

Description

一种类不平衡数据过采样方法及相关设备
技术领域
本发明涉及金融类不平衡数据处理技术领域,特别涉及一种类不平衡数据过采样方法及相关设备。
背景技术
随着人工智能技术的不断发展,数据的收集、存储、处理技术也在不断进步。融合了多学科的机器学习与数据挖掘技术已成为分析处理数据并转化为所需知识的重要方法。传统的机器学习通常假设数据类别的分布是趋于平衡的,数据的类别对应的样本数相差不大。然而,在实际情况中,数据类别分布不平衡普遍存在与各个应用领域当中。例如在信用卡欺诈检测中,欺诈交易可能只占全部交易比例的1%,这时算法只需评判所有交易为正常交易,即可获得99%的分类准确率,这种情况忽略了欺诈交易的可能,对企业和个人财产造成严重损失。所以,针对数据的类不平衡特性进行平衡化处理具有极高的研究价值和应用前景。
现有的针对数据的类不平衡处理主要包括针对少数类样本进行过采样或者针对多数类样本进行欠采样,或者二者方法的结合。其中,过采样是指通过一定的方法和技术通过增加少数类样本,从而达到数据类不平衡的方法。
标准欧式距离是在欧式距离的基础上,将样本在各个维度上的取值都标准化到期望为0,方差为1。
自然最近邻以及自然最近邻域是指存在近邻数值
Figure SMS_3
以及样本点集合
Figure SMS_5
,对于
Figure SMS_7
,使得
Figure SMS_2
Figure SMS_6
中的
Figure SMS_8
个样本互为最近路径上的点,则
Figure SMS_9
Figure SMS_1
个样本点互为自然邻,相邻点连线构成的区域成为自然最近邻域,
Figure SMS_4
为自然最近邻值。
目前,现有过采样方法大多以SMOTE算法为基础,通过随机选择少数类样本及其近邻样本做线性插值,生成一定数量的少数类样本点的方法;该算法的核心为
Figure SMS_10
近邻算法,该类方法存在最近邻
Figure SMS_11
值确定较为繁琐,设置固定
Figure SMS_12
值会导致生成样本的质量会下降等问题;同时,SOMTE方法本身对少数类样本的离群点不敏感,在选择样本点进行线性插值时,容易取到离群点,生成大量噪声样本。
发明内容
本发明提供了一种类不平衡数据过采样方法及相关设备,其目的是为了消除离群点对平衡数据集中样本特征的干扰,提高预测金融欺诈行为的精度。
为了达到上述目的,本发明提供了一种类不平衡数据过采样方法,包括:
步骤1,获取待处理的信用卡异常交易数据集,将信用卡异常交易数据集作为不平衡数据集,不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;
步骤2,随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;每个自然最近邻集合中包括核心样本点的多个近邻元素;
步骤3,根据不平衡数据集中每个样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;
步骤4,根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况;
步骤5,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在自然最近邻域中生成的新样本的数量权重;
步骤6,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在每个自然最近邻域生成的新样本点的位置权重;
步骤7,根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
进一步来说,在步骤2之前,包括:
计算两个少数类样本之间的标准欧式距离,公式如下:
Figure SMS_13
其中,
Figure SMS_19
表示第
Figure SMS_16
个少数类样本
Figure SMS_26
与第
Figure SMS_17
个少数类样本
Figure SMS_25
的之间距离,
Figure SMS_22
Figure SMS_27
分别表示第
Figure SMS_18
个少数类样本
Figure SMS_28
、第
Figure SMS_14
个少数类样本
Figure SMS_23
在第
Figure SMS_15
个样本特征维度上的取值,
Figure SMS_24
表示少数类样本点集合
Figure SMS_21
在第
Figure SMS_29
个样本特征维度上的标准差,
Figure SMS_20
为样本样本特征数量。
进一步来说,步骤2包括:
随机选取少数类样本集中的部分少数类样本作为核心样本点;
针对每个所述核心样本点,选取所述核心样本点的
Figure SMS_30
个近邻元素;
选取所述核心样本点的
Figure SMS_31
个近邻元素构成
Figure SMS_32
近邻集合
Figure SMS_33
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中包含所述核心样本点,则认为该少数类样本为所述核心样本点的逆
Figure SMS_34
近邻元素,所述逆
Figure SMS_35
近邻元素组成逆
Figure SMS_36
近邻集合
Figure SMS_37
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中不包含所述核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
求取所述
Figure SMS_38
近邻集合
Figure SMS_39
与所述逆
Figure SMS_40
近邻集合
Figure SMS_41
的交集;
若所述交集为空集,则重新定义
Figure SMS_42
的值,重复选取所述核心样本点的
Figure SMS_43
近邻集合和逆
Figure SMS_44
近邻集合;
若所述交集为非空集,则自然最近邻集合为
Figure SMS_45
,并重新定义
Figure SMS_46
的值,重复求取自然最近邻集合
Figure SMS_47
直至所述核心样本点的逆
Figure SMS_48
近邻集合不发生改变,得到每个核心样本点的自然最近邻集合以及每个自然最近邻集合对应的自然最近邻域。
进一步来说,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例,表达式为:
Figure SMS_49
其中,
Figure SMS_50
表示核心样本点在第
Figure SMS_51
个自然最近邻集合中多数类样本所占的比例,
Figure SMS_52
为第
Figure SMS_53
个自然最近邻集合中多数类样本的数量,
Figure SMS_54
表示核心样本点的近邻元素的数量。
进一步来说,步骤4包括:
根据多数类样本在每个自然最近邻集合中所占的比例;
Figure SMS_55
Figure SMS_56
Figure SMS_57
Figure SMS_58
Figure SMS_59
Figure SMS_60
其中,
Figure SMS_61
为核心样本点的样本生成控制权重,
Figure SMS_62
为控制参数,
Figure SMS_63
根据所述样本生成控制权重
Figure SMS_64
,确定每个核心样本点在不平衡数据集中的空间分布情况。
进一步来说,在自然最近邻域中生成的新样本的数量权重
Figure SMS_65
为:
Figure SMS_66
其中,
Figure SMS_67
为核心样本点的样本生成控制权重,
Figure SMS_68
表示
Figure SMS_69
个自然最近邻域中核心样本点的样本生成控制权重之和。
进一步来说,在自然最近邻域生成的新样本点的位置权重为:
Figure SMS_70
其中,
Figure SMS_71
为核心样本点的样本生成控制权重,
Figure SMS_72
表示
Figure SMS_73
个自然最近邻域中核心样本点的样本生成控制权重之和。
进一步来说,步骤7包括:
确定不平衡数据集中所需生成新样本的数量,表达式为:
Figure SMS_74
其中,
Figure SMS_75
为平衡参数,用于控制新样本的数量,
Figure SMS_76
计算每个自然最近邻域中所需生成新样本的数量,表达式为:
Figure SMS_77
分别针对每个自然最近邻域,根据区域样本生成公式生成
Figure SMS_78
个新样本的样本特征,区域样本生成公式为:
Figure SMS_79
其中,
Figure SMS_80
表示以核心样本点
Figure SMS_81
生成的新样本点的第
Figure SMS_82
个样本特征,
Figure SMS_83
表示核心样本点与自然最近邻域中其他样本点的样本特征差值,
Figure SMS_84
为随机数,取值范围为[0,1];
根据每个所述自然最近邻域中生成的新样本的样本特征,得到新样本为
Figure SMS_85
,新样本
Figure SMS_86
Figure SMS_87
个样本特征构成;
Figure SMS_88
个新样本进行组合,得到新样本集为
Figure SMS_89
将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现类不平衡数据过采样方法。
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现类不平衡数据过采样方法。
本发明的上述方案有如下的有益效果:
本发明通过获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的信用卡异常交易数据集作为不平衡数据集;随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;分别针对每个自然最近邻集合,根据不平衡数据集中每个样本的空间分布情况,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例;根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况、在自然最近邻域中生成的新样本的数量权重以及在自然最近邻域生成的新样本点的位置权重;根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;与现有技术相比,通过引入自然最近邻方法解决传统过采样方法中需要频繁确定近邻值的问题,能够实现自适应的选择样本近邻点,消除离群点对平衡数据集中样本特征的干扰,并在所形成的自然邻域中,根据邻域中少数类样本点周围数据分布状态,自适应的分配所需生成的样本数量,提高了生成样本的质量的同时扩大了生成样本的范围,提高了预测金融欺诈行为的精度。
本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例中步骤2的具体流程图;
图3为本发明实施例中步骤3-6的具体流程图;
图4为本发明实施例中步骤7的具体流程图;
图5为本发明实施例识别离群点的示意图;
图6为本发明实施例中核心样本点的自然最近邻与自然邻域选取示意图;
图7为本发明实施例中当
Figure SMS_90
时核心样本点为离群点的示意图;
图8为本发明实施例中当
Figure SMS_91
时核心样本点的最近邻元素的示意图;
图9为本发明实施例中当
Figure SMS_92
时核心样本点的最近邻元素的示意图;
图10为本发明实施例中当
Figure SMS_93
时核心样本点的最近邻元素的示意图;
图11为本发明实施例中核心样本点的自然最近邻域的示意图;
图12为本发明实施例生成新样本的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是锁定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术样本特征只要彼此之间未构成冲突就可以相互结合。
本发明针对现有的问题,提供了一种类不平衡数据过采样方法及相关设备。
如图1所示,本发明的实施例提供了一种类不平衡数据过采样方法,包括:
步骤1,获取待处理的信用卡异常交易数据集,将信用卡异常交易数据集作为不平衡数据集,不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;
步骤2,随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;每个自然最近邻集合中包括核心样本点的多个近邻元素;
步骤3,根据不平衡数据集中每个样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;
步骤4,根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况;
步骤5,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在自然最近邻域中生成的新样本的数量权重;
步骤6,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在每个自然最近邻域生成的新样本点的位置权重;
步骤7,根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
具体来说,步骤1包括:获取待处理的信用卡异常交易数据集作为不平衡数据集
Figure SMS_94
,不平衡数据集
Figure SMS_95
包括由多个少数类样本组成的少数类样本集
Figure SMS_96
和由多个多数类样本组成的多数类样本集
Figure SMS_97
,且
Figure SMS_98
Figure SMS_99
具体来说,在步骤2之前,包括:
计算两个少数类样本之间的标准欧几里得距离,距离集合记作
Figure SMS_100
Figure SMS_101
,其中少数类样点
Figure SMS_102
关于其他少数类样本的距离集合为
Figure SMS_103
,标准欧几里得距离公式如下:
Figure SMS_104
其中,
Figure SMS_113
表示第
Figure SMS_112
个少数类样本
Figure SMS_119
与第
Figure SMS_111
个少数类样本
Figure SMS_120
的之间距离,
Figure SMS_109
Figure SMS_114
分别表示第
Figure SMS_106
个少数类样本
Figure SMS_116
、第
Figure SMS_105
个少数类样本
Figure SMS_115
在第
Figure SMS_110
个特征维度上的取值,
Figure SMS_118
表示少数类样本点集合
Figure SMS_108
在第
Figure SMS_117
个特征维度上的标准差,
Figure SMS_107
为样本样本特征数量。
具体来说,如图2所示,步骤2包括:
随机选取少数类样本集中的部分少数类样本作为核心样本点;
针对每个核心样本点,选取核心样本点的
Figure SMS_121
个近邻元素;
选取核心样本点的
Figure SMS_122
个近邻元素构成
Figure SMS_123
近邻集合
Figure SMS_124
针对少数类样本集中除核心样本点以外的少数类样本,若少数类样本的最近邻集合中包含核心样本点,则认为该少数类样本为核心样本点的逆
Figure SMS_125
近邻元素,逆
Figure SMS_126
近邻元素组成逆
Figure SMS_127
近邻集合
Figure SMS_128
针对少数类样本集中除核心样本点以外的少数类样本,若少数类样本的最近邻集合中不包含核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
求取
Figure SMS_129
近邻集合
Figure SMS_130
与逆
Figure SMS_131
近邻集合
Figure SMS_132
的交集;
若交集为空集,则重新定义
Figure SMS_133
的值,重复选取核心样本点的
Figure SMS_134
近邻集合和逆
Figure SMS_135
近邻集合;
若交集为非空集,则自然最近邻集合为
Figure SMS_136
,并重新定义
Figure SMS_137
的值,重复求取自然最近邻集合
Figure SMS_138
直至核心样本点的逆
Figure SMS_139
近邻集合不发生改变,得到每个核心样本点的自然最近邻集合以及每个自然最近邻集合对应的自然最近邻域。
在本发明实施例中,初始化近邻元素的数量
Figure SMS_140
在核心样本点与近邻元素之间的距离集合中,按从小到大的顺序依次选择
Figure SMS_141
个近邻元素,距离值最小的近邻元素为选择的第一个近邻元素,形成不包含核心样本点的最近邻集合,例如核心样本点
Figure SMS_142
Figure SMS_143
近邻集合
Figure SMS_144
对于当前
Figure SMS_147
值下,若除核心样本点以外的少数类样本的最近邻集合中包含核心样本点
Figure SMS_149
,则该少数类样本为核心样本点
Figure SMS_151
的逆
Figure SMS_146
近邻元素,元素集合记为
Figure SMS_148
,若核心样本点
Figure SMS_150
无逆
Figure SMS_152
近邻,则定义近邻元素的数量
Figure SMS_145
,重复前述的两个步骤,若该点仍无逆近邻,则判定该点为离群点,并舍弃该少数类样本,重新选择核心样本点;
求取核心样本点
Figure SMS_153
Figure SMS_154
近邻集合
Figure SMS_155
与逆
Figure SMS_156
近邻集合
Figure SMS_157
的交集作为自然最近邻
Figure SMS_158
,即
Figure SMS_159
判断逆
Figure SMS_161
近邻集合
Figure SMS_164
是否增加;若逆
Figure SMS_166
近邻集合
Figure SMS_162
中近邻元素增加或为
Figure SMS_163
,则定义
Figure SMS_165
,重复步骤前述3个步骤;若否,核心样本点
Figure SMS_167
对应自然最近邻为
Figure SMS_160
,对应自然邻域为自然最近邻集合元素所构成的空间内区域;
重复搜索不平衡数据集,获得各个核心样本点的自然最近邻集合以及与自然最近邻集合对应的自然最近邻域。
具体来说,如图3所示,步骤3包括:
选取不同的近邻元素,计算核心样本点在整个不平衡数据集的样本空间中的
Figure SMS_168
个近邻元素,多数类样本在核心样本点的自然最近邻集合中所占的比例
Figure SMS_169
的计算公式如下:
Figure SMS_170
其中,
Figure SMS_171
表示核心样本点在第
Figure SMS_172
个自然最近邻集合中多数类样本所占的比例,
Figure SMS_173
为第
Figure SMS_174
个自然最近邻集合中多数类样本的数量,
Figure SMS_175
表示核心样本点的近邻元素的数量。
具体来说,步骤4包括:
根据多数类样本在每个自然最近邻集合中所占的比例;
对于自然最近邻集合中多数类样本点较多的核心样本点增加其数据生成权重,即
Figure SMS_176
Figure SMS_177
Figure SMS_178
Figure SMS_179
Figure SMS_180
Figure SMS_181
其中,
Figure SMS_182
为核心样本点的样本生成控制权重,
Figure SMS_183
为控制参数,
Figure SMS_184
根据样本生成控制权重
Figure SMS_185
,确定每个核心样本点在不平衡数据集中的空间分布情况。
具体来说,在自然最近邻域中生成的少数类样本的数量权重
Figure SMS_186
为:
Figure SMS_187
其中,
Figure SMS_188
为核心样本点的样本生成控制权重,
Figure SMS_189
表示
Figure SMS_190
个自然最近邻域中核心样本点的样本生成控制权重之和。
具体来说,在自然最近邻域生成的少数类样本点的位置权重为:
Figure SMS_191
其中,
Figure SMS_192
为核心样本点的样本生成控制权重,
Figure SMS_193
表示
Figure SMS_194
个自然最近邻域中核心样本点的样本生成控制权重之和。
具体来说,如图4所示,步骤7包括:
确定不平衡数据集中所需生成新样本的数量,表达式为:
Figure SMS_195
其中,
Figure SMS_196
为平衡参数,用于控制新样本的数量,
Figure SMS_197
计算每个自然最近邻域中所需生成新样本的数量,表达式为:
Figure SMS_198
分别针对每个自然最近邻域,根据区域样本生成公式生成
Figure SMS_199
个新样本的样本特征,所述区域样本生成公式为:
Figure SMS_200
其中,
Figure SMS_201
表示以核心样本点
Figure SMS_202
生成的新样本点的第
Figure SMS_203
个样本特征,
Figure SMS_204
表示核心样本点与自然最近邻域中其他样本点的样本特征差值,
Figure SMS_205
为随机数,取值范围为[0,1];
根据每个所述自然最近邻域中生成的新样本的样本特征,得到新样本为
Figure SMS_206
,新样本
Figure SMS_207
Figure SMS_208
个样本特征构成;
Figure SMS_209
个新样本进行组合,得到新样本集为
Figure SMS_210
将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
具体来说,关于离群点的识别与舍弃,如图5和图6所示,当核心样本点为离群点
Figure SMS_213
时,
Figure SMS_214
,点
Figure SMS_217
的最近邻元素为样本
Figure SMS_212
,样本
Figure SMS_215
的最近邻元素为样本
Figure SMS_216
,因此核心样本点
Figure SMS_218
不具有逆
Figure SMS_211
近邻元素;
重新定义
Figure SMS_219
进行循环;
Figure SMS_223
时,由图7所示,核心样本点
Figure SMS_226
的最近邻元素为样本
Figure SMS_228
与样本
Figure SMS_222
,而样本点
Figure SMS_225
的最近邻元素为样本
Figure SMS_229
与样本
Figure SMS_231
,样本
Figure SMS_220
的最近邻元素为样本
Figure SMS_224
与样本
Figure SMS_227
,故关于核心样本点
Figure SMS_230
的自然最近邻集合仍为空集,故识别核心样本点
Figure SMS_221
为离群点。
如图8所示,当核心样本点为
Figure SMS_234
Figure SMS_237
,核心样本点的最近邻元素为样本
Figure SMS_241
,样本
Figure SMS_235
的最近邻元素为样本
Figure SMS_238
,故样本
Figure SMS_240
为核心样本点
Figure SMS_243
的逆
Figure SMS_232
近邻元素,且在核心样本点
Figure SMS_236
的最近邻集合中,所以样本
Figure SMS_239
为核心样本点
Figure SMS_242
的自然最近邻元素,定义
Figure SMS_233
进行下一步;
Figure SMS_246
时,由图9所示,核心样本点
Figure SMS_250
的最近邻元素为样本
Figure SMS_255
、样本
Figure SMS_245
,样本
Figure SMS_248
的最近邻元素为核心样本点
Figure SMS_252
、样本
Figure SMS_256
,样本
Figure SMS_244
的最近邻元素为核心样本点
Figure SMS_249
、样本
Figure SMS_253
,故样本
Figure SMS_257
、样本
Figure SMS_247
为核心样本点
Figure SMS_251
的自然最近邻元素,定义
Figure SMS_254
进行下一步;
Figure SMS_267
时,由图10所示,核心样本点
Figure SMS_265
的最近邻元素为样本
Figure SMS_277
、样本
Figure SMS_262
、样本
Figure SMS_275
,样本
Figure SMS_268
的最近邻元素为核心样本点
Figure SMS_279
、样本
Figure SMS_264
、样本
Figure SMS_274
,样本
Figure SMS_258
的最近邻元素为核心样本点
Figure SMS_270
、样本
Figure SMS_259
、样本
Figure SMS_271
,样本
Figure SMS_269
的最近邻元素为样本
Figure SMS_278
、样本
Figure SMS_266
、样本
Figure SMS_273
,故核心样本点
Figure SMS_263
的自然逆
Figure SMS_276
近邻集合不发生改变,核心样本点
Figure SMS_260
的自然最近邻元素为
Figure SMS_272
Figure SMS_261
,自然最近邻域如图11所示;
确定剩余核心样本点的自然最近邻集合与自然最近领域,并求得各自自然最近领域样本点样本生成数量权重与样本生成权重,根据数量权重和位置权重和区域样本生成公式生成
Figure SMS_280
个新样本的样本特征,生成新的少数类样本,如图12所示。
在本发明实施例中,获取不平衡数据集进行举例,该不平衡数据集为类别比为12:1的信用卡异常交易数据集;
步骤2,随机选取核心样本点
Figure SMS_281
=[1.2023,-0.6947,-5.5263,6.6624,-8.5255,0.7427,-7.6787],具体为交易特征=[区域经济信息,社会地位信息,交易时间,交易金额的周期,地理位置,地理位置的时间差异,交易金额]的量化表示,由于金融数据的隐私性,本发明实施例将其进行脱敏性处理;
首先计算核心样本点
Figure SMS_284
与其他样本点的距离,选取
Figure SMS_287
Figure SMS_290
的最近邻元素为样本
Figure SMS_283
=[1.2498,-0.7183,-5.3903,6.4542,-8.4853,0.6353,-7.0199],样本
Figure SMS_286
的最近邻元素为核心样本点
Figure SMS_288
,故样本
Figure SMS_291
为核心样本点
Figure SMS_282
的自然逆
Figure SMS_285
近邻元素,定义
Figure SMS_289
进行循环;
Figure SMS_293
,核心样本点
Figure SMS_297
的最近邻元素为样本
Figure SMS_300
、样本
Figure SMS_294
,样本
Figure SMS_298
=[1.7035,-1.3053,-6.7167,6.3536,-8.6016,0.4499,-7.5062],样本
Figure SMS_301
的最近邻元素为样本
Figure SMS_303
、样本
Figure SMS_292
,故样本
Figure SMS_296
为核心样本点
Figure SMS_299
的自然逆
Figure SMS_302
近邻元素,定义
Figure SMS_295
进行循环;
Figure SMS_306
,核心样本点
Figure SMS_309
的最近邻元素为样本
Figure SMS_314
、样本
Figure SMS_307
、样本
Figure SMS_311
,样本
Figure SMS_315
=[1.7017,-1.4394,-6.9999,6.3162,-8.6708,0.316,-7.4177],样本
Figure SMS_317
的最近邻元素为样本
Figure SMS_304
、样本
Figure SMS_308
、样本
Figure SMS_312
,故样本
Figure SMS_316
为核心样本点
Figure SMS_305
的自然逆
Figure SMS_310
近邻元素,定义
Figure SMS_313
进行循环;
Figure SMS_323
,核心样本点
Figure SMS_322
的最近邻元素为样本
Figure SMS_336
、样本
Figure SMS_321
、样本
Figure SMS_332
、样本
Figure SMS_328
,样本
Figure SMS_339
=[1.5156,-1.2072,-6.2346,5.4507,-7.3337,1.3612,-6.6081],样本
Figure SMS_320
的最近邻元素为样本
Figure SMS_335
、样本
Figure SMS_318
、样本
Figure SMS_330
、样本
Figure SMS_325
,故样本
Figure SMS_337
不为核心样本点
Figure SMS_324
的逆
Figure SMS_334
近邻元素,所以核心样本点
Figure SMS_326
的自然最近邻集合为{
Figure SMS_338
Figure SMS_327
Figure SMS_333
},自然最近邻域为从核心样本点
Figure SMS_319
出发各点之间连线构成的区域,
Figure SMS_331
Figure SMS_329
步骤3:首先计算在各个核心样本点的自然最近邻集合中多数类样本所占的比例,其中核心样本点
Figure SMS_340
的自然最近邻集合中多数类样本所占的比例为
Figure SMS_341
Figure SMS_342
,所以样本生成控制权重
Figure SMS_343
步骤4,在获得其他核心样本点的权重基础上,由公式
Figure SMS_344
得,在自然最近邻域中生成的少数类样本的数量权重
Figure SMS_345
步骤5,计算核心样本点
Figure SMS_349
的自然最近邻元素
Figure SMS_352
Figure SMS_355
Figure SMS_348
的自然最近邻集合中的多数类样本所占的比例,其中
Figure SMS_350
Figure SMS_354
Figure SMS_356
,故
Figure SMS_346
Figure SMS_351
,由公式
Figure SMS_353
Figure SMS_357
Figure SMS_347
步骤,6,首先确定样本生成数量,根据公式
Figure SMS_358
Figure SMS_359
默认为1,得
Figure SMS_360
由公式
Figure SMS_361
可得,核心样本点
Figure SMS_362
需要生成得样本数量为
Figure SMS_363
由公式
Figure SMS_364
Figure SMS_365
可得某一新样本为[1.0732,-0.504,-5.1509,6.7533,-8.4891,0.8524,-7.7515];
新样本集为
Figure SMS_366
Figure SMS_367
的具体数据如下:
{1.0732,-0.504,-5.1509,6.7533,-8.4891,0.8524,-7.7515
1.1313,-0.5899,-5.3199,6.7124,-8.5055,0.803,-7.7187
1.1397,-0.6022,-5.3443,6.7065,-8.5078,0.7959,-7.714
……
1.1074,-0.5546,-5.2505,6.7292,-8.4988,0.8233,-7.7322}。
本发明实施例通过获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的信用卡异常数据集作为不平衡数据集;随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;分别针对每个自然最近邻集合,根据不平衡数据集中每个样本的空间分布情况,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例;根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况、在自然最近邻域中生成的新样本的数量权重以及在自然最近邻域生成的新样本点的位置权重;根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到集新样本,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;与现有技术相比,通过引入自然最近邻方法解决传统过采样方法中需要频繁确定近邻值的问题,能够实现自适应的选择样本近邻点,消除离群点对平衡数据集中样本特征的干扰,并在所形成的自然邻域中,根据邻域中少数类样本点周围数据分布状态,自适应的分配所需生成的样本数量,提高了生成样本的质量的同时扩大了生成样本的范围,提高了预测金融欺诈行为的精度。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现类不平衡数据过采样方法。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到构建装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实施例还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现类不平衡数据过采样方法。
需要说明的是,终端设备可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(UMPC,Ultra-mobile Personal Computer)、上网本、个人数字助理(PDA,PersonalDigital Assistant)等终端设备上,例如,终端设备可以是WLAN中的站点(ST,STAION),可以是蜂窝电话、无绳电话、会话启动协议(SIP,Session Initiation Protocol)电话、无线本地环路(WLL,Wireless Local Loop)站、个人数字处理(PDA,Personal DigitalAssistant)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备等。本发明实施例实施例对终端设备的具体类型不作任何限制。
所称处理器可以是中央处理单元(CPU,Central Processing Unit),该处理器还可以是其他通用处理器、数字信号处理器(DSP,Digital Signal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(SMC,Smart Media Card),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本发明实施例方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种类不平衡数据过采样方法,其特征在于,包括:
步骤1,获取待处理的信用卡异常交易数据集,将所述信用卡异常交易数据集作为不平衡数据集,所述不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;
步骤2,随机选取所述少数类样本集中的部分少数类样本作为核心样本点,确定每个所述核心样本点的自然最近邻集合以及与每个所述自然最近邻集合对应的自然最近邻域;每个所述自然最近邻集合中包括所述核心样本点的多个近邻元素;
步骤3,根据所述不平衡数据集中每个样本的空间分布情况,计算所述多数类样本在每个所述自然最近邻集合中所占的比例;
步骤4,根据所述多数类样本在每个所述自然最近邻集合中所占的比例,确定每个所述核心样本点在所述不平衡数据集中的空间分布情况;
步骤5,根据每个所述核心样本点在所述不平衡数据集中的空间分布情况,确定在所述自然最近邻域中生成的新样本的数量权重;
步骤6,根据每个所述核心样本点在所述不平衡数据集中的空间分布情况,确定在每个所述自然最近邻域生成的新样本点的位置权重;
步骤7,根据所述数量权重和所述位置权重,获取在每个所述自然最近邻域中生成的新样本的样本特征,并基于所述样本特征得到新样本集,将所述新样本集与所述不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
2.根据权利要求1所述的类不平衡数据过采样方法,其特征在于,在所述步骤2之前,包括:
计算两个所述少数类样本之间的标准欧式距离,公式如下:
Figure QLYQS_1
其中,
Figure QLYQS_3
表示第
Figure QLYQS_10
个少数类样本
Figure QLYQS_17
与第
Figure QLYQS_9
个少数类样本
Figure QLYQS_16
的之间距离,
Figure QLYQS_5
Figure QLYQS_14
分别表示第
Figure QLYQS_6
个少数类样本
Figure QLYQS_13
、第
Figure QLYQS_2
个少数类样本
Figure QLYQS_11
在第
Figure QLYQS_4
个样本特征维度上的取值,
Figure QLYQS_12
表示少数类样本点集合
Figure QLYQS_8
在第
Figure QLYQS_15
个样本特征维度上的标准差,
Figure QLYQS_7
为样本样本特征数量。
3.根据权利要求2所述的类不平衡数据过采样方法,其特征在于,所述步骤2包括:
随机选取所述少数类样本集中的多个少数类样本作为核心样本点;
针对每个所述核心样本点,选取所述核心样本点的
Figure QLYQS_18
个近邻元素;
选取所述核心样本点的
Figure QLYQS_19
个近邻元素构成
Figure QLYQS_20
近邻集合
Figure QLYQS_21
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中包含所述核心样本点,则认为该少数类样本为所述核心样本点的逆
Figure QLYQS_22
近邻元素,所述逆
Figure QLYQS_23
近邻元素组成逆
Figure QLYQS_24
近邻集合
Figure QLYQS_25
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中不包含所述核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
求取所述
Figure QLYQS_26
近邻集合
Figure QLYQS_27
与所述逆
Figure QLYQS_28
近邻集合
Figure QLYQS_29
的交集;
若所述交集为空集,则重新定义
Figure QLYQS_30
的值,重复选取所述核心样本点的
Figure QLYQS_31
近邻集合和逆
Figure QLYQS_32
近邻集合;
若所述交集为非空集,则自然最近邻集合为
Figure QLYQS_33
,并重新定义
Figure QLYQS_34
的值,重复求取自然最近邻集合
Figure QLYQS_35
直至所述核心样本点的逆
Figure QLYQS_36
近邻集合不发生改变,得到每个所述核心样本点的自然最近邻集合以及每个所述自然最近邻集合对应的自然最近邻域。
4.根据权利要求3所述的类不平衡数据过采样方法,其特征在于,计算所述多数类样本在每个所述自然最近邻集合中所占的比例,表达式为:
Figure QLYQS_37
其中,
Figure QLYQS_38
表示多数类样本在第
Figure QLYQS_39
个自然最近邻集合中所占的比例,
Figure QLYQS_40
为第
Figure QLYQS_41
个自然最近邻集合中多数类样本的数量,
Figure QLYQS_42
表示核心样本点的近邻元素的数量。
5.根据权利要求4所述的类不平衡数据过采样方法,其特征在于,所述步骤4包括:
根据所述多数类样本在每个所述自然最近邻集合中所占的比例;
Figure QLYQS_43
Figure QLYQS_44
Figure QLYQS_45
Figure QLYQS_46
Figure QLYQS_47
Figure QLYQS_48
其中,
Figure QLYQS_49
为核心样本点的样本生成控制权重,
Figure QLYQS_50
为控制参数,
Figure QLYQS_51
根据所述样本生成控制权重
Figure QLYQS_52
,确定每个所述核心样本点在所述不平衡数据集中的空间分布情况。
6.根据权利要求5所述的类不平衡数据过采样方法,其特征在于,在所述自然最近邻域中生成的新样本的数量权重
Figure QLYQS_53
为:
Figure QLYQS_54
其中,
Figure QLYQS_55
为核心样本点的样本生成控制权重,
Figure QLYQS_56
表示
Figure QLYQS_57
个自然最近邻域中核心样本点的样本生成控制权重之和。
7.根据权利要求6所述的类不平衡数据过采样方法,其特征在于,在所述自然最近邻域生成的新样本的位置权重为:
Figure QLYQS_58
其中,
Figure QLYQS_59
为核心样本点的样本生成控制权重,
Figure QLYQS_60
表示
Figure QLYQS_61
个自然最近邻域中核心样本点的样本生成控制权重之和。
8.根据权利要求7所述的类不平衡数据过采样方法,其特征在于,所述步骤7包括:
确定所述不平衡数据集中所需生成新样本的数量,表达式为:
Figure QLYQS_62
其中,
Figure QLYQS_63
为平衡参数,用于控制新样本的数量,
Figure QLYQS_64
计算每个所述自然最近邻域中所需生成新样本的数量,表达式为:
Figure QLYQS_65
分别针对每个所述自然最近邻域,根据区域样本生成公式生成
Figure QLYQS_66
个新样本的样本特征,所述区域样本生成公式为:
Figure QLYQS_67
其中,
Figure QLYQS_68
表示以核心样本点
Figure QLYQS_69
生成的新样本点的第
Figure QLYQS_70
个样本特征,
Figure QLYQS_71
表示核心样本点与自然最近邻域中其他样本点的样本特征差值,
Figure QLYQS_72
为随机数,取值范围为[0,1];
根据每个所述自然最近邻域中生成的新样本的样本特征,得到新样本为
Figure QLYQS_73
,新样本
Figure QLYQS_74
Figure QLYQS_75
个样本特征构成;
Figure QLYQS_76
个新样本进行组合,得到新样本集为
Figure QLYQS_77
将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的类不平衡数据过采样方法。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的类不平衡数据过采样方法。
CN202310397766.7A 2023-04-14 2023-04-14 一种类不平衡数据过采样方法及相关设备 Active CN116108387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310397766.7A CN116108387B (zh) 2023-04-14 2023-04-14 一种类不平衡数据过采样方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310397766.7A CN116108387B (zh) 2023-04-14 2023-04-14 一种类不平衡数据过采样方法及相关设备

Publications (2)

Publication Number Publication Date
CN116108387A true CN116108387A (zh) 2023-05-12
CN116108387B CN116108387B (zh) 2023-07-04

Family

ID=86264176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310397766.7A Active CN116108387B (zh) 2023-04-14 2023-04-14 一种类不平衡数据过采样方法及相关设备

Country Status (1)

Country Link
CN (1) CN116108387B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868775A (zh) * 2016-03-23 2016-08-17 深圳市颐通科技有限公司 基于pso算法的不平衡样本分类方法
CN110275910A (zh) * 2019-06-20 2019-09-24 东北大学 一种不平衡数据集的过采样方法
CN112633426A (zh) * 2021-03-11 2021-04-09 腾讯科技(深圳)有限公司 处理数据类别不均衡的方法、装置、电子设备及存储介质
KR20220007470A (ko) * 2020-07-10 2022-01-18 박수환 위치정보 분석 및 머신러닝 기법을 활용한 모바일 이상거래 탐지 장치 및 그 동작 방법
CN114862404A (zh) * 2022-05-05 2022-08-05 湖北工业大学 基于聚类样本与极限梯度的信用卡欺诈检测方法及设备
US20220383322A1 (en) * 2021-05-30 2022-12-01 Actimize Ltd. Clustering-based data selection for optimization of risk predictive machine learning models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868775A (zh) * 2016-03-23 2016-08-17 深圳市颐通科技有限公司 基于pso算法的不平衡样本分类方法
CN110275910A (zh) * 2019-06-20 2019-09-24 东北大学 一种不平衡数据集的过采样方法
KR20220007470A (ko) * 2020-07-10 2022-01-18 박수환 위치정보 분석 및 머신러닝 기법을 활용한 모바일 이상거래 탐지 장치 및 그 동작 방법
CN112633426A (zh) * 2021-03-11 2021-04-09 腾讯科技(深圳)有限公司 处理数据类别不均衡的方法、装置、电子设备及存储介质
US20220383322A1 (en) * 2021-05-30 2022-12-01 Actimize Ltd. Clustering-based data selection for optimization of risk predictive machine learning models
CN114862404A (zh) * 2022-05-05 2022-08-05 湖北工业大学 基于聚类样本与极限梯度的信用卡欺诈检测方法及设备

Also Published As

Publication number Publication date
CN116108387B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US9953160B2 (en) Applying multi-level clustering at scale to unlabeled data for anomaly detection and security
WO2019149059A1 (zh) 确定业务对应的决策策略的方法、装置和电子设备
CN105389488B (zh) 身份认证方法及装置
US20190035015A1 (en) Method and apparatus for obtaining a stable credit score
CN106355391A (zh) 一种业务处理方法及装置
US20230035570A1 (en) Authenticating Based On User Behavioral Transaction Patterns
CN110717758B (zh) 异常交易识别方法和装置
CN109598414A (zh) 风险评估模型训练、风险评估方法、装置及电子设备
CN111090780A (zh) 可疑交易信息的确定方法及装置、存储介质、电子设备
CN106850780A (zh) 系统级的应用程序信息推荐方法、装置和移动终端
US20200286091A1 (en) Automated multi-currency refund service
CN111275416A (zh) 数字货币异常交易检测方法、装置、电子设备及介质
CN111582872A (zh) 异常账号检测模型训练、异常账号检测方法、装置及设备
CN116108387B (zh) 一种类不平衡数据过采样方法及相关设备
CN113177609A (zh) 数据类别不均衡的处理方法及设备、系统、存储介质
CN109242515A (zh) 跨平台的异常账号识别方法和装置
CN110796178B (zh) 决策模型训练方法及样本特征选择方法、装置和电子设备
CN111275071A (zh) 预测模型训练、预测方法、装置及电子设备
CN115481300A (zh) 一种基于自然邻域密度的数据不平衡分类过采样方法、装置、设备及介质
CN112446777A (zh) 一种信用评估方法、装置、设备及存储介质
CN108235228B (zh) 一种安全校验方法和装置
CN115601044A (zh) 欺诈检测模型训练、欺诈检测方法、装置及电子设备
CN112488825B (zh) 基于区块链的对象交易方法及装置
CN113988670A (zh) 综合性企业信用风险预警方法及系统
CN111860655A (zh) 用户的处理方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant