CN114298176A - 一种欺诈用户检测方法、装置、介质及电子设备 - Google Patents

一种欺诈用户检测方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN114298176A
CN114298176A CN202111541029.7A CN202111541029A CN114298176A CN 114298176 A CN114298176 A CN 114298176A CN 202111541029 A CN202111541029 A CN 202111541029A CN 114298176 A CN114298176 A CN 114298176A
Authority
CN
China
Prior art keywords
sample
cost
samples
model
isolated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111541029.7A
Other languages
English (en)
Inventor
张程
丁一
刘慧君
原佳琪
陈柯芯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202111541029.7A priority Critical patent/CN114298176A/zh
Publication of CN114298176A publication Critical patent/CN114298176A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种欺诈用户检测方法、装置、介质及电子设备,该方法包括:获取数据集,提取数据特征,数据集中包括用户的多维特征信息以及样本标签;基于数据集进行数据分类;根据数据集,利用代价敏感随机森林算法结合孤立森林模型进行标签样本扩充、模型训练,构建欺诈用户检测模型,利用训练所得的欺诈用户检测模型对用户进行检测,并输出检测结果。本发明代价敏感随机森林算法结合孤立森林模型对无标签样本进行预测并赋予其伪标签,将其加入有标签样本集,并利用结合孤立森林的代价敏感随机森林自训练半监督欺诈用户检测模型对用户进行检测,从而从根源上解决了现有的欺诈检测领域样本极度不均衡、数据标注难度高导致欺诈检测准确率低的问题。

Description

一种欺诈用户检测方法、装置、介质及电子设备
技术领域
本发明属于人工智能技术领域,具体涉及一种欺诈用户检测方法、装置、 介质及电子设备。
背景技术
如今,精准识别欺诈用户可以在一定程度上降低风险。目前最为常见的 欺诈检测模型,是通过机器学习方法,将用户各个维度的数据和特征,与欺诈 建立起关联关系,并识别出是否为欺诈用户。在实际业务中,常见的反欺诈手 段主要包括了黑名单法、反欺诈规则系统和机器学习技术反欺诈方法,其中机 器学习技术较为常用。常见的机器学习欺诈检测模型包括有监督、无监督两种。
对于有监督模型应用领域,其基本思路是通过对历史上出现的欺诈行为 进行标记,利用逻辑回归、决策树等机器学习算法,在海量的用户行为特征、 标签中进行分类,发现欺诈行为所共有的用户行为特征,并通过概率、分数等 方式输出。有监督模型算法多样且效果良好,但在实际应用中存在数据集难以 标记且难以分辨未知的欺诈行为等问题,及时性较差,标注和调优成本高昂。 而对于无监督模型领域,数据标注成本较有监督模型低且对于未知欺诈手段也 有分辨能力。但迄今为止,尚未出现较为成熟和经过实践验证的无监督学习解 决方案,无监督学习对于数据的广度、深度都有着极其高的要求。
现有的欺诈检测技术中,目前存在问题有在欺诈检测领域常见的数据集仅 包含少量有标签样本,其余大量样本均为无标签样本,数据的标注难度高,导 致欺诈检测准确度不高。
因此,如何克服欺诈检测领域中数据集仅包含少量有标签样本,数据的标 注难度高,提高欺诈检测的准确性和稳定性,是本领域亟待解决的问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种欺诈用户检测方法、装 置、介质及电子设备。本发明通过代价敏感随机森林算法结合孤立森林模型对 无标签样本进行预测并赋予其伪标签,将其加入有标签样本集,增加了训练集 中的高质量样本数量;同时,利用扩充后的有标签样本集训练代价敏感随机森 林算法,得到欺诈用户检测模型,利用所述欺诈用户检测模型对用户进行检测, 提高了欺诈检测的准确性和稳定性,从而从根源上解决了现有的欺诈检测领域 样本极度不均衡,数据集仅包含少量有标签样本,数据的标注难度高导致的欺 诈检测准确率低的问题。
为了实现以上目的,本发明采用以下技术方案:
本发明提出一种欺诈用户检测方法,其特征在于,包括步骤:
S1、获取数据集,提取数据特征;其中,所述数据集中包括用户样本的多 维特征信息以及样本标签,所述特征信息包括用户基本信息、交易信息、收入 情况、征信信息;
S2、基于所述数据集进行数据分类,具体包括:将获得数据按照预设比例 划分为有标签样本集和无标签样本集,再按照预设比例将有标签样本集划分为 训练集与测试集;
S3、根据所述数据集,利用代价敏感随机森林算法和孤立森林模型进行标 签样本扩充、模型训练,构建欺诈用户检测模型,具体包括:
S31、利用有标签样本集训练代价敏感随机森林算法,得到欺诈用户检测 模型;
S32、分别使用所述欺诈用户检测模型和孤立森林模型对无标签样本进行 检测;
S33、选取所述欺诈用户检测模型和所述孤立森林模型的检测结果一致的 样本,并将检测输出的类别作为所述样本的伪标签,将置信度高的所述样本加 入所述有标签样本集;
S34、重复步骤S31-S33,直至无法筛选出符合条件的样本时停止迭代;
S4、利用步骤S3训练所得的所述欺诈用户检测模型对用户进行检测,并 输出检测结果。
进一步地,步骤S1包括:所述数据集为D={(x1,y1),(x2,y2)...(xn,yn)},其
Figure BDA0003414309390000021
n表示样本数据集数量,其中xi代表第i个样 本,共d个特征;yi代表样本对应的标签,0代表正常样本,1代表欺诈样本, 其中欺诈样本数量为Tnum,正常样本数量为Fnum。
进一步地,所述孤立森林模型的构建步骤包括:
(1)数据集为X={x1,x2,x3...xn},每个样本xi都有d个特征,xij为第i个样 本的第j个特征值,随机抽取s个样本作为数据子集X'放入树的根节点;
(2)从d个特征中随机抽取一个特征q,在当前q中随机选取一个切割 点p,p的取值范围为min(xij,j=q,xij∈X′)<p<max(xij,j=q,xij∈X′);
(3)以切割点p形成一个超平面,将数据集切割成为为两个数据子空间, 特征q的值小于p的样本被放到当前节点的左子节点Nl,大于p的样本被放 到当前节点的右子节点Nr;
(4)在子节点中递归(2)、(3),不断构造新的子树节点,直到所有 叶子节点都只有一个样本或者iTree已经达到最大高度,可生成一棵完整的孤 立树;
(5)迭代(1)~(4)步骤,得到多棵孤立树,生成孤立森林。
进一步地,所述步骤S32中,使用孤立森林模型对无标签样本进行检测包 括:
利用生成的孤立森林的孤立分数对无标签样本进行评估,令每个样本x 都有其孤立分数,计算公式如下:
Figure RE-GDA0003529742250000031
其中h(x)代表样本x从iTree的根节点到叶子节点所经过的边的数目; E(h(x))代表样本x在所有iTree中h(x)的平均值;c(s)为给定包含s个样本子集 时iTree的平均路径长度,用来对h(x)做标准化处理,其计算公式如下:
Figure BDA0003414309390000032
H(i)为调和数,被估计为ln(i)+0.5772156649;
当样本在所有iTree中h(x)的平均值E(h(x))远小于c(s)时,判断为异 欺诈用户,反之,判断为正常用户。
进一步地,所述步骤S31具体包括:
(1)使用代价矩阵来表示分类错误时所需付出的代价,代价矩阵中的C(1,0) 代表将真实类别为1的欺诈样本误分为正常样本所产生的代价,C(0,1)代表将 真实类别为0的正常样本误分为欺诈样本所产生的代价;
(2)根据数据集实际情况设定计算代价,计算公式为:
Figure BDA0003414309390000041
(3)计算误分类代价:
代价矩阵被确定后,利用贝叶斯定理,构造风险代价函数,其公式如下:
R(i∣x)=∑P(j∣x)C(i,j) (1.4)
其中,P(j∣x)代表把样本x分类为类别j的后验概率;
代价敏感算法是以最小误分类代价为目标,Total Cost计算公式如下:
Total Cost=C(1,0)×N(1,0)+C(0,1)×N(0,1) (1.5)
其中,N(1,0)是欺诈样本被误分为正常样本的数量,N(0,1)是正常样本被 误分为欺诈样本的数量。
(4)根据误分类代价选择特征,构建欺诈用户检测模型:
首先,选择特征A作为分裂特征进行分裂后与未分裂之前误分类代价的差 值被作为代价下降值,分裂后的代价计算公式如下:
Figure BDA0003414309390000042
其中N1、N2、N分别代表了分裂后左子树的样本数量、右子树的样本 数量、所有的样本数量,Mc1,Mc2分别代表了整个左子树的代价值、整个 右子树的代价值;
其次、计算代价下降值为未分裂前代价减轻分裂后代价,计算公式如下:
Figure BDA0003414309390000043
进一步地,所述步骤S32中,使用所述欺诈用户检测模型对无标签样本进 行检测包括:利用所述欺诈用户检测模型预测无标签样本集,得到各样本类别 和判断正确可信度分数,选取概率较大的类别作为预测的类别,并将其概率分 数作为判断正确可信度分数P-CSRF(x),P-CSRF≥0.5;
使用孤立森林模型对无标签样本进行检测包括:使用孤立森林模型对样本 类别判断完成后得到其判断正确可信度分数P-IF(x),其中,孤立分数小于等 于0.5的样本,使用1减去孤立分数I(x)得到P-IF(x),孤立分数大于0.5的样 本,孤立分数即为P-IF(x)。
进一步地,所述步骤S33包括:
获取所述欺诈用户检测模型判断正确可信度分数P-CSRF(x),以及所述孤 立森林模型判断正确可信度分数P-IF(x);
根据P-CSRF(x)和P-IF(x)计算其伪标签的置信度分数P(x),计算公式如 下:
P(x)=θ×P-CSRF(x)+(1-θ)×P-IF(x) (1.8)
其中θ为平衡因子,取值为[0,1];
利用P(x)值二次筛选,剔除置信度分数P(x)较小的样本,并以最大数 量按照有标签样本中样本分布比例选取正负样本,将筛选通过的样本从无 标签样本集中剔除,加入有标签样本集。
本发明还提出一种欺诈用户检测装置,其特征在于,包括步骤:
数据获取模块,获取数据集,提取数据特征;其中,所述数据集中包括用 户样本的多维特征信息以及样本标签,所述特征信息包括用户基本信息、交易 信息、收入情况、征信信息;
数据分类模块,基于所述数据集进行数据分类,具体包括:将获得数据按 照预设比例划分为有标签样本集和无标签样本集,再按照预设比例将有标签样 本集划分为训练集与测试集;
标签样本扩充和模型训练模块,根据所述数据集,利用代价敏感随机森林 算法和孤立森林模型进行标签样本扩充、模型训练,构建欺诈用户检测模型, 具体包括:
(1)利用有标签样本集训练代价敏感随机森林算法,得到欺诈用户检测 模型;
(2)分别使用所述欺诈用户检测模型和孤立森林模型对无标签样本进行 检测;
(3)选取所述欺诈用户检测模型和所述孤立森林模型的检测结果一致的 样本,并将检测输出的类别作为所述样本的伪标签,将置信度高的所述样本加 入所述有标签样本集;
(4)重复步骤(1)-(4),直至无法筛选出符合条件的样本时停止迭代;
用户检测模块,利用所述标签样本扩充和模型训练模块训练所得的欺诈用 户检测模型对用户进行检测,并输出检测结果。
本发明还提出一种计算机设备,所述设备包括存储器及处理器,所述存储 器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提出一种存储介质,其特征在于,所述存储介质存储有计算机程 序,所述计算机程序被处理器执行时可实现上述的方法。
本发明公开的一种欺诈用户检测方法、装置、介质及电子设备,与现有技 术相比,具有如下优点:
1、本发明的欺诈用户检测方法基于大数据分析,通过结合孤立森林的代 价敏感随机森林自训练半监督欺诈用户检测模型对用户进行检测,实现对有标 签样本和无标签样本的充分使用,提高了欺诈检测的准确性和稳定性。
2、本发明通过代价敏感随机森林算法结合孤立森林模型对无标签样本进 行预测并赋予其伪标签,将其加入有标签样本集,增加了训练集中的高质量样 本数量,改善了使用代价敏感随机森林算法作为基分类器时,由于样本极度不 均衡导致的训练效果不佳、数据的标注难度高的问题。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要 使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实 施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
图1为本发明实施例提供的欺诈用户检测方法流程示意图;
图2为本发明实施例提供的欺诈用户识别模型训练阶段结构图。
图3为本发明实施例提供的孤立森林算法实现过程图。
图4本发明实施例提供的欺诈用户检测装置示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全 部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性 劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包 含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排 除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在 或添加。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的 限定。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实 施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所 使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一 个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和 /或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并 且包括这些组合。
本发明一种欺诈用户检测方法,如图1所示,包括如下步骤S1-S4:
S1、获取数据集,提取数据特征;其中,所述数据集中包括用户样本的多 维特征信息以及样本标签,所述特征信息包括用户基本信息、交易信息、收入 情况、征信信息。
具体地,步骤S1包括:所述数据集为D={(x1,y1),(x2,y2)...(xn,yn)},其
Figure BDA0003414309390000071
n表示样本数据集数量,其中xi代表第i个样 本,共d个特征;yi代表样本对应的标签,0代表正常样本,1代表欺诈样本, 其中欺诈样本数量为Tnum,正常样本数量为Fnum。
所述用户基本信息包括以下至少一种信息:姓名、年龄、性别、身份证号、 职业、婚姻状况、手机号、银行卡号。所述交易信息包括以下至少一种信息: 消费、转账记录;所述征信信息包括以下至少一种信息历史借贷信息、历史逾 期次数。
进一步地,所述特征信息还包括用户使用的终端信息;所述用户使用的终 端信息包括以下至少一种信息:终端的型号、类型等。
具体地,步骤S1还包括对数据进行脱敏处理,以保护用户信息。
S2、基于所述数据集进行数据分类,具体包括:将获得数据按照预设比例 划分为有标签样本集和无标签样本集,再按照预设比例将有标签样本集划分为 训练集与测试集;
在一实施例中,按照数据集中正负样本的比例随机抽取数据集中70%的样 本作为无标签样本集,30%的样本作为有标签样本集。再将有标签样本集中 20%的样本作为测试集,剩下的80%的样本作为训练集。
S3、根据所述数据集,利用代价敏感随机森林算法和孤立森林模型进行标 签样本扩充、模型训练,构建欺诈用户检测模型,欺诈用户检测模型训练阶段 架构图如图2所示,具体包括:
S31、利用有标签样本集训练代价敏感随机森林算法,得到欺诈用户检测 模型。
具体地,代价敏感算法通常使用代价矩阵来表示分类错误时所需付出的代 价。代价矩阵在二分类问题下是一个2×2的矩阵,矩阵中的每个值都代表了 样本在不同分类情况下所产生的代价。如表1所示,C(1,0)代表将真实类别为 1的欺诈样本误分为正常样本所产生的代价,C(0,1)代表将真实类别为0的正 常样本误分为欺诈样本所产生的代价。
表1代价矩阵
Figure BDA0003414309390000081
很明显在真实业务场景中,C(0,1)<<C(1,0),C(0,0)=C(1,1)=0。通常C(1,0)与C(0,1)的代价比例由数据不均衡的比例决定。根据数据集实际情况设定 C(1,0)=581,C(0,1)=1,计算公式如式1.1所示。
Figure BDA0003414309390000082
代价矩阵被确定后,利用贝叶斯定理,构造风险代价函数,其公式如下:
R(i∣x)=∑P(j∣x)C(i,j) (1.2)
为了使分类代价最小化,P(j∣x)代表把样本x分类为类别j的后验概率。 如果想使得样本x有最小的分类代价,如下方公式:
Figure BDA0003414309390000091
代价敏感算法是以最小误分类代价为目标,Total Cost计算公式如下:
Total Cost=C(1,0)×N(1,0)+C(0,1)×N(0,1) (1.4)
其中N(1,0)是欺诈样本被误分为正常样本的数量,N(0,1)是正常样本被误 分为欺诈样本的数量。
在基分类器的构造过程中,代价敏感随机森林构建子分类器的过程与随机 森林算法一致,但是其根据误分类的代价选择特征。选择特征A作为分裂特征 进行分裂后与未分裂之前误分类代价的差值被叫做代价下降值,其计算公式如 下:
Figure BDA0003414309390000092
Rec代表代价下降值,Mc代表未分裂前的代价。
Figure BDA0003414309390000093
N1、N2、N分别代表了分裂后左子树的样本数量、右子树的样本数量、 所有的样本数量,Mc1,Mc2分别代表了整个左子树的代价值、整个右子树的 代价值。
以有标签样本集L训练代价敏感随机森林算法,得到欺诈用户检测模型。
S32、分别使用所述欺诈用户检测模型和孤立森林模型对无标签样本进行 检测;
具体地,孤立森林实现过程如图3所示,具体步骤包括:
(1)数据集为X={x1,x2,x3...xn},每个样本xi都有d个特征,xij为第i个样 本的第j个特征值,随机抽取s个样本作为数据子集X'放入树的根节点;
(2)从d个特征中随机抽取一个特征q,在当前q中随机选取一个切割 点p,p的取值范围为min(xij,j=q,xij∈X′)<p<max(xij,j=q,xij∈X′);
(3)以切割点p形成一个超平面,将数据集切割成为为两个数据子空间, 特征q的值小于p的样本被放到当前节点的左子节点Nl,大于p的样本被放 到当前节点的右子节点Nr;
(4)在子节点中递归(2)、(3),不断构造新的子树节点,直到所有 叶子节点都只有一个样本或者iTree已经达到最大高度,可生成一棵完整的孤 立树;
(5)迭代(1)~(4)步骤,得到多棵孤立树,生成孤立森林。
进一步地,生成孤立森林后,就可以用其孤立分数来对样本进行评估。每 个样本x都有其孤立分数I(x),计算公式如下:
Figure BDA0003414309390000101
其中h(x)代表样本x从iTree的根节点到叶子节点所经过的边的数目。 E(h(x))代表样本x在所有iTree中h(x)的平均值。c(s)为给定包含s个样本子集 时iTree的平均路径长度,用来对h(x)做标准化处理,其计算公式如下:
Figure BDA0003414309390000102
H(i)为调和数,被估计为ln(i)+0.5772156649。
从孤立分数I(x)的计算公式可得出以下结论:
当样本在所有iTree中h(x)的平均值E(h(x))远小于c(s)时,I(x)→1,该样 本是异常样本的可能性较大。
当样本在所有iTree中h(x)的平均值E(h(x))远大于c(s)时,I(x)→0,该样 本是正常样本的可能性较大。
即可得到如下结论:当样本在所有iTree中h(x)的平均值E(h(x))远小于c(s) 时,判断为异欺诈用户,反之,判断为正常用户。
进步一地,使用欺诈用户检测模型和孤立森林模型对无标签样本进行检测 还包括:
使用代价敏感随机森林算法训练得到的欺诈用户检测模型预测无标签样 本集U,得到各样本类别和判断正确可信度分数P-CSRF(x)。欺诈用户检测模 型分别输出某样本属于某一类别的概率,在二分类问题中,将分别输出样本属 于欺诈样本和正常样本的概率,这两个概率值加和等于1。取概率较大的类别 作为预测的类别,并将其概率分数作为判断正确可信度分数P-CSRF(x), P-CSRF≥0.5。例:某样本预测为1的概率为0.6,预测为0的概率为0.4。则 该样本预测类别为1,其判断正确可信度分数P-CSRF(x)为0.6。
使用孤立森林算法对样本类别判断完成后得到其判断正确可信度分数 P-IF(x),孤立分数小于等于0.5的样本,使用1减去孤立分数I(x)得到P-IF(x)。 孤立分数大于0.5的样本,孤立分数即为P-IF(x)。例:某样本孤立分数I(x)为 0.2,判断该样本为正常样本,样本为正常样本的可信度分数P-IF(x)为0.8。若 某样本孤立分数I(x)为0.9,判断该样本为欺诈样本,P-IF(x)为0.9。
S33、选取所述欺诈用户检测模型和所述孤立森林模型的检测结果一致的 样本,并将检测输出的类别作为所述样本的伪标签,将置信度高的所述样本加 入所述有标签样本集;
进一步地,获取欺诈用户检测模型判断正确可信度分数P-CSRF(x),以及 所述孤立森林模型判断正确可信度分数P-IF(x);
根据P-CSRF(x)和P-IF(x)计算其伪标签的置信度分数P(x),计算公式如 下:
P(x)=θ×P-CSRF(x)+(1-θ)×P-IF(x) (1.9)
其中θ为平衡因子,取值为[0,1];
利用P(x)值二次筛选,剔除置信度分数P(x)较小的样本,并以最大数量按 照有标签样本中样本分布比例选取正负样本,将筛选通过的样本从无标签样本 集中剔除,加入有标签样本集。
S34、重复步骤S31-S33,直至无法筛选出符合条件的样本时停止迭代, 模型训练过程结束。
S4、利用步骤S3训练所得的所述欺诈用户检测模型对用户进行检测,并 输出检测结果。
具体地,可以获取需要检测的用户的多维特征信息,将需检测的用户的 多维特征信息输入训练好的欺诈用户检测模型(CSRF-IF模型),模型输出则 为该用户的识别结果,识别结果可以为该用户为欺诈用户的概率,根据该概率 判断该用户是否为欺诈用户,例如该概率大于预设的概率阈值,若大于,则认 为该用户为欺诈用户。
在一实施例中,选取数据集来源于德国某信用卡公司公布的欧洲公民两 天内产生的信用卡交易数据,可被用于消费金融欺诈检测问题的研究,该数据 记录了每个用户31个特征值,确立了用户标识信息,提供了对应用户账户是 否异常的标识,共有284807个样本,其中有492个欺诈样本,欺诈样本所占 比例约为0.172%。
数据集的具体信息可知,欺诈样本所占比例极少,样本极度不均衡,所 以,按照数据集中正负样本的比例随机抽取数据集中70%的样本作为无标签样 本集,30%的样本作为有标签样本集。再将中20%的样本作为测试集,剩下 的80%的样本作为训练集。最终得到68355个训练集样本,17088个测试集样 本,199364个无标签样本,其中有标签样本集和无标签样本集中正负样本比 例均约等于0.172%。
根据上述数据集,利用代价敏感随机森林算法和孤立森林模型进行标签样 本扩充、模型训练,构建欺诈用户检测模型(CSRF-IF模型),具体包括:
S31、利用有标签样本集训练代价敏感随机森林算法,得到欺诈用户检测 模型;
S32、分别使用所述欺诈用户检测模型和孤立森林模型对无标签样本进行 检测;
S33、选取所述欺诈用户检测模型和所述孤立森林模型的检测结果一致的 样本,并将检测输出的类别作为所述样本的伪标签,将置信度高的所述样本加 入所述有标签样本集;
S34、重复步骤S31-S33,直至无法筛选出符合条件的样本时停止迭代;
利用训练所得的所述欺诈用户检测模型(CSRF-IF模型)对用户进行检测, 并输出检测结果。
本实施例中,同时使用上述的来源于德国某信用卡公司公布的欧洲公民 两天内产生的信用卡交易数据的数据集,对常见的有监督和无监督模型进行测 试,其中DT(决策树)、RF(随机森林)、CSRF(代价敏感随机森林)仅使 用有标签样本集训练模型,IF(孤立森林)无模型训练过程直接输出测试集检 测结果,Self-Training(自训练)使用代价敏感随机森林作为基分类器同时 使用无标签及有标签样本训练模型。
通过将本发明的CSRF-IF模型与经典的有监督、半监督、无监督模型进 行横向对比,结果显示如表2所示:
表2检测结果总览
Figure BDA0003414309390000131
在数据集中有大量的无标签样本和少量的有标签样本同时存在的情况 下,单纯使用有监督或无监督模型均不能达到最优的效果,半监督模型通过扩 展有标签训练集,能使模型获得更好的性能。从表2可以看出,CSRF-IF模型 在不同指标中均能获得较好的结果。
图4是本发明实施例提供的一种欺诈用户检测装置的示意性框图。如图4 所示,该欺诈用户检测装置包括数据获取模块、数据分类模块、标签样本扩充 和模型训练模块、用户检测模块。具体包括:
数据获取模块,获取数据集,提取数据特征;其中,所述数据集中包括用 户样本的多维特征信息以及样本标签,所述特征信息包括用户基本信息、交易 信息、收入情况、征信信息;
数据分类模块,基于所述数据集进行数据分类,具体包括:将获得数据按 照预设比例划分为有标签样本集和无标签样本集,再按照预设比例将有标签样 本集划分为训练集与测试集;
标签样本扩充和模型训练模块,根据所述数据集,利用代价敏感随机森林 算法和孤立森林模型进行标签样本扩充、模型训练,构建欺诈用户检测模型, 具体包括:
(1)利用有标签样本集训练代价敏感随机森林算法,得到欺诈用户检测 模型;
(2)分别使用所述欺诈用户检测模型和孤立森林模型对无标签样本进行 检测;
(3)选取所述欺诈用户检测模型和所述孤立森林模型的检测结果一致的 样本,并将检测输出的类别作为所述样本的伪标签,将置信度高的所述样本加 入所述有标签样本集;
(4)重复步骤(1)-(4),直至无法筛选出符合条件的样本时停止迭代;
用户检测模块,利用所述标签样本扩充和模型训练模块训练所得的欺诈用 户检测模型对用户进行检测,并输出检测结果。
上述欺诈用户检测装置可以实现为一种计算机程序的形式,该计算机程 序可以在计算机设备上运行。
该计算机设备可以是服务器,其中,服务器可以是独立的服务器,也可 以是多个服务器组成的服务器集群。
计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中, 存储器可以包括非易失性存储介质和内存储器。
该非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括 程序指令,该程序指令被执行时,可使得处理器执行一种欺诈用户检测方法。
该处理器用于提供计算和控制能力,以支撑整个计算机设备的运行。
该内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计 算机程序被处理器执行时,可使得处理器执行一种欺诈用户检测方法。
该网络接口用于与其它设备进行网络通信。本领域技术人员可以理解, 上述计算机设备结构仅仅是与本申请方案相关的部分结构,并不构成对本申请 方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所 示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器用于运行存储在存储器中的计算机程序,该程序实现 实施例一所述的欺诈用户检测。
应当理解,在本申请实施例中,处理器可以是中央处理单元(Central ProcessingUnit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或 者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中, 通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部 分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括 程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储 介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法 的实施例的流程步骤。
本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。 该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执 行实施例一所述的一种基于欺诈用户检测方法。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各 示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现, 为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地 描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决 于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用 来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范 围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法, 可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。 例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的 划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些 特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删 减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另 外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以 是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本 质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以 软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等) 执行本发明各个实施例所述方法的全部或部分步骤。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人 员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够 进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此, 虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于 以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种欺诈用户检测方法,其特征在于,包括步骤:
S1、获取数据集,提取数据特征;其中,所述数据集中包括用户样本的多维特征信息以及样本标签,所述特征信息包括用户基本信息、交易信息、收入情况、征信信息;
S2、基于所述数据集进行数据分类,具体包括:将获得数据按照预设比例划分为有标签样本集和无标签样本集,再按照预设比例将有标签样本集划分为训练集与测试集;
S3、根据所述数据集,利用代价敏感随机森林算法和孤立森林模型进行标签样本扩充、模型训练,构建欺诈用户检测模型,具体包括:
S31、利用有标签样本集训练代价敏感随机森林算法,得到欺诈用户检测模型;
S32、分别使用所述欺诈用户检测模型和孤立森林模型对无标签样本进行检测;
S33、选取所述欺诈用户检测模型和所述孤立森林模型的检测结果一致的样本,并将检测输出的类别作为所述样本的伪标签,将置信度高的所述样本加入所述有标签样本集;
S34、重复步骤S31-S33,直至无法筛选出符合条件的样本时停止迭代;S4、利用步骤S3训练所得的所述欺诈用户检测模型对用户进行检测,并输出检测结果。
2.根据权利要求1所述的方法,其特征在于,步骤S1包括:所述数据集为D={(x1,y1),(x2,y2)...(xn,yn)},其
Figure FDA0003414309380000011
n表示样本数据集数量,其中xi代表第i个样本,共d个特征;yi代表样本对应的标签,0代表正常样本,1代表欺诈样本,其中欺诈样本数量为Tnum,正常样本数量为Fnum。
3.根据权利要求1所述的方法,其特征在于,所述孤立森林模型的构建步骤包括:
(1)数据集为X={x1,x2,x3...xn},每个样本xi都有d个特征,xij为第i个样本的第j个特征值,随机抽取s个样本作为数据子集X'放入树的根节点;
(2)从d个特征中随机抽取一个特征q,在当前q中随机选取一个切割点p,p的取值范围为min(xij,j=q,xij∈X′)<p<max(xij,j=q,xij∈X′);
(3)以切割点p形成一个超平面,将数据集切割成为为两个数据子空间,特征q的值小于p的样本被放到当前节点的左子节点Nl,大于p的样本被放到当前节点的右子节点Nr;
(4)在子节点中递归(2)、(3),不断构造新的子树节点,直到所有叶子节点都只有一个样本或者iTree已经达到最大高度,可生成一棵完整的孤立树;
(5)迭代(1)~(4)步骤,得到多棵孤立树,生成孤立森林。
4.根据权利要求1所述的方法,其特征在于,所述步骤S32中,使用孤立森林模型对无标签样本进行检测包括:
利用生成的孤立森林的孤立分数对无标签样本进行评估,令每个样本x都有其孤立分数,计算公式如下:
Figure RE-FDA0003529742240000021
其中h(x)代表样本x从iTree的根节点到叶子节点所经过的边的数目;E(h(x))代表样本x在所有iTree中h(x)的平均值;c(s)为给定包含s个样本子集时iTree的平均路径长度,用来对h(x)做标准化处理,其计算公式如下:
Figure RE-FDA0003529742240000022
H(i)为调和数,被估计为ln(i)+0.5772156649;
当样本在所有iTree中h(x)的平均值E(h(x))远小于c(s)时,判断为异欺诈用户,反之,判断为正常用户。
5.根据权利要求1所述的方法,其特征在于,所述步骤S31具体包括:
(1)使用代价矩阵来表示分类错误时所需付出的代价,代价矩阵中的C(1,0)代表将真实类别为1的欺诈样本误分为正常样本所产生的代价,C(0,1)代表将真实类别为0的正常样本误分为欺诈样本所产生的代价;
(2)根据数据集实际情况设定计算代价,计算公式为:
Figure FDA0003414309380000023
(3)计算误分类代价:
代价矩阵被确定后,利用贝叶斯定理,构造风险代价函数,其公式如下:
R(i∣x)=∑P(j∣x)C(i,j) (1.4)
其中,P(j∣x)代表把样本x分类为类别j的后验概率;
代价敏感算法是以最小误分类代价为目标,Total Cost计算公式如下:
TotalCost=C(1,0)×N(1,0)+C(0,1)×N(0,1) (1.5)
其中,N(1,0)是欺诈样本被误分为正常样本的数量,N(0,1)是正常样本被误分为欺诈样本的数量。
(4)根据误分类代价选择特征,构建欺诈用户检测模型:
首先,选择特征A作为分裂特征进行分裂后与未分裂之前误分类代价的差值被作为代价下降值,分裂后的代价计算公式如下:
Figure FDA0003414309380000031
其中N1、N2、N分别代表了分裂后左子树的样本数量、右子树的样本数量、所有的样本数量,Mc1,Mc2分别代表了整个左子树的代价值、整个右子树的代价值;
其次、计算代价下降值为未分裂前代价减轻分裂后代价,计算公式如下:
Figure FDA0003414309380000032
6.根据权利要求1所述的方法,其特征在于,所述步骤S32中,
使用所述欺诈用户检测模型对无标签样本进行检测包括:利用所述欺诈用户检测模型预测无标签样本集,得到各样本类别和判断正确可信度分数,选取概率较大的类别作为预测的类别,并将其概率分数作为判断正确可信度分数P-CSRF(x),P-CSRF≥0.5;
使用孤立森林模型对无标签样本进行检测包括:使用孤立森林模型对样本类别判断完成后得到其判断正确可信度分数P-IF(x),其中,孤立分数小于等于0.5的样本,使用1减去孤立分数I(x)得到P-IF(x),孤立分数大于0.5的样本,孤立分数即为P-IF(x)。
7.根据权利要求1所述的方法,其特征在于,所述步骤S33包括:
获取所述欺诈用户检测模型判断正确可信度分数P-CSRF(x),以及所述孤立森林模型判断正确可信度分数P-IF(x);
根据P-CSRF(x)和P-IF(x)计算其伪标签的置信度分数P(x),计算公式如下:
P(x)=θ×P-CSRF(x)+(1-θ)×P-IF(x) (1.8)
其中θ为平衡因子,取值为[0,1];
利用P(x)值二次筛选,剔除置信度分数P(x)较小的样本,并以最大数量按照有标签样本中样本分布比例选取正负样本,将筛选通过的样本从无标签样本集中剔除,加入有标签样本集。
8.一种欺诈用户检测装置,其特征在于,包括步骤:
数据获取模块,获取数据集,提取数据特征;其中,所述数据集中包括用户样本的多维特征信息以及样本标签,所述特征信息包括用户基本信息、交易信息、收入情况、征信信息;
数据分类模块,基于所述数据集进行数据分类,具体包括:将获得数据按照预设比例划分为有标签样本集和无标签样本集,再按照预设比例将有标签样本集划分为训练集与测试集;
标签样本扩充和模型训练模块,根据所述数据集,利用代价敏感随机森林算法和孤立森林模型进行标签样本扩充、模型训练,构建欺诈用户检测模型,具体包括:
(1)利用有标签样本集训练代价敏感随机森林算法,得到欺诈用户检测模型;
(2)分别使用所述欺诈用户检测模型和孤立森林模型对无标签样本进行检测;
(3)选取所述欺诈用户检测模型和所述孤立森林模型的检测结果一致的样本,并将检测输出的类别作为所述样本的伪标签,将置信度高的所述样本加入所述有标签样本集;
(4)重复步骤(1)-(4),直至无法筛选出符合条件的样本时停止迭代;用户检测模块,利用所述标签样本扩充和模型训练模块训练所得的欺诈用户检测模型对用户进行检测,并输出检测结果。
9.一种计算机设备,其特征在于,所述设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
CN202111541029.7A 2021-12-16 2021-12-16 一种欺诈用户检测方法、装置、介质及电子设备 Pending CN114298176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111541029.7A CN114298176A (zh) 2021-12-16 2021-12-16 一种欺诈用户检测方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111541029.7A CN114298176A (zh) 2021-12-16 2021-12-16 一种欺诈用户检测方法、装置、介质及电子设备

Publications (1)

Publication Number Publication Date
CN114298176A true CN114298176A (zh) 2022-04-08

Family

ID=80967632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111541029.7A Pending CN114298176A (zh) 2021-12-16 2021-12-16 一种欺诈用户检测方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN114298176A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861800A (zh) * 2022-05-12 2022-08-05 建信金融科技有限责任公司 模型训练方法、概率确定方法、装置、设备、介质及产品
CN114882472A (zh) * 2022-05-17 2022-08-09 安徽蔚来智驾科技有限公司 一种车位检测方法、计算机可读存储介质及车辆
CN114881775A (zh) * 2022-07-12 2022-08-09 浙江君同智能科技有限责任公司 一种基于半监督集成学习的欺诈检测方法及系统
CN115221011A (zh) * 2022-09-21 2022-10-21 中国电子信息产业集团有限公司 一种数据元件流通调用异常监控方法及装置
CN115329723A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 基于小样本学习的用户圈层挖掘方法、装置、介质及设备
CN115618238A (zh) * 2022-12-14 2023-01-17 湖南工商大学 基于参数偏移修正集成学习的信用卡欺诈检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861800A (zh) * 2022-05-12 2022-08-05 建信金融科技有限责任公司 模型训练方法、概率确定方法、装置、设备、介质及产品
CN114882472A (zh) * 2022-05-17 2022-08-09 安徽蔚来智驾科技有限公司 一种车位检测方法、计算机可读存储介质及车辆
CN114881775A (zh) * 2022-07-12 2022-08-09 浙江君同智能科技有限责任公司 一种基于半监督集成学习的欺诈检测方法及系统
CN115221011A (zh) * 2022-09-21 2022-10-21 中国电子信息产业集团有限公司 一种数据元件流通调用异常监控方法及装置
CN115329723A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 基于小样本学习的用户圈层挖掘方法、装置、介质及设备
CN115618238A (zh) * 2022-12-14 2023-01-17 湖南工商大学 基于参数偏移修正集成学习的信用卡欺诈检测方法

Similar Documents

Publication Publication Date Title
Maseer et al. Benchmarking of machine learning for anomaly based intrusion detection systems in the CICIDS2017 dataset
CN114298176A (zh) 一种欺诈用户检测方法、装置、介质及电子设备
US11631032B2 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
WO2021164382A1 (zh) 针对用户分类模型进行特征处理的方法及装置
WO2021037280A2 (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
CN112435137B (zh) 一种基于社团挖掘的欺诈信息检测方法及系统
US20200286095A1 (en) Method, apparatus and computer programs for generating a machine-learning system and for classifying a transaction as either fraudulent or genuine
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
CN111932269A (zh) 设备信息处理方法及装置
CN109726918A (zh) 基于生成式对抗网络和半监督学习的个人信用确定方法
KR20200075120A (ko) 기업 부도 예측 시스템 및 이의 동작 방법
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN115801374A (zh) 网络入侵数据分类方法、装置、电子设备及存储介质
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN117272204A (zh) 异常数据检测方法、装置、存储介质和电子设备
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN114119191A (zh) 风控方法、逾期预测方法、模型训练方法及相关设备
CN112927719B (zh) 风险信息评估方法、装置、设备及存储介质
CN115204322A (zh) 行为链路异常识别方法和装置
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
Xiao et al. Explainable fraud detection for few labeled time series data
Karthika et al. Credit card fraud detection based on ensemble machine learning classifiers
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备
CN114095268A (zh) 用于网络入侵检测的方法、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination