CN110930218A - 一种识别欺诈客户的方法、装置及电子设备 - Google Patents

一种识别欺诈客户的方法、装置及电子设备 Download PDF

Info

Publication number
CN110930218A
CN110930218A CN201911083007.3A CN201911083007A CN110930218A CN 110930218 A CN110930218 A CN 110930218A CN 201911083007 A CN201911083007 A CN 201911083007A CN 110930218 A CN110930218 A CN 110930218A
Authority
CN
China
Prior art keywords
identified
customer
divided
data
clients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911083007.3A
Other languages
English (en)
Other versions
CN110930218B (zh
Inventor
宋晓娣
王湾湾
姚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Integrity Information Co Ltd
Original Assignee
China Integrity Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Integrity Information Co Ltd filed Critical China Integrity Information Co Ltd
Priority to CN201911083007.3A priority Critical patent/CN110930218B/zh
Publication of CN110930218A publication Critical patent/CN110930218A/zh
Application granted granted Critical
Publication of CN110930218B publication Critical patent/CN110930218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明实施例提供了一种识别欺诈客户的方法、装置及电子设备,该方法包括:确定多个待划分数据集,分别对每个待划分数据集执行以下三个步骤:1、随机选取待识别客户的一类特征信息,根据选取的特征信息对待划分数据集中的待识别客户进行二分类,得到两个数据子集;2、随机选取待识别客户的一类特征信息,根据选取的特征信息分别对每个数据子集中的待识别客户进行二分类,将每个数据子集划分为两个数据子集;3、重复执行步骤2,直至得到的所有数据子集中只包括第一类数据子集和/或第二类数据子集;确定待识别客户的异常分数;然后构建训练集,根据训练集对机器学习模型进行训练,得到欺诈识别模型;欺诈识别模型能够更精准的识别欺诈客户。

Description

一种识别欺诈客户的方法、装置及电子设备
技术领域
本发明涉及计算机识别技术领域,特别是涉及一种识别欺诈客户的方法、装置及电子设备。
背景技术
在金融领域中,精准识别欺诈客户可以在一定程度上降低金融风险,所谓欺诈客户为存在欺诈行为的客户。传统的反欺诈手段主要是:反欺诈专家根据以往识别欺诈客户的规则和经验找出欺诈客户,并将欺诈客户的用户行为信息作为训练样本,对机器学习模型训练,从而得到能够识别客户是否为欺诈客户的识别模型。
目前,欺诈手段日趋多元化,由于以往识别欺诈客户的规则存在更新不及时的问题,导致采用传统的反欺诈手段难以全面地识别欺诈客户,同时,由于反欺诈专家的经验有限,难以全面地识别欺诈用户,因此,存在很多欺诈客户不能被识别出来的情况,导致采用传统方法训练得到的识别模型难以精准的识别欺诈客户。
发明内容
本发明实施例的目的在于提供一种识别欺诈客户的方法、装置及电子设备,用以解决传统的反欺诈手段难以精准的识别欺诈客户的问题。具体技术方案如下:
本发明实施例提供了一种识别欺诈客户的方法,包括:
确定第一预设数量个待划分数据集,每个待划分数据集中包括随机选取的第二预设数量的待识别客户;
分别针对每个待划分数据集执行以下三个步骤:
步骤1、随机选取待识别客户的一类特征信息,根据选取的特征信息对该待划分数据集中的待识别客户进行二分类,得到两个数据子集;
步骤2、随机选取待识别客户的一类特征信息,根据选取的特征信息分别对每个数据子集中的待识别客户进行二分类,将每个数据子集划分为两个数据子集;
步骤3、重复执行所述步骤2,直至得到的所有数据子集中只包括第一类数据子集和/或第二类数据子集,所述第一类数据子集为只包括一个待识别客户的数据子集,所述第二类数据子集为进行预设次数的分类后得到的包括至少两个待识别客户的数据子集;
针对所述第一预设数量个待划分数据集中的每个待识别客户,根据该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定该待识别客户的异常分数;
构建训练集,所述训练集中包括欺诈客户的各类特征信息和正常客户的各类特征信息,所述欺诈客户为异常分数大于预设分数值的待识别客户,所述正常客户为异常分数小于等于所述预设分数值的待识别客户;
根据所述训练集对机器学习模型进行训练,得到欺诈识别模型,所述欺诈识别模型用于识别待识别客户是否为欺诈客户。
进一步的,所述针对所述第一预设数量个待划分数据集中的每个待识别客户,根据该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定该待识别客户的异常分数,包括:
针对所述第一预设数量个待划分数据集中的每个待识别客户,确定该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数;
针对每个待划分数据集,根据该待识别客户在该待划分数据集中所属的第一类数据子集的分类次数或第二类数据子集的分类次数,确定该待识别客户在该待划分数据集中的被分类次数;
根据该待识别客户在每个待划分数据集中的被分类次数,计算该待识别客户的被分类次数的平均值;
根据该待识别客户的被分类次数的平均值,确定该待识别客户的异常分数。
进一步的,所述针对每个待划分数据集,根据该待识别客户在该待划分数据集中所属的第一类数据子集的分类次数或第二类数据子集的分类次数,确定该待识别客户在该待划分数据集中的被分类次数,包括:
针对每个待划分数据集,若该待识别客户属于该待划分数据集中的第一类数据子集,则确定该待识别客户在该待划分数据集中的被分类次数为:该待识别客户在该待划分数据集中所属的第一类数据子集对应的分类次数;
若该待识别客户属于该待划分数据集中的第二类数据子集,则通过以下公式,计算该待识别客户在该待划分数据集中的被分类次数:
h(x)=e+C(T)
其中,所述h(x)表示该待识别客户在该待划分数据集中的被分类次数,所述e表示所述预设次数,所述C(T)表示修正函数,所述T表示该待识别客户在该待划分数据集下所属的第二类数据子集中的待识别客户的数量,
Figure BDA0002264538040000031
Figure BDA0002264538040000032
H(T-1)=ln(T-1)+0.5772156649;
所述根据该待识别客户的被分类次数的平均值,确定该待识别客户的异常分数,包括:
根据该待识别客户的被分类次数的平均值,通过以下公式,计算该待识别客户的异常分数:
Figure BDA0002264538040000033
其中,所述score(x)表示该待识别客户的异常分数,所述E(h(x))表示所述平均值,所述C(n)表示归一化处理的修正函数,所述n表示所述第二预设数量,
Figure BDA0002264538040000034
H(n-1)=ln(n-1)+0.5772156649。
进一步的,所述构建训练集,包括:
针对所述第一预设数量个待划分数据集中的每一个欺诈客户,确定该欺诈客户的特征向量与所述第一预设数量个待划分数据集中的每个客户的特征向量之间的向量距离,所述特征向量为客户的特征信息对应的特征向量;
从所述第一预设数量个待划分数据集中,筛选出与该欺诈客户之间的向量距离最近的第三预设数量个近邻客户;
如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例大于等于预设比例,则将该欺诈客户的各类特征信息作为安全正样本的特征信息加入所述训练集;
如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例小于所述预设比例,则将该欺诈客户作为边界样本加入边界样本集合;
针对所述边界样本集合中的每个边界样本,,从所述边界样本集合中,筛选出与该边界样本之间的向量距离最近的第四预设数量个近邻欺诈客户;
根据所述第四预设数量个近邻欺诈客户的特征信息,确定该边界样本对应的指定数量个合成特征信息,各边界样本对应的合成特征信息数量之和为所述第一预设数量个待划分数据集中的正常客户数量与安全正样本数量之间的差值;
分别将所述边界样本对应的每个合成特征信息作为一个新的正样本的特征信息,加入所述训练集。
进一步的,所述根据所述第四预设数量个近邻欺诈客户的特征信息,确定该边界样本对应的指定数量个合成特征信息,包括:
通过以下公式计算该边界样本对应的合成特征向量:
Figure BDA0002264538040000041
其中,xin表示所述边界样本的第n个合成特征向量,xi表示所述边界样本的特征向量,xi(nn)表示从所述第四预设数量个近邻欺诈客户中,随机选取的一个近邻欺诈客户的特征向量,
Figure BDA0002264538040000042
为从0至1之间随机选取的数值;
根据所述合成特征向量中的各参量与各类特征信息的对应关系,确定所述合成特征向量对应的合成特征信息。
进一步的,所述构建训练集,还包括:
将所述第一预设数量个待划分数据集中的正常客户的各类特征信息作为负样本的特征信息加入所述训练集。
本发明实施例还提供了一种识别欺诈客户的装置,包括:
第一确定模块,用于确定第一预设数量个待划分数据集,每个待划分数据集中包括随机选取的第二预设数量的待识别客户;
二分类模块,用于针对每个待划分数据集执行以下三个步骤:
步骤1、随机选取待识别客户的一类特征信息,根据选取的特征信息对该待划分数据集中的待识别客户进行二分类,得到两个数据子集;
步骤2、随机选取待识别客户的一类特征信息,根据选取的特征信息分别对每个数据子集中的待识别客户进行二分类,将每个数据子集划分为两个数据子集;
步骤3、重复执行所述步骤2,直至得到的所有数据子集中只包括第一类数据子集和/或第二类数据子集,所述第一类数据子集为只包括一个待识别客户的数据子集,所述第二类数据子集为进行预设次数的分类后得到的包括至少两个待识别客户的数据子集;
第二确定模块,用于针对所述第一预设数量个待划分数据集中的每个待识别客户,根据该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定该待识别客户的异常分数;
构建模块,用于构建训练集,所述训练集中包括欺诈客户的各类特征信息和正常客户的各类特征信息,所述欺诈客户为异常分数大于预设分数值的待识别客户,所述正常客户为异常分数小于等于所述预设分数值的待识别客户;
训练模块,用于根据所述训练集对机器学习模型进行训练,得到欺诈识别模型,所述欺诈识别模型用于识别待识别客户是否为欺诈客户。
进一步的,所述第二确定模块,具体包括:
第一确定子模块,用于针对所述第一预设数量个待划分数据集中的每个待识别客户,确定该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数;
第二确定子模块,用于针对每个待划分数据集,根据该待识别客户在该待划分数据集中所属的第一类数据子集的分类次数或第二类数据子集的分类次数,确定该待识别客户在该待划分数据集中的被分类次数;
第一计算子模块,用于根据该待识别客户在每个待划分数据集中的被分类次数,计算该待识别客户的被分类次数的平均值;
第三确定子模块,用于根据该待识别客户的被分类次数的平均值,确定该待识别客户的异常分数。
进一步的,所述第二确定子模块,具体用于:
针对每个待划分数据集,若该待识别客户属于该待划分数据集中的第一类数据子集,则确定该待识别客户在该待划分数据集中的被分类次数为:该待识别客户在该待划分数据集中所属的第一类数据子集对应的分类次数;
若该待识别客户属于该待划分数据集中的第二类数据子集,则通过以下公式,计算该待识别客户在该待划分数据集中的被分类次数:
h(x)=e+C(T)
其中,所述h(x)表示该待识别客户在该待划分数据集中的被分类次数,所述e表示所述预设次数,所述C(T)表示修正函数,所述T表示该待识别客户在该待划分数据集下所属的第二类数据子集中的待识别客户的数量,
Figure BDA0002264538040000061
Figure BDA0002264538040000062
H(T-1)=ln(T-1)+0.5772156649;
所述第三确定子模块,具体用于:
根据该待识别客户的被分类次数的平均值,通过以下公式,计算该待识别客户的异常分数:
Figure BDA0002264538040000063
其中,所述score(x)表示该待识别客户的异常分数,所述E(h(x))表示所述平均值,所述C(n)表示归一化处理的修正函数,所述n表示所述第二预设数量,
Figure BDA0002264538040000071
H(n-1)=ln(n-1)+0.5772156649。
进一步的,所述构建模块,具体包括:
第四确定子模块,用于针对所述第一预设数量个待划分数据集中的每一个欺诈客户,确定该欺诈客户的特征向量与所述第一预设数量个待划分数据集中的每个客户的特征向量之间的向量距离,所述特征向量为客户的特征信息对应的特征向量;
第一筛选子模块,用于从所述第一预设数量个待划分数据集中,筛选出与该欺诈客户之间的向量距离最近的第三预设数量个近邻客户;
第一加入子模块,用于如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例大于等于预设比例,则将该欺诈客户的各类特征信息作为安全正样本的特征信息加入所述训练集;
第二加入子模块,用于如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例小于所述预设比例,则将该欺诈客户作为边界样本加入边界样本集合;
第二筛选子模块,用于针对所述边界样本集合中的每个边界样本,从所述边界样本集合中,筛选出与该边界样本之间的向量距离最近的第四预设数量个近邻欺诈客户;
第五确定子模块,用于根据所述第四预设数量个近邻欺诈客户的特征信息,确定该边界样本对应的指定数量个合成特征信息,各边界样本对应的合成特征信息数量之和为所述第一预设数量个待划分数据集中的正常客户数量与安全正样本数量之间的差值;
第三加入子模块,用于分别将该边界样本对应的每个合成特征信息作为一个新的正样本的特征信息,加入所述训练集。
进一步的,所述第五确定子模块,具体用于:
通过以下公式计算该边界样本对应的合成特征向量:
Figure BDA0002264538040000072
其中,xin表示所述边界样本的第n个合成特征向量,xi表示所述边界样本的特征向量,xi(nn)表示从所述第四预设数量个近邻欺诈客户中,随机选取的一个近邻欺诈客户的特征向量,
Figure BDA0002264538040000081
为从0至1之间随机选取的数值;
根据所述合成特征向量中的各参量与各类特征信息的对应关系,确定所述合成特征向量对应的合成特征信息。
进一步的,所述构建模块,具体用于将所述第一预设数量个待划分数据集中的正常客户的各类特征信息作为负样本的特征信息加入所述训练集。
本发明实施例还提供了一种电子设备,其包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的识别欺诈客户的方法步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的识别欺诈客户的方法步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的识别欺诈客户的方法。
本发明实施例有益效果:
本发明实施例提供的一种识别欺诈客户的方法、装置及电子设备,可以确定第一预设数量个待划分数据集,每个待划分数据集中包括随机选取的第二预设数量的待识别客户,分别针对每个待划分数据集执行以下三个步骤:步骤1、随机选取待识别客户的一类特征信息,根据选取的特征信息对所述待划分数据集中的待识别客户进行二分类,得到两个数据子集,步骤2、随机选取待识别客户的一类特征信息,根据选取的特征信息分别对每个数据子集中的待识别客户进行二分类,将每个数据子集划分为两个数据子集,步骤3、重复执行所述步骤2,直至得到的所有数据子集中只包括第一类数据子集和/或第二类数据子集,然后针对所述第一预设数量个待划分数据集中的每个待识别客户,根据所述待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定所述待识别客户的异常分数,构建训练集,根据所述训练集对机器学习模型进行训练,得到欺诈识别模型;采用本实施例所述的技术方案,可以计算待识别客户的异常分数,异常分数的大小表示待识别客户的孤立程度,也表示待识别客户为欺诈客户的可能性大小。其中,异常分数越大,孤立程度越重,待识别客户为欺诈客户的可能性越大;异常分数越小,孤立程度越轻,待识别客户为欺诈客户的可能性越小。根据待识别客户的异常分数,将待划分数据集的待识别客户分为正常客户以及欺诈客户,基于此,能够准确地将待划分数据集的待识别客户分为正常客户以及欺诈客户,可以更全面的得到欺诈客户,解决了采用传统的反欺诈手段由于以往识别欺诈客户的规则存在更新不及时的而导致难以全面地识别欺诈客户的问题,也一定程度上避免了由于反欺诈专家的经验水平有限而导致难以全面的识别欺诈客户的现象,并将得到的正常客户以及欺诈客户的各类特征信息作为训练样本,训练得到的欺诈识别模型能够精准的识别欺诈客户。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种识别欺诈客户的方法的流程图;
图2为本发明实施例提供的一种针对待划分数据集A进行处理的示意图;
图3为本发明实施例提供的一种构建训练集的流程图;
图4为本发明实施例提供的识别欺诈客户的装置的一种结构图;
图5为本发明实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种识别欺诈客户的方法,应用于服务器,如图1所示,具体可以包括如下步骤:
步骤101、确定第一预设数量个待划分数据集,每个待划分数据集中包括随机选取的第二预设数量个待识别客户。
分别针对每个待划分数据集执行步骤102-104:
步骤102、随机选取待识别客户的一类特征信息,根据选取的特征信息对该待划分数据集中的待识别客户进行二分类,得到两个数据子集。
步骤103、随机选取待识别客户的一类特征信息,根据选取的特征信息分别对每个数据子集中的待识别客户进行二分类,将每个数据子集划分为两个数据子集。
步骤104、重复执行上述步骤103,直至得到的所有数据子集中只包括第一类数据子集和/或第二类数据子集,第一类数据子集为只包括一个待识别客户的数据子集,第二类数据子集为进行预设次数的分类后得到的包括至少两个待识别客户的数据子集。
步骤105、针对第一预设数量个待划分数据集中的每个待识别客户,根据该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定该待识别客户的异常分数。
步骤106、构建训练集,训练集中包括欺诈客户的各类特征信息和正常客户的各类特征信息,欺诈客户为异常分数大于预设分数值的待识别客户,正常客户为异常分数小于等于预设分数值的待识别客户。
步骤107、根据训练集对机器学习模型进行训练,得到欺诈识别模型,欺诈识别模型用于识别待识别客户是否为欺诈客户。
采用本发明实施例提供的上述识别欺诈客户的方法,可以计算待识别客户的异常分数,异常分数的大小表示待识别客户的孤立程度,也表示待识别客户为欺诈客户的可能性大小。其中,异常分数越大,孤立程度越重,待识别客户为欺诈客户的可能性越大;异常分数越小,孤立程度越轻,待识别客户为欺诈客户的可能性越小。根据待识别客户的异常分数,将待划分数据集的待识别客户分为正常客户以及欺诈客户,基于此,能够准确地将待划分数据集的待识别客户分为正常客户以及欺诈客户,可以更全面的识别到欺诈客户,解决了采用传统的反欺诈手段由于以往识别欺诈客户的规则存在更新不及时的而导致难以全面地识别欺诈客户的问题,也一定程度上避免了由于反欺诈专家的经验水平有限而导致难以全面的识别欺诈客户的现象,并将得到的正常客户以及欺诈客户的各类特征信息作为训练样本,训练得到的欺诈识别模型能够更准确的识别欺诈客户。
下面对本发明实施例提供的识别欺诈客户的方法进行详细说明:
步骤101、确定第一预设数量个待划分数据集,每个待划分数据集中包括随机选取的第二预设数量个待识别客户。
具体的,可以按照第一预设数量次从多个待识别客户中,选取第二预设数量个待识别客户,将每次选取的第二预设数量个待识别客户,作为一个待划分数据集。
其中,第一预设数量和第二预设数量的大小可以根据实际的使用需求,进行调整,本申请实施例在此不做限制。
在一个实施例中,第一预设数量可以为100,可以使得到的待识别客户的异常分数更具有代表性的同时,降低计算的数据量。
在确定待划分数据集后,可分别针对每个待划分数据集执行以下步骤102-104:
步骤102、随机选取待识别客户的一类特征信息,根据选取的特征信息对该待划分数据集中的待识别客户进行二分类,得到两个数据子集。
具体的,待识别客户的特征信息可以包括:待识别客户的借贷历史信息、待识别客户的查询历史信息、待识别客户的电信历史信息以及待识别客户的基本信息。
待识别客户的借贷历史信息可以包括:待识别客户近3个月借款次数、待识别客户近6个月借款次数、待识别客户的借款申请次数、待识别客户的借款申请的驳回次数、待识别客户的注册平台数、待识别客户近3个月借款的平台数、待识别客户近6个月借款的平台数、待识别客户近3个月的逾期次数、待识别客户近6个月的逾期次数、待识别客户近12个月的逾期次数中的至少一个;
待识别客户的查询历史信息可以包括:近3个月查询待识别客户征信报告的机构的数量、近6个月查询待识别客户征信报告的机构的数量、近12个月查询待识别客户征信报告的机构的数量、近3个月查询待识别客户征信报告的次数、近6个月查询待识别客户征信报告的次数、近12个月查询待识别客户征信报告的次数、查询待识别客户的现金贷的次数、查询待识别客户的消费分期的次数、查询待识别客户的信用卡代还的次数、查询待识别客户的现金贷的机构的数量、查询待识别客户的消费分期的机构的数量、查询待识别客户的信用卡代还的机构数量中的至少一个。
进一步的,待识别客户的电信历史信息可以包括:待识别客户选择的运营商所属的类别、待识别客户更换手机号的次数、与待识别客户互动联系最亲密的联系人的灰度分、待识别客户主动联系的联系人的平均灰度分、待识别客户的联系人曾申请借款的人数、待识别客户主动联系的联系人为黑号的数量中的至少一个。
进一步的,待识别客户的基本信息可以包括:待识别客户的年龄、待识别客户的工作性质、待识别客户的常住地址更换次数、待识别客户的工作单位的变更次数、待识别客户的收入水平、待识别客户的消费能力指数、待识别客户的理财金额、待识别客户的房产情况、待识别客户是否有信用卡、待识别客户是否购买保险、待识别客户的身份证有效性中的至少一个。
步骤103、随机选取待识别客户的一类特征信息,根据选取的特征信息可以分别对每个数据子集中的待识别客户进行二分类,将每个数据子集划分为两个数据子集。
步骤104、重复执行上述步骤103,直至得到的所有数据子集中只包括第一类数据子集和/或第二类数据子集。
本步骤中,第一类数据子集为只包括一个待识别客户的数据子集,第二类数据子集为进行预设次数的分类后得到的包括至少两个待识别客户的数据子集。其中,预设次数的大小,可以根据实际的使用需求,进行调整,本申请实施例在此不做限制;在一个实施例中,预设次数可以设置成8。
示例性的,其中一个待划分数据集可以为A,如图2所示,对待划分数据集A的处理过程为:
随机选取的特征信息为待识别客户的待识别客户近3个月借款次数,根据待识别客户的待识别客户近3个月借款次数,对待划分数据集A进行二分类,可以得到数据子集A1和A2。
假设数据子集A1只包括一个待识别客户,不对数据子集A1进行二分类。
假设数据子集A2包括多个待识别客户,则对数据子集A2进行二分类。
对数据子集A2进行二分类时,随机选取的特征信息可以为待识别客户的待识别客户的工作单位的变更次数,根据待识别客户的待识别客户的工作单位的变更次数,对数据子集A2进行二分类,得到数据子集A21和A22。
假如数据子集A21包括多个待识别客户,则对数据子集A21进行二分类。
对数据子集A21进行二分类时,随机选取的特征信息可以为待识别客户的近6个月查询待识别客户征信报告的次数,根据待识别客户的近6个月查询待识别客户征信报告的次数,对数据子集A21进行二分类,得到数据子集A211和A212。
假如数据子集A22包括多个待识别客户,则对数据子集A22进行二分类。
对数据子集A22进行二分类时,随机选取的特征信息可以为待识别客户近12个月的逾期次数,根据待识别客户近12个月的逾期次数,对数据子集A22进行二分类,得到数据子集A221和A222。
以此类推,在进行8次分类之后,得到数据子集A1、A212、A221、A2111、A2221、A21121、A22221、A22222、A211221、A2112222、A21122211、A21122212,其中,数据子集A1、A212、A221、A2111、A2221、A21121、A22221、A22222、A211221、A2112222均只包括一个待识别客户,数据子集A21122211、A21122212包括多个待识别客户。
步骤105、针对第一预设数量个待划分数据集中的每个待识别客户,根据该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定该待识别客户的异常分数。
具体的步骤可以包括:第一步、可以针对第一预设数量个待划分数据集中的每个待识别客户,确定该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数。
第二步、针对每个待划分数据集,根据该待识别客户在该待划分数据集中所属的第一类数据子集的分类次数或第二类数据子集的分类次数,确定该待识别客户在该待划分数据集中的被分类次数;
在一种实施方式中,针对每个待划分数据集,若该待识别客户属于该待划分数据集中的第一类数据子集,则确定该待识别客户在该待划分数据集中的被分类次数为:该待识别客户在该待划分数据集中所属的第一类数据子集对应的分类次数。
若该待识别客户属于该待划分数据集中的第二类数据子集,则通过以下公式,计算该待识别客户在该待划分数据集中的被分类次数:
h(x)=e+C(T)
其中,h(x)表示该待识别客户在该待划分数据集中的被分类次数,e表示所述预设次数,C(T)表示修正函数,T表示该待识别客户在该待划分数据集下所属的第二类数据子集中的待识别客户的数量,
Figure BDA0002264538040000141
H(T-1)=ln(T-1)+0.5772156649。
第三步、可以根据该待识别客户在每个待划分数据集中的被分类次数,计算该待识别客户的被分类次数的平均值。
第四步、可以根据该待识别客户的被分类次数的平均值,确定该待识别客户的异常分数。
在一种实施方式中,可以根据该待识别客户的被分类次数的平均值,通过以下公式,计算该待识别客户的异常分数:
Figure BDA0002264538040000151
其中,score(x)表示该待识别客户的异常分数,E(h(x))表示上述平均值,所述C(n)表示归一化处理的修正函数,n表示所述第二预设数量,
Figure BDA0002264538040000152
H(n-1)=ln(n-1)+0.5772156649。
示例性的,针对待识别客户a,待识别客户a在待划分数据集A、B、C、E、G中出现过,其中,待识别客户a在待划分数据集A的被分类次数为4,待识别客户a在待划分数据集B的被分类次数为3,待识别客户a在待划分数据集C的被分类次数为2,待识别客户a在待划分数据集E的被分类次数为5,待识别客户a在待划分数据集G的被分类次数为1,计算待识别客户a的被分类次数的平均值为:(4+3+2+5+1)÷5=3,基于此,计算该待识别客户的异常分数。本发明实施例中的异常分数仅仅是示例性的,不构成对本发明实施例的限定。
当然,也可以通过其他方式,确定该待识别客户的异常分数,本申请实施例在此不做限定。
步骤106、构建训练集,训练集中包括欺诈客户的各类特征信息和正常客户的各类特征信息。
本步骤中,欺诈客户为异常分数大于预设分数值的待识别客户,正常客户为异常分数小于等于预设分数值的待识别客户。
其中,预设分数值的大小可以根据实际的使用需求,进行调整,本申请实施例在此不做限制。在一个实施例中,预设分数值可以设置为5。
步骤107、根据训练集对机器学习模型进行训练,得到欺诈识别模型,欺诈识别模型用于识别待识别客户是否为欺诈客户。
本步骤中,欺诈识别模型可以为决策树模型,也可以为随机森林模型,当然,也可以为SVM(支持向量机,Support Vector Machine)模型,具体的训练过程现有技术已能实现,本申请实施例在此不作限制。
本领技术人员可以理解的是,待划分数据集中的待识别客户的数量越小,用于训练欺诈识别模型的训练数据也越少,使得训练得到的欺诈识别模型的识别效果较差。
待划分数据集中的待识别客户的数量越大,待划分数据集中越容易出现由于欺诈客户的分布密度较大而引起的欺诈客户成簇的现象,导致该待划分数据集中的欺诈客户和正常客户难以区分,但是为了解决该问题,需要对该待划分数据集中进行的分类次数也越多,而且得到的分类结果也不准确。
综合考虑上述两种情况,第二预设数量设置为256时的训练得到的欺诈识别模型的识别效果较好。
在本申请的一个实施例中,上述的步骤106具体可以包括:
步骤301、针对第一预设数量个待划分数据集中的每一个欺诈客户,确定该欺诈客户的特征向量与第一预设数量个待划分数据集中的每个客户的特征向量之间的向量距离。
本步骤中的特征向量为客户的特征信息对应的特征向量。
具体的,可以根据各类特征信息与对应数值之间的预设对应关系,得到客户的特征向量,客户的特征向量包括该客户的各类特征信息对应的数值。
根据第一预设数量个待划分数据集中的每一个客户的特征向量,可以计算该向量距离,即该欺诈客户的特征向量与第一预设数量个待划分数据集中的每个客户的特征向量之间的距离。
在一个实施例中,上述的距离可以为欧氏距离,本申请实施例在此不作限定。
本领域技术人员可以理解的是,除该欺诈客户之外,待划分数据集中还包括其他欺诈客户。在确定该欺诈客户的特征向量与第一预设数量个待划分数据集中的每个客户的特征向量之间的距离的过程中,已经计算出了该欺诈客户与其他欺诈客户的特征向量之间的距离。在一种实施方式中,后续针对其他欺诈客户计算该距离时,可直接使用已计算的该欺诈客户与其他欺诈客户的特征向量之间的距离,无需重复计算。
在另一种实施方式中,后续针对其他欺诈客户计算向量距离时,也可以根据第一预设数量个待划分数据集中的每一个客户的特征向量,重新计算其他欺诈客户与第一预设数量个待划分数据集中的每个客户的特征向量之间的距离时,本申请实施例在此不作限制。
其中,其他欺诈客户为第一预设数量个待划分数据集中除该欺诈客户以外的任一欺诈客户。
步骤302、从第一预设数量个待划分数据集中,筛选出与该欺诈客户之间的向量距离最近的第三预设数量个近邻客户。
本步骤中的近邻客户包括欺诈客户和正常客户,第三预设数量的大小,可以根据实际的需求,进行调整,本申请实施例在此不作限定。
步骤303、判断筛选出的第三预设数量个近邻客户中的欺诈客户所占比例是否大于或等于预设比例;如果是,则进入步骤304,如果不是,则进入步骤305。
本步骤中的预设比例的大小,可以根据实际的需求,进行调整,本申请实施例在此不作限制,在一个实施例中,预设比例可以设置为0.5。
具体的,如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例大于等于预设比例,则进入步骤304;如果筛选出的第三预设数量个近邻客户中的异常客户所占比例小于预设比例,则进入步骤305。
步骤304、将该欺诈客户的各类特征信息作为安全正样本的特征信息加入训练集。
其中,每个欺诈客户分别对应一个安全正样本,加入训练集的安全正样本的内容包括该欺诈客户的各类特征信息。
具体的,筛选出的第三预设数量个近邻客户中的欺诈客户所占比例越大,欺诈客户的孤立程度越重;筛选出的第三预设数量个近邻客户中的欺诈客户所占比例越小,欺诈客户的孤立程度越轻,上述的安全正样本为孤立程度比较重的欺诈客户。
步骤305、将该欺诈客户作为边界样本加入边界样本集合。
本领域技术人员可以理解的是,在完成上述步骤301-305后,可以确定边界样本集合。
步骤306、针对边界样本集合中的每一个边界样本,从边界样本集合中,筛选出与该边界样本之间的向量距离最近的第四预设数量个近邻欺诈客户。
本步骤中,边界样本为孤立程度比较轻的欺诈客户;具体的,可以根据该边界样本的特征向量与边界样本集合中的每个欺诈客户的特征向量之间的距离,筛选出与该边界样本之间的向量距离最近的第四预设数量个近邻欺诈客户。
在一个实施例中,可以根据上述步骤301的计算的该边界样本的特征向量与边界样本集合中的每个欺诈客户的特征向量之间的距离,从边界样本集合中,筛选出与该边界样本之间的向量距离最近的第四预设数量个近邻欺诈客户。
步骤307、根据第四预设数量个近邻欺诈客户的特征信息,确定该边界样本对应的指定数量个合成特征信息。
具体的,各边界样本对应的合成特征信息的数量之和为第一预设数量个待划分数据集中的正常客户数量与安全正样本数量之间的差值,使得训练集中的正样本与负样本的数量一致,解决了训练集中的正负样本的数量存在不平衡的问题。
在一个实施例中,可以将第一预设数量个待划分数据集中的正常客户数量与安全正样本数量之间的差值,除以边界样本的数量,得到的数值作为指定数量;当然也可以通过其他的方式,来确定指定数量的大小,以使得训练集中的正样本与负样本的数量一致,本申请实施例在此不做限制。
进一步的,可以通过以下公式计算该边界样本对应的合成特征向量:
Figure BDA0002264538040000181
其中,xin表示该边界样本的第n个合成特征向量,xi表示该边界样本的特征向量,xi(nn)表示从上述第四预设数量个近邻欺诈客户中,随机选取的一个近邻欺诈客户的特征向量,
Figure BDA0002264538040000191
为从0至1之间随机选取的数值。
根据上述合成特征向量中的各参量与各类特征信息的对应关系,确定该合成特征向量对应的合成特征信息。
本领技术人员可以理解的,根据该边界样本的合成特征向量中的各参量与各类特征信息的对应关系,可以确定该边界样本的各类特征信息,作为该边界样本对应的合成特征信息。
步骤308、分别将该边界样本对应的每个合成特征信息作为一个新的正样本的特征信息,加入训练集。
本步骤中,分别该边界样本的每个合成特征信息,作为一个新的正样本的特征信息,加入训练集中。
针对第一预设数量个待划分数据集中的每一个欺诈客户,完成上述步骤301-308后,可以确定加入训练集的正样本,使得训练集中的正样本与负样本的数量一致,解决了训练集中的正负样本的数量存在不平衡的问题。
步骤309、可以将第一预设数量个待划分数据集中的正常客户的各类特征信息作为负样本的特征信息加入训练集。
本步骤中,正常客户与负样本一一对应,加入训练集的负样本的内容包括该正常客户的各类特征信息。
其中,步骤301-308与步骤309之间没有严格的先后顺序,参照图3,图3提供了一种步骤309在步骤308之后的构建训练集的实施例。
相应于本发明实施例提供的上述识别欺诈客户的方法,本发明实施例还提供了一种识别欺诈客户的装置,如图4所示,图4为本发明实施例提供的识别欺诈客户的装置的一种结构图,具体包括:
第一确定模块401,用于确定第一预设数量个待划分数据集,每个待划分数据集中包括随机选取的第二预设数量的待识别客户;
二分类模块402,用于针对每个待划分数据集执行以下三个步骤:
步骤1、随机选取待识别客户的一类特征信息,根据选取的特征信息对该待划分数据集中的待识别客户进行二分类,得到两个数据子集;
步骤2、随机选取待识别客户的一类特征信息,根据选取的特征信息分别对每个数据子集中的待识别客户进行二分类,将每个数据子集划分为两个数据子集;
步骤3、重复执行所述步骤2,直至得到的所有数据子集中只包括第一类数据子集和/或第二类数据子集,所述第一类数据子集为只包括一个待识别客户的数据子集,所述第二类数据子集为进行预设次数的分类后得到的包括至少两个待识别客户的数据子集;
第二确定模块403,用于针对所述第一预设数量个待划分数据集中的每个待识别客户,根据该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定该待识别客户的异常分数;
构建模块404,用于构建训练集,所述训练集中包括欺诈客户的各类特征信息和正常客户的各类特征信息,所述欺诈客户为异常分数大于预设分数值的待识别客户,所述正常客户为异常分数小于等于所述预设分数值的待识别客户;
训练模块405,用于根据所述训练集对机器学习模型进行训练,得到欺诈识别模型,所述欺诈识别模型用于识别待识别客户是否为欺诈客户。
进一步的,所述第二确定模块403,具体包括:
第一确定子模块,用于针对所述第一预设数量个待划分数据集中的每个待识别客户,确定该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数;
第二确定子模块,用于针对每个待划分数据集,根据该待识别客户在该待划分数据集中所属的第一类数据子集的分类次数或第二类数据子集的分类次数,确定该待识别客户在该待划分数据集中的被分类次数;
第一计算子模块,用于根据该待识别客户在每个待划分数据集中的被分类次数,计算该待识别客户的被分类次数的平均值;
第三确定子模块,用于根据该待识别客户的被分类次数的平均值,确定该待识别客户的异常分数。
进一步的,所述第二确定子模块,具体用于:
针对每个待划分数据集,若该待识别客户属于该待划分数据集中的第一类数据子集,则确定该待识别客户在该待划分数据集中的被分类次数为:该待识别客户在该待划分数据集中所属的第一类数据子集对应的分类次数;
若该待识别客户属于该待划分数据集中的第二类数据子集,则通过以下公式,计算该待识别客户在该待划分数据集中的被分类次数:
h(x)=e+C(T)
其中,所述h(x)表示该待识别客户在该待划分数据集中的被分类次数,所述e表示所述预设次数,所述C(T)表示修正函数,所述T表示该待识别客户在该待划分数据集下所属的第二类数据子集中的待识别客户的数量,
Figure BDA0002264538040000211
H(T-1)=ln(T-1)+0.5772156649;
所述第三确定子模块,具体用于:
根据该待识别客户的被分类次数的平均值,通过以下公式,计算该待识别客户的异常分数:
Figure BDA0002264538040000212
其中,所述score(x)表示该待识别客户的异常分数,所述E(h(x))表示所述平均值,所述C(n)表示归一化处理的修正函数,所述n表示所述第二预设数量,
Figure BDA0002264538040000213
H(n-1)=ln(n-1)+0.5772156649。
进一步的,所述构建模块404,具体包括:
第四确定子模块,用于针对所述第一预设数量个待划分数据集中的每一个欺诈客户,确定该欺诈客户的特征向量与所述第一预设数量个待划分数据集中的每个客户的特征向量之间的向量距离,所述特征向量为客户的特征信息对应的特征向量;
第一筛选子模块,用于从所述第一预设数量个待划分数据集中,筛选出与该欺诈客户之间的向量距离最近的第三预设数量个近邻客户;
第一加入子模块,用于如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例大于等于预设比例,则将该欺诈客户的各类特征信息作为安全正样本的特征信息加入所述训练集;
第二加入子模块,用于如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例小于所述预设比例,则将该欺诈客户作为边界样本加入边界样本集合,
第二筛选子模块,用于针对所述边界样本集合中的每个边界样本,从所述边界样本集合中,筛选出与该边界样本之间的向量距离最近的第四预设数量个近邻欺诈客户;
第五确定子模块,用于根据所述第四预设数量个近邻欺诈客户的特征信息,确定该边界样本对应的指定数量个合成特征信息,各边界样本对应的合成特征信息数量之和为所述第一预设数量个待划分数据集中的正常客户数量与安全正样本数量之间的差值;
第三加入子模块,用于将该边界样本对应的各合成特征信息作为一个新的正样本的特征信息,加入所述训练集。
进一步的,所述第五确定子模块,具体用于:
通过以下公式计算所述边界样本对应的合成特征向量:
Figure BDA0002264538040000221
其中,xin表示所述边界样本的第n个合成特征向量,xi表示所述边界样本的特征向量,xi(nn)表示从所述第四预设数量个近邻欺诈客户中,随机选取的一个近邻欺诈客户的特征向量,
Figure BDA0002264538040000222
为从0至1之间随机选取的数值;
根据所述合成特征向量中的各参量与各类特征信息的对应关系,确定所述合成特征向量对应的合成特征信息。
进一步的,所述构建模块404,具体用于将所述第一预设数量个待划分数据集中的正常客户的各类特征信息作为负样本的特征信息加入所述训练集。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现上述任一识别欺诈客户的方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一识别欺诈客户的方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一识别欺诈客户的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备计算机可读存储介质以及计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种识别欺诈客户的方法,其特征在于,包括:
确定第一预设数量个待划分数据集,每个待划分数据集中包括随机选取的第二预设数量的待识别客户;
分别针对每个待划分数据集执行以下三个步骤:
步骤1、随机选取待识别客户的一类特征信息,根据选取的特征信息对该待划分数据集中的待识别客户进行二分类,得到两个数据子集;
步骤2、随机选取待识别客户的一类特征信息,根据选取的特征信息分别对每个数据子集中的待识别客户进行二分类,将每个数据子集划分为两个数据子集;
步骤3、重复执行所述步骤2,直至得到的所有数据子集中只包括第一类数据子集和/或第二类数据子集,所述第一类数据子集为只包括一个待识别客户的数据子集,所述第二类数据子集为进行预设次数的分类后得到的包括至少两个待识别客户的数据子集;
针对所述第一预设数量个待划分数据集中的每个待识别客户,根据该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定该待识别客户的异常分数;
构建训练集,所述训练集中包括欺诈客户的各类特征信息和正常客户的各类特征信息,所述欺诈客户为异常分数大于预设分数值的待识别客户,所述正常客户为异常分数小于等于所述预设分数值的待识别客户;
根据所述训练集对机器学习模型进行训练,得到欺诈识别模型,所述欺诈识别模型用于识别待识别客户是否为欺诈客户。
2.根据权利要求1所述的方法,其特征在于,所述针对所述第一预设数量个待划分数据集中的每个待识别客户,根据该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定该待识别客户的异常分数,包括:
针对所述第一预设数量个待划分数据集中的每个待识别客户,确定该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数;
针对每个待划分数据集,根据该待识别客户在该待划分数据集中所属的第一类数据子集的分类次数或第二类数据子集的分类次数,确定该待识别客户在该待划分数据集中的被分类次数;
根据该待识别客户在每个待划分数据集中的被分类次数,计算该待识别客户的被分类次数的平均值;
根据该待识别客户的被分类次数的平均值,确定该待识别客户的异常分数。
3.根据权利要求2所述的方法,其特征在于,所述针对每个待划分数据集,根据该待识别客户在该待划分数据集中所属的第一类数据子集的分类次数或第二类数据子集的分类次数,确定该待识别客户在该待划分数据集中的被分类次数,包括:
针对每个待划分数据集,若该待识别客户属于该待划分数据集中的第一类数据子集,则确定该待识别客户在该待划分数据集中的被分类次数为:该待识别客户在该待划分数据集中所属的第一类数据子集对应的分类次数;
若该待识别客户属于该待划分数据集中的第二类数据子集,则通过以下公式,计算该待识别客户在该待划分数据集中的被分类次数:
h(x)=e+C(T)
其中,所述h(x)表示该待识别客户在该待划分数据集中的被分类次数,所述e表示所述预设次数,所述C(T)表示修正函数,所述T表示该待识别客户在该待划分数据集下所属的第二类数据子集中的待识别客户的数量,
Figure FDA0002264538030000021
H(T-1)=ln(T-1)+0.5772156649;
所述根据该待识别客户的被分类次数的平均值,确定该待识别客户的异常分数,包括:
根据该待识别客户的被分类次数的平均值,通过以下公式,计算该待识别客户的异常分数:
Figure FDA0002264538030000022
其中,所述score(x)表示该待识别客户的异常分数,所述E(h(x))表示所述平均值,所述C(n)表示归一化处理的修正函数,所述n表示所述第二预设数量,
Figure FDA0002264538030000031
H(n-1)=ln(n-1)+0.5772156649。
4.根据权利要求1所述的方法,其特征在于,所述构建训练集,包括:
针对所述第一预设数量个待划分数据集中的每一个欺诈客户,确定该欺诈客户的特征向量与所述第一预设数量个待划分数据集中的每个客户的特征向量之间的向量距离,所述特征向量为客户的特征信息对应的特征向量;
从所述第一预设数量个待划分数据集中,筛选出与该欺诈客户之间的向量距离最近的第三预设数量个近邻客户;
如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例大于等于预设比例,则将该欺诈客户各类特征信息作为安全正样本的特征信息加入所述训练集;
如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例小于所述预设比例,则将该欺诈客户作为边界样本加入边界样本集合;
针对所述边界样本集合中的每个边界样本,从所述边界样本集合中,筛选出与该边界样本之间的向量距离最近的第四预设数量个近邻欺诈客户;
根据所述第四预设数量个近邻欺诈客户的特征信息,确定该边界样本对应的指定数量个合成特征信息,各边界样本对应的合成特征信息数量之和为所述第一预设数量个待划分数据集中的正常客户数量与安全正样本数量之间的差值;
分别将该边界样本对应的每个合成特征信息作为一个新的正样本的特征信息,加入所述训练集。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第四预设数量个近邻欺诈客户的特征信息,确定该边界样本对应的指定数量个合成特征信息,包括:
通过以下公式计算所述边界样本对应的合成特征向量:
Figure FDA0002264538030000041
其中,xin表示所述边界样本的第n个合成特征向量,xi表示所述边界样本的特征向量,xi(nn)表示从所述第四预设数量个近邻欺诈客户中,随机选取的一个近邻欺诈客户的特征向量,
Figure FDA0002264538030000042
为从0至1之间随机选取的数值;
根据所述合成特征向量中的各参量与各类特征信息的对应关系,确定所述合成特征向量对应的合成特征信息。
6.根据权利要求1所述的方法,其特征在于,所述构建训练集,还包括:
将所述第一预设数量个待划分数据集中的正常客户的各类特征信息作为负样本的特征信息加入所述训练集。
7.一种识别欺诈客户的装置,其特征在于,包括:
第一确定模块,用于确定第一预设数量个待划分数据集,每个待划分数据集中包括随机选取的第二预设数量的待识别客户;
二分类模块,用于针对每个待划分数据集执行以下三个步骤:
步骤1、随机选取待识别客户的一类特征信息,根据选取的特征信息对该待划分数据集中的待识别客户进行二分类,得到两个数据子集;
步骤2、随机选取待识别客户的一类特征信息,根据选取的特征信息分别对每个数据子集中的待识别客户进行二分类,将每个数据子集划分为两个数据子集;
步骤3、重复执行所述步骤2,直至得到的所有数据子集中只包括第一类数据子集和/或第二类数据子集,所述第一类数据子集为只包括一个待识别客户的数据子集,所述第二类数据子集为进行预设次数的分类后得到的包括至少两个待识别客户的数据子集;
第二确定模块,用于针对所述第一预设数量个待划分数据集中的每个待识别客户,根据该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数,确定该待识别客户的异常分数;
构建模块,用于构建训练集,所述训练集中包括欺诈客户的各类特征信息和正常客户的各类特征信息,所述欺诈客户为异常分数大于预设分数值的待识别客户,所述正常客户为异常分数小于等于所述预设分数值的待识别客户;
训练模块,用于根据所述训练集对机器学习模型进行训练,得到欺诈识别模型,所述欺诈识别模型用于识别待识别客户是否为欺诈客户。
8.根据权利要求7所述的装置,其特征在于,所述第二确定模块,具体包括:
第一确定子模块,用于针对所述第一预设数量个待划分数据集中的每个待识别客户,确定该待识别客户所属的第一类数据子集或第二类数据子集对应的分类次数;
第二确定子模块,用于针对每个待划分数据集,根据该待识别客户在该待划分数据集中所属的第一类数据子集的分类次数或第二类数据子集的分类次数,确定该待识别客户在该待划分数据集中的被分类次数;
第一计算子模块,用于根据该待识别客户在每个待划分数据集中的被分类次数,计算该待识别客户的被分类次数的平均值;
第三确定子模块,用于根据该待识别客户的被分类次数的平均值,确定该待识别客户的异常分数。
9.根据权利要求8所述的装置,其特征在于,所述第二确定子模块,具体用于:
针对每个待划分数据集,若该待识别客户属于该待划分数据集中的第一类数据子集,则确定该待识别客户在该待划分数据集中的被分类次数为:该待识别客户在该待划分数据集中所属的第一类数据子集对应的分类次数;
若该待识别客户属于该待划分数据集中的第二类数据子集,则通过以下公式,计算该待识别客户在该待划分数据集中的被分类次数:
h(x)=e+C(T)
其中,所述h(x)表示该待识别客户在该待划分数据集中的被分类次数,所述e表示所述预设次数,所述C(T)表示修正函数,所述T表示该待识别客户在该待划分数据集下所属的第二类数据子集中的待识别客户的数量,
Figure FDA0002264538030000061
Figure FDA0002264538030000062
H(T-1)=ln(T-1)+0.5772156649;
所述第三确定子模块,具体用于:
根据该待识别客户的被分类次数的平均值,通过以下公式,计算该待识别客户的异常分数:
Figure FDA0002264538030000063
其中,所述score(x)表示该待识别客户的异常分数,所述E(h(x))表示所述平均值,所述C(n)表示归一化处理的修正函数,所述n表示所述第二预设数量,
Figure FDA0002264538030000064
H(n-1)=ln(n-1)+0.5772156649。
10.根据权利要求7所述的装置,其特征在于,所述构建模块,具体包括:
第四确定子模块,用于针对所述第一预设数量个待划分数据集中的每一个欺诈客户,确定该欺诈客户的特征向量与所述第一预设数量个待划分数据集中的每个客户的特征向量之间的向量距离,所述特征向量为客户的特征信息对应的特征向量;
第一筛选子模块,用于从所述第一预设数量个待划分数据集中,筛选出与该欺诈客户之间的向量距离最近的第三预设数量个近邻客户;
第一加入子模块,用于如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例大于等于预设比例,则将该欺诈客户的各类特征信息作为安全正样本的特征信息加入所述训练集;
第二加入子模块,用于如果筛选出的第三预设数量个近邻客户中的欺诈客户所占比例小于所述预设比例,则将该欺诈客户作为边界样本加入边界样本集合;
第二筛选子模块,用于针对所述边界样本集合中的每个边界样本,从所述边界样本集合中,筛选出与该边界样本之间的向量距离最近的第四预设数量个近邻欺诈客户;
第五确定子模块,用于根据所述第四预设数量个近邻欺诈客户的特征信息,确定该边界样本对应的指定数量个合成特征信息,各边界样本对应的合成特征信息数量之和为所述第一预设数量个待划分数据集中的正常客户数量与安全正样本数量之间的差值;
第三加入子模块,用于分别将该边界样本对应的每个合成特征信息作为一个新的正样本的特征信息,加入所述训练集。
11.根据权利要求10所述的装置,其特征在于,所述第五确定子模块,具体用于:
通过以下公式计算所述边界样本对应的合成特征向量:
Figure FDA0002264538030000071
其中,xin表示所述边界样本的第n个合成特征向量,xi表示所述边界样本的特征向量,xi(nn)表示从所述第四预设数量个近邻欺诈客户中,随机选取的一个近邻欺诈客户的特征向量,
Figure FDA0002264538030000072
为从0至1之间随机选取的数值;
根据所述合成特征向量中的各参量与各类特征信息的对应关系,确定所述合成特征向量对应的合成特征信息。
12.根据权利要求7所述的装置,其特征在于,所述构建模块,具体用于将所述第一预设数量个待划分数据集中的正常客户的各类特征信息作为负样本的特征信息加入所述训练集。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN201911083007.3A 2019-11-07 2019-11-07 一种识别欺诈客户的方法、装置及电子设备 Active CN110930218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911083007.3A CN110930218B (zh) 2019-11-07 2019-11-07 一种识别欺诈客户的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911083007.3A CN110930218B (zh) 2019-11-07 2019-11-07 一种识别欺诈客户的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110930218A true CN110930218A (zh) 2020-03-27
CN110930218B CN110930218B (zh) 2024-01-23

Family

ID=69853441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911083007.3A Active CN110930218B (zh) 2019-11-07 2019-11-07 一种识别欺诈客户的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110930218B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881991A (zh) * 2020-08-03 2020-11-03 联仁健康医疗大数据科技股份有限公司 一种识别欺诈的方法、装置及电子设备
CN112200583A (zh) * 2020-10-28 2021-01-08 交通银行股份有限公司 一种基于知识图谱的欺诈客户识别方法
CN112950225A (zh) * 2021-02-25 2021-06-11 中国工商银行股份有限公司 一种客户类别确定方法、装置及存储介质
CN113723950A (zh) * 2020-05-21 2021-11-30 同济大学 基于动态加权信息熵的欺诈交易识别方法、系统及装置
CN113837512A (zh) * 2020-06-23 2021-12-24 中国移动通信集团辽宁有限公司 异常用户的识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345137A (zh) * 2018-10-22 2019-02-15 广东精点数据科技股份有限公司 一种基于农业大数据的异常值检测方法
US20190065991A1 (en) * 2017-08-31 2019-02-28 Accenture Global Solutions Limited Machine learning document processing
CN109409969A (zh) * 2018-10-24 2019-03-01 仲恺农业工程学院 一种企业税务欺诈检测方法、电子设备及存储介质
US20190164017A1 (en) * 2017-11-30 2019-05-30 Facebook, Inc. Random and active learning for classifier training
CN110276621A (zh) * 2019-05-21 2019-09-24 平安银行股份有限公司 数据卡反欺诈识别方法、电子装置及可读存储介质
CN110399935A (zh) * 2019-08-02 2019-11-01 哈工大机器人(合肥)国际创新研究院 基于孤立森林机器学习的机器人实时异常监测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190065991A1 (en) * 2017-08-31 2019-02-28 Accenture Global Solutions Limited Machine learning document processing
US20190164017A1 (en) * 2017-11-30 2019-05-30 Facebook, Inc. Random and active learning for classifier training
CN109345137A (zh) * 2018-10-22 2019-02-15 广东精点数据科技股份有限公司 一种基于农业大数据的异常值检测方法
CN109409969A (zh) * 2018-10-24 2019-03-01 仲恺农业工程学院 一种企业税务欺诈检测方法、电子设备及存储介质
CN110276621A (zh) * 2019-05-21 2019-09-24 平安银行股份有限公司 数据卡反欺诈识别方法、电子装置及可读存储介质
CN110399935A (zh) * 2019-08-02 2019-11-01 哈工大机器人(合肥)国际创新研究院 基于孤立森林机器学习的机器人实时异常监测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中国支付清算协会: "《中国支付清算行业运行报告 2018》", 30 June 2018, pages: 228 - 231 *
杨毅,卢诚波,徐根海: "面向不平衡数据集的一种精化Borderline-SMOTE方法", 《复旦学报(自然科学版)》, 15 October 2017 (2017-10-15), pages 537 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723950A (zh) * 2020-05-21 2021-11-30 同济大学 基于动态加权信息熵的欺诈交易识别方法、系统及装置
CN113723950B (zh) * 2020-05-21 2024-03-05 同济大学 基于动态加权信息熵的欺诈交易识别方法、系统及装置
CN113837512A (zh) * 2020-06-23 2021-12-24 中国移动通信集团辽宁有限公司 异常用户的识别方法及装置
CN111881991A (zh) * 2020-08-03 2020-11-03 联仁健康医疗大数据科技股份有限公司 一种识别欺诈的方法、装置及电子设备
CN111881991B (zh) * 2020-08-03 2023-11-10 联仁健康医疗大数据科技股份有限公司 一种识别欺诈的方法、装置及电子设备
CN112200583A (zh) * 2020-10-28 2021-01-08 交通银行股份有限公司 一种基于知识图谱的欺诈客户识别方法
CN112200583B (zh) * 2020-10-28 2023-12-19 交通银行股份有限公司 一种基于知识图谱的欺诈客户识别方法
CN112950225A (zh) * 2021-02-25 2021-06-11 中国工商银行股份有限公司 一种客户类别确定方法、装置及存储介质

Also Published As

Publication number Publication date
CN110930218B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN110930218B (zh) 一种识别欺诈客户的方法、装置及电子设备
US20160155193A1 (en) Methods and systems for automatically generating high quality adverse action notifications
CN116342259A (zh) 一种用户信用自动评级方法、装置、电子设备及介质
CN109739844B (zh) 基于衰减权重的数据分类方法
CN113177585B (zh) 一种用户分类方法、装置、电子设备及存储介质
CN111260368A (zh) 一种账户交易风险判断方法、装置及电子设备
CN111639690A (zh) 基于关系图谱学习的欺诈分析方法、系统、介质及设备
CN112561685B (zh) 客户的分类方法和装置
CN112734247A (zh) 担保授信自动审批的方法、系统、存储介质及电子设备
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN111798047A (zh) 风控预测方法、装置、电子设备及存储介质
CN114169439A (zh) 异常通信号码的识别方法、装置、电子设备和可读介质
CN107274043B (zh) 预测模型的质量评价方法、装置及电子设备
CN112926989B (zh) 一种基于多视图集成学习的银行贷款风险评估方法及设备
CN115205026A (zh) 信用评估方法、装置、设备及计算机存储介质
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN114049202A (zh) 操作风险识别方法、装置、存储介质及电子设备
CN111681090A (zh) 业务系统的账号分组方法、装置、终端设备及存储介质
CN112766824A (zh) 数据处理方法、装置、电子设备及存储介质
Giannopoulos The effectiveness of artificial credit scoring models in predicting NPLs using micro accounting data
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN114254624B (zh) 一种确定网站类型的方法及其系统
CN113537666B (zh) 评测模型训练方法、评测和业务审核方法、装置及设备
Kang Fraud Detection in Mobile Money Transactions Using Machine Learning
CN114298849A (zh) 风险识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant