CN111507382A - 样本文件的聚类方法及装置、电子设备 - Google Patents

样本文件的聚类方法及装置、电子设备 Download PDF

Info

Publication number
CN111507382A
CN111507382A CN202010251647.7A CN202010251647A CN111507382A CN 111507382 A CN111507382 A CN 111507382A CN 202010251647 A CN202010251647 A CN 202010251647A CN 111507382 A CN111507382 A CN 111507382A
Authority
CN
China
Prior art keywords
sample
clustering
sample file
file set
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010251647.7A
Other languages
English (en)
Other versions
CN111507382B (zh
Inventor
张榜
霍文虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hujin Xinrong Technology Co ltd
Original Assignee
Beijing Hujin Xinrong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hujin Xinrong Technology Co ltd filed Critical Beijing Hujin Xinrong Technology Co ltd
Priority to CN202010251647.7A priority Critical patent/CN111507382B/zh
Publication of CN111507382A publication Critical patent/CN111507382A/zh
Application granted granted Critical
Publication of CN111507382B publication Critical patent/CN111507382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种样本文件的聚类方法及装置、电子设备。其中,该方法包括:接收所有案件的样本文件集合,其中,样本文件集合中每个样本文件对应有样本基础信息;基于样本基础信息,利用预设决策树评估样本文件集合中每个样本文件之间的相关性系数;基于相关性系数,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果;基于聚类结果,确定样本文件集合中是否存在欺诈案件。本发明解决了相关技术中分析欺诈案件的时间成本高且效率低的技术问题。

Description

样本文件的聚类方法及装置、电子设备
技术领域
本发明涉及文本处理技术领域,具体而言,涉及一种样本文件的聚类方法及装置、电子设备。
背景技术
相关技术中,随着移动互联网技术和电子商务的飞速发展,促进无现金交易的飞速普及。信用卡支付因其便捷性成为当前最主流的线上支付方式之一。但由于线上交易的不可见性,其交易的安全性难以保证,使得欺诈分子有机可乘,欺诈分子的作案方式具有批量性、隐蔽性和高对抗性的特点,这使得欺诈分子能够绕过风控系统(金融风险控制系统),给用户带来巨大的损失,影响市场的健康发展。
对于很多企业来说,每天需要处理成千上万的通过信用卡支付的交易订单。为了确保交易订单的安全性,风险控制部门需要在海量的交易订单中,准确识别出信用卡信息盗用的欺诈订单。由于欺诈分子作案手段的多样化,为了尽可能减少信用卡欺诈带来的损失,及时的欺诈案件分析是最为有效的方式之一。
传统的欺诈案件分析一般需要经过三个步骤:人工分析,特征归纳,策略调整。这种分析方法存在一些局限:(1)时间成本高;人工分析需要对每笔欺诈订单进行分析,在欺诈订单量多的情况下,需要耗费较多的时间成本进行案件分析,难以做到及时性。(2)针对性低;在特征归纳中,人工归纳的特征一般比较有限(如:发卡行国籍、用户国籍等),难以对一些隐蔽的特征(如:订单产品的历史欺诈率、成功支付订单的比例等)进行针对性总结,最终影响到策略调整效果。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种样本文件的聚类方法及装置、电子设备,以至少解决相关技术中分析欺诈案件的时间成本高且效率低的技术问题。
根据本发明实施例的一个方面,提供了一种样本文件的聚类方法,包括:接收所有案件的样本文件集合,其中,所述样本文件集合中每个样本文件对应有样本基础信息;基于所述样本基础信息,利用预设决策树评估所述样本文件集合中每个样本文件之间的相关性系数;基于所述相关性系数,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果;基于所述聚类结果,确定所述样本文件集合中是否存在欺诈案件。
可选地,利用预设决策树评估所述样本文件集合中每个样本文件之间的相关性系数的步骤,包括:基于所述预设决策树构建孤立森林模型;将所述样本文件集合和每个样本文件的样本基础信息输入至所述孤立森林模型;接收所述孤立森林模型输出的每个样本文件之间的相关性系数。
可选地,在将所述样本文件集合和每个样本文件的样本基础信息输入至所述孤立森林模型之后,所述聚类方法还包括:初始化所述孤立森林模型中预设决策树的棵数和每颗决策树的高度参数;基于所述高度参数,训练每颗预设决策树,其中,所述预设决策树包括多个相互关联的叶节点;在训练完所有的预设决策树后,计算所述预设决策树中每两个样本文件位于同一叶节点的数量,以确定所有预设决策树中每相邻两个样本文件之间的相关性系数。
可选地,基于所述高度参数,训练每颗预设决策树的步骤,包括:选取所述样本文件集合中所有的样本文件;接收特征维度,并在预设决策树中的当前叶节点数据范围内随机产生一个切割点,其中,切割点的数值范围对应所述特征维度的取值范围;基于所述切割点,将当前叶节点的样本文件分割为两个叶子节点,其中,将所述特征维度下小于所述切割点的样本文件放在当前叶节点的左子节点中,将所述特征维度下大于切割点的样本文件放在当前叶节点的右子节点中;依次分割所述预设决策树上的所有叶节点,直至所述预设决策树的深度达到所述高度参数。
可选地,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果的步骤,包括:采用层次聚类方式,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果。
可选地,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果的步骤,包括:将每个样本文件确定为一个聚类簇;计算每两个聚类簇之间的平均相似度;基于所述平均相似度合并各个聚类簇,以得到所述聚类结果。
根据本发明实施例的另一方面,还提供了一种样本文件的聚类装置,包括:接收单元,用于接收所有案件的样本文件集合,其中,所述样本文件集合中每个样本文件对应有样本基础信息;评估单元,用于基于所述样本基础信息,利用预设决策树评估所述样本文件集合中每个样本文件之间的相关性系数;聚类单元,用于基于所述相关性系数,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果;确定单元,用于基于所述聚类结果,确定所述样本文件集合中是否存在欺诈案件。
可选地,所述评估单元包括:第一构建模块,用于基于所述预设决策树构建孤立森林模型;第一输入模块,用于将所述样本文件集合和每个样本文件的样本基础信息输入至所述孤立森林模型;第一接收模块,用于接收所述孤立森林模型输出的每个样本文件之间的相关性系数。
可选地,所述聚类装置还包括:初始化单元,用于在将所述样本文件集合和每个样本文件的样本基础信息输入至所述孤立森林模型之后,初始化所述孤立森林模型中预设决策树的棵数和每颗决策树的高度参数;训练单元,用于基于所述高度参数,训练每颗预设决策树,其中,所述预设决策树包括多个相互关联的叶节点;计算单元,用于在训练完所有的预设决策树后,计算所述预设决策树中每两个样本文件位于同一叶节点的数量,以确定所有预设决策树中每相邻两个样本文件之间的相关性系数。
可选地,所述训练单元包括:第一选取模块,用于选取所述样本文件集合中所有的样本文件;第二接收模块,用于接收特征维度,并在预设决策树中的当前叶节点数据范围内随机产生一个切割点,其中,切割点的数值范围对应所述特征维度的取值范围;第一分割模块,用于基于所述切割点,将当前叶节点的样本文件分割为两个叶子节点,其中,将所述特征维度下小于所述切割点的样本文件放在当前叶节点的左子节点中,将所述特征维度下大于切割点的样本文件放在当前叶节点的右子节点中;第二分割模块,用于依次分割所述预设决策树上的所有叶节点,直至所述预设决策树的深度达到所述高度参数。
可选地,所述聚类单元包括:第一聚类模块,用于采用层次聚类方式,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果。
可选地,所述聚类单元,包括:确定模块,用于将每个样本文件确定为一个聚类簇;计算模块,用于计算每两个聚类簇之间的平均相似度;合并模块,用于基于所述平均相似度合并各个聚类簇,以得到所述聚类结果。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的样本文件的聚类方法。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行上述任意一项所述的样本文件的聚类方法。
本发明实施例中,在聚类分析欺诈案件时,先接收所有案件的样本文件集合,其中,样本文件集合中每个样本文件对应有样本基础信息,基于样本基础信息,利用预设决策树评估样本文件集合中每个样本文件之间的相关性系数,基于相关性系数,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果,基于聚类结果,确定样本文件集合中是否存在欺诈案件。在该实施例中,可以采用基于预设决策树(构建孤立森林,孤立森林是一种无监督的学习方法,直接通过特征进行划分实现样本的聚集,具有强解释性)的案件聚类方式,通过无监督的聚类方式,自动聚类分析欺诈案件,不仅计算速度快,容易转化成分类规则,且分析效率较高,从而解决相关技术中分析欺诈案件的时间成本高且效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的样本文件的聚类方法的流程图;
图2是根据本发明实施例的一种可选的孤立森林的示意图;
图3是根据本发明实施例的一种可选的层次聚类树的树状图;
图4是根据本发明实施例的一种可选的样本文件的聚类装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
孤立森林(Isolation Forest,简称IF)是基于决策树的机器学习算法,具有速度快,易于转化成分类规则,可解释性强,容易处理连续和类别型变量的优点。通过特征的随机划分,识别分布稀疏并且距离高密度群体较远的点,它常用于异常值检测。但是如果在划分阈值设置合理的情况下,在一棵树中,分布在同一叶节点的样本相关性更高,在树的数量足够多的情况下,样本间的相关性可以用一起出现的概率表示。
本申请在对欺诈案件进行聚类时,利用到无监督的学习方法,且聚类所用的度量方式具有强解释性的特征(方便后续的特征归纳和策略调整),因此,本申请考虑到孤立森林是一种无监督的学习方法,可以直接通过特征进行划分实现样本的聚集,具有强解释性,因此,可以通过调整特征划分阈值在叶节点中对样本进行聚类。提高聚类分析效率。
本申请针对现有技术中聚类的缺陷:第一种,人工聚类:时间成本高,具有一定的主观性;第二种,基于距离度量的聚类方法,通过度量样本间的距离实现,适合应用于样本中均为连续型变量的情况。本申请通过计算欺诈样本文件的相关性参数,并对样本文件进行聚类分析,聚类分析解释性强,有利于策略调整。下面结合各个实施例来详细说明本发明。
实施例一
根据本发明实施例,提供了一种样本文件的聚类方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的样本文件的聚类方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,接收所有案件的样本文件集合,其中,样本文件集合中每个样本文件对应有样本基础信息;
步骤S104,基于样本基础信息,利用预设决策树评估样本文件集合中每个样本文件之间的相关性系数;
步骤S106,基于相关性系数,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果;
步骤S108,基于聚类结果,确定样本文件集合中是否存在欺诈案件。
通过上述步骤,可以在聚类分析欺诈案件时,先接收所有案件的样本文件集合,其中,样本文件集合中每个样本文件对应有样本基础信息,基于样本基础信息,利用预设决策树评估样本文件集合中每个样本文件之间的相关性系数,基于相关性系数,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果,基于聚类结果,确定样本文件集合中是否存在欺诈案件。在该实施例中,可以采用基于预设决策树(构建孤立森林,孤立森林是一种无监督的学习方法,直接通过特征进行划分实现样本的聚集,具有强解释性)的案件聚类方式,通过无监督的聚类方式,自动聚类分析欺诈案件,不仅计算速度快,容易转化成分类规则,且分析效率较高,从而解决相关技术中分析欺诈案件的时间成本高且效率低的技术问题。
下面结合上述各步骤详细说明本发明。
步骤S102,接收所有案件的样本文件集合,其中,样本文件集合中每个样本文件对应有样本基础信息。
样本文件集合中的样本文件可以是指通过无现金交易的金融交易类样本文件,该样本文件可简单理解为欺诈样本文件。
样本基础信息包括但不限于:账户信息(账号、密码)、订单信息(订单时间、订单金额、订单地址)、支付信息(支付时间、支付账号)、浏览信息(IP地址、浏览页面、链接地址)。
步骤S104,基于样本基础信息,利用预设决策树评估样本文件集合中每个样本文件之间的相关性系数。
本申请在进行聚类分析之前,首先需要计算各样本文件之间的相关性系数。
可选的,利用预设决策树评估样本文件集合中每个样本文件之间的相关性系数的步骤,包括:基于预设决策树构建孤立森林模型;将样本文件集合和每个样本文件的样本基础信息输入至孤立森林模型;接收孤立森林模型输出的每个样本文件之间的相关性系数。
欺诈样本的相关性计算中,将欺诈样本总量m(包含账户信息、订单信息、支付信息、浏览信息)输入到孤立森林模型中,计算样本间的相关性系数。
图2是根据本发明实施例的一种可选的孤立森林的示意图,如图2所示,该孤立森林包括多个预设决策树(图2中决策树1、决策树2、决策树3)。
可选的,在将样本文件集合和每个样本文件的样本基础信息输入至孤立森林模型之后,聚类方法还包括:初始化孤立森林模型中预设决策树的棵数和每颗决策树的高度参数;基于高度参数,训练每颗预设决策树,其中,预设决策树包括多个相互关联的叶节点;在训练完所有的预设决策树后,计算预设决策树中每两个样本文件位于同一叶节点的数量,以确定所有预设决策树中每相邻两个样本文件之间的相关性系数。
对于孤立森林的算法,包括:初始化决策树的棵数n,树生长的高度参数限制;训练第i棵树;训练完n棵树后,计算两两样本文件之间的相关性。
其中,对于训练第i棵树,即训练决策树。可选的,基于高度参数,训练每颗预设决策树的步骤,包括:选取样本文件集合中所有的样本文件;接收特征维度,并在预设决策树中的当前叶节点数据范围内随机产生一个切割点,其中,切割点的数值范围对应特征维度的取值范围;基于切割点,将当前叶节点的样本文件分割为两个叶子节点,其中,将特征维度下小于切割点的样本文件放在当前叶节点的左子节点中,将特征维度下大于切割点的样本文件放在当前叶节点的右子节点中;依次分割预设决策树上的所有叶节点,直至预设决策树的深度达到高度参数。
特征维度包括但不限于:发卡行国籍、用户国籍、订单产品的历史欺诈率、成功支付订单的比例等。
在训练时,包括:选择全部的欺诈样本m;接收随机指定的特征维度,在当前节点数据范围内,产生一个切割点p,其中切割点p的值来源于样本中对应特征维度的取值范围内;随机指定一个特征维度,在当前节点数据范围内,随机产生一个切割点p,其中切割点p的值来源于样本中对应特征维度的取值范围内;此切割点选取生成的超平面将当前节点的样本分为2个子节点:把当前所选维度下小于p的样本放在当前节点的左子节点中,把当前所选维度下大于p的样本放在当前节点的右子节点中;在节点的左右节点中前述分割步骤,直到叶子节点上只有一个样本或者树的深度达到所设定的高度h。
而在计算两两样本间的相关性系数时包括:从全部的欺诈样本m中选择两个样本s1,s2;搜索n棵树中样本s1,s2位于同一叶节点的数量n12;计算样本s1,s2的相关性C12=n12/n;计算所有样本两两组合的相关性系数Ctotal,相关性系数的计算公式如下:
Figure BDA0002435705650000081
其中Cii=1,i=1,2,…m。
步骤S106,基于相关性系数,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果。
本发明实施例,在样本文件的聚类中,可以采用层次聚类方法(HierarchicalAgglomerative Clustering,HAC)进行聚类。可选的,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果的步骤,包括:采用层次聚类方式,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果。
图3是根据本发明实施例的一种可选的层次聚类树的树状图,如图3所示,样本文件包括:S1、S2、S3…Sm,通过切分阈值进行聚类处理。具体聚类处理方式,可选地,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果的步骤,包括:将每个样本文件确定为一个聚类簇;计算每两个聚类簇之间的平均相似度;基于平均相似度合并各个聚类簇,以得到聚类结果。
在进行聚类处理时,包括:
(i)初始化
每一个样本文件看成单独的一簇,选择两个簇之间的平均相似度Dij作为度量标准;
计算平均相似度的公式包括:Dij=Cij(i≠j,(i,j)∈(1,k)),
其中k为当前的簇的个数;
(ii)在每次迭代中,计算簇间的平均相似度的Dij,然后进行合并,
Figure BDA0002435705650000082
其中ni,nj分别表示第i个簇和第j个簇的样本量。
Figure BDA0002435705650000083
其中Cpq表示两样本间的相关性,p,q分别表示第i个簇和第j个簇中对应的欺诈样本文件编号。
最后可以重复执行上述(ii),直到所有的样本文件合并成一个簇;确定所需的簇的个数t,得到t个类。
步骤S108,基于聚类结果,确定样本文件集合中是否存在欺诈案件。
通过本发明实施例,可以在输入样本文件后,基于预设决策树构建孤立森林,并评估各样本文件之间的相关性参数,然后进行层次性聚类分析,最后可以输出属于欺诈样本文件的样本文件,以确定样本文件集合中的欺诈案件,提高案件聚类分析的效果。
实施例二
图4是根据本发明实施例的一种可选的样本文件的聚类装置的示意图,如图4所示,该聚类装置可以包括:接收单元41、评估单元43、聚类单元45、确定单元47,欺诈,
接收单元41,用于接收所有案件的样本文件集合,其中,样本文件集合中每个样本文件对应有样本基础信息;
评估单元43,用于基于样本基础信息,利用预设决策树评估样本文件集合中每个样本文件之间的相关性系数;
聚类单元45,用于基于相关性系数,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果;
确定单元47,用于基于聚类结果,确定样本文件集合中是否存在欺诈案件。
上述样本文件的聚类装置,可以在聚类分析欺诈案件时,先通过接收单元41接收所有案件的样本文件集合,其中,样本文件集合中每个样本文件对应有样本基础信息,通过评估单元43基于样本基础信息,利用预设决策树评估样本文件集合中每个样本文件之间的相关性系数,通过聚类单元45基于相关性系数,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果,通过确定单元47基于聚类结果,确定样本文件集合中是否存在欺诈案件。在该实施例中,可以采用基于预设决策树(构建孤立森林,孤立森林是一种无监督的学习方法,直接通过特征进行划分实现样本的聚集,具有强解释性)的案件聚类方式,通过无监督的聚类方式,自动聚类分析欺诈案件,不仅计算速度快,容易转化成分类规则,且分析效率较高,从而解决相关技术中分析欺诈案件的时间成本高且效率低的技术问题。
可选地,评估单元包括:第一构建模块,用于基于预设决策树构建孤立森林模型;第一输入模块,用于将样本文件集合和每个样本文件的样本基础信息输入至孤立森林模型;第一接收模块,用于接收孤立森林模型输出的每个样本文件之间的相关性系数。
可选地,聚类装置还包括:初始化单元,用于在将样本文件集合和每个样本文件的样本基础信息输入至孤立森林模型之后,初始化孤立森林模型中预设决策树的棵数和每颗决策树的高度参数;训练单元,用于基于高度参数,训练每颗预设决策树,其中,预设决策树包括多个相互关联的叶节点;计算单元,用于在训练完所有的预设决策树后,计算预设决策树中每两个样本文件位于同一叶节点的数量,以确定所有预设决策树中每相邻两个样本文件之间的相关性系数。
可选地,训练单元包括:第一选取模块,用于选取样本文件集合中所有的样本文件;第二接收模块,用于接收特征维度,并在预设决策树中的当前叶节点数据范围内随机产生一个切割点,其中,切割点的数值范围对应特征维度的取值范围;第一分割模块,用于基于切割点,将当前叶节点的样本文件分割为两个叶子节点,其中,将特征维度下小于切割点的样本文件放在当前叶节点的左子节点中,将特征维度下大于切割点的样本文件放在当前叶节点的右子节点中;第二分割模块,用于依次分割预设决策树上的所有叶节点,直至预设决策树的深度达到高度参数。
可选地,聚类单元包括:第一聚类模块,用于采用层次聚类方式,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果。
可选地,聚类单元,包括:确定模块,用于将每个样本文件确定为一个聚类簇;计算模块,用于计算每两个聚类簇之间的平均相似度;合并模块,用于基于平均相似度合并各个聚类簇,以得到聚类结果。
上述的样本文件的聚类装置还可以包括处理器和存储器,上述接收单元41、评估单元43、聚类单元45、确定单元47等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果,分析欺诈案件。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的样本文件的聚类方法。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,计算机存储介质包括存储的程序,其中,在程序运行时控制计算机存储介质所在设备执行上述任意一项的样本文件的聚类方法。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:接收所有案件的样本文件集合,其中,样本文件集合中每个样本文件对应有样本基础信息;基于样本基础信息,利用预设决策树评估样本文件集合中每个样本文件之间的相关性系数;基于相关性系数,对样本文件集合中所有的样本文件进行聚类处理,得到聚类结果;基于聚类结果,确定样本文件集合中是否存在欺诈案件。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种样本文件的聚类方法,其特征在于,包括:
接收所有案件的样本文件集合,其中,所述样本文件集合中每个样本文件对应有样本基础信息;
基于所述样本基础信息,利用预设决策树评估所述样本文件集合中每个样本文件之间的相关性系数;
基于所述相关性系数,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果;
基于所述聚类结果,确定所述样本文件集合中是否存在欺诈案件。
2.根据权利要求1所述的聚类方法,其特征在于,利用预设决策树评估所述样本文件集合中每个样本文件之间的相关性系数的步骤,包括:
基于所述预设决策树构建孤立森林模型;
将所述样本文件集合和每个样本文件的样本基础信息输入至所述孤立森林模型;
接收所述孤立森林模型输出的每个样本文件之间的相关性系数。
3.根据权利要求2所述的聚类方法,其特征在于,在将所述样本文件集合和每个样本文件的样本基础信息输入至所述孤立森林模型之后,所述聚类方法还包括:
初始化所述孤立森林模型中预设决策树的棵数和每颗决策树的高度参数;
基于所述高度参数,训练每颗预设决策树,其中,所述预设决策树包括多个相互关联的叶节点;
在训练完所有的预设决策树后,计算所述预设决策树中每两个样本文件位于同一叶节点的数量,以确定所有预设决策树中每相邻两个样本文件之间的相关性系数。
4.根据权利要求3所述的聚类方法,其特征在于,基于所述高度参数,训练每颗预设决策树的步骤,包括:
选取所述样本文件集合中所有的样本文件;
接收特征维度,并在预设决策树中的当前叶节点数据范围内随机产生一个切割点,其中,切割点的数值范围对应所述特征维度的取值范围;
基于所述切割点,将当前叶节点的样本文件分割为两个叶子节点,其中,将所述特征维度下小于所述切割点的样本文件放在当前叶节点的左子节点中,将所述特征维度下大于切割点的样本文件放在当前叶节点的右子节点中;
依次分割所述预设决策树上的所有叶节点,直至所述预设决策树的深度达到所述高度参数。
5.根据权利要求1所述的聚类方法,其特征在于,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果的步骤,包括:
采用层次聚类方式,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果。
6.根据权利要求1所述的聚类方法,其特征在于,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果的步骤,包括:
将每个样本文件确定为一个聚类簇;
计算每两个聚类簇之间的平均相似度;
基于所述平均相似度合并各个聚类簇,以得到所述聚类结果。
7.一种样本文件的聚类装置,其特征在于,包括:
接收单元,用于接收所有案件的样本文件集合,其中,所述样本文件集合中每个样本文件对应有样本基础信息;
评估单元,用于基于所述样本基础信息,利用预设决策树评估所述样本文件集合中每个样本文件之间的相关性系数;
聚类单元,用于基于所述相关性系数,对所述样本文件集合中所有的样本文件进行聚类处理,得到聚类结果;
确定单元,用于基于所述聚类结果,确定所述样本文件集合中是否存在欺诈案件。
8.根据权利要求7所述的聚类装置,其特征在于,所述评估单元包括:
第一构建模块,用于基于所述预设决策树构建孤立森林模型;
第一输入模块,用于将所述样本文件集合和每个样本文件的样本基础信息输入至所述孤立森林模型;
第一接收模块,用于接收所述孤立森林模型输出的每个样本文件之间的相关性系数。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任意一项所述的样本文件的聚类方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行权利要求1至6中任意一项所述的样本文件的聚类方法。
CN202010251647.7A 2020-04-01 2020-04-01 样本文件的聚类方法及装置、电子设备 Active CN111507382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010251647.7A CN111507382B (zh) 2020-04-01 2020-04-01 样本文件的聚类方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010251647.7A CN111507382B (zh) 2020-04-01 2020-04-01 样本文件的聚类方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN111507382A true CN111507382A (zh) 2020-08-07
CN111507382B CN111507382B (zh) 2023-05-05

Family

ID=71864020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010251647.7A Active CN111507382B (zh) 2020-04-01 2020-04-01 样本文件的聚类方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN111507382B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095238A (zh) * 2014-05-04 2015-11-25 中国银联股份有限公司 用于检测欺诈交易的决策树生成方法
CN105760888A (zh) * 2016-02-23 2016-07-13 重庆邮电大学 一种基于属性聚类的邻域粗糙集集成学习方法
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology
CN108596630A (zh) * 2018-04-28 2018-09-28 招商银行股份有限公司 基于深度学习的欺诈交易识别方法、系统及存储介质
CN109035003A (zh) * 2018-07-04 2018-12-18 北京玖富普惠信息技术有限公司 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
CN109086453A (zh) * 2018-08-29 2018-12-25 华中科技大学 一种从邻居实例中提取标签相关性的方法及系统
CN109919781A (zh) * 2019-01-24 2019-06-21 平安科技(深圳)有限公司 团伙欺诈案件识别方法、电子装置及计算机可读存储介质
CN110162970A (zh) * 2019-01-08 2019-08-23 腾讯科技(深圳)有限公司 一种程序处理方法、装置以及相关设备
CN110555455A (zh) * 2019-06-18 2019-12-10 东华大学 一种基于实体关系的在线交易欺诈检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095238A (zh) * 2014-05-04 2015-11-25 中国银联股份有限公司 用于检测欺诈交易的决策树生成方法
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology
CN105760888A (zh) * 2016-02-23 2016-07-13 重庆邮电大学 一种基于属性聚类的邻域粗糙集集成学习方法
CN108596630A (zh) * 2018-04-28 2018-09-28 招商银行股份有限公司 基于深度学习的欺诈交易识别方法、系统及存储介质
CN109035003A (zh) * 2018-07-04 2018-12-18 北京玖富普惠信息技术有限公司 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
CN109086453A (zh) * 2018-08-29 2018-12-25 华中科技大学 一种从邻居实例中提取标签相关性的方法及系统
CN110162970A (zh) * 2019-01-08 2019-08-23 腾讯科技(深圳)有限公司 一种程序处理方法、装置以及相关设备
CN109919781A (zh) * 2019-01-24 2019-06-21 平安科技(深圳)有限公司 团伙欺诈案件识别方法、电子装置及计算机可读存储介质
CN110555455A (zh) * 2019-06-18 2019-12-10 东华大学 一种基于实体关系的在线交易欺诈检测方法

Also Published As

Publication number Publication date
CN111507382B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN107423613B (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN109035003A (zh) 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
CN109739844B (zh) 基于衰减权重的数据分类方法
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN113139876B (zh) 风险模型训练方法、装置、计算机设备及可读存储介质
CN114187036B (zh) 一种基于行为特征识别的互联网广告智能推荐管理系统
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
CN113052577A (zh) 一种区块链数字货币虚拟地址的类别推测方法及系统
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN114626925A (zh) 金融产品的推荐方法及其装置、电子设备及存储介质
CN114399367A (zh) 保险产品推荐方法、装置、设备及存储介质
CN112801784A (zh) 一种数字货币交易所的比特币地址挖掘方法及装置
CN111784360B (zh) 一种基于网络链接回溯的反欺诈预测方法及系统
CN112132589A (zh) 一种基于多次融合构建欺诈识别模型的方法
CN113656692B (zh) 基于知识迁移算法的产品推荐方法、装置、设备及介质
CN111507382B (zh) 样本文件的聚类方法及装置、电子设备
CN115965468A (zh) 基于交易数据的异常行为检测方法、装置、设备及介质
CN114998001A (zh) 业务类别识别方法、装置、设备、存储介质和程序产品
CN113988878A (zh) 一种基于图数据库技术的反欺诈方法及系统
CN110033031B (zh) 群组检测方法、装置、计算设备和机器可读存储介质
CN114626940A (zh) 数据分析方法、装置及电子设备
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN113688206A (zh) 基于文本识别的趋势分析方法、装置、设备及介质
CN106682985A (zh) 一种金融诈骗识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant