CN107545422B - 一种套现检测方法及装置 - Google Patents

一种套现检测方法及装置 Download PDF

Info

Publication number
CN107545422B
CN107545422B CN201710651680.7A CN201710651680A CN107545422B CN 107545422 B CN107545422 B CN 107545422B CN 201710651680 A CN201710651680 A CN 201710651680A CN 107545422 B CN107545422 B CN 107545422B
Authority
CN
China
Prior art keywords
merchant
detected
attribute information
transaction record
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710651680.7A
Other languages
English (en)
Other versions
CN107545422A (zh
Inventor
胡一非
赵金涛
邱雪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201710651680.7A priority Critical patent/CN107545422B/zh
Publication of CN107545422A publication Critical patent/CN107545422A/zh
Application granted granted Critical
Publication of CN107545422B publication Critical patent/CN107545422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及信用卡金融领域,尤其涉及一种套现检测方法及装置。该方法包括:获取待测商户的属性信息和交易记录信息,属性信息包括待测商户的商户类型;然后根据待测商户的商户类型,从预设数据库中确定出与待测商户的商户类型相同的正常样本商户并获取确定出的正常样本商户的属性信息和交易记录信息;最后,根据待测商户的属性信息和交易记录信息以及正常样本商户的属性信息和交易记录信息检测待测商户是否为套现商户。本申请实现了从商户维度进行套现检测,从而使得检测方法更加科学有效。

Description

一种套现检测方法及装置
技术领域
本发明涉及信用卡金融领域,尤其涉及一种套现检测方法及装置。
背景技术
随着全球经济的快速发展,人们的消费水平也在不断提高,信用卡作为一种金融产品,具有方便快捷、提前消费、分期付款等优点,越来越多的人选择使用信用卡。然而信用卡也存在一些安全隐患,比如信用卡套现。信用卡套现是指持卡人不是通过正常合法手续提取现金,而通过其他手段将卡中信用额度内的资金以现金的方式套取,同时又不支付银行提现费用的行为。信用卡套现会会增加金融风险,不利用金融秩序的稳定,给银行资金安全带来极大风险。为了避免这一问题,需要及时识别信用卡套现的行为。
目前,现有技术中已有的解决方案是从交易维度着手,通过传统的规则引擎识别潜在的套现交易,但这种基于规则的套现检测方法极度信赖由人工制订的过滤规则,需要有大量从业经验的专业人员来完成,且规则模式单一,不能适应不断进化的套现交易,因此存在着准确度低,适用范围小的缺点。后续出现的基于机器学习的方法,在规则引擎的基础上引入了机器学习方法,用集群服务器发掘套现交易内部的规律,作为规则引擎的补充,在一定程度上提升了套现检测的准确率与成功率,但单笔交易之间存在着无法预估的关联与影响,通过对单笔交易进行建模来识别套现交易的难度大。
综上,目前亟需一种套现检测方法的方法,用于解决现有技术中对单笔交易进行建模来识别套现交易的难度大的问题。
发明内容
本发明实施例提供一种套现检测方法和装置,以解决现有技术中套现检测的目标多集中在交易层面而导致检测难度大的问题。
本发明实施例提供一种套现检测,包括:
获取待测商户的属性信息和交易记录信息;所述属性信息包括所述待测商户的商户类型;
根据所述待测商户的商户类型,从预设数据库中确定出与所述待测商户的商户类型相同的正常样本商户并获取确定出的正常样本商户的属性信息和交易记录信息;
根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息检测所述待测商户是否为套现商户。
可选地,根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息检测所述待测商户是否为套现商户,包括:
根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息,对所述待测商户和所述正常样本商户进行聚类分析,得到所述待测商户的第一套现检测结果;以及,将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,得到所述待测商户的第二套现检测结果;以及,判断所述待测商户的属性信息和交易记录信息是否符合检测条件,得到所述待测商户的第三套现检测结果,其中,所述检测条件是根据所述正常样本商户的属性信息和交易记录信息得到的;
根据所述待测商户的第一套现检测结果、第二套现检测结果和第三套现检测结果,确定所述待测商户是否为套现商户。
可选地,对所述待测商户和所述正常样本商户进行聚类分析,得到所述待测商户的第一套现检测结果,包括:
对所述待测商户和所述正常样本商户进行聚类分析得到多个类别,若所述待测商户所在的类别中的商户个数大于等于所述多个类别中任一类别中的商户个数,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户;
将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,得到所述待测商户的第二套现检测结果,包括:
将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,确定与所述待测商户相似的正常样本商户的个数,若与所述待测商户相似的正常样本商户的个数大于个数阈值,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户;
判断所述待测商户的属性信息和交易记录信息是否符合检测条件,得到所述待测商户的第三套现检测结果,包括:
判断所述待测商户的属性信息和交易记录信息是否符合检测条件,若是,则确定所述待测商户为套现商户,否则,确定所述待测商户为正常商户。
可选地,获取待测商户的属性信息之后,还包括:
根据所述待测商户所属的商户类型,从预设数据库中获取到与所述待测商户的商户类型相同的套现样本商户以及所述套现样本商户的属性信息和交易记录信息;
根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息检测出所述待测商户为正常商户之后,还包括:
将样本商户的属性信息和交易记录信息以及所述样本商户的套现标签值输入预设的随机森林模型,训练得到优化后的随机森林模型;其中,所述样本商户包括所述正常样本商户和所述套现样本商户,所述套现标签值用于标识所述样本商户为正常样本商户或套现样本商户;以及将所述待测商户的属性信息和交易记录信息输入优化后的随机森林模型,得到所述待测商户为套现商户的概率值;
将样本商户的属性信息和交易记录信息以及所述样本商户的历史套现次数输入预设的迭代决策树(Gradient Boosting Decision Tree,GBDT)模型,训练得到优化后的GBDT模型;以及将所述待测商户的属性信息和交易记录信息输入优化后的GBDT模型,得到所述待测商户的套现次数;
根据所述待测商户为套现商户的概率值以及所述待测商户的套现次数,确定所述待测商户是否为套现商户。
可选地,所述属性信息还包括以下任一项或任意组合:
所在地、注册资本、营业规模、企业性质、信用等级;
所述交易记录信息包括以下任一项或任意组合:
每日交易金额标准差、每日交易笔数标准差、最大单日交易金额、最大单日交易笔数、单日交易金额中位数、单日交易金额平均数、单日交易次数中位数、单日交易次数平均数。
本发明实施例提供一种套现检测的装置,包括:
获取单元,用于获取待测商户的属性信息和交易记录信息;所述属性信息包括所述待测商户的商户类型;
所述获取单元,还用于根据所述待测商户的商户类型,从预设数据库中确定出与所述待测商户的商户类型相同的正常样本商户并获取确定出的所述正常样本商户的属性信息和交易记录信息;
检测单元,用于根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息检测所述待测商户是否为套现商户。
可选地,所述检测单元具体用于:
根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息,对所述待测商户和所述正常样本商户进行聚类分析,得到所述待测商户的第一套现检测结果;以及,将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,得到所述待测商户的第二套现检测结果;以及,判断所述待测商户的属性信息和交易记录信息是否符合检测条件,得到所述待测商户的第三套现检测结果,其中,所述检测条件是根据所述正常样本商户的属性信息和交易记录信息得到的;
根据所述待测商户的第一套现检测结果、第二套现检测结果和第三套现检测结果,确定所述待测商户是否为套现商户。
可选地,所述检测单元具体用于:
对所述待测商户和所述正常样本商户进行聚类分析得到多个类别,若所述待测商户所在的类别中的商户个数大于等于所述多个类别中任一类别中的商户个数,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户;
将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,确定与所述待测商户相似的正常样本商户的个数,若与所述待测商户相似的正常样本商户的个数大于个数阈值,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户;
判断所述待测商户的属性信息和交易记录信息是否符合检测条件,若是,则确定所述待测商户为套现商户,否则,确定所述待测商户为正常商户。
可选地,所述获取单元还用于:
在获取待测商户的属性信息之后,根据所述待测商户所属的商户类型,从预设数据库中获取到与所述待测商户的商户类型相同的套现样本商户以及所述套现样本商户的属性信息和交易记录信息;
所述检测单元检测出所述待测商户为正常商户之后,还用于:
将样本商户的属性信息和交易记录信息以及所述样本商户的套现标签值输入预设的随机森林模型,训练得到优化后的随机森林模型;其中,所述样本商户包括所述正常样本商户和所述套现样本商户,所述套现标签值用于标识所述样本商户为正常样本商户或套现样本商户;以及将所述待测商户的属性信息和交易记录信息输入优化后的随机森林模型,得到所述待测商户为套现商户的概率值;
将样本商户的属性信息和交易记录信息以及所述样本商户的历史套现次数输入预设的GBDT模型,训练得到优化后的GBDT模型;以及将所述待测商户的属性信息和交易记录信息输入优化后的GBDT模型,得到所述待测商户的套现次数;
根据所述待测商户为套现商户的概率值以及所述待测商户的套现次数,确定所述待测商户是否为套现商户。
可选地,所述属性信息还包括以下任一项或任意组合:
所在地、注册资本、营业规模、企业性质、信用等级;
所述交易记录信息包括以下任一项或任意组合:
每日交易金额标准差、每日交易笔数标准差、最大单日交易金额、最大单日交易笔数、单日交易金额中位数、单日交易金额平均数、单日交易次数中位数、单日交易次数平均数。
本发明实施例中,获取待测商户的属性信息和交易记录信息,属性信息包括待测商户的商户类型;然后根据待测商户的商户类型,从预设数据库中获取到与待测商户的商户类型相同的正常样本商户以及正常样本商户的属性信息和交易记录信息;最后,根据待测商户的属性信息和交易记录信息以及正常样本商户的属性信息和交易记录信息检测待测商户是否为套现商户。由此可知,本申请将检测的维度从单一的交易维度扩展到商户维度,能够扩充套现检测方法的信息量,避免现有技术中基于交易维度进行检测时由于信息量匮乏而引起的模型欠拟合的问题,从而提高检测的准确性;进一步地,本申请根据待测商户的商户类型,从预设数据库中确定出与待测商户的商户类型相同的正常样本商户,由于确定出的正常样本商户与待测商户的商户类型相同,因此,基于正常样本商户的属性信息和交易记录信息来检测待测商户是否为套现商户具有一定的科学依据,使得检测结果合理可信;且由于本申请中的检测方法充分考虑了商户的属性信息和交易记录信息等多个维度,可以看出检测的依据较为全面,进一步保证了检测的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种套现检测方法流程示意图;
图2为本发明实施例提供的一种确定待测商户是否套现的流程示意图;
图3为本发明实施例提供的一种套现检测流程示意图;
图4为本发明实施例提供的一种基于模型训练的套现检测方法的示意图;
图5为本发明实施例提供的一种整体的套现检测流程示意图;
图6为本发明实施例提供的一种套现检测的装置。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示例性示出了本发明实施例提供的一种套现检测方法流程示意图,包括以下步骤:
步骤101,获取待测商户的属性信息和交易记录信息;属性信息包括所述待测商户的商户类型。
步骤102,根据待测商户的商户类型,从预设数据库中确定出与待测商户的商户类型相同的正常样本商户并获取确定出的正常样本商户的属性信息和交易记录信息。
步骤103,根据待测商户的属性信息和交易记录信息以及正常样本商户的属性信息和交易记录信息检测待测商户是否为套现商户。
本申请将检测的维度从单一的交易维度扩展到商户维度,能够扩充套现检测方法的信息量,避免现有技术中基于交易维度进行检测时由于信息量匮乏而引起的模型欠拟合的问题,从而提高检测的准确性;进一步地,本申请根据待测商户的商户类型,从预设数据库中确定出与待测商户的商户类型相同的正常样本商户,由于确定出的正常样本商户与待测商户的商户类型相同,因此,基于正常样本商户的属性信息和交易记录信息来检测待测商户是否为套现商户具有一定的科学依据,使得检测结果合理可信;且由于本申请中的检测方法充分考虑了商户的属性信息和交易记录信息等多个维度,可以看出检测的依据较为全面,进一步保证了检测的准确性。本申请采用的检测方法既是对套现交易检测的补充与协助,同时也填补了套现检测体系中针对商户检测的空白。
本发明实施例中,商户的属性信息包括商户的商户类型,进一步地,还可以包括商户的所在地、注册资本、营业规模、企业性质、信用等级等信息。以注册资本为例,考虑到注册资本的数据分布范围较大,为避免数据处理的复杂度,本申请中,可根据注册资本的数值大小将注册资本划分为多个等级,例如,将注册资本的数值在(0-2000000]这一范围内划分为第一等级,将注册资本的数值在(2000000-8000000]这一范围内划分为第二等级,将注册资本的数值大于8000000的划分为第三等级,从而有效地简化了注册资本。其它内容(例如注册时间)也可以进行类似简化,具体不再赘述。
举个例子,商户A为中餐馆,注册时间为2001年1月20日,注册资金为100万,属于民营企业,信用等级较差;商户B为连锁酒店,注册时间为2005年3月5日,注册资金为500万,属于民营企业,信用等级一般;商户C为百货商场,注册时间为2009年1月17日,注册资金为1000万,属于民营企业,信用等级较好。如表1所示,为商户的属性信息在简化之前的内容示意。
表1:商户的属性信息在简化之前的内容示意
进一步地,对上述信息进行简化,如表2所示,为商户的属性信息在简化之前的内容示意。
表2:商户的属性信息在简化之前的内容示意
本发明实施例中,商户的交易记录信息可以是根据商户的具体交易记录得到的,具体来说,商户的交易记录信息可以包括商户的每日交易金额标准差、每日交易笔数标准差、最大单日交易金额、最大单日交易笔数、单日交易金额中位数、单日交易金额平均数、单日交易次数中位数、单日交易次数平均数等信息。如图3所示,为商户的交易记录信息示意。
表3:商户的交易记录信息示意
本发明实施例中,预设数据库可存储有预先获取到的多个样本商户的属性信息和交易记录信息,多个样本商户具体包括正常样本商户和套现样本商户,其中,正常样本商户是指没有套现交易的样本商户;套现样本商户是指有套现交易的商户。
考虑到可作为样本的商户数量庞大,且实际生活中,正常样本商户远远多于套现样本商户,因此,在获取多个样本商户的属性信息和交易记录信息时,可以按一定比例抽取正常样本商户和套现样本商户的属性信息和交易记录信息。具体实施中,该比例值可以根据实际情况设置,为了提高检测结果的准确性,可选的,该比例值可以在1:10至1:100之间。进一步地,本发明实施例中,还可以利用现有技术中存在的数据清洗方法对获取的数据进行清洗,在此不再赘述。
在上述步骤101中,获取待测商户的属性信息和交易记录信息,进而在步骤102中,根据待测商户的商户类型,从预设数据库中确定出与待测商户的商户类型相同的正常样本商户并获取确定出的正常样本的属性信息和交易记录信息。
举个例子,待测商户的商户类型为餐饮业,则从预设数据库所包括的样本商户中确定出所有商户类型为餐饮业的正常样本商户,具体为正常样本商户1、正常样本商户2、正常样本商户3,并获取正常样本商户1、正常样本商户2、正常样本商户3的属性信息和交易记录信息。
步骤103中,根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息检测所述待测商户是否为套现商户的方法可以有多种,例如,对待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息进行统计分析,进而确定待测商户是否为套现商户。本发明实施例中具体列举如下几种可能的实现方式。
方式一:
根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息,对所述待测商户和所述正常样本商户进行聚类分析,得到所述待测商户的第一套现检测结果,进而根据第一套现检测结果确定待测商户是否为套现商户。
具体来说,对所述待测商户和所述正常样本商户进行聚类分析后,得到多个类别,若所述待测商户所在的类别中的商户个数大于等于所述多个类别中任一类别中的商户个数,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户。
举个例子,对待测商户和正常样本商户进行聚类分析后,得到3个类别,例如对待测商户A与正常样本商户1~6进行聚类分析,具体地,就是根据待测商户A的属性信息和交易记录信息与正常样本商户1~6的属性信息和交易记录信息,将待测商户A和正常样本商户1~6进行分类,例如分类结果为待测商户A与样本1、样本3分为一类,样本2与样本6分为一类,样本4与样本5分为一类,此时,待测商户A所在的类别中商户的个数(3个)大于其它两个类别中商户的个数,因此,待测商户A为正常商户。
方式二:
将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,得到所述待测商户的第二套现检测结果,进而根据第二套现检测结果确定待测商户是否为套现商户。
具体来说,将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,确定与所述待测商户相似的正常样本商户的个数,若与所述待测商户相似的正常样本商户的个数大于个数阈值,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户。其中,个数阈值可以由本领域技术人员根据实际情况和经验来确定,具体不做限定。
举个例子,如图2所示,为方式二的具体流程示意图,将待测商户A与n个正常商户进行比较,若待测商户A与某个正常商户的相似度大于相似度阈值,则计数;若小于相似度阈值,则不计数。统计所有大于相似度阈值的个数,若该个数大于个数阈值,则确定待测商户为正常商户,否则,确定待测商户为套现商户。其中,本发明不对相似度阈值和个数阈值做具体限定,具体实施中可以根据实际情况自行设置。
方式三:
判断所述待测商户的属性信息和交易记录信息是否符合检测条件,得到所述待测商户的第三套现检测结果,进而根据第二套现检测结果确定待测商户是否为套现商户。
具体来说,根据所述正常样本商户的属性信息和交易记录信息确定出检测条件,检测条件指的是待测商户和正常样本商户中存在异常的情况,本发明不对检测条件做具体的限定,例如,检测条件可以为所有交易记录为信用卡交易,也可以为所有交易时间为夜间20点至24点。
判断所述待测商户的属性信息和交易记录信息是否符合检测条件,若是,则确定所述待测商户为套现商户,否则,确定所述待测商户为正常商户。
方式四:
图3示例性示出了本发明实施例提供的一种套现检测流程示意图,如图3所示,根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息,对所述待测商户和所述正常样本商户进行聚类分析,得到所述待测商户的第一套现检测结果;以及,将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,得到所述待测商户的第二套现检测结果;以及,判断所述待测商户的属性信息和交易记录信息是否符合检测条件,得到所述待测商户的第三套现检测结果,其中,所述检测条件是根据所述正常样本商户的属性信息和交易记录信息得到的;进而根据所述待测商户的第一套现检测结果、第二套现检测结果和第三套现检测结果,确定所述待测商户是否为套现商户。
需要说明的是,方式四种三种检测方式不分先后顺序,可以同时进行,也就是说,对待测商户和正常样本商户进行聚类分析得到第一套现检测结果的过程和将待测商户的属性信息和交易记录信息与正常样本商户的属性信息和交易记录信息进行比较得到第二套现检测结果的过程以及判断待测商户的属性信息和交易记录信息是否符合检测条件得到第三套现检测结果的过程是三个独立的过程,可以同时发生,不分先后顺序。
其中,根据所述待测商户的第一套现检测结果、第二套现检测结果和第三套现检测结果,确定所述待测商户是否为套现商户时可以采用投票方式。例如,投票方式可以是一票否决,只要有一个检测结果为待测商户为套现商户,就确定待测商户为套现商户;也可以是少数服从多数,有两个或两个以上的检测结果为待测商户为套现商户,确定待测商户为套现商户;还可以是全票通过,只有三个检测结果均为待测商户为套现商户,才能确定待测商户为套现商户。
由于上述方式四中综合考虑了三种不同的检测方法,由于这三种检测方法是三个独立的流程,因此生成的检测结果相互影响的可能性很小,从而使得检测结果更为准确。
需要说明的是,上述四种方式仅为示例性说明,本申请中也可以是根据第一套现检测结果和第二套现检测结果确定所述待测商户是否为套现商户,或者根据第二套现检测结果和第三套现检测结果确定所述待测商户是否为套现商户,具体不做限定。
如上文所述,本发明中套现检测的结果可能有两种:(1)待测商户为套现商户;(2)待测商户为正常商户。
考虑到当上述步骤103的检测出待测商户为正常商户时,为了提高本发明套现检测的准确性,本发明实施例还包括对待测商户进行进一步的检测。
具体来说,在上述步骤101中获取到待测商户所属的商户类型后,还可以从预设数据库中确定出与待测商户的商户类型相同的套现样本商户并获取确定出的套现样本商户的属性信息和交易记录信息。
需要说明的是,本发明实施例中,可以是在上述步骤102中,根据待测商户所属的商户类型,从预设数据库中确定出与待测商户的商户类型相同的样本商户(包括正常样本商户和套现样本商户),并获取确定出的样本商户的属性信息和交易记录信息。或者,也可以是在上述步骤102中,仅根据待测商户所属的商户类型,从预设数据库中确定出与待测商户的商户类型相同的正常样本商户,并获取确定出的正常样本商户的属性信息和交易记录信息,而在检测到待测商户为正常商户后,再根据待测商户所属的商户类型,从预设数据库中确定出与待测商户的商户类型相同的套现样本商户,并获取确定出的套现样本商户的属性信息和交易记录信息,采用这种方式,在检测到待测商户为正常商户后,方可确定套现样本商户,而在检测到待测商户为套现商户后,无需再确定套现样本商户,从而能够降低处理负担。
进一步地,基于获取到的样本商户(包括正常样本商户和套现样本商户)的属性信息和交易记录信息对待测商户进行进一步检测的具体方式可以有多种,下面具体列举几种可能的实现方式。
方式一:
将样本商户(包括正常样本商户和套现样本商户)的属性信息和交易记录信息以及样本商户的套现标签值输入预设的随机森林模型,训练得到优化后的随机森林模型;然后将待测商户的属性信息和交易记录信息输入优化后的随机森林模型,得到待测商户为套现商户的概率值;进而根据待测商户为套现商户的概率值确定待测商户是否为套现商户。
具体来说,将样本商户的属性信息和交易记录信息以及样本商户的套现标签值作为预设的随即森林模型的输入,运用机器学习算法来实现对随机森林模型的训练,经过多次训练与测试之后,最终得到优化后的随机森林模型。其中,样本商户包括正常样本商户和套现样本商户,套现标签值用于标识样本商户为正常样本商户或套现样本商户,一种可能的实现方式,设定样本商户为正常样本商户时,套现标签值为0;样本商户为套现样本商户时,套现标签值为1。当待测商户为套现商户的概率值大于50%,确定待测商户为套现商户;当待测商户为套现商户的概率值小于50%,确定待测商户为正常商户。
方式二:
将样本商户(包括正常样本商户和套现样本商户)的属性信息和交易记录信息以及样本商户的套现标签值输入预设的GBDT模型,训练得到优化后的GBDT模型;然后将待测商户的属性信息和交易记录信息输入优化后的GBDT模型,得到待测商户的套现次数;进而根据待测商户为套现商户的套现次数确定待测商户是否为套现商户。
具体来说,将样本商户的属性信息和交易记录信息以及样本商户的套现标签值作为预设的GBDT模型的输入,运用机器学习算法来实现对GBDT模型的训练,经过多次训练与测试之后,最终得到优化后的GBDT模型。其中,样本商户包括正常样本商户和套现样本商户,套现次数指的是一个商户在一段时间内发生套现交易的次数。当待测商户为套现商户的套现次数大于次数阈值,确定待测商户为套现商户;当待测商户为套现商户的套现次数小于于次数阈值,确定待测商户为正常商户,其中,本申请不对次数阈值做具体限定,可以根据实际情况自行设定。
方式三:
图4示例性示出了本发明实施例提供的一种基于模型训练的套现检测方法示意图,如图4所示,将样本商户(包括正常样本商户和套现样本商户)的属性信息和交易记录信息以及样本商户的套现标签值输入预设的随机森林模型,训练得到优化后的随机森林模型,然后将待测商户的属性信息和交易记录信息输入优化后的随机森林模型,得到待测商户为套现商户的概率值;将样本商户(包括正常样本商户和套现样本商户)的属性信息和交易记录信息以及样本商户的套现标签值输入预设的GBDT模型,训练得到优化后的GBDT模型,然后将待测商户的属性信息和交易记录信息输入优化后的GBDT模型,得到待测商户的套现次数;进而根据待测商户为套现商户的概率值以及待测商户为套现商户的套现次数确定待测商户是否为套现商户。
其中,根据待测商户为套现商户的概率值和待测商户为套现商户的套现次数,确定所述待测商户是否为套现商户时可以采用多种方式。例如,只要有一次评价待测商户为套现商户,则确定待测商户为套现商户;或者,两次评价待测商户均为套现商户,则确定待测商户为套现商户。
由于上述方式三中综合考虑了两种不同的检测模型,由于这两种检测模型是相互独立的,因此生成的检测结果相互影响的可能性很小,从而使得检测结果具有更高的置信度。
图5为本发明实施例提供的一种整体的套现检测流程示意图,具体可结合上述描述,此处不再赘述。
本申请将检测的维度从单一的交易维度扩展到商户维度,能够扩充套现检测方法的信息量,避免现有技术中基于交易维度进行检测时由于信息量匮乏而引起的模型欠拟合的问题,从而提高检测的准确性;进一步地,本申请根据待测商户的商户类型,从预设数据库中确定出与待测商户的商户类型相同的正常样本商户,由于确定出的正常样本商户与待测商户的商户类型相同,因此,基于正常样本商户的属性信息和交易记录信息来检测待测商户是否为套现商户具有一定的科学依据,使得检测结果合理可信;且由于本申请中的检测方法充分考虑了商户的属性信息和交易记录信息等多个维度,可以看出检测的依据较为全面,进一步保证了检测的准确性。
图6示例性示出了本发明实施例提供的一种套现检测的装置,如图6所示,包括获取单元601、检测单元602;其中,
获取单元601,用于获取待测商户的属性信息和交易记录信息;所述属性信息包括所述待测商户的商户类型;
所述获取单元601,还用于根据所述待测商户的商户类型,从预设数据库中确定出与所述待测商户的商户类型相同的正常样本商户并获取确定出的所述正常样本商户的属性信息和交易记录信息;
检测单元602,用于根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息检测所述待测商户是否为套现商户。
本申请将检测的维度从单一的交易维度扩展到商户维度,能够扩充套现检测方法的信息量,避免现有技术中基于交易维度进行检测时由于信息量匮乏而引起的模型欠拟合的问题,从而提高检测的准确性;进一步地,本申请根据待测商户的商户类型,从预设数据库中确定出与待测商户的商户类型相同的正常样本商户,由于确定出的正常样本商户与待测商户的商户类型相同,因此,基于正常样本商户的属性信息和交易记录信息来检测待测商户是否为套现商户具有一定的科学依据,使得检测结果合理可信;且由于本申请中的检测方法充分考虑了商户的属性信息和交易记录信息等多个维度,可以看出检测的依据较为全面,进一步保证了检测的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种套现商户检测方法,其特征在于,所述方法包括:
获取待测商户的属性信息和交易记录信息;所述属性信息包括所述待测商户的商户类型;
根据所述待测商户的商户类型,从预设数据库中确定出与所述待测商户的商户类型相同的正常样本商户并获取确定出的正常样本商户的属性信息和交易记录信息,所述预设数据库存储有预先获取到的多个样本商户的属性信息和交易记录信息,多个样本商户包括正常样本商户和套现样本商户;
根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息,对所述待测商户和所述正常样本商户进行聚类分析,得到所述待测商户的第一套现检测结果;以及,将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,得到所述待测商户的第二套现检测结果;以及,判断所述待测商户的属性信息和交易记录信息是否符合检测条件,得到所述待测商户的第三套现检测结果,其中,所述检测条件是根据所述正常样本商户的属性信息和交易记录信息得到的;
根据所述待测商户的第一套现检测结果、第二套现检测结果和第三套现检测结果,确定所述待测商户是否为套现商户。
2.如权利要求1所述的方法,其特征在于,对所述待测商户和所述正常样本商户进行聚类分析,得到所述待测商户的第一套现检测结果,包括:
对所述待测商户和所述正常样本商户进行聚类分析得到多个类别,若所述待测商户所在的类别中的商户个数大于等于所述多个类别中任一类别中的商户个数,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户;
将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,得到所述待测商户的第二套现检测结果,包括:
将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,确定与所述待测商户相似的正常样本商户的个数,若与所述待测商户相似的正常样本商户的个数大于个数阈值,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户;
判断所述待测商户的属性信息和交易记录信息是否符合检测条件,得到所述待测商户的第三套现检测结果,包括:
判断所述待测商户的属性信息和交易记录信息是否符合检测条件,若是,则确定所述待测商户为套现商户,否则,确定所述待测商户为正常商户。
3.如权利要求1所述的方法,其特征在于,获取待测商户的属性信息之后,还包括:
根据所述待测商户所属的商户类型,从预设数据库中获取到与所述待测商户的商户类型相同的套现样本商户以及所述套现样本商户的属性信息和交易记录信息;
根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息检测出所述待测商户为正常商户之后,还包括:
将样本商户的属性信息和交易记录信息以及所述样本商户的标签值输入预设的随机森林模型,训练得到优化后的随机森林模型;其中,所述样本商户包括所述正常样本商户和所述套现样本商户,所述标签值用于标识所述样本商户为正常样本商户或套现样本商户;以及将所述待测商户的属性信息和交易记录信息输入优化后的随机森林模型,得到所述待测商户为套现商户的概率值;
将样本商户的属性信息和交易记录信息以及所述样本商户的历史套现次数输入预设的迭代决策树GBDT模型,训练得到优化后的GBDT模型;以及将所述待测商户的属性信息和交易记录信息输入优化后的GBDT模型,得到所述待测商户的套现次数;
根据所述待测商户为套现商户的概率值以及所述待测商户的套现次数,确定所述待测商户是否为套现商户。
4.如权利要求1至3中任一项所述的方法,其特征在于,所述属性信息还包括以下任一项或任意组合:
所在地、注册资本、营业规模、企业性质、信用等级;
所述交易记录信息包括以下任一项或任意组合:
每日交易金额标准差、每日交易笔数标准差、最大单日交易金额、最大单日交易笔数、单日交易金额中位数、单日交易金额平均数、单日交易次数中位数、单日交易次数平均数。
5.一种套现商户检测的装置,其特征在于,包括:
获取单元,用于获取待测商户的属性信息和交易记录信息;所述属性信息包括所述待测商户的商户类型;
所述获取单元,还用于根据所述待测商户的商户类型,从预设数据库中确定出与所述待测商户的商户类型相同的正常样本商户并获取确定出的所述正常样本商户的属性信息和交易记录信息,所述预设数据库存储有预先获取到的多个样本商户的属性信息和交易记录信息,多个样本商户包括正常样本商户和套现样本商户;
检测单元,用于根据所述待测商户的属性信息和交易记录信息以及所述正常样本商户的属性信息和交易记录信息,对所述待测商户和所述正常样本商户进行聚类分析,得到所述待测商户的第一套现检测结果;以及,将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,得到所述待测商户的第二套现检测结果;以及,判断所述待测商户的属性信息和交易记录信息是否符合检测条件,得到所述待测商户的第三套现检测结果,其中,所述检测条件是根据所述正常样本商户的属性信息和交易记录信息得到的;
根据所述待测商户的第一套现检测结果、第二套现检测结果和第三套现检测结果,确定所述待测商户是否为套现商户。
6.如权利要求5所述的装置,其特征在于,所述检测单元具体用于:
对所述待测商户和所述正常样本商户进行聚类分析得到多个类别,若所述待测商户所在的类别中的商户个数大于等于所述多个类别中任一类别中的商户个数,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户;
将所述待测商户的属性信息和交易记录信息与所述正常样本商户的属性信息和交易记录信息进行比较,确定与所述待测商户相似的正常样本商户的个数,若与所述待测商户相似的正常样本商户的个数大于个数阈值,则确定所述待测商户为正常商户,否则,确定所述待测商户为套现商户;
判断所述待测商户的属性信息和交易记录信息是否符合检测条件,若是,则确定所述待测商户为套现商户,否则,确定所述待测商户为正常商户。
7.如权利要求5所述的装置,其特征在于,所述获取单元还用于:
在获取待测商户的属性信息之后,根据所述待测商户所属的商户类型,从预设数据库中获取到与所述待测商户的商户类型相同的套现样本商户以及所述套现样本商户的属性信息和交易记录信息;
所述检测单元检测出所述待测商户为正常商户之后,还用于:
将样本商户的属性信息和交易记录信息以及所述样本商户的标签值输入预设的随机森林模型,训练得到优化后的随机森林模型;其中,所述样本商户包括所述正常样本商户和所述套现样本商户,所述标签值用于标识所述样本商户为正常样本商户或套现样本商户;以及将所述待测商户的属性信息和交易记录信息输入优化后的随机森林模型,得到所述待测商户为套现商户的概率值;
将样本商户的属性信息和交易记录信息以及所述样本商户的历史套现次数输入预设的GBDT模型,训练得到优化后的GBDT模型;以及将所述待测商户的属性信息和交易记录信息输入优化后的GBDT模型,得到所述待测商户的套现次数;
根据所述待测商户为套现商户的概率值以及所述待测商户的套现次数,确定所述待测商户是否为套现商户。
8.如权利要求5至7中任一项所述的装置,其特征在于,所述属性信息还包括以下任一项或任意组合:
所在地、注册资本、营业规模、企业性质、信用等级;
所述交易记录信息包括以下任一项或任意组合:
每日交易金额标准差、每日交易笔数标准差、最大单日交易金额、最大单日交易笔数、单日交易金额中位数、单日交易金额平均数、单日交易次数中位数、单日交易次数平均数。
CN201710651680.7A 2017-08-02 2017-08-02 一种套现检测方法及装置 Active CN107545422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710651680.7A CN107545422B (zh) 2017-08-02 2017-08-02 一种套现检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710651680.7A CN107545422B (zh) 2017-08-02 2017-08-02 一种套现检测方法及装置

Publications (2)

Publication Number Publication Date
CN107545422A CN107545422A (zh) 2018-01-05
CN107545422B true CN107545422B (zh) 2023-10-10

Family

ID=60970290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710651680.7A Active CN107545422B (zh) 2017-08-02 2017-08-02 一种套现检测方法及装置

Country Status (1)

Country Link
CN (1) CN107545422B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564386B (zh) * 2018-04-28 2020-06-02 腾讯科技(深圳)有限公司 商户识别方法及装置、计算机设备及存储介质
CN109101989B (zh) * 2018-06-29 2021-06-29 创新先进技术有限公司 一种商户分类模型构建和商户分类方法、装置及设备
CN110751354B (zh) * 2018-07-24 2024-03-05 京东科技控股股份有限公司 一种异常用户的检测方法和装置
CN109272336A (zh) * 2018-09-20 2019-01-25 阿里巴巴集团控股有限公司 一种风险商户发现方法和装置
CN109271460B (zh) * 2018-09-29 2021-09-03 创新先进技术有限公司 对电子平台中的商户进行分类的方法和装置
CN110009364B (zh) * 2019-01-08 2021-08-24 创新先进技术有限公司 一种行业识别模型确定方法和装置
CN110348850A (zh) * 2019-05-28 2019-10-18 深圳壹账通智能科技有限公司 聚合支付商户的套现风险检测方法及装置、电子设备
CN112085553A (zh) * 2019-06-12 2020-12-15 阿里巴巴集团控股有限公司 一种特定商品检测方法及装置
CN112102061A (zh) * 2019-06-17 2020-12-18 中国石油天然气股份有限公司 防止套现的方法及管理系统
CN111242632A (zh) * 2020-01-07 2020-06-05 石化盈科信息技术有限责任公司 一种识别套现账户的方法、存储介质及电子设备
CN111626842A (zh) * 2020-04-22 2020-09-04 北京芯盾时代科技有限公司 一种消费行为数据的分析方法和装置
CN112017029B (zh) * 2020-08-31 2023-09-08 中国银行股份有限公司 信息提示方法及装置
CN112116357B (zh) * 2020-09-29 2023-08-11 中国银行股份有限公司 套现检测实现方法、装置及计算机设备
CN115239025B (zh) * 2022-09-21 2023-02-03 荣耀终端有限公司 一种支付预测方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636912A (zh) * 2015-02-13 2015-05-20 银联智惠信息服务(上海)有限公司 信用卡套现识别方法和装置
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN105931065A (zh) * 2015-09-22 2016-09-07 中国银联股份有限公司 客户群特征数据的处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636912A (zh) * 2015-02-13 2015-05-20 银联智惠信息服务(上海)有限公司 信用卡套现识别方法和装置
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN105931065A (zh) * 2015-09-22 2016-09-07 中国银联股份有限公司 客户群特征数据的处理方法及装置

Also Published As

Publication number Publication date
CN107545422A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107545422B (zh) 一种套现检测方法及装置
US11599939B2 (en) System, method and computer program for underwriting and processing of loans using machine learning
CN110648214A (zh) 一种确定异常账户的方法及装置
CN109493086B (zh) 一种确定违规商户的方法及装置
CN109360089A (zh) 贷款风险预测方法及装置
US20170221075A1 (en) Fraud inspection framework
CN108509458B (zh) 一种业务对象识别方法及装置
CN110659961A (zh) 一种用于识别线下商户的方法和装置
CN111709844A (zh) 一种保险洗钱人员检测方法、装置和计算机可读存储介质
CN114676932A (zh) 基于类别不平衡机器学习框架的债券违约预测方法和装置
CN109242165A (zh) 一种模型训练及基于模型训练的预测方法及装置
CN110991650A (zh) 训练养卡识别模型、识别养卡行为的方法及装置
CN112365352B (zh) 一种基于图神经网络的反套现方法及装置
Lehenchuk et al. Financial statement fraud detection of Ukrainian corporations on the basis of Beneish model
US20170278185A1 (en) System and method for a credit summary report and score based on financial data provided by a financial institution
CN107679862B (zh) 一种欺诈交易模型的特征值确定方法及装置
CN112884480A (zh) 异常交易识别模型的构造方法、装置、计算机设备和介质
CN116976664A (zh) 一种风险商户预测方法、系统、计算机和可读存储介质
CN109271377A (zh) 一种数据质量检测方法及装置
CN107133864B (zh) 一种基于大数据的集团员工挂账审计方法及装置
CN106779843B (zh) 一种基于客户群体特征的商户竞合关系分析的方法和装置
CN115952186A (zh) 一种问题数据及其链路追溯方法及装置
CN114626863A (zh) 出口骗税企业的检测方法、装置、设备及存储介质
Lawrencia et al. Fraud detection decision support system for Indonesian financial institution
CN114782120B (zh) 一种基于互联网的电子发票税务数据智能分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant