CN111160647B - 一种洗钱行为预测方法及装置 - Google Patents

一种洗钱行为预测方法及装置 Download PDF

Info

Publication number
CN111160647B
CN111160647B CN201911392450.9A CN201911392450A CN111160647B CN 111160647 B CN111160647 B CN 111160647B CN 201911392450 A CN201911392450 A CN 201911392450A CN 111160647 B CN111160647 B CN 111160647B
Authority
CN
China
Prior art keywords
feature
isolated
value
discrete
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911392450.9A
Other languages
English (en)
Other versions
CN111160647A (zh
Inventor
秦一焜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201911392450.9A priority Critical patent/CN111160647B/zh
Publication of CN111160647A publication Critical patent/CN111160647A/zh
Application granted granted Critical
Publication of CN111160647B publication Critical patent/CN111160647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Abstract

本发明公开了一种洗钱行为预测方法及装置,涉及数据处理技术领域,主要目的在于提高洗钱行为预测的准确率;主要技术方案包括:获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;基于所述不带标签的训练样本生成孤立森林;基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;将删减后剩余的孤立树组成新的孤立森林;使用新的孤立森林进行洗钱预测。

Description

一种洗钱行为预测方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种洗钱行为预测方法及装置。
背景技术
随着互联网技术的发展,金融领域的交易行为越来越多的依赖于互联网进行,但是相伴而生的洗钱行为逐渐渗入到互联网中。洗钱,是指通过合法的活动或建设将违法获得的收入隐藏、伪装或投资的过程,为了维护社会公正和打击腐败等经济犯罪,需要在互联网中进行洗钱监控。互联网中的洗钱监控主要通过预设的反洗钱模型对互联网数据进行识别分析,从而识别出洗钱行为。
传统的反洗钱方法通常存在如下两种:一种是,使用有监督反洗钱模型进行洗钱行为识别,此种模型需要大量已知标签的数据来训练有监督反洗钱模型,而大量已知标签的数据的获取成本非常大,其获取需要具有较高的业务素养的专业人员来执行,且一旦标签确定的不准确,训练出的有监督反洗钱模型的洗钱行为识别能力欠佳。另一种是,使用无监督反洗钱模型进行洗钱行为识别,此种模型训练时需要大量的特征,而这些特征选择需要具有较高的业务素养的专业人员来完整,且一旦特征选择不合理,训练出的无监督反洗钱模型的洗钱行为识别能力欠佳。
发明内容
有鉴于此,本发明提出了一种洗钱行为预测方法及装置,主要目的在于提高洗钱行为预测的准确率。
第一方面,本发明提供了一种洗钱行为预测方法,该方法包括:
获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;
基于所述不带标签的训练样本生成孤立森林;
基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;
将删减后剩余的孤立树组成新的孤立森林;
使用新的孤立森林进行洗钱预测。
第二方面,本发明提供了一种洗钱行为预测装置,该装置包括:
获取单元,用于获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;
生成单元,用于基于所述不带标签的训练样本生成孤立森林;
删减单元,用于基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;
组成单元,用于将删减后剩余的孤立树组成新的孤立森林;
预测单元,用于使用新的孤立森林进行洗钱预测。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面中所述的洗钱行为预测方法。
第四方面,本发明提供了一种存储管理设备,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行第一方面中所述的洗钱行为预测方法。
借由上述技术方案,本发明提供的洗钱行为预测方法及装置,首先采用训练样本集中不带标签的训练样本生成孤立森林,然后采用训练样本集中带标签的训练样本对孤立森林中的孤立树进行删减,将删减后剩余的孤立树组成新的孤立森林。最后使用新的孤立森林进行洗钱预测。可见,本发明提供的方案中在使用不带标签的训练样本得到孤立森林之后,利用少量的带有标签的训练样本对孤立森林进行删减,充分利用了有标签的训练样本剔除了孤立森林中洗钱行为识别能力较差的孤立树,得到洗钱行为识别能力较好的孤立森林,从而在使用孤立森林进行洗钱行为预测时,能够提高洗钱行为预测的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一个实施例提供的一种洗钱行为预测方法的流程图;
图2示出了本发明另一个实施例提供的一种洗钱行为预测方法的流程图;
图3示出了本发明一个实施例提供的一种洗钱行为预测装置的结构示意图;
图4示出了本发明另一个实施例提供的一种洗钱行为预测装置的结构示意图。
具体实施方式
下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供了一种洗钱行为预测方法,该方法主要包括:
101、获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据。
在实际应用中,洗钱行为往往隐藏在金融领域的交易过程中,故金融领域的交易过程中的交易行为所产生的数据中包括有大量洗钱行为相关的特征,因此需要基于交易过程中所产生的数据获取训练孤立森林所需的训练样本集。需要说明的是,为了使得基于训练样本集训练而得的孤立森林具有较强的洗钱行为识别能力,则该训练样本集中包括带标签的训练样本和不带标签的训练样本。带有标签的训练样本中的标签用于标识该训练样本是否为洗钱行为的数据。示例性的,标签为0的训练样本不是洗钱行为的数据,而标签为1的训练样本为洗钱行为的数据。不带标签的训练样本用于训练初步的孤立森林,而带有标签的训练样本作为测试数据对不带标签的训练样本训练而得的孤立森林进行测试,并基于测试结果对孤立森林进行裁剪,从而去除掉孤立森林中洗钱行为识别效果不佳的孤立树,留存孤立森林中洗钱行为识别效果较佳的孤立树。
下面对获取训练样本集的获取进行说明,获取训练样本集的过程至少包括:获取账户相关数据;将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征;基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,标签表征训练样本是否为洗钱数据;组合带标签的训练样本和不带标签的训练样本,得到训练样本集。
具体的,账户相关数据包括有交易行为数据和账户基本信息数据等数据,其可以从银行营业数据或互联网金融交易平台的交易数据中获取。将一个预设周期内的一个账户定义为一个训练样本,该预设周期依据业务要求确定,本实施例中不做具体限定。示例性的,该预设周期为一个月或一个星期。比如,将1月的账户1的账户相关数据定义为训练样本1、将2月的账户1的账户相关数据定为训练样本2以及将2月的账户2的账户相关数据定义为训练样本3。
具体的,在定义出各训练样本后,为每一个训练样本生成特征。根据训练样本对应的账户在预设周期内的各种交易行为数据和账户基本信息数据生成基础特征,并将基于特征进行特征的组合衍生得到衍生特征,而这些基础特征和衍生特征构成了训练样本的特征。
基础特征包括有:账户对应的性别、年龄、开卡行、开卡时间、开户时间、开户类型、职业、资产余额、日均金额和月均金额中的至少一种或多种。
衍生特征包括有:对日均余额、月均余额做离散化处理,并对这些离散值与其它特征进行组合,生成大量衍生特征。示例性的,开户类型为A且在每个周期内日均余额小于1万的天数等;计算每个周期中日均余额的最大值、最小值、平均值、方差等统计值;统计交易笔数、交易金额、交易净金额(借贷差)、现金行为等;计算交易金额/交易笔数、交易净金额/交易笔数、现金交易金额/交易笔数的值;计算周期内交易时间与开户时间之差的平均值、工作日交易的比例;将一天分为4个时段、每个时段交易次数占总交易次数的比例等。
时间窗特征:统计某一账户在指定月份或者周之前预设数量个时间周期内的所有基础特征及衍生特征。
具体的,在为每个训练样本生成特征之后,选取出部分训练样本。由于为训练样本标识标签需要具有较高的业务素养的专业人员来执行,标识标签的成本较高,为了减少带标签的训练样本的获取成本,需要减少带标签的训练样本的数量,因此该选取的训练样本仅为训练样本集中的少量训练样本,也就是仅为少量的训练样本标识标签。部分训练样本标识标签的过程为:由具有较高的业务素养的专业人员,根据其标识经验,通过训练样本的特征来为训练样本标识标签。
具体的,组合带标签的训练样本和不带标签的训练样本,得到训练样本集,从而利用不带标签的训练样本采用无监督的方式训练出孤立森林,然后利用带标签的训练样本采用有监督的方式对孤立森林进行剪裁,从而最终得到洗钱行为识别能力较好的孤立森林。
102、基于所述不带标签的训练样本生成孤立森林。
在本实施例中,基于不带标签的训练样本生成孤立森林的方法至少包括如下两种:
第一种,确定孤立树的棵数。对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取至少两个目标备选特征,根据所述至少两个目标备选特征生成针对当前节点的切割点,根据所述切割点对当前节点的训练样本进行切割。组合各棵孤立树生成所述孤立森林。
具体的,孤立森林中孤立数的棵数可以根据当前算力要求进行选择。示例性的,孤立树的颗数为100-300棵。
具体的,从训练样本集中随机选取多个备选特征作为孤立树的根节点,然后从训练样本集中随机选取多个不带标签的训练样本作为孤立树的根节点,然后基于备选特征对孤立树的根节点中的不带标签的训练样本进行训练,从而训练得到孤立树。
具体的,在训练孤立树时,从孤立树的根节点开始,针对每一个当前节点均执行切割步骤,直到孤立树符合预设条件。该预设条件至少包括如如下两种:
一是,孤立树中每一个节点中均只有一个训练样本,每一个节点均不能再进行切割,则说明孤立树的训练完成。
二是,孤立树的深度达到预设的深度阈值,也就是,孤立树的根节点到孤立树最深的节点之间的深度达到一定的数值。该深度阈值表征该孤立树的最佳洗钱行为识别效果。
具体的,针对每一个当前节点均需要从多个备选特征中选取两个或两个目标备选特征,以便利用所选取的目标备选特征为当前节点生成切割点,从而依据该切割点完成针对当前节点中的训练样本的切割。需要说明的是,针对不同的节点,为其随机选取的目标备选特征可以相同也可以不同。
下面对根据至少两个目标备选特征生成针对当前节点的切割点的方法进行说明,该方法至少包括如下几种:
一是,在所述至少两个目标备选特征中包括连续特征和/或离散特征时,基于至少两个目标备选特征生成所述切割点,包括:为每个目标备选特征分别分配对应的权重和特征值,其中,在目标备选特征为连续特征时,所述连续特征的特征值为连续特征在当前节点的最大特征值和最小特征值之间的值;在目标备选特征为离散特征时,离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值。基于各所述目标备选特征的权重和特征值,对各所述目标备选特征进行加权处理。将加权处理的结果确定为所述切割点。
具体的,在目标备选特征均为连续特征时,采用随机分配权重的方式,分别为每一个连续特征分配对应的权重。需要说明的是,各连续特征的权重的加和为100%。针对每一个连续特征均执行:确定该连续特征在当前节点的最大特征值和最小特征值,随机选取一个位于最大特征值和最小特征值之间的特征值为该连续特征的特征值。然后,将各连续特征的特征值分别与其各自对应的权重相乘得到各连续特征的乘积结果,并将各连续特征的乘积结果相加的总和确定为当前节点的切割点。
示例性,目标备选特征包括连续特征1和连续特征2,连续特征1对应的权重为40%以及对应的特征值为50,连续特征2对应的权重为60%以及对应的特征值为60。切割点为“50×40%+60×60%=56”。
具体的,在目标备选特征均为离散特征时,采用随机分配权重的方式,分别为每一个离散特征分配对应的权重。需要说明的是,各离散特征的权重的加和为100%。针对每一个离散特征均执行:确定该离散特征在当前节点的所有离散值,从所有离散值随机选取一个或多个离散值。然后,将各离散特征的特征值加和,并将各离散特征的特征值加和结果分别与其各自对应的权重相乘得到各离散特征的乘积结果,并将各离散特征的乘积结果相加的总和确定为当前节点的切割点。
示例性的,目标备选特征包括离散特征1和离散特征2,离散特征1对应的权重为40%以及对应的特征值为5、6、7,离散特征2对应的权重为60%以及对应的特征值为4、10、9。切割点为“(5+6+7)×40%+(4+10+9)×60%=21”。
具体的,在目标备选特征均为离散特征时,采用随机分配权重的方式,分别为每一个离散特征分配对应的权重。需要说明的是,各离散特征的权重的加和为100%。针对每一个离散特征均执行:确定该离散特征在当前节点的所有离散值,从所有离散值随机选取一个或多个离散值;根据离散值的数量对该离散特征的权重进行平均处理,得到每一个离散值对应的权重。然后,将各特征值分别与其各自对应的权重相乘得到各特征值的乘积结果,并将各乘积结果相加的总和确定为当前节点的切割点。
示例性的,目标备选特征包括离散特征1和离散特征2,离散特征1对应的权重为40%以及对应的特征值为5、6、7,根据离散值的数量对该离散特征的权重进行平均处理,得到每一个离散值对应的权重为“40/3=13.3”。离散特征2对应的权重为60%以及对应的特征值为4、10、9,根据离散值的数量对该离散特征的权重进行平均处理,得到每一个离散值对应的权重为“60/3=20”。切割点为“5×13.3%+6×13.3%+7×13.3%+4×20%+10×20%+9×20%=6.994”。
具体的,在目标备选特征均为连续特征和离散特征时,其切割点的确定方法为上述连续特征和离散特征的切割点确定方法的综合,因此这里将不再赘述。
具体的,在确定出当前节点的切割点之后,根据切割点对当前节点的训练样本进行切割,具体包括如下步骤:对于当前节点的每一个所述训练样本:基于各所述目标备选特征的权重和每个所述目标备选特征在该训练样本中的特征值,对各所述目标备选特征进行加权处理;若加权处理结果小于所述切割点,将该训练样本分割到当前节点的第一组子节点;若加权处理结果不小于所述切割点,将该训练样本分割到当前节点的第二组子节点。
需要说明的是,这里的目标备选特征的权重为确定切割点时,为目标备选特征所分配的权重。
二是,在所述至少两个目标备选特征中同时包括连续特征和离散特征时,基于至少两个目标备选特征生成所述切割点,包括:为所述至少两个目标备选特征中的连读特征分别分配对应的权重和特征值,以及为所述至少两个目标备选特征中的各离散特征分配对应的特征值;其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值。基于各所述连读特征的权重和特征值,对各所述连读特征进行加权处理。将加权处理的结果和所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
示例性,目标备选特征包括连续特征1、连续特征2、离散特征1和离散特征2,连续特征1对应的权重为40%以及对应的特征值为50,连续特征2对应的权重为60%以及对应的特征值为60。对各连读特征进行加权处理的结果为“50×40%+60×60%=56”。离散特征1对应的特征值为5、6、7,离散特征2对应的特征值为4、10、9。则切割点为56、5、6、7、4、10和9。
具体的,根据切割点对当前节点的训练样本进行切割,具体执行步骤为:对于当前节点的每一个所述训练样本:对于当前节点的每一个所述训练样本:基于所述至少两个目标备选特征中的各连读特征的权重和各连读特征的在该训练样本中的特征值,对各连读特征进行加权处理;确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若加权处理结果与所述切割点中的加权处理结果之间的关系满足预设关系,且所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若加权处理结果与所述切割点中的加权处理结果之间的关系不满足预设关系或所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。需要说明的是,该预设关系为大小关系,比如,加权处理结果小于切割点中的加权处理结果,则判断满足预设关系。
三是,在所述至少两个目标备选特征均为离散特征时,基于至少两个目标备选特征生成所述切割点,包括:为所述至少两个目标备选特征中的各离散特征分配对应的特征值,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;将所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
示例性的,目标备选特征包括离散特征1和离散特征2,离散特征1对应的特征值为5、6、7,离散特征2对应的特征值为4、10、9。则确定的切割点为“5、6、7、4、10、9”。
具体的,根据所述切割点对当前节点的训练样本进行切割,具体包括如下执行步骤:对于当前节点的每一个所述训练样本:确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
第二种,确定孤立树的棵数。对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取一个目标备选特征,根据所述一个目标备选特征针对当前节点生成切割点,根据所述切割点对当前节点的训练样本进行切割。组合各棵孤立树生成所述孤立森林。
具体的,针对每一个当前节点均需要从多个备选特征中选取一个目标备选特征,以便利用所选取的目标备选特征为当前节点生成切割点,从而依据该切割点完成针对当前节点中的训练样本的切割。
下面对根据一个目标备选特征生成针对当前节点的切割点的方法进行说明,该方法至少包括如下几种:
一是,在该目标备选特征中为连续特征时,基于该目标备选特征生成当前节点的切割点的方法为:确定该连续特征在当前节点的最大特征值和最小特征值,随机选取一个位于最大特征值和最小特征值之间的特征值为该连续特征的特征值,并将该选取的特征值确定为当前节点的切割点。
示例性,目标备选特征包括连续特征3,连续特征3在当前节点的最大特征值为5000,最小特征值为500,则随机选取3000为切割点。需要说明的是,若业务存在要求,也可以将最大特征值或最小特征值选取为切割点。
具体的,在确定出当前节点的切割点之后,根据切割点对当前节点的训练样本进行切割,具体包括如下步骤:对于当前节点的每一个所述训练样本:确定目标备选特征在该训练样本中的特征值,若该特征值小于切割点,将该训练样本分割到当前节点的第一组子节点;若该特征值不小于切割点,将该训练样本分割到当前节点的第二组子节点。
二是,在该目标备选特征均为离散特征时,为该离散特征分配对应的特征值,该离散特征的特征值为该离散特征在当前节点的所有离散值中的至少一个离散值。将该至少一个离散值组合为切割点。
示例性的,目标备选特征包括离散特征1,选取离散特征1对应的特征值为5、6、7,则确定的切割点为“5、6、7”。
具体的,根据所述切割点对当前节点的训练样本进行切割,具体包括如下执行步骤:对于当前节点的每一个所述训练样本:确定该离散特征在该训练样本中的离散值;若切割点内的各离散特征的特征值均包括在该离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若所述切割点内的各离散特征的至少一个特征值不包括在该离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
103、基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减。
在本实施例中,为了提高孤立森林对洗钱行为预测的准确率,则使用带标签的训练样本对孤立森林中的孤立树进行删减,其中,孤立树的删减方法至少包括如下:
对于孤立森林中的每棵孤立树均执行:利用该孤立树分别对至少一个带标签的训练样本进行预测,预测完成后,确定该孤立树对所述至少一个待标签的训练样本的平均孤立值。基于各棵孤立树的平均孤立值,对孤立森林中的孤立树进行删减。
具体的,各颗孤立树预测所需的带标签的训练样本的确定方法至少存在如下两种:
第一种,各棵孤立树对相同的带标签的训练样本进行预测。此种方式,由于各棵孤立树预测的训练样本均相同,因此在基于各棵孤立树的平均孤立值对孤立树进行删减时,可以更为客观,避免删减掉洗钱行为预测效果较好的孤立树。示例性的,孤立森林中存在100颗孤立树,从训练样本中选取了20个带标签的训练样本,则100颗孤立树均分别对这20个带标签的训练样本进行预测。
第二种,各棵孤立树对相同数量的带标签的训练样本进行预测,不同孤立树对应的带标签的训练样本中存在不同的训练样本。示例性,孤立森林中存在2棵孤立树,一棵孤立树对带标签的训练样本1-20进行预测,另一棵孤立树对带标签的训练样本21-40进行预测。
具体的,针对每颗孤立树,利用该孤立树分别对至少一个带标签的训练样本进行预测时,该孤立树分别对每个带标签的训练样本进行预测,得到该孤立树对每一个带标签的训练样本的孤立值。一个带标签的训练样本在该孤立树上的孤立值,是该带标签的训练样本在该孤立树上的深度。将该孤立树对每一个带标签的训练样本的孤立值的总和与带该孤立树所预测的带标签的训练样本的总量之间的商确定为该孤立树的平均孤立值。该平均孤立值能够表征出该孤立树对洗钱行为的识别能力。该平均孤立值越大则说明该孤立树的洗钱行为的识别能力越差,反之,该平均孤立值越小则说明该孤立树的洗钱行为的识别能力越好。
具体的,在确定出孤立森林中各棵孤立树的平均孤立值之后,则基于各棵孤立树的平均孤立值,对孤立森林中的孤立树进行删减,且删减方法为至少包括如下两种:
第一种,按照各孤立树的平均孤立值由大到小的顺序,排序各孤立树。剔除排序位于前S%的孤立树,其中S为大于0的数值。
孤立树的平均孤立值越大则说明孤立树的洗钱行为的识别能力越差,因此按照各孤立树的平均孤立值由大到小的顺序,排序各孤立树,从而明确各孤立树的洗钱行为识别能力。
对于排序位于前S%的孤立树,可以认定为在当前孤立森林中洗钱行为识别能力价差的孤立树,为了提高孤立森林的洗钱识别能力,则剔除排序位于前S%的孤立树,保留平均孤立值在当前孤立森林中相对较小的孤立树。需要说明的该S%为可调参数,其可基于孤立森林中孤立树的总棵树和平均孤立值的分布情况确定。示例性的S%为40%-60%中的任意一个数值。
第二种,剔除平均孤立值大于预设阈值的孤立树。
这里所述的预设阈值为一个经验数值,大于其的孤立树的洗钱行为识别能力可以认定为较差,反之,不大于其的孤立树的洗钱行为识别能力可以认定为较好。
104、将删减后剩余的孤立树组成新的孤立森林。
在本实施例中,将删减后剩余的孤立树组成新的孤立森林,新的孤立森林中仅留存了洗钱行为识别能力相对较好的孤立树。
105、使用新的孤立森林进行洗钱预测。
在本实施例中,使用新的孤立森林进行洗钱预测的具体步骤为:利用新的孤立森林中的每棵孤立树分别对待识别数据进行预测,得到每棵孤立树针对待识别数据的孤立值,其中,孤立值为孤立树针对待识别数据的处理深度;根据每棵孤立树针对待识别数据的孤立值,确定待识别数据是否为洗钱行为数据。
在本实施例中,每棵孤立树针对待识别数据的孤立值为待识别数据在每棵孤立树上的深度。根据每棵孤立树针对待识别数据的孤立值,确定待识别数据是否为洗钱行为数据的具体过程包括如下两种:
第一种,根据每棵孤立树针对待识别数据的孤立值和孤立树的总棵数,确定平均孤立值。判断平均孤立值是否大于预设的第一孤立阈值;若大于第一孤立阈值,则继续判断各孤立树中的最小孤立值是否大于预设的第二孤立阈值;若大于第二孤立阈值,则确定所述待识别数据为洗钱行为数据。其中,所述第一孤立阈值用于评价待识别数据在所有特征上的孤立水平,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
具体的,第一孤立阈值用于评价待识别数据在所有特征上的孤立水平,若平均孤立值不大于该第一孤立阈值,说明待识别数据为洗钱行为数据的概率较低,则说明待识别数据不是洗钱行为数据。
具体的,若平均孤立值大于该第一孤立阈值,则说明待识别数据存在一定的风险为洗钱行为数据,则继续判断各孤立树的最小孤立值是否大于预设的第二孤立阈值。
具体的,若判断出各孤立树中的最小孤立值大于预设的第二孤立阈值,则说明待识别数据在特征上的异常性较高,则确定待识别数据为洗钱行为数据。若判断出各孤立树中的最小孤立值不大于预设的第二孤立阈值,则说明待识别数据在特征上的异常性较低,则确定待识别数据不是洗钱行为数据。
第二种,判断所述孤立森林中是否存在M棵孤立树的孤立值均大于第三孤立阈值;若大于第三孤立阈值,则继续判断各孤立树中的最小孤立值是否大于预设的第二孤立阈值;若大于预设的第二孤立阈值,则确定待识别数据为可疑数据,可疑数据为不能明确确定是否为洗钱行为的数据。
具体的,第三孤立阈值小于第一孤立阈值。若判断孤立森林中存在M棵孤立树的孤立值均大于第三孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,则认为该待识别数据是局部特征孤立点。局部特征孤立点意味着这些点只是在特定的特征上孤立,但并不能直接判定这些孤立点都是洗钱用户,则确定待识别数据为可疑数据。这时可以根据业务的需求,将该可疑数据提供给预设的审核员,供专业的审核员核查。
本发明实施例提供的洗钱行为预测方法,首先采用训练样本集中不带标签的训练样本生成孤立森林,然后采用训练样本集中带标签的训练样本对孤立森林中的孤立树进行删减,将删减后剩余的孤立树组成新的孤立森林。最后使用新的孤立森林进行洗钱预测。可见,本发明实施例提供的方案中在使用不带标签的训练样本得到孤立森林之后,利用少量的带有标签的训练样本对孤立森林进行删减,充分利用了有标签的训练样本剔除了孤立森林中洗钱行为识别能力较差的孤立树,得到洗钱行为识别能力较好的孤立森林,从而在使用孤立森林进行洗钱行为预测时,能够提高洗钱行为预测的准确率。
进一步的,根据图1所示的方法,本发明的另一个实施例还提供了一种洗钱行为预测方法,如图2所示,所述方法主要包括:
201、获取账户相关数据。
202、将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征。
203、基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,所述标签表征训练样本是否为洗钱行为数据。
204、组合带标签的训练样本和不带标签的训练样本,得到所述训练样本集。
205、确定孤立树的棵数。
206、对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取至少两个目标备选特征,根据所述至少两个目标备选特征生成针对当前节点的切割点,根据所述切割点对当前节点的训练样本进行切割。
207、组合各棵孤立树生成所述孤立森林。
208、对于孤立森林中的每棵孤立树:利用该孤立树分别对至少一个带标签的训练样本进行预测,预测完成后,确定该孤立树对所述至少一个待标签的训练样本的平均孤立值。
209、按照各孤立树的平均孤立值由大到小的顺序,排序各孤立树。
210、剔除排序位于前S%的孤立树。
211、将删减后剩余的孤立树组成新的孤立森林。
212、利用新的孤立森林中的每棵孤立树分别对待识别数据进行预测,得到每棵孤立树针对所述待识别数据的孤立值,其中,所述孤立值为孤立树针对待识别数据的处理深度。
213、根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据。
具体的,为了说明发明实施例提供的孤立森林对洗钱行为的识别效果,下面以表-1对比说明本发明实施例提供的孤立森林和其他算法得到模型。
表-1中列举了各算法使用hyperopt调整参数1000轮,选择最优参数后训练模型,在验证集(验证集中包括有多个测试用训练样本)上的AUC值(Area Under Curve)。表-1中,semi-iforest表征本发明实施例得到的孤立森林、Random Forest表征随机森林、GBDT表征梯度下降决策树、OCSVM表征一类支持向量机、AutoEncoder表征自编码器、ifroes表征孤立森林、HBOS表征直方图异常检测。其中,随机森立和梯度下降决策树均为有监督算法,而一类支持向量机、自编码器、孤立森林和直方图异常检测均为无监督算法。
表-1
/>
从表1中可以看出,有监督算法随着测试集中带标签的训练样本的占比的减少,AUC值不断下降。而不同无监督算法的AUC值之间效果差异较大,这是由于没有利用标签信息,而使用先验的假设来预测,导致当算法使用的假设与测试集的分布不符合的时候,无监督算法的效果就会很差。
而本发明实施例提供的Semi-iforest在测试集中的三种不同带标签的训练样本的占比时AUC都是最高的,且随着带标签的训练样本的占比逐渐下降,识别效果并没有出现严重的衰减,还是维持在0.98以上。说明只需要使用少量已知标签的样本对模型进行裁剪,就可以获得较好洗钱识别效果。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种洗钱行为预测装置,如图3所示,所述装置包括:
获取单元31,用于获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;
生成单元32,用于基于所述不带标签的训练样本生成孤立森林;
删减单元33,用于基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;
组成单元34,用于将删减后剩余的孤立树组成新的孤立森林;
预测单元35,用于使用新的孤立森林进行洗钱预测。
本发明实施例提供的洗钱行为预测装置,首先采用训练样本集中不带标签的训练样本生成孤立森林,然后采用训练样本集中带标签的训练样本对孤立森林中的孤立树进行删减,将删减后剩余的孤立树组成新的孤立森林。最后使用新的孤立森林进行洗钱预测。可见,本发明实施例提供的方案中在使用不带标签的训练样本得到孤立森林之后,利用少量的带有标签的训练样本对孤立森林进行删减,充分利用了有标签的训练样本剔除了孤立森林中洗钱行为识别能力较差的孤立树,得到洗钱行为识别能力较好的孤立森林,从而在使用孤立森林进行洗钱行为预测时,能够提高洗钱行为预测的准确率。
可选的,如图4所示,所述获取单元31包括:
获取模块311,用于获取账户相关数据;
生成模块312,用于将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征;
选取模块313,用于基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,所述标签表征训练样本是否为洗钱行为数据;
第一组合模块314,用于组合带标签的训练样本和不带标签的训练样本,得到所述训练样本集。
可选的,如图4所示,所述生成单元32包括:
第一确定模块321,用于确定孤立树的棵数;
训练模块322,用于对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取至少两个目标备选特征,根据所述至少两个目标备选特征生成针对当前节点的切割点,根据所述切割点对当前节点的训练样本进行切割;
第二组合模块323,用于组合各棵孤立树生成所述孤立森林。
可选的,如图4所示,所述训练模块322包括:
第一分配子模块3221,用于在所述至少两个目标备选特征中包括连续特征和/或离散特征时,为每个所述目标备选特征分别分配对应的权重和特征值,其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
第一处理子模块3222,用于基于各所述目标备选特征的权重和特征值,对各所述目标备选特征进行加权处理;
第一确定子模块3223,用于将加权处理的结果确定为所述切割点。
可选的,如图4所示,所述训练模块322包括:
第一分割子模块3224,用于对于当前节点的每一个所述训练样本:基于各所述目标备选特征的权重和每个所述目标备选特征在该训练样本中的特征值,对各所述目标备选特征进行加权处理;若加权处理结果小于所述切割点,将该训练样本分割到当前节点的第一组子节点;若加权处理结果不小于所述切割点,将该训练样本分割到当前节点的第二组子节点。
可选的,如图4所示,所述训练模块322包括:
第二分配子模块3225,用于在所述至少两个目标备选特征中同时包括连续特征和离散特征时,为所述至少两个目标备选特征中的连读特征分别分配对应的权重和特征值,以及为所述至少两个目标备选特征中的各离散特征分配对应的特征值;其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
第二处理子模块3226,用于基于各所述连读特征的权重和特征值,对各所述连读特征进行加权处理;
第二确定子模块3227,用于将加权处理的结果和所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
可选的,如图4所示,所述训练模块322包括:
第二分割子模块3228,用于对于当前节点的每一个所述训练样本:基于所述至少两个目标备选特征中的各连读特征的权重和各连读特征的在该训练样本中的特征值,对各连读特征进行加权处理;确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若加权处理结果与所述切割点中的加权处理结果之间的关系满足预设关系,且所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若加权处理结果与所述切割点中的加权处理结果之间的关系不满足预设关系或所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
可选的,如图4所示,所述训练模块322包括:
第三分配子模块3229,用于在所述至少两个目标备选特征均为离散特征时,为所述至少两个目标备选特征中的各离散特征分配对应的特征值,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
第三确定子模块3230,用于将所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
可选的,如图4所示,所述训练模块322包括:
第三分割子模块3231,用于对于当前节点的每一个所述训练样本:确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
可选的,如图4所示,所述删减单元33包括:
第二确定模块331,用于对于每棵孤立树:利用该孤立树分别对至少一个带标签的训练样本进行预测,预测完成后,确定该孤立树对所述至少一个待标签的训练样本的平均孤立值;
删减模块332,用于基于各所述孤立树的平均孤立值,对所述孤立森林中的孤立树进行删减。
可选的,如图4所示,所述删减模块332,用于按照各孤立树的平均孤立值由大到小的顺序,排序各孤立树;剔除排序位于前S%的孤立树。
可选的,如图4所示,所述删减模块332,用于剔除平均孤立值大于预设阈值的孤立树。
可选的,如图4所示,所述训练模块322所涉及的所述预设条件包括如下两种中的任意一种:所述孤立树中每一个节点中均只有一个训练样本,所述孤立树的深度达到预设的深度阈值。
可选的,如图4所示,所述预测单元35包括:
预测模块351,用于利用新的孤立森林中的每棵孤立树分别对待识别数据进行预测,得到每棵孤立树针对所述待识别数据的孤立值,其中,所述孤立值为孤立树针对待识别数据的处理深度;
判断模块352,用于根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据。
可选的,如图4所示,所述判断模块352包括:
第一判断子模块3521,用于根据每棵孤立树针对所述待识别数据的孤立值和孤立树的总棵数,确定平均孤立值;若所述平均孤立值大于第一孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为洗钱行为数据,其中,所述第一孤立阈值用于评价待识别数据在所有特征上的孤立水平,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
可选的,如图4所示,所述判断模块352包括:
第二判断子模块3522,用于若所述孤立森林中存在M棵孤立树的孤立值均大于第三孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为可疑数据,所述可疑数据为不能明确确定是否为洗钱行为的数据。
可选的,如图4所示,所述判断模块352还包括:
提供子模块3523,用于将所述第二判断子模块3522确定的所述可疑数据提供给预设的审核员,供预设的审核员核查,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
本发明实施例提供的洗钱行为预测装置中,各个功能模块运行过程中所采用的方法详解可以参见图1、图2方法实施例的对应方法详解,在此不再赘述。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中所述的洗钱行为预测方法。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种存储管理设备,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行上述中所述的洗钱行为预测方法。
本发明实施例公开了:
A1.一种洗钱行为预测方法,包括:
获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;
基于所述不带标签的训练样本生成孤立森林;
基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;
将删减后剩余的孤立树组成新的孤立森林;
使用新的孤立森林进行洗钱预测。
A2.根据A1所述的方法,获取训练样本集,包括:
获取账户相关数据;
将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征;
基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,所述标签表征训练样本是否为洗钱行为数据;
组合带标签的训练样本和不带标签的训练样本,得到所述训练样本集。
A3.根据A1所述的方法,基于所述不带标签的训练样本生成孤立森林,包括:
确定孤立树的棵数;
对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取至少两个目标备选特征,根据所述至少两个目标备选特征生成针对当前节点的切割点,根据所述切割点对当前节点的训练样本进行切割;
组合各棵孤立树生成所述孤立森林。
A4.根据A3所述的方法,在所述至少两个目标备选特征中包括连续特征和/或离散特征时,基于至少两个目标备选特征生成所述切割点,包括:
为每个所述目标备选特征分别分配对应的权重和特征值,其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
基于各所述目标备选特征的权重和特征值,对各所述目标备选特征进行加权处理;
将加权处理的结果确定为所述切割点。
A5.根据A4所述的方法,根据所述切割点对当前节点的训练样本进行切割,包括:
对于当前节点的每一个所述训练样本:基于各所述目标备选特征的权重和每个所述目标备选特征在该训练样本中的特征值,对各所述目标备选特征进行加权处理;若加权处理结果小于所述切割点,将该训练样本分割到当前节点的第一组子节点;若加权处理结果不小于所述切割点,将该训练样本分割到当前节点的第二组子节点。
A6.根据A3所述的方法,在所述至少两个目标备选特征中同时包括连续特征和离散特征时,基于至少两个目标备选特征生成所述切割点,包括:
为所述至少两个目标备选特征中的连读特征分别分配对应的权重和特征值,以及为所述至少两个目标备选特征中的各离散特征分配对应的特征值;其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
基于各所述连读特征的权重和特征值,对各所述连读特征进行加权处理;
将加权处理的结果和所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
A7.根据A6所述的方法,根据所述切割点对当前节点的训练样本进行切割,包括:
对于当前节点的每一个所述训练样本:基于所述至少两个目标备选特征中的各连读特征的权重和各连读特征的在该训练样本中的特征值,对各连读特征进行加权处理;确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若加权处理结果与所述切割点中的加权处理结果之间的关系满足预设关系,且所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若加权处理结果与所述切割点中的加权处理结果之间的关系不满足预设关系或所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
A8.根据A3所述的方法,在所述至少两个目标备选特征均为离散特征时,基于至少两个目标备选特征生成所述切割点,包括:
为所述至少两个目标备选特征中的各离散特征分配对应的特征值,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
将所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
A9.根据A8所述的方法,根据所述切割点对当前节点的训练样本进行切割,包括:
对于当前节点的每一个所述训练样本:确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
A10.根据A1所述的方法,基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减,包括:
对于每棵孤立树:利用该孤立树分别对至少一个带标签的训练样本进行预测,预测完成后,确定该孤立树对所述至少一个待标签的训练样本的平均孤立值;
基于各所述孤立树的平均孤立值,对所述孤立森林中的孤立树进行删减。
A11.根据A10所述的方法,基于各棵所述孤立树的平均孤立值,对所述孤立森林中的孤立树进行删减,包括:
按照各孤立树的平均孤立值由大到小的顺序,排序各孤立树;
剔除排序位于前S%的孤立树。
A12.根据A10所述的方法,基于各棵所述孤立树的平均孤立值,对所述孤立森林中的孤立树进行删减,包括:
剔除平均孤立值大于预设阈值的孤立树。
A13.根据A3所述的方法,所述预设条件包括如下两种中的任意一种:所述孤立树中每一个节点中均只有一个训练样本,所述孤立树的深度达到预设的深度阈值。
A14.根据A1所述的方法,使用新的孤立森林进行洗钱预测,包括:
利用新的孤立森林中的每棵孤立树分别对待识别数据进行预测,得到每棵孤立树针对所述待识别数据的孤立值,其中,所述孤立值为孤立树针对待识别数据的处理深度;
根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据。
A15.根据A14所述的方法,根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据,包括:
根据每棵孤立树针对所述待识别数据的孤立值和孤立树的总棵数,确定平均孤立值;
若所述平均孤立值大于第一孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为洗钱行为数据,其中,所述第一孤立阈值用于评价待识别数据在所有特征上的孤立水平,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
A16.根据A14所述的方法,根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据,包括:
若所述孤立森林中存在M棵孤立树的孤立值均大于第三孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为可疑数据,所述可疑数据为不能明确确定是否为洗钱行为的数据,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
A17.根据A16所述的方法,所述方法还包括:
将所述可疑数据提供给预设的审核员,供预设的审核员核查。
B1.一种洗钱行为预测装置,包括:
获取单元,用于获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;
生成单元,用于基于所述不带标签的训练样本生成孤立森林;
删减单元,用于基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;
组成单元,用于将删减后剩余的孤立树组成新的孤立森林;
预测单元,用于使用新的孤立森林进行洗钱预测。
B2.根据B1所述的装置,所述获取单元包括:
获取模块,用于获取账户相关数据;
生成模块,用于将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征;
选取模块,用于基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,所述标签表征训练样本是否为洗钱行为数据;
第一组合模块,用于组合带标签的训练样本和不带标签的训练样本,得到所述训练样本集。
B3.根据B1所述的装置,所述生成单元包括:
第一确定模块,用于确定孤立树的棵数;
训练模块,用于对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取至少两个目标备选特征,根据所述至少两个目标备选特征生成针对当前节点的切割点,根据所述切割点对当前节点的训练样本进行切割;
第二组合模块,用于组合各棵孤立树生成所述孤立森林。
B4.根据B3所述的装置,所述训练模块包括:
第一分配子模块,用于在所述至少两个目标备选特征中包括连续特征和/或离散特征时,为每个所述目标备选特征分别分配对应的权重和特征值,其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
第一处理子模块,用于基于各所述目标备选特征的权重和特征值,对各所述目标备选特征进行加权处理;
第一确定子模块,用于将加权处理的结果确定为所述切割点。
B5.根据B4所述的装置,所述训练模块包括:
第一分割子模块,用于对于当前节点的每一个所述训练样本:基于各所述目标备选特征的权重和每个所述目标备选特征在该训练样本中的特征值,对各所述目标备选特征进行加权处理;若加权处理结果小于所述切割点,将该训练样本分割到当前节点的第一组子节点;若加权处理结果不小于所述切割点,将该训练样本分割到当前节点的第二组子节点。
B6.根据B3所述的装置,所述训练模块包括:
第二分配子模块,用于在所述至少两个目标备选特征中同时包括连续特征和离散特征时,为所述至少两个目标备选特征中的连读特征分别分配对应的权重和特征值,以及为所述至少两个目标备选特征中的各离散特征分配对应的特征值;其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
第二处理子模块,用于基于各所述连读特征的权重和特征值,对各所述连读特征进行加权处理;
第二确定子模块,用于将加权处理的结果和所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
B7.根据B6所述的装置,所述训练模块包括:
第二分割子模块,用于对于当前节点的每一个所述训练样本:基于所述至少两个目标备选特征中的各连读特征的权重和各连读特征的在该训练样本中的特征值,对各连读特征进行加权处理;确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若加权处理结果与所述切割点中的加权处理结果之间的关系满足预设关系,且所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若加权处理结果与所述切割点中的加权处理结果之间的关系不满足预设关系或所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
B8.根据B3所述的装置,所述训练模块包括:
第三分配子模块,用于在所述至少两个目标备选特征均为离散特征时,为所述至少两个目标备选特征中的各离散特征分配对应的特征值,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
第三确定子模块,用于将所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
B9.根据B8所述的装置,所述训练模块包括:
第三分割子模块,用于对于当前节点的每一个所述训练样本:确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
B10.根据B1所述的装置,所述删减单元包括:
第二确定模块,用于对于每棵孤立树:利用该孤立树分别对至少一个带标签的训练样本进行预测,预测完成后,确定该孤立树对所述至少一个待标签的训练样本的平均孤立值;
删减模块,用于基于各所述孤立树的平均孤立值,对所述孤立森林中的孤立树进行删减。
B11.根据B10所述的装置,所述删减模块,用于按照各孤立树的平均孤立值由大到小的顺序,排序各孤立树;剔除排序位于前S%的孤立树。
B12.根据B10所述的装置,所述删减模块,用于剔除平均孤立值大于预设阈值的孤立树。
B13.根据B3所述的装置,所述预设条件包括如下两种中的任意一种:所述孤立树中每一个节点中均只有一个训练样本,所述孤立树的深度达到预设的深度阈值。
B14.根据B1所述的装置,所述预测单元包括:
预测模块,用于利用新的孤立森林中的每棵孤立树分别对待识别数据进行预测,得到每棵孤立树针对所述待识别数据的孤立值,其中,所述孤立值为孤立树针对待识别数据的处理深度;
判断模块,用于根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据。
B15.根据B14所述的装置,所述判断模块包括:
第一判断子模块,用于根据每棵孤立树针对所述待识别数据的孤立值和孤立树的总棵数,确定平均孤立值;若所述平均孤立值大于第一孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为洗钱行为数据,其中,所述第一孤立阈值用于评价待识别数据在所有特征上的孤立水平,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
B16.根据B14所述的装置,所述判断模块包括:
第二判断子模块,用于若所述孤立森林中存在M棵孤立树的孤立值均大于第三孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为可疑数据,所述可疑数据为不能明确确定是否为洗钱行为的数据。
B17.根据B16所述的装置,所述判断模块还包括:
提供子模块,用于将所述第二判断子模块确定的所述可疑数据提供给预设的审核员,供预设的审核员核查,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
C1.一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行A1至A17中任意一项所述的洗钱行为预测方法。
D1.一种存储管理设备,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行A1至A17中任意一项所述的洗钱行为预测方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的深度神经网络模型的运行方法、装置及框架中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (36)

1.一种洗钱行为预测方法,其特征在于,包括:
获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;
基于所述不带标签的训练样本生成孤立森林;
基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;
将删减后剩余的孤立树组成新的孤立森林;
使用新的孤立森林进行洗钱预测。
2.根据权利要求1所述的方法,其特征在于,获取训练样本集,包括:
获取账户相关数据;
将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征;
基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,所述标签表征训练样本是否为洗钱行为数据;
组合带标签的训练样本和不带标签的训练样本,得到所述训练样本集。
3.根据权利要求1所述的方法,其特征在于,基于所述不带标签的训练样本生成孤立森林,包括:
确定孤立树的棵数;
对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取至少两个目标备选特征,根据所述至少两个目标备选特征生成针对当前节点的切割点,根据所述切割点对当前节点的训练样本进行切割;
组合各棵孤立树生成所述孤立森林。
4.根据权利要求3所述的方法,其特征在于,在所述至少两个目标备选特征中包括连续特征和/或离散特征时,基于至少两个目标备选特征生成所述切割点,包括:
为每个所述目标备选特征分别分配对应的权重和特征值,其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
基于各所述目标备选特征的权重和特征值,对各所述目标备选特征进行加权处理;
将加权处理的结果确定为所述切割点。
5.根据权利要求4所述的方法,其特征在于,根据所述切割点对当前节点的训练样本进行切割,包括:
对于当前节点的每一个所述训练样本:基于各所述目标备选特征的权重和每个所述目标备选特征在该训练样本中的特征值,对各所述目标备选特征进行加权处理;若加权处理结果小于所述切割点,将该训练样本分割到当前节点的第一组子节点;若加权处理结果不小于所述切割点,将该训练样本分割到当前节点的第二组子节点。
6.根据权利要求3所述的方法,其特征在于,在所述至少两个目标备选特征中同时包括连续特征和离散特征时,基于至少两个目标备选特征生成所述切割点,包括:
为所述至少两个目标备选特征中的连读特征分别分配对应的权重和特征值,以及为所述至少两个目标备选特征中的各离散特征分配对应的特征值;其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
基于各所述连读特征的权重和特征值,对各所述连读特征进行加权处理;
将加权处理的结果和所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
7.根据权利要求6所述的方法,其特征在于,根据所述切割点对当前节点的训练样本进行切割,包括:
对于当前节点的每一个所述训练样本:基于所述至少两个目标备选特征中的各连读特征的权重和各连读特征的在该训练样本中的特征值,对各连读特征进行加权处理;确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若加权处理结果与所述切割点中的加权处理结果之间的关系满足预设关系,且所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若加权处理结果与所述切割点中的加权处理结果之间的关系不满足预设关系或所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
8.根据权利要求3所述的方法,其特征在于,在所述至少两个目标备选特征均为离散特征时,基于至少两个目标备选特征生成所述切割点,包括:
为所述至少两个目标备选特征中的各离散特征分配对应的特征值,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
将所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
9.根据权利要求8所述的方法,其特征在于,根据所述切割点对当前节点的训练样本进行切割,包括:
对于当前节点的每一个所述训练样本:确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
10.根据权利要求1所述的方法,其特征在于,基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减,包括:
对于每棵孤立树:利用该孤立树分别对至少一个带标签的训练样本进行预测,预测完成后,确定该孤立树对所述至少一个待标签的训练样本的平均孤立值;
基于各所述孤立树的平均孤立值,对所述孤立森林中的孤立树进行删减。
11.根据权利要求10所述的方法,其特征在于,基于各棵所述孤立树的平均孤立值,对所述孤立森林中的孤立树进行删减,包括:
按照各孤立树的平均孤立值由大到小的顺序,排序各孤立树;
剔除排序位于前S%的孤立树。
12.根据权利要求10所述的方法,其特征在于,基于各棵所述孤立树的平均孤立值,对所述孤立森林中的孤立树进行删减,包括:
剔除平均孤立值大于预设阈值的孤立树。
13.根据权利要求3所述的方法,其特征在于,所述预设条件包括如下两种中的任意一种:所述孤立树中每一个节点中均只有一个训练样本,所述孤立树的深度达到预设的深度阈值。
14.根据权利要求1所述的方法,其特征在于,使用新的孤立森林进行洗钱预测,包括:
利用新的孤立森林中的每棵孤立树分别对待识别数据进行预测,得到每棵孤立树针对所述待识别数据的孤立值,其中,所述孤立值为孤立树针对待识别数据的处理深度;
根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据。
15.根据权利要求14所述的方法,其特征在于,根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据,包括:
根据每棵孤立树针对所述待识别数据的孤立值和孤立树的总棵数,确定平均孤立值;
若所述平均孤立值大于第一孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为洗钱行为数据,其中,所述第一孤立阈值用于评价待识别数据在所有特征上的孤立水平,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
16.根据权利要求14所述的方法,其特征在于,根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据,包括:
若所述孤立森林中存在M棵孤立树的孤立值均大于第三孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为可疑数据,所述可疑数据为不能明确确定是否为洗钱行为的数据,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
17.根据权利要求16所述的方法,其特征在于,所述方法还包括:
将所述可疑数据提供给预设的审核员,供预设的审核员核查。
18.一种洗钱行为预测装置,其特征在于,包括:
获取单元,用于获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;
生成单元,用于基于所述不带标签的训练样本生成孤立森林;
删减单元,用于基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;
组成单元,用于将删减后剩余的孤立树组成新的孤立森林;
预测单元,用于使用新的孤立森林进行洗钱预测。
19.根据权利要求18所述的装置,其特征在于,所述获取单元包括:
获取模块,用于获取账户相关数据;
生成模块,用于将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征;
选取模块,用于基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,所述标签表征训练样本是否为洗钱行为数据;
第一组合模块,用于组合带标签的训练样本和不带标签的训练样本,得到所述训练样本集。
20.根据权利要求18所述的装置,其特征在于,所述生成单元包括:
第一确定模块,用于确定孤立树的棵数;
训练模块,用于对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取至少两个目标备选特征,根据所述至少两个目标备选特征生成针对当前节点的切割点,根据所述切割点对当前节点的训练样本进行切割;
第二组合模块,用于组合各棵孤立树生成所述孤立森林。
21.根据权利要求20所述的装置,其特征在于,所述训练模块包括:
第一分配子模块,用于在所述至少两个目标备选特征中包括连续特征和/或离散特征时,为每个所述目标备选特征分别分配对应的权重和特征值,其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
第一处理子模块,用于基于各所述目标备选特征的权重和特征值,对各所述目标备选特征进行加权处理;
第一确定子模块,用于将加权处理的结果确定为所述切割点。
22.根据权利要求21所述的装置,其特征在于,所述训练模块包括:
第一分割子模块,用于对于当前节点的每一个所述训练样本:基于各所述目标备选特征的权重和每个所述目标备选特征在该训练样本中的特征值,对各所述目标备选特征进行加权处理;若加权处理结果小于所述切割点,将该训练样本分割到当前节点的第一组子节点;若加权处理结果不小于所述切割点,将该训练样本分割到当前节点的第二组子节点。
23.根据权利要求20所述的装置,其特征在于,所述训练模块包括:
第二分配子模块,用于在所述至少两个目标备选特征中同时包括连续特征和离散特征时,为所述至少两个目标备选特征中的连读特征分别分配对应的权重和特征值,以及为所述至少两个目标备选特征中的各离散特征分配对应的特征值;其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
第二处理子模块,用于基于各所述连读特征的权重和特征值,对各所述连读特征进行加权处理;
第二确定子模块,用于将加权处理的结果和所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
24.根据权利要求23所述的装置,其特征在于,所述训练模块包括:
第二分割子模块,用于对于当前节点的每一个所述训练样本:基于所述至少两个目标备选特征中的各连读特征的权重和各连读特征的在该训练样本中的特征值,对各连读特征进行加权处理;确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若加权处理结果与所述切割点中的加权处理结果之间的关系满足预设关系,且所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若加权处理结果与所述切割点中的加权处理结果之间的关系不满足预设关系或所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
25.根据权利要求20所述的装置,其特征在于,所述训练模块包括:
第三分配子模块,用于在所述至少两个目标备选特征均为离散特征时,为所述至少两个目标备选特征中的各离散特征分配对应的特征值,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
第三确定子模块,用于将所述至少两个目标备选特征中的各离散特征的特征值组合为所述切割点。
26.根据权利要求25所述的装置,其特征在于,所述训练模块包括:
第三分割子模块,用于对于当前节点的每一个所述训练样本:确定所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值;若所述切割点内的各离散特征的特征值均包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第一组子节点;若所述切割点内的各离散特征的至少一个特征值不包括在所述至少两个目标备选特征中的各离散特征在该训练样本中的离散值内,将该训练样本分割到当前节点的第二组子节点。
27.根据权利要求18所述的装置,其特征在于,所述删减单元包括:
第二确定模块,用于对于每棵孤立树:利用该孤立树分别对至少一个带标签的训练样本进行预测,预测完成后,确定该孤立树对所述至少一个待标签的训练样本的平均孤立值;
删减模块,用于基于各所述孤立树的平均孤立值,对所述孤立森林中的孤立树进行删减。
28.根据权利要求27所述的装置,其特征在于,所述删减模块,用于按照各孤立树的平均孤立值由大到小的顺序,排序各孤立树;剔除排序位于前S%的孤立树。
29.根据权利要求27所述的装置,其特征在于,所述删减模块,用于剔除平均孤立值大于预设阈值的孤立树。
30.根据权利要求20所述的装置,其特征在于,所述预设条件包括如下两种中的任意一种:所述孤立树中每一个节点中均只有一个训练样本,所述孤立树的深度达到预设的深度阈值。
31.根据权利要求18所述的装置,其特征在于,所述预测单元包括:
预测模块,用于利用新的孤立森林中的每棵孤立树分别对待识别数据进行预测,得到每棵孤立树针对所述待识别数据的孤立值,其中,所述孤立值为孤立树针对待识别数据的处理深度;
判断模块,用于根据每棵孤立树针对所述待识别数据的孤立值,确定所述待识别数据是否为洗钱行为数据。
32.根据权利要求31所述的装置,其特征在于,所述判断模块包括:
第一判断子模块,用于根据每棵孤立树针对所述待识别数据的孤立值和孤立树的总棵数,确定平均孤立值;若所述平均孤立值大于第一孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为洗钱行为数据,其中,所述第一孤立阈值用于评价待识别数据在所有特征上的孤立水平,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
33.根据权利要求31所述的装置,其特征在于,所述判断模块包括:
第二判断子模块,用于若所述孤立森林中存在M棵孤立树的孤立值均大于第三孤立阈值,且各孤立树中的最小孤立值大于预设的第二孤立阈值,确定所述待识别数据为可疑数据,所述可疑数据为不能明确确定是否为洗钱行为的数据。
34.根据权利要求33所述的装置,其特征在于,所述判断模块还包括:
提供子模块,用于将所述第二判断子模块确定的所述可疑数据提供给预设的审核员,供预设的审核员核查,所述第二孤立阈值用于评价待识别数据在特征上的异常性。
35.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求17中任意一项所述的洗钱行为预测方法。
36.一种存储管理设备,其特征在于,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行权利要求1至权利要求17中任意一项所述的洗钱行为预测方法。
CN201911392450.9A 2019-12-30 2019-12-30 一种洗钱行为预测方法及装置 Active CN111160647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911392450.9A CN111160647B (zh) 2019-12-30 2019-12-30 一种洗钱行为预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911392450.9A CN111160647B (zh) 2019-12-30 2019-12-30 一种洗钱行为预测方法及装置

Publications (2)

Publication Number Publication Date
CN111160647A CN111160647A (zh) 2020-05-15
CN111160647B true CN111160647B (zh) 2023-08-22

Family

ID=70558912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911392450.9A Active CN111160647B (zh) 2019-12-30 2019-12-30 一种洗钱行为预测方法及装置

Country Status (1)

Country Link
CN (1) CN111160647B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507731B (zh) * 2020-06-17 2020-10-20 银联数据服务有限公司 一种异常数据侦测的特征生成方法及装置
CN112668614B (zh) * 2020-12-11 2022-11-01 浙江成功软件开发有限公司 一种反洗钱研判方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017077499A1 (en) * 2015-11-04 2017-05-11 Genomics Applications And Informatics Technology (Ganit) Labs Biomarkers of squamous cell carcinoma of head and neck, prognostic markers of recurrence in squamous cell carcinoma of head and neck, and methods thereof
CN107426207A (zh) * 2017-07-21 2017-12-01 哈尔滨工程大学 一种基于SA‑iForest的网络入侵异常检测方法
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN108921440A (zh) * 2018-07-11 2018-11-30 平安科技(深圳)有限公司 污染物异常监测方法、系统、计算机设备和存储介质
CN109168168A (zh) * 2018-07-09 2019-01-08 上海欣方智能系统有限公司 一种检测国际盗打的方法
CN109308306A (zh) * 2018-09-29 2019-02-05 重庆大学 一种基于孤立森林的用户用电异常行为检测方法
CN109345137A (zh) * 2018-10-22 2019-02-15 广东精点数据科技股份有限公司 一种基于农业大数据的异常值检测方法
CN109726826A (zh) * 2018-12-19 2019-05-07 东软集团股份有限公司 随机森林的训练方法、装置、存储介质和电子设备
JP2019074927A (ja) * 2017-10-16 2019-05-16 株式会社ブリヂストン タイヤの使用履歴データからの異常データ検出方法とその装置
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN110162970A (zh) * 2019-01-08 2019-08-23 腾讯科技(深圳)有限公司 一种程序处理方法、装置以及相关设备
CN110175700A (zh) * 2019-04-28 2019-08-27 南京邮电大学 基于加权深度森林的成人学位英语等级预测方法
CN110189232A (zh) * 2019-05-14 2019-08-30 三峡大学 基于孤立森林算法的用电信息采集数据异常分析方法
KR20190117969A (ko) * 2018-04-09 2019-10-17 주식회사 뷰노 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법 및 이를 이용한 장치
CN110414555A (zh) * 2019-06-20 2019-11-05 阿里巴巴集团控股有限公司 检测异常样本的方法及装置
CN110503507A (zh) * 2019-07-05 2019-11-26 中国平安财产保险股份有限公司 基于大数据的保险产品数据推送方法、系统及计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9540118B2 (en) * 2014-11-10 2017-01-10 Federal Express Corporation Risk assessment framework
CN107273920A (zh) * 2017-05-27 2017-10-20 西安交通大学 一种基于随机森林的非侵入式家用电器识别方法
CN108776683B (zh) * 2018-06-01 2022-01-21 广东电网有限责任公司 一种基于孤立森林算法和神经网络的电力运维数据清洗方法
CN110210723B (zh) * 2019-05-15 2022-11-22 电子科技大学 一种基于层次分析法和孤立森林的窃电辨识方法
CN110334085A (zh) * 2019-05-30 2019-10-15 广州供电局有限公司 配电网数据监测和修正方法、装置、计算机及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017077499A1 (en) * 2015-11-04 2017-05-11 Genomics Applications And Informatics Technology (Ganit) Labs Biomarkers of squamous cell carcinoma of head and neck, prognostic markers of recurrence in squamous cell carcinoma of head and neck, and methods thereof
CN107426207A (zh) * 2017-07-21 2017-12-01 哈尔滨工程大学 一种基于SA‑iForest的网络入侵异常检测方法
JP2019074927A (ja) * 2017-10-16 2019-05-16 株式会社ブリヂストン タイヤの使用履歴データからの異常データ検出方法とその装置
KR20190117969A (ko) * 2018-04-09 2019-10-17 주식회사 뷰노 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법 및 이를 이용한 장치
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN109168168A (zh) * 2018-07-09 2019-01-08 上海欣方智能系统有限公司 一种检测国际盗打的方法
CN108921440A (zh) * 2018-07-11 2018-11-30 平安科技(深圳)有限公司 污染物异常监测方法、系统、计算机设备和存储介质
CN109308306A (zh) * 2018-09-29 2019-02-05 重庆大学 一种基于孤立森林的用户用电异常行为检测方法
CN109345137A (zh) * 2018-10-22 2019-02-15 广东精点数据科技股份有限公司 一种基于农业大数据的异常值检测方法
CN109726826A (zh) * 2018-12-19 2019-05-07 东软集团股份有限公司 随机森林的训练方法、装置、存储介质和电子设备
CN110162970A (zh) * 2019-01-08 2019-08-23 腾讯科技(深圳)有限公司 一种程序处理方法、装置以及相关设备
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN110175700A (zh) * 2019-04-28 2019-08-27 南京邮电大学 基于加权深度森林的成人学位英语等级预测方法
CN110189232A (zh) * 2019-05-14 2019-08-30 三峡大学 基于孤立森林算法的用电信息采集数据异常分析方法
CN110414555A (zh) * 2019-06-20 2019-11-05 阿里巴巴集团控股有限公司 检测异常样本的方法及装置
CN110503507A (zh) * 2019-07-05 2019-11-26 中国平安财产保险股份有限公司 基于大数据的保险产品数据推送方法、系统及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于孤立森林算法和BP神经网络算法的电力运维数据清洗方法;李星南等;《电气应用》;第第37卷卷(第第16期期);72-78页 *

Also Published As

Publication number Publication date
CN111160647A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN109598095B (zh) 评分卡模型的建立方法、装置、计算机设备和存储介质
CN107025596B (zh) 一种风险评估方法和系统
US10521748B2 (en) Retention risk determiner
CN112559900B (zh) 产品推荐方法、装置、计算机设备和存储介质
CN111160647B (zh) 一种洗钱行为预测方法及装置
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
KR20200075120A (ko) 기업 부도 예측 시스템 및 이의 동작 방법
CN112561685A (zh) 客户的分类方法和装置
CN111061948A (zh) 一种用户标签推荐方法、装置、计算机设备及存储介质
CN111145026B (zh) 一种反洗钱模型的训练方法及装置
CN112308623A (zh) 基于监督学习的优质客户流失预测方法、装置及存储介质
CN116402546A (zh) 店铺风险归因方法及其装置、设备、介质、产品
CN110765110A (zh) 泛化能力处理方法、装置、设备及存储介质
CN109587248A (zh) 用户识别方法、装置、服务器及存储介质
CN108763242A (zh) 标签生成方法及装置
CN111104978B (zh) 一种反欺诈模型的训练方法及装置
CN108197740A (zh) 企业倒闭预测方法、电子设备和计算机存储介质
CN114926261A (zh) 汽车金融用户申请欺诈概率预测方法及介质
CN114358924A (zh) 额度调整策略筛选方法、装置、计算机设备和存储介质
CN113962565A (zh) 一种基于大数据的项目评分方法、系统和可读存储介质
CN110163684A (zh) 一种对电信合作伙伴欺诈行为的标记方法及装置
CN110956471A (zh) 装修行业征信数据的分析方法
CN111061968B (zh) 排序方法、装置、电子设备及可读存储介质
EP3646259A1 (en) A computer implemented appraisal system and method thereof
CN114254624B (zh) 一种确定网站类型的方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant