确定欺诈用户、训练模型、识别欺诈风险的方法及装置
技术领域
本说明书涉及计算机技术领域,尤其涉及一种确定欺诈用户的方法及装置,一种欺诈风险模型的训练方法及装置,和一种欺诈风险的识别方法及装置。
背景技术
目前,随着电子商务的发展,网上交易已成为主要的交易方式,比如可以通过网络购买涵盖衣食住行的各种商品,等。而信贷金融以及网络信贷金融的发展又极大促进了网上交易,比如可以通过信用卡,实现一段时间免息信用交易,以及与信用卡消费方式类似的网络信贷等,也可以实现信用支付。
但通过信用支付的网上交易也面临着各种风险,比如买家可以先通过信用支付进行交易,交易完成后由卖家将获得的资金回流给买家,从而达到套现的目的,或也可以通过上述方式提高某个商品的销量、热度等。而这些交易均可以定义为欺诈交易,所以需要提供一种识别欺诈用户的方案。
发明内容
本说明书实施例提供一种确定欺诈用户的方法,用于实现较为准确地识别欺诈用户。
本说明书实施例提供一种确定欺诈用户的装置,用于实现较为准确地识别欺诈用户。
本说明书实施例提供一种欺诈风险模型的训练方法,用于提高欺诈风险模型的全面性和准确性。
本说明书实施例提供一种欺诈风险模型的训练装置,用于提高欺诈风险模型的全面性和准确性。
本说明书实施例提供一种欺诈风险的识别方法,用于提高识别用户欺诈风险概率的准确性。
本说明书实施例提供一种欺诈风险的识别装置,用于提高识别用户欺诈风险概率的准确性。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例采用下述技术方案:
一种确定欺诈用户的方法,包括:
根据交易数据创建包含用户与商品之间的交易关联网,所述交易关联网中包含预先定义的欺诈用户;
根据所述交易关联网,确定任意两个用户交易的相同商品,以及所述商品所属相同商家的商家个数,并根据所述个数将所述交易关联网转化为用户之间的用户关联网;
对所述用户关联网进行聚类,确定至少一个用户社区;
当用户社区中包含的所述预先定义的欺诈用户的占比大于预设阈值时,将所述用户社区中的用户确定为欺诈用户。
优选地,所述方法还包括:
根据确定出的欺诈用户,更新所述用户关联网;
根据所述更新后的用户关联网,确定目标用户与相邻的各用户交易的相同商品,以及所述商品所属相同商家的商家个数,所述相邻的各用户包含欺诈用户和/或非欺诈用户;
根据所述个数,确定所述目标用户的欺诈风险等级。
优选地,根据所述更新后的用户关联网,确定目标用户与相邻用户交易的相同商品,以及所述商品所属相同商家的商家个数,具体包括:
根据所述更新后的用户关联网,确定目标用户与相邻的各欺诈用户交易的相同商品所属相同商家的第一商家个数和,以及与相邻的各用户交易的相同商品所属相同商家的第二商家个数和;则
根据所述个数,确定所述目标用户的欺诈风险等级,具体包括:
根据所述第一商家个数和与所述第二商家个数和的比值,确定所述目标用户的欺诈风险等级。
优选地,根据交易数据创建包含用户与商品之间的交易关联网,具体包括:
根据预存的历史欺诈概率,对交易数据中的商品进行筛选,保留高于欺诈概率阈值的商品以及对应的交易数据;
根据筛选后的交易数据,创建包含用户与商品之间的交易关联网。
优选地,根据所述交易关联网,确定任意两个用户交易的相同商品,以及所述商品所属相同商家的商家个数,并根据所述个数将所述交易关联网转化为用户之间的用户关联网,具体包括:
根据所述交易关联网,确定任意两个用户在预设历史时长内、且预设时间间隔内交易的相同商品,所述预设历史时长的时间单位大于等于所述预设时间间隔的时间单位;
确定所述商品在所述预设历史时长内所属相同商家的商家个数;
根据所述个数将所述交易关联网转化为用户之间的用户关联网。
优选地,对所述用户关联网进行聚类,确定至少一个用户社区,具体包括:
通过社区发现算法,从所述用户关联网中确定至少一个用户社区。
一种确定欺诈用户的装置,包括:创建单元、转化单元、聚类单元以及确定单元,其中,
所述创建单元,根据交易数据创建包含用户与商品之间的交易关联网,所述交易关联网中包含预先定义的欺诈用户;
所述转化单元,根据所述交易关联网,确定任意两个用户交易的相同商品,以及所述商品所属相同商家的商家个数,并根据所述个数将所述交易关联网转化为用户之间的用户关联网;
所述聚类单元,对所述用户关联网进行聚类,确定至少一个用户社区;
所述确定单元,当用户社区中包含的所述预先定义的欺诈用户的占比大于预设阈值时,将所述用户社区中的用户确定为欺诈用户。
优选地,所述装置还包括:风险等级确定单元,
根据确定出的欺诈用户,更新所述用户关联网;
根据所述更新后的用户关联网,确定目标用户与相邻的各用户交易的相同商品,以及所述商品所属相同商家的商家个数,所述相邻的各用户包含欺诈用户和/或非欺诈用户;
根据所述个数,确定所述目标用户的欺诈风险等级。
优选地,所述风险等级确定单元,
根据所述更新后的用户关联网,确定目标用户与相邻的各欺诈用户交易的相同商品所属相同商家的第一商家个数和,以及与相邻的各用户交易的相同商品所属相同商家的第二商家个数和;则
所述确定单元,
根据所述第一商家个数和与所述第二商家个数和的比值,确定所述目标用户的欺诈风险等级。
优选地,所述创建单元,
根据预存的历史欺诈概率,对交易数据中的商品进行筛选,保留高于欺诈概率阈值的商品以及对应的交易数据;
根据筛选后的交易数据,创建包含用户与商品之间的交易关联网。
优选地,所述转化单元,
根据所述交易关联网,确定任意两个用户在预设历史时长内、且预设时间间隔内交易的相同商品,所述预设历史时长的时间单位大于等于所述预设时间间隔的时间单位;
确定所述商品在所述预设历史时长内所属相同商家的商家个数;
根据所述个数将所述交易关联网转化为用户之间的用户关联网。
优选地,所述聚类单元,
通过社区发现算法,从所述用户关联网中确定至少一个用户社区。
一种欺诈风险模型的训练方法,包括:
根据确定出的欺诈用户以及预先定义的欺诈用户,确定欺诈用户集合;
根据以确定出的欺诈用户为基础更新后的用户关联网,生成用户关联特征向量;
根据所述欺诈用户集合、所述欺诈用户集合中的用户对应的基础特征库、以及所述用户关联特征向量,确定输入数据;
根据所述输入数据,对欺诈风险模型进行训练。
优选地,根据确定出的欺诈用户以及预先定义的欺诈用户,确定欺诈用户集合,具体包括:
获取确定出的具有欺诈风险等级的用户;
将高于预设风险等级阈值的用户、以及预先定义的欺诈用户,确定欺诈用户集合。
一种欺诈风险模型的训练装置,包括:第一确定单元、向量生成单元、第二确定单元以及模型训练单元,其中,
所述第一确定单元,根据确定出的欺诈用户以及预先定义的欺诈用户,确定欺诈用户集合;
所述向量生成单元,根据以确定出的欺诈用户为基础更新后的用户关联网,生成用户关联特征向量;
所述第二确定单元,根据所述欺诈用户集合、所述欺诈用户集合中的用户对应的基础特征库、以及所述用户关联特征向量,确定输入数据;
所述模型训练单元,根据所述输入数据,对欺诈风险模型进行训练。
优选地,所述第一确定单元,
获取确定出的具有欺诈风险等级的用户;
将高于预设风险等级阈值的用户、以及预先定义的欺诈用户,确定欺诈用户集合。
一种欺诈风险的识别方法,包括:
从生成的用户关联特征向量中,获取待识别用户的关联特征向量;
根据所述待识别用户对应的关联特征向量以及基础特征,通过欺诈风险模型对所述待识别用户进行欺诈风险识别。
一种欺诈风险的识别装置,包括:获取单元、以及识别单元,其中,
所述获取单元,从生成的用户关联特征向量中,获取待识别用户的关联特征向量;
所述识别单元,根据所述待识别用户的关联特征向量、以及所述待识别用户的基础特征,通过欺诈风险模型进行欺诈风险识别。
由以上实施例提供的技术方案可见,根据交易数据创建包含用户与商品之间的交易关联网,再根据任意两用户交易的相同商品所属相同商家的商家个数,将交易关联网转化为用户之间的用户关联网,通过聚类的方式,确定出用户社区,并根据用户社区中预先定义的欺诈用户的比例,确定社区内的用户是否为欺诈用户。利用欺诈交易具有聚集性这一特点,通过用户之间的关联关系、以及用户社区中已经定义过的欺诈用户的数量,确定社区中的用户是否为欺诈用户,从而能够实现较为准确地识别欺诈用户。同时,将确定出的欺诈用户、以及根据以确定出的欺诈用户为基础更新后的用户关联网生成的用户关联特征向量,补充到预先定义的欺诈用户和对应的基础特征库中,作为输入数据对欺诈风险模型进行训练,提高了欺诈风险模型的全面性和准确性。并且,可以从用户关联特征向量中获取待识别用户的关联特征向量,根据该用户的关联特征向量以及基础特征,通过上述方式训练出的欺诈风险模型进行欺诈风险识别,提高了识别用户的欺诈风险概率的准确性。
附图说明
为了更清楚地说明本说明书实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的确定欺诈用户的方法的流程示意图;
图2为本说明书实施例提供的交易关联网的示意图;
图3为本说明书实施例提供的根据筛选后的交易数据创建的交易关联网示意图;
图4为本说明书实施例提供的用户关联网的示意图;
图5为本说明书实施例提供的确定欺诈用户的示意图;
图6为本说明书实施例提供的根据更新后的用户关联网,确定目标用户与相邻的各用户交易的相同商品所属相同商家的商家个数的示意图;
图7为本说明书实施例提供的欺诈风险模型的训练方法的流程示意图;
图8为本说明书实施例提供的欺诈风险的识别方法的流程示意图;
图9为本说明书实施例提供的确定欺诈用户、训练欺诈风险模型、识别欺诈风险的方法的示意图;
图10为本说明书实施例提供的确定欺诈用户的装置的结构图;
图11为本说明书实施例提供的欺诈风险模型的训练装置的结构图;
图12为本说明书实施例提供的欺诈风险的识别装置的结构图;
图13为本说明书实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本说明书的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书中各实施例提供的技术方案。
实施例1
如前所述,通过信用支付的网上交易面临着各种风险,比如买家可以先通过信用支付进行交易,交易完成后由卖家将获得的资金回流给买家,从而达到套现的目的等,所以需要一种识别欺诈用户的方案。基于此,本说明书实施例提供一种确定欺诈用户的方法,用于实现较为准确地识别欺诈用户。该方法的流程示意图如图1所示,该方法可包括:
步骤12:根据交易数据创建包含用户与商品之间的交易关联网。
在网上交易中,每时每刻都可以产生大量的网络交易数据,这些网络交易数据中就有可能存在有以套现等不正当目的欺诈用户进行的欺诈交易。所以可以获取交易数据,并以此为基础确定欺诈用户。具体地,可以根据获取到的交易数据,确定包含用户与商品之间的交易关联网。进一步地,该交易关联网中可以包含预先定义的欺诈用户,预先定义的欺诈用户可以是根据以往已经发生的欺诈交易确定出的欺诈用户,也可以是根据人工经验确定出的欺诈用户,还可以是根据其他的欺诈交易模型等确定出的欺诈用户。
如图2所示,为包含用户与商品之间的交易关联网,在该交易关联网中,矩形可以代表商品,圆形可以代表用户,实体黑色的圆形可以是预先定义的欺诈用户,这里的用户可以是指买家,而用户与商品之间的连接线,可以表征该用户购买过该商品,可见,同一用户可以有针对多个商品有购买行为,而同一商品也可以被多个用户购买过。
在实际应用中,由于交易数据量非常大,如果用非常大的交易数据确定交易关联网,可能会由于数据量过大,影响创建交易关联网的效率,更为重要的是,由于在大量的交易中,欺诈交易毕竟是少数,所有在有大量非欺诈交易数据的情况下,也会影响后续确定欺诈用户的准确性,所以为了达到提高创建效率,且提高确定欺诈用户准确性的目的,在一种实施方式中,可以对获取到的交易数据进行筛选,具体地,根据交易数据创建包含用户与商品之间的交易关联网,可以包括:根据预存的商品历史欺诈概率,对交易数据中的商品进行筛选,保留高于欺诈概率阈值的商品以及对应的交易数据;根据筛选后的交易数据,创建包含用户与商品之间的交易关联网。商品在流通中,均可能存在欺诈交易的风险,比如对于手机而言,由于体积小、普遍性强、物流快、价值高、且受市场波动影响较大,所以成为以套现为目的进行欺诈交易的热门商品,而根据以往的欺诈交易,以及业务人员的经验,可以为不同商品设置不同的历史欺诈概率。比如,对于最新上市的、且较为热门的手机而言,针对其发生欺诈交易的概率几乎可以是100%;而对于像服装、鞋帽等针对不同用户特殊性较强的商品,发生欺诈交易的概率几乎为0,即不同商品发生欺诈交易的概率是不同的,所以可以根据人工经验或交易历史,为不同商品预先设置不同的历史欺诈概率,该历史欺诈概率可以是该商品在交易历史中发生欺诈的概率,从而可以根据该预设的欺诈概率阈值,对商品进行筛选。具体地,在筛选过程中,可以对欺诈概率阈值进行调整,比如可以是0,即只要这个商品通过人工经验或交易历史中出现过欺诈交易,被设置为大于0的历史欺诈概率,则就要保留在交易数据中,而对于欺诈概率为0的商品,可以剔除掉。在筛选过程中,将商品剔除后,也可以将与只与该商品有关的交易的用户(即只买过该商品的用户)一同剔除掉,从而达到对交易数据筛选的目的。筛选完成后,再可以根据筛选后的交易数据,创建包含用户与商品之间的交易关联网。如图3所示,为根据筛选后的交易数据,创建的包含用户与商品之间的交易关联网。
步骤14:根据交易关联网,确定任意两个用户交易的相同商品,以及该商品所属相同商家的商家个数,并根据该个数将交易关联网转化为用户之间的用户关联网。
对于欺诈用户而言,通常情况下可以是有组织的进行,比如针对套现欺诈而言,某个组织可以由组长控制组员购买某个商品,并在购买完成后,向组员回流现金,以便完成套现,所以欺诈交易通常具有交易的聚集性。比如,组长可以控制组员大量购买同一部手机,并在交易完成后,将购买手机时的金额返还给组员,也就具有了交易的聚集性。所以,本步骤可以通过这种聚集性,构建出用户之间的关系。
具体地,交易的聚集性可以体现在多个用户从同一个商家交易同一件商品,比如,多个用户从同一个商家处购买了相同的商品,则表明对于该商品而言,具有一定的聚集性,而通过这件商品,可以表征多个用户可能存在一定的联系。所以,本步骤可以先确定出任意两个用户交易的相同商品,再确定该商品所属相同商家的商家个数,然后根据该商家个数将交易关联网转化为用户之间的用户关联网。进一步地,任意两个用户交易的相同商品可以是指,任意两个用户在网上交易过程中,购买过的相同商品,比如,买家1和买家2,在网上交易过程中,购买了3件相同的商品,可以是商品1、商品2和商品3。相同商品所属相同商家的商家个数,可以是指对于上述商品而言,在相同商家被出售过的商家个数。比如,对于商品1而言,买家1和买家2分别在商家1和商家2处购买过,对于商品2而言,买家1和买家2分别在商家1和商家3处购买过,而对于商品3而言,买家1和买家2分别在商家1和商家4处购买过,则买家1和买家2交易的相同商品所属相同商家的商家个数可以是6。而在实际应用中,也可以将商家个数进行去重计算,更进一步体现交易的聚集性,也更能体现出用户之间的关联关系。则可以得到买家1和买家2交易的相同商品所属相同商家的商家个数可以是4。可以通过这个个数,将用户之间串联起来,即将交易关联网转化为用户之间的用户关联网。如图4所示,为用户之间的用户关联网,圆形可以代表用户,实体黑色圆形则代表预先定义的欺诈用户,连接线可以代表两用户之间存在交易过相同商品且所属相同商家的情况,每个连接线上可以有一个边权重,该边权重可以根据上述个数确定,比如可以直接将个数确定为边权重,如图4中连接线上的数值,就可以表征变权重(也可以直接表征两用户之间存在交易过相同商品且所属相同商家的商家个数)。而在应用过程中,完全可以根据交易关联网,确定全部用户之中的每两两用户交易的相同商品,以及该商品所属相同商家的商家个数,并转化为用户之间的用户关联网。
在实际应用中,由于一些商品的销售周期非常长,比如,对于淘汰率较慢的手机而言,一款手机可能会持续销售两年,难免会有大量用户在同一个商家购买相同的商品。所以在确定用户关联网时,可以选定一段时间内的交易数据,达到减少噪声数据的目的。在一种实施方式中,根据交易关联网中任意两个用户交易的相同商品所属相同商家的商家个数,将交易关联网转化为用户之间的用户关联网,可以包括:确定交易关联网中任意两个用户在在预设历史时长内、且预设时间间隔内交易的相同商品;确定相同商品在该预设历史时长内所属相同商家的商家个数;根据所述个数将所述交易关联网转化为用户之间的用户关联网。
具体地,在确定任意两用户交易的相同商品时,可以从预设历史时长内确定交易的相同商品,比如,该预设历史时长的时间单位可以是4个月,那么可以统计在过去4个月内,用户1和用户2共同购买的商品。但在实际应用中,由于欺诈交易存在一定的聚集性,即可以在较短的时间内,同时出现大量交易,所以如果相同商品的购买时间跨度过大,则出现欺诈交易的概率并不高,而相同商品的购买时间跨度较小时,则可以在一定程度上表征欺诈交易的概率较高。所以预设的时间间隔的时间单位可以小于预设历史时长的时间单位,比如上文预设历史时长的时间单位可以为4个月,那么预设的时间间隔的时间单位可以是1个月,即确定用户1和用户2在4个月内,且时间间隔在1个月内,共同购买的商品。在确定出共同交易的商品后,就可以确定相同商品在4个月内所属相同商家的商家个数,从而根据该个数将交易关联网转化为用户之间的用户关联网。具体地在前文已经介绍,此处不再赘述。
需要说明的是,本实施例中的交易,可以是真是发生过的交易,比如用户确实完成了某笔交易,也可以是创建但未完成的交易,即步骤12中的交易数据,以及本步骤中的交易的相同商品,可以包含创建但未完成的交易,也可以包含创建且完成的交易。因为对于欺诈用户而言,创建交易的结果,则已经可以在一定程度上表征该交易为欺诈交易。即使通过现有的风险控制方式进行拦截,也可以算作是用户的交易,对于确定欺诈用户以及后续的模型训练而言,数据更全面,且应用上更合理。且通常情况下,步骤12中创建交易关联网可以根据创建的交易数据,步骤14中用户交易的相同商品,可以是用户创建交易的相同商品。当然,在实际应用中,交易数据和交易的相同商品也完全可以是创建的,以及完成的交易。
步骤16:对用户关联网进行聚类,确定至少一个用户社区。
聚类可以是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组用户的集合,其中的用户与同一个簇中的用户彼此相似,与其他簇中的用户相异。在实际应用中,可以通过社区发现(Community Detection)算法发现用户关联网中的社区结构,从而实现聚类并确定出至少一个用户社区。具体地,本步骤中可以采用标签传播图聚类算法实现,但也不限于通过此算法实现聚类从而确实出用户社区。在实际应用中,还可以通过质量检测算法验证社区质量,并且通过多次多种方式聚类,达到较为理想的聚类结果,以便提高用户社区的相似性。
步骤18:当用户社区中包含的预先定义的欺诈用户的占比大于预设阈值时,将该用户社区中的用户确定为欺诈用户。
根据上一步骤中的聚类,可以将具有相似特性的用户聚在一个用户社区中,那么可以认为如果在一个用户社区中,有一大部分用户是欺诈用户,则该用户社区内的用户是欺诈用户可能性很高。所以本步骤中可以判断用户社区中包含的预先定义的欺诈用户的占比是否大于预设阈值,若是,则可以将该用户社区中的用户确定为欺诈用户。在步骤12中,已经介绍了预先定义的欺诈用户可以是根据以往已经发生的欺诈交易确定出的用户,且交易关联网中可以包含这些预先定义的欺诈用户,所以根据交易关联网转化得到的用户关联网中,也包含这些欺诈用户,在通过聚类得到用户社区后,这些欺诈用户依然存在,由此就可以根据上述占比,确定用户社区是否为欺诈社区。比如该预设阈值可以是70%,那么如果一个用户社区中有70%以上的用户均为预先定义的欺诈用户,则可以将该用户社区中的用户确定为欺诈用户。
如图5所示,为确定欺诈用户的示意图,其中左图为另一个用户关联网的示意图,其中包含了多个用户之间的关联关系;右图为对用户关联网进行聚类,确定出的两个用户社区(深颜色的两个簇),此后可以根据预先定义的欺诈用户的占比,确定用户社区中的用户是否为欺诈用户。
虽然根据用户社区的方式,确定出了一部分可能性很高的欺诈用户,但对于一个用户社区中,比如包含的预先定义的欺诈用户的占比小于等于预设阈值的用户社区,其中的未知用户(即为被确定为欺诈用户的用户)也未必是非欺诈用户,所以在一种实施方式中,为了进一步确定出某个目标用户属于欺诈用户的概率,该方法还可以包括:
根据确定出的欺诈用户,更新该用户关联网。
在步骤18中,确定出了欺诈社区,即将一部分用户确定为欺诈用户后,可以据此对用户关联网进行更新,更新后的用户关联网中的欺诈用户可以包含预先定义的欺诈用户,以及确定出的欺诈用户。
根据更新后的用户关联网,确定目标用户与相邻的各用户交易的相同商品所属相同商家的商家个数。
如图6所示,其中,实体黑色圆形为预先定义的欺诈用户,实体灰色圆形为步骤18中确定出的欺诈用户,并将其更新在用户关联网中,此后可以根据更新后的用户关联网,确定目标用户与相邻的各用户交易的相同商品,以及该商品所属相同商家的个数,如图6所示,目标用户为图中的内部标有“目标”的圆形,其与相邻的用户可以分别购买过相同的商品,并且这些相同的商品可以所属相同的商家,具体的确定方式详见前文。其中,相邻的各用户中可以包含欺诈用户和/或非欺诈用户,如图6所示,可以有2个欺诈用户以及3个非欺诈用户。
在实际应用中,为了后续更细化以致更准确地确定目标用户的欺诈风险等级,可以对目标用户与相邻的各用户交易的相同商品,以及该商品所属相同商家的商家个数进行细分,具体地,可以包括:根据更新后的用户关联网,确定目标用户与相邻的各欺诈用户交易的相同商品所属相同商家的第一商家个数和,以及与相邻的各用户交易的相同商品所属相同商家的第二商家个数和。在前文已经介绍,商家的个数可以通过边权表示,比如可以直接通过个数的数值表示。如图6所示,则目标用户与相邻的各用户交易的相同商品所属相同商家的商家个数就可以是连接线上的边权值,可见,与相邻的各欺诈用户交易的相同商品所属相同商家的第一商家个数和可以是4+3=7,而与相邻的各用户交易的相同商品所属相同商家的第二商家个数和可以是1+2+1+7=11。
根据该个数,确定该目标用户的欺诈风险等级。
具体地,目标用户与相邻的各用户交易的相同商品所属相同商家的商家个数中,可以存在目标用户与相邻的各欺诈用户交易的相同商品所属相同商家的商家个数,所以可以根据该个数确定欺诈风险等级。具体可以预先设置个数区间与欺诈风险等级的对应关系,比如可以如下表1所示,个数为0~5可以对应欺诈风险等级1;个数为6~10可以对应欺诈风险等级2,等。
表1
在上文介绍了,可以对商家个数进行细分,分为针对各欺诈用户、以及针对各用户的第一商家个数和与第二商家个数和。所以根据该个数,确定该目标用户的欺诈风险等级,可以包括:根据第一商家个数和与第二商家个数和的比值,确定目标用户的欺诈风险等级。比如针对上文举例,第一商家个数和与第二商家个数和的比值可以是7/11=0.64。实际应用中也可以为此方式预先设置比值与欺诈风险等级的对应关系,如下表2所示,可以为比值与欺诈风险等级的对应关系。
第一商家个数和与第二商家个数和的比值y |
欺诈风险等级 |
0≤y<0.1 |
1 |
0.1≤y<0.3 |
2 |
0.3≤y<0.5 |
3 |
0.5≤y<0.7 |
4 |
0.7≤y<0.9 |
5 |
0.9≤y |
6 |
表2
在实际应用中,也可以为预先定义了的欺诈用户,以及根据用户社区确定出了欺诈用户确定欺诈风险等级。具体可以根据上表2的对应关系确定,但是由于这些用户本身已经被确定为欺诈用户,所以该欺诈风险等级的确定方式,可以对根据上表2确定出的欺诈风险等级进行适当的加成,比如加成数可以是2,即在确定欺诈用户的欺诈风险等级时,可以在根据表2确定出的结果上加2级,当然,最高的欺诈等级也可以设置为6。
由以上实施例提供的技术方案可见,根据交易数据创建包含用户与商品之间的交易关联网,再根据任意两用户交易的相同商品所属相同商家的商家个数,将交易关联网转化为用户之间的用户关联网,通过聚类的方式,确定出用户社区,根据用户社区中预先定义的欺诈用户的比例,确定社区内的用户是否为欺诈用户。利用欺诈交易具有聚集性这一特点,通过用户之间的关联关系、以及用户社区中已经定义过的欺诈用户的数量,确定社区中的用户是否为欺诈用户,从而能够实现较为准确地识别欺诈用户。此外,还可以对用户确定风险等级,进一步地识别出用户可能存在的欺诈风险。
实施例2
基于与实施例1相同的发明思路,本说明书实施例根据确定欺诈用户的方法为基础,提出一种欺诈风险模型的训练方法,用于提高欺诈风险模型的全面性和准确性。该方法的流程示意图如图7所示,包括:
步骤22:根据确定出的欺诈用户以及预先定义的欺诈用户,确定欺诈用户集合。
当前,对欺诈风险模型的训练方式通常是根据预先定义的欺诈用户,以及将这些欺诈用户对应的基础特征库作为输入数据,进行欺诈风险模型训练。比如基础特征库中可以是指包含用户基本特征、对应的网络平台特征、用户的社交关系特征、负面行为特征等的现有的特征库。用户基本特征可以是性别、年龄等,对应的网络平台特征可以是用户活跃度、交易量等,用户的社交关系特征可以是好友关系等,负面行为特征可以是对用户具有的负面行为的记录,比如酒驾、违章、逾期等。但由于预先定义欺诈用户多为人工经验,以及根据已发生的交易进行确定,且随着交易形式,数量以及不同欺诈手段的发展,基础特征库中的内容已经和欺诈交易的关系越来越疏远,所以对于欺诈用户模型训练的结果,会比较片面且覆盖面较窄。而本实施例可以将实施例1中确定出的欺诈用户,以及预先定义的欺诈用户组合在一起,构成新的欺诈用户集合,既有现有的欺诈用户又有新确定出的欺诈用户,使用户样本更全面,覆盖面更广。
在实施例1中已经介绍,可以确定出用户的欺诈风险等级,所以本步骤中,根据确定出的欺诈用户以及预先定义的欺诈用户,确定欺诈用户集合,可以包括:获取确定出的具有欺诈风险等级的用户;将高于预设等级阈值的用户、以及预先定义的欺诈用户,确定欺诈用户集合。比如,可以预先设置一个风险等级阈值(4级),在获取到确定出的具有欺诈风险等级的用户后,可以将欺诈风险等级高于4级的用户,以及预先定义的欺诈用户,确定欺诈用户集合。从而使得训练欺诈风险模型时,输入的样本均为欺诈风险可能性较高的用户。
步骤24:根据以确定出的欺诈用户为基础更新后的用户关联网,生成用户关联特征向量。
通过实施例1中的描述可见,在用户关联网中存在用户可能为欺诈用户的依据,所以可以将用户关联网作为训练欺诈风险模型的依据。具体地,可以先以确定出的欺诈用户为基础更新用户关联网,而后根据更新后的用户关联网生成用户关联特征向量。比如,可以通过DeepWalk(一种学习网络中节点的隐式表征的方法)算法生成用户关联特征向量。该特征向量中就可以表征任意用户与其他用户的关联关系。在实际应用中,还可以通过其他算法生成用户关联特征向量。
步骤26:根据该欺诈用户集合、该欺诈用户集合中的用户对应的基础特征库、以及生成的用户关联特征向量,确定输入数据。
在前文已经介绍,当前对欺诈风险模型的训练方式通常是根据预先定义的欺诈用户,以及这些欺诈用户对应的基础特征库。而本步骤可以通过确定出的欺诈用户以及用户关联特征向量,对预先定义的欺诈用户,以及将这些欺诈用户对应的基础特征库进行补充,在前文介绍,交易可以是指完成或创建但未完成的交易,所以即使完成与否,均可以作为模型训练的输入数据,也就使得模型训练的输入数据更加全面,在应用上也更加合理。具体就可以将欺诈用户集合,该欺诈用户集合中的用户对应的基础特征库、以及生成的用户关联特征向量,确定为输入数据,使得欺诈用户以及对应的包含基础特征库和用户关联特征向量的特征库集合尽量全面。
步骤28:根据该输入数据,对欺诈风险模型进行训练。
本步骤中,可以利用二分类模型相关的算法,比如可以用GBDT算法训练欺诈风险模型。GBDT(Gradient Boost Regression Tree),可以是指一种迭代的决策树算法,该算法由多棵决策树组成,树的结论累加可以作为结果。也可以通过深层神经网络DNN算法训练欺诈风险模型,还可以通过LR(Logistic Regression,逻辑回归算法)算法训练欺诈风险模型。
由以上实施例提供的技术方案可见,将确定出的欺诈用户,以及根据以确定出的欺诈用户为基础更新后的用户关联网生成的用户关联特征向量,补充到预先定义的欺诈用户和对应的基础特征库中,作为输入数据对欺诈风险模型进行训练,提高了欺诈风险模型的全面性和准确性。
实施例3
基于与实施例2相同的发明思路,本说明书实施根据欺诈风险模型的训练方法为基础,提出一种欺诈风险的识别方法,用于提高识别用户欺诈风险概率的准确性。该方法的流程示意图如图8所示,包括:
步骤32:从生成的用户关联特征向量中,获取待识别用户的关联特征向量。
在实施例2中可以根据以确定出的欺诈用户为基础更新后的用户关联网,生成用户关联特征向量,而在实际应用中,由于每时每刻均会产生大量的交易数据,所以可以随时(通常可以定时)进行确定欺诈用户的操作,并更新用户关联网,以及生成用户关联特征向量,也即可以随时更新用户的关联特征向量。所以当需要对某个用户进行欺诈风险识别时,可以获取该待用户的关联特征向量。
步骤34:根据该待识别用户对应的关联特征向量以及基础特征,通过欺诈风险模型对该待识别用户进行欺诈风险识别。
在模型训练时,可以根据用户的基础特征库、以及用户关联特征向量进行训练,本步骤就可以根据该待识别用户对应的关联特征向量以及基础特征,通过欺诈风险模型对该待识别用户进行欺诈风险识别。具体地,基础特征就可以如前所述的包含用户基本特征、对应的网络平台特征、用户的社交关系特征、负面行为特征等。而在实际应用中,通过欺诈风险模型进行欺诈风险识别时还可以根据实际需要输入必要的数据,比如欺诈用户集合等,此处不做限定。
如图9所示,为确定欺诈用户的方法、训练欺诈风险模型、识别欺诈风险方法结合使用的示意图。其中,可以分为数据层、模型层、以及产出层。对于确定欺诈用户的方法而言,数据层可以包含交易数据,以及预先定义的欺诈用户;模型层中的网络单元,可以包含筛选后的交易数据,以及生成的用户关联网;社区单元中,可以包含聚类算法,以及通过聚类算法生成的用户社区;欺诈用户单元可以包含用户社区,以及确定出的欺诈社区;风险等级单元,可以包含确定用户风险等级。而产出层,可以产出欺诈用户,以及具有风险等级的用户,同时为了便于后续进行欺诈风险模型训练以及欺诈风险识别,还可以包含生成的用户关联特征向量。对于欺诈风险模型的训练方法而言,数据层可以是步骤22中确定出的欺诈用户集合中用户对应的基础特征库。模型层中的欺诈用户单元,可以包含确定出的欺诈用户以及预先定义的欺诈用户;特征单元可以包含基础特征库,以及用户关联特征向量;算法单元可以表示通过GBDT、DNN、LR等算法,对欺诈风险模型进行训练。而产出层,可以表示当选取一个待识别用户后,可以通过欺诈风险模型,识别出该用户具有的欺诈风险。
由以上实施例提供的技术方案可见,可以从用户关联特征向量中获取待识别用户的关联特征向量,根据该用户的关联特征向量以及基础特征,通过由实施例1和实施例2训练出的欺诈风险模型进行欺诈风险识别,提高了识别用户的欺诈风险概率的准确性。
实施例4
基于相同的发明构思,实施例4提供了一种确定欺诈用户的装置,用于实现实施例1所述的方法。该装置的结构框图如图10所示,包括:
创建单元42、转化单元44、聚类单元46以及确定单元48,其中,
创建单元42,可以根据交易数据创建包含用户与商品之间的交易关联网,所述交易关联网中包含预先定义的欺诈用户;
转化单元44,可以根据所述交易关联网,确定任意两个用户交易的相同商品,以及所述商品所属相同商家的商家个数,并根据所述个数将所述交易关联网转化为用户之间的用户关联网;
聚类单元46,可以对所述用户关联网进行聚类,确定至少一个用户社区;
确定单元48,可以当用户社区中包含的所述预先定义的欺诈用户的占比大于预设阈值时,将所述用户社区中的用户确定为欺诈用户。
在一种实施方式中,所述装置还包括:风险等级确定单元,可以
根据确定出的欺诈用户,更新所述用户关联网;
根据所述更新后的用户关联网,确定目标用户与相邻的各用户交易的相同商品,以及该商品所属相同商家的商家个数,所述相邻的各用户包含欺诈用户和/或非欺诈用户;
根据所述个数,确定所述目标用户的欺诈风险等级。
在一种实施方式中,所述风险等级确定单元,可以
根据所述更新后的用户关联网,确定目标用户与相邻的各欺诈用户交易的相同商品所属相同商家的第一商家个数和,以及与相邻的各用户交易的相同商品所属相同商家的第二商家个数和;则
确定单元48,可以根据所述第一商家个数和与所述第二商家个数和的比值,确定所述目标用户的欺诈风险等级。
在一种实施方式中,所述创建单元42,可以
根据预存的历史欺诈概率,对交易数据中的商品进行筛选,保留高于欺诈概率阈值的商品以及对应的交易数据;
根据筛选后的交易数据,创建包含用户与商品之间的交易关联网。
在一种实施方式中,所述转化单元44,可以
根据所述交易关联网,确定任意两个用户在预设历史时长内、且预设时间间隔内交易的相同商品,所述预设历史时长的时间单位大于等于所述预设时间间隔的时间单位;
确定所述商品在所述预设历史时长内所属相同商家的商家个数;
根据所述个数将所述交易关联网转化为用户之间的用户关联网。
在一种实施方式中,所述聚类单元46,可以
通过社区发现算法,从所述用户关联网中确定至少一个用户社区。
实施例5
基于相同的发明构思,实施例5提供了一种欺诈风险模型的训练装置,用于实现实施例2所述的方法。该装置的结构框图如图11所示,包括:
第一确定单元52、向量生成单元54、第二确定单元56以及模型训练单元58,其中,
第一确定单元52,可以根据确定出的欺诈用户以及预先定义的欺诈用户,确定欺诈用户集合;
向量生成单元54,可以根据以确定出的欺诈用户为基础更新后的用户关联网,生成用户关联特征向量;
第二确定单元56,可以根据所述欺诈用户集合、所述欺诈用户集合中的用户对应的基础特征库、以及所述用户关联特征向量,确定输入数据;
模型训练单元58,可以根据所述输入数据,对欺诈风险模型进行训练。
在一种实施方式中,第一确定单元52,可以
获取确定出的具有欺诈风险等级的用户;
将高于预设风险等级阈值的用户、以及预先定义的欺诈用户,确定欺诈用户集合。
实施例6
基于相同的发明构思,实施例6提供了一种欺诈风险的识别装置,用于实现实施例3所述的方法。该装置的结构框图如图12所示,包括:
获取单元62、以及识别单元64,其中,
获取单元62,可以从生成的用户关联特征向量中,获取待识别用户的关联特征向量;
识别单元64,可以根据所述待识别用户的关联特征向量、以及所述待识别用户的基础特征,通过欺诈风险模型进行欺诈风险识别。
图13是本说明书的一个实施例电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成会话窗口中信息对话框的渲染装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
根据交易数据创建包含用户与商品之间的交易关联网,所述交易关联网中包含预先定义的欺诈用户;
根据所述交易关联网,确定任意两个用户交易的相同商品,以及所述商品所属相同商家的商家个数,并根据所述个数将所述交易关联网转化为用户之间的用户关联网;
对所述用户关联网进行聚类,确定至少一个用户社区;
当用户社区中包含的所述预先定义的欺诈用户的占比大于预设阈值时,将所述用户社区中的用户确定为欺诈用户。
还可以用于执行以下操作:
根据确定出的欺诈用户以及预先定义的欺诈用户,确定欺诈用户集合;
根据以确定出的欺诈用户为基础更新后的用户关联网,生成用户关联特征向量;
根据所述欺诈用户集合、所述欺诈用户集合中的用户对应的基础特征库、以及所述用户关联特征向量,确定输入数据;
根据所述输入数据,对欺诈风险模型进行训练。
还可以用于执行以下操作:
从生成的用户关联特征向量中,获取待识别用户的关联特征向量;
根据所述待识别用户对应的关联特征向量以及基础特征,通过欺诈风险模型对所述待识别用户进行欺诈风险识别。
上述如本说明书图10、图11和图12所示实施例提供的确定欺诈用户的装置、欺诈风险模型的训练装置以及欺诈风险的识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图10、图11和图12中所示实施例提供的确定欺诈用户的装置、欺诈风险模型的训练装置以及欺诈风险的识别装置在图13所示实施例的功能,本说明书实施例在此不再赘述。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图13所示实施例中确定欺诈用户的装置以及欺诈风险模型的训练装置执行的方法,并具体用于执行:
根据交易数据创建包含用户与商品之间的交易关联网,所述交易关联网中包含预先定义的欺诈用户;
根据所述交易关联网,确定任意两个用户交易的相同商品,以及所述商品所属相同商家的商家个数,并根据所述个数将所述交易关联网转化为用户之间的用户关联网;
对所述用户关联网进行聚类,确定至少一个用户社区;
当用户社区中包含的所述预先定义的欺诈用户的占比大于预设阈值时,将所述用户社区中的用户确定为欺诈用户。
以及用于执行:
根据确定出的欺诈用户以及预先定义的欺诈用户,确定欺诈用户集合;
根据以确定出的欺诈用户为基础更新后的用户关联网,生成用户关联特征向量;
根据所述欺诈用户集合、所述欺诈用户集合中的用户对应的基础特征库、以及所述用户关联特征向量,确定输入数据;
根据所述输入数据,对欺诈风险模型进行训练。
还用于执行:
从生成的用户关联特征向量中,获取待识别用户的关联特征向量;
根据所述待识别用户对应的关联特征向量以及基础特征,通过欺诈风险模型对所述待识别用户进行欺诈风险识别。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。