发明内容
本申请提供一种群体虚假交易识别方法,包括:
获取预设时间段内各买家的交易相关信息,所述交易相关信息包含买家ID及各买家所购买的多个商品的ID;
根据所述交易相关信息对买家进行聚类,得到多个买家群体;其中,每个买家群体中的买家购买了多种相同的商品;
根据所述交易相关信息计算每个买家群体的整体相似度指标;
根据所述整体相似度指标识别出多个所述买家群体中的虚假交易群体。
本申请提供一种群体虚假交易识别装置,包括:
信息获取单元,用于获取预设时间段内各买家的交易相关信息,所述交易相关信息包含买家ID及各买家所购买的多个商品的ID;
聚类单元,用于根据所述交易相关信息对买家进行聚类,得到多个买家群体;其中,每个买家群体中的买家购买了多种相同的商品
计算单元,用于根据所述交易相关信息计算每个买家群体的整体相似度指标;
识别单元,用于根据所述整体相似度指标识别出多个所述买家群体中的虚假交易群体。
本申请实施例中,可以基于交易数据自身识别群体虚假交易,无需事先确定训练集,具有较好的自适应性。
当然实施本申请的任一产品或者方法必不一定需要同时达到以上所述的所有优点。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本申请提出的群体虚假交易识别方法的一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块结构。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例提供的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
正常交易中,买家的购物行为具有随机性,任意两个买家之间购物相关性不高。而同一批刷手之间由于拥有相同的线上分发渠道,在交易序列上不可避免的具有相似性,而同一批刷手越多,刷单的商品越多,此种异常越明显。即,此类作弊行为虽然在单笔交易上越来越难以甄别,但从群体上却有规律可循,基于此,本发明通过识别“刷手”群体异常行为识别虚假交易,通过对交易数据自身进行识别找出虚假交易,具有较好的自适应性。具体的如图1所示,本申请提供的群体虚假交易识别方法可以包括:
S101:获取预设时间段内各买家的交易相关信息,所述交易相关信息包含买家ID及各买家所购买的多个商品的ID;
S102:根据所述交易相关信息对买家进行聚类,得到多个买家群体;其中,每个买家群体中的买家购买了多种相同的商品;
S103:根据所述交易相关信息计算每个买家群体的整体相似度指标;
S104:根据所述整体相似度指标识别出多个所述买家群体中的虚假交易群体。
图1所示的群体虚假交易识别方法的执行主体可以为服务器,由图1所示的流程可知,本申请根据首先获取包含买家ID及各买家所购买的多个商品的ID的各买家的交易相关信息,然后基于交易相关信息对买家进行分类,得到多个买家群体,通过计算买家群体的整体相似度指标识别多个所述买家群体中的虚假交易群体。即基于交易数据自身(买家ID及买家购买的商品ID)就可以准确识别群体虚假交易,无需事先确定训练集,具有较好的自适应性。
本申请中预设时间段可以按照如下方式如下划分:由于时间属性为连续值,本申请可以将时间离散化,即将时间进行分段,如按照自然天分段,预设时间段为某一天,如按照自然月分段,预设时间段为某一月。时间的分段可以根据具体情况而定,例如按照季度、年进行划分,本申请并非用于限定。
本申请中,交易相关信息为与买家购买商品交易相关的信息,该交易相关信息为组合特征,包含但不限定买家ID及各买家所购买的多个商品的ID。
根据上述交易相关信息对买家进行聚类,可以得到多个买家群体。实际商品交易时,可能存在大量买家同时购买一款产品的情况(例如商品爆款),如果买家群体中只购买了一件相同的商品,一般不能将其列为虚假交易群体。而本申请目的为识别群体虚假交易,即从得到的多个买家群体中识别出虚假交易群体,所以本申请需要对买家群体进行如下限定:买家群体中的买家购买了多种相同的商品。
本申请中,根据所述交易相关信息对买家进行聚类,得到多个买家群体的方式可以有很多种,只要满足买家群体中的买家购买了多种相同的商品即可,一实施例中,可以通过如下方法得到多个买家群体:根据各买家的交易相关信息,以商品为主体,找出购买量较大(例如超过一预设数量)的n种商品的每个买家ID,将购买上述n种商品中两种及两种以上商品的多个买家划分为买家群体。图2中列出了购买量较大的A、B、C、D、E 5种商品,A、B、C、D4种商品有B、D、G三个买家,可以将B、D、G三个买家划分为一个买家群体。
另一实施例中,可以通过图3所示的方法得到多个买家群体,如图3所示,该方法包括如下步骤:
S301:根据所述交易相关信息计算两两买家之间的相似性。
相似性为两两买家之间的相似程度,相似程度以两两买家购买的商品的种类总和及两两买家购买的相同商品的种类之和进行表征。
一实施例中,可以首先根据两两买家的交易相关信息计算两两买家购买的商品的种类总和及两两买家购买的相同商品的种类之和;然后根据所述商品的种类总和及相同商品的种类之和计算两两买家之间的相似性,计算方法有很多种,例如可以计算所述相同商品的种类之和与商品的种类总和的比值,该比值表征两两买家之间的相似性,比值越大,买家之间的相似程度越高。具体实施时,可以利用Jaccard相似度公式计算买家之间的相似性,Jaccard相似度公式如下:
其中X、Y分别为不同买家的交易相关信息,X∩Y代表不同买家购买的相同商品的种类之和,XUY代表不同买家购买的商品的种类总和。
上述公式的分子和分母可以用图4表示,如图4所示,X∩Y为阴影部分,代表买家购买的相同商品的种类之和,XUY为买家X及买家Y空白部分的商品的种类加上阴影部分,代表不同买家购买的商品的种类总和。
由于买家的上述交易相关信息为离散值,本申请采用Jaccard相似度指标计算买家之间的相似性,既考虑了两两买家之间购物相同频数(两个买家在同一时间段购买相同的商品),又按照买家各自的购物数量绝对数做了降权(分母较大),能够很好的度量买家购物的相似性。
一实施例中,本申请也可以通过计算商品的种类总和与相同商品的种类之和的比值,用该比值表征两两买家之间的相似性,该比值越大,相似性程度越小。
S302:根据相似性对买家进行聚类,得到多个买家群体。
本申请可以将相似性程度高的买家划分到同一买家群体,具体实施时,可以预先设定一相似性临界值,比较相似性与该相似性临界值,将相似性大于相似性临界值的买家进行聚类,得到多个买家群体。
本申请目的在于识别出虚假交易群体,在得到多个买家群体后,就需要从中筛选出虚假交易群体,具体实施时,可以根据交易相关信息计算每个买家群体的整体相似度指标,然后基于该整体相似度指标识别出多个买家群体中的虚假交易群体。
一实施例中,整体相似度指标可以为买家群体中的买家购买相同商品的种类数量。举一例,某一买家群体中共100个买家,该100个买家中每个买家都购买了商品甲、乙、丙、丁、戊五种商品,那么该买家群体购买相同商品的种类数量为5,整体相似度指标就为5。本实施例中,计算每个买家群体的整体相似度指标时,可以直接根据交易相关信息计算买家群体中的买家购买相同商品的种类数量。
另一实施例中,整体相似度指标还可以为买家群体中买家购买的相同商品的种类之和与该该买家群体中买家购买的商品的种类总和的比值。
基于整体相似度指标识别出多个买家群体中的虚假交易群体的方法有多种,一实施例中,可以将各买家群体的整体相似度指标分别与一预设的相似度指标进行比较,根据比较结果识别出多个买家群体中的虚假交易群体。预设的相似度指标可以为买家群体中购买了相同商品的设定买家数。
该预设的相似度指标的取值可以基于历史数据库得到,该历史数据库中存储了通过分析之前的虚假交易群体(历史的虚假交易群体)获得的整体相似度指标相关数据。
另一实施例中,可以根据每个买家群体的整体相似度指标在所有买家群体的整体相似度指标中的排名识别出多个买家群体中的虚假交易群体。排名越高,买家群体为虚假交易群体的可能性越大,如果买家群体的整体相似度指标中的排名高于某一临界排名,则判定买家群体为虚假交易群体。该临界排名可以基于历史数据库得到,该历史数据库中存储了通过分析之前的虚假交易群体(历史的虚假交易群体)获得的整体相似度指标排名。
利用本申请的群体虚假交易识别方法,可以基于交易数据自身准确识别群体虚假交易,无需事先确定训练集,具有较好的自适应性。
基于与上述群体虚假交易识别方法相同的发明构思,本申请提供一种群体虚假交易识别装置,如下面实施例所述。由于该群体虚假交易识别装置解决问题的原理与群体虚假交易识别方法相似,因此该群体虚假交易识别装置的实施可以参见群体虚假交易识别方法的实施,重复之处不再赘述。
图5是本申请实施例的群体虚假交易识别装置的结构示意图,如图2所示,该群体虚假交易识别装置包括:信息获取单元501,聚类单元502,计算单元503及识别单元504。
特征生成单元501用于获取预设时间段内各买家的交易相关信息,所述交易相关信息包含买家ID及各买家所购买的多个商品的ID;特征生成单元501是群体虚假交易识别装置中获取各买家的交易相关信息的部分,可以是软件、硬件或二者的结合,例如可以是完成各买家的交易相关信息获取功能的输入输出接口、处理芯片等元器件。
聚类单元502用于根据所述交易相关信息对买家进行聚类,得到多个买家群体;其中,每个买家群体中的买家购买了多种相同的商品;聚类单元502是群体虚假交易识别装置中对买家进行聚类的部分,可以是软件、硬件或二者的结合,例如可以是完成买家聚类功能的输入输出接口、处理芯片等元器件。
计算单元503用于根据所述交易相关信息计算每个买家群体的整体相似度指标;计算单元503是群体虚假交易识别装置中计算每个买家的整体相似度指标的部分,可以是软件、硬件或二者的结合,例如可以是完成整体相似度指标计算功能的输入输出接口、处理芯片等元器件。
识别单元504用于根据所述整体相似度指标识别出多个所述买家群体中的虚假交易群体。识别单元504是群体虚假交易识别装置中识别虚假交易群体的部分,可以是软件、硬件或二者的结合,例如可以是完成虚假交易群体识别功能的输入输出接口、处理芯片等元器件。
本申请中预设时间段可以按照如下方式如下划分:由于时间属性为连续值,本申请可以将时间离散化,即将时间进行分段,如按照自然天分段,预设时间段为某一天,如按照自然月分段,预设时间段为某一月。时间的分段可以根据具体情况而定,例如按照季度、年进行划分,本申请并非用于限定。
一实施例中,如图6所示,聚类单元502包括:相似性计算模块601及买家群体生成模块602。
相似性计算模块601用于根据所述交易相关信息计算两两买家之间的相似性;
买家群体生成模块602用于根据所述相似性对买家进行聚类,得到多个买家群体。
具体实施时,商品种类计算子模块603用于计算所述相同商品的种类之和与商品的种类总和的比值,该比值作为两两买家之间的相似性。
一实施例中,买家群体生成模块602可以通过比较相似性与一相似性临界值,将相似性大于相似性临界值的买家进行聚类,得到至少一个买家群体。
一实施例中,整体相似度指标可以为买家群体中的买家购买相同商品的种类数量。计算单元503可以通过计算每个买家群体中的买家购买相同商品的种类数量。
一实施例中,识别单元504可以将各买家群体的整体相似度指标分别与一预设的相似度指标进行比较,根据比较结果识别出多个买家群体中的虚假交易群体。
另一实施例中,识别单元504可以根据每个买家聚类簇的整体相似度指标在所有买家群体的整体相似度指标中的排名识别出多个买家群体中的虚假交易群体。
通过本申请的群体虚假交易识别装置,可以基于交易数据自身准确识别群体虚假交易,无需事先确定训练集,具有较好的自适应性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。