CN111275480A

CN111275480A - 面向多维稀疏销售数据仓库的欺诈行为挖掘方法

Info

Publication number: CN111275480A
Application number: CN202010014388.6A
Authority: CN
Inventors: 乔少杰; 郑皎凌; 程维杰; 韩楠; 宋学江; 张小辉; 叶青; 魏军林; 肖月强; 陈权亮; 李斌勇; 张吉烈; 张永清; 何林波; 温敏; 元昌安; 彭京; 周凯; 余华; 范勇强
Original assignee: Chengdu Tianma Technology Co Ltd; Sichuan Jinkecheng Geographic Information Technology Co ltd; Chengdu University of Information Technology
Current assignee: Chengdu Tianma Technology Co Ltd; Sichuan Jinkecheng Geographic Information Technology Co ltd; Chengdu University of Information Technology
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-06-12
Anticipated expiration: 2040-01-07
Also published as: CN111275480B

Abstract

本发明涉及一种面向多维稀疏销售数据仓库的欺诈行为挖掘方法，属于数据挖掘领域。该方法包括以下步骤：S1：进行参数定义，包括多维数据空间、多维数据空间上的偏序格、销售数据仓库、销售数据仓库在多维数据空间上的数据分块、挂单行为和挂单模式；S2：进行问题定义；S3：进行特定挂单模式下的挂单点挖掘；S4：进行挂单模式挖掘。本发明提出了挂单模式偏序格的概念，通过引入偏序格中各个挂单模式的相对位置偏序结构信息，有效的使用了数据仓库中的维度层次信息来对挂单行为所遵循的挂单模式进行挖掘。

Description

面向多维稀疏销售数据仓库的欺诈行为挖掘方法

技术领域

本发明属于数据挖掘领域，涉及面向多维稀疏销售数据仓库的欺诈行为挖掘方法。

背景技术

在移动互联网时代，越来越多的交易和操作转移到了线上，出现了各种各样的欺诈行为。电商行业中出现了刷单现象，公众服务行业出现了黄牛倒卖现象，O2O行业出现了垃圾小号现象等，这些欺诈行为已经形成了所谓的“黑色产业”，“黑产”从业者通过不同产业线上线下的商业漏洞来牟利。相似的商业欺诈行为也发生在分销渠道系统中。在该系统中，大的品牌公司不会将其产品直接卖给消费者，而是选择一些分销商将其产品销售给最终客户，并且制定了一系列激励措施激励那些产生大额销量的分销商。这导致了欺诈行为的产生，多个分销商会联合起来将自己的销售额累计在其中一个分销商身上，这种分销渠道上的欺诈行为被称为挂单。

挂单分析的典型应用场景是线上家电产业串货分析。随着电商产业不断发展，串货行为在线上交易中日益盛行，并开始对线下产业造成危害，这种危害在家电行业中体现得尤为突出。在家电行业中同一产品在分销渠道不同的地区销售价格是不同的。但在电子商务平台上，小经销商会在不同的地区以相同的价格销售相同的产品。当线上销量增大时，小型分销商会积累不同地区的产品，并在需求量大的地区进行销售。这种销售积累行将使小分销商获得更多的利润，但却违反了家电行业分销渠道的销售规则，可以说是一种典型的分销渠道欺诈行为，也即俗称的串货。如果这种行为在电商平台上发展壮大将会对市场带来很大的负面影响。

虽然在1989年就有研究详细描述过分销渠道系统挂单的概念和方式，但电商使挂单行为更隐蔽和更容易实施。本发明提出挖掘算法旨在帮助审计部门在大数据场景下快速检测挂单欺诈行为，是结合日益增多的线上电商销售业务真实应用提出的新课题，是一项非常困难和富有挑战意义的课题，主要存在以下两个难点：

(1)销售数据仓库的数据方体存在稀疏性。由于分销商不可能在每个时间点对每种商品都有销售，所以产生了数据稀疏的问题。当数据仓库中数据方体的维度是较宏观的概念级别，此时不存在为空的数据方体，而当数据仓库中数据方体的维度是较微观的概念级别，就会存在大量空的数据方体，无法采用基于数据仓库的联机分析处理技术(OnlineAnalytical ProcessingOLAP)。

(2)正常极值和异常极值的同时存在。由于商品的销售额本来就服从幂律分布，即80％的销售额由20％的商品产生的，如促销，明星产品，节假日(双十一等)等，都会导致某些商品极高的销售额，这些极值是正常商业行为产生的。所以正常极值和异常极值的混合将使得传统基于极值异常检测的方法很难有效工作。

发明内容

有鉴于此，本发明的目的在于提供一种面向多维稀疏销售数据仓库的欺诈行为挖掘方法。用于解决背景技术中提到的问题。

第一方面，为达到上述目的，本发明提供如下技术方案：

面向多维稀疏销售数据仓库的欺诈行为挖掘方法，该方法包括以下步骤：

S1：定义参数，包括多维数据空间、多维数据空间上的偏序格、销售数据仓库、销售数据仓库在多维数据空间上的数据分块、挂单行为和挂单模式；

S2：定义问题：

问题1：分销商挂单模式挖掘；

问题2：特定挂单模式l下的挂单点p挖掘

S3：特定挂单模式下的挂单点挖掘；

S4：挂单模式挖掘。

可选的，所述S1具体为：

定义多维数据空间D＝(A₁,A₂,…,A_n)：D由n个维度构成，A_i＝{a_i1,a_i2,…,a_im}，A_i中的每个元素代表第i维上的一个概念级别；

定义多维数据空间D上的偏序格L＝<M,≤>：设D＝(A₁,A₂,…,A_n)，M＝{l₁,l₂,...,l_m}，对任意l∈M，l＝(a₁,a₂,…,a_n)，其中a_i∈A_i，称l为偏序格L的格点；对于M中的任意两个格点l_i＝(a_i1,a_i2,…,a_in)和l_j＝(a_j1，a_j2,…,a_jn)，如果l_i≤l_j，表示l_i在各维度上的级别均低于或等于l_j在相应维上的概念级别；

定义销售数据仓库R：R＝{t₁,...,t_N}是包含N条销售记录的销售数据集，设R所在的多维空间D＝{A₁,A₂,…,A_n}，对任意t_i∈R有t_i＝v(α₁,α₂,...,α_n,s)，其中v是t_i的销售额，(α₁,α₂,...,α_n)是t_i的记录属性在D上各个维度和概念层次的取值，s是产生该销售记录的分销商ID；

定义销售数据仓库R在D上的数据分块Chunk(R,l)：设R＝{t₁,...,t_N}，L是D上的偏序格L＝<M,≤>，l∈M并且l＝(a₁,a₂,…,a_n)，则Chunk(R,l)＝{C₁,C₂,...,C_k}，

C₁∪C₂∪...∪C_k＝R，对任意t_i＝v(α_i1,α_i2,...,α_in,s_i)，t_j＝v(α_j1,α_j2,...,α_jn,s_j)，如果t_i∈C_i并且t_j∈C_i，则(α_i1,α_i2,...,α_in)＝(α_j1,α_j2,...,α_jn)，否则(α_i1,α_i2,...,α_in)≠(α_j1,α_j2,...,α_jn)；

定义挂单行为g(t₁,t₂)：设有两条销售记录数据t_i＝v(α_i1,α_i2,...,α_in,s_i)，t_j＝v(α_j1,α_j2,...,α_jn,s_j)，如果t₁，t₂之间存在挂单行为，则在挂单行为发生后t_i＝v’(α_i1,α_i2,...,α_in,s_i)，t_j＝v’(α_j1,α_j2,...,α_jn,s_j),并且有v’(α_i1,α_i2,...,α_in,s_i)>>v(α_i1,α_i2,...,α_in,s_i),以及v’(α_j1,α_j2,...,α_jn,s_j)<<v(α_j1,α_j2,...,α_jn,s_j)，称t_i为被挂单记录，t_j为挂单记录；

定义挂单模式：设有销售数据仓库R，R所在的多维空间D＝{A₁,A₂,…,A_n}，L＝<M,≤>是D上的偏序格，M＝{l₁,l₂,…,l_m}，称l(l∈M)为R上的一个挂单模式，称g(t₁,t₂)为挂单模式l下的挂单行为当且仅当t₁∈C_i，t₂∈C_i，其中C_i∈Chunk(R,l)。

可选的，所述问题1为：设有销售数据仓库R，L＝<M,≤>是多维数据空间D上的偏序格，M＝{l₁,...,l_n}是R上所有可能的挂单模式集合，设已知R中存在的挂单行为是l(l∈M)，分销商挂单模式挖掘旨在找出从M中找出R上的真实挂单模式l；

所述问题2为：设已知销售数据仓库R上的挂单模为l，Chunk(R,l)＝{C₁,C₂,...,C_n}，要找出挂单模式l下前k个最有可能的挂单点；其中，挂单点p＝C_i,s，C_i,s是C_i中的一个子集，只包含C_i中属于分销商s的销售记录集合。

可选的，所述S3具体为：

在已知挂单模式的情况下，挖掘出问题1中第三种尺度下可能含有被挂单记录的挂单点，即计算每个挂单点p的权重A(p)，p中含有被挂单记录的可能性越大，则A(p)就越大；将第三种尺度下的挂单点记为p_Ci,s，p_Ci,s＝{t₁,...,t_k}，C_i∈Chunk(l)，对任意t_i＝v(α_i1,α_i2,...,α_in,s_i)∈p_Ci,s，都有t_i∈C_i并且s_i＝s；

S31：挂单点特征提取

定义分割率ratio(p_Ci,s)：设有挂单点p_Ci,s＝{t₁,...,t_N}，{v₁,...,v_N}是{t₁,...,t_N}中每条记录所含销售额的降序序列，对任意v_i∈{v₁,...,v_N}，有ratio_i＝mean(v₁,...,v_i)/mean(v_i+1,...,v_N),其中mean(v₁,...,v_i)和mean(v_i+1,...,v_N)分别表示v₁,...,v_i和v_i+1,...,v_n的均值，ratio(p_Ci,s)＝max(ratio₁,...,ratio_n-1)；

定义挂单点的头部平均值H(p_Ci,s)和尾部平均值T(p_Ci,s)：设有挂单点p_Ci,s＝{t₁,...,t_n}，则H(p_Ci,s)＝mean(v₁,...,v_i),T(p_Ci,s)＝mean(v_i+1,...,v_N),其中i是使得ratio_i是{ratio₁,...,ratio_n}中最大的那个点；

设每个挂单点p_Ci,s包含的销售记录{v₁,...,v_n}服从幂律分布P(v>x)＝(x_min/x)^α，其中x_min和α分别是{v₁,...,v_n}所服从幂律分布的两个参数；

获得每个挂单点的α和ratio之间的关系：ratio＝7.15+20.9*α；

S32：挂单点候选集过滤，即：

算法1.层次化挂单点候选集过滤算法H_Filter(l,P)

输入：挂单模式l下的挂单点候选集P＝{p_C1,s,p_C2,s,...,p_Ck,s}，过滤算法迭代次数k.

输出：P’＝过滤后的挂单点候选集.

算法1第3行求出每个挂单点的头尾部平均值作为每个挂单点的特征值，第4行基于混合高斯模型聚类算法对P进行2分聚类，第3～9行进行k次循环，将每次将聚类结果中头部均值较大的一类保留到最终的候选集P’中，将头部均值较小的一类作为下一次聚类的输入数据；

S33：计算挂单点的异常度

首先根据过滤后挂单点候选集及其挂单模式构造张量，然后通过张量的分解和重构来计算集合中每个挂单点的异常度，异常度越大说明挂单点中含有被挂单记录可能性越大，即：

算法2.挂单点异常度计算Outlying_degree(l,P’)

输入：l＝(a₁,a₂,…,a_n)，通过算法1过滤后的挂单点候选集P’，n+1阶张量A,A＝(s,a₁,a₂,...,a_n)，s维的长度是P’中所有分销商的数量，a_i维的长度是P’中所有挂单点在a_i维上的取值数量.

输出：A(P’)，即P’中每个挂单点的异常度.

算法2的1～3行首先构造n+1维张量，(a₁,a₂,...,a_n)维表示挂单模式l＝(a₁,a₂,…,a_n)，s维表示分销商ID；如果(a₁,a₂,…,a_n)中存在a_i＝*时，则应该在第1步中去掉该维，因为当a_i＝*时，此维度的长度为0，无法构造张量，此时l＝(a₁,a₂,…,a_i-1,a_i+1,...,a_n)；第7～9行表示对展开后的矩阵A_s,A_a1,A_a2,...,A_n进行SVD分解；第10行表示对A约减得到核心张量S；第11行表示通过核心张量S重构约减后的张量A’；A’体现了挂单模式中的主要销售行为；第6行中的A’_MAX表示将A’中的最大值作为A’中每个元素的值，二者相减后，使得越异常的元素的值越大；λ_s,λ_a1,...,λ_n是对第4～6行展开后的矩阵分别进行奇异值分解的参数，决定分解后所保留的主成份个数，在实验中λ_s,λ_a1,...,λ_n的取值为其中的最小值。

可选的，所述S4具体为：

S41基于挂单点候选集异常度分布的挂单模式特征提取

将基于原始数据进行异常值计算后的结果进行特征提取，即：

算法3：基于异常度的挂单模式分类特征提取算法Basic_feature_extraction(R)

输入：含挂单行为的销售数据仓库R，R所包含的挂单模式集合{l₁,l₂,…,l_q}，分箱宽度b.

输出：R的特征属性向量v(R).

第2行表示共有q个挂单模式；第3行表示先通过算法1在挂单模式l_i下进行R的挂单点候选集过滤，再通过算法2在挂单模式l_i下计算过滤后挂单点候选集中各挂单点的异常值，P(l_i)表示异常值的集合；第4行表示对P(l_i)进行b等分等宽分箱，一共能够构造q*b个特征属性；

S42基于挂单点异常度分布和挂单模式偏序结构的挂单模式特征提取

定义父子挂单模式：设有销售数据仓库R，已知R中多维数据空间D上的偏序格L＝<M,≤>，M＝{l₁,...,l_n}，设M中有任意两个挂单模式l和l’，l＝(a₁,a₂,…,a_n)，l’＝(a₁’,a₂’,…,a_n’)，如果存在且只存在一个维度i(1≤i≤n)，有a_i’是a_i的上一个概念级别，则称l’是l的父挂单模式，记为l≤_pl’；

算法4：基于挂单模式偏序格的挂单模式分类特征提取算法Advanced_feature_extraction(R)

输出：R的特征属性向量v(R).

第6～10行旨在计算R在挂单模式偏序格上具有父子关系两个挂单模式的异常度，再将其组合后进行分箱处理，然后基于父子挂单模式构造R的特征向量；

设有n个挂单模式已知的销售数据集{(R₁,l₁),...,(R_n,l_n)}，R_i表示第i个数据集，l_i表示其真实挂单模式，采用算法3和算法4中的方法提取R_i的特征向量v(R_i)，得到分类算法训练集{(v(R₁),l₁),...,(v(R_n),l_n)}，采用分类算法训练后对未知挂单模式的数据集进行挂单模式分类，采用随机森林作为分类算法。

可选的，所述S3之前还包括多维数据异常分析和异常行为检测。

第二方面，本申请提供了一种存储介质，所述存储介质包括计算机程序，所述计算机程序运行时，执行第一方面中的方法。

第三方面，本申请还提供了一种电子设备，包括：处理器；存储器，包括计算机程序；所述处理器用于运行所述存储器中的计算机程序，当所述计算机程序运行时，执行第一方面所述的方法。

本发明的有益效果在于：

(1)提出了多维数据仓库中数据块的概念，通过数据块的维度变化来定义不同的挂单模式和挂单点。

(2)提出了一种新的数据仓库度量指标，称为分割率，它不会受到数据方体中数据稀疏性的影响。基于这一概念，可以将数值异常检测和多维数据空间异常检测方法相结合来发现存在挂单行为的销售记录。

(3)提出了挂单模式偏序格的概念，通过引入偏序格中各个挂单模式的相对位置偏序结构信息，有效的使用了数据仓库中的维度层次信息来对挂单行为所遵循的挂单模式进行挖掘。

(4)在真实销售数据仓库上进行大量实验，验证了算法的准确率、时间效率等指标。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为挂单模式示例；图1(a)为销售数据仓库R在在挂单模式；图1(b)为R上的挂单模式偏序格；图1(c)为第二种尺度下R在挂单模式；图1(d)为第三种尺度下R在挂单模式；

图2为销售额分布；

图3为ratio和α的相关关系；

图4为计算挂单点的异常度；图4(a)为原始张量A；图4(b)为重构后的张量A’；图4(c)为挂单点异常度A(P)。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。下述的“定义”是为了便于本领域的技术人员准确地了解本技术方案，而对于本发明中所涉及的技术本质特征或概念的内涵和外延所作的简要概括和说明，对定义的参数或问题赋与本领域技术人员能够充分领会的意义或形象，有利于识别及认同以及再现本发明的技术方案，本发明所述的“定义”过程并不涉及智力活动规则与方法，而是方便实现方法所采用的易于操作的实践步骤。

本发明的面向多维稀疏销售数据仓库的欺诈行为挖掘方法，包括以下步骤：

S1：进行参数定义，参数包括多维数据空间、多维数据空间上的偏序格、销售数据仓库、销售数据仓库在多维数据空间上的数据分块、挂单行为和挂单模式；

S2：进行问题定义：问题包括：

(1)分销商挂单模式挖掘；

(2)特定挂单模式l下的挂单点p挖掘；

S3：进行特定挂单模式下的挂单点挖掘；

S4：进行挂单模式挖掘。

下面将针对上述步骤进行进一步的具体阐述。

相关参数的定义以及问题的描述：分销商渠道欺诈行为挖掘包含两层含义，一是挂单模式挖掘，因为分销商之间的挂单行为不是随机的，而是遵循某种规则，比如挂单行为只能在相同类型的商品之间进行或相同类型的分销商之间进行等；二是挂单点挖掘，当确定了挂单模式之后，要挖掘出那些作为销售额累积点的销售记录，称为挂单点。为了准确描述本发明所要求解的问题，先给出以下定义。

定义1.多维数据空间D＝(A₁,A₂,…,A_n)。D由n个维度构成，A_i＝{a_i1,a_i2,…,a_im}，A_i中的每个元素代表第i维上的一个概念级别。

定义2.多维数据空间D上的偏序格L＝<M,≤>。设D＝(A₁,A₂,…,A_n)，M＝{l₁,l₂,...,l_m}，对任意l∈M，l＝(a₁,a₂,…,a_n)，其中a_i∈A_i，称l为偏序格L的格点。对于M中的任意两个格点l_i＝(a_i1,a_i2,…,a_in)和l_j＝(a_j1，a_j2,…,a_jn)，如果l_i≤l_j，表示l_i在各维度上的级别均低于或等于l_j在相应维上的概念级别。

定义3.销售数据仓库R。R＝{t₁,...,t_N}是包含N条销售记录的销售数据集，设R所在的多维空间D＝{A₁,A₂,…,A_n}，对任意t_i∈R有t_i＝v(α₁,α₂,...,α_n,s)，其中v是t_i的销售额，(α₁,α₂,...,α_n)是t_i的记录属性在D上各个维度和概念层次的取值，s是产生该销售记录的分销商ID。

定义4.销售数据仓库R在D上的数据分块Chunk(R,l)。设R＝{t₁,...,t_N}，L是D上的偏序格L＝<M,≤>，l∈M并且l＝(a₁,a₂,…,a_n)，则Chunk(R,l)＝{C₁,C₂,...,C_k}，

C₁∪C₂∪...∪C_k＝R，对任意t_i＝v(α_i1,α_i2,...,α_in,s_i)，t_j＝v(α_j1,α_j2,...,α_jn,s_j)，如果t_i∈C_i并且t_j∈C_i，则(α_i1,α_i2,...,α_in)＝(α_j1,α_j2,...,α_jn)，否则(α_i1,α_i2,...,α_in)≠(α_j1,α_j2,...,α_jn)。

定义5.挂单行为g(t₁,t₂)。设有两条销售记录数据t_i＝v(α_i1,α_i2,...,α_in,s_i)，t_j＝v(α_j1,α_j2,...,α_jn,s_j)，如果t₁，t₂之间存在挂单行为，则在挂单行为发生后t_i＝v’(α_i1,α_i2,...,α_in,s_i)，t_j＝v’(α_j1,α_j2,...,α_jn,s_j),并且有v’(α_i1,α_i2,...,α_in,s_i)>>v(α_i1,α_i2,...,α_in,s_i),以及v’(α_j1,α_j2,...,α_jn,s_j)<<v(α_j1,α_j2,...,α_jn,s_j)，称t_i为被挂单记录，t_j为挂单记录。

定义6.挂单模式。设有销售数据仓库R，R所在的多维空间D＝{A₁,A₂,…,A_n}，L＝<M,≤>是D上的偏序格，M＝{l₁,l₂,…,l_m}，称l(l∈M)为R上的一个挂单模式，称g(t₁,t₂)为挂单模式l下的挂单行为当且仅当t₁∈C_i，t₂∈C_i，其中C_i∈Chunk(R,l)。

图1(a)是销售数据仓库R＝{t₁,...,t₁₈}，其对应多维空间为{分销商，商品，时间}，设每个维层次结构分别为分销商ID→分销商类型→All，商品ID→商品系列→商品品牌→商品类型→All；月份→All，则D上的偏序格共有3*5*2＝30个格点为描述简洁，图1(b)中省略了时间维度，画出了多维空间为D(分销商，商品)的偏序格L。可知l＝{商品类型,分销商类型,*}是L的一个格点，用红色圆圈表示，Chunk(R,l)＝{C₁,C₂,C₃,C₄}，C₁＝(美妆店,飘柔,*)＝{t₁,t₂,t₃,t₄,t₅,t₆}，C₂＝(美妆店,潘婷,*)＝{t₇,t₈,t₉,t₁₀}，C₃＝(批发市场,飘柔,*)＝{t₁₁,t₁₂,t₁₃}，C₄＝(批发市场,潘婷,*)＝{t₁₄,t₁₅,t₁₆,t₁₇,t₁₈}。图中箭头表示一次挂单行为，分别是g(t₁,t₃)∈C₁，g(t₁,t₅)∈C₁，g(t₂,t₄)∈C₁。下面根据定义1～6可以给出本发明待求解问题的定义。

问题1.分销商挂单模式挖掘。设有销售数据仓库R，L＝<M,≤>是多维数据空间D上的偏序格，M＝{l₁,...,l_n}是R上所有可能的挂单模式集合，设已知R中存在的挂单行为是l(l∈M)，分销商挂单模式挖掘旨在找出从M中找出R上的真实挂单模式l。

问题2.特定挂单模式l下的挂单点p挖掘。设已知销售数据仓库R上的挂单模为l，Chunk(R,l)＝{C₁,C₂,...,C_n}，该问题要找出挂单模式l下前k个最有可能的挂单点。在本问题中挂单点p可以有三种尺度：第一种是p＝t，当且仅当t是被挂单记录；第二种是p＝C_i，当且仅当C_i中包含被挂单记录。第一种尺度是最精确的，但是由于数据稀疏性等问题导致很难挖掘出第一种尺度下的挂单点，即精度很低。第二种尺度的挖掘难度远小于第一种，但由于C_i中通常会包含很多记录，这会导致挖掘结果本身极不精确，即召回率很低。因此本发明设计了第三种尺度p＝C_i,s，C_i,s是C_i中的一个子集，只包含C_i中属于分销商s的销售记录集合。第三种尺度下的挂单点规模在第一二种尺度之间，可以较好的平衡精度和召回率。

在第一种尺度下共18个挂单点，每个销售记录分别是一个挂单点，其中t₁，t₂是真实挂单点，如图1(a)所示，(商品类型,分销商类型,月份)下包含的4个数据块C1～C4。在第二种尺度下共4个挂单点分别是{t₁,t₂,t₃,t₄,t₅,t₆}，{t₇,t₈,t₉,t₁₀}，{t₁₁,t₁₂,t₁₃}，{t₁₄,t₁₅,t₁₆,t₁₇,t₁₈}，其中{t₁,t₂,t₃,t₄,t₅,t₆}是真实挂单点，如图1(c)所示，(商品类型,分销商类型,*)下的4个挂单点，在第三种尺度下共8个挂单点分别是{t₃,t₅,t₆}，{t₁,t₂,t₄}，{t₉,t₁₀}，{t₇,t₈}，{t₁₂,t₁₃}，{t₁₁}，{t₁₄,t₁₆,t₁₇}，{t₁₅,t₁₈}，其中{t₁,t₂,t₄}是真实挂单点，如图1(d)所示，(商品类型,分销商类型,*)下的8个挂单点。

图1(b)描述了数据仓库R中的稀疏性问题。图1(b)中每个挂单模式下有两个数，右边的数字表示该挂单模式包含的总数据块个数，左边的数字表示非空数据块个数，可见，当挂单模式位于偏序格的上方时，即维度属性处于概念层次中较宏观的级别，此时挂单模式包含的数据块较少，不存在空数据块，而当挂单模式位于偏序格下方，即维度属性处于概念层次中较微观的级别，挂单模式包含大量空数据块。

根据上面的分析，本发明提出了基于第三种尺度的挂单点挖掘算法，该算法将数据仓库多维分析和人工智能技术结合起来，通过统计不同空间维度各数据块所包含销售数据的分布来提取人工智能算法的特征属性，克服数据稀疏性和正常极值点造成的影响，这也是本发明在人工智能和数据库两种技术结合过程中做出的探索。

相关工作：欺诈检测是一项非常有意义并且实用性很强的工作，能够广泛的应用于银行，保险等。近年来，在电子商务中的欺诈行为尤为突出，并且大幅增加，这使得欺诈检测比以往任何时候都更加重要。尽管相关机构做出了努力，但每年仍有数亿美元因欺诈而损失。在保险方面欺诈可以是夸大的损失，或者故意造成支付事故等。近年来有25％的索赔包含某种形式的欺诈，导致大约10％的保险赔付金属于欺诈赔付，因此，快速检测作弊行为以尽可能减少客户的损失是非常重要的。

研究人员设计了一系列方法来控制在线金融服务的风险。由于在线用户具有一些固定的移动设备使用习惯，如跨屏行为，聊天，视频观看和点击行为等。这些习惯不仅可以为移动营销提供决策和帮助，还可以广泛应用于金融科技领域。Zhang等人提出了一种序贯行为数据的特征提取框架来检测在线欺诈。Chen等人提出了层级化和矢量化的知识库表示，以检测基于短文本的金融欺诈。此外，由于交互式问答也可能包含用于识别用户信用风险的重要信息，Song等人提出了一个基于交互式问答的欺诈特征提取框架，以检测在线借贷的风险。另一方面，传统风险控制中使用的风险评分模型旨在模拟个人的特征，但很难实现对群体风险的全面控制，如帮派欺诈，群体攻击等。为了检测群体欺诈行为，Min等人提出了一种基于图模型进行特征提取的行为语言处理模型，并将该模型用于检测群体性的在线借贷欺诈行为。在群体风险控制领域，欺诈检测主要集中在发现公司，代理商甚至软件的异常行为。Vlasselaer等人提出了一种检测公司欺诈性破产以进行逃税的方法。Vlasselaer等人在检测公司欺诈性破产的过程中，发现欺诈性公司通常隶属于某个欺诈集团。例如，有隶属于欺诈集团的三个即将破产的公司A，B和C，他们同时将资源现在转移到集团中另一个活跃公司D，而公司D在获取资源后在未来短期也进行了欺诈性破产。他们引入了一种社交网络结构，从而基于社交网络的挖掘算法来进行整个欺诈集团的挖掘。在软件欺诈检测方面，Zhu等人进行了移动应用软件的排名欺诈检测，排名欺诈的目的是提升应用软件在流行度列表中的排名。在软件恶意破坏检测方面，Heindorf等人提出了维基百科编辑恶意破坏行为检测。Kumar等人设计了维基百科恶意破坏预警系统。

特定挂单模式下的挂单点挖掘：该关注点的目标是在已知挂单模式的情况下，挖掘出问题1中第三种尺度下可能含有被挂单记录的挂单点，即计算每个挂单点p的权重A(p)，p中含有被挂单记录的可能性越大，则A(p)就越大。将第三种尺度下的挂单点记为p_Ci,s，p_Ci,s＝{t₁,...,t_k}，C_i∈Chunk(l)，对任意t_i＝v(α_i1,α_i2,...,α_in,s_i)∈p_Ci,s，都有t_i∈C_i并且s_i＝s。

为了挖掘挂单模式l下的真实挂单点，需要提取出挂单点的特征，图2绘制了销售数据仓库中所有销售额的分布图，横坐标表示销售额，纵坐标表示该销售额区间的出现频率，横纵坐标都转换成了双对数坐标。由于在双对数坐标下，分布图趋近于直线，所以推测销售额呈幂律分布。因此，可以将每个挂单点销售额序列的幂律分布参数作为该挂单点的数据特征。但由于数据的稀疏性会使得某些挂单点只包含很少销售记录，如果基于这样的稀疏数据计算每个挂单点的幂指数会造成很大误差，本发明设计了销售额序列的头尾部平均值来替代数据稀疏情况下的幂律分布参数，这里首先给出相关定义。

定义7.分割率ratio(p_Ci,s)。设有挂单点p_Ci,s＝{t₁,...,t_N}，{v₁,...,v_N}是{t₁,...,t_N}中每条记录所含销售额的降序序列，对任意v_i∈{v₁,...,v_N}，有ratio_i＝mean(v₁,...,v_i)/mean(v_i+1,...,v_N),其中mean(v₁,...,v_i)和mean(v_i+1,...,v_N)分别表示v₁,...,v_i和v_i+1,...,v_n的均值，ratio(p_Ci,s)＝max(ratio₁,...,ratio_n-1)。

定义8.挂单点的头部平均值H(p_Ci,s)和尾部平均值T(p_Ci,s)。设有挂单点p_Ci,s＝{t₁,...,t_n}，则H(p_Ci,s)＝mean(v₁,...,v_i),T(p_Ci,s)＝mean(v_i+1,...,v_N),其中i是使得ratio_i是{ratio₁,...,ratio_n}中最大的那个点。

设图2中每个挂单点p_Ci,s包含的销售记录{v₁,...,v_n}服从幂律分布P(v>x)＝(x_min/x)^α，其中x_min和α分别是{v₁,...,v_n}所服从幂律分布的两个参数。图4展示了每个挂单点的α和ratio之间的关系，其中α是通过对挂单点p_Ci,s的销售额序列{v₁,...,v_n}进行极大似然估计得到的，ratio是通过对挂单点的销售额序列{v₁,...,v_n}按照定义7计算得到的，对图3中所有挂单点的ratio和α进行线性拟合可以得到公式ratio＝7.15+20.9*α，红色曲线是将α作为自变量带入该公式后得到ratio和α的拟合曲线。可以看出，散点图较好的符合了该曲线。这说明可以将ratio作为α的近似，并且由于ratio＝7.15+20.9*α，说明ratio是对α的线性放大。同时，由于ratio只需要销售额序列包含2个及以上的数据，所以解决了稀疏数据特征提取的问题。

由于真实挂单点肯定含有较大销售额，也即肯定是具有较大的头部平均值，则在计算挂单点权重之前，应该将那些头尾平均值都较小的挂单点过滤掉。同时，前面已经指出挂单点所包含的销售额序列呈幂律分布，所以过滤过程需要在不同规模尺度的头尾部平均值上逐层迭代进行，算法1给出了具体过程。

算法1.层次化挂单点候选集过滤算法H_Filter(l,P)

输出：P’＝过滤后的挂单点候选集.

算法第3行求出每个挂单点的头尾部平均值作为每个挂单点的特征值，第4行基于混合高斯模型聚类算法对P进行2分聚类，第3～9行进行k次循环，将每次将聚类结果中头部均值较大的一类保留到最终的候选集P’中，将头部均值较小的一类作为下一次聚类的输入数据。

比如，在第三种尺度下的挂单点候选集，如图1(d)所示，根据算法1，首先对P进行2分聚类得P₁＝{p_{(美妆店,飘柔,*),s2}}，P₂＝P-P₁，设H(P₁)>H(P₂)，则P’＝{p_{(美妆店,飘柔,*),s2}}，P＝P₂，继续对P进行2分聚类得P₁＝{p_{(批发市场,飘柔,*),s3},p_{(批发市场,潘婷,*),s3},p_{(批发市场,飘柔,*),s4},p_{(批发市场,潘婷,*),s4}}，P₂＝P-P₁。设H(P₁)>H(P₂)，则P’＝P₁。如果循环次数k＝2，则算法停止，过滤后的挂单点候选集P’＝{p_{(美妆店,飘柔,*),s2},p_{(批发市场,飘柔,*),s3},p_{(批发市场,潘婷,*),s3},p_{(批发市场,飘柔,*),s4},p_{(批发市场,潘婷,*),s4}}。

由于过滤后的挂单点候选集中各个挂单点的销售都比较大，无法再通过销售额的绝对值来判断挂单点的异常性，只能通过挂单点所体现的销售行为异常性来进行区分。因此首先根据过滤后挂单点候选集及其挂单模式构造张量，然后通过张量的分解和重构来计算集合中每个挂单点的异常度，异常度越大说明挂单点中含有被挂单记录可能性越大。

算法2.挂单点异常度计算Outlying_degree(l,P’)

输出：A(P’)，即P’中每个挂单点的异常度.

下面对算法2稍作解释：(1)算法2的1～3行首先构造n+1维张量，(a₁,a₂,...,a_n)维表示挂单模式l＝(a₁,a₂,…,a_n)，s维表示分销商ID。同时，如果(a₁,a₂,…,a_n)中存在a_i＝*时，则应该在第1步中去掉该维，因为当a_i＝*时，此维度的长度为0，无法构造张量，此时l＝(a₁,a₂,…,a_i-1,a_i+1,...,a_n)。比如，3.2节中得到过滤后的挂单点候选集P’＝{p_{(美妆店,飘柔,*),s2},p_{(批发市场,飘柔,*),s3},p_{(批发市场,潘婷,*),s3},p_{(批发市场,飘柔,*),s4},p_{(批发市场,潘婷,*),s4}}，P’的挂单模式为l＝(分销商类型，商品系列，*)，则根据算法2构造的张量维度为(分销商ID，分销商类型，商品系列)，如图4(a)所示。可以看出P’中的销售行为可以分为两类，第一类销售行为中分销商属于批发市场，并且对飘柔和潘婷系列的销售额都较高，第二类销售行为中分销商属于美妆店，并且只对飘柔系列的销售额较高，第一类销售行为占据了候选集中的4/5记录数据，第二类占据1/5；(2)第4～6行表示将A在每个模式上分别进行展开；(3)第7～9行表示对展开后的矩阵A_s,A_a1,A_a2,...,A_n进行SVD分解；(4)第10行表示对A约减得到核心张量S；(5)第11行表示通过核心张量S重构约减后的张量A’。A’体现了挂单模式中的主要销售行为，如图4(b)所示。可知第一类销售行为中的4条销售记录在A’中均有较大值，所以可以推断第一类销售行为体现了该销售数据的主要销售行为，而第二类销售行为中的挂单点p_{(美妆店,飘柔,*),s2}在A’中取值为0，说明其销售行为并非主流行为，很可能是真实挂单点。(6)第6行中的A’_MAX表示将A’中的最大值作为A’中每个元素的值，二者相减后，可以使得越异常的元素的值越大，如图4(c)所示。λ_s,λ_a1,...,λ_n是对第4～6行展开后的矩阵分别进行奇异值分解的参数，它们决定了分解后所保留的主成份个数，在实验中λ_s,λ_a1,...,λ_n的取值为其中的最小值。

挂单模式挖掘：挂单模式挖掘旨在判断出销售数据所服从的挂单模式是所有候选挂单模式的哪一种，是典型的分类问题，所以需要从数据中进行分类特征的提取。由于数据本身存在稀疏性和正常极值问题，所以直接从原始数据中进行特征提取是比较困难的。通过大量实验发现如果原始数据仓库中的真实挂单模式为l，那么无论在算法2中输入哪种挂单模式进行分析，其输出的挂单点集合异常值分布都是相对比较相似的，因此本发明将基于原始数据进行异常值计算后的结果进行特征提取，具体如算法3所示。

输出：R的特征属性向量v(R).

第2行表示共有q个挂单模式。第3行表示先通过算法1在挂单模式l_i下进行R的挂单点候选集过滤，再通过算法2在挂单模式l_i下计算过滤后挂单点候选集中各挂单点的异常值，P(l_i)表示异常值的集合。第4行表示对P(l_i)进行b等分等宽分箱，一共可以构造q*b个特征属性。比如，设P(l_i)＝(0.1,0.1,0.8,0.8,1.2)，按照b＝(0,0.5)和(0.5,以上)进行2等分等宽分箱，则R在l_i下可以得到两个特征属性(2,3)，因为P(l_i)中0至0.5之间的异常值有2个，0.5以上的异常值有3个。如果总共有q＝7个挂单模式，则通过算法3对R构造的特征向量一共含有2*7＝14个特征属性。

经过大量实验可以发现，在前述得到的分类特征基础上加入挂单模式偏序结构信息，将会提高挂单模式分类算法的分类精度。

定义9.父子挂单模式。设有销售数据仓库R，已知R中多维数据空间D上的偏序格L＝<M,≤>，M＝{l₁,...,l_n}，设M中有任意两个挂单模式l和l’，l＝(a₁,a₂,…,a_n)，l’＝(a₁’,a₂’,…,a_n’)，如果存在且只存在一个维度i(1≤i≤n)，有a_i’是a_i的上一个概念级别，则称l’是l的父挂单模式，记为l≤_pl’。

输出：R的特征属性向量v(R).

第6～10行旨在计算R在挂单模式偏序格上具有父子关系两个挂单模式的异常度，再将其组合后进行分箱处理，过程与算法3相同。然后基于父子挂单模式构造R的特征向量。如图1(b)所示，多维数据空间D＝{分销商，商品}上的偏序格为L＝<M,≤>，L中共有10组父子挂单模式，对应图1(b)上的10条边，去掉(*,*)所对应的两组父子挂单模式，共有8组父子挂单模式，则v(R)共含有2*8＝16个特征属性。

设有n个挂单模式已知的销售数据集{(R₁,l₁),...,(R_n,l_n)}，R_i表示第i个数据集，l_i表示其真实挂单模式，采用算法3和算法4中的方法可提取R_i的特征向量v(R_i)，得到分类算法训练集{(v(R₁),l₁),...,(v(R_n),l_n)}，采用分类算法训练后可对未知挂单模式的数据集进行挂单模式分类，本发明采用随机森林作为分类算法。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.面向多维稀疏销售数据仓库的欺诈行为挖掘方法，其特征在于：该方法包括以下步骤：

S2：进行问题定义：问题包括：

(1)分销商挂单模式挖掘；

(2)特定挂单模式l下的挂单点p挖掘；

S3：进行特定挂单模式下的挂单点挖掘；

S4：进行挂单模式挖掘。

2.根据权利要求1所述的面向多维稀疏销售数据仓库的欺诈行为挖掘方法，其特征在于：所述S1具体为：

3.根据权利要求2所述的面向多维稀疏销售数据仓库的欺诈行为挖掘方法，其特征在于：所述步骤S2中，问题(1)为：设有销售数据仓库R，L＝<M,≤>是多维数据空间D上的偏序格，M＝{l₁,...,l_n}是R上所有可能的挂单模式集合，设已知R中存在的挂单行为是l(l∈M)，分销商挂单模式挖掘旨在找出从M中找出R上的真实挂单模式l；

问题(2)为：设已知销售数据仓库R上的挂单模为l，Chunk(R,l)＝{C₁,C₂,...,C_n}，要找出挂单模式l下前k个最有可能的挂单点；其中，挂单点p＝C_i,s，C_i,s是C_i中的一个子集，只包含C_i中属于分销商s的销售记录集合。

4.根据权利要求3所述的面向多维稀疏销售数据仓库的欺诈行为挖掘方法，其特征在于：所述S3具体为：

在已知挂单模式的情况下，挖掘出问题(1)中第三种尺度下可能含有被挂单记录的挂单点，即计算每个挂单点p的权重A(p)，p中含有被挂单记录的可能性越大，则A(p)就越大；将第三种尺度下的挂单点记为p_Ci,s，p_Ci,s＝{t₁,...,t_k}，C_i∈Chunk(l)，对任意t_i＝v(α_i1,α_i2,...,α_in,s_i)∈p_Ci,s，都有t_i∈C_i并且s_i＝s；

S31：挂单点特征提取