CN109948724A - 一种基于改进lof算法的电商刷单行为检测方法 - Google Patents

一种基于改进lof算法的电商刷单行为检测方法 Download PDF

Info

Publication number
CN109948724A
CN109948724A CN201910242223.1A CN201910242223A CN109948724A CN 109948724 A CN109948724 A CN 109948724A CN 201910242223 A CN201910242223 A CN 201910242223A CN 109948724 A CN109948724 A CN 109948724A
Authority
CN
China
Prior art keywords
point
data
lof
electric business
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910242223.1A
Other languages
English (en)
Inventor
杨宝华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Shandong Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Information Technology Co Ltd filed Critical Shandong Inspur Cloud Information Technology Co Ltd
Priority to CN201910242223.1A priority Critical patent/CN109948724A/zh
Publication of CN109948724A publication Critical patent/CN109948724A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明特别涉及一种基于改进LOF算法的电商刷单行为检测方法。该基于改进LOF算法的电商刷单行为检测方法,针对电商刷单的行为特征,进行数据特征选择作为LOF算法的数据集,并将整个数据集随机划分为不同的数据子集;采用LOF算法基于数据子集的划分计算数据点局部离群因子LOF值;在循环计算中不断剔除密度较大的数据点,剩余数据点即为可能的异常数据点。该基于改进LOF算法的电商刷单行为检测方法,基于数据子集的划分以及在循环中不断剔除密度较大的数据点,缩短了LOF算法运行时间,大大提高了大规模数据集异常值检测的效率,能够准确检测到电商企业旗下商品的刷单问题,避免金融机构在授信过程中受到电商企业信誉欺诈影响,造成信贷损失。

Description

一种基于改进LOF算法的电商刷单行为检测方法
技术领域
本发明涉及异常值检测技术领域,特别涉及一种基于改进LOF算法的电商刷单行为检测方法。
背景技术
随着互联网基础设施的不断完善,网上购物已经十分普及。但电商卖家为了提升自身店铺的信誉度以及增加顾客购买的可能性,目前国内各大电商平台都普遍存在刷单现象,这使得商品交易过程中商家信用发生扭曲,信誉欺诈问题比较普遍。所以,使用智能算法等技术手段检测电商刷单行为并在特定应用场景中(比如对中小微的信贷支持)对其进行准入限制十分必要。
在异常值检测算法中,聚类算法是应用非常广泛的一类算法,其中二分K-means(二分K均值聚类)算法与DBSCAN(Density-Based Spatial Clustering ofApplicationswith Noise,密度聚类)算法是两类成熟的算法应用。但是对于业务数据来说,由于商品的行业属性以及价值属性均有所差异,所以数据密度基于行业、价值等特性分布差异较大,分布密度在不同的数据簇中存在较大差异。基于具体的业务背景,上述两种传统的异常值检测算法适应度较差,对发现非凸形状簇以及不同密度簇的效果都不是很好。
由于商品的行业属性以及价值属性均有所差异,所以数据密度基于行业、价值等特性分布差异较大,运用传统的K-means等算法在此业务中的异常值检测效果不佳,而采用LOF(Local OutlierFactor,局部离群因子检测方法)算法进行异常值检验,可以针对不同商品特征分布密度进行精准识别,正适用于基于不同密度的数据集群,异常值检测结果也有较大幅度提升。但是,由于电商销售商品数目动辄数亿,加之数据维度较高,所以在算法设计方面对算法的空间复杂度与时间复杂度要求较高。因此,采用LOF算法最大的缺点是计算量较大,所以在对大规模数据集进行计算时,需要通过算法优化以提高计算效率。
LOF算法原理主要是通过比较每个处在n维空间中的数据点p与其邻域点的密度来判断该点是否为异常点,点p的密度越低,越有可能被认定为异常点。而密度的计算,通过点之间的距离衡量,点之间距离越远,密度越低,距离越近,密度越高。因为LOF算法对密度的衡量是通过点的第k邻域来计算,而不是全局计算,因此得名为“局部”异常因子。
从目前论文检索中,使用LOF算法进行异常值检测的论文普遍集中于信用卡欺诈检测以及网络入侵检测等领域。在算法改进方面,多数以改进距离计算为主,比如2015年网页资讯系统及应用会议的会议记录中《SLOF:identify density-based local outliersin big data》一文记载了将LOF算法的距离度量由欧式距离改为和向量的内积有关的度量,利用cosin距离度量数据点之间的相似度。杨风召等在2004年发表的《动态环境下局部异常的增量挖掘算法》一文中记载了针对特定数据集,比如在动态环境下,出现数据的增加、删除或修改的情况下,对LOF算法进行修正的快速数据处理算法。
从验证结果看,当前改进算法主要从业务角度出发,通过改进距离的计算方式改进算法计算精准度;或者针对大规模数据集改进算法效率,降低算法运行时间,提升异常值检测的效率等方面展开。
为了提高异常值检测效率,综合考虑电商刷单异常值检测的问题以及总体商品量巨大的问题,通过对局部异常因子LOF算法进行修正,本发明设计了一种基于改进LOF算法的电商刷单行为检测方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于改进LOF算法的电商刷单行为检测方法。
本发明是通过如下技术方案实现的:
一种基于改进LOF算法的电商刷单行为检测方法,其特征在于:包括以下步骤:
(A)针对电商刷单的行为特征,进行数据特征选择作为LOF算法的数据集,并将整个数据集随机划分为不同的数据子集;
(B)采用LOF算法基于数据子集的划分先计算数据点的第K距离邻域,然后计算数据点的局部可达密度LRD值和局部离群因子LOF值;
(C)在循环计算中不断剔除密度较大的数据点,对数据特征选择不断修正,剩余数据点即为可能的异常数据点,有效缩减在大数据集异常值检测运行时间。
所述步骤(A)中,数据特征选择能够全面反映电商商铺的综合状况以及电商商品的综合状况,包括电商商铺特征数据,电商商品的交易数据以及商品评价数据。
所述步骤(B)中,对于每个数据点,只在其所在的数据子集中搜索第K距离邻域;对于所有数据点,在每个数据子集里计算局部可达密度LRD值和局部离群因子LOF值。
点p的局部可达密度LRD值表示点p的第K距离邻域内点到p的平均可达距离的倒数,计算公式如下:
其中,NK(p)为点p的第K距离邻域,|NK(p)|为点p所在的第K距离邻域内数据点的个数,dK(p,o)为点p的第K距离,reach-dK(p,o)为点o到点p的第K可达距离。
所述点p的第K距离dK(p,o)=dK(p),且在集合中至少有不包括p在内的K个点 o’∈C{x≠p},满足dK(p,o’)≤dK(p,o);在集合中最多有不包括p在内的K-1个点o’∈C{x≠p},满足dK(p,o’)<dK(p,o)。
所述点p的第K距离邻域NK(p),就是p的第K距离以内的所有点,包括第K距离,且点p的第K距离邻域内点的个数|NK(p)|≥K。
所述点o到点p的第K可达距离reach-dK(p,o)=max{K-dK(o),dK(p,o)},点o到点 p的第K可达距离至少是o的第K距离,或者为点o与点p间的真实距离,点o到离点o 最近的K个点的可达距离被认为相等,且都等于dK(o)。
点p的局部离群因子LOF值表示点p的邻域点Nk(p)的局部可达密度LRD值与点p 的局部可达密度LRD值之比的平均数,计算公式如下:
若所述局部离群因子LOF值越接近1,说明点p的邻域点密度相差不大,点p可能和其邻域同属一簇;若所述局部离群因子LOF值远小于1,说明点p的密度高于邻域密度,点p为密集点;若所述局部离群因子LOF值远大于1,说明点p的密度小于邻域密度;大于1的局部离群因子LOF值越大,点p越可能是异常点。
所述步骤(C)中,在循环计算中不断剔除局部离群因子LOF值<1的数据点,进而提升异常值检测效率,有效缩减在大数据集异常值检测运行时间。
本发明的有益效果是:该基于改进LOF算法的电商刷单行为检测方法,基于数据子集的划分以及在循环中不断剔除密度较大的数据点,缩短了LOF算法运行时间,大大提高了大规模数据集异常值检测的效率,能够准确检测到电商企业旗下商品的刷单问题,避免金融机构在授信过程中受到电商企业信誉欺诈影响,造成信贷损失。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于改进LOF算法的电商刷单行为检测方法,包括以下步骤:
(A)针对电商刷单的行为特征,进行数据特征选择作为LOF算法的数据集,并将整个数据集随机划分为不同的数据子集;
(B)采用LOF算法基于数据子集的划分先计算数据点的第K距离邻域,然后计算数据点的局部可达密度LRD值和局部离群因子LOF值;
(C)在循环计算中不断剔除密度较大的数据点,对数据特征选择不断修正,剩余数据点即为可能的异常数据点,有效缩减在大数据集异常值检测运行时间。
所述步骤(A)中,数据特征选择能够全面反映电商商铺的综合状况以及电商商品的综合状况,包括电商商铺特征数据,电商商品的交易数据以及商品评价数据。
所述步骤(B)中,对于每个数据点,只在其所在的数据子集中搜索第K距离邻域;对于所有数据点,在每个数据子集里计算局部可达密度LRD值和局部离群因子LOF值。
点p的局部可达密度LRD值表示点p的第K距离邻域内点到p的平均可达距离的倒数,计算公式如下:
其中,NK(p)为点p的第K距离邻域,|NK(p)|为点p所在的第K距离邻域内数据点的个数,dK(p,o)为点p的第K距离,reach-dK(p,o)为点o到点p的第K可达距离。
所述点p的第K距离dK(p,o)=dK(p),且在集合中至少有不包括p在内的K个点 o’∈C{x≠p},满足dK(p,o’)≤dK(p,o);在集合中最多有不包括p在内的K-1个点o’∈C{x≠p},满足dK(p,o’)<dK(p,o)。
所述点p的第K距离邻域NK(p),就是p的第K距离以内的所有点,包括第K距离,且点p的第K距离邻域内点的个数|NK(p)|≥K。
所述点o到点p的第K可达距离reach-dK(p,o)=max{K-dK(o),dK(p,o)},点o到点 p的第K可达距离至少是o的第K距离,或者为点o与点p间的真实距离,点o到离点o 最近的K个点的可达距离被认为相等,且都等于dK(o)。
点p的局部离群因子LOF值表示点p的邻域点Nk(p)的局部可达密度LRD值与点p 的局部可达密度LRD值之比的平均数,计算公式如下:
若所述局部离群因子LOF值越接近1,说明点p的邻域点密度相差不大,点p可能和其邻域同属一簇;若所述局部离群因子LOF值远小于1,说明点p的密度高于邻域密度,点p为密集点;若所述局部离群因子LOF值远大于1,说明点p的密度小于邻域密度;大于1的局部离群因子LOF值越大,点p越可能是异常点。
所述步骤(C)中,在循环计算中不断剔除局部离群因子LOF值<1的数据点,进而提升异常值检测效率,有效缩减在大数据集异常值检测运行时间。
该基于改进LOF算法的电商刷单行为检测方法,具体实现步骤:
通过抽取电商商品多个数据维度,利用基于改进的LOF算法快速对商品刷单行为进行检测。如果LOF算法结果显示电商企业旗下商品有刷单问题,在金融授信过程中会自动调降该企业信用等级,并对该企业的电商销售额进行相应调整,避免金融机构在授信过程中受到电商企业信誉欺诈影响,造成信贷损失。

Claims (9)

1.一种基于改进LOF算法的电商刷单行为检测方法,其特征在于,包括以下步骤:
(A)针对电商刷单的行为特征,进行数据特征选择作为LOF算法的数据集,并将整个数据集随机划分为不同的数据子集;
(B)采用LOF算法基于数据子集的划分先计算数据点的第K距离邻域,然后计算数据点的局部可达密度LRD值和局部离群因子LOF值;
(C)在循环计算中不断剔除密度较大的数据点,对数据特征选择不断修正,剩余数据点即为可能的异常数据点,有效缩减在大数据集异常值检测运行时间。
2.根据权利要求1所述的基于改进LOF算法的电商刷单行为检测方法,其特征在于:所述步骤(A)中,数据特征选择能够全面反映电商商铺的综合状况以及电商商品的综合状况,包括电商商铺特征数据,电商商品的交易数据以及商品评价数据。
3.根据权利要求2所述的基于改进LOF算法的电商刷单行为检测方法,其特征在于:所述步骤(B)中,对于每个数据点,只在其所在的数据子集中搜索第K距离邻域;对于所有数据点,在每个数据子集里计算局部可达密度LRD值和局部离群因子LOF值。
4.根据权利要求3所述的基于改进LOF算法的电商刷单行为检测方法,其特征在于:点p的局部可达密度LRD值表示点p的第K距离邻域内点到p的平均可达距离的倒数,计算公式如下:
其中,NK(p)为点p的第K距离邻域,|NK(p)|为点p所在的第K距离邻域内数据点的个数,dK(p,o)为点p的第K距离,reach-dK(p,o)为点o到点p的第K可达距离。
5.根据权利要求4所述的基于改进LOF算法的电商刷单行为检测方法,其特征在于:所述点p的第K距离dK(p,o)=dK(p),且在集合中至少有不包括p在内的K个点o’∈C{x≠p},满足dK(p,o’)≤dK(p,o);在集合中最多有不包括p在内的K-1个点o’∈C{x≠p},满足dK(p,o’)<dK(p,o)。
6.根据权利要求4所述的基于改进LOF算法的电商刷单行为检测方法,其特征在于:所述点p的第K距离邻域NK(p),就是p的第K距离以内的所有点,包括第K距离,且点p的第K距离邻域内点的个数|NK(p)|≥K。
7.根据权利要求4所述的基于改进LOF算法的电商刷单行为检测方法,其特征在于:所述点o到点p的第K可达距离reach-dK(p,o)=max{K-dK(o),dK(p,o)},点o到点p的第K可达距离至少是o的第K距离,或者为点o与点p间的真实距离,点o到离点o最近的K个点的可达距离被认为相等,且都等于dK(o)。
8.根据权利要求4所述的基于改进LOF算法的电商刷单行为检测方法,其特征在于:点p的局部离群因子LOF值表示点p的邻域点Nk(p)的局部可达密度LRD值与点p的局部可达密度LRD值之比的平均数,计算公式如下:
若所述局部离群因子LOF值越接近1,说明点p的邻域点密度相差不大,点p可能和其邻域同属一簇;若所述局部离群因子LOF值远小于1,说明点p的密度高于邻域密度,点p为密集点;若所述局部离群因子LOF值远大于1,说明点p的密度小于邻域密度;大于1的局部离群因子LOF值越大,点p越可能是异常点。
9.根据权利要求8所述的基于改进LOF算法的电商刷单行为检测方法,其特征在于:所述步骤(C)中,在循环计算中不断剔除局部离群因子LOF值<1的数据点,进而提升异常值检测效率,有效缩减在大数据集异常值检测运行时间。
CN201910242223.1A 2019-03-28 2019-03-28 一种基于改进lof算法的电商刷单行为检测方法 Pending CN109948724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910242223.1A CN109948724A (zh) 2019-03-28 2019-03-28 一种基于改进lof算法的电商刷单行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910242223.1A CN109948724A (zh) 2019-03-28 2019-03-28 一种基于改进lof算法的电商刷单行为检测方法

Publications (1)

Publication Number Publication Date
CN109948724A true CN109948724A (zh) 2019-06-28

Family

ID=67012118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910242223.1A Pending CN109948724A (zh) 2019-03-28 2019-03-28 一种基于改进lof算法的电商刷单行为检测方法

Country Status (1)

Country Link
CN (1) CN109948724A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553726A (zh) * 2020-04-22 2020-08-18 上海海事大学 一种基于hmm的刷单预测系统及方法
CN111833174A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 一种基于lof算法的互联网金融申请反欺诈识别方法
CN112365164A (zh) * 2020-11-13 2021-02-12 国网江苏省电力有限公司扬州供电分公司 基于改进密度峰值快速搜索聚类算法的中大型能源用户用能特性画像方法
CN112837078A (zh) * 2021-03-03 2021-05-25 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法
CN112861989A (zh) * 2021-03-04 2021-05-28 水利部信息中心 一种基于密度筛选的深度神经网络回归模型
CN113722384A (zh) * 2021-11-02 2021-11-30 西安热工研究院有限公司 基于密度算法的测点数据异常值的检测方法、系统及设备
CN116228603A (zh) * 2023-05-08 2023-06-06 山东杨嘉汽车制造有限公司 一种挂车周围障碍物的报警系统及装置
CN116226777A (zh) * 2023-05-08 2023-06-06 湖南农业大学 基于等差距离重构时间序列的异常值检测方法和装置
CN116957634A (zh) * 2023-09-19 2023-10-27 贵昌集团有限公司 用于电子商务平台的信息智能采集处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562778A (zh) * 2017-07-21 2018-01-09 哈尔滨工程大学 一种基于偏离特征的离群点挖掘方法
CN109086291A (zh) * 2018-06-09 2018-12-25 西安电子科技大学 一种基于MapReduce的并行异常检测方法及系统
CN109102028A (zh) * 2018-08-20 2018-12-28 南京邮电大学 基于改进的快速密度峰值聚类和lof离群点检测算法
CN109214355A (zh) * 2018-09-29 2019-01-15 西安交通大学 一种基于核估计lof的机械监测数据异常段检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562778A (zh) * 2017-07-21 2018-01-09 哈尔滨工程大学 一种基于偏离特征的离群点挖掘方法
CN109086291A (zh) * 2018-06-09 2018-12-25 西安电子科技大学 一种基于MapReduce的并行异常检测方法及系统
CN109102028A (zh) * 2018-08-20 2018-12-28 南京邮电大学 基于改进的快速密度峰值聚类和lof离群点检测算法
CN109214355A (zh) * 2018-09-29 2019-01-15 西安交通大学 一种基于核估计lof的机械监测数据异常段检测方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553726B (zh) * 2020-04-22 2023-04-28 上海海事大学 一种基于hmm的刷单预测系统及方法
CN111553726A (zh) * 2020-04-22 2020-08-18 上海海事大学 一种基于hmm的刷单预测系统及方法
CN111833174A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 一种基于lof算法的互联网金融申请反欺诈识别方法
CN112365164B (zh) * 2020-11-13 2023-09-12 国网江苏省电力有限公司扬州供电分公司 基于改进密度峰值快速搜索聚类算法的中大型能源用户用能特性画像方法
CN112365164A (zh) * 2020-11-13 2021-02-12 国网江苏省电力有限公司扬州供电分公司 基于改进密度峰值快速搜索聚类算法的中大型能源用户用能特性画像方法
CN112837078A (zh) * 2021-03-03 2021-05-25 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法
CN112837078B (zh) * 2021-03-03 2023-11-03 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法
CN112861989A (zh) * 2021-03-04 2021-05-28 水利部信息中心 一种基于密度筛选的深度神经网络回归模型
CN113722384A (zh) * 2021-11-02 2021-11-30 西安热工研究院有限公司 基于密度算法的测点数据异常值的检测方法、系统及设备
CN116228603A (zh) * 2023-05-08 2023-06-06 山东杨嘉汽车制造有限公司 一种挂车周围障碍物的报警系统及装置
CN116226777A (zh) * 2023-05-08 2023-06-06 湖南农业大学 基于等差距离重构时间序列的异常值检测方法和装置
CN116957634A (zh) * 2023-09-19 2023-10-27 贵昌集团有限公司 用于电子商务平台的信息智能采集处理方法
CN116957634B (zh) * 2023-09-19 2023-11-21 贵昌集团有限公司 用于电子商务平台的信息智能采集处理方法

Similar Documents

Publication Publication Date Title
CN109948724A (zh) 一种基于改进lof算法的电商刷单行为检测方法
Aryuni et al. Customer segmentation in XYZ bank using K-means and K-medoids clustering
TWI662421B (zh) 一種基於特徵匹配網路的社團劃分方法和裝置
Weston et al. Plastic card fraud detection using peer group analysis
US20190073647A1 (en) Fraud detection by profiling aggregate customer anonymous behavior
US20180053188A1 (en) Customer transaction behavioral archetype analytics for cnp merchant transaction fraud detection
US20140108190A1 (en) Recommending product information
CN106157083B (zh) 挖掘潜在客户的方法和装置
US20160342963A1 (en) Tree pathway analysis for signature inference
Nandapala et al. The practical approach in Customers segmentation by using the K-Means Algorithm
CN102609422A (zh) 类目错放识别方法和装置
Molloy et al. Graph analytics for real-time scoring of cross-channel transactional fraud
CN108694606B (zh) 一种基于关联规则的客户画像及服务推送方法
Tan et al. Time series clustering: A superior alternative for market basket analysis
Pramono et al. Estimating customer segmentation based on customer lifetime value using two-stage clustering method
Tomita et al. An algorithm for locating logic design errors
CN106127493A (zh) 一种分析用户交易行为的方法及装置
Bhade et al. A systematic approach to customer segmentation and buyer targeting for profit maximization
Xu et al. A hybrid interpretable credit card users default prediction model based on RIPPER
Firdaus et al. development of bank’s customer segmentation model based on rfm+ b approach
Chen et al. A method for online transaction fraud detection based on individual behavior
Murthy et al. A naive bayes classifier for detecting unusual customer consumption profiles in power distribution systems-APSPDCL
CN109614074A (zh) 基于概率转移矩阵模型的近似加法器可靠度计算方法
Zhang et al. A Precision Marketing Strategy of e‐Commerce Platform Based on Consumer Behavior Analysis in the Era of Big Data
TW201737128A (zh) 資料管控的方法及系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190712

Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707

Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co.,Ltd.

Address before: 250100 Ji'nan science and technology zone, Shandong high tide Road, No. 1036 wave of science and Technology Park, building S06

Applicant before: SHANDONG INSPUR CLOUD INFORMATION TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628