CN106934627A - 一种电商行业作弊行为的检测方法及装置 - Google Patents
一种电商行业作弊行为的检测方法及装置 Download PDFInfo
- Publication number
- CN106934627A CN106934627A CN201511001714.5A CN201511001714A CN106934627A CN 106934627 A CN106934627 A CN 106934627A CN 201511001714 A CN201511001714 A CN 201511001714A CN 106934627 A CN106934627 A CN 106934627A
- Authority
- CN
- China
- Prior art keywords
- user terminal
- analyzed
- positional information
- xdr
- xdr data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种电商行业作弊行为的检测方法,所述方法包括:接收用户分析请求,以待分析用户终端的标识信息为索引,提取出待分析用户终端在检测时段内产生的XDR数据;从XDR数据中获得待分析用户终端的位置信息以及操作属性统计量;按照待分析用户终端之间的位置信息和操作属性统计量的相似性,将待分析用户终端划分为若干用户终端群组;从同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端。本发明实施例还公开了一种电商行业作弊行为的检测装置。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种电商行业作弊行为的检测方法及装置。
背景技术
近年来随着通信网络和互联网平台的进一步发展,电子商务蓬勃发展,在线离线(Online To Offline,O2O)业务渗透到用户生活的方方面面。随之产生了一系列专门针对电子商务业务的欺诈、作弊行为,如各电商公司为了应对竞争,分别推出了一系列补贴、奖励政策;而投机分子采用刷单的手段利用假订单骗取补贴;或者,各网店为了提高曝光度和级别,雇佣一部分投机分子通过作弊方式进行销售量造假,或提高评价值。
以上两种行为严重影响电商企业的正常运转,相应的电商企业也产生了一系列针对这些恶意行为的监控方法。现有技术主要采用以下两种方法来监控用户和商家的作弊行为。
一种方法是规则匹配,即利用简单的规则匹配方式,发现可疑交易。例如设定为满足规则:买卖双方在短期内发生多次交易,或者出发点过于接近的用户和司机之间等等,则认为交易可疑。另一种方法是增强监控,通过采集更多的与业务相关的信息,来确认交易是否发生,或者是否正当。例如安装特定的客户端在“用车订单”执行过程中监控车辆全球定位系统(Global PositioningSystem,GPS)信息,并且采集基站、无线宽带(WiFi)、蓝牙等其他可用于定位的信息,来判断叫车订单是否按照预期执行,或者检测司机是否使用了虚假的GPS信息等。
针对上述的监控方法,投机分子可以采用工程机变化身份,利用作弊机器修改设备串号等信息的能力,投机分子可能经常修改身份;或者,投机分子可以利用软件编程的方式来模拟普通用户的使用习惯,确保作弊机器的行为都趋于模拟正常操作。由于投机分子采用假冒数据、变换身份的方式实施作弊,单一电商企业依靠自己的数据难以全面监控这些行为。
而且,由于相关的SIM卡和工程机的廉价化,专业性的刷单、作弊行为有大规模化的趋势。投机分子可以利用大量SIM卡进行刷单等处理,并且每台作弊机器上能够运行的程序都会尝试模拟用户的正常行为。这种集团化的、大规模的恶意作弊行为对电商的正常商业行为影响巨大,但是当前流行的作弊检测方法主要针对用户具体的操作信息进行跟踪、分析,只对投机分子的单次行为或者较明显的异常进行监控,难以发现这些刻意的、模拟正常操作的、多变的、集群的作弊行为。
发明内容
有鉴于此,本发明实施例期望提供一种电商行业作弊行为的检测方法及装置,可以有效检测到投机分子的作弊行为,提高了检测结果的准确性。
为达到上述目的,本发明的技术方案是这样实现的:
一种电商行业作弊行为的检测方法,所述方法包括:
接收用户分析请求,所述用户分析请求中包括检测时段以及各个待分析用户终端的标识信息;
以所述待分析用户终端的标识信息为索引,提取出所述待分析用户终端在所述检测时段内产生的X数据记录XDR数据;
从所述待分析用户终端产生的所述XDR数据中获得所述待分析用户终端的位置信息以及操作属性统计量;
按照所述待分析用户终端之间的位置信息和操作属性的相似性,将所述待分析用户终端划分为若干用户终端群组;
从同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将所述同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端。
上述方案中,所述从所述待分析用户终端产生的所述XDR数据中获得所述待分析用户终端的位置信息包括:
根据所述XDR数据中记录的基站的位置信息,计算获得所述待分析用户终端的位置信息;
或者,从所述XDR数据中提取所述待分析用户终端的位置信息。
上述方案中,所述从所述XDR数据中提取所述待分析用户终端的位置信息,包括:
在所述XDR数据中的网络接口与预存的对应关系表中的网络接口匹配上时,从所述XDR数据中匹配上的网络接口对应的位置字段处提取出所述待分析用户终端的位置信息,所述对应关系表中包括网络接口和位置字段的对应关系。
上述方案中,所述按照所述待分析用户终端之间的位置信息和操作属性的相似性,将所述待分析用户终端划分为若干用户终端群组,包括:
由所述待分析用户终端的位置信息、操作属性统计量构成待分析用户终端的特征向量,计算各待分析用户终端的特征向量之间的加权距离,其中,待分析用户终端的位置信息的权重大于操作属性统计量的权重;
根据所述各待分析用户终端的特征向量之间的加权距离采用聚类算法,通过多次迭代将所述待分析用户终端聚类划分为若干用户终端群组。
上述方案中,所述从同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将所述同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端,包括:
从同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作时间和操作类型;
将各用户终端的操作时间和操作类型进行编码获得各用户终端的操作时间序列码;
计算同一用户终端群组内各个用户终端之间的操作时间序列码的闵可夫斯基距离;
根据所述同一用户终端群组内各个用户终端之间的闵可夫斯基距离,采用聚类算法,通过多次迭代将所述同一用户终端群组聚类划分成若干用户终端子分组;
计算所述用户终端子分组内各用户终端之间的闵可夫斯基距离的均值和方差;在所述均值小于预设第一阈值且所述方差小于预设第二阈值时,确定所述用户终端子分组内的用户终端确定为作弊用户终端。
一种电商行业作弊行为的检测装置,所述检测装置包括:
接收单元,用于接收用户分析请求,所述用户分析请求中包括检测时段以及各个待分析用户终端的标识信息;
提取单元,用于以所述接收单元接收到的待分析用户终端的标识信息为索引,提取出所述待分析用户终端在所述检测时段内产生的X数据记录XDR数据;
获取单元,用于从所述提取单元提取的所述待分析用户终端产生的所述XDR数据中获得所述待分析用户终端的位置信息以及操作属性统计量;
划分单元,用于按照所述获取单元获取的所述待分析用户终端的位置信息和操作属性统计量的相似性,将所述待分析用户终端划分为若干用户终端群组;
确定单元,用于从所述划分单元划分的同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将所述同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端。
上述方案中,所述获取单元,具体用于根据所述提取单元提取的所述XDR数据中记录的基站的位置信息,计算获得所述待分析用户终端的位置信息;或者,从所述提取单元提取的所述XDR数据中提取所述待分析用户终端的位置信息。
上述方案中,所述获取单元,具体用于在所述XDR数据中的网络接口与预存的对应关系表中的网络接口匹配上时,从所述XDR数据中匹配上的网络接口对应的位置字段处提取出所述待分析用户终端的位置信息,所述对应关系表中包括网络接口和位置字段的对应关系。
上述方案中,所述划分单元,具体用于由所述获取单元获取的待分析用户终端的位置信息、操作属性统计量构成待分析用户终端的特征向量,计算各待分析用户终端的特征向量之间的加权距离,其中,待分析用户终端的位置信息的权重大于操作属性统计量的权重;根据所述各待分析用户终端的特征向量之间的加权距离采用聚类算法,通过多次迭代将所述待分析用户终端聚类划分为若干用户终端群组。
上述方案中,所述确定单元,具体用于从所述划分单元划分的同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作时间和操作类型;将各用户终端的操作时间和操作类型进行编码获得各用户终端的操作时间序列码;计算同一用户终端群组内各个用户终端之间的操作时间序列码的闵可夫斯基距离;根据所述同一用户终端群组内各个用户终端之间的闵可夫斯基距离,采用聚类算法,通过多次迭代将所述同一用户终端群组聚类划分成若干用户终端子分组;计算所述用户终端子分组内各用户终端之间的闵可夫斯基距离的均值和方差;在所述均值小于预设第一阈值且所述方差小于预设第二阈值时,确定所述用户终端子分组内的用户终端确定为作弊用户终端。
本发明实施例提供了一种电商行业作弊行为的检测方法及装置,在接收到用户分析请求时,以待分析用户终端的标识信息为索引,提取出所述待分析用户终端在所述检测时段内产生的X数据记录XDR数据;从所述待分析用户终端产生的所述XDR数据中获得所述待分析用户终端的位置信息以及操作属性统计量;按照所述待分析用户终端之间的位置信息和操作属性的相似性,将所述待分析用户终端划分为若干用户终端群组;从同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将所述同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端。这样就能够检出位置和行为相似的多台嫌疑用户终端,又可以排除正常聚集的用户终端;能够发掘多终端间、多次操作行为之间的相似程度,可以有效检测到投机分子的作弊行为,提高了检测结果的准确性。另外,本实施例方法利用的是运营商的XDR数据,在收集的数据层次和方面更全,能够有效的排除投机分子的干扰行为,提高了检测效果的准确性。
附图说明
图1为本发明实施例1提供的一种电商行业作弊行为的检测方法的流程示意图;
图2为本发明实施例1提供的一种电商行业作弊行为的检测装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例1、
本发明实施例提供了一种电商行业作弊行为的检测方法,如图1所示,本实施例方法的处理流程包括以下步骤:
步骤101、接收用户分析请求。
电商企业的服务器中记录有登陆过其服务器的用户终端的国际移动用户识别码(International Mobile Subscriber Identification Number,IMSI),国际移动设备标识(International Mobile Equipment Identity,IMEI)和移动用户国际综合业务数字网码(Mobile Subscriber International Integrated-Service-Digital-NetworkNumber,MSISDN)等等用户终端的标识信息。
在本实施例方法中,电商公司可以周期性(周期为Pa)的向检测装置发送用户分析请求,周期可以为每天、每周等,也可以根据电商公司的补贴、费用发放周期而定;所述用户分析请求中包括检测时段以及各个待分析用户终端的标识信息;所述待分析用户终端即在检测时段内登陆过电商企业服务器的用户终端。
步骤102、以所述待分析用户终端的标识信息为索引,提取出所述待分析用户终端在所述检测时段内产生的XDR数据。
电信运营商平台会持续记录各用户终端产生的XDR数据,这些XDR数据能够保存一定周期(周期为Ps,其中Ps>Pa)。检测装置在收到电商企业发送的用户分析请求后,就会以IMSI,IMEI和MSISDN等用户终端的标识信息作为索引,从所述电信运营商平台记录的数据中提取出该标识信息对应的所述待分析用户终端在所述检测时段内产生的XDR数据。
在这里需要说明的是,X数据记录(X Data Recording,XDR)数据是由呼叫数据记录(Call Data Recording,CDR)演变而来的概念。CDR是传统通信网中对通话过程中网络关键信息的记录。XDR是CDR概念的扩展,泛指对移动网络、承载网络中数据流量的关键信息记录,即流量日志,以用户会话为单位,一个会话形成一条XDR数据。
步骤103、从所述待分析用户终端产生的所述XDR数据中获得所述待分析用户终端的位置信息和操作属性参数。
可选的,检测装置从XDR数据中获得所述待分析用户终端的位置信息的方法有两种,一种是,根据所述XDR数据中记录的基站的位置信息,计算获得所述待分析用户终端的位置信息:
由于XDR数据是用户终端使用移动网络的过程中产生的记录,因此每条XDR数据都会有相应的基站的位置信息。检测装置可以采用基站定位方法,利用对应基站的位置信息,计算获得用户终端的位置信息。
另一种是,直接从所述XDR数据中提取所述待分析用户终端的位置信息:
由于目前的用户终端基本都集成了GPS模块或者WiFi模块,这些模块可以产生更加精确的终端地理位置信息。部分应用程序会利用这些机制,获取用户设备当前的位置信息,并将其作为网络请求的参数传递给服务器。示例的,如下为一种XDR数据即超文本传输协议(Hyper Text Transfer Protocol,HTTP)统一资源定位符(Uniform Resoure Locator,URL):
http://m.xxx.com/searchbox?action=query&format=xml&word=30千克等于多少斤&uid=UID|MSISDN&ua=720_1208_android_3.7.2_240&ut=HUAWEI+MT1-U06_4.1.2_16_HUAWEI&from=942c&osname=&osbranch=a0&pkgname=com.xxx.searchbox_huawei&network=31&location=13522075.450692,3646799.117289
上述的HTTP URL的location字段“location=13522075.450692,3646799.117289”就记录的用户终端的经纬度信息,检测装置可以直接从上述的HTTP URL中提取出location字段获得用户终端的经纬度信息。
可选的,从所述待分析用户终端产生的所述XDR数据中提取所述待分析用户终端的位置信息的方法可以包括:在所述待分析用户终端产生的所述XDR数据中的网络接口与预存的对应关系表中的网络接口匹配上时,从所述XDR数据中所述匹配上的网络接口对应的位置字段处提取出的待分析用户终端的位置信息,所述对应关系表包括网络接口和位置字段的对应关系。
检测装置可以提前对电商网站、APP的接口进行扫描,分析其协议,判断哪些网络接口的XDR数据中的哪个字段包含位置信息;例如,对于网络接口为http://m.xxx.com/searchbox?的XDR数据中位置字段为location字段,对应关系表中就寻出上一条对应关系:网络接口=http://m.xxx.com/searchbox?;位置字段=location字段;这样就建立了网络接口和位置字段的对应关系表,预存该对应关系表。
检测装置获得待分析用户终端在所述检测时段内产生的X数据记录XDR数据后,就会将这些XDR数据中的网络接口与预存的对应关系表中的网络接口进行匹配,如果匹配上,就从这条XDR数据中所述匹配上的网络接口对应的位置字段处提取出待分析用户终端的位置信息;示例的,某条XDR数据为上述的HTTP URL,其网络接口为http://m.xxx.com/searchbox?,匹配上后,就从这条XDR数据中网络接口=http://m.xxx.com/searchbox?对应的位置字段即location字段处提取出位置信息“location=13522075.450692,3646799.117289”。
同时,所述检测装置还可以根据所述待分析用户终端产生的所述XDR数据生成用户的操作属性统计量;操作属性统计量可以包括短信量、流量消耗量等。
步骤104、按照所述待分析用户终端之间的位置信息和操作属性统计量的相似性,将所述待分析用户终端划分为若干用户终端群组。
本实施例方法可以采用聚类算法按照所述待分析用户终端之间的位置信息和操作属性的相似性,将相似性较高的待分析用户终端划分为若干用户终端群组,首先将待分析用户终端的位置信息和操作属性统计量放在一起,构成聚类样本集,然后利用聚类方法对待分析用户终端进行聚类,在聚类的过程中可以为待分析用户终端的位置信息赋予较高权重。可选的,应用聚类算法将所述待分析用户终端划分为若干用户终端群组的过程如下:
步骤Q1、由所述待分析用户终端的位置信息、操作属性统计量构成待分析用户终端的特征向量,计算各待分析用户终端的特征向量之间的加权距离,其中,待分析用户终端的位置信息的权重大于操作属性统计量的权重。
步骤Q2、根据所述各待分析用户终端的特征向量之间的加权距离采用聚类算法,通过多次迭代将所述待分析用户终端聚类成若干用户终端群组。
在本实施例方法中,可以采用K均值聚类方法来进行聚类,聚类时的K值应该大于等于监控范围内的基站个数(即聚类粒度小于基站粒度)。
通过以上聚类算法,可以将待分析用户终端划分成若干个组用户终端,每组用户终端位置相近且具有相似操作习惯。待分析用户终端共分为若干个组用户终端即Group={Group1,Group2,Group3,...},一组用户终端为Groupi={终端i1,终端i2,终端i3,...}。
步骤105、从同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将所述同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端。
对于聚类后划分成的每一个用户终端群组,可以进行以下步骤来确定该用户终端群组中的作弊用户终端:
步骤M1、从一个用户终端群组中各用户终端的XDR数据中获得各用户终端的操作时间和操作类型。
各用户终端的XDR数据中记录有操作行为即操作时间和操作类型,示例的,所述XDR数据中用户的操作行为一般形如表1所示:
表1
步骤M2、将各用户终端的操作时间和操作类型进行编码获得各用户终端的操作时间序列码。
为了便于对用户的操作行为进行分析,需要对操作行为进行简化、编码。操作时间可以将记录的操作时间数字作为其编码;对操作类型进行编码时,需要对电商网址、应用程序编程接口(Application Programming Interface,API)进行编码,不同的URL或者API对应不同的编码。示例的,对操作行为的编码可以如表2所示:
操作类型 | A电商网站操作编码 | B电商网站操作编码 |
访问电商首页 | 1001 | 2001 |
搜索商品 | 1002 | 2002 |
点击浏览搜索结果 | 1003 | 2003 |
添加购物车 | 1004 | 2004 |
生成订单 | 1005 | 2005 |
表2
按照上述示例的编码规则进行编码时,表1中的操作行为可以依次编码成如下的操作时间序列码:14428260690000;14428261011001;14428261201002;14428262121003;14428262451003;14428264111004;14428264841005;14428269050000。
对同一用户终端群组内的各用户终端,每个用户终端Dij都可以编码获得其操作时间序列:Seqij={T1:O1,T2:O2,T3:O3,...},这些操作时间序列就可以表明用户终端的操作行为。
步骤M3、计算同一用户终端群组内各个用户终端之间的操作时间序列码的闵可夫斯基距离。
基于编码后的操作时间序列,就可以分析同一用户终端群组内的用户终端的操作行为的相似程度。本实施例方法中采用闵可夫斯基(Minkowski)距离来衡量各用户终端之间的操作时间序列码的相似性。Minkowski距离的计算公式如下:
其中,xi为一个用户终端的一个操作时间序列码,yi为同一用户终端群组内的另一个用户终端的一个操作时间序列码,p为一个变量。
步骤M4、根据所述同一用户终端群组内各个用户终端之间的闵可夫斯基距离,采用聚类算法,通过多次迭代将所述同一用户终端群组聚类划分成若干用户终端子分组。
对同一用户终端群组内的不同用户终端的操作时间序列码进行聚类。例如采用二分K-均值算法,逐步划分子分类,形成同一用户终端群组内的若干用户终端子分组。
步骤M5、计算所述用户终端子分组内各用户终端之间的闵可夫斯基距离的均值和方差;在所述均值小于预设第一阈值且所述方差小于预设第二阈值时,确定所述用户终端子分组内的用户终端确定为作弊用户终端。
计算所述用户终端子分组内各用户终端之间的闵可夫斯基距离的均值和方差;在所述均值小于预设第一阈值且所述方差小于预设第二阈值时,则认为用户终端子分组内各用户终端具有操作位置和操作行为的双重相似性,具备较高的群体作弊可能性,故确定所述用户终端子分组内的用户终端确定为作弊用户终端。
如果用户终端子分组下的用户终端同时具备位置和操作行为的高度相似性,则判断该子分组内的用户终端可能是刷单公司专用的作弊机器。这种方法可以在位置聚类的基础上,进一步分析用户终端的操作行为,避免将集中在普通办公楼和住宿区中的用户误认为作弊用户群。
本实施例方法从XDR数据中提取到用户终端的位置信息和操作行为,先基于位置信息进行相似位置的聚类,然后对处于相似位置的同一用户终端群组基于操作行为的相似再次进行聚类;这样就能够检出位置和行为相似的多台嫌疑用户终端,又可以排除正常聚集的用户终端;可以有效检测到投机分子的作弊行为,提高了检测结果的准确性。另外,本实施例方法利用的是运营商的XDR数据,在收集的数据层次和方面更全,能够有效的排除投机分子的干扰行为,提高了检测效果的准确性;本实施例方法能够发掘多终端间、多次操作行为之间的相似程度,提高了检测集群化作弊行为的准确性。
实施例2、
本发明实施例提供了一种电商行业作弊行为的检测装置,如图2所示,所述检测装置包括接收单元201,提取单元202,获取单元203,划分单元204,确定单元205;其中
接收单元201,用于接收用户分析请求,所述用户分析请求中包括检测时段以及各个待分析用户终端的标识信息;
提取单元202,用于以所述接收单元201接收到的待分析用户终端的标识信息为索引,提取出所述待分析用户终端在所述检测时段内产生的X数据记录XDR数据;
获取单元203,用于从所述提取单元202提取的所述待分析用户终端产生的所述XDR数据中获得所述待分析用户终端的位置信息以及操作属性统计量;
划分单元204,用于按照所述获取单元获取的所述待分析用户终端的位置信息和操作属性统计量的相似性,将所述待分析用户终端划分为若干用户终端群组;
确定单元205,用于从所述划分单元204划分的同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将所述同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端。
可选的,所述获取单元203,具体用于根据所述提取单元202提取的所述XDR数据中记录的基站的位置信息,计算获得所述待分析用户终端的位置信息;或者,从所述提取单元提取的所述XDR数据中提取所述待分析用户终端的位置信息。
所述获取单元203,具体用于在所述XDR数据中的网络接口与预存的对应关系表中的网络接口匹配上时,从所述XDR数据中匹配上的网络接口对应的位置字段处提取出所述待分析用户终端的位置信息,所述对应关系表中包括网络接口和位置字段的对应关系。
所述划分单元204,具体用于由所述获取单元203获取的待分析用户终端的位置信息、操作属性统计量构成待分析用户终端的特征向量,计算各待分析用户终端的特征向量之间的加权距离,其中,待分析用户终端的位置信息的权重大于操作属性统计量的权重;根据所述各待分析用户终端的特征向量之间的加权距离采用聚类算法,通过多次迭代将所述待分析用户终端聚类划分为若干用户终端群组。
所述确定单元205,具体用于从所述划分单元204划分的同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作时间和操作类型;将各用户终端的操作时间和操作类型进行编码获得各用户终端的操作时间序列码;计算同一用户终端群组内各个用户终端之间的操作时间序列码的闵可夫斯基距离;根据所述同一用户终端群组内各个用户终端之间的闵可夫斯基距离,采用聚类算法,通过多次迭代将所述同一用户终端群组聚类划分成若干用户终端子分组;计算所述用户终端子分组内各用户终端之间的闵可夫斯基距离的均值和方差;在所述均值小于预设第一阈值且所述方差小于预设第二阈值时,确定所述用户终端子分组内的用户终端确定为作弊用户终端。
在实际应用中,本实施例中所述的接收单元201,提取单元202,获取单元203,划分单元204和确定单元205可以由检测装置上的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)、调制解调器等器件实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.一种电商行业作弊行为的检测方法,其特征在于,所述方法包括:
接收用户分析请求,所述用户分析请求中包括检测时段以及各个待分析用户终端的标识信息;
以所述待分析用户终端的标识信息为索引,提取出所述待分析用户终端在所述检测时段内产生的X数据记录XDR数据;
从所述待分析用户终端产生的所述XDR数据中获得所述待分析用户终端的位置信息以及操作属性统计量;
按照所述待分析用户终端之间的位置信息和操作属性的相似性,将所述待分析用户终端划分为若干用户终端群组;
从同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将所述同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端。
2.根据权利要求1所述的方法,其特征在于,所述从所述待分析用户终端产生的所述XDR数据中获得所述待分析用户终端的位置信息包括:
根据所述XDR数据中记录的基站的位置信息,计算获得所述待分析用户终端的位置信息;
或者,从所述XDR数据中提取所述待分析用户终端的位置信息。
3.根据权利要求2所述的方法,其特征在于,所述从所述XDR数据中提取所述待分析用户终端的位置信息,包括:
在所述XDR数据中的网络接口与预存的对应关系表中的网络接口匹配上时,从所述XDR数据中匹配上的网络接口对应的位置字段处提取出所述待分析用户终端的位置信息,所述对应关系表中包括网络接口和位置字段的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述按照所述待分析用户终端之间的位置信息和操作属性的相似性,将所述待分析用户终端划分为若干用户终端群组,包括:
由所述待分析用户终端的位置信息、操作属性统计量构成待分析用户终端的特征向量,计算各待分析用户终端的特征向量之间的加权距离,其中,待分析用户终端的位置信息的权重大于操作属性统计量的权重;
根据所述各待分析用户终端的特征向量之间的加权距离采用聚类算法,通过多次迭代将所述待分析用户终端聚类划分为若干用户终端群组。
5.根据权利要求1所述的方法,其特征在于,所述从同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将所述同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端,包括:
从同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作时间和操作类型;
将各用户终端的操作时间和操作类型进行编码获得各用户终端的操作时间序列码;
计算同一用户终端群组内各个用户终端之间的操作时间序列码的闵可夫斯基距离;
根据所述同一用户终端群组内各个用户终端之间的闵可夫斯基距离,采用聚类算法,通过多次迭代将所述同一用户终端群组聚类划分成若干用户终端子分组;
计算所述用户终端子分组内各用户终端之间的闵可夫斯基距离的均值和方差;在所述均值小于预设第一阈值且所述方差小于预设第二阈值时,确定所述用户终端子分组内的用户终端确定为作弊用户终端。
6.一种电商行业作弊行为的检测装置,其特征在于,所述检测装置包括:
接收单元,用于接收用户分析请求,所述用户分析请求中包括检测时段以及各个待分析用户终端的标识信息;
提取单元,用于以所述接收单元接收到的待分析用户终端的标识信息为索引,提取出所述待分析用户终端在所述检测时段内产生的X数据记录XDR数据;
获取单元,用于从所述提取单元提取的所述待分析用户终端产生的所述XDR数据中获得所述待分析用户终端的位置信息以及操作属性统计量;
划分单元,用于按照所述获取单元获取的所述待分析用户终端的位置信息和操作属性统计量的相似性,将所述待分析用户终端划分为若干用户终端群组;
确定单元,用于从所述划分单元划分的同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作行为;将所述同一用户终端群组按照操作行为的相似性划分为若干用户终端子分组;将操作行为的相似性大于预设阈值的用户终端子分组内的用户终端确定为作弊用户终端。
7.根据权利要求6所述的检测装置,其特征在于,
所述获取单元,具体用于根据所述提取单元提取的所述XDR数据中记录的基站的位置信息,计算获得所述待分析用户终端的位置信息;或者,从所述提取单元提取的所述XDR数据中提取所述待分析用户终端的位置信息。
8.根据权利要求7所述的检测装置,其特征在于,
所述获取单元,具体用于在所述XDR数据中的网络接口与预存的对应关系表中的网络接口匹配上时,从所述XDR数据中匹配上的网络接口对应的位置字段处提取出所述待分析用户终端的位置信息,所述对应关系表中包括网络接口和位置字段的对应关系。
9.根据权利要求6所述的检测装置,其特征在于,
所述划分单元,具体用于由所述获取单元获取的待分析用户终端的位置信息、操作属性统计量构成待分析用户终端的特征向量,计算各待分析用户终端的特征向量之间的加权距离,其中,待分析用户终端的位置信息的权重大于操作属性统计量的权重;根据所述各待分析用户终端的特征向量之间的加权距离采用聚类算法,通过多次迭代将所述待分析用户终端聚类划分为若干用户终端群组。
10.根据权利要求6所述的检测装置,其特征在于,
所述确定单元,具体用于从所述划分单元划分的同一用户终端群组中各用户终端的XDR数据中获得各用户终端的操作时间和操作类型;将各用户终端的操作时间和操作类型进行编码获得各用户终端的操作时间序列码;计算同一用户终端群组内各个用户终端之间的操作时间序列码的闵可夫斯基距离;根据所述同一用户终端群组内各个用户终端之间的闵可夫斯基距离,采用聚类算法,通过多次迭代将所述同一用户终端群组聚类划分成若干用户终端子分组;计算所述用户终端子分组内各用户终端之间的闵可夫斯基距离的均值和方差;在所述均值小于预设第一阈值且所述方差小于预设第二阈值时,确定所述用户终端子分组内的用户终端确定为作弊用户终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511001714.5A CN106934627B (zh) | 2015-12-28 | 2015-12-28 | 一种电商行业作弊行为的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511001714.5A CN106934627B (zh) | 2015-12-28 | 2015-12-28 | 一种电商行业作弊行为的检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106934627A true CN106934627A (zh) | 2017-07-07 |
CN106934627B CN106934627B (zh) | 2021-03-30 |
Family
ID=59459271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511001714.5A Active CN106934627B (zh) | 2015-12-28 | 2015-12-28 | 一种电商行业作弊行为的检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106934627B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404408A (zh) * | 2017-08-30 | 2017-11-28 | 北京邮电大学 | 一种虚拟身份关联识别方法及装置 |
CN108009844A (zh) * | 2017-11-20 | 2018-05-08 | 北京智钥科技有限公司 | 确定广告作弊行为的方法、装置及云服务器 |
CN108681908A (zh) * | 2018-05-17 | 2018-10-19 | 广州爱九游信息技术有限公司 | 反作弊方法、装置、计算设备及存储介质 |
CN109146617A (zh) * | 2018-07-27 | 2019-01-04 | 重庆小雨点小额贷款有限公司 | 一种业务审批方法、服务器、客户端及存储介质 |
CN109840695A (zh) * | 2019-01-10 | 2019-06-04 | 中国联合网络通信集团有限公司 | 一种污染企业的管理方法和服务器 |
CN110009490A (zh) * | 2019-01-14 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 异常金融交易群体识别方法及装置 |
CN110083777A (zh) * | 2018-01-26 | 2019-08-02 | 腾讯科技(深圳)有限公司 | 一种社交网络用户分组方法、装置及服务器 |
CN110795723A (zh) * | 2019-11-08 | 2020-02-14 | 浙江执御信息技术有限公司 | 一种判断是否刷单的方法 |
CN111260220A (zh) * | 2020-01-16 | 2020-06-09 | 贝壳技术有限公司 | 群控设备识别方法、装置、电子设备和存储介质 |
CN111324883A (zh) * | 2020-02-20 | 2020-06-23 | 徐世云 | 基于互联网的电商平台入侵检测方法及计算机设备 |
WO2020142085A1 (en) * | 2018-12-31 | 2020-07-09 | Didi Research America, Llc | Systems and methods for fraud detecting in a transportation service |
CN112367663A (zh) * | 2019-07-23 | 2021-02-12 | 中国移动通信集团广东有限公司 | 一种确定宽带接入用户号码的方法、装置及设备 |
CN112508630A (zh) * | 2021-01-29 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 异常会话群的检测方法、装置、计算机设备和存储介质 |
US11038877B2 (en) | 2018-12-31 | 2021-06-15 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for device fingerprint determination in a transportation service |
US11080509B2 (en) | 2018-12-31 | 2021-08-03 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for onboard fraud detection in a transportation service |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117903A (zh) * | 2013-02-07 | 2013-05-22 | 中国联合网络通信集团有限公司 | 上网流量异常检测方法及装置 |
CN103593415A (zh) * | 2013-10-29 | 2014-02-19 | 北京国双科技有限公司 | 网页访问量作弊的检测方法和装置 |
CN104486743A (zh) * | 2014-12-29 | 2015-04-01 | 武汉虹信技术服务有限责任公司 | 一种对核心网各接口xdr数据进行用户信息关联的方法 |
CN104657503A (zh) * | 2015-03-13 | 2015-05-27 | 浪潮集团有限公司 | 一种基于统计判别法对电商销售额异常值的预处理方法 |
CN104881795A (zh) * | 2015-05-16 | 2015-09-02 | 成都数联铭品科技有限公司 | 一种电商虚假评价的判断识别方法 |
CN105160572A (zh) * | 2015-09-30 | 2015-12-16 | 努比亚技术有限公司 | 控制订单生成的装置、方法及秒杀系统 |
CN105187237A (zh) * | 2015-08-12 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 查找相关联的用户标识的方法和装置 |
-
2015
- 2015-12-28 CN CN201511001714.5A patent/CN106934627B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117903A (zh) * | 2013-02-07 | 2013-05-22 | 中国联合网络通信集团有限公司 | 上网流量异常检测方法及装置 |
CN103593415A (zh) * | 2013-10-29 | 2014-02-19 | 北京国双科技有限公司 | 网页访问量作弊的检测方法和装置 |
CN104486743A (zh) * | 2014-12-29 | 2015-04-01 | 武汉虹信技术服务有限责任公司 | 一种对核心网各接口xdr数据进行用户信息关联的方法 |
CN104657503A (zh) * | 2015-03-13 | 2015-05-27 | 浪潮集团有限公司 | 一种基于统计判别法对电商销售额异常值的预处理方法 |
CN104881795A (zh) * | 2015-05-16 | 2015-09-02 | 成都数联铭品科技有限公司 | 一种电商虚假评价的判断识别方法 |
CN105187237A (zh) * | 2015-08-12 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 查找相关联的用户标识的方法和装置 |
CN105160572A (zh) * | 2015-09-30 | 2015-12-16 | 努比亚技术有限公司 | 控制订单生成的装置、方法及秒杀系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404408A (zh) * | 2017-08-30 | 2017-11-28 | 北京邮电大学 | 一种虚拟身份关联识别方法及装置 |
CN107404408B (zh) * | 2017-08-30 | 2020-05-22 | 北京邮电大学 | 一种虚拟身份关联识别方法及装置 |
CN108009844A (zh) * | 2017-11-20 | 2018-05-08 | 北京智钥科技有限公司 | 确定广告作弊行为的方法、装置及云服务器 |
CN110083777B (zh) * | 2018-01-26 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种社交网络用户分组方法、装置及服务器 |
CN110083777A (zh) * | 2018-01-26 | 2019-08-02 | 腾讯科技(深圳)有限公司 | 一种社交网络用户分组方法、装置及服务器 |
CN108681908A (zh) * | 2018-05-17 | 2018-10-19 | 广州爱九游信息技术有限公司 | 反作弊方法、装置、计算设备及存储介质 |
CN109146617A (zh) * | 2018-07-27 | 2019-01-04 | 重庆小雨点小额贷款有限公司 | 一种业务审批方法、服务器、客户端及存储介质 |
WO2020142085A1 (en) * | 2018-12-31 | 2020-07-09 | Didi Research America, Llc | Systems and methods for fraud detecting in a transportation service |
US11080509B2 (en) | 2018-12-31 | 2021-08-03 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for onboard fraud detection in a transportation service |
US11038877B2 (en) | 2018-12-31 | 2021-06-15 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for device fingerprint determination in a transportation service |
CN109840695A (zh) * | 2019-01-10 | 2019-06-04 | 中国联合网络通信集团有限公司 | 一种污染企业的管理方法和服务器 |
CN110009490A (zh) * | 2019-01-14 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 异常金融交易群体识别方法及装置 |
CN112367663A (zh) * | 2019-07-23 | 2021-02-12 | 中国移动通信集团广东有限公司 | 一种确定宽带接入用户号码的方法、装置及设备 |
CN112367663B (zh) * | 2019-07-23 | 2023-04-07 | 中国移动通信集团广东有限公司 | 一种确定宽带接入用户号码的方法、装置及设备 |
CN110795723A (zh) * | 2019-11-08 | 2020-02-14 | 浙江执御信息技术有限公司 | 一种判断是否刷单的方法 |
CN111260220A (zh) * | 2020-01-16 | 2020-06-09 | 贝壳技术有限公司 | 群控设备识别方法、装置、电子设备和存储介质 |
CN111324883A (zh) * | 2020-02-20 | 2020-06-23 | 徐世云 | 基于互联网的电商平台入侵检测方法及计算机设备 |
CN112508630A (zh) * | 2021-01-29 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 异常会话群的检测方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106934627B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106934627A (zh) | 一种电商行业作弊行为的检测方法及装置 | |
CN112417439B (zh) | 账号检测方法、装置、服务器及存储介质 | |
US9659105B2 (en) | Methods and apparatus to track web browsing sessions | |
CN104050178B (zh) | 一种互联网监测反作弊方法和装置 | |
CN101957834B (zh) | 一种基于用户特征进行内容推荐的方法与设备 | |
CN106534392B (zh) | 一种定位信息采集方法、定位方法及装置 | |
CN106033419A (zh) | 一种消息实时推送方法、装置及系统 | |
US20120317151A1 (en) | Model-Based Method for Managing Information Derived From Network Traffic | |
CN109905873B (zh) | 一种基于特征标识信息的网络账号关联方法 | |
US11537751B2 (en) | Using machine learning algorithm to ascertain network devices used with anonymous identifiers | |
CN104917739B (zh) | 虚假账号的识别方法及装置 | |
CN104750760B (zh) | 一种推荐应用软件的实现方法及装置 | |
CN110609937A (zh) | 一种爬虫识别方法及装置 | |
CN107196968B (zh) | 一种爬虫识别方法 | |
US8818927B2 (en) | Method for generating rules and parameters for assessing relevance of information derived from internet traffic | |
CN109962789B (zh) | 基于网络数据构建物联网应用标签体系的方法和装置 | |
CN107886009B (zh) | 防隐私泄露的大数据生成方法和系统 | |
CN113825129B (zh) | 一种5g网络环境下工业互联网资产测绘方法 | |
CN105871585A (zh) | 终端关联方法及装置 | |
CN104639387B (zh) | 一种用户网络行为跟踪方法及设备 | |
Hui et al. | Systematically quantifying IoT privacy leakage in mobile networks | |
CN106572486B (zh) | 一种基于机器学习的手持终端流量识别方法和系统 | |
CN106101117B (zh) | 一种钓鱼网站阻断方法、装置和系统 | |
CN111310796B (zh) | 一种面向加密网络流的Web用户点击识别方法 | |
CN106066864B (zh) | 一种多维度移动用户偏好动态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |