CN107071802A - 一种手机app定位异常数据检测方法及其装置 - Google Patents

一种手机app定位异常数据检测方法及其装置 Download PDF

Info

Publication number
CN107071802A
CN107071802A CN201710156463.0A CN201710156463A CN107071802A CN 107071802 A CN107071802 A CN 107071802A CN 201710156463 A CN201710156463 A CN 201710156463A CN 107071802 A CN107071802 A CN 107071802A
Authority
CN
China
Prior art keywords
data
module
abnormal
statistic
abnormity point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710156463.0A
Other languages
English (en)
Other versions
CN107071802B (zh
Inventor
王德
殷振轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tongji Urban Planning & Design Institute
Tongji University
Original Assignee
Shanghai Tongji Urban Planning & Design Institute
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tongji Urban Planning & Design Institute, Tongji University filed Critical Shanghai Tongji Urban Planning & Design Institute
Priority to CN201710156463.0A priority Critical patent/CN107071802B/zh
Publication of CN107071802A publication Critical patent/CN107071802A/zh
Application granted granted Critical
Publication of CN107071802B publication Critical patent/CN107071802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种手机APP定位异常数据检测方法及其装置,包括数据存储模块,判断模块、数据预处理模块、检测模块和清洗模块,及对应的检测方法。本发明通过提供一种高效、精准的方法,达到有效检测因APP刷量产生的手机APP定位异常数据的效果,有效保证数据的准确性。

Description

一种手机APP定位异常数据检测方法及其装置
技术领域
发明涉及手机数据分析的方法,尤其是一种手机APP定位异常数据检测方法及其装置。
背景技术
人的行为一直是重要的研究领域,近年来,基于大数据的人的行为研究更是得到了迅速的发展。手机APP定位数据可以提供大量用户精准的位置数据为研究人的行为提供重要依据。但是,部分厂商为了推广APP,采用刷APP用户量的方法,伪造大量手机APP用户,更换IP模拟位置切换,大量污染数据,严重影响采集数据的准确性。目前,只能通过人工判断的方法来排查、筛选有效的数据,成本高且效率低。因此,需要一种有效检测手机APP定位异常数据的方法及其装置。
发明内容
针对如何高效检测伪造的手机APP用户,以及精准清洗大量异常数据的技术问题,本发明提出了一种手机APP定位异常数据检测方法及其装置。
一种手机APP定位异常数据检测方法,具体步骤如下:
A.读取服务器中的用户定位数据,剔除时间戳和用户代码错误的数据;
B.统计每个经纬度位置上的用户数量;
C.以均值比方法从步骤B中的统计数据中找出异常点;
D.根据置信区间和统计量众数,判断异常点是否真实;
E.将步骤D中判断为用户数量数据不真实的异常点作为异常用户数量的起始处,将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,并找出这些异常用户数量对应的经纬度位置,删除在这些经纬度位置上记录用户的所有数据。
进一步的,在上述方案的基础上,在所述步骤C以均值比方法从步骤B中的统计数据中找出异常点,是将每个经纬度位置上记录的用户数量按从小到大排列,分别计算第一个至倒数第二个统计量的跳跃度( 是期望点估计,n为统计量数量),跳跃度最大处为异常点。
进一步的,在上述方案的基础上,所述步骤D根据置信区间和统计量众数,判断异常点是否真实,是判断在置信区间的条件下,异常点是否真实,并判断所述异常用户数量的起始点是否位于统计量的众数处。由于按从小到大排列的用户数量X1,X2,…,Xn可以用指数分布来近似,则对任意的1≤ k< r≤ n,有服从于F(2(r-k),2k)分布(约定X0=0),令的分位点为,通过判断,可以判断在置信区间的条件下,异常点是否真实。并需要判断跳跃度最大处是否位于统计量众数处。且异常用户数量的起始点并非位于统计量的众数处时,认为Xk+1,…,Xn是不真实的用户数量。
一种手机APP定位异常数据检测的装置,包括数据存储模块、判断模块、数据预处理模块、检测模块和清洗模块,
所述数据预处理模块,与数据存储模块连接,用于导出数据存储模块中的数据并进行预处理,构造适用于检测的统计量;
所述检测模块,与数据预处理模块连接,用于分析预处理后的数据,确定异常用户数量的起始处;
所述判断模块,与检测模块连接,用于根据置信区间和统计量众数判断检测模块确定的异常点是否真实。如果异常点被判断为不真实数据,则将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,根据异常用户数量找出异常经纬度位置,并标记异常经纬度位置上用户的所有记录为异常数据;
所述清洗模块,与判断模块和数据存储模块连接,用于剔除判断模块中标记的异常数据,并将最终清洗后的数据导入数据存储模块;
所述数据存储模块,用于分别存储初始数据,以及存储清洗模块导入的处理后数据。
本发明的优点在于,通过一种高效、精准的方法,达到有效检测因APP刷量产生的手机APP定位异常数据的效果,有效保证数据的准确性。
附图说明
图1是本发明所述检测方法的流程示意图;
图2是本发明所述检测装置的示意图。
1-数据存储模块;2-数据预处理模块;3-检测模块;4-判断模块;5-清洗模块。
具体实施方式
下面详细描述本发明的实施例,所述实施例的实例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的原件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1中的流程图所示,手机APP定位异常数据检测方法,具体步骤如下:
A.读取服务器中的用户定位数据,剔除时间戳和用户代码错误的数据;
B.统计每个经纬度位置上的用户数量;
C.以均值比方法从步骤B中的统计数据中找出异常点;
D.根据置信区间和统计量众数,判断异常点是否真实;
E.将步骤D中判断为用户数量数据不真实的异常点作为异常用户数量的起始处,将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,并找出这些异常用户数量对应的经纬度位置,删除在这些经纬度位置上记录用户的所有数据。
在步骤A和B中,手机APP定位数据提供精确到米的位置数据,同一个经纬度位置上一般不会出现大量不同用户,而通过APP刷量可以在同一经纬度位置上产生大量不同用户。因此,统计一段时间内,每个经纬度位置上记录到的用户数量,而不是统计每个经纬度位置上记录到的记录数量。
在步骤C中,采用均值比方法寻找异常用户数量最有可能的起始处,将所获统计数据按从小到大的次序进行排列后,异常用户数量出现在一侧。本发明中检测的异常位置指出现大量不同用户的经纬度位置,统计量是每个经纬度位置上记录到的用户数量,可能存在不一定唯一的异常大值。
具体是将每个经纬度位置上记录的用户数量按从小到大排列,分别计算第一个至倒数第二个统计量的跳跃度(,其中是期望点估计,n为统计量数量),跳跃度最大处为异常点。
进一步的,在上述方案的基础上,所述步骤D根据置信区间和统计量众数,判断异常点是否真实,是判断在置信区间的条件下,异常点是否真实,并判断所述异常用户数量的起始点是否位于统计量的众数处。由于按从小到大排列的用户数量X1,X2,…,Xn可以用指数分布来近似,则对任意的1≤ k< r≤ n,有服从于F(2(r-k),2k)分布(约定X0=0),令的分位点为,通过判断,可以判断在置信区间的条件下,异常点是否真实。其次,由于手机APP定位数据可以提供精确到米的位置数据,同一个经纬度位置上记录到的用户数量主要是低值,因此,在统计量的众数(一般是1)处,会产生较大的跳跃度,易被识别为异常点。需要判断跳跃度最大处是否位于统计量众数处。且异常用户数量的起始点并非位于统计量的众数处时,认为Xk+1,…,Xn是不真实的用户数量。
最后,步骤E剔除异常数据。根据步骤D中异常用户数量,将异常经纬度位置筛选出,在这些经纬度位置上出现的是伪造用户,删除这些用户的所有记录,完成对手机APP定位数据的检测与清洗。
如图2所示,一种手机APP定位异常数据检测的装置,包括数据存储模块1、判断模块4、数据预处理模块2、检测模块3和清洗模块5;
所述数据预处理模块2,与数据存储模块1连接,用于导出数据存储模块1中的数据并进行预处理,构造适用于检测的统计量;
所述检测模块3,与数据预处理模块2连接,用于分析预处理后的数据,确定异常用户数量的起始处;
所述判断模块4,与检测模块3连接,用于根据置信区间和统计量众数判断检测模块4确定的异常点是否真实,如果异常点被判断为不真实数据,则将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,根据异常用户数量找出异常经纬度位置,并标记异常经纬度位置上用户的所有记录为异常数据;
所述清洗模块5,与判断模块4和数据存储模块1连接,用于剔除判断模块4中标记的异常数据,并将最终清洗后的数据导入数据存储模块1;
所述数据存储模块1,用于分别存储初始数据,以及存储清洗模块5导入的处理后数据。
实施例1
以云南省大理白族自治州1个月的手机APP定位数据为例,将44万用户,2400万条记录导入数据存储模块1中。数据预处理模块2,剔除700条时间戳和用户代码错误的记录。统计每个经纬度位置上记录的用户数量,导入检测模块;
检测模块3采用均值比方法检测异常用户数量,将每个经纬度位置上记录的用户数量按从小到大排列(其中312万个经纬度位置上只记录到1个用户),分别计算其跳跃度。当k=3217617时,跳跃度最大,为1.143,被识别为异常点。
判断模块4,计算,且统计量位于280和4155之间,不位于统计量众数1处。因此,判断第3217617个用户数量是异常用户数量的起始点,第3217617个用户数量及其之后的131个用户数量均为异常用户数量,根据异常用户数量,筛选异常经纬度位置,这些经纬度位置上共记录到18万不同用户,将这些用户的所有记录标记为异常值,并进行分析。统计异常经纬度位置上每小时的记录量和记录人数,9月1日至9月18日,记录量较大,而9月19日,记录量迅速减小,与其他经纬度位置上的记录趋势具有明显区别,应为异常经纬度位置。
清洗模块5将数据中被判断模块标记为异常数据进行删除,并将最终数据导入数据存储模块1中保存。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims (4)

1.一种手机APP定位异常数据检测方法,具体步骤如下:
A.读取服务器中的用户定位数据,剔除时间戳和用户代码错误的数据;
B.统计每个经纬度位置上的用户数量;
C.以均值比方法从步骤B中的统计数据中找出异常点;
D.根据置信区间和统计量众数,判断异常点是否真实;
E.将步骤D中判断为用户数量数据不真实的异常点作为异常用户数量的起始处,将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,并找出这些异常用户数量对应的经纬度位置,删除在这些经纬度位置上记录用户的所有数据。
2.根据权利要求1所述的一种手机APP定位异常数据检测方法,其特征在于,在所述步骤C以均值比方法从步骤B中的统计数据中找出异常点,是将每个经纬度位置上记录的用户数量按从小到大排列,分别计算第一个至倒数第二个统计量的跳跃度(其中是期望点估计,n为统计量数量),跳跃度最大处为异常点。
3.根据权利要求1或2所述的一种手机APP定位异常数据检测方法,其特征在于,所述步骤D根据置信区间和统计量众数,判断异常点是否真实,是判断在置信区间的条件下,异常点是否真实,并判断所述异常用户数量的起始点是否位于统计量的众数处,由于按从小到大排列的用户数量X1,X2,…,Xn可以用指数分布来近似,则对任意的1≤ k< r≤ n,有服从于F(2(r-k),2k)分布(其中约定X0=0),令可得U的的分位点为,通过判断是否大于,可以判断在置信区间的条件下,异常点是否真实;并需要判断跳跃度最大处是否位于统计量众数处;当 且异常用户数量的起始点并非位于统计量的众数处时,认为Xk+1,…,Xn是不真实的用户数量。
4.一种手机APP定位异常数据检测的装置,其特征在于,包括数据存储模块,判断模块、数据预处理模块、检测模块和清洗模块,
所述数据预处理模块,与数据存储模块连接,用于导出数据存储模块中的数据并进行预处理,构造适用于检测的统计量;
所述检测模块,与数据预处理模块连接,用于分析预处理后的数据,确定异常用户数量的起始处;
所述判断模块,与检测模块连接,用于根据置信区间和统计量众数判断检测模块确定的异常点是否真实,如果异常点被判断为不真实数据,则将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,根据异常用户数量找出异常经纬度位置,并标记异常经纬度位置上用户的所有记录为异常数据;
所述清洗模块,与判断模块和数据存储模块连接,用于剔除判断模块中标记的异常数据,并将最终清洗后的数据导入数据存储模块;
所述数据存储模块,用于分别存储初始数据,以及存储清洗模块导入的处理后数据。
CN201710156463.0A 2017-03-16 2017-03-16 一种手机app定位异常数据检测方法及其装置 Active CN107071802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710156463.0A CN107071802B (zh) 2017-03-16 2017-03-16 一种手机app定位异常数据检测方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710156463.0A CN107071802B (zh) 2017-03-16 2017-03-16 一种手机app定位异常数据检测方法及其装置

Publications (2)

Publication Number Publication Date
CN107071802A true CN107071802A (zh) 2017-08-18
CN107071802B CN107071802B (zh) 2024-02-27

Family

ID=59621006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710156463.0A Active CN107071802B (zh) 2017-03-16 2017-03-16 一种手机app定位异常数据检测方法及其装置

Country Status (1)

Country Link
CN (1) CN107071802B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107707618A (zh) * 2017-08-24 2018-02-16 广东欧珀移动通信有限公司 基于位置调整下载量的方法及相关产品
CN108093416A (zh) * 2017-11-30 2018-05-29 厦门市美亚柏科信息股份有限公司 一种移动app推送数据的采集方法及终端
US11288335B2 (en) 2017-08-31 2022-03-29 Shenzhen Heytap Technology Corp., Ltd. Method for search resource recommendation and smart device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116168A (zh) * 2013-02-01 2013-05-22 珠海德百祺科技有限公司 一种导航定位装置的异常检测及处理方法和装置
CN105021186A (zh) * 2015-07-16 2015-11-04 山东慧行天下文化传媒有限公司 基于手绘地图的智能导游导览系统
CN105787203A (zh) * 2016-03-23 2016-07-20 浪潮通信信息系统有限公司 一种预测小区经纬度是否异常的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116168A (zh) * 2013-02-01 2013-05-22 珠海德百祺科技有限公司 一种导航定位装置的异常检测及处理方法和装置
CN105021186A (zh) * 2015-07-16 2015-11-04 山东慧行天下文化传媒有限公司 基于手绘地图的智能导游导览系统
CN105787203A (zh) * 2016-03-23 2016-07-20 浪潮通信信息系统有限公司 一种预测小区经纬度是否异常的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
齐;暴景阳;刘雁春;曾敏;: "一种基于方差分量估计的异常定位数据实时检测方法", 测绘科学技术学报 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107707618A (zh) * 2017-08-24 2018-02-16 广东欧珀移动通信有限公司 基于位置调整下载量的方法及相关产品
CN107707618B (zh) * 2017-08-24 2019-06-25 Oppo广东移动通信有限公司 基于位置调整下载量的方法及相关产品
US11288335B2 (en) 2017-08-31 2022-03-29 Shenzhen Heytap Technology Corp., Ltd. Method for search resource recommendation and smart device
CN108093416A (zh) * 2017-11-30 2018-05-29 厦门市美亚柏科信息股份有限公司 一种移动app推送数据的采集方法及终端

Also Published As

Publication number Publication date
CN107071802B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN107797894B (zh) App用户行为分析方法和装置
CN105809035B (zh) 基于安卓应用实时行为的恶意软件检测方法和系统
EP1582999A4 (en) DEVICE, PROGRAM AND METHOD FOR TECHNICAL EVALUATION
CN107071802A (zh) 一种手机app定位异常数据检测方法及其装置
EP1986066B1 (en) Combined-information processing apparatus, method for processing combined-information, program, and recording medium
CN107844525A (zh) 一种基于用户行为的资讯个性化推荐方法、系统及装置
CN107145445A (zh) 软件自动化测试的报错日志的自动分析方法和系统
CN104035991B (zh) 一种新闻标题的显示方法及用于提供新闻页面的服务器
CN104410907B (zh) 视频广告的监测方法及监测装置
US20170083580A1 (en) Methods and apparatus to partition data
CN110489314A (zh) 模型异常检测方法、装置、计算机设备和存储介质
US6711514B1 (en) Method, apparatus and product for evaluating test data
US20140089040A1 (en) System and Method for Customer Experience Measurement &amp; Management
CN109725133B (zh) 土壤水分实时监测系统及其监测方法
Cornelius et al. A comparison of methods to estimate seasonal phenological development from BBCH scale recording
CN106452934B (zh) 一种网络性能指标变化趋势的分析方法和装置
CN108073597A (zh) 页面点击行为展示方法、装置和系统
CN106611348A (zh) 异常流量的检测方法和装置
EP1571513A4 (en) PRODUCTION EVALUATION MANAGEMENT SYSTEM AND MANAGEMENT METHOD
CN116026487B (zh) 液面温度测量方法、装置、计算机设备和存储介质
CN111325572A (zh) 一种数据处理方法及装置
CN106656943A (zh) 一种网络用户属性的匹配方法及装置
CN108229690A (zh) 一种机器学习模型效用评估的方法和装置
US20080126290A1 (en) Factorial design expert system
JP2016151553A (ja) 材料ロット判定装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant