CN107590244B - 移动设备线下活动场景的识别方法和装置 - Google Patents
移动设备线下活动场景的识别方法和装置 Download PDFInfo
- Publication number
- CN107590244B CN107590244B CN201710829193.5A CN201710829193A CN107590244B CN 107590244 B CN107590244 B CN 107590244B CN 201710829193 A CN201710829193 A CN 201710829193A CN 107590244 B CN107590244 B CN 107590244B
- Authority
- CN
- China
- Prior art keywords
- coordinate data
- time sequence
- model
- autocorrelation function
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000694 effects Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000005457 optimization Methods 0.000 claims abstract description 26
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims abstract 6
- 238000005311 autocorrelation function Methods 0.000 claims description 31
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000000586 desensitisation Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 241001123248 Arma Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005309 stochastic process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种移动设备线下活动场景的识别方法和识别装置,识别方法包括对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据;利用ARIMA模型对所述优化后的坐标数据进行插补,补齐缺失的位置信息,以获取平稳时间序列的坐标数据;将所述平稳时间序列的坐标数据进行曲线拟合,以获得移动设备用户线下活动行为轨迹,使得能够构建准确的移动设备线下活动场景,进而更好地勾勒移动设备用户的线下特征画像,从而为企业提供更好的营销触达体验。
Description
技术领域
本发明涉及大数据分析技术领域,具体涉及一种移动设备线下活动场景的识别方法和装置。
背景技术
现有技术中,对移动设备线下活动场景的识别方法通常是通过某种机制采集终端用户的位置信息,然后对位置信息进行数据去重,剔除异常值,再基于时间维度,将用户在具体时间段内的位置信息连接起来,勾勒出用户在特定场景下的一条行为轨迹,对获取到的移动终端位置信息是直接利用。但是,由于终端的激活状态等主客观因素,获取的位置信息往往是不完整的,会存在缺失,另外,由于移动设备位置采样的频次疏密程度不同,获取的位置信息也会存在不完整的现象,容易造成用户行为轨迹的缺失甚至错误,进而导致使用该活动场景的企业对客户线下活动情况的判断产生误差。
发明内容
本申请一方面提供一种移动设备线下活动场景的识别方法和装置,通过补齐缺失的位置信息,能够提供准确的移动设备线下活动轨迹。
根据第一方面,本申请提供一种移动设备线下活动场景的识别方法,包括以下步骤:对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据;利用ARIMA模型对所述优化后的坐标数据进行插补,补齐缺失的位置信息,以获取平稳时间序列的坐标数据;对所述平稳时间序列的坐标数据进行曲线拟合,以获得移动设备用户线下活动行为轨迹。
根据本发明的一个实施例,所述对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据的过程包括:对初始坐标数据进行同簇聚类,其中,所述同簇聚类为相邻两个坐标数据的时间间隔小于或等于预设阈值,且坐标距离小于或等于预设阈值;确定所述同簇聚类的中心坐标,并用所述同簇聚类的中心坐标对所述初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据。
根据本发明的一个实施例,所述利用ARIMA模型对所述优化后的坐标数据进行插补,以获取平稳时间序列的位置信息的过程包括:判断所述优化后的坐标数据变化是否平稳;将不平稳的坐标数据进行反复差分处理,直至所述坐标数据平稳;计算所述坐标数据的自相关函数和偏自相关函数;进行参数估计,确定所述坐标数据的差分次数、自回归项的阶数和移动平均项数的阶数;根据ARIMA模型的识别规则,选择模型类型;对所选模型类型进行回归诊断,判断所选模型类型是否合适;在所选模型类型合适时,利用所选模型对所述坐标数据进行插补,补齐缺失的坐标数据,以获取平稳时间序列的坐标数据。
根据本发明的一个实施例,所述根据ARIMA模型的识别规则,确定所述坐标数据的模型类型包括:如果平稳时间序列的坐标数据的偏相关函数截尾,且自相关函数拖尾,则坐标数据的时间序列为自回归模型;如果平稳时间序列的坐标数据的自相关函数截尾,且偏相关函数拖尾,则坐标数据的时间序列为移动平均模型;如果平稳时间序列的坐标数据的自相关函数和偏相关函数均拖尾,则坐标数据的时间序列为自回归移动平均模型。
根据本发明的一个实施例,移动设备线下活动场景的识别方法还包括:根据最小二乘法的多元曲线拟合方法将所述平稳时间序列的坐标数据进行曲线拟合,以获得移动设备用户线下活动行为轨迹。
根据本发明的一个实施例,所述时间序列的坐标数据具有马尔可夫性质。
根据本发明的一个实施例,移动设备线下活动场景的识别方法还包括:将原始位置信息进行预处理,以获取初始坐标数据。
根据本发明的一个实施例,所述将原始位置信息进行预处理,以获取初始坐标数据包括:将所述原始位置信息根据脱敏规则进行坐标数据变形;抽取所述变形后的坐标数据,并将异常数据进行数据清洗,以获取初始坐标数据。
根据第二方面,本申请提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现上述第一方面所述的移动设备线下活动场景的识别方法。
根据第三方面,本申请提供一种移动设备线下活动场景的识别装置,聚类优化模块,所述聚类优化模块用于对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据;坐标数据插补模块,所述坐标数据插补模块用于根据ARIMA模型对所述优化后的坐标数据进行插补,补齐缺失的位置信息,以获取平稳时间序列的坐标数据;坐标数据拟合模块,所述坐标数据拟合模块用于将所述平稳时间序列的坐标数据进行曲线拟合,以获得移动设备用户线下活动行为轨迹。
根据上述实施例,本申请提出的一种移动设备线下活动场景的识别方法和装置,由于通过对初始坐标数据进行时间序列聚类优化,获取优化后的坐标数据,然后利用ARIMA模型对优化后的坐标数据进行插补,补齐缺失的位置信息,获取平稳时间序列的坐标数据,再将平稳时间序列的坐标数据进行曲线拟合,获得移动设备用户线下活动行为轨迹,使得能够构建准确的移动设备线下活动场景,进而更好地勾勒移动设备用户的线下特征画像,从而为企业提供更好的营销触达体验。
附图说明
图1为本发明的移动设备线下活动场景的识别方法的流程图;
图2为一个实施例的移动设备线下活动场景的识别方法中对初始坐标数据进行时间序列聚类优化的流程图;
图3为一个实施例的对初始坐标数据进行时间序列聚类优化的示意图;
图4为一个实施例的利用ARIMA模型对优化后的坐标数据进行插补的流程图;
图5为一个实施例的对优化后的坐标数据进行插补的示意图;
图6为一个具体实施例的坐标轨迹拟合图;
图7为本发明的移动设备线下活动场景的识别装置的方框示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
下面参考附图说明本发明实施例的移动设备线下活动场景的识别方法和移动设备线下活动场景的识别装置。
图1为根据本发明实施例的移动设备线下活动场景的识别方法的流程图。如图1所示,本发明实施例的移动设备下活动场景的识别方法包括步骤:
S1:对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据;
S2:利用ARIMA模型对优化后的坐标数据进行插补,补齐缺失的位置信息,以获取平稳时间序列的坐标数据;其中,ARIMA(Autoregressive Integrated Moving AverageMode,自回归积分滑动平均模型)模型包括自AR回归模型、MA移动平均模型和ARMA自回归移动平均模型。
S3:对平稳时间序列的坐标数据进行曲线拟合,以获得移动设备用户线下活动行为轨迹。
由于通过对初始坐标数据进行时间序列聚类优化,获取优化后的坐标数据,然后利用ARIMA模型对优化后的坐标数据进行插补,补齐缺失的位置信息,获取平稳时间序列的坐标数据,再将平稳时间序列的坐标数据进行曲线拟合,获得移动设备用户线下活动行为轨迹,使得能够构建准确的移动设备线下活动场景,进而更好地勾勒移动设备用户的线下特征画像,从而为企业提供更好的营销触达体验。
在一些实施例,识别方法还包括在步骤S1之前,将原始位置信息进行预处理,以获取初始坐标数据。其中,原始位置信息为直接通过移动设备定位功能获取的信息,具体地,移动设备以固定频率发送位置信息,当用户在使用移动设备时可获得较多的位置信息,此时报点密集,比如:每分钟获得用户数几十次的位置上报信息;当设备关机或网络信号差时,则获得的位置信息较少甚至缺失,此时报点稀疏。
具体地,将原始位置信息根据脱敏规则进行坐标数据变形,抽取变形后的坐标数据,并将异常数据进行数据清洗,以获取初始坐标数据。进一步地,对获取到的原始位置信息进行数据脱敏处理,例如利用数学公式对经纬度坐标进行数据转换,以使位置信息以普通的坐标形式参与模型运算。以一天为单位抽取移动设备24小时内的所有报位置报点数据,并将异常数据进行数据清洗,从而获取初始坐标数据。
需要说明的是,位置信息大多是抽象的,但将它对应到空间中客观存在的坐标点时,就具有了实际意义,且位置信息本身具有广泛的存在性、超强的拼接能力,因此,可使用位置信息对移动设备的线下活动场景进行识别。其中,时间序列是指同一现象的观察值按时间先后顺序排列而成的动态数据,本实施例中,坐标数据为以时间先后顺序排列的坐标位置数据。
本发明的一个实施例,如图2所示,步骤S1对报点密集的初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据,其过程包括:
S101:对初始坐标数据进行同簇聚类,其中,同簇聚类为相邻两个坐标数据的时间间隔小于或等于预设阈值,且坐标距离小于或等于预设阈值。
具体地,可先根据预设时间对初始坐标数据进行分段,其中,预设时间可为1小时,例如,可以初始时间为起点,将每小时内获取的坐标数据分为1段,然后如果时间段内有多个坐标数据,则判断各个坐标数据之间的距离是否小于或等于预设阈值,如果小于,则该时间段内的坐标数据为同簇,将同簇数据作为一个聚类即同簇聚类。
S102:确定同簇聚类的中心坐标,并用同簇聚类的中心坐标对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据。
需要说明的是,计算同簇聚类的质心,即位置数据的平均值或时间段内各位置数据共圆的圆心,将计算出的质心作为该时间段的坐标数据更新初始坐标数据,更新后的坐标数据为优化后的坐标数据序列。举例来说,如图3所示,图中L1-L16为一条轨迹序列,其中,L1、L2、L3、L4为一个时间段内的多个位置数据,需要对该时间段内的位置数据进行聚类优化。
本发明的一个实施例,如图4所示,步骤S2利用ARIMA模型对优化后的坐标数据进行插补,以获取平稳时间序列的坐标数据的过程包括:
S201:判断优化后的坐标数据变化是否平稳。
S202:将不平稳的坐标数据进行反复差分处理,直至坐标数据变化平稳。
S203:计算坐标数据的自相关函数和偏自相关函数。
S204:进行参数估计,确定坐标数据的差分次数d、自回归项p的阶数和移动平均项数q的阶数。
S205:根据ARIMA模型的识别规则,选择模型类型。
其中,ARIMA模型为:将非平稳时间序列转化为平稳时间序列,再将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。具体地,如果平稳时间序列的坐标数据的偏自相关函数截尾(即偏自相关函数p步结尾),且自相关函数拖尾,则模型类型为自回归模型,即AR(p)模型,其中,自回归项p值自动确定;如果平稳时间序列的坐标数据的自相关函数截尾(即自相关函数q步结尾),且偏自相关函数拖尾,则模型类型为移动平均模型,即MA(q)模型,其中,偏回归项q值自动确定;如果平稳时间序列的坐标数据的自相关函数和偏自相关函数均拖尾,则坐标数据的时间序列为自回归移动平均模型,即ARMA模型。
S206:对模型进行回归诊断,判断所选模型类型是否合适。具体地,对模型进行回归诊断时,当残差满足正态性时,所选模型类型合适;反之则不合适。
S207:在所选模型类型合适时,利用所选模型对坐标数据,尤其是对报点稀疏的坐标数据,进行插补,补齐缺失的位置信息,以获取平稳时间序列的坐标数据。
由于采集位置信息的不完整,易造成移动设备的用户行为轨迹的缺失甚至错误,不能实现精准触达用户,无法准确了解客户画像。如图5所示,不同于传统方法中,针对客户报点频次稀疏、飘移等误差数据进行过滤、简单平均插补的方法,本申请通过多种定位方式相结合,实现位置轨迹回溯,补齐缺失的位置数据,可获得完整的位置数据,即:先通过获取移动终端上传的位置数据,对于报点密集的坐标数据进行同簇聚类确定中心坐标,对于报点稀疏的坐标数据利用ARIMA模型进行自回归分析,补齐缺失的位置数据,获得完整的位置数据。因此,本申请可确保获得的移动设备用户线下活动行为轨迹数据的精度和连续性,提高对用户在指定时间段内线下行为的洞察能力和准确度,避免了因对用户线下特征掌握不准确,影响用户服务体验的情况发生。
需要说明的是,本申请的时间序列具有马尔可夫性质。马尔可夫性质是概率论中的一个概念,指的是当一个随机过程在给定当前状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,换句话说,在给定当前状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。对于本申请时间序列,当前状态仅跟之前1个状态有关,本申请的随机过程称为一阶马尔可夫过程。由此可见,本申请的马尔可夫性质与传统的状态转移的Markov假设和输出值的Markov假设不同。这两种假设并不十分合理,因为任一时刻出现的观测输出矢量概率不仅依赖于系统当前所处的状态,而且还依赖于系统在前一时刻所处的状态。其中,状态转移的Markov假设是指时刻+1的状态转移只与当前时刻的状态有关,而与时刻以前的状态无关;输出值的Markov假设:在时刻+1输出观测值的概率,只取决于当前时刻所处的状态而与以前的历史无关。
本发明的一个实施例,步骤S3根据最小二乘法的多元曲线拟合方法将平稳时间序列的坐标数据进行曲线拟合,以获得移动设备用户线下活动行为轨迹。
本申请通过使用曲线拟合的最小二乘法,将大量杂乱无章的位置信息规范到函数解析中来,找出其潜在的规律。具体地,从给定的坐标数据(xi,yi)出发,构造一个近似函数函数不要求完全通过所有的数据点,只要求所得的近似曲线能反映数据的基本趋势,几何上称为曲线拟合的最小二乘法,当然,确定的最佳形式不仅是数学问题,还与实际需求的具体场景有关。
根据本发明的一个实施例,移动设备用户线下活动行为轨迹可分为单一时间轴的坐标轨迹和复合时间轴的坐标轨迹,其中,例如,以一天时间为时间轴的坐标轨迹可表示为(lat1*1,lng1*1),(lat1*2,lng1*2),...,(lat1*t,lng1*t),其中,lat为纬度,lng为经度,t为一天内的各个时间段,以多天为时间轴的坐标可表示为:
移动设备用户线下活动线索是互联网企业十分关注的营销场景,本发明实施例运用时间序列、聚类和最小二乘法的多元曲线拟合,针对移动设备线下活动位置信息,识别出具体时间段内用户线下活动特征。
根据本发明的一个具体实施例,具体地,以一个用户一天二十四小时的位置数据为例。其中,抽取脱敏后的坐标数据,如表1所示。
Id | Lat | Lng | Data | Time |
user1 | 6.812842 | -64.1659 | 20170316 | 0:06:49 |
user1 | -1198.5 | -1197.82 | 20170316 | 0:13:08 |
user1 | 14.04184 | -77.6872 | 20170316 | 0:20:04 |
user1 | 6.812842 | -64.1659 | 20170316 | 0:26:05 |
user1 | 10.293 | -80.0119 | 20170316 | 1:30:02 |
user1 | 6.812842 | -64.1659 | 20170316 | 2:31:50 |
user1 | 5.886313 | -65.7491 | 20170316 | 3:32:53 |
user1 | 5.886313 | -65.7491 | 20170316 | 4:30:54 |
user1 | 5.886313 | -65.7491 | 20170316 | 5:29:06 |
user1 | 13.49885 | -76.8226 | 20170316 | 6:39:48 |
user1 | 13.49885 | -76.8226 | 20170316 | 7:37:48 |
user1 | 13.49885 | -76.8226 | 20170316 | 8:35:48 |
user1 | 8.978697 | -67.3022 | 20170316 | 9:18:17 |
user1 | 5.888017 | -65.7477 | 20170316 | 12:35:37 |
user1 | 26.99326 | -55.1027 | 20170316 | 13:52:05 |
user1 | 5.886313 | -65.7491 | 20170316 | 14:29:17 |
user1 | 15.89657 | -71.3339 | 20170316 | 15:47:29 |
user1 | -20.0592 | -62.8713 | 20170316 | 16:54:33 |
user1 | 13.49885 | -76.8226 | 20170316 | 17:32:18 |
user1 | 1.862434 | -85.5866 | 20170316 | 18:02:09 |
user1 | 17.03982 | -74.9179 | 20170316 | 18:17:27 |
user1 | 24.03183 | -52.6441 | 20170316 | 18:19:41 |
user1 | 1.862434 | -85.5866 | 20170316 | 18:21:30 |
user1 | -20.0875 | -62.8698 | 20170316 | 18:26:07 |
user1 | 18.82519 | -67.6507 | 20170316 | 18:51:23 |
user1 | 15.89657 | -71.3339 | 20170316 | 19:17:06 |
user1 | 1.862434 | -85.5866 | 20170316 | 20:20:13 |
user1 | 21.53651 | -69.9139 | 20170316 | 22:32:34 |
user1 | 13.49885 | -76.8226 | 20170316 | 23:17:02 |
表1
表1中为用户user1一天24小时内的坐标数据,从表1中可知,表中第二条经纬度数据明显异常,需要删掉;10、11、21三个时间段内没有位置信息需要插补;0、18两个时间段内出现多条坐标数据需要进行同簇聚类。
经过ARIMA模型可分别获得10、11、21三个时间段的坐标分别为(113.498853,23.177409),(113.498853,23.177409)和(105.83942,23.410626);对0、18两个时间段进行同簇聚类分别坐标为(9.222508667,-68.67297133)和(12.72434215,-73.27715668),用新的坐标更新表1获取平稳时间序列的坐标数据,如表2。
Id | Lat | Lng | Data | Time |
user1 | 9.222509 | -68.673 | 20170316 | 0 |
user1 | 10.293 | -80.0119 | 20170316 | 1 |
user1 | 6.812842 | -64.1659 | 20170316 | 2 |
user1 | 5.886313 | -65.7491 | 20170316 | 3 |
user1 | 5.886313 | -65.7491 | 20170316 | 4 |
user1 | 5.886313 | -65.7491 | 20170316 | 5 |
user1 | 13.49885 | -76.8226 | 20170316 | 6 |
user1 | 13.49885 | -76.8226 | 20170316 | 7 |
user1 | 13.49885 | -76.8226 | 20170316 | 8 |
user1 | 8.978697 | -67.3022 | 20170316 | 9 |
user1 | 13.49885 | -76.1774 | 20170316 | 10 |
user1 | 13.49885 | -76.1774 | 20170316 | 11 |
user1 | 105.8394 | 23.41063 | 20170316 | 12 |
user1 | 26.99326 | -55.1027 | 20170316 | 13 |
user1 | 5.886313 | -65.7491 | 20170316 | 14 |
user1 | 15.89657 | -71.3339 | 20170316 | 15 |
user1 | -20.0592 | -62.8713 | 20170316 | 16 |
user1 | 13.49885 | -76.8226 | 20170316 | 17 |
user1 | 12.72434 | -73.2772 | 20170316 | 18 |
user1 | 15.89657 | -71.3339 | 20170316 | 19 |
user1 | 1.862434 | -85.5866 | 20170316 | 20 |
user1 | 5.83942 | -76.4106 | 20170316 | 21 |
user1 | 21.53651 | -69.9139 | 20170316 | 22 |
user1 | 13.49885 | -76.8226 | 20170316 | 23 |
表2
根据表2中的坐标数据进行最小二乘法曲线拟合,获取最终的坐标轨迹,如图6所示。
综上所述,本发明主要运用了时间序列、聚类和多元曲线拟合相结合的算法,通过针对移动设备线下活动的位置信息,在时间序列尽量补全移动终端停留点序列,该时间序列刚好满足马尔可夫性质,获取平稳时间序列的坐标数据,再将所述平稳时间序列的坐标数据进行曲线拟合,获得移动设备用户线下活动行为轨迹,通过对移动设备的时空特征进行分析和归纳,可识别出具体时间段内用户线下活动特征,更好地勾勒移动设备用户的线下特征画像,为企业提供更好的营销触达体验。
图7为本发明实施例的一种移动设备线下活动场景的识别装置。如图6所示,本发明实施例的移动设备线下活动场景的识别装置包括:聚类优化模块10、坐标数据插补模块20和坐标数据拟合模块30。
其中,聚类优化模块10、坐标数据插补模块20和坐标数据拟合模块30依次相连;聚类优化模块10用于对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据;坐标数据插补模块20用于根据ARIMA模型对所述优化后的坐标数据进行插补,以获取平稳时间序列的坐标数据;坐标数据拟合模块30用于将所述平稳时间序列的坐标数据进行曲线拟合,以获得坐标轨迹。
根据本发明实施例提出的移动设备线下活动场景的识别装置,聚类优化模块对初始坐标数据进行时间序列聚类优化,获取优化后的坐标数据;然后坐标数据插补模块根据ARIMA模型对优化后的坐标数据进行插补,补齐缺失的位置信息,获取平稳时间序列的坐标数据;在通过坐标数据拟合模块将平稳时间序列的坐标数据进行曲线拟合,获得移动设备用户线下活动行为轨迹。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (8)
1.一种移动设备线下活动场景的识别方法,其特征在于,包括以下步骤:
对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据时间序列;
利用ARIMA模型对所述优化后的坐标数据时间序列进行插补,补齐缺失的坐标数据,以获取平稳时间序列的坐标数据;
将所述平稳时间序列的坐标数据进行曲线拟合,以获得坐标轨迹;
其中,所述利用ARIMA模型对所述优化后的坐标数据时间序列进行插补,以获取平稳时间序列的坐标数据的过程包括:
判断所述优化后的坐标数据时间序列是否平稳;
将不平稳的坐标数据时间序列进行反复差分处理,直至所述坐标数据时间序列平稳;
计算所述坐标数据时间序列的自相关函数和偏自相关函数;
进行参数估计,确定所述坐标数据的差分次数、自回归项和移动平均项数的阶数;
根据ARIMA模型的识别规则,确定所述坐标数据时间序列的模型类型;所述坐标数据时间序列的模型类型包括:
如果平稳时间序列的坐标数据的偏自相关函数截尾,且自相关函数拖尾,则坐标数据的时间序列为自回归模型;
如果平稳时间序列的坐标数据的自相关函数截尾,且偏自相关函数拖尾,则坐标数据的时间序列为移动平均模型;
如果平稳时间序列的坐标数据的自相关函数和偏自相关函数均拖尾,则坐标数据的时间序列为自回归移动平均模型;
对所述模型类型进行回归诊断,确定所述模型类型是否正确;
根据正确的模型类型对所述坐标数据时间序列进行插补,补齐缺失的坐标数据,以获取平稳时间序列的坐标数据。
2.如权利要求1所述的移动设备线下活动场景的识别方法,其特征在于,所述对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据时间序列的过程包括:
对初始坐标数据进行同族聚类,其中,所述同族聚类为相邻两个坐标数据的时间间隔小于或等于预设阈值,且坐标距离小于或等于预设阈值;
确定所述同族聚类的中心坐标,并用所述同族聚类的中心坐标对所述初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据时间序列。
3.如权利要求1所述的移动设备线下活动场景的识别方法,其特征在于,还包括:根据最小二乘法的多元曲线拟合方法将所述平稳时间序列的坐标数据进行曲线进行拟合,以获得坐标轨迹。
4.如权利要求1所述的移动设备线下活动场景的识别方法,其特征在于,所述时间序列的坐标数据具有马尔可夫性质。
5.如权利要求1所述的移动设备线下活动场景的识别方法,其特征在于,还包括:将原始位置信息进行预处理,以获取初始坐标数据。
6.如权利要求5所述的移动设备线下活动场景的识别方法,其特征在于,所述将原始位置信息进行预处理,以获取初始坐标数据包括:
将所述原始位置信息根据脱敏规则进行坐标数据变形;
抽取所述变形后的坐标数据,并将异常数据进行数据清洗,以获取初始坐标数据。
7.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1-6中任一项所述的移动设备线下活动场景的识别方法。
8.一种移动设备线下活动场景的识别装置,其特征在于,包括:
时间序列聚类优化模块,用于对初始坐标数据进行时间序列聚类优化,以获取优化后的坐标数据时间序列;
坐标数据插补模块,用于根据ARIMA模型对所述优化后的坐标数据进行插补,以获取平稳时间序列的坐标数据;
坐标数据拟合模块,用于将所述平稳时间序列的坐标数据进行曲线拟合,以获得坐标轨迹;
其中,坐标数据插补模块,还用于:
判断所述优化后的坐标数据时间序列是否平稳;
将不平稳的坐标数据时间序列进行反复差分处理,直至所述坐标数据时间序列平稳;
计算所述坐标数据时间序列的自相关函数和偏自相关函数;
进行参数估计,确定所述坐标数据的差分次数、自回归项和移动平均项数的阶数;
根据ARIMA模型的识别规则,确定所述坐标数据时间序列的模型类型;所述坐标数据时间序列的模型类型包括:
如果平稳时间序列的坐标数据的偏自相关函数截尾,且自相关函数拖尾,则坐标数据的时间序列为自回归模型;
如果平稳时间序列的坐标数据的自相关函数截尾,且偏自相关函数拖尾,则坐标数据的时间序列为移动平均模型;
如果平稳时间序列的坐标数据的自相关函数和偏自相关函数均拖尾,则坐标数据的时间序列为自回归移动平均模型
对所述模型类型进行回归诊断,确定所述模型类型是否正确;
根据正确的模型类型对所述坐标数据时间序列进行插补,补齐缺失的坐标数据,以获取平稳时间序列的坐标数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710829193.5A CN107590244B (zh) | 2017-09-14 | 2017-09-14 | 移动设备线下活动场景的识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710829193.5A CN107590244B (zh) | 2017-09-14 | 2017-09-14 | 移动设备线下活动场景的识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107590244A CN107590244A (zh) | 2018-01-16 |
CN107590244B true CN107590244B (zh) | 2020-04-17 |
Family
ID=61051546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710829193.5A Active CN107590244B (zh) | 2017-09-14 | 2017-09-14 | 移动设备线下活动场景的识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590244B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109068268A (zh) * | 2018-08-13 | 2018-12-21 | 四川科道芯国智能技术股份有限公司 | 学生轨迹分析方法及装置 |
EP3987535A1 (en) * | 2019-06-21 | 2022-04-27 | Novartis AG | Systems and methods for user verification based on actigraphy data |
CN110324845B (zh) * | 2019-07-16 | 2022-08-12 | 秒针信息技术有限公司 | 一种资源分配的方法及装置 |
CN112907622A (zh) * | 2021-01-20 | 2021-06-04 | 厦门市七星通联科技有限公司 | 视频中目标物体的轨迹识别方法、装置、设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079063A (zh) * | 2007-06-25 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种基于场景信息推送广告的方法、系统及设备 |
CN101394311A (zh) * | 2008-11-12 | 2009-03-25 | 北京交通大学 | 一种基于时间序列的网络舆情预测方法 |
CN106354995A (zh) * | 2016-08-24 | 2017-01-25 | 华北电力大学(保定) | 一种基于拉格朗日插值与时间序列的预测方法 |
CN106709606A (zh) * | 2016-12-29 | 2017-05-24 | 平安科技(深圳)有限公司 | 个性化场景预测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101673307B1 (ko) * | 2014-12-19 | 2016-11-22 | 현대자동차주식회사 | 네비게이션 시스템 및 그에 의한 경로 예측 방법, 그리고 이를 실행하는 컴퓨터 판독 가능한 기록매체 |
-
2017
- 2017-09-14 CN CN201710829193.5A patent/CN107590244B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079063A (zh) * | 2007-06-25 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种基于场景信息推送广告的方法、系统及设备 |
CN101394311A (zh) * | 2008-11-12 | 2009-03-25 | 北京交通大学 | 一种基于时间序列的网络舆情预测方法 |
CN106354995A (zh) * | 2016-08-24 | 2017-01-25 | 华北电力大学(保定) | 一种基于拉格朗日插值与时间序列的预测方法 |
CN106709606A (zh) * | 2016-12-29 | 2017-05-24 | 平安科技(深圳)有限公司 | 个性化场景预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于风电场风机片区的风速插补方法研究;郝玉珠 等;《内蒙古大学学报(自然科学版)》;20170531;第48卷(第3期);正文第1.2.2节,第1.3.1节,第2.1节,图1 * |
Also Published As
Publication number | Publication date |
---|---|
CN107590244A (zh) | 2018-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590244B (zh) | 移动设备线下活动场景的识别方法和装置 | |
CN111064614B (zh) | 一种故障根因定位方法、装置、设备及存储介质 | |
US11240125B2 (en) | System and method for predicting and reducing subscriber churn | |
CN109034861B (zh) | 基于移动端日志行为数据的用户流失预测方法及装置 | |
CN107040397B (zh) | 一种业务参数获取方法及装置 | |
CN109727446B (zh) | 一种用电数据异常值的识别与处理方法 | |
EP3948707A1 (en) | Systems and methods for forecast alerts with programmable human-machine hybrid ensemble learning | |
WO2017076154A1 (zh) | 网络事件预测以及建立网络事件预测模型的方法和装置 | |
CN111478963B (zh) | 消息推送方法、装置、电子设备及计算机可读存储介质 | |
JP6010133B2 (ja) | 属性データ区間の分類 | |
US11526899B2 (en) | Systems and methods for dynamic demand sensing | |
CN114285728B (zh) | 一种预测模型训练方法、流量预测方法、装置及存储介质 | |
CN112148557B (zh) | 一种性能指标实时预测方法、计算机设备及存储介质 | |
US9816836B2 (en) | Correlating meter data to detect mismappings | |
EP2652909B1 (en) | Method and system for carrying out predictive analysis relating to nodes of a communication network | |
CN113672600B (zh) | 一种异常检测方法及系统 | |
CN107958297B (zh) | 一种产品需求预测方法及产品需求预测装置 | |
CN112150214A (zh) | 一种数据预测方法、装置以及计算机可读存储介质 | |
Park et al. | Missing-insensitive short-term load forecasting leveraging autoencoder and LSTM | |
CN113190429B (zh) | 服务器性能预测方法、装置及终端设备 | |
CN114581119A (zh) | 流量预测方法以及装置 | |
CN110929922A (zh) | 一种基于时间序列数据的指标趋势预测方法及装置 | |
CN111325255A (zh) | 特定人群圈定方法、装置、电子设备及存储介质 | |
CN115859157A (zh) | 客户分类方法及装置 | |
CN115526402A (zh) | 指标预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Method and device for identifying offline activity scenes on mobile devices Granted publication date: 20200417 Pledgee: Shenzhen small and medium sized small loan Co.,Ltd. Pledgor: SHENZHEN HEXUN HUAGU INFORMATION TECHNOLOGY CO.,LTD. Registration number: Y2024980008506 |