CN104850998B - 一种基于聚类的移动应用下载量预测方法 - Google Patents

一种基于聚类的移动应用下载量预测方法 Download PDF

Info

Publication number
CN104850998B
CN104850998B CN201510178285.2A CN201510178285A CN104850998B CN 104850998 B CN104850998 B CN 104850998B CN 201510178285 A CN201510178285 A CN 201510178285A CN 104850998 B CN104850998 B CN 104850998B
Authority
CN
China
Prior art keywords
download
discrete
app
data
days
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510178285.2A
Other languages
English (en)
Other versions
CN104850998A (zh
Inventor
吴健
邱奇波
陈亮
邓水光
李莹
尹建伟
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510178285.2A priority Critical patent/CN104850998B/zh
Publication of CN104850998A publication Critical patent/CN104850998A/zh
Application granted granted Critical
Publication of CN104850998B publication Critical patent/CN104850998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种基于聚类的移动应用下载量预测方法,包括:1)从后台数据中收集所有已知的app的历史数据,2)源数据处理,3)模式聚类,下载量预测。本发明创新性地进行app下载量预测,在app领域需求明显,并且具有良好拓展性,在其他电商领域具有十分广泛的应用前景,并且,本发明在考虑app下载曲线特性的基础上修改K‑means算法,并优化求解效率。整个聚类过程可以在线下完成,而下载量的预测值计算在线上完成,优化了用户体验。

Description

一种基于聚类的移动应用下载量预测方法
技术领域
本发明属于移动互联网应用领域。主要利用了余弦相似度与K中心聚类方法,实现了一种针对移动应用(app)下载量的预测机制。
背景技术
随着移动互联网大潮的到来,近年来移动应用(app)蓬勃发展,以谷歌市场为例(Google Play)目前其app数目已超过100万,而累计下载量则超过500亿。不论android还是ios的app应用市场,其网页或者应用端的展示页面都十分有限制,而大部分的app得不到有效的展示。工业界将传统电商中的推荐机制逐渐引入到app领域,以此作为用户发现感兴趣优质app的一种途径,同时也是一部分欠热门优质app曝光的有效途径。但目前没有一种对潜在的优质app的发掘方法。
发明内容
本发明所要解决的技术问题是提供一种基于聚类的移动应用下载量预测方法,能够根据app的已知下载量对其后一段时间的总下载量进行预测。
本发明解决技术问题所采用的技术方案是:一种基于聚类的移动应用下载量预测方法,包括以下步骤:
1)从后台数据中收集所有已知的app的历史数据。
2)源数据处理,对步骤1)中的数据进行处理,生成长度为L的离散时间序列x以表示每一个app的下载曲线,至此所有app的下载曲线组成一个离散时间序列训练数据集;
3)模式聚类,将步骤2)中生成的离散时间序列数据集进行聚类,得到k个下载模式;
4)下载量预测,给定一个app在m天内的下载曲线,与k个下载模式进行匹配,计算之后(L-m)天的总下载量,得到预测结果。
在采用上述技术方案的同时,本发明还可以采用或者组合采用以下进一步的技术方案:
所述步骤2)具体包括以下步骤:
(1)给定下载阈值thr;thr为人为指定的参数,默认thr=0.1。在thr确定的基础上可以计算得到整个训练数据集的L1和L2,一般调节thr使得L1+L2不小于原序列长度的2/3。
(2)为离散时间序列数据集中的每一条离散时间序列x,计算相应的L1(x)和L2(x),其中L1(x)表示从Lp开始往左数日下载量第一次下降到thr*vp所用的天数,相应的,L2(x)用表示从Lp开始往右数日下载量第一次下降到thr*vp所用的天数,Lp为序列中指定的一天,νp为下载量的峰值。
(3)计算所有训练数据集中L1(x)和L2(x)的平均值L1和L2。加:截取每条离散序列峰值所在日前L1天和后L2天的下载数据,左边截取天数不足L1时,用右侧数据填充。相应的,用左侧数据填补右侧数据的不足。以确保所有序列的长度均为L(L=L1+L2)。至此,源数据被处理为长度均为L的离散时间序列。
所述步骤3)具体包括以下步骤:
(1)设定训练数据集中模式聚类的个数k;k为人工指定的参数,默认k=6,其具体值根据聚类效果进行调整。
(2)从训练数据集中随机指定k条曲线为k个聚类的中心,计算每个非中心离散时间序列x到k个中心的曲线距离d(x,c);
d(x,c)表示x与某一个聚类中心的距离,c专门指代聚类中心(center),根据d(x,c)将该离散序列划分到离它最近的聚类中心所在的类。
(3)更新聚类中心k,每次聚类中心更新的目标变为最小化F;
在给定的类划分下,聚类更新的目标为最小化类中每一条离散时间序列到类中心的距离平方的和。
其中μk,Ck分别为第k个类的中心以及归属于第k类的曲线。
根据公式(1)可以导出每次第k类更新的值:
其中为更新之后第k类中心的值。
α是另一根离散序列纵坐标的缩放系数。
进一步由公式3可以先后导出公式4:
可以得到最终的计算方式:
因此,就是矩阵M最小特征值对应的特征向量。
其中,T表示对矩阵进行转置,Ck表示当前划分中归属于第k类的曲线集合。xi表示离散序列x中的第i项,M的值只与xi相关,没有特定的物理意义,I是一个常数,对应x中的第i项,μ表示各类中心形成的矩阵。
用求特征向量的方式进行聚类中心的更新使得算法的实现更加简单,同时也有效的降低了求解的复杂度。
所述步骤4)具体包括以下步骤:
(1)给定一个app,其前m天的下载曲线是长度为m的离散时间序列test,计算test和每个中心(聚类中心本身就是一条长度为L的离散序列)前m天构成的离散序列的余弦相似度,选择最相似的类中心c。
(2)该其后的L-m天的下载量总和pred预测如下:
其中,c表示选定的最相似的类中心,那么cj表示离散序列c的第j项。
本发明的有益效果是:本发明创新性地进行app下载量预测,在app领域需求明显,并且具有良好拓展性,在其他电商领域具有十分广泛的应用前景,并且,本发明在考虑app下载曲线特性的基础上修改K-means算法,并优化求解效率。整个聚类过程可以在线下完成,而下载量的预测值计算在线上完成,优化了用户体验。本发明通过预测app刚上架的数据预测其在之后一段时间的总下载量,从app开发者和相关利益方的角度来考虑,如果能从刚上架的app中发现有成为热门潜质的优质app,并针对性地进行展示和营销,无疑能带来更好的收益,此外,该方法也同样适用于其他电子商务领域,具有良好的拓展性。
附图说明
图1为本发明的整体架构图。
图2为本发明的模块聚类的过程示意图。
具体实施方式
参照附图。
本发明的下载量预测方法包括以下步骤:
1)从后台数据获得待预测app的历史数据,包括该app在已知的m天内的下载量;
2)源数据处理,对步骤1)中的数据进行处理,生成长度为L的离散时间序列x以表示每一个app的下载曲线,至此所有app的下载曲线组成一个离散时间序列训练数据集,具体包括以下步骤:
所述步骤2)具体包括以下步骤:
(1)给定下载阈值thr;thr为人为指定的参数,默认thr=0.1。在thr确定的基础上可以计算得到整个训练数据集的L1和L2,一般调节thr使得L1+L2不小于原序列长度的2/3。
(2)为离散时间序列数据集中的每一条离散时间序列x,计算相应的L1(x)和L2(x),其中L1(x)表示从Lp开始往左数日下载量第一次下降到thr*vp所用的天数,相应的,L2(x)用表示从Lp开始往右数日下载量第一次下降到thr*vp所用的天数,Lp为序列中指定的一天,νp为下载量的峰值。
(3)计算所有训练数据集中L1(x)和L2(x)的平均值L1和L2。加:截取每条离散序列峰值所在日前L1天和后L2天的下载数据,左边截取天数不足L1时,用右侧数据填充。相应的,用左侧数据填补右侧数据的不足。以确保所有序列的长度均为L(L=L1+L2)。至此,源数据被处理为长度均为L的离散时间序列。
3)模式聚类,将步骤2)中生成的离散时间序列数据集进行聚类,得到k个下载模式,具体包括以下步骤:
(1)设定训练数据集中模式聚类的个数k;k为人工指定的参数,默认k=6,其具体值根据聚类效果进行调整。
(2)从训练数据集中随机指定k条曲线为k个聚类的中心,计算每个非中心离散时间序列x到k个中心的曲线距离d(x,c);
d(x,c)表示x与某一个聚类中心的距离,c专门指代聚类中心(center),根据d(x,c)将该离散序列划分到离它最近的聚类中心所在的类。
(3)更新聚类中心k,每次聚类中心更新的目标变为最小化F;
在给定的类划分下,聚类更新的目标为最小化类中每一条离散时间序列到类中心的距离平方的和。
其中μk,Ck分别为第k个类的中心以及归属于第k类的曲线。
根据公式(1)可以导出每次第k类更新的值:
其中为更新之后第k类中心的值。
α是另一根离散序列纵坐标的缩放系数。
进一步由公式3可以先后导出公式4:
可以得到最终的计算方式:
因此,就是矩阵M最小特征值对应的特征向量。
其中,T表示对矩阵进行转置,Ck表示当前划分中归属于第k类的曲线集合。xi表示离散序列x中的第i项,M的值只与xi相关,没有特定的物理意义,I是一个常数,对应x中的第i项,μ表示各类中心形成的矩阵。
模式聚类所用算法类似于k-means,每一次迭代分为两步。与k-means所用欧式距离不同的是,此处使用定义中的曲线距离计算方式。
用求特征向量的方式进行聚类中心的更新使得算法的实现更加简单,同时也有效的降低了求解的复杂度。
4)下载量预测,给定一个app在m天内的下载曲线,与k个下载模式进行匹配,计算之后(L-m)天的总下载量,得到预测结果,具体包括以下步骤:
(1)给定一个app,其前m天的下载曲线是长度为m的离散时间序列test,计算test和每个中心(聚类中心本身就是一条长度为L的离散序列)前m天构成的离散序列的余弦相似度,选择最相似的类中心c。
(2)其后的L-m天的下载量总和pred预测如下:
其中,c表示选定的最相似的类中心,那么cj表示离散序列c的第j项。

Claims (2)

1.一种基于聚类的移动应用下载量预测方法,其特征在于:所述方法包括以下步骤:
1)从后台数据中收集所有已知的app的历史数据;
2)源数据处理,对步骤1)中的数据进行处理,生成长度为L的离散时间序列x以表示每一个app的下载曲线,至此所有app的下载曲线组成一个离散时间序列训练数据集;
3)模式聚类,将步骤2)中生成的离散时间序列数据集进行聚类,得到k个下载模式;
所述步骤3)具体包括以下步骤:
(1)设定训练数据集中模式聚类的个数k;
(2)从训练数据集中随机指定k条曲线为k个聚类的中心,计算每个非中心离散时间序列x到k个中心的曲线距离d(x,c);
(3)更新聚类中心k,每次聚类中心更新的目标变为最小化F;
其中μk,Ck分别为第k个类的中心以及归属于第k类的曲线;
根据公式(1)可以导出每次第k类更新的值:
其中为更新之后第k类中心的值;
(4)
进一步由公式3可以先后导出公式4:
可以得到最终的计算方式:
因此,就是矩阵M最小特征值对应的特征向量;其中,T表示对矩阵进行转置,xi表示离散序列x中的第i项,M的值只与xi相关,没有特定的物理意义,I是一个常数,对应x中的第i项,μ表示各类中心形成的矩阵;α是另一根离散序列纵坐标的缩放系数;
4)下载量预测,给定一个app在m天内的下载曲线,与k个下载模式进行匹配,计算之后(L-m)天的总下载量,得到预测结果;
所述步骤4)具体包括以下步骤:
(1)给定一个app,其前m天的下载曲线是长度为m的离散时间序列test,计算test和每个中心(聚类中心本身就是一条长度为L的离散序列)前m天构成的离散序列的余弦相似度,选择最相似的类中心c;
(2)其后的(L-m)天的下载量总和pred预测如下:
其中,c表示选定的最相似的类中心,那么cj表示离散序列c的第j项。
2.如权利要求1所述的一种基于聚类的移动应用下载量预测方法,其特征在于:所述步骤2)具体包括以下步骤:
(1)给定下载阈值thr;
(2)为离散时间序列数据集中的每一条离散时间序列x,计算相应的L1(x)和L2(x),其中L1(x)表示从Lp开始往左数日下载量第一次下降到thr*vp所用的天数,相应的,L2(x)用表示从Lp开始往右数日下载量第一次下降到thr*vp所用的天数;Lp为序列中指定的一天,vp为下载量的峰值;
(3)计算所有训练数据集中L1(x)和L2(x)的平均值L1和L2;截取每条离散序列峰值所在日前L1天和后L2天的下载数据,左边截取天数不足L1时,用右侧数据填充;相应的,用左侧数据填补右侧数据的不足;以确保所有序列的长度均为L(L=L1+L2);至此,源数据被处理为长度均为L的离散时间序列。
CN201510178285.2A 2015-04-15 2015-04-15 一种基于聚类的移动应用下载量预测方法 Active CN104850998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510178285.2A CN104850998B (zh) 2015-04-15 2015-04-15 一种基于聚类的移动应用下载量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510178285.2A CN104850998B (zh) 2015-04-15 2015-04-15 一种基于聚类的移动应用下载量预测方法

Publications (2)

Publication Number Publication Date
CN104850998A CN104850998A (zh) 2015-08-19
CN104850998B true CN104850998B (zh) 2018-11-02

Family

ID=53850628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510178285.2A Active CN104850998B (zh) 2015-04-15 2015-04-15 一种基于聚类的移动应用下载量预测方法

Country Status (1)

Country Link
CN (1) CN104850998B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN103729798A (zh) * 2014-01-29 2014-04-16 河南理工大学 基于改进的K-Means聚类的煤矿安全评价系统
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104318153A (zh) * 2014-09-30 2015-01-28 北京金和软件股份有限公司 一种在线监测移动设备下载移动应用的系统
CN104462217A (zh) * 2014-11-09 2015-03-25 浙江大学 一种基于分段统计近似表示的时间序列相似性度量方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012063982A1 (ko) * 2010-11-09 2012-05-18 경희대학교 산학협력단 사용자의 심리적 상태를 고려한 스마트폰용 앱 자동 추천시스템
US20140173618A1 (en) * 2012-10-14 2014-06-19 Xplenty Ltd. System and method for management of big data sets

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN103729798A (zh) * 2014-01-29 2014-04-16 河南理工大学 基于改进的K-Means聚类的煤矿安全评价系统
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104318153A (zh) * 2014-09-30 2015-01-28 北京金和软件股份有限公司 一种在线监测移动设备下载移动应用的系统
CN104462217A (zh) * 2014-11-09 2015-03-25 浙江大学 一种基于分段统计近似表示的时间序列相似性度量方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
K_means聚类算法研究综述;王千等;《电子设计工程》;20120430;第20卷(第7期);全文 *
Prediction for Mobile Application Usage Patterns;Chang T, Qi L, Enhong C, Hui X;《Nokia MDC Workshop》;20121231;全文 *
基于余弦定理和K_means的植物叶片识别方法;朱颢东等;《华中师范大学学报(自然科学版)》;20141031;第48卷(第5期);全文 *

Also Published As

Publication number Publication date
CN104850998A (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
Badem et al. A new efficient training strategy for deep neural networks by hybridization of artificial bee colony and limited–memory BFGS optimization algorithms
Cui et al. A ranking-based adaptive artificial bee colony algorithm for global numerical optimization
EP3611799A1 (en) Array element arrangement method for l-type array antenna based on inheritance of acquired characteristics
CN109002861A (zh) 联邦建模方法、设备及存储介质
CN107273917A (zh) 一种基于并行化主成分分析算法的数据降维方法
Ogutu et al. Regularized group regression methods for genomic prediction: Bridge, MCP, SCAD, group bridge, group lasso, sparse group lasso, group MCP and group SCAD
Hu et al. Hard-sample guided hybrid contrast learning for unsupervised person re-identification
Borlea et al. Centroid update approach to K-means clustering.
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN112417752B (zh) 基于卷积lstm神经网络的云层轨迹预测方法及系统
CN113312505A (zh) 一种基于离散在线哈希学习的跨模态检索方法及系统
CN117077811A (zh) 联邦学习优化方法及相关装置
CN104850998B (zh) 一种基于聚类的移动应用下载量预测方法
US11908547B2 (en) Methods and compositions for governing phenotypic outcomes in plants
CN116738788A (zh) 基于混沌鲸鱼优化算法的阵列单元失效校正方法
Aydın et al. A configurable generalized artificial bee colony algorithm with local search strategies
CN107357935B (zh) 基于程序云的智能种植设备控制方法
Wang et al. Learning List-wise Representation in Reinforcement Learning for Ads Allocation with Multiple Auxiliary Tasks
CN112765367B (zh) 一种主题知识图谱构建方法及装置
Li et al. An innovated integrated model using singular spectrum analysis and support vector regression optimized by intelligent algorithm for rainfall forecasting
CN117616428A (zh) 用于在资源受约束的图像识别应用中执行并行双批自蒸馏的方法和装置
CN108628889A (zh) 基于时间片的数据抽样方法、系统和装置
CN112750074B (zh) 小样本图像特征增强方法及系统、图像分类方法及系统
US20230267844A1 (en) Spatio-temporal track density shaping
WO2024065530A1 (en) Methods and apparatus to perform artificial intelligence-based sparse computation based on hybrid pattern and dynamic encoding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant