CN109325805B - 基于K-means聚类算法及离散小波变换的无人超市客流量预测方法 - Google Patents

基于K-means聚类算法及离散小波变换的无人超市客流量预测方法 Download PDF

Info

Publication number
CN109325805B
CN109325805B CN201811097765.6A CN201811097765A CN109325805B CN 109325805 B CN109325805 B CN 109325805B CN 201811097765 A CN201811097765 A CN 201811097765A CN 109325805 B CN109325805 B CN 109325805B
Authority
CN
China
Prior art keywords
data
flow data
algorithm
flow
shop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811097765.6A
Other languages
English (en)
Other versions
CN109325805A (zh
Inventor
阎长顺
吕高帆
邵勇
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811097765.6A priority Critical patent/CN109325805B/zh
Publication of CN109325805A publication Critical patent/CN109325805A/zh
Application granted granted Critical
Publication of CN109325805B publication Critical patent/CN109325805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/148Wavelet transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Pure & Applied Mathematics (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本本发明公开一种基于K‑means聚类算法及离散小波变换的无人超市客流量预测方法,包括:获取用户的流量数据,所述流量数据包括客流量数据;将所述流量数据按照时间特征和店铺特征进行序列化形成多个时间序列;通过聚类算法对历史数据进行聚类;通过基本统计学算法与所述多个时间序列数据,计算所述流量数据的均值方差增长率等;通过小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波;以及将所述时间序列子波,所述均值与所述方差及所述增长率作为特征值输入预测模型中,以获取所述用户在预定时间段中的流量数据预测值。本发明能够对未来无人超市客流量进行有效预测,并对商家经营模式起到指导作用。

Description

基于K-means聚类算法及离散小波变换的无人超市客流量预 测方法
技术领域
本发明属于计算机信息处理领域,尤其涉及一种基于K-means 聚类算法及离散小波变换的无人超市客流量预测方法。
背景技术
近年来,无人超市的兴起引起广泛关注,其便捷的购物模式脱颖 而出。对于商家而言,提高其便捷性以及分配性更能掀起购物新狂 潮。所以,对超市未来客流量的精准预测可以很好的激起这波潮流。
现有技术中,对无人超市客流进行预测方法很少,借鉴其他方向 预测客流量的方法,这里的客流量是时间序列形式,对于时间序列 的预测比较流行的是统计学中的ARMA。
ARMA(自回归滑动平均模型),不直接考虑其他相关随机变量 的变化,因此,不适合有强噪声的数据使用;还有基于基本统计特 征方法提取的回归分析法,但是该方法计算量大,过程复杂,预测 精度低;因此,需要一种新的用于数据预测的方法、装置、电子设 备及计算机可读介质。
发明内容
本发明针对现有解决方案的上述不足,提供一种无人超市客流 量预测方法,能够对未来无人超市客流量进行有效预测,并对商家 的经营模式进行有效指导。
本发明的基于K-means聚类算法及离散小波变换的无人超市客流 量预测方法,该方法包括:获取每个店铺的流量数据,所述流量数 据包括店铺客流量数据;将所述流量数据按照时间以及店铺特征分 解成每家店铺每天客流量数据,进行序列化;通过K-means聚类算 法对流量数据进行聚类,以拆分不同数据模型;通过基本统计学算 法与所述聚类之后各个模型的数据,计算各个模型流量数据的均值 与方差,以及增长率加速度等基本统计学特征;通过小波变换算法 对所述多个时间序列数据进行分解处理,以获取时间序列子波;以 及将所述时间序列子波,所述均值,所述方差值与所述增长率值及 所述加速度值进行归一化处理,最后作为特征输入提升树预测模型 中进行训练得到各聚类模型,以获取所述店铺在预测时间段中的流 量数据预测值。
在本公开的一种示例性实施例中,所述将所述流量数据按照时间 以及店铺特征分解成每家店铺每天客流量数据,包括:按店铺按日 期形成唯一性的流量数据,并标记每天的星期特征,并将每家店铺 的流量数据按照日期升序排列。
在本公开的一种示例性实施例中,所述通过K-means聚类算法对 流量数据进行聚类,以拆分不同数据模型,包括:将所述流量数据 以七天为时间步长,取当天日期前六天数据组合成七天为一个分组 的流量数据,该分组对应当天日期以及所属店铺,将所述流量数据 进行如上所述拆分组合,将分解之后的数据输入K-means算法进行 聚类。
在本公开的一种示例性实施例中,所述K-means聚类算法簇的个 数为6类,初始簇中心的获取方法为k-means++,获取初始簇中心的 更迭次数为12次初始质心。
在本公开的一种示例性实施例中,所述获取所述店铺在预定时间 段中的流量数据预测值,包括:获取所述店铺在未来一个月中的流 量数据预测值;所述流量数据预测值包括未来一个月中每一天的流 量数据。
在本公开的一种示例性实施例中,所述通过基本统计学算法与所 述多个时间序列数据,计算聚类之后流量数据的均值与方差,以及 增长率加速度等基本统计学特征,包括:获取目标时间点历史前7 天流量均值和方差;获取目标时间点历史前3天的增长率;获取目 标时间点历史前7天增长率的均值和方差;获取目标时间点历史前3 天的加速度(即增长率的增长率);获取目标时间点历史前7天的 加速度的均值和方差。
在本公开的一种示例性实施例中,所述通过小波变换算法对所述 多个时间序列数据进行分解处理,以获取时间序列子波,包括:通 过离散小波变换算法对所述多个时间序列数据进行分解处理,以获 取时间序列子波。
在本公开的一种示例性实施例中,所述离散小波变换算法的分解 层数为2层;母小波为Daubechies小波簇中的db2小波;以及边界 扩展函数为zero-padding。
在本公开的一种示例性实施例中,所述梯度提升回归(Gradient boostingregression,GBR)预测模型包括:多个子模型,即聚类之后 的6类模型,所述多个子模型独立存在。
本发明能够对未来无人超市客流量进行有效预测,并对商家经 营模式产生指导作用,提升无人超市的智能化。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目 标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发 明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造 性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于数据预测的方法的 流程图。
图2是根据另一示例性实施例示出的一种用于数据预测的方法 中客流量数据的示意图。
图3是根据一示例性实施例示出的一种用于数据预测的方法中 不同模型预测效果比较图。
图4是根据一示例性实施例示出的一种用于数据预测的装置的 框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
图7是根据一示例性实施例示出一种计算机可读存储介质示意 图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施 例能够以多种形式实施,且不应被理解为限于在此阐述的实施例; 相反,提供这些实施例使得本发明将全面和完整,并将示例实施 例的构思全面地传达给本领域的技术人员。在图中相同的附图标 记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结 合在一个或更多实施例中。在下面的描述中,提供许多具体细节 从而给出对本发明的实施例的充分理解。然而,本领域技术人员 将意识到,可以实践本发明的技术方案而没有特定细节中的一个 或更多,或者可以采用其它的方法、组元、装置、步骤等。在其 它情况下,不详细示出或描述公知方法、装置、实现或者操作以 避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上 独立的实体相对应。即,可以采用软件形式来实现这些功能实体, 或在一个或多个硬件模块或集成电路中实现这些功能实体,或在 不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的 内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的 操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因 此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描 述各种组件,但这些组件不应受这些术语限制。这些术语乃用以 区分一组件与另一组件。因此,下文论述的第一组件可称为第二 组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或” 包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图, 附图中的模块或流程并不一定是实施本发明所必须的,因此不能 用于限制本发明的保护范围。
图1是根据一示例性实施例示出的一种用于数据预测的方法 的流程图。
如图1所示,在S102中,获取店铺的流量数据,所述流量数 据包括客流量数据。获取到的店铺的流量数据例如为客流量数据 以天为单位。表1展示了流量数据的格式。其中,record_day为 记录时间,store_id为店铺的编号,customer为店铺的客流量。流 量数据中包含五家店铺的客流量数据。
表1流量数据的格式
Figure BDA0001805933670000051
Figure BDA0001805933670000061
在S104中,将所述流量数据按照时间以及店铺特征分解成每 家店铺每天客流量数据,并按照每家店及日期进行升序排序。
在S106中,通过K-means聚类算法对流量数据进行聚类,以 拆分不同数据模型。由于历史每家店铺每天的客流量总体呈现周 期性,以周为单位,如图2所示。由于一些法定节日的存在,亦 或天气,店铺活动等特殊原因,其中也存在一些异常的高峰区段 和低峰区段,但是总体呈现的是以周为单位的周期性趋势。所以 将原始数据进行以七天为时间步长形成分组,每家店铺分别对应 历史日期内每天的分组数据,此时将原始流量数据,即表1customer替换成时间步长数据,并标记星期特征。例如,40店在 2017-01-01的customer为记录当天(假设为700)以及前六天的 流量数据,假设前六天流量数据按日期升序分别为100,200……,600,则此刻customer为[100,200…600,700]。
在一个实施例中,所述流量数据按照时间特征分成多个时间序 列数据之前例如进行进行缺失值填补。因为某些原因,某些店铺 存在某天没有客流量记录,由于数据量极少,所以可认为当天用 客流量为0。经过对原数据的初步处理,得到如表2所示的数据格式,和表1相比,增加了属性day_of_week(即每周的周几,如周 四对应的数字是4)。
表2初步处理之后的数据
record_day store_id customer day_of_week
2017/1/1 40 [100,200,300...700] 4
2017/1/2 96 [100,200,300...700] 5
2017/1/1 76 [100,200,300...700] 4
2017/1/2 601 [100,200,300...700] 5
2017/1/3 73 [100,200,300...700] 6
在一个实施例中,将上述分解之后的数据进行聚类处理, K-means聚类算法簇的个数为6类,初始簇中心的获取方法为 k-means++,获取初始簇中心的更迭次数为12次初始质心。将上 述流量数据输入聚类模型,返回六类time_labels(即时间标签) 及模型数据,此处time_labels为0-5的整数,将店铺id、日期与 时间标签进行逐条匹配,得到每个聚类模型下对应的 label_store_dict(即相应店铺id)及label_day_dict(即对应日期)。 表3展示了聚类处理之后各个模型流量数据的格式。之后分别对 每个模型进行特征提取,适用于S108-S110。
表3聚类处理之后的各个模型流量数据
time_labels label_day_dict label_store_dict customer
0 2017/1/1 40 1135
1 2017/1/2 96 570
2 2017/1/1 76 24
3 2017/1/2 601 22
4 2017/1/3 73 123
5 2017/1/2 40 234
在S108中,通过基本统计学算法与所述聚类之后各个模型的 数据,获取pre_7_tar_his_mean_var(即目标时间点历史前7天流 量均值和方差);获取pre_3_tar_addrate(即目标时间点历史前3 天的增长率);获取pre_7_tar_addrate_mean_var(即目标时间点历史前7天增长率的均值和方差);获取pre_3_tar_accele_his(目 标时间点历史前3天的加速度);获取 pre_7_tar_accele_his_mean_var(即目标时间点历史前7天的加速 度的均值和方差),以上所有统计值的由来均由同一店铺全部原 始数据得到。
在S110中,通过小波变换算法对所述当天及前六天流量数据 进行分解处理,以获取时间序列子波。包括:通过离散小波变换 算法对所述每个时间步长进行分解处理,以获取时间序列子波。 所述离散小波变换算法的分解层数为2层;母小波为Daubechies 小波簇中的db2小波;以及边界扩展函数为zero-padding。
特征提取的方法有多种,大概分为四类:基于基本统计方法 的特征提取,基于模型的特征提取,基于分形维数的特征提取和 基于变换的特征提取。小波变换分为两种:连续小波变换(CWT) 和离散小波变换(DWT)。DWT(离散小波变换)是基于线性变 换的特征提取,表示时间序列的时间尺度以及他们的关系,用来 分析包含非平稳的时间序列。小波分析的优点是(能够得到)允 许使用长时间间隔的低频信息和短时间间隔的高频信息,并且能 够揭示数据的特点,诸如趋势,故障点和其他信号分析技术可能 会错过的(丢失)不连续性。另一个优点是根据研究的时间序列 的特点可以灵活的选择母小波。离散小波变换的定义式如下:
Figure BDA0001805933670000081
其中,Ψ是小波变换函数,t表示时间,γ表示在整个时间序列 中小波的变换因子(时间步长),s表示尺度因子,j表示膨胀系 数且为整数,k决定着变换且为整数,s0是被指定且固定的膨胀步 长,其值大于1,γ0表示局部系数,其值必须大于0。
DWT是通过两个互补的滤波器(高频波和低频波)将原始波 形分解成两种波形:近似波形Approximations(A)and细节波 Details(D)。近似波形是高尺度、低频率的分量;细节波是低尺度、 高频率的分量。一般认为低频的近似波是代表波形的同一性,而 高频的细节波代表着波形的细微变化,两者缺一不可。DWT的过 程是一个迭代的分解过程。如果分解层数大于1,那么从第二层开 始就对近似波形继续分解。因此一个原始波形经过DWT之后会产 生很多高频细节波,而只有一个低频近似波。
在一个实施例中,按照时间步长(即七天)得到每个店铺用 户客流量在整个时间段某一天时间步长内的数据。之后所有小波 变换中的离散小波变换对这些时间序列子集进行分解得到一个近 似波(A)和多个细节波(D)。可例如,设定DWT模型的一些 配置参数,母小波是Daubechies小波簇(Daubechies wavelets)中 的db2,根据时间序列子集的长度设定分解层数是2,边界扩展函 数使用的是zero-padding。绑定上述配置参数到DWT模型,之后 对原时间序列波形进行分解处理,得到的时间序列子波用作特征。 如表4所示,基于小波变换提取特征方法得到的特征集数据格式, 其中的属性store_id和day_of_week不用于训练,仅作为识别标签。
表4离散小波变换分解后的子波特征集数据格式
store_id day_of_week_ w0 w1 w2 ···
1 1 -60.52715344 480.229347 633.6039154 ···
1 2 -55.22629175 341.5180818 708.8183392 ···
在S112中,对S108-S110得到特征进行归一化处理。
在S114中,将所述时间序列子波,所述均值与所述方差等作 为特征值输入预测模型中,以获取所述店铺在预定时间段中的流 量数据预测值。包括:获取所述用户在未来一个月中的流量数据 预测值;所述流量数据预测值包括未来一个月中每一天的流量数 据。在本实施例中,预测模型可例如为通过梯度提升回归(GBR, Gradient boostingregression)训练之后建立的模型。
梯度提升回归(Gradient boosting regression,GBR)是一种从 它的错误中进行学习的技术。它本质上就是集思广益,集成一堆 较差的学习算法进行学习。有两点需要注意:每个学习算法准备 率都不高,但是它们集成起来可以获得很好的准确率。这些学习 算法依次应用,也就是说每个学习算法都是在前一个学习算法的 错误中学习。GBR算是一种集成模型因为它是一个集成学习算法。 这种称谓的含义是指GBR用许多较差的学习算法组成了一个更 强大的学习算法,GBR的置信区间更小,数据更集中,因此其拟 合效果更好。
根据本发明的用于数据预测的方法,通过聚类算法得到6类模 型,再针对各个模型进行,小波变化算法及基本统计学方法由历 史数据中提取特征值,然后将该特征数据输入由GBR训练后建立 的预测模型中的方式,进而预测未来客流量,能够对未来客流量 进行有效预测,并对商家经营模式起到指导意义。而且,通过聚 类以及离散小波变换的方式,降低了基本统计学上的预测难度。
应清楚地理解,本发明描述了如何形成和使用特定示例,但 本发明的原理不限于这些示例的任何细节。相反,基于本发明公 开的内容的教导,这些原理能够应用于许多其它实施例。
根据本发明的用于数据预测的方法,通过对一个地区中所述 店铺的客流量进行预测汇总,进而获取总客流量的方式,可以对 无人超市的经营模式产生指导意义。
在本公开的一种示例性实施例中,所述流量数据还包括:电 量数据。在一个实施例中,可例如通过上述方法对商家用户的用 电量数据进行分析预测,进而获取用户未来每天的用电量数据。
在本公开的一种示例性实施例中,还包括:通过店铺的历史客 流量数据对与梯度提升回归进行训练,获得所述预测模型。还包 括:在训练所述模型时,使用不同统计度量准则验证每种模型的 性能,这次研究采用的统计度量准则有:平均误差(MSE)。误 差统计度量准则定义公式如下所示:
Figure BDA0001805933670000101
其中,N是预测统计天数,yi是观察值,
Figure BDA0001805933670000102
是第i天的预测值。
表5在预测阶段,各个店铺的误差均值
Figure BDA0001805933670000111
图3和图4展示的是5家店铺的预测值和观察值比较结果。 我们可以看出本申请中的预测结果和观察值趋势接近且数值相差 极少,而且优势明显。
本领域技术人员可以理解实现上述实施例的全部或部分步骤 被实现为由CPU执行的计算机程序。在该计算机程序被CPU执 行时,执行本发明提供的上述方法所限定的上述功能。所述的程 序可以存储于一种计算机可读存储介质中,该存储介质可以是只 读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施 例的方法所包括的处理的示意性说明,而不是限制目的。易于理 解,上述附图所示的处理并不表明或限制这些处理的时间顺序。 另外,也易于理解,这些处理可以是例如在多个模块中同步或异 步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。 对于本发明装置实施例中未披露的细节,请参照本发明方法实施 例。
图5是根据一示例性实施例示出的一种用于数据处理的装置 的框图。用于数据预测的装置包括:数据模块502,聚类拆分模块 504,基本统计学特征模块506,小波模块508,预测模块510。
数据模块502获取同一店铺的流量数据,所述流量数据包括 客流量数据。流量数据中包含多个店铺的客流量数据,将每一个 店铺的数据分别提取出来以便后续处理。
聚类拆分模块504将所述流量数据通过聚类获得6类数据。 各个模型包括不同店铺不同日期的流量数据。
特征模块506通过基本统计学方法与所述多个模型数据,计 算所述流量数据的均值与方差。通过所述多个模型数据分别计算 所述流量数据的均值与方差;将所述均值与所述方差作为所述流 量数据的特征值。
小波模块508用于通过小波变换算法对所述多个时间序列数 据(即时间步长)进行分解处理,以获取时间序列子波。通过离 散小波变换算法对所述多个时间序列数据进行分解处理,以获取 时间序列子波。所述离散小波变换算法的分解层数为2层;母小 波为Daubechies小波簇中的db2小波;以及边界扩展函数为 zero-padding。
预测模块510将所述时间序列子波,所述均值与所述方差等 作为特征值输入预测模型中,以获取所述店铺在预定时间段中的 流量数据预测值。在本实施例中,预测模型可例如为通过梯度提 升回归训练之后建立的模型。
用于数据预测的装置还包括:训练模块(图中未示出)用于 通过店铺的历史流量数据对与梯度提升回归进行训练,获得所述 预测模型。
根据本发明的用于数据预测的装置,通过聚类算法获得各个 数据模型,通过小波变化算法由历史数据中提取特征值,然后将 该特征数据输入预测模型中预测未来店铺客流量的方式,能够对 未来客流量进行有效预测,并指导商家经营模式。而且,通过聚 类算法和离散小波变换的方式,降低了基本统计学上的预测难度。
图6是根据一示例性实施例示出的一种电子设备的框图。
下面参照图6来描述根据本发明的这种实施方式的电子设备 200。图6显示的电子设备200仅仅是一个示例,不应对本发明实 施例的功能和使用范围带来任何限制。
如图6所示,电子设备200以通用计算设备的形式表现。电 子设备200的组件可以包括但不限于:至少一个处理单元210、至 少一个存储单元220、连接不同系统组件(包括存储单元220和处 理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被 所述处理单元210执行,使得所述处理单元210执行本说明书上 述电子处方流转处理方法部分中描述的根据本发明各种示例性实 施方式的步骤。例如,所述处理单元210可以执行如图1中所示 的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质, 例如随机存取存储单元(RAM)2201和/或高速缓存存储单元 2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模 块2205的程序/实用工具2204,这样的程序模块2205包括但不限 于:操作系统、一个或者多个应用程序、其它程序模块以及程序 数据,这些示例中的每一个或某种组合中可能包括网络环境的实 现。
总线230可以为表示几类总线结构中的一种或多种,包括存 储单元总线或者存储单元控制器、外围总线、图形加速端口、处 理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、 指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能 与该电子设备200交互的设备通信,和/或与使得该电子设备200 能与一个或多个其它计算设备进行通信的任何设备(例如路由器、 调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口 250进行。并且,电子设备200还可以通过网络适配器260与一个 或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与 电子设备200的其它模块通信。应当明白,尽管图中未示出,可 以结合电子设备200使用其它硬件和/或软件模块,包括但不限于: 微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID 系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解, 这里描述的示例实施方式可以通过软件实现,也可以通过软件结 合必要的硬件的方式来实现。因此,根据本公开实施方式的技术 方案可以以软件产品的形式体现出来,该软件产品可以存储在一 个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中 或网络上,包括若干指令以使得一台计算设备(可以是个人计算 机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
图7示意性示出本公开示例性实施例中一种计算机可读存储 介质示意图。
参考图7所示,描述了根据本发明的实施方式的用于实现上 述方法的程序产品700,其可以采用便携式紧凑盘只读存储器 (CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上 运行。然而,本发明的程序产品不限于此,在本文件中,可读存 储介质可以是任何包含或存储程序的有形介质,该程序可以被指 令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可 读介质可以是可读信号介质或者可读存储介质。可读存储介质例 如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、 装置或器件,或者任意以上的组合。可读存储介质的更具体的例 子(非穷举的列表)包括:具有一个或多个导线的电连接、便携 式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑 盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的 任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一 部分传播的数据信号,其中承载了可读程序代码。这种传播的数 据信号可以采用多种形式,包括但不限于电磁信号、光信号或上 述的任意合适的组合。可读存储介质还可以是可读存储介质以外 的任何可读介质,该可读介质可以发送、传播或者传输用于由指 令执行系统、装置或者器件使用或者与其结合使用的程序。可读 存储介质上包含的程序代码可以用任何适当的介质传输,包括但 不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行 本发明操作的程序代码,所述程序设计语言包括面向对象的程序 设计语言—诸如Java、C++等,还包括常规的过程式程序设计语 言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地 在用户计算设备上执行、部分地在用户设备上执行、作为一个独 立的软件包执行、部分在用户计算设备上部分在远程计算设备上 执行、或者完全在远程计算设备或服务器上执行。在涉及远程计 算设备的情形中,远程计算设备可以通过任意种类的网络,包括 局域网(LAN)或广域网(WAN),连接到用户计算设备,或者, 可以连接到外部计算设备(例如利用因特网服务提供商来通过因 特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个 或者多个程序被一个该设备执行时,使得该计算机可读介质实现 如下功能:获取同一店铺的流量数据,所述流量数据包括客流量 数据;将所述流量数据按照时间特征和店铺特征进行序列化形成多个时间序列;通过聚类算法对历史数据进行聚类;通过基本统计学 算法与所述多个时间序列数据,计算所述流量数据的均值方差增长 率等;通过小波变换算法对所述多个时间序列数据进行分解处理, 以获取时间序列子波;以及将所述时间序列子波,所述均值与所述 方差及所述增长率作为特征值输入预测模型中,以获取所述用户在 预定时间段中的流量数据预测值。
本领域技术人员可以理解上述各模块可以按照实施例的描述 分布于装置中,也可以进行相应变化唯一不同于本实施例的一个 或多个装置中。上述实施例的模块可以合并为一个模块,也可以 进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这 里描述的示例实施例可以通过软件实现,也可以通过软件结合必 要的硬件的方式来实现。因此,根据本发明实施例的技术方案可 以以软件产品的形式体现出来,该软件产品可以存储在一个非易 失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络 上,包括若干指令以使得一台计算设备(可以是个人计算机、服 务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。
以上具体地示出和描述了本发明的示例性实施例。应可理解 的是,本发明不限于这里描述的详细结构、设置方式或实现方法; 相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各 种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等, 均仅用以配合说明书所公开的内容,以供本领域技术人员了解与 阅读,并非用以限定本公开可实施的限定条件,故不具技术上的 实质意义,任何结构的修饰、比例关系的改变或大小的调整,在 不影响本公开所能产生的技术效果及所能实现的目的下,均应仍 落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明 书中所引用的如“上”、“第一”、“第二”及“一”等的用语, 也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其 相对关系的改变或调整,在无实质变更技术内容下,当也视为本 发明可实施的范畴。

Claims (4)

1.一种基于K-means聚类算法及离散小波变换的无人超市客流量预测方法,其特征在于,包括:
获取每个店铺的流量数据,所述流量数据包括店铺客流量数据;将所述流量数据按照时间以及店铺特征分解成每家店铺每天客流量数据,进行序列化;具体为:按店铺按日期形成唯一性的流量数据,并标记每天的星期特征,并将每家店铺的流量数据按照日期升序排列,形成多个时间序列数据,即预测店铺客流量数据;
通过K-means聚类算法对流量数据进行聚类,以拆分成多个类中心的多个类;包括:将所述流量数据以七天为时间步长,取当天日期前六天数据组合成七天为一个分组的流量数据,该分组对应当天日期以及所属店铺,将每一个店铺的数据划分为多个数据组,将每一个数据组做为特征向量,用于后续聚类;
将分解之后的数据输入K-means算法进行聚类;所述K-means聚类算法簇的个数为6类,初始簇中心的获取方法为k-means++,获取初始簇中心的更迭次数为12次初始质心;
通过基本统计学算法与所述聚类之后各个类的数据,计算各个类流量数据的均值与方差,以及增长率加速度等基本统计学特征;
通过小波变换算法对所述预测店铺客流量数据进行分解处理,以获取时间序列子波;以及将所述时间序列子波,所述均值,所述方差值与所述增长率值及所述加速度值进行归一化处理,最后作为特征输入提升树预测模型中进行训练,以获取所述店铺在预测时间段中的流量数据预测值。
2.如权利要求1所述的基于K-means聚类算法及离散小波变换的无人超市客流量预测方法,其特征在于,所述获取所述店铺在预定时间段中的流量数据预测值,包括:获取所述店铺在未来一个月中的流量数据预测值;所述流量数据预测值包括未来一个月中每一天的流量数据。
3.如权利要求1所述的基于K-means聚类算法及离散小波变换的无人超市客流量预测方法,其特征在于,所述通过基本统计学算法与所述多个时间序列数据,计算聚类之后流量数据的均值与方差,以及增长率加速度等基本统计学特征,包括:获取目标时间点历史前7天流量均值和方差;获取目标时间点历史前3天的增长率;获取目标时间点历史前7天增长率的均值和方差;获取目标时间点历史前3天的加速度;获取目标时间点历史前7天的加速度的均值和方差。
4.如权利要求1所述的基于K-means聚类算法及离散小波变换的无人超市客流量预测方法,其特征在于,所述通过小波变换算法对所述预测店铺客流量数据进行分解处理,以获取时间序列子波,包括:通过离散小波变换算法对所述多个时间序列数据进行分解处理,以获取时间序列子波。
CN201811097765.6A 2018-09-20 2018-09-20 基于K-means聚类算法及离散小波变换的无人超市客流量预测方法 Active CN109325805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811097765.6A CN109325805B (zh) 2018-09-20 2018-09-20 基于K-means聚类算法及离散小波变换的无人超市客流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811097765.6A CN109325805B (zh) 2018-09-20 2018-09-20 基于K-means聚类算法及离散小波变换的无人超市客流量预测方法

Publications (2)

Publication Number Publication Date
CN109325805A CN109325805A (zh) 2019-02-12
CN109325805B true CN109325805B (zh) 2022-03-11

Family

ID=65265283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811097765.6A Active CN109325805B (zh) 2018-09-20 2018-09-20 基于K-means聚类算法及离散小波变换的无人超市客流量预测方法

Country Status (1)

Country Link
CN (1) CN109325805B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298515A (zh) * 2019-07-03 2019-10-01 山东浪潮人工智能研究院有限公司 基于残差思想的钢卷仓储吞吐时间序列预测方法及系统
CN110796478A (zh) * 2019-09-25 2020-02-14 上海汇纳数据科技有限公司 一种基于客流量的店铺预警方法、系统、介质及设备
CN112329635B (zh) * 2020-11-06 2022-04-29 北京文安智能技术股份有限公司 店铺客流统计方法和店铺客流统计装置
CN114359774B (zh) * 2021-11-17 2023-04-07 山东省国土测绘院 行人移动模式分类方法、装置及电子设备
CN114463054B (zh) * 2022-01-21 2023-07-18 浪潮卓数大数据产业发展有限公司 基于一卡通的园区门店客流量预测方法及系统
CN117273246B (zh) * 2023-11-23 2024-02-06 湖南小翅科技有限公司 一种基于ai的智能排班大数据预测系统与方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899650A (zh) * 2015-05-26 2015-09-09 成都中科大旗软件有限公司 基于多源数据分析对旅游景区客流量进行预测的方法
CN107291897A (zh) * 2017-06-21 2017-10-24 浙江工商大学 一种基于小波衰减概要树的时间序列数据流聚类方法
CN107480471A (zh) * 2017-07-19 2017-12-15 福建师范大学 基于小波变换为特征的序列相似性分析的方法
CN107895283A (zh) * 2017-11-07 2018-04-10 重庆邮电大学 一种基于时间序列分解的商家客流量大数据预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487523B2 (en) * 1999-04-07 2002-11-26 Battelle Memorial Institute Model for spectral and chromatographic data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899650A (zh) * 2015-05-26 2015-09-09 成都中科大旗软件有限公司 基于多源数据分析对旅游景区客流量进行预测的方法
CN107291897A (zh) * 2017-06-21 2017-10-24 浙江工商大学 一种基于小波衰减概要树的时间序列数据流聚类方法
CN107480471A (zh) * 2017-07-19 2017-12-15 福建师范大学 基于小波变换为特征的序列相似性分析的方法
CN107895283A (zh) * 2017-11-07 2018-04-10 重庆邮电大学 一种基于时间序列分解的商家客流量大数据预测方法

Also Published As

Publication number Publication date
CN109325805A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN109325805B (zh) 基于K-means聚类算法及离散小波变换的无人超市客流量预测方法
US10025753B2 (en) Computer-implemented systems and methods for time series exploration
US11036766B2 (en) Time series analysis using a clustering based symbolic representation
CN106960219B (zh) 图片识别方法及装置、计算机设备及计算机可读介质
Bokde et al. Analysis of differencing and decomposition preprocessing methods for wind speed prediction
US9244887B2 (en) Computer-implemented systems and methods for efficient structuring of time series data
CN107357874B (zh) 用户分类方法及装置、电子设备、存储介质
US8631040B2 (en) Computer-implemented systems and methods for flexible definition of time intervals
Zolhavarieh et al. A review of subsequence time series clustering
US10176246B2 (en) Fast grouping of time series
CN108399564B (zh) 信用评分方法及装置
US20130204831A1 (en) Identifying associations in data
Zhang et al. Decomposition methods for tourism demand forecasting: A comparative study
CN110020739B (zh) 用于数据处理的方法、装置、电子设备及计算机可读介质
CN110796159A (zh) 基于k-means算法的电力数据分类方法及系统
Sawalha et al. Towards an efficient big data management schema for IoT
Elsa Shaji et al. Evaluation of clustering algorithms for the prediction of trends in bus travel time
JP7217074B2 (ja) 電力需給管理システム、電力需給管理方法、および電力需給管理装置
CN116739649A (zh) 一种用户响应潜力评估方法和装置
CN111311292A (zh) 一种用户分类方法和系统
CN114817572A (zh) 基于知识图谱的知识分类方法、系统、设备及介质
Li et al. Driving cycle prediction based on Markov chain combined with driving information mining
CN111400375A (zh) 一种基于财务业务数据商机挖掘方法及装置
Kegel Feature-based time series analytics
CN116402553B (zh) 广告效果评估方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant