CN110852767A - 客流量聚类方法及终端设备 - Google Patents

客流量聚类方法及终端设备 Download PDF

Info

Publication number
CN110852767A
CN110852767A CN201810950041.5A CN201810950041A CN110852767A CN 110852767 A CN110852767 A CN 110852767A CN 201810950041 A CN201810950041 A CN 201810950041A CN 110852767 A CN110852767 A CN 110852767A
Authority
CN
China
Prior art keywords
passenger flow
stores
curves
similarity
flow curves
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810950041.5A
Other languages
English (en)
Inventor
吴己强
李嘉音
刘冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
TCL Research America Inc
Original Assignee
TCL Research America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Research America Inc filed Critical TCL Research America Inc
Priority to CN201810950041.5A priority Critical patent/CN110852767A/zh
Publication of CN110852767A publication Critical patent/CN110852767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明适用于数据处理技术领域,提供了一种客流量聚类方法及终端设备,所述方法包括:对多个门店在预设时间段内客流量的曲线进行归一化处理;对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合;根据拟合后多个门店的客流量曲线,确定任意两个门店的客流量曲线的模型相似度;根据归一化处理后的多个门店的客流量曲线,确定任意两个门店的客流量曲线的形状相似度;根据模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线的混合相似度;根据混合相似度对多个门店的客流量曲线进行聚类,不仅考虑客流量曲线形状的相似性,还考虑产生曲线形状的潜在因素,聚集出有效类别,为门店销售、经营和管理提供决策依据。

Description

客流量聚类方法及终端设备
技术领域
本发明属于数据处理技术领域,尤其涉及一种客流量聚类方法及终端设备。
背景技术
门店客流量是衡量一个线下商店的重要指标,代表了门店的活跃度以及潜在的商业价值。门店客流量是一个随时间变化的曲线,同一个门店在不同时间段的客流量可能有很大波动,而这种时间维度上的动态变化反映了该门店在不同时间段的活跃度。
门店客流量聚类是指通过研究分析,把客流量变化曲线相似的门店聚类在一起。通过客流量聚类,可以把门店按客流量变化特征分成特定的几大类,从而进行后续的进一步分析。
现有的客流量聚类方法主要有两种:空间聚类法和时间聚类法,但都存在不足:
空间聚类法:把T个时间点,例如T天,客流量曲线,看作是T维欧式空间上的点,然后采用已有的空间聚类算法聚类。这种方法的缺点是,在实际情况中,时间序列维度太高(即T太大),空间聚类法不易收敛,从而无法聚集出有效类别;
时间聚类法:根据客流量曲线的形状,计算两两曲线的形状距离,然后应用已有的聚类算法聚类。这种方法的缺点是,只考虑了客流量曲线形状的相似性,而忽略了产生该曲线形状的潜在因素。
发明内容
有鉴于此,本发明实施例提供了一种客流量聚类方法及终端设备,不仅考虑客流量曲线形状的相似性,还考虑产生曲线形状的潜在因素,聚集出有效类别,为门店销售、经营和管理提供决策依据。
本发明实施例的第一方面提供了一种客流量聚类方法,包括:
分别对多个门店在预设时间段内的客流量曲线进行归一化处理;
分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合;
根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度;
根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度;
根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度;
根据获得的混合相似度对多个门店的客流量曲线进行聚类。
本发明实施例的第二方面提供了一种客流量聚类装置,包括:
归一化处理单元,用于分别对多个门店在预设时间段内的客流量曲线进行归一化处理;
模型拟合单元,用于分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合;
模型相似度确定单元,用于根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度;
形状相似度确定单元,用于根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度;
混合相似度获得单元,用于根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度;
客流量曲线聚类单元,用于根据获得的混合相似度对多个门店的客流量曲线进行聚类。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例不仅考虑客流量曲线形状的相似性,还考虑产生曲线形状的潜在因素,即根据客流量曲线的模型相似度和形状相似度,获得客流量曲线的混合相似度,根据获得的混合相似度对多个门店的客流量曲线进行聚类,聚集出有效类别,使同一类中的客流量曲线相似,不同类间的客流量曲线差异很大,从而发现相似门店,研究相似门店的客流特征,为门店销售、经营和管理提供决策依据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种客流量聚类方法的示意流程图;
图2是本发明另一实施例提供的一种客流量聚类方法的示意流程图;
图3是本发明再一实施例提供的一种客流量聚类方法的示意流程图;
图4是本发明实施例提供的一种客流量聚类装置的示意性框图;
图5是本发明另一实施例提供的一种客流量聚类装置示意性框图;
图6是本发明实施例提供的一种终端设备的示意性框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
参见图1,图1是本发明实施例提供的一种客流量聚类方法的示意流程图,在该实施例中,以终端的角度触发为例进行说明,这里,终端可以为智能手机、平板电脑等移动终端。如图1所示,在该实施例中,终端的处理过程可以包括以下步骤:
S101:分别对多个门店在预设时间段内的客流量曲线进行归一化处理。
这里,可以获取N个门店的客流量曲线,预设时间段可以为A年B月C日至D年E月F日,共计T天,每条曲线以天为单位,其中,N和T均为正整数。具体地,获取多个门店在预设时间段内的客流量曲线的方式可以包括:在上述预设时间段内实时发送客流量获取请求至上述多个门店,接收上述多个门店返回的客流量数据,根据接收的上述多个门店的客流量数据,分别生成上述多个门店的在上述预设时间段内的客流量曲线。其中,上述多个门店为任意两个或两个以上门店,即所有门店中的任意两个或以上门店。
对于某个门店的客流量曲线y1,y2,...,yT,可以取其最大值,ymax=max{y1,y2,...,yT}。然后,对曲线进行归一化处理,得到归一化后的曲线z1,z2,...,zT,其中,
Figure BDA0001771257920000041
x=1,2,...,T。
S102:分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合。
具体地,对于归一化后的客流量曲线z1,z2,...,zT,可以采用标准的ARIMA(p,d,q)时间序列模型对其拟合。ARIMA模型包含三个预定参数,p,d,q。这里,可以设置p=5,d=1,q=5。其中,ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。
客流量曲线可用ARIMA(p,d,q)模型拟合后的参数表示,例如上述p=5,q=5,共有p+q=10个参数。所以,第j个门店的客流量曲线的参数用aj1,aj2,aj3,aj4,aj5,aj6,aj7,aj8,aj9,aj10共10个参数表示。
S103:根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度。
这里,对于两个门店的客流量曲线,如第i个和第j个门店的客流量曲线,计算客流量曲线之间的模型相似度sij为:
Figure BDA0001771257920000051
其中sij取值范围为-1至1之间的实数。
S104:根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度。
具体地,对于第i个和第j个门店的客流量曲线,上述已得出它们的归一化曲线,分别为zi1,zi2,...,ziT和zj1,zj2,...,zjT,计算其形状相似度cij为:
cij=max-T≤m≤T{dij(m)}
其中
Figure BDA0001771257920000052
S105:根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度。
这里,对于第i个和第j个门店的客流量曲线,根据上述计算出的模型相似度sij,和形状相似度cij,计算混合相似度rij
Figure BDA0001771257920000061
S106:根据获得的混合相似度对多个门店的客流量曲线进行聚类。
具体地,可以把上述确定的客流量曲线混合相似度作为距离指标,采用聚类算法,例如K-means聚类算法,把N个分店分成K类,使得同一类的门店客流量曲线相似度很大,而不同类之间的门店客流量曲线相似度很小。
从以上描述可知,本发明实施例客流量聚类方法,不仅考虑客流量曲线形状的相似性,还考虑产生曲线形状的潜在因素,即根据客流量曲线的模型相似度和形状相似度,获得客流量曲线的混合相似度,根据获得的混合相似度对多个门店的客流量曲线进行聚类,聚集出有效类别,使同一类中的客流量曲线相似,不同类间的客流量曲线差异很大,从而发现相似门店,研究相似门店的客流特征,为门店销售、经营和管理提供决策依据。
请参阅图2,图2是本发明另一实施例提供的一种客流量聚类方法的示意流程图。与图1对应的实施例的区别在于:所述分别对多个门店在预设时间段内的客流量曲线进行归一化处理可以包括S201。其中S202~S206与上一实施例中的S102~S106相同,具体请参阅上述实施例中S102~S106的相关描述,此处不赘述。具体地,S201可以包括S2011~S2012:
S2011:获取目标门店在预设时间段内的客流量最大值,所述目标门店为多个门店中的任意一个门店。
S2012:根据所述客流量最大值对所述目标门店在预设时间段内的客流量曲线进行归一化处理。
这里,通过对多个门店预设时间段内的客流量曲线进行归一化处理,方便后续处理,适合应用。
此外,在一个具体示例中,所述分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合包括:
采用ARIMA(p,d,q)分别对归一化处理后的多个门店的客流量曲线进行拟合,其中,p为自回归项,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
此外,在一个具体示例中,所述根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度包括:
根据表达式
Figure BDA0001771257920000071
确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的模型相似度sij,其中,aik为第i个门店拟合后的客流量曲线,ajk为第j个门店拟合后的客流量曲线。
这里,首先计算第i个门店的客流量曲线和第j个门店的客流量曲线的乘积,然后计算第i个门店的客流量曲线的平方和,以及第j个门店的客流量曲线的平方和,最后根据上述计算得到的客流量曲线的乘积和客流量曲线的平方和计算第i个门店的客流量曲线和第j个门店的客流量曲线之间的模型相似度sij,计算过程简单,计算结果准确,适合应用。
此外,在一个具体示例中,所述预设时间段为T天,T为正整数;
所述根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度包括:
根据表达式cij=max-T≤m≤T{dij(m)}确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的形状相似度cij,其中,
Figure BDA0001771257920000072
zik为归一化处理后第i个门店的客流量曲线,zjk为归一化处理后第j个门店的客流量曲线。
这里,计算归一化处理后第i个门店的客流量曲线和第j个门店的客流量曲线的乘积,获取计算得到的客流量曲线的乘积最大值,根据获取的最大值确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的形状相似度cij,考虑了客流量曲线形状的相似性,使后续聚类结果更准确。
此外,在一个具体示例中,所述预设时间段为T天,T为正整数;
所述根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度包括:
根据表达式
Figure BDA0001771257920000081
确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的混合相似度rij,其中,sij为第i个门店的客流量曲线和第j个门店的客流量曲线之间的模型相似度,cij为第i个门店的客流量曲线和第j个门店的客流量曲线之间的形状相似度。
这里,不仅考虑客流量曲线形状的相似性,还考虑产生曲线形状的潜在因素,即根据客流量曲线的模型相似度和形状相似度,获得客流量曲线的混合相似度,根据获得的混合相似度对多个门店的客流量曲线进行聚类,聚集出有效类别,满足实际需要。
请参阅图3,图3是本发明再一实施例提供的一种客流量聚类方法的示意流程图。与图1对应的实施例的区别在于:所述根据获得的混合相似度对多个门店的客流量曲线进行聚类可以包括S306。其中S301~S305与上一实施例中的S101~S105相同,具体请参阅上述实施例中S101~S105的相关描述,此处不赘述。具体地,S306可以包括S3061~S3064:
S3061:从多个门店的客流量曲线中随机选取预设数目个门店的客流量曲线作为质心。
S3062:确定多个门店的客流量曲线中除质心外剩余门店的客流量曲线到每个质心的距离。
S3063:根据确定的距离将剩余门店的客流量曲线聚类到距离其最近的质心。
S3064:根据聚类结果确定各类的质心,若确定的质心与选取的质心之间的距离大于距离指标,则将确定的质心作为新的质心,重新执行所述确定多个门店的客流量曲线中除质心外剩余门店的客流量曲线到每个质心的距离的步骤,所述距离指标根据获得的混合相似度确定。
具体地,迭代步骤S3062~S3063步直至确定的质心与选取的质心之间的距离等于或小于距离指标,算法结束。
这里,把上述确定的客流量曲线的混合相似度作为距离指标,应用聚类算法,把N个分店分成K类,使得同一类的门店客流量曲线相似度很大,而不同类之间的门店客流量曲线相似度很小。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的客流量聚类方法,图4示出了本发明实施例提供的一种客流量聚类装置的示意性框图。本实施例的客流量聚类装置400包括的各单元用于执行图1对应的实施例中的各步骤,具体请参阅图1及图1对应的实施例中的相关描述,此处不赘述。本实施例的客流量聚类装置400包括归一化处理单元401、模型拟合单元402、模型相似度确定单元403、形状相似度确定单元404、混合相似度获得单元405和客流量曲线聚类单元406。
其中,归一化处理单元401,用于分别对多个门店在预设时间段内的客流量曲线进行归一化处理。模型拟合单元402,用于分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合。模型相似度确定单元403,用于根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度。形状相似度确定单元404,用于根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度。混合相似度获得单元405,用于根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度。客流量曲线聚类单元406,用于根据获得的混合相似度对多个门店的客流量曲线进行聚类。
从以上描述可知,本发明实施例客流量聚类装置,不仅考虑客流量曲线形状的相似性,还考虑产生曲线形状的潜在因素,即根据客流量曲线的模型相似度和形状相似度,获得客流量曲线的混合相似度,根据获得的混合相似度对多个门店的客流量曲线进行聚类,聚集出有效类别,使同一类中的客流量曲线相似,不同类间的客流量曲线差异很大,从而发现相似门店,研究相似门店的客流特征,为门店销售、经营和管理提供决策依据。
参见图5,图5是本发明另一实施例提供的另一种客流量聚类装置的示意性框图。本实施例的客流量聚类装置500包括归一化处理单元501、模型拟合单元502、模型相似度确定单元503、形状相似度确定单元504、混合相似度获得单元505和客流量曲线聚类单元506。
其中,归一化处理单元501、模型拟合单元502、模型相似度确定单元503、形状相似度确定单元504、混合相似度获得单元505和客流量曲线聚类单元506具体请参阅图4及图4对应的实施例中归一化处理单元401、模型拟合单元402、模型相似度确定单元403、形状相似度确定单元404、混合相似度获得单元405和客流量曲线聚类单元406的相关描述,此处不赘述。
进一步的,所述归一化处理单元501包括最大值获取单元5011和曲线归一化单元5012。
其中,最大值获取单元5011,用于获取目标门店在预设时间段内的客流量最大值,所述目标门店为多个门店中的任意一个门店。
曲线归一化单元5012,用于根据所述客流量最大值对所述目标门店在预设时间段内的客流量曲线进行归一化处理。
进一步的,所述模型拟合单元502,还用于采用ARIMA(p,d,q)分别对归一化处理后的多个门店的客流量曲线进行拟合,其中,p为自回归项,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
所述模型相似度确定单元503,还用于根据表达式
Figure BDA0001771257920000111
确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的模型相似度sij,其中,aik为第i个门店拟合后的客流量曲线,ajk为第j个门店拟合后的客流量曲线。
进一步的,所述预设时间段为T天,T为正整数。
所述形状相似度确定单元504,还用于根据表达式cij=max-T≤m≤T{dij(m)}确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的形状相似度cij,其中,
Figure BDA0001771257920000112
zik为归一化处理后第i个门店的客流量曲线,zjk为归一化处理后第j个门店的客流量曲线。
进一步的,所述预设时间段为T天,T为正整数。
所述混合相似度获得单元505,还用于根据表达式
Figure BDA0001771257920000113
确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的混合相似度rij,其中,sij为第i个门店的客流量曲线和第j个门店的客流量曲线之间的模型相似度,cij为第i个门店的客流量曲线和第j个门店的客流量曲线之间的形状相似度。
进一步的,所述客流量曲线聚类单元506还包括质心选取单元5061、距离确定单元5062和曲线聚类单元5063。
其中,所述质心选取单元5061,用于从多个门店的客流量曲线中随机选取预设数目个门店的客流量曲线作为质心。
所述距离确定单元5062,用于确定多个门店的客流量曲线中除质心外剩余门店的客流量曲线到每个质心的距离。
所述曲线聚类单元5063,用于根据确定的距离将剩余门店的客流量曲线聚类到距离其最近的质心。
所述距离确定单元5062,还用于根据聚类结果确定各类的质心,若确定的质心与选取的质心之间的距离大于距离指标,则将确定的质心作为新的质心,重新执行所述确定多个门店的客流量曲线中除质心外剩余门店的客流量曲线到每个质心的距离的步骤,所述距离指标根据获得的混合相似度确定。
从以上描述可知,本发明实施例不仅考虑客流量曲线形状的相似性,还考虑产生曲线形状的潜在因素,即根据客流量曲线的模型相似度和形状相似度,获得客流量曲线的混合相似度,根据获得的混合相似度对多个门店的客流量曲线进行聚类,聚集出有效类别,使同一类中的客流量曲线相似,不同类间的客流量曲线差异很大,从而发现相似门店,研究相似门店的客流特征,为门店销售、经营和管理提供决策依据。
参见图6,图6是本发明一个实施例提供的一种终端设备的示意框图。如图6所示,该实施例的终端设备60包括:处理器600、存储器601以及存储在所述存储器601中并可在所述处理器600上运行的计算机程序602,例如客流量聚类程序。所述处理器600执行所述计算机程序602时实现上述各个客流量聚类方法实施例中的步骤,例如图1所示的步骤101至106。或者,所述处理器600执行所述计算机程序602时实现上述各装置实施例中各单元的功能,例如图5所示单元501至506的功能。
所述计算机程序602可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器601中,并由所述处理器600执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序602在所述终端设备60中的执行过程。例如,所述计算机程序602可以被分割成归一化处理单元、模型拟合单元、模型相似度确定单元、形状相似度确定单元、混合相似度获得单元和客流量曲线聚类单元,各单元具体功能如下:
分别对多个门店在预设时间段内的客流量曲线进行归一化处理;
分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合;
根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度;
根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度;
根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度;
根据获得的混合相似度对多个门店的客流量曲线进行聚类。
进一步的,所述分别对多个门店在预设时间段内的客流量曲线进行归一化处理包括:
获取目标门店在预设时间段内的客流量最大值,所述目标门店为多个门店中的任意一个门店;
根据所述客流量最大值对所述目标门店在预设时间段内的客流量曲线进行归一化处理。
进一步的,所述分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合包括:
采用ARIMA(p,d,q)分别对归一化处理后的多个门店的客流量曲线进行拟合,其中,p为自回归项,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
所述根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度包括:
根据表达式
Figure BDA0001771257920000141
确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的模型相似度sij,其中,aik为第i个门店拟合后的客流量曲线,ajk为第j个门店拟合后的客流量曲线。
进一步的,所述预设时间段为T天,T为正整数;
所述根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度包括:
根据表达式cij=max-T≤m≤T{dij(m)}确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的形状相似度cij,其中,zik为归一化处理后第i个门店的客流量曲线,zjk为归一化处理后第j个门店的客流量曲线。
进一步的,所述预设时间段为T天,T为正整数;
所述根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度包括:
根据表达式
Figure BDA0001771257920000143
确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的混合相似度rij,其中,sij为第i个门店的客流量曲线和第j个门店的客流量曲线之间的模型相似度,cij为第i个门店的客流量曲线和第j个门店的客流量曲线之间的形状相似度。
进一步的,所述根据获得的混合相似度对多个门店的客流量曲线进行聚类包括:
从多个门店的客流量曲线中随机选取预设数目个门店的客流量曲线作为质心;
确定多个门店的客流量曲线中除质心外剩余门店的客流量曲线到每个质心的距离;
根据确定的距离将剩余门店的客流量曲线聚类到距离其最近的质心;
根据聚类结果确定各类的质心,若确定的质心与选取的质心之间的距离大于距离指标,则将确定的质心作为新的质心,重新执行所述确定多个门店的客流量曲线中除质心外剩余门店的客流量曲线到每个质心的距离的步骤,所述距离指标根据获得的混合相似度确定。
上述方案不仅考虑客流量曲线形状的相似性,还考虑产生曲线形状的潜在因素,即根据客流量曲线的模型相似度和形状相似度,获得客流量曲线的混合相似度,根据获得的混合相似度对多个门店的客流量曲线进行聚类,聚集出有效类别,使同一类中的客流量曲线相似,不同类间的客流量曲线差异很大,从而发现相似门店,研究相似门店的客流特征,为门店销售、经营和管理提供决策依据。
所述终端设备60可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器600、存储器601。本领域技术人员可以理解,图6仅仅是终端设备60的示例,并不构成对终端设备60的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器600可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器601可以是所述终端设备60的内部存储单元,例如终端设备60的硬盘或内存。所述存储器601也可以是所述终端设备60的外部存储设备,例如所述终端设备60上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器601还可以既包括所述终端设备60的内部存储单元也包括外部存储设备。所述存储器601用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器601还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种客流量聚类方法,其特征在于,包括:
分别对多个门店在预设时间段内的客流量曲线进行归一化处理;
分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合;
根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度;
根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度;
根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度;
根据获得的混合相似度对多个门店的客流量曲线进行聚类。
2.如权利要求1所述的客流量聚类方法,其特征在于,所述分别对多个门店在预设时间段内的客流量曲线进行归一化处理包括:
获取目标门店在预设时间段内的客流量最大值,所述目标门店为多个门店中的任意一个门店;
根据所述客流量最大值对所述目标门店在预设时间段内的客流量曲线进行归一化处理。
3.如权利要求1所述的客流量聚类方法,其特征在于,所述分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合包括:
采用ARIMA(p,d,q)分别对归一化处理后的多个门店的客流量曲线进行拟合,其中,p为自回归项,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
4.如权利要求3所述的客流量聚类方法,其特征在于,所述根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度包括:
根据表达式
Figure FDA0001771257910000021
确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的模型相似度sij,其中,aik为第i个门店拟合后的客流量曲线,ajk为第j个门店拟合后的客流量曲线。
5.如权利要求1所述的客流量聚类方法,其特征在于,所述预设时间段为T天,T为正整数;
所述根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度包括:
根据表达式cij=max-T≤m≤T{dij(m)}确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的形状相似度cij,其中,zik为归一化处理后第i个门店的客流量曲线,zjk为归一化处理后第j个门店的客流量曲线。
6.如权利要求1所述的客流量聚类方法,其特征在于,所述预设时间段为T天,T为正整数;
所述根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度包括:
根据表达式
Figure FDA0001771257910000023
确定第i个门店的客流量曲线和第j个门店的客流量曲线之间的混合相似度rij,其中,sij为第i个门店的客流量曲线和第j个门店的客流量曲线之间的模型相似度,cij为第i个门店的客流量曲线和第j个门店的客流量曲线之间的形状相似度。
7.如权利要求1所述的客流量聚类方法,其特征在于,所述根据获得的混合相似度对多个门店的客流量曲线进行聚类包括:
从多个门店的客流量曲线中随机选取预设数目个门店的客流量曲线作为质心;
确定多个门店的客流量曲线中除质心外剩余门店的客流量曲线到每个质心的距离;
根据确定的距离将剩余门店的客流量曲线聚类到距离其最近的质心;
根据聚类结果确定各类的质心,若确定的质心与选取的质心之间的距离大于距离指标,则将确定的质心作为新的质心,重新执行所述确定多个门店的客流量曲线中除质心外剩余门店的客流量曲线到每个质心的距离的步骤,所述距离指标根据获得的混合相似度确定。
8.一种客流量聚类装置,其特征在于,包括:
归一化处理单元,用于分别对多个门店在预设时间段内的客流量曲线进行归一化处理;
模型拟合单元,用于分别对归一化处理后的多个门店的客流量曲线进行时间序列模型拟合;
模型相似度确定单元,用于根据拟合后多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的模型相似度;
形状相似度确定单元,用于根据归一化处理后的多个门店的客流量曲线,确定多个门店的客流量曲线中任意两个门店的客流量曲线之间的形状相似度;
混合相似度获得单元,用于根据确定的模型相似度和形状相似度,获得多个门店的客流量曲线中任意两个门店的客流量曲线之间的混合相似度;
客流量曲线聚类单元,用于根据获得的混合相似度对多个门店的客流量曲线进行聚类。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN201810950041.5A 2018-08-20 2018-08-20 客流量聚类方法及终端设备 Pending CN110852767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810950041.5A CN110852767A (zh) 2018-08-20 2018-08-20 客流量聚类方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810950041.5A CN110852767A (zh) 2018-08-20 2018-08-20 客流量聚类方法及终端设备

Publications (1)

Publication Number Publication Date
CN110852767A true CN110852767A (zh) 2020-02-28

Family

ID=69595639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810950041.5A Pending CN110852767A (zh) 2018-08-20 2018-08-20 客流量聚类方法及终端设备

Country Status (1)

Country Link
CN (1) CN110852767A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269937A (zh) * 2020-11-16 2021-01-26 加和(北京)信息科技有限公司 一种计算用户相似度的方法、系统及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006326A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Representing queries and determining similarity based on an arima model
CN107798871A (zh) * 2017-10-27 2018-03-13 云南大学 一种高速公路收费站交通流量预测方法及系统
CN107895283A (zh) * 2017-11-07 2018-04-10 重庆邮电大学 一种基于时间序列分解的商家客流量大数据预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006326A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Representing queries and determining similarity based on an arima model
CN107798871A (zh) * 2017-10-27 2018-03-13 云南大学 一种高速公路收费站交通流量预测方法及系统
CN107895283A (zh) * 2017-11-07 2018-04-10 重庆邮电大学 一种基于时间序列分解的商家客流量大数据预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
周鸣争: "《大数据导论》", 31 March 2018 *
管河山等: "时间序列挖掘中一种新的相似性度量", 《计算机工程与应用》 *
陈海燕等: "时间序列数据挖掘的相似性度量综述", 《控制与决策》 *
陈湘涛等: "基于时间序列相似性聚类的应用研究综述", 《计算机工程与设计》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269937A (zh) * 2020-11-16 2021-01-26 加和(北京)信息科技有限公司 一种计算用户相似度的方法、系统及装置
CN112269937B (zh) * 2020-11-16 2024-02-02 加和(北京)信息科技有限公司 一种计算用户相似度的方法、系统及装置

Similar Documents

Publication Publication Date Title
CN111507470A (zh) 一种异常账户的识别方法及装置
CN110347888B (zh) 订单数据的处理方法、装置及存储介质
CN110110226B (zh) 一种推荐算法、推荐系统及终端设备
WO2023103527A1 (zh) 一种访问频次的预测方法及装置
CN112116225A (zh) 装备系统的作战效能评估方法、装置和存储介质
CN110969172A (zh) 一种文本的分类方法以及相关设备
CN111798047A (zh) 风控预测方法、装置、电子设备及存储介质
CN106327236B (zh) 一种确定用户行动轨迹的方法及装置
CN114912720A (zh) 基于记忆网络电力负荷预测方法、装置、终端及存储介质
CN110852767A (zh) 客流量聚类方法及终端设备
Yan et al. Fast communication-efficient spectral clustering over distributed data
CN111679959A (zh) 计算机性能数据确定方法、装置、计算机设备及存储介质
CN114700957B (zh) 模型低算力需求的机器人控制方法及装置
CN116245380A (zh) 目标业务的业务问题的确定方法、装置、计算机设备
CN113256422B (zh) 分仓账户识别方法、装置、计算机设备和存储介质
CN115841144A (zh) 一种文本检索模型的训练方法及装置
CN112816959B (zh) 用于车辆的聚类方法、装置、设备和存储介质
CN113704236A (zh) 政务系统数据质量评估方法、装置、终端及存储介质
CN113705957A (zh) 一种用户集群基线负荷估计方法、装置和终端设备
CN111222739B (zh) 核电站的任务分配方法及核电站的任务分配系统
CN113516275A (zh) 一种配电网超短期负荷预测方法、装置及终端设备
CN111160969A (zh) 一种电力价格预测方法及装置
CN112488141A (zh) 物联卡应用范围的确定方法、装置及计算机可读存储介质
CN112487250B (zh) 识别养号账号群的方法及装置
CN117633571A (zh) 一种基于多重聚类的异常用户预警方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 516006 TCL technology building, No.17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province

Applicant after: TCL Technology Group Co.,Ltd.

Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District

Applicant before: TCL Corp.

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018356

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228