CN109345318B - 一种基于dtw-lasso-谱聚类的消费者聚类方法 - Google Patents

一种基于dtw-lasso-谱聚类的消费者聚类方法 Download PDF

Info

Publication number
CN109345318B
CN109345318B CN201811265129.XA CN201811265129A CN109345318B CN 109345318 B CN109345318 B CN 109345318B CN 201811265129 A CN201811265129 A CN 201811265129A CN 109345318 B CN109345318 B CN 109345318B
Authority
CN
China
Prior art keywords
dtw
clustering
time
matrix
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811265129.XA
Other languages
English (en)
Other versions
CN109345318A (zh
Inventor
詹德川
王嘉时
董坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201811265129.XA priority Critical patent/CN109345318B/zh
Publication of CN109345318A publication Critical patent/CN109345318A/zh
Application granted granted Critical
Publication of CN109345318B publication Critical patent/CN109345318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于DTW‑LASSO‑谱聚类的消费者聚类方法,采用DTW对不同待聚类消费者样本的时序特征相似性进行刻画,同时根据不同时间段消费者消费模式变动的特点,使用LASSO对数据所在时间段有效特征进行选择,之后给出了同时段DTW‑谱聚类与异时段DTW‑谱聚类两种实现,用户可根据实际情况自行选择。若用户选择同时段谱聚类,则得到同一时间段内不同消费者样本的有效分类;若用户选择异时段谱聚类,则通过多日聚类结果取交集挖掘一段时间内长久稳固的消费者消费轮动关系。

Description

一种基于DTW-LASSO-谱聚类的消费者聚类方法
技术领域
本发明涉及一种基于DTW-LASSO-谱聚类的消费者聚类方法,属于数据聚类技术领域。
背景技术
身处于信息量爆炸的时代,人类每日都被海量数据所环绕,而消费作为人们最基本的社会活动之一,消费市场相关数据也呈现出爆炸式的增长,而企业面临的一大问题就是如何对消费者进行有效分类,以找到目标消费者。在消费者的海量数据中,时序数据对消费者的分类具有很强的指导作用,其是指同一种现象在不同时刻上的观察值依次排列而成的一组数字序列,如消费者的每日流水、每日在不同领域的花费等等。在医学监测、金融、气象预测等领域,时序数据已被广泛应用,如在医学检测中根据心电信号强弱对患者进行分类并根据以往同类患者情况进行治疗、股票分析师们对股票的收益曲线分析、灾害天气预测等等。但是在消费者分类场景下,数据缺乏真实类别标记,人群的真实分类是不得而知的,于是不能使用传统分类方法,需要使用无监督学习方法对消费者进行聚类,与此同时其数据潜在模式并非一成不变,如用户的消费习惯改变、消费结构的升级等等。传统的基于动态时间弯曲(以下均简记为DTW)度量相似性之后聚类的方法无法捕捉数据潜在模式的变动,且消费者存在相互影响的关系,不同时间段的不同类别消费者存在轮动关系,单纯使用聚类方法无法得到这种关系。
发明内容
发明目的:考虑到消费者的消费模式易变动,同时部分消费者群体存在轮动关系,本发明提出一种基于DTW-LASSO-谱聚类的消费者聚类方法,该方法利用DTW对不同待聚类消费者样本的时序特征相似性进行刻画,同时根据不同时间段聚类的有效时序特征不同的特点,使用LASSO对数据对应时间段有效特征进行选择,实现了同时段DTW-谱聚类与异时段DTW-谱聚类,在异时段聚类结果后取交集挖掘长久稳固的样本对关系来发现消费者的轮动关系,从而帮助用户发现不同类别消费者的相互作用或因果关系。
技术方案:一种基于DTW-LASSO-谱聚类的消费者聚类方法,利用DTW刻画消费者样本的时序特征相似性,使用LASSO对数据对应时间段内有效特征进行选择,实现了同时段DTW-谱聚类与异时段DTW-谱聚类,在异时段聚类结果后取交集挖掘长久稳固的样本对关系来发现消费者的轮动关系。具体包括如下步骤:
首先,用户先准备好一个消费者样本库,其中每一个消费者样本(以下简称样本)都带有多维时序特征,且具有因变量时序数据,比如消费者每日银行流水为因变量时序数据,在不同领域的花费等为多维时序特征,这些就是训练数据。接着,在用户选定时间段内,以粗粒度(时序曲线时间间隔较长)提取所有时许特征曲线,分别计算不同样本之间多维时序特征曲线的DTW值,及样本间因变量时序曲线DTW值,生成不同样本间的距离度量。之后以多维时序特征曲线DTW为自变量,使用LASSO对样本间因变量DTW值进行拟合,筛选出该时间段内有效时序特征,之后以细粒度(时序曲线时间间隔较短)提取样本的有效特征时序曲线,在计算样本间DTW值并求和后输入到谱聚类算法,得到聚类结果。为了克服消费者的数据潜在模式易变动这一问题,用户每隔一段时间重新使用LASSO计算出在该时间段内有效的时序特征,若用户选择同时段DTW-谱聚类,则得到该时间段内所有样本的有效分类;若用户选择异时段DTW-谱聚类,则将该时间段以T为时间间隔划分为N组(T与N均为用户设定),对每对时间间隔为T的两组样本集合计算之间的DTW值,之后进行谱聚类,将N个聚类结果取交集,得到在多个时段内先后关系一致的样本对。
有益效果:与现有技术相比,本发明充分利用不同消费者样本时序特征曲线相似性,利用DTW-LASSO得到数据对应时间段内有效特征,之后对该时段消费者样本进行谱聚类得到同时段聚类结果,同时将多个相异时段谱聚类结果交集能很好的挖掘长久稳固的样本对关系,从而发现时序消费者的轮动关系。
附图说明
图1是本发明原理流程图;
图2是本发明的流程图;
图3是谱聚类的流程图;
图4是异时段谱聚类-交集的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于DTW-LASSO-谱聚类的消费者聚类方法,首先,用户先准备好一个消费者样本库,其中每一个消费者样本(以下简称样本)都带有多维时序特征,且具有因变量时序数据,这些就是训练数据。接着,在用户选定时间段内,以粗粒度(时序曲线时间间隔较长)提取所有时许特征曲线,分别计算不同样本之间多维时序特征曲线的DTW值,及样本间因变量时序曲线DTW值,生成不同样本间的距离度量。之后以多维时序特征曲线DTW为自变量,使用LASSO对样本间因变量DTW值进行拟合,筛选出该时间段内有效时序特征,之后以细粒度(时序曲线时间间隔较短)提取样本的有效特征时序曲线,在计算样本间DTW值并求和后输入到谱聚类算法,得到聚类结果。
本发明的主要流程如图2所示。首先拿到的是c个样本的多维时序数据X∈Rn×l和对应的因变量时序数据Y∈Rn×1。步骤1是起始动作;步骤2去除部分特征缺失的数据,然后在粗粒度(大时间间隔)下提取对前q天的时序特征X∈Raq×d,其中每天提取a行数据,每行数据有d维时序特征,这样每个样本有d个长度为aq的时间序列。对因变量Y也做同样的处理,得到1个长度为aq的时间序列;步骤3计算各个样本之间对应维度时间序列的动态时间规整距离(DTW)得到DTW距离矩阵dtw_X∈Rd×c×c,其中dtw_X(i,j,k)表示第j个样本和第k个样本在第i维度上的时间序列的DTW距离;同理也得到dtw_Y∈Rc×c;对dtw_X和dtw_Y进行LASSO拟合,以全特征拟合的均方误差为基准,在不大于其1.2倍的范围内找到筛选特征数量最多的情况,将该情况筛选的m个特征做为本时间段内有效特征;若用户选择同时段DTW-谱聚类,则转步骤5,步骤5根据用户输入的参数t,在细粒度(小时间间隔)下提取t天的时序特征X∈Rbt ×d,其中每天提取b行数据;步骤6采用步骤3的方法计算DTW矩阵,只保留筛选的特征进而得到dtw_X∈Rm×c×c,之后根据各有效特征等权重求和及LASSO回归权重求和得到两个DTW求和矩阵;步骤7详细说明如图3所示,用户输入聚类数目k2,用求和后的两个矩阵进行谱聚类,得到平均的结果和加权的结果;若用户选择异时段DTW-谱聚类,则转步骤8,步骤8由用户输入异时段的时间间隔大小T及组数N;步骤9与步骤10的详细说明如图4所示,步骤9提取细粒度时序特征并计算每个间隔对应的DTW矩阵,之后对求和DTW矩阵调参并谱聚类;步骤10找出在N个结果的某一类中均出现且先后顺序一致的所有样本组并做为结果返回;最终结束于步骤11。
图3说明如何进行谱聚类。开始于步骤12,此时算法的输入是距离矩阵X∈Rc×c;步骤13首先根据(1)式利用高斯核函数计算样本之间的邻接矩阵W;选取适当的参数σ保证对后续拉普拉斯矩阵特征值分解的稳定性,
Figure BDA0001844710600000041
同时根据LASSO筛选出来的特征数m,选取相等的参数k1(k1=m)用于之后的特征值筛选。步骤14首先计算W的对角矩阵D,然后得到拉普拉斯矩阵L=D-W。步骤15根据(2)式对L矩阵标准化得到矩阵SC。
SC=D-1LD-1 (2)
步骤16对SC矩阵进行特征值分解,将特征值降序排列,选取第2个到第k1+1个特征值对应的特征向量,拼接成矩阵F∈Rc×k1,其中每列是一个特征向量。步骤17对矩阵F逐行进行0-1标准化,然后用kmeans算法对F进行聚类并将聚类数目设为用户输入的k2,得到聚类结果最终结束于步骤18。
图4具体说明了异时段的流程。开始于步骤19;步骤20根据相隔时间T选取N+1个时间点并提取每个时间点的细粒度时序特征;步骤21将相邻时间点的样本合并然后计算DTW距离,例如第一个时间点T1中有c1个样本,第二个时间点T2中有c2个样本,那么得到的一个距离矩阵为
Figure BDA0001844710600000042
同理T2与T3、T3与T4…也进行类似的操作,得到N个DTW矩阵。步骤22对每个DTW矩阵中的各个维度进行平均求和以及根据LASSO选择的权重进行加权求和,得到N个平均矩阵
Figure BDA0001844710600000043
和N个加权矩阵
Figure BDA0001844710600000044
步骤23详细说明如图3所示,根据用户输入的聚类数目参数k2对以上矩阵进行谱聚类,得到N个平均求和聚类结果和N个加权求和聚类结果,每个结果对应两个时间点Ti和Ti+1;步骤24找出在N个平均求和聚类结果或者N个加权求和聚类结果中均出现的所有样本对(d1,d2),其中d1在每个结果对应的时间点Ti里,其中d2在每个结果对应的时间点Ti+1里,并分别保存平均求和聚类结果与加权求和聚类结果的样本对。最终结束于步骤25。

Claims (5)

1.一种基于DTW-LASSO-谱聚类的消费者聚类方法,其特征在于,包括如下步骤:首先,获取消费者样本库作为训练数据,其中每一个消费者样本都带有多维时序特征,且具有因变量时序数据;接着,在用户选定时间段内,以粗粒度提取所有时序特征曲线,分别计算不同样本之间多维时序特征曲线的DTW值,及样本间因变量时序特征曲线的DTW值,生成不同样本间的距离度量;之后以多维时序特征曲线的DTW值为自变量,使用LASSO对样本间因变量时序特征曲线的DTW值进行拟合,筛选出该时间段内有效时序特征,之后以细粒度提取样本的有效特征时序曲线,再计算样本间多维时序特征曲线的DTW值及因变量时序特征曲线的DTW值并求和后输入到谱聚类算法,得到聚类结果。
2.如权利要求1所述的基于DTW-LASSO-谱聚类的消费者聚类方法,其特征在于,消费者样本库是c个样本的多维时序数据X∈Rn×l和对应的因变量时序数据Y∈Rn×1;去除消费者样本库中特征缺失的数据,然后在粗粒度下提取对前q天的时序特征X∈Raq×d,其中每天提取a行数据,每行数据有d维时序特征,这样每个样本有d个长度为aq的时间序列;对因变量Y也做同样的处理,得到1个长度为aq的时间序列;计算各个样本之间对应维度时间序列的动态时间规整距离得到DTW距离矩阵dtw_X∈Rd×c×c,其中dtw_X(i,j,k)表示第j个样本和第k个样本在第i维度上的时间序列的DTW距离;同理也得到dtw_Y∈Rc×c;对dtw_X和dtw_Y进行LASSO拟合,以全特征拟合的均方误差为基准,在不大于其1.2倍的范围内找到筛选特征数量最多的情况,将该情况筛选的m个特征做为本时间段内有效特征。
3.如权利要求2所述的基于DTW-LASSO-谱聚类的消费者聚类方法,其特征在于,若用户选择同时段DTW-谱聚类,则根据用户输入的参数t,在细粒度下提取t天的时序特征X∈Rbt ×d,其中每天提取b行数据;对于DTW距离矩阵,只保留筛选的特征进而得到dtw_X∈Rm×c×c,之后根据各有效特征等权重求和及LASSO回归权重求和得到两个DTW求和矩阵;用户输入聚类数目k2,用求和后的两个矩阵进行谱聚类,得到平均的结果和加权的结果;
若用户选择异时段DTW-谱聚类,则由用户输入异时段的时间间隔大小T及组数N;
提取细粒度时序特征并计算每个间隔对应的DTW矩阵,之后对求和DTW矩阵调参并谱聚类;找出在N个结果的某一类中均出现且先后顺序一致的所有样本组并做为结果返回。
4.如权利要求3所述的基于DTW-LASSO-谱聚类的消费者聚类方法,其特征在于,谱聚类算法的输入是距离矩阵X∈Rc×c;首先根据(1)式利用高斯核函数计算样本之间的邻接矩阵W;选取适当的参数σ保证对后续拉普拉斯矩阵特征值分解的稳定性,
Figure FDA0003019333090000021
同时根据LASSO筛选出来的特征数m,选取相等的参数k1用于之后的特征值筛选;
首先计算W的对角矩阵D,然后得到拉普拉斯矩阵L=D-W;
根据(2)式对L矩阵标准化得到矩阵SC;
SC=D-1LD-1 (2)
对SC矩阵进行特征值分解,将特征值降序排列,选取第2个到第k1+1个特征值对应的特征向量,拼接成矩阵F∈Rc×k1,其中每列是一个特征向量;
对矩阵F逐行进行0-1标准化,然后用kmeans算法对F进行聚类并将聚类数目设为用户输入的k2,得到聚类结果。
5.如权利要求3所述的基于DTW-LASSO-谱聚类的消费者聚类方法,其特征在于,根据相隔时间T选取N+1个时间点并提取每个时间点的细粒度时序特征;将相邻时间点的样本合并然后计算DTW距离,如果第一个时间点T1中有c1个样本,第二个时间点T2中有c2个样本,那么得到的一个距离矩阵为
Figure FDA0003019333090000022
同理T2与T3、T3与T4…也进行类似的操作,得到N个DTW矩阵;
对每个DTW矩阵中的各个维度进行平均求和以及根据LASSO选择的权重进行加权求和,得到N个平均矩阵
Figure FDA0003019333090000031
和N个加权矩阵
Figure FDA0003019333090000032
根据用户输入的聚类数目参数k2对以上矩阵进行谱聚类,得到N个平均求和聚类结果和N个加权求和聚类结果,每个结果对应两个时间点Ti和Ti+1
找出在N个平均求和聚类结果或者N个加权求和聚类结果中均出现的所有样本对(d1,d2),其中d1在每个结果对应的时间点Ti里,其中d2在每个结果对应的时间点Ti+1里,并分别保存平均求和聚类结果与加权求和聚类结果的样本对。
CN201811265129.XA 2018-10-29 2018-10-29 一种基于dtw-lasso-谱聚类的消费者聚类方法 Active CN109345318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811265129.XA CN109345318B (zh) 2018-10-29 2018-10-29 一种基于dtw-lasso-谱聚类的消费者聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811265129.XA CN109345318B (zh) 2018-10-29 2018-10-29 一种基于dtw-lasso-谱聚类的消费者聚类方法

Publications (2)

Publication Number Publication Date
CN109345318A CN109345318A (zh) 2019-02-15
CN109345318B true CN109345318B (zh) 2021-06-25

Family

ID=65311014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811265129.XA Active CN109345318B (zh) 2018-10-29 2018-10-29 一种基于dtw-lasso-谱聚类的消费者聚类方法

Country Status (1)

Country Link
CN (1) CN109345318B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046942A (zh) * 2019-12-09 2020-04-21 交控科技股份有限公司 一种道岔故障判断方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191141A1 (en) * 2010-02-04 2011-08-04 Thompson Michael L Method for Conducting Consumer Research
CN108352025B (zh) * 2015-07-24 2022-10-11 安普视频有限公司 基于消费者在线行为的电视广告时段定位
CN106845538A (zh) * 2017-01-09 2017-06-13 南京信息工程大学 一种基于选择性坐标下降优化的稀疏子空间聚类方法
CN107103488B (zh) * 2017-03-02 2021-05-18 江苏省烟草公司常州市公司 基于协同过滤算法和聚类算法的卷烟消费研判方法

Also Published As

Publication number Publication date
CN109345318A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
Qi et al. Feature selection and multiple kernel boosting framework based on PSO with mutation mechanism for hyperspectral classification
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Su et al. Nonnegative sparse autoencoder for robust endmember extraction from remotely sensed hyperspectral images
Ranjan et al. Hyperspectral image classification: A k-means clustering based approach
CN110322445B (zh) 基于最大化预测和标签间相关性损失函数的语义分割方法
CN103064941A (zh) 图像检索方法和装置
CN104966075B (zh) 一种基于二维判别特征的人脸识别方法与系统
CN109829494A (zh) 一种基于加权相似性度量的聚类集成方法
CN106204267A (zh) 一种基于改进k‑means和神经网络聚类的客户细分系统
CN109034238A (zh) 一种基于信息熵的聚类划分方法
CN113569920A (zh) 基于自动编码的第二近邻异常检测方法
CN116451097A (zh) 一种自适应确定聚类数的电力负荷数据加权增量聚类方法
CN117934298A (zh) 基于CycleGAN的烟叶图像数据增强方法
CN109460872B (zh) 一种面向移动通信用户流失不平衡数据预测方法
CN109345318B (zh) 一种基于dtw-lasso-谱聚类的消费者聚类方法
Omran et al. Self-adaptive differential evolution methods for unsupervised image classification
CN111127407B (zh) 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法
CN115588124B (zh) 一种基于软标签交叉熵追踪的细粒度分类去噪训练方法
Sristi et al. Disc: Differential spectral clustering of features
Pandey et al. A hierarchical clustering approach for image datasets
Wang et al. DPCA: Dimensionality reduction for discriminative analytics of multiple large-scale datasets
Chava et al. Hyper-parameters tuning for hyperspectral image classification
CN113688867B (zh) 一种跨域图像分类方法
Sakthi et al. An enhanced K means clustering using improved Hopfield artificial neural network and genetic algorithm
CN111160077A (zh) 一种大规模人脸动态聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant