CN109345318B

CN109345318B - 一种基于dtw-lasso-谱聚类的消费者聚类方法

Info

Publication number: CN109345318B
Application number: CN201811265129.XA
Authority: CN
Inventors: 詹德川; 王嘉时; 董坚
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2021-06-25
Anticipated expiration: 2038-10-29
Also published as: CN109345318A

Abstract

本发明公开一种基于DTW‑LASSO‑谱聚类的消费者聚类方法，采用DTW对不同待聚类消费者样本的时序特征相似性进行刻画，同时根据不同时间段消费者消费模式变动的特点，使用LASSO对数据所在时间段有效特征进行选择，之后给出了同时段DTW‑谱聚类与异时段DTW‑谱聚类两种实现，用户可根据实际情况自行选择。若用户选择同时段谱聚类，则得到同一时间段内不同消费者样本的有效分类；若用户选择异时段谱聚类，则通过多日聚类结果取交集挖掘一段时间内长久稳固的消费者消费轮动关系。

Description

一种基于DTW-LASSO-谱聚类的消费者聚类方法

技术领域

本发明涉及一种基于DTW-LASSO-谱聚类的消费者聚类方法，属于数据聚类技术领域。

背景技术

身处于信息量爆炸的时代，人类每日都被海量数据所环绕，而消费作为人们最基本的社会活动之一，消费市场相关数据也呈现出爆炸式的增长，而企业面临的一大问题就是如何对消费者进行有效分类，以找到目标消费者。在消费者的海量数据中，时序数据对消费者的分类具有很强的指导作用，其是指同一种现象在不同时刻上的观察值依次排列而成的一组数字序列，如消费者的每日流水、每日在不同领域的花费等等。在医学监测、金融、气象预测等领域，时序数据已被广泛应用，如在医学检测中根据心电信号强弱对患者进行分类并根据以往同类患者情况进行治疗、股票分析师们对股票的收益曲线分析、灾害天气预测等等。但是在消费者分类场景下，数据缺乏真实类别标记，人群的真实分类是不得而知的，于是不能使用传统分类方法，需要使用无监督学习方法对消费者进行聚类，与此同时其数据潜在模式并非一成不变，如用户的消费习惯改变、消费结构的升级等等。传统的基于动态时间弯曲(以下均简记为DTW)度量相似性之后聚类的方法无法捕捉数据潜在模式的变动，且消费者存在相互影响的关系，不同时间段的不同类别消费者存在轮动关系，单纯使用聚类方法无法得到这种关系。

发明内容

发明目的：考虑到消费者的消费模式易变动，同时部分消费者群体存在轮动关系，本发明提出一种基于DTW-LASSO-谱聚类的消费者聚类方法，该方法利用DTW对不同待聚类消费者样本的时序特征相似性进行刻画，同时根据不同时间段聚类的有效时序特征不同的特点，使用LASSO对数据对应时间段有效特征进行选择，实现了同时段DTW-谱聚类与异时段DTW-谱聚类，在异时段聚类结果后取交集挖掘长久稳固的样本对关系来发现消费者的轮动关系，从而帮助用户发现不同类别消费者的相互作用或因果关系。

技术方案：一种基于DTW-LASSO-谱聚类的消费者聚类方法，利用DTW刻画消费者样本的时序特征相似性，使用LASSO对数据对应时间段内有效特征进行选择，实现了同时段DTW-谱聚类与异时段DTW-谱聚类，在异时段聚类结果后取交集挖掘长久稳固的样本对关系来发现消费者的轮动关系。具体包括如下步骤：

首先，用户先准备好一个消费者样本库，其中每一个消费者样本(以下简称样本)都带有多维时序特征，且具有因变量时序数据，比如消费者每日银行流水为因变量时序数据，在不同领域的花费等为多维时序特征，这些就是训练数据。接着，在用户选定时间段内，以粗粒度(时序曲线时间间隔较长)提取所有时许特征曲线，分别计算不同样本之间多维时序特征曲线的DTW值，及样本间因变量时序曲线DTW值，生成不同样本间的距离度量。之后以多维时序特征曲线DTW为自变量，使用LASSO对样本间因变量DTW值进行拟合，筛选出该时间段内有效时序特征，之后以细粒度(时序曲线时间间隔较短)提取样本的有效特征时序曲线，在计算样本间DTW值并求和后输入到谱聚类算法，得到聚类结果。为了克服消费者的数据潜在模式易变动这一问题，用户每隔一段时间重新使用LASSO计算出在该时间段内有效的时序特征，若用户选择同时段DTW-谱聚类，则得到该时间段内所有样本的有效分类；若用户选择异时段DTW-谱聚类，则将该时间段以T为时间间隔划分为N组(T与N均为用户设定)，对每对时间间隔为T的两组样本集合计算之间的DTW值，之后进行谱聚类，将N个聚类结果取交集，得到在多个时段内先后关系一致的样本对。

有益效果：与现有技术相比，本发明充分利用不同消费者样本时序特征曲线相似性，利用DTW-LASSO得到数据对应时间段内有效特征，之后对该时段消费者样本进行谱聚类得到同时段聚类结果，同时将多个相异时段谱聚类结果交集能很好的挖掘长久稳固的样本对关系，从而发现时序消费者的轮动关系。

附图说明

图1是本发明原理流程图；

图2是本发明的流程图；

图3是谱聚类的流程图；

图4是异时段谱聚类-交集的流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于DTW-LASSO-谱聚类的消费者聚类方法，首先，用户先准备好一个消费者样本库，其中每一个消费者样本(以下简称样本)都带有多维时序特征，且具有因变量时序数据，这些就是训练数据。接着，在用户选定时间段内，以粗粒度(时序曲线时间间隔较长)提取所有时许特征曲线，分别计算不同样本之间多维时序特征曲线的DTW值，及样本间因变量时序曲线DTW值，生成不同样本间的距离度量。之后以多维时序特征曲线DTW为自变量，使用LASSO对样本间因变量DTW值进行拟合，筛选出该时间段内有效时序特征，之后以细粒度(时序曲线时间间隔较短)提取样本的有效特征时序曲线，在计算样本间DTW值并求和后输入到谱聚类算法，得到聚类结果。

本发明的主要流程如图2所示。首先拿到的是c个样本的多维时序数据X∈R^n×l和对应的因变量时序数据Y∈R^n×1。步骤1是起始动作；步骤2去除部分特征缺失的数据，然后在粗粒度(大时间间隔)下提取对前q天的时序特征X∈R^aq×d，其中每天提取a行数据，每行数据有d维时序特征，这样每个样本有d个长度为aq的时间序列。对因变量Y也做同样的处理，得到1个长度为aq的时间序列；步骤3计算各个样本之间对应维度时间序列的动态时间规整距离(DTW)得到DTW距离矩阵dtw_X∈R^d×c×c，其中dtw_X(i,j,k)表示第j个样本和第k个样本在第i维度上的时间序列的DTW距离；同理也得到dtw_Y∈R^c×c；对dtw_X和dtw_Y进行LASSO拟合，以全特征拟合的均方误差为基准，在不大于其1.2倍的范围内找到筛选特征数量最多的情况，将该情况筛选的m个特征做为本时间段内有效特征；若用户选择同时段DTW-谱聚类，则转步骤5，步骤5根据用户输入的参数t，在细粒度(小时间间隔)下提取t天的时序特征X∈R^bt ^×d，其中每天提取b行数据；步骤6采用步骤3的方法计算DTW矩阵，只保留筛选的特征进而得到dtw_X∈R^m×c×c，之后根据各有效特征等权重求和及LASSO回归权重求和得到两个DTW求和矩阵；步骤7详细说明如图3所示，用户输入聚类数目k2，用求和后的两个矩阵进行谱聚类，得到平均的结果和加权的结果；若用户选择异时段DTW-谱聚类，则转步骤8，步骤8由用户输入异时段的时间间隔大小T及组数N；步骤9与步骤10的详细说明如图4所示，步骤9提取细粒度时序特征并计算每个间隔对应的DTW矩阵，之后对求和DTW矩阵调参并谱聚类；步骤10找出在N个结果的某一类中均出现且先后顺序一致的所有样本组并做为结果返回；最终结束于步骤11。

图3说明如何进行谱聚类。开始于步骤12，此时算法的输入是距离矩阵X∈R^c×c；步骤13首先根据(1)式利用高斯核函数计算样本之间的邻接矩阵W；选取适当的参数σ保证对后续拉普拉斯矩阵特征值分解的稳定性，

同时根据LASSO筛选出来的特征数m，选取相等的参数k1(k1＝m)用于之后的特征值筛选。步骤14首先计算W的对角矩阵D，然后得到拉普拉斯矩阵L＝D-W。步骤15根据(2)式对L矩阵标准化得到矩阵SC。

SC＝D^-1LD^-1 (2)

步骤16对SC矩阵进行特征值分解，将特征值降序排列，选取第2个到第k1+1个特征值对应的特征向量，拼接成矩阵F∈R^c×k1，其中每列是一个特征向量。步骤17对矩阵F逐行进行0-1标准化，然后用kmeans算法对F进行聚类并将聚类数目设为用户输入的k2，得到聚类结果最终结束于步骤18。

图4具体说明了异时段的流程。开始于步骤19；步骤20根据相隔时间T选取N+1个时间点并提取每个时间点的细粒度时序特征；步骤21将相邻时间点的样本合并然后计算DTW距离，例如第一个时间点T₁中有c₁个样本，第二个时间点T₂中有c₂个样本，那么得到的一个距离矩阵为

同理T₂与T₃、T₃与T₄…也进行类似的操作，得到N个DTW矩阵。步骤22对每个DTW矩阵中的各个维度进行平均求和以及根据LASSO选择的权重进行加权求和，得到N个平均矩阵

和N个加权矩阵

步骤23详细说明如图3所示，根据用户输入的聚类数目参数k2对以上矩阵进行谱聚类，得到N个平均求和聚类结果和N个加权求和聚类结果，每个结果对应两个时间点T_i和T_i+1；步骤24找出在N个平均求和聚类结果或者N个加权求和聚类结果中均出现的所有样本对(d₁,d₂)，其中d₁在每个结果对应的时间点T_i里，其中d₂在每个结果对应的时间点T_i+1里，并分别保存平均求和聚类结果与加权求和聚类结果的样本对。最终结束于步骤25。

Claims

1.一种基于DTW-LASSO-谱聚类的消费者聚类方法，其特征在于，包括如下步骤：首先，获取消费者样本库作为训练数据，其中每一个消费者样本都带有多维时序特征，且具有因变量时序数据；接着，在用户选定时间段内，以粗粒度提取所有时序特征曲线，分别计算不同样本之间多维时序特征曲线的DTW值，及样本间因变量时序特征曲线的DTW值，生成不同样本间的距离度量；之后以多维时序特征曲线的DTW值为自变量，使用LASSO对样本间因变量时序特征曲线的DTW值进行拟合，筛选出该时间段内有效时序特征，之后以细粒度提取样本的有效特征时序曲线，再计算样本间多维时序特征曲线的DTW值及因变量时序特征曲线的DTW值并求和后输入到谱聚类算法，得到聚类结果。

2.如权利要求1所述的基于DTW-LASSO-谱聚类的消费者聚类方法，其特征在于，消费者样本库是c个样本的多维时序数据X∈R^n×l和对应的因变量时序数据Y∈R^n×1；去除消费者样本库中特征缺失的数据，然后在粗粒度下提取对前q天的时序特征X∈R^aq×d，其中每天提取a行数据，每行数据有d维时序特征，这样每个样本有d个长度为aq的时间序列；对因变量Y也做同样的处理，得到1个长度为aq的时间序列；计算各个样本之间对应维度时间序列的动态时间规整距离得到DTW距离矩阵dtw_X∈R^d×c×c，其中dtw_X(i,j,k)表示第j个样本和第k个样本在第i维度上的时间序列的DTW距离；同理也得到dtw_Y∈R^c×c；对dtw_X和dtw_Y进行LASSO拟合，以全特征拟合的均方误差为基准，在不大于其1.2倍的范围内找到筛选特征数量最多的情况，将该情况筛选的m个特征做为本时间段内有效特征。

3.如权利要求2所述的基于DTW-LASSO-谱聚类的消费者聚类方法，其特征在于，若用户选择同时段DTW-谱聚类，则根据用户输入的参数t，在细粒度下提取t天的时序特征X∈R^bt ^×d，其中每天提取b行数据；对于DTW距离矩阵，只保留筛选的特征进而得到dtw_X∈R^m×c×c，之后根据各有效特征等权重求和及LASSO回归权重求和得到两个DTW求和矩阵；用户输入聚类数目k2，用求和后的两个矩阵进行谱聚类，得到平均的结果和加权的结果；

若用户选择异时段DTW-谱聚类，则由用户输入异时段的时间间隔大小T及组数N；

提取细粒度时序特征并计算每个间隔对应的DTW矩阵，之后对求和DTW矩阵调参并谱聚类；找出在N个结果的某一类中均出现且先后顺序一致的所有样本组并做为结果返回。

4.如权利要求3所述的基于DTW-LASSO-谱聚类的消费者聚类方法，其特征在于，谱聚类算法的输入是距离矩阵X∈R^c×c；首先根据(1)式利用高斯核函数计算样本之间的邻接矩阵W；选取适当的参数σ保证对后续拉普拉斯矩阵特征值分解的稳定性，