CN108415910A

CN108415910A - 基于时间序列的话题发展聚类分析系统和方法

Info

Publication number: CN108415910A
Application number: CN201710071763.9A
Authority: CN
Inventors: 殷复莲; 张贝贝; 刘晓薇; 苏沛; 王颜颜; 白雪松
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2017-02-09
Filing date: 2017-02-09
Publication date: 2018-08-17
Anticipated expiration: 2037-02-09
Also published as: CN108415910B

Abstract

本发明提供一种基于时间序列的话题发展聚类分析系统和方法，方法包括：采集话题形成累计阅读量时间序列；对上述时间序列进行前向差分得到话题热度时间序列；判断话题是否处于衰退期；若不处于衰退期继续话题采集；若处于衰退期，分别计算各话题间的S‑Euc和S‑DTW，对所有话题进行聚类。系统包括：数据采集部；数据处理部，对累计阅读量时间序列进行前向差分处理，判断话题是否处于衰退期，将不处于衰退期的话题存储到第一话题存储库，将处于衰退期的话题存储到第二话题存储库；时间序列距离计算部，分别计算各话题间的S‑Euc和S‑DTW；话题聚类部，对所有话题进行聚类。上述系统和方法精确度高、聚类效果好。

Description

基于时间序列的话题发展聚类分析系统和方法

技术领域

本发明涉及舆情监控分析技术领域，更为具体地，涉及一种基于时间序列的话题发展聚类分析系统和方法。

背景技术

当前社交网络新媒体迅猛发展，搜索引擎、社交网络等得到大量广泛使用，各种各样的信息以惊人的速度在全球范围内传播，瞬息万变的话题雨后春笋般在互联网上层出不穷，深刻地影响着人们的生活和社会的方方面面。这些话题随着时间不断变化，形成了典型的时间序列数据。时间序列的聚类算法是分析预测互联网热点话题热度随时间变化趋势的重要过程。

聚类分析，就是把对象按照性质上的亲疏程度分成多个类或簇，使得类或簇内的数据相似度最大化，类或簇间的数据相似度最小化，目前聚类分析已成功应用到信息检索、数据挖掘等多个领域。现有时间序列聚类研究中时间序列距离多用闵科夫斯基距离、动态时间弯曲距离、最长公共子序列和编辑距离等等。其中，动态时间弯曲距离支持时间轴上的形变，故常用在不等长时间序列距离度量上。当前热点话题时间序列聚类算法应用较多的有K-means、FCM(模糊C均值)、层次聚类和基于基础算法进行的各种改进算法如K_SC(K-spectral centroid)、WKSC(Wavelet-based K_SC)等。但是，这些聚类算法所用数据源均以“天”为单位，时效性不强。

欧式距离(Euclidean distance，Euc)是两个序列距离度量的最简单常用的方法，如时间序列x和y的欧式距离为：

如图1a所示，该距离不能在时间轴上进行伸缩变换，不能计算不等长时间序列之间的距离，如对于{a,a,b,C}和{a,b,c,c}，尽管两个序列相似性很高，但是其欧氏距离比较大。

动态时间弯曲距离(Dynamic time warping distance，DTW)相比于欧氏距离支持时间轴上的弯曲，可以很方便地应用在不等长时间序列的距离度量上。

时间序列x和y之间的动态时间弯曲距离定义为：

D_tw(<>,<>)＝0，

D_tw(x,<>)＝_tw(<>,y)＝∞，

取δ(x_i,y_i)＝(x_i-y_i)²

DTW实际上就是确定序列x和y上每个点之间的对齐匹配关系，如图2a所示，两条曲线整体上的波形形状很相似，但在时间轴上不对齐。如在t₂₀时，实线波形的a点会对应于虚线波形的b’点，传统欧氏距离不能体现序列相似性，而实线的a点对应虚线的b点时序列相似性提高。图2b中，DTW使两个波形一一对齐，这是它们的最好匹配路径，能够使得两条曲线相似性最高，但是，DTW距离使不同天的信息进行对齐，造成紊乱。

另外，传统聚类算法为了能够用于不等长时间序列聚类，所采用的样本距离因损失了部分时间序列信息，导致精度下降。

发明内容

鉴于上述问题，本发明的目的是提供一种精确度高、聚类效果好的基于时间序列的话题发展聚类分析系统和方法。

根据本发明的一个方面，提供一种基于时间序列的话题发展聚类分析系统，包括：数据采集部，采用预定采集周期从网络、微博上采集话题，所述话题包括话题URL、话题名称、累计阅读量时间序列，其中，所述累计阅读量时间序列为不同采集时间对应的话题累计阅读量构成的时间序列；数据处理部，包括差分模块、第一判断模块、第一话题存储库和第二话题存储库，所述差分模块对每一个话题的累计阅读量时间序列进行前向差分得到每一个话题的话题热度时间序列，所述第一判断模块根据所述话题热度时间序列判断话题是否处于衰退期，将不处于衰退期的话题存储到第一话题存储库，将处于衰退期的话题存储到第二话题存储库；时间序列距离计算部，包括分段模块、时间序列距离计算第一模块和时间序列距离计算第二模块，所述分段模块对每一个话题热度时间序列按照自然日进行分段，所述时间序列距离计算第一模块和时间序列距离计算第二模块分别计算各话题之间的分段欧式距离(S-Euc)和分段动态弯曲距离(S-DTW)；话题聚类部，基于各话题之间S-Euc和S-DTW采用聚类方法对所有话题进行聚类，

其中，所述时间序列距离计算第一模块包括第一天数计数单元、第一判断单元、第一时间段划分单元、对齐单元和第一距离计算单元，所述第一天数计数单元计算任意两个话题的话题热度时间序列持续的天数；所述第一判断单元判断两个话题热度时间序列的持续的天数是否相同，如果相同，发送第一信号给对齐单元，如果不相同，发送第二信号给第一时间段划分单元；所述第一时间段划分单元接收到第二信号后，将两个话题热度时间序列分成三个时间段并发送第三信号给对齐单元，第一时间段为第一天至较短话题持续天数的前一天，第二时间段为较短话题持续天数的当天，第三时间段为较短话题持续天数的后一天至较长话题持续天数；所述对齐单元收到第一信号时，采用0填充对齐两个话题热度时间序列第一天和最后一天的数据，并发送第四信号给第一距离计算单元，所述对齐单元收到第三信号时，采用0填充对齐两个话题热度时间序列第一天的数据以及较短的话题热度时间序列最后一天的数据，并发送第五信号给第一距离计算单元；所述第一距离计算单元接收第四信号后，计算对齐后两个话题热度时间序列的S-Euc，所述第一距离计算单元接收第五信号后，按照第一时间段划分单元划分的三个时间段分段计算两个话题热度时间序列的时间序列距离，将三个时间段的时间序列距离相加得到两个话题的S-Euc，

其中，所述时间序列距离计算第二模块包括第二天数计数单元、第二判断单元、第二时间段划分单元和第二距离计算单元，其中，所述第二天数计数单元计算任意两个话题的话题热度时间序列持续的天数；所述第二判断单元判断两个话题热度时间序列的持续的天数是否相同，如果相同，发送第六信号给第二距离计算单元，如果不相同，发送第七信号给第二时间段划分单元；所述第二时间段划分单元接收到第七信号后，将两个话题热度时间序列分成两个时间段并发送第八信号给第二距离计算单元，第一时间段为第一天至较短话题持续天数当天，第二时间段为较短话题持续天数的后一天至较长话题持续天数；所述第二距离计算单元接收第六信号后，计算两个话题热度时间序列的S-DTW，所述第二距离计算单元接收第八信号后，按照时间段划分单元划分的两个时间段分段计算两个话题热度时间序列的时间序列距离，将两个时间段的时间序列距离相加得到两个话题的S-DTW。

根据本发明的另一个方面，提供一种基于时间序列的话题发展聚类分析方法，包括：采用预定采集周期从网络、微博上采集话题，所述话题包括话题URL、话题名称、累计阅读量时间序列，其中，所述累计阅读量时间序列为不同采集时间对应的话题累计阅读量构成的时间序列；对每一个话题的累计阅读量时间序列进行前向差分得到每一个话题的话题热度时间序列；根据所述话题热度时间序列判断话题是否处于衰退期；如果话题不处于衰退期，继续话题的采集；如果话题处于衰退期，对每一个话题热度时间序列按照自然日进行分段，分别计算各话题之间的分段欧式距离(S-Euc)和分段动态弯曲距离(S-DTW)，采用聚类方法对所有话题进行聚类，

其中，计算各话题之间的S-Euc的方法包括：计算任意两个话题的话题热度时间序列持续的天数；判断两个话题热度时间序列的持续的天数是否相同；如果相同，采用0填充对齐两个话题热度时间序列第一天和最后一天的数据，计算对齐后两个话题热度时间序列的S-Euc；如果不相同，将两个话题热度时间序列分成三个时间段，采用0填充对齐两个话题热度时间序列第一天的数据以及较短的话题热度时间序列最后一天的数据，按照所述三个时间段分段计算两个话题热度时间序列的时间序列距离，将三个时间段的时间序列距离相加得到两个话题的S-Euc，其中，第一时间段为第一天至较短话题持续天数的前一天，第二时间段为较短话题持续天数的当天，第三时间段为较短话题持续天数的后一天至较长话题持续天数，

其中，计算各话题之间的S-DTW的方法包括：计算任意两个话题的话题热度时间序列持续的天数；判断两个话题热度时间序列的持续的天数是否相同；如果相同，计算两个话题热度时间序列的S-DTW；如果不相同，将两个话题热度时间序列分成两个时间段，第一时间段为第一天至较短话题持续天数当天，第二时间段为较短话题持续天数的后一天至较长话题持续天数，按照两个时间段分段计算两个话题热度时间序列的时间序列距离，将两个时间段的时间序列距离相加得到两个话题的S-DTW。

本发明所述基于时间序列的话题发展聚类分析系统和方法，对网络热点话题的累计阅读量时间序列进行聚类分析，通过轮廓系数判别聚类效果，细粒度话题热度时间序列采集方案，使时间序列的单位能够精确到小时。

另外，采用S-Euc(Segmented Euclidean distance，分段欧式距离)和S-DTW(Segmented Dynamic Time Warping distance，分段动态弯曲距离)，对时间序列先分段再计算整体距离，使聚类效果大大提高。

附图说明

通过参考以下具体实施方式并且结合附图，本发明的其它目的及结果将更加明白且易于理解。在附图中：

图1a和1b是采用Euc和S-Euc进行时间序列分析的对比示意图；

图2a和2b是采用Euc和DTW进行时间序列分析的对比示意图；

图2c和2d是采用DTW和S-DTW进行时间序列分析的对比示意图；

图3是本发明基于时间序列的话题发展聚类分析方法的流程图；

图4是微博话题页面；

图5是本发明所述判断话题是否进入衰退期的方法的流程图；

图6是本发明计算各话题之间的S-Euc的流程图；

图7是本发明计算各话题之间的S-DTW的流程图；

图8是本发明采用层次聚类算法对所有话题进行聚类分析的方法的流程图；

图9是本发明基于时间序列的话题发展聚类分析系统的构成框图；

图10是本发明一个优选实施例的示意图；

图11是不同距离度量方法的聚类效果的对比图；

图12a是基于Euc聚类的聚簇效果的示意图；

图12b是基于DTW聚类的聚簇效果的示意图；

图12c是基于S-Euc聚类的聚簇效果的示意图；

图12d和12e是采用不同聚类个数，基于S-DTW聚类的聚簇效果的对比图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。

以下将结合附图对本发明的具体实施例进行详细描述。

图3是本发明基于时间序列的话题发展聚类分析方法的流程图，如图1所示，所述聚类分析方法包括：

在步骤S310中，以预定采集周期T₀从网络、微博上采集话题，所述话题包括话题URL、话题名称、累计阅读量时间序列，其中，所述累计阅读量时间序列为不同采集时间对应的话题累计阅读量构成的时间序列，例如，采集微博平台的热门话题的阅读量，阅读量的发展趋势代表话题的总体舆情走势，又如，在微博中，微博热门话题下的社会类话题的实时更新页面http://d.weibo.com/100803_ctg1_1_-_ctg11，页面内容如图4所示，其中，每个话题的阅读量都是自该话题出现以来的累计阅读量，优选地，T₀可以设定在1～6小时范围内，也就是说，所述累计阅读时间序列可以是以“小时”为单位的序列，时效性好。

采集了各话题的累计阅读时间序列时，在步骤S320中，对每一个话题的累计阅读量时间序列进行前向差分得到每一个话题的话题热度时间序列，例如，某一个话题的累计阅读量时间序列S＝{s₁,s₂,s₃,……,s_n+1}，话题热度时间序列x＝{s₂-s₁,s₃-s₂,……,s_n+1-s_n}＝{x₁，x₂，……,x_n}；

在步骤S330中，根据所述话题热度时间序列判断话题是否处于衰退期，详细的判断过程将在图5中进行描述。

如果话题没有进入衰退期，返回步骤S310，继续话题的采集；

如果话题进入衰退期，在步骤S340中，对每一个话题热度时间序列按照自然日进行分段，例如，所述“自然日”，也就是24小时，某一个话题A分段后的话题热度时间序列为：

其中，T₀为采集周期，x₁为话题A开始第一天的话题热度时间序列，x₁₁为第一天第一次采集到的话题A的阅读量，x_1a为第一天最后一次采集的话题A的阅读量，x₂至x_n-1为话题A中间时间段的话题热度时间序列，x_n为话题A最后一天的话题热度时间序列，x_nc为话题A进入衰退期(最后一天)第一次采集到的阅读量，又如，例如，分段后的话题B的累计阅读量时间序列为：

，其中，y_1b为话题B开始第一天最后一次采集的阅读量，m为话题B进入衰退期位于的天数，y_md为话题B进入衰退期(最后一天)第一次采集到的阅读量；

在步骤S350中，分别计算各话题之间的分段欧式距离(S-Euc)和分段动态弯曲距离(S-DTW)，采用聚类方法对所有话题进行聚类，详细地，将在图6至图8中进行描述。

上述基于时间序列的话题发展聚类分析方法能够从话题发生初始到消亡，自动定时采集具有完整生命周期的话题的阅读量数据，并且使时间序列能够精确到小时，大大提高了话题处理的时效性，基于细粒度时间序列数据的聚类可以更细化话题发展类别，进而对时间序列进行更精准的预测。

优选地，上述聚类分析方法还包括：计算每一次聚类的轮廓系数，得到轮廓系数随聚类个数变化的曲线，将轮廓系数极大值(曲线的各个峰的峰值)或最大值(曲线最高峰的峰值)对应的聚类个数作为最佳聚类个数，与轮廓系数极大值或最大值对应的聚类结果作为各话题的分类结果，其中，所述轮廓系数为每一次聚类的所有样本的综合轮廓系数，例如，针对数据集里样本d_i, 假设样本d_i被聚类到类A，其轮廓系数s_i定义为：

其中，a_i为话题d_i与其同簇其他话题的平均距离，b_i表示话题i和非A类的各个类中所有话题的平均距离的最小值。对于其他非簇A的簇C而言，令D(d_i,C)为话题d_i与类C中所有话题的平均距离，则b_i＝min_C≠AD(d_i,C)，个体轮廓系数s_i结合了类内距离和类间距离，用以评价某单个话题被聚到某个类的合理性，其取值介于-1和1之间，若取值接近于1，则表示该话题的类内平均距离远小于最小的类间平均距离，说明对该话题的聚类达到最优效果。

又如，计算所有话题的综合聚类轮廓系数，对于数据集的某次聚类而言，轮廓系数s_k定义为：轮廓系数s_k表示所有话题的一个综合聚类效果。

进一步，优选地，上述聚类分析方法还包括：当轮廓系数极大值对应的聚类个数有多个时，选择聚簇紧密性大的聚类个数作为最佳聚类个数。

另外，由于话题的数量特别多，可以通过设定条件的方法删除不属于突发性的热点话题，具体地，所述聚类分析方法还包括：

判断话题是否符合设定条件；

如果话题符合设定条件，将话题进行删除；

如果话题不符合设定条件，判断话题是否处于衰退期，例如，采用设定关键词的方法滤掉符合条件的话题，某些关键词如“××身边事”“羊城资讯”“××热评”等一般是个地方性或领域性永久话题，不会发展为一个突发性的话题，根据这些关键词可以删除部分不符合条件的话题，又如，人工浏览微博网站，删除部分话题。

图5是本发明所述判断话题是否进入衰退期的方法的流程图，如图5所示，所述判断话题是否进入衰退期的方法包括：

在步骤S510中，判断每一个话题延续时间是否大于48小时，也就是说判断话题热度时间序列的长度是否大于

如果所述话题的延续时间不大于48小时，返回步骤S310，继续对所述话题进行采集；

如果所述话题的延续时间大于48小时，在步骤S520中，对所述话题的过去24小时的话题热度时间序列进行归一化处理，采用最小二乘法拟合所述归一化后的话题热度时间序列，得到所述话题的拟合曲线的斜率，其中，某一话题的过去24小时的话题热度时间序列为归一化后的

话题热度时间序列为：

根据最小二乘法原理，设则斜率为：

在步骤S530中，判断所述话题的斜率是否在-0.02～0的范围内，经过大量数据的试验，当且时，话题一般处于衰退期，故以此设置话题处于衰退期的分界点；

如果所述话题的斜率在所述范围内，所述话题进入衰退期；

如果所述话题的斜率不在所述范围内，所述话题未进入衰退期，返回步骤S310，继续对所述话题进行采集。

图6是本发明计算各话题之间的S-Euc的流程图，如图6所示，所述计算各话题之间的S-Euc的方法包括：

在步骤S610中，计算任意两个话题的话题热度时间序列持续的天数；

在步骤S620中，判断两个话题热度时间序列的持续的天数是否相同，例如图3的实施例中按照“自然日”分段后的话题A和话题B的话题热度时间序列，判断话题A和话题B的持续天数是否相同，即判断是n否等于m；

如果相同，在步骤S630中，采用0填充对齐两个话题热度时间序列第一天和最后一天的数据，例如，对上例中的话题A和话题B的话题热度时间序列，如果n＝m，如果a≥b，对话题B的第一天的数据前补(a-b)个0；如果a<b，对话题A的第一天的数据前补(b-a)个0；如果c≥d，对话题B的最后一天的数据后补(c-d)个0；如果c<d，对话题A的最后一天的数据后补(d-c)个0；

在步骤S631中，计算对齐后两个话题热度时间序列的S-Euc，如上例，如果n＝m，对齐后两个话题热度时间序列的S-Euc为

如果不相同，在步骤S640中，将两个话题热度时间序列分成三个时间段，第一时间段为第一天至较短话题持续天数的前一天，第二时间段为较短话题持续天数的当天，第三时间段为较短话题持续天数的后一天至较长话题持续天数；

在步骤S641中，采用0填充对齐两个话题热度时间序列第一天的数据以及较短的话题热度时间序列最后一天的数据，第一天的数据对齐与上例相同，如果n>，使话题B最后一天的数据与话题A中间时间段的数据对齐，对话题B的最后一天的数据后补个0；如果n<m，使话题A最后一天的数据与话题B中间时间段的数据对齐，对话题A的最后一天的数据后补个0；

在步骤S642中，按照所述三个时间段分段计算两个话题热度时间序列的时间序列距离，将三个时间段的时间序列距离相加得到两个话题的S-Euc，例如，

(1)如果n>m，计算话题A和B前m-1天的时间序列距离为：

第m天的时间序列距离计算时，首先在话题B的最后一天的数据后补个0，使话题B与A在第m天数据对齐，

Dist2＝D_euc(x_m,y_m)

话题A和B第m+1天到最后一天n的时间序列距离为：

则话题A和B的S-Euc为：

D_seuc(x,y)＝Dist1+Dist2+Dist3；

(2)如果n<m，计算话题A和B前n-1天的时间序列距离为

第n天的时间序列距离计算时，首先在话题A的最后一天的数据后补个0，使话题A与B在第n天数据对齐

Dist2＝D_euc(x_n,y_n)

话题A和B第n+1天到最后一天m的时间序列距离为:

则话题A和B的S-Euc为:

D_seuc(x,y)＝Dist1+Dist2+Dist3。

图7是本发明计算各话题之间的S-DTW的流程图，如图7所示，计算各话题之间的S-DTW的方法包括：

首先，在步骤S710中，计算任意两个话题的话题热度时间序列持续的天数；

在步骤S720中，判断两个话题热度时间序列的持续的天数是否相同，例如图3话题A和话题B的话题热度时间序列,判断话题A和话题B的持续天数是否相同，即判断是n否等于m；

如果相同，在步骤S730中，计算两个话题热度时间序列的S-DTW距离，例如，如果n＝m，话题A和B的S-DTW为：

如果不相同，在步骤S740中，将两个话题热度时间序列分成两个时间段，第一时间段为第一天至较短话题持续天数当天，第二时间段为较短话题持续天数的后一天至较长话题持续天数；

在步骤S741中，按照两个时间段分段计算两个话题热度时间序列的时间序列距离，将两个时间段的时间序列距离相加得到两个话题的分段动态弯曲距离(S-DTW)，例如，(1)如果n>m，计算话题A和B前m天的时间序列距离为：

话题A和B第m+1天到最后一天n的时间序列距离为：

则话题A和B的S-DTW为：

D_sdtw(x,y)＝Dist1+Dist2；

(2)如果n<m，计算话题A和B前n天的时间序列距离为：

话题A和B第n+1天到最后一天m的时间序列距离为：

则话题A和B的S-DTW为：

D_sdtw(x,y)＝Dist1+Dist2。

采用S-Euc和S-DTW，对时间序列先分段再计算整体距离，使聚类效果大大提高，如图1a和图1b所示，可以看出传统的欧氏距离跨天去进行距离匹配，容易使距离增大或出现信息混乱，分段欧式距离对时间序列先按“自然日”分段，再计算分段欧氏距离，最后对分段距离进行整合，防止了跨天进行距离匹配造成距离增加；如图2c所示，传统DTW跨天去进行时间轴上的弯曲将会使话题发生后不同天内的信息紊乱；如图2d所示，S-DTW对时间序列先按“自然日”分段，再计算S-DTW，最后对分段距离进行整合。一方面按“自然日”分段有效避免了不同天内信息对齐造成的紊乱，另一方面在同一天内的不同时刻话题发展规律有所相似，故同一天内的数据可以适当在时间轴上进行伸缩变换使得序列匹配到最小距离。而传统DTW使时间序列整体匹配到最小距离，对于高潮期出现时间不同的话题热度时间序列如图2c和2d所示，图中的两个序列相似性非常高，但是图中话题发展的本质明显不同，话题潜伏期、高潮期、衰退期的持续时间完全不一样，而话题潜伏期、高潮期、衰退期的持续时间是表现话题发展规律的一种形式，能够作为区别不同类别话题的特征。

S-Euc和S-DTW的不同点在于：1.对话题发生同一天内的数据，S-DTW会对时间轴进行伸缩变换，寻找当天两曲线的最小匹配距离，S-Euc没有进行时间轴上的弯曲，识别精度会更高，能够识别出曲线峰值到达时间相差1小时的话题类别。但是一般来说，在话题聚类中，这个精度是不必要的，能够识别出大体相似的序列并进行聚类足以，否则随着聚类个数的增加，冗余类别越来越多。2.对话题首尾天数的距离计算差别较大。S-DTW会寻找使得x_i和y_i中较短序列匹配到最短距离的路线，所以较长序列中一部分数据会不在匹配路径中，如图2d中的线段L1和L2，这样等于损失了部分信息，但是这部分信息仅有几小时，对于整体的距离计算影响较小。

由于DTW、S-DTW对时间序列在时间轴上进行了伸缩变换，使用K-means、FCM等算法聚类时无法有效地描述聚类结果各簇的中心点，且从算法效率看，层次聚类不需要进行多次迭代，算法复杂度较低，图8是本发明采用层次聚类算法对所有话题进行聚类分析的方法的流程图，如图8所示，所述采用层次聚类算法对所有话题进行聚类分析的方法包括：

在步骤S810中，将每个话题归为一类，采用类间最大距离衡量类间距离，例如，类间最大Euc、类间最大DTW、类间最大S-Euc和类间最大S-DTW；

在步骤S820中，分别找到距离最接近的两个类并合并成一类，总类数减一，所述距离包括Euc、DTW、S-Euc和S-DTW；

在步骤S830中，计算该次聚类的轮廓系数；

在步骤S840中，重复上述步骤，得到轮廓系数随聚类个数的变化曲线，观察曲线是否有极值点，将轮廓系数极大值或最大值对应的聚类个数作为最佳聚类个数，与轮廓系数极大值或最大值对应的聚类结果作为各话题的分类结果。

优选地，上述采用层次聚类算法对所有话题进行聚类分析的方法还包括：计算每个类别中含有的话题个数，去除类内话题个数少于总话题数的设定比例(例如，2％-5％)的类别，这样剔除了多数离群点。

另外，优选地，上述方法还包括：根据轮廓系数和聚簇紧密性确定最佳聚类个数，也就是说挑选出轮廓系数随聚类个数的变化曲线的极大值或最大值对应的聚类个数，对比不同聚类个数下的聚簇紧密性，选择聚簇紧密性最好的聚类个数作为每种距离对应的最佳聚类个数，进行时间序列聚类分析，其中，所述聚簇紧密性是每个聚类中，原始时间序列数据形状相似性的主观判断。聚簇紧密性越高，聚类效果越好。

进一步，优选地，通过轮廓系数、聚簇紧密性和复杂度确定计算各距离的方法和最佳聚类个数，以DTW为例对复杂度进行说明，由公式δ(x_i,y_i)＝(x_i-y_i)²公式中可以看出该算法时间复杂度为O(|x|*|y|)，因此四种距离(Euclidean、S-Euc、DTW、S-DTW)的计算复杂度如下表，

表2

距离度量方法	Euclidean	DTW	S-Euc	S-DTW
					计算复杂度	O(\|x\|)	O(\|x\|*\|y\|)	O(M*\|x_i\|)	O(M\|x_i\|\|y_i\|)

上表中，M为话题热度时间序列持续的天数，突发性热点话题持续时间一般在2-15天内，即x和y的长度一般在之间，而x_i和y_i最长为故可以看出计算复杂度DTW>S-DTW>S-Euc>Euclidean。

上述基于时间序列的话题发展聚类分析方法对网络热点话题的话题热度时间序列进行聚类分析，并从多维度(从计算复杂度、轮廓系数、聚簇紧密性三个角度)判别聚类效果，细粒度话题热度时间序列采集方案，使时间序列的单位能够精确到小时。

图9是本发明基于时间序列的话题发展聚类分析系统的构成框图，如图9 所示，所述聚类分析系统1000包括：

数据采集部100，采用预定采集周期从网络、微博上采集话题，所述话题包括话题URL、话题名称、累计阅读量时间序列，其中，所述累计阅读量时间序列为不同采集时间对应的话题累计阅读量构成的时间序列；

数据处理部200，包括差分模块210、第一判断模块220、第一话题存储库230和第二话题存储库240，所述差分模块210对每一个话题的累计阅读量时间序列进行前向差分得到每一个话题的话题热度时间序列，所述第一判断模块220判断话题是否处于衰退期，将不处于衰退期的话题存储到第一话题存储库230，将处于衰退期的话题存储到第二话题存储库240，优选地，还包括第二判断模块250和第三话题存储库260，所述第二判断模块250判断话题是否符合设定条件，将符合设定条件的话题存储到第三话题存储库260，将不符合设定条件的话题发送到第一判断模块220；

时间序列距离计算部300，包括分段模块310，时间序列距离计算第一模块320和时间序列距离计算第二模块330，所述分段模块310对每一个话题热度时间序列按照自然日进行分段，所述时间序列距离计算第一模块320和时间序列距离计算第二模块320分别计算各话题之间的S-Euc和S-DTW；

话题聚类部400，基于各话题之间S-Euc和S-DTW采用聚类方法对所有话题进行聚类，，优选地，所述话题聚类部400采用图8所示的层次聚类方法对话题进行聚类。

优选地，还包括：聚类效果评价部500，根据至少一个聚类效果评定指标确定最佳聚类个数，包括：轮廓系数评价单元510，计算每一次聚类的轮廓系数，得到轮廓系数随聚类个数变化的曲线，将轮廓系数极大值或最大值对应的聚类个数作为最佳聚类个数，与轮廓系数极大值或最大值对应的聚类结果作为所有话题的聚类结果，其中，所述轮廓系数为每一次聚类的所有样本的综合轮廓系数，进一步，优选地，所述聚类效果评价部500还包括聚簇紧密性评价单元520，根据轮廓系数和聚簇紧密性确定最佳聚类个数,也就是说，当轮廓系数极大值对应的聚类个数有多个时，选择聚簇紧密性大的聚类个数作为最佳聚类个数，另外，优选地，所述聚类效果评价部500去除话题少于话题总数的设定比例的类别。

上述聚类效果评价部500还可以通过轮廓系数、聚簇紧密性和复杂度确定计算各距离的方法和最佳聚类个数。

第一判断模块220包括：

第三判断单元221，判断每一个话题延续时间是否大于48小时，如果所述话题的延续时间小于48小时，数据采集部200继续对所述话题进行采集，将所述话题存储到第一话题存储库230，如果所述话题的延续时间不小于所述设定时间，将所述话题发送到拟合单元222；

拟合单元222，将第三判断单元221发送的话题的过去24小时的话题热度时间序列进行归一化处理，采用最小二乘法拟合归一化后的所述话题热度时间序列，得到所述话题的拟合曲线的斜率；

第四判断单元223，判断所述斜率是否在-0.02～0的范围内，如果所述斜率在所述范围内，所述话题进入衰退期，将所述话题存储到所述第二话题存储库240，如果所述斜率不在所述范围内，所述话题未进入衰退期，数据采集部继续对所述话题进行采集，将所述话题存储到第一话题存储库230。

时间序列距离计算第一模块320包括第一天数计数单元321、第一判断单元322、第一时间段划分单元323、对齐单元324和第一距离计算单元325，其中，

第一天数计数单元321，计算任意两个话题的话题热度时间序列持续的天数；

第一判断单元322，判断两个话题热度时间序列的持续的天数是否相同，如果相同，发送第一信号给对齐单元324，如果不相同，发送第二信号给第一时间段划分单元323；

第一时间段划分单元323，接收到第二信号后，将两个话题热度时间序列分成三个时间段并发送第三信号给对齐单元324，第一时间段为第一天至较短话题持续天数的前一天，第二时间段为较短话题持续天数的当天，第三时间段为较短话题持续天数的后一天至较长话题持续天数；

对齐单元324，收到第一信号时，采用0填充对齐两个话题热度时间序列第一天和最后一天的数据，并发送第四信号给第一距离计算单元325，对齐单元324收到第三信号时，采用0填充对齐两个话题热度时间序列第一天的数据以及较短的话题热度时间序列最后一天的数据，并发送第五信号给第一距离计算单元325；

第一距离计算单元325，接收第四信号后，计算对齐后两个话题热度时间序列的S-Euc，第一距离计算单元325接收第五信号后，按照第一时间段划分单元划分的三个时间段分段计算两个话题热度时间序列的时间序列距离，将三个时间段的时间序列距离相加得到两个话题的S-Euc距离。

时间序列距离计算第二模块330包括第二天数计数单元331、第二判断单元332、第二时间段划分单元333和第二距离计算单元334，其中，

第二天数计数单元331，计算任意两个话题的话题热度时间序列持续的天数；

第二判断单元332，判断两个话题热度时间序列的持续的天数是否相同，如果相同，发送第六信号给第二距离计算单元334，如果不相同，发送第七信号给第二时间段划分单元333；

第二时间段划分单元333，接收到第七信号后，将两个话题热度时间序列分成两个时间段并发送第八信号给第二距离计算单元334，第一时间段为第一天至较短话题持续天数当天，第二时间段为较短话题持续天数的后一天至较长话题持续天数；

第二距离计算单元334，接收第六信号后，计算两个话题热度时间序列的S-DTW；接收第八信号后，按照时间段划分单元划分的两个时间段分段计算两个话题热度时间序列的时间序列距离，将两个时间段的时间序列距离相加得到两个话题的S-DTW。

在本发明的一个优选实施例中，如图10所示，基于时间序列的话题发展聚类分析方法包括：

步骤S1010，设置采集微博话题的类别，例如，选定“社会”、“科技”、“教育”、“体育”、“军事”、“政务”这几大类别作为待采集的话题大类，网址如下表：

表3

步骤S1020，定时采集话题，例如，选取2016年8月1日至2016年12月31日共5个月的微博热点话题作为数据源，采集了话题阅读量等数据，并用话题热度时间序列采集方法，筛选出处于衰退期(即具有完整的生命周期)的话题，共约840条，采集步骤如下：

步骤S1021中，建立永久性删除话题列表，包含话题URL、话题名称、删除话题的原因三个字段，所述删除话题的原因包括话题进入衰退期和符合不会发展为突发性话题的设定条件的话题；

步骤S1022中，根据永久性删除话题列表中的话题URL对采集的话题进行过滤，去除存在于永久性删除话题列表中的话题，得到待采集话题表，所述待采集话题表，包含话题URL、话题名称、第一次采集话题的时间；

步骤S1023中，根据待采集话题表中的话题URL进行每小时定时采集话题详情，所述话题详情表包含话题URL、话题名称、采集话题时间、话题标签、话题累计阅读量；

步骤S1030中，得到话题详情表后根据话题累计阅读量进行前向差分运算，得到话题热度时间序列。

步骤S1040中，判断话题热度时间序列长度是否大于即话题持续时间是否超过48小时，若超过，进行步骤S1050中，否则进入步骤S1023中，继续采集话题详情。

步骤S1050中，对话题热度时间序列进行归一化；

步骤S1060中，对话题热度时间序列长度大于的话题在过去24小时的话题热度时间序列，记为：根据最小二乘法拟合话题热度时间曲线；

步骤S1070中，判断话题热度时间曲线的斜率是否满足且如果满足，话题判断为处于衰退期，将此话题加入永久性删除话题列表中，不再采集该话题信息，否则进入步骤S1023中继续采集话题详情。

步骤S1080中，在话题详情列表中，筛选出处于衰退期的话题，作为聚类分析的数据集。

步骤S1090中，对处于衰退期的各话题进行聚类分析，其中，实验条件设置如下：数据采集程序在服务器执行，服务器处理器为Intel(R)Xeon(R)CPU E5-2630 2.6GHz 128GBRAM，64位windows操作系统，采用某定向采集软件采集数据；其他程序均在Intel(R)Core(TM)i5-2400 CPU 3.1GHz 4GB RAM的64位windows操作系统上执行；所述聚类分析方法包括：

根据4种距离(Euclidean、S-Euc、DTW、S-DTW)的计算方法分别计算话题距离矩阵，并记录本地程序运行时间，如下表所示，

表4

距离度量方法	Euclidean	DTW	S-Euc	S-DTW
					计算时间(s)	2	386	3	5

选择不同的聚类个数2-40，进行层次聚类，并计算轮廓系数，得到轮廓系数随聚类个数的变化曲线，如图11所示，横坐标是聚类个数，纵坐标是轮廓系数，传统DTW和Euc轮廓系数都低于本专利提出的S-Euc和S-DTW，说明本发明提出的两种分段距离度量方法要优于传统DTW和Euc。在聚类个数小于23时，本发明提出的基于S-DTW的聚类方法，轮廓系数比S-Euc方法高出约65％，在聚类个数大于23时，本发明提出的基于S-Euc的聚类方法，轮廓系数比别的方法高出约8％，说明本发明设计距离中分段思想的重要性和优越性，这个结果也说明S-Euc方法更适用于对分类精度要求高的场景，而S-DTW在分类精度相近的情况下，轮廓系数较高，适用于更普遍的应用场景；

对于每种距离，挑选出聚类轮廓系数的极值点对应的聚类个数，通过绘制聚类结果中每个类别的原始数据走势(如图12)，对比几种聚类个数下的聚簇紧密性，剔除小于待采集话题列表总话题数设定比例的异常类别，选择聚簇紧密性最好的聚类个数作为每种距离对应的最佳聚类个数，由于S-DTW方法中轮廓系数曲线出现了两个极值点，分别是聚类个数为7和18时，故绘制了两种聚类个数下的原始数据走势，对比聚簇紧密性，选出最好的聚类个数，如图12a中，基于Euc距离聚类个数为6，删除类内话题数小于N*2％的类别2个，余4类；如图12b中，基于DTW聚类的聚类个数为7，删除类内话题数小于N*2％的类别2个，余5类；如图12c中，基于S-Euc聚类的聚类个数为26，删除类内话题数小于N*2％的类别9个，余15类；如图12d中，基于S-DTW距离聚类的聚类个数为7，删除类内话题数小于N*2％的类别1个，余6类；如图12e时，基于S-DTW聚类的聚类个数为18，删除类内话题数小于N*2％的类别9个，余9类。

图12a和12b说明传统Euc和DTW聚簇效果非常不好，出现了很多聚簇紧密性不高的类别，如图12a中的类2、类3和图12b中的类3、类4和类5，故传统的两种算法(Euclidean、DTW)不适用于话题热度时间序列聚类。

图12c说明在聚类个数大于23时，本发明提出的S-Euc的聚簇效果非常明显，S-Euc能够更细致地将时间序列分类，但是某些类别数据总体走势极为相似，被识别为多个类别较为冗余，如类1、5、6、9、11、12。

图12d和12e说明在聚类个数小于23时，本发明提出的S-DTW聚簇效果明显，能够较好地刻画话题发展趋势特征，精确度较高，可以识别高峰期到达时间不同和话题细节发展不同的类别。而对比聚类数取7和18时的聚簇紧密性，聚类个数为18时效果较好，故基于S-DTW的方法取聚类个数18为最佳聚类个数。

综合评估4种距离的聚类性能说明，传统的DTW和Euc跨天去进行距离匹配，容易使距离增大或出现信息混乱，不适用于话题热度时间序列的距离度量。本发明通过引入按设定时间(例如“天”)分段的思想很好地解决了这个问题。在聚类个数较小(2-23)时，本发明提出的S-DTW轮廓系数较高，聚簇效果较好。在聚类个数较大(大于23)时，本发明提出的S-Euc的轮廓系数较高，聚簇效果明显，说明在聚类数增多时，S-Euc能够更细致地将时间序列分类，类别间话题的差异能够精确到小时。但是，某些类别数据总体走势极为相像，如果不需要太高的精度要求，这些数据被识别为多个类别较为冗余。而S-DTW对话题发生后相同对应天数内的数据在时间轴上进行了适当地伸缩变换，在话题识别精度变化不大的情况下，减少了冗余类别的产生。

综上所述，对话题发展模式聚类的精度具有严格要求(不同类别间的差异能够精确到小时，S-Euc是最佳的时间序列距离度量方法；对话题发展模式聚类的精度没有太高要求时，S-DTW是最佳的时间序列距离度量方法。

综上所述，参照附图以示例的方式描述了根据本发明提出的基于时间序列的话题发展聚类分析系统和方法。但是，本领域技术人员应当理解，对于上述本发明所提出的系统及方法，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于时间序列的话题发展聚类分析系统，其特征在于，包括：

数据采集部，采用预定采集周期从网络、微博上采集话题，所述话题包括话题URL、话题名称、累计阅读量时间序列，其中，所述累计阅读量时间序列为不同采集时间对应的话题累计阅读量构成的时间序列；

数据处理部，包括差分模块、第一判断模块、第一话题存储库和第二话题存储库，所述差分模块对每一个话题的累计阅读量时间序列进行前向差分得到每一个话题的话题热度时间序列，所述第一判断模块根据所述话题热度时间序列判断话题是否处于衰退期，将不处于衰退期的话题存储到第一话题存储库，将处于衰退期的话题存储到第二话题存储库；

时间序列距离计算部，包括分段模块、时间序列距离计算第一模块和时间序列距离计算第二模块，所述分段模块对每一个话题热度时间序列按照自然日进行分段，所述时间序列距离计算第一模块和时间序列距离计算第二模块分别计算各话题之间的分段欧式距离(S-Euc)和分段动态弯曲距离(S-DTW)；

话题聚类部，基于各话题之间S-Euc和S-DTW采用聚类方法对所有话题进行聚类，

2.根据权利要求1所述的聚类分析系统，其特征在于，还包括：聚类效果评价部，根据至少一个聚类效果评定指标确定最佳聚类个数，包括：轮廓系数评价单元，计算每一次聚类的轮廓系数，得到轮廓系数随聚类个数变化的曲线，将轮廓系数极大值或最大值对应的聚类个数作为最佳聚类个数，与轮廓系数极大值或最大值对应的聚类结果作为所有话题的聚类结果。

3.根据权利要求2所述的聚类分析系统，其特征在于，所述聚类效果评价部还包括聚簇紧密性评价单元，当轮廓系数极大值对应的聚类个数有多个时，选择聚簇紧密性大的聚类个数作为最佳聚类个数。

4.根据权利要求1所述的聚类分析系统，其特征在于，所述第一判断模块包括：

第三判断单元，判断每一个话题延续时间是否大于48小时，如果所述话题的延续时间不大于48小时，数据采集部继续对所述话题进行采集，将所述话题存储到第一话题存储库，如果所述话题的延续时间大于48小时，将所述话题发送到拟合单元；

拟合单元，将第三判断单元发送的话题的过去24小时的话题热度时间序列进行归一化处理，采用最小二乘法拟合归一化后的所述话题热度时间序列，得到所述话题的拟合曲线的斜率；

第四判断单元，判断所述斜率是否在-0.02～0的范围内，如果所述话题的斜率在所述范围内，所述话题进入衰退期，将所述话题存储到所述第二话题存储库，如果所述话题的斜率不在所述范围内，所述话题未进入衰退期，数据采集部继续对所述话题进行采集，将所述话题存储到第一话题存储库。

5.根据权利要求1所述的聚类分析系统，其特征在于，所述数据处理部还包括第二判断模块和第三话题存储库，所述第二判断模块判断话题是否符合设定条件，将符合设定条件的话题存储到第三话题存储库，将不符合设定条件的话题发送到第一判断模块。

6.一种基于时间序列的话题发展聚类分析方法，其特征在于，包括：

采用预定采集周期从网络、微博上采集话题，所述话题包括话题URL、话题名称、累计阅读量时间序列，其中，所述累计阅读量时间序列为不同采集时间对应的话题累计阅读量构成的时间序列；

对每一个话题的累计阅读量时间序列进行前向差分得到每一个话题的话题热度时间序列；

根据所述话题热度时间序列判断话题是否处于衰退期；

如果话题不处于衰退期，继续话题的采集；

如果话题处于衰退期，对每一个话题热度时间序列按照自然日进行分段，分别计算各话题之间的分段欧式距离(S-Euc)和分段动态弯曲距离(S-DTW)，采用聚类方法对所有话题进行聚类，

7.根据权利要求6所述的聚类分析方法，其特征在于，所述根据所述话题热度时间序列判断话题是否处于衰退期的方法包括：

判断每一个话题延续时间是否大于48小时；

如果所述话题的延续时间不大于48小时，继续对所述话题进行采集；

如果所述话题的延续时间大于48小时，对所述话题的过去24小时的话题热度时间序列进行归一化处理，采用最小二乘法拟合归一化后的所述话题热度时间序列，得到所述话题的拟合曲线的斜率；

判断所述斜率是否在-0.02～0的范围内；

如果所述斜率在所述范围内，所述话题进入衰退期；

如果所述斜率不在所述范围内，所述话题未进入衰退期，继续对所述话题进行采集。

8.根据权利要求6所述的聚类分析方法，其特征在于，还包括：

判断话题是否符合设定条件；

如果话题符合设定条件，将话题进行删除；

如果话题不符合设定条件，判断话题是否处于衰退期。

9.根据权利要求6所述的聚类分析方法，其特征在于，所述对所有话题进行聚类的方法包括：

将每个话题归为一类时，采用类间最大距离衡量类间距离；

找到S-Euc最接近的两个类并合并成一类，找到S-DTW最接近的两个类并合并成一类；

分别计算基于S-Euc和S-DTW的该次聚类的轮廓系数；

重复上述步骤，分别得到基于S-Euc和S-DTW轮廓系数随聚类个数的变化曲线，观察曲线是否有极值点，将轮廓系数极大值或最大值对应的聚类个数作为最佳聚类个数，相应的聚类结果作为所有话题的分类结果。

10.根据权利要求9所述的聚类分析方法，其特征在于，还包括：

当轮廓系数极大值有多个时，选择聚簇紧密性大的聚类个数作为最佳聚类个数。