CN104778280B

CN104778280B - 基于近邻传播的文本数据流聚类算法

Info

Publication number: CN104778280B
Application number: CN201510221327.6A
Authority: CN
Inventors: 倪丽萍; 李鸣; 李一鸣; 倪志伟; 伍章俊
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2015-05-04
Filing date: 2015-05-04
Publication date: 2018-02-02
Anticipated expiration: 2035-05-04
Also published as: CN104778280A

Abstract

本发明公开了一种基于近邻传播的文本数据流聚类算法，其特征是按如下步骤进行：1对文本数据集进行降维处理，获得相应的文本向量集；2获得所有时刻的聚类中心，并完成聚类算法。本发明不需要预先指定聚类个数，就能提高算法的准确率和鲁棒性，从而满足解决实际问题的需要。

Description

基于近邻传播的文本数据流聚类算法

技术领域

本发明涉及一种基于近邻传播的文本数据流聚类算法。

背景技术

随着大数据时代的到来，网络上产生了大量非结构化数据。面对这些实时产生、数据量庞大、结构复杂的非结构化数据，人们迫切需要从中提取有价值的信息和知识。文本数据流聚类技术是分析这些非结构化数据的常用方法，它在新闻过滤、话题检测及跟踪(TDT)、用户特征推荐等方面取得了很好的应用效果，迅速成为当前的研究热点。由于文本数据具有高维稀疏特征，如何提高聚类算法的效率和准确率至关重要。2005年Shi Zhong提出OSKM算法，该算法是k-means算法的扩展，其将不断流入的数据流分成小份，每一份都可以在内存中高效地得到处理。随后，在这些数据上进行k-means迭代，得到聚类结果。

该算法还有以下缺点：每次聚类都需要预先确定聚类个数，不能随着类别的变化对聚类个数进行变化。当前有研究将语义平滑模型扩展到文本数据流中。但基于语义的方法要花费很多的人力建立语料库，算法的时间、空间复杂度较高。也有研究提出一种CluStream算法，该方法引入衰减函数，给予每篇文档权重，权重随时间进行衰减。算法对类球形簇能取得较好的聚类结果，但较难聚成任意形状的簇。还有研究提出一种HPStream算法，该算法采用高维投影技术选择子空间进行聚类，同时使用衰减函数表示演化信息，但先验参数——平均聚类维数难以确定。以上的改进研究在一定程度上适应了流式聚类等问题但在聚类结果的精确度和鲁棒性方面仍然未得到很好地解决，需要进一步的改进完善。

发明内容

本发明为了克服现有技术存在的不足之处，提出一种基于近邻传播的文本数据流聚类算法，以期不需要预先指定聚类个数，就能提高算法的准确率和鲁棒性，从而满足解决实际问题的需要。

本发明为解决技术问题采用如下技术方案：

本发明一种基于近邻传播的文本数据流聚类算法的特点是按如下步骤进行：

步骤1、对所述文本数据集进行降维处理，获得相应的文本向量集；

步骤1.1、利用TF-IDF法对所述文本数据集进行处理，获得所述文本数据集中的每个关键字和其频率的对应关系，记为＜key,value＞；

步骤1.2、对所述文本数据集按照字典顺序进行排序，并根据所述排序建立索引；

步骤1.3、将所述索引与所述关键字建立对应关系，从而使得每个关键字和其频率的对应关系＜key,value＞转换为每个索引与其频率的对应关系，记为文本向量集＜index,value＞；

步骤2、获得所有时刻的聚类中心：

步骤2.1定义时刻t、最大时刻t_max；并初始化t＝0；

步骤2.2、在t时刻从文本向量集＜index,value＞中获取n文本向量，记为表示t时刻的第i个文本向量；并有

步骤2.3、将所述t时刻的n个文本向量N^(t)的权重记为表示t时刻的第i个文本向量的权重；并初始化

步骤2.4、利用式(1)获得t时刻的第i个文本向量与第j个文本向量的归一化的余弦相似度cos^(t)(i,j)，1≤j≤n：

步骤2.5、利用式(2)获得t时刻的第i个文本向量与第j个文本向量的相似度矩阵S^(t)(i,j)：

式(2)中，s^(t)为t时刻的参数，表示当i≠j时所获得的t时刻的所有相似度矩阵S^(t)(i,j)的中值的一半；

步骤2.6、将所述t时刻的参数s^(t)赋值给AP算法中第i个参考度P_i ^(t)，采用AP算法对所述t时刻的n个文本向量N^(t)进行聚类，获得t时刻的m_t个聚类中心，记为表示t时刻的第v_t个聚类中心；并初始化γ表示吸引因子；γ∈[0,1]；1≤v_t≤m_t＜n；

步骤2.7、将t+1赋值给t；并判断t＝t_max是否成立，若成立，则执行步骤2.11；否则从所述文本向量集＜index,value＞中获得t时刻的n文本向量

步骤2.8、将所述t-1时刻的m_t-1个聚类中心C^(t-1)加入到所述t时刻的n文本向量N^(t)中，从而获得更新的n+m_t-1个文本向量

步骤2.9、将所述更新的n+m_t-1个文本向量N^(t)′作为所述t时刻的文本向量N^(t)，并返回步骤2.3-步骤2.6顺序执行；从而获得t时刻的m_t个聚类中心C^(t)；

步骤2.10；返回步2.7顺序执行；

步骤2.11；从而获得所有时刻的聚类中心；并完成所述聚类算法。

本发明所述的基于近邻传播的文本数据流聚类算法的特点也在于，所述步骤2.4是按如下过程获得t时刻的第i个文本向量与第j个文本向量的归一化的余弦相似度cos^(t)(i,j)：

步骤2.4.1、将t时刻的第i个文本向量的索引和其对应的频率分别存入数组和中，将t时刻的第j个文本向量的索引和其对应的频率分别存入数组和中；

步骤2.4.2、定义变量ia、jb和sum；并初始化ia＝0；jb＝0；sum＝0

步骤2.4.3、判断且是否成立，若成立，则执行步骤2.4.4；否则，执行步骤2.4.10；

步骤2.4.4、判断是否成立，若成立，则执行步骤2.4.5；否则执行步骤2.4.7；

步骤2.4.5、将的值赋值给sum；

步骤2.4.6、将ia+1赋值给ia；将jb+1赋值给jb；并返回步骤2.4.3执行；

步骤2.4.7、判断是否成立，若成立，则执行步骤2.4.8；否则执行步骤2.4.9；

步骤2.4.8、将jb+1赋值给jb；并返回步骤2.4.3执行；

步骤2.4.9、将ia+1赋值给ia；并返回步骤2.4.3执行；

步骤2.4.10、将sum赋值给cos^(t)(i,j)。

与已有技术相比，本发明的有益效果体现在：

1、本发明采用滑动时间窗口思想：利用滑动时间窗口进行聚类的优势在于每个滑动时间窗口内的数据都可以保存在内存中，这样可以对该窗口内的数据点进行多次处理，在保证时间效率的同时提高聚类准确率；同时，根据可用的缓冲区大小或者实验需求等，还可以变换滑动时间窗口大小，使算法具有较好的伸缩性和可扩展性。

2、本发明构造加权相似度矩阵的优点体现在以下两个方面：

A)在计算文本相似度时，通过建立单词索引提高计算效率。本发明在方法上采用归一化的余弦相似度，通过把整个文档建立一个单词索引，然后将得到的＜key,value＞转换为＜index,value＞，由于所有文档的index都是从小到大进行排列的，在进行相似度计算时通过在两篇文档的向量中按顺序寻找index，如果两篇文档的index值相等那么将两篇文档相应index下的value相乘，这样累加直到计算出两篇文档之间的相似度，从而降低了计算的时间复杂度；

B)在权重的构造方面使权重的分配更加合理化。本发明通过引入吸引度因子，将选出的聚类中心在下一个时间窗口的聚类中赋予合理权重，避免了由于聚类中心权重赋予过大导致在相似度矩阵的构造方面不符合实际进而导致聚类效果降低的问题。

3、本发明基于AP算法，不需要像k-means聚类算法那样事先指定聚类个数，使得算法鲁棒性更好，并通过引入吸引度因子，使历史聚类中心更具吸引性，聚类结果较为稳定，同时，对滑动时间窗口中的数据进行动态处理，更适合流式状态，既能体现数据流的动态特征，又能反映数据流的分布特征，聚类结果较准确。

具体实施方式

本实施例中，一种基于近邻传播的文本数据流聚类算法——OWAP-s算法是按如下步骤进行：

步骤1、对文本数据集进行降维处理，获得相应的文本向量集；

为了应对文本数据高维稀疏的特点，采用如下降维方法：

首先通过把整个文档建立一个单词索引，然后将得到的＜key,value＞转换为＜index,value＞。其中index指的是单词的序号，value指的是数值。由于所有文档的index都是从小到大进行排列的，在进行相似度计算时我们通过在两篇文档的向量中按顺序寻找index，如果两篇文档的index值相等那么将两篇文档相应index下的value相乘，这样累加直到计算出两篇文档之间的相似度。具体地说：

步骤1.1、利用TF-IDF法对文本数据集进行处理，获得文本数据集中的每个关键字和其频率的对应关系，记为＜key,value＞；

步骤1.2、对文本数据集按照字典顺序进行排序，并根据排序建立索引；字典排序就是根据字典中的26个字母顺序进行排序；

步骤1.3、将索引与关键字建立对应关系，从而使得每个关键字和其频率的对应关系＜key,value＞转换为每个索引与其频率的对应关系，记为文本向量集＜index,value＞；

步骤2、获得所有时刻的聚类中心：其采用半连续处理过程，将整个文本数据流分成一个个滑动时间窗口(t＝0,1,2...)，对每个时间窗口中流入的数据N^(t)和历史数据C^(t-1)进行聚类并将聚类结果用到下一个时间窗口中的数据聚类上。具体地说：

步骤2.1定义时刻t、最大时刻t_max；并初始化t＝0；

步骤2.2、在t时刻从文本向量集＜index,value＞中获取n文本向量，即滑动窗口的大为n,记为表示t时刻的第i个文本向量；并有每篇文档都有其对应的index和value组成，1≤i≤n；

步骤2.3、将t时刻的n个文本向量N^(t)的权重记为表示t时刻的第i个文本向量的权重；并初始化即对于每个时间t的滑动窗口中的非聚类中心数据的权重赋值为1；

即通过代表文本的index和value进行文本相似度的计算，具体地：

步骤2.4.1、将t时刻的第i个文本向量的索引和其对应的频率分别存入数组和中，即将其拆分至两个数组中；将t时刻的第j个文本向量的索引和其对应的频率分别存入数组和中；

步骤2.4.2、定义变量ia、jb和sum；并初始化ia＝0；jb＝0；sum＝0

步骤2.4.5、将的值赋值给sum；即将相同项对应的value值相加求和；

步骤2.4.8、将jb+1赋值给jb；并返回步骤2.4.3执行；

步骤2.4.9、将ia+1赋值给ia；并返回步骤2.4.3执行；

步骤2.4.10、将sum赋值给cos^(t)(i,j)，最后的sum值即为两篇文档之间的余弦相似度值；

式(2)中，s^(t)为t时刻的参数，表示当i≠j时所获得的t时刻的所有相似度矩阵S^(t)(i,j)的中值的一半；这样做可以充分体现文档之间的非对称加权相似度，使得相似度计算过程更加合理；

步骤2.6、将t时刻的参数s^(t)赋值给AP算法中第i个参考度P_i ^(t)，采用AP算法对t时刻的n个文本向量N^(t)进行聚类，获得t时刻的m_t个聚类中心，记为表示t时刻的第v_t个聚类中心；并初始化γ表示吸引因子；γ∈[0,1]；取值范围不同取得的结果也会不同；1≤v_t≤m_t＜n；

步骤2.7、将t+1赋值给t；并判断t＝t_max是否成立，若成立，则执行步骤2.11；否则从文本向量集＜index,value＞中获得t时刻的n文本向量

步骤2.8、将t-1时刻的m_t-1个聚类中心C^(t-1)加入到t时刻的n文本向量N^(t)中，从而获得更新的n+m_t-1个文本向量：

这样可以让t-1时刻的历史数据对当前t时刻数据的聚类产生一定的影响；

步骤2.9、将更新的n+m_t-1个文本向量N^(t)′作为t时刻的文本向量N^(t)，并返回步骤2.3-步骤2.6顺序执行；从而获得t时刻的m_t个聚类中心C^(t)；

步骤2.10；返回步2.7顺序执行；

步骤2.11；从而获得所有时刻的聚类中心；并完成聚类算法。

Claims

1.一种基于近邻传播的文本数据流聚类算法，其特征是按如下步骤进行：

步骤2、获得所有时刻的聚类中心：

步骤2.1定义时刻t、最大时刻t_max；并初始化t＝0；

步骤2.2、在t时刻从文本向量集＜index,value＞中获取n个文本向量，记为表示t时刻的第i个文本向量；并有

<mrow> <msup> <mi>cos</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>N</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>&CenterDot;</mo> <msubsup> <mi>N</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msup> <mi>S</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mrow> <msubsup> <mi>WN</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> <mrow> <msubsup> <mi>WN</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mfrac> <mn>1</mn> <mrow> <msup> <mi>cos</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>&NotEqual;</mo> <mi>j</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <msubsup> <mi>WN</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mfrac> <mo>)</mo> <mo>&CenterDot;</mo> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> </mrow> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mi>j</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

步骤2.7、将t+1赋值给t；并判断t＝t_max是否成立，若成立，则执行步骤2.11；否则从所述文本向量集＜index,value＞中获得t时刻的n个文本向量

步骤2.8、将t-1时刻的m_t-1个聚类中心C^(t-1)加入到所述t时刻的n个文本向量N^(t)中，从而获得更新的n+m_t-1个文本向量

步骤2.10；返回步2.7顺序执行；

2.根据权利要求1所述的基于近邻传播的文本数据流聚类算法，其特征是，所述步骤2.4是按如下过程获得t时刻的第i个文本向量与第j个文本向量的归一化的余弦相似度cos^(t)(i,j)：

步骤2.4.2、定义变量ia、jb和sum；并初始化ia＝0；jb＝0；sum＝0

步骤2.4.5、将的值赋值给sum；

步骤2.4.8、将jb+1赋值给jb；并返回步骤2.4.3执行；

步骤2.4.9、将ia+1赋值给ia；并返回步骤2.4.3执行；

步骤2.4.10、将sum赋值给cos^(t)(i,j)。