CN109508379A

CN109508379A - 一种基于加权词向量表示和组合相似度的短文本聚类方法

Info

Publication number: CN109508379A
Application number: CN201811574621.5A
Authority: CN
Inventors: 陈福; 陈小波
Original assignee: Shanghai Wen Jun Information Technology Co Ltd
Current assignee: Shanghai Wen Jun Information Technology Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-03-22

Abstract

本发明公开了一种加权词向量表示和组合相似度的短文本聚类方法。本方法为：短文本预处理。构造短文本的加权词向量表示。计算短文本之间的欧式距离相似度和余旋相似度，构造组合相似度矩阵。构造短文本的低维向量表示。最后，应用K均值聚类算法，以实现更加准确的短文本聚类。

Description

一种基于加权词向量表示和组合相似度的短文本聚类方法

技术领域

本发明属于自然语言处理技术与模式识别领域，具体地说是一种基于加权词向量表示和组合相似度的短文本聚类方法。

背景技术

随着互联网的快速发展和社交媒体的广泛流行，人们大量利用手机短信、微信、微博、论坛等方式表达时事新闻、产品评论等信息。其中，短文本是一种长度比较短、内容比较少的文本(通常指160个字符以内的文本)。最近几年，互联网上的短文本以极快的增长速度出现，成为一种重要的信息传播方式。短文本能让用户快速了解主题内容，又不占用过多的阅读时间。短文本的主要特点在于长度短，所包含的内容比较少，结构极其不统一。在处理大量短文本时存在高度稀疏的问题。因此，如何准确且快速的从规模庞大的短文本数据中抽取有价值的信息成为了一个新的挑战。

目前，人们对短文本聚类展开了很大研究。针对短文本稀疏性特点，一些方法借助维基百科或本体库对短文本数据进行丰富和扩充。一些方法通过传统的词频特征对短文本进行表示，这种方式模型简单、易于构造，词频能在一定程度上反映了词语的重要性。但这类方法没有考虑到词语之间的高层语义关系，聚类效果不够理想。近年来，随着深度神经网络的兴起，一些方法开始应用深度学习自动从海量文本数据中学习词语表示。

词向量可以产生词语的分布式表示，能反映词语的语义信息。计算短文本中所有词向量的平均可以得到短文本的表示。然而，这种短文本表示方法简单认为所有词语具有相同的重要性，没有考虑到词语之间的差异，这可能导致一些重要词语的信息被削弱。同时聚类算法的性能也对短文本聚类的效果有很大影响。本发明通过结合文本的词频表示，赋予重要的词语以较大权重、不重要的词语以较小权重，按词语的权重对词向量进行加权组合，得到短文本更好的表示。同时，将多种文本相似度进行组合，以适应于不同的应用场景。针对加权词向量维度较高，存在特征冗余的缺陷，将加权词向量进行降维，得到短文本的低维向量表示，本发明在所述短文本低维向量表示的基础上应用K均值聚类算法，得到更稳定、准确的短文本聚类。

发明内容

本发明为了克服现有技术存在的不足之处，提出一种基于加权词向量表示和组合相似度的短文本聚类方法，以期能进一步提高短文本聚类的准确性。

本发明为解决技术问题采用如下技术方案：

本发明一种基于加权词向量表示和组合相似度的短文本聚类方法的特点是按如下步骤进行：

步骤1：数据获取。获取短文本集合D＝{D₁，D₂，…，D_N}，D_i表示第i个短文本，1≤i≤N，N为集合D中的短文本总数；

步骤2：对短文本集合D中的每个短文本D_i进行分词，并对分词结果进行去除停用词，从而获得第i个短文本的词语集合d_j表示D_i中的第j个词语；1≤j≤m_i，m_i为去除停用词后D_i中包含的词语总数；

步骤3：计算短文本集合D＝{D₁，D₂，…，D_N}的加权词向量表示{f₁，f₂，…，f_N}：

步骤3.1：对每个短文本D_i，根据下述TF-IDF公式，计算所包含的词语d_i的权重w_i：

其中，TF_ij表示词语d_j在短文本D_i中出现的次数，DF_j表示出现词语d_j的短文本个数，N为集合D中的短文本总数。

步骤3.2：通过查表的方式得到每个短文本D_i中每个词语的词向量表示其中为词语d_j的词向量表示，

步骤3.3：计算每个短文本D_i的加权词向量表示：

步骤4：构造短文本之间的组合相似度矩阵S：

步骤4.1：根据下式计算短文本D_m与D_n之间的欧式距离相似度

其中，为所述欧式距离相似度矩阵，σ为尺度参数，||f_m-f_n||表示向量f_m-f_n的2范数。

步骤4.2：根据下式计算短文本D_m与D_n之间的余弦相似度

其中，为所述余弦相似度矩阵，表示向量f_m与f_n的内积。

步骤4.3：根据下式计算短文本D_m与D_n之间的组合相似度：

其中，S＝[S_mn]_{m，n∈[1，N]}为所述组合相似度矩阵，1≥α≥0为用于调节欧式距离相似度与余弦相似度的权重参数，注意S为一个对称矩阵。

步骤5：计算所述短文本集合D＝{D₁，D₂，…，D_N}的低维向量表示{g₁，g₂，…，g_N}：

步骤5.1：根据下式构造标准拉普拉斯矩阵L：

其中，A为N×N的对角矩阵，对角线上的元素为1≤m≤N

步骤5.2：对拉普拉斯矩阵L进行特征值分解，得到N个特征值及对应的特征向量。将特征值按从大到小的顺序排列为λ₁≥λ₂≥…≥λ_N，对应的特征向量依次为v₁，v₂，…，v_N，每个v_i均为一个有N个元素的列向量。

步骤5.3：取上述特征向量的前K个，构造一个N×K的矩阵B＝[v₁，v₂，…，v_K]

步骤5.4：根据下式对矩阵B每一行进行单位化处理，得到一个N×K的矩阵C：

步骤5.5：得到所述短文本集合D＝{D₁，D₂，…，D_N}的低维向量表示{g₁，g₂，…，g_N}，其中，g_i为矩阵C的第i行，代表R^K空间中的一个点。

步骤6：应用K均值聚类算法对所述短文本集合的低维向量表示{g₁，g₂，…，g_N}进行聚类：

步骤6.1：随机选取Q个短文本对应的低维向量作为聚类中心{q₁，q₂，…，q_Q}

步骤6.2：根据下式计算所有短文本与所述聚类中心的距离r_ij：

r_ij＝||g_i-q_j||

其中，g_i为第i个短文本的低维向量表示，q_j为第j个聚类的中心。

步骤6.3：根据第i个短文本到每个类中心的距离，将所述短文本划分到距离最小的类中，得到所述短文本的类标c_i：

步骤6.4：根据属于第j个类的短文本集合，按照下述公式，计算新的聚类中心：

其中，1(c_i＝j)为指示函数，如果c_i＝j成立，则1(c_i＝j)＝1，否则1(c_i＝j)＝0。

步骤6.5：重复步骤6.2-6.4，直到两次迭代的聚类中心差异度小于预设阈值。

本发明的有益效果在于：本发明的短文本聚类方法能够以词语的TF-IDF作为词向量的权重，有助于增强重要词语的权重，弱化不重要词语的权重，获得的加权词向量表示能更好表示短文本的关键信息；组合相似度结合了欧式距离相似度与余弦相似度的优点，可以根据不同应用场景调节两种相似度的权重；短文本的低维向量表示可以显著降低加权词向量的维度，挖掘短文本分布的内在结构，同时降低聚类算法的时间复杂度。因此，本发明的短文本聚类方法能学习到更好的语义表示，实现较好的聚类效果。

附图说明

图1为本发明过程的示意图

具体实施方式

本发明为了克服现有技术存在的不足之处，提出一种基于加权词向量表示和组合相似度的短文本聚类方法，以期能进一步提高文本情感分类的准确性。

为更为具体地描述本发明，下面结合附图和具体实施方式对本发明的技术方案进行详细说明。

图1所示的是本实施例一种基于多特征融合集成学习的文本情感分类方法的流程图，具体过程为：

中文分词操作主要基于字符串匹配原理，现有的开源中文分词软件包括结巴(Jieba)分词、中科院汉语分词系统(ICTCLAS)。此步骤采用结巴(Jieba)分词进行分词操作。

去停用词即去掉分词词语中与文本情感判断不太相关的词语，如空格、特殊字符、人名、时间日期、不含语义信息的词等。

步骤3.1：对每个短文本D_i，根据下述TF-IDF公式，计算所包含的词语d_i的权重w_j：

步骤3.3：计算每个短文本D_i的加权词向量表示：

步骤4：构造短文本之间的组合相似度矩阵S：

步骤4.1：根据下式计算短文本D_m与D_n之间的欧式距离相似度

步骤4.2：根据下式计算短文本D_m与D_n之间的余弦相似度

其中，为所述余弦相似度矩阵，表示向量f_m与f_n的内积。

步骤4.3：根据下式计算短文本D_m与D_n之间的组合相似度：

其中，S＝[S_mn]_{m，n∈[1，N]}为所述组合相似度矩阵，注意S为一个对称矩阵。α为用于调节欧式距离相似度与余弦相似度的权重参数。

α的取值介于0到1之间，α越大表明欧式距离相似度更重要，α越小表明余弦相似度更重要，比如若α＝0.5说明两种相似度同等重要。

步骤5.1：根据下式构造标准拉普拉斯矩阵L：

其中，A为N×N的对角矩阵，对角线上的元素为1≤m≤N。

步骤5.3：取上述特征向量的前K个，构造一个N×K的矩阵B＝[v₁，v₂，…，v_K]。

一种选取K的方法为计算相邻特征值之差λ₁-λ₂，λ₂-λ₃，…，λ_N-1-λ_N，如果第i个特征值与第i+1个特征值的差异最大，则确定K为

r_ij＝||g_i-q_j||

其中，1(c_i＝j)为指示函数，如果c_i＝j成立，则1(c_i＝j)＝1，否则1(c_i＝j)＝0

Claims

1.一种基于加权词向量表示和组合相似度的短文本聚类方法，其特征在于包括如下步骤：

步骤1：获取短文本数据集合D＝{D₁，D₂，…，D_N}，D_i表示第i个短文本，1≤i≤N，N为集合D中的短文本总数

步骤2：对短文本集合D中的每个短文本D_i进行分词，并对分词结果进行去除停用词，从而获得第i个短文本的词语集合d_j表示D_i中的第j个词语；1≤j≤m_i，m_i为去除停用词后D_i中包含的词语总数

步骤3：计算短文本集合D＝{D₁，D₂，…，D_N}的加权词向量表示{f₁，f₂，…，f_N}

步骤4：构造短文本之间的组合相似度矩阵S

步骤6：应用K均值聚类算法对所述短文本集合的低维向量表示{g₁，g₂，…，g_N}进行聚类。

2.根据权利要求1所述的一种基于加权词向量表示和组合相似度的短文本聚类方法，其特征在于步骤3包括：

步骤3.1：对每个短文本D_i，根据下述TF-IDF公式，计算所包含的词语d_j的权重w_j：

其中，TF_ij表示词语d_j在短文本D_i中出现的次数，DF_j表示出现词语d_j的短文本个数，N为集合D中的短文本总数

步骤3.2：通过查表的方式得到每个短文本D_i中每个词语的词向量表示其中v_j＝[v_j1，v_j2，…，v_jp，]为词语d_j的词向量表示

步骤3.3：计算每个短文本D_i的加权词向量表示：

3.根据权利要求1所述的一种基于加权词向量表示和组合相似度的短文本聚类方法，其特征在于步骤4包括：

步骤4.1：根据下式计算短文本D_m与D_n之间的欧式距离相似度

其中，为所述欧式距离相似度矩阵，σ为尺度参数，||f_m-f_n||表示向量f_m-f_n的2范数

步骤4.2：根据下式计算短文本D_m与D_n之间的余弦相似度

其中，为所述余弦相似度矩阵，表示向量f_m与f_n的内积

步骤4.3：根据下式计算短文本D_m与D_n之间的组合相似度：

其中，S＝[S_mn]_m，n∈[1，N]为所述组合相似度矩阵，1≥α≥0为用于调节欧式距离相似度与余弦相似度的权重参数，注意S为一个对称矩阵。

4.根据权利要求1所述的一种基于加权词向量表示和组合相似度的短文本聚类方法，其特征在于步骤5包括：

步骤5.1：根据下式构造标准拉普拉斯矩阵L：

其中，A为N×N的对角矩阵，对角线上的元素为1≤m≤N

步骤5.2：对拉普拉斯矩阵L进行特征值分解，得到N个特征值及对应的特征向量。将特征值按从大到小的顺序排列为λ₁≥λ₂≥…≥λ_N，对应的特征向量依次为v₁,v₂,…,v_N，每个v_i均为一个有N个元素的列向量

5.根据权利要求1所述的一种基于加权词向量表示和组合相似度的短文本聚类方法，其特征在于步骤6包括：

r_ij＝||g_i-q_j||

其中，g_i为第i个短文本的低维向量表示，q_j为第j个聚类的中心