CN106599029B

CN106599029B - 一种中文短文本聚类方法

Info

Publication number: CN106599029B
Application number: CN201610952122.XA
Authority: CN
Inventors: 崔莹; 曹杰; 姚瑞波; 叶婷; 伍之昂; 申冬琴
Original assignee: Nanjing University of Finance and Economics; Focus Technology Co Ltd
Current assignee: Nanjing University of Finance and Economics; Focus Technology Co Ltd
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2021-04-06
Anticipated expiration: 2036-11-02
Also published as: CN106599029A

Abstract

本发明涉及一种中文短文本聚类方法，具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。具体步骤如下,利用Word2Vec词向量训练模型获得所需要的词向量；利用词权重计算算法获取短文本集中所有词的权重；根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值；根据短文本集中每两个文本之间的相似度值对短文本进行聚类。本发明提出一种“搬运优化”的短文本相似度计算方法，解决了短文本文法特征稀疏和语义缺失等问题；基于图模型不断迭代计算词的权重，提高句子相似度计算的准确度；选择基于密度峰值聚类方法应用到短文本的聚类中，有效地提高聚类方法的效率。

Description

一种中文短文本聚类方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。

背景技术

近年来，由于移动设备的普及与社交媒体平台的更新，社交媒体的表现形式发生了巨大的变化。其变化具体体现在：实现了从长文本向短文本的过渡，重心也从博客、论坛等传统的长文本社交媒体平台向新浪微博、Twitter等短文本社交媒体平台转移。

短文本社交媒体平台的即时性与便利性大大促进了信息量的增长。与传统文本相比，社会网络中的短文本具有文本短、话题多样、垃圾多、带有感情倾向性等特点，给用户快捷地获取客观有用的信息带来了巨大的挑战。中文短文本摘要技术能够将海量的文本信息归类到不同的主题下，有效缓解信息过载问题，同时可在诸多领域得到实际应用，如话题检测与跟踪、交互式问答系统以及舆情监测系统等。

短文本聚类技术通过对大量的短信息进行分析、处理、组织，将短文本集进行划分归类，其本质是句子相似度计算和聚类算法的选择。现有的短文本相似度的计算方法主要包括计算相同词汇个数、Jaccard相似系数、cosine相似度等，这些算法未考虑到短文本的语义知识。文本的聚类算法主要有k-means，k-means改进方法bisecting k-means、k-means++、层次聚类、训练模型贝叶斯分类器等，这些算法均需通过迭代数次直到结果最优为止。

因此，本发明针对目前社交媒体中短文本信息过载，以及还有现有的短文本相似度的计算方法主要包括计算相同的词汇个数、Jaccard相似系数、cosine相似度等，这些算法未考虑到短文本的语义知识的问题，提供了一种中文短文本聚类方法，具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。

发明内容

本发明的目的是解决目前社交媒体中短文本信息过载，以及还有现有的短文本相似度的计算方法主要包括计算相同的词汇个数、Jaccard相似系数、cosine相似度等，这些算法未考虑到短文本的语义知识的问题。

为实现上述目的，本发明提供了一种中文短文本聚类方法，具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法，包括以下步骤：

利用Word2Vec词向量训练模型获得所需要的词向量；利用词权重计算算法获取短文本集中所有词的权重；根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值；根据短文本集中每两个文本之间的相似度值对所述短文本进行聚类。

所述获得所需要的词向量的步骤包括：将语料库进行预处理，预处理后的语料库利用所述Word2Vec词向量训练模型进行训练；经过所述Word2Vec词向量训练模型训练结束后获得语料库中所有词的所述词向量。

所述获得短文本集中所有词的权重的步骤包括：将短文本集进行预处理，经过所述预处理后获得词集，根据所述词集的位置关系构建一个有向图；根据所述有向图，分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重；根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵；给短文本中每个词分配权重初值，再根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重；设定阈值，若更新后词的权值与更新前的权值的差值小于阈值，则迭代计算停止；根据所述迭代更新后获得所述短文本集中每个词的权重。

设定阈值，若新后词的权值与更新前的权值的差值大于等于阈值，则跳转执行所述根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重的步骤。

根据得到的所述词向量和所述词的权值应用于所述短文本的相似度计算中，根据以下公式计算短文本集中每两个文本之间的相似度值，所述公式为：

上式中：m表示短文本t₁，t₂中包含的不同的词的个数；i、j分别表示短文本t₁，t₂中的词；B_i为词权重，W_i为词在短文本中所有词权重所占的比重，T′∈R^m×m为权重矩阵，矩阵中的元素T′_ij表示从词i到j词移动了i到j个单位，通过计算得到的每个词的权重衡量；c(i,j)表示词i和词j所对应的词向量之间的欧式里德距离。

所述聚类包括以下步骤：根据所述短文本集中每两个文本之间的相似度值以及利用电场中熵确定边界区域值；根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值；将所述每个短文本的局部密度和距离值进行归一化处理，获处理之后获得类簇个数和聚类中心；根据获得的所述类簇中点的距离和密度将所述短文本集中所有的短文本分配到所属的类簇中。

执行所述每个短文本的局部密度和距离值进行归一化处理的步骤作用于使所述短文本处于同一数量级。

所述根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值的步骤中利用以下的局部密度公式和距离公式获得所述局部密度和距离值，具体公式如下：

局部密度公式

上式中：d_ij是指短文本i与短文本j之间的相似度；d_c是指边界区域；

距离公式

上式中：

表示

的一个降序排序的下标序列，即是

所述根据所述有向图，分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重的步骤中，利用下述公式计算所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重，具体公式如下:

计算所述短文本集中的词的IF-IDF转移权重，短文本中词i的IF-IDF的转移权重标记为wα(i)，则词i的词频权重转移到词j的计算公式如下：

上式中：n表示短文本集中包含的不同词的个数；其中，Out(i)＝{j|<i,j>∈E}；

计算词i的左右熵转移权重，为忽略词频对熵值的影响，采用最大值归一化方法对熵值进行处理，即将左右熵值除以短文本中所有词的词频最大值，词i熵值权重转移到词j的计算公式如下：

上式中：wβ(j)为归一化后的左右熵值之和；

计算词i的覆盖率权重转移到词j的计算公式如下：

上式中：|Out(i)|表示节点i指向的节点的个数。

所述根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵的步骤中包括：

构建词之间所述权值转移矩阵P∈R^n×n，P_ij的计算公式如下：

P_ij＝αwα(j,i)+βwβ(j,i)+γwγ(j,i)

subject to:α+β+γ＝1

上式中：α、β、γ为调节因子；P_ij表示词j的权重分配词i的比重，

其中，本发明涉及一种“搬运优化”的短文本相似度计算方法，算法在短文本相似度算法中首先引入语义知识，利用词向量训练模型获得词的向量，构建词与词的语义关系；其次量化词的权重对词移动单元个数的影响，基于图模型，提取词的特征，对这些特征做一整体融合，通过词与词的迭代增强获得词的权重；最后根据“搬运优化”原理计算短文本间的相似度。

本发明的有益效果是：本发明提出一种“搬运优化”的短文本相似度计算方法，则是试图从语义上理解短文本，找到词的潜在语义信息，构建词与词之间的联系，解决短文本文法特征稀疏和语义缺失等问题；基于图模型不断迭代计算词的权重，量化词的重要性对词移动单元个数的影响，词与词之间相似度对词单元移动距离的影响，两者融合，提高句子相似度计算的准确度；而后，根据短文本之间的相似度值作为聚类过程中短文本之间相关度的衡量标准，相似度较大的短文本划分到一个簇中，本发明选择基于密度峰值的聚类方法应用到短文本的聚类中，只需一次遍历，即可将每个短文本分配到所属的类簇，有效地提高聚类方法的效率。

附图说明

图1为本发明实施例提供的一种中文短文本聚类方法流程图；

图2为本发明实施例提供的一种中文短文本聚类方法总体图；

图3为本发明实施例提供的一种利用电场势中熵的理念确定边界区域d_c值示意图；

图4为本发明实施例提供的一种图获取类簇个数及聚类中心示意图；

图5为本发明实施例提供的一种每个短文本所属的类簇示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种中文短文本聚类方法流程图。如图1所示，步骤S101：利用Word2Vec词向量训练模型获得所需要的词向量。

步骤S102：利用词权重计算算法获取短文本集中所有词的权重。

步骤S103：根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值。

步骤S104：根据短文本集中每两个文本之间的相似度值对短文本进行聚类。

图2为本发明实施例提供的一种中文短文本聚类方法总体图。如图2所示，本发明实施例提供的一种中文短文本聚类方法涉及到三大步骤：

首先，利用丰富的语料库借助Word2Vec词向量训练模型获得词向量；其次，将实验使用的短文本数据集处理后，利用本发明提出的词权重计算方法获取所有词的权重；最后，将训练得到的词向量以及词的权重应用到本发明提出的短文本相似度算法中。

首先，利用丰富的语料库借助Word2Vec词向量训练模型获得词向量具体步骤如下：

(1)丰富语料库，本发明实施例中所使用的语料库包括中文维基百科数据、全网新闻数据(SogouCA)以及搜狐新闻数据(SogouCS)。

(2)预处理：将语料库进行预处理，预处理包括繁体转简体、分词以及去停用词处理。

(3)Word2Vec模型训练：将预处理后的语料库通过Word2Vec模型进行训练。

具体地，选择Word2vec模型训练获得中文的词向量，词向量为400维，词向量举例如下：

(4)词向量：经过Word2Vec词向量训练模型训练结束后获得语料库中所有词的词向量。

其次，将实验使用的短文本数据集处理后，利用本发明提出的词权重计算方法获取所有词的权重的具体步骤为：

(1)构建词网络：将短文本集进行预处理，其中预处理包括分词、去停用词和去单个字处理，对使用的短文本集预处理后获得词集，根据词的位置关系构建一个有向图G＝(V,E)，其中，V表示词集对应的节点集合，E为有向边，若某一短文本中词i的下一个词为词j，则存在一条边由词i指向词j。

具体地，短文本集分词、去停用词。数据集共66个，通过人工标注分成3个簇，1-21为第一簇，标记为法律，22-45为第二簇，标记为教育，46-66为第三簇，标记为娱乐，部分结果如下：

(2)融合词的特征计算权值转移矩阵，包括词的IF-IDF转移权重计算、左右熵转移权重计算、覆盖度转移权重计算：根据有向图以及公式分别计算词的IF-IDF转移权重、左右熵转移权重、覆盖度转移权重。具体公式如下：

计算短文本集中的词的IF-IDF转移权重，短文本中词i的IF-IDF的转移权重标记为wα(i)，则词i的词频权重转移到词j的计算公式如下：

上式中：wβ(j)为归一化后的左右熵值之和；

计算词i的覆盖率权重转移到词j的计算公式如下：

上式中：|Out(i)|表示节点i指向的节点的个数。根据计算出的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重值构建权值转移矩阵，具体公式如下：

P_ij＝αwα(j,i)+βwβ(j,i)+γwγ(j,i)(4)

subject to:α+β+γ＝1

(3)计算词权重初值与(4)词与词增强：给短文本中每个此分配权重初值，再根据权重初值以及权值转移矩阵通过迭代计算并利用以下公式获得每个词的权值从而更新词的权重，具体公式如下：

迭代计算获得每个词的权值，公式如下：

上式中：d为阻尼系数，一般取0.85。

(5)收敛条件判断：设定阈值(阈值可设为无限趋于0的数)，若更新后的词权值与更新前的权值的差值大于等于阈值，则继续通过词词增强更新词的权值；若更新后的词权值与更新前的权值的差值小于阈值，则迭代停止。

(6)词的权重：通过迭代更新后获得短文本集中每个词的权值。

最后，将训练得到的词向量以及词的权重应用到本发明提出的短文本相似度算法中，具体步骤如下：

(1)短文本之间相似度计算：根据上面两个步骤得到的词向量和词权值，将其应用到本发明所提出的短文本相似度算法中，根据以下公式计算短文本集中每两个文本之间的相似度值，具体公式如下：

具体地，短文本相似度方法计算短文本之间的相似度，部分结果表如下：

本发明实施例将基于密度峰值的聚类方法应用到短文本聚类中，短文本之间的距离由其之间的相似度值衡量。聚类过程主要包括以下步骤：

(2)确定边界区域值：根据短文本集中每两个文本之间的相似度值以及利用电场中熵确定边界区域值。

具体地，利用电场势中熵的理念确定边界区域d_c值，可举例如图3所示。

(3)根据边界区域值、短文本相似度计算局部密度及距离值：根据边界区域值以及两个短文本之间的相似度值计算出每个短文本的局部密度和距离值，计算局部密度和距离值具体的公式如下：

局部密度公式

距离公式

上式中：

表示

的一个降序排序的下标序列，即是

(4)局部密度、距离归一化处理，确定簇的个数及聚类中心：根据每个短文本的局部密度和距离值进行归一化处理，获处理之后获得更加清晰准确的类簇个数和聚类中心，通过局部密度和距离归一化处理之后，使局部密度和距离处于同一数量级。

具体地：将边界区域d_c值、短文本之间相似度的值代入到局部密度计算公式和距离计算公式中，获得每个短文本的局部密度值及距离值，同时将短文本的局部密度值、距离值归一化处理，利用综合衡量指标，通过图获取类簇个数及聚类中心，如图4所示。

迭代一次，获得每个短文本所属的类簇，如图5所示。

本发明实施例中短文本聚类的效果较好，且仅迭代一次，效率较高。

(5)短文本分配到所属簇：根据获得的类簇中点的距离和密度对短文本集中所有的短文本进行分配，将短文本集中所有的短文本分配到满足条件为：密度高于所述原来的短文本集中所有的短文本且距离所述原来的短文本集中所有的短文本相近的短文本所属的类簇中。

本发明通过常规使用于图像检索的EMD(earth mover's distance)算法得出启示：将短文本看作是两个概率分布区域，而将短文本之间相似度的计算转化为如何在最小代价的情况下，将一个短文本中的所有词“搬运”到另一个短文本中对应的词，即转变为“搬运优化”问题；在计算词的转移权重时，考虑到词的重要性对词移动单元的影响，在词的关联网络中融入词的IF-IDF值，词的左右熵值以及词的覆盖率对词权值计算的影响；且在聚类过程中选择迭代次数少的基于密度峰值的聚类算法，从而得出本发明的聚类算法。

本发明的有益效果是：本发明提出一种“搬运优化”的短文本相似度计算方法，则是试图从语义上理解短文本，找到词的潜在语义信息，构建词与词之间的联系，解决短文本文特征稀疏和语义缺失等问题；基于图模型不断迭代计算词的权重，量化词的重要性对词移动单元个数的影响，词与词之间相似度对词单元移动距离的影响，两者融合，提高句子相似度计算的准确度；而后，根据短文本之间的相似度值作为聚类过程中短文本之间相关度的衡量标准，相似度较大的短文本划分到一个簇中，本发明选择基于密度峰值的聚类方法应用到短文本的聚类中，只需一次遍历，即可将每个短文本分配到所属的类簇，有效地提高聚类方法的效率。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文短文本聚类方法，其特征在于，包括以下步骤：

利用Word2Vec词向量训练模型从语料库中获得所需要的词向量；

利用词权重计算算法获取短文本集中所有词的权重，包括：将短文本集进行预处理，经过所述预处理后获得词集，根据所述词集的位置关系构建一个有向图；根据所述有向图，分别计算词的IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重；根据所述IF-IDF转移权重、左右熵转移权重以及覆盖度转移权重构建权值转移矩阵；给短文本中每个词分配权重初值，再根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重；设定阈值，若更新后词的权值与更新前的权值的差值小于阈值，则迭代计算停止；根据所述迭代更新后获得所述短文本集中每个词的权重；

根据所述词向量和所述所有词的权重通过短文本相似度算法计算所述短文本集中每两个文本之间的相似度值；

根据所述短文本集中每两个文本之间的相似度值对所述短文本进行聚类，包括：根据所述短文本集中每两个文本之间的相似度值以及利用电场中熵确定边界区域值；根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值；将所述每个短文本的局部密度和距离值进行归一化处理，获得处理之后的类簇个数和聚类中心；根据获得的所述类簇中点的距离和密度将所述短文本集中所有的短文本分配到所属的类簇中。

2.根据权利要求1所述的方法，其特征在于，所述获得所需要的词向量的步骤包括：

将语料库进行预处理，所述预处理后的语料库利用所述Word2Vec词向量训练模型进行训练；

经过所述Word2Vec词向量训练模型训练结束后获得语料库中所有词的所述词向量。

3.根据权利要求1所述的方法，其特征在于，设定阈值，若更新后词的权值与更新前的权值的差值大于等于阈值，则跳转执行所述根据所述权重初值以及所述权值转移矩阵通过迭代计算更新词的权重的步骤。

4.根据权利要求1所述的方法，其特征在于，根据得到的所述词向量和所述词的权值应用于所述短文本的相似度计算中，根据以下公式计算短文本集中每两个文本之间的相似度值，所述公式为：

上式中：n表示短文本集中包含的不同词的个数；m表示短文本t₁，t₂中包含的不同的词的个数；i、j分别表示短文本t₁，t₂中的词；B_i为词权重，W_i为词在短文本中所有词权重所占的比重，T′∈R^m×m为权重矩阵，矩阵中的元素T′_ij表示从词i到j词移动了i到j个单位，通过计算得到的每个词的权重衡量；c(i,j)表示词i和词j所对应的词向量之间的欧式里德距离。

5.根据权利要求1所述的方法，其特征在于，执行所述每个短文本的局部密度和距离值进行归一化处理的步骤作用于使所述短文本处于同一数量级。

6.根据权利要求1所述的方法，其特征在于，所述根据所述边界区域值以及所述两个短文本之间的相似度值计算出每个短文本的局部密度和距离值的步骤中利用以下的局部密度公式和距离公式获得所述局部密度和距离值，具体公式如下：

局部密度公式