CN109086443A

CN109086443A - 基于主题的社交媒体短文本在线聚类方法

Info

Publication number: CN109086443A
Application number: CN201810937692.0A
Authority: CN
Inventors: 费高雷; 蒋勇; 许舟军; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2018-12-25

Abstract

本发明公开一种基于主题的社交媒体短文本在线聚类方法，本发明采用保守的预聚类方法将文本预先聚合成长文本，增强了词语之间的共现关系，提取的主题更加清晰、区分度更高；并且使用平滑技术和归一化技术的贝叶斯推断方法，具有新主题判别功能，基于此实现的在线增量聚类方法，效率比非增量聚类方法更高，与传统的在线增量聚类方法相比，准确率更高，主题数量更接近真实值。

Description

基于主题的社交媒体短文本在线聚类方法

技术领域

本发明属于社交媒体的语义分析领域，特别涉及一种文本聚类技术。

背景技术

随着网络技术和移动互联网的飞速发展，全球数据量呈现爆炸式增长，消息交互变得前所未有的高效，搜索引擎已经不再是互联网第一流量来源，取而代之的是社交媒体。社交媒体对于用户来说仅仅是探索世界、分享自我的工具，但是社交媒体庞大的用户数量和信息自发传播的特性，使得社交媒体的潜在价值远远超过了产品最初的定位。

作为大数据分析的研究方向之一，社交媒体的语义分析是近几年的新兴学科，它涉及到社交网络分析、机器学习、数据挖掘、信息检索及自然语言处理等方面。与传统标准文本不同，社交媒体文本涉及到不同参与者的互动，在非正式环境中，用户随心所欲的持续生成大量文本。正因如此，社交媒体文本具有数量大、噪声多、拼写不规范以及非结构化等特点，社交媒体的预处理难度远大于传统文本。而且社交媒体普遍文本较短，语义极度缺失，再加上噪声导致的“长尾现象”，社交媒体文本的语义度量和聚类分析也面临着巨大挑战。

在文本聚类领域，根据结果的可解释性可将现有的技术大致分为三类，基于隐性语义模型的聚类方法，基于半显性语义模型的聚类方法，基于显性语义模型的聚类方法。隐性语义模型将文本语义映射到语义空空间的隐性向量上，计算向量相似度，再采用合适的聚类方法，但是社交媒体以短文本为主，文本稀疏，语义模糊，此类方法可解释性较差，在短文本上的性能表现一般。显性语义模型是基于大规模知识语料库的方法，大规模知识语料库的构建也是一个相当复杂和漫长的过程。半显性语义模型中代表性方法有隐狄利克雷分布(LDA)主题模型等，在长文本主题分类上已经是相当成熟的技术，但是在短文本上表现一般，且无法处理流式数据。

海量文本数据一般以流式数据的形式呈现，无法控制数据量和数据的处理顺序，数据的分布可能随时间改变，数据持续到达，这些都是文本大数据处理的难点。对于海量、高增长率和多样化的信息资源，需要新的处理模式才能有更强的决策力、洞察发现力和流程优化能力。

短文本在线聚类问题，可以分解为两个模块，文本特征提取和增量聚类。现有的方法都大多数是针对其中一个模块的技术。

文本特征提取模块中，三类语义模型都有成熟的方法。隐性语义模型的方法中最著名的是Mikolov的word2vec，该方法利用神经网络模型根据词的共现关系把语义映射到隐性向量上。与隐性语义模型对应的是显性语义模型，最具代表性的显性语义模型为ESA模型，ESA模型中词向量的每个维度代表一个明确的知识库文本，如Wikipedia文章(或标题)。半显性语义模型的典型方法是隐狄利克雷分布(LDA)主题模型，该方法假设主题和词语服从狄利克雷分布，通过最大化似然函数求解文本主题，把相同主题的文本划分为一类。增量聚类模块中，Papka R在1998年提出的Single-Pass方法由于计算量小、效率高被后来的研究者广泛采用。Xie在2015年提出的DEC方法利用深度学习技术，把文本特征提取和聚类结合起来，利用降噪编码器初始化文本向量，以t分布构建核函数衡量文本与主题的距离，不断优化文本当前主题分布与文本主题辅助分布的KL散度，来达到文本聚类的目的。

然而上述技术方案都有各自的缺陷，隐性语义模型的可解释性屡遭诟病，短文本也不利于隐性语义模型的训练。显性语义模型需要构建大规模知识库，这是一个相当繁琐和漫长的过程。半显性语义模型没有在线增量聚类模式。Single-Pass方法依赖文本距离度量的准确度，而且类别偏多。DEC方法构造的辅助分布缺乏严格证明，适用性有限。

发明内容

为了解决上述技术问题，本发明提出一种基于主题的社交媒体短文本在线聚类方法，采用保守的预聚类方法将文本预先聚合成长文本，增强了词语之间的共现关系，提取的主题更加清晰、区分度更高。

本发明采用的技术方案为：基于主题的社交媒体短文本在线聚类方法，包括：

S1、对输入的训练文本进行预处理，包括分词、去除停止词、词性识别、命名实体识别；

S2、采用预聚类将经步骤S1预处理后的训练文本聚合为长文本；

S3、对步骤S2得到的长文本训练集进行LDA训练，训练完成后统计文本-主题概率分布和主题-词语概率分布；

S4、对输入的待分类文本，采用朴素贝叶斯算法进行预测。

更进一步地，步骤S2具体包括以下分步骤：

S21、根据步骤S1预处理结果构建文本向量；

S22、计算该文本向量与所有类别中心的余弦相似度；

S23、若最大余弦相似度大于第一阈值，则将该短文本加入最大余弦相似度对应的类别中；否则作为新类别。

进一步地，步骤S3所述的LDA训练采用吉布斯采样求解。

进一步地，步骤S4具体为：根据步骤S3得到的主题-词语概率分布，采用朴素贝叶斯算法计算得到待分类文本对应的各主题下的分布概率值，若所有主题下的分布概率值均小于第二阈值，则判断该待分类文本为新文本；否则判断该待分类文本的主题为最大分布概率值所对应的主题。

进一步地，步骤S4具体为：根据步骤S3得到的主题-词语概率分布，采用朴素贝叶斯算法计算得到待分类文本对应的各主题下的分布概率值，找出最大的分布概率值，若该最大分布概率值大于或等于第二阈值，则判断该待分类文本的主题为最大分布概率值所对应的主题，否则断该待分类文本为新文本。

更进一步地，若待分类文本中某个词语未在训练文本集中出现，则采用平滑处理，将该词语在某主题下的分布概率值等于该主题下最小主题-词语分布概率值的一半。

更进一步地，当待分类文本为新文本时，将该新文本加入待训练数据集。

本发明的有益效果：本发明的与一般性的文本聚类方法相比，具有以下几点优势：

1、引入保守的预聚类方法，将短文本预先聚合成长文本，有效弥补了LDA在短文本主题预测上的性能不足，能够训练出更加准确的主题下词语的概率分布，加快训练过程的收敛速度；

2、采用贝叶斯主题推断方法以及相关的平滑技术和归一化技术，有效提高了新文本的主题预测准确度，并且能对新主题的文本做出预测，为LDA方法的在线聚类模式提供了可能。

附图说明

图1为本发明的方案流程图；

图2为本发明实施例提供的预聚类流程图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图1所示为本发明的方案流程图，本发明的技术方案为：基于主题的社交媒体短文本在线聚类方法，包括以下步骤：

S1、对输入的训练短文本进行预处理，包括分词、去除停止词、词性识别、命名实体识别；基于主题的社交媒体短文本在线聚类方法输入与现有技术中文本聚类方法的输入基本一致，包括字符串形式的原始文本以及该文本的唯一标识ID，唯一标识ID仅为了后续步骤节约存储空间，可以采用社交媒体提供的文本属性(例如，Twitter每条推文都有自己唯一的推文ID)，也可以对文本自行编码。

文本预处理采用针对社交媒体短文本的预处理技术，对文本进行分词、去除停止词，词性识别，命名实体识别等。

S2、采用预聚类将经步骤S1预处理后的训练短文本聚合为长文本；

传统的文本主题特征提取方法在短文本上提取的主题存在模糊、重复的情况，本发明采用保守的预聚类方法将文本预先聚合成长文本，增强了词语之间的共现关系，提取的主题更加清晰、区分度更高，提高了传统方法在短文本上的适应性，本发明的预聚类实现过程为：

预聚类的关键是尽可能的避免预聚类阶段的误差传递到后续步骤中，由于LDA训练会重新指定类主题数量，因此预聚类阶段只需保证类内精确度即可。在此应用场景下，本发明选择Single-Pass作为本申请的预聚类方法。

Single-Pass的核心在于文本特征表示和文本相似性度量。为了减少误差累积，预聚类应采取保守的策略，对于单个类来说，宁可增加第一类拒真的错误，也要尽可能避免第二类纳伪的错误。向量空间模型是文本特征构建中常用的模型，该模型为文本构建一个文本向量，每个维度代表一个单词，如果单词在文本中出现，则对应的维度为1，否则为0。构建完毕之后，再以余弦距离或其他距离公式衡量向量的距离，以此来表征句子的语义差异情况。向量空间模型具有很强的局限性，无法衡量近义词、反义词、歧义等复杂的语义情况，但是此模型下单个类别的真正率很高，也就是说，对于某个类别来说，虽然存在很多相似的文本未划分到该类，但是该类聚到一起的文本语义相似的概率很大。向量空间模型满足当前场景的保守性策略，局限性对后续的在线聚类过程影响不大。

本发明采用改进的向量空间模型，不同的词对文本的语义表征贡献是不同的，在文本中出现的词根据词性、是否是实体赋予不同的权重，不再简单的赋1，本实施例中具体权重赋值如表1所示：

表1权重赋值

词性实体情况	权重
		人名、地名、组织名	1.2
名词、动词	1
		其他	0.5

预聚类使用改进的向量空间模型提取文本特征，再使用Single-Pass的模式把短文本聚合成长文本。具体流程如图2所示：输入预处理后的分词结果、词性标记结果和命名实体识别结果，根据这些结果构建文本向量，计算文本与所有类别中心的余弦相似度，如果最大相似度满足第一阈值，本实施例中相似度阈值为0.0002，若最大相似度大于0.0002则把文本加入到相似度最大的类别，否则文本作为新类别输出。

把预聚类得到的长文本分词结果输入到隐狄利克雷分布(LDA)主题模型中进行训练。隐狄利克雷分布(LDA)主题模型假设文本-主题分布和主题-词语分布服从两个不同的狄利克雷分布，文本中的词语是从这个分布中采样生成。

LDA的求解方法一般有两种，变分推断和吉布斯采样。本发明采用性能更加稳定的吉布斯采样方法。吉布斯采样求解的思想是根据当前文本词语的主题分布重新采样词语的主题，直至收敛。

词语的主题采样公式如下：

其中，z_i,j表示第i篇文档的第j个单词的主题，w_i,j表示第i篇文档第j个单词，表示去掉w_i,j之后的词语语料，表示去掉z_i,j之后的主题语料，表示在去掉第i篇文档第j个单词的主题语料中第i篇文档中主题k的数量，表示在去掉第i篇文档第j个单词的词语语料中主题k中单词t的数量，α_k是文档-主题分布服从的狄利克雷分布中与主题k对应的分量，β_t是主题-单词分布服从的狄利克雷分布中与单词t对应的分量。

训练过程中算法按照上述公式不断对词语的主题进行采样，直至采样收敛。采样收敛与否采用LDA的困惑度perplexity来衡量，当困惑度收敛时表示整个训练过程收敛。

训练过程收敛之后，统计计算文档-主题概率分布矩阵和主题-词语概率分布矩阵。

S4、对输入的待分类文本，采用朴素贝叶斯算法进行预测。

本发明采用朴素贝叶斯方法，基于LDA提取的主题下词语的概率分布，对推文主题进行预测。

T表示文本主题，W表示文本。P(T)是主题的先验概分布率值，可由LDA训练过程得到。P(w_i|T)是主题下单词的分布概率值，也可由LDA训练过程得到。对于文本任意可能的主题，文本内容是相同，即P(W)相同，衡量各个主题分布概率值时可以忽略分母，取其分子部分其中n表示文本单词数量。不同长度的文本的概率数量级不同，因此本发明对文本的贝叶斯主题概率做了数据归一化处理。

对于待分类文本中存在的未在训练文本中出现的词语w_i，采用平滑技术令P(w_i|T)等于主题T中词语分布概率值的最小值的一半。

对于新文本，采用以上公式计算文本属于各个主题的分布概率值并找到概率最大的主题，如果最大概率满足第二阈值，则认为新文本就是该主题，否则认为新文本不属于现有主题，把新文本加入待训练数据集。当待训练数据集中的样本达到一定数量时，比如Nist数据集上缓存数量阈值是600，可以根据实际设定所缓存的待训练数据集大小，一般建议是400-600，当达到设定数量则对待训练数据集重新启动LDA训练过程。

判断新文本的方式还可以为采用以上公式计算文本属于各个主题的分布概率值，并将各个概率值均与第二阈值进行比较，若存在大于第二阈值的，则认为待分类文本的主题就是最大分布概率值所对应的主题；否则判断待分类文本为新文本。

本发明使用平滑技术和归一化技术的贝叶斯推断方法，具有新主题判别功能，基于此实现的在线增量聚类方法，效率比非增量聚类方法更高，与传统的在线增量聚类方法相比，准确率更高，主题数量更接近真实值。

本申请中的“分布概率值”应理解为表示某一个概率值；“概率分布”应理解为表示变量服从的分布规律。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.基于主题的社交媒体短文本在线聚类方法，其特征在于，包括：

S4、对输入的待分类文本，采用朴素贝叶斯算法进行预测。

2.根据权利要求1所述的基于主题的社交媒体短文本在线聚类方法，其特征在于，步骤S2具体包括以下分步骤：

S21、根据步骤S1预处理结果构建文本向量；

S22、计算该文本向量与所有类别中心的余弦相似度；

3.根据权利要求2所述的基于主题的社交媒体短文本在线聚类方法，其特征在于，步骤S3所述的LDA训练采用吉布斯采样求解。

4.根据权利要求3所述的基于主题的社交媒体短文本在线聚类方法，其特征在于，步骤S4具体为：根据步骤S3得到的主题-词语概率分布，采用朴素贝叶斯算法计算得到待分类文本对应的各主题下的分布概率值，若所有主题下的分布概率值均小于第二阈值，则判断该待分类文本为新文本；否则判断该待分类文本的主题为最大分布概率值所对应的主题。

5.根据权利要求3所述的基于主题的社交媒体短文本在线聚类方法，其特征在于，步骤S4具体为：根据步骤S3得到的主题-词语概率分布，采用朴素贝叶斯算法计算得到待分类文本对应的各主题下的分布概率值，找出最大的分布概率值，若该最大分布概率值大于或等于第二阈值，则判断该待分类文本的主题为最大分布概率值所对应的主题，否则断该待分类文本为新文本。

6.根据权利要求4或5所述的基于主题的社交媒体短文本在线聚类方法，其特征在于，若待分类文本中某个词语未在训练文本集中出现，则采用平滑处理，将该词语在某主题下的分布概率值等于该主题下最小主题-词语分布概率值的一半。

7.根据权利要求6所述的基于主题的社交媒体短文本在线聚类方法，其特征在于，当待分类文本为新文本时，将该新文本加入待训练数据集。