CN109086375B

CN109086375B - 一种基于词向量增强的短文本主题抽取方法

Info

Publication number: CN109086375B
Application number: CN201810816147.6A
Authority: CN
Inventors: 彭敏; 高望; 胡刚; 谢倩倩; 李冬
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2021-10-22
Anticipated expiration: 2038-07-24
Also published as: CN109086375A

Abstract

本发明涉及一种基于词向量增强的短文本主题抽取方法，具体涉及了一种新的短文本主题抽取模型，称为CRFTM(Condition Random Field regularized Topic Model)。首先，本发明设计了一种通用的短文本距离衡量方式——基于词向量的平均最小距离，通过将短文本聚合成伪文档来缓解稀疏性问题。其次，CRFTM还利用条件随机场(CRF)正则化模型，对语义相关的词语进行语义强化，使其以更高的概率分配至同一的主题。在新闻数据集上的实验结果表明，本发明的短文本主题抽取方法在主题连贯性指标上优于5种基准主题模型。

Description

一种基于词向量增强的短文本主题抽取方法

技术领域

本发明属于短文本主题抽取算法技术领域，这种技术是结合词语的分布式表示和基于条件随机场的语义增强两方面优势提出的一种新的基于词向量增强的短文本主题抽取方法。

背景技术

随着社交网络的兴起，短文本己成为网络上信息传递的主要载体。例如网页的标题、微博、知乎、Facebook等网站的主要内容都是以短文本的形式呈现。主题模型是一种用于发现文档集合中抽象的“主题”的概率统计模型，可以帮助普通用户通过简单的主题或关键词从海量短文本数据中挖掘出有价值的信息资源。减轻用户阅读负担，提高阅读质量，有着十分重要的应用意义。从短文本中发现主题信息还有着其他广泛的应用场景，例如舆情监控、用户兴趣挖掘、新兴话题发现等等。

传统的主题模型依赖于文本中的词之间的共现关系来抽取文档主题，而短文本字数较少的特点使得其词共现信息非常稀疏。而这种稀疏性导致传统的主题模型在短文本主题挖掘方面的效果并不理想。一种行之有效的方法是将相似的短文本进行合并，聚合成为伪长文本。例如，将微博中同一用户发的多条微博整合在一起，成为一个伪长文本，然后再利用传统的主题模型抽取此伪长文本的主题，在主题抽取的连贯性上有一定的提升。这种方法的问题在于它首先假设相似的短文本具有相同的主题分布，然而并非所有的短文本都和微博一样，同一用户发布的多条微博在主题上有一定的延续性。因此，这种方法无法应用多样化的短文本领域中，有一定的局限性。

近年来，还出现了一些利用词向量提高主题模型在短文本上性能的方法。这类方法利用词向量内在丰富的语义关系，增强短文本的语言关联，缓解上述稀疏性问题，在词向量上进行主题抽取，提高短文本主题建模的能力。虽然此类方法从一定程度上提高了模型表现，但却忽略了词向量的生成机制导致每个词仅对应一个词向量，而对于多义词，这种机制会在主题建模过程中加入噪声，从而影响主题抽取效果，这也是本发明要解决的问题。

发明内容

本发明旨在发现一种将短文本聚合成伪长文本的通用方法，不受短文本形式的限制。并设计一种新的主题模型在利用词向量增强主题建模的同时，可以区分词义差别，以克服多义词的噪声问题。本发明通过将条件随机场融入LDA主题模型利用语义关联增强相似词归属同一主题的概率，从而有效增强短文本主题抽取的连贯性，剔除噪声。

本发明是一种基于词向量增强的短文本主题模型构建方法，具体步骤如下：

一种基于词向量增强的短文本主题抽取方法，其特征在于，包括：

步骤1、对短文本语料数据集进行预处理；

步骤2、利用基于词向量的平均最小距离对短文本聚类，生成伪长文本，具体是基于以下定义：对于短文本s₁和s₂，计算出s₁中的每个词与s₂中每个词的词向量余弦相似度，并将其保存在距离矩阵D中；D中每行的最小距离平均值表示s₁到s₂的距离d(s₁-＞s₂)，而每列的最小距离平均值表示s₂到s₁的距离d(s₂-＞s₁)，则衡量s₁，s₂之间的距离的方式为

步骤3、识别伪长文本中的语义相关词对，为步骤4语义强化奠定基础；具体是首先判断词对中两个词的词向量余弦相似度是否小于设定阈值；若小于设定阈值，则将该词对识别为语义相关词对，对其进行语义强化，否则，不进行语义强化；

步骤4、基于主题模型CRFTM对强化后的伪长文本进行主题抽取，具体是利用条件随机场将语义强化机制融入主题层，使得语义相关词汇以高概率归属于同一主题，并利用下上文相关词来消除主题推断过程中所产生的噪声；

步骤5、利用坍缩吉布斯采样的方法对如下CRFTM模型的主题后验分布进行参数推断。

在上述的一种基于词向量增强的短文本主题抽取方法，步骤1中预处理基于以下处理条件：

处理条件一、将所有字母转变为小写字母；

处理条件二、过滤掉非拉丁字符和停用词；

处理条件三、过滤掉出现次数小于设定次数的词。

在上述的一种基于词向量增强的短文本主题抽取方法，步骤2中，对短文本聚类的具体方法是利用K中心点聚类将短文本聚合成伪长文本，具体是基于目标函数：

其中，d(s_i,c_i)表示短文本s_i和聚类中心c_j之间的基于词向量的平均最小距离；通过K中心点聚类，所有短文本将聚合成伪长文本。

在上述的一种基于词向量增强的短文本主题抽取方法，所述步骤3中，对于伪长文档中的每个词对(w_i,w_i)，如果满足条件d(w_i,w_i)＜μ，其中d(w_i,w_i)表示词对两个词向量的余弦相似度，μ表示设定阈值，则将该词对识别为语义相关词对，词w_i和词w_j之间是语义强化关系。

在上述的一种基于词向量增强的短文本主题抽取方法，所述步骤4中，若两个词之间是语义强化的关系，则在CRFTM概率图模型中，用一条无向边连接它们的主题标签，此时，主题标签的联合概率如下所示：

其中z_m表示第m篇伪长文本的主题概率分布，x_m表示第m篇伪长文本的下上文相关词概率分布，如果词w_i的上下文相关词x_i与w_j的余弦相似度超过设定阈值，则解除词w_i和词w_j之间是语义强化关系，以消除主题推断过程中所产生的噪声；N_m代表第m篇文章的长度，ψ(.)表示语义强化函数，如下所示：

其中，λ是平衡超参数，如果λ为0，CRFTM则和LDA模型一致；A是概率归一化因子；E表示语义强化连通图；f(z_mi,z_mj)是计数函数，表示w_mi有多少个语义强化词属于同一主题z_mi，最终强化词w_mi归属于主题z_mi的概率。

在上述的一种基于词向量增强的短文本主题抽取方法，所述步骤5中，进行参数推断基于以下公式：

其中，V表示字典的词汇个数，α是θ的狄利克雷先验分布参数,β是

的狄利克雷先验分布参数，充分统计量

表示将词w_mi排除出伪长文档m或主题k之外的计数；根据狄利克雷分布与多项式分布的共轭关系，能够依次估计出文档-主题分布θ和主题-词分布

其中，

表示词w属于主题k的概率，θ_m,k表示伪长文本m属于主题k的概率，

表示第m篇伪长文本中词汇w属于主题k出现的次数，

表示第m篇伪长文本中主题k出现的次数。

因此本发明具有如下优点：1、本发明利用基于词向量的平均最小距离，通过聚类的方式解决了传统主题模型应用在短文本上的稀疏性问题。并且，这种距离衡量方式并不受短文本形式的限制，大大提高了本发明的普适性。2、本发明设计了一种新的主题模型，利用条件随机场在主题层融入语义强化的外部信息，实现了短文本上抽取高质量主题的抽取。

附图说明

附图1是CRFTM概率图模型示意图。

附图2是基于词向量增强的短文本主题抽取方法的框架图。

附图3a是与基准方法的主题连贯性比较示意图(主题个数为5)。

附图3b是与基准方法的主题连贯性比较示意图(主题个数为10)。

具体实施方式

一、本发明所提出的方法和基准主题模型通过实验比较可以验证本发明方法的高效性。本发明实验所用的数据集是从三家热门报纸网站(纽约时报nyt.com，今日美国usatoday.com，路透社reuters.com)的RSS中提取的31,150条英文新闻文章的新闻描述，因为它们是典型的短文本。新闻的分类分别是：体育，商业，美国，健康，科技，世界和娱乐。为了保证实验的准确性，本发明做了如下预处理工作：

1、基于词向量的平均最小距离：本发明利用词向量衡量短文本之间的距离，提出基于词向量的平均最小距离，可以作为一种通用的短文本距离评价标准，而不受短文本形式的影响。具体来说，距离矩阵D中的第i行第j列的数据表示着短文本s₁中第i个词与短文本s₂中第j个词的词向量的余弦相似度，而两个短文本之间的距离可由它们中每一个词之间的平均最小距离表示。即使两个短文本中没有一个完全相同的词，这种短文本的距离衡量方式也能够有效的评价出两个短文本之间的主题相似度。此外，基于词向量的最小平均距离并不受短文本形式的限制，大大提高了本发明的普适性。

2、当有了短文本距离评价方式之后，本发明利用K中心点聚类的方式将短文本聚合成伪长文本，从而克服主题模型在短文本上的稀缺性问题。K-means聚类是每次选簇的均值作为新的中心，迭代直到簇中对象分布不再变化。其缺点是对于离群点是敏感的，因为一个具有很大极端值的对象会扭曲数据分布。因此，本发明利用K中心点聚类，新的簇中心不选择均值而是选择簇内的某个对象来克服这一问题。此外，本发明还对K中心点聚类进行约束，使得聚类后的每类数量相同，进一步缓解短文本的稀疏性问题。当有n条短文本要聚合成m条伪长文本，算法的目标是最小化公式(1)所示的目标函数。

其中，d(s_i,c_i)表示短文本s_i和聚类中心c_j之间的基于词向量的平均最小距离。通过K中心点聚类，所有短文本将聚合成伪长文本，一定程度上缓解稀疏性问题，为下一步主题抽取奠定坚实基础。

3、本发明基于LDA提出一种新的主题模型CRFTM。CRFTM利用条件随机场在主题层融入语义强化的外部信息，可以在伪长文档上抽取高质量主题。语义强化指的是当一篇文档中的两个词向量的余弦相似度小于某个阈值，则给予它们更高的概率归属于同一主题。对于伪长文档中的每个词对(w_i,w_i)，如果满足条件d(w_i,w_i)＜μ，其中d(w_i,w_i)表示词对两个词向量的余弦相似度，μ表示设定阈值，则将该词对识别为语义相关词对，词w_i和词w_j之间是语义强化关系。由于词向量的机制是每个词仅有一个对应的词向量，这对于多义词来说，会在语义强化过程加入噪声。因此本发明还利用下上文相关词来克服这种情况,如果词w_i的上下文相关词x_i与w_j的余弦相似度超过设定阈值，则解除词w_i和词w_j之间是语义强化关系。如附图1所示，在CRFTM概率图模型中，如果两个词之间是语义强化的关系，则用一条无向边连接它们的主题标签(例如：(z_m1,z_m2),(z_m1,z_m4),(z_m1,z_m5),(z_m2,z_m6),(z_m3,z_m6))，此时，主题标签的联合概率如下所示：

其中z_m表示第m篇伪长文本的主题概率分布，x_m表示第m篇伪长文本的下上文相关词概率分布，N_m代表第m篇文章的长度，ψ(.)表示语义强化函数，如下所示：

其中，λ是平衡超参数，如果λ为0，CRFTM则和LDA模型一致；A是概率归一化因子；E表示语义强化连通图；f(z_mi,z_mj)是计数函数，表示w_mi有多少个语义强化词属于同一主题z_mi。通过这一机制，词w_mi归属于主题z_mi的概率将得到强化。

4、本发明利用坍缩吉布斯采样的方法对如下CRFTM模型的主题后验分布进行参数推断：

的狄利克雷先验分布参数，充分统计量

表示将词w_mi排除出伪长文档m或主题k之外的计数。根据狄利克雷分布与多项式分布的共轭关系，能够依次估计出文档-主题分布θ和主题-词分布

其中，

表示第m篇伪长文本中词汇w属于主题k出现的次数，

表示第m篇伪长文本中主题k出现的次数。

二、本发明的具体实施方式流程图如附图2所示。实现过程如下：

1、根据实验数据的特性进行数据预处理，(1)将所有字母转变为小写字母；(2)过滤掉非拉丁字符和停用词；(3)过滤掉出现次数小于3的词。

2、利用基于词向量的平均最小距离对短文本聚类，生成伪长文本。词向量使用谷歌word2vec工具，如果某个词没有词向量，则不会对该词进行语义强化。

3、使用本发明所提出主题模型CRFTM对伪长文本进行主题抽取。CRFTM利用条件随机场将语义强化机制融入主题层，使得语义相关词汇以更高概率归属于同一主题，并利用下上文相关词来消除主题推断过程中所产生的噪声。

最后，本发明通过计算不同主题数，不同主题词下的主题连贯性与主流基准主题模型LDA，MRF-LDA，BTM，PTM，GPU-DMM比较主题抽取质量。本发明的超参数α＝50/K,β＝0.01；吉布斯采样次数为1000词；当两个词词向量的余弦相似度小于0.3则进行语义强化。实验结果如附图3所示，本发明的实验效果要优于5种基准主题模型。这是因为本发明从伪长文本中抽取主题，这显著提高了主题抽取的质量。此外，CRFTM利用语义强化机制促进语义相关词汇归属于同一主题，并利用下上文相关词来消除噪音词，使得主题语义相关性更强。

Claims

1.一种基于词向量增强的短文本主题抽取方法，其特征在于，包括：

步骤1、对短文本语料数据集进行预处理；

2.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法，其特征在于，步骤1中预处理基于以下处理条件：

处理条件一、将所有字母转变为小写字母；

处理条件二、过滤掉非拉丁字符和停用词；

处理条件三、过滤掉出现次数小于设定次数的词。

3.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法，其特征在于，步骤2中，对短文本聚类的具体方法是利用K中心点聚类将短文本聚合成伪长文本，

4.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法，其特征在于，所述步骤3中，对于伪长文档中的每个词对(w_i,w_j)，如果满足条件d(w_i,w_j)＜μ，其中d(w_i,w_j)表示词对两个词向量的余弦相似度，μ表示设定阈值，则将该词对识别为语义相关词对，词w_i和词w_j之间是语义强化关系。

5.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法，其特征在于，所述步骤4中，若两个词之间是语义强化的关系，则在CRFTM概率图模型中，用一条无向边连接它们的主题标签，此时，主题标签的联合概率如下所示：

6.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法，其特征在于，所述步骤5中，进行参数推断基于以下公式：

的狄利克雷先验分布参数，充分统计量

其中，

表示第m篇伪长文本中词汇w属于主题k出现的次数，

表示第m篇伪长文本中主题k出现的次数。