CN107798043A

CN107798043A - 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法

Info

Publication number: CN107798043A
Application number: CN201710504980.2A
Authority: CN
Inventors: 黄瑞章; 闫盈盈; 马灿; 徐立洋; 丁志远; 王瑞; 黄庭; 刘博伟
Original assignee: Guizhou Farming Technology Co Ltd; Guizhou University
Current assignee: Guizhou Farming Technology Co Ltd; Guizhou University
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2018-03-13
Anticipated expiration: 2037-06-28
Also published as: CN107798043B

Abstract

本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题，本发明提出了主题相关长文本辅助短文本的思想，辅助的基础是长文本与短文本共享相同的主题‑词语分配。为了更好地提升聚类效果，该发明能够自动判断长文本中的有用词和噪音词，利用长文本中高质量的有用词与短文本集合进行文本聚类。此外，本发明能够自动识别文本集类的数目，改进了传统文本集类数目需要人为提前给定的情况。

Description

基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法

技术领域

本发明涉及文本分析领域，特别涉及到一种长文本辅助短文本的文本聚类方法。

随着互联网的快速发展，网络上产生了大量的短文本，如新闻网站的标题、腾讯空间的说说、新浪微博、百度知识问答、商品评论等等。短文本聚类已经引起了各行各业的广泛关注。短文本聚类对于获取用户的观点，监测突发性事件等具有重要的作用。然而，发现短文本的主题信息是不容易的。直接用传统的主题模型处理短文本效果不佳，主要原因是短文本字数有严格限制(例如：推文为140字符以内)。除此之外，短文本还具有书写随意，噪音大等特点。这些特点都干扰了短文本的主题发现过程。

与短文本相比，长文本具有非常丰富的词语信息，并且以Latent DirichletAllocation(LDA)模型为代表的传统主题模型在挖掘和理解以新闻为代表的长文本主题方面已经收到了良好的效果。此外，实际生活中很方便收集与短文本主题相关的长文本信息。例如：新浪微博上讨论的一些热门话题通常也会出现在新浪推送的新闻中；网页的搜索片段一般都与某些网站的内容是相关联的。因此，为了解决短文本的稀疏性问题，利用长文本中高质量的主题知识改善短文本文档聚类是可行的。通常，并不是长文本中每个词语都是有用的。长文本中的词语包括判别词和噪音词两种，但仅仅判别词对于文本聚类是有用的。长文本中的无关噪声词会拉低长文本获得高质量结构化知识的能力，从而干扰短文本聚类过程。当类的数目不确定时，这种干扰情况将会加剧。

短文本聚类的第二大挑战是类的数目不确定问题。传统的短文本聚类方法假设类的数目是人为提前给定的。然而，给定大规模的短文本，用户必须浏览整个文档集合，目的是估计类的数目。显然，这一过程是耗时的、不切实际的。此外，错误的类估计将会误导短文本聚类过程，产生一个较差的聚类结果。

因此，针对短文本的特征稀疏和类数目不确定两大问题，需要一种新的短文本聚类方法以获取更为理想的聚类结果。

发明内容

本发明的目的是：提供一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法，它改善了短文本的聚类效果，并能够提高辅助短文本聚类的长文本的质量，还能自动推断长短文本各自的主题个数。

本发明是这样实现的：基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法，包括如下步骤：

1)将主题相关的长文本集与短文本集进行文本预处理：进行分词，去停用词、低频词及标点数字；

2)基于狄利克雷多项混合模型构建主题模型：构建得到主题模型，主题模型如图2所示；

图2中，α表示狄利克雷分布的参数，是一个向量，维度等于主题的个数；β，λ表示狄利克雷分布的参数，维度等于语料库词汇总数； ω表示伯努利分布的参数，表示一个词为有用词的概率；θ_L表示长文本集的主题分布；θ_S短文本集的主题分布；短文本集词语与长文本集有用词形成的主题-词语分布；噪音词的词语分布，模型假设长文本中的噪音词来源于一个主题；z_l表示从θ_L中采样的长文本和短文本的主题；z_s表示从θ_S中采样的长文本和短文本的主题；γ伯努利分布的结果，如果γ＝1为该词为有用词，如果γ＝0为该词为噪音词； x_l,x_s分别表示一篇长文本，短文本；L长文本总篇数；S短文本总篇数；K初始化时主题的总数目；

3)模型的参数估计：基于主题模型(1)，利用Blocked Gibbs采样算法，得到长短文本集共同的词-主题分布，长文本集的主题分布、噪音词分布，以及短文本集的主题分布；

4)根据主题进行聚类：将Blocked Gibbs采样算法运行1000-2000 次后，得到目标短文本的主题分配情况并进行文本聚类。

所述步骤(3)进一步包括下列具体步骤：

首先初始化模型参数，需要初始化的模型参数包括超参数 {α,β,λ,ω}和隐藏变量{γ,zl,zs}；初始化模型参数之后，Blocked Gibbs sampling的推断过程如下：

(a)更新词类型标识γ；

(b)更新长文本有用词和短文本的主题-主题分布φ；

(c)更新长文本噪音词分布φ₀；

(d)更新长文本集分布θ_L；

(e)更新短文本集分布θ_S；

(f)更新每篇长文本的主题z_l，其中l＝{1,2,…,L}；

(g)更新每篇短文本的主题z_s，其中s＝{1,2,…,S}；

其中，α表示狄利克雷分布的参数，是一个向量，维度等于主题的个数；β，λ表示狄利克雷分布的参数，维度等于语料库词汇总数； ω表示伯努利分布的参数，表示一个词为有用词的概率；θ_L表示长文本集的主题分布；,θ_S短文本集的主题分布；短文本集词语与长文本集有用词形成的主题-词语分布；噪音词的词语分布，模型假设长文本中的噪音词来源于一个主题；z_l表示从θ_L中采样的长文本和短文本的主题；z_s表示从θ_S中采样的长文本和短文本的主题；γ伯努利分布的结果，如果γ＝1为该词为有用词，如果γ＝0为该词为噪音词； zl＝{z₁,…,z_L}是长文本集中L篇文档的主题标签集合,zs＝{z₁,…,z_S}是短文本集中S篇文档的主题标签集合。

与现有技术相比，本发明通过共享长文本中的高质量结构化知识改善短文本的聚类效果；所建立的模型能够自动判别长文本中类的数目，而不需要人为提前给定，能实现自动将长文本中的词语分为判别词和噪音词，判别词作为高质量的结构化知识能够提高长文本的质量，长文本的有用词与短文本共用一个主题-词语分布，是长文本辅助短文本的基础，长短文本拥有各自的主题分布，因此本发明能自动推断长短文本各自的主题个数。本发明能够较大程度地提高短文本聚类效果。

附图说明

图1是本发明的执行流程图；

图2是本发明的主题模型。

具体实施方式

为了使本发明的目的，技术方案以及优点更加清晰明了，以下结合附图及实施例来具体地阐述本发明的实施方式。需要说明的是，本发明的保护范围不限于下述的实施例，根据本发明的想法，本领域的研究人员可以适当修改，这些修改可以在权利要求书所限制的发明范围之内。

本发明的实施例：基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法，如图1的执行流程图所示，根据本发明具体实例的基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法，包括如下步骤：

(1)执行本发明的方法，首先执行步骤S1，获取待聚类的文本集。

本实施例的第一个文本集AMpaperSet来源于AMinerPaper语料库。选择该语料库中主题为“graphical image”、“computer network”、 “database”的文章形成语料库的子集。提取这些文章的标题部分作为该文本集的目标短文本集，并提取这些文章的摘要部分作为该文本集的辅助长文本集。本实施例的第二个文本集为TweetSet。包括三个主题：“JeSuisParis”、“RefugeesWelcome”、“PlutoFlyby”。短文本集部分为从Twitter上爬取的推文，长文本集部分为推文中可访问的链接所连接的内容。

(2)其次，执行S2步骤，对获取的文本集进行文本预处理工作。对文本集进行分词、词根还原、去停用词、去低频词等工作。经过预处理之后，去除文本中冗余的信息，使得文本集变得简洁工整非常节省资源且便于计算。

(3)文本集处理好之后，执行S3建模步骤。建立基于狄利克雷多项混合模型的长文本辅助短文本的概率主题模型。首先，该模型能够自动判别长文本中类的数目，而不需要人为提前给定。其次，为了提高短文本的聚类效果，模型能够自动判别长文本中的噪声词，仅利用长文本中有用词辅助短文本聚类；长文本的有用词与短文本共用一个主题-词语分布，是长文本辅助短文本的基础。另一方面，长短文本集具有各自的主题分布。

首先解释模型中的符号。本实施例中符号说明如表1所示。

表1

以下是模型的生成过程。

1)选择γ_j∣ω～B(1,ω),其中j＝1,2,…,V.

2)选择∣x_s∣～Possion(ξ),其中s＝1,2,…,S；

选择∣x_l∣～Possion(ζ),其中l＝1,2,…,L.

3)选择φ_k∣β～Dirichlet(β₁,β₂,…,β_V),其中k＝1,2,…,K

4)选择φ₀∣λ～Dirichlet(λ₁,λ₂,…,λ_V).

5)选择

选择

6)选择z_s∣θ_S～Discrete(θ_S1,θ_S2,…,θ_SK),其中s＝1,2,…,S；

选择z_l∣θ_L～Discrete(θ_L1,θ_L2,…,θ_LK),其中l＝1,2,…,L.

7)选择其中s＝1,2,…,S；

选择

选择x_l·(1-γ)∣φ₀,γ～Multinomial(∣x_l∣_1-γ；φ₀),其中 l＝1,2,…,L.

x_s的概率密度函数为：

x_l的概率密度函数为：

积掉和中的φ。在给定{z₁,z₂,…,z_S},{z₁,z₂,…,z_L}, 和γ的前提下，文本集D_S和D_L的概率密度近似为：

其中：

基于上述模型，执行本发明的S4步骤，在该步骤中，利用Blocked Gibbs采样方法推断长短文本集类的数目以及长文本的有用词。马尔科夫链的状态由γ＝{γ₁,…,γ_V}，zl＝{z₁,…,z_L}，zs＝{z₁,…,z_S}， φ＝{φ₀,φ₁,…,φ_K}，θ_L和θ_S组成。

首先初始化模型参数。需要初始化的模型参数包括超参数 {α,β,λ,ω}和隐藏变量{γ,zl,zs}。初始化模型参数之后，Blocked Gibbs sampling的推断过程如下：

1)更新词类型标识γ。重复下列的Metropolis-Hasting算法R次：从[0,V-1]中随机选择一个词并标识为γ_old，改变γ_old的值为γ_new。γ_new通过下列概率进行转移。

其中，p(γ∣D_L,zl)∝p(D_L∣γ,zl)·p(γ)。p(D_L∣γ,zl)在上述公式中已给出。

2)更新长文本有用词和短文本的主题-主题分布φ。对于 k＝{1,2,…,K}，如果k不在中，从具有参数β的狄利克雷分布采用φ_k，否则，从具有如下参数的狄利克雷分布中采样φ_k：

3)更新长文本噪音词分布φ₀。从具有如下参数的狄利克雷分布中采样噪音词分布：

4)更新长文本集分布θ_L。从具有如下参数的狄利克雷参数中采样主题分布：

其中I(z_l＝k)是一个标识函数。当z_l＝k时，I(z_l＝k)＝1。

5)更新短文本集分布θ_S。从具有如下参数的狄利克雷参数中采样主题分布：

其中I(z_s＝k)是一个标识函数。当z_s＝k时，I(z_s＝k)＝1。

6)更新每篇长文本的主题z_l，其中l＝{1,2,…,L}。从离散分布中采样，其参数是{p_l1,…,p_lK}，满足：

7)更新每篇短文本的主题z_s，其中s＝{1,2,…,S}。从带有参数 {q_s1,…,q_sK}的离散分布中采样，其中参数满足如下条件：

需要注意的是:假设模型估计的类的数目为K^*，其值为向量的大小，小于初始化的K值。

执行S5参数估计步骤。当Blocked Gibbs采样算法趋于稳定后，采样长短文本共同的词-主题分布；长文本集的主题分布、噪音词分布；短文本的主题分布。

执行本发明的S6步骤，进行文本聚类。根据采样得到每篇目标短文本的主题分配情况进行聚类。

以上是本发明的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的情况下，可以做出若干改进，而这些改进也视为本发明的保护范围。

Claims

1.一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法，其特征在于，包括如下步骤：

图2中，α表示狄利克雷分布的参数，是一个向量，维度等于主题的个数；β，λ表示狄利克雷分布的参数，维度等于语料库词汇总数；ω表示伯努利分布的参数，表示一个词为有用词的概率；θ_L表示长文本集的主题分布；θ_S短文本集的主题分布；短文本集词语与长文本集有用词形成的主题-词语分布；噪音词的词语分布，模型假设长文本中的噪音词来源于一个主题；z_l表示从θ_L中采样的长文本和短文本的主题；z_s表示从θ_S中采样的长文本和短文本的主题；γ伯努利分布的结果，如果γ＝1为该词为有用词，如果γ＝0为该词为噪音词；x_l,x_s分别表示一篇长文本，短文本；L长文本总篇数；S短文本总篇数；K初始化时主题的总数目；

3)模型的参数估计：基于主题模型(1)，利用Blocked Gibbs采样算法，采样长短文本共同的词-主题分布，长文本集的主题分布、噪音词分布，以及短文本的主题分布；

4)根据主题进行聚类：将Blocked Gibbs采样算法运行1000-2000次后，得到目标短文本的主题分配情况并进行文本聚类。

2.如权利要求1所述的基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法，其特征在于，所述步骤(3)进一步包括下列具体步骤：

首先初始化模型参数，需要初始化的模型参数包括超参数{α,β,λ,ω}和隐藏变量{γ,zl,zs}；初始化模型参数之后，Blocked Gibbs sampling的推断过程如下：

(a)更新词类型标识γ；

(b)更新长文本有用词和短文本的主题-主题分布

(c)更新长文本噪音词分布

(d)更新长文本集分布θ_L；

(e)更新短文本集分布θ_S；

(f)更新每篇长文本的主题z_l，其中l＝{1,2,…,L}；

(g)更新每篇短文本的主题z_s，其中s＝{1,2,…,S}；

其中，α表示狄利克雷分布的参数，是一个向量，维度等于主题的个数；β，λ表示狄利克雷分布的参数，维度等于语料库词汇总数；ω表示伯努利分布的参数，表示一个词为有用词的概率；θ_L表示长文本集的主题分布；θ_S短文本集的主题分布；短文本集词语与长文本集有用词形成的主题-词语分布；噪音词的词语分布，模型假设长文本中的噪音词来源于一个主题；z_l表示从θ_L中采样的长文本和短文本的主题z；z_s表示从θ_S中采样的长文本和短文本的主题；γ伯努利分布的结果，如果γ＝1为该词为有用词，如果γ＝0为该词为噪音词；zl＝{z₁,…,z_L}是长文本集中L篇文档的主题标签集合,zs＝{z₁,…,z_S}是短文本集中S篇文档的主题标签集合。