CN110046228A

CN110046228A - 短文本主题识别方法和系统

Info

Publication number: CN110046228A
Application number: CN201910311522.6A
Authority: CN
Inventors: 刘业政; 钱洋; 陶丹丹; 姜元春; 毕文亮; 孙见山; 孙春华; 陈夏雨; 凌海峰
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-07-23
Anticipated expiration: 2039-04-18
Also published as: CN110046228B

Abstract

本发明提供一种短文本主题识别方法和系统，涉及数据处理技术领域。本发明包括以下步骤：S1、获取第一语料集和第二语料集，所述第一语料集为待处理的短文本数据集，所述第二语料集为辅助语料集；S2、基于所述第二语料集上单词得到隐特征向量，基于所述第一语料集构建狄利克雷过程混合模型；S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型；S4、对所述非参主题模型的主题后验分布进行参数推断；S5、基于参数推断识别出第一语料集中主题数量，同时得到第一语料集中文档‑主题分布以及主题‑词分布。本发明通构建狄利克雷过程混合模型以及引进词的隐特征向量表示，能有效缓解稀疏性问题，从而提高短文本主题识别的准确性。

Description

短文本主题识别方法和系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种短文本主题识别方法和系统。

背景技术

随着互联网技术的飞速发展，人们越来越多的通过各种网络平台发表自己的观点或意见。例如，用户可以通过介绍影视剧的网站对电影或电视剧作品发表影评或剧评，还可以通过网络购物平台对购买或使用过的商品发表商品评价，也可以通过意见反馈渠道向提供服务或应用的运营商提出意见建议等。由于这些评论大多只是进行片断性的描述说明，其所包括的文字内容较少，因此均可以被看作是短文本数据。

近年来，国内外专家学者对短文本主题识别算法展开了深入研究，提出了诸多短文本主题识别算法，目前，主题模型(TopicModel)成为短文本挖掘领域的热点，它能够发现文档-词语之间所蕴含的潜在语义关系(即主题)，有效提高处理网络舆情中短文本语义信息的性能，其中运用较多的主题聚类模型为LDA(LantentDirichletAllocation，文档主题生成模型)。

然而，现实应用场景中，文本数据集存在明显的类分布不平衡问题，特别是短文本由于篇幅有限，词共现稀疏，对现有主题识别算法带来了挑战。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种短文本主题识别方法和系统，解决了短文本词共现稀疏的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种短文本主题识别方法，该方法包括以下步骤：

S1、获取第一语料集和第二语料集，所述第一语料集为待处理的短文本数据集，所述第二语料集为辅助语料集；

S2、基于所述第二语料集上单词得到隐特征向量以及基于所述第一语料集构建狄利克雷过程混合模型；

S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型；

S4、对所述非参主题模型的主题后验分布进行参数推断；

S5、基于参数推断识别出第一语料集中主题数量，同时得到第一语料集中文档-主题分布以及主题-词分布。

优选的，所述步骤S1还包括定义语料集中的相关变量，所述相关变量包括文档篇数、每篇文档包含的单词个数，所有文档中包含的不同单词的个数。

优选的，所述步骤S2具体包括以下步骤：

S201、获取第二语料集上单词的隐特征向量表示；

S202、根据所述语料集1，构造词对；

S203、基于所述词对构建狄利克雷过程混合模型，将所述词对分配到不同主题上。

优选的，所述步骤S201包括以下步骤：

S2011、定义Skip-gram模型的学习目标；

S2012、使用负采样算法对Skip-gram模型进行训练，得到单词的隐特征向量表示。

优选的，所述步骤S2011中定义Skip-gram模型的学习目标的具体方法为：

给定一个文档序列Skip-gram模型目标为优化最大平均对数概率函数L：

其中：

c为目标单词e_i的上下文窗口；

T为文档的长度，即文档中单词的个数；

条件概率p(e_i+j|e_i)的表达式：

其中：

|V|表示数据集中单词总数；

是目标单词e_i的隐特征向量表示；

是上下文单词特征向量表示。

优选的，所述步骤S2012中得到单词的隐特征向量的具体方法为：

使用负采样算法对Skip-gram模型进行训练，在每次迭代中，将一个目标单词与其上下文窗口的单词一起采样，利用随机梯度下降法对参数进行优化；迭代完成，得到所有单词的隐特征向量表示。

优选的，所述步骤S203包括：

S2031、定义狄利克雷过程混合模型；

S2032、以stick-breaking的方式构建狄利克雷过程混合模型，

S2033、根据步骤S2032为每个词对分配主题。

优选的，所述步骤S4包括：

S401、定义每个单词对的隐主题变量和二元指示变量的条件概率分布；

S402、根据定义后的每个单词对采样隐主题变量；

S403、基于步骤S402为每个单词对采样二元指示变量；

S404、应用最大后验估计方法，估计主题隐特征向量。

本发明还提供一种短文本主题识别系统，其包括：

语料集获取单元，所述语料集获取单元用于获取第一语料集和第二语料集；

建模准备单元，所述建模准备单元用于基于所述第二语料集上单词得到隐特征向量，基于所述第一语料集构建狄利克雷过程混合模型；

构建非参主题模型单元，所述构建非参主题模型单元将所述单词的隐特征向量与所述狄利克雷过程混合模型相结合构建非参主题模型；

参数推断单元，所述参数推断单元用于对所述非参主题模型的主题后验分布进行参数推断；

主题分布识别单元，所述主题分布识别单元用于基于参数推断识别出第一语料集中主题数量，同时得到第一语料集中文档-主题分布以及主题-词分布。

优选的，所述建模准备单元包括：

隐特征向量获取模块，所述隐特征向量获取模块用于学习所述第二语料集上单词的隐特征向量；

构造词对模块，所述构造词对模块用于根据所述第一语料集，构造词对；

词对分配模块，所述词对分配模块用于根据所述词对构建狄利克雷过程混合模型，将所述词对分配到不同主题上。

(三)有益效果

本发明提供了一种短文本主题识别方法和系统。与现有技术相比，具备以下有益效果：

本发明通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示，能有效缓解稀疏性问题，从而提高短文本主题识别的准确性；同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合，来改进短文本中词与主题的映射，在主题一致性、文档聚类与文本分类等方面有明显的改进，特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量，不需要人为的指定主题的数量，从而提高主题识别效率；本发明可以得到文本的主题分布，以及主题词的分布，可广泛应用于短文本主题识别任务、短文本聚类任务、推荐系统等领域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种短文本主题识别方法的流程图；

图2为本发明实施例一种短文本主题识别系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例通过提供一种短文本主题识别方法和系统，解决了短文本词共现稀疏问题，实现更加准确的对待处理的短文本数据集进行聚类。

本发明实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示，有效缓解稀疏性问题，同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合，来改进短文本中词与主题的映射，在主题一致性、文档聚类与文本分类等方面有明显的改进，特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量，不需要人为的指定主题的数量，从而提高主题识别效率；本发明实施例可以得到文本的主题分布，以及主题词的分布，可广泛应用于短文本主题识别任务、短文本聚类任务、推荐系统等领域。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种短文本主题识别方法，如图1所示，主要包括以下步骤：

S2、基于所述第二语料集上单词得到隐特征向量，基于所述第一语料集构建狄利克雷过程混合模型；

S4、对所述非参主题模型的主题后验分布进行参数推断；

S5、识别出第一语料集中主题数量，同时得到第一语料集中文档-主题分布以及主题-词分布。

本发明实施例通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示，能有效缓解稀疏性问题，同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合，来改进短文本中词主题的映射，在主题一致性、文档聚类与文本分类等方面有明显的改进，特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量，而不需要人为的指定主题的数量，从而提高主题识别效率。

下面对各步骤进行详细描述：

S1、获取第一语料集和第二语料集，并定义相关变量，其中第一语料集为待处理的短文本数据集，第二语料集为辅助语料集，优选的，预料集2为维基百科语料集。定义第一语料集中共U篇文档，每篇文档包含N_u个单词，U篇文档总共包含|E|个不同的单词，第u篇文档表示成

S2、基于所述第二语料集上单词得到隐特征向量，基于所述第一语料集构建狄利克雷过程混合模型，具体包括步骤S201～S203：

S201、获取第二语料集上单词的隐特征向量表示，具体包括步骤S2011～S2012：

S2011、给定一个文档序列Skip-gram模型目标为优化最大平均对数概率函数L：

其中：

c为目标单词e_i的上下文窗口，例如，将c设置为8，表示在单词e_i前后各取4个单词；

T为文档的长度(即文档中单词的个数)；

条件概率p(e_i+j|e_i)的表达式：

其中：

|V|表示数据集中单词总数；

是目标单词e_i的隐特征向量表示；

是上下文单词特征向量表示。

S2012、使用负采样算法对Skip-gram模型进行训练，在每次迭代中，将一个目标单词与其上下文窗口的单词一起采样，利用随机梯度下降法对参数进行优化。迭代完成，得到所有单词的隐特征向量表示。

S202、根据第一语料集，构造词对，具体过程如下：

对于第u篇文档，词对定义为其中例如，一篇文档若包含4个单词，将会构造出6组无序词对，如每篇文档将产生NB_u个词对遍历第一语料集中的所有文档，共产生|B|个词对，优选的，为了能更有效的构造词对，避免干扰词汇，对第一语料集中的所有文档进行预处理，具体为对评论进行分词、去停用词、去噪声词。

S203、基于词对构建狄利克雷过程混合模型，将第一语料集中的词分配到不同主题上，具体包括步骤S2031～S2033：

S2031、定义狄利克雷过程混合模型，具体过程如下：

首先，定义各文档主题分布G服从DP(α₀,G₀)分布，其中α₀＞0是控制狄利克雷过程混合模型DP方差的集中度参数，G₀是控制DP平均值的基分布。第d(d＝1,...,|B|)个词对主题θ_d服从G分布，第d个词对b_d服从参数为θ_d的F分布，具体表达式如下：

然后，再对主题分布G进行积分，得到θ_d的条件分布为：

其中：

θ_d表示第d个词对主题；

θ_-d表示j≠d的θ_j的集合；

G₀是控制DP平均值的基分布；

α₀是α₀＞0表示控制狄利克雷过程混合模型DP方差的集中度参数；

是θ_j的概率测度；

最后，定义φ₁,φ₂,…,φ_K为θ₁,θ₂,…,θ_|B|的不同取值，其中K为主题的个数，m_k为φ_k在θ_-d中出现的次数，则等式(4)可写成以下形式：

其中：

θ_d表示第d个词对主题；

θ_-d表示j≠d的θ_j的集合；

G₀是控制DP平均值的基分布；

是φ_k的概率测度；

等式(5)表明词对b_d(同一词对中的词主题是一样的)以正比于m_k的概率选择已存在的主题，以正比于α₀的概率选择新的主题。

S2032、以stick-breaking的方式构造狄利克雷过程混合模型，定义为两个独立的随机变量序列，构造过程如下：

其中：

π_k是子主题k在整个主题上占的权重；

G₀是控制DP平均值的基分布；

序列满足为正整数上的随机概率分布，简化表示为π～GEM(α₀)。

S2033、根据步骤S2032采样出多项式分布π，根据π生成为整数，表示词对被分配到的主题。

S3、将单词的隐特征向量与狄利克雷过程混合模型相结合构建非参主题模型LF-WPDP，具体过程如下：

将词的隐特征向量表示与基于词对的狄利克雷过程混合模型相结合。LF-WPDP模型由狄利克雷多项式组分和隐特征组分双组分混合，生成主题词。引入二元指示变量服从伯努利分布，取值0或者1，取值为1表示单词对中的单词是由隐特征组分生成，否则由狄利克雷多项式组分生成。狄利克雷多项式组分在给定主题k时，生成词的概率满足狄利克雷分布φ_k，隐特征组分在给定主题k时生成词的概率满足CatE分布，如公式(7)：

其中：

τ_k表示主题k隐特征向量；

表示单词e的隐特征向量；

表示的转置。

LF-WPDP模型生成词的过程定义如下：

其中：

Dir表示狄利克雷分布；

Mult表示多项式分布；

Ber表示伯努利分布；

超参数λ表示单词对中的单词由隐特征组分生成的概率，超参数β为狄利克雷分布的参数；

和分别表示主题隐特征向量和单词隐特征向量。

S4、利用吉布斯采样和最大后验估计对LF-WPDP模型的主题后验分布进行参数推断，所述参数包括隐主题变量、二元指示变量、主题隐特征向量，具体包括步骤包括步骤S601～S604；

S401、对于每个单词对，定义隐主题变量和二元指示变量的条件概率分布，具体为：

根据公式(8)LF-WPDP模型的生成过程，对于单词对隐主题变量和二元指示变量的条件概率分布如下：

其中：

表示单词对属于主题k的概率，k可以是已有的主题，也可以是新的主题，推导如公式(10)；

是以λ为条件的单词对的二元指示变量的概率，推导如公式(11)；

是单词对的条件密度，是似然函数，推导如公式(12)；-i表示从第i个位置以外的数据，如表示除了以外其他单词对所分配的主题。

其中：

m_k,-u,i是除了以外分配给主题k的单词对的数量，当知道其他单词对所对应的主题，推导出选择某个主题的概率；

为LF-WPDP生成模型中隐特征组分生成的单词对中所有单词的数量；

为LF-WPDP生成模型中狄利克雷多项式组分生成的单词对中所有单词的数量；

是狄利克雷多项式组分生成的主题k对应的所有单词的数量，是狄利克雷多项式组分生成的主题k对应的除单词对以外的单词的数量；

是狄利克雷多项式组分生成的主题k中单词e的数量，根据公式(10)(11)(12)，公式(9)对应的隐主题变量和二元指示变量的条件概率分布有两种情况，分别对应公式(13)(14)：

S402、根据步骤S401为每个单词对采样隐主题变量，具体为：

根据公式(13)和(14)，对进行边缘化，使用给每个单词对采样主题变量如公式(15)：

S403、基于步骤S402为每个单词对采样二元指示变量，具体为：

基于条件对单词对中每个单词采样二元指示变量如公式(16)：

S404、应用最大后验估计，估计主题向量τ_k。第k个主题的负对数似然计算如下，同时添加正则化项：

使用随机梯度下降法优化主题向量，使负对数似然最小化。

其中子主题k向量中第j个元素的导数如下：

其中：

μ是L₂正则化常数，设置为0.01，采用L-BFGS(限域拟牛顿法)去优化子主题向量τ_k使得最小

S5、根据步骤S4识别出第一语料集中主题数量，同时得到第一语料集中文档-主题分布以及主题-词分布，具体为：

根据步骤S4，识别出主题的数量K，根据公式(19)得到各子主题的权重π＝(π₁,π₂,…,π_K)，根据公式(20)得到主题k生成单词e的概率Φ_k,e，从而推断得到第一语料集的中文档-主题分布以及主题-词分布，进而

本发明另一个实施例提供了一种短文本主题识别系统，如图2所示，该系统包括包括：语料集获取单元、建模准备单元、构建非参主题模型单元、参数推断单元、主题分布识别单元。

其中：

语料集获取单元用于获取第一语料集和第二语料集；

建模准备单元用于基于所述第二语料集上单词得到隐特征向量，基于所述第一语料集构建狄利克雷过程混合模型；

构建非参主题模型单元将所述单词的隐特征向量与所述狄利克雷过程混合模型相结合构建非参主题模型；

参数推断单元用于对所述非参主题模型的主题后验分布进行参数推断；

主题分布识别单元用于基于参数推断推断出第一语料集中主题数量，同时得到第一语料集中文档-主题分布以及主题-词分布。

上述的建模准备单元包括：隐特征向量获取模块、构造词对模块、词对分配模块。

其中：

隐特征向量获取模块用于学习所述第二语料集上单词的隐特征向量；

构造词对模块用于根据所述第一语料集，构造词对；

词对分配模块用于根据所述词对构建狄利克雷过程混合模型，将所述词对分配到不同主题上。

综上所述，与现有技术相比，具备以下有益效果：

本发明实施例通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示，能有效缓解稀疏性问题，从而提高短文本主题识别的准确性；同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合，来改进短文本中词与主题的映射，在主题一致性、文档聚类与文本分类等方面有明显的改进，特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量，不需要人为的指定主题的数量，从而提高主题识别效率；本发明实施例可以得到文本的主题分布，以及主题词的分布，可广泛应用于短文本主题识别任务、推荐系统等领域。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种短文本主题识别方法，其特征在于，包括以下步骤：

S4、对所述非参主题模型的主题后验分布进行参数推断；

2.如权利要求1所述的短文本主题识别方法，其特征在于，所述步骤S1还包括定义语料集中的相关变量，所述相关变量包括文档篇数、每篇文档包含的单词个数，所有文档中包含的不同单词的个数。

3.如权利要求1所述的短文本主题识别方法，其特征在于，所述步骤S2具体包括以下步骤：

S201、获取第二语料集上单词的隐特征向量表示；

S202、根据所述语料集1，构造词对；

4.如权利要求3所述的短文本主题识别方法，其特征在于，所述步骤S201包括以下步骤：

S2011、定义Skip-gram模型的学习目标；

5.如权利要求4所述的短文本主题识别方法，其特征在于，所述步骤S2011中定义Skip-gram模型的学习目标的具体方法为：

其中：

c为目标单词e_i的上下文窗口；

T为文档的长度，即文档中单词的个数；

条件概率p(e_i+j|e_i)的表达式：

其中：

|V|表示数据集中单词总数；

是目标单词e_i的隐特征向量表示；

是上下文单词特征向量表示。

6.如权利要求5所述的短文本主题识别方法，其特征在于，所述步骤S2012中得到单词的隐特征向量的具体方法为：

7.如权利要求3所述的短文本主题识别方法，其特征在于，所述步骤S203包括：

S2031、定义狄利克雷过程混合模型；

S2032、以stick-breaking的方式构建狄利克雷过程混合模型，

S2033、根据步骤S2032为每个词对分配主题。

8.如权利要求1所述的短文本主题识别方法，其特征在于，所述步骤S4包括：

S402、根据定义后的每个单词对采样隐主题变量；

S403、基于步骤S402为每个单词对采样二元指示变量；

S404、应用最大后验估计方法，估计主题隐特征向量。

9.一种短文本主题识别系统，其特征在于，包括：

10.如权利要求9所述的短文本主题识别系统，其特征在于，所述建模准备单元包括：