CN110046228B - 短文本主题识别方法和系统 - Google Patents

短文本主题识别方法和系统 Download PDF

Info

Publication number
CN110046228B
CN110046228B CN201910311522.6A CN201910311522A CN110046228B CN 110046228 B CN110046228 B CN 110046228B CN 201910311522 A CN201910311522 A CN 201910311522A CN 110046228 B CN110046228 B CN 110046228B
Authority
CN
China
Prior art keywords
word
topic
corpus
feature vector
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910311522.6A
Other languages
English (en)
Other versions
CN110046228A (zh
Inventor
刘业政
钱洋
陶丹丹
姜元春
毕文亮
孙见山
孙春华
陈夏雨
凌海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910311522.6A priority Critical patent/CN110046228B/zh
Publication of CN110046228A publication Critical patent/CN110046228A/zh
Application granted granted Critical
Publication of CN110046228B publication Critical patent/CN110046228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种短文本主题识别方法和系统,涉及数据处理技术领域。本发明包括以下步骤:S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;S2、基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;S4、对所述非参主题模型的主题后验分布进行参数推断;S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档‑主题分布以及主题‑词分布。本发明通构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,从而提高短文本主题识别的准确性。

Description

短文本主题识别方法和系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种短文本主题识别方法和系统。
背景技术
随着互联网技术的飞速发展,人们越来越多的通过各种网络平台发表自己的观点或意见。例如,用户可以通过介绍影视剧的网站对电影或电视剧作品发表影评或剧评,还可以通过网络购物平台对购买或使用过的商品发表商品评价,也可以通过意见反馈渠道向提供服务或应用的运营商提出意见建议等。由于这些评论大多只是进行片断性的描述说明,其所包括的文字内容较少,因此均可以被看作是短文本数据。
近年来,国内外专家学者对短文本主题识别算法展开了深入研究,提出了诸多短文本主题识别算法,目前,主题模型(TopicModel)成为短文本挖掘领域的热点,它能够发现文档-词语之间所蕴含的潜在语义关系(即主题),有效提高处理网络舆情中短文本语义信息的性能,其中运用较多的主题聚类模型为LDA(LantentDirichletAllocation,文档主题生成模型)。
然而,现实应用场景中,文本数据集存在明显的类分布不平衡问题,特别是短文本由于篇幅有限,词共现稀疏,对现有主题识别算法带来了挑战。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种短文本主题识别方法和系统,解决了短文本词共现稀疏的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种短文本主题识别方法,该方法包括以下步骤:
S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;
S2、基于所述第二语料集上单词得到隐特征向量以及基于所述第一语料集构建狄利克雷过程混合模型;
S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;
S4、对所述非参主题模型的主题后验分布进行参数推断;
S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。
优选的,所述步骤S1还包括定义语料集中的相关变量,所述相关变量包括文档篇数、每篇文档包含的单词个数,所有文档中包含的不同单词的个数。
优选的,所述步骤S2具体包括以下步骤:
S201、获取第二语料集上单词的隐特征向量表示;
S202、根据所述语料集1,构造词对;
S203、基于所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
优选的,所述步骤S201包括以下步骤:
S2011、定义Skip-gram模型的学习目标;
S2012、使用负采样算法对Skip-gram模型进行训练,得到单词的隐特征向量表示。
优选的,所述步骤S2011中定义Skip-gram模型的学习目标的具体方法为:
给定一个文档序列
Figure GDA0003018901850000031
Skip-gram模型目标为优化最大平均对数概率函数L:
Figure GDA0003018901850000032
其中:
c为目标单词ei的上下文窗口;
T为文档的长度,即文档中单词的个数;
条件概率p(ei+j|ei)的表达式:
Figure GDA0003018901850000033
其中:
|V|表示数据集中单词总数;
Figure GDA0003018901850000034
是目标单词ei的隐特征向量表示;
Figure GDA0003018901850000035
是上下文单词特征向量表示。
优选的,所述步骤S2012中得到单词的隐特征向量的具体方法为:
使用负采样算法对Skip-gram模型进行训练,在每次迭代中,将一个目标单词与其上下文窗口的单词一起采样,利用随机梯度下降法对参数进行优化;迭代完成,得到所有单词的隐特征向量表示。
优选的,所述步骤S203包括:
S2031、定义狄利克雷过程混合模型;
S2032、以stick-breaking的方式构建狄利克雷过程混合模型,
S2033、根据步骤S2032为每个词对分配主题。
优选的,所述步骤S4包括:
S401、定义每个单词对的隐主题变量和二元指示变量的条件概率分布;
S402、根据定义后的每个单词对采样隐主题变量;
S403、基于步骤S402为每个单词对采样二元指示变量;
S404、应用最大后验估计方法,估计主题隐特征向量。
本发明还提供一种短文本主题识别系统,其包括:
语料集获取单元,所述语料集获取单元用于获取第一语料集和第二语料集;
建模准备单元,所述建模准备单元用于基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;
构建非参主题模型单元,所述构建非参主题模型单元将所述单词的隐特征向量与所述狄利克雷过程混合模型相结合构建非参主题模型;
参数推断单元,所述参数推断单元用于对所述非参主题模型的主题后验分布进行参数推断;
主题分布识别单元,所述主题分布识别单元用于基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。
优选的,所述建模准备单元包括:
隐特征向量获取模块,所述隐特征向量获取模块用于学习所述第二语料集上单词的隐特征向量;
构造词对模块,所述构造词对模块用于根据所述第一语料集,构造词对;
词对分配模块,所述词对分配模块用于根据所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
(三)有益效果
本发明提供了一种短文本主题识别方法和系统。与现有技术相比,具备以下有益效果:
本发明通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,从而提高短文本主题识别的准确性;同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合,来改进短文本中词与主题的映射,在主题一致性、文档聚类与文本分类等方面有明显的改进,特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量,不需要人为的指定主题的数量,从而提高主题识别效率;本发明可以得到文本的主题分布,以及主题词的分布,可广泛应用于短文本主题识别任务、短文本聚类任务、推荐系统等领域。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种短文本主题识别方法的流程图;
图2为本发明实施例一种短文本主题识别系统的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例通过提供一种短文本主题识别方法和系统,解决了短文本词共现稀疏问题,实现更加准确的对待处理的短文本数据集进行聚类。
本发明实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示,有效缓解稀疏性问题,同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合,来改进短文本中词与主题的映射,在主题一致性、文档聚类与文本分类等方面有明显的改进,特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量,不需要人为的指定主题的数量,从而提高主题识别效率;本发明实施例可以得到文本的主题分布,以及主题词的分布,可广泛应用于短文本主题识别任务、短文本聚类任务、推荐系统等领域。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种短文本主题识别方法,如图1所示,主要包括以下步骤:
S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;
S2、基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;
S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;
S4、对所述非参主题模型的主题后验分布进行参数推断;
S5、识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。
本发明实施例通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合,来改进短文本中词主题的映射,在主题一致性、文档聚类与文本分类等方面有明显的改进,特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量,而不需要人为的指定主题的数量,从而提高主题识别效率。
下面对各步骤进行详细描述:
S1、获取第一语料集和第二语料集,并定义相关变量,其中第一语料集为待处理的短文本数据集,第二语料集为辅助语料集,优选的,预料集2为维基百科语料集。定义第一语料集中共U篇文档,每篇文档包含Nu个单词,U篇文档总共包含|E|个不同的单词,第u篇文档表示成
Figure GDA0003018901850000081
S2、基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型,具体包括步骤S201~S203:
S201、获取第二语料集上单词的隐特征向量表示,具体包括步骤S2011~S2012:
S2011、给定一个文档序列
Figure GDA0003018901850000082
Skip-gram模型目标为优化最大平均对数概率函数L:
Figure GDA0003018901850000083
其中:
c为目标单词ei的上下文窗口,例如,将c设置为8,表示在单词ei前后各取4个单词;
T为文档的长度(即文档中单词的个数);
条件概率p(ei+j|ei)的表达式:
Figure GDA0003018901850000084
其中:
|V|表示数据集中单词总数;
Figure GDA0003018901850000091
是目标单词ei的隐特征向量表示;
Figure GDA0003018901850000092
是上下文单词特征向量表示。
S2012、使用负采样算法对Skip-gram模型进行训练,在每次迭代中,将一个目标单词与其上下文窗口的单词一起采样,利用随机梯度下降法对参数进行优化。迭代完成,得到所有单词的隐特征向量表示。
S202、根据第一语料集,构造词对,具体过程如下:
对于第u篇文档,词对
Figure GDA0003018901850000093
定义为
Figure GDA0003018901850000094
其中
Figure GDA0003018901850000095
例如,一篇文档若包含4个单词,将会构造出6组无序词对,如
Figure GDA0003018901850000098
每篇文档将产生NBu个词对
Figure GDA0003018901850000096
遍历第一语料集中的所有文档,共产生|B|个词对,
Figure GDA0003018901850000097
优选的,为了能更有效的构造词对,避免干扰词汇,对第一语料集中的所有文档进行预处理,具体为对评论进行分词、去停用词、去噪声词。
S203、基于词对构建狄利克雷过程混合模型,将第一语料集中的词分配到不同主题上,具体包括步骤S2031~S2033:
S2031、定义狄利克雷过程混合模型,具体过程如下:
首先,定义各文档主题分布G服从DP(α0,G0)分布,其中α0>0是控制狄利克雷过程混合模型DP方差的集中度参数,G0是控制DP平均值的基分布。第d(d=1,...,|B|)个词对主题θd服从G分布,第d个词对bd服从参数为θd的F分布,具体表达式如下:
Figure GDA0003018901850000101
然后,再对主题分布G进行积分,得到θd的条件分布为:
Figure GDA0003018901850000102
其中:
θd表示第d个词对主题;
θ-d表示j≠d的θj的集合;
G0是控制DP平均值的基分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
δθj是θj的概率测度;
最后,定义φ12,…,φK为θ12,…,θ|B|的不同取值,其中K为主题的个数,mk为φk在θ-d中出现的次数,则等式(4)可写成以下形式:
Figure GDA0003018901850000103
其中:
θd表示第d个词对主题;
θ-d表示j≠d的θj的集合;
G0是控制DP平均值的基分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
δφk是φk的概率测度;
等式(5)表明词对bd(同一词对中的词主题是一样的)以正比于mk的概率选择已存在的主题,以正比于α0的概率选择新的主题。
S2032、以stick-breaking的方式构造狄利克雷过程混合模型,定义
Figure GDA0003018901850000111
Figure GDA0003018901850000112
为两个独立的随机变量序列,构造过程如下:
Figure GDA0003018901850000113
其中:
πk是子主题k在整个主题上占的权重;
G0是控制DP平均值的基分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
序列
Figure GDA0003018901850000114
满足
Figure GDA0003018901850000115
为正整数上的随机概率分布,简化表示为π~GEM(α0)。
S2033、根据步骤S2032采样出多项式分布π,根据π生成
Figure GDA0003018901850000116
为整数,表示词对
Figure GDA0003018901850000117
被分配到的主题。
S3、将单词的隐特征向量与狄利克雷过程混合模型相结合构建非参主题模型LF-WPDP,具体过程如下:
将词的隐特征向量表示与基于词对的狄利克雷过程混合模型相结合。LF-WPDP模型由狄利克雷多项式组分和隐特征组分双组分混合,生成主题词。引入二元指示变量
Figure GDA0003018901850000118
Figure GDA0003018901850000119
服从伯努利分布,取值0或者1,取值为1表示单词对
Figure GDA00030189018500001110
中的单词
Figure GDA00030189018500001111
是由隐特征组分生成,否则由狄利克雷多项式组分生成。狄利克雷多项式组分在给定主题k时,生成词的概率满足狄利克雷分布φk,隐特征组分在给定主题k时生成词的概率满足CatE分布,如公式(7):
Figure GDA0003018901850000121
其中:
τk表示主题k隐特征向量;
Figure GDA0003018901850000122
表示单词e的隐特征向量;
Figure GDA0003018901850000123
表示
Figure GDA0003018901850000127
的转置。
LF-WPDP模型生成词的过程定义如下:
Figure GDA0003018901850000124
其中:
Dir表示狄利克雷分布;
Mult表示多项式分布;
Ber表示伯努利分布;
Figure GDA0003018901850000125
超参数λ表示单词对中的单词由隐特征组分生成的概率,超参数β为狄利克雷分布的参数;
Figure GDA0003018901850000126
Figure GDA0003018901850000128
分别表示主题隐特征向量和单词隐特征向量。
S4、利用吉布斯采样和最大后验估计对LF-WPDP模型的主题后验分布进行参数推断,所述参数包括隐主题变量、二元指示变量、主题隐特征向量,具体包括步骤S401~S404;
S401、对于每个单词对,定义隐主题变量和二元指示变量的条件概率分布,具体为:
根据公式(8)LF-WPDP模型的生成过程,对于单词对
Figure GDA0003018901850000131
隐主题变量
Figure GDA0003018901850000132
和二元指示变量
Figure GDA0003018901850000133
的条件概率分布如下:
Figure GDA0003018901850000134
其中:
Figure GDA0003018901850000135
表示单词对
Figure GDA0003018901850000136
属于主题k的概率,k可以是已有的主题,也可以是新的主题,推导如公式(10);
Figure GDA0003018901850000137
是以
Figure GDA0003018901850000138
λ为条件的单词对
Figure GDA0003018901850000139
的二元指示变量的概率,推导如公式(11);
Figure GDA00030189018500001310
是单词对
Figure GDA00030189018500001311
的条件密度,是似然函数,推导如公式(12);-i表示从第i个位置以外的数据,如
Figure GDA00030189018500001312
表示除了
Figure GDA00030189018500001313
以外其他单词对所分配的主题。
Figure GDA00030189018500001314
Figure GDA00030189018500001315
Figure GDA00030189018500001316
其中:
mk,-u,i是除了
Figure GDA00030189018500001317
以外分配给主题k的单词对的数量,当知道其他单词对所对应的主题,推导出
Figure GDA00030189018500001318
选择某个主题的概率;
Figure GDA0003018901850000141
为LF-WPDP生成模型中隐特征组分生成的单词对
Figure GDA0003018901850000142
中所有单词的数量;
Figure GDA0003018901850000143
为LF-WPDP生成模型中狄利克雷多项式组分生成的单词对
Figure GDA0003018901850000144
中所有单词的数量;
Figure GDA0003018901850000145
是狄利克雷多项式组分生成的主题k对应的所有单词的数量,
Figure GDA0003018901850000146
是狄利克雷多项式组分生成的主题k对应的除单词对
Figure GDA0003018901850000147
以外的单词的数量;
Figure GDA0003018901850000148
是狄利克雷多项式组分生成的主题k中单词e的数量,根据公式(10)(11)(12),公式(9)对应的隐主题变量
Figure GDA0003018901850000149
和二元指示变量
Figure GDA00030189018500001410
的条件概率分布有两种情况,分别对应公式(13)(14):
Figure GDA00030189018500001411
Figure GDA00030189018500001412
S402、根据步骤S401为每个单词对采样隐主题变量,具体为:
根据公式(13)和(14),对
Figure GDA00030189018500001413
进行边缘化,使用
Figure GDA00030189018500001414
给每个单词对
Figure GDA00030189018500001415
采样主题变量
Figure GDA00030189018500001416
如公式(15):
Figure GDA0003018901850000151
S403、基于步骤S402为每个单词对采样二元指示变量,具体为:
基于条件
Figure GDA0003018901850000152
对单词对
Figure GDA0003018901850000153
中每个单词
Figure GDA0003018901850000154
采样二元指示变量
Figure GDA0003018901850000155
如公式(16):
Figure GDA0003018901850000156
S404、应用最大后验估计,估计主题向量τk。第k个主题的负对数似然
Figure GDA0003018901850000157
计算如下,同时添加正则化项:
Figure GDA0003018901850000158
使用随机梯度下降法优化主题向量,使负对数似然
Figure GDA0003018901850000159
最小化。
其中子主题k向量中第j个元素的导数如下:
Figure GDA00030189018500001510
其中:
μ是L2正则化常数,设置为0.01,采用L-BFGS(限域拟牛顿法)去优化子主题向量τk使得
Figure GDA00030189018500001511
最小
S5、根据步骤S4识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布,具体为:
根据步骤S4,识别出主题的数量K,根据公式(19)得到各子主题的权重π=(π12,…,πK),根据公式(20)得到主题k生成单词e的概率Φk,e,从而推断得到第一语料集的中文档-主题分布以及主题-词分布,进而
Figure GDA0003018901850000161
Figure GDA0003018901850000162
本发明另一个实施例提供了一种短文本主题识别系统,如图2所示,该系统包括:语料集获取单元、建模准备单元、构建非参主题模型单元、参数推断单元、主题分布识别单元。
其中:
语料集获取单元用于获取第一语料集和第二语料集;
建模准备单元用于基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;
构建非参主题模型单元将所述单词的隐特征向量与所述狄利克雷过程混合模型相结合构建非参主题模型;
参数推断单元用于对所述非参主题模型的主题后验分布进行参数推断;
主题分布识别单元用于基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。
上述的建模准备单元包括:隐特征向量获取模块、构造词对模块、词对分配模块。
其中:
隐特征向量获取模块用于学习所述第二语料集上单词的隐特征向量;
构造词对模块用于根据所述第一语料集,构造词对;
词对分配模块用于根据所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,从而提高短文本主题识别的准确性;同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合,来改进短文本中词与主题的映射,在主题一致性、文档聚类与文本分类等方面有明显的改进,特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量,不需要人为的指定主题的数量,从而提高主题识别效率;本发明实施例可以得到文本的主题分布,以及主题词的分布,可广泛应用于短文本主题识别任务、推荐系统等领域。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种短文本主题识别方法,其特征在于,包括以下步骤:
S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;
S2、基于所述第二语料集上单词得到隐特征向量以及基于所述第一语料集构建狄利克雷过程混合模型;
S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;
S4、对所述非参主题模型的主题后验分布进行参数推断;
S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布;
其中,所述基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型,包括:
将词的隐特征向量表示与基于词对的狄利克雷过程混合模型相结合,非参主题模型由狄利克雷多项式组分和隐特征组分双组分混合,生成主题词;引入二元指示变量
Figure FDA0003018901840000011
Figure FDA0003018901840000012
服从伯努利分布,取值0或者1,取值为1表示单词对
Figure FDA0003018901840000013
中的单词
Figure FDA0003018901840000014
是由隐特征组分生成,否则由狄利克雷多项式组分生成;狄利克雷多项式组分在给定主题k时,生成词的概率满足狄利克雷分布φk,隐特征组分在给定主题k时生成词的概率满足CatE分布,如公式(7):
Figure FDA0003018901840000015
其中:
τk表示主题k隐特征向量;
Figure FDA0003018901840000021
表示单词e的隐特征向量;
Figure FDA0003018901840000022
表示
Figure FDA0003018901840000023
的转置;
非参主题模型生成词的过程定义如下:
Figure FDA0003018901840000024
其中:
Dir表示狄利克雷分布;
Mult表示多项式分布;
Ber表示伯努利分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
Figure FDA0003018901840000025
超参数λ表示单词对中的单词由隐特征组分生成的概率,超参数β为狄利克雷分布的参数;
Figure FDA0003018901840000026
Figure FDA0003018901840000027
分别表示主题隐特征向量和单词隐特征向量。
2.如权利要求1所述的短文本主题识别方法,其特征在于,所述步骤S1还包括定义语料集中的相关变量,所述相关变量包括文档篇数、每篇文档包含的单词个数,所有文档中包含的不同单词的个数。
3.如权利要求1所述的短文本主题识别方法,其特征在于,所述步骤S2具体包括以下步骤:
S201、获取第二语料集上单词的隐特征向量表示;
S202、根据所述第一语料集,构造词对;
S203、基于所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
4.如权利要求3所述的短文本主题识别方法,其特征在于,所述步骤S201包括以下步骤:
S2011、定义Skip-gram模型的学习目标;
S2012、使用负采样算法对Skip-gram模型进行训练,得到单词的隐特征向量表示。
5.如权利要求4所述的短文本主题识别方法,其特征在于,所述步骤S2011中定义Skip-gram模型的学习目标的具体方法为:
给定一个文档序列
Figure FDA0003018901840000031
Skip-gram模型目标为优化最大平均对数概率函数L:
Figure FDA0003018901840000032
其中:
c为目标单词ei的上下文窗口;
T为文档的长度,即文档中单词的个数;
条件概率p(ei+j|ei)的表达式:
Figure FDA0003018901840000033
其中:
|V|表示数据集中单词总数;
Figure FDA0003018901840000041
是目标单词ei的隐特征向量表示;
Figure FDA0003018901840000042
是上下文单词特征向量表示。
6.如权利要求5所述的短文本主题识别方法,其特征在于,所述步骤S2012中得到单词的隐特征向量的具体方法为:
使用负采样算法对Skip-gram模型进行训练,在每次迭代中,将一个目标单词与其上下文窗口的单词一起采样,利用随机梯度下降法对参数进行优化;迭代完成,得到所有单词的隐特征向量表示。
7.如权利要求3所述的短文本主题识别方法,其特征在于,所述步骤S203包括:
S2031、定义狄利克雷过程混合模型;
S2032、以stick-breaking的方式构建狄利克雷过程混合模型,
S2033、根据步骤S2032为每个词对分配主题。
8.如权利要求1所述的短文本主题识别方法,其特征在于,所述步骤S4包括:
S401、定义每个单词对的隐主题变量和二元指示变量的条件概率分布;
S402、根据定义后的每个单词对采样隐主题变量;
S403、基于步骤S402为每个单词对采样二元指示变量;
S404、应用最大后验估计方法,估计主题隐特征向量。
9.一种短文本主题识别系统,其特征在于,包括:
语料集获取单元,所述语料集获取单元用于获取第一语料集和第二语料集;
建模准备单元,所述建模准备单元用于基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;
构建非参主题模型单元,所述构建非参主题模型单元将所述单词的隐特征向量与所述狄利克雷过程混合模型相结合构建非参主题模型;
参数推断单元,所述参数推断单元用于对所述非参主题模型的主题后验分布进行参数推断;
主题分布识别单元,所述主题分布识别单元用于基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布;
其中,所述基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型,包括:
将词的隐特征向量表示与基于词对的狄利克雷过程混合模型相结合,非参主题模型由狄利克雷多项式组分和隐特征组分双组分混合,生成主题词;引入二元指示变量
Figure FDA0003018901840000051
Figure FDA0003018901840000052
服从伯努利分布,取值0或者1,取值为1表示单词对
Figure FDA0003018901840000053
中的单词
Figure FDA0003018901840000054
是由隐特征组分生成,否则由狄利克雷多项式组分生成;狄利克雷多项式组分在给定主题k时,生成词的概率满足狄利克雷分布φk,隐特征组分在给定主题k时生成词的概率满足CatE分布,如公式(7):
Figure FDA0003018901840000055
其中:
τk表示主题k隐特征向量;
Figure FDA0003018901840000056
表示单词e的隐特征向量;
Figure FDA0003018901840000061
表示
Figure FDA0003018901840000062
的转置;
非参主题模型生成词的过程定义如下:
Figure FDA0003018901840000063
其中:
Dir表示狄利克雷分布;
Mult表示多项式分布;
Ber表示伯努利分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
Figure FDA0003018901840000064
超参数λ表示单词对中的单词由隐特征组分生成的概率,超参数β为狄利克雷分布的参数;
Figure FDA0003018901840000065
Figure FDA0003018901840000066
分别表示主题隐特征向量和单词隐特征向量。
10.如权利要求9所述的短文本主题识别系统,其特征在于,所述建模准备单元包括:
隐特征向量获取模块,所述隐特征向量获取模块用于学习所述第二语料集上单词的隐特征向量;
构造词对模块,所述构造词对模块用于根据所述第一语料集,构造词对;
词对分配模块,所述词对分配模块用于根据所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
CN201910311522.6A 2019-04-18 2019-04-18 短文本主题识别方法和系统 Active CN110046228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910311522.6A CN110046228B (zh) 2019-04-18 2019-04-18 短文本主题识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910311522.6A CN110046228B (zh) 2019-04-18 2019-04-18 短文本主题识别方法和系统

Publications (2)

Publication Number Publication Date
CN110046228A CN110046228A (zh) 2019-07-23
CN110046228B true CN110046228B (zh) 2021-06-11

Family

ID=67277715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910311522.6A Active CN110046228B (zh) 2019-04-18 2019-04-18 短文本主题识别方法和系统

Country Status (1)

Country Link
CN (1) CN110046228B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825842B (zh) * 2019-10-10 2022-07-29 北京航空航天大学 基于不同人格特征的文本观点挖掘方法
CN111090995B (zh) * 2019-11-15 2023-03-31 合肥工业大学 短文本主题识别方法和系统
CN111506785B (zh) * 2020-03-06 2023-07-07 之江实验室 基于社交文本的网络舆情话题识别方法和系统
CN111695358B (zh) * 2020-06-12 2023-08-08 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111813935B (zh) * 2020-06-22 2024-04-30 贵州大学 一种基于层次狄利克雷多项分配模型的多源文本聚类方法
CN112597769B (zh) * 2020-12-15 2022-06-03 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN112860883B (zh) * 2021-02-08 2022-06-24 国网河北省电力有限公司营销服务中心 电力工单短文本热点话题识别方法、装置及终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955948A (zh) * 2016-04-22 2016-09-21 武汉大学 一种基于单词语义相似度的短文本主题建模方法
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107526819A (zh) * 2017-08-29 2017-12-29 江苏飞搏软件股份有限公司 一种面向短文本主题模型的大数据舆情分析方法
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108829799A (zh) * 2018-06-05 2018-11-16 中国人民公安大学 基于改进lda主题模型的文本相似度计算方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573070B (zh) * 2015-01-26 2018-06-15 清华大学 一种针对混合长度文本集的文本聚类方法
CN104991891B (zh) * 2015-07-28 2018-03-30 北京大学 一种短文本特征提取方法
CN106815244B (zh) * 2015-11-30 2020-02-07 北京国双科技有限公司 文本向量表示方法及装置
CN105975499B (zh) * 2016-04-27 2019-06-25 深圳大学 一种文本主题检测方法及系统
CN108090075A (zh) * 2016-11-23 2018-05-29 中移(杭州)信息技术有限公司 文本过滤的方法及装置
CN106599086A (zh) * 2016-11-25 2017-04-26 山东科技大学 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
US10216724B2 (en) * 2017-04-07 2019-02-26 Conduent Business Services, Llc Performing semantic analyses of user-generated textual and voice content
CN109446320A (zh) * 2018-09-29 2019-03-08 昆明理工大学 一种基于lda的生物医药技术主题挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955948A (zh) * 2016-04-22 2016-09-21 武汉大学 一种基于单词语义相似度的短文本主题建模方法
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN107526819A (zh) * 2017-08-29 2017-12-29 江苏飞搏软件股份有限公司 一种面向短文本主题模型的大数据舆情分析方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108829799A (zh) * 2018-06-05 2018-11-16 中国人民公安大学 基于改进lda主题模型的文本相似度计算方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NLP(1)——词向量one hot编码词向量编码思想Word2VecEmbeddingSkip-gram的原理负采样;DC童生;《https://cloud.tencent.com/developer/article/1148561》;20180619;第1-4页 *
改进主题模型的短文本评论情感分析;花树雯 等;《计算机系统应用》;20190315(第03期);第255-259页 *

Also Published As

Publication number Publication date
CN110046228A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046228B (zh) 短文本主题识别方法和系统
Jang et al. Knowledge unlearning for mitigating privacy risks in language models
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN112507248A (zh) 一种基于用户评论数据和信任关系的旅游景点推荐方法
CN111061962A (zh) 一种基于用户评分分析的推荐方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN112364161B (zh) 基于异构社会媒体用户动态行为的微博主题挖掘方法
CN111813895B (zh) 一种基于层次注意力机制和门机制的属性级别情感分析方法
CN111832312A (zh) 文本处理方法、装置、设备和存储介质
CN113408706B (zh) 训练用户兴趣挖掘模型、用户兴趣挖掘的方法和装置
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
Grivolla et al. A hybrid recommender combining user, item and interaction data
Isaac et al. A conceptual enhancement of lstm using knowledge distillation for hate speech detection
Wang et al. Application of an emotional classification model in e-commerce text based on an improved transformer model
Liao et al. Topic-based integrator matching for pull request
Chan et al. Optimization of language models by word computing
CN112487303B (zh) 一种基于社交网络用户属性的主题推荐方法
CN107203632A (zh) 基于相似关系和共现关系的话题流行度预测方法
Luneva et al. Natural language text parsing for social network user sentiment analysis based on fuzzy sets
Bai et al. Text Sentiment Analysis of Hotel Online Reviews
CN112580348A (zh) 政策文本关联性分析方法及系统
CN111737466A (zh) 一种用于深度神经网络交互信息量化的方法
Wu et al. A text emotion analysis method using the dual-channel convolution neural network in social networks
CN109558546A (zh) 一种基于行为分析的微博话题表示模型生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant