CN110941721A - 基于变分自编码主题模型的短文本主题挖掘方法及系统 - Google Patents

基于变分自编码主题模型的短文本主题挖掘方法及系统 Download PDF

Info

Publication number
CN110941721A
CN110941721A CN201910928700.XA CN201910928700A CN110941721A CN 110941721 A CN110941721 A CN 110941721A CN 201910928700 A CN201910928700 A CN 201910928700A CN 110941721 A CN110941721 A CN 110941721A
Authority
CN
China
Prior art keywords
topic
word
document
vector
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910928700.XA
Other languages
English (en)
Other versions
CN110941721B (zh
Inventor
刘玮
王德庆
陆晨炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201910928700.XA priority Critical patent/CN110941721B/zh
Publication of CN110941721A publication Critical patent/CN110941721A/zh
Application granted granted Critical
Publication of CN110941721B publication Critical patent/CN110941721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于变分自编码主题模型的短文本主题挖掘方法及系统。该方法充分利用神经网络结构的优点,在变分自编码主题模型中融入了预训练的词向量和知识图谱中的实体向量表示,可以帮助主题模型改善短文本特征稀疏导致的文本挖掘问题,较好地挖掘短文本的潜在语义信息。

Description

基于变分自编码主题模型的短文本主题挖掘方法及系统
技术领域
本发明涉及一种文本主题挖掘方法,尤其涉及一种基于变分自编码主题模型的短文本主题挖掘方法,同时也涉及相应的短文本主题挖掘系统,属于文本挖掘技术领域。
背景技术
随着大数据时代的到来,以文本为代表的信息资源呈爆炸式增长,从纷繁复杂的各类文本中挖掘有潜在价值、符合用户需要的信息变得越来越重要。实践中,文本可以是电子邮件、书籍章节、博客文章、期刊文章或任何类型的非结构化文本。主题模型(topicmodel)是用来在一系列非结构化文本中发现抽象主题的一种统计模型,在机器学习和自然语言处理等领域得到广泛应用。
在主题模型中,主题是在统计上显著的文本中出现的单词列表。主题模型无法理解文本中用于主题建模的单词的概念,相反,其假设通过从每个主题的可能的单词集中选择单词来组合文本的任何部分。模型通过迭代这个过程,直到它保持最可能的单词分配到“主题”中。主题模型可以根据整个文档集、单个文档以及文档之间的关系提供关于文档集的有用的隐藏结构(语义)表示。主题模型利用文档集中的词共现,挖掘了文档中的潜在语义信息;同时也将维度为词典大小的词空间变为维度为主题数量的主题特征空间,对文档进行降维表示,可以更方便地展现文档的潜在语义信息。
目前,以微博、短信、日志文件或者评论数据为代表的短文本数据越来越多,但对其进行文本主题挖掘存在不少困难,无法直接用传统的主题模型算法来处理它。短文本数据的主要难点在于:1.与常规文件相比,每篇短文中缺少单词共现信息,文本特征较为稀疏;2.短文本数据中经常存在多词一义的现象,例如“dollar”、“$”、“$$”、“fee”,“charges”等往往拥有相同的含义,但是受限于文本篇幅的原因,很难直接从短文本数据中提取出这些信息。3.短文本数据中通常只包含一个主题。这看似很好处理,但是传统的主题模型算法都假设一篇文档中包含多个主题,这给建模分析带来了不小的麻烦。
发明内容
针对现有技术中的不足,本发明所要解决的首要技术问题在于提供一种基于变分自编码主题模型的短文本主题挖掘方法。
本发明所要解决的另一技术问题在于提供一种基于变分自编码主题模型的短文本主题挖掘系统。
为实现上述发明目的,本发明采用下述的技术方案:
根据本发明实施例的第一方面,提供一种基于变分自编码主题模型的短文本主题挖掘方法,包括如下步骤:
1)对数据集中的每篇文档d,采样服从狄利克雷分布Dir(α)的文档-主题分布θd
2)对主题1…K,分布采样每个主题的服从狄利克雷分布Dir(β)的主题-词分布φk
3)对文档d中的每个词wd
a)从文档d的主题分布Mult(θd)采样单词的主题zd,n
b)从主题z的单词分布Mult(φz)重采样单词wd,n
4)对文档d中的每个词向量wed
a)从文档d的主题分布Mult(θd)采样词向量的主题zwe d,n
b)从主题z的单词分布Mult(φz)重采样词向量wed,n
5)对文档d中的每个实体向量ked
a)从文档d的主题分布Mult(θd)采样实体向量的主题zd,n
b)从主题z的单词分布Mult(φz)重采样实体向量zke d,n
其中较优地,所述词向量为从外部语料库训练得到的词向量。
其中较优地,所述实体向量为经过人工编辑的知识图谱中的实体向量。
其中较优地,将词向量和实体向量输入网络后,经过全连接层,使所述词向量和所述实体向量的向量维度与文档的词典模型向量维度一致,随后将这三个向量简单相加,输入到下一层神经网络。
其中较优地,在计算μ、logσ2和η后添加批归一化,将η重建为生成器网络输出的两个副本的组合,一个通过一个batchnorm层,一个不通过batchnorm层。
其中较优地,在训练过程中,将模型从完全依靠通过batchnorm层转变为完全不依靠通过batchnorm层。
其中较优地,所述变分自编码主题模型中,从随机初始化开始学习所有参数;或者,在初始化和修复模型中实现单词的初始嵌入。
根据本发明实施例的第二方面,提供一种基于变分自编码主题模型的短文本主题挖掘系统,包括处理器和存储器;所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时实现如下步骤:
1)对数据集中的每篇文档d,采样服从狄利克雷分布Dir(α)的文档-主题分布θd
2)对主题1…K,分布采样每个主题的服从狄利克雷分布Dir(β)的主题-词分布φk
3)对文档d中的每个词wd
a)从文档d的主题分布Mult(θd)采样单词的主题zd,n
b)从主题z的单词分布Mult(φz)重采样单词wd,n
4)对文档d中的每个词向量wed
a)从文档d的主题分布Mult(θd)采样词向量的主题zwe d,n
b)从主题z的单词分布Mult(φz)重采样词向量wed,n
5)对文档d中的每个实体向量ked
a)从文档d的主题分布Mult(θd)采样实体向量的主题zd,n
b)从主题z的单词分布Mult(φz)重采样实体向量zke d,n
与现有技术相比较,本发明所提供的短文本主题挖掘方法充分利用神经网络结构的优点,在模型中融入了预训练的词向量和知识图谱中的实体向量表示,从而提升了模型的主题挖掘效果。通过主题连贯性和基于主题特征的分类准确率等定量试验,证明了VAETM模型在主题建模方面的提升。通过展示VAETM模型在不同数据集上挖掘的主题示例,同样可以看出VAETM模型可以较好地挖掘短文本的潜在语义信息。
附图说明
图1为VAETM模型的变分自编码器结构示意图;
图2为VAETM模型的生成过程示意图;
图3为VAETM模型的推理过程示意图;
图4为20Newsgroups、IMDB电影评论语料库和中国标准文献三个数据集上进行关于迭代次数的实验结果示意图;
图5为20Newsgroups、IMDB电影评论语料库和中国标准文献三个数据集上进行关于主题数量的实验结果示意图;
图6为本发明所提供的短文本主题挖掘系统的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容做进一步的详细说明。
变分自编码器(Variational auto-encoder,简称为VAE)是一种强大的生成模型。它可以应用到很多领域,例如从生成假人脸到合成音乐等。近年来,相关学者也开始将VAE模型应用于文本挖掘领域。由于VAE模型具有较好的可解释性,而且能方便地使用神经网络进行模型训练,因此本发明在现有VAE模型的基础上进行一些改进,并用于主题模型的建模中。
本发明首先提出了一种融入词向量与实体向量的变分自编码主题模型(Variational Auto-Encoding Topic Model,简称为VAETM模型)。该VAETM模型的变分自编码器结构如图1所示。与现有技术相比较,该VAETM模型除了将现有VAE模型中潜变暈分布的改为与LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型—致的狄利克雷分布外,还将更多的先验知识融合到模型之中,即在VAE模型的输入中增加从大量外部语料库训练得到的词向量和大规模的经过人工编辑的知识图谱中的实体向量。这些向量表示作为模型训练的先验知识,包含了词和实体之间的语义相似度信息,因此可以帮助主题模型改善短文本特征稀疏导致的问题。另外,由于VAE模型是基于神经网络结构的,因此可以很容易地将更多的向量化的先验数据加入VAETM模型中。
令D为一个文档集,其中每篇文档Di包含Ni个词。设文档集的词典为w,其大小为V,则wi为词典中的第i个单词。VAETM模型的生成模型(generative model)和推理模型(inference model)分别如图2和图3所示。
首先,结合图2介绍VAETM模型的生成过程。
VAETM模型建立在LDA的生成过程的基础上,并且还额外引入了词的词向量和对应知识图谱中的实体向量,并用更灵活的生成网络fg替换LDA中的Θ和B的矩阵乘积,然后再进行softmax变换。生成模型的概率图模型如图2所示,其具体过程如下:
1.对每篇文档d,采样θd~Dir(α)
2.对主题1...K中的每个主题k:
(a)绘制分布φk~Dir(β);
3.对文档d中的每个单词wd
(a)采样主题zd,n~Mult(θd);
(b)采样单词wd,n~Mult(φz);
4.对文档d中的每个单词词向量:
(a)采样主题
Figure BDA0002219648450000051
(b)采样单词词向量
Figure BDA0002219648450000052
5.对文档d中的每个实体向量:
(a)采样主题
Figure BDA0002219648450000053
(b)采样实体向量
Figure BDA0002219648450000054
其中Dir(·)表示狄利克雷分布,Mult(·)表示多项分布。为了用超参数α拟合对称狄利克雷先验,这些可以用拉普拉斯拟合[57]使μ0,k(α)=0,并且
Figure BDA0002219648450000055
其中μ0(α)和
Figure BDA0002219648450000056
分别是多元正态先验的均值和对角线协方差项。
设B符合狄利克雷分布,并令
Figure BDA0002219648450000057
式中d是V-维背景项,表示单词的文档频率的log值,B为权重矩阵。引入背景项是为了表示文档中频率大致相同的常用词,权重B表示与此背景的正、负偏差。以上即为VAETM生成模型中的fg项的形式。利用超参数γ对权重矩阵的每个元素Bm,n使用复合正态指数先验,即
τm,n~Exponential(γ)
Figure BDA0002219648450000058
另外,还可以考虑其他生成网络,增加其他层代表更复杂的概率函数,不过这可能会一定程度地降低模型的可解释性。
接下来,结合图3介绍VAETM模型的推理过程。
假设每个文档i都有一个潜在表示ri,它可以被解释为它在每个主题中的相对比例(在取幂和归一化之后)。为了推断ri的近似后验分布,VAETM模型采用了基于采样的VAE框架。与传统的变分推理一样,假设对后验的变分近似为qΦ(ri|wi),并希望最小化它与真实后验分布p(ri|wi)之间的KL散度,其中Φ是如下面所定义的变量参数集。在此基础上经过一系列推导,可以获得单个文档的变分下界(ELBO)
Figure BDA0002219648450000061
与原始的VAE模型一样,VAETM使用共享的多层神经网络对变分分布的参数进行编码。因为对r假设了对角正态先验分布,所以采用网络的形式,输出为r的一个均值向量μi=fμ(wi)和一个对角方差矩阵
Figure BDA0002219648450000062
为了将文档的标签信息和协变量引入推理网络,可以使
Figure BDA0002219648450000063
μi=Wμπi+bμ
Figure BDA0002219648450000064
式中fe表示一个多层神经网络,Wx表示一篇文档中的单词,xi是V维向量,表示文档中对应词典每一个单词wi的计数。
Figure BDA0002219648450000071
Figure BDA0002219648450000072
分别表示文档的词向量加权平均值和实体向量的加权平均值,这两个向量的维度由使用的词向量和实体向量的维度决定。因此,完整的编码器参数Φ包括了fe和上述公式中的权重矩阵和偏差向量,这使得式(1的期望值是难以处理的,需要通过使用采样来近似求解。为了保持差异性,可以在采样之后使用重参数化技巧,这可以根据来自qΦ(r|wi)的样本和独立的噪声
Figure BDA0002219648450000076
重参数化样本,即:
Figure BDA0002219648450000073
使用∈的单个样本(从而得到r)用蒙特卡罗近似替换式(1)中的边界,从而得到:
Figure BDA0002219648450000074
得到这个变分下界后,可以使用随机梯度下降来优化这个基于采样的变分下界的近似值,其中包括Φ、fg与fy中的所有参数。另外,为了防止在模型训练的过拟合问题,我们为式(2)目标函数中KL散度项加上正则系数c,得到如下的目标函数:
Figure BDA0002219648450000075
前已述及,VAETM模型不仅使用文档的词袋模型表示作为模型的输入,还将额外的先验知识加入模型本身,即加入了从大量外部语料库训练得到的词向量和大规模的经过人工编辑的知识图谱中的实体向量。在本发明的不同实施例中,可以从随机初始化开始学习所有参数,也可以在初始化和修复模型中实现单词的初始嵌入。
在本发明的一个实施例中,词向量的英文部分使用了基于Google News语料训练的词向量模型(参见code.google.com/archive/p/word2vec/)。该词向量模型使用Skip-Gmm模型和负采样方法进行训练,包含了300万个单词和短语,每个单词都由300维的向量表示。词向量的中文部分使用了腾讯AI实验室发布的预训练的词向量模型(参见ai.tencent.com/ailab/nlp/embedding.html)。该语料库为在大规模高质量数据上预先训练的800多万个中文单词和短语提供了200维的向量表示,可以广泛应用于许多中文处理任务中。
在本发明的另一个实施例中,实体向量由维基数据提供。维基数据(WikiData,参见www.wikidata.org)是一个面向文档的数据库,专注于表示主题、概念或对象的实体。每个维基数据的实体都由一个唯一的数字标识,前缀为字母Q,称为“QID”,例如爱情(Q316)、地球(Q2)和大猩猩(Q36611)等。这使得识别项目所涵盖的主题所需的基本信息能够被翻译而不偏袒任何语言。在维基数据中,每个实体由标签和一些描述组成。在本发明的实施例中,使用了OpenKE(参见github.com/thunlp/OpenKE)预训练的维基数据实体向量模型,实体向量的维度为100。0penKE使用了TransE模型进行知识表示的训练,通过将关系解释为对实体的低维嵌入进行操作的翻译来对关系进行建模。
VAETM模型使用TensorFlow实现。在生成网络fg中,为了组合不同的外部知识,我们在网络的输入额外添加了一层全连接层,该层的神经元数量为词典大小V。具体来说,将词向量和实体向量输入网络后,经过全连接层,使得这两部分的向量维度与文档的词典模型向量的维度一致,随后将这三个向量简单相加,输入到下一层神经网络。
如在过去的工作中所观察到的,使用VAE的推理可能会有组成成分崩溃的问题,这会转化为主题中的过度冗余(即包含相同词集的主题组)。为了缓解这个问题造成的不利影响,我们使用了Adam优化器,结合批归一化(batch norm)层。具体来说,在计算μ、logσ2和η后添加批归一化。我们将η重建为生成器网络输出的两个副本的组合,一个通过一个batchnorm层,一个不通过batchnorm层。在训练过程中,我们逐渐训练模型,从完全依靠通过batchnorm层的组件转变为完全依赖于不通过batchnorm层,这样确保了最终权重和文档表示将被正确解释。
在分类测试中,我们将主题模型得到的文档的主题特征与文档的标签进行分类测试,为了简单起见,我们采用Logistic回归进行分类预测。
下面,通过具体的实验数据对本发明所提供的VAETM模型在短文本数据的主题挖掘中的实际效果进行说明。对于实验数据集,本发明实施例中使用常用的20Newsgroups、IMDB电影评论语料库。为了进一步说明VAETM模型在短文本数据上的性能,本发明实施例中还使用了约9.6万篇的中国标准文献数据集,其中每篇文档包括标准的标题和适用范围。我们对各个数据集还划分为训练集和测试集,每个集合的数据集都有各自的标签。基于这些数据集,我们对不同模型生成的主题特征代表的文档进行分类性能的测试。
在实验中,对每个主题模型进行以下评估:(1)困惑度(Perplexity)评估;(2)基于NPMI算法的主题连贯性(Coherence);(3)基于文档主题特征的分类准确率。最后,收集各类模型在不同数据集上所学主题的主要主题词,定性展示VAETM模型在短文本数据主题挖掘中的效果。具体说明如下:
困惑度:监督分类器通常根据一些保持数据的预测性能来评估,在训练期间未观察到。主题模型(以及一般的无监督模型)评估起来比较棘手,因为主题模型的质量最终取决于根据人们查看模型学习的主题的连贯性或可解释性。然而人为判断的可解释性不是模型质量的可扩展度量,我们在许多实验中使用保持困惑度(Perplexity)来判别模型主题建模的质量。困惑度是模型下语料库的指数平均负对数概率:
Figure BDA0002219648450000091
式中Nm是文档m中的单词数。困惑度可以被解释为编码语料库中每个标记对主题模型的“混淆”程度。具有较低困惑度的主题模型可以更好地预测文档中可能出现哪些单词(为语料库中的单词指定较高的平均对数似然性)。通过来自语料库中的每个其他词的文档主题和主题词计数,以及评估剩余的保持词的困惑来计算测试数据的困惑度。
NPMI:NPMI计算了一种主题质量的自动度量,即m个最可能的单词对之间的逐点互信息之和,并通过在文档中共同出现的每对词的负对数概率归一化:
Figure BDA0002219648450000092
具有较大NPMI分数的主题是其中最可能的单词往往出现在相同文档中的频率高于偶然的主题。在实验中,我们基于每个主题中概率最高的前10个单词计算主题的NPMI值。
分类准确率:对于预测任务,我们使用与文档对应的主题分布作为预测文档标签的特征。随后使用Logistic回归模型将主题特征作为输入进行分类测试。
表1是现有技术中的LDA模型与VAETM模型在标准文献数据集上生成的主题对比,我们对两种模型挖掘的主题各选取8个相似的主题;对于每个主题,选取该主题中概率最高的前8个词作为代表。一方面,通过对比,可以看出LDA模型在短文本上的主题挖掘效果变差,同一主题下往往包括多种语义关联不大的词。举例来说,在“节能”主题下,LDA模型挖掘的前8个词除了“能耗”、“节能”这样的有意义的词外,还有其他许多与主题无关的词,如“建设”、“标准”、“蒸汽”。同样的,在“化学”、“网络”等其他主题下,LDA模型挖掘的主题词集合中也杂糅了许多不相关的词语,如“适用”、“标准”、“颗粒”等。这正是由于LDA模型不能很好地应对短文本词共现少、特征稀疏的问题。
表1 LDA与VAETM在标准文献数据集上生成的主题对比
Figure BDA0002219648450000101
本发明所提供的VAETM模型,由于加入了具有丰富语义信息的先验知识,在挖掘的主题词上表现得更有意义。例如,在“食品安全”主题中,VAETM模型挖掘的词包括“乳、“添加剂”、“强化剂”、“绿色食品”、“辅料”、“营养”等在语义上与主题高度相关的词。同样,在“通信”、“纺织”等其他主题下,主题中的词也都和主题的语义相近。值得注意的是,类似“邻苯二甲酸”、“多元醇”、“印染布”、“聚烯烃”这样相对少见且是多个词的组合的短语也被很好地挖掘出来了,这表明了应用了预训练的词向量和知识图谱中的实体向量作为模型输入的一部分,提升了这些短语在主题中的权重,使得主题词能够更好地表现文档的潜在语义信息。
表2是VAETM模型在20Newsgroups数据上挖掘的前8个主题。容易看出,主题1是关于群众的主题,主题2是关于文件系统和ftp的主题,主题3是关于民兵的主题,其他主题下的词也同样较好地反映了文档中不同的主题信息。
表2 VAETM在20Newsgroups数据集上生成的前8个主题示例
Figure BDA0002219648450000111
类似地,表3列出了在IMDB电影评论数据集中挖掘的前8个主题词的各自8个单词。容易看到,不同主题较好地表现了关于电影的不同方面的主题。例如,主题1是关于士兵、战争的电影主题,主题2是关于僵尸、吸血鬼的电影主题,主题3则是关于纪录片和历史文化的主题。
表3 VAETM在IMDB数据集上生成的前8个主题示例
Figure BDA0002219648450000112
下面,进一步对VAETM模型的主要参数-迭代次数T和主题数量K对模型性能的影响进行分析。
迭代次数:在实验中,我们设置了迭代次数T分别为5,10,…,495,500,固定其他参数不变,依次训练并计算主题连贯性NPMI。我们在三个数据集上进行了关于迭代次数的实验,实验结果如图4所示。可以看到,随着迭代次数逐渐增加,VAETM模型的NPMI值也随着增大,在迭代次数T大于400后,VAETM模型趋于收敛,NPMI值变化较为平缓。当迭代次数T在450附近时,VAETM模型在三个数据集上的主题连贯性NPMI相对较大,因此优选T=450为实验中的迭代次数。
主题数量:在实验中,我们设置了主题数K分别为10,20,…,90,100,固定其他参数不变,依次训练VAETM模型并计算在20Newsgroups、IMDB和标准文献数据集上的主题连贯性NPMI。从图5中可以看出,随着主题数量从10增加到100,NPMI值基本没有较大变化,与主题数量之间没有明显的相关性。这表现出了VAETM模型的稳定性,模型性能对主题数量不敏感。
在此基础上,本发明还提供了一种短文本主题挖掘系统。如图6所示,该系统包括处理器62以及存储有处理器62可执行指令的存储器61;
其中,处理器62可以是通用处理器,例如中央处理器(CPU),还可以是数字信号处理器(DSP)、专用集成电路(ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
其中,存储器61,用于存储程序代码,并将该程序代码传输给CPU。存储器61可以包括易失性存储器,例如随机存取存储器(RAM);存储器61也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器61还可以包括上述种类的存储器的组合。
具体地,本发明实施例所提供的一种短文本主题挖掘系统,包括处理器62和存储器61;存储器61上存储有可在处理器62上运行的计算机程序,当计算机程序被处理器62执行时实现如下步骤:
1.对每篇文档d,采样θd~Dir(α)
2.对主题1...K中的每个主题k:
(a)绘制分布φk~Dir(β);
3.对文档d中的每个单词wd
(a)采样主题zd,n~Mult(θd);
(b)采样单词wd,n~Mult(φz);
4.对文档d中的每个单词词向量:
(a)采样主题
Figure BDA0002219648450000131
(b)采样单词词向量
Figure BDA0002219648450000132
5.对文档d中的每个实体向量:
(a)采样主题
Figure BDA0002219648450000133
(b)采样实体向量
Figure BDA0002219648450000134
本发明实施例还提供了一种计算机可读存储介质。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
上面对本发明所提供的基于变分自编码主题模型的短文本主题挖掘方法及系统进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (10)

1.一种基于变分自编码主题模型的短文本主题挖掘方法,其特征在于包括如下步骤:
1)对数据集中的每篇文档d,采样服从狄利克雷分布Dir(α)的文档-主题分布θd
2)对主题1…K,分布采样每个主题的服从狄利克雷分布Dir(β)的主题-词分布φk
3)对文档d中的每个词wd
a)从文档d的主题分布Mult(θd)采样单词的主题zd,n
b)从主题z的单词分布Mult(φz)重采样单词wd,n
4)对文档d中的每个词向量wed
a)从文档d的主题分布Mult(θd)采样词向量的主题zwe d,n
b)从主题z的单词分布Mult(φz)重采样词向量wed,n
5)对文档d中的每个实体向量ked
a)从文档d的主题分布Mult(θd)采样实体向量的主题zd,n
b)从主题z的单词分布Mult(φz)重采样实体向量zke d,n
2.如权利要求1所述的短文本主题挖掘方法,其特征在于:
所述词向量为从外部语料库训练得到的词向量。
3.如权利要求1所述的短文本主题挖掘方法,其特征在于:
所述实体向量为经过人工编辑的知识图谱中的实体向量。
4.如权利要求2或3所述的短文本主题挖掘方法,其特征在于:
将词向量和实体向量输入网络后,经过全连接层,使所述词向量和所述实体向量的向量维度与文档的词典模型向量维度一致,随后将这三个向量简单相加,输入到下一层神经网络。
5.如权利要求1所述的短文本主题挖掘方法,其特征在于:
在计算编码器输出的均值变量、对数方差变量添加了批量归一化层,在计算解码器输出的重建表示变量时,将经过批量归一化的变量与未批量归一化的变量进行组合,得到最后的重建表示。
6.如权利要求1所述的短文本主题挖掘方法,其特征在于:
在训练过程中,将模型从完全依靠通过batchnorm层转变为完全不依靠通过batchnorm层。
7.如权利要求1所述的短文本主题挖掘方法,其特征在于:
所述变分自编码主题模型中,从随机初始化开始学习所有参数。
8.如权利要求1所述的短文本主题挖掘方法,其特征在于:
所述变分自编码主题模型中,在初始化和修复模型中实现单词的初始嵌入。
9.如权利要求1所述的短文本主题挖掘方法,其特征在于:
所述变分自编码主题模型中,迭代次数为450。
10.一种基于变分自编码主题模型的短文本主题挖掘系统,其特征在于包括处理器和存储器;所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时实现如下步骤:
1)对数据集中的每篇文档d,采样服从狄利克雷分布Dir(α)的文档-主题分布θd
2)对主题1…K,分布采样每个主题的服从狄利克雷分布Dir(β)的主题-词分布φk
3)对文档d中的每个词wd
a)从文档d的主题分布Mult(θd)采样单词的主题zd,n
b)从主题z的单词分布Mult(φz)重采样单词wd,n
4)对文档d中的每个词向量wed
a)从文档d的主题分布Mult(θd)采样词向量的主题zwe d,n
b)从主题z的单词分布Mult(φz)重采样词向量wed,n
5)对文档d中的每个实体向量ked
a)从文档d的主题分布Mult(θd)采样实体向量的主题zd,n
b)从主题z的单词分布Mult(φz)重采样实体向量zke d,n
CN201910928700.XA 2019-09-28 2019-09-28 基于变分自编码主题模型的短文本主题挖掘方法及系统 Active CN110941721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910928700.XA CN110941721B (zh) 2019-09-28 2019-09-28 基于变分自编码主题模型的短文本主题挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910928700.XA CN110941721B (zh) 2019-09-28 2019-09-28 基于变分自编码主题模型的短文本主题挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN110941721A true CN110941721A (zh) 2020-03-31
CN110941721B CN110941721B (zh) 2022-09-20

Family

ID=69905784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910928700.XA Active CN110941721B (zh) 2019-09-28 2019-09-28 基于变分自编码主题模型的短文本主题挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN110941721B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460105A (zh) * 2020-04-02 2020-07-28 清华大学 基于短文本的主题挖掘方法、系统、设备及存储介质
CN111460137A (zh) * 2020-05-20 2020-07-28 南京大学 一种基于主题模型的微服务关注点识别方法、设备及介质
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN112100405A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于加权lda的兽药残留知识图谱构建方法
CN112597769A (zh) * 2020-12-15 2021-04-02 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN116932686A (zh) * 2023-09-19 2023-10-24 苏州元脑智能科技有限公司 主题挖掘方法、装置、电子设备及存储介质
CN117236330A (zh) * 2023-11-16 2023-12-15 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法
CN117808104A (zh) * 2024-02-29 2024-04-02 南京邮电大学 一种面向热点话题的基于自监督表示学习的观点挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120101965A1 (en) * 2010-10-26 2012-04-26 Microsoft Corporation Topic models
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN107239509A (zh) * 2017-05-15 2017-10-10 清华大学 面向短文本的单主题挖掘方法及系统
CN108009187A (zh) * 2017-02-20 2018-05-08 南京航空航天大学 一种增强文本特征表示的短文本主题挖掘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120101965A1 (en) * 2010-10-26 2012-04-26 Microsoft Corporation Topic models
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN108009187A (zh) * 2017-02-20 2018-05-08 南京航空航天大学 一种增强文本特征表示的短文本主题挖掘方法
CN107239509A (zh) * 2017-05-15 2017-10-10 清华大学 面向短文本的单主题挖掘方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐立洋等: "基于狄利克雷多项分配模型的多源文本主题挖掘模型", 《计算机应用》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460105A (zh) * 2020-04-02 2020-07-28 清华大学 基于短文本的主题挖掘方法、系统、设备及存储介质
CN111460105B (zh) * 2020-04-02 2023-08-29 清华大学 基于短文本的主题挖掘方法、系统、设备及存储介质
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111581962B (zh) * 2020-05-14 2023-02-21 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111460137B (zh) * 2020-05-20 2023-10-17 南京大学 一种基于主题模型的微服务关注点识别方法、设备及介质
CN111460137A (zh) * 2020-05-20 2020-07-28 南京大学 一种基于主题模型的微服务关注点识别方法、设备及介质
CN112100405A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于加权lda的兽药残留知识图谱构建方法
CN112100405B (zh) * 2020-09-23 2024-01-30 中国农业大学 一种基于加权lda的兽药残留知识图谱构建方法
CN112597769A (zh) * 2020-12-15 2021-04-02 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN112597769B (zh) * 2020-12-15 2022-06-03 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN116932686A (zh) * 2023-09-19 2023-10-24 苏州元脑智能科技有限公司 主题挖掘方法、装置、电子设备及存储介质
CN116932686B (zh) * 2023-09-19 2024-01-23 苏州元脑智能科技有限公司 主题挖掘方法、装置、电子设备及存储介质
CN117236330A (zh) * 2023-11-16 2023-12-15 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法
CN117236330B (zh) * 2023-11-16 2024-01-26 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法
CN117808104A (zh) * 2024-02-29 2024-04-02 南京邮电大学 一种面向热点话题的基于自监督表示学习的观点挖掘方法
CN117808104B (zh) * 2024-02-29 2024-04-30 南京邮电大学 一种面向热点话题的基于自监督表示学习的观点挖掘方法

Also Published As

Publication number Publication date
CN110941721B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN110941721B (zh) 基于变分自编码主题模型的短文本主题挖掘方法及系统
Chen et al. A comparative study of automated legal text classification using random forests and deep learning
Hughes et al. Medical text classification using convolutional neural networks
O’callaghan et al. An analysis of the coherence of descriptors in topic modeling
Moody Mixing dirichlet topic models and word embeddings to make lda2vec
Sordoni et al. A hierarchical recurrent encoder-decoder for generative context-aware query suggestion
Li et al. Pachinko allocation: DAG-structured mixture models of topic correlations
Heigold et al. An extensive empirical evaluation of character-based morphological tagging for 14 languages
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
Rezaei et al. Multi-document extractive text summarization via deep learning approach
Romanov et al. Application of natural language processing algorithms to the task of automatic classification of Russian scientific texts
Schmidt Stable random projection: Lightweight, general-purpose dimensionality reduction for digitized libraries
Suh et al. L-ensnmf: Boosted local topic discovery via ensemble of nonnegative matrix factorization
CN110569503A (zh) 一种基于词统计与WordNet的义项表示与消歧方法
Mohammadi et al. Context-specific recommendation system for predicting similar pubmed articles
Priyadharshan et al. Text summarization for Tamil online sports news using NLP
WO2022200146A1 (en) Accelerated document categorization using machine-learning
Singh et al. Distantly labeling data for large scale cross-document coreference
D’silva et al. Automatic text summarization of konkani texts using pre-trained word embeddings and deep learning
Koopman et al. Fast and discriminative semantic embedding
Ali Reshi et al. An efficient fake news detection system using contextualized embeddings and recurrent neural network
Viji et al. A hybrid approach of Poisson distribution LDA with deep Siamese Bi-LSTM and GRU model for semantic similarity prediction for text data
Yang A novel contextual topic model for query-focused multi-document summarization
Wróbel et al. Improving text classification with vectors of reduced precision
Lin et al. Copula guided parallel gibbs sampling for nonparametric and coherent topic discovery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant