CN114417852A - 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 - Google Patents

基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 Download PDF

Info

Publication number
CN114417852A
CN114417852A CN202111482375.2A CN202111482375A CN114417852A CN 114417852 A CN114417852 A CN 114417852A CN 202111482375 A CN202111482375 A CN 202111482375A CN 114417852 A CN114417852 A CN 114417852A
Authority
CN
China
Prior art keywords
distribution
encoder
gaussian mixture
model
wasserstein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111482375.2A
Other languages
English (en)
Inventor
刘洪涛
方勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111482375.2A priority Critical patent/CN114417852A/zh
Publication of CN114417852A publication Critical patent/CN114417852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,涉及自然语言处理技术领域。本发明包括以下步骤:将文本数据集表示为传统的词袋模型BOW作为自编码器的输入;数据通过编码器得到主题向量θ;使用高斯混合模型GMM作为一个先验分布,生成潜在的向量表示θ′;对得到的主题分布θ进行解码,将其映射到V个单元的输出层,获得
Figure DDA0003395335450000011
计算输入BOW和输出
Figure DDA0003395335450000012
的重构损失,以及分布θ′和分布θ之间的最大均值差异MMD损失;迭代,更新模型参数对生成模型进行优化。本发明使用MMD来度量先验分布和后验分布之间的差异,并且训练过程中不使用监督信息,能够获得一系列更为多样以及连贯的主题。

Description

基于Wasserstein自编码器和高斯混合分布作为先验的主题 建模方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法。
背景技术
主题建模是自然语言处理的一项重要任务,传统的主题检测方法主要以词作为基本的特征,通过统计词语之间的共现关系计算主题之间的概率。其广泛应用于例如主题识别、垃圾邮件检测和情感分类等诸多场景,但当预料数较少或者文本篇幅较短时,这种单纯依靠词频统计进行主题分配的方法往往会因为语义信息不足而造成主题识别率不够理想的问题。
近年来,深度学习和机器学习在自然语言处理方面取得很大进展,有研究表明,基于神经网络的模型相较于传统模型(例如朴素贝叶斯)在主题建模任务中会有更好的表现。典型的基于神经网络的主题模型是同样基于单词的,但他们通常使用目标文档中的词作为模型的输入,将单词映射到连续向量空间中(词嵌入),并通过诸如求和、求平均、卷积神经网络(CNN)或循环神经网络(RNN)等方法将这些向量组合起来捕获文档的语义。
除了上述方法,另一种可行的方式便是基于神经网络的变分自编码器改进的主题模型的推理,它旨在利用神经网络刻画包含潜在主题信息的文本生成过程。这一类模型中一般以文档词袋子(BOW)作为输入,和传统模型的区别在于传统主题模型主要涉及到Gibbs采样或者变分推断,这些方法会使得建模假设微小的更改就会导致算法的再次推导,这使得通过编码获取隐变量,再由隐变量模拟生成观察变量的变分自编码器优点突出,这一类模型参数由神经网络训练,且涉及到的参数相对较少,这类模型的缺点是在训练的时候涉及到KL散度模式崩溃的问题。
发明内容
针对上述问题,本发明的目的在于公开基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,基于Wasserstein自编码器通过高斯混合先验拟合合适的潜在变量生成可观察的词,以最大均值差异MMD最小化先验与后验之间的差距使模型达到最优,训练过程中不使用监督信息,便能够获得一系列更具多样性以及连贯性的主题。
具体的,本发明的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,包括如下步骤:
S1:将文本数据集表示为词袋模型BOW作为Wasserstein自编码器的输入,对数据集进行预处理;
S2:利用Wasserstein自编码器将数据通过编码器得到主题分布θ;
S3:采用高斯混合分布作为潜在特征的先验分布,生成潜在的向量表示θ′;
S4:以S2步骤得到的主题分布θ进行解码,将其映射到V个单元的输出层获得词汇中单词的概率分布
Figure BDA0003395335430000021
计算重构损失,并且计算两个分布之间的差异;
S5:迭代,更新模型参数对生成模型进行优化。
进一步,所述S1步骤中,在将文本数据集表示为词袋模型BOW时,一个文档中由所有词表示,表示为:
D(W)={w1,w2,...,wD}。
其中,wi表示文档中的第i个词。
进一步,所述S2步骤中,主题分布θ的表达公式为:
θ=enc(w)。
进一步,所述S3步骤具体包括:
S31:高斯混合模型通过初始化获得隐变量{z′i},表达公式如下:
{z′i}~N(μ,σ2I)
S32:一篇文档假设主题θ′和z′i的关系表达公式如下:
θ′={z′i}
其中,θ′为高斯混合分布假设的文档隐含主题分布即潜在的向量,z′i表示假设的文档某一主题,μ表示高斯混合分布中平均差,σ2表示高斯混合分布中方差,分别由神经网络拟合而成。
进一步,所述S4步骤具体包括:
S41:将S2步骤所得主题分布θ进行解码获得
Figure BDA0003395335430000031
表示词汇中单词的概率分布,计算公式如下:
Figure BDA0003395335430000032
其中,
Figure BDA0003395335430000033
表示第i个单词的概率分布,β是如LDA中的主题词向量的矩阵,b是偏移向量,hi、hj表示某一神经元的输出,h表示线性计算公式。
S42:计算自动编码器的重构损失,其是词袋BOW模型w和
Figure BDA0003395335430000034
之间的负交叉熵,计算公式如下:
Figure BDA0003395335430000035
S43:MMD在使用m个样本的时候,计算先验分布Pθ与编码器Qθ引入的分布的差异,计算公式如下:
Figure BDA0003395335430000036
其中,k为核函数,zi,zj分别表示由编码器编码得到的第i个主题和第j个主题,z′i,z′j分别表示由高斯先验分布采样得到的第i个主题和第j个主题。
S44:计算模型总损失loss,用于迭代更新模型参数:
Figure BDA0003395335430000037
本发明的有益效果:
本发明公开了一种基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,利用高斯混合模型以及Wasserstein自编码器编码合适的隐变量来表示全文潜在语义信息,进一步得到相关文档的文档主题向量矩阵θ,同时使用高斯混合分布假设潜在文档主题分布θ′,在解码的时候获取观察变量以此计算重构损失,同时计算编码器生成隐变量和假定变量之间的分布差异,两者得到算法损失更新模型,该模型使用高斯混合分布提高模型的表示能力,并使用最大均值差异MMD计算分布差异,更可靠准确地对文档主题进行建模。
附图说明
图1为本发明实施例的流程图;
图2为本发明提供的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法的网络结构图。
具体实施方式
以下将结合具体实施例对本发明进行详细说明:
本发明的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,采用图1所示处理流程,所用数据集为20NewsGroup和NYtimes。利用高斯混合模型作为先验分布拟合出全局相关的假设隐变量,紧接着以编码器编码的隐变量作为解码模块的输入参与可观察词的生成,在解决提高主题的连贯性的同时还一定程度上解决了KL散度模式崩溃的问题。具体如下:
S1:将文本数据集表示为传统的词袋模型BOW作为自编码器的输入,对数据集进行预处理,文本特征以词袋(BOW)模型表示时,只需要对数据集进行简单的预处理,且一个文档中由所有词表示,表示为:
D(W)={w1,w2,...,wD}
其中,wi表示文档中的第i个词。
S2:利用Wasserstein自编码器将数据通过编码器得到主题向量θ,实际上是通过3层浅层神经网络获得,模型中主题分布θ的表达公式如下:
θ=enc(w)。
S3:摒除传统的狄利克雷分布,采用高斯混合分布作为潜在特征的先验分布,生成潜在的向量表示θ′,能够更好的提高模型的表达;具体为:
S31:高斯混合模型通过初始化获得隐变量{z′i},表达公式如下:
{z′i}~N(μ,σ2I)
S32:一篇文档假设主题θ′和z′i的关系表达公式如下:
θ′={z′i}
其中,θ′为高斯混合分布假设的文档隐含主题分布即潜在的向量,z′i表示假设的文档某一主题,μ表示高斯混合分布中平均差,σ2表示高斯混合分布中方差,分别由神经网络拟合而成。
S4:以S2步骤所得的主题分布θ进行解码,将其映射到V个单元的输出层获得
Figure BDA0003395335430000051
计算重构损失,并且计算两个分布之间的差异;
具体实现S4的子步骤如下:
S41:将S2步骤所得主题分布θ进行解码获得
Figure BDA0003395335430000052
表示词汇中单词的概率分布,计算公式如下:
Figure BDA0003395335430000053
其中,
Figure BDA0003395335430000054
表示第i个单词的概率分布,β是如LDA中的主题词向量的矩阵,b是偏移向量,hi、hj表示某一神经元的输出,h表示线性计算公式。
S42:计算自动编码器的重构损失,其是词袋BOW模型w和
Figure BDA0003395335430000055
之间的负交叉熵。计算公式如下:
Figure BDA0003395335430000056
S43:MMD在使用m个样本的时候,计算先验分布Pθ与编码器Qθ引入的分布的差异,计算公式如下:
Figure BDA0003395335430000061
其中,在计算MMD分布中,k为核函数,zi,zj分别表示由编码器编码得到的第i个主题和第j个主题,z′i,z′j分别表示由高斯先验分布采样得到的第i个主题和第j个主题。
S44:计算模型总损失loss用于迭代更新模型参数:
Figure BDA0003395335430000062
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims (5)

1.基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,包括如下步骤:
S1:将文本数据集表示为词袋模型BOW作为Wasserstein自编码器的输入,对数据集进行预处理;
S2:利用Wasserstein自编码器将数据通过编码器得到主题分布θ;
S3:采用高斯混合分布作为潜在特征的先验分布,生成潜在的向量表示θ′;
S4:以S2步骤得到的主题分布θ进行解码,将其映射到V个单元的输出层获得词汇中单词的概率分布
Figure FDA0003395335420000011
计算重构损失,并且计算两个分布之间的差异;
S5:迭代,更新模型参数对生成模型进行优化。
2.根据权利要求1所述的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,所述S1步骤中,在将文本数据集表示为词袋模型BOW时,一个文档中由所有词表示,表示为:
D(W)={w1,w2,...,wD}。
其中,wi表示文档中的第i个词。
3.根据权利要求2所述的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,所述S2步骤中,主题分布θ的表达公式为:
θ=enc(w)。
4.根据权利要求1所述的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,所述S3步骤具体包括:
S31:高斯混合模型通过初始化获得隐变量{z′i},表达公式如下:
{z′i}~N(μ,σ2I)
S32:一篇文档假设主题θ′和z′i的关系表达公式如下:
θ′={z′i}
其中,θ′为高斯混合分布假设的文档隐含主题分布即潜在的向量,z′i表示假设的文档某一主题,μ表示高斯混合分布中平均差,σ2表示高斯混合分布中方差,分别由神经网络拟合而成。
5.根据权利要求1-4任一权利要求所述的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,所述S4步骤具体包括:
S41:将S2步骤所得主题分布θ进行解码获得
Figure FDA0003395335420000021
Figure FDA0003395335420000022
表示词汇中单词的概率分布,计算公式如下:
Figure FDA0003395335420000023
h=βθ+b
其中,
Figure FDA0003395335420000024
表示第i个单词的概率分布,β是如LDA中的主题词向量的矩阵,b是偏移向量,hi、hj表示某一神经元的输出,h表示线性计算公式。
S42:计算自动编码器的重构损失,所述重构损失为词袋BOW模型w和
Figure FDA0003395335420000025
之间的负交叉熵,计算公式如下:
Figure FDA0003395335420000026
S43:MMD在使用m个样本的时候,计算先验分布Pθ与编码器引入的分布Qθ的差异,计算公式如下:
Figure FDA0003395335420000027
其中,k为核函数,zi,zj分别表示由编码器编码得到的第i个主题和第j个主题,z′i,z′j分别表示由高斯先验分布采样得到的第i个主题和第j个主题。
S44:计算模型总损失loss,用于迭代更新模型参数:
Figure FDA0003395335420000028
CN202111482375.2A 2021-12-06 2021-12-06 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 Pending CN114417852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111482375.2A CN114417852A (zh) 2021-12-06 2021-12-06 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111482375.2A CN114417852A (zh) 2021-12-06 2021-12-06 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

Publications (1)

Publication Number Publication Date
CN114417852A true CN114417852A (zh) 2022-04-29

Family

ID=81265473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111482375.2A Pending CN114417852A (zh) 2021-12-06 2021-12-06 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

Country Status (1)

Country Link
CN (1) CN114417852A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115099188A (zh) * 2022-06-22 2022-09-23 南京邮电大学 一种基于词嵌入和生成式神经网络的主题挖掘方法
CN116958712A (zh) * 2023-09-20 2023-10-27 山东建筑大学 基于先验概率分布的图像生成方法、系统、介质及设备
WO2024054336A1 (en) * 2022-09-06 2024-03-14 Nec Laboratories America, Inc. Disentangled wasserstein autoencoder for protein engineering

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115099188A (zh) * 2022-06-22 2022-09-23 南京邮电大学 一种基于词嵌入和生成式神经网络的主题挖掘方法
WO2024054336A1 (en) * 2022-09-06 2024-03-14 Nec Laboratories America, Inc. Disentangled wasserstein autoencoder for protein engineering
CN116958712A (zh) * 2023-09-20 2023-10-27 山东建筑大学 基于先验概率分布的图像生成方法、系统、介质及设备
CN116958712B (zh) * 2023-09-20 2023-12-15 山东建筑大学 基于先验概率分布的图像生成方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
CN109597997B (zh) 基于评论实体、方面级情感分类方法和装置及其模型训练
CN114417852A (zh) 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法
CN113010693B (zh) 融合指针生成网络的知识图谱智能问答方法
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及系统
CN112163426A (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111160467A (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
Kiros Training neural networks with stochastic Hessian-free optimization
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN110046223B (zh) 基于改进型卷积神经网络模型的影评情感分析方法
CN112070139B (zh) 基于bert与改进lstm的文本分类方法
CN110069611B (zh) 一种主题增强的聊天机器人回复生成方法及装置
CN112926322A (zh) 融合自注意力机制和深度学习的文本分类方法及系统
CN111309909B (zh) 一种基于混合模型的文本情感分类方法
Leeman-Munk et al. Ncsu_sas_sam: Deep encoding and reconstruction for normalization of noisy text
CN112597769B (zh) 一种基于狄利克雷变分自编码器的短文本主题识别方法
Lin et al. A deep clustering algorithm based on gaussian mixture model
Mueller et al. Spiking transformer networks: A rate coded approach for processing sequential data
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
Meng et al. Deep imbalanced learning for multimodal emotion recognition in conversations
CN116564338B (zh) 语音动画生成方法、装置、电子设备和介质
CN112307179A (zh) 文本匹配方法、装置、设备及存储介质
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN114757310B (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质
Chang Latent variable modeling for generative concept representations and deep generative models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination