CN114417852A - 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 - Google Patents
基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 Download PDFInfo
- Publication number
- CN114417852A CN114417852A CN202111482375.2A CN202111482375A CN114417852A CN 114417852 A CN114417852 A CN 114417852A CN 202111482375 A CN202111482375 A CN 202111482375A CN 114417852 A CN114417852 A CN 114417852A
- Authority
- CN
- China
- Prior art keywords
- distribution
- encoder
- gaussian mixture
- model
- wasserstein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法。
背景技术
主题建模是自然语言处理的一项重要任务,传统的主题检测方法主要以词作为基本的特征,通过统计词语之间的共现关系计算主题之间的概率。其广泛应用于例如主题识别、垃圾邮件检测和情感分类等诸多场景,但当预料数较少或者文本篇幅较短时,这种单纯依靠词频统计进行主题分配的方法往往会因为语义信息不足而造成主题识别率不够理想的问题。
近年来,深度学习和机器学习在自然语言处理方面取得很大进展,有研究表明,基于神经网络的模型相较于传统模型(例如朴素贝叶斯)在主题建模任务中会有更好的表现。典型的基于神经网络的主题模型是同样基于单词的,但他们通常使用目标文档中的词作为模型的输入,将单词映射到连续向量空间中(词嵌入),并通过诸如求和、求平均、卷积神经网络(CNN)或循环神经网络(RNN)等方法将这些向量组合起来捕获文档的语义。
除了上述方法,另一种可行的方式便是基于神经网络的变分自编码器改进的主题模型的推理,它旨在利用神经网络刻画包含潜在主题信息的文本生成过程。这一类模型中一般以文档词袋子(BOW)作为输入,和传统模型的区别在于传统主题模型主要涉及到Gibbs采样或者变分推断,这些方法会使得建模假设微小的更改就会导致算法的再次推导,这使得通过编码获取隐变量,再由隐变量模拟生成观察变量的变分自编码器优点突出,这一类模型参数由神经网络训练,且涉及到的参数相对较少,这类模型的缺点是在训练的时候涉及到KL散度模式崩溃的问题。
发明内容
针对上述问题,本发明的目的在于公开基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,基于Wasserstein自编码器通过高斯混合先验拟合合适的潜在变量生成可观察的词,以最大均值差异MMD最小化先验与后验之间的差距使模型达到最优,训练过程中不使用监督信息,便能够获得一系列更具多样性以及连贯性的主题。
具体的,本发明的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,包括如下步骤:
S1:将文本数据集表示为词袋模型BOW作为Wasserstein自编码器的输入,对数据集进行预处理;
S2:利用Wasserstein自编码器将数据通过编码器得到主题分布θ;
S3:采用高斯混合分布作为潜在特征的先验分布,生成潜在的向量表示θ′;
S5:迭代,更新模型参数对生成模型进行优化。
进一步,所述S1步骤中,在将文本数据集表示为词袋模型BOW时,一个文档中由所有词表示,表示为:
D(W)={w1,w2,...,wD}。
其中,wi表示文档中的第i个词。
进一步,所述S2步骤中,主题分布θ的表达公式为:
θ=enc(w)。
进一步,所述S3步骤具体包括:
S31:高斯混合模型通过初始化获得隐变量{z′i},表达公式如下:
{z′i}~N(μ,σ2I)
S32:一篇文档假设主题θ′和z′i的关系表达公式如下:
θ′={z′i}
其中,θ′为高斯混合分布假设的文档隐含主题分布即潜在的向量,z′i表示假设的文档某一主题,μ表示高斯混合分布中平均差,σ2表示高斯混合分布中方差,分别由神经网络拟合而成。
进一步,所述S4步骤具体包括:
S43:MMD在使用m个样本的时候,计算先验分布Pθ与编码器Qθ引入的分布的差异,计算公式如下:
其中,k为核函数,zi,zj分别表示由编码器编码得到的第i个主题和第j个主题,z′i,z′j分别表示由高斯先验分布采样得到的第i个主题和第j个主题。
S44:计算模型总损失loss,用于迭代更新模型参数:
本发明的有益效果:
本发明公开了一种基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,利用高斯混合模型以及Wasserstein自编码器编码合适的隐变量来表示全文潜在语义信息,进一步得到相关文档的文档主题向量矩阵θ,同时使用高斯混合分布假设潜在文档主题分布θ′,在解码的时候获取观察变量以此计算重构损失,同时计算编码器生成隐变量和假定变量之间的分布差异,两者得到算法损失更新模型,该模型使用高斯混合分布提高模型的表示能力,并使用最大均值差异MMD计算分布差异,更可靠准确地对文档主题进行建模。
附图说明
图1为本发明实施例的流程图;
图2为本发明提供的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法的网络结构图。
具体实施方式
以下将结合具体实施例对本发明进行详细说明:
本发明的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,采用图1所示处理流程,所用数据集为20NewsGroup和NYtimes。利用高斯混合模型作为先验分布拟合出全局相关的假设隐变量,紧接着以编码器编码的隐变量作为解码模块的输入参与可观察词的生成,在解决提高主题的连贯性的同时还一定程度上解决了KL散度模式崩溃的问题。具体如下:
S1:将文本数据集表示为传统的词袋模型BOW作为自编码器的输入,对数据集进行预处理,文本特征以词袋(BOW)模型表示时,只需要对数据集进行简单的预处理,且一个文档中由所有词表示,表示为:
D(W)={w1,w2,...,wD}
其中,wi表示文档中的第i个词。
S2:利用Wasserstein自编码器将数据通过编码器得到主题向量θ,实际上是通过3层浅层神经网络获得,模型中主题分布θ的表达公式如下:
θ=enc(w)。
S3:摒除传统的狄利克雷分布,采用高斯混合分布作为潜在特征的先验分布,生成潜在的向量表示θ′,能够更好的提高模型的表达;具体为:
S31:高斯混合模型通过初始化获得隐变量{z′i},表达公式如下:
{z′i}~N(μ,σ2I)
S32:一篇文档假设主题θ′和z′i的关系表达公式如下:
θ′={z′i}
其中,θ′为高斯混合分布假设的文档隐含主题分布即潜在的向量,z′i表示假设的文档某一主题,μ表示高斯混合分布中平均差,σ2表示高斯混合分布中方差,分别由神经网络拟合而成。
具体实现S4的子步骤如下:
S43:MMD在使用m个样本的时候,计算先验分布Pθ与编码器Qθ引入的分布的差异,计算公式如下:
其中,在计算MMD分布中,k为核函数,zi,zj分别表示由编码器编码得到的第i个主题和第j个主题,z′i,z′j分别表示由高斯先验分布采样得到的第i个主题和第j个主题。
S44:计算模型总损失loss用于迭代更新模型参数:
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。
Claims (5)
2.根据权利要求1所述的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,所述S1步骤中,在将文本数据集表示为词袋模型BOW时,一个文档中由所有词表示,表示为:
D(W)={w1,w2,...,wD}。
其中,wi表示文档中的第i个词。
3.根据权利要求2所述的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,所述S2步骤中,主题分布θ的表达公式为:
θ=enc(w)。
4.根据权利要求1所述的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,所述S3步骤具体包括:
S31:高斯混合模型通过初始化获得隐变量{z′i},表达公式如下:
{z′i}~N(μ,σ2I)
S32:一篇文档假设主题θ′和z′i的关系表达公式如下:
θ′={z′i}
其中,θ′为高斯混合分布假设的文档隐含主题分布即潜在的向量,z′i表示假设的文档某一主题,μ表示高斯混合分布中平均差,σ2表示高斯混合分布中方差,分别由神经网络拟合而成。
5.根据权利要求1-4任一权利要求所述的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,所述S4步骤具体包括:
S43:MMD在使用m个样本的时候,计算先验分布Pθ与编码器引入的分布Qθ的差异,计算公式如下:
其中,k为核函数,zi,zj分别表示由编码器编码得到的第i个主题和第j个主题,z′i,z′j分别表示由高斯先验分布采样得到的第i个主题和第j个主题。
S44:计算模型总损失loss,用于迭代更新模型参数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111482375.2A CN114417852A (zh) | 2021-12-06 | 2021-12-06 | 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111482375.2A CN114417852A (zh) | 2021-12-06 | 2021-12-06 | 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114417852A true CN114417852A (zh) | 2022-04-29 |
Family
ID=81265473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111482375.2A Pending CN114417852A (zh) | 2021-12-06 | 2021-12-06 | 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114417852A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099188A (zh) * | 2022-06-22 | 2022-09-23 | 南京邮电大学 | 一种基于词嵌入和生成式神经网络的主题挖掘方法 |
CN116958712A (zh) * | 2023-09-20 | 2023-10-27 | 山东建筑大学 | 基于先验概率分布的图像生成方法、系统、介质及设备 |
WO2024054336A1 (en) * | 2022-09-06 | 2024-03-14 | Nec Laboratories America, Inc. | Disentangled wasserstein autoencoder for protein engineering |
-
2021
- 2021-12-06 CN CN202111482375.2A patent/CN114417852A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099188A (zh) * | 2022-06-22 | 2022-09-23 | 南京邮电大学 | 一种基于词嵌入和生成式神经网络的主题挖掘方法 |
WO2024054336A1 (en) * | 2022-09-06 | 2024-03-14 | Nec Laboratories America, Inc. | Disentangled wasserstein autoencoder for protein engineering |
CN116958712A (zh) * | 2023-09-20 | 2023-10-27 | 山东建筑大学 | 基于先验概率分布的图像生成方法、系统、介质及设备 |
CN116958712B (zh) * | 2023-09-20 | 2023-12-15 | 山东建筑大学 | 基于先验概率分布的图像生成方法、系统、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109597997B (zh) | 基于评论实体、方面级情感分类方法和装置及其模型训练 | |
CN114417852A (zh) | 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 | |
CN113010693B (zh) | 融合指针生成网络的知识图谱智能问答方法 | |
CN111274398B (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN112163426A (zh) | 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN111160467A (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
Kiros | Training neural networks with stochastic Hessian-free optimization | |
CN112527966B (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN110046223B (zh) | 基于改进型卷积神经网络模型的影评情感分析方法 | |
CN112070139B (zh) | 基于bert与改进lstm的文本分类方法 | |
CN110069611B (zh) | 一种主题增强的聊天机器人回复生成方法及装置 | |
CN112926322A (zh) | 融合自注意力机制和深度学习的文本分类方法及系统 | |
CN111309909B (zh) | 一种基于混合模型的文本情感分类方法 | |
Leeman-Munk et al. | Ncsu_sas_sam: Deep encoding and reconstruction for normalization of noisy text | |
CN112597769B (zh) | 一种基于狄利克雷变分自编码器的短文本主题识别方法 | |
Lin et al. | A deep clustering algorithm based on gaussian mixture model | |
Mueller et al. | Spiking transformer networks: A rate coded approach for processing sequential data | |
CN111027681B (zh) | 时序数据处理模型训练方法、数据处理方法、装置及存储介质 | |
Meng et al. | Deep imbalanced learning for multimodal emotion recognition in conversations | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN112307179A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 | |
Chang | Latent variable modeling for generative concept representations and deep generative models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |