CN114417852A

CN114417852A - 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

Info

Publication number: CN114417852A
Application number: CN202111482375.2A
Authority: CN
Inventors: 刘洪涛; 方勇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-04-29

Abstract

本发明公开了基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法，涉及自然语言处理技术领域。本发明包括以下步骤：将文本数据集表示为传统的词袋模型BOW作为自编码器的输入；数据通过编码器得到主题向量θ；使用高斯混合模型GMM作为一个先验分布，生成潜在的向量表示θ′；对得到的主题分布θ进行解码，将其映射到V个单元的输出层，获得

计算输入BOW和输出

的重构损失，以及分布θ′和分布θ之间的最大均值差异MMD损失；迭代，更新模型参数对生成模型进行优化。本发明使用MMD来度量先验分布和后验分布之间的差异，并且训练过程中不使用监督信息，能够获得一系列更为多样以及连贯的主题。

Description

基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法。

背景技术

主题建模是自然语言处理的一项重要任务，传统的主题检测方法主要以词作为基本的特征，通过统计词语之间的共现关系计算主题之间的概率。其广泛应用于例如主题识别、垃圾邮件检测和情感分类等诸多场景，但当预料数较少或者文本篇幅较短时，这种单纯依靠词频统计进行主题分配的方法往往会因为语义信息不足而造成主题识别率不够理想的问题。

近年来，深度学习和机器学习在自然语言处理方面取得很大进展，有研究表明，基于神经网络的模型相较于传统模型(例如朴素贝叶斯)在主题建模任务中会有更好的表现。典型的基于神经网络的主题模型是同样基于单词的，但他们通常使用目标文档中的词作为模型的输入，将单词映射到连续向量空间中(词嵌入)，并通过诸如求和、求平均、卷积神经网络(CNN)或循环神经网络(RNN)等方法将这些向量组合起来捕获文档的语义。

除了上述方法，另一种可行的方式便是基于神经网络的变分自编码器改进的主题模型的推理，它旨在利用神经网络刻画包含潜在主题信息的文本生成过程。这一类模型中一般以文档词袋子(BOW)作为输入，和传统模型的区别在于传统主题模型主要涉及到Gibbs采样或者变分推断，这些方法会使得建模假设微小的更改就会导致算法的再次推导，这使得通过编码获取隐变量，再由隐变量模拟生成观察变量的变分自编码器优点突出，这一类模型参数由神经网络训练，且涉及到的参数相对较少，这类模型的缺点是在训练的时候涉及到KL散度模式崩溃的问题。

发明内容

针对上述问题，本发明的目的在于公开基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法，基于Wasserstein自编码器通过高斯混合先验拟合合适的潜在变量生成可观察的词，以最大均值差异MMD最小化先验与后验之间的差距使模型达到最优，训练过程中不使用监督信息，便能够获得一系列更具多样性以及连贯性的主题。

具体的，本发明的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法，包括如下步骤：

S1：将文本数据集表示为词袋模型BOW作为Wasserstein自编码器的输入，对数据集进行预处理；

S2：利用Wasserstein自编码器将数据通过编码器得到主题分布θ；

S3：采用高斯混合分布作为潜在特征的先验分布，生成潜在的向量表示θ′；

S4：以S2步骤得到的主题分布θ进行解码，将其映射到V个单元的输出层获得词汇中单词的概率分布

计算重构损失，并且计算两个分布之间的差异；

S5：迭代，更新模型参数对生成模型进行优化。

进一步，所述S1步骤中，在将文本数据集表示为词袋模型BOW时，一个文档中由所有词表示，表示为：

D(W)＝{w₁，w₂，...，w_D}。

其中，w_i表示文档中的第i个词。

进一步，所述S2步骤中，主题分布θ的表达公式为：

θ＝enc(w)。

进一步，所述S3步骤具体包括：

S31：高斯混合模型通过初始化获得隐变量{z′_i}，表达公式如下：

{z′_i}～N(μ，σ²I)

S32：一篇文档假设主题θ′和z′_i的关系表达公式如下：

θ′＝{z′_i}

其中，θ′为高斯混合分布假设的文档隐含主题分布即潜在的向量，z′_i表示假设的文档某一主题，μ表示高斯混合分布中平均差，σ²表示高斯混合分布中方差，分别由神经网络拟合而成。

进一步，所述S4步骤具体包括：

S41：将S2步骤所得主题分布θ进行解码获得

表示词汇中单词的概率分布，计算公式如下：

其中，

表示第i个单词的概率分布，β是如LDA中的主题词向量的矩阵，b是偏移向量，h_i、h_j表示某一神经元的输出，h表示线性计算公式。

S42：计算自动编码器的重构损失，其是词袋BOW模型w和

之间的负交叉熵，计算公式如下：

S43：MMD在使用m个样本的时候，计算先验分布P_θ与编码器Q_θ引入的分布的差异，计算公式如下：

其中，k为核函数，z_i，z_j分别表示由编码器编码得到的第i个主题和第j个主题，z′_i，z′_j分别表示由高斯先验分布采样得到的第i个主题和第j个主题。

S44：计算模型总损失loss，用于迭代更新模型参数：

本发明的有益效果：

本发明公开了一种基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法，利用高斯混合模型以及Wasserstein自编码器编码合适的隐变量来表示全文潜在语义信息，进一步得到相关文档的文档主题向量矩阵θ，同时使用高斯混合分布假设潜在文档主题分布θ′，在解码的时候获取观察变量以此计算重构损失，同时计算编码器生成隐变量和假定变量之间的分布差异，两者得到算法损失更新模型，该模型使用高斯混合分布提高模型的表示能力，并使用最大均值差异MMD计算分布差异，更可靠准确地对文档主题进行建模。

附图说明

图1为本发明实施例的流程图；

图2为本发明提供的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法的网络结构图。

具体实施方式

以下将结合具体实施例对本发明进行详细说明：

本发明的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法，采用图1所示处理流程，所用数据集为20NewsGroup和NYtimes。利用高斯混合模型作为先验分布拟合出全局相关的假设隐变量，紧接着以编码器编码的隐变量作为解码模块的输入参与可观察词的生成，在解决提高主题的连贯性的同时还一定程度上解决了KL散度模式崩溃的问题。具体如下：

S1：将文本数据集表示为传统的词袋模型BOW作为自编码器的输入，对数据集进行预处理，文本特征以词袋(BOW)模型表示时，只需要对数据集进行简单的预处理，且一个文档中由所有词表示，表示为：

D(W)＝{w_1，w₂，...，w_D}

其中，w_i表示文档中的第i个词。

S2：利用Wasserstein自编码器将数据通过编码器得到主题向量θ，实际上是通过3层浅层神经网络获得，模型中主题分布θ的表达公式如下：

θ＝enc(w)。

S3：摒除传统的狄利克雷分布，采用高斯混合分布作为潜在特征的先验分布，生成潜在的向量表示θ′，能够更好的提高模型的表达；具体为：

{z′_i}～N(μ，σ²I)

S32:一篇文档假设主题θ′和z′_i的关系表达公式如下：

θ′＝{z′_i}

S4：以S2步骤所得的主题分布θ进行解码，将其映射到V个单元的输出层获得

计算重构损失，并且计算两个分布之间的差异；

具体实现S4的子步骤如下：

S41：将S2步骤所得主题分布θ进行解码获得

表示词汇中单词的概率分布，计算公式如下：

其中，

S42：计算自动编码器的重构损失，其是词袋BOW模型w和

之间的负交叉熵。计算公式如下：

其中，在计算MMD分布中，k为核函数，z_i，z_j分别表示由编码器编码得到的第i个主题和第j个主题，z′_i，z′_j分别表示由高斯先验分布采样得到的第i个主题和第j个主题。

S44：计算模型总损失loss用于迭代更新模型参数：

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。