CN111581962B

CN111581962B - 一种基于主题词向量与混合神经网络的文本表示方法

Info

Publication number: CN111581962B
Application number: CN202010408666.6A
Authority: CN
Inventors: 刘耿耿; 谢麟; 郭文忠; 陈国龙
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2023-02-21
Anticipated expiration: 2040-05-14
Also published as: CN111581962A

Abstract

本发明涉及一种基于主题词向量与混合神经网络的文本表示方法，包括以下步骤：S1）在词向量预训练阶段，结合LDA主题模型与word2vec词向量模型搭建主题词模型，使用搭建的主题词模型进行主题词向量预训练；S2）基于卷积神经网络搭建变分自编码器，使用变分自编码器的编码器部分，建立基于主题词向量预训练和混合神经网络的文本表示模型，以进行文本表示。该方法有利于使文本表示具有更多的语义信息，从而在文本分类中取得更佳的结果。

Description

一种基于主题词向量与混合神经网络的文本表示方法

技术领域

本发明属于深度学习自然语言处理领域，具体涉及一种基于主题词向量与混合神经网络的文本表示方法。

背景技术

随着科学技术的发展，中国网民超过8亿，互联网的普及率达到了近60％。在互联网中每天都有海量信息数据产生，这些数据类型包括了文本、图像、视频、音频等各种不同的表现形式。其中，文本类型的数据在互联网信息中占据了很大一部分位置，虽然一篇文章的字节量不多，也占用不了多少存储资源，但是其包含的信息却很多。

如今的互联网环境下，各种不同的任务以及应用都需要对自然语言进行分析和处理，在这之中，首先需要解决的问题就是文本表示，文本表示作为自然语言处理的基本任务能够将非结构化的自然语言转化为能被计算机处理分析的结构化形式，而这种表示形式还仍然能蕴含原始文本数据所带有的独特语义信息。因此，如何从海量数据中学习一个有效的特征表示，是现在迫切需要去关注和解决的重要问题之一。

由于深度学习在所有领域中都不断取得优异的表现，尤其是在图像处理上获得了远超人类识别的突破，如何将优秀的深度学习模型运用在自然语言处理模型上，是现在的研究重点。由于自然语言是由词、短语、句子、段落、文档等基本粒子按照递进的顺序组成的丰富多彩的文本信息，不同粒子的文本表示方法也各有不同。在文本表示最小粒度的词向量中，一词多义现象在自然语言中普遍存在，在汉语中尤其明显。据《汉语水平词汇与汉字等级大纲》的统计可知，中文中存在着极为普遍的一词多义现象，其中共包含有3618个多义词和11236个义项，对于各义项的使用上也十分的频繁。同一个文本能够表达出多种的含义，这就是自然语言中存在的歧义性，语义消歧任务也是自然语言处理中的一个重要研究方向。

发明内容

本发明的目的在于提供一种基于主题词向量与混合神经网络的文本表示方法，该方法有利于使文本表示具有更多的语义信息，从而在文本分类中取得更佳的结果。

为实现上述目的，本发明采用的技术方案是：一种基于主题词向量与混合神经网络的文本表示方法，包括以下步骤：

S1)在词向量预训练阶段，结合LDA主题模型与word2vec词向量模型搭建主题词模型，使用搭建的主题词模型进行主题词向量预训练；

S2)基于卷积神经网络搭建变分自编码器，使用变分自编码器的编码器部分，建立基于主题词向量预训练和混合神经网络的文本表示模型，以进行文本表示。

进一步地，所述步骤S1具体包括以下步骤：

S101)使用LDA主题模型对语料库中每一个词语都预先分配好对应的主题；

S102)结合LDA主题模型和word2vec词向量模型搭建主题词模型，训练主题向量和词向量；

S103)联合向量，获得主题词向量。

进一步地，所述主题词模型在训练词向量的同时引入主题向量，以实现一个词在不同主题下有不同的词向量表示；在主题词模型中，每个主题也被当作一个词进行训练，模型分别学习得到主题z_i的主题嵌入和词w_i的词嵌入；然后根据词嵌入w_i和主题嵌入z_i训练主题词嵌入<wi，z_i>；所述主题词模型同时学习单词和主题的向量表示；对于每个目标词和其主题对<w_i，z_i>建立主题词模型，所述主题词模型的目标是最大化以下的对数概率：

通过连接w和z的嵌入，即以下公式来获得主题z中的词w的主题词嵌入，从而获得词向量w在主题z下的主题词嵌入：

其中，

是级联操作，w^z的向量维度是w或z的两倍；

在训练阶段，首先通过LDA主题模型将原文本中的每个单词都训练得到其对应的主题编号，将文本中的词转化为<词：主题编号>，然后将文本交由主题词模型训练出主题向量z和词向量w，最后根据<词：主题编号>和公式

生成基于卷积神经网络搭建的变分自编码器的输入向量w^z。

进一步地，所述步骤S2中，基于卷积神经网络搭建的变分自编码器CNN-VAE包括编码和解码两个过程；所述编码过程为一个卷积神经网络，通过卷积和池化后得到编码器的特征提取；一篇文章由出现的词语的词向量表示拼接得到矩阵

x_i表示文章中第i个词语w_i的词向量表示，通过卷积编码器后得到结果，然后引入重参数技巧，生成高斯分布并重采样得到经由编码器输出的特征Z；所述解码过程与编码过程互为镜像，将经过特征提取后的文本特征Z经过反卷积操作后，重构得到矩阵

CNN-VAE将输入的向量的特征提取空间符合正态分布，即p_θ(z)需符合高斯分布，并通过从高斯分布空间中采样后重构出初始输入；为了采样得到p_θ(z)，引入编码器网络p_θ(z|x)，并引入

分布来逼近p_θ(z|x)；通过计算KL来使两个分布相似：

CNN-VAE需要满足其变分下界

其中，

的第一项为正则化项，第二项为重构误差项；

由于p_θ(z)服从高斯分布N(0；I)，

服从高斯分布N(μ；σ²)，得到正则化项：

其中，J为z的维数；

采用蒙卡罗特评估求解重构误差：

使用重参化技巧，对z进行重参化；令z＝μ+ε·σ，其中ε～p(ε)，p(ε)＝N(0，I)；重参化将对z的采样转变成对ε的采样，将对z的求导转化为对μ和σ的求导，从而得到：

由正则化项公式以及重构误差项公式联立得到CNN-VAE的损失函数为：

CNN-VAE的目标函数为最小化VAE的变分下界：

相较于现有技术，本发明具有以下有益效果：提出了一种基于主题词向量与混合神经网络的文本表示方法，该方法在预训练阶段解决了词向量一词多义的问题，然后利用卷积神经网络优秀的特征提取能力，并结合变分自编码对特征空间拟合真实样本分布的特点，实现从词向量到文本向量的模型搭建，从而使最后的文本表示具有更多的语义信息并在文本分类中更加准确，取得更好的结果，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例中LDA模型原理结构图。

图2是本发明实施例中LDA模型原理参数关系图。

图3是本发明实施例中主题词模型。

图4是本发明实施例中CNN-VAE模型。

图5是本发明实施例中VAE的概率图模型。

图6是本发明实施例中基于主题词向量与混合神经网络的文本表示模型。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供了一种基于主题词向量与混合神经网络的文本表示方法，包括以下步骤：

S1)在词向量预训练阶段，结合LDA主题模型与word2vec词向量模型搭建主题词模型，使用搭建的主题词模型进行主题词向量预训练。具体包括以下步骤：

S101)使用LDA主题模型对语料库中每一个词语都预先分配好对应的主题。

S102)结合LDA主题模型和word2vec词向量模型搭建主题词模型，训练主题向量和词向量。

S103)联合向量，获得主题词向量。

S2)基于卷积神经网络搭建变分自编码器，得到混合神经网络。所述混合神经网络即为使用卷积神经网络设计的变分自编码器。使用变分自编码器的编码器部分，建立如图6所示的基于主题词向量预训练和混合神经网络的文本表示模型，以进行文本表示。

1.LDA模型

狄利克雷分布(Latent Dirichlet Allocation，LDA)模型的原理如图1所示，首先假设文档集D中存在有K个主题，而每一篇文档都是由这K个主题按照不同的概率构成的，存储对应概率的矩阵即文档-主题矩阵。于此相同，每一个主题都包含有M个词语，而这个主题也是由M个词语按照不同的概率构成，存储对应概率的矩阵即主题词汇矩阵。

如图2所示，主题模型LDA的贝叶斯概率模型的主要思想可以分为两个部分。

第一部分，从狄利克雷分布α中采样，生成文档d的主题分布θ_d，具体可表示为θ_d～Dir(α)。而后从主题的多项式分布中生成文档d中每个词的主题Z。

第二部分，LDA主题模型从狄利克雷分布β中采样生成Z主题下的词汇多项式分布

具体表示为θ_z～Dir(β)，而后从词汇多项式分布

中生成最终的词语W。

其中，α和β分别表示文档-主题的狄利克雷分布下先验参数与主题词汇狄利克雷分布下的先验参数。θ_d表示了文档d中的主题分布，Z表示了其对应的主题集合。

表示了主题z中所包含的词汇分，W表示了其中对应的词汇集合。

根据LDA主题原理可得，一篇文档可以通过对从文档-主题的概率分布中得到，也就是说对于文档D_i，j(表示为主题集i中的第j个主题)可以由多项式分布D_i，j～Mult(θ_d)计算得到。对于每个词语对应的主题，例如文档i中第j个词汇的对应主题Z_i，j，则就可以通过多项式分布

得到。

在LDA主题模型的参数设置上，狄利克雷分布的先验参数α和β往往通过经验进行设定。而多项式分布的后验参数θ_d和

需要通过已知语料库中的数据计算出对应的后验概率分布，从而对其进行估计学习。

因此对于后验参数θ_d和

可以通过吉布斯采样(Gibbs sampling)来对已知的先验参数α和β与计算语料库中的后验概率分布计算得到。

对于现实中存在的数据，通常很难以求解出其对应的精确概率分布，往往就采用了近似推断的方法，通过采样的方式，来随机化的拟合真实概率分布。Gibbs sampling就是基于这种思想，它希望能够从一个联合分布概率P(X₁，X₁，X₂，...，X_n)中采样出m个n维数据样本

其主要步骤包括有：首先对于希望采样获得的向量X_i进行随机初始化操作。然后，对于每个样本X_i，都能够从条件概率分布

中采样得到，其中

表示样本X_i的第j维变量数值。

Gibbs sampling算法，使用迭代的方式使得最终的结果得到收敛，而后根据收敛得到此次的参数，这个参数就是算法需要拟合的概率分布所对应的先验参数的估计。其中，Gibbs sampling的采样公式如公式(1)所示：

因此代入LDA主题模型的参数α和β后可得其与主题和词汇的后验概率分布如公式(2)所示：

主题和词汇的后验概率分布就可以由此计算得到。

当用Gibbs Sampling算法迭代结果收敛是，则可以得到文档-主题概率分布θ_d和词-主题概率

具体如公式(3)与(4)所示：

最后就可以根据LDA主题模型得到一篇文档的主题概率分布，以及每个主题下的词汇概率分布，从而实现对文档的主题挖掘。

2.主题词模型

所述主题词模型(Topical Word Embedding，TWE)是基于word2vec中的Skip-gram模型进行改进得到，通过在训练词向量的同时引入主题向量，实现一个词在不同主题下有不同的词向量表示。

在主题词模型中，每个主题也被当作一个词进行训练，模型分别学习得到主题z_i的主题嵌入和词w_i的词嵌入。然后根据词嵌入w_i和主题嵌入z_i训练主题词嵌入<w_i，z_i>。主题词模型旨在同时学习单词和主题的向量表示。对于每个目标词和其主题对<w_i，z_i>建立如图3所示的主题词模型。

主题词模型的目标是最大化以下的对数概率：

通过连接w和z的嵌入，即公式(6)来获得主题z中的词w的主题词嵌入，从而获得词向量w在主题z下的主题词嵌入：

其中，

是级联操作，w^z的向量维度是w或z的两倍。

如图6所示，在训练阶段，首先通过LDA主题模型将原文本中的每个单词都训练得到其对应的主题编号，将文本中的词转化为<词：主题编号>，然后将文本交由主题词模型训练出主题向量z和词向量w，最后根据<词：主题编号>和公式

生成基于卷积神经网络搭建的变分自编码器的输入向量w^z。

3.基于卷积神经网络的变分自编码器

如图4所示，本发明通过采用卷积神经网络(Convolutional Neural Network，CNN)来构建变分自编码器(Variational Auto-Encoder，VAE)网络框架，CNN的文本特征提取再结合VAE对特征的提取和能令向量特征空间符合高斯分布的功能，使得最后得到文本特征表示更加富含语义信息。

基于卷积神经网络搭建的变分自编码器CNN-VAE包括编码和解码两个过程。所述编码过程为一个卷积神经网络，通过卷积和池化后得到编码器的特征提取，并与传统的卷积神经网络一样，都要设置卷积核大小、个数以及步长等参数。一篇文章由出现的词语的词向量表示拼接得到矩阵

(x_i表示文章中第i个词语w_i的词向量表示)，通过卷积编码器后得到一个结果，然后引入重参数技巧，生成高斯分布并重采样得到经由编码器输出的特征Z。所述解码过程与编码过程互为镜像，将经过特征提取后的文本特征Z经过反卷积操作后，重构得到矩阵

CNN-VAE将输入的向量的特征提取空间符合正态分布(即p_θ(z)需符合高斯分布)，并通过从高斯分布空间中采样后重构出初始输入。VAE的概率图模型如图5所示。

为了采样得到p_θ(z)，引入编码器网络p_θ(z|x)。显然，由于真实的p_θ(z|x)分布很难得到，引入

分布来逼近p_θ(z|x)。要使得两个分布相似，通过计算KL来得到：

因此，CNN-VAE需要同VAE一样满足其变分下界

其中，

的第一项为正则化项，第二项为重构误差项。

由于p_θ(z)服从高斯分布N(0；I)，

服从高斯分布N(μ；σ²)，得到正则化项：

其中，J为z的维数。

采用蒙卡罗特评估求解重构误差：

使用重参化技巧，对z进行重参化。令z＝μ+ε·σ，其中ε～p(ε)，p(ε)＝N(0，I)。重参化将对z的采样转变成对ε的采样，将对z的求导转化为对μ和σ的求导，从而得到：

由正则化项公式(9)以及重构误差项公式(11)联立得到CNN-VAE的损失函数为：

CNN-VAE的目标函数为最小化VAE的变分下界：

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于主题词向量与混合神经网络的文本表示方法，其特征在于，包括以下步骤：

S2)基于卷积神经网络搭建变分自编码器，使用变分自编码器的编码器部分，建立基于主题词向量预训练和混合神经网络的文本表示模型，以进行文本表示；

所述步骤S2中，基于卷积神经网络搭建的变分自编码器CNN-VAE包括编码和解码两个过程；所述编码过程为一个卷积神经网络，通过卷积和池化后得到编码器的特征提取；一篇文章由出现的词语的词向量表示拼接得到矩阵

x_i表示文章中第i个词语w_i的词向量表示，通过卷积编码器后得到结果，然后引入重参数技巧，生成高斯分布并重采样得到经由编码器输出的特征；所述解码过程与编码过程互为镜像，将经过特征提取后的文本特征经过反卷积操作后，重构得到矩阵

CNN-VAE对输入向量的特征提取空间符合正态分布，即p_θ(z)需符合高斯分布，并通过从高斯分布空间中采样后重构出初始输入；为了采样得到p_θ(z)，引入编码器网络p_θ(z|x)，并引入

分布来逼近p_θ(z|x)；通过计算KL来使两个分布相似：

CNN-VAE需要满足其变分下界

其中，

的第一项为正则化项，第二项为重构误差项；

由于p_θ(z)服从高斯分布N(0；I)，

服从高斯分布N(μ；σ²)，得到正则化项：

其中，J为z的维数；

采用蒙卡罗特评估求解重构误差：

使用重参数技巧，对z进行重参数；令z＝μ+ε·σ，其中ε～p(ε)，p(ε)＝N(0,I)；重参数将对z的采样转变成对ε的采样，将对z的求导转化为对μ和σ的求导，从而得到：

CNN-VAE的目标函数为最小化VAE的变分下界：

2.根据权利要求1所述的一种基于主题词向量与混合神经网络的文本表示方法，其特征在于，所述步骤S1具体包括以下步骤：

S103)联合向量，获得主题词向量。

3.根据权利要求2所述的一种基于主题词向量与混合神经网络的文本表示方法，其特征在于，所述主题词模型在训练词向量的同时引入主题向量，以实现一个词在不同主题下有不同的词向量表示；在主题词模型中，每个主题也被当作一个词进行训练，模型分别学习得到主题t_i的主题嵌入和词w_i的词嵌入；然后根据词嵌入w_i和主题嵌入t_i训练主题词嵌入<w_i,t_i>；所述主题词模型同时学习单词和主题的向量表示；对于每个目标词和其主题对<w_i,t_i>建立主题词模型，所述主题词模型的目标是最大化以下的对数概率：

通过连接w和t的嵌入，即以下公式来获得主题t中的词w的主题词嵌入，从而获得词向量w在主题t下的主题词嵌入：

其中，

是级联操作，w^t的向量维度是w或t的两倍；

在训练阶段，首先通过LDA主题模型将原文本中的每个单词都训练得到其对应的主题编号，将文本中的词转化为<词：主题编号>，然后将文本交由主题词模型训练出主题向量t和词向量w，最后根据<词：主题编号>和公式

生成基于卷积神经网络搭建的变分自编码器的输入向量w^t。