CN109145288A

CN109145288A - 基于变分自编码模型的文本深度特征提取方法

Info

Publication number: CN109145288A
Application number: CN201810758180.8A
Authority: CN
Inventors: 陈渤; 袁以军; 张昊
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2019-01-04

Abstract

本发明公开了一种基于变分自编码模型的文本深度特征提取方法，属于自然语言处理技术领域，适用于从海量文本中提取深度特征，用于文本检索、分类、聚类或者其他自然语言处理相关应用，其主要思路为：确定N篇输入文档，得到第1篇输入文档的词袋向量x₁至第N篇输入文档的词袋向量x_N后划分为两部分，记为训练数据Xtrain和测试数据Xtext；对第n篇输入文档的词袋向量x_n进行建模，设定模型包括两层，分别记为模型第一层和模型第二层，n＝1,2,…,N；构建推理子模型，得到建立好的推理子模型；进而得到测试数据Xtext的两层主题关键词，包括测试数据第一层主题的M个关键词和测试数据第二层主题的M个关键词，并记为本发明的一种基于变分自编码模型的文本深度特征提取结果。

Description

基于变分自编码模型的文本深度特征提取方法

技术领域

本发明属于自然语言处理技术领域，特别涉及一种基于变分自编码模型的文本深度特征提取方法，适用于从海量文本中提取深度特征，并进一步用于文本检索、分类、聚类或者其他自然语言处理相关应用。

背景技术

随着信息技术的不断发展，如今互联网上的文本数据已经远远超出了人工处理的能力，其中绝大多数都是结构化的或者非结构化的文档，文档的内容都是人们日常使用的自然语言，计算机无法直接理解这些非结构化的文本信息，因此，自然语言处理技术显得十分必要。同时，自然语言处理技术需要解决的一个基本问题就是如何将文本数据在计算机合理地表示，使得计算机能够较为容易地识别文本信息。具体来说，我们需要对文本信息进行建模，用它的数学表达替代原始的文本。绝大多数文本都是非结构化的数据，使用计算机建模的过程就是将文本数据变为便于计算机处理的结构化数据。目前比较常见的方法是用向量空间模型建模文本，通常情况下这个向量的维度非常大，带来的计算开支也就很大，也不便于后期的检索分类等处理，因此需要对文本向量做进一步处理，找出文本更具有代表性的信息，于是就对文本特征提取提出了要求。主题模型可以用来发掘文本潜在的语义结构，是一种常见的文本挖掘工具。在主题模型出现之前，一种主流的文本挖掘算法是空间向量模型，其简单易懂并且在实际应用中十分有效使得它得到巨大的发展，但是伴随着自然语言处理技术的发展，人们开始追求对文本深层信息的理解，于是主题模型应运而生。最初开发为文本挖掘工具，主题模型已被用于检测遗传信息，图像和网络等数据中的指导性结构。他们也在生物信息学等其他领域得到应用。

Blei D M,Ng A Y,Jordan M I.等人在其发表的论文“Latent dirichletallocation.”Journal of machine Learning research,2003,3(Jan):993-1022.中提出了著名的隐含狄利克雷分布(Latent dirichlet allocation)算法，该算法成为了主题模型的经典算法，该算法，但是任然存在不足之处：该方法提取的文本特征是浅层特征，不能表达文本的深层次信息，不利于后期的文本分类等任务。

发明内容

针对上述现有技术存在的不足，本发明的目的在于提出一种基于变分自编码模型的文本深度特征提取方法，该种基于变分自编码模型的文本深度特征提取方法使用变分贝叶斯方法快速求解了模型，实现了对文本深度特征的提取。

本发明上述目的的思路是：将词袋数据输入到概率模型的回归子模型中，得到隐层特征以及中间变量，再将中间变量送入生成子模型中得到新的词袋数据，计算误差函数，再利用批量随机梯度下降算法实现对模型参数的迭代更新；测试模型时，输入新的词袋数据，利用训练好的概率模型的回归子模型得到输入数据的深层特征。

为达到上述技术目的，本发明采用如下技术方案予以实现。

一种基于变分自编码模型的文本深度特征提取方法，包括以下步骤：

步骤1，确定N篇输入文档，得到第1篇输入文档的词袋向量x₁至第N篇输入文档的词袋向量x_N，记为数据集；将所述数据集划分为两部分，记为训练数据Xtrain和测试数据Xtext；

步骤2，对第n篇输入文档的词袋向量x_n进行建模，设定模型包括两层，分别记为模型第一层和模型第二层，n＝1,2,…,N；

步骤3，构建推理子模型，得到建立好的推理子模型；

步骤4，根据建立好的推理子模型和测试数据Xtext，得到测试数据Xtext的两层主题关键词，包括测试数据第一层主题的M个关键词和测试数据第二层主题的M个关键词，并记为本发明的一种基于变分自编码模型的文本深度特征提取结果。

本发明与现有的技术相比具有以下优点：

第一，由于本发明利用基于变分自编码模型，在测试模型时能够将测试文本直接非线性映射到文本主题，相比于传统的基于吉布斯采样的迭代采样方法，可以节省大量的运算资源并且大大缩短了模型测试时间，使得本发明在大数据集上具有明显的优势。

第二，由于本发明利用具有深层网络的概率生成模型，层与层之间存在信息传递，可以学习到文本的深层次特征，克服了现有技术存在的由于只使用浅层概率模型，只能够学习文本的浅层特征，直接影响了后期文本分类等任务的质量，利用本模型可以得到文本的深层特征，可以提升文本分类的准确性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1是本发明的一种基于变分自编码模型的文本深度特征提取方法流程图；

图2是本发明的模型概要框图；

图3是采用本发明方法得到的模型主题图。

具体实施方式

参照图1，为本发明的一种基于变分自编码模型的文本深度特征提取方法流程图；其中所述基于变分自编码模型的文本深度特征提取方法，包括以下步骤：

步骤1，获取训练数据，对训练数据做预处理，将训练数据处理成标准的词袋数据格式。

假设现在有N篇输入文档，统计N篇输入文档中的出现过的单词总个数，记为Q个单词；设定Q个单词中包括个名词、个动词、个形容词和个其他词性的单词，对Q个单词做预处理，具体过程如下：

只保留Q个单词中的个名词、个动词和个形容词，将Q个单词中个其他词性的单词全部删除，合并个名词中的单复数形式，具体是保留个名词中的所有单数形式名词，将个名词中剩余复数形式名词全部对应转化为单数形式名词，得到个单数形式名词，然后将个单数形式名词中所有重复出现的单数形式名词各保留一个、其余删除，将个单数形式名词中所有只出现一次的单数形式名词全部保留，进而得到个单数形式名词，

合并个动词的不同时态，具体是保留个动词中的所有一般现在时态动词，将个动词的中剩余时态动词全部对应转化为对应一般现在时态动词，得到个一般现在时态动词，然后将个一般现在时态动词中所有重复出现的一般现在时态动词各保留一个、其余删除，将个一般现在时态动词中所有只出现一次的一般现在时态动词全部保留，进而得到个一般现在时态动词，将个形容词保持原样不变；进而得到预处理后的D个单词，所述预处理后的D个单词构成词典D^*，词典D^*包括D个单词。

对于第n篇输入文档，统计词典D^*中的每个单词在第n篇输入文档中出现的次数，构成第n篇输入文档的词袋向量x_n，第n篇输入文档的词袋向量x_n词袋向量一共包括D个维度，其中表示词典D^*中第d个单词在第n篇输入文档中出现的次数，并且是整数。

令n的值分别取1至N，进而得到第1篇输入文档的词袋向量x₁至第N篇输入文档的词袋向量x_N，记为数据集，所述数据集是一个大小为N×D的矩阵。

将所述数据集划分为两部分，记为训练数据Xtrain和测试数据Xtext，所述训练数据Xtrain为所述数据集的70％，所述测试数据Xtext为所述数据集的剩余30％。

步骤2，对训练数据Xtrain和测试数据Xtext进行建模，设定模型包括两层，分别记为模型第一层和模型第二层，具体为：

其中，x_n表示第n篇输入文档的词袋向量，n＝1,2,…,N；Gam表示Gamma分布，Pois表示泊松分布；Φ⁽¹⁾表示模型第一层的主题矩阵，Φ⁽¹⁾是一个D×K₁的矩阵，D表示词典D^*中包括的单词总个数，K₁表示模型第一层包括的主题总个数，K₁个主题中第i个主题由一个维向量t_i表示，表示词典D^*中第d个单词在第i个主题出现的概率，且满足d＝1,2,…,D；表示的先验分布尺寸参数，通常取大于0的常数，经验值为0.01；表示第n篇输入文档的模型第一层中K₁个主题的比例系数，是一个K₁维向量且包括K₁个元素，中第i个元素表示第n篇输入文档的模型第一层中第i个主题的比例系数，i＝1,2,…,K₁，且中K₁个元素满足：Φ⁽²⁾表示模型第二层的主题矩阵，Φ⁽²⁾是一个K₁×K₂的矩阵，K₂表示模型第二层包括的主题总个数；Φ⁽²⁾的作用是对模型第一层的主题矩阵Φ⁽¹⁾加权求和，是一个组合了一层主题的二层主题；将模型第二层中第j个主题下模型第一层中第i个主题出现的概率记为i＝1,2,…,K₁，j＝1,2,…,K₂；表示的先验分布尺寸参数，通常取大于0的常数，经验值为0.01；r表示的先验分布形状参数，通常取大于0的常数，经验值为0.01；表示第n篇输入文档的模型第二层中K₂个主题的比例系数，是一个K₂维向量且包括K₂个元素，中第j个元素表示第n篇输入文档的模型第二层中第j个主题的比例系数，中K₂个元素满足：

步骤3.构建本方法的推理子模型，该推理子模型由六层全连接神经网络以及重参采样两部分组成，其具体过程如下：

(3.1)构建第一层全连接神经网络和第二层全连接神经网络，作用是对第n篇输入文档的词袋向量x_n进行特征提取，得到输入数据的多层特征。

构建第一层全连接神经网络，该层全连接网络用于将第n篇输入文档的词袋向量x_n映射到隐含层变量h₁，h₁是第n篇输入文档的词袋向量x_n的隐含层特征，其过程为：

设定第一层全连接神经网络包含H个节点，输入第n篇输入文档的词袋向量x_n之后，得到第一层全连接神经网络隐含层特征向量h₁，h₁是维度为H的向量，

表示第一层全连接神经网络隐含层特征向量h₁中第个元素，第一层全连接神经网络的具体实现为：

h₁＝σ(W₁ ^Tx_n+b₁)

其中，W₁表示第一层全连接神经网络的网络权重，b₁表示第一层全连接神经网络的偏置，σ表示非线性激活函数，上标T表示转置操作。

构建第二层全连接神经网络，该第二层全连接神经网络用于将第一层全连接神经网络隐含层特征向量h₁映射到第二层全连接神经网络，得到第二层全连接神经网络隐含层特征向量，其过程为：

设定第二层全连接神经网络包含H个节点，输入第一层全连接神经网络隐含层特征向量h₁之后，得到第二层全连接神经网络隐含层特征向量h₂，表示第二层全连接神经网络隐含层特征向量h₂中第个元素，h₂是维度为H的向量；第二层全连接神经网络的具体实现为：

其中，W₂表示第二层全连接神经网络的网络权重，b₂表示第二层全连接神经网络的偏置，σ表示非线性激活函数。

构建第三层全连接神经网络、第四层全连接神经网络、第五层全连接神经网络和第六层全连接神经网络，作用是将第一层全连接神经网络隐含层特征向量h₁、第二层全连接神经网络隐含层特征向量h₂映射到变量的近似后验分布；其具体过程如下：

构建第三层全连接神经网络，该第三层全连接神经网络用于将第一层全连接神经网络隐含层特征向量h₁映射到的近似后验分布，其过程为：

设定第三层全连接神经网络包含K个节点，输入第一层全连接神经网络隐含层特征向量h₁之后，得到第三层全连接神经网络隐含层特征向量k₁，k₁＝[k₁ ⁽¹⁾,k₁ ⁽²⁾,...,k₁ ⁽ⁿ'⁾,...,k₁ ^(K)]，k₁ ⁽ⁿ'⁾表示第三层全连接神经网络隐含层特征向量k₁中第个元素，n'＝1,2,…,K，k₁是维度为K的向量；第三层全连接神经网络的具体实现为：

其中，W₃表示第三层全连接神经网络的网络权重，b₃表示第三层全连接神经网络的偏置，σ表示非线性激活函数。

构建第四层全连接神经网络，该第四层全连接神经网络用于将第一层全连接神经网络隐含层特征向量h₁映射到的近似后验分布，其过程为：

设定第四层全连接神经网络包含L个节点，输入第一层全连接神经网络隐含层特征向量h₁之后，得到第四层全连接神经网络隐含层特征向量l₁，l₁是维度为L的向量，l₁＝[l₁ ⁽¹⁾,l₁ ⁽²⁾,...,l₁ ^(n”),...,l₁ ^(L)]，n”＝1,2,…,L，l₁ ^(n”)表示第四层全连接神经网络隐含层特征向量l₁中第n”个元素；第四层全连接神经网络的具体实现：

其中，W₄表示第四层全连接神经网络的网络权重，b₄表示第四层全连接神经网络的偏置，σ表示非线性激活函数。

构建第五层全连接神经网络，该第五层全连接神经网络用于将第二层全连接神经网络隐含层特征向量h₂映射到的近似后验分布，其过程为：

设定第五层全连接神经网络包含K个节点，输入第二层全连接神经网络隐含层特征向量h₂之后，得到第五层全连接神经网络隐含层特征向量k₂，k₂＝[k₂ ⁽¹⁾,k₂ ⁽²⁾,...,k₂ ^(n'),...,k₂ ^(K)]，k₂ ^(n')表示第五层全连接神经网络隐含层特征向量k₂中第n'个元素，k₂是维度为K的向量；第五层全连接神经网络的具体实现为：

其中，W₅表示第五层全连接神经网络的网络权重，b₅表示第五层全连接神经网络的偏置，σ表示非线性激活函数。

构建第六层全连接神经网络，该第六层全连接神经网络用于将第二层全连接神经网络隐含层特征向量h₂映射到的近似后验分布，其过程为：

设定第六层全连接神经网络包含L个节点，输入第二层全连接神经网络隐含层特征向量h₂之后，得到第六层全连接神经网络隐含层特征向量l₂，表示第六层全连接神经网络隐含层特征向量l₂中第n'个元素，l₂是维度为L的向量；第六层全连接神经网络的具体实现为：

其中，W₆表示第六层全连接神经网络的网络权重，b₆表示第六层全连接神经网络的偏置，σ表示非线性激活函数。

经过上述构建之后，得到建立好的推理子模型，如图2所示；所述建立好的推理子模型总结为k₁(x_n),k₂(x_n),l₁(x_n),l₂(x_n)，其中k₁(x_n)表示从第n篇输入文档的词袋向量x_n到k₁的映射，k₂(x_n)表示从第n篇输入文档的词袋向量x_n到k₂的映射，l₁(x_n)表示从第n篇输入文档的词袋向量x_n到l₁的映射，l₂(x_n)表示从第n篇输入文档的词袋向量x_n到l₂的映射。

(3.2)从标准高斯分布N(0,1)中采样出随机噪声∈，使用Weibull分布的采样公式对建立好的推理子模型进行采样操作，得到的近似后验分布采样和的近似后验分布采样其采样公式如下：

其中，Uniform表示正态分布，∈表示正太分布的一次采样。

(3.3)根据建立好的推理子模型，以及的近似后验分布采样和的近似后验分布采样计算得到当前变分下界L'，其过程如下：

其中，x_n表示第n篇输入文档的词袋向量，表示第n篇输入文档的词袋向量x_n的似然概率，表示的先验概率，表示的近似后验分布，表示的近似后验分布，

表示的先验概率，

(3.4)使用当前变分下界L'，利用基于随机梯度下降算法对模型进行训练，得到训练好的模型。

步骤4.测试变分自编码模型。

输入测试数据Xtext，并使用前向算法前向运行建立好的推理子模型后，得到k'₁(Xtext)表示从测试数据Xtext到k'₁的映射，k'₂(Xtext)表示从测试数据Xtext到k'₂的映射，l'₁(Xtext)表示从测试数据Xtext到l'₁的映射，l'₂(Xtext)表示从测试数据Xtext到l'₂的映射；其中，k'₁表示建立好的推理子模型中第三层全连接神经网络隐含层特征向量，k'₂表示建立好的推理子模型中第二层全连接神经网络隐含层特征向量，l'₁表示建立好的推理子模型中第四层全连接神经网络隐含层特征向量，l'₂表示建立好的推理子模型中第六层全连接神经网络隐含层特征向量。

然后从标准高斯分布N(0,1)中采样出随机噪声∈，使用Weibull分布的采样公式对建立好的推理子模型进行采样操作，得到测试数据Xtext在训练好的模型第一层的近似后验分布采样θ^(1)*和测试数据Xtext在训练好的模型第二层的近似后验分布采样θ^(2)*，其采样公式如下：

计算测试数据Xtext的模型第一层主题T₁＝Φ⁽¹⁾θ^(1)*，其中Φ⁽¹⁾表示模型第一层的主题矩阵，是一个D×K₁的矩阵，θ^(1)*是一个维度为K₁的向量，所以T₁是维度为D的向量，T₁＝[T₁ ⁽¹⁾,T₁ ⁽²⁾,...T₁ ⁽ⁱ⁾,...,T₁ ^(D)]，其中T₁ ⁽ⁱ⁾表示词典D^*中第i个单词在模型第一层出现的概率；测试数据Xtext的最终模型第一层主题可以由表示为在测试数据Xtext的模型第一层主题T₁中选取概率值最大的M个元素，作为测试数据第一层主题的M个关键词，即词典D^*中出现概率最大的M个单词，M<D。

计算测试数据Xtext的模型第二层主题T₂＝Φ⁽¹⁾Φ⁽²⁾θ^(2)*，Φ⁽²⁾表示模型第二层的主题矩阵，是一个K₁×K₂的矩阵；θ^(2)*是一个维度为K₂的向量，所以T₂是一个维度为D的向量，T₂＝[T₂ ⁽¹⁾,T₂ ⁽²⁾,...,T₂ ⁽ⁱ⁾,...,T₂ ^(D)]，T₂ ⁽ⁱ⁾表示词典D^*中第i个单词在模型第二层出现的概率；测试数据Xtext的最终模型第二层主题可以由表示为在测试数据Xtext的模型第二层主题T₂中选取概率值最大的M个元素，作为测试数据第二层主题的M个关键词，即词典D^*中出现概率最大的M个单词，M<D。

通过以上方法得到了测试数据Xtext的两层主题关键词，包括测试数据第一层主题的M个关键词和测试数据第二层主题的M个关键词，并记为本发明的一种基于变分自编码模型的文本深度特征提取结果。

本发明的效果可通过以下仿真进一步说明。

1.仿真条件：

本发明的仿真试验是在主频3.2GHz的Intel(R)Core(TM)i5-6500CPU、内存8GB的硬件环境和基于Python2.5的软件环境下进行的。

2.仿真内容：

本发明仿真是对20NEWS新闻主题数据集进行仿真实验，数据集由训练集和测试集两部分组成，训练集有11267个样本，测试集有7500个样本，训练集和测试集中的每一个样本代表一篇文档，由一个2000维的列向量(词袋向量)表示，每一个样本都有对应的标签，由一个1～20之间的整数表示，代表一篇文档属于的分组，共有20个分组。

本发明仿真内容为：采用本发明的方法用训练数据训练概率推理模型，再接着训练概率生成模型，经梯度优化算法不断迭代优化模型参数，得到如图3所示的模型主题图，图3为采用本发明方法得到的模型主题图。

此处定义为模型第二层的主题矩阵，是一个D×K₂的矩阵，其K₂个主题中第i个主题由一个维向量s_i表示，

下面给出制作模型主题图的流程：

第一步：确定模型第二层主题。在模型的第二层主题矩阵中的K₂个主题中随机抽取r个主题，r是整数并且满足r∈[1,K₂],假设K₂个主题中第i个主题被选中，找出满足条件的所有以及对应的标号d；根据标号d在词典D^*找到相应的单词，这样就构建好了主题模型图中第一行的第一个方框，方框左上角是i，代表该主题是K₂个主题中的第i个主题。

第二步：确定模型第二层的各个主题与模型第一层主题之间的加权求和关系；以模型第二层的第一个主题为例，找出模型第二层的第i个主题与模型第一层的K₁个主题之间的权重大小即可；表示模型第二层的第i个主题与模型第一层的第j个主题之间的权重大小，找出满足条件的所有的以及相应的j，假设有M₁个元素，也就是找到了与模型第二层的第i个主题关系最大的M₁个模型第一层主题，也就是模型主题图中第一行左上角方框与第二行的各个方框之间有M₁根连线，线的粗细与的大小成正比。

第三步：确定模型第一层主题；以第二步中选中的M₁个模型第一层主题为例，假设选中了模型第一层主题的第i个主题，由一个维向量t_i表示，找出满足条件的所有的以及对应的d，根据这些标号d在词典D^*找到相应的单词，在框中画出相应的单词即可，方框左上角是i，表示的是该主题是模型第一层的K₁主题中的第i个主题。

3.仿真效果分析：

(1)用本发明的方法对20NEWS数据集进行深度特征提取，得到的模型主题图如图3所示，现有的文本特征提取算法无法提取文本的深度特征，而本方法可以提取到丰富的文本深度特征；其中，最高层特征的第16,19和24个主题在图中第一排，代表了三个高层主题，第三层的主题是对第二层主题的加权求和而来，第二层主题是对第一层主题的加权求和，连线的粗细代表权重的大小最高层特征；并且每一个主题的语义信息以及它们之间的连接关系都具有高度的可解释性，与用神经网络这种黑盒模型提取的特征有本质区别。

(2)在信息论中，困惑度(perplexity)是一种常见的评测语言模型的指标，困惑度通常为大于1的常数，困惑度越小，模型的性能就越优秀；对比了吉布斯方法(Gibbs)、TLASGR方法、深度泊松因子分析模型、本发明方法(WHAI方法)所需要的时间，得到结果如表1所示；从表1可以发现本方法(WHAI方法)在困惑度与其他方法相当，证明了本方法的有效性。同时本方法极大的缩短了模型测试所需的时间，相比于Gibbs方法和TLASGR方法缩短了16.6倍的测试时间，相比于DPFA方法缩短了31.9倍的测试时间，是一种开创性的方法；并且本发明方法测试时间最短，并且困惑度与其他方法相当，证明了本方法的有效性。

表1

	困惑度	测试时间
			Gibbs	571	10.46s
TLASGR	579	10.46s
			DPFA	637	20.12s
WHAI	581	0.63s

综上所述，仿真实验验证了本发明的正确性，有效性和可靠性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围；这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于变分自编码模型的文本深度特征提取方法，其特征在于，包括以下步骤：

步骤3，构建推理子模型，得到建立好的推理子模型；

2.如权利要求1所述的一种基于变分自编码模型的文本深度特征提取方法，其特征在于，在步骤1中，所述数据集，其具体得到过程为：

统计N篇输入文档中的出现过的单词总个数，记为Q个单词；设定Q个单词中包括个名词、个动词、个形容词和个其他词性的单词，对Q个单词做预处理，具体过程如下：

合并个动词的不同时态，具体是保留个动词中的所有一般现在时态动词，将个动词的中剩余时态动词全部对应转化为对应一般现在时态动词，得到个一般现在时态动词，然后将个一般现在时态动词中所有重复出现的一般现在时态动词各保留一个、其余删除，将个一般现在时态动词中所有只出现一次的一般现在时态动词全部保留，进而得到个一般现在时态动词，将个形容词保持原样不变；进而得到预处理后的D个单词，所述预处理后的D个单词构成词典D^*，词典D^*包括D个单词；

对于第n篇输入文档，统计词典D^*中的每个单词在第n篇输入文档中出现的次数，构成第n篇输入文档的词袋向量x_n，第n篇输入文档的词袋向量x_n词袋向量一共包括D个维度，其中表示词典D^*中第d个单词在第n篇输入文档中出现的次数，并且是整数；

3.如权利要求2所述的一种基于变分自编码模型的文本深度特征提取方法，其特征在于，在步骤2中，所述模型第一层和模型第二层，具体为：

其中，x_n表示第n篇输入文档的词袋向量，n＝1,2,…,N；Gam表示Gamma分布，Pois表示泊松分布；Φ⁽¹⁾表示模型第一层的主题矩阵，Φ⁽¹⁾是一个D×K₁的矩阵，D表示词典D^*中包括的单词总个数，K₁表示模型第一层包括的主题总个数，K₁个主题中第i个主题由一个维向量t_i表示，表示词典D^*中第d个单词在第i个主题出现的概率，且满足表示的先验分布尺寸参数，取大于0的常数，表示第n篇输入文档的模型第一层中K₁个主题的比例系数，是一个K₁维向量且包括K₁个元素，中第i个元素表示第n篇输入文档的模型第一层中第i个主题的比例系数，i＝1,2,…,K₁，且中K₁个元素满足：Φ⁽²⁾表示模型第二层的主题矩阵，Φ⁽²⁾是一个K₁×K₂的矩阵，K₂表示模型第二层包括的主题总个数；i＝1,2,…,K₁，j＝1,2,…,K₂；表示的先验分布尺寸参数，取大于0的常数；r表示的先验分布形状参数，r取大于0的常数；表示第n篇输入文档的模型第二层中K₂个主题的比例系数，

是一个K₂维向量且包括K₂个元素，中第j个元素表示第n篇输入文档的模型第二层中第j个主题的比例系数，中K₂个元素满足：

4.如权利要求3所述的一种基于变分自编码模型的文本深度特征提取方法，其特征在于，在步骤3中，所述建立好的推理子模型，其得到子步骤为：

3.1设定第一层全连接神经网络包含H个节点，输入第n篇输入文档的词袋向量x_n之后，得到第一层全连接神经网络隐含层特征向量h₁，h₁是维度为H的向量，

h₁＝σ(W₁ ^Tx_n+b₁)

其中，W₁表示第一层全连接神经网络的网络权重，b₁表示第一层全连接神经网络的偏置，σ表示非线性激活函数，上标T表示转置操作；

其中，W₂表示第二层全连接神经网络的网络权重，b₂表示第二层全连接神经网络的偏置；

设定第三层全连接神经网络包含K个节点，输入第一层全连接神经网络隐含层特征向量h₁之后，得到第三层全连接神经网络隐含层特征向量k₁，k₁＝[k₁ ⁽¹⁾,k₁ ⁽²⁾,...,k₁ ^(n'),...,k₁ ^(K)]，k₁ ^(n')表示第三层全连接神经网络隐含层特征向量k₁中第个元素，n'＝1,2,…,K，k₁是维度为K的向量；第三层全连接神经网络的具体实现为：

其中，W₃表示第三层全连接神经网络的网络权重，b₃表示第三层全连接神经网络的偏置；

其中，W₄表示第四层全连接神经网络的网络权重，b₄表示第四层全连接神经网络的偏置；

其中，W₅表示第五层全连接神经网络的网络权重，b₅表示第五层全连接神经网络的偏置；

其中，W₆表示第六层全连接神经网络的网络权重，b₆表示第六层全连接神经网络的偏置，σ表示非线性激活函数；

经过上述构建之后，得到建立好的推理子模型，所述建立好的推理子模型总结为k₁(x_n),k₂(x_n),l₁(x_n),l₂(x_n)，其中k₁(x_n)表示从第n篇输入文档的词袋向量x_n到k₁的映射，k₂(x_n)表示从第n篇输入文档的词袋向量x_n到k₂的映射，l₁(x_n)表示从第n篇输入文档的词袋向量x_n到l₁的映射，l₂(x_n)表示从第n篇输入文档的词袋向量x_n到l₂的映射；

3.2从标准高斯分布N(0，1)中采样出随机噪声∈，然后对建立好的推理子模型进行采样操作，得到的近似后验分布采样和的近似后验分布采样其采样公式如下：

其中，Uniform表示正态分布；

3.3根据建立好的推理子模型，以及的近似后验分布采样和的近似后验分布采样计算得到当前变分下界L'，其过程如下：

表示的先验概率，

3.4使用当前变分下界L'，利用基于随机梯度下降算法对模型进行训练，得到训练好的模型。

5.如权利要求4所述的一种基于变分自编码模型的文本深度特征提取方法，其特征在于，在步骤4中，所述测试数据第一层主题的M个关键词和测试数据第二层主题的M个关键词，其得到过程为：

输入测试数据Xtext，并使用前向算法前向运行建立好的推理子模型后，得到k'₁(Xtext)表示从测试数据Xtext到k'₁的映射，k'₂(Xtext)表示从测试数据Xtext到k'₂的映射，l'₁(Xtext)表示从测试数据Xtext到l'₁的映射，l'₂(Xtext)表示从测试数据Xtext到l'₂的映射；其中，k'₁表示建立好的推理子模型中第三层全连接神经网络隐含层特征向量，k'₂表示建立好的推理子模型中第二层全连接神经网络隐含层特征向量，l'₁表示建立好的推理子模型中第四层全连接神经网络隐含层特征向量，l'₂表示建立好的推理子模型中第六层全连接神经网络隐含层特征向量；

然后从标准高斯分布N(0，1)中采样出随机噪声∈，然后对建立好的推理子模型进行采样操作，得到测试数据Xtext在训练好的模型第一层的近似后验分布采样θ^(1)*和测试数据Xtext在训练好的模型第二层的近似后验分布采样θ^(2)*，其采样公式如下：

计算测试数据Xtext的模型第一层主题T₁＝Φ⁽¹⁾θ^(1)*，其中Φ⁽¹⁾表示模型第一层的主题矩阵，是一个D×K₁的矩阵，θ^(1)*是一个维度为K₁的向量，所以T₁是维度为D的向量，T₁＝[T₁ ⁽¹⁾,T₁ ⁽²⁾,...T₁ ⁽ⁱ⁾,...,T₁ ^(D)]，其中T₁ ⁽ⁱ⁾表示词典D^*中第i个单词在模型第一层出现的概率；测试数据Xtext的最终模型第一层主题可以由表示为在测试数据Xtext的模型第一层主题T₁中选取概率值最大的M个元素，作为测试数据第一层主题的M个关键词；

计算测试数据Xtext的模型第二层主题T₂＝Φ⁽¹⁾Φ⁽²⁾θ^(2)*，Φ⁽²⁾表示模型第二层的主题矩阵，是一个K₁×K₂的矩阵；θ^(2)*是一个维度为K₂的向量，所以T₂是一个维度为D的向量，T₂＝[T₂ ⁽¹⁾,T₂ ⁽²⁾,...,T₂ ⁽ⁱ⁾,...,T₂ ^(D)]，T₂ ⁽ⁱ⁾表示词典D^*中第i个单词在模型第二层出现的概率；测试数据Xtext的最终模型第二层主题可以由表示为在测试数据Xtext的模型第二层主题T₂中选取概率值最大的M个元素，作为测试数据第二层主题的M个关键词，M<D。