CN109145288A - 基于变分自编码模型的文本深度特征提取方法 - Google Patents

基于变分自编码模型的文本深度特征提取方法 Download PDF

Info

Publication number
CN109145288A
CN109145288A CN201810758180.8A CN201810758180A CN109145288A CN 109145288 A CN109145288 A CN 109145288A CN 201810758180 A CN201810758180 A CN 201810758180A CN 109145288 A CN109145288 A CN 109145288A
Authority
CN
China
Prior art keywords
layer
neural network
full connection
indicate
connection neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810758180.8A
Other languages
English (en)
Inventor
陈渤
袁以军
张昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810758180.8A priority Critical patent/CN109145288A/zh
Publication of CN109145288A publication Critical patent/CN109145288A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于变分自编码模型的文本深度特征提取方法,属于自然语言处理技术领域,适用于从海量文本中提取深度特征,用于文本检索、分类、聚类或者其他自然语言处理相关应用,其主要思路为:确定N篇输入文档,得到第1篇输入文档的词袋向量x1至第N篇输入文档的词袋向量xN后划分为两部分,记为训练数据Xtrain和测试数据Xtext;对第n篇输入文档的词袋向量xn进行建模,设定模型包括两层,分别记为模型第一层和模型第二层,n=1,2,…,N;构建推理子模型,得到建立好的推理子模型;进而得到测试数据Xtext的两层主题关键词,包括测试数据第一层主题的M个关键词和测试数据第二层主题的M个关键词,并记为本发明的一种基于变分自编码模型的文本深度特征提取结果。

Description

基于变分自编码模型的文本深度特征提取方法
技术领域
本发明属于自然语言处理技术领域,特别涉及一种基于变分自编码模型的文本深度特征提取方法,适用于从海量文本中提取深度特征,并进一步用于文本检索、分类、聚类或者其他自然语言处理相关应用。
背景技术
随着信息技术的不断发展,如今互联网上的文本数据已经远远超出了人工处理的能力,其中绝大多数都是结构化的或者非结构化的文档,文档的内容都是人们日常使用的自然语言,计算机无法直接理解这些非结构化的文本信息,因此,自然语言处理技术显得十分必要。同时,自然语言处理技术需要解决的一个基本问题就是如何将文本数据在计算机合理地表示,使得计算机能够较为容易地识别文本信息。具体来说,我们需要对文本信息进行建模,用它的数学表达替代原始的文本。绝大多数文本都是非结构化的数据,使用计算机建模的过程就是将文本数据变为便于计算机处理的结构化数据。目前比较常见的方法是用向量空间模型建模文本,通常情况下这个向量的维度非常大,带来的计算开支也就很大,也不便于后期的检索分类等处理,因此需要对文本向量做进一步处理,找出文本更具有代表性的信息,于是就对文本特征提取提出了要求。主题模型可以用来发掘文本潜在的语义结构,是一种常见的文本挖掘工具。在主题模型出现之前,一种主流的文本挖掘算法是空间向量模型,其简单易懂并且在实际应用中十分有效使得它得到巨大的发展,但是伴随着自然语言处理技术的发展,人们开始追求对文本深层信息的理解,于是主题模型应运而生。最初开发为文本挖掘工具,主题模型已被用于检测遗传信息,图像和网络等数据中的指导性结构。他们也在生物信息学等其他领域得到应用。
Blei D M,Ng A Y,Jordan M I.等人在其发表的论文“Latent dirichletallocation.”Journal of machine Learning research,2003,3(Jan):993-1022.中提出了著名的隐含狄利克雷分布(Latent dirichlet allocation)算法,该算法成为了主题模型的经典算法,该算法,但是任然存在不足之处:该方法提取的文本特征是浅层特征,不能表达文本的深层次信息,不利于后期的文本分类等任务。
发明内容
针对上述现有技术存在的不足,本发明的目的在于提出一种基于变分自编码模型的文本深度特征提取方法,该种基于变分自编码模型的文本深度特征提取方法使用变分贝叶斯方法快速求解了模型,实现了对文本深度特征的提取。
本发明上述目的的思路是:将词袋数据输入到概率模型的回归子模型中,得到隐层特征以及中间变量,再将中间变量送入生成子模型中得到新的词袋数据,计算误差函数,再利用批量随机梯度下降算法实现对模型参数的迭代更新;测试模型时,输入新的词袋数据,利用训练好的概率模型的回归子模型得到输入数据的深层特征。
为达到上述技术目的,本发明采用如下技术方案予以实现。
一种基于变分自编码模型的文本深度特征提取方法,包括以下步骤:
步骤1,确定N篇输入文档,得到第1篇输入文档的词袋向量x1至第N篇输入文档的词袋向量xN,记为数据集;将所述数据集划分为两部分,记为训练数据Xtrain和测试数据Xtext;
步骤2,对第n篇输入文档的词袋向量xn进行建模,设定模型包括两层,分别记为模型第一层和模型第二层,n=1,2,…,N;
步骤3,构建推理子模型,得到建立好的推理子模型;
步骤4,根据建立好的推理子模型和测试数据Xtext,得到测试数据Xtext的两层主题关键词,包括测试数据第一层主题的M个关键词和测试数据第二层主题的M个关键词,并记为本发明的一种基于变分自编码模型的文本深度特征提取结果。
本发明与现有的技术相比具有以下优点:
第一,由于本发明利用基于变分自编码模型,在测试模型时能够将测试文本直接非线性映射到文本主题,相比于传统的基于吉布斯采样的迭代采样方法,可以节省大量的运算资源并且大大缩短了模型测试时间,使得本发明在大数据集上具有明显的优势。
第二,由于本发明利用具有深层网络的概率生成模型,层与层之间存在信息传递,可以学习到文本的深层次特征,克服了现有技术存在的由于只使用浅层概率模型,只能够学习文本的浅层特征,直接影响了后期文本分类等任务的质量,利用本模型可以得到文本的深层特征,可以提升文本分类的准确性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1是本发明的一种基于变分自编码模型的文本深度特征提取方法流程图;
图2是本发明的模型概要框图;
图3是采用本发明方法得到的模型主题图。
具体实施方式
参照图1,为本发明的一种基于变分自编码模型的文本深度特征提取方法流程图;其中所述基于变分自编码模型的文本深度特征提取方法,包括以下步骤:
步骤1,获取训练数据,对训练数据做预处理,将训练数据处理成标准的词袋数据格式。
假设现在有N篇输入文档,统计N篇输入文档中的出现过的单词总个数,记为Q个单词;设定Q个单词中包括个名词、个动词、个形容词和个其他词性的单词,对Q个单词做预处理,具体过程如下:
只保留Q个单词中的个名词、个动词和个形容词,将Q个单词中个其他词性的单词全部删除,合并个名词中的单复数形式,具体是保留个名词中的所有单数形式名词,将个名词中剩余复数形式名词全部对应转化为单数形式名词,得到个单数形式名词,然后将个单数形式名词中所有重复出现的单数形式名词各保留一个、其余删除,将个单数形式名词中所有只出现一次的单数形式名词全部保留,进而得到个单数形式名词,
合并个动词的不同时态,具体是保留个动词中的所有一般现在时态动词,将个动词的中剩余时态动词全部对应转化为对应一般现在时态动词,得到个一般现在时态动词,然后将个一般现在时态动词中所有重复出现的一般现在时态动词各保留一个、其余删除,将个一般现在时态动词中所有只出现一次的一般现在时态动词全部保留,进而得到个一般现在时态动词,个形容词保持原样不变;进而得到预处理后的D个单词,所述预处理后的D个单词构成词典D*,词典D*包括D个单词。
对于第n篇输入文档,统计词典D*中的每个单词在第n篇输入文档中出现的次数,构成第n篇输入文档的词袋向量xn第n篇输入文档的词袋向量xn词袋向量一共包括D个维度,其中表示词典D*中第d个单词在第n篇输入文档中出现的次数,并且是整数。
令n的值分别取1至N,进而得到第1篇输入文档的词袋向量x1至第N篇输入文档的词袋向量xN,记为数据集,所述数据集是一个大小为N×D的矩阵。
将所述数据集划分为两部分,记为训练数据Xtrain和测试数据Xtext,所述训练数据Xtrain为所述数据集的70%,所述测试数据Xtext为所述数据集的剩余30%。
步骤2,对训练数据Xtrain和测试数据Xtext进行建模,设定模型包括两层,分别记为模型第一层和模型第二层,具体为:
其中,xn表示第n篇输入文档的词袋向量,n=1,2,…,N;Gam表示Gamma分布,Pois表示泊松分布;Φ(1)表示模型第一层的主题矩阵,Φ(1)是一个D×K1的矩阵,D表示词典D*中包括的单词总个数,K1表示模型第一层包括的主题总个数,K1个主题中第i个主题由一个维向量ti表示, 表示词典D*中第d个单词在第i个主题出现的概率,且满足d=1,2,…,D;表示的先验分布尺寸参数,通常取大于0的常数,经验值为0.01;表示第n篇输入文档的模型第一层中K1个主题的比例系数, 是一个K1维向量且包括K1个元素,中第i个元素表示第n篇输入文档的模型第一层中第i个主题的比例系数,i=1,2,…,K1,且中K1个元素满足:Φ(2)表示模型第二层的主题矩阵,Φ(2)是一个K1×K2的矩阵,K2表示模型第二层包括的主题总个数;Φ(2)的作用是对模型第一层的主题矩阵Φ(1)加权求和,是一个组合了一层主题的二层主题;将模型第二层中第j个主题下模型第一层中第i个主题出现的概率记为i=1,2,…,K1,j=1,2,…,K2表示的先验分布尺寸参数,通常取大于0的常数,经验值为0.01;r表示的先验分布形状参数,通常取大于0的常数,经验值为0.01;表示第n篇输入文档的模型第二层中K2个主题的比例系数, 是一个K2维向量且包括K2个元素,中第j个元素表示第n篇输入文档的模型第二层中第j个主题的比例系数,中K2个元素满足:
步骤3.构建本方法的推理子模型,该推理子模型由六层全连接神经网络以及重参采样两部分组成,其具体过程如下:
(3.1)构建第一层全连接神经网络和第二层全连接神经网络,作用是对第n篇输入文档的词袋向量xn进行特征提取,得到输入数据的多层特征。
构建第一层全连接神经网络,该层全连接网络用于将第n篇输入文档的词袋向量xn映射到隐含层变量h1,h1是第n篇输入文档的词袋向量xn的隐含层特征,其过程为:
设定第一层全连接神经网络包含H个节点,输入第n篇输入文档的词袋向量xn之后,得到第一层全连接神经网络隐含层特征向量h1,h1是维度为H的向量,
表示第一层全连接神经网络隐含层特征向量h1中第个元素,第一层全连接神经网络的具体实现为:
h1=σ(W1 Txn+b1)
其中,W1表示第一层全连接神经网络的网络权重,b1表示第一层全连接神经网络的偏置,σ表示非线性激活函数,上标T表示转置操作。
构建第二层全连接神经网络,该第二层全连接神经网络用于将第一层全连接神经网络隐含层特征向量h1映射到第二层全连接神经网络,得到第二层全连接神经网络隐含层特征向量,其过程为:
设定第二层全连接神经网络包含H个节点,输入第一层全连接神经网络隐含层特征向量h1之后,得到第二层全连接神经网络隐含层特征向量h2 表示第二层全连接神经网络隐含层特征向量h2中第个元素,h2是维度为H的向量;第二层全连接神经网络的具体实现为:
其中,W2表示第二层全连接神经网络的网络权重,b2表示第二层全连接神经网络的偏置,σ表示非线性激活函数。
构建第三层全连接神经网络、第四层全连接神经网络、第五层全连接神经网络和第六层全连接神经网络,作用是将第一层全连接神经网络隐含层特征向量h1、第二层全连接神经网络隐含层特征向量h2映射到变量的近似后验分布;其具体过程如下:
构建第三层全连接神经网络,该第三层全连接神经网络用于将第一层全连接神经网络隐含层特征向量h1映射到的近似后验分布,其过程为:
设定第三层全连接神经网络包含K个节点,输入第一层全连接神经网络隐含层特征向量h1之后,得到第三层全连接神经网络隐含层特征向量k1,k1=[k1 (1),k1 (2),...,k1 (n'),...,k1 (K)],k1 (n')表示第三层全连接神经网络隐含层特征向量k1中第个元素,n'=1,2,…,K,k1是维度为K的向量;第三层全连接神经网络的具体实现为:
其中,W3表示第三层全连接神经网络的网络权重,b3表示第三层全连接神经网络的偏置,σ表示非线性激活函数。
构建第四层全连接神经网络,该第四层全连接神经网络用于将第一层全连接神经网络隐含层特征向量h1映射到的近似后验分布,其过程为:
设定第四层全连接神经网络包含L个节点,输入第一层全连接神经网络隐含层特征向量h1之后,得到第四层全连接神经网络隐含层特征向量l1,l1是维度为L的向量,l1=[l1 (1),l1 (2),...,l1 (n”),...,l1 (L)],n”=1,2,…,L,l1 (n”)表示第四层全连接神经网络隐含层特征向量l1中第n”个元素;第四层全连接神经网络的具体实现:
其中,W4表示第四层全连接神经网络的网络权重,b4表示第四层全连接神经网络的偏置,σ表示非线性激活函数。
构建第五层全连接神经网络,该第五层全连接神经网络用于将第二层全连接神经网络隐含层特征向量h2映射到的近似后验分布,其过程为:
设定第五层全连接神经网络包含K个节点,输入第二层全连接神经网络隐含层特征向量h2之后,得到第五层全连接神经网络隐含层特征向量k2,k2=[k2 (1),k2 (2),...,k2 (n'),...,k2 (K)],k2 (n')表示第五层全连接神经网络隐含层特征向量k2中第n'个元素,k2是维度为K的向量;第五层全连接神经网络的具体实现为:
其中,W5表示第五层全连接神经网络的网络权重,b5表示第五层全连接神经网络的偏置,σ表示非线性激活函数。
构建第六层全连接神经网络,该第六层全连接神经网络用于将第二层全连接神经网络隐含层特征向量h2映射到的近似后验分布,其过程为:
设定第六层全连接神经网络包含L个节点,输入第二层全连接神经网络隐含层特征向量h2之后,得到第六层全连接神经网络隐含层特征向量l2 表示第六层全连接神经网络隐含层特征向量l2中第n'个元素,l2是维度为L的向量;第六层全连接神经网络的具体实现为:
其中,W6表示第六层全连接神经网络的网络权重,b6表示第六层全连接神经网络的偏置,σ表示非线性激活函数。
经过上述构建之后,得到建立好的推理子模型,如图2所示;所述建立好的推理子模型总结为k1(xn),k2(xn),l1(xn),l2(xn),其中k1(xn)表示从第n篇输入文档的词袋向量xn到k1的映射,k2(xn)表示从第n篇输入文档的词袋向量xn到k2的映射,l1(xn)表示从第n篇输入文档的词袋向量xn到l1的映射,l2(xn)表示从第n篇输入文档的词袋向量xn到l2的映射。
(3.2)从标准高斯分布N(0,1)中采样出随机噪声∈,使用Weibull分布的采样公式对建立好的推理子模型进行采样操作,得到的近似后验分布采样的近似后验分布采样其采样公式如下:
其中,Uniform表示正态分布,∈表示正太分布的一次采样。
(3.3)根据建立好的推理子模型,以及的近似后验分布采样的近似后验分布采样计算得到当前变分下界L',其过程如下:
其中,xn表示第n篇输入文档的词袋向量,表示第n篇输入文档的词袋向量xn的似然概率, 表示的先验概率, 表示的近似后验分布, 表示的近似后验分布,
表示的先验概率,
(3.4)使用当前变分下界L',利用基于随机梯度下降算法对模型进行训练,得到训练好的模型。
步骤4.测试变分自编码模型。
输入测试数据Xtext,并使用前向算法前向运行建立好的推理子模型后,得到k'1(Xtext)表示从测试数据Xtext到k'1的映射,k'2(Xtext)表示从测试数据Xtext到k'2的映射,l'1(Xtext)表示从测试数据Xtext到l'1的映射,l'2(Xtext)表示从测试数据Xtext到l'2的映射;其中,k'1表示建立好的推理子模型中第三层全连接神经网络隐含层特征向量,k'2表示建立好的推理子模型中第二层全连接神经网络隐含层特征向量,l'1表示建立好的推理子模型中第四层全连接神经网络隐含层特征向量,l'2表示建立好的推理子模型中第六层全连接神经网络隐含层特征向量。
然后从标准高斯分布N(0,1)中采样出随机噪声∈,使用Weibull分布的采样公式对建立好的推理子模型进行采样操作,得到测试数据Xtext在训练好的模型第一层的近似后验分布采样θ(1)*和测试数据Xtext在训练好的模型第二层的近似后验分布采样θ(2)*,其采样公式如下:
计算测试数据Xtext的模型第一层主题T1=Φ(1)θ(1)*,其中Φ(1)表示模型第一层的主题矩阵,是一个D×K1的矩阵,θ(1)*是一个维度为K1的向量,所以T1是维度为D的向量,T1=[T1 (1),T1 (2),...T1 (i),...,T1 (D)],其中T1 (i)表示词典D*中第i个单词在模型第一层出现的概率;测试数据Xtext的最终模型第一层主题可以由表示为在测试数据Xtext的模型第一层主题T1中选取概率值最大的M个元素,作为测试数据第一层主题的M个关键词,即词典D*中出现概率最大的M个单词,M<D。
计算测试数据Xtext的模型第二层主题T2=Φ(1)Φ(2)θ(2)*,Φ(2)表示模型第二层的主题矩阵,是一个K1×K2的矩阵;θ(2)*是一个维度为K2的向量,所以T2是一个维度为D的向量,T2=[T2 (1),T2 (2),...,T2 (i),...,T2 (D)],T2 (i)表示词典D*中第i个单词在模型第二层出现的概率;测试数据Xtext的最终模型第二层主题可以由表示为在测试数据Xtext的模型第二层主题T2中选取概率值最大的M个元素,作为测试数据第二层主题的M个关键词,即词典D*中出现概率最大的M个单词,M<D。
通过以上方法得到了测试数据Xtext的两层主题关键词,包括测试数据第一层主题的M个关键词和测试数据第二层主题的M个关键词,并记为本发明的一种基于变分自编码模型的文本深度特征提取结果。
本发明的效果可通过以下仿真进一步说明。
1.仿真条件:
本发明的仿真试验是在主频3.2GHz的Intel(R)Core(TM)i5-6500CPU、内存8GB的硬件环境和基于Python2.5的软件环境下进行的。
2.仿真内容:
本发明仿真是对20NEWS新闻主题数据集进行仿真实验,数据集由训练集和测试集两部分组成,训练集有11267个样本,测试集有7500个样本,训练集和测试集中的每一个样本代表一篇文档,由一个2000维的列向量(词袋向量)表示,每一个样本都有对应的标签,由一个1~20之间的整数表示,代表一篇文档属于的分组,共有20个分组。
本发明仿真内容为:采用本发明的方法用训练数据训练概率推理模型,再接着训练概率生成模型,经梯度优化算法不断迭代优化模型参数,得到如图3所示的模型主题图,图3为采用本发明方法得到的模型主题图。
此处定义为模型第二层的主题矩阵,是一个D×K2的矩阵,其K2个主题中第i个主题由一个维向量si表示,
下面给出制作模型主题图的流程:
第一步:确定模型第二层主题。在模型的第二层主题矩阵中的K2个主题中随机抽取r个主题,r是整数并且满足r∈[1,K2],假设K2个主题中第i个主题被选中,找出满足条件的所有以及对应的标号d;根据标号d在词典D*找到相应的单词,这样就构建好了主题模型图中第一行的第一个方框,方框左上角是i,代表该主题是K2个主题中的第i个主题。
第二步:确定模型第二层的各个主题与模型第一层主题之间的加权求和关系;以模型第二层的第一个主题为例,找出模型第二层的第i个主题与模型第一层的K1个主题之间的权重大小即可;表示模型第二层的第i个主题与模型第一层的第j个主题之间的权重大小,找出满足条件的所有的以及相应的j,假设有M1个元素,也就是找到了与模型第二层的第i个主题关系最大的M1个模型第一层主题,也就是模型主题图中第一行左上角方框与第二行的各个方框之间有M1根连线,线的粗细与的大小成正比。
第三步:确定模型第一层主题;以第二步中选中的M1个模型第一层主题为例,假设选中了模型第一层主题的第i个主题,由一个维向量ti表示,找出满足条件的所有的以及对应的d,根据这些标号d在词典D*找到相应的单词,在框中画出相应的单词即可,方框左上角是i,表示的是该主题是模型第一层的K1主题中的第i个主题。
3.仿真效果分析:
(1)用本发明的方法对20NEWS数据集进行深度特征提取,得到的模型主题图如图3所示,现有的文本特征提取算法无法提取文本的深度特征,而本方法可以提取到丰富的文本深度特征;其中,最高层特征的第16,19和24个主题在图中第一排,代表了三个高层主题,第三层的主题是对第二层主题的加权求和而来,第二层主题是对第一层主题的加权求和,连线的粗细代表权重的大小最高层特征;并且每一个主题的语义信息以及它们之间的连接关系都具有高度的可解释性,与用神经网络这种黑盒模型提取的特征有本质区别。
(2)在信息论中,困惑度(perplexity)是一种常见的评测语言模型的指标,困惑度通常为大于1的常数,困惑度越小,模型的性能就越优秀;对比了吉布斯方法(Gibbs)、TLASGR方法、深度泊松因子分析模型、本发明方法(WHAI方法)所需要的时间,得到结果如表1所示;从表1可以发现本方法(WHAI方法)在困惑度与其他方法相当,证明了本方法的有效性。同时本方法极大的缩短了模型测试所需的时间,相比于Gibbs方法和TLASGR方法缩短了16.6倍的测试时间,相比于DPFA方法缩短了31.9倍的测试时间,是一种开创性的方法;并且本发明方法测试时间最短,并且困惑度与其他方法相当,证明了本方法的有效性。
表1
困惑度 测试时间
Gibbs 571 10.46s
TLASGR 579 10.46s
DPFA 637 20.12s
WHAI 581 0.63s
综上所述,仿真实验验证了本发明的正确性,有效性和可靠性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围;这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种基于变分自编码模型的文本深度特征提取方法,其特征在于,包括以下步骤:
步骤1,确定N篇输入文档,得到第1篇输入文档的词袋向量x1至第N篇输入文档的词袋向量xN,记为数据集;将所述数据集划分为两部分,记为训练数据Xtrain和测试数据Xtext;
步骤2,对第n篇输入文档的词袋向量xn进行建模,设定模型包括两层,分别记为模型第一层和模型第二层,n=1,2,…,N;
步骤3,构建推理子模型,得到建立好的推理子模型;
步骤4,根据建立好的推理子模型和测试数据Xtext,得到测试数据Xtext的两层主题关键词,包括测试数据第一层主题的M个关键词和测试数据第二层主题的M个关键词,并记为本发明的一种基于变分自编码模型的文本深度特征提取结果。
2.如权利要求1所述的一种基于变分自编码模型的文本深度特征提取方法,其特征在于,在步骤1中,所述数据集,其具体得到过程为:
统计N篇输入文档中的出现过的单词总个数,记为Q个单词;设定Q个单词中包括个名词、个动词、个形容词和个其他词性的单词,对Q个单词做预处理,具体过程如下:
只保留Q个单词中的个名词、个动词和个形容词,将Q个单词中个其他词性的单词全部删除,合并个名词中的单复数形式,具体是保留个名词中的所有单数形式名词,将个名词中剩余复数形式名词全部对应转化为单数形式名词,得到个单数形式名词,然后将个单数形式名词中所有重复出现的单数形式名词各保留一个、其余删除,将个单数形式名词中所有只出现一次的单数形式名词全部保留,进而得到个单数形式名词,
合并个动词的不同时态,具体是保留个动词中的所有一般现在时态动词,将个动词的中剩余时态动词全部对应转化为对应一般现在时态动词,得到个一般现在时态动词,然后将个一般现在时态动词中所有重复出现的一般现在时态动词各保留一个、其余删除,将个一般现在时态动词中所有只出现一次的一般现在时态动词全部保留,进而得到个一般现在时态动词,个形容词保持原样不变;进而得到预处理后的D个单词,所述预处理后的D个单词构成词典D*,词典D*包括D个单词;
对于第n篇输入文档,统计词典D*中的每个单词在第n篇输入文档中出现的次数,构成第n篇输入文档的词袋向量xn第n篇输入文档的词袋向量xn词袋向量一共包括D个维度,其中表示词典D*中第d个单词在第n篇输入文档中出现的次数,并且是整数;
令n的值分别取1至N,进而得到第1篇输入文档的词袋向量x1至第N篇输入文档的词袋向量xN,记为数据集,所述数据集是一个大小为N×D的矩阵。
3.如权利要求2所述的一种基于变分自编码模型的文本深度特征提取方法,其特征在于,在步骤2中,所述模型第一层和模型第二层,具体为:
其中,xn表示第n篇输入文档的词袋向量,n=1,2,…,N;Gam表示Gamma分布,Pois表示泊松分布;Φ(1)表示模型第一层的主题矩阵,Φ(1)是一个D×K1的矩阵,D表示词典D*中包括的单词总个数,K1表示模型第一层包括的主题总个数,K1个主题中第i个主题由一个维向量ti表示, 表示词典D*中第d个单词在第i个主题出现的概率,且满足 表示的先验分布尺寸参数,取大于0的常数,表示第n篇输入文档的模型第一层中K1个主题的比例系数, 是一个K1维向量且包括K1个元素,中第i个元素表示第n篇输入文档的模型第一层中第i个主题的比例系数,i=1,2,…,K1,且中K1个元素满足:Φ(2)表示模型第二层的主题矩阵,Φ(2)是一个K1×K2的矩阵,K2表示模型第二层包括的主题总个数;i=1,2,…,K1,j=1,2,…,K2表示的先验分布尺寸参数,取大于0的常数;r表示的先验分布形状参数,r取大于0的常数;表示第n篇输入文档的模型第二层中K2个主题的比例系数,
是一个K2维向量且包括K2个元素,中第j个元素表示第n篇输入文档的模型第二层中第j个主题的比例系数,中K2个元素满足:
4.如权利要求3所述的一种基于变分自编码模型的文本深度特征提取方法,其特征在于,在步骤3中,所述建立好的推理子模型,其得到子步骤为:
3.1设定第一层全连接神经网络包含H个节点,输入第n篇输入文档的词袋向量xn之后,得到第一层全连接神经网络隐含层特征向量h1,h1是维度为H的向量,
表示第一层全连接神经网络隐含层特征向量h1中第个元素,第一层全连接神经网络的具体实现为:
h1=σ(W1 Txn+b1)
其中,W1表示第一层全连接神经网络的网络权重,b1表示第一层全连接神经网络的偏置,σ表示非线性激活函数,上标T表示转置操作;
设定第二层全连接神经网络包含H个节点,输入第一层全连接神经网络隐含层特征向量h1之后,得到第二层全连接神经网络隐含层特征向量h2 表示第二层全连接神经网络隐含层特征向量h2中第个元素,h2是维度为H的向量;第二层全连接神经网络的具体实现为:
其中,W2表示第二层全连接神经网络的网络权重,b2表示第二层全连接神经网络的偏置;
设定第三层全连接神经网络包含K个节点,输入第一层全连接神经网络隐含层特征向量h1之后,得到第三层全连接神经网络隐含层特征向量k1,k1=[k1 (1),k1 (2),...,k1 (n'),...,k1 (K)],k1 (n')表示第三层全连接神经网络隐含层特征向量k1中第个元素,n'=1,2,…,K,k1是维度为K的向量;第三层全连接神经网络的具体实现为:
其中,W3表示第三层全连接神经网络的网络权重,b3表示第三层全连接神经网络的偏置;
设定第四层全连接神经网络包含L个节点,输入第一层全连接神经网络隐含层特征向量h1之后,得到第四层全连接神经网络隐含层特征向量l1,l1是维度为L的向量,l1=[l1 (1),l1 (2),...,l1 (n”),...,l1 (L)],n”=1,2,…,L,l1 (n”)表示第四层全连接神经网络隐含层特征向量l1中第n”个元素;第四层全连接神经网络的具体实现:
其中,W4表示第四层全连接神经网络的网络权重,b4表示第四层全连接神经网络的偏置;
设定第五层全连接神经网络包含K个节点,输入第二层全连接神经网络隐含层特征向量h2之后,得到第五层全连接神经网络隐含层特征向量k2,k2=[k2 (1),k2 (2),...,k2 (n'),...,k2 (K)],k2 (n')表示第五层全连接神经网络隐含层特征向量k2中第n'个元素,k2是维度为K的向量;第五层全连接神经网络的具体实现为:
其中,W5表示第五层全连接神经网络的网络权重,b5表示第五层全连接神经网络的偏置;
设定第六层全连接神经网络包含L个节点,输入第二层全连接神经网络隐含层特征向量h2之后,得到第六层全连接神经网络隐含层特征向量l2 表示第六层全连接神经网络隐含层特征向量l2中第n'个元素,l2是维度为L的向量;第六层全连接神经网络的具体实现为:
其中,W6表示第六层全连接神经网络的网络权重,b6表示第六层全连接神经网络的偏置,σ表示非线性激活函数;
经过上述构建之后,得到建立好的推理子模型,所述建立好的推理子模型总结为k1(xn),k2(xn),l1(xn),l2(xn),其中k1(xn)表示从第n篇输入文档的词袋向量xn到k1的映射,k2(xn)表示从第n篇输入文档的词袋向量xn到k2的映射,l1(xn)表示从第n篇输入文档的词袋向量xn到l1的映射,l2(xn)表示从第n篇输入文档的词袋向量xn到l2的映射;
3.2从标准高斯分布N(0,1)中采样出随机噪声∈,然后对建立好的推理子模型进行采样操作,得到的近似后验分布采样的近似后验分布采样其采样公式如下:
其中,Uniform表示正态分布;
3.3根据建立好的推理子模型,以及的近似后验分布采样的近似后验分布采样计算得到当前变分下界L',其过程如下:
其中,xn表示第n篇输入文档的词袋向量,表示第n篇输入文档的词袋向量xn的似然概率, 表示的先验概率, 表示的近似后验分布, 表示的近似后验分布,
表示的先验概率,
3.4使用当前变分下界L',利用基于随机梯度下降算法对模型进行训练,得到训练好的模型。
5.如权利要求4所述的一种基于变分自编码模型的文本深度特征提取方法,其特征在于,在步骤4中,所述测试数据第一层主题的M个关键词和测试数据第二层主题的M个关键词,其得到过程为:
输入测试数据Xtext,并使用前向算法前向运行建立好的推理子模型后,得到k'1(Xtext)表示从测试数据Xtext到k'1的映射,k'2(Xtext)表示从测试数据Xtext到k'2的映射,l'1(Xtext)表示从测试数据Xtext到l'1的映射,l'2(Xtext)表示从测试数据Xtext到l'2的映射;其中,k'1表示建立好的推理子模型中第三层全连接神经网络隐含层特征向量,k'2表示建立好的推理子模型中第二层全连接神经网络隐含层特征向量,l'1表示建立好的推理子模型中第四层全连接神经网络隐含层特征向量,l'2表示建立好的推理子模型中第六层全连接神经网络隐含层特征向量;
然后从标准高斯分布N(0,1)中采样出随机噪声∈,然后对建立好的推理子模型进行采样操作,得到测试数据Xtext在训练好的模型第一层的近似后验分布采样θ(1)*和测试数据Xtext在训练好的模型第二层的近似后验分布采样θ(2)*,其采样公式如下:
计算测试数据Xtext的模型第一层主题T1=Φ(1)θ(1)*,其中Φ(1)表示模型第一层的主题矩阵,是一个D×K1的矩阵,θ(1)*是一个维度为K1的向量,所以T1是维度为D的向量,T1=[T1 (1),T1 (2),...T1 (i),...,T1 (D)],其中T1 (i)表示词典D*中第i个单词在模型第一层出现的概率;测试数据Xtext的最终模型第一层主题可以由表示为在测试数据Xtext的模型第一层主题T1中选取概率值最大的M个元素,作为测试数据第一层主题的M个关键词;
计算测试数据Xtext的模型第二层主题T2=Φ(1)Φ(2)θ(2)*,Φ(2)表示模型第二层的主题矩阵,是一个K1×K2的矩阵;θ(2)*是一个维度为K2的向量,所以T2是一个维度为D的向量,T2=[T2 (1),T2 (2),...,T2 (i),...,T2 (D)],T2 (i)表示词典D*中第i个单词在模型第二层出现的概率;测试数据Xtext的最终模型第二层主题可以由表示为在测试数据Xtext的模型第二层主题T2中选取概率值最大的M个元素,作为测试数据第二层主题的M个关键词,M<D。
CN201810758180.8A 2018-07-11 2018-07-11 基于变分自编码模型的文本深度特征提取方法 Pending CN109145288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810758180.8A CN109145288A (zh) 2018-07-11 2018-07-11 基于变分自编码模型的文本深度特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810758180.8A CN109145288A (zh) 2018-07-11 2018-07-11 基于变分自编码模型的文本深度特征提取方法

Publications (1)

Publication Number Publication Date
CN109145288A true CN109145288A (zh) 2019-01-04

Family

ID=64800121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810758180.8A Pending CN109145288A (zh) 2018-07-11 2018-07-11 基于变分自编码模型的文本深度特征提取方法

Country Status (1)

Country Link
CN (1) CN109145288A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783645A (zh) * 2019-01-23 2019-05-21 福州大学 一种基于变分自编码的文本分类方法
CN109918477A (zh) * 2019-02-18 2019-06-21 华南理工大学 一种基于变分自编码器的分布式检索资源库选择方法
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN111159279A (zh) * 2019-12-31 2020-05-15 联想(北京)有限公司 一种模型可视化方法、设备及存储介质
CN111444328A (zh) * 2020-05-06 2020-07-24 南京大学 一种带有解释生成的自然语言自动预测推断方法
WO2020215560A1 (zh) * 2019-04-26 2020-10-29 平安科技(深圳)有限公司 自编码神经网络处理方法、装置、计算机设备及存储介质
CN116741334A (zh) * 2023-08-14 2023-09-12 四川互慧软件有限公司 一种基于神经网络预测模型的用药监测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473309A (zh) * 2013-09-10 2013-12-25 浙江大学 一种基于概率单词选择和监督主题模型的文本分类方法
CN104991891A (zh) * 2015-07-28 2015-10-21 北京大学 一种短文本特征提取方法
US20160171391A1 (en) * 2010-12-06 2016-06-16 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160171391A1 (en) * 2010-12-06 2016-06-16 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
CN103473309A (zh) * 2013-09-10 2013-12-25 浙江大学 一种基于概率单词选择和监督主题模型的文本分类方法
CN104991891A (zh) * 2015-07-28 2015-10-21 北京大学 一种短文本特征提取方法
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAO ZHANG等: "WHAI: WEIBULL HYBRID AUTOENCODING INFERENCE FOR DEEP TOPIC MODELING", 《ICLR 2018》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783645A (zh) * 2019-01-23 2019-05-21 福州大学 一种基于变分自编码的文本分类方法
CN109918477A (zh) * 2019-02-18 2019-06-21 华南理工大学 一种基于变分自编码器的分布式检索资源库选择方法
CN109918477B (zh) * 2019-02-18 2021-02-12 华南理工大学 一种基于变分自编码器的分布式检索资源库选择方法
WO2020215560A1 (zh) * 2019-04-26 2020-10-29 平安科技(深圳)有限公司 自编码神经网络处理方法、装置、计算机设备及存储介质
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN111159279A (zh) * 2019-12-31 2020-05-15 联想(北京)有限公司 一种模型可视化方法、设备及存储介质
CN111159279B (zh) * 2019-12-31 2024-04-26 联想(北京)有限公司 一种模型可视化方法、设备及存储介质
CN111444328A (zh) * 2020-05-06 2020-07-24 南京大学 一种带有解释生成的自然语言自动预测推断方法
CN116741334A (zh) * 2023-08-14 2023-09-12 四川互慧软件有限公司 一种基于神经网络预测模型的用药监测方法

Similar Documents

Publication Publication Date Title
CN109145288A (zh) 基于变分自编码模型的文本深度特征提取方法
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN109492157B (zh) 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN111767741B (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN106815297A (zh) 一种学术资源推荐服务系统与方法
CN106570148A (zh) 一种基于卷积神经网络的属性抽取方法
CN105138665B (zh) 一种基于改进lda模型的互联网话题在线挖掘方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN108038205A (zh) 针对中文微博的观点分析原型系统
CN106649272A (zh) 一种基于混合模型的命名实体识别方法
CN106598950A (zh) 一种基于混合层叠模型的命名实体识别方法
CN109816438B (zh) 信息推送方法及装置
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN111143547B (zh) 一种基于知识图谱的大数据显示方法
CN111831802A (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN107369098A (zh) 社交网络中数据的处理方法和装置
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN109033320A (zh) 一种双语新闻聚合方法及系统
CN108170678A (zh) 一种文本实体抽取方法与系统
CN105677828A (zh) 基于大数据的用户信息处理方法
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
Habbat et al. Topic modeling and sentiment analysis with lda and nmf on moroccan tweets
CN112529415B (zh) 基于组合多感受野图神经网络的物品评分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190104