CN107729393A - 基于混合自动编码器深度学习的文本分类方法及系统 - Google Patents

基于混合自动编码器深度学习的文本分类方法及系统 Download PDF

Info

Publication number
CN107729393A
CN107729393A CN201710852894.0A CN201710852894A CN107729393A CN 107729393 A CN107729393 A CN 107729393A CN 201710852894 A CN201710852894 A CN 201710852894A CN 107729393 A CN107729393 A CN 107729393A
Authority
CN
China
Prior art keywords
autocoder
mixing
text data
hidden layer
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710852894.0A
Other languages
English (en)
Inventor
杨振宇
靖慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201710852894.0A priority Critical patent/CN107729393A/zh
Publication of CN107729393A publication Critical patent/CN107729393A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于混合自动编码器深度学习的文本分类方法及系统,该方法是一种将稀疏受限玻尔兹曼机SRBM和收缩自动编码器CAE结合形成混合自动编码器训练模型的方法,将收缩自动编码器CAE鲁棒性的特征提取优点以及稀疏受限玻尔兹曼机SRBM稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,降低特征空间的维度,使用无监督逐层贪婪学习算法对模型进行训练,更新参数时加入Polyak Averaging加快参数收敛速度,反向传播BP算法对模型进行微调,最后通过支持向量机SVM分类,实现了降低文本特征维度,提高文本分类的准确率。

Description

基于混合自动编码器深度学习的文本分类方法及系统
技术领域
本发明属于数据分类处理的技术领域,尤其是涉及一种基于混合自动编码器深度学习的文本分类方法及系统。
背景技术
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望能从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。然而,针对海量数据,特征高维性给文本分类带来诸多问题,无法满足人们对获取有用知识的需求。
深度学习,是一种无监督的特征学习和特征层次结构学习方法,无监督学习方法一般是通过重构原始输入数据来实现特征提取的特征学习方法,近几年来在机器学习领域比较热门。其本质是通过使用大量的训练数据以及构建出含多个隐藏层的网络结构模型,从而去学习更加抽象的高级特征。
在深度学习中,自动编码器是一种重要的训练模型,在机器学习的预测和识别领域成就显著,具有良好的特征学习能力,显著降低特征维度,已经有较多的研究学者做了关于自动编码器分类的实验。其中,Ranzato等人使用一种稀疏性的约束方式对特征进行表达,通过数据的稀疏性来限制输入数据并只选取其中最关键的部分。Benjio通过综合已经有的深度网络结构,提出了将自动编码器堆叠起来构造深度网络的方法。Salah在对升维和降维添加了约束条件,最终提出了压缩自动编码器(CAE)。
但是,目前随着数据量急剧增多,海量数据的特征高维性和稀疏性成为文本分类的两大难点,在使用分类算法时带来了两个问题:
一、在训练与分类时间上带来很大的开销;
二、过多的特征往往会导致人们常说的“维数灾难”问题,高维问题导致提取出来的特征不够准确,降低分类的准确度。
在文本分类中,传统的建模方法包括:堆叠、预训练、微调,已经相对比较落后单一,不能准确的提取出特征,在做实验研究时不能得到令人满意的训练结果。中国专利文献CN 104866573A公开了一种文本分类的方法,在特征项提取中提出了针对传统的TFIDF算法的不足,结合特征词权重对文本分类的实际影响,对传统TFIDF算法公式进行修改,剔除干扰特征性在内间的影响,同时加入了类内离散度的概念,实现了文本分类精确度的要求。虽然提高文本分类的精确度,但是仍无法解决文本分类中存在的因海量数据的特征高维性和稀疏性造成的分类时间长、准确度低的问题。
综上所述,针对现有技术中的文本分类中存在的因海量数据的特征高维性和稀疏性造成的分类时间长、准确度低的问题,尚缺乏有效的解决方案。
发明内容
针对现有技术中存在的不足,本发明提供了一种基于混合自动编码器深度学习的文本分类方法及系统,将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中提出一种混合自动编码器训练模型,该训练模型将收缩自动编码器鲁棒性的特征提取优点和SRBM稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。
本发明的第一目的是提供一种基于混合自动编码器深度学习的文本分类方法。
为了实现上述目的,本发明采用如下一种技术方案:
一种基于混合自动编码器深度学习的文本分类方法,该方法包括:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
在本发明中,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成,将收缩自动编码器鲁棒性的特征提取优点和SRBM稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。
作为进一步的优选方案,获取的文本数据为带标签的文本数据,将获取的文本数据形成带标签的文本数据集;
和/或直接获取带标签的文本数据集。
作为进一步的优选方案,在该方法中,所述预处理的具体步骤为:
提取带标签的文本数据集中的关键词;
将带标签的文本数据集进行分词,并去除停用词;
计算带标签的文本数据集中的各个关键词的权重,并将不重要的词语进行过滤。
作为进一步的优选方案,权重计算采用TFIDF算法或改进后的TFIDF算法。
在本发明中,改进的TFIDF算法的精确度要高于传统的TFIDF算法,而且具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。
作为进一步的优选方案,所述混合自动编码器训练模型包括:输入层、第一隐含层、第二隐含层和输出层;
所述第一隐含层采用CAE层,输入层与所述第一隐含层的CAE层构成CAE自动编码器网络,输入层为CAE自动编码器网络的可视层,CAE层为CAE自动编码器网络的隐藏层;
所述第二隐含层采用SRBM层,所述第一隐含层的CAE层与所述第二隐含层的SRBM层构成SRBM网络,CAE层为SRBM网络的可视层,SRBM层为SRBM网络的隐藏层。
作为进一步的优选方案,所述特征学习采用无监督逐层贪婪训练算法对所述混合自动编码器训练模型进行处理,特征学习的具体步骤为:
输入层获取预处理后的带标签的文本数据集;
根据接收输入层的数据,计算第一隐含层的重构误差,迭代训练第一隐含层,得到第一隐含层参数和第一特征向量;
将第一隐含层输出作为第二隐含层输入,计算第二隐含层的重构误差,迭代训练第二隐含层,得到第二隐含层参数和第二特征向量;
第二隐含层输出作为输出层输入,最终经由输出层输出。
作为进一步的优选方案,在迭代训练第一隐含层时,采用Polyak Averaging进行隐含层参数的调整,直至第一隐含层的重构误差小于预先设置的第一重构误差阈值;
迭代训练第二隐含层时,采用Polyak Averaging进行隐含层参数的调整,直至第二隐含层的重构误差小于预先设置的第一重构误差阈值;
作为进一步的优选方案,所述Polyak Averaging为:
θk=θk-1+ηθk
其中,η为标量学习率,θ为隐含层参数,即训练网络的参数结合{w,a,b},w为混合网络模型权重矩阵,a为可视层的偏置矩阵,b为隐藏层的偏置矩阵,k为迭代次数, 为θi在k次迭代下的平均值。
在本发明中,在迭代训练第一隐含层和第二隐含层时,使用Polyak Averaging进行参数调整,有效加快参数收敛速度,且通过前后参数的平均化计算,有效消除相邻的两个参数之间因相差过大引起的波动现象;且Polyak Averaging在进行参数调整时仅进行了两次简单的加法运算,不会影响所述混合自动编码器训练模型在训练时间上的开销。
作为进一步的优选方案,
采用反向传播BP算法对所述混合自动编码器训练模型进行微调,直至所述混合自动编码器训练模型网络整体代价函数小于预先设置的第二重构误差阈值。
作为进一步的优选方案,将特征学习后的文本数据进行特征分类的具体步骤为:
将所述混合自动编码器训练模型的输出第二隐含层参数和原始带标签的文本数据集中的数据标签输入支持向量机SVM分类器,并训练支持向量机SVM分类器,进行文本分类。
本发明的第二目的是提供一种计算机可读存储介质。
为了实现上述目的,本发明采用如下一种技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备设备的处理器加载并执行以下处理:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
本发明的第三目的是提供一种终端设备。
为了实现上述目的,本发明采用如下一种技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
本发明的有益效果:
1、本发明所述的一种基于混合自动编码器深度学习的文本分类方法及系统,将SRBM加入到CAE网络中,特征学习效果理想,实现了高维数据的降维作用,并且能够提取更加准确的特征,提高了分类精度,能够满足人们的需求,有着较好的实用性。
2、本发明所述的一种基于混合自动编码器深度学习的文本分类方法及系统,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成,将收缩自动编码器鲁棒性的特征提取优点和SRBM稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。
3、本发明所述的一种基于混合自动编码器深度学习的文本分类方法及系统,改进的TFIDF算法的精确度要高于传统的TFIDF算法,而且具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。
4、本发明所述的一种基于混合自动编码器深度学习的文本分类方法及系统,在迭代训练第一隐含层和第二隐含层时,使用Polyak Averaging进行参数调整,有效加快参数收敛速度,且通过前后参数的平均化计算,有效消除相邻的两个参数之间因相差过大引起的波动现象;且Polyak Averaging在进行参数调整时仅进行了两次简单的加法运算,不会影响所述混合自动编码器训练模型在训练时间上的开销。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明中的方法流程图;
图2为本发明中的混合自动编码器训练模型示意图;
图3是本发明中的隐含层模型示意图;
图4是本发明中的分类结果准确率示意图;
图5是本发明中的F1评估值示意图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1:
本实施例1的目的是提供一种基于混合自动编码器深度学习的文本分类方法。具体的是一种将稀疏受限玻尔兹曼机SRBM和收缩自动编码器CAE结合形成混合自动编码器训练模型的方法,将收缩自动编码器CAE鲁棒性的特征提取优点以及稀疏受限玻尔兹曼机SRBM稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,使用无监督逐层贪婪学习算法对模型进行训练,更新参数时加入Polyak Averaging加快参数收敛速度,反向传播BP算法对模型进行微调,最后通过支持向量机SVM分类,实现了对分类数据分类精度的要求。
一种基于混合自动编码器深度学习的文本分类方法,如图1所示,
该方法包括:
步骤(1):获取文本数据,进行预处理;
在步骤(1)中,获取的文本数据为带标签的文本数据,将获取的文本数据形成带标签的文本数据集;
和/或直接获取带标签的文本数据集。
在本实施例中,选用搜狗新闻分类语料库,选取里面的汽车、文化、经济、教育、IT和医疗六种新闻文本集,每类文本集有7990个文本,每个文本大小都不一样,都大于1KB,每类随机选取4000个文本训练,每类再随机选取2000个文本测试。
在步骤(1)中,预处理的具体步骤为:
步骤(1-1):提取带标签的文本数据集中的关键词;
步骤(1-2):将带标签的文本数据集进行分词,并去除停用词;
步骤(1-3):计算带标签的文本数据集中的各个关键词的权重,并将不重要的词语进行过滤。
其中,算带标签的文本数据集中的各个关键词的权重采用改进后的TFIDF算法。改进的TFIDF算法的精确度要高于传统的TFIDF算法,而且具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。
在本实施例中,混合自动编码器训练模型中第一隐含层和第二隐含层的学习率均设置为learning_rate=0.01,CAE的压缩率contraction_level=0.1,CAE层和SRBM层的第一重构误差阈值设置为threshold1=0.2,反向传播BP算法调整参数时的第二重构误差阈值设置为threshold2=0.002,反向传播BP算法微调次数为300,输出神经元的个数为6,使用Python实现。
如图2所示,混合自动编码器训练模型包括:输入层、第一隐含层、第二隐含层和输出层;
在本实施例中选择2个隐含层,既能体现文本提出的混合自动编码器模型,又能使网络的特征学习不那么复杂。
如图3所示,
所述第一隐含层采用CAE层,输入层与所述第一隐含层的CAE层构成CAE自动编码器网络,输入层为CAE自动编码器网络的可视层,CAE层为CAE自动编码器网络的隐藏层;
所述第二隐含层采用SRBM层,所述第一隐含层的CAE层与所述第二隐含层的SRBM层构成SRBM网络,CAE层为SRBM网络的可视层,SRBM层为SRBM网络的隐藏层。
收缩自动编码器CAE是自编码器AE的一个变种,它的重构误差函数是在AE的重构误差上增添新的惩罚项——编码激活函数对于输入数据的雅克比矩阵(Jacobian matrix)的Frobenius范数,在训练样本中惩罚项使特征空间映射是紧缩的,且能够鲁棒性的获取到中间特征,降低特征空间的维度;将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中,稀疏受限玻尔兹曼机SRBM是在原来RBM求解对数似然函数上加上一种基于误差平方和的稀疏惩罚项来调节隐含层的稀疏性,将收缩自动编码器CAE鲁棒性的特征提取优点和稀疏受限玻尔兹曼机SRBM稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力。
步骤(2):预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
在步骤(2)中,所述特征学习采用无监督逐层贪婪训练算法对所述混合自动编码器训练模型进行处理,特征学习的具体步骤为:
步骤(2-1):输入层获取预处理后的带标签的文本数据集;
步骤(2-2):根据接收输入层的数据,计算第一隐含层的重构误差Ei(i为可视层第i个可视单元),迭代训练第一隐含层,进行隐含层参数的调整时加入Polyak Averaging,直至第一隐含层的重构误差Ei小于预先设置的第一重构误差阈值threshold1;得到第一隐含层参数θ1和第一特征向量h1
步骤(2-3):将第一特征向量h1作为第二层隐含层SRBM层的输入,计算第二隐含层的重构误差Ei(i为可视层第i个可视单元),迭代训练第二隐含层,进行隐含层参数的调整时加入Polyak Averaging,直至第二隐含层的重构误差Ei小于预先设置的第一重构误差阈值threshold1;得到第二隐含层参数θ2和第二特征向量h2
步骤(2-4):第二隐含层输出第二隐含层参数θ2作为输出层输入,最终经由输出层输出第二隐含层参数θ2
Polyak Averaging为:
θk=θk-1+ηθk
其中,η为标量学习率,θ为隐含层参数,即训练网络的参数结合{w,a,b},w为混合网络模型权重矩阵,a为可视层的偏置矩阵,b为隐藏层的偏置矩阵,k为迭代次数, 为θi在k次迭代下的平均值。
在本发明中,在迭代训练第一隐含层和第二隐含层时,使用Polyak Averaging进行参数调整,有效加快参数收敛速度,且通过前后参数的平均化计算,有效消除相邻的两个参数之间因相差过大引起的波动现象;且Polyak Averaging在进行参数调整时仅进行了两次简单的加法运算,不会影响所述混合自动编码器训练模型在训练时间上的开销。
步骤(2-5):采用反向传播BP算法对所述混合自动编码器训练模型进行微调,直至所述混合自动编码器训练模型网络整体代价函数小于预先设置的第二重构误差阈值threshold2。
步骤(3):将特征学习后的文本数据进行特征分类。
将特征学习后的文本数据进行特征分类的具体步骤为:
步骤(3-1):将所述混合自动编码器训练模型的输出第二隐含层参数和原始带标签的文本数据集中的数据标签输入支持向量机SVM分类器;
步骤(3-2):训练支持向量机SVM分类器,进行文本分类。
在本实施例中,为评价分类结果,验证本实施例提出的混合自动编码器训练模型良好的特征学习能力,采用F1评估值和准确率Precision(P)来评价分类效果,R为召回率(Recall Rate),公式如下:
p=分类正确的分本数/实际分类的文本数×100%
R=分类正确的分本数/应有的文本数×100%
F1=2PR/(P+R)×100%。
对比例:
混合自动编码器训练模型中第一个隐含层为CAE层,分别比较第二个隐含层为CAE层和SRBM层的节点数对分类准确率的影响,如图4所示,
随着SRBM隐含层节点数的增加,分类准确率也在提高,隐含层个数在700左右时,测试文本数据分类的准确率达到最高,接近于92%,通过图4还可以看出混合模型的特征学习能力比单一的堆叠两层CAE的特征学习能力要好。
比较两种不同的训练模型(堆叠两层CAE网络和本实施例混合模型网络)训练文本并提取特征,比较在迭代次数为10、40和100时的网络训练收敛时间,如表1所示(单位:min):
表1
为加快网络的收敛时间,在两种不同的训练模型中分别加入Polyak Averaging,并对比有无Polyak Averaging时的收敛时间。由表1可以看出,本实施例提出的混合模型网络在收敛时长上比堆叠两层的CAE要少,加入Polyak Averaging算法加快了网络的收敛时间。
比较采用堆叠两层CAE网络和本实施例提出的混合模型网络训练模型的F1评估值。经本实施例提出的混合模型训练之后,分类效果是最好的,F1评估值接近于95%,如图5所示。
由对比例可知,单一的将某一种自动编码器堆叠起来进行特征学习,往往不能达到预期的训练效果包括网络训练时间和参数收敛情况,本实施例将SRBM加入到CAE网络中,将不同的特征学习方式结合在一起,发挥两者的优势,尝试达到预期的学习效果。
实施例2:
本实施例2的目的是提供一种计算机可读存储介质。
为了实现上述目的,本发明采用如下一种技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备设备的处理器加载并执行以下处理:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
在本实施例中,计算机可读记录介质的例子包括磁存储介质(例如,ROM,RAM,USB,软盘,硬盘等)、光学记录介质(例如,CD-ROM或DVD)、PC接口(例如,PCI、PCI-Expres、WiFi等)等。然而,本公开的各个方面不限于此。
实施例3:
本实施例3的目的是提供一种终端设备。
为了实现上述目的,本发明采用如下一种技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
本发明的有益效果:
1、本发明所述的种基于混合自动编码器深度学习的文本分类方法及系统,将SRBM加入到CAE网络中,特征学习效果理想,实现了高维数据的降维作用,并且能够提取更加准确的特征,提高了分类精度,能够满足人们的需求,有着较好的实用性。
2、本发明所述的种基于混合自动编码器深度学习的文本分类方法及系统,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成,将收缩自动编码器鲁棒性的特征提取优点和SRBM稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。
3、本发明所述的种基于混合自动编码器深度学习的文本分类方法及系统,改进的TFIDF算法的精确度要高于传统的TFIDF算法,而且具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。
4、本发明所述的种基于混合自动编码器深度学习的文本分类方法及系统,在迭代训练第一隐含层和第二隐含层时,使用Polyak Averaging进行参数调整,有效加快参数收敛速度,且通过前后参数的平均化计算,有效消除相邻的两个参数之间因相差过大引起的波动现象;且Polyak Averaging在进行参数调整时仅进行了两次简单的加法运算,不会影响所述混合自动编码器训练模型在训练时间上的开销。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于混合自动编码器深度学习的文本分类方法,其特征在于,该方法包括:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
2.如权利要求1所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,获取的文本数据为带标签的文本数据,将获取的文本数据形成带标签的文本数据集;
和/或直接获取带标签的文本数据集。
3.如权利要求2所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,在该方法中,所述预处理的具体步骤为:
提取带标签的文本数据集中的关键词;
将带标签的文本数据集进行分词,并去除停用词;
计算带标签的文本数据集中的各个关键词的权重,并将不重要的词语进行过滤;
所述权重的计算采用TFIDF算法或改进后的TFIDF算法。
4.如权利要求3所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,所述混合自动编码器训练模型包括:
输入层、第一隐含层、第二隐含层和输出层;
所述第一隐含层采用CAE层,输入层与所述第一隐含层的CAE层构成CAE自动编码器网络,输入层为CAE自动编码器网络的可视层,CAE层为CAE自动编码器网络的隐藏层;
所述第二隐含层采用SRBM层,所述第一隐含层的CAE层与所述第二隐含层的SRBM层构成SRBM网络,CAE层为SRBM网络的可视层,SRBM层为SRBM网络的隐藏层。
5.如权利要求4所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,所述特征学习采用无监督逐层贪婪训练算法对所述混合自动编码器训练模型进行处理,特征学习的具体步骤为:
输入层获取预处理后的带标签的文本数据集;
根据接收输入层的数据,计算第一隐含层的重构误差,迭代训练第一隐含层,得到第一隐含层参数和第一特征向量;
将第一隐含层输出作为第二隐含层输入,计算第二隐含层的重构误差,迭代训练第二隐含层,得到第二隐含层参数和第二特征向量;
第二隐含层输出作为输出层输入,最终经由输出层输出。
6.如权利要求5所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,在迭代训练第一隐含层时,采用Polyak Averaging进行隐含层参数的调整,直至第一隐含层的重构误差小于预先设置的第一重构误差阈值;
迭代训练第二隐含层时,采用Polyak Averaging进行隐含层参数的调整,直至第二隐含层的重构误差小于预先设置的第一重构误差阈值;
所述Polyak Averaging为:
θk=θk-1+ηθk
<mrow> <msup> <mover> <mi>&amp;theta;</mi> <mo>&amp;OverBar;</mo> </mover> <mi>k</mi> </msup> <mo>=</mo> <msup> <mover> <mi>&amp;theta;</mi> <mo>&amp;OverBar;</mo> </mover> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <mrow> <mo>(</mo> <msup> <mover> <mi>&amp;theta;</mi> <mo>&amp;OverBar;</mo> </mover> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <msup> <mi>&amp;theta;</mi> <mi>k</mi> </msup> <mo>)</mo> </mrow> </mrow>
<mrow> <msup> <mi>&amp;theta;</mi> <mi>k</mi> </msup> <mo>=</mo> <msup> <mover> <mi>&amp;theta;</mi> <mo>&amp;OverBar;</mo> </mover> <mi>k</mi> </msup> </mrow>
其中,η为标量学习率,θ为隐含层参数,即训练网络的参数结合{w,a,b},w为混合网络模型权重矩阵,a为可视层的偏置矩阵,b为隐藏层的偏置矩阵,k为迭代次数, 为θi在k次迭代下的平均值。
7.如权利要求5所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,采用反向传播BP算法对所述混合自动编码器训练模型进行微调,直至所述混合自动编码器训练模型网络整体代价函数小于预先设置的第二重构误差阈值。
8.如权利要求6所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,将特征学习后的文本数据进行特征分类的具体步骤为:
将所述混合自动编码器训练模型的输出第二隐含层参数和原始带标签的文本数据集中的数据标签输入支持向量机SVM分类器,并训练支持向量机SVM分类器,进行文本分类。
9.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备设备的处理器加载并执行以下处理:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
10.一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行以下处理:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
CN201710852894.0A 2017-09-20 2017-09-20 基于混合自动编码器深度学习的文本分类方法及系统 Pending CN107729393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710852894.0A CN107729393A (zh) 2017-09-20 2017-09-20 基于混合自动编码器深度学习的文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710852894.0A CN107729393A (zh) 2017-09-20 2017-09-20 基于混合自动编码器深度学习的文本分类方法及系统

Publications (1)

Publication Number Publication Date
CN107729393A true CN107729393A (zh) 2018-02-23

Family

ID=61207732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710852894.0A Pending CN107729393A (zh) 2017-09-20 2017-09-20 基于混合自动编码器深度学习的文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN107729393A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108592812A (zh) * 2018-05-10 2018-09-28 电子科技大学 风机叶片光纤载荷应变特征提取及裂纹监测方法
CN109829054A (zh) * 2019-01-17 2019-05-31 齐鲁工业大学 一种文本分类方法及系统
CN110895705A (zh) * 2018-09-13 2020-03-20 富士通株式会社 异常样本检测装置及其训练装置和训练方法
CN111126468A (zh) * 2019-12-17 2020-05-08 中国人民解放军战略支援部队信息工程大学 云计算环境下的特征降维方法、异常检测方法及装置
CN111241982A (zh) * 2020-01-07 2020-06-05 金陵科技学院 一种基于cae-svm的机器人手势识别方法
CN111504680A (zh) * 2020-04-30 2020-08-07 东华大学 一种基于wsvm和dcae的涤纶长丝生产的故障诊断方法和系统
CN111553297A (zh) * 2020-05-06 2020-08-18 东华大学 一种基于2d-cnn和dbn的涤纶长丝生产故障诊断方法和系统
CN111584069A (zh) * 2020-05-07 2020-08-25 成都兰途网络科技有限公司 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203625A (zh) * 2016-06-29 2016-12-07 中国电子科技集团公司第二十八研究所 一种基于多重预训练的深层神经网络训练方法
KR101715118B1 (ko) * 2016-10-26 2017-03-10 가천대학교 산학협력단 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203625A (zh) * 2016-06-29 2016-12-07 中国电子科技集团公司第二十八研究所 一种基于多重预训练的深层神经网络训练方法
KR101715118B1 (ko) * 2016-10-26 2017-03-10 가천대학교 산학협력단 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
丁文秀 等: "《基于分层深度学习的鲁棒行人分类》", 《光电工程》 *
张艳霞: "《基于受限玻尔兹曼机的深度学习模型及其应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
胡振 等: "《基于深度学习的作曲家分类问题》", 《计算机研究与发展》 *
靖慧 等: "《基于改进的TFIDF 和压缩自动编码器文本分类研究》", 《齐鲁工业大学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108592812B (zh) * 2018-05-10 2019-12-31 电子科技大学 风机叶片光纤载荷应变特征提取及裂纹监测方法
CN108592812A (zh) * 2018-05-10 2018-09-28 电子科技大学 风机叶片光纤载荷应变特征提取及裂纹监测方法
CN110895705A (zh) * 2018-09-13 2020-03-20 富士通株式会社 异常样本检测装置及其训练装置和训练方法
CN110895705B (zh) * 2018-09-13 2024-05-14 富士通株式会社 异常样本检测装置及其训练装置和训练方法
CN109829054A (zh) * 2019-01-17 2019-05-31 齐鲁工业大学 一种文本分类方法及系统
CN111126468B (zh) * 2019-12-17 2023-10-03 中国人民解放军战略支援部队信息工程大学 云计算环境下的特征降维方法、异常检测方法及装置
CN111126468A (zh) * 2019-12-17 2020-05-08 中国人民解放军战略支援部队信息工程大学 云计算环境下的特征降维方法、异常检测方法及装置
CN111241982A (zh) * 2020-01-07 2020-06-05 金陵科技学院 一种基于cae-svm的机器人手势识别方法
CN111504680A (zh) * 2020-04-30 2020-08-07 东华大学 一种基于wsvm和dcae的涤纶长丝生产的故障诊断方法和系统
CN111504680B (zh) * 2020-04-30 2021-03-26 东华大学 一种基于wsvm和dcae的涤纶长丝生产的故障诊断方法和系统
CN111553297B (zh) * 2020-05-06 2022-03-15 东华大学 一种基于2d-cnn和dbn的涤纶长丝生产故障诊断方法和系统
CN111553297A (zh) * 2020-05-06 2020-08-18 东华大学 一种基于2d-cnn和dbn的涤纶长丝生产故障诊断方法和系统
CN111584069B (zh) * 2020-05-07 2023-04-18 成都兰途网络科技有限公司 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统
CN111584069A (zh) * 2020-05-07 2020-08-25 成都兰途网络科技有限公司 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统

Similar Documents

Publication Publication Date Title
CN107729393A (zh) 基于混合自动编码器深度学习的文本分类方法及系统
CN104866578B (zh) 一种不完整物联网数据混合填充方法
CN101587493B (zh) 文本分类方法
CN107229610A (zh) 一种情感数据的分析方法及装置
CN107622272A (zh) 一种图像分类方法及装置
Martone Towards the classification of rank-r $$\mathcal {N} $$= 2 SCFTs. Part I. Twisted partition function and central charge formulae
CN106326288A (zh) 图像搜索方法及装置
CN106815310B (zh) 一种对海量文档集的层次聚类方法及系统
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN104679863A (zh) 一种基于深度学习的以图搜图方法和系统
CN103810264A (zh) 基于特征选择的网页文本分类方法
CN103473556B (zh) 基于拒识子空间的分层支持向量机分类方法
CN105205090A (zh) 基于网页链接分析和支持向量机的网页文本分类算法研究
CN104361059B (zh) 一种基于多示例学习的有害信息识别和网页分类方法
CN102436480B (zh) 一种面向文本的知识单元关联关系挖掘方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN108846120A (zh) 用于对文本集进行分类的方法、系统及存储介质
CN102968410A (zh) 一种基于rbf神经网络算法与语义特征选取的文本分类方法
CN103886108A (zh) 一种不均衡文本集的特征选择和权重计算方法
CN106779053A (zh) 一种基于影响因子和神经网络的知识点摸底方法
CN104298715A (zh) 一种基于tf-idf的多索引结果合并排序方法
CN109766911A (zh) 一种行为预测方法
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180223