CN111274406A

CN111274406A - 一种基于深度学习混合模型的文本分类方法

Info

Publication number: CN111274406A
Application number: CN202010135270.9A
Authority: CN
Inventors: 顾东晓
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2020-06-12

Abstract

本发明属于文本分类领域，具体公开了一种基于深度学习混合模型的文本分类方法，包括获取并导入样本数据，对该样本数据进行预处理；将得到的文本特征随机混合后，再次导入深度学习模型中，进行二次训练；将上述得到的混合训练后的文本特征采用布尔逻辑模型进行特征表示；将上述特征表示导入自动编码器训练模型中构建编码模型，得到导入文本和导出文本之间的隐性特征；将得到的隐性特征表示进行分类；本发明先进行一次深度学习，再次导入深度学习模型中，进行二次训练，在混合自动编码器训练模型的提取下，提取出文本的双向隐形特征，利用深度学习模型对文本特征逐级递进提取，使得文本特征凸显效果好，能够更加快速有效地对文本进行精准分类。

Description

一种基于深度学习混合模型的文本分类方法

技术领域

本发明涉及文本分类领域，具体为一种基于深度学习混合模型的文本分类方法。

背景技术

随着信息科技时代的不断发展，电子文本信息数量迅速增加，意味着大数据时代的来临。所以在此背景下，如何对这些大量的文本信息进行有效的组织与利用变得特别重要。文本分类作为信息检索、数字化图书馆、信息过滤等领域的技术基础，有着很大的应用前景。

深度学习是机器学习的一种，而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

文本分类是处理和组织大量文本数据的关键性技术，可以有效的管理和利用文本信息。目前基于深度学习的文本分类方法多采用单一的深度学习模型进行分类，存在着训练语料要求高和移植性扩展性差，又由于单一深度学习模型提取到特征的局限性，从而导致在分类类别较多情况下分类效果较差。

发明内容

本发明的目的在于提供一种基于深度学习混合模型的文本分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于深度学习混合模型的文本分类方法，包括如下具体步骤：

S1：获取并导入样本数据，对该样本数据进行预处理，具体包括：

S11:将样本数据根据文本类型进行分类；

S12:将分类后的文本两两混合导入深度学习模型中，分别提取得到不同的文本特征；

S2：将上述得到的文本特征随机混合后，再次导入深度学习模型中，进行二次训练，再次提取混合训练后的文本特征；

S3：将上述得到的混合训练后的文本特征采用布尔逻辑模型进行特征表示；

S4：将上述特征表示导入自动编码器训练模型中构建编码模型，得到导入文本和导出文本之间的隐性特征，具体为：

S41：以导入文本作为输入序列，以导出文本作为导入文本的特征，通过编码模型的编码与解码操作得到导入文本的隐特征表示；

S42：以导出文本作为输入序列，以导入文本作为导出文本的特征，通过编码模型的编码与解码操作得到导出文本的隐特征表示；

S5：将上述得到的隐性特征表示采用Softmax回归模型进行分类。

优选的，步骤S1中，所述文本类型包括词性、句子、段落、篇章等。

优选的，所述深度学习模型为卷积神经网络模型或堆栈自编码网络模型。

优选的，所述自动编码器训练模型为降噪自编码器、稀疏自编码器、栈式自编码器中任意两种组合而成的混合自动编码器训练模型。

优选的，所述导入文本为用于输入的关键字。

与现有技术相比，本发明的有益效果是：

本发明将样本数据分类后，交叉混合，先进行一次深度学习，使得提取得到的文本特征具有一定的针对匹配性；再将上述得到的文本特征随机混合后，再次导入深度学习模型中，进行二次训练，再次提取混合训练后的文本特征具有更进一步的筛选特征，在混合自动编码器训练模型的提取下，提取出文本的双向隐形特征，利用深度学习模型对文本特征逐级递进提取，使得文本特征凸显效果好，能够更加快速有效地对文本进行精准分类。

具体实施方式

本发明提供一种技术方案：一种基于深度学习混合模型的文本分类方法，包括如下具体步骤：

S11:将样本数据根据文本类型进行分类；

进一步的，步骤S1中，所述文本类型包括词性、句子、段落、篇章等。

进一步的，所述深度学习模型为卷积神经网络模型或堆栈自编码网络模型。

进一步的，所述自动编码器训练模型为降噪自编码器、稀疏自编码器、栈式自编码器中任意两种组合而成的混合自动编码器训练模型。

进一步的，所述导入文本为用于输入的关键字。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度学习混合模型的文本分类方法，其特征在于，包括如下具体步骤：

S11:将样本数据根据文本类型进行分类；

2.根据权利要求1所述的一种基于深度学习混合模型的文本分类方法，其特征在于：步骤S1中，所述文本类型包括词性、句子、段落、篇章等。

3.根据权利要求1所述的一种基于深度学习混合模型的文本分类方法，其特征在于：所述深度学习模型为卷积神经网络模型或堆栈自编码网络模型。

4.根据权利要求1所述的一种基于深度学习混合模型的文本分类方法，其特征在于：所述自动编码器训练模型为降噪自编码器、稀疏自编码器、栈式自编码器中任意两种组合而成的混合自动编码器训练模型。

5.根据权利要求1所述的一种基于深度学习混合模型的文本分类方法，其特征在于：所述导入文本为用于输入的关键字。