CN110457703B

CN110457703B - 一种基于改进卷积神经网络的文本分类方法、装置和设备

Info

Publication number: CN110457703B
Application number: CN201910740474.2A
Authority: CN
Inventors: 杨祖元; 黄昊楠; 陈禧琛; 李珍妮
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2022-12-30
Anticipated expiration: 2039-08-12
Also published as: CN110457703A

Abstract

本申请实施例公开了一种基于改进卷积神经网络的文本分类方法、装置和设备，包括：将初始矩阵进行下采样、去均值和第一按列重构处理得到数据矩阵；将数据矩阵初始化分解为第一基矩阵和特征矩阵；根据所述第一基矩阵和特征矩阵建立半非负矩阵分解损失函数，利用梯度求解法计算出第二基矩阵；将重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数，将第一层卷积层的卷积核参数与初始矩阵进行卷积得到新的数据矩阵；将所述新的数据矩阵输入分类器进行分类训练，得到分类训练完成后的卷积神经网络模型；将待分类文本数据输入到卷积神经网络模型中进行文本分类。本申请解决了神经网络由于可解释性较差不利于文本分类的技术问题。

Description

一种基于改进卷积神经网络的文本分类方法、装置和设备

技术领域

本申请涉及神经网络技术领域，尤其涉及一种基于改进卷积神经网络的文本分类方法、装置和设备。

背景技术

在网络时代，文本息量每天都在呈指数的增加，对文本数据进行准确的分类在网络系统中有着重要意义，如何对目标文本进行特征处理与正确的分类一直是自然语言处理领域的研究重点。随着深度学习技术在自然语言处理领域的应用发展，利用深度学习算法来解决文本分类任务已成为当前热门的研究方向。

与传统文本分类算法相比，深度学习算法无需复杂的特征提取过程，通过端到端的处理方式简化了特征提取过程，通过反向传播训练网络，使得网络的自适应性较强。利用深度卷积神经网络来处理文本分类数据取得了非常显著的效果提升。

现有的基于卷积神经网络的文本分类方法中，卷积神经网络作为“黑匣子”无法实现对文本数据之间的关联性特征的深层提取，因此，卷积神经网络的不可解释性，不利于卷积神经网络对文本进行分类。

发明内容

本申请提供了一种基于改进卷积神经网络的文本分类方法，解决由于卷积神经网络作为“黑匣子”无法实现对文本数据之间的关联性特征的深层提取，因此，卷积神经网络的不可解释性，不利于卷积神经网络对文本进行分类的技术问题。

本申请第一方面提供了一种基于改进卷积神经网络的文本分类方法，包括：

将预置文本数据集进行预处理得到初始矩阵；

对所述初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵；

将所述数据矩阵初始化分解为第一基矩阵和特征矩阵；

根据由所述第一基矩阵和所述特征矩阵建立的半非负矩阵分解损失函数，利用梯度求解法计算出第二基矩阵；

将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数，所述第一层卷积层的卷积核参数与所述初始矩阵进行卷积得到新的数据矩阵；

将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练，得到分类训练完成后的卷积神经网络模型；

将待分类文本数据输入到所述卷积神经网络模型中进行文本分类。

优选地，预置神经网络包括至少两个卷积层；

下层卷积层的卷积核参数为：对上层卷积层的输出第一按列重构处理后，进行分解，并根据分解结果建立半非负矩阵的损失函数，并利用梯度求解法求解基矩阵，对求解得到的基矩阵进行第二按列重构处理，得到第二按列重构处理后的基矩阵；

所述下层卷积层的输出为：用所述下层卷积层的卷积核参数对所述上层卷积层的输出进行卷积后输出的新的数据矩阵。

优选地，所述将数据矩阵初始化分解为第一基矩阵和特征矩阵，包括：

利用奇异值分解法将数据矩阵初始化分解为第一基矩阵和特征矩阵。

优选地，所述将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练，得到分类训练完成后的卷积神经网络模型，包括：

对所述新的数据矩阵采用哈希编码与直方图统计的方法进行处理，得到所述特征向量。

优选地，所述分类器包括：支持向量机。

本申请第二方面提供了一种基于改进卷积神经网络的文本分类装置，包括：第一预处理模块、第二预处理模块、初始化分解模块、计算模块、卷积模块、训练模块、分类模块；

所述第一预处理模块，用于将预置文本数据及进行预处理得到初始矩阵；

所述第二预处理模块，用于对所述初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵；

所述初始化分解模块，将数据矩阵初始化分解为第一基矩阵和特征矩阵；

所述计算模块，根据所述第一基矩阵和所述特征矩阵建立半非负矩阵分解损失函数，利用梯度求解法计算出第二基矩阵；

所述卷积模块，用于将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数，所述第一层卷积层的卷积核参数与所述初始矩阵进行卷积得到新的数据矩阵；

所述训练模块，用于将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练，得到分类训练完成后的卷积神经网络模型；

所述分类模块，用于将待分类文本数据输入到所述卷积神经网络模型中进行文本分类。

优选地，所述计算模块包括：构建模块、求解模块；

所述构建模块，根据所述第一基矩阵和所述特征矩阵建立半非负矩阵分解损失函数；

所述求解模块，利用根梯度求解法计算出第二基矩阵。

优选地，所述训练模块包括：编码统计模块、训练分类器模块；

所述编码统计模块，用于对所述新的数据矩阵采用哈希编码与直方图统计的方法进行处理，得到所述特征向量；

所述训练分类器模块，将所述特征向量通过分类器进行分类训练，得到分类训练完成后的卷积神经网络模型。

本申请第三方面提出了一种基于改进卷积神经网络的文本分类设备，包括：存储器和处理器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的任一种基于改进卷积神经网络的文本分类方法。

本申请第四方面提出了一种计算机可读存储介质，包括：

所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的任一种基于改进卷积神经网络的文本分类方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种基于改进卷积神经网络的文本分类方法、装置和设备，通过对文本数据进行初步处理得到矩阵数据，用奇异矩阵分解法初始化分解矩阵数据得到初始化后的第一基矩阵以及特征矩阵，用第一基矩阵和特征矩阵建立半非负矩阵分解损失函数，利用梯度求解法得到第二基矩阵，以此作为卷积层中的卷积核，并非传统的卷积核的选取方法，使得卷积神经网络的卷积层的可推导性增强，以此方法调整、训练得到的网络模型对文本的语义以及关联特征的提取更符合个性化需求，将提取的特征输入分类器中分类，从而更有利于对文本进行分类，解决了由于卷积神经网络作为“黑匣子”无法实现对文本数据之间的关联性特征的深层提取，卷积神经网络的不可解释性，不利于卷积神经网络对文本进行分类的技术问题。

同时，本申请通过使用分解矩阵作卷积核参数的方式“解释”网络组成，且没有反向传播带来的较大计算量，使得网络的训练所需的计算量减少，从而训练时间较短，提高了训练效率。

附图说明

图1为本申请提供的一种改进卷积神经网络的文本分类方法的实施例一的流程图；

图2为本申请提供的一种改进卷积神经网络的文本分类方法的实施例二的流程图；

图3为本申请提供的一种改进卷积神经网络的文本分类方法的网络框图；

图4为本申请提供的一种改进卷积神经网络的文本分类装置的实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提出了一种改进卷积神经网络的文本分类方法，将预置文本数据集进行预处理得到初始矩阵；对所述初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵；将所述数据矩阵初始化分解为第一基矩阵和特征矩阵；根据由所述第一基矩阵和所述特征矩阵建立的半非负矩阵分解损失函数，利用梯度求解法计算出第二基矩阵；将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数，所述第一层卷积层的卷积核参数与所述初始矩阵进行卷积得到新的数据矩阵；将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练，得到分类训练完成后的卷积神经网络模型；将待分类文本数据输入到所述卷积神经网络模型中进行文本分类。

需要说明的是，预置文本数据是指用于分类任务的数据集，预处理即对文本数据分词、去停用词、词性标注、将数据集划分为训练集与测试集；然后采用Word2Vec模型将文本数据转化为矩阵，作为为初始矩阵，在对初始矩阵进行下采样之前，需要将网络参数初始化：设定卷积核的大小、代表层卷积核的个数、设定矩阵分解的迭代次数；第一按列重构处理是指将去均值后的矩阵按列重排成矩阵，为分解做准备，第二按列重构处理是指将得到的矩阵单列处理，作为卷积核参数；另外，数据矩阵的初始化是通过奇异值分解法将数据矩阵初始化分解为第一基矩阵和特征矩阵，最后，编码统计是将输出的特征矩阵转化为可输入分类器的特征向量形式。

为了便于理解，请参照图1，本申请提供的一种改进卷积神经网络的文本分类方法的实施例一，包括：

步骤101、将预置文本数据集进行预处理得到初始矩阵。

需要说明的是，预置的文本数据集为本申请中用于分类任务的数据集，预处理过程为：包括分词、去停用词、词性标注、将数据集划分为训练集与测试集；采用Word2Vec模型将文本数据集转化成为初始矩阵，设矩阵个数为n，初始矩阵数据集表示为

其中每个初始矩阵x_i大小为k₁×k₂。

步骤102、对初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵。

需要说明的是，对初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵的过程为：首先，需要对网络参数进行初始化：设定初始卷积核大小p₁×p₂，一层卷积层的卷积核个数R₁，矩阵的迭代次数t；然后，根据所设定的初始化卷积核大小，对初始矩阵进行降采样，得到数据为

其中，

另外，将得到的数据按列去均值，并将单个数据

依据第一按列列重构处理成列向量，组成数据矩阵V∈R^a×b，其中，a＝p₁×p₂，b＝n×k₁×k₂。

步骤103、将数据矩阵初始化分解为第一基矩阵和特征矩阵。

需要说明的是，根据奇异值分解法将数据矩阵V∈R^a×b初始化分解为第一基矩阵W₁∈R^a×r和特征矩阵H∈R^r×b，其中维度r为卷积核个数R_l。

步骤104、根据由第一基矩阵和特征矩阵建立的半非负矩阵分解损失函数，利用梯度求解法计算出第二基矩阵。

需要说明的是，首先，根据第一基矩阵W₁∈R^a×r和特征矩阵H∈R^r×b建立半非负矩阵分解公式：

V^±≈W₁ ^±H⁺

其中矩阵V、W₁中元素可以为正负，矩阵H中元素只能为正。

然后，根据半非负矩阵建立半非负矩阵分解损失函数，得到半非负矩阵分解损失函数公式：

根据梯度求导法，求解出W矩阵迭代公式：

W←VH(H^TH)^-1

H矩阵迭代公式：

可根据设定的迭代次数t，计算输出第二基矩阵W₂。

步骤105、将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数，第一层卷积层的卷积核参数与初始矩阵进行卷积得到新的数据矩阵。

需要说明的是，首先，将第二基矩阵W₂依据第二按列重构处理成独列的矩阵，组成第一层卷积层的卷积核参数。

对第1层的卷积核的集合F₁表示为：

然后，将得到的卷积核与n个初始矩阵进行卷积，得到新的数据矩阵

作为下一层的输入参数。

新的数据矩阵

为：

步骤106、将对新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练，得到分类训练完成后的卷积神经网络模型。

需要说明的是，采用哈希编码与直方图统计算法，计算出每个新的数据矩阵

的特征向量；将特征向量和特征向量对应的标签输入支持向量机中进行分类训练，得到分类训练完成后的卷积神经网络模型。

由于将网络中的核参数公式化表达，可调性较高，使得网络的可解释性较强，得到的训练完成后的卷积网络模型对文本数据的分类能力增强。

步骤107、将待分类的文本数据输入到训练完成后的卷积神经网络模型中进行文本分类，得到目标分类结果。

需要说明的是，本实施例中使用奇异值分解法对数据矩阵进行初始化分解仅为初始化分解中的一种方法，还可以是其他能够完成矩阵分解的方法；本实施例中使用支持向量机作为分类器，还可以是其他可完成分类训练的分类器，在此不作赘述。卷积神经网络中卷积层的数量能够对分类准确率产生一定的影响，本申请中的卷积层数量至少为两层。

为了方便理解，请参照图2和图3，本申请提供的一种改进卷积神经网络的文本分类方法的第二个实施例，图2为实施例二的神经网络文本分类方法的流程图，图3为实施例二的神经网络文本分类方法网络框图，本申请实施例中提供的文本分类方法，包括：

步骤201、向卷积神经网络模型输入预置文本数据。

步骤202、将预置文本数据集进行预处理得到初始矩阵。

其中每个初始矩阵x_i大小为k₁×k₂。

步骤203、对初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵。

需要说明的是，首先需要对网络参数进行初始化：设定初始卷积核大小p₁×p₂，第l层卷积层的卷积核个数为R_l，矩阵的迭代次数t；然后，根据所设定的初始化卷积核大小，对初始矩阵进行降采样，得到数据为

其中，

另外，将得到的数据按列去均值，并将单个数据

步骤204、将数据矩阵初始化分解为第一基矩阵和特征矩阵。

步骤205、根据由第一基矩阵和特征矩阵建立的半非负矩阵分解损失函数，利用梯度求解法计算出第二基矩阵。

V^±≈W₁ ^±H⁺

其中矩阵V、W₁中元素可以为正负，矩阵H中元素只能为正。

根据梯度求导法，求解出W矩阵迭代公式：

W←VH(H^TH)^-1

H矩阵迭代公式：

可根据设定的迭代次数t，计算输出第二基矩阵W₂。

步骤206、将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数，第一层卷积层的卷积核参数与初始矩阵进行卷积得到新的数据矩阵。

对第一层的卷积核的集合F₁表示为：

作为下一层的输入参数

步骤207、将第一按列重构处理后的新的数据矩阵初始化分解为第三基矩阵和对应的的特征矩阵。

需要说明的是，首先，将

进行第一按列重构处理成列向量，列向量组成输入数据矩阵

然后，根据奇异值分解法将输入数据矩阵

初始化分解为第三基矩阵W₃和对应的特征矩阵

步骤208、根据由第三基矩阵和对应的特征矩阵建立的半非负矩阵分解损失函数，利用梯度求解法计算出第四基矩阵。

需要说明的是，首先，根据第三基矩阵W₃和对应的特征矩阵

建立半非负矩阵公式：

其中矩阵

W₃中元素可以为正负，矩阵

中元素只能为正。

然后，，根据半非负矩阵建立半非负矩阵分解损失函数，得到半非负矩阵分解损失函数公式：

根据梯度求导法，求解出W矩阵迭代公式：

H矩阵迭代公式：

可根据设定的迭代次数t，计算输出第四基矩阵W₄。

步骤209、将第二按列重构处理后的第四基矩阵作为预置卷积神经网络第二层卷积层的卷积核参数，第二层卷积层的卷积核参数与第一层卷积层所得新的数据矩阵进行卷积得到输出数据矩阵。

需要说明的是，首先，将第四基矩阵W₄依据第二按列重构处理成独列的矩阵，组成第二层卷积层的卷积核参数。

对第二层的卷积核的集合F₂表示为：

然后，将得到的卷积核与第一层卷积层所得新的数据矩阵进行卷积，得到输出数据矩阵

作为下一层的输入参数

步骤210、将对输出数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练，得到分类训练完成后的卷积神经网络模型。

的特征向量；将特征向量和特征向量对应的标签输入支持向量机中进行分类训练，将网络中的核参数公式化表达，可调性较高，使得网络的可解释性较强，得到的训练完成后的卷积网络模型对文本数据的分类能力增强。

步骤211、将待分类的文本数据输入到训练完成后的卷积神经网络模型中进行文本分类，得到目标分类结果。

需要说明的是，本实施例中的第二层卷积层后可增加卷积层数，从而提升模型的分类准确度，具体步骤如实施例二，在此不再赘述，因此，对于本申请中描述的第一层卷积层、第二层卷积层根据需要进行增加减少都属于本领域技术人员不需要付出任何创造性劳动便可得到的方案。

本申请还提供了一种基于改进卷积神经网络的文本分类装置的实施例，请参照图4，包括：第一预处理模块301、第二预处理模块302、初始化分解模块303、计算模块304、训练模块305、分类模块306。

第一预处理模块301用于将预置文本数据及进行预处理得到初始矩阵；

第二预处理模块302，用于对初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵；

初始化分解模块303，用于将数据矩阵初始化为第一基矩阵和特征矩阵；

计算模块304，根据由第一基矩阵和特征矩阵建立的半非负矩阵分解损失函数，利用梯度求解法计算出第二基矩阵；

卷积模块307，用于将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数，第一层卷积层的卷积核参数与初始矩阵进行卷积得到新的数据矩阵；

训练模块305，用于将对新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练，得到分类训练完成后的卷积神经网络模型；

分类模块306，用于将待分类文本数据输入到卷积神经网络模型中进行文本分类。

本申请提供了一种基于改进卷积神经网络的文本分类设备的实施例，包括：存储器和处理器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据接收到的程序代码中的指令执行前述的实施例中的任一种改进卷积神经网络的文本分类方法。

为了便于理解，本申请还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行前述的任一种改进卷积神经网络的文本分类方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置、设备，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。