CN110457703B - 一种基于改进卷积神经网络的文本分类方法、装置和设备 - Google Patents
一种基于改进卷积神经网络的文本分类方法、装置和设备 Download PDFInfo
- Publication number
- CN110457703B CN110457703B CN201910740474.2A CN201910740474A CN110457703B CN 110457703 B CN110457703 B CN 110457703B CN 201910740474 A CN201910740474 A CN 201910740474A CN 110457703 B CN110457703 B CN 110457703B
- Authority
- CN
- China
- Prior art keywords
- matrix
- neural network
- convolution
- semi
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种基于改进卷积神经网络的文本分类方法、装置和设备,包括:将初始矩阵进行下采样、去均值和第一按列重构处理得到数据矩阵;将数据矩阵初始化分解为第一基矩阵和特征矩阵;根据所述第一基矩阵和特征矩阵建立半非负矩阵分解损失函数,利用梯度求解法计算出第二基矩阵;将重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数,将第一层卷积层的卷积核参数与初始矩阵进行卷积得到新的数据矩阵;将所述新的数据矩阵输入分类器进行分类训练,得到分类训练完成后的卷积神经网络模型;将待分类文本数据输入到卷积神经网络模型中进行文本分类。本申请解决了神经网络由于可解释性较差不利于文本分类的技术问题。
Description
技术领域
本申请涉及神经网络技术领域,尤其涉及一种基于改进卷积神经网络的文本分类方法、装置和设备。
背景技术
在网络时代,文本息量每天都在呈指数的增加,对文本数据进行准确的分类在网络系统中有着重要意义,如何对目标文本进行特征处理与正确的分类一直是自然语言处理领域的研究重点。随着深度学习技术在自然语言处理领域的应用发展,利用深度学习算法来解决文本分类任务已成为当前热门的研究方向。
与传统文本分类算法相比,深度学习算法无需复杂的特征提取过程,通过端到端的处理方式简化了特征提取过程,通过反向传播训练网络,使得网络的自适应性较强。利用深度卷积神经网络来处理文本分类数据取得了非常显著的效果提升。
现有的基于卷积神经网络的文本分类方法中,卷积神经网络作为“黑匣子”无法实现对文本数据之间的关联性特征的深层提取,因此,卷积神经网络的不可解释性,不利于卷积神经网络对文本进行分类。
发明内容
本申请提供了一种基于改进卷积神经网络的文本分类方法,解决由于卷积神经网络作为“黑匣子”无法实现对文本数据之间的关联性特征的深层提取,因此,卷积神经网络的不可解释性,不利于卷积神经网络对文本进行分类的技术问题。
本申请第一方面提供了一种基于改进卷积神经网络的文本分类方法,包括:
将预置文本数据集进行预处理得到初始矩阵;
对所述初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵;
将所述数据矩阵初始化分解为第一基矩阵和特征矩阵;
根据由所述第一基矩阵和所述特征矩阵建立的半非负矩阵分解损失函数,利用梯度求解法计算出第二基矩阵;
将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数,所述第一层卷积层的卷积核参数与所述初始矩阵进行卷积得到新的数据矩阵;
将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型;
将待分类文本数据输入到所述卷积神经网络模型中进行文本分类。
优选地,预置神经网络包括至少两个卷积层;
下层卷积层的卷积核参数为:对上层卷积层的输出第一按列重构处理后,进行分解,并根据分解结果建立半非负矩阵的损失函数,并利用梯度求解法求解基矩阵,对求解得到的基矩阵进行第二按列重构处理,得到第二按列重构处理后的基矩阵;
所述下层卷积层的输出为:用所述下层卷积层的卷积核参数对所述上层卷积层的输出进行卷积后输出的新的数据矩阵。
优选地,所述将数据矩阵初始化分解为第一基矩阵和特征矩阵,包括:
利用奇异值分解法将数据矩阵初始化分解为第一基矩阵和特征矩阵。
优选地,所述将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型,包括:
对所述新的数据矩阵采用哈希编码与直方图统计的方法进行处理,得到所述特征向量。
优选地,所述分类器包括:支持向量机。
本申请第二方面提供了一种基于改进卷积神经网络的文本分类装置,包括:第一预处理模块、第二预处理模块、初始化分解模块、计算模块、卷积模块、训练模块、分类模块;
所述第一预处理模块,用于将预置文本数据及进行预处理得到初始矩阵;
所述第二预处理模块,用于对所述初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵;
所述初始化分解模块,将数据矩阵初始化分解为第一基矩阵和特征矩阵;
所述计算模块,根据所述第一基矩阵和所述特征矩阵建立半非负矩阵分解损失函数,利用梯度求解法计算出第二基矩阵;
所述卷积模块,用于将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数,所述第一层卷积层的卷积核参数与所述初始矩阵进行卷积得到新的数据矩阵;
所述训练模块,用于将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型;
所述分类模块,用于将待分类文本数据输入到所述卷积神经网络模型中进行文本分类。
优选地,所述计算模块包括:构建模块、求解模块;
所述构建模块,根据所述第一基矩阵和所述特征矩阵建立半非负矩阵分解损失函数;
所述求解模块,利用根梯度求解法计算出第二基矩阵。
优选地,所述训练模块包括:编码统计模块、训练分类器模块;
所述编码统计模块,用于对所述新的数据矩阵采用哈希编码与直方图统计的方法进行处理,得到所述特征向量;
所述训练分类器模块,将所述特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型。
本申请第三方面提出了一种基于改进卷积神经网络的文本分类设备,包括:存储器和处理器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的任一种基于改进卷积神经网络的文本分类方法。
本申请第四方面提出了一种计算机可读存储介质,包括:
所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的任一种基于改进卷积神经网络的文本分类方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种基于改进卷积神经网络的文本分类方法、装置和设备,通过对文本数据进行初步处理得到矩阵数据,用奇异矩阵分解法初始化分解矩阵数据得到初始化后的第一基矩阵以及特征矩阵,用第一基矩阵和特征矩阵建立半非负矩阵分解损失函数,利用梯度求解法得到第二基矩阵,以此作为卷积层中的卷积核,并非传统的卷积核的选取方法,使得卷积神经网络的卷积层的可推导性增强,以此方法调整、训练得到的网络模型对文本的语义以及关联特征的提取更符合个性化需求,将提取的特征输入分类器中分类,从而更有利于对文本进行分类,解决了由于卷积神经网络作为“黑匣子”无法实现对文本数据之间的关联性特征的深层提取,卷积神经网络的不可解释性,不利于卷积神经网络对文本进行分类的技术问题。
同时,本申请通过使用分解矩阵作卷积核参数的方式“解释”网络组成,且没有反向传播带来的较大计算量,使得网络的训练所需的计算量减少,从而训练时间较短,提高了训练效率。
附图说明
图1为本申请提供的一种改进卷积神经网络的文本分类方法的实施例一的流程图;
图2为本申请提供的一种改进卷积神经网络的文本分类方法的实施例二的流程图;
图3为本申请提供的一种改进卷积神经网络的文本分类方法的网络框图;
图4为本申请提供的一种改进卷积神经网络的文本分类装置的实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提出了一种改进卷积神经网络的文本分类方法,将预置文本数据集进行预处理得到初始矩阵;对所述初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵;将所述数据矩阵初始化分解为第一基矩阵和特征矩阵;根据由所述第一基矩阵和所述特征矩阵建立的半非负矩阵分解损失函数,利用梯度求解法计算出第二基矩阵;将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数,所述第一层卷积层的卷积核参数与所述初始矩阵进行卷积得到新的数据矩阵;将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型;将待分类文本数据输入到所述卷积神经网络模型中进行文本分类。
需要说明的是,预置文本数据是指用于分类任务的数据集,预处理即对文本数据分词、去停用词、词性标注、将数据集划分为训练集与测试集;然后采用Word2Vec模型将文本数据转化为矩阵,作为为初始矩阵,在对初始矩阵进行下采样之前,需要将网络参数初始化:设定卷积核的大小、代表层卷积核的个数、设定矩阵分解的迭代次数;第一按列重构处理是指将去均值后的矩阵按列重排成矩阵,为分解做准备,第二按列重构处理是指将得到的矩阵单列处理,作为卷积核参数;另外,数据矩阵的初始化是通过奇异值分解法将数据矩阵初始化分解为第一基矩阵和特征矩阵,最后,编码统计是将输出的特征矩阵转化为可输入分类器的特征向量形式。
为了便于理解,请参照图1,本申请提供的一种改进卷积神经网络的文本分类方法的实施例一,包括:
步骤101、将预置文本数据集进行预处理得到初始矩阵。
需要说明的是,预置的文本数据集为本申请中用于分类任务的数据集,预处理过程为:包括分词、去停用词、词性标注、将数据集划分为训练集与测试集;采用Word2Vec模型将文本数据集转化成为初始矩阵,设矩阵个数为n,初始矩阵数据集表示为其中每个初始矩阵xi大小为k1×k2。
步骤102、对初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵。
需要说明的是,对初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵的过程为:首先,需要对网络参数进行初始化:设定初始卷积核大小p1×p2,一层卷积层的卷积核个数R1,矩阵的迭代次数t;然后,根据所设定的初始化卷积核大小,对初始矩阵进行降采样,得到数据为其中,另外,将得到的数据按列去均值,并将单个数据依据第一按列列重构处理成列向量,组成数据矩阵V∈Ra×b,其中,a=p1×p2,b=n×k1×k2。
步骤103、将数据矩阵初始化分解为第一基矩阵和特征矩阵。
需要说明的是,根据奇异值分解法将数据矩阵V∈Ra×b初始化分解为第一基矩阵W1∈Ra×r和特征矩阵H∈Rr×b,其中维度r为卷积核个数Rl。
步骤104、根据由第一基矩阵和特征矩阵建立的半非负矩阵分解损失函数,利用梯度求解法计算出第二基矩阵。
需要说明的是,首先,根据第一基矩阵W1∈Ra×r和特征矩阵H∈Rr×b建立半非负矩阵分解公式:
V±≈W1 ±H+
其中矩阵V、W1中元素可以为正负,矩阵H中元素只能为正。
然后,根据半非负矩阵建立半非负矩阵分解损失函数,得到半非负矩阵分解损失函数公式:
根据梯度求导法,求解出W矩阵迭代公式:
W←VH(HTH)-1
H矩阵迭代公式:
可根据设定的迭代次数t,计算输出第二基矩阵W2。
步骤105、将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数,第一层卷积层的卷积核参数与初始矩阵进行卷积得到新的数据矩阵。
需要说明的是,首先,将第二基矩阵W2依据第二按列重构处理成独列的矩阵,组成第一层卷积层的卷积核参数。
对第1层的卷积核的集合F1表示为:
步骤106、将对新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型。
由于将网络中的核参数公式化表达,可调性较高,使得网络的可解释性较强,得到的训练完成后的卷积网络模型对文本数据的分类能力增强。
步骤107、将待分类的文本数据输入到训练完成后的卷积神经网络模型中进行文本分类,得到目标分类结果。
需要说明的是,本实施例中使用奇异值分解法对数据矩阵进行初始化分解仅为初始化分解中的一种方法,还可以是其他能够完成矩阵分解的方法;本实施例中使用支持向量机作为分类器,还可以是其他可完成分类训练的分类器,在此不作赘述。卷积神经网络中卷积层的数量能够对分类准确率产生一定的影响,本申请中的卷积层数量至少为两层。
为了方便理解,请参照图2和图3,本申请提供的一种改进卷积神经网络的文本分类方法的第二个实施例,图2为实施例二的神经网络文本分类方法的流程图,图3为实施例二的神经网络文本分类方法网络框图,本申请实施例中提供的文本分类方法,包括:
步骤201、向卷积神经网络模型输入预置文本数据。
步骤202、将预置文本数据集进行预处理得到初始矩阵。
需要说明的是,预置的文本数据集为本申请中用于分类任务的数据集,预处理过程为:包括分词、去停用词、词性标注、将数据集划分为训练集与测试集;采用Word2Vec模型将文本数据集转化成为初始矩阵,设矩阵个数为n,初始矩阵数据集表示为其中每个初始矩阵xi大小为k1×k2。
步骤203、对初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵。
需要说明的是,首先需要对网络参数进行初始化:设定初始卷积核大小p1×p2,第l层卷积层的卷积核个数为Rl,矩阵的迭代次数t;然后,根据所设定的初始化卷积核大小,对初始矩阵进行降采样,得到数据为其中,另外,将得到的数据按列去均值,并将单个数据依据第一按列列重构处理成列向量,组成数据矩阵V∈Ra×b,其中,a=p1×p2,b=n×k1×k2。
步骤204、将数据矩阵初始化分解为第一基矩阵和特征矩阵。
需要说明的是,根据奇异值分解法将数据矩阵V∈Ra×b初始化分解为第一基矩阵W1∈Ra×r和特征矩阵H∈Rr×b,其中维度r为卷积核个数Rl。
步骤205、根据由第一基矩阵和特征矩阵建立的半非负矩阵分解损失函数,利用梯度求解法计算出第二基矩阵。
需要说明的是,首先,根据第一基矩阵W1∈Ra×r和特征矩阵H∈Rr×b建立半非负矩阵分解公式:
V±≈W1 ±H+
其中矩阵V、W1中元素可以为正负,矩阵H中元素只能为正。
然后,根据半非负矩阵建立半非负矩阵分解损失函数,得到半非负矩阵分解损失函数公式:
根据梯度求导法,求解出W矩阵迭代公式:
W←VH(HTH)-1
H矩阵迭代公式:
可根据设定的迭代次数t,计算输出第二基矩阵W2。
步骤206、将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数,第一层卷积层的卷积核参数与初始矩阵进行卷积得到新的数据矩阵。
需要说明的是,首先,将第二基矩阵W2依据第二按列重构处理成独列的矩阵,组成第一层卷积层的卷积核参数。
对第一层的卷积核的集合F1表示为:
步骤207、将第一按列重构处理后的新的数据矩阵初始化分解为第三基矩阵和对应的的特征矩阵。
步骤208、根据由第三基矩阵和对应的特征矩阵建立的半非负矩阵分解损失函数,利用梯度求解法计算出第四基矩阵。
然后,,根据半非负矩阵建立半非负矩阵分解损失函数,得到半非负矩阵分解损失函数公式:
根据梯度求导法,求解出W矩阵迭代公式:
H矩阵迭代公式:
可根据设定的迭代次数t,计算输出第四基矩阵W4。
步骤209、将第二按列重构处理后的第四基矩阵作为预置卷积神经网络第二层卷积层的卷积核参数,第二层卷积层的卷积核参数与第一层卷积层所得新的数据矩阵进行卷积得到输出数据矩阵。
需要说明的是,首先,将第四基矩阵W4依据第二按列重构处理成独列的矩阵,组成第二层卷积层的卷积核参数。
对第二层的卷积核的集合F2表示为:
步骤210、将对输出数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型。
需要说明的是,采用哈希编码与直方图统计算法,计算出每个新的数据矩阵的特征向量;将特征向量和特征向量对应的标签输入支持向量机中进行分类训练,将网络中的核参数公式化表达,可调性较高,使得网络的可解释性较强,得到的训练完成后的卷积网络模型对文本数据的分类能力增强。
步骤211、将待分类的文本数据输入到训练完成后的卷积神经网络模型中进行文本分类,得到目标分类结果。
需要说明的是,本实施例中的第二层卷积层后可增加卷积层数,从而提升模型的分类准确度,具体步骤如实施例二,在此不再赘述,因此,对于本申请中描述的第一层卷积层、第二层卷积层根据需要进行增加减少都属于本领域技术人员不需要付出任何创造性劳动便可得到的方案。
本申请还提供了一种基于改进卷积神经网络的文本分类装置的实施例,请参照图4,包括:第一预处理模块301、第二预处理模块302、初始化分解模块303、计算模块304、训练模块305、分类模块306。
第一预处理模块301用于将预置文本数据及进行预处理得到初始矩阵;
第二预处理模块302,用于对初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵;
初始化分解模块303,用于将数据矩阵初始化为第一基矩阵和特征矩阵;
计算模块304,根据由第一基矩阵和特征矩阵建立的半非负矩阵分解损失函数,利用梯度求解法计算出第二基矩阵;
卷积模块307,用于将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数,第一层卷积层的卷积核参数与初始矩阵进行卷积得到新的数据矩阵;
训练模块305,用于将对新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型;
分类模块306,用于将待分类文本数据输入到卷积神经网络模型中进行文本分类。
本申请提供了一种基于改进卷积神经网络的文本分类设备的实施例,包括:存储器和处理器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据接收到的程序代码中的指令执行前述的实施例中的任一种改进卷积神经网络的文本分类方法。
为了便于理解,本申请还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述的任一种改进卷积神经网络的文本分类方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置、设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (6)
1.一种基于改进卷积神经网络的文本分类方法,其特征在于,包括:
将预置文本数据集进行预处理得到初始矩阵;
对所述初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵;其中,所述第一按列重构处理是指将去均值后的所述初始矩阵按列重排成矩阵,所述去均值是指将所述初始矩阵的各元素都减去所有元素的和的平均值;
将所述数据矩阵初始化分解为第一基矩阵和特征矩阵;具体的,根据奇异值分解法将所述数据矩阵初始化分解为所述第一基矩阵和所述特征矩阵其中,维度r为卷积核个数;为实数集;a=p1×p2,b=n×k1×k2,p1×p2为下采样的卷积核大小,k1×k2为初始矩阵的大小,n为初始矩阵的个数;
V±≈W1 ±H+
其中,矩阵V、W1中的元素为正或负,矩阵H中元素只能为正;
根据所述半非负矩阵建立所述半非负矩阵分解损失函数,得到所述半非负矩阵分解损失函数的公式:
其中,W为基矩阵,V为数据矩阵,H为特征矩阵,F为F范数,Osemi-NMF为半非负矩阵分解损失函数;
根据梯度求导法,求解出W矩阵迭代公式,进一步,根据预设迭代次数,得到第二基矩阵W2;
W←VH(HTH)-1
所述特征矩阵H的迭代公式:
将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数,所述第一层卷积层的卷积核参数与所述初始矩阵进行卷积得到新的数据矩阵;
将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型;其中,所述编码为哈希编码,所述统计为直方图统计;
将待分类文本数据输入到所述卷积神经网络模型中进行文本分类。
2.根据权利要求1所述的基于改进卷积神经网络的文本分类方法,其特征在于,所述预置卷积神经网络包括至少两个卷积层;
下层卷积层的卷积核参数为:对上层卷积层的输出进行第一按列重构处理后,进行分解,并根据分解结果建立半非负矩阵的损失函数,并利用梯度求解法求解基矩阵,对求解得到的基矩阵进行第二按列重构处理,得到第二按列重构处理后的基矩阵;
所述下层卷积层的输出为:用所述下层卷积层的卷积核参数对所述上层卷积层的输出进行卷积后输出数据矩阵。
3.根据权利要求1所述基于改进卷积神经网络的文本分类方法,其特征在于,所述分类器包括:支持向量机。
4.一种基于改进卷积神经网络的文本分类装置,其特征在于,包括:第一预处理模块、第二预处理模块、初始化分解模块、计算模块、卷积模块、训练模块、分类模块;
所述第一预处理模块,用于将预置文本数据集进行预处理得到初始矩阵;
所述第二预处理模块,用于对所述初始矩阵依次进行下采样、去均值和第一按列重构处理得到数据矩阵;其中,所述第一按列重构处理是指将去均值后的所述初始矩阵按列重排成矩阵,所述去均值是指将所述初始矩阵的各元素都减去所有元素的和的平均值;
所述初始化分解模块,将数据矩阵初始化分解为第一基矩阵和特征矩阵;具体的,根据奇异值分解法将所述数据矩阵初始化分解为所述第一基矩阵和所述特征矩阵其中,维度r为卷积核个数;为实数集;a=p1×p2,b=n×k1×k2,p1×p2为下采样的卷积核大小,k1×k2为初始矩阵的大小,n为初始矩阵的个数;
所述计算模块包括:构建模块、求解模块,所述构建模块用于根据由所述第一基矩阵和所述特征矩阵建立的半非负矩阵分解损失函数;所述求解模块用于利用梯度求解法计算出第二基矩阵;具体的,根据所述第一基矩阵和所述特征矩阵建立半非负矩阵分解公式:
V±≈W1 ±H+
其中,矩阵V、W1中的元素为正或负,矩阵H中元素只能为正;
根据所述半非负矩阵建立所述半非负矩阵分解损失函数,得到所述半非负矩阵分解损失函数的公式:
其中,W为基矩阵,V为数据矩阵,H为特征矩阵,F为F范数,Osemi-NMF为半非负矩阵分解损失函数;
根据梯度求导法,求解出W矩阵迭代公式,进一步,根据预设迭代次数,得到第二基矩阵W2;
W←VH(HTH)-1
所述特征矩阵H的迭代公式:
所述卷积模块,用于将第二按列重构处理后的第二基矩阵作为预置卷积神经网络第一层卷积层的卷积核参数,所述第一层卷积层的卷积核参数与所述初始矩阵进行卷积得到新的数据矩阵;
所述训练模块,用于将对所述新的数据矩阵进行编码、统计后得到的特征向量通过分类器进行分类训练,得到分类训练完成后的卷积神经网络模型;其中,所述编码为哈希编码,所述统计为直方图统计;
所述分类模块,用于将待分类文本数据输入到所述卷积神经网络模型中进行文本分类。
5.一种计算机设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的一种基于改进卷积神经网络的文本分类方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-3任一项所述的一种基于改进卷积神经网络的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740474.2A CN110457703B (zh) | 2019-08-12 | 2019-08-12 | 一种基于改进卷积神经网络的文本分类方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740474.2A CN110457703B (zh) | 2019-08-12 | 2019-08-12 | 一种基于改进卷积神经网络的文本分类方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110457703A CN110457703A (zh) | 2019-11-15 |
CN110457703B true CN110457703B (zh) | 2022-12-30 |
Family
ID=68485903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910740474.2A Active CN110457703B (zh) | 2019-08-12 | 2019-08-12 | 一种基于改进卷积神经网络的文本分类方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457703B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579755A (zh) * | 2022-01-26 | 2022-06-03 | 北京博瑞彤芸科技股份有限公司 | 构建中医知识图谱的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491863A (zh) * | 2018-02-27 | 2018-09-04 | 南京信息工程大学 | 基于非负矩阵分解和卷积神经网络的彩色图像处理方法 |
WO2019094562A1 (en) * | 2017-11-08 | 2019-05-16 | Google Llc | Neural network based blind source separation |
-
2019
- 2019-08-12 CN CN201910740474.2A patent/CN110457703B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019094562A1 (en) * | 2017-11-08 | 2019-05-16 | Google Llc | Neural network based blind source separation |
CN108491863A (zh) * | 2018-02-27 | 2018-09-04 | 南京信息工程大学 | 基于非负矩阵分解和卷积神经网络的彩色图像处理方法 |
Non-Patent Citations (2)
Title |
---|
Sound Events Separation and Recognition using L1-Sparse Complex Nonnegative Matrix Factorization and Multi-Class Mean Supervector Support Vector Machine;Phetcharat Parathai et al.;《2017 2nd International Conference on Information Technology (INCIT)》;20171102;第1-6页 * |
二维卷积非负矩阵分解的初值确定混合算法;付强 等;《哈尔滨工业大学学报》;20190531;第51卷(第5期);第125-130页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110457703A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229757B (zh) | 基于深度学习和哈希编码的视频检索方法 | |
CN110442707B (zh) | 一种基于seq2seq的多标签文本分类方法 | |
CN105512289B (zh) | 基于深度学习和哈希的图像检索方法 | |
Wang et al. | G2DeNet: Global Gaussian distribution embedding network and its application to visual recognition | |
CN109543502B (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
Simon et al. | A blockwise descent algorithm for group-penalized multiresponse and multinomial regression | |
CN108763191B (zh) | 一种文本摘要生成方法及系统 | |
CN111340814A (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
WO2020155614A1 (zh) | 图像处理方法及装置 | |
CN110458085B (zh) | 基于注意力增强三维时空表征学习的视频行为识别方法 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
US20220270384A1 (en) | Method for training adversarial network model, method for building character library, electronic device, and storage medium | |
CN114494981B (zh) | 一种基于多层次运动建模的动作视频分类方法及系统 | |
CN112052687B (zh) | 基于深度可分离卷积的语义特征处理方法、装置及介质 | |
CN110298446A (zh) | 面向嵌入式系统的深度神经网络压缩和加速方法及系统 | |
CN111935487B (zh) | 一种基于视频流检测的图像压缩方法及系统 | |
CN103914527B (zh) | 一种基于新编码方式的遗传规划算法的图形图像识别与匹配方法 | |
CN110781686A (zh) | 一种语句相似度计算方法、装置及计算机设备 | |
CN110457703B (zh) | 一种基于改进卷积神经网络的文本分类方法、装置和设备 | |
CN108496174B (zh) | 用于面部识别的方法和系统 | |
CN116721420B (zh) | 一种电气设备紫外图像的语义分割模型构建方法及系统 | |
CN115953651A (zh) | 一种基于跨域设备的模型训练方法、装置、设备及介质 | |
CN112487231B (zh) | 一种基于双图正则化约束和字典学习的图像自动标注方法 | |
Wu et al. | Image classification method rationally utilizing spatial information of the image | |
CN111768214A (zh) | 产品属性的预测方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |