CN112597764B - 文本分类方法及装置、存储介质、电子装置 - Google Patents

文本分类方法及装置、存储介质、电子装置 Download PDF

Info

Publication number
CN112597764B
CN112597764B CN202011541603.4A CN202011541603A CN112597764B CN 112597764 B CN112597764 B CN 112597764B CN 202011541603 A CN202011541603 A CN 202011541603A CN 112597764 B CN112597764 B CN 112597764B
Authority
CN
China
Prior art keywords
convolution
target
text data
convolution layers
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011541603.4A
Other languages
English (en)
Other versions
CN112597764A (zh
Inventor
韩俊明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Technology Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Technology Co Ltd
Priority to CN202011541603.4A priority Critical patent/CN112597764B/zh
Publication of CN112597764A publication Critical patent/CN112597764A/zh
Application granted granted Critical
Publication of CN112597764B publication Critical patent/CN112597764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种文本分类方法及装置、存储介质、电子装置,其中,上述方法包括:获取文本数据中的词向量矩阵,对词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;对多个卷积层通过残差进行叠加连接,以得到多个卷积层的目标卷积层,残差用于表示多个卷积层中的每一卷积层的残差值;提取目标卷积层的目标特征,将目标特征输入到目标逻辑函数中,得到函数输出结果,根据函数输出结果确定文本数据的类别,即通过获取文本数据的目标卷积层对应目标特征的概率值,进而确定不同概率值对应的文本数据类别,解决了相关技术中,对短文本分类的准确率太低以及预测速度过慢等问题,提高了文本分类模型的训练速度以及分类准确率。

Description

文本分类方法及装置、存储介质、电子装置
技术领域
本发明涉及通信领域,具体而言,涉及一种文本分类方法及装置、存储介质、电子装置。
背景技术
在智能问答领域中通常会涉及短文本的分类问题,近些年以transformer结构为主的bert(是一个预训练的模型)及其变种模型,通过预训练现在大数据上获得高质量的嵌入(embedding),再通过特征提取器(fineturning)来处理具体的任务,刷新了各大榜单,但是这些模型的核心都是如何让模型获得更长的长距离信息记忆。进而智能问答领域中通常会涉及短文本的分类问题,用于以判断用户的意图时,由于文本一般较短,使得提取的特征相当敏感,模型结构的稍加改动,或者模型参数W初始化方法的不同,都会对模型有很大的影响。因此,无法应用于对模型的准确率以及预测速度具有很高要求的工业生产中。此外,由于在短文本分类中,文本本身很短,一般在20字左右,其实更重要的是如何精准的判断出文本所蕴含的信息,并不需要进行记忆。对于短文本分类,bert等大规模模型预测速度过慢,并且效果一般。
针对相关技术中,对短文本分类的准确率太低以及预测速度过慢等问题,尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本分类方法及装置、存储介质、电子装置,以至少解决相关技术中,对短文本分类的准确率太低以及预测速度过慢等问题。
根据本发明的一个实施例,提供了一种文本分类方法,包括:获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别。
在一个示例性的实施例中,获取文本数据中的词向量矩阵,包括:从所述文本数据中获取所有词的词向量,得到不同词对应的不同词向量,其中,所述词向量用于唯一标识所述文本数据中的词;将所述不同词向量聚合在一个矩阵中,得到所述词向量矩阵。
在一个示例性的实施例中,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层之后,所述方法还包括:获取预设的激活函数;通过所述激活函数对所述多个卷积层进行激活;对激活后的多个卷积层中不符合预设条件的卷积层进行丢弃处理。
在一个示例性的实施例中,对所述多个卷积层通过残差进行叠加连接,以得到所述卷积层的目标卷积层,包括:确定所述多个卷积层中每一个卷积层与标准卷积层的残差值,得到多个残差,其中,每一个卷积层对应一个标准卷积层;获取所述多个残差中小于预设阈值的残差对应的多个卷积层,将小于预设阈值的残差对应的多个卷积层进行叠加连接,以得到所述卷积层的目标卷积层。
在一个示例性的实施例中,对所述多个卷积层通过残差进行叠加连接,以得到所述卷积层的目标卷积层之后,所述方法还包括:对所述目标卷积层进行归一化处理,并将归一化后的目标卷积层存储在目标存储位置中;根据所述目标存储位置中目标卷积层的数量确定所述文本数据进行迭代卷积的次数。
在一个示例性的实施例中,根据所述函数输出结果确定所述文本数据的类别,包括:从所述函数输出结果中获取所述文本数据对应不同类别的多个概率值;将所述多个概率值中最大的概率值所对应的类别作为所述文本数据的类别。
根据本发明的另一个实施例,还提供了一种文本分类装置,包括:获取模块,用于获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;连接模块,用于对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;提取模块,用于提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别。
在一个示例性的实施例中,所述获取模块,还用于从所述文本数据中获取所有词的词向量,得到不同词对应的不同词向量,其中,所述词向量用于唯一标识所述文本数据中的词;将所述不同词向量聚合在一个矩阵中,得到所述词向量矩阵。
在一个示例性的实施例中,上述装置还包括:激活模块,用于获取预设的激活函数;通过所述激活函数对所述多个卷积层进行激活;对激活后的多个卷积层中不符合预设条件的卷积层进行丢弃处理。
在一个示例性的实施例中,上述连接模块,还用于确定所述多个卷积层中每一个卷积层与标准卷积层的残差值,得到多个残差,其中,每一个卷积层对应一个标准卷积层;获取所述多个残差中小于预设阈值的残差对应的多个卷积层,将小于预设阈值的残差对应的多个卷积层进行叠加连接,以得到所述卷积层的目标卷积层。
在一个示例性的实施例中,上述装置还包括:处理模块,用于对所述目标卷积层进行归一化处理,并将归一化后的目标卷积层存储在目标存储位置中;根据所述目标存储位置中目标卷积层的数量确定所述文本数据进行迭代卷积的次数。
在一个示例性的实施例中,上述提取模块,还用于从所述函数输出结果中获取所述文本数据对应不同类别的多个概率值;将所述多个概率值中最大的概率值所对应的类别作为所述文本数据的类别。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别,即通过获取文本数据的目标卷积层对应目标特征的概率值,进而确定不同概率值对应的文本数据类别。采用上述技术方案,解决了相关技术中,对短文本分类的准确率太低以及预测速度过慢等问题,提高了文本分类模型的训练速度以及分类准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种文本分类方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的文本分类方法的流程图;
图3为根据本发明可选实施例的文本分类方法的流程示意图;
图4是根据本发明实施例的一种文本分类装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例所提供的方法实施例可以在计算机终端,或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种文本分类方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的文本分类方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种文本分类方法,应用于上述计算机终端,图2是根据本发明实施例的文本分类方法的流程图,该流程包括如下步骤:
步骤S202,获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;
步骤S204,对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;
步骤S206,提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别。
通过上述技术方案,获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别,即通过获取文本数据的目标卷积层对应目标特征的概率值,进而确定不同概率值对应的文本数据类别。采用上述技术方案,解决了相关技术中,对短文本分类的准确率太低以及预测速度过慢等问题,提高了文本分类模型的训练速度以及分类准确率。
步骤S202中的对于词向量矩阵的获取有多种实现方式,可选地,从所述文本数据中获取所有词的词向量,得到不同词对应的不同词向量,其中,所述词向量用于唯一标识所述文本数据中的词;将所述不同词向量聚合在一个矩阵中,得到所述词向量矩阵。
简而言之,为了便于对文本数据通过卷积进行特征图的获取,需要对文本数据中的词进行向量转换,进而得到一个与文本数据对应的词向量矩阵。
在一个示例性的实施例中,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层之后,所述方法还包括:获取预设的激活函数;通过所述激活函数对所述多个卷积层进行激活;对激活后的多个卷积层中不符合预设条件的卷积层进行丢弃处理,以防止所述多个卷积层过度拟合。
在一个示例性的实施例中,对所述多个卷积层通过残差进行叠加连接,以得到所述卷积层的目标卷积层,包括:确定所述多个卷积层中每一个卷积层与标准卷积层的残差值,得到多个残差,其中,每一个卷积层对应一个标准卷积层;获取所述多个残差中小于预设阈值的残差对应的多个卷积层,将小于预设阈值的残差对应的多个卷积层进行叠加连接,以得到所述卷积层的目标卷积层。
在一个示例性的实施例中,对所述多个卷积层通过残差进行叠加连接,以得到所述卷积层的目标卷积层之后,所述方法还包括:对所述目标卷积层进行归一化处理,并将归一化后的目标卷积层存储在目标存储位置中;根据所述目标存储位置中目标卷积层的数量确定所述文本数据进行迭代卷积的次数。
例如,分别使用卷积核感受野大小为2,3,4,5,最后得到卷积核感受野大小为5时的输出结果,此时,目标存储位置中目标卷积层的数量为4,证明对卷积进行了4次迭代。
在一个示例性的实施例中,根据所述函数输出结果确定所述文本数据的类别,包括:从所述函数输出结果中获取所述文本数据对应不同类别的多个概率值;将所述多个概率值中最大的概率值所对应的类别作为所述文本数据的类别。
例如,在确定对文本数据对应的词向量矩阵的目标卷积层后,通过全连接将目标卷积层通道维度数量变换为标签数量,进一步的,根据回归算法的代价函数soft max得到每个标签类别的概率,将多个概率值中最大的概率值所对应的类别作为文本数据的类别,并将确定的最终类别与标签对应标记。
为了更好的理解上述文本分类方法的过程,以下结合可选实施例对上述文本分类方法流程进行说明,但不用于限定本发明实施例的技术方案。
在本发明可选实施例中,通过使用生产数据对bert,roberta,squeezeBert,albert,mobileBert,textcnn等多种文本分类模型进行实测,从而确定出基于卷积的textcnn小型模型的效果最佳,但是也并不能完成达到工业生产的要求,还存在较多的识别错误。
在一种可选的实现方式中,提出了一种卷积神经网络进行文本分类的算法,使用不同尺度的卷积核获取不同尺度的信息,来获得分类模型。大致步骤如下:
S1:嵌入层:通过嵌入层embedding layer,数据集里的所有词都表示成一个向量,得到一个词向量矩阵(嵌入矩阵)。
S2:卷积层:设单次个数为n,嵌入矩阵为M,词向量一共有d维,则得到n*d的矩阵。使用感受野大小为3,4,5的卷积核,分别对此矩阵向量使用valid模式获得feature map,使用relu函数进行激活,然后对所有结果在最后一个维度进行串联concatenate,得到丰富的特征表达。
S3:池化层:不同尺度的卷积核得到的特征大小不同,对每个feature map使用池化函数,使他们维度相同。
S4:全连接层:随后接一个全连接层,加上dropout,防止过拟合,经过softmax函数得到每个类别的概率。进行文本分类。
在另一种可选的实现方式中,提出了用于句子分类的卷积神经网络,核心思想是使用不同感受野的卷积核分别提取feature map,将所有feature map在通道channel维度进行连接concatenate,然后直接暴力的对step维度进行池化操作,达到降维的目的,再通过全连接将通道channel维度降为类别数,最后进行softmax分类得到结果。
需要说明的是,上述方法在提取feature map时,使用不同的感受野分别进行卷积,然后直接concatenate提取特征,而concatenate是通道数的合并,也就是说本身的特征数(通道数)增加了,而每一特征下的信息是没有增加的;此外,大量数据表明,模型特定层有特定功能,底层更偏向于关注语法,顶层更偏向与关注语义,对于分类任务来说,显然顶层特征更好;其次,上述用于句子分类的卷积神经网络模型中并未使用normalization归一化操作,normalization的目的就是让分布稳定下来,降低各维度数据的方差,经过归一化再输入激活函数,得到的值大部分会落入非线性的线性区,导致远离导数饱和区,避免梯度消失,加速训练收敛过程;虽然,上述用于句子分类的卷积神经网络在训练过程中学习率是保持不变的,但是众多研究表明,学习率随着global step而动态变化会有较好的效果,如在训练时,若n个batch的迭代后验证集准确率未提升,此时学习率进行多项式衰减或者线性衰减,此时更有利于模型找到最优点,提升模型整体性能。
基于此,本发明可选提出了一种用于句子分类的迭代剩余卷积神经网络(即Iterated Residual Convolutional Neural Networks for Sentence Classification),通过基于卷积的多个bottleneck(瓶颈层,1*1的卷积核,用来进行特征降维)加上残差(实际观察值与估计值(拟合值)之间的差,用于分析数据的可靠性/周期性/其他干扰),提取不同尺度的特征图(feature map,特征图),经过特征选择最后使用回归算法的代价函数softmax得到每个类别的概率,并通过学习率优化方法warm up策略训练模型,最后得到文本分类器。
简而言之,上述用于句子分类的迭代剩余卷积神经网络,通过优化模型结构,使用不同感受野的卷积核多层叠加,并在每一层使用dropout和layer normal,降低过拟合问题,再加上残差连接。得到最后一层卷积得到的高层抽象特征,来用于模型训练。并且在训练过程中,使用warm up策略,学习率先升高,再进行多项式衰减,提高模型训练速度以及分类准确率。
图3为根据本发明可选实施例的文本分类方法的流程示意图,如图3所示,文本分类方法的过程可以通过以下步骤实现:
步骤S302:数据采集、清洗和采样,得到训练集、验证集和测试集;通过数据得到词典vocab.txt;将训练集通过词典转化为数值输入,为保持每个batch长度一致,按照最大长度(max_sequence_length)设置对其进行填充padding,此时输入模型的数据input维度为:batch_size(大小),sequence_length(长度);
步骤S304:经过embedding嵌入层,进行词嵌入,此处可使用预训练词向量。若是随机初始化,权重W使用截断的正态分布(truncated_normal_initializer)进行初始化,标准差为0.02。这是由于激活函数使用了gelu,gelu函数对于truncated_normal_initializer优化起来效果更好,此时输出维度为:batch_size,sequence_length,embedding_size(嵌入大小);
步骤S306:activation激活层,使用感受野大小为2,步长为1,padding方式为“SAME”的卷积核进行卷积,然后经过gelu激活函数;
步骤S308:进行dropout,防止模型过拟合;
步骤S310:和一开始输入卷积的张量进行残差连接;使用layer normal进行层归一化,让每一层的分布稳定下来,让后面的层可以再前面层的基础上安心学习知识;
可选的,将步骤S308的结果输入S306步骤进行迭代卷积,通过使用不同大小的感受野进行迭代,例如,迭代4次,分别使用卷积核感受野大小为2,3,4,5,最后得到卷积核感受野大小为5时的输出结果,此时输出维度为:batch_size,sequence_length,hidden_size(卷积核数量);
步骤S312:在sequence_length的维度进行最大值池化maxpooling,丢弃冗余信息,此时输出维度:batch_size,hidden_size;
步骤S314:通过全连接Dense将通道维度数量变换为标签数量,此时输出维度:batch_size,num_labels。
本发明可选实施例,在文本分类时,使用卷积核提取特征,dropout避免过拟合,加上残差用以避免梯度消失,并进行layer normal保证参数分布稳定,多个bottleneck循环迭代得到抽象的高层特征,获得了模型性能的显著提高。此外,采用上述分析方式避免了在测试神经网络中textcnn使用卷积核提取的特征图feature map直接在通道上进行合并,特征数增加了,但是每一特征下的信息却没有增加,导致出现过多的冗余信息,而又对冗余信息直接进行了粗暴的池化操作,可能导致丢失重要特征,并且使用的是低层语法特征,对于分类任务来说顶层抽象的语义特征显然更适合。而本发明可选实施例中,通过使用多个bottleneck迭代提取特征,取最后一层的融合特征用来分类任务,首先相当于避免了一部分粗暴的池化操作,融合了更多的特征,并且迭代之后的顶层特征更加适用于分类任务。通过在bottleneck中加入dropout以及layer normal,防止了模型过拟合,并使模型训练更快达到收敛,进而得到的分类器准确率更高。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种文本分类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的一种文本分类装置的结构框图;如图4所示,包括:
获取模块40,用于获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;
连接模块42,用于对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;
提取模块44,用于提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别。
通过上述技术方案,获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别,即通过获取文本数据的目标卷积层对应目标特征的概率值,进而确定不同概率值对应的文本数据类别。采用上述技术方案,解决了相关技术中,对短文本分类的准确率太低以及预测速度过慢等问题,提高了文本分类模型的训练速度以及分类准确率。
在一个示例性的实施例中,所述获取模块40,还用于从所述文本数据中获取所有词的词向量,得到不同词对应的不同词向量,其中,所述词向量用于唯一标识所述文本数据中的词;将所述不同词向量聚合在一个矩阵中,得到所述词向量矩阵。
简而言之,为了便于对文本数据通过卷积进行特征图的获取,需要对文本数据中的词进行向量转换,进而得到一个与文本数据对应的词向量矩阵。
在一个示例性的实施例中,上述装置还包括:激活模块,用于获取预设的激活函数;通过所述激活函数对所述多个卷积层进行激活;对激活后的多个卷积层中不符合预设条件的卷积层进行丢弃处理,以防止所述多个卷积层过度拟合。
在一个示例性的实施例中,上述连接模块42,还用于确定所述多个卷积层中每一个卷积层与标准卷积层的残差值,得到多个残差,其中,每一个卷积层对应一个标准卷积层;获取所述多个残差中小于预设阈值的残差对应的多个卷积层,将小于预设阈值的残差对应的多个卷积层进行叠加连接,以得到所述卷积层的目标卷积层。
在一个示例性的实施例中,上述装置还包括:处理模块,用于对所述目标卷积层进行归一化处理,并将归一化后的目标卷积层存储在目标存储位置中;根据所述目标存储位置中目标卷积层的数量确定所述文本数据进行迭代卷积的次数。
例如,分别使用卷积核感受野大小为2,3,4,5,最后得到卷积核感受野大小为5时的输出结果,此时,目标存储位置中目标卷积层的数量为4,证明对卷积进行了4次迭代。
在一个示例性的实施例中,上述提取模块44,还用于从所述函数输出结果中获取所述文本数据对应不同类别的多个概率值;将所述多个概率值中最大的概率值所对应的类别作为所述文本数据的类别。
例如,在确定对文本数据对应的词向量矩阵的目标卷积层后,通过全连接将目标卷积层通道维度数量变换为标签数量,进一步的,根据回归算法的代价函数soft max得到每个标签类别的概率,将多个概率值中最大的概率值所对应的类别作为文本数据的类别,并将确定的最终类别与标签对应标记。
本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
在一个示例性实施例中,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;
S2,对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;
S3,提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别。
在一个示例性实施例中,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
在一个示例性实施例中,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;
S2,对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;
S3,提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别。
在一个示例性实施例中,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,在一个示例性实施例中,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种文本分类方法,其特征在于,包括:
获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;
对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;
提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别;
其中,对所述多个卷积层通过残差进行叠加连接,以得到所述卷积层的目标卷积层之后,所述方法还包括:对所述目标卷积层进行归一化处理,并将归一化后的目标卷积层存储在目标存储位置中;根据所述目标存储位置中目标卷积层的数量确定所述文本数据进行迭代卷积的次数。
2.根据权利要求1所述的方法,其特征在于,获取文本数据中的词向量矩阵,包括:
从所述文本数据中获取所有词的词向量,得到不同词对应的不同词向量,其中,所述词向量用于唯一标识所述文本数据中的词;
将所述不同词向量聚合在一个矩阵中,得到所述词向量矩阵。
3.根据权利要求1所述的方法,其特征在于,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层之后,所述方法还包括:
获取预设的激活函数;
通过所述激活函数对所述多个卷积层进行激活;
对激活后的多个卷积层中不符合预设条件的卷积层进行丢弃处理。
4.根据权利要求1所述的方法,其特征在于,对所述多个卷积层通过残差进行叠加连接,以得到所述卷积层的目标卷积层,包括:
确定所述多个卷积层中每一个卷积层与标准卷积层的残差值,得到多个残差,其中,每一个卷积层对应一个标准卷积层;
获取所述多个残差中小于预设阈值的残差对应的多个卷积层,将小于预设阈值的残差对应的多个卷积层进行叠加连接,以得到所述卷积层的目标卷积层。
5.根据权利要求1所述的方法,其特征在于,根据所述函数输出结果确定所述文本数据的类别,包括:
从所述函数输出结果中获取所述文本数据对应不同类别的多个概率值;
将所述多个概率值中最大的概率值所对应的类别作为所述文本数据的类别。
6.一种文本分类装置,其特征在于,包括:
获取模块,用于获取文本数据中的词向量矩阵,对所述词向量矩阵进行多个感受野的卷积处理,以得到多个卷积层;
连接模块,用于对所述多个卷积层通过残差进行叠加连接,以得到所述多个卷积层的目标卷积层,其中,所述残差用于表示所述多个卷积层中的每一卷积层的残差值;
提取模块,用于提取所述目标卷积层的目标特征,将所述目标特征输入到目标逻辑函数中,得到函数输出结果,根据所述函数输出结果确定所述文本数据的类别;
所述装置还包括:处理模块,用于对所述多个卷积层通过残差进行叠加连接,以得到所述卷积层的目标卷积层之后,对所述目标卷积层进行归一化处理,并将归一化后的目标卷积层存储在目标存储位置中;根据所述目标存储位置中目标卷积层的数量确定所述文本数据进行迭代卷积的次数。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,还用于从所述文本数据中获取所有词的词向量,得到不同词对应的不同词向量,其中,所述词向量用于唯一标识所述文本数据中的词;将所述不同词向量聚合在一个矩阵中,得到所述词向量矩阵。
8.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至5任一项中所述的方法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至5任一项中所述的方法。
CN202011541603.4A 2020-12-23 2020-12-23 文本分类方法及装置、存储介质、电子装置 Active CN112597764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011541603.4A CN112597764B (zh) 2020-12-23 2020-12-23 文本分类方法及装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011541603.4A CN112597764B (zh) 2020-12-23 2020-12-23 文本分类方法及装置、存储介质、电子装置

Publications (2)

Publication Number Publication Date
CN112597764A CN112597764A (zh) 2021-04-02
CN112597764B true CN112597764B (zh) 2023-07-25

Family

ID=75200760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011541603.4A Active CN112597764B (zh) 2020-12-23 2020-12-23 文本分类方法及装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN112597764B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282753A (zh) * 2021-06-09 2021-08-20 中国银行股份有限公司 标题文本数据分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109350032A (zh) * 2018-10-16 2019-02-19 武汉中旗生物医疗电子有限公司 一种分类方法、系统、电子设备及存储介质
CN111241849A (zh) * 2020-01-21 2020-06-05 重庆理工大学 一种文本语义分析方法及系统
AU2020101229A4 (en) * 2020-07-02 2020-08-06 South China University Of Technology A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks
WO2020224106A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 基于神经网络的文本分类方法、系统及计算机设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN107526785B (zh) * 2017-07-31 2020-07-17 广州市香港科大霍英东研究院 文本分类方法及装置
CN108664632B (zh) * 2018-05-15 2021-09-21 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN109960726B (zh) * 2019-02-13 2024-01-23 平安科技(深圳)有限公司 文本分类模型构建方法、装置、终端及存储介质
CN109918507B (zh) * 2019-03-08 2021-04-27 北京工业大学 一种基于TextCNN改进的文本分类方法
CN110598709B (zh) * 2019-08-12 2022-03-22 北京智芯原动科技有限公司 一种卷积神经网络训练方法以及车牌识别方法及装置
CN110751944A (zh) * 2019-09-19 2020-02-04 平安科技(深圳)有限公司 构建语音识别模型的方法、装置、设备和存储介质
CN111220958B (zh) * 2019-12-10 2023-05-26 西安宁远电子电工技术有限公司 基于一维卷积神经网络的雷达目标多普勒像分类识别方法
CN111507884A (zh) * 2020-04-19 2020-08-07 衡阳师范学院 一种基于深层卷积神经网络的自适应图像隐写分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109350032A (zh) * 2018-10-16 2019-02-19 武汉中旗生物医疗电子有限公司 一种分类方法、系统、电子设备及存储介质
WO2020224106A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 基于神经网络的文本分类方法、系统及计算机设备
CN111241849A (zh) * 2020-01-21 2020-06-05 重庆理工大学 一种文本语义分析方法及系统
AU2020101229A4 (en) * 2020-07-02 2020-08-06 South China University Of Technology A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks

Also Published As

Publication number Publication date
CN112597764A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
US20200372217A1 (en) Method and apparatus for processing language based on trained network model
CN110232114A (zh) 语句意图识别方法、装置及计算机可读存储介质
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN109522395A (zh) 自动问答方法及装置
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN109522561B (zh) 一种问句复述识别方法、装置、设备及可读存储介质
CN112784582A (zh) 纠错方法、装置和计算设备
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN113656547A (zh) 文本匹配方法、装置、设备及存储介质
CN112597764B (zh) 文本分类方法及装置、存储介质、电子装置
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN115374845A (zh) 商品信息推理方法和装置
CN114896395A (zh) 语言模型微调方法、文本分类方法、装置及设备
CN113434136A (zh) 代码生成方法、装置、电子设备及存储介质
CN112100355A (zh) 一种智能交互方法、装置及设备
CN110489740A (zh) 语义解析方法及相关产品
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
CN112040401B (zh) 室内定位方法、装置、电子设备和存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN114327594A (zh) 应用于分布式存储系统的测试用例选取方法、装置及介质
CN114358284A (zh) 一种基于类别信息对神经网络分步训练的方法、装置、介质
CN110502741B (zh) 中文文本的识别方法及装置
CN110543569A (zh) 用于短文本意图识别的网络层结构及短文本意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant