CN109947940B - 文本分类方法、装置、终端及存储介质 - Google Patents
文本分类方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN109947940B CN109947940B CN201910117528.XA CN201910117528A CN109947940B CN 109947940 B CN109947940 B CN 109947940B CN 201910117528 A CN201910117528 A CN 201910117528A CN 109947940 B CN109947940 B CN 109947940B
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- learning rate
- optimizer
- rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于神经网络模型的文本分类方法、装置、终端及存储介质,通过在文本分类模型深度学习训练过程中根据基于随机梯度下降和动量方法的优化器的梯度,查找学习率,然后根据学习率的减小比值提升优化器中的衰减率;基于提升后的衰减率、查找的学习率以及所述梯度,通过优化器对神经网络模型进行优化直至模型完成优化训练;最后将目标文本对应的文本词向量输入至完成优化训练的神经网络模型中,得到文本分类结果。其中在文本分类模型学习训练过程中通过动量方法、随机梯度下降结合优化器中学习率和衰减率的动态调整对神经网络模型进行优化,帮助加快了模型的收敛速度和执行效果,进而提高了文本分类时分类结果的准确度。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于神经网络模型的文本分类方法、装置、终端及计算机可读存储介质。
背景技术
目前基于深度学习的文本分类模型是将词向量输入训练好的神经网络模型后得到词向量的分类结果。为了使分类结果更为贴合实际,需要在文本分类前对神经网络模型进行训练,而在模型训练过程中最重要的环节即是通过优化器对神经网络模型进行优化。但现阶段基于文本分类的深度学习模型的优化方式多采用SGD(Stochastic GradientDescent,随机梯度下降)这一方法,可以一定程度的在模型收敛速度提升的情况下取得不错的精度,即低误差率。可由于随机采集样本的原因会导致模型有一定几率陷入局部最优解,如鞍点等,得到的模型执行效果不佳,从而导致在文本分类时分类结果不够准确。
发明内容
本发明的主要目的在于提供一种基于神经网络模型的文本分类方法、装置、终端及计算机可读存储介质,旨在解决文本分类时分类结果不够准确的问题。
为实现上述目的,本发明提供一种基于神经网络模型的文本分类方法,包括步骤:
将训练文本转化成的词向量作为训练样本数据,以按照预设标准从所述训练样本数据中选择批尺寸数据输入至所述神经网络模型中进行分类;
每将选择的批尺寸数据进行分类后,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度,并通过所述梯度查找对应的学习率,其中所述学习率的初始值为基准学习率,所述学习率随着梯度的下降减小;
计算查找到的学习率与所述基准学习率的比值k,并将查找到的学习率更新为基准学习率,其中k∈(0,1);
根据所述比值k提升所述优化器中的衰减率,并基于提升后的衰减率、查找到的学习率以及所述梯度,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型;
将目标文本转化成的文本词向量输入至所述最新的神经网络模型中,以得到文本分类结果。
可选地,所述根据所述比值k提升所述优化器中的衰减率的步骤包括:
根据公式提升所述优化器中的衰减率,其中γ1为调整后的衰减率,γ0为调整前的衰减率,k为查找到的学习率与所述基准学习率的比值。
可选地,所述基于提升后的衰减率、查找到的学习率以及所述梯度,通过优化器对所述神经网络模型进行优化的步骤包括:
获取优化器前一次优化所述神经网络模型时的神经网络模型参数θn-1和动量vt-1;
根据提升后的衰减率、查找到的学习率、所述梯度、前一次优化所述神经网络模型时的神经网络模型参数θn-1和动量vt-1,以及包括公式θn=θn-1-vt的优化器对神经网络模型进行优化,以获取当前优化所述神经网络模型时的神经网络模型参数θn并通过θn更新所述神经网络模型,其中θn为当前优化的神经网络模型参数,θn-1为前一次优化的神经网络模型参数,vt为当前优化神经网络模型时的动量,γ为衰减率,vt-1为前一次优化神经网络模型时的动量,ε为学习率,/>为梯度,t为优化次数。
可选地,所述通过所述梯度查找对应的学习率的步骤之后,还包括:
判断选择的批尺寸数据累计量是否等于预设阶段阈值;
当所述批尺寸数据累计量等于预设阶段阈值时,执行步骤:计算查找到的学习率与所述基准学习率的比值k;
当所述批尺寸数据累计量不等于预设阶段阈值时,基于所述梯度以及查找到的学习率,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型。
可选地,所述预设阶段阈值为预设值的N倍时,其中N为大于或等于1的整数。
可选地,所述获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度的步骤包括:
获取分类后的所述神经网络模型的损失函数;
根据所述神经网络模型的损失函数,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度。
可选地,所述确定优化器对所述神经网络模型的优化达到预设条件的步骤包括:
获取优化器对所述神经网络模型的优化次数;
当所述优化器对所述神经网络模型的优化次数达到预设次数阈值,和/或,所述神经网络模型的损失函数小于预设误差损失值时,确定优化器对所述神经网络模型的优化达到预设条件。
为实现上述目的,本发明还提供一种基于神经网络模型的文本分类装置,所述装置包括:
训练模块,用于将训练文本转化成的词向量作为训练样本数据,以按照预设标准从所述训练样本数据中选择批尺寸数据输入至所述神经网络模型中进行分类;
查找模块,用于每将选择的批尺寸数据进行分类后,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度,并通过所述梯度查找对应的学习率,其中所述学习率的初始值为基准学习率,所述学习率随着梯度的下降减小;
计算模块,用于计算查找到的学习率与所述基准学习率的比值k,并将查找到的学习率更新为基准学习率,其中k∈(0,1);
优化模块,用于根据所述比值k提升所述优化器中的衰减率,并基于提升后的衰减率、查找到的学习率以及所述梯度,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型;
分类模块,用于将目标文本转化成的文本词向量输入至所述最新的神经网络模型中,以得到文本分类结果。
为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于神经网络模型的文本分类方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于神经网络模型的文本分类方法的步骤。
本发明通过将训练文本转化成的词向量作为训练样本数据,以按照预设标准从所述训练样本数据中选择批尺寸数据输入至所述神经网络模型中进行分类;每将选择的批尺寸数据进行分类后,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度,并通过所述梯度查找对应的学习率,其中所述学习率的初始值为基准学习率,所述学习率随着梯度的下降减小;计算查找到的学习率与所述基准学习率的比值k,并将查找到的学习率更新为基准学习率,其中k∈(0,1);根据所述比值k提升所述优化器中的衰减率,并基于提升后的衰减率、查找到的学习率以及所述梯度,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型;将目标文本转化成的文本词向量输入至所述最新的神经网络模型中,以得到文本分类结果。其中,在文本分类的神经网络模型深度学习训练过程中通过动量方法、随机梯度下降结合优化器中学习率和衰减率的动态调整,实现了神经网络模型的优化,能够帮助加快模型的收敛速度和执行效果,进而提高了文本分类时分类结果的准确度。
附图说明
图1是本发明实施例方案涉及的终端的结构示意图;
图2为本发明基于神经网络模型的文本分类方法一实施例的流程示意图;
图3为本发明基于神经网络模型的文本分类装置一功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参看图1,图1为本发明所提供的终端的硬件结构示意图。所述终端可以是服务器或者计算机,包括存储器10以及处理器20等部件。在所述终端中,所述处理器20与所述存储器10连接,所述存储器10上存储有计算机程序,所述计算机程序同时被处理器20执行,以实现下述实施例对应方法的步骤。
存储器10,可用于存储软件程序以及各种数据。存储器10可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如使用优化器对神经网络模型进行优化)等;存储数据区可包括数据库,存储数据区可存储根据终端的使用所创建的数据或信息等。此外,存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器20,是终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器10内的软件程序和/或模块,以及调用存储在存储器10内的数据,执行终端的各种功能和处理数据,从而对终端进行整体监控。处理器20可包括一个或多个处理单元;可选地,处理器20可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器20中。
尽管图1未示出,但上述终端还可以包括电路控制模块,用于与电源连接,保证其他部件的正常工作。上述终端还可以包括显示模块,用于提取存储器10中的数据,并显示为终端的前端显示界面以及神经网络模型运用于分类时的运行结果。上述终端还可以包括通信模块,用于通过网络与外部通讯设备连接。通信模块可以接收外部通讯设备发出的请求,还可以发送请求、指令及信息至所述外部通讯设备。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述硬件结构,提出本发明方法各个实施例。
参见图2,在本发明基于神经网络模型的文本分类方法的一实施例中,包括:
步骤S10,将训练文本转化成的词向量作为训练样本数据,以按照预设标准从所述训练样本数据中选择批尺寸数据输入至所述神经网络模型中进行分类;
本方案中的训练文本可以是待分类的目标文本中的一小部分数据,例如可以是应用程序中预设时间段内用户的评价反馈内容。可以将训练文本进行分词等预处理操作,接着通过预先训练好的词典,将文本分词转化为对应的词向量,然后将词向量输入至特征提取神经网络中,以得到输出词向量,再将输出词向量输入至预设的分类器中,所述分类器具有多行,最后分类器在运算完毕后,会输出输入词向量对应在每一行的分类概率。可以理解地是,所有行数对应的分类概率相加的结果为1,可以在程序中默认选择分类概率最高的一行作为输入词向量对应的分类结果,到此过程,神经网络模型完成了一次初始训练文本输入分类。对于后续选择的批尺寸数据分类,可以参照执行,此外,在相邻的两次批尺寸数据分类中夹带有神经网络模型的优化,可以将一次训练文本输入分类和一次模型的优化认为是一次神经网络模型的模型训练过程。
需要说明的是,其中用于输入词向量的特征提取神经网络即是特征提取工程,用于保留词向量主要特征,以使输出词向量封装了足够用于分类的信息,具有很强的特征表达能力。分类器的程序运行可以参考本领域常用技术手段执行,例如可以采用Softmax函数得到对应在每行的概率。此外,还需要说明的是,分类器和特征提取神经网络构成了完整的神经网络模型,其实际在神经网络层之间是可以联系在一起的,在此为了详细定义功能作用进行了区分介绍;当然也可以对分类器和特征提取神经网络进行分别设置。
此外,还需要说明的是,批尺寸(batch_size)数据运用在文本分类中即是批尺寸大小的输入词向量。可以理解地是,对神经网络模型进行优化和训练的过程中,需要将训练文本输入至神经网络中,一个完整的训练样本数据集通过一个神经网络并返回即可称为一个EPOCH,但当数据集非常庞大的时候,需要将EPOCH分成很多个批尺寸数据输入。其中批尺寸数据中的批的大小决定了下降的方向,在合理的范围内批尺寸越大,其确定的梯度下降方向越准,训练的震荡越小。运用到本实施例中,按照预设标准从所述训练样本数据中选择批尺寸数据,或者说批尺寸的调整可以是随着优化次数的增加越来越大,也可以根据输出结果的情况进行动态调整。
步骤S20,每将选择的批尺寸数据进行分类后,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度,并通过所述梯度查找对应的学习率,其中所述学习率的初始值为基准学习率,所述学习率随着梯度的下降减小;
可以理解地是,神经网络模型初始情况下参数是随机设置的,与用户需要的分类结果存在很大的误差,需要通过深度学习使用于文本分类的神经网络模型学习该文本的分类规则。而在此过程中,最重要的即是对神经网络模型中的参数、权值进行优化,使文本分类模型(即神经网络模型)输出的分类结果贴合实际,其中所述文本分类模型可以是TextCNN(Text Convolutional Neural Network,文本卷积神经网络),Text RNN(TextRecurrent Neural Network,文本循环神经网络)或者Text RCNN(Text RecurrentConvolutional Neural Network,文本循环卷积神经网络)的至少一种。
在本实施例中,可以在一次训练样本数据分类后,先进行优化器参数的更新,然后利用更新后的参数,通过处理器驱动优化器进行神经网络模型的优化。可以理解地是,对于整个深度学习过程来说,处理器驱动优化器对神经网络模型进行优化类似于训练样本分类,同样会运行多次,包括了多次大大小小的优化,直至神经网络模型训练完成为止。优化器中涉及到了随机梯度下降和动量相关的所有参数,这些参数在第一次优化时都有对应的初始值,可以将其中的学习率初始值设为基准学习率。上述学习率表示调整的参数到达最优质过程的速度快慢,用于确定计算机运行的神经网络模型的性能表现。为了达到对神经网络模型进行优化的目的,可以通过处理器控制学习率随着随机梯度下降方法中梯度的下降逐渐降低,使学习率在模型迭代优化的过程中逐渐减小,以减慢调整速度,保证精确。
对于学习率的调整,可以预先在存储器中建立梯度与学习率的关联关系,然后通过获取随机梯度下降优化时的梯度,以查找到对应的学习率进行调整,其中基于关联关系的整体调整趋势是随着梯度的下降学习率减小。进一步地,使用优化器进行随机梯度下降时梯度的取得,可以是获取分类后的所述神经网络模型的损失函数;根据所述神经网络模型的损失函数,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度。进一步地,梯度可以是获得神经网络模型运算的损失函数求导后取得的,对应在文本分类中,可以根据输出的在每一行的分类概率结合实际文本在每一行的输出结果采用计算交叉熵的方式获得损失函数,在此不再赘述。
步骤S30,计算查找到的学习率与所述基准学习率的比值k,并将查找到的学习率更新为基准学习率,其中k∈(0,1);
在完成一次神经网络模型的训练过程中,每将批尺寸数据输入模型进行分类后,可以调整一次学习率,进一步可以计算调整后的学习率与基准学习率的比值,然后将调整后的学习率更新为基准学习率,方便比值随着优化器对于神经网络模型的小的优化次数的增加,实时更新。
步骤S40,根据所述比值k提升所述优化器中的衰减率,并基于提升后的衰减率、查找到的学习率以及所述梯度,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型;
需要说明的是,在目前已有的优化器对神经网络模型的优化中,衰减率一般为常数,本申请将衰减率定义为变量,根据学习率的变化,确定出优化前后学习率的比值,以调整衰减率。可以理解地是,查找到的学习率随着梯度的下降减小,且学习率的调整通常是位数级别的变化,因此比值的取值范围则在0至1之间,衰减率实际提升会越来越大。在完成了衰减率和学习率的调整后,即可基于获取的梯度,查找到的学习率和提升的衰减率更新优化器,以通过更新后的优化器进行神经网络模型的一次优化,在完成一次优化后会继续进行批尺寸数据选择,直至神经网络模型优化达到预设条件,确定优化完成为止。进一步地,模型优化训练完成,则对应会停止批尺寸数据的选择,将最后一次更新的神经网络模型作为输出的最新的神经网络模型。
可选地,神经网络模型优化前后衰减率的调整过程可以是根据公式提升衰减率,其中γ1为调整后的衰减率,γ0为调整前的衰减率,k为查找到的学习率与所述基准学习率的比值。例如,学习率由0.02调整到0.0002,则k等于0.0002/0.02=0.01,可以结合调整前的衰减率计算提升的衰减率。
步骤S50,将目标文本转化成的文本词向量输入至所述最新的神经网络模型中,以得到文本分类结果。
其中,目标文本是待进行分类的文本数据。用户可通过计算机设备的输入单元输入目标文本数据,从而获取目标文本。可选地,可以根据预设词典将目标文本向量化,形成文本词向量,再通过神经网络模型得到目标文本的文本分类结果。
本实施例通过将训练文本转化成的词向量作为训练样本数据,以按照预设标准从所述训练样本数据中选择批尺寸数据输入至所述神经网络模型中进行分类;每将选择的批尺寸数据进行分类后,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度,并通过所述梯度查找对应的学习率,其中所述学习率的初始值为基准学习率,所述学习率随着梯度的下降减小;计算查找到的学习率与所述基准学习率的比值k,并将查找到的学习率更新为基准学习率,其中k∈(0,1);根据所述比值k提升所述优化器中的衰减率,并基于提升后的衰减率、查找到的学习率以及所述梯度,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型;将目标文本转化成的文本词向量输入至所述最新的神经网络模型中,以得到文本分类结果。其中,在文本分类的神经网络模型进行深度学习训练过程中是通过动量方法、随机梯度下降结合优化器中学习率和衰减率的动态调整,实现神经网络模型的优化,能够帮助加快模型的收敛速度和执行效果,进而提高了文本分类时分类结果的准确度。此外,由于现有技术中一般将衰减率定义为常数,本方案相比现有技术通过学习率的变化提升衰减率,实际运行过程中加快了神经网络模型的收敛速度。
进一步地,在其他实施例中,通过基于提升后的衰减率、查找到的学习率以及所述梯度,通过优化器对所述神经网络模型进行优化的过程可以是先获得优化器前一次优化神经网络模型时神经网络模型的模型参数θn-1和动量vt-1,然后联合前述方法中获得的提升后的衰减率γ、查找到的学习率ε、当前用于优化神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度,根据包括公式θn=θn-1-vt的优化器对神经网络模型进行优化,其中θn为当前优化的神经网络模型参数,θn-1为前一次优化的神经网络模型参数,vt为当前优化神经网络模型时的动量,γ为衰减率,vt-1为前一次优化神经网络模型时的动量,ε为学习率,/>为梯度,t为优化次数。其中,神经网络模型参数可以指神经网络模型的权值系数等等,ε即本次查找到的学习率,γ为本次提升的衰减率。还需要说明的是通过包括公式θn=θn-1-vt的优化器对神经网络模型进行优化,可以得到本次优化神经网络时的模型参数θn,可以根据获取的新的模型参数θn更新神经网络模型。本实施例通过动量、随机梯度下降结合优化器中学习率和衰减率参数的更新调整,能够在通过计算机程序对神经网络模型中的参数进行优化更新时,减小震动,使计算效率大幅提高,加快神经网络模型的收敛速度,使模型训练速度加快,效果更优,间接提升了文本分类的整体速度。
进一步地,在另一实施例中,所述步骤S20之后,还包括:
步骤S60,判断选择的批尺寸数据累计量是否等于预设阶段阈值;若是,则执行步骤S30;若否,则执行步骤S70;
步骤S70,基于所述梯度以及查找到的学习率,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型。
本实施例是在前述实施例的基础上对衰减率的调整次数进行了限制,这主要是因为学习率的调整通常是位数级别的变化,若在学习率每次调整时进行衰减率的调整,实际衰减率的变化可能较小,对神经网络模型的收敛速度影响较小。通过在每次查找操作以调整学习率后,确定优化效果是否达到了预设阶段,以确定是否进行衰减率的调整,能够减少衰减率的优化次数,使每次衰减率的更新调整都能够对神经网络模型的优化产生较为实质的影响,间接加快了终端对优化器参数更新所需的时间。
可选地,在本实施例中,可以通过持续输入的批尺寸数据的累计数据量大小决定优化器对于神经网络模型的优化是否达到预设阶段。当训练样本数据输入至神经网络模型的累计数据量等于预设阶段阈值时,确定所述优化器对神经网络模型的优化达到预设阶段。反之,当训练样本数据输入至神经网络模型的累计数据量不等于预设阶段阈值时,确定优化器对神经网络模型的优化未达到预设阶段。进一步地,其中预设阶段阈值可以根据实际需要进行设置,例如可以是随着累计输入神经网络模型中数据量的增加,设置不同的阶段对应的阈值,相邻阈值之间的差值可以相同,也可以不相同。以每阶段相邻阈值之间的差值相同为例,即所有预设阶段阈值是某个设定预设值的N倍,N的取值为大于等于1的整数。
此外,还可以根据优化器对神经网络模型的优化次数确定是否达到预设阶段,例如每经过Q次学习率的调整,调整一次衰减率,例如Q可以等于10。
进一步地,在又一实施例中,确定优化器对所述神经网络模型的优化达到预设条件的步骤可以是获取优化器对所述神经网络模型的优化次数;当所述优化器对所述神经网络模型的优化次数达到预设次数阈值,和/或,所述神经网络模型的损失函数小于预设误差损失值时,确定优化器对所述神经网络模型的优化达到预设条件。
需要说明的是,深度学习的过程要使模型达到最优实质是理想状态下的,对于优化达到一定条件即可认为无限趋近于理想状态了。在进行迭代优化过程中,对于是否达到了优化条件的判定可以通过优化次数或者损失函数的大小取值确定。其中损失函数本身就表示输出结果与实际结果的差距,可体现模型输出的预测结果的准确性,损失函数越小即预测的准确性越高。迭代次数越多,也可以认为优化效果越好。通过损失函数的大小和/或优化次数的限制,保证最后输出的最新的模型是优化效果好的神经网络模型。
参见图3,本发明还提出一种基于神经网络模型的文本分类装置,所述装置可以是计算机或服务器,包括:
训练模块10,用于将训练文本转化成的词向量作为训练样本数据,以按照预设标准从所述训练样本数据中选择批尺寸数据输入至所述神经网络模型中进行分类;
查找模块20,用于每将选择的批尺寸数据进行分类后,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度,并通过所述梯度查找对应的学习率,其中所述学习率的初始值为基准学习率,所述学习率随着梯度的下降减小;
计算模块30,用于计算查找到的学习率与所述基准学习率的比值k,并将查找到的学习率更新为基准学习率,其中k∈(0,1);
优化模块40,用于根据所述比值k提升所述优化器中的衰减率,并基于提升后的衰减率、查找到的学习率以及所述梯度,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型;
分类模块50,用于将目标文本转化成的文本词向量输入至所述最新的神经网络模型中,以得到文本分类结果。
可选地,在另一实施例中,所述优化模块包括:
提升单元,用于根据公式提升所述优化器中的衰减率,其中γ1为调整后的衰减率,γ0为调整前的衰减率,k为查找到的学习率与所述基准学习率的比值。
可选地,在又一实施例中,所述优化模块包括:
第一获取单元,用于获取优化器前一次优化所述神经网络模型时的神经网络模型参数θn-1和动量vt-1;
优化单元,用于根据提升后的衰减率、查找到的学习率、所述梯度、前一次优化所述神经网络模型时的神经网络模型参数θn-1和动量vt-1,以及包括公式θn=θn-1-vt的优化器对神经网络模型进行优化,以获取当前优化所述神经网络模型时的神经网络模型参数θn并通过θn更新所述神经网络模型,其中θn为当前优化的神经网络模型参数,θn-1为前一次优化的神经网络模型参数,vt为当前优化神经网络模型时的动量,γ为衰减率,vt-1为前一次优化神经网络模型时的动量,ε为学习率,/>为梯度,t为优化次数。
可选地,在又一实施例中,所述装置还包括:
判断模块,用于判断选择的批尺寸数据累计量是否等于预设阶段阈值;并当所述批尺寸数据累计量等于预设阶段阈值时,触发所述计算模块执行步骤:计算查找到的学习率与所述基准学习率的比值k;
所述优化模块,还用于当所述批尺寸数据累计量不等于预设阶段阈值时,基于所述梯度以及查找到的学习率,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型。
可选地,在又一实施例中,所述预设阶段阈值为预设值的N倍时,其中N为大于或等于1的整数。
可选地,在又一实施例中,所述查找模块包括:
第二获取单元,用于获取分类后的所述神经网络模型的损失函数;
所述第二获取单元,还用于根据所述神经网络模型的损失函数,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度。
可选地,在又一实施例中,所述装置还包括:
获取模块,用于获取优化器对所述神经网络模型的优化次数;
确定模块,用于当所述优化器对所述神经网络模型的优化次数达到预设次数阈值,和/或,所述神经网络模型的损失函数小于预设误差损失值时,确定优化器对所述神经网络模型的优化达到预设条件。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序。所述计算机可读存储介质可以是图1的终端中的存储器10,也可以是如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘中的至少一种,所述计算机可读存储介质包括若干指令用以使得一台具有处理器的终端设备(可以是手机,计算机,服务器,终端,或者网络设备等)执行本发明各个实施例所述的方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者服务端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者服务端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者服务端中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于神经网络模型的文本分类方法,其特征在于,所述方法包括步骤:
将训练文本转化成的词向量作为训练样本数据,以按照预设标准从所述训练样本数据中选择批尺寸数据输入至所述神经网络模型中进行分类;
每将选择的批尺寸数据进行分类后,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度,并通过所述梯度查找对应的学习率,其中所述学习率的初始值为基准学习率,所述学习率随着梯度的下降减小;
计算查找到的学习率与所述基准学习率的比值k,并将查找到的学习率更新为基准学习率,其中k∈(0,1);
根据所述比值k提升所述优化器中的衰减率,并获取优化器前一次优化所述神经网络模型时的神经网络模型参数θn-1和动量vt-1;
根据提升后的衰减率、查找到的学习率、所述梯度、前一次优化所述神经网络模型时的神经网络模型参数θn-1和动量vt-1,以及包括公式θn=θn-1-vt的优化器对神经网络模型进行优化,以获取当前优化所述神经网络模型时的神经网络模型参数θn并通过θn更新所述神经网络模型,其中θn为当前优化的神经网络模型参数,θn-1为前一次优化的神经网络模型参数,vt为当前优化神经网络模型时的动量,,γ为衰减率,vt-1为前一次优化神经网络模型时的动量,ε为学习率,/>为梯度,t为优化次数,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型;
将目标文本转化成的文本词向量输入至所述最新的神经网络模型中,以得到文本分类结果。
2.如权利要求1所述的基于神经网络模型的文本分类方法,其特征在于,所述根据所述比值k提升所述优化器中的衰减率的步骤包括:
根据公式提升所述优化器中的衰减率,其中/>为调整后的衰减率,/>为调整前的衰减率,k为查找到的学习率与所述基准学习率的比值。
3.如权利要求1所述的基于神经网络模型的文本分类方法,其特征在于,所述通过所述梯度查找对应的学习率的步骤之后,还包括:
判断选择的批尺寸数据累计量是否等于预设阶段阈值;
当所述批尺寸数据累计量等于预设阶段阈值时,执行步骤:计算查找到的学习率与所述基准学习率的比值k;
当所述批尺寸数据累计量不等于预设阶段阈值时,基于所述梯度以及查找到的学习率,通过优化器对所述神经网络模型进行优化,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型。
4.如权利要求3所述的基于神经网络模型的文本分类方法,其特征在于,所述预设阶段阈值为预设值的N倍,其中N为大于或等于1的整数。
5.如权利要求1-4任一项所述的基于神经网络模型的文本分类方法,其特征在于,所述获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度的步骤包括:
获取分类后的所述神经网络模型的损失函数;
根据所述神经网络模型的损失函数,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度。
6.如权利要求5所述的基于神经网络模型的文本分类方法,其特征在于,所述确定优化器对所述神经网络模型的优化达到预设条件的步骤包括:
获取优化器对所述神经网络模型的优化次数;
当所述优化器对所述神经网络模型的优化次数达到预设次数阈值,和/或,所述神经网络模型的损失函数小于预设误差损失值时,确定优化器对所述神经网络模型的优化达到预设条件。
7.一种基于神经网络模型的文本分类装置,其特征在于,所述装置包括:
训练模块,用于将训练文本转化成的词向量作为训练样本数据,以按照预设标准从所述训练样本数据中选择批尺寸数据输入至所述神经网络模型中进行分类;
查找模块,用于每将选择的批尺寸数据进行分类后,获取用于优化所述神经网络模型的,基于随机梯度下降和动量方法的优化器的梯度,并通过所述梯度查找对应的学习率,其中所述学习率的初始值为基准学习率,所述学习率随着梯度的下降减小;
计算模块,用于计算查找到的学习率与所述基准学习率的比值k,并将查找到的学习率更新为基准学习率,其中k∈(0,1);
优化模块,用于根据所述比值k提升所述优化器中的衰减率,并获取优化器前一次优化所述神经网络模型时的神经网络模型参数θn-1和动量vt-1;根据提升后的衰减率、查找到的学习率、所述梯度、前一次优化所述神经网络模型时的神经网络模型参数θn-1和动量vt-1,以及包括公式θn=θn-1-vt的优化器对神经网络模型进行优化,以获取当前优化所述神经网络模型时的神经网络模型参数θn并通过θn更新所述神经网络模型,其中θn为当前优化的神经网络模型参数,θn-1为前一次优化的神经网络模型参数,vt为当前优化神经网络模型时的动量,,γ为衰减率,vt-1为前一次优化神经网络模型时的动量,ε为学习率,/>为梯度,t为优化次数,以在所述神经网络模型优化完成后继续选择下一批尺寸数据,直至确定优化器对所述神经网络模型的优化达到预设条件时,停止选择批尺寸数据,并输出最新的神经网络模型;
分类模块,用于将目标文本转化成的文本词向量输入至所述最新的神经网络模型中,以得到文本分类结果。
8.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-6任一项所述的基于神经网络模型的文本分类方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的基于神经网络模型的文本分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910117528.XA CN109947940B (zh) | 2019-02-15 | 2019-02-15 | 文本分类方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910117528.XA CN109947940B (zh) | 2019-02-15 | 2019-02-15 | 文本分类方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109947940A CN109947940A (zh) | 2019-06-28 |
CN109947940B true CN109947940B (zh) | 2023-09-05 |
Family
ID=67008002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910117528.XA Active CN109947940B (zh) | 2019-02-15 | 2019-02-15 | 文本分类方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109947940B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750640B (zh) * | 2019-09-17 | 2022-11-04 | 平安科技(深圳)有限公司 | 基于神经网络模型的文本数据分类方法、装置及存储介质 |
CN112529146B (zh) * | 2019-09-18 | 2023-10-17 | 华为技术有限公司 | 神经网络模型训练的方法和装置 |
CN110704627B (zh) * | 2019-10-15 | 2022-02-15 | 支付宝(杭州)信息技术有限公司 | 一种训练分类模型的方法及系统 |
CN110782016A (zh) * | 2019-10-25 | 2020-02-11 | 北京百度网讯科技有限公司 | 用于优化神经网络架构搜索的方法和装置 |
CN110942142B (zh) * | 2019-11-29 | 2021-09-17 | 广州市百果园信息技术有限公司 | 神经网络的训练及人脸检测方法、装置、设备和存储介质 |
CN111241280B (zh) * | 2020-01-07 | 2023-09-05 | 支付宝(杭州)信息技术有限公司 | 文本分类模型的训练方法和文本分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018166114A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 图片识别的方法、系统、电子装置及介质 |
CN108932480A (zh) * | 2018-06-08 | 2018-12-04 | 电子科技大学 | 基于1d-cnn的分布式光纤传感信号特征学习与分类方法 |
CN109002942A (zh) * | 2018-09-28 | 2018-12-14 | 河南理工大学 | 一种基于随机神经网络的短期负荷预测方法 |
CN109214566A (zh) * | 2018-08-30 | 2019-01-15 | 华北水利水电大学 | 基于长短期记忆网络的风电功率短期预测方法 |
CN109325547A (zh) * | 2018-10-23 | 2019-02-12 | 苏州科达科技股份有限公司 | 非机动车图像多标签分类方法、系统、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI675335B (zh) * | 2017-06-09 | 2019-10-21 | 宏達國際電子股份有限公司 | 訓練任務優化系統、訓練任務優化方法及其非暫態電腦可讀媒體 |
-
2019
- 2019-02-15 CN CN201910117528.XA patent/CN109947940B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018166114A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 图片识别的方法、系统、电子装置及介质 |
CN108932480A (zh) * | 2018-06-08 | 2018-12-04 | 电子科技大学 | 基于1d-cnn的分布式光纤传感信号特征学习与分类方法 |
CN109214566A (zh) * | 2018-08-30 | 2019-01-15 | 华北水利水电大学 | 基于长短期记忆网络的风电功率短期预测方法 |
CN109002942A (zh) * | 2018-09-28 | 2018-12-14 | 河南理工大学 | 一种基于随机神经网络的短期负荷预测方法 |
CN109325547A (zh) * | 2018-10-23 | 2019-02-12 | 苏州科达科技股份有限公司 | 非机动车图像多标签分类方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109947940A (zh) | 2019-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947940B (zh) | 文本分类方法、装置、终端及存储介质 | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
CN109523017B (zh) | 姿态检测方法、装置、设备及存储介质 | |
EP4027268A1 (en) | Training method for classification model, sample classification method and apparatus, and device | |
CN109753615B (zh) | 预加载网页的方法和装置,存储介质和电子设备 | |
CN109948149B (zh) | 一种文本分类方法及装置 | |
WO2020140073A1 (en) | Neural architecture search through a graph search space | |
CN111814975B (zh) | 一种基于剪枝的神经网络模型构建方法及相关装置 | |
CN111461343B (zh) | 模型参数更新方法及其相关设备 | |
CN110414005B (zh) | 意图识别方法、电子设备及存储介质 | |
CN110288085B (zh) | 一种数据处理方法、装置、系统及存储介质 | |
CN115829024A (zh) | 一种模型训练方法、装置、设备及存储介质 | |
CN110458287A (zh) | 神经网络优化器的参数更新方法、装置、终端及存储介质 | |
CN111144567A (zh) | 神经网络模型的训练方法及装置 | |
US20180061395A1 (en) | Apparatus and method for training a neural network auxiliary model, speech recognition apparatus and method | |
CN110874635B (zh) | 一种深度神经网络模型压缩方法及装置 | |
CN106384587A (zh) | 一种语音识别方法及系统 | |
CN113408696A (zh) | 深度学习模型的定点量化方法及装置 | |
CN111563161B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
KR20220011208A (ko) | 신경망 트레이닝 방법, 비디오 인식 방법 및 장치 | |
CN111260056B (zh) | 一种网络模型蒸馏方法及装置 | |
CN111126456A (zh) | 神经网络模型的处理方法、装置、设备及存储介质 | |
CN112735392B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN115795303A (zh) | 一种搜索动态学习率的客户端状态识别方法及装置 | |
CN115148292A (zh) | 基于人工智能的dna模体预测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |