CN109977394B - 文本模型训练方法、文本分析方法、装置、设备及介质 - Google Patents
文本模型训练方法、文本分析方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN109977394B CN109977394B CN201811503834.9A CN201811503834A CN109977394B CN 109977394 B CN109977394 B CN 109977394B CN 201811503834 A CN201811503834 A CN 201811503834A CN 109977394 B CN109977394 B CN 109977394B
- Authority
- CN
- China
- Prior art keywords
- text
- output
- training
- text analysis
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 155
- 238000012549 training Methods 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 89
- 230000004913 activation Effects 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000007635 classification algorithm Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 66
- 239000013598 vector Substances 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 16
- 230000001133 acceleration Effects 0.000 claims description 14
- 230000001902 propagating effect Effects 0.000 claims description 10
- 230000036962 time dependent Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本模型训练方法、文本分析方法、装置、设备及存储介质,所述文本模型训练方法包括:获取文本训练样本;将所述文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到所述文本深度神经网络的网络参数;使用激活函数对所述网络参数进行优化,得到目标网络参数;使用所述目标网络参数对所述文本深度神经网络的网络参数进行更新,得到初始文本分析模型;采用批标准化算法,对所述初始文本分析模型进行批标准化处理,得到目标文本分析模型。提高了模型的训练效率,并且上述方法训练得到的目标文本分析模型性能较高。
Description
技术领域
本发明涉及深度学习领域,尤其涉及一种文本模型训练方法、文本分析方法、装置、设备及存储介质。
背景技术
随着科技的飞速发展,越来越多的智能设备出现在人们的生活当中,其中最具代表性的就是智能机器人。目前已有的智能机器人已经能够做到与用户进行一些简单的对话交流,如智能客服机器人的语音问答,需要对文本进行人为分析。
传统地,都是采用基于规则或者基于学习的模型进行分析,然后基于规则或者基于学习方法的文本分析容易导致文本分析准确精度不足,以及存在训练时间过长等问题。
发明内容
本发明实施例提供一种文本模型训练方法、装置、设备及存储介质以解决文本分析模型训练效率不高的问题。
此外,本发明实施例还提供一种文本分析方法、装置、设备及存储介质以解决文本分析准确度不高问题。
一种文本模型训练方法,包括:
获取文本训练样本;
将所述文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到所述文本深度神经网络的网络参数;
使用激活函数对所述网络参数进行优化,得到目标网络参数;
使用所述目标网络参数对所述文本深度神经网络的网络参数进行更新,得到初始文本分析模型;
采用批标准化算法,对所述初始文本分析模型进行批标准化处理,得到目标文本分析模型。
一种文本模型训练装置,包括:
训练样本获取模块,用于获取文本训练样本;
网络参数获取模块,用于将所述文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到所述文本深度神经网络的网络参数;
目标参数获取模块,用于使用激活函数对所述网络参数进行优化,得到目标网络参数;
初始文本分析模型获取模块,用于使用所述目标网络参数对所述文本深度神经网络的网络参数进行更新,得到初始文本分析模型;
目标文本分析模型获取模块,用于采用批标准化算法,对所述初始文本分析模型进行批标准化处理,得到目标文本分析模型。
一种文本分析方法,包括:
获取待分析文本,并将所述待分析文本转换成向量,得到文本向量;
将所述文本向量输入到所述文本模型训练方法训练得到的目标文本分析模型进行文本分析,得到所述待分析文本的文本分析结果。
一种文本分析装置,包括:
文本向量获取模块,用于获取待分析文本,并将所述待分析文本转换成向量,得到文本向量;
文本分析结果获取模块,用于将所述文本向量输入到所述文本模型训练方法训练得到的目标文本分析模型进行文本分析,得到所述待分析文本的文本分析结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本模型训练方法,或者,所述处理器执行所述计算机程序时实现上述文本分析方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本模型训练方法,或者,所述处理器执行所述计算机程序时实现上述文本分析方法。
上述文本模型训练方法、装置、设备及介质中,首先获取文本训练样本。然后,将文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到文本深度神经网络的网络参数,使得文本深度神经网络的网络参数更为准确。接着,使用激活函数对网络参数进行优化,得到目标网络参数,由于激活函数实现了降低神经网络复杂性的效果,并且加速了神经网络的更新,具有较好的优化效果,有利于减少后续模型训练的收敛时长。再接着,使用目标网络参数对网络参数进行更新,得到初始文本分析模型,实现了端到端,进而达到提高初始文本分析模型的性能的效果。最后,采用批标准化算法,对初始文本分析模型进行批标准化处理,得到目标文本分析模型,提高了目标文本分析模型性能和训练效率。
上述文本分析方法、装置、设备及介质中,获取待分析文本,并将待分析文本转换成向量,得到文本向量。将文本向量输入到目标文本分析模型中进行文本分析,使得文本分析的准确率得以提高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本模型训练方法的应用环境示意图;
图2是本发明实施例提供的文本模型训练方法一示例图;
图3是本发明实施例提供的文本模型训练方法的另一示例图;
图4是本发明实施例提供的文本模型训练装置的一原理框图;
图5是本发明实施例提供的文本模型训练装置的另一原理框图;
图6是本发明实施例提供的文本分析方法的一示例图;
图7是本发明实施例提供的文本分析装置的一原理框图;
图8是本发明实施例提供的计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的文本模型训练方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信,服务端接收客户端发送的文本训练样本,然后将文本训练样本输入到文本深度神经网络中进行学习,得到初始文本分析模型,进而对初始文本分析模型进行批标准化处理,得到文本分析模型。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S10:获取文本训练样本。
其中,文本是指包括字符、词语、语句或者字符、词语和语句的组合。文本训练样本是指用于学习的文本样本,即采用文本训练样本训练深度学习模型,以确定深度学习模型的参数,从而提高深度学习模型的文本分析的准确率。具体地,可以在大数据平台获取文本训练样本,也可以通过爬虫技术爬取聊天机器人中的对话,如将电商平台客服机器人中的对话作为文本训练样本,其中,聊天机器人是一种用于模拟人类对话或聊天的程序。
S20:将文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到文本深度神经网络的网络参数。
其中,文本深度神经网络是用于对文本分析的深度学习神经网络,并且,通过深度学习可以更好地利用文本的词序的特征。该文本深度神经网络可以是文本卷积神经网络(Text in Convolutional Neural Network,TextCNN),也可以是文本循环神经网络(Textin Recurrent Neural Network,TextRNN),还可以是文本循环卷积神经网络(Text inRecurrent Convolutional Neural Networks,TextRCNN)。可选地,文本深度神经网络可从自然语言处理(Natural Lauguage processing,简称NLP)文本分类深度学习方法库中获取。
其中,连续时间分类(Connectionist temporal classification,简称CTC)算法,是一种完全端到端的声学模型训练的算法,不需要预先对训练样本做对齐,只需要一个输入序列和一个输出序列即可训练。减少了繁琐的预处理操作,提高了后续文本分析模型训练的效率。在一具体实施方式中,将文本训练样本输入到文本卷积神经网络中进行训练,采用基于连续时间分类算法进行训练,对文本卷积神经网络中的池化层反向传播,得到的最大值位置继承上层梯度、其他位置置零的结果,即采用小批量梯度下降获取文本深度神经网络的网络参数的方法,从而加快训练过程,提高网络参数的准确度。
其中,文本深度神经网络的网络参数是指文本深度神经网络的网络结构中各个神经元的参数。用于确定文本深度神经网络的输出。
具体地,服务端获取文本训练样本后,将该文本训练样本作为文本深度神经网络的输入,并进行训练学习,得到文本深度神经网络的网络参数。采用文本深度神经网络,可以更好地利用文本训练样本自身的词序特征,使得文本深度神经网络的网络参数更为准确。
S30:使用激活函数对网络参数进行优化,得到目标网络参数。
其中,激活函数(Activation Function),是指在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端的函数。激活函数可以是但不限于是Dropout激活函数、Sigmoid激活函数或者梯度加速激活函数等。优选地,本实施例中采用梯度加速激活函数。
其中,目标网络参数是指对文本深度神经网络参数通过激活函数进行变换后得到的,从而达到优化网络参数的效果。具体地,优化的网络参数即目标网络参数使得网络更加健壮,进而使得后续文本分析模型收敛于平坦区域。可以理解地,由于激活函数实现了降低神经网络复杂性的效果,并且加速了神经网络的更新,具有较好的优化效果,有利于减少后续文本分析模型训练的收敛时长。
S40:使用目标网络参数对文本深度神经网络的网络参数进行更新,得到初始文本分析模型。
其中,初始文本分析模型是指对文本深度神经网络中进行训练得到的文本分析模型。具体地,将步骤S20中训练得到的网络参数,根据步骤S30的目标网络参数通过梯度下降算法更新网络参数,使用目标网络参数对文本深度神经网络的网络参数进行更新,即在更新网络参数时,将训练过程中产生的误差按预设批次分批累加,得到若干批次对应的累加误差,并采用该若干批次对应的累加误差进行参数更新的处理,从而得到初始文本分析模型。
可以理解地,由于深度学习不需要人工手动的提取文本的特征,它可以自动的获取基础特征并组合为高级的特征,训练文本深度神经网络获得文本特征与目标分类之间的关系,省去了使用TF-IDF等提取文本的关键词构建特征的过程,实现了端到端。并且,深度学习还能够可以更好的利用文本中词序的特征,从而有利于提高初始文本分析模型的分类效果。
具体地,服务端获取文本训练样本后,将该训练样本作为文本深度神经网络的输入,并进行训练学习,得到初始文本分析模型。中文文本是由若干字体有序组成的,因此采用文本深度神经网络能够较好地学习文本训练样本在序列上的深层特征。
S50:采用批标准化算法,对初始文本分析模型进行批标准化处理,得到目标文本分析模型。
其中,批标准化(Batch Normalization,简称BN)算法用于克服神经网络层数加深导致难以训练而诞生的一个算法。根据ICS理论,当训练集的样本数据和目标样本集分布不一致的时候,训练得到的模型无法很好的泛化。对于初始文本分析模型的神经网络,每一层的输入在经过层内操作之后,会导致与原来对应的输入信号分布不同,并且前层神经网络的增加会被后面的神经网络不对的累积放大。可以理解地,BN算法(批标准化)通过对初始文本分析模型进行矫正,进而规范化初始文本分析模型各个网络层的输入,进而固定每个网络层层输入信号的均值与方差。使得批标准化处理后的模型更加稳定,并且得到优化模型性能的效果。
其中,目标文本分析模型是指将初始文本分析模型进行批标准化后得到的模型,用于对文本进行分析,获取准确率较高的文本分析结果。提高了目标文本分析模型性能和模型训练效率。
本实施例中,首先获取文本训练样本。然后,将文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到文本深度神经网络的网络参数,使得文本深度神经网络的网络参数更为准确。接着,使用激活函数对网络参数进行优化,得到目标网络参数,由于激活函数实现了降低神经网络复杂性的效果,并且加速了神经网络的更新,具有较好的优化效果,有利于减少后续模型训练的收敛时长。再接着,使用目标网络参数对网络参数进行更新,得到初始文本分析模型,实现了端到端,进而达到提高初始文本分析模型的性能的效果。最后,采用批标准化算法,对初始文本分析模型进行批标准化处理,得到目标文本分析模型,提高了目标文本分析模型性能和模型训练效率。
在一实施例中,如图3所示,步骤S20中,并采用基于连续时间分类算法进行训练,得到文本深度神经网络的网络参数,包括:
S21:获取文本训练样本在文本深度神经网络中的前向传播输出和后向传播输出。
其中,前向传播输出是指采用前向算法进行前向计算后得到的输出结果,其中的前向算法是指计算文本训练样本在预设时刻之前的概率值的算法。后向传播输出是指采用后向算法进行后向计算后得到的输出结果,其中的后向算法是指计算文本训练样本在预设时刻之后的概率值的算法。具体地,通过获取文本训练样本在文本深度神经网络中的前向传播输出和后向传播输出,全面考虑了文本深度神经网络的输出,以便后续更加准确地计算网络参数。
S22:根据前向传播输出和后向传播输出构建误差函数。
具体地,将文本训练样本输入到文本深度神经网络中,基于连续时间分类(CTC)算法进行训练。通过文本训练样本在文本深度神经网络中的前向传播输出和后向传播输出,再利用前向传播输出和后向传播输出描述构建相对应的误差函数。
具体地,根据前向传播输出和后向传播输出构建误差函数,可以使用概率的负对数作为误差函数。设l=z,则误差函数可以表示为其中,S表示文本训练样本。该式中的p(z|x)可以根据前向传播输出和后向传播输出进行计算。定义一个集合X,其代表t时刻位置处在u的所有正确的路径,用公式表示为:X(t,u)={π∈A'T:F(π)=z,πt=z'u},因此,任意时刻前向变量与后向变量的乘积表示所有可能路径的概率和,即该式是t时刻位置恰好处于u的所有正确路径的概率和,则根据误差函数的定义能够得到误差函数/>提高了构建误差函数的效率。
S23:根据误差函数,采用时间相关反向传播算法获取文本深度神经网络的网络参数。
在一实施例中,根据获取的误差函数可以采用时间相关反向传播算法(基于小批量梯度)获取文本深度神经网络的网络参数。具体地,求出该误差函数对未经过sofmax层的网络输出的偏导数(即梯度),将该梯度乘以学习率,用原来的网络参数减去梯度乘以学习率的积即获取了文本深度神经网络的网络参数。
步骤S21-S23能够根据文本训练样本在循环神经网络得到的前向传播输出和后向传播输出构建误差函数并根据该误差函数进行误差反传,根据误差函数获取文本深度神经网络的网络参数,同时提高了网络参数的准确度。
本实施例中,首先获取文本训练样本在文本深度神经网络中的前向传播输出和后向传播输出,全面考虑了文本深度神经网络的输出,以便后续更加准确地计算网络参数。然后,根据误差函数,采用时间相关反向传播算法获取文本深度神经网络的网络参数,提高构建误差函数的效率。最后,根据误差函数,采用时间相关反向传播算法获取文本深度神经网络的网络参数,提高了网络参数的准确度。
在一实施例中,步骤S21中,前向传播输出表示为:
其中,t表示序列步数,u表示与t相对应的输出的标签值,表示在第t步的输出为标签值l'u的概率,/>
后向传播输出表示为:
其中,t表示序列步数,u表示与t相对应的输出的标签值,表示在第t+1步的输出为标签值l′i的概率,/>
具体地,在进行前向计算和后向计算之前,需要对序列l做一些预处理,在序列l的开头与结尾分别加上空格,并且在字母与字母之间都添加上空格。若原来序列l的长度为U,预处理之后,序列l'的长度为2U+1。对于一个序列l,可以定义前向变量α(t,u)为输出序列长度为t,且经过F映射之后为序列l的路径的概率之和,用公式表示为:其中,V(t,u)={π∈A't:F(π)=l1:u/2,πt=l'u},表示所有满足经过F映射之后为序列l,长度为t的路径集合,且在第t序列步的输出为l'u,其中的u/2表示的是索引,因此需要向下取整。所有正确路径的开头必须是空格或者l1(即序列l的第一个字母),因此存在着初始化的约束条件:/>(b表示blank,空格),则p(l|x)可以由前向变量来表示,即:p(l|x)=α(T,U')+α(T,U'-1),其中,α(T,U')可以理解为所有路径长度为T,经过F映射之后为序列l,且第T时刻的输出的标签值为:l'U或者l'U-1,也即路径的最后一个是否包括了空格。于是,前向变量的计算可以按照时间来进行递归,用公式表示为:/>其中,f(u)对前一时刻的所有可能路径的列举,其具体条件公式如下:后向变量的计算可以按照时间来进行递归,用公式表示为:/>其中,g(u)对后一时刻的所有可能路径的列举,其具体条件公式如下:/>
在一实施例中,步骤S30中,使用激活函数对网络参数进行优化,得到目标网络参数,具体包括如下步骤:
采用下述梯度加速激活函数对网络参数进行变换,得到目标网络参数:
g(x)=(x*K-floor[x*K]-0.5)/K;
其中,x为网络参数,g(x)为目标网络参数的表达式,floor[x*K]为向下取整的表达式,即取不大于x*K的最大整数,K为频率常数的正整数。
其中,梯度加速激活函数(Gradient Acceleration in Activation Functions,GAAF激活函数)是指为文本深度神经网络的反向传播添加梯度信息,而不改变向前传播的输出值的梯度加速激活函数。
可以理解地,梯度加速激活函数通过一层层加速传递网络梯度信息,使得梯度信息的方差不为零,即通过加速梯度信息的流动,避免出现梯度消失的饱和区,将输入(Input)推向非线性激活函数的饱和区域。本实施例中,梯度加速使得梯度反向传播得到了加速,因此具有较强的稳定性。然后,激活函数的输入可以上升到饱和区域,使得网络参数得到优化。有利于提高后续文本分析模型的准确精度。
本实施例中,通过采用梯度加速激活函数对网络参数进行变换,得到目标网络参数,加速了梯度反向传播,使得网络参数达到优化效果,有利于提高后续文本分析模型的准确精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于深度学习的文本分析装置,该基于深度学习的文本分析装置与上述实施例中文本模型训练方法一一对应。如图4所示,该文本模型训练装置包括训练样本获取模块10、网络参数获取模块20、目标参数获取模块30、初始文本分析模型获取模块40和目标文本分析模型获取模块50。各功能模块详细说明如下:
训练样本获取模块10,用于获取文本训练样本;
网络参数获取模块20,用于将文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到文本深度神经网络的网络参数;
目标参数获取模块30,用于使用激活函数对网络参数进行优化,得到目标网络参数;
初始文本分析模型获取模块40,用于使用目标网络参数对文本深度神经网络的网络参数进行更新,得到初始文本分析模型;
目标文本分析模型获取模块50,用于采用批标准化算法,对初始文本分析模型进行批标准化处理,得到目标文本分析模型。
优选地,如图5所示,网络参数获取模块20包括传播输出获取单元21、误差函数构建单元22和网络参数获取单元23。
传播输出获取单元21,用于获取文本训练样本在文本深度神经网络中的前向传播输出和后向传播输出;
误差函数构建单元22,用于根据前向传播输出和后向传播输出构建误差函数;
网络参数获取单元23,用于根据误差函数,采用时间相关反向传播算法获取文本深度神经网络的网络参数。
优选地,目标参数获取模块包括参数变换单元,用于采用下述梯度加速激活函数对网络参数进行变换,得到目标网络参数:
g(x)=(x*K-floor[x*K]-0.5)/K;
其中,x为网络参数,g(x)为目标网络参数的表达式,floor[x*K]为向下取整的表达式,即取不大于x*K的最大整数,K为频率常数的正整数。
优选地,在传播输出获取单元21中,前向传播输出为:
其中,t表示序列步数,u表示与t相对应的输出的标签值,表示在第t步的输出为标签值l'u的概率,/>
后向传播输出为:
其中,t表示序列步数,u表示与t相对应的输出的标签值,表示在第t+1步的输出为标签值l′i的概率,/>
在一实施例中,提供一文本分析方法,该文本分析方法也可以应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。服务端接收客户端发送的待分析文本,接着将待分析文本转化成文本向量,最后通过目标文本分析模型对文本向量进行文本分析,得到文本分析结果。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图6所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S60:获取待分析文本,并将待分析文本转换成向量,得到文本向量。
其中,将待分析文本转换成向量即是对待分析文本进行特征提取。具体地,首先对待分析文本进行字向量匹配,提取每一个字的特征向量,然后将每一个字的特征向量合并成一个文本向量。
在一具体实施方式中,对一个待分析文本(例如:“你难道不感兴趣吗”),提取该待分析文本的LBP纹理特征,每一个字都是一个N维向量,那么该待分析文本的文本向量即为维数为N×8的向量。
S70:将文本向量输入到文本模型训练方法训练得到的目标文本分析模型进行文本分析,得到待分析文本的文本分析结果。
其中,文本分析结果是指目标文本分析模型输出的待分析文本分类的概率。
具体地,将文本向量输入目标文本分析模型进行文本分析,得到文本分析结果。可以理解地,步骤S10至步骤S50中的文本分析模型方法训练得到的目标文本分析模型性能较好,具有一定的精度,且训练至收敛的速度增加等性能,因此,采用该目标文本分析模型进行文本分析,从而使得文本分析的效率得以提高。
本实施例中,获取待分析文本,并将待分析文本转换成向量,得到文本向量。将文本向量输入到目标文本分析模型中进行文本分析,使得文本分析的效率得以提高。
值得说明的是,为了验证该目标文本分析模型的性能的优越性。通过爬虫技术爬取某网站的与聊天机器人对话的文本作为本实施例中步骤S10中的文本训练样本。分别将该文本训练样本输入到三种模型进行文本分析,其中,三种模型分别是文本分析网络、初始文本分析模型和目标文本分析模型,结果显示:文本分析网络、初始文本分析模型和目标文本分析模型的训练时间分别是91.92S、92.03S和90.16S。文本分析网络、初始文本分析模型和目标文本分析模型的准确率分别是59.63%、67.48%和94.16%。从上述三种模型的训练时间和准确率对比数据可知,本实施例中的目标文本分析模型不仅准确率高,在训练至收敛的时间并没有明显增加。为此,本实施例中的目标文本分析模型具有较好的性能。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本分析装置,该文本分析装置与上述实施例中文本分析方法一一对应。如图7所示,该文本分析装置包括文本向量获取模块60和文本分析结果获取模块70。各功能模块详细说明如下:
文本向量获取模块60,用于获取待分析文本,并将待分析文本转换成向量,得到文本向量;
文本分析结果获取模块70,用于将文本向量输入到采用文本模型训练方法训练得到的目标文本分析模型进行文本分析,得到待分析文本的文本分析结果。
关于文本分析装置的具体限定可以参见上文中对于文本模型训练方法的限定,在此不再赘述。上述文本分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本训练样本和待分析文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本模型训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取文本训练样本;
将所述文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到所述文本深度神经网络的网络参数;
使用激活函数对所述网络参数进行优化,得到目标网络参数;
使用所述目标网络参数对所述文本深度神经网络的网络参数进行更新,得到初始文本分析模型;
采用批标准化算法,对所述初始文本分析模型进行批标准化处理,得到目标文本分析模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取文本训练样本;
将所述文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到所述文本深度神经网络的网络参数;
使用激活函数对所述网络参数进行优化,得到目标网络参数;
使用所述目标网络参数对所述文本深度神经网络的网络参数进行更新,得到初始文本分析模型;
采用批标准化算法,对所述初始文本分析模型进行批标准化处理,得到目标文本分析模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种文本模型训练方法,其特征在于,所述文本模型训练方法包括:
获取文本训练样本;
将所述文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到所述文本深度神经网络的网络参数,所述连续时间分类算法是一种完全端到端的声学模型训练的算法,不需要预先对训练样本做对齐,只需要一个输入序列和一个输出序列即可训练;
使用激活函数对所述网络参数进行优化,得到目标网络参数;
使用所述目标网络参数对所述文本深度神经网络的网络参数进行更新,得到初始文本分析模型;
采用批标准化算法,对所述初始文本分析模型进行批标准化处理,得到目标文本分析模型;
所述采用基于连续时间分类算法进行训练,得到所述文本深度神经网络的网络参数,包括:
获取文本训练样本在所述文本深度神经网络中的前向传播输出和后向传播输出;
根据所述前向传播输出和所述后向传播输出构建误差函数;
根据所述误差函数,采用时间相关反向传播算法获取文本深度神经网络的网络参数;
所述前向传播输出为:
其中,t表示序列步数,u表示与t相对应的输出的标签值,表示在第t步的输出为标签值l'u的概率,/>
所述后向传播输出为:
其中,t表示序列步数,u表示与t相对应的输出的标签值,表示在第t+1步的输出为标签值l′i的概率,/>
2.如权利要求1所述的文本模型训练方法,其特征在于,使用激活函数对所述网络参数进行优化,得到目标网络参数,包括:
采用下述梯度加速激活函数对所述网络参数进行变换,得到目标网络参数:
g(x)=(x*K-floor[x*K]-0.5)/K;
其中,x为所述网络参数,g(x)为所述目标网络参数的表达式,floor[x*K]为向下取整的表达式,即取不大于x*K的最大整数,K为频率常数的正整数,所述梯度加速激活函数指为文本深度神经网络的反向传播添加梯度信息,而不改变向前传播的输出值的梯度加速激活函数。
3.一种文本分析方法,其特征在于,所述文本分析方法包括:
获取待分析文本,并将所述待分析文本转换成向量,得到文本向量;
将所述文本向量输入到采用权利要求1-2任一项所述的文本模型训练方法训练得到的目标文本分析模型进行文本分析,得到所述待分析文本的文本分析结果。
4.一种文本模型训练装置,其特征在于,所述文本模型训练装置包括:
训练样本获取模块,用于获取文本训练样本;
网络参数获取模块,用于将所述文本训练样本输入到文本深度神经网络中,采用基于连续时间分类算法进行训练,得到所述文本深度神经网络的网络参数,所述连续时间分类算法是一种完全端到端的声学模型训练的算法,不需要预先对训练样本做对齐,只需要一个输入序列和一个输出序列即可训练;
目标参数获取模块,用于使用激活函数对所述网络参数进行优化,得到目标网络参数;
初始文本分析模型获取模块,用于使用所述目标网络参数对所述文本深度神经网络的网络参数进行更新,得到初始文本分析模型;
目标文本分析模型获取模块,用于采用批标准化算法,对所述初始文本分析模型进行批标准化处理,得到目标文本分析模型;
所述网络参数获取模块,包括:
传播输出获取单元,用于获取文本训练样本在所述文本深度神经网络中的前向传播输出和后向传播输出;
误差函数构建单元,用于根据所述前向传播输出和所述后向传播输出构建误差函数;
网络参数获取单元,用于根据所述误差函数,采用时间相关反向传播算法获取文本深度神经网络的网络参数;
所述前向传播输出为:
其中,t表示序列步数,u表示与t相对应的输出的标签值,表示在第t步的输出为标签值l'u的概率,/>
所述后向传播输出为:
其中,t表示序列步数,u表示与t相对应的输出的标签值,表示在第t+1步的输出为标签值l′i的概率,/>
5.一种文本分析装置,其特征在于,所述文本分析装置包括:
文本向量获取模块,用于获取待分析文本,并将所述待分析文本转换成向量,得到文本向量;
文本分析结果获取模块,用于将所述文本向量输入到采用权利要求1-2任一项所述的文本模型训练方法训练得到的目标文本分析模型进行文本分析,得到所述待分析文本的文本分析结果。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一项所述的文本模型训练方法,或者所述处理器执行所述计算机程序时实现如权利要求3所述的文本分析方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述的文本模型训练方法,或者,所述计算机程序被处理器执行时实现如权利要求3所述的文本分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811503834.9A CN109977394B (zh) | 2018-12-10 | 2018-12-10 | 文本模型训练方法、文本分析方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811503834.9A CN109977394B (zh) | 2018-12-10 | 2018-12-10 | 文本模型训练方法、文本分析方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977394A CN109977394A (zh) | 2019-07-05 |
CN109977394B true CN109977394B (zh) | 2023-11-07 |
Family
ID=67076201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811503834.9A Active CN109977394B (zh) | 2018-12-10 | 2018-12-10 | 文本模型训练方法、文本分析方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977394B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340218B (zh) * | 2020-02-24 | 2022-04-15 | 支付宝(杭州)信息技术有限公司 | 一种训练问题识别模型的方法和系统 |
CN113765957B (zh) * | 2020-06-04 | 2022-09-16 | 华为技术有限公司 | 一种模型更新方法及装置 |
CN113011141A (zh) * | 2021-03-17 | 2021-06-22 | 平安科技(深圳)有限公司 | 佛经注解模型训练方法、佛经注解生成方法及相关设备 |
CN113344415A (zh) * | 2021-06-23 | 2021-09-03 | 中国平安财产保险股份有限公司 | 基于深度神经网络的业务分配方法、装置、设备及介质 |
CN113657445B (zh) * | 2021-07-13 | 2022-06-07 | 珠海金智维信息科技有限公司 | 基于Resnet的单行文本图片比对方法及系统 |
CN114817513B (zh) * | 2022-06-29 | 2022-11-15 | 浪潮电子信息产业股份有限公司 | 一种文本答案的确定方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650933A (zh) * | 2017-01-12 | 2017-05-10 | 西安电子科技大学 | 基于协同进化和反向传播的深度神经网络优化方法 |
CN108388941A (zh) * | 2018-02-24 | 2018-08-10 | 成都快眼科技有限公司 | 一种可形变激活函数的改进方法、系统及存储设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224984B (zh) * | 2014-05-31 | 2018-03-13 | 华为技术有限公司 | 一种基于深度神经网络的数据类别识别方法及装置 |
US10831444B2 (en) * | 2016-04-04 | 2020-11-10 | Technion Research & Development Foundation Limited | Quantized neural network training and inference |
-
2018
- 2018-12-10 CN CN201811503834.9A patent/CN109977394B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650933A (zh) * | 2017-01-12 | 2017-05-10 | 西安电子科技大学 | 基于协同进化和反向传播的深度神经网络优化方法 |
CN108388941A (zh) * | 2018-02-24 | 2018-08-10 | 成都快眼科技有限公司 | 一种可形变激活函数的改进方法、系统及存储设备 |
Non-Patent Citations (1)
Title |
---|
结合批归一化的直通卷积神经网络图像分类算法;朱威;屈景怡;吴仁彪;;计算机辅助设计与图形学学报(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109977394A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977394B (zh) | 文本模型训练方法、文本分析方法、装置、设备及介质 | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN107273503B (zh) | 用于生成同语言平行文本的方法和装置 | |
CN110750965B (zh) | 英文文本序列标注方法、系统及计算机设备 | |
CN109523014B (zh) | 基于生成式对抗网络模型的新闻评论自动生成方法及系统 | |
EP3979098A1 (en) | Data processing method and apparatus, storage medium, and electronic apparatus | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN109766418B (zh) | 用于输出信息的方法和装置 | |
WO2019154411A1 (zh) | 词向量更新方法和装置 | |
CN111583911B (zh) | 基于标签平滑的语音识别方法、装置、终端及介质 | |
CN113326852A (zh) | 模型训练方法、装置、设备、存储介质及程序产品 | |
CN110781686B (zh) | 一种语句相似度计算方法、装置及计算机设备 | |
CN115239593A (zh) | 图像复原方法、装置、电子设备及存储介质 | |
CN111695591A (zh) | 基于ai的面试语料分类方法、装置、计算机设备和介质 | |
CN112000788A (zh) | 一种数据处理方法、装置以及计算机可读存储介质 | |
CN109858031B (zh) | 神经网络模型训练、上下文预测方法及装置 | |
CN114117048A (zh) | 一种文本分类的方法、装置、计算机设备及存储介质 | |
CN114357195A (zh) | 基于知识图谱的问答对生成方法、装置、设备及介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN115098722B (zh) | 文本和图像的匹配方法、装置、电子设备和存储介质 | |
CN116821299A (zh) | 智能问答方法、智能问答装置、设备及存储介质 | |
CN116680401A (zh) | 文档处理方法、文档处理装置、设备及存储介质 | |
CN114445692B (zh) | 图像识别模型构建方法、装置、计算机设备及存储介质 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN115309862A (zh) | 基于图卷积网络和对比学习的因果关系识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |