CN109885832A - 模型训练、语句处理方法、装置、计算机设备及存储介质 - Google Patents

模型训练、语句处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109885832A
CN109885832A CN201910113975.8A CN201910113975A CN109885832A CN 109885832 A CN109885832 A CN 109885832A CN 201910113975 A CN201910113975 A CN 201910113975A CN 109885832 A CN109885832 A CN 109885832A
Authority
CN
China
Prior art keywords
sentence
marked
model
vector
model training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910113975.8A
Other languages
English (en)
Inventor
唐雯静
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910113975.8A priority Critical patent/CN109885832A/zh
Publication of CN109885832A publication Critical patent/CN109885832A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种模型训练、语句处理方法、装置、计算机设备及存储介质,用于减少处理长篇文本或语音时的时候的时间,从而提高处理效率。方法部分包括:获取已进行数据标注的语句数据集,所述语句数据集包括已标注语句,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段;对所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量;将所述每个已标注语句对应的语句向量作为模型训练数据;通过所述模型训练数据对初始门控循环单元模型进行训练,以训练出目标门控循环单元模型。

Description

模型训练、语句处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及模型训练领域,尤其涉及一种模型训练、语句处理方法、装置、计算机设备及存储介质。
背景技术
在工作过程中我们经常使用循环神经网络(Recurrent Neural Network,RNN)对自然语言进行处理,应用范围从机器翻译到智能问答系统。对于某段文本或语音,机器翻译或智能问答系统的主要是利用已训练好的长短时记忆网络(Long Short Term Mermorynetwork,LSTM)模型于理解上述文本数据或语音数据,尽管RNN的语义理解效果不错,但是它必须逐字逐句阅读全部文本或语音,导致处理长篇文本或语音时的时候会消耗大量的时间,效率比较低下。
发明内容
本发明实施例提供了一种模型训练、语句处理方法、装置、计算机设备及存储介质,用于减少处理长篇文本或语音时的时候的时间,从而提高处理效率。
一种模型训练方法,包括:
获取已进行数据标注的语句数据集,所述语句数据集包括已标注语句,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段;
对所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量;
将所述每个已标注语句对应的语句向量作为模型训练数据;
通过所述模型训练数据对初始门控循环单元模型进行训练,以训练出目标门控循环单元模型。
一种语句处理方法,包括:
获取待处理语句;
对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量;
将所述语句向量输入目标门控循环单元模型以获得目标语句,其中,所述目标门控循环单元模型为将语句数据集中的每个已标注语句对应的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。
一种模型训练装置,包括:
获取模块,用于获取已进行数据标注的语句数据集,所述语句数据集包括已标注语句,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段;
转化模块,用于对所述获取模块获取的所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量;
确定模块,用于将所述转化模块转化的所述每个已标注语句对应的语句向量作为模型训练数据;
训练模块,用于通过所述确定模块确定的所述模型训练数据对初始门控循环单元模型进行训练,以训练出目标门控循环单元模型。
一种语句处理装置,包括:
获取模块,用于获取待处理语句;
转化模块,用于对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量;
输入模块,用于将所述语句向量输入目标门控循环单元模型以获得目标语句,其中,所述目标门控循环单元模型为将语句数据集中的每个已标注语句对应的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述模型训练方法或语句处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法或语句处理方法方法。
可见,本发明提供了一种模型训练、语句处理方法、装置、计算机设备及存储介质,由于目标门控循环单元模型为将语句数据集中的每个已标注需阅读字段以及省略阅读字段的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,因此,通过上述目标门控循环单元模型,在理解整篇文本的某段语句的时候,可以跳过一些不需要的无关字段,从而保证只理解语句中所需的少量重要内容,减少了的消耗时间,效率较高。用于减少处理长篇文本或语音时的时候的时间,从而提高处理效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语句处理方法的一网络架构示意图;
图2是本发明一实施例中模型训练方法的一流程示意图;
图3是本发明一实施例中模型训练方法的一流程示意图;
图4是本发明一实施例中模型训练方法的一流程示意图;
图5是本发明一实施例中模型训练方法的一流程示意图;
图6是本发明一实施例中门控循环单元模型神经元单元的一结构示意图;
图7是本发明一实施例中语句处理方法的一流程示意图;
图8是本发明一实施例中模型训练装置的一结构示意图;
图9是本发明一实施例中语句处理装置的一结构示意图;
图10是本发明一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种语句处理方法,该语句处理方法可应用如图1所示的系统架构图中。服务器可获取待处理语句,对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量;将所述语句向量输入目标门控循环单元模型以获得目标语句,其中,所述目标门控循环单元模型为将语句数据集中的每个已标注语句对应的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。这样,通过上述目标门控循环单元模型,在读取整篇文本的某段语句的时候,可以跳过一些不需要的无关字段,从而保证只读取语句中所需的少量重要内容,减少了的设备理解语句时间,效率较高。其中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可见,上述语句处理方法中应用了目标门控循环单元模型,下面先通过具体实施例对模型训练过程进行描述:
首先,请参阅图2,本发明实施例提出了一种模型训练方法,具体包括如下步骤:
S10:获取已进行数据标注的语句数据集,所述语句数据集包括已标注语句,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。
本发明实施例先获取由大量已进行数据标注的已标注语句所组成的语句数据集,其中,上述大量的已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段,也就是说,语句数据集中的每个已标注语句包含了用于标注需阅读字段的标注标签,以及用于标注省略阅读字段的标注标签。
可以理解的是,上述进行数据标注的目的在于后续模型学习出某句子中需阅读的字段,以及可以省略阅读的字段。
S20:对所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量。
在获取了语句数据集中,对所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量。
S30:将所述每个已标注语句对应的语句向量作为模型训练数据。
可以理解,未标注语句对应的语句向量相当于是一个“记录数据集”,其中每个记录都是关于某个句子的描述,通常也被称为一个“示例(instance)”或“样本(sample)”,上述样本或示例用于反映未标注语句在某方面的表现或性质,为了使得后续训练出可以确定待识别句子中,哪些字段需要阅读,哪些需要省略阅读的模型,在本发明实施例,还需要对未标注语句进行标注,从而得到已标注语句,已标注语句对应的语句向量则是包含了该未标注语句的结果信息,即句子中哪些字段是不需要阅读的,哪些字段是需要阅读,并通过标注标签的形式进行表示,拥有了标注标签的示例,即已标注语句对应的语句向量,可称为样例,该样例,也即该已标注语句对应的语句向量即可作为模型训练数据,用于后续模型徐训练所用的样本数据。
S40:通过所述模型训练数据对初始门控循环单元模型进行训练,以训练出目标门控循环单元模型。
在得到模型训练数据后,可通过模型训练数据对对初始门控循环单元(GatedRecurrent Unit,GRU)模型进行训练,从而得到目标门控循环单元模型。
可见,本发明实施例提供了一种模型训练方法,利用大量包含用于标注需阅读字段的标注标签,以及用于标注省略阅读字段的标注标签对初始门控循环单元模型进行训练,一方面通过包含上述标注结果的模型训练数据,可训练出可以跳过一些不需要的无关字段,从而保证只读取语句中所需的少量重要内容的目标门控循环单元模型,另一方面,采用了门控循环单元模型,由于门控循环单元模型训练参数较少,在一定程度上,也可以减少训练时间,模型训练效率较高。
需要说明的是,为了提高模型识别准确率,在本发明实施例中,可获取某个固定领域,例如保险领域的语句进行数据标注,具体地,可预先收集某个领域或行业的语料作为上述语句,从而构成语料数据集,例如,从网上采用爬虫的方式收集保险领域内的语料,从而收集到保险领域的语料。需要说明的是,在具体实现中,可以“保险”、“保单”等与保险领域相关的词作为关键字进行搜索,从而得到上述保险领域的语句,得到包含该语句的语料数据集,并对上述语料数据集中的每个语句进行人工标注,从而得到包含已标注语句的语句数据集。通过以某个领域对应的语句数据集进行训练,可提高训练针对性,使得后续通过该目标门控循环单元模型的识别该领域的语句的省略阅读字段时,可提高识别正确率。例如,在保险机器客服中,利用上述目标门控循环单元模型,可减少保险机器客服理解客户的用意的速率和准确率。例如,若客户向保险机器客服反馈:“我先看一下保单,你稍等,我考虑考虑利弊再作决定”,对于可抓取部分内容就可以对这句话的主体内容做出判断,即“我先看下保单”,对于保险机器客服而言,只需理解出我先看下保单的含义即能理解上述客户反馈的内容。
在一实施例中,如图3所示,步骤S20中,也即对所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量,具体包括如下步骤:
S21:对所述语句数据集中的每个已标注语句进行填充处理以获得固定长度的所述已标注语句。
S22:对所述已进行填充处理的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量。
对于步骤S21-S22,通过对所述语句数据集中的每个已标注语句进行填充处理以获得固定长度的所述已标注语句,可以得到规整后已标注语句,有利于后续模型的训练,具体地,可采用padding(right padding)的方式把已标注语句填充为固定长度。例如,当已标注语太短时,可通过补“0”的方式进行固定。需要说明的是,在实际应用中,可从语料数据集中确定语句最长的语句作为标准,基于上述最长的语句进行填充处理,以获得固定长度的所述已标注语句。对于步骤S21,在对所述语句数据集中的每个已标注语句进行填充处理以获得固定长度的所述已标注语句,对所述已进行填充处理的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量。
在一实施例中,如图4所示,步骤S22中,即对所述已进行填充处理的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量,具体包括如下步骤:
S221:针对所述已进行填充处理的所述已标注语句,采用预设分词算法进行分词处理。
S222:针对经过所述分词处理的每个已标注语句中的每个词,采用预设向量构建算法构建词向量。
S223:将所述每个已标注语句中的每个词向量,对应构成每个所述已标注语句对应的语句向量。
在一实施例中,所述针对所述语句数据集中的每个已标注语句,采用预设分词算法进行分词处理,包括:针对所述语句数据集中的每个已标注语句,采用全切分词方法进行分词处理;所述针对经过所述分词处理的每个已标注语句中的每个词,采用预设向量构建算法构建词向量,包括:针对经过所述分词处理的每个已标注语句中的每个词,采用onehot key方法构建词向量。以理解,在可以将已标注语句进行分词,该已标注语句分词后的所有分词作为该已标注语句总体的特征数目,并进行one-hot编码,已标注语句对应的每一个分词就是一个one-hot向量,并将每个分词对应的one-hot向量作为该已标注语句的表示方式,这样一个已标注句子就是一个二维向量,向量的行数是这个句子包含的分词总数。需要说明的是,除了采用全切分词方法进行分词处理外,还可以采用其他方式对每个已标注语句进行分词,具体这里不做限定,例如,还可以采用基于词典、语库的分词方式。可另外需要说明的是,除了采用one hot key方法,对每个已标注语句中的每个分词构建词向量外,还可以采用其他构建词向量的方式,具体这里也不做限定,例如采用word2vec方法构建每个已标注语句对应的词向量。这样,通过上述方式,可以得到每个已标注语句的对应的语句向量,使得方案可实施。
在一实施例中,如图5所示,步骤S40中,也即所述将所述句子矩阵作为训练数据,对初始门控循环单元模型进行训练,以训练出目标门控循环单元模型,具体如下步骤:
S41:初始化所述初始门控循环单元模型的初始模型参数,所述初始模型参数包括Wz、Uz、Wr、Ur、Wh和Uh,其中,所述Wz表示当前时刻的输入到当前时刻的重置门z的连接矩阵,所述Uz表示上一时刻的隐藏层到所述重置门z的连接矩阵,所述Wr表示当前时刻的输入到当前时刻的更新门r的连接矩阵,所述Ur表示上一时刻的隐藏层到当前时刻的所述更新门r的连接矩阵;所述Wh表示当前时刻的输入到当前时刻的隐藏层的候选隐藏状态的连接矩阵,所述Uh表示当前时刻的输入和上一时刻的隐藏层到候选隐藏状态的连接矩阵。
可以理解,门控循环单元模型是长短时记忆网络(Long Short Term Mermorynetwork,LSTM)的一种变形,而LSTM是一种时间递归神经网络,适合处理和预测时间序列中间隔和延迟相对较长的重要事件。门控循环单元模型不同于LSTM的在于,门控循环单元模型不在需要三个门计算对模型的输入信息进行判断,而只需要一个更新门和一个重置门,当输入模型训练数据后,可以通过学习需省略阅读的字段以及需阅读字段。其中,门控循环单元模型包括多个用于处理不同时刻的输入的神经元单元,其中,每个神经元单元的结构如图6所示,包括更新门以及重置门,各个门之间又包括输入层、隐藏层和输出层,下面分别对上述更新门以及重置门做介绍:
重置门的计算公式如下所示:
zt=σ(Wzxt+Uzht-1+bz);
其中,用t时刻表示当前时刻,xt表示t时刻的输入,所述Wz表示t时刻的输入到t时刻的重置门zt的连接矩阵,所述Uz表示上一时刻(t-1时刻)的隐藏层到t时刻的所述重置门zt的连接矩阵,σ为sigmoid函数,bz为常量值,其中,zt表示第t个时刻的重置门,该重置门会根据t时刻的输入xt与前一时刻(t-1时刻)的记忆(即t-1时刻的隐藏状态ht-1)计算在t时刻需要保留多少前一时刻(t-1时刻)的记忆(即t-1时刻的隐藏状态ht-1)。
更新门的计算公式如下所示:
rt=σ(Wrxt+Urht-1+br)
其中,xt表示t时刻的输入,所述Wr表示t时刻的输入到t时刻的更新门rt的连接矩阵,所述Ur表示上一时刻(t-1时刻)的隐藏层到t时刻的所述更新门rt的连接矩阵,σ为sigmoid函数,bz为常量值,其中rt表示第t个时刻的更新门,该更新门rt会根据Sigmoid函数判断t时刻的信息xt与前一时刻(t-1时刻)多少的记忆(即t-1时刻的隐藏状态ht-1)形成新的记忆(即t时刻的隐藏状态ht)。
隐藏状态方程为:
其中,ht表示t时刻的隐藏状态,表示t时刻的候选隐藏状态。
候选隐藏状态方程为:
其中,ht-1表示t-1时刻的隐藏状态,所述Wh表示t时刻的输入到t时刻的候选隐藏状态的连接矩阵,所述Uh上一时刻(t-1)的隐藏层到候选隐藏状态的连接矩阵。
可见,初始模型参数包括上述方程、公式所涉及到的参数:包括Wz、Uz、Wr、Ur、Wh和Uh,在本发明实施例中,需初始化上述在具体实现上,上述各个模型参数的初始值可根据经验值进行配置,这里不做限制。
S42:通过标准梯度算法和所述模型训练数据对已初始化所述初始模型参数的所述初始门控循环单元模型进行训练,以获得使模型收敛的更新模型参数。
可以理解,在前述描述中已经提到,模型训练数据是由已标注语句对应的语句向量得到的,在本发明实施例中,可将每个已标注语句对应的语句向量的每个词向量输入上述经过模型参数初始化后的初始门控循环单元模型中,通过标准梯度算法和所述模型训练数据对已初始化所述初始模型参数的所述初始门控循环单元模型进行训练,以获得的使模型收敛的更新模型参数。需要说明的是,在实际应用中,可将模型训练数据标准化处理,使得模型训练数据的值处于[0,1],然后将每个模型训练数据xt={x1,...,xT}中的xt作为在初始门控循环单元模型t时刻的输入,输入到t时刻对应的神经元单元中,xt代表输入语句向量中的第t步元素,例如语句中的一个分词,使用一个one-hot向量来表示,该语句向量的长度是训练所用的分词的总数,通过上述该t时刻对应的神经元单元的更新门与重置门的逻辑计算,得到该t时刻对应的隐藏状态,通过标准梯度算法和所述模型训练数据对已初始化所述初始模型参数的所述初始门控循环单元模型进行训练,以得到让模型收敛的更新模型参数。
需要说明的是,在利用标准梯度算法求解上述更新模型参数时,具体地,可采用批量梯度下降法、随机梯度下降法或小批量梯度下降法进行求解,具体过程这里不详细阐述。
S43:将所述更新模型参数作为所述初始门控循环单元模型的最终模型参数,以获得所述目标门控循环单元模型。
在通过标准梯度算法和所述模型训练数据对已初始化所述初始模型参数的所述初始门控循环单元模型进行训练,以获得使模型收敛的更新模型参数之后,将所述更新模型参数作为所述初始门控循环单元模型的最终模型参数,以获得所述目标门控循环单元模型。
在一实施例中,如图7所示,提供一种语句处理方法,包括如下步骤:
S100:获取待处理语句。
可以理解,上述待处理语句指的是待处理文本中的任意一段语句。具体地,可以以待处理文本中的标点符号作为分句依据,例如句号作为依据,从而将待处理文本划分为待处理语句。需要说明的是,上述待处理语句也可以是指由客户发起的一句语音转化而来的,具体由实际应用场景决定,这里不做限定。
S200:对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量。
在本发明实施例中,可针对所述待处理语句,采用预设分词算法进行分词处理,并针对经过所述分词处理的待处理语句中的每个词,采用预设向量构建算法构建词向量;将所述已处理语句中的每个词向量,对应构成该待处理语句对应的语句向量。具体地对待处理语句进行词向量转化,从而得到上述待处理语句对应的语句向量。其中,对待处理语句进行词向量转化,从而得到上述待处理语句对应的语句向量的过程,可参阅前述实施例描述的词向量转化方式,这里
在一实施例中,所述对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量,包括:对所述待处理语句采用全切分词方法进行分词处理;针对经过所述分词处理的所述待处理语句中的每个词,采用wone hot key方法构建词向量;将所述待处理语句的每个词向量,对应构成所述待处理语句对应的语句向量。
S300:将所述语句向量输入目标门控循环单元模型以获得目标语句,其中,所述目标门控循环单元模型为将语句数据集中的每个已标注语句对应的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。
其中,关于上述目标门控循环单元模型的训练过程可参阅前述实施例中的描述这里不再赘述。可见,在本发明实施例提供的语句处理方法中,通过上述目标门控循环单元模型,在读取整篇文本的某段语句的时候,可以跳过一些不需要的无关字段,从而保证只理解待处理语句中所需的少量重要内容,减少了的消耗时间,效率较高。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种模型训练装置,该模型训练装置与上述实施例中模型训练方法一一对应。如图8所示,该模型训练装置10包括获取模块101、转化模块102、确定模块103和训练模块104。各功能模块详细说明如下:
获取模块101,用于获取已进行数据标注的语句数据集,所述语句数据集包括已标注语句,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段;
转化模块102,用于对所述获取模块101获取的所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量;
确定模块103,用于将所述转化模块102转化的所述每个已标注语句对应的语句向量作为模型训练数据;
训练模块104,用于通过所述确定模块103确定的所述模型训练数据对初始门控循环单元模型,以训练出目标门控循环单元模型。
在一实施例中,所述转化模块102包括:
填充单元1021:用于对所述语句数据集中的每个已标注语句进行填充处理以获得固定长度的所述已标注语句;
转化单元1022,用于对所述已进行填充处理的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量。
在一实施例中,转化单元1021具体用于:
针对所述已进行填充处理的所述已标注语句,采用预设分词算法进行分词处理;
针对经过所述分词处理的每个已标注语句中的每个词,采用预设向量构建算法构建词向量;
将所述每个已标注语句中的每个词向量,对应构成每个所述已标注语句对应的语句向量。
所述转化单元1021用于针对所述语句数据集中的每个已标注语句,采用预设分词算法进行分词处理,包括:
所述转化单元1021用于:
针对所述语句数据集中的每个已标注语句,采用全切分词方法进行分词处理;
所述针对经过所述分词处理的每个已标注语句中的每个词,采用预设向量构建算法构建词向量,包括:
针对经过所述分词处理的每个已标注语句中的每个词,采用wone hot key方法构建词向量。
在一实施例中,所述训练模块具体用于:
初始化所述初始门控循环单元模型的初始模型参数,所述初始模型参数包括Wz、Uz、Wr、Ur、Wh和Uh,其中,所述Wz表示当前时刻的输入到当前时刻的重置门z的连接矩阵,所述Uz表示上一时刻的隐藏层到所述重置门z的连接矩阵,所述Wr表示当前时刻的输入到当前时刻的更新门r的连接矩阵,所述Ur表示上一时刻的隐藏层到当前时刻的所述更新门r的连接矩阵;所述Wh表示当前时刻的输入到当前时刻的候选隐藏状态的连接矩阵,所述Uh表示上一时刻的隐藏层到候选隐藏状态的连接矩阵;
通过标准梯度算法和所述模型训练数据对已初始化所述初始模型参数的所述初始门控循环单元模型进行训练,以获得使所述初始门控循环单元模型收敛的更新模型参数;
将所述更新模型参数作为所述初始门控循环单元模型的最终模型参数,以获得所述目标门控循环单元模型。
可见,本发明实施例提供了一种模型训练装置,该模型训练装置利用大量包含用于标注需阅读字段的标注标签,以及用于标注省略阅读字段的标注标签对初始门控循环单元模型进行训练,一方面通过包含上述标注结果的模型训练数据,可训练出可以跳过一些不需要的无关字段,从而保证只读取语句中所需的少量重要内容的目标门控循环单元模型,另一方面,采用了门控循环单元模型,由于门控循环单元模型训练参数较少,在一定程度上,也可以减少训练时间,模型训练效率较高。
在一实施例中,提供一种语句处理装置,该语句处理装置与上述实施例中语句处理方法一一对应。如图9所示,该语句处理装置20包括获取模块201、转化模块202、输入模块203。各功能模块详细说明如下:
获取模块201,用于获取待处理语句;
转化模块202,用于对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量;
输入模块203,用于将所述语句向量输入目标门控循环单元模型以获得目标语句,其中,所述目标门控循环单元模型为将语句数据集中的每个已标注语句对应的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。
可见,在本发明实施例提供的语句处理装置中,该语句处理装置通过上述目标门控循环单元模型,在读取整篇文本的某段语句的时候,可以跳过一些不需要的无关字段,从而保证只理解待处理语句中所需的少量重要内容,减少了的消耗时间,效率较高。
关于模型训练装置和语句处理装置的具体限定可以对应参阅上文中对于模型训练方法以及语句处理方法的限定,在此不再赘述。上述模型训练装置或语句处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于获取语句数据集等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型训练方法或语句处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取已进行数据标注的语句数据集,所述语句数据集包括已标注语句,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段;
对所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量;
将所述每个已标注语句对应的语句向量作为模型训练数据;
通过所述模型训练数据对初始门控循环单元模型进行训练,以训练出目标门控循环单元模型。
或,
获取待处理语句;
对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量;
将所述语句向量输入目标门控循环单元模型以获得目标语句,其中,所述目标门控循环单元模型为将语句数据集中的每个已标注语句对应的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取已进行数据标注的语句数据集,所述语句数据集包括已标注语句,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段;
对所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量;
将所述每个已标注语句对应的语句向量作为模型训练数据;
通过所述模型训练数据对初始门控循环单元模型进行训练,以训练出目标门控循环单元模型。
或,
获取待处理语句;
对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量;
将所述语句向量输入目标门控循环单元模型以获得目标语句,其中,所述目标门控循环单元模型为将语句数据集中的每个已标注语句对应的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获取已进行数据标注的语句数据集,所述语句数据集包括已标注语句,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段;
对所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量;
将所述每个已标注语句对应的语句向量作为模型训练数据;
通过所述模型训练数据对初始门控循环单元模型进行训练,以训练出目标门控循环单元模型。
2.如权利要求1所述的模型训练方法,其特征在于,所述对所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量,包括:
对所述语句数据集中的每个已标注语句进行填充处理以获得固定长度的所述已标注语句;
对所述已进行填充处理的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量。
3.如权利要求2所述的模型训练方法,其特征在于,所述对所述已进行填充处理的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量,包括:
针对所述语句数据集中的每个已标注语句,采用全切分词方法进行分词处理;
针对经过所述分词处理的每个已标注语句中的每个词,采用wone hot key方法构建词向量;
将所述每个已标注语句中的每个词向量,对应构成每个所述已标注语句对应的语句向量。
4.如权利要求1-3任一项所述的模型训练方法,其特征在于,所述通过所述模型训练数据对初始门控循环单元模型,以训练出目标门控循环单元模型,包括:
初始化所述初始门控循环单元模型的初始模型参数,所述初始模型参数包括Wz、Uz、Wr、Ur、Wh和Uh,其中,所述Wz表示当前时刻的输入到当前时刻的重置门z的连接矩阵,所述Uz表示上一时刻的隐藏层到所述重置门z的连接矩阵,所述Wr表示当前时刻的输入到当前时刻的更新门r的连接矩阵,所述Ur表示上一时刻的隐藏层到当前时刻的所述更新门r的连接矩阵;所述Wh表示当前时刻的输入到当前时刻的候选隐藏状态的连接矩阵,所述Uh表示上一时刻的隐藏层到候选隐藏状态的连接矩阵;
通过标准梯度算法和所述模型训练数据对已初始化所述初始模型参数的所述初始门控循环单元模型进行训练,以获得使所述初始门控循环单元模型收敛的更新模型参数;
将所述更新模型参数作为所述初始门控循环单元模型的最终模型参数,以获得所述目标门控循环单元模型。
5.一种语句处理方法,其特征在于,包括:
获取待处理语句;
对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量;
将所述语句向量输入目标门控循环单元模型以获得目标语句,其中,所述目标门控循环单元模型为将语句数据集中的每个已标注语句对应的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。
6.如权利要求5所述的语句处理方法,其特征在于,所述对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量,包括:
对所述待处理语句采用全切分词方法进行分词处理;
针对经过所述分词处理的所述待处理语句中的每个词,采用wone hot key方法构建词向量;
将所述待处理语句的每个词向量,对应构成所述待处理语句对应的语句向量。
7.一种模型训练装置,其特征在于,包括:
获取模块,用于获取已进行数据标注的语句数据集,所述语句数据集包括已标注语句,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段;
转化模块,用于对所述获取模块获取的所述语句数据集中的所述已标注语句进行词向量转化,以获得每个已标注语句对应的语句向量;
确定模块,用于将所述转化模块转化的所述每个已标注语句对应的语句向量作为模型训练数据;
训练模块,用于通过所述确定模块确定的所述模型训练数据对初始门控循环单元模型进行训练,以训练出目标门控循环单元模型。
8.一种语句处理装置,其特征在于,包括:
获取模块,用于获取待处理语句;
转化模块,用于对所述待处理语句进行词向量转化,以获得所述待处理语句对应的语句向量;
输入模块,用于将所述语句向量输入目标门控循环单元模型以获得目标语句,其中,所述目标门控循环单元模型为将语句数据集中的每个已标注语句对应的语句词向量作为模型训练数据,并通过所述模型训练数据对初始门控循环单元模型进行训练得到,所述已标注语句包含对应的标注标签,所述标注标签用于标注需阅读字段和省略阅读字段。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的模型训练方法,或实现如权利要求5至6任一项所述的语句处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的模型训练方法,或实现如权利要求5至6任一项所述的语句处理方法。
CN201910113975.8A 2019-02-14 2019-02-14 模型训练、语句处理方法、装置、计算机设备及存储介质 Pending CN109885832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910113975.8A CN109885832A (zh) 2019-02-14 2019-02-14 模型训练、语句处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910113975.8A CN109885832A (zh) 2019-02-14 2019-02-14 模型训练、语句处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109885832A true CN109885832A (zh) 2019-06-14

Family

ID=66928246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910113975.8A Pending CN109885832A (zh) 2019-02-14 2019-02-14 模型训练、语句处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109885832A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379407A (zh) * 2019-07-22 2019-10-25 出门问问(苏州)信息科技有限公司 自适应语音合成方法、装置、可读存储介质及计算设备
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110838287A (zh) * 2019-10-16 2020-02-25 中国第一汽车股份有限公司 车载环境下聊天机器人的语料处理方法、装置及存储介质
CN110941717A (zh) * 2019-11-22 2020-03-31 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
CN111753495A (zh) * 2019-11-07 2020-10-09 北京沃东天骏信息技术有限公司 意图语句预测模型构建方法及装置、设备及存储介质
WO2020253648A1 (zh) * 2019-06-19 2020-12-24 腾讯科技(深圳)有限公司 翻译方法、机器翻译模型的训练方法、装置及存储介质
CN112580329A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 文本噪声数据识别方法、装置、计算机设备和存储介质
CN112732875A (zh) * 2021-01-20 2021-04-30 珠海格力电器股份有限公司 一种语料数据标签的确定方法和装置
WO2023125985A1 (zh) * 2021-12-31 2023-07-06 华为技术有限公司 模型的数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015969A (zh) * 2017-05-19 2017-08-04 四川长虹电器股份有限公司 可自我更新的语义理解系统与方法
CN108038208A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 上下文信息识别模型的训练方法、装置和存储介质
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN109241330A (zh) * 2018-08-20 2019-01-18 北京百度网讯科技有限公司 用于识别音频中的关键短语的方法、装置、设备和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015969A (zh) * 2017-05-19 2017-08-04 四川长虹电器股份有限公司 可自我更新的语义理解系统与方法
CN108038208A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 上下文信息识别模型的训练方法、装置和存储介质
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN109241330A (zh) * 2018-08-20 2019-01-18 北京百度网讯科技有限公司 用于识别音频中的关键短语的方法、装置、设备和介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253648A1 (zh) * 2019-06-19 2020-12-24 腾讯科技(深圳)有限公司 翻译方法、机器翻译模型的训练方法、装置及存储介质
CN110379407A (zh) * 2019-07-22 2019-10-25 出门问问(苏州)信息科技有限公司 自适应语音合成方法、装置、可读存储介质及计算设备
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN112580329A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 文本噪声数据识别方法、装置、计算机设备和存储介质
CN112580329B (zh) * 2019-09-30 2024-02-20 北京国双科技有限公司 文本噪声数据识别方法、装置、计算机设备和存储介质
CN110838287A (zh) * 2019-10-16 2020-02-25 中国第一汽车股份有限公司 车载环境下聊天机器人的语料处理方法、装置及存储介质
CN111753495A (zh) * 2019-11-07 2020-10-09 北京沃东天骏信息技术有限公司 意图语句预测模型构建方法及装置、设备及存储介质
CN110941717A (zh) * 2019-11-22 2020-03-31 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
CN110941717B (zh) * 2019-11-22 2023-08-11 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
CN112732875A (zh) * 2021-01-20 2021-04-30 珠海格力电器股份有限公司 一种语料数据标签的确定方法和装置
WO2023125985A1 (zh) * 2021-12-31 2023-07-06 华为技术有限公司 模型的数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN109885832A (zh) 模型训练、语句处理方法、装置、计算机设备及存储介质
CN107506414B (zh) 一种基于长短期记忆网络的代码推荐方法
CN110019471B (zh) 从结构化数据生成文本
CN112288075B (zh) 一种数据处理方法及相关设备
Ren et al. A sequence to sequence learning for Chinese grammatical error correction
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN116415654A (zh) 一种数据处理方法及相关设备
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN109871531A (zh) 隐含特征提取方法、装置、计算机设备及存储介质
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN113032585B (zh) 一种基于文档结构和外部知识的文档级实体关系抽取方法
CN113128232B (zh) 一种基于albert与多重词信息嵌入的命名实体识别方法
Gong et al. Continual pre-training of language models for math problem understanding with syntax-aware memory network
CN114386409A (zh) 基于注意力机制的自蒸馏中文分词方法、终端及存储介质
CN113011136B (zh) 基于相关性判断的sql解析方法、装置和计算机设备
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
Zhang A study on the intelligent translation model for English incorporating neural network migration learning
Sha et al. A Prompt-Based Representation Individual Enhancement Method for Chinese Idiom Reading Comprehension
CN114936564A (zh) 一种基于对齐变分自编码的多语言语义匹配方法及系统
CN111476035B (zh) 中文开放关系预测方法、装置、计算机设备和存储介质
Han et al. Latent variable autoencoder
Julian Deep learning with pytorch quick start guide: learn to train and deploy neural network models in Python
CN114372467A (zh) 命名实体抽取方法及装置、电子设备、存储介质
CN112257461A (zh) 一种基于注意力机制的xml文档翻译及评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination