CN110866404A - 基于lstm神经网络的词向量生成方法及装置 - Google Patents
基于lstm神经网络的词向量生成方法及装置 Download PDFInfo
- Publication number
- CN110866404A CN110866404A CN201911045096.2A CN201911045096A CN110866404A CN 110866404 A CN110866404 A CN 110866404A CN 201911045096 A CN201911045096 A CN 201911045096A CN 110866404 A CN110866404 A CN 110866404A
- Authority
- CN
- China
- Prior art keywords
- neural network
- lstm neural
- word
- word vector
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种基于LSTM神经网络的词向量生成方法及装置,其中方法包括根据多个译员的语料的初始词向量训练双向LSTM神经网络;从多个译员中确定目标译员,根据目标译员的语料对应的编辑行为数据训练词向量模型;将多个译员的语料输入至训练后的词向量模型,根据单向LSTM神经网络的输出获得中间词向量;根据目标译员的语料的中间词向量调整双向LSTM神经网络;将多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务。
Description
技术领域
本发明涉及语言模型技术领域,更具体地,涉及基于LSTM神经网络的词向量生成方法及装置。
背景技术
词作为语言中基本的语义单元,将词表征成向量(词向量)作为模型的输入,是当前自然语言处理过程中非常重要和基础步骤。传统方法往往通过独热编码、PMI或PPMI矩阵、共现矩阵和SVD矩阵分解等技术获取词向量。
2012年左右,将深度学习的技术应用于自然语言处理日益流行,基于神经网络的词向量模型随之提出,其中包括Skip-gram,CBOW和GloVe等。这些新的词表征方法更好地捕捉词和词之间的语义相关性,其应用在实体识别,语音识别,文本分类,语言模型,智能问答等任务方向上都取得了不小的进步。
然而,语言中存在一词多义的现象,例如英文单词tie有接近十多种不同的语义,因此一个词对应一个向量的方式并不能充分体现出词的语义。在翻译任务中,如果将相同的翻译稿件由不同译员来翻译,往往会产生不同的翻译结果。这种措辞用句上的个性化来源于每位译员本身的特质,其中包括他们的教育背景,翻译经验,年龄层次等各种方面。如何将这些个性化因子加入模型,从而更好地辅助译员翻译,也是一个需要解决、非常有挑战的研究课题。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于LSTM神经网络的词向量生成方法及装置。
第一个方面,本发明实施例提供一种基于LSTM神经网络的词向量生成方法,包括:
根据多个译员的语料的初始词向量训练双向LSTM神经网络;
从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
将所述多个译员的语料输入至训练后的所述词向量模型,根据单向LSTM神经网络的输出获得中间词向量;
根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络;
将所述多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述单向LSTM神经网络和所述双向LSTM神经网络,所述单向LSTM神经网络的输出层与所述双向LSTM神经网络的输入层连接。
所述根据多个译员的语料初始词向量训练所述双向LSTM神经网络,具体为:
从预设的初始词向量库中确定所述多个译员的语料的词向量,作为初始词向量;
利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述双向LSTM神经网络。
进一步地,所述根据所述目标译员的语料对应的编辑行为数据训练所述词向量模型,具体为:
将每个编辑行为数据用一一对应的、初始化的字符向量进行表征;
以目标译员的语料中在前词例的编辑行为数据的字符向量为样本,以所述在前词例的后续词例的概率为样本标签,训练所述词向量模型,以获得训练后的字符向量。
进一步地,所述根据单向LSTM神经网络的输出获得中间词向量,具体为:
根据训练后的字符向量获得多个译员中的语料的每个词例的向量表示,将所述向量表示输入至训练后的词向量模型,将单向LSTM神经网络的输出作为中间词向量。
进一步地,所述根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络,具体为:
利用所述目标译员的语料的中间词向量,从语料的正序和反序,训练所述双向LSTM神经网络。
进一步地,所述利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述双向LSTM神经网络,具体为:
将所述多个译员的语料中在前词例为样本,以所述在前词例的后续词例的概率为样本标签,训练所述双向LSTM神经网络;
之后将所述多个译员的语料中在后词例为样本,以所述在后词例的前序词例的概率为样本标签,再次训练所述双向LSTM神经网络。
进一步地,所述根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量,具体为:
获取所述双向LSTM神经网络产生的用于正序预测的向量和用于反序预测的向量,将所述用于正序预测的向量和用于反序预测的向量求和,获得最终的词向量。
第二个方面,本发明实施例提供一种基于LSTM神经网络的词向量生成装置,包括:
全量训练模块,用于根据多个译员的语料的初始词向量训练双向LSTM神经网络;
定量训练模块,用于从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
中间量生成模块,用于将所述多个译员的语料输入至训练后的所述词向量模型,根据单向LSTM神经网络的输出获得中间词向量;
调整模块,用于根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络;
输出模块,用于将所述多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述单向LSTM神经网络和所述双向LSTM神经网络,所述单向LSTM神经网络的输出层与所述双向LSTM神经网络的输入层连接。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的基于LSTM神经网络的词向量生成方法及装置,根据多个译员的语料(全量样本)训练双向LSTM神经网络,使得双向LSTM神经网络具有通用的翻译风格,将目标译员的编辑行为数据作为体现译员措辞用句的表征,通过编辑行为数据对词向量模型进行训练,实现通过少量样本增强词向量模型刻画译员翻译风格的目的,之后再利用全量样本输入至训练后的词向量模型,将单向LSTM神经网络的输出作为中间词向量,中间词向量相比原始词向量在上下文语义以及目标译员的风格上都更加准确,然后将目标译员的语料的中间词向量调整双向LSTM神经网络,使得双向LSTM神经网络在刻画目标译员的风格上更加准确,最后将全量样本输入至调整后的双向LSTM神经网络,即可获得大量能够准确体现上下文语义同时更符合目标译员的翻译风格的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务(要求词向量作为输入的模型任务)。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于LSTM神经网络的词向量生成方法的流程示意图;
图2为本发明实施例的根据语料的正序训练双向LSTM神经网络的流程示意图;
图3为本发明实施例的根据语料的反序训练双向LSTM神经网络的流程示意图;
图4为本发明实施例提供的基于LSTM神经网络的词向量生成装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例适用于由字母构成的语言,比如英文、法文、德文、西班牙文等,也适用于由非字母元素构成但是能够便利地映射为字母的语言,比如中文(可以映射为拼音字母)、日文(可以映射为罗马字母)等。为了便于描述,以下各实施例主要针对英文的场景,对本发明实施例的方案进行说明
图1为本发明实施例的基于LSTM神经网络的词向量生成方法的流程示意图,该流程的执行主体比如包括以下至少一种设备:个人计算机、大中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。
图1中的流程可以包括以下步骤:
S101、根据多个译员的语料的初始词向量训练双向LSTM神经网络。
在本发明实施例中,语料指语言材料,语料是构成语料库的基本单元。译员指翻译人员,用于将某一语言的语料翻译成其他语言的语料。可以理解的是,不同译员可能对同一语料翻译出不同的风格,因此采集多个译员的语料即可获得不同风格的翻译结果。本发明实施例的译员的语料是指同一种目标语言的翻译结果,例如都为中译英任务的英文翻译结果。
双向LSTM神经网络的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络(RNN),而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息,相比单向LSTM神经网络能够提取更准确的上下文信息。本发明实施例利用双向LSTM神经网络的上述特点,通过利用多个译员的语料的初始词向量以及上下文关系训练双向LSTM神经网络,从而获得具有通用翻译风格的双向LSTM神经网络。
在本发明实施例中,初始词向量是通过通用语料库通过词向量训练而来的,其目的是提出一个表征词例的通用含义的特征向量,具体地,可以通过下载最新的维基百科的英文单语语料集,并进行分词,然后利用Skip-Gram等算法进行英文词向量的训练,其中一些重要的超参数可以设置为:词向量的维度为300,上下文窗口为5。
可以理解的是,双向LSTM神经网络的训练过程可以概括为,利用语料的前n-1个词例的初始词向量,预测第n个词例出现的概率,当概率的结果符合预设阈值时,双向LSTM神经网络停止训练。
S102、从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型。
本发明实施例的词向量模型包括单向LSTM神经网络和双向LSTM神经网络,单向LSTM神经网络的输出层与所述双向LSTM神经网络的输入层连接。单向LSTM神经网络是比双向LSTM神经网络结构简单的一种LSTM神经网络,其与双向LSTM神经网络的区别在于单向LSTM神经网络通常只以语料的正序进行训练,并不需要考虑语料的反序,尽管在准确度上稍低,但是训练效率更高。本发明实施例的词向量模型之所以在双向LSTM神经网络的前端设置单向LSTM神经网络,其目的是:
第一方面是为了获取词例的较准确的上下文信息,相比卷积神经网络,能够为后续的双向LSTM神经网络提供的输入量;
第二方面,由于本发明实施例的单向LSTM神经网络的输出直接作为双向LSTM神经网络的输入,因此单向LSTM神经网络的训练并不需要设置额外的标签(额外的标签是指除训练双向LSTM神经网络所需的标签以外的标签),从而降低模型训练的复杂度;
第三方面,由于目标译员的语料数量相对于所有译员的语料数量仅是其中的一部分,因此通过一部分语料训练词向量模型能够减少训练的数据量,减少训练耗时;
第四方面,通过将单向LSTM神经网络和双向LSTM神经网络进行联合训练,使得整个词向量模型融入目标译员的翻译风格,进而利用融入目标译员的翻译风格的单向LSTM神经网络的输出,作为后续代替原始词向量的中间词向量。
需要说明的是,本发明实施例并不限制目标译员的具体选择的规则,在实际应用中,目标译员可以是具有更高翻译质量和翻译风格辨识度的译员。
译员的编辑行为数据是指译员在翻译时产生的编辑行为数据,该数据以句子(已分词)中的每个词例(token)为单位进行记录,即根据时序顺序记录用户敲击键盘按键的序列。此序列完成了句子中的某一个词例。
例如,一个英文翻译结果(语料):The skill building is important。通过分词产生的词例为:“The|skill|building|is|important|.”,其中“|”表示分词符号。
对于词例“The”,按键序列为:t->删除->T->h->e;
对于词例“skill”,按键序列为:s->k->i->l->l->s->删除;
对于词例“building”,按键序列为:d->e->v->e->删除->删除->删除->删除->b->u->i->l->d->d->i->n->g->向左->向左->向左->删除;
对于词例“is”,按键序列为“i->s”;
对于词例“important”,按键序列为“i->m->p->o->r->a->n->t->向左->向左->向左->t”;
对于词例“.”,按键序列为“。->删除->.”
上述按键序列中的“->”无实际意义,仅为方便说明按键的输入过程,因此,对于上述语料,该语料对应的编辑行为数据即所有词例的按键序列的集合。
本发明实施例的经过步骤S102训练后的词向量模型,一方面双向LSTM神经网络在融合了多种翻译风格的语义后,进一步强化了目标译员的翻译风格的语义,另一方面,单向LSTM神经网络也能够融合目标译员的翻译风格的语义。
S103、将所述多个译员的语料输入至训练后的所述词向量模型,将单向LSTM神经网络的输出作为中间词向量。
需要说明的是,通过将多个译员的语料输入至训练后的词向量模型,单向LSTM神经网络的输出就是具有目标译员翻译风格的特征,将该特征作为中间词向量。
S104、根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络。
由于目标译员是“多个译员”的子集,因此,步骤S103获得多个译员的语料的中间词向量后,实际上也获得了目标译员的语料的中间词向量。由于步骤S102中训练后的词向量模型的单向LSTM神经网络能够刻画出目标译员的翻译风格,因此利用目标译员的语料的中间词向量调整双向LSTM神经网络,能够使得双向LSTM神经网络更准确地刻画出目标译员的翻译风格,并且由于目标译员的语料较少,微调双向LSTM神经网络所需的功耗也较少。
S105、将所述多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量。
可以理解的是双向LSTM神经网络的输出是概率,并不是特征向量,但是在输出概率前,会生成用于预测(概率)的向量,本发明实施例通过将多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,能够获得能够准确刻画上下文整体语义,同时准确翻译目标译员的翻译风格的词向量。
本发明实施例根据多个译员的语料(全量样本)训练双向LSTM神经网络,使得双向LSTM神经网络具有通用的翻译风格,将目标译员的编辑行为数据作为体现译员措辞用句的表征,通过编辑行为数据对词向量模型进行训练,实现通过少量样本增强词向量模型刻画译员翻译风格的目的,之后再利用全量样本输入至训练后的词向量模型,将单向LSTM神经网络的输出作为中间词向量,中间词向量相比原始词向量在上下文语义以及目标译员的风格上都更加准确,然后将目标译员的语料的中间词向量调整双向LSTM神经网络,使得双向LSTM神经网络在刻画目标译员的风格上更加准确,最后将全量样本输入至调整后的双向LSTM神经网络,即可获得大量能够准确体现上下文语义同时更符合目标译员的翻译风格的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务(要求词向量作为输入的模型任务)。
在上述各实施例的基础上,作为一种可选实施例,所述根据多个译员的语料初始词向量训练所述双向LSTM神经网络,具体为:
从预设的初始词向量库中确定所述多个译员的语料的词向量,作为初始词向量;
利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述双向LSTM神经网络。
具体地,本发明实施例通过下载维基百科的英文单语语料集,利用Skip-Gram算法进行英文词向量的训练,即可获得对应各英文词例的词向量,从而构建出初始词向量库。对于多个语言的语料,通过对每条语料进行分词,然后从初始词向量库中找出对应个分词的词向量,即可获得步骤S101训练双向LSTM神经网络所需的初始词向量。
本发明实施例训练双向LSTM神经网络的步骤具体为:将所述多个译员的语料中在前词例为样本,以所述在前词例的后续词例的概率为样本标签,训练所述双向LSTM神经网络;之后将所述多个译员的语料中在后词例为样本,以所述在后词例的前续词例的概率为样本标签,再次训练双向LSTM神经网络。当双向LSTM神经网络输出的概率符合预设阈值或者样本训练完毕时,停止训练。
在上述各实施例的基础上,作为一种可选实施例,所述根据所述目标译员的语料对应的编辑行为数据训练所述词向量模型,具体为:
将每个编辑行为数据用一一对应的、初始化的字符向量进行表征;
以目标译员的语料中在前词例的编辑行为数据的字符向量为样本,以所述在前词例的后续词例的概率为样本标签,训练所述词向量模型,以获得训练后的字符向量。
需要说明的是,本发明实施例在训练词向量模型时,会给每一个编辑行为配置一个初始的字符向量,从而使目标译员的语料的每个词例都能用若干个字符向量进行表征,双向LSTM神经网络的正序训练就是给定前n-1个词,预测第n个词,如果预测错误就会Loss,根据Loss并利用反向传播算法对双向LSTM神经网络和第一双向LSTM神经网络的模型参数(其中包括字符向量)进行更新以降低Loss,直至Loss低于预设阈值,反序的训练过程与正序的差异仅是输入词的顺序和预测的词顺序相反,其他过程基本一致,在此不再赘述。
在上述各实施例的基础上,作为一种可选实施例,根据单向LSTM神经网络的输出获得中间词向量,具体为:
根据训练后的字符向量获得多个译员中的语料的每个词例的向量表示,将所述向量表示输入至训练后的词向量模型,将单向LSTM神经网络的输出作为中间词向量。
需要说明的是,通过获取训练后的字符向量,使得每一个编辑行为都具有了固定的字符向量,因此也就可以获得每个词例的字符向量,例如词例:apple,通过获取a、p、l和e对应的字符向量,即可获得词例的字符向量,利用获取的每个词例的字符向量,即可按照语料的正序输入至训练后的词向量模型。
在上述各实施例的基础上,作为一种可选实施例,所述根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络,具体为:
利用所述目标译员的语料的中间词向量,从语料的正序和反序,训练所述双向LSTM神经网络。
在上述各实施例的基础上,作为一种可选实施例,所述双向LSTM神经网络的个数为两个,相应地,所述根据多个译员的语料的初始词向量训练所述双向LSTM神经网络,具体为:
根据所述多个译员的语料的正序和反序,利用所述多个译员的语料的初始词向量分别训练两个双向LSTM神经网络。
图2为本发明实施例的根据语料的正序训练双向LSTM神经网络的流程示意图,该双向LSTM神经网络用于完成:
t1,z1=f(t0,<s>词向量)
通过z1的值,计算词例表中哪个词是第一个词的概率;p(第一个词是it)的值最大,则第一个词是The;
t2,z2=f(t1,The词向量)
通过z2的值,计算词例表中哪个词是第二个词的概率;p(第二个词是skill)的值最大,则第二个词是skill;
t3,z3=f(t2,skill词向量)
通过z3的值,计算词例表中每个词是第三个词的概率;p(第三个词是building)的值最大,则第三个词是important;
以此类推,最终预测出The skill building is important正序出现的全部概率。
图3为本发明实施例的根据语料的反序训练双向LSTM神经网络的流程示意图,该双向LSTM神经网络用于完成:
h1,y1=f(h0,important词向量)
通过y1的值,计算词例表中哪个词是倒数第二个词的概率;p(倒数第二个词是is)的值最大,则倒数第二个词是is;
h2,y2=f(h1,is词向量)
通过y2的值,计算词例表中哪个词是第三个词的概率;p(倒数第三个词是building)的值最大,则倒数第三个词是building;
h3,y3=f(h2,building词向量)
通过y3的值,计算词例表中每个词是倒数第四个词的概率;p(倒数第四个词是skill)的值最大,则倒数第四个词是skill;
以此类推,最终预测出The skill building is important反序出现的全部概率。
在上述各实施例的基础上,作为一种可选实施例,所述根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量,具体为:
根据双向LSTM神经网络分别产生的用于预测的向量获得最终的词向量。
具体地,将双向LSTM神经网络分别产生的用于预测的向量获得最终的词向量求和,作为最终的词向量。
图4为本发明实施例提供的基于LSTM神经网络的词向量生成装置的结构示意图,如图4所示,该基于LSTM神经网络的词向量生成装置包括:全量训练模块401、定量训练模块402、中间量生成模块403、调整模块404和输出模块405,其中:
全量训练模块401,用于根据多个译员的语料的初始词向量训练双向LSTM神经网络;
定量训练模块402,用于从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
中间量生成模块403,用于将所述多个译员的语料输入至训练后的所述词向量模型,根据单向LSTM神经网络的输出获得中间词向量;
调整模块404,用于根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络;
输出模块405,用于将所述多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述单向LSTM神经网络和所述双向LSTM神经网络,所述单向LSTM神经网络的输出层与所述双向LSTM神经网络的输入层连接
本发明实施例提供的基于LSTM神经网络的词向量生成装置,具体执行上述各基于LSTM神经网络的词向量生成方法实施例流程,具体请详见上述各基于LSTM神经网络的词向量生成方法实施例的内容,在此不再赘述。本发明实施例提供的基于LSTM神经网络的词向量生成装置根据多个译员的语料(全量样本)训练双向LSTM神经网络,使得双向LSTM神经网络具有通用的翻译风格,将目标译员的编辑行为数据作为体现译员措辞用句的表征,通过编辑行为数据对词向量模型进行训练,实现通过少量样本增强词向量模型刻画译员翻译风格的目的,之后再利用全量样本输入至训练后的词向量模型,根据单向LSTM神经网络的输出获得中间词向量,中间词向量相比原始词向量在上下文语义以及目标译员的风格上都更加准确,然后将目标译员的语料的中间词向量调整双向LSTM神经网络,使得双向LSTM神经网络在刻画目标译员的风格上更加准确,最后将全量样本输入至调整后的双向LSTM神经网络,即可获得大量能够准确体现上下文语义同时更符合目标译员的翻译风格的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务(要求词向量作为输入的模型任务)。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序,以执行上述各实施例提供的基于LSTM神经网络的词向量生成方法,例如包括:根据多个译员的语料的初始词向量训练双向LSTM神经网络;从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;将所述多个译员的语料输入至训练后的所述词向量模型,根据单向LSTM神经网络的输出获得中间词向量;根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络;将所述多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量;其中,所述词向量模型包括所述单向LSTM神经网络和所述双向LSTM神经网络,所述单向LSTM神经网络的输出层与所述双向LSTM神经网络的输入层连接。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于LSTM神经网络的词向量生成方法,例如包括:根据多个译员的语料的初始词向量训练双向LSTM神经网络;从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;将所述多个译员的语料输入至训练后的所述词向量模型,根据单向LSTM神经网络的输出获得中间词向量;根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络;将所述多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量;其中,所述词向量模型包括所述单向LSTM神经网络和所述双向LSTM神经网络,所述单向LSTM神经网络的输出层与所述双向LSTM神经网络的输入层连接。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于LSTM神经网络的词向量生成方法,其特征在于,包括:
根据多个译员的语料的初始词向量训练双向LSTM神经网络;
从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
将所述多个译员的语料输入至训练后的所述词向量模型,根据单向LSTM神经网络的输出获得中间词向量;
根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络;
将所述多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述单向LSTM神经网络和所述双向LSTM神经网络,所述单向LSTM神经网络的输出层与所述双向LSTM神经网络的输入层连接。
2.根据权利要求1所述的基于LSTM神经网络的词向量生成方法,其特征在于,所述根据多个译员的语料初始词向量训练所述双向LSTM神经网络,具体为:
从预设的初始词向量库中确定所述多个译员的语料的词向量,作为初始词向量;
利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述双向LSTM神经网络。
3.根据权利要求1所述的基于LSTM神经网络的词向量生成方法,其特征在于,所述根据所述目标译员的语料对应的编辑行为数据训练所述词向量模型,具体为:
将每个编辑行为数据用一一对应的、初始化的字符向量进行表征;
以目标译员的语料中在前词例的编辑行为数据的字符向量为样本,以所述在前词例的后续词例的概率为样本标签,训练所述词向量模型,以获得训练后的字符向量。
4.根据权利要求3所述的基于LSTM神经网络的词向量生成方法,其特征在于,所述根据单向LSTM神经网络的输出获得中间词向量,具体为:
根据训练后的字符向量获得多个译员中的语料的每个词例的向量表示,将所述向量表示输入至训练后的词向量模型,将单向LSTM神经网络的输出作为中间词向量。
5.根据权利要求1所述的基于LSTM神经网络的词向量生成方法,其特征在于,所述根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络,具体为:
利用所述目标译员的语料的中间词向量,从语料的正序和反序,训练所述双向LSTM神经网络。
6.根据权利要求2所述的基于LSTM神经网络的词向量生成方法,其特征在于,所述利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述双向LSTM神经网络,具体为:
将所述多个译员的语料中在前词例为样本,以所述在前词例的后续词例的概率为样本标签,训练所述双向LSTM神经网络;
之后将所述多个译员的语料中在后词例为样本,以所述在后词例的前序词例的概率为样本标签,再次训练所述双向LSTM神经网络。
7.根据权利要求6所述的基于LSTM神经网络的词向量生成方法,其特征在于,所述根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量,具体为:
获取所述双向LSTM神经网络产生的用于正序预测的向量和用于反序预测的向量,将所述用于正序预测的向量和用于反序预测的向量求和,获得最终的词向量。
8.一种基于LSTM神经网络的词向量生成装置,其特征在于,包括:
全量训练模块,用于根据多个译员的语料的初始词向量训练双向LSTM神经网络;
定量训练模块,用于从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
中间量生成模块,用于将所述多个译员的语料输入至训练后的所述词向量模型,根据单向LSTM神经网络的输出获得中间词向量;
调整模块,用于根据所述目标译员的语料的中间词向量调整所述双向LSTM神经网络;
输出模块,用于将所述多个译员的语料的中间词向量输入至调整后的双向LSTM神经网络,根据双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述单向LSTM神经网络和所述双向LSTM神经网络,所述单向LSTM神经网络的输出层与所述双向LSTM神经网络的输入层连接。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于LSTM神经网络的词向量生成方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的基于LSTM神经网络的词向量生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045096.2A CN110866404B (zh) | 2019-10-30 | 2019-10-30 | 基于lstm神经网络的词向量生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045096.2A CN110866404B (zh) | 2019-10-30 | 2019-10-30 | 基于lstm神经网络的词向量生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866404A true CN110866404A (zh) | 2020-03-06 |
CN110866404B CN110866404B (zh) | 2023-05-05 |
Family
ID=69654409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911045096.2A Active CN110866404B (zh) | 2019-10-30 | 2019-10-30 | 基于lstm神经网络的词向量生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866404B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353147A (zh) * | 2020-03-11 | 2020-06-30 | 鹏城实验室 | 口令强度评估方法、装置、设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
CN107368475A (zh) * | 2017-07-18 | 2017-11-21 | 中译语通科技(北京)有限公司 | 一种基于生成对抗神经网络的机器翻译方法和系统 |
CN108268452A (zh) * | 2018-01-15 | 2018-07-10 | 东北大学 | 一种基于深度学习的专业领域机器同步翻译装置及方法 |
US20180365231A1 (en) * | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating parallel text in same language |
CN109670180A (zh) * | 2018-12-21 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
-
2019
- 2019-10-30 CN CN201911045096.2A patent/CN110866404B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
US20180365231A1 (en) * | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating parallel text in same language |
CN107368475A (zh) * | 2017-07-18 | 2017-11-21 | 中译语通科技(北京)有限公司 | 一种基于生成对抗神经网络的机器翻译方法和系统 |
CN108268452A (zh) * | 2018-01-15 | 2018-07-10 | 东北大学 | 一种基于深度学习的专业领域机器同步翻译装置及方法 |
CN109670180A (zh) * | 2018-12-21 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
Non-Patent Citations (3)
Title |
---|
FÉLIX SUÁREZ BONILLA; FEDERICO RUIZ UGALDE: "Automatic Translation of Spanish Natural Language Commands to Control Robot Comands Based on LSTM Neural Network" * |
李亚超,熊德意,张民: "神经机器翻译综述" * |
邵博: "基于深度神经网络的中英机器翻译模型研究" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353147A (zh) * | 2020-03-11 | 2020-06-30 | 鹏城实验室 | 口令强度评估方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110866404B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
Tan et al. | Neural machine translation: A review of methods, resources, and tools | |
CN110232183B (zh) | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 | |
KR102382499B1 (ko) | 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
US11586810B2 (en) | Generating responses in automated chatting | |
CN110083710B (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
WO2018010455A1 (zh) | 一种基于神经网络的翻译方法及装置 | |
CN110674646A (zh) | 一种基于字节对编码技术的蒙汉机器翻译系统 | |
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
US20140163951A1 (en) | Hybrid adaptation of named entity recognition | |
US20190205396A1 (en) | Method and system of translating a source sentence in a first language into a target sentence in a second language | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN110705206A (zh) | 一种文本信息的处理方法及相关装置 | |
CN111666758A (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN111144140A (zh) | 基于零次学习的中泰双语语料生成方法及装置 | |
Mocialov et al. | Transfer learning for british sign language modelling | |
CN110852063B (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
CN113449081A (zh) | 文本特征的提取方法、装置、计算机设备及存储介质 | |
Wang et al. | Mongolian named entity recognition with bidirectional recurrent neural networks | |
CN114638220A (zh) | 任务处理模型的训练方法、任务处理方法以及装置 | |
CN113918031A (zh) | 使用子字符信息进行中文标点恢复的系统和方法 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
Bawden | Going beyond the sentence: Contextual machine translation of dialogue |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |