CN110866395B - 基于译员编辑行为的词向量生成方法及装置 - Google Patents
基于译员编辑行为的词向量生成方法及装置 Download PDFInfo
- Publication number
- CN110866395B CN110866395B CN201911045091.XA CN201911045091A CN110866395B CN 110866395 B CN110866395 B CN 110866395B CN 201911045091 A CN201911045091 A CN 201911045091A CN 110866395 B CN110866395 B CN 110866395B
- Authority
- CN
- China
- Prior art keywords
- word
- neural network
- word vector
- translator
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种基于译员编辑行为的词向量生成方法及装置,其中方法包括根据多个译员的语料的初始词向量训练循环神经网络;从多个译员中确定目标译员,根据目标译员的语料对应的编辑行为数据训练词向量模型;将多个译员的语料输入至训练后的词向量模型,将卷积神经网络的输出作为中间词向量;根据目标译员的语料的中间词向量调整循环神经网络;将多个译员的语料的中间词向量输入至调整后的循环神经网络,根据循环神经网络产生的用于预测的向量获得最终的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务。
Description
技术领域
本发明涉及语言模型技术领域,更具体地,涉及基于译员编辑行为的词向量生成方法及装置。
背景技术
词作为语言中基本的语义单元,将词表征成向量(词向量)作为模型的输入,是当前自然语言处理过程中非常重要和基础步骤。传统方法往往通过独热编码、PMI或PPMI矩阵、共现矩阵和SVD矩阵分解等技术获取词向量。
2012年左右,将深度学习的技术应用于自然语言处理日益流行,基于神经网络的词向量模型随之提出,其中包括Skip-gram,CBOW和GloVe等。这些新的词表征方法更好地捕捉词和词之间的语义相关性,其应用在实体识别,语音识别,文本分类,语言模型,智能问答等任务方向上都取得了不小的进步。
然而,语言中存在一词多义的现象,例如英文单词tie有接近十多种不同的语义,因此一个词对应一个向量的方式并不能充分体现出词的语义。在翻译任务中,如果将相同的翻译稿件由不同译员来翻译,往往会产生不同的翻译结果。这种措辞用句上的个性化来源于每位译员本身的特质,其中包括他们的教育背景,翻译经验,年龄层次等各种方面。如何将这些个性化因子加入模型,从而更好地辅助译员翻译,也是一个需要解决、非常有挑战的研究课题。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于译员编辑行为的词向量生成方法及装置。
第一个方面,本发明实施例提供一种基于译员编辑行为的词向量生成方法,包括:
根据多个译员的语料的初始词向量训练循环神经网络;
从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
将所述多个译员的语料输入至训练后的所述词向量模型,将卷积神经网络的输出作为中间词向量;
根据所述目标译员的语料的中间词向量调整所述循环神经网络;
将所述多个译员的语料的中间词向量输入至调整后的循环神经网络,根据循环神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述卷积神经网络和所述循环神经网络,所述卷积神经网络的输出层与所述循环神经网络的输入层连接。
进一步地,所述根据多个译员的语料初始词向量训练所述循环神经网络,具体为:
从预设的初始词向量库中确定所述多个译员的语料的词向量,作为初始词向量;
以所述多个译员的语料中在前词汇的初始词向量为样本,以所述在前词汇的后续词汇的概率为样本标签,训练所述循环神经网络。
进一步地,所述根据所述目标译员的语料对应的编辑行为数据训练所述词向量模型,具体为:
将每个编辑行为数据用一一对应的、初始化的字符向量进行表征;
以目标译员的语料中在前词汇的编辑行为数据的字符向量为样本,以所述在前词汇的后续词汇的概率为样本标签,训练所述词向量模型,以获得训练后的字符向量。
进一步地,所述根据所述目标译员的语料的中间词向量调整所述循环神经网络,具体为:
以所述目标译员的语料中在前词汇的中间词向量为样本,以所述在前词汇的后续词汇的概率为样本标签,训练所述循环神经网络。
进一步地,所述循环神经网络的个数为两个;
相应地,所述根据多个译员的语料的初始词向量训练所述循环神经网络,具体为:
根据所述多个译员的语料的正序和反序,利用所述多个译员的语料的初始词向量分别训练两个循环神经网络。
进一步地,所述根据循环神经网络产生的用于预测的向量获得最终的词向量,具体为:
根据两个循环神经网络分别产生的用于预测的向量获得最终的词向量。
进一步地,所述根据两个循环神经网络分别产生的用于预测的向量获得最终的词向量,具体为:
将两个循环神经网络分别产生的用于预测的向量获得最终的词向量求和,作为最终的词向量。
第二个方面,本发明实施例提供一种基于译员编辑行为的词向量生成装置,包括:
全量训练模块,用于根据多个译员的语料的初始词向量训练循环神经网络;
定量训练模块,用于从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
中间量生成模块,用于将所述多个译员的语料输入至训练后的所述词向量模型,将卷积神经网络的输出作为中间词向量;
调整模块,用于根据所述目标译员的语料的中间词向量调整所述循环神经网络;
输出模块,用于将所述多个译员的语料的中间词向量输入至调整后的循环神经网络,根据循环神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述卷积神经网络和所述循环神经网络,所述卷积神经网络的输出层与所述循环神经网络的输入层连接。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的基于译员编辑行为的词向量生成方法及装置,根据多个译员的语料(全量样本)训练循环神经网络,使得循环神经网络具有通用的翻译风格,将目标译员的编辑行为数据作为体现译员措辞用句的表征,通过编辑行为数据对词向量模型进行训练,实现通过少量样本增强词向量模型刻画译员翻译风格的目的,之后再利用全量样本输入至训练后的词向量模型,将卷积神经网络的输出作为中间词向量,中间词向量相比原始词向量在上下文语义以及目标译员的风格上都更加准确,然后将目标译员的语料的中间词向量调整循环神经网络,使得循环神经网络在刻画目标译员的风格上更加准确,最后将全量样本输入至调整后的循环神经网络,即可获得大量能够准确体现上下文语义同时更符合目标译员的翻译风格的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务(要求词向量作为输入的模型任务)。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于译员编辑行为的词向量生成方法的流程示意图;
图2为本发明实施例提供的卷积神经网络的计算流程示意图;
图3为本发明实施例的根据语料的正序训练循环神经网络的流程示意图;
图4为本发明实施例的根据语料的反序训练循环神经网络的流程示意图;
图5为本发明实施例提供的基于译员编辑行为的词向量生成装置的结构示意图;
图6为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例适用于由字母构成的语言,比如英文、法文、德文、西班牙文等,也适用于由非字母元素构成但是能够便利地映射为字母的语言,比如中文(可以映射为拼音字母)、日文(可以映射为罗马字母)等。为了便于描述,以下各实施例主要针对英文的场景,对本发明实施例的方案进行说明
图1为本发明实施例的基于译员编辑行为的词向量生成方法的流程示意图,该流程的执行主体比如包括以下至少一种设备:个人计算机、大中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。
图1中的流程可以包括以下步骤:
S101、根据多个译员的语料的初始词向量训练循环神经网络。
在本发明实施例中,语料指语言材料,语料是构成语料库的基本单元。译员指翻译人员,用于将某一语言的语料翻译成其他语言的语料。可以理解的是,不同译员可能对同一语料翻译出不同的风格,因此采集多个译员的语料即可获得不同风格的翻译结果。本发明实施例的译员的语料是指同一种目标语言的翻译结果,例如都为中译英任务的英文翻译结果。
循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。循环神经网络不同于传统的语言模型,它有能力以语料库中所有前面的单词为条件进行建模。RNN是包含循环的网络,允许信息的持久化。本发明实施例利用循环神经网络具有记忆性的特点,通过利用多个译员的语料的初始词向量以及上下文关系训练循环神经网络,从而获得具有通用翻译风格的循环神经网络。
作为一种可选实施例本发明实施例的循环神经网络可以选择LSTM(Long Short-Term Memory,长短期记忆网络),LSTM神经网络适合于处理和预测时间序列中间隔和延迟非常长的重要事件,正因为如此,LSTM神经网络相比普通的RNN网络,应用于词向量生成、文本翻译等领域具有更优异、更灵活的优势。
在本发明实施例中,初始词向量是通过通用语料库通过词向量训练而来的,其目的是提出一个表征词汇的通用含义的特征向量,具体地,可以通过下载最新的维基百科的英文单语语料集,并进行分词,然后利用Skip-Gram等算法进行英文词向量的训练,其中一些重要的超参数可以设置为:词向量的维度为300,上下文窗口为5。
可以理解的是,循环神经网络的训练过程可以概括为,利用语料的前n-1个词例的初始词向量,预测第n个词例出现的概率,当概率的结果符合预设阈值时,循环神经网络停止训练。
S102、从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型。
本发明实施例的词向量模型包括卷积神经网络和循环神经网络,卷积神经网络的输出层与所述循环神经网络的输入层连接。卷积神经网络(Convolutional NeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks)。卷积神经网络的特点在于能够对输入的特征向量不断进行提取和压缩,从而获得高层次的特征。本发明实施例的词向量模型之所以在循环神经网络的前端设置卷积神经网络,其目的是:
第一方面是为了将输入的特征向量进行压缩,从而为后续的循环神经网络提供特征更显著的输入量;
第二方面,由于本发明实施例的卷积神经网络的输出直接作为循环神经网络的输入,因此卷积神经网络的训练并不需要设置额外的标签(额外的标签是指除训练循环神经网络所需的标签以外的标签),从而降低模型训练的复杂度;
第三方面,由于目标译员的语料数量相对于所有译员的语料数量仅是其中的一部分,因此通过一部分语料训练词向量模型能够减少训练的数据量,减少训练耗时;
第四方面,通过将卷积神经网络和循环神经网络进行联合训练,使得整个词向量模型融入目标译员的翻译风格,进而利用融入目标译员的翻译风格的卷积神经网络的输出,作为后续代替原始词向量的中间词向量。
需要说明的是,本发明实施例并不限制目标译员的具体选择的规则,在实际应用中,目标译员可以是具有更高翻译质量和翻译风格辨识度的译员。
译员的编辑行为数据是指译员在翻译时产生的编辑行为数据,该数据以句子(已分词)中的每个词例(token)为单位进行记录,即根据时序顺序记录用户敲击键盘按键的序列。此序列完成了句子中的某一个词例。
例如,一个英文翻译结果(语料):The skill building is important。通过分词产生的词例为:“The|skill|building|is|important|.”,其中“|”表示分词符号。
对于词例“The”,按键序列为:t->删除->T->h->e;
对于词例“skill”,按键序列为:s->k->i->l->l->s->删除;
对于词例“building”,按键序列为:d->e->v->e->删除->删除->删除->删除->b->u->i->l->d->d->i->n->g->向左->向左->向左->删除;
对于词例“is”,按键序列为“i->s”;
对于词例“important”,按键序列为“i->m->p->o->r->a->n->t->向左->向左->向左->t”;
对于词例“.”,按键序列为“。->删除->.”
上述按键序列中的“->”无实际意义,仅为方便说明按键的输入过程,因此,对于上述语料,该语料对应的编辑行为数据即所有词例的按键序列的集合。
图2为本发明实施例提供的卷积神经网络的计算流程示意图,如图2所示,输入至卷积神经网络中的是词例“skills”的字符向量,“skills”的编辑行为数据为“PAD-s-k-i-l-l-s-删除-PAD”,编辑行为数据在词例的起始位置和结束位置添加了“PAD”字符,可以理解的是,词例编辑过程中的每一次按键都对应一个字符向量,即图2中字符向量是列向排列的,词例“skills”对应着9个字符向量(PAD字符也会对应一个字符向量),字符向量通过一维卷积,获得数量更少的字符向量(从9个变为7个),每一列字符向量的不同元素表征不同的特征值,不同字符向量的同一行指的是在输入字符序列的不同范围内的同一种特征的值,通过将数量更少的字符向量通过maxpooling池化处理,提取每一排中最大值,获得输出值。
本发明实施例的经过步骤S102训练后的词向量模型,一方面循环神经网络在融合了多种翻译风格的语义后,进一步强化了目标译员的翻译风格的语义,另一方面,卷积神经网络也能够融合目标译员的翻译风格的语义。
S103、将所述多个译员的语料输入至训练后的所述词向量模型,将卷积神经网络的输出作为中间词向量。
需要说明的是,通过将多个译员您的语料输入至训练后的词向量模型,卷积神经网络的输出就是具有目标译员翻译风格的特征,将该特征作为中间词向量。
S104、根据所述目标译员的语料的中间词向量调整所述循环神经网络。
由于目标译员是“多个译员”的子集,因此,步骤S103获得多个译员的语料的中间词向量后,实际上也获得了目标译员的语料的中间词向量。由于步骤S102中训练后的词向量模型的卷积神经网络能够刻画出目标译员的翻译风格,因此利用目标译员的语料的中间词向量调整循环神经网络,能够使得循环神经网络更准确地刻画出目标译员的翻译风格,并且由于目标译员的语料较少,微调循环神经网络所需的功耗也较少。
S105、将所述多个译员的语料的中间词向量输入至调整后的循环神经网络,根据循环神经网络产生的用于预测的向量获得最终的词向量。
可以理解的是循环神经网络的输出是概率,并不是特征向量,但是在输出概率前,会生成用于预测(概率)的向量,本发明实施例通过将多个译员的语料的中间词向量输入至调整后的循环神经网络,能够获得能够准确刻画上下文整体语义,同时准确翻译目标译员的翻译风格的词向量。
本发明实施例根据多个译员的语料(全量样本)训练循环神经网络,使得循环神经网络具有通用的翻译风格,将目标译员的编辑行为数据作为体现译员措辞用句的表征,通过编辑行为数据对词向量模型进行训练,实现通过少量样本增强词向量模型刻画译员翻译风格的目的,之后再利用全量样本输入至训练后的词向量模型,将卷积神经网络的输出作为中间词向量,中间词向量相比原始词向量在上下文语义以及目标译员的风格上都更加准确,然后将目标译员的语料的中间词向量调整循环神经网络,使得循环神经网络在刻画目标译员的风格上更加准确,最后将全量样本输入至调整后的循环神经网络,即可获得大量能够准确体现上下文语义同时更符合目标译员的翻译风格的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务(要求词向量作为输入的模型任务)。
在上述各实施例的基础上,作为一种可选实施例,所述根据多个译员的语料初始词向量训练所述循环神经网络,具体为:
从预设的初始词向量库中确定所述多个译员的语料的词向量,作为初始词向量;
以所述多个译员的语料中在前词汇的初始词向量为样本,以所述在前词汇的后续词汇的概率为样本标签,训练所述循环神经网络。
具体地,本发明实施例通过下载维基百科的英文单语语料集,利用Skip-Gram算法进行英文词向量的训练,即可获得对应各英文词例的词向量,从而构建出初始词向量库。对于多个语言的语料,通过对每条语料进行分词,然后从初始词向量库中找出对应个分词的词向量,即可获得步骤S101训练循环神经网络所需的初始词向量。
本发明实施例训练循环神经网络的步骤与现有技术无异,均是以语料中在前词汇的初始词向量为样本,以所述在前词汇的后续词汇的概率为样本标签进行训练,当循环神经网络输出的概率符合预设阈值时,停止训练。
在上述各实施例的基础上,作为一种可选实施例,所述根据所述目标译员的语料对应的编辑行为数据训练所述词向量模型,具体为:
将每个编辑行为数据用一一对应的、初始化的字符向量进行表征;
以目标译员的语料中在前词汇的编辑行为数据的字符向量为样本,以所述在前词汇的后续词汇的概率为样本标签,训练所述词向量模型,以获得训练后的字符向量。
需要说明的是,本发明实施例在训练词向量模型时,会给每一个编辑行为配置一个初始的字符向量,从而使目标译员的语料的每个词汇都能用若干个字符向量进行表征,循环神经网络模型的训练就是给定前n-1个词,预测第n个词,如果预测错误就会Loss,根据Loss并利用反向传播算法对循环神经网络和卷积神经网络的模型参数(其中包括字符向量)进行更新以降低Loss,直至Loss低于预设阈值。
在上述各实施例的基础上,作为一种可选实施例,所述根据所述目标译员的语料的中间词向量调整所述循环神经网络,具体为:
以所述目标译员的语料中在前词汇的中间词向量为样本,以所述在前词汇的后续词汇的概率为样本标签,训练所述循环神经网络。
在上述各实施例的基础上,作为一种可选实施例,所述循环神经网络的个数为两个,相应地,所述根据多个译员的语料的初始词向量训练所述循环神经网络,具体为:
根据所述多个译员的语料的正序和反序,利用所述多个译员的语料的初始词向量分别训练两个循环神经网络。
图3为本发明实施例的根据语料的正序训练循环神经网络的流程示意图,该循环神经网络用于完成:
t1,z1=f(t0,<s>词向量)
通过z1的值,计算词汇表中哪个词是第一个词的概率;p(第一个词是it)的值最大,则第一个词是The;
t2,z2=f(t1,The词向量)
通过z2的值,计算词汇表中哪个词是第二个词的概率;p(第二个词是skill)的值最大,则第二个词是skill;
t3,z3=f(t2,skill词向量)
通过z3的值,计算词汇表中每个词是第三个词的概率;p(第三个词是building)的值最大,则第三个词是important;
以此类推,最终预测出The skill building is important正序出现的全部概率。
图4为本发明实施例的根据语料的反序训练循环神经网络的流程示意图,该循环神经网络用于完成:
h1,y1=f(h0,important词向量)
通过y1的值,计算词汇表中哪个词是倒数第二个词的概率;p(倒数第二个词是is)的值最大,则倒数第二个词是is;
h2,y2=f(h1,is词向量)
通过y2的值,计算词汇表中哪个词是第三个词的概率;p(倒数第三个词是building)的值最大,则倒数第三个词是building;
h3,y3=f(h2,building词向量)
通过y3的值,计算词汇表中每个词是倒数第四个词的概率;p(倒数第四个词是skill)的值最大,则倒数第四个词是skill;
以此类推,最终预测出The skill building is important反序出现的全部概率。
可以理解的是,在循环神经网络为两个的情况下,步骤S102-S105中都需要将向量以语料的正序和反序分别输入至两个循环神经网络中。
在上述各实施例的基础上,作为一种可选实施例,所述根据循环神经网络产生的用于预测的向量获得最终的词向量,具体为:
根据两个循环神经网络分别产生的用于预测的向量获得最终的词向量。
具体地,将两个循环神经网络分别产生的用于预测的向量获得最终的词向量求和,作为最终的词向量。
图5为本发明实施例提供的基于译员编辑行为的词向量生成装置的结构示意图,如图5所示,该基于译员编辑行为的词向量生成装置包括:全量训练模块501、定量训练模块502、中间量生成模块503、调整模块504和输出模块505,其中:
全量训练模块501,用于根据多个译员的语料的初始词向量训练循环神经网络;
定量训练模块502,用于从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
中间量生成模块503,用于将所述多个译员的语料输入至训练后的所述词向量模型,将卷积神经网络的输出作为中间词向量;
调整模块504,用于根据所述目标译员的语料的中间词向量调整所述循环神经网络;
输出模块505,用于将所述多个译员的语料的中间词向量输入至调整后的循环神经网络,根据循环神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述卷积神经网络和所述循环神经网络,所述卷积神经网络的输出层与所述循环神经网络的输入层连接
本发明实施例提供的基于译员编辑行为的词向量生成装置,具体执行上述各基于译员编辑行为的词向量生成方法实施例流程,具体请详见上述各基于译员编辑行为的词向量生成方法实施例的内容,在此不再赘述。本发明实施例提供的基于译员编辑行为的词向量生成装置根据多个译员的语料(全量样本)训练循环神经网络,使得循环神经网络具有通用的翻译风格,将目标译员的编辑行为数据作为体现译员措辞用句的表征,通过编辑行为数据对词向量模型进行训练,实现通过少量样本增强词向量模型刻画译员翻译风格的目的,之后再利用全量样本输入至训练后的词向量模型,将卷积神经网络的输出作为中间词向量,中间词向量相比原始词向量在上下文语义以及目标译员的风格上都更加准确,然后将目标译员的语料的中间词向量调整循环神经网络,使得循环神经网络在刻画目标译员的风格上更加准确,最后将全量样本输入至调整后的循环神经网络,即可获得大量能够准确体现上下文语义同时更符合目标译员的翻译风格的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务(要求词向量作为输入的模型任务)。
图6为本发明实施例提供的电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储在存储器630上并可在处理器610上运行的计算机程序,以执行上述各实施例提供的基于译员编辑行为的词向量生成方法,例如包括:根据多个译员的语料的初始词向量训练循环神经网络;从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;将所述多个译员的语料输入至训练后的所述词向量模型,将卷积神经网络的输出作为中间词向量;根据所述目标译员的语料的中间词向量调整所述循环神经网络;将所述多个译员的语料的中间词向量输入至调整后的循环神经网络,根据循环神经网络产生的用于预测的向量获得最终的词向量;其中,所述词向量模型包括所述卷积神经网络和所述循环神经网络,所述卷积神经网络的输出层与所述循环神经网络的输入层连接。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于译员编辑行为的词向量生成方法,例如包括:根据多个译员的语料的初始词向量训练循环神经网络;从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;将所述多个译员的语料输入至训练后的所述词向量模型,将卷积神经网络的输出作为中间词向量;根据所述目标译员的语料的中间词向量调整所述循环神经网络;将所述多个译员的语料的中间词向量输入至调整后的循环神经网络,根据循环神经网络产生的用于预测的向量获得最终的词向量;其中,所述词向量模型包括所述卷积神经网络和所述循环神经网络,所述卷积神经网络的输出层与所述循环神经网络的输入层连接。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于译员编辑行为的词向量生成方法,其特征在于,包括:
根据多个译员的语料的初始词向量训练循环神经网络;
从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
将所述多个译员的语料输入至训练后的所述词向量模型,将卷积神经网络的输出作为中间词向量;
根据所述目标译员的语料的中间词向量调整所述循环神经网络;
将所述多个译员的语料的中间词向量输入至调整后的循环神经网络,根据循环神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述卷积神经网络和所述循环神经网络,所述卷积神经网络的输出层与所述循环神经网络的输入层连接。
2.根据权利要求1所述的基于译员编辑行为的词向量生成方法,其特征在于,所述根据多个译员的语料初始词向量训练所述循环神经网络,具体为:
从预设的初始词向量库中确定所述多个译员的语料的词向量,作为初始词向量;
以所述多个译员的语料中在前词汇的初始词向量为样本,以所述在前词汇的后续词汇的概率为样本标签,训练所述循环神经网络。
3.根据权利要求1所述的基于译员编辑行为的词向量生成方法,其特征在于,所述根据所述目标译员的语料对应的编辑行为数据训练所述词向量模型,具体为:
将每个编辑行为数据用一一对应的、初始化的字符向量进行表征;
以目标译员的语料中在前词汇的编辑行为数据的字符向量为样本,以所述在前词汇的后续词汇的概率为样本标签,训练所述词向量模型,以获得训练后的字符向量。
4.根据权利要求1所述的基于译员编辑行为的词向量生成方法,其特征在于,所述根据所述目标译员的语料的中间词向量调整所述循环神经网络,具体为:
以所述目标译员的语料中在前词汇的中间词向量为样本,以所述在前词汇的后续词汇的概率为样本标签,训练所述循环神经网络。
5.根据权利要求1所述的基于译员编辑行为的词向量生成方法,其特征在于,所述循环神经网络的个数为两个;
相应地,所述根据多个译员的语料的初始词向量训练所述循环神经网络,具体为:
根据所述多个译员的语料的正序和反序,利用所述多个译员的语料的初始词向量分别训练两个循环神经网络。
6.根据权利要求5所述的基于译员编辑行为的词向量生成方法,其特征在于,所述根据循环神经网络产生的用于预测的向量获得最终的词向量,具体为:
根据两个循环神经网络分别产生的用于预测的向量获得最终的词向量。
7.根据权利要求6所述的基于译员编辑行为的词向量生成方法,其特征在于,所述根据两个循环神经网络分别产生的用于预测的向量获得最终的词向量,具体为:
将两个循环神经网络分别产生的用于预测的向量获得最终的词向量求和,作为最终的词向量。
8.一种基于译员编辑行为的词向量生成装置,其特征在于,包括:
全量训练模块,用于根据多个译员的语料的初始词向量训练循环神经网络;
定量训练模块,用于从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
中间量生成模块,用于将所述多个译员的语料输入至训练后的所述词向量模型,将卷积神经网络的输出作为中间词向量;
调整模块,用于根据所述目标译员的语料的中间词向量调整所述循环神经网络;
输出模块,用于将所述多个译员的语料的中间词向量输入至调整后的循环神经网络,根据循环神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述卷积神经网络和所述循环神经网络,所述卷积神经网络的输出层与所述循环神经网络的输入层连接。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于译员编辑行为的词向量生成方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的基于译员编辑行为的词向量生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045091.XA CN110866395B (zh) | 2019-10-30 | 2019-10-30 | 基于译员编辑行为的词向量生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045091.XA CN110866395B (zh) | 2019-10-30 | 2019-10-30 | 基于译员编辑行为的词向量生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866395A CN110866395A (zh) | 2020-03-06 |
CN110866395B true CN110866395B (zh) | 2023-05-05 |
Family
ID=69654439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911045091.XA Active CN110866395B (zh) | 2019-10-30 | 2019-10-30 | 基于译员编辑行为的词向量生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866395B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
CN105307566A (zh) * | 2013-06-18 | 2016-02-03 | 皇家飞利浦有限公司 | 用于预先键入编辑的ecg特征和用于报告解读的自动更新 |
CN106846306A (zh) * | 2017-01-13 | 2017-06-13 | 重庆邮电大学 | 一种超声图像自动描述方法和系统 |
CN107368475A (zh) * | 2017-07-18 | 2017-11-21 | 中译语通科技(北京)有限公司 | 一种基于生成对抗神经网络的机器翻译方法和系统 |
CN109271628A (zh) * | 2018-09-03 | 2019-01-25 | 东北大学 | 一种图像描述生成方法 |
CN109635883A (zh) * | 2018-11-19 | 2019-04-16 | 北京大学 | 基于深度堆叠网络的结构信息指导的中文字库生成方法 |
CN109670180A (zh) * | 2018-12-21 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
WO2019107624A1 (ko) * | 2017-11-30 | 2019-06-06 | 주식회사 시스트란인터내셔널 | 시퀀스-대-시퀀스 번역 방법 및 이를 위한 장치 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273503B (zh) * | 2017-06-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 用于生成同语言平行文本的方法和装置 |
KR20190041790A (ko) * | 2017-10-13 | 2019-04-23 | 한국전자통신연구원 | 신경망 번역 모델 구축 장치 및 방법 |
-
2019
- 2019-10-30 CN CN201911045091.XA patent/CN110866395B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
CN105307566A (zh) * | 2013-06-18 | 2016-02-03 | 皇家飞利浦有限公司 | 用于预先键入编辑的ecg特征和用于报告解读的自动更新 |
CN106846306A (zh) * | 2017-01-13 | 2017-06-13 | 重庆邮电大学 | 一种超声图像自动描述方法和系统 |
CN107368475A (zh) * | 2017-07-18 | 2017-11-21 | 中译语通科技(北京)有限公司 | 一种基于生成对抗神经网络的机器翻译方法和系统 |
WO2019107624A1 (ko) * | 2017-11-30 | 2019-06-06 | 주식회사 시스트란인터내셔널 | 시퀀스-대-시퀀스 번역 방법 및 이를 위한 장치 |
CN109271628A (zh) * | 2018-09-03 | 2019-01-25 | 东北大学 | 一种图像描述生成方法 |
CN109635883A (zh) * | 2018-11-19 | 2019-04-16 | 北京大学 | 基于深度堆叠网络的结构信息指导的中文字库生成方法 |
CN109670180A (zh) * | 2018-12-21 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
Non-Patent Citations (1)
Title |
---|
李博涵 ; 刘汇丹 ; 龙从军 ; .深度学习在汉藏机器翻译中的应用研究.民族翻译.2018,(第03期),51-58. * |
Also Published As
Publication number | Publication date |
---|---|
CN110866395A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Torfi et al. | Natural language processing advancements by deep learning: A survey | |
KR102382499B1 (ko) | 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
Yao et al. | An improved LSTM structure for natural language processing | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN111563144B (zh) | 基于语句前后关系预测的用户意图识别方法及装置 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN110286778B (zh) | 一种中文深度学习输入法、装置及电子设备 | |
Xin et al. | Learning better internal structure of words for sequence labeling | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN112541356A (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN110489765B (zh) | 机器翻译方法、装置及计算机可读存储介质 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
KR20190065665A (ko) | 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
Basmatkar et al. | Survey on neural machine translation for multilingual translation system | |
CN110852063B (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
CN114398899A (zh) | 预训练语言模型的训练方法、装置、计算机设备和介质 | |
CN115186147A (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
CN114781380A (zh) | 一种融合多粒度信息的中文命名实体识别方法、设备和介质 | |
Mathur et al. | A scaled‐down neural conversational model for chatbots | |
US11941360B2 (en) | Acronym definition network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |