CN106126507A - 一种基于字符编码的深度神经翻译方法及系统 - Google Patents
一种基于字符编码的深度神经翻译方法及系统 Download PDFInfo
- Publication number
- CN106126507A CN106126507A CN201610457514.9A CN201610457514A CN106126507A CN 106126507 A CN106126507 A CN 106126507A CN 201610457514 A CN201610457514 A CN 201610457514A CN 106126507 A CN106126507 A CN 106126507A
- Authority
- CN
- China
- Prior art keywords
- model
- language
- word
- character
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Abstract
本发明提出了一种基于字符编码的深度神经翻译方法及系统,使用递归神经网络(Recurrent Neural Network,RNN)建立一个联合的神经网络模型来覆盖整个翻译过程,从编码器‑解码器框架的角度直接完成翻译任务。方法包括:A、词向量生成:将字符级别的输入数据通过神经网络建模进行分词,并生成词向量;B、语言模型生成:利用递归神经网络在时间上具有记忆性的特点,建立语法规则;C、词对齐模型生成:得到对源语言语句中多个词翻译成目标语言词的概率;D、输出:将输入的源语言翻译成目标语言;E、联合翻译模型:将上述4个步骤的神经网络模型联合起来,建立一个基于字符编码的深度神经翻译模型(RNN‑embed),并使用GPU并行计算来加速模型的训练。
Description
技术领域
本发明涉及机器翻译技术领域,尤其涉及基于字符编码的深度神经翻译方法及系统。
背景技术
机器翻译又常常被称为自动翻译技术,通过利用计算机的编程能力,把一种语言自动转化成另一种语言,前者称为源语言,后者称作目标语言。如今,机器翻译课题所具备的广泛前景已被公认,毫无疑问它将是应用技术的一大热点。
目前,从整体上可将机器翻译划分为基于规则与基于语料库的两种方法,其中,基于规则的方法已经研究到句法阶段,但在通用领域中的应用性不强,往往被限制在了专有应用上。而基于语料库的方式又可细分为基于事例与基于统计的方法,由于前者无法得到一个完整的语料库,导致匹配率不是很理想,同样容易被限制在比较狭窄的领域。而后者有所不同,整个建模过程将获取到的翻译知识转化为统计数据,系统甚至能自动学习出原语料库中不存在的语句,使整个知识融会贯通。
但是传统的基于统计的机器翻译模型存在如下问题:首先,我们要对源语言和目标语言进行预处理,容易产生数据高维和稀疏的问题;翻译模型中的各个模块相对独立,增加额训练的难度;生成模型之后,如果有生僻词存在,需要进行再处理,破坏模型的完整性。
发明内容
本发明的目的在于提供一种基于字符编码的深度神经翻译方法及系统,旨在解决现有技术中存在的问题。
本发明通过以下技术方案实现:一种基于字符编码的深度神经翻译方法,所述方法包括以下步骤:
A、词向量生成步骤:将字符级别的输入数据通过神经网络建模进行分词,并生成词向量;
B、语言模型生成步骤:利用递归神经网络在时间上具有记忆性的特点,使得词向量可以包含上下文的语言信息,建立语法规则;
C、词对齐模型生成步骤:采用关注机制,通过神经网络模型训练,得到对源语言语句中多个词翻译成目标语言词的概率,作为权重将源语言此相加,表示词与词之间的对应关系;
D、输出步骤:将输入的源语言翻译成目标语言;
E、联合翻译步骤:将上述4个步骤的神经网络模型联合起来,建立一个RNN-embed机器翻译模型,并使用GPU并行计算来加速模型的训练。
作为本发明的进一步改进,所述步骤A包括以下步骤:
A1、数据预处理:建立源语言和目标语言的字典,对源语言和目标语言的字符进行One-Hot编码,按照时间顺序将一句话表示成一个矩阵,矩阵中的每一行对应一个字符的One-Hot编码;
A2、基于RNN的特征提取:将字符通过One-Hot编码得到的向量x,通过RNN隐藏层h计算得到向量y,每经过一个时间t(对应输入为xt),RNN的隐藏层ht都会进行迭代更新,实际上相当于得到字符的新的特征表述,不过,后一个字符携带前一个字符的信息;
A3、词向量生成:hT作为最后一步时间T的隐藏层,包含了前面所有时刻输入数据的信息,但它并不是词向量,而是一个句子的向量表示。将每一个时间t中的ht额外保存下载,并在作为下一个隐藏层的输入前清零,我们便能得到一系列按时间顺序排列的词向量序列(h1,…,hT),在训练过程中,将有可能成为词的(hi,…,hi+l)只保留最后一个特征向量,其余向量用向量表示这样就完成了词向量的划分;同理,词向量化目标语言。
作为本发明的进一步改进,所述步骤B包括以下步骤:
B1、上下文信息的提取:利用词向量生成模型,对文本数据按照从前向后和从后向前的顺序分别生成词向量和表示分别包含第i个词向量前文和后文信息;
B2、采用著名的长短期记忆网络(Long-Short Term Memory,LSTM)网络的变型:Gated Recurrent Unit(GRU)网络,用于生成语言模型;
B3、GRU网络是在简单RNN网络的基础上增加两个控制门单元r和z:r的出现是为了控制上一时刻隐藏层单元g的信息,会按多少百分比输入此时刻的隐藏层,这样便形成了短期内的记忆可动态量化调整的功能;而z的目的刚好与此互补,它更倾向于对更早信息的存储,它通过按一定比例重置自身状态,并加入以前的信息,使得一些时间相隔较远的信息也能传递下来;在保证每步所输出s独立性的同时,还增强了模型的长期记忆功能,形成语言规则。
作为本发明的进一步改进,所述步骤C包括以下步骤:
C1、根据人类翻译的原理:在一个句子中翻译出一个单词时,我们往往是根据源语句中的某个或某几个单词得出,对于目标语言yi,我们可以得到ci,每个ci都代表了在翻译出不同的单词yi时,所参照的源语言信息,类似于一种关注机制;
C2、计算对应语句中每一个源语言词xj翻译成对应目标词yi的概率αij;
C3、将αij作为对应第j个源语言词sj的权值,将词向量乘以权值后再相加,得到词对齐模型ci。
作为本发明的进一步改进,所述步骤D包括以下步骤:
D1、类似于编码器部分,解码器的输出模块需要先计算出目标语言的词向量表示(使用GRU网络,只计算正向即可);
D2、在计算过程中要使用词对齐模型生成的向量ci;
D3、最后的输出是此时刻输出yi作为目标语言的概率。
作为本发明的进一步改进,所述联合翻译步骤包括以下步骤:
E1、将上述A、B、C、D的4个步骤联合起来形成一个整体的神经网络模型;
E2、通过编码器-解码器的结构对网络进行训练,采用GPU并行计算对训练过程进行加速;
E3、对于给定的新的待翻译语句,输入到系统中,我们可以得到语句的翻译结果。
所述方法采用的是对字符集数据进行作为原始输入,相对于词级别,可以降低输入向量的维度,减少计算复杂度。
本发明的另一目的在于提供一种基于字符编码的深度神经翻译系统,包括:
词向量生成模块:将字符级别的输入数据通过神经网络建模进行分词,并生成词向量,此模块属于编码器;
语言模型生成模块:利用递归神经网络在时间上具有记忆性的特点,使得词向量可以包含上下文的语言信息,建立语法规则,此模块属于编码器;
词对齐模型生成模块:采用关注机制,通过神经网络模型训练,得到对源语言语句中多个词翻译成目标语言词的概率,作为权重将源语言此相加,表示词与词之间的对应关系,此模块属于解码器;
输出模块:将输入的源语言翻译成目标语言,此模块属于解码器;
联合翻译模型:将上述4个模块的神经网络模型联合起来,建立一个RNN-embed机器翻译模型,并使用GPU并行计算来加速模型的训练。
作为本发明的进一步改进,所述编码器模块包括:
数据预处理子模块,建立源语言和目标语言的字典,对源语言和目标语言的字符进行One-Hot编码,按照时间顺序将一句话表示成一个矩阵,矩阵中的每一行对应一个字符的One-Hot编码;
基于RNN的特征提取子模块:将字符通过One-Hot编码得到的向量x,通过RNN隐藏层h计算得到向量y,每经过一个时间t(对应输入为xt),RNN的隐藏层ht都会进行迭代更新,实际上相当于得到字符的新的特征表述,不过,后一个字符携带前一个字符的信息;
词向量生成子模块,hT作为最后一步时间T的隐藏层,包含了前面所有时刻输入数据的信息,但它并不是词向量,而是一个句子的向量表示。将每一个时间t中的ht额外保存下载,并在作为下一个隐藏层的输入前清零,我们便能得到一系列按时间顺序排列的词向量序列(h1,…,hT),在训练过程中,将有可能成为词的(hi,…,hi+l)只保留最后一个特征向量,其余向量用向量表示这样就完成了词向量的划分;同理,词向量化目标语言;
上下文信息的提取子模块,利用词向量生成模型,对文本数据按照从前向后和从后向前的顺序分别生成词向量和表示分别包含第i个词向量前文和后文信息;
采用著名的长短期记忆网络(Long-Short Term Memory,LSTM)网络的变型:GatedRecurrent Unit(GRU)网络,用于生成语言模型;
GRU网络是在简单RNN网络的基础上增加两个控制门单元r和z:r的出现是为了控制上一时刻隐藏层单元g的信息,会按多少百分比输入此时刻的隐藏层,这样便形成了短期内的记忆可动态量化调整的功能;而z的目的刚好与此互补,它更倾向于对更早信息的存储,它通过按一定比例重置自身状态,并加入以前的信息,使得一些时间相隔较远的信息也能传递下来;在保证每步所输出s独立性的同时,还增强了模型的长期记忆功能,形成语言规则。
作为本发明的进一步改进,所述解码器模块包括:
词对齐模型子模块,根据人类翻译的原理:在一个句子中翻译出一个单词时,我们往往是根据源语句中的某个或某几个单词得出,对于目标语言yi,我们可以得到ci,每个ci都代表了在翻译出不同的单词yi时,所参照的源语言信息,类似于一种关注机制;计算对应语句中每一个源语言词xj翻译成对应目标词yi的概率αij;将αij作为对应第j个源语言词sj的权值,将词向量乘以权值后再相加,得到词对齐模型ci;
输出模型子模块:类似于编码器部分,解码器的输出模块需要先计算出目标语言的词向量表示(使用GRU网络,只计算正向即可);在计算过程中要使用词对齐模型生成的向量ci;最后的输出是此时刻输出yi作为目标语言的概率;
作为本发明的进一步改进,所述联合翻译模型模块包括:
联合翻译模型子模块:将上述4个模块联合起来形成一个整体的神经网络模型;通过编码器-解码器的结构对网络进行训练,采用GPU并行计算对训练过程进行加速;对于给定的新的待翻译语句,输入到系统中,我们可以得到语句的翻译结果。
本发明的有益效果是:本发明提供的基于字符编码的深度神经翻译模型及系统,以字符级数据作为输入,对于神经网络的结构,与以词级输入数据相比,大大降低了训练的特征维度;同时,使用递归神经网络结构模仿构造统计机器翻译模型中的各个子模块(“词向量生成模块”,“语言模型生成模块”,“词对齐模块”,“输出模块”),并且将各个子模块联合起来,形成一个统一的神经网络结构,我们称之为“RNN-embed模型”,利用GPU并行计算加速技术,对给定的数据集进行训练,得到翻译模型。利用本文提出的基于字符编码的深度神经翻译模型,采用“编码器-解码器”框架:在编码器部分:我们可以直接按照上下文顺序,把文本信息按照字符输入到模型中,利用递归神经网络对上下文信息具有记忆性的特点对输入的语句进行分词和建立语言模型(利用GRU神经网络可以对保存的信息进行筛选,建立语言规则);在解码器部分:利用关注机制生成词对齐模型,对给定的源语言和目标语言进行翻译结果的预测,输出最优的翻译结果(输出模块)。所有的训练过程都由神经网络模型自动训练完成,不需要对数据做大量的统计工作(统计机器翻译模型),同时利用GPU加速技术,大大提高了训练速度。
附图说明
图1是本发明的基于字符编码的深度神经翻译方法的流程图;
图2是本发明的基于字符编码的深度神经翻译系统的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的基于字符编码的深度神经翻译方法及系统。本发明的主要创新的工作为以下两个部分:1)翻译模型编码器模块;2)翻译模型解码器模块。第一部分对输入数据进行编码,利用递归神经网络把按照字符级输入的数据进行分词和建立语言模型。第二部分解码器部分,利用源语言和目标语言建立词对齐模型,并且对计算出候选的翻译结果,选择最优的结果进行输出。
图1示出了本发明提供的基于字符编码的深度神经翻译模型的流程图,其详述如下:
步骤S1,编码器模块:利用递归神经网络把按照字符级输入的数据进行分词和建立语言模型。具体步骤如下:
(S11)词向量生成:对于给定的训练集(源语言和目标语言的文本信息),分别建立字典,根据字典的长度,对字符数据进行One-Hot编码,源语言一个句子定义为x,对应的目标语言句子定义为y,则经过One-Hot编码的第i个字符定义为xi和yi。在此提出了一种基于递归神经网络(RNN)的词向量生成方法:RNN通过计算一个可变长的输入向量x,得到隐藏层h以及可供选择输出的y向量,每经过一个时间t,RNN的隐藏层ht都会按照下面公式进行迭代更新:
ht=f(ht-1,xt)
那么根据RNN的基本思想进行扩展,也可以完成获取词向量这一任务。hT作为最后一步时间T的隐藏层,已经是一个货真价实的向量,但是不妥的是,它并不是词向量,而是一个句子的向量表示。如果将每一个时间t中的ht额外保存下载,并在作为下一个隐藏层的输入前清零,我们便能得到一系列按时间顺序排列的词向量序列(h1,…,hT)。当然,仔细观察就会发现,这与ht=f(xt)是等价的,换而言之,就是在One-Hot编码的基础上做了一个非线性变换而已。但是,此方案的大致想法却是可行的,RNN主要用来生成向量表示,只是需要设计如何选择性地将ht在合适的时间置零。
清零从自然语言角度可以理解为切词,恰好这也是以字符型数据作为输入的模型所需的。那么,可在神经网络中增加一个开关w,用来输出切分好的词向量,并及时清零上一个词的信息即可:
hi=tanh(Whxi+Uhhi-1)
w i =σ(Wwxi+Uwhi-1+Vwwi-1)
hi←(1-wi)hi
其中,Kx是源语言的词典大小,而Tx为源语言句子的长度,对于不同的句子Tx一般都不相等,σ是sigmoid激活函数,Uh∈Rm×m、Uw∈R2×m是权值矩阵,m为词嵌入后的短向量维度。
(S12)建立语言模型:递归神经网络也可以使用连续的空间进行泛化,它的递归结构具有深度性,并且能让隐藏层去学习之前的历史数据。其中比较出名的是LSTM,它是一种特殊的RNN,适合于处理与预测时间序列中,间隔和延迟比较长的重要事件,但是,它的结构较为复杂,于是本课题应用了此模型的变种GRU,并加以改进,在保留它长期记忆能力的基础上,使训练过程变得更加简单。
其中,是词向量模块的m维嵌入式转化, 是权值矩阵,且 是更新门,是重置门,前者允许每个隐藏单元维持自身早先的激活状态,而后者则控制什么信息,以及多少信息需要从先前的状态重置。为输出门,是对GRU模型的改进。在不同的时间t中,每个隐藏层单元都有其各自的重置门、更新门与输出门,它们将会捕捉不同时间尺度上的依赖性。当隐藏层单元尝试去捕捉短期记忆时,重置门便会被频繁的激活;而偏向于捕捉长期记忆时,更新门则同样如此。
借鉴于近期在语音识别领域取得很好效果的Bidirectional RNN思想,本课题按照类似的方法计算出了反向的计算的时候按照时间顺序读入一句话,而则按照逆序列来处理。这样一来,不仅关注了xt前面的字符x1,…,xt-1,还会考虑它后面的符号以至于能够尽可能的将各类信息都融合进去。与这些权值矩阵相同,会被重新计算。最后通过将与联合起来,得到含有源语言信息的隐藏层序列
步骤S2,解码器部分:既然是机器翻译系统,便会存在两种相对的自然语言,换而言之就是两个较为独立的语言模型。编码器中通过改进版的双向GRU,得出隐藏层序列s,同样的解码模块s′也是类似的GRU结构,不用额外增加输出门,因为此功能已在输出模块有所体现。但若仅此而已,编码器与解码器之间将无任何联系,也就不会存在翻译这一过程。所以,在解码器模块s′的计算过程中,还加入了含有编码模块信息的c,这里可以先暂时把c视为所有或者部分的源语言信息,而对于c的具体定义将会在词对齐模型中给出。具体的解码器步骤如下:
解码器的语言模型:
s′i=(1-zi)οs′i-1+ziοs′ i
其中,是目标语言的m维词嵌入向量,o是点乘计算,Wz,Wr,Ws∈Rn×m、Uz,Ur,Us∈Rn×n、Cz,Cr,Cs∈Rn×n′是权值矩阵,且解码器部分不用计算出双向的语言模型,因为它进一步服务于输出模块,以便依次输出翻译的目标语言序列。
(S21)词对齐:词对齐是机器翻译方法中最为基础的问题,可以说是现有主流机器翻译算法,在训练模型中的第一步。通过词对齐模块,我们便可以自动地从平行语料库中,学习出词汇级别的对应关系,并基于此结果进一步采用启发式的方法抽取翻译规则,训练基于神经网络的机器翻译模型。所以,词对齐模块的效果将明显地影响到整个机器翻译系统的性能。
每当模型要生成一个翻译的词,都通过动态选择源语言中最相关的信息来组合,也就是说加入对齐这个步骤。定义s1到为编码模块语言模型按时间顺序生成的结果,分别对应了x1到而c的出现是为了在解码模块进行模型训练时,将编码模块的信息输入融合进去。传统的解决办法,它直接将整个源语句的信息赋值给c,这种情况下,不仅存在之前提到的关于c向量长度的问题,而且如此一来,对于翻译语句中不同的单词,它们将参照完全一样的源语言信息c。事实上,人工翻译的过程并非如此,当我们翻译出一个单词时,我们往往是根据源语句中的某个或某几个单词得出。所以依据此种原理,这里将固定不变的c按目标语句的生成顺序拓展为c1到其中,每个ci都代表了在翻译出不同的单词yi时,所参照的源语言信息,类似于一种关注机制。
单词yi主要由源语句中的单词xi-1、xi、xi+1以及xi+2翻译而出,且重要程度也不相同,以下为相应的计算公式:
其中,sj∈R2n已经在语言模块中说明,而s′i-1∈Rn与sj-1基本类似,只是前者是对目标语言,后者针对源语言,而它们的具体计算方法已在前文给出。同样Wa∈Rn′×n、Ua∈Rn ′×2n、Va∈Rn′是权值矩阵。aij是对齐变量,不同于传统机器翻译中的词语对齐模块,这里被显示的提出,也就是说在此,对齐并不被认为是一个潜在的因素,它是一个能量公式;αij是其对应的概率,具体指yi是由xj翻译而来的概率。将所有sj,在根据对齐计算后的概率权值相加在一起,最终得到基于所有注释可能性αij选择的源语言向量ci。那么,这里便形成了一种关注机制,使得神经网络能判断出在计算s′i的时候,需要特别注意源语言中的哪些部分。通过这种方法,编码器就能从必须将源语言的所有信息,都编码进定长向量的负担中解脱出来,解码器可以选择性的获取携带信息的s。
(S22)输出:模型由源语言序列生成目标语言序列x按时间顺序t依次输入网络中,并通过词向量生成模块,得到相应的然后按照改进后的双向GRU,根据si=f(xi,si-1),计算出一系列的隐藏层序列其中的每个s都包含了x前后的语义信息。
aij=f(s′i-1,sj)表达了目标语句中的单词yi,是由源语句中的单词xj翻译过来的概率,也就是传统机器翻译中的词对齐思想,通过一种动态关注机制来完成。如此,将sj中的所有对齐信息按权值相加,便把与翻译单词yi所需源语言序列中的信息,按不同的参考程度编译进ci中,以备后续模块的使用。
解码模块根据类似的GRU网络s′i=f(yi-1,s′i-1,ci),得到相应的隐藏层序列略有不同的是,这里需要加入编码器模块中相关的信息ci共同训练。如果到此为止,并不能有效的输出翻译结果y的序列,只是得到了解码模块的语言模型表示,整个神经网络模型还是属于无监督学习类型,如果想要输出正确的目标语言序列,还需要一个相应的校正过程,那便是输出模块。
不同于编码模块只需将源语言信息编码入隐藏层s,解码部分还需要进一步输出翻译的单词y。因此,再次联合前一个已输出词的向量ey、解码部分隐藏层的上一个状态s′i、以及翻译所需的源语言信息ci,按照以下所示过程,每一个时间t,解码器都会计算出此时生成yi的概率。
ti=max{t i,2j-1 ,t i,2j },j=1,…,l
其中,Wt∈R2l×m、Ut∈R2l×n、Ct∈R2l×n′、是权值矩阵。上述公式与解码部分语言模型的某些公式有点相似,因为t i 也是与词向量隐藏层s′i、以及源语言信息ci相关的。但是,此处需要注意的是隐藏层s′的下标是i而不是i-1,因为这里的s′变量不是为了递归处理。公式中使用了maxout单元,也可被视作是一种激活函数的形式,用于进行非线性的变换,它的拟合能力非常强。最后,通过softmax函数作为其激活函数,得到此时刻输出yi作为目标语言的概率。
步骤S3,联合各个子模块形成统一的基于神经网络的机器翻译模型,将以上提到的机器翻译模型的各部分(每一个部分都是神经网络结构)联合到一起,对整个神经网络结构统一训练,利用GPU加速技术,提高训练速度,使模型可以运行在大规模数据集上,提高翻译的准确率。具体步骤如下:
(S31)联合模型:将上一个神经网络模型的输出作为下一个模块的输入,使模块链接起来,统一训练模型参数;对于各类参数的初始化方式,在实验过程中,初始化递归模式中的一系列权值矩阵Uh,Uw,Vw, Ur和Us为随机正交矩阵。其中,随机正交矩阵可以通过先随机生成相应的随机矩阵,再使用奇异值分解方法得到,而对于对齐模块中的权值矩阵Wa和Ua,则从均值为0、方差为0.0012的高斯分布中随机取样。而权值矩阵Va与所有偏置向量的值都置为0,至于剩下的其它权值矩阵也同样从均值为0、方差为0.012的高斯分布中随机取样。
(S32)模型训练:随机梯度下降(SGD)是相对于批量梯度下降(BGD)算法而生的,BGD要求在每次反向传播时,都计算所有训练数据的误差,这在训练数据规模很大的情况下是极其不现实的。最初SGD被提出的时候是指每次反向传播只计算一个数据的误差值,但是这样一来串行太过明显,使得硬件的利用率较低。于是由SGD衍生出了Mini-Batch的方法,如此,每次反向传播过程都计算100个左右的数据误差,使之介于BGD与SGD之间,如今经常提到的SGD通常都是指它的Mini-Batch方法。而本课题在实验训练过程中,也将使用此方法进行模型的参数学习,它的一次梯度更新过程如下所示。
xt+1=xt+Δxt (4-1)
Δxt=-η·gt (4-2)
其中,t为时序,x是待训练的参数,公式中的η与g分别是学习率、梯度。η是超参数(学习率、权值初始化、网络层数、单层神经元数、正则惩罚项),而此类问题是困扰神经网络训练的难点之一,因为它们不能通过常规方法学习获得。弄懂神经网络可能只需要一小时,但是调神经网络却可能要花费很多天。因此,实验部分使用AdaDelta算法自动调整每个参数的学习速率(ε=10-6,ρ=0.95),计算公式如下。
其中,需要注意的是,公式中使用了RMS[Δx]t-1而不是RMS[Δx]t,因为此时Δxt还没有计算出来。
但对于网络中的递归部分,本课题采用了BPTT(Backpropagation Through Time)算法,它与前馈神经网络中的反向传播大体类似,只是此算法能把误差反向传播得更远。因为改进版的GRU中使用了一个记忆单元来替代一般RNN中的隐藏层,所以可以避免出现在反向传播过程中会遇到的爆炸与衰减问题。
图2示出了一种基于字符编码的深度神经翻译模型及系统,所述机器翻译系统包括:
词向量生成模块:将字符级别的输入数据通过神经网络建模进行分词,并生成词向量,此模块属于编码器;
语言模型生成模块:利用递归神经网络在时间上具有记忆性的特点,使得词向量可以包含上下文的语言信息,建立语法规则,此模块属于编码器;
词对齐模型生成模块:采用关注机制,通过神经网络模型训练,得到对源语言语句中多个词翻译成目标语言词的概率,作为权重将源语言此相加,表示词与词之间的对应关系,此模块属于解码器;
输出模块:将输入的源语言翻译成目标语言,此模块属于解码器;
联合翻译模块:将上述4个模块的神经网络模型联合起来,建立一个RNN-embed机器翻译模型,并使用GPU并行计算来加速模型的训练。
所述词向量生成模块包括:
数据预处理子模块,建立源语言和目标语言的字典,对源语言和目标语言的字符进行One-Hot编码,按照时间顺序将一句话表示成一个矩阵,矩阵中的每一行对应一个字符的One-Hot编码;
基于RNN的特征提取子模块:将字符通过One-Hot编码得到的向量x,通过RNN隐藏层h计算得到向量y,每经过一个时间t(对应输入为xt),RNN的隐藏层ht都会进行迭代更新,实际上相当于得到字符的新的特征表述,不过,后一个字符携带前一个字符的信息;
词向量生成子模块,hT作为最后一步时间T的隐藏层,包含了前面所有时刻输入数据的信息,但它并不是词向量,而是一个句子的向量表示。将每一个时间t中的ht额外保存下载,并在作为下一个隐藏层的输入前清零,我们便能得到一系列按时间顺序排列的词向量序列(h1,…,hT),在训练过程中,将有可能成为词的(hi,…,hi+l)只保留最后一个特征向量,其余向量用向量表示这样就完成了词向量的划分;同理,词向量化目标语言。
所述语言模型生成模块包括:
上下文信息的提取子模块,利用词向量生成模型,对文本数据按照从前向后和从后向前的顺序分别生成词向量和表示分别包含第i个词向量前文和后文信息;
采用著名的长短期记忆网络(Long-Short Term Memory,LSTM)网络的变型:GatedRecurrent Unit(GRU)网络,用于生成语言模型;
GRU网络是在简单RNN网络的基础上增加两个控制门单元r和z:r的出现是为了控制上一时刻隐藏层单元g的信息,会按多少百分比输入此时刻的隐藏层,这样便形成了短期内的记忆可动态量化调整的功能;而z的目的刚好与此互补,它更倾向于对更早信息的存储,它通过按一定比例重置自身状态,并加入以前的信息,使得一些时间相隔较远的信息也能传递下来;在保证每步所输出s独立性的同时,还增强了模型的长期记忆功能,形成语言规则。
所述生成词对齐模型和输出模块包括:
词对齐模型子模块,根据人类翻译的原理:在一个句子中翻译出一个单词时,我们往往是根据源语句中的某个或某几个单词得出,对于目标语言yi,我们可以得到ci,每个ci都代表了在翻译出不同的单词yi时,所参照的源语言信息,类似于一种关注机制;计算对应语句中每一个源语言词xj翻译成对应目标词yi的概率αij;将αij作为对应第j个源语言词sj的权值,将词向量乘以权值后再相加,得到词对齐模型ci;
输出模型子模块:类似于编码器部分,解码器的输出模块需要先计算出目标语言的词向量表示(使用GRU网络,只计算正向即可);在计算过程中要使用词对齐模型生成的向量ci;最后的输出是此时刻输出yi作为目标语言的概率;
联合翻译模型子模块:将上述4个模块联合起来形成一个整体的神经网络模型;通过编码器-解码器的结构对网络进行训练,采用GPU并行计算对训练过程进行加速;对于给定的新的待翻译语句,输入到系统中,我们可以得到语句的翻译结果。
递归神经网络(Recurrent Neural Network,RNN)。
随着深度学习逐渐进入研究者的视野,神经网络的方法也开始用于词对齐、语言模型训练、解码等模块的优化,并且取得了不错的成果。但是不同于在部分模块上使用神经网络进行改进,本发明旨在建立一个联合的神经网络来覆盖整个机器翻译过程,形成端到端的“编码器”-“解码器”框架;在次框架下,以字符级数据作为模型输入,不再需要一般文本的自然语言处理步骤,比如分词、单词纠错与生僻词识别等,并且将所有模块统一联合训练生成翻译模型。
本发明的主要贡献有以下两点:首先,此模型将字符作为模型的输入,使得文本数据不再需要分词预处理,避免文本信息在深度神经网络中高语义的问题,在模型训练方面,降低了输入到训练模型的数据的维度,大大降低了训练的难度同时提高了训练的速度。其次,把机器翻译问题分治成编码器、解码器两大模块,并且将原本在统计机器翻译模型各自独立的词向量生成模块、语言模型生成模块、词对齐模块和输出模块联合起来,形成联合的神经网络模型“RNN-embed”。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于字符编码的深度神经翻译方法,其特征在于,包括以下步骤:
A、词向量生成步骤:将字符级别的输入数据通过神经网络建模进行分词,并生成词向量;
B、语言模型生成步骤:利用递归神经网络在时间上具有记忆性的特点,使得词向量可以包含上下文的语言信息,建立语法规则;
C、词对齐模型生成步骤:采用关注机制,通过神经网络模型训练,得到对源语言语句中多个词翻译成目标语言词的概率,作为权重将源语言此相加,表示词与词之间的对应关系;
D、输出步骤:将输入的源语言翻译成目标语言;
E、联合翻译步骤:将上述4个步骤的神经网络模型联合起来,建立一个RNN-embed机器翻译模型,并使用GPU并行计算来加速模型的训练。
2.根据权利要求1所述的深度神经翻译方法,其特征在于,所述步骤A包括以下步骤:
A1、数据预处理步骤:建立源语言和目标语言的字典,对源语言和目标语言的字符进行One-Hot编码,按照时间顺序将一句话表示成一个矩阵,矩阵中的每一行对应一个字符的One-Hot编码;
A2、基于RNN的特征提取步骤:将字符通过One-Hot编码得到的向量x,通过RNN隐藏层h计算得到向量y,每经过一个时间t,对应输入为xt,RNN的隐藏层ht都会进行迭代更新,实际上相当于得到字符的新的特征表述,不过,后一个字符携带前一个字符的信息;
A3、生成步骤:hT作为最后一步时间T的隐藏层,包含了前面所有时刻输入数据的信息,但它并不是词向量,而是一个句子的向量表示,将每一个时间t中的ht额外保存下载,并在作为下一个隐藏层的输入前清零,我们便能得到一系列按时间顺序排列的词向量序列(h1,…,hT),在训练过程中,将有可能成为词的(hi,…,hi+l)只保留最后一个特征向量,其余向量用向量表示这样就完成了词向量的划分;同理,词向量化目标语言。
3.根据权利要求1所述的深度神经翻译方法,其特征在于,所述步骤B包括以下步骤:
B1、上下文信息的提取:利用词向量生成模型,对文本数据按照从前向后和从后向前的顺序分别生成词向量和表示分别包含第i个词向量前文和后文信息;
B2、采用长短期记忆网络的变型:GRU网络,用于生成语言模型;
B3、GRU网络是在简单RNN网络的基础上增加两个控制门单元r和z:r的出现是为了控制上一时刻隐藏层单元g的信息,会按多少百分比输入此时刻的隐藏层,这样便形成了短期内的记忆可动态量化调整的功能;而z的目的刚好与此互补,它更倾向于对更早信息的存储,它通过按一定比例重置自身状态,并加入以前的信息,使得一些时间相隔较远的信息也能传递下来;在保证每步所输出s独立性的同时,还增强了模型的长期记忆功能,形成语言规则。
4.根据权利要求1所述的深度神经翻译方法,其特征在于,所述步骤C包括以下步骤:
C1、对于目标语言yi,我们可以得到ci,每个ci都代表了在翻译出不同的单词yi时,所参照的源语言信息,类似于一种关注机制;
C2、计算对应语句中每一个源语言词xj翻译成对应目标词yi的概率αij;
C3、将αij作为对应第j个源语言词sj的权值,将词向量乘以权值后再相加,得到词对齐模型ci。
5.根据权利要求3所述的深度神经翻译方法,其特征在于,所述步骤D包括以下步骤:
D1、解码器的输出模块需要先计算出目标语言的词向量表示,使用GRU网络,只计算正向即可;
D2、在计算过程中要使用词对齐模型生成的向量ci;
D3、最后的输出是此时刻输出yi作为目标语言的概率。
6.根据权利要求1所述的深度神经翻译方法,其特征在于,所述步骤E包括以下步骤:
E1、将上述A、B、C、D的4个步骤联合起来形成一个整体的神经网络模型;
E2、通过编码器-解码器的结构对网络进行训练,采用GPU并行计算对训练过程进行加速;
E3、对于给定的新的待翻译语句,输入到系统中,我们可以得到语句的翻译结果。
7.一种基于字符编码的深度神经翻译系统,其特征在于,包括:
词向量生成模块:将字符级别的输入数据通过神经网络建模进行分词,并生成词向量,此模块属于编码器;
语言模型生成模块:利用递归神经网络在时间上具有记忆性的特点,使得词向量可以包含上下文的语言信息,建立语法规则,此模块属于编码器;
词对齐模型生成模块:采用关注机制,通过神经网络模型训练,得到对源语言语句中多个词翻译成目标语言词的概率,作为权重将源语言此相加,表示词与词之间的对应关系,此模块属于解码器;
输出模块:将输入的源语言翻译成目标语言,此模块属于解码器;
联合翻译模块:将上述4个模块的神经网络模型联合起来,建立一个RNN-embed机器翻译模型,并使用GPU并行计算来加速模型的训练。
8.根据权利要求7所述的深度神经翻译系统,其特征在于:所述编码器模块包括:
数据预处理子模块,建立源语言和目标语言的字典,对源语言和目标语言的字符进行One-Hot编码,按照时间顺序将一句话表示成一个矩阵,矩阵中的每一行对应一个字符的One-Hot编码;
基于RNN的特征提取子模块:将字符通过One-Hot编码得到的向量x,通过RNN隐藏层h计算得到向量y,每经过一个时间t,对应输入为xt,RNN的隐藏层ht都会进行迭代更新,实际上相当于得到字符的新的特征表述,不过,后一个字符携带前一个字符的信息;
词向量生成子模块,hT作为最后一步时间T的隐藏层,包含了前面所有时刻输入数据的信息,但它并不是词向量,而是一个句子的向量表示,将每一个时间t中的ht额外保存下载,并在作为下一个隐藏层的输入前清零,我们便能得到一系列按时间顺序排列的词向量序列(h1,…,hT),在训练过程中,将有可能成为词的(hi,…,hi+l)只保留最后一个特征向量,其余向量用向量表示这样就完成了词向量的划分;同理,词向量化目标语言;
上下文信息的提取子模块,利用词向量生成模型,对文本数据按照从前向后和从后向前的顺序分别生成词向量和表示分别包含第i个词向量前文和后文信息;
采用著名的长短期记忆网络的变型:GRU网络,用于生成语言模型;
GRU网络是在简单RNN网络的基础上增加两个控制门单元r和z:r的出现是为了控制上一时刻隐藏层单元g的信息,会按多少百分比输入此时刻的隐藏层,这样便形成了短期内的记忆可动态量化调整的功能;而z的目的刚好与此互补,它更倾向于对更早信息的存储,它通过按一定比例重置自身状态,并加入以前的信息,使得一些时间相隔较远的信息也能传递下来;在保证每步所输出s独立性的同时,还增强了模型的长期记忆功能,形成语言规则。
9.根据权利要求7所述的深度神经翻译系统,其特征在于:所述解码器模块包括:
词对齐模型子模块,对于目标语言yi,我们可以得到ci,每个ci都代表了在翻译出不同的单词yi时,所参照的源语言信息,类似于一种关注机制;计算对应语句中每一个源语言词xj翻译成对应目标词yi的概率αij;将αij作为对应第j个源语言词sj的权值,将词向量乘以权值后再相加,得到词对齐模型ci;
输出模型子模块:解码器的输出模块需要先计算出目标语言的词向量表示,使用GRU网络,只计算正向即可;在计算过程中要使用词对齐模型生成的向量ci;最后的输出是此时刻输出yi作为目标语言的概率;
联合翻译模型子模块:将上述4个模块联合起来形成一个整体的神经网络模型;通过编码器-解码器的结构对网络进行训练,采用GPU并行计算对训练过程进行加速;对于给定的新的待翻译语句,输入到系统中,我们可以得到语句的翻译结果。
10.根据权利要求7-9任一项所述的深度神经翻译系统,其特征在于:所述利用字符级别的数据作为输入,通过训练基于递归神经网络构造的区别于原始基于统计的翻译模型“RNN-embed模型”进行训练,可以对输入的新语句进行实时翻译。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610457514.9A CN106126507B (zh) | 2016-06-22 | 2016-06-22 | 一种基于字符编码的深度神经翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610457514.9A CN106126507B (zh) | 2016-06-22 | 2016-06-22 | 一种基于字符编码的深度神经翻译方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106126507A true CN106126507A (zh) | 2016-11-16 |
CN106126507B CN106126507B (zh) | 2019-08-09 |
Family
ID=57269156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610457514.9A Active CN106126507B (zh) | 2016-06-22 | 2016-06-22 | 一种基于字符编码的深度神经翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126507B (zh) |
Cited By (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528540A (zh) * | 2016-12-16 | 2017-03-22 | 广州索答信息科技有限公司 | 一种种子问句的分词方法和分词系统 |
CN106776501A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种文本错别字自动更正方法和服务器 |
CN106777073A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种搜索引擎中错别字自动更正方法和服务器 |
CN107038154A (zh) * | 2016-11-25 | 2017-08-11 | 阿里巴巴集团控股有限公司 | 一种文本情感识别方法和装置 |
CN107358948A (zh) * | 2017-06-27 | 2017-11-17 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN107368476A (zh) * | 2017-07-25 | 2017-11-21 | 深圳市腾讯计算机系统有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
CN107797986A (zh) * | 2017-10-12 | 2018-03-13 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的混合语料分词方法 |
CN107844480A (zh) * | 2017-10-21 | 2018-03-27 | 科大讯飞股份有限公司 | 将书面文本转换为口语文本的方法及系统 |
CN107967263A (zh) * | 2017-12-11 | 2018-04-27 | 中译语通科技股份有限公司 | 一种机器翻译数字泛化方法及系统、计算机、计算机程序 |
CN107977472A (zh) * | 2017-12-27 | 2018-05-01 | 北京诸葛找房信息技术有限公司 | 房产类新闻文章自动生成的方法 |
CN108132932A (zh) * | 2017-12-27 | 2018-06-08 | 苏州大学 | 带有复制机制的神经机器翻译方法 |
CN108228554A (zh) * | 2016-12-09 | 2018-06-29 | 富士通株式会社 | 基于语义表示模型来生成词向量的方法、装置和电子设备 |
CN108388561A (zh) * | 2017-02-03 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 神经网络机器翻译方法和装置 |
CN108563639A (zh) * | 2018-04-17 | 2018-09-21 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型 |
CN108733657A (zh) * | 2017-04-17 | 2018-11-02 | 北京搜狗科技发展有限公司 | 神经机器翻译中注意力参数的修正方法、装置及电子设备 |
CN108776832A (zh) * | 2018-06-05 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN108831472A (zh) * | 2018-06-27 | 2018-11-16 | 中山大学肿瘤防治中心 | 一种基于唇语识别的人工智能发声系统及发声方法 |
WO2018213763A1 (en) * | 2017-05-19 | 2018-11-22 | Salesforce.Com, Inc. | Natural language processing using context-specific word vectors |
CN108875926A (zh) * | 2017-10-30 | 2018-11-23 | 上海寒武纪信息科技有限公司 | 语言翻译方法及相关产品 |
CN108960277A (zh) * | 2017-05-19 | 2018-12-07 | 百度(美国)有限责任公司 | 使用语言模型对序列到序列模型进行冷聚变 |
CN108984535A (zh) * | 2018-06-25 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 |
CN109033088A (zh) * | 2018-09-04 | 2018-12-18 | 北京先声教育科技有限公司 | 一种基于神经网络的第二语言习得模型 |
CN109033094A (zh) * | 2018-07-18 | 2018-12-18 | 五邑大学 | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 |
CN109062910A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
CN109145120A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 医学健康领域知识图谱的关系抽取方法及系统 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN109388808A (zh) * | 2017-08-10 | 2019-02-26 | 陈虎 | 一种用于建立单词翻译模型的训练数据采样方法 |
CN109426660A (zh) * | 2017-08-17 | 2019-03-05 | 中国海洋大学 | 基于长短时记忆网络的英文电子邮件写作助手 |
CN109472366A (zh) * | 2018-11-01 | 2019-03-15 | 郑州云海信息技术有限公司 | 一种机器学习模型的编码解码方法与装置 |
WO2019072166A1 (zh) * | 2017-10-10 | 2019-04-18 | 腾讯科技(深圳)有限公司 | 语义分析方法、装置和存储介质 |
CN109658265A (zh) * | 2018-12-13 | 2019-04-19 | 平安医疗健康管理股份有限公司 | 基于大数据的支付超量识别方法、设备、存储介质及装置 |
CN109670040A (zh) * | 2018-11-27 | 2019-04-23 | 平安科技(深圳)有限公司 | 写作辅助方法、装置及存储介质、计算机设备 |
CN109783827A (zh) * | 2019-01-31 | 2019-05-21 | 沈阳雅译网络技术有限公司 | 一种基于动态线性聚合的深层神经机器翻译方法 |
CN109829172A (zh) * | 2019-01-04 | 2019-05-31 | 北京先声智能科技有限公司 | 一种基于神经翻译的双向解码自动语法改错模型 |
CN109859760A (zh) * | 2019-02-19 | 2019-06-07 | 成都富王科技有限公司 | 基于深度学习的电话机器人语音识别结果校正方法 |
CN109871529A (zh) * | 2017-12-04 | 2019-06-11 | 三星电子株式会社 | 语言处理方法和设备 |
CN109933780A (zh) * | 2017-12-15 | 2019-06-25 | 奥多比公司 | 使用深度学习技术确定文档中的上下文阅读顺序 |
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN109978141A (zh) * | 2019-03-28 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 神经网络模型训练方法和装置、自然语言处理方法和装置 |
CN110069790A (zh) * | 2019-05-10 | 2019-07-30 | 东北大学 | 一种通过译文回译对照原文的机器翻译系统及方法 |
CN110134971A (zh) * | 2018-02-08 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110188348A (zh) * | 2019-05-07 | 2019-08-30 | 南京邮电大学 | 一种基于深度神经网络的中文语言处理模型及方法 |
CN110211570A (zh) * | 2019-05-20 | 2019-09-06 | 北京百度网讯科技有限公司 | 同声传译处理方法、装置及设备 |
CN110249342A (zh) * | 2016-12-15 | 2019-09-17 | 谷歌有限责任公司 | 使用机器学习模型的自适应信道编码 |
CN110362676A (zh) * | 2018-04-08 | 2019-10-22 | 彩数(上海)商务咨询有限公司 | 一种cdrnn神经网络自然语义分析系统及方法 |
CN110389996A (zh) * | 2018-04-16 | 2019-10-29 | 国际商业机器公司 | 实现用于自然语言处理的全句递归神经网络语言模型 |
CN110389820A (zh) * | 2019-06-28 | 2019-10-29 | 浙江大学 | 一种基于v-TGRU模型进行资源预测的私有云任务调度方法 |
CN110431566A (zh) * | 2017-03-15 | 2019-11-08 | 易享信息技术有限公司 | 基于概率的引导器 |
CN110427630A (zh) * | 2019-06-10 | 2019-11-08 | 北京捷通华声科技股份有限公司 | 机器翻译的方法、装置、电子设备、存储介质及翻译模型 |
CN110457713A (zh) * | 2019-06-19 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 基于机器翻译模型的翻译方法、装置、设备和存储介质 |
CN110597086A (zh) * | 2019-08-19 | 2019-12-20 | 深圳元戎启行科技有限公司 | 仿真场景生成方法和无人驾驶系统测试方法 |
CN110717342A (zh) * | 2019-09-27 | 2020-01-21 | 电子科技大学 | 一种基于transformer的距离参量对齐翻译方法 |
CN110795912A (zh) * | 2019-09-19 | 2020-02-14 | 平安科技(深圳)有限公司 | 基于神经网络对文本编码的方法、装置、设备及存储介质 |
CN110874537A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 多语言翻译模型的生成方法、翻译方法及设备 |
CN110879940A (zh) * | 2019-11-21 | 2020-03-13 | 哈尔滨理工大学 | 一种基于深度神经网络的机器翻译方法及系统 |
CN110895660A (zh) * | 2018-08-23 | 2020-03-20 | 澳门大学 | 一种基于句法依存关系动态编码的语句处理方法及装置 |
CN110914827A (zh) * | 2017-04-23 | 2020-03-24 | 纽昂斯通讯公司 | 基于转移学习的多语言语义解析器 |
CN110913229A (zh) * | 2018-09-18 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 基于rnn的解码器隐状态确定方法、设备和存储介质 |
CN110969028A (zh) * | 2018-09-28 | 2020-04-07 | 百度(美国)有限责任公司 | 用于同步翻译的系统和方法 |
CN111079450A (zh) * | 2019-12-20 | 2020-04-28 | 北京百度网讯科技有限公司 | 基于顺句驱动的语言转换方法和装置 |
CN111144140A (zh) * | 2019-12-23 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于零次学习的中泰双语语料生成方法及装置 |
CN111178097A (zh) * | 2019-12-24 | 2020-05-19 | 语联网(武汉)信息技术有限公司 | 基于多级翻译模型生成中泰双语语料的方法及装置 |
CN111310484A (zh) * | 2020-03-12 | 2020-06-19 | 北京字节跳动网络技术有限公司 | 机器翻译模型的自动训练方法、平台、电子设备、及存储介质 |
CN111368564A (zh) * | 2019-04-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN111382584A (zh) * | 2018-09-04 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN111557029A (zh) * | 2017-12-15 | 2020-08-18 | 三菱电机株式会社 | 用于训练多语言语音识别网络的方法和系统以及用于执行多语言语音识别的语音识别系统 |
CN111581968A (zh) * | 2020-05-07 | 2020-08-25 | 携程计算机技术(上海)有限公司 | 口语理解模型的训练方法、识别方法、系统、设备及介质 |
CN111611769A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种多种语言模型的文本转换方法及装置 |
CN111859979A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺文本协同识别方法、装置、设备及计算机可读介质 |
CN111859991A (zh) * | 2020-07-29 | 2020-10-30 | 中国平安财产保险股份有限公司 | 语言翻译处理模型训练方法和语言翻译处理方法 |
CN113228030A (zh) * | 2018-09-26 | 2021-08-06 | 华为技术有限公司 | 多语言文本生成系统和方法 |
CN113241074A (zh) * | 2021-04-28 | 2021-08-10 | 平安科技(深圳)有限公司 | 多语言转译模型的训练方法、装置、设备及可读存储介质 |
CN113988089A (zh) * | 2021-10-18 | 2022-01-28 | 浙江香侬慧语科技有限责任公司 | 一种基于k近邻的机器翻译方法、装置及介质 |
CN114239612A (zh) * | 2021-06-10 | 2022-03-25 | 天津大学 | 一种多模态神经机器翻译方法、计算机设备及存储介质 |
RU2779526C2 (ru) * | 2018-05-15 | 2022-09-08 | Айфлайтек Ко., Лтд. | Способ и устройство для перевода текста на уровне дискурса |
CN115510854A (zh) * | 2022-09-27 | 2022-12-23 | 北京白星花科技有限公司 | 基于强化学习的实体关系提取方法和系统 |
US11694041B2 (en) | 2018-05-15 | 2023-07-04 | Iflytek Co., Ltd. | Chapter-level text translation method and device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068998A (zh) * | 2015-07-29 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
US20150356401A1 (en) * | 2014-06-06 | 2015-12-10 | Google Inc. | Generating representations of input sequences using neural networks |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
CN105279552A (zh) * | 2014-06-18 | 2016-01-27 | 清华大学 | 一种基于字的神经网络的训练方法和装置 |
-
2016
- 2016-06-22 CN CN201610457514.9A patent/CN106126507B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150356401A1 (en) * | 2014-06-06 | 2015-12-10 | Google Inc. | Generating representations of input sequences using neural networks |
CN105279552A (zh) * | 2014-06-18 | 2016-01-27 | 清华大学 | 一种基于字的神经网络的训练方法和装置 |
CN105068998A (zh) * | 2015-07-29 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
Non-Patent Citations (2)
Title |
---|
DZMITRY BAHDANAU 等: "Neural Machine Translation by Jointly Learning to Align and Translate", 《COMPUTER SCIENCE》 * |
WANG LING 等: "CHARACTER-BASED NEURAL MACHINE TRANSLATION", 《COMPUTER SCIENCE》 * |
Cited By (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038154A (zh) * | 2016-11-25 | 2017-08-11 | 阿里巴巴集团控股有限公司 | 一种文本情感识别方法和装置 |
CN108228554A (zh) * | 2016-12-09 | 2018-06-29 | 富士通株式会社 | 基于语义表示模型来生成词向量的方法、装置和电子设备 |
CN106776501A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种文本错别字自动更正方法和服务器 |
CN106777073A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种搜索引擎中错别字自动更正方法和服务器 |
CN110249342B (zh) * | 2016-12-15 | 2023-09-15 | 谷歌有限责任公司 | 使用机器学习模型的自适应信道编码 |
CN110249342A (zh) * | 2016-12-15 | 2019-09-17 | 谷歌有限责任公司 | 使用机器学习模型的自适应信道编码 |
CN106528540A (zh) * | 2016-12-16 | 2017-03-22 | 广州索答信息科技有限公司 | 一种种子问句的分词方法和分词系统 |
CN108388561B (zh) * | 2017-02-03 | 2022-02-25 | 百度在线网络技术(北京)有限公司 | 神经网络机器翻译方法和装置 |
US11403520B2 (en) * | 2017-02-03 | 2022-08-02 | Baidu Online Network Technology (Beijing) Co., Ltd. | Neural network machine translation method and apparatus |
CN108388561A (zh) * | 2017-02-03 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 神经网络机器翻译方法和装置 |
CN110431566A (zh) * | 2017-03-15 | 2019-11-08 | 易享信息技术有限公司 | 基于概率的引导器 |
CN110431566B (zh) * | 2017-03-15 | 2024-03-19 | 硕动力公司 | 基于概率的引导器 |
CN108733657B (zh) * | 2017-04-17 | 2022-10-28 | 北京搜狗科技发展有限公司 | 神经机器翻译中注意力参数的修正方法、装置及电子设备 |
CN108733657A (zh) * | 2017-04-17 | 2018-11-02 | 北京搜狗科技发展有限公司 | 神经机器翻译中注意力参数的修正方法、装置及电子设备 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
CN110914827A (zh) * | 2017-04-23 | 2020-03-24 | 纽昂斯通讯公司 | 基于转移学习的多语言语义解析器 |
CN110914827B (zh) * | 2017-04-23 | 2024-02-09 | 赛伦斯运营公司 | 生成多语言语义解析器的系统和计算机实现方法 |
US11409945B2 (en) | 2017-05-19 | 2022-08-09 | Salesforce.Com, Inc. | Natural language processing using context-specific word vectors |
CN108960277B (zh) * | 2017-05-19 | 2023-01-24 | 百度(美国)有限责任公司 | 使用语言模型对序列到序列模型进行冷聚变 |
US10817650B2 (en) | 2017-05-19 | 2020-10-27 | Salesforce.Com, Inc. | Natural language processing using context specific word vectors |
WO2018213763A1 (en) * | 2017-05-19 | 2018-11-22 | Salesforce.Com, Inc. | Natural language processing using context-specific word vectors |
CN108960277A (zh) * | 2017-05-19 | 2018-12-07 | 百度(美国)有限责任公司 | 使用语言模型对序列到序列模型进行冷聚变 |
CN110678881A (zh) * | 2017-05-19 | 2020-01-10 | 易享信息技术有限公司 | 使用特定于上下文的词向量的自然语言处理 |
CN110678881B (zh) * | 2017-05-19 | 2023-10-03 | 硕动力公司 | 使用特定于上下文的词向量的自然语言处理 |
US10699060B2 (en) | 2017-05-19 | 2020-06-30 | Salesforce.Com, Inc. | Natural language processing using a neural network |
CN107358948A (zh) * | 2017-06-27 | 2017-11-17 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN107358948B (zh) * | 2017-06-27 | 2020-06-09 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
JP2020528625A (ja) * | 2017-07-25 | 2020-09-24 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 翻訳方法、ターゲット情報決定方法および関連装置、記憶媒体 |
CN107368476B (zh) * | 2017-07-25 | 2020-11-03 | 深圳市腾讯计算机系统有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
CN107368476A (zh) * | 2017-07-25 | 2017-11-21 | 深圳市腾讯计算机系统有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
US11928439B2 (en) | 2017-07-25 | 2024-03-12 | Tencent Technology (Shenzhen) Company Limited | Translation method, target information determining method, related apparatus, and storage medium |
WO2019019916A1 (zh) * | 2017-07-25 | 2019-01-31 | 腾讯科技(深圳)有限公司 | 翻译的方法、目标信息确定的方法及相关装置、存储介质 |
JP7025090B2 (ja) | 2017-07-25 | 2022-02-24 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 翻訳方法、ターゲット情報決定方法および関連装置、ならびにコンピュータプログラム |
CN109388808A (zh) * | 2017-08-10 | 2019-02-26 | 陈虎 | 一种用于建立单词翻译模型的训练数据采样方法 |
CN109388808B (zh) * | 2017-08-10 | 2024-03-08 | 陈虎 | 一种用于建立单词翻译模型的训练数据采样方法 |
CN109426660A (zh) * | 2017-08-17 | 2019-03-05 | 中国海洋大学 | 基于长短时记忆网络的英文电子邮件写作助手 |
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
US11366970B2 (en) | 2017-10-10 | 2022-06-21 | Tencent Technology (Shenzhen) Company Limited | Semantic analysis method and apparatus, and storage medium |
WO2019072166A1 (zh) * | 2017-10-10 | 2019-04-18 | 腾讯科技(深圳)有限公司 | 语义分析方法、装置和存储介质 |
CN107797986B (zh) * | 2017-10-12 | 2020-12-11 | 北京知道未来信息技术有限公司 | 一种基于lstm-cnn的混合语料分词方法 |
CN107797986A (zh) * | 2017-10-12 | 2018-03-13 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的混合语料分词方法 |
CN107844480B (zh) * | 2017-10-21 | 2021-04-30 | 科大讯飞股份有限公司 | 将书面文本转换为口语文本的方法及系统 |
CN107844480A (zh) * | 2017-10-21 | 2018-03-27 | 科大讯飞股份有限公司 | 将书面文本转换为口语文本的方法及系统 |
CN108875926A (zh) * | 2017-10-30 | 2018-11-23 | 上海寒武纪信息科技有限公司 | 语言翻译方法及相关产品 |
US11922132B2 (en) | 2017-10-30 | 2024-03-05 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
US11762631B2 (en) | 2017-10-30 | 2023-09-19 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
CN109871529B (zh) * | 2017-12-04 | 2023-10-31 | 三星电子株式会社 | 语言处理方法和设备 |
CN109871529A (zh) * | 2017-12-04 | 2019-06-11 | 三星电子株式会社 | 语言处理方法和设备 |
CN107967263A (zh) * | 2017-12-11 | 2018-04-27 | 中译语通科技股份有限公司 | 一种机器翻译数字泛化方法及系统、计算机、计算机程序 |
CN111557029A (zh) * | 2017-12-15 | 2020-08-18 | 三菱电机株式会社 | 用于训练多语言语音识别网络的方法和系统以及用于执行多语言语音识别的语音识别系统 |
CN109933780B (zh) * | 2017-12-15 | 2023-04-07 | 奥多比公司 | 使用深度学习技术确定文档中的上下文阅读顺序 |
CN109933780A (zh) * | 2017-12-15 | 2019-06-25 | 奥多比公司 | 使用深度学习技术确定文档中的上下文阅读顺序 |
CN107977472A (zh) * | 2017-12-27 | 2018-05-01 | 北京诸葛找房信息技术有限公司 | 房产类新闻文章自动生成的方法 |
CN108132932A (zh) * | 2017-12-27 | 2018-06-08 | 苏州大学 | 带有复制机制的神经机器翻译方法 |
CN110134971A (zh) * | 2018-02-08 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
CN110134971B (zh) * | 2018-02-08 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
CN110362676A (zh) * | 2018-04-08 | 2019-10-22 | 彩数(上海)商务咨询有限公司 | 一种cdrnn神经网络自然语义分析系统及方法 |
CN110389996A (zh) * | 2018-04-16 | 2019-10-29 | 国际商业机器公司 | 实现用于自然语言处理的全句递归神经网络语言模型 |
CN108563639A (zh) * | 2018-04-17 | 2018-09-21 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型 |
CN108563639B (zh) * | 2018-04-17 | 2021-09-17 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型 |
RU2779526C2 (ru) * | 2018-05-15 | 2022-09-08 | Айфлайтек Ко., Лтд. | Способ и устройство для перевода текста на уровне дискурса |
US11694041B2 (en) | 2018-05-15 | 2023-07-04 | Iflytek Co., Ltd. | Chapter-level text translation method and device |
CN108776832B (zh) * | 2018-06-05 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN108776832A (zh) * | 2018-06-05 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN108984535B (zh) * | 2018-06-25 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 |
CN108984535A (zh) * | 2018-06-25 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 |
CN108831472A (zh) * | 2018-06-27 | 2018-11-16 | 中山大学肿瘤防治中心 | 一种基于唇语识别的人工智能发声系统及发声方法 |
CN109145120A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 医学健康领域知识图谱的关系抽取方法及系统 |
CN109033094A (zh) * | 2018-07-18 | 2018-12-18 | 五邑大学 | 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统 |
CN109062910A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN110895660A (zh) * | 2018-08-23 | 2020-03-20 | 澳门大学 | 一种基于句法依存关系动态编码的语句处理方法及装置 |
CN110874537A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 多语言翻译模型的生成方法、翻译方法及设备 |
CN110874537B (zh) * | 2018-08-31 | 2023-06-27 | 阿里巴巴集团控股有限公司 | 多语言翻译模型的生成方法、翻译方法及设备 |
CN109033088A (zh) * | 2018-09-04 | 2018-12-18 | 北京先声教育科技有限公司 | 一种基于神经网络的第二语言习得模型 |
CN111382584A (zh) * | 2018-09-04 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN111382584B (zh) * | 2018-09-04 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN109033088B (zh) * | 2018-09-04 | 2023-05-30 | 北京先声智能科技有限公司 | 一种基于神经网络的第二语言习得模型 |
CN110913229A (zh) * | 2018-09-18 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 基于rnn的解码器隐状态确定方法、设备和存储介质 |
CN110913229B (zh) * | 2018-09-18 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 基于rnn的解码器隐状态确定方法、设备和存储介质 |
CN113228030B (zh) * | 2018-09-26 | 2023-11-03 | 华为技术有限公司 | 多语言文本生成系统和方法 |
CN113228030A (zh) * | 2018-09-26 | 2021-08-06 | 华为技术有限公司 | 多语言文本生成系统和方法 |
CN110969028B (zh) * | 2018-09-28 | 2023-09-26 | 百度(美国)有限责任公司 | 用于同步翻译的系统和方法 |
CN110969028A (zh) * | 2018-09-28 | 2020-04-07 | 百度(美国)有限责任公司 | 用于同步翻译的系统和方法 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN109472366A (zh) * | 2018-11-01 | 2019-03-15 | 郑州云海信息技术有限公司 | 一种机器学习模型的编码解码方法与装置 |
CN109670040B (zh) * | 2018-11-27 | 2024-04-05 | 平安科技(深圳)有限公司 | 写作辅助方法、装置及存储介质、计算机设备 |
CN109670040A (zh) * | 2018-11-27 | 2019-04-23 | 平安科技(深圳)有限公司 | 写作辅助方法、装置及存储介质、计算机设备 |
CN109658265A (zh) * | 2018-12-13 | 2019-04-19 | 平安医疗健康管理股份有限公司 | 基于大数据的支付超量识别方法、设备、存储介质及装置 |
CN109829172A (zh) * | 2019-01-04 | 2019-05-31 | 北京先声智能科技有限公司 | 一种基于神经翻译的双向解码自动语法改错模型 |
CN109783827B (zh) * | 2019-01-31 | 2023-02-10 | 沈阳雅译网络技术有限公司 | 一种基于动态线性聚合的深层神经机器翻译方法 |
CN109783827A (zh) * | 2019-01-31 | 2019-05-21 | 沈阳雅译网络技术有限公司 | 一种基于动态线性聚合的深层神经机器翻译方法 |
CN109859760A (zh) * | 2019-02-19 | 2019-06-07 | 成都富王科技有限公司 | 基于深度学习的电话机器人语音识别结果校正方法 |
CN111611769A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种多种语言模型的文本转换方法及装置 |
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN109978141A (zh) * | 2019-03-28 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 神经网络模型训练方法和装置、自然语言处理方法和装置 |
CN109978141B (zh) * | 2019-03-28 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 神经网络模型训练方法和装置、自然语言处理方法和装置 |
CN111368564A (zh) * | 2019-04-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN110188348B (zh) * | 2019-05-07 | 2023-05-19 | 南京邮电大学 | 一种基于深度神经网络的中文语言处理模型及方法 |
CN110188348A (zh) * | 2019-05-07 | 2019-08-30 | 南京邮电大学 | 一种基于深度神经网络的中文语言处理模型及方法 |
CN110069790A (zh) * | 2019-05-10 | 2019-07-30 | 东北大学 | 一种通过译文回译对照原文的机器翻译系统及方法 |
CN110211570B (zh) * | 2019-05-20 | 2021-06-25 | 北京百度网讯科技有限公司 | 同声传译处理方法、装置及设备 |
CN110211570A (zh) * | 2019-05-20 | 2019-09-06 | 北京百度网讯科技有限公司 | 同声传译处理方法、装置及设备 |
CN110427630B (zh) * | 2019-06-10 | 2023-10-13 | 北京捷通华声科技股份有限公司 | 机器翻译的方法、装置、电子设备、存储介质及翻译模型 |
CN110427630A (zh) * | 2019-06-10 | 2019-11-08 | 北京捷通华声科技股份有限公司 | 机器翻译的方法、装置、电子设备、存储介质及翻译模型 |
CN110457713B (zh) * | 2019-06-19 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 基于机器翻译模型的翻译方法、装置、设备和存储介质 |
CN110457713A (zh) * | 2019-06-19 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 基于机器翻译模型的翻译方法、装置、设备和存储介质 |
CN110389820A (zh) * | 2019-06-28 | 2019-10-29 | 浙江大学 | 一种基于v-TGRU模型进行资源预测的私有云任务调度方法 |
CN110597086B (zh) * | 2019-08-19 | 2023-01-13 | 深圳元戎启行科技有限公司 | 仿真场景生成方法、无人驾驶系统测试方法以及装置 |
CN110597086A (zh) * | 2019-08-19 | 2019-12-20 | 深圳元戎启行科技有限公司 | 仿真场景生成方法和无人驾驶系统测试方法 |
CN110795912A (zh) * | 2019-09-19 | 2020-02-14 | 平安科技(深圳)有限公司 | 基于神经网络对文本编码的方法、装置、设备及存储介质 |
CN110795912B (zh) * | 2019-09-19 | 2023-06-20 | 平安科技(深圳)有限公司 | 基于神经网络对文本编码的方法、装置、设备及存储介质 |
CN110717342A (zh) * | 2019-09-27 | 2020-01-21 | 电子科技大学 | 一种基于transformer的距离参量对齐翻译方法 |
CN110879940B (zh) * | 2019-11-21 | 2022-07-12 | 哈尔滨理工大学 | 一种基于深度神经网络的机器翻译方法及系统 |
CN110879940A (zh) * | 2019-11-21 | 2020-03-13 | 哈尔滨理工大学 | 一种基于深度神经网络的机器翻译方法及系统 |
CN111079450A (zh) * | 2019-12-20 | 2020-04-28 | 北京百度网讯科技有限公司 | 基于顺句驱动的语言转换方法和装置 |
US11409968B2 (en) | 2019-12-20 | 2022-08-09 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Language conversion method and apparatus based on syntactic linearity, and non-transitory computer-readable storage medium |
CN111144140B (zh) * | 2019-12-23 | 2023-07-04 | 语联网(武汉)信息技术有限公司 | 基于零次学习的中泰双语语料生成方法及装置 |
CN111144140A (zh) * | 2019-12-23 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于零次学习的中泰双语语料生成方法及装置 |
CN111178097B (zh) * | 2019-12-24 | 2023-07-04 | 语联网(武汉)信息技术有限公司 | 基于多级翻译模型生成中泰双语语料的方法及装置 |
CN111178097A (zh) * | 2019-12-24 | 2020-05-19 | 语联网(武汉)信息技术有限公司 | 基于多级翻译模型生成中泰双语语料的方法及装置 |
CN111310484A (zh) * | 2020-03-12 | 2020-06-19 | 北京字节跳动网络技术有限公司 | 机器翻译模型的自动训练方法、平台、电子设备、及存储介质 |
CN111310484B (zh) * | 2020-03-12 | 2021-07-06 | 北京字节跳动网络技术有限公司 | 机器翻译模型的自动训练方法、平台、电子设备、及存储介质 |
CN111581968A (zh) * | 2020-05-07 | 2020-08-25 | 携程计算机技术(上海)有限公司 | 口语理解模型的训练方法、识别方法、系统、设备及介质 |
CN111859979A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺文本协同识别方法、装置、设备及计算机可读介质 |
CN111859991A (zh) * | 2020-07-29 | 2020-10-30 | 中国平安财产保险股份有限公司 | 语言翻译处理模型训练方法和语言翻译处理方法 |
CN113241074A (zh) * | 2021-04-28 | 2021-08-10 | 平安科技(深圳)有限公司 | 多语言转译模型的训练方法、装置、设备及可读存储介质 |
CN114239612A (zh) * | 2021-06-10 | 2022-03-25 | 天津大学 | 一种多模态神经机器翻译方法、计算机设备及存储介质 |
CN113988089A (zh) * | 2021-10-18 | 2022-01-28 | 浙江香侬慧语科技有限责任公司 | 一种基于k近邻的机器翻译方法、装置及介质 |
CN115510854A (zh) * | 2022-09-27 | 2022-12-23 | 北京白星花科技有限公司 | 基于强化学习的实体关系提取方法和系统 |
CN115510854B (zh) * | 2022-09-27 | 2023-06-09 | 北京白星花科技有限公司 | 基于强化学习的实体关系提取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106126507B (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106126507A (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
CN110222349B (zh) | 一种深度动态上下文词语表示的方法及计算机 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN110390397B (zh) | 一种文本蕴含识别方法及装置 | |
CN111858931B (zh) | 一种基于深度学习的文本生成方法 | |
CN109492227A (zh) | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 | |
CN108829684A (zh) | 一种基于迁移学习策略的蒙汉神经机器翻译方法 | |
CN108415977A (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN107729311B (zh) | 一种融合文本语气的中文文本特征提取方法 | |
CN106328122A (zh) | 一种利用长短期记忆模型递归神经网络的语音识别方法 | |
CN107844469A (zh) | 基于词向量查询模型的文本简化方法 | |
CN109522411A (zh) | 一种基于神经网络的写作辅助方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN107836000A (zh) | 用于语言建模和预测的改进的人工神经网络 | |
CN106547735A (zh) | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 | |
CN112348911B (zh) | 基于语义约束的堆叠文本生成细粒度图像方法及系统 | |
CN109670036A (zh) | 一种新闻评论自动生成方法及其装置 | |
CN109977199A (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN110334196B (zh) | 基于笔画和自注意力机制的神经网络中文问题生成系统 | |
CN112926322A (zh) | 融合自注意力机制和深度学习的文本分类方法及系统 | |
CN113641819A (zh) | 基于多任务稀疏共享学习的论辩挖掘系统及方法 | |
CN116861929A (zh) | 基于深度学习的机器翻译系统 | |
Yang et al. | Sequence-to-sequence prediction of personal computer software by recurrent neural network | |
CN110297894A (zh) | 一种基于辅助网络的智能对话生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |