CN105550174A - 基于样本重要性的自动机器翻译领域自适应方法 - Google Patents

基于样本重要性的自动机器翻译领域自适应方法 Download PDF

Info

Publication number
CN105550174A
CN105550174A CN201511023540.2A CN201511023540A CN105550174A CN 105550174 A CN105550174 A CN 105550174A CN 201511023540 A CN201511023540 A CN 201511023540A CN 105550174 A CN105550174 A CN 105550174A
Authority
CN
China
Prior art keywords
sample
translation
sentence
training
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511023540.2A
Other languages
English (en)
Inventor
曹海龙
周鑫鹏
赵铁军
杨沐昀
郑德权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201511023540.2A priority Critical patent/CN105550174A/zh
Publication of CN105550174A publication Critical patent/CN105550174A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

基于样本重要性的自动机器翻译领域自适应方法,本发明涉及语言翻译领域,具体涉及一种自动机器翻译领域的自适应方法。为了解决现有的翻译系统的自适应方法不能充分利用训练语料中的领域信息的问题,本发明首先对训练样本添加权重,然后通过统计的方法得到训练样本源语言句子的一元词频分布,使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率并建立样本权重向量的似然函数,求解最优样本权重向量,确定目标领域文本所属的领域;依据短语对及其翻译概率生成基于样本权重向量的翻译规则,提高翻译系统领域适应性;能够得到具有领域适应能力的翻译系统。本发明适用于语言翻译领域。

Description

基于样本重要性的自动机器翻译领域自适应方法
技术领域
本发明涉及语言翻译领域,具体涉及一种自动机器翻译领域的自适应方法。
背景技术
随着全球化时代的到来,机器翻译在促进国际政治、经济、文化、科技交流等方面具有重大的实用价值和战略意义。自动机器翻译方法通过在大规模高质量的双语对齐语料集上使用机器学习的方法来训练翻译系统。自动机器翻译系统是一种机器学习模型,机器学习(MachineLearning)的相关研究已经证明:训练数据和测试数据的分布差异越大,机器学习模型的泛化误差也就会越大。对于自动机器翻译系统,当训练语料与翻译任务来自不同的领域,即训练数据和测试数据来自于不同的分布,那么翻译系统的性能就会下降。由于大规模特定领域的双语平行语料不易获取,现实中使用的训练集往往为由来自多个领域的语料组成的混合语料集,例如由议会记录、法律文本、日常对话以及新闻报道等组成的混合训练语料集。使用基于混合语料集的翻译系统完成特定领域的翻译任务时,翻译结果往往不能达到人们的期望。在训练语料为混合语料的前提下,为提高翻译系统在特定领域的翻译性能,需要提高翻译系统的领域自适应能力。
在现有自动机器翻译方法上,为进一步提高翻译系统的翻译性能和实用性,需要提高翻译系统的领域自适应能力。目前,针对如何提高翻译系统领域自适应能力的问题,主要有以下几种解决方法:
(1)基于信息检索(InformationRetrieval)和数据选择(DataSelection)的领域自适应方法:这是一种简单直接的方法,通过检索的方式选择和目标领域最相关的语料作为训练数据,提高翻译系统与目标领域的匹配程度从而提高翻译质量。训练数据和目标领域的相似性对于自动机器翻译系统的性能是至关重要的,此方法通过提高这种相似性能有效地提升翻译系统的性能。这种方法实现简单,适用于目标领域单一而且预先确定的情况,但是难以应对目标领域多样或未知的环境。
(2)基于训练实例加权(InstanceWeighting)的领域自适应方法:这种方法可以看作是检索方法的柔性改进。加权法根据训练实例与目标领域的相关性,或者根据实例的可靠性,用连续的实数表示实例的权重,并依据实例权重训练翻译系统。实例的粒度可以有多种级别,例如语料库级别、篇章级别、句子级别、短语级别以及翻译规则级别。在自动机器翻译系统的训练阶段,适当提高与目标领域相匹配的实例的权重能有效提高翻译系统在目标领域的翻译性能。
(3)基于混合模型(MixtureModel)的领域自适应方法:这类方法把上面的加权法从实例延伸到了模型,预先在多个不同领域的数据集上分别训练相应的翻译模型,然后根据目标领域的特性来调整各个翻译模型的重要性。该方法是一种粗粒度的领域自适应方法,能有效提高翻译系统的领域自适应性,但不能充分利用训练语料中的领域信息。
发明内容
本发明为了解决现有的翻译系统的自适应方法不能充分利用训练语料中的领域信息的问题。
基于样本重要性的自动机器翻译领域自适应方法,包括以下步骤:
步骤1、训练集为双语言对齐的句对集合,一个双语言对齐的句对中包括一个源语言句子fi、一个目标语言句子ei;每个句对称作一个训练样本,
为训练集中的每个训练样本设置样本权重λi,i=1,2,3,…,n,其中,n为训练样本的个数;
设置样本权重向量λ={λ12,...,λi,...,λn},样本权重向量是一个n维的向量,每一维与训练集中的一个训练样本相对应;
步骤2、统计训练样本源语言句子的一元词频分布:
依据步骤1中设置的样本权重向量,通过统计的方法得到训练样本源语言句子的一元词频分布,此分布为样本权重向量的非线性表示,如下所示:
p(w)=Ψ(λ)(1)
其中,w为训练样本源语言句子中的词语,p(w)为其概率值;Ψ(λ)为样本权重向量λ的非线性表示,是源语言词语概率与样本权重向量之间的非线性关系;
步骤3、使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率;依据目标领域文本的句子概率建立训练样本与目标领域之间的联系;
步骤4、依据目标领域文本的句子概率建立样本权重向量的似然函数L(λ);
步骤5、优化样本权重向量的似然函数,求解最优样本权重向量,确定目标领域文本所属的领域;
步骤6、计算短语对的翻译概率,依据短语对及其翻译概率生成基于样本权重向量的翻译规则,依据基于样本权重向量的翻译规则,提高翻译系统领域适应性。
本发明具有以下有益效果:
基于样本重要性的机器翻译领域自适应方法使用源语言句子的一元词频分布相似性来衡量文本的领域相似性,能够处理目标领域未知或多领域混合的领域适应问题;通过训练样本权重,能够训练得到具有领域自适应的翻译系统。在大规模中英翻译任务上实验检验发现,通过添加训练样本权重,领域自适应翻译系统在未知目标领域翻译任务上的翻译性能得到了提高,翻译系统BLEU值相对于未使用领域适应方法的翻译系统提高了0.75个百分点。
附图说明
图1为本发明流程示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,
基于样本重要性的自动机器翻译领域自适应方法,包括以下步骤:
步骤1、训练集为双语言对齐的句对集合,一个双语言对齐的句对中包括一个源语言句子fi、一个目标语言句子ei;每个句对称作一个训练样本,
为训练集中的每个训练样本设置样本权重λi,i=1,2,3,…,n,其中,n为训练样本的个数;
设置样本权重向量λ={λ12,...,λi,...,λn},样本权重向量是一个n维的向量,每一维与训练集中的一个训练样本相对应;
步骤2、统计训练样本源语言句子的一元词频分布:
依据步骤1中设置的样本权重向量,通过统计的方法得到训练样本源语言句子的一元词频分布,此分布为样本权重向量的非线性表示,如下所示:
p(w)=Ψ(λ)(1)
其中,w为训练样本源语言句子中的词语,p(w)为其概率值;Ψ(λ)为样本权重向量λ的非线性表示,是源语言词语概率与样本权重向量之间的非线性关系;
步骤3、使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率;依据目标领域文本的句子概率建立训练样本与目标领域之间的联系;
步骤4、依据目标领域文本的句子概率建立样本权重向量的似然函数L(λ);
训练样本源语言的一元词频分布与目标领域文本的一元词频越相似时,两者的领域相似性也就越高;由于训练样本源语言的一元词频分布为样本权重向量的非线性函数,因此通过样本权重向量调整训练样本源语言句子的一元词频分布,修改训练集与目标领域文本的领域相似性;不同的样本权重向量使得训练集与目标领域文本之间具有不同的领域相似性,由此可知,存在一个最优样本权重向量使得训练集和目标领域文本的领域相似性最高;本发明的样本权重模型即是寻找一个这样的样本权重向量,依据目标领域文本的句子概率建立样本权重向量的似然函数,通过求解此似然函数得到所需要的最优样本权重向量;
步骤5、优化样本权重向量的似然函数,求解最优样本权重向量,确定目标领域文本所属的领域;
在样本权重向量的似然函数取得最大值时,训练样本源语言句子与目标领域文本的一元词频分布相似性最高,此时两者的领域相似性也最高;由于样本权重向量维度过高,似然函数所涉及变量较多,似然函数最优值很难求解;在求解过程中本发明方法通过求解似然函数的极大值代替求解最大值,将似然函数取极大值时的样本权重向量作为最优样本权重向量;
步骤6、计算短语对的翻译概率,依据短语对及其翻译概率生成基于样本权重向量的翻译规则,依据基于样本权重向量的翻译规则,提高翻译系统领域适应性。
本发明提出的是机器翻译领域自适应方法;现实中,同一词语在不同领域下可能具有不同的翻译结果,如:“粉丝”一词在食物领域中应当翻译为“vermicelli”,而在娱乐新闻领域常翻译为“fans”,这种情况就要求翻译系统针对相同的词语在不同的领域下能够使用不同的翻译规则;在训练翻译系统时,本发明将求得的样本权重向量应用在翻译规则的抽取过程中,通过样本权重向量修改生成的翻译规则,使翻译系统具有领域适应性。
具体实施方式二:
本实施方式步骤2的具体实施步骤如下:
训练集CTrain的表示如下:
CTrain={(f1,e1),(f2,e2),...,(fi,ei),...,(fn,en)}
其中,(fi,ei)表示训练集中第i个训练样本;
设训练集CTrain中所有训练样本源语言句子的词语集合如下:
W={w1,w2,...,wr,...,wk}
其中,wr表示所有训练样本源语言句子的词语集中第r个词语,k表示词语的个数;由于为每个训练样本设置了样本权重,在此基础之上通过统计的方法得到训练样本源语言句子的基于样本权重的一元词频分布,对每一个词语w,其一元词频概率如下:
p ( w ) = Σ i = 1 n σ ( w , f i ) λ i Σ r = 1 k Σ i = 1 n σ ( w r , f i ) λ i - - - ( 2 )
其中,σ(w,fi)表示在第i个训练样本源语言句子fi中词语w出现的次数,当词语在句子中未出现时函数值为0;wr指训练样本源语句子的词语集中第r个词语,λi表示第i个训练样本的样本权重。
其他步骤和参数与具体实施方式一相同。
具体实施方式三:
本实施方式步骤3的具体实施步骤如下:
目标领域文本CTarget的表示如下:
CTarget={s1,s2,...,sj,...,sm}
其中,sj表示翻译目标领域文本中第j个句子,m表示目标领域文本的大小,即句子的个数;
通过使用训练样本源语言句子的一元词频分布计算目标领域文本句子的句子概率P(sj),计算方法如下:
P ( s j ) = Π t = 1 l j p ( w t j ) - - - ( 3 )
其中,lj表示句子sj的长度;wtj表示句子sj中第t个词语,p(wtj)表示词语wtj在训练样本源语言句子一元词频分布中的概率,由于训练集CTrain相对于目标领域文本CTarget是一个大规模语料集,因此目标领域文本词语集中的出现的大部分词语同时也包含在训练样本源语词语集中;对于出现在目标领域文本而又不存在于训练样本源语词语集中的词语,使用平滑技术估计其词语的概率;所以对于目标领域文本CTarget中的每一个词语wtj,可得到其在训练样本源语言一元词频分布中的概率值p(wtj)。
其他步骤和参数与具体实施方式二相同。
具体实施方式四:
本实施方式步骤4所述的样本权重向量的似然函数L(λ)如下:
L ( λ ) = Π j = 1 m P ( s j ) = Π j = 1 m Π t = 1 l j p ( w t j ) - - - ( 4 ) .
其他步骤和参数与具体实施方式三相同。
具体实施方式五:
本实施方式步骤5具体实施步骤如下:
为简化计算,首先对似然函数L(λ)取对数,转换为求解对数似然函数的极值,然后对公式(5)求极值,并得到似然函数取极值时的样本权重;
λ ~ = arg max λ Σ j = 1 m Σ t = 1 l j log p ( w t j ) = arg max λ Σ j = 1 m Σ t = 1 l j log Σ i = 1 n σ ( w t j , f j ) λ i Σ r = 1 k Σ i = 1 n σ ( w r , f j ) λ i - - - ( 5 )
其中,指最优样本权重向量;σ(wtj,fi)表示在训练样本源语言句子fi中词语wtj出现的次数;
根据得到最优样本权重向量后;在训练集中,能够确定与目标领域文本CTarget最接近的源语言所在的领域,将目标领域文本CTarget标定为对应源语言所在的领域。
其他步骤和参数与具体实施方式四相同。
具体实施方式六:
本实施方式步骤5所述的对公式(5)求极值的过程使用L-BFGS算法。
其他步骤和参数与具体实施方式五相同。
具体实施方式七:
本实施方式步骤6具体实施步骤如下:
对于训练样本中对齐的源语言短语f'和目标语言短语e',计算短语对(f',e')的翻译概率φ(f'|e'):
φ ( f ′ | e ′ ) = c o u n t ( f ′ | e ′ ) Σ p = 1 A e ′ c o u n t ( f p ′ , e ′ ) - - - ( 6 )
其中,Ae'表示训练样本中与目标语言短语e'对齐的源语言短语的个数,count(f',e')表示短语对(f',e')的基于样本权重的出现次数;count(f',e')函数的计算公式如下:
c o u n t ( f ′ , e ′ ) = Σ i = 1 n ψ ( f ′ , e ′ | f i , e i ) λ i - - - ( 7 )
其中,ψ(f',e'|fi,ei)表示在训练样本(fi,ei)中抽取出短语对(f',e')的次数,当无法从样本中抽取出该短语对时函数值为0;
依据短语对及其翻译概率生成基于样本权重向量的翻译规则,依据基于样本权重向量的翻译规则,提高翻译系统领域适应性。进而能够得到具有领域适应性的翻译模型。
本发明生成的翻译系统的翻译规则,使训练得到的翻译系统具有领域特性;通过本发明方法可得到具有领域自适应能力的自动机器翻译系统。
其他步骤和参数与具体实施方式五或六相同。
实施例
在大规模的中英翻译任务上检验结合本发明提出的领域自适应翻译系统,检验实验中使用的训练集为会议记录、法律条文和新闻三个领域混合的中英双语训练集,训练样本数目约337万;目标领域为新闻领域,检验翻译系统在新闻领域的领域适应能力,目标领域文本句子数目约为117万;开发集和测试集均为NIST评价语料集中新闻语料集。
经过检验得到以下实验结果,使用不加权重的翻译系统对测试集进行翻译时翻译系统BLEU得分为26.90,而使用添加了样本权重后的领域自适应翻译系统(基于本发明的翻译系统)对测试集翻译时的BLEU值得分为27.65;在目标领域完成相同翻译任务时,基于样本权重的领域自适应方法使翻译系统BLEU值提高了0.75个百分点,由此可知基于训练样本权重的机器翻译系统领域自适应方法能够提高翻译系统在目标领域的翻译性能。

Claims (7)

1.基于样本重要性的自动机器翻译领域自适应方法,其特征在于包括以下步骤:
步骤1、训练集为双语言对齐的句对集合,一个双语言对齐的句对中包括一个源语言句子fi、一个目标语言句子ei;每个句对称作一个训练样本,
为训练集中的每个训练样本设置样本权重λi,i=1,2,3,…,n,其中,n为训练样本的个数;
设置样本权重向量λ={λ12,...,λi,...,λn},样本权重向量是一个n维的向量,每一维与训练集中的一个训练样本相对应;
步骤2、统计训练样本源语言句子的一元词频分布:
依据步骤1中设置的样本权重向量,通过统计的方法得到训练样本源语言句子的一元词频分布,此分布为样本权重向量的非线性表示,如下所示:
p(w)=Ψ(λ)(1)
其中,w为训练样本源语言句子中的词语,p(w)为其概率值;Ψ(λ)为样本权重向量λ的非线性表示,是源语言词语概率与样本权重向量之间的非线性关系;
步骤3、使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率;
步骤4、依据目标领域文本的句子概率建立样本权重向量的似然函数L(λ);
步骤5、优化样本权重向量的似然函数,求解最优样本权重向量,确定目标领域文本所属的领域;
步骤6、计算短语对的翻译概率,依据短语对及其翻译概率生成基于样本权重向量的翻译规则,依据基于样本权重向量的翻译规则,提高翻译系统领域适应性。
2.根据权利要求1所述的基于样本重要性的自动机器翻译领域自适应方法,其特征在于步骤2的具体实施步骤如下:
训练集CTrain的表示如下:
CTrain={(f1,e1),(f2,e2),...,(fi,ei),...,(fn,en)}
其中,(fi,ei)表示训练集中第i个训练样本;
设训练集CTrain中所有训练样本源语言句子的词语集合如下:
W={w1,w2,...,wr,...,wk}
其中,wr表示所有训练样本源语言句子的词语集中第r个词语,k表示词语的个数;由于为每个训练样本设置了样本权重,在此基础之上通过统计的方法得到训练样本源语言句子的基于样本权重的一元词频分布,对每一个词语w,其一元词频概率如下:
p ( w ) = Σ i = 1 n σ ( w , f i ) λ i Σ r = 1 k Σ i = 1 n σ ( w r , f i ) λ i - - - ( 2 )
其中,σ(w,fi)表示在第i个训练样本源语言句子fi中词语w出现的次数,当词语在句子中未出现时函数值为0;wr指训练样本源语句子的词语集中第r个词语,λi表示第i个训练样本的样本权重。
3.根据权利要求2所述的基于样本重要性的自动机器翻译领域自适应方法,其特征在于步骤3的具体实施步骤如下:
目标领域文本CTarget的表示如下:
CTarget={s1,s2,...,sj,...,sm}
其中,sj表示翻译目标领域文本中第j个句子,m表示目标领域文本的大小,即句子的个数;
通过使用训练样本源语言句子的一元词频分布计算目标领域文本句子的句子概率P(sj),计算方法如下:
P ( s j ) = Π t = 1 l j p ( w t j ) - - - ( 3 )
其中,lj表示句子sj的长度;wtj表示句子sj中第t个词语,p(wtj)表示词语wtj在训练样本源语言句子一元词频分布中的概率。
4.根据权利要求3所述的基于样本重要性的自动机器翻译领域自适应方法,其特征在于步骤4所述的样本权重向量的似然函数L(λ)如下:
L ( λ ) = Π j = 1 m P ( s j ) = Π j = 1 m Π t = 1 l j p ( w t j ) - - - ( 4 ) .
5.根据权利要求4所述的基于样本重要性的自动机器翻译领域自适应方法,其特征在于步骤5具体实施步骤如下:
首先对似然函数L(λ)取对数,转换为求解对数似然函数的极值,然后对公式(5)求极值,并得到似然函数取极值时的样本权重;
λ ~ = arg max λ Σ j = 1 m Σ t = 1 l j log p ( w t j ) = arg max λ Σ j = 1 m Σ t = 1 l j l o g Σ i = 1 n σ ( w t j , f i ) λ i Σ r = 1 k Σ i = 1 n σ ( w r , f i ) λ i - - - ( 5 )
其中,指最优样本权重向量;σ(wtj,fi)表示在训练样本源语言句子fi中词语wtj出现的次数;
根据得到最优样本权重向量后;在训练集中,能够确定与目标领域文本CTarget最接近的源语言所在的领域,将目标领域文本CTarget标定为对应源语言所在的领域。
6.根据权利要求5所述的基于样本重要性的自动机器翻译领域自适应方法,其特征在于步骤5所述的对公式(5)求极值的过程使用L-BFGS算法。
7.根据权利要求5或6所述的基于样本重要性的自动机器翻译领域自适应方法,其特征在于步骤6具体实施步骤如下:
对于训练样本中对齐的源语言短语f'和目标语言短语e',计算短语对(f',e')的翻译概率φ(f'|e'):
φ ( f ′ | e ′ ) = c o u n t ( f ′ , e ′ ) Σ p = 1 A e ′ c o u n t ( f p ′ , e ′ ) - - - ( 6 )
其中,Ae'表示训练样本中与目标语言短语e'对齐的源语言短语的个数,count(f',e')表示短语对(f',e')的基于样本权重的出现次数;count(f',e')函数的计算公式如下:
c o u n t ( f ′ , e ′ ) = Σ i = 1 n ψ ( f ′ , e ′ | f i , e i ) λ i - - - ( 7 )
其中,ψ(f',e'|fi,ei)表示在训练样本(fi,ei)中抽取出短语对(f',e')的次数,当无法从样本中抽取出该短语对时函数值为0;
依据短语对及其翻译概率生成基于样本权重向量的翻译规则,依据基于样本权重向量的翻译规则,提高翻译系统领域适应性。
CN201511023540.2A 2015-12-30 2015-12-30 基于样本重要性的自动机器翻译领域自适应方法 Pending CN105550174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511023540.2A CN105550174A (zh) 2015-12-30 2015-12-30 基于样本重要性的自动机器翻译领域自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511023540.2A CN105550174A (zh) 2015-12-30 2015-12-30 基于样本重要性的自动机器翻译领域自适应方法

Publications (1)

Publication Number Publication Date
CN105550174A true CN105550174A (zh) 2016-05-04

Family

ID=55829363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511023540.2A Pending CN105550174A (zh) 2015-12-30 2015-12-30 基于样本重要性的自动机器翻译领域自适应方法

Country Status (1)

Country Link
CN (1) CN105550174A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874262A (zh) * 2017-01-09 2017-06-20 成都佳音多语信息技术有限公司 一种实现领域自适应的统计机器翻译方法
CN107402919A (zh) * 2017-08-07 2017-11-28 中译语通科技(北京)有限公司 基于图的机器翻译数据选择方法及机器翻译数据选择系统
CN108345590A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
CN109213851A (zh) * 2018-07-04 2019-01-15 中国科学院自动化研究所 对话系统中口语理解的跨语言迁移方法
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法
CN111859995A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN112560510A (zh) * 2020-12-10 2021-03-26 科大讯飞股份有限公司 翻译模型训练方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100057435A1 (en) * 2008-08-29 2010-03-04 Kent Justin R System and method for speech-to-speech translation
CN101957859A (zh) * 2010-10-15 2011-01-26 西安电子科技大学 基于集成支撑矢量机排序的信息检索方法
CN102117270A (zh) * 2011-03-29 2011-07-06 中国科学院自动化研究所 一种基于模糊树到精确树的统计机器翻译方法
CN102193912A (zh) * 2010-03-12 2011-09-21 富士通株式会社 短语划分模型建立方法、统计机器翻译方法以及解码器
CN102650987A (zh) * 2011-02-25 2012-08-29 北京百度网讯科技有限公司 一种基于源语言复述资源的机器翻译方法及装置
CN102799579A (zh) * 2012-07-18 2012-11-28 西安理工大学 具有错误自诊断和自纠错功能的统计机器翻译方法
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置
CN104572634A (zh) * 2014-12-25 2015-04-29 中国科学院合肥物质科学研究院 一种交互式抽取可比语料与双语词典的方法及其装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100057435A1 (en) * 2008-08-29 2010-03-04 Kent Justin R System and method for speech-to-speech translation
CN102193912A (zh) * 2010-03-12 2011-09-21 富士通株式会社 短语划分模型建立方法、统计机器翻译方法以及解码器
CN101957859A (zh) * 2010-10-15 2011-01-26 西安电子科技大学 基于集成支撑矢量机排序的信息检索方法
CN102650987A (zh) * 2011-02-25 2012-08-29 北京百度网讯科技有限公司 一种基于源语言复述资源的机器翻译方法及装置
CN102117270A (zh) * 2011-03-29 2011-07-06 中国科学院自动化研究所 一种基于模糊树到精确树的统计机器翻译方法
CN102799579A (zh) * 2012-07-18 2012-11-28 西安理工大学 具有错误自诊断和自纠错功能的统计机器翻译方法
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置
CN104572634A (zh) * 2014-12-25 2015-04-29 中国科学院合肥物质科学研究院 一种交互式抽取可比语料与双语词典的方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XINPENG ZHOU ET AL: "Domain Adaptation for SMT Using Sentence Weight", 《SPRINGER INTERNATIONAL PUBLISHING SWITZERLAND 2015》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874262A (zh) * 2017-01-09 2017-06-20 成都佳音多语信息技术有限公司 一种实现领域自适应的统计机器翻译方法
CN107402919A (zh) * 2017-08-07 2017-11-28 中译语通科技(北京)有限公司 基于图的机器翻译数据选择方法及机器翻译数据选择系统
CN107402919B (zh) * 2017-08-07 2021-02-09 中译语通科技股份有限公司 基于图的机器翻译数据选择方法及机器翻译数据选择系统
CN108345590A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
CN109213851A (zh) * 2018-07-04 2019-01-15 中国科学院自动化研究所 对话系统中口语理解的跨语言迁移方法
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法
CN110059323B (zh) * 2019-04-22 2023-07-11 苏州大学 基于自注意力机制的多领域神经机器翻译方法
CN111859995A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN111859995B (zh) * 2020-06-16 2024-01-23 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN112560510A (zh) * 2020-12-10 2021-03-26 科大讯飞股份有限公司 翻译模型训练方法、装置、设备及存储介质
CN112560510B (zh) * 2020-12-10 2023-12-01 科大讯飞股份有限公司 翻译模型训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105550174A (zh) 基于样本重要性的自动机器翻译领域自适应方法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
US8694303B2 (en) Systems and methods for tuning parameters in statistical machine translation
CN110600047A (zh) 基于Perceptual STARGAN的多对多说话人转换方法
Colombo et al. Infolm: A new metric to evaluate summarization & data2text generation
WO2017162134A1 (zh) 用于文本处理的电子设备和方法
US10916242B1 (en) Intent recognition method based on deep learning network
Zhao et al. Semi-supervised text simplification with back-translation and asymmetric denoising autoencoders
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN107402912B (zh) 解析语义的方法和装置
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN105068997A (zh) 平行语料的构建方法及装置
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN110704597A (zh) 对话系统可靠性校验方法、模型生成方法及装置
CN106681986A (zh) 一种多维度情感分析系统
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
CN113947091A (zh) 用于语言翻译的方法、设备、装置和介质
CN110991193A (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
CN113204679B (zh) 一种代码查询模型的生成方法和计算机设备
CN111651660A (zh) 一种跨媒体检索困难样本的方法
Chou et al. The Importance of Calibration: Rethinking Confidence and Performance of Speech Multi-label Emotion Classifiers
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160504

WD01 Invention patent application deemed withdrawn after publication