CN104731774B - 面向通用机译引擎的个性化翻译方法及装置 - Google Patents

面向通用机译引擎的个性化翻译方法及装置 Download PDF

Info

Publication number
CN104731774B
CN104731774B CN201310722090.0A CN201310722090A CN104731774B CN 104731774 B CN104731774 B CN 104731774B CN 201310722090 A CN201310722090 A CN 201310722090A CN 104731774 B CN104731774 B CN 104731774B
Authority
CN
China
Prior art keywords
translation
result
instance
content
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310722090.0A
Other languages
English (en)
Other versions
CN104731774A (zh
Inventor
杨沐昀
朱俊国
赵铁军
李生
郑德权
朱聪慧
曹海龙
徐冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of technology high tech Development Corporation
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201310722090.0A priority Critical patent/CN104731774B/zh
Priority to PCT/CN2014/087722 priority patent/WO2015096529A1/zh
Priority to CA2971884A priority patent/CA2971884C/en
Publication of CN104731774A publication Critical patent/CN104731774A/zh
Application granted granted Critical
Publication of CN104731774B publication Critical patent/CN104731774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向通用机译引擎的个性化翻译方法及装置。其中,该方法包括:获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。通过本发明,能够实现提高翻译结果的准确度。

Description

面向通用机译引擎的个性化翻译方法及装置
技术领域
本发明涉及计算机数据处理领域,具体而言,涉及一种面向通用机译引擎的个性化翻译方法及装置。
背景技术
机器翻译是研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言的技术。一般情况下,机器翻译系统可以划分为基于规则和基于语料库的两类翻译系统。其中,基于规则的机器翻译系统需要词典和语言专家人工建立复杂的规则体系;基于语料库的机器翻译系统不同于基于规则的机译系统,它是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。基于语料库的翻译方法又可以分为基于实例的翻译方法和基于统计的翻译方法。
现有技术中,基于实例的机器翻译方法其基本思想是参照外语初学者的基本模式,这里初学外语的人的翻译模式采用了先记住最基本的双语句对,而后将双语句对中的部分内容进行替换练习,上述基于实例的机器翻译基本思想就是参照这个学习过程,该学习过程不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。经过分析可知,基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果,对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。由于该方法需要一个很大的语料库作为支撑,因此,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较具体的专业领域时,翻译效果才能达到实用要求。
基于统计的机器翻译方法的核心思想是对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。早期的基于词的统计机器翻译采用的是噪声信道模型对机器翻译进行建模。其基本思路是将翻译看作对原文通过模型转换为译文的解码过程,翻译结果是其中概率最大的句子。而目前的统计翻译方法一般是采用一种基于短语的对数线性模型进行翻译建模,翻译质量相对于早期有了明显的提高。基于这种方法,谷歌、百度、微软等公司都提供了基于web的公开的免费在线翻译服务。受限于大规模语料的统计加工技术,这类系统事先建立的翻译服务的模型不能根据用户的不同需求来领过调整,因此现有这些翻译服务大多数等都是面向通用领域提供翻译,不能针对用户需求差异提供相应的满足用户偏好的个性化的翻译结果。
基于上述问题,为了满足用户的各种不同的翻译需求,研究者提出了一种领域适应的解决思路。其核心思想是利用带有技术领域信息的语料训练相应的领域模型,或者根据技术领域信息调整通用翻译模型,使之能够满足翻译任务的技术领域的变化,从而满足不同技术领域的翻译需求。但传统技术中此类方法的实现需要收集大量的领域语料,目前可收集的领域语料的种类和数量仍然仅限于新闻、科技等少数几种领域,虽然在翻译质量方面略有提高,但是从应用角度仍然不能满足用户的多样的个性化的翻译需求。与此同时,大多数的个人和企业用户在希望获得个性化翻译服务的同时,又不希望公开其积累的包含个人隐私或者商业机密等信息的数据,这更进一步加剧了实现高质量个性化机器翻译服务的难度。这直接导致了目前个性化的翻译服务仍然受限于少数领域,不能进一步推广和应用。
由上可知,现有的统计机器翻译技术主要缺点是如果要完成个性化的翻译,必须事先收集大量的用户翻译数据,并在这些数据上进行统计学习,从而训练出一个新的模型。而这些训练所需的翻译数据往往获得十分困难,并且训练过程也是十分消耗时间,同时又不利于保护翻译用户的隐私。
目前针对相关技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据库内容不完善,导致翻译结果不准确的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据库内容不完善,导致翻译结果不准确的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种面向通用机译引擎的个性化翻译方法及装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种面向通用机译引擎的个性化翻译方法,该方法包括:获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。
为了实现上述目的,根据本发明的另一方面,提供了一种面向通用机译引擎的个性化翻译装置,该装置包括:第一获取模块,用于获取用户输入的翻译内容;第二获取模块,用于获取翻译内容的在线翻译结果;检索模块,用于基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;增量式对齐处理模块,用于使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。
通过本发明,采用获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果,解决了相关技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据库内容不完善,导致翻译结果不准确的问题,进而实现提高翻译结果的准确度的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的面向通用机译引擎的个性化翻译方法的流程图;
图2是根据本发明实施例的混淆网络的有向图的示意图;
图3是根据本发明实施例的面向通用机译引擎的个性化翻译装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例一:
在其最基本的配置中,图1是根据本发明实施例的面向通用机译引擎的个性化翻译方法的流程图。如图1所示该方法包括如下步骤:
步骤S10,获取用户输入的翻译内容。
步骤S30,获取翻译内容的在线翻译结果。具体的,该步骤中的在线翻译结果可以是针对用户提供的翻译任务获取谷歌等在线机器翻译服务的通用翻译结果。
步骤S50,基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例。
步骤S70,使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络。
步骤S90,对混淆网络进行解码,获取翻译候选结果。
本申请上述实施例中,可以针对现有的通用机器翻译服务引擎,利用用户指定的双语翻译实例库,实现一种面向用户具体需求的个性化的翻译系统,即通过结合在线翻译结果和双语翻译实例中的检索结果来得到当前翻译内容的翻译候选结果,从而解决了相关技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据库内容不完善,导致翻译结果不准确的问题,进而提高了翻译结果的准确度,为用户提供了高质量的翻译结果和用户体验,同时避免预先收集用户数据而达到保护翻译用户隐私的效果。
具体的,上述技术方案可以独立于通用的机器翻译引擎而独立存在,对任意机器翻译引擎的结果都可以进行后处理产生个性化机器翻译结果。由于该方法中,利用的双语翻译实例库可以仅在客户端本地实现,因此,可以实现用户的数据仅在客户端起作用,而没有上传至服务器,从而保护了翻译用户的隐私。而且上述方法无需进行耗时的大规模统计学习训练,而使得用户能够较快捷获得个性化翻译结果。
此处需要说明的是,本申请上述实施例中的双语翻译实例库是一种双语语料库(Bilingual Corpus),可以收集互为翻译的两种语言文本,另外,双语对齐是在双语语料库中建立源语言和目标语言的相同语言单位之间的对应关系,也就是确定源语言文本中哪些个语言单位和目标语言文本中哪些个语言单位互为翻译关系。双语文本存在多层次多粒度的对应关系,包括段落之间,句子之间,短语之间,词语之间的对齐。
本申请上述实施例中,在步骤S10获取用户输入的翻译内容之前,还可以包括如下实施步骤:
步骤S101,获取双语翻译实例库,双语翻译实例库包括多组句对。
具体的,本申请上述步骤中的双语翻译实例库可以根据翻译任务的语言方向,由用户在客户端本地选择一个符合自己翻译一个源语言和目标语言的双语翻译实例库,该实例库可以是用户的历史人工翻译结果,或者用户的领域的双语词典等资源。该双语翻译实例库中的双语句对可以是经过人工词对齐或者未进行词对齐的句对,需要说明的是,本申请对上述实例库的规模没有明显限制。
步骤S103,将双语翻译实例库中没有经过词对齐的句对进行自动对齐处理,获取词对齐的双语句对,其中,双语句对包括:源语言和源语言对应的目标语言。
具体的,本申请上述步骤实现了对双语翻译实例中未经过词对齐的句对进行自动对齐处理,并输出词对齐的双语句对,此处的自动对齐处理利用统计在同一双语句子中的不同的语言的词的共现频率来估计两个词的之间的对齐概率,然后再用对齐概率去估计两个词的共现频率,直至收敛为止。最后选择最大概率的对齐可能做为最后对齐结果。为了提高对齐的质量,本申请可以将通用语料和实例库合并,进行对齐后在将两者分开。本申请采用将通用语料和实例库合并的方案,目的是为了解决通常情况下用户制定的实例库规模较小,导致对齐结果不准确的问题,可以提高对齐结果的准确性,具体的,可以将一个已经保存的大规模语料即通用语料与用户制定的实例库合并,进行词对齐过程,从而产生高质量对齐结果。
本申请上述实施例中,步骤S50基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例的步骤可以包括如下实施步骤:
步骤S501,获取翻译内容的向量值。
步骤S502,获取双语翻译实例库中所有翻译实例的源语言向量值。
具体的,以上两步对翻译内容以及双语翻译实例库中所有翻译实例的源语言采用向量空间模型进行描述,即将翻译内容的源语言的句子或翻译实例句子中出现的所有不同的词作为向量的一个维度。每个句子出现了某个词的个数即是其词对应维度的值。例如句子“我有一本书。”其向量可以稀疏的表示为:(1,1,1一本书,1。)。
步骤S503,根据翻译内容的向量值和双语翻译实例库中所有翻译实例的源语言向量值进行相似度计算,生成翻译内容的多个相似度值。
步骤S504,按照相似度值,选择翻译内容对应的N个翻译实例,N为自然数。
优选地,本申请上述实施例中,步骤S503根据翻译内容的向量值和双语翻译实例库中所有源语言的向量值进行相似度计算,生成翻译内容的多个相似度值的步骤可以通过如下实施方式实现:
通过如下公式计算得到翻译内容的相似度值P:
其中,ex_Fi是翻译实例的源语言向量值,F是翻译内容的向量值,ex_Fi·F是翻译实例的源语言向量值和翻译内容的向量值的内积,||ex_F||*||F||是翻译实例的源语言向量值和翻译内容的向量值的范数。
优选地,本申请上述实施例中,步骤S504按照相似度值,选择翻译内容对应的N个翻译实例的步骤可以包括实施步骤:
步骤S5041,对翻译内容的多个相似度值按照数值大小进行排序。
步骤S5042,按照排序后的相似度值提取对应的翻译实例,获取N个翻译实例。
上述实施方案实现了,将翻译任务和翻译实例库按照句子的向量值进行相似度计算,从而获得与翻译任务最相似的翻译实例候选列表。可以选择最相似的前N(N通常经验取值15)个翻译实例。具体地,本申请上述方案中可以按照以词袋为单元的向量空间模型计算COS相似度。用户输入的翻译内容作为当前的翻译任务与翻译实例库中的翻译实例进行COS相似度计算,上述相似度计算可以按照如下公式进行:
其中ex_Fi是翻译实例的源语言向量,F是翻译任务向量,ex_Fi·F是两个向量的内积。||·||是向量的范数。
此处需要说明的是,词袋模型是在自然语言处理和信息检索中的一种简单假设,在这种模型中,文本(段落或者文档)被看作是无序的词汇集合,忽略语法甚至是单词的顺序。
优选地,本申请上述实施例中,步骤S70使用在线翻译结果对翻译实例进行增量式对齐,获取混淆网络的步骤可以包括如下实施方案:
步骤S701,设置在线翻译结果为原始翻译骨架。
具体的,该翻译骨架可以作为初始翻译结果或基础翻译结果,是一种对齐的基准,由一个或者多个集合构成的一个序列,其中集合由一个或者多个词构成。即序列的每个位置上包含了一个或者多个词。其他的翻译需要按照翻译骨架上的词的进行对齐。
步骤S702,依次将翻译实例的目标语言与当前得到的上述翻译骨架进行增量式对齐处理,得到对齐结果。
步骤S703,根据对齐结果,将在线翻译结果和N个翻译实例中的译文的全部词汇连接构成所述混淆网络。具体的,该步骤实现了按照对齐结果更新原始翻译骨架中相应的词信息。可以得到一个混淆网络。
具体的,该过程可以使用工具TERp中的增量对齐模块实现。下面可以以四个句子(“from the newspaper”,“from newspaper”,“newspaper”,“house newspaper”)为例进行详细说明,其中,“from the newspaper”为在线翻译结果,“from newspaper”,“newspaper”,“house newspaper”为上述翻译实例的目标语言,增量式对齐过程是首先将句子1和句子0对齐,而后依次对齐句子2、最后对齐句子3。对齐结果入下表1:
表1
0 from the newspaper
1 from NULL newspaper
2 NULL NULL newspaper
3 house NULL newspaper
上述对齐结果也被称为混淆网络,其有向图如图2所示。
优选地,本申请上述实施例中步骤S90对混淆网络进行解码,获取翻译候选结果的步骤可以具体包括如下步骤,即也可以是在步骤S703之后,执行如下步骤:
步骤S704,根据语句特征对上述获得的混淆网络进行解码,生成至少一个解码结果,即得到新的翻译结果。这一过程也被称为解码。
具体的,解码过程实际上是在混淆网络的有向图进行搜索寻找最优翻译路径的过程。每个翻译路径所经过的词即生成了一个译文。而搜索过程中我们采用log-linear模型计算翻译路径的得分。log-linear模型通过计算依附于每个词的特征值取对数后按照权重加权求和计算该路径的得分。我们选择最优得分的译文做为最终译文。
本申请上述实施例中选用的语句特征包括如下:
语言模型概率:采用用户全部双语翻译实例库训练的目标语训练的语言模型,具体地这里采用目前应用最为广泛的n元语言模型。
词惩罚:生成译文的词数。
空词惩罚:生成译文路径中包含的空词数。
词汇一致性:计算生成译文中N个连续单词在所选择翻译实例中出现的频率(即生成译文中N个连续单词在所选择翻译实例中出现次数/实例中个连续单词的总数)。
译文生成概率:即采用所选的全部实例计算n元语言模型,而后采用此模型计算译文的语言模型概率。这实际上是一个实例库范围上得到的局部语言模型概率。
重复词数:生成译文中出现重复的词的个数。
通用翻译引擎的结果词数:生成译文中出现的通用翻译引擎的结果中的词数。
词置信度:混淆网络中的词的置信度。
优选地,当语句特征选择词置信度特征时,对混淆网络进行置信度估计处理,得到置信度估算结果。此处需要说明的是,上述方案中的混淆网络中的词的置信度估计方法可以如下:
其中n是翻译实例的总数;i=0时Ei是通用翻译引擎的在线翻译结果,i≥1时Ei是第i个翻译实例;Ci是第i个翻译实例的源语言相似度值;λi是一个0-1特征函数,在当前位置若w在Ei中出现λi=1,否则λi=0;p(w|Ei)是在来自句子Ei条件下的词w的后验概率,其计算方法是根据词对齐信息进行估计:
其中e是自然对数的底数,c是一个定义的计数器。
上述估计算法的具体示例如下:对于每个词w所对应的c初始值为0;如果词w来自于通用翻译引擎的翻译结果,则c保持不变;如果词w来自于实例,并且在该实例中没有w的对齐结果,则c保持不变;根据实例的双语对齐结果,如果w所对齐的源语言词在翻译任务中出现,则c值加1;根据实例的双语对齐结果,w所对齐的源语言词在翻译任务中未出现,则c值减1;根据翻译任务的语言方向,用户可以提供一组由源语言和目标语翻译的标准的双语句对作为翻译的任务的开发集合。该数据用于系统优化个性化翻译模型的特征权重,如未能提供该数据则采用默认权重。
由上可知,本申请上述实施例实现了对用户的制定信息进行学习的译文优化技术,特别是将通用的机器翻译结果转化为个性化翻译结果的方法和系统。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例二:
图3是根据本发明实施例的面向通用机译引擎的个性化翻译装置的结构示意图。如图3所示,该面向通用机译引擎的个性化翻译装置可以包括:一第一获取模块10、一第二获取模块30、一检索模块50、一增量式对齐处理模块70和译文生成模块90。
其中,第一获取模块10,用于获取用户输入的翻译内容;第二获取模块30,用于获取翻译内容的在线翻译结果;检索模块50,用于基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;增量式对齐处理模块70,用于使用在线翻译结果对翻译实例进行增量式对齐,获取混淆网络;译文生成模块90,用于对混淆网络进行解码,获取翻译候选结果。
本申请上述实施例中,可以针对现有的通用机器翻译服务引擎,利用用户指定的双语翻译实例库,实现一种面向用户具体需求的个性化的翻译系统,即通过结合在线翻译结果和双语翻译实例中的检索结果来得到当前翻译内容的翻译候选结果,从而解决了相关技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据库内容不完善,导致翻译结果不准确的问题,进而提高了翻译结果的准确度,为用户提供了高质量的翻译结果和用户体验,同时避免预先收集用户数据而达到保护翻译用户隐私的效果。
具体的,上述技术方案可以独立于通用的机器翻译引擎而独立存在,对任意机器翻译引擎的结果都可以进行后处理产生个性化机器翻译结果。由于该方法中,利用的双语翻译实例库可以仅在客户端本地实现,因此,可以实现用户的数据仅在客户端起作用,而没有上传至服务器,从而保护了翻译用户的隐私。而且上述方法无需进行耗时的大规模统计学习训练,而使得用户能够较快捷获得个性化翻译结果。
此处需要说明的是,本申请上述实施例中的双语翻译实例库是一种双语语料库(Bilingual Corpus),可以通过收集互为翻译的两种语言文本实现,另外,双语对齐是在双语语料库中建立源语言和目标语言的相同语言单位之间的对应关系,也就是确定源语言文本中哪些个语言单位和目标语言文本中哪些个语言单位互为翻译关系。双语文本存在多层次多粒度的对应关系,包括段落之间,句子之间,短语之间,词语之间的对齐。
优选地,本申请上述实施例中的装置还可以包括:第三获取模块,用于获取双语翻译实例库,双语翻译实例库包括多组句对;自动对齐处理模块,用于将双语翻译实例库中没有经过词对齐的句对进行自动对齐处理,获取词对齐的双语句对,其中,双语句对包括:源语言和源语言对应的目标语言。
具体的,本申请上述第三获取模块的双语翻译实例库可以根据翻译任务的语言方向,由用户在客户端本地选择一个符合自己翻译一个源语言和目标语言的双语翻译实例库,该实例库可以是用户的历史人工翻译结果,或者用户的领域的双语词典等资源。该双语翻译实例库中的双语句对可以是经过人工词对齐或者未进行词对齐的句对,需要说明的是,本申请对上述实例库的规模没有明显限制。
另外,本申请上述自动对齐处理模块实现了对双语翻译实例中未经过词对齐的句对进行自动对齐处理,并输出词对齐的双语句对,此处的自动对齐处理利用统计在同一双语句子中的不同的语言的词的共现频率来估计两个词的之间的对齐概率,然后再用对齐概率去估计两个词的共现频率,直至收敛为止。最后选择最大概率的对齐可能做为最后对齐结果。为了提高对齐的质量,本申请可以将通用语料和实例库合并,进行对齐后在将两者分开。本申请采用将通用语料和实例库合并的方案,目的是为了解决通常情况下用户制定的实例库规模较小,导致对齐结果不准确的问题,可以提高对齐结果的准确性,具体的,可以将一个已经保存的大规模语料即通用语料与用户制定的实例库合并,进行词对齐过程,从而产生高质量对齐结果。
优选地,本申请上述实施例中的检索模块50可以包括:第一子获取模块,用于获取翻译内容的向量值;第二子获取模块,用于获取双语翻译实例库中所有翻译实例的源语言向量值;处理模块,用于根据翻译内容的向量值和双语翻译实例库中所有翻译实例的源语言向量值进行相似度计算,生成翻译内容的多个相似度值;选择模块,用于按照相似度值,选择翻译内容对应的N个翻译实例,N为自然数。
优选地,本申请上述实施例中的处理模块可以包括:相似度计算模块,用于通过如下公式计算得到翻译内容的相似度值P:其中,ex_Fi是翻译实例的源语言向量值,F是翻译内容的向量值,ex_Fi·F是翻译实例的源语言向量值和翻译内容的向量值的内积,||ex_F||*F||是翻译实例的源语言向量值和翻译内容的向量值的范数。
优选地,本申请上述实施例中的选择模块可以包括:排序模块,用于对翻译内容的多个相似度值按照数值大小进行排序;提取模块,用于按照排序后的相似度值提取对应的翻译实例,获取N个翻译实例。
优选地,本申请上述实施例中的增量式对齐处理模块70可以包括:设置模块,用于设置在线翻译结果为原始翻译骨架;第三子获取模块,用于依次将翻译实例的目标语言与原始翻译骨架进行增量式对齐处理,得到对齐结果;生成模块,用于根据对齐结果,将在线翻译结果和N个翻译实例中的译文的全部词汇连接构成所述混淆网络,即按照对齐的结果更新翻译骨架相应的词的信息,得到一个混淆网络。
优选地,本申请上述实施例中的译文生成模块90可以包括:解码模块,用于根据语句特征对混淆网络进行解码,生成至少一个解码结果;置信度估计模块,用于当语句特征为词置信度时,即计算混淆网络的词置信度特征时,可以对混淆网络进行置信度估计处理,得到置信度估算结果。
其中,置信度估计模块可以包括:计算模块,用于通过如下公式计算得到置信度估算结果: 其中,n为翻译实例的总数,i=0时Ei是在线翻译结果,i≥1时Ei是第i个翻译实例,Ci第i个翻译实例的源语言相似度值,λi是一个0-1特征函数,e是自然对数的底数,c是计数器的计数值。
上述估计算法的具体示例如下:对于每个词w所对应的c初始值为0;如果词w来自于通用翻译引擎的翻译结果,则c保持不变;如果词w来自于实例,并且在该实例中没有w的对齐结果,则c保持不变;根据实例的双语对齐结果,如果w所对齐的源语言词在翻译任务中出现,则c值加1;根据实例的双语对齐结果,w所对齐的源语言词在翻译任务中未出现,则c值减1;根据翻译任务的语言方向,用户可以提供一组由源语言和目标语翻译的标准的双语句对作为翻译的任务的开发集合。该数据用于系统优化个性化翻译模型的特征权重,如未能提供该数据则采用默认权重。
从以上的描述中,可以看出,本发明实现了如下技术效果:解决了相关技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据库内容不完善,导致翻译结果不准确的问题,进而提高了翻译结果的准确度,为用户提供了高质量的翻译结果和用户体验,同时避免预先收集用户数据而达到保护翻译用户隐私的效果。具体的,可以包括如下几个方面。
1)该方法独立于通用机器翻译引擎存在,对任意机器翻译引擎的结果都可以进行后处理产生个性化机器翻译结果。
2)该方法可以实现用户的数据仅在客户端起作用,而没有上传至服务器。从而保护了翻译用户的隐私。
3)该方法无需进行耗时的大规模统计学习训练,而使得用户能够较快捷获得个性化翻译结果。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
显然,本领域的技术人员可以看出,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种面向通用机译引擎的个性化翻译方法,其特征在于,包括:
获取用户输入的翻译内容;
获取所述翻译内容的在线翻译结果;
基于所述翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;
使用所述在线翻译结果对所述翻译实例进行增量式对齐,生成混淆网络;
对所述混淆网络进行解码,获取翻译候选结果;
其中,对所述混淆网络进行解码,获取翻译候选结果的步骤包括:
根据语句特征对所述混淆网络进行解码,生成至少一个解码结果;
其中,当计算所述混淆网络的词置信度特征时,对所述混淆网络进行置信度估计处理,得到置信度估算结果,上述步骤包括:
通过如下公式计算得到所述置信度估算结果:
其中,n为所述翻译实例的总数,i=0时所述Ei是所述在线翻译结果,i≥1时所述Ei是第i个翻译实例,Ci第i个翻译实例的源语言相似度值,λi是一个0-1特征函数,e是自然对数的底数,c是计数器的计数值;
其中,对于每个词w所对应的c初始值为0;如果词w来自于通用翻译引擎的翻译结果,则c保持不变;如果词w来自于实例,并且在该实例中没有w的对齐结果,则c保持不变;根据实例的双语对齐结果,如果w所对齐的源语言词在翻译任务中出现,则c值加1;根据实例的双语对齐结果,w所对齐的源语言词在翻译任务中未出现,则c值减1。
2.根据权利要求1所述的方法,其特征在于,在获取用户输入的翻译内容之前,所述方法还包括:
获取所述双语翻译实例库,所述双语翻译实例库包括多组句对;
将所述双语翻译实例库中没有经过词对齐的句对进行自动对齐处理,获取词对齐的双语句对,其中,所述双语句对包括:源语言和所述源语言对应的目标语言。
3.根据权利要求2所述的方法,其特征在于,基于所述翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例的步骤包括:
获取所述翻译内容的向量值;
获取所述双语翻译实例库中所有翻译实例的源语言向量值;
根据所述翻译内容的向量值和所述双语翻译实例库中所有翻译实例的源语言向量值进行相似度计算,生成所述翻译内容的多个相似度值;
按照所述相似度值,选择所述翻译内容对应的N个翻译实例,N为自然数。
4.根据权利要求3所述的方法,其特征在于,根据所述翻译内容的向量值和所述双语翻译实例库中所有源语言的向量值进行相似度计算,生成所述翻译内容的多个相似度值的步骤包括:
通过如下公式计算得到所述翻译内容的相似度值P:
其中,所述ex_Fi是所述翻译实例的源语言向量值,所述F是所述翻译内容的向量值,所述ex_Fi·F是所述翻译实例的源语言向量值和所述翻译内容的向量值的内积,所述||ex_F||*||F||是所述翻译实例的源语言向量值和所述翻译内容的向量值的范数。
5.根据权利要求4所述的方法,其特征在于,按照所述相似度值,选择所述翻译内容对应的N个翻译实例的步骤包括:
对所述翻译内容的多个相似度值按照数值大小进行排序;
按照排序后的相似度值提取对应的翻译实例,获取所述N个翻译实例。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,使用所述在线翻译结果对所述翻译实例进行增量式对齐,生成混淆网络的步骤包括:
设置所述在线翻译结果为原始翻译骨架;
依次将所述翻译实例的目标语言与所述原始翻译骨架进行增量式对齐处理,得到对齐结果;
根据所述对齐结果,将所述在线翻译结果和所述N个翻译实例中的译文的全部词汇连接构成所述混淆网络。
7.一种面向通用机译引擎的个性化翻译装置,其特征在于,包括:
第一获取模块,用于获取用户输入的翻译内容;
第二获取模块,用于获取所述翻译内容的在线翻译结果;
检索模块,用于基于所述翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;
增量式对齐处理模块,用于使用所述在线翻译结果对所述翻译实例进行增量式对齐,生成混淆网络;
译文生成模块,用于对所述混淆网络进行解码,获取翻译候选结果,
其中,所述译文生成模块包括:
解码模块,用于根据语句特征对所述混淆网络进行解码,生成至少一个解码结果;
置信度估计模块,用于当计算所述混淆网络的词置信度特征时,对所述混淆网络进行置信度估计处理,得到置信度估算结果;
其中,所述置信度估计模块包括:
计算模块,用于通过如下公式计算得到所述置信度估算结果:
其中,n为所述翻译实例的总数,i=0时所述Ei是所述在线翻译结果,i≥1时所述Ei是第i个翻译实例,Ci第i个翻译实例的源语言相似度值,λi是一个0-1特征函数,e是自然对数的底数,c是计数器的计数值;
其中,对于每个词w所对应的c初始值为0;如果词w来自于通用翻译引擎的翻译结果,则c保持不变;如果词w来自于实例,并且在该实例中没有w的对齐结果,则c保持不变;根据实例的双语对齐结果,如果w所对齐的源语言词在翻译任务中出现,则c值加1;根据实例的双语对齐结果,w所对齐的源语言词在翻译任务中未出现,则c值减1。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取所述双语翻译实例库,所述双语翻译实例库包括多组句对;
自动对齐处理模块,用于将所述双语翻译实例库中没有经过词对齐的句对进行自动对齐处理,获取词对齐的双语句对,其中,所述双语句对包括:源语言和所述源语言对应的目标语言。
9.根据权利要求8所述的装置,其特征在于,所述检索模块包括:
第一子获取模块,用于获取所述翻译内容的向量值;
第二子获取模块,用于获取所述双语翻译实例库中所有翻译实例的源语言向量值;
处理模块,用于根据所述翻译内容的向量值和所述双语翻译实例库中所有翻译实例的源语言向量值进行相似度计算,生成所述翻译内容的多个相似度值;
选择模块,用于按照所述相似度值,选择所述翻译内容对应的N个翻译实例,N为自然数。
10.根据权利要求9所述的装置,其特征在于,所述处理模块包括:
相似度计算模块,用于通过如下公式计算得到所述翻译内容的相似度值P:
其中,所述ex_Fi是所述翻译实例的源语言向量值,所述F是所述翻译内容的向量值,所述ex_Fi·F是所述翻译实例的源语言向量值和所述翻译内容的向量值的内积,所述||ex_F||*||F||是所述翻译实例的源语言向量值和所述翻译内容的向量值的范数。
11.根据权利要求10所述的装置,其特征在于,所述选择模块包括:
排序模块,用于对所述翻译内容的多个相似度值按照数值大小进行排序;
提取模块,用于按照排序后的相似度值提取对应的翻译实例,获取所述N个翻译实例。
12.根据权利要求7至11中任意一项所述的装置,其特征在于,所述增量式对齐处理模块包括:
设置模块,用于设置在线翻译结果为原始翻译骨架;
第三子获取模块,用于依次将所述翻译实例的目标语言与所述原始翻译骨架进行增量式对齐处理,得到对齐结果;
生成模块,用于根据所述对齐结果,将所述在线翻译结果和所述N个翻译实例中的译文的全部词汇连接构成所述混淆网络。
CN201310722090.0A 2013-12-24 2013-12-24 面向通用机译引擎的个性化翻译方法及装置 Active CN104731774B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310722090.0A CN104731774B (zh) 2013-12-24 2013-12-24 面向通用机译引擎的个性化翻译方法及装置
PCT/CN2014/087722 WO2015096529A1 (zh) 2013-12-24 2014-09-28 面向通用机译引擎的个性化翻译方法及装置
CA2971884A CA2971884C (en) 2013-12-24 2014-09-28 Method and device for general machine translation engine-oriented individualized translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310722090.0A CN104731774B (zh) 2013-12-24 2013-12-24 面向通用机译引擎的个性化翻译方法及装置

Publications (2)

Publication Number Publication Date
CN104731774A CN104731774A (zh) 2015-06-24
CN104731774B true CN104731774B (zh) 2018-02-02

Family

ID=53455672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310722090.0A Active CN104731774B (zh) 2013-12-24 2013-12-24 面向通用机译引擎的个性化翻译方法及装置

Country Status (3)

Country Link
CN (1) CN104731774B (zh)
CA (1) CA2971884C (zh)
WO (1) WO2015096529A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760361B (zh) * 2016-01-26 2019-06-14 北京云知声信息技术有限公司 一种语言模型建立方法及装置
CN107861949B (zh) * 2017-11-22 2020-11-20 珠海市君天电子科技有限公司 文本关键词的提取方法、装置及电子设备
CN111898387B (zh) * 2019-05-06 2024-05-31 阿里巴巴集团控股有限公司 翻译方法及装置、存储介质、计算机设备
CN110298046B (zh) * 2019-07-03 2023-04-07 科大讯飞股份有限公司 一种翻译模型训练方法、文本翻译方法及相关装置
CN110502762B (zh) * 2019-08-27 2023-07-28 北京金山数字娱乐科技有限公司 一种翻译平台及其管理方法
CN111144134B (zh) * 2019-11-27 2023-05-16 语联网(武汉)信息技术有限公司 基于OpenKiWi的翻译引擎自动化评测系统
CN110991194B (zh) * 2019-11-27 2023-05-16 语联网(武汉)信息技术有限公司 基于OpenKiWi进化的引擎优化方法以及翻译系统
CN110991661A (zh) * 2019-12-20 2020-04-10 北京百度网讯科技有限公司 用于生成模型的方法和装置
CN115168588A (zh) * 2022-03-16 2022-10-11 北京金山数字娱乐科技有限公司 文本处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102650988A (zh) * 2011-02-25 2012-08-29 北京百度网讯科技有限公司 一种基于目标语言复述资源的机器翻译方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8060358B2 (en) * 2008-03-24 2011-11-15 Microsoft Corporation HMM alignment for combining translation systems
JP5747508B2 (ja) * 2011-01-05 2015-07-15 富士ゼロックス株式会社 対訳情報検索装置、翻訳装置及びプログラム
CN102156692A (zh) * 2011-02-25 2011-08-17 哈尔滨工业大学 统计机器翻译中的基于森林的系统融合方法
CN102789451B (zh) * 2011-05-16 2015-06-03 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102650988A (zh) * 2011-02-25 2012-08-29 北京百度网讯科技有限公司 一种基于目标语言复述资源的机器翻译方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Reparing Incorrect Translation with Examples》;Junguo Zhu et al;《International Joint Conference on Nature Language Processing》;20131018;第967-971页 *
《以机器翻译技术为核心的多语信息处理研究》;赵铁军等;《中文信息学报》;20111130;第25卷(第6期);第81-89、110页 *

Also Published As

Publication number Publication date
CN104731774A (zh) 2015-06-24
CA2971884C (en) 2020-10-27
CA2971884A1 (en) 2015-07-02
WO2015096529A1 (zh) 2015-07-02

Similar Documents

Publication Publication Date Title
CN104731774B (zh) 面向通用机译引擎的个性化翻译方法及装置
Wan et al. A deep architecture for semantic matching with multiple positional sentence representations
Nisioi et al. Exploring neural text simplification models
Alva-Manchego et al. Learning how to simplify from explicit labeling of complex-simplified text pairs
Bérard et al. MultiVec: a multilingual and multilevel representation learning toolkit for NLP
Berardi et al. Word Embeddings Go to Italy: A Comparison of Models and Training Datasets.
CN102043774A (zh) 机器翻译测评装置和方法
Biçici Referential translation machines for quality estimation
CN107807915B (zh) 基于纠错平台的纠错模型建立方法、装置、设备和介质
McCarthy et al. Jump-starting item parameters for adaptive language tests
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN110334362B (zh) 一种基于医学神经机器翻译的解决产生未翻译单词的方法
US20220237383A1 (en) Concept system for a natural language understanding (nlu) framework
CN113673702B (zh) 一种预训练语言模型的评测方法、装置以及存储介质
Choi et al. Advances in readability research: A new readability Web app for English
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
Fatima et al. Cross-lingual Science Journalism: Select, Simplify and Rewrite Summaries for Non-expert Readers
CN111680515B (zh) 基于ai识别的答案确定方法、装置、电子设备及介质
Faria et al. Results for Matcha and Matcha-DL in OAEI 2023.
Hu et al. Query transformation for multi-lingual product search
Lee N-Gram Language Model
Huang et al. Cross-lingual information to the rescue in keyword extraction
Hou et al. Design and Implementation of Interactive English Translation System in Internet of Things Auxiliary Information Processing
Nulty et al. The UCD-Net system at SemEval-2020 Task 1: Temporal referencing with semantic network distances
Jameel et al. N-gram fragment sequence based unsupervised domain-specific document readability

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200325

Address after: 150001 No. 118 West straight street, Nangang District, Heilongjiang, Harbin

Patentee after: Harbin University of technology high tech Development Corporation

Address before: 150001 Harbin, Nangang, West District, large straight street, No. 92

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right