CN109408834B - 辅助机器翻译方法、装置、设备及存储介质 - Google Patents

辅助机器翻译方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109408834B
CN109408834B CN201811542798.7A CN201811542798A CN109408834B CN 109408834 B CN109408834 B CN 109408834B CN 201811542798 A CN201811542798 A CN 201811542798A CN 109408834 B CN109408834 B CN 109408834B
Authority
CN
China
Prior art keywords
domain
translation
translated
original text
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811542798.7A
Other languages
English (en)
Other versions
CN109408834A (zh
Inventor
王一鸣
张睿卿
何中军
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811542798.7A priority Critical patent/CN109408834B/zh
Publication of CN109408834A publication Critical patent/CN109408834A/zh
Application granted granted Critical
Publication of CN109408834B publication Critical patent/CN109408834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种辅助机器翻译方法、装置、设备及存储介质。其中,该方法包括采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;确定所述待翻译原文的领域特征,并根据所述待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文。本发明实施例提供的技术方案,通过将领域特征和各领域翻译译文特征融合,使得领域专有名词可以通顺的出现在译文中,且在保证专有名词准确翻译的同时,进一步保证了翻译译文里面的翻译风格和用词都符合翻译原文中各语句所属的领域,优化了机器翻译的结果,提高了翻译准确度。

Description

辅助机器翻译方法、装置、设备及存储介质
技术领域
本发明实施例涉及机器翻译技术领域,尤其涉及一种辅助机器翻译方法、装置、设备及存储介质。
背景技术
随着科技的发展,不同语种之间的信息交流已经成为信息交流中的重要组成部分,随之而来的对各种语言服务,尤其是翻译服务的需求越来越广泛。而计算机辅助翻译系统是一种利用机器翻译技术帮助专业译员进行文献翻译的系统,同时提供对译员历史翻译数据进行存储和管理的功能。
对专业译员来说,所翻译的内容更多的是各个领域的专业文献,而不是日常的对话。而在每个领域,都会有自己的语言风格和术语含义,这种情况下计算机辅助翻译系统为译员提供每个领域的领域翻译信息就显得尤为重要。
传统的领域翻译信息是通过为译员提供各个领域的领域翻译记忆库,即各个领域的原文译文对数据来提供领域信息,当译员当前翻译的原文在记忆库中有类似的句子时,将该记忆库中的原文译文对提供给译员以供参考,而机器翻译的译文还是通用领域的翻译结果。采用这种形式,辅助翻译系统所提供给译员的领域参考信息是十分有限的,而且很多情况下,通用翻译效果是不准确的,无法直接应用在专业领域的,大部分的翻译操作还是要由译员自己来完成,进而传统的领域翻译并未减轻译员的翻译量。
发明内容
本发明实施例提供了一种辅助机器翻译方法、装置、终端及存储介质,优化了机器翻译的结果,提高了翻译的准确度。
第一方面,本发明实施例提供了一种辅助机器翻译方法,该方法包括:
采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;
确定所述待翻译原文的领域特征,并根据所述待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文。
第二方面,本发明实施例还提供了一种辅助机器翻译装置,该装置包括:
译文特征确定模块,用于采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;
领域特征确定模块,用于确定所述待翻译原文的领域特征;
融合译文生成模块,用于根据所述待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文。
第三方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面中任意所述的辅助机器翻译方法。
第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意所述的辅助机器翻译方法。
本发明实施例提供的辅助机器翻译方法、装置、设备及存储介质,在获取到用户输入的待翻译原文后,通过采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;而后根据各领域翻译译文特征及确定的待翻译原文的领域特征,生成领域融合译文。本方案通过将领域特征和各领域翻译译文特征融合,使得领域专有名词可以通顺的出现在译文中,且在保证专有名词准确翻译的同时,进一步保证了翻译译文里面的翻译风格和用词都符合翻译原文中各语句所属的领域,优化了机器翻译的结果,提高了翻译准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例一中提供的一种辅助机器翻译方法的流程图;
图2是本发明实施例二中提供的一种辅助机器翻译方法的流程图;
图3A是本发明实施例三中提供的一种辅助机器翻译方法的流程图;
图3B是本发明实施例所适用的一种两个模型同步训练过程示意图;
图3C是本发明实施例所适用的一种三个模型同步训练过程示意图;
图4是本发明实施例四中提供的一种辅助机器翻译装置的结构框图;
图5是本发明实施例五中提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种辅助机器翻译方法的流程图。本实施例适用于如何提高机器翻译的准确度的情况。该方法可以由本发明实施例提供的辅助机器翻译装置来执行,该装置可采用软件和/或硬件的方式实现,该装置可以集成于计算设备上。参见图1,该方法具体包括:
S110,采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征。
本实施例中,领域可以包括但不限于计算机、通信、电子、半导体、生物、化学、建筑及机械等;各领域翻译模型是预先采用各领域的训练数据集对翻译模型单独训练得到的,其中,训练数据集可以包括专有名词及专有名词的标准译文,用于保证译文中专有名词的准确翻译。
待翻译原文是指未翻译的原文文本;对于任一领域翻译译文特征,是通过将待翻译原文输入该领域翻译模型后,该领域翻译模型的输出结果;领域翻译译文特征用于表征待翻译原文在某一领域的翻译情况。需要说明的是,对于同一领域,某一专有名词或词语的翻译不是确定的,可以有多种可能,因此领域翻译译文特征不是自然语言的译文,而是一种表示翻译情况的张量或者较高维度的矩阵,且该矩阵中每一维度可以表示某一专有名词翻译为该种译文的概率。
具体的,当获取到用户输入的待翻译原文后,可以调用各领域翻译模型对该翻译原文进行翻译,得到各领域翻译译文特征。
S120,确定待翻译原文的领域特征,并根据待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文。
本实施例中,待翻译原文的领域特征用于表征待翻译原文所属领域情况。由于很多文献的领域并不只有一个,同时待翻译原文的领域与辅助机器翻译系统内置的多个细分领域模型也不一定一致,因此本实施例中,待翻译原文的领域特征不是明确的领域分类信息,而是一种用于表示领域信息的向量,且该向量中每一维度值用于表征待翻译原文所属该领域的概率。
可选的,确定待翻译原文的领域特征可以包括:根据待翻译原文和/或用户输入的领域信息,确定待翻译原文的领域特征。本实施例中,用户输入的领域信息可以包括领域的名称或编号等。具体的,可以通过对待翻译原文进行分析或采用模型识别的方式,确定待翻译原文的领域特征;还可以是根据用户输入的领域信息,确定待翻译原文的领域特征。为了保证所确定的领域特征的准确性,还可以是先根据待翻译原文确定待翻译原文的第一领域特征,而后将该第一领域特征展示给用户,以便用户确定特征识别结果是否正确;若不正确,用户输入正确的领域信息,而后依据第一领域特征及用户输入的领域信息,对第一领域特征进行修改,得到待翻译原文的领域特征;若正确,则可以直接将第一领域特征确定为待翻译原文的领域特征。
本实施例中,领域融合译文是待翻译原文对应的翻译结果,可以采用预先设定的融合策略,根据待翻译原文的领域特征和各领域翻译译文特征进行融合,得到待翻译原文的领域融合译文。融合策略是预先根据实际情况设置的,用于对各领域翻译译文特征进行融合或整合,可以包括下述至少一种:加权融合策略和模型融合策略等。
示例性的,根据待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文可以包括:根据待翻译原文的领域特征对各领域翻译译文特征进行加权融合,生成领域融合译文。具体的,可以将待翻译原文的领域特征中每一维度的值作为一个权重系数,用待翻译原文的领域特征分别和各领域翻译译文特征做乘,而后将各乘积累加得到待翻译原文的领域融合译文。
具体的,在采用步骤S110的操作得到各领域翻译译文特征之后,可以对待翻译原文和/或用户输入的领域进行识别分析得到待翻译原文的领域特征;而后依据待翻译原文的领域特征和各领域翻译译文特征,即可生成待翻译原文的领域融合译文。与现有的机器翻译相比,本实施例中领域融合译文整合了多个领域信息,不是单独的一个通用翻译结果。
本发明实施例提供的技术方案,在获取到用户输入的待翻译原文后,通过采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;而后根据各领域翻译译文特征及确定的待翻译原文的领域特征,生成领域融合译文。本方案通过将领域特征和各领域翻译译文特征融合,使得领域专有名词可以通顺的出现在译文中,且在保证专有名词准确翻译的同时,进一步保证了翻译译文里面的翻译风格和用词都符合翻译原文中各语句所属的领域,优化了机器翻译的结果,提高了翻译准确度。
实施例二
图2为本发明实施例二提供的一种辅助机器翻译方法的流程图,本实施例在上述实施例一的基础上,进一步对确定待翻译原文的领域特征,并根据待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文进行解释说明。参见图2,该方法具体包括:
S210,采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征。
S220,根据待翻译原文生成领域特征识别向量;和/或,根据用户输入的领域修正信息生成领域特征修正向量。
本实施例中,领域特征识别向量是领域特征的一种表示方式,用于表示领域信息,可以将待翻译原文输入预先训练的领域特征识别模型得到;可选的,可以通过对样本原文及样本领域特征识别向量进行训练得到领域识别模型。还可以是对待翻译原文进行分析,并结合文本深度表示模型word2vector得到领域特征识别向量等。
领域修正信息是指用户对直接根据待翻译原文生成的领域特征识别向量的反馈信息;领域特征修正向量也是领域特征中的一种,用于表示领域信息,可以将用户输入的领域修正信息转换为向量形式后输入至预先训练的用户反馈识别模型中得到;可选的,可以通过对样本领域修正信息以及样本领域特征修正向量进行训练得到用户反馈识别模型。还可以是对用户输入的领域修正信息进行分析,并结合文本深度表示模型word2vector得到领域特征修正向量等。
具体的,确定待翻译原文的领域特征可以是根据待翻译原文生成领域特征识别向量;和/或,根据用户输入的领域修正信息生成领域特征修正向量。例如,可以将待翻译原文输入领域特征识别模型中生成领域特征识别向量;而后将用户输入的领域修正信息转换为和领域特征识别模型输出结果相同的领域向量形式,将领域修正信息转换的向量输入至预先训练的用户反馈识别模型中,输出领域特征修正向量,进而依据领域特征修正向量和领域特征识别向量确定待翻译原文的领域特征,如可以将两向量相加得到待翻译原文的领域特征等。
S230,根据待翻译原文的领域特征识别向量和/或领域特征修正向量对各领域翻译译文特征进行加权融合,生成领域融合译文。
具体的,可以将待翻译原文的领域特征识别向量中每一维度值视为一个权重系数,而后用待翻译原文的领域特征识别向量分别和各领域翻译译文特征做乘,而后将各乘积累加得到待翻译原文的领域融合译文。
还可以是待翻译原文的领域特征识别向量和领域特征修正向量相加得到待翻译原文的领域特征,将该领域特征中每一维度值视为一个权重系数,而后用领域特征分别和各领域翻译译文特征做乘,而后将各乘积累加得到待翻译原文的领域融合译文。
此为,还可以是采用预先设置的领域权重系数向量、领域特征识别向量和/或领域特征修正向量,以及各领域翻译译文特征三者做乘并累加,得到待翻译原文的领域融合译文。
本发明实施例提供的技术方案,在获取到用户输入的待翻译原文后,通过采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;而后根据待翻译原文的领域特征识别向量和/或领域特征修正向量对各领域翻译译文特征进行加权融合,生成领域融合译文。本方案通过将领域特征和各领域翻译译文特征融合,使得领域专有名词可以通顺的出现在译文中,且在保证专有名词准确翻译的同时,进一步保证了翻译译文里面的翻译风格和用词都符合翻译原文中各语句所属的领域,优化了机器翻译的结果,提高了翻译准确度。
实施例三
图3A为本发明实施例三提供的一种辅助机器翻译方法的流程图,本实施例在上述实施例的基础上,又进一步对确定待翻译原文的领域特征,并根据待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文进行解释说明,提供了一种采用模型方式确定领域特征及领域融合译文的方案。参见图3A,该方法具体包括:
S310,采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征。
S320,采用样本原文和样本领域融合译文对基础领域特征识别模型和基础多领域融合模型进行训练,得到领域特征识别模型和多领域融合模型。
本实施例中,基础多领域融合模型的输入是基础领域特征识别模型的输出,以及样本原文的各领域翻译译文特征,基础多领域融合模型的输出是样本领域融合译文。为了降低训练的复杂度,领域特征识别模型和多领域融合模型可同时训练得到。具体的实现可以通过如图3B所示的方式实现,可以是:将样本原文输入到基础领域特征识别模型得到样本领域特征;将样本领域特征和样本原文的各领域翻译译文特征输入到基础多领域融合模型中,并依据样本领域融合译文,同时对基础领域特征识别模型和基础多领域融合模型进行训练,直到基础多领域融合模型可准确的输出领域融合译文时,可以得到领域特征识别模型和多领域融合模型。
需要说明的是,本实施例中将样本原文、样本原文的各领域翻译译文特征以及样本领域融合译文,同时输入到基础领域特征识别模型和基础多领域融合模型中一起训练,不需要关注基础领域特征识别模型的输出结果,只需基础多领域融合模型的最终能够准确输出领域融合译文结果即停止训练,相比于逐一对每一模型训练而言,降低了训练的复杂程度。
S330,采用领域特征识别模型确定待翻译原文的领域特征。
具体的,将待翻译原文输入至领域特征识别模型中,该模型将输出待翻译原文的领域特征,如可以是领域特征识别向量。
S340,采用多领域融合模型,根据待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文。
具体的,将待翻译原文的领域特征和各领域翻译译文特征输入至多领域融合模型,该模型将输出待翻译原文的领域融合译文。
本发明实施例提供的技术方案,在获取到用户输入的待翻译原文后,通过采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;而后采用领域特征识别模型确定待翻译原文的领域特征,并采用多领域融合模型,据待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文。本方案通过将领域特征和各领域翻译译文特征融合,使得领域专有名词可以通顺的出现在译文中,且在保证专有名词准确翻译的同时,进一步保证了翻译译文里面的翻译风格和用词都符合翻译原文中各语句所属的领域,优化了机器翻译的结果,提高了翻译准确度。
可选的,在确定待翻译原文的领域特征,并根据待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文之前,还可以包括:采用样本原文、样本领域修正信息以及样本领域融合译文对基础领域特征识别模型、基础反馈识别模型和基础多领域融合模型进行训练,得到领域特征识别模型、用户反馈识别模型和多领域融合模型。具体实现可以通过如图3C所示的方式实现,即三个模型同步训练的过程,与图3B所示的两个模型同步训练过程类似,这里不再赘述。而后可以将待翻译原文输入至领域特征识别模型中得到领域特征识别向量;和/或,将用户输入的领域修正信息转换为向量表示形式后输入至用户反馈识别模型中,得到领域特征修正向量;进而将待翻译原文的领域特征识别向量和/或领域特征修正向量,以及各领域翻译译文特征输入至多领域融合模型,生成领域融合译文。
实施例四
图4为本发明实施例四提供的一种辅助机器翻译装置的结构框图,该装置可执行本发明任意实施例所提供的辅助机器翻译方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置可以包括:
译文特征确定模块410,用于采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;
领域特征确定模块420,用于确定待翻译原文的领域特征;
融合译文生成模块430,用于根据待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文。
本发明实施例提供的技术方案,在获取到用户输入的待翻译原文后,通过采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;而后根据各领域翻译译文特征及确定的待翻译原文的领域特征,生成领域融合译文。本方案通过将领域特征和各领域翻译译文特征融合,使得领域专有名词可以通顺的出现在译文中,且在保证专有名词准确翻译的同时,进一步保证了翻译译文里面的翻译风格和用词都符合翻译原文中各语句所属的领域,优化了机器翻译的结果,提高了翻译准确度。
示例性的,领域特征确定模块420具体可以用于:
根据待翻译原文和/或用户输入的领域信息,确定待翻译原文的领域特征。
示例性的,领域特征确定模块420还具体可以用于:
根据待翻译原文生成领域特征识别向量;和/或,
根据用户输入的领域修正信息生成领域特征修正向量。
示例性的,融合译文生成模块430具体可以用于:
根据所述待翻译原文的领域特征对各领域翻译译文特征进行加权融合,生成领域融合译文。
示例性的,上述装置还可以包括:
模型训练模块,用于在确定待翻译原文的领域特征,并根据待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文之前,采用样本原文和样本领域融合译文对基础领域特征识别模型和基础多领域融合模型进行训练,得到领域特征识别模型和多领域融合模型;
其中,基础多领域融合模型的输入是基础领域特征识别模型的输出,以及样本原文的各领域翻译译文特征,基础多领域融合模型的输出是样本领域融合译文。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图,图5示出了适于用来实现本发明实施例实施方式的示例性设备的框图。图5显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的辅助机器翻译方法。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时可实现上述任意实施例所述的辅助机器翻译方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种辅助机器翻译方法,其特征在于,包括:
采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;
确定所述待翻译原文的领域特征,并根据所述待翻译原文的领域特征对所述各领域翻译译文特征进行加权融合,生成领域融合译文;
所述各领域翻译译文特征用于表征所述待翻译原文在各领域的翻译情况;
所述领域特征是一种用于表示领域信息的向量,且该向量中每一维度值用于表征所述待翻译原文所属该领域的概率。
2.根据权利要求1所述的方法,其特征在于,确定所述待翻译原文的领域特征,包括:
根据所述待翻译原文和/或用户输入的领域信息,确定待翻译原文的领域特征。
3.根据权利要求2所述的方法,其特征在于,根据所述待翻译原文和/或用户输入的领域信息,确定待翻译原文的领域特征,包括:
根据所述待翻译原文生成领域特征识别向量;和/或,
根据用户输入的领域修正信息生成领域特征修正向量。
4.根据权利要求1-3中任一所述的方法,其特征在于,确定所述待翻译原文的领域特征,并根据所述待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文之前,还包括:
采用样本原文和样本领域融合译文对基础领域特征识别模型和基础多领域融合模型进行训练,得到领域特征识别模型和多领域融合模型;
其中,所述基础多领域融合模型的输入是所述基础领域特征识别模型的输出,以及样本原文的各领域翻译译文特征,所述基础多领域融合模型的输出是所述样本领域融合译文。
5.一种辅助机器翻译装置,其特征在于,包括:
译文特征确定模块,用于采用各领域翻译模型对待翻译原文进行翻译,得到各领域翻译译文特征;
领域特征确定模块,用于确定所述待翻译原文的领域特征;
融合译文生成模块,用于根据所述待翻译原文的领域特征对所述各领域翻译译文特征进行加权融合,生成领域融合译文;
所述各领域翻译译文特征用于表征所述待翻译原文在各领域的翻译情况;
所述领域特征是一种用于表示领域信息的向量,且该向量中每一维度值用于表征所述待翻译原文所属该领域的概率。
6.根据权利要求5所述的装置,其特征在于,所述领域特征确定模块具体用于:
根据所述待翻译原文和/或用户输入的领域信息,确定待翻译原文的领域特征。
7.根据权利要求6所述的装置,其特征在于,所述领域特征确定模块还具体用于:
根据所述待翻译原文生成领域特征识别向量;和/或,
根据用户输入的领域修正信息生成领域特征修正向量。
8.根据权利要求5-7中任一所述的装置,其特征在于,还包括:
模型训练模块,用于在确定所述待翻译原文的领域特征,并根据所述待翻译原文的领域特征和各领域翻译译文特征,生成领域融合译文之前,采用样本原文和样本领域融合译文对基础领域特征识别模型和基础多领域融合模型进行训练,得到领域特征识别模型和多领域融合模型;
其中,所述基础多领域融合模型的输入是所述基础领域特征识别模型的输出,以及样本原文的各领域翻译译文特征,所述基础多领域融合模型的输出是所述样本领域融合译文。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一项所述的辅助机器翻译方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的辅助机器翻译方法。
CN201811542798.7A 2018-12-17 2018-12-17 辅助机器翻译方法、装置、设备及存储介质 Active CN109408834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811542798.7A CN109408834B (zh) 2018-12-17 2018-12-17 辅助机器翻译方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811542798.7A CN109408834B (zh) 2018-12-17 2018-12-17 辅助机器翻译方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109408834A CN109408834A (zh) 2019-03-01
CN109408834B true CN109408834B (zh) 2022-06-10

Family

ID=65459650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811542798.7A Active CN109408834B (zh) 2018-12-17 2018-12-17 辅助机器翻译方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109408834B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918685B (zh) * 2019-03-18 2023-10-17 百度在线网络技术(北京)有限公司 计算机辅助翻译方法、装置、计算机设备及存储介质
CN110046332B (zh) * 2019-04-04 2024-01-23 远光软件股份有限公司 一种相似文本数据集生成方法及装置
CN112686060B (zh) * 2020-12-29 2024-04-30 中国科学技术大学 文本翻译方法、装置、电子设备和存储介质
CN112818712B (zh) * 2021-02-23 2024-06-11 语联网(武汉)信息技术有限公司 基于翻译记忆库的机器翻译方法及装置
WO2023243946A1 (en) * 2022-06-14 2023-12-21 Samsung Electronics Co., Ltd. Machine translation method, devices, and storage media

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649282A (zh) * 2015-10-30 2017-05-10 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN108415906A (zh) * 2018-03-28 2018-08-17 中译语通科技股份有限公司 基于领域自动识别篇章机器翻译方法、机器翻译系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026425B2 (en) * 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649282A (zh) * 2015-10-30 2017-05-10 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN108415906A (zh) * 2018-03-28 2018-08-17 中译语通科技股份有限公司 基于领域自动识别篇章机器翻译方法、机器翻译系统

Also Published As

Publication number Publication date
CN109408834A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109408834B (zh) 辅助机器翻译方法、装置、设备及存储介质
CN109558597B (zh) 文本翻译方法及装置、设备及存储介质
CN108985358B (zh) 情绪识别方法、装置、设备及存储介质
JP2021089705A (ja) 翻訳品質を評価するための方法と装置
US11709893B2 (en) Search method, electronic device and storage medium
CN109599095B (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
CN107861954B (zh) 基于人工智能的信息输出方法和装置
US9766868B2 (en) Dynamic source code generation
CN109558604B (zh) 一种机器翻译方法、装置、电子设备及存储介质
US9619209B1 (en) Dynamic source code generation
US9575965B2 (en) Translation assessment based on computer-generated subjective translation quality score
US11100297B2 (en) Provision of natural language response to business process query
CN109710951B (zh) 基于翻译历史的辅助翻译方法、装置、设备及存储介质
CN111144210A (zh) 图像的结构化处理方法及装置、存储介质及电子设备
CN110554875A (zh) 代码转换方法及装置、电子设备、存储介质
WO2024146328A1 (zh) 翻译模型的训练方法、翻译方法及设备
CN111597800A (zh) 同义句的获取方法及装置、设备及存储介质
US20220198153A1 (en) Model training
CN111104796B (zh) 用于翻译的方法和装置
CN112711943B (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
CN108932225A (zh) 用于将自然语言需求转换成为语义建模语言语句的方法和系统
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN111382577B (zh) 文档翻译方法、装置、电子设备、及存储介质
CN113032469B (zh) 文本结构化模型训练、医疗文本结构化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant