CN113191163B - 一种翻译方法、翻译装置、翻译设备以及存储介质 - Google Patents

一种翻译方法、翻译装置、翻译设备以及存储介质 Download PDF

Info

Publication number
CN113191163B
CN113191163B CN202110560294.3A CN202110560294A CN113191163B CN 113191163 B CN113191163 B CN 113191163B CN 202110560294 A CN202110560294 A CN 202110560294A CN 113191163 B CN113191163 B CN 113191163B
Authority
CN
China
Prior art keywords
word
translated
sentence
original
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110560294.3A
Other languages
English (en)
Other versions
CN113191163A (zh
Inventor
程善伯
王明轩
李磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202110560294.3A priority Critical patent/CN113191163B/zh
Publication of CN113191163A publication Critical patent/CN113191163A/zh
Priority to PCT/CN2022/092392 priority patent/WO2022242535A1/zh
Application granted granted Critical
Publication of CN113191163B publication Critical patent/CN113191163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种翻译方法、翻译装置、翻译设备以及存储介质,首先确定与第一原文语句在语义上相似的第二原文语句,之后确定在第一原文语句和第二原文语句中都出现的目标原词,若目标原词在第一原文语句和第二原文语句中的译词不同,则根据目标原词被翻译为第一译词或第二译词的概率确定目标原词的目标译词。由此可见,本申请实施例的翻译方法不仅利用了第二原文语句的第二译文语句的信息,还采用了第二原文语句的信息,根据第二原文语句和第一原文语句的相似词汇信息,对第一原文语句的翻译进行校正,能够增大翻译的准确性。

Description

一种翻译方法、翻译装置、翻译设备以及存储介质
技术领域
本申请涉及机器学习领域,尤其涉及一种翻译方法、翻译装置、翻译设备以及存储介质。
背景技术
随着计算机技术的快速发展,机器学习领域也有了很多的技术进步。在机器学习领域主要是通过训练神经网络模型来代替重复的人工操作。当前机器学习也可以应用到翻译领域,可以训练神经网络模型来进行翻译。
神经网络机器翻译(Neural Machine Translation,NMT)翻译质量较高,已经成为当前最广泛的机器翻译技术。主要的翻译过程如下:将原文语句s输入NMT中,NMT中的编码器(encoder)将原文语句s编码为向量,之后将原文语句s的向量进行模型计算得到原文语句s的译文语句t的向量,利用解码器(decoder)对译文语句t的向量进行解码,得到译文语句t。
但是,现有技术中进行翻译时,存在翻译的过程中出现翻译不准确的问题。
发明内容
为了解决现有技术在翻译的过程中出现翻译不准确的问题,本申请实施例提供了一种翻译方法,能够提高翻译的准确性。
本申请实施例提供一种翻译方法,所述方法包括:
获取目标句对,所述目标句对包括第一原文语句和第一译文语句,所述第一译文语句为所述第一原文语句的译文;
根据所述第一原文语句获取参考句对,所述参考句对包括第二原文语句和第二译文语句,所述第二原文语句和所述第一原文语句在语义上相似,所述第二译文语句为所述第二原文语句的译文;
确定所述第一原文语句中的目标原词,所述目标原词为既出现在所述第一原文语句中又出现在所述第二原文语句中的词;
响应于第一译词和第二译词不同,根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,所述第一译词为所述目标原词在所述第一译文语句中对应的词,所述第二译词为所述目标原词在所述第二译文语句中对应的词,所述第一概率为所述目标原词在所述第一译文语句中被翻译为所述第一译词的概率,所述第二概率为所述目标原词在所述第二译文语句中被翻译为所述第二译词的概率;
根据所述目标原词的目标译词确定所述第一原文语句的目标译文语句。
可选的,所述根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括下述至少一项:
响应于所述第一概率小于所述第二概率,将所述第二译词确定为所述目标原词的目标译词;
响应于所述第一概率大于所述第二概率,将所述第一译词确定为所述目标原词的目标译词;
响应于所述第一概率等于所述第二概率,将所述第一译词或所述第二译词确定为所述目标原词的目标译词。
可选的,所述方法还包括:
将所述第一原文语句输入到翻译模型中,得到所述第一概率。
可选的,所述方法还包括:
将所述第二原文语句和所述第二译文语句输入到所述翻译模型中,得到所述第二概率。
可选的,所述根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括:
根据所述第二概率和第三概率得到第四概率,所述第三概率为将所述第一原文语句输入到所述翻译模型中得到的所述目标原词被翻译为所述第二译词的概率;
根据所述第一概率和所述第四概率确定所述目标原词的目标译词。
本申请实施例还提供一种翻译装置,所述装置包括:
第一获取单元,用于获取目标句对,所述目标句对包括第一原文语句和第一译文语句,所述第一译文语句为所述第一原文语句的译文;
第二获取单元,用于根据所述第一原文语句获取参考句对,所述参考句对包括第二原文语句和第二译文语句,所述第二原文语句和所述第一原文语句在语义上相似,所述第二译文语句为所述第二原文语句的译文;
第一确定单元,用于确定所述第一原文语句中的目标原词,所述目标原词为既出现在所述第一原文语句中又出现在所述第二原文语句中的词;
第二确定单元,用于响应于第一译词和第二译词不同,根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,所述第一译词为所述目标原词在所述第一译文语句中对应的词,所述第二译词为所述目标原词在所述第二译文语句中对应的词,所述第一概率为所述目标原词在所述第一译文语句中被翻译为所述第一译词的概率,所述第二概率为所述目标原词在所述第二译文语句中被翻译为所述第二译词的概率;
第三确定单元,用于根据所述目标原词的目标译词确定所述第一原文语句的目标译文语句。
可选的,所述第二确定单元根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括下述至少一项:
所述第二确定单元响应于所述第一概率小于所述第二概率,将所述第二译词确定为所述目标原词的目标译词;
所述第二确定单元响应于所述第一概率大于所述第二概率,将所述第一译词确定为所述目标原词的目标译词;
所述第二确定单元响应于所述第一概率等于所述第二概率,将所述第一译词或所述第二译词确定为所述目标原词的目标译词。
可选的,所述装置还包括:
第一输入单元,用于将所述第一原文语句输入到翻译模型中,得到所述第一概率。
可选的,所述装置还包括:
第二输入单元,用于将所述第二原文语句和所述第二译文语句输入到所述翻译模型中,得到所述第二概率。
可选的,所述第二确定单元根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括:
所述第二确定单元根据所述第二概率和第三概率得到第四概率,所述第三概率为将所述第一原文语句输入到所述翻译模型中得到的所述目标原词被翻译为所述第二译词的概率;
所述第二确定单元根据所述第一概率和所述第四概率确定所述目标原词的目标译词。
本申请实施例还提供一种翻译设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令;
所述处理器,用于执行所述存储器中的所述指令,执行如上述实施例所述的方法。
本申请实施例还提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述实施例所述的方法。
本申请实施例中提供的翻译方法,首先确定与第一原文语句在语义上相似的第二原文语句,之后确定在第一原文语句和第二原文语句中都出现的目标原词,若目标原词在第一原文语句和第二原文语句中的译词不同,则根据目标原词被翻译为第一译词或第二译词的概率确定目标原词的目标译词。由此可见,本申请实施例的翻译方法不仅利用了第二原文语句的第二译文语句的信息,还采用了第二原文语句的信息,根据第二原文语句和第一原文语句的相似词汇信息,对第一原文语句的翻译进行校正,能够增大翻译的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种翻译方法实施例的流程图;
图2为本申请实施例提供的一种翻译矩阵的示意图;
图3为本申请实施例提供的一种翻译装置的结构框图;
图4为本申请实施例提供的一种翻译设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着计算机技术的快速发展,机器学习领域也有了很多的技术进步。在机器学习领域主要是通过训练神经网络模型来代替重复的人工操作。当前机器学习也可以应用到翻译领域,可以训练神经网络模型来进行翻译。
神经网络机器翻译(Neural Machine Translation,NMT)翻译质量较高,已经成为当前最广泛的机器翻译技术。主要的翻译过程如下:将原文语句s输入NMT中,NMT中的编码器(encoder)将原文语句s编码为向量,之后寻找与原文语句s语义相似的相似语句s',得到相似语句s'的相似译文语句t',NMT中引入额外的一个编码器(encoder)将相似译文语句t'编码为向量,将原文语句s的向量和相似译文语句t'进行模型计算得到原文语句s的译文语句t的向量,利用解码器(decoder)对译文语句t的向量进行解码,得到译文语句t。
经发明人研究发现,现有技术中进行翻译时,只会参考相似译文语句t'的信息,而忽略了原文语句s的相似语句s'的信息,会导致在翻译的过程中出现翻译不准确的问题。并且,现有技术中进行翻译需要额外引入一个新的encoder对相似译文语句t'进行编码,增加了模型计算过程中的参数数量,翻译成本增加。若要考虑相似语句s'的信息,则还需要重新训练翻译模型,时间消耗过大。
因此,本申请实施例提供一种翻译方法,首先确定与第一原文语句在语义上相似的第二原文语句,之后确定在第一原文语句和第二原文语句中都出现的目标原词,若目标原词在第一原文语句和第二原文语句中的译词不同,则根据目标原词被翻译为第一译词或第二译词的概率确定目标原词的目标译词。由此可见,本申请实施例的翻译方法不仅利用了第二原文语句的第二译文语句的信息,还采用了第二原文语句的信息,根据第二原文语句和第一原文语句的相似词汇信息,对第一原文语句的翻译进行校正,能够增大翻译的准确性。此外,本申请实施例中的翻译方法不需要在翻译模型中引入新的encoder对译文语句t'编码为向量,降低了翻译成本,增大了翻译效率。
参见图1,该图为本申请实施例提供的一种翻译方法的流程图。
本实施例提供的翻译方法包括如下步骤:
S101,获取目标句对。
在本申请的实施例中,首先获取目标句对,目标句对是经过翻译模型进行翻译之后的句对。目标句对包括第一原文语句和第一译文语句,第一译文语句是第一原文语句经翻译模型进行翻译后得到的语句,第一译文语句可能会有翻译错误。
作为一种示例,第一原文语句可以是“她是一个来自中国的学生”,第一译文语句可以是“She is a student to China”,其中,第一译文语句中的词to翻译错误。
本申请实施例应用的翻译模型可以为神经网络机器翻译(Neural MachineTranslation,NMT)模型。
S102,根据所述第一原文语句获取参考句对。
在本申请的实施例中,根据第一原文语句获取参考句对,参考句对包括第二原文语句和第二译文语句,其中,第二译文语句是第一原文语句的译文,第二译文语句是第一原文语句的正确译文。第一原文语句与第二原文语句在语义上相似,可以在翻译记忆库中查询与第一原文语句语义相似的第二原文语句。
在实际应用中,第一原文语句和第二原文语句在语义上相似。语义上相似可以有以下两种实现方式:第一种实现方式是通过比较得知第一原文语句和第二原文语句中相似词汇的比例,当相似词汇达到预定的比例,即认为第一原文语句和第二原文语句在语义上相似;第二种实现方式是将第一原文语句和第二原文语句编码为向量之后,计算向量之间的相似度,当向量之间的相似度达到预定的比例,即认为第一原文语句和第二原文语句在语义上相似。
作为一种示例,第一原文语句可以是“她是一个来自中国的学生”,第一译文语句可以是“She is a student to China”;第二原文语句可以是“他是一个来自美国的老师”,第二译文语句可以是“He is a teacher from America”。
S103,确定所述第一原文语句中的目标原词。
在本申请的实施例中,目标原词为既出现在第一原文语句又出现在第二原文语句中的词,因此,在确定与第一原文语句的语义相似的第二原文语句之后,可以比较第一原文语句和第二原文语句中的词,将既出现在第一原文语句中又出现在第二原文语句中的词,确定为目标原词。
在实际应用中,在确定第一原文语句中的目标原词时,可以对第一原文语句和第二原文语句进行逐个词汇比较,得到既出现在第一原文语句中又出现在第二原文语句中的词。
作为一种示例,第一原文语句可以是“她是一个来自中国的学生”,第二原文语句可以是“他是一个来自美国的老师”。通过逐个词汇的比较可以确定第一原文语句中的目标原词有“是”、“一个”、“来自”和“的”。
也可以不采用逐个词汇比较的方式确定目标原词,例如将第一原文语句和第二原文语句按照语法进行分割,得到几个部分,对比第一原文语句和第二原文语句相应的部分,确定目标原词。S104,响应于第一译词和第二译词不同,根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词。
在本申请的实施例中,第一译词为目标原词在第一译文语句中对应的词,第二译词为目标原词在第二译文语句中对应的词,第一概率为目标原词在第一译文语句中被翻译为第一译词的概率,第二概率为目标原词在第二译文语句中被翻译为第二译词的概率。在本申请的实施例中,目标原词在第一译文语句中的第一译词和在第二译文语句中的第二译词可能不同,此时可以根据目标原词在第一译文语句中被翻译为第一译词的第一概率和在第二译文语句中被翻译为第二译词的第二概率,确定目标原词的目标译词,目标译词为目标原词对应的正确的翻译词。在实际应用中,第一概率是将第一原文语句输入到翻译模型得到的。主要的翻译过程如下:将第一原文语句输入到翻译模型中,翻译模型中的编码器(encoder)将第一原文语句编码为向量,进行翻译得到第一译文语句的向量,利用解码器(decoder)对第一译文语句的向量进行解码,得到第一译文语句,此时目标原词在第一译文语句中被翻译为第一译词的概率为第一概率。
在实际应用中,第二概率是将第二原文语句和第二译文语句输入到翻译模型得到的。将第二原文语句和第二译文语句输入翻译模型,翻译模型对第二原文语句和第二译文语句进行强制解码,即将第二原文语句和第二译文语句编码为向量,得到目标原词在第二原文语句中被翻译为第二译词的第二概率。由此可见,本申请实施例中的翻译方法不需要在翻译模型中引入新的encoder对第二译文语句编码为向量,只需要利用翻译模型中原本具有的encoder和decoder对第二原文语句和第二译文语句进行强制解码,即可得到第二概率,也就是本申请实施例的方法降低了翻译成本,增大了翻译效率。
参考表1所示,为将第一原文语句输入到翻译模型,得到第一原文语句中的词被翻译的概率。
表1
She is a student to China
0.8 0.02 0.02 0.02 0.02 0.02
0.02 0.8 0.02 0.02 0.02 0.02
一个 0.1 0.1 0.7 0.03 0.03 0.04
来自 0.05 0.01 0.01 0.1 0.5 0.08
中国 0.02 0.02 0.02 0.02 0.02 0.9
0.1 0.2 0.13 0.15 0.15 0.1
学生 0.02 0.02 0.02 0.9 0.02 0.02
由表1可以看出,第一原文语句中的目标原词“一个”被翻译为“a”的第一概率为0.7,第一原文语句中的目标原词“来自”被翻译为“to”的第一概率为0.5,第一原文语句中的目标原词“来自”被翻译为“from”的概率为0.3,也就是说,由于将第一原文语句输入翻译模型,得到第一原文语句中的词“来自”被翻译为“to”的概率最大,为0.5,因此翻译模型在翻译第一原文语句的时候翻译错误,将“来自”错误的翻译为了“to”。
参考表2或图2所示,为将第二原文语句和第二译文语句输入到翻译模型,得到第二原文语句中的词被翻译为第二译文语句中的词的概率。
表2
He is a teacher from America
0.8 0.02 0.02 0.02 0.02 0.02
0.02 0.8 0.02 0.02 0.02 0.02
一个 0.1 0.1 0.7 0.03 0.03 0.04
来自 0.05 0.01 0.01 0.1 0.8 0.08
美国 0.02 0.02 0.02 0.02 0.02 0.9
0.1 0.2 0.13 0.15 0.15 0.1
老师 0.02 0.02 0.02 0.9 0.02 0.02
由表2可以看出,第二原文语句中的词“他”被翻译为“He”的概率为0.8,第二原文语句中的目标原词“一个”被翻译为“a”的第二概率为0.7,第一原文语句中的目标原词“来自”被翻译为“from”的第二概率为0.8。
在本申请的实施例中,确定目标原词的目标译词可以有以下两种实现方式:
在第一种可能的实现方式中,根据目标原词的第一概率和第二概率确定目标原词的目标译词可以有以下三种情况:
第一种情况为第一概率小于第二概率,将第二译词确定为目标原词的目标译词。也就是说,若目标原词翻译为第一译词的概率小于翻译为第二译词的概率,则目标译词为第二译词。
作为一种示例,将目标原词“来自”翻译为第一译词“to”的第一概率为0.5,将目标原词“来自”翻译为第二译词“from”的第二概率为0.8,第一概率0.5小于第二概率0.8,则确定目标原词“来自”的目标译词为第二译词“from”。
第二种情况为第一概率大于第二概率,将第一译词确定为目标原词的目标译词。也就是说,若目标原词翻译为第一译词的概率大于翻译为第二译词的概率,则目标译词为第一译词。
作为一种示例,将目标原词“来自”翻译为第一译词“to”的第一概率为0.8,将目标原词“来自”翻译为第二译词“from”的第二概率为0.5,第一概率0.8大于第二概率0.5,则确定目标原词“来自”的目标译词为第一译词“to”。
第三种情况为第一概率等于第二概率,将第一译词或第二译词确定为目标原词的目标译词。也就是说,若目标原词翻译为第一译词的概率等于翻译为第二译词的概率,则目标译词为第一译词或第二译词。
作为一种示例,将目标原词“来自”翻译为第一译词“to”的第一概率为0.7,将目标原词“来自”翻译为第二译词“from”的第二概率为0.7,第一概率0.7等于第二概率0.7,则确定目标原词“来自”的目标译词为第一译词“to”或第二译词“from”。
在第二种可能的实现方式中,根据第二概率和第三概率得到第四概率,根据第一概率和第四概率确定目标原词的目标译词,其中,第三概率为将第一原文语句输入到翻译模型中得到的目标原词被翻译为第二译词的概率。在实际应用中,可以将第二概率和第三概率加权求和,得到第四概率。通过利用第二概率和第三概率得到第四概率的方式来辅助确定目标译词,能够增强本申请实施例提供的翻译方法的翻译质量。
在实际应用中,可以比较第一概率和第四概率的大小,将较大的概率对应的译词确定为目标译词。若第一概率小于第四概率,则将第四概率对应的第二译词确定为目标译词;若第一概率大于第四概率,则将第一概率对应的第一译词确定为目标译词;若第一概率等于第四概率,则将第一概率对应的第一译词确定为目标译词或将第四概率对应的第二译词确定为目标译词。
作为一种示例,将第一原文语句输入到翻译模型中,目标原词“来自”被翻译为第一译词“to”的第一概率为0.5,目标原词“来自”被翻译为第二译词“from”的第三概率为0.3,将第二原文语句输入到翻译模型中,目标原词“来自”被翻译为第二译词“from”的第二概率为0.8。将第二概率0.8和第三概率0.3加权求和,得到第四概率,即第四概率=(0.8+0.3)×0.5=0.55,第四概率0.55大于第一概率0.5,则将第四概率对应的第二译词“from”确定为目标译词。
S105,根据所述目标原词的目标译词确定所述第一原文语句的目标译文语句。
在本申请的实施例中,可以根据确定的目标原词的目标译词,确定第一原文语句的目标译文语句。
作为一种示例,若目标原词“来自”翻译为第一译词“to”的第一概率小于目标原词“来自”翻译为第二译词“from”的第二概率,则确定目标原词“来自”的目标译词为第二译词“from”,将第一译文语句中的第一译词“to”修正为第二译词“from”,得到目标译文语句。
本申请实施例提供一种翻译方法,首先确定与第一原文语句在语义上相似的第二原文语句,之后确定在第一原文语句和第二原文语句中都出现的目标原词,若目标原词在第一原文语句和第二原文语句中的译词不同,则根据目标原词被翻译为第一译词或第二译词的概率确定目标原词的目标译词。由此可见,本申请实施例的翻译方法不仅利用了第二原文语句的第二译文语句的信息,还采用了第二原文语句的信息,根据第二原文语句和第一原文语句的相似词汇信息,对第一原文语句的翻译进行校正,能够增大翻译的准确性。此外,本申请实施例中的翻译方法不需要在翻译模型中引入新的encoder对译文语句t'编码为向量,降低了翻译成本,增大了翻译效率。
基于以上实施例提供的一种翻译方法,本申请实施例还提供了一种翻译装置,下面结合附图来详细说明其工作原理。
参见图3,该图为本申请实施例提供的一种翻译装置的结构框图。
本实施例提供的翻译装置300包括:
第一获取单元310,用于获取目标句对,所述目标句对包括第一原文语句和第一译文语句,所述第一译文语句为所述第一原文语句的译文;
第二获取单元320,用于根据所述第一原文语句获取参考句对,所述参考句对包括第二原文语句和第二译文语句,所述第二原文语句和所述第一原文语句在语义上相似,所述第二译文语句为所述第二原文语句的译文;
第一确定单元330,用于确定所述第一原文语句中的目标原词,所述目标原词为既出现在所述第一原文语句中又出现在所述第二原文语句中的词;
第二确定单元340,用于响应于第一译词和第二译词不同,根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,所述第一译词为所述目标原词在所述第一译文语句中对应的词,所述第二译词为所述目标原词在所述第二译文语句中对应的词,所述第一概率为所述目标原词在所述第一译文语句中被翻译为所述第一译词的概率,所述第二概率为所述目标原词在所述第二译文语句中被翻译为所述第二译词的概率;
第三确定单元350,用于根据所述目标原词的目标译词确定所述第一原文语句的目标译文语句。
可选的,所述第二确定单元根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括下述至少一项:
所述第二确定单元响应于所述第一概率小于所述第二概率,将所述第二译词确定为所述目标原词的目标译词;
所述第二确定单元响应于所述第一概率大于所述第二概率,将所述第一译词确定为所述目标原词的目标译词;
所述第二确定单元响应于所述第一概率等于所述第二概率,将所述第一译词或所述第二译词确定为所述目标原词的目标译词。
可选的,所述装置还包括:
第一输入单元,用于将所述第一原文语句输入到翻译模型中,得到所述第一概率。
可选的,所述装置还包括:
第二输入单元,用于将所述第二原文语句和所述第二译文语句输入到所述翻译模型中,得到所述第二概率。
可选的,所述第二确定单元根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括:
所述第二确定单元根据所述第二概率和第三概率得到第四概率,所述第三概率为将所述第一原文语句输入到所述翻译模型中得到的所述目标原词被翻译为所述第二译词的概率;
所述第二确定单元根据所述第一概率和所述第四概率确定所述目标原词的目标译词。
基于以上实施例提供的一种翻译方法,本申请实施例还提供了一种翻译设备,翻译设备400包括:
处理器410和存储器420,处理器的数量可以一个或多个。在本申请的一些实施例中,处理器和存储器可通过总线或其它方式连接。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括NVRAM。存储器存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
处理器控制终端设备的操作,处理器还可以称为CPU。
上述本申请实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例的一种翻译方法中的任意一种实施方式。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (12)

1.一种翻译方法,其特征在于,所述方法包括:
获取目标句对,所述目标句对包括第一原文语句和第一译文语句,所述第一译文语句为所述第一原文语句的译文;
根据所述第一原文语句获取参考句对,所述参考句对包括第二原文语句和第二译文语句,所述第二原文语句和所述第一原文语句在语义上相似,所述第二译文语句为所述第二原文语句的译文;
确定所述第一原文语句中的目标原词,所述目标原词为既出现在所述第一原文语句中又出现在所述第二原文语句中的词;
响应于第一译词和第二译词不同,根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,所述第一译词为所述目标原词在所述第一译文语句中对应的词,所述第二译词为所述目标原词在所述第二译文语句中对应的词;所述第一概率是将所述第一原文语句输入到翻译模型得到的,所述翻译模型用于根据所述第一原文语句得到第一译文语句,所述第一概率为所述目标原词在所述第一译文语句中被翻译为所述第一译词的概率,所述第二概率为所述目标原词在所述第二译文语句中被翻译为所述第二译词的概率;
根据所述目标原词的目标译词确定所述第一原文语句的目标译文语句。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括下述至少一项:
响应于所述第一概率小于所述第二概率,将所述第二译词确定为所述目标原词的目标译词;
响应于所述第一概率大于所述第二概率,将所述第一译词确定为所述目标原词的目标译词;
响应于所述第一概率等于所述第二概率,将所述第一译词或所述第二译词确定为所述目标原词的目标译词。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第一原文语句输入到翻译模型中,得到所述第一概率。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第二原文语句和所述第二译文语句输入到所述翻译模型中,得到所述第二概率。
5.根据权利要求3所述的方法,其特征在于,所述根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括:
根据所述第二概率和第三概率得到第四概率,所述第三概率为将所述第一原文语句输入到所述翻译模型中得到的所述目标原词被翻译为所述第二译词的概率;
根据所述第一概率和所述第四概率确定所述目标原词的目标译词。
6.一种翻译装置,其特征在于,所述装置包括:
第一获取单元,用于获取目标句对,所述目标句对包括第一原文语句和第一译文语句,所述第一译文语句为所述第一原文语句的译文;
第二获取单元,用于根据所述第一原文语句获取参考句对,所述参考句对包括第二原文语句和第二译文语句,所述第二原文语句和所述第一原文语句在语义上相似,所述第二译文语句为所述第二原文语句的译文;
第一确定单元,用于确定所述第一原文语句中的目标原词,所述目标原词为既出现在所述第一原文语句中又出现在所述第二原文语句中的词;
第二确定单元,用于响应于第一译词和第二译词不同,根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,所述第一译词为所述目标原词在所述第一译文语句中对应的词,所述第二译词为所述目标原词在所述第二译文语句中对应的词;所述第一概率是将所述第一原文语句输入到翻译模型得到的,所述翻译模型用于根据所述第一原文语句得到第一译文语句,所述第一概率为所述目标原词在所述第一译文语句中被翻译为所述第一译词的概率,所述第二概率为所述目标原词在所述第二译文语句中被翻译为所述第二译词的概率;
第三确定单元,用于根据所述目标原词的目标译词确定所述第一原文语句的目标译文语句。
7.根据权利要求6所述的装置,其特征在于,所述第二确定单元根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括下述至少一项:
所述第二确定单元响应于所述第一概率小于所述第二概率,将所述第二译词确定为所述目标原词的目标译词;
所述第二确定单元响应于所述第一概率大于所述第二概率,将所述第一译词确定为所述目标原词的目标译词;
所述第二确定单元响应于所述第一概率等于所述第二概率,将所述第一译词或所述第二译词确定为所述目标原词的目标译词。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一输入单元,用于将所述第一原文语句输入到翻译模型中,得到所述第一概率。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二输入单元,用于将所述第二原文语句和所述第二译文语句输入到所述翻译模型中,得到所述第二概率。
10.根据权利要求8所述的装置,其特征在于,所述第二确定单元根据所述目标原词的第一概率和第二概率确定所述目标原词的目标译词,包括:
所述第二确定单元根据所述第二概率和第三概率得到第四概率,所述第三概率为将所述第一原文语句输入到所述翻译模型中得到的所述目标原词被翻译为所述第二译词的概率;
所述第二确定单元根据所述第一概率和所述第四概率确定所述目标原词的目标译词。
11.一种翻译设备,其特征在于,所述设备包括:处理器和存储器;
所述存储器,用于存储指令;
所述处理器,用于执行所述存储器中的所述指令,执行如权利要求1至5中任一项所述的方法。
12.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的方法。
CN202110560294.3A 2021-05-21 2021-05-21 一种翻译方法、翻译装置、翻译设备以及存储介质 Active CN113191163B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110560294.3A CN113191163B (zh) 2021-05-21 2021-05-21 一种翻译方法、翻译装置、翻译设备以及存储介质
PCT/CN2022/092392 WO2022242535A1 (zh) 2021-05-21 2022-05-12 一种翻译方法、翻译装置、翻译设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110560294.3A CN113191163B (zh) 2021-05-21 2021-05-21 一种翻译方法、翻译装置、翻译设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113191163A CN113191163A (zh) 2021-07-30
CN113191163B true CN113191163B (zh) 2023-06-30

Family

ID=76984701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110560294.3A Active CN113191163B (zh) 2021-05-21 2021-05-21 一种翻译方法、翻译装置、翻译设备以及存储介质

Country Status (2)

Country Link
CN (1) CN113191163B (zh)
WO (1) WO2022242535A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191163B (zh) * 2021-05-21 2023-06-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401080A (zh) * 2018-12-14 2020-07-10 波音公司 神经机器翻译方法以及神经机器翻译装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
JP2008305167A (ja) * 2007-06-07 2008-12-18 Toshiba Corp 原言語文を目的言語文に機械翻訳する装置、方法およびプログラム
JP5148583B2 (ja) * 2009-10-27 2013-02-20 株式会社東芝 機械翻訳装置、方法及びプログラム
JP2014078132A (ja) * 2012-10-10 2014-05-01 Toshiba Corp 機械翻訳装置、方法およびプログラム
CN107977356B (zh) * 2017-11-21 2019-10-25 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
WO2019123854A1 (ja) * 2017-12-18 2019-06-27 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム
CN108874785B (zh) * 2018-06-01 2020-11-03 清华大学 一种翻译处理方法及系统
CN109710952B (zh) * 2018-12-27 2023-06-16 北京百度网讯科技有限公司 基于人工智能的翻译历史检索方法、装置、设备和介质
CN110175336B (zh) * 2019-05-22 2021-05-28 北京百度网讯科技有限公司 翻译方法、装置和电子设备
CN110991196B (zh) * 2019-12-18 2021-10-26 北京百度网讯科技有限公司 多义词的翻译方法、装置、电子设备及介质
CN113191163B (zh) * 2021-05-21 2023-06-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401080A (zh) * 2018-12-14 2020-07-10 波音公司 神经机器翻译方法以及神经机器翻译装置

Also Published As

Publication number Publication date
WO2022242535A1 (zh) 2022-11-24
CN113191163A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN110210043B (zh) 文本翻译方法、装置、电子设备及可读存储介质
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN110825857B (zh) 多轮问答识别方法、装置、计算机设备及存储介质
CN110309516B (zh) 机器翻译模型的训练方法、装置与电子设备
CN111859987A (zh) 文本处理方法、目标任务模型的训练方法和装置
CN110188353B (zh) 文本纠错方法及装置
CN112183111A (zh) 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN111783478B (zh) 机器翻译质量估计方法、装置、设备及存储介质
CN113191163B (zh) 一种翻译方法、翻译装置、翻译设备以及存储介质
US11694041B2 (en) Chapter-level text translation method and device
CN112528598B (zh) 基于预训练语言模型和信息论的自动化文本摘要评测方法
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN111783435A (zh) 共享词汇的选择方法、装置及存储介质
CN115841162A (zh) 语言翻译模型训练方法、电子设备及存储介质
CN115879480A (zh) 语义约束机器翻译方法、装置、电子设备及存储介质
CN115455949A (zh) 中文语法纠错方法及系统、存储介质及终端
CN114333795A (zh) 语音识别方法和装置、计算机可读存储介质
CN114417834A (zh) 文本的处理方法、装置、电子设备及可读存储介质
CN115908775A (zh) 化学结构式的识别方法、装置、存储介质及电子设备
CN114065777A (zh) 双语语料检测方法、设备以及计算机可读介质
CN113392645B (zh) 一种韵律短语边界预测方法、装置、电子设备和存储介质
CN111428500B (zh) 命名实体识别方法及装置
CN110929504A (zh) 语句诊断方法、装置和系统
CN114065776A (zh) 一种神经网络机器翻译方法及装置
CN107943795B (zh) 提高神经机器翻译准确度的方法、翻译方法及系统和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant