CN108932231B - 机器翻译方法及装置 - Google Patents

机器翻译方法及装置 Download PDF

Info

Publication number
CN108932231B
CN108932231B CN201710386617.5A CN201710386617A CN108932231B CN 108932231 B CN108932231 B CN 108932231B CN 201710386617 A CN201710386617 A CN 201710386617A CN 108932231 B CN108932231 B CN 108932231B
Authority
CN
China
Prior art keywords
sample
document
translation
preset
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710386617.5A
Other languages
English (en)
Other versions
CN108932231A (zh
Inventor
涂兆鹏
刘晓华
李航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710386617.5A priority Critical patent/CN108932231B/zh
Priority to PCT/CN2018/088387 priority patent/WO2018214956A1/zh
Priority to EP18806246.7A priority patent/EP3617908A4/en
Publication of CN108932231A publication Critical patent/CN108932231A/zh
Priority to US16/694,239 priority patent/US20200089774A1/en
Application granted granted Critical
Publication of CN108932231B publication Critical patent/CN108932231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种机器翻译方法及装置,属于通信网络技术领域。所述方法包括:获取待翻译的源文档,所述源文档包括源语种的至少一个字符;分别通过多个机器翻译装置,将所述源文档转换为多个目标文档,其中,一个机器翻译装置用于将所述源文档翻译为一个目标文档,所述目标文档包括目标语种的至少一个字符,所述源语种和所述目标语种不同;分别确定每个目标文档的每个预设特征的特征值;根据所述每个目标文档的每个预设特征的特征值,确定所述每个目标文档的推荐度;根据所述每个目标文档的推荐度,输出推荐度最高的目标文档。本公开由于通过多个机器翻译装置翻译目标文档,根据每个目标文档的推荐度,输出目标文档,从而提高了机器翻译的准确性。

Description

机器翻译方法及装置
技术领域
本公开涉及通信网络技术领域,特别涉及一种机器翻译方法及装置。
背景技术
随着社会科技与经济的高速发展,不同语种之间的信息交流已经成为信息交往中的重要组成部分,随之而来的对各种语言服务,尤其是翻译服务的需求也越来越广泛。然而目前翻译人员尤其是高端翻译人员严重紧缺;并且,翻译人员在进行翻译时,需要花费大量的时间来查询和翻译专业词汇,导致翻译的效率低以及成本高。因此,机器翻译作为一种自动翻译方法,已经成为辅助人工翻译的重要工具;其中,机器翻译是指通过机器翻译装置进行自动翻译的翻译方法。
目前,机器翻译装置包括统计机器翻译装置和神经网络机器翻译装置。现有技术中进行机器翻译时,通过统计机器翻译装置进行翻译,或者通过神经网络机器翻译装置进行翻译。其中,通过统计机器翻译装置进行翻译的过程可以为:将待翻译的源文档拆分成至少一个短语,分别对每个短语进行翻译,得到每个译文片段,将每个译文片段拼接成目标文档。通过神经网络机器翻译装置进行翻译的过程可以为:将待翻译的源文档中的每个句子向量化,将向量化后的每个句子在网络中层层传递,转化为计算机可以理解的表示形式,再经过多层复杂的传导运算,生成目标文档。
在实现本公开的过程中,发明人发现现有技术至少存在以下问题:
统计机器翻译装置是将每个译文片段拼接成目标文档,导致目标文档流畅度低;而神经网络机器翻译装置生成的译文不能完全反映源文档的意思,经常出现遗漏翻译或者过度翻译等情况,导致翻译的忠实度低。由此可见,上述机器翻译方法的准确性差。
发明内容
为了解决现有技术的问题,本公开实施例提供了一种机器翻译方法及装置。所述技术方案如下:
第一方面,提供了一种机器翻译方法,所述方法包括:
获取待翻译的源文档,所述源文档包括源语种的至少一个字符;
分别通过多个机器翻译装置,将所述源文档转换为多个目标文档,其中,一个机器翻译装置用于将所述源文档翻译为一个目标文档,所述目标文档包括目标语种的至少一个字符,所述源语种和所述目标语种不同;
分别确定每个目标文档的每个预设特征的特征值,其中,任一目标文档的任一所述预设特征的特征值用于评估所述任一目标文档的流畅度和/或忠实度;
根据所述每个目标文档的每个预设特征的特征值,确定所述每个目标文档的推荐度;
根据所述每个目标文档的推荐度,输出推荐度最高的目标文档。
在本公开实施例中,通过多个机器翻译装置,将源文档转换为目标文档,确定每个目标文档的推荐度,输出推荐度最高的目标文档;由于通过多个机器翻译装置翻译目标文档,根据每个目标文档的推荐度,输出目标文档,从而提高了机器翻译的准确性。
在一种可能的实现方式中,所述根据所述每个目标文档的每个预设特征的特征值,确定所述每个目标文档的推荐度,包括:
分别根据所述每个目标文档的每个预设特征的特征值、所述每个预设特征的基准特征权重和基准特征偏置,通过预设推荐度算法,确定所述每个目标文档的推荐度,所述每个预设特征的基准特征权重和基准特征偏置为根据第一样本文档集合和第一样本译文集合训练得到的,所述第一样本文档集合包括待翻译的至少一个样本文档,所述第一样本译文集合包括每个样本文档对应的参考译文。
在本公开实施例中,根据每个目标文档的每个预设特征的特征值、每个预设特征的基准特征权重和基准特征偏置,通过预设推荐度算法,确定每个目标文档的推荐度。由于结合了每个预设特征的基准特征权重和基准特征偏置,因此,可以提高确定出的每个目标文档的推荐度,进而根据每个目标文档的推荐度,输出目标文档,提高了机器翻译的准确性。
在一种可能的实现方式中,所述根据所述每个目标文档的每个预设特征的特征值,确定所述每个目标文档的推荐度之前,所述方法还包括:
获取所述第一样本文档集合和所述第一样本译文集合;
根据所述第一样本文档集合,确定第二样本译文集合,所述第二样本译文集合包括所述每个样本文档对应的样本译文;
根据所述第一样本译文集合和所述第二样本译文集合,确定第一错误推荐率;
根据所述第一错误推荐率、所述每个预设特征的初始特征权重和初始特征偏置,确定所述每个预设特征的基准特征权重和基准特征偏置。
在本公开实施例中,通过第一样本文档集合和第一样本译文集合,训练出每个预设特征的基准特征权重和基准特征偏置,提高了确定出的每个预设特征的基准特征权重和基准特征偏置的准确性。
在一种可能的实现方式中,所述根据所述第一样本文档集合,确定第二样本译文集合,包括:
分别通过所述多个机器翻译装置,将所述第一样本文档集合中的每个样本文档转换为多个样本译文集合,其中,一个样本译文集合包括一个机器翻译装置将所述每个样本文档翻译为所述目标语种的至少一个样本译文;
分别确定所述多个样本译文集合中的每个样本译文的每个预设特征的特征值;
根据所述每个样本译文的每个预设特征的特征值、所述每个预设特征的初始特征权重和初始特征偏置,确定所述每个样本译文的推荐度;
根据所述每个样本译文的推荐度,确定所述第二样本译文集合。
在一种可能的实现方式中,所述根据所述第一错误推荐率、所述每个预设特征的初始特征权重和初始特征偏置,确定所述每个预设特征的基准特征权重和基准特征偏置,包括:
如果所述第一错误推荐率满足预设条件,将所述每个预设特征的初始特征权重、初始特征偏置分别确定为所述每个预设特征的基准特征权重和基准特征偏置;或者,
如果所述第一错误推荐率不满足预设条件,通过预设迭代算法,更新所述每个预设特征的初始特征权重和初始特征偏置,直到第二错误推荐率满足预设条件,所述第二错误推荐率为根据更新后的初始特征权重和更新后的初始特征偏置确定得到的,将所述第二错误推荐率满足预设条件时的特征权重和特征偏置确定为所述每个预设特征的基准特征权重和基准特征偏置。
在本公开实施例中,根据第一错误推荐率和预设迭代算法,确定每个预设特征的基准特征权重和基准特征偏置,提高了确定出的每个预设特征的基准特征权重和基准特征偏置的准确性。
在一种可能的实现方式中,所述根据所述第一样本译文集合和第二样本译文集合,确定第一错误推荐率,包括:
根据所述第一样本译文集合和所述第二样本译文集合,确定第三样本译文集合和第二样本文档集合,所述第三样本译文集合包括所述第一样本译文集合和所述第二样本译文集合中不同的样本译文,所述第二样本文档集合包括所述不同的样本译文对应的样本文档;
根据所述第三样本译文集合中的每个样本译文的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐系数;
确定第一样本数目和第二样本数目之间的样本数目比值,所述第一样本数目为所述第二样本文档集合包括的样本文档的数目,所述第二样本数目为所述第一样本文档集合包括的样本文档的数目;
确定所述样本数目比值与所述第二样本文档集合中的每个样本文档的推荐系数的乘积,得到所述第一错误推荐率。
在本公开实施例中,结合确定第一样本数目和第二样本数目之间的样本数目比值以及第二样本文档集合中的每个样本文档的推荐度,确定第一错误推荐率,提高了确定出的第一错误推荐率的准确性。
在一种可能的实现方式中,所述根据所述第三样本译文文档集合中的每个样本译文文档的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐系数,包括:
根据所述第三样本译文集合中的每个样本译文的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐权重;
确定所述第二样本文档集合中的每个样本文档的推荐权重和预设推荐度的比值,得到所述第二样本文档集合中的每个样本文档的推荐度比值;
对于所述第二样本文档集合中的每个样本文档,确定所述样本文档的推荐权重和预设推荐度的比值,得到所述样本文档的推荐度比值,从所述样本文档的推荐度比值和预设推荐权重中选择最小值作为所述样本文档的推荐系数。
在本公开实施例中,根据第二样本文档集合中的每个样本文档的推荐度比值和预设推荐权重,确定每个样本文档的推荐系数,提高了确定出的每个样本文档的推荐系数的准确性。
在一种可能的实现方式中,所述预设特征包括第一类预设特征和/或第二类预设特征,所述第一类预设特征用于评估目标文档的流畅度,所述第二类预设特征用于评估所述目标文档的忠实度;
所述分别确定每个目标译文的每个预设特征的特征值,包括:
分别通过每个第一类预设特征的提取算法,提取所述每个目标译文的每个第一类预设特征的特征值;和/或,分别通过每个第二类预设特征的提取算法,提取所述每个目标译文的每个第二类预设特征的特征值;
将所述每个目标译文的每个第一类预设特征的特征值和/或所述每个目标译文的每个第二类预设特征的特征值组成所述每个目标特征的每个预设特征的特征值。
在本公开实施例中,预设特征包括第一类预设特征和第二类预设特征,后续结合第一类预设特征和第二类预设特征,确定每个目标文档的推荐度,提高了确定出的每个目标文档的推荐度的准确性。
第二方面,提供了一种机器翻译装置,所述装置包括:
获取单元,用于获取待翻译的源文档,所述源文档包括源语种的至少一个字符;
翻译单元,用于分别通过多个机器翻译装置,将所述源文档转换为多个目标文档,其中,一个机器翻译装置用于将所述源文档翻译为一个目标文档,所述目标文档包括目标语种的至少一个字符,所述源语种和所述目标语种不同;
确定单元,用于分别确定每个目标文档的每个预设特征的特征值,其中,任一目标文档的任一所述预设特征的特征值用于评估所述任一目标文档的流畅度和/或忠实度;
所述确定模块,还用于根据所述每个目标文档的每个预设特征的特征值,确定所述每个目标文档的推荐度;
输出单元,用于根据所述每个目标文档的推荐度,输出推荐度最高的目标文档。
在一种可能的实现方式中,所述确定单元,还用于分别根据所述每个目标文档的每个预设特征的特征值、所述每个预设特征的基准特征权重和基准特征偏置,通过预设推荐度算法,确定所述每个目标文档的推荐度,所述每个预设特征的基准特征权重和基准特征偏置为根据第一样本文档集合和第一样本译文集合训练得到的,所述第一样本文档集合包括待翻译的至少一个样本文档,所述第一样本译文集合包括每个样本文档对应的参考译文。
在一种可能的实现方式中,所述装置还包括:
所述获取单元,还用于获取所述第一样本文档集合和所述第一样本译文集合;
所述确定单元,还用于根据所述第一样本文档集合,确定第二样本译文集合,所述第二样本译文集合包括所述每个样本文档对应的样本译文;
所述确定单元,还用于根据所述第一样本译文集合和所述第二样本译文集合,确定第一错误推荐率;
所述确定单元,还用于根据所述第一错误推荐率、所述每个预设特征的初始特征权重和初始特征偏置,确定所述每个预设特征的基准特征权重和基准特征偏置。
在一种可能的实现方式中,所述翻译单元,还用于分别通过所述多个机器翻译装置,将所述第一样本文档集合中的每个样本文档转换为多个样本译文集合,其中,一个样本译文集合包括一个机器翻译装置将所述每个样本文档翻译为所述目标语种的至少一个样本译文;
所述确定单元,还用于分别确定所述多个样本译文集合中的每个样本译文的每个预设特征的特征值;根据所述每个样本译文的每个预设特征的特征值、所述每个预设特征的初始特征权重和初始特征偏置,确定所述每个样本译文的推荐度;根据所述每个样本译文的推荐度,确定所述第二样本译文集合。
在一种可能的实现方式中,所述确定单元,还用于如果所述第一错误推荐率满足预设条件,将所述每个预设特征的初始特征权重、初始特征偏置分别确定为所述每个预设特征的基准特征权重和基准特征偏置;或者,
所述确定单元,还用于如果所述第一错误推荐率不满足预设条件,通过预设迭代算法,更新所述每个预设特征的初始特征权重和初始特征偏置,直到第二错误推荐率满足预设条件,所述第二错误推荐率为根据更新后的初始特征权重和更新后的初始特征偏置确定得到的,将所述第二错误推荐率满足预设条件时的特征权重和特征偏置确定为所述每个预设特征的基准特征权重和基准特征偏置。
在一种可能的实现方式中,所述确定单元,还用于根据所述第一样本译文集合和所述第二样本译文集合,确定第三样本译文集合和第二样本文档集合,所述第三样本译文集合包括所述第一样本译文集合和所述第二样本译文集合中不同的样本译文,所述第二样本文档集合包括所述不同的样本译文对应的样本文档;根据所述第三样本译文集合中的每个样本译文的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐系数;确定第一样本数目和第二样本数目之间的样本数目比值,所述第一样本数目为所述第二样本文档集合包括的样本文档的数目,所述第二样本数目为所述第一样本文档集合包括的样本文档的数目;确定所述样本数目比值与所述第二样本文档集合中的每个样本文档的推荐系数的乘积,得到所述第一错误推荐率。
在一种可能的实现方式中,所述确定单元,还用于根据所述第三样本译文集合中的每个样本译文的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐权重;对于所述第二样本文档集合中的每个样本文档,确定所述样本文档的推荐权重和预设推荐度的比值,得到所述样本文档的推荐度比值;从所述样本文档的推荐度比值和预设推荐权重中选择最小值作为所述样本文档的推荐系数。
在一种可能的实现方式中,所述预设特征包括第一类预设特征和/或第二类预设特征,所述第一类预设特征用于评估目标文档的流畅度,所述第二类预设特征用于评估所述目标文档的忠实度;
所述确定单元,还用于分别通过每个第一类预设特征的提取算法,提取所述每个目标译文的每个第一类预设特征的特征值;和/或,分别通过每个第二类预设特征的提取算法,提取所述每个目标译文的每个第二类预设特征的特征值;
所述确定单元,还用于将所述每个目标译文的每个第一类预设特征的特征值和/或所述每个目标译文的每个第二类预设特征的特征值组成所述每个目标特征的每个预设特征的特征值。
第三方面,提供了一种机器翻译装置,所述装置包括:处理组件,其进一步包括一个或多个处理器,以及由存储器所代表的存储器资源,用于存储可由处理部件的执行的指令,例如应用程序。存储器中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件被配置为执行指令,以执行上述第一方面所述的机器翻译方法。
第四方面,提供了一种系统芯片,所述系统芯片包括输入输出接口、至少一个处理器、存储器和总线;输入输出接口通过总线与至少一个处理器和存储器相连,输入输出接口用于获取待翻译的源文档以及输出目标文档,至少一个处理器执行存储器中存储的指令,使得机器翻译系统执行上述第一方面所述的机器翻译方法。
第五方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如第一方面任一实现方式所述的机器翻译方法。
本公开实施例提供的技术方案带来的有益效果是:在本公开实施例中,通过多个机器翻译装置,将目标文档转换为目标文档,确定每个目标文档的推荐度,输出推荐度最高的目标文档;由于通过多个机器翻译装置翻译目标文档,根据每个目标文档的推荐度,输出目标文档,从而提高了机器翻译的准确性。
附图说明
图1是本公开实施例提供的机器翻译系统的示意图;
图2是本公开实施例提供的机器翻译方法流程图;
图3是本公开实施例提供的机器翻译方法流程图;
图4是本公开实施例提供的机器翻译装置结构示意图;
图5是本公开实施例提供的机器翻译装置的框图;
图6是本公开实施例提供的系统芯片的框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本公开实施例提供了一种机器翻译系统,参见图1,该机器翻译系统包括:推荐装置10和多个机器翻译装置20;每个机器翻译装置20与推荐装置10连接。其中,每个机器翻译装置20与推荐装置10可以通过有线连接,也可以通过无线连接。
每个机器翻译装置20用于接收待翻译的源文档,将源文档转换为目标文档,并将目标文档发送至推荐装置10。其中,多个机器翻译装置20可以为多种类型的机器翻译装置,例如,多个机器翻译装置20包括统计机器翻译装置20或者神经网络机器翻译装置20。
推荐装置10用于接收每个机器翻译装置20发送的目标文档,分别确定每个目标文档的每个预设特征的特征值,其中,任一目标文档的任一预设特征的特征值用于评估任一目标文档的流畅度和/或忠实度,根据每个目标文档的每个预设特征的特征值,确定每个目标文档的推荐度。
推荐装置10还用于根据每个目标文档的推荐度,输出推荐度最高的目标文档。
其中,源文档包括源语种的至少一个字符,目标文档包括目标语种的至少一个字符,源语种和目标语种不同。源语种和目标语种都可以根据需要进行设置并更改,在本公开实施例中,对源语种不作具体限定。例如,源语种可以为汉语、英语、日语或者法语等。目标语种可以为英语、日语或者法语等。
在本公开实施例中,推荐装置在确定每个目标文档的推荐度时,分别确定每个目标文档的每个预设特征的特征值,任一预设特征的特征值用于评估目标文档的流畅度和/或忠实度;根据每个目标文档的每个预设特征的特征值、每个预设特征的基准特征权重和基准特征偏置,通过预设推荐度算法,确定每个目标文档的推荐度。因此,在通过本公开实施例提供的机器翻译方法之前,机器翻译系统需要确定每个预设特征的基准特征权重和基准特征偏置。参见图2,机器翻译系统确定每个预设特征的基准特征权重和基准特征偏置的过程包括:
步骤201:机器翻译系统获取第一样本文档集合和第一样本译文集合,第一样本文档集合包括待翻译的至少一个样本文档,第一样本译文集合包括每个样本文档对应的参考译文。
为了训练推荐装置的参数(每个预设特征的基准特征权重和基准特征偏置),用户通过机器翻译系统翻译源文档之前,机器翻译系统获取样本数据,该样本数据包括第一样本文档集合和第一样本译文集合。第一样本文档集合包括待翻译的至少一个样本文档,第一样本译文集合包括第一样本集合中的每个样本文档对应的参考译文。其中,参考译文是指标准译文。
在本步骤之前,用户标注至少一个样本文档,向机器翻译系统输入至少一个样本文档,机器翻译系统接收用户输入的至少一个样本文档,将至少一个样本文档组成第一样本文档集合。
机器翻译系统获取第一样本文档集合之后,对于第一样本文档集合中的每个样本文档,分别通过多个机器翻译装置,将该样本文档转换为多个样本译文。对于每个样本文档对应的多个样本译文,用户根据该样本文档对应的多个样本译文,从该多个样本译文中标注参考译文;机器翻译系统获取用户标注的该样本文档的参考译文,将每个样本文档对应的参考译文组成第一样本译文集合。
需要说明的是,每个样本文档包括源语种的至少一个字符,样本译文包括目标语种的至少一个字符;源语种和目标语种不同。其中,源语种可以根据需要进行设置并更改,在本公开实施例中,对源语种不作具体限定;例如,源语种可以为汉语、英语、日语或者法语等。目标语种可以根据需要进行设置并更改,在本公开实施例中,对目标语种不作具体限定;例如,目标语种可以为英语、日语或者法语等。
步骤202:机器翻译系统根据第一样本文档集合,确定第二样本译文集合,第二样本译文集合包括每个样本文档对应的样本译文。
第二样本译文集合为机器翻译系统翻译每个样本文档并推荐样本译文得到的样本译文集合。本步骤可以通过以下步骤2021-2024实现,包括:
步骤2021:机器翻译系统通过多个机器翻译装置,将第一样本文档集合中的每个样本文档转换为多个样本译文集合。
一个样本译文集合包括一个机器翻译装置将每个样本文档翻译为目标语种的至少一个样本译文;对于每个机器翻译装置,该机器翻译装置将第一样本文档集合中的每个样本文档转换为至少一个样本译文,将转换得到的至少一个样本译文组成样本译文集合。
例如,第一样本文档集合中包括样本文档A、样本文档B和样本文档C;机器翻译装置分别为神经网络翻译装置和统计翻译装置;则神经网络翻译装置分别将样本文档A、样本文档B和样本文档C转换为目标语种的样本译文,得到样本译文A1、样本译文B1和样本译文C1,将样本译文A1、样本译文B1和样本译文C1组成样本译文集合1;统计翻译装置分别将样本文档A、样本文档B和样本文档C转换为目标语种的样本译文,得到样本译文A2、样本译文B2和样本译文C2,将样本译文A2、样本译文B2和样本译文C2组成样本译文集合2。
步骤2022:机器翻译系统分别确定多个样本译文集合中的每个样本译文的每个预设特征的特征值。
预设特征包括第一类预设特征和第二类预设特征。第一类预设特征用于评估样本译文的流畅度;第二类预设特征用于评估样本译文的忠实度。其中,第一类预设特征包括译文语言模型和/或调序模型等。第二类预设特征包括未登录词、重构、译文长度、覆盖率和/或词汇化概率等。相应的,本步骤可以为:
机器翻译系统分别通过每个第一类预设特征的提取算法,提取每个样本译文的每个第一类预设特征的特征值;和/或,通过每个第二预设特征的提取算法,提取每个样本译文的每个第二类预设特征的特征值。机器翻译系统将每个样本译文的每个第一类预设特征的特征值和/或每个样本译文的每个第二类预设特征的特征值组成每个样本译文的每个预设特征的特征值。
对于多个样本译文集合中的每个样本译文;预设特征包括译文语言模型时,机器翻译系统获取该样本译文的预设特征的特征值的步骤可以为:
机器翻译系统获取该样本译文的译文语言模型得分。其中,译文语言模型得分越高,译文越流畅,质量越好。
预设特征包括调序模型时,机器翻译系统获取该样本译文的预设特征的特征值的步骤可以为:
机器翻译系统获取该样本译文的调序模型得分。其中,统计翻译装置的一个主要问题是调序困难,导致译文一般是顺序拼接,给人以机器翻译的感觉;而神经网络翻译装置这方面就做的很好,译文顺畅。所以通过获取样本译文的调序模型得分,调序模型得分越高,译文质量就越好。
预设特征包括未登录词时,机器翻译系统获取该样本译文的预设特征的特征值的步骤可以为:
机器翻译系统获取该样本译文中的未登录词数量。其中,未登录词是指未被翻译的词;未登录词时神经网络翻译装置的一个重要问题,未登录词一般是由样本文档中的不常见词引起的,该类词出现次数较少,很难被机器翻译系统翻译,而未登录词在神经网络翻译装置中问题更严重。一般来说,未登录词在样本译文中出现的数量越多,样本译文的质量越差。
预设特征包括重构时,预设特征的特征值即为重构得分,则机器翻译系统获取该样本译文的预设特征的特征值的步骤可以为:
该样本译文包括目标语种的至少一个字符;机器翻译系统将该样本译文翻译为源语种,得到重构文档,该重构文档包括源语种的至少一个字符;计算该样本文档和该重构文档之间的相似度,将该相似度确定为该样本译文的重构得分。
其中,机器翻译系统将该样本译文翻重新翻译为原文,得到重构文档,通过该样本文档和该重构文档的相似度,得到该样本译文的重构得分;重构得分是一种很好的评价样本译文忠实度的指标,一般来说,样本译文的重构得分越高,表示该样本译文的忠实度越高,质量越好。
预设特征包括译文长度,预设特征的特征值即为译文长度得分,则机器翻译系统获取该样本译文的预设特征的特征值的步骤可以为:
机器翻译系统根据该样本译文对应的样本文档包括的字符数,获取该样本译文包括的基准字符数,将该样本译文包括的字符数与该基准字符数之间的差值确定为该样本译文的译文长度得分。
机器翻译系统存储样本文档包括的字符数和译文文档包括的基准字符数的对应关系;相应的,机器翻译系统根据该样本译文对应的样本文档包括的字符数,获取该样本译文包括的基准字符数的步骤可以为:
机器翻译系统根据该样本译文对应的样本文档包括的字符数,从样本文档包括的字符数和译文文档包括的基准字符数的对应关系中获取该样本文档包括的基准字符数。
由于不同语种的样本译文包括的基准字符数可能不同;因此,机器翻译系统还可以结合目标语种,获取该样本译文包括的基准字符数;相应的,机器翻译系统根据该样本译文对应的样本文档包括的字符数,获取该样本译文包括的基准字符数的步骤可以为:
机器翻译系统根据该样本译文对应的样本文档包括的字符数和目标语种,获取该样本译文包括的基准字符数。
机器翻译系统存储样本文档包括的字符数、目标语种和译文文档包括的基准字符数的对应关系;相应的,机器翻译系统根据该样本译文对应的样本文档包括的字符数和目标语种,获取该样本译文包括的基准字符数的步骤可以为:
机器翻译系统根据该样本译文对应的样本文档包括的字符数和目标语种,从样本文档包括的字符数、目标语种和译文文档包括的基准字符数的对应关系中,获取该样本译文包括的基准字符数。
其中,针对神经网络翻译装置的遗漏翻译导致样本译文偏短的特点,在本公开实施例中,通过译文长度可以在一定程度上评估该样本译文是否存在漏译现象;一般情况下,对于同一样本文档,神经网络翻译装置翻译该样本文档得到的样本译文的译文长度与统计翻译装置翻译该样本文档得到的样本译文的译文长度相近时,神经网络翻译装置不太可能出现漏译现象。
预设特征包括覆盖率时,预设特征的特征值即为该覆盖率的值;则机器翻译系统获取该样本译文的预设特征的特征值的步骤可以为:
机器翻译系统获取第一词语数目和第二词语数目,第一词语数目为该样本文档包括的词语的数目,第二词语数目样本文档中已翻译的词语数目;机器翻译系统计算第二词语数目与第一词语数目的比值,将该比值确定为该样本译文的覆盖率。
其中,覆盖率为样本文档被翻译的比例;该覆盖率是针对神经网络翻译装置经常出现的漏译现象设计的,一般来说,样本译文的覆盖率越高,样本译文的质量越好。
预设特征包括词汇化概率时,预设特征的特征值即为该词汇化概率的值;则机器翻译系统获取该样本译文的预设特征的特征值的步骤可以为:
机器翻译系统计算该样本文档和该样本译文之间的匹配度,将该匹配度确定为该样本译文的词汇率。
机器翻译系统将该样本译文翻译为源语种,得到重构文档,该重构文档包括源语种的至少一个字符;计算该样本译文的覆盖率以及该重构文档的覆盖率,将该样本译文的覆盖率和该重构文档的覆盖率之和确定为该样本译文的词汇率。
步骤2023:机器翻译系统根据每个样本译文的每个预设特征的特征值、每个预设特征的初始特征权重和初始特征偏置,确定每个样本译文的推荐度。
机器翻译系统根据每个样本文档的每个预设特征的特征值、每个预设特征的初始特征权重和初始特征偏置,通过预设推荐度算法,确定每个样本译文的推荐度。
预设推荐度算法可以根据需要进行设置并更改,在本公开实施例中,对预设推荐度算法不作具体限定;例如,预设推荐度算法可以为多层感知机算法(MultiLayerPerceptron,MLP)或者人工神经网络算法(Aritificial Neural Network,ANN)等。
当预设推荐度算法为MLP时,本步骤可以为:
对于每个样本文档,机器翻译系统根据该样本文档的每个预设特征的特征值、每个预设特征的初始特征权重和初始特征偏置,通过以下公式一,确定每个样本文档的推荐度。
公式一:f(x)=G(b(2)+W(2)(s(b(1)+W(1)x)))
其中,f(x)为该样本译文的推荐度,x为预设特征的特征值;b(1)和b(2)分别为两个预设特征的初始特征权重,W(1)和W(2)别为两个预设特征的初始特征偏置。
步骤2024:机器翻译系统根据每个样本译文的推荐度,确定第二样本译文集合。
对于每个样本文档,机器翻译系统根据该样本文档对应的每个样本译文的推荐度,从该样本文档对应的每个样本译文中选择推荐度最高的样本译文,将每个样本文档对应的推荐度最高的样本译文组成第二样本译文集合。
步骤203:机器翻译系统根据第一样本译文集合和第二样本译文集合,确定第一错误推荐率。
本步骤可以通过以下第一种方式或者第二种方式实现;对于第一种实现方式,本步骤可以为:
机器翻译系统确定第一样本数目和第二样本数目,第一样本数目为第一样本译文集合(或者第二样本译文集合)包括的样本译文的数目,第二样本数目为第一样本译文集合和第二样本译文集合中不相同的样本译文的数目;将第二样本数目和第一样本数目的比值确定为第一错误推荐率。
对于第二种实现方式,本步骤可以通过以下步骤2031-2034实现,包括:
步骤2031:机器翻译系统根据第一样本译文集合和第二样本译文集合,确定第三样本译文集合和第二样本文档集合。
其中,第三样本译文集合包括第一样本译文集合和第二样本译文集合中不同的样本译文,第二样本文档集合包括不同的样本译文对应的样本文档,也即第二样本文档集合包括第三样本译文集合中的每个样本译文对应的样本文档。
步骤2032:机器翻译系统根据第三样本译文集合中的每个样本译文的推荐度,确定第二样本文档集合中的每个样本文档的推荐系数。
第三样本译文集合中的一个样本译文对应第二样本文档集合中的多个样本文档;在本步骤中,对于第三样本译文集合中的每个样本文档,机器翻译系统根据第三样本译文集合中的每个样本译文的推荐度,确定第二样本文档集合中的每个样本文档的推荐权重。对于第二样本文档集合中的每个样本文档,确定该样本文档的推荐权重和预设推荐度的比值,得到该样本文档的推荐度比值,从该样本文档的推荐度比值和预设推荐权重中选择最小值作为该样本文档的推荐系数。
预设推荐度和预设推荐权重可以根据需要进行设置并更改,在本公开实施例中,对预设推荐度和预设推荐权重不作具体限定。例如,预设推荐度为40或者20,预设推荐权重可以为0.8或者1等。
例如,机器翻译装置包括神经网络翻译装置和统计翻译装置;预设推荐度为40,预设推荐权重为1;样本文档A对应的样本译文分别为样本译文A1和样本译文A2;样本译文A1的推荐度为1,样本译文A2的推荐度为21,则机器翻译系统计算样本译文A1的推荐度和样本译文A2的推荐度之差,得到推荐度差值为20;确定推荐度差值和预设推荐度的比值为0.5,从0.5和1(预设推荐权重)中选择最小值0.5作为该样本文档的推荐系数。
在传统的分类模型中,每个翻译装置的是同等重要的;然如果每个翻译装置得到的样本译文的推荐度相差不大,此时即使分类错误,对推荐结果影响也不大;如果每个翻译装置得到的样本译文相差较大,此时如果分类错误,对推荐结果影响较大;因此,在本公开实施例中,机器翻译系统确定每个样本文档的推荐系数,后续结合每个样本文档的推荐系数确定基准特征权重和基准特征偏置,提高了确定出的基准特征权重和基准特征偏置的准确性。
步骤2033:机器翻译系统确定第一样本数目和第二样本数目之间的样本数目比值。
机器翻译系统获取第一样本数目和第二样本数目,确定第一样本数目和第二样本数目之间的样本数目比值。其中,第一样本数目为第二样本文档集合包括的样本文档的数目,第二样本数目为第一样本文档集合包括的样本文档的数目。
步骤2034:机器翻译系统确定样本数目比值与第二样本文档集合中的每个样本文档的推荐系数的乘积,得到第一错误推荐率。
步骤204:机器翻译系统根据该第一错误推荐率、每个预设特征的初始特征权重和初始特征偏置,确定每个预设特征的基准特征权重和基准特征偏置。
机器翻译系统确定该第一错误推荐率是否满足预设条件;如果该第一错误推荐率满足预设条件,将每个预设特征的初始特征权重、初始特征偏置分别确定为每个预设特征的基准特征权重和基准特征偏置。
如果该第一错误推荐率不满足预设条件,通过预设迭代算法,更新每个预设特征的初始特征权重和初始特征偏置,根据更新后的初始特征权重和更新后的初始特征偏置,确定第二错误推荐率,确定第二错误推荐率是否满足预设条件;如果第二错误推荐率满足预设条件,将此时的每个预设特征的特征权重和特征偏置分别确定为每个预设特征的基准特征权重和基准特征偏置。如果第二错误推荐率不满足预设条件,再次更新每个预设特征的初始特征权重和初始特征偏置,直到第二错误推荐率满足预设条件。
预设条件可以为错误率低于第一预设阈值或者相邻两次得到的错误推荐率之间的差值第二预设阈值;第一预设阈值和第二预设阈值可以相等,也可以不相等;并且,第一预设阈值和第二预设阈值都可以根据需要进行设置并更改,在本公开实施例中,对第一预设阈值和第二预设阈值都不作具体限定。例如,第一预设阈值为0.2或者0.3,第二预设阈值可以为0.1或者0.15等。
在本公开实施例中,通过第一样本文档集合和第一样本译文集合,训练出每个预设特征的基准特征权重和基准特征偏置,提高了确定出的每个预设特征的基准特征权重和基准特征偏置的准确性。
本公开实施例提供了一种机器翻译方法,该方法应用在机器翻译系统中,参见图3,该方法包括:
步骤301:机器翻译系统获取待翻译的源文档,源文档包括源语种的至少一个字符。
当用户对源文档进行翻译时,用户终端向机器翻译系统发送该待翻译的源文档;机器翻译系统接收用户终端发送的该源文档。
步骤302:机器翻译系统分别通过多个机器翻译装置,将源文档转换为多个目标文档。
其中,一个机器翻译装置用于将源文档翻译为一个目标文档;目标文档包括目标语种的至少一个字符,源语种和目标语种不同。
步骤303:机器翻译系统分别确定每个目标文档的每个预设特征的特征值,其中,任一目标文档的任一预设特征的特征值用于评估任一目标文档的流畅度或者忠实度。
预设特征包括第一类预设特征和第二类预设特征,第一类预设特征用于评估目标文档的流畅度,第二类预设特征用于评估目标文档的忠实度;相应的,本步骤可以为:
机器翻译系统分别通过每个第一类预设特征的提取算法,提取每个目标译文的每个第一类预设特征的特征值;和/或,分别通过每个第二类预设特征的提取算法,提取每个目标译文的每个第二类预设特征的特征值;
将每个目标译文的每个第一类预设特征的特征值和/或每个目标译文的每个第二类预设特征的特征值组成每个目标特征的每个预设特征的特征值。
需要说明的是,本步骤和步骤2022中机器翻译系统确定样本译文的每个预设特征的特征值的过程相同,在此不再赘述。
步骤304:机器翻译系统根据每个目标文档的每个预设特征的特征值、每个预设特征的特征权重和特征偏置,通过预设推荐度算法,确定每个目标文档的推荐度。
需要说明的是,本步骤和步骤2023中机器翻译系统根据每个样本文档的每个预设特征的特征值、每个预设特征的初始特征权重和初始特征偏置,确定每个样本译文的推荐度的过程相同,在此不再赘述。
步骤305:机器翻译系统根据每个目标文档的推荐度,输出推荐度最高的目标文档。
机器翻译系统根据每个目标文档的推荐度,从每个目标文档中选择推荐度最高的目标文档,输出推荐度最高的目标文档。
在本公开实施例中,通过多个机器翻译装置,将目标文档转换为目标文档,确定每个目标文档的推荐度,输出推荐度最高的目标文档;由于通过多个机器翻译装置翻译目标文档,根据每个目标文档的推荐度,输出目标文档,从而提高了机器翻译的准确性。
本公开实施例提供了一种机器翻译装置,参见图4,该装置包括:获取单元401、翻译单元402、确定单元403和输出单元404。
获取单元401用于执行上述步骤201和301及其可选方案。
翻译单元402用于执行上述步骤302及其可选方案。
确定单元403用于执行上述步骤202、203、204、303和304及其可选方案。
输出单元404用于执行上述步骤305及其可选方案。
在本公开实施例中,通过多个机器翻译装置,将目标文档转换为目标文档,确定每个目标文档的推荐度,输出推荐度最高的目标文档;由于通过多个机器翻译装置翻译目标文档,根据每个目标文档的推荐度,输出目标文档,从而提高了机器翻译的准确性。
需要说明的是:上述实施例提供的机器翻译装置在机器翻译时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的机器翻译装置与机器翻译方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是根据一示例性实施例示出的一种机器翻译装置500的框图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理部件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述机器翻译方法。
装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开实施例提供了一种系统芯片,应用于机器翻译系统中,参见图6,该系统芯片包括:输入输出接口601、至少一个处理器602、存储器603和总线604;输入输出接口601通过总线604与至少一个处理器602和存储器603相连,输入输出接口601用于获取待翻译的源文档以及输出目标文档,至少一个处理器602执行存储器603中存储的指令,使得机器翻译系统执行上述机器翻译方法。
在一个可能的实现方式中,上述各个实施例中的处理器可以是中央处理器(CPU),通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC),现场可编程门阵列(FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。
结合本公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于终端中。当然,处理器和存储介质也可以作为分立组件存在于终端中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (9)

1.一种机器翻译方法,其特征在于,所述方法包括:
获取待翻译的源文档,所述源文档包括源语种的至少一个字符;
分别通过多个机器翻译装置,将所述源文档转换为多个目标文档,其中,一个机器翻译装置用于将所述源文档翻译为一个目标文档,所述目标文档包括目标语种的至少一个字符,所述源语种和所述目标语种不同;
分别确定每个目标文档的每个预设特征的特征值,其中,任一目标文档的任一所述预设特征的特征值用于评估所述任一目标文档的流畅度和/或忠实度;
获取第一样本文档集合和第一样本译文集合,所述第一样本文档集合包括待翻译的至少一个样本文档,所述第一样本译文集合包括每个样本文档对应的参考译文;
分别通过所述多个机器翻译装置,将所述第一样本文档集合中的每个样本文档转换为多个样本译文集合,一个样本译文集合包括一个机器翻译装置将所述每个样本文档翻译为所述目标语种的至少一个样本译文;分别确定所述多个样本译文集合中的每个样本译文的每个预设特征的特征值;根据所述每个样本译文的每个预设特征的特征值、所述每个预设特征的初始特征权重和初始特征偏置,确定所述每个样本译文的推荐度;根据所述每个样本译文的推荐度,确定第二样本译文集合,所述第二样本译文集合包括所述每个样本文档对应的样本译文;
根据所述第一样本译文集合和所述第二样本译文集合,确定第三样本译文集合和第二样本文档集合,所述第三样本译文集合包括所述第一样本译文集合和所述第二样本译文集合中不同的样本译文,所述第二样本文档集合包括所述不同的样本译文对应的样本文档;根据所述第三样本译文集合中的每个样本译文的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐系数;确定第一样本数目和第二样本数目之间的样本数目比值,所述第一样本数目为所述第二样本文档集合包括的样本文档的数目,所述第二样本数目为所述第一样本文档集合包括的样本文档的数目;确定所述样本数目比值与所述第二样本文档集合中的每个样本文档的推荐系数的乘积,得到第一错误推荐率;
如果所述第一错误推荐率满足预设条件,将所述每个预设特征的初始特征权重、初始特征偏置分别确定为所述每个预设特征的基准特征权重和基准特征偏置;
分别根据所述每个目标文档的每个预设特征的特征值、所述每个预设特征的基准特征权重和基准特征偏置,通过预设推荐度算法,确定所述每个目标文档的推荐度;
根据所述每个目标文档的推荐度,输出推荐度最高的目标文档。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述第一错误推荐率不满足预设条件,通过预设迭代算法,更新所述每个预设特征的初始特征权重和初始特征偏置,直到第二错误推荐率满足预设条件,所述第二错误推荐率为根据更新后的初始特征权重和更新后的初始特征偏置确定得到的,将所述第二错误推荐率满足预设条件时的特征权重和特征偏置确定为所述每个预设特征的基准特征权重和基准特征偏置。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第三样本译文集合中的每个样本译文的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐系数,包括:
根据所述第三样本译文集合中的每个样本译文的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐权重;
对于所述第二样本文档集合中的每个样本文档,确定所述样本文档的推荐权重和预设推荐度的比值,得到所述样本文档的推荐度比值,从所述样本文档的推荐度比值和预设推荐权重中选择最小值作为所述样本文档的推荐系数。
4.根据权利要求1所述的方法,其特征在于,所述分别确定每个目标文档的每个预设特征的特征值,包括:
分别通过每个第一类预设特征的提取算法,提取所述每个目标文档的每个第一类预设特征的特征值;和/或,分别通过每个第二类预设特征的提取算法,提取所述每个目标文档的每个第二类预设特征的特征值;
将所述每个目标文档的每个第一类预设特征的特征值和/或所述每个目标文档的每个第二类预设特征的特征值组成所述每个目标文档的每个预设特征的特征值。
5.一种机器翻译装置,其特征在于,所述装置包括:
获取单元,用于获取待翻译的源文档,所述源文档包括源语种的至少一个字符;
翻译单元,用于分别通过多个机器翻译装置,将所述源文档转换为多个目标文档,其中,一个机器翻译装置用于将所述源文档翻译为一个目标文档,所述目标文档包括目标语种的至少一个字符,所述源语种和所述目标语种不同;
确定单元,用于分别确定每个目标文档的每个预设特征的特征值,其中,任一目标文档的任一所述预设特征的特征值用于评估所述任一目标文档的流畅度和/或忠实度;
所述获取单元,还用于获取第一样本文档集合和第一样本译文集合,所述第一样本文档集合包括待翻译的至少一个样本文档,所述第一样本译文集合包括每个样本文档对应的参考译文;
所述翻译单元,还用于分别通过所述多个机器翻译装置,将所述第一样本文档集合中的每个样本文档转换为多个样本译文集合,一个样本译文集合包括一个机器翻译装置将所述每个样本文档翻译为所述目标语种的至少一个样本译文;
所述确定单元,还用于分别确定所述多个样本译文集合中的每个样本译文的每个预设特征的特征值;根据所述每个样本译文的每个预设特征的特征值、所述每个预设特征的初始特征权重和初始特征偏置,确定所述每个样本译文的推荐度;根据所述每个样本译文的推荐度,确定第二样本译文集合,所述第二样本译文集合包括所述每个样本文档对应的样本译文;
所述确定单元,还用于根据所述第一样本译文集合和所述第二样本译文集合,确定第三样本译文集合和第二样本文档集合,所述第三样本译文集合包括所述第一样本译文集合和所述第二样本译文集合中不同的样本译文,所述第二样本文档集合包括所述不同的样本译文对应的样本文档;根据所述第三样本译文集合中的每个样本译文的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐系数;确定第一样本数目和第二样本数目之间的样本数目比值,所述第一样本数目为所述第二样本文档集合包括的样本文档的数目,所述第二样本数目为所述第一样本文档集合包括的样本文档的数目;确定所述样本数目比值与所述第二样本文档集合中的每个样本文档的推荐系数的乘积,得到第一错误推荐率;
所述确定单元,还用于如果所述第一错误推荐率满足预设条件,将所述每个预设特征的初始特征权重、初始特征偏置分别确定为所述每个预设特征的基准特征权重和基准特征偏置;
所述确定单元,还用于分别根据所述每个目标文档的每个预设特征的特征值、所述每个预设特征的基准特征权重和基准特征偏置,通过预设推荐度算法,确定所述每个目标文档的推荐度;
输出单元,用于根据所述每个目标文档的推荐度,输出推荐度最高的目标文档。
6.根据权利要求5所述的装置,其特征在于,
所述确定单元,还用于如果所述第一错误推荐率不满足预设条件,通过预设迭代算法,更新所述每个预设特征的初始特征权重和初始特征偏置,直到第二错误推荐率满足预设条件,所述第二错误推荐率为根据更新后的初始特征权重和更新后的初始特征偏置确定得到的,将所述第二错误推荐率满足预设条件时的特征权重和特征偏置确定为所述每个预设特征的基准特征权重和基准特征偏置。
7.根据权利要求5所述的装置,其特征在于,
所述确定单元,还用于根据所述第三样本译文集合中的每个样本译文的推荐度,确定所述第二样本文档集合中的每个样本文档的推荐权重;对于所述第二样本文档集合中的每个样本文档,确定所述样本文档的推荐权重和预设推荐度的比值,得到所述样本文档的推荐度比值;从所述样本文档的推荐度比值和预设推荐权重中选择最小值作为所述样本文档的推荐系数。
8.根据权利要求5所述的装置,其特征在于,所述确定单元,还用于分别通过每个第一类预设特征的提取算法,提取所述每个目标文档的每个第一类预设特征的特征值;和/或,分别通过每个第二类预设特征的提取算法,提取所述每个目标文档的每个第二类预设特征的特征值;
所述确定单元,还用于将所述每个目标文档的每个第一类预设特征的特征值和/或所述每个目标文档的每个第二类预设特征的特征值组成所述每个目标文档的每个预设特征的特征值。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4任一所述的机器翻译方法。
CN201710386617.5A 2017-05-26 2017-05-26 机器翻译方法及装置 Active CN108932231B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710386617.5A CN108932231B (zh) 2017-05-26 2017-05-26 机器翻译方法及装置
PCT/CN2018/088387 WO2018214956A1 (zh) 2017-05-26 2018-05-25 机器翻译方法、装置及存储介质
EP18806246.7A EP3617908A4 (en) 2017-05-26 2018-05-25 AUTOMATIC TRANSLATION METHOD AND APPARATUS, AND INFORMATION MEDIUM
US16/694,239 US20200089774A1 (en) 2017-05-26 2019-11-25 Machine Translation Method and Apparatus, and Storage Medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710386617.5A CN108932231B (zh) 2017-05-26 2017-05-26 机器翻译方法及装置

Publications (2)

Publication Number Publication Date
CN108932231A CN108932231A (zh) 2018-12-04
CN108932231B true CN108932231B (zh) 2023-07-18

Family

ID=64396250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710386617.5A Active CN108932231B (zh) 2017-05-26 2017-05-26 机器翻译方法及装置

Country Status (4)

Country Link
US (1) US20200089774A1 (zh)
EP (1) EP3617908A4 (zh)
CN (1) CN108932231B (zh)
WO (1) WO2018214956A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558604B (zh) * 2018-12-17 2022-06-14 北京百度网讯科技有限公司 一种机器翻译方法、装置、电子设备及存储介质
CN111104807B (zh) * 2019-12-06 2024-05-24 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326598B1 (en) * 2007-03-26 2012-12-04 Google Inc. Consensus translations from multiple machine translation systems
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7209875B2 (en) * 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation
US9201871B2 (en) * 2010-06-11 2015-12-01 Microsoft Technology Licensing, Llc Joint optimization for machine translation system combination
CN102789451B (zh) * 2011-05-16 2015-06-03 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法
US9141606B2 (en) * 2012-03-29 2015-09-22 Lionbridge Technologies, Inc. Methods and systems for multi-engine machine translation
JP2014078132A (ja) * 2012-10-10 2014-05-01 Toshiba Corp 機械翻訳装置、方法およびプログラム
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置
US10067936B2 (en) * 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326598B1 (en) * 2007-03-26 2012-12-04 Google Inc. Consensus translations from multiple machine translation systems
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统

Also Published As

Publication number Publication date
EP3617908A4 (en) 2020-05-13
US20200089774A1 (en) 2020-03-19
CN108932231A (zh) 2018-12-04
EP3617908A1 (en) 2020-03-04
WO2018214956A1 (zh) 2018-11-29

Similar Documents

Publication Publication Date Title
US20200226328A1 (en) Translation method, target information determining method, related apparatus, and storage medium
WO2022048173A1 (zh) 基于人工智能的客户意图识别方法、装置、设备及介质
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
US9552355B2 (en) Dynamic bi-phrases for statistical machine translation
CN107861954B (zh) 基于人工智能的信息输出方法和装置
WO2023241410A1 (zh) 数据处理方法、装置、设备及计算机介质
JP6090531B2 (ja) 単語訳取得方法
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
US11288460B2 (en) Translation support system, etc
CN110874536B (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN111539199A (zh) 文本的纠错方法、装置、终端、及存储介质
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN108932231B (zh) 机器翻译方法及装置
CN111597807A (zh) 分词数据集生成方法、装置、设备及其存储介质
WO2022022049A1 (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
WO2021098491A1 (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN113947091A (zh) 用于语言翻译的方法、设备、装置和介质
CN111814496A (zh) 文本处理方法、装置、设备及存储介质
CN112052648A (zh) 一种字串翻译方法、装置、电子设备及存储介质
CN111581987A (zh) 疾病分类编码识别方法、装置及存储介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN114970470A (zh) 文案信息处理方法、装置、电子设备和计算机可读介质
CN115115432A (zh) 基于人工智能的产品信息推荐方法及装置
CN114297409A (zh) 模型训练方法、信息抽取方法及装置、电子设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant