CN110532573A - 一种翻译方法和系统 - Google Patents

一种翻译方法和系统 Download PDF

Info

Publication number
CN110532573A
CN110532573A CN201811636517.4A CN201811636517A CN110532573A CN 110532573 A CN110532573 A CN 110532573A CN 201811636517 A CN201811636517 A CN 201811636517A CN 110532573 A CN110532573 A CN 110532573A
Authority
CN
China
Prior art keywords
content
language
sentence
translated
pretranslation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811636517.4A
Other languages
English (en)
Other versions
CN110532573B (zh
Inventor
李延
钱泓
薛虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Seven Days Of Patent Operations Management LLC
Original Assignee
Suzhou Seven Days Of Patent Operations Management LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Seven Days Of Patent Operations Management LLC filed Critical Suzhou Seven Days Of Patent Operations Management LLC
Priority to CN201811636517.4A priority Critical patent/CN110532573B/zh
Priority to CN202211100098.9A priority patent/CN115455988A/zh
Priority to US16/759,388 priority patent/US20210209313A1/en
Priority to PCT/CN2019/119249 priority patent/WO2020134705A1/zh
Publication of CN110532573A publication Critical patent/CN110532573A/zh
Application granted granted Critical
Publication of CN110532573B publication Critical patent/CN110532573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种翻译方法和系统。所述翻译方法包括:获取第一语言的待翻译内容;将待翻译内容由第一语言初步翻译为包括第二语言的预翻译内容;校正所述包括第二语言的预翻译内容;以及基于校正结果,确定最终翻译内容。本申请通过提前翻译部分待翻译内容以及校正并标识部分包括第二语言的预翻译内容,可以提高机器翻译准确率以及人工校对效率。

Description

一种翻译方法和系统
技术领域
本申请涉及机器翻译领域,特别涉及一种翻译方法和系统。
背景技术
随着科技的进步,信息量急剧增加,需要突破语言障碍,处理不同文本之间的互译。机器翻译越来越有效地帮助人们解决不同语言之间的翻译问题。但在目前,机器翻译仍存在翻译不准确的问题,例如,长难句的翻译、专业领域词语及句子的翻译等。另一方面,使用机器翻译直接翻译整篇文章时,相同的词语前后会不一致,且一篇或多篇文章中含有相同的内容时,无法保证机器翻译结果的内容一致,增加了人工校对的时间,降低了效率。因此,有必要提供一种高效、方便、提高机器翻译准确率以及人工校对效率的翻译方法和系统。
发明内容
本申请实施例之一提供一种翻译方法。所述翻译方法包括:获取第一语言的待翻译内容;将待翻译内容由第一语言初步翻译为包括第二语言的预翻译内容;校正所述包括第二语言的预翻译内容;以及基于校正结果,确定最终翻译内容。
在一些实施例中,所述将待翻译内容由第一语言初步翻译为包括第二语言的预翻译内容包括:提取所述待翻译内容中的特征语句;获取将所述特征语句由第一语言翻译为第二语言的语句对;以及基于所述特征语句的语句对,将所述待翻译内容由第一语言翻译为包括第二语言的预翻译内容。
在一些实施例中,所述校正包括第二语言的预翻译内容包括:确定所述预翻译内容中是否包含高风险语句;以及响应于所述预翻译内容中包含高风险语句,将所述高风险语句对应的第二语言的语句进行标识。
在一些实施例中,所述确定预翻译内容中是否包含高风险语句包括:判断所述预翻译内容中是否包含字数或词数超过预设阈值的语句;或判断所述预翻译内容中是否包含风险词数量超过预设阈值的语句。
在一些实施例中,将所述高风险语句的第一语言翻译为一个或多个第二语言的翻译结果;确定所述一个或多个第二语言的翻译结果的置信度,每个第二语言的翻译结果对应一个置信度;以及显示该置信度,或者基于所述一个或多个第二语言的翻译结果的置信度,确定所述高风险语句的最终翻译内容。
在一些实施例中,所述方法还包括:在预翻译内容中进行按句分段;以及在最终翻译内容中实现段落恢复。
本申请实施例之一提供一种翻译系统,包括获取模块、预翻译模块以及修订模块。所述获取模块用于获取第一语言的待翻译内容;所述预翻译模块用于将待翻译内容由第一语言初步翻译为包括第二语言的预翻译内容;以及所述修订模块用于校正所述包括第二语言的预翻译内容并且基于校正结果,确定最终翻译内容。
在一些实施例中,为了将待翻译内容由第一语言初步翻译为包括第二语言的预翻译内容,所述预翻译模块进一步用于提取所述待翻译内容中的特征语句;获取将所述特征语句由第一语言翻译为第二语言的语句对;以及基于所述特征语句的语句对,将所述待翻译内容由第一语言翻译为包括第二语言的预翻译内容。
在一些实施例中,为了校正包括第二语言的预翻译内容,所述修订模块进一步用于确定所述预翻译内容中是否包含高风险语句;以及响应于所述预翻译内容中包含高风险语句,将所述高风险语句对应的第二语言的语句进行标识。
在一些实施例中,为了确定预翻译内容中是否包含高风险语句,所述修订模块进一步用于判断所述预翻译内容中是否包含字数或词数超过预设阈值的语句;或判断所述预翻译内容中是否包含风险词数量超过预设阈值的语句。
在一些实施例中,所述预翻译模块用于将所述高风险语句的第一语言翻译为一个或多个第二语言的翻译结果。在一些实施例中,所述修订模块用于确定所述一个或多个第二语言的翻译结果的置信度,每个第二语言的翻译结果对应一个置信度;以及显示置信度或者基于所述一个或多个第二语言的翻译结果的置信度,确定所述高风险语句的最终翻译内容。
在一些实施例中,所述预翻译模块用于在预翻译内容中进行按句分段;所述修订模块用于在最终翻译内容中实现段落恢复。
本申请实施例之一提供一种翻译装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现本申请所述的翻译方法。
本申请实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行本申请所述的翻译方法。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本申请一些实施例所示的翻译系统的应用场景示意图;
图2是根据本申请一些实施例所示的翻译系统的模块图;
图3是根据本申请一些实施例所示的翻译方法的示例性流程图;
图4是根据本申请一些实施例所示的预翻译的方法的示例性流程图;
图5是根据本申请一些实施例所示的模型训练方法的示例性流程图;
图6是根据本申请一些实施例所示的一种确定最终翻译内容方法的示例性流程图;以及
图7是根据本申请一些实施例所示的部分确定最终翻译内容方法的示例性流程图。
具体实施方式
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本申请的实施例可以应用于不同的翻译系统,包括但不限于客户端、网页版等的翻译系统。本申请的不同实施例应用场景包括但不限于网页、浏览器插件、客户端、定制系统、企业内部分析系统、人工智能机器人等中的一种或几种的组合。应当理解的是,本申请的翻译系统及方法的应用场景仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。
本申请描述的“用户”、“人工”、“使用者”等是可以互换的,是指需要使用翻译系统的一方,可以是个人,也可以是工具。
图1所示为根据本申请一些实施例所示的翻译系统的应用场景示意图。
该翻译系统110可以应用于各种语言之间的翻译。所述翻译系统110可以用于翻译文本、图片、语音、视频等待翻译内容,输入第一语言的待翻译内容120,翻译为第二语言的输出内容130。所述待翻译内容可以是任何需要翻译的内容。翻译系统可能使用数据库140存储相关的语料、规则等数据。
所述第一语言可以是任何单一语言。所述第一语言可以包括中文、英文、日文、韩文等。所述第一语言可以是不同语种的官方语言或地方语言,例如,所述中文可以是简体中文和/或繁体中文,所述中文也可以是普通话或方言等(例如,广东话、四川话等)。所述第一语言还可以是相同语种的不同国家的语言,例如,英式英语和美式英语、朝鲜语和韩语等。
所述第二语言可以是最终需要转换成的单一语言。所述第二语言可以包括不同于第一语言的其他语言,例如,中文、英文、日文、韩文等。所述中文可以是简体中文和/或繁体中文。所述中文也可以是普通话或方言(例如,广东话、四川话等)。所述第二语言还可以是与第一语言属于相同语种的不同国家的语言,例如,英式英语和美式英语、朝鲜语和韩语等。
仅作为示例,在该翻译系统100中,可以将第一语言的英文翻译为第二语言的中文。可以将第一语言的简体中文翻译为第二语言的繁体中文。可以将第一语言的普通话翻译为广东话。可以将英式英语翻译为美式英语。
该翻译系统110可以包含处理设备112。在一些实施例中,翻译系统110可以用于处理与翻译相关的信息和/或数据。该处理设备112可处理与翻译有关的数据和/或信息以实现一个或多个本申请中描述的功能。一些实施例中,处理设备112可以包含一个或多个子处理设备(如:单芯处理设备或多核多芯处理设备)。仅仅作为范例,处理设备112可以包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等一种或以上任意组合。
数据库140可用于存储语料库。所述语料库指的是第一语言和相应第二语言一一对应的语言对,包括但不限于词语、短语和句子。在一些实施例中,可以输入历史翻译内容的第一语言和第二语言,处理设备112可以自动对这些语言对对齐,形成第一语言和第二语言对,将语料库传输到数据库140中。在对待翻译内容进行翻译时,处理设备112可以从数据库140中获取语料库来对与待翻译内容匹配。
图2是根据本申请一些实施例所示的翻译系统的模块图。
如图2所示,该翻译系统可以包括获取模块210、预翻译模块220、修订模块230和训练模块240。
获取模块210可以用于获取第一语言的待翻译内容。在一些实施例中,获取模块210可以获取第一语言的待翻译内容。关于获取模块210的更多描述可以参考图3的步骤310及其描述。
预翻译模块220可以用于将待翻译内容由第一语言初步翻译为第二语言得到预翻译内容。在一些实施例中,预翻译模块220可以通过提取待翻译内容的特征语句,通过语料库匹配实现第一语言翻译为第二语言。在一些实施例中,预翻译模块220可以通过使用机器学习模型将第一语言翻译为第二语言。在一些实施例中,预翻译模块220可以通过调用应用程序插件、组件、模块、接口或其他可执行程序将第一语言翻译为第二语言。
在一些实施例中,预翻译模块220可以包括特征语句提取单元、特征语句翻译单元、预翻译确定单元。
特征语句提取单元可以用于提取所述待翻译内容中的特征语句。特征语句提取单元可以根据所述待翻译内容中词语、短语或句子和语料库的匹配度、特定的规则、所述待翻译内容中词语、短语或句子出现的次数、所述待翻译内容中词语、短语或句子在全文中的相似度、以及其他人为确定的方法来提取特征语句。关于特征语句提取单元的更多描述参考步骤410及其描述。
特征语句翻译单元可以用于将所述特征语句由第一语言翻译为第二语言。关于特征语句翻译单元的更多描述参考步骤420及其描述。
预翻译确定单元可以用于基于所述特征语句的第一语言和第二语言对,将所述待翻译内容中非特征语句由第一语言翻译为第二语言得到预翻译内容。关于预翻译确定单元的更多描述参考步骤430及其描述。
在其他一些实施例中,可以使用语料库、翻译引擎(例如,谷歌翻译等)或者机器学习模型来翻译待翻译内容中的剩余内容。
修订模块230可以用于基于所述预翻译内容确定最终翻译内容。
所述修订模块230可以在预翻译内容的基础上,对包括第二语言的预翻译内容(例如,高风险语句)进行校正。校正工作可以由用户进行,也可以由程序模块进行。通过校正,确定出最终翻译内容。
修订模块230可以包括高风险语句确定单元、高风险语句修订单元、格式修订单元。
高风险语句确定单元可以基于待翻译内容确定高风险语句。例如,所述高风险语句确定单元可以基于特定规则,或者基于机器学习模型,或者基于其他方法判定高风险语句。关于高风险语句确定单元的更多描述参照步骤610及其描述。
高风险语句修订单元可以在预翻译内容中将高风险语句对应的第二语言的语句进行标识。高风险语句修订单元还可以基于高风险语句的预翻译内容,确定高风险语句的最终翻译内容。所述标识可以包括改变字体颜色、改变字体大小、改变字体样式、加符号等。关于高风险语句修订单元的更多描述参照步骤620和630及其描述。
格式修订单元可以获取最终内容的格式规则并且基于格式规则确定最终翻译内容。关于格式修订单元的更多描述可以参考图7及其描述。
训练模块240可以训练机器学习模型(例如,机器翻译模型)。训练可以基于历史翻译内容中的第一语言和第二语言的语言对。训练模块240还可以在一定时期获取更多新的语言对,并基于新的语言对训练并更新机器学习模型。关于训练模块240的更多描述可以参考图5及其描述。
应当理解,图2所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储介质中,由适当的指令执行系统。
需要注意的是,以上对于翻译系统及其模块的描述,仅为描述方便,并不能把本申请限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,例如,图2中披露的获取模块210、预翻译模块220、修订模块230和训练模块240可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,预翻译模块220、修订模块230可以是两个模块,也可以是一个模块同时具有预翻译和修订功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本申请的保护范围之内。
图3是根据本申请一些实施例所示的翻译方法的示例性流程图。在一些实施例中,翻译方法300可以由处理设备112实施。如图3所示,翻译方法300可以包括以下所述的步骤。
在步骤310,可以获取第一语言的待翻译内容(即,输入内容120)。具体地,步骤310可以由获取模块210执行。
如图1所述,所述待翻译内容可以是任何需要翻译的内容。所述第一语言可以是任何单一语言(例如,中文、英文、日文、韩文等)、不同语种的官方语言和地方语言(例如,简体中文(普通话或方言)、繁体中文)、相同语种的不同国家的语言(例如,英式英语和美式英语、朝鲜语和韩语等)等,或其任意组合。
所述待翻译内容可以是文本内容、图片内容、语音内容、视频内容等,或其任意组合。在一些实施例中,所述待翻译内容还可以是一个或多个词语、一句话、一段话、多段话、一篇文章等。在一些实施例中,所述待翻译内容可以是全部为第一语言的内容或者第一语言和其他语言混合的内容,例如“我的电脑有USB接口”。
获取模块210可以获取第一语言的待翻译内容。在一些实施例中,可以由用户输入待翻译内容,输入的方法可以包括但不限于例如,用键盘键入、手写输入、语音输入等。
在一些实施例中,,可以用导入文件的方式导入待翻译内容。
在一些实施例中,,可以通过应用程序接口API来获取待翻译内容。例如,可以从同一设备或网络上的存储区域直接读取待翻译内容。
在一些实施例中,获取模块210可以通过扫描方式获取待翻译内容,例如,在待翻译内容为非电子类内容时,可以通过扫描纸质类文字、图片等的待翻译内容,将其转换成可存储的电子类内容,从而来获取待翻译内容。
以上获取方式仅作为示例,本发明并不限于此,还可以使用任何其他本领域技术人员公知的获取方式来获取待翻译内容。
在步骤320,可以将待翻译内容由第一语言初步翻译为第二语言得到预翻译内容。具体地,步骤320可以由预翻译模块220执行。
如图1所述,所述第二语言可以是最终需要转换成的单一语言。所述第二语言可以包括不同于第一语言的其他语言,例如,中文、英文、日文、韩文、普通话或方言(例如,广东话、四川话等)、英式英语和美式英语、朝鲜语和韩语等。仅作为示例,可以将第一语言的英文翻译为第二语言的中文、将第一语言的简体中文翻译为第二语言的繁体中文、将第一语言的普通话翻译为广东话、将英式英语翻译为美式英语等。
所述预翻译内容可以指的是将待翻译内容的第一语言初步翻译为第二语言的翻译内容。在一些实施例中,将第一语言初步翻译为第二语言可以包括将待翻译内容中的部分第一语言翻译为第二语言。所述部分第一语言可以包括待翻译内容中的特征语句的第一语言。预翻译模块220可以通过提取特征语句并将其翻译成第二语言来实现将第一语言初步翻译为第二语言。所述特征语句可以根据所述待翻译内容中词语、短语或句子和语料库的匹配度、特定的规则、所述待翻译内容中词语、短语或句子出现的次数、所述待翻译内容中词语、短语或句子在全文中的相似度、以及其他人为确定的方法来提取特征语句。所述特征语句可以是词语、短语、短句和/或一句话。在提取好特征语句后,可以通过预设的规则、语料库、构建的机器学习模型、现有的翻译引擎以及用户等来翻译特征语句。此时,预翻译内容即为含有翻译成第二语言的特征语句以及未经翻译的第一语言的混合内容。关于提取以及翻译特征语句的更多详细内容可以参考后文步骤410和420,在此不再赘述。
在一些实施例中,将第一语言初步翻译为第二语言可以包括将待翻译内容中的全部第一语言翻译为第二语言。所述全部第一语言可以包括待翻译内容中的全部内容的第一语言。在此情况下,预翻译模块220可以首先提取待翻译内容中的特征语句并将其翻译,之后对剩余第一语言内容进行翻译。例如,在翻译好特征语句之后,可以通过语料库、现有翻译引擎(例如,谷歌翻译、百度翻译、有道翻译等)或者机器学习模型(参考图5及其描述)等来翻译待翻译内容中剩余内容(即,非特征语句)。此时,预翻译内容即为第一语言全部翻译为第二语言的内容。关于翻译剩余非特征语句的更多详细内容可以参考后文步骤430,在此不再赘述。
在一些实施例中,为将待翻译内容中的全部第一语言翻译为第二语言,预翻译模块220还可以不提取特征语句,直接将待翻译内容的全部第一语言直接翻译成第二语言。例如,可以通过语料库、使用现有翻译引擎或者机器学习模型来直接翻译待翻译内容。
在一些实施例中,预翻译内容还包括标识了部分内容的第二语言(例如,标识高风险语句的第二语言),预翻译内容还可以包括对一些第二语言(例如,高风险语句)输出多个第二语言的结果,具体可参考图6及其描述。
预翻译后生成的内容可以被单独输出,也可以与第一语言的待翻译内容对照显示在一个文档中。
所述预翻译内容的格式可以与待翻译内容的格式相同或不同。在一些实施例中,所述预翻译内容的格式可以与待翻译内容的格式不相同。例如,所述待翻译内容的格式可以是包括至少两个句号的一段话,所述预翻译内容的格式可以是将该段话按照句号进行分段的内容。即,若一段话中含有两个句号,那么待翻译内容是一个段落,预翻译内容则为两个段落。
在步骤330,可以基于所述预翻译内容确定最终翻译内容。具体地,步骤330可以由修订模块230执行。
所述最终翻译内容可以包括对预翻译内容中的一些第二语言进行校正后得到的翻译内容、对预翻译内容的格式进行调整后的翻译内容等,或其任意组合。
在一些实施例中,所述修订模块230可以在预翻译内容的基础上,自动对第二语言(例如,高风险语句)进行校正,或者可以是提供输入界面,由用户自行来校正,确定出最终翻译内容。所述校正的内容可以包括高风险语句的第二语言,或者是用户自身觉得需要校正的句子(例如,专业领域内容等)。
在一些实施例中,在预翻译内容中已经将待翻译内容中的第一语言全部翻译成第二语言的情况下,修订模块230可以对预翻译翻译内容的格式进行调整。例如,可以按照格式规则(例如,段落规则、标识规则等),将预翻译内容修改为符合特定要求,得到最终翻译内容。例如,将预翻译内容中的段落划分恢复到跟待翻译内容一致。关于步骤330的详细描述可以参考图6和图7及其描述,在此不再赘述。
图4是根据本申请一些实施例所示的预翻译的方法的示例性流程图。在一些实施例中,预翻译的方法400可以由处理设备112实施。如图4所示,预翻译方法400可以包括以下所述的步骤。
在步骤410,可以提取所述待翻译内容中的特征语句。具体地,步骤410可以由特征语句提取单元执行。
所述特征语句可以是具有某些特征的词语、短语或句子。所述特征语句可以根据所述待翻译内容中词语、短语或句子和语料库的匹配度、特定的规则、所述待翻译内容中词语、短语或句子出现的次数、所述待翻译内容中词语、短语或句子在全文中的相似度、以及其他人为确定的方法来提取特征语句。
在一些实施例中,所述特征语句可以是所述待翻译内容中词语、短语或句子与语料库的匹配度大于或等于预设匹配度的词语、短语或句子。所述匹配度指的是一个语句与语料库中存在的语句匹配的程度,可以是百分数、小数、分数等的形式。所述语料库指的是第一语言和相应第二语言一一对应的语言对,包括但不限于词语、短语和句子。所述语料库包括一个或多个语言对。所述语料库可以在获取待翻译内容之前得到。语料库可以存储到数据库140中,或其他存储设备中。
特征语句提取单元可以根据匹配度来提取特征语句。特征语句提取单元可以逐句将待翻译内容与语料库进行比对,得到匹配度,并显示每句话的匹配度。匹配度的范围可以是0-1.0。匹配度反映两句话的相似程度。若无匹配,则匹配度为0,终端不显示匹配度以及语料库中内容。若100%匹配,则匹配度为1.0,显示匹配度1.0以及相应语料库中100%匹配的内容。
匹配度可以通过建立词映射关系并计算可计算映射数量占总词数的比例进行计算,匹配度可以通过其他规则进行计算,匹配度也可以通过机器学习模型进行计算。
当匹配度大于或等于预设匹配度时,特征语句提取单元可以将该大于或等于该预设匹配度的语句提取为特征语句。所述预设匹配度可以是系统默认值或由用户设置,例如,0.8、0.9、0.95等。当一个或多个待翻译内容中包括一个或多个相同语句时,可以提前将这些语句的第一语言翻译成第二语言,做成语料库存储在数据库140中。之后,在待翻译内容中含有这些相同语句时,特征语句提取单元可以根据匹配度提取这些语句作为特征语句。
在一些实施例中,所述特征语句可以是具有特定规则的语句。特征语句提取单元可以基于所述特定规则提取特征语句。所述特定规则可以存储在数据库140中。例如,所述特定规则可以根据待翻译内容中第一语言的语法规则定义。
在一些实施例中,所述特定规则只包括第一语言,同时包括其与翻译出的第二语言的对应关系作为相应的翻译规则。所述特定规则包括特征提取规则和翻译规则。例如,当第一语言为英文,第二语言为中文时,可以将“FIG.X”定义为“图X”,其中X表示任意数字。那么,这时“FIG.X”为一条特征提取规则,“FIG.X”-“图X”为一条翻译规则。
又例如,当第一语言为中文,第二语言为英文时,可以将“relating to N”定义为“与N有关”,其中N表示一个单词或短语。那么,“relating to N”为一条特征提取规则,“relating to N”-“与N有关”即为一条翻译规则。
所述特定规则可以存储在数据库140中,也可以存储在其他设备中。特征语句提取单元识别出符合一条特定规则的第一语言的语句时,可以提取出该语句作为特征语句。
在一些实施例中,所述特征语句可以是所述待翻译内容中词语、短语或句子在全文中出现的次数大于某一阈值的词语、短语或句子。特征语句提取单元可以首先基于出现的次数情况提取候选特征语句,进而在候选特征语句中提取特征语句。特征语句提取单元在获取到待翻译内容后,可以对全文句子中的词语、短语以及整个句子进行统计得到出现的次数。例如,可以统计名词以及名词词组出现的次数,按照次数由大到小排列。当次数大于或等于阈值时,特征语句提取单元可以提取这些名词以及名词词组作为特征语句。特征语句提取单元可以在出现某一语句的次数大于或等于阈值时,从所述候选特征语句中提取该特征语句。上述阈值可以是系统默认值或由用户设置,例如,3、5、7等。
在一些实施例中,所述特征语句可以是在全文中具有相似度的所述待翻译内容中词语、短语或句子。特征语句提取单元可以基于相似度提取特征语句。相似度指的是词语、短语、句子间的相似程度。在获取待翻译内容后,特征语句提取单元可以对全文的语句进行匹配,计算相似度。之后,可以按区间进行排列,例如相似度为90%-100%、80%-90%、70%-80%等。用户可以选择一个或多个区间的相似度,则特征语句提取单元可以提取选定区间的特征语句作为特征语句。
在一些实施例中,所述特征语句还可以是人为确定的词语、短语或句子。所述特征语句可以是用户认为较简单的语句、较熟悉的语句、或专业领域较强的语句等,或其任意组合。所述用户确定的特征语句与语料库的匹配度不在预设匹配度范围内,在全文出现次数较少、且无规则可循。在此情况下,所述特征语句可以由用户提取。
在步骤420,可以将所述特征语句由第一语言翻译为第二语言。具体地,步骤420可以由特征语句翻译单元执行。
在一些实施例中,当所述特征语句是与语料库的匹配度大于或等于预设匹配度的词语、短语或句子时,可以使用语料库对特征语句进行翻译。具体地,可以将某个特征语句与数据库140中的语料库进行匹配,选择匹配度最大的语句,并在该语句的基础上,进行翻译。例如,可以修改或删除或增加某些内容。
在一些实施例中,当所述特征语句是具有特定规则的语句时,特征语句翻译单元使用预先设置好的规则翻译出所述特征语句。例如,当特征语句提取单元提取出待翻译内容中的“FIG.2”时,特征语句翻译单元424根据特定规则“FIG.X”-“图X”,将“FIG.2”翻译为“图2”。
在一些实施例中,特征语句翻译单元可以通过语料库对所述提取出来的特征语句进行翻译(例如,与语料库的匹配度在0.5以上)。在一些实施例中,特征语句翻译单元可以通过一个词典和/或翻译引擎(例如,谷歌翻译、百度翻译、搜狗翻译等)对所述提取出来的特征语句进行翻译。在一些实施例中,也可以通过用户翻译所述特征语句。在一些实施例中,可以是通过用户和上述语料库、词典和/或翻译引擎相结合的方式翻译所述特征语句。在一些实施例中,可以使用机器学习模型来翻译特征语句。关于机器学习模型的更详细内容可参考图5机器学习模型描述。
在一些实施例中,还可以通过特定语境或领域对特征语句进行翻译。具体地,同一语句在不同情况下(例如,不同领域、不同语境)中翻译结果不同。特征语句翻译单元可以借助于内置的词典、翻译引擎等,根据特定语境或领域对特征语句进行翻译。
附加地或可选地,将特征语句翻译为第二语言后,还可以对所述特征语句进行标识,例如,进行高亮、加粗、调整字体格式,以使用户在核对最终翻译内容时可以清楚知道哪些是提前翻译好的特征语句内容,方便校对。
在步骤430,可以基于所述特征语句的第一语言和第二语言对,将所述待翻译内容中非特征语句由第一语言翻译为第二语言得到预翻译内容。具体地,步骤430可以由预翻译确定单元执行。
预翻译确定单元可以通过判断特征语句是否部分或全部翻译成第二语言,将所述待翻译内容中剩余非特征语句(例如,除已经翻译成第二语言的特征语句之外的内容)由第一语言翻译为第二语言得到预翻译内容。
在一些实施例中,在特征语句为词语或短语的情况下,若一句话中含有特征语句,则该句中的特征语句已翻译为第二语言(参照步骤420),该句的剩余部分(即,非特征语句)为第一语言。预翻译确定单元可以通过判断特征语句是否部分翻译成第二语言,将剩余非特征语句由第一语言翻译为第二语言,保留该句中已翻译出的第二语言,将剩余非特征语句的第一语言翻译成第二语言。
在一些实施例中,在特征语句为整个句子的情况下,则所述特征语句已全部翻译成第二语言(参照步骤420)。预翻译确定单元可以通过判断特征语句是否全部翻译成第二语言,即特征语句中的第二语言中不含有第一语言,确定出该句已翻译完成。在此情况下,可以跳过该句,或者将该句复制到预翻译内容的相应位置。
在一些实施例中,在一句话不含有或并非特征语句的情况下,预翻译确定单元可以判断出该句不含有第二语言,并将该句内容中的第一语言翻译成第二语言。
在一些实施例中,预翻译确定单元可以通过使用翻译引擎将非特征语句的第一语言翻译为第二语言。
在一些实施例中,预翻译确定单元可以通过语料库,将非特征语句的第一语言翻译为第二语言。例如,若非特征语句与语料库的匹配度在70%-90%之间,可匹配70%-90%之间的内容,剩余30%-10%之间的内容可以通过用户自行修改。
在一些实施例中,预翻译确定单元可以通过构建机器学习模型并根据训练后的机器学习模型,将非特征语句的第一语言翻译为第二语言。在一实施例中,可以获取第一语言的待翻译内容和机器学习模型,将第一语言的待翻译内容作为输入,输入到机器学习模型中,输出第二语言的预翻译内容。关于通过机器学习模型翻译第一语言的详细描述可以参照图5及其描述,在此不再赘述。
附加地或可选地,在预翻译确定单元将待翻译内容的第一语言翻译成第二语言时,预翻译确定单元可以对待翻译内容进行格式处理。所述格式处理包括按句分段、替换原文特定表达等。
所述按句分段可以在句号后插入一些特殊符号使一大段内容按句号进行分段。在进行这种分段时,可以记录所增加分段的位置。例如,可以在增加的分段处加入特殊符号,。所述特殊符号可以是#、*、@等。又例如,可以记录增加的分段的位置。
通过按句分段,可以增加内容的可读性。
所述替换原文特定表达可以是将待翻译内容中一些易翻译错或易遗漏的第一语言直接替换为第二语言并进行记录。记录的方式可以是加上特殊标记,例如,使用括号将第二语言标注出来。仅作为示例,在专利翻译中,需要将权要中的一些“the”翻译成“所述”,可以将权利要求中的“the”替换为“[所述]”,在使用翻译引擎翻译后仍为“[所述]”,可用于提醒用户需要注意该“所述”的位置是否正确、是否有遗漏等。记录的方式也可以是保存相应的位置。
图5是根据本申请一些实施例所示的模型训练方法的示例性流程图。在一些实施例中,模型训练方法500可以由处理设备112实施。如图5所示,模型训练方法500可以包括以下所述的步骤。
在步骤510,可以获取历史翻译内容中的第一语言和第二语言的语言对。具体地,步骤510可以由训练模块240执行。
在所述历史翻译内容中,第一语言已翻译成第二语言。所述历史翻译内容是指以各种方式获取的由第一语言翻译到第二语言的内容,包括但不限于,用户之前翻译的内容、校对的内容、各种来源(例如,网络)的翻译资料等。所述历史翻译内容的第一语言和第二语言可以是在同一个文档中,也可以是在不同的文档中。在同一个文档中,所述历史翻译内容的第一语言和第二语言还可以是按句双语对照的形式,或者按段落双语对照的形式。
训练模块240可以从数据库获取历史翻译内容,也可以导入或通过应用程序接口、通过网络获取历史翻译内容。训练模块240在获取到历史翻译内容后,将第一语言和第二语言按照对应关系作成第一语言和第二语言对。所述语言对可以包括句子、短语、术语、特定内容类型的词语、特定领域的词语句子或段落等中的一种或几种的组合。所述语言对还可以包括长难句(也称为高风险语句)的第一语言和第二语言。所述语言对还可以包括高风险语句的第一语言和带有标识的第二语言。所述标识包括改变字体颜色、改变字体大小、改变字体样式、加符号等。具体参照步骤620及其相关描述,在此不再赘述。所述语言对还可以包括高风险语句的第二语言翻译结果与第二语言修订后的结果。
在步骤520,可以基于语言对训练机器学习模型。具体地,步骤520由训练模块240执行。
所述机器学习模型可以是人工神经网络(ANN)模型、循环神经网络(RNN)模型、长短时记忆网络(LSTM)模型、双向循环神经网络(BRNN)模型、序列对序列(Seq2Seq)模型等其他可用于机器翻译的模型,或其任意组合。所述初始机器学习模型可以具有预先确定的默认值(例如,一个或多个参数)或者在某些情况下是可变的。训练模块240可以通过机器学习方法训练机器学习模型,所述机器学习方法可以包括但不限于人工神经网络算法、循环神经网络算法、长短时记忆网络算法、深度学习算法、双向循环神经网络算法等,或其任何组合。
具体的,训练模块240可以将历史翻译内容的第一语言输入到机器学习模型中,获取样本第二语言。所述初始机器学习模型可以具有预先确定的默认值(例如,一个或多个参数)或者在某些情况下时可变的。将样本第二语言和历史翻译内容的第二语言进行比较,从而确定损失函数。损失函数可以表示训练得到的机器学习模型的准确度。损失函数可以由样本第二语言和历史翻译内容的第二语言的差值确定。所述差值可以基于算法来确定。
训练模块240判断损失函数是否小于训练阈值,若损失函数小于训练阈值,则可将机器学习模型确定为训练后机器学习模型。所述训练阈值可以是预先确定的默认值或在某些情况下是可变的。若损失函数大于或等于训练阈值,则可将历史翻译内容的第一语言进行输入到机器学习模型中,直至损失函数小于阈值为止,可将此时的机器学习模型确定为训练后机器学习模型。
在一些实施例中,将不同类型的语言对作为输入和输出可以得到不同的机器学习模型,但训练过程与上述训练过程类似。使用含有高风险语句的第二语言以及人工校正后的第二语言作为输入和输出,训练机器学习模型,得到训练后机器学习模型,用于校正高风险语句。需要注意的是,上述输入和输入可以单独用来训练机器学习模型,得到多个机器学习模型,还可以将上述输入和输出全部用来训练一个机器学习模型,得到一个机器学习模型,输出不同的结果。
在一些实施例中,可以单独训练一个分类模型用于判断第一语言或第二语言的分类,根据分类使用对应的机器学习模型进行翻译。可以使用多个模型对同一语句进行翻译,并对其结果按一定算法进行融合。可以对某些分类对特定语句使用规则进行翻译。
在步骤530,一定时期获取更多新的语言对。具体地,所述步骤530由训练模块240执行。
训练模块240需要在一定时期来获取新的语言对。所述一定时期可以是5天、7天、半个月等。可以通过从数据库、输入端和/或其他终端中获取更多的历史翻译内容来获取更多新的语言对。
在步骤540,基于新的语言对训练并更新机器学习模型。具体地,所述步骤540由训练模块240执行。
在获取到新的语言对之后,所述训练模块240需要基于新的语言对训练并更新机器学习模型。即,将新后的语言对中的第一语言作为输入,输入到训练后机器学习模型中,重复步骤530中关于训练机器学习模型的步骤,继而将实现对训练后机器学习模型的更新。
图6是根据本申请一些实施例所示的一种确定最终翻译内容方法的示例性流程图。具体地,确定最终翻译内容方法600的过程可以由修订模块230实施。
在步骤610,可以基于待翻译内容确定高风险语句。具体地,步骤610可以由高风险语句确定单元确定。
高风险语句确定单元可以基于规则判定高风险语句。所述规则可以包括句子长度、句中含有介词、转折词、易错词或多义词的数量等,或其组合来确定。
在一些实施例中,高风险语句可以是字数或词数超过预设阈值的语句。高风险语句确定单元可以通过判断一句话中字数或词数多少来确定高风险语句。例如,若一句话中的字数或词数超过预设阈值,则可以判断出该句为高风险语句。所述预设阈值可以是用户设定或者由翻译系统100确定。例如,所述预设阈值可以是15、20、30等。
在一些实施例中,高风险语句可以是含有风险词的情况较多的语句。所述风险词可以包括介词、转折词、易错词或多义词。以中英双语为例,所述介词可以是“by”、“after”、“through”、“在……中”、“当……时”等,所述转折词可以是“however”、“but”、“但是”、“然而”等,所述易错词可以是容易翻错的词语或短语,可根据经验提前确定好。所述多义词可以是含有多种含义的词语或短语,例如,“object”、“apply”、“特征”等。
所述风险词可以通过设定的规则或词表确定,可以通过语义模型判断,可以通过自定义的机器学习分类模型判断。
高风险语句确定单元通过判断一句话中含有上述这些词汇的数量来确定高风险语句。例如,当介词、转折词、易错词或多义词中的一种或多种词汇的数量超过预设阈值时,可以确定该句为高风险语句。所述预设阈值可以是5、7、9等。
所述阈值可以按一句话中风险词的求和数量判断,也可以按一句话中每类风险词的数量判断。在根据多类值判断时,可以使用加权求和、加权平均、预设条件规则、状态机、决策树等方式判断。
在一些实施例中,高风险语句确定单元可以使用一种或多种高风险语句识别模型判定高风险语句。所述高风险语句识别模型可以是贝叶斯预测模型、决策树模型、神经网络模型、支持向量机模型、K最近邻算法模型(KNN)、逻辑回归模型等,或其任意组合。可以将历史待翻译内容中含有高风险语句和非高风险语句的第一语言作为输入,以每一语句是否为高风险语句作为输出来训练高风险语句识别模型,得到训练后高风险语句识别模型。当将待翻译内容输入到训练后高风险语句识别模型后,所述模型可以根据计算出的值对待翻译内容中的语句进行分类。例如,超过某一阈值,则判定为高风险语句;否则,则为非高风险语句。所述阈值可以是预先确定的默认值或在某些情况下是可变的。所述高风险语句可以是较复杂的句子,所述较复杂的句子可以包括语法较复杂(例如,含有两个或多个从句)、句子拗口等。
在一些实施例中,上述模型也可以是回归模型,在训练时使用人工标定的风险系数,或者统计所得到的风险系数作为标识。
在一些实施例中,高风险语句确定单元可以使用上述的多种高风险语句识别模型判定高风险语句。例如,可以将历史待翻译内容中含有高风险语句和非高风险语句的第一语言作为输入,判定出的高风险语句和非高风险语句作为输出来同时训练多种高风险语句识别模型,得到多种训练后高风险语句识别模型。继而可以将待翻译内容输入到不同的高风险语句识别模型中,对这些模型计算出的值进行计算得到最终值,若该最终值小于设定的阈值,则该语句并非高风险语句;若该最终值大于或等于设定的阈值,则该语句可以认为是高风险语句。所述计算可以是加权平均、加权求和、其他非线性公式、其他规则、决策树或者基于机器学习模型的计算。又例如,可以将待翻译文档输入到上述其中一个高风险语句识别模型(例如,决策树模型)中,将该决策树模型计算出的大于或等于设定阈值语句继续输入到其他高风险语句识别模型中,若此次计算出的结果依旧大于或等于设定阈值,则将该语句判定为高风险语句;若该语句小于设定阈值,则将该语句继续输入到下一个高风险语句识别模型中,若计算结果大于或等于设定阈值,则将语句判定为高风险语句,否则将该语句判定为非高风险语句。在一些实施例中,每个高风险语句识别模型相关的阈值可以相同或不同。
在一些实施例中,高风险语句确定单元还可以结合使用上述规则和一个或多个高风险语句识别模型判定高风险语句。例如,对使用规则计算出语句的值以及一个或多个机器学习模型计算出的值取平均值,若该平均值大于或等于设定阈值,则判断该语句为高风险语句。又例如,可以对规则计算出的值和一个或多个机器学习模型计算出的值之间取最小值,若最小值大于或等于设定阈值,则可以判定为高风险语句。其中,一个或多个机器学习模型计算出的值可以是一个或多个值,例如,这些值可以是每个模型计算的值,即一个机器学习模型对应一个值,或者是所有模型的加权平均值、最小值、最大值等。
在步骤620,在预翻译内容中将高风险语句对应的第二语言的语句进行标识。具体地,步骤620由高风险语句修订单元执行。
在判定出待翻译内容中的高风险语句后,预翻译模块220可以预翻译高风险语句。在一些实施例中,所述预翻译可以包括使用图5所述的机器学习模型对高风险语句进行翻译。例如,可以使用大量历史待翻译内容的第一语言和第二语言的语言对作为输入和输出来训练机器学习模型,继而使用训练后机器学习模型来对高风险语句的第一语言进行预翻译,输出该高风险语句的第一语言对应的第二语言。在一些实施例中,还可以使用现有翻译引擎来翻译高风险语句。在一些实施例中,若高风险语句与语料库有一定匹配度(例如,大于50%),可以在使用语料库翻译的基础上进行修改。
高风险语句修订单元还可以在预翻译内容中将高风险语句对应的第二语言的语句进行标识。在步骤610中确定出待翻译内容中的高风险语句后,高风险语句修订单元可以根据待翻译内容中确定的高风险语句的第一语言,对相应的翻译出的第二语言进行标识。所述标识可以包括改变字体颜色、改变字体大小、改变字体样式、加符号等。例如,若预翻译内容中字体颜色为黑色,可将高风险语句改成红色。又例如,若预翻译内容中字号为小四,可将高风险语句改成四号。再例如,若预翻译内容中字体为宋体,可将高风险语句改成楷体。还可以在高风险语句前后加上符号,如@、#、*,所述符号与上文提到的用于按句分段的特殊符号不同。所述对高风险语句的第二语言进行标识的结果与对特征语句的第二语言进行标识的结果不同。本申请不限于上述标识方法,其他任何可标识高风险语句的方法均在本申请的范围内。
在一些实施例中,高风险语句修订单元还可以提供高风险语句的多个第二语言翻译结果,以供用户选择合适的翻译内容。进一步地,可以使用机器学习模型来输出多个翻译结果。例如,可以使用一个机器学习模型对高风险语句进行多次翻译,或者使用多个机器学习模型输出多个第二语言的翻译结果。例如,可以通过设置翻译次数来对高风险语句进行多次翻译,例如,3、5、7等。在一些实施例中,输出第二语言的翻译结果的个数可以小于或等于翻译次数,并且大于或等于1。例如,对高风险语句翻译5次,可以输出5个翻译结果,或者输出4个翻译结果。
在一些实施例中,可以在提供高风险语句的多个翻译结果的同时,输出每个翻译结果对应的置信度。所述置信度可以是机器学习模型对翻译结果准确率的衡量值。置信度越高,翻译结果准确的可能性越高。所述置信度可以是数值、百分比、分数等形式。具体地,所述置信度可以使用BLEU、NIST等方法获得。输出的翻译结果按照每个翻译结果对应的置信度进行排序,可以以升序或降序排列。
在一些实施例中,还可以根据设置输出的置信度阈值来输出高风险语句的翻译结果。例如,当某一高风险语句的某个翻译结果的置信度小于置信度阈值时,不输出该翻译结果,仅输出大于或等于置信度阈值的一个或多个翻译结果。若高风险语句中的翻译结果均小于置信度阈值,则可以只输出最大置信度的翻译结果。
在步骤630,可以基于高风险语句的预翻译内容,确定高风险语句的最终翻译内容(即,输出内容130)。具体地,步骤630可以由高风险语句修订单元执行。
在一些实施例中,高风险语句修订单元可以确定高风险语句的第二语言的翻译结果。确定高风险语句的第二语言的翻译结果可以包括对第二语言的翻译结果进行校正,例如,人工校正、使用机器学习模型等。
在一些实施例中,用户可以对这些高风险语句的翻译结果进行校正修改,得到更加准确的第二语言。例如,调整句子顺序,修改词语的表达等。在一些实施例中,可以使用机器学习模型对高风险语句的翻译内容进行校正。可以使用历史待翻译内容中高风险语句的第二语言以及经校正后的第二语言分别作为输入和输出,对机器学习模型进行训练,得到训练后机器学习模型。具体的,机器学习模型可以对需要校正的高风险语句的第二语言进行识别,并判断校正部分的第二语言内容与其他预翻译内容是否匹配,若不匹配,则选择与其他预翻译内容相匹配的相应第一语言的含义,并替换原第二语言内容;若匹配,则跳过该步骤。仅作为示例,需要校正部分的第二语言内容为“4第二”,相应第一语言为“4seconds”,机器学习模型可以判断出该第二语言内容不匹配,选择“seconds”跟数字搭配的其他含义“秒”,则将第二改成秒。
高风险语句修订单元可以基于置信度对翻译结果进行校正。例如,若一高风险语句的翻译结果的置信度为1,可以不对该高风险语句的翻译结果进行校正。又例如,对高风险语句的最大置信度小于或等于某一阈值的翻译结果进行校正。
图7是根据本申请一些实施例所示的部分确定最终翻译内容方法的示例性流程图。具体地,图7所示的过程可以由格式修订单元确定。图7所示的过程主要用于对预翻译内容的格式进行调整。
图7所述的确定最终翻译内容方法可以与其他确定最终翻译内容方法先后执行。
在步骤710,可以获取最终内容的格式规则。
所述格式规则可以包括段落规则、标识规则等。所述段落规则可以包括对第一语言内容按句分段、第一语言和第二语言为对照格式、第一语言和第二语言为非对照格式等。第一语言和第二语言为非对照格式可以包括第一语言和第二语言在一个文档中,或者不在一个文档中。所述标识规则可以包括对高风险语句的第二语言标识的结果,例如改变字体颜色、改变字体大小、改变字体样式、加符号等。
所述格式修订单元可以从翻译出的最终内容中获取格式规则。在一些实施例中,格式修订单元可以识别出最终内容中是否含有按句分段的特殊符号,从而确定第一语言和第二语言是否按句分段,还可以识别出最终内容中是否含有第二语言相对应的第一语言等,从而确定第一语言和第二语言是对照格式还是非对照格式。
在步骤720,可以基于格式规则确定最终翻译内容。格式修订单元可以按步骤710确定的格式规则来对预翻译内容进行的格式进行调整,得到最终翻译内容。
在一些实施例中,若格式规则为删除按句分段的特殊符号,则将这些特殊符号删除,那么这些特殊符号的前后句即可合并在一起。此时,最终翻译内容的格式跟第一语言的段落分布一致。附加地或可选地,若格式修改规则为删除用于对照的第一语言内容,则可以将第一语言内容删除,仅保留第二语言的翻译结果。
应当注意的是,上述有关流程400、500、600、700的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流程400、500、600、700进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。例如,流程400可以省略,直接将第一语言翻译为第二语言,无需提取特征语句。步骤630可以省略,不校正高风险语句,直接确定最终翻译内容。流程700可以省略,直接输出最终翻译内容无需修改成跟待翻译内容格式一致。
本申请实施例可能带来的有益效果包括但不限于:(1)通过对特征语句进行专门翻译,可使得翻译内容中的词语前后一致、多篇待翻译内容中相同的内容可以直接翻译,使得机器翻译结果的内容前后一致,节省人工修改时间;(2)标识出高风险语句的第二语言,可以直观地看到最终翻译内容中高风险语句内容,并输出多个置信度以及多个翻译结果供用户参考,大大提供人工修改效率。(3)采取多种模型混合翻译,可以有针对性地提高高风险语句的翻译质量。(4)采取对格式的自动处理,可以便于人工修改时的查看与对照,大大提高翻译效率,同时减少格式恢复的工作量。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史内容除外,对本申请权利要求最广范围有限制的内容(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims (14)

1.一种翻译方法,其特征在于,包括:
获取第一语言的待翻译内容;
将待翻译内容由第一语言初步翻译为包括第二语言的预翻译内容;
校正所述包括第二语言的预翻译内容;以及
基于校正结果,确定最终翻译内容。
2.如权利要求1所述的翻译方法,其特征在于,所述将待翻译内容由第一语言初步翻译为包括第二语言的预翻译内容包括:
提取所述待翻译内容中的特征语句;
获取将所述特征语句由第一语言翻译为第二语言的语句对;以及
基于所述特征语句的语句对,将所述待翻译内容由第一语言翻译为包括第二语言的预翻译内容。
3.如权利要求1所述的翻译方法,其特征在于,所述校正包括第二语言的预翻译内容包括:
确定所述预翻译内容中是否包含高风险语句;以及
响应于所述预翻译内容中包含高风险语句,将所述高风险语句对应的第二语言的语句进行标识。
4.如权利要求3所述的翻译方法,其特征在于,所述确定预翻译内容中是否包含高风险语句包括:
判断所述预翻译内容中是否包含字数或词数超过预设阈值的语句;或
判断所述预翻译内容中是否包含风险词数量超过预设阈值的语句。
5.如权利要求3所述的翻译方法,其特征在于,所述方法还包括:
将所述高风险语句的第一语言翻译为一个或多个第二语言的翻译结果;
确定所述一个或多个第二语言的翻译结果的置信度,每个第二语言的翻译结果对应一个置信度;以及
显示该置信度,或者
基于所述一个或多个第二语言的翻译结果的置信度,确定所述高风险语句的最终翻译内容。
6.如权利要求1所述的翻译方法,其特征在于,所述方法还包括:
在预翻译内容中进行按句分段;以及
在最终翻译内容中实现段落恢复。
7.一种翻译系统,包括获取模块、预翻译模块以及修订模块,其特征在于,
所述获取模块用于获取第一语言的待翻译内容;
所述预翻译模块用于将待翻译内容由第一语言初步翻译为包括第二语言的预翻译内容;以及
所述修订模块用于校正所述包括第二语言的预翻译内容并且基于校正结果,确定最终翻译内容。
8.如权利要求7所述的翻译系统,其特征在于,为了将待翻译内容由第一语言初步翻译为包括第二语言的预翻译内容,所述预翻译模块进一步用于:
提取所述待翻译内容中的特征语句;
获取将所述特征语句由第一语言翻译为第二语言的语句对;以及
基于所述特征语句的语句对,将所述待翻译内容由第一语言翻译为包括第二语言的预翻译内容。
9.如权利要求7所述的翻译系统,其特征在于,为了校正包括第二语言的预翻译内容,所述修订模块进一步用于:
确定所述预翻译内容中是否包含高风险语句;以及
响应于所述预翻译内容中包含高风险语句,将所述高风险语句对应的第二语言的语句进行标识。
10.如权利要求9所述的翻译系统,其特征在于,为了确定预翻译内容中是否包含高风险语句,所述修订模块进一步用于:
判断所述预翻译内容中是否包含字数或词数超过预设阈值的语句;或
判断所述预翻译内容中是否包含风险词数量超过预设阈值的语句。
11.如权利要求9所述的翻译系统,其特征在于,
所述预翻译模块用于:
将所述高风险语句的第一语言翻译为一个或多个第二语言的翻译结果;以及
所述修订模块用于:
确定所述一个或多个第二语言的翻译结果的置信度,每个第二语言的翻译结果对应一个置信度;以及
显示置信度,或者
基于所述一个或多个第二语言的翻译结果的置信度,确定所述高风险语句的最终翻译内容。
12.如权利要求7所述的翻译系统,其特征在于,
所述预翻译模块用于:
在预翻译内容中进行按句分段;以及
所述修订模块用于:
在最终翻译内容中实现段落恢复。
13.一种翻译装置,包括至少一个存储介质和至少一个处理器,其特征在于:
所述至少一个存储介质用于存储计算机指令;
所述至少一个处理器用于执行所述计算机指令,以实现如权利要求1~6中任一项所述的翻译方法。
14.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,所述计算机执行如权利要求1~6任一项所述的翻译方法。
CN201811636517.4A 2018-12-29 2018-12-29 一种翻译方法和系统 Active CN110532573B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201811636517.4A CN110532573B (zh) 2018-12-29 2018-12-29 一种翻译方法和系统
CN202211100098.9A CN115455988A (zh) 2018-12-29 2018-12-29 一种高风险语句的处理方法和系统
US16/759,388 US20210209313A1 (en) 2018-12-29 2019-11-18 Translation methods and systems
PCT/CN2019/119249 WO2020134705A1 (zh) 2018-12-29 2019-11-18 一种翻译方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811636517.4A CN110532573B (zh) 2018-12-29 2018-12-29 一种翻译方法和系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211100098.9A Division CN115455988A (zh) 2018-12-29 2018-12-29 一种高风险语句的处理方法和系统

Publications (2)

Publication Number Publication Date
CN110532573A true CN110532573A (zh) 2019-12-03
CN110532573B CN110532573B (zh) 2022-10-11

Family

ID=68659366

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211100098.9A Pending CN115455988A (zh) 2018-12-29 2018-12-29 一种高风险语句的处理方法和系统
CN201811636517.4A Active CN110532573B (zh) 2018-12-29 2018-12-29 一种翻译方法和系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202211100098.9A Pending CN115455988A (zh) 2018-12-29 2018-12-29 一种高风险语句的处理方法和系统

Country Status (3)

Country Link
US (1) US20210209313A1 (zh)
CN (2) CN115455988A (zh)
WO (1) WO2020134705A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111245460A (zh) * 2020-03-25 2020-06-05 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机
CN111368560A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 文本翻译方法、装置、电子设备及存储介质
CN111428523A (zh) * 2020-03-23 2020-07-17 腾讯科技(深圳)有限公司 翻译语料生成方法、装置、计算机设备及存储介质
CN111488743A (zh) * 2020-04-10 2020-08-04 苏州七星天专利运营管理有限责任公司 一种文本辅助处理方法和系统
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN111652005A (zh) * 2020-05-27 2020-09-11 沙塔尔江·吾甫尔 汉语与乌尔都语同步互译系统及方法
CN112380879A (zh) * 2020-11-16 2021-02-19 深圳壹账通智能科技有限公司 一种智能翻译方法、装置、计算机设备和存储介质
CN114912416A (zh) * 2022-07-18 2022-08-16 北京亮亮视野科技有限公司 语音翻译结果显示方法、装置、电子设备及存储介质
TWI814216B (zh) * 2022-01-19 2023-09-01 中國信託商業銀行股份有限公司 基於三重自學習的翻譯模型建立方法及裝置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728156B (zh) * 2019-12-19 2020-07-10 北京百度网讯科技有限公司 翻译方法、装置、电子设备及可读存储介质
US11551013B1 (en) * 2020-03-02 2023-01-10 Amazon Technologies, Inc. Automated quality assessment of translations
US11481210B2 (en) * 2020-12-29 2022-10-25 X Development Llc Conditioning autoregressive language model to improve code migration
CN113723096A (zh) * 2021-07-23 2021-11-30 智慧芽信息科技(苏州)有限公司 文本识别方法及装置、计算机可读存储介质和电子设备
CN117236348B (zh) * 2023-11-15 2024-03-15 厦门东软汉和信息科技有限公司 一种多语言自动转换系统、方法、装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104125548A (zh) * 2013-04-27 2014-10-29 中国移动通信集团公司 一种对通话语言进行翻译的方法、设备和系统
CN106649288A (zh) * 2016-12-12 2017-05-10 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
CN105912533B (zh) * 2016-04-12 2019-02-12 苏州大学 面向神经机器翻译的长句切分方法及装置
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
KR102565275B1 (ko) * 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
CN107066455B (zh) * 2017-03-30 2020-07-28 唐亮 一种多语言智能预处理实时统计机器翻译系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104125548A (zh) * 2013-04-27 2014-10-29 中国移动通信集团公司 一种对通话语言进行翻译的方法、设备和系统
CN106649288A (zh) * 2016-12-12 2017-05-10 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368560A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 文本翻译方法、装置、电子设备及存储介质
CN111428523A (zh) * 2020-03-23 2020-07-17 腾讯科技(深圳)有限公司 翻译语料生成方法、装置、计算机设备及存储介质
CN111428523B (zh) * 2020-03-23 2023-09-01 腾讯科技(深圳)有限公司 翻译语料生成方法、装置、计算机设备及存储介质
CN111245460B (zh) * 2020-03-25 2020-10-27 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机
CN111245460A (zh) * 2020-03-25 2020-06-05 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机
CN111488743A (zh) * 2020-04-10 2020-08-04 苏州七星天专利运营管理有限责任公司 一种文本辅助处理方法和系统
CN111597826B (zh) * 2020-05-15 2021-10-01 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN111652005A (zh) * 2020-05-27 2020-09-11 沙塔尔江·吾甫尔 汉语与乌尔都语同步互译系统及方法
CN111652005B (zh) * 2020-05-27 2023-04-25 沙塔尔江·吾甫尔 汉语与乌尔都语同步互译系统及方法
CN112380879A (zh) * 2020-11-16 2021-02-19 深圳壹账通智能科技有限公司 一种智能翻译方法、装置、计算机设备和存储介质
TWI814216B (zh) * 2022-01-19 2023-09-01 中國信託商業銀行股份有限公司 基於三重自學習的翻譯模型建立方法及裝置
CN114912416A (zh) * 2022-07-18 2022-08-16 北京亮亮视野科技有限公司 语音翻译结果显示方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20210209313A1 (en) 2021-07-08
WO2020134705A1 (zh) 2020-07-02
CN115455988A (zh) 2022-12-09
CN110532573B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN110532573A (zh) 一种翻译方法和系统
CN110852087B (zh) 中文纠错方法和装置、存储介质及电子装置
US20200012953A1 (en) Method and apparatus for generating model
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN108563433B (zh) 一种基于lstm自动补全代码的装置
CN109670180B (zh) 向量化译员的翻译个性特征的方法及装置
CN107861954B (zh) 基于人工智能的信息输出方法和装置
CN110678868B (zh) 翻译支持系统、装置和方法以及计算机可读介质
CN108628868B (zh) 文本分类方法和装置
US20220414463A1 (en) Automated troubleshooter
CN111414745A (zh) 文本标点确定方法与装置、存储介质、电子设备
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN111597807A (zh) 分词数据集生成方法、装置、设备及其存储介质
US20230123328A1 (en) Generating cascaded text formatting for electronic documents and displays
CN113705207A (zh) 语法错误识别方法及装置
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置
CN110852063B (zh) 基于双向lstm神经网络的词向量生成方法及装置
CN113065333A (zh) 分词语种的识别方法及装置
CN115358186B (zh) 一种槽位标签的生成方法、装置及存储介质
CN115376153B (zh) 一种合同比对方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant