CN111680523B

CN111680523B - 基于上下文语义比对的人机协同翻译系统与方法

Info

Publication number: CN111680523B
Application number: CN202010505909.8A
Authority: CN
Inventors: 夏菲
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2023-06-02
Anticipated expiration: 2040-06-09
Also published as: CN111680523A

Abstract

本发明提出基于上下文语义比对的人机协同翻译系统与方法。所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎，所述文档拆分识别引擎至少包含两个输出结果识别分支，所述输出结果识别分支包括第一识别分支和第二识别分支；所述第一识别分支连接至句子上下文抽取引擎；所述第二识别分支连接至段落上下文抽取引擎，并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎；本发明的技术方案在翻译过程中的多个阶段充分利用上下文概念以及机器翻译引擎的相互对比结果，从而提供人工翻译介入的准确时机，使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率，同时确保翻译的准确性。

Description

基于上下文语义比对的人机协同翻译系统与方法

技术领域

本发明属于人机协同技术领域，尤其涉及一种基于多机器引擎上下文比对结果的协同翻译系统、基于上下文语义对比的人机协同翻译方法以及实现所述方法的计算机可读存储介质。

背景技术

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。机译系统可划分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者由词典和规则库构成知识源；后者由经过划分并具有标注的语料库构成知识源，既不需要词典也不需要规则，以统计规律为主。机译系统是随着语料库语言学的兴起而发展起来的，世界上绝大多数机译系统都采用以规则为基础的策略，一般分为语法型、语义型、知识型和智能型。不同类型的机译系统由不同的成分构成。抽象地说，所有机译系统的处理过程都包括以下步骤：对源语言的分析或理解，在语言的某一平面进行转换，按目标语言结构规则生成目标语言。

随着全球化和信息化的不断推进，海量的翻译需求给语言服务行业带来了前所未有的机遇和挑战。将计算机辅助翻译、机器翻译集成为译员打造新的翻译工作环境已经是目前主流发展趋势。

计算机辅助翻译(Computer aided translation，CAT)类似于CAD(计算机辅助设计)，能够帮助翻译者优质、高效、轻松地完成翻译工作。它不同于以往的机器翻译软件，不依赖于计算机的自动翻译，而是在人的参与下完成整个翻译过程。与人工翻译相比，质量相同或更好，翻译效率可提高一倍以上。CAT使得繁重的手工翻译流程自动化，并大幅度提高了翻译效率和翻译质量。

在翻译过程中，存在着大量重复或相似的句子和片段。采用人工笔译哪怕是最简单的句子，也需要书写一遍。CAT技术具有自动记忆和搜索机制，可以自动存储用户翻译的内容。当用户翻译某个句子时，系统自动搜索用户已经翻译过的句子，如果当前翻译的句子用户曾经翻译过，会自动给出以前的翻译结果；对于相似的句子，也会给出翻译参考和建议。

现有技术已经提出多种机器翻译或者计算机辅助翻译的技术方案。申请号为CN201810063565.2的中国发明专利提出一种基于深度学习的专业领域机器同步翻译装置及方法，利用该发明的技术方案，可推动同声传译从译员同传(Human SI)向机辅同传(Computer-aidedSI)，再向最终的机器口译(Machine SI)发展。基于深度学习来一方面解决译员在同声传译现场出现的听不懂、记不住、译不出的困难，提高术语和固有表达的双语转换正确率，另一方面译员可以根据机器翻译在线即时进行译后编辑，提高译语的信息量，而且在一些场景能够替代译员实现延时一秒以内的准实时的同声传译功能；申请号为CN201710877018.3的中国发明专利申请则提出基于双语片段的交互式机器翻译方法，该方法改进了交互协议，允许译员确认双语片段，给译员提供更多的线索，并给予解码器更直接的指导，减少人机交互过程中的人类劳动，促进交互式机器翻译效率和翻译质量的提升，确认双语片段比从错误的译文中识别正确的片段更容易；并且还设计了一个面向真实译员的界面，允许译员拆分和合并切分后的短语，并提供了增加翻译选项多样性的重排序方法，这些都有助于提高真实场景中的交互式翻译效率；中国科学院自动化研究所提交的专利申请“人机交互翻译模型的更新方法及更新系统”(申请号CN201611170954.2)也提出人机交互翻译模型的更新方法及更新系统，该方案提出的人机交互翻译模型的更新方法通过引入用户反馈的人工翻译译文，通过对目标语言句子及源语言句子进行分词处理、对齐、抽取短语翻译知识以实时更新基于在线随机森林的机器翻译模型，缓解重复出现相同的翻译错误。

然而，机器翻译虽然快速，但是其准确度依然不能完全满足实际需要。尤其是对于一些重大的涉及敏感问题的待译文档，单纯的仅仅依靠机器翻译的结果是无法满足客户要求的。不管机器翻译或者计算机辅助翻译的方案如何改进，人工编辑校对甚至翻译都不可缺少。然而，如何平衡人工编辑翻译和机器翻译的工作时间、人工翻译何时接介入、以何种方式介入并且在保证准确度的同时能够满足大规模语义翻译的需要，现有技术并未给出有效的解决方案。

发明内容

为解决上述技术问题，本发明提出一种基于多机器引擎上下文比对结果的协同翻译系统、基于上下文语义对比的人机协同翻译方法以及实现所述方法的计算机可读存储介质。所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎，所述文档拆分识别引擎至少包含两个输出结果识别分支，所述输出结果识别分支包括第一识别分支和第二识别分支；所述第一识别分支连接至句子上下文抽取引擎，并将所述句子上下文抽取引擎的抽取结果输入至比对翻译引擎；所述第二识别分支连接至段落上下文抽取引擎，并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎；并且，所述比对翻译引擎的输出结果经比对判断组件判断之后，反馈给所述段落上下文抽取引擎；所述比对翻译引擎、所述比对判断组件以及所述人工翻译引擎的输出结果均显示于翻译结果对照界面。

本发明的技术方案在翻译过程中的多个阶段充分利用上下文概念以及机器翻译引擎的相互对比结果，从而提供人工翻译介入的准确时机，使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率，同时确保翻译的准确性。

具体来说，在本发明的第一个方面，提供一种基于多机器引擎上下文比对结果的协同翻译系统，所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎；

所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对其进行文档拆分识别输出，

作为本发明的关键技术贡献之一，所述文档拆分识别引擎至少包含两个输出结果识别分支，所述输出结果识别分支包括第一识别分支和第二识别分支；

所述第一识别分支连接至句子上下文抽取引擎，并将所述句子上下文抽取引擎的抽取结果输入至比对翻译引擎；

所述第二识别分支连接至段落上下文抽取引擎，并将所述段落上下文抽取引擎的抽取结果输入至人工翻译引擎；

并且，所述比对翻译引擎的输出结果经比对判断组件判断之后，反馈给所述段落上下文抽取引擎；

所述比对翻译引擎、所述比对判断组件以及所述人工翻译引擎的输出结果均显示于翻译结果对照界面。

进一步的，作为体现上述关键技术贡献的关键技术手段，所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对其进行文档拆分识别输出,具体包括：

对待译文档进行段落识别，将其划分为以段落为单位的段落语义单位子集；

对于所述段落语义单位子集中的每一个段落，判断其是否满足段落翻译预定条件，如果否，则将该段落通过所述第二识别分支输入至所述段落上下文抽取引擎。

与此相对应的，所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对其进行文档拆分识别输出,具体包括：

对于所述段落语义单位子集中的每一个段落，判断其是否满足段落翻译预定条件，

如果是，则将该段落以句子为单位进行句子识别，得到以句子为单位的句子语义单位子集，并将所述句子语义单位子集中的每一个句子，通过所述第一识别分支输入至所述句子上下文抽取引擎。

作为上述关键技术手段的核心判断条件，所述段落翻译预定条件，具体包括如下条件之一或者其组合：

(1)该段落的文本数量低于第一数量阈值；

(2)至少两个机器翻译引擎对于该段落的翻译结果的相似度大于第二阈值；

(3)至少两个机器翻译引擎的各自翻译结果的评分均大于第三阈值。

进一步的，作为体现本发明优点的关键技术手段，将所述句子语义单位子集中的每一个句子，通过所述第一识别分支输入至所述句子上下文抽取引擎，具体包括：

抽取所述句子语义单位子集中的每一个句子的第一预定数量的上下文句子，将所述每一个句子与所述预定数量的上下文句子作为整体输入至所述比对翻译引擎；

所述比对翻译引擎包含多个机器翻译引擎，所述多个机器翻译引擎输出多个翻译结果进行比对判断，并输出比对结果。

与此相组合的，对于所述段落语义单位子集中的每一个段落，判断其是否满足段落翻译预定条件，如果否，则将该段落通过所述第二识别分支输入至所述段落上下文抽取引擎，具体包括：

抽取所述段落语义单位子集中的每一个当前段落的第二预定数量的上下文段落；

将所述上下文段落以句子为单位进行句子识别，得到以句子为单位的上下文句子语义单位子集；

通过至少一个句子翻译引擎对所述上下文句子语义单位子集的每一个句子进行翻译，并将翻译结果和当前段落输入至人工翻译引擎的显示界面。

本发明还提供一种基于上下文语义对比的人机协同翻译方法，所述人机协同翻译方法可以基于前述所述的多机器引擎上下文比对结果的协同翻译系统实现。

具体来说，所述方法通过包括计算机在内的多种通信终端实现，包括如下步骤：

X100：输入待译文档D；

X200:对所述待译文档D进行文本语义分析后，拆分得到多个段落Di,i＝1,2,…，n；

X300：对于每一个段落Di，执行如下文本处理程序，直到所有Di均处理完成：

S301：判断Di是否满足预定条件，如果是，执行步骤S302-S304；否则，执行步骤S305-S308：

S302：将Di进行句子识别，得到组成Di的多个句子单位Jk，k＝1，…，m；

S303：对于每一个Jk，抽取其上下文句子Jk-1，Jk+1；

S304：将{Jk-1，Jk，Jk+1}输入至包含多个机器翻译引擎的比对翻译引擎，并将所述多个机器翻译引擎输出的多个翻译结果进行比对判断，输出比对结果；

S305：抽取Di的上下文段落Di-1以及Di+1；

S306：将Di-1进行句子识别，得到组成Di-1的多个句子单位Jup-k，k＝1，…，s；

S307：将Di+1进行句子识别，得到组成Di+1的多个句子单位Jdown-k，k＝1，…t；

S308：通过至少一个句子翻译引擎对多个句子单位Jup-k以及多个句子单位Jdown-k进行翻译，并将翻译结果和段落Di输入至人工翻译引擎的显示界面。

作为进一步的优选，并且在实际中能够起到更好的人机交互协同作用，所述步骤S308进一步包括：将所述段落Di进行句子识别后，输入至所述显示界面显示每一个句子的参考译文。

本发明的上述方法可以通过计算机指令形式的程序代码实现，因此，本发明还提供计算机可读存储介质，其上存储有计算机可执行指令，通过包含存储器和处理器的通信终端，执行所述可执行指令，用于实现前述所述的基于上下文语义对比的人机协同翻译方法。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的基于多机器引擎上下文比对结果的协同翻译系统的整体架构图。

图2是图1所述系统中文档拆分识别引擎的工作流程图。

图3是图1所述系统中句子上下文抽取引擎的工作流程图。

图4是图1所述系统中段落上下文抽取引擎的工作流程图。

图5是利用图1所述系统实现的基于上下文语义对比的人机协同翻译方法的流程示意图。

图6是图5所述方法中文本处理程序的具体实现步骤图。

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

参照图1，本发明一个实施例的基于多机器引擎上下文比对结果的协同翻译系统的整体架构图。

图1中，所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎；

所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对其进行文档拆分识别输出；

作为体现本发明的关键技术贡献之一，在本实例中，所述文档拆分识别引擎至少包含两个输出结果识别分支，所述输出结果识别分支包括第一识别分支和第二识别分支；

在一个特定的场景中，所述待译文档为包含法律术语/专业术语的文档，不能完全依靠机器翻译的结果；

在另一个优选的实施例中，所述系统还包括反馈调节组件，用于控制所述反馈信号的通断，即控制所述反馈给所述段落上下文抽取引擎的反馈信号。设置该反馈调节组件，可以使得在翻译不太重要的待译文档时，不必依赖人工翻译，这也是体现本发明的通用性和推广性的重要特点之一。

进一步的，在图1基础上，进一步参见图2，图2是图1所述系统中文档拆分识别引擎的工作流程图。

所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对其进行文档拆分识别输出,具体包括：

与本实例的具体翻译需求相对应的，作为体现关键技术手段的核心判断条件，所述段落翻译预定条件，具体包括如下条件之一或者其组合：

(1)该段落的文本数量低于第一数量阈值；

上述判断条件是具体结合机器翻译的特点(参见前述背景技术介绍)，结合本发明的实际效果，经发明人创造性的劳动总结出来的，属于本发明的关键技术手段之一。

接下来参见图3-4，是对图1-2的进一步介绍。图3是图1所述系统中句子上下文抽取引擎的工作流程图。图4是图1所述系统中段落上下文抽取引擎的工作流程图。

具体来说，图3中，将所述句子语义单位子集中的每一个句子，通过所述第一识别分支输入至所述句子上下文抽取引擎，具体包括：

需要指出的是，图3的所述上文句子、下文句子采用了虚线框表示，意味着在某些情况下，当前句子可能不存在上文句子(例如首句)、不存在下文句子(例如末句)，但是这并不影响本实施例的技术方案的实现，此时，只要在实现时取空即可；并且，上下文句子的具体数量可以根据需要设定，本实施例对此不作具体限定。

图4中，与此相组合的，对于所述段落语义单位子集中的每一个段落，判断其是否满足段落翻译预定条件，如果否，则将该段落通过所述第二识别分支输入至所述段落上下文抽取引擎，具体包括：

需要指出的是，图4的所述段落上下文采用了虚线框表示，意味着在某些情况下，当前段落可能不存在上段落(例如首段)、不存在下段落(例如末段)，但是这并不影响本实施例的技术方案的实现，此时，只要在实现时取空即可；并且，上下文段落的具体数量可以根据需要设定，本实施例对此不作具体限定。

尤其需要指出的是，图3-4并非一一对应。图3采用了多个机器翻译引擎，图4则需要专门的句子翻译引擎。

在图1-4基础上，接下来参见图5，图5是利用图1所述系统实现的基于上下文语义对比的人机协同翻译方法的流程示意图。图5所述方法通过包括计算机在内的多种通信终端实现，包括如下步骤：

X100：输入待译文档D；

X200:对所述待译文档D进行文本语义分析后，拆分得到多个段落Di,i＝1,2,…，n；X300：对于每一个段落Di，执行图5所述的文本处理程序，直到所有Di均处理完成。

参见图6，是图5所述方法中文本处理程序的具体实现步骤图，具体包括如下步骤：

S303：对于每一个Jk，抽取其上下文句子Jk-1，Jk+1；

S305：抽取Di的上下文段落Di-1以及Di+1；

可以理解，上述步骤中，m、n、s、t均为大于1的正整数；

结合图1-6可知，本发明的技术方案在翻译过程中的多个阶段充分利用上下文概念以及机器翻译引擎的相互对比结果，从而提供人工翻译介入的准确时机，使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率，同时确保翻译的准确性；此外，本发明还可以设置反馈控制组件，例如反馈调节组件，用于控制所述反馈信号的通断，即控制所述反馈给所述段落上下文抽取引擎的反馈信号。设置该反馈调节组件，可以使得在翻译不太重要的待译文档时，不必依赖人工翻译，这也是体现本发明的通用性和推广性的重要特点之一。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多机器引擎上下文比对结果的协同翻译系统，所述协同翻译系统包括待译文档输入组件、与所述待译文档输入组件通信的文档拆分识别引擎；

其特征在于：

所述文档拆分识别引擎至少包含两个输出结果识别分支，所述输出结果识别分支包括第一识别分支和第二识别分支；

所述文档拆分识别引擎接收所述待译文档输入组件输入的待译文档，对待译文档进行段落识别，将其划分为以段落为单位的段落语义单位子集；对于所述段落语义单位子集中的每一个段落，判断其是否满足段落翻译预定条件；

如果是，则将该段落以句子为单位进行句子识别，得到以句子为单位的句子语义单位子集，并将所述句子语义单位子集中的每一个句子，通过所述第一识别分支输入至所述句子上下文抽取引擎；

如果否，则将该段落通过所述第二识别分支输入至所述段落上下文抽取引擎；

所述比对翻译引擎的输出结果经比对判断组件判断之后，反馈给所述段落上下文抽取引擎；所述比对翻译引擎、所述比对判断组件以及所述人工翻译引擎的输出结果均显示于翻译结果对照界面。

2.如权利要求1所述的协同翻译系统，其特征在于：所述段落翻译预定条件，具体包括如下条件之一或者其组合：

该段落的文本数量低于第一数量阈值；

至少两个机器翻译引擎对于该段落的翻译结果的相似度大于第二阈值；

至少两个机器翻译引擎的各自翻译结果的评分均大于第三阈值。

3.如权利要求1所述的协同翻译系统，其特征在于：将所述句子语义单位子集中的每一个句子，通过所述第一识别分支输入至所述句子上下文抽取引擎，具体包括：

抽取所述句子语义单位子集中的每一个句子的第一预定数量的上下文句子，将所述每一个句子与所述第一预定数量的上下文句子作为整体输入至所述比对翻译引擎；

4.如权利要求1所述的协同翻译系统，其特征在于：

对于所述段落语义单位子集中的每一个段落，判断其是否满足段落翻译预定条件，如果否，则将该段落通过所述第二识别分支输入至所述段落上下文抽取引擎，具体包括：

5.一种基于上下文语义对比的人机协同翻译方法，其特征在于,所述人机协同翻译方法包括如下步骤：

X100：输入待译文档D；

S303：对于每一个Jk，抽取其上下文句子Jk-1，Jk+1；

S305：抽取Di的上下文段落Di-1以及Di+1；

6.如权利要求5所述的人机协同翻译方法，其特征在于：

所述步骤S308进一步包括：将所述段落Di进行句子识别后，输入至所述显示界面显示每一个句子的参考译文。

7.一种计算机可读存储介质，其上存储有计算机可执行指令，通过包含存储器和处理器的通信终端，执行所述可执行指令，用于实现权利要求5或6所述的一种基于上下文语义对比的人机协同翻译方法的全部步骤。