CN108491399A

CN108491399A - 基于语境迭代分析的汉译英机器翻译方法

Info

Publication number: CN108491399A
Application number: CN201810282274.2A
Authority: CN
Inventors: 王路
Original assignee: Shanghai Dipper Heng Mdt Infotech Ltd
Current assignee: Shanghai Dipper Heng Mdt Infotech Ltd
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-09-04
Anticipated expiration: 2038-04-02
Also published as: CN108491399B

Abstract

本发明涉及基于语境迭代分析的汉译英机器翻译方法，包括：(1)判断是否有关键词库、专业术语库、汉语常见关联词句式库、汉语常见片语库、带有语境信息的单词库、统计机器翻译模型，若缺少任一个库或模型，进入步骤(2)，反之，进入步骤(3)；(2)构建1个关键词库、1个专业术语库、1个汉语常见关联词句式库、1个汉语常见片语库、1个带有语境信息的单词库和1个统计机器翻译模型；(3)接收待翻译的论文的中文摘要，并对其进行语境迭代翻译；(4)规整英文摘要；(5)输出英文摘要。本发明公开的基于语境迭代分析的汉译英机器翻译方法具有翻译领域广、准确率高等优点。

Description

基于语境迭代分析的汉译英机器翻译方法

技术领域

本发明属于人工智能机器翻译领域，涉及一种汉译英的机器翻译方法，特别涉及基于语境迭代分析的汉译英机器翻译方法。

背景技术

机器翻译是利用计算机技术将人类的某种自然语言转换为另一种自然语言的过程。它是人工智能和自然语言处理领域的重要研究方向之一。不仅具有重要的科学研究价值，同时也具有重要的实用价值。随着经济全球化及互联网的飞速发展，机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。

目前，技术成熟且使用最为流行的机器翻译技术是基于统计的机器翻译方法。虽然，当前最前沿的基于神经网络的机器翻译方法异军突起，但是由于构建翻译神经网络对硬件要求过高，因此对于提供机器翻译服务的中小微企业而言，使用基于统计的机器翻译方法仍然是一个现实的选择。统计机器翻译方法的工作方式是使用非常庞大的平行语料库以及短语语料库训练翻译模型。当翻译汉语句子时，基于统计的机器翻译系统首先把汉语句子分解成若干短语，然后翻译模型根据训练的“汉语—英语”短语对的共现概率，选择出对应的英文短语，这样就把汉语逐步翻译成英语。

这种基于短语共现概率的统计机器翻译方法有个主要缺陷：在选择英文短语时只考虑了“汉语—英语”短语对的共现概率，没有考虑汉语出现的语境信息，即只选择共现概率最大的英语短语，但被选的英语短语在这个语境中出现是否合适或者是否正确则没有考量。

语境是语用交际系统中的三大要素之一，它是与具体的语用行为密切联系的、同语用过程相始终的、对语用活动有重要影响的条件和背景；它是诸多因素构成的、相对独立的客观存在，又同语用主体和话语实体互相渗透；它既是确定的，又是动态的，以语境场的方式在语用活动中发挥作用。

通过语境的定义可以发现，语境对语言的使用至关重要。在翻译过程中如果不考虑语境因素，是无法保证翻译质量的。

虽然有的统计机器翻译实现了依据相邻短语的语境信息来选择英语短语的方法，但对于依据更外层的语境，比如句子成分、句子、句间、篇章等这种长距离语境，来选择英语短语，则仍然没有实现。

以汉语常见的搭配结构“一方面…另一方面…”构成的句间语境举例。如果没有这种句间语境分析，现有的统计机器翻译只会关注到“一方面”或“另一方面”，最多也只能关注与它们两个各自相邻的短语，而不会发现“一方面”和“另一方面”之间具有逻辑上的关联。这样，它在翻译“一方面”时，就有可能忽略或直接翻译成“in one way”。但是如果利用句间语境分析，就会发现这种逻辑上的关联，并在翻译时加以利用。那么“一方面…另一方面…”就有可能会很翻译成“on the one hand…,but on the other…”。

再以篇章构成的语境举例。假设一个汉语名词“架构”出现在一篇科技论文摘要中，如果没有篇章语境分析，那么对“架构”的翻译就完全依赖于统计翻译模型在训练时使用的语料。一般情况下，现有的统计机器翻译模型的训练语料绝大部分属于时政新闻类型，那么对“架构”的翻译也就来自于时政新闻的语境。比如像“股权架构”就非常容易出现在新闻中，那么“架构”就很有可能就依据这种语境来翻译了。如果这篇论文摘要来自于“计算机科学领域”，那么翻译时就有可能造成偏差。但是如果有篇章语境分析，就可以确定这篇摘要属于哪个学科领域。依据学科领域，对“架构”进行翻译就会相对准确一些。比如在“计算机科学技术”领域，可能会翻译成“framework”或“architecture”；在“管理科学”领域，则有可能会翻译成“structure”。

综上所述，缺少语境分析或语境分析不足，导致语境信息缺失，使翻译质量下降，这就是当前统计机器翻译方法存在的主要缺陷。

发明内容

发明目的：本发明针对上述问题，提出了一种基于语境迭代分析的汉译英机器翻译方法，通过对中文摘要的语境进行迭代分析，获取多层语境信息，改善翻译模型的翻译质量，克服现有统计机器翻译方法的不足。

要对论文摘要进行语境的迭代分析，首先要进行语境的划分与定义。针对论文摘要这种文体，本发明提出了6类语境，并分别进行了定义，并以一篇论文摘要为例分别对6类语境的定义加以解释说明。在阐述6类语境的定义之前，我们先给出“句子”的定义。我们对“句子”的定义是：以“，,。；！？:？！；”这些标点符号作为结尾的汉语文本称之为一个句子。

以2016年合肥工业大学某博士学位论文《类人机器人表情识别与表情再现方法研究》的论文摘要为例，依次阐述6类语境的定义。该论文摘要片段如下：“作为智能机器，类人机器人不仅需要具有与人相似的外表，还需要拥有跟人一样的情感感知能力和情感表达能力。而表情是基于情感感知的最主要的载体，也是情感表达最直接、最明显的方式。因此，研究类人机器人表情识别与表情再现方法对提高机器人情感交互能力具有重要理论意义，对推动类人机器人走向实用化也具有重要应用价值。”

“篇章语境”，把整篇的论文摘要形成的语境称之为“篇章语境”。

“句间语境”，把含有汉语关联词的，具有某种逻辑联系的，若干相邻的句子形成的语境称之为“句间语境”。比如：“类人机器人不仅需要具有与人相似的外表，还需要拥有跟人一样的情感感知能力和情感表达能力。”，这两个相邻的句子就构成了一个句间语境。因为这两个句子不仅相邻，而且含有汉语关联词“不仅…还…”，因此这两个句子构成了一个句间语境。

“句子语境”，把一个句子形成的语境称之为“句子语境”。比如：“而表情是基于情感感知的最主要的载体”这就是一个“句子语境”。

“句子成分语境”，每个句子往往由若干句子成分(主、谓、宾、定、状、补)构成，我们把每个句子成分形成的语境称之为“句子成分语境”。比如：句子语境“而表情是基于情感感知的最主要的载体”是由若干“句子成分语境”构成。比如：主语句子成分语境“表情”、谓语句子成分语境“是”、宾语句子成分语境“基于情感感知的最主要的载体”、状语句子成分语境“而”。

“片语语境”，有些句子成分语境往往由一些常见的语言模式构成。比如：句子成分语境“基于情感感知的最主要的载体”就是由“基于…”这种常见的语言模式构成的。我们把这种常见的语言模式称之为“片语语境”。

“短语语境”，有些“句子成分语境”或“片语语境”往往由若干独立的汉语词语组成。比如：主语句子成分语境“表情”就是由一个独立的汉语词语构成的。比如：片语语境“基于情感感知的最主要的载体”就是由多个汉语词语组成。把一个独立的汉语词语或相邻的多个词语组合形成的语境称之为“短语语境”，比如“表情”或“情感感知”或“最主要的载体”，我们都称之为“短语语境”。

通过对论文摘要进行语境划分，可以明显看出语境的嵌套特征。即“篇章语境”包含着“句间语境”；“句间语境”包含着“句子语境”；“句子语境”包含着“句子成分语境”；“句子成分语境”包含着更低一级的“句子成分语境”或“片语语境”或“短语语境”，例如：“研究类人机器人表情识别与表情再现方法对提高机器人情感交互能力具有重要理论意义”，这句话中主语成分“研究类人机器人表情识别与表情再现方法”是由动宾结构构成的，因此“研究类人机器人表情识别与表情再现方法”这个主语成分的语境中包含了一个更低一级的谓语成分“研究”和一个更低一级的宾语成分“类人机器人表情识别与表情再现方法”；“片语语境”包含着“短语语境”。

依据语境的嵌套特征，我们把语境由外向内，依次分为6个级别：

第一级别：篇章语境

第二级别：句间语境

第三级别：句子语境

第四级别：句子成分语境

第五级别：片语语境

第六级别：短语语境

语境的迭代分析就是把中文摘要的语境从第一级向第六级逐级分解、逐级分析、逐级翻译的过程。分解到某一级语境，迭代翻译模型就会对该级别下的所有语境进行检测，如果能够被迭代翻译模型直接翻译出来，那么该语境就不会继续向下分解；如果不能被迭代翻译模型直接翻译出来，那么该语境就会继续向下分解，直到最后一级语境为止。

技术方案：基于语境迭代分析的汉译英机器翻译方法，包括：

(1)判断是否有关键词库、专业术语库、汉语常见关联词句式库、汉语常见片语库、带有语境信息的单词库、统计机器翻译模型，若缺少任一个库或模型，进入步骤(2)，反之，进入步骤(3)；

(2)构建1个关键词库、1个专业术语库、1个汉语常见关联词句式库、1个汉语常见片语库、1个带有语境信息的单词库和1个统计机器翻译模型，构建完毕后进入步骤(3)；

(21)构建1个关键词库

从各个学科领域的论文中文摘要中提取关键词，构建各个学科领域的关键词库，关键词库每个关键词包含汉语关键词、汉语关键词英语译文、汉语关键词所属学科三个字段；

(22)构建1个专业术语库

从各个学科领域的论文中文摘要中提取专业术词，构建各个学科领域的专业术语库，其中的每个专业术语包含汉语专业术语、汉语专业术语英语译文、汉语专业术语所属学科三个字段；

(23)构建1个汉语常见关联词句式库

从各个学科领域的论文中文摘要中分析常见的汉语关联词，形成汉语常见关联词句式库，其中的每个汉语常见关联词句式包含汉语常见关联词、汉语常见关联词句式、汉语常见关联词英语译文三个字段；

(24)构建1个汉语常见片语库

对各学科领域的论文中文摘要进行依存句法分析，统计出现频率较高的片语，并预先把片语中的特征词语预先翻译成英文，构建汉语常见片语库，其中的每个汉语常见片语包含汉语片语特征词、汉语片语模式、汉语片语特征词英语译文三个字段；

(25)构建1个带有语境信息的单词库

对各学科领域的论文中文摘要进行依存句法分析，统计出具有高频依存关系的词对，构建带有语境信息的单词库；带有语境信息的单词库包含汉语核心词、核心词语境、汉语核心词英语译文三个字段；

(26)构建1个统计机器翻译模型

借助联合国中英平行语料库，对MOSES统计机器翻译模型进行训练，学习短语对短语的翻译进而构建统计机器翻译模型；

(3)接收待翻译的论文的中文摘要，并对其进行语境迭代翻译(31)对接收到的待翻译的论文的中文摘要进行篇章分析，确定待翻译的论文的中文摘要所属的学科领域，然后进入步骤(32)；

(32)依据步骤(23)创建的汉语常见关联词句式库，对接收到的待翻译的论文的中文摘要，进行句间语境分析，寻找带有常见的汉语关联词的句间语境；如果找到匹配的句间语境，则把句间语境中含有的汉语关联词替换成汉语关联词英语译文，待翻译的论文的中文摘要就转换成为中英文的混合形式，然后进入步骤(33)；如果没有找到匹配的句间语境，然后进入步骤(33)；

(33)把经过步骤(32)处理的待翻译的论文的中文摘要分解成多个句子语境，然后进入步骤(34)；

(34)逐一翻译步骤(33)得到的句子语境，并将每一个句子语境的翻译结果返回到篇章语境中，然后进入步骤(35)；

(35)在篇章语镜中组合各个句子语境的翻译结果，形成英文摘要；

(4)规整英文摘要

(41)对步骤(35)生成的英文摘要，每一句的首字母变成大写形式，然后进入步骤(42)；

(42)删除步骤(41)处理的英文摘要中含有的多余的空格，并将标点符号替换成英文标点；

(5)输出英文摘要。

进一步地，步骤(34)包括以下步骤：

(341)对句子语境进行依存句法分析，获得句子的依存结构，然后进入步骤(342)；

(342)根据步骤(341)得到的句子依存结构，把句子语境分解成若干句子成分语境，然后进入步骤(343)；

(343)逐一翻译步骤(342)得到的句子成分语境，并将每一个句子成分语境的翻译结果返回到句子语境中，然后进入步骤(344)；

(344)在句子语境中组合各个句子成分语境的翻译结果，然后进入步骤(345)；

(345)把翻译结果返回给篇章语境。

更进一步地，步骤(343)包括以下步骤：

(3431)提取句子成分语境中的中文文本，然后进入步骤(3432)；

(3432)依据步骤(24)创建的汉语常见片语库，对步骤(3431)提取的中文文本，寻找与之匹配的汉语常见片语，如果匹配成功，进入步骤(3433)；如果未匹配成功，则进入步骤(3434)；

(3433)把在步骤(3432)中与汉语常见片语相匹配的句子成分语境作为一个片语语境进行翻译，然后进入步骤(3436)；

(3434)把在步骤(3432)与汉语常见片语未相匹配句子成分语境进行句子成分分析，查看该句子成分语境中是否含有子句子成分，如果有，提取各子句子成分语境，然后进入步骤(3431)；如果没有，进入步骤(3435)；

(3435)把该句子成分语境作为一个短语语境进行翻译，然后进入步骤(3436)；

(3436)把翻译结果返回给句子语境或上一级的句子成分语境。

更进一步地，步骤(3433)包括以下步骤：

(34331)提取片语语境中的中文文本，然后进入步骤(34332)；

(34332)依据步骤(24)创建的汉语常见片语库，对步骤(34331)提取的中文文本，寻找与之匹配的汉语常见片语；如果匹配成功，进入步骤(34333)，如果未匹配成功，则进入步骤(34335)；

(34333)把在步骤(34332)中与汉语常见片语相匹配的中文文本中含有的汉语片语特征词替换成汉语片语特征词英语译文，然后进入步骤(34334)；

(34334)判断步骤(34333)处理后的文本是否还有中文，如果有中文，则进入步骤(34331)；如果没有中文，则进入步骤(34336)；

(34335)把步骤(34331)提取的中文文本作为一个短语语境进行翻译，然后进入步骤(34336)；

(34336)把翻译结果返回给句子成分语境或上一级片语语境。

更进一步地，步骤(34335)包括以下步骤：

(343351)提取短语语境中的中文文本，然后进入步骤(343352)；

(343352)依据步骤(25)构建的带有语境信息的单词库以及步骤(31)分析的待翻译的论文的中文摘要所属的学科领域，对步骤(343351)提取的中文文本，寻找与其相匹配的核心词语境，如果找到，则进入步骤(343353)；如果没有找到，则进入步骤(343355)；

(343353)依据步骤(343352)找到的核心词语境，把与中文文本相匹配的汉语核心词替换成对应的汉语核心词英语译文，然后进入步骤(343354)；

(343354)判断步骤(343353)转换后的文本是否还有中文，如果还有中文，则进入步骤(343351)；如果没有，则进入步骤(343356)；

(343355)借助步骤(26)构建的统计机器翻译模型，将与带有语境信息的单词库中的核心词语境不相匹配的中文文本进行翻译，然后进入步骤(343356)；

(343356)把翻译结果返回给步骤(34335)涉及的片语语境或步骤(343354)涉及的上一级短语语境。

更进一步地，步骤(3435)包括以下步骤：

(34351)提取短语语境中的中文文本，然后进入步骤(34352)；

(34352)依据步骤(25)构建的带有语境信息的单词库以及步骤(31)分析的中文摘要所属的学科领域，寻找与中文文本相匹配的核心词语境，如果找到，则进入步骤(34353)；如果没有找到，则进入步骤(34355)；

(34353)依据步骤(34352)找到的核心词语境，把中文文本中匹配成功的汉语核心词替换成对应的汉语核心词英语译文，然后进入步骤(34354)；

(34354)判断步骤(34353)转换后的文本是否还有中文，如果还有中文，则进入步骤(34351)；如果没有中文，则进入步骤(34356)；

(34355)借助步骤(26)构建的统计机器翻译模型，将与带有语境信息的单词库中的核心词语境不相匹配的中文文本进行翻译，然后进入步骤(34356)；

(34356)把翻译结果返回给步骤(3435)涉及的句子成分语境或步骤(34354)涉及的上一级短语语境。

有益效果：本发明公开的基于语境迭代分析的汉译英机器翻译方法具有以下有益效果：

1、能够对多个学科领域的科技论文的中文摘要进行准确地翻译，即通过确定中文摘要所属的学科领域，再利用各学科领域(主要包括工业技术领域、航空航天领域、环境科学领域、安全科学领域、交通运输领域、经济领域、农业科学领域、数理科学化学领域、天文学地球科学领域、文化科学教育体育领域、医药卫生领域、政治法律领域)的词表进行翻译；

2、本发明提高了对远距离相关联的句间汉语连词的翻译准确度，即通过句间语境分析，确定句间汉语关联词的逻辑联系，并依据这种逻辑联系进行翻译；

3、本发明提高了词语的翻译准确度，即通过句子成分语境分析、片语语境分析、短语语境分析，确定词语所在的语境，依据语境信息进行翻译。

附图说明

图1为本发明公开的基于语境迭代的汉译英机器翻译方法的流程图。

图2为步骤(3)的流程图。

图3为步骤(4)的流程图。

图4为步骤(34)的流程图。

图5为步骤(343)的流程图。

图6为步骤(3433)的流程图。

图7为步骤(3435)的流程图。

图8为步骤(34335)的流程图。

具体实施方式：

下面对本发明的具体实施方式详细说明。

如图1～8所示，基于语境迭代分析的汉译英机器翻译方法，包括：

(21)构建1个关键词库

(22)构建1个专业术语库

(23)构建1个汉语常见关联词句式库

从各个学科领域的论文中文摘要中分析常见的汉语关联词，形成汉语常见关联词句式库，其中的每个汉语常见关联词句式包含汉语常见关联词、汉语常见关联词句式、汉语常见关联词英语译文三个字段；汉语常见关联词句式是用正则表达式表示的带有汉语常见关联词的汉语句子，汉语常见关联词句式用于句间语境分析；

(24)构建1个汉语常见片语库

对各学科领域的论文中文摘要进行依存句法分析，统计出现频率较高的片语，并预先把片语中的特征词语预先翻译成英文，构建汉语常见片语库，其中的每个汉语常见片语包含汉语片语特征词、汉语片语模式、汉语片语特征词英语译文三个字段，汉语常见片语库中的汉语片语特征词是指汉语常见片语中含有的、能够代表该汉语常见片语的独一无二的一个汉语词语；汉语常见片语库中的汉语片语模式是以正则表达式的形式描述的汉语常见片语；汉语常见片语库中的汉语片语特征词英语译文是汉语片语特征词的英文翻译；

(25)构建1个带有语境信息的单词库

对各学科领域的论文中文摘要进行依存句法分析，统计出具有高频依存关系的词对，构建带有语境信息的单词库；带有语境信息的单词库包含汉语核心词、核心词语境、汉语核心词英语译文三个字段；带有语境信息的单词库中的汉语核心词是一个待翻译的汉语词语；带有语境信息的单词库中的核心词语境是以正则表达式的形式描述的汉语核心词的语境信息；带有语境信息的单词库中的汉语核心词英语译文是在特定的核心词语境下待翻译的汉语核心词的英文翻译；

(26)构建1个统计机器翻译模型

(3)接收待翻译的论文的中文摘要，并对其进行语境迭代翻译

(31)对接收到的待翻译的论文的中文摘要进行篇章分析，确定待翻译的论文的中文摘要所属的学科领域，然后进入步骤(32)；

(4)规整英文摘要

(5)输出英文摘要。

进一步地，如图4所示，步骤(34)包括以下步骤：

(345)把翻译结果返回给篇章语境。

更进一步地，如图5所示，步骤(343)包括以下步骤：

(3431)提取句子成分语境中的中文文本，然后进入步骤(3432)；

(3436)把翻译结果返回给句子语境或上一级的句子成分语境。

更进一步地，如图6所示，步骤(3433)包括以下步骤：

(34331)提取片语语境中的中文文本，然后进入步骤(34332)；

(34336)把翻译结果返回给句子成分语境或上一级片语语境。

更进一步地，如图8所示，步骤(34335)包括以下步骤：

(343351)提取短语语境中的中文文本，然后进入步骤(343352)；

(543355)借助步骤(26)构建的统计机器翻译模型，将与带有语境信息的单词库中的核心词语境不相匹配的中文文本进行翻译，然后进入步骤(343356)；

更进一步地，如图7所示，步骤(3435)包括以下步骤：

(34351)提取短语语境中的中文文本，然后进入步骤(34352)；

上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于语境迭代分析的汉译英机器翻译方法，其特征在于，包括：

(21)构建1个关键词库

(22)构建1个专业术语库

(23)构建1个汉语常见关联词句式库

从各个学科领域的论文中文摘要中分析常见的汉语关联词，

形成汉语常见关联词句式库，其中的每个汉语常见关联词句式包含汉语常见关联词、汉语常见关联词句式、汉语常见关联词英语译文三个字段；

(24)构建1个汉语常见片语库

(25)构建1个带有语境信息的单词库

(26)构建1个统计机器翻译模型

(3)接收待翻译的论文的中文摘要，并对其进行语境迭代翻译

(4)规整英文摘要

(42)删除步骤(41)处理的英文摘要中含有的多余的空格，

并将标点符号替换成英文标点；

(5)输出英文摘要。

2.根据权利要求1所述的基于语境迭代分析的汉译英机器翻译方法，其特征在于，步骤(34)包括以下步骤：

(345)把翻译结果返回给篇章语境。

3.根据权利要求2所述的基于语境迭代分析的汉译英机器翻译方法，其特征在于，步骤(343)包括以下步骤：

(3431)提取句子成分语境中的中文文本，然后进入步骤(3432)；

(3436)把翻译结果返回给句子语境或上一级的句子成分语境。

4.根据权利要求3所述的基于语境迭代分析的汉译英机器翻译方法，其特征在于，步骤(3433)包括以下步骤：

(34331)提取片语语境中的中文文本，然后进入步骤(34332)；

(34336)把翻译结果返回给句子成分语境或上一级片语语境。

5.根据权利要求4所述的基于语境迭代分析的汉译英机器翻译方法，其特征在于，步骤(34335)包括以下步骤：

(343351)提取短语语境中的中文文本，然后进入步骤(343352)；

6.根据权利要求3所述的基于语境迭代分析的汉译英机器翻译方法，其特征在于，步骤(3435)包括以下步骤：

(34351)提取短语语境中的中文文本，然后进入步骤(34352)；