CN108491399A - 基于语境迭代分析的汉译英机器翻译方法 - Google Patents
基于语境迭代分析的汉译英机器翻译方法 Download PDFInfo
- Publication number
- CN108491399A CN108491399A CN201810282274.2A CN201810282274A CN108491399A CN 108491399 A CN108491399 A CN 108491399A CN 201810282274 A CN201810282274 A CN 201810282274A CN 108491399 A CN108491399 A CN 108491399A
- Authority
- CN
- China
- Prior art keywords
- chinese
- context
- word
- phrase
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 142
- 238000004458 analytical method Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims description 9
- 230000014616 translation Effects 0.000 description 101
- 230000008451 emotion Effects 0.000 description 8
- 230000008447 perception Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 3
- 239000004615 ingredient Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于语境迭代分析的汉译英机器翻译方法,包括:(1)判断是否有关键词库、专业术语库、汉语常见关联词句式库、汉语常见片语库、带有语境信息的单词库、统计机器翻译模型,若缺少任一个库或模型,进入步骤(2),反之,进入步骤(3);(2)构建1个关键词库、1个专业术语库、1个汉语常见关联词句式库、1个汉语常见片语库、1个带有语境信息的单词库和1个统计机器翻译模型;(3)接收待翻译的论文的中文摘要,并对其进行语境迭代翻译;(4)规整英文摘要;(5)输出英文摘要。本发明公开的基于语境迭代分析的汉译英机器翻译方法具有翻译领域广、准确率高等优点。
Description
技术领域
本发明属于人工智能机器翻译领域,涉及一种汉译英的机器翻译方法,特别涉及基于语境迭代分析的汉译英机器翻译方法。
背景技术
机器翻译是利用计算机技术将人类的某种自然语言转换为另一种自然语言的过程。它是人工智能和自然语言处理领域的重要研究方向之一。不仅具有重要的科学研究价值,同时也具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。
目前,技术成熟且使用最为流行的机器翻译技术是基于统计的机器翻译方法。虽然,当前最前沿的基于神经网络的机器翻译方法异军突起,但是由于构建翻译神经网络对硬件要求过高,因此对于提供机器翻译服务的中小微企业而言,使用基于统计的机器翻译方法仍然是一个现实的选择。统计机器翻译方法的工作方式是使用非常庞大的平行语料库以及短语语料库训练翻译模型。当翻译汉语句子时,基于统计的机器翻译系统首先把汉语句子分解成若干短语,然后翻译模型根据训练的“汉语—英语”短语对的共现概率,选择出对应的英文短语,这样就把汉语逐步翻译成英语。
这种基于短语共现概率的统计机器翻译方法有个主要缺陷:在选择英文短语时只考虑了“汉语—英语”短语对的共现概率,没有考虑汉语出现的语境信息,即只选择共现概率最大的英语短语,但被选的英语短语在这个语境中出现是否合适或者是否正确则没有考量。
语境是语用交际系统中的三大要素之一,它是与具体的语用行为密切联系的、同语用过程相始终的、对语用活动有重要影响的条件和背景;它是诸多因素构成的、相对独立的客观存在,又同语用主体和话语实体互相渗透;它既是确定的,又是动态的,以语境场的方式在语用活动中发挥作用。
通过语境的定义可以发现,语境对语言的使用至关重要。在翻译过程中如果不考虑语境因素,是无法保证翻译质量的。
虽然有的统计机器翻译实现了依据相邻短语的语境信息来选择英语短语的方法,但对于依据更外层的语境,比如句子成分、句子、句间、篇章等这种长距离语境,来选择英语短语,则仍然没有实现。
以汉语常见的搭配结构“一方面…另一方面…”构成的句间语境举例。如果没有这种句间语境分析,现有的统计机器翻译只会关注到“一方面”或“另一方面”,最多也只能关注与它们两个各自相邻的短语,而不会发现“一方面”和“另一方面”之间具有逻辑上的关联。这样,它在翻译“一方面”时,就有可能忽略或直接翻译成“in one way”。但是如果利用句间语境分析,就会发现这种逻辑上的关联,并在翻译时加以利用。那么“一方面…另一方面…”就有可能会很翻译成“on the one hand…,but on the other…”。
再以篇章构成的语境举例。假设一个汉语名词“架构”出现在一篇科技论文摘要中,如果没有篇章语境分析,那么对“架构”的翻译就完全依赖于统计翻译模型在训练时使用的语料。一般情况下,现有的统计机器翻译模型的训练语料绝大部分属于时政新闻类型,那么对“架构”的翻译也就来自于时政新闻的语境。比如像“股权架构”就非常容易出现在新闻中,那么“架构”就很有可能就依据这种语境来翻译了。如果这篇论文摘要来自于“计算机科学领域”,那么翻译时就有可能造成偏差。但是如果有篇章语境分析,就可以确定这篇摘要属于哪个学科领域。依据学科领域,对“架构”进行翻译就会相对准确一些。比如在“计算机科学技术”领域,可能会翻译成“framework”或“architecture”;在“管理科学”领域,则有可能会翻译成“structure”。
综上所述,缺少语境分析或语境分析不足,导致语境信息缺失,使翻译质量下降,这就是当前统计机器翻译方法存在的主要缺陷。
发明内容
发明目的:本发明针对上述问题,提出了一种基于语境迭代分析的汉译英机器翻译方法,通过对中文摘要的语境进行迭代分析,获取多层语境信息,改善翻译模型的翻译质量,克服现有统计机器翻译方法的不足。
要对论文摘要进行语境的迭代分析,首先要进行语境的划分与定义。针对论文摘要这种文体,本发明提出了6类语境,并分别进行了定义,并以一篇论文摘要为例分别对6类语境的定义加以解释说明。在阐述6类语境的定义之前,我们先给出“句子”的定义。我们对“句子”的定义是:以“,,。;!?:?!;”这些标点符号作为结尾的汉语文本称之为一个句子。
以2016年合肥工业大学某博士学位论文《类人机器人表情识别与表情再现方法研究》的论文摘要为例,依次阐述6类语境的定义。该论文摘要片段如下:“作为智能机器,类人机器人不仅需要具有与人相似的外表,还需要拥有跟人一样的情感感知能力和情感表达能力。而表情是基于情感感知的最主要的载体,也是情感表达最直接、最明显的方式。因此,研究类人机器人表情识别与表情再现方法对提高机器人情感交互能力具有重要理论意义,对推动类人机器人走向实用化也具有重要应用价值。”
“篇章语境”,把整篇的论文摘要形成的语境称之为“篇章语境”。
“句间语境”,把含有汉语关联词的,具有某种逻辑联系的,若干相邻的句子形成的语境称之为“句间语境”。比如:“类人机器人不仅需要具有与人相似的外表,还需要拥有跟人一样的情感感知能力和情感表达能力。”,这两个相邻的句子就构成了一个句间语境。因为这两个句子不仅相邻,而且含有汉语关联词“不仅…还…”,因此这两个句子构成了一个句间语境。
“句子语境”,把一个句子形成的语境称之为“句子语境”。比如:“而表情是基于情感感知的最主要的载体”这就是一个“句子语境”。
“句子成分语境”,每个句子往往由若干句子成分(主、谓、宾、定、状、补)构成,我们把每个句子成分形成的语境称之为“句子成分语境”。比如:句子语境“而表情是基于情感感知的最主要的载体”是由若干“句子成分语境”构成。比如:主语句子成分语境“表情”、谓语句子成分语境“是”、宾语句子成分语境“基于情感感知的最主要的载体”、状语句子成分语境“而”。
“片语语境”,有些句子成分语境往往由一些常见的语言模式构成。比如:句子成分语境“基于情感感知的最主要的载体”就是由“基于…”这种常见的语言模式构成的。我们把这种常见的语言模式称之为“片语语境”。
“短语语境”,有些“句子成分语境”或“片语语境”往往由若干独立的汉语词语组成。比如:主语句子成分语境“表情”就是由一个独立的汉语词语构成的。比如:片语语境“基于情感感知的最主要的载体”就是由多个汉语词语组成。把一个独立的汉语词语或相邻的多个词语组合形成的语境称之为“短语语境”,比如“表情”或“情感感知”或“最主要的载体”,我们都称之为“短语语境”。
通过对论文摘要进行语境划分,可以明显看出语境的嵌套特征。即“篇章语境”包含着“句间语境”;“句间语境”包含着“句子语境”;“句子语境”包含着“句子成分语境”;“句子成分语境”包含着更低一级的“句子成分语境”或“片语语境”或“短语语境”,例如:“研究类人机器人表情识别与表情再现方法对提高机器人情感交互能力具有重要理论意义”,这句话中主语成分“研究类人机器人表情识别与表情再现方法”是由动宾结构构成的,因此“研究类人机器人表情识别与表情再现方法”这个主语成分的语境中包含了一个更低一级的谓语成分“研究”和一个更低一级的宾语成分“类人机器人表情识别与表情再现方法”;“片语语境”包含着“短语语境”。
依据语境的嵌套特征,我们把语境由外向内,依次分为6个级别:
第一级别:篇章语境
第二级别:句间语境
第三级别:句子语境
第四级别:句子成分语境
第五级别:片语语境
第六级别:短语语境
语境的迭代分析就是把中文摘要的语境从第一级向第六级逐级分解、逐级分析、逐级翻译的过程。分解到某一级语境,迭代翻译模型就会对该级别下的所有语境进行检测,如果能够被迭代翻译模型直接翻译出来,那么该语境就不会继续向下分解;如果不能被迭代翻译模型直接翻译出来,那么该语境就会继续向下分解,直到最后一级语境为止。
技术方案:基于语境迭代分析的汉译英机器翻译方法,包括:
(1)判断是否有关键词库、专业术语库、汉语常见关联词句式库、汉语常见片语库、带有语境信息的单词库、统计机器翻译模型,若缺少任一个库或模型,进入步骤(2),反之,进入步骤(3);
(2)构建1个关键词库、1个专业术语库、1个汉语常见关联词句式库、1个汉语常见片语库、1个带有语境信息的单词库和1个统计机器翻译模型,构建完毕后进入步骤(3);
(21)构建1个关键词库
从各个学科领域的论文中文摘要中提取关键词,构建各个学科领域的关键词库,关键词库每个关键词包含汉语关键词、汉语关键词英语译文、汉语关键词所属学科三个字段;
(22)构建1个专业术语库
从各个学科领域的论文中文摘要中提取专业术词,构建各个学科领域的专业术语库,其中的每个专业术语包含汉语专业术语、汉语专业术语英语译文、汉语专业术语所属学科三个字段;
(23)构建1个汉语常见关联词句式库
从各个学科领域的论文中文摘要中分析常见的汉语关联词,形成汉语常见关联词句式库,其中的每个汉语常见关联词句式包含汉语常见关联词、汉语常见关联词句式、汉语常见关联词英语译文三个字段;
(24)构建1个汉语常见片语库
对各学科领域的论文中文摘要进行依存句法分析,统计出现频率较高的片语,并预先把片语中的特征词语预先翻译成英文,构建汉语常见片语库,其中的每个汉语常见片语包含汉语片语特征词、汉语片语模式、汉语片语特征词英语译文三个字段;
(25)构建1个带有语境信息的单词库
对各学科领域的论文中文摘要进行依存句法分析,统计出具有高频依存关系的词对,构建带有语境信息的单词库;带有语境信息的单词库包含汉语核心词、核心词语境、汉语核心词英语译文三个字段;
(26)构建1个统计机器翻译模型
借助联合国中英平行语料库,对MOSES统计机器翻译模型进行训练,学习短语对短语的翻译进而构建统计机器翻译模型;
(3)接收待翻译的论文的中文摘要,并对其进行语境迭代翻译(31)对接收到的待翻译的论文的中文摘要进行篇章分析,确定待翻译的论文的中文摘要所属的学科领域,然后进入步骤(32);
(32)依据步骤(23)创建的汉语常见关联词句式库,对接收到的待翻译的论文的中文摘要,进行句间语境分析,寻找带有常见的汉语关联词的句间语境;如果找到匹配的句间语境,则把句间语境中含有的汉语关联词替换成汉语关联词英语译文,待翻译的论文的中文摘要就转换成为中英文的混合形式,然后进入步骤(33);如果没有找到匹配的句间语境,然后进入步骤(33);
(33)把经过步骤(32)处理的待翻译的论文的中文摘要分解成多个句子语境,然后进入步骤(34);
(34)逐一翻译步骤(33)得到的句子语境,并将每一个句子语境的翻译结果返回到篇章语境中,然后进入步骤(35);
(35)在篇章语镜中组合各个句子语境的翻译结果,形成英文摘要;
(4)规整英文摘要
(41)对步骤(35)生成的英文摘要,每一句的首字母变成大写形式,然后进入步骤(42);
(42)删除步骤(41)处理的英文摘要中含有的多余的空格,并将标点符号替换成英文标点;
(5)输出英文摘要。
进一步地,步骤(34)包括以下步骤:
(341)对句子语境进行依存句法分析,获得句子的依存结构,然后进入步骤(342);
(342)根据步骤(341)得到的句子依存结构,把句子语境分解成若干句子成分语境,然后进入步骤(343);
(343)逐一翻译步骤(342)得到的句子成分语境,并将每一个句子成分语境的翻译结果返回到句子语境中,然后进入步骤(344);
(344)在句子语境中组合各个句子成分语境的翻译结果,然后进入步骤(345);
(345)把翻译结果返回给篇章语境。
更进一步地,步骤(343)包括以下步骤:
(3431)提取句子成分语境中的中文文本,然后进入步骤(3432);
(3432)依据步骤(24)创建的汉语常见片语库,对步骤(3431)提取的中文文本,寻找与之匹配的汉语常见片语,如果匹配成功,进入步骤(3433);如果未匹配成功,则进入步骤(3434);
(3433)把在步骤(3432)中与汉语常见片语相匹配的句子成分语境作为一个片语语境进行翻译,然后进入步骤(3436);
(3434)把在步骤(3432)与汉语常见片语未相匹配句子成分语境进行句子成分分析,查看该句子成分语境中是否含有子句子成分,如果有,提取各子句子成分语境,然后进入步骤(3431);如果没有,进入步骤(3435);
(3435)把该句子成分语境作为一个短语语境进行翻译,然后进入步骤(3436);
(3436)把翻译结果返回给句子语境或上一级的句子成分语境。
更进一步地,步骤(3433)包括以下步骤:
(34331)提取片语语境中的中文文本,然后进入步骤(34332);
(34332)依据步骤(24)创建的汉语常见片语库,对步骤(34331)提取的中文文本,寻找与之匹配的汉语常见片语;如果匹配成功,进入步骤(34333),如果未匹配成功,则进入步骤(34335);
(34333)把在步骤(34332)中与汉语常见片语相匹配的中文文本中含有的汉语片语特征词替换成汉语片语特征词英语译文,然后进入步骤(34334);
(34334)判断步骤(34333)处理后的文本是否还有中文,如果有中文,则进入步骤(34331);如果没有中文,则进入步骤(34336);
(34335)把步骤(34331)提取的中文文本作为一个短语语境进行翻译,然后进入步骤(34336);
(34336)把翻译结果返回给句子成分语境或上一级片语语境。
更进一步地,步骤(34335)包括以下步骤:
(343351)提取短语语境中的中文文本,然后进入步骤(343352);
(343352)依据步骤(25)构建的带有语境信息的单词库以及步骤(31)分析的待翻译的论文的中文摘要所属的学科领域,对步骤(343351)提取的中文文本,寻找与其相匹配的核心词语境,如果找到,则进入步骤(343353);如果没有找到,则进入步骤(343355);
(343353)依据步骤(343352)找到的核心词语境,把与中文文本相匹配的汉语核心词替换成对应的汉语核心词英语译文,然后进入步骤(343354);
(343354)判断步骤(343353)转换后的文本是否还有中文,如果还有中文,则进入步骤(343351);如果没有,则进入步骤(343356);
(343355)借助步骤(26)构建的统计机器翻译模型,将与带有语境信息的单词库中的核心词语境不相匹配的中文文本进行翻译,然后进入步骤(343356);
(343356)把翻译结果返回给步骤(34335)涉及的片语语境或步骤(343354)涉及的上一级短语语境。
更进一步地,步骤(3435)包括以下步骤:
(34351)提取短语语境中的中文文本,然后进入步骤(34352);
(34352)依据步骤(25)构建的带有语境信息的单词库以及步骤(31)分析的中文摘要所属的学科领域,寻找与中文文本相匹配的核心词语境,如果找到,则进入步骤(34353);如果没有找到,则进入步骤(34355);
(34353)依据步骤(34352)找到的核心词语境,把中文文本中匹配成功的汉语核心词替换成对应的汉语核心词英语译文,然后进入步骤(34354);
(34354)判断步骤(34353)转换后的文本是否还有中文,如果还有中文,则进入步骤(34351);如果没有中文,则进入步骤(34356);
(34355)借助步骤(26)构建的统计机器翻译模型,将与带有语境信息的单词库中的核心词语境不相匹配的中文文本进行翻译,然后进入步骤(34356);
(34356)把翻译结果返回给步骤(3435)涉及的句子成分语境或步骤(34354)涉及的上一级短语语境。
有益效果:本发明公开的基于语境迭代分析的汉译英机器翻译方法具有以下有益效果:
1、能够对多个学科领域的科技论文的中文摘要进行准确地翻译,即通过确定中文摘要所属的学科领域,再利用各学科领域(主要包括工业技术领域、航空航天领域、环境科学领域、安全科学领域、交通运输领域、经济领域、农业科学领域、数理科学化学领域、天文学地球科学领域、文化科学教育体育领域、医药卫生领域、政治法律领域)的词表进行翻译;
2、本发明提高了对远距离相关联的句间汉语连词的翻译准确度,即通过句间语境分析,确定句间汉语关联词的逻辑联系,并依据这种逻辑联系进行翻译;
3、本发明提高了词语的翻译准确度,即通过句子成分语境分析、片语语境分析、短语语境分析,确定词语所在的语境,依据语境信息进行翻译。
附图说明
图1为本发明公开的基于语境迭代的汉译英机器翻译方法的流程图。
图2为步骤(3)的流程图。
图3为步骤(4)的流程图。
图4为步骤(34)的流程图。
图5为步骤(343)的流程图。
图6为步骤(3433)的流程图。
图7为步骤(3435)的流程图。
图8为步骤(34335)的流程图。
具体实施方式:
下面对本发明的具体实施方式详细说明。
如图1~8所示,基于语境迭代分析的汉译英机器翻译方法,包括:
(1)判断是否有关键词库、专业术语库、汉语常见关联词句式库、汉语常见片语库、带有语境信息的单词库、统计机器翻译模型,若缺少任一个库或模型,进入步骤(2),反之,进入步骤(3);
(2)构建1个关键词库、1个专业术语库、1个汉语常见关联词句式库、1个汉语常见片语库、1个带有语境信息的单词库和1个统计机器翻译模型,构建完毕后进入步骤(3);
(21)构建1个关键词库
从各个学科领域的论文中文摘要中提取关键词,构建各个学科领域的关键词库,关键词库每个关键词包含汉语关键词、汉语关键词英语译文、汉语关键词所属学科三个字段;
(22)构建1个专业术语库
从各个学科领域的论文中文摘要中提取专业术词,构建各个学科领域的专业术语库,其中的每个专业术语包含汉语专业术语、汉语专业术语英语译文、汉语专业术语所属学科三个字段;
(23)构建1个汉语常见关联词句式库
从各个学科领域的论文中文摘要中分析常见的汉语关联词,形成汉语常见关联词句式库,其中的每个汉语常见关联词句式包含汉语常见关联词、汉语常见关联词句式、汉语常见关联词英语译文三个字段;汉语常见关联词句式是用正则表达式表示的带有汉语常见关联词的汉语句子,汉语常见关联词句式用于句间语境分析;
(24)构建1个汉语常见片语库
对各学科领域的论文中文摘要进行依存句法分析,统计出现频率较高的片语,并预先把片语中的特征词语预先翻译成英文,构建汉语常见片语库,其中的每个汉语常见片语包含汉语片语特征词、汉语片语模式、汉语片语特征词英语译文三个字段,汉语常见片语库中的汉语片语特征词是指汉语常见片语中含有的、能够代表该汉语常见片语的独一无二的一个汉语词语;汉语常见片语库中的汉语片语模式是以正则表达式的形式描述的汉语常见片语;汉语常见片语库中的汉语片语特征词英语译文是汉语片语特征词的英文翻译;
(25)构建1个带有语境信息的单词库
对各学科领域的论文中文摘要进行依存句法分析,统计出具有高频依存关系的词对,构建带有语境信息的单词库;带有语境信息的单词库包含汉语核心词、核心词语境、汉语核心词英语译文三个字段;带有语境信息的单词库中的汉语核心词是一个待翻译的汉语词语;带有语境信息的单词库中的核心词语境是以正则表达式的形式描述的汉语核心词的语境信息;带有语境信息的单词库中的汉语核心词英语译文是在特定的核心词语境下待翻译的汉语核心词的英文翻译;
(26)构建1个统计机器翻译模型
借助联合国中英平行语料库,对MOSES统计机器翻译模型进行训练,学习短语对短语的翻译进而构建统计机器翻译模型;
(3)接收待翻译的论文的中文摘要,并对其进行语境迭代翻译
(31)对接收到的待翻译的论文的中文摘要进行篇章分析,确定待翻译的论文的中文摘要所属的学科领域,然后进入步骤(32);
(32)依据步骤(23)创建的汉语常见关联词句式库,对接收到的待翻译的论文的中文摘要,进行句间语境分析,寻找带有常见的汉语关联词的句间语境;如果找到匹配的句间语境,则把句间语境中含有的汉语关联词替换成汉语关联词英语译文,待翻译的论文的中文摘要就转换成为中英文的混合形式,然后进入步骤(33);如果没有找到匹配的句间语境,然后进入步骤(33);
(33)把经过步骤(32)处理的待翻译的论文的中文摘要分解成多个句子语境,然后进入步骤(34);
(34)逐一翻译步骤(33)得到的句子语境,并将每一个句子语境的翻译结果返回到篇章语境中,然后进入步骤(35);
(35)在篇章语镜中组合各个句子语境的翻译结果,形成英文摘要;
(4)规整英文摘要
(41)对步骤(35)生成的英文摘要,每一句的首字母变成大写形式,然后进入步骤(42);
(42)删除步骤(41)处理的英文摘要中含有的多余的空格,并将标点符号替换成英文标点;
(5)输出英文摘要。
进一步地,如图4所示,步骤(34)包括以下步骤:
(341)对句子语境进行依存句法分析,获得句子的依存结构,然后进入步骤(342);
(342)根据步骤(341)得到的句子依存结构,把句子语境分解成若干句子成分语境,然后进入步骤(343);
(343)逐一翻译步骤(342)得到的句子成分语境,并将每一个句子成分语境的翻译结果返回到句子语境中,然后进入步骤(344);
(344)在句子语境中组合各个句子成分语境的翻译结果,然后进入步骤(345);
(345)把翻译结果返回给篇章语境。
更进一步地,如图5所示,步骤(343)包括以下步骤:
(3431)提取句子成分语境中的中文文本,然后进入步骤(3432);
(3432)依据步骤(24)创建的汉语常见片语库,对步骤(3431)提取的中文文本,寻找与之匹配的汉语常见片语,如果匹配成功,进入步骤(3433);如果未匹配成功,则进入步骤(3434);
(3433)把在步骤(3432)中与汉语常见片语相匹配的句子成分语境作为一个片语语境进行翻译,然后进入步骤(3436);
(3434)把在步骤(3432)与汉语常见片语未相匹配句子成分语境进行句子成分分析,查看该句子成分语境中是否含有子句子成分,如果有,提取各子句子成分语境,然后进入步骤(3431);如果没有,进入步骤(3435);
(3435)把该句子成分语境作为一个短语语境进行翻译,然后进入步骤(3436);
(3436)把翻译结果返回给句子语境或上一级的句子成分语境。
更进一步地,如图6所示,步骤(3433)包括以下步骤:
(34331)提取片语语境中的中文文本,然后进入步骤(34332);
(34332)依据步骤(24)创建的汉语常见片语库,对步骤(34331)提取的中文文本,寻找与之匹配的汉语常见片语;如果匹配成功,进入步骤(34333),如果未匹配成功,则进入步骤(34335);
(34333)把在步骤(34332)中与汉语常见片语相匹配的中文文本中含有的汉语片语特征词替换成汉语片语特征词英语译文,然后进入步骤(34334);
(34334)判断步骤(34333)处理后的文本是否还有中文,如果有中文,则进入步骤(34331);如果没有中文,则进入步骤(34336);
(34335)把步骤(34331)提取的中文文本作为一个短语语境进行翻译,然后进入步骤(34336);
(34336)把翻译结果返回给句子成分语境或上一级片语语境。
更进一步地,如图8所示,步骤(34335)包括以下步骤:
(343351)提取短语语境中的中文文本,然后进入步骤(343352);
(343352)依据步骤(25)构建的带有语境信息的单词库以及步骤(31)分析的待翻译的论文的中文摘要所属的学科领域,对步骤(343351)提取的中文文本,寻找与其相匹配的核心词语境,如果找到,则进入步骤(343353);如果没有找到,则进入步骤(343355);
(343353)依据步骤(343352)找到的核心词语境,把与中文文本相匹配的汉语核心词替换成对应的汉语核心词英语译文,然后进入步骤(343354);
(343354)判断步骤(343353)转换后的文本是否还有中文,如果还有中文,则进入步骤(343351);如果没有,则进入步骤(343356);
(543355)借助步骤(26)构建的统计机器翻译模型,将与带有语境信息的单词库中的核心词语境不相匹配的中文文本进行翻译,然后进入步骤(343356);
(343356)把翻译结果返回给步骤(34335)涉及的片语语境或步骤(343354)涉及的上一级短语语境。
更进一步地,如图7所示,步骤(3435)包括以下步骤:
(34351)提取短语语境中的中文文本,然后进入步骤(34352);
(34352)依据步骤(25)构建的带有语境信息的单词库以及步骤(31)分析的中文摘要所属的学科领域,寻找与中文文本相匹配的核心词语境,如果找到,则进入步骤(34353);如果没有找到,则进入步骤(34355);
(34353)依据步骤(34352)找到的核心词语境,把中文文本中匹配成功的汉语核心词替换成对应的汉语核心词英语译文,然后进入步骤(34354);
(34354)判断步骤(34353)转换后的文本是否还有中文,如果还有中文,则进入步骤(34351);如果没有中文,则进入步骤(34356);
(34355)借助步骤(26)构建的统计机器翻译模型,将与带有语境信息的单词库中的核心词语境不相匹配的中文文本进行翻译,然后进入步骤(34356);
(34356)把翻译结果返回给步骤(3435)涉及的句子成分语境或步骤(34354)涉及的上一级短语语境。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (6)
1.基于语境迭代分析的汉译英机器翻译方法,其特征在于,包括:
(1)判断是否有关键词库、专业术语库、汉语常见关联词句式库、汉语常见片语库、带有语境信息的单词库、统计机器翻译模型,若缺少任一个库或模型,进入步骤(2),反之,进入步骤(3);
(2)构建1个关键词库、1个专业术语库、1个汉语常见关联词句式库、1个汉语常见片语库、1个带有语境信息的单词库和1个统计机器翻译模型,构建完毕后进入步骤(3);
(21)构建1个关键词库
从各个学科领域的论文中文摘要中提取关键词,构建各个学科领域的关键词库,关键词库每个关键词包含汉语关键词、汉语关键词英语译文、汉语关键词所属学科三个字段;
(22)构建1个专业术语库
从各个学科领域的论文中文摘要中提取专业术词,构建各个学科领域的专业术语库,其中的每个专业术语包含汉语专业术语、汉语专业术语英语译文、汉语专业术语所属学科三个字段;
(23)构建1个汉语常见关联词句式库
从各个学科领域的论文中文摘要中分析常见的汉语关联词,
形成汉语常见关联词句式库,其中的每个汉语常见关联词句式包含汉语常见关联词、汉语常见关联词句式、汉语常见关联词英语译文三个字段;
(24)构建1个汉语常见片语库
对各学科领域的论文中文摘要进行依存句法分析,统计出现频率较高的片语,并预先把片语中的特征词语预先翻译成英文,构建汉语常见片语库,其中的每个汉语常见片语包含汉语片语特征词、汉语片语模式、汉语片语特征词英语译文三个字段;
(25)构建1个带有语境信息的单词库
对各学科领域的论文中文摘要进行依存句法分析,统计出具有高频依存关系的词对,构建带有语境信息的单词库;带有语境信息的单词库包含汉语核心词、核心词语境、汉语核心词英语译文三个字段;
(26)构建1个统计机器翻译模型
借助联合国中英平行语料库,对MOSES统计机器翻译模型进行训练,学习短语对短语的翻译进而构建统计机器翻译模型;
(3)接收待翻译的论文的中文摘要,并对其进行语境迭代翻译
(31)对接收到的待翻译的论文的中文摘要进行篇章分析,确定待翻译的论文的中文摘要所属的学科领域,然后进入步骤(32);
(32)依据步骤(23)创建的汉语常见关联词句式库,对接收到的待翻译的论文的中文摘要,进行句间语境分析,寻找带有常见的汉语关联词的句间语境;如果找到匹配的句间语境,则把句间语境中含有的汉语关联词替换成汉语关联词英语译文,待翻译的论文的中文摘要就转换成为中英文的混合形式,然后进入步骤(33);如果没有找到匹配的句间语境,然后进入步骤(33);
(33)把经过步骤(32)处理的待翻译的论文的中文摘要分解成多个句子语境,然后进入步骤(34);
(34)逐一翻译步骤(33)得到的句子语境,并将每一个句子语境的翻译结果返回到篇章语境中,然后进入步骤(35);
(35)在篇章语镜中组合各个句子语境的翻译结果,形成英文摘要;
(4)规整英文摘要
(41)对步骤(35)生成的英文摘要,每一句的首字母变成大写形式,然后进入步骤(42);
(42)删除步骤(41)处理的英文摘要中含有的多余的空格,
并将标点符号替换成英文标点;
(5)输出英文摘要。
2.根据权利要求1所述的基于语境迭代分析的汉译英机器翻译方法,其特征在于,步骤(34)包括以下步骤:
(341)对句子语境进行依存句法分析,获得句子的依存结构,然后进入步骤(342);
(342)根据步骤(341)得到的句子依存结构,把句子语境分解成若干句子成分语境,然后进入步骤(343);
(343)逐一翻译步骤(342)得到的句子成分语境,并将每一个句子成分语境的翻译结果返回到句子语境中,然后进入步骤(344);
(344)在句子语境中组合各个句子成分语境的翻译结果,然后进入步骤(345);
(345)把翻译结果返回给篇章语境。
3.根据权利要求2所述的基于语境迭代分析的汉译英机器翻译方法,其特征在于,步骤(343)包括以下步骤:
(3431)提取句子成分语境中的中文文本,然后进入步骤(3432);
(3432)依据步骤(24)创建的汉语常见片语库,对步骤(3431)提取的中文文本,寻找与之匹配的汉语常见片语,如果匹配成功,进入步骤(3433);如果未匹配成功,则进入步骤(3434);
(3433)把在步骤(3432)中与汉语常见片语相匹配的句子成分语境作为一个片语语境进行翻译,然后进入步骤(3436);
(3434)把在步骤(3432)与汉语常见片语未相匹配句子成分语境进行句子成分分析,查看该句子成分语境中是否含有子句子成分,如果有,提取各子句子成分语境,然后进入步骤(3431);如果没有,进入步骤(3435);
(3435)把该句子成分语境作为一个短语语境进行翻译,然后进入步骤(3436);
(3436)把翻译结果返回给句子语境或上一级的句子成分语境。
4.根据权利要求3所述的基于语境迭代分析的汉译英机器翻译方法,其特征在于,步骤(3433)包括以下步骤:
(34331)提取片语语境中的中文文本,然后进入步骤(34332);
(34332)依据步骤(24)创建的汉语常见片语库,对步骤(34331)提取的中文文本,寻找与之匹配的汉语常见片语;如果匹配成功,进入步骤(34333),如果未匹配成功,则进入步骤(34335);
(34333)把在步骤(34332)中与汉语常见片语相匹配的中文文本中含有的汉语片语特征词替换成汉语片语特征词英语译文,然后进入步骤(34334);
(34334)判断步骤(34333)处理后的文本是否还有中文,如果有中文,则进入步骤(34331);如果没有中文,则进入步骤(34336);
(34335)把步骤(34331)提取的中文文本作为一个短语语境进行翻译,然后进入步骤(34336);
(34336)把翻译结果返回给句子成分语境或上一级片语语境。
5.根据权利要求4所述的基于语境迭代分析的汉译英机器翻译方法,其特征在于,步骤(34335)包括以下步骤:
(343351)提取短语语境中的中文文本,然后进入步骤(343352);
(343352)依据步骤(25)构建的带有语境信息的单词库以及步骤(31)分析的待翻译的论文的中文摘要所属的学科领域,对步骤(343351)提取的中文文本,寻找与其相匹配的核心词语境,如果找到,则进入步骤(343353);如果没有找到,则进入步骤(343355);
(343353)依据步骤(343352)找到的核心词语境,把与中文文本相匹配的汉语核心词替换成对应的汉语核心词英语译文,然后进入步骤(343354);
(343354)判断步骤(343353)转换后的文本是否还有中文,如果还有中文,则进入步骤(343351);如果没有,则进入步骤(343356);
(343355)借助步骤(26)构建的统计机器翻译模型,将与带有语境信息的单词库中的核心词语境不相匹配的中文文本进行翻译,然后进入步骤(343356);
(343356)把翻译结果返回给步骤(34335)涉及的片语语境或步骤(343354)涉及的上一级短语语境。
6.根据权利要求3所述的基于语境迭代分析的汉译英机器翻译方法,其特征在于,步骤(3435)包括以下步骤:
(34351)提取短语语境中的中文文本,然后进入步骤(34352);
(34352)依据步骤(25)构建的带有语境信息的单词库以及步骤(31)分析的中文摘要所属的学科领域,寻找与中文文本相匹配的核心词语境,如果找到,则进入步骤(34353);如果没有找到,则进入步骤(34355);
(34353)依据步骤(34352)找到的核心词语境,把中文文本中匹配成功的汉语核心词替换成对应的汉语核心词英语译文,然后进入步骤(34354);
(34354)判断步骤(34353)转换后的文本是否还有中文,如果还有中文,则进入步骤(34351);如果没有中文,则进入步骤(34356);
(34355)借助步骤(26)构建的统计机器翻译模型,将与带有语境信息的单词库中的核心词语境不相匹配的中文文本进行翻译,然后进入步骤(34356);
(34356)把翻译结果返回给步骤(3435)涉及的句子成分语境或步骤(34354)涉及的上一级短语语境。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810282274.2A CN108491399B (zh) | 2018-04-02 | 2018-04-02 | 基于语境迭代分析的汉译英机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810282274.2A CN108491399B (zh) | 2018-04-02 | 2018-04-02 | 基于语境迭代分析的汉译英机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108491399A true CN108491399A (zh) | 2018-09-04 |
CN108491399B CN108491399B (zh) | 2021-08-06 |
Family
ID=63318054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810282274.2A Expired - Fee Related CN108491399B (zh) | 2018-04-02 | 2018-04-02 | 基于语境迭代分析的汉译英机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491399B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287498A (zh) * | 2019-05-30 | 2019-09-27 | 北京百度网讯科技有限公司 | 层次化翻译方法、装置及存储介质 |
CN110413723A (zh) * | 2019-06-06 | 2019-11-05 | 福建奇点时空数字科技有限公司 | 一种数据驱动的语料库自动化构建方法 |
CN112632282A (zh) * | 2020-12-30 | 2021-04-09 | 中科院计算技术研究所大数据研究院 | 一种中英文论文数据分类与查询方法 |
CN116822517A (zh) * | 2023-08-29 | 2023-09-29 | 百舜信息技术有限公司 | 一种多语言翻译的术语识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662937A (zh) * | 2012-04-12 | 2012-09-12 | 传神联合(北京)信息技术有限公司 | 自动翻译系统及其自动翻译方法 |
CN103020040A (zh) * | 2011-09-27 | 2013-04-03 | 富士通株式会社 | 源语言改写处理方法和设备及机器翻译系统 |
WO2013102052A1 (en) * | 2011-12-28 | 2013-07-04 | Bloomberg Finance L.P. | System and method for interactive automatic translation |
US8731901B2 (en) * | 2009-12-02 | 2014-05-20 | Content Savvy, Inc. | Context aware back-transliteration and translation of names and common phrases using web resources |
CN104391839A (zh) * | 2014-11-13 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 机器翻译方法和装置 |
CN106776587A (zh) * | 2016-12-19 | 2017-05-31 | 新译信息科技(深圳)有限公司 | 数据处理方法和装置 |
-
2018
- 2018-04-02 CN CN201810282274.2A patent/CN108491399B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8731901B2 (en) * | 2009-12-02 | 2014-05-20 | Content Savvy, Inc. | Context aware back-transliteration and translation of names and common phrases using web resources |
CN103020040A (zh) * | 2011-09-27 | 2013-04-03 | 富士通株式会社 | 源语言改写处理方法和设备及机器翻译系统 |
WO2013102052A1 (en) * | 2011-12-28 | 2013-07-04 | Bloomberg Finance L.P. | System and method for interactive automatic translation |
CN102662937A (zh) * | 2012-04-12 | 2012-09-12 | 传神联合(北京)信息技术有限公司 | 自动翻译系统及其自动翻译方法 |
CN104391839A (zh) * | 2014-11-13 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 机器翻译方法和装置 |
CN106776587A (zh) * | 2016-12-19 | 2017-05-31 | 新译信息科技(深圳)有限公司 | 数据处理方法和装置 |
Non-Patent Citations (2)
Title |
---|
LONGYUE WANG: "Exploiting Cross-Sentence Context for Neural Machine Translation", 《ARXIV:1704.04347V3 [CS.CL]》 * |
贡正仙: "文档级统计机器翻译的研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287498A (zh) * | 2019-05-30 | 2019-09-27 | 北京百度网讯科技有限公司 | 层次化翻译方法、装置及存储介质 |
CN110413723A (zh) * | 2019-06-06 | 2019-11-05 | 福建奇点时空数字科技有限公司 | 一种数据驱动的语料库自动化构建方法 |
CN112632282A (zh) * | 2020-12-30 | 2021-04-09 | 中科院计算技术研究所大数据研究院 | 一种中英文论文数据分类与查询方法 |
CN116822517A (zh) * | 2023-08-29 | 2023-09-29 | 百舜信息技术有限公司 | 一种多语言翻译的术语识别方法 |
CN116822517B (zh) * | 2023-08-29 | 2023-11-10 | 百舜信息技术有限公司 | 一种多语言翻译的术语识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108491399B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Indurthi et al. | Generating natural language question-answer pairs from a knowledge graph using a RNN based question generation model | |
Yao et al. | Information extraction over structured data: Question answering with freebase | |
KR101130444B1 (ko) | 기계번역기법을 이용한 유사문장 식별 시스템 | |
CN108491399A (zh) | 基于语境迭代分析的汉译英机器翻译方法 | |
Nguyen et al. | Effect of word sense disambiguation on neural machine translation: A case study in Korean | |
Batsuren et al. | A large and evolving cognate database | |
Matuschek et al. | Multilingual knowledge in aligned Wiktionary and OmegaWiki for translation applications | |
CN106156013A (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
Sun | [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
Sitender et al. | Sansunl: a Sanskrit to UNL enconverter system | |
Phan et al. | NER2QUES: combining named entity recognition and sequence to sequence to automatically generating Vietnamese questions | |
Paiva et al. | Nomlex-pt: A lexicon of portuguese nominalizations | |
Garje et al. | Transmuter: an approach to rule-based English to Marathi machine translation | |
He et al. | [Retracted] Application of Grammar Error Detection Method for English Composition Based on Machine Learning | |
Iswarya et al. | Adapting hybrid machine translation techniques for cross-language text retrieval system | |
CN114169345A (zh) | 利用同源词的日中机器翻译方法和系统 | |
Taghbalout et al. | Towards UNL-based machine translation for Moroccan Amazigh language | |
Li | Construction of English Translation Model Based on Improved Fuzzy Semantic Optimal Control of GLR Algorithm | |
Elnozahy et al. | Multi-Lang Question Answering Framework for Decision Support in Educational Institutes. | |
Satpathy et al. | Analysis of Learning Approaches for Machine Translation Systems | |
Lim et al. | A Conceptual Framework for Malay-English Mixed-language Question Answering System | |
Khan et al. | A corpus based sql formation from bangla language using neural machine translation | |
Fan et al. | Automatic extraction of bilingual terms from a chinese-japanese parallel corpus | |
Hu et al. | Exploring Discourse Structure in Document-level Machine Translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210806 |
|
CF01 | Termination of patent right due to non-payment of annual fee |