CN110807338B - 英汉机器翻译术语一致性自修正系统及方法 - Google Patents
英汉机器翻译术语一致性自修正系统及方法 Download PDFInfo
- Publication number
- CN110807338B CN110807338B CN201911093306.5A CN201911093306A CN110807338B CN 110807338 B CN110807338 B CN 110807338B CN 201911093306 A CN201911093306 A CN 201911093306A CN 110807338 B CN110807338 B CN 110807338B
- Authority
- CN
- China
- Prior art keywords
- english
- chinese
- translation
- corrected
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明涉及机器翻译技术领域,尤其涉及一种英汉机器翻译术语一致性自修正系统及方法。该系统包括:英文名词性词组提取模块,用于提取和筛选英文待译文本中的英文名词性词组;句子提取模块,用于将英文原文中英文关键词所在的英文句子及其译文提取出来;标准中文译文解译及待修正位置标注模块,用于根据标准中文译文解译单元和待修正位置标注单元,得到英文关键词的标准中文译文和原中文译文中的待修正中文词组位置信息;自修正模块,用于将待修正中文词组一一对应修正为标准中文译文,得到新中文译文。本发明通过对英文名词性词组的中文翻译进行一致性修改,提高了术语翻译的一致性。
Description
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种英汉机器翻译术语一致性自修正系统及方法。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着国际经济合作的日益增多,翻译行业的翻译质量和效率都遇到了很大的挑战,而随着人工智能的高速发展,机器翻译在翻译行业的巨大潜力开始逐步显现。然而,虽然机器翻译在准确性方面已经有了很大突破,但在实际翻译应用中仍面临着一些问题,特别是术语翻译一致性的问题。对于一篇文本,需保证其中出现的同一专业术语在翻译时保持一致,而目前的机器翻译很难做到这一点,后期人工校正费时费力,极大地影响了整体的翻译效率,也导致机器翻译的实用性大大降低。
公开号为CN103488627A的中国专利申请,公开了一种全篇专利文献的机器翻译方法和系统,该方法首先对待译文本进行词法分析,根据得到的分词和词性标注信息进行短语识别,得到识别名词短语并将所述识别名词短语翻译成目标语言,然后以句子为单位进行翻译,对于所述识别名词短语直接套用前一步中所得的译文,由此解决了全篇专利文献中复杂名词短语前后翻译不一致的问题。但此方法会干涉机器翻译引擎对原句子的翻译,影响翻译质量。
因此,急需一种英汉机器翻译术语一致性自修正系统及方法。
发明内容
本发明提供了一种英汉机器翻译术语一致性自修正系统及方法,以便于能够提高英汉翻译中术语的一致性,提高翻译质量。
本发明的一个方面,提供了一种英汉机器翻译术语一致性自修正系统,包括:
英文名词性词组提取模块110,用于将英文待译文本中出现频率大于等于预设频率的所有英文名词性词组提取出来,并通过预设的停用词表进行筛选,筛选后得到的各英文名词性词组为英文关键词,将所有英文关键词发送至句子提取模块120;
句子提取模块120,用于接收英文关键词、英文待译文本的英文原文和经过机器翻译后的原中文译文,并将英文原文中英文关键词所在的英文句子、以及所述英文句子在原中文译文中的对应译文提取出来,将英文关键词、英文关键词所在的英文句子和英文句子的中文译文发送至标准中文译文解译及待修正位置标注模块130;
标准中文译文解译及待修正位置标注模块130,用于接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译单元和待修正位置标注单元,得到英文关键词的标准中文译文和原中文译文中的待修正中文词组位置信息,将标准中文译文和待修正中文词组位置信息发送至自修正模块140;
自修正模块140,用于接收原中文译文、标准中文译文和待修正中文词组位置信息,将待修正中文词组一一对应修正为标准中文译文,得到新中文译文。
进一步地,标准中文译文解译及待修正位置标注模块130包括:
标准中文译文解译单元,用于接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译模型,得到英文关键词在中文译文对应的中文翻译并发送至待修正位置标注单元,同时将得到的标准中文译文发送至待修正位置标注单元和自修正模块140;
待修正位置标注单元,用于接收英文关键词在中文译文对应的中文翻译以及标准中文译文,并将英文关键词在中文译文对应的中文翻译以及标准中文译文代入待修正位置标注模型,得到原中文译文中的待修正中文词组位置信息并将其发送至自修正模块140。
进一步地,标准中文译文解译模型为:
根据英文关键词和英文句子的中文译文提取得到各中文译文中英文关键词对应的中文翻译;
统计各关键词中文翻译的个数,并将个数最多的关键词中文翻译作为该英文关键词对应的标准中文译文。
进一步地,待修正位置标注模型为:
判断各关键词中文翻译是否与标准中文译文一致,若不一致,则该关键词中文翻译为待修正中文词组。
进一步地,停用词表为预设的最小单位名词性词组中不含的单词、不为开头的单词、不为结尾的单词的集合。
本发明的第二个方面,提供了一种基于如上述中所述系统实现的英汉机器翻译术语一致性自修正方法,包括以下步骤:
英文名词性词组提取模块110将英文待译文本中出现频率大于等于预设频率的所有英文名词性词组提取出来,并通过预设的停用词表进行筛选,筛选后得到的各英文名词性词组为英文关键词,将所有英文关键词发送至句子提取模块120;
句子提取模块120接收英文关键词、英文待译文本的英文原文和经过机器翻译的原中文译文,并将英文原文中英文关键词所在的英文句子、原中文译文中英文关键词所在英文句子的译文提取出来,将英文关键词、英文关键词所在的英文句子和英文句子的中文译文发送至标准中文译文解译及待修正位置标注模块130;
标准中文译文解译及待修正位置标注模块130接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译单元和待修正位置标注单元,得到英文关键词的标准中文译文和原中文译文中的待修正中文词组位置信息,将标准中文译文和待修正中文词组位置信息发送至自修正模块140;
自修正模块140接收原中文译文、标准中文译文和待修正中文词组位置信息,将待修正中文词组一一对应修正为标准中文译文,得到新中文译文。
进一步地,标准中文译文解译及待修正位置标注模块130包括标准中文译文解译单元和待修正位置标注单元,其中,
利用标准中文译文解译单元接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译模型,得到英文关键词在中文译文对应的中文翻译并发送至待修正位置标注单元,同时将得到的标准中文译文发送至待修正位置标注单元和自修正模块140;
利用待修正位置标注单元接收英文关键词在中文译文对应的中文翻译以及标准中文译文,并将英文关键词在中文译文对应的中文翻译以及标准中文译文代入待修正位置标注模型,得到原中文译文中的待修正中文词组位置信息并将其发送至自修正模块140。
本发明提供的英汉机器翻译术语一致性自修正系统及方法,与现有技术相比具有以下进步:
本发明通过将英文待译文本中的所有英文名词性词组提取出来,并根据英文名词性词组的标准中文译文对原中文译文中英文名词性词组的中文翻译进行一致性修改,提高了术语翻译的一致性,极大地降低了翻译审校人员的工作量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例中英汉机器翻译术语一致性自修正系统的器件连接框图;
图2为本发明实施例中英汉机器翻译术语一致性自修正方法的步骤图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
本实施例提供了一种英汉机器翻译术语一致性自修正系统及方法。
如图1,本实施例的一种英汉机器翻译术语一致性自修正系统,包括:
英文名词性词组提取模块110,用于将英文待译文本中出现频率大于等于预设频率(如预设频率为2,即英文名词性词组只有在英文待译文本中出现至少2次,才会被提取出来)的所有英文名词性词组(英文名词性词组代表的是术语)提取出来,并通过预设的停用词表进行筛选,筛选后得到的各英文名词性词组为英文关键词,将所有英文关键词发送至句子提取模块120;
句子提取模块120,用于接收英文关键词、英文待译文本的英文原文和经过机器翻译后的原中文译文,并将英文原文中英文关键词所在的英文句子、以及所述英文句子在原中文译文中的对应译文提取出来,将英文关键词、英文关键词所在的英文句子和英文句子的中文译文发送至标准中文译文解译及待修正位置标注模块130;
标准中文译文解译及待修正位置标注模块130,用于接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译单元和待修正位置标注单元,得到英文关键词的标准中文译文和原中文译文中的待修正中文词组位置信息,将标准中文译文和待修正中文词组位置信息发送至自修正模块140;
自修正模块140,用于接收原中文译文、标准中文译文和待修正中文词组位置信息,将待修正中文词组一一对应修正为标准中文译文,得到新中文译文。
本发明通过将英文待译文本中的所有英文名词性词组提取出来,并根据英文名词性词组的标准中文译文对原中文译文中英文名词性词组的中文翻译进行一致性修改,提高了术语翻译的一致性,极大地降低了翻译审校人员的工作量。
如图1,具体实施时,标准中文译文解译及待修正位置标注模块130包括:
标准中文译文解译单元,用于接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译模型,得到英文关键词在中文译文对应的中文翻译并发送至待修正位置标注单元,同时将得到的标准中文译文发送至待修正位置标注单元和自修正模块140;
待修正位置标注单元,用于接收英文关键词在中文译文对应的中文翻译以及标准中文译文,并将英文关键词在中文译文对应的中文翻译以及标准中文译文代入待修正位置标注模型,得到原中文译文中的待修正中文词组位置信息并将其发送至自修正模块140。
具体实施时,标准中文译文解译模型为:
根据英文关键词和英文句子的中文译文提取得到各中文译文中英文关键词对应的中文翻译;
统计各关键词中文翻译的个数,并将个数最多的关键词中文翻译作为该英文关键词对应的标准中文译文。
具体实施时,标准中文译文解译模型可以是:
对于英文关键词所在的所有英文句子,在所有英文句子用预设符号替换该英文关键词,对替换后的多个英文句子进行机器翻译,得到含有预设符号的多个中文句子;
当中文句子中预设符号位于句首或句末时,判断原中文译文句首或句末是否存在一个字段(字数≥2),其之后的字数(字数≥p且p≥3,不含标点,如p为4,本实施例中所有的p都为4)与中文句子中预设符号之后的字数(字数≥p,不含标点)完全对应或其之前的字数(字数≥p,不含标点)与中文句子中预设符号之前的字数(字数≥p,不含标点)完全对应,如果存在,则该字段即为所替换关键词在中文译文中对应的中文翻译;
当中文句子中预设符号之前或之后只有一个字时,判断原中文译文中是否存在一个字段(字数≥2),其之前的那个字和其之后的字数(字数≥p,不含标点)与中文句子中预设符号之前的那个字和之后的字数(字数≥p,不含标点)完全对应或其之后的一个字和其之前的字数(字数≥p,不含标点)与中文句子中预设符号之后的那个字和之前的字数(字数≥p,不含标点)完全对应,如果存在则该字段即为所替换关键词在中文译文中对应的中文翻译;
当中文句子中预设符号位于句中且前后字数均多于一个时,判断原中文译文中是否存在一个字段(字数≥2),其之前字段的字数(字数≥m且2≤m≤5,不含标点)与中文句子中预设符号之前的字数(字数≥m,不含标点)相似度大于等于预设值(如60%),并且其之后的字数(字数≥m且2≤m≤5,不含标点)与中文句子中预设符号之后的字数(字数≥m,不含标点)相似度大于等于预设值(如60%),若仅存在一个字段满足上述条件,则该字段即为待修正中文词组,如果存在多个字段满足条件,取前后字数平均相似度最高的字段作为则该字段即为所替换关键词在中文译文中对应的中文翻译;
根据所有英文关键词所在的英文句子的中文译文得到各中文译文中英文关键词对应的中文翻译后,如果其中一个英文关键词对应的中文翻译在各中文译文中出现的比例大于预设比例(预设比例最低为50%),则该英文关键词对应的中文翻译是该英文关键词对应的标准中文译文;如一个英文关键词A出现在10个英文句子中,若其中有6个英文句子的中文译文中A的翻译都是X,则X出现的比例就是60%,大于预设比例50%,则X就是A对应的标准中文译文。
标准中文译文解译模型还可以是:对英文关键词进行机器翻译,得到关键词中文翻译,如果该关键词中文翻译在所有英文关键词所在的英文句子的中文译文中出现的比例大于预设比例(预设比例最低为50%),则该关键词中文翻译为该英文关键词对应的标准中文译文;如将英文关键词B进行机器翻译,得到关键词中文翻译Y,如果英文关键词B出现在10个英文句子中,且其中6个英文句子的中文译文中B的翻译都是Y,则Y出现的比例就是60%,大于预设比例50%,则Y就是B对应的标准中文译文。
标准中文译文解译模型还可以是:如果英文关键词的某个词典释义在所有英文关键词所在的英文句子的中文译文中出现的比例大于预设比例(预设比例最低为50%),则该词典释义是英文关键词对应的标准中文译文。
具体实施时,待修正位置标注模型为:
判断各关键词中文翻译是否与标准中文译文一致,若不一致,则该关键词中文翻译为待修正中文词组。
具体实施时,对于存在包含关系的英文关键词,如果较长英文关键词已有对应的标准中文译文,则对被包含英文关键词减去相应出现频率,如果减去相应出现频率后被包含英文关键词的出现频率小于预设频率(如预设频率为2),则不再对该英文关键词进行标准中文译文的解译,后续也不再修正。该步骤可以去除重复的英文关键词,提高系统工作效率。
具体实施时,停用词表为预设的最小单位名词性词组中不含的单词、不为开头的单词、不为结尾的单词的集合。停用词表包括三个词表,分别是不含的单词的集合,不为开头的单词的集合,不为结尾的单词的集合。如果英文名词性词组含有停用词或者开头是停用词或者结尾是停用词,则该英文名词性词组不作为英文关键词。“筛除末位单词以-ed结尾的词组”是通过停用词表筛选过后的另一种补充筛选方法,目的都是去除错误的英文名词性词组,有利于提高术语一致性修改的准确率。
如图2,本实施例的一种基于如上述实施例所述系统实现的英汉机器翻译术语一致性自修正方法,包括以下步骤:
S1、英文名词性词组提取模块110将英文待译文本中出现频率大于等于预设频率的所有英文名词性词组提取出来,并通过预设的停用词表进行筛选,筛选后得到的各英文名词性词组为英文关键词,将所有英文关键词发送至句子提取模块120;
S2、句子提取模块120接收英文关键词、英文待译文本的英文原文和经过机器翻译的原中文译文,并将英文原文中英文关键词所在的英文句子、原中文译文中英文关键词所在英文句子的译文提取出来,将英文关键词、英文关键词所在的英文句子和英文句子的中文译文发送至标准中文译文解译及待修正位置标注模块130;
S3、标准中文译文解译及待修正位置标注模块130接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译单元和待修正位置标注单元,得到英文关键词的标准中文译文和原中文译文中的待修正中文词组位置信息,将标准中文译文和待修正中文词组位置信息发送至自修正模块140;
S4、自修正模块140接收原中文译文、标准中文译文和待修正中文词组位置信息,将待修正中文词组一一对应修正为标准中文译文,得到新中文译文。
本发明通过将英文待译文本中的所有英文名词性词组提取出来,并根据英文名词性词组的标准中文译文对原中文译文中英文名词性词组的中文翻译进行一致性修改,提高了术语翻译的一致性,极大地降低了翻译审校人员的工作量。
具体实施时,标准中文译文解译及待修正位置标注模块130包括标准中文译文解译单元和待修正位置标注单元,其中,
利用标准中文译文解译单元接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译模型,得到英文关键词在中文译文对应的中文翻译并发送至待修正位置标注单元,同时将得到的标准中文译文发送至待修正位置标注单元和自修正模块140;
利用待修正位置标注单元接收英文关键词在中文译文对应的中文翻译以及标准中文译文,并将英文关键词在中文译文对应的中文翻译以及标准中文译文代入待修正位置标注模型,得到原中文译文中的待修正中文词组位置信息并将其发送至自修正模块140。
具体实施时,标准中文译文解译模型为:
根据英文关键词和英文句子的中文译文提取得到各中文译文中英文关键词对应的中文翻译;
统计各关键词中文翻译的个数,并将个数最多的关键词中文翻译作为该英文关键词对应的标准中文译文。
具体实施时,标准中文译文解译模型可以是:
对于英文关键词所在的所有英文句子,在所有英文句子用预设符号替换该英文关键词,对替换后的多个英文句子进行机器翻译,得到含有预设符号的多个中文句子;
当中文句子中预设符号位于句首或句末时,判断原中文译文句首或句末是否存在一个字段(字数≥2),其之后的字数(字数≥p且p≥3,不含标点,如p为4,本实施例中所有的p都为4)与中文句子中预设符号之后的字数(字数≥p,不含标点)完全对应或其之前的字数(字数≥p,不含标点)与中文句子中预设符号之前的字数(字数≥p,不含标点)完全对应,如果存在,则该字段即为所替换关键词在中文译文中对应的中文翻译;
当中文句子中预设符号之前或之后只有一个字时,判断原中文译文中是否存在一个字段(字数≥2),其之前的那个字和其之后的字数(字数≥p,不含标点)与中文句子中预设符号之前的那个字和之后的字数(字数≥p,不含标点)完全对应或其之后的一个字和其之前的字数(字数≥p,不含标点)与中文句子中预设符号之后的那个字和之前的字数(字数≥p,不含标点)完全对应,如果存在则该字段即为所替换关键词在中文译文中对应的中文翻译;
当中文句子中预设符号位于句中且前后字数均多于一个时,判断原中文译文中是否存在一个字段(字数≥2),其之前字段的字数(字数≥m且2≤m≤5,不含标点)与中文句子中预设符号之前的字数(字数≥m,不含标点)相似度大于等于预设值(如60%),并且其之后的字数(字数≥m且2≤m≤5,不含标点)与中文句子中预设符号之后的字数(字数≥m,不含标点)相似度大于等于预设值(如60%),若仅存在一个字段满足上述条件,则该字段即为待修正中文词组,如果存在多个字段满足条件,取前后字数平均相似度最高的字段作为则该字段即为所替换关键词在中文译文中对应的中文翻译;
根据所有英文关键词所在的英文句子的中文译文得到各中文译文中英文关键词对应的中文翻译后,如果其中一个英文关键词对应的中文翻译在各中文译文中出现的比例大于预设比例(预设比例最低为50%),则该英文关键词对应的中文翻译是该英文关键词对应的标准中文译文;如一个英文关键词A出现在10个英文句子中,若其中有6个英文句子的中文译文中A的翻译都是X,则X出现的比例就是60%,大于预设比例50%,则X就是A对应的标准中文译文。
标准中文译文解译模型还可以是:对英文关键词进行机器翻译,得到关键词中文翻译,如果该关键词中文翻译在所有英文关键词所在的英文句子的中文译文中出现的比例大于预设比例(预设比例最低为50%),则该关键词中文翻译为该英文关键词对应的标准中文译文;如将英文关键词B进行机器翻译,得到关键词中文翻译Y,如果英文关键词B出现在10个英文句子中,且其中6个英文句子的中文译文中B的翻译都是Y,则Y出现的比例就是60%,大于预设比例50%,则Y就是B对应的标准中文译文。
标准中文译文解译模型还可以是:如果英文关键词的某个词典释义在所有英文关键词所在的英文句子的中文译文中出现的比例大于预设比例(预设比例最低为50%),则该词典释义是英文关键词对应的标准中文译文。
具体实施时,待修正位置标注模型为:
判断各关键词中文翻译是否与其标准中文译文一致,若不一致,则该关键词中文翻译为待修正中文词组。
具体实施时,对于存在包含关系的英文关键词,如果较长英文关键词已有对应的标准中文译文,则对被包含英文关键词减去相应出现频率,如果减去相应出现频率后被包含英文关键词的出现频率小于预设频率(如预设频率为2),则不再对该英文关键词进行标准中文译文解译,后续也不再修正。该步骤可以去除重复的英文关键词,提高系统工作效率。
具体实施时,停用词表为预设的最小单位名词性词组中不含的单词、不为开头的单词、不为结尾的单词的集合。停用词表包括三个词表,分别是不含的单词的集合,不为开头的单词的集合,不为结尾的单词的集合。如果英文名词性词组含有停用词或者开头是停用词或者结尾是停用词,则该英文名词性词组不作为英文关键词。“筛除末位单词以-ed结尾的词组”是通过停用词表筛选过后的另一种补充筛选方法,目的都是去除错误的英文名词性词组,有利于提高术语一致性修改的准确率。
本实施例还提供一种适于实现上文描述的英汉机器翻译术语一致性自修正方法的计算机系统。计算机系统包括处理器和计算机可读存储介质。该计算机系统可以执行根据本发明实施例的方法。
具体地,处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器还可以包括用于缓存用途的板载存储器。处理器可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质可以包括计算机程序,该计算机程序可以包括代码/计算机可执行指令,其在由处理器执行时使得处理器执行根据本发明实施例的方法或其任何变形。
计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序中的代码可以包括一个或多个程序模块,例如包括英文名词性词组提取模块110、句子提取模块120、标准中文译文解译及待修正位置标注模块130、自修正模块140。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器执行时,使得处理器可以执行根据本发明实施例的方法或其任何变形。
根据本发明的实施例,上述模块中的至少一个可以实现为计算机程序模块,其在被处理器执行时,可以实现上面描述的相应操作。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD—ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
上述系统实施例中的改进也属于上述方法实施例的改进,方法实施例中不再赘述。且上述方法实施例和系统实施例中的同一字母代表的含义、取值均相同。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种英汉机器翻译术语一致性自修正系统,其特征在于,包括:
英文名词性词组提取模块,用于将英文待译文本中出现频率大于等于预设频率的所有英文名词性词组提取出来,并通过预设的停用词表进行筛选,筛选后得到的各英文名词性词组为英文关键词,将所有英文关键词发送至句子提取模块;
句子提取模块,用于接收英文关键词、英文待译文本的英文原文和经过机器翻译后的原中文译文,并将英文原文中英文关键词所在的英文句子、以及所述英文句子在原中文译文中的对应译文提取出来,将英文关键词、英文关键词所在的英文句子和英文句子的中文译文发送至标准中文译文解译及待修正位置标注模块;
标准中文译文解译及待修正位置标注模块,用于接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译单元和待修正位置标注单元,得到英文关键词的标准中文译文和原中文译文中的待修正中文词组位置信息,将标准中文译文和待修正中文词组位置信息发送至自修正模块;
其中,标准中文译文解译及待修正位置标注模块包括:
标准中文译文解译单元,用于接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译模型,得到英文关键词在中文译文对应的中文翻译并发送至待修正位置标注单元,同时将得到的标准中文译文发送至待修正位置标注单元和自修正模块;
待修正位置标注单元,用于接收英文关键词在中文译文对应的中文翻译以及标准中文译文,并将英文关键词在中文译文对应的中文翻译以及标准中文译文代入待修正位置标注模型,得到原中文译文中的待修正中文词组位置信息并将其发送至自修正模块;
标准中文译文解译模型包括:
利用预设符号替换英文句子中的英文关键词;
对替换后的英文句子进行机器翻译,得到包含有预设符号的中文句子;
根据包含有预设符号的中文句子和英文句子的中文译文,确定英文句子的中文译文中英文关键词对应的中文翻译;
统计各英文关键词的中文翻译的个数,并将个数最多的英文关键词的中文翻译作为该英文关键词对应的标准中文译文;
自修正模块,用于接收原中文译文、标准中文译文和待修正中文词组位置信息,将待修正中文词组一一对应修正为标准中文译文,得到新中文译文。
2.根据权利要求1所述的英汉机器翻译术语一致性自修正系统,其特征在于,待修正位置标注模型为:
判断各关键词中文翻译是否与标准中文译文一致,若不一致,则该关键词中文翻译为待修正中文词组。
3.根据权利要求2所述的英汉机器翻译术语一致性自修正系统,其特征在于,停用词表为预设的最小单位名词性词组中不含的单词的集合。
4.一种基于如权利要求1所述系统实现的英汉机器翻译术语一致性自修正方法,其特征在于,包括以下步骤:
英文名词性词组提取模块将英文待译文本中出现频率大于等于预设频率的所有英文名词性词组提取出来,并通过预设的停用词表进行筛选,筛选后得到的各英文名词性词组为英文关键词,将所有英文关键词发送至句子提取模块;
句子提取模块接收英文关键词、英文待译文本的英文原文和经过机器翻译的原中文译文,并将英文原文中英文关键词所在的英文句子、原中文译文中英文关键词所在英文句子的译文提取出来,将英文关键词、英文关键词所在的英文句子和英文句子的中文译文发送至标准中文译文解译及待修正位置标注模块;标准中文译文解译及待修正位置标注模块接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译单元和待修正位置标注单元,得到英文关键词的标准中文译文和原中文译文中的待修正中文词组位置信息,将标准中文译文和待修正中文词组位置信息发送至自修正模块;
标准中文译文解译及待修正位置标注模块包括标准中文译文解译单元和待修正位置标注单元,
其中,利用标准中文译文解译单元接收英文关键词、英文关键词所在的英文句子和英文句子的中文译文,并将英文关键词、英文关键词所在的英文句子和英文句子的中文译文代入标准中文译文解译模型,得到英文关键词在中文译文对应的中文翻译并发送至待修正位置标注单元,同时将得到的标准中文译文发送至待修正位置标注单元和自修正模块;
利用待修正位置标注单元接收英文关键词在中文译文对应的中文翻译以及标准中文译文,并将英文关键词在中文译文对应的中文翻译以及标准中文译文代入待修正位置标注模型,得到原中文译文中的待修正中文词组位置信息并将其发送至自修正模块;
标准中文译文解译模型包括:
利用预设符号替换英文句子中的英文关键词;
对替换后的英文句子进行机器翻译,得到包含有预设符号的中文句子;
根据包含有预设符号的中文句子和英文句子的中文译文,确定英文句子的中文译文中英文关键词对应的中文翻译;
统计各英文关键词的中文翻译的个数,并将个数最多的英文关键词的中文翻译作为该英文关键词对应的标准中文译文;
自修正模块接收原中文译文、标准中文译文和待修正中文词组位置信息,将待修正中文词组一一对应修正为标准中文译文,得到新中文译文。
5.根据权利要求4所述的英汉机器翻译术语一致性自修正方法,其特征在于,待修正位置标注模型为:
判断各关键词中文翻译是否与标准中文译文一致,若不一致,则该关键词中文翻译为待修正中文词组。
6.根据权利要求5所述的英汉机器翻译术语一致性自修正方法,其特征在于,停用词表为预设的最小单位名词性词组中不含的单词的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911093306.5A CN110807338B (zh) | 2019-11-08 | 2019-11-08 | 英汉机器翻译术语一致性自修正系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911093306.5A CN110807338B (zh) | 2019-11-08 | 2019-11-08 | 英汉机器翻译术语一致性自修正系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110807338A CN110807338A (zh) | 2020-02-18 |
CN110807338B true CN110807338B (zh) | 2022-03-04 |
Family
ID=69501875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911093306.5A Active CN110807338B (zh) | 2019-11-08 | 2019-11-08 | 英汉机器翻译术语一致性自修正系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807338B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642339A (zh) * | 2020-04-27 | 2021-11-12 | 北京雅信诚医学信息科技有限公司 | 一种提高翻译精度的机器翻译系统及其方法 |
CN111597826B (zh) * | 2020-05-15 | 2021-10-01 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678287A (zh) * | 2013-11-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 一种关键词翻译统一的方法 |
CN105740218A (zh) * | 2015-12-31 | 2016-07-06 | 成都数联铭品科技有限公司 | 一种机器翻译后编辑处理方法 |
CN108804428A (zh) * | 2018-06-12 | 2018-11-13 | 苏州大学 | 一种译文中术语错译的纠正方法、系统及相关装置 |
CN109241543A (zh) * | 2018-09-19 | 2019-01-18 | 传神语联网网络科技股份有限公司 | 一致性翻译术语的预处理技术 |
CN109871548A (zh) * | 2017-12-01 | 2019-06-11 | 四川路源企业管理咨询有限公司 | 一种专利文件翻译方法 |
CN110175336A (zh) * | 2019-05-22 | 2019-08-27 | 北京百度网讯科技有限公司 | 翻译方法、装置和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8954315B2 (en) * | 2011-10-10 | 2015-02-10 | Ca, Inc. | System and method for mixed-language support for applications |
CN105701089A (zh) * | 2015-12-31 | 2016-06-22 | 成都数联铭品科技有限公司 | 一种机器翻译错词修正的后编辑处理方法 |
-
2019
- 2019-11-08 CN CN201911093306.5A patent/CN110807338B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678287A (zh) * | 2013-11-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 一种关键词翻译统一的方法 |
CN105740218A (zh) * | 2015-12-31 | 2016-07-06 | 成都数联铭品科技有限公司 | 一种机器翻译后编辑处理方法 |
CN109871548A (zh) * | 2017-12-01 | 2019-06-11 | 四川路源企业管理咨询有限公司 | 一种专利文件翻译方法 |
CN108804428A (zh) * | 2018-06-12 | 2018-11-13 | 苏州大学 | 一种译文中术语错译的纠正方法、系统及相关装置 |
CN109241543A (zh) * | 2018-09-19 | 2019-01-18 | 传神语联网网络科技股份有限公司 | 一致性翻译术语的预处理技术 |
CN110175336A (zh) * | 2019-05-22 | 2019-08-27 | 北京百度网讯科技有限公司 | 翻译方法、装置和电子设备 |
Non-Patent Citations (5)
Title |
---|
Investigating Terminology Translation in Statisticak and Neural Machine Translation: A Case Study on English-to-Hindi and Hindi-to-English;Rejwanul Haque et al;《RANLP 2019》;20190930;第437-446页 * |
国内计算机辅助翻译综述;姚运磊 等;《首都师范大学学报(自然科学版)》;20171231;第38卷(第6期);第17-20页 * |
基于改进seq2seq2模型的英汉翻译研究;肖新凤 等;《计算机工程与科学》;20190731;第41卷(第7期);第1257-1265页 * |
融合检索技术的译文推荐系统;蒋宗礼 等;《哈尔滨工程大学学报》;20170331;第38卷(第3期);第419-424页 * |
规则和模板相结合的地球物理领域科技文献机器翻译研究;詹聪 等;《海外英语》;20190531(第10期);第20-25页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110807338A (zh) | 2020-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066455B (zh) | 一种多语言智能预处理实时统计机器翻译系统 | |
Yu et al. | Chinese spelling error detection and correction based on language model, pronunciation, and shape | |
CN110134949B (zh) | 一种基于教师监督的文本标注方法和设备 | |
US20080059146A1 (en) | Translation apparatus, translation method and translation program | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
CN111753531A (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN110807338B (zh) | 英汉机器翻译术语一致性自修正系统及方法 | |
CN110807337B (zh) | 专利双语句对加工方法及系统 | |
CN106708812A (zh) | 机器翻译模型的获取方法及装置 | |
US10120843B2 (en) | Generation of parsable data for deep parsing | |
Álvarez et al. | Towards customized automatic segmentation of subtitles | |
Stamatatos et al. | Automatic extraction of rules for sentence boundary disambiguation | |
US20220019737A1 (en) | Language correction system, method therefor, and language correction model learning method of system | |
CN107862045B (zh) | 一种基于多特征的跨语言剽窃检测方法 | |
CN111178098B (zh) | 一种文本翻译方法、装置、设备及计算机可读存储介质 | |
Tennage et al. | Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation | |
CN111460809A (zh) | 阿拉伯语地名专名音译方法、装置、翻译设备和存储介质 | |
Acs et al. | Hunaccent: Small footprint diacritic restoration for social media | |
Hocking et al. | Optical character recognition for South African languages | |
CN110765792A (zh) | 基于词类别的神经网络机器翻译方法及系统、训练方法 | |
Généreux et al. | NLP challenges in dealing with OCR-ed documents of derogated quality | |
CN114462427A (zh) | 基于术语保护的机器翻译方法及装置 | |
CN113627191A (zh) | 一种气象预警样本语义自动化标注方法及系统 | |
CN107870905B (zh) | 一种特定词汇的识别方法 | |
CN112101019A (zh) | 一种基于词性标注和组块分析的需求模板符合性检查优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |