CN110705319A - 一种翻译方法 - Google Patents
一种翻译方法 Download PDFInfo
- Publication number
- CN110705319A CN110705319A CN201910916756.3A CN201910916756A CN110705319A CN 110705319 A CN110705319 A CN 110705319A CN 201910916756 A CN201910916756 A CN 201910916756A CN 110705319 A CN110705319 A CN 110705319A
- Authority
- CN
- China
- Prior art keywords
- translation
- translated
- term
- terms
- noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 245
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000014616 translation Effects 0.000 claims description 229
- 238000012545 processing Methods 0.000 claims description 65
- 238000003672 processing method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 210000001072 colon Anatomy 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种翻译方法,主要翻译工序为:精简待译文档内容——翻译——还原回填,最主要的是进行了二次去除非译文字处理(包括去除待译文字集合中的非译文字和去除使用编号替换后混合集合中的非译文字)和三次去除重复内容处理(包括去除待译文字集合中的重复内容、去除名词性术语中的重复内容和混合集合中重复的内容),通过这样的处理,能将复杂的待译文字集合简化到极致,即能将待译文字集合中的内容简化成最基本的语架。再通过与已知数据库比对,即能够非常准确地得出短句译文。最后采用还原、回填等方式即可得出非常准确的译文。本发明能在尽量保留译文上下文逻辑顺序的前提下,统一术语,统一句式,达到提高翻译准确性的目的。
Description
技术领域
本发明属于翻译技术领域,具体涉及一种翻译方法。
背景技术
人类语言的演变,在于人类历史的演变,人类历史的演变在于历史人物的演变,历史人物的演变赋予了人类语言逻辑。即使是同一个国家的人,存在不同的方言,存在不同的形式,存在不同的顺序,语言的逻辑却始终如一,这就是语言的宗。
人类语言从原始社会的结绳记事,到石器时代简单的图文表达,再到史书文字流畅地记载史实,是人类语言逻辑明确的演变方式,从词汇到逻辑丰满清晰的整句。
现在我们假设我们还生活在原始社会,那么首先,就需要术语。一件明确的物件或事情就是一个语言术语。当我们要指定这个物件或事情的时候,我们会在语言中使用指代这个物件或事情的语言词汇。实际上,它就是一个代号,也就是说,它就是个编号。当人们要描述与这个物件或事情有关系的事情的时候,通常就会使用无限多样种方式进行表达,这种表达的方式就是语言的逻辑。不仅单句具备逻辑,而且多句也具备逻辑。
现阶段的翻译技术可以分为三种:1、人工翻译;2、计算机辅助翻译;3、机器翻译。人工翻译能够满足语言的逻辑,但是存在着翻译速度较慢的缺陷,并且翻译准确度还取决于译员自身的能力水平。计算机辅助翻译是由人工与计算机相结合进行翻译,其基本思路为:由计算机对待译语料进行初步翻译,初步翻译后,由于辅助翻译不会考虑上下文的逻辑关系以及待译语料中有少部分特殊术语、或者因待译语料领域特殊导致的普通术语的含义特殊化或者其他原因等导致的部分子集的翻译结果不甚准确,因此还需要人工二次检查并替换为准确的术语对应翻译,其翻译的准确度较差和翻译速度仍然较慢。现有的机器翻译为自动化翻译,其翻译速度较快,然而依靠构式语法和神经网络算法,是支撑计算机实现自动翻译的主要依据。但它们更多的是专注于单句的翻译,而忽略了构架上下文的逻辑关系,导致翻译的结果不太准确,并不能直接拿来使用,翻译完毕后仍然需要通过人工进行进一步校正,且校正幅度较大,往往不能胜任要求较高的专业翻译需求。
中国专利申请号为201110234406.2的现有技术在2011年12月7日公开了一种计算机辅助翻译系统,其包括输入输出模块、语料库模块、翻译模块,其中:所述输入输出模块将原文导入系统,传给翻译模块,并输出翻译模块的翻译结果;所述语料库模块以数据库形式存在,是一个在语篇级、句级和语块级三个层面上实现对齐的科技文献双语平行语料库,语料库中的数据与翻译模块实现数据链接;所述翻译模块从输入输出模块接收待译语句并进行翻译处理,翻译时,通过对待译汉语语句的语块结合式切分,并与语料库模块采用最大逆向匹配法进行相应的匹配,其中的句式由诱导词进行诱导匹配,从而提供最适匹配状态的译文语句。该专利通过对汉语语句的语块结合式切分与匹配,能够呈现更为准确的专业翻译效果。但以该专利为代表的现有技术,在实际翻译过程中,该专利仍然存在着如下技术问题:1、依赖Trados或其他翻译辅助工具(CAT)的流程构造;2、全文句式均无法统一;3、逻辑先后顺序缺失或混乱;4、术语库中术语包含词组、单词,分类混乱且积累困难。
发明内容
本发明的目的在于解决现有技术中存在的上述问题,提供一种翻译方法,本发明能够在尽量保留译文上下文逻辑顺序的前提下,统一术语,统一句式,统一专业性,从而达到提高文档翻译准确性的目的。
为实现上述目的,本发明采用的技术方案如下:
一种翻译方法,其特征在于包括以下步骤:
(1)提取待译文档中的文字信息,并统一文字信息的格式,然后将其拆分成以单词、词组和单句为最小单位组成的待译文字集合,再去除待译文字集合中的非译文字和重复内容;
(2)建立译前处理文档,并在该译前处理文档中设置原文列和译文列,然后将经步骤(1)处理后的待译文字集合中的内容按前后逻辑顺序复制到原文列中;
(3)依照名词性术语在经步骤(1)处理后的待译文字集合中出现的前后逻辑顺序,提取待译文字集合中全部的名词性术语,得到具有前后逻辑顺序的名词性术语集合,再对名词性术语集合进行去重处理,得到无重复的、且包含前后逻辑顺序的已去重名词性术语集合;
(4)建立逻辑名词性术语表,并在该逻辑名词性术语表中设置编号列、术语原文列和术语译文列,将已去重名词性术语集合中的名词性术语按前后逻辑顺序复制到术语原文列中;在编号列中采用编号依次对术语原文列中的名词性术语进行编号;并与已知词典比对得出与术语原文列中名词性术语相对应的术语译文,将得出的术语译文对应复制到术语译文列中,得到编号、术语原文和术语译文一一对应的逻辑名词性术语表;
(5)将逻辑名词性术语表术语原文列中与名词性术语相对应的编号代入经步骤(1)处理后的待译文字集合中,替换待译文字集合中全部的名词性术语,得到由编号、单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架所组成的混合集合;
(6)先去除混合集合中单独的编号,再通过比对去除混合集合中相重复的内容,得到由单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架组成的深度处理待译文字集合;
(7)将深度处理待译文字集合与已知数据库进行比对,得到由单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文组成的深度处理译文集合;
(8)将深度处理译文集合还原至步骤(5)的混合集合中,得到由编号、单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文所组成的混合集合译文;
(9)使用逻辑名词性术语表中与编号相对应的名词性术语的译文替换混合集合译文中全部的编号,替换后得到待译文字集合译文;
(10)先将待译文字集合译文对应复制到译前处理文档的译文列中,得到译后处理文档;
(11)根据译后处理文档得出与待译文档格式相同的译文。
所述步骤(2)中,所述的按前后逻辑顺序复制到原文列中是指将经步骤(1)处理后的待译文字集合中的单词、词组和单句按前后逻辑顺序依次复制到原文列的每一行中。
所述步骤(3)中的对名词性术语集合进行去重处理是指去除名词性术语集合中与最先出现的名词性术语相同的后续名词性术语。
所述步骤(4)的编号列中采用数字序号进行编号。
所述步骤(4)中采用完全相同原则与已知词典进行比对。
所述步骤(7)中的已知数据库包括词典、谷歌数据库、有道数据库和百度数据库。
采用本发明的优点在于:
1、本发明的翻译过程主要为:统一文字格式——去除非译文字和重复内容——提取名词性术语并去重——根据名词性术语建立编号、原文和译文一一对应的逻辑名词性术语表——使用编号替换待译文字集合中的名词性术语——去除编号和重复内容——比对已知数据库得出深度处理译文集合——根据深度处理译文集合还原得到混合集合译文——将混合集合译文中的编号替换成对应译文,得出待译文字集合译文——根据待译文字集合译文得出译后处理文档——根据译后处理文档得出译文。从该主要翻译过程可以看出,本发明的主要翻译工序为:精简待译文档内容——翻译——还原回填,在该工序中,最主要的是进行了二次去除非译文字处理(包括去除待译文字集合中的非译文字和去除使用编号替换后混合集合中的非译文字)和三次去除重复内容处理(包括去除待译文字集合中的重复内容、去除名词性术语中的重复内容和混合集合中重复的内容),通过这样的处理,能够将复杂的待译文字集合简化到极致,即能够将待译文字集合中的内容简化成最基本的语架。因此,再通过与已知数据库比对,即能够非常准确地得出短句译文。最后采用还原、回填等方式即可得出非常准确的译文。与现有翻译技术相比,本发明具有翻译速度快、效率高、准确度高等优点,且经申请人对上百篇需要翻译的文档进行实际测试,翻译后依照2018-2019年国家知识产权局专利局专利文献英文翻译招标文件中公示的质量标准计算,其综合差错率始终在千分之六以下。由此证明了本发明的准确率高。
2、本发明在翻译过程中对由于待译文档进行了三次去重处理,因此仅需要翻译不同的原文即可,简化了翻译量,不仅避免了重复翻译的问题,同时还可以屏蔽敏感的名词性术语,将全文中的敏感信息进行加密,起到了保密的作用效果。
3、本发明步骤(4)中采用了完全相同原则与已知词典进行比对,其优点在于能够提升名词性术语翻译的准确性,进而进一步提升整个文档翻译的准确性。
4、本发明在翻译过程中获得的名词性术语原文和译文、语架原文和译文以及待译文档原文和译文,均可根据上下文逻辑排序后进行存储,并作为逻辑名词性术语数据库、逻辑语架术语库和逻辑语料数据库,以便于后续遇到相同类型文档时直接调用。
附图说明
图1为本发明的流程图。
图2为实施例2中待译文档的示意图;
图3为实施例2中步骤1的示意图;
图4为实施例2中步骤2的示意图;
图5为实施例2中步骤3的示意图;
图6-8为实施例2中步骤4的示意图;
图9为实施例2中步骤5的示意图;
图10为实施例2中步骤6的示意图;
图11为实施例2中步骤7的示意图;
图12为实施例2中步骤8的示意图;
图13为实施例2中步骤9的示意图;
图14为实施例2中步骤10的示意图;
图15为实施例2中步骤11的示意图;
图16为实施例3中待译文档的示意图;
图17为实施例3中步骤1的示意图;
图18为实施例3中步骤2的示意图;
图19为实施例3中步骤3的示意图;
图20-22为实施例3中步骤4的示意图;
图23为实施例3中步骤5的示意图;
图24为实施例3中步骤6的示意图;
图25为实施例3中步骤7的示意图;
图26为实施例3中步骤8的示意图;
图27为实施例3中步骤9的示意图;
图28为实施例3中步骤10的示意图;
图29为实施例3中步骤11的示意图。
具体实施方式
实施例1
本发明提供了一种翻译方法,如图1所示,其包括以下步骤:
(1)提取待译文档中的文字信息,并统一文字信息的格式,然后将其拆分成以单词、词组和单句为最小单位组成的待译文字集合,单句是指以句号、冒号、分号等结尾的句子,拆分后再去除待译文字集合中的非译文字和重复内容。
本步骤中,提取待译文档中的文字信息、统一文字信息的格式、拆分、可去除非译文字和重复内容均为现有常规技术,采用公开号CN105808528A 文献中所公开的处理方法即能够实现。
(2)建立译前处理文档,并在该译前处理文档中设置原文列和译文列,然后将经步骤(1)处理后的待译文字集合中的内容按前后逻辑顺序复制到原文列中。其中,按前后逻辑顺序复制到原文列中是指将经步骤(1)处理后的待译文字集合中的单词、词组和单句按前后逻辑顺序依次复制到原文列的每一行中。
(3)依照名词性术语在经步骤(1)处理后的待译文字集合中出现的前后逻辑顺序,提取待译文字集合中全部的名词性术语,得到具有前后逻辑顺序的名词性术语集合,即名词性术语集合中名词性术语的先后顺序与待译文字集合中名词性术语的先后顺序相同;然后再对名词性术语集合进行去重处理,得到无重复的、且包含前后逻辑顺序的已去重名词性术语集合。其中,对名词性术语集合进行去重处理是指去除名词性术语集合中与最先出现的名词性术语相同的后续名词性术语,即名词性术语集合中,若某一名词性术语有多个,则仅保留第一个名词性术语,该名词性术语之后的重复名词性术语均去除。
(4)建立逻辑名词性术语表,并在该逻辑名词性术语表中设置编号列、术语原文列和术语译文列,将已去重名词性术语集合中的名词性术语按前后逻辑顺序复制到术语原文列中;在编号列中采用编号依次对术语原文列中的名词性术语进行编号,编号可采用数字序号进行编号;并采用完全相同原则与已知词典或已知数据库比对得出与术语原文列中名词性术语相对应的术语译文,将得出的术语译文对应复制到术语译文列中,得到编号、术语原文和术语译文一一对应的逻辑名词性术语表。
本步骤中,已知词典为需要相互翻译的两种语言的词典,如英汉互译时的英汉词典,如英法互译的英法词典等。
(5)将逻辑名词性术语表术语原文列中与名词性术语相对应的编号代入经步骤(1)处理后的待译文字集合中,替换待译文字集合中全部的名词性术语,得到由编号、单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架所组成的混合集合。
(6)先去除混合集合中单独的编号,再通过比对去除混合集合中相重复的内容,得到由单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架组成的深度处理待译文字集合。
本步骤中,去除编号和去除相重复的内容为现有常规技术,采用公开号CN105760368A文献中所公开的处理方法即能够实现。
(7)将深度处理待译文字集合与已知数据库进行比对,已知数据库包括词典、谷歌数据库、有道数据库、百度数据库等,得到由单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文组成的深度处理译文集合。
(8)将深度处理译文集合还原至步骤(5)的混合集合中,得到由编号、单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文所组成的混合集合译文。
本步骤中,所述的将深度处理译文集合还原至混合集合中为现有常规技术,采用公开号CN105760368A文献中所公开的还原方法即能够实现。
(9)使用逻辑名词性术语表中与编号相对应的名词性术语的译文替换混合集合译文中全部的编号,替换后得到待译文字集合译文。
(10)先将待译文字集合译文对应复制到译前处理文档的译文列中,得到译后处理文档;
(11)根据译后处理文档得出与待译文档格式相同的译文。
本步骤中,根据译后处理文档得出与待译文档格式相同的译文为现有常规技术,采用公开号CN105808528A 文献中所公开的回填方法即可实现。
需要说明的是,本发明步骤(1)和步骤(11)的处理仅基于公开号CN105808528A 文献中所公开的处理方式,步骤(6)和步骤(8)中的处理仅基于公开号CN105760368A文献中所公开的处理方式。
本发明所述方法既可全部人工翻译,也可人工加机器半自动翻译,还可全部自动翻译,在实际使用时,优先采用全部自动翻译。全部采用自动翻译时,经申请人对上百篇需要翻译的文档进行实际测试,千字文档在一分钟内即可完成,速度非常快,且依照2018-2019年国家知识产权局专利局专利文献英文翻译招标文件中公示的质量标准计算,翻译的综合差错率始终在千分之六以下。
实施例2
本实施例为使用实施例1所述的翻译方法将汉语翻译成英语,设定待译文档中的内容为本发明背景技术中的部分内容,具体以背景技术中 “现阶段的翻译技术可以分为三种:1、人工翻译;2、计算机辅助翻译;3、机器翻译。人工翻译能够满足语言的逻辑,但是存在着翻译速度较慢的缺陷,并且翻译准确度还取决于译员自身的能力水平。” 的这部分内容为例来详细说明具体的翻译过程。先将这部分内容复制到文档中,得到待译文档,如图2所示,然后按以下步骤实施:
(1)采用公开号CN105808528A 文献中所公开的处理方法提取待译文档中的文字信息,并统一文字信息的格式,然后将其拆分成以单词、词组和单句为最小单位组成的待译文字集合,单句是指以句号、冒号、分号等结尾的句子,拆分后再去除待译文字集合中的非译文字和重复内容。经拆分后得到的待译文字集合如图3所示。
(2)建立译前处理文档,并在该译前处理文档中设置原文列和译文列,然后将经步骤(1)处理后的待译文字集合中的内容按前后逻辑顺序复制到原文列中,如图4所示。
(3)依照名词性术语在经步骤(1)处理后的待译文字集合中出现的前后逻辑顺序,提取待译文字集合中全部的名词性术语,得到具有前后逻辑顺序的名词性术语集合,即名词性术语集合中名词性术语的先后顺序与待译文字集合中名词性术语的先后顺序相同;然后再对名词性术语集合进行去重处理(去除重复的内容),得到无重复的、且包含前后逻辑顺序的已去重名词性术语集合,如图5所示。
(4)建立逻辑名词性术语表,并在该逻辑名词性术语表中设置编号列、术语原文列和术语译文列,将已去重名词性术语集合中的名词性术语按前后逻辑顺序复制到术语原文列中;在编号列中采用编号依次对术语原文列中的名词性术语进行编号,编号可采用数字序号进行编号,例如1、2、3……等,如图6所示;并采用完全相同原则与英汉词典比对得出与术语原文列中名词性术语相对应的术语译文,如图7所示;然后将得出的术语译文对应复制到术语译文列中,得到编号、术语原文和术语译文一一对应的逻辑名词性术语表,如图8所示。
(5)将逻辑名词性术语表术语原文列中与名词性术语相对应的编号代入经步骤(1)处理后的待译文字集合中,替换待译文字集合中全部的名词性术语,得到由编号、单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架所组成的混合集合,如图9所示。
(6)先去除混合集合中单独的编号,再通过比对去除混合集合中相重复的内容,得到由单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架组成的深度处理待译文字集合,如图10所示。
(7)将深度处理待译文字集合与已知数据库进行比对,已知数据库包括词典、谷歌数据库、有道数据库、百度数据库等,得到由单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文组成的深度处理译文集合,如图11所示。
(8)采用公开号CN105760368A文献中所公开的还原方法将深度处理译文集合还原至步骤(5)的混合集合中,得到由编号、单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文所组成的混合集合译文,如图12所示。
(9)使用逻辑名词性术语表中与编号相对应的名词性术语的译文替换混合集合译文中全部的编号,替换后得到待译文字集合译文,如图13所示。
(10)先将待译文字集合译文对应复制到译前处理文档的译文列中,得到译后处理文档,如图14所示。
(11)采用公开号CN105808528A 文献中所公开的方法得出与待译文档格式相同的译文,如图15所示。
本实施例中,由于举例说明中内容较少,因此举例部分内容可能未包括单词、不带编号的词组、不带编号的单句中的任意一种或几种,具体实施时相应忽略即可。
实施例3
本实施例为使用实施例1所述的翻译方法将英语翻译成荷兰语,设定待译文档中的内容如图16所示,然后按以下步骤实施:
(1)采用公开号CN105808528A 文献中所公开的处理方法提取待译文档中的文字信息,并统一文字信息的格式,然后将其拆分成以单词、词组和单句为最小单位组成的待译文字集合,单句是指以句号、冒号、分号等结尾的句子,拆分后再去除待译文字集合中的非译文字和重复内容。经拆分后得到的待译文字集合如图17所示。
(2)建立译前处理文档,并在该译前处理文档中设置原文列和译文列,然后将经步骤(1)处理后的待译文字集合中的内容按前后逻辑顺序复制到原文列中,如图18所示。
(3)依照名词性术语在经步骤(1)处理后的待译文字集合中出现的前后逻辑顺序,提取待译文字集合中全部的名词性术语,得到具有前后逻辑顺序的名词性术语集合,即名词性术语集合中名词性术语的先后顺序与待译文字集合中名词性术语的先后顺序相同;然后再对名词性术语集合进行去重处理(去除重复的内容),得到无重复的、且包含前后逻辑顺序的已去重名词性术语集合,如图19所示。
(4)建立逻辑名词性术语表,并在该逻辑名词性术语表中设置编号列、术语原文列和术语译文列,将已去重名词性术语集合中的名词性术语按前后逻辑顺序复制到术语原文列中;在编号列中采用编号依次对术语原文列中的名词性术语进行编号,编号可采用数字序号进行编号,例如1、2、3……等,如图20所示;并采用完全相同原则与英汉词典比对得出与术语原文列中名词性术语相对应的术语译文,如图21所示;然后将得出的术语译文对应复制到术语译文列中,得到编号、术语原文和术语译文一一对应的逻辑名词性术语表,如图22所示。
(5)将逻辑名词性术语表术语原文列中与名词性术语相对应的编号代入经步骤(1)处理后的待译文字集合中,替换待译文字集合中全部的名词性术语,得到由编号、单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架所组成的混合集合,如图23所示。
(6)先去除混合集合中单独的编号,再通过比对去除混合集合中相重复的内容,得到由单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架组成的深度处理待译文字集合,如图24所示。
(7)将深度处理待译文字集合与已知数据库进行比对,已知数据库包括词典、谷歌数据库、有道数据库、百度数据库等,得到由单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文组成的深度处理译文集合,如图25所示。
(8)采用公开号CN105760368A文献中所公开的还原方法将深度处理译文集合还原至步骤(5)的混合集合中,得到由编号、单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文所组成的混合集合译文,如图26所示。
(9)使用逻辑名词性术语表中与编号相对应的名词性术语的译文替换混合集合译文中全部的编号,替换后得到待译文字集合译文,如图27所示。
(10)先将待译文字集合译文对应复制到译前处理文档的译文列中,得到译后处理文档,如图28所示。
(11)采用公开号CN105808528A 文献中所公开的方法得出与待译文档格式相同的译文,如图29所示。
本实施例中,由于举例说明中内容较少,因此举例部分内容可能未包括单词、不带编号的词组、不带编号的单句中的任意一种或几种,具体实施时相应忽略即可。
从上述实施例可知,由于所有语言均包含名词性术语,因此本发明适用于所有语言的相互翻译,如将汉语翻译成其它各国语言,或将其它各国语言翻译成汉语、或其它各国语言互译等,且翻译准确度非常高,真正地实现了所有语言的相互翻译。另外,本发明能够将复杂的待译文字集合简化到极致,即能够将待译文字集合中的内容简化成最基本的语架。因此,本发明还具有翻译速度快、效率高、准确度高等优点,且经申请人对上百篇需要翻译的文档进行实际测试,翻译后依照《2018-2019年国家知识产权局专利局专利文献英文翻译招标文件》中公示的质量标准计算,其综合差错率始终在千分之六以下(综合差错率=KC A ×100%,各参数取值可参考2018-2019年国家知识产权局专利局专利文献英文翻译招标文件),由此证明了本发明的准确率高。
Claims (6)
1.一种翻译方法,其特征在于包括以下步骤:
(1)提取待译文档中的文字信息,并统一文字信息的格式,然后将其拆分成以单词、词组和单句为最小单位组成的待译文字集合,再去除待译文字集合中的非译文字和重复内容;
(2)建立译前处理文档,并在该译前处理文档中设置原文列和译文列,然后将经步骤(1)处理后的待译文字集合中的内容按前后逻辑顺序复制到原文列中;
(3)依照名词性术语在经步骤(1)处理后的待译文字集合中出现的前后逻辑顺序,提取待译文字集合中全部的名词性术语,得到具有前后逻辑顺序的名词性术语集合,再对名词性术语集合进行去重处理,得到无重复的、且包含前后逻辑顺序的已去重名词性术语集合;
(4)建立逻辑名词性术语表,并在该逻辑名词性术语表中设置编号列、术语原文列和术语译文列,将已去重名词性术语集合中的名词性术语按前后逻辑顺序复制到术语原文列中;在编号列中采用编号依次对术语原文列中的名词性术语进行编号;并与已知词典比对得出与术语原文列中名词性术语相对应的术语译文,将得出的术语译文对应复制到术语译文列中,得到编号、术语原文和术语译文一一对应的逻辑名词性术语表;
(5)将逻辑名词性术语表术语原文列中与名词性术语相对应的编号代入经步骤(1)处理后的待译文字集合中,替换待译文字集合中全部的名词性术语,得到由编号、单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架所组成的混合集合;
(6)先去除混合集合中单独的编号,再通过比对去除混合集合中相重复的内容,得到由单词、不带编号的词组、不带编号的单句、带编号的词组语架和带编号的单句语架组成的深度处理待译文字集合;
(7)将深度处理待译文字集合与已知数据库进行比对,得到由单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文组成的深度处理译文集合;
(8)将深度处理译文集合还原至步骤(5)的混合集合中,得到由编号、单词译文、不带编号的词组译文、不带编号的单句译文、带编号的词组语架译文和带编号的单句语架译文所组成的混合集合译文;
(9)使用逻辑名词性术语表中与编号相对应的名词性术语的译文替换混合集合译文中全部的编号,替换后得到待译文字集合译文;
(10)先将待译文字集合译文对应复制到译前处理文档的译文列中,得到译后处理文档;
(11)根据译后处理文档得出与待译文档格式相同的译文。
2.根据权利要求1所述的一种翻译方法,其特征在于:所述步骤(2)中,所述的按前后逻辑顺序复制到原文列中是指将经步骤(1)处理后的待译文字集合中的单词、词组和单句按前后逻辑顺序依次复制到原文列的每一行中。
3.根据权利要求1所述的一种翻译方法,其特征在于:所述步骤(3)中的对名词性术语集合进行去重处理是指去除名词性术语集合中与最先出现的名词性术语相同的后续名词性术语。
4.根据权利要求1所述的一种翻译方法,其特征在于:所述步骤(4)的编号列中采用数字序号进行编号。
5.根据权利要求1所述的一种翻译方法,其特征在于:所述步骤(4)中采用完全相同原则与已知词典进行比对。
6.根据权利要求1所述的一种翻译方法,其特征在于:所述步骤(7)中的已知数据库包括词典、谷歌数据库、有道数据库和百度数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910916756.3A CN110705319A (zh) | 2019-09-26 | 2019-09-26 | 一种翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910916756.3A CN110705319A (zh) | 2019-09-26 | 2019-09-26 | 一种翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110705319A true CN110705319A (zh) | 2020-01-17 |
Family
ID=69197337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910916756.3A Pending CN110705319A (zh) | 2019-09-26 | 2019-09-26 | 一种翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705319A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597826A (zh) * | 2020-05-15 | 2020-08-28 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
CN111797621A (zh) * | 2020-06-04 | 2020-10-20 | 语联网(武汉)信息技术有限公司 | 一种术语替换方法及系统 |
CN113705158A (zh) * | 2021-09-26 | 2021-11-26 | 上海一者信息科技有限公司 | 一种文档翻译中智能还原原文样式的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760368A (zh) * | 2016-03-11 | 2016-07-13 | 张广睿 | 一种文档文字的深度处理方法 |
CN105808528A (zh) * | 2016-03-04 | 2016-07-27 | 张广睿 | 一种文档文字的处理方法 |
CN106250375A (zh) * | 2016-08-09 | 2016-12-21 | 北京百度网讯科技有限公司 | 翻译处理方法及装置 |
CN109783826A (zh) * | 2019-01-15 | 2019-05-21 | 四川译讯信息科技有限公司 | 一种文档自动翻译方法 |
-
2019
- 2019-09-26 CN CN201910916756.3A patent/CN110705319A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808528A (zh) * | 2016-03-04 | 2016-07-27 | 张广睿 | 一种文档文字的处理方法 |
CN105760368A (zh) * | 2016-03-11 | 2016-07-13 | 张广睿 | 一种文档文字的深度处理方法 |
CN106250375A (zh) * | 2016-08-09 | 2016-12-21 | 北京百度网讯科技有限公司 | 翻译处理方法及装置 |
CN109783826A (zh) * | 2019-01-15 | 2019-05-21 | 四川译讯信息科技有限公司 | 一种文档自动翻译方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597826A (zh) * | 2020-05-15 | 2020-08-28 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
CN111797621A (zh) * | 2020-06-04 | 2020-10-20 | 语联网(武汉)信息技术有限公司 | 一种术语替换方法及系统 |
CN111797621B (zh) * | 2020-06-04 | 2024-05-14 | 语联网(武汉)信息技术有限公司 | 一种术语替换方法及系统 |
CN113705158A (zh) * | 2021-09-26 | 2021-11-26 | 上海一者信息科技有限公司 | 一种文档翻译中智能还原原文样式的方法 |
CN113705158B (zh) * | 2021-09-26 | 2024-05-24 | 上海一者信息科技有限公司 | 一种文档翻译中智能还原原文样式的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930966B (zh) | 一种用于数字政务的智能政策匹配方法及系统 | |
CN110046261B (zh) | 一种建筑工程多模态双语平行语料库的构建方法 | |
CN110705319A (zh) | 一种翻译方法 | |
US20090076792A1 (en) | Text editing apparatus and method | |
TW201918913A (zh) | 機器處理及文本糾錯方法和裝置、計算設備以及儲存媒體 | |
CN112287696B (zh) | 译文后编辑方法、装置、电子设备和存储介质 | |
CN110276071A (zh) | 一种文本匹配方法、装置、计算机设备及存储介质 | |
CN111178061B (zh) | 一种基于编码转换的多国语分词方法 | |
CN100454294C (zh) | 用于将日文翻译成中文的设备 | |
JP4304268B2 (ja) | 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム | |
CN109871546A (zh) | 一种专利文件翻译系统 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
CN111563372B (zh) | 一种基于教辅书籍出版的排版文档内容自查重方法 | |
CN109815503B (zh) | 一种人机交互翻译方法 | |
Inoue et al. | A parallel corpus of Arabic-Japanese news articles | |
CN103164398A (zh) | 汉维电子辞典及其自动转译汉维语的方法 | |
Nastase et al. | Correction of OCR word segmentation errors in articles from the ACL collection through neural machine translation methods | |
CN103164395B (zh) | 汉柯电子辞典及其自动转译汉柯语的方法 | |
CN109657244B (zh) | 一种英文长句自动切分方法及系统 | |
CN111178090A (zh) | 一种用于企业名称翻译的方法及系统 | |
Bergmanis et al. | From zero to production: Baltic-ukrainian machine translation systems to aid refugees | |
Dobranić et al. | A Lightweight Approach to a Giga-Corpus of Historical Periodicals: The Story of a Slovenian Historical Newspaper Collection | |
CN113658652A (zh) | 一种基于电子病历数据文本的二元关系提取方法 | |
Rosmorduc | Computational linguistics in egyptology | |
AbuSa’aleek | The adequacy and acceptability of machine translation in translating the Islamic texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200117 |