CN1661593B - 一种计算机语言翻译方法及其翻译系统 - Google Patents
一种计算机语言翻译方法及其翻译系统 Download PDFInfo
- Publication number
- CN1661593B CN1661593B CN 200410006305 CN200410006305A CN1661593B CN 1661593 B CN1661593 B CN 1661593B CN 200410006305 CN200410006305 CN 200410006305 CN 200410006305 A CN200410006305 A CN 200410006305A CN 1661593 B CN1661593 B CN 1661593B
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- translation
- module
- translated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种计算机语言翻译方法和翻译系统,翻译方法包括,首先,将输入的被翻译句子分解成多个单词的组合,然后,在句子数据库中查找所有包含待翻译单词的句子,再按匹配算法查找出匹配率为最高值的句子,最后,输出该句子对应的译文;翻译系统包括:获得被翻译的句子及输出翻译结果的输入输出模块、翻译模块、存储句子原文和对应译文及索引的数据库模块和数据库管理模块;翻译模块将句子分解独立的WORD,向数据库管理模块查询,采用设定的算法计算匹配率,得到翻译结果。本发明在传统单词或短语加语法的翻译方式基础上综合句子匹配方式,通过匹配率计算实现了句子匹配,提高了翻译效率,达到了译文的准确和统一,节省翻译人员的时间和精力。
Description
技术领域
本发明涉及一种语言翻译方法及其系统,特别是指一种以计算机作为主要工具的语言翻译方法及应用该方法完成语言翻译的系统;属于计算机翻译技术领域。
背景技术
语言翻译是一门具有技巧性和艺术性的科学,需要付出创造性的劳动。由于各种语言都是由繁多的辞语、复杂的语法关系和几乎没有规律可循的习惯用法构成的语言系统,因此,语言翻译工作十分复杂、繁琐和枯燥;并且,人工翻译很难将以前翻译的知识和技巧积累下来,供后续的翻译工作使用。
有鉴于上述的现实,人们提出了利用机器进行语言翻译的设想。随着计算机技术的飞速发展和计算机的日益普及,这一设想也得到了初步的实现:越来越多的计算机语言翻译系统不断问世。这些计算机语言翻译系统大多侧重于自动翻译,使用者只能利用这样的计算机语言翻译系统从外语文字资料中了解资料的原文大意。
由于目前人工智能理论和数据处理算法的局限,完全采用计算机进行语言翻译,通常只能得到一些机械的翻译结果,其原因是:一般的计算机语言翻译系统中,计算机只是按照事先规定的翻译规则进行机械的翻译处理,而不会考虑用词的准确性;更不能照顾到被翻译对象的前后语言环境而使得翻译结果达到译文的“信、达、雅”;并且,这类翻译系统通常不具备词语库更新的功能,所以,仅能在专业翻译中用做参考工具。
另外,还有一些计算机语言翻译系统、语言翻译平台,它能辅助其使用者进行一些语言翻译工作,能够记住使用者曾经翻译过的句子,存入记忆库中,在翻译一句话时,会以数学方法在记忆库中查找要翻译的句中的单词或词组在记忆库的句子中出现的比率,达到一定的比率后则将记忆库中相应的句子的译文提出,供翻译人员对该句进行校对或修改,这种方法虽具有一定的句子匹配功能,但会出现从记忆库中提出的句子与需要翻译的句子虽然有一定的词或词组相同,但顺序或含义不同,译义完全不同的问题。
因此,这些翻译系统的主要缺点在于:语言水平低,整句进行翻译往往很不准确,词不达意;有语法库和简单的记忆库而没有知识库,翻译不够准确,专业性不强。
由于完全用计算机完成语言翻译这样具有创造性思维的工作还不现实,但随着计算机速度和能力的不断提高,如果能有一种基于句子匹配的翻译方法与如今的词典及基于语法的翻译方法相结合使用,一定可以取得更加准确和专业的翻译结果,大大提高人们对于各种语言的驾驭能力,取得良好的社会效益和经济效益。
发明内容
本发明所要解决的技术问题在于提供一种通过计算机系统进行句子匹配的模式运算进行语言翻译的翻译方法及系统。
本发明的翻译方法,包括如下步骤:
步骤一、将输入的被翻译的句子分解成多个单词,即WORD(以下简称为WORD)的组合,按顺序存储在一个翻译数组中,每一个数据单元对应一个WORD;
步骤二、对于步骤一中的每个WORD,在句子数据库中查找所有包括该WORD的句子;
步骤三、根据步骤二中每个WORD的查找结果,按匹配算法查找出在步骤二的结果中与被翻译的句子的匹配率为最高值的句子或匹配率为最高值和最接近最高值的几个句子或大于预先设定的匹配率的所有句子;
步骤四、在句子数据库中查找作为步骤三的结果的句子对应的句子译文,输出该/这些句子。
本发明的计算机翻译系统,包括:输入输出模块、翻译模块、数据库模块和数据库管理模块;
所述的输入输出模块与翻译模块相连,用来获得被翻译的句子,获得对翻译模块和数据库模块的设置参数,并将翻译好的句子和/或提示信息输出;
所述的翻译模块用来将被翻译的句子分解成各个独立的WORD;与数据库管理模块交互发出查询请求,得到查询结果;采用设定的算法计算匹配率,将符合要求的翻译结果输出;
所述的数据库模块用来存储WORD和句子的原文和对应的译文,以及数据库的索引;
所述的数据库管理模块从翻译模块获得查询请求和被查询信息,根据数据库的索引,完成请求的查询;并将结果返回给翻译模块。
本发明提出了一种新的句子匹配翻译方法,它通过搜索句子数据库,对需要翻译的内容进行分析、对比,给出满足要求的参考句子和翻译结果。本发明的系统不仅实现了句子匹配,而且通过与单词翻译模块和自动翻译模块相集成,还可以使翻译人员的使用更加方便。
附图说明
图1为本发明的总体流程示意图;
图2为本发明有序匹配实施例的流程图;
图3为本发明无序匹配实施例的流程图;
图4为本发明翻译系统基本结构示意图。
具体实施方式
本发明所述的翻译方法是一种基于句子匹配分析进行计算机翻译的方法。首先建立专业数据库,其中保存有预先翻译好的句子,并设置句子匹配规则;然后执行下述各个实施例所述的翻译过程。
实施例1:
如图1所示是本发明完成语句翻译过程的流程图,翻译过程包括:
步骤一、将输入的被翻译的句子分解成多个单词WORD的组合,按顺序存储在一个翻译数组中,每一个数据单元对应一个WORD;
步骤二、对于步骤一中的每个WORD,在句子数据库中查找所有包括该WORD的句子;
步骤三、根据步骤二中每个WORD的查找结果,按匹配算法查找出在步骤二的结果中与被翻译的句子的匹配率为最高值的句子或匹配率为最高值和最接近最高值的几个句子或大于预先设定的匹配率的所有句子;
步骤四、在句子数据库中查找作为步骤三的结果的句子对应的句子译文,输出该/这些句子。
通过计算机采用句子匹配的方法进行翻译,最大的难点在于句子是无法穷尽的,有无数种可能句子,建立包括所有句子的句子数据库是不可能的,因此,使每一个被翻译句子的所有单词WORD完全与计算机中保存的句子数据库中的某一个句子一一对应的完全相同是同样不可能的。本发明创造性的采用了匹配算法来计算被翻译句子与数据库中句子的相似度(匹配率),解决了这一难题。文本相似度的算法在很多领域中都有应用,比如网络安全中的信息过滤机制就是以文本相似度的算法为基础建立的。
为了获得更好的翻译效果,计算机中保存的句子数据库包括常用基本句子和某一专业领域大部分的句子,并且句子数据库可以不断的进行更新,以使数据库本身更加适用与该领域。数据库的更新过程,其实是一种通过计算机实现的学习过程:当使用者完成某一句的翻译后,可以将翻译好的句子添加到数据库中,不断的完善数据库。
本发明所述的步骤一中,将输入的被翻译的句子分解成多个单词,即WORD的组合,根据计算机对WORD的编码方式,将输入的句子分解成WORD的组合,按在被翻译句子中的顺序将WORD放入到翻译数组中。
所述的单词WORD为该语言中有确定含义的符号的最小单位,如中文中的汉字,英文中的单词。
从输入到计算机中的被翻译的语句中分解单词的方法根据语言的不同而不同,比如,对于英文可以通过查找空格的方法,每两个空格之间为一个单词;对于中文,计算机编码就是以汉字作为单位进行的,只要可以了解是哪一种编码方式就能够很容易完成分解。
本发明所述的步骤二,在计算机中保存的句子数据库中查找所有包括某一’WORD的句子,查找的方法根据数据库的不同而有所不同,由于句子数据库非常庞大,为了能够在其中快速的找到对应的句子,可以采用单词索引的方式实现单词句子归属的快速查询。
句子数据库至少包括句子内容表;其表项为每一个句子和该句子对应的译文,这是基本的要求;句子数据库还应包括句子位置索引表;其表项为句子内容表中每一个句子的句编号、该句子在句子内容表的起始位置和句子长度,方便在句子内容表中查找句子。
句子数据库还可以包括句编号-词序号表;所述的句编号-词序号表的一行中包括多个作为表项的句编号-词编号,每一句编号一词编号对应一个句子内容表中包括的一个WORD;该句编号一词编号表项为在句子内容表中所有包含该WORD的句子的句编号和该WORD在该句编号句子中的顺序号;该表的好处是将句子转化为计算机可以处理的WORD的结构,便于各种算法来使用。
句子数据库还包括WORD列表;所述的WORD列表包括句子数据库中的所有的WORD,以及该WORD在句编号-词序号表中对应部分的位置和该WORD在句子内容表中出现的次数。该表是为了方便用户使用句编号-词序号表,提高查询的速度。
总信息表记录存放句编号-词序表的总行数,句子的个数和WORD的个数,提供整体句子数据库的信息,方便用户通过计算机进行的查询。
本发明所述的保存在计算机中的句子数据库建立的数据来源包括两种,一种是数据库最初建立时,收集整理的基本句子和专业句子以及对应的译文;二是本发明在使用过程中,被认为是翻译正确的句子和译文。对于这两种数据源,可以采用相同的方法进行处理,以减少不必要的步骤。
生成或更新保存在计算机中的数据库,每新增一个句子都需要完成两个基本任务,添加新句子的索引和添加新句子的内容(句子本身和译文)到数据库中。这两个任务可以分由两步完成,也可以合并由一步完成。
下面给出通过计算机完成索引和句子内容添加的方法实例以及对应的句子数据库的具体结构:对于每一个新添加的句子,
步骤201、将数据源的每一个句子的WORD都在WORD列表中进行查找,如果找到,则继续查找下一个WORD,如果没有,则在WORD列表中新建该一个WORD的表项,直到处理完句子的全部WORD。
句子数据库设有一个WORD列表,用来进行单词索引;每个WORD的表项包括三个内容,一是WORD的具体内容;二是该WORD对应的句编号-词序号表的位置;三是该WORD在数据库全部句子中出现的次数;参见表1。
表1
字段名 | 类型 | 长度 | 说明 |
Word | 字符型 | Word的具体内容 | |
Sentence_Word_Code_Position | 整型 | 该词首个句编号-词序号在表2的位置 | |
Word_Number | 整型 | 本词在库中个数 |
为了更好的利用存储空间,减少存储空间碎片的产生,在存储句编号-词序号表时,采用了链表结构来存储,链表每行中存储的句编号-词序号表项的个数是一定的,如8192个或4096个。本发明所述的句编号-词序号表,如表2所示,
表2
字段名 | 类型 | 长度 | 说明 |
Sentence_No-Word_No1 | 句子的编号和词在句中的顺序号 | ||
Sentence_No-Word_No2 | 句子的编号和词在句中的顺序号 | ||
.... | .... |
字段名 | 类型 | 长度 | 说明 |
Link_Address | 下一个存储空间的位置 |
步骤202、根据总信息表获得数据库中的句子总数,根据从句子位置索引表找到数据库中最后加入的句子在句子内容表中的位置和长度,从而确定出新加入的句子在句子内容表中的位置;
所述的数据库还包括一个总信息表Total_File,用来存储句子数据库中表2的总行数,句子的总数,和不重复的词的总数,这个句子总数也是数据库中最后加入数据库的句子的句编号。如表3所示:
表3
字段名 | 类型 | 长度 | 说明 |
Record_No | 记载Sentence-word-No-File记录的个数 | ||
Sentence_No | 例句的总数 | ||
Word_No | 词的总数 |
Totil File表只有一条记录,该记录中记载句编号及词序号文件中记录数量Record_No、语句总数Sentence_No以及单词总数Word_No。
句子位置索引表Sentence_Attribute_File用来存储句子的索引信息,包括句子编号(句子加入数据库的顺序号)Sentence_No,语句在句子内容表中的起始位置Sentence_Position以及句子长度Sentence_Long。
该文件的具体数据格式参见表4:
表4
字段名 | 类型 | 长度 | 说明 |
Sentence_No | 句子的编号 | ||
Sentence_Position | 句子在句子内容表中的起始位置 | ||
Sentence_Long | 句子的长度 |
在句子内容表,每一个句子按加入的顺序存入表中。参见表5,表中的具体数据格式如表5所示:
表5
字段名 | 类型 | 长度 | 说明 |
Sentence_Content | 存放的句子 |
步骤203、将句子加入到句子内容表中,并同时更新句子索引表的信息;根据句子编号和WORD在句子中的顺序号,逐个WORD将该WORD的句编号-词编号对加入到句编号-词编号表中,并更新WORD列表的对应WORD的表项的信息,完成句子的添加。
在上述的数据结构中,通过步骤一,将被翻译语句中的各个单词按照该单词在该被翻译语句中的顺序组成了WORD组合,用于在匹配过程中进行翻译匹配,然后完成步骤二所述的查找,具体包括以下步骤:
步骤2.1、在计算机中建立多个数组,每个数组对应翻译数组中一个WORD,用来存储查询到的结果:
步骤2.2、从翻译数组中读取第一个WORD,从句子数据库的WORD列表中查找该WORD;
步骤2.3、如果没有找到该WORD,则删除该WORD对应的数组,然后执行步骤2.5;
步骤2.4、如果找到该WORD,则根据从WORD列表中读取该单词在句编号-词序号表中的位置信息和该单词在翻译记忆库中的出现数量,将该WORD所有的句编号-词序号对从句编号-词序号表中取出,依次放入到相应的数组中;
步骤2.5、如果该单词为被翻译语句的最后一个WORD,则执行步骤三,否则,由计算机读取下一个WORD,并从句子数据库的WORD列表中查找此WORD后,执行步骤2.3。
步骤二基本是一个数据库的使用过程,由计算机将数据库中与被翻译句子的相关的句编号-词序号全部提取出来,方便算法的使用。
本发明的步骤三是本发明的核心步骤,即通过算法来判断两个句子之间的相似度,这种计算的准确程度直接的决定了翻译的准确程度。
上述的步骤二中,对在步骤一中单词队列逐个进行了查找,并将记录句子和WORD信息的句编号-词序号对提取了出来,下面通过该匹配算法,找出译文与被翻译语句最为接近或精确的翻译语句,并将该翻译语句输出。
具体的匹配方式分为有序匹配和无序匹配两种;前者依据被翻译语句中出现的单词及其顺序进行匹配,而后者则仅依据被翻译语句中出现的单词而不考虑其顺序进行匹配;这两种方式可以单独采用,也可以依照先后顺序结合使用。
参见图2,有序匹配的具体实现步骤包括:
步骤3.1.0、通过计算机将翻译数组中第一个WORD对应的句编号-词序号数组与翻译数组中第二个WORD对应的句编号-词序号数组比较,找出所有句编号相同,且第二个WORD对应的词序号比第一个WORD对应的词序号大1的句编号-词序号,存储到新的数组ArraylT2中;
步骤3.1.1、采用步骤3.1.0相同的方式,得到翻译数组中第二个WORD与第三个WORD的所有句编号相同,且第三个WORD对应的词序号比第二个WORD对应的词序号大1的句编号-词序号,存储到新的数组Ar ray2T3中;同样处理其余的WORD,直到处理完翻译数组所有相邻的WORD;
步骤3.1.2、通过计算机将数组ArraylT2与数组Array2T3比较,得到所有句编号相同,且第二个WORD对应的词序号比第一个WORD对应的词序号大1,第三个WORD对应的词序号比第二个WORD对应的词序号大1的句编号-词序号,存储到新的数组Arrayl T3中;同样方式处理所有的步骤3.1.0和3.1.1得到的数组;
步骤3.1.3、通过计算机循环处理,直到得到所有的数组ArrayiTj,该数组不为空,存储句编号相同,词序号依次大1的所有句编号-词序号,且j-i的值为最大或再加上几个仅次于此的但与翻译数组的WORD个数之比大于预先设定的匹配值;
步骤3.1.4、按数组ArrayiTj存储的句编号对应的句子为步骤三的结果,执行步骤四。
有序匹配的方法,就是先将所有的WORD之间两个相连的所有句编号挑选出来,然后再从两个相连中挑选三个相连的句编号,依次类推,直到无法找出更多的相连的WORD或找出的相连WORD的数量与翻译数组的存储的WORD个数相同,即完全匹配。
这种方法的速度很快,这是因为所有的句编号-词序号都是按顺序存储在计算机中的句编号-词序号表中的,可以充分利用这一特点,比较过程中可以顺序向后推进。判断是否相连的方法也很简单,判断是否存在两个相连的WORD时,直接判断是否存在句编号相同,而词序号递增的句编号-词序号。判断是否存在两个以上相连的WORD时,只需判断是否存在相同的甸编号即可。
参见图3,无序匹配的具体实现步骤包括:
步骤3.2.0、处理翻译数组,得到待翻译句子的每一个WORD出现的次数;
步骤3.2.1、通过计算机按顺序从翻译数组读出第一个WORD,为该WORD所对应的步骤二的数组中每一个句编号-词序号设定一个自然数属性值,初始化为1,存储在一个数组ARRAY中;
步骤3.2.2、按顺序从翻译数组读出下一个WORD,判断该WORD是否处理过,如果处理过,执行步骤3.2.4;如果没有处理过,为该WORD所对应的步骤二的数组中每一个句编号-词序号设定一个自然数属性值,初始化为1,执行下一步;
步骤3.2.3、通过计算机将步骤3.2.2的带有自然数属性值的句编号-词序号数组于ARRAY合并,如果有句编号相同的句子,则将该句编号的自然数属性值加1,同时删去步骤3.2.2的句编号-词序号项;
步骤3.2.4、由计算机判断是否已经处理完翻译数组,如果已经处理完,则根据步骤3.2.0中WORD出现的次数,合并句编号相同,词序号不同的项,每删除一项,将保留的句编号项的自然数属性值加1;直到处理完翻译数组中所有重复的WORD,执行下一步;否则,执行步骤3.2.2;
步骤3.2.5、得到句编号项的自然数属性值最大的或最大的及最接近最大的几个或句编号项的自然数属性值与翻译数组的WORD个数之比大于预先设定的匹配值的句子编号。
无序匹配的思想更为简单,实现也比较容易,唯一需要注意的就是被翻译句子中的重复的WORD处理,以上的方法在处理中每个WORD只处理一次,不处理已经处理过的WORD,只是在最后再将重复的WORD处理一次,提高其权重。比如一个句子中包含有英文“the”这个WORD共3次,句子库中存在包含“the”这个WORD共1-3次的句子,当步骤302或步骤303中,通过计算机处理该WORD时,所有的包含“the”这个WORD1-3次的句子都被挑选出来,并且包含“the”这个WORD两次的句编号出现两次,包含“the″这个WORD三次的句编号出现三次;在步骤306时,所有的句编号相同的句子的自然数属性值肯定相同,由于被翻译句子中“the”共3次,需要进行两次删除,每次删除一个相同句编号,将自然数属性值加1,这样包含“the”这个WORD两次的句编号自然数属性值加1,而包含“the”这个WORD三次的句编号自然数属性值加2;为了排除包括“the”这个WORD共3次以上的句子的重复计算,可以再通过计算机将句编号相同的项合并,自然数属性值不增加,然后就可以计算匹配率了。
根据不同的需求,步骤三中返回匹配率最高的句子或几个句子,也可以将高于设定的匹配率的句子全部返回,这样可以使用户通过设定匹配率来调整翻译的返回结果。
通过计算机根据返回的句子的句编号就可以从数据库中查找出相应的句子和译文,将句子和译文输出给翻译者,完成句子翻译的过程。
实施例2:
本发明所述的翻译系统,如图4所示,包括:输入输出模块、翻译模块,即TM模块(以下简称TM模块)、数据库模块和数据库管理模块;
所述的输入输出模块与翻译模块相连,用来获得被翻译的句子,获得对翻译模块和数据库模块的设置参数,并将翻译好的句子和/或提示信息输出;
所述的翻译模块用来将被翻译的句子分解成各个独立的WORD;与数据库管理模块交互发出查询请求,得到查询结果;采用设定的算法计算匹配率,将符合要求的翻译结果输出;
所述的数据库模块用来存储WORD和句子的原文和对应的译文,以及数据库的索引;
所述的数据库管理模块从翻译模块获得查询请求和被查询信息,根据数据库的索引,完成请求的查询;并将结果返回给翻译模块。
输入输出模块提供给与使用者相交互的界面,通过界面用户可以输入或选择被翻译的语句,可以设定翻译模块,选择专业词典或句子数据库,完成其他一些辅助功能的参数设定。
通过输入输出模块获得被翻译的语句的句子,可以有以下几种方式,或他们的组合:一是用户直接在交互界面上输入被翻译的句子;二是通过在文本文件中选择选取,这一过程可以类似于WINDOWS操作系统的拷贝、粘贴过程;三是由输入输出模块程序自动从文本中获得,通过不同语言的标点符号判断句子的间隔,如英语中的“.”和汉语中的“。”。
数据库模块存储有基本和不同专业的句子数据库和基本和不同专业的WORD词典,并为这些数据库中的内容建立索引,以便可以快速定位数据库中的内容。
数据库管理模块负责完成对数据库的查询工作,返回查询的结果;并且和翻译模块配合完成数据库的更新。翻译模块从输入输出模块获得被翻译的句子和正确的译文或翻译模块翻译后得到用户的确认,数据库管理模块将句子和译文加入到数据库中,并完成相关的索引添加。
本发明的翻译系统中,翻译模块是核心模块,包括:句子分解模块、查询模块和句子匹配模块;
所述的句子分解模块接收从输入输出模块传来的被翻译句子,将被翻译句子分解成一定顺序的WORD的组合;
所述的查询模块从句子分解模块获得需要进行查询的WORD的信息,向数据库控制模块发出查询请求;
查询模块接收数据库控制模块返回的查询结果;
所述的TM模块控制查询模块发出查询请求,根据查询模块得到的查询结果,计算匹配率,将匹配率满足预先设定的要求句子的译文输出到输入输出模块。
所述的TM模块包括两个子模块,有序匹配模块和无序匹配模块,二者的功能独立,每一个都可以单独使用,也可以结合使用。
通过输入输出模块,输出满足要求的句子和译文,翻译人员根据该句子和译文,由于满足匹配率的句子已经将句子的结构和习惯用法等进行了充分的考虑,翻译人员只需稍做调整就可以得到被翻译句子的正确译文,并且,翻译语言水平高,整句含义表达准确。
由于本发明所述的句子匹配方法其目的不是要保证所有句子中的WORD与数据库中的句子中的完全相同,只是将句子数据库中具备规定的最佳匹配率的句子及释义给出,对于被翻译的句子中,与给出的匹配率最佳的句子中不相同的WORD,可以通过查词典的方式给出词义,并交由用户对词义进行选择。
本发明的翻译模块还包括:单词匹配模块,即IT模块(以下简称IT模块),及相应的词库和词库引擎,所述的IT模块的翻译方法如下:首先,词库引擎依序从词库中查找翻译数组中被翻译的WORD或短语;然后,将被翻译的单词、短语依序组合,输出翻译结果。
从本质而言,IT模块是一个方便的词典模块,只进行单词的翻译。这个技术已经很成熟了,本发明系统加入IT模块,主要是为了使使用者可以更加方便的利用本发明的句子翻译的结果或方便的进行词典查询和更新,与句子翻译配合使用,翻译可以更加简便和顺利的进行。
IT模块从词库中查找被翻译的单词或短语,通过词库引擎,从词库中将人工选定的被翻译WORD或短语的全部翻译内容查找出来并依序列出,供翻译人员选择、修改、增加或删除。本发明还为IT模块添加了其他的功能,利于翻译人员的使用,具体如下:
如果翻译人员选择相应的翻译内容,则将该翻译内容确定为被翻译单词、短语的翻译结果输出;
如果翻译人员修改翻译内容,则用该翻译内容替换词库中该被翻译单词、短语的原翻译内容,再重新执行上述的查找过程;
如果翻译人员增加翻译内容,则将该翻译内容添加到词库中该被翻译单词、短语的翻译内容中;再重新执行上述的查找过程;
如果翻译人员删除翻译内容,则从该词库中该被翻译单词、短语的翻译内容中删除该翻译内容;再重新执行上述的查找过程。
对于某些句子,比较生僻,也许句子数据库中不存在满足匹配率要求的句子,这时可以采用上述的方法通过单词匹配来进行人机交互方式的翻译。在没有句子提示情况下,如果句子比较复杂会给翻译人员带来很多的不便,所以,句子数据库中不存在满足匹配率要求的句子时,也可以通过机器自动翻译给出一个翻译结果,翻译的方法采用单词词义和语法相结合的传统方法。
所述的翻译模块还可以包括:自动翻译模块,即MT模块(以下简称MT模块)及相应的词库和词库引擎,所述的MT模块的翻译方法如下:首先,翻译引擎依序从核心词库中查找被翻译的单词、短语;然后,根据语法规则将被翻译的单词、短语依序组合,输出翻译结果。
最后应说明的是:以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或者等同替换;而一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。
Claims (28)
1.一种计算机语言翻译方法,其特征在于,它包括如下步骤:
步骤一、将输入的被翻译的句子分解成多个单词,即WORD的组合,按顺序存储在一个翻译数组中,每一个数据单元对应一个WORD;
步骤二、对于步骤一中的每个WORD,在句子数据库中查找所有包括该WORD的句子;
步骤三、根据步骤二中每个WORD的查找结果,按匹配算法查找出在步骤二的结果中与被翻译的句子的匹配率为最高值的句子或匹配率为最高值和最接近最高值的几个句子或大于预先设定的匹配率的所有句子;
步骤四、在句子数据库中查找作为步骤三的结果的句子对应的句子译文,输出该/这些句子。
2.根据权利要求1所述的计算机语言翻译方法,其特征在于:所述的WORD为被翻译句子所属语言中有确定含义的符号的最小单位。
3.根据权利要求1或2所述的计算机语言翻译方法,其特征在于:所述的步骤一还包括:根据计算机对WORD的编码方式,将输入的句子分解成WORD的组合,按在被翻译句子中的顺序将WORD放入到翻译数组中。
4.根据权利要求1所述的计算机语言翻译方法,其特征在于:所述的步骤二句子数据库至少包括句子内容表;
所述的句子内容表中的表项为每一个句子和该句子对应的译文。
5.根据权利要求4所述的计算机语言翻译方法,其特征在于:所述的步骤二句子数据库还包括句子位置索引表;
所述的句子位置索引表的表项为句子内容表中每一个句子的句编号、该句子在句子内容表的起始位置和句子长度。
6.根据权利要求5所述的计算机语言翻译方法,其特征在于:所述的步骤二句子数据库还包括句编号-词序号表;
所述的句编号-词序号表的一行中包括多个作为表项的句编号-词编号,每一句编号-词编号对应一个句子内容表中包括的一个WORD;
该部分表项为在句子内容表中所有包含该WORD的句子的句编号和该WORD在该句编号句子中的顺序号。
7.根据权利要求6所述的计算机语言翻译方法,其特征在于:所述的步骤二句子数据库还包括WORD列表;
所述的WORD列表包括句子数据库中的所有的WORD,以及该WORD在句编号-词序号表中对应部分的位置和该WORD在句子内容表中出现的次数。
8.根据权利要求7所述的计算机语言翻译方法,其特征在于:所述的步骤二句子数据库还包括总信息表;
所述的总信息表记录存放句编号-词序号表的总行数,句子的个数和WORD的个数。
9.根据权利要求8所述的计算机语言翻译方法,其特征在于,所述的步骤二句子数据库是采用如下步骤建立的:
步骤201、将数据源的每一个句子的WORD都在WORD列表中进行查找,如果找到,则继续查找下一个WORD,如果没有,则在WORD列表中新建该WORD的表项,直到处理完句子的全部WORD;
步骤202、根据总信息表获得数据库中的句子总数,根据句子总数从句子位置索引表找到数据库中最后加入的句子在句子内容表中的位置和长度,从而确定出新加入的句子在句子内容表中的位置;
步骤203、将句子加入到句子内容表中,并同时更新句子索引表的信息;根据句子编号和逐个WORD在句子中的顺序号,逐个WORD将其句编号-词编号对加入到句编号-词编号表中,并更新WORD列表的对应WORD的表项的信息,完成句子的添加。
10.根据权利要求8所述的计算机语言翻译方法,其特征在于,所述的步骤二还包括:
步骤2.1、建立多个数组,每个数组对应翻译数组中一个WORD,用来存储查询到的结果;
步骤2.2、从翻译数组中读取第一个WORD,从句子数据库的WORD列表中查找该WORD;
步骤2.3、如果没有找到该WORD,则删除该WORD对应的数组,然后执行步骤2.5;
步骤2.4、如果找到该WORD,则根据从WORD列表中读取该单词在句编号-词序号表中的位置信息和该单词在翻译记忆库中的出现数量,将该WORD所有的句编号-词序号对从句编号-词序号表中取出,依次放入到相应的数组中;
步骤2.5、如果该单词为被翻译语句的最后一个WORD,则执行步骤三,否则,读取下一个WORD,并从句子数据库的WORD列表中查找此WORD后,执行步骤2.3。
11.根据权利要求10所述的计算机语言翻译方法,其特征在于,所述的步骤三中,匹配率可以采用如下的方法计算:
计算步骤二中获得的句子与被翻译句子,WORD相同且顺序连续相同的个数与被翻译句子WORD的总数之比。
12.根据权利要求11所述的计算机语言翻译方法,其特征在于,所述的步骤三中,查找匹配率符合要求的句子包括如下步骤:
步骤3.1.0、将翻译数组中第一个WORD对应的句编号-词序号数组与翻译数组中第二个WORD对应的句编号-词序号数组比较,找出所有句编号相同,且第二个WORD对应的词序号比第一个WORD对应的词序号大1的句编号-词序号,存储到新的数组Array1T2中;
步骤3.1.1、采用步骤3.1.0相同的方式,得到翻译数组中第二个WORD与第三个WORD的所有句编号相同,且第三个WORD对应的词序号比第二个WORD对应的词序号大1的句编号-词序号,存储到新的数组Array2T3中;同样处理其余的WORD,直到处理完翻译数组所有相邻的WORD;
步骤3.1.2、将数组Array1T2与数组Array2T3比较,得到所有句编号相同,且第二个WORD对应的词序号比第一个WORD对应的词序号大1,第三个WORD对应的词序号比第二个WORD对应的词序号大1的句编号-词序号,存储到新的数组Array1T3中;同样方式处理所有的步骤3.1.0和3.1.1得到的数组;
步骤3.1.3、循环处理,直到得到所有的数组ArrayiTj,该数组不为空,存储句编号相同,词序号依次大1的所有句编号-词序号,且j-i的值为最大或再加上几个仅次于此的但与翻译数组的WORD个数之比大于预先设定的匹配值;
步骤3.1.4、按数组ArrayiTj存储的句编号对应的句子为步骤三的结果,执行步骤四。
13.根据权利要求10所述的计算机语言翻译方法,其特征在于,所述的步骤三中,匹配率可以采用如下的方法计算:
计算步骤二中获得的句子与被翻译句子WORD的相同的个数与被翻译句子WORD的总数之比。
14.根据权利要求13所述的计算机语言翻译方法,其特征在于,所述的步骤三中,查找匹配率符合要求的句子,包括如下步骤:
步骤3.2.0、处理翻译数组,得到待翻译句子的每一个WORD出现的次数;
步骤3.2.1、按顺序从翻译数组读出第一个WORD,为该WORD所对应的步骤二的数组中每一个句编号-词序号设定一个自然数属性值,初始化为1,存储在一个数组ARRAY中;
步骤3.2.2、按顺序从翻译数组读出下一个WORD,判断该WORD是否处理过,如果处理过,执行步骤3.2.4;如果没有处理过,为该WORD所对应的步骤二的数组中每一个句编号-词序号设定一个自然数属性值,初始化为1,执行下一步;
步骤3.2.3、将步骤3.2.2的带有自然数属性值的句编号-词序号数组于ARRAY合并,如果有句编号相同的句子,则将该句编号的自然数属性值加1,同时删去步骤3.2.2的句编号-词序号项;
步骤3.2.4、判断是否已经处理完翻译数组,如果已经处理完,则根据步骤3.2.0中WORD出现的次数,合并句编号相同,词序号不同的项,每删除一项,将保留的句编号项的自然数属性值加1;直到处理完翻译数组中所有重复的WORD,执行下一步;否则,执行步骤3.2.2;
步骤3.2.5、得到句编号项的自然数属性值最大的或最大的及最接近最大的几个或句编号项的自然数属性值与翻译数组的WORD个数之比大于预先设定的匹配值的句子编号。
15.一种计算机翻译系统,其特征在于:它包括:输入输出模块、翻译模块、数据库模块和数据库管理模块;
所述的输入输出模块与翻译模块相连,用来获得被翻译的句子,获得对翻译模块和数据库模块的设置参数,并将翻译好的句子和/或提示信息输出;
所述的翻译模块用来将被翻译的句子分解独立的WORD;与数据库管理模块交互发出查询请求,得到查询结果;采用设定的算法计算匹配率,将符合要求的翻译结果输出;
所述的数据库模块用来存储WORD和句子的原文和对应的译文,以及数据库的索引;
所述的数据库管理模块从翻译模块获得查询请求和被查询信息,根据数据库的索引,完成请求的查询;并将结果返回给翻译模块。
16.根据权利要求15所述的计算机翻译系统,其特征在于:所述的输入输出模块提供给与使用者相交互的界面,通过界面用户可以输入或选择被翻译的语句,可以设定翻译模块,选择专业词典或句子数据库,完成其他一些辅助功能的参数设定。
17.根据权利要求16所述的计算机翻译系统,其特征在于:通过输入输出模块获得被翻译的语句,可以有以下几种方式,和/或它们的组合:
一是用户直接在交互界面上输入被翻译的句子;
二是用户在文本文件中选择选取;
三是根据不同语言的标点符号判断句子的间隔由输入输出模块程序自动从文本中获得。
18.根据权利要求15所述的计算机翻译系统,其特征在于:所述的数据库模块存储有基本和不同专业的句子数据库和基本和不同专业的WORD词典,并为这些数据库中的内容建立索引,以便快速定位数据库中的内容。
19.根据权利要求15所述的计算机翻译系统,其特征在于:数据库管理模块负责完成对数据库的查询工作,返回查询的结果;并且和翻译模块配合完成数据库的更新。
20.根据权利要求19所述的计算机翻译系统,其特征在于,所述的数据库的更新包括:翻译模块从输入输出模块获得被翻译的句子和正确的译文或翻译模块翻译后得到用户的确认,数据库管理模块将句子和译文加入到数据库中,并完成相关的索引添加。
21.根据权利要求15所述的计算机翻译系统,其特征在于,所述的翻译模块包括:句子分解模块、查询模块和句子匹配模块;
所述的句子分解模块接收从输入输出模块传来的被翻译句子,将被翻译句子分解成一定顺序的WORD的组合;
所述的查询模块根据要求,从句子分解模块获得需要进行查询的WORD的信息,向数据库控制模块发出查询请求;
查询模块接收数据库控制模块返回的查询结果;
根据查询模块得到的查询结果,计算匹配率,将匹配率满足预先设定的要求句子的译文输出到输入输出模块。
22.根据权利要求21所述的计算机翻译系统,其特征在于:所述的句子匹配模块包括有序匹配模块和无序匹配模块或其组合;有序匹配和无序匹配模块的区别在于对于匹配率的计算采用了不同的方法。
23.根据权利要求22所述的计算机翻译系统,其特征在于:所述的有序匹配的匹配率为查得的句子与被翻译句子中WORD相同且顺序连续相同的个数与被翻译句子WORD的总数之比。
24.根据权利要求22所述的计算机翻译系统,其特征在于:所述的无序匹配的匹配率为查得的句子与被翻译句子中WORD的相同的个数与被翻译句子WORD的总数之比。
25.根据权利要求15所述的计算机翻译系统,其特征在于,所述的翻译模块还可以包括:单词匹配IT模块及相应的词库和词库引擎,所述的IT模块的翻译方法如下:首先,词库引擎依序从词库中查找翻译数组中被翻译的WORD或短语;然后,将被翻译的单词、短语依序组合,输出翻译结果。
26.根据权利要求25所述的计算机翻译系统,其特征在于:所述的IT模块从词库中查找被翻译的单词或短语,通过词库引擎,从词库中将人工选定的被翻译WORD或短语的全部翻译内容查找出来并依序列出,供翻译人员选择、修改、增加或删除。
27.根据权利要求26所述的计算机翻译系统,其特征在于,所述的选择、修改、增加或删除具体为:
如果翻译人员选择相应的翻译内容,则将该翻译内容确定为被翻译单词、短语的翻译结果输出;
如果翻译人员修改翻译内容,则用该翻译内容替换词库中该被翻译单词、短语的原翻译内容,再重新执行上述的查找过程;
如果翻译人员增加翻译内容,则将该翻译内容添加到词库中该被翻译单词、短语的翻译内容中;再重新执行上述的查找过程;
如果翻译人员删除翻译内容,则从该词库中该被翻译单词、短语的翻译内容中删除该翻译内容;再重新执行上述的查找过程。
28.根据权利要求15所述的计算机翻译系统,其特征在于,所述的翻译模块还可以包括:自动翻译MT模块及相应的词库和词库引擎,所述的MT模块的翻译方法如下:首先,翻译引擎依序从核心词库中查找被翻译的单词、短语;然后,根据语法规则将被翻译的单词、短语依序组合,输出翻译结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410006305 CN1661593B (zh) | 2004-02-24 | 2004-02-24 | 一种计算机语言翻译方法及其翻译系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410006305 CN1661593B (zh) | 2004-02-24 | 2004-02-24 | 一种计算机语言翻译方法及其翻译系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1661593A CN1661593A (zh) | 2005-08-31 |
CN1661593B true CN1661593B (zh) | 2010-04-28 |
Family
ID=35010913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410006305 Expired - Fee Related CN1661593B (zh) | 2004-02-24 | 2004-02-24 | 一种计算机语言翻译方法及其翻译系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1661593B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8600736B2 (en) * | 2007-01-04 | 2013-12-03 | Thinking Solutions Pty Ltd | Linguistic analysis |
CN101271452B (zh) * | 2007-03-21 | 2010-07-28 | 株式会社东芝 | 生成译文和机器翻译的方法及装置 |
CN101996166B (zh) * | 2009-08-14 | 2015-08-05 | 张龙哺 | 双语句对模式化记录方法以及翻译方法和翻译系统 |
CN102184171B (zh) * | 2011-04-20 | 2013-08-14 | 传神联合(北京)信息技术有限公司 | 机器翻译检查方法 |
CN102270198A (zh) * | 2011-08-16 | 2011-12-07 | 上海交通大学出版社有限公司 | 计算机辅助翻译系统 |
CN103377188A (zh) * | 2012-04-24 | 2013-10-30 | 苏州引角信息科技有限公司 | 翻译库的构建方法及系统 |
CN102819593A (zh) * | 2012-08-08 | 2012-12-12 | 东莞康明电子有限公司 | 全句翻译与词典混合搜索方法 |
CN103838716A (zh) * | 2012-11-27 | 2014-06-04 | 英业达科技有限公司 | 将目标资料拆分至服务器与客户端翻译的系统及其方法 |
JP6296592B2 (ja) * | 2013-05-29 | 2018-03-20 | 国立研究開発法人情報通信研究機構 | 翻訳語順情報出力装置、機械翻訳装置、学習装置、翻訳語順情報出力方法、学習方法、およびプログラム |
JP6226321B2 (ja) * | 2013-10-23 | 2017-11-08 | 株式会社サン・フレア | 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム |
CN103885942B (zh) * | 2014-03-18 | 2017-09-05 | 成都优译信息技术股份有限公司 | 一种快速翻译装置及方法 |
CN105320650B (zh) * | 2014-07-31 | 2019-03-26 | 崔晓光 | 一种基于语料匹配和语法分析的机器翻译方法及其系统 |
CN104239292B (zh) * | 2014-08-18 | 2017-07-28 | 武汉传神信息技术有限公司 | 一种获取专业词汇译文的方法 |
CN104239291B (zh) * | 2014-08-18 | 2017-06-06 | 网来云商环球信息技术(武汉)有限公司 | 一种准确翻译国际贸易合同的方法 |
CN104391840A (zh) * | 2014-11-24 | 2015-03-04 | 上海迈外迪网络科技有限公司 | 翻译方法及装置 |
CN105786803B (zh) * | 2016-02-22 | 2018-12-18 | 广东小天才科技有限公司 | 翻译方法及翻译装置 |
CN106021238A (zh) * | 2016-06-28 | 2016-10-12 | 广州华多网络科技有限公司 | 信息匹配方法、装置及终端 |
CN107943794A (zh) * | 2016-10-12 | 2018-04-20 | 阿里巴巴集团控股有限公司 | 一种翻译方法及系统 |
CN106844354A (zh) * | 2017-01-11 | 2017-06-13 | 中国科学院合肥物质科学研究院 | 一种网页取词汉民翻译方法及其装置 |
CN106844357B (zh) * | 2017-01-19 | 2019-12-17 | 深圳大学 | 大句库翻译方法 |
CN107329961A (zh) * | 2017-07-03 | 2017-11-07 | 西安市邦尼翻译有限公司 | 一种云翻译记忆库快速增量式模糊匹配的方法 |
CN110866407B (zh) * | 2018-08-17 | 2024-03-01 | 阿里巴巴集团控股有限公司 | 确定互译文本及文本间相似度分析方法、装置及设备 |
CN109359306B (zh) * | 2018-10-16 | 2023-10-31 | 传神语联网网络科技股份有限公司 | 基于重复句检测的翻译校正方法与系统 |
CN109992796B (zh) * | 2019-02-22 | 2023-07-04 | 中译语通科技股份有限公司 | 一种MerCube机器翻译管理控制系统及方法、计算机程序 |
CN112232091B (zh) * | 2020-10-14 | 2021-11-16 | 文思海辉智科科技有限公司 | 一种内容匹配的方法及装置、可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5873055A (en) * | 1995-06-14 | 1999-02-16 | Sharp Kabushiki Kaisha | Sentence translation system showing translated word and original word |
CN1475907A (zh) * | 2002-06-28 | 2004-02-18 | 微软公司 | 基于例子的机器翻译系统 |
-
2004
- 2004-02-24 CN CN 200410006305 patent/CN1661593B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5873055A (en) * | 1995-06-14 | 1999-02-16 | Sharp Kabushiki Kaisha | Sentence translation system showing translated word and original word |
CN1475907A (zh) * | 2002-06-28 | 2004-02-18 | 微软公司 | 基于例子的机器翻译系统 |
Also Published As
Publication number | Publication date |
---|---|
CN1661593A (zh) | 2005-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1661593B (zh) | 一种计算机语言翻译方法及其翻译系统 | |
Yu et al. | Typesql: Knowledge-based type-aware neural text-to-sql generation | |
Ravichandiran | Getting Started with Google BERT: Build and train state-of-the-art natural language processing models using BERT | |
CN111090461B (zh) | 一种基于机器翻译模型的代码注释生成方法 | |
CN104657439B (zh) | 用于自然语言精准检索的结构化查询语句生成系统及方法 | |
CN109766417B (zh) | 一种基于知识图谱的文学编年史问答系统的构建方法 | |
US20210019309A1 (en) | Mapping Natural Language To Queries Using A Query Grammar | |
CN104657440B (zh) | 结构化查询语句生成系统及方法 | |
CN107169033A (zh) | 基于数据模式转换和并行框架的关系数据查询优化方法 | |
WO2016209975A2 (en) | Preliminary ranker for scoring matching documents | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN103885939A (zh) | 维吾尔文-汉文双向翻译记忆系统的构造方法 | |
CN101710343A (zh) | 一种基于文本挖掘的本体自动构建系统及方法 | |
CN110795526B (zh) | 一种用于检索系统的数学公式索引创建方法与系统 | |
CN102439542A (zh) | 电子设备的文本输入系统及文本输入方法 | |
WO2016209962A2 (en) | Storage and retrieval of data from a bit vector search index | |
CN105786963A (zh) | 一种语料库的检索方法及系统 | |
CN112328621A (zh) | Sql转换方法、装置、计算机设备及计算机可读存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
Ferrández et al. | A framework for enriching Data Warehouse analysis with Question Answering systems | |
Pujadas-Mora et al. | The Barcelona Historical Marriage Database and the Baix Llobregat Demographic Database. From algorithms for handwriting recognition to individual-level demographic and socioeconomic data | |
CN110119404A (zh) | 一种基于自然语言理解的智能取数系统及其方法 | |
CN110717014B (zh) | 一种本体知识库动态构建方法 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
Babur et al. | Towards Distributed Model Analytics with Apache Spark. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100428 Termination date: 20110224 |