发明背景
自从上个世纪30年代,人们就提出了机器翻译的设想。随着计算机技术的发展,先后出现了各种类型的计算机翻译系统和技术,比如ED(电子词典)、MT(机器翻译)、TM(翻译存储器)、IT(交互翻译)和CAT(计算机辅助翻译)等等。
这些系统分别用不同的方法针对自然语言的某些方面进行语言转换工作。其中,电子词典只能对单词进行翻译或查找。
传统的MT技术是基于语法规则对语言进行转换,其中语法规则是语言专家撰写的,并由程序员写在翻译程序中的,它只能由程序员添加和修改。由于语言的丰富性和灵活性,靠少量的语法规则是不可能覆盖所有的语言现象的。因此传统的MT技术不能获得好的翻译质量,尤其是针对长句子和句型复杂的句子。
随着计算机运算速度和记录介质的存储容量的迅速提高,人们于上世纪90年代提出了基于统计的翻译技术,即翻译存储器技术(TM)。其基本思路是海量存储双语句对,对于已经翻译过或已存储的原文句子,只要提取出相应的译文,就能得到准确的翻译结果。因此,TM技术为计算机翻译技术指出了一条高质量准确翻译的方向。
图1A示出传统的采用TM翻译技术的翻译方案。其中,TM翻译模式将输入的原文句子与语料库的双语句对的原文部分相比较(匹配)。如果完全匹配或满足规定的匹配率,则将双语句对的译文部分作为TM翻译结果输出。
图1B显示了传统的句对记录方法所记录的句对例子。即在左边部分记录原文,在右边部分记录译文,中间用分隔符分开。其中,原文和译文都是常规的文字内容,即单词(字)、标点符号等。其中,除了原文与译文之间的分隔符之外,不存在其它用于帮助翻译的信息。因此,这种句对的作用是非常有限的。也就是说,除了相同的句子能给出准确的翻译结果外,对于类似的句子也不能给出准确的翻译结果。
因此,使用传统的TM技术,就必须积累所有可能出现的句子和翻译句对。但由于语言的灵活性和丰富性,以及各个作者写作的随意性,要积累某种翻译语言对中所有句子几乎是不可能完成的事情。这是因为所说句子量是无限的或不可估量的。在实践中,我们在某个专业中积累了几十万个句对,花费了许多人力和财力,但在进行翻译测试时,只有千分之几的覆盖率。因此,TM计算机翻译技术又碰到了巨大的障碍。由此,人们反过来又想起传统MT技术的好处了,即用少量的语法规则或句型来覆盖更多的句子。或者将MT技术与TM技术结合起来,形成多策略的翻译技术。
另外,近几年也出现了一些TM改进技术,比如将句型用于TM技术方案,其目的是用句型库中存储的句型来覆盖更多的句子。其原理是将翻译的例句抽象成为一个句型,在翻译时也先将要翻译的句子进行语法分析并抽象为一个语法树结构,然后再用上述句型与要翻译的句子进行译文的创建(翻译)。这种方法实际上又回到了传统MT技术的老路上,首先是因为将例句抽象成语法句型是一件很费时且费力的工作,而且不能自动进行。目前还没有看到实用化的句型积累方法和工具。
本申请的发明人,基于多年对人类大脑的翻译思维以及外语学习和记忆的研究,提出了一整套模拟人脑记忆和存储翻译知识的体系,即博典(Bodian)智能化知识库体系,及其相应的超级智能计算机翻译技术(TM++)。该智能化知识库体系中,句对不是简单的原文加译文形式,也不是上面所说的抽象化句型,而一种基于实例的模式化句对。该模式化句对翻译理论的优点是:1、将复杂抽象的语法具体化和实例化,便于理解和实施;2、在智能化翻译技术中,该模式化句对非常适用,因为它对兼翻译实例和翻译句型于一体,既保留具体翻译句对的独特性又具有翻译句型的普遍性。图2A-2C和图3A-3C显示了基于实例的模式化句对(简称为模式化句对)的一些例子。
本申请的发明人还发明了多种方法、装置和系统来实现所述智能化知识库体系和应用所述智能化知识库体系。
发明内容
本申请的发明目的就是要提供模式化句对的形成方法及其形成装置。
按照本发明一种实施方式的一种模式化双语句对形成方法,其中,模式化双语句对至少在译文部分中具有模式化单元;在所述译文部分的模式化单元中,具有译文单元内容以及相应的原文标识信息;所述原文标识信息包含原文单元内容以及原文单元的词性、属性或句中序号信息,或者是上述多种信息的任意组合;所述方法包括:
步骤S1:选取原文句子中的一个词;
步骤S2:判断所述词的语法属性是否符合可替换词条件,如果判断结果为“是”,则执行步骤S3,如果判断结果为“否”,则执行步骤S4;
步骤S3:将所述词的标识信息与所述词的译文内容组成一个可替换单元,并将其写入到译文部分;
步骤S4:将所述词的译文内容写入到译文部分。
进一步地,在步骤S2的判断结果为“否”的情况下,进一步执行步骤S5;步骤S5:判断是否有特殊控制符或指令,如果判断结果为“是”,则执行所述步骤S3,如果判断结果为“否”,则执行步骤S4。
进一步地,所述词对应于一个词单元;在所述步骤S1之前,执行步骤S0;步骤S0:将原文句子的词形成词单元;所述步骤S1具体为:选取所述词单元中的一个译文。
进一步地,所述步骤S0具体为:通过查词典的方法,将原文句子的词形成词单元;进一步,对原文句子中的所有词执行步骤S0的操作,以形成词单元阵列。
按照本发明另一种实施方式的一种模式化双语句对形成方法,其中,模式化双语句对至少在译文部分中具有模式化单元;在所述译文部分的模式化单元中,具有译文单元内容以及相应的原文标识信息;所述原文标识信息包含原文单元内容以及原文单元的词性、属性或句中序号信息,或者是上述多种信息的任意组合;所述方法包括:
在原文句子中找出可替换词;
在译文句子中找出与所述可替换词的译文;
在所述译文处增加该词的标识信息,以形成模式化单元。
按照本发明另一种实施方式的一种模式化双语句对形成方法,其中,模式化双语句对至少在译文部分中具有模式化单元;在所述译文部分的模式化单元中,具有译文单元内容以及相应的原文标识信息;所述原文标识信息包含原文单元内容以及原文单元的词性、属性或句中序号信息,或者是上述多种信息的任意组合;所述方法包括:
在原文句子中找出可替换词;
在译文句子中找出与所述可替换词的译文;
将该词的标识信息与所述的译文内容组成一个模式化单元,并用其替换原先的译文内容。
按照本发明一种实施方式的一种模式化双语句对的形成装置,其中,模式化双语句对至少在译文部分中具有模式化单元;在所述译文部分的模式化单元中,具有译文单元内容以及相应的原文标识信息;所述原文标识信息包含原文单元内容以及原文单元的词性、属性或句中序号信息,或者是上述多种信息的任意组合;所述装置包括:
选取模块,用于选取原文句子中的一个词;
判断模块,用于判断词的语法属性是否符合可替换词条件,如果判断结果为“是”,则执行模式化单元形成模块的操作,如果判断结果为“否”,则执行写入模块的操作;
模式化单元形成模块,用于将所述词的标识信息与所述词的译文内容组成一个可替换单元,并将其写入到译文部分;
写入模块,用于将词的译文或模式化单元写入到译文部分。
进一步地,所述模式化双语句对的形成装置,还包括:
词单元形成模块,用于形成词单元,形成方法是查词典;
所述词单元形成模块,对原文句子中的所有词进行词单元形成操作,以形成词单元阵列。
利用所述的模式化句对的形成方法及其形成装置,可以快速高效地形成和积累模式化句对。并可将智能化知识库的知识积累面向所有用户,可以在用户翻译的同时,机器自动进行智能化翻译知识的形成和积累。这彻底摆脱了传统翻译软件由语言专家制定翻译规则或句型并由软件专业技术人员写入或更新的束缚,并将大大加快智能化知识库的开发和完善速度。因此,为早日实现高质量的全自动机器翻译提供了可行的技术解决方案。
实施方式
在对本发明的具体实施例进行描述之前,先对本发明中的模式化句对进行详细说明。
通常,双语句对包括:用第一语种表示的原文句子(简称为第一语种原文句子),以及用相应的、用第二语种表示的译文句子(简称为第二语种译文句子)。第一语种原文句子有时也被更简单地称为原文,第二语种译文句子有时也被更简单地称为译文,这是因为第二语种译文句子通常是第一语种原文句子的翻译结果。
对于原文或原文句子,可以是一个简单句、复杂句、或者是词组、短语、短句等等。总之,本申请中所说的原文句子对其本身的长度或结构没有限制。
本发明的模式化句对的形成方法可用于计算机翻译系统中,尤其可用于计算机翻译系统中句库的形成和维护。当然,还可用于其它领域中,比如的语料库收集和整理。
图2-3显示了本发明中的模式化句对记录的各种实施例。
在本发明中的模式化双语句对中,将原文即第一语种记录在第一部分,将译文即第二语种记录在第二部分。在以文件形式存储的情况下,第一部分和第二部分可以同处于一个文件中,比如第一部分和第二部分处于同一行中,之间用一个特定的分隔符分开,如图2A所示;或者第一部分和第二部分分别处于相邻的二行中,比如第一部分为奇数行,第二部分为偶数行,如图2B所示。另外,在以文件形式存储的情况下,如图2C所示,第一部分和第二部分中的每一个都可以是存在于一个单独的文件中,同一句对的第一部分与第二部分之间具有对应关系,比如它们处于相同的行中。
在以数据库形式存储的情况下,第一部分和第二部分可以同处于一个表单中。比如第一部分和第二部分处于同一行的不同列单元中,如图3A所示。或者第一部分和第二部分分别处于相邻的二行中,比如第一部分为奇数行,第二部分为偶数行,如图3B所示。
在以数据库形式存储的情况下,如图3C所示,第一部分和第二部分中的每一个都可以是存在于一个单独的表单中,同一句对的第一部分与第二部分之间具有对应关系,比如它们处于相同的行中。
本发明中所述的模式化句对,至少在所述第一部分和第二部分的任何一个中,具有常规单元和模式化单元。在所述模式化单元中,用预定格式记录自身语种单元内容以及相对应的语种单元信息。
具体地,在第二部分记录的所述译文中,除了常规单元之外,还用模式化单元。所述常规单元意指不可变的部分,即常规的译文,比如,图2-3中的“为”、“买了”、“一块”(也可认为“买了一块”是一个常规单元或常规单元块)。所述模式化单元意指可被替换的部分,即该部分译文可被其它内容替换,比如,图2-3中的:{\he|0|他/}、{\his|5|他的/}、{\wife|6|妻子/}、{\gold watch|3|金表/}。
具有所述模式化单元的句对被称为模式化句对。所述常规单元和模式化单元的数量以及它们之间的位置关系可以是任意的,它们是由句子的结构和翻译的需要而定的。一个模式化句对通常具有一个或多个常规单元,一个或多个模式化单元。常规单元与模式化单元位置关系可以是互相相间,也可以是几个常规单元或模式化单元相连再互相相间。
一个模式化句对中可以全部是模式化单元。例如:
{\lazy|adj/}{\boy|n|/}{\!|f/}^{\lazy|0|懒惰的/}{\boy|1|男孩/}{\!|2|!/}
所述模式化单元具有预定的格式。采用预定格式的目的是使该模式化单元中的译文单元能被替换。模式化单元可根据需要包含对应的原文单元、词性、属性和句中序号等信息,以便进行准确且符合需要的替换。模式化单元的例子如下:“他|he|pronoun|0”、{\gold watch|3|金表|noun|物品/}、{\wife|6|妻子/}。其中,“他”、“金表”、“妻子”为译文单元的内容;“he”、“gold watch”、“wife”为原文单元的内容;“pronoun”、“noun”为原文单元的词性,也可以是译文单元的词性;“0”、“3”、“6”为原文单元在原文句子中的词序号,为了计算机编程一致,序号以“0”开始。
模式化单元中的各种信息之间可用特定的分隔符分开,比如字符“|”、“^”,或空格、或制表符等等。其目的是为了在利用模式化句对进行翻译时,能更好地进行识别和处理。每个模式化单元可以用特定符号对标识,比如:“{”和“}”、“{\”和“/}”等等,以便模式化单元能很容易地被识别。
在图2A的例子中,第二部分译文中具有模式化单元:{\he|0|他/}、{\his|5|他的/}、{\wife|6|妻子/}、{\gold watch|3|金表/}等。虽然在第一部分没有明显标出模式化单元,但在第二部分译文中的模式化单元所指第一部分的那些单词或词组被暗示为可替换的。它们是第0位的he、第5位的his、第6位的wife、第3位的gold-watch。
进一步,在第一部分的记录的所述原文中,除了记录常规单元之外,也还可记录模式化单元。所述常规单元意指不可变的部分,即常规的原文。所述模式化单元意指可被替换的部分,即该部分原文可被其它内容替换。同理,所述常规单元和模式化单元的数量可以是任意的,它们是由句子的结构和翻译的需要而定的。
所述模式化单元用预定的格式记录。模式化的目的是使该模式化单元中的原文单元能被替换。模式化单元可根据需要包含该单词或词组的词性、属性等信息,以便进行准确且符合需要的替换。优选地,在第一部分原文中的模式化单元中附加信息最好是与在第二部分译文中的模式化单元中的附加信息互补。另外,第一部分原文中的模式化单元最好与第二部分译文中的相应的模式化单元同时产生。
在图2B和2C中显示了在第一部分即原文中对模式化单元即可替换的单词或词组进行标注的例子。如图所示,标注方式如下:{\he|pron/}、{\gold_watch|noun/}、{\his|prond|/}、{\wife|noun|/}。当然还可采用其它的标注方式,其目的只要是利于被识别和被替换。
另外,在所述第一部分的原文句子中,在所述模式化单元中,还可用预定格式记录原文单元内容以及对应的译文单元信息。所述译文单元信息包括:译文单元内容以及译文单元的词性、属性或句中序号等信息,或者是上述多种信息的任意组合。
为了上述模式化句对能被更好地利用,在其中还可以记录一些附加信息,比如:该句的单元总数、修改标记、质量等级、用户名、更新日期、语种编号等等,如图4所示。所述附加信息可放在模式化句对的开头、结尾、或其它位置,只要它与所述模式化句对有对应关系。图4中的“29|N|2|Logan88|031121|01”是一个附件信息的具体例子。
从上面描述的内容可看出,本发明中的模式化句对既是一个翻译实例又可是一个翻译模型。因此它能保留具体翻译句对的独特性又具有翻译模式的普遍性。利用该模式化句对,既可对输入的原文句子进行常规的匹配翻译,以保证具体句子的特殊性翻译要求,又可对输入的原文句子进行模式化匹配翻译,以及更高级的智能化翻译,相关内容可参见本发明的其它相关发明。
本发明的模式化句对的形成方法不需要对所翻译的双语句对进行抽象化操作(该抽象化操作需要许多语法思考和归纳以及大量规则),而只需要增加一些已有的信息,因此该方法容易由计算机实现。比如,在用翻译软件进行翻译过程中,利用交互翻译(IT)模块或辅助翻译模块(CAT)来采集模式化单元所需要的信息并形成需要的模式化单元,再将它们写成模式化句对即可。
下面将参考图5-12对本发明的各个具体实施例进行详细的说明。
首先参见图5,它显示了按照本发明的模式化句对形成方法的第一实施例。
在该实施例中,按照本发明的一种模式化双语句对形成方法,包括:
步骤S1:选取原文句子中的一个词。所述词可以是一个单词,也可以是一个词组,或者是一个短语。
步骤S2:判断所述词的语法属性是否符合可替换词条件。所述可替换词条件可以根据词性来规定和判断,比如:名词、形容词、代词、数词等预定为可替换词。那么,如果某词的词性是名词、形容词、代词或数词,则该词的语法属性符合可替换词条件。当然所述可替换词条件也可以根据词的属性来规定和判断,比如:将属性为“物”、“人”、“时间”或“地点”的词定义为可替换词。
如果步骤S2的判断结果为“是”,则执行步骤S3:将所述词的标识信息与所述词的译文内容组成一个模式化单元,并将其写入到译文部分。所述标识信息根据需要可包含原文单元内容以及原文单元的词性、属性或句中序号等信息,或者是上述多种信息的任意组合。更多详情,可参见上面对模式化单元的描述。
如果步骤S2的判断结果为“否”,则执行步骤S4:将所述词的译文内容写入到译文部分。
如图6所示,按照本发明的一种模式化双语句对形成方法的第二实施例,它与图5所示第一实施不同的是,在步骤S2的判断结果为“否”的情况下,进一步执行步骤S5:判断是否有特殊控制符或指令。设置特殊控制符或指令,可以对模式化单元的形成进行灵活的控制。有了它,可以在预定规则之外,对语法属性不符合可替换词的词进行模式化处理。
如果步骤S5的判断结果为“是”,则执行步骤S3:将所述词的标识信息与所述词的译文内容组成一个可替换单元,并将其写入到译文部分;
如果步骤S5的判断结果为“否”,则执行步骤S4:将所述词的译文内容写入到译文部分。
参见图7,它显示了本发明第三实施例的一种模式化双语句对形成方法,其中,所述词对应于一个词单元。
在所述步骤S1之前,执行步骤S0:将原文句子的词形成词单元。
所述步骤S1具体为:选取所述词单元中的一个译文。
将原文句子的词形成词单元的具体方法可以是查词典的方法,即用该原文单词对词典或句子进行查找,得到相应的译文(释义)、词性、属性、联想等内容。在所述词单元中,还包含该词在原文句子中的词序号信息。
进一步,可以对原文句子中的所有词执行步骤S0的操作,以形成词单元阵列。
如图8所示,本发明第四实施例的一种模式化双语句对形成方法,与图7所示第三实施例的不同之处在于:在步骤S2的判断结果为“否”的情况下,进一步执行步骤S5:判断是否有特殊控制符或指令。
参见图9,它显示了本发明第五实施例的一种模式化双语句对形成方法,所述方法包括:
在原文句子中找出可替换词;其依据也可以是上面讨论的各种预定标准或条件。
在译文句子中找出与所述可替换词的译文;
在所述译文处增加该词的标识信息,以形成模式化单元。
所述原文标识信息包含原文单元内容以及原文单元的词性、属性或句中序号等信息,或者是上述多种信息的任意组合。
参见图10,它显示了本发明第六实施例的一种模式化双语句对形成方法,所述方法包括:
在原文句子中找出可替换词;其依据也可以是上面讨论的各种预定标准或条件。
在译文句子中找出与所述可替换词的译文;
将该词的标识信息与所述的译文内容组成一个模式化单元,并用其替换原先的译文内容。
所述原文标识信息包含原文单元内容以及原文单元的词性、属性或句中序号等信息,或者是上述多种信息的任意组合。
将该词的标识信息与所述的译文内容组成一个模式化单元,并用其替换原先的译文内容。
所述原文标识信息包含原文单元内容以及原文单元的词性、属性或句中序号等信息,或者是上述多种信息的任意组合。
参见图11,它显示了本发明一种模式化双语句对的形成装置的第一实施例,其中,模式化双语句对至少在译文部分中具有模式化单元;在所述模式化单元中,具有译文单元内容以及相应的原文标识信息;所述装置包括:
判断模块,用于判断词的语法属性是否符合可替换词条件;
模式化单元形成模块,用于将词的标识信息与内容组成一个模式化单元;
写入模块,用于将词的译文或模式化单元写入到译文部分;以及,
词单元形成模块,用于形成词单元,形成方法可以是查词典。
参见图12,它显示了本发明一种模式化双语句对的形成装置的第二实施例,其中,模式化双语句对至少在译文部分中具有模式化单元;在所述模式化单元中,具有译文单元内容以及相应的原文标识信息;所述装置包括:
判断模块,用于判断词的语法属性是否符合可替换词条件;
模式化单元形成模块,用于将词的标识信息与内容组成一个模式化单元;
写入模块,用于将词的译文或模式化单元写入到译文部分;以及,
词单元形成模块,用于形成词单元,形成方法可以是查词典;
所述词单元形成模块,可以对原文句子中的所有词进行词单元形成操作,以形成词单元阵列。
图13显示了本发明一种模式化双语句对的形成装置的用户接口界面。其中,原文句子″We see the wonderful translation result of the systemwith TM++technology.″中的每个词都显示在交互翻译区(该图的上半部分)并且都形成了词单元。图中,特别显示了第3号(第4个词)词单元的更多译文(释义)。在所述交互翻译区中,当用鼠标点击某个译文时,即可触发本发明的模式化双语句对的形成装置,并按照本发明的模式化双语句对形成方法来形成模式化句对。
图14示意性地显示了一个词单元的例子。
虽然上面对本申请的各个方面及实施方式和实施例进行了详细描述,但本申请的发明并不限制于此。本专业的技术人员可以做出各种变化、改形或修改。只要这些变化、改型或修改不脱离本发明的精神和原理,它们就应被包括在本发明的范围之内。