CN101510194B - 一种基于语句构件的多语种专业翻译方法 - Google Patents
一种基于语句构件的多语种专业翻译方法 Download PDFInfo
- Publication number
- CN101510194B CN101510194B CN200910129096.0A CN200910129096A CN101510194B CN 101510194 B CN101510194 B CN 101510194B CN 200910129096 A CN200910129096 A CN 200910129096A CN 101510194 B CN101510194 B CN 101510194B
- Authority
- CN
- China
- Prior art keywords
- sentence
- cabin
- eyes
- storehouse
- communicating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
一种基于语句构件的多语种专业翻译方法:当读入源语句全部可以由句型库、舱模库和意群串库检出时,自动给出当前目语句子;当读入源语句在句型库查得1匹配句型,某个复杂句舱查舱模库无,某词条查意群串库无时,接受干预、半自动给出当前目语句子;当读入源语句没有得到句型库支持,查无匹配句型时,调用记忆库如果获得支持、给出当前目语句参考,机辅式给出当前目语句子;当读入源语句没有得到句型库支持、也没有得到记忆库的支持时,利用意群串库的部分支持人工式给出当前目语句子。在这些过程中相关库内容进行自动或半自动积累,在专业翻译活动前、后进行库扩充、统计优化、专业划分或专业翻译初始准备。
Description
【技术领域】
本发明涉及一种自然语言的处理或转换的装置和方法;特别涉及一种用于专业领域的多语种机器辅助翻译方法。
【背景技术】
机器翻译,如《自然语言的计算机处理》一书,冯志伟著,上海外语教育出版社1996年10月出版,其中第八章第一节机器翻译。全文详细阐述了19世纪30年代初法国科学家阿尔楚尼提出用机器来进行语言翻译的想法开始;到1946年世界第一台计算机问世,同年就开始了机器翻译的研究,并一时兴旺起来;1966年11月美国科学院的语言自动处理咨询委员会公布了题为“语言与机器(ALPAC)”的报告,否定了机器翻译并指出机器翻译遇到了难以克服的“语义障碍”;继后机器翻译出现的空前萧条;1970-1976年复苏;以至1976年后的繁荣等等,洋洋两万言,最后指出“1964年,美国ALPAC报告指出的机器翻译遇到的‘语义障碍’至今仍然存在,机器翻译技术至今似乎仍然没有突破性的进展”。“机器翻译系统的实用化和商品化问题面临着严峻的考验”。
大众软件,2004年第二期,作者王槊,采访业界多位专家后报道,《机器翻译,路在何方》一文中写道:“目前的机器翻译主要有两种形式,MT和TM。MT(machine translation)就是我们常见的基于规则的机器翻译软件,其主要用途是为了帮助英文不好的用户提供翻译参考,但准确性不高。其关键技术有4个方面:单词分析、语法分析、意义分析和文理分析。它的工作过程是,先把语句分成几个单词,通过存放于机器数据库内的电子字典查清词义,根据语法规则分析语句的意思,并把它变换成概念构造,然后借助语言模型生成目标语言。尽管从原理上来看,要实现这一系列步骤并不困难,但由于语言的特殊性和多样化,以及人工智能技术发展水平的限制,目前要做到不同语种间正确互译是不可能的,这也是为什么现在的机器翻译软件无法满足人们的要求,翻译出来的结果往往令人啼笑皆非的原因……。TM(Translation Memory,翻译记忆),主要面向专业翻译人员和机构设计,以翻译记忆和人机交互为核心,要求使用者具备独立的翻译能力。它的原理是基于数据库,将翻译过的所有材料以句子为单位存入数据库。翻译时系统自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,新句子则通过系统提供的翻译建议进行人工翻译。科学研究表明,翻译中的重复工作量约为30%,TM翻译软件使″相同的句子永远不需要翻译第二遍″,从而提高了工作效率。”最后作者指出:“机器翻译技术本身存在的问题是阻碍其发展的硬伤。目前不仅在中国,整个世界范围内机器翻译技术都没有很大的突破”。
外语研究,2007年第五期,作者苏明阳,在《翻译记忆系统的现状及其启示》一文中指出记忆翻译技术本身的局限,“相同的句子永远不需要翻译第二遍”。然而“现实中的翻译活动大多缺乏重复性,只有在某些特定的领域中,文本的重复才能达到一定的比例”。一般认为文本重复可达30%。剩下70%还得依靠人工…。
总而言之。机器翻译基于规则,受人工智能水平所限,不能适应语言的特殊性和多样化而译文质量太差。记忆翻译基于对源目句对的记忆,译文质量可以达到专业水平,但只适宜小部分重复文本,对于大部分非重复文本无能为力。
【发明内容】
本发明的目的在于克服现有技术的不足,提供①一种语句构件装置,为计算机处理涉足语义开拓捷径,提高译文质量。然而更进一步提供一种②基于语句构件的多语种专业翻译方法,拓展翻译记忆,使具有相同句型的句子可以自动或半自动进行机器翻译。
本发明解决其技术问题所采用的技术方案是:
<一>、提供一种语句构件装置,其特征在于包括:
语句构件存储部(101),语句构件存储部含有用电子数据形式构成的语句构件的语句构件库:
句型库(300),用于存储句型构件,有句型码、多文种句型字段,其包含至少一个记录,同记录内的不同文种句型之语意相同;
舱模库(400),用于存储舱模构件,有舱模码、多文种舱模字段,其包含至少一个记录,同记录内的不同文种舱模之语意相同;
意群串库(500、502),用于存储意群串构件,有意群码、多文种串字段,其包含至少一个记录,同记录内的不同文种意群串之语意相同;
习语库(600),用于存储小习语构件,有习语码、多文种习语字段,其包含至少一个记录,同记录内的不同文种小习语之语意相同;
意通代码编制部(102),与语句构件存储部(101)相连,用于对语句构件库的每一个记录编制一个意通代码。
根据<一>所述的语句构件装置,其特征是所述语句构件库的语句构件是不同的语义块,用于组装语言句子的另部件、或对句子进行编码的标准件,语句构件包括如下四种:
①句型构件(201,301),用于构成句子的基本结构框架,代表了该类句子基本语意类属,也决定了该类句子所含句舱的位次和个数,并包揽了该类句子的复杂的语法现象;
②舱模构件(202,401),用于构成复杂句舱的基本结构框架,代表了该类句舱基本语意类属,也决定了该类句舱所含舱眼的位次和个数,并包揽了该类句舱的复杂的语法现象;
③意群串构件(501、503),是由意群串充当的构件,用于填充简单句舱(203~204)或舱眼(205~207)的构件;
④小习语构件(601),由过于简短不足以分出句型、句舱的句子充当小习语构件,用于直接构成简短的句子。
根据<一>所述的语句构件装置,其特征是:
语句构件库的多文种构件字段以文种设置,一个文种对应一个文种构件字段;
句型、舱模、意群串或习语四个构件库可以提取其中的码字段,和文句型、文舱模、文串或文习语两个字段构成文分库、文语言库、第一语言库或第二语言库,用于语言翻译、文本转换;
所述意通代码编制部,仅当上述四个库任何之一出现新记录时,把当前库代表数作高位加上当前库记录号合成意通代码,并填入当前库新记录的某某码字段,作为语句构件统一的双字定长16进制的意通代码,意通代码唯一地表示当前库当前记录内各语种构件相同的语意。
<二>.一种基于语句构件的多语种专业翻译方法,其特征是包括如下步骤:
S1.当读入源语句得到句型库、舱模库和意群串库全方位支持时,自动给出(703)当前目语句子,接受用户便捷式校改;
S2.当读入源语句得到句型库支持和舱模库、意群串库的部分支持时,接受干预、半自动给出(704)当前目语句子,接受用户校改;
S3.当读入源语句没有得到句型库支持,查无匹配句型时,调用记忆库如果获得支持、给出当前目语句参考,机辅式给出(705)当前目语句子;
S4.当读入源语句没有得到句型库支持、也没有得到记忆库的支持时,利用意群串库的部分支持人工式给出(706)当前目语句子;
S5.在专业翻译过程中相关库内容进行自动或半自动积累,在专业翻译活动前、后进行库扩充、统计优化、专业划分或专业翻译初始准备。
根据<二>所述的多语种专业翻译方法,其特征是自动给出当前目语句子的步骤S1进一步包括如下步骤:
S101.用读入的源语句查询习语库,如果是,确定为小习语句,直接给出目语小习语句,如果否、续S102;
S102.根据读入的源语句查询句型库,取唯一或最长,用该记录的源语句型将读入的源语句对号入座地套入,用该记录的目语句型作为自动给出当前句子的框架;
S103.依次取出被套入源语句型的句舱内容查询舱模库,有、取唯一或最长,用该记录的源语舱模将该句舱内容对号入座地套入,用该记录的目语舱模作为自动给出当前句舱的框架并置入到句型框架相应的位置;
S104.依次取出被套入源语句型、舱模中的简单句舱或舱眼内容,逐词条查询意群串库,将查得的目语所有解释连同当前的句舱或舱眼标号存入反悔库,取其一作为预选置入目语框架相应位置;
St05.将已经由目语句型、舱模构成的框架并填入了预选目语解释的自动给出当前目语句子连同句舱、舱眼标号显示给出,如果某句舱或某舱眼以及它们的内容校改库有记录的,根据校改库信息更正后再给出,等待用户的便捷式校改并作个备份句;
S106.当用户点击不满意的目语预选解释时,列出反悔库中相同句舱、舱眼和串次的所有解释接受用户点击另选,置换预选解释;
S107.当用户点击某个目语预选解释后点击向前或向后位移命令按钮时将该目语解释向前或向后置换一个串位;
S108.当用户点击返回命令按钮时,当前目语句子确定,与备份句不同的句舱或舱眼内容以及相关的句型、句舱、舱眼标号信息纳入校改库,弃去所有句舱、舱眼标号,将其自动给出并尾加于译文文件;
S109.清空反悔库,读入下一个源语句子,接续步骤S101。
根据<二>所述的多语种专业翻译方法,其特征是半自动给出当前目语句子的步骤S2进一步包括如下步骤:
S201.根据读入的源语句查询句型库,有二个或二个以上匹配句型时,接受用户点选干预,然后用该记录的源语句型将读入的源语句对号入座地套入,用该记录的目语句型作为半自动给出当前句的框架;
S202.依次取出被套入源语句型的句舱内容查询舱模库,有二个或二个以上舱模匹配时,接受用户点选干预,然后用该记录的源语舱模将该句舱内容对号入座地套入,用该记录的目语舱模作为半自动给出当前句舱的框架并置入到句型框架相应的位置,如果没有符合舱模的复杂句舱暂且不作为;
S203.依次取出被套入源语句型、舱模中的简单句舱或舱眼内容,逐词条查询意群串库,将查得的目语所有解释连同当前的句舱或舱眼标号存入反悔库,取其一作为预选置入目语框架相应位置,如果出现意群串库未登录的词条,启动外词典连接,在用户的干预下登录到本方法的意群串库;
S204.将已经由目语句型、舱模构成的框架并填入了预选目语解释的当前目语句子连同句舱、舱眼标号显示给出,如果某句舱或某舱眼以及它们的内容校改库有记录的,根据校改库信息更正后再给出,准备接受用户校改作好备份句;
S205.当用户点击不满意的目语预选解释时,列出反悔库中相同句舱、舱眼和串次的所有解释接受用户点击另选,置换预选解释,如果用户对根据反悔库所列的待选解释都不满意,接受用户添加解释并纳入意群串库;
S206.当用户点击某个目语预选解释后点击向前或向后位移命令按钮时将该目语解释向前或向后置换一个串位;
S207.在S202步骤当中因没有符合舱模而不作为的句舱,突出显示并接受用户人工编辑该句舱目语内容;
S208.当用户点击返回命令按钮时,给出当前目语句子确定,跳开不作为句舱,其它与备份句不同的句舱或舱眼内容连同句型、句舱、舱眼标号信息纳入校改库,最后弃去所有句舱、舱眼标号,将其给出并尾加于译文文件;
S209.清空反悔库,提示用户应当对S202步骤不作为句舱补作舱模,如果应答是,跳转S507作舱模;
S210.如果应答否,读入下一个源语句子,接续步骤S1。
根据<二>所述的多语种专业翻译方法,其特征是给出当前目语句参考、机辅式给出当前目语句子的步骤S3进一步包括如下步骤:
S301.当根据读入的源语句查询句型库,无匹配句型时,再用读入的源语句查询记忆库,如果有相似记录,把它们罗列于临时库,计算它们的相似度;
S302.选相似度最大记录的目语字段内容作为目语参考句给出,同时将该记录的频度字段之值加一;
S303.接受用户编辑、校改,当用户点击返回命令按钮后,作为当前目语句给出并尾加于译文文件;
S304.清空反悔库,提示用户制作句型,如果应答是,续步骤S501制作句型;
S305.如果应答否,将当前源语句子、目语句子分别存入记忆库相应字段,再读入下一个源语句子,接续步骤S1。
根据<二>所述的多语种专业翻译方法,其特征是利用意群串库的部分支持人工式给出当前目语句子的步骤S4进一步包括如下步骤:
S401.当根据读入的源语句查询句型库,无匹配句型,再查询记忆库,又没有相似记录时,依次取出读入的源语句所有词串,逐条词串查询意群串库,将查得的目语所有解释连同当前串序号存入反悔库,取其一作为目语预选解释按序排列构成目语参考句,和同读入的源语句上下两行显示;
S402.当用户点击参考句不对的目语预选解释时,列出反悔库中相同串序的所有解释接受用户点击另选,置换预选解释;
S403.给出一个可编辑框,接受用户编辑、校改,当用户点击返回命令按钮时确定为当前目语句给出并尾加于译文文件;
S404.清空反悔库,提示用户制作句型,如果应答是,后续步骤S501制作句型;
S405.如果应答否定,将当前源语句子、目语句子分别存入记忆库相应字段,读入下一个源语句子,接续步骤S1。
根据<二>所述的多语种专业翻译方法,其特征是步骤S5所述在专业翻译过程中相关库内容进行自动或半自动积累进一步包括如下步骤:
S501.将读入的源语句和确定的当前目语给出句作为句对例显示,接受用户挖句舱操作如果源语、目语都缺句型的接续步骤S502,如果源语有句型只是目语缺句型的接续步骤S505;
S502.当用户点击挖句舱命令按钮后,在源语句和目语句用户点击的两个至少相隔一个词条的点作为一个句舱,挖去其中内容,标以[A],相似操作依操作次序标以[B]、[C]……;
S503.当用户点击存句型命令按钮后,对挖去句舱所剩部份作为句型,进行格式检查,通过后以源语结构次序从左到右以{1}、{2}、{3}替换原以操作次序[A]、[B]、[C]的标注,目语以句舱语意相应标号相同,最后分别存入句型库相应的源语句型字段和目语句型字段;
S504.如果当前源语句、目语句太短,不便以上操作划分出句型、句舱,用户没有点击挖句型而直接点击存句型命令按钮时,把当前源语、目语句子作为小习语,分别存入习语库相应字段;
S505.将读入的源语句对号入座地套入源语句型,依次取出句舱内容,查询意群串库,取与目语句一致的解释确定为当前句舱的首、尾点以及当前句舱内容,用型例结合型式显示,当前句舱全部匹配完成后,接受用户确定或纠正,然后复制当前源语的句舱标号作为目语当前句舱标号,直至完成全句的类似操作;
S506.当用户点击存句型命令按钮后,抽出目语句型,进行格式检查,通过后存入句型库与当前源语句型相同记录的目语句型字段;
S507.将当前源语、目语句例分别套入当前源语、目语句型,依次检查每个句舱内容是否超出简单句舱的规定,如果超出将当前句舱的源语、目语上下行显示,接受用户挖舱眼操作;
S508.当用户点击挖舱眼命令按钮后,在源语句舱和目语句舱用户点击的两个至少相隔一个词条的点作为一个舱眼,挖去其中内容,标以[A],相似操作依操作次序标以[B]、[C]……;
S509.当用户点击存舱模命令按钮后,对挖去舱眼所剩部份作为舱模,进行格式检查,通过后以源语结构次序从左到右以[1]、[2]、[3]替换原以操作次序[A]、[B]、[C]的标注,目语以舱眼语意相应标号相同,最后分别存入舱模库相应的源语舱模字段和目语舱模字段;
S510.清除制作句型、舱模的相关显示,进行判别返回调用者或读入下一个源语句子,接续步骤S1。
根据<二>所述的多语种专业翻译方法,其特征是在远行步骤S1前有库扩充命令按钮在待命、远行步骤S1、S2、S3、S4、S5的过程中有扩查词命令按钮在待命,进一步包括如下步骤:
s01.当库扩充命令按钮被点击;
s02.搜索记忆库、取出最高频度记录的源、目语句例对,当前记录作删除标志,跳转S501作句型;
s03.继续s02.步骤,仅当库扩充命令按钮再次被点击,返回到远行步骤S1前断点;
s04.当用户选定源语一条或若干词串后点击扩查词命令按钮,进行判断;
s05.当所选是若干条词串,以它们的各种可能排列查询意群串库,把它们的排列和同目语的所有解释列表给出,同时显示选复、改馈复命令按钮;
s06.当用户点击列表中某项后点击了选复命令按钮,把源语相应词条以“_”连成复词,以该项目语解释置换原有解释,
s07.当修改了列表中某项后点击了改馈复命令按钮,将该修改项作为新增复词及其解释存入意群串库的复词分库;
s08.当所选是一条词串,先查询不规则词表,再根据词尾变化规律作出可能的变形和原形词条,以它们分别查询意群串库,把源语词条的原形或变形和同它们的目语所有解释列表给出,同时显示选单、改馈单命令按钮;
s09.当用户点击列表中某项后点击了选单命令按钮,以该项目语解释置换原有解释;
s10.当用户修改了列表中某项后点击了改馈单命令按钮,将该修改项作为新增解释存入意群串库的单词分库,判断并返回命令按钮被击中断点。
与现有技术相比,本发明的优点和有益效果是:
1、语句构件装置的语句构件存贮部设有四个库,分别存贮句型、舱模、意群串和小习语四类语句构件;只有相同语意的同类构件同处一个记录,同一记录又设计了某某码字段,用以编制意通代码。意通代码不但唯一地代表了同记录同类构件的共同语意,而且可以分解为某库某记录。这样的设计得到构件与构件之间可以直接转换或通过意通代码转换而语意不变的有益效果。
2、句型、舱模构件为句子提供了框架,包揽了复杂的语法,决定了所含句舱及舱眼的位次,这就避免了现有技术利用人工智能作句法分析、语法分析之不力。有效益于译文质量的提升。
3、基于语句构件的多语种专业翻译方法,由于语句构件是大小不等的语义块,有构架也有组件,是当今计算机处理涉足语义的捷径;加上交互式人机密切配合;为译句语意与源文一致提供了保证。
4、基于语句构件的多语种专业翻译方法,根据构件库的不同支持程度,有自动给出、半自动给出、机辅给出和人工给出四种方式给出目语句子,拓展了翻译记忆。
5、本发明方法使具有相同句型的句子可以自动及半自动地进行机器翻译,提高专业翻译的自动化程度,同时降低了对译员的外语程度要求;使大多数科技工作者兼任专业翻译成为可能。
6、本发明方法的缺点是构件库可能很大,引发干预太多;因而根据实际应用面向专业以至翻译者个人,分设各种专业版本;不但可以克服缺点,还能使本方法发明达到最好的发挥。
【附图说明】
图1是本发明语句构件装置结构示意图;
图2是语句构件示意图;
图3是句型库示意图;
图4是舱模库示意图;
图5a是意群串库(英单串)示意图;
图5b是意群串库(英复串)示意图;
图6是习语库示意图;
图7是本发明基于语句构件的多语种专业翻译方法流程图;
图8是图7模块(703)自动句给出进一步的流程图;
图9是图7模块(704)半自动句给出进一步的流程图;
图10是图7模块(705)机辅式句给出进一步的流程图;
图11是图7模块(706)人工式句给出进一步的流程图;
图12是图7模块(708、709)作句型、作舱模进一步的流程图;
【具体实施方式】
本发明人认为,对于计算机语言文字信息处理来说,语法、语音、词汇不同不是难题,关键是不同自然语言的字、词、句表意不对等,也不统一;机内表达亦然,无奈强求计算机要象人一样理解分析,从而致使“″语义障碍″至今仍然存在,译文结果往往令人啼笑皆非”。
句型构件理论(本发明人的发现,末公开):
我们明白,电脑还不能象人脑一样理解语义;电脑之长在于存贮和搜索。人脑正好与电脑相反,能理解语义,但存贮和搜索能力都远远不及电脑。人脑与电脑有着很好的互补,但能否实现很好的互补,有懒于语言文字在计算机内的表达。非常庆幸,自然语言的本质就是表意,并且所表之意人类互通。各种语言文字都由字符组成词汇,词汇组成句子,句子组成文章;其本质属性是:句子是表达完整语意的基本单元;不同语言文字的句子可以表达相同的语意。自然语言是整个人类社会发展的产物。人类产生语言文字的时候,由于时空的隔离,人们被分散在许多独立的社会里生活;语言文字也在这许多独立社会里,在各自独立体系内缓慢演变和发展。正因为各种语言文字都在各自的独立体系内缓慢地演变发展而来。不同语言文字之间,语音不同,语法不一样,词汇字符更是形形色色。这也就造成了不同语言文字之间字、词、句表意不对等也不统一。假如语言文字在计算机中的表达(表示),字、词、句表意能够对等和统一;不同语言文字之间的翻译和转换就不是什么难事了。如何才能使不同语言文字之间的字、词、句表意能够对等和统一呢?
本发明人从句型着手研究,不是语法书上的句型,是便于计算机操作的句型。经过多年的探讨,得出语句构件理论。这里把语句构件论所涉及的主要论断、与本发明有关的、具有特定意义的概念定义和解释如下:
句子——在自然语言里,表达完整语意的基本单元称为句子;不同语言文字的句子可以表达相同的语意。句子可分为句型、句舱两部分,一个句型至少包含一个句舱。
句型——出自一类句子的抽象,在句子中相对稳定,体现句子基本语意及类属;构成该类句子基本结构框架部分称句型。句型体现句子基本语意及类属是面向全人类的、跨语种的;而其基本结构框架是面向具体自然语言,并包揽着自然语言复杂、个性化的语法现象。
句舱——镶嵌在句型这个基本结构框架上的那些灵活的可替换部分称为句舱。句舱接受句型的选择和制约;句舱可用意群串填充或替换,形成丰富多彩的、具体的句子。句舱个数、其语意内容是面向全人类的、跨语种的;但其在句型基本结构框架中的位置、次序和用以填充的意群串是面向具体自然语言的;句舱即使有语法现象也极为简单。
句型句舱举例解释(#示行号):
上例①1#6#11#三行各表示三个句型的表示基本语意和类属,面向世界、跨语种部分;其中如“只要会句型”表示类属和基本语意,(01074)表示句型号,是意通代码低位字十进制数。
②2~5#、7~10#、12~15#表示三个句型的结构框架,是面向具体自然语言的。每行的左前部分是句型的框架结构,花括号内是句舱;右后部分是相应句舱及内容例。其中2#7#12#面向中文;3#8#13#面向英文;4#9#14#面向俄语;5#10#15#面向其它语种等。
③上述举例花括号内或其前面的数字为句舱号。句舱的个数(如1#有2个舱、6#有4个舱),和各句舱表示的语意是面向世界、跨语种的;而其在句型框架结构中的位置、次序、用以填充的意群串是面向语种的(如7~9#中的{2}在中英俄文句型内的位次不同;填充的意群串分别是:工作、work、o H)。
对于语法而言,复杂的语法现象都揽在句型上;句舱即使含有语法也极其简单。上述就是句型、句舱的定义和解释的简洁举例。
句舱由意群统领的意群串填充或组成(也可初步近似地理解为由词串填充或组成)。但句舱的大小有较大差别。最小的句舱只包含一个意群串;最大的句舱可以包含一个从句或分句。我们把句舱分为简单句舱和复杂句舱两种:
意群——意群是自然语言的字、词、词组或短语之“意”的对等和统一;是人类思维活动的基本单元。意群无语种之限,属于全人类;也随人类社会发展而代谢着。
意群串——意群在语言文字里相应的表示称意群文字串,简称意群串。意群串分单串、复串两种;以拼音文字为例,只含有一个原有词串的为单串(如图5a中的英文串);由两个或两个以上原有词串组成,并用“_”相连为复串(如图5b中的英文串)。
简单句舱——除不表意虚词外不超过三个意群串的句舱称简单句舱(如图2所标203~204)。英文如“a an the in on to and”等常不表意可忽略不计;中文的量词同样可不计。其它语种如此类推。不同语种之间,这三个串只要求有相应的、语意相等的串就可以,不要求它们前后次序的一致。
复杂句舱——大于简单句舱,含有舱模的句舱称复杂句舱。
上文所列举例句的句舱都属于简单句舱。下面这个例句含有复杂句舱:
1{the fisherman}consents to 2{return the_feather_suit},on condition that3{fairy dance and play heavenly music for him}.
在3{仙女为他跳舞并演奏天上的乐曲}的条件下,1{渔夫}答应2{归还羽衣}。
本例句舱1、句舱2都是简单句舱,句舱2英文含复串;句舱3大于简单句舱,含有舱模,为复杂句舱。
舱模和舱眼——进一步剖析复杂句舱的内容;得出如同句型的框架结构部分称舱模;镶嵌在舱模框架结构上的可替换部分称舱眼。句舱和舱眼是上、下位概念;但简单句舱和舱眼的大小相等,同样是除不表意虚词外不大于三个意群串。
如上例句舱3{fairy dance and play heavenly music for him}3{仙女为他跳舞并演奏天上的乐曲}利用句型理论剖析,可得出舱模:
(00205){1}+{2}+and+{3}+for him
{1}+为他+{2}+并+{3}
其中(00205)是舱模号;这个舱模包含3个舱眼,三个舱眼的内容都不大于三个意群串:3{1{fairy}2{dance}and 3{play heavenly music}for him}3{1{仙女}为他2{跳舞}并3{演奏天上的乐曲}}
小习语——过于简短不足以分出句型、句舱的句子为小习语。如:“How do you do?您好!Get away!滚开!”等等。
语句构件——语句构件是不同语言文字之间,字、词、句表意的对等和统一。根据自然语言之表意人类互通,剖析比对多语句对;得出表意对等和统一的句型、舱模、意群串和小习语等语句构件。经建库编码后的语句构件可以是组装句子的另部件或对句子进行编码的标准件。语句构件包括句型构件、舱模构件、意群串构件和小习语构件。
意通代码——面向多语种,语意相等、互通的语句构件的统一编码称意通代码。
世界文——由意通代码生成,体现多文种语意互通,并可进行多文种读出或文本转换特殊的文本文件,这种特殊的文件有望通用于世界而称世界文。
句型构件理论简化了自然语言的复杂性、又适应它的灵活性;并化解它们之间语法不一致难题。然而,我们把①语法分析、语义理解分配给人脑。组织专家根据句型原理,对句子进行句型、意群串两个层面的语意剖析、比对整理。这些需要理解的艰难的也是一劳永逸的事由人脑完成。同时②把经常性的、单调、繁琐的记忆、搜索、匹配等工作交给电脑。让计算机提供一个便捷的操作的平台,利用人机交互的形式,让人脑、电脑能够很好地互补。把剖析、比对过程中产生的句型、舱模、意群串和小习语等语句构件建库保存,并统一编制意通代码,如此产生语句构件库。
语句构件库存贮的是语句构件。这些语句构件,是多种语言文字之间表意得以对等的、可以组装、拼接成句子的(图2)。
下文参照附图、利用实施例将本发明的内容进一步说明如下:
一、一种语句构件装置
图1是本发明语句构件装置结构示意图。图2是语句构件示意图;图3是句型库示意图;图4是舱模库示意图;图5a是意群串库(英单串)示意图;图5b是意群串库(英复串)示意图;图6是习语库示意图。它们都与语句构件相关联,下面以内容为序说明之。
如图1所示,语句构件装置包括:语句构件存储部101、意通代码编制部102、以及构件库操作控制、接口部103等三个部件:
(一)语句构件存储部101,是本装置的中心部件。含有用电子数据形式构成的、存储了多语种语意对等的语句构件的二维数据库表。它们是句型库、舱模库、意群串库和习语库(参附图3~6)四个语句构件库:
1、句型库300,用于存储句型构件,有句型码、英文句型、中文句型、俄文句型字段,如图3所示。其包含至少一个记录,相同语意的句型同处一个记录,相应文种的句型存储在相应文种句型字段内301。这句所述文种句型实际是指句型的框架部分,是面向各自然语言的。其中的花括号表示句舱,中间的数字是该句舱的编号,句舱由意群串填充,句舱在句型中的位置、次序以及填充的意群串都是面向各自然语言的;从图3的库中内容301可以看出,同一个句舱,其标号一样但它在各语种句型中的位置、次序并不一致。句型码字段存放句型码,句型码代表了同一记录内各文种句型字段内的各文种句型的语意。句型体现该类句子基本语意及类属是面向全人类的、跨语种的;它所包含的句舱个数、句舱语意都是面向全人类,跨语种的;面向人类,跨语种的表示就是句型码。也就是说,句型码代表句型语意,影射了各文种句型;各文种句型又可以通过句型码影射另一个文种句型。至于语法是属于各自然语言的,句型的框架部分包揽着自然语言复杂、个性化的语法现象,然而句舱即使有语法现象也极为简单了。
2、舱模库400,用于存储舱模构件,有舱模码、英文舱模、中文舱模、俄文舱模字段,如图4所示。其包含至少一个记录,相同语意的舱模同处一个记录,相应文种的舱模存储在相应文种舱模字段内401。舱模是复杂句舱的框架结构部分,是面向各自然语言的。其中的方括号表示舱眼,中间的数字是该舱眼的编号,舱眼也由意群串填充。舱眼在舱模中的位置、次序以及填充的意群串都是面向各自然语言的;从图4的库中内容401可以看出,同一个舱眼,其标号一样但它在各语种舱模中的位置、次序并不一致。舱模码字段存放舱模码,舱模码代表了同一记录内各文种舱模字段内的各文种舱模的语意。舱模的基本语意,是面向全人类的、跨语种的;它所包含的舱眼个数、舱眼语意都是面向全人类,跨语种的;其表示就是舱模码。也就是说,舱模码代表舱模语意,影射了各文种舱模;各文种舱模又可以通过舱模码影射另一个文种舱模。至于句舱内的语法也是属于各自然语言的,舱模包揽着自然语言的语法现象,然而舱眼即使有语法现象也极为简单。
3、意群串库500、502,用于存储意群串构件,有意群码、英文串、中文串、俄文串字段,如图5a-b所示。其包含至少一个记录,相同语意的意群串同处一个记录,相应文种的意群串存储在相应文种串字段内501、503。意群串是句舱或舱眼的内容,句舱与舱眼是上下位概念,句舱分简单句舱和复杂句舱两种,复杂句舱抽出如同句型的框架结构后就是舱眼。句舱和舱眼是上、下位概念;但简单句舱和舱眼的大小相等,同样是除不表意虚词外不大于三个意群串。拼音文字的意群串有单串复串两种,单串即一个原有词串501,复串是由多于一个原有词串,并以“_”相连而成503。意群码字段存放意群码,意群码代表了同一记录内各文种意群串字段内的各文种意群串的语意,是面向人类,跨语种的;各文种意群串是面向各自然语言的。也就是说,意群码代表意群串的语意,影射了各文种意群串;各文种意群串又可以通过意群码影射另一个文种意群串。
4、习语库600,用于存储小习语构件,有习语码、英文习语、中文习语、俄文习语字段,如图6所示。其包含至少一个记录,相同语意的小习语同处一个记录,相应文种的小习语存储在相应文种习语字段内601。习语码代表了同一记录内各文种习语字段内的各文种小习语的语意。也就是说,习语码代表小习语的语意,影射了各文种小习语;各文种小习语又可以通过习语码影射另一个文种小习语。
上述四个库的结构强调只有相同语意的同类构件才同处一个记录,同一记录又设计了某某码字段,用以编制意通代码。意通代码与同记录的同类构件的相互影射。这样的结构保证了构件与构件之间可以直接转换或通过意通代码转换而语意不变;也就是说,不同语种之间可以借此进行相互转换。上述四个库之间的关系是平列的,它们互不干预又共处语句构件存贮部之中。都要接受其它部件的操作或控制。
(二)意通代码编制部102,与语句构件存储部101相连。仅当上述四个库任何之一出现新记录时,把当前库代表数:例如习语库=FF00H、句型库=F000H、舱摸库=EF00H、意群串库=0001H(也是这四个库的库标、数值段段标;数段的起点,止点即下一个库标数一1)作高位字加上当前库记录号合成意通代码;并填入当前库的某某码字段,作为语句构件统一的双字定长的多语种语意互通的意通代码。意通代码对于当前库、当前记录内各语种构件的同一语意的代表是唯一的;
(三)构件库操作控制、接口部103,通过构件读出、构件匹配、构件添加部构成。用于接收基于本语句构件的各种应用的调用或接收相关命令进行操作,返回调用者所需语句构件,或通过本接口与基于语句构件的各种应用装置相连接。
上文所述语句构件(参附图2及图3~6)是用于组装语言句子的另部件,也是对句子进行另部件拆分、编码的标准件。有如下四种:
1、句型构件201,301,用于构成句子的基本结构框架。代表了该类句子基本语意类属,也决定了该类句子所含句舱的位次和个数,并包揽了该类句子的较复杂的语法现象。
2、舱模构件202,401,用于构成复杂句舱的基本结构框架。代表了该类句舱基本语意类属,也决定了该类句舱所含舱眼的位次和个数,并包揽了该类句舱的较复杂的语法现象。
句型和舱模构件都为句子提供了框架结构,包揽了复杂的语法,决定了所含句舱及舱眼的位次,这就避免了现有技术利用人工智能作句法分析、语法分析之不力。有贡献于结果表意能与原文一致。
3、意群串构件501~503,是由意群串充当的构件。用于填充简单句舱203~204或舱眼205~207的构件,简单句舱与舱眼是上、下位概念而大小一样,都是除不表意虚词外不超过三个意群串;
4、小习语构件601,由过于简短不足以分出句型、句舱的句子充当小习语构件。用于直接构成简短的句子。
语句构件库中的多文种构件字段,它们是以文种设置,一个文种对应一个文种构件字段。例如多文种句型字段,包括英文句型、中文句型、俄文句型等等语种句型字段。其它多文种舱模、多文种串(意群串)、多文种习语同样如此。
上文所述的语句构件装置,除已有的相应文种(英文、中文、俄文)外,每增加一个语种,首先应将句型库、舱模库、意群串库、习语库分别依次各增加一个某文句型、某文舱模、某文串、某文习语字段。并且新加文种的构件只有与已有语种构件的语意相同的才能填加在同一个记录上。也即再次强调只有相同语意的语句构件才能共处一个记录。
对于上述四个库,可以只提取二个字段构成相应分库;即提取句型库、舱模库、意群串库、习语库中的某文句型、某文舱模、某文串或某文习语和某某码两个字段,构成某某语言库或第一语言库、第二语言库而应用于语言翻译或文本转换等场合。
上文所述语句构件的来源,其一、是通过专家操作、人机交互的方式,剖析比对双语对训练样本语料得到。其二、即另一个来源是专业用户在专业翻译过程中、或事后闲时再加入。通过支持网站实现。
二、一种基于语句构件的多语种专业翻译方法:
下面结合附图以英翻中为实例进行说明。
图7是本发明基于语句构件的多语种专业翻译方法流程图。如图7所示,701句读入,根据句末符号判断,读入源语一个句子。接续702,通过查表、判断进行分流:
当读入源语句得到句型库、舱模库和意群串库全方位支持时。即源语句子全部可以由四个构件库中查出,接续自动句给出703;
当读入源语句得到句型库支持和舱模库、意群串库的部分支持时。例如出现>1匹配句型需要干预选取、某个复杂句舱查舱模库无、某词条意群串库无等情况,需要接受干预,接续半自动句给出704;
当读入源语句没有得到句型库支持,即查无匹配句型时,查询记忆库,有相似句对,接续机辅式句给出705;
当读入源语句没有得到句型库支持、也没有得到记忆库的支持时。即查句型库无;查记忆库也没有相似记录时。接续人工式句给出706。
图8是图7模块703自动句给出进一步的流程图。假如当前读入句是“How do you do?”用读入的源语句查询习语库,是,确定为小习语句,直接给出目语小习语句,“您好!”。再例如当前读入句是“The fisherman consents to return the_feather_suit,on condition that fairy danceand play heavenly music for him.”查习语库,无,再查询记忆库,如果是,并且源语100%相似,取该句对目语句直接给出。否则,续:
图8模块801句型处理,根据读入的源语句查询句型库,取唯一或最长,得句型1059号,用该记录的源语句型“the[1]consents to[2],on condition that[3].”将读入的源语句对号入座地套入,如“the 1{fisherman}consents to 2{return the_feather_suit},on conditionthat 3{fairy dance and play heavenly music for him}.”;用该记录的目语句型,如“在[3]的条件下,[1]答应[2]。”作为自动给出当前句子的框架。
续图8模块802句舱处理,依次取出被套入源语句型的句舱内容查询舱模库。这里句舱1,句舱2都是简单句舱,查舱模库,无;而当用句舱3查舱模库时,有、取唯一或最长得句舱205号,用该记录的源语舱模将该句舱内容对号入座地套入,如“1[fairy]2[dance]and3[play heavenly music]for him”,用该记录的目语舱模“[1]为他[2]并[3]的条件下”作为自动给出当前句舱的框架并置入到句型框架相应的位置,如“在3{[1]为他[2]并[3]的条件下},{1}答应{2}。”
续图8模块803查串置反悔库,依次取出被套入源语句型、舱模中的简单句舱或舱眼内容,逐词条查询意群串库,将查得的目语所有解释连同当前的句舱或舱眼标号存入反悔库。反悔库有“舱或眼号、源语串、目语解释、源串序、预选”等字段,其内容业界人员明白(略)。再取其一作为预选置入目语框架相应位置。然后将已经由目语句型、舱模构成的框架并填入了预选目语解释的自动给出当前目语句子连同句舱、舱眼标号显示给出,如:
“在3{1<仙女>为他2<跳舞>并3<游戏天上的乐曲>}的条件下,1{渔夫}答应2{归还羽衣}。”如果某句舱或某舱眼以及它们的内容校改库有记录的,根据校改库信息更正后再给出(即下文所述自动更正;本句无),然而等待用户的便捷式校改。
续图8模块804,词意或词序的自动更正或干预更正。当用户点击不满意的目语预选解释时,列出反悔库中相同句舱、舱眼和串次的所有解释接受用户点击另选,置换预选解释。这很明显,一眼便看到“游戏”不对,因“游戏天上的乐曲”不通,所以当用户点击“游戏”后,取出反悔库中该词条的所有解释列出如“游戏、玩、演奏、节目游戏、比赛、运动、赌博、剧本、扮演、播放”;当用户点选“演奏”后,将“演奏”置换原预选解释“游戏”为“演奏天上的乐曲”。如果简单句舱或舱眼的词序不对。当用户点击某个目语预选解释后点击向前或向后位移命令按钮时将该目语解释向前或向后置换一个串位;该例无。
续图8模块805句给出,当用户点击返回命令按钮时,当前目语句子确定,与备份句不同的句舱或舱眼内容以及相关的句型、句舱、舱眼标号信息纳入校改库。当前例虽然没有作词序移动,但置换了预选解释;相关信息纳入校改库(含句型、舱或眼号、源语内容、正后目等字段),即为上文所述的自动更正作好了准备;相同情况的相同源语内容就直接以“演奏天上的乐曲”给出了。
最后把“在3{1<仙女>为他2<跳舞>并3<演奏天上的乐曲>}的条件下,1{渔夫}答应2{归还羽衣}。”弃去所有句舱、舱眼标号,如“在仙女为他跳舞并演奏天上的乐曲的条件下,渔夫答应归还羽衣。”;将其自动给出并尾加于译文文件;清空反悔库,读入下一个源语句子,接续模块701。
图9是图7模块(704)半自动句给出进一步的流程图;如图9所示:
模块901干预性句型处理。假如当前读入句是“The doctor told his patient that he wouldprescribe him some patent medicine on condition that he strictly follow his instructions.”根据读入的源语句查询句型库,有二个或二个以上匹配句型时,接受用户点选干预,本例最长句型只一个,不必点选干预,同自动句给出(略)。然后用该记录的源语句型将读入的源语句对号入座地套入,如“the 1{doctor}told his 2{patient}that 3{he would prescribe him somepatent medicine}on condition that 4{he strictly follow his instructions}.”。用该记录的目语句型作为半自动给出当前句的框架,如“[1]告诉他的[2],如果能[4],就可以[3]。”。
续图9模块902干预性句舱处理,依次取出被套入源语句型的句舱内容查询舱模库,当前例句舱1、句舱2都是简单句舱,无;而句舱3、句舱4都是复杂句舱。以句舱3内容查询舱模库。有二个或二个以上舱模匹配时,接受用户点选干预,该例点选舱模206。然后用该记录的源语舱模将该句舱内容对号入座地套入,如“he would prescribe him 1{some patentmedicine}”。用该记录的目语舱模作为半自动给出当前句舱的框架并置入到句型框架相应的位置,如“{1}告诉他的{2},如果能{4},就可以3{开[1]给他}。”;如果没有符合舱模的非简单句舱(即复杂句舱)暂且不作为;当以句舱4的内容查询舱模库时没有匹配舱模,然而暂且不作为。
续图9模块903查串置反悔库。依次取出被套入源语句型、舱模中的简单句舱或舱眼内容,逐词条查询意群串库,将查得的目语所有解释连同当前的句舱或舱眼标号存入反悔库。反悔库结构同上(略);取其一作为预选置入目语框架相应位置(见后);如果出现意群串库未登录的词条,可即时加入或启动外词典连接,在用户的干预下登录到本方法的意群串库;本例无,不必。接续将已经由目语句型、舱模构成的框架并填入了预选目语解释的当前目语句子连同句舱、舱眼标号显示给出,如:“1{医生}告诉他的2{病人},如果能{4},就可以3{开1<几特效药>给他}。”;如果用户对根据反悔库所列的待选解释都不满意,接受用户添加解释并纳入意群串库。如果某句舱或某舱眼以及它们的内容校改库有记录的,根据校改库信息更正后再给出,即自动更正。
续图9模块904词义或词序的自动或干预更正。当用户点击不满意的目语预选解释时,列出反悔库中相同句舱、舱眼和串次的所有解释接受用户点击另选,置换预选解释。暂不管句舱4;本例“3{开1<几特效药>给他}”中的“几特效药”不妥,点击“几”后列出“几、一些”等,用户选“一些”后者置换预选解释“几”。成为“1{医生}告诉他的2{病人},如果能{4},就可以3{开1<一些特效药>给他}。”;当用户点击某个目语预选解释后点击向前或向后位移命令按钮时将该目语解释向前或向后置换一个串位;本例也没有。
续图9模块905不作为句舱处理,在S202步骤当中因没有符合舱模而不作为的句舱,突出显示。本例的句舱4,如“4{he strictly follow his instructions}”;“4{他严格遵守他的嘱咐}”。接受用户人工编辑该句舱目语内容,假定用户把“4{他严格遵守他的嘱咐}”。修改为“4{严格执行他的医嘱}”。
续图9模块906句给出。给出目语句为“1{医生}告诉他的2{病人},如果能4{严格执行他的医嘱},就可以3{开1<一些特效药>给他}。”当用户点击返回命令按钮时,给出当前目语句子确定,跳开不作为句舱,其它与备份句不同的句舱或舱眼内容连同句型、句舱、舱眼标号信息纳入校改库,最后弃去所有句舱、舱眼标号,将其“医生告诉他的病人,如果能严格遵守他的医嘱,就可以开一些特效药给他。”给出并尾加于译文文件。清空反悔库,提示用户应当对不作为句舱补作舱模,如果应答是,跳转S507作舱模。该例假定应答,否。读入下一个源语句子,接续模块701。
图10是图7模块(705)机辅式句给出进一步的流程图;
如图10所示,模块1001搜索记忆库,例如当前读入的源语句是“’What do you want ina Man?’or’What do you want in a girl?’is often the question to the boy or girlwho is seeking for his/her partner.”;以它查询句型库,无匹配句型;再用读入的源语句查询记忆库。上文已经述及,在进入模块703时,曾经搜索过记忆库,并把与源语100%相似句对的目语句直接给出了。这里再搜索,只是低于100%的只能作为参考的句例。如果有相似记录,把它们罗列于临时库,计算它们的相似度;当前句的相似度最大,96.3%;选相似度最大记录的目语字段内容“″你理想的男友是什么样的″或″你理想的女友是什么样的″是大多数男孩或女孩在寻找伴侣的时候提出的问题。”;作为目语参考句给出,同时将该记录的使用频度字段之值加一。然后接受用户编辑、校改,本句只需对分句引号梢作改进即可。当用户点击返回命令按钮后,作为当前目语句“‘你理想的男友是什么样的’或‘你理想的女友是什么样的’是大多数男孩或女孩在寻找伴侣的时候提出的问题。”;给出并尾加于译文文件。然后提示用户制作句型,如果应答是,续步骤S501制作句型。本例假定应答否,读入下一个源语句子,接续模块701。
图11是图7模块(706)人工式句给出进一步的流程图;
如图11所示,模块1101全句查串置反悔库。例如当前读入的源语句是“China beganimplementation of and made a good start on its Eleventh Five-Year Plan in 2006,makingmajor achievements in economic and social development.”;这里源语句子已经查询过句型库,也查询过记忆库,都没有得到支持。然而为了提高翻译工作效力;同时又降低对操作人员的外语程度要求,还可利用意群串库。依次取出读入的源语句所有词串,逐条词串查询意群串库,将查得的目语所有解释连同当前串序号存入反悔库,取其一作为目语预选解释按序排列构成目语参考句,和同读入的源语句上下两行显示。目语参考句为“中国开始执行的和犯了一好开始在它的Eleventh Five-Year Plan在2006,产生主修课成就在经济和社会的发展.”;当用户点击参考句不对的目语预选解释时,列出反悔库中相同串序的所有解释接受用户点击另选,置换预选解释;给出一个可编辑框,接受用户编辑、校改。假如用户对当前句编辑为“2006年,是我国实施“十一五”规划并实现良好开局的一年,国民经济和社会发展取得重大成就。”并点击返回命令按钮确定为当前目语句给出并尾加于译文文件。清空反悔库,提示用户制作句型,如果应答是,后续步骤S501制作句型;这里假定应答否定,将当前源语句子、目语句子分别存入记忆库相应字段,读入下一个源语句子,接续模块701。
图12是图7模块(708、709)作句型、作舱模进一步的流程图;
在专业翻译过程中相关库内容进行自动或半自动积累。如模块708的作句型;模块709的作句舱。如图7所示,作句型708在流程上处于机辅式句给出705、人工式句给出706之后。在这两个循环点上,用户可以选择马上进行或暂且放下闲时再作,也就是在专业翻译活动前、后进行库扩充707时再作。作句型708之后紧随作句舱709,作句舱又可以在半自动句给出704后进行;因为某复杂句舱缺少舱模是由“自动”降为“半自动”的主要原因。作舱模后就完成了一轮循环,接续下一个循环而返回到句读入701。
作句型708、作舱模709的进一步的流程图如图12所示:首先说明的是需要作句型(作舱模相同、下略)有两种情况,其一是运作第一个语对时,需要对A、B语句都作句型。从运作第二个语对开始,因为把已有的语种作为A语;新加的语种作为B语。所以只需对B语制作句型;并且可以由A到B半自动地进行,比同时对A、B语作句型要容易简单得多。因而下文便以同时对A、B语作句型为例进行说明。
如图12模块1201源目句对例所示,将读入的源语句和已确定的目语给出句作为句对例显示,接受用户挖句舱操作。假如当前源目句对是:
It was owing to the victory of the revolutionary war of 1776led by Washingtonthat the American people won independence.
正是由于1776年华盛顿领导的革命战争的胜利,才使得美国人民赢得了独立。
模块1202挖句舱,挖句舱操作由用户在源语句或目语句点击两个点,这两个点之间要求最少含有一个词串,这就是将要挖去的句舱之首尾。用户可以先点挖源语句,也可以先点挖目语句;可以从左到右点挖,也可以从右到左点挖。但必须源、目句各点击两个点后,点击挖句舱命令按钮挖完一个句舱后再挖下一个。这个过程中需测试存句型命令按钮是否被点击?如果没有被点击,在源语句和目语句用户点击的两个至少相隔一个词条的点作为一个句舱,挖去其中内容,标以[A],如:
It was owing to[A]that the American people won independence.
正是由于[A],才使得美国人民赢得了独立。
如果还是没有被点击,接续相同的挖句舱操作,依次标以[B]、[C]……。如:
It was owing to[A]that[C]won[B].
正是由于[A],才使得[C]赢得了[B]。
如果这时存句型命令按钮被点击表示挖句舱结束。
续图12模块1203操作句型或小习语。把挖去句舱所剩部份作为句型,进行格式检查,格式检查由编程人员根据具体情况编制。通过后以源语(这里源语是A语,下同)结构次序从左到右以{1}、{2}、{3}替换原以操作时序[A]、[B]、[C]的标注,如;
It was owing to{1}that{2}won{3}.
正是由于{1},才使得{2}赢得了{3}。
最后分别存入句型库相应的源语句型字段和目语句型字段。如果当前源语句、目语句太短,不便以上操作划分出句型、句舱,用户点击存句型命令按钮后,没有查到被挖的句舱,把当前源语、目语句子作为小习语,分别存入习语库相应字段。假如当前句对是“See youtomorrow.”,“明天见。”那就是小习语,把它们存入习语库。而本例不是这种情况。
续图12模块1204套句型与检测;它也是来自模块704半自动句给出的一个入口。该模块操作,将当前源语、目语句例分别套入当前源语、目语句型,如:
It was owing to 1{the victory of the revolutionary war of 1776led by Washington}that 2{the American people}won 3{independence}.
正是由于1{1776年华盛顿领导的革命战争的胜利},才使得2{美国人民}赢得了3{独立}。
依次检查每个句舱内容是否简单句舱,如果不是,既超出简单句舱的规定,将当前句舱的源语、目语上下行显示,接受用户挖舱眼1205的操作。本例句舱1超出,是复杂句舱;而句舱2、句舱3都是简单句舱不要挖舱眼。句舱1要挖舱眼制作舱模:
the victory of the revolutionary war of 1776led by Washington
1776年华盛顿领导的革命战争的胜利
挖舱眼操作与挖句舱一样,在源语句舱和目语句舱用户点击的两个至少相隔一个词条的点作为一个舱眼,挖去其中内容,标以[A],相似操作依次标以[B]、[C]……;(简略)。
续图12模块1206操作保存舱模。当用户点击存舱模命令按钮后,对挖去舱眼所剩部份作为舱模,进行格式检查,通过后以源语结构次序从左到右以[1]、[2]、[3]替换原以操作时序[A]、[B]、[C]的标注,得舱模:
the victory of[1]of[2]led by[3]
[2][3]领导的[1]的胜利
它们的模例结合型式:“1{the victory of 1[the revolutionary war]of 2[1776]ledby 3[Washington]}”,“1{2[1776年]3[华盛顿]领导的1[革命战争]的胜利}”
最后把舱模分别存入舱模库相应的源语舱模字段和目语舱模字段。最后,清除制作句型、舱模的相关显示,进行判别返回调用者或读入下一个源语句子,接续步骤701。
上文所述是在专业翻译过程中相关库内容进行自动或半自动积累的主要内容。当然作句型、作舱模也是在专业翻译活动前、后进行库扩充的主要内容。关于在专业翻译活动前、后进行库扩充是:在图7远行步骤S1模块703前有库扩充命令按钮在待命。当库扩充命令按钮被点击;搜索记忆库、取出最高频度记录的源、目语句例对,当前记录作删除标志,跳转模块708作句型,即上文细述的作句型;如果库扩充命令按钮没有再次被点击(作句型、句舱之后)继续本节所述作句型、作句舱的步骤,仅当库扩充命令按钮再次被点击,返回到远行步骤S1模块703前断点。
在专业翻译过程中相关库内容进行自动或半自动积累,还有远行步骤S1、S2、S3、S4、S5的过程中有扩查词命令按钮在待命,进一步包括如下步骤。
当用户选定源语一条或若干词串后点击扩查词命令按钮,进行判断。
当所选是若干条词串,以它们的各种可能排列查询意群串库,把它们的排列和同目语的所有解释列表给出,同时显示选复、改馈复命令按钮。例如用户选取了“a little too smallfor you”;显示出复词“a_little_too_small”,“稍微小一点”
当用户点击列表中某项后点击了选复命令按钮,把源语相应词条“a little too small”,以“_”连成复词“a_little_too_small”,并以该项目语解释置换原有解释,
当修改了列表中某项后点击了改馈复命令按钮,例如将“a little too small”修改为“a little too big”,“稍微大一点”后点击了改馈复命令按钮,将该修改项作为新增复词及其解释“a_little_too_big”,“稍微大一点”存入意群串库的复词分库。
当所选是一条词串,先查询不规则词表,再根据词尾变化规律作出可能的变形和原形词条,以它们分别查询意群串库,把源语词条的原形或变形和同它们的目语所有解释列表给出,同时显示选单、改馈单命令按钮。
当用户点击列表中某项后点击了选单命令按钮,以该项目语解释置换原有解释。
当用户修改了列表中某项后点击了改馈单命令按钮,将该修改过的作为新增解释存入意群串库的单词分库,判断并返回命令按钮被击中断点。
拼音文字在意群串库包括单词分库和复词分库。各行业的专业词典绝大多数由多词条组成而处复词库中;少数处单词库中。
在专业翻译活动前、后进行的除库扩充外;还有重要的统计优化、专业划分和专业翻译初始准备。现分述如下:
统计优化——本发明所公开的语句构件库之内容与现有技术的电子词典内容有很大区别。电子词典来自纸上词典、即给人看、给人理解参考的书上词典;基本上照搬进入电脑。而本发明的构件库不是给人看、不是给人理解参考;而是让计算机处理,装配成句子的组件。因而有一个社会性积累和优化过程,这个优化过程是基于统计的。比如句型与句型之间的相对独立;比如一个句型如何能更好地代表一类句子的基本语意,又如何能更适宜计算机操作等等有很大的优化空间。
专业划分——上文述及,本发明产品面向专业,甚至面向某些、某个专业翻译者个人。然后适当地扩大范围,适宜一个群。其中也有上文述及的可能构件库很大,不至于为此而影响实用。原则是从小到大,从一个到一群。达到一定程度时,甚至可以面向专业翻译者量身定做。
专业翻译的初始准备——与现有技术类似,由于要适宜用户个人,需要用户把手中已有的专业词典纳入意群串库,翻译过的源目句对例子纳入记忆库等等。本发明提供相应方法和措施。
实施本发明所产生的软件系统可以在现有的中型、小型、微、巨型计算机,笔记本电脑、掌上电脑等单独的或者相连成网的计算机上运行实施。可以在各种计算机网络,特别是在因特网上运行实施。还可以在诸如“个人数字助理”,PDA(Personal Digital Assistant)的装置上运行实施。本发明实施后的产品,可以应用于专业翻译,可以使广大科技工作者兼作专业翻译。拓展翻译记忆,在“相同的句子永远不需要翻译第二遍”的同时;使“具有相同句型的句子可以进行自动或半自动语意一致的机器翻译”。
作句型操作者参考:
作句型的要点是挖句舱,其中该如何挖、该如何制作句型。要求就是保证可操作性的前提下追求代表性。可操作性即让电脑无需理解、分析做诸如上述的查表、判断、存储等操作。代表性即句型涵盖的句例多少,可涵盖句例越多代表性越好。作句型过程中要求专职人员掌握的原则措施如下:
①多语对语义考虑原则
从多语对、至少是双语对的语义上考虑。如果条件许可,自然是取尽可能多的语对同时进行句型提取;正是因为不可能才要求至少是双语对进行。如:
We used to go to the movies about once a week.
通常我们每周大约去看一次电影。
这个句对,英文可以把“go to the movies”,作为一个句舱,但是中文相应的“看电影”中间插有“一次”。“once a week”作为一个句舱,中文的“每周一次”又被其它词隔开。这两种情况都不行,必须在双语对语义上考虑均可才行。这个句对可;
1{We}used to 2{go to the movies about once}a week.
通常1{我们}每周2{大约去看一次电影}。
②代表性考虑原则
句舱的多少、大小直接影响句型的代表性。我们的原则是保证可操作性的前提下追求代表性。关于句舱大小以何为宜,下文解说。这里先解释一下代表性的问题:
How many are there in your family?你家有几口人?
这个句对如果只把“your family”作为句舱;可用“his family;John’s family;your class”等等填充。但是由于“How many”与“family”语义有关联。中文对于“家”问“几口人”;但对于“班级”应问“多少学生”,或“多少人”。这样只把“your family”作为句舱代表性就差。如果把“How many”与“family”作成两个句舱,不但语意上可以相互照应;而且代表性也增加了。
③朴质准确的考虑原则
鉴于意通文本的定位是“朴质准确地传递语义”,当挖句舱顾此失彼而无耐时,可以修改华丽的译句为朴质直译,再挖句型。如:
There can never be too much deception in war.
兵不厌诈。
该例译句“兵不厌诈”既华丽又简练,但句型采集难以操作。把中文改为朴质直译“战争中再多的诡计也不为过。”再作挖句舱处理:
There can never be too much 1{deception}in 2{war}.
2{战争}中再多的1{诡计}也不为过。
For all their great size,the elephants moved absolutely noiselessly.
尽管象的身躯庞大,它走动起来却一点声音也没有。
这“一点声音也没有”;很难落实到句型或某个句舱;将它改为朴质直译“走动起来却静静地”问题便迎刃而解了:
For all their 1{great size},2{the elephants}3{moved}absolutely4{noiselessly}.
尽管2{象}的1{身躯庞大},2{它}3{走动}起来却4{静静地}。
④语法简繁的原则
从语法方面考虑,复杂的、个性化的语法现象都揽到句型上;使句舱内语法极为简单。上面所举的例子不难明白这一点。在具体操作上还可以适当增加句舱个数来降低句舱复杂程度,尽量少作大句舱(详下文)。
1{She}never 2{comes}but 1{she}3{brings something for the children}.
1{她}没有一次2{耒}不是就3{为孩子们带来一些东西}。
如增加句舱,把句舱{3}改成{3}{4}复杂性就降低了。如:
1{She}never 2{comes}but 1{she}brings 3{something}for the 4{children}.
1{她}没有一次2{耒}不是就为4{孩子们}带来3{一些东西}。
⑤词性和可替换性的原则
句舱是可以被其它词汇替换的部分,可替换的词汇越多,可替代性越强;间接地使句型的代表性加强。句舱内词汇的词性尽可能局限于数词、名词、形容词、复串,少数情况才考虑其它词类(如动词、副词等)。如果说要给做句舱的词类排优先次序,那首先就是数串、专用串,次则名串、形容词串……,最后考虑动词串。最不考虑的是介词和连词。也就是介词、连词几乎都纳归句型部分。
⑥句型词不宜太少的原则
要求句型采集达到句舱内语法极为简单,复杂语法现象尽揽于句型;挖去句舱后留下的句型,所含句型词不宜太少,因为太少了不便句型的检出。
最理想的情况是每个句舱之前后都有句型词,也就是没有连续句舱的情况。原则是任何一个句型,在任何文种里的框架结构必须有一个或一个以上的文字串作为句型词。不允许在多语对当中,某文种甚至没有句型词,中文因为最简洁,这种情况时有发生,一但发生就得返工,必须避免。
有时连续出现几个句舱,即连续句舱问题。还有是句舱的大小,尽量少作大句舱问题,这些都与句型词不宜太少相关,这些情况在相关标题下阐述。
⑦多连续句舱尽量避免的原则
1{I}2{get to work}at 3{nine o’clock}every morning.
每天早上3{九点钟}1{我}2{开始工作}。
上例英连续出现{1}{2}两个句舱;相应的中文则变为{3}{1}{2}三个连续句舱。二个或二个以上句舱相连称连续句舱;三个或三个以上句舱相连称多连续句舱。连续句舱不但具有句型词太少之弊,套句型还得人工干预。特别是连续三个或更多的情况应尽量避免。如上例减少到两个句舱就无此之虑了:
I1{get to work}at 2{nine o’clock}every morning.
每天早上2{九点钟}我1{开始工作}。
⑧尽量少作大句舱的原则
句舱有大有小,最小的句舱只含一个意群串;最大的句舱可以包含一个分句或从句。我们在作句型时,宜尽量少作大句舱。那么,如何掌握这个尽量少,以何为尺度呢?以“只能这样”为准。例如下面句对:
Can,you guess 1{what I was doing}2{this morning}?
你能猜到2{今天上午}1{我在做什么}吗?
I have forgotten 1{what time}he said he 2{had dinner}3{last night}.
我忘记他说他3{昨天晚上}是1{什么时候}2{吃的晚饭}。
What were you doing when1{I called you on the telephone}?
1{我打电话给你}的时候,你在做什么?
I have forgotten 1{what he sai d hi s address was}.
我忘记1{他说他的住址在哪里}了。
上面四个句对,分别由what、when引出一个从句。第一对可以把主谓、时间状语分开作成两个句舱。第二对可以作成三个句舱。第三对不能将状语分开,只能作成一个句舱;第四对What针对表语提问,也不能分开,只能作成一个句舱。第三、四两对都“只能这样”,这就是少作大句舱要把握的尺度。
⑨挖句舱后的审定原则
挖句舱之后还得认真审定:将句型、以至每个句舱分别审定。先看句型义,一定要都来自句型词,与句舱内容无粘连。然后审定每个句舱,它们必须是可替换的,与句型分开的,不与句型义有粘连。如果某句舱与某句型词有所粘连,必须修改之。例如:
When do you think 1{the meeting will be held}?
你认为1{会议在什么时候召开}?
这样划句型、句舱不对,句舱内容“什么时候”与句型词“When”有粘连。应修改为:
When do you think 1{the meeting}will be 2{held}?
你认为1{会议}会在什么时候2{召开}?
组复词操作者参考:
句舱层面比对操作如上述“组复词”,将原有词串以“-”相连成复词(复串);它们的目的是便于更好地体现词义;以便不同文种之间词汇表意的对齐。主要有如下几种情况,要求专职人员掌握:
①直接词译不能表达时,按意群组成复串
you were gone直译应是“你(是)走”;“了”来源于过去式,故组成复串
“you_were_gone你走了”
call_on_me 来访我 knew_nothing_about_it 一无所知
compelled_to_go 非去不可
show_himself_in_his_true_colours 现出原形、现出本色
②以简洁看齐,复杂表示者组成复串
英“per-mu grain yield,每亩谷物产量”;中为“亩产”。将英组成复串
“per-mu_grain_yield”,向中看齐。又如:
Late_at_night 深夜
down_to_the_countryside 下乡
fight_it_out_to_the_end 斗争到底
③有转义表示一事物,或经常性搭配的组成复串
fell_asleep入睡 knows_nothing一无所知
come_back_from_the_front 下火线
the_sweat_was_pouring_down 汗如雨下;
pictures_it_have_just_taken 近照
put_my_finger_on 指出
④词义有重合或重复的组成复串
very_well不错; doubts_of_questions疑问;
bear_fruit结果; the_far_distance远处;
经过上述组复词的操作,往往在一个句舱里,部分词串组成了复串,使部分看似复杂的句舱变为简单句舱。组复词也是意群对齐的措施之一,应灵活应用。
“意群对齐”操作者参考:
①依照实例、延伸或增补词义
Nothing can be 1{wholly beautiful}that is not 2{useful}.凡是未经2{应用的}就不可能1{完美}。
其中″useful″词义有“有用的、有帮手的、有益的”,选它们都不适合;增补“应用的”词义项。
1{She}was 2{strong},for all 1{she}was so 3{small}.1{她}虽然3{瘦小},但很2{结实}。如:其中small小的,增补“瘦小”词义项。
I am very ill.我患重病。把动词“am”增补“患”的词义。
Learn the truth明白真相,Learn增补“明白”词义项。
②不改变原有字、单词的前提下加减串长度,便于拼接
I ask you to teach me every other day.我请你每隔一天来教我。其中″teach″v有“讲授、教授”词义;减词串长为“教”便于拼接,增加“教”词义项。
Sttend school入学;sttend加“入”词义项,简释“加入”;school加“学”词义项,简释“学校”。
③粘带附随词串
如“good好”粘带成“好处、好事、好心、好用”等(中文别附随量词,后者另行处理)。
如“word词”粘带成“词儿”等。
④词形变化增补词义(分词,比较级等表达的语意,增加相应词义),这样可以省略词形分析、处理。
been增补“还是、怎么样”词义; punished增补“受处分”词义;
best增补“最好的”词义; had增补“以前”词义;
done增补“做好了、完成了”词义; villages增补“多个农村”词义。
Claims (7)
1.一种基于语句构件的多语种专业翻译方法,其特征是包括如下步骤:
S1.当读入源语句全部可以由句型库、舱模库和意群串库查出时,自动给出(703)当前目语句子,接受用户便捷式校改;
S2.当读入源语句在句型库查得>1匹配句型,某个复杂句舱查舱模库无,某词条查意群串库无时,接受干预、半自动给出(704)当前目语句子,接受用户校改:
S3.当读入源语句没有得到句型库支持,查无匹配句型时,调用记忆库如果获得支持、给出当前目语句参考,机辅式给出(705)当前目语句子;
S4.当读入源语句没有得到句型库支持、也没有得到记忆库的支持时,利用意群串库人工式给出(706)当前目语句子;
S5.在专业翻译过程中相关库内容进行自动或半自动积累,在专业翻译活动前、后进行库扩充、统计优化、专业划分或专业翻译初始准备;
其中:
句型库(300),用于存储句型构件,有句型码、多文种句型字段,其包含至少一个记录,同记录内的不同文种句型之语意相同;
舱模库(400),用于存储舱模构件,有舱模码、多文种舱模字段,其包含至少一个记录,同记录内的不同文种舱模之语意相同;
意群串库(500、502),用于存储意群串构件,有意群码、多文种串字段,其包含至少一个记录,同记录内的不同文种意群串之语意相同;
习语库(600),用于存储小习语构件,有习语码、多文种习语字段,其包含至少一个记录,同记录内的不同文种小习语之语意相同;
这四种语句构件库的设置与多语种句子包含四种语句构件相对应,句子分为句型、句舱两部分,构成句子基本结构框架部分是句型,镶嵌在句型这个基本结构框架上的那些可用其它意群串替换的部分为句舱,复杂的句舱含有舱模,句舱内的框架结构部分是舱模,镶嵌在舱模框架结构上的可用其它意群串替换部分为舱眼,没有舱模的简单句舱可以和舱眼一样大小,同样是除不表意虚词外不超过三个意群串。
2.根据权利要求1所述的多语种专业翻译方法,其特征是自动给出当前目语句子的步骤S1进一步包括如下步骤:
S101.用读入的源语句查询习语库,如果是,直接给出目语小习语句,如果否、查询记忆库,无,续S102,是,将源语100%相似句对的目语句直接给出;
S102.根据读入的源语句查询句型库,取唯一或最长,用该记录的源语句型将读入的源语句对号入座地套入,用该记录的目语句型作为自动给出当前句子的框架;
S103.依次取出被套入源语句型的句舱内容查询舱模库,有、取唯一或最长,用该记录的源语舱模将该句舱内容对号入座地套入,用该记录的目语舱模作为自动给出当前句舱的框架并置入到句型框架相应的位置;
S104.依次取出被套入源语句型、舱模中的简单句舱或舱眼内容,逐词条查询意群串库,将查得的目语所有解释连同当前的句舱或舱眼标号存入反悔库,取其一作为预选置入目语框架相应位置;
S105.将已经由目语句型、舱模构成的框架并填入了预选目语解释的自动给出当前目语句子连同句舱、舱眼标号显示给出,如果某句舱或某舱眼以及它们的内容校改库有记录的,根据校改库信息更正后再给出,等待用户的便捷式校改并作个备份句;
S106.当用户点击不满意的目语预选解释时,列出反悔库中相同句舱、舱眼和串次的所有解释接受用户点击另选,置换预选解释;
S107.当用户点击某个目语预选解释后点击向前或向后位移命令按钮时将该目语解释向前或向后置换一个串位;
S108.当用户点击返回命令按钮时,当前目语句子确定,与备份句不同的句舱或舱眼内容以及相关的句型、句舱、舱眼标号信息纳入校改库,弃去所有句舱、舱眼标号,将其自动给出并尾加于译文文件;
S109.清空反悔库,读入下一个源语句子,接续步骤S101。
3.根据权利要求1所述的多语种专业翻译方法,其特征是半自动给出当前目语句子的步骤S2进一步包括如下步骤:
S201.根据读入的源语句查询句型库,有两个以上匹配句型时,接受用户点选干预,然后用该记录的源语句型将读入的源语句对号入座地套入,用该记录的目语句型作为半自动给出当前句的框架;
S202.依次取出被套入源语句型的句舱内容查询舱模库,有两个以上舱模匹配时,接受用户点选干预,然后用该记录的源语舱模将该句舱内容对号入座地套入,用该记录的目语舱模作为半自动给出当前句舱的框架并置入到句型框架相应的位置,如果没有符合舱模的复杂句舱暂且不作为;
S203.依次取出被套入源语句型、舱模中的简单旬舱或舱眼内容,逐词条查询意群串库,将查得的目语所有解释连同当前的句舱或舱眼标号存入反悔库,取其一作为预选置入目语框架相应位置,如果出现意群串库未登录的词条,即时加入或启动外词典连接,在用户的干预下登录到意群串库;
S204.将已经由目语句型、舱模构成的框架并填入了预选目语解释的当前目语句子连同句舱、舱眼标号显示给出,如果某句舱或某舱眼以及它们的内容校改库有记录的,根据校改库信息更正后再给出,准备接受用户校改并作好备份句;
S205.当用户点击不满意的目语预选解释时,列出反悔库中相同句舱、舱眼和串次的所有解释接受用户点击另选,置换预选解释,如果用户对根据反悔库所列的待选解释都不满意,接受用户添加解释并纳入意群串库;
S206.当用户点击某个目语预选解释后点击向前或向后位移命令按钮时将该目语解释向前或向后置换一个串位;
S207.在S202步骤当中因没有符合舱模而不作为的句舱,突出显示并接受用户人工编辑该旬舱目语内容;
S208.当用户点击返回命令按钮时,确定给出当前目语句子,跳开不作为旬舱,其它与备份句不同的句舱或舱眼内容连同句型、句舱、舱眼标号信息纳入校改库,最后弃去所有句舱、舱眼标号,将其给出并尾加于译文文件;
S209.清空反悔库,提示用户应当对S202步骤不作为旬舱补作舱模,如果应答是,跳转S5作舱模;
S210.如果应答否,读入下一个源语句子,接续步骤S1。
4.根据权利要求1所述的多语种专业翻译方法,其特征是给出当前目语句参考、机辅式给出当前目语句子的步骤S3进一步包括如下步骤:
S301.当根据读入的源语句查询句型库,无匹配句型时,再用读入的源语句查询记忆库,如果有相似记录,把它们罗列于临时库,计算源语句和相似记录之间的相似度;
S302.选相似度最大记录的目语字段内容作为目语参考句给出,同时将该记录的使用频度字段之值加一;
S303.接受用户编辑、校改,当用户点击返回命令按钮后,作为当前目语句给出并尾加于译文文件;
S304.提示用户制作句型,如果应答是,续步骤S5制作句型;
S305.如果应答否,读入下一个源语句子,接续步骤S1。
5.根据权利要求1所述的多语种专业翻译方法,其特征是利用意群串库的部分支持人工式给出当前目语句子的步骤S4进一步包括如下步骤:
S401.当根据读入的源语句查询句型库,无匹配句型,再查询记忆库,又没有相似记录时,依次取出读入的源语句所有词串,逐条词串查询意群串库,将查得的目语所有解释连同当前串序号存入反悔库,取其一作为目语预选解释按序排列构成目语参考句,和同读入的源语句上下两行显示;
S402.当用户点击参考句不对的目语预选解释时,列出反悔库中相同串序的所有解释接受用户点击另选,置换预选解释;
S403.给出一个可编辑框,接受用户编辑、校改,当用户点击返回命令按钮时确定为当前目语句给出并尾加于译文文件;
S404.清空反悔库,提示用户制作句型,如果应答是,后续步骤S5制作句型;
S405.如果应答否定,将当前源语句子、目语句子分别存入记忆库相应字段,读入下一个源语句子,接续步骤S1。
6.根据权利要求1所述的多语种专业翻译方法,其特征是步骤S5所述在专业翻译过程中相关库内容进行自动或半自动积累进一步包括如下步骤:
S501.将读入的源语句和确定的当前目语给出句作为句对例显示,接受用户挖旬舱操作如果源语、目语都缺句型的接续步骤S502,如果源语有句型只是目语缺句型的接续步骤S505;
S502.当用户点击挖句舱命令按钮后,在源语句和目语句用户点击的两个至少相隔一个词条的点作为一个旬舱,挖去其中内容,标以[A],相似操作依操作次序标以[B]、[C]……;
S503.当用户点击存句型命令按钮后,对挖去句舱所剩部份作为句型,进行格式检查,通过后以源语结构次序从左到右以{1}、{2}、{3}替换原以操作次序[A]、[B]、[C]的标注,目语以句舱语意相应标号相同,最后分别存入句型库相应的源语句型字段和目语句型字段;
S504.如果当前源语句、目语句太短,不便以上操作划分出句型、旬舱,用户没有点击挖句型而直接点击存句型命令按钮时,把当前源语、目语句子作为小习语,分别存入习语库相应字段;
S505.将读入的源语句对号入座地套入源语句型,依次取出句舱内容,查询意群串库,取与目语句一致的解释确定为当前句舱的首、尾点以及当前句舱内容,用型例结合型式显示,当前句舱全部匹配完成后,接受用户确定或纠正,然后复制当前源语的句舱标号作为目语当前句舱标号,直至完成全句的类似操作;
S506.当用户点击存句型命令按钮后,抽出目语句型,进行格式检查,通过后存入句型库与当前源语句型相同记录的目语句型字段;
S507.将当前源语、目语句例分别套入当前源语、目语句型,依次检查每个句舱内容是否超出简单句舱的规定,如果超出将当前句舱的源语、目语上下行显示,接受用户挖舱眼操作;
S508.当用户点击挖舱眼命令按钮后,在源语句舱和目语句舱用户点击的两个至少相隔一个词条的点作为一个舱眼,挖去其中内容,标以[A],相似操作依操作次序标以[B]、[C]……;
S509.当用户点击存舱模命令按钮后,对挖去舱眼所剩部份作为舱模,进行格式检查,通过后以源语结构次序从左到右以[1]、[2]、[3]替换原以操作次序[A]、[B]、[C]的标注,目语以舱眼语意相应标号相同,最后分别存入舱模库相应的源语舱模字段和目语舱模字段;
S510.清除制作句型、舱模的相关显示,进行判别返回调用者或读入下一个源语句子,接续步骤S1。
7.根据权利要求1所述的多语种专业翻译方法,其特征是在运行步骤S1前有库扩充命令按钮在待命、运行步骤S1、S2、S3、S4、S5的过程中还有扩查词命令按钮在待命,进一步包括如下步骤:
s01.当库扩充命令按钮被点击;
s02.搜索记忆库、取出最高频度记录的源、目语句例对,当前记录作删除标志,跳转S5作句型;
s03.继续s02.步骤,仅当库扩充命令按钮再次被点击,返回到运行步骤S1前断点;
s04.当用户选定源语一条或若干词串后点击扩查词命令按钮,进行判断;
s05.当所选是若干条词串,以它们的各种可能排列查询意群串库,把它们的排列和同目语的所有解释列表给出,同时显示选复、改馈复命令按钮;
s06.当用户点击列表中某项后点击了选复命令按钮,把源语相应词条以“-”连成复词,以该项目语解释置换原有解释,
s07.当修改了列表中某项后点击了改馈复命令按钮,将该修改项作为新增复词及其解释存入意群串库的复词分库;
s08.当所选是一条词串,先查询不规则词表,再根据词尾变化规律作出可能的变形和原形词条,以它们分别查询意群串库,把源语词条的原形或变形和同它们的目语所有解释列表给出,同时显示选单、改馈单命令按钮;
s09.当用户点击列表中某项后点击了选单命令按钮,以该项目语解释置换原有解释;
s10.当用户修改了列表中某项后点击了改馈单命令按钮,将该修改项作为新增解释存入意群串库的单词分库,判断并返回命令按钮被击中断点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910129096.0A CN101510194B (zh) | 2009-03-15 | 2009-03-15 | 一种基于语句构件的多语种专业翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910129096.0A CN101510194B (zh) | 2009-03-15 | 2009-03-15 | 一种基于语句构件的多语种专业翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101510194A CN101510194A (zh) | 2009-08-19 |
CN101510194B true CN101510194B (zh) | 2015-09-09 |
Family
ID=41002597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910129096.0A Expired - Fee Related CN101510194B (zh) | 2009-03-15 | 2009-03-15 | 一种基于语句构件的多语种专业翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101510194B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609409B (zh) * | 2012-02-13 | 2014-11-05 | 浙江飞常哆科技有限公司 | 一种在线翻译方法、装置、系统及服务器 |
CN102929865B (zh) * | 2012-10-12 | 2015-06-03 | 广西大学 | 一种用于中文和东盟各国语言互译的pda翻译系统 |
CN103106195B (zh) * | 2013-01-21 | 2018-12-11 | 刘树根 | 表意构件识别提取和基于表意构件的机译人校互动翻译方法 |
CN103218353B (zh) * | 2013-03-05 | 2018-12-11 | 刘树根 | 母语人士学用其它语言文字之人工智能实现方法 |
CN105677643A (zh) * | 2016-03-14 | 2016-06-15 | 张广睿 | 一种人工结合机器的笔译方法 |
CN106250373A (zh) * | 2016-08-04 | 2016-12-21 | 安徽云商信息科技有限公司 | 自动识别语言的快速翻译机 |
CN107632982B (zh) * | 2017-09-12 | 2021-11-16 | 郑州科技学院 | 语音控制外语翻译设备用的方法和装置 |
CN111507113B (zh) * | 2020-03-18 | 2021-03-02 | 北京捷通华声科技股份有限公司 | 一种机器辅助人工翻译的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0981568A (ja) * | 1995-09-11 | 1997-03-28 | Matsushita Electric Ind Co Ltd | 機械翻訳用の中国語生成装置 |
CN101131689A (zh) * | 2006-08-22 | 2008-02-27 | 苗玉水 | 汉语外语句型转换双向机器翻译方法 |
CN101206643A (zh) * | 2006-12-21 | 2008-06-25 | 中国科学院计算技术研究所 | 一种融合了句型模板和统计机器翻译技术的翻译方法 |
CN101246474A (zh) * | 2008-02-18 | 2008-08-20 | 刘树根 | 语句构件装置、构件制作和基于该构件的母语读外文方法 |
-
2009
- 2009-03-15 CN CN200910129096.0A patent/CN101510194B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0981568A (ja) * | 1995-09-11 | 1997-03-28 | Matsushita Electric Ind Co Ltd | 機械翻訳用の中国語生成装置 |
CN101131689A (zh) * | 2006-08-22 | 2008-02-27 | 苗玉水 | 汉语外语句型转换双向机器翻译方法 |
CN101206643A (zh) * | 2006-12-21 | 2008-06-25 | 中国科学院计算技术研究所 | 一种融合了句型模板和统计机器翻译技术的翻译方法 |
CN101246474A (zh) * | 2008-02-18 | 2008-08-20 | 刘树根 | 语句构件装置、构件制作和基于该构件的母语读外文方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101510194A (zh) | 2009-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101510194B (zh) | 一种基于语句构件的多语种专业翻译方法 | |
Nakov | On the interpretation of noun compounds: Syntax, semantics, and entailment | |
CN103106195B (zh) | 表意构件识别提取和基于表意构件的机译人校互动翻译方法 | |
CN102007490B (zh) | 语句构件制作方法和母语读外文并生成世界文方法 | |
US8478581B2 (en) | Interlingua, interlingua engine, and interlingua machine translation system | |
RU2509350C2 (ru) | Способ семантической обработки естественного языка с использованием графического языка-посредника | |
CN102622342A (zh) | 中间语系统、中间语引擎、中间语翻译系统和相应方法 | |
CN101556574A (zh) | 基于用户意愿的计算机智能起名 | |
Hlava | The taxobook: Principles and practices of building taxonomies, part 2 of a 3-part series | |
CN102394061A (zh) | 基于语义检索的文语转换方法及系统 | |
EP2184685A1 (en) | Method for semantic processing of natural language using graphical interlingua | |
Goddard et al. | Lexicographic research on Australian Aboriginal languages 1968-1993 | |
CN103218353B (zh) | 母语人士学用其它语言文字之人工智能实现方法 | |
Jenstad et al. | Shakespeare's language in digital media: old words, new tools | |
Polley | Metaphors for happiness in English and Mandarin Chinese | |
CN101436179A (zh) | 文本转换方法及装置 | |
CN102043849A (zh) | 表意构件电子词典系统及其实现方法 | |
Faaß et al. | A general lexicographic model for a typological variety of dictionaries in African languages | |
Bloksma et al. | User requirements and functional specification of the eurowordnet project | |
Ahmad | People centered HMI’s for deaf and functionally illiterate users | |
Chamoreau | Equative and similative constructions in Chibchan languages | |
CN1117158A (zh) | 辅助汉文双拼音义码及其键盘方案 | |
Anderl et al. | Newsletter# 01: Database of medieval Chinese texts (DMCT) | |
Wang | An investigation of challenges in machine translation of literary texts: the case of the English–Chinese language pair | |
Wei | Terminology and ontology for cultural heritage: application to chinese ceramic vessels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150909 Termination date: 20180315 |