CN101685440A - 应用路径信息改进结构化文档的翻译的方法和系统 - Google Patents

应用路径信息改进结构化文档的翻译的方法和系统 Download PDF

Info

Publication number
CN101685440A
CN101685440A CN200810161441A CN200810161441A CN101685440A CN 101685440 A CN101685440 A CN 101685440A CN 200810161441 A CN200810161441 A CN 200810161441A CN 200810161441 A CN200810161441 A CN 200810161441A CN 101685440 A CN101685440 A CN 101685440A
Authority
CN
China
Prior art keywords
translation
translated
structured document
routing information
intermediate form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810161441A
Other languages
English (en)
Inventor
申震杰
王芳
杨晓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN200810161441A priority Critical patent/CN101685440A/zh
Publication of CN101685440A publication Critical patent/CN101685440A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种用于翻译结构化文档的方法及系统。所述方法包括如下步骤:获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。

Description

应用路径信息改进结构化文档的翻译的方法和系统
技术领域
本发明涉及计算机系统,特别涉及包含结构化信息和可翻译元件的文档的翻译。
背景技术
包含结构化信息和可翻译元件的文档已知有XML(可扩展标记语言)文档。本领域的技术人员已经知道XML是文档的一种元语言。XML提供了一种定义包含例如文本和图片等内容的结构信息的方式,以及如何使用这种内容的指示。XML具有灵活性因此可用于描述各种数据类型的结构,因此已成为例如互联网上各种数据类型进行交换的通用格式。
XML文档在结构化信息中通常包括可翻译元件(例如元素或属性),尤其在源文件中。随着互联网的普及,经常希望本地化XML文档,将其中的可翻译元件从源文件翻译成另一种选定的语言。
附图7示意性地示出了常规的XML翻译过程。如附图标记701所示从原始XML文档获得提纲文件和XLIFF文件,具体地对原始XML文档进行文本提取,使用过滤程序从布局数据中分离出可以翻译的文本,分别产生提纲和XLIFF文件。过滤程序将不可翻译的部分保存在提纲文件中,所有可翻译的句子在提纲文件中被替换为特殊的记号(例如%%%1%%%,%%%2%%%)。而提取出的可翻译元件(即文本片段)保存在XLIFF文件中的各个翻译单元元素中(<trans-unit>)。提纲文件中使用的标记(例如%%%1%%%,%%%2%%%)作为对应的翻译单元的ID属性,以简化提纲文件和XLIFF文件之间的映射。在准备好XLIFF文件之后,将该文件发送给专业翻译人员进行翻译(见附图标记702)。如附图标记703所示,利用提纲文件中的标记与翻译后的XLIFF文件中翻译单元ID属性之间的映射,合并翻译后的XLIFF文件与提纲文件,形成目标输出格式的翻译文档。
常规的XML翻译过程由于需要在XML提纲文件标记可翻译元件,因此开销很大。同时在合并翻译后的XLIFF与提纲文件时也需要首先遍历XML提纲文件寻找可翻译元件再遍历XLIFF寻找具有相同ID的翻译后文本,同样开销很大。
发明内容
本发明的目的是提供一种新颖的用于翻译包含结构化信息的文档的方法和系统。
根据本发明的一个方面,一种用于翻译结构化文档的方法,包括如下步骤:
获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;
使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及
在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。
相应地,一种用于翻译结构化文档的系统,包括:
获取装置,被配置成获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;
翻译单元产生器,被配置成使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及
转换装置,被配置成在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。
相比现有技术,本发明可以获得如下至少一种有益效果:
本发明的方法和系统由于单独地采用了用于指定各个可翻译元件在结构化文档中的路径信息的配置文件,则可从结构化文档提取可翻译元件直接形成待翻译的中间格式文件,免除了产生提纲文件以及在结构化文档中标记可翻译元件的开销。
另外,由于中间格式文件采用指定各个可翻译元件在结构化文档中的路径信息作为翻译单元的ID参数,翻译后的中间格式文件可以直接与原结构化文档合并,因此免除了现有技术中在合并时需要遍历提纲文件和中间格式文件的需要,减少了文档翻译的开销。
同时由于本发明并未产生标记了可翻译元件的提纲文件,因此不会影响结构化文档的可读性。
进而由于现有技术中的提纲文件使用标记代替可翻译元件,I18N/L10N数据会与可翻译元件的数据相混合。本发明由于无需再单独地生成提纲文件则避免这种情况。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。
图1是示出可实现本发明的分布式数据处理系统的框图。
图2是示出根据本发明第一实施例的方法的流程图。
图3是示出根据本发明第一实施例的方法的示意图。
图4是示出根据本发明第二实施例的方法的示意图。
图5是示出根据本发明第三实施例的方法的示意图。
图6是示出根据本发明的系统的框图。
图7示出了常规的XML翻译过程。
具体实施方式
下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
系统体系
现在参考附图,特别是图1,描述了可实现本发明的分布式数据处理系统的框图。分布式数据处理系统100是可实现本发明的计算机网络。分布式数据处理系统100包含网络102,网络102是用于在不同的设备和分布式数据处理系统100内连接到一起的计算机之间提供通信链接的媒介。
在所描述的例子中,服务器104与存储器106一起连接到网络102。此外,例如工作站、个人计算机、手机、PDA等的客户端108、110和112也被连接到网络102。在所描述的例子中,服务器104向客户端108、110和112提供如引导文件的数据、操作系统以及应用程序。分布式数据处理系统100可包括另外的服务器、客户端以及其它未显示的设备。在所描述的例子中,分布式数据处理系统100是因特网,网络102表示对使用TCP/IP协议套件来彼此通信的网络以及网关的集合。当然,分布式数据处理系统100还可被实现为不同类型的网络。
企图将图1作为例子,而不是作为本发明所述过程的结构限制。在不偏离本发明精神和范围的条件下,可对图1所示系统作出许多更改。
本发明可实现为如图1所示的服务器104的数据处理系统。该数据处理系统可以是包括连接到系统总线的多个处理器的对称多处理器(SMP)系统。亦可使用单处理器系统。本发明还可实现为图1中客户端计算机的数据处理系统。
第一实施例
本发明提供了一种用于不同语种结构化文档的转换技术。更具体地,本发明公开了一种用于翻译结构化文档的方法。附图2示出了该方法200的流程图。
参考附图2,在步骤S201开始后,首先获取包括至少一个路径信息的配置文件(步骤S202),所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径。
使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件(步骤S203),并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分(步骤S204),以将提取出的所述可翻译元件及其ID参数组成翻译单元(步骤S205),此时可选择地由所述可翻译元件及其ID参数组成翻译单元直接形成待翻译的中间格式文件。
在步骤S206将准备好的中间格式文件发送给专业翻译人员由专业翻译人员将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件。考虑到实际的翻译过程可能由其它人完成,因此实际的翻译过程实质上并不构成本发明方法的步骤。
随后在步骤S207使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件(步骤S208)。
由此根据本发明第一实施例的方法由于单独地采用了用于指定各个可翻译元件在结构化文档中的路径信息的配置文件,则可从结构化文档提取可翻译元件直接形成待翻译的中间格式文件,免除了产生提纲文件以及在结构化文档中标记可翻译元件的开销,也免除了现有技术中在合并时需要遍历提纲文件和中间格式文件的需要。
结构化文档众所周知有XML、SGML等文档,均可使用XLIFF文件作为中间格式文件进行本地化翻译。以下以XML作为结构化文档、XLIFF作为中间格式文件为例,结合附图3进行进一步描述本发明第一实施例的优选实例。
首先获得包括至少一个例如为Xpath信息的路径信息的配置文件(Config XML),该配置文件是事先由熟悉XML文档的编程人员编写的,其中路径信息指定了(例如任何文本片段的)可翻译元件(例如A title)在原始XML文档中的路径(例如xpath=‘//title’translate=‘true’/>)。
随后如附图标记301所示,基于原始XML文档和配置文件形成待翻译的XLIFF文件。具体地,使用所述配置文件中的路径信息(例如xpath=‘//title’translate=‘true’/>)从原始XML文档中提取所述可翻译元件(例如A title),并使用所述路径信息(例如xpath=‘//title’translate=‘true’/>)作为所述可翻译元件的ID参数(例如trans-unit id=‘//title_1)的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元(例如<trans-unit>),此时可以使用多个由可翻译元件及其ID参数组成翻译单元直接形成待翻译的XLIFF文件。
如附图标记302所示,将所述翻译单元中的可翻译元件(例如A title)翻译成选定的另一语种以产生翻译后的元件(在此为与“A title”对应的“标题”),获得翻译后的XLIFF文件。
随后如附图标记303所示,使用所述翻译后的XLIFF文件中翻译单元(例如<trans-unit>)中的ID参数(例如trans-unit id=‘//title_1’)中的路径信息(例如‘//title’)来定位原始XML文档中的可翻译元件,并用所述翻译后的元件(在此为“标题”)替换原始XML文档中对应的可翻译元件(例如A title)。通过对各个翻译单元的替换以获得翻译后的XML文档。
第二实施例
考虑到有些结构化文档以前进行过翻译,例如已经有对应的经翻译的已有中间格式文件。本发明的第二实施例还提出了基于从结构化文档提取出的可翻译元件和路径信息对经翻译的已有中间格式文件进行更新,以获得待翻译的中间格式文件。
为此可在获得可翻译元件后,首先判断是否已经存在与所述结构化文档对应的经翻译的中间格式文件;如果没有则按照本发明的第一实施例直接基于从结构化文档中提取出的所述可翻译元件及其ID参数形成待翻译的中间格式文件。
如果判断存在与所述结构化文档相对应的经翻译的中间格式文件,则基于所述可翻译元件及其路径信息更新所述经翻译的中间格式文件以获得待翻译的中间格式文件。
具体地,针对经翻译的中间格式文件查询是否包含具有与所述可翻译元件相同的路径信息的且经翻译的翻译单元;如果没有则需要将由可翻译元件及其ID参数组成的翻译单元添加到所述经翻译的中间格式文件中,以形成更新的中间格式文件作为待翻译的中间格式文件。
如果所述经翻译的中间格式文件包含具有与所述可翻译元件相同的路径信息的且经翻译的翻译单元,则进一步比较从结构化文档提取出的可翻译元件与所述经翻译的翻译单元中的可翻译元件是否相同。相同的话说明所述可翻译元件已经过翻译,则保留所述经翻译的翻译单元。如果不相同则用由从结构化文档提取出的可翻译元件及其ID参数组成的翻译单元替换所述经翻译的翻译单元,以形成更新的中间格式文件作为待翻译的中间格式文件。
以下结合附图4对本发明第二实施例的优选实例进行描述。考虑到Xpath路径信息可分为绝对路径信息和相对路径信息并且利用一条相对路径信息可能会提取出至少1个可翻译元件(文本片段),因此该优选实例对使用所述配置文件中的一个路径信息从XML文档中提取出多个可翻译元件并且进一步获得更新的XLIFF的情况进行说明。
在步骤S401读取配置文件中的一个路径信息后,从XML文档中提取出多个可翻译元件(步骤S402);同时判断是否存在已有XLIFF文件并查询具有相同的路径信息下的翻译单元(步骤S403)。随后开始比较来自原始XML的可翻译元件与来自已有XLIFF文件的可翻译元件。
A.如果XML元件计数=0且XLIFF元件计数>0(步骤S414),则配置文件的路径信息不可用并且应从XLIFF文件删除该翻译单元(步骤S415)。再判断是否结束配置文件。如果判断结束配置文件(步骤S407),则输出更新的XLIFF文件(步骤S408),否则继续配置文件中的下一条路径信息。
B.如果XML元件计数>0且XLIFF元件计数=0(步骤S424),则XLIFF文件不包括具有相同路径信息的单元,将所述XML可翻译元件排序(步骤S425)并将包括所述XML可翻译元件的翻译单元添加到XLIFF文件中(步骤S426)。再判断是否结束配置文件。如果判断结束配置文件(步骤S407),则输出更新的XLIFF文件(步骤S408),否则继续配置文件中的下一条路径信息。
C.如果XML可翻译元件计数>0且XLIFF可翻译元件计数>0(步骤S434),则使XML的多个可翻译元件例如以首个单词的字母顺序排序为列表并与XLIFF文件中已经过按相同规则排序的可翻译元件进行比较(步骤S435)。按照如下方式使XLIFF可翻译元件与XML可翻译元件相匹配(步骤S436):
保留具有与XML可翻译元件之一相同的XLIFF可翻译元件的翻译单元;
从XLIFF文件中删除具有与XML可翻译元件中任意一个均不同的XLIFF可翻译元件的翻译单元;以及
将包括与XLIFF可翻译元件任意一个均不同的XML可翻译元件的翻译单元添加到XLIFF文件中。
在以上用于更新已有中间格式文件的第二实施例的优选实例,在使用配置文件中的一个路径信息从结构化文档中提取出多个可翻译元件的情况下进一步使所述多个可翻译元件例如以首个单词的字母顺序排序,以便与已有中间格式文件相比对。这样可以用结构化文档中提取出的可翻译元件逐个地比对已有中间格式文件的可翻译元件,根本无需遍历。
可选择地也可以采用其它的规则对根据同一路径信息从结构化文档中提取出的多个可翻译元件排序,并使中间格式文件的相应翻译单元相应地排序。当然也可以不对从结构化文档中提取出的多个可翻译元件进行排序,并且中间格式文件的相应翻译单元也无需排序,这样当进行上述的比对时就需要遍历。
第三实施例
如上所述Xpath路径信息可分为绝对路径信息和相对路径信息并且利用一条相对路径信息可能会提取出至少1个可翻译元件(文本片段)。在这种情况下仅用路径信息作为ID参数无法唯一地识别中间格式文件中的翻译单元,因此中间格式文件中的翻译单元的ID参数还需包括唯一的标识符,例如通过标识分配函数分配的标识符,或者更简单的如编号的数字或字符,以便区别具有相同路径信息的多个翻译单元。
以下本发明的第三实施例涉及从翻译后的中间格式文件生成翻译后的文档的逆转换步骤,其中以中间格式文件中的翻译单元的ID参数包括路径信息和编号的数字为例。
参考附图5,在完成对中间格式文件的翻译之后,加载结构化文档步骤S501;同时获取对应的中间格式文件(步骤S502)并加载中间格式文件(步骤S503)。然后从中间格式文件读取翻译单元(步骤S504),将翻译单元的ID参数分解为路径信息和编号的数字(步骤S505)。基于该路径信息,从中间格式文件收集具有相同路径信息的翻译单元(步骤S506),在此实例中有多个翻译单元具有相同的路径信息。同样基于该路径信息,从结构化文档中选择具有相同路径信息的可翻译元件并使其排序(步骤S507)。
由于中间格式文件的翻译单元与来自结构化文档的可翻译元件以相同的规则排序,因此无需遍历即可使用翻译单元中的翻译后元件逐个替换结构化文档中的可翻译元件(步骤S508)。在步骤S509判断中间格式文件是否结束,如果结束则输出翻译后的结构化文档(步骤S510)。
本发明的系统
相应地,图6示出了一种用于翻译结构化文档的系统600,具体包括:
获取装置610,被配置成获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;
翻译单元产生器620,被配置成使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及
转换装置630,被配置成在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。
其中还包括可包含翻译单元产生器620的中间格式文件形成装置640,被配置为可基于所述由提取出的所述可翻译元件及其ID参数组成翻译单元来形成待翻译的中间格式文件;或者被配置为接收与所述结构化文档对应的经翻译的已有中间格式文件,并且基于所述可翻译元件及其路径信息更新所述经翻译的中间格式文件以获得待翻译的中间格式文件。
其它实施例
对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算设备(包括处理器、存储介质等)或者计算设备的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的,因此在这里省略了详细说明。
因此,基于上述理解,本发明的目的还可以通过在任何信息处理设备上运行一个程序或者一组程序来实现。所述信息处理设备可以是公知的通用设备。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者设备的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质,因此也没有必要在此对各种存储介质一一列举。
在本发明的系统和方法中,显然,各部件或步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上描述了本发明的优选实施方式。本领域的普通技术人员知道,本发明的保护范围不限于这里所公开的具体细节,而可以具有在本发明的精神实质范围内的各种变化和等效方案。

Claims (13)

1.一种用于翻译结构化文档的方法,包括如下步骤:
获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;
使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及
在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。
2.根据权利要求1所述的用于翻译结构化文档的方法,其中,在提取所述可翻译元件的步骤之后,还包括:
判断是否已经存在与所述结构化文档对应的经翻译的中间格式文件;
如果没有与所述结构化文档相对应的经翻译的中间格式文件,则基于所述由提取出的所述可翻译元件及其ID参数组成翻译单元来形成待翻译的中间格式文件。
3.根据权利要求2所述的用于翻译结构化文档的方法,其中,如果存在与所述结构化文档相对应的经翻译的中间格式文件,则基于所述可翻译元件及其路径信息更新所述经翻译的中间格式文件以获得待翻译的中间格式文件。
4.根据权利要求3所述的用于翻译结构化文档的方法,其中,所述基于所述可翻译元件及其路径信息更新所述经翻译的中间格式文件以获得待翻译的中间格式文件的步骤包括:
查询所述经翻译的中间格式文件是否包含具有与所述可翻译元件的路径信息相同的路径信息的且经翻译的翻译单元;
如果所述经翻译的中间格式文件不包含具有与所述可翻译元件相同路径信息的且经翻译的翻译单元,则将所述由可翻译元件及其ID参数组成的翻译单元添加到所述经翻译的中间格式文件中,以形成更新的中间格式文件作为待翻译的中间格式文件。
5.根据权利要求4所述的用于翻译结构化文档的方法,其中,如果所述经翻译的中间格式文件包含具有与所述可翻译元件相同的路径信息的且经翻译的翻译单元,则进一步比较所述从结构化文档提取出的可翻译元件以及所述经翻译的翻译单元中的可翻译元件;
如果所述从结构化文档提取出的可翻译元件与所述经翻译的翻译单元中的可翻译元件相同,则将所述经翻译的翻译单元保留在所述经翻译的中间格式文件中,否则用所述由从结构化文档提取出的可翻译元件及其ID参数组成的翻译单元替换所述经翻译的翻译单元,以形成更新的中间格式文件作为待翻译的中间格式文件。
6.根据权利要求5所述的用于翻译结构化文档的方法,其中,
所述使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件的步骤包括:使用所述配置文件中的一个路径信息从所述结构化文档中提取出多个可翻译元件,
所述基于所述可翻译元件及其路径信息更新所述经翻译的中间格式文件以获得待翻译的中间格式文件的步骤包括:如果所述经翻译的中间格式文件包含具有与所述多个可翻译元件相同的路径信息且经翻译的翻译单元,则进一步比较所述多个可翻译元件以及所述查询到的经翻译的翻译单元中的可翻译元件,并按照如下方式更新所述中间格式文件作为待翻译的中间格式文件:
保留具有与所述多个可翻译元件之一相同的可翻译元件的经翻译的翻译单元;从所述中间格式文件中删除具有与所述多个可翻译元件中任意一个均不同的可翻译元件的经翻译的翻译单元;以及将包括与所述经翻译的翻译单元中的可翻译元件任意一个均不同的可翻译元件的翻译单元添加到所述中间格式文件中。
7.根据权利要求1所述的用于翻译结构化文档的方法,其中,所述使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件的步骤包括:使用所述配置文件中的一个路径信息从所述结构化文档中提取出多个可翻译元件;和使所述多个可翻译元件排序。
8.根据权利要求7所述的用于翻译结构化文档的方法,其中,所述使用所述路径信息作为所述可翻译元件的ID参数的至少一部分的步骤包括:按照所述多个可翻译元件的排序顺序分别为其各自的路径信息添加编号的数字或字符,并使用所述路径信息及添加的数字或字符作为所述各个可翻译元件的ID参数。
9.根据权利要求7所述的用于翻译结构化文档的方法,其中,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件的步骤包括:
从所述翻译单元中的ID参数中获取所述路径信息;
收集具有相同路径信息的多个翻译单元;
使用所述路径信息从所述结构化文档中选择具有相同路径信息的多个可翻译元件;以及
将所述从结构化文档中选择出的可翻译元件排序,以便与所述翻译单元相对应。
10.根据权利要求1所述的用于翻译结构化文档的方法,其中,所述结构化文档是XML文档,所述配置文件中的路径信息是Xpath信息。
11.根据权利要求2所述的用于翻译结构化文档的方法,其中,所述中间格式文件是XLIFF文件。
12.一种用于翻译结构化文档的系统,包括:
获取装置,被配置成获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;
翻译单元产生器,被配置成使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及
转换装置,被配置成在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。
13.根据权利要求12所述的用于翻译结构化文档的系统,其中还包括中间格式文件形成装置,被配置为基于所述由提取出的所述可翻译元件及其ID参数组成翻译单元来形成待翻译的中间格式文件;或者被配置为接收与所述结构化文档对应的经翻译的已有中间格式文件,并且基于所述可翻译元件及其路径信息更新所述经翻译的中间格式文件以获得待翻译的中间格式文件。
CN200810161441A 2008-09-25 2008-09-25 应用路径信息改进结构化文档的翻译的方法和系统 Pending CN101685440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810161441A CN101685440A (zh) 2008-09-25 2008-09-25 应用路径信息改进结构化文档的翻译的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810161441A CN101685440A (zh) 2008-09-25 2008-09-25 应用路径信息改进结构化文档的翻译的方法和系统

Publications (1)

Publication Number Publication Date
CN101685440A true CN101685440A (zh) 2010-03-31

Family

ID=42048604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810161441A Pending CN101685440A (zh) 2008-09-25 2008-09-25 应用路径信息改进结构化文档的翻译的方法和系统

Country Status (1)

Country Link
CN (1) CN101685440A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783967A (zh) * 2011-11-03 2018-03-09 微软技术许可有限责任公司 用于自动化的文档翻译的技术
CN109101496A (zh) * 2018-06-13 2018-12-28 广州市信景技术有限公司 一种图文信息的繁体和简体翻译方法
CN110232193A (zh) * 2019-04-28 2019-09-13 清华大学 一种结构化文本翻译方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783967A (zh) * 2011-11-03 2018-03-09 微软技术许可有限责任公司 用于自动化的文档翻译的技术
CN109101496A (zh) * 2018-06-13 2018-12-28 广州市信景技术有限公司 一种图文信息的繁体和简体翻译方法
CN110232193A (zh) * 2019-04-28 2019-09-13 清华大学 一种结构化文本翻译方法及装置
CN110232193B (zh) * 2019-04-28 2020-08-28 清华大学 一种结构化文本翻译方法及装置

Similar Documents

Publication Publication Date Title
KR102317535B1 (ko) 소프트웨어 개발 키트로 데이터 추적을 구현하는 방법 및 시스템
US8965751B2 (en) Providing multi-lingual translation for third party content feed applications
CN102768636B (zh) 一种日志解析方法及装置
EP0762299A1 (en) Multi-language compatible information system
CN111427561A (zh) 业务代码的生成方法、装置、计算机设备和存储介质
CN102647414A (zh) 协议解析方法、设备及系统
CN103389895A (zh) 一种前端页面的生成方法及系统
US20190272169A1 (en) System and method for generating api devlopment code for integrating platforms
US20130091416A1 (en) Method for establishing a relationship between semantic data and the running of a widget
Di Cosmo Archiving and referencing source code with Software Heritage
CN103530135A (zh) 代理服务生成装置和代理服务生成方法
CN108614808B (zh) Xml文档的排版方法及排版装置
CN101944133B (zh) 一种xml元数据对象化解析方法及系统
CN101685440A (zh) 应用路径信息改进结构化文档的翻译的方法和系统
US7765188B2 (en) Taxonomy editor
CN102999329A (zh) 基于可扩展标记语言映射配置的活动目录接口开发方法
CN110555178B (zh) 数据代理方法及装置
CN109725927B (zh) 代码管理系统的同步方法及装置、存储介质及终端
CN110471968A (zh) Etl任务的发布方法、装置、设备及存储介质
US11416491B1 (en) Tags and permissions in a content management system
CN115905274A (zh) 数据处理的方法、装置、电子设备及介质
CN113641523A (zh) 一种日志处理方法及装置
CN111178025A (zh) 核电站运行导则的编辑方法、装置、计算机设备及存储介质
AU2018313995B2 (en) Systems and methods for providing globalization features in a service management application interface
Raţiu et al. Taming Cross-Tool Traceability in the Wild

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20100331

C20 Patent right or utility model deemed to be abandoned or is abandoned