CN107783967A - 用于自动化的文档翻译的技术 - Google Patents

用于自动化的文档翻译的技术 Download PDF

Info

Publication number
CN107783967A
CN107783967A CN201711135156.0A CN201711135156A CN107783967A CN 107783967 A CN107783967 A CN 107783967A CN 201711135156 A CN201711135156 A CN 201711135156A CN 107783967 A CN107783967 A CN 107783967A
Authority
CN
China
Prior art keywords
translated
document
paragraph
text
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711135156.0A
Other languages
English (en)
Inventor
S·康迪
C·里德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN107783967A publication Critical patent/CN107783967A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

用于文档自动翻译的技术。描述了用于自动化的文档翻译的技术。一种装置可包括可翻译内容组件、中间组件、以及翻译管理组件。可翻译内容组件一般可用于从原始文档中提取可翻译内容,并基于所提取的经翻译内容来构建经翻译文档,经翻译文档包括原始文档的从第一语言到第二语言的翻译。中间组件可用于根据所提取的可翻译内容创建一个或多个中间文档并从一个或多个经翻译的中间文档提取经翻译内容。翻译管理组件可用于将一个或多个中间文档传送到翻译服务以供从第一语言翻译成第二语言,并从翻译服务接收一个或多个经翻译的中间文档。对其他实施例也予以描述并要求保护。

Description

用于自动化的文档翻译的技术
本申请是申请日为2012年11月2日并且申请号为201210435083.8的中国专利申请的分案申请。
技术领域
本发明涉及用于自动化的文档翻译的技术。
背景技术
语言之间的自动翻译继续变得日益可靠,使得自动翻译服务日益满足对翻译的日益增加的需求。给定诸如超文本标记语言(HTML)等通用标准的文档,自动翻译服务可以在瞬息间产生经翻译的HTML文档。然而,除HTML可能允许的之外,诸如文字处理程序等文档创建和编辑程序还允许对文档布局和样式的相当多的控制。尽管一些编辑程序可允许将文档转换成HTML格式,从而使得经转换的文档适于传送到自动翻译服务,但大量的布局和样式信息可能丢失,使得接收到的经翻译HTML文档丢失了来自原始非HTML文档的所需布局和样式信息。本发明的改进正是针对这些和其他考虑事项而需要的。
发明内容
下面提供了简化的发明内容,以便提供对此处所描述的一些新颖实施例的基本理解。本发明内容不是广泛的概览,并且它不旨在标识关键/重要元素或描绘本发明的范围。其唯一目的是以简化形式呈现一些概念,作为稍后呈现的更具体实施例的序言。
各实施例一般涉及用于自动化的文档翻译的技术。具体而言,一些实施例涉及用于自动化的文档翻译的技术,其产生保留来自原始文档的布局和样式信息的经翻译文档。对布局和样式信息的这一保留允许产生包含在现代编辑程序中可用的全范围的丰富的布局和样式选项的高保真度的经翻译文档。
在一个实施例中,例如,一种装置可包括用于从原始文档提取可翻译内容的可翻译内容组件、用于根据所提取的可翻译内容来创建一个或多个中间文档的中间组件、以及用于将该一个或多个中间文档发送给翻译服务以从第一语言翻译成第二语言并从翻译系统接收一个或多个经翻译的中间文档的翻译管理组件。中间组件还可用于从一个或多个经翻译的中间文档提取经翻译内容,并且可翻译内容组件可用于基于所提取的经翻译内容来构造经翻译文档,该经翻译文档包括原始文档的从第一语言到第二语言的翻译。对其他实施例也予以描述并要求保护。
为了实现上述及相关目的,本文结合下面的描述和附图来描述某些说明性方面。这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。结合附图阅读下面的详细描述,其他优点和新颖特征将变得显而易见。
附图说明
图1示出了用于自动化的文档翻译的系统的实施例。
图2示出了为自动化的文档翻译系统选择翻译解析器的实施例。
图3B示出了自动化的文档翻译的第一逻辑流程的实施例。
图3A示出了自动化的文档翻译的第二逻辑流程的实施例。
图4示出了用于自动化的文档翻译的集中式系统的实施例。
图5示出了用于自动化的文档翻译的分布式系统的实施例。
图6示出了适用于自动化的文档翻译的计算架构的实施例。
图7示出了适用于自动化的文档翻译的通信架构的实施例。
具体实施方式
各实施例一般涉及用于自动化的文档翻译的技术。具体而言,一些实施例涉及用于自动化的文档翻译的技术,其产生与原始文档相同格式的、保留了布局和样式信息的经翻译文档。这使得使用自动翻译服务的过程更加容易并且提高了结果的有用性。如此,降低了将文档翻译成一个或多个另选语言的成本和复杂度。具体而言,尽管产生不同格式的经翻译文档(没有完全保留文档结构和文本格式化)的自动翻译技术可能在一定程度上对于尝试阅读用他们不能阅读的语言所写的接收到的文档的用户而言够用,但希望分发经翻译文档的用户可通过经翻译文档拥有原始文档的所有布局和样式信息而获益。并且甚至仅仅希望阅读接收到的文档的翻译的那些用户将通过经翻译文档在布局和样式方面具有与原始文档相同的保真度水平而获益。结果,各实施例可以改进自动化的文档翻译的实用性和用户体验。
现在将参考附图,全部附图中相同的附图标记用于指代相同的元素。在下面的描述中,为了进行说明,阐述了很多具体细节以便提供对本发明的全面理解。然而,显而易见,可以没有这些具体细节的情况下实施各新颖实施例。在其他情况下,以框图形式示出了各个公知的结构和设备以便于描述本发明。本发明将涵盖落入所要求保护的主题的精神和范围内的所有修改、等效方案和替换方案。
图1示出翻译系统100的框图。在一个实施例中,翻译系统100可包括具有一个或多个软件应用和/或组件的计算机实现的翻译系统100。尽管图1中示出的翻译系统100具有按照某种拓扑结构的有限数量的元素,但可以理解,系统100可以视给定实现的需要而包括按照替代拓扑结构的更多或更少元素。
翻译系统100可以实现用于自动化的文档翻译的各种技术。更具体而言,翻译系统100可接收原始文档105并产生经翻译文档155,其中经翻译文档155是原始文档105的从第一语言到第二语言的翻译。第一和第二语言可包括人类语言,如英语、朝鲜语、法语、西班牙语等等。
经翻译文档155可包括与原始文档105相同格式的文档,其中该格式可以指应用程序的文件格式。应用程序的示例可包括但不限于:为特定操作系统设计的互相关的客户机应用、服务器应用和web服务的生产力套件,诸如由美国华盛顿州雷蒙德的微软公司制作的用于MICROSOFTOFFICE生产力套件。客户机应用的示例可包括但不限于:MICROSOFT WORD、MICROSOFTMICROSOFTMICROSOFTMICROSOFTMICROSOFTMICROSOFTMICROSOFT PROJECT、MICROSOFT PUBLISHER、MICROSOFTWORKSPACE、MICROSOFTMICROSOFT OFFICE INTERCONNECT、MICROSOFT OFFICE PICTURE MANAGER、MICROSOFT SHAREPOINT DESIGNER、以及MICROSOFTLYNC。服务器应用的示例可包括但不限于:MICROSOFT SHAREPOINT SERVER、MICROSOFTLYNC SERVER、MICROSOFT OFFICE FORMS SERVER、MICROSOFT OFFICESERVER、MICROSOFT OFFICE PROJECT SERVER、MICROSOFT OFFICE PROJECT PORTFOLIO SERVER、以及MICROSOFT OFFICESERVER。web服务的示例可包括但不限于:MICROSOFT WINDOWSMICROSOFT OFFICE WEB APPLICATIONS、MICROSOFTOFFICE LIVE,MICROSOFT LIVE MEETING、MICROSOFT OFFICE PRODUCT WEB SITE、MICROSOFT UPDATE SERVER、以及MICROSOFT OFFICE 365。各实施例不限于这些示例。
经翻译文档155可拥有与原始文档105相同或类似的文档结构、格式化选项、样式、和/或文本格式化。文档结构可以指文档的布局,如文本元素的定位和属性。文档结构可以指诸如图像、嵌入的音频或视频、嵌入的电子表格、或表等非文本元素的存在、属性、以及定位。文档结构可以指文本元素和非文本元素的相对定位,如文本元素在表的单元格内的定位。文档结构一般可以指文档的除文本内容和该文本内容的格式化之外的任何属性。文本格式化可以指文本的格式化属性,如字体、大小、字样、以及颜色。文本格式化一般可以指将文本进行格式化的公知方法中的任一种方法。格式化选项或样式的示例可包括但不限于:字体、字体样式、字体大小、字体颜色、下划线样式、下划线颜色、效果、文字效果、文字填充、文字轮廓、轮廓样式、文字阴影、文字倒影、文字发光、文字边缘、文字三维格式等。各实施例不限于该上下文。
翻译系统100可以使用翻译服务140。翻译服务140可包括使用计算机程序来将文本从第一语言翻译成第二语言的机器实现的自动翻译服务。在一些实施例中,翻译服务140可包括用于翻译文档的基于因特网或web的商业服务。在其他实施例中,翻译服务140可包括由翻译系统100实现的本地翻译应用或服务。
翻译服务140可以请求提交给该服务的文档是特定格式,如标准化的中间格式,并且可产生同一标准化中间格式的文档。例如,翻译服务140只可被安排成接受用特定标记语言(如HTMl或可扩展标记语言(XML)格式)编写的文档。在一个实施例中,翻译服务器140可接收HTML格式的文档作为输入,并可产生HTML格式的翻译。翻译服务140可请求提交给该服务的文档是所定义的长度,如页面的最大长度或最大数量。翻译服务140可用于以中间格式来维持文档的文档结构和文本格式化设置,如HTML格式的文档可用的布局和样式选项。然而,中间格式(如HTML格式)可能不支持原始文档105的格式中可用的全范围的文档结构属性、布局选项、文本格式化选项、或通用样式选项。
尽管存在着用于将原始文档105转换成中间格式的文档的一般技术,如从Microsoft Word格式文档转换成HTML格式文档,但这一转换可能丢失来自原始文档105的文档结构属性、布局选项、文本格式化选项、或通用样式选项形式的视觉保真度。尽管存在着用于将中间格式文档转换成原始文档105的格式的文档的一般技术,如从HTML格式文档转换成Microsoft Word格式文档,但因为来自原始文档105的结构属性、布局选项、文本格式化选项、或通用样式选项在转换成中间格式时已经丢失,所以这些属性和选项不能通过这一转换过程来重建。如此,翻译系统100保留这些结构属性、布局选项、文本格式化选项、以及通用样式选项以重新引入到该文档来产生拥有与原始文档105相同的结构属性、布局选项、文本格式化选项、以及通用样式选项经翻译文档155是有利的。
将明白,尽管图1所示的实施例示出了翻译服务140处于翻译系统100外部,但在一些实施例中,翻译服务140可由与翻译系统100相同的设备、系统、服务、或实体来实现。
如在图1的实施例中所示,翻译系统100包括可翻译内容组件110、中间组件120、以及翻译管理组件130。可翻译内容组件110一般可用于从原始文档105中提取可翻译内容115,并基于所提取的经翻译内容145来构建经翻译文档155,经翻译文档155包括原始文档105的从第一语言到第二语言的翻译。中间组件120可用于根据所提取的可翻译内容115创建一个或多个中间文档125并从一个或多个经翻译的中间文档135提取经翻译内容145。翻译管理组件可用于将一个或多个中间文档125传送到翻译服务140以供从第一语言翻译成第二语言,并从翻译服务140接收一个或多个经翻译的中间文档135。
一般而言,可翻译内容组件110可用于从原始文档105提取可翻译内容115。可翻译内容115可以指原始文档105的文本内容连同与文档结构和文本格式化有关的信息,以用于最终重建原始文档105的文档结构和文本格式化的目的。在一个实施例中,用于从原始文档105提取可翻译内容115的技术可包括例如,标识原始文档105中的一个或多个段落、从该一个或多个段落中提取文本、生成所提取的文本的一个或多个样式标识符、标识一个或多个文本连续(run)、以及生成原始文档105中的内联对象的一个或多个注释标识符。
段落可以指布置在原始文档105中的具有相同属性并且处于文档105中的相同位置的文本部分。这些属性可以指除格式化之外的文档属性,并且可以指文本类型,如标题。在一文字处理文档中,一些段落可以是文字语法段落,它们是其间没有段落断开符的一个或多个连续句子。如果原始文档105包括表,则该表的每一单元格将包括分开的段落。一般而言,段落可以指可被当作位于原始文档105中的单个单元的文本部分。
样式标识符可以指段落内的文本格式化设置的唯一集合。例如,段落可包含用三种样式进行格式化的文本:(1)纯文本(例如,该文本没有特殊格式化);(2)粗体(例如,该文本以粗体显示);以及(3)斜体和粗体(例如,该文本以粗体和斜体显示)。因而,对于从文档提取的该文本将生成三个样式标识符,其中每一个样式标识符与该段落内的文本格式化设置的唯一集合之一相关联。在各实施例中,样式标识符可包括不直接指示文本格式化设置的数字、代码、或任何其他记号,其中确定正确的文本格式化设置取决于将样式标识符与文本格式化设置进行关联的翻译表。
段落还可被拆分或分割成一个或多个“连续(run)”,这可指该段落内的文本的共享相同的文本格式化的连续部分。连续因而可以是文本的具有与其相关联的相同样式标识符的连续部分。段落可包含比它所拥有的文本格式化的唯一集合更多的连续——可包含比所拥有的样式标识符更多的连续,因为例如在两种样式之间来回交替的文本序列可只使用两种样式来产生任意高数量的连续。
可翻译内容组件115可用于将所生成的样式标识符存储在如下的表中:所述表将每一段落的样式标识符与同该段落的该样式标识符相对应的文本格式化的集合相关联。通过这样做,连续可以与特定样式标识符相关联,而无需将对应的文本格式化设置的集合与该连续一起存储,因为该表将使得能够基于该段落和样式标识符来检索文本格式化设置的集合。如此,可翻译内容115通过将每一段落存储成具有相关联的样式标识符的连续的集合,可包含用于重建该段落的文本的文本格式化的足够信息,而无需特别存储该段落的文本的实际文本格式化选项。
内联对象可以是段落内的非文本对象,或段落内的不适于翻译但相对于段落的文本的特定部分来定位的任何对象。例如,一些段落可在特定词语之间包含内联图像或嵌入的公式,在翻译该文档期间这些词语可能移动。类似地,一些段落可包含附加到特定词语的脚注标记。对于每一这样的内联对象,生成对该内联对象的位置进行标记的注释标识符。如样式标识符一样,可以使用表来在注释标识符与对应于该注释标识符的内联对象之间进行映射。
一般而言,中间组件120可用于根据所提取的可翻译内容115来创建一个或多个中间文档125。在一些实施例中,中间文档135可以是HTML格式的文档,它包括原始文档105的文本连同按以下方式来对原始文档105的文本进行标记的标记标签:将该文本与来自原始文档105的所提取的可翻译内容115的相关段落、连续、样式标识符、以及注释标识符进行关联。生成中间文档125的过程可包括:创建每一所标识的段落的段落标签,标识每一段落的主要样式标识符,将每一段落与其主要样式标识符进行关联,标识每一段落中的中断样式(off-style)连续,创建每一中断样式连续的样式标签,以及根据注释标识符来创建注释标签。
段落标签可以指置于段落的两侧的一对标签,这些标签指示段落的开始和结束,如HTML格式所使用的。将明白,如上所述,所标识的段落中的一个或多个可不对应于语法意义上的典型段落,并且可改为指例如表的单个单元格的内容。将明白,尽管诸如HTML格式等中间格式可支持使用表,但中间组件120可不为来自原始文档105的最初处于表中的文本创建HTML表。相反,中间组件120可使用与用于任何其他段落相同的技术来为每一单元格的内容创建带标签段落,如通过创建各对段落标签来括出每一单元格的内容。可翻译内容115内的与该段落相对应的所提取的文本随后将被置于段落标签之间。
段落的主要样式标识符可以指与段落中的大部分字符相关联的样式标识符。主要样式标识符可以与该段落整体相关联,如通过将该主要样式标识符包括在内或以其他方式来作为该段落的段落标签之一的一部分。段落内的各中断样式连续可以指该段落内的不与主要样式标识符相关联的那些连续。原始段落内存在具有与该段落的主要样式不同的样式的连续。可为每一中断样式连续创建样式标签,该样式标签包括来自所提取的可翻译内容115的样式标识符,如存储在以下表中的样式标识符:该表在样式标识符与文本格式化的各集合之间进行映射。因为这些样式标签将只包含这些标识符,而不是直接的格式化选项,所以样式标签将因而不包含来自原始文档105的原始文本的文本格式化选项。相反,每一样式标签将包含可基于样式标识符表被映射到文本格式化的特定集合的样式标识符。如此,即使来自原始文档105的文本是中间格式(如HTML)所支持的诸如粗体等格式,中间文档125也将不包含诸如粗体或斜体等文本格式化选项。
中间组件120可用于根据所提取的可翻译内容115创建多个中间文档125,以容纳为翻译服务140的所定义数量或最大数量的页面。一些翻译服务可以对它们可处理的页面的数量进行限制。例如,如果翻译服务对机器翻译使用固定的记账率,则需要限制对该记账率可翻译的文本量。如此,大于该所设置文本长度(如长于指定页面数量)的文档在传送给翻译服务140之前需要被拆分成多个文档。将明白,多个中间文档125中的每一个可各自具有与之相关联的标识符,以帮助将该多个文档联合成单个文档或以其他方式捕捉该多个文档的经翻译内容的排序。
注释标签可以指可被置于段落的特定位置处的任何种类的标签,其中期望翻译服务140在翻译期间将维持该注释标签与相邻词语的相对位置。例如,在从英语到西班牙语的翻译中,如果英文单词“brother”具有所附的脚注,则将创建注释标签并将其与单词“brother”相关联,使得翻译服务140将产生西班牙语翻译“hermano”,其中词语“hermano”与同一注释标签相关联,使得该注释标签的相对定位可得到维持。
一般而言,翻译管理组件130可用于将一个或多个中间文档125传送到翻译服务140以供从第一语言翻译成第二语言,并从翻译服务140接收一个或多个经翻译的中间文档135。经翻译的中间文档135一般可对应于中间文档125的从第一语言到第二语言的翻译。翻译管理组件130可用于管理诸如向翻译服务140的认证、翻译服务140的记账等问题或使用外部的第三方翻译服务140所需的任何其他任务。或者,在其中翻译服务140是翻译系统100的内部翻译服务的实施例中,翻译管理组件130可用于管理内部翻译进程的实例化或发起。
一般而言,中间组件120可用于从一个或多个经翻译的中间文档135提取经翻译内容145。经翻译内容145的提取一般对应于创建中间文档125的过程的反转。在一个实施例中,生成所提取的经翻译内容145的过程可包括标识经翻译的中间文档中的一个或多个经翻译段落,从该一个或多个经翻译段落中提取经翻译文本,将每一经翻译段落的经翻译文本与该经翻译段落的相关联的主要样式标识符进行关联,标识每一经翻译段落中的经翻译的中断样式连续,将样式标识符与每一所标识的经翻译的中断样式连续的文本进行关联,标识经翻译的中间文档中的注释标签,以及将来自所标识的注释标签的注释标识符与它们在所提取的经翻译文本中的位置进行关联。
一般而言,以上列出的标识和关联步骤中的每一个可包括标识中间组件120先前在生成中间文档125时所生成和使用的相同的标签和标识符。例如,标识各段落可包括标识经翻译的中间文档135内的段落标签。将每一经翻译的段落的经翻译文本与经翻译的段落的相关联的主要样式标识符进行关联可包括从用于该段落的段落标签中提取主要样式标识符。标识每一经翻译的段落中的经翻译的中断样式连续可包括标识所标识的段落的每一个内的样式标签,其中由样式标签所括出的一节文本构成了连续。将样式标识符与每一所标识的经翻译的中断样式连续的文本进行关联可包括从用于该连续的样式标签中提取样式标识符。标识经翻译的中间文档中的注释可包括标识经翻译的中间文档135内的注释标签。将来自所标识的注释的注释标识符与它们在所提取的经翻译文本中的位置进行关联可包括从用于该注释的注释标签中提取注释标识符。
一般而言,可翻译内容组件110可用于基于所提取的经翻译内容145来构建经翻译文档155,经翻译文档155包括原始文档105的从第一语言到第二语言的翻译。可翻译内容组件可用于基于所提取的经翻译内容145通过用从经翻译文档的经翻译的段落所提取的经翻译文本替换来自原始文档的一个或多个段落的文本来构建经翻译文档155,其中样式是使用相关联的样式标识符来分配给所提取的经翻译文本的,其中来自原始文档105的内联对象是基于与所提取的经翻译文本相关联的注释标识符来置于经翻译文档155中的。一般而言,这一过程可以利用上述样式标识符和注释标识符表来从样式标识符映射到文本格式化集合并从注释标识符映射到内联对象。
参考图2并继续参考图1,翻译系统100还可包括选择组件210。图2中的与图1标号相同的元素表示在图2中的与图1相同的元素。数据存储220可包含一个或多个翻译解析器225,它可包括库、动态加载库(DLL)、模块、应用、指令集、模板、或存储在中间格式与原始文档105的格式之间以及稍后在该中间格式与经翻译文档155的格式之间进行解析和翻译的手段的任何其他机制。如上所述,诸如应用文件格式等格式可包含编辑选项,如文档结构设置或文本格式化设置,它们不能用中间格式来完整地表示。如果翻译系统100要能够操作各种应用文件格式,则这些文件格式的解析对特定文件格式而言是特定的。例如,解析、从中提取内容、以及重建Microsoft Word文档可使用与用于解析、从中提取内容、以及重建Microsoft PowerPoint文档不相同的解析和格式化规则。通过将翻译系统100的一部分置于动态加载的翻译解析器内,翻译系统100可通过只需在存储器中包含被解析的特定文件格式的解析规则而变得更高效。此外,通过将翻译系统100的一部分置于动态加载的翻译解析器内,翻译系统100可通过包括附加库或模块来扩展以容纳附加文件格式,如第三方文件格式,而无需重新编译或以其他方式修改翻译系统100的其余部分。
如此,选择组件210可用于基于原始文档105的文档类型从多个翻译解析器225中为原始文档105选择翻译解析器235。可翻译内容组件110可用于使用所选翻译解析器235从原始文档105中提取可翻译内容115。可翻译内容组件110可用于使用所选翻译解析器235基于所提取的经翻译内容145来构建经翻译文档155。在一些实施例中,文档的类型可包括该文档的文件格式,如应用文件格式,例如Microsoft Word文件格式之一或MicrosoftPowerPoint文件格式之一。
将明白,可翻译内容115和所提取的经翻译内容145的存储和通信格式独立于原始文档105和经翻译文档155的文件格式。类似地,用于中间文档125和经翻译的中间文档135的中间格式独立于原始文档105和经翻译文档155的文件格式。如此,中间组件120和翻译管理组件130可在不知道原始文档105和经翻译文档155的文件格式的情况下操作,并且可在不使用除在处理中间格式或可翻译内容115和所提取的经翻译内容145的格式时使用的那些之外的所选翻译解析器235或任何其他文件格式专用库或模块的情况下操作。结果,对不同文件格式的容纳可与可翻译内容组件110的操作隔离,并且可变得模块化且可通过使用翻译解析器225来动态地扩展。
此处所包括的是一组表示用于执行所公开的体系结构的新颖方面的示例性方法的流程图。尽管出于解释简明的目的,此处例如以流程图形式示出的一个或多个方法被示出并且描述为一系列动作,但是可以理解,各方法不受动作的次序的限制,因为根据本发明,某些动作可以按与此处所示并描述的不同的次序和/或与其他动作同时发生。例如,本领域的技术人员将明白并理解,方法可被替换地表示为一系列相互相关联的状态或事件,诸如以状态图的形式。此外,并非方法中所示出的所有动作都是新颖实现所必需的。
图3A示出逻辑流程300的一个实施例。逻辑流程300可表示由在此所描述的一个或多个实施例所执行的操作中的部分或全部。例如,逻辑流程300可表示翻译系统100的操作。
在框310,启动逻辑流程300的操作。
在框320,从原始文档提取可翻译内容。从原始文档提取可翻译内容的过程可包括以下操作:标识原始文档中的一个或多个段落、从该一个或多个段落中提取文本、生成所提取的文本的一个或多个样式标识符、标识一个或多个文本连续、以及生成原始文档中的内联对象的一个或多个注释标识符。
在框330,根据所提取的可翻译内容来创建一个或多个中间文档。创建一个或多个中间文档的过程可包括以下操作:创建每一所标识的段落的段落标签,标识每一段落的主要样式标识符,将每一段落与其主要样式标识符进行关联,标识每一段落中的中断样式连续,创建每一中断样式连续的样式标签,以及根据注释标识符来创建注释标签。创建一个或多个中间文档的过程可包括根据所提取的可翻译内容来创建多个中间文档,以容纳翻译服务的所定义数量或最大数量的页面。
在框340,将一个或多个中间文档传送给翻译服务以供从第一语言翻译成第二语言。
图3B示出逻辑流程300的自图3A所示的控制点A的继续。控制点A仅仅表示图3A的框340与图3B的框350之间的转移,并且不必是与逻辑流程300分开的逻辑流程。
在框350,从翻译服务接收一个或多个经翻译的中间文档。
在框360,从一个或多个经翻译的中间文档提取经翻译内容。提取经翻译内容的过程可包括以下操作:标识经翻译的中间文档中的一个或多个经翻译段落,从该一个或多个经翻译段落中提取经翻译文本,将每一经翻译段落的经翻译文本与该经翻译段落的相关联的主要样式标识符进行关联,标识每一经翻译段落中的经翻译的中断样式连续,将样式标识符与每一所标识的经翻译的中断样式连续的文本进行关联,标识经翻译的中间文档中的注释,以及将来自所标识的注释的注释标识符与它们在所提取的经翻译文本中的位置进行关联。
在框370,基于所提取的经翻译内容来构建经翻译文档,经翻译文档包括原始文档的从第一语言到第二语言的翻译。构建经翻译文档的过程可包括用从经翻译文档的经翻译的段落所提取的经翻译文本替换来自原始文档的一个或多个段落的文本,其中样式是使用相关联的样式标识符来分配给所提取的经翻译文本的,其中来自原始文档的内联对象是基于与所提取的经翻译文本相关联的注释标识符来置于经翻译文档中的。
图4示出了集中式系统400的框图。集中式系统400可在单个计算实体(诸如完全在单个计算设备410内)中实现翻译系统100的结构和/或操作的一些或全部。
计算设备410可以使用显示组件430来显示内容或信息,如原始文档105。显示组件430可包括各种硬件元件和软件元件。在一些实施例中,显示组件430可包括连接到监视器的视频适配器或向用户显示信息的任何其他装置。
计算设备410可使用处理组件440执行翻译系统100的处理操作或逻辑。处理组件440可包括各种硬件元件、软件元件或两者的组合。硬件元件的示例可以包括设备、组件、处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储器单元、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件元件的示例可以包括软件组件、程序、应用软件、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、文字、值、符号、或其任意组合。确定一实施例是否使用硬件元件和/或软件元件来实现可视给定实现所需根据任何数量的因素而变化,这些因素如所需计算速率、功率级、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束。
计算设备410可使用通信组件450来执行系统100的通信操作或逻辑。通信组件440可以实现任何公知的通信技术和协议,如适用于与分组交换网络(例如,诸如因特网等公共网络、诸如企业内联网等专有网络,等等)、电路交换网络(例如,公共交换电话网)、或分组交换网络和电路交换网络的组合(使用合适的网关和转换器)一起使用的技术。通信组件440可以包括各种类型的标准通信元件,如一个或多个通信接口、网络接口、网络接口卡(NIC)、无线电、无线发射机/接收机(收发机)、有线和/或无线通信介质、物理连接器等。作为示例而非限制,通信介质453包括有线通信介质和无线通信介质。有线通信介质的示例可以包括导线、电缆、金属线、印刷电路板(PCB)、背板、交换光纤、半导体材料、双绞线、同轴电缆、光纤、所传播的信号等。无线通信介质的示例可以包括声学、射频(RF)频谱、红外和其他无线介质453。
该计算设备可包括用于编辑、创建以及查看文档的文档编辑应用420。在参考图1描述的应用程序的示例中,文档编辑应用420尤其可包括例如Microsoft Word、MicrosoftExcel、或Microsoft PowerPoint。文档编辑应用420可用于创建、接收、查看、或者编辑原始文档105。文档编辑应用420可用于使用翻译系统100来发起原始文档105的翻译,如通过用户调用请求文档的自动翻译的命令。文档编辑应用420可用于从翻译系统100接收经翻译文档155。在各实施例中,翻译系统100可包括文档编辑应用420的集成组件,如在翻译系统100的应用软件与文档编辑应用420的软件集成在一起的情况下。或者,翻译系统100可包括可由多个应用访问的外部应用、应用组件、或系统服务。
计算设备410可经由通信组件450使用通信信号456通过通信介质453与翻译服务140通信。通过介质453传送的信号456可包括将中间文档125从翻译系统100传送到翻译服务140以及将经翻译的中间文档135从翻译服务140传送到翻译系统100,如翻译管理组件130所管理的。
图5示出了分布式系统500的框图。分布式系统500可使翻译系统100、400的结构和/或操作的各部分分布在多个计算实体上。分布式系统500的示例可包括但不限于,客户机-服务器架构、3层架构、N层架构、紧耦合或群集的架构、对等架构、主-从架构、共享数据库架构、以及其他类型的分布式系统。各实施例不限于该上下文。
客户机系统510和服务器系统560可使用处理组件540和580处理信息,处理组件540和580类似于参考图4描述的处理组件440。客户机系统510和服务器系统560可经由通信组件550和590使用通信信号556通过通信介质553彼此通信,通信组件550和590类似于参考图4描述的通信组件450。客户机系统510可以使用显示组件530向用户显示信息,显示组件530类似于参考图4描述的显示组件430。
在各实施例中,客户机系统510可包括或使用用于执行根据所描述的实施例的各种方法的一个或多个客户机计算设备和/或客户机程序。
在各实施例中,服务器系统560可包括或使用用于执行根据所描述的实施例的各种方法的一个或多个服务器计算设备和/或服务器程序。例如,当被安装和/或部署时,服务器程序可以支持用于提供特定服务和特征的服务器计算设备的一个或多个服务器角色。示例性服务器系统560可包括例如操作诸如操作系统、操作系统、操作系统或其他合适的基于服务器的操作系统等服务器操作系统的独立和企业级服务器计算机。例如,示例性服务器程序可包括诸如OfficeCommunicationsServer(办公室通信服务器,OCS)等用于管理传入和传出消息的通信服务器程序,诸如Exchange Server(交换服务器)等用于提供对电子邮件、语音邮件、VoIP、即时消息收发(IM)、群IM、增强的在场、以及音频-视频会议、和/或根据所描述的实施例的其他类型的程序、应用、或服务的统一消息收发(UM)的消息收发服务器程序。
在一个实施例中,例如,分布式系统500可被实现为客户机-服务器文档管理和编辑系统。客户机系统510可以使用处理组件540和通信组件550来实现web组件520和显示组件530。服务器系统560可以使用处理组件580和通信组件590来实现文档编辑系统570和翻译系统100。
文档编辑系统570可包括使得能够通过web(如通过使用常见web浏览器)创建、存储、共享、以及编辑文档的web可访问文档编辑系统570。例如,文档编辑系统570可包括参考图1描述的应用程序的web可访问版本或云计算版本。web组件520可以与文档编辑系统570通信以利用该web可访问文档编辑系统570来创建、存储、共享、以及编辑文档,如原始文档105或经翻译文档155。web组件520可以使用显示组件530来显示文档以供用户创建、编辑、或阅读,如原始文档105或经翻译文档155。如此,用户能够从可实现客户机系统510的web组件520和显示组件530的多个客户机设备访问文档,如原始文档105。
文档编辑系统570可允许通过用户使用诸如web组件520等常见web浏览器访问文档编辑系统570来使用翻译系统100调用翻译过程。翻译系统100可用于响应于这一调用来执行原始文档105的从第一语言到第二语言的翻译,并向文档编辑系统570返回经翻译文档155以供web组件520的用户存储和使用。
图6示出适用于实现上述各实施例的示例性计算架构600的实施例。如在本申请中所使用的,术语“系统”和“组件”旨在表示计算机相关的实体,其可以是硬件、硬件和软件的组合、软件、或者执行中的软件,其示例由示例性计算架构600提供。例如,组件可以是但不限于,在处理器上运行的进程、处理器、硬盘驱动器、多个(光和/或磁存储介质的)存储驱动器、对象、可执行代码、执行的线程、程序、和/或计算机。作为说明,在服务器上运行的应用和服务器两者都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程内,且组件可以位于一个计算机上和/或分布在两个或更多的计算机之间。此外,组件可以通过各种类型的通信介质可通信地彼此耦合以协调操作。该协调可以涉及单向或双向信息交换。例如,组件可以传递通过通信介质传递的信号形式的信息。该信息可被实现成分配给各条信号线的信号。在这些分配中,每一消息都是信号。然而,其他实施例可另选地采用数据消息。这些数据消息可以跨各个连接发送。示例性连接包括并行接口、串行接口和总线接口。
在一个实施例中,计算架构600可包括计算设备的一部分或作为计算设备的一部分实现。电子设备的示例可包括但不限于,移动设备、个人数字助理、移动计算设备、智能电话、蜂窝电话、手机、单向寻呼机、双向寻呼机、消息收发设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持式计算机、平板计算机、服务器、服务器阵列或服务器场、web服务器、网络服务器、因特网服务器、工作站、小型计算机、大型计算机、超级计算机、网络设备、web设备、分布式计算系统、多处理器系统、基于处理器的系统、消费电子产品、可编程消费电子产品、电视机、数字电视机、机顶盒、无线接入点、基站、用户站、移动用户中心、无线电网络控制器、路由器、集线器、网关、网桥、交换机、机器、或其组合。各实施例不限于该上下文。
计算体系结构600包括各种常见计算元件,如一个或多个处理器、协同处理器、存储器单元、芯片组、控制器、外围设备、接口、振荡器、定时设备、视频卡、音频卡、多媒体输入/输出(I/O)组件,等等。然而,各实施例不限于由计算体系结构600来实现。
如图6所示,计算体系结构600包括处理单元604、系统存储器606以及系统总线608。处理单元604可以是可购得的各种处理器中的任一种。双微处理器和其他多处理器体系结构也可用作处理单元604。系统总线608向包括但不限于系统存储器606的各系统组件提供到处理单元604的接口。系统总线608可以是若干种总线结构中的任一种,这些总线结构还可互连到存储器总线(带有或没有存储器控制器)、外围总线、以及使用各类市场上可购买到的总线体系结构中的任一种的局部总线。
计算架构600可包括或实现各种制品。制品可包括存储逻辑的计算机可读的存储介质。计算机可读存储介质的示例可包括能够存储电子数据的任何有形介质,包括易失性存储器或非易失性存储器、可移动或不可移动存储器、可擦除或不可擦除存储器、可写或可重写存储器等。逻辑的示例可包括使用任何合适类型的代码(诸如源代码、已编译代码、已解释代码、可执行代码、静态代码、动态代码、面向对象代码、可视代码等)实现的可执行计算机程序指令。
系统存储器606可以包括一个或多个更高速的存储器单元的形式的各种类型的计算机可读存储介质,如只读存储器(ROM)、随机存取存储器(RAM)、动态RAM(DRAM)、双倍数据率DRAM(DDRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、诸如铁电聚合物存储器等聚合物存储器、奥氏存储器、相变或铁电存储器、硅-氧化物-氮化物-氧化物-硅(SONOS)存储器、磁卡或光卡、或适于存储信息的任何其他类型的介质。在图6示出的所示实施例中,系统存储器606可包括非易失性存储器610和/或易失性存储器612。基本输入/输出系统(BIOS)可以存储在非易失性存储器610中。
计算机602可包括一个或多个较低速的存储器单元的形式的各种类型的计算机可读存储介质,包括内置硬盘驱动器(HDD)614、用于读写可移动磁盘618的磁软盘驱动器(FDD)616、以及用于读写可移动光盘622(例如,CD-ROM或DVD)的光盘驱动器620。HDD 614、FDD 616、以及光盘驱动器620可分别由HDD接口624、FDD接口626和光盘驱动器接口628连接到系统总线608。用于外置驱动器实现的HDD接口624可包括通用串行总线(USB)和IEEE1394接口技术中的至少一种或两者。
驱动器及相关联的计算机可读介质提供了对数据、数据结构、计算机可执行指令等的易失性和/或非易失性存储。例如,多个程序组件可存储在驱动器和存储器单元610、612中,包括操作系统630、一个或多个应用程序632、其他程序组件634和程序数据636。
一个或多个应用程序632、其他程序组件634、以及程序数据636可包括例如可翻译内容组件110、中间组件120、翻译管理组件130、以及选择组件210。
用户可以通过一个或多个有线/无线输入设备,例如键盘638和诸如鼠标640等定点设备将命令和信息输入到计算机602中。其他输入设备可包括话筒、红外(IR)遥控器、操纵杆、游戏垫、指示笔、触摸屏等等。这些和其他输入设备通常通过耦合到系统总线608的输入设备接口642连接到处理单元604,但也可通过诸如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口等其他接口连接。
监视器644或其他类型的显示设备也经由诸如视频适配器646等接口连接到系统总线608。除了监视器644之外,计算机通常包括诸如扬声器、打印机等其他外围输出设备。
计算机602可使用经由有线和/或无线通信至一个或多个远程计算机(诸如远程计算机648)的逻辑连接在联网环境中操作。远程计算机648可以是工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐设备、对等设备或其他常见的网络节点,并且通常包括相对于计算机602描述的许多或所有元件,但为简明起见仅示出了存储器/存储设备650。所描绘的逻辑连接包括到局域网(LAN)652和/或例如广域网(WAN)654等更大网络的有线/无线连接。这种LAN和WAN联网环境常见于办公室和公司,并且方便了诸如内联网等企业范围计算机网络,所有这些都可连接到例如因特网等全球通信网络。
当在LAN联网环境中使用时,计算机602通过有线和/或无线通信网络接口或适配器656连接到LAN 652。适配器656可以方便到LAN 652的有线和/或无线通信,并且还可包括其上设置的用于使用适配器656的无线功能进行通信的无线接入点。
当在WAN联网环境中使用时,计算机602可包括调制解调器658,或连接到WAN 654上的通信服务器,或具有用于诸如通过因特网等通过WAN654建立通信的其他装置。或为内置或为外置以及有线和/或无线设备的调制解调器658经由输入设备接口642连接到系统总线608。在联网环境中,相对于计算机602所描绘的程序组件或模块或其部分可以存储在远程存储器/存储设备650中。将明白,所示网络连接是示例性的,并且可以使用在计算机之间建立通信链路的其他手段。
计算机602可操作来使用IEEE 802标准系列来与有线和无线设备或实体进行通信,这些实体例如是在操作上安置成与例如打印机、扫描仪、台式和/或便携式计算机、个人数字助理(PDA)、通信卫星、任何一件与无线可检测标签相关联的设备或位置(例如,电话亭、报亭、休息室)以及电话进行无线通信(例如,IEEE 802.11空中调制技术)的无线设备。这至少包括Wi-Fi(即无线保真)、WiMax和蓝牙TM无线技术。由此,通信可以如对于常规网络那样是预定义结构,或者仅仅是至少两个设备之间的自组织(adhoc)通信。Wi-Fi网络使用称为IEEE 802.11x(a、b、n、g等等)的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络可用于将计算机彼此连接、连接到因特网以及连接到有线网络(使用IEEE 802.3相关的介质和功能)。
图7示出适用于实现上述各实施例的示例性通信架构700的框图。通信架构700包括各种常见通信元件,如发射机、接收机、收发机、无线电装置、网络接口、基带处理器、天线、放大器、滤波器,等等。然而,各实施例不限于由通信架构700来实现。
如图7所示,通信架构700包括一个或多个客户机702和服务器704。客户机702可实现客户机系统510。服务器704可实现服务器系统560。客户机702和服务器704可操作地连接到可被用来存储相应客户机702和服务器704本地的信息(如cookie和/或相关联的上下文信息)的一个或多个相应客户机数据存储708和服务器数据存储710。
客户机702和服务器704可以使用通信框架706在彼此之间传递信息。通信框架706可实现任何公知通信技术和协议,诸如参考翻译系统100所描述的那些。通信框架706可以被实现为分组交换网络(例如,诸如因特网等公共网络、诸如企业内联网等专有网络,等等)、电路交换网络(例如,公共交换电话网)、或分组交换网络和电路交换网络的组合(使用合适的网关和转换器)。
一些实施例可使用表述“一个实施例”和“一实施例”及其派生词来描述。这些术语意味着结合该实施例描述的特定特征、结构、或特性包括在至少一个实施例中。出现在说明书中各个地方的短语“在一个实施例中”并不必全都指的是同一实施例。此外,一些实施例可使用表述“耦合的”和“连接的”及其派生词来描述。这些术语不必旨在互为同义词。例如,一些实施例可使用术语“连接的”和/或“耦合的”来描述以指示两个或更多元件彼此有直接的物理或电接触。然而,术语“耦合的”还可以意味着两个或更多元件彼此不直接接触,而仍彼此合作或交互。
要强调,本公开的摘要是为了允许读者快速确定本技术公开的性质而提供的。提交摘要的同时要明白,将不用它来解释或限制权利要求的范围或含义。另外,在前面的详细描述中,可以看到,出于将本公开连成一个整体的目的而将各种特征组合在一起放在单个实施例中。此公开方法将不被解释为反映所要求保护的实施例要求比每个权利要求中明确陈述的更多特征的意图。相反,如所附权利要求书所反映,发明性的主题存在于比单个已公开实施例的所有特征少的特征中。从而,据此将所附权利要求结合进详细描述中,其中每个权利要求独立地代表一个单独的实施例。在所附权利要求书中,术语“包括”和“其中”分别用作术语“包含”和“其特征在于”的易懂的英文等价词。而且,术语“第一”、“第二”、“第三”等等只用作标记,而不旨在将数字约束强加于其对象上。
上面描述的包括所公开的体系结构的各示例。当然,描述每一个可以想到的组件和/或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,许多其他组合和排列都是可能的。因此,该新颖体系结构旨在涵盖所有这些落入所附权利要求书的精神和范围内的更改、修改和变化。

Claims (20)

1.一种系统,包括:
至少一个处理器;以及
耦合到所述至少一个处理器的存储器,所述存储器包括计算机可执行指令,所述计算机可执行指令在被所述至少一个处理器执行时,执行用于提供连续的双手触摸打字的方法,所述方法包括:
从原始文档提取可翻译内容;
从所提取的可翻译内容创建多个中间文档,其中,所述多个中间文档包括所提取的可翻译内容;
将所述多个中间文档传送给翻译服务,所述翻译服务用于从第一语言到第二语言的翻译;
从所述翻译服务接收一个或多个经翻译的中间文档;
从所述一个或多个经翻译的中间文档提取经翻译内容;以及
构建包括所述经翻译内容的经翻译文档。
2.根据权利要求1所述的系统,其中,从所述原始文档提取所述可翻译内容还包括:
标识所述原始文档中的一个或多个段落;
从所述一个或多个段落中提取文本;
生成所提取的文本的一个或多个样式标识符;
标识一个或多个文本连续;以及
生成所述原始文档中的内联对象的一个或多个注释标识符。
3.根据权利要求2所述的系统,其中,从所提取的可翻译内容创建所述多个中间文档包括:
为每一所标识的段落创建段落标签;
标识每一段落的主要样式标识符;
将每一段落与其主要样式标识符进行关联;
标识每一段落中的中断样式连续;
为每一中断样式连续创建样式标签;以及
根据所述注释标识符来创建注释标签。
4.如权利要求3所述的系统,其中,所标识的段落中的一个或多个被存储为存储数据,所述存储数据包括具有相关联的样式标识符的文本连续的集合,其中,所述存储数据可用于在不存储用于所述一个或多个所标识的段落的实际文本格式化选项的情况下为所述一个或多个所标识的段落重新构建格式化。
5.根据权利要求3所述的系统,其中,从所述经翻译的中间文档提取所述经翻译内容包括:
标识所述经翻译的中间文档中的一个或多个经翻译段落;
从所述一个或多个经翻译段落中提取经翻译文本;
将每一经翻译段落的所述经翻译文本与该经翻译段落的所述相关联的主要样式标识符进行关联;
标识每一经翻译段落中的经翻译的中断样式连续;
将样式标识符与每一所标识的经翻译的中断样式连续的文本进行关联;
标识所述经翻译的中间文档中的注释;以及
将来自所标识的注释的注释标识符与它们在所提取的经翻译文本中的位置进行关联。
6.根据权利要求5所述的系统,其中,基于所提取的经翻译内容来构建所述经翻译文档包括:
用从所述经翻译文档的经翻译的段落所提取的经翻译文本替换来自所述原始文档的一个或多个段落的文本,其中,样式是使用所述相关联的样式标识符来分配给所提取的经翻译文本的,其中,来自所述原始文档的所述内联对象是基于与所提取的经翻译文本相关联的注释标识符来置于所述经翻译文档中的。
7.根据权利要求1所述的系统,所述方法还包括:
基于所述原始文档的文档类型来针对所述原始文档从多个翻译解析器中选择翻译解析器;
使用所选的翻译解析器从所述原始文档提取所述可翻译内容;以及
使用所选的翻译解析器基于所提取的经翻译内容来构建所述经翻译文档。
8.根据权利要求7所述的系统,所述方法还包括:
从所提取的可翻译内容创建所述多个中间文档以适应所述翻译服务的定义的页面数量。
9.一种系统,包括:
计算设备;
可翻译内容组件,在所述计算设备上可操作用于从原始文档提取可翻译内容;
中间组件,在所述计算设备上可操作用于从所提取的可翻译内容创建多个中间文档,其中,所述多个中间文档包括所提取的可翻译内容;
翻译管理组件,在所述计算设备上可操作用于将所述一个或多个中间文档传送给翻译服务并且从所述翻译服务接收一个或多个经翻译的中间文档;
所述中间组件还可操作用于从所述多个经翻译的中间文档提取经翻译内容;以及
所述可翻译内容组件还可操作用于基于所提取的经翻译内容来构建经翻译文档,所述经翻译文档包括对所述原始文档的从第一语言到第二语言的翻译。
10.根据权利要求9所述的系统,所述可翻译内容组件还可操作用于标识所述原始文档中的一个或多个段落、从所述一个或多个段落中提取文本、生成所提取的文本的一个或多个样式标识符、标识一个或多个文本连续、以及生成所述原始文档中的内联对象的一个或多个注释标识符。
11.根据权利要求10所述的系统,所述中间组件还可操作用于为每一所标识的段落创建段落标签、标识每一段落的主要样式标识符、将每一段落与其主要样式标识符进行关联、标识每一段落中的中断样式连续、为每一中断样式连续创建样式标签、以及使用所述注释标识符来创建注释标签。
12.根据权利要求11所述的系统,所述中间组件还可操作用于:标识所述经翻译的中间文档中的一个或多个经翻译段落、从所述一个或多个经翻译段落中提取经翻译文本、将每一经翻译段落的所述经翻译文本与该经翻译段落的相关联的主要样式标识符进行关联、标识每一经翻译段落中的经翻译的中断样式连续、将样式标识符与每一所标识的经翻译的中断样式连续的文本进行关联;标识所述经翻译的中间文档中的注释;以及将来自所标识的注释的注释标识符与它们在所提取的经翻译文本中的位置进行关联。
13.根据权利要求12所述的系统,其中,所述经翻译文档是通过用从所述经翻译文档的经翻译的段落所提取的经翻译文本替换来自所述原始文档的一个或多个段落的文本来构建的,其中,样式是使用所述相关联的样式标识符来分配给所提取的经翻译文本的,并且其中,来自所述原始文档的内联对象是基于与所提取的经翻译文本相关联的注释标识符来置于所述经翻译文档中的。
14.根据权利要求9所述的系统,包括:
选择组件,可操作用于基于所述原始文档的文档类型来针对所述原始文档从多个翻译解析器中选择翻译解析器;
所述可翻译内容组件还可操作用于使用所选的翻译解析器从所述原始文档提取所述可翻译内容;以及
所述可翻译内容组件还可操作用于使用所选的翻译解析器基于所提取的经翻译内容来构建所述经翻译文档。
15.根据权利要求9所述的系统,其中,所述多个中间文档适应所述翻译服务的定义的页面数量。
16.根据权利要求9所述的系统,其中,所述多个中间文档是超文本标记语言(HTML)格式的。
17.一种方法,包括:
从原始文档提取可翻译内容;
从所提取的可翻译内容创建多个中间文档,其中,所述多个中间文档包括所提取的可翻译内容;
将所述多个中间文档传送给翻译服务,所述翻译服务用于从第一语言到第二语言的翻译;
从所述翻译服务接收一个或多个经翻译的中间文档;
从所述一个或多个经翻译的中间文档提取经翻译内容;以及
基于所提取的经翻译内容来构建经翻译文档,所述经翻译文档包括对所述原始文档的从所述第一语言到所述第二语言的翻译。
18.根据权利要求17所述的方法,其中,从所述原始文档提取所述可翻译内容还包括:
标识所述原始文档中的一个或多个段落;
从所述一个或多个段落中提取文本;
生成所提取的文本的一个或多个样式标识符;
标识一个或多个文本连续;以及
生成所述原始文档中的内联对象的一个或多个注释标识符。
19.根据权利要求18所述的方法,其中,从所提取的可翻译内容创建所述多个中间文档包括:
为每一所标识的段落创建段落标签;
标识每一段落的主要样式标识符;
将每一段落与其主要样式标识符进行关联;
标识每一段落中的中断样式连续;
为每一中断样式连续创建样式标签;以及
根据所述注释标识符来创建注释标签。
20.根据权利要求19所述的方法,其中,从所述经翻译的中间文档提取所述经翻译内容包括:
标识所述经翻译的中间文档中的一个或多个经翻译段落;
从所述一个或多个经翻译段落中提取经翻译文本;
将每一经翻译段落的所述经翻译文本与该经翻译段落的相关联的主要样式标识符进行关联;
标识每一经翻译段落中的经翻译的中断样式连续;
将样式标识符与每一所标识的经翻译的中断样式连续的文本进行关联;
标识所述经翻译的中间文档中的注释;以及
将来自所标识的注释的注释标识符与它们在所提取的经翻译文本中的位置进行关联。
CN201711135156.0A 2011-11-03 2012-11-02 用于自动化的文档翻译的技术 Pending CN107783967A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/288,147 US9367539B2 (en) 2011-11-03 2011-11-03 Techniques for automated document translation
US13/288,147 2011-11-03
CN2012104350838A CN102929867A (zh) 2011-11-03 2012-11-02 用于自动化的文档翻译的技术

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2012104350838A Division CN102929867A (zh) 2011-11-03 2012-11-02 用于自动化的文档翻译的技术

Publications (1)

Publication Number Publication Date
CN107783967A true CN107783967A (zh) 2018-03-09

Family

ID=47644668

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2012104350838A Pending CN102929867A (zh) 2011-11-03 2012-11-02 用于自动化的文档翻译的技术
CN201711135156.0A Pending CN107783967A (zh) 2011-11-03 2012-11-02 用于自动化的文档翻译的技术

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2012104350838A Pending CN102929867A (zh) 2011-11-03 2012-11-02 用于自动化的文档翻译的技术

Country Status (4)

Country Link
US (2) US9367539B2 (zh)
EP (1) EP2774055A4 (zh)
CN (2) CN102929867A (zh)
WO (1) WO2013067233A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144070A (zh) * 2019-12-31 2020-05-12 北京迈迪培尔信息技术有限公司 一种文档解析翻译方法和装置
CN111159981A (zh) * 2019-12-31 2020-05-15 北京迈迪培尔信息技术有限公司 一种Excel文档的解析翻译方法和装置
CN111414768A (zh) * 2019-01-07 2020-07-14 搜狗(杭州)智能科技有限公司 一种信息展示方法、装置和电子设备
CN112052648A (zh) * 2020-09-02 2020-12-08 文思海辉智科科技有限公司 一种字串翻译方法、装置、电子设备及存储介质

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367539B2 (en) 2011-11-03 2016-06-14 Microsoft Technology Licensing, Llc Techniques for automated document translation
US9185081B2 (en) * 2012-10-22 2015-11-10 Symantec Corporation Format friendly encryption
US11183287B2 (en) 2013-06-13 2021-11-23 Carefusion 303, Inc. Analytics regarding patient care
US10777313B2 (en) 2013-06-13 2020-09-15 Carefusion 303, Inc. Analytics regarding ventilated patients
US20150012259A1 (en) * 2013-07-02 2015-01-08 Sap Ag Language translator module in the middleware tool process integration
US10198408B1 (en) * 2013-10-01 2019-02-05 Go Daddy Operating Company, LLC System and method for converting and importing web site content
MX2016006549A (es) * 2013-12-06 2016-09-06 Carefusion 303 Inc Sistema de analisis para el cuidado de un paciente.
US9529874B2 (en) 2013-12-19 2016-12-27 International Business Machines Corporation Verification of transformed content
US10691872B2 (en) * 2014-03-19 2020-06-23 Microsoft Technology Licensing, Llc Normalizing message style while preserving intent
CN104951436A (zh) * 2015-06-03 2015-09-30 南京国电南自电网自动化有限公司 一种用于继电保护装置的多语言实现方法
US9514205B1 (en) * 2015-09-04 2016-12-06 Palantir Technologies Inc. Systems and methods for importing data from electronic data files
CN105243058B (zh) * 2015-09-30 2018-04-13 北京奇虎科技有限公司 一种网页内容翻译方法及电子设备
US10089288B2 (en) * 2015-12-04 2018-10-02 Ca, Inc. Annotations management for electronic documents handling
JP6809005B2 (ja) * 2016-07-07 2021-01-06 富士ゼロックス株式会社 翻訳装置、翻訳システムおよびプログラム
EP3282374A1 (en) 2016-08-17 2018-02-14 Palantir Technologies Inc. User interface data sample transformer
CN108304179A (zh) * 2016-10-08 2018-07-20 阿里巴巴集团控股有限公司 一种Web Components组件中引入样式的方法及装置
CN107273424B (zh) * 2017-05-17 2021-01-22 百度在线网络技术(北京)有限公司 应用于翻译服务的显示处理方法和装置
US10540424B2 (en) * 2017-06-13 2020-01-21 Microsoft Technology Licensing, Llc Evaluating documents with embedded mathematical expressions
US10754820B2 (en) 2017-08-14 2020-08-25 Palantir Technologies Inc. Customizable pipeline for integrating data
CN107885735B (zh) * 2017-11-21 2021-05-04 语联网(武汉)信息技术有限公司 一种格式无关的文档翻译方法及系统
US11263263B2 (en) 2018-05-30 2022-03-01 Palantir Technologies Inc. Data propagation and mapping system
US11347381B2 (en) * 2019-06-13 2022-05-31 International Business Machines Corporation Dynamic synchronized image text localization
CN110688863B (zh) * 2019-09-25 2023-04-07 六维联合信息科技(北京)有限公司 一种文档翻译系统及文档翻译方法
CN111401000B (zh) * 2020-04-03 2023-06-20 上海一者信息科技有限公司 一种在线辅助翻译的译文实时预览方法
CN111783482A (zh) * 2020-07-06 2020-10-16 南京百家云科技有限公司 一种文本翻译方法、装置、计算机设备及存储介质
US20240127146A1 (en) * 2022-10-12 2024-04-18 Sdl Limited Translation Decision Assistant

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205671A1 (en) * 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
US6810429B1 (en) * 2000-02-03 2004-10-26 Mitsubishi Electric Research Laboratories, Inc. Enterprise integration system
CN101261633A (zh) * 2008-04-02 2008-09-10 深圳市共进电子有限公司 基于工程的电子翻译方法及系统
US20090030671A1 (en) * 2007-07-27 2009-01-29 Electronics And Telecommunications Research Institute Machine translation method for PDF file
CN101685440A (zh) * 2008-09-25 2010-03-31 国际商业机器公司 应用路径信息改进结构化文档的翻译的方法和系统

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
JP2855409B2 (ja) * 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
US6470306B1 (en) 1996-04-23 2002-10-22 Logovista Corporation Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US6691279B2 (en) 1997-03-31 2004-02-10 Sanyo Electric Co., Ltd Document preparation method and machine translation device
US6623529B1 (en) * 1998-02-23 2003-09-23 David Lakritz Multilingual electronic document translation, management, and delivery system
JP4011268B2 (ja) * 2000-07-05 2007-11-21 株式会社アイアイエス 多言語翻訳システム
US7043687B2 (en) * 2000-12-27 2006-05-09 G. E. Information Services, Inc. Document/message management
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
FI115416B (fi) * 2001-03-23 2005-04-29 Nokia Corp Rakenteellisen datan jäsennys
US20020188435A1 (en) * 2001-06-07 2002-12-12 Microsoft Corporation Interface for submitting richly-formatted documents for remote processing
JP3813514B2 (ja) * 2002-02-19 2006-08-23 富士通株式会社 電子入札方法
KR20040016198A (ko) 2002-08-16 2004-02-21 (주) 클릭큐 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법
US8050906B1 (en) 2003-06-01 2011-11-01 Sajan, Inc. Systems and methods for translating text
EP1754169A4 (en) 2004-04-06 2008-03-05 Dept Of Information Technology MULTILINGUAL ENGINE TRANSLATION SYSTEM FROM THE ENGLISH IN HINDI AND OTHER INDIAN LANGUAGES USING A PSEUDO INTERLINGUA AND HYBRIDIZED APPROACH
JP4473702B2 (ja) 2004-11-02 2010-06-02 株式会社東芝 機械翻訳システム、機械翻訳方法及びプログラム
JP2006252048A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd 翻訳装置、翻訳プログラムおよび翻訳方法
JP2006252049A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd 翻訳システム、翻訳方法およびプログラム
KR100714393B1 (ko) 2005-09-16 2007-05-07 삼성전자주식회사 텍스트 추출 기능을 갖는 호스트 장치 및 그의 텍스트 추출방법
US7770107B2 (en) * 2006-03-01 2010-08-03 Oracle International Corporation Methods and systems for extracting and processing translatable and transformable data from XSL files
US7827028B2 (en) * 2006-04-07 2010-11-02 Basis Technology Corporation Method and system of machine translation
US8249855B2 (en) * 2006-08-07 2012-08-21 Microsoft Corporation Identifying parallel bilingual data over a network
US8131536B2 (en) * 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US9361294B2 (en) * 2007-05-31 2016-06-07 Red Hat, Inc. Publishing tool for translating documents
US7974832B2 (en) 2007-12-12 2011-07-05 Microsoft Corporation Web translation provider
JP5007977B2 (ja) 2008-02-13 2012-08-22 独立行政法人情報通信研究機構 機械翻訳装置、機械翻訳方法、及びプログラム
US8280718B2 (en) 2009-03-16 2012-10-02 Xerox Corporation Method to preserve the place of parentheses and tags in statistical machine translation systems
BRPI0924401B1 (pt) * 2009-03-18 2020-05-19 Google Inc métodos, sistemas e meios não-transitórios de armazenamento para tradução de web com substituição de exibição
US20110107201A1 (en) 2009-10-29 2011-05-05 Microsoft Corporation Representing complex document structure via simpler structure through isomorphism
US20120072831A1 (en) * 2010-09-16 2012-03-22 Gemtek Technology Co., Ltd Method for creating a multi-lingual web page
US8972848B2 (en) * 2010-11-23 2015-03-03 International Business Machines Corporation Document renewal and translation
US9280525B2 (en) * 2011-09-06 2016-03-08 Go Daddy Operating Company, LLC Method and apparatus for forming a structured document from unstructured information
US9367539B2 (en) 2011-11-03 2016-06-14 Microsoft Technology Licensing, Llc Techniques for automated document translation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810429B1 (en) * 2000-02-03 2004-10-26 Mitsubishi Electric Research Laboratories, Inc. Enterprise integration system
US20040205671A1 (en) * 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
US20090030671A1 (en) * 2007-07-27 2009-01-29 Electronics And Telecommunications Research Institute Machine translation method for PDF file
CN101261633A (zh) * 2008-04-02 2008-09-10 深圳市共进电子有限公司 基于工程的电子翻译方法及系统
CN101685440A (zh) * 2008-09-25 2010-03-31 国际商业机器公司 应用路径信息改进结构化文档的翻译的方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414768A (zh) * 2019-01-07 2020-07-14 搜狗(杭州)智能科技有限公司 一种信息展示方法、装置和电子设备
CN111144070A (zh) * 2019-12-31 2020-05-12 北京迈迪培尔信息技术有限公司 一种文档解析翻译方法和装置
CN111159981A (zh) * 2019-12-31 2020-05-15 北京迈迪培尔信息技术有限公司 一种Excel文档的解析翻译方法和装置
CN111159981B (zh) * 2019-12-31 2023-08-08 北京迈迪培尔信息技术有限公司 一种Excel文档的解析翻译方法和装置
CN112052648A (zh) * 2020-09-02 2020-12-08 文思海辉智科科技有限公司 一种字串翻译方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN102929867A (zh) 2013-02-13
WO2013067233A1 (en) 2013-05-10
US20160328392A1 (en) 2016-11-10
US10452787B2 (en) 2019-10-22
US9367539B2 (en) 2016-06-14
US20130117008A1 (en) 2013-05-09
EP2774055A1 (en) 2014-09-10
EP2774055A4 (en) 2015-10-28

Similar Documents

Publication Publication Date Title
CN107783967A (zh) 用于自动化的文档翻译的技术
CN109408783B (zh) 电子文档在线编辑方法及系统
US8959428B2 (en) Method and apparatus for generating an integrated view of multiple databases
US8850306B2 (en) Techniques to create structured document templates using enhanced content controls
US20100223214A1 (en) Automatic extraction using machine learning based robust structural extractors
CN104685466A (zh) 用于提供多个视图的浏览器级背景页面
CN103827778B (zh) 企业工具增强
Nečaský et al. When conceptual model meets grammar: A dual approach to XML data modeling
Jardim-Goncalves et al. Reference framework for enhanced interoperable collaborative networks in industrial organisations
CN113377373A (zh) 基于解析引擎的页面加载方法、装置、计算机设备及介质
Godby et al. Common Ground: Exploring Compatibilities between the Linked Data Models of the Library of Congress and OCLC.
CN112463152A (zh) 一种基于ast的网页适配方法及装置
CN103823855B (zh) 面向语义网的中文百科知识组织与集成方法
TW202011227A (zh) 智能學習語詞編修與多國語言互譯的系統與方法
Matthews et al. Library Information Systems
CN106294780B (zh) 一种从社交网络抽取msvl模型的方法
Cole et al. XML for catalogers and metadata librarians
Wu et al. Information extraction for knowledge graph of ISO 19650 standards
US20220019726A1 (en) Method for generating content in an extensible manner
Anderson Data-first manifesto: Shifting priorities in scholarly communications
CN118092914A (zh) 页面生成方法、装置、设备、存储介质及低代码生成系统
Zheng et al. Multi Terminal Adaptive Layout Based on HTML 5 and CSS3
Hall A New Human-Readability Infrastructure for Computing
Featherstone et al. PhyloJS: Bridging phylogenetics and web development with a JavaScript utility library
CN117270847A (zh) 前端页面的生成方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180309