CN102053958A - 上下文准确匹配 - Google Patents
上下文准确匹配 Download PDFInfo
- Publication number
- CN102053958A CN102053958A CN2010105218419A CN201010521841A CN102053958A CN 102053958 A CN102053958 A CN 102053958A CN 2010105218419 A CN2010105218419 A CN 2010105218419A CN 201010521841 A CN201010521841 A CN 201010521841A CN 102053958 A CN102053958 A CN 102053958A
- Authority
- CN
- China
- Prior art keywords
- context
- rank
- fragment
- coupling
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 claims abstract description 201
- 238000000034 method Methods 0.000 claims abstract description 90
- 230000008878 coupling Effects 0.000 claims description 325
- 238000010168 coupling process Methods 0.000 claims description 325
- 238000005859 coupling reaction Methods 0.000 claims description 325
- 239000012634 fragment Substances 0.000 claims description 325
- 239000000463 material Substances 0.000 claims description 78
- 230000000295 complement effect Effects 0.000 claims description 41
- 230000013011 mating Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 230000005055 memory storage Effects 0.000 claims description 2
- 230000014616 translation Effects 0.000 description 174
- 230000008569 process Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000013461 design Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012797 qualification Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 206010021703 Indifference Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- -1 for example Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- KGVPNLBXJKTABS-UHFFFAOYSA-N hymexazol Chemical compound CC1=CC(O)=NO1 KGVPNLBXJKTABS-UHFFFAOYSA-N 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003134 recirculating effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000033458 reproduction Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及上下文准确匹配。公开了用于确定文本查找片段与翻译存储器中的多个源文本在上下文方面的匹配级别的方法、系统和程序产品。具体地说,本发明在多个源文本中确定查找片段的任何准确匹配,并在确定出至少一个准确匹配的情况下,在查找片段的上下文与对应的准确匹配相匹配时,将该准确匹配确定为是查找片段的上下文准确(ICE)匹配。可预先确定上下文匹配度并确定结果的优先顺序。本发明还包括用于在包括上下文的翻译存储器中存储源文本和目标文本的翻译对的方法、系统和程序产品,以及这样形成的翻译存储器。本发明确保了内容被翻译得和之前翻译出的内容一样,并减少了翻译者的干涉。
Description
技术领域
本发明一般地涉及内容处理,更具体地说,涉及确保与包含上下文的源内容的准确翻译匹配,以简化并方便翻译和其它与所述内容相关的处理功能。
背景技术
随着信息在全球范围内变得更加容易获得,尤其是互联网和万维网的到来和迅速利用,翻译的角色已改变而不再是将源文本简单地转换为目标语言。今天,翻译者必须确保将翻译的内容及时准确地分发到指定位置和消费者。这样,对内容翻译的增加的需求促使许多公司开发自动和在一定程度上有助于翻译过程的工具。假定翻译者需要尽快地翻译内容,软件功能的更加灵活和存储先前的翻译以备将来使用的能力将使得翻译更加有效地进行。因此,创建工具来将翻译,包括翻译块和/或片段,保存到计算机存储器(“翻译存储器”或“TM”)中。
翻译存储器(也被称作翻译数据库)是词条的集合,在各词条中,源文本与其对应的一种或多种目标语言翻译相关联。翻译存储器包括存储成对的源语言的文本片段和目标语言文本片段的数据库,可以在未来使用当前文本来检索目标翻译文本。TM通常在翻译工具中使用:当翻译者“打开”文本片段时,应用程序在数据库中查找等同的源文本。其结果是匹配列表,该匹配列表通常以表示文档中的源文本和TM中的源文本之间的相似度的值的分数进行排序。翻译者或不同的TM系统提供与查询的片段成对的目标文本片段,从而最终产品是高质量的翻译。
有许多可用于帮助翻译者的计算机辅助翻译(“CAT”)工具,例如双语和多语词典、语法书和拼写检查工具以及术语软件,但是TM更进一步,其通过使用这些其它的CAT工具同时通过准确匹配和模糊匹配将存储在数据库中的原始源文档与更新的或修改后的文档进行匹配。准确匹配(100%匹配)是指文档中的源文本和TM中的源文本之间的无差别(或没有不能被工具自动处理的差别)匹配。模糊匹配(小于100%的匹配)是指文档中的源文本与TM中的源文本非常相似但不完全一样的匹配。重复的准确匹配通常被当做是模糊匹配。TM系统被用作翻译者的辅助工具,在数据库中存储人工翻译者的文本以备将来使用。例如,当翻译者翻译原始文本时可使用TM,利用翻译存储器存储成对的源片段和目标片段。翻译者随后可再次使用存储的文本来翻译修改后的或更新后的版本的文本。仅那些与旧文本片段不匹配的新文本片段需要被翻译。另一种方案是使用手动翻译系统或不同的CAT系统来翻译原始文本。TM系统可随后被翻译者使用来翻译修改文本或更新文本,其方式是通过校准翻译者或其他CAT系统生成的文本然后将它们存储在TM数据库中以备当前和未来工作使用。如上所述,通过利用TM,翻译者随后可以仅进行新文本的段的翻译。
使用TM有许多优点:翻译可更加快速,避免已有翻译的不必要的重新键入和/或使翻译者能够仅改变文本的特定部分。TM还允许对翻译质量进行更好控制。在现有技术中,采用TM来在大批量项目中加速翻译步伐。例如,软件公司可发布其软件的版本1并需要翻译伴随的文档。所述文档被分成句子并被翻译,所有的句子对被TM俘获。两年以后所述公司发布其软件的版本2。所述文档被严重改变,但是还存在与原始文档相似的重要部分。此时,当翻译者翻译所述文档时,通过从TM中进行准确匹配和模糊匹配而减轻了它们的工作。像该实例显示的那样,TM通常在流水线工艺中被用作辅助工具。在现有技术中,在TM的使用中还有一些限制。
利用准确匹配的自动衍生翻译(不用验证)可产生不正确的翻译,这是由于没有将新片段所用于的上下文与原始片段所用于上下文进行比较验证:即真实再使用和再循环之间存在差别。在相关技术中,TM系统是再循环系统。通常的情况是,对文档(网页内容,现在有许多中内容)进行翻译,然后需要对该文档进行小的改变,然后需要再次翻译。例如,列出产品的优点的网页文档将被翻译,但是可增加新的优点并且所述文档因此需要被重新翻译。在相关技术中,TM将减轻第二次翻译所述文档的工作量。在源文本与TM中的一个或更多个词条相同的情况下可存在多数句子的准确匹配。随后翻译者通过评价与上下文信息的匹配的适度性来确保选择了正确的准确匹配。但是,相关技术不提供对内容的上下文的确定。此外,在现有技术中,并没有精确地选择针对给定片段的最佳准确匹配的自动过程或确认给定的准确匹配是否是给定片段将被应用的上下文的合适匹配的自动过程。这样,翻译者需要确认匹配。实际上,当仅几个单词发生改变时,翻译者需要针对每个句子确认并可能采取行动,假定在相关技术中,在不同的环境或上下文下一个片段需要被不同地翻译,则效率非常低。
鉴于以上所述,本领域需要精确确认给定的准确匹配是否是针对其将被应用到的上下文的合适匹配的自动过程。
发明内容
根据本发明的第一方面,提供了一种确定存储在翻译存储器中的多个源文本与将被翻译的查找片段的匹配级别的方法,所述方法包括以下步骤:
在多个源文本中确定对查找片段的任何准确匹配;
在确定出至少一个准确匹配的情况下,当查找片段的上下文与对应的准确匹配的上下文匹配时,将该对应的准确匹配确定为是所述查找片段的上下文准确(ICE)匹配,
其中上下文包括至少两个级别,并且
其中所述至少两个级别包括源惯用法上下文级别和目标惯用法上下文级别。因此,当翻译存储器被搜索以确定是否存在特定查找片段时,如果找到多个准确匹配,则本发明允许消除所述多个准确匹配之间的不定性。不定性消除是根据查找片段的上下文与各准确匹配的上下文进行比较来执行的。如果一个片段的至少一个上下文级别与查找片段的至少一个上下文级别相匹配,则所述片段是ICE匹配。ICE匹配往往比非ICE匹配更加相关。ICE匹配可根据不同级别的上下文(例如在源语言中的源惯用法上下文级别和/或目标惯用法上下文级别中的目标惯用法上下文级别)识别。
在本发明的实施方式中,在确定多于一个ICE匹配的情况下,ICE匹配确定步骤包括根据上下文匹配度确定各ICE匹配的优先顺序,从而更合适的ICE匹配可优于一个或更多个其他ICE匹配。因此,本发明允许消除多个准确匹配的不定性,其中与低优先级的ICE匹配相比,高优先级ICE匹配往往是更加相关的翻译。
在本发明的其他实施方式中,与仅源惯用法上下文级别与查找片段的源惯用法上下文级别相匹配的ICE匹配相比,源和目标惯用法上下文级别分别与查找片段的源和目标惯用法上下文级别匹配的ICE匹配被分配更高的上下文匹配度。源和目标惯用法上下文的组合匹配将指示比仅源目标惯用法上下文匹配相比更加相关;因此前者优于后者。
在本发明的进一步设计中,与仅源惯用法上下文级别与查找片段的源惯用法上下文级别匹配的ICE匹配相比,目标惯用法上下文级别与查找片段的目标惯用法上下文级别匹配的ICE匹配被分配更高的上下文匹配度。目标惯用法上下文指示比仅源目标惯用法上下文匹配的匹配更加相关的匹配;因此前者优于后者。
在本发明的一种设计中,源惯用法上下文级别包括前文源惯用法上下文级别,和/或目标上下文惯用法级别包括前文目标惯用法上下文级别。在源语言中,在正被翻译的片段(当前片段)之前的片段以及在目标语言中翻译当前片段之前的片段将对正被翻译的片段的翻译影响更大(与在当前片段之后的源和目标片段相比);因此,在当前片段之前的片段的上下文被认为对于不定性消除比较重要。
在本发明的其他设计中,源惯用法上下文级别包括后文源惯用法上下文级别,和/或目标上下文惯用法级别包括后文目标惯用法上下文级别。在源语言中,在正被翻译的片段(当前片段)之后的片段以及在目标语言中当前片段之后的片段的翻译将对正被翻译的片段的翻译有影响;因此,当前片段之后的片段的上下文被认为是考虑当前片段之前的片段的上下文的另选考虑或额外考虑。
在本发明的一些实施方式中,所述至少两个级别包括结构性上下文级别(见以下具体实施方式中的‘定义’部分,解释了结构性上下文的含义)。因此,结构性上下文级别可在惯用法上下文级别之外应用以消除ICE匹配的不定性。
在本发明的设计中,在确定了多于一个ICE匹配的情况下,所述ICE匹配确定步骤包括根据上下文匹配度确定各ICE匹配的优先顺序,从而更合适的ICE匹配可优于一个或更多个其他ICE匹配,
其中源惯用法上下文级别包括前文源惯用法上下文级别,且目标上下文惯用法级别包括前文目标惯用法上下文级别,并且
其中与仅结构性上下文级别与查找片段的结构性上下文级别相匹配的ICE匹配相比,前文源和/或前文目标惯用法上下文级别与查找片段的前文源和/或前文目标惯用法上下文级别匹配的ICE匹配有更高的上下文匹配度。前文源上下文级别匹配并且目标源上下文级别匹配的翻译往往是比仅结构性上下文匹配的翻译更相关;因此前者优于后者。
在本发明的一种实施方式中,仅在查找片段的两个或更多上下文级别与对应的准确匹配项的上下文级别匹配的情况下,ICE匹配确定步骤才指示对应的确切匹配是针对查找片段的ICE匹配。与仅一个上下文级别方面与查找片段相匹配的ICE匹配相比,与查找片段在多个上下文级别方面匹配的ICE匹配更加可能是更合适的匹配;因此,在本发明的一些实施方式中,仅多个上下文级别匹配的ICE匹配被考虑用于消除不定性,即在本发明的这种实施方式中,如果仅一个上下文级别(例如,仅结构性上下文或仅源惯用法上下文)与查找片段的上下文级别相匹配,则多个准确匹配不被消除不定性。
在本发明的设计中,仅在至少一个查找片段的惯用法上下文级别和结构性上下文级别都与对应的准确匹配的相匹配的情况下,ICE匹配确定步骤才指示对应的准确匹配是对查找片段的ICE匹配。惯用法上下文级别和结构性上下文级别二者均匹配的ICE匹配往往是查找片段的更合适的翻译,因此,这种ICE匹配在消除不定性过程中被认为是重要的。
在本发明的另一设计中,所述至少一个惯用法上下文级别包括前文目标惯用法上下文级别。在目标语言中的所述正被翻译的片段之前的片段通常是合适翻译的非常好的指示;因此,优选地,前文目标惯用法上下文级别匹配被优先考虑。在本发明的优选实施方式中,基于目标惯用法上下文级别结合源惯用法上下文级别消除不定性。
在本发明的又一设计中,所述至少一个惯用法上下文级别包括前文源惯用法上下文级别。在源语言中当前正被翻译的片段之前的片段通常是合适翻译的良好指示,因此另选地,前文源惯用法上下文级别匹配被优先考虑。
在本发明的实施方式中,在确定了多于一个ICE匹配的情况下,所述ICE匹配确定步骤包括根据上下文匹配度确定每个ICE匹配的优先顺序,从而更合适的ICE匹配可优于一个或更多个其他ICE匹配。确定优先顺序的步骤可包括多个不同的优选步骤,它们可被认为按次序的,以找出针对查找片段的最合适匹配。第一步骤可包括优选源和目标惯用法上下文级别以及结构化上下文级别都与查找片段的相匹配的ICE匹配。第二步骤可包括优选源和目标惯用法上下文级别都与查找片段的相匹配的ICE匹配。优选地,源上下文级别是前文源惯用法上下文级别,目标惯用法上下文级别是前文目标惯用法上下文级别。第三步骤可包括与仅后文源惯用法上下文级别或后文目标惯用法上下文级别与查找片段的相匹配的ICE匹配相比,优选前文源惯用法上下文级别或前文目标惯用法上下文级别与查找片段的前文源惯用法上下文级别或前文目标惯用法上下文级别相匹配的ICE匹配。第四步骤可包括与仅结构性上下文级别与查找片段的相匹配的ICE匹配相比,优选任一惯用法上下文级别与查找片段的任一惯用法上下文级别相匹配的ICE匹配。第五步骤可包括与结构性上下文级别与查找片段的不同的ICE匹配相比,优选结构性上下文级别与查找片段的结构性上下文级别相匹配的ICE匹配。第六步骤可包括优选在素材中的位置最接近查找片段的位置的ICE匹配。
可基于片段编号确定在素材中的位置,其中片段在素材中可连续地编号,并且所述编号用作各个片段标识。另选地,可基于素材中的行号或单词编号确定位置。此外,结构性惯用法上下文可被解释为在素材中的位置的形式,即,基于匹配是否出现在“标题”、“表单元”、“段落”、“脚标”等中来指示这种位置。
如果一个优选步骤提供了决定性结果,则消除不定性程序结束,否则该程序前进到后续步骤等,直到得到了优选匹配形式的决定性结果。本发明的其它实施方式可包括不同次序的一些或全部以上优选步骤,并且上述优选步骤可另选地或附加与其它优选步骤相结合。
本发明的实施方式涉及允许用户基于优先顺序选择ICE匹配。因此,作为自动选择并插入到翻译文档中的ICE匹配的替代,ICE匹配可被显示给用户,并且用户可基于显示的ICE匹配的排名选择ICE匹配。此外,ICE匹配可被排序并且根据匹配上下文级别和/或匹配上下文级别的类型(源、目标、后文、前文、结构性等)的编号进行显示。
在本发明的实施方式中,查找片段包括内容基本相同的多个查找片段,并且其中ICE匹配确定步骤包括针对各查找片段确定ICE匹配。因此,多个片段可批量处理或基本同时处理,以减少所需的全部处理。当处理一批将要被翻译的片段时,基于探索的方法可被应用以帮助选择片段的“最佳”翻译,从而能够确定下一片段的ICE级别(当考虑目标惯用法上下文时)。一个这种方法可为利用最佳ICE匹配,或单个准确匹配,选择性地与后退机制(例如片段位置、最后一次翻译的日期、素材元数据等)结合。基于探索的方法在与翻译者的交互很少或没有交互的情况下是很有用的,这种情况下翻译系统不能肯定不定性匹配(ICE匹配或其它)是否是对片段的足够合适的匹配。
在本发明的一些设计中,至少一个查找片段具有不同于至少一个其他查找片段的ICE匹配。通常,一个查找片段将具有不同的ICE匹配,其可在识别各查找片段的ICE匹配的过程中起到帮助。
根据本发明的第二方面,提供了一种用于确定存储在翻译存储器中的多个源文本与将要翻译的查找片段的匹配级别的系统,所述系统包括:
在多个源文本中确定对查找片段的任何准确匹配的装置;和
在确定出至少一个准确匹配的情况下,在查找片段的上下文与对应的准确匹配相匹配时将该对应的准确匹配确定为是针对查找片段的上下文准确(ICE)匹配的装置,
其中所述上下文包括至少两种级别,并且
其中所述至少两种级别包括源惯用法上下文级别和目标惯用法上下文级别。
根据本发明的第三方面,提供了一种在翻译存储器中存储翻译单位的方法,翻译单位包括源文本和目标文本,所述方法包括以下步骤:
向翻译单位分配上下文,其中上下文包括至少两种级别,所述至少两种级别包括源惯用法上下文级别和目标惯用法上下文级别;和
将上下文与翻译单位一起存储。
根据本发明的第四方面,提供了一种用于在翻译存储器中存储翻译单位的系统,所述翻译单位包括源文本和目标文本,所述系统包括:
用于将上下文分配给翻译单位的装置,其中上下文包括至少两个级别,所述至少两个级别包括源惯用法上下文级别和目标惯用法上下文级别;以及
用于将上下文与翻译单位一起存储的装置。
根据本发明的第五方面,提供了一种翻译存储器,其包括:
用于与查找片段相比较的多个源文本;和
各源文本的上下文标识,
其中所述上下文标识包括源惯用法上下文部分和目标惯用法上下文部分。
在本发明的一些实施方式中,源惯用法和/或目标惯用法上下文部分包括前文和/或后文惯用法上下文部分。在本发明的其它实施方式中,上下文标识包括结构性上下文部分。因此,上下文标识数据可与翻译单位关联地被存储于翻译存储器中,从而它们相关的上下文可例如在针对查找片段搜索翻译存储器的过程中容易地被识别。翻译单位可具有多个惯用法上下文和/或多个结构性相关上下文标识。
根据本发明的第六方面,提供了一种与包括翻译存储器的翻译系统交互的客户机侧系统,所述系统包括:
用于将片段标识分配给将被翻译系统翻译的片段的装置,所述片段标识指示片段的源惯用法上下文和目标惯用法上下文;以及
用于传输片段标识的分配结果,使其存储为翻译存储器的一部分的装置。
在本发明的设计中,片段标识包括结构性上下文。因此,片段可根据它们的结构性上下文识别。
根据本发明的第七方面,提供了一种确定存储在翻译存储器中的多个源文本与将被翻译的查找片段的匹配级别的方法,所述方法包括以下步骤:
在多个源文本中确定对查找片段的任何模糊匹配;和
在确定出至少一个模糊匹配的情况下,在查找片段的上下文与对应的模糊匹配的上下文相匹配时将该对应的模糊匹配确定为查找片段的上下文模糊匹配。
因此,本发明还允许消除多个模糊匹配之间的不定性。不定性消除根据各模糊匹配的上下文与查找片段的上下文的比较执行。如果片段的至少一个上下文级别与查找片段的至少一个上下文级别相匹配,则该片段为上下文模糊匹配。与非上下文模糊匹配相比,上下文模糊匹配将更合适。优选地,上下文包括结构性上下文。
上下文模糊匹配可根据上下文的不同级别(例如结构性上下文级别和/或元数据)进行识别。类似地,对于ICE匹配,当消除上下文模糊匹配之间的不定性时,可以确定不同上下文级别的优先顺序。
本发明还可被应用到具有相同匹配度(也被称为模糊匹配得分)的模糊匹配,例如相同百分数的模糊匹配。一个实例应用可为消除多个各自具有97%的匹配度的模糊匹配之间的不定性。另一实例应用可用于区分多个具有99%的匹配度的多个模糊匹配。这里的术语“相同”可为确切相同或近似相同,例如这样的模糊匹配,它们的模糊匹配度当四舍五入为最接近的百分数值时相同,等等。
代替确定具有相同模糊匹配度的模糊匹配的优先顺序,或在确定具有相同模糊匹配度的模糊匹配的优先顺序之外,确定模糊匹配的优先顺序可在模糊匹配度的特定范围(或得分区间)进行,例如在99-95%或85-94%之间执行,其中确定优先顺序可利用结构性上下文(例如,标题、段落、表单元等)执行。
本发明还可应用于模糊匹配度不同的模糊匹配中,其中第一模糊匹配具有与第二模糊匹配(例如,99%模糊匹配)相比更低程度的模糊匹配(例如,98%模糊匹配),第一模糊匹配将仍然被认为是查找片段的更合适的匹配,这是因为第一模糊匹配具有与查找片段匹配的上下文级别,而第二模糊匹配没有与查找片段匹配的上下文级别。这种情况可发生,尽管第一模糊匹配的模糊匹配度低于第二匹配。
本发明还可被应用到混合情景中,其中考虑准确匹配和模糊匹配二者的上下文。这里例如99%的模糊匹配将仍然被认为是与准确匹配相比更合适的匹配,这是因为模糊匹配具有与查找片段相匹配的上下文级别,而准确匹配没有与查找片段相匹配的上下文级别。再次地,不同级别的上下文匹配和确定不同上下文级别的优先顺序可被应用到这种混合情况。
根据本发明的第八方面,提供了一种确定存储在翻译存储器中的多个源文本与将被翻译的查找片段的匹配级别的系统,所述系统包括:
用于在多个源文本中确定查找片段的任何模糊匹配的装置;和
用于在确定出至少一个模糊匹配的情况下,当查找片段的上下文与对应的模糊匹配的上下文相匹配时,将该对应的模糊匹配确定为是查找片段的上下文模糊匹配。
根据本发明的第九方面,提供了一种计算机程序产品,其包括计算机可读介质,该计算机可读介质具有记录在其上的计算机可读指令,当通过计算装置执行时,所述计算机可读指令可操作以使得计算装置执行本发明的第一、第三或第七方面的方法。
本发明的上述和其他特征将从以下本发明实施方式的更具体的描述中变得清楚。
附图说明
将参照附图详细描述本发明的实施方式,图中相同的标号指代相同的元件,其中:
图1示出了根据本发明的利用ICE匹配翻译系统的计算机系统的框图;
图2A-2B示出了图1的系统的操作方法的一种实施方式的流程图;
图3示出了在示例性翻译存储器中的几个条目;
图4示出了包括图3的条目的示例性源素材;
图5示出了根据本发明的针对翻译存储器的产生的一种实施方式的流程图;
图6示出了根据本发明的针对翻译存储器的产生的另一实施方式的流程图。
具体实施方式
仅为了方便的目的,具体实施方式包括以下小标题:I、定义;II、总体概述;III、系统概述;IV、操作方法和V、结论。
I、定义
“素材(asset)”指例如通过上下文、惯用法、大小等限定的文档片段的分组或相关内容的绑定集合的内容源。通常素材与文档(例如超文本置标语言(HTML)文件、微软Word文档或简单文本文件)联系在一起。但是一些素材不与文件系统的文件相对应。所述素材实际上可由数据库表的列或者可扩展标记性语言(XML)库的结构限定。不管它们物理上如何表达,它们目的相同——定义可被访问、操纵和最终翻译的相关内容的绑定集合。素材可含有内容、格式信息和取决于素材的性质的内部结构数据。
“源素材”指从中抽出查找片段的集合。
“片段”包括可翻译的内容块,例如,短语、句子、段落等。其表示翻译工作的最小单位。实践中,片段可代表段落、句子或甚至句子片段。片段通常不是单个单词,但是也可使用单个单词。
“源文本”指翻译存储器中的与原始(源)语言对应的文本,其为被翻译的语言。在匹配查找处理中,源文本与来自素材的查找片段进行对比,以找出匹配。
“目标文本”包括针对特定场景(locale)对源文本的翻译,即,其为翻译存储器(TM)单元的一半。
“翻译存储器”(缩写为TM)包括包含有TM条目的库。TM可包括针对任意数量的场景的TM条目。例如,其可含有英语-法语条目、希腊语-俄语条目、阿拉伯语-土耳其语条目等。
“TM单元”包括存储在翻译存储器中的翻译对,将源文本映射到目标文本(还被称作翻译单位、TM条目或记录)。尤其是对于给定的翻译对,其包括源文本和目标文本场景对,并且通常与其翻译产生该翻译对的素材相关。效果上,TM单元代表先前的翻译,其可被后来再使用。此外,根据本发明的各TM单元包括上下文部分,其指示相关源文本和目标文本对的上下文。翻译单位通常是双语的,但是也可以是多语的,并包括诸如上下文信息、使用计数、创建日期等的元数据。
“准确匹配”指在源文本从翻译存储器中调出的时刻,源文本含有与来自素材的查找文本完全一致的源文本。在本文使用时,准确匹配还包括100%匹配,其与准确匹配类似,但不一定是准确匹配,这是因为在翻译存储器单元中存在差别。例如,在由于以下原因之一匹配得分可能为100%而但不是准确匹配:1)不计评分的空格区域差别——使用与TM单元的空格符号不同类型的空格符号将阻止其被选为准确匹配;2)设定的不利后果(configured penalties),通过设定的不利后果,本发明很可能忽略源文件和查找文件之间的一些差别;或3)片段修复,通过片段修复,修复探索(repair heuristics)可施加以修复TM匹配和原始查找文本之间的差别。片段修复可通过使用可安置元素和自动替换以及自动定位技术来执行,例如在美国专利第US 7,020,601中描述的那样,通过引用将该文件的全部内容包含在本文中。
“上下文”指围绕文本片段并帮助确定其解释的论述。在本文使用时,上下文可包括不同级别。例如,上下文可包括:惯用法上下文级别、素材上下文级别、结构性上下文级别和/或片段指示器。取决于内容的预期读者,各不同的上下文可能需要不同的措辞。
“惯用法上下文”指围绕片段并影响本发明怎样得到针对内容的翻译的论述。惯用法上下文可为源惯用法上下文,其考虑源语言中的围绕将被翻译的文本的文本。惯用法上下文可为目标惯用法上下文,其考虑目标语言中的围绕被翻译的文本的翻译的文本。通常,与环境内容相关地限定惯用法上下文,其为将要翻译的片段的含义提供理解。惯用法上下文可具有特定片段之前的文本方面的级别和特定片段之后的文本方面的级别,和还具有就上下文是在源语言中还是在目标语言中围绕将被翻译的文本而言的级别。前文惯用法上下文级别和后文惯用法上下文级别可与源惯用法上下文级别和目标惯用法上下文级别结合,以产生进一步的上下文级别,形式为前文源惯用法上下文级别、前文目标惯用法上下文级别、后文源惯用法上下文级别和后文目标惯用法上下文级别。
“素材上下文”指有关于片段所在的素材环境的论述,即出现文本片段的整篇内容的背景和前景框架。
“结构性上下文”指出现片段的文档结构单元,例如段落、标题、索引词条、列表或表单元等。
针对查找片段的“上下文准确(ICE)匹配”指源文本必须是准确匹配,并与提供该匹配的TM单元共享至少一种上下文级别。
“查找文本”指来自源素材的文档片段,针对其搜寻TM匹配。
“片段标识”(SID)包括限定其中给定的片段将被翻译的惯用法上下文的标签,并且与创建TM单元或内容时的内容相关。SID提供针对给定片段的上下文指示。SID可包括限定片段边界的标记标签。如下所述,SID是基于惯用法上下文针对周围片段的另一种方案或延伸。
II、总体概述
本发明提供了方法、系统和程序产品来确定存储在翻译存储器中的多个源文本与将被翻译的查找片段的匹配级别等。本发明为先前存储在翻译存储器(TM)中的翻译的源内容产生高质量的匹配。在现有技术中,可获得的最佳匹配是准确匹配,即源文本与TM中的一个或更多个词条一致的匹配。但是,没有精确地选择针对给定片段的最佳准确匹配或确认给定的准确匹配是否是针对其将被应用的上下文的合适匹配的自动过程。具体地说,在不同的环境或上下文下一个片段可被不同地翻译。准确匹配的合适性需要评价上下文信息,其可基于内容惯用法(由围绕该片段的句子或片段限定)、结构性上下文、素材上下文(取决于预期读者,可需要不同的措辞)和/或其它元数据,其它元数据例如领域标识、消费者姓名或通过系统的用户提供的或从先前翻译项目中自动地产生或提取的其他信息。
领域标识可涉及广阔的主题,其与准确匹配相关,例如‘电子工程’、‘农业’或‘计算机科学’。以单词‘bank’为例,如果领域标识指示金融领域而不是地理领域,则可消除不定性。
本发明不替换准确匹配过程。相反,其在准确匹配之上提供用于匹配的新级别,因此,使用减小手动确认的需要和帮助人们创建尽可能有价值的TM的可靠的再使用TM系统。具体地说,本发明的一种实施方式通过在多个源文本中确定查找片段的任何准确匹配;并在确定出至少一个准确匹配的情况下,在查找片段的上下文与对应的准确匹配的上下文匹配时,将对应的准确匹配确定为是该查找片段的上下文准确(ICE)匹配,来确定存储在翻译存储器中的所述多个源文本与将被翻译的查找片段的匹配级别。因此,ICE匹配确定基于查找片段的上下文确定准确匹配的合适度。那些是准确匹配并且具有匹配上下文的源文本被称作“上下文准确(ICE)匹配”。ICE匹配被认为优于准确匹配,原因是其确保了施用的翻译对于其所被应用到的上下文是合适的。利用了与当前被翻译的片段相同的上下文中先前翻译的匹配,ICE匹配是保证了高级别合适度的翻译匹配。
本发明充分利用上下文信息以:1)为对新内容确定作为高质量(不需要再检查)匹配的合适的准确匹配;2)针对给定的查找片段选择最佳上下文匹配;和3)确保为先前翻译内容分配的先前翻译总是可恢复的。对于新的内容,本发明充分利用上下文信息以基于片段惯用法上下文从TM中找出高质量匹配。基于素材和/或结构性和/或内容级别,本发明还确保相同的内容在给定上下文的情况下总是按照相同的方式翻译。
就给定查找片段的翻译而言,假定源文档被翻译并且所有的片段都被存储在TM中。如果同一源文档随后经历第二次翻译,则所述文档(包括其所有内容)将完全匹配并且所得的翻译文档将与第一次翻译的文档完全相同。该行为是容易理解并且是所期望的。但是,这只能通过使用上下文信息来进行保证。为了进一步理解该保证的重要性,考虑在两个不同的地方具有两次重复的确切相同的句子的源文档。因为第二次使用的意图可能与第一次使用的意图不同,其翻译困难。现在再次考虑与TM充分比较的相同文档。重复的句子应该具有相同的翻译吗?或者,重复的句子应该与它们在原始文档中的情况相区别吗?如果不考虑它们使用的上下文,这些句子很可能通过TM按照相同的方式翻译。但是,根据本发明,考虑了上下文,其确保了两个句子继续具有不同的翻译,前提是它们的使用上下文这样要求。
在存储先前翻译的文本片段方面,本发明还确保了新文档的翻译不损害对之前翻译文档的翻译的恢复能力,通过将先前翻译的文档与TM充分比较,从而其总是得到与翻译者存储的翻译相同的翻译来提供确保翻译可完美重复的方法。再次考虑两个相同文献。第一文档被翻译,结果被存储在TM中。当第二文档与相同的TM进行充分比较时,文档被呈现为用ICE匹配完全翻译。惯用法上下文与第一文档的相同。现在考虑第二文档针对不同读者。源语言文本在该实例中不变,这是由于其被认为是对于两种读者都是合适的。但是,翻成目标语言的翻译需要一些改变。翻译者更新针对该文档的翻译,并将结果存储为TM。随着时间消逝,再次需要这两个翻译的文档的拷贝。由于空间原因,原始翻译的文档被删除。源文档中的任一个没有被改变,并因此它们将含有相同的源文本。本发明方便了原始翻译的文档的再生,每个与原始翻译的文档相同(它们本身不相同)。即使源文档的内容是相同的,本发明也能够比较素材上下文信息,以确保文档的特定翻译是可恢复的。
本发明可被采用作为诸如Idiom′s WorldServerTM的内容管理系统的一部分或者zuowie分立的系统被开发。例如,WorldServerTM是基于网络的应用程序,其使得企业在全球化过程中管理它们的内容,同时比较建立的网络构造、内容管理和工作流系统。内容管理系统简化了由于部署例如全球网络策略导致的多复杂性,使得公司的网址有效地支持多个国家和不同的语言、位置和文化。它们提供网点管理者、网络开发者、内容拥有者、翻译者和编辑之间的合作结构和过程,获得流水线化的处理、同步全球网络战略和协调的全球网络组。翻译者使用内容管理系统来查看他或她必须翻译的内容。在WorldServerTM中,翻译者可将需要翻译的内容导出到第三方编辑工具上,或利用翻译工作台执行实际翻译。翻译者可为个人撰稿者,包括承接但不翻译内容的用户和/或校对内容的校对人。内容管理系统将翻译的短语存储到TM中以备以后使用。
III、系统概述
参照附图,图1是根据本发明的上下文准确匹配翻译系统100的框图。应该认识到,虽然系统100被示出为分立的系统,但是其可作为更大的内容管理或翻译系统(例如Idiom′s WorldServerTM)的一部分。这样,系统100的描述可包括翻译系统的特定功能,但是为了清楚起见,省略了其他功能。此外,应当认识到虽然系统100被示出为客户机-服务器(例如,基于网络的)环境,但是其他的布置也是可能的。
系统100被示出为在计算机102上作为计算机程序代码实现。在这种情况下,计算机102被示出为包括存储器112、处理单元(PU)114、输入/输出(I/O)接口116和总线118。此外,计算机102被示出为与外部I/O装置/资源120和存储系统122通信。总体来说,处理单元114执行存储在存储器112和/或存储系统122中的计算机程序代码,例如系统100。在执行计算机程序代码的同时,处理单元114可从存储器112、存储系统122和/或I/O装置120读取数据和/或将数据写到存储器112、存储系统122和/或I/O装置120中。总线118提供计算机102的各组件之间的通信链路,I/O装置120可包含使用户能够与计算机102交互的任何装置(例如,键盘、指点装置、显示器等)。
另选地,用户可和与计算机102通信的其他计算装置(未示出)交互。在这种情况下,I/O接口116可包含使得计算机102能够通过网络与一个或更多个其他计算装置通信的任何装置(例如,网络系统、网络适配器、I/O端口、调制解调器等)。网络可包括各种类型的通信链接的组合。例如,网络可包括利用有线和/或无线传输方法的任意组合的可寻址连接。在这种情况下,计算装置(例如,计算机102)可利用传统网络连接,例如Token Ring、以太网、WiFi或其他传统通信标准。此外,网络可包括一种或更多种任何类型的网络,包括互联网、广域网(WAN)、局域网(LAN)、虚拟专用网(VPN)等。在通过互联网进行通信的情况下,通过传统的基于TCP/IP套接字的协议提供连接,并且计算装置可利用互联网服务提供商来建立与互联网的连接。
计算机102仅是硬件和软件的各种可能结合的代表。例如,处理单元114可包含单个处理单元,或分布为在一个或更多个位置(例如,位于客户机和服务器上)的一个或更多个处理单元。类似地,存储器112和/或存储系统122可位于一个或更多个物理位置。存储器112和/或存储系统122可包含各种类型的包含磁媒体、光媒体、随机存取存储器(RAM)、只读存储器(ROM)、数据对象等的计算机可读媒体和/或传输媒体的任意组合。I/O接口116可包括用于与一个或更多个I/O装置交换信息的任何系统。此外,应当理解,图1中未显示的一个或更多个额外组件(例如,系统软件、数学协同处理单元等)可被包含在计算机102中。在这种情况下,计算机102可包含任意类型的计算装置,例如网络服务器、台式计算机、笔记本计算机、手持装置、移动电话、寻呼机、个人数字助理等。但是,如果计算机102包括手持装置等,则应该理解一个或更多个I/O装置(例如,显示器)和/或存储系统122可被包含在计算机102中而不是如图所示的在计算机102之外。
如以下进一步讨论的,系统100被示出为包括准确匹配确定器130、上下文准确(ICE)匹配确定器132、哈希算法133、模糊匹配确定器134、翻译存储器(TM)产生器136、片段检索器138和其他系统组件140。ICE匹配确定器132包括上下文指示器142、匹配评价器144和ICE匹配优先顺序确定器146。其他系统组件140可包括发明操作必需的其他功能,但并没有在本文描述。例如,其他系统组件140可包括例如由Idiom′s WorldServerTM提供的自动翻译系统和/或内容管理系统功能。
虽然为了清楚在图1中没有显示,但是应当理解,客户机侧系统150可包括与计算机102相似的结构,并包括用于提供以下描述的功能的程序代码。
图1还显示了系统100使用的翻译存储器128(以下称为“TM 128”)。如图3所示,TM 128包括多个TM条目148,所示TM条目148包括存储的针对特定源文本152A、152B分别被先前翻译为特定语言的目标文本162、164(为了简单仅显示了两个)。例如,存储的源文本“global enterprises(全球企业)”152A已经被转译为多种德语翻译152,即目标文本,并且存储的源文本“team of visionaries(志愿者组)”152B被翻译为多种法语翻译164,即目标文本。每个源文本152A、152B用于与查找片段比较。各TM单元148还包括上下文标识166(为了清楚仅标志了两种)。在一种实施方式中,上下文标识166包括不同上下文级别(例如,源惯用法上下文部分168和素材上下文部分(AC)170)的标识。素材上下文部分170包括素材代码(例如“33333”),其为系统100指定特定素材。还可提供其他上下文级别,例如结构性上下文标识。在一些情况下,素材上下文部分170可被省略。在本发明的该实施方式中,惯用法上下文级别是前文源惯用法上下文级别和后文源惯用法上下文级别。在本发明的其他实施方式中,惯用法上下文级别可另选地或附加地包括前文目标惯用法上下文级别和/或后文目标惯用法上下文级别。
在一种优选实施方式中,各惯用法上下文部分168包括前文源惯用法上下文(UC)哈希代码172和后文源惯用法上下文(UC)哈希代码174。在翻译过程中出现各源文本后,利用哈希算法133基于前文片段产生的文本流产生前文UC哈希代码172。类似地,在翻译过程中出现各源文本后利用哈希算法133基于后文片段产生的文本流产生后文UC哈希代码172。哈希算法133包括可将文本流转换为唯一的数字识别的任何现在已知或随后发展的哈希算法(应该认识到,为了清楚起见,显示的哈希代码被简化了)。因此,每个UC哈希代码指示针对对应的源文本的唯一惯用法上下文级别。在另选的实施方式中,仅针对特定源文本152以及前文和后文片段使用一个惯用法上下文哈希代码。
当查找片段154在创建时被指配了上下文时,可如上所述利用用户指定的SID,而非哈希算法133或二者的结合,产生上下文标识166,所述二者的一个可优先于另一个。
应该认识到本文所用的特定代码仅用于阐述的目的。
IV.操作方法
转到图2A-图2B,现在将描述本发明的操作方法的一种实施方式的流程图。图2A-图2B的讨论将结合图1、3和4进行。
A、初步步骤
从图2A开始,作为初始步骤PS,在一种实施方式中,直接连接或通过一些类型的网络(例如,LAN、WAN或互联网)连接的客户机计算机系统150将查找片段154载入到ICE匹配系统100。例如,查找片段154可通过诸如Idiom′s WorldServerTM的翻译流程应用程序服务器(未示出)装载,其中ICE系统是该翻译流程应用程序服务器的一部分。查找片段154可作为更大的素材的一部分装载。在这种情况下,系统100可以以任何现在已知的或后来发展的方式对所述更大的素材进行分割以创建查找片段154,例如,像Idiom′s WorldServerTM提供的那样。分割是这样一种处理,通过这种处理,素材的内容作为可翻译的片段被分析和揭露。片段的大小取决于分割规则,其可由用户定义。
B、一般的方法
步骤S1-S12代表对各查找片段154的分析。
在第一步骤S1中,由准确匹配确定器130在TM 128中的多个源文本152中确定查找片段154的任何准确匹配。准确匹配确定器130可以象最常规的TM系统那样工作,其使用串比较算法来判断存储在TM 128中的翻译的合适度,其中基于两个串的匹配的接近程度来获得得分。100%得分通常表示已经找到了准确匹配,或者表示差异是可自动解决的(例如,利用可安置的元素、自动定位或自动替换技术‘修改后的’)。例如,如图3所示,当翻译成德语时,查找片段“global enterprises”将得到三种准确匹配:1)globale Wesen、2)globale Unternehmen和3)globale当翻译成法语时,查找片段“team of visionaries”将得到四种准确匹配:1)équipe de visionnaires、2)groupe de visionnaires、3)bande des visionnaires和4)groupe de futurologues。针对各查找片段154,在TM 128中可存在多于一种的准确匹配,这是因为针对任何给定片段有多种翻译,在给定语言中的陈述的意义不仅从单词中衍生,还从单词所应用的上下文中衍生。因此,针对特定源文本152,各先前翻译可导致许多目标文本翻译162、164,因此导致相同的查找片段。
在步骤S2中,确定是否确定出了至少一个准确匹配,即,在TM 128中是否找到至少一个准确匹配。如果在步骤S2中结果是“否”,则处理前进至步骤S3,在步骤S3中,模糊匹配确定器134按照任何已知的方式或今后发展的方式来确定是否存在针对查找片段154的任何模糊匹配。在步骤S4,报告针对查找片断154的任何模糊匹配。本文所用的“报告”可指将结果显示给用户、传递和/或存储结果。虽然没有显示,但是,如果没有找到模糊匹配,则开始传统自动翻译。
如果步骤S2的结果是“是”,则在步骤S5中,ICE匹配确定器132确定对应的准确匹配是否是查找片段154的上下文准确(ICE)匹配。如上所述,“ICE匹配”意味着源文本152必须是准确匹配,并且还与查找片段154共享共同的上下文。换句话说,具有与查找片段154的上下文标识匹配的上下文识别166的准确匹配是ICE匹配。在一种实施方式中,针对该确定的上下文仅包括惯用法上下文。但是,可采用其它上下文匹配级别,如将在以下描述的。
步骤S5包括两个子步骤。首先,在子步骤S5A,上下文识别器142识别查找片段154的上下文。在一种实施方式中,上下文识别器142基于查找片段154的源素材中的查找片段154的周围片段来识别上下文。在这种情况下,执行哈希算法以通过计算查找片段(LS)前UC哈希码和查找片段(LS)后UC哈希码来确定针对查找片段154的惯用法上下文。再次地,哈希算法133包括可将文本流转化为唯一数字识别的任何已知的或以后开发的哈希算法。参照图4,显示了示意性的包括“team of visionaries”形式的查找片段154A的源素材180。LS前UC哈希码基于其刚好前一个片段190形成。例如,如图4所示,将针对“Idiom was founded in January 1998 by a team of visionaries.”计算LS前UC哈希码。类似地,LS后UC哈希码将针对紧随其后的片段192即“team of visionaries who recognized the need for an enterprise-class software product that would meet the globalization.”进行计算。针对源素材180的素材上下文可基于素材哈希由上下文识别器142识别,所述素材哈希基于系统对特定素材的标识,例如,素材名称、系统内的位置等。
在另选的实施方式中,上下文识别器142根据与查找片段154相关的片段标识(SID)识别查找片段154的上下文,如上所述,片段标识(SID)包括限定其中片段将被翻译的惯用法上下文的标签。SID可包括限定片段边界的标记标签。优选地,创建片段的期间(即由内容产生器)使SID与源文本152和/或查找片段154相关。但是,SID可与源文本152和/或查找片段154相关,或随后由(例如)先前的内容翻译者覆写。
在子步骤S5B中,ICE匹配评价器144利用与各候选一起存储的上下文标识166对查找片段154的各准确匹配进行评价以确定其是否与查找片段154用在相同的上下文中(即,各匹配是否是ICE匹配)。可以预先定义将准确匹配认为是ICE匹配所需的上下文匹配度。在一种实施方式中,ICE匹配评价器144仅在查找片段154的各上下文级别都与对应的准确匹配匹配的情况下,才指示对应的准确匹配是针对查找片段154的ICE匹配。例如,在上下文包括惯用法上下文级别和素材上下文级别的情况下,可仅在查找片段的惯用法上下文级别和素材上下文级别都与对应的准确匹配的惯用法上下文级别和素材上下文级别相匹配的情况下,确定步骤才指示对应的准确匹配是针对查找片段的ICE匹配。作为另一实例,在上下文包括惯用法上下文级别和结构性上下文级别的情况下,仅在查找片段的惯用法上下文级别和结构性上下文级别都与对应的准确匹配的惯用法上下文级别和结构性上下文级别相匹配的情况下,确定步骤才指示对应的准确匹配是查找片段的ICE匹配。惯用法上下文级别可包括一个或更多个前文源惯用法上下文级别,后文源惯用法上下文级别、前文目标惯用法上下文级别和后文目标惯用法上下文级别。
实例
参照图3,假设示例性查找片段154包括文本“team of visionaries”并且其将被翻译为法语。另外,假设查找片段“team of visionaries”具有LS前US哈希码333和LS后US哈希码4444,以及素材上下文666666。(应该理解为了清楚起见,图3中的所有哈希码都被简化)。如图3中所示,当查找片段“team ofvisionaries”被翻成法语时,准确匹配确定器130将确定出针对查找片段“team of visionaries”的4个准确匹配:1)équipe de visionnaires、2)groupe de visionnaires、3)bande des visionnaires和4)groupe de futurologues。ICE匹配评价器144检查所述准确匹配,如图3所示,其将确定当查找片段“team of visionaries”被翻译成法语时,源文本“groupe de visionnaires”具有相同的上下文,这是因为其具有同一素材上下文170和惯用法上下文(哈希码)172、174。因此,“groupe de visionnaires”将为ICE匹配。其它源文本将不被认为是ICE匹配,这是因为它们不具有查找片段“team of visionaries”的至少一个上下文代码。
在另选的实施方式中,即使仅查找片段的一些上下文级别与对应的准确匹配匹配,ICE匹配评价器144也可指示对应的准确匹配是针对查找片段154的ICE匹配。
实例
参照图3,假设示例性查找片段154包括文本“global enterprises”,并且其将被翻译成德语。另外,假设查找片段“global enterprises”具有LS前US哈希码1234和LS后US哈希码4321以及素材上下文7890。如图3所示,当查找片段“global enterprises”被翻译成德语时,准确匹配确定器130将确定出针对查找片段“global enterprises”的三个准确匹配:1)globale Wesen、2)globale Unternehmen和3)globale 。假设对于将准确匹配确定为ICE匹配仅需要一个惯用法上下文级别,则ICE匹配评价器144检查准确匹配,并如图3所示,将确定出当查找片段“global enterprises”被翻译成德语时,源文本“globale Wesen”和“globale Unternehmen”具有相同的上下文,这是因为它们每个都具有与LS UC哈希码之一匹配的UC哈希码。即“globale Wesen”与查找片段具有同一前文源UC哈希码,“globale Unternehmen”与查找片段具有同一后文源UC哈希码。其他源文本将不被认为是ICE匹配,这是因为它们与查找片段“global enterprises”不具有至少一个上下文级别。将在以下描述系统100怎样确定多个ICE匹配的优先顺序的细节。
如果确定没有ICE匹配,即,步骤S6结果为“否”,则在步骤S7中,报告任何准确匹配。接着,在步骤S8中,用户可按照任何已知的或今后开发的方式来确认这些准确匹配和模糊匹配(即在步骤S3-S4中)。在这种情况下,准确匹配和模糊匹配被放入到它们各自的快速缓冲储存区,并且通过客户计算机系统150提供给翻译者,其中翻译者必须确认每个准确匹配以确保对于给定源素材180内容该匹配是最佳匹配,并且更新各模糊匹配以匹配源素材180内容。
如果确定出ICE匹配,即,在步骤S6中为“是”,则如图2B所示,在步骤S9中,ICE匹配优先顺序确定器146确定是否找到多于一个的ICE匹配。如果仅确定出了一个ICE匹配,则在步骤S10中,报告该单个ICE匹配。一旦ICE匹配被自动报告,则系统100就允许通过片段检索器138检索目标文本162、164。
本发明的实施方式涉及利用结构性上下文级别改进ICE匹配的不定性现象。考虑以下涉及结构性上下文级别的第一实例:
源1(s1)-结构性上下文=标题文本:‘Print the document’。
目标1(t1)-结构性上下文=标题文本:‘Das Dokument ausdrucken’。
在这种情况下,在标题结构性上下文(在翻译单位中源片段和目标片段二者的标题结构性上下文相同)中,在该翻译中,德语翻译使用不定式(非定式)。
现在,考虑同一文档中后面的涉及结构性上下文级别的以下第二实例,使用了相同的英语句子,但是这次是在指令列表中,从而在德语中需要定式:
源2(s2)-结构性上下文=指令列表:‘Print the document’。
目标2(t2):-结构性上下文=指令列表:‘Drucken Sie das Dokument aus’。
如果根据本发明的实施方式,上述示例性句子被存储在翻译存储器或其他这类数据存储器中,则不仅不同的翻译将被存储在翻译存储器中,而且它们的结构性上下文(即,标题或者指令列表)也被存储。接着,当相同的句子出现在同一结构性上下文中时,针对当前结构性上下文的合适翻译可优先提出。
结构性上下文级别可在惯用法上下文级别(前文、后文、源和/或目标)和/或素材上下文级别之外或另外使用。
C、确定多个ICE匹配的优先顺序
返回图2B,步骤S11-S12代表考虑在步骤S5中确定了多个ICE匹配(即,步骤S9的结果为“是”)的状态的选择步骤。在一种实施方式(未示出)中,ICE匹配确定器130可简单地允许用户从ICE匹配的列表中选择ICE匹配。但是,这不是优选的,这是因为其损害了ICE匹配的一个目的,即,不是必需对准确匹配进行确认。在图2B所示的优选实施方式中,如果确定了多于一个的ICE匹配,则在步骤S11,ICE匹配优先顺序确定器146根据上下文匹配度来确定各ICE匹配的优先顺序(排序)。如上所述,可预先确定“上下文匹配度”。这个步骤确定各上下文匹配的ICE匹配度的优先顺序并且在步骤S12中向用户呈现ICE匹配以备选择,或者自动选择最高等级的ICE匹配。应当理解,可以基于上下文级别的数量采用确定多个ICE匹配的优先顺序的各种规则。作为一个或更多个固定规则的另选或补充,通过学习过程可获得最优的(或可接受的)优先等级,其中来自训练全集或从先前的翻译项目或在预定时间内实时翻译项目的一部分中得到的观察结果用于调谐不同上下文级别的优先等级。
以下实例示出了用于确定多个ICE匹配的优先顺序的一种实施方式。
实例
假设上下文包括惯用法上下文级别和素材上下文级别,并且查找片段“team of visionaries”被利用图3的基于如图4所示的源文档l 80的TM128翻译成法语。在这种情况下,基于先前存储的翻译,“team of visionaries”具有四个准确匹配:1)équipe de visionnaires,2)groupe de visionnaires,3)bande des visionnaires和4)groupe de futurologues。还假设查找片段“team of visionaries”具有LS前源UC哈希码333,LS后源UC哈希码4444和素材码666666。还假设就ICE匹配确定器132将准确匹配指示为ICE匹配而言,仅一个上下文级别需要与查找片段的上下文级别匹配。在这种情况下,各准确匹配都为ICE匹配。具体地说,1)“équipe de visionnaires”具有匹配前文源UC哈希码和素材码;2)“groupe de visionnaires”具有所有匹配上下文级别;3)“bande des visionnaires”具有匹配素材码和4)“groupe de futurologues”具有匹配后文源UC哈希码。
应当理解,通过定义,ICE匹配优先于非匹配查找片段(即,那些需要手动或机械翻译的)、模糊匹配、以及不是ICE匹配的准确匹配。下面显示了ICE匹配的优先级别说明。在该说明中,等级按照与级别相反的顺序列出(即,数字越大,优先级越高):其中惯用法上下文(UC)级别包括前文UC级别和后文UC级别,并且一些示例性优先顺序确定步骤包括:
1、源惯用法上下文(UC)、目标UC和结构性上下文都匹配优于源和目标惯用法上下文(UC)匹配:
与仅源和目标UC哈希码与查找片段相同的ICE匹配相比,源和目标UC哈希码都与查找片段相同并且结构性上下文匹配也与查找片段相同的ICE匹配更优先。
2、源UC和目标UC都匹配优于仅源UC匹配:
与仅源UC哈希码与查找片段相同的ICE匹配相比,源和目标UC哈希码都与查找片段相同的ICE匹配更优先。
3、前文UC匹配优于后文UC匹配:
与仅后文源惯用法上下文级别或后文目标惯用法上下文级别与查找片段的相同的ICE匹配相比,前文源惯用法上下文级别或前文目标惯用法上下文级别与查找片段的相同的ICE匹配更优先。
4、源惯用法上下文(UC)全匹配优于源惯用法上下文(UC)部分匹配:
假设仅具有与查找片段的哈希码匹配的源UC哈希码的准确匹配被认为是ICE匹配(被称为“部分匹配”),则与所述部分匹配相比,同时与查找片段具有相同的前文和后文源UC哈希码的那些ICE匹配(被称为“UC全匹配”)更优先。换句话说,同时具有与查找片段的前文和后文源UC级别匹配的前文和后文源UC级别的ICE匹配优于仅前文和后文源UC级别之一与查找片段的相匹配的ICE匹配。例如,ICE匹配2)“groupe de visionnaires”将优先于所有其它的,这是因为其与查找片段的前文哈希码(333)和后文哈希码(4444)都匹配。
类似地,目标UC全匹配优于目标UC部分匹配。
5、与查找片段来自相同素材的ICE匹配优于来自其它素材的ICE匹配
在通过以上描述的全匹配优于部分匹配优先模式不能区分两个或更多个ICE匹配的情况下,即,第一优选不能作出决定时,基于素材码,与查找片段来自同一素材的ICE匹配更优先。换句话说,在第一优选不能作出决定时,与查找片段来自同一素材的ICE匹配优于来自不同素材的ICE匹配。在实例中,ICE匹配1)“équipe de visionnaires”和4)“groupe de futurologues”均为部分ICE匹配,但是ICE匹配1)“équipe de visionnaires”与查找片段来自相同素材“666666”,所以更优选。
6、当针对一个查找片段确定了来自相同素材的两个或更多个ICE匹配时,在该素材中的位置与查找片段的位置更近的ICE匹配更优选:
该优选考虑了其中在单个源素材180中多个位置存在查找片段154的情况,并且结果导致针对特定素材具有两个或更多个ICE匹配。例如,图4显示了源素材180包括两次出现的查找片段“team of visionaries”154A、154B。在这种情况下,ICE匹配优先顺序确定器146评价特定查找片段在素材中的位置,并且与来自同一素材的其他ICE匹配相比,将优选在素材中位置与查找片段最接近的ICE匹配。换句话说,在第二优选不能作出决定的情况下,在素材中位置最接近查找片段的位置的ICE匹配优于其他ICE匹配。可以针对查找片段在特定素材中的任意重复次数,来重复这种评价。
优先顺序确定因此可涉及首先查看结合结构性上下文级别的源和目标惯用法上下文级别的匹配,以消除多个ICE匹配的不定性。如果该第一步骤不足以消除ICE匹配之间的不定性,则使用源和目标惯用法上下文级别两者匹配,然后才是仅匹配源上下文级别。与后文惯用法上下文级别相对的前文惯用法上下文级别可在下一步被使用,接着使用与部分源或目标惯用法上下文相对的全文源或目标惯用法上下文。如果以上步骤不能消除多个ICE匹配之间的不定性,则可使用素材上下文级别。如果这对于消除不定性仍然不足,则可利用查找片段的位置。
针对不定性消除目的,素材元数据可按照上述或相似步骤的任意组合和/或优选次序用于多个ICE匹配的优先顺序确定过程中。类似地,当消除模糊匹配的不定性时,可采用与以上或相似步骤不同的优先顺序确定方法和优选次序。
以上优先顺序确定步骤和步骤的排序只是示例性目的并且可采用不同的组合和不同次序的优先顺序确定步骤。
一旦完成了优先顺序确定步骤,则在步骤S12中,ICE匹配优先顺序确定器146以任何现在已知或今后开发的方式允许用户基于等级(例如,通过客户机计算机系统150的图形用户界面)选择ICE匹配,或自动选择最高优先级的ICE匹配。一旦选择了ICE匹配,则系统100允许通过片段检索器138检索至少一个目标文本162、164。
因为ICE匹配提供了高水平匹配质量,所以被确定为ICE匹配的源文本不需要被翻译者校对或确认。它们可被自动接收,因此减少了翻译循环时间并且导致更便宜的翻译成本。此外,系统100考虑了就内容而言多个基本相同的查找片段154出现在单个源素材180中的情况。在这种情况下,系统100能够基于匹配级别确定针对各查找片段154的ICE匹配。通常,与至少一个其它查找片段相比,至少一个查找片段具有不同的ICE匹配,以帮助该确定。如果否,则多个ICE匹配可被报告给用户进行选择,如上所述。系统100还便于内容片段的翻译,其在最小工作量的情况下在不同素材之间重复,包括不会限制对匹配的检索,即使内容的片段被分裂或合并和/或允许内容块在单个素材中被不同地翻译,也是一样。
上述操作可继续以对应于TM 128处理源素材180的其他查找片段,或一旦整个素材完成时向用户提供输出。
D、目标惯用法上下文级别
上述本发明的实施方式主要包括作为源惯用法上下文级别的惯用法上下文级别,即与源语言中围绕将被翻译的文本的文本相关的惯用法上下文。但是,本发明的其他实施方式包括作为目标惯用法上下文级别的惯用法上下文级别即,与在目标语言中将被翻译的文本的翻译周围的文本相关的惯用法上下文。
考虑当前片段g,源s(g)和翻译t(g),其中t(g)为查找片段的期望翻译。如果翻译存储器含有针对源s(g)的多个确切匹配t*(g),则查找片段的惯用法上下文可被考虑,以消除多个确切匹配之间的不定性,即,惯用法上下文被使用,以在t*(g)中选择翻译t(g),其在当前惯用法上下文中最适合。假如在所述片段之前的(双语)片段是片段f,其中s(f)为前文片段的源,并且t(f)为前文片段的目标,并且在当前片段之后的片段为片段h,具有源s(h)和翻译t(h)。
这样,根据上述本发明的实施方式,前文和后文源惯用法上下文级别(s(f)和s(h))分别用于消除翻译t*(g)之间的不定性。但是,本发明的其他实施方式另选地或附加地使用目标惯用法上下文级别,即前文和/或后文目标上下文级别(t(f))和(假如有的话)t(h)分别可被用于消除翻译t*(g)之间的不定性。
现在,通过实例的方式来描述使用源惯用法上下文级别和目标惯用法上下文级别消除不定性之间的区别。
如果文档含有以下三个句子形式的三个片段:
猫睡了。它很可爱。它打呼噜。
接着,假设期望将第二片段翻成德语,即“它很可爱”翻成德语,并且还假设第一片段的翻译已知(″Die Katze″),则根据源惯用法上下文,仅可基于围绕在源语言中被翻译的片段的两个片段,即前一片段s(f)=″猫睡了。″和后一片段s(h)=″它打呼噜。″来消除潜在翻译t*(g)(t*(g)={″Sie ist niedlich.″,″Er ist niedlich.″,″Es ist niedlich.″})之间的不定性。
相反,根据源和目标惯用法上下文级别的组合可基于在源语言中正被翻译的片段之前的片段s(f)=″猫睡了。″以及在目标语言中将被翻译的片段之前的片段t(f)=″Die Katze″来消除潜在翻译t*(g)(t*(g)={″Sie ist niedlich.″,″Er ist niedlich.″,″Es ist niedlich.″})之间的不定性。
在许多情况下,与仅基于源惯用法上下文消除不定性相比,利用源和目标惯用法上下文的组合消除不定性可提供更好的结果。在本发明的其他实施方式中,使用目标惯用法上下文而非源惯用法上下文。
应注意到,在以上,为了完整性,t(h)被首先包括。实际上,后一片段的翻译通常不是已知的,因此不能在翻译者通常顺序地通过文档进行工作时用于消除不定性,所以t(h)将通常不可获得,除非该后一片段被翻译。
E、产生翻译存储器
TM条目的上下文信息的存在对于系统100的操作是必须的。这样,本发明的实施需要存储上下文信息,各新翻译添加到TM。这允许查找片段的上下文信息有效地与先前翻译的片段的上下文信息对比,而不需要访问先前翻译的文档。
为此,在另一实施方式中,本发明提供了一种方法,当翻译被存储至TM 128时上下文信息与每个翻译一起存储,因此不需要翻译者为了本发明能够工作而在周围保持任何文件,例如先前翻译的文档。转到图5,本发明还包括在TM 128中存储源文本和目标文本的翻译对。在第一步骤S100中,利用TM产生器136将上下文分配给翻译对。例如,可通过在产生内容期间实现上述SID或在翻译过程中经过哈希算法133的操作来分配上下文。接着,在步骤S101中,上下文与翻译对由TM产生器136存储在TM 128中。如上所述,上下文可包括惯用法上下文级别(前文、后文、源、目标的任意组合)、结构性上下文级别和素材上下文级别中的一个或更多个。
应当认识到,上述TM产生器也可在素材(片段)创建时在客户机侧系统150上实现。在该实施方式中,本发明包括客户机侧系统150,以与包括TM 128的翻译系统交互(即,系统100以及其他内容管理系统组件140)。转到图1和图6,在这种情况下,客户机侧系统150可通过提供SID分配器200来操作,以将片段标识(SID)分配到将通过TM 128被翻译的片段152(步骤200),SID指示片段的惯用法上下文。SID分配器200可允许用户关联预定SID或可通过利用(例如)哈希算法133产生SID。此外,系统150可包括用于(例如)通过系统100的TM产生器136与作为TM 128的一部分的存储器的SID分配通信(步骤S201)的通信器202。
V、结论
上述发明通过赋予翻译器将源内容与TM的内容完美匹配的能力,减轻了利用TM确认源内容的需要并创建了可靠的可再用的TM系统,其允许更有效的翻译过程,对于翻译器时有价值的。
应当理解,上述步骤的顺序仅是示例性的。因此,一个或更多个步骤可并行执行、按照不同次序执行、在相隔较长的时间执行。此外,在本发明的不同实施方式中,一个或更多个所述步骤可不执行。
应当理解,本发明可以硬件、软件、传播信号或它们的任意组合实现,并且可与所示出的不同地划分。任何类型的计算机/服务器系统-或其他适于执行本文所述的方法的设备-都是合适的。典型的硬件和软件的结合应当是一般用途的计算机系统,其中计算机程序当装载和执行时执行本文所述的各方法。另选地,含有专用硬件以执行一个或更多个本发明的功能性任务(例如,系统100)的专用计算机可被使用。本发明还可嵌入到计算机程序产品或传播信号中,其包括使得本文所述的方法能够执行的所有的各个特征,并且当被装载到计算机系统中时能够执行这些方法。在本上下文中,计算机程序、传播信号、软件程序、程序或软件意味着意图使得具有信息处理能力的系统直接或在以下步骤的一者或二者之后执行特定功能的一套指令的按照任何语言、代码或注释的任意表达,所述步骤为:(a)转化为另一语言、代码或注释;和/或(b)以不同的材料形式再现。此外,应当理解本发明的教导可基于订阅或付费基础作为商业方法被提供。例如,所述系统和/或计算机可由向消费者提供本文描述的功能的服务提供商创建、保持、维护和/或部署。即,服务提供商可提供以上描述的功能。
本发明还可按照其它特定形式实现,而不脱离其精神和必要特征。应当理解上述实施方式仅仅是示例性的并且不限制本发明的原理。各种和其它修改和变型可由采用本发明的原理的本领域技术人员做出,并且落入本发明的精神和范围中,并且所有变化将落入权利要求的等同物的含义和范围内,并意图将其包括在本文的范围内。
本申请要求于2004年5月5日提交的美国临时申请No.60/550,795的权益。该申请是美国专利申请11/071,706的部分继续申请。以引用的方式将这两个申请的全部内容并入本文中。
Claims (35)
1.一种确定存储在翻译存储器中的多个源文本与将被翻译的查找片段的匹配级别的方法,所述方法包括以下步骤:
准确匹配确定步骤,在所述多个源文本中确定所述查找片段的任何准确匹配;
上下文准确匹配确定步骤,在确定出至少一个准确匹配的情况下,当所述查找片段的上下文与对应的准确匹配的上下文相匹配时,将所述对应的准确匹配确定为是所述查找片段的上下文准确匹配,
其中上下文包括至少两个级别,并且
其中所述至少两个级别包括源惯用法上下文级别和目标惯用法上下文级别。
2.根据权利要求1所述的方法,其中在确定出多于一个的上下文准确匹配的情况下,所述上下文准确匹配确定步骤包括根据上下文匹配度确定各上下文准确匹配的优先顺序,从而相对于一个或更多个其他上下文准确匹配优选更合适的上下文准确匹配。
3.根据权利要求2所述的方法,其中与仅源惯用法上下文级别与所述查找片段的源惯用法上下文级别相匹配的上下文准确匹配相比,源惯用法上下文级别和目标惯用法上下文级别分别与所述查找片段的源惯用法上下文级别和目标惯用法上下文级别相匹配的上下文准确匹配被分配更高的上下文匹配度。
4.根据权利要求2所述的方法,其中与仅源惯用法上下文级别与所述查找片段的源惯用法上下文级别相匹配的上下文准确匹配相比,目标惯用法上下文级别与所述查找片段的目标惯用法上下文级别相匹配的上下文准确匹配被分配更高的上下文匹配度。
5.根据权利要求1所述的方法,其中所述源惯用法上下文级别包括前文源惯用法上下文级别,和/或所述目标上下文惯用法级别包括前文目标惯用法上下文级别。
6.根据权利要求1所述的方法,其中所述源惯用法上下文级别包括后文源惯用法上下文级别,和/或所述目标上下文惯用法级别包括后文目标惯用法上下文级别。
7.根据权利要求1所述的方法,其中所述至少两个级别包括结构性上下文级别。
8.根据权利要求7所述的方法,其中在确定出多于一个的上下文准确匹配的情况下,所述上下文准确匹配确定步骤包括根据上下文匹配度确定各上下文准确匹配的优先顺序,从而与一个或更多个其他上下文准确匹配,能够优选更合适的上下文准确匹配,
其中所述源惯用法上下文级别包括前文源惯用法上下文级别,且所述目标上下文惯用法级别包括前文目标惯用法上下文级别,且
其中与仅结构性上下文级别与所述查找片段的结构性上下文级别相匹配的上下文准确匹配相比,前文源惯用法上下文级别和/或前文目标惯用法上下文级别分别与所述查找片段的前文源惯用法上下文级别和/或前文目标惯用法上下文级别相匹配的上下文准确匹配被分配更高的上下文匹配度。
9.根据权利要求1所述的方法,其中仅在所述查找片段的两个或更多个上下文级别与对应的准确匹配的两个或更多个上下文级别相匹配的情况下,所述上下文准确匹配确定步骤才指示所述对应的确切匹配是所述查找片段的上下文准确匹配。
10.根据权利要求9所述的方法,其中仅在所述查找片段的至少一个惯用法上下文级别和结构性上下文级别与对应的准确匹配的至少一个惯用法上下文级别和结构性上下文级别分别相匹配的情况下,所述上下文准确匹配确定步骤才指示所述对应的准确匹配是所述查找片段的上下文准确匹配。
11.根据权利要求10所述的方法,其中所述至少一个惯用法上下文级别包括前文目标惯用法上下文级别。
12.根据权利要求10所述的方法,其中所述至少一个惯用法上下文级别包括前文源惯用法上下文级别。
13.根据权利要求1所述的方法,其中在确定出多于一个的上下文准确匹配的情况下,所述上下文准确匹配确定步骤包括优先顺序确定步骤,所述优先顺序确定步骤根据上下文匹配度确定各上下文准确匹配的优先顺序,从而使得更合适的上下文准确匹配优于一个或更多个其他上下文准确匹配,并且其中所述优先顺序确定步骤包括:
第一优选步骤,所述第一优选步骤优选源惯用法上下文级别和目标惯用法上下文级别以及结构化上下文级别分别与所述查找片段的源惯用法上下文级别和目标惯用法上下文级别以及结构化上下文级别相匹配的上下文准确匹配。
14.根据权利要求13所述的方法,在所述第一优选步骤不能作出决定的情况下,所述方法包括第二优选步骤,所述第二优选步骤优选源惯用法上下文级别和目标惯用法上下文级别分别与所述查找片段的源惯用法上下文级别和目标惯用法上下文级别相匹配的上下文准确匹配。
15.根据权利要求13所述的方法,其中所述源上下文级别是前文源惯用法上下文级别,所述目标惯用法上下文级别是前文目标惯用法上下文级别。
16.根据权利要求14所述的方法,在所述第二优选步骤不能作出决定的情况下,所述方法包括第三优选步骤,与仅后文源惯用法上下文级别或后文目标惯用法上下文级别与所述查找片段的后文源惯用法上下文级别或后文目标惯用法上下文级别相匹配的上下文准确匹配相比,所述第三优选步骤优选前文源惯用法上下文级别或前文目标惯用法上下文级别分别与所述查找片段的前文源惯用法上下文级别或前文目标惯用法上下文级别相匹配的上下文准确匹配。
17.根据权利要求16所述的方法,在所述第三优选步骤不能作出决定的情况下,所述方法包括第四优选步骤,与仅结构性上下文级别与所述查找片段的结构性上下文级别相匹配的上下文准确匹配相比,所述第四优选步骤优选任一惯用法上下文级别与所述查找片段的所述任一惯用法上下文级别相匹配的上下文准确匹配。
18.根据权利要求17所述的方法,在所述第四优选步骤不能作出决定的情况下,所述方法包括第五优选步骤,与结构性上下文级别不同于所述查找片段的结构性上下文级别的上下文准确匹配相比,所述第五优选步骤优选结构性上下文级别与所述查找片段的结构性上下文级别相匹配的上下文准确匹配。
19.根据权利要求18所述的方法,在所述第五优选步骤不能作出决定的情况下,所述方法包括第六优选步骤,所述第六优选步骤优选在所述素材中的位置最接近所述查找片段的位置的上下文准确匹配。
20.根据权利要求2所述的方法,所述方法还包括允许用户基于优先顺序选择上下文准确匹配。
21.根据权利要求1所述的方法,其中所述查找片段包括内容基本相同的多个查找片段,并且
其中所述上下文准确匹配确定步骤包括针对各查找片段确定上下文准确匹配。
22.根据权利要求21所述的方法,其中至少一个查找片段具有不同于至少一个其他查找片段的上下文准确匹配。
23.一种用于确定存储在翻译存储器中的多个源文本与将要翻译的查找片段的匹配级别的系统,所述系统包括:
准确匹配确定装置,在所述多个源文本中确定所述查找片段的任何准确匹配;
上下文准确匹配确定装置,在确定出至少一个准确匹配的情况下,在所述查找片段的上下文与对应的准确匹配的上下文相匹配时,将所述对应的准确匹配确定为是对所述查找片段的上下文准确匹配,
其中上下文包括至少两个级别,并且
其中所述至少两个级别包括源惯用法上下文级别和目标惯用法上下文级别。
24.一种在翻译存储器中存储翻译单位的方法,所述翻译单位包括源文本和目标文本,所述方法包括以下步骤:
向翻译单位分配上下文,其中所述上下文包括至少两种级别,所述至少两种级别包括源惯用法上下文级别和目标惯用法上下文级别;以及
将所述上下文与所述翻译单位一起存储。
25.一种用于在翻译存储器中存储翻译单位的系统,所述翻译单位包括源文本和目标文本,所述系统包括:
用于向所述翻译单位分配上下文的装置,其中所述上下文包括至少两个级别,所述至少两个级别包括源惯用法上下文级别和目标惯用法上下文级别;以及
用于将所述上下文与所述翻译单位一起存储的装置。
26.一种翻译存储器,所述翻译存储器包括:
用于与查找片段相比较的多个源文本;和
各源文本的上下文标识,
其中所述上下文标识包括源惯用法上下文部分和目标惯用法上下文部分。
27.根据权利要求26所述的翻译存储器,其中所述源惯用法上下文部分和/或所述目标惯用法上下文部分包括前文惯用法上下文部分和/或后文惯用法上下文部分。
28.根据权利要求26所述的翻译存储器,其中所述上下文标识包括结构性上下文部分。
29.一种与包括翻译存储器的翻译系统交互的客户机侧系统,所述系统包括:
用于将片段标识分配给将被所述翻译系统翻译的片段的装置,所述片段标识指示所述片段的源惯用法上下文和目标惯用法上下文;以及
装置,用于传输所述片段标识的分配结果,使所述片段标识的分配结果存储作为翻译存储器的一部分。
30.根据权利要求29所述的系统,其中所述片段标识包括结构性上下文。
31.一种确定存储在翻译存储器中的多个源文本与将被翻译的查找片段的匹配级别的方法,所述方法包括以下步骤:
在所述多个源文本中确定针对所述查找片段的任何模糊匹配;和
在确定出至少一个模糊匹配的情况下,当所述查找片段的上下文与对应的模糊匹配相匹配时,将所述对应的模糊匹配确定为所述查找片段的上下文模糊匹配。
32.根据权利要求31所述的方法,其中所确定出的模糊匹配包括具有相同的模糊匹配度的多个模糊匹配。
33.根据权利要求31所述的方法,其中所述上下文包括结构性上下文。
34.一种确定存储在翻译存储器中的多个源文本与将被翻译的查找片段的匹配级别的系统,所述系统包括:
用于在所述多个源文本中确定所述查找片段的任何模糊匹配的装置;和
用于在确定出至少一个模糊匹配的情况下,当所述查找片段的上下文与对应的模糊匹配的上下文相匹配时,确定所述对应的模糊匹配是所述查找片段的上下文模糊匹配的装置。
35.一种计算机程序产品,所述计算机程序产品包括计算机可读介质,所述计算机可读介质具有记录在其上的计算机可读指令,当被计算装置执行时,所述计算机可读指令能够操作以使得所述计算装置执行权利要求1、24或31的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0918765A GB2474839A (en) | 2009-10-27 | 2009-10-27 | In-context exact matching of lookup segment to translation memory source text |
GB0918765.9 | 2009-10-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102053958A true CN102053958A (zh) | 2011-05-11 |
Family
ID=41426732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105218419A Pending CN102053958A (zh) | 2009-10-27 | 2010-10-25 | 上下文准确匹配 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP2317447B1 (zh) |
CN (1) | CN102053958A (zh) |
GB (1) | GB2474839A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8935150B2 (en) | 2009-03-02 | 2015-01-13 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
US8935148B2 (en) | 2009-03-02 | 2015-01-13 | Sdl Plc | Computer-assisted natural language translation |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US9342506B2 (en) | 2004-03-05 | 2016-05-17 | Sdl Inc. | In-context exact (ICE) matching |
US9400786B2 (en) | 2006-09-21 | 2016-07-26 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US9600472B2 (en) | 1999-09-17 | 2017-03-21 | Sdl Inc. | E-services translation utilizing machine translation and translation memory |
CN109858045A (zh) * | 2019-02-01 | 2019-06-07 | 北京字节跳动网络技术有限公司 | 机器翻译方法和装置 |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
CN112232091A (zh) * | 2020-10-14 | 2021-01-15 | 文思海辉智科科技有限公司 | 一种内容匹配的方法及装置、可读存储介质 |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10110492B2 (en) * | 2013-04-11 | 2018-10-23 | Marvell Israel (M.I.S.L.) Ltd. | Exact match lookup with variable key sizes |
US10268684B1 (en) | 2015-09-28 | 2019-04-23 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US9959271B1 (en) | 2015-09-28 | 2018-05-01 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10185713B1 (en) | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10303777B2 (en) * | 2016-08-08 | 2019-05-28 | Netflix, Inc. | Localization platform that leverages previously translated content |
US11983505B2 (en) * | 2021-10-20 | 2024-05-14 | Transfluent Oy | Method and system for translating source text of first language to second language |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04152466A (ja) * | 1990-10-17 | 1992-05-26 | Hitachi Ltd | 機械翻訳方法 |
JPH0793331A (ja) * | 1993-09-24 | 1995-04-07 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 対話文翻訳装置 |
US20050197827A1 (en) * | 2004-03-05 | 2005-09-08 | Russ Ross | In-context exact (ICE) matching |
CN1770144A (zh) * | 2004-11-02 | 2006-05-10 | 株式会社东芝 | 机器翻译系统及方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
US7020601B1 (en) | 1998-05-04 | 2006-03-28 | Trados Incorporated | Method and apparatus for processing source information based on source placeable elements |
US6092034A (en) * | 1998-07-27 | 2000-07-18 | International Business Machines Corporation | Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models |
US6393389B1 (en) * | 1999-09-23 | 2002-05-21 | Xerox Corporation | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US20030004702A1 (en) * | 2001-06-29 | 2003-01-02 | Dan Higinbotham | Partial sentence translation memory program |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
-
2009
- 2009-10-27 GB GB0918765A patent/GB2474839A/en not_active Withdrawn
-
2010
- 2010-10-25 CN CN2010105218419A patent/CN102053958A/zh active Pending
- 2010-10-27 EP EP10189145.5A patent/EP2317447B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04152466A (ja) * | 1990-10-17 | 1992-05-26 | Hitachi Ltd | 機械翻訳方法 |
JPH0793331A (ja) * | 1993-09-24 | 1995-04-07 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 対話文翻訳装置 |
US20050197827A1 (en) * | 2004-03-05 | 2005-09-08 | Russ Ross | In-context exact (ICE) matching |
CN1770144A (zh) * | 2004-11-02 | 2006-05-10 | 株式会社东芝 | 机器翻译系统及方法 |
Non-Patent Citations (1)
Title |
---|
KENNETH E. HARPER: "Contextual Analysis", 《MECHANICAL TRANSLATION》, vol. 4, no. 3, 31 December 1957 (1957-12-31) * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9600472B2 (en) | 1999-09-17 | 2017-03-21 | Sdl Inc. | E-services translation utilizing machine translation and translation memory |
US10216731B2 (en) | 1999-09-17 | 2019-02-26 | Sdl Inc. | E-services translation utilizing machine translation and translation memory |
US10198438B2 (en) | 1999-09-17 | 2019-02-05 | Sdl Inc. | E-services translation utilizing machine translation and translation memory |
US9342506B2 (en) | 2004-03-05 | 2016-05-17 | Sdl Inc. | In-context exact (ICE) matching |
US10248650B2 (en) | 2004-03-05 | 2019-04-02 | Sdl Inc. | In-context exact (ICE) matching |
US9400786B2 (en) | 2006-09-21 | 2016-07-26 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US8935150B2 (en) | 2009-03-02 | 2015-01-13 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
US8935148B2 (en) | 2009-03-02 | 2015-01-13 | Sdl Plc | Computer-assisted natural language translation |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US11321540B2 (en) | 2017-10-30 | 2022-05-03 | Sdl Inc. | Systems and methods of adaptive automated translation utilizing fine-grained alignment |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11475227B2 (en) | 2017-12-27 | 2022-10-18 | Sdl Inc. | Intelligent routing services and systems |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
CN109858045B (zh) * | 2019-02-01 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 机器翻译方法和装置 |
CN109858045A (zh) * | 2019-02-01 | 2019-06-07 | 北京字节跳动网络技术有限公司 | 机器翻译方法和装置 |
CN112232091A (zh) * | 2020-10-14 | 2021-01-15 | 文思海辉智科科技有限公司 | 一种内容匹配的方法及装置、可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
GB0918765D0 (en) | 2009-12-09 |
EP2317447A1 (en) | 2011-05-04 |
GB2474839A (en) | 2011-05-04 |
EP2317447B1 (en) | 2014-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102053958A (zh) | 上下文准确匹配 | |
US10248650B2 (en) | In-context exact (ICE) matching | |
EP1315086A1 (en) | Generation of localized software applications | |
US20100262621A1 (en) | In-context exact (ice) matching | |
Sherif et al. | Semantic quran | |
US20060116865A1 (en) | E-services translation utilizing machine translation and translation memory | |
CN101490668A (zh) | 可用源数据的重用和本地化 | |
Melby et al. | Translation memory | |
Sin-Wai | Approaching localization | |
KR20210013991A (ko) | 번역예 검색 기능을 갖는 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템 | |
RU2571405C1 (ru) | Способ предварительного преобразования структурированного массива данных | |
CN112667208A (zh) | 翻译错误识别方法、装置、计算机设备及可读存储介质 | |
Forcada et al. | Documentation of the open-source shallow-transfer machine translation platform Apertium | |
Remkhe et al. | Rethinking the translator’s role within the gilt project: an integrated approach | |
Eyecioglu et al. | Knowledge-lean paraphrase identification using character-based features | |
Hadj Ameur et al. | An automatic approach for wordnet enrichment applied to arabic wordnet | |
Seljan et al. | Translation memory database in the translation process | |
RU2571407C1 (ru) | Способ формирования карты связей компонентов преобразованного структурированного массива данных | |
RU2572367C1 (ru) | Способ поиска информации в предварительно преобразованном структурированном массиве данных | |
Bey et al. | Data Management in QRLex, an Online Aid System for Volunteer Translators’ | |
Ribeiro et al. | The construction of a corpus from the brazilian historical-biographical dictionary | |
JP5361708B2 (ja) | 多言語データクエリ | |
Mörth et al. | Towards a diatopic dictionary of spoken arabic varieties: challenges in compiling the VICAV dictionaries | |
Desai et al. | Insights on the Konkani wordnet development process | |
KR20210013992A (ko) | 자동완성 기능을 갖는 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110511 |