CN104123275A - 翻译验证 - Google Patents
翻译验证 Download PDFInfo
- Publication number
- CN104123275A CN104123275A CN201410165429.6A CN201410165429A CN104123275A CN 104123275 A CN104123275 A CN 104123275A CN 201410165429 A CN201410165429 A CN 201410165429A CN 104123275 A CN104123275 A CN 104123275A
- Authority
- CN
- China
- Prior art keywords
- source
- fragment
- term
- corresponding target
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 93
- 238000010200 validation analysis Methods 0.000 title 1
- 230000015654 memory Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 39
- 239000012634 fragment Substances 0.000 claims description 77
- 238000013459 approach Methods 0.000 claims description 28
- 238000012800 visualization Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 15
- 239000002609 medium Substances 0.000 description 14
- 238000004590 computer program Methods 0.000 description 11
- 238000012795 verification Methods 0.000 description 9
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012856 packing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000013011 mating Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
Abstract
本发明涉及一种工具、系统和方法,用于对照术语词典验证翻译记忆,术语词典包括源术语和对应的目标术语,翻译记忆包括源片段和对应的目标片段,该方法包括:针对每个源术语标识该源术语在源片段内的精确或近似的出现,其中近似匹配根据语法规则;针对源片段中的每次标识的源术语出现计算对应的目标术语与对应的目标术语在对应的目标片段中的对应的出现之间的数字接近度分数;以及报告源片段中的每次标识的源术语出现,在目标片段中的对应的出现;对应的目标术语和所计算出的接近度分数。
Description
技术领域
本发明涉及用于验证翻译的工具和方法。
背景技术
工具和方法针对用于衡量与双语词典相关的现有翻译的质量度量的计算机辅助翻译工具的领域。计算机辅助翻译工具对于翻译专业人士而言是有用的:帮助他们评估翻译是否与参考双语词典相符;衡量使满足所希望的标准所需要的工作量;和/或了解哪些是为了改进给定段的翻译而要集中的区域。
很多计算机辅助翻译工具利用已建立的资源,例如术语词典和翻译记忆。一般而言,对大段文本的翻译中的第一步涉及建立双语术语词典并且第二步是将文本段翻译到翻译记忆中。术语词典定义文本段中所涉及到的最重要的术语和概念。翻译记忆是存储用于翻译的源与目标片段之间的所有对应关系的大型数据库。翻译记忆有助于大段作品内的重用和一致性检查。
在翻译过程中的各点处,能够衡量给定翻译记忆与术语词典之间的相对差异是有用的。这可以为了以下目的而在翻译之后被完成:1)衡量翻译过程遵守术语词典所记载的指导原则的程度;2)评估术语词典是否看起来足够用于构成(structure)翻译;或者3)评估为了改进翻译以使得其质量匹配预设的准则所要完成的工作量。
SDL Trados Studio是包括翻译出的术语与翻译出的片段之间的类比计算的已知的翻译校验产品。SDL和Trados是SDL PLC的商标。
SynchroTerm是以术语为基础进行研究的已知的翻译校验产品。源和目标语言两者可以同时被搜索。一些构词法功能被包括以使得搜索可以按10种语言被执行。SynchroTerma和Terminotix是Terminotix Inc.的商标。
ApSIC Xbench是以术语为基础进行研究的已知的翻译校验工具。ApSIC和Xbench是ApSIC SL的商标。
所有以上工具使用翻译记忆和术语词典。
发明内容
在本发明的第一方面,提供了一种用于对照术语词典验证翻译记忆的方法,所述术语词典包括源术语和对应的目标术语,翻译记忆包括源片段和对应的目标片段,所述方法包括:针对每个源术语标识该源术语在源片段内的精确或近似的出现,其中近似匹配根据语法规则;针对源片段中的每次标识的源术语出现计算对应的目标术语与对应的目标术语在对应的目标片段中的对应的出现之间的接近度分数;以及报告源片段中的每次标识的源术语出现以及所计算出的目标片段中的对应的出现与对应的目标术语的接近度分数。
实施例为灵活的术语形式识别提供了简单和一般化的答案。大多数术语可以作为灵活的形式(例如具有同一根术语的单数术语和复数术语)出现在目标(和源)中。所提供的词典与目标文本之间的精确匹配的缺失并不意味着翻译是不精确的。因此,实施例对术语之间的对应性进行计数和衡量并且允许采用源语言的灵活形式与采用目标语言的灵活形式相匹配。
根据语法规则(例如针对单词的后缀变形的语法规则)标识匹配或者近乎匹配的术语相比计算字符串的接近度值的较不计算密集。这允许实施例在比查找接近度分数时要短得多的时间帧中检查术语词典中的每个术语来看该术语是否被包括在翻译记忆中。一旦出现已经被定位,则更处理器密集的计算可以在较小的数据子集上被执行。此两级验证允许处理快速且实时地被实现。
该解决方案要求所提供的术语词典作为整体被处理以提供全局衡量结果和统计信息。
有利地,每个接近度分数被归类为:精确匹配;大致匹配和不匹配。
更有利地,标识的源术语如果在不翻译的情况下与目标术语相匹配,则被归类为‘已使用’。
更加有利地,该方法还包括利用样式表来呈现报告以提供更加容易的用户导航和理解。这样的样式表提供允许快速标识问题区域的可视化工具。例如,数据可以被记录为可扩展标记语言(XML)数据,然后利用可扩展样式表语言(XSL)以视觉上有用的方式被呈现以提供包含具有匹配或者部分匹配的术语的被突出显示的对应的词典术语的源和目标片段的并排对比。
最有利地,标记颜色被用于在不同的接近度分类之间进行区分。
优选地,该方法还包括利用个体的接近度值计算翻译记忆与翻译词典之间的总匹配接近度。
这帮助用户理解有多少工作需要在翻译修正上执行并且可以按人时校准。
更优选地,该方法还提供允许快速标识问题区域的可视化工具。
为了避免为可能的源语言定义构词法规则,同时还最少化手动分类的候选匹配的数目,实施例依赖一组假设和模糊匹配方法以提供基于丰富的构词法知识的服务。源语言是具有简单语法规则的单一语言。例如,英语是相对简单并且良好形式化的,具体而言,很多语法是基于后缀的,因而易于从源检测规范条目。然而,实施例是语言不可知的并且依赖一组模式匹配规则,这些规则的大部分提取和比较术语条目和单词的根。实施例被设计为使用特定格式的双语术语词典和双语翻译记忆作为输入,但是设想了具有两种或更多种目标语言的术语词典和翻译记忆。虽然优选的是使用具有基于简单后缀的语法的源语言,但是对于目标语言没有限制。
在类似的使用情况中,术语员需要利用完整的术语一致性报告快速评估翻译文本的术语准确性。这可以以很高的成本逐个术语地人工进行。这是非常慢且容易出错的过程。
实施例将从一组翻译记忆上认出来自术语词典的每个源语言术语的所有出现并且针对每次出现确定其是否被正确翻译。根据所使用的术语的正确性的每个片段的状态由实施例确定。结果,需要被改变的所有出现被标识并在HTML文件中向用户示出。此外,具有不匹配术语的片段被编号并且使翻译与词典一致所必需的工作量可以被评估。
实施例工作在计算机的机器层,因为它们对于工作在应用层的任意翻译应用而言是透明的。利用实施例而不是已知的验证工具,由于验证的计算上高效的操作而导致计算机的速度或可靠性的提升。
在本发明的第二方面,提供了一种用于对照术语词典验证翻译记忆的系统,所述术语词典包括源术语和对应的目标术语,所述翻译记忆包括源片段和对应的目标片段,所述系统包括:规则匹配引擎,用于针对每个源术语标识该源术语在源片段内的精确或近似的出现,其中近似匹配根据语法规则;模糊匹配引擎,用于针对源片段中的每次标识的源术语出现计算对应的目标术语与对应的目标术语在对应的目标片段中的对应的出现之间的接近度分数;以及报告生成器,用于报告源术语在源片段中的每次标识的出现;对应的目标术语;对应的目标术语在目标片段中的对应的出现;以及所计算出的接近度分数。
在本发明的第三方面,提供了一种用于对照源和目标语言的术语词典验证翻译记忆的计算机程序产品,该计算机程序产品包括包含有计算机可读程序代码的计算机可读存储介质,并且该计算机可读程序代码被配置为执行方法的全部步骤。
计算机程序产品包括一系列计算机可读指令,这些计算机可读指令或者被固定在诸如计算机可读介质(例如光盘、磁盘、固态驱动器)之类的有形介质上,或者可利用调制解调器或其它接口设备、通过包括但不限于光或模拟通信线路的有形介质、或者无形地利用包括但不限于微波、红外或其它传送技术的无线技术传送到计算机系统。一系列计算机可读指令体现这里之前所描述的所有或部分功能。
本领域技术人员将理解这样的计算机可读指令可以用与很多计算机体系结构或操作系统一起使用的很多种编程语言来编写。此外,这样的指令可以利用现有的或将来的、包括但不限于半导体、磁或光的任何存储器技术来存储,或者利用现有的或将来的包括但不限于光、红外或微波的任何通信技术来传送。设想到这样的计算机程序产品可以作为具有附带的印刷或电子文档(例如收缩包装软件)的可移除介质而被分发,利用计算机系统被预装载在例如系统ROM或者固定盘上,或者通过例如因特网或万维网的网络从服务器或者电子公告板被分发。
在本发明的第四方面,提供了一种被存储在计算机可读介质上并且可被载入到数字计算机的内部存储器中的计算机程序,该计算机程序包括当所述程序在计算机上运行时用于执行方法权利要求的所有步骤的软件代码部分。
在本发明的第五方面,提供了优选实施例的数据载体方面,该数据载体包括功能性计算机数据结构以在被载入到计算机系统中并且在其上由其操作时允许所述计算机系统执行方法权利要求的所有步骤。合适的数据载体可以是固态存储器、磁驱动器或光盘。用于数据传输的信道可以类似地包括所有描述的存储介质以及信号承载介质,例如有线或无线信号承载介质。
附图说明
现在将参考以下附图仅以示例的方式描述本发明的优选实施例,其中:
图1是优选实施例的部署图;
图2A至2G是优选实施例的组件图;
图3是优选实施例的过程的流程图;并且
图4是客户端服务器计算实施例的部署图。
具体实施方式
参考图1,描述了计算机处理系统10中的优选实施例的部署。计算机处理系统10可与许多其它通用或专用计算系统环境或配置一起操作。可适于与计算机处理系统10一起使用的已知的计算处理系统、环境和/或配置的示例包括但不限于:个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、迷你计算机系统、主机计算机系统以及包括以上系统或设备中的任一系统或设备的分布式云计算环境。
计算机处理系统10可以在被计算机处理器执行的诸如程序模块之类的计算机系统可执行指令的总的上下文中被描述。一般而言,程序模块可以包括执行特定任务或者实现特定的抽象数据类型的例程、程序、对象、组件、逻辑和数据结构。计算机处理系统10可以被体现在分布式云计算环境中,其中任务由通过通信网络被链接的远程处理设备执行。在分布式云计算环境中,程序模块可以被置于包括存储器存储设备的本地和远程计算机系统存储介质中。
计算机处理系统10包括:通用计算机服务器12和被直接附接到计算机服务器12的一个或多个输入设备14和输出设备16。计算机处理系统10被连接到网络20。计算机处理系统10利用输入设备14和输出设备16与用户18通信。输入设备14包括键盘、扫描仪、鼠标、最总球或者另一指向设备中的一项或多项。输出设备16包括显示器或打印机中的一项或多项。计算机处理系统10在网络20上与网络设备(未示出)通信。网络20可以是局域网(LAN)、广域网(WAN)或因特网。
计算机服务器12包括:中央处理单元(CPU)22;网络适配器24;设备适配器26;总线28和存储器30。
CPU22从存储器30载入机器指令并且响应于指令执行机器操作。这样的机器操作包括:递增或递减寄存器(未示出)中的值;将值从存储器30传送到寄存器或者与之相反;在条件为真或假的情况下从存储器中的不同位置获取指令(也被公知为条件分支指令);以及将两个不同寄存器中的值相加或相减并将结果放在另一寄存器中。典型的CPU可以执行很多不同的机器操作。一组机器指令被称为机器代码程序,机器指令用被称为低级语言的机器代码语言来编写。用高级语言编写的计算机程序在其可以被运行之前需要被编译为机器代码程序。可替换地,诸如虚拟机或解译器之类的机器代码程序可以关于机器操作解译高级语言。
网络适配器24被连接到总线28和网络20以用于实现计算机服务器12与网络设备之间的通信。
设备适配器26被连接到总线28以及输入设备14和输出设备16以用于实现计算机服务器12与输入设备14和输出设备16之间的通信。
总线28将包括存储器30在内的主系统组件一起耦合到CPU22。总线28代表若干种总线结构中的任一种中的一个或多个总线结构,包括存储器总线或存储器控制器、外围总线、加速图形端口和使用各种总线体系结构中的任一种总线体系结构的处理器或本地总线。作为示例而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线以及外围组件互连(PCI)总线。
存储器30包括采用易失性存储器32和非易失性或者永久性存储器记忆34的形式的计算机系统可读介质。易失性存储器32的示例为随机访问存储器(RAM)36和高速缓存存储器38。一般而言易失性存储器因为它更快速而被使用并且一般而言非易失性存储器因为它保存数据更持久而被使用。计算机处理系统10还可以包括其它可移除和/或不可移除的、易失性和/或非易失性的计算机系统存储介质。仅仅通过示例的方式,永久性存储器34可以被提供用于从不可移除的非易失性磁介质(未示出并且通常是磁硬盘或固态驱动器)中读取并且向该介质写入。虽然未示出,但是可以提供其它的存储介质,包括:用于可移除的非易失性固态存储器的外部端口;用于从诸如紧致盘(CD)、数字视频盘(DVD)或蓝光之类的可移除的非易失性光盘中读取或向其写入的光盘驱动器。在这些实例中,每个实例可以通过一个或多个数据介质接口被连接到总线28。如下面将进一步示出和描述的,存储器30可以包括具有被配置为执行本发明的实施例的功能的一组(例如至少一个)程序模块的至少一个程序产品。
被配置为执行优选实施例的功能的程序模块包括:翻译应用99、翻译验证模块100、术语词典102、一个或多个翻译记忆104和验证报告106。支持优选实施例但未示出的另外的程序模块包括固件、引导程序、操作系统和支持应用。操作系统、支持应用、其它程序模块以及程序数据中的每一个或者它们的某种组合可以包括联网环境的实现方式。
计算机处理系统10经由网络适配器24与至少一个网络20(例如局域网(LAN)、一般广域网(WAN)和/或像因特网这样的公共网络)通信。网络适配器24经由总线28与计算机服务器12的其它组件通信。应当理解虽然未示出,但是其它硬件和/或软件组件可以与计算机处理系统10一起被使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部盘驱动器阵列、独立盘冗余阵列(RAID)、磁带驱动器和数据存档存储系统。
翻译应用99是用于根据独立的语言资源创建一个或多个翻译记忆104的工作在应用层的独立(standalone)程序。可替换地,翻译记忆由翻译人员人工创建。
翻译验证模块100在由计算机服务器12操作时提供一种翻译验证工具,用于对照术语词典102验证一个或多个翻译记忆104以便产生验证报告106。根据优选实施例,这些组件将关于附图被更详细地描述。
参考图2A,术语词典102和一个或多个翻译记忆104被输入到翻译验证模块100。验证报告106被显示为来自翻译验证模块100的输出。
参考图2B,术语词典102包括采用语言1和语言2的源术语(S)和目标术语(T)(具体被称为DTerm1.S/DTerm1.T;DTerm2.S/DTerm2.T;…;DTermN.S/DTermN.T)的术语对(总地被称为DTerm1、DTerm2…DTermN)。对于一些术语,存在另一种翻译。例如,DTerm1.S.1(采用第一语言的第一词典术语)包括“computer”并且对应的DTerm1.T.1(采用第二语言的第一词典术语)包括“ordinateur”。DTerm1.S.1(“computer”)的另一种翻译是包括“calculateur”的DTerm1.T.2。在该示例中,第一语言是英语且第二语言是法语。常规的术语词典将包含成千上万个关联的术语并且两个术语的示例是为了方便描述实施例而被简化的。
参考图2C,翻译记忆104包括采用第一语言的文档的源片段和采用第二语言的翻译文档的目标片段,其中文档被分成对应的片段对(Seg1.S/Seg1.T;Seg2.S/Seg2.T;…;SegN.S/SegN.T)。采用第一语言的源文本片段应当在意思上与采用第二语言的目标文本片段等同。正常的翻译记忆将包括成千上万个关联的片段并且该示例是为了便于描述实施例而被简化的。
参考图2D,验证报告106包括示出针对每个片段对的验证措施的片段对的结构化列表。该结构化列表包括三个顺序的收起的片段(用正号+指示)DTermX、DTermX+1和DTermX+2并且在附图中,展开的片段(用负号-指示)被示出。在这一示例中,报告没有与它相关联的程式化的样式表并且用纯文本显示。
参考图2E,相同的示例验证报告在DTermX处被展开以揭示词典术语在术语记忆中的出现和匹配值。加粗且有下划线的文本突出显示了位于翻译记忆的目标和源片段中的DTermX对。DTermX+1和DTermX+2被收起地显示。在该示例中,其中DTermX为英语单词“build”的DTermX的五次出现被定位。第一次出现具有针对对应的目标术语“development”的对应的目标片段精确匹配(接近度分数=100%)。第二次出现具有针对第二个对应的目标术语“generation”的对应的目标片段精确匹配(接近度分数=100%)。第三、第四和第五次出现被收起地显示。
参考图2F,相同的示例验证报告在DTermX+1处被展开以揭示源术语“computer-aided translation”在翻译记忆中的出现。加粗且有下划线的文本突出显示了位于翻译记忆的目标和源片段中的DTermX+1源术语对。该示例突出显示了如下情况,其中对应的目标术语在目标片段中未被精确匹配而是具有分隔目标术语的元素的单词(在这一情况中为“généralement”)。在这一情况下,接近度分数是针对小于精确匹配的80%。DTermX和DTermX+2被收起地显示。
参考图2G,翻译验证模块100包括:翻译验证方法200;规则匹配引擎110;模糊匹配引擎112、结果数据114;以及报告呈现器116。
翻译验证方法200控制翻译验证模块100的子组件的处理和操作并且在下面被更详细地描述。
规则匹配引擎110被用于发现翻译记忆的源片段中的源术语。被定位的源术语具有在术语词典中的对应的目标术语。源片段具有在翻译记忆中的对应的目标片段。
模糊匹配引擎112被用于基于字符串相似性将对应的目标术语(对应于匹配的源术语)与翻译记忆中的对应的目标片段(即与具有源术语的出现的源片段相对应的目标片段)匹配。
结果数据114用于存储在被呈现为报告之前的验证结果。
报告呈现器116用于根据结果数据114呈现验证报告106。
参考图3,翻译验证方法200包括逻辑过程步骤202到216。
步骤202用于定义循环以使得每个翻译记忆可以通过步骤204到216被验证。只有一个翻译记忆对于实施例的执行是必要的,但是两个或更多个翻译记忆可以有利地作为批而被验证。
步骤204用于定义针对翻译词典中的所有片段的循环,以使得每个片段被检查以发现重复。步骤204还用于记录并从翻译记忆中移除所有重复片段。由此处理不针对重复片段而被重复,但是包括重复片段中的所有出现都被报告。
步骤206用于如果存在一个或多个要处理的片段则循环回到步骤204,否则去往步骤208。
步骤208用于定义针对术语词典中的每个源术语的测试循环。
调用规则匹配引擎110以针对每个源术语与翻译记忆中的源片段的规则基础匹配进行测试。当发现匹配时,记录片段中的出现,所有的无关片段标记被剥离(strip out)。例如,英语术语通过比较单词的相似词干,剥去词典条目和记忆片段两者中的诸如-s、-e、-es、-ies、-ed、-ing及其它之类的常用英语结尾而被标识。其它构词法规则也可以被使用。
步骤210用于定义针对源术语在源片段中的每次出现的循环,
据此在调用模糊匹配引擎112之后,对对应的目标片段和对应的翻译出的词典术语执行模糊搜索以呈现接近度分数。如果翻译出的词典术语刚好位于目标片段中或者如果接近度分数落在特定的阈值限值内,则发现匹配。否则不发现匹配。此外,如果发现词典源术语被在目标片段中,则匹配被记录为“已通过”。
模糊匹配引擎112搜索在对应的目标片段内的对应的词典目标术语的规范形式。根据接近度分数,翻译出的术语被视为被发现、
有待检查或者未被发现。这一评估利用语言不可知的算法来检测1)词典条目翻译与2)记忆片段翻译之间的模糊匹配。
在优选实施例中,目标术语和目标片段串利用确定它们之间的最长共用词块的函数而被比较。当发现共用词块时,则基于三个参数的进一步的测试被用于确定所预期的目标术语是否在目标片段中。这三个参数被用于定义阈值以使得在以下情况下目标术语被视为在目标片段中被发现:
共用子串中的符号总数等于或高于共用-字符-最小值(百分
比);
共用词块的总数等于或低于词块-数目-最大值;
任意共用词块的符号的数目等于或高于词块-长度-最小值。
如果这些条件中的任意条件未被满足,则词典条目翻译被视为
在记忆片段翻译中未被发现。
阈值定义在配置文件中被设置。在欧洲语言的情况下,这些参数的值如下:
共用-字符-最小值=80%
词块-数目-最大值=3
词块-长度-最小值=2
设置这些参数不需要训练阶段。然而如果必要,这些值可以被测试和改变。
步骤212用于如果存在更多的源术语出现有待处理则循环回到步骤210,否则进行步骤214。
步骤214用于如果还有更多的源术语有待处理则循环回到步骤208,否则进行步骤216。
步骤216用于创建关于术语出现和所记录的接近度分数的报告。这是翻译验证方法200的结束。
现在描述本发明的另外实施例。
对于本领域普通技术人员清楚的是优选实施例的全部或部分逻辑过程步骤可以被可替换地体现在包括被布置为执行方法的逻辑过程步骤的逻辑元件的逻辑装置或多个逻辑装置中,并且这样的逻辑元件可以包括硬件组件、固件组件或者它们的组合。
对于本领域技术人员同样清楚的是优选实施例的全部或部分逻辑组件可以被可替换地体现在包括执行方法的步骤的逻辑元件的逻辑装置中,并且这样的逻辑元件可以包括例如可编程逻辑阵列或者专用集成电路中的逻辑门之类的组件。这样的逻辑布置还可以利用例如可以被存储和利用固定的或者可传送的载体介质被传送的虚拟硬件描述语言、被体现在用于在这样的阵列或电路中暂时性地或永久性地建立逻辑结构的使能元件中。
将理解优选实施例的方法和组件或者可以被完全或部分地体现在包括用于执行并行软件的两个或更多个处理器的并行计算系统中。
在可替换实施例中,本发明可以采用包括计算机程序代码的计算机实现的服务的形式来实现,该计算机程序代码可操作为在被部署到计算机服务器架构中并且在其上被执行时,使得计算机服务器架构响应于针对服务的客户端请求执行该方法的所有步骤。
例如,参考图4,客户端服务器翻译验证系统10’是包括计算机服务器12’和计算机客户端13’的示例客户端服务器实施例。计算机服务器12’经由网络20连接到计算机客户端13’。计算机客户端13’经由输出设备16’向用户18’提供输出并且经由输入设备14’从用户18’接收输入。在这一客户端服务器实施例中,翻译记忆104’位于客户端上,而翻译验证模块100’和术语词典102’位于计算机服务器12’中。
在这一客户端服务器实施例中,验证作为服务被提供给提供翻译记忆的客户端。在验证成功完成之后,在客户端13’中产生报告106’。
在另一可替换实施例中,本发明可以采用计算机实现的部署服务的方法的形式被实现,该方法包括部署计算机程序代码的步骤,该计算机程序代码可操作为在被部署到计算机服务器基础架构中并且在其上被执行时,使得计算机系统响应于针对服务的客户端请求执行该方法的所有步骤。
对于本领域技术人员清楚的是可以在不脱离本发明的范围的情况下对前述示例性实施例做出许多改进和修改。
Claims (17)
1.一种用于对照术语词典验证翻译记忆的系统,所述术语词典包括源术语和对应的目标术语,所述翻译记忆包括源片段和对应的目标片段,所述系统包括:
规则匹配引擎,用于针对每个源术语标识该源术语在源片段内的精确或近似的出现,其中出现根据语法规则被确定;
模糊匹配引擎,用于针对源片段中的每次标识的源术语出现计算对应的目标术语与所述对应的目标术语在对应的目标片段中的对应的出现之间的接近度分数;以及
报告生成器,用于报告源术语源片段中的每次标识的出现;以及所计算出的所述对应的目标术语与所述对应的目标术语在目标片段中的所述对应的出现的接近度分数。
2.根据权利要求1所述的系统,其中每个接近度分数被归类为:精确匹配;大致匹配;以及不匹配。
3.根据权利要求2所述的系统,其中标识的源术语如果在所述对应的目标片段以及所述源片段中被发现则被归类为已使用。
4.根据权利要求2所述的系统,其中标记颜色被用于在不同的接近度分数类别之间进行区分。
5.根据权利要求1至4中任一项所述的系统,还包括利用样式表来呈现报告以提供更加容易的用户导航和理解。
6.根据权利要求1至5中任一项所述的系统,还包括利用个体的接近度分数计算翻译记忆与翻译词典之间的总接近度分数。
7.根据权利要求1至6中任一项所述的系统,还提供允许快速标识问题区域的可视化工具。
8.根据权利要求1至7中任一项所述的系统,其中所述源语言是具有基于后缀的简单语法规则的单一语言。
9.根据权利要求8所述的系统,其中所述源语言为英语。
10.一种用于对照术语词典验证翻译记忆的方法,所述术语词典包括源术语和对应的目标术语,所述翻译记忆包括源片段和对应的目标片段,所述方法包括:
针对每个源术语标识该源术语在源片段内的精确或近似的出现,其中根据语法规则标识近似匹配;
针对源片段中的每次标识的源术语出现计算对应的目标术语与所述对应的目标术语在对应的目标片段中的对应的出现之间的接近度分数;以及
报告源片段中的每次标识的源术语出现以及所计算出的所述对应的目标术语与目标片段中的所述对应的出现的接近度分数。
11.根据权利要求10所述的方法,其中每个接近度分数被归类为:精确匹配;大致匹配;以及不匹配。
12.根据权利要求10或11所述的方法,其中标识的源术语如果在目标片段以及对应的源片段中被发现则被归类为已使用。
13.根据权利要求11或12所述的方法,其中标记颜色被用于在不同的接近度分数类别之间进行区分。
14.根据权利要求10至13中任一项所述的方法,还包括利用样式表来呈现报告以提供更加容易的用户导航和理解。
15.根据权利要求10至14中任一项所述的方法,还包括利用个体的所述接近度分数计算所述翻译记忆与所述翻译词典之间的总接近度。
16.根据权利要求10至15中任一项所述的方法,还提供允许快速标识问题区域的可视化工具。
17.根据权利要求10至16中任一项所述的方法,其中所述源语言是具有基于后缀的简单语法规则的单一语言。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1307349.9 | 2013-04-24 | ||
GB1307349.9A GB2513348A (en) | 2013-04-24 | 2013-04-24 | Translation validation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104123275A true CN104123275A (zh) | 2014-10-29 |
CN104123275B CN104123275B (zh) | 2018-06-08 |
Family
ID=48537700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410165429.6A Expired - Fee Related CN104123275B (zh) | 2013-04-24 | 2014-04-23 | 翻译验证 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9852128B2 (zh) |
CN (1) | CN104123275B (zh) |
DE (1) | DE102014105666A1 (zh) |
GB (1) | GB2513348A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627200A (zh) * | 2021-06-15 | 2021-11-09 | 天津师范大学 | 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9582499B2 (en) * | 2014-04-14 | 2017-02-28 | Xerox Corporation | Retrieval of domain relevant phrase tables |
US10949904B2 (en) * | 2014-10-04 | 2021-03-16 | Proz.Com | Knowledgebase with work products of service providers and processing thereof |
CN110659179B (zh) * | 2019-08-30 | 2022-11-04 | 中国人民财产保险股份有限公司 | 一种评估系统运行状况的方法、装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030115552A1 (en) * | 2001-11-27 | 2003-06-19 | Jorg Jahnke | Method and system for automatic creation of multilingual immutable image files |
US20070219774A1 (en) * | 2002-12-04 | 2007-09-20 | Microsoft Corporation | System and method for machine learning a confidence metric for machine translation |
CN101187923A (zh) * | 2006-11-23 | 2008-05-28 | 夏普株式会社 | 翻译系统中用于匹配双语文本和增加准确性的方法 |
US20090157386A1 (en) * | 2007-08-11 | 2009-06-18 | Microsoft Corporation | Diagnostic evaluation of machine translators |
US20100138213A1 (en) * | 2008-12-03 | 2010-06-03 | Xerox Corporation | Dynamic translation memory using statistical machine translation |
US20120136647A1 (en) * | 2009-08-04 | 2012-05-31 | Kabushiki Kaisha Toshiba | Machine translation apparatus and non-transitory computer readable medium |
US20120143593A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Fuzzy matching and scoring based on direct alignment |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6285978B1 (en) | 1998-09-24 | 2001-09-04 | International Business Machines Corporation | System and method for estimating accuracy of an automatic natural language translation |
-
2013
- 2013-04-24 GB GB1307349.9A patent/GB2513348A/en not_active Withdrawn
-
2014
- 2014-04-07 US US14/246,861 patent/US9852128B2/en not_active Expired - Fee Related
- 2014-04-22 DE DE102014105666.3A patent/DE102014105666A1/de not_active Ceased
- 2014-04-23 CN CN201410165429.6A patent/CN104123275B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030115552A1 (en) * | 2001-11-27 | 2003-06-19 | Jorg Jahnke | Method and system for automatic creation of multilingual immutable image files |
US20070219774A1 (en) * | 2002-12-04 | 2007-09-20 | Microsoft Corporation | System and method for machine learning a confidence metric for machine translation |
CN101187923A (zh) * | 2006-11-23 | 2008-05-28 | 夏普株式会社 | 翻译系统中用于匹配双语文本和增加准确性的方法 |
US20090157386A1 (en) * | 2007-08-11 | 2009-06-18 | Microsoft Corporation | Diagnostic evaluation of machine translators |
US20100138213A1 (en) * | 2008-12-03 | 2010-06-03 | Xerox Corporation | Dynamic translation memory using statistical machine translation |
US20120136647A1 (en) * | 2009-08-04 | 2012-05-31 | Kabushiki Kaisha Toshiba | Machine translation apparatus and non-transitory computer readable medium |
US20120143593A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Fuzzy matching and scoring based on direct alignment |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627200A (zh) * | 2021-06-15 | 2021-11-09 | 天津师范大学 | 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法 |
CN113627200B (zh) * | 2021-06-15 | 2023-12-08 | 天津师范大学 | 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法 |
Also Published As
Publication number | Publication date |
---|---|
DE102014105666A1 (de) | 2014-10-30 |
GB2513348A (en) | 2014-10-29 |
GB201307349D0 (en) | 2013-05-29 |
US9852128B2 (en) | 2017-12-26 |
US20140324411A1 (en) | 2014-10-30 |
CN104123275B (zh) | 2018-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10417350B1 (en) | Artificial intelligence system for automated adaptation of text-based classification models for multiple languages | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
US20200004765A1 (en) | Unstructured data parsing for structured information | |
CN109408829B (zh) | 文章可读性确定方法、装置、设备和介质 | |
CN104123275A (zh) | 翻译验证 | |
US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
CN104008123A (zh) | 用于中文姓名匹配的方法和系统 | |
CN115310460A (zh) | 一种机器翻译质量评估方法、装置、设备和存储介质 | |
JP2015060458A (ja) | 機械翻訳装置、方法、及びプログラム | |
Fang et al. | AssertLLM: Generating and Evaluating Hardware Verification Assertions from Design Specifications via Multi-LLMs | |
WO2017145811A1 (ja) | トピック推定装置、トピック推定方法、および記録媒体 | |
JP6056489B2 (ja) | 翻訳支援プログラム、方法、および装置 | |
US20210049322A1 (en) | Input error detection device, input error detection method, and computer readable medium | |
CN114781384A (zh) | 命名实体智能标注方法、装置、设备及存储介质 | |
US20220215168A1 (en) | Information processing device, information processing method, and program | |
WO2016189721A1 (ja) | ソースコード評価装置及びソースコード評価方法及びソースコード評価プログラム | |
US20210342521A1 (en) | Learning device, extraction device, and learning method | |
US10083155B2 (en) | Method for detecting original language of translated document | |
US20240126988A1 (en) | Word extraction device, word extraction system and word extraction method | |
US11657229B2 (en) | Using a joint distributional semantic system to correct redundant semantic verb frames | |
Ravina | Lexical Analysis of Computer Studies Terms Translation from English to Filipino Language | |
JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
WO2022123716A1 (ja) | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 | |
TWI706325B (zh) | 用於至間接指定位置之條件分支之電腦程式產品、電腦系統及電腦實施方法 | |
US20210264108A1 (en) | Learning device, extraction device, and learning method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180608 |