CN105190608A - 可定制、低延迟交互式计算机辅助翻译 - Google Patents
可定制、低延迟交互式计算机辅助翻译 Download PDFInfo
- Publication number
- CN105190608A CN105190608A CN201480016486.6A CN201480016486A CN105190608A CN 105190608 A CN105190608 A CN 105190608A CN 201480016486 A CN201480016486 A CN 201480016486A CN 105190608 A CN105190608 A CN 105190608A
- Authority
- CN
- China
- Prior art keywords
- translation
- suggestion
- pond
- sentence
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 169
- 230000002452 interceptive effect Effects 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 230000014616 translation Effects 0.000 abstract description 136
- 238000010586 diagram Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 244000141353 Prunus domestica Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
用于计算机辅助翻译的方法和系统,包括接收(106)待翻译的包括一个或多个句子的文档;使用处理器为所述文档中的每个句子生成(202)可能翻译建议池;为翻译的句子向用户提供(204)来自所述建议池的最好的建议;基于用户的翻译前缀输入,更新(210)所述建议池;以及为翻译的句子向用户提供(210)来自更新的建议池的更新的最好建议。
Description
技术领域
本发明涉及计算机辅助翻译,特别地,涉及适于用户的翻译选择的计算机辅助翻译。
背景技术
全机器翻译用于自动生成翻译。这可能对不熟悉讨论中的语言和没有资源或时间雇佣熟练翻译者的用户有用。但是,由于语言的复杂性,机器翻译(MT)提供不可靠的翻译。例如,在第一语言中给定的句子可能有多个不同的含义并且因此在第二语言中可能有多个不同的翻译。
计算机辅助翻译(CAT)试图达到两者中最好的:有机器翻译的速度并且有熟练翻译者的人为判断。机器翻译用于在文档中生成建议翻译,而人类翻译者接受或者修改该建议。采用这种方式,当机器翻译建议是准确的,翻译者就从重复工作的负担中解脱并且翻译生产力可能增加。
然而,当处理特定领域时,其中词可能有非标准含义或可能以非标准方式使用,由通用MT系统提供的翻译建议经常对CAT没有帮助。在这种情况下,建议将一贯地不准,对翻译者不省时。而且,MT的延迟导致额外的拖延从而限制翻译生产力。
发明内容
一种用于计算机辅助翻译的方法包括接收待翻译的包括一个或多个句子的文档;使用处理器为所述文档中的每个句子生成可能翻译的建议池;为翻译的句子向用户提供(204)来自所述建议池的最好的建议;基于用户的翻译前缀(translationprefix)的输入,更新所述建议池;以及为翻译的句子向用户提供来自更新的建议池的更新的最好建议。
一种用于计算机辅助翻译的方法,包括:接收(106)待翻译的包括一个或多个句子的文档;基于具有域内翻译数据的通用和定制翻译模型,使用处理器在服务器装置为所述文档中的每个句子生成(202)可能翻译的建议池;向用户装置传输(506)建议池;为翻译的句子向用户提供(204)来自所述建议池的最好建议;如果所述前缀与建议池中的可能翻译偏离,基于所述翻译前缀,传输(506)需要附加的可能翻译的请求;基于用户的翻译前缀输入,更新(210)所述建议池;以及为翻译的句子向用户提供(210)来自更新的建议池的更新的最好建议。
一种计算机辅助翻译的系统包括:处理器(302),被配置用于为文档中的每个句子生成可能翻译的建议池,该文档包括一个或多个待翻译句子;翻译模块(316),被配置用于为翻译的句子向用户提供来自建议池的最好建议,和在接到用户的翻译前缀输入后为待翻译句子向用户提供来自更新的建议池的更新的最好建议;以及池更新模块(312),被配置用于基于用户的翻译前缀输入,更新建议池。
这些和其它特征和优点,从其说明性实施例的接下来的详细描述和结合相应的附图进行阅读将变得明显。
附图说明
本发明将参考下面附图在接下来优选实施例的描述中提供细节,其中:
图1是根据本发明一实施例的用于计算机辅助翻译(CAT)的方法框图/流程图;
图2是根据本发明一实施例的用于CAT的方法框图/流程图;
图3是根据本发明一实施例的用于CAT的系统图;
图4是根据本发明一实施例的用于建议池更新的方法框图/流程图;
图5是根据本发明一实施例的用于CAT的服务器/用户系统图;以及
图6是根据本发明一实施例的说明一示例性翻译用户界面图。
具体实施方式
本发明实施例基于翻译者的目的和翻译输入,通过提供能快速适应的实时、交互的翻译建议,提供计算机辅助翻译(CAT)。翻译者能接受部分翻译前缀并在句子的任何点开始手工翻译。本实施例基于手工输入更新建议,允许翻译者即使在初始翻译被拒绝后仍能从CAT受益。这增加了CAT的速度和翻译建议的准确性。而且,特定领域的数据和/或字典可以用于定制化建议。应当注意,本发明的实施例可以同样应用到计算机辅助转录(transcription),其中音频或视频信息由人类转录者审查并由语音识别软件生成建议。
现在参考附图,其中相似附图标记代表相同或者相似的部件,先从图1开始,显示了用于CAT的本实施例的概述图。框102建立域内训练数据库。这样的数据库可以以平行短语对组织。每个短语对包括两个句子,一个是源语言,另一个是目标语言。在翻译或转录口头语言的例子中,除了语言内容之外,信息将包括语言识别信息。平行短语对通常由人类翻译者生成,但他们可来自任何合适的来源。
框104使用翻译数据库建立定制翻译模型。该定制翻译模型提供由计算机使用的知识集,用以做出关于潜在翻译的推论和决定,并且可包括翻译模型和自然语言模型二者。定制翻译模型是从训练数据库学习的统计模型。任何合适学习模型可应用,包括例如基于词的、基于短句的、基于树的、生成性的(generative)、歧视性的(discriminative)和启发式(heuristic)的方法。该列表不是试图穷尽,本领域技术人员能为给定的应用选择恰当的学习模型。
框106接收用于翻译的输入文档。该输入文档是第一语言并且将被翻译成第二语言。输入文档的语言可以,例如,由翻译者明确标明,在文档自身指定,或由自然语言识别自动确定。应当注意,文档本身不需要是文本文档,还也可以包括音频和视频信息。例如,当与语音识别系统耦接时,CAT可用于在转录口头语言中帮助翻译者。
框108为翻译形成建议池。建议池是基于一个或多个定制翻译模型和通用翻译模型,并且可包括,例如,单词格(lattice)、n元语法(n-gram)字符串列表、前缀树等,并且可被CAT工具的用户端检索。通用翻译模型可以是,例如,处理所讨论语言的普通短语的模型,但定制翻译模型可对特定领域提供特定词汇和特定使用。这样的通用模型可包括,例如,所有的翻译模型、语言模型、重新排序模型等,这些用在统计机器翻译中。
领域以及对应的定制翻译模型,可由用户选择或可例如基于文档中与特定领域关联的的单词或短句的频率计数由系统自动决定。例如,如果该文档包括很多与汽车相关的单词或短语,CAT工具可向人类翻译者建议属于汽车领域的定制翻译模型。任意数量的定制模型可被使用,因为给定文档可以属于多个领域。在一个示例性实施例中,文档本身将有清楚的领域信息,由提交用于翻译文档的实体提供。CAT工具可读这些信息和自动加载所调用的定制翻译模型。
通用翻译模型和定制翻译模型可根据任何合适的方法相结合。例如,两个模型可简单地彼此相加,用可选权重控制每个模型要做出多大贡献。或者,机器翻译可先使用通用模型,然后用定制模型来重排翻译,选择那些对目标域最合适的。在进一步的实施例中,CAT系统完全不需要结合两个模型。每一个模型可生成添加到建议池的候选翻译。候选翻译集可组合,其中相似或相同翻译之间的冗余被删除。翻译置信度得分在建立这样的紧凑表达时可作为权重使用。结果建议池由高概率翻译集组成。如将在下面详细描述的,这允许本地翻译工具低延迟地提供建议,因为可以对该建议池进行修改而无需通过慢网络从翻译服务器请求更多信息。
框110执行使用建议池的CAT。到最后,CAT系统为输入文档中的每个句子提供翻译建议。翻译者可接受该翻译,在此点下一个句子被考虑翻译。用户也可以接受部分翻译,例如如果句子的前缀被正确翻译,但句子剩余部分不正确。如果翻译者未接受该翻译,或者接受部分建议,翻译者开始输入更新的翻译。CAT系统可以提供更新的建议,因为翻译者继续提供更多信息,这用于减少可能翻译的次数和允许CAT系统改善其建议。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Python,、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(articleofmanufacture)。也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在说明书中对本发明原理的“一个实施例”或“一实施例”以及其其它变型的引用,意味着与该实施例相关地描述的特定特征、结构或特性等包含在本发明原理的至少一个实施例中。因此,在贯穿说明书在各处出现的短语“在一个实施例中”和“在实施例中”以及任何其它变型,并不必都指同一实施例。
应当理解,下文中“/”、“和/或”以及“至少……之一”中任何一个的使用(例如在“A/B”、“A和/或B”和“至少A和B之一”的情况下),意图包含仅选择先列出的选项(A)、或者仅选择第二列出的选项(B)或者选择两个选项(A和B)。作为另一个例子,在“A、B和/或C”以及“至少A、B和C之一”的情况下,这种短语意图包含:仅选择第一列出的选项(A)、或者仅选择第二列出的选项(B)、或者仅选项第三列出的选项(C)、或者仅选择第一和第二列出的选项(A和B)、或者仅选择第一和第三列出的选项(A和C)、或者仅选择第二和第三列出的选项(B和C)、或者选择所有三个选项(A和B和C)。对于本领域普通技术人员而言容易显而易见的是,对于同样数量列出的项目这可以扩展。
现在参考图2,显示了在CAT中提供和更新建议的方法。框202如上所述生成建议池。建议池基于通用翻译模型和一个或多个可定制翻译模型。框203确定在输入文档中是否有未翻译句子。如果是,框204使用建议池为输入文档中第一个未翻译句子生成最好句子翻译。最好句子可以是几个可能句子翻译中的一个并且可以根据任何适当方法选择。例如,每个潜在翻译可以根据该翻译正确的可能性分配对应的置信度评分。决定为最有可能的翻译的建议呈现给翻译者以供接受。
在框206,翻译者有接受或拒绝该建议的选择。用户可以使用,例如,键盘快捷键,做出选择,从而尽可能有效率地做出接受或拒绝。如果翻译者接受建议,框207在输入文档中选择下一个句子并返回处理到框203,其确定是否还有剩余句子。如果翻译者拒绝建议或者仅接受建议的一部分,翻译者可用开始在框208中输入翻译。如果翻译者接受部分的建议,则翻译者在接收的前缀的后面开始输入翻译信息。
当用户输入信息,框210更新建议。CAT系统匹配前缀与建议池。如果匹配,在候选翻译的匹配前缀后的下几个单词将被建议。当系统从用户读入更多输入,用户的翻译限制可能建议的数量并且可以为该句子做出最可能翻译的新建议。框210显示新建议和允许用户在框206中接受建议。用户可以继续输入翻译,这隐含拒绝新建议。这继续直到翻译者要么手工完成句子翻译要么接受翻译建议。在输入文档每个句子以这方式处理直到整个文档已经翻译完。
一旦框203确定没有句子剩余,框212可以使用在翻译时学到的附加句对选择性地更新定制翻译模型。该更新可以包括更新整个模型或可以是仅在模型中对参数的权重的更新。块212可以在任何时刻执行更新,但由于更新可能耗时且计算密集,离线更新模型可能更有效。或者,对模型的增加的更新可以在后台在线执行。这允许CAT系统适用于特定词汇和在文档中找到的特定使用。
现在参考图3,显示了CAT系统300。该系统包括处理器302和存储器304。存储器304中存储的的训练数据由模型更新模块使用以创建和更新一个或多个定制翻译模型308,并且与通用翻译模型306存储在存储器中。池更新模块312使用处理器302以通过使用通用翻译模型306以及定制翻译模型308为输入文档中的句子生成建议池310。翻译模块316使用处理器302以审阅建议池310并为输入文档中的句子提供翻译建议。翻译模块316接收用户输入并自适应地在建议池中重新评估这些建议,当用户的输入取消了翻译选项则提供更新的建议。模型更新模块314使用处理器302以使用由用户的翻译收到的信息更新定制翻译模块308。
尽管图描述了单个系统300,应当注意,显示的功能模块并不需要在单个硬件中实现。例如,定制翻译模型可以在服务器装置被生成、存储和更新,和只根据需要传输给翻译者的客户装置。
现在参考图4,在框210提供关于更新建议池的更多细节。框402生成建议池,其包括,例如,修剪的翻译格,该翻译格紧凑表示源句子的可能短语翻译集,并向翻译者发送句子。当翻译者改变翻译前缀时,框404创建新的建议池。框406向翻译格增加任何新候选者和修剪不再有效的任何候选者。由于翻译格编码最可能的翻译,但无需包含所有可能翻译,该格基于翻译者提供的输入进行更新以反映最可能翻译的变化。
框406,在修剪可能翻译中,为每个可能翻译做出可能性测定。阈值被用来决定给定可能翻译是否将被放入建议池,如此可能性高于阈值的翻译被用作该池中而低于该阈值的翻译则被从该池中修剪。可以由任何合适机制产生可能性,例如由词的共性、文档上下文等生成每个翻译的得分。框406也可以基于用户的前缀向服务器请求额外候选者、向建议池增加这些额外候选者。
现在参考图5,提供了本发明客户/服务器实施例。服务器502生成所述池和在框402中向客户504发送该池。服务器502和客户504每一个有通信模块506以方便通信。如上所述,建议池可以是所有可能翻译的子集。例如,如果给定句子有二十个可能翻译,该建议池可以仅包括最好的十个翻译。另外,建议池可以包括可能性高于阈值的那些翻译。
当翻译者接受或者拒绝建议的翻译,客户504使用建议池以生成新提出的建议而无需询问服务器502。特别地,如果用户接受了翻译前缀,客户504参考在建议池中共享该前缀的其他潜在翻译。建议池的尺寸代表了在客户504的存储器使用和在服务器502和客户504之间的通信延迟之间的平衡。更大的建议池表示客户504将不需要经常为更新的池询问服务器,但需要为准备未预期翻译的到来而增加存储器使用的成本。
在这示例性实施例中,服务器502包括训练数据305和翻译模型306/308,以及模型更新模块314,该模型更新模块314使用来自客户504的信息以在定制翻译模型308提供进一步改进。服务器502使用该信息以生成和传输建议池310,该建议池存在客户504并由翻译模块316使用来辅助翻译者。通信模块506可以使用任何合适媒介操作,包括互联网、局域网、无线网络等。在一个例子中,客户502可以是在网络浏览器中运行翻译模块316的桌面计算机。
现在参考图6,示出了示例性翻译对话。用户界面600显示待翻译的句子602和最好机器生成翻译604。接受按钮606和拒绝按钮608允许用户接受或拒绝建议的翻译604。在本例中,源短句602有一个拼写错误(德文单词“ist,”是“is,”的意思,被错误拼写为单词“isst,”,意思是“eats”),导致机器翻译生成一荒谬建议翻译604。翻译604从字面是正确的,但翻译模块306/308可能无法检测出该建议的荒谬。翻译者可以选择拒绝按钮608,使对话框600显示来自建议池310的下一个最好的可能翻译。
人类翻译者很自然理解在目前例子中的错误并试图修正错误。因此,翻译者会全部拒绝该建议翻译604。然而,建议翻译604确实开始是正确的,翻译者可用选择正确的部分来建立准确翻译。因此翻译者在建议翻译604中所需的点开始,使得对话框610更新。现在包括原始建议翻译604的接受部分(在本例中,‘“Where’)的前缀612存在,并且单词“is”由用户输入。运行用户界面610的客户504更新建议池310和提供新最好翻译604。
如果前缀612偏离了在建议池310中的可能性,客户504向服务器502发送请求,请求额外的可能翻译并重建建议池310。这可能发生于翻译者基于整个文档上下文判断建议池310中的翻译相差甚远,但也可以发生如果翻译者例如仅想重建该句子。如上所述,这样的向服务器502的请求将增加提供新建议的翻译604的延迟。
对话框610以图形方式区别翻译前缀612和建议翻译604。在目前实施例中,这通过突出显示建议的翻译604和以纯文本渲染翻译前缀612,但应当理解,任何合适区别都可以使用。基于文本的上下文和翻译者处理讨论的两种语言的能力,翻译者确定新建议604准确反映了源句602的目的翻译。像这样,翻译者现在按压接受按钮606并继续文档中下一个句子。翻译者根本不需要使用按钮606/608,并且可替代地使用键盘快捷键或可以简单手工翻译整个句子。
已经描述了用于可可定制的和低延迟交互计算机辅助翻译的方法和系统的优选实施例(这些优选实施例旨在说明而并非限制),应当注意本领域技术人员可以根据上述教导做出修改和改变。因此,应当理解,可以在由所附权利要求书限定的本发明的范围内对所公开的特定实施例做出变化。因此已经用专利法需要的详述和细节描述了本发明的各方面,所要求保护以及期望专利许可证予以保护的内容在所附权利要求中阐述。
Claims (20)
1.一种计算机辅助翻译的方法,包括:
接收(106)待翻译的包括一个或多个句子的文档;
使用处理器为所述文档中的每个句子生成(202)可能翻译的建议池;
为翻译的句子向用户提供(204)来自从所述建议池的最好的建议;
基于用户的翻译前缀的输入,更新(210)所述建议池;以及
为翻译的句子向用户提供(210)来自更新的建议池的更新的最好建议。
2.根据权利要求1的方法,其中生成所述建议池包括使用通用模型和定制模型。
3.如权利要求2所述的方法,其中定制模型是使用域内数据为文档域建立的。
4.如权利要求2所述的方法,进一步包括基于完整的句子翻译更新定制翻译模型。
5.如权利要求1所述的方法,其中建议池是单词格,该单词格包括具有超过阈值的可能性的可能翻译的正确子集。
6.如权利要求1所述的方法,其中更新建议池包括删除与翻译前缀不匹配的建议。
7.如权利要求1所述的方法,进一步包括:
向客户装置传输所述建议池,其中建议池在服务器生成;以及
如果所述前缀与建议池中的可能翻译偏离,基于所述翻译前缀,传输需要附加的可能翻译的请求。
8.如权利要求1所述的方法,其中所述翻译前缀包括由用户手工输入的翻译信息。
9.如权利要求8所述的方法,其中所述翻译前缀包括所述最好建议中的被接受部分。
10.一种计算机可读存储媒介,包括用于计算机辅助翻译的计算机可读程序,其中运行在计算机上时计算机可读程序使该计算机执行权利要求1的步骤。
11.一种用于计算机辅助翻译的方法,包括:
接收(106)待翻译的包括一个或多个句子的文档;
基于具有域内翻译数据的通用和定制翻译模型,使用处理器在服务器装置为所述文档中的每个句子生成(202)可能翻译的建议池;
向用户装置传输(506)建议池;
为翻译的句子向用户提供(204)来自所述建议池的最好建议;
如果所述前缀与建议池中的可能翻译偏离,基于所述翻译前缀,传输(506)需要附加的可能翻译的请求;
基于用户的翻译前缀输入,更新(210)所述建议池;以及
为翻译的句子向用户提供(210)来自更新的建议池的更新的最好建议。
12.一种计算机辅助翻译的系统,包括:
处理器(302),被配置用于为文档中的每个句子生成可能翻译的建议池,该文档包括一个或多个待翻译句子;
翻译模块(316),被配置用于为翻译的句子向用户提供来自建议池的最好建议,和在接到用户的翻译前缀输入后为待翻译句子向用户提供来自更新的建议池的更新的最好建议;以及
池更新模块(312),被配置用于基于用户的翻译前缀输入,更新建议池。
13.如权利要求12所述的系统,其中所述处理器进一步被配置用于使用通用模型或定制模型以生成建议池。
14.如权利要求13所述的系统,其中定制模型是为文档域使用域内数据建立的。
15.如权利要求13所述的系统,进一步包括被配置用于基于完整句子翻译更新定制翻译模型的模型更新模块。
16.如权利要求12所述的系统,其中建议池是单词格,该单词格包括超过阈值的可能性的可能翻译的正确子集。
17.如权利要求12所述的系统,其中池更新模块进一步被配置为删除与所述翻译前缀不匹配的建议。
18.如权利要求12所述的系统,进一步包括:
服务器,其中所述服务器包括所述处理器和通信模块,该通信模块被配置用于传输所述建议池;以及
用户装置,其中该用户装置包括所述翻译模块、所述池更新模块、和被配置为接收所述建议池和如果所述前缀偏离在建议池中的可能翻译而基于所述翻译前缀传输需要附加的可能翻译的请求的通信模块。
19.如权利要求12所述的系统,其中所述翻译前缀包括由用户手工输入的翻译信息。
20.如权利要求19所述的系统,其中所述翻译前缀包括所述最好建议的被接受部分。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/847,288 | 2013-03-19 | ||
US13/847,288 US9183198B2 (en) | 2013-03-19 | 2013-03-19 | Customizable and low-latency interactive computer-aided translation |
PCT/US2014/031179 WO2014153388A1 (en) | 2013-03-19 | 2014-03-19 | Customizable and low-latency interactive computer-aided translation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105190608A true CN105190608A (zh) | 2015-12-23 |
Family
ID=51569776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480016486.6A Pending CN105190608A (zh) | 2013-03-19 | 2014-03-19 | 可定制、低延迟交互式计算机辅助翻译 |
Country Status (3)
Country | Link |
---|---|
US (4) | US9183198B2 (zh) |
CN (1) | CN105190608A (zh) |
WO (1) | WO2014153388A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598201A (zh) * | 2018-06-12 | 2019-12-20 | 国际商业机器公司 | 从概率输入识别准确转录 |
CN110750971A (zh) * | 2018-07-06 | 2020-02-04 | 国际商业机器公司 | 基于上下文的自动完成建议 |
CN112784612A (zh) * | 2021-01-26 | 2021-05-11 | 浙江香侬慧语科技有限责任公司 | 基于迭代修改的同步机器翻译的方法、装置、介质及设备 |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9292537B1 (en) | 2013-02-23 | 2016-03-22 | Bryant Christopher Lee | Autocompletion of filename based on text in a file to be saved |
US9430465B2 (en) * | 2013-05-13 | 2016-08-30 | Facebook, Inc. | Hybrid, offline/online speech translation system |
US9740687B2 (en) | 2014-06-11 | 2017-08-22 | Facebook, Inc. | Classifying languages for objects and entities |
US9864744B2 (en) | 2014-12-03 | 2018-01-09 | Facebook, Inc. | Mining multi-lingual data |
US9830404B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Analyzing language dependency structures |
US10067936B2 (en) | 2014-12-30 | 2018-09-04 | Facebook, Inc. | Machine translation output reranking |
US9830386B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Determining trending topics in social media |
US9477652B2 (en) | 2015-02-13 | 2016-10-25 | Facebook, Inc. | Machine learning dialect identification |
CN104714943A (zh) * | 2015-03-26 | 2015-06-17 | 百度在线网络技术(北京)有限公司 | 翻译方法及系统 |
CN104731776B (zh) * | 2015-03-27 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | 翻译信息的提供方法及系统 |
US9734142B2 (en) | 2015-09-22 | 2017-08-15 | Facebook, Inc. | Universal translation |
US10185713B1 (en) * | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10268684B1 (en) * | 2015-09-28 | 2019-04-23 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US9959271B1 (en) | 2015-09-28 | 2018-05-01 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US9678954B1 (en) * | 2015-10-29 | 2017-06-13 | Google Inc. | Techniques for providing lexicon data for translation of a single word speech input |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US10133738B2 (en) | 2015-12-14 | 2018-11-20 | Facebook, Inc. | Translation confidence scores |
US9734143B2 (en) | 2015-12-17 | 2017-08-15 | Facebook, Inc. | Multi-media context language processing |
US10002125B2 (en) * | 2015-12-28 | 2018-06-19 | Facebook, Inc. | Language model personalization |
US9747283B2 (en) | 2015-12-28 | 2017-08-29 | Facebook, Inc. | Predicting future translations |
US9805029B2 (en) | 2015-12-28 | 2017-10-31 | Facebook, Inc. | Predicting future translations |
JP6620934B2 (ja) * | 2016-01-29 | 2019-12-18 | パナソニックIpマネジメント株式会社 | 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム |
US10318640B2 (en) * | 2016-06-24 | 2019-06-11 | Facebook, Inc. | Identifying risky translations |
US10902215B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
US10902221B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
US10380249B2 (en) | 2017-10-02 | 2019-08-13 | Facebook, Inc. | Predicting future trending topics |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
JP7388720B2 (ja) | 2017-11-15 | 2023-11-29 | オプシス テック リミテッド | ノイズ適応ソリッドステートlidarシステム |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11431769B2 (en) * | 2018-04-26 | 2022-08-30 | Slack Technologies, Llc | Systems and methods for managing distributed client device membership within group-based communication channels |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US11605379B2 (en) * | 2019-07-11 | 2023-03-14 | Lg Electronics Inc. | Artificial intelligence server |
EP4147154A4 (en) * | 2020-05-08 | 2024-04-24 | Zoom Video Communications, Inc. | INCREMENTAL POST-EDIT AND LEARNING IN LANGUAGE TRANSCRIPT AND TRANSLATION SERVICES |
CN111753558B (zh) * | 2020-06-23 | 2022-03-04 | 北京字节跳动网络技术有限公司 | 视频翻译方法和装置、存储介质和电子设备 |
CN111666776B (zh) * | 2020-06-23 | 2021-07-23 | 北京字节跳动网络技术有限公司 | 文档翻译方法和装置、存储介质和电子设备 |
KR20220093653A (ko) | 2020-12-28 | 2022-07-05 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN113593560B (zh) * | 2021-07-29 | 2024-04-16 | 普强时代(珠海横琴)信息技术有限公司 | 可定制的低延时命令词识别方法及装置 |
US11900073B2 (en) * | 2021-09-07 | 2024-02-13 | Lilt, Inc. | Partial execution of translation in browser |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090063128A1 (en) * | 2007-09-05 | 2009-03-05 | Electronics And Telecommunications Research Institute | Device and method for interactive machine translation |
CN101826072A (zh) * | 2009-03-02 | 2010-09-08 | Sdl有限公司 | 计算机辅助自然语言翻译 |
US20120072203A1 (en) * | 2010-09-21 | 2012-03-22 | Inventec Corporation | System and method for using first language input to instantly output second language |
US20120209587A1 (en) * | 2011-02-16 | 2012-08-16 | Kabushiki Kaisha Toshiba | Machine translation apparatus, machine translation method and computer program product for machine tranalation |
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6393389B1 (en) * | 1999-09-23 | 2002-05-21 | Xerox Corporation | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions |
US20010029455A1 (en) | 2000-03-31 | 2001-10-11 | Chin Jeffrey J. | Method and apparatus for providing multilingual translation over a network |
WO2002073464A1 (en) | 2001-03-09 | 2002-09-19 | The One.Com | System and method for providing efficient and accurate translation of information in a communication network |
US7124073B2 (en) * | 2002-02-12 | 2006-10-17 | Sunflare Co., Ltd | Computer-assisted memory translation scheme based on template automaton and latent semantic index principle |
US7383542B2 (en) | 2003-06-20 | 2008-06-03 | Microsoft Corporation | Adaptive machine translation service |
GB2433403B (en) * | 2005-12-16 | 2009-06-24 | Emil Ltd | A text editing apparatus and method |
KR100834549B1 (ko) * | 2006-10-19 | 2008-06-02 | 한국전자통신연구원 | 번역 시스템 및 번역 서비스 제공방법 |
JP5280642B2 (ja) * | 2007-04-23 | 2013-09-04 | 株式会社船井電機新応用技術研究所 | 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法 |
US8706474B2 (en) * | 2008-02-23 | 2014-04-22 | Fair Isaac Corporation | Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names |
US8594992B2 (en) * | 2008-06-09 | 2013-11-26 | National Research Council Of Canada | Method and system for using alignment means in matching translation |
US9262403B2 (en) * | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
CN104011712B (zh) | 2011-06-24 | 2018-04-24 | 谷歌有限责任公司 | 对跨语言查询建议的查询翻译进行评价 |
US9323746B2 (en) * | 2011-12-06 | 2016-04-26 | At&T Intellectual Property I, L.P. | System and method for collaborative language translation |
US9613026B2 (en) * | 2011-12-28 | 2017-04-04 | Bloomberg Finance L.P. | System and method for interactive automatic translation |
US8954314B2 (en) * | 2012-03-01 | 2015-02-10 | Google Inc. | Providing translation alternatives on mobile devices by usage of mechanic signals |
US9189476B2 (en) * | 2012-04-04 | 2015-11-17 | Electronics And Telecommunications Research Institute | Translation apparatus and method thereof for helping a user to more easily input a sentence to be translated |
US9047274B2 (en) * | 2013-01-21 | 2015-06-02 | Xerox Corporation | Machine translation-driven authoring system and method |
-
2013
- 2013-03-19 US US13/847,288 patent/US9183198B2/en active Active
- 2013-09-18 US US14/030,637 patent/US9396186B2/en active Active
-
2014
- 2014-03-19 CN CN201480016486.6A patent/CN105190608A/zh active Pending
- 2014-03-19 WO PCT/US2014/031179 patent/WO2014153388A1/en active Application Filing
-
2015
- 2015-10-08 US US14/878,564 patent/US9940325B2/en active Active
-
2016
- 2016-05-04 US US15/146,129 patent/US10089303B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090063128A1 (en) * | 2007-09-05 | 2009-03-05 | Electronics And Telecommunications Research Institute | Device and method for interactive machine translation |
CN101826072A (zh) * | 2009-03-02 | 2010-09-08 | Sdl有限公司 | 计算机辅助自然语言翻译 |
US20120072203A1 (en) * | 2010-09-21 | 2012-03-22 | Inventec Corporation | System and method for using first language input to instantly output second language |
US20120209587A1 (en) * | 2011-02-16 | 2012-08-16 | Kabushiki Kaisha Toshiba | Machine translation apparatus, machine translation method and computer program product for machine tranalation |
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
Non-Patent Citations (1)
Title |
---|
SERGIO BARRACHINA ET AL.: "Statistical Approaches to Computer-Assisted Translation", 《COMPUTATIONAL LINGUISTICS》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598201A (zh) * | 2018-06-12 | 2019-12-20 | 国际商业机器公司 | 从概率输入识别准确转录 |
CN110598201B (zh) * | 2018-06-12 | 2023-04-07 | 国际商业机器公司 | 从概率输入识别准确转录 |
CN110750971A (zh) * | 2018-07-06 | 2020-02-04 | 国际商业机器公司 | 基于上下文的自动完成建议 |
CN110750971B (zh) * | 2018-07-06 | 2023-08-11 | 国际商业机器公司 | 基于上下文的自动完成建议 |
CN112784612A (zh) * | 2021-01-26 | 2021-05-11 | 浙江香侬慧语科技有限责任公司 | 基于迭代修改的同步机器翻译的方法、装置、介质及设备 |
CN112784612B (zh) * | 2021-01-26 | 2023-12-22 | 浙江香侬慧语科技有限责任公司 | 基于迭代修改的同步机器翻译的方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
US9183198B2 (en) | 2015-11-10 |
US20140288914A1 (en) | 2014-09-25 |
US9940325B2 (en) | 2018-04-10 |
US20140288913A1 (en) | 2014-09-25 |
US9396186B2 (en) | 2016-07-19 |
WO2014153388A1 (en) | 2014-09-25 |
US20160246782A1 (en) | 2016-08-25 |
US10089303B2 (en) | 2018-10-02 |
US20160026624A1 (en) | 2016-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105190608A (zh) | 可定制、低延迟交互式计算机辅助翻译 | |
US11132504B1 (en) | Framework for understanding complex natural language queries in a dialog context | |
CN111090461B (zh) | 一种基于机器翻译模型的代码注释生成方法 | |
US6188976B1 (en) | Apparatus and method for building domain-specific language models | |
CN100430929C (zh) | 词典、分段和语言模型联合优化的系统和迭代方法 | |
CN112836514B (zh) | 嵌套实体识别方法、装置、电子设备和存储介质 | |
JP2016218995A (ja) | 機械翻訳方法、機械翻訳装置及びプログラム | |
CN1781102B (zh) | 低速存储器判定树 | |
CN105095182A (zh) | 一种回复信息推荐方法及装置 | |
CN111241814B (zh) | 语音识别文本的纠错方法、装置、电子设备及存储介质 | |
US20090150139A1 (en) | Method and apparatus for translating a speech | |
US11397855B2 (en) | Data standardization rules generation | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
CN105069124A (zh) | 一种自动化的国际疾病分类编码方法及系统 | |
CN109710951B (zh) | 基于翻译历史的辅助翻译方法、装置、设备及存储介质 | |
CN110727659B (zh) | 基于sql语句的决策树模型生成方法、装置、设备及介质 | |
CN112860919B (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
US20120209590A1 (en) | Translated sentence quality estimation | |
CN116595138A (zh) | 知识问答方法、装置、设备及存储介质 | |
CN113850080A (zh) | 一种押韵词推荐方法、装置、设备及存储介质 | |
CN109710952B (zh) | 基于人工智能的翻译历史检索方法、装置、设备和介质 | |
CN110956043A (zh) | 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 | |
US11501055B2 (en) | Mathematical and scientific expression editor for computer systems | |
Carter et al. | Exact sampling and decoding in high-order hidden Markov models | |
CN112100335B (zh) | 问题生成方法、模型训练方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151223 |
|
RJ01 | Rejection of invention patent application after publication |