CN104508658A - 基于短语的词典提取和翻译质量评估 - Google Patents

基于短语的词典提取和翻译质量评估 Download PDF

Info

Publication number
CN104508658A
CN104508658A CN201380037412.6A CN201380037412A CN104508658A CN 104508658 A CN104508658 A CN 104508658A CN 201380037412 A CN201380037412 A CN 201380037412A CN 104508658 A CN104508658 A CN 104508658A
Authority
CN
China
Prior art keywords
translation
source
word
target
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380037412.6A
Other languages
English (en)
Other versions
CN104508658B (zh
Inventor
吴恩源
B.S.区
A.迈克尔
K.奥唐奈尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN104508658A publication Critical patent/CN104508658A/zh
Application granted granted Critical
Publication of CN104508658B publication Critical patent/CN104508658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

在第一布置中,维护翻译词典并使用其映射源和目标句子对。在另一布置中,翻译质量保证系统使用映射图表对翻译进行评级。数据接口访问将源语言匹配到目标语言的翻译词典。处理器使用翻译词典以在语言级自动映射具有源语言中的源句子和目标语言中的目标句子的句子对。用户输出装置显示目标句子的翻译质量报告。

Description

基于短语的词典提取和翻译质量评估
背景技术
人类译员可执行从第一语言到第二语言的翻译。作为替代,软件应用可应用翻译词典来执行翻译。翻译的成功或失败可由独立的核查者来确定。独立的核查者可以是第二人类译员或翻译核查程序。
发明内容
提供此“发明内容”以便以简化的方式介绍部分概念,其在下面的“具体实施方式”中进一步描述。此“发明内容”并非旨在确认所要求保护的主题的关键特征或本质特征,也并非旨在用于限制所要求保护的主题的范围。
下面讨论的实施例涉及使用映射图表对翻译进行评级。数据接口可访问将源语言匹配到目标语言的翻译词典。处理器可使用翻译词典在语言级自动映射具有源语言中的源句子和目标语言中的目标句子的句子对。用户输出装置可显示句子对的翻译质量报告。
附图说明
为了描述可获得上面所述以及其它优点和特征的方式,给出更为具体的描述,并将参照附图所示的其特定实施例来呈现这些更为具体的描述。在理解这些图示出典型实施例并且因此不应认为对其范围进行限制的情况下,通过使用附图,实施方式将以附加的明确性和细节来描述和阐释。
图1在框图中示出了计算装置的一个实施例。
图2在框图中示出了匹配单元的一个实施例。
图3在框图中示出了映射图表的一个实施例。
图4在框图中示出了复合词映射的一个实施例。
图5在框图中示出了模糊复合词映射的一个实施例。
图6在流程图中示出了用于创建混合词-短语列表的方法的一个实施例。
图7在流程图中示出了用于创建翻译词典的方法的一个实施例。
图8在流程图中示出了用于生成翻译质量报告的方法的一个实施例。
图9在流程图中示出了用于创建映射图表的方法的一个实施例。
具体实施方式
下面详细讨论实施例。尽管讨论了具体实施方式,但是这种讨论出于说明目的而进行。相关领域技术人员将会认识到,在不脱离本公开的主题的精神和范围的情况下,可使用其它部件和配置。实施方式可以为机器实现的方法、在其上存储有用于至少一个处理器的详述方法的指令集的有形计算机可读介质、或翻译质量保证系统。
翻译质量保证工具可在确定翻译质量时使用许多不同的衡量标准,例如片段级检查、一致性、标点、数字和日期、术语、标记以及软件特有的构造。翻译质量保证系统的准确度可通过使用翻译词典以在双语句子对之间映射词和短语来改进。“短语”或“片段”是在没有间隔的情况下彼此相邻的一个或多个连续词的集合,而无论含义和语法正确性如何。在此背景下的句子是一个或多个词的串,未必是语法上的句子。句子可以是完整的句子或不完整的句子。翻译质量保证系统可从两个并行的文本文件提取翻译词典,将源句子映射到目标句子,并将所得统计资料收集到翻译质量报告中。
首先,翻译质量保证系统可通过将集成的、长度可调节的且自动裁减的基于短语的比较与统计机器翻译模型结合使用而从并行双语句子对的训练数据集来构建双语词典。当前,基于短语的统计机器翻译模型可构建初始的词到词对准,或“翻译词典”,从而使用另外的模型和计算来提取短语。由于词级翻译词典可具有噪音,所以并行句子对中的“词映射”和最终短语提取可引入进一步的噪音。因此,所提取的翻译词典可具有高的噪音水平,从而在现有统计机器翻译方法中带来附加的计算步骤。
翻译质量保证系统可将源句子和目标句子二者分段为词和具有上限词数(例如八个)的短语。翻译质量保证系统可将混合词-短语列表馈送到统计机器翻译模型中以确定对准。翻译质量保证系统可将没有翻译或具有低翻译概率的短语裁减到混合词-短语列表之外。翻译质量保证系统可继续循环直到达到单个词水平为止。
具体而言,翻译质量保证系统可以短语中的高词数(例如八个)开始。翻译质量保证系统可将源语言中的句子分为词和短语的混合列表,并针对目标语言重复同样的过程。翻译质量保证系统可将两个混合列表连同双语句子对一起用作到统计机器翻译模型的输入。通过贯穿双语句子对进行循环,统计机器翻译模型可通过计算概率来确定每个翻译的可能性。
翻译质量保证系统可生成第一轮翻译概率表,或翻译词典。然后,翻译质量保证系统可裁减混合词-短语列表以移除在该水平处没有翻译或具有低翻译概率的任何短语,从而留下该短语长度处的可信短语。在下一步骤中,翻译质量保证系统可将短语中所允许的最大词数减一并重复该过程。这种分段、训练和裁减过程可继续直到达到单个词的短语长度为止。如果使用非对称统计机器翻译模型,则翻译质量保证系统可逆转源和翻译,重复该过程,并覆盖结果。非对称统计机器翻译在语言对之间具有基于将哪种语言看作源语言而不同的结果。
翻译质量保证系统可针对翻译对中的每种语言创建混合词-短语列表。翻译质量保证系统可将源句子或目标句子分段为词,从而以该词在整个训练数据中出现的频率将每个词添加到词列表。然后,翻译质量保证系统可将连续的两个词添加到两个词的短语列表,从而重复该过程直到达到短语中的词数的上限(例如八个)为止。翻译质量保证系统可以预定的出现阈值(例如出现五次)为标准来检查每个短语的频率。当将较大数目的词添加到短语列表时,翻译质量保证系统可确保底层的较短短语是有效的。最后,翻译质量保证系统可将所有长度的短语和词合并为单个混合词-短语列表,其被用作词典提取过程的初始输入。
在针对源语言和目标语言二者将训练数据中的句子分为混合词-短语列表的情况下,翻译质量保证系统可使用任何统计机器翻译模型来计算初始翻译概率表。一旦完成第一轮统计机器翻译训练,翻译质量保证系统就可从混合词-短语列表移除没有翻译或具有低翻译概率的短语。在所选择的短语从初始混合词-短语列表移除之后,翻译质量保证系统可对句子重新分段并重新计算翻译概率表。因此,分段、训练和裁减过程可继续直到达到单个词的水平为止。翻译质量保证系统可覆盖非对称统计机器翻译词典提取中的翻译概率表。
在分段、训练和裁减的迭代之后,翻译质量保证系统可产生双语短语词典。通常,具有大于0.5的翻译概率的词典条目可被看作是可靠的,具有0.25和0.5之间的翻译概率的那些词典条目可被看作是勉强可用的,而具有0.25以下的翻译概率的那些词典条目可被看作是不可靠的。在具有更详细的参数调节、更高的迭代次数和更大规模的训练数据的情况下,结果可得以改进。
使用这种领域专用的提取的双语词典,翻译质量保证系统可在给定双语句子对中将源句子映射到目标句子以验证翻译的质量。翻译质量保证系统可通过将文本文件片段分段为词列表来开始。对于源语言的词列表中的每个词,翻译质量保证系统可首先创建短语的列表,从而以短语中的上限词数开始。翻译质量保证系统可试图查明这样的短语是否存在于所提取的双语词典中。如果存在,则翻译质量保证系统可检查该短语的翻译列表以弄清楚目标句子中是否存在任何翻译。如果存在,则翻译质量保证系统可检查目标句子中是否没有一个词匹配。如果匹配,则翻译质量保证系统可更新匹配信息以指示匹配。如果具有较多词的源短语被留作是未匹配的,则翻译质量保证系统可将短语中的词数减一并重复直到检查了单个词。
在许多语言中,某些词可用作语法目的并且非常频繁地出现。这些“噪音词”可以以多种方式翻译或者甚至不翻译。进一步地,这些噪音词可能在一个句子中多次出现,从而干扰适当的源-目标句子映射。为了避免误对准,翻译质量保证系统可推迟或者甚至放弃映射。
如果对准工作在一些词上导致失败,则翻译质量保证系统可使用模糊匹配来补偿。在许多基于拼写的语言中,词可能改变拼写以满足一些语言功能,从而避免容易的检测。使用一种版本的模糊匹配,翻译质量保证系统可获得更好的匹配率。
在诸如德语,荷兰语、芬兰语和冰岛语之类的一些语言中,可能自然地创建复合词。为了应对复合词,在句子映射之前,翻译质量保证系统可将未匹配的序列词组合为复合词。
为了施行复合词映射,翻译质量保证系统可贯穿目标句子中的每个未匹配词进行循环,寻找具有作为复合词的前缀的翻译的任何未映射的源词。如果找到这样的源词,则该源词可以是复合词中的第一子串。然后,翻译质量保证系统可检查下一源词。如果源词已经被映射,则翻译质量保证系统可退出映射过程。否则,翻译质量保证系统可检查所有目标翻译,以寻找能与第一子串连接并且仍为前缀或等于复合词的一个。构建可继续直到成功或是失败。翻译质量保证系统也可在确定复合词匹配时使用模糊匹配。
通过使用多轮映射,翻译质量保证系统可贯穿多个选项进行循环。翻译质量保证系统可以优选的术语词典、领域专用的翻译词典、所提取的翻译词典、通用翻译词典、复合词映射、模糊匹配映射来开始,并且然后进行噪音词映射。
然后,翻译质量保证系统可产生翻译质量报告以提供给人类译员或翻译质量检查人员。翻译质量报告可包括置信度。置信度可以是基于词的或基于字符的。词置信度可将总映射词数除以总词数。字符置信度可将映射词中的总字符数除以句子中的总字符数。混合式置信度可对这两个进行平均。置信度可在源句子和目标句子中不同。总置信度可以是这两个中的较小者。
翻译质量保证系统可在映射图表中可视化地显示映射数据。翻译质量保证系统可对文本文件片段中的每个短语或词进行颜色编码以指示映射,其中特别分配的颜色(诸如黑色)被用来指示未映射的词。映射图表可针对每个词或仅仅针对不正确翻译的那些词指示映射。
翻译质量保证系统可实时提供翻译质量报告。用户可更新翻译质量保证系统以校正作为系统中的错误或不完整的数据的结果的误翻译的任何提醒。翻译质量保证系统可标识不具有可容易标识的匹配的源短语或目标短语的插入,并将插入归类为正确的或不正确的。这些插入可由译者在源语言中的词不具有目标语言中的等同词的情况下使用。另外,翻译质量保证系统可检测“忘记的翻译”,其中源短语和目标短语相同。
因此,在一个实施例中,翻译质量保证系统可使用映射图表来对翻译进行评级。数据接口可访问将源语言匹配到目标语言的翻译词典。处理器可使用翻译词典在语言级自动映射具有源语言中的源句子和目标语言中的目标句子的句子对。用户输出装置可显示目标句子的翻译质量报告。
图1示出了可充当翻译质量保证系统的示例性计算装置100的框图。计算装置100可组合硬件、软件、固件和片上系统技术中的一个或多个以实现翻译质量保证系统。计算装置100可包括总线110、处理器120、存储器130、数据存储140、数据接口150、输入装置160、输出装置170以及通信接口180。总线110或其它部件互连装置可准许计算装置100的部件当中的通信。
处理器120可包括解译和执行指令集的至少一个传统处理器或微处理器。存储器130可以为随机存取存储器(RAM)或另一类型的动态存储装置,其存储用于由处理器120执行的信息和指令。存储器130也可存储在由处理器120执行指令期间使用的其它中间信息或临时变量。
数据存储140可包括任何类型的有形计算机可读介质,例如磁或光记录介质(例如数字视频盘)及其对应驱动。与信号相反,有形计算机可读介质为物理介质,其存储机器可读的代码或指令。如这里所描述的使指令存储在计算机可读介质上与使指令传播或传输不同,因为传播传递指令,这与存储指令(例如具有存储在其上的指令的计算机可读介质可发生的那样)相对。因此,除非另有说明,否则以这种或类似形式提到在其上存储有指令的计算机可读介质是指可在其上存储或保持数据的有形介质。数据存储140可存储详述方法的指令集,其在由一个或多个处理器执行时使所述一个或多个处理器施行该方法。数据接口150可为数据存储140、数据库、或者用于存储或访问翻译词典或多个专业翻译词典的数据接口。
输入装置160可包括准许用户向计算装置100输入信息的一个或多个传统机构,例如键盘、鼠标、语音识别装置、麦克风、头戴式耳机、手势识别装置、触摸屏等。输出装置170可包括向用户输出信息的一个或多个传统机构,包括显示器、打印机、一个或多个扬声器、头戴式耳机、或者诸如存储器、或者磁盘或光盘、以及对应的盘驱动之类的介质。通信接口180可包括任何类似于收发器的机构,其使得计算装置100能够与其它装置或网络通信。通信接口180可包括网络接口或收发器接口。通信接口180可为无线、有线或光学接口。
计算装置100可响应于处理器120执行包含在计算机可读介质(例如存储器130、磁盘或光盘)中的指令序列而施行这样的功能。这样的指令可经由通信接口180从另一计算机可读介质(例如存储装置150)或从分离的装置读入到存储器130中。
翻译质量保证系统可将匹配单元用作数据结构以便于将源句子映射到目标句子。图2在框图中示出了匹配单元200的一个实施例。匹配单元200可促进多轮映射。匹配单元标识符210可描述源句子或目标句子中的元素的索引。目标匹配单元200或源匹配单元可以是词、复合词或标点符号。匹配概率字段220可描述句子对中的词之间的匹配的概率。概率字段220可显示来自翻译词典的概率值。
匹配单元200中的匹配长度字段230可描述源句子或目标句子中的连续词的数目。匹配长度字段230可被初始化为0,从而指示尚未匹配。为1的匹配长度值可指示单个词的匹配,大于1的匹配值指示多个词的短语匹配。在多个词的短语匹配的情况下,相邻的词可具有相同的匹配长度值。匹配长度字段230可指示单个词的匹配或多个词的短语匹配。
匹配列表字段240可描述双语句子对的匹配句子中的匹配词的词索引列表。空的匹配列表字段240可指示词尚未匹配,具有0值的匹配长度字段230与空的匹配列表同步。单个项的匹配列表字段240可指示来自其它句子的单个词匹配该词。
翻译质量保证系统可创建映射图表以向用户显示。图3在框图中示出了映射图表300的一个实施例。映射图表300可将源句子310的源元素映射到目标句子320中的目标元素。元素是指句子中的词或短语。例如,源句子310可以为“Web sites spread false information”。在此示例中,源语言可以为英语。目标句子320可以为“Sitios web de difundir informacion falsa”。目标语言可以为西班牙语。
初始时,源句子310可被分段为源词312。源词312可代表标点符号以及词。连续的源词312可组合为源短语314以被映射到任何目标元素。源短语314的采用可取决于找到匹配的目标元素。源元素可指源词312或源短语314。每个源词312和源短语314可具有不同的源颜色代码316。
目标句子320可被分段为目标词322。目标词322可代表标点符号以及词。连续的目标词322可组合为目标短语324以被映射到任何源元素。目标短语324的采用可取决于找到匹配的源元素。目标元素可指目标词322或目标短语324。每个目标词322和目标短语324可具有不同的目标颜色代码326。
翻译质量保证系统可将源词312匹配到目标词322或目标短语324。翻译质量保证系统可将源短语314匹配到目标词322或目标短语324。源元素可以与匹配的目标元素处于不同的顺序。目标颜色代码326可匹配源颜色代码316以指示目标词322或目标短语324匹配源词312或源短语314。例如,源词312“false”可具有源颜色代码316蓝色。目标词322“falsa”可具有目标颜色代码326蓝色,从而指示源词312“false”匹配目标词322“falsa”。颜色编码可以是随机的,从而允许在刷新时改变。因此,具有类似颜色的相邻元素可被重新设置以更好地区分映射。
翻译质量保证系统可标识源句子310或目标句子320中的任何噪音词328。噪音词328是一种语言中的常见词,其主要用于功能性目的。噪音词328可能不在其它语言中出现。例如,噪音词328的实例“de”可在西班牙语中与动词结合地出现,其中没有使用的等价英文词。另外,长句子可具有许多噪音词328,其匹配不同语言中的许多不同词。例如,英语冠词“a”可翻译为法语冠词“Un”或“Une”,这取决于跟随的名词的性别。因此,“a girl”可翻译为“une fille”,而“a boy”可翻译为“un garcon”。翻译质量保证系统可推迟噪音词328的匹配直到已经匹配文本文件片段中的其它词为止。未匹配的词可具有单独的颜色代码320,例如黑色,从而指示该词在匹配的文本文件片段中不具有匹配的词。
诸如德语之类的一些语言可具有代表多个词的复合词。图4在框图中示出了复合词映射400的一个实施例。翻译质量保证系统可将每个源词312匹配到目标词322。翻译质量保证系统可对目标词322进行组合以创建复合词402。尽管在此示例中在目标句子320中示出了复合词402,但是复合词可以在源句子310中。
例如,英语短语“web service sessions”可被分段为源词312“web”、“service”和“sessions”。在德语中,翻译的目标词322可以为“web”、“dienst”和“sitzungen”。然而,这些单个词中可能没有一个已经在德语句子中出现。翻译质量保证系统可将这些目标词322组合为复合词402“webdienstsitzungen”以实现映射。
有时,复合词402与源词312或目标词322之间的匹配可能不确切。图5在框图中示出了模糊复合词映射500的一个实施例。翻译质量保证系统可将每个源词312匹配到目标词322。翻译质量保证系统可组合目标词322以创建复合词402,其除目标词322之外具有模糊字符502。翻译质量保证系统可使用附加逻辑来标识目标词322的简单连接与实际目标复合词402足够类似,使得源词312匹配目标复合词402。尽管在此示例中在目标句子320中示出了复合词402,但是复合词可以在源句子310中。
例如,英语短语“health advertising program”可被分段为源词312“health”、“advertising”和“program”。在德语中,翻译的目标词322可以为“gesundheit”、“werbung”和“programm”。翻译质量保证系统可将这些目标词322组合为具有模糊字符“s”502的复合词402以读作“gesundheitswerbungprogramm”。翻译质量保证系统可使用模糊匹配逻辑来建立目标词322和目标复合词402之间的对应关系。
翻译质量保证系统可开发专用词典,或从不同源录入词典。翻译质量保证系统可使用训练数据集来创建语言对中的每个特征化语言中的混合词-短语列表。训练数据集是代表大句子对池的文本文件,其中句子对的每个句子是句子对中的另一句子的可靠翻译。图6在流程图中示出了用于创建混合词-短语列表的方法600的一个实施例。翻译质量保证系统可标识用于一种语言的训练数据集中的词列表(方框602)。假设任何相邻的词可以是短语而无论语法含义或正确性如何,翻译质量保证系统可构建用于该语言的训练数据集中的短语列表(方框604)。翻译质量保证系统可针对短语列表中的每个短语在训练数据集中的出现进行计数(方框606)。翻译质量保证系统可基于短语出现阈值来将短语裁减到短语列表之外(方框608)。翻译质量保证系统可基于词列表和短语列表来创建混合词-短语列表(方框610)。翻译质量保证系统可针对语言对中的两种语言创建混合词-短语列表。
通过使用混合词-短语列表,翻译质量保证系统可使用统计翻译模型以基于训练数据集来提取翻译词典。图7在流程图中示出了用于提取翻译词典的方法700的一个实施例。翻译质量保证系统可设置短语中的词的上限,例如8个(方框702)。翻译质量保证系统可从训练数据集创建用于源语言的源混合词-短语列表(方框704)。翻译质量保证系统可从训练数据集创建用于目标语言的目标混合词-短语列表(方框706)。翻译质量保证系统可基于源混合词-短语列表对训练源句子进行分段(方框708)。翻译质量保证系统可基于目标混合词-短语列表对训练目标句子进行分段(方框710)。翻译质量保证系统可将统计机器翻译(SMT)模型连同训练数据集中的每个句子对一起应用到源混合词-短语列表和目标混合词-短语列表(方框712)。
作为利用统计机器翻译模型训练的结果,翻译质量保证系统可生成翻译概率表,其详述将源混合词-短语列表中的每个源元素翻译为目标混合词-短语列表中的任何目标元素的可能性(方框714)。这种翻译概率表被称为“翻译词典”。如果上限大于1(方框716),则翻译质量保证系统可裁减源混合词-短语列表以移除具有等于上限的词数和低翻译概率(例如小于0.25)的任何源短语314(方框718)。翻译质量保证系统可裁减目标混合词-短语列表以移除具有等于上限的词数和低翻译概率(例如小于0.25)的任何目标短语324(方框720)。翻译质量保证系统可将上限减一(722),并可对源训练数据集重新分段以重新开始该过程(方框708)。当上限达到1时,翻译质量保证系统可结束提取,从而已经将具有低翻译概率的短语从混合词-短语列表和翻译词典移除。
通过使用翻译词典,翻译质量保证系统可对源元素和目标进行映射,以计算翻译置信度并生成用于句子对的翻译质量报告。图8在流程图中示出了用于评估翻译质量的方法800的一个实施例。翻译质量保证系统可从词典源录入翻译词典(方框802)。或者,翻译质量保证系统可基于训练数据集而生成翻译词典,如图7中所述。翻译质量保证系统可维护将源语言匹配到目标语言的翻译词典(方框804)。如果正在翻译任何利基(niche)文档,则翻译质量保证系统可维护专业翻译词典(方框806)。
对于具有翻译质量检查的每个句子对而言,翻译质量保证系统可使用翻译词典在语言级自动映射具有源语言中的源句子310和目标语言中的目标句子320的句子对(方框808)。通过在语言级映射句子对,翻译质量保证系统可将源句子的源元素匹配到目标句子的目标元素。翻译质量保证系统可生成目标句子320和源句子310之间的映射图表300以用于在翻译质量报告中显示(方框810)。翻译质量保证系统可对映射图表进行颜色编码以指示哪些源词和源短语与哪些目标词和目标短语对准(方框812)。翻译质量保证系统可计算翻译质量报告中的句子对的置信度(方框814)。
翻译质量保证系统可实时地产生和显示句子对的翻译质量报告(方框816)。翻译质量保证系统可接收对实时翻译质量报告的任何用户校正(方框818)。翻译质量保证系统可基于用户校正来更新翻译词典(方框820)。翻译质量保证系统可向用户提供批量报告,从而汇集多个翻译的结果(方框822)。
图9在流程图中示出了用于创建映射图表300的方法900的一个实施例。翻译质量保证系统可基于所提取的词典对源句子310进行分段(方框902)。翻译质量保证系统可基于所提取的词典对目标句子320进行分段(方框904)。翻译质量保证系统可标识噪音词以用于推迟匹配或者在已经匹配其它词之后进行匹配(方框906)。对于源句子310的每个可映射源短语314而言,翻译质量保证系统可在将源词312映射到目标元素之前将源句子310的源短语314映射到目标句子320的目标元素(方框908)。对于源句子310的每个可映射源词312而言,翻译质量保证系统可将源句子310的源词312映射到目标句子320的目标元素(方框910)。翻译质量保证系统可将源句子310或目标句子320中的未映射词322标识为复合词402(方框912)。翻译质量保证系统然后可将复合词映射到任何匹配的元素,可能地使用模糊匹配。翻译质量保证系统可将源复合词402映射到目标元素,可能地使用模糊匹配(方框914)。翻译质量保证系统可将目标复合词402映射到源元素,可能地使用模糊匹配(方框916)。翻译质量保证系统可使用模糊匹配来映射未匹配元素,例如未匹配源元素到未匹配目标元素,或者反之(方框918)。翻译质量保证系统可映射任何噪音词324(方框920)。
尽管已经特别针对结构特征和/或方法动作在语言上对主题进行了描述,但是将理解,所附权利要求中的主题不必限于上面描述的特定特征或动作。相反,上面描述的特定特征和动作作为实施权利要求的示例形式而公开。
本发明范围内的实施例也可包括用于承载或在其上存储有计算机可执行指令或数据结构的有形计算机可读存储介质。这种有形计算机可读存储介质可以是可由通用或专用计算机访问的任何可用介质。通过示例但非限制的方式,这种有形计算机可读存储介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或可用于承载或存储具有计算机可执行指令或数据结构形式的期望程序代码手段的任何其它有形非暂时性介质。上述的组合也应当包括在计算机可读存储介质的范围内。
实施例也可在分布式计算环境中实现,其中任务由通过通信网络(通过硬接线链路、无线链路或通过其组合)链接的本地和远程处理装置来施行。
计算机可执行指令包括例如使通用计算机、专用计算机或专用处理装置施行特定功能或特定的一组功能的指令和数据。计算机可执行指令也包括程序模块,其由计算机在独立或网络环境中执行。一般地,程序模块包括施行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构等等。计算机可执行指令、相关联的数据结构以及程序模块代表用于执行这里公开的方法的步骤的程序代码手段。这些可执行指令或相关联的数据结构的特定序列代表用于实现这些步骤中描述的功能的对应动作的示例。
尽管上面的描述可能包括特定的细节,但是它们不应当看作以任何方式对权利要求进行限制。所描述的实施例的其它配置是本公开的范围的一部分。例如,本公开的原理可适用于每个个体用户,其中每个用户可独立部署这样的系统。这使得每个用户能够利用本公开的益处,即使大量可能的应用中的任何一个不使用这里描述的功能性。电子装置的多个实例中的每一个可以以多种可能的方式处理内容。实施方式不必在所有终端用户所使用的一个系统中。因此,应当仅由所附权利要求及其法律上的等同内容限定本发明,而不是由所给出的任何具体示例来限定。

Claims (10)

1.一种机器实现的方法,包括:
维护将源语言匹配到目标语言的翻译词典;
使用翻译词典在语言级自动映射具有源语言中的源句子和目标语言中的目标句子的句子对。
2.权利要求1的方法,进一步包括:
将源句子的源词映射到目标句子的目标元素。
3.权利要求1的方法,进一步包括:
在映射源词之前,将源句子的源短语映射到目标句子的目标元素。
4.权利要求1的方法,进一步包括:
标识噪音词以用于推迟的匹配。
5.权利要求1的方法,进一步包括:
使用模糊匹配来映射未匹配的元素。
6.权利要求1的方法,进一步包括:
从词典源录入翻译词典。
7.权利要求1的方法,进一步包括:
基于用户校正更新翻译词典。
8.在其上存储有详述方法的指令集的有形计算机可读介质,当所述指令集被一个或多个处理器执行时使所述一个或多个处理器施行所述方法,所述方法包括:
从训练数据集创建用于源语言的源混合词-短语列表;
从训练数据集创建用于目标语言的目标混合词-短语列表;
将统计机器翻译模型应用到源混合词-短语列表和目标混合词-短语列表;以及
生成用于源语言和目标语言的翻译词典。
9.一种翻译质量保证系统,包括:
访问将源语言匹配到目标语言的翻译词典的数据存储;
使用翻译词典在语言级自动映射具有源语言中的源句子和目标语言中的目标句子的句子对的处理器;以及
显示句子对的翻译质量报告的用户输出装置。
10.权利要求9的翻译质量保证系统,其中翻译质量报告对目标句子与源句子之间的映射图表进行颜色编码。
CN201380037412.6A 2012-07-13 2013-07-05 基于短语的词典提取和翻译质量评估 Active CN104508658B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/548231 2012-07-13
US13/548,231 US9081762B2 (en) 2012-07-13 2012-07-13 Phrase-based dictionary extraction and translation quality evaluation
PCT/US2013/049415 WO2014011494A2 (en) 2012-07-13 2013-07-05 Phrase-based dictionary extraction and translation quality evaluation

Publications (2)

Publication Number Publication Date
CN104508658A true CN104508658A (zh) 2015-04-08
CN104508658B CN104508658B (zh) 2018-05-15

Family

ID=48808529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380037412.6A Active CN104508658B (zh) 2012-07-13 2013-07-05 基于短语的词典提取和翻译质量评估

Country Status (6)

Country Link
US (2) US9081762B2 (zh)
EP (1) EP2873003A2 (zh)
JP (2) JP6351587B2 (zh)
KR (1) KR102025968B1 (zh)
CN (1) CN104508658B (zh)
WO (1) WO2014011494A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363702A (zh) * 2017-01-26 2018-08-03 三星电子株式会社 翻译方法和设备以及翻译系统
CN108427671A (zh) * 2018-01-25 2018-08-21 腾讯科技(深圳)有限公司 信息转换方法和装置、存储介质及电子装置
CN110147558A (zh) * 2019-05-28 2019-08-20 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN110998741A (zh) * 2017-07-18 2020-04-10 皇家飞利浦有限公司 编码医学词汇的映射
CN111046679A (zh) * 2020-03-13 2020-04-21 腾讯科技(深圳)有限公司 翻译模型的质量信息获取方法、装置及计算机设备
CN111985251A (zh) * 2019-05-21 2020-11-24 南京大学 翻译质量测评方法及装置

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9886500B2 (en) 2013-03-13 2018-02-06 Open Text Holdings, Inc. System and method for providing technology assisted data review with optimizing features
WO2015070093A1 (en) * 2013-11-08 2015-05-14 Thomas Fennell System and method for translating texts
BE1022611A9 (nl) * 2014-10-19 2016-10-06 Televic Conference Nv Toestel voor audio input/output
US10347240B2 (en) * 2015-02-26 2019-07-09 Nantmobile, Llc Kernel-based verbal phrase splitting devices and methods
KR102385851B1 (ko) * 2015-05-26 2022-04-13 주식회사 케이티 음성 인식 및 번역 시스템,방법 및 컴퓨터 프로그램
US20170024701A1 (en) * 2015-07-23 2017-01-26 Linkedin Corporation Providing recommendations based on job change indications
KR102407630B1 (ko) * 2015-09-08 2022-06-10 삼성전자주식회사 서버, 사용자 단말 및 이들의 제어 방법.
US10185713B1 (en) 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US9959271B1 (en) * 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10430522B2 (en) * 2016-03-15 2019-10-01 Qordoba, Inc. Dynamic suggestions for content translation
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
US10268674B2 (en) * 2017-04-10 2019-04-23 Dell Products L.P. Linguistic intelligence using language validator
TWI634439B (zh) * 2017-10-18 2018-09-01 統一數位翻譯股份有限公司 翻譯文件的媒合系統
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
CN107885728A (zh) * 2017-12-11 2018-04-06 中译语通科技股份有限公司 一种基于译员在线翻译的qa自动检测方法及系统
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN110334360B (zh) * 2019-07-08 2021-07-06 腾讯科技(深圳)有限公司 机器翻译方法及装置、电子设备及存储介质
US11966711B2 (en) * 2021-05-18 2024-04-23 International Business Machines Corporation Translation verification and correction

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040030542A1 (en) * 2002-07-26 2004-02-12 Fujitsu Limited Apparatus for and method of performing translation, and computer product
CN1503161A (zh) * 2002-11-20 2004-06-09 获悉词组之间的转换关系的统计方法和装置
US7389222B1 (en) * 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
CN101248432A (zh) * 2005-08-25 2008-08-20 慕迪灵公司 翻译质量量化设备和方法
US20090070102A1 (en) * 2007-03-14 2009-03-12 Shuhei Maegawa Speech recognition method, speech recognition system and server thereof
US20110093254A1 (en) * 2008-06-09 2011-04-21 Roland Kuhn Method and System for Using Alignment Means in Matching Translation
US20110202330A1 (en) * 2010-02-12 2011-08-18 Google Inc. Compound Splitting

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
JPH05298360A (ja) * 1992-04-17 1993-11-12 Hitachi Ltd 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
JP3778705B2 (ja) * 1998-09-24 2006-05-24 沖電気工業株式会社 対訳文書対応付けシステム
JP2000148756A (ja) * 1998-11-12 2000-05-30 Matsushita Electric Ind Co Ltd 対訳文誤り検出装置
JP2002328920A (ja) * 2001-05-07 2002-11-15 Atr Onsei Gengo Tsushin Kenkyusho:Kk 対訳文の単語対応付け方法
JP2003016063A (ja) 2001-06-27 2003-01-17 Machcs Co Ltd 機械翻訳辞書自動選択装置および情報記憶媒体
JP3973549B2 (ja) * 2002-12-19 2007-09-12 沖電気工業株式会社 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US8050906B1 (en) * 2003-06-01 2011-11-01 Sajan, Inc. Systems and methods for translating text
US8700383B2 (en) 2005-08-25 2014-04-15 Multiling Corporation Translation quality quantifying apparatus and method
JP2008276517A (ja) 2007-04-27 2008-11-13 Oki Electric Ind Co Ltd 訳文評価装置、訳文評価方法およびプログラム
US8185377B2 (en) * 2007-08-11 2012-05-22 Microsoft Corporation Diagnostic evaluation of machine translators
US20090192782A1 (en) * 2008-01-28 2009-07-30 William Drewes Method for increasing the accuracy of statistical machine translation (SMT)
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US9767095B2 (en) * 2010-05-21 2017-09-19 Western Standard Publishing Company, Inc. Apparatus, system, and method for computer aided translation
KR101850124B1 (ko) * 2011-06-24 2018-04-19 구글 엘엘씨 교차-언어 쿼리 제안을 위한 쿼리 번역 평가

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040030542A1 (en) * 2002-07-26 2004-02-12 Fujitsu Limited Apparatus for and method of performing translation, and computer product
CN1503161A (zh) * 2002-11-20 2004-06-09 获悉词组之间的转换关系的统计方法和装置
US7389222B1 (en) * 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
CN101248432A (zh) * 2005-08-25 2008-08-20 慕迪灵公司 翻译质量量化设备和方法
US20090070102A1 (en) * 2007-03-14 2009-03-12 Shuhei Maegawa Speech recognition method, speech recognition system and server thereof
US20110093254A1 (en) * 2008-06-09 2011-04-21 Roland Kuhn Method and System for Using Alignment Means in Matching Translation
US20110202330A1 (en) * 2010-02-12 2011-08-18 Google Inc. Compound Splitting

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363702B (zh) * 2017-01-26 2023-10-31 三星电子株式会社 翻译方法和设备以及翻译系统
US11954452B2 (en) 2017-01-26 2024-04-09 Samsung Electronics Co., Ltd. Translation method and apparatus, and translation system
CN108363702A (zh) * 2017-01-26 2018-08-03 三星电子株式会社 翻译方法和设备以及翻译系统
CN110998741A (zh) * 2017-07-18 2020-04-10 皇家飞利浦有限公司 编码医学词汇的映射
CN110998741B (zh) * 2017-07-18 2024-04-09 皇家飞利浦有限公司 编码医学词汇的映射
CN108427671A (zh) * 2018-01-25 2018-08-21 腾讯科技(深圳)有限公司 信息转换方法和装置、存储介质及电子装置
US11880667B2 (en) 2018-01-25 2024-01-23 Tencent Technology (Shenzhen) Company Limited Information conversion method and apparatus, storage medium, and electronic apparatus
CN111985251A (zh) * 2019-05-21 2020-11-24 南京大学 翻译质量测评方法及装置
CN111985251B (zh) * 2019-05-21 2023-11-07 南京大学 翻译质量测评方法及装置
CN110147558B (zh) * 2019-05-28 2023-07-25 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN110147558A (zh) * 2019-05-28 2019-08-20 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN111046679B (zh) * 2020-03-13 2020-07-28 腾讯科技(深圳)有限公司 翻译模型的质量信息获取方法、装置及计算机设备
CN111046679A (zh) * 2020-03-13 2020-04-21 腾讯科技(深圳)有限公司 翻译模型的质量信息获取方法、装置及计算机设备

Also Published As

Publication number Publication date
WO2014011494A2 (en) 2014-01-16
US20150302005A1 (en) 2015-10-22
CN104508658B (zh) 2018-05-15
JP2018037095A (ja) 2018-03-08
US20140019113A1 (en) 2014-01-16
JP6351587B2 (ja) 2018-07-04
WO2014011494A3 (en) 2014-03-20
JP6607902B2 (ja) 2019-11-20
US9081762B2 (en) 2015-07-14
KR20150036041A (ko) 2015-04-07
JP2015525928A (ja) 2015-09-07
KR102025968B1 (ko) 2019-09-26
US9652454B2 (en) 2017-05-16
EP2873003A2 (en) 2015-05-20

Similar Documents

Publication Publication Date Title
CN104508658A (zh) 基于短语的词典提取和翻译质量评估
Negri et al. Semeval-2013 task 8: Cross-lingual textual entailment for content synchronization
Diab et al. Tharwa: A Large Scale Dialectal Arabic-Standard Arabic-English Lexicon.
Gooding et al. Recursive context-aware lexical simplification
US20150154184A1 (en) Morphology analysis for machine translation
KR100911834B1 (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
Weller et al. Using subcategorization knowledge to improve case prediction for translation to German
CN110019749B (zh) 生成vqa训练数据的方法、装置、设备和计算机可读介质
Tachicart et al. Lexical differences and similarities between Moroccan dialect and Arabic
Chu et al. Chinese-Japanese machine translation exploiting Chinese characters
EP2833269A2 (en) Terminology verification systems and methods for machine translation services for domain-specific texts
Aliabadi et al. Towards building kurdnet, the kurdish wordnet
Mansouri et al. State-of-the-art english to persian statistical machine translation system
Jin et al. KoBBQ: Korean bias benchmark for question answering
Mehdad et al. Detecting semantic equivalence and information disparity in cross-lingual documents
Wijerathna et al. A translator from sinhala to english and english to sinhala (sees)
Scherrer Unsupervised adaptation of supervised part-of-speech taggers for closely related languages
Wu et al. Improving statistical word alignment with a rule-based machine translation system
Alhafni et al. The User-Aware Arabic Gender Rewriter
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Ruby et al. Unpacking Ambiguous Structure: A Dataset for Ambiguous Implicit Discourse Relations for English and Egyptian Arabic
Baisa et al. Linking Verb Pattern Dictionaries of English and Spanish
Cortis et al. What or Who is Multilingual Watson?
Fung et al. Robust word sense translation by EM learning of frame semantics
Yusoff et al. Semantic-based Malay-English translation using n-gram model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150706

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150706

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

GR01 Patent grant
GR01 Patent grant