CN106547743A - 一种进行翻译的方法及其系统 - Google Patents

一种进行翻译的方法及其系统 Download PDF

Info

Publication number
CN106547743A
CN106547743A CN201510614226.5A CN201510614226A CN106547743A CN 106547743 A CN106547743 A CN 106547743A CN 201510614226 A CN201510614226 A CN 201510614226A CN 106547743 A CN106547743 A CN 106547743A
Authority
CN
China
Prior art keywords
element set
language
cut
slit
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510614226.5A
Other languages
English (en)
Other versions
CN106547743B (zh
Inventor
蒋宏飞
陆军
骆卫华
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Network Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510614226.5A priority Critical patent/CN106547743B/zh
Priority to PCT/IB2016/001568 priority patent/WO2017051256A2/en
Priority to US15/273,509 priority patent/US10180940B2/en
Priority to EP16848214.9A priority patent/EP3353676A4/en
Publication of CN106547743A publication Critical patent/CN106547743A/zh
Application granted granted Critical
Publication of CN106547743B publication Critical patent/CN106547743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种进行翻译的方法及其系统,该方法包括:确定待翻译的目标对象,其中所述目标对象包括多个元素;根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,根据所述语言对应关系,确定每个元素集合中每个第一对象对应的第二对象的权重值;根据确定的权重值,确定每个元素集合的比较值,并选择比较值最大的元素集合;根据所述对应关系,确定选择的元素集合中每个第一对象对应的权重值最大的第二对象,将确定的所有第二对象组成所述目标对象的翻译内容。用以解决现有技术中当待翻译的文本与训练模型差异较大时,需要依赖更多的资源来更新现有的训练模型的问题。

Description

一种进行翻译的方法及其系统
技术领域
本申请涉及信息自动处理技术领域,尤其涉及一种进行翻译的方法及其系统。
背景技术
在国际电子商务业务中,会涉及到世界上存在的主要语种,特别是覆盖人群比较广的语种。为解决信息获取,搜索以及交易等环节遇到的语言障碍问题,就需要用到机器翻译技术。
世界上不少使用范围很广的语种可以归为黏着语,比如德语,芬兰语、日语、阿拉伯语等。这些语种因为有灵活的词根词缀组合模式,存在大量拼接单词,往往不能被训练语料覆盖属于未登录词,进而在机器翻译解码时不能得到有效翻译,严重影响译文可读性。例如德文单词:究其原因,就是因为这个德文词是由三个义项组合而成,该德文词是由这三个义项组合成的合成单词,因此形成未登录词。
但是当切分改写该德文词为“Leserkommentar Spalten”时便可以得到较为适当的翻译,当然,并不是简单的拆分就可以完美的解决问题。比如,“中国”如果分成“中”和“国”分别进行中英翻译,得到的译文很可能是“middlecountry”。而且,一个未登录词在切分后很可能产生更多的未登录词,比如“x1x2x3x4”分成“x1x2x3x4”,不仅在未登录词数量上增加了,而且因为调序的存在,使得这两个未登录词在翻译译文中很可能被打散,进而更加弱化译文的可读性。
现有切分改写方法主要依赖语言学家通过人工分词和语法标注生成的语料库作为训练文本进行模型训练,并利用训练所得的模型来实现分词。如果待翻译的文本与训练模型差异较大,则需要依赖更多的资源来更新现有的训练模型。
综上所述,目前分词技术存在当待翻译的文本与训练模型差异较大时,需要依赖更多的资源来更新现有的训练模型的问题。
发明内容
本申请实施例提供一种进行翻译的方法及其系统,用以解决现有技术中当待翻译的文本与训练模型差异较大时,需要依赖更多的资源来更新现有的训练模型的问题。
本申请方法包括:一种进行翻译的方法,该方法包括:
确定待翻译的目标对象,其中所述目标对象包括多个元素;
根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,其中所述语言对应关系中包括第一语言的多个第一对象、每个第一对象翻译为第二语言对应的至少一个第二对象以及每个第二对象对应的权重值,所述第一对象和所述第二对象包括至少一个元素,所述元素集合中包括多个第一对象,且每个元素集合中包括所述目标对象中的所有元素,第一语言为目标对象的语言,第二语言为机器翻译的语言;
根据所述语言对应关系,确定每个元素集合中每个第一对象对应的第二对象的权重值;根据确定的权重值,确定每个元素集合的比较值,并选择比较值最大的元素集合;根据所述对应关系,确定选择的元素集合中每个第一对象对应的权重值最大的第二对象,将确定的所有第二对象组成所述目标对象的翻译内容。
其中,确定待翻译的目标对象,包括:将待翻译的第一语言的源对象作为待翻译的目标对象;或,将待翻译的第一语言的源对象经过词根或词缀的变形之后的对象作为待翻译的目标对象。
由于经过词根或词缀的变形,从而待翻译的目标对象被正确翻译的概率会增大。
具体地,根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,包括:
将待翻译的目标对象构造为待切分元素组;
将所述待切分元素组按照从左到右的顺序遍历每个元素,判断所述待切分元素组中是否有切分点,其中所述待切分元素组中所述切分点之前的元素组成的对象和所述切分点之后的元素组成的对象均在所述语言对应关系中;
如果有切分点,则从所有切分点中确定所述待切分元素组的最优切分点,其中根据所述语言对应关系确定的所述待切分元素组中所述最优切分点之前的对象对应的第二对象的权重值与所述最优切分点之后的对象对应的第二对象的权重值的乘积最大;
将所述最优切分点之前的元素组成的对象作为一个待切分元素组,以及将所述最优切分点之后的对象作为一个待切分元素组,并返回判断所述待切分元素组中是否有切分点的步骤;
如果没有切分点,则对所述待切分元素组停止切分;
若对所有所述待切分元素组停止切分,则根据每个所有所述待切分元素组,确定至少一个元素集合。
可见,以上切分过程实际是一个递归的过程,用程序处理时只需要重复执行一个执行函数就可以,而且这种基于权重的处理切分结果准确度也较高。
其中,根据每个所有所述待切分元素组,确定至少一个元素集合,包括:
将每个最优切分点之前的元素组成的对象作为一个第一对象,以及每个最优切分点之后的元素组成的对象作为一个第一对象;
根据每个第一对象,确定至少一个元素集合;
其中,每个第一对象在至少一个元素集合中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
通过上述元素集合的确定方法形成的元素集合构成了后续翻译的内容,为后续的机器翻译做了准备。
可选地,根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,包括:
按照目标对象中每个元素的顺序,将目标对象划分为多个最短的第一对象,其中每个最短的第一对象均在所述语言对应关系中;
按照最短的第一对象的顺序,多个最短的第一对象进行组合,得到增长的第一对象,并在每出现一个增长的第一对象后,将出现的增长的第一对象与已有的第一对象组成一个的元素集合;
其中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
上述切分方式实际上应用了动态规划的思想,再结合考虑权重值,同样提高了切分的准确度,相较切分方法一增大了切分的处理效率。
其中,根据确定的权重值,确定每个元素集合的比较值,包括:
针对一个元素集合,确定所述元素素集合中每个第一对象对应的第二对象的权重值;
将确定的每个权重值的相乘,得到所述元素集合的比较值。
基于利用权重值乘积结果过滤元素集合,可以滤除待翻译目标对象被拆分成分成过多的分词的情形,进一步提高切分结果的准确度。
基于同样的发明构思,本申请实施例还提供一种进行翻译的系统,该系统包括:
确定目标对象单元,用于确定待翻译的目标对象,其中所述目标对象包括多个元素;
目标对象划分单元,用于根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,其中所述语言对应关系中包括第一语言的多个第一对象、每个第一对象翻译为第二语言对应的至少一个第二对象以及每个第二对象对应的权重值,所述第一对象和所述第二对象包括至少一个元素,所述元素集合中包括多个第一对象,且每个元素集合中包括所述目标对象中的所有元素,第一语言为目标对象的语言,第二语言为机器翻译的语言;
确定权重值单元,用于根据所述语言对应关系,确定每个元素集合中每个第一对象对应的第二对象的权重值;
确定元素集合单元,用于根据确定的权重值,确定每个元素集合的比较值,并选择比较值最大的元素集合;
确定翻译内容单元,用于根据所述对应关系,确定选择的元素集合中每个第一对象对应的权重值最大的第二对象,将确定的所有第二对象组成所述目标对象的翻译内容。
其中,所述确定目标对象单元具体用于:
将待翻译的第一语言的源对象作为待翻译的目标对象;或
将待翻译的第一语言的源对象经过词根或词缀的变形之后的对象作为待翻译的目标对象。
由于经过词根或词缀的变形,从而待翻译的目标对象被正确翻译的概率会增大。
所述目标对象划分单元具体用于:
将待翻译的目标对象构造为待切分元素组;
将所述待切分元素组按照从左到右的顺序遍历每个元素,判断所述待切分元素组中是否有切分点,其中所述待切分元素组中所述切分点之前的元素组成的对象和所述切分点之后的元素组成的对象均在所述语言对应关系中;
如果有切分点,则从所有切分点中确定所述待切分元素组的最优切分点,其中根据所述语言对应关系确定的所述待切分元素组中所述最优切分点之前的对象对应的第二对象的权重值与所述最优切分点之后的对象对应的第二对象的权重值的乘积最大;
将所述最优切分点之前的元素组成的对象作为一个待切分元素组,以及将所述最优切分点之后的对象作为一个待切分元素组,并返回判断所述待切分元素组中是否有切分点的步骤;
如果没有切分点,则对所述待切分元素组停止切分;
若对所有所述待切分元素组停止切分,则根据每个所有所述待切分元素组,确定至少一个元素集合。
可见,以上切分过程实际是一个递归的过程,用程序处理时只需要重复执行一个执行函数就可以,而且这种基于权重的处理切分结果准确度也较高。
所述确定元素集合单元具体用于:
将每个最优切分点之前的元素组成的对象作为一个第一对象,以及每个最优切分点之后的元素组成的对象作为一个第一对象;
根据每个第一对象,确定至少一个元素集合;
其中,每个第一对象在至少一个元素集合中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
通过上述元素集合的确定方法形成的元素集合构成了后续翻译的内容,为后续的机器翻译做了准备。
所述目标对象划分单元还具体用于:
按照目标对象中每个元素的顺序,将目标对象划分为多个最短的第一对象,其中每个最短的第一对象均在所述语言对应关系中;
按照最短的第一对象的顺序,多个最短的第一对象进行组合,得到增长的第一对象,并在每出现一个增长的第一对象后,将出现的增长的第一对象与已有的第一对象组成一个的元素集合;
其中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
上述切分方式实际上应用了动态规划的思想,再结合考虑权重值,同样提高了切分的准确度,相较切分方法一增大了切分的处理效率。
进一步地,所述系统还包括:
确定比较值单元,用于针对一个元素集合,确定所述元素素集合中每个第一对象对应的第二对象的权重值;
将确定的每个权重值的相乘,得到所述元素集合的比较值。
基于利用权重值乘积结果过滤元素集合,可以滤除待翻译目标对象被拆分成分成过多的分词的情形,进一步提高切分结果的准确度。
本申请实施例一方面先是确定待翻译的目标对象,根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合;另一方面根据所述语言对应关系,确定每个元素集合中每个第一对象对应的第二对象的权重值;将每个元素集合中每个第一对象对应的第二对象的权重值最大值选择出来,进行乘积得出该元素集合对应的比较值,进而比较出乘积结果最大的元素集合,所述乘积结果最大的元素集合中包含的所有第二对象组成所述目标对象的翻译内容。这样,当待翻译的目标对象的目标对象存在现有翻译模型中无法找到未登录词的情形,通过本申请提供的实施例将待翻译的目标对象进行切分,并设置每个元素集合中每个第一对象对应的第二对象的权重值,基于权重值的比较计算结果,可以确定出所述目标对象的最优翻译内容,使得翻译结果更加准确,可见本申请不需要依赖更多的资源来更新现有的训练模型,通过本申请提供的实施例就可以得出准确的翻译结果。
附图说明
图1为本申请实施例提供一种进行翻译的方法流程示意图;
图2为本申请实施例提供一种切分方法一流程示意图;
图3为本申请实施例提供一种切分方法二流程示意图;
图4为本申请实施例提供一种进行翻译的整体流程示意图;
图5为本申请实施例提供一种进行翻译的系统流程示意图。
具体实施方式
本申请当待翻译的目标对象的目标对象存在现有翻译模型中无法找到未登录词的情形,通过本申请提供的实施例将待翻译的目标对象进行切分,并设置每个元素集合中每个第一对象对应的第二对象的权重值,基于权重值的比较计算结果,确定出所述目标对象的最优翻译内容,使得翻译结果更加准确。事实上,本申请实施例除了和现有的翻译模型相结合外,如果其它的翻译方式存在无法找到未登录词的情形,同样也可以与本申请实施例结合得出准确的翻译结果。当然,本申请提供的实施例完全可以作为一个独立的翻译方案直接用来翻译文本并能够得出较佳的翻译结果,并不一定需要结合使用现有的翻译模型和其它的翻译方式。
本申请实施例为了获得更加准确的翻译结果改进了现有的机器翻译方法,首先是确定待翻译的目标对象,然后再切分以及执行机器翻译的过程。这里的目标对象指的是高级语言结构(词或短语),尤其涉及未登录词。
其中需要说明的是,这里所谓的高级语言结构,对于汉语而言,是指所有汉语词的全集(一个汉语词可以是仅包含一个汉字字符的单字词,也可以是包含多个汉字字符的多字词);对于以英语为代表的西方语言而言,这里所考虑的高级语言结构是指由多个单词构成的单词短语(比如,像"People's Republic ofChina"这样的复杂名词短语)。
其中,未登录词是在现有翻译模型中无法找到对译结果的源高级语言结构。例如“墙纸”在现有翻译模型中没有对应的英文词汇,属于未登录词,但是将该词进行切分得到“墙+纸”对应英文翻译结果“wall+paper”的组合形成“wallpaper”,可见这种切分再组合得到的翻译结果正好对应了该词的正确英文翻译。
另外,机器翻译是指利用计算机把一种自然源语言翻译为另一种自然目标语言的过程。
在以下发明实施例中用到的语言对应关系表是指第一对象与第二对象的映射关系表,其中第二对象因为其含义相近可能是多个,根据数据统计结果对每个第二对象赋予一定的权重值,语言对应关系表部分内容见表一。
表一:
上述语言对应关系表是以中英文互译为例给出的语言对应关系表,本申请实施例中语言对应关系包括但不限于中英文之间的互译关系表,也同样适用于其它自然语言,只需要在翻译进行之前完成相关自然语言的语言关系表的训练。
语言对应关系表是依据输入法的统计结果和每次在线翻译的结果进行数据统计建立的,并且其中的权重值会随着数据统计数目的增长进行实时更新,以保证其翻译结果的准确性。
参见图1所示,本申请实施例提供一种机器翻译方法流程示意图,具体地实现方法包括:
步骤S101,确定待翻译的目标对象,其中所述目标对象包括多个元素。
步骤S102,根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,其中所述语言对应关系中包括第一语言的多个第一对象、每个第一对象翻译为第二语言对应的至少一个第二对象以及每个第二对象对应的权重值,所述第一对象和所述第二对象包括至少一个元素,所述元素集合中包括多个第一对象,且每个元素集合中包括所述目标对象中的所有元素,第一语言为目标对象的语言,第二语言为机器翻译的语言。
步骤S103,根据所述语言对应关系,确定每个元素集合中每个第一对象对应的第二对象的权重值;
步骤S104,根据确定的权重值,确定每个元素集合的比较值,并选择比较值最大的元素集合。
步骤S105,根据所述对应关系,确定选择的元素集合中每个第一对象对应的权重值最大的第二对象,将确定的所有第二对象组成所述目标对象的翻译内容。
在执行步骤S101之中,将待翻译的第一语言的源对象作为待翻译的目标对象;或将待翻译的第一语言的源对象经过词根或词缀的变形之后的对象作为待翻译的目标对象,经过词根或词缀变形之后的翻译的目标对象被正确翻译的概率会增大。其中词缀包括前缀、后缀、中缀,例如德语单词“Verlagshaus”将被切分为“Verlag s haus”,其中的s就是中缀。具体地,词根或词缀的变形例如复数变形,英文“china”进行复数变形为“chinese”。另外目标对象包括多个元素,所谓元素在不同的自然语言中代表的含义不同,对于汉语而言,元素指的是每个汉字字符,而对于英语为代表的西方语言而言,元素指的是每个字母。例如经过复数变形之后目标对象“chinese”具有以下元素“c、h、i、n、e、s、e”,未登录词“中国人民解放军”具有以下元素“中、国、人、民、解、放、军”。
当确定了目标对象之后,就要执行切分的过程,本申请实施例具体给出了如下几种切分方法,但实际应用时不限于这些方法:
如图2所示,切分方法一:
将待翻译的目标对象构造为待切分元素组;
将所述待切分元素组按照从左到右的顺序遍历每个元素,判断所述待切分元素组中是否有切分点,其中所述待切分元素组中所述切分点之前的元素组成的对象和所述切分点之后的元素组成的对象均在所述语言对应关系中;
如果有切分点,则从所有切分点中确定所述待切分元素组的最优切分点,其中根据所述语言对应关系确定的所述待切分元素组中所述最优切分点之前的对象对应的第二对象的权重值与所述最优切分点之后的对象对应的第二对象的权重值的乘积最大;
将所述最优切分点之前的元素组成的对象作为一个待切分元素组,以及将所述最优切分点之后的对象作为一个待切分元素组,并返回判断所述待切分元素组中是否有切分点的步骤;
如果没有切分点,则对所述待切分元素组停止切分;
若对所有所述待切分元素组停止切分,则根据每个所有所述待切分元素组,确定至少一个元素集合。
其中,根据每个所有所述待切分元素组,确定至少一个元素集合,包括:
将每个最优切分点之前的元素组成的对象作为一个第一对象,以及每个最优切分点之后的元素组成的对象作为一个第一对象;根据每个第一对象,确定至少一个元素集合;其中,每个第一对象在至少一个元素集合中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同,这样形成的元素集合构成了后续翻译的内容,为后续的机器翻译做了准备。
具体地,假设有未登录词abcdefg,当前只有一个待切分元素组[abcdefg],从首个字母a开始遍历寻找第一个最优切分点,该切分点需要保证在切分点前后的词汇均能在语言对应关系表中找到,并且该切分点将[abcdefg]分成的两个部分的权重值的乘积相较其它切分点结果最大,按照这个原则将[abcdefg]切分得到两个待切分元素组[abcd]和[efg],进而将待切分元素组[abcd]和[efg]继续按照上述方法进行切分,直到没有切分点,则对所述待切分元素组停止切分,然后根据每次切分得到的待切分元素组与之前生成的待切分元素组,确定一个元素集合。
再比如未登录词“中国人民解放军”从首个字“中”开始遍历寻找切分点,该切分点需要保证在切分点前后的词汇均能在语言对应关系表中找到,并且该切分点将“中国人民解放军”分成了两个部分。该切分点可以有以下两种情况:“中国/人民解放军”、“中国人民/解放军”,那么为了比较出较佳的切分点,此时就要用到语言对应关系表中的权重值,经过计算发现“中国+人民解放军”这个组合得到的元素集合的权重乘积结果最大,因此确定第一个最优切分点为国与人的中间,切分结果为“中国+人民解放军”。
然后再对“中国”和“人民解放军”这两个部分分别按照上述方法再执行切分,发现“中国”切分之后为“中”和“国”,切分点在中和国中间,该切分点仅此一个因此也是最优切分点。另外“人民解放军”切分之后为“人民”和“解放军”,切分点在人民和解放军中间,该切分点仅此一个因此也是最优切分点。
紧接着再分别对“人民”和“解放军”按照上述方法执行切分,得到“人”和“民”,切分点在人和民中间,该切分点仅此一个因此也是最优切分点。以及“解放军”得到“解放”和“军”,切分点在解放和军中间,该切分点仅此一个因此也是最优切分点。
最后再对“解放”按照上述方法执行切分,得到“解”和“放”,切分点在解和放中间,该切分点仅此一个因此也是最优切分点。
这样,就完成了以上对“中国人民解放军”的切分过程,每得到一个最优切分点也意味着生成了一个元素集合,因此共得到了以下几种元素集合:
(1)元素集合={"中国","人民解放军"};
(2)元素集合={"中国","人民",解放军"};
(3)元素集合={"中","国","人民解放军"};
(4)元素集合={"中","国","人民","解放军"};
(5)元素集合={"中","国","人","民","解放军"};
(6)元素集合={"中","国","人","民","解放","军"};
(7)元素集合={"中","国","人","民","解","放","军"}。
“中国人民解放军”中的第一对象对应的语言关系表部分内容见表二。
表二:
利用“中国人民解放军”中的第一对象中的权重值将上述六种元素集合中每个子集的权重值相乘得出每个元素集合的权重值乘积结果,最后第一个元素集合的乘积结果最大,例如元素集合2中的每个第一对象的权重值乘积是A2*A3*A8,并且A2*A3*A8得出的乘积结果为最大值,因此确定出最优的切分结果是中国+人民+解放军,至此就完成了该未登录词“中国人民解放军”的切分。这样,切分过程实际是一个递归的过程,用程序处理时只需要重复执行一个执行函数就可以,而且这种基于权重的处理切分结果准确度也较高,并且权重值乘积结果过滤元素集合,可以滤除待翻译目标对象被拆分成分成多的分词的情形,进一步提高切分结果的准确度。
如图3所示,切分方法二:
按照目标对象中每个元素的顺序,将目标对象划分为多个最短的第一对象,其中每个最短的第一对象均在所述语言对应关系中;
按照最短的第一对象的顺序,多个最短的第一对象进行组合,得到增长的第一对象,并在每出现一个增长的第一对象后,将出现的增长的第一对象与已有的第一对象组成一个的元素集合;
其中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
例如,假设有未登录词abcd,将该词采用上述方法进行划分,首先得出该未登录词的每个元素{a、b、c、d},然后基于每个元素按照一定顺序,并且字符长度递增的原则进行组合,得到若干增长的第一对象,具体增长方法见表三,增长顺序是从下到上,从左到右的原则。
表三:
可见,对角线上[1,1],[2,2],[3,3],[4,4]所增长得到的第一对象对应的是行与列相交得到的该未登录词的每个元素{a、b、c、d},然后按照箭头所指示的方向向上依次按照字符长度递增的顺序继续增长,[1,2],[2,3],[3,4]对应得到第一对象ab、bc、cd,同样的原理[1,3],[2,4]对应得到abc、bcd,以及最后[1,4]对应的目标对象abdcd。因为每发现一个增长的第一对象,就会生成一个元素集合,因此一共有以下元素集合:
(1)元素集合={“a”,“b”,“c”,“d”};
(2)元素集合={“ab”,“c”,“d”};
(3)元素集合={“a”,“bc”,“d”};
(4)元素集合={“a”,“b”,“cd”};
(5)元素集合={“abc”,“d”};
(6)元素集合={“a”,“bcd”};
(7)元素集合={“abcd”}。
其中,元素集合2、3、4属于一类,将这类元素集合进行权重乘积结果的确定,只保留乘积结果最大的一组,同理,元素集合5、6属于一类,将这类元素集合进行权重乘积结果的确定,只保留乘积结果最大的一组。这样在最后输出的结果中只会给出每类长度增长的第一对象所对应的最优元素集合,基于这些最优的元素集合在进行纵向比较,得到最后元素集合的乘积结果最大的,就确定为最终的切分结果。这种处理方式实际上应用了动态规划的思想,再结合考虑权重值,同样提高了切分的准确度,相较切分方法一增大了切分的处理效率。
切分方法三:
本申请实施例另外还提供一种切分方法,即对目标对象从第一个元素开始遍历,依次查询该元素与后续一个或多个元素相结合所对应的语言关系表中的第一对象,每确定出一个第一对象则构成一个元素集合。
例如,未登录词“中国人民解放军”从首个字“中”开始遍历依次发现语言关系表中的第一对象为:中国、中国人、中国人民、中国人民解放军;进而再从“国”开始遍历依次发现语言关系表中的第一对象为:国人;进而再从“人”开始遍历依次发现语言关系表中的第一对象为:人民;进而再从“民”开始遍历发现没有与后续元素组合对应的第一对象;进而再从“解”开始遍历依次发现语言关系表中的第一对象为:解放军;进而再从“放”和“军”开始遍历发现没有与后续元素组合对应的第一对象,另外未登录词“中国人民解放军”中的每个元素在语言关系对应表中均有对应的第一对象。
因为每切分得到一个第一对象就意味就生成一个元素集合,该例子中共得到以下几种元素集合:
(1)元素集合={"中国","人民解放军"};
(2)元素集合={"中国人","民解放军"};
(3)元素集合={"中国人民","解放军"};
(4)元素集合={"中","国人","民解放军"};
(5)元素集合={"中国","人民","解放军"};
(6)元素集合={"中国人民","解放军"};
(7)元素集合={"中国人民","解放","军"};
(8)元素集合={"中","国","人","民","解","放","军"}。
可见元素集合(2)和(3)在语言对应关系表中有不存在的第一对象,那么需要剔除掉,最后将上述几种元素集合中每个子集的权重值相乘得出每个元素集合的权重值乘积结果,最后哪个元素集合的乘积结果最大,就确定为最优的切分结果。这样该切分方法在切分过程中没有用到权重值。
综上,上述三种切分方法中,切分方法一和切分方法二在切分过程中用到了权重值,权重值的作用是将切分的过程进一步简化,减少算法复杂度,切分方法三是目前既有的一种切分方法,切分过程相当冗余度增加,当然,在实际实际应用时本领域人员不限于这些切分方法,既有的切分方法同样适用。
为了整体描述上述切分方法在实际机器翻译的应用过程,本申请实施例进一步地提供如下实施例进行阐述,如图4所示。
步骤S201,输入待翻译的一段语句,例如“我爱中国人民解放军”。
步骤S202,基于离线训练好的翻译模型和语言对应关系表,搜索“我爱中国人民解放军”中的每个词汇,确定搜索不到的未登录词中国人民解放军存入未登录词集合U,
步骤S203,对U中的每个未登录词,应用上述切分方法进行切分改写,最终将“我爱中国人民解放军”切分改写成“我/爱/中国/人民/解放军”。
步骤S204,对优化切分改写后的“我/爱/中国/人民/解放军”,调用机器翻译解码过程进行翻译。此处的翻译过程可以是传统的翻译过程,也可以是将改写部分做了特殊标记后,映射成相应特征,在传统解码过程中结合这些新特征的解码。
步骤S205,获得翻译译文T。此步骤可以是获得译文T直接输出,也可以结合传统翻译过程的输出,进行译文系统融合后形成进一步的优化译文再作为最终结果输出。
基于相同的技术构思,本申请实施例还提供一种进行翻译的系统,如图5所示,该系统包括:确定目标对象单元401、目标对象划分单元402、确定权重值单元403,确定元素集合单元404,确定翻译内容单元405。
确定目标对象单元401,用于确定待翻译的目标对象,其中所述目标对象包括多个元素;
目标对象划分单元402,用于根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,其中所述语言对应关系中包括第一语言的多个第一对象、每个第一对象翻译为第二语言对应的至少一个第二对象以及每个第二对象对应的权重值,所述第一对象和所述第二对象包括至少一个元素,所述元素集合中包括多个第一对象,且每个元素集合中包括所述目标对象中的所有元素,第一语言为目标对象的语言,第二语言为机器翻译的语言;
确定权重值单元403,用于根据所述语言对应关系,确定每个元素集合中每个第一对象对应的第二对象的权重值;
确定元素集合单元404,用于根据确定的权重值,确定每个元素集合的比较值,并选择比较值最大的元素集合;
确定翻译内容单元405,用于根据所述对应关系,确定选择的元素集合中每个第一对象对应的权重值最大的第二对象,将确定的所有第二对象组成所述目标对象的翻译内容。
需要说明的是上述单元可以在一个机器翻译装置中,也可以分布在不同的机器翻译装置中,当分布在不同的机器翻译装置中可以提高并发处理能力,增大了处理的效率。
其中,所述确定目标对象单元401具体用于:将待翻译的第一语言的源对象作为待翻译的目标对象;或将待翻译的第一语言的源对象经过词根或词缀的变形之后的对象作为待翻译的目标对象。其中词缀包括前缀、后缀、中缀,例如德语单词“Verlagshaus”将被切分为“Verlag s haus”,其中的s就是中缀。具体地词根或词缀的变形例如复数变形,英文“china”进行复数变形为“chinese”。另外目标对象包括多个元素,所谓元素在不同的自然语言中代表的含义不同,对于汉语而言,元素指的是每个汉字字符,而对于英语为代表的西方语言而言,元素指的是每个字母。例如经过复数变形之后目标对象“chinese”具有以下元素“c、h、i、n、e、s、e”,未登录词“中国人民解放军”具有以下元素“中、国、人、民、解、放、军”。
当确定了目标对象之后,目标对象划分单元402就要执行切分的过程,本申请实施例具体给出了目标对象划分单元402的如下几种切分场景:
场景一:
所述目标对象划分单元402具体用于:
将待翻译的目标对象构造为待切分元素组;
将所述待切分元素组按照从左到右的顺序遍历每个元素,判断所述待切分元素组中是否有切分点,其中所述待切分元素组中所述切分点之前的元素组成的对象和所述切分点之后的元素组成的对象均在所述语言对应关系中;
如果有切分点,则从所有切分点中确定所述待切分元素组的最优切分点,其中根据所述语言对应关系确定的所述待切分元素组中所述最优切分点之前的对象对应的第二对象的权重值与所述最优切分点之后的对象对应的第二对象的权重值的乘积最大;
将所述最优切分点之前的元素组成的对象作为一个待切分元素组,以及将所述最优切分点之后的对象作为一个待切分元素组,并返回判断所述待切分元素组中是否有切分点的步骤;
如果没有切分点,则对所述待切分元素组停止切分;
若对所有所述待切分元素组停止切分,则根据每个所有所述待切分元素组,确定至少一个元素集合。
具体地,假设有未登录词abcdefg,当前只有一个待切分元素组[abcdefg],从首个字母a开始遍历寻找第一个最优切分点,该切分点需要保证在切分点前后的词汇均能在语言对应关系表中找到,并且该切分点将[abcdefg]分成的两个部分的权重值的乘积相较其它切分点结果最大,按照这个原则将[abcdefg]切分得到两个待切分元素组[abcd]和[efg],进而将待切分元素组[abcd]和[efg]继续按照上述方法进行切分,直到没有切分点,则对所述待切分元素组停止切分,然后根据每次切分得到的待切分元素组与之前生成的待切分元素组,确定一个元素集合。
再比如未登录词“中国人民解放军”从首个字“中”开始遍历寻找切分点,该切分点需要保证在切分点前后的词汇均能在语言对应关系表中找到,并且该切分点将“中国人民解放军”分成了两个部分。该切分点可以有以下两种情况:“中国/人民解放军”、“中国人民/解放军”,那么为了比较出较佳的切分点,此时就要用到语言对应关系表中的权重值,经过计算发现“中国+人民解放军”这个组合得到的元素集合的权重乘积结果最大,因此确定第一个最优切分点为国与人的中间,切分结果为“中国+人民解放军”。
然后再对“中国”和“人民解放军”这两个部分分别按照上述方法再执行切分,发现“中国”切分之后为“中”和“国”,切分点在中和国中间,该切分点仅此一个因此也是最优切分点。另外“人民解放军”切分之后为“人民”和“解放军”,切分点在人民和解放军中间,该切分点仅此一个因此也是最优切分点。
紧接着再分别对“人民”和“解放军”按照上述方法执行切分,得到“人”和“民”,切分点在人和民中间,该切分点仅此一个因此也是最优切分点。以及“解放军”得到“解放”和“军”,切分点在解放和军中间,该切分点仅此一个因此也是最优切分点。
最后再对“解放”按照上述方法执行切分,得到“解”和“放”,切分点在解和放中间,该切分点仅此一个因此也是最优切分点。
这样,就完成了以上对“中国人民解放军”的切分过程,每得到一个最优切分点也意味着生成了一个元素集合,所述确定元素集合单元404具体用于:
将每个最优切分点之前的元素组成的对象作为一个第一对象,以及每个最优切分点之后的元素组成的对象作为一个第一对象;
根据每个第一对象,确定至少一个元素集合;
其中,每个第一对象在至少一个元素集合中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同,因此共得到了以下几种元素集合:
(1)元素集合={"中国","人民解放军"};
(2)元素集合={"中国","人民",解放军"};
(3)元素集合={"中","国","人民解放军"};
(4)元素集合={"中","国","人民","解放军"};
(5)元素集合={"中","国","人","民","解放军"};
(6)元素集合={"中","国","人","民","解放","军"};
(7)元素集合={"中","国","人","民","解","放","军"}。
“中国人民解放军”中的第一对象对应的语言关系表部分内容见表二。
利用“中国人民解放军”中的第一对象中的权重值将上述六种元素集合中每个子集的权重值相乘得出每个元素集合的权重值乘积结果,最后第一个元素集合的乘积结果最大,例如元素集合2中的每个第一对象的权重值乘积是A2*A3*A8,并且A2*A3*A8得出的乘积结果为最大值,因此确定出最优的切分结果是中国+人民+解放军,至此就完成了该未登录词“中国人民解放军”的切分。这样,切分过程实际是一个递归的过程,用程序处理时只需要重复执行一个执行函数就可以,而且这种基于权重的处理切分结果准确度也较高。
场景二
所述目标对象划分单元402还具体用于:
按照目标对象中每个元素的顺序,将目标对象划分为多个最短的第一对象,其中每个最短的第一对象均在所述语言对应关系中;
按照最短的第一对象的顺序,多个最短的第一对象进行组合,得到增长的第一对象,并在每出现一个增长的第一对象后,将出现的增长的第一对象与已有的第一对象组成一个的元素集合;
其中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
例如,假设有未登录词abcd,将该词采用上述方法进行划分,首先得出该未登录词的每个元素{a、b、c、d},然后基于每个元素按照一定顺序,并且字符长度递增的原则进行组合,得到若干增长的第一对象,具体增长方法见表三,增长顺序是从下到上,从左到右的原则。可见,对角线上[1,1],[2,2],[3,3],[4,4]所增长得到的第一对象对应的是行与列相交得到的该未登录词的每个元素{a、b、c、d},然后按照箭头所指示的方向向上依次按照字符长度递增的顺序继续增长,[1,2],[2,3],[3,4]对应得到第一对象ab、bc、cd,同样的原理[1,3],[2,4]对应得到abc、bcd,以及最后[1,4]对应的目标对象abdcd。因为每发现一个增长的第一对象,就会生成一个元素集合,因此一共有以下元素集合:
(1)元素集合={“a”,“b”,“c”,“d”};
(2)元素集合={“ab”,“c”,“d”};
(3)元素集合={“a”,“bc”,“d”};
(4)元素集合={“a”,“b”,“cd”};
(5)元素集合={“abc”,“d”};
(6)元素集合={“a”,“bcd”};
(7)元素集合={“abcd”}。
其中,元素集合2、3、4属于一类,将这类元素集合进行权重乘积结果的确定,只保留乘积结果最大的一组,同理,元素集合5、6属于一类,将这类元素集合进行权重乘积结果的确定,只保留乘积结果最大的一组。这样在最后输出的结果中只会给出每类长度增长的第一对象所对应的最优元素集合,基于这些最优的元素集合在进行纵向比较,得到最后元素集合的乘积结果最大的,就确定为最终的切分结果。这种处理方式实际上应用了动态规划的思想,再结合考虑权重值,同样提高了切分的准确度,相较切分方法一增大了切分的处理效率。
场景三
即对目标对象从第一个元素开始遍历,依次查询该元素与后续一个或多个元素相结合所对应的语言关系表中的第一对象,每确定出一个第一对象则构成一个元素集合。
例如,未登录词“中国人民解放军”从首个字“中”开始遍历依次发现语言关系表中的第一对象为:中国、中国人、中国人民、中国人民解放军;进而再从“国”开始遍历依次发现语言关系表中的第一对象为:国人;进而再从“人”开始遍历依次发现语言关系表中的第一对象为:人民;进而再从“民”开始遍历发现没有与后续元素组合对应的第一对象;进而再从“解”开始遍历依次发现语言关系表中的第一对象为:解放军;进而再从“放”和“军”开始遍历发现没有与后续元素组合对应的第一对象,另外未登录词“中国人民解放军”中的每个元素在语言关系对应表中均有对应的第一对象。
因为每切分得到一个第一对象就意味就生成一个元素集合,该例子中共得到以下几种元素集合:
(1)元素集合={"中国","人民解放军"};
(2)元素集合={"中国人","民解放军"};
(3)元素集合={"中国人民","解放军"};
(4)元素集合={"中","国人","民解放军"};
(5)元素集合={"中国","人民","解放军"};
(6)元素集合={"中国人民","解放军"};
(7)元素集合={"中国人民","解放","军"};
(8)元素集合={"中","国","人","民","解","放","军"}。
可见元素集合(2)和(3)在语言对应关系表中有不存在的第一对象,那么需要剔除掉,最后将上述几种元素集合中每个子集的权重值相乘得出每个元素集合的权重值乘积结果,最后哪个元素集合的乘积结果最大,就确定为最优的切分结果。该场景在切分过程中没有用到权重值。
本申请实施例可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
综上所述,本申请实施例一方面先是确定待翻译的目标对象,根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合;另一方面根据所述语言对应关系,确定每个元素集合中每个第一对象对应的第二对象的权重值;将每个元素集合中每个第一对象对应的第二对象的权重值最大值选择出来,进行乘积得出该元素集合对应的比较值,进而比较出乘积结果最大的元素集合,所述乘积结果最大的元素集合中包含的所有第二对象组成所述目标对象的翻译内容。这样,在当待翻译的目标对象的目标对象存在现有翻译模型中无法找到未登录词的情形,通过本申请提供的实施例将待翻译的目标对象进行切分,并设置每个元素集合中每个第一对象对应的第二对象的权重值,基于权重值的比较计算结果,确定出所述目标对象的最优翻译内容,使得翻译结果更加准确。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种进行翻译的方法,其特征在于,该方法包括:
确定待翻译的目标对象,其中所述目标对象包括多个元素;
根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,其中所述语言对应关系中包括第一语言的多个第一对象、每个第一对象翻译为第二语言对应的至少一个第二对象以及每个第二对象对应的权重值,所述第一对象和所述第二对象包括至少一个元素,所述元素集合中包括多个第一对象,且每个元素集合中包括所述目标对象中的所有元素,第一语言为目标对象的语言,第二语言为机器翻译的语言;
根据所述语言对应关系,确定每个元素集合中每个第一对象对应的第二对象的权重值;
根据确定的权重值,确定每个元素集合的比较值,并选择比较值最大的元素集合;
根据所述对应关系,确定选择的元素集合中每个第一对象对应的权重值最大的第二对象,将确定的所有第二对象组成所述目标对象的翻译内容。
2.如权利要求1所述的方法,其特征在于,确定待翻译的目标对象,包括:
将待翻译的第一语言的源对象作为待翻译的目标对象;或
将待翻译的第一语言的源对象经过词根或词缀的变形之后的对象作为待翻译的目标对象。
3.如权利要求1所述的方法,其特征在于,根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,包括:
将待翻译的目标对象构造为待切分元素组;
将所述待切分元素组按照从左到右的顺序遍历每个元素,判断所述待切分元素组中是否有切分点,其中所述待切分元素组中所述切分点之前的元素组成的对象和所述切分点之后的元素组成的对象均在所述语言对应关系中;
如果有切分点,则从所有切分点中确定所述待切分元素组的最优切分点,其中根据所述语言对应关系确定的所述待切分元素组中所述最优切分点之前的对象对应的第二对象的权重值与所述最优切分点之后的对象对应的第二对象的权重值的乘积最大;
将所述最优切分点之前的元素组成的对象作为一个待切分元素组,以及将所述最优切分点之后的对象作为一个待切分元素组,并返回判断所述待切分元素组中是否有切分点的步骤;
如果没有切分点,则对所述待切分元素组停止切分;
若对所有所述待切分元素组停止切分,则根据每个所有所述待切分元素组,确定至少一个元素集合。
4.如权利要求3所述的方法,其特征在于,根据每个所有所述待切分元素组,确定至少一个元素集合,包括:
将每个最优切分点之前的元素组成的对象作为一个第一对象,以及每个最优切分点之后的元素组成的对象作为一个第一对象;
根据每个第一对象,确定至少一个元素集合;
其中,每个第一对象在至少一个元素集合中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
5.如权利要求1所述的方法,其特征在于,根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,包括:
按照目标对象中每个元素的顺序,将目标对象划分为多个最短的第一对象,其中每个最短的第一对象均在所述语言对应关系中;
按照最短的第一对象的顺序,多个最短的第一对象进行组合,得到增长的第一对象,并在每出现一个增长的第一对象后,将出现的增长的第一对象与已有的第一对象组成一个的元素集合;
其中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
6.如权利要求1~5任一所述的方法,其特征在于,根据确定的权重值,确定每个元素集合的比较值,包括:
针对一个元素集合,确定所述元素素集合中每个第一对象对应的第二对象的权重值;
将确定的每个权重值的相乘,得到所述元素集合的比较值。
7.一种进行翻译的系统,其特征在于,该系统包括:
确定目标对象单元,用于确定待翻译的目标对象,其中所述目标对象包括多个元素;
目标对象划分单元,用于根据语言对应关系,将待翻译的目标对象进行划分,得到至少一个元素集合,其中所述语言对应关系中包括第一语言的多个第一对象、每个第一对象翻译为第二语言对应的至少一个第二对象以及每个第二对象对应的权重值,所述第一对象和所述第二对象包括至少一个元素,所述元素集合中包括多个第一对象,且每个元素集合中包括所述目标对象中的所有元素,第一语言为目标对象的语言,第二语言为机器翻译的语言;
确定权重值单元,用于根据所述语言对应关系,确定每个元素集合中每个第一对象对应的第二对象的权重值;
确定元素集合单元,用于根据确定的权重值,确定每个元素集合的比较值,并选择比较值最大的元素集合;
确定翻译内容单元,用于根据所述对应关系,确定选择的元素集合中每个第一对象对应的权重值最大的第二对象,将确定的所有第二对象组成所述目标对象的翻译内容。
8.如权利要求7所述的系统,其特征在于,所述确定目标对象单元具体用于:
将待翻译的第一语言的源对象作为待翻译的目标对象;或
将待翻译的第一语言的源对象经过词根或词缀的变形之后的对象作为待翻译的目标对象。
9.如权利要求7所述的系统,其特征在于,所述目标对象划分单元具体用于:
将待翻译的目标对象构造为待切分元素组;
将所述待切分元素组按照从左到右的顺序遍历每个元素,判断所述待切分元素组中是否有切分点,其中所述待切分元素组中所述切分点之前的元素组成的对象和所述切分点之后的元素组成的对象均在所述语言对应关系中;
如果有切分点,则从所有切分点中确定所述待切分元素组的最优切分点,其中根据所述语言对应关系确定的所述待切分元素组中所述最优切分点之前的对象对应的第二对象的权重值与所述最优切分点之后的对象对应的第二对象的权重值的乘积最大;
将所述最优切分点之前的元素组成的对象作为一个待切分元素组,以及将所述最优切分点之后的对象作为一个待切分元素组,并返回判断所述待切分元素组中是否有切分点的步骤;
如果没有切分点,则对所述待切分元素组停止切分;
若对所有所述待切分元素组停止切分,则根据每个所有所述待切分元素组,确定至少一个元素集合。
10.如权利要求9所述的系统,其特征在于,所述确定元素集合单元具体用于:
将每个最优切分点之前的元素组成的对象作为一个第一对象,以及每个最优切分点之后的元素组成的对象作为一个第一对象;
根据每个第一对象,确定至少一个元素集合;
其中,每个第一对象在至少一个元素集合中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
11.如权利要求7所述的系统,其特征在于,所述目标对象划分单元还具体用于:
按照目标对象中每个元素的顺序,将目标对象划分为多个最短的第一对象,其中每个最短的第一对象均在所述语言对应关系中;
按照最短的第一对象的顺序,多个最短的第一对象进行组合,得到增长的第一对象,并在每出现一个增长的第一对象后,将出现的增长的第一对象与已有的第一对象组成一个的元素集合;
其中,一个元素集合中的所有第一对象包括的元素与目标对象包括的元素相同,且每个元素在元素集合中的位置与在目标对象中的位置相同,不同元素集合中包括的第一对象不完全相同。
12.如权利要求7~11任一所述的系统,其特征在于,所述系统还包括:
确定比较值单元,用于针对一个元素集合,确定所述元素素集合中每个第一对象对应的第二对象的权重值;
将确定的每个权重值的相乘,得到所述元素集合的比较值。
CN201510614226.5A 2015-09-23 2015-09-23 一种进行翻译的方法及其系统 Active CN106547743B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510614226.5A CN106547743B (zh) 2015-09-23 2015-09-23 一种进行翻译的方法及其系统
PCT/IB2016/001568 WO2017051256A2 (en) 2015-09-23 2016-09-22 Method and system of performing a translation
US15/273,509 US10180940B2 (en) 2015-09-23 2016-09-22 Method and system of performing a translation
EP16848214.9A EP3353676A4 (en) 2015-09-23 2016-09-22 METHOD AND SYSTEM FOR CARRYING OUT TRANSLATION

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510614226.5A CN106547743B (zh) 2015-09-23 2015-09-23 一种进行翻译的方法及其系统

Publications (2)

Publication Number Publication Date
CN106547743A true CN106547743A (zh) 2017-03-29
CN106547743B CN106547743B (zh) 2020-03-27

Family

ID=58282438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510614226.5A Active CN106547743B (zh) 2015-09-23 2015-09-23 一种进行翻译的方法及其系统

Country Status (4)

Country Link
US (1) US10180940B2 (zh)
EP (1) EP3353676A4 (zh)
CN (1) CN106547743B (zh)
WO (1) WO2017051256A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967303A (zh) * 2017-11-10 2018-04-27 传神语联网网络科技股份有限公司 语料显示的方法及装置
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
CN110147555A (zh) * 2019-04-17 2019-08-20 维沃移动通信有限公司 一种翻译内容的方法及终端设备
CN110457719A (zh) * 2019-10-08 2019-11-15 北京金山数字娱乐科技有限公司 一种翻译模型结果重排序的方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476039B (zh) * 2019-01-04 2023-06-30 深圳永德利科技股份有限公司 智能车载系统的即时语言翻译方法及相关产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030097252A1 (en) * 2001-10-18 2003-05-22 Mackie Andrew William Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
CN101482861A (zh) * 2008-01-09 2009-07-15 中国科学院自动化研究所 一种汉英词语自动对齐方法
US20100174524A1 (en) * 2004-07-02 2010-07-08 Philipp Koehn Empirical Methods for Splitting Compound Words with Application to Machine Translation
CN102467498A (zh) * 2010-11-18 2012-05-23 阿里巴巴集团控股有限公司 翻译方法及装置
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN104750687A (zh) * 2013-12-25 2015-07-01 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6085162A (en) 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US7249012B2 (en) 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US8175864B1 (en) 2007-03-30 2012-05-08 Google Inc. Identifying nearest neighbors for machine translation
US8504354B2 (en) 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US8775155B2 (en) 2010-10-25 2014-07-08 Xerox Corporation Machine translation using overlapping biphrase alignments and sampling
US9152622B2 (en) * 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US20140358519A1 (en) 2013-06-03 2014-12-04 Xerox Corporation Confidence-driven rewriting of source texts for improved translation
RU2638634C2 (ru) 2014-01-23 2017-12-14 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое обучение программы синтаксического и семантического анализа с использованием генетического алгоритма

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030097252A1 (en) * 2001-10-18 2003-05-22 Mackie Andrew William Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US20100174524A1 (en) * 2004-07-02 2010-07-08 Philipp Koehn Empirical Methods for Splitting Compound Words with Application to Machine Translation
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
CN101482861A (zh) * 2008-01-09 2009-07-15 中国科学院自动化研究所 一种汉英词语自动对齐方法
CN102467498A (zh) * 2010-11-18 2012-05-23 阿里巴巴集团控股有限公司 翻译方法及装置
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN104750687A (zh) * 2013-12-25 2015-07-01 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967303A (zh) * 2017-11-10 2018-04-27 传神语联网网络科技股份有限公司 语料显示的方法及装置
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
CN110147555A (zh) * 2019-04-17 2019-08-20 维沃移动通信有限公司 一种翻译内容的方法及终端设备
CN110147555B (zh) * 2019-04-17 2023-08-11 维沃移动通信有限公司 一种翻译内容的方法及终端设备
CN110457719A (zh) * 2019-10-08 2019-11-15 北京金山数字娱乐科技有限公司 一种翻译模型结果重排序的方法及装置
CN110457719B (zh) * 2019-10-08 2020-01-07 北京金山数字娱乐科技有限公司 一种翻译模型结果重排序的方法及装置

Also Published As

Publication number Publication date
WO2017051256A2 (en) 2017-03-30
US10180940B2 (en) 2019-01-15
EP3353676A4 (en) 2019-05-15
EP3353676A2 (en) 2018-08-01
WO2017051256A3 (en) 2017-06-29
US20170083513A1 (en) 2017-03-23
CN106547743B (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN106547743A (zh) 一种进行翻译的方法及其系统
CN104881406B (zh) 网页翻译方法和系统
CN106570148A (zh) 一种基于卷积神经网络的属性抽取方法
CN108108349A (zh) 基于人工智能的长文本纠错方法、装置及计算机可读介质
CN104050255A (zh) 基于联合图模型的纠错方法及系统
CN104699797A (zh) 一种网页数据结构化解析方法和装置
JP2021197175A (ja) 文字誤り訂正方法、装置、電子デバイス及び記憶媒体
KR20160124237A (ko) 자연 언어 처리 시스템, 자연 언어 처리 방법, 및 자연 언어 처리 프로그램
CN104951219A (zh) 一种移动终端文本输入的方法及移动终端
CN110334362B (zh) 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN104699844A (zh) 为广告确定视频标签的方法及装置
CN109359308A (zh) 机器翻译方法、装置及可读存储介质
CN107341152B (zh) 一种参数输入的方法及装置
CN107329964A (zh) 一种文本处理方法及装置
CN110390104A (zh) 用于语音对话平台的不规则文本转写方法及系统
CN104021117A (zh) 语言处理方法与电子设备
CN109934347A (zh) 扩展问答知识库的装置
CN107273360A (zh) 基于语义理解的中文实词提取算法
CN111274793A (zh) 一种文本处理方法、装置以及计算设备
CN111401038A (zh) 文本处理方法、装置、电子设备及存储介质
CN106202045A (zh) 基于车联网的专项语音识别方法
CN112417851B (zh) 文本纠错分词方法、系统及电子设备
CN109657244A (zh) 一种英文长句自动切分方法及系统
CN103116601A (zh) 一种提高输入法智能联想准确度的方法及系统
CN103984420B (zh) 一种基于拼音的藏文智能输入法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211110

Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang

Patentee after: Alibaba (China) Network Technology Co., Ltd

Address before: P.O. Box 847, 4th floor, capital building, Grand Cayman, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited