CN103544147A - 训练翻译模型的方法和装置 - Google Patents
训练翻译模型的方法和装置 Download PDFInfo
- Publication number
- CN103544147A CN103544147A CN201310544762.3A CN201310544762A CN103544147A CN 103544147 A CN103544147 A CN 103544147A CN 201310544762 A CN201310544762 A CN 201310544762A CN 103544147 A CN103544147 A CN 103544147A
- Authority
- CN
- China
- Prior art keywords
- equations
- pivot
- word
- character
- language term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明提出一种训练翻译模型的方法和装置,其中,该方法包括:根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,第一类关联语句包括第一枢轴词语和与第一枢轴词语相关的第一关联字符;根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,第二类关联语句包括第二枢轴词语和与第二枢轴词语相关联的第二关联字符;根据第一枢轴词语、第二枢轴词语、第一关联字符、第二关联字符、第一对应关系和第二对应关系建立第一类语言词语与第二类语言词语之间的第三对应关系,并根据第三对应关系训练预设的翻译模型。上述方法在有效地降低模型规模的同时提高了翻译质量。
Description
技术领域
本发明涉及机器翻译领域,特别涉及一种训练翻译模型的方法和装置。
背景技术
统计机器翻译已经逐渐成为一种主流的机器翻译方法。统计机器翻译系统的翻译质量主要依赖于双语语料的数量和质量,如果双语语料数量越多、噪声信息越小,则统计机器翻译系统的翻译质量越高。但是,在双语语料资源比较稀缺的情况下,需要使用基于PivotLanguage(枢轴语言)的翻译方法构建双语翻译模型。以中日翻译为例,由于中日双语语料资源比较少,因此可将英语作为枢轴语言,并通过中英、英日的翻译模型导出中日的翻译模型,例如,可通过英语“good weather”,建立起中文“天气好”和日文“天気がいい”之间的对应关系。
但是,大多语言中的词语都可能有多个释义,这使得枢轴语言中的一个词语在双语中分别对应m和n个词语,则根据枢轴语言确定的双语对应关系则有m×n个。例如,对于英语“bank”在中文中对应“岸”和“银行”,在日文中对应“辺”和“銀行”,因此,可得到如下对应关系:
表1 现有技术基于枢轴语言构造的双语词语对应关系表
1 | 岸 bank 辺 |
2 | 岸 bank 銀行 |
3 | 银行 bank 辺 |
4 | 银行 bank 銀行 |
显然,2和3所示的对应关系式错误的,并且词语对应关系的数量也大大增多了,为关系选择造成了极大不便。因此,可以看出,现有的通过枢轴语言构建的双语翻译模型的方法,构建的模型规模大、噪音信息量高,致使翻译效率低,并且在翻译过程中易出现歧义,翻译质量低。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种训练翻译模型的方法,该方法能够去除翻译关系错误的对应关系,在有效地降低模型规模的同时,降低噪音信息,去除歧义,提高了翻译质量。
为达上述目的,根据本发明第一方面实施例提出了一种训练翻译模型的方法,包括以下步骤:根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,所述第一类关联语句包括第一枢轴词语和与所述第一枢轴词语相关的第一关联字符;根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,所述第二类关联语句包括所述第二枢轴词语和与所述第二枢轴词语相关联的第二关联字符;根据所述第一枢轴词语、所述第二枢轴词语、所述第一关联字符、所述第二关联字符、所述第一对应关系和所述第二对应关系建立所述第一类语言词语与所述第二类语言词语之间的第三对应关系;以及根据所述第三对应关系训练预设的翻译模型。
根据本发明实施例的训练翻译模型的方法,可根据枢轴语言词语,即第一枢轴词语和第二枢轴词语的关联字符(如枢轴语言词语的上下文信息)建立第一类语言词语和/或第二类语言词语之间的对应关系,由此根据枢轴语言词语及其关联字符建立第一类语言词语和第二类语言词语之间的对应关系,以建立第一类语言与第二类语言的翻译模型,能够去除翻译关系错误的对应关系,在有效地降低模型规模的同时,降低噪音信息,去除歧义,提高了翻译质量。
本发明第二方面实施例提供了一种训练翻译模型的装置,包括:第一建立模块,用于根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,所述第一类关联语句包括第一枢轴词语和与所述第一枢轴词语相关的第一关联字符;第二建立模块,用于根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,所述第二类关联语句包括所述第二枢轴词语和与所述第二枢轴词语相关联的第二关联字符;第三建立模块,用于根据所述第一枢轴词语、所述第二枢轴词语、所述第一关联字符、所述第二关联字符、所述第一对应关系和所述第二对应关系建立所述第一类语言词语与所述第二类语言词语之间的第三对应关系;以及训练模块,用于根据所述第三对应关系训练预设的翻译模型。
根据本发明实施例的训练翻译模型的装置,可根据枢轴语言词语,即第一枢轴词语和第二枢轴词语的关联字符(如枢轴语言词语的上下文信息)建立第一类语言词语和/或第二类语言词语之间的对应关系,由此根据枢轴语言词语及其关联字符建立第一类语言词语和第二类语言词语之间的对应关系,以建立第一类语言与第二类语言的翻译模型,能够去除翻译关系错误的对应关系,在有效地降低模型规模的同时,降低噪音信息,去除歧义,提高了翻译质量。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的训练翻译模型的方法的流程图;
图2(a)为根据本发明一个实施例的词语对齐的中英双语句的示意图;
图2(b)为根据本发明另一个实施例的词语对齐的中英双语句的示意图;
图3(a)为根据本发明一个实施例的词语对齐的日英双语句的示意图;
图3(b)为根据本发明另一个实施例的词语对齐的日英双语句的示意图;
图4为根据本发明一个具体实施例的训练翻译模型的方法的流程图;
图5为根据本发明一个实施例的训练翻译模型的装置的结构示意图;
图6为根据本发明一个具体实施例的训练翻译模型的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
为了解决在现有统计机器翻译中,通过Pivot Language(枢轴语言)的翻译方法构建双语翻译模型时,模型规模较大,噪音信息量高,致使翻译效率低,并且在翻译过程中易出现歧义,翻译质量低的问题,本发明提出了一种训练翻译模型的方法和装置。下面参考附图描述根据本发明实施例的训练翻译模型的方法和装置。
一种训练翻译模型的方法,包括以下步骤:根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,第一类关联语句包括第一枢轴词语和与第一枢轴词语相关的第一关联字符;根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,第二类关联语句包括第二枢轴词语和与第二枢轴词语相关联的第二关联字符;根据第一枢轴词语、第二枢轴词语、第一关联字符、第二关联字符、第一对应关系和第二对应关系建立第一类语言词语与第二类语言词语之间的第三对应关系;以及根据第三对应关系训练预设的翻译模型。
图1为根据本发明一个实施例的训练翻译模型的方法的流程图。如图1所示,该训练翻译模型的方法包括以下步骤。
S101,根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,第一类关联语句包括第一枢轴词语和与第一枢轴词语相关的第一关联字符。
其中,枢轴语言为用于双语语料较少的两种语言的中间语言,举例来说,对于中日翻译来说,直接可用的中日双语语料较少,因此可将英语作为枢轴语言,通过中英翻译模型、英日翻译模型导出中日翻译模型。在本发明的实施例中,第一类双语语料为包括第一类语言和枢轴语言的词语对齐的双语句对,即词语对齐的第一类语言句子和枢轴语言句子,如图2所示的词语对齐的中英双语句对。
在本发明的一个实施例中,第一类语言词语为第一类语言句子中的词语(如单词、短语、汉字或词语等),第一枢轴词语为枢轴语言句子中与第一类语言句子中的词语对齐的词语(也就是具有互译关系的词语),第一关联字符为枢轴语言句子中由第一枢轴词语的上下文组成的具有完整语义的字符串,第一类关联语句为第一枢轴词语和与其相关的第一关联字符组成的一段句子。
举例来说,在图2(a)所示的中英双语句对中,对于中文“岸”,与其对应的第一枢轴词语为bank,与第一枢轴词语bank相关的第一关联字符为bank之前的south和bank之后的of,第一类关联语句为south bank of,由此可建立第一类语言词语“岸”与第一类关联语句south bank of的对应关系;在图2(b)所示的中英双语句对中,对于中文“银行”,与其对应的第一枢轴词语为bank,与第一枢轴词语bank相关的第一关联字符为bank之前的this和bank之后的.,第一类关联语句为this bank.,由此可建立第一类语言词语“银行”与第一类关联语句this bank.的对应关系。
S102,根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,第二类关联语句包括第二枢轴词语和与第二枢轴词语相关联的第二关联字符。
在本发明的实施例中,第二类双语语料为包括第二类语言和枢轴语言的词语对齐的双语句对,即词语对齐的第二类语言句子和枢轴语言句子,如图3所示的词语对齐的日英双语句对。
在本发明的一个实施例中,第二类语言词语为第二类语言句子中的词语(如单词、短语、汉字或词语等),第二枢轴词语为枢轴语言句子中与第二类语言句子中的词语对齐的词语(也就是具有互译关系的词语),第二关联字符为枢轴语言句子中由第二枢轴词语的上下文组成的具有完整语义的字符串,第二类关联语句为第二枢轴词语和与其相关的第二关联字符组成的一段句子。
举例来说,在图3(a)所示的日英双语句对中,对于日文“辺”,与其对应的第二枢轴词语为bank,与第二枢轴词语bank相关的第二关联字符为bank之前的south和bank之后的of,第二类关联语句为south bank of,由此可建立第二类语言词语“辺”与第二类关联语句south bank of的对应关系;在图3(b)所示的日英双语句对中,对于日文“銀行”,与其对应的第二枢轴词语为bank,与第二枢轴词语bank相关的第二关联字符为bank之前的this和bank之后的.,第二类关联语句为this bank.,由此可建立第二类语言词语“銀行”与第二类关联语句this bank.的对应关系。
S103,根据第一枢轴词语、第二枢轴词语、第一关联字符、第二关联字符、第一对应关系和第二对应关系建立第一类语言词语与第二类语言词语之间的第三对应关系。
在本发明的一个实施例中,根据步骤S101和S102可建立多个第一对应关系和多个第二对应关系,可根据第一枢轴词语、第二枢轴词语、第一关联字符、第二关联字符、在多个第一对应关系和多个第二对应关系中筛选出第一类语言词语与第二类语言词语的第三对应关系。例如,根据第一对应关系可知第一类语言词语“岸”对应的第一类关联语句为south bankof,其第一枢轴词语为bank,第一关联字符为bank和of,当在多个第二对应关系中存在与第一类关联语句相同的第二类关联语句对应的第二类语言词语时,如果在第二类关联语句中的第二枢轴语言也为bank,第一关联字符也为south和of,则可建立该第二类关联语句对应的第二类语言词语与第一类语言词语的第三对应关系(如表2中第一条记录)。同理,对于第一类语言词语“银行”,可根据与其对应的第一枢轴词语bank以及第一关联字符this和.以及第二对应关系找到对应的第二类语言词语“銀行”(如表2中第二条记录)。
表2 基于关联语句构造的双语词语对应关系表
岸 south bank of 辺 | |
银行 this bank. 銀行 |
在本发明的实施例中,在第一对应关系、第二对应关系以及第三对应关系中,对枢轴语言词语(包括第一枢轴词语和第二枢轴词语)进行特殊标记(在本发明的实施例中,为了便于理解和查看,以加粗斜体进行展示,在具体实现过程中的形式,本发明不做具体限定),以在筛选对应关系时,能够准确的区分关联语句(包括第一类关联语句和第二类关联语句)中的枢轴语言词语(包括第一枢轴词语和第二枢轴词语)和关联字符(包括第一关联字符和/或第二关联字符)。
S104,根据第三对应关系训练预设的翻译模型。
在本发明的一个实施例中,预设的翻译模型为根据枢轴语言建立的第一类语言和第二类语言的翻译模型,包含多个第一类语言词语和第二类语言词语的互译关系的列表。具体地,可根据多个第一对应关系和多个第二对应关系获取多个双语词语(第一类语言词语和第二类语言词语)的第三对应关系(如“岸”与“辺”的对应关系),并将这些第三对应关系添加至预设的翻译模型中,由此逐渐训练预设的翻译模型。
因此,可以看出,表2与表1相比,词语对应关系中的词语数量减少了50%,并且不再包括对应关系错误的两个记录,质量上提高了50%。而上述例子仅为本发明的一个具体实施例,在本发明的其他实施例中,特别是在训练翻译模型时,对于大量的词语对应关系能够有效地降低模型规模,提高模型翻译质量。
本发明实施例的训练翻译模型的方法,可根据枢轴语言词语,即第一枢轴词语和第二枢轴词语的关联字符(如枢轴语言词语的上下文信息)建立第一类语言词语和/或第二类语言词语之间的对应关系,由此根据枢轴语言词语及其关联字符建立第一类语言词语和第二类语言词语之间的对应关系,以建立第一类语言与第二类语言的翻译模型,能够去除翻译关系错误的对应关系,在有效地降低模型规模的同时,降低噪音信息,去除歧义,提高了翻译质量。
图4为根据本发明一个具体实施例的训练翻译模型的方法的流程图。在本实施例中,可具体根据第一类关联语句和第二类关联语句以及其中的第一枢轴词语、第二枢轴词语、第一关联字符、第二关联字符确定第一类语言词语和第二类语言词语直接的对应关系。具体地,如图4所示,该训练翻译模型的方法包括以下步骤。
S201,在第一类双语语料中提取第一类语言词语。
在本发明的实施例中,第一类双语语料为包括第一类语言和枢轴语言的词语对齐的双语句对,即词语对齐的第一类语言句子和枢轴语言句子,如图2(a)和图2(b)所示的词语对齐的中英双语句对。其中,枢轴语言为用于双语语料较少的两种语言的中间语言,举例来说,对于中日翻译来说,直接可用的中日双语语料较少,因此可将英语作为枢轴语言,通过中英翻译模型、英日翻译模型导出中日翻译模型。
在本发明的一个实施例中,第一类语言词语为第一类语言句子中的词语(如单词、短语、汉字或词语等)。
S202,在第一类双语语料中提取与第一类语言词语具有互译关系的第一枢轴词语,并进一步提取与第一枢轴词语相关联的第一关联字符。
在本发明的一个实施例中,第一枢轴词语为枢轴语言句子中与上述第一类语言词语对齐的词语(也就是具有互译关系的词语)。举例来说,在图2(a)所示的中英双语句对中,对于中文“岸”(第一类语言词语),对应的第一枢轴词语为bank。第一关联字符为枢轴语言句子中由第一枢轴词语的上下文组成的具有完整语义的字符串。
具体地,可在枢轴语言句子中获取在第一枢轴词语之前的m个字符,以及在第一枢轴词语之后n个字符,并将m个字符和n个字符作为第一关联字符,其中,m,n为自然数,且m+n>0。举例来说,在图2(a)所示的中英双语句对中,如果m=1,n=1,则第一关联字符为south和of。
S203,根据第一枢轴词语和第一关联字符生成第一类关联语句,并建立第一类语言词语与第一类关联语句之间的第一对应关系。
在本发明的一个实施例中,第一类关联语句为第一枢轴词语和与其相关的第一关联字符组成的一段句子。以图2(a)所示的中英双语句对为例,根据第一枢轴词语bank及其对应的第一关联字符为south和of可知,第一类关联语句为south bank of,进而,可建立第一类语言词语“岸”与第一类关联语句south bank of的对应关系。
S204,在第二类双语语料中提取第二类语言词语。
在本发明的实施例中,第二类双语语料为包括第二类语言和枢轴语言的词语对齐的双语句对,即词语对齐的第二类语言句子和枢轴语言句子,如图3(a)和图3(b)所示的词语对齐的日英双语句对。第二类语言词语为第二类语言句子中的词语(如单词、短语、汉字或词语等)。
S205,在第二类双语语料中提取与第二类语言词语具有互译关系的第二枢轴词语,并进一步提取与第二枢轴词语相关联的第二关联字符。
在本发明的一个实施例中,第二枢轴词语为枢轴语言句子中与第二类语言句子中的词语对齐的词语(也就是具有互译关系的词语)。举例来说,在图3(a)所示的日英双语句对中,对于日文“辺”,与其对应的第二枢轴词语为bank。第二关联字符为枢轴语言句子中由第二枢轴词语的上下文组成的具有完整语义的字符串。
具体地,可在枢轴语言句子中获取第二枢轴词语之前p个字符,以及在第二枢轴词语之后q个字符,并将p个字符和q个字符作为关联字符,其中,p,q为自然数,且p+q>0。举例来说,在图3(a)所示的中英双语句对中,如果p=1,q=1,则第二关联字符为south和of。
S206,根据第二枢轴词语和第二关联字符生成第二类关联语句,并建立第二类语言词语与第二类关联语句之间的第二对应关系。
在本发明的一个实施例中,第二类关联语句为第二枢轴词语和与其相关的第二关联字符组成的一段句子。以图3(a)所示的日英双语句对为例,根据第二枢轴词语bank及其对应的第二关联字符为south和of可知,第二类关联语句为south bank of,进而,可建立第二类语言词语“辺”与第二类关联语句south bank of的对应关系。
S207,根据第一对应关系获取第一类语言词语对应的第一类关联语句,并获取第一类关联语句包括的第一枢轴词语和第一关联字符。
S208,根据第二对应关系获取与第一类关联语句一致的第二类关联语句对应的至少一个第二类语言词语。
S209,如果存在第二类语言词语对应的第二类关联语句中的第二枢轴词语与第一枢轴词语一致,且第二类关联语句中的第二关联字符与第一关联字符一致,则建立第二类语言词语和第一类语言词语之间的第三关系。
本发明实施例的训练翻译模型的方法,可在第一枢轴词语与第二枢轴词语一致且第一关联字符与第二关联字符一致时,确定相应的第一类关联语句对应的第一类语言词语与第二类关联语句对应的第二类语言词语,并据此建立第一类语言词语和第二类语言词语之间的对应关系,从而能够更准确的建立第一类语言与第二类语言的翻译模型,进一步提高了翻译质量。
为了实现上述实施例,本发明还提出一种训练翻译模型的装置。
图5为根据本发明一个实施例的训练翻译模型的装置的结构示意图。如图5所示,根据本发明实施例的训练翻译模型的装置包括:第一建立模块100、第二建立模块200、第三建立模块300和训练模块400。
具体地,第一建立模块100用于根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,第一类关联语句包括第一枢轴词语和与第一枢轴词语相关的第一关联字符。在本发明的实施例中,枢轴语言为用于双语语料较少的两种语言的中间语言,举例来说,对于中日翻译来说,直接可用的中日双语语料较少,因此可将英语作为枢轴语言,通过中英翻译模型、英日翻译模型导出中日翻译模型。第一类双语语料为包括第一类语言和枢轴语言的词语对齐的双语句对,即词语对齐的第一类语言句子和枢轴语言句子,如图2(a)和图2(b)所示的词语对齐的中英双语句对。
在本发明的一个实施例中,第一类语言词语为第一类语言句子中的词语(如单词、短语、汉字或词语等),第一枢轴词语为枢轴语言句子中与第一类语言句子中的词语对齐的词语(也就是具有互译关系的词语),第一关联字符为枢轴语言句子中由第一枢轴词语的上下文组成的具有完整语义的字符串,第一类关联语句为第一枢轴词语和与其相关的第一关联字符组成的一段句子。
举例来说,在图2(a)所示的中英双语句对中,对于中文“岸”,与其对应的第一枢轴词语为bank,与第一枢轴词语bank相关的第一关联字符为bank之前的south和bank之后的of,第一类关联语句为south bank of,由此可建立第一类语言词语“岸”与第一类关联语句south bank of的对应关系;在图2(b)所示的中英双语句对中,对于中文“银行”,与其对应的第一枢轴词语为bank,与第一枢轴词语bank相关的第一关联字符为bank之前的this和bank之后的.,第一类关联语句为this bank.,由此可建立第一类语言词语“银行”与第一类关联语句this bank.的对应关系。
第二建立模块200用于根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,第二类关联语句包括第二枢轴词语和与第二枢轴词语相关联的第二关联字符。在本发明的实施例中,第二类双语语料为包括第二类语言和枢轴语言的词语对齐的双语句对,即词语对齐的第二类语言句子和枢轴语言句子,如图3(a)和图3(b)所示的词语对齐的日英双语句对。
在本发明的一个实施例中,第二类语言词语为第二类语言句子中的词语(如单词、短语、汉字或词语等),第二枢轴词语为枢轴语言句子中与第二类语言句子中的词语对齐的词语(也就是具有互译关系的词语),第二关联字符为枢轴语言句子中由第二枢轴词语的上下文组成的具有完整语义的字符串,第二类关联语句为第二枢轴词语和与其相关的第二关联字符组成的一段句子。
举例来说,在图3(a)所示的日英双语句对中,对于日文“辺”,与其对应的第二枢轴词语为bank,与第二枢轴词语bank相关的第二关联字符为bank之前的south和bank之后的of,第二类关联语句为south bank of,由此可建立第二类语言词语“辺”与第二类关联语句south bank of的对应关系;在图3(b)所示的日英双语句对中,对于日文“銀行”,与其对应的第二枢轴词语为bank,与第二枢轴词语bank相关的第二关联字符为bank之前的this和bank之后的.,第二类关联语句为this bank.,由此可建立第二类语言词语“銀行”与第二类关联语句this bank.的对应关系。
第三建立模块300用于根据第一枢轴词语、第二枢轴词语、第一关联字符、第二关联字符、第一对应关系和第二对应关系建立第一类语言词语与第二类语言词语之间的第三对应关系。
在本发明的一个实施例中,第一建立模块100和第二建立模块200可建立多个第一对应关系和多个第二对应关系,第三建立模块300可根据第一枢轴词语、第二枢轴词语、第一关联字符、第二关联字符、在多个第一对应关系和多个第二对应关系中筛选出第一类语言词语与第二类语言词语的第三对应关系。例如,根据第一对应关系可知第一类语言词语“岸”对应的第一类关联语句为south bank of,其第一枢轴词语为bank,第一关联字符为bank和of,当在多个第二对应关系中存在与第一类关联语句相同的第二类关联语句对应的第二类语言词语时,如果在第二类关联语句中的第二枢轴语言也为bank,第一关联字符也为south和of,则可建立该第二类关联语句对应的第二类语言词语与第一类语言词语的第三对应关系(如表2中第一条记录)。同理,对于第一类语言词语“银行”,可根据与其对应的第一枢轴词语bank以及第一关联字符this和.以及第二对应关系找到对应的第二类语言词语“銀行”(如表2中第二条记录)。
表2 基于关联语句构造的双语词语对应关系表
岸 south bank of 辺 | |
银行 this bank. 銀行 |
本发明的实施例,在第一对应关系、第二对应关系以及第三对应关系中,对枢轴语言词语(包括第一枢轴词语和第二枢轴词语)进行特殊标记(在本发明的实施例中,为了便于理解和查看,以加粗斜体进行展示,在具体实现过程中的形式,本发明不做具体限定),以在筛选对应关系时,能够准确的区分关联语句(包括第一类关联语句和第二类关联语句)中的枢轴语言词语(包括第一枢轴词语和第二枢轴词语)和关联字符(包括第一关联字符和/或第二关联字符)。
训练模块400用于根据第三对应关系训练预设的翻译模型。在本发明的一个实施例中,预设的翻译模型为根据枢轴语言建立的第一类语言和第二类语言的翻译模型,包含多个第一类语言词语和第二类语言词语的互译关系的列表。具体地,可根据多个第一对应关系和多个第二对应关系获取多个双语词语(第一类语言词语和第二类语言词语)的第三对应关系(如“岸”与“辺”的对应关系),并将这些第三对应关系添加至预设的翻译模型中,由此逐渐训练预设的翻译模型。
因此,可以看出,表2与表1相比,词语对应关系中的词语数量减少了50%,并且不再包括对应关系错误的两个记录,质量上提高了50%。而上述例子仅为本发明的一个具体实施例,在本发明的其他实施例中,特别是在训练翻译模型时,对于大量的词语对应关系能够有效地降低模型规模,提高模型翻译质量。
本发明实施例的训练翻译模型的装置,可根据枢轴语言词语,即第一枢轴词语和第二枢轴词语的关联字符(如枢轴语言词语的上下文信息)建立第一类语言词语和/或第二类语言词语之间的对应关系,由此根据枢轴语言词语及其关联字符建立第一类语言词语和第二类语言词语之间的对应关系,以建立第一类语言与第二类语言的翻译模型,能够去除翻译关系错误的对应关系,在有效地降低模型规模的同时,降低噪音信息,去除歧义,提高了翻译质量。
图6为根据本发明一个具体实施例的训练翻译模型的装置的结构示意图。如图6所示,根据本发明实施例的训练翻译模型的装置包括:第一建立模块100、第二建立模块200、第三建立模块300、训练模块400、第一提取单元110、第二提取单元120、第一生成单元130、第一建立单元140、第三提取单元210、第四提取单元220、第二生成单元230、第二建立单元240、第一获取单元310、第二获取单元320、第三获取单元330和第三建立单元340。其中,第一建立模块100具体包括第一提取单元110、第二提取单元120、第一生成单元130和第一建立单元140;第二建立模块200具体包括第三提取单元210、第四提取单元220、第二生成单元230和第二建立单元240;第三建立模块300具体包括第一获取单元310、第二获取单元320和第三建立单元330。
具体地,第一提取单元110用于在第一类双语语料中提取第一类语言词语。
第二提取单元120用于在第一类双语语料中提取与第一类语言词语具有互译关系的第一枢轴词语,并进一步提取与第一枢轴词语相关联的第一关联字符。第二提取单元具体用于在第一类双语语料中获取在第一枢轴词语之前m个字符,以及在第一枢轴词语之后n个字符,并将m个字符和n个字符作为关联字符,其中,m,n为自然数,且m+n>0。举例来说,在图2(a)所示的中英双语句对中,如果m=1,n=1,则第一枢轴词语“岸”对应的第一关联字符为south和of。
第一生成单元130用于根据第一枢轴词语和第一关联字符生成第一类关联语句。
第一建立单元140用于建立第一类语言词语与第一类关联语句之间的第一对应关系。
第三提取单元210用于在第二类双语语料中提取第二类语言词语。
第四提取单元220用于在第二类双语语料中提取与第二类语言词语具有互译关系的第二枢轴词语,并进一步提取与第二枢轴词语相关联的第二关联字符。第四提取单元具体用于在第二类双语语料中获取在第二枢轴词语之前p个字符,以及在第二枢轴词语之后q个字符,并将p个字符和q个字符作为关联字符,其中,p,q为自然数,且p+q>0。举例来说,在图3(a)所示的中英双语句对中,如果p=1,q=1,则第二枢轴词语“辺”对应的第二关联字符为south和of。
第二生成单元230用于根据第二枢轴词语和第二关联字符生成第二类关联语句。
第二建立单元240用于建立第二类语言词语与第二类关联语句之间的第二对应关系。
第一获取单元310用于根据第一对应关系获取第一类语言词语对应的第一类关联语句,并获取第一类关联语句包括的第一枢轴词语和第一关联字符。
第二获取单元320用于根据第二对应关系获取与第一类关联语句一致的第二类关联语句对应的至少一个第二类语言词语。
第三建立单元330用于在存在第二类语言词语对应的第二类关联语句中的第二枢轴词语与第一枢轴词语一致,且第二类关联语句中的第二关联字符与第一关联字符一致时,建立第二类语言词语和第一类语言词语之间的第三关系。
本发明实施例的训练翻译模型的装置,可在第一枢轴词语与第二枢轴词语一致且第一关联字符与第二关联字符一致时,确定相应的第一类关联语句对应的第一类语言词语与第二类关联语句对应的第二类语言词语,并据此建立第一类语言词语和第二类语言词语之间的对应关系,从而能够更准确的建立第一类语言与第二类语言的翻译模型,进一步提高了翻译质量。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。
Claims (12)
1.一种训练翻译模型的方法,其特征在于,包括以下步骤:
根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,所述第一类关联语句包括第一枢轴词语和与所述第一枢轴词语相关的第一关联字符;
根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,所述第二类关联语句包括所述第二枢轴词语和与所述第二枢轴词语相关联的第二关联字符;
根据所述第一枢轴词语、所述第二枢轴词语、所述第一关联字符、所述第二关联字符、所述第一对应关系和所述第二对应关系建立所述第一类语言词语与所述第二类语言词语之间的第三对应关系;以及
根据所述第三对应关系训练预设的翻译模型。
2.如权利要求1所述的方法,其特征在于,所述根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,具体包括:
在所述第一类双语语料中提取所述第一类语言词语;
在所述第一类双语语料中提取与所述第一类语言词语具有互译关系的所述第一枢轴词语,并进一步提取与所述第一枢轴词语相关联的第一关联字符;以及
根据所述第一枢轴词语和所述第一关联字符生成所述第一类关联语句,并建立所述第一类语言词语与所述第一类关联语句之间的第一对应关系。
3.如权利要求2所述的方法,其特征在于,所述在第一类双语语料中提取与所述第一枢轴词语相关联的第一关联字符,具体包括:
在所述第一类双语语料中获取在所述第一枢轴词语之前m个字符,以及在所述第一枢轴词语之后n个字符,并将所述m个字符和所述n个字符作为所述第一关联字符,其中,m,n为自然数,且m+n>0。
4.如权利要求2所述的方法,其特征在于,所述根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,具体包括:
在所述第二类双语语料中提取所述第二类语言词语;
在所述第二类双语语料中提取与所述第二类语言词语具有互译关系的所述第二枢轴词语,并进一步提取与所述第二枢轴词语相关联的第二关联字符;以及
根据所述第二枢轴词语和所述第二关联字符生成所述第二类关联语句,并建立所述第二类语言词语与所述第二类关联语句之间的第二对应关系。
5.如权利要求4所述的方法,其特征在于,所述在第二类双语语料中提取与所述第二枢轴词语相关联的第二关联字符,具体包括:
在所述第二类双语语料中获取在所述第二枢轴词语之前p个字符,以及在所述第二枢轴词语之后q个字符,并将所述p个字符和所述q个字符作为所述第二关联字符,其中,p,q为自然数,且p+q>0。
6.如权利要求1-5任一项所述的方法,其特征在于,所述根据第一枢轴词语、所述第二枢轴词语、所述第一关联字符、所述第二关联字符、所述第一对应关系和所述第二对应关系建立所述第一类语言词语与所述第二类语言词语之间的第三对应关系,具体包括:
根据所述第一对应关系获取所述第一类语言词语对应的第一类关联语句,并获取所述第一类关联语句包括的所述第一枢轴词语和所述第一关联字符;
根据所述第二对应关系获取与所述第一类关联语句一致的第二类关联语句对应的至少一个第二类语言词语;以及
如果存在第二类语言词语对应的第二类关联语句中的所述第二枢轴词语与所述第一枢轴词语一致,且第二类关联语句中的第二关联字符与所述第一关联字符一致,则建立所述第二类语言词语和所述第一类语言词语之间的第三关系。
7.一种训练翻译模型的装置,其特征在于,包括:
第一建立模块,用于根据第一类双语语料建立第一类语言词语与第一类关联语句之间的第一对应关系,其中,所述第一类关联语句包括第一枢轴词语和与所述第一枢轴词语相关的第一关联字符;
第二建立模块,用于根据第二类双语语料建立第二类语言词语与第二类关联语句之间的第二对应关系,其中,所述第二类关联语句包括所述第二枢轴词语和与所述第二枢轴词语相关联的第二关联字符;
第三建立模块,用于根据所述第一枢轴词语、所述第二枢轴词语、所述第一关联字符、所述第二关联字符、所述第一对应关系和所述第二对应关系建立所述第一类语言词语与所述第二类语言词语之间的第三对应关系;以及
训练模块,用于根据所述第三对应关系训练预设的翻译模型。
8.如权利要求7所述的装置,其特征在于,所述第一建立模块具体包括:
第一提取单元,用于在所述第一类双语语料中提取所述第一类语言词语;
第二提取单元,用于在所述第一类双语语料中提取与所述第一类语言词语具有互译关系的所述第一枢轴词语,并进一步提取与所述第一枢轴词语相关联的第一关联字符;
第一生成单元,用于根据所述第一枢轴词语和所述第一关联字符生成所述第一类关联语句;以及
第一建立单元,用于建立所述第一类语言词语与所述第一类关联语句之间的第一对应关系。
9.如权利要求8所述的装置,其特征在于,
所述第二提取单元具体用于在所述第一类双语语料中获取在所述第一枢轴词语之前m个字符,以及在所述第一枢轴词语之后n个字符,并将所述m个字符和所述n个字符作为所述关联字符,其中,m,n为自然数,且m+n>0。
10.如权利要求8所述的装置,其特征在于,所述第二建立模块具体包括:
第三提取单元,用于在所述第二类双语语料中提取所述第二类语言词语;
第四提取单元,用于在所述第二类双语语料中提取与所述第二类语言词语具有互译关系的所述第二枢轴词语,并进一步提取与所述第二枢轴词语相关联的第二关联字符;
第二生成单元,用于根据所述第二枢轴词语和所述第二关联字符生成所述第二类关联语句;以及
第二建立单元,用于建立所述第二类语言词语与所述第二类关联语句之间的第二对应关系。
11.如权利要求10所述的装置,其特征在于,
所述第四提取单元具体用于在所述第二类双语语料中获取在所述第二枢轴词语之前p个字符,以及在所述第二枢轴词语之后q个字符,并将所述p个字符和所述q个字符作为所述关联字符,其中,p,q为自然数,且p+q>0。
12.如权利要求7-11任一项所述的装置,其特征在于,所述第三建立模块具体包括:
第一获取单元,用于根据所述第一对应关系获取所述第一类语言词语对应的第一类关联语句,并获取所述第一类关联语句包括的所述第一枢轴词语和所述第一关联字符;
第二获取单元,用于根据所述第二对应关系获取与所述第一类关联语句一致的第二类关联语句对应的至少一个第二类语言词语;以及
第三建立单元,用于在存在第二类语言词语对应的第二类关联语句中的所述第二枢轴词语与所述第一枢轴词语一致,且第二类关联语句中的第二关联字符与所述第一关联字符一致时,建立所述第二类语言词语和所述第一类语言词语之间的第三关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310544762.3A CN103544147A (zh) | 2013-11-06 | 2013-11-06 | 训练翻译模型的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310544762.3A CN103544147A (zh) | 2013-11-06 | 2013-11-06 | 训练翻译模型的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103544147A true CN103544147A (zh) | 2014-01-29 |
Family
ID=49967613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310544762.3A Pending CN103544147A (zh) | 2013-11-06 | 2013-11-06 | 训练翻译模型的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103544147A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN110717340A (zh) * | 2019-09-29 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030196A (zh) * | 2006-02-28 | 2007-09-05 | 株式会社东芝 | 训练双语词对齐模型的方法和装置、双语词对齐方法和装置 |
US20090228263A1 (en) * | 2008-03-07 | 2009-09-10 | Kabushiki Kaisha Toshiba | Machine translating apparatus, method, and computer program product |
CN102662937A (zh) * | 2012-04-12 | 2012-09-12 | 传神联合(北京)信息技术有限公司 | 自动翻译系统及其自动翻译方法 |
-
2013
- 2013-11-06 CN CN201310544762.3A patent/CN103544147A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030196A (zh) * | 2006-02-28 | 2007-09-05 | 株式会社东芝 | 训练双语词对齐模型的方法和装置、双语词对齐方法和装置 |
US20090228263A1 (en) * | 2008-03-07 | 2009-09-10 | Kabushiki Kaisha Toshiba | Machine translating apparatus, method, and computer program product |
CN102662937A (zh) * | 2012-04-12 | 2012-09-12 | 传神联合(北京)信息技术有限公司 | 自动翻译系统及其自动翻译方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN109670190B (zh) * | 2018-12-25 | 2023-05-16 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN110717340A (zh) * | 2019-09-29 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
CN110717340B (zh) * | 2019-09-29 | 2023-11-21 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
US9652454B2 (en) | Phrase-based dictionary extraction and translation quality evaluation | |
CN103123618B (zh) | 文本相似度获取方法和装置 | |
CN104731959A (zh) | 基于文本的网页内容生成视频摘要的方法、装置及系统 | |
CN107039034A (zh) | 一种韵律预测方法及系统 | |
CN104408078A (zh) | 一种基于关键词的中英双语平行语料库构建方法 | |
CN103678282A (zh) | 一种分词方法及装置 | |
CN103942223A (zh) | 一种对语言模型进行在线纠错的方法及系统 | |
US10691769B2 (en) | Methods and apparatus for removing a duplicated web page | |
CN102214166A (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN102253930A (zh) | 一种文本翻译的方法及装置 | |
CN103186523A (zh) | 电子设备及其自然语言分析方法 | |
CN106354716A (zh) | 转换文本的方法和设备 | |
CN104809929B (zh) | 古文学习装置及其控制方法 | |
CN103699528A (zh) | 翻译译文的提供方法、装置和系统 | |
CN103186522A (zh) | 电子设备及其自然语言分析方法 | |
CN102193646A (zh) | 人名候选词的生成方法及装置 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
Álvarez et al. | Towards customized automatic segmentation of subtitles | |
CN103559172B (zh) | 多语混合文本的分句方法和装置 | |
CN103544147A (zh) | 训练翻译模型的方法和装置 | |
CN111178098B (zh) | 一种文本翻译方法、装置、设备及计算机可读存储介质 | |
CN104933030A (zh) | 一种维吾尔语拼写检查方法及装置 | |
CN109460730B (zh) | 一种表格换行换页的分析方法及装置 | |
CN104731766A (zh) | 拼音文字词库构建方法和装置及输入方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140129 |
|
RJ01 | Rejection of invention patent application after publication |