CN100483399C

CN100483399C - 训练音译模型、切分统计模型的方法和装置

Info

Publication number: CN100483399C
Application number: CNB2005101081859A
Authority: CN
Inventors: 王海峰; 郭玉箐
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-10-09
Filing date: 2005-10-09
Publication date: 2009-04-29
Anticipated expiration: 2025-10-09
Also published as: US7853444B2; JP2007109233A; US20070124133A1; JP4886459B2; CN1945562A

Abstract

本发明提供了训练切分统计模型和音译模型的方法和装置、从单音节语言到多音节语言的音译以及从多音节语言到单音节语言的音译方法和装置。从单音节语言到多音节语言的音译方法，包括：获得与需要音译的上述单音节语言的词对应的音节序列；利用音译模型获得与上述音节序列中每个音节对应的上述多音节语言的子音节及其概率，其中，上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其概率；利用切分统计模型，搜索与上述音节序列对应的概率最高的子音节序列，作为音译结果，其中，上述切分统计模型包含上述多音节语言的子音节之间的切分概率。

Description

训练音译模型、切分统计模型的方法和装置

技术领域

本发明涉及信息处理技术，具体地，涉及利用计算机进行音译的技术和训练音译过程中使用的音译模型和切分模型的技术。

背景技术

所谓“音译”就是把一种语言中的词汇翻译为另一种语言中与之发音相近的词汇，例如，专有名词的翻译通常使用音译方法。以往，人们往往通过使用双语词典对专名进行翻译。这种双语词典(例如，双语专用名词典)是由语言学家或者相关领域的专家编写的，具有很高的准确性。

但是，再大规模的双语词典也不可能涵盖所有的词汇，人们经常会遇到在词典中查不到想查的词的情况。而且，新的词汇随着时代和社会的发展而不断涌现，更加重了这种情况。所以一直以来，人们需要一种自动音译的方法和装置，来实现两种语言之间自动的音译。这种自动音译技术，对于机器翻译、跨语言信息检索和信息抽取也都具有重要意义。

目前自动音译技术，例如，由“Paola Virga”和“Sanjeev Khudanpur”所著的“Transliteration of Proper Names in Cross-Lingual InformationRetrieval”(发表于Proceedings of 41st ACL Workshop on Multilingualand Mixed-language Named Entity Recognition，pp.57-64，2003)。这篇文章描述了一种基于统计机器翻译技术的英汉音译方法。具体步骤如下面表1所示，包括：

(1)使用CMU开发的Festival语音合成系统将英文单词转换为表示发音的音素序列

(2)使用IBM翻译模型将英文的音素序列转换为表示汉字发音的声母和韵母序列

(3)将声母和韵母序列合并为汉语拼音音节

(4)再次使用IBM翻译模型将汉语拼音转换为汉字

(5)使用CMU开发的语言模型将汉字合并为汉语音译词

表1

上述现有技术的自动音译方法存在两个问题：

(1)需要借助语音合成系统将英文单词转换为发音序列，而由于现有的语音合成技术并不成熟，这样做会在音译过程中引入额外的错误；而借助发音词典标注英文单词发音的方法，由于词典规模的限制，无法解决词典以外的单词发音标注的问题，特别是对于需要音译的专用名词和一些新出现的词汇，这种问题更加突出。

(2)英文是一种多音节的语言(即一个英文单词通常含有多个音节)，而汉语是单音节语言(即一个汉字就是一个音节)，无论是英文字母、音素、音节还是单词，都无法与中文的自然单位——汉字对应。因此上述文章中的方法仅适用于英汉音译，而不适用于汉英音译。

发明内容

为了解决上述现有技术中存在的问题，本发明提供了训练切分统计模型和音译模型的方法和装置，以及从单音节语言到多音节语言和从多音节语言到单音节语言的音译方法和装置。

根据本发明的一个方面，提供了一种训练切分统计模型的方法，上述切分统计模型被用于一种单音节语言和一种多音节语言之间的音译、并且包含上述多音节语言的子音节的切分概率，所述方法包括：输入双语专用名列表作为语料，该双语专用名列表包含多个上述多音节语言的专用名和各自对应的上述单音节语言的专用名；使用切分规则将上述双语专用名列表中的每个上述多音节语言的专用名切分为子音节序列；根据上述双语专用名列表中的对应的单音节语言的专用名，判断上述切分是否正确；以及根据判断为正确的切分结果训练上述切分统计模型。

根据本发明的另一个方面，提供了一种训练切分统计模型和音译模型的方法，上述切分统计模型和上述音译模型被用于一种单音节语言和一种多音节语言之间的音译，其中上述切分统计模型包含上述多音节语言的子音节的切分概率，上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率，所述方法包括：利用前面所述的方法，训练上述切分统计模型；根据上述判断为切分正确的多音节语言的专用名和上述双语专用名列表中相应的单音节语言的专用名，训练上述音译模型。

根据本发明的另一个方面，提供了一种从单音节语言到多音节语言的音译方法，包括：获得与需要音译的上述单音节语言的词对应的音节序列；利用音译模型获得与上述音节序列中每个音节对应的上述多音节语言的子音节及其转换概率，其中，上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率；利用切分统计模型，搜索与上述音节序列对应的概率最高的子音节序列，作为音译结果，其中，上述切分统计模型包含上述多音节语言的子音节之间的切分概率。

根据本发明的另一个方面，提供了一种从多音节语言到单音节语言的音译方法，包括：将需要音译的上述多音节语言的词切分为子音节序列；利用音译模型获得与上述子音节序列中每个子音节对应的上述单音节语言的音节及其转换概率，其中，上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率；获得与上述单音节语言的每个音节对应的字；利用语言模型，搜索与上述子音节序列对应的概率最高的上述单音节语言的字序列，作为音译结果，其中，上述语言模型包含上述单音节语言的字与字之间的相邻概率。

根据本发明的另一个方面，提供了一种训练切分统计模型的装置，上述切分统计模型被用于一种单音节语言和一种多音节语言之间的音译、并且包含上述多音节语言的子音节的切分概率，所述装置包括：语料输入单元，用于作为语料输入双语专用名列表，该双语专用名列表包含多个上述多音节语言的专用名和各自对应的上述单音节语言的专用名；规则切分单元，用于使用切分规则将上述双语专用名列表中的上述多音节语言的专用名切分为子音节序列；切分判断单元，用于根据上述双语专用名列表中的对应的单音节语言的专用名，判断对于上述多音节语言的专用名的切分是否正确；以及切分统计模型训练单元，用于根据判断为正确的切分结果训练上述切分统计模型。

根据本发明的另一个方面，提供了一种从单音节语言到多音节语言的自动音译装置，包括：音节序列获得单元，用于获得与需要音译的上述单音节语言的词对应的音节序列；音译模型，包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率；子音节转换单元，用于利用上述音译模型获得与上述音节序列中每个音节对应的上述多音节语言的子音节及其转换概率；切分统计模型，包含上述多音节语言的子音节之间的切分概率；搜索单元，用于利用上述切分统计模型以及由上述子音节转换单元获得的与上述音节序列中每个音节对应的上述多音节语言的子音节及其转换概率，搜索与上述音节序列对应的概率最高的子音节序列，作为音译结果。

根据本发明的另一个方面，提供了一种从多音节语言到单音节语言的自动音译装置，包括：子音节切分单元，用于将需要音译的上述多音节语言的词切分为子音节序列；音译模型，包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率；音节转换单元，用于利用上述音译模型获得与上述子音节序列中每个子音节对应的上述单音节语言的音节及其转换概率；字转换单元，用于获得与上述单音节语言的每个音节对应的字；语言模型，包含上述单音节语言的字与字之间的相邻概率；搜索单元，利用语言模型以及由上述音节转换单元获得的与上述子音节序列中每个子音节对应的上述单音节语言的音节及其转换概率，搜索与上述子音节序列对应的概率最高的上述单音节语言的字序列，作为音译结果。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明一个实施例的训练切分统计模型的方法的流程图；

图2是根据本发明一个实施例的训练切分统计模型和音译模型的方法的流程图；

图3是根据本发明一个实施例的从单音节语言到多音节语言的音译方法的流程图；

图4是根据本发明一个实施例的从多音节语言到单音节语言的音译方法的流程图；

图5是根据本发明另一个实施例的从多音节语言到单音节语言的音译方法的流程图；

图6是根据本发明一个实施例的训练切分统计模型和音译模型的装置的框图；

图7是根据本发明一个实施例的从单音节语言到多音节语言的自动音译装置的框图；以及

图8是根据本发明一个实施例的从多音节语言到单音节语言的自动音译装置的框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

为了避免现有技术中存在的对多音节语言的词汇标注发音引起的额外错误，本发明采用直接使用多音节语言的词，例如，英文单词，进行音译的方式。为此，在本发明中，提出“子音节”(sub-syllable)的概念。对于一种多音节语言，例如英文来说，子音节是介于英文字母和音节之间的一个单位，它与对应的单音节语言，例如中文，的词的音节一一对应，如以下表2所示。

表2

本发明的自动音译方法，以单音节语言的音节和多音节语言的子音节为基本单位，利用统计模型来实现双向音译。在本说明书中，以英文作为多音节语言的例子，以汉语作为单音节语言的例子，对本发明的各个实施例进行描述。应当指出，对于其它的单音节语言和多音节语言，例如，汉语-法语、汉语-德语、日语-英语、日语-德语等等，本发明也同样适用。

图1是根据本发明一个实施例的训练切分统计模型的方法的流程图。利用本实施例的方法训练的切分统计模型将被用于后面结合其它实施例描述的音译方法和装置，其中包含有多音节语言的子音节之间的切分概率。

如图1所示，首先在步骤105，输入双语专用名列表作为语料，该双语专用名列表包含多个多音节语言的专用名和各自对应的单音节语言的专用名。具体地，例如，可以将由语言学家或者相关领域的专家编写的双语专用名词典作为语料。下面的表3示出了一个英汉双语专用名列表的例子。

表3

英文专名	中文译名
英文专名	中文译名	MARY	玛丽
PATRICIA	帕格丽夏	MARY	玛丽
PATRICIA	帕格丽夏	ELIZABETH	伊丽莎白
...	...	ELIZABETH	伊丽莎白
...	...	SUSAN	苏珊
MARGARET	玛格丽特	SUSAN	苏珊
MARGARET	玛格丽特	DOROTHY	多萝西
...	...	DOROTHY	多萝西

接着，在步骤110，使用切分规则将双语专用名列表中的每个多音节语言的专用名切分为子音节的序列。以下，是本实施例中所使用的切分规则的一部分片段。

//切分含四个字母的元音

如果＂augh＂位于词中，则切分为子音节；

如果＂ough＂位于词中或词尾，则切分为子音节；

……

//切分含三个字母的元音

如果＂ore＂位于词尾，则切分为子音节；

……

//切分含两个字母的元音

如果＂ai＂位于词首或词中，则切分为子音节；

如果＂ey＂位于词尾，则切分为子音节；

//切分元音字母

将单词中的元音字母＂a＂，＂e＂，＂i＂，＂o＂，＂u＂，＂y＂切分为子音节

//其他规则

将＂sh＂，＂th＂，＂tch＂，＂ph＂，＂ch＂，＂wh＂，切分为一个辅音单元；

将元音字母和它左侧相邻的辅音字母，合并为一个子音节；

……

接着，在步骤115，根据双语专用名列表中的相对应的单音节语言的专用名，判断上述切分是否正确。具体地，在本实施例中，判断多音节语言的专用名被切分后的子音节的个数是否与双语专用名列表中的对应的单音节语言的专用名的音节个数相等，如果相等则判断为上述切分是正确的，否则判断为上述切分是不正确的。将那些正确的切分结果，集中到正确切分集合中(步骤120)，而将那些错误的切分结果，集中到错误切分集合中(步骤130)。

然后，在步骤125，根据正确的切分结果训练上述切分统计模型。具体地，在本实施例中，根据切分正确的多音节语言的专用名被切分后的子音节之间的相邻关系，计算各个相邻的子音节对的出现概率，然后将上述子音节对及其出现概率记录在上述切分统计模型中。下面的表4示出了一个切分统计模型的例子。

表4

子音节	子音节	相邻概率
子音节	子音节	相邻概率	a	la	0.285714
a	ri	0.142857	a	la	0.285714
a	ri	0.142857	...	...	...
ae	ro	0.142857	...	...	...
ae	ro	0.142857	...	...	...

在此，需要指出，切分统计模型中子音节对出现概率的计算方法，可以有多种，例如，在本实施例中，如上面表4所示，采用的是该子音节对的出现次数除以该子音节对的第一个子音节的总出现次数所得到的比率。当然，也可以采用其它方式，例如，该子音节对的出现次数除以该子音节对的第二个子音节的总出现次数所得到的比率，或者该子音节对的出现次数除以该子音节对的第一和第二个子音节的总出现次数所得到的比率，等等。

直到步骤125，本实施例的方法已经可以获得(训练)一个切分统计模型。在该切分统计模型中记录有从语料中分析得到的多音节语言的子音节之间的相邻关系及其出现概率。

进而，在步骤135，如果希望利用切分统计模型再次切分错误集合中的多音节语言的专用词，则进行到步骤140；否则，进行到步骤145，处理过程结束。

在步骤140，利用切分统计模型，来对错误集合中的多音节语言的专用词进行切分。具体地，根据切分统计模型中各个子音节对的出现概率，使用搜索算法，计算出与上述多音节语言的专用词相对应的概率最高的子音节序列。在本实施例中，采用的是维特比算法来进行上述搜索。关于维特比算法，可以参考以下文献：AJ Viterbi所著的“Error bounds forconvolutional codes and an asymptotically optimum decoding algorithm”发表于IEEE Trans.Inform.Theory，IT-13(2)，PP.260-269，1967。

另外，也可以采用其它搜索算法，例如，A*算法、深度搜索算法和广度搜索算法等等。也可以组合使用上述这些算法。

接着，返回到步骤115，判断利用切分统计模型进行的切分是否正确，并且将正确的结果累加到正确集合中(步骤120)，将错误的结果集中到错误集合中(步骤130)，重复执行步骤125。

这样，在本实施例中，可以反复地利用切分统计模型来对错误集合进行切分，进一步对切分统计模型进行自适应训练。

图2是根据本发明一个实施例的训练切分统计模型和音译模型的方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，在附图中标以相同的标号，并适当的省略其说明。

如图2所示，本实施例的步骤105～140与前面图1所示的实施例相同。本实施例的区别在于，在步骤135的判断为否时，进行步骤205。

在步骤205，根据上述判断为切分正确的多音节语言的专用名和双语专用名列表中相应的单音节语言的专用名，训练音译模型。具体地，根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节与上述对应的单音节语言的专用名的音节的对应关系，计算各个子音节/音节对的转换概率；将上述子音节/音节对及其转换概率记录在上述音译模型中。下面的表5示出了一个音译模型的例子。

表5

汉语音节	英文子音节	概率
汉语音节	英文子音节	概率	AI	a	0.0261541
AI	ae	0.00149677	AI	a	0.0261541
AI	ae	0.00149677	AI	ah	0.000157555
AI	ai	0.0435639	AI	ah	0.000157555
AI	ai	0.0435639	...	...	...
WU	gu	0.0140743	...	...	...
WU	gu	0.0140743	WU	u	0.52278
...	...	...	WU	u	0.52278

与前面计算切分概率的情况类似，音译模型中上述子音节/音节对转换概率的计算方法，可以有多种，例如，在本实施例中，如上面表5所示，采用的是该子音节/音节对的出现次数除以多音节语言的该子音节的总出现次数所得到的比率。当然，也可以采用其它方式，例如，该子音节/音节对的出现次数除以多音节语言的该子音节和单音节语言的该音节的总出现次数所得到的比率，或者该子音节/音节对的出现次数除以单音节语言的该音节的总出现次数所得到的比率，等等。

通过以上说明可知，通过本实施例的方法，可以利用双语专用名列表作为语料，同时获得(训练)切分统计模型和音译模型。在该切分统计模型中记录有从语料中分析得到的多音节语言的子音节之间的相邻关系及其概率。在音译模型中记录有从语料中分析得到的多音节语言的子音节与单音节语言的音节之间的对应关系及其概率(或称“转换关系”和“转换概率”)。

图3是根据本发明一个实施例的从单音节语言到多音节语言的音译方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当地省略其说明。

如图3所示，首先在步骤305，获得与待译的单音节语言的词对应的音节序列。在本实施例中，利用发音词典(在本实施例中，即，汉字拼音词典)将待译的汉语词转换为相应的音节序列。下面的表6示出了一个拼音词典的例子。

表6

汉字	拼音/音节
汉字	拼音/音节	啊	a
阿	a	啊	a
阿	a	埃	ai
...	...	埃	ai
...	...	豫	yu
驭	yu	豫	yu
驭	yu	鸳	yuan
...	...	鸳	yuan

在此，需要指出，利用发音词典将待译的汉语词转换为相应的音节序列有可能不是必需的，例如，在单音节语言的待译词是日语片假名的情况下，则可以直接使用片假名序列作为音节序列。

接着，在步骤310，利用音译模型获得与上述音节序列中每个音节对应的多音节语言的子音节及其转换概率。关于音译模型的内容在前面实施例已经进行了说明，在此不再重复。

接着，在步骤315，利用切分统计模型，搜索与上述音节序列对应的概率最高的子音节序列。与前面实施例中的搜索过程类似，在本实施例中，根据切分统计模型中各个子音节对的出现概率，以及前面从音译模型中得到的音节/子音节对的转换概率，使用搜索算法，计算出与上述单音节语言的词相对应的概率最高的子音节序列。在本实施例中，采用的是维特比算法来进行上述搜索。但是，也可以采用其它搜索算法，例如，A*算法、深度搜索算法和广度搜索算法等等。也可以组合使用上述这些算法。

最后，在步骤320，将上述子音节序列作为多音节语言的音译结果输出。

通过前面的说明可知，采用本实施例的从单音节语言到多音节语言的音译方法，可以高效率地实现从单音节语言到多音节语言的自动音译，并且，由于不需要使用语音合成来完成音译处理，因此可靠性和准确性得到提高。

进而，由于在音译模型中记录了多音节语言的“子音节”与单音节语言的“音节”的转换关系及其转换概率，因此，本发明的自动音译技术不仅可以实现从单音节语言到多音节语言的自动音译，也可以实现从多音节语言到单音节语言的自动音译

图4是根据本发明一个实施例的从多音节语言到单音节语言的自动音译方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，在附图中标以相同的标号，并适当的省略其说明。

如图4所示，首先，在步骤405，将待译的多音节语言的词切分为子音节序列。具体地，可以采用切分规则来进行切分，也可以利用切分统计模型来进行切分，在前面实施例中已经进行了说明，在此不再重复。

接着，在步骤410，利用音译模型获得与该子音节序列中每个子音节对应的单音节语言的音节及其转换概率。

接着，在步骤415，利用发音词典，获得与单音节语言的每个音节对应的字。

接着，在步骤420，利用单音节语言的语言模型，搜索与上述子音节序列对应的概率最高的上述单音节语言的字序列。在此，单音节语言的语言模型与前面所述的多音节语言的切分统计模型类似，在其中记录有单音节语言的各个音节(或者字)之间的相邻关系及其概率。下面的表7示出了一个语言模型的例子。

表7

字/音节	字/音节	相邻概率
字/音节	字/音节	相邻概率	常	德	0.142857
常	藤	0.142857	常	德	0.142857
常	藤	0.142857	常	喜	0.285714
...	...	...	常	喜	0.285714
...	...	...	小	奥	0.00680272
小	八	0.0204082	小	奥	0.00680272
小	八	0.0204082	...	...	...

与前面所述的多音节语言的切分统计模型类似，单音节语言的语言模型中音节对(字对)出现概率的计算方法，可以有多种，例如，在本实施例中，采用的是该字对的出现次数除以该字对的第一个字的总出现次数所得到的比率。当然，也可以采用其它方式，例如，该字对的出现次数除以该字对的第二个字的总出现次数所得到的比率，或者该字对的出现次数除以该字对的第一和第二个字的总出现次数所得到的比率，等等。

在步骤420中，根据语言模型中各个字对的出现概率，以及前面从音译模型中得到的音节/子音节对的转换概率，使用搜索算法，计算出与上述多音节语言的词相对应的概率最高的字序列。与前面实施例中的搜索过程类似，在本实施例中，采用的是维特比算法来进行上述搜索。但是，也可以采用其它搜索算法，例如，A*算法、深度搜索算法和广度搜索算法等等。也可以组合使用上述这些算法。

最后，在步骤425，将上述字序列作为单音节语言的音译结果输出。

通过前面的说明可知，采用本实施例的从多音节语言到单音节语言的音译方法，可以高效率地实现从多音节语言到单音节语言的自动音译，并且，由于不需要使用语音合成来完成音译处理，因此可靠性和准确性得到提高。

图5是根据本发明另一个实施例的从多音节语言到单音节语言的自动音译方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，在附图中标以相同的标号，并适当的省略其说明。

如图5所示，本实施例的方法与前面实施例的区别在于步骤505～515。在步骤505，根据切分统计模型，使用搜索算法，计算出与多音节语言的词相对应的概率最高的子音节序列。

然后，在步骤510，判断前面步骤505中计算的最高概率是否大于一个预定的阈值。如果概率大于该阈值，则进行到步骤410，后续处理与前面图4描述的实施例相同；否则，进行到步骤515。

在步骤515，使用切分规则对该词进行切分，然后再进行步骤410和后续处理。

这样，在本实施例中，当利用切分统计模型无法得到可靠性足够高的切分结果时，则采用切分规则进行切分，从而可以弥补切分统计模型的不足，保证基本的准确性。

图6是根据本发明一个实施例的训练切分统计模型和音译模型的装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，将适当的省略其说明。

如图6所示，本实施例的训练切分统计模型和音译模型的装置600包括：语料输入单元601，用于作为语料输入双语专用名列表；规则切分单元602，用于使用切分规则将上述双语专用名列表中的上述多音节语言的专用名切分为子音节序列；切分判断单元603，用于根据上述双语专用名列表中的对应的单音节语言的专用名，判断对多音节语言的专用名的切分是否正确；切分统计模型训练单元604，用于根据判断为正确的切分结果训练上述切分统计模型。其中，切分统计模型训练单元604包含切分概率计算单元6041，用于根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节之间的相邻关系，计算各个相邻的子音节对的出现概率。这些子音节对和计算出的子音节对的出现概率被记录在切分统计模型605中。

如图6所示，装置600还包括：模型切分单元606，用于利用上述切分统计模型将上述判断为切分不正确的上述多音节语言的专用名切分为子音节序列；音译模型训练单元607，用于根据上述判断为切分正确的多音节语言的专用名和上述双语专用名列表中相应的单音节语言的专用名，训练上述音译模型。其中，模型切分单元606包括搜索单元6061，用于根据上述切分统计模型，使用搜索算法，计算出将上述多音节语言的词切分后概率最高的子音节序列。音译模型训练单元607包括转换概率计算单元6071，用于根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节与上述对应的单音节语言的专用名的音节的对应关系，计算各个子音节/音节对的转换概率。这些子音节/音节对和计算出的子音节/音节对的转换概率(出现概率)被记录在音译模型608中。

关于切分统计模型和音译模型的结构、对于多音节语言的词的切分以及搜索方式等，在前面已经进行了详细的说明，在此不再重复。

本实施例中的训练切分统计模型和音译模型的装置600及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的训练切分统计模型和音译模型的装置600，操作上可以实现前面结合图1和2描述的实施例的训练切分统计模型和/或音译模型的方法。

图7是根据本发明一个实施例的从单音节语言到多音节语言的自动音译装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，将适当的省略其说明。

如图7所示，本实施例的从单音节语言到多音节语言的自动音译装置700包括：音节序列获得单元701，用于获得与需要音译的单音节语言的词对应的音节序列；发音词典704，其中记录有上述单音节语言的字的发音，例如，汉语拼音；音译模型703，包含单音节语言的音节和多音节语言的子音节之间的转换关系及其转换概率；子音节转换单元702，用于利用音译模型703获得与音节序列中每个音节对应的上述多音节语言的子音节及其转换概率；切分统计模型706，其中包含多音节语言的子音节之间的切分概率；搜索单元705，用于利用切分统计模型706和由子音节转换单元702获得的与音节序列中每个音节对应的上述多音节语言的子音节及其转换概率，搜索与由音节序列获得单元701获得的音节序列对应的概率最高的子音节序列，作为音译结果。

关于切分统计模型和音译模型的结构、对于音节和子音节的转换以及搜索方式等，在前面已经进行了详细的说明，在此不再重复。

本实施例中的从单音节语言到多音节语言的自动音译装置700及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的从单音节语言到多音节语言的自动音译装置700，操作上可以实现前面结合图3描述的实施例的从单音节语言到多音节语言的自动音译方法。

图8是根据本发明一个实施例的从多音节语言到单音节语言的自动音译装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，将适当的省略其说明。

如图8所示，本实施例的从多音节语言到单音节语言的自动音译装置800包括：子音节切分单元801，用于将需要音译的多音节语言的词切分为子音节序列；音译模型803，包含单音节语言的音节和多音节语言的子音节之间的转换关系及其转换概率；音节转换单元802，用于利用音译模型803获得与由子音节切分单元801切分得到的子音节序列中每个子音节对应的单音节语言的音节及其转换概率；字转换单元806，用于获得与单音节语言的每个音节对应的字；发音词典807，其中记录有上述单音节语言的字的发音，例如，汉语拼音；语言模型804，包含单音节语言的字与字之间的相邻概率；搜索单元805，利用语言模型804和由音节转换单元802获得的与子音节序列中每个子音节对应的单音节语言的音节及其转换概率，搜索与子音节序列对应的概率最高的单音节语言的字序列，作为音译结果。

其中，子音节切分单元801还可以包括：切分统计模型8011，其中包含多音节语言的子音节之间的切分概率；模型切分单元8012，用于根据上述切分统计模型，使用搜索算法，计算出语多音节语言的词相对应的概率最高的子音节序列；以及规则切分单元8013，用于使用切分规则将多音节语言的词切分为子音节序列。

关于切分统计模型、语言模型和音译模型的结构、多音节语言的词的切分、音节和子音节的转换以及搜索方式等，在前面已经进行了详细的说明，在此不再重复。

本实施例中的从多音节语言到单音节语言的自动音译装置800及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的从多音节语言到单音节语言的自动音译装置800，操作上可以实现前面结合图4和5描述的实施例的从多音节语言到单音节语言的自动音译方法。

以上虽然通过一些示例性的实施例对本发明的训练切分统计模型和音译模型的方法和装置、从单音节语言到多音节语言的音译以及从多音节语言到单音节语言的音译方法和装置进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

Claims

1.一种训练切分统计模型的方法，上述切分统计模型被用于一种单音节语言和一种多音节语言之间的音译、并且包含上述多音节语言的子音节的切分概率，所述方法包括：

输入双语专用名列表作为语料，该双语专用名列表包含多个上述多音节语言的专用名和各自对应的上述单音节语言的专用名；

使用切分规则将上述双语专用名列表中的每个上述多音节语言的专用名切分为子音节序列；

根据上述双语专用名列表中的对应的单音节语言的专用名，判断上述切分是否正确；以及

根据判断为正确的切分结果训练上述切分统计模型。

2.根据权利要求1所述的训练切分统计模型的方法，其中，判断上述切分是否正确的步骤包括：

判断上述多音节语言的上述专用名被切分后的子音节的个数是否与上述双语专用名列表中的对应的单音节语言的专用名的音节个数相等，如果相等则判断为上述切分是正确的，否则判断为上述切分是不正确的。

3.根据权利要求1或2所述的训练切分统计模型的方法，进一步包括：

利用上述切分统计模型将上述判断为切分不正确的上述多音节语言的专用名切分为子音节序列；以及

重复上述判断和训练切分统计模型的步骤。

4.根据权利要求1所述的训练切分统计模型的方法，其中，训练上述切分统计模型的步骤包括：

根据上述被判断为切分正确的多音节语言的上述专用名被切分后子音节序列中的子音节之间的相邻关系，计算各个相邻的子音节对的出现概率；

将上述子音节对及其出现概率记录在上述切分统计模型中。

5.一种训练切分统计模型和音译模型的方法，上述切分统计模型和上述音译模型被用于一种单音节语言和一种多音节语言之间的音译，其中上述切分统计模型包含上述多音节语言的子音节的切分概率，上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率，所述方法包括：

利用上述权利要求1～4的任意一项所述的方法，训练上述切分统计模型；

根据上述判断为切分正确的多音节语言的专用名和上述双语专用名列表中相应的单音节语言的专用名，训练上述音译模型。

6.根据权利要求5所述的训练切分统计模型和音译模型的方法，其中，训练上述音译模型的步骤包括：

根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节序列中的每个子音节与上述对应的单音节语言的专用名中的音节的对应关系，计算各个子音节/音节对的转换概率；

将上述子音节/音节对及其转换概率记录在上述音译模型中。

7.一种训练切分统计模型的装置，上述切分统计模型被用于一种单音节语言和一种多音节语言之间的音译、并且包含上述多音节语言的子音节的切分概率，所述装置包括：

语料输入单元，用于作为语料输入双语专用名列表，该双语专用名列表包含多个上述多音节语言的专用名和各自对应的上述单音节语言的专用名；

规则切分单元，用于使用切分规则将上述双语专用名列表中的上述多音节语言的专用名切分为子音节序列；

切分判断单元，用于根据上述双语专用名列表中的对应的单音节语言的专用名，判断对于上述多音节语言的专用名的切分是否正确；以及

切分统计模型训练单元，用于根据判断为正确的切分结果训练上述切分统计模型。

8.根据权利要求7所述的训练切分统计模型的装置，其中，上述切分判断单元判断上述多音节语言的上述专用名被切分后的子音节的个数是否与上述双语专用名列表中的对应的单音节语言的专用名的音节个数相等，如果相等则判断为上述切分是正确的，否则判断为上述切分是不正确的。

9.根据权利要求7或8所述的训练切分统计模型的装置，进一步包括：

模型切分单元，用于利用上述切分统计模型将上述判断为切分不正确的上述多音节语言的专用名切分为子音节序列。

10.根据权利要求7所述的训练切分统计模型的装置，其中，切分统计模型训练单元包括：

切分概率计算单元，用于根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节序列中的子音节之间的相邻关系，计算各个相邻的子音节对的出现概率。

11.根据上述权利要求7～10的任意一项所述的训练切分统计模型的装置，进一步包括：

音译模型训练单元，用于根据上述判断为切分正确的多音节语言的专用名和上述双语专用名列表中相应的单音节语言的专用名，训练音译模型，该音译模型被用于一种单音节语言和一种多音节语言之间的音译并且包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率。

12.根据权利要求11所述的训练切分统计模型的装置，其中，上述音译模型训练单元进一步包括：

转换概率计算单元，用于根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节序列中的子音节与上述对应的单音节语言的专用名的音节的对应关系，计算各个子音节/音节对的转换概率。