CN100483399C - 训练音译模型、切分统计模型的方法和装置 - Google Patents

训练音译模型、切分统计模型的方法和装置 Download PDF

Info

Publication number
CN100483399C
CN100483399C CNB2005101081859A CN200510108185A CN100483399C CN 100483399 C CN100483399 C CN 100483399C CN B2005101081859 A CNB2005101081859 A CN B2005101081859A CN 200510108185 A CN200510108185 A CN 200510108185A CN 100483399 C CN100483399 C CN 100483399C
Authority
CN
China
Prior art keywords
mentioned
language
cutting
multisyllable
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005101081859A
Other languages
English (en)
Other versions
CN1945562A (zh
Inventor
王海峰
郭玉箐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CNB2005101081859A priority Critical patent/CN100483399C/zh
Priority to US11/539,435 priority patent/US7853444B2/en
Priority to JP2006276947A priority patent/JP4886459B2/ja
Publication of CN1945562A publication Critical patent/CN1945562A/zh
Application granted granted Critical
Publication of CN100483399C publication Critical patent/CN100483399C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Abstract

本发明提供了训练切分统计模型和音译模型的方法和装置、从单音节语言到多音节语言的音译以及从多音节语言到单音节语言的音译方法和装置。从单音节语言到多音节语言的音译方法,包括:获得与需要音译的上述单音节语言的词对应的音节序列;利用音译模型获得与上述音节序列中每个音节对应的上述多音节语言的子音节及其概率,其中,上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其概率;利用切分统计模型,搜索与上述音节序列对应的概率最高的子音节序列,作为音译结果,其中,上述切分统计模型包含上述多音节语言的子音节之间的切分概率。

Description

训练音译模型、切分统计模型的方法和装置
技术领域
本发明涉及信息处理技术,具体地,涉及利用计算机进行音译的技术和训练音译过程中使用的音译模型和切分模型的技术。
背景技术
所谓“音译”就是把一种语言中的词汇翻译为另一种语言中与之发音相近的词汇,例如,专有名词的翻译通常使用音译方法。以往,人们往往通过使用双语词典对专名进行翻译。这种双语词典(例如,双语专用名词典)是由语言学家或者相关领域的专家编写的,具有很高的准确性。
但是,再大规模的双语词典也不可能涵盖所有的词汇,人们经常会遇到在词典中查不到想查的词的情况。而且,新的词汇随着时代和社会的发展而不断涌现,更加重了这种情况。所以一直以来,人们需要一种自动音译的方法和装置,来实现两种语言之间自动的音译。这种自动音译技术,对于机器翻译、跨语言信息检索和信息抽取也都具有重要意义。
目前自动音译技术,例如,由“Paola Virga”和“Sanjeev Khudanpur”所著的“Transliteration of Proper Names in Cross-Lingual InformationRetrieval”(发表于Proceedings of 41st ACL Workshop on Multilingualand Mixed-language Named Entity Recognition,pp.57-64,2003)。这篇文章描述了一种基于统计机器翻译技术的英汉音译方法。具体步骤如下面表1所示,包括:
(1)使用CMU开发的Festival语音合成系统将英文单词转换为表示发音的音素序列
(2)使用IBM翻译模型将英文的音素序列转换为表示汉字发音的声母和韵母序列
(3)将声母和韵母序列合并为汉语拼音音节
(4)再次使用IBM翻译模型将汉语拼音转换为汉字
(5)使用CMU开发的语言模型将汉字合并为汉语音译词
表1
Figure C200510108185D00061
上述现有技术的自动音译方法存在两个问题:
(1)需要借助语音合成系统将英文单词转换为发音序列,而由于现有的语音合成技术并不成熟,这样做会在音译过程中引入额外的错误;而借助发音词典标注英文单词发音的方法,由于词典规模的限制,无法解决词典以外的单词发音标注的问题,特别是对于需要音译的专用名词和一些新出现的词汇,这种问题更加突出。
(2)英文是一种多音节的语言(即一个英文单词通常含有多个音节),而汉语是单音节语言(即一个汉字就是一个音节),无论是英文字母、音素、音节还是单词,都无法与中文的自然单位——汉字对应。因此上述文章中的方法仅适用于英汉音译,而不适用于汉英音译。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了训练切分统计模型和音译模型的方法和装置,以及从单音节语言到多音节语言和从多音节语言到单音节语言的音译方法和装置。
根据本发明的一个方面,提供了一种训练切分统计模型的方法,上述切分统计模型被用于一种单音节语言和一种多音节语言之间的音译、并且包含上述多音节语言的子音节的切分概率,所述方法包括:输入双语专用名列表作为语料,该双语专用名列表包含多个上述多音节语言的专用名和各自对应的上述单音节语言的专用名;使用切分规则将上述双语专用名列表中的每个上述多音节语言的专用名切分为子音节序列;根据上述双语专用名列表中的对应的单音节语言的专用名,判断上述切分是否正确;以及根据判断为正确的切分结果训练上述切分统计模型。
根据本发明的另一个方面,提供了一种训练切分统计模型和音译模型的方法,上述切分统计模型和上述音译模型被用于一种单音节语言和一种多音节语言之间的音译,其中上述切分统计模型包含上述多音节语言的子音节的切分概率,上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率,所述方法包括:利用前面所述的方法,训练上述切分统计模型;根据上述判断为切分正确的多音节语言的专用名和上述双语专用名列表中相应的单音节语言的专用名,训练上述音译模型。
根据本发明的另一个方面,提供了一种从单音节语言到多音节语言的音译方法,包括:获得与需要音译的上述单音节语言的词对应的音节序列;利用音译模型获得与上述音节序列中每个音节对应的上述多音节语言的子音节及其转换概率,其中,上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率;利用切分统计模型,搜索与上述音节序列对应的概率最高的子音节序列,作为音译结果,其中,上述切分统计模型包含上述多音节语言的子音节之间的切分概率。
根据本发明的另一个方面,提供了一种从多音节语言到单音节语言的音译方法,包括:将需要音译的上述多音节语言的词切分为子音节序列;利用音译模型获得与上述子音节序列中每个子音节对应的上述单音节语言的音节及其转换概率,其中,上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率;获得与上述单音节语言的每个音节对应的字;利用语言模型,搜索与上述子音节序列对应的概率最高的上述单音节语言的字序列,作为音译结果,其中,上述语言模型包含上述单音节语言的字与字之间的相邻概率。
根据本发明的另一个方面,提供了一种训练切分统计模型的装置,上述切分统计模型被用于一种单音节语言和一种多音节语言之间的音译、并且包含上述多音节语言的子音节的切分概率,所述装置包括:语料输入单元,用于作为语料输入双语专用名列表,该双语专用名列表包含多个上述多音节语言的专用名和各自对应的上述单音节语言的专用名;规则切分单元,用于使用切分规则将上述双语专用名列表中的上述多音节语言的专用名切分为子音节序列;切分判断单元,用于根据上述双语专用名列表中的对应的单音节语言的专用名,判断对于上述多音节语言的专用名的切分是否正确;以及切分统计模型训练单元,用于根据判断为正确的切分结果训练上述切分统计模型。
根据本发明的另一个方面,提供了一种从单音节语言到多音节语言的自动音译装置,包括:音节序列获得单元,用于获得与需要音译的上述单音节语言的词对应的音节序列;音译模型,包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率;子音节转换单元,用于利用上述音译模型获得与上述音节序列中每个音节对应的上述多音节语言的子音节及其转换概率;切分统计模型,包含上述多音节语言的子音节之间的切分概率;搜索单元,用于利用上述切分统计模型以及由上述子音节转换单元获得的与上述音节序列中每个音节对应的上述多音节语言的子音节及其转换概率,搜索与上述音节序列对应的概率最高的子音节序列,作为音译结果。
根据本发明的另一个方面,提供了一种从多音节语言到单音节语言的自动音译装置,包括:子音节切分单元,用于将需要音译的上述多音节语言的词切分为子音节序列;音译模型,包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率;音节转换单元,用于利用上述音译模型获得与上述子音节序列中每个子音节对应的上述单音节语言的音节及其转换概率;字转换单元,用于获得与上述单音节语言的每个音节对应的字;语言模型,包含上述单音节语言的字与字之间的相邻概率;搜索单元,利用语言模型以及由上述音节转换单元获得的与上述子音节序列中每个子音节对应的上述单音节语言的音节及其转换概率,搜索与上述子音节序列对应的概率最高的上述单音节语言的字序列,作为音译结果。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明一个实施例的训练切分统计模型的方法的流程图;
图2是根据本发明一个实施例的训练切分统计模型和音译模型的方法的流程图;
图3是根据本发明一个实施例的从单音节语言到多音节语言的音译方法的流程图;
图4是根据本发明一个实施例的从多音节语言到单音节语言的音译方法的流程图;
图5是根据本发明另一个实施例的从多音节语言到单音节语言的音译方法的流程图;
图6是根据本发明一个实施例的训练切分统计模型和音译模型的装置的框图;
图7是根据本发明一个实施例的从单音节语言到多音节语言的自动音译装置的框图;以及
图8是根据本发明一个实施例的从多音节语言到单音节语言的自动音译装置的框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
为了避免现有技术中存在的对多音节语言的词汇标注发音引起的额外错误,本发明采用直接使用多音节语言的词,例如,英文单词,进行音译的方式。为此,在本发明中,提出“子音节”(sub-syllable)的概念。对于一种多音节语言,例如英文来说,子音节是介于英文字母和音节之间的一个单位,它与对应的单音节语言,例如中文,的词的音节一一对应,如以下表2所示。
表2
Figure C200510108185D00101
本发明的自动音译方法,以单音节语言的音节和多音节语言的子音节为基本单位,利用统计模型来实现双向音译。在本说明书中,以英文作为多音节语言的例子,以汉语作为单音节语言的例子,对本发明的各个实施例进行描述。应当指出,对于其它的单音节语言和多音节语言,例如,汉语-法语、汉语-德语、日语-英语、日语-德语等等,本发明也同样适用。
图1是根据本发明一个实施例的训练切分统计模型的方法的流程图。利用本实施例的方法训练的切分统计模型将被用于后面结合其它实施例描述的音译方法和装置,其中包含有多音节语言的子音节之间的切分概率。
如图1所示,首先在步骤105,输入双语专用名列表作为语料,该双语专用名列表包含多个多音节语言的专用名和各自对应的单音节语言的专用名。具体地,例如,可以将由语言学家或者相关领域的专家编写的双语专用名词典作为语料。下面的表3示出了一个英汉双语专用名列表的例子。
表3
 
英文专名 中文译名
MARY 玛丽
PATRICIA 帕格丽夏
ELIZABETH 伊丽莎白
... ...
SUSAN 苏珊
MARGARET 玛格丽特
DOROTHY 多萝西
... ...
接着,在步骤110,使用切分规则将双语专用名列表中的每个多音节语言的专用名切分为子音节的序列。以下,是本实施例中所使用的切分规则的一部分片段。
//切分含四个字母的元音
如果"augh"位于词中,则切分为子音节;
如果"ough"位于词中或词尾,则切分为子音节;
……
//切分含三个字母的元音
如果"ore"位于词尾,则切分为子音节;
……
//切分含两个字母的元音
如果"ai"位于词首或词中,则切分为子音节;
如果"ey"位于词尾,则切分为子音节;
//切分元音字母
将单词中的元音字母"a","e","i","o","u","y"切分为子音节
//其他规则
将"sh","th","tch","ph","ch","wh",切分为一个辅音单元;
将元音字母和它左侧相邻的辅音字母,合并为一个子音节;
……
接着,在步骤115,根据双语专用名列表中的相对应的单音节语言的专用名,判断上述切分是否正确。具体地,在本实施例中,判断多音节语言的专用名被切分后的子音节的个数是否与双语专用名列表中的对应的单音节语言的专用名的音节个数相等,如果相等则判断为上述切分是正确的,否则判断为上述切分是不正确的。将那些正确的切分结果,集中到正确切分集合中(步骤120),而将那些错误的切分结果,集中到错误切分集合中(步骤130)。
然后,在步骤125,根据正确的切分结果训练上述切分统计模型。具体地,在本实施例中,根据切分正确的多音节语言的专用名被切分后的子音节之间的相邻关系,计算各个相邻的子音节对的出现概率,然后将上述子音节对及其出现概率记录在上述切分统计模型中。下面的表4示出了一个切分统计模型的例子。
表4
 
子音节 子音节 相邻概率
a la 0.285714
a ri 0.142857
... ... ...
ae ro 0.142857
... ... ...
在此,需要指出,切分统计模型中子音节对出现概率的计算方法,可以有多种,例如,在本实施例中,如上面表4所示,采用的是该子音节对的出现次数除以该子音节对的第一个子音节的总出现次数所得到的比率。当然,也可以采用其它方式,例如,该子音节对的出现次数除以该子音节对的第二个子音节的总出现次数所得到的比率,或者该子音节对的出现次数除以该子音节对的第一和第二个子音节的总出现次数所得到的比率,等等。
直到步骤125,本实施例的方法已经可以获得(训练)一个切分统计模型。在该切分统计模型中记录有从语料中分析得到的多音节语言的子音节之间的相邻关系及其出现概率。
进而,在步骤135,如果希望利用切分统计模型再次切分错误集合中的多音节语言的专用词,则进行到步骤140;否则,进行到步骤145,处理过程结束。
在步骤140,利用切分统计模型,来对错误集合中的多音节语言的专用词进行切分。具体地,根据切分统计模型中各个子音节对的出现概率,使用搜索算法,计算出与上述多音节语言的专用词相对应的概率最高的子音节序列。在本实施例中,采用的是维特比算法来进行上述搜索。关于维特比算法,可以参考以下文献:AJ Viterbi所著的“Error bounds forconvolutional codes and an asymptotically optimum decoding algorithm”发表于IEEE Trans.Inform.Theory,IT-13(2),PP.260-269,1967。
另外,也可以采用其它搜索算法,例如,A*算法、深度搜索算法和广度搜索算法等等。也可以组合使用上述这些算法。
接着,返回到步骤115,判断利用切分统计模型进行的切分是否正确,并且将正确的结果累加到正确集合中(步骤120),将错误的结果集中到错误集合中(步骤130),重复执行步骤125。
这样,在本实施例中,可以反复地利用切分统计模型来对错误集合进行切分,进一步对切分统计模型进行自适应训练。
图2是根据本发明一个实施例的训练切分统计模型和音译模型的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,在附图中标以相同的标号,并适当的省略其说明。
如图2所示,本实施例的步骤105~140与前面图1所示的实施例相同。本实施例的区别在于,在步骤135的判断为否时,进行步骤205。
在步骤205,根据上述判断为切分正确的多音节语言的专用名和双语专用名列表中相应的单音节语言的专用名,训练音译模型。具体地,根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节与上述对应的单音节语言的专用名的音节的对应关系,计算各个子音节/音节对的转换概率;将上述子音节/音节对及其转换概率记录在上述音译模型中。下面的表5示出了一个音译模型的例子。
表5
 
汉语音节 英文子音节 概率
AI a 0.0261541
AI ae 0.00149677
AI ah 0.000157555
AI ai 0.0435639
... ... ...
WU gu 0.0140743
WU u 0.52278
... ... ...
与前面计算切分概率的情况类似,音译模型中上述子音节/音节对转换概率的计算方法,可以有多种,例如,在本实施例中,如上面表5所示,采用的是该子音节/音节对的出现次数除以多音节语言的该子音节的总出现次数所得到的比率。当然,也可以采用其它方式,例如,该子音节/音节对的出现次数除以多音节语言的该子音节和单音节语言的该音节的总出现次数所得到的比率,或者该子音节/音节对的出现次数除以单音节语言的该音节的总出现次数所得到的比率,等等。
通过以上说明可知,通过本实施例的方法,可以利用双语专用名列表作为语料,同时获得(训练)切分统计模型和音译模型。在该切分统计模型中记录有从语料中分析得到的多音节语言的子音节之间的相邻关系及其概率。在音译模型中记录有从语料中分析得到的多音节语言的子音节与单音节语言的音节之间的对应关系及其概率(或称“转换关系”和“转换概率”)。
图3是根据本发明一个实施例的从单音节语言到多音节语言的音译方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当地省略其说明。
如图3所示,首先在步骤305,获得与待译的单音节语言的词对应的音节序列。在本实施例中,利用发音词典(在本实施例中,即,汉字拼音词典)将待译的汉语词转换为相应的音节序列。下面的表6示出了一个拼音词典的例子。
表6
 
汉字 拼音/音节
a
a
ai
... ...
yu
yu
yuan
... ...
在此,需要指出,利用发音词典将待译的汉语词转换为相应的音节序列有可能不是必需的,例如,在单音节语言的待译词是日语片假名的情况下,则可以直接使用片假名序列作为音节序列。
接着,在步骤310,利用音译模型获得与上述音节序列中每个音节对应的多音节语言的子音节及其转换概率。关于音译模型的内容在前面实施例已经进行了说明,在此不再重复。
接着,在步骤315,利用切分统计模型,搜索与上述音节序列对应的概率最高的子音节序列。与前面实施例中的搜索过程类似,在本实施例中,根据切分统计模型中各个子音节对的出现概率,以及前面从音译模型中得到的音节/子音节对的转换概率,使用搜索算法,计算出与上述单音节语言的词相对应的概率最高的子音节序列。在本实施例中,采用的是维特比算法来进行上述搜索。但是,也可以采用其它搜索算法,例如,A*算法、深度搜索算法和广度搜索算法等等。也可以组合使用上述这些算法。
最后,在步骤320,将上述子音节序列作为多音节语言的音译结果输出。
通过前面的说明可知,采用本实施例的从单音节语言到多音节语言的音译方法,可以高效率地实现从单音节语言到多音节语言的自动音译,并且,由于不需要使用语音合成来完成音译处理,因此可靠性和准确性得到提高。
进而,由于在音译模型中记录了多音节语言的“子音节”与单音节语言的“音节”的转换关系及其转换概率,因此,本发明的自动音译技术不仅可以实现从单音节语言到多音节语言的自动音译,也可以实现从多音节语言到单音节语言的自动音译
图4是根据本发明一个实施例的从多音节语言到单音节语言的自动音译方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,在附图中标以相同的标号,并适当的省略其说明。
如图4所示,首先,在步骤405,将待译的多音节语言的词切分为子音节序列。具体地,可以采用切分规则来进行切分,也可以利用切分统计模型来进行切分,在前面实施例中已经进行了说明,在此不再重复。
接着,在步骤410,利用音译模型获得与该子音节序列中每个子音节对应的单音节语言的音节及其转换概率。
接着,在步骤415,利用发音词典,获得与单音节语言的每个音节对应的字。
接着,在步骤420,利用单音节语言的语言模型,搜索与上述子音节序列对应的概率最高的上述单音节语言的字序列。在此,单音节语言的语言模型与前面所述的多音节语言的切分统计模型类似,在其中记录有单音节语言的各个音节(或者字)之间的相邻关系及其概率。下面的表7示出了一个语言模型的例子。
表7
 
字/音节 字/音节 相邻概率
0.142857
0.142857
0.285714
... ... ...
0.00680272
0.0204082
... ... ...
与前面所述的多音节语言的切分统计模型类似,单音节语言的语言模型中音节对(字对)出现概率的计算方法,可以有多种,例如,在本实施例中,采用的是该字对的出现次数除以该字对的第一个字的总出现次数所得到的比率。当然,也可以采用其它方式,例如,该字对的出现次数除以该字对的第二个字的总出现次数所得到的比率,或者该字对的出现次数除以该字对的第一和第二个字的总出现次数所得到的比率,等等。
在步骤420中,根据语言模型中各个字对的出现概率,以及前面从音译模型中得到的音节/子音节对的转换概率,使用搜索算法,计算出与上述多音节语言的词相对应的概率最高的字序列。与前面实施例中的搜索过程类似,在本实施例中,采用的是维特比算法来进行上述搜索。但是,也可以采用其它搜索算法,例如,A*算法、深度搜索算法和广度搜索算法等等。也可以组合使用上述这些算法。
最后,在步骤425,将上述字序列作为单音节语言的音译结果输出。
通过前面的说明可知,采用本实施例的从多音节语言到单音节语言的音译方法,可以高效率地实现从多音节语言到单音节语言的自动音译,并且,由于不需要使用语音合成来完成音译处理,因此可靠性和准确性得到提高。
图5是根据本发明另一个实施例的从多音节语言到单音节语言的自动音译方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,在附图中标以相同的标号,并适当的省略其说明。
如图5所示,本实施例的方法与前面实施例的区别在于步骤505~515。在步骤505,根据切分统计模型,使用搜索算法,计算出与多音节语言的词相对应的概率最高的子音节序列。
然后,在步骤510,判断前面步骤505中计算的最高概率是否大于一个预定的阈值。如果概率大于该阈值,则进行到步骤410,后续处理与前面图4描述的实施例相同;否则,进行到步骤515。
在步骤515,使用切分规则对该词进行切分,然后再进行步骤410和后续处理。
这样,在本实施例中,当利用切分统计模型无法得到可靠性足够高的切分结果时,则采用切分规则进行切分,从而可以弥补切分统计模型的不足,保证基本的准确性。
图6是根据本发明一个实施例的训练切分统计模型和音译模型的装置的框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,将适当的省略其说明。
如图6所示,本实施例的训练切分统计模型和音译模型的装置600包括:语料输入单元601,用于作为语料输入双语专用名列表;规则切分单元602,用于使用切分规则将上述双语专用名列表中的上述多音节语言的专用名切分为子音节序列;切分判断单元603,用于根据上述双语专用名列表中的对应的单音节语言的专用名,判断对多音节语言的专用名的切分是否正确;切分统计模型训练单元604,用于根据判断为正确的切分结果训练上述切分统计模型。其中,切分统计模型训练单元604包含切分概率计算单元6041,用于根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节之间的相邻关系,计算各个相邻的子音节对的出现概率。这些子音节对和计算出的子音节对的出现概率被记录在切分统计模型605中。
如图6所示,装置600还包括:模型切分单元606,用于利用上述切分统计模型将上述判断为切分不正确的上述多音节语言的专用名切分为子音节序列;音译模型训练单元607,用于根据上述判断为切分正确的多音节语言的专用名和上述双语专用名列表中相应的单音节语言的专用名,训练上述音译模型。其中,模型切分单元606包括搜索单元6061,用于根据上述切分统计模型,使用搜索算法,计算出将上述多音节语言的词切分后概率最高的子音节序列。音译模型训练单元607包括转换概率计算单元6071,用于根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节与上述对应的单音节语言的专用名的音节的对应关系,计算各个子音节/音节对的转换概率。这些子音节/音节对和计算出的子音节/音节对的转换概率(出现概率)被记录在音译模型608中。
关于切分统计模型和音译模型的结构、对于多音节语言的词的切分以及搜索方式等,在前面已经进行了详细的说明,在此不再重复。
本实施例中的训练切分统计模型和音译模型的装置600及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的训练切分统计模型和音译模型的装置600,操作上可以实现前面结合图1和2描述的实施例的训练切分统计模型和/或音译模型的方法。
图7是根据本发明一个实施例的从单音节语言到多音节语言的自动音译装置的框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,将适当的省略其说明。
如图7所示,本实施例的从单音节语言到多音节语言的自动音译装置700包括:音节序列获得单元701,用于获得与需要音译的单音节语言的词对应的音节序列;发音词典704,其中记录有上述单音节语言的字的发音,例如,汉语拼音;音译模型703,包含单音节语言的音节和多音节语言的子音节之间的转换关系及其转换概率;子音节转换单元702,用于利用音译模型703获得与音节序列中每个音节对应的上述多音节语言的子音节及其转换概率;切分统计模型706,其中包含多音节语言的子音节之间的切分概率;搜索单元705,用于利用切分统计模型706和由子音节转换单元702获得的与音节序列中每个音节对应的上述多音节语言的子音节及其转换概率,搜索与由音节序列获得单元701获得的音节序列对应的概率最高的子音节序列,作为音译结果。
关于切分统计模型和音译模型的结构、对于音节和子音节的转换以及搜索方式等,在前面已经进行了详细的说明,在此不再重复。
本实施例中的从单音节语言到多音节语言的自动音译装置700及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的从单音节语言到多音节语言的自动音译装置700,操作上可以实现前面结合图3描述的实施例的从单音节语言到多音节语言的自动音译方法。
图8是根据本发明一个实施例的从多音节语言到单音节语言的自动音译装置的框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,将适当的省略其说明。
如图8所示,本实施例的从多音节语言到单音节语言的自动音译装置800包括:子音节切分单元801,用于将需要音译的多音节语言的词切分为子音节序列;音译模型803,包含单音节语言的音节和多音节语言的子音节之间的转换关系及其转换概率;音节转换单元802,用于利用音译模型803获得与由子音节切分单元801切分得到的子音节序列中每个子音节对应的单音节语言的音节及其转换概率;字转换单元806,用于获得与单音节语言的每个音节对应的字;发音词典807,其中记录有上述单音节语言的字的发音,例如,汉语拼音;语言模型804,包含单音节语言的字与字之间的相邻概率;搜索单元805,利用语言模型804和由音节转换单元802获得的与子音节序列中每个子音节对应的单音节语言的音节及其转换概率,搜索与子音节序列对应的概率最高的单音节语言的字序列,作为音译结果。
其中,子音节切分单元801还可以包括:切分统计模型8011,其中包含多音节语言的子音节之间的切分概率;模型切分单元8012,用于根据上述切分统计模型,使用搜索算法,计算出语多音节语言的词相对应的概率最高的子音节序列;以及规则切分单元8013,用于使用切分规则将多音节语言的词切分为子音节序列。
关于切分统计模型、语言模型和音译模型的结构、多音节语言的词的切分、音节和子音节的转换以及搜索方式等,在前面已经进行了详细的说明,在此不再重复。
本实施例中的从多音节语言到单音节语言的自动音译装置800及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的从多音节语言到单音节语言的自动音译装置800,操作上可以实现前面结合图4和5描述的实施例的从多音节语言到单音节语言的自动音译方法。
以上虽然通过一些示例性的实施例对本发明的训练切分统计模型和音译模型的方法和装置、从单音节语言到多音节语言的音译以及从多音节语言到单音节语言的音译方法和装置进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (12)

1.一种训练切分统计模型的方法,上述切分统计模型被用于一种单音节语言和一种多音节语言之间的音译、并且包含上述多音节语言的子音节的切分概率,所述方法包括:
输入双语专用名列表作为语料,该双语专用名列表包含多个上述多音节语言的专用名和各自对应的上述单音节语言的专用名;
使用切分规则将上述双语专用名列表中的每个上述多音节语言的专用名切分为子音节序列;
根据上述双语专用名列表中的对应的单音节语言的专用名,判断上述切分是否正确;以及
根据判断为正确的切分结果训练上述切分统计模型。
2.根据权利要求1所述的训练切分统计模型的方法,其中,判断上述切分是否正确的步骤包括:
判断上述多音节语言的上述专用名被切分后的子音节的个数是否与上述双语专用名列表中的对应的单音节语言的专用名的音节个数相等,如果相等则判断为上述切分是正确的,否则判断为上述切分是不正确的。
3.根据权利要求1或2所述的训练切分统计模型的方法,进一步包括:
利用上述切分统计模型将上述判断为切分不正确的上述多音节语言的专用名切分为子音节序列;以及
重复上述判断和训练切分统计模型的步骤。
4.根据权利要求1所述的训练切分统计模型的方法,其中,训练上述切分统计模型的步骤包括:
根据上述被判断为切分正确的多音节语言的上述专用名被切分后子音节序列中的子音节之间的相邻关系,计算各个相邻的子音节对的出现概率;
将上述子音节对及其出现概率记录在上述切分统计模型中。
5.一种训练切分统计模型和音译模型的方法,上述切分统计模型和上述音译模型被用于一种单音节语言和一种多音节语言之间的音译,其中上述切分统计模型包含上述多音节语言的子音节的切分概率,上述音译模型包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率,所述方法包括:
利用上述权利要求1~4的任意一项所述的方法,训练上述切分统计模型;
根据上述判断为切分正确的多音节语言的专用名和上述双语专用名列表中相应的单音节语言的专用名,训练上述音译模型。
6.根据权利要求5所述的训练切分统计模型和音译模型的方法,其中,训练上述音译模型的步骤包括:
根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节序列中的每个子音节与上述对应的单音节语言的专用名中的音节的对应关系,计算各个子音节/音节对的转换概率;
将上述子音节/音节对及其转换概率记录在上述音译模型中。
7.一种训练切分统计模型的装置,上述切分统计模型被用于一种单音节语言和一种多音节语言之间的音译、并且包含上述多音节语言的子音节的切分概率,所述装置包括:
语料输入单元,用于作为语料输入双语专用名列表,该双语专用名列表包含多个上述多音节语言的专用名和各自对应的上述单音节语言的专用名;
规则切分单元,用于使用切分规则将上述双语专用名列表中的上述多音节语言的专用名切分为子音节序列;
切分判断单元,用于根据上述双语专用名列表中的对应的单音节语言的专用名,判断对于上述多音节语言的专用名的切分是否正确;以及
切分统计模型训练单元,用于根据判断为正确的切分结果训练上述切分统计模型。
8.根据权利要求7所述的训练切分统计模型的装置,其中,上述切分判断单元判断上述多音节语言的上述专用名被切分后的子音节的个数是否与上述双语专用名列表中的对应的单音节语言的专用名的音节个数相等,如果相等则判断为上述切分是正确的,否则判断为上述切分是不正确的。
9.根据权利要求7或8所述的训练切分统计模型的装置,进一步包括:
模型切分单元,用于利用上述切分统计模型将上述判断为切分不正确的上述多音节语言的专用名切分为子音节序列。
10.根据权利要求7所述的训练切分统计模型的装置,其中,切分统计模型训练单元包括:
切分概率计算单元,用于根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节序列中的子音节之间的相邻关系,计算各个相邻的子音节对的出现概率。
11.根据上述权利要求7~10的任意一项所述的训练切分统计模型的装置,进一步包括:
音译模型训练单元,用于根据上述判断为切分正确的多音节语言的专用名和上述双语专用名列表中相应的单音节语言的专用名,训练音译模型,该音译模型被用于一种单音节语言和一种多音节语言之间的音译并且包含上述单音节语言的音节和上述多音节语言的子音节之间的转换关系及其转换概率。
12.根据权利要求11所述的训练切分统计模型的装置,其中,上述音译模型训练单元进一步包括:
转换概率计算单元,用于根据上述被判断为切分正确的多音节语言的上述专用名被切分后的子音节序列中的子音节与上述对应的单音节语言的专用名的音节的对应关系,计算各个子音节/音节对的转换概率。
CNB2005101081859A 2005-10-09 2005-10-09 训练音译模型、切分统计模型的方法和装置 Expired - Fee Related CN100483399C (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNB2005101081859A CN100483399C (zh) 2005-10-09 2005-10-09 训练音译模型、切分统计模型的方法和装置
US11/539,435 US7853444B2 (en) 2005-10-09 2006-10-06 Method and apparatus for training transliteration model and parsing statistic model, method and apparatus for transliteration
JP2006276947A JP4886459B2 (ja) 2005-10-09 2006-10-10 音訳モデル及び構文解析統計モデルを訓練するための方法及び装置、及び音訳のための方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005101081859A CN100483399C (zh) 2005-10-09 2005-10-09 训练音译模型、切分统计模型的方法和装置

Publications (2)

Publication Number Publication Date
CN1945562A CN1945562A (zh) 2007-04-11
CN100483399C true CN100483399C (zh) 2009-04-29

Family

ID=38035013

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101081859A Expired - Fee Related CN100483399C (zh) 2005-10-09 2005-10-09 训练音译模型、切分统计模型的方法和装置

Country Status (3)

Country Link
US (1) US7853444B2 (zh)
JP (1) JP4886459B2 (zh)
CN (1) CN100483399C (zh)

Families Citing this family (227)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20040243531A1 (en) 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8131536B2 (en) * 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US8515728B2 (en) * 2007-03-29 2013-08-20 Microsoft Corporation Language translation of visual and audio input
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8740621B1 (en) * 2007-07-17 2014-06-03 Samuel Gordon Breidner Apparatus and system for learning a foreign language
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
JP2009157888A (ja) * 2007-12-28 2009-07-16 National Institute Of Information & Communication Technology 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8463597B2 (en) * 2008-05-11 2013-06-11 Research In Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN101593173B (zh) * 2008-05-28 2011-08-10 中国科学院自动化研究所 一种汉英反向音译方法及装置
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8275600B2 (en) * 2008-10-10 2012-09-25 Google Inc. Machine learning for transliteration
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US20100204977A1 (en) * 2009-02-09 2010-08-12 Inventec Corporation Real-time translation system that automatically distinguishes multiple languages and the method thereof
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR101083540B1 (ko) * 2009-07-08 2011-11-14 엔에이치엔(주) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
JP5500624B2 (ja) * 2009-07-30 2014-05-21 独立行政法人情報通信研究機構 字訳装置、コンピュータプログラム及び記録媒体
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011087391A1 (en) * 2010-01-18 2011-07-21 Google Inc. Automatic transliteration of a record in a first language to a word in a second language
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110218796A1 (en) * 2010-03-05 2011-09-08 Microsoft Corporation Transliteration using indicator and hybrid generative features
CN102193643B (zh) * 2010-03-15 2014-07-02 北京搜狗科技发展有限公司 一种文字输入方法和具有翻译功能的输入法系统
CN102262450B (zh) * 2010-05-27 2015-12-09 北京搜狗科技发展有限公司 一种基于混输字符串进行字符转换的方法和装置
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
US9330402B2 (en) 2012-11-02 2016-05-03 Intuit Inc. Method and system for providing a payroll preparation platform with user contribution-based plug-ins
CN103810993B (zh) * 2012-11-14 2020-07-10 北京百度网讯科技有限公司 一种文本注音方法及装置
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9600473B2 (en) * 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US20140244237A1 (en) * 2013-02-28 2014-08-28 Intuit Inc. Global product-survey
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US9430227B2 (en) 2013-06-13 2016-08-30 Intuit Inc. Automatic customization of a software application
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN104239289B (zh) * 2013-06-24 2017-08-29 富士通株式会社 音节划分方法和音节划分设备
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9922351B2 (en) 2013-08-29 2018-03-20 Intuit Inc. Location-based adaptation of financial management system
CN103593062B (zh) * 2013-11-08 2016-09-28 北京奇虎科技有限公司 一种数据检测方法及装置
CN104657343B (zh) * 2013-11-15 2017-10-10 富士通株式会社 识别音译名的方法及装置
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN103793364B (zh) * 2014-01-23 2018-09-07 北京百度网讯科技有限公司 对文本进行自动注音处理及显示的方法和装置
JP2015191431A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 外国語のカタカナ表現作成装置、外国語のカタカナ表現作成方法及び外国語のカタカナ表現作成プログラム
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9817808B2 (en) * 2014-09-29 2017-11-14 International Business Machines Corporation Translation using related term pairs
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
EP3318979A4 (en) * 2015-06-30 2019-03-13 Rakuten, Inc. TRANSLITERATION PROCESSING DEVICE, TRANSLITERATION PROCESSING, TRANSLITERATION PROGRAM AND INFORMATION PROCESSING DEVICE
RU2632137C2 (ru) 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
CN105244027B (zh) * 2015-08-31 2019-10-15 百度在线网络技术(北京)有限公司 生成谐音文本的方法和系统
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102580904B1 (ko) 2016-09-26 2023-09-20 삼성전자주식회사 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN108766414B (zh) * 2018-06-29 2021-01-15 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质
US11170183B2 (en) 2018-09-17 2021-11-09 International Business Machines Corporation Language entity identification
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11062621B2 (en) * 2018-12-26 2021-07-13 Paypal, Inc. Determining phonetic similarity using machine learning
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111489742B (zh) * 2019-01-28 2023-06-27 北京猎户星空科技有限公司 声学模型训练方法、语音识别方法、装置及电子设备
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11829720B2 (en) 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models
CN113688283B (zh) * 2021-08-27 2023-09-05 北京奇艺世纪科技有限公司 一种视频字幕匹配程度的确定方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5432948A (en) * 1993-04-26 1995-07-11 Taligent, Inc. Object-oriented rule-based text input transliteration system
JP4084515B2 (ja) * 1999-11-16 2008-04-30 日本電信電話株式会社 アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
US6810374B2 (en) * 2001-07-23 2004-10-26 Pilwon Kang Korean romanization system
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
JP3952964B2 (ja) * 2002-11-07 2007-08-01 日本電信電話株式会社 読み情報決定方法及び装置及びプログラム
US20070021956A1 (en) * 2005-07-19 2007-01-25 Yan Qu Method and apparatus for generating ideographic representations of letter based names

Also Published As

Publication number Publication date
US7853444B2 (en) 2010-12-14
JP2007109233A (ja) 2007-04-26
US20070124133A1 (en) 2007-05-31
JP4886459B2 (ja) 2012-02-29
CN1945562A (zh) 2007-04-11

Similar Documents

Publication Publication Date Title
CN100483399C (zh) 训练音译模型、切分统计模型的方法和装置
Vogel et al. The CMU statistical machine translation system
JP3971373B2 (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置
US8249856B2 (en) Machine translation
Fraser et al. Modeling inflection and word-formation in SMT
Said et al. A hybrid approach for Arabic diacritization
De Gispert et al. Catalan-English statistical machine translation without parallel corpus: bridging through Spanish
KR100911372B1 (ko) 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
CN105630770A (zh) 一种基于sc文法的分词标音连写方法及装置
Lavie et al. Rapid prototyping of a transfer-based Hebrew-to-English machine translation system
Popović et al. Augmenting a small parallel text with morpho-syntactic language
Zhou et al. Constrained phrase-based translation using weighted finite-state transducers
Kumar et al. Improving the performance of English-Tamil statistical machine translation system using source-side pre-processing
Cherry et al. Discriminative substring decoding for transliteration
Scrivner et al. Building an old Occitan corpus via cross-Language transfer.
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
Nair et al. Syntactic based machine translation from English to Malayalam
Khenglawt Machine translation and its approaches
Ghaffar et al. English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis
Ji et al. Phonetic name matching for cross-lingual spoken sentence retrieval
Wai et al. Automatic reordering rule generation and application of reordering rules in stochastic reordering model for English-Myanmar machine translation
Schrader ATLAS–a new text alignment architecture
Luo et al. Handling of Out-of-vocabulary Words in Japanese-English Machine Translation by Exploiting Parallel Corpus.
Feng et al. The RWTH Aachen System for NTCIR-10 PatentMT.
Kirchhoff et al. The University of Washington machine translation system for the IWSLT 2007 competition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090429

Termination date: 20131009