CN103810993B - 一种文本注音方法及装置 - Google Patents

一种文本注音方法及装置 Download PDF

Info

Publication number
CN103810993B
CN103810993B CN201210457266.XA CN201210457266A CN103810993B CN 103810993 B CN103810993 B CN 103810993B CN 201210457266 A CN201210457266 A CN 201210457266A CN 103810993 B CN103810993 B CN 103810993B
Authority
CN
China
Prior art keywords
language
model
transliteration
target language
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210457266.XA
Other languages
English (en)
Other versions
CN103810993A (zh
Inventor
李伟
沈文竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210457266.XA priority Critical patent/CN103810993B/zh
Publication of CN103810993A publication Critical patent/CN103810993A/zh
Application granted granted Critical
Publication of CN103810993B publication Critical patent/CN103810993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种文本注音方法及装置。一种文本注音方法包括:获得待注音的源语言文本序列根据预设的对应关系;获得与具有音译关系的目标语言文本序列候选;根据目标语言的语言模型,选取具有较高模型评分的候选作为源语言文本序列的注音结果。上述方案利用机器翻译技术中的音译模型,可以在没有专业翻译人员的情况下,实现对用户输入的外文文本的进行自动“本地注音”。同时,结合本地语言的语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。

Description

一种文本注音方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种文本注音方法及装置。
背景技术
随着国际化交流的日益广泛,日常生活中涉及到的外语的场合也越来越多,外语学习的重要性也不言而喻。在语言学习过程中,“说”是一个很重要的环节,为了掌握正确的外语发音,一般需要先整体了解该门语言的发音体系,然后按照字、词、句的顺序逐渐学习发音。
以上属于比较正统的学习方式,然而这种学习方式的成本较高,对于一些希望在短时间内掌握某些内容发音的用户来说,是不现实的。在这种需求下背景下,可以很自然地想到一种“捷径”的学习方式:使用母语的发音来标注外语的发音。
例如,对于高龄老人而言,已经很难有精力系统去学习外语的发音,但是有些老人却可以利用“使用母语的发音来标注外语的发音”的方式,学习一些基本的英语表达。典型的例如“玩奈特(one night)”,“好嘛吃(howmuch)”等等,尽管发音并不算特别标准,但是结合特定的场景,已经能够达到与其他国家的人基本交流的目的了。另一个典型的例子是歌剧演唱。很多中国的歌剧演唱者并不懂意大利语,但在演唱意大利歌剧时,这些演唱者也唱得有模有样。很多人选择的方式就是使用中文对意大利语的歌词进行注音,他们在演唱时,唱的实际上是中文的注音结果。
可见,使用母语发音来标注外语发音的学习方式,尽管并不正统,却能够在某些情况下取得简单快捷的学习效果,因此还是可以在一定范围内推广,例如针对老年人等等。目前,推广这种方式的主要问题在于:“注音”的工作需要由人工完成,即至少需要一个懂得外语的人,知道相应的外文该如何发音,并在此基础上标注本国语言的发音。如果没有懂得外语的人,那么标注工作也难以完成。
发明内容
为解决上述技术问题,本发明实施例提供一种文本注音方法及装置,以实现利用本地语言对外语文本进行发音标注,技术方案如下:
本发明实施例提供一种文本注音方法,该方法包括:
获得待注音的源语言文本序列
Figure BDA00002402426800021
根据预设的对应关系,获得与
Figure BDA00002402426800022
具有音译关系的目标语言文本序列候选
Figure BDA00002402426800023
(i=1,2,3…N,N>1);
根据目标语言的语言模型
Figure BDA00002402426800024
选取具有较高模型评分的
Figure BDA00002402426800025
作为
Figure BDA00002402426800026
的注音结果。
根据本发明的一种具体实施方式,所述根据预设的对应关系,获得与
Figure BDA00002402426800027
具有音译关系的目标语言文本序列候选
Figure BDA00002402426800028
包括:
根据预先建立的模型
Figure BDA00002402426800029
获得与
Figure BDA000024024268000210
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000211
其中
Figure BDA000024024268000212
为:源语言文本与目标语言文本之间的音译模型。
根据本发明的一种具体实施方式,所述根据目标语言的语言模型
Figure BDA000024024268000213
选取具有较高模型评分的
Figure BDA000024024268000214
作为
Figure BDA000024024268000215
的注音结果,包括:
根据
Figure BDA000024024268000216
的计算结果,选择能够令
Figure BDA000024024268000217
得到较高取值的一个或多个
Figure BDA000024024268000218
作为
Figure BDA000024024268000219
的注音结果,其中α为预设的语言模型权重系数。
据本发明的一种具体实施方式,所述根据预设的对应关系,获得与
Figure BDA000024024268000220
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000221
包括:
根据预先建立的模型
Figure BDA000024024268000222
Figure BDA000024024268000223
Figure BDA000024024268000224
获得与
Figure BDA000024024268000225
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000226
其中
Figure BDA00002402426800031
为:源语言音素与源语言文本之间的音译模型;
Figure BDA00002402426800032
为:目标语言文本与目标语言音素之间的音译模型;
Figure BDA00002402426800033
为:目标语言音素与源语言音素之间的音译模型。
根据本发明的一种具体实施方式,所述根据目标语言的语言模型
Figure BDA00002402426800034
选取具有较高模型评分的
Figure BDA00002402426800035
作为
Figure BDA00002402426800036
的注音结果,包括:
根据
Figure BDA00002402426800037
的计算结果,选择能够令
Figure BDA00002402426800038
得到较高取值的一个或多个
Figure BDA00002402426800039
作为
Figure BDA000024024268000310
的注音结果,其中α为预设的语言模型权重系数。
根据本发明的一种具体实施方式,所述根据预设的对应关系,获得与
Figure BDA000024024268000311
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000312
包括:
根据预先建立的模型
Figure BDA000024024268000313
Figure BDA000024024268000314
获得与
Figure BDA000024024268000315
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000316
其中
Figure BDA000024024268000317
为:源语言音素与源语言文本之间的音译模型;
Figure BDA000024024268000318
为:目标语言文本与源言音素之间的音译模型。
根据本发明的一种具体实施方式,所述根据目标语言的语言模型
Figure BDA000024024268000319
选取具有较高模型评分的
Figure BDA000024024268000320
作为
Figure BDA000024024268000321
的注音结果,包括:
根据
Figure BDA000024024268000322
的计算结果,选择能够令
Figure BDA000024024268000323
得到较高取值的一个或多个
Figure BDA000024024268000324
作为
Figure BDA000024024268000325
的注音结果,其中α为预设的语言模型权重系数。
根据本发明的一种具体实施方式,所述根据预设的对应关系,获得与
Figure BDA000024024268000326
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000327
包括:
根据预先建立的模型
Figure BDA000024024268000328
获得与
Figure BDA000024024268000329
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000330
其中
Figure BDA00002402426800041
为:目标语言音素与源语言文本之间的音译模型;
Figure BDA00002402426800042
为:目标语言文本与目标语言音素之间的音译模型。
根据本发明的一种具体实施方式,所述根据目标语言的语言模型
Figure BDA00002402426800043
选取具有较高模型评分的
Figure BDA00002402426800044
作为
Figure BDA00002402426800045
的注音结果,包括:
根据
Figure BDA00002402426800046
的计算结果,选择能够令
Figure BDA00002402426800047
得到较高取值的一个或多个
Figure BDA00002402426800048
作为
Figure BDA00002402426800049
的注音结果,其中α为预设的语言模型权重系数。
本发明实施例还提供一种文本注音装置,其特征在于,该装置包括:
输入单元,用于获得待注音的语言文本序列
Figure BDA000024024268000410
音译处理单元,用于根据预设的对应关系,获得与
Figure BDA000024024268000411
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000412
(i=1,2,3…N,N>1);
结果选取单元,用于根据目标语言的语言模型
Figure BDA000024024268000413
选取具有较高模型评分的
Figure BDA000024024268000414
作为
Figure BDA000024024268000415
的注音结果。
根据本发明的一种具体实施方式,所述音译处理单元,具体用于:
根据预先建立的模型
Figure BDA000024024268000416
获得与
Figure BDA000024024268000417
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000418
其中
Figure BDA000024024268000419
为:源语言文本与目标语言文本之间的音译模型。
根据本发明的一种具体实施方式,所述结果选取单元,具体用于:
根据
Figure BDA000024024268000420
的计算结果,选择能够令
Figure BDA000024024268000421
得到较高取值的一个或多个
Figure BDA000024024268000422
作为
Figure BDA000024024268000423
的注音结果,其中α为预设的语言模型权重系数。
根据本发明的一种具体实施方式,所述音译处理单元,具体用于:
根据预设的对应关系,获得与
Figure BDA000024024268000424
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000425
包括:
根据预先建立的模型
Figure BDA000024024268000426
Figure BDA000024024268000427
Figure BDA000024024268000428
获得与
Figure BDA000024024268000429
具有音译关系的目标语言文本序列候选
Figure BDA00002402426800051
其中
Figure BDA00002402426800052
为:源语言音素与源语言文本之间的音译模型;
Figure BDA00002402426800053
为:目标语言文本与目标语言音素之间的音译模型;
Figure BDA00002402426800054
为:目标语言音素与源语言音素之间的音译模型。
根据本发明的一种具体实施方式,所述结果选取单元,具体用于:
根据
Figure BDA00002402426800055
的计算结果,选择能够令
Figure BDA00002402426800056
得到较高取值的一个或多个
Figure BDA00002402426800057
作为
Figure BDA00002402426800058
的注音结果,其中α为预设的语言模型权重系数。
根据本发明的一种具体实施方式,所述音译处理单元,具体用于:
根据预先建立的模型
Figure BDA00002402426800059
Figure BDA000024024268000510
获得与
Figure BDA000024024268000511
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000512
其中
Figure BDA000024024268000513
为:源语言音素与源语言文本之间的音译模型;
Figure BDA000024024268000514
为:目标语言文本与源言音素之间的音译模型。
根据本发明的一种具体实施方式,所述结果选取单元,具体用于:
根据
Figure BDA000024024268000515
的计算结果,选择能够令
Figure BDA000024024268000516
得到较高取值的一个或多个
Figure BDA000024024268000517
作为
Figure BDA000024024268000518
的注音结果,其中α为预设的语言模型权重系数。
根据本发明的一种具体实施方式,所述音译处理单元,具体用于:
根据预先建立的模型
Figure BDA000024024268000519
获得与
Figure BDA000024024268000520
具有音译关系的目标语言文本序列候选
Figure BDA000024024268000521
其中
Figure BDA000024024268000522
为:目标语言音素与源语言文本之间的音译模型;
Figure BDA000024024268000523
为:目标语言文本与目标语言音素之间的音译模型。
根据本发明的一种具体实施方式,所述结果选取单元,具体用于:
根据
Figure BDA00002402426800061
的计算结果,选择能够令
Figure BDA00002402426800062
得到较高取值的一个或多个
Figure BDA00002402426800063
作为
Figure BDA00002402426800064
的注音结果,其中α为预设的语言模型权重系数。
本发明实施例所提供的技术方案,利用机器翻译技术中的音译模型,可以在没有专业翻译人员的情况下,实现对用户输入的外文文本的进行自动“本地注音”。同时,结合本地语言的语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例文本注音方法的一种流程图;
图2为本发明实施例文本注音装置的一种结构示意图。
具体实施方式
一般认为,任意两种语言之间,总是会存在一些读法相同或者相似的文本片段,基于这一前提,就可以对外语文本进行“本地注音”,从而达到便于学习的目的。为了实现对外语文本的自动注音,一种直接的做法是,预先建立两种语言的读音互译关系,接收到用户输入的内容后,通过查询预置的关系,找到与输入的外语文本读音相同的本地语言文本,作为自动注音的结果。
但是上述方案存在的一个问题是:由于同一种读音会对应多种实际文本,因此在音译过程中,可能出现多种注音结果。尽管每种注音结果的读法都是相同或者相似的,但是在实际使用时,并不是每种注音都便于记忆。例如“mydear”可以标注成“卖蒂儿”,也可以标注成“买地儿”,从中文的使用习惯来看,后者显然比前者更容易记忆。
基于上述需求,本发明提供一种文本注音方法,参见图1所示,该方法可以包括以下基本步骤:
获得待注音的源语言文本序列
Figure BDA00002402426800071
根据预设的对应关系,获得与
Figure BDA00002402426800072
具有音译关系的目标语言文本序列候选
Figure BDA00002402426800073
(i=1,2,3…N,N>1);
根据目标语言的语言模型
Figure BDA00002402426800074
选取具有较高模型评分的
Figure BDA00002402426800075
作为
Figure BDA00002402426800076
的注音结果。
结合实际的使用需求,上述方法中,“源语言”一般对应某种用户无法熟练掌握的外语,而“目标语言”则对应某种用户能够相对熟练掌握本地的语言。本发明实施例所提供的技术方案,利用机器翻译技术中的音译模型,可以在没有专业翻译人员的情况下,实现对用户输入的外文文本的进行自动“本地注音”。同时,结合本地语言的语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。
当然,可以理解的是,上面所说“外语”以及“本地语言”都是相对的概念,应用本发明方案,理论上可以实现任意的源语言F到任意的目标语言E的注音,并且尽可能保证注音结果便于记忆。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
图1所示,为本发明实施例一种文本标注方式
基于上述需求,本发明提供一种文本注音方法,参见图1所示,该方法可以包括以下基本步骤:
S101,获得待注音的源语言文本序列
Figure BDA00002402426800081
S102,根据预设的对应关系,获得与
Figure BDA00002402426800082
具有音译关系的目标语言文本序列候选
Figure BDA00002402426800083
(i=1,2,3…N,N>1);
S103,根据目标语言的语言模型
Figure BDA00002402426800084
选取具有较高模型评分的
Figure BDA00002402426800085
作为
Figure BDA00002402426800086
的注音结果。
本发明的目的是,将一段源语言的文本序列
Figure BDA00002402426800087
用目标语言的文本序列
Figure BDA00002402426800088
进行标注,其中
Figure BDA00002402426800089
Figure BDA000024024268000810
具有相同或者相似的读音,对于普通用户而言,一般
Figure BDA000024024268000811
对应外语,
Figure BDA000024024268000812
则对应本地语言。
一种最直接的方法是,根据源语言文本的发音,直接找到相应的目标文本发音,并且记录二者的对应关系,当然,这部分工作需要由熟悉这两种语言的人员协助完成。建立源语言文本与目标语言文本的对应关系并存储之后,就形成了一个基本的音译系统。根据用户输入的外语内容,通过查询预设对应关系的方式,就可以自动给出相应的本地语言注音结果。
在人工标注的过程中随意性比较大,并且不会考虑到文本的组合问题,例如对于英文单词“my”,可以标注成“买”、“卖”等等,“dear”可以标注成“地儿”、“蒂儿”等等。相应地,对于“my dear”这个词组,系统就有可能给出“卖蒂儿”、“买地儿”等标注结果,中文的使用习惯来看,显然“买地儿”是相对容易记忆的。为了使得最终的标注结果更容易记忆,本发明实施例进一步利用语言模型对可能存在的多种标注结果进行选择。
语言模型(Language Model,LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布,概率越高,说明该词序列越常见,反之,概率越低则说明该词序列越生僻。例如对于“卖蒂儿”和“买地儿”而言,后者在模型中的评分(对应出现概率)应该是高于前者的。基于该原理,本发明实施例利用语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。
下面结合实际的例子,对本发明的方案进行进一步的详细描述:
以表示源语言的文本序列、
Figure BDA00002402426800091
表示目标语言序列,那么本发明的目的可以用以下公式表示:
Figure BDA00002402426800092
在上式中,
Figure BDA00002402426800093
表示从
Figure BDA00002402426800094
音译到
Figure BDA00002402426800095
的条件概率,整个公式的含义是:对于给定的源语言的文本序列
Figure BDA00002402426800096
需要找到一个
Figure BDA00002402426800097
使得
Figure BDA00002402426800098
的值最大。当然,在实际应用中,使得
Figure BDA00002402426800099
达到最大值的
Figure BDA000024024268000910
可能存在多个,在某些情况下,也可能存在“找到多个相对合理的注音结果,供用户自行选择”的需求,因此,本发明实施中的“max”可以理解为“取值排名较高的一个或多个”,而不应该仅限于“一个最大值”的情况。
为了找到能够满足需求的
Figure BDA000024024268000911
将上式用贝叶斯公式展开:
Figure BDA000024024268000912
Figure BDA000024024268000913
由于最终目的是要找到一个
Figure BDA000024024268000914
使得
Figure BDA000024024268000915
的值最大,而
Figure BDA000024024268000916
的值并不会影响结果,也就是说,对于特定的
Figure BDA000024024268000917
如果
Figure BDA000024024268000918
可以令
Figure BDA000024024268000919
达到最大,那么
Figure BDA000024024268000920
同样可以令
Figure BDA000024024268000921
达到最大,因此,上式可进一步化简为:
Figure BDA000024024268000922
Figure BDA000024024268000923
根据式(1.1)的结果,需要建立两个模型:
源语言文本与目标语言文本之间的音译模型
Figure BDA000024024268000924
以及目标语言的语言模型
Figure BDA000024024268000925
其中,
Figure BDA000024024268000926
可以选用任意现有的语言模型,本发明实施例对此并不需要进行限定。剩下的工作,就是建立
Figure BDA00002402426800101
模型,该模型实际表现为:源语言文本集与目标语言文本集的音译对应关系。对应关系可以是“一对一”的对应关系,也可以是“一对多”或“多对一”的对应关系,并且对于每一组对应音译关系,可以人工标注上不同的得分。
具体到本实施例中,由于
Figure BDA00002402426800102
已知,因此问题转化为:对于任意的
Figure BDA00002402426800103
找到一个或多个对应音译的
Figure BDA00002402426800104
并且对每个音译结果标注评分,评分的大小代表读音的相似程度,例如对于“my”,可以按照如下方式记录对应关系及评分:
Figure BDA00002402426800105
表1
当然,这个模型也可能是以某种函数
Figure BDA00002402426800106
的方式表达,通过这个函数,可以计算需要的得分,但不同表示方式所包含的信息量是一致的
可以理解的是,实际的建模单元并不一定是“单词”,为了减小模型的大小,在实际建模时,
Figure BDA00002402426800107
可以采用更小粒度的单元,例如音素、或者常用的音节、前缀、后缀等等,例如将“er”记录为“儿”或“耳”,在对整个序列
Figure BDA00002402426800108
进行注音时,首先对序列
Figure BDA00002402426800109
进行拆分,然后分别找到每个片段的对应音译结果,通过排列组合,可能得到多种对应的音译结果
Figure BDA000024024268001010
然后结合语言模型
Figure BDA000024024268001011
Figure BDA000024024268001012
中进行选择即可。
通过表1可以看出,在模型中,对应同一个
Figure BDA000024024268001013
记录了多种音译可能性,例如“my”的读音可以是“买”或者“卖”,甚至还记录了读音近似的“慢”,这样做的目的是:根据式(1.1),最终需要找到的是令
Figure BDA000024024268001014
达到最大的
Figure BDA000024024268001015
对于“慢”而言,尽管其
Figure BDA000024024268001016
值相对较低,但是在构成本地语言文本序列
Figure BDA000024024268001017
后,相应的
Figure BDA000024024268001018
值如果较高,也可能最终仍然能获得较高的乘积值。因此,为了在构成最终的
Figure BDA00002402426800111
时,有更多的候选可用,在建模时,一般建议多记录几种可能的音译结果。
根据式(1.1)以及上面的分析可知,“本地注音序列与原文发音近似”以及“本地注音序列容易记忆”实际是两个独立的概念。在某些情况下,很难保证二者都达到最优,也就是说:在一些情况下,标注序列发音较准确,但不易记忆;另一些情况下,标注序列较易记忆,但发音可能有较大的出入。为解决该问题:可以对式(1.1)调整为如下形式:
Figure BDA00002402426800112
其中,α为预设的语言模型权重系数,该值越大,表明语言模型所占的权重越大,生成的句子越容易记忆;该值越小,表明音译模型所占的权重越大,发音越准确;这样,可以通过对α进行设置,以满足实际的应用需求。当α=1时,式(1.2)与式(1.1)等价。
对于实际的系统而言,可以考虑用如下的方法设置这个值:首先要有一个训练集,一个初始权值x(比如1)。之后将该值分别设置为x、1/y、x*y(y>1),给定训练集中的输入语料,计算输出结果,判断3个输出结果哪个比较好。在此基础上,将比较好的结果作为新的权值,反复迭代,最终找到一个相对合适的α值。
在本发明的另一种实施方式中,通过对式(1.1)进行变形,可以得到以下结果:
Figure BDA00002402426800113
Figure BDA00002402426800114
Figure BDA00002402426800115
Figure BDA00002402426800116
Figure BDA00002402426800117
Figure BDA00002402426800121
Figure BDA00002402426800122
在上式中,
Figure BDA00002402426800123
表示源语言的音素序列,
Figure BDA00002402426800124
表示目标语言的音素序列,由于在不同的语言中,都有自身的注音体系,也就说有相对成型的对应关系:
Figure BDA00002402426800125
Figure BDA00002402426800126
以及
Figure BDA00002402426800127
可用,因此在本实施例中,可以通过引入
Figure BDA00002402426800128
Figure BDA00002402426800129
实现对
Figure BDA000024024268001210
的计算。
对于式(2.1)具体推导过程如下:
a)从第1步到第2步,相当于对所有的
Figure BDA000024024268001211
Figure BDA000024024268001212
求和。可以这样理解:在给定
Figure BDA000024024268001213
这个序列后,可以任意取一种
Figure BDA000024024268001214
Figure BDA000024024268001215
的组合,这样可以计算
Figure BDA000024024268001216
将所有的
Figure BDA000024024268001217
Figure BDA000024024268001218
组合的可能性进行求和,就得到了
Figure BDA000024024268001219
b)从第2步到第3步,是利用贝叶斯公式,将
Figure BDA000024024268001220
从提出;
c)根据实际应用场景,在给定
Figure BDA000024024268001221
后,
Figure BDA000024024268001222
的取值不再受到
Figure BDA000024024268001223
的影响,因此可以变成
Figure BDA000024024268001224
这样就得到了第四步;
d)利用与b)、c)类似的分析方式,再次进行拆分,可以得到第5步的结果;
e)此时公式中还包含求和符号。但根据实际的情况,可以知道:只有
Figure BDA000024024268001225
这个发音序列与
Figure BDA000024024268001226
相匹配时,
Figure BDA000024024268001227
这个值才会比较大,而大部分的
Figure BDA000024024268001228
Figure BDA000024024268001229
是不匹配的,
Figure BDA000024024268001230
非常小,可以忽略。因此这里取最匹配的
Figure BDA000024024268001231
Figure BDA000024024268001232
最大的那个值来替换对于
Figure BDA000024024268001233
的求和,类似地,取最大的
Figure BDA000024024268001234
来替换对于
Figure BDA000024024268001235
的求和:从而得到了第6步。由于这一步存在近似处理,因此在推导过程中使用“≈”。
最后,根据上述近似处理,为了简化书写,将argmax的
Figure BDA000024024268001236
Figure BDA000024024268001237
下标省略,得到了最后式(2.1)。
根据式(2.1)的结果,需要建立4个模型:
Figure BDA000024024268001238
源语言音素与源语言文本之间的音译模型,下文中以模型x表示;
Figure BDA00002402426800131
目标语言文本与目标语言音素之间的音译模型,下文中以模型y表示;
Figure BDA00002402426800132
目标语言音素与源语言音素之间的音译模型,下文中以模型z表示;
Figure BDA00002402426800133
目标语言的语言模型。
其中,
Figure BDA00002402426800134
可以选用任意现有的语言模型,另外三个模型x、y、z都是音译模型,相当于对式(1.1)中的音译模型
Figure BDA00002402426800135
拆分为三个模型。而这其中的
Figure BDA00002402426800136
Figure BDA00002402426800137
都分别可以利用语言内部的注音信息来构建,例如汉字与拼音的关系、英语单词/单词片段与音标的关系。最后是P
Figure BDA00002402426800138
由于
Figure BDA00002402426800139
Figure BDA000024024268001310
都是音素序列,因此在建模过程,对应关系也更为直接。另外,在不同的语言中,音素的种类都远远小于实际文本的数量,例如英文中有48个音素,汉语则有32个音素,因此基于音素进行建模,也有利于缩小模型的体积。
对于三种音译模型,具体形式可以类似于表1所示的
Figure BDA000024024268001311
模型,类似地,每个模型一般都需要保留n个可能性。比如在
Figure BDA000024024268001312
这个模型中,对于“hello”,不能仅保留hello这个词的发音(记录为
Figure BDA000024024268001313
),也应当考虑保留与hello近似的发音(记录为
Figure BDA000024024268001314
Figure BDA000024024268001315
),原因是:
Figure BDA000024024268001316
虽然最大,但
Figure BDA000024024268001317
可能不如
Figure BDA000024024268001318
大。因此这个模型要记录的信息可以是:
Figure BDA000024024268001319
如果
Figure BDA000024024268001320
的可能性比较多,难以穷举,在实际建模时,
Figure BDA000024024268001321
可以采用更小粒度的单元,例如,可以在模型中记录:
Figure BDA000024024268001322
Figure BDA00002402426800141
当然,这个模型也可能是以某种函数
Figure BDA00002402426800142
的方式表达,通过这个函数,可以计算需要的得分,但不同表示方式所包含的信息量是一致的。
利用类似的方法,可以建立模型y和模型z,这里不再重复描述,完成所有模型的构建后,就可以对源语言文本进行标注。例如,对于英文单词“hello”,使用中文进行标注,根据式(2.1),基本处理流程如下:
首先在模型x中找到hello相应的音标序列,比如有如下的可能:
Figure BDA00002402426800143
Figure BDA00002402426800144
然后进一步在模型y中搜索
Figure BDA00002402426800145
使得
Figure BDA00002402426800146
Figure BDA00002402426800147
得分较高。比如
Figure BDA00002402426800148
找到的
Figure BDA00002402426800149
结果是:“ha lou”、“he lou”;而
Figure BDA000024024268001410
找到的结果是“he luo”、“ha luo”;
在第三步,在模型z中搜索,使得
Figure BDA000024024268001411
Figure BDA000024024268001412
Figure BDA000024024268001413
Figure BDA000024024268001414
得分相对较高的
Figure BDA000024024268001415
均找出来,这可能对应很多的中文词序列;
最后利用语言模型
Figure BDA000024024268001416
对找到的这些中文词序列依次打分。
将上述所有的4项得分相乘,得到多种可能以及其相应的结果得分。将这些得分进行比较,就可以得到得分最高一个或多个
Figure BDA000024024268001417
可以作为最终的标注结果。
当然,在实际计算过程中,也可以考虑对语言模型和音译模型的权重进行调整,将式(2.1)调整为如下形式:
Figure BDA000024024268001418
其中,α为预设的语言模型权重系数,该值越大,表明语言模型所占的权重越大,生成的句子越容易记忆;该值越小,表明音译模型所占的权重越大,发音越准确;这样,可以通过对α进行设置,以满足实际的应用需求。当α=1时,式(2.2)与式(2.1)等价。
由上述过程可以看出,尽管相对于式(1.1)/(1.2)而言,式(2.1)/(2.2)的建模过程相对直接,但是在实际处理过程中,由于需要依次处理4个模型,计算仍然比较复杂,因此可以考虑对某些模型进行组合以简化计算复杂度。
在本发明的一种实施方式中,根据式(2.1)的推导过程,在计算到第5步时,不直接进行近似处理,而是采用其他的变形方式:
Figure BDA00002402426800151
Figure BDA00002402426800152
Figure BDA00002402426800153
Figure BDA00002402426800154
Figure BDA00002402426800155
式(3.1)的推导思想与式(2.1)的推导思想类似,这里不再重复描述,根据式(3.1)的结果,需要建立3个模型:
Figure BDA00002402426800156
源语言音素与源语言文本之间的音译模型,即模型x;
Figure BDA00002402426800157
目标语言文本与源言音素之间的音译模型,该模型相当于模型y和z的合并化简,下文称为模型yz;
Figure BDA00002402426800158
目标语言的语言模型。
与式(2.1)相比,式(3.1)将模型数量减少至3个,可以简化计算时的复杂度,例如,对于英文单词“hello”,使用中文进行标注,根据式(3.1),基本处理流程如下:
首先在模型x中找到hello相应的音标序列,比如有如下的可能:
Figure BDA00002402426800159
Figure BDA000024024268001510
然后进一步在模型yz中搜索
Figure BDA000024024268001511
使
Figure BDA000024024268001512
Figure BDA000024024268001513
得分较高,这可能对应很多的中文词序列;
最后利用语言模型
Figure BDA000024024268001514
对找到的这些中文词序列依次打分。
将上述所有的3项得分相乘,得到多种可能以及其相应的结果得分。将这些得分进行比较,就可以得到得分最高一个或多个
Figure BDA00002402426800161
可以作为最终的标注结果。可见,在计算过程中,需要涉及的模型减少了一个,因此计算量也可以得到相应的减轻。
在对
Figure BDA00002402426800162
建模的过程中,需要注意的问题是:这个模型可能不如对
Figure BDA00002402426800163
Figure BDA00002402426800164
分别建模精确,而为了保证
Figure BDA00002402426800165
可以达到与
Figure BDA00002402426800166
Figure BDA00002402426800167
同样的效果,那么在
Figure BDA00002402426800168
中就可能要保留更多的信息。
例如,
Figure BDA00002402426800169
模型对于Hello包含了K种可能的发音,
Figure BDA000024024268001610
中对每一种英文发音包含了H种可能的中文发音,那么如果要使用
Figure BDA000024024268001611
这种模型,则有以下两方面考虑:
如果希望
Figure BDA000024024268001612
达到与
Figure BDA000024024268001613
Figure BDA000024024268001614
一致的描述能力,极限情况下我们需要对于Hello引入K*H种可能的发音。也就是说,为了使模型包含足够的信息量,模型的体积可能很大,对计算量也会有相应影响。
如果希望
Figure BDA000024024268001615
的体积相对较小,那么就要从K*H种可能的发音中进行选择,比如选择前N种发音(N≤K*H)。也就是说,如果要减少模型的体积,那么要减少模型的信息量,这样模型相当于做了近似处理,音译效果可能会打折扣,但计算量也会变小。
根据以上两个方面,在实际应用过程中,可以灵活选择N值,以取得性能和效果的平衡。
另外,在实际计算过程中,同样可以考虑对语言模型和音译模型的权重进行调整,将式(3.1)调整为如下形式:
Figure BDA000024024268001616
其中,α为预设的语言模型权重系数,该系数含义和前面实施例相同,这里不再重复描述。
在上一实施例中,对式(2.1)中的模型y和z进行合并,以达到降低计算量的效果,在本发明的另一种实施方式中,还可以对式(2.1)中的模型x和y进行合并:
根据式(2.1)的推导过程,在计算到第5步时,不直接进行近似处理,而是采用其他的变形方式:
Figure BDA00002402426800171
Figure BDA00002402426800172
Figure BDA00002402426800173
Figure BDA00002402426800174
Figure BDA00002402426800175
式(4.1)的推导思想与式(2.1)的推导思想类似,这里不再重复描述,根据式(3.1)的结果,需要建立3个模型:
Figure BDA00002402426800176
目标语言音素与源语言文本之间的音译模型,该模型相当于模型x和y的合并化简,下文称为模型xy;
Figure BDA00002402426800177
目标语言文本与目标语言音素之间的音译模型。
Figure BDA00002402426800178
目标语言的语言模型。
与式(3.1)类似,式(4.1)也是将模型数量减少至3个,只是具体的形式不同。在实际计算过程中,同样可以达到减轻计算量的效果。根据式(4.1),具体的建模方式和注音处理方法思想与式(3.1)类似,这里不再做重复描述。
类似地,在实际计算过程中,也可以考虑对语言模型和音译模型的权重进行调整,将式(4.1)调整为如下形式:
Figure BDA00002402426800179
其中,α为预设的语言模型权重系数,该系数含义和前面实施例相同,这里不再重复描述。
以上介绍了本发明的几种具体实施方式,下面结合一个具体的实例,对本发明的注音方法进行说明。
这里以英语单词“Hello”为例,目的是将其用中文进行标注。假设采用如果采用式(2.1),即4个模型的方式,那么具体步骤如下:
第一步是将Hello翻译成英文音标,计算
Figure BDA00002402426800181
这里有两种方案,一个简单的方案是使用词典保存每个词对应的音标。转换的过程本质上就是查找词的音标的过程。比如:Hello对应了两种音标:
Figure BDA00002402426800182
Figure BDA00002402426800183
进一步,我们可以给每一种音标一个概率,即给出:
Figure BDA00002402426800184
Figure BDA00002402426800185
的评分值。此时,可以将这两个值均设置为1。
这种方案的问题是如果用户输入的词不在词典中,则无法给出音标。解决的方案是,在建立
Figure BDA00002402426800186
模型时,系统中保存的是每种序列对应的发音以及相应的可能性。
例如,已知P(h|*),P(e|*),P(llo|*)…的值,其中*表示了不同的发音序列,那么可以假设:
P(hello|f1,f2,f3)=P(h|f1)P(e|f2)P(llo|f3)
通过我们可以穷举所有的P(h|*),P(e|*),P(llo|*),找到相应的发音序列*以及得分,将这些得分相乘,并通过选择,得到得分比较高的发音序列。比如,经过这一步,可以得到两个得分较高发音序列
Figure BDA00002402426800187
Figure BDA00002402426800188
Figure BDA00002402426800189
Figure BDA000024024268001810
第二步是计算
Figure BDA000024024268001811
可以预先在模型中保存p(f1|*),p(f2|*),…用同样的方法,我们可以遍历每一种可能性,得到
Figure BDA000024024268001812
所有的[e1,e2,e3,e4]的可能性以及相应的得分。在计算的过程中根据得分排名进行相应的选择,得到了剪枝后的e1,e2,e3,e4序列
第三步,对于[e1,e2,e3,e4]序列,计算
Figure BDA000024024268001813
其基本方法是根据[e1,e2,e3,e4]中的一段,找可能的词
Figure BDA000024024268001814
同时计算引入这个词时,
Figure BDA00002402426800191
的变化量。并将上述所有结果进行合并,就可以得到相应的最后结果。
例如,如果[e1,e2,e3,e4]序列为h,e,l,ou,那么可以首先计算P(X|he)的X取值,比如X取到了“哈”,相应找到P(哈)P(he|哈)的分值;之后,可以动态地在这个基础上扩展,计算:P(lou|喽)P(喽|哈)的值,从而得到:
P(哈)P(he|哈)P(lou|喽)P(喽|哈)=P(哈喽)P(he|哈)P(lou|喽)的值。
最后将这个值与之前计算结果值相乘:
Figure BDA00002402426800192
Figure BDA00002402426800193
对于不同的Xi,比较P(Xi)P(hello|Xi),找一个最大值,则相应的Xi即为“hello”的中文注音结果。
相应于上面的方法实施例,本发明还提供一种文本注音装置,参见图2所示,该装置包括:
输入单元110,用于获得待注音的语言文本序列
Figure BDA00002402426800194
音译处理单元120,用于根据预设的对应关系,获得与
Figure BDA00002402426800195
具有音译关系的目标语言文本序列候选
Figure BDA00002402426800196
(i=1,2,3…N,N>1);
结果选取单元130,用于根据目标语言的语言模型
Figure BDA00002402426800197
选取具有较高模型评分的
Figure BDA00002402426800198
作为
Figure BDA00002402426800199
的注音结果。
在本发明的一个具体实施例中,所述音译处理单元120,具体可以用于:
根据预先建立的模型
Figure BDA000024024268001910
获得与
Figure BDA000024024268001911
具有音译关系的目标语言文本序列候选
Figure BDA000024024268001912
其中
Figure BDA000024024268001913
为:源语言文本与目标语言文本之间的音译模型。
所述结果选取单元130,具体可以用于:
根据
Figure BDA000024024268001914
的计算结果,选择能够令
Figure BDA000024024268001915
得到较高取值的一个或多个
Figure BDA000024024268001916
作为
Figure BDA000024024268001917
的注音结果,其中α为预设的语言模型权重系数。
在本发明的一个具体实施例中,所述音译处理单元120,具体可以用于:
根据预设的对应关系,获得与
Figure BDA00002402426800201
具有音译关系的目标语言文本序列候选
Figure BDA00002402426800202
包括:
根据预先建立的模型
Figure BDA00002402426800203
Figure BDA00002402426800204
Figure BDA00002402426800205
获得与
Figure BDA00002402426800206
具有音译关系的目标语言文本序列候选
Figure BDA00002402426800207
其中
Figure BDA00002402426800208
为:源语言音素与源语言文本之间的音译模型;
Figure BDA00002402426800209
为:目标语言文本与目标语言音素之间的音译模型;
Figure BDA000024024268002010
为:目标语言音素与源语言音素之间的音译模型。
所述结果选取单元130,具体可以用于:
根据
Figure BDA000024024268002011
的计算结果,选择能够令
Figure BDA000024024268002012
得到较高取值的一个或多个
Figure BDA000024024268002013
作为
Figure BDA000024024268002014
的注音结果,其中α为预设的语言模型权重系数。
在本发明的一个具体实施例中,所述音译处理单元120,具体可以用于:
根据预先建立的模型
Figure BDA000024024268002015
Figure BDA000024024268002016
获得与
Figure BDA000024024268002017
具有音译关系的目标语言文本序列候选
Figure BDA000024024268002018
其中
Figure BDA000024024268002019
为:源语言音素与源语言文本之间的音译模型;
Figure BDA000024024268002020
为:目标语言文本与源言音素之间的音译模型。
所述结果选取单元130,具体可以用于:
根据
Figure BDA000024024268002021
的计算结果,选择能够令
Figure BDA000024024268002022
得到较高取值的一个或多个
Figure BDA000024024268002023
作为
Figure BDA000024024268002024
的注音结果,其中α为预设的语言模型权重系数。
在本发明的一个具体实施例中,所述音译处理单元120,具体可以用于:
根据预先建立的模型
Figure BDA00002402426800211
获得与
Figure BDA00002402426800212
具有音译关系的目标语言文本序列候选
Figure BDA00002402426800213
其中
Figure BDA00002402426800214
为:目标语言音素与源语言文本之间的音译模型;
Figure BDA00002402426800215
为:目标语言文本与目标语言音素之间的音译模型。
所述结果选取单元130,具体可以用于:
根据
Figure BDA00002402426800216
的计算结果,选择能够令
Figure BDA00002402426800217
得到较高取值的一个或多个
Figure BDA00002402426800218
作为
Figure BDA00002402426800219
的注音结果,其中α为预设的语言模型权重系数。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种文本注音方法,其特征在于,该方法包括:
获得待注音的源语言文本序列
Figure FDF0000005000940000011
根据预设的对应关系,获得与
Figure FDF0000005000940000012
具有音译关系的目标语言文本序列候选
Figure FDF0000005000940000013
Figure FDF00000050009400000131
包括根据预先建立的模型
Figure FDF0000005000940000014
获得与
Figure FDF0000005000940000015
具有音译关系的目标语言文本序列候选
Figure FDF0000005000940000016
其中
Figure FDF0000005000940000017
为:源语言音素与源语言文本之间的音译模型;
Figure FDF0000005000940000018
为:目标语言文本与源言音素之间的音译模型;
根据目标语言的语言模型
Figure FDF0000005000940000019
选取具有较高模型评分的
Figure FDF00000050009400000110
作为
Figure FDF00000050009400000111
的注音结果,包括根据
Figure FDF00000050009400000112
的计算结果,选择能够令
Figure FDF00000050009400000113
得到较高取值的一个或多个
Figure FDF00000050009400000114
作为
Figure FDF00000050009400000115
的注音结果,其中α为预设的语言模型权重系数。
2.一种文本注音方法,其特征在于,该方法包括:
获得待注音的源语言文本序列
Figure FDF00000050009400000116
根据预设的对应关系,获得与
Figure FDF00000050009400000117
具有音译关系的目标语言文本序列候选
Figure FDF00000050009400000118
Figure FDF00000050009400000132
包括根据预先建立的模型
Figure FDF00000050009400000119
获得与
Figure FDF00000050009400000120
具有音译关系的目标语言文本序列候选
Figure FDF00000050009400000121
其中
Figure FDF00000050009400000122
为:目标语言音素与源语言文本之间的音译模型;
Figure FDF00000050009400000123
为:目标语言文本与目标语言音素之间的音译模型;
根据目标语言的语言模型
Figure FDF00000050009400000124
选取具有较高模型评分的
Figure FDF00000050009400000125
作为
Figure FDF00000050009400000126
的注音结果,包括根据
Figure FDF00000050009400000127
的计算结果,选择能够令
Figure FDF00000050009400000128
得到较高取值的一个或多个
Figure FDF00000050009400000129
作为
Figure FDF00000050009400000130
的注音结果,其中α为预设的语言模型权重系数。
3.一种文本注音装置,其特征在于,该装置包括:
输入单元,用于获得待注音的语言文本序列
Figure FDF0000005000940000021
音译处理单元,用于根据预设的对应关系,获得与
Figure FDF0000005000940000022
具有音译关系的目标语言文本序列候选
Figure FDF0000005000940000023
包括根据预先建立的模型
Figure FDF0000005000940000024
获得与
Figure FDF0000005000940000025
具有音译关系的目标语言文本序列候选
Figure FDF0000005000940000026
其中
Figure FDF0000005000940000027
为:源语言音素与源语言文本之间的音译模型;
Figure FDF0000005000940000028
为:目标语言文本与源言音素之间的音译模型;
结果选取单元,用于根据目标语言的语言模型
Figure FDF0000005000940000029
选取具有较高模型评分的
Figure FDF00000050009400000210
作为
Figure FDF00000050009400000211
的注音结果,包括根据
Figure FDF00000050009400000212
的计算结果,选择能够令
Figure FDF00000050009400000213
得到较高取值的一个或多个
Figure FDF00000050009400000214
作为
Figure FDF00000050009400000215
的注音结果,其中α为预设的语言模型权重系数。
4.一种文本注音装置,其特征在于,该装置包括:
输入单元,用于获得待注音的语言文本序列
Figure FDF00000050009400000216
音译处理单元,用于根据预设的对应关系,获得与
Figure FDF00000050009400000217
具有音译关系的目标语言文本序列候选
Figure FDF00000050009400000218
包括根据预先建立的模型
Figure FDF00000050009400000219
获得与
Figure FDF00000050009400000220
具有音译关系的目标语言文本序列候选
Figure FDF00000050009400000221
其中
Figure FDF00000050009400000222
为:目标语言音素与源语言文本之间的音译模型;
Figure FDF00000050009400000223
为:目标语言文本与目标语言音素之间的音译模型;
结果选取单元,用于根据目标语言的语言模型
Figure FDF00000050009400000224
选取具有较高模型评分的
Figure FDF00000050009400000225
作为
Figure FDF00000050009400000226
的注音结果,包括根据
Figure FDF00000050009400000227
的计算结果,选择能够令
Figure FDF00000050009400000228
得到较高取值的一个或多个
Figure FDF00000050009400000229
作为
Figure FDF00000050009400000230
的注音结果,其中α为预设的语言模型权重系数。
CN201210457266.XA 2012-11-14 2012-11-14 一种文本注音方法及装置 Active CN103810993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210457266.XA CN103810993B (zh) 2012-11-14 2012-11-14 一种文本注音方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210457266.XA CN103810993B (zh) 2012-11-14 2012-11-14 一种文本注音方法及装置

Publications (2)

Publication Number Publication Date
CN103810993A CN103810993A (zh) 2014-05-21
CN103810993B true CN103810993B (zh) 2020-07-10

Family

ID=50707673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210457266.XA Active CN103810993B (zh) 2012-11-14 2012-11-14 一种文本注音方法及装置

Country Status (1)

Country Link
CN (1) CN103810993B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI718997B (zh) * 2014-09-30 2021-02-21 日商咕嘟媽咪股份有限公司 菜單生成系統
CN105786802B (zh) * 2014-12-26 2019-04-12 广州爱九游信息技术有限公司 一种外语的音译方法及装置
CN105244027B (zh) * 2015-08-31 2019-10-15 百度在线网络技术(北京)有限公司 生成谐音文本的方法和系统
CN106649291B (zh) * 2016-12-23 2020-10-09 广州酷狗计算机科技有限公司 韩文音译方法及装置
CN108763441B (zh) * 2018-05-25 2022-05-17 腾讯音乐娱乐科技(深圳)有限公司 生成歌词、显示歌词的方法、装置、电子设备及存储介质
CN110619866A (zh) * 2018-06-19 2019-12-27 普天信息技术有限公司 语音合成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945562A (zh) * 2005-10-09 2007-04-11 株式会社东芝 训练音译模型、切分统计模型以及自动音译的方法和装置
WO2009029865A1 (en) * 2007-08-31 2009-03-05 Google Inc. Automatic correction of user input
CN101630333A (zh) * 2008-07-18 2010-01-20 谷歌公司 用于查询扩展的音译
CN102640107A (zh) * 2009-11-30 2012-08-15 株式会社东芝 信息处理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593173B (zh) * 2008-05-28 2011-08-10 中国科学院自动化研究所 一种汉英反向音译方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945562A (zh) * 2005-10-09 2007-04-11 株式会社东芝 训练音译模型、切分统计模型以及自动音译的方法和装置
WO2009029865A1 (en) * 2007-08-31 2009-03-05 Google Inc. Automatic correction of user input
CN101630333A (zh) * 2008-07-18 2010-01-20 谷歌公司 用于查询扩展的音译
CN102640107A (zh) * 2009-11-30 2012-08-15 株式会社东芝 信息处理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Transliteration of Proper Names in Cross-Lingual Information Retrieval;Paola Virga, Sanjeev Khudanpur;<Proceedings of 41st ACL Workshop on Multilingual and Mixed-language Named Entity Recognition>;20031231;57-64 *

Also Published As

Publication number Publication date
CN103810993A (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
CN103810993B (zh) 一种文本注音方法及装置
US20110184723A1 (en) Phonetic suggestion engine
US7860705B2 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
CN105404621B (zh) 一种用于盲人读取汉字的方法及系统
Wheatley et al. An evaluation of cross-language adaptation for rapid HMM development in a new language
JPWO2016067418A1 (ja) 対話制御装置および対話制御方法
Pennell et al. Normalization of informal text
Seljan et al. Combined automatic speech recognition and machine translation in business correspondence domain for english-croatian
Neubig et al. A summary of the first workshop on language technology for language documentation and revitalization
CN110555091A (zh) 一种基于词向量的联想词生成方法及装置
Tan et al. A Malay dialect translation and synthesis system: Proposal and preliminary system
CN111429886B (zh) 一种语音识别方法及系统
Schlippe et al. Statistical machine translation based text normalization with crowdsourcing
Wilkinson et al. Deriving Phonetic Transcriptions and Discovering Word Segmentations for Speech-to-Speech Translation in Low-Resource Settings.
Meng et al. CU VOCAL: corpus-based syllable concatenation for Chinese speech synthesis across domains and dialects.
Seneff et al. Second language acquisition through human computer dialogue
Sridhar et al. Enriching machine-mediated speech-to-speech translation using contextual information
Lee et al. A customizable editor for text simplification
CN117035064B (zh) 一种检索增强语言模型的联合训练方法及存储介质
Pandey et al. Development and suitability of indian languages speech database for building watson based asr system
JP6879521B1 (ja) 多言語音声認識およびテーマ−意義素解析方法および装置
Nikulásdóttir et al. LANGUAGE TECHNOLOGY FOR ICELANDIC 2018-2022
Liin et al. The Estonian Language in the Digital Age
Leturia et al. The BerbaTek project for Basque: Promoting a less-resourced language via language technology for translation, content management and learning
Cao et al. Cross-lingual speaker adaptation via Gaussian component mapping.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant