CN105989833B - 多语种混语文本字音转换方法及系统 - Google Patents
多语种混语文本字音转换方法及系统 Download PDFInfo
- Publication number
- CN105989833B CN105989833B CN201510091480.1A CN201510091480A CN105989833B CN 105989833 B CN105989833 B CN 105989833B CN 201510091480 A CN201510091480 A CN 201510091480A CN 105989833 B CN105989833 B CN 105989833B
- Authority
- CN
- China
- Prior art keywords
- languages
- text
- subject kind
- subject
- secondary languages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种多语种混语文本字音转换方法及系统,该方法包括:接收待处理多语种混语文本;确定所述混语文本中的主语种文本及次语种文本;采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列;修正所述次语种文本语音符号序列的韵律;连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音符号序列。利用本发明,可以使主语种文本语音符号序列和次语种文本语音符号序列连接处的韵律感更平稳。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种多语种混语文本字音转换方法及系统。
背景技术
随着世界经济、文化交流的日益增多,以及互联网技术的高速发展,全球信息化程度迅速提高,进而产生大量新词、新术语。然而,并不是所有语种都可以完全表达所有新词、新术语。因此,在一个语种文本中经常会出现其它语种的文本,即混语文本,如“APEC成立于1989年”,“Microsoft Office是微软公司开发的一套办公软件”等中文中混有英文文本的情况。一般混语文本的主语种是预先确定的,所述主语种文本占据混语文本的主要内容,非主语种的文本称为次语种文本。由于不同语种在声学层面有很大区别,如主语种为中文,次语种为英文时,中文词由单音节字组成,每个音节都有声调,所述声调表示基频高低变化;英文词音节个数为一个或多个,词内重音落在其中一个音节上,所述重音表示声强大小变化。因此,混语文本的字音转换必须考虑主语种与次语种连接处韵律的平稳性。而现有的混语文本字音转换方法一般是针对混语文本中每个语种使用各自的字音转换方法,即主语种使用主语种字音转换方法,次语种使用次语种字音转换方法,最后将主、次语种字音转换后的语音符号序列相连接得到混语文本字音转换后的语音符号序列。显然现有方法容易造成混语文本中主语种和次语种连接处的韵律感较差,韵律不平稳的现象,从而降低应用效果。如混语文本的拼接语音合成系统中,主语种和次语种的合成语音段拼接处容易出现韵律平稳性较差,韵律变化较突兀的现象,严重影响混语文本合成语音的自然度。因此,如何对混语文本进行字音转换,使得到的语音符号序列在主语种和次语种连接处的韵律更加平稳成为研究人员的重要研究任务。
发明内容
本发明实施例提供一种多语种混语文本字音转换方法及系统,以使主语种文本语音符号序列和次语种文本语音符号序列连接处的韵律感更平稳。
为此,本发明实施例提供如下技术方案:
一种多语种混语文本字音转换方法,包括:
接收待处理多语种混语文本;
确定所述混语文本中的主语种文本及次语种文本;
采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列;
修正所述次语种文本语音符号序列的韵律;
连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音符号序列。
优选地,所述确定所述混语文本中的主语种文本及次语种文本包括:
根据各语种词典或通过字符编码确定当前文本是主语种文本还是次语种文本。
优选地,所述修正所述次语种文本语音符号序列的韵律包括以下任意一种或多种修正:
对主语种缺失的次语种发音符号的发音进行修正;
对次语种音节结构进行修正;
对次语种韵律特征进行修正。
优选地,所述对主语种缺失的次语种发音符号的发音进行修正包括:
将所述次语种发音符号映射为主语种发音最相近的发音符号;或者
对主语种缺失的次语种发音符号进行录音。
优选地,所述对次语种音节结构进行修正包括:
对于次语种中的音节结构Ci$V$Ct,Ci为辅音头,V为元音核,Ct为辅音尾,如果次语种音节结构Ci$V$Ct中的Ci和Ct在主语种中不出现,则根据主语种辅音头集合{Ci}和辅音尾集合{Ct},将次语种Ci$V$Ct拆分为两个或多个音节。
优选地,所述对次语种韵律特征进行修正包括以下任意一种或多种:
如果主语种和次语种均为音素语言,则取消次语种重音,然后按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
如果主语种和次语种均为音节语言,则取消次语种声调,用和主语种声调曲线图最接近的声调符号设置音节声调;
如果主语种为音素语言,次语种为音节语言,则取消次语种声调,按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
如果主语种为音节语言,次语种为音素语言,则对次语种重音音节按照主语种降调声调处理,对次语种非重音音节按照主语种平调声调处理。
一种多语种混语文本字音转换系统,包括:
接收模块,用于接收待处理多语种混语文本;
语种确定模块,用于确定所述混语文本中的主语种文本及次语种文本;
字音转换模块,用于采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列;
修正模块,用于修正所述次语种文本语音符号序列的韵律;
输出模块,用于连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音符号序列。
优选地,所述语种确定模块,具体用于根据各语种词典或通过字符编码确定当前文本是主语种文本还是次语种文本。
优选地,所述修正模块包括以下任意一个或多个单元:
发音修正单元,用于对主语种缺失的次语种发音符号的发音进行修正;
音节结构修正单元,用于对次语种音节结构进行修正;
韵律特征修正单元,用于对次语种韵律特征进行修正。
优选地,所述发音修正单元,具体用于将所述次语种发音符号映射为主语种发音最相近的发音符号;或者对主语种缺失的次语种发音符号进行录音。
优选地,所述音节结构修正单元,具体用于对于次语种中的音节结构Ci$V$Ct,Ci为辅音头,V为元音核,Ct为辅音尾,如果次语种音节结构Ci$V$Ct中的Ci和Ct在主语种中不出现,则根据主语种辅音头集合{Ci}和辅音尾集合{Ct},将次语种Ci$V$Ct拆分为两个或多个音节。
优选地,所述韵律特征修正单元包括以下任意一个或多个子单元:
第一修正子单元,用于在主语种和次语种均为音素语言时,取消次语种重音,然后按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
第二修正子单元,用于在主语种和次语种均为音节语言时,取消次语种声调,用和主语种声调曲线图最接近的声调符号设置音节声调;
第三修正子单元,用于在主语种为音素语言,次语种为音节语言时,取消次语种声调,按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
第四修正子单元,用于在主语种为音节语言,次语种为音素语言时,对次语种重音音节按照主语种降调声调处理,对次语种非重音音节按照主语种平调声调处理。
本发明实施例提供的多语种混语文本字音转换方法及系统,对所述混语文本中的主语种文本和次语种文本分别进行字音转换,并在转换时采用统一发音符号描述混语文本的发音情况,得到主语种文本语音符号序列和次语种文本语音符号序列,然后对次语种文本语音符号序列的韵律进行修正,然后连接主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音序号序列。由于修正后的次语种文本语音符号序列的韵律更加符合主语种文本语音符号序列的韵律,从而使主语种文本语音符号序列和次语种文本语音符号序列连接处的韵律感更平稳。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例多语种混语文本字音转换方法的流程图;
图2是本发明实施例多语种混语文本字音转换系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
字音转换是指将文字序列转换成相应的发音内容后,使用语音符号序列表示所述发音内容的过程。对于单一语种文本,可以根据该语种的发音特点,实现相应的字音转换。而对于多语种混语文本,本发明实施例采用统一发音符号描述混语文本的发音情况,对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列,并对次语种文本语音符号序列的韵律进行修正,然后连接主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音序号序列。由于修正后的次语种文本语音符号序列的韵律更加符合主语种文本语音符号序列的韵律,从而使主语种文本语音符号序列和次语种文本语音符号序列连接处的韵律感更平稳。
如图1所示,是本发明实施例多语种混语文本字音转换方法的流程图,包括以下步骤:
步骤101,接收待处理多语种混语文本。
所述多语种混语文本中包括一种主语种文本,一种或多种非主语种文本,为了描述方便,将其它非主语种文本统称为次语种文本。所述主语种和次语种是预先确定的。
步骤102,确定所述混语文本中的主语种文本及次语种文本。
具体地,可以从文本形式上判断待处理文本是为主语种文本还是次语种文本。比如,可以根据主语种词典或通过字符编码来判断待处理文本是否为主语种文本。
需要说明的是,如果混语文本中的次语种文本字符属于多个语种,则可以分别根据各次语种词典或通过字符编码来判断次语种文本所属的语种。
步骤103,采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列。
本案中,在混语文本的发音上,使用统一的发音符号进行描述。统一的发音符号定义遵循原则为有明显发音差异的发音单元定义为不同发音符号,不同语种间发音相似的发音单元定义同一个发音符号。例如中文的声母[p]和英文的辅音[p]发音相似,发音符号统一定义为b;再如中文的韵母和英文的元音[∧]发音相似,发音符号统一定义为a。需说明:[p]、[∧]为国际音标符号。定义的发音符号不限于b、a。
对于包含声韵母的音节语言,需要将声韵母进行拆分,声母可拆分为一个或多个辅音音素,韵母可拆分为元音核加上零到多个辅音音素尾。其中元音核可以为单元音或复合元音。如中文“语音合成”中“音”的语音符号序列为“y$i$n1”,即将韵母“in”拆分成元音核“i”和辅音尾“n”来描述。
对于混语文本中的主语种文本和次语种文本,分别采用单一语种转换方法对其进行字音转换,得到各自对应的主语种文本语音符号序列和次语种文本语音符号序列。
以中文为例,具体的字音转换过程如下:首先对文本进行分词,然后查多音字词典,标记多音字,得到多音字及存在多音字词典中的词的语音符号序列;然后通过查字典方式得到其它的语音符号序列,最后连接各个字词的语音符号序列,得到文本语音符号序列。获取语音符号序列时,以词为边界进行处理。
例如,对于中文文本“长江大桥”,其中“长江”存在多音字词典中,语音符号序列的获取过程如下所述:
首先分词得到“长江#大桥”,“#”为词边界;然后查多音字词典,标记“长江”中“长”是多音字,得到“长江”的语音符号序列“ch$a$ng1-j$ia$ng1”;然后查字典,依次得到“大”的语音符号序列“d$a1”,“桥”的语音符号序列“q$iao2”。最后连接各个字词的语音符号序列得到文本“长江大桥”的语音符号序列“ch$a$ng1-j$ia$ng1#d$a1-q$iao2”,其中,符号“$”表示音素边界,符号“-”表示音节边界,符号“#”表示词边界,数字1、2、3、4表示所在音节声调。当然边界描述符号不限于“$”、“-”和“#”,声调描述符号也不限于1、2、3、4。
再以英文为例,具体的字音转换过程如下:首先按照空格对文本进行分词;然后依次对每个词,查有预先记录语音符号序列的词典,如果是词典词,则得到该词语音符号序列。如果是非词典词,则按照规则或者预先训练得到的字母-发音映射模型预测该词发音序列;随后依次对非词典词按照结构Ci$V$Ct预测发音序列音节位置,其中,Ci为辅音头,V为元音核,Ct为辅音尾;随后依次对非词典词根据音节结构预测重音位置,得到该词的语音符号序列;最后连接各个词的语音符号序列得到文本语音符号序列。
例如英文文本“good morning”,语音符号序列的获取过程如下所述:
首先按照空格分词得到“good#morning”;然后依次对good和morning查词典;如“good”是词典词,可以得到语音符号序列“g$uh$d1”。如“morning”是非词典词,按照规则或者预先训练得到的字母-发音映射模型预测该词的发音序列,可以得到“m$ao$r$n$ih$ng”;然后按照结构Ci-V-Ct预测发音序列音节位置,得到“m$ao$r-n$ih$ng”;然后结合音节结构按照规则或者预先训练得到的重音映射模型预测音节串的重音位置,得到该词的语音符号序列“m$ao$r1-n$ih$ng”;最后连接各个词的语音符号序列得到文本“good morning”的语音符号序列“g$uh$d1#m$ao$r1-n$ih$ng”。
在实际应用时,需要预先建立分别对应主语种和各非主语种的词典,每个词典中的单词都带有发音标记,使用统一的发音符号表示。
需要说明的是,在本发明实施例中,采用统一的发音符号对不同语种文本的发音进行描述,但对于每个语种来说,该语种的各词与该发音符号有一定的对应关系,因此在进行字音转换时,需要根据该对应关系确定每个词的语音符号序列。也就是说,如果所述混语文本中包含多个不同语种的次语种文本,还是需要区分所述次语种文本所属的具体语种。在实际应用中,可以预先建立各次语种的词典,在该词典中收录一些常用词,这样,在确定次语种文本所属的具体语种时,就可以通过查找词典来确定。如果次语种文本包括两种以上语种的文本,可以依次查找各语种的词典,如果在多个不同语种的词典中均能查到该文本,则可以选择对应人数多的语种。比如次语种包括英文和西班牙文,Barcelona(巴塞罗那)出现在两种次语种词典中,则按照语种人数最多判断为英文。
另外,对于一些不能在词典中查找到的词,可以根据字符编码判定所述词的字符属于哪些语种。比如,英语和西语字符编码是有区别的,西语多了6个字母:á、é、í、ó、ú。而如果次语种文本包含这特殊编码的字母,则可确定其为西文。但对于不能用编码区分的非词典词,可以选择对应人数多的语种作为该文本所属的语种。
步骤104,修正所述次语种文本语音符号序列的韵律。
为了使混语文本语音符号序列中主语种和次语种的连接处韵律更加平稳,在本发明实施例中,对字音转换后的次语种文本语音符号序列的韵律进行修正,使得到的次语种文本语音符号序列更符合主语种语音符号序列的韵律,具体可以有以下几种修正方式:
a)次语种发音符号发音修正
对于主语种缺失的次语种发音符号的发音,在字音转换时,需要对所述缺失的次语种发音符号发音进行修正,具体有两种修正方法:1)根据发音相似性,将所述次语种发音符号映射为主语种发音最相近发音符号;2)对主语种缺失的次语种发音符号进行录音。如次语种为法文,当主语种为英文,法文的小舌音可以映射为英文中的卷舌音,或者单独对法文的小舌音进行录音。
b)次语种音节结构修正
语言的音节具有类似的结构Ci$V$Ct,Ci为辅音头,V为元音核,Ct为辅音尾。Ci和Ct包含辅音个数可以从零到多个不等。元音V的个数只能有一个,可以为单元音或复合元音。如果次语种Ci和Ct在主语种中不出现,则需要首先对次语种音节结构做修正。具体修正时根据主语种辅音头集合{Ci}和辅音尾集合{Ct},将次语种Ci$V$Ct拆分为两个或多个音节,如下所示:
Ci1$X-Ci2$X-...-Cim$V-Ct1$X-Ct2$X...-Ctn$X
其中Ci1、Ci2、Cim为修正后的辅音头,所述辅音头可以为单辅音或辅音串,Ct1、Ct2、Ctn为修正后的辅音尾,所述辅音尾可以为单辅音或辅音串,X为主语种弱读元音音素。弱读元音音素指发音又短又轻的央元音音素。
例如,主语种为中文,次语种为英文,次语种词report的语音符号序列为“r$ih-p$ao$t1”,音节修正后的语音符号序列为“r$ih-p$ao1-t$ax”。
例如,主语种为中文,次语种为泰文,次语种词的语音符号序列为“p$r$a$k2-t$ae$t3-th$ai1”,音节修正后的语音符号序列为“p$ax2-$r$a2-k$ax2-t$ae3-t$ax3-th$ai1”。
c)次语种韵律特征修正
具体修正时,将混语文本中主语种文本和次语种文本划分成两种语言结构,即音素语言和音节语言,一般印欧语系语言大多为音素语言,汉藏语系语言大多为音节语言。音素语言音节个数为一个或多个,词内部重音只有一个,落在音节上,如英文。音节语言往往为单音节,音节上有声调,如中文。
对次语种的韵律特征进行修正可以有以下几种情况:
1)主语种为音素语言,次语种为音素语言
取消次语种重音,按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置。
例如,主语种为英文,次语种为法文。次语种词“équipe”语音符号序列为“ie-k$i$p1”,重音修正后语音符号序列为“ie-k$i$p1”,本例中修正前后重音位置不变。
步2)主语种为音节语言,次语种为音节语言
取消次语种声调,用和主语种声调曲线图最接近的声调符号设置音节声调。例如主语种为中文,次语种为泰文,泰文中第一声调和中文中平调声调接近,可以将音节声调设置为1。
例如,主语种为中文,次语种为泰文。次语种词音节修正后语音符号序列为“p$ax2-$r$a2-k$ax2-t$ae3-t$ax3-th$ai1”,声调修正后语音符号序列为“p$ax3-$r$a3-k$ax3-t$ae4-t$ax4-th$ai1”。
步3)主语种为音素语言,次语种为音节语言
取消次语种声调,按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置。
例如,主语种为英文,次语种为中文。次语种词“中国”语音符号序列为“zh$o$ng1-g$uo2”,重音修正后语音符号序列为“zh$o$ng1-g$uo”。
步4)主语种为音节语言,次语种为音素语言
由于重音和降调表现形式类似,因此对次语种重音音节按照主语种降调声调处理。由于非重音和平调表现形式类似,因此对次语种非重音音节按照主语种平调声调处理。例如主语种为中文,次语种为英文,将重音音节设置为4,即降调,非重音音节设置为1,即平调。
例如,主语种为中文,次语种为英文。次语种词“report”音节修正后语音符号序列为“r$ih-p$ao1-t$ax”。声调修正后语音符号序列为“r$ih1-p$ao4-t$ax1”。
需要说明的是,在实际应用中,可以根据应用需要,针对上述四种情况之一或任意几种进行修正,对此本发明实施例不做限定。
步骤105,连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音符号序列。
所述混语文本语音符号序列用于描述所述混语文本的发音内容,其包括发音符号信息和韵律信息,所述韵律信息包括词、音节、重音、声调等信息。如中文“语音合成”字音转换后的语音符号序列为“y$u3-y$i$n1#h$e2-ch$e$ng2”;其中,符号“$”表示音素边界,符号“-”表示音节边界,符号“#”表示词边界,数字1、2、3、4表示所在音节声调。当然边界描述符号不限于“$”、“-”和“#”,声调描述符号不限于1、2、3、4。
需要说明的是,在实际应用中,上述确定所述混语文本中的主语种文本及次语种文本及后续采用单一方式对确定了语种的文本进行字音转换的过程可以有不同的方式,一种方式是先确定所述混语文本中所有文本的语种类别,即是主语种文本,还是次语种文本,然后再分别对其进行字音转换;另一种方式对于当前待处理的文本(可以是一句话,一个词等),确定其所属的语种类别,并根据确定的语种类别对其进行字音转换,得到相应的语音符号序列;然后按照前述过程,处理下一个待处理文本,直到所述混语文本中的所有文本处理完毕。
本发明实施例多语种混语文本字音转换方法,采用统一发音符号描述混语文本的发音情况,对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列,并对次语种文本语音符号序列的韵律进行修正,然后连接主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音序号序列。由于修正后的次语种文本语音符号序列的韵律更加符合主语种文本语音符号序列的韵律,从而使主语种文本语音符号序列和次语种文本语音符号序列连接处的韵律感更平稳,提升了混语文本的应用效果。
需要说明的是,本发明实施例的方法可以应用于语音合成、语音识别、语音搜索等领域。
相应地,本发明实施例还提供一种多语种混语文本字音转换系统,如图2所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
接收模块201,用于接收待处理多语种混语文本;
语种确定模块202,用于确定所述混语文本中的主语种文本及次语种文本;
字音转换模块203,用于采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列;
修正模块204,用于修正所述次语种文本语音符号序列的韵律;
输出模块205,用于连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音符号序列。
上述语种确定模块202可以根据各语种词典或通过字符编码确定当前文本是主语种文本还是次语种文本。
需要说明的是,上述语种确定模块202可以针对当前待处理的文本,确定该文本是主语种文本还是次语种文本,然后,字音转换模块203根据确定的语种类别对其进行字音转换,得到相应的语音符号序列;然后重复上述过程,直到所述混语文本中的所有文本处理完毕。另外,还可以由语种确定模块202先确定所述混语文本中所有文本的语种类别,即是主语种文本,还是次语种文本,然后再由字音转换模块203分别对其进行字音转换。
上述修正模块204可以采用多种方式修正所述次语种文本语音符号序列的韵律,比如修正模块204可以包括以下任意一个或多个单元:
发音修正单元,用于对主语种缺失的次语种发音符号的发音进行修正;
音节结构修正单元,用于对次语种音节结构进行修正;
韵律特征修正单元,用于对次语种韵律特征进行修正。
其中:
所述发音修正单元具体用于将所述次语种发音符号映射为主语种发音最相近的发音符号;或者对主语种缺失的次语种发音符号进行录音。
所述音节结构修正单元具体用于对于次语种中的音节结构Ci$V$Ct,Ci为辅音头,V为元音核,Ct为辅音尾,如果次语种音节结构Ci$V$Ct中的Ci和Ct在主语种中不出现,则根据主语种辅音头集合{Ci}和辅音尾集合{Ct},将次语种Ci$V$Ct拆分为两个或多个音节。
所述韵律特征修正单元可以包括以下任意一个或多个子单元:
第一修正子单元,用于在主语种和次语种均为音素语言时,取消次语种重音,然后按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
第二修正子单元,用于在主语种和次语种均为音节语言时,取消次语种声调,用和主语种声调曲线图最接近的声调符号设置音节声调;
第三修正子单元,用于在主语种为音素语言,次语种为音节语言时,取消次语种声调,按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
第四修正子单元,用于在主语种为音节语言,次语种为音素语言时,对次语种重音音节按照主语种降调声调处理,对次语种非重音音节按照主语种平调声调处理。
本发明实施例多语种混语文本字音转换系统,采用统一发音符号描述混语文本的发音情况,对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列,并对次语种文本语音符号序列的韵律进行修正,然后连接主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音序号序列。由于修正后的次语种文本语音符号序列的韵律更加符合主语种文本语音符号序列的韵律,从而使主语种文本语音符号序列和次语种文本语音符号序列连接处的韵律感更平稳,提升了混语文本的应用效果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种多语种混语文本字音转换方法,其特征在于,包括:
接收待处理多语种混语文本;
确定所述混语文本中的主语种文本及次语种文本;
采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列,所述语音符合序列是指用于表征文本发音形式的字符串;
修正所述次语种文本语音符号序列的韵律;
连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音符号序列。
2.根据权利要求1所述的方法,其特征在于,所述确定所述混语文本中的主语种文本及次语种文本包括:
根据各语种词典或通过字符编码确定当前文本是主语种文本还是次语种文本。
3.根据权利要求1所述的方法,其特征在于,所述修正所述次语种文本语音符号序列的韵律包括以下任意一种或多种修正:
对主语种缺失的次语种发音符号的发音进行修正;
对次语种音节结构进行修正;
对次语种韵律特征进行修正。
4.根据权利要求3所述的方法,其特征在于,所述对主语种缺失的次语种发音符号的发音进行修正包括:
将所述次语种发音符号映射为主语种发音最相近的发音符号;或者
对主语种缺失的次语种发音符号进行录音。
5.根据权利要求3所述的方法,其特征在于,所述对次语种音节结构进行修正包括:
对于次语种中的音节结构Ci$V$Ct,Ci为辅音头,V为元音核,Ct为辅音尾,如果次语种音节结构Ci$V$Ct中的Ci和Ct在主语种中不出现,则根据主语种辅音头集合{Ci}和辅音尾集合{Ct},将次语种Ci$V$Ct拆分为两个或多个音节。
6.根据权利要求3所述的方法,其特征在于,所述对次语种韵律特征进行修正包括以下任意一种或多种:
如果主语种和次语种均为音素语言,则取消次语种重音,然后按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
如果主语种和次语种均为音节语言,则取消次语种声调,用和主语种声调曲线图最接近的声调符号设置音节声调;
如果主语种为音素语言,次语种为音节语言,则取消次语种声调,按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
如果主语种为音节语言,次语种为音素语言,则对次语种重音音节按照主语种降调声调处理,对次语种非重音音节按照主语种平调声调处理。
7.一种多语种混语文本字音转换系统,其特征在于,包括:
接收模块,用于接收待处理多语种混语文本;
语种确定模块,用于确定所述混语文本中的主语种文本及次语种文本;
字音转换模块,用于采用统一发音符号对所述混语文本中的主语种文本和次语种文本分别进行字音转换,得到主语种文本语音符号序列和次语种文本语音符号序列,所述语音符合序列是指用于表征文本发音形式的字符串;
修正模块,用于修正所述次语种文本语音符号序列的韵律;
输出模块,用于连接所述主语种文本语音符号序列及修正后的次语种文本语音符号序列,得到混语文本语音符号序列。
8.根据权利要求7所述的系统,其特征在于,
所述语种确定模块,具体用于根据各语种词典或通过字符编码确定当前文本是主语种文本还是次语种文本。
9.根据权利要求7所述的系统,其特征在于,所述修正模块包括以下任意一个或多个单元:
发音修正单元,用于对主语种缺失的次语种发音符号的发音进行修正;
音节结构修正单元,用于对次语种音节结构进行修正;
韵律特征修正单元,用于对次语种韵律特征进行修正。
10.根据权利要求9所述的系统,其特征在于,
所述发音修正单元,具体用于将所述次语种发音符号映射为主语种发音最相近的发音符号;或者对主语种缺失的次语种发音符号进行录音。
11.根据权利要求9所述的系统,其特征在于,
所述音节结构修正单元,具体用于对于次语种中的音节结构Ci$V$Ct,Ci为辅音头,V为元音核,Ct为辅音尾,如果次语种音节结构Ci$V$Ct中的Ci和Ct在主语种中不出现,则根据主语种辅音头集合{Ci}和辅音尾集合{Ct},将次语种Ci$V$Ct拆分为两个或多个音节。
12.根据权利要求9所述的系统,其特征在于,所述韵律特征修正单元包括以下任意一个或多个子单元:
第一修正子单元,用于在主语种和次语种均为音素语言时,取消次语种重音,然后按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
第二修正子单元,用于在主语种和次语种均为音节语言时,取消次语种声调,用和主语种声调曲线图最接近的声调符号设置音节声调;
第三修正子单元,用于在主语种为音素语言,次语种为音节语言时,取消次语种声调,按主语种规则或者主语种预先训练得到的重音预测模型在次语种词内部预测音节串的重音位置;
第四修正子单元,用于在主语种为音节语言,次语种为音素语言时,对次语种重音音节按照主语种降调声调处理,对次语种非重音音节按照主语种平调声调处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510091480.1A CN105989833B (zh) | 2015-02-28 | 2015-02-28 | 多语种混语文本字音转换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510091480.1A CN105989833B (zh) | 2015-02-28 | 2015-02-28 | 多语种混语文本字音转换方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105989833A CN105989833A (zh) | 2016-10-05 |
CN105989833B true CN105989833B (zh) | 2019-11-15 |
Family
ID=57038482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510091480.1A Active CN105989833B (zh) | 2015-02-28 | 2015-02-28 | 多语种混语文本字音转换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105989833B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106856091A (zh) * | 2016-12-21 | 2017-06-16 | 北京智能管家科技有限公司 | 一种多语言文本的自动播报方法及系统 |
CN110211562B (zh) * | 2019-06-05 | 2022-03-29 | 达闼机器人有限公司 | 一种语音合成的方法、电子设备及可读存储介质 |
CN110797005B (zh) * | 2019-11-05 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 韵律预测方法、装置、设备和介质 |
CN111292719A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111292720B (zh) * | 2020-02-07 | 2024-01-23 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111667828B (zh) * | 2020-05-28 | 2021-09-21 | 北京百度网讯科技有限公司 | 语音识别方法和装置、电子设备和存储介质 |
CN112289305B (zh) * | 2020-11-23 | 2024-08-20 | 北京有竹居网络技术有限公司 | 韵律预测方法、装置、设备以及存储介质 |
CN112397050B (zh) * | 2020-11-25 | 2023-07-07 | 北京百度网讯科技有限公司 | 韵律预测方法、训练方法、装置、电子设备和介质 |
CN112667865A (zh) * | 2020-12-29 | 2021-04-16 | 西安掌上盛唐网络信息有限公司 | 中英混合语音合成技术在汉语言教学中的应用的方法及系统 |
CN113160792B (zh) * | 2021-01-15 | 2023-11-17 | 广东外语外贸大学 | 一种多语种的语音合成方法、装置和系统 |
CN113129862B (zh) * | 2021-04-22 | 2024-03-12 | 合肥工业大学 | 一种基于world-tacotron的语音合成方法、系统及服务器 |
CN114333760B (zh) * | 2021-12-31 | 2023-06-02 | 科大讯飞股份有限公司 | 一种信息预测模块的构建方法、信息预测方法及相关设备 |
CN116665643B (zh) * | 2022-11-30 | 2024-03-26 | 荣耀终端有限公司 | 韵律标注方法、装置和终端设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175307A (ja) * | 1997-12-11 | 1999-07-02 | Computer Consulting:Kk | 文書読上げ方法および装置 |
US6141642A (en) * | 1997-10-16 | 2000-10-31 | Samsung Electronics Co., Ltd. | Text-to-speech apparatus and method for processing multiple languages |
EP1327974A2 (en) * | 2002-01-09 | 2003-07-16 | Openwave Systems Inc. | System and method for providing locale-specific interpretation of text data |
CN1471025A (zh) * | 2002-07-25 | 2004-01-28 | 摩托罗拉公司 | 使用韵律控制的中文文本至语音拼接合成系统及方法 |
CN1604182A (zh) * | 2003-09-29 | 2005-04-06 | 摩托罗拉公司 | 语音合成方法 |
CN1731510A (zh) * | 2004-08-05 | 2006-02-08 | 摩托罗拉公司 | 混合语言文语转换 |
CN1801321A (zh) * | 2005-01-06 | 2006-07-12 | 台达电子工业股份有限公司 | 文字转语音的系统与方法 |
CN1879147A (zh) * | 2003-12-16 | 2006-12-13 | 洛昆多股份公司 | 文本到语音转换方法和系统、及其计算机程序产品 |
-
2015
- 2015-02-28 CN CN201510091480.1A patent/CN105989833B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6141642A (en) * | 1997-10-16 | 2000-10-31 | Samsung Electronics Co., Ltd. | Text-to-speech apparatus and method for processing multiple languages |
JPH11175307A (ja) * | 1997-12-11 | 1999-07-02 | Computer Consulting:Kk | 文書読上げ方法および装置 |
EP1327974A2 (en) * | 2002-01-09 | 2003-07-16 | Openwave Systems Inc. | System and method for providing locale-specific interpretation of text data |
CN1471025A (zh) * | 2002-07-25 | 2004-01-28 | 摩托罗拉公司 | 使用韵律控制的中文文本至语音拼接合成系统及方法 |
CN1604182A (zh) * | 2003-09-29 | 2005-04-06 | 摩托罗拉公司 | 语音合成方法 |
CN1879147A (zh) * | 2003-12-16 | 2006-12-13 | 洛昆多股份公司 | 文本到语音转换方法和系统、及其计算机程序产品 |
CN1731510A (zh) * | 2004-08-05 | 2006-02-08 | 摩托罗拉公司 | 混合语言文语转换 |
CN1801321A (zh) * | 2005-01-06 | 2006-07-12 | 台达电子工业股份有限公司 | 文字转语音的系统与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105989833A (zh) | 2016-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105989833B (zh) | 多语种混语文本字音转换方法及系统 | |
Ramani et al. | A common attribute based unified HTS framework for speech synthesis in Indian languages | |
CN106297764A (zh) | 一种多语种混语文本处理方法及系统 | |
Al-Anzi et al. | The impact of phonological rules on Arabic speech recognition | |
CN105895076B (zh) | 一种语音合成方法及系统 | |
Schmidt et al. | A Swiss German dictionary: Variation in speech and writing | |
Wu | From traditional Chinese phonology to modern speech processing: realization of tone and intonation in standard Chinese | |
Juan et al. | Analysis of malay speech recognition for different speaker origins | |
CN106294310B (zh) | 一种藏语声调预测方法及系统 | |
Zia et al. | PronouncUR: An urdu pronunciation lexicon generator | |
CN105895075B (zh) | 提高合成语音韵律自然度的方法及系统 | |
Singh et al. | A rule based schwa deletion algorithm for Punjabi TTS system | |
Nair et al. | Indian text to speech systems: A short survey | |
CN104731832A (zh) | 藏语拉萨话声调预测的方法及系统 | |
Fitt et al. | Representing the environments for phonological processes in an accent-independent lexicon for synthesis of English | |
Lobanov et al. | Development of multi-voice and multi-language TTS synthesizer (languages: Belarussian, Polish, Russian) | |
Repe et al. | Prosody model for marathi language TTS synthesis with unit search and selection speech database | |
Takeuchi | < History> History of the Tibetan Language | |
Dabouis | English stress and underlying representations | |
Dika et al. | The principles of designing of algorithm for speech synthesis from texts written in Albanian language | |
Nisioi | On the syllabic structures of Aromanian | |
Sathe | A rule-based system for the transcription of Sanskrit from the Devanagari orthography to the International Phonetic Alphabet | |
Mahar et al. | Phonology for Sindhi letter-to-sound conversion | |
Roy | A finite state and rule-based akshara to prosodeme (A2P) converter in Hindi | |
Kasie et al. | Concatenative speech synthesis for Amharic using unit selection method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |