CN101000764B - 基于韵律结构的语音合成文本处理方法 - Google Patents
基于韵律结构的语音合成文本处理方法 Download PDFInfo
- Publication number
- CN101000764B CN101000764B CN2006101511512A CN200610151151A CN101000764B CN 101000764 B CN101000764 B CN 101000764B CN 2006101511512 A CN2006101511512 A CN 2006101511512A CN 200610151151 A CN200610151151 A CN 200610151151A CN 101000764 B CN101000764 B CN 101000764B
- Authority
- CN
- China
- Prior art keywords
- rhythm
- character string
- speech
- word
- submodule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种能够丰富和改进韵律控制方法、进一步提高汉语语音合成自然度的基于韵律结构的语音合成文本处理方法。它包括以下计算机可实现的步骤:文本规整步骤,用于将输入的文本与预先设置的特殊符号表相比较,输出合法读音字符串;韵律结构分析步骤,用于将合法读音字符串根据预先设置的分词规则、韵律结构分析规则进行比较,并输出标注了韵律结构信息的标注字符串;语言学处理步骤,用于将标注字符串逐字与预先设置的韵律规则、拼音表进行比较,并输出标注了韵律信息的标注拼音码串。本发明从汉语的语音特征、汉语的声调与特点和汉语的语调及模式出发,构筑一套完整的基于韵律结构的语音合成文本处理方法。
Description
(一)技术领域
本发明涉及语音信号处理技术领域,具体涉及到语音合成技术中一种基于韵律结构的文本处理方法。
现有的汉语语音合成方法是以字为切分单位的单字式的字音转换,或是以语法词为切分单位的词组式的文语转换。事实上,人在说话时不是以字或语法词为切分单位,而是以韵律词为切分单位。前面两种语音合成方法会导致计算机及语音合成装置所输出的合成语音自然度相对较低,“机器味”太浓,好像是在“蹦字”发音,无法达到用户可以接受的程度,从而制约了这项技术大规模地进入市场。其原因是语音合成及其韵律控制存在以下几个方面的问题:①连续的合成语音的自然度有待进一步提高;②文本分析过程应当能够反映自然语音中韵律变化,来丰富合成语音的表现力;③语音合成的韵律控制过程应当符合自然语音的韵律规律。
本发明的目的在于提供一种能够丰富和改进韵律控制方法,进一步提高汉语合成语音自然度的、基于韵律结构的语音合成文本处理方法。
本发明的目的是这样实现的:它包括以下计算机可实现的步骤:
文本规整步骤,将输入的文本句子字符串按照预先设置的特殊符号表转换成合法读音字符串,输出合法读音字符串给韵律结构分析步骤;
韵律结构分析步骤,将接收到的合法读音字符串送入韵律结构分析模块进行处理,根据预先设置的分词规则、韵律结构分析规则对合法读音字符串标注韵律结构信息,输出标注了韵律结构信息的标注字符串给语言学处理步骤;
语言学处理步骤,将接收到的标注字符串送入语言学处理模块进行处理,逐字按照预先设置的韵律规则、拼音表进行字音转换,将输入的汉字符映射为拼音码,将韵律结构信息标注映射为相应韵律信息,输出处理后的标注拼音码串给语音合成处理程序。
本发明还有这样一些技术特征:
1、所述的韵律结构分析模块包括以下几个子模块:
分词和词性标注子模块,用以对输入的合法读音字符串根据预先设置的分词规则进行比较,将字符串根据分词规则标注分词信息和词性信息,输出标注了分词信息和词性信息的字符串送给韵律结构预测子模块;
韵律结构预测子模块,用以将送入的标注分词信息和词性信息的字符串构建韵律结构预 测树,并根据韵律结构预测树来确定韵律边界位置,对目标语句确定输出语句的韵律组块及其层级结构,输出标注韵律层次结构的标注字符串给语言学处理步骤;
2、所述的预先设置的分词规则为:将输入文本的合法读音字符串从句首向句尾、逐字假设分割点形成词,从当前字向后进行最大词匹配处理确定词边界;
3、所述的词为语法词;
4、所述的韵律结构分析规则进一步包括以下几个处理步骤:
将语句中在句法上距离最近的语法词两两连接为韵律节点,构成韵律词;
再将在句法上距离最近的韵律词两两连接为更高一个层级的韵律节点,构成韵律短语;
重复连接构建,直到在句法上仅有一个最高层级的节点,构成语调短语;
将同层的每两个相邻的节点之间划分为韵律边界或一个韵律停顿,则构建成为韵律结构预测树;
5、所述的语言学处理模块进一步包括以下几个子模块:
音变、变调分析子模块,用以将送入的标注字符串进行音变现象分析,将两字词、三字词和四字词与预先设置的韵律规则库中的音变、变调规则相比较,将应发生音变或变调现象的字或音节标注为正确的音调,输出的字符串给停顿分析子模块;
停顿分析子模块,用以将音变、变调分析模块送入的标注字符串与预先设置的韵律规则库中的停顿规则相比较,对标注字符串按照韵律边界的不同插入适当时间长度的停顿或无声段,输出的字符串给强调、重音分析子模块;
强调、重音分析子模块,用以将停顿分析子模块送入的标注字符串根据常规重音分布规律标注重音位置,并按照韵律结构预测树韵律边界的不同标注重音位置,以及预先设置的韵律规则中的强调、重音规则修正停顿的时间长度或者韵律边界的字词的音高或时长,输出的字符串给字音转换子模块;
字音转换子模块,用以将强调、重音分析子模块送入的字符串按照拼音表转换成标注韵律信息的拼音码串并输出,输出的字符串给语音合成处理程序;
6、所述的音变、变调分析子模块处理过程为:将每个词组的字符串按照二字词、三字词和四字词分别与文本处理数据库中的音变、变调规则表进行匹配比对,如果完全匹配则进行相应的转换处理,输出转换后的字符串,否则输出原字符串;
7、所述的停顿分析子模块的处理过程为:将标注的字符串根据韵律规则中的停顿规则按照韵律边界的不同,从句首向句尾依次将字符串中韵律边界标记与韵律词标记、韵律短语标记和语调短语标记进行匹配,如果满足其一就在其韵律边界标记处插入与韵律边界标记等价 的停顿,否则字符串保持不变;
8、所述的强调、重音分析子模块中标注重音位置步骤又包括以下计算机可以实现的步骤:将得到的字符串按照韵律结构预测树内部两个分叉之间的句法关系,以及常规重音分布规律,给每个二分叉韵律成分标注相对的轻/重地位;计算每个韵律词最后标注的重度指标,确定每个韵律词的重度;将各个韵律词的重度标注于字符串上,输出标注后的字符串;
9、所述的字音转换子模块的处理过程为:将文本字符从句首向句尾依次将字符与文本处理数据库中的拼音表进行匹配,如果满足匹配要求则就将该字符用与其对应的拼音码替代,直至将整个文本字符替代完毕,输出标注拼音码串。
本发明的有益优点有:
(1)采用韵律分层技术对要合成的句子文本进行有效的韵律切分,合成的声音更加自然、流畅;
(2)采用韵律分层技术可以更好地反映韵律变化复杂多变的要求,符合自然语音的韵律要求;
(3)采用韵律分层技术,为以后的语音基元选取提供了方便;
(4)采用韵律分层技术可以简化后期语音合成的韵律控制。
汉语不同于其它西方语系,表现在语法结构、语法规则、声学特性、韵律结构等多个方面。首先,汉语是一字一音,即单音节字;其次,汉语是声调语言,声调具有辨义作用,每个字都有固定的音调(基频形状)。而且,字与字之间的音调前后彼此互相影响会发生变异,甚至失去了原有的调型,即出现协同发音现象(音变现象)。同时,连续语句的发音中间还会有短暂的停顿。每个人说话都有一个基本频率,称作基频,它体现了说话入的音调高低,此外,人们说话还有声音大小的区别等等。在汉语的文语转换(TTS)系统中,对语音基频、时长、幅度等韵律信息的预测、分析和控制称作韵律控制。
针对这种情况,发明入从汉语的语音特征出发,研究汉语的声调与特点、汉语的语调及模式,构筑了一套基于韵律结构的语音合成文本处理方法及装置。本发明通过韵律结构的分析与预测,利用韵律分层的方法,实现对汉语句子的分层描述,进而使句子的韵律描述变得更丰富,实现以韵律词为切分单位的韵律词组式的文语转换,极大程度地提高了合成语音的自然度。本发明中的各步骤及模块、子模块均可由计算机程序实现,操作性、移植性强,适用范围广。
语音识别和语音合成技术是实现人机语音交互的两项关键技术,它能使电脑象人一样具有“能说会听”的能力,是现代信息产业的重要竞争市场。研究语音合成技术的目的是制造一种会说话的机器,将文本信息转换成为语音。而本发明通过对汉语韵律结构以及汉语语音 合成韵律控制方法的研究,揭示了汉语的韵律结构与韵律规则和模型之间的内在联系,丰富和改进了韵律控制方法,进一步提高了汉语语音合成的自然度。
(四)附图说明
图1为文语转换系统示意图;
图2为文本处理框图;
图3为文本处理流程图;
图4为汉语的韵律层级结构示意图;
图5为韵律结构预测树示意图;
图6为本发明实施例的计算机硬件系统框图。
(五)具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明:
结合图1,本发明包括以下计算机可实现的步骤:
文本规整步骤,将输入的文本字符串按照预先设置的特殊符号表转换成合法读音字符串,输出合法读音字符串给韵律结构分析步骤;
韵律结构分析步骤,将接收到的合法读音字符串送入韵律结构分析模块进行处理,根据预先设置的分词规则、韵律结构分析规则对合法读音字符串标注韵律结构信息,输出标注了韵律结构信息的标注字符串给语言学处理步骤;
语言学处理步骤,将接收到的标注字符串送入语言学处理模块进行处理,逐字按照预先设置的韵律规则、拼音表进行字音转换,将输入的汉字符映射为拼音码,将韵律结构信息标注映射为相应韵律信息,输出处理后的标注拼音码串给语音合成处理程序。
实施例中各步骤及模块、子模块均由计算机程序实现。
结合图2-3,本发明对于输入的文本,通过文本规整步骤进行处理,目的是将输入文本中如日期、数字、天气预报、门牌号等一些带有特殊符号的信息,根据正确读法对输入文本进行标注;例如:日期“2000-12-12”标注为“2000年12月12日”,“晚间最低气温-12℃”标注为“晚间最低气温零下12度”,等等。文本规整装置的输出是合法读音字符串,如表1所示。
表1特殊符号与输入文本的关系
字符类型 | 输入字符格式 | 特殊符号读法 | 合法读音的字符串 | |
日期 | 2000-12-12 | 第一个“-”读作“年” | 第二个“-”读作“月” | 2000年12月12日 |
温度 | -12℃ | “+”读作“零上”, “-”读作“零下” | “℃”读作“度” | 零下12度” |
首先,对输入文本字符逐字进行判断,当文本字符是合法字符时则正常输出,而当文本 字符是非法字符时进入特殊符号处理过程。特殊符号处理过程中,首先判断文本字符是否为日期格式,是则进行日期格式的读音转换,并输出转换后合法读音字符串;否则继续判断是否为温度格式,是则进行温度格式的读音转换,并输出转换后合法读音字符串;否则进行下一步,判断是否为其他特殊字符,以此类推,直至将整个文本字符串处理完毕。
韵律结构分析步骤是将文本借助于如“韵律结构树CART的方法”等方法进行语义分析、或韵律结构分析,目的是将一个文本按照语法规则和韵律结构分析规则切分成较小的单位,这有利于确定文本的韵律结构。如果按照语义规则对文本进行切分,则切分的最小单位是语法词和韵律词;如果是按照韵律结构对文本进行切分,则切分的最小单位是韵律词。韵律结构分析步骤的输出是标注的字符串。
在做韵律结构分析步骤以前,应预先建立文本处理规则数据库。文本处理规则数据库包括特殊符号表、分词规则及词典、韵律结构分析规则、韵律规则和拼音表,其中特殊符号表是文本中一些特殊符号与其在文本中正确读法的映射规定;分词规则是字与语法词之间的映射规定;韵律结构分析规则是将语法词按照韵律层级结构合并成韵律词的规定;韵律规则包括音变、变调规则,停顿规则,强调、重音规则,分别解决文本中字与字之间的音变现象,韵律成分之间的停顿,以及语义焦点重音的规定;拼音表是文本中每个文字转换成与其对应的拼音码的映射规定。建库的方法与一般建立数据库的方法相同,这里就不一一细举。
其中标注分词信息步骤为根据分词规则对输入文本进行分词和词性标注,利用分词和词性信息查找韵律分析规则实现分词;而韵律结构预测模块是在对目标语句完成句法切分和句法标注的基础上,结合最初的韵律组词构建韵律结构预测树,借此预测韵律边界位置,确定输出语句的韵律组块及其层级结构。
分词方法是采用正向最大匹配法,即从句首向句尾逐字假设分割点形成词,在确定了词边界后从当前字向后按最大词匹配,把句子分成词或词组串。与本分词法相匹配建立了分词词库,词库中包括二字词、三字词和四字词。最大匹配是指按最大匹配后确定不可以再分的字符串的原则,如语句“晚间最低气温零下十度。”经上述正向最大匹配法匹配的过程如表2所示:
表2分词举例
步骤 | 比较 | 分词结果 |
1 | 晚间 | “晚间”是词 |
2 | 晚间最 | “晚间最”、“间最”不是饲,确定“最”不是词。 |
3 | 最低 | “最低”是词 |
4 | 最低气 | “最低气”、“低气”不是词,确定“气”不是词 |
5 | 气温 | “气温”是词 |
6 | 气温零 | “气温零”、“温零”不是词,确定“零” |
7 | 零下 | “零下”是词 |
8 | 零下十 | “零下十”、“下十”不是词,确定“十”不是词 |
9 | 十度 | “度”不是词,确定“十度”是词 |
分词的最后结果 | 晚间/最低/气温/零下/十度/ |
结合图4可以概括出这样几个韵律结构特点:
(1)一个语调短语包含了一个或一个以上的韵律短语;一个韵律短语包含了若干个韵律词;而一个韵律词也可以包含了一个或一个以上的语法词;
(2)两个语法词在同一个韵律词内部;
(3)两个语法词在不同的韵律词内,但在同一个韵律短语内;
(4)两个语法词不在同一个韵律短语内。
本发明将汉语的韵律结构主要分为由底到高的三个基本层级:韵律词、韵律短语和语调短语,并且它们之间的关系在韵律上是按照树状的层级结构、有序地排列。
利用从文本分析获得的句法信息和词性信息,再根据已经认识的有关韵律与句法之间的某种相关性,可以预测合成话语的总体韵律结构框架,包括停顿的位置分布和等级的确定,以及重音的位置分布和等级的确定。这种预测的实质,就是首先给每个语法(词)边界确立韵律地位,然后给每个韵律词确立重音地位。因此,韵律组词是预测的关键。
综合上面的分析结果,利用韵律预测树可以实现韵律结构的预测,结合图5,具体方法如下:
(1)基本步骤
首先,借助韵律结构分析模块对输入文本的句子进行分词和词性标注,利用分词和词性信息,查找韵律结构分析规则实现韵律组词;然后,在输入文本句子完成句法切分和句法标注的基础上,结合最初的韵律组词构建韵律结构预测树;藉此预测韵律边界位置,确定输出语句的韵律组块及其层级结构。
(2)预测树的构建方法
预测树的构建综合利用了文本分析时得到的句法、词性和韵律组词信息。它的上半部是个倒置的二分叉树,通常汉语语音在韵律组词上有偶分的倾向。首先把语句中在句法上距离最近的韵律词两两连接为节点,然后再依此法建立更高层级的韵律节点,同层级中的每个节点都代表了它所对应的两个下位树杈之间的一个韵律停顿或韵律边界。这样,自低层向高层总会找到根节点,从而构建韵律结构树。基于这种二分叉结构,可以实现对一个句子韵律层级的预测,即:越是接近根部的节点,它所代表的停顿级别越高,韵律边界也就越强。
语言学处理模块又包括音变、变调分析子模块、停顿分析子模块、强调、重音分析子模块和字音转换子模块,其中音变、变调分析子模块是将输入文本进行音变现象分析。汉语的每个音节在单独发音时,都有自己稳定的静态声调。然而在连续语流中,由于每个音节都会受到它前后音节的影响,使得它原有的单字声调发生变异,成为“动态声调”,我们把这种 现象称之为协同发音现象,也叫“音变”现象。其变化的情况可以分为:发生“部分变调”;或发生“全部变调”,即失去原有的单字调值;或发生声调融合,即与别的声调连成一体。例如,“重量(zhong4liang4)”和“重庆(chong2qing4)”,同一个“重”字在不同的两个词组里发音已经完全不相同;再如“爸爸(ba1ba4)”,第一个“爸”的发音已经变为阳平(1声)。
声调的变化与字(音节)所在的词组及它在词组中的位置有关。比如某个音节声调在二字词、三字词和四字词以及在词中的位置不同,变化也不尽相同。动态声调和静态声调直接有内在的联系性和对应性。二字词在汉语中占的比例最高,约为74.3%,是最常用的基本语言单位,也是构成三字词和四字词一部分。
音变、变调处理过程采用音变匹配法,即将每个词组字符串中的二字词、三字词和四字词分别与文本处理规则数据库音变、变调规则表中的二字词、三字词和四字词进行匹配比对,如果完全匹配则进行相应的转换处理,否则原字符串保持不变。
表3变调规则表
双音节词的变调规则 | (1)上声+上声→阳平+上声; |
(2)上声+其它声调,平上+其它声调(不变) | |
三音节词变调规则 | (1)阴平+阳平+阴平(或阳平、去声)→阳平+阴平+阴平(或阳平、去声); |
(2)阴平+阳平+上声→阴平+去声+上声; | |
(3)阳平+阳平+阴平(或去声)→阳平+阴平+阴平(或去声); | |
(4)阳平+阳平+阳平(或上声)→阳平+去声+阳平(或上声); | |
(5)上声+上声+阴平(或阳平、上声、去声)→阳平+半上+阴平(或阳平、上声、去声); | |
(6)去声+去声+其它~去声(53)+去声(31)+其它; | |
轻声调型规则 | (1)阴平+轻声,轻声取41降调,例如“他的”; |
(2)阳平+轻声,轻声取51降调,例如“得了”; | |
(3)上声+轻声,轻声取高平调44,例如“好的”; | |
(4)去声+轻声,轻声取21降调,例如“对的”; | |
音节词变调规则 | 以双音节变调规律为基础,例如可以将前两个音节和后两个音节分别当作双 音节词变调。 |
停顿分析子模块是将送入的字符串根据韵律规则中的停顿规则,按照韵律边界的不同,插入适当时间长度的停顿(无声段)。其处理过程采用韵律边界匹配法,即从句首向句尾依次将字符串中韵律边界标记与韵律词标记、韵律短语标记和语调短语标记进行匹配,如果满足其一就将其韵律边界标记处插入与韵律边界等价的停顿。否则,字符串保持不变。其停顿等级包括:一级停顿、二级停顿、三级停顿和四级停顿,其适用范围如表3和表4所示。
表4停顿与停顿位置、时间间隔列表
停顿等级 | 停顿位置 | 插入形式的 | 时间间隔 |
一级停顿 | 语调短语边界 | 插入 | 0.125秒~0.6秒 |
一级停顿 | 韵律短语边界 | 插入 | 0.05秒~0.1秒 |
三级停顿 | 韵律词组边界 | 插入 | 0.0375秒 |
四级停顿 | 韵律词边界 | 插入 | 0.0157秒 |
强调、重音分析子模块是根据韵律规则中的强调、重音规则,将停顿分析模块的输出字符串中按照韵律边界不同和重音的位置修正停顿(无声段)的时间长度或者韵律边界的字词的音高或时长,其适用范围如表4所示。
强调、重音分析子模块的处理过程采用强调、重音匹配法,即:从句首向句尾依次将字符串中强调、重音标记与强调、重音标记表进行匹配,如果满足其一就在其标记处插入相应的强调、重音标注等级或提高基频、时长。
本发明中语句重音等级的预测借助于韵律预测树实现,利用多重二分叉韵律预测树,根据韵律组块内部两个分叉之间句法关系,以及常规重音分布规律,给每个二分叉韵律成分赋予相对的轻/重地位;计算每个韵律词最后负载的重度指标,确定每个韵律词的重度;根据各个韵律词的重度,输出标注重度信息的字符串。
表5重音的区别特征表
注:“+”表示增大,“-”表示减小。
字音转换子模块是将输入文本按照拼音表转换成标注了韵律信息的拼音码串。处理过程为:从句首向句尾、依次将文本字符与文本处理规则数据库中的拼音表进行匹配,如果满足匹配条件则将该字符用与其对应的拼音码替代,直至将整个文本字符替代完毕。输出转换后的拼音码串给语音合成处理程序。
而后的语音合成处理就可以采用通用的语音合成方法,如采用Viterbi等寻优算法实现合成基元选取,再采用PSOLA技术的波形拼接算法进行语音合成,即可输出自然度很高的自然语音。
下面对从文本到语音合成韵律标注的映射举例说明:
例如:
·文本:他们的关系本来就一向很不好。
·分词标注后的结果:
(名-形(名代{的}-名(名{的}他们的)关系)(副-形本来(副-形就(副-形一向(副-形(程副一副很不)好)))))
·韵律标注后的结果:
<sentence><w>他们<w/><w>的</w><w>关系</w><breaktime=400/><w>本来<w/><w>就</w><w>一向</w><w emp=1>很</w><w>不好</w></sentence>
·拼音码标注的结果:
<sentence><w>/r{talmen5}<w/><w>/u{de5}<w/><w>/n{guanlxi4}<w/><breaktime=300/><w>/d{ben3lai2}<w/><w>/d{jiu4}<w/><w>/d{yilxiang4}<w/><w emp=1><w>/d{hen3}<w/><w>/a{bu4hao3}/</w></sentence>
其中,韵律标注符号见表6。
表6韵律标注符号
标识名称 | 句式结构 | 用途与说明 |
句子标识 | <sentence>...</sentence> | ...表示为句子 |
字词标识 | <w>...</w> | ...表示为字词 |
语气标识 | <sentence>...</sentence> | 陈述句语气 |
<sentence mode=question>...</sentence> | 疑问句语气 | |
<sentence mode=ejaculatory>...</sentence> | 感叹句语气 | |
停顿标识 | <break time=x/> | x代表时间,单位为毫秒 |
发音基元标识 | <w emp=x>...</w> | x=-1或0或1,分别代表字的发音为轻读、正常读和重读。 |
结合图6,为一个可以实施本发明的适合的计算系统环境。该计算系统环境只是可以实施本发明的计算系统环境的一个实施例,而并非是对本发明的应用范围或功能进行任何限制。计算环境也不应被认为是对实例性操作环境中所示的任何一个部件或者部件的组合有任何依赖性或要求。
本发明可以用于众多的特定的或非特定的计算系统环境或配置,如:个人计算机,小型计算机,中型计算机,大型计算机,网络计算机,服务器计算机,手持或膝上型装置,多处理器系统,基于微处理器的系统,机顶盒,可编程电子消费装置,包括任何上述的系统或装置的分布式计算环境,等等。
本发明可以使用计算机可执行指令的一般模式来描述,例如计算机的程序模块。程序模块包括程序、子程序、对象、控件、组件、数据结构等,它们用来执行特定的任务或者实现特定的抽象数据类型。本发明也可以被应用于分布式计算环境,其中通过利用通信网络链接的远程处理装置来执行任务。在分布式计算环境中,程序模块可以同时存放在包括存储器存储装置在内的本地和远程计算机存储介质中。
图6所示的计算机装置的构成包括:一个或多个中央处理单元、内部存储器、外部存储 器、输入设备接口、输出设备接口以及连接上述各个单元或部件的系统总线。系统总线可以是包括如下几种类型的总线结构中的任何总线结构:一个存储总线或存储控制器、一个外围总线和使用各种总线结构中总线的局部总线。这些总线结构:如工业标准结构(ISA)总线、微通道体系结构(MCA)总线、增强的ISA线、视频电子标准协会(VESA),局部总线以及外部设备互连(PCI)总线(也叫夹层总线(Mezzanine bus),等等。
用户可以通过输入装置向计算机口输人命令和信息。这些输入装置可以是键盘、麦克风以及指点装置如鼠标、轨迹球或触摸板,还可以是其他的输入装置(图上未画出),例如操作杆、游戏垫、圆盘式卫星电视大线(satellite dish)、扫描仪等。上述输人装置通常是通过一个耦合到系统总线的用户输入接口连接到处理单元的,但也可以通过别的的接口和总线结构连接,例如并行端口、游戏端口或者通用串行总线(USB)。监视器或者其他类型的显示装置通过一个接口,例如视频接口连接到系统总线。除了该监视器外,计算机也可以包括其他的外部输出设备,例如扬声器以及打印机,它们通过一个外部输出接口连接。
计算机可以通过逻辑连接的方式连接到一台或更多远程计算机(例如远程计算机)从而在网络环境中进行操作。远程计算机可以是个人计算机、手持装置、服务器、路由器、网络计算机、对等装置(peer device)或者其他常用的网络节点,通常包括多个或所有上述与计算机相关的部件。图6中所示的逻辑连接包括一个局域网和一个广域网,但协议包括其它网络。这种网络环境常见于办公室、企业范围内的计算机网络、内部网和因特网。
Claims (1)
1.一种基于韵律结构的语音合成文本处理方法,其特征在于它包括以下计算机可实现的步骤:
(1)文本规整步骤,将输入的文本句子字符串按照预先设置的特殊符号表转换成合法读音字符串,输出合法读音字符串给韵律结构分析步骤;
(2)韵律结构分析步骤,将接收到的合法读音字符串送入韵律结构分析模块进行处理,根据预先设置的分词规则、韵律结构生成规则对合法读音字符串标注韵律结构信息,输出标注了韵律结构信息的标注字符串给语言学处理步骤;
其中,所述的韵律结构分析模块包括以下几个子模块:
分词和词性标注子模块,用以对输入的合法读音字符串根据预先设置的分词规则进行比较,将字符串根据分词规则标注分词信息和词性信息,输出标注了分词信息和词性信息的字符串送给韵律结构预测子模块;所述的预先设置的分词规则为:将输入文本的合法读音字符串从句首向句尾、逐字假设分割点形成词,从当前字向后进行最大词匹配处理确定词边界;
韵律结构预测子模块,用以将送入的标注分词信息和词性信息的字符串构建韵律结构预测树,并根据韵律结构预测树来确定韵律边界位置,对目标语句确定输出语句的韵律组块及其层级结构,输出标注韵律层次结构的标注字符串给语言学处理步骤;
其中,所述的韵律结构生成规则进一步包括以下几个处理步骤:
将语句中在句法上距离最近的语法词两两连接为韵律节点,构成韵律词;
再将在句法上距离最近的韵律词两两连接为更高一个层级的韵律节点,构成韵律短语;
重复连接构建,直到在句法上仅有一个最高层级的节点,构成语调短语;
将同层的每两个相邻的节点之间划分为韵律边界或一个韵律停顿,则构建成为韵律结构预测树;
其中韵律结构的特点是:
一个语调短语包括一个或一个以上的韵律短语,一个韵律短语包括一个或一个以上的韵律词,一个韵律词包括一个或一个以上的语法词;
两个语法词在同一个韵律词内部;
两个语法词在不同的韵律词内,但在同一个韵律短语内;
两个语法词不在同一个韵律短语内;
(3)语言学处理步骤,将接收到的标注字符串送入语言学处理模块进行处理,逐字按照预先设置的韵律生成规则、拼音表进行字音转换,将韵律结构信息标注映射为相应韵律信息,将输入的汉字符映射为拼音码,输出处理后的标注拼音码串给语音合成处理程序;
其中,所述的语言学处理模块进一步包括以下几个子模块:
音变、变调分析子模块,用以将送入的标注字符串进行音变现象分析,将两字词、三字词和四字词与预先设置的韵律规则库中的音变、变调规则相比较,将应发生音变或变调现象的字或音节标注为正确的音调,输出的字符串给停顿分析子模块;所述的音变、变调分析子模块处理过程为:将每个词组的字符串按照二字词、三字词和四字词分别与文本处理数据库中的音变、变调规则表进行匹配比对,如果完全匹配则进行相应的转换处理,输出转换后的字符串,否则输出原字符串;
停顿分析子模块,用以将音变、变调分析子模块送入的标注字符串与预先设置的韵律规则库中的停顿规则相比较,对标注字符串按照韵律边界的不同插入适当时问长度的停顿或无声段,输出的字符串给强调、重音分析子模块;所述的停顿分析子模块的处理过程为:将标注的字符串根据韵律规则中的停顿规则,按照韵律边界的不同,从句首向句尾、依次将字符串中韵律边界标记与韵律词标记、韵律短语标记和语调短语标记进行匹配,如果满足其一就在其韵律边界标记处插入与韵律边界标记等价的停顿,否则字符串保持不变;
强调、重音分析子模块,用以将停顿分析子模块送入的标注字符串根据常规重音分布规律标注重音位置,并按照韵律结构预测树韵律边界的不同标注重音位置,以及预先设置的韵律规则中的强调、重音规则修正停顿的时间长度或者韵律边界的字词的音高或时长,输出的字符串给字音转换子模块;所述的强调、重音分析子模块中标注重音位置步骤又包括以下计算机可以实现的步骤:将得到的字符串按照韵律结构预测树内部两个分叉之间的句法关系,以及常规重音分布规律,给每个二分叉韵律成分标注相对的轻、重地位;计算每个韵律词最后标注的重度指标,确定每个韵律词的重度;将各个韵律词的重度标注于字符串上,输出标注后的字符串;
字音转换子模块,用以将强调、重音分析子模块送入的字符串按照拼音表转换成标注韵律信息的拼音码串并输出,输出的字符串给语音合成处理程序;所述的字音转换子模块的处理过程为:将文本字符从句首向句尾、依次将字符与文本处理数据库中的拼音表进行匹配,如果满足匹配要求则就将该字符用与其对应的拼音码替代,直至将整个文本字符替代完毕,输出标准音码串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101511512A CN101000764B (zh) | 2006-12-18 | 2006-12-18 | 基于韵律结构的语音合成文本处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101511512A CN101000764B (zh) | 2006-12-18 | 2006-12-18 | 基于韵律结构的语音合成文本处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101000764A CN101000764A (zh) | 2007-07-18 |
CN101000764B true CN101000764B (zh) | 2011-05-18 |
Family
ID=38692703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101511512A Expired - Fee Related CN101000764B (zh) | 2006-12-18 | 2006-12-18 | 基于韵律结构的语音合成文本处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101000764B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11848001B2 (en) | 2014-09-26 | 2023-12-19 | Intel Corporation | Systems and methods for providing non-lexical cues in synthesized speech |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739393B (zh) * | 2008-11-20 | 2012-07-04 | 苗玉水 | 汉语文本智能分词法 |
CN102201234B (zh) * | 2011-06-24 | 2013-02-06 | 北京宇音天下科技有限公司 | 一种基于音调自动标注及预测的语音合成方法 |
CN102254554B (zh) * | 2011-07-18 | 2012-08-08 | 中国科学院自动化研究所 | 一种对普通话重音进行层次化建模和预测的方法 |
CN103093751A (zh) * | 2011-10-28 | 2013-05-08 | 上海移远通信技术有限公司 | 语音合成系统及其语音合成方法 |
US8606577B1 (en) * | 2012-06-25 | 2013-12-10 | Google Inc. | Visual confirmation of voice recognized text input |
CN104020985A (zh) * | 2013-03-03 | 2014-09-03 | 上海能感物联网有限公司 | 汉语文本遥控计算机程序运行的方法 |
CN104036773B (zh) * | 2014-05-22 | 2017-12-29 | 立德高科(北京)数码科技有限责任公司 | 将录入的文本内容通过防伪辨别装置以播放的方法及系统 |
JP6520108B2 (ja) * | 2014-12-22 | 2019-05-29 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
CN104867490B (zh) * | 2015-06-12 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 韵律结构预测方法和装置 |
CN107016994B (zh) * | 2016-01-27 | 2020-05-08 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN106205600A (zh) * | 2016-07-26 | 2016-12-07 | 浪潮电子信息产业股份有限公司 | 一种可交互中文文本语音合成系统及方法 |
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其系统 |
CN107220300B (zh) * | 2017-05-05 | 2018-07-20 | 平安科技(深圳)有限公司 | 信息挖掘方法、电子装置及可读存储介质 |
CN107680588B (zh) * | 2017-05-10 | 2020-10-20 | 平安科技(深圳)有限公司 | 智能语音导航方法、装置及存储介质 |
CN107291676B (zh) * | 2017-06-20 | 2021-11-19 | 广东小天才科技有限公司 | 截断语音文件的方法、终端设备及计算机存储介质 |
CN107240393A (zh) * | 2017-08-16 | 2017-10-10 | 广东海翔教育科技有限公司 | 一种语音合成方法 |
CN108962217B (zh) * | 2018-07-28 | 2021-07-16 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN109065016B (zh) * | 2018-08-30 | 2021-04-13 | 出门问问信息科技有限公司 | 语音合成方法、装置、电子设备及非暂态计算机存储介质 |
CN111508522A (zh) * | 2019-01-30 | 2020-08-07 | 沪江教育科技(上海)股份有限公司 | 一种语句分析处理方法及系统 |
CN110136748A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种节奏识别校正方法、装置、设备及存储介质 |
CN110534089B (zh) * | 2019-07-10 | 2022-04-22 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN112242132A (zh) * | 2019-07-18 | 2021-01-19 | 阿里巴巴集团控股有限公司 | 语音合成中的数据标注方法、装置和系统 |
CN110782871B (zh) | 2019-10-30 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 一种韵律停顿预测方法、装置以及电子设备 |
CN110797005B (zh) * | 2019-11-05 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 韵律预测方法、装置、设备和介质 |
CN112241629A (zh) * | 2019-12-23 | 2021-01-19 | 北京来也网络科技有限公司 | 结合rpa及ai的拼音标注文本生成方法及装置 |
CN111105780B (zh) * | 2019-12-27 | 2023-03-31 | 出门问问信息科技有限公司 | 一种韵律纠正方法、装置以及计算机可读存储介质 |
CN111226275A (zh) * | 2019-12-31 | 2020-06-02 | 深圳市优必选科技股份有限公司 | 基于韵律特征预测的语音合成方法、装置、终端及介质 |
CN110956948A (zh) * | 2020-01-03 | 2020-04-03 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
CN110797006B (zh) * | 2020-01-06 | 2020-05-19 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
JP7314079B2 (ja) * | 2020-02-21 | 2023-07-25 | 株式会社東芝 | データ生成装置、データ生成方法およびプログラム |
CN111667816B (zh) * | 2020-06-15 | 2024-01-23 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
CN111883104B (zh) * | 2020-07-08 | 2021-10-15 | 马上消费金融股份有限公司 | 语音切割方法、语音转换网络模型的训练方法及相关设备 |
CN112102810A (zh) * | 2020-09-22 | 2020-12-18 | 深圳追一科技有限公司 | 一种语音合成方法、系统及相关设备 |
CN112686018A (zh) * | 2020-12-23 | 2021-04-20 | 科大讯飞股份有限公司 | 一种文本分割方法、装置、设备及存储介质 |
CN112837691A (zh) * | 2021-01-14 | 2021-05-25 | 北京中科深智科技有限公司 | 在自动化配音场景中实现短语音同步的方法和装置 |
CN113393829B (zh) * | 2021-06-16 | 2023-08-29 | 哈尔滨工业大学(深圳) | 一种融合韵律和个人信息的中文语音合成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1099165A (zh) * | 1994-04-01 | 1995-02-22 | 清华大学 | 基于波形编辑的汉语文字-语音转换方法及系统 |
CN1333501A (zh) * | 2001-07-20 | 2002-01-30 | 北京捷通华声语音技术有限公司 | 一种动态汉语语音合成方法 |
-
2006
- 2006-12-18 CN CN2006101511512A patent/CN101000764B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1099165A (zh) * | 1994-04-01 | 1995-02-22 | 清华大学 | 基于波形编辑的汉语文字-语音转换方法及系统 |
CN1333501A (zh) * | 2001-07-20 | 2002-01-30 | 北京捷通华声语音技术有限公司 | 一种动态汉语语音合成方法 |
Non-Patent Citations (4)
Title |
---|
贺琳,吕士楠, 冯勇强, 初敏, 钱瑶.汉语合成语料库的韵律层级标注研究.新世纪的现代语音学-第五届全国现代语音学学术会议论文集.2001,323-326. * |
赵力.语音信号处理.机械工业出版社,2003,198-207. * |
赵晟,陶建华,蔡莲红.基于规则学习的韵律结构预测.中文信息学报16 5.2002,16(5),30-37. |
赵晟,陶建华,蔡莲红.基于规则学习的韵律结构预测.中文信息学报16 5.2002,16(5),30-37. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11848001B2 (en) | 2014-09-26 | 2023-12-19 | Intel Corporation | Systems and methods for providing non-lexical cues in synthesized speech |
Also Published As
Publication number | Publication date |
---|---|
CN101000764A (zh) | 2007-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101000764B (zh) | 基于韵律结构的语音合成文本处理方法 | |
CN101000765B (zh) | 基于韵律特征的语音合成方法 | |
CN107077841B (zh) | 用于文本到语音的超结构循环神经网络 | |
US11443733B2 (en) | Contextual text-to-speech processing | |
US6879956B1 (en) | Speech recognition with feedback from natural language processing for adaptation of acoustic models | |
CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
TW473674B (en) | Chinese word segmentation apparatus | |
US8719006B2 (en) | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis | |
CN1540625B (zh) | 多语种文本-语音系统的前端结构 | |
EP2958105B1 (en) | Method and apparatus for speech synthesis based on large corpus | |
US20210158795A1 (en) | Generating audio for a plain text document | |
CN112352275A (zh) | 具有多级别文本信息的神经文本到语音合成 | |
CN104166462A (zh) | 一种文字的输入方法和系统 | |
CN105404621A (zh) | 一种用于盲人读取汉字的方法及系统 | |
EA016427B1 (ru) | Способ синтеза речи | |
CN105895076B (zh) | 一种语音合成方法及系统 | |
KR101097186B1 (ko) | 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법 | |
CN105895075B (zh) | 提高合成语音韵律自然度的方法及系统 | |
CN101004909A (zh) | 基于韵律特征的汉语语音合成基元的选取方法 | |
CN111090720A (zh) | 一种热词的添加方法和装置 | |
KR20080011859A (ko) | 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 | |
Carson-Berndsen | Multilingual time maps: portable phonotactic models for speech technology | |
Pakrashi et al. | Analysis-By-Synthesis Modeling of Bengali Intonation | |
TWI635483B (zh) | Method and system for generating prosody by using linguistic features inspired by punctuation | |
Wei et al. | A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110518 Termination date: 20131218 |