CN105895076A - 一种语音合成方法及系统 - Google Patents

一种语音合成方法及系统 Download PDF

Info

Publication number
CN105895076A
CN105895076A CN201510039232.2A CN201510039232A CN105895076A CN 105895076 A CN105895076 A CN 105895076A CN 201510039232 A CN201510039232 A CN 201510039232A CN 105895076 A CN105895076 A CN 105895076A
Authority
CN
China
Prior art keywords
synthesis unit
weak reading
basic synthesis
weak
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510039232.2A
Other languages
English (en)
Other versions
CN105895076B (zh
Inventor
祖漪清
王祖燕
黄维
邵鹏飞
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510039232.2A priority Critical patent/CN105895076B/zh
Publication of CN105895076A publication Critical patent/CN105895076A/zh
Application granted granted Critical
Publication of CN105895076B publication Critical patent/CN105895076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种语音合成方法及系统,该方法包括:接收待合成文本;确定对应所述文本的基本合成单元序列,所述基本合成单元序列包括一个或多个基本合成单元;确定各基本合成单元是否弱读;依次提取所述基本合成单元序列中各基本合成单元的韵律特征,并且如果所述基本合成单元为弱读,则所述基本合成单元的韵律特征包括弱读特征;根据所述基本合成单元的韵律特征确定所述基本合成单元对应的合成参数模型或语音片断,得到对应所述基本合成单元序列的合成参数模型序列或语音片断序列;根据所述合成参数模型序列生成连续语音,或拼接所述语音片断序列中的语音片断得到连续语音。利用本发明,可以简单有效地提高连续合成语音的自然度。

Description

一种语音合成方法及系统
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法及系统。
背景技术
实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求。语音合成技术将文字信息转化为自然的语音信号,实现任意文本的实时转换,改变了传统通过录音回放实现机器开口说话的繁琐操作,并节省了系统存储空间,在信息交互日益增多的当今特别是在信息内容需要经常变动的动态查询应用方面发挥了越来越重要的作用。
近年来,随着信息社会的需求发展,用户对人机交互提出了更高的要求,高自然度的语音合成效果已经成为高性能语音合成系统的重要标志。韵律是语音合成自然度的关键问题。韵律包括两个层面的问题:(1)字词间断(break),(2)重读(focus)。字词间断及字音重读等反映语音抑扬顿挫节奏感的韵律问题受到越来越多研究人员的关注。字词间断可以通过词性等句法信息分析加以解决,在训练数据足量的情况下可以获得80%以上的正确率,满足实用需求。而字音重读的问题由于涉及语义焦点分析尚不能很好解决,对此很多语音合成系统常采用避免提供字音重读功能的方法,导致合成语音在调上没有高低起伏的节奏感,影响了合成的自然效果。
在现有技术中,一般采用基于语义分析的重音预测方法,即通过语义分析确定连续输入文本的焦点进而确定需要重读的合成单元并标注,然后根据重音预测结果和合成特征获得相应的合成模型,进而得到连续合成语音信号。然而重音预测存在很大的不确定性,其预测结果往往不够准确,特别是在内容不限的文本中更容易产生问题,在重读信息用在了不合适的地方时会带来明显的负面影响。
发明内容
本发明实施例提供一种语音合成方法及系统,以提高连续合成语音的自然度。
为实现上述目的,本发明的技术方案是:
一种语音合成方法,包括:
接收待合成文本;
确定对应所述文本的基本合成单元序列,所述基本合成单元序列包括一个或多个基本合成单元;
确定各基本合成单元是否弱读;
依次提取所述基本合成单元序列中各基本合成单元的韵律特征,并且如果所述基本合成单元为弱读,则所述基本合成单元的韵律特征包括弱读特征;
根据所述基本合成单元的韵律特征确定所述基本合成单元对应的合成参数模型或语音片断,得到对应所述基本合成单元序列的合成参数模型序列或语音片断序列;
根据所述合成参数模型序列生成连续语音,或拼接所述语音片断序列中的语音片断得到连续语音。
优选地,所述确定所述基本合成单元是否弱读包括:
获取所述基本合成单元所属的音节串和/或音节;
确定所述音节串和/或音节是否为弱读,如果是,则确定所述基本合成单元为弱读。
优选地,所述确定所述音节串和/或音节是否弱读包括:
检查所述基本合成单元所属的音节串是否在预设的弱读词表中;
如果是,则确定所述基本合成单元弱读;
否则,检查所述基本合成单元所属的音节是否在预设的弱读词表中;
如果所述基本合成单元所属的音节在预设的弱读词表中,则提取所述音节的韵律特征,然后根据所述音节的韵律特征及预先构建的弱读决策树确定所述音节是否弱读;如果所述音节弱读,则所述基本合成单元弱读,否则所述基本合成单元不弱读;
如果所述基本合成单元所属的音节不在预设的弱读词表中,则确定所述基本合成单元不弱读。
优选地,所述弱读词表的构建过程包括:
获取候选弱读词,形成弱读词集;
获取训练语料;
依次计算所述弱读词集中各候选弱读词在所述训练语料中的弱读频度;
如果所述弱读频度大于频度阈值,则确定所述候选弱读词为弱读词;
由确定的弱读词生成弱读词表。
优选地,所述弱读决策树的构建过程包括:
获取基于弱读词表的大量文本作为训练数据;
对所述训练数据进行分词处理,并确定各分词包含的各音节;
对所述各音节进行韵律标注,韵律标注信息包括:弱读信息;
根据所述训练数据及对应的各音节的韵律标注信息,训练得到弱读决策树。
优选地,所述根据所述基本合成单元的韵律特征确定所述基本合成单元对应的合成参数模型或语音片断包括:
如果所述基本合成单元的韵律特征包括弱读特征,则获取所述基本合成单元对应的弱读合成参数模型或弱读语音片段;
如果所述基本合成单元的韵律特征不包括弱读特征,则获取所述基本合成单元对应的常规合成参数模型或常规语音片段。
优选地,所述方法还包括:预先构建对应各弱读基本合成单元的弱读合成参数模型,具体包括:
获取文本训练数据及对应的语音数据;
确定对应所述文本训练数据的基本合成单元序列,所述基本合成单元序列中包括弱读基本合成单元;
对所述基本合成单元进行韵律标注,基本合成单元的韵律标注信息包括:弱读基本合成单元的弱读标注信息;
选取弱读基本合成单元对应的训练数据;
根据选取的训练数据的韵律标注信息建立决策树分类问题集;
利用选取的带有韵律标注信息的训练数据及所述决策树分类问题集指导基于决策树的上下文相关的合成参数模型训练,得到对应所述弱读基本合成单元的弱读合成参数模型。
一种语音合成系统,包括:
接收模块,用于接收待合成文本;
基本合成单元序列确定模块,用于确定对应所述文本的基本合成单元序列,所述基本合成单元序列中包括一个或多个基本合成单元;
弱读预测模块,用于确定各基本合成单元是否弱读;
韵律特征提取模块,用于依次提取所述基本合成单元序列中各基本合成单元的韵律特征,并且如果所述基本合成单元所对应的音节为弱读,则所述基本合成单元的韵律特征包括弱读特征;
获取模块,用于根据所述基本合成单元的韵律特征确定所述基本合成单元对应的合成参数模型或语音片断,得到对应所述基本合成单元序列的合成参数模型序列或语音片断序列;
合成模块,用于根据所述合成参数模型序列生成连续语音,或拼接所述语音片断序列中的语音片断得到连续语音。
优选地,所述弱读预测模块包括:
获取单元,用于获取各基本合成单元所属的音节串和/或音节;
确定单元,用于确定所述音节串和/或音节是否为弱读,如果是,则确定所述基本合成单元为弱读。
优选地,所述确定单元包括:
检查单元,用于检查所述基本合成单元所属的音节串是否在预设的弱读词表中;如果是,则确定所述音节弱读;否则,检查所述基本合成单元所属的音节是否在预设的弱读词表中;如果是,则触发提取单元提取所述音节的韵律特征;否则确定所述基本合成单元不弱读;
提取单元,用于根据所述检查单元的触发提取所述音节的韵律特征;
判断单元,用于根据所述提取单元提取的音节的韵律特征及预先构建的弱读决策树确定所述音节是否弱读,并且如果所述音节弱读,则确定所述基本合成单元弱读,否则确定所述基本合成单元不弱读。
优选地,所述系统还包括:弱读词表构建模块,用于构建所述弱读词表。
优选地,所述系统还包括:弱读决策树构建模块,用于构建所述弱读决策树。
优选地,所述获取模块,具体用于在所述基本合成单元的韵律特征包括弱读特征时,获取所述基本合成单元对应的弱读合成参数模型或弱读语音片段;在所述基本合成单元的韵律特征不包括弱读特征时,获取所述基本合成单元对应的常规合成参数模型或常规语音片段。
优选地,所述系统还包括:弱读合成参数模型构建模块;
所述弱读合成参数模型构建模块包括:
训练数据获取单元,用于获取文本训练数据及对应的语音数据;
处理单元,用于确定所述文本训练数据的基本合成单元序列,所述基本合成单元序列中包括弱读基本合成单元;
韵律标注单元,用于对所述基本合成单元进行韵律标注,所述基本合成单元的韵律标注信息包括:弱读基本合成单元的弱读标注信息;
选取单元,用于选取弱读基本合成单元对应的训练数据;
问题集建立单元,用于根据所述选取单元选取的数据的韵律标注信息建立决策树分类问题集;
训练单元,用于利用所述选取单元选取的带有韵律标注信息的训练数据及所述决策树分类问题集指导基于决策树的上下文相关的合成参数模型训练,得到对应所述弱读基本合成单元的弱读合成参数模型。
本发明实施例提供的方法及系统,通过对合成文本中字词弱读因素的提取,可以准确、高效地实现对弱读的预测。这样,在语音合成时,通过处理较为容易的弱读现象,实现连续语音的整体起伏的效果,填补了当前语义理解技术对语音合成中重音预测尚未达到实用效果的空白,大大改善了连续合成语音的自然度。
附图说明
为了更清楚地说明本发明实施的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例基于弱读预测的语音合成方法的流程图;
图2示出了本发明实施例中确定基本合成单元是否弱读的流程图;
图3示出了本发明实施例中弱读决策树的构建流程图;
图4示出了本发明实施例中构建弱读合成参数模型的流程图;
图5示出了本发明实施例语音合成系统的结构框图;
图6示出了本发明实施例中弱读合成参数模型构建模块的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的采用基于语义分析的重音预测方法存在很大的不确定性,其预测结果往往不够准确,分析其原因,主要有以下几点:
1.一般来说占据词典的绝大多数的实词(如名词、动词等)都可能重读,对其穷尽列举是不可能的任务。
2.单凭句法层面的控制很难确定重读词,只有具备了语义信息才有可能确定重读信息,这还需更高层次的智能化处理,现有技术对语义的智能化处理能力还十分有限。
3.目前重音预测采用的特征参数主要是词性(POS)、词长、词在韵律结构中所处的位置等和语义无关的参数,其对预测结果没有直接的指导意义,相应的基于这些特征参数的预测结果也不太可靠。
基于上述分析,针对连续语音合成系统中对合成语音高低起伏效果的需求、以及现有技术对重读准确判断能力不足的情况,本发明实施例提出了一种语音合成方法及系统,基于对连续文本中对应的各音节的弱读预测,通过处理较为容易的弱读现象,即利用“轻”反衬“重”,解决调上起伏的问题。
对于不同的语言,弱读通常表现为不同的词及特点,比如,汉语普通话中的轻声词、藏语中的虚词、英文和很多西方语言中的虚词(介词、连接词等)等。弱读因素在句中的作用相对明确,通常可以通过词性、甚至语音确定,一般不会超越句法层面,即不涉及语义。因此处理弱读比重读的代价小很多。
为此,本发明实施例的语音合成方法及系统,基于弱读预测,高效、准确地确定合成文本中的弱读单元,从而为语音合成提供准确的韵律信息。基于此,在语音合成时,如果基本合成单元的韵律特征包括弱读特征,则获取该基本合成单元对应的弱读合成参数模型或弱读语音片段;如果基本合成单元的韵律特征不包括弱读特征,则获取该基本合成单元对应的常规合成参数模型或常规语音片段。这样,利用这些相应的合成参数模型或语音片段生成连续语音,有效地解决了调上起伏的问题。
如图1所示,示出了本发明实施例语音合成方法的流程,包括以下步骤:
步骤101,接收待合成文本。
步骤102,确定对应所述文本的基本合成单元序列,所述基本合成单元序列包括一个或多个基本合成单元。
具体地,可以通过字音转换,得到对应所述文本的各基本合成单元,并由所述基本合成单元形成与所述文本对应的基本合成单元序列。
所述基本合成单元是指最小的合成单元,对于西方语言,通常采用音素作为基本合成单元,例如:英文单词tone所包含的音素有三个,它们是t,ow,ng;基于音节的声调语言可以将声母/韵母作为基本合成单元,例如声母一词的声母韵母序列是sh,eng,m,u。其中韵母eng包含两个音素e,ng。
步骤103,确定各基本合成单元是否弱读。
具体地,可以获取各基本合成单元所属的音节串和/或音节,然后确定所述音节串和/或音节是否为弱读,如果是,则确定所述基本合成单元为弱读。
音节是语音结构的基本单位。在汉语中一般来说一个汉语的读音即为一个音节。在英语中,一个元音可构成一个音节,一个元音和一个或几个辅音音素结合也可以构成一个音节。
需要说明的是,一个音节可以对应一个或多个基本合成单元。例如“声母”是一个分词,它包括两个音节,每个音节都包含一个声母,一个韵母(sh,eng,m,u),因此“声母”一词包含四个基本合成单元。相应地,如果一个音节串或音节为弱读,则其对应的所有基本合成单元均弱读。
步骤104,依次提取所述基本合成单元序列中各基本合成单元的韵律特征,并且如果所述基本合成单元所对应的音节为弱读,则所述基本合成单元的韵律特征包括弱读特征。
在现有技术中,韵律特征是指语音中除音色特征之外的音高(即反映声调)、音长(即各音段的时长)和音强(即强弱)方面的变化,从语句层次上看,音高、音强、音长等因素的变化可以构成语调。
在本发明实施例中,基本合成单元的韵律特征还包括弱读特征,即如果基本合成单元所对应的音节为弱读,则该基本合成单元的韵律特征包括弱读特征。
当然,在实际应用中,所述基本合成单元的韵律特征还包括一些与间断相关的特征,比如:基本合成单元所在分词的词性、基本合成单元在分词中的位置;基本合成单元在韵律词或韵律短语中的位置、基本合成单元所在分词在句中的位置等。
步骤105,根据所述基本合成单元的韵律特征确定所述基本合成单元对应的合成参数模型或语音片断,得到对应所述基本合成单元序列的合成参数模型序列或语音片断序列。
前面提到,如果基本合成单元为弱读,则其韵律特征中会包含有弱读特征,因此根据该特征,即可选择该基本合成单元对应的弱读合成参数模型或弱读语音片段。也就是说,如果所述基本合成单元的韵律特征包括弱读特征,则获取所述基本合成单元对应的弱读合成参数模型或弱读语音片段;如果所述基本合成单元的韵律特征不包括弱读特征,则获取所述基本合成单元对应的常规合成参数模型或常规语音片段。
步骤106,根据所述合成参数模型序列生成连续语音,或拼接所述语音片断序列中的语音片断得到连续语音。
需要说明的是,一个基本合成单元在不同的语境下,可能会弱读,也可能不弱读,因此,对于具有这种特性的基本合成单元,需要预先建立与其对应的非弱读合成参数模型及弱读合成参数模型。弱读合成参数模型的构建与非弱读合成参数模型的构建类似,对此下面详细说明。
可见,本发明实施例提供的语音合成方法,通过处理较为容易的弱读现象,即利用“轻”反衬“重”,解决了调上起伏的问题。
如图2所示,是本发明实施例中确定基本合成单元是否弱读的流程图。
步骤201,获取当前检查的基本合成单元。
步骤202,检查是否有所述基本合成单元所属的音节串;如果是,则执行步骤203;否则,执行步骤204。
具体地,可以对待合成文本进行分词处理,并确定得到的各分词包含的各音节串和/或音节,从而得到所述基本合成单元所属的音节串或音节。
步骤203,检查所述音节串是否在预设的弱读词表中;如果是,则执行步骤208;否则,执行步骤204。
步骤204,获取所述基本合成单元所属的音节。
步骤205,检查所述音节是否在预设的弱读词表中。如果是,则执行步骤206;否则,执行步骤209。
弱读音节容易捕捉且数量较少,因而相对容易穷尽。在本发明实施例中,可以预先基于对训练语料的统计建立弱读词表,具体地,可以按照以下过程进行:
(1)获取候选弱读词,形成弱读词集。在实际应用中,可以将所有虚词作为候选弱读词。
(2)获取训练语料。
(3)依次计算所述弱读词集中各候选弱读词在所述训练语料中的弱读频度。
(4)如果所述弱读频度大于频度阈值,则确定所述候选弱读词为弱读词;
(5)由确定的弱读词生成弱读词表。
当然,在实际应用中,还可以通过其它方法构建弱读词表,比如统计模型方法,对此本发明实施例不做限定。
步骤206,提取所述音节的韵律特征。
所述音节的韵律特征可以包括以下一种或多种特征:音节所在分词的词性、音节所在分词中的位置等。
步骤207,根据所述音节的韵律特征及预先构建的弱读决策树确定所述基本合成单元是否弱读。
具体地,首先根据音节的韵律特征及预先构建的弱读决策树确定所述音节是否弱读;如果所述音节弱读,则所述基本合成单元弱读,否则所述基本合成单元不弱读。
步骤208,确定所述基本合成单元弱读。
考虑到相同单词在不同的上下文环境下具有不同的功能,特别是在担当不同词性时,其往往具有不同的表现力,因而弱读具有一定的不确定性。对此本发明实施例进一步根据预先建立的弱读决策树确定当前检查的音节在具体上下文情况下是否弱读。
弱读决策树的构建过程及利用该弱读决策树确定音节是否弱读的具体过程将在后面详细说明。
步骤209,确定所述基本合成单元不弱读。
如图3所示,是本发明实施例中弱读决策树的构建流程,包括以下步骤:
步骤301,获取基于弱读词表的大量文本作为训练数据。
步骤302,对所述训练数据进行分词处理,并确定各分词包含的各音节。
步骤303,对所述音节进行韵律标注,韵律标注信息包括:弱读信息。
具体地,可以根据训练数据对应的语音数据对各音节进行韵律标注。
在实际应用中,韵律标注信息还可进一步包括:弱读音节在分词中的位置、弱读音节所在分词的词性等。
步骤304,根据所述训练数据及对应的各音节的韵律标注信息,训练得到弱读决策树。
具体地,首先初始化弱读决策树,然后从所述弱读决策树的根节点开始,根据预先建立的问题集(该问题集包含所有和弱读相关的信息)依次考察每个非叶节点,如果当前考察的节点需要分裂,则对当前考察的节点进行分裂,并获取分裂后的子节点及所述子节点对应的训练数据;否则,将当前考察节点标记为叶节点;当所有非叶节点考察完成后,得到所述弱读决策树。
需要说明的是,在实际应用中,也可以采用其它方法构建弱读决策树,对此本发明实施例不做限定。
下面举例说明基于上述弱读决策树进行弱读预测的过程。
例如对于待合成的文本:红队和蓝队共有四十九本书。
进行分词处理,得到:红队/和(连词)/蓝队/共/有(存在动词)/四十九(数词)/本/书。
弱读预测:其中音节“和”“有”“十”在弱读词表中,因此只需要对这三个音节进行判断是否弱读。
根据弱读预测决策树有如下判断:
(1)弱读音节所在分词是否虚词?如果是则弱读。“和”符合条件,确定为弱读;
(2)弱读音节所在分词是否存在动词?如果是,前面是否有否定词?如果是,则弱读。“有”虽为存在动词,但是前面没有否定词,确定为非弱读;
(3)弱读音节所在分词是否数词?如果是,是否位于词中?如果是则弱读。“十”所在分词为数词,并位于词中,确定为弱读。
如果一个音节弱读,则该音节对应的所有基本合成单元均弱读,反之亦然。
前面提到,一个基本合成单元在不同的语境下,可能会弱读,也可能不弱读,因此,对于具有这种特性的基本合成单元,需要预先建立与其对应的非弱读合成参数模型及弱读合成参数模型。
如图4所示,是本发明实施例中构建弱读合成参数模型的流程图,包括以下步骤:
步骤401,获取文本训练数据及对应的语音数据。
步骤402,确定对应所述文本训练数据的基本合成单元序列,所述基本合成单元序列中包括弱读基本合成单元。
步骤403,对所述基本合成单元进行韵律标注,基本合成单元的韵律标注信息包括:基本合成单元常规的韵律标注信息(如基本合成单元所在音节、词、韵律词,及一些位置、词性、边界、边界调信息),以及弱读基本合成单元的弱读标注信息(如基本合成单元所在音节弱读、所在句弱读音节个数等等)。
步骤404,选取弱读基本合成单元对应的训练数据。
步骤405,根据选取的训练数据的韵律标注信息建立决策树分类问题集。
所述决策树分类问题集中包括当前基本合成单元前一个和前两个基本合成单元、后一个和后两个基本合成单元;当前基本合成单元所在分词的词性、所在分词中的位置;当前基本合成单元所在韵律词、韵律短语中的位置;当前基本合成单元是否弱读等。
步骤406,利用选取的带有韵律标注信息的训练数据及所述决策树分类问题集指导基于决策树的上下文相关的合成参数模型训练,得到对应所述弱读基本合成单元的弱读合成参数模型。
具体地,在根节点获得初始化声学模型,初始化训练集合T={t}(T包括训练文本中的基本合成单元,t为任意一个基本合成单元);然后从所述决策树的根节点开始,依次考察每个非叶节点;遍历问题集中的所有问题,即针对问题集中的每一个问题对当前考察节点进行分裂,获取每一次分裂后的子节点对应的训练数据与合成参数模型的似然值;根据具有最大似然增益的那个问题的特征进行合成参数模型分裂。继续对每个节点根据问题集中可以获得最大似然增益的问题进行分裂,直到最大似然增益值小于预设的值,终止分裂。
需要说明的是,本发明实施例中所述的合成参数模型为声学模型。
本发明实施例提供的基于弱读预测的语音合成方法,在语音合成时,通过处理较为容易的弱读现象,实现连续语音的整体起伏的效果,填补了当前语义理解技术对语音合成中重音预测尚未达到实用效果的空白,大大改善了连续合成语音的自然度。
另外,需要说明的是,在语音合成中,还可以同时考虑弱读及重读因素,进一步改善连续合成语音的自然度。
相应地,本发明实施例还提供一种语音合成系统,如图5所示,是该系统的一种结构框图。
在该实施例中,所述系统包括:
接收模块501,用于接收待合成文本;
基本合成单元序列确定模块502,用于确定对应所述文本的基本合成单元序列,所述基本合成单元序列中包括一个或多个基本合成单元;
弱读预测模块503,用于确定各基本合成单元是否弱读;
韵律特征提取模块504,用于依次提取所述基本合成单元序列中各基本合成单元的韵律特征,并且如果所述基本合成单元所对应的音节为弱读,则所述基本合成单元的韵律特征包括弱读特征;
获取模块505,用于根据所述基本合成单元的韵律特征确定所述基本合成单元对应的合成参数模型或语音片断,得到对应所述基本合成单元序列的合成参数模型序列或语音片断序列;
合成模块506,用于根据所述合成参数模型序列生成连续语音,或拼接所述语音片断序列中的语音片断得到连续语音。
上述弱读预测模块503具体可以采用前面介绍的弱读预测方法确定所述各基本合成单元是否弱读,弱读预测模块503的一种具体结构可以包括以下各单元:
获取单元,用于获取各基本合成单元所属的音节串和/或音节;
确定单元,用于确定所述音节串和/或音节是否为弱读,如果是,则确定所述基本合成单元为弱读。
其中,上述确定单元可以包括:
检查单元,用于检查所述基本合成单元所属的音节串是否在预设的弱读词表中;如果是,则确定所述音节弱读;否则,检查所述基本合成单元所属的音节是否在预设的弱读词表中;如果是,则触发提取单元提取所述音节的韵律特征;否则确定所述基本合成单元不弱读;
上述提取单元,用于根据所述检查单元的触发提取所述音节的韵律特征,
判断单元,用于根据所述提取单元提取的韵律特征及预先构建的弱读决策树确定所述音节是否弱读,并且如果所述音节弱读,则确定所述基本合成单元弱读,否则确定所述基本合成单元不弱读。
上述弱读词表及弱读决策树可以由本发明语音合成系统构建,也可以由其它系统构建,对此本发明实施例不做限定。如果由本发明语音合成系统构建,则在该系统中还可以进一步包括:弱读词表构建模块和弱读决策树构建模块,分别用于构建弱读词表及弱读决策树。根据具体构建方法的不同,这两个模块可以分别有相适应的结构,对此不做限定。
另外,上述获取模块505在所述基本合成单元的韵律特征包括弱读特征时,需要获取所述基本合成单元对应的弱读合成参数模型或弱读语音片段;在所述基本合成单元的韵律特征不包括弱读特征时,需要获取所述基本合成单元对应的常规合成参数模型或常规语音片段。
在实际应用中,弱读合成参数模型可以预先构建。在本发明系统的另一实施例中,所述系统还可进一步包括:弱读合成参数模型构建模块,用于构建弱读合成参数模型,该弱读合成参数模型构建模块的一种具体结构如图6所示,包括:
训练数据获取单元601,用于获取文本训练数据及对应的语音数据;
处理单元602,用于确定所述文本训练数据的基本合成单元序列,所述基本合成单元序列中包括弱读基本合成单元;
韵律标注单元603,用于对所述基本合成单元进行韵律标注,基本合成单元的韵律标注信息包括:基本合成单元常规的韵律标注信息(如基本合成单元所在音节、词、韵律词,及一些位置、词性、边界、边界调信息),以及弱读基本合成单元的弱读标注信息(如基本合成单元所在音节弱读、所在句弱读音节个数等等);
选取单元604,用于选取弱读基本合成单元对应的训练数据;
问题集建立单元605,用于根据所述选取单元604选取的训练数据的韵律标注信息建立决策树分类问题集;
训练单元606,用于利用选取单元604选取的带有韵律标注信息的训练数据及所述决策树分类问题集指导基于决策树的上下文相关的合成参数模型训练,得到对应所述弱读基本合成单元的弱读合成参数模型。
本发明实施例提供的基于弱读预测的语音合成系统,在语音合成时,通过处理较为容易的弱读现象,实现连续语音的整体起伏的效果,填补了当前语义理解技术对语音合成中重音预测尚未达到实用效果的空白,大大改善了连续合成语音的自然度。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,以上所述仅为本发明的较佳实施例,但本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (14)

1.一种语音合成方法,其特征在于,包括:
接收待合成文本;
确定对应所述文本的基本合成单元序列,所述基本合成单元序列包括一个或多个基本合成单元;
确定各基本合成单元是否弱读;
依次提取所述基本合成单元序列中各基本合成单元的韵律特征,并且如果所述基本合成单元为弱读,则所述基本合成单元的韵律特征包括弱读特征;
根据所述基本合成单元的韵律特征确定所述基本合成单元对应的合成参数模型或语音片断,得到对应所述基本合成单元序列的合成参数模型序列或语音片断序列;
根据所述合成参数模型序列生成连续语音,或拼接所述语音片断序列中的语音片断得到连续语音。
2.根据权利要求1所述的方法,其特征在于,所述确定所述基本合成单元是否弱读包括:
获取所述基本合成单元所属的音节串和/或音节;
确定所述音节串和/或音节是否为弱读,如果是,则确定所述基本合成单元为弱读。
3.根据权利要求2所述的方法,其特征在于,所述确定所述音节串和/或音节是否弱读包括:
检查所述基本合成单元所属的音节串是否在预设的弱读词表中;
如果是,则确定所述基本合成单元弱读;
否则,检查所述基本合成单元所属的音节是否在预设的弱读词表中;
如果所述基本合成单元所属的音节在预设的弱读词表中,则提取所述音节的韵律特征,然后根据所述音节的韵律特征及预先构建的弱读决策树确定所述音节是否弱读;如果所述音节弱读,则所述基本合成单元弱读,否则所述基本合成单元不弱读;
如果所述基本合成单元所属的音节不在预设的弱读词表中,则确定所述基本合成单元不弱读。
4.根据权利要求3所述的方法,其特征在于,所述弱读词表的构建过程包括:
获取候选弱读词,形成弱读词集;
获取训练语料;
依次计算所述弱读词集中各候选弱读词在所述训练语料中的弱读频度;
如果所述弱读频度大于频度阈值,则确定所述候选弱读词为弱读词;
由确定的弱读词生成弱读词表。
5.根据权利要求3所述的方法,其特征在于,所述弱读决策树的构建过程包括:
获取基于弱读词表的大量文本作为训练数据;
对所述训练数据进行分词处理,并确定各分词包含的各音节;
对所述各音节进行韵律标注,韵律标注信息包括:弱读信息;
根据所述训练数据及对应的各音节的韵律标注信息,训练得到弱读决策树。
6.根据权利要求1所述的方法,其特征在于,所述根据所述基本合成单元的韵律特征确定所述基本合成单元对应的合成参数模型或语音片断包括:
如果所述基本合成单元的韵律特征包括弱读特征,则获取所述基本合成单元对应的弱读合成参数模型或弱读语音片段;
如果所述基本合成单元的韵律特征不包括弱读特征,则获取所述基本合成单元对应的常规合成参数模型或常规语音片段。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:预先构建对应各弱读基本合成单元的弱读合成参数模型,具体包括:
获取文本训练数据及对应的语音数据;
确定对应所述文本训练数据的基本合成单元序列,所述基本合成单元序列中包括弱读基本合成单元;
对所述基本合成单元进行韵律标注,基本合成单元的韵律标注信息包括:弱读基本合成单元的弱读标注信息;
选取弱读基本合成单元对应的训练数据;
根据选取的训练数据的韵律标注信息建立决策树分类问题集;
利用选取的带有韵律标注信息的训练数据及所述决策树分类问题集指导基于决策树的上下文相关的合成参数模型训练,得到对应所述弱读基本合成单元的弱读合成参数模型。
8.一种语音合成系统,其特征在于,包括:
接收模块,用于接收待合成文本;
基本合成单元序列确定模块,用于确定对应所述文本的基本合成单元序列,所述基本合成单元序列中包括一个或多个基本合成单元;
弱读预测模块,用于确定各基本合成单元是否弱读;
韵律特征提取模块,用于依次提取所述基本合成单元序列中各基本合成单元的韵律特征,并且如果所述基本合成单元所对应的音节为弱读,则所述基本合成单元的韵律特征包括弱读特征;
获取模块,用于根据所述基本合成单元的韵律特征确定所述基本合成单元对应的合成参数模型或语音片断,得到对应所述基本合成单元序列的合成参数模型序列或语音片断序列;
合成模块,用于根据所述合成参数模型序列生成连续语音,或拼接所述语音片断序列中的语音片断得到连续语音。
9.根据权利要求8所述的系统,其特征在于,所述弱读预测模块包括:
获取单元,用于获取各基本合成单元所属的音节串和/或音节;
确定单元,用于确定所述音节串和/或音节是否为弱读,如果是,则确定所述基本合成单元为弱读。
10.根据权利要求9所述的系统,其特征在于,所述确定单元包括:
检查单元,用于检查所述基本合成单元所属的音节串是否在预设的弱读词表中;如果是,则确定所述音节弱读;否则,检查所述基本合成单元所属的音节是否在预设的弱读词表中;如果是,则触发提取单元提取所述音节的韵律特征;否则确定所述基本合成单元不弱读;
提取单元,用于根据所述检查单元的触发提取所述音节的韵律特征;
判断单元,用于根据所述提取单元提取的音节的韵律特征及预先构建的弱读决策树确定所述音节是否弱读,并且如果所述音节弱读,则确定所述基本合成单元弱读,否则确定所述基本合成单元不弱读。
11.根据权利要求10所述的系统,其特征在于,所述系统还包括:弱读词表构建模块,用于构建所述弱读词表。
12.根据权利要求10所述的系统,其特征在于,所述系统还包括:弱读决策树构建模块,用于构建所述弱读决策树。
13.根据权利要求8所述的系统,其特征在于,
所述获取模块,具体用于在所述基本合成单元的韵律特征包括弱读特征时,获取所述基本合成单元对应的弱读合成参数模型或弱读语音片段;在所述基本合成单元的韵律特征不包括弱读特征时,获取所述基本合成单元对应的常规合成参数模型或常规语音片段。
14.根据权利要求13所述的系统,其特征在于,所述系统还包括:弱读合成参数模型构建模块;
所述弱读合成参数模型构建模块包括:
训练数据获取单元,用于获取文本训练数据及对应的语音数据;
处理单元,用于确定所述文本训练数据的基本合成单元序列,所述基本合成单元序列中包括弱读基本合成单元;
韵律标注单元,用于对所述基本合成单元进行韵律标注,所述基本合成单元的韵律标注信息包括:弱读基本合成单元的弱读标注信息;
选取单元,用于选取弱读基本合成单元对应的训练数据;
问题集建立单元,用于根据所述选取单元选取的数据的韵律标注信息建立决策树分类问题集;
训练单元,用于利用所述选取单元选取的带有韵律标注信息的训练数据及所述决策树分类问题集指导基于决策树的上下文相关的合成参数模型训练,得到对应所述弱读基本合成单元的弱读合成参数模型。
CN201510039232.2A 2015-01-26 2015-01-26 一种语音合成方法及系统 Active CN105895076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510039232.2A CN105895076B (zh) 2015-01-26 2015-01-26 一种语音合成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510039232.2A CN105895076B (zh) 2015-01-26 2015-01-26 一种语音合成方法及系统

Publications (2)

Publication Number Publication Date
CN105895076A true CN105895076A (zh) 2016-08-24
CN105895076B CN105895076B (zh) 2019-11-15

Family

ID=57001685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510039232.2A Active CN105895076B (zh) 2015-01-26 2015-01-26 一种语音合成方法及系统

Country Status (1)

Country Link
CN (1) CN105895076B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782880A (zh) * 2019-10-22 2020-02-11 腾讯科技(深圳)有限公司 一种韵律生成模型的训练方法及装置
WO2020088006A1 (zh) * 2018-10-29 2020-05-07 阿里巴巴集团控股有限公司 一种语音合成的方法、装置及设备
CN111326138A (zh) * 2020-02-24 2020-06-23 北京达佳互联信息技术有限公司 语音生成方法及装置
CN112309367A (zh) * 2020-11-03 2021-02-02 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0157903A1 (de) * 1984-02-23 1985-10-16 Matth. Hohner AG Verfahren und Anordnung für die Sprachsynthese
CN1131785A (zh) * 1994-12-06 1996-09-25 松下电器产业株式会社 语音段制作方法语音合成方法及其装置
CN1461463A (zh) * 2001-03-09 2003-12-10 索尼公司 语音合成设备
CN1604184A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 用于合成文本段落发音的字符到声音的转换
CN1685396A (zh) * 2002-09-23 2005-10-19 因芬尼昂技术股份公司 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置
CN101276583A (zh) * 2007-03-29 2008-10-01 株式会社东芝 语音合成系统和语音合成方法
CN101814288A (zh) * 2009-02-20 2010-08-25 富士通株式会社 使语音合成时长模型自适应的方法和设备
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
US20140207463A1 (en) * 2013-01-23 2014-07-24 Panasonic Corporation Generation method of audio signal, audio synthesizing device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0157903A1 (de) * 1984-02-23 1985-10-16 Matth. Hohner AG Verfahren und Anordnung für die Sprachsynthese
CN1131785A (zh) * 1994-12-06 1996-09-25 松下电器产业株式会社 语音段制作方法语音合成方法及其装置
CN1461463A (zh) * 2001-03-09 2003-12-10 索尼公司 语音合成设备
CN1685396A (zh) * 2002-09-23 2005-10-19 因芬尼昂技术股份公司 计算机辅助语音合成储存电子文本成为模拟语音信号方法、语音合成装置及电信装置
CN1604184A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 用于合成文本段落发音的字符到声音的转换
CN101276583A (zh) * 2007-03-29 2008-10-01 株式会社东芝 语音合成系统和语音合成方法
CN101814288A (zh) * 2009-02-20 2010-08-25 富士通株式会社 使语音合成时长模型自适应的方法和设备
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
US20140207463A1 (en) * 2013-01-23 2014-07-24 Panasonic Corporation Generation method of audio signal, audio synthesizing device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020088006A1 (zh) * 2018-10-29 2020-05-07 阿里巴巴集团控股有限公司 一种语音合成的方法、装置及设备
CN110782880A (zh) * 2019-10-22 2020-02-11 腾讯科技(深圳)有限公司 一种韵律生成模型的训练方法及装置
CN110782880B (zh) * 2019-10-22 2024-04-09 腾讯科技(深圳)有限公司 一种韵律生成模型的训练方法及装置
CN111326138A (zh) * 2020-02-24 2020-06-23 北京达佳互联信息技术有限公司 语音生成方法及装置
CN112309367A (zh) * 2020-11-03 2021-02-02 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN105895076B (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN101000764B (zh) 基于韵律结构的语音合成文本处理方法
Rao et al. Modeling durations of syllables using neural networks
CN112352275A (zh) 具有多级别文本信息的神经文本到语音合成
EP1089256A2 (en) Speech recognition models adaptation from previous results feedback
US20240038214A1 (en) Attention-Based Clockwork Hierarchical Variational Encoder
CN102254554B (zh) 一种对普通话重音进行层次化建模和预测的方法
Kohler Modelling prosody in spontaneous speech
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
CN105895076A (zh) 一种语音合成方法及系统
Cao et al. Prosodic cues for emotion: analysis with discrete characterization of intonation
Al-Anzi et al. The impact of phonological rules on Arabic speech recognition
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
Calderone et al. Hybrid method for stress prediction applied to GLAFF-IT, a large-scale Italian lexicon
Van Niekerk et al. Predicting utterance pitch targets in Yorùbá for tone realisation in speech synthesis
Ballier et al. Developing corpus interoperability for phonetic investigation of learner corpora
CN105895075B (zh) 提高合成语音韵律自然度的方法及系统
CN115249472B (zh) 一种结合上文语境实现重音统筹的语音合成方法及装置
CN106294310B (zh) 一种藏语声调预测方法及系统
Nair et al. Indian text to speech systems: A short survey
Yeh et al. Speech recognition with word fragment detection using prosody features for spontaneous speech
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
Hoste et al. Using rule-induction techniques to model pronunciation variation in Dutch
Heba et al. Lexical emphasis detection in spoken French using F-Banks and neural networks
Řezáčková et al. T5G2P: Multilingual Grapheme-to-Phoneme Conversion with Text-to-Text Transfer Transformer
Hanane et al. TTS-SA (A text-to-speech system based on standard arabic)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant