CN104392716B - 高表现力的语音合成方法和装置 - Google Patents

高表现力的语音合成方法和装置 Download PDF

Info

Publication number
CN104392716B
CN104392716B CN201410645715.2A CN201410645715A CN104392716B CN 104392716 B CN104392716 B CN 104392716B CN 201410645715 A CN201410645715 A CN 201410645715A CN 104392716 B CN104392716 B CN 104392716B
Authority
CN
China
Prior art keywords
acoustic model
gauss
acoustic
gaussian mixture
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410645715.2A
Other languages
English (en)
Other versions
CN104392716A (zh
Inventor
李秀林
贾磊
康永国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410645715.2A priority Critical patent/CN104392716B/zh
Publication of CN104392716A publication Critical patent/CN104392716A/zh
Application granted granted Critical
Publication of CN104392716B publication Critical patent/CN104392716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例公开了一种高表现力的语音合成方法和装置。所述高表现力的语音合成方法包括:将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型;根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音,包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。本发明实施例提供的高表现力的语音合成方法和装置提高了合成语音的自然度。

Description

高表现力的语音合成方法和装置
技术领域
本发明实施例涉及文语转换技术领域,尤其涉及一种高表现力的语音合成方法和装置。
背景技术
语音是人机交流最习惯、最自然的方式。将文字输入转成语音输出的技术称为文语转换(Text-to-Speech,TTS)或语音合成技术。它涉及声学、语言学、数字信号处理多媒体技术等多个领域,是中文信息处理领域的一项前沿技术。
由于合成语音的声学参数大都服从高斯分布,所以利用高斯声学模型来生成合成语音的声学参数,进而产生合成语音。图1示出了现有技术提供的基于高斯声学模型的语音合成系统的信号流。参见图1,所述语音合成系统从模型库中选择一个高斯声学模型101,并基于选择的该高斯声学模型生成声学参数102,进而合成语音。由于语音合成音库的规模往往只有几千到几万句的规模,为了避免过训练,声学模型决策树的叶子节点模型,只能表现统计意义的声学参数,难以区分细致的上下文所带来的差异,因而,造成了合成语音平淡乏味,自然度不高。
发明内容
有鉴于此,本发明实施例提出一种高表现力的语音合成方法和装置,以提高合成语音的自然度。
第一方面,本发明实施例提供了一种高表现力的语音合成方法,所述方法包括:
将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;
根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型;
根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音。
第二方面,本发明实施例提供了一种高表现力的语音合成装置,所述装置包括:
上下文获取模块,用于将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;
高斯声学模型选取模块,用于根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型;
语音合成模块,用于根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音。
本发明实施例提供的高表现力的语音合成方法和装置,通过将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文,根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型,根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音,从而应用维特比算法从组成高斯混合声学模型的多个分量中选取一个高斯声学模型来生成声学参数,提高了合成语音的自然度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是现有技术提供的基于高斯声学模型的语音合成系统的信号流示意图;
图2是本发明第一实施例提供的高表现力的语音合成方法的流程图;
图3是本发明第二实施例提供的高表现力的语音合成方法的流程图;
图4是本发明第二实施例提供的基于高斯声学模型的语音合成系统的信号流示意图;
图5是本发明第三实施例提供的高表现力的语音合成方法中高斯混合声学模型训练的流程图;
图6是本发明第四实施例提供的高表现力的语音合成方法中高斯声学模型选取的流程图;
图7是本发明第四实施例提供的最佳路径的示意图;
图8是本发明第五实施例提供的高表现力的语音合成装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图2示出了本发明的第一实施例。
图2是本发明第一实施例提供的高表现力的语音合成方法的流程图。参见图2,所述高表现力的语音合成方法包括:
S210,将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文。
语音合成系统的任务是通过对用户的输入文本进行处理,合成所述输入文本对应的语音。所述语音由一系列前后依次排列的音子组成。比如,输入文本“小明喜欢读书”就包含音子“x”以及音子“iao”。由不同的音子按照前后顺序依次排列而形成的序列被称为音子序列。
所述音子序列中的每个音子又由多个状态组成。每个状态可以具体表征为不同的声学参数。优选的,所述声学参数包括:基频、谱特征以及时长中的至少一个。
所述音子包含的每个状态都处于一定的上下文当中。所述状态的上下文是指输入文本中包含的状态在所述音子序列中所处的上下文环境。它可以是在所述输入文本对应的状态序列中所述状态前方的若干个状态,以及在所述输入文本对应的状态序列中所述状态后方的若干个状态,以及相邻音子、音节、声调、韵律位置等上下文信息。可以理解的是,由于所处的语境不同,相同的状态在不同的上下文中会所体现的声学参数会具有不同的概率分布,也即相同的状态在不同的上下文中会对应于不同的高斯概率分布。
S220,根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型。
所述声学参数通常服从高斯分布,也就是正态分布。因此,可以使用高斯声学模型来表征所述声学参数的这种随机分布特征。进一步的,为了更为形象的表征所述声学参数的随机分布特征,本实施例使用高斯混合声学模型来表征所述声学参数的随机分布特征。
所述高斯混合声学模型具有至少两个分量,并且每个分量相互独立,都服从高斯分布。也就是说,每个分量都是一个独立的、服从高斯分布的随机变量。所述分量具有自己独立的均值和方差。而且,所述分量在所述高斯混合声学模型中具有自己对应的加权值。也就是说,每个分量都是一个独立的高斯声学模型。
示例的,所述状态序列中的第n个状态对应的高斯混合声学模型具有如下形式:
其中,πk是所述高斯混合声学模型的第k个分量的加权值,uk是所述高斯混合声学模型的第k个分量的均值,θk是所述高斯混合声学模型的第k个分量的方差,N(x;ukk)是所述高斯混合声学模型的第k个分量的概率密度函数。应当理解,N(x;ukk)是服从高斯分布的概率密度函数。也就是说,N(x;ukk)满足:
现有的语音合成系统都依据一个高斯声学模型来生成声学参数。由于在本实施例中为每个状态设置了一个高斯混合声学模型,因此在生成声学参数之前,可以从所述高斯混合声学模型的各个分量对应的高斯声学模型中选择一个,作为最终生成声学参数的高斯声学模型。
在本实施例中,依据维特比算法从所述高斯混合声学模型中选取最终用于生成声学参数的高斯声学模型。
S230,根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音。
选取了用于生成声学参数的高斯声学模型之后,根据所选择的高斯声学模型生成声学参数,也就是根据所选择的高斯声学模型生成基频、谱特征以及时长。生成了所述基频、谱特征以及时长以后,根据生成的基频、谱特征以及时长生成合成语音。
优选的,根据生成的基频、谱特征以及时长合成语音包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。
本实施例通过对输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文,根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型,根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音,从而提高了合成语音的自然度。
图3及图4示出了本发明的第二实施例。
图3是本发明第二实施例提供的高表现力的语音合成方法的流程图。所述高表现力的语音合成方法以本发明第一实施例为基础,进一步的,在将输入文本进行分析处理,得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前,还包括:训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树;为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型;统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。
参见图3,所述高表现力的语音合成方法包括:
S310,训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树。
在语音合成阶段,对于同一个状态在不同上下文对应的高斯混合声学模型是根据决策树来获取的。由于在语音合成阶段所述状态的上下文是与所述语料库中的上下文相对应的,所以可以在语音合成阶段之前,根据语料库中不同的上下文训练所述语料库中不同上下文中对应的高斯混合声学模型的决策树。
训练所述决策树时,选取所述上下文的特定属性作为所述决策树上的节点,利用所述节点将所述上下文进行数据集划分,得到所述决策树。
优选的,可以根据决策树聚类算法训练所述决策树。
S320,为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型。
所述语料库是提取用于合成语音的声学参数,以及训练声学模型而建立的,包含语料数据的数据库。优选的,所述语料库中存储有预先收集的语音片段,以及这些语音片段对应的输入文本。
所述语料库中存储的语音片段也包含有相应的音子序列。所述音子序列由不同的音子组成,而每个音子又包含不同的状态。
在根据输入文本生成合成语音之前,对所述音子包含的状态训练高斯混合声学模型。所述高斯混合声学模型包括至少两个高斯声学模型。并且,对于在不同上下文中的音子包含的状态,应该训练不同的高斯混合声学模型。
S330,统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。
在利用维特比算法对生成声学参数的高斯声学模型进行选择时,需要从所述组成所述高斯混合声学模型的各个分量中选择一个分量,也就是从所述高斯混合声学模型中选择一个高斯声学模型,来生成声学参数。在模型选取的过程中,需要使用在对应于不同状态的高斯声学模型之间跳转的转移概率,因此,在语音合成之前,需要对所述语料库中在不同的上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。
在转移概率统计中,所统计的是从一个状态所对应的高斯混合声学模型中各个高斯声学模型到相邻状态的高斯混合声学模型中各个高斯声学模型的转移概率。在统计这个值时,所述高斯混合声学模型已经根据决策树选定,所以只需要统计相邻高斯混合声学模型中各个分量之间的转移概率。转移概率统计的步骤是在决策树和高斯混合声学模型都已经完成的基础上进行的。
S340,将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文。
S350,根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型。
S360,根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音。
图4是本发明第二实施例提供的基于高斯声学模型的语音合成系统的信号流示意图。参见图4,相对于现有技术,所述基于高斯声学模型的语音合成系统在语音合成阶段不再是基于单个高斯声学模型的语音合成,而是先基于预先训练的决策树选取用于声学参数生成的高斯混合声学模型401。所选择的高斯混合声学模型与音子序列中音子包含的状态相对应。然后,再利用维特比算法从所述高斯混合声学模型的各个分量,也就是高斯声学模型中选取最终用于生成声学参数的高斯声学模型402。
本实施例通过在将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文之前,为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型,训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树,以及统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率,使得根据输入文本进行语音合成之前,针对不同状态训练了不同的高斯混合声学模型,并训练了获取所述高斯混合模型的决策树,为高表现力的语音合成提供了应用基础。
图5示出了本发明的第三实施例。
图5是本发明第三实施例提供的高表现力的语音合成方法中高斯混合声学模型训练的流程图。所述高表现力的语音合成方法以本发明第二实施例为基础,进一步的,为不同上下文中的音子序列中各个音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型包括:对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计,获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值;将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数,生成所述高斯混合声学模型。
参见图5,为不同上下文中的音子序列中各个音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型包括:
S321,对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计,获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值。
由于需要使用高斯混合声学模型来表示语料库中不同上下文的音子序列中音子包含的状态,所以,在为不同上下文中音子序列中各个音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型之时,首先对所述语料库中不同上下文的音子序列中音子包含的状态的语音进行统计。对所述语料库中不同上下文的音子序列中音子包含的状态的语音进行统计的目的在于获取所述语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值,也就是所述语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中各个分量的均值、方差以及对应的加权值。
S322,将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数,生成所述高斯混合声学模型。
统计得到所述语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型所包含的高斯声学模型的均值、方差以及对应的加权值之后,将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数,并生成所述高斯混合声学模型。
本实施例通过对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计,获取语料库中不用上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值,并将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数,生成所述高斯混合声学模型,实现了在语音合成之前的高斯混合声学模型的训练。
图6及图7示出了本发明的第四实施例。
图6是本发明第四实施例提供的高表现力的语音合成方法中高斯声学模型选取的流程图。所述高表现力的语音合成方法以本发明的第二实施例为基础,进一步的,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型包括:根据所述决策树,获取所述状态的上下文中所述状态对应的高斯混合声学模型;将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量,将所述高斯声学模型之间的转移概率作为路径度量,通过求和计算状态序列的不同路径的度量值;将所述度量值最大的一条路径作为所述状态序列的最佳路径;通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。
参见图6,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型包括:
S351,根据所述决策树,获取所述状态的上下文中所述状态对应的高斯混合声学模型。
所述决策树是预先训练的,用于判定在特定上下文环境中应该采用哪个高斯混合声学模型的依据。优选的,所述决策树可以根据决策树聚类算法构建的。
在基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型之时,根据所述决策树,获取所述状态的上下文中所述状态对应的高斯混合声学模型。
优选的,根据已构建的决策树上各个节点的属性,按照所述决策树的分支获取所述状态对应的高斯混合声学模型。
S352,将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量,将所述高斯声学模型之间的转移概率作为路径度量,通过求和计算状态序列的不同路径的度量值。
所述合成语音由一系列的音子组成。该一系列的音子被称为音子序列。所述音子序列中包含有不同的音子,而每个音子又可以被划分为不同的状态。所以,所述合成语音可以看作是由一系列状态按照时间顺序组合而成的。
在本发明中,依据预先训练的决策树为所述状态的上下文选取了一个高斯混合声学模型。所述高斯混合声学模型是由多个高斯声学模型作为分量,并按照一定的加权值组合在一起而形成的声学模型。而直接用于生成声学参数的声学模型并不是高斯混合声学模型,而是依据所述状态的上下文,从组成所述高斯混合声学模型的多个高斯声学模型中选择的高斯声学模型。由于依据所述状态的不同的上下文环境而选择不同的高斯声学模型来生成声学参数,所以生成在声学参数的统计特征依据所述状态所在的上下文环境不同而适应性改变,因而生成的语音的自然度较高。
由于所述音子由不同的状态组成,而每个状态对应于一个由多个高斯声学模型组成的高斯混合声学模型,所以所述高斯声学模型的选择过程可以看作是从一组按照时间顺序排列的高斯声学模型中选取一条路径的过程。图7是本发明第四实施例提供的最佳路径的示意图。参见图7,将从按照时间顺序排列的各个高斯混合声学模型中选择的高斯声学模型依次连接,就形成了最佳路径701。
本发明依据维特比算法选取最佳路径。具体的,将各个高斯声学模型在其对应的高斯混合声学模型中的加权值作为所述维特比算法的节点度量,再将所述高斯声学模型之间的转移概率作为所述维特比算法的路径度量,对各条路径上的节点度量和路径度量进行求和,得到该条路径的度量值。
具体的,一条路径的度量值由下式给出:
其中,m(n)表示第n条路径的度量值;所述第n条路径包括K个节点以及K-1个路径段;pi(n)表示所述第n条路径中第i个节点的节点度量;qi(n)表示所述第n条路径中第i个路径段的路径度量。
进一步优选的,在计算一条路径的度量值时,可以对所述路径的节点度量和路径度量分别赋予不同的权重系数,并对所述节点度量和所述路径度量进行加权求和,来得到所述路径的度量值。
S353,将所述度量值最大的一条路径作为所述状态序列的最佳路径。
计算得到各条路径的度量值之后,对各条路径之间的度量值进行比较,选择度量值最大的一条路径为所述最佳路径。
S354,通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。
具体的,通过比较最后一个状态对应的各个节点的度量值,找到度量值最大的节点,通过逐一查找最佳前一相邻节点,可以最终找到对应最优路径的所有节点,完成所述路径回溯操作,从而获取到所述状态序列中各个状态对应的高斯声学模型。
本实施例通过根据所述决策树获取所述状态的上下文中所述状态对应的高斯混合声学模型,将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量,将所述高斯声学模型之间的转移概率作为路径度量,通过求和计算状态序列的不同路径的度量值,将所述度量值最大的一条路径作为所述状态序列的最佳路径,通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型,从而实现了语音合成阶段的高斯声学模型选取。
图8示出了本发明的第五实施例。
图8是本发明第五实施例提供的高表现力的语音合成装置的结构图。参见图8,所述高表现力的语音合成装置包括:上下文获取模块840、高斯声学模型选取模块850以及语音合成模块860。
所述上下文获取模块840用于将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文。
所述高斯声学模型选取模块850用于根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型。
所述语音合成模块860用于根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音。
优选的,所述高表现力的语音合成装置还包括:决策树训练模块810、混合模型训练模块820以及转移概率统计模块830。
所述决策树训练模块810用于在将输入文本进行分析处理,得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前,训练用于获取语料库不同上下文对应的高斯混合声学模型的决策树。
所述混合模型训练模块820用于在将输入文本进行分析处理,得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前,为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型。
所述转移概率统计模块830用于在将输入文本进行分析处理,得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前,统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。
优选的,所述混合模型训练模块820包括:参数统计单元821以及模型生成单元822。
所述参数统计单元821用于对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计,获取语料库中不同上下文的音子序列中音子包含的状态的均值、方差以及对应的加权值。
所述模型生成单元822用于将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数,生成所述高斯混合声学模型。
优选的,所述高斯声学模型选取模块850包括:混合模型获取单元851、度量值求解单元852、最佳路径获取单元853以及路径回溯单元854。
所述混合模型获取单元851用于根据所述决策树,获取所述状态的上下文中所述状态对应的高斯混合声学模型。
所述度量值求解单元852用于将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量,将所述高斯声学模型之间的转移概率作为路径度量,通过求和计算状态序列的不同路径的度量值。
所述最佳路径获取单元853用于将所述度量值最大的一条路径作为所述状态序列的最佳路径。
所述路径回溯单元854用于通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。
优选的,所述声学参数包括:合成语音的基频、谱特征以及时长中的至少一个。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种高表现力的语音合成方法,其特征在于,包括:
训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树;
对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计,获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值,将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数,生成所述高斯混合声学模型;
统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率;
将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;
根据所述决策树,获取所述状态的上下文中所述状态对应的高斯混合声学模型,所述高斯混合声学模型包含至少两个分量,每一个分量相互独立并服从高斯分布,每一个分量是一个独立的高斯声学模型,将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量,将所述高斯声学模型之间的转移概率作为路径度量,通过求和计算状态序列的不同路径的度量值,将所述度量值最大的一条路径作为所述状态序列的最佳路径,通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型;
根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音。
2.根据权利要求1所述的方法,其特征在于,所述声学参数包括:合成语音的基频、谱特征以及时长中的至少一个。
3.一种高表现力的语音合成装置,其特征在于,包括:
决策树训练模块,用于训练用于获取语料库不同上下文对应的高斯混合声学模型的决策树;
混合模型训练模块,所述混合模型训练模块包括:参数统计单元,用于对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计,获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值;模型生成单元,用于将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数,生成所述高斯混合声学模型;
转移概率统计模块,用于统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率;
上下文获取模块,用于将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;
高斯声学模型选取模块,用于根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型;
语音合成模块,用于根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音;
其中,所述高斯声学模型选取模块包括:
混合模型获取单元,用于根据所述决策树,获取所述状态的上下文中所述状态对应的高斯混合声学模型,所述高斯混合声学模型包含至少两个分量,每一个分量相互独立并服从高斯分布,每一个分量是一个独立的高斯声学模型;
度量值求解单元,用于将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量,将所述高斯声学模型之间的转移概率作为路径度量,通过求和计算状态序列的不同路径的度量值;
最佳路径获取单元,用于将所述度量值最大的一条路径作为所述状态序列的最佳路径;
路径回溯单元,用于通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。
4.根据权利要求3所述的装置,其特征在于,所述声学参数包括:合成语音的基频、谱特征以及时长中的至少一个。
CN201410645715.2A 2014-11-12 2014-11-12 高表现力的语音合成方法和装置 Active CN104392716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410645715.2A CN104392716B (zh) 2014-11-12 2014-11-12 高表现力的语音合成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410645715.2A CN104392716B (zh) 2014-11-12 2014-11-12 高表现力的语音合成方法和装置

Publications (2)

Publication Number Publication Date
CN104392716A CN104392716A (zh) 2015-03-04
CN104392716B true CN104392716B (zh) 2017-10-13

Family

ID=52610609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410645715.2A Active CN104392716B (zh) 2014-11-12 2014-11-12 高表现力的语音合成方法和装置

Country Status (1)

Country Link
CN (1) CN104392716B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104867489B (zh) * 2015-04-27 2019-04-26 苏州大学张家港工业技术研究院 一种模拟真人朗读发音的方法及系统
CN105336321B (zh) * 2015-09-25 2016-10-19 百度在线网络技术(北京)有限公司 用于语音合成的音子切分方法和装置
CN105355193B (zh) * 2015-10-30 2020-09-25 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105427855A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 一种智能软件的语音播报系统及语音播报方法
CN108182936B (zh) * 2018-03-14 2019-05-03 百度在线网络技术(北京)有限公司 语音信号生成方法和装置
CN116895286B (zh) * 2023-09-11 2023-12-15 珠海芯烨电子科技有限公司 一种打印机故障监控方法以及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266638B1 (en) * 1999-03-30 2001-07-24 At&T Corp Voice quality compensation system for speech synthesis based on unit-selection speech database
CN1755796A (zh) * 2004-09-30 2006-04-05 国际商业机器公司 文本到语音转换中基于统计技术的距离定义方法和系统
GB2508411B (en) * 2012-11-30 2015-10-28 Toshiba Res Europ Ltd Speech synthesis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266638B1 (en) * 1999-03-30 2001-07-24 At&T Corp Voice quality compensation system for speech synthesis based on unit-selection speech database
CN1755796A (zh) * 2004-09-30 2006-04-05 国际商业机器公司 文本到语音转换中基于统计技术的距离定义方法和系统
GB2508411B (en) * 2012-11-30 2015-10-28 Toshiba Res Europ Ltd Speech synthesis

Also Published As

Publication number Publication date
CN104392716A (zh) 2015-03-04

Similar Documents

Publication Publication Date Title
CN104392716B (zh) 高表现力的语音合成方法和装置
US20210295163A1 (en) Neural architecture search
Mangal et al. LSTM based music generation system
US9818409B2 (en) Context-dependent modeling of phonemes
Bretan et al. A unit selection methodology for music generation using deep neural networks
CN111326136B (zh) 语音处理方法、装置、电子设备及存储介质
CN104021784B (zh) 基于大语料库的语音合成方法和装置
US20150073804A1 (en) Deep networks for unit selection speech synthesis
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN106920547A (zh) 语音转换方法和装置
CN104538024A (zh) 语音合成方法、装置及设备
CN1953052B (zh) 训练时长预测模型、时长预测和语音合成的方法及装置
US11475908B2 (en) System and method for hierarchical audio source separation
Kaur et al. Conventional and contemporary approaches used in text to speech synthesis: A review
CN110600002B (zh) 语音合成方法、装置及电子设备
Baird et al. Perception of paralinguistic traits in synthesized voices
CN110047462B (zh) 一种语音合成方法、装置和电子设备
Yin et al. Deep learning’s shallow gains: A comparative evaluation of algorithms for automatic music generation
JP2018084627A (ja) 言語モデル学習装置およびそのプログラム
Prabhavalkar et al. A factored conditional random field model for articulatory feature forced transcription
WO2021062105A1 (en) Training neural networks to generate structured embeddings
CN116702770A (zh) 长文本的生成方法、装置、终端及存储介质
Mei et al. A particular character speech synthesis system based on deep learning
Le et al. Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning.
Kan et al. Generation of irregular music patterns with deep learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180115

Address after: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer three

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.