CN109285537B

CN109285537B - 声学模型建立、语音合成方法、装置、设备及存储介质

Info

Publication number: CN109285537B
Application number: CN201811408961.0A
Authority: CN
Inventors: 张冉
Original assignee: Beijing Yufanzhi Information Technology Co ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2021-04-13
Anticipated expiration: 2038-11-23
Also published as: CN109285537A

Abstract

本发明实施例公开了一种声学模型建立、语音合成方法、装置、设备及存储介质，其中声学模型建立方法包括：从语料库中获取多个训练样本的音素序列样本，并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长；其中，所述音素序列样本中儿化音音素拆分成两个音素；从所述训练样本中提取声学特征；以所述音素序列样本，所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入，以所述声学特征作为所述声学模型的输出，对所述声学模型进行训练，得到预先训练的声学模型，可以使儿化音的建模性能较好，可以更好地实现儿化音的合成，可以合成语料库中未出现的儿化音，同时可以降低语料库中语料的录制成本。

Description

声学模型建立、语音合成方法、装置、设备及存储介质

技术领域

本发明实施例涉及信息语音合成领域，特别是涉及一种声学模型建立、语音合成方法、装置、设备及存储介质。

背景技术

随着多媒体通信技术的不断发展，作为人机交互重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成是通过机械的、电子的方法产生人造语音的技术，它是将计算机自己产生的或者外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。语音合成的目的是将文本转换为语音播放给用户，目标是达到真人文本播报的效果。

语音合成技术已经获得了广泛的应用，例如语音合成技术已经用于信息流、地图导航、阅读、翻译、智能家电等。其中，儿化是汉语普通话口语中颇具特色的一种音变现象，主要是由词尾“儿”变化而来。词尾“儿“本是一个独立音节，长期与其前面音节流利地连读而发生音变，“儿”失去独立性，“化”到前一个音节上，只保持一个卷舌动作，且使其前面音节里的韵母或多或少地发生变化，如“老头儿”、“鲜花儿”。儿化也是汉语普通话中一种非常重要的语言现象，经常在书面上出现，能起到区别词性和意义，表达不同感情色彩的作用。

现有技术中，在语音合成中，一般语料库中只录制少量的儿化音并进行标注。发明人在具体实施过程中，发现现有技术中存在如下问题：如果覆盖常见的应用场景，需要录制较多的语料才能建立对儿化音合成效果较佳的声学模型，但是语料录制成本较高；若儿化音录制较少，容易造成声学模型中儿化音建模较差的问题；也无法借用语料库中已有的韵母音素，对儿化音建模，并且无法合成语音合成库中没有出现的儿化音。

发明内容

本发明实施例提供了一种声学模型建立、语音合成方法、装置、设备及存储介质，可以使声学模型中儿化音的建模性能较好，可以更好地实现儿化音的合成，可以合成语料库中未出现的儿化音，可以降低语料库中语料的录制成本。

为了解决上述问题，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种声学模型建立方法，包括：

从语料库中获取多个训练样本的音素序列样本，并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长；其中，所述音素序列样本中儿化音音素拆分成两个音素；

从所述训练样本中提取声学特征；

以所述音素序列样本，所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入，以所述声学特征作为所述声学模型的输出，对所述声学模型进行训练，得到预先训练的声学模型

第二方面，本发明实施例还提供了一种语音合成方法，包括：

获取模块，用于从语料库中获取多个训练样本的音素序列样本，并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长；其中，所述音素序列样本中儿化音音素拆分成两个音素；

提取模块，用于从所述训练样本中提取声学特征；

训练模块，用于以所述音素序列样本，所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入，以所述声学特征作为所述声学模型的输出，对所述声学模型进行训练，得到预先训练的声学模型。

第三方面，本发明实施例提供了一种电子设备，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行本发明实施例提供的声学模型建立方法，或者执行本发明实施例提供的语音合成方法。

第四方面，本发明实施例提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行本发明实施例提供的声学模型建立方法，或者执行本发明实施例提供的语音合成方法。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例提供的技术方案，将训练样本中儿化音音素拆分成两个音素，以训练样本的音素序列样本、音素序列样本中每个音素的上下文特征和时长为输入，以训练样本的声学特征为输出对声学模型进行训练，得到预先训练的声学模型，该声学模型中儿化音的建模性能较好，可以更好地实现儿化音的合成，可以合成语料库中未出现的儿化音，同时可以降低语料库中语料的录制成本。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种声学模型建立方法流程图；

图2是本发明实施例提供的一种声学模型建立方法流程图；

图3是本发明实施例提供的一种语音合成方法流程图；

图4是本发明实施例提供的一种声学模型建立装置结构框图；

图5是本发明实施例提供的一种语音合成装置结构框图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种声学模型建立方法流程图，所述方法由声学模型建立装置来执行，所述装置由软件和/或硬件来执行。所述装置可以配置在终端、计算机等设备中。所述方法可以应用在声学模型建模的场景中。

如图1所示，本发明实施例提供的技术方案包括：

S110：从语料库中获取多个训练样本的音素序列样本，并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长；其中，所述音素序列样本中儿化音音素拆分成两个音素。

在本发明实施例中，训练样本可以包括文本样本和语音样本。每个训练样本中的文本样本均对应音素序列样本。文本中的每个文字或者词语与音素均有对应关系。例如，“大”对应的音素是“d”和a4”。若文本样本中存在多个文字或者词语，则每个文字或者词语对应的音素组成音素序列样本。其中，数字表示声调。音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位，音素可以是一个声母或者一个韵母，其中，韵母可以是单韵母或者复合韵母。

其中，当训练样本的文本样本中存在儿化音时，训练样本的音素序列样本中儿化音音素拆分成两个音素，具体的，可以是儿化音音素的非儿化部分和儿化部分分别拆分，得到两个音素，即非儿化部分的音素和儿化部分的音素。例如，“uar4”是儿化音的音素，该音素的非儿化部分是“ua4”，儿化部分是“r4”，可以将儿化部分进行区别，可以写成“xr4”。因此，儿化音的音素“uar4”，可以拆分成“ua4”和“xr4”，其中，数字表示声调。

在本发明实施例中，每个音素的上下文特征包括每个音素在音素序列样本中的位置，以及在每个音素之前的音素或者在每个音素之后的音素，或者还可以包括其他特征。每个音素的发音与音素的上下文特征相关，需要确定每个音素的上下文特征。

在本发明实施例中，训练样本的音素序列样本中每个音素的时长可以根据需要、说话场景、普通人的语速等进行设置。

S120：从所述训练样本中提取声学特征。

在本发明实施例中，可以从训练样本中语音样本中提取声学特征。其中，声学特征可以包括与声音相关的各种参数，如基频，频谱等。

其中，具体可以是确定构成训练样本中的语音样本的语音波形单元，从构成的语音样本的语音波形单元中提取声学特征。

S130：以所述音素序列样本，所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入，以所述声学特征作为所述声学模型的输出，对所述声学模型进行训练，得到预先训练的声学模型。

在本发明实施例中，声学模型可以隐马可夫模型，或者也可以是卷积神经网络模型，或者也可以是其他具有机器学习能力的模型。

在现有技术中，语料库中只录制少量的儿化音，并进行标注。音素标注的方法是将儿化音与前一个拼音标注在一起。例如，若语料库中文本样本是“大褂儿是一个字”，该文本样本的音素是：d a4 g uar4 sh i4 y i2 g e5 z i4。由此可见，将“uar”作为一个整体进行切分，作为一个音素。并利用该文本儿化音的标注方式对其他儿化音进行标注。当从语料库中获取训练样本对声学模型进行训练时，由于声学模型训练过程中，儿化音的音素作为一个整体，因此存在如下的技术缺陷：一、音素覆盖率比较低，建模精度较差。其中，中文韵母有39个，理论上每一个韵母都会有儿话发音现象，常见的6种声调(1-4声同拼音，5轻声，6三三变调)，因此共有200多种组合。如果覆盖常见的应用场景，可能需要专门录制5000句左右的文本才能对儿话音建模。但语料录制成本很高，对于10000句左右的语料库，针对儿化音录制的语料一般500句左右。因此，造成了儿化音建模较差的问题。二、无法借用语料库中已有的大量韵母音素，帮助儿化音建模。以上述标注方法为例，声学模型的建模是以音素为单位的，音素覆盖度越高，建模精度越高。例如，“uar4”发音的前半部分，其实与“ua4”是基本一致的，将“uar4”单独标注作为一个音素，“uar4”的建模无法借助到“ua4”的信息。三、无法合成原始语料库中没有出现过的儿话音。例如，这天儿怎么这么凉，其中，儿化音“天儿”中的儿化音的音素是“ianr2”，若原始语料库中没有“ianr2”，无法合成儿化音。

本发明实施例采用的技术方案，例如训练样本中的文本样本是“大褂儿是一个字”，该文本样本的音素序列样本是“d a4 g ua4 xr4 sh i4 y i2 g e5 z i4”。其中，该音素序列样本中的儿化音的音素“uar4”拆分成了两个音素“ua4”和“xr4”。可以获取多个带有儿化音的训练样本，从而得到音素序列样本，并将音素序列样本、音素序列样本中每个音素的上下文特征和时长为声学模型的输入，以从该文本样本对应的语音样本中提取的声学特征作为声学模型的输出，对声学模型进行训练，可以得到预先训练的声学模型。其中，该声学模型在训练的过程中由于将儿化音音素拆分成了两个音素，可以解决上述现有技术中存在的问题，对于儿化音建模性能较好，可以更好地实现儿化音的合成，可以合成语料库中未出现的儿化音，可以减小语料中语料的录制数量，从而降低语料库中语料的录制成本。

图2是本发明实施例提供的一种声学模型建立方法，如图2所示，本发明实施例提供的技术方案包括：

S210：从语料库中获取多个训练样本的音素序列样本，并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长；其中，所述音素序列样本中儿化音音素的非儿化部分和儿化部分分别拆分，得到两个音素。

其中，拆分得到的两个音素分别是非儿化部分音素和儿化部分音素。例如，“uar4”是儿化音的音素，该音素的非儿化部分是“ua4”，儿化部分是“r4”，可以将儿化部分进行区别，可以写成“xr4”，其中，“x”是一种标识，并不实际意义。因此，儿化音的音素“uar4”，可以拆分成“ua4”和“xr4”。

其中，可选的，儿化音的音素拆分成的两个音素的时长之和，等于儿化音的音素在拆分之前的时长。例如，“uar4”的时长是0.3s，则拆分成的“ua4”和“xr4”的时长之和可以是0.3s。通过将儿化音的音素拆分成的两个音素的时长之和，设置等于儿化音的音素在拆分之前的时长，当对时长模型进行训练时，可以得到精确度高的时长模型，当对声学模型进行训练时，得到精确度高的声学模型。

S220：从所述训练样本中提取声学特征。

S230：以所述音素序列样本，所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入，以所述声学特征作为所述声学模型的输出，对所述声学模型进行训练，得到预先训练的声学模型。

S240：将所述音素序列样本以及所述音素序列样本中每个音素的上下文特征为时长模型的输入，以所述音素序列样本中每个音素的时长为所述时长模型的输出，对所述时长模型进行训练，得到预先训练的时长模型。

在本发明实施例中，时长模型可以是卷积的神经网络，或者也可以是其他具有机器学习能力的模型，通过对时长模型的训练，可以使时长模型在应用时输出精确的时长。

在现有技术中，语料库中只录制少量的儿化音，并进行标注。音素标注的方法是将儿化音与前一个拼音标注在一起。例如，若语料库中文本样本是“大褂儿是一个字”，该文本样本的音素是：d a4 g uar4 sh i4 y i2 g e5 z i4。由此可见，将“uar”作为一个整体进行切分，作为一个音素。并利用该文本儿化音的标注方式对其他儿化音进行标注，同时每个音素的起始，结束时间如下表1所示。

表1

由此可见，将“uar”作为一个整体进行切分，作为一个音素。并利用该文本儿化音的标注方式对其他儿化音进行标注。当从语料库中获取训练样本对声学模型进行训练时，由于声学模型训练过程中，儿化音的音素作为一个整体，因此存在如下的技术缺陷：一、音素覆盖率比较低，建模精度较差。其中，中文韵母有39个，理论上每一个韵母都会有儿话发音现象，常见的6种声调(1-4声同拼音，5轻声，6三三变调)，因此共有200多种组合。如果覆盖常见的应用场景，可能需要专门录制5000句左右的文本才能对儿话音建模。但语料录制成本很高，对于10000句左右的语料库，针对儿化音录制的语料一般500句左右。因此，造成了儿化音建模较差的问题。二、无法借用语料库中已有的大量韵母音素，帮助儿化音建模。以上述标注方法为例，声学模型的建模是以音素为单位的，音素覆盖度越高，建模精度越高。例如，“uar4”发音的前半部分，其实与“ua4”是基本一致的，将“uar4”单独标注作为一个音素，“uar4”的建模无法借助到“ua4”的信息。三、无法合成原始语料库中没有出现过的儿话音。例如，这天儿怎么这么凉，其中，儿化音“天儿”中的儿化音的音素是“ianr2”，若原始语料库中没有“ianr2”，无法合成儿化音。

本发明实施例采用的技术方案，例如，训练样本中的文本样本是“大褂儿是一个字”，该文本样本的音素序列样本是“d a4 g ua4 xr4 sh i4 y i2 g e5 z i4”。其中，该音素序列样本中的儿化音的音素“uar4”拆分成了两个音素“ua4”和“xr4”。其中，每个音素的起始，结束时间如下表2所示。

表2

	起始时间	结束时间
			“d”	0.36392369358690463	0.4163752222296098
“a4”	0.4163752222296098	0.5711396092124067
			“g”	0.5711396092124067	0.6436651796813324
"ua4"	0.6436651796813324	0.8025
			“xr4”	0.8025	0.9825
“sp”	0.9825	1.2128084509542134
			“sh”	1.2128084509542134	1.3785811834546151
“i4”	1.3785811834546151	1.4491111577536322
			“y”	1.4491111577536322	1.5093332832322936
“i2”	1.5093332832322936	1.6161789897266932
			“g”	1.6161789897266932	1.6686305183693984
“e5”	1.6686305183693984	1.7489266856742802
			“z”	1.7489266856742802	1.838288549287778
“i4”	1.838288549287778	2.0901324497591087

其中，可以获取多个带有儿化音的训练样本，从而得到音素序列样本，并将音素序列样本、音素序列样本中每个音素的上下文特征和时长为声学模型的输入，以从该文本样本对应的语音样本中提取的声学特征作为声学模型的输出，对声学模型进行训练，可以得到预先训练的声学模型。其中，该声学模型在训练的过程中由于将儿化音音素拆分成了两个音素，可以解决上述现有技术中存在的问题，对于儿化音建模性能较好，可以更好地实现儿化音的合成，可以合成语料库中未出现的儿化音，可以减小语料中语料的录制数量，从而降低语料库中语料的录制成本。

图3是本发明实施例提供的一种语音合成方法流程图，所述方法由语音合成装置来执行，所述装置由软件和/或硬件来执行。所述装置可以配置在智能手机、平板电脑、计算机等设备中。

如图3所示，本发明实施例提供的技术方案包括：

S310：获取待合成文本。

其中，待合成文本可以是儿化音文本，或者可以是儿化音词典等。

S320：确定与所述待合成文本对应的音素序列，其中，所述待合成文本中的儿化音的音素拆分成两个音素。

其中，待合成文本中的每个文字或者词语与音素均有对应关系，若待合成文本中存在多个文字或者词语，则各文字或者词语对应的音素组成音素序列。其中，待合成文本中若存在儿化音，待合成文本的儿化音的音素拆分成两个音素。

在本发明实施例中，可选的，所述待合成文本中的儿化音的音素拆分成两个音素，可以是待合成文本中的儿化音音素的非儿化部分和儿化部分分别拆分，得到两个音素。即，非儿化部分对应的音素和儿化部分对应的音素。例如，待合成文本中的儿化音的音素是“zher4”，拆分成“zhe4”和“xr4”两个音素。

S330：确定所述音素序列中每个音素的上下文特征，并基于预先训练的时长模型确定每个音素的时长。

在本发明实施例中，每个音素的上下文特征包括每个音素在待合成文本中的位置，以及在每个音素之前的音素或者在每个音素之后的音素，或者还可以包括其他特征。每个音素的发音与音素的上下文特征相关，需要确定每个音素的上下文特征。

在本发明实施例中，基于预先训练的时长模型确定每个音素的时长，可以包括：将待合成文本对应的音素序列，以及音素序列中每个音素的上下文特征输入到预先训练的时长模型中，得到每个音素的时长。其中，时长模型的训练方法可以参考上述实施例的介绍的方法，不再累述。

S340：以所述音素序列，所述音素序列中每个音素的上下文特征和时长输入到预先训练的声学模型中，得到所述待合成文本的声学特征。

在本发明实施例中，其中，声学特征可以包括与声音相关的各种参数，如基频，频谱等。声学模型可以是声学模型可以隐马可夫模型，或者也可以是卷积神经网络模型，或者也可以是其他具有机器学习能力的模型。声学模型的训练方法可以参考上述实施例介绍的方法，不再累述。

S350：基于所述声学特征，合成所述待合成文本的语音。

在本发明实施例中，通过声学特征即可以合成待合成文本的语音。例如，可以将声学特征输入到声码器中，合成语音信号，完成语音合成过程，本实施例对于具体的合成方法不作限制。

本发明实施例提供的一种语音合成的方法，在语音合成过程中，将待合成文本的儿化音音素的拆分成两个音素，可以更好实现儿化音的合成。

图4是本发明实施例提供的一种声学模型建立装置结构框图，如图4所示，本发明实施例提供的装置可以包括：获取模块410、提取模块420和训练模块430。

获取模块410，用于从语料库中获取多个训练样本的音素序列样本，并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长；其中，所述音素序列样本中儿化音音素拆分成两个音素；

提取模块420，用于从所述训练样本中提取声学特征；

训练模块430，用于以所述音素序列样本，所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入，以所述声学特征作为所述声学模型的输出，对所述声学模型进行训练，得到预先训练的声学模型。

可选的，所述训练模块430，还用于

将所述音素序列样本以及所述音素序列样本中每个音素的上下文特征为时长模型的输入，以所述音素序列样本中每个音素的时长为所述时长模型的输出，对所述时长模型进行训练，得到预先训练的时长模型。

可选的，所述音素序列样本中儿化音音素拆分成两个音素，包括：

儿化音音素的非儿化部分和儿化部分拆分，得到两个音素。

可选的，所述儿化音的音素拆分成的两个音素的时长之和，等于所述儿化音的音素在拆分之前的时长。

可选的，所述上下文特征包括每个音素在所述音素序列样本中的位置，在每个音素之前的音素以及在每个音素之后的音素。

由于本实施例所介绍的声学模型建立装置为可以执行本发明实施例中的声学模型建立方法的装置，故而基于本发明实施例中所介绍的声学模型建立方法，本领域所属技术人员能够了解本实施例的声学模型建立装置的具体实施方式以及其各种变化形式，所以在此对于该声学模型建立装置如何实现本发明实施例中的声学模型建立方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中声学模型建立方法所采用的装置，都属于本申请所欲保护的范围。

图5是本发明实施例提供的一种语音合成装置结构框图，如图5所示，所述装置包括：获取模块510、第一确定模块520、第二确定模块530、声学特征确定模块540和合成模块550。

获取模块510，用于获取待合成文本；

第一确定模块520，用于确定与所述待合成文本对应的音素序列，其中，所述待合成文本中的儿化音的音素拆分成两个音素；

第二确定模块530，用于确定所述音素序列中每个音素的上下文特征，并基于预先训练的时长模型确定每个音素的时长；

声学特征确定模块540，用于以所述音素序列样本，所述音素序列样本中每个音素的上下文特征和时长输入到预先训练的声学模型中，得到所述待合成文本的声学特征；

合成模块550，用于基于所述声学特征，合成所述待合成文本的语音。

由于本实施例所介绍的语音合成装置为可以执行本发明实施例中的语音合成方法的装置，故而基于本发明实施例中所介绍的语音合成方法，本领域所属技术人员能够了解本实施例的语音合成装置的具体实施方式以及其各种变化形式，所以在此对于该语音合成装置如何实现本发明实施例中的语音合成方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中语音合成方法所采用的装置，都属于本申请所欲保护的范围。

本发明实施例提供了一种电子设备，如图6所示，包括：至少一个处理器(processor)41；以及与所述处理器41连接的至少一个存储器(memory)42、总线43；其中，

所述处理器41、存储器42通过所述总线43完成相互间的通信；

所述处理器41用于调用所述存储器42中的程序指令，以执行上述方法实施例中的步骤：

从所述训练样本中提取声学特征；

以所述音素序列样本，所述音素序列样本中每个音素的上下文特征和时长作为声学模型的输入，以所述声学特征作为所述声学模型的输出，对所述声学模型进行训练，得到预先训练的声学模型。

或者：

获取待合成文本；

确定与所述待合成文本对应的音素序列，其中，所述待合成文本中的儿化音的音素拆分成两个音素；

确定所述音素序列中每个音素的上下文特征，并基于预先训练的时长模型确定每个音素的时长；

以所述音素序列，所述音素序列中每个音素的上下文特征和时长输入到预先训练的声学模型中，得到所述待合成文本的声学特征；

基于所述声学特征，合成所述待合成文本的语音。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，即：

从所述训练样本中提取声学特征；

或者：

获取待合成文本；

基于所述声学特征，合成所述待合成文本的语音。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种声学模型建立方法，其特征在于：包括：

从语料库中获取多个训练样本的音素序列样本，并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长；其中，所述音素序列样本中儿化音音素的非儿化部分和儿化部分拆分，得到两个音素，所述儿化部分的音素带有标识；

从所述训练样本中提取声学特征；

2.根据权利要求1所述的方法，其特征在于，还包括：

将所述音素序列样本以及所述音素序列样本中每个音素的上下文特征作为时长模型的输入，以所述音素序列样本中每个音素的时长作为所述时长模型的输出，对所述时长模型进行训练，得到预先训练的时长模型。

3.根据权利要求1所述的方法，其特征在于，所述儿化音的音素拆分成的两个音素的时长之和，等于所述儿化音的音素在拆分之前的时长。

4.根据权利要求1所述的方法，其特征在于，所述上下文特征包括每个音素在所述音素序列样本中的位置，在每个音素之前的音素以及在每个音素之后的音素。

5.一种语音合成方法，其特征在于，包括：

获取待合成文本；

确定与所述待合成文本对应的音素序列，其中，所述待合成文本中的儿化音的音素的非儿化部分和儿化部分拆分，得到两个音素，所述儿化部分的音素带有标识；

基于所述声学特征，合成所述待合成文本的语音。

6.一种声学模型建立装置，其特征在于：包括：

获取模块，用于从语料库中获取多个训练样本的音素序列样本，并获取所述音素序列样本中每个音素的上下文特征以及每个音素的时长；其中，所述音素序列样本中儿化音音素的非儿化部分和儿化部分拆分，得到两个音素，所述儿化部分的音素带有标识；

提取模块，用于从所述训练样本中提取声学特征；

7.一种语音合成装置，其特征在于，包括：

获取模块，用于获取待合成文本；

第一确定模块，用于确定与所述待合成文本对应的音素序列，其中，所述待合成文本中的儿化音的音素的非儿化部分和儿化部分拆分，得到两个音素，所述儿化部分的音素带有标识；

第二确定模块，用于确定所述音素序列中每个音素的上下文特征，并基于预先训练的时长模型确定每个音素的时长；

声学特征确定模块，用于以所述音素序列样本，所述音素序列样本中每个音素的上下文特征和时长输入到预先训练的声学模型中，得到所述待合成文本的声学特征；

合成模块，用于基于所述声学特征，合成所述待合成文本的语音。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1-4任一项所述声学模型建立方法，或者执行权利要求5所述的一种语音合成方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1-4任一项所述的声学模型建立方法，或者执行权利要求5所述的一种语音合成方法。