CN113345407B

CN113345407B - 一种风格语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN113345407B
Application number: CN202110620052.9A
Authority: CN
Inventors: 陀得意; 康世胤; 刘峰; 游于人; 许佳
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2023-05-26
Anticipated expiration: 2041-06-03
Also published as: CN113345407A

Abstract

本发明实施例公开了一种风格语音合成方法、装置、电子设备及存储介质。该方法包括：获取与待风格合成的目标文本对应的风格参考语音，并在各备选语音中识别出与风格参考语音属于同一说话人且风格一致的至少一项关联语音；根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征；根据平稳语音表征特征，得到与目标文本对应的目标梅尔谱特征，并根据目标梅尔谱特征，生成与目标文本对应的目标风格语音。使用本发明的技术方案，可以提高语音的稳定性，在合成语音时凸出语音风格的表现力。

Description

一种风格语音合成方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及语音处理技术领域，尤其涉及一种风格语音合成方法、装置、电子设备及存储介质。

背景技术

随着智能交互技术的发展，语音合成的需求变得越来越多。例如，小说文本读取、弹幕读取以及人机交互中的语音应答等。

现有技术中，通常通过说话人的标识信息或者语音风格的标识信息对不同的语音风格进行区分。对于一个说话人的语音风格进行声学模型学习时，仅能学习到一种中性语料合成效果。

然而，说话人对于语音风格在进行语音录入时，是存在细微差异的，具有语音风格的不稳定性。现有技术的方案无法体现语音风格的稳定性，所合成语音的语音风格表现力不足，对风格的可控性考虑不足。

发明内容

本发明实施例提供了一种风格语音合成方法、装置、电子设备及存储介质，可以提高语音的稳定性，在合成语音时凸出语音风格的表现力。

第一方面，本发明实施例提供了一种风格语音合成方法，该方法包括：

获取与待风格合成的目标文本对应的风格参考语音，并在各备选语音中识别出与所述风格参考语音属于同一说话人且风格一致的至少一项关联语音；

根据所述风格参考语音和各所述关联语音的语音表征特征，形成平稳语音表征特征；

根据所述平稳语音表征特征，得到与所述目标文本对应的目标梅尔谱特征，并根据所述目标梅尔谱特征，生成与所述目标文本对应的目标风格语音。

第二方面，本发明实施例还提供了一种风格语音合成装置，该装置包括：

关联语音识别模块，用于获取与待风格合成的目标文本对应的风格参考语音，并在各备选语音中识别出与所述风格参考语音属于同一说话人且风格一致的至少一项关联语音；

平稳语音表征特征形成模块，用于根据所述风格参考语音和各所述关联语音的语音表征特征，形成平稳语音表征特征；

目标风格语音生成模块，用于根据所述平稳语音表征特征，得到与所述目标文本对应的目标梅尔谱特征，并根据所述目标梅尔谱特征，生成与所述目标文本对应的目标风格语音。

第三方面，本发明实施例还提供了一种电子设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的一种风格语音合成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的一种风格语音合成方法。

本发明实施例的技术方案通过获取与待风格合成的目标文本对应的风格参考语音，并在各备选语音中识别出与风格参考语音属于同一说话人且风格一致的至少一项关联语音；根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征；根据平稳语音表征特征，得到与目标文本对应的目标梅尔谱特征，并根据目标梅尔谱特征，生成与目标文本对应的目标风格语音，解决了现有技术进行语音合成时，语音风格表现力不足的问题，实现了提高语音的稳定性，在合成语音时凸出语音风格的表现力的效果。

附图说明

图1a是本发明实施例一提供的一种风格语音合成方法的流程图；

图1b是本发明实施例一提供的一种说话人嵌入风格语音分布示意图；

图2是本发明实施例二提供的一种风格语音合成方法的流程图；

图3a是本发明实施例三提供的一种风格语音合成方法的流程图；

图3b是本发明实施例三提供的又一种风格语音合成方法的流程图；

图4是本发明实施例四提供的一种风格语音合成装置的结构示意图；

图5是本发明实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1a是本发明实施例一提供的一种风格语音合成方法的流程图，本实施例可适用于根据文本内容合成语音的情况，例如，对小说、网页内容等文字的语音播放，该方法可以由风格语音合成装置来执行，该装置可以通过软件，和/或硬件的方式实现，装置可以集成在电子设备如手机、计算机等中，如图1a所示，该方法具体包括：

步骤110、获取与待风格合成的目标文本对应的风格参考语音，并在各备选语音中识别出与风格参考语音属于同一说话人且风格一致的至少一项关联语音。

其中，待风格合成的目标文本可以是需要进行风格语音合成，进而进行语音播报的文本。例如，待风格合成的目标文本可以是小说播放器中的小说文本、网页中的正文内容或者需要进行播放的弹幕内容等。风格参考语音可以是目标文本所支持的至少一种风格表现的示例性参考语音。不同的风格参考语音可以代表不同的风格表现。

示例性的，对于目标文本所支持的风格可以包括旁白、高兴、生气以及平淡等。风格也可以是在男声或者女声下的具体体现。同一风格具有不同的风格表现。例如，高兴可以包括很高兴、温柔式高兴以及平淡高兴等高兴风格表现。示例性的，对于文本“我很高兴”合成的不同风格语音可以包括：“我很高兴！”表示很高兴；“我很高兴哦～”表示温柔式高兴；“我很高兴。”表示平淡高兴。

在本发明实施例中，备选语音可以是说话人提前录入的不同风格的语音。图1b是本发明实施例一提供的一种说话人嵌入风格语音分布示意图。如图1b所示，不同的集群表示不同的说话人，集群中的点表示不同的风格表现。如图1b所示，对于不同说话人风格语音的分布位置通常存在明显差异。同一说话人的不同风格表现下的语音也会存在细微区别。如图1b所示，关联语音可以是备选语音中与风格参考语音差异很小，略等于没有差异的语音。

其中，确定关联语音的方式可以是多种。例如，可以将风格参考语音和备选语音进行音频向量表示，确定风格参考语音和备选语音的音频向量差异，差异值小于预设值时，确定备选语音为关联语音。或者，可以将同一说话人录入风格参考语音时，短时间内同时录入的备选语音作为关联语音。

示例性的，在实际应用中，可以预先对各备选语音按照不同风格参考语音进行说话人与风格的区分。预先确定与风格参考语音属于同一说话人且风格一致的备选语音，并按照与风格参考语音的对应关系进行存储，作为风格参考语音的关联语音。当获取到风格参考语音时，可以自动确定对应的关联语音。

步骤120、根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征。

其中，语音表征特征可以是用于表示语音并区分不同语音的向量数据。具体的，语音表征特征可以是深度学习模型数据针对不同语音输出的向量。例如，语音表征特征可以是如图1b所示的用于区分语音的不同说话人以及不同风格的位置信息。又如，语音表征特征可以是将语音的音频数据映射到空间的向量数据如256维向量数据。

在本发明实施例中，平稳语音表征特征可以是对风格参考语音和各关联语音的语音表征特征的综合且平稳地体现。关联语音与风格参考语音说话人相同且风格一致，但是关联语音与风格参考语音的语音表征特征依旧会存在细微差异。尤其是采用256维向量数据表示语音表征特征时，这种细微差异表现更加明显。因此，为了在根据风格参考语音，对目标文本进行风格合成时，同一风格表现更加稳定，可以确定风格参考语音和各关联语音的平稳语音表征特征。进而，根据平稳语音表征特征进行目标文本的风格合成，可以在考虑语音录入不稳定时，展示语音更多更细微风格表现的同时，提高当前风格表现的稳定性。

示例性的，可以确定风格参考语音和各关联语音的语音表征特征均为256维向量数据，平稳语音表征特征可以是风格参考语音和各关联语音的语音表征特征的均值。或者，可以分别为风格参考语音和各关联语音设置对应的权重，平稳语音表征特征可以是风格参考语音和各关联语音的语音表征特征与对应的权重分别相乘后的累加和。风格参考语音和各关联语音对应的权重可以根据关联语音的语音表征特征与风格参考语音的语音表征特征之间的差异值确定。例如，关联语音的语音表征特征与风格参考语音的语音表征特征之间的差异值越大，关联语音的权重越小；关联语音的语音表征特征与风格参考语音的语音表征特征之间的差异值越小，关联语音的权重越大。

步骤130、根据平稳语音表征特征，得到与目标文本对应的目标梅尔谱特征，并根据目标梅尔谱特征，生成与目标文本对应的目标风格语音。

其中，目标梅尔谱特征可以是目标文本对应的目标风格语音在频域中的频谱特征。确定目标梅尔谱特征的方式可以是多样的。例如，可以预先训练语音表征特征转换为梅尔谱特征的深度学习模型，根据平稳语音表征特征、目标文本以及预先训练的深度学习模型确定目标梅尔谱特征。或者，可以根据平稳语音表征特征确定目标文本对应语音的说话人以及风格，可以生成对应的音频，对音频进行时域到频域的变化，得到目标梅尔谱特征。示例性的，可以对音频画窗口，如每25毫秒划定一个窗口，每400个点进行傅里叶变换，加入三角窗，确定对应的目标梅尔谱特征。

在本发明实施例中，人耳对频率的赫兹单位的频率感知不是线性敏感，因此可以将音频由时域变为频域生成梅尔谱特征，将赫兹频率转换为梅尔频率，使人耳对梅尔频率的感知度变为线性。目标梅尔谱特征可以具体表示目标文本对应的目标风格语音，因此可以根据目标梅尔谱特征合成目标文本的风格语音。例如，可以直接建立目标梅尔谱特征与目标风格语音的对应关系；或者，可以将目标梅尔谱特征变换为时域的音频再转换为目标风格语音。

本实施例的技术方案，通过获取与待风格合成的目标文本对应的风格参考语音，并在各备选语音中识别出与风格参考语音属于同一说话人且风格一致的至少一项关联语音；根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征；根据平稳语音表征特征，得到与目标文本对应的目标梅尔谱特征，并根据目标梅尔谱特征，生成与目标文本对应的目标风格语音，解决了目标文本的风格语音合成的问题，实现了提高语音的稳定性，在合成语音时凸出语音风格的表现力的效果。

实施例二

图2是本发明实施例二提供的一种风格语音合成方法的流程图。本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图2所示，该方法包括：

步骤210、响应于对目标文本的风格语音合成请求，对多层级的语音风格标签进行用户展示。

其中，后一层级的语音风格标签为所属前一层级的语音风格标签的细分类型。示例性的，第一层级的语音风格标签可以包括旁白、男声以及女声。第二层级可以对第一层级的语音风格标签进行细分。如第二层级的语音风格标签对第一层级的男声进行细分时，第二层级的语音风格标签可以包括男声高兴、男声生气、男声惊悚以及男声正太等。第三层级的可以对第二层级的语音风格标签进行细分。如第三层级的语音风格标签对第二层级的男声高兴进行细分时，第三层级的语音风格标签可以包括男声很高兴、男声温柔式高兴以及男声平淡式高兴等。

在本发明实施例中，当用户需要对目标文本通过语音播报方式进行朗读时，可以向终端如手机或者计算机等发起目标文本的风格语音合成请求。终端可以目标文本多支持语音风格进行对应的多层级的语音风格标签展示，便于用户自由选择心仪的声音进行目标文本的语音视听体验。通过多层级的语音风格标签可以将语音风格进行更加细微的划分，使各种风格的表现力更加凸出。

步骤220、响应于对多层级的语音风格标签中目标语音风格标签的选择，将与目标语音风格标签对应的描述语音，确定为与目标文本对应的风格参考语音。

其中，用户对于展示的多层级语音风格标签中的任一标签可以进行选择。不同的语音风格标签对应不同的说话人和/或风格。为了使用户更好的区分各个语音风格标签，可以为各语音风格标签设置对应的描述语音，对语音风格标签进行具体阐述。例如，描述语音可以是对语音风格标签进行具体说明的语音，和/或，描述语音可以是与语音风格标签属于同一说话人且风格一致的语音。具体的，可以将语音风格标签对应的描述语音作为用户为目标文本选择的风格参考语音，可以将目标文本在该风格下合成对应的目标风格语音。

在本发明实施例的一个可选实施方式中，在对多层级的语音风格标签进行用户展示之后，还包括：响应于对多层级的语音风格标签中至少一个语音风格标签的风格试听请求，获取与请求试听的语音风格标签对应的描述语音进行用户播放。

其中，将语音风格标签的描述语音播放给用户进行试听，可以使用户更好的区分各个语音风格标签的差异，从而自由选择更喜欢的语音风格。

步骤230、获取风格参考语音与各备选语音分别对应的语音表征特征。

其中，获取语音表征特征的方式可以是多样的。例如，可以是采用深度学习模型对不同语音进行学习，将风格参考语音与各备选语音分别输入至深度学习模型得到对应的向量数据，作为语音表征特征。或者，可以是对语音的音频频谱进行关键数据提取，作为语音表征特征。

步骤240、计算各备选语音的语音表征特征与风格参考语音的语音表征特征的相似度。

其中，语音表征特征可以是向量数据，因此可以采用相似度计算方法计算各备选语音的语音表征特征与风格参考语音的语音表征特征的相似度。具体的，可以采用余弦相似度计算方法确定各备选语音的语音表征特征与风格参考语音的语音表征特征的相似度。采用余弦相似度方法确定相似度，可以使相似度的确定更加合理，可以考虑向量数据中各个维度的差异，使确定的关联语音与风格参考语音的风格更加一致。

步骤250、将各备选语音中满足预设相似度条件的音频作为风格参考语音的关联语音。

其中，当备选语音的语音表征特征与风格参考语音的语音表征特征小于预设相似度阈值时，可以将备选语音作为关联语音。

示例性的，以图1b所示的说话人嵌入风格语音为例，可以计算各风格语音分布形成集群的中心点之间的距离，当中心点之间的距离大于预设中心距离值时，可以确定集群对应的风格语音属于不同的说话人；否则，确定集群对应的风格语音属于同一说话人。对于同一说话人的风格语音可以计算各风格语音的位置距离，如果位置距离大于预设位置距离值，可以确定风格语音属于不同的风格；否则，可以确定风格语音属于同一种风格。

步骤260、根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征。

步骤270、根据平稳语音表征特征，得到与目标文本对应的目标梅尔谱特征，并根据目标梅尔谱特征，生成与目标文本对应的目标风格语音。

本实施例的技术方案，通过响应于对目标文本的风格语音合成请求，对多层级的语音风格标签进行用户展示；响应于对多层级的语音风格标签中目标语音风格标签的选择，将与目标语音风格标签对应的描述语音，确定为与目标文本对应的风格参考语音；获取风格参考语音与各备选语音分别对应的语音表征特征；计算各备选语音的语音表征特征与风格参考语音的语音表征特征的相似度；将各备选语音中满足预设相似度条件的音频作为风格参考语音的关联语音；根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征；根据平稳语音表征特征，得到与目标文本对应的目标梅尔谱特征，并根据目标梅尔谱特征，生成与目标文本对应的目标风格语音，解决了目标文本的风格语音合成的问题，实现了为用户展示更加细微的风格表现，满足用户对风格的多样化需求，提高用户的视听体验；并提高语音的稳定性，在合成语音时凸出语音风格表现力的效果。

实施例三

图3a是本发明实施例三提供的一种风格语音合成方法的流程图。本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图3a所示，该方法包括：

步骤310、响应于对目标文本的风格语音合成请求，对多层级的语音风格标签进行用户展示。

其中，后一层级的语音风格标签为所属前一层级的语音风格标签的细分类型。

步骤320、响应于对多层级的语音风格标签中目标语音风格标签的选择，将与目标语音风格标签对应的描述语音，确定为与目标文本对应的风格参考语音。

步骤330、提取风格参考语音与各备选语音分别对应的梅尔谱特征。

其中，提取语音的梅尔谱特征可以是将语音的音频特征从时域转换为频域，将以赫兹为单位的频谱转换为以梅尔为单位的频谱。具体的，可以对时域音频频谱画窗口后再进行傅里叶变换，添加三角窗生成梅尔谱特征。

示例性的，对于风格参考语音和各备选语音可以进行音频重采样。例如，可以按照采样比例为24k，采样位速为16bits，单通道对音频进行重采样。音频重采样后，还可以采用降噪算法对语音信号进行降噪和去混响等语音处理，可以提升语音的音质。同时，可以对音频进行前后长静音的剪裁处理，减少音频中的无效语音信号，减少后续无效数据的处理量。本发明实施例中，提取风格参考语音与各备选语音分别对应的梅尔谱特征，可以是对风格参考语音与各备选语音进行重采样、降噪和去混响等语音处理以及前后长静音剪裁处理后再进行的。

在本发明实施例的一个可选实施方式中，提取风格参考语音与各备选语音分别对应的梅尔谱特征，包括：通过语音边界检测对风格参考语音与各备选语音分别进行音频静音检查，确定说话人声音的起始点和结束点；对风格参考语音与各备选语音分别进行梅尔谱特征提取，并根据说话人声音的起始点和结束点对提取的梅尔谱特征进行无效性语音去除。

其中，前后长静音剪裁处理仅可以对语音信号前部分以及后部分的静音进行处理，而无法达到对语音信号中间存在的静音进行处理。为了进一步减少无效语音信号，使语音信号中仅存在人声，可以对语音信号中间存在的静音进行检测以及去除。

在本发明实施例中，可以通过语音边界检测(Voice Activity Detection，VAD)进行语音的音频静音检查，识别声音信号流中的静音。例如，当语音信号能量低于一定门限值时确定是静音状态，静音状态的前后点可以按照顺序被确定未人声音的起始点或者结束点。通过VAD检测语音中间存在的静音，并根据人声音的起始点和结束点的时间戳，对应的对梅尔谱特征进行无效性语音去除，可以在不影响语音质量的同时节省资源占用，有利于减少端到端的时延。

还需要说明的是，对梅尔谱特征进行无效性语音去除后，还要考虑当前风格参考语音与各备选语音的重采样比例是否与后续的说话人嵌入模型所支持的采样率相同。如果不同，比如说话人嵌入模型支持的采样率是16k，那么需要在对梅尔谱特征进行无效性语音去除后，再进行一定维度数据去除，例如去掉最高12维数据，使数据保持一致。

步骤340、将风格参考语音与各备选语音分别对应的梅尔谱特征输入至预先训练的说话人嵌入模型，得到对应的语音表征特征。

其中，说话人嵌入模型可以用于将语音进行多维度向量表示。示例性的，说话人嵌入模型可以将语音转换为语音表征特征，如256维向量，可以区分不同的说话人、风格以及对应的文本等。说话人嵌入模型可以是深度学习模型，例如可以是多层残差网络(ResNet)。在ResNet模型的隐藏层可以提取语音的语音表征特征。

在本发明实施例的一个可选实施方式中，将风格参考语音与各备选语音分别对应的梅尔谱特征输入至预先训练的说话人嵌入模型，得到对应的语音表征特征之前，还包括：获取语音样本，其中，语音样本包括至少一个说话人的至少一种风格的样本语音；对各样本语音提取梅尔谱特征，并标记各样本语音的说话人标签以及风格标签；根据各样本语音的梅尔谱特征、对应的说话人标签以及风格标签，构成的目标语音样本，进行深度学习模型训练，得到说话人嵌入模型。

其中，语音样本可以是不同说话人在不同时间录入不同风格的语音。由于录入时间不同，各语音会存在不稳定性，对于同一种风格也会存在风格表现的细微差异。对样本语音提取梅尔谱特征之前，也可以进行重采样、降噪和去混响处理、语音前后长静音检测以及语音中间VAD静音检测等处理。重采样的采样比例可以是16k。提取的梅尔谱特征可以是80维数据。每一个样本语音可以标记说话人标签用于区分不同的说话人，以及风格标签用于区分不同的风格。风格标签可以是细化的风格表现标签。

样本语音的梅尔谱特征、对应的说话人标签以及风格标签可以作为深度学习模型如多层ResNet网络的样本，进行训练。当在说话人嵌入模型中输入语音时，可以在隐藏层得到对应的多维数据用于区分不同语音、说话人以及风格。可以将多维数据作为语音对应的语音表征特征。

步骤350、计算各备选语音的语音表征特征与风格参考语音的语音表征特征的相似度。

步骤360、将各备选语音中满足预设相似度条件的音频作为风格参考语音的关联语音。

步骤370、根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征。

步骤380、将目标文本转换为语音学表达特征。

其中，语音学表达特征可以是对目标文本的语音学表示的内容。例如，可以对目标文本进行词性的划分、发音边界确定等操作，将目标文本采用字符串表示。采用字符串表示目标文本时，可以对声韵母等进行拆分，并插入符号表示语音中的停顿，形成目标文本对应的拼音序列。

示例性的，对于目标文本“我是一个好人”转换为语音学表达特征可以是“w o/shi/--y i/g e/--h ao/r en”。其中“/”表示发音边界；“--”表示停顿。

在本发明实施例的一个可选实施方式中，在将目标文本转换为语音学表达特征之前，还包括：对目标文本进行归一化处理。其中，归一化处理可以将目标文本中的非标准书写方式进行修正，过滤无效的文本。具体的，可以预先设置文本规范，对目标文本中的内容与文本规范进行映射统一。示例性的，文本规范可以指定省略号采用“……”表示。当目标文本中的省略号采用“…”表示时，需要将“…”映射统一为“……”。

步骤390、将平稳语音表征特征以及语音学表达特征输入至预先训练的多风格声学模型，得到与目标文本对应的目标梅尔谱特征。

其中，多风格声学模型可以是一种高效的端到端的声学模型，例如多模态合成框架(DurIAN)。多风格声学模型可以将语音学表达特征按照平稳语音表征特征生成梅尔谱特征。

在本发明实施例的一个可选实施方式中，将平稳语音表征特征以及语音学表达特征输入至预先训练的多风格声学模型，得到与目标文本对应的目标梅尔谱特征之前，还包括：获取多风格文本，并将多风格文本分别转换为语音学表达特征；对多风格文本分别对应的目标语音进行梅尔谱特征提取，并将各目标语音的梅尔谱特征输入至预先训练的说话人嵌入模型，得到各目标语音分别对应的语音表征特征；根据多风格文本、对应的各目标语音的梅尔谱特征以及对应的语音表征特征，进行声学模型训练，得到多风格声学模型。

其中，多风格文本可以是训练不同风格所对应的文本。例如，第一文本可以用于训练高兴，第二文本可以用于训练生气，第三文本可以用于训练其他的风格等。对于训练同一风格的各多风格文本，文本中的标点符号可以是有区别的。例如，在第一文本中，句号可以表示平淡式高兴；叹号可以表示很高兴；问号可以表示苦涩式高兴等。

在本发明实施例中，将多风格文本转换为语音学表达特征可以与将目标文本转换为语音学表达特征类似，这里不再赘述。其中，在将多风格文本转换为语音学表达特征之前，还可以将多风格文本进行归一化处理。对多风格文本分别对应的目标语音进行梅尔谱特征提取，具体的可以是对目标语音进行音频重采样(如重采样比例可以是24k)、前后长静音裁剪、VAD静音检测、提取梅尔谱特征并进行无效性去除，以及去掉最高12维数据等操作。

在本发明实施例中，通过声学模型如DurIAN模型对多风格文本、梅尔谱特征以及语音表征特征的学习，可以训练得到训练好的多风格声学模型。当在多风格声学模型中输入目标文本以及语音表征特征时，可以预测输出对应的目标梅尔谱特征，从而实现对目标文本的风格语音合成。

步骤3100、根据目标梅尔谱特征，生成与目标文本对应的目标风格语音。

本实施例的技术方案，通过响应于对目标文本的风格语音合成请求，对多层级的语音风格标签进行用户展示；响应于对多层级的语音风格标签中目标语音风格标签的选择，将与目标语音风格标签对应的描述语音，确定为与目标文本对应的风格参考语音；提取风格参考语音与各备选语音分别对应的梅尔谱特征；将风格参考语音与各备选语音分别对应的梅尔谱特征输入至预先训练的说话人嵌入模型，得到对应的语音表征特征；计算各备选语音的语音表征特征与风格参考语音的语音表征特征的相似度；将各备选语音中满足预设相似度条件的音频作为风格参考语音的关联语音；根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征；将目标文本转换为语音学表达特征；将平稳语音表征特征以及语音学表达特征输入至预先训练的多风格声学模型，得到与目标文本对应的目标梅尔谱特征；根据目标梅尔谱特征，生成与目标文本对应的目标风格语音，解决了目标文本的风格语音合成的问题，实现了在不影响语音质量的同时节省资源占用，有利于减少端到端的时延；通过预先训练好的说话人嵌入模型以及多风格声学模型，可以更好地对特征进行预测，提高语音合成的准确性；并提高语音的稳定性，在合成语音时凸出语音风格表现力的效果。

图3b是本发明实施例三提供的又一种风格语音合成方法的流程图。如图3b所示，本发明实施例的风格语音合成可以分为三个阶段：说话人嵌入学习阶段、多风格声学模型学习阶段以及风格语音合成阶段。

在说话人嵌入学习阶段可以将音频采用极低的维度进行表征。具体的，在说话人嵌入学习阶段可以对输入的样本语音进行下述操作：重采样、降噪处理、去混响处理、VAD静音检测确定人声的起始点和结束点、去除静音保留有效语音、提取梅尔谱特征以及标记说话人标签以及风格标签。对处理后的样本语音训练多层ResNet网络，生成说话人嵌入模型。将风格参考语音或者备选语音输入至说话人嵌入模型，可以从最后的隐藏层中提取语音对应的语音表征特征。

在多风格声学模型学习阶段可以根据输入的多风格文本、不同风格的说话人嵌入以及梅尔谱特征，进行声学模型建模。具体的，在多风格声学模型学习阶段可以对多风格文本进行归一化处理白拿过奖多风格文本转换成语音学表达特征。对对风格文本对应的语音可以进行下述操作：重采样、降噪处理、去混响处理、前后长静音去除、VAD静音检测确定人声的起始点和结束点、去除静音保留有效语音、提取梅尔谱特征并去掉最高12维数据。处理后的语音可以输入至说话人嵌入模型，得到对应的语音表征特征，用于区分不同说话人、不同风格以及不同语音。对多风格文本、文本对应的梅尔谱特征、以及语音表征特征可以进行DurIAN模型训练学习，得到多风格声学模型。将目标文本以及对应的平稳语音表征特征输入至多风格声学模型，可以得到对应的目标梅尔谱特征。

在风格语音合成阶段可以根据目标文本以及不同风格的说话人嵌入，合成目标文本对应的目标梅尔谱特征。具体的，在风格语音合成阶段可以针对目标文本确定风格参考语音以及关联语音。对目标文本可以进行归一化处理并转换为语音学表达特征。对风格参考语音以及关联语音可以进行下述操作：重采样、降噪处理、去混响处理、前后长静音去除、VAD静音检测确定人声的起始点和结束点、去除静音保留有效语音、提取梅尔谱特征并去掉最高12维数据。对处理后的各语音可以输入至说话人嵌入模型，得到对应的语音表征特征，进而得到平稳语音表征特征。将语音学表达特征以及平稳语音表征特征输入至多风格声学模型，可以得到对应的目标梅尔谱特征，用于合成目标文本的风格语音。

本发明实施例提供的技术方案，可以解决实际语音合成场景下说话人录入语音不稳定，造成采集得到的风格数据不均衡的问题，可以提高语音的风格表现力，并提高风格的可控性，在数字人声和数字内容生产等领域，具有实用价值。

实施例四

图4是本发明实施例四提供的一种风格语音合成装置的结构示意图。结合图4，该装置包括：关联语音识别模块410，平稳语音表征特征形成模块420和目标风格语音生成模块430。其中：

关联语音识别模块410，用于获取与待风格合成的目标文本对应的风格参考语音，并在各备选语音中识别出与风格参考语音属于同一说话人且风格一致的至少一项关联语音；

平稳语音表征特征形成模块420，用于根据风格参考语音和各关联语音的语音表征特征，形成平稳语音表征特征；

目标风格语音生成模块430，用于根据平稳语音表征特征，得到与目标文本对应的目标梅尔谱特征，并根据目标梅尔谱特征，生成与目标文本对应的目标风格语音。

可选的，关联语音识别模块410包括：

标签展示单元，用于响应于对目标文本的风格语音合成请求，对多层级的语音风格标签进行用户展示；后一层级的语音风格标签为所属前一层级的语音风格标签的细分类型；

风格参考语音确定单元，用于响应于对多层级的语音风格标签中目标语音风格标签的选择，将与目标语音风格标签对应的描述语音，确定为与目标文本对应的风格参考语音。

可选的，该装置，还包括：

描述语音播放模块，用于在对多层级的语音风格标签进行用户展示之后，响应于对多层级的语音风格标签中至少一个语音风格标签的风格试听请求，获取与请求试听的语音风格标签对应的描述语音进行用户播放。

可选的，关联语音识别模块410包括：

语音表征特征获取单元，用于获取风格参考语音与各备选语音分别对应的语音表征特征；

相似度计算单元，用于计算各备选语音的语音表征特征与风格参考语音的语音表征特征的相似度；

关联语音确定单元，用于将各备选语音中满足预设相似度条件的音频作为风格参考语音的关联语音。

可选的，语音表征特征获取单元包括：

梅尔谱特征提取子单元，用于提取风格参考语音与各备选语音分别对应的梅尔谱特征；

语音表征特征获取子单元，用于将风格参考语音与各备选语音分别对应的梅尔谱特征输入至预先训练的说话人嵌入模型，得到对应的语音表征特征。

可选的，目标风格语音生成模块430包括：

语音学表达特征确定单元，用于将目标文本转换为语音学表达特征；

目标梅尔谱特征生成单元，用于将平稳语音表征特征以及语音学表达特征输入至预先训练的多风格声学模型，得到与目标文本对应的目标梅尔谱特征。

可选的，梅尔谱特征提取子单元，具体用于：

通过语音边界检测对风格参考语音与各备选语音分别进行音频静音检查，确定说话人声音的起始点和结束点；

对风格参考语音与各备选语音分别进行梅尔谱特征提取，并根据说话人声音的起始点和结束点对提取的梅尔谱特征进行无效性语音去除。

可选的，该装置，还包括：

语音样本获取模块，用于将风格参考语音与各备选语音分别对应的梅尔谱特征输入至预先训练的说话人嵌入模型，得到对应的语音表征特征之前，获取语音样本，其中，语音样本包括至少一个说话人的至少一种风格的样本语音；

标签标记模块，用于对各样本语音提取梅尔谱特征，并标记各样本语音的说话人标签以及风格标签；

说话人嵌入模型生成模块，用于根据各样本语音的梅尔谱特征、对应的说话人标签以及风格标签，构成的目标语音样本，进行深度学习模型训练，得到说话人嵌入模型。

可选的，该装置，还包括：

语音学表达特征转换模块，用于将平稳语音表征特征以及语音学表达特征输入至预先训练的多风格声学模型，得到与目标文本对应的目标梅尔谱特征之前，获取多风格文本，并将多风格文本分别转换为语音学表达特征；

语音表征特征生成模块，用于对多风格文本分别对应的目标语音进行梅尔谱特征提取，并将各目标语音的梅尔谱特征输入至预先训练的说话人嵌入模型，得到各目标语音分别对应的语音表征特征；

多风格声学模型生成模块，用于根据多风格文本、对应的各目标语音的梅尔谱特征以及对应的语音表征特征，进行声学模型训练，得到多风格声学模型。

本发明实施例所提供的风格语音合成装置可执行本发明任意实施例所提供的风格语音合成方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本发明实施例五提供的一种电子设备的结构示意图，如图5所示，该设备包括：

一个或多个处理器510，图5中以一个处理器510为例；

存储器520；

所述设备还可以包括：输入装置530和输出装置540。

所述设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种风格语音合成方法对应的程序指令/模块(例如，附图4所示的关联语音识别模块410，平稳语音表征特征形成模块420和目标风格语音生成模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种风格语音合成方法，即：

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

实施例六

本发明实施例六提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种风格语音合成方法：

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种风格语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取与待风格合成的目标文本对应的风格参考语音，包括：

响应于对目标文本的风格语音合成请求，对多层级的语音风格标签进行用户展示；后一层级的语音风格标签为所属前一层级的语音风格标签的细分类型；

响应于对多层级的语音风格标签中目标语音风格标签的选择，将与所述目标语音风格标签对应的描述语音，确定为与目标文本对应的风格参考语音。

3.根据权利要求2所述的方法，其特征在于，在对多层级的语音风格标签进行用户展示之后，还包括：

响应于对多层级的语音风格标签中至少一个语音风格标签的风格试听请求，获取与请求试听的语音风格标签对应的描述语音进行用户播放。

4.根据权利要求1-3任一项所述的方法，其特征在于，在各备选语音中识别出与所述风格参考语音属于同一说话人且风格一致的至少一项关联语音，包括：

获取所述风格参考语音与各所述备选语音分别对应的语音表征特征；

计算各所述备选语音的语音表征特征与所述风格参考语音的语音表征特征的相似度；

将各所述备选语音中满足预设相似度条件的音频作为所述风格参考语音的关联语音。

5.根据权利要求4所述的方法，其特征在于，获取所述风格参考语音与各所述备选语音分别对应的语音表征特征，包括：

提取所述风格参考语音与各所述备选语音分别对应的梅尔谱特征；

将所述风格参考语音与各所述备选语音分别对应的梅尔谱特征输入至预先训练的说话人嵌入模型，得到对应的语音表征特征。

6.根据权利要求1所述的方法，其特征在于，根据平稳语音表征特征，得到与目标文本对应的目标梅尔谱特征，包括：

将所述目标文本转换为语音学表达特征；

将所述平稳语音表征特征以及所述语音学表达特征输入至预先训练的多风格声学模型，得到与所述目标文本对应的目标梅尔谱特征。

7.根据权利要求5所述的方法，其特征在于，提取所述风格参考语音与各所述备选语音分别对应的梅尔谱特征，包括：

通过语音边界检测对所述风格参考语音与各所述备选语音分别进行音频静音检查，确定说话人声音的起始点和结束点；

对所述风格参考语音与各所述备选语音分别进行梅尔谱特征提取，并根据说话人声音的起始点和结束点对提取的梅尔谱特征进行无效性语音去除。

8.根据权利要求5所述的方法，其特征在于，将所述风格参考语音与各所述备选语音分别对应的梅尔谱特征输入至预先训练的说话人嵌入模型，得到对应的语音表征特征之前，还包括：

获取语音样本，其中，所述语音样本包括至少一个说话人的至少一种风格的样本语音；

对各所述样本语音提取梅尔谱特征，并标记各所述样本语音的说话人标签以及风格标签；

根据各所述样本语音的梅尔谱特征、对应的说话人标签以及风格标签，构成的目标语音样本，进行深度学习模型训练，得到说话人嵌入模型。

9.根据权利要求6所述的方法，其特征在于，将所述平稳语音表征特征以及所述语音学表达特征输入至预先训练的多风格声学模型，得到与所述目标文本对应的目标梅尔谱特征之前，还包括：

获取多风格文本，并将所述多风格文本分别转换为语音学表达特征；

对所述多风格文本分别对应的目标语音进行梅尔谱特征提取，并将各所述目标语音的梅尔谱特征输入至预先训练的说话人嵌入模型，得到各所述目标语音分别对应的语音表征特征；

根据所述多风格文本、对应的各所述目标语音的梅尔谱特征以及对应的语音表征特征，进行声学模型训练，得到多风格声学模型。

10.一种风格语音合成装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9任一项所述的方法。