CN111667812B

CN111667812B - 一种语音合成方法、装置、设备及存储介质

Info

Publication number: CN111667812B
Application number: CN202010478333.0A
Authority: CN
Inventors: 杜慷; 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-07-18
Anticipated expiration: 2040-05-29
Also published as: CN111667812A

Abstract

本发明实施例提供一种语音合成方法、装置、设备及存储介质，用以提高语音合成的通用性，满足没有专业的录音设备和录音环境的普通用户的使用需求。所述语音合成方法，包括：接收语音播报指令，语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象；获取预先采集的目标对象的预设数量条语音数据，利用预先训练的声纹识别模型提取目标对象的声纹特征信息，预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的，预设数量小于预设数量阈值；利用预先训练的语音合成模型，基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为目标对象音色的待播放语音；播放合成的待播放语音。

Description

一种语音合成方法、装置、设备及存储介质

技术领域

本发明涉及语音交互领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术

车载语音交互系统一直备受大众关注，良好的语音交互系统不仅可以提高驾驶者及乘车人的安全意识，同时也可以使车载环境更加智能。现阶段车载语音导航交互中明星音色备受喜爱，这种音色带来的更多的是一种娱乐效果，但定制音色可能更加会提高驾驶员的安全意识。语音导航中往往伴随安全提示，“系安全带”，“前方减速”等提示，如果将导航声音定制成自己的父母，伴侣或者自己的孩子，驾驶员在无所谓的情况下，会更愿意去听从这些“亲切的”安全提示，同时也会提升车载环境的智能感。

现阶段，基于端到端模型的语音合成(TTS，Text To Speech)技术成为新的主流合成方法，TTS是一种通过机械或电子的方式生成人造语音的技术，这种方法摒弃了参数合成中的多个复杂模块结合的方法，直接从文本生成音频。这种端到端的方式，减少了特征工程只需要输入文本，其他的特征模型也都可以通过端到端模型隐式建模，避免了多个子模型的误差传递和积累，各种条件添加方便，如语种、说话人、情感信息等，同时这种模型生成的语音细节丰富，能够大幅度还原人声。

同时，基于端到端TTS的多说话人技术也得到长足发展，学者们在现有端到端TTS的基础上，加入多个说话人的音频标签进行区分，然后进行多说话人训练，测试时可以根据多个说话人的编号来指定用哪种声音来合成出当前文字，实现不同说话人间的灵活切换，有一定的实用价值，但是有一个很大的局限性，即该模型需要大量的多说话人数据，每位说话人至少需要几小时专业录制的、高质量的语音数据，才能保证模型的质量和实用性，并且不具备通用性，对于普通人来说，通常都没有专业的录音设备和录音环境，而训练过程通常都需要专人现场监督，不断反复录制以保证录音质量，普通人没有足够的时间去专门录制这么久的高质量训练音频，这就导致该模型无法进入普通人的使用范围。

综上所述，现有技术中的语音合成方法不具备通用性，无法满足没有专业的录音设备和录音环境的普通人的使用需求。

发明内容

本发明实施例提供一种语音合成方法、装置、设备及存储介质，用以提高语音合成的通用性，满足没有专业的录音设备和录音环境的普通用户的使用需求。

第一方面，本发明实施例提供一种语音合成方法，包括：

接收语音播报指令，语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象；

获取预先采集的目标对象的预设数量条语音数据，利用预先训练的声纹识别模型提取目标对象的声纹特征信息，预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的，预设数量小于预设数量阈值；

利用预先训练的语音合成模型，基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为目标对象音色的待播放语音；

播放合成的待播放语音。

本发明实施例提供的语音合成方法，首先，接收语音播报指令，语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象，然后，获取预先采集的目标对象的预设数量条语音数据，利用预先训练的声纹识别模型提取目标对象的声纹特征信息，预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的，预设数量小于预设数量阈值，利用预先训练的语音合成模型，基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为目标对象音色的待播放语音，最后，播放合成的待播放语音。与现有技术相比，只需要录制目标对象的预设数量条语音样本，就可以使用目标对象的音色合成任意语音，大大节省了用户录制语音的时间，同时，由于加入了声纹识别模型，因此无需专业设备录制，使用手机、平板、电脑等设备均可录制，在节省录制时间的同时，提高语音合成的通用性，满足没有专业的录音设备和录音环境的普通用户的使用需求。

在一种可能的实施方式中，利用预先训练的语音合成模型，基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为目标对象音色的待播放语音，包括：

利用预先训练的语音合成模型，对语音播报文本中的音素信息进行处理，确定语音播报文本的读音和韵律；

利用预先训练的语音合成模型，基于预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成包含目标对象音色的梅尔谱信息；

利用预先训练的声码器模型，将梅尔谱信息转换为语音波形，并基于语音播报文本的读音和韵律，得到待播放语音。

在一种可能的实施方式中，利用预先训练的语音合成模型，基于预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成包含目标对象音色的梅尔谱信息，包括：

利用预先训练的语音合成模型中的编码器网络，确定所述目标对象的声纹特征信息对应的编码向量以及声纹识别模型的编码向量；

对所述目标对象的声纹特征信息对应的编码向量和声纹识别模型的编码向量进行组合，得到组合后的编码向量；

利用预先训练的语音合成模型中的解码器网络，对组合后的编码向量进行解码，得到包含目标对象音色的梅尔谱信息。

在一种可能的实施方式中，预先训练的声纹识别模型采用如下步骤训练生成：

以预先采集的多个对象的语音数据的声纹特征作为深度神经网络模型的输入特征，以预先对每条语音数据进行标注的标注结果作为深度神经网络模型的输出特征，对深度神经网络模型进行训练，将训练得到的深度神经网络模型作为声纹识别模型。

第二方面，本发明实施例提供一种语音合成装置，包括：

接收单元，用于接收语音播报指令，语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象；

提取单元，用于获取预先采集的目标对象的预设数量条语音数据，利用预先训练的声纹识别模型提取所述目标对象的声纹特征信息，所述预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的，所述预设数量小于预设数量阈值；

处理单元，用于利用预先训练的语音合成模型，基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为目标对象音色的待播放语音；

播放单元，用于播放合成的待播放语音。

在一种可能的实施方式中，处理单元具体用于：

在一种可能的实施方式中，处理单元采用如下步骤预先训练声纹识别模型：

第三方面，本发明实施例还提供一种语音合成设备，包括：

至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时，以实现本发明实施例第一方面提供的语音合成方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时，使得语音合成设备能够执行本发明实施例第一方面提供的语音合成方法。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本发明实施例提供的一种语音合成方法的示意流程图；

图2为本发明实施例提供的另一语音合成方法的示意流程图；

图3为本发明实施例提供的一种语音合成装置的结构示意图；

图4为本发明实施例提供的一种语音合成设备的结构示意图。

具体实施方式

以下结合附图对本发明的实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

鉴于现有技术中的语音合成方法不具备通用性，无法满足没有专业的录音设备和录音环境的普通人的使用需求，本发明实施例提供一种语音合成方案，只需要录制目标对象的预设数量条语音样本，就可以使用目标对象的音色合成任意语音，大大节省了用户录制语音的时间，同时，由于加入了声纹识别模型，因此无需专业设备录制，使用手机、平板、电脑等设备均可录制，在节省录制时间的同时，提高语音合成的通用性，满足没有专业的录音设备和录音环境的普通用户的使用需求。

下面结合附图对本发明实施例提供的方案进行详细说明。

如图1所示，本发明实施例提供一种语音合成方法，其可以包括以下步骤：

步骤101，接收语音播报指令，语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象。

步骤102，获取预先采集的目标对象的预设数量条语音数据，利用预先训练的声纹识别模型提取目标对象的声纹特征信息，预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的，预设数量小于预设数量阈值。

步骤103，利用预先训练的语音合成模型，基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为目标对象音色的待播放语音。

具体实施时，预先训练的语音合成模型对语音播报文本中的音素信息进行处理，其中音素信息具体包括：将字符转换为拼音，例如字符19转换为拼音shijiu，而不是yijiu；多音字处理，即根据上下文判断此处多音字的读音；文本读音的韵律，即语音播报过程中文本字符之间的停顿位置和停顿时间等，以确定播报文本的读音和韵律，使播报的读音更加通畅，符合人的语言习惯。

需要说明的是，梅尔谱是一种基于人类感知的中间媒介，它不仅记录了不同的单词如何发音，而且还记录了预期的音量和语调，因此梅尔谱比从语音数据中提取出的声纹特征更符合人类的听感，所以在语音合成过程中，需要将声纹信息转换为梅尔谱信息，进而生成待播放语音的语音波形。

具体实施时，由声码器模型将梅尔谱信息转换为语音波形，本发明实施例中采用的声码器模型为WaveRNN模型，其结构由单层GRU和双层softmax层构成，softmax层用于预测音频样本采样值。通过网络稀疏化的方法减小网络参数，缩减了声码器的合成时间，提高声码器实施效率；同时优化网络结构和参数，通过不断实验寻找到WaveRNN模型的最优参数组合，提升了合成音质。WaveRNN模型可应用在手机或嵌入式等资源比较少的系统，该模型可以产生十分逼近于人声的音质，能够复现真实人声的语音细节，在移动端可以实时的合成高保真音频。

本发明实施例中所使用的WaveRNN模型通过单循环层出对梅尔谱信息的高非线性变换，保证语音合成的自然度和流畅度。由于增加了权重稀疏化与结构稀疏化方法，实现了网络参数数量的减少，和采样过程中所需的计算时间的缩减，保证了语音合成的实时率。同时使用子尺度依赖和批采样方法，减少音频采样值的预测依赖，在保证语音合成音频质量的同时，加速语音合成过程。

需要说明的是，语音合成模型使用Tacotron2模型，它是一种基于attention机制的编解码模型，其中，编码器为3层卷积网络和双向GRU网络的组合模型，注意力机制采样Local Sensitive attention，解码器为2个LSTM层、2个全连接层Prenet和5层卷积网络组成的模型结构，同时在解码器中还包括Stop Token模型用于动态停止语音合成。

具体实施时，编码器用于对所述目标对象的声纹特征信息对应的编码向量和声纹识别模型的编码向量进行组合，得到组合后的编码向量。

解码过程中，解码器中LSTM层的输出和上一个解码步得到的注意力上下文权重向量拼接在一起，经过线性变换投影来预测目标梅尔谱帧，然后目标梅尔谱帧经过Prenet和5层卷积网络处理来预测残差，以用来计算新的注意力上下文权重向量，并叠加到卷积前的目标梅尔谱帧上，直到Stop Token模型发出停止解码的指令。需要说明的是，解码器输出有两种形式，一种是声谱帧，即输出的梅尔谱信息，一种是由Stop Token模型输出的用于动态停止语音合成的指令，用于决定解码过程是否结束。

需要说明的是，其中，注意力机制作为编码器和解码器的桥接，本质上是一个上下文权重向量组成的矩阵，用于替换传统语音合成的时长模型，将梅尔谱与文本做对齐，使用梅尔谱作为查询命令计算注意力得分，在梅尔谱对应的文本嵌入处注意力得分就高，以提高语音波形的生成质量。

具体实施时，训练声纹识别模型所输入的语音数据，是由共约五千多个说话人，共约五千多小时的语句组成，其中每条语句时长为3-5秒，其中录制语音数据的多个说话人包括男声和女声，且覆盖了各个年龄段，使语音数据具备通用性。本发明实施例中使用ResNet-34模型作为声纹识别的主要结构，后接Softmax层作为说话人分类层，在进行模型训练时，提取声纹数据的40维Log-Mel Spectrogram特征作为模型的输入特征，其中语音处理的帧长为800ms，帧移为400ms，在Softmax层回传梯度，将其作为一个辨别说话人的分类性任务,标注语言形成神经网络深度学习的声纹特征向量，声纹特征向量与文本字符对应，不断调整模型权重至最优。

步骤104，播放合成的待播放语音。

下面结合图2对本发明实施例提供的语音合成方法的具体过程进行详细说明。

如图2所示，本发明实施例提供的语音合成方法可以有以下步骤：

步骤201，由目标对象录制预设数量的随机指定的语音，进行声纹信息注册。

步骤202，通过声纹识别模型从目标对象提供的语音数据中提取声纹特征信息，并嵌入至语音合成模型的编码器中，执行步骤204。

具体实施时，在声纹识别模型中使用ResNet-34模型的倒数第二层特征c-vector，嵌入语音合成模型中的编码器，用来为语音合成加入声纹信息。这层特征为512维，该特征作为语音合成模型编码过程中的重要的限制条件，用来控制语音合成的音色选择。

步骤203，利用预先训练的语音合成模型，对输出文本中的音素信息进行处理，确定语音播报文本的读音和韵律，其中语音合成模型为Tacotron2模型，执行步骤204。

步骤204，使用语音合成模型中的编码器，即3层卷积网络和双向GRU网络的组合模型，对目标对象的声纹特征信息对应的编码向量和声纹识别模型的编码向量进行组合，得到组合后的编码向量。

步骤205，使用语音合成模型中的解码器输入组合后的编码向量，其中解码器为2个LSTM层、2个全连接层Prenet和5层卷积网络的组合模型。

步骤206，在解码器中输入注意力机制，将LSTM层的输出和上一个解码步得到的注意力上下文权重向量拼接在一起，经过线性变换投影生成梅尔谱帧，并使用梅尔谱帧经过Prenet和5层卷积网络处理来预测残差，以用来计算新的注意力上下文权重向量。

步骤207，判断解码器中Stop Token模型是否发出停止解码的指令，若是，则执行步骤208，否则，返回步骤205。

步骤208，利用预先训练的声码器模型，将梅尔谱帧转换为语音波形，并基于语音播报文本的读音和韵律，得到待播放语音。

具体实施时，本发明实施例还提供一种语音交互嵌入式系统：首先对使用车载ARM嵌入式芯片STM32F103XX进行算法集成，然后设置车载场景下的系统指定集，基于模型的控制设计进行嵌入式开发，软件开发使用软件配置管理工具(Sotfware ConfigurationManagement,SCM)，硬件开发采用数据管理工具(Product Data Management,PDM)。基于Autosar体系作为车载系统开发的整体架构体系，改体系分为应用层、运行环境层、微控制器抽象层以及复杂驱动模块，并对接车内设备，即可进行算法嵌入，实现车载语音交互。

需要说明的是，本发明实施例提供的语音交互嵌入式系统的应用场景，除了车载场景还可应用于其他配音环境中，本发明对此不作限定。

如图3所示，本发明实施例还提供一种语音合成装置，包括：

接收单元31，用于接收语音播报指令，语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象；

提取单元32，用于获取预先采集的目标对象的预设数量条语音数据，利用预先训练的声纹识别模型提取目标对象的声纹特征信息，预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的，预设数量小于预设数量阈值；

处理单元33，用于利用预先训练的语音合成模型，基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为目标对象音色的待播放语音；

播放单元34，用于播放合成的待播放语音。

在一种可能的实施方式中，处理单元33具体用于：

在一种可能的实施方式中，处理单元33采用如下步骤预先训练声纹识别模型：

基于上述本发明实施例相同构思，本发明实施例还提供一种语音合成设备。

如图4所示，本发明实施例还提供一种语音合成设备40，包括：

至少一个处理器41、至少一个存储器42以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器41执行时，以实现本发明实施例中提供的语音合成方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器42，上述指令可由语音合成设备的处理器41执行以完成上述方法。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音合成方法，其特征在于，包括：

接收语音播报指令，所述语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象；

获取预先采集的目标对象的预设数量条语音数据，利用预先训练的声纹识别模型提取所述目标对象的声纹特征信息，所述预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的，所述预设数量小于预设数量阈值；

利用预先训练的语音合成模型，基于所述语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为所述目标对象音色的待播放语音；其中，所述利用预先训练的语音合成模型，基于所述语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为所述目标对象音色的待播放语音，包括：利用预先训练的语音合成模型，对所述语音播报文本中的音素信息进行处理，确定所述语音播报文本的读音和韵律；利用预先训练的语音合成模型，基于预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成包含目标对象音色的梅尔谱信息；利用预先训练的声码器模型，将所述梅尔谱信息转换为语音波形，并基于所述语音播报文本的读音和韵律，得到待播放语音；

播放合成的待播放语音。

2.根据权利要求1所述的方法，其特征在于，所述利用预先训练的语音合成模型，基于预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成包含目标对象音色的梅尔谱信息，包括：

利用预先训练的语音合成模型中的编码器网络，确定所述目标对象的声纹特征信息对应的编码向量以及所述声纹识别模型的编码向量；

对所述目标对象的声纹特征信息对应的编码向量和所述声纹识别模型的编码向量进行组合，得到组合后的编码向量；

3.根据权利要求1所述的方法，其特征在于，所述预先训练的声纹识别模型采用如下步骤训练生成：

以预先采集的多个对象的语音数据的声纹特征作为深度神经网络模型的输入特征，以预先对每条语音数据进行标注的标注结果作为所述深度神经网络模型的输出特征，对所述深度神经网络模型进行训练，将训练得到的深度神经网络模型作为声纹识别模型。

4.一种语音合成装置，其特征在于，包括：

接收单元，用于接收语音播报指令，所述语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象；

处理单元，用于利用预先训练的语音合成模型，基于所述语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为所述目标对象音色的待播放语音；其中，所述利用预先训练的语音合成模型，基于所述语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为所述目标对象音色的待播放语音，包括：利用预先训练的语音合成模型，对所述语音播报文本中的音素信息进行处理，确定所述语音播报文本的读音和韵律；利用预先训练的语音合成模型，基于预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成包含目标对象音色的梅尔谱信息；利用预先训练的声码器模型，将所述梅尔谱信息转换为语音波形，并基于所述语音播报文本的读音和韵律，得到待播放语音；

播放单元，用于播放合成的待播放语音。

5.根据权利要求4所述的装置，其特征在于，所述处理单元，具体用于：

6.根据权利要求4所述的装置，其特征在于，所述处理单元采用如下步骤预先训练声纹识别模型：

7.一种语音合成设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-3中任一项所述的语音合成方法。

8.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-3中任一项所述的语音合成方法。