CN111613204A

CN111613204A - 一种快速响应的神经语音合成系统及其方法

Info

Publication number: CN111613204A
Application number: CN202010357186.1A
Authority: CN
Inventors: 石强
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-01
Anticipated expiration: 2040-04-29
Also published as: CN111613204B

Abstract

本发明提供了一种快速响应的神经语音合成系统及其方法，包括：声学模型网络构建模块：用于构建声学模型，其中，所述声学模型包括第一输出层、第二输出层、隐藏层和输入层；声学模型训练模块：用于预设标准语音参数，并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差；合成模块：用于通过所述输入层接收语音的输入文本，根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块；其中，将所述一个低精度语音块通过第一输出层输出，将所述多个高精度语音块通过第二输出层输出。

Description

一种快速响应的神经语音合成系统及其方法

技术领域

本发明涉及语音处理技术领域，特别涉及一种快速响应的神经语音合成系统及其方法。

背景技术

目前，现在技术中基于LSTM的语音合成系统，通常采用流式处理的方式来成块的返回语音，即按照语音从前到后的顺序，每次仅返回固定长度的语音。一般把系统从接收文本到第一次返回语音块所用的时间叫做首帧返回时间，这个时间表示用户在输入文本后，在获取到语音前需要等待的时间，也就是合成系统的响应速度。但是，由于第一个语音块计算方式与随后的语音块是相同的，所以在计算量上是一致的，这就导致在计算性能较差的设备上首帧返回时间会很长，降低用户体验，成为系统工程指标的瓶颈。

发明内容

本发明提供一种快速响应的神经语音合成系统，用以解决在计算性能较差的设备上，由于首帧返回时间会很长，降低了用户体验的情况。

一种快速响应的神经语音合成系统，其特征在于，包括：

声学模型网络构建模块：用于构建声学模型，其中，所述声学模型包括第一输出层、第二输出层、隐藏层和输入层；

声学模型训练模块：用于预设标准语音参数，并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差；

合成模块：用于通过所述输入层接收语音的输入文本，根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块；其中，

将所述一个低精度语音块通过第一输出层输出，将所述多个高精度语音块通过第二输出层输出。

作为本发明的一种实施例：所述隐藏层为N个，N为大于1的正整数；其中，

所述N个隐藏层中，第一个隐藏层用于合成所述低精度语音块；

第N个隐藏层用于合成所述高精度语音块。

作为本发明的一种实施例：所述合成模块包括：

特征获取单元：用于获取所述语音的输入文本，并确定所述语音的文本特征；根据所述文本特征确定所述语音的时间信息，通过所述时间信息和文本特征合成声学特征；

流式排序单元：用于根据所述时间信息，将所述声学特征按照时间顺序分块得到一个低精度语音块和多个高精度语音块；其中，

所述低精度语音块通过第一输出层输出，所述多个高精度语音块通过第二输出层输出。

作为本发明的一种实施例：所述声学训练模块包括：

多任务学习单元：用于将所述语音的输入文本以多任务学习的方式训练所述语音；

误差确定单元：用于根据LOSS计算公式构建所述第一输出层、所述第二输出层和所述标准语音参数之间的损失函数；其中，

所述损失函数的值用于确定所述第一输出层和第二输出层输出的语音块与真实语音参数之间的误差。

作为本发明的一种实施例：所述误差确定单元构建所述损失函数包括以下步骤：

获取所述第一输出层的输出结果、所述第二输出层的输出结果和所述标准语音参数；

设所述第一输出层的输出结果为y₁、所述第二输出层的输出结果为y₂和所述标准语音参数

构建LOSS计算公式如下：

LOSS＝αLOSS₁+βLOSS_i；

其中，所述α和β表示叠加权重。

作为本发明的一种实施例：所述快速响应的神经语音合成系统还包括：

预处理模块：用于对所述语音进行处理，获取基于时间序列的输入文本；其中，

所述预处理模块包括：

滤波单元：用于预设滤波器，对所述语音通过预加重处理去除信号噪音；

分帧单元：用于将所述预加重处理后的所述语音按照时间段进行分帧；

端点检测单元：用于计算所述分帧后所述语音每帧的短时平均能量，预设所述语音每帧的短时平均能量的标准能量参数，根据所述标准能量参数与所述语音每帧的短时平均能量的对比，判断每帧所述语音是浊音或清音，并根据所述浊音和清音把每帧语音存储再不同区域。

作为本发明的一种实施例：所述合成模块还包括噪音处理模块，用于去除所述语音中的语言噪音；其中，

所述噪音处理模块处理噪音包括以下步骤：

步骤1：获取噪音能量；

其中，P表示第t帧所述语音的语言噪音能量，t表示第t帧，且t＝1,2,3……t；y(t)表示第t帧所述语音的语言噪音参数傅里叶变换后的值；

步骤2：获取说话速率；

通过音素个数和每个音素的帧数获取所述语音语速参数；

其中，所述W表示所述语音的语速参数；所述S表示所述语音的音素个数；所述Y表示所述语音的包含的帧数；

步骤3：根据所述说话速率和所述噪音能量通过精度矩阵判断噪音特征；

其中，所述E_t表示第t帧所述语音的语言噪音特征；所述L_t表示第t帧所述语音的精度矩阵。

作为本发明的一种实施例：所述噪音处理模块还包括：

噪音特征筛选单元：用于根据所述语言噪音特征对所述语音中的语言噪音进行标记；

噪音过滤单元：用于在所述语音在流式合成时，根据所述标记，删除所述语音中的语言噪音。

一种快速响应的神经语音合成方法，其特征在于，包括：

预设声学模型，其中，所述声学模型包括第一输出层、第二输出层、隐藏层和输入层；

将语音的输入文本输入所述输入层，并根据流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块，并将所述一个低精度语音块通过第一输出层输出，将所述多个高精度语音块通过第二输出层输出；

通过预设标准语音参数，将所述标准语音参数和所述第一输出层和第二输出层的输出结果通过损失函数计算，并确定声学误差。

作为本发明的一种实施例：所述预设声学模型中包括N个隐藏层，N为大于1的正整数；其中，

第N个隐藏层用于合成所述高精度语音块。

本发明的有益效果：在合成效果方面，第一输出层的输出结果的精度没有第二输出层的输出结果要高，但是由于一般首个语音块长度很短，音质稍差并不会影响用户体验。

在合成响应速度方面，由于采用的第一输出层的输出结果会极大的减少了首个语音块的推理计算量，使得系统的首帧返回时间大幅度减少。

本发明构建了新的声学模型，以扩展输出层的方式，在传统的声学模型中增加了第一输出层。

本发明在训练阶段还构建了新的损失函数，在本发明中，由于同时考虑第一输出层和第二输出层与真实语音参数之间的误差，可以使得第一输出层结果更贴近真实语音参数。

在计算第一个语音块时，直接使用第一输出层的结果，即首帧的语音块从第一输出层输出。

由于第一输出层获得输出的速度比第二输出层快，所以新的声学模型较传统的声学模型获取第一个语音块要快，可以有效的减少首帧返回时间。

这样在合成时预测的第一个语音块就不会特别差，使得本发明在语音合成时减少了用户的等待时间，提高了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种快速响应的神经语音合成系统系统结构图；

图2为本发明实施例中一种快速响应的神经语音合成系统的声学模型结构图；

图3为本发明实施例中一种快速响应的神经语音合成系统的噪音处理模块获取噪音特征的步骤图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

语音合成在搜索、导航、人机对话以及个人助手方面得到了广泛的应用，但是在应用时，因为首帧语音返回时间的决定了合成系统响应速度，因此通过减少首次返回语音时的运算量，来降低首帧语音返回时间，解决合成系统响应过慢问题是本发明发展的方向。

在本发明中，如附图1所示，本发明实施例中一种快速响应的神经语音合成系统结构图包括：

如附图2所示，本发明的声学模型结构图，声学模型网络构建模块：用于构建声学模型，其中，所述声学模型包括第一输出层、第二输出层、隐藏层和输入层；

本发明的原理在于：本发明的主要技术是神经语音合成系统构建中对声学模型的改变。因此，在声学模型中，降低首帧语音返回时间是本发明的主要技术创新的方向。

本发明第一步是构建了新的声学模型，以扩展输出层的方式，在传统的声学模型中增加了第一输出层。

本发明第二步是新模型训练，在训练阶段构建新的损失函数，确定声学误差，有益效果在于：在本发明中，由于同时考虑第一输出层和第二输出层与真实语音参数之间的误差，可以使得第一输出层结果更贴近真实语音参数。

本发明的第三步是合成语音块，在计算第一个语音块时，直接使用第一输出层的结果，即首帧的语音块从第一输出层输出。

由于第一输出层获得输出的速度比第二输出层快，所以新的声学模型较传统的声学模型获取第一个语音块要快。

有益效果在于：可以有效的减少首帧返回时间。这样在合成时预测的第一个语音块就不会特别差，使得本发明在语音合成时减少了用户的等待时间，提高了用户体验。

第N个隐藏层用于合成所述高精度语音块。

本发明的原理在于：在语音合成的过程中，合成的语音块的数量需要根据输出文本的数据量确定。

因此，隐藏层为一个大于1的正整数，在进行语音合成时，会输出多个语音块，并且第一层隐含层的输出用于合成所述的低精度语音块，第N层的输出用于合成所述的高精度语音块

作为本发明的一种实施例：所述合成模块包括：

本发明的原理在于：本发明的语音进行合成时，需要根据输出文本获取语音的特征，时间特征可以决定语音的输出时间和输入文本的时间顺序。

在通过流式排序时，根据时间特征将所述语音的输入文本按照固定的长度以时间先后的顺序进行排序，根据排序后的顺序进行编号标记，通过编号标记的方式，使得合成的时候更加简单。

在精度划分时，确定语音块的精度最后通过第一输出层和第二输出层分别输出不同精度的语音块。

本发明的有益效果在于：本发明的合成模块会首先获输入语音文的输入文本的，并通过文本特征表示进行表示。因此，文本特征能够包括了文本的时间信息和声学特征。

接着使用文本特征生成合成语音的时间信息；最后使用带时间信息的文本特征生成声学特征；有益效果在于：如果确定了时间信息和声学特征，能够方便对语音文本的流式处理。

流式处理指的的是带时间信息的文本特征，会按照时间信息进行时间顺序分块，分块的生成对应的声学特征。有益效果在于：在流式处理中第一个时间块的文本特征使用低精度的合成方式，后续的所有块都使用高精度的方式，因此提高了后续语音的精度。

作为本发明的一种实施例：所述声学训练模块包括：

本发明的原理在于：损失函数是用于确定模型预测的语音参数和真实语音参数之间的误差，主要用于指导模型训练过程向着误差变小的方向进行，其主要是依赖于反响传播算法。

有益效果在于：本专利提出的新的损失函数的意义在于：同时考虑第一输出层和第二输出层与真实语音参数之间的误差，使得第一输出层结果更贴近真实语音参数，在合成时预测的第一个语音块的精度就不会特别低。

构建LOSS计算公式如下：

LOSS＝αLOSS₁+βLOSS_i；

其中，所述α和β表示叠加权重。

本发明的原理在于：本发明通过误差确定单元构建的损失函数来确定合成的语音块与标准语音参数之间的误差，LOSS计算公式的值确定了误差，LOSS计算公式中包含语音的叠加权重α和β。

本发明的有益效果在于：本发明通过LOSS计算公式确定了语音合成系统合成语音的误差，并且基于误差，使得第一输出层结果更贴近真实语音参数，这样在合成时预测的第一个语音块就不会太差。

作为本发明的一种实施例：所述快速响应的语音合成系统还包括：

所述预处理模块包括：

端点检测单元：用于计算所述分帧后所述语音每帧的短时平均能量，预设所述语音每帧的短时平均能量的标准能量参数，根据所述标准能量参数与所述语音每帧的短时平均能量的对比，判断每帧语音是浊音或清音，并根据所述浊音和清音把每帧语音存储再不同区域。

本发明的原理在于：本发明的语音合成系统还具有通过基于时间序列获取输入文本的功能，使得输入文本可以按照固定的长度划分时，具有获取固定的时间标记。并通过滤波单元，在具有预设滤波器的情况下，通过预加重处理去除语音的信号噪音；通过分帧使得更加容易测定首帧返回时间；通过端点检测，计算分帧后语音每帧的短时平均能量，通过预设所述语音每帧的短时平均能量的标准能量参数，并根据所述标准能量参数与所述语音每帧的短时平均能量的对比，判断每帧所述语音是浊音或清音，并根据所述语音是浊音或清音来进行分类为输入文本。

本发明的有益效果在于：在语音合成语音块输出之前，可以通过时间序列获取输入文本，从而使得输入文本更加容易通过时间标记和划分。通过滤波的欲加重处理，对输入语音的分帧以及端点检测，使得本发明的合成系统更加容易在语音合成语音块之前，处理为无杂音，容易划分和合成的输入语音。

如附图3所示噪音处理模块获取噪音特征的步骤图，噪音处理模块处理噪音包括以下步骤：

步骤1：获取噪音能量；

步骤2：获取说话速率；

通过音素个数和每个音素的帧数获取所述语音语速参数；

其中，所述E_t表示第t帧所述神经语音的语言噪音特征；所述L_t表示第t帧所述语音的精度矩阵权重。

本发明的原理在于：本发明在输入的语音在输入层之前会经过预处理去除噪音，但是在进行合成，合成为语音块时，需要更加精确的去噪处理，通过对噪音能量和说话速率以建立精度矩阵的方式来获取噪音特征，从而在合成过程中，去除噪音。

本发明的有益效果在于：本发明通过在合成语音块的过程中，以精度矩阵权重、噪音能量和说话速率构建新的噪音特征矩阵，来判断合成过程中，每帧语音的噪音。

作为本发明的一种实施例：所述噪音处理模块还包括：

本发明的原理和有益效果在于：本发明在神经语音合成系统将语音中的噪音通过特征筛选单元，计算出噪音特征时对语音和合成过程中的语言噪音进行标记，然后通过噪音过滤，删除语音中的语言噪音。

一种快速响应的神经语音合成方法，其特征在于，包括：

预设标准语音参数，并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差；

通过所述输入层接收语音的输入文本，根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块；其中，

第N个隐藏层用于合成所述高精度语音块。

因此，隐藏层为一个大于1的正整数，在进行语音合成时，会输出多个语音块，并且第一层隐含层的输出用于合成所述的低精度语音块，第N层的输出用于合成所述的高精度语音块。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。