CN113345406A

CN113345406A - 神经网络声码器语音合成的方法、装置、设备以及介质

Info

Publication number: CN113345406A
Application number: CN202110545405.3A
Authority: CN
Inventors: 王飞; 张李; 王欢良; 唐浩元; 王佳珺; 代大明
Original assignee: Suzhou Qdreamer Network Technology Co ltd
Current assignee: Suzhou Qdreamer Network Technology Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-09-03
Anticipated expiration: 2041-05-19
Also published as: CN113345406B

Abstract

本发明公开了神经网络声码器语音合成的方法、装置、设备以及介质，其将音频低频由线性预测滤波器建模生成,将高频细节部分用自回归残差网络补全，同时将自回归残差网络进行补充完善，然后将低频细节和高频细节叠加，最后输出语音，合成的稳定性高，其中的多通道以及一步多点技术增加推理运算效率，另外对RNN结构的块稀疏化、减小自回归的运算量的同时提升矩阵运算计算效率，从而实现了让语音合成提供最佳质量的同时保证高效实，具有参数量低、合成速度快和合成音质高特点，符合实际的使用需求。

Description

神经网络声码器语音合成的方法、装置、设备以及介质

技术领域

本发明涉及语音信号处理领域，尤其涉及一种神经网络声码器语音合成的方法、装置、设备以及介质。

背景技术

语音合成，也就是人类声音的人工产品，被广泛应用于从助手到游戏、娱乐等各种领域，目前，语音合成已经成为语音助手不可或缺的一部分；语音合成的一般流程为：先将文本转为声学特征，随后将声学特征转为音频，声码器作为语音合成的重要组成部分，负责的就是将声学特征转换为音频。

目前声码器有两条技术路线：源-滤波器声码器以及神经网络声码器，源-滤波器声码器能够提供高度可理解的、流畅的语音，但整体质量略低。

近期，深度学习对语音领域冲击巨大，神经网络声码器极大的超越了传统的源-滤波器声码器，以WaveGLow以及MelGan为代表的生成型神经网络声码器具有合成速度高的特点，但其生成过程不可控的特性造成了其合成音不稳定，而以WaveRNN、LPCNet为代表的自回归型神经网络声码器极有潜力，能够提供高质量且稳定的合成音，然而高保真音频的采样率都在16KHz以上，自回归使得声码器合成的计算量高、速度不理想、时间延迟高。

发明内容

本发明目的是为了克服现有技术的不足而提供一种为能让语音合成提供最佳质量的同时保证高效实，具有参数量低、合成速度快和合成音质高特点的神经网络声码器语音合成的方法、装置、设备以及介质。

为达到上述目的，本发明一实施例提供了神经网络声码器语音合成的方法，包括如下步骤：

输入音频各帧的声学特征；

将声学特征转换为线性频谱，线性频谱通过多通道抗混叠滤波后输出频谱，输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数；随后，各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数，再通过线性预测滤波器获取合成音频的低频；

声学特征通过上下文抽取网络获取声学特征的上下文信息，并将上下文信息的帧级特征扩增复制；帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出，残差输出通过投影网络后采样生成各个通道的残差信号，随后，对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频；

将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中对残差信号进行完善补充；

将合成音频的低频和合成音频的高频相加，获得各个通道的音频，再将各个通道的音频进行升采样，随后将各个通道的音频叠加，最终得到输出语音。

进一步的，对线性频谱进行多通道抗混叠滤波时采用伪正交镜像滤波器组作为带通滤波器，过滤出由低频到高频的带通频率信息；其中，伪正交镜像滤波器组的脉冲响应为：

其中，N为冲击响应的抽头数量，M为滤波器组的数量。

进一步的，所述自回归残差网络采用RNN结构，并对所述对RNN的权重矩阵进行块稀疏化，其步骤如下：

S101 对RNN的权重矩阵进行分块；

S102 计算各个分块的1范数；

S103 对各个分块的范数排序，并将范数较小的分块置零；

S104 经过反复多次迭代，直到稀程度达到要求。

进一步的，所述投影网络采用全连接层将残差输出投影网络至多项分布，对该概率分布进行采样获取残差信号，其分布的项数为

；其中N为音频的量化比特数，投影网络的输出节点数变为

，M表示一步生成M点。

进一步的，对各个通道的残差信号进行抗镜像滤波时，抗镜像滤波器组的脉冲响应为：

；

其中，N为冲击响应的抽头数量，M为滤波器组的通道数，原型滤波器

的脉冲响应为：

其中，

为截至频率比率。

进一步的，对线性频谱进行多通道抗混叠滤波后的输出为：

其中，

为线性预测滤波器的输入序列，K为线性预测滤波器的阶数，

为线性预测滤波器系数。

进一步的，对自回归残差网络件进行完善补充的方法如下：

每隔若干点各个通道的残差信号输出以及线性预测滤波器的输出输入自回归残差网络中；

自回归网络结合帧级特征扩增复制后的上下文信息、线性预测滤波器的输出以及各个通道的残差信号输出作为参考输入，逐点完善残差输出，使得残差能够对合成语音的细节进行补全。

本发明一实施例提供了一种神经网络声码器语音合成的装置，包括:

输入模块，用于输入音频各帧的声学特征；

音频的低频获取模块，用于将声学特征转换为线性频谱，线性频谱通过多通道抗混叠滤波后输出频谱，输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数；随后，各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数，再通过线性预测滤波器获取合成音频的低频；

音频的高频获取模块，用于将声学特征通过上下文抽取网络获取声学特征的上下文信息，并将上下文信息的帧级特征扩增复制；帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出，残差输出通过投影网络后采样生成各个通道的残差信号，随后，对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频；

完善补充模块，用于将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中进行完善补充；

输出模块，用于将合成音频的低频和合成音频的高频相加，获得各个通道的音频，再将各个通道的音频进行升采样，随后将各个通道的音频直接叠加，最终得到输出语音。

本发明一实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述神经网络声码器语音合成的方法的步骤。

本发明一实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述神经网络声码器语音合成的方法的步骤。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

1. 本发明实施例采用自回归结构，避免了生成式声码器中的抖动和发音不稳定的问题。

2. 本发明实施例利用线性预测滤波器建模生成音频低频、利用自回归残差网络非线性拟合能力对合成音频的高频进行补全，因此神经网络所需承载的信息大大减少，从而为神经网络的小型化创造了前提。

3. 本发明实施例通过对RNN结构的块稀疏化，能够显著提升神经网络的计算效率。

4. 本发明实施例中使用多通道以及一步多点技术，加速声码器的合成速度。

附图说明

下面结合附图对本发明技术方案作进一步说明：

附图1为本发明实施例中神经网络声码器语音合成的方法流程示意图；

附图2为本发明实施例中将声学特征转化为合成音频的低频的流程示意图；

附图3为本发明实施例中对RNN的权重矩阵进行块稀疏化的流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，而不构成对本发明的限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明一实施例提供了神经网络声码器语音合成的方法、装置、设备以及介质，其主要的发明原理基于以下思路设计：将合成音中的低频（粗节）以线性预测滤波器建模生成,将高频细节部分用自回归残差网络补全，然后低频和高频细节叠加输出语音，合成的稳定性高，其中的多通道以及一步多点技术增加推理运算效率，另外块稀疏化、减小自回归的运算量的同时提升矩阵运算计算效率，从而实现了让语音合成提供最佳质量的同时保证高效实，具有参数量低、合成速度快和合成音质高特点。

请参阅附图1，其详细公开了本发明一实施例所述的神经网络声码器语音合成的方法，该过程包括如下步骤：

首先输入音频各帧的声学特征, 该输入表征了语音信号的声学信息，这个特征可以是倒谱族系数（MFCC，BFCC）或者带通滤波器的通道能量（Mel频谱）。

接着，请参阅附图1，为了将声学特征转化为合成音频的低频，采用如下步骤：

S01:将输入的声学特征对应逆向恢复出线性频谱。

S02:将上述线性频谱进行多通道抗混叠滤波后输出频谱，具体实施时采用伪正交镜像滤波器组作为带通滤波器，过滤出由低频到高频的带通频率信息；其中伪正交镜像滤波器组的脉冲响应为：

其中，N为冲击响应的抽头数量，M为滤波器组的数量。

S03:对输出的频谱进行频域降采样并获取降采样之后的频谱，降采样操作需要考虑到频域的周期、对称性；随后，利用各个通道的频谱获取各个通道对应的自相关函数。

S04：随后，各个通道对应的自相关函数通过Levison-Durbin算法生成各个通道的线性预测滤波器系数，该系数表示了不同通道对应频带的口腔共振峰结构信息，利用该信息通过线性预测滤波器我们能够获取合成音频的低频。

线性预测滤波器的输出可表示为：

其中，

为线性预测滤波器的输入序列，K为线性预测滤波器的阶数，

为线性预测滤波器系数。

然后，利用自回归残差网络拟合音频的高频细节，首先使用上下文抽取网络获取声学特征的上下文信息，这个网络可以是卷积网络（CNN）、循环网络（RNN）、抑或是DFSMN网络,通过上下文抽取网络，可将声学特征与上下文建立联系以获取平滑的抽象表示。

由于上下文信息的抽象是帧级别的，所以将上下文信息的帧级特征扩增复制为音频点级别；比如每一帧特征对应200个数据点，那么就对声学特征的上下文信息的输出逐帧复制200份。

帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出，接着残差输出通过投影网络后采样生成各个通道的残差信号；其中，投影网络采用全连接层将残差输出投影至多项分布，其分布的项数为

，其中N为音频的量化比特数，该分布反映了残差音频的概率分布，对该概率分布进行采样就能获取残差信号。

由于残差信号的建模是多通道的，因此对应的投影网络就有与通道数相同的全连接层，与此同时，为能够一步输出多点，投影网络的输出节点数变为

，M表示一步生成M点。

随后，对各个通道的残差信号进行多通道抗镜像滤波后得到合成音频的高频；其中，抗镜像滤波器组的脉冲响应为：

；

的脉冲响应为：

其中，

为截至频率比率。

进一步的，根据帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号对自回归残差网络件进行补充完善，本实施例中的自回归残差网络采用RNN结构，所述RNN结构为LSTM或GRU，由于语音信号具有短时平稳的特性，为了进一步提升该声码器的推理效率，所以对RNN结构使用一步多点技术，具体来说就是残差RNN每步迭代就会生成多个音频点，所以每隔若干点各个通道的残差信号输出以及线性预测滤波器的输出作为参考输入自回归残差网络中，逐点完善残差输出，使得残差网络能够对合成语音的细节进行补全。

其中，为了减小RNN的计算量的同时保证模型精度，本神经网络声码器语音合成的方法在模型训练的过程中对RNN的权重矩阵进行块稀疏化，请参阅附图3，其步骤如下：

S101：对RNN的权重矩阵进行分块，将维度为权重矩阵的每一行的每一列均分为若干份，每一份称之为一个数据块，在训练过程中以块为最小单位将权重矩阵置零，这样在保证模型精度的前提下，尽可能减小模型计算量。

S102：计算各个分块的1范数。

S103：对各个分块的范数排序，并将范数较小的分块置零，在模型训练过程中，每隔若干次迭代，对权重中所有数据块计算1范数并排序，范数较小的数据块对RNN的输出影响可以忽略，因此对其置零。

S104：经过多次迭代，模型达到了预期的稀程度，权重矩阵中大多数据块被置零，在模型推理过程中，被置零的数据块不参与矩阵运算，因此能够大大减小推理过程的浮点运算，神经网络声码器的推理效率能够得到极大的提升。

最后，将合成音频的低频和合成音频的高频相加，获得各个通道的音频，再将各个通道音频输出进行升采样，升采样倍率为通道数量M，随后将各个通道音频直接叠加，并最终得到输出语音。

本发明一实施例还提供了一种神经网络声码器语音合成的装置，包括:

输入模块，用于输入音频各帧的声学特征。

音频的低频获取模块，将声学特征转换为线性频谱，对线性频谱进行多通道抗混叠滤波，将抗混叠滤波后的线性频谱进行频域降采样并获取降采样之后各通道的自相关函数；随后，各通道的自相关函数通过Levison-Durbin算法生成各个通道的线性预测滤波器系数，再通过线性预测滤波器获取合成音频的低频。

音频的高频获取模块；用于将声学特征通过上下文抽取网络获取声学特征的上下文信息，并将上下文信息的帧级特征扩增复制；帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出，残差输出通过投影网络后采样生成各个通道的残差信号，随后，对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频。

训练模块，用于将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中进行完善补充。

输出模块，用于将合成音频的低频和合成音频的高频相加，获得各个通道的音频，再将各个通道输出进行升采样，随后将各个通道直接叠加，最终得到输出语音。

本发明还公开了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如下步骤：

输入音频各帧的声学特征。

将声学特征转换为线性频谱，线性频谱通过多通道抗混叠滤波后输出频谱，输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数；随后，各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数，再通过线性预测滤波器获取合成音频的低频。

声学特征通过上下文抽取网络获取声学特征的上下文信息，并将上下文信息的帧级特征扩增复制；帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出，残差输出通过投影网络后采样生成各个通道的残差信号，随后，对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频。

将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中对残差信号进行完善补充。

由于上述电子设备解决问题的原理与神经网络声码器语音合成的方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由处理器执行的计算机程序，当程序在处理器上运行时，使得处理器执行时实现如下步骤：

输入音频各帧的声学特征；将声学特征转换为线性频谱，线性频谱通过多通道抗混叠滤波后输出频谱，输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数；随后，各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数，再通过线性预测滤波器获取合成音频的低频；声学特征通过上下文抽取网络获取声学特征的上下文信息，并将上下文信息的帧级特征扩增复制；帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出，残差输出通过投影网络后采样生成各个通道的残差信号，随后，对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频；将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中对残差信号进行完善补充；将合成音频的低频和合成音频的高频相加，获得各个通道的音频，再将各个通道的音频进行升采样，随后将各个通道的音频叠加，最终得到输出语音。

以上仅是本发明的具体应用范例，对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案，均落在本发明权利保护范围之内。