CN113436603A

CN113436603A - 声码器的训练方法和装置及合成音频信号的方法和声码器

Info

Publication number: CN113436603A
Application number: CN202110717102.5A
Authority: CN
Inventors: 崔凡; 任新蕾; 郑羲光; 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-09-24
Anticipated expiration: 2041-06-28
Also published as: CN113436603B

Abstract

提供了一种声码器的训练方法和装置及合成音频信号的方法和声码器，其特征在于，所述声码器的训练方法包括：基于音频信号获取第一低频时域信号和第一高频时域信号；基于第一低频时域信号获取低频频域特征，并基于第一高频时域信号获取高频频域特征；基于低频频域特征，通过声码器的第一网络来获取第二低频时域信号；基于高频频域特征和第二低频时域信号，通过声码器的第二网络来获取第二高频时域信号；基于第二低频时域信号和第二高频时域信号来获取损失函数；基于所述损失函数来训练声码器的第一网络和第二网络。

Description

声码器的训练方法和装置及合成音频信号的方法和声码器

技术领域

本申请涉及音频处理领域，更具体地，涉及一种声码器的训练方法和装置以及合成音频信号的方法和声码器。

背景技术

声码器在使用深度学习进行语音合成方面有着广泛的应用。传统声码器使用输入的文字进行频域梅尔谱的预测，将梅尔谱转为时域的采样点，采用格里芬算法进行的由梅尔谱到采样点的语音质量较差，而使用深度学习的声码器转换出的语音质量较高。语音的采样率越高，合成出的语音质量就越高，但是通常也伴随着网络参数量的增大，使得运行网络的成本增加。

例如，在16k采样率下，现有的使用深度学习的声码器对每秒语音需要运行16000次解码器，提升至32k采样率之后，则需要运行32000次解码器，导致运算量非常大。

发明内容

根据本发明的示例性实施例，提供了一种声码器的训练方法，其特征在于，包括：基于音频信号获取第一低频时域信号和第一高频时域信号；基于第一低频时域信号获取低频频域特征，并基于第一高频时域信号获取高频频域特征；基于低频频域特征，通过声码器的第一网络来获取第二低频时域信号；基于高频频域特征和第二低频时域信号，通过声码器的第二网络来获取第二高频时域信号；基于第二低频时域信号和第二高频时域信号来获取损失函数；基于所述损失函数来训练声码器的第一网络和第二网络。

获取第二低频时域信号的步骤可包括：基于低频频域特征，通过第一网络的编码器来获取用于当前采样点的第一向量；基于在与低频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的低频时域值来获取当前采样点的低频时域预测值；基于第一向量、低频时域预测值、在当前采样点之前获取的前一采样点的低频时域值和所述前一采样点的低频时域误差值，通过第一网络的解码器来获取当前采样点的低频时域误差值；基于当前采样点的低频时域预测值和低频时域误差值来获取当前采样点的低频时域值；基于所述多个采样点的低频时域值来获取第二低频时域信号。

获取第二高频时域信号的步骤可包括：基于高频频域特征，通过第二网络的编码器来获取用于当前采样点的第二向量；基于在与高频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的高频时域值来获取当前采样点的高频时域预测值；基于第二向量、高频时域预测值、在当前采样点之前获取的前一采样点的高频时域值、所述前一采样点的高频时域误差值和当前采样点的低频时域值，通过第二网络的解码器来获取当前采样点的高频时域误差值；基于当前采样点的高频时域预测值和高频时域误差值来获取当前采样点的高频时域值；基于所述多个采样点的高频时域值来获取第二高频时域信号。

基于第二低频时域信号和第二高频时域信号来获取损失函数的步骤可包括：基于第一低频时域信号和第二低频时域信号来获取第一交叉熵损失函数；基于第一高频时域信号和第二高频时域信号来获取第二交叉熵损失函数；基于第一交叉熵损失函数和第二交叉熵损失函数来获取所述损失函数。

第一网络和第二网络可以为线性预测系数LPC网络。

第二网络可以是通过减少第一网络中的多个相同网络层的数量而被获取的，从而第二网络的复杂度低于第一网络的复杂度。

根据本发明的示例性实施例，提供了一种合成音频信号的方法，其特征在于，包括：基于文本来获取低频频域特征和高频频域特征；基于低频频域特征，通过第一网络来获取低频时域信号；基于高频频域特征和低频时域信号，通过第二网络来获取高频时域信号；基于低频时域信号和高频时域信号来获取合成音频信号。

获取低频时域信号的步骤可包括：基于低频频域特征，通过第一网络的编码器来获取用于当前采样点的第一向量；基于在与低频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的低频时域值来获取当前采样点的低频时域预测值；基于第一向量、低频时域预测值、在当前采样点之前获取的前一采样点的低频时域值和所述前一采样点的低频时域误差值，通过第一网络的解码器来获取当前采样点的低频时域误差值；基于当前采样点的低频时域预测值和低频时域误差值来获取当前采样点的低频时域值；基于所述多个采样点的低频时域值来获取第二低频时域信号。

获取高频时域信号的步骤可包括：基于高频频域特征，通过第二网络的编码器来获取用于当前采样点的第二向量；基于在与高频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的高频时域值来获取当前采样点的高频时域预测值；基于第二向量、高频时域预测值、在当前采样点之前获取的前一采样点的高频时域值、所述前一采样点的高频时域误差值和当前采样点的低频时域值，通过第二网络的解码器来获取当前采样点的高频时域误差值；基于当前采样点的高频时域预测值和高频时域误差值来获取当前采样点的高频时域值；基于所述多个采样点的高频时域值来获取第二高频时域信号。

第一网络和第二网络可以为线性预测系数LPC网络。

根据本发明的示例性实施例，提供了一种声码器的训练装置，其特征在于，包括：时域信号获取单元，基于音频信号获取第一低频时域信号和第一高频时域信号；频域特征获取单元，基于第一低频时域信号获取低频频域特征，并基于第一高频时域信号获取高频频域特征；低频时域信号获取单元，基于低频频域特征，通过声码器的第一网络来获取第二低频时域信号；高频时域信号获取单元，基于高频频域特征和第二低频时域信号，通过声码器的第二网络来获取第二高频时域信号；损失获取单元，基于第二低频时域信号和第二高频时域信号来获取损失函数；训练单元，基于所述损失函数来训练声码器的第一网络和第二网络。

根据本发明的示例性实施例，还提供了一种声码器，其特征在于，包括：频域特征获取单元，基于文本来获取低频频域特征和高频频域特征；低频时域信号获取单元，基于低频频域特征，通过第一网络来获取低频时域信号；高频时域信号获取单元，基于高频频域特征和低频时域信号，通过第二网络来获取高频时域信号；合成单元，基于低频时域信号和高频时域信号来获取合成音频信号。

根据本发明的示例性实施例，提供了一种电子设备，其特征在于，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行上述声码器的训练方法或合成音频信号的方法。

根据本发明的示例性实施例，提供了一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由至少一个处理器执行时，使得所述至少一个处理器能够执行上述声码器的训练方法或合成音频信号的方法。

根据本发明的示例性实施例，提供了一种计算机程序产品，其特征在于，所述计算机程序产品中的指令被至少一个处理器运行以执行上述声码器的训练方法或合成音频信号的方法。

将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明总体构思的实施而得知。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的和特点将会变得更加清楚，其中：

图1是示出根据本发明示例性实施例的声码器的训练方法的流程图；

图2是示出根据本发明示例性实施例的声码器的训练方法的示意图；

图3是示出根据本发明示例性实施例的QMF和IQMF变换的示意图；

图4是示出根据本发明示例性实施例的LPC网络的示意图；

图5是示出根据本发明示例性实施例的合成音频信号的方法的流程图；

图6是示出根据本发明示例性实施例的声码器的训练装置的框图；

图7是示出根据本发明示例性实施例的声码器的框图；

图8是示出根据本发明示例性实施例的电子设备的框图；

图9是示出根据本发明示例性实施例的服务器的示图。

具体实施方式

现将详细参照本发明的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1是示出根据本发明示例性实施例的声码器的训练方法的流程图。图2是示出根据本发明示例性实施例的声码器的训练方法的示意图。

参照图1，在步骤S110，可基于音频信号获取第一低频时域信号和第一高频时域信号。应了解，第一低频时域信号和第一高频时域信号仅为示例而非限制，本发明不限于高低频带两个子带，也可以扩展为多个子带。这里，可对音频信号进行正交镜像滤波器QMF变换来获取第一低频时域信号和第一高频时域信号，即，可将音频信号通过QMF组。QMF变换的目标是压缩对单独一个子带的带宽需求，使得信息可以借助于多个物理上带限的信道流过滤波器组。图3是示出根据本发明示例性实施例的QMF和IQMF变换的示意图。图3以两通道QMF系统作为示例，然而，本领域技术人员应了解，本发明不限于两通道QMF系统。如图3中所示，两通道QMF系统的基本结构包括两个输入-输出路径，每个路径的带宽需求是原始带宽指标的一半，其中，h₀(t)和g₀(t)为低通滤波器，h₁(t)和g₁(t)为高通滤波器。在QMF变换过程中，时域音频信号x(t)通过h₀(t)和抽取器以及h₁(t)和抽取器以分别获得第一低频时域信号和第一高频时域信号。此外，在如后面所述的IQMF变换过程中，输入的低频时域信号和高频时域信号(可以为后面所述的第二低频时域信号和第二高频时域信号)分别通过插值器(诸如，2倍插值)和g₀(t)以及插值器和g₁(t)，并将输出结果求和以最终获取合成音频信号。

在步骤S110中，假设长度为T的音频信号x在时域上为x(t)(其中，t表示时间，0＜t≤T)。经过QMF变换后的x(t)如下等式1所示。

[等式1]

x^l，x^h＝QMF(x(t)，2)

其中，x^l表示第一低频时域信号，x^h表示第一高频时域信号，2表示分解为低频和高频两个频带。

这里，将音频信号分为低频时域信号和高频时域信号，可以使得随后的两个网络的参数量都较小，从而降低了参数量和运算复杂度。

在步骤S120，可基于第一低频时域信号获取低频频域特征，并基于第一高频时域信号获取高频频域特征。

更具体地，可对获取的第一低频时域信号和第一高频时域信号进行诸如短时傅立叶变换(STFT)以获取低频频域信号和高频频域信号，如下等式2所示。

[等式2]

X^l＝abs(STFT(x^l))，X^h＝abs(STFT(x^h))

其中，X^l表示低频频域信号，X^h表示高频频域信号，abs表示取绝对值。

随后，可对通过STFT获取的低频频域信号和高频频域信号取能量谱后通过梅尔滤波器组H_m(k)，其中，该滤波器组可以是诸如非线性分布的三角滤波器组，中心频率为f(m)(m＝1，2，...M)，M为滤波器个数。梅尔滤波器组H_m(k)的频率响应如下等式3所示。

[等式3]

其中，

这里，通过梅尔滤波器组可使高频分辨率更低，低频分辨率更高，从而更关注低频(人声主要是低频)，维度更少，计算量变小。应了解，上述梅尔滤波器组仅为示例而非限制，本领域技术人员完全可根据情况采用其他的滤波器组，诸如，Bark滤波器组。

随后，还可计算每个滤波器的输出的对数能量Q(m)，如下等式4所示。

[等式4]

从而，可获得低频梅尔谱Q^l和高频梅尔谱Q^h，即，步骤S120中的低频频域特征和高频频域特征。

在步骤S130，可基于低频频域特征，通过声码器的第一网络来获取第二低频时域信号。在步骤S140，可基于高频频域特征和第二低频时域信号，通过声码器的第二网络来获取第二高频时域信号。

这里，仅作为示例而非限制，第一网络和第二网络可以为线性预测系数(LPC)网络。图4是示出根据本发明示例性实施例的LPC网络的示意图。参照图4，LPC网络可包括编码器410和解码器420。针对低频频域特征，编码器410的输入可以为音频信号的一帧低频频域特征并如图4所示通过两个卷积单元(诸如卷积核为1×3的卷积层)进行卷积运算，随后加法单元将上述卷积运算结果与原始低频频域特征进行加法运算，随后两个全连接层(FC，Fully Connected Layer)对加法单元的输出进行全连接运算以获得输出向量v，解码器部分420将编码器的输出向量v、当前采样点的低频时域预测值p_t(其通过输入的频域特征以及前k个采样点的低频时域值获得，后面将进行详细描述)、前一采样点的低频时域值s_t-1、以及前一采样点的低频时域误差值e_t-1通过concat单元进行concat运算，通过两个门限循环单元(GRU，Gated Recurrent Unit)进行门限循环运算，通过双FC层进行双全连接运算，通过softmax单元进行softmax运算，通过采样单元进行采样运算，以获得当前采样点的低频时域误差值e_t，并与当前采样点的低频时域预测值p_t通过加法单元进行加法运算，从而获得当前采样点的低频时域值s_t。

更具体地，在步骤S130，可基于低频频域特征，通过第一网络的编码器来获取用于当前采样点的预定维度的第一向量，作为与低频频域特征相应的当前帧的编码器输出，可将第一向量作为第一网络中解码器的输入。在低频频域特征对应的帧长为特定值时，可运行解码器该特定值次，每次的输入为第一向量、前一采样点的低频时域值

当前采样点的低频时域预测值p_t和前一采样点的低频时域误差值e_t-1。具体地，可基于在与低频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的低频时域值来获取当前采样点的低频时域预测值p_t。随后，可基于第一向量、当前采样点的低频时域预测值p_t、在当前采样点之前获取的前一采样点的低频时域值

和所述前一采样点的低频时域误差值e_t-1，通过第一网络的解码器来获取当前采样点的低频时域误差值e_t。随后，可基于当前采样点的低频时域预测值p_t和低频时域误差值e_t来获取当前采样点的低频时域值

从而可基于与低频频域特征对应的多个采样点的低频时域值来获取第二低频时域信号。这里，当前采样点的低频时域预测值p_t如下等式5所示。

[等式5]

其中，K表示LPC网络的阶次，a_k表示相应阶次的LPC系数，该系数可由低频频域信号X^l和高频频域信号X^h预测得到。这里，仅作为示例而非限制，K可以为16。

第一网络中的运算如下等式6所示。

[等式6]

其中，v_A表示第一网络中编码器输出的第一向量，Q^l表示低频频域特征，

表示第一网络中解码器输出的第二低频时域信号，En_A表示第一网络中的编码器，De_A表示第一网络中的解码器。

更具体地，在步骤S140，可基于高频频域特征，通过第二网络的编码器来获取用于当前采样点的预定维度的第二向量，作为与高频频域特征相应的当前帧的编码器输出，可将第二向量作为第二网络中解码器的输入。在高频频域特征对应的帧长为特定值时，可运行解码器该特定值次，每次的输入为第二向量、前一采样点的高频时域值

当前采样点的高频时域预测值p_t、前一采样点的高频时域误差值e_t-1和当前采样点的低频时域值

此时，参照图4，与针对低频频域特征相比，针对高频频域特征，concat单元将从第一网络输入的当前采样点的低频时域值

与第二向量、前一采样点的高频时域值

当前采样点的高频时域预测值p_t和前一采样点的高频时域误差值e_t-1一起进行concat运算，在此不再赘述。具体地，可基于在与高频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的高频时域值来获取当前采样点的高频时域预测值p_t。随后，可基于第二向量、高频时域预测值p_t、在当前采样点之前获取的前一采样点的高频时域值

所述前一采样点的高频时域误差值e_t-1和当前采样点的低频时域值

通过第二网络的解码器来获取当前采样点的高频时域误差值e_t。随后，可基于当前采样点的高频时域预测值p_t和高频时域误差值e_t来获取当前采样点的高频时域值

从而可基于与高频频域特征对应的多个采样点的高频时域值来获取第二高频时域信号。这里，当前采样点的高频时域预测值p_t的获取方式与上述参照等式5描述的低频时域预测值p_t的获取方式类似，在此不再赘述。

第二网络中的运算如下等式7所示。

[等式7]

其中，v_B表示第二网络中编码器输出的第二向量，Q^h表示低频频域特征，

表示第二网络中解码器输出的第二高频时域音频信号，En_B表示第二网络中的编码器，De_B表示第二网络中的解码器。输出的第二低频时域信号

和第二高频时域信号

可以为预定维度的向量(诸如，256维的向量)，向量中每个元素的值可在预定区间(诸如，[0，1])之间以用于表示预定量化位数(诸如，8bit)的采样点。

应该了解，第二网络可以是通过减少第一网络中的多个相同网络层的数量而被获取的，诸如，将第一网络中的两个卷积单元减少为一个，将两个FC层减少为一个，将两个GRU减少为一个等等，从而第二网络的复杂度低于第一网络的复杂度。这里，高频信号由于使用了低频信号故可采用参数量较小(即，减少第一网络中的多个相同网络层的数量)的LPC网络来预测，从而降低了参数量和运算复杂度。在步骤S150，可基于第二低频时域信号和第二高频时域信号来获取损失函数，并在步骤S160，可基于所述损失函数来训练声码器的第一网络和第二网络。更具体地，可基于第一低频时域信号

和第二低频时域信号

来获取第一交叉熵损失函数，基于第一高频时域信号

和第二高频时域信号

来获取第二交叉熵损失函数，并基于第一交叉熵损失函数和第二交叉熵损失函数来获取所述损失函数L，如下等式8所示。

[等式8]

其中，CrossEntropy表示损失函数，

表示第一网络中解码器输出的第二低频时域信号，

表示第二网络中解码器输出的第二高频时域信号，

表示第一低频时域信号，

表示第一高频时域信号。

此外，上述等式8是基于低频的交叉熵损失函数

和高频的交叉熵损失函数

来获取最终损失函数以及交叉熵损失值，但本发明不限于此，本领域技术人员可根据实际情况做出修改，诸如，可基于低频的交叉熵损失函数和全频带的交叉熵损失函数来获取最终损失函数以及交叉熵损失值，或直接使用全频带的交叉熵损失函数。随后，可使用获取的最终损失函数以及交叉熵损失值通过梯度下降法来更新相应LPC网络中的权重。

图5是示出根据本发明示例性实施例的合成音频信号的方法的流程图。

参照图5，在步骤S510，可基于文本来获取低频频域特征和高频频域特征。这里，本领域技术人员可根据各种算法来基于文本来获取低频频域特征和高频频域特征，诸如，通过TECTRON网络来获取低频频域特征和高频频域特征。应了解，这里的文本仅为示例而非限制，本领域技术人员可根据实际情况通过其他文件来获取低频频域特征和高频频域特征。

在步骤S520，可基于低频频域特征，通过第一网络来获取低频时域信号。更具体地，可基于低频频域特征，通过第一网络的编码器来获取用于当前采样点的第一向量；基于在与低频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的低频时域值来获取当前采样点的低频时域预测值；基于第一向量、低频时域预测值、在当前采样点之前获取的前一采样点的低频时域值和所述前一采样点的低频时域误差值，通过第一网络的解码器来获取当前采样点的低频时域误差值；基于当前采样点的低频时域预测值和低频时域误差值来获取当前采样点的低频时域值；基于所述多个采样点的低频时域值来获取第二低频时域信号。

在步骤S530，可基于高频频域特征和低频时域信号，通过第二网络来获取高频时域信号。更具体地，可基于高频频域特征，通过第二网络的编码器来获取用于当前采样点的第二向量；基于在与高频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的高频时域值来获取当前采样点的高频时域预测值；基于第二向量、高频时域预测值、在当前采样点之前获取的前一采样点的高频时域值、所述前一采样点的高频时域误差值和当前采样点的低频时域值，通过第二网络的解码器来获取当前采样点的高频时域误差值；基于当前采样点的高频时域预测值和高频时域误差值来获取当前采样点的高频时域值；基于所述多个采样点的高频时域值来获取第二高频时域信号。

这里，第一网络和第二网络可以为线性预测系数LPC网络，并且第二网络是通过减少第一网络中的多个相同网络层的数量而被获取的，从而第二网络的复杂度低于第一网络的复杂度。

在步骤S540，可基于低频时域信号和高频时域信号来获取合成音频信号。更具体地，可对低频时域信号和高频时域信号执行逆正交镜像滤波器(IQMF)变换来获取合成音频信号。通过IQMF变换合成的高采样率的音频信号s如下等式9所示。

[等式9]

s＝IQMF(s^l，s^h)

其中，s^l表示低频时域信号，s^h表示高频时域信号。IQMF变换的示意图如图3所示，在此不再赘述。

图6是示出根据本发明示例性实施例的声码器的训练装置的框图。参照图6，根据本发明示例性实施例的声码器的训练装置600可包括时域信号获取单元610、频域特征获取单元620、低频时域信号获取单元630、高频时域信号获取单元640、损失获取单元650和训练单元660。

时域信号获取单元610可基于音频信号获取第一低频时域信号和第一高频时域信号。更具体地，时域信号获取单元610可对音频信号进行QMF变换。

频域特征获取单元620可基于第一低频时域信号获取低频频域特征，并基于第一高频时域信号获取高频频域特征。

低频时域信号获取单元630可基于低频频域特征，通过声码器的第一网络来获取第二低频时域信号。高频时域信号获取单元640可基于高频频域特征和第二低频时域信号，通过声码器的第二网络来获取第二高频时域信号。这里，第一网络和第二网络可以为线性预测系数LPC网络。

损失获取单元650可基于第二低频时域信号和第二高频时域信号来获取损失函数。

训练单元660可基于所述损失函数来训练声码器的第一网络和第二网络。

图7是示出根据本发明示例性实施例的声码器的框图。参照图7，根据本发明示例性实施例的声码器700可包括频域特征获取单元710、低频时域信号获取单元720、高频时域信号获取单元730和合成单元740。

频域特征获取单元710可基于文本来获取低频频域特征和高频频域特征。

低频时域信号获取单元720可基于低频频域特征，通过第一网络来获取低频时域信号。高频时域信号获取单元730可基于高频频域特征和低频时域信号，通过第二网络来获取高频时域信号。这里，第一网络和第二网络可以为线性预测系数LPC网络。

合成单元740可基于低频时域信号和高频时域信号来获取合成音频信号。更具体地，合成单元740可对低频时域信号和高频时域信号执行IQMF变换以获取合成音频信号。

图8是示出根据本发明示例性实施例的电子设备的框图。该电子设备700例如可以是：智能手机、平板电脑、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现如图1所示的方法实施例提供的恢复音频信号的方法。

在一些实施例中，电子设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在电子设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在电子设备800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在电子设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位电子设备800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为电子设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以电子设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测电子设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对电子设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在电子设备800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在电子设备800的侧边框时，可以检测用户对电子设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置电子设备800的正面、背面或侧面。当电子设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在电子设备800的前面板。接近传感器816用于采集用户与电子设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对电子设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是示出根据本发明示例性实施例的服务器的示图。参照图9，服务器900包括一个或多个处理处理器910以及存储器920。存储器920可以包括用于执行如上参照图1和图5所述的方法的一个或一个以上的程序。服务器900还可以包括一个电源组件930被配置为执行服务器900的电源管理，一个有线或无线网络接口940被配置为将服务器900连接到网络，和一个输入输出(I/O)接口950。服务器900可以操作基于存储在存储器920的操作系统，例如Windows Server^TM、Mac OS X^TM、Unix^TM、Linux^TM、FreeBSD^TM或类似。

根据本发明的示例性实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本发明示例性实施例的声码器的训练方法或合成音频信号的方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，包括计算机指令，该计算机指令可由至少一个处理器执行以完成根据本发明示例性实施例的声码器的训练方法或合成音频信号的方法。

根据本发明的示例性实施例，通过采用诸如QMF将输入的时域音频信号分解为高低频带(不限于两个子带，可以扩展为多个子带)分别经过两个LPC网络，使得两个LPC网络的参数量都较小，从而降低了运算复杂度；此外，使高低频带通过梅尔滤波器组可使高频分辨率更低，低频分辨率更高，从而更关注低频(人声主要是低频)，维度更少，计算量变小；此外，低频信号采用参数量较大的LPC网络来预测，高频部分由于使用了低频信息故可采用参数量较小的LPC网络来预测，从而降低参数量和运算复杂度；总体来说，本发明的示例性实施例解决了LPC网络合成高采样率信号时运算量大，推理速度慢的问题。

虽然已经参照特定示例性实施例示出和描述了本发明，但是本领域的技术人员将理解，在不脱离范围由权利要求及其等同物限定的本发明的精神和范围的情况下可作出形式和细节上的各种改变。

Claims

1.一种声码器的训练方法，其特征在于，包括：

基于音频信号获取第一低频时域信号和第一高频时域信号；

基于第一低频时域信号获取低频频域特征，并基于第一高频时域信号获取高频频域特征；

基于低频频域特征，通过声码器的第一网络来获取第二低频时域信号；

基于高频频域特征和第二低频时域信号，通过声码器的第二网络来获取第二高频时域信号；

基于第二低频时域信号和第二高频时域信号来获取损失函数；

基于所述损失函数来训练声码器的第一网络和第二网络。

2.如权利要求1所述的声码器的训练方法，其特征在于，获取第二低频时域信号的步骤包括：

基于低频频域特征，通过第一网络的编码器来获取用于当前采样点的第一向量；

基于在与低频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的低频时域值来获取当前采样点的低频时域预测值；

基于第一向量、低频时域预测值、在当前采样点之前获取的前一采样点的低频时域值和所述前一采样点的低频时域误差值，通过第一网络的解码器来获取当前采样点的低频时域误差值；

基于当前采样点的低频时域预测值和低频时域误差值来获取当前采样点的低频时域值；

基于所述多个采样点的低频时域值来获取第二低频时域信号。

3.如权利要求2所述的声码器的训练方法，其特征在于，获取第二高频时域信号的步骤包括：

基于高频频域特征，通过第二网络的编码器来获取用于当前采样点的第二向量；

基于在与高频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的高频时域值来获取当前采样点的高频时域预测值；

基于第二向量、高频时域预测值、在当前采样点之前获取的前一采样点的高频时域值、所述前一采样点的高频时域误差值和当前采样点的低频时域值，通过第二网络的解码器来获取当前采样点的高频时域误差值；

基于当前采样点的高频时域预测值和高频时域误差值来获取当前采样点的高频时域值；

基于所述多个采样点的高频时域值来获取第二高频时域信号。

4.如权利要求1所述的声码器的训练方法，其特征在于，基于第二低频时域信号和第二高频时域信号来获取损失函数的步骤包括：

基于第一低频时域信号和第二低频时域信号来获取第一交叉熵损失函数；

基于第一高频时域信号和第二高频时域信号来获取第二交叉熵损失函数；

基于第一交叉熵损失函数和第二交叉熵损失函数来获取所述损失函数。

5.一种合成音频信号的方法，其特征在于，包括：

基于文本来获取低频频域特征和高频频域特征；

基于低频频域特征，通过第一网络来获取低频时域信号；

基于高频频域特征和低频时域信号，通过第二网络来获取高频时域信号；

基于低频时域信号和高频时域信号来获取合成音频信号。

6.一种声码器的训练装置，其特征在于，包括：

时域信号获取单元，基于音频信号获取第一低频时域信号和第一高频时域信号；

频域特征获取单元，基于第一低频时域信号获取低频频域特征，并基于第一高频时域信号获取高频频域特征；

低频时域信号获取单元，基于低频频域特征，通过声码器的第一网络来获取第二低频时域信号；

高频时域信号获取单元，基于高频频域特征和第二低频时域信号，通过声码器的第二网络来获取第二高频时域信号；

损失获取单元，基于第二低频时域信号和第二高频时域信号来获取损失函数；

训练单元，基于所述损失函数来训练声码器的第一网络和第二网络。

7.一种声码器，其特征在于，包括：

频域特征获取单元，基于文本来获取低频频域特征和高频频域特征；

低频时域信号获取单元，基于低频频域特征，通过第一网络来获取低频时域信号；

高频时域信号获取单元，基于高频频域特征和低频时域信号，通过第二网络来获取高频时域信号；

合成单元，基于低频时域信号和高频时域信号来获取合成音频信号。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的声码器的训练方法或如权利要求5所述的合成音频信号的方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由至少一个处理器执行时，使得所述至少一个处理器能够执行如权利要求1至4中任一项所述的声码器的训练方法或如权利要求5所述的合成音频信号的方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令被至少一个处理器运行以执行如权利要求1到4中的任一权利要求所述的声码器的训练方法或如权利要求5所述的合成音频信号的方法。