CN113140225A

CN113140225A - 语音信号处理方法、装置、电子设备及存储介质

Info

Publication number: CN113140225A
Application number: CN202010065853.9A
Authority: CN
Inventors: 肖玮; 王蒙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2021-07-20
Also published as: EP3992964B1; EP3992964A1; EP3992964A4; WO2021147237A1; US20220148613A1

Abstract

本申请提供了一种语音信号处理方法、装置、电子设备及存储介质，该方法包括：获取待处理语音信号的语音特征参数，语音特征参数包括待处理语音信号的初始频谱；基于语音特征参数，预测得到第一设定数量的子带频谱包络，其中，第一设定数量小于初始频谱所包含的初始频谱系数的数量，一个子带频谱包络与第二设定数量的初始频谱系数相对应；基于预测出的子带频谱包络对初始频谱进行调整，得到调整后的频谱；基于调整后的频谱，得到待处理语音信号对应的增强处理后的语音信号。通过本申请实施例所提供的方法，能够有效提供语音信号的优化效率，提高语音信号的质量。

Description

语音信号处理方法、装置、电子设备及存储介质

技术领域

本申请涉及信号处理技术领域，具体而言，本申请涉及一种语音信号处理方法、装置、电子设备及存储介质。

背景技术

原始音频从采集、压缩、传输、解码到回放整个链路完成后，质量会有衰减。如果不考虑采集侧、回放侧的声学干扰(噪声、混响、回声等)，引起音频质量衰减的主要因素包括但不限于压缩引起的量化误差、传输问题、不同编码器之间转码引入的误差等。

因此，为了保证音频质量，在语音信号重要的传输节点处(如下行端等)需要进行信号优化。目前常用的做法是在时域或者频域对信号做一些后处理，以增加听感，但现有的语音信号优化方法还有待进一步改进。

发明内容

本申请实施例的目的在于提供了一种能够有效提高语音信号质量的语音信号处理方法、装置、电子设备及存储介质。本申请实施例所提供的方案如下：

一方面，本申请实施例提供了一种语音信号处理方法，该方法包括：

获取待处理语音信号的语音特征参数，语音特征参数包括待处理语音信号的初始频谱；

基于语音特征参数，预测得到第一设定数量的子带频谱包络，其中，第一设定数量小于初始频谱所包含的初始频谱系数的数量，一个子带频谱包络与第二设定数量的初始频谱系数相对应；

基于预测出的子带频谱包络对初始频谱进行调整，得到调整后的频谱；

基于调整后的频谱，得到待处理语音信号对应的增强处理后的语音信号。

另一方面，本申请实施例还提供了一种语音信号处理装置，该装置包括：

特征参数获取模块，用于获取待处理语音信号的语音特征参数，语音特征参数包括待处理语音信号的初始频谱；

频谱包络预测模块，用于基于语音特征参数，预测得到第一设定数量的子带频谱包络，其中，设定数量小于初始频谱所包含的初始频谱系数的数量，一个子带频谱包络与第二设定数量的初始频谱系数相对应；

频谱调整模块，用于基于预测出的子带频谱包络对初始频谱进行调整，得到调整后的频谱；

信号生成模块，用于基于调整后的频谱，得到待处理语音信号对应的增强处理后的语音信号。

再一方面，本申请实施例还提供了一种电子设备，该电子设备包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于在运行计算机程序时执行本申请实施例所提供的方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其该存储介质中存储有计算机程序，该计算机程序在被处理器运行时执行本申请实施例所提供的方法。

本申请提供的技术方案带来的有益效果在于：本申请实施例所提供的方案，通过将数据量较大的语音信号的语音特征参数映射为数量较少的信号调整参数，即基于语音特征参数，预测得到数量小于初始频谱系数的系数数量的子带频谱包络，并基于该少量的参数实现对初始频谱的增益控制，从而实现了对待处理语音信号的信号质量的快速优化，提升了所得到的语音信号的信号质量，从主观角度来看，采用本申请实施例所提供的方案进行处理后的语音信号，信号的失真(如量化噪声失真、信号转码引起的失真等)明显减少。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1至图3示出了本申请实施例提供的方案所适用的三种应用场景的示意图；

图4示出了本申请实施例提供的一种语音信号处理方法的流程示意图；

图5示出了本申请一示例中的一种语音信号处理方法的原理示意图；

图6示出了本申请一示例中提供的一种远程电话会议系统的示意图；

图7示出了本申请实施例提供的一种语音信号处理装置的结构示意图；

图8示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为了提高语音信号的质量，目前通常是对语音信号在时域或者频域上进行一些后滤波处理，但现有大多方案主要是参考语音信号在时频域的上下关系进行一定的整形，该处理更多的是一种线性操作，但是导致信号衰减的各误差(如压缩引起的量化误差等)并不呈现线性关系，因此，现有的信号优化方案仍有待改进。

最近几年，深度学习的进展提供了一种非线性预测能力，因此，基于深度学习进行语音信号相关的滤波过程也成为一种可能，一种作法是采用回归的方式，即将输入的频谱通过深度网络得到无限逼近原始频谱(即未衰减的频谱)的预测频谱，但是目前的基于回归的深度学习的方法至少会存在以下不足：

1)需要大量的训练数据进行训练；

2)现有很多方法本质是基于Regression Mapping(回归映射)的方法，即M-to-M的映射，输出参数数量等于输出参数的数量，在应用于语音信号处理时，频谱到频谱的直接映射将导致生成的模型参数量大，处理效率低，不能够满足语音通信的实时性要求，尤其不能够满足终端侧实时语音通信的应用需求。

为了解决现有技术中所存在的上述技术问题中的至少一项，本申请实施例提供一种语音信号的处理方法、装置、电子设备及存储介质。本申请实施例所提供的方案适用于各种需要进行语音信号增强处理的应用场景中，例如，包括但不限于PSTN(Public SwitchedTelephone Network，公共交换电话网)和VoIP(Voice over Internet Protocol，基于IP的语音传输)互通(可简称为PSTN-to-VoIP)的应用场景、VoIP和PSTN互通(可简称为VoIP-to-PSTN)的应用场景、VoIP和VoIP互通(可简称为VoIP-to-VoIP)的应用场景等。

此外，在不同的应用场景中，还可以根据实际需求的不同，设置用于执行该语音信号处理方法的节点(即语音信号传输链路中的各节点)，例如，在PSTN-to-VoIP的应用场景中，该方法可以部署在语音信号的目的节点，即语音信号的接收端设备，由该接收端设备对接收到的语音信号进行语音增强处理，当然，也可以在传输链路的其他节点部署该方法，或者在传输链路的多个节点部署该方法。

下面以VoIP会议系统为例，结合三种不同的应用场景对本申请实施例所提供的语音处理方法的实用性进行示意性说明。

场景1(PSTN-to-VoIP)

作为一可选方案，在该场景中，本申请实施例所提供的语音信号处理方法可以部署在VoIP侧的客户端，即目的客户端(通常称为下行客户端)。

图1中示出了该示例中的语音信号的传输链路的部分传输节点的示意图，图1中具体示出了混音服务器和目的客户端。在该应用场景中，相对于VoIP灵活的自定义特点，PSTN属于公网，一般采用ITU-T G.711/G.722(图1中以G.711标准为例)等公共性标准对采集到的音频信号(即语音信号)进行编码和传输。在公网与VoIP互通时，需要通过转码流程，转换为VoIP常用的编码方式(如OPUS编码)。一个典型的例子是G.711-to-OPUS转码，混音服务器可以将采用G.711标准编码的码流转码为采用OPUS标准编码的码流，即如图1中所示，混音服务器将PSTN链路传输来的码流进行G.711解码，对解码后的语音帧再进行OPUS编码，将编码后的码流传输至下行客户端，下行客户端接收到码流后，进行OPUS解码得到对应的语音帧，并可以采用本申请实施例所提供的方案对各语音帧分别进行信号增强处理(图中所示的后滤波)，得到增强处理后的语音信号。

从实际效果看，将后滤波部署在下行客户端的最后节点进行增强，在基本无额外操作的情况下，可以有效提高语音信号的质量，提升用户体验。

场景2(VoIP-to-PSTN)

作为一可选方案，在该场景中，本申请实施例所提供的语音信号处理方法可以部署在混音服务器中。该示例中仍以G.711和OPUS标准为例进行的说明。

在实际应用中，考虑到PSTN电话机可操作性不大，对于VoIP-to-PSTN通路，可以在混音服务器转码时进行相关的后滤波增强。图2中本应用场景中的语音信号传输链路的部分传输节点的示意图，该图中示出了发送客户端即VoIP侧的客户端和混音服务器，具体地，可以在混音服务器进行OPUS解码后，采用本申请实施例所提供的语音信号处理方法进行后滤波增强，从而可以给接下来的G.711编码提供更好的输入，即可以对增强后的语音信号进行G.711编码，并将编码后的码流发送给目的客户端，目标客户端通过G.711解码即可得到进行了增强处理后的语音信号，提高了PSTN侧解码后所得到的语音信号的质量，提升了用户的感知。

场景3(VoIP-to-VoIP)

在采用OPUS标准编解码时，该场景是OPUS互通的应用场景。这种场景应用相对比较直接，如图3中所示的该场景的传输链路的示意图，可以将本申请实施例所提供的语音信号处理方法(图中所示的后滤波)直接部署在下行客户端，以针对量化失真的误差进行增强后输出，即下行客户端接收到采用OPUS标准编码后的码流后，对该码流进行OPUS解码，得到各语音帧，并采用本申请实施例所提供的方法对各语音帧进行语音增强处理，以提升听者的感知。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图4中示出了本申请实施例所提供的一种语音信号处理方法的流程示意图，如图中所示，该方法可以包括以下步骤：

步骤S110：获取待处理语音信号的语音特征参数，语音特征参数包括待处理语音信号的初始频谱。

其中，待处理语音信号为待增强语音信号(即需要进行增强语音处理的信号)中各语音帧的语音信号，也就是说，在实际处理中，可以分别对各语音帧对应的语音信号采用本申请实施例所提供的方案进行处理，相应的，语音特征参数指的也是各语音帧各自的语音特征参数。

具体的，可以通过将待处理语音信号进行时频变换得到初始频谱，也就是待处理语音信号的频谱系数(spectrum coefficients)。其中，时频变换的具体变换方式可以根据实际需求选择，可以包括但不限于傅里叶变换(Fourier transform，FT)或离散余弦变换(Discrete Cosine Transform，DCT)。为了描述方便，本申请实施例的下文描述中，对于傅里叶变换将以STFT(Short-Term Fourier Transform，短时傅立叶变换)为了进行说明，对于离散余弦变换，将以MDCT(Modified Discrete Cosine Transform，改进型离散余弦变换)为例进行说明。但对于本领域技术人员而言，时频变换的具体方式包括但不限于STFT和MDCT，本申请实施例的方案同样适用于其他时频变换方式。

在实际应用中，在采用傅里叶变换时，语音信号的频谱包括幅度谱和相位谱，此时，本申请实施例所提供的该方法中，语音特征参数具体包含的是频谱的幅度谱，即对于待处理语音信号而言，在采用傅里叶变换时，语音特征参数所包含的初始频谱，具体是指待处理语音信号的幅度谱，后续对于该初始频谱的相关处理，也相应的是对幅度谱进行处理。在采用离散余弦变换，语音特征参数具体则是变换后的频谱系数。

步骤S120：基于语音特征参数，预测得到第一设定数量的子带频谱包络；

其中，第一设定数量小于初始频谱所包含的初始频谱系数的数量，一个子带频谱包络与第二设定数量的初始频谱系数相对应。也就是说，在该步骤的处理中，输出数据(即预测出的各子带频谱包络)的参数数量小于输入输入数据(即语音特征参数)的参数数量，预测出的每一个子带频谱包络对应于至少两个初始频谱系数。

步骤S130：基于预测出的子带频谱包络对初始频谱进行调整，得到调整后的频谱；

步骤S140：基于调整后的频谱，得到待处理语音信号对应的增强处理后的语音信号。

由前文描述可知，在时频变换采用傅里叶变换时，上述处理步骤中具体采用了初始频谱的幅度谱，此时，在得到调整后的频谱后，为了得到增强处理后的语音信号，还需要相位信息，因此，需要基于待处理语音信号的初始相位谱，得到目标相位谱，之后再通过合并调整后的幅度谱和目标相位谱，并对合并后的频谱进行时频反变换，得到增强处理后的时域上的语音信号。而在时频变换为离散余弦变换时，由于初始频谱系数为DCT系数，再得到调整后的频谱后，将调整后的频谱进行时频反变换，即可得到增强处理后的时域上的语音信号。

本申请实施例所提供的语音信号处理方法，基于待处理语音信号的语音特征参数实现对待处理语音信号的增强处理时，通过将数据量较大的语音信号的语音特征参数映射为数量较少的信号调整参数，即基于语音特征参数，预测得到数量小于初始频谱系数的系数数量的子带频谱包络，并基于该少量的参数实现对初始频谱的增益控制，从而实现了对待处理语音信号的信号质量的快速优化，提升了所得到的语音信号的信号质量，从主观角度来看，采用本申请实施例所提供的方案进行处理后的语音信号，信号的失真(如量化噪声失真、信号转码引起的失真等)明显减少。

本申请的可选实施例中，上述语音特征参数还可以包括待处理语音信号的时域特征参数。

为了进一步提高所得到的增强处理后的语音信号的信号质量，在进行信号处理时，本申请实施例的该方案，除了考虑待处理语音信号的频域特征参数(即上述初始频谱)之外，还可以对待处理语音信号进行时域特征分析，将分析得到的时域特征参数融入到信号的增强处理中。

其中，对于语音信号而言，时域特征参数指的是能够反映该语音信号的时域特性的参量，在实际应用中，具体采用哪些参量，可以根据不同的需求进行相应的配置。

本申请的可选实施例中，时域特征参数具体可以包括LSF(Line SpectralFrequency，线谱频率)参数。

为了更好的理解LSF参数，下面首先对其进行相关说明。

LSF参数为语音通信系统中的LP(Linear Prediction，线性预测)分析技术中的信号参量。所谓LP分析，即定义一个p阶滤波器，该p阶滤波器可以表示为：

A_p(z)＝1+a₁z^-1+a₂z^-2+…+a_pz^-p (1)

其中，该表达式中的z对应于z变换，也就是说，该表达式为复频域的表达式，p为滤波器的阶数，a_i(i＝1、2、……、p)表示第i阶的滤波器系数。

在采用该p阶滤波器进行LP滤波时，语音帧的每一样本点(即频域采样点)对应的滤波结果由其前由其前p个历史样本与上述p滤波器求卷积获得，这符合语音的短时相关性特点。在实际应用中，p的具体取值可以根据实际应用需求进行配置，例如，对于采样率为8000赫兹(Hz)的场景，p可以取值为10，再例如，对于采样率为16000Hz的场景，p可以取值为16。

对于上述p阶滤波器的多项表达式(1)，可以进一步分解为以下表达式：

其中：P(z)＝A_p(z)-z^-(p+1)A_p(z^-1)，Q(z)＝A_p(z)+z^-(p+1)A_p(z^-1)。

从语音信号的物理意义上来说，表达式P(z)和Q(z)分别代表了声门一张一合的类周期性变化规律。P(z)和Q(z)两个多项式分解形式的根在复平面交替出现，因此被命名为LSF，P(z)和Q(z)的根对应于分布在复平面单位圆上的一系列角频率，可以将p阶滤波器的第i阶的根表示为ω_i，假定将P(z)和Q(z)在复平面第i阶的根定义为θ_i，其对应的角频率则可以定义为：

其中，Re{θ_i}表示θ_i的实部，Im{θ_i}表示θ_i的虚部。

对于LSF系数即LSF参数，可以计算相应的统计值，对于每一语音帧而言，该帧语音信号的LFS参数主要可以包括三部分，以第n帧语音帧为例，该语音帧的LSF参数主要包括以下三部分：

其中，

ω_i(n)表示第n帧语音帧的第i阶的角频率。β为调节系数。

从物理意义上来说，Shift(n)表示当前语音帧相对于其相邻语音帧的角频率偏移，上述表达式中，相邻语音帧采用的是当前语音帧的前一语音帧，即Shift(n)示第n帧语音帧相对于第n-1帧语音帧的角频率偏移，Shift反映了整体的LSF对应的角频率随时间变化的整体变动情况。

需要说明的是，上述当前语音帧的相邻语音帧也可以是当前语音帧的下一语音帧，即：

当然，相邻语音帧还可以是与当前语音帧相邻的至少一帧之前的语音帧和/或，至少一帧之后的音帧，如可以是当前语音帧的上一语音帧和下一语音帧，此时，作为一可选方式，Shift(n)可以为上述表达式(4)和表达式(7)的计算结果的均值，进一步的，还可以考虑上一语音帧和下一语音帧对当前语音帧影响的重要程度，赋予上一语音帧和下一语音帧不同的权重。也就是说，相邻语音帧可以根据不同的应用需求进行选择。

Bias可以称为角频率均值，对于第n帧语音帧而言，Bias(n)则表示了第n帧语音帧的角频率均值，该参数类似于LSF对应的角频率的均值。Dev(deviation，偏差)可以称为当前语音帧的角频率分布相对于参考角频率分布的偏差，该参数类似于LSF对应的角频率的高阶矩，也就是说，

是一个参考LSF分布，也可以就理解为一个标准或定义的LSF分布，Dev反映了每一帧与该标准的LSF分布的差异，β为调节系数，如果β取值为2，Dev则表示了当前语音帧的角频率分布与参考角频率分布之间的欧式距离，如果β取值为1或3，则就考虑了符号的影响，Dev为正时，表示LSF偏高频分布，反之，表示LSF偏低频分布。

可见，上述各LSF参数都是能够反映语音信号的时域特性的参量，如Shift反映了当前帧相对于其相邻帧的波动情况，Bias则反映了当前帧的信号在时序上的波动情况，Dev则反映了当前帧的信号与参考信号的偏差，因此，可以采用LSF参数作为待处理语音信号的时域特征参数，通过融合时域特征参数和频域特征参数，实现对待处理语音信号的增强处理，进一步提高信号质量。

本申请的可选实施例中，待处理语音信号为待增强语音信号的每一语音帧帧的待处理语音信号，对于当前语音帧，LSF参数包括以下至少一种：

当前语音帧相对于其相邻语音帧的角频率偏移；

当前语音帧的角频率均值；

当前语音帧的角频率分布相对于参考角频率分布的偏差。

也就是说，对于各语音帧，其LSF参数可以包括上述Shift、Bias和Dev中的一种或多种。

作为一可选方式，对于当前语音帧，LSF参数包括当前语音帧相对于其相邻语音帧的角频率偏移(即Shift)和当前帧的角频率均值(即Bias)，或者包括当前语音帧相对于其相邻语音帧的角频率偏移和当前帧的角频率分布相对于参考角频率分布的偏差(即Dev)。

由于Shift、Bias和Dev均能够很好反映出语音信号的信号特性，因此，可以利用这3种统计值的物理特性进行建模，得到语音信号的时域特征参数，提取得到时域特征向量。其中，Bias和Dev的所反映的语音信号的特性比较相似，因此，作为一可选的方式，对于Bias和Dev，可以选择其中一种，如可以选择Bias或Dev作为时域特征参数，当然，也可以同时选择Bias和Dev，在实际应用中，具体选择上述Shift、Bias和Dev中的哪种或哪几种，可以根据实际需求配置，本申请实施例不做限定。

本申请的可选实施例中，每个语音帧包括至少两个子帧，对于一个语音帧，该语音帧的LSF参数包括该语音帧所包含的至少一个子帧的LSF参数。

在实际应用中，对语音信号进行编码处理时，通常会将一个语音帧分成若干个子帧，如对于时长为20毫秒(ms)的一个语音帧，通常会分成2-4个子帧，此时，一个语音帧的LSF参数则具体可以包括该语音帧所包含的至少一个子帧的LSF参数。

本申请的可选实施例中，步骤S130中，基于预测出的子带频谱包络对初始频谱进行调整，得到调整后的频谱，包括：

将初始频谱划分为第一设定数量的频谱子带，其中，每个频谱子带包含初始频谱中第二设定数量的初始频谱系数；

基于各频谱子带所包含的初始频谱系数，得到各频谱子带各自对应的待处理子带频谱包络；

分别确定相对应的各预测出的子带频谱包络和对应的待处理子带频谱包络的差值；

基于各待处理子带频谱包络所对应的差值，对各待处理子带频谱包络各自所对应的初始频谱系数进行调整，得到调整后的频谱。

具体的，在基于语音特征参数，预测得到第一设定数量(两个或两个以上)的子带频谱包络后，为了实现对各初始频谱中的各初始频谱系数的调整，需要确定出各初始频谱系数的待调整参量，由于每个子带频谱包络对应第二设定数量的频谱系数，因此，可以将初始频谱划分为第一设定数量的频谱子带，基于每个频谱子带所包含的初始频谱系数，得到一个初始子带频谱包络，即上述待处理子带频谱包络，也就是待调整的子带频谱包络，各待调整的子带频谱包络和各预测出的子带频谱包络一一对应，即每一对待调整的子带频谱包络和预测出的子带频谱包络对应相同的各初始频谱系数，如第一个待调整的子带频谱包络和预测出的第一个子带频谱包络均对应初始频谱中的前n个初始频谱系数，之后，即可以每一对相对应的待调整的子带频谱包络和预测出的子带频谱包络，确定出一个差值，该差值即可以作为对应的待调整的子带频谱包络所包含的各初始频谱系数的待调整参量，从而基于各初始频谱系数的待调整参量，实现对初始频谱系数的调整，得到调整后的频谱。

本申请的可选实施例中，预测出的子带频谱包络和待处理子带频谱包络均为对数域的包络，相应的，对于一个待处理子带频谱，基于该待处理子带频谱包络所对应的所述差值，对该待处理子带频谱包络所对应的初始频谱系数进行调整，具体包括：

将该待处理子带频谱包络所对应的各初始频谱系数分别进行对数转换，得到对数域的系数；

基于该待处理子带频谱包络所对应的差值，分别对对数域的各系数进行增益调整，得到调整后的各系数；

将调整后的各系数进行反对数变换，得到该待处理子带频谱包络所对应的调整后的各频谱系数。

在实际应用中，为了在不改变数据的性质和相关关系的前提下，缩小了变量的尺度，方便计算，通常采用对数域的数据进行计算，取对数后，可以使得数据更加平稳等。因此，本申请实施例中的上述各子带包络具体可以是对数域的包络值，相应的，在基于上述差值进行初始频谱系数的增益调整时，可以将各初始频谱系数先转换为对数域的系数，再采用相应的差值进行调整。当然，作为另一可选的方式，也可以不将初始频谱系数进行度数变换，而是将上述各差值进行反对数变换，将变换后的差值应用于对应的各初始频谱系数上，实现频谱系数的增益控制。

本申请的可选实施例中，获取待处理语音信号的语音特征参数，包括：

对待处理语音信号进行时频变换，得到初始频谱。

其中，时频变换可以包括但不限于傅里叶变换或离散余弦变换。

可选的，在时频变换为傅里叶变换时，语音特征参数包括初始频谱的初始幅度谱，预测出的子带频谱包络为子带幅度谱包络，基于预测出的子带频谱包络对初始频谱进行调整，得到调整后的频谱，具体可以包括：

基于预测出的子带幅度谱包络对初始幅度谱进行调整，得到调整后的幅度谱；

相应的，基于调整后的频谱，得到待处理语音信号对应的增强处理后的语音信号，包括：

基于初始频谱的初始相位谱，得到目标相位谱；

基于调整后的幅度谱和目标相位谱进行时频反变换，得到增强处理后的语音信号。

也就是说，在采用傅里叶变换方式时，所采用的频域特征参数具体可以包括幅度谱，相应的，预测出的子带频谱包络也是子带幅度谱包络，基于该包络得到的调整后的频谱也是调整后的幅度谱。此时，为了得到增强处理后的语音信号，除了调整后的幅度谱之外，还需要获取相应的相位信息，即基于待处理语音信号的初始相位谱，得到目标相位谱，通过合并调整后的幅度谱和目标相位谱，并对合并后的频谱进行频时变换后，即可以得到时域的增强处理后的语音信号。

可选的，在时频变换为离散余弦变换时，上述基于调整后的频谱，得到增强处理后的语音信号，包括：

将调整后的频谱进行时频反变换，得到增强处理后的语音信号。

也就是说，在采用离散余弦变换进行时频变换时，可以直接对调整后的频谱进行频时变换，得到时域的增强处理后的语音信号。

需要说明的是，上述采用傅里叶变换的处理方式，只是本申请实施例所提供的一种示例，该处理方式同样适用于幅度谱和相位谱分开的时频变换方式的处理。同样的，上述对应于离散预先变换的处理方式，也适用于采用其他幅度谱和相位谱融合的时频变换方式的处理。

本申请的可选实施例中，上述步骤S120中，基于语音特征参数，预测得到设定数量的子带频谱包络，包括：

基于语音特征参数，通过神经网络，预测得到设定数量的子带频谱；

其中，神经网络是通过以下方式训练得到的：

获取训练数据，其中，训练数据包括待增强的各样本语音信号、以及各样本语音信号所对应的纯净语音信号；

基于各纯净语音信号，得到各样本语音信号所对应的样本子带频谱包络；

确定各样本语音信号的语音特征参数；

基于各样本语音信号对初始神经网络进行训练，直至神经网络的损失函数收敛，其中，初始神经网络的输入为各样本语音信号的语音特征参数，输出为预测出的各样本语音信号对应的子带频谱包络，损失函数的值表征了预测出的各样本语音信号对应的子带频谱包络和对应的样本子带频谱包络的差异。

具体的，在实际应用，可以采样训练数据对神经网络进行训练，使神经网络通过训练学习能够预测出的子带频谱包络能够无限逼近纯净语音信号的子带频谱包络。训练数据具体包括需要进行增强处理的各样本语音信号，以及每个样本语音信号对应的纯净语音信号，基于各纯净语音信号可以得到的子带频谱包络即可以作为相对应的样本语音信号的样本子带频谱包络，基于各样本语音信号，得到需要输入至神经网络中的输入向量，即样本语音信号的语音特征参数，可以理解的是，该语音特征参数包括频域特征参数(即样本语音信号的频谱)，还可以进一步包括时域特征参数(如样本语音信号的LSF参数)，在实际应用中，神经网络训练时所采用的样本语音信号的语音特征参数和通过训练好的神经网络进行待处理语音信号的处理时所采用的待处理语音信号的语音特征参数通常都是相同。

其中，每个样本语音信号具体可以是一帧语音信号，各样本语音信号是需要进行增强处理的信号，如可以是原始语音信号经过特定编码器进行了压缩、有量化失真的语音信号，而纯净语音信号则为未经过压缩处理的原始语音信号。

在训练时，神经网络的输入是样本语音信号的语音特征参数，输出为预测出的各子带频谱包络，可以通过不断训练使神经网络所预测出的各子带频谱包络无限逼近对应的各样本子带频谱包络(即纯净语音信号的子带频谱包络)，在满足预设的训练结束条件时，如上述所描述的损失函数收敛时，即可以认为神经网络已经学习到了很好的网络参数，可以结束训练，将此时得到的神经网络作为用于待处理语音信号处理的神经网络。

其中，上述初始神经网络的具体网络结构本申请实施例不做限定，可以根据实际需求选择，如可以包括但不限于卷积神经网络、循环神经网络等，损失函数的具体函数也可以根据实际需要选择，本申请实施例不做限定。

本申请的可选实施例中，对于一纯净语音信号，基于该纯净语音信号，得到该纯净语音信号所对应的样本语音信号所对应的样本子带频谱包络，包括：

将该纯净语音信号进行时频变换，得到该纯净语音信号的初始频谱；

将该纯净语音信号的初始频谱划分为第一设定数量的频谱子带，其中，每个频谱子带包含初始频谱中第二设定数量的频谱系数；

基于各频谱子带各自所包含的频谱系数，得到各频谱子带各自对应的样本子带频谱包络。

可以理解的是，该可选方案中得到样本子带频谱包络的方式与前文中所描述的得到待处理语音信号的各待处理子带频谱包络的原理是相同的，在此不再详细描述。

本申请的可选实施例中，神经网络包括依次级联的输入层、隐藏层和输出层，隐藏层包括依次级联的LSTM(Long Short-Term Memory，长短期记忆网络)层和全连接层；其中，

输入层的输入为语音特征参数的特征向量；

LSTM层，用于对输入层处理后的特征向量进行特征提取；

全连接层，用于对LSTM层所提取得到的特征向量再次进行特征提取；

输出层，用于基于全连接层所提取得到的特征向量，得到维度为第一设定数量的输出向量，其中，输出向量中的各元素的元素值为预测出的各子带频谱包络。

作为一可选方式，神经网络可以采用基于LSTM的网络结构，其中，LSTM是一种循环神经网络，在基于本申请实施例所提供的上述网络结构进行处理时，语音特征参数的特征向量(可以简称为输入向量)输入至输入层之后，可以由输入层将该输入向量转换为设定维度的向量，并输入至LSTM层，LSTM对输入层处理后的特征向量进行特征提取后，可以得到设定维度的隐向量，该隐向量作为后续全连接层(可以是一个全连接层或者多个级联的全连接层)的输入，由全连接层对隐向量进行特征转换后，输出的特征向量经过输出层得到维度为第一设定数量的特征向量，输出层所输出的特征向量即对应为预测得到的各子带频谱包络，具体的，特征向量中的各元素的元素值即对应为各子带频谱包络的包络值。

本申请实施例所提供的语音信号的处理方法，提供了一种参数化的回归预测方案，该方案借助于信号建模，建立了M-to-N的网络拓扑结构，其中，M代表了输入至神经网络的语音特征参数的参数量，N代表了神经网络所输出的子带频谱包络的参数量，由于N＜M，可选的，N可以远小于M，因此，基于该网络拓扑结构，可以将语音特征参数(包括频谱)映射为少量参数，之后可以利用这些参数对输入的频谱进行滤波处理，达到了语音信号增强的效果。基于本申请实施例所提供的方案，在进行神经网络训练时，由于是M-to-N的映射方式，而非M-to-M的映射方式，因此，神经网络的模型参数量可以有效减少，在采用该神经网络进行预测时，处理效率可以较快，能够更好的满足语音通信的实时性要求。

为了更好的说明和理解本申请实施例所提供的语音信号处理方案，下面结合两个具体的示例对该方案进行进一步详细的说明。

图5中示出了本申请下文的两个示例中的语音处理方法的原理示意图，在语音通信系统中，语音信号的处理会基于帧处理，因此，对于需要进行增强处理的语音信号，会将连续的语音信号分割成若干帧，每帧内部采集固定长度到的样本点，在进行信号增强时，对每一语音帧的语音信号进行处理。

如图5所示，s(n)表示第n帧的输入信号，即待增强的语音信号中第n帧的语音信号，基于本申请实施例所提供的方案，对该帧语音信号进行处理时的流程具体可以包括：

-对于第n帧语音信号即s(n)，可以分别进行时域特征分析和频域特征分析，获得时域特征向量F_t(n)(即时域特征参数)和频域特征向量F_f(n)(即频域特征参数，也就是频谱)。其中，频域特征向量具体可以是频谱系数。

-对获得的时域特征向量和频域特征向量，进行合并生成合并后的特征向量F(n)(也就是语音特征参数)，F(n)经过神经网络后可以预测出一组参数g(n)。

-将g(n)作用于频谱系数，完成频域滤波增强，得到处理后的频谱系数S_en(n)，之后将S_en(n)经过时频反变换，获得滤波增强后的时域信号，即增强处理后的语音信号。

下面结合两个示例进行具体说明。

示例一(该示例中以SFTF进行时频变换为例)

为了描述方便，本示例中以采样率Fs＝8000Hz的窄带信号作为待处理语音信号为例。但需要说明的是，本申请实施例所提供的方案同样也适用于其他采样率的信号处理场景，如可以适用于更低或更高采样率的场景，如可以应用在采样率可以是但不限于16000Hz、32000HZ、48000Hz的应用场景中。本示例中，假设一个语音帧的帧长为20ms，在Fs为8000Hz时，则相当于每帧包含160个样本点。

本示例中对s(n)进行语音信号处理的方法可以包括以下几个步骤(需要说明的以下各步骤中，有些步骤中的先后顺序并不是固定的，如下文中时域特征分析和频域特征分析的顺序可以交换或同时进行)：

第1步：时域特征分析

语音帧的LSF参数选用了Shift和Bias，对于第n帧语音帧s(n)而言，则时域特征参数的特征向量可以至少包含{Shift(n),Bias(n)}两个维度。更进一步，考虑到实际语音编码系统会将20ms分成2-4个子帧，因此，上述时域特征参数可以在20ms的帧范围取多个子帧的Shift和Bias。本示例中，如可以选取每帧的2个子帧(可以是任意的2个子帧，也可以是指定的两个子帧)的Shift和Bias，此时，本示例中第n帧的时域特征参数则包含了4维时域特征向量，记为F_t(n)。

第2步：频域特征分析

本示例中的时频变换方式为STFT，在实际应用中，考虑到消除帧间数据的不连续性，可以采取50％交叠的数据缓存方式：具体地，可以将上一帧(如对于第n帧s(n)，其上一帧为s(n-1))的160个点与当前帧的160个点组合成一个大数组，进行加窗操作，如可以使用汉宁窗进行加窗操作，在具体处理时，结合s(n-1)和s(n)，通过STFT，可以获得s(n)的频谱系数S(n)。本示例中，S(n)可以取前161个点的频谱系数作为频域特征向量，记为F_f(n)。

第3步：特征合并和神经网络预测

在获取到时域特征向量和频域特征向量之后，通过将特征向量合并(具体可以是向量拼接)，得到合并后的特征向量F(n)＝{F_t(n),F_f(n)}。接上述步骤1和步骤2可知，本示例中，F(n)为165维向量，该向量作为神经网络的输入，通过神经网络预测得到第一设定数量的子带频谱包络。

本示例中，第一设定数量设定为16，对于上述161个点的频谱系数，考虑到STFT系数序列中存在1个直流分量，通常第1个元素是直流分量，该直流分量在分析时可以去除，因此，实际考虑的是160个频谱系数，在第一设定数量为16时，则每个子带频谱包络对应10个(本实例中的第二设定数量)频谱系数，也就是说，可以将包含160个频谱系数的频谱划分为16个频谱子带，每个频谱子带包含10个频谱系数，则可以基于每个频谱子带包含的频谱系数，得到每个频谱子带所对应的待处理子带频谱包络。待处理子带频谱包络可以表示为：

g(n)＝eve(|X(n)|) (8)

其中，X(n)表示STFT系数的前161个元素，eve是谱包络计算符。

在实际处理时，可以不考虑STFT系数序列中的第1个元素，因此，可以基于X(n)的后160个元素，调用eve计算符，计算谱包络值。

本示例中，谱包络具体可以是对数域的谱包络，一种特定的谱包络计算方式可以是计算相邻10个频点的对数表示的平均值，也就是说，可以通过每相邻的10个频谱系数计算得到一个频谱子带的子带频谱包络，计算表达式为：

其中，如前所述，N即为第二设定数量，本示例中为10。{st(n),ed(n)}对应地表示第n个子带的对应频谱系数的索引值(比如：{1,10}、{11,20}等)，X(j)表示每个子带中的第j个频谱系数，我们选择第n个子带中相邻的每10个频谱系数作为一组进行计算，得到各待处理子带频谱包络，也就是基于每相邻的10个频谱系数计算得到一个待处理子带频谱包络，基于除直流分量外的160个频谱系数对应得到16个待处理子带频谱包络。

同样的，将前文中所描述的165维向量输入至用于子带频谱包络预测的神经网络，通过神经网络同样可以预测得到16个子带频谱包络，即神经网络的输出参数g(n)包含16个元素。也就是说，神经网络预测的输出是以信号频谱的谱包络作为定义的，基于输入的时域特征向量和频域特征向量，预测得到STFT系数的幅度谱的谱包络，即各子带频谱包络。

综上控制，神经网络的输入为165维，输出为16维。因此，从输入和输出考虑，本实施例采纳的神经网络是一个165-to-16的映射，作为Parametric Regression(参数回归)，显然采用该方式，比现有的系数到系数的回归方式可以简洁很多。

对于神经网络内部，本示例中所选择的结构是：1)165维输入层连接一个具有256节点的LSTM层；2)接下来，是一个具有512节点的全连接层；3)全连接层后是16维的输出层。通过此结构，完成预测g(n)的任务。

在实际实施过程中，可以通过准备一些训练数据，调用公知的神经网络工具包，训练出神经网络内部的参数。需要注意地，训练数据包含用于计算输入层的待增强的语音信号，这些数据可以是经过特定编码器进行了压缩，有量化失真的信号。输出层相关的数据则来自于原始的纯净语音。通过训练，将指导神经网络预测出的参数无限逼近于纯净语音对应的谱包络。

第4步：频域滤波增强

该步骤则是基于神经网络预测的谱包络g(n)即子带频谱包络，完成滤波处理的步骤，即基于预测出的子带频谱包络，得到增强后的语音信号。

对于F_f(n)，是待增强的语音帧的频谱系数的前161个元素；除了第一个元素(直流分量)，对F_f(n)进行基于子带增益控制，具体可以包括：

1)对于每一个预测出的子带包络值(即子带频谱包络)，在对数域上，计算该预测出的子带包络与对应的处理前包络(即待处理子带频谱)的差值。该示例中，预测得到16个子带频谱包络，可以计算得到16个差值，每个差值对应10个初始频谱系数。

2)将每个差值分别应用于对应的初始频谱系数，完成基于子带的频谱的增益控制，最终生成处理后的幅度谱。具体的，对于上述161个频谱系数，除第一个直流分量外，将第一个差值应用在160个频谱系数中的前10个频谱系数上，如将该差值分别加到这10个频谱系数上，同样的，采用该方式，将16个差值分别应用于每个差值所对应的10个频谱系数上，得到16个处理后的频谱系数，从而得到处理后的幅度谱。

对于STFT变换，还需要重建对应的相位信息即相位谱，本示例中，具体可以是基于待处理语音信号的初始相位信息，生成新的相位信息，本实施例不限定具体的生成方法，比如可以直接复制对应输入的语音帧的相位信息作为新的相位信息。

之后，通过合并新的相位谱和处理后的幅度谱，可以产生新的STFT频谱系数，最后，通过STFT反变换即可生成增强后的语音帧。

示例二(该示例中以MDCT进行时频变换为例)

上述示例一中，语音信号的时频变换是基于STFT进行的，按照经典信号理论，变换后的每一个频点包含幅度和相位信息，在示例一中，高频的相位可以是从低频中映射过来，有一定的误差。因此，本示例二中提供了一种基于MDCT变换的处理方法。相对于STFT，MDCT依然是类似的加窗、交叠，但是生成的MDCT系数是实数，信息量更大，只需利用高频MDCT系数与低频MDCT系数的相关性，采用本申请实施例中所提供的M-to-N的预测方法完成后滤波。

为了描述方便，本示例中仍以采样率Fs＝8000Hz的窄带信号作为待处理语音信号为例进行说明。同样的，本示例中的该方案同样也适用于其他采样率的信号处理场景，如可以适用于更低或更高采样率的场景，例如采样率为16000Hz、32000Hz、48000HZ的应用场景。

假设每一帧语音信号的帧长为20ms，对于Fs＝8000Hz的应用场景，则相当于每帧包含160个样本点。本示例中对s(n)进行语音信号处理的方法可以包括以下几个步骤(同样的以下各步骤中有些步骤的先后顺序并不是固定不变的)：

第1步，时域特征分析

该步骤的具体实现与上述示例一种的第1步原理相同，在此不在详细描述，通过该步骤可以得到时域特征向量F_t(n)，如可以是4维时域特征向量。

第2步，频域特征分析

本示例中所采纳的前端时频变换是MDCT，特别地，考虑到消除帧间数据的不连续性，一般可以采取50％交叠的数据缓存方式，具体地，对于当前帧而言，可以将上一帧的160点与当前帧的160点组合成一个大数组，进行加窗操作。在本示例中，对于第n帧语音帧s(n)而言，具体可以是结合s(n-1)和s(n)，通过MDCT获得频谱系数S(n)。本示例中，S(n)可以取前161点作为频域特征向量，F_f(n)。

第3步，特征合并和神经网络预测

该步骤中进行时域特征向量和频域特征向量的合并，得到合并后的特征向量F(n)＝{F_t(n),F_f(n)}，本示例中，通过将时域特征向量和频域特征向量拼接，得到的拼接向量F(n)为165维向量，作为神经网络的输入。

本示例中，同样可以采样与上述示例一中相同的处理方式，将165维向量输入至神经网络中，对于神经网络预测的输出，以信号频谱的谱包络作为定义，对于第n帧语音帧而言，通过神经网络预测得到16维的输出向量g(n)，该输出向量包含的16个元素即为预测得到的该语音帧的16个子带频谱包络(可以简称为预测出的子带包络值)。同样的，对于161个MDCT系数，除了第1个直流分量之外，可以基于其他160个MDCT系数，通过示例一中的表达式(8)和(9)，得到16个待处理的子带频谱包络的包络值(可以简称为处理前的子带包络值)。

需要说明的是，对于神经网络的结构，可以采用与示例一中相同的网络结构，即将165维的输入向量输入至输入层，输入层连接一个具有256节点的LSTM层；接下来，LSTM层输出的特征向量输入至一个具有512节点的全连接层，全连接层后是16维的输出层，通过此结构，完成预测g(n)的任务。

第4步，频域滤波增强

该步骤即为基于神经网络预测的谱包络g(n)完成滤波增强，得到增强后的语音信号的过程。

对于F_f(n)，是待增强的语音帧的频谱系数的前161个元素；除了第一个元素(直流分量)，我们对F_f(n)，进行基于子带增益控制，具体可以包括：

1)对于每一个预测出的子带包络值，在对数域上，计算该预测出的子带包络与对应的处理前的子带包络值的差值。本示例中，可以计算得到16个差值。

2)将上述各差值分别应用于对应的待处理子带频谱上，完成基于子带的频谱的增益控制，得到新的MDCT谱。具体的，即将16个差值分别应用于各差值各自对应的16个MDCT系数上，得到处理后的MDCT系数。

最后，基于产生新的MDCT谱，通过MDCT反变换即可生成增强后的语音帧。

本申请所提供的上述两个示例，通过对输入信号分别进行时域特征分析和频域特征分析，获得时域特征向量和频域特征向量；将时域特征向量和频谱特征向量合并后，经过神经网络后可以预测出一组参数值；之后，将预测出的参数，应用于频域系数完成滤波增强；最后，经反变换后，生成滤波增强后的时域信号并输出。经过上述后滤波增强处理，可以有效提升语音信号的质量，尤其是语音信号的量化噪声等失真明显减少。

本申请实施例所提供的语音信号处理方法可以适用于任何需要进行语音信号增强的应用场景中，该方法可以应用于离线的应用场景中，如对用户通过自己的手机或其他录音设备等采集到的语音信号，或者从网络上下载下来的语音信号采用该方法进行信号增强，该方法也可以应用于在线的应用场景中，如可以应用于在线的语音通话场景中或者音视频通话场景中，对各场景中需要传输的语音信号进行信号增强，需要说明的是，对于在线的应用场景，可以根据实际需要选择用于执行该方法的节点，如对于前文中图1至图3所示的三种语音信号的传输场景中，可以由发送语音信号的客户端执行，也可以由接收到的客户端执行，还可以由混音服务器执行。

为了更好的说明本申请实施例所提供的该方法，下面再结合一个具体的应用场景示例对该方法进行进一步说明。

图6中示出了本示例中的一种远程电话会议系统的结构示意图，如图中所示，该远程电话会议系统可以包括会议终端设备10和会议终端设备20，会议终端设备10和会议终端设备20之间通过服务器30通信连接，如图中所示，会议终端设备10和会议终端设备20分别通过网络与服务器30通信连接。其中，会议终端设备10和会议终端设备20具体可以为手机、电脑或其他专用的会议通话装置等。可以理解的是，在实际应用中，参与会议通话的可以是两方，也可以是多方。

下面结合图6中所示的该远程电话会议系统，结合具体应用场景进行说明，该示例中以语音信号的接收端执行语音信号的增强为例。

在会议发起时，会议终端设备10和会议终端设备20通过服务器30连通，例如，以会议终端设备10和会议终端设备20均为智能手机为例，可以由参会的一方(对应设备10的一方)的参会人员A通过智能手机向参会的另一方(对应设备20的一方)的参会人员B的智能手机发起通信请求，会议人员B接受该请求后，会议的双方则建立起通信。

在通信建立成功进行语音会议的过程中，上述参会的一方的一个或多个参会人员的语音会话可以由会议终端设备10的音频采集模块(如麦克风)采集并进行语音编码后，通过服务器30发送至会议终端设备20，会议终端设备20对接收到的语音信号进行解码，对于解码后的语音信号即可采用本申请实施例所提供的语音信号处理方法进行该语音信号的增强处理，从而得到增强后的语音信号，并将增强后的效果更好的语音信号通过音频播放设备(如扬声器)播放给参会的另一方的参会人员。具体的，会议终端设备20在接收到服务器30发送来的码流后，可以通过对该码流进行解码得到初始的语音信号，该初始的语音信号即为本示例中的待处理语音信号，会议终端设备可以通过执行本申请任一可选实施例的语音信号处理方法对该语音信号进行处理，得到增强处理后的语音信号，例如，可以首先确定该语音信号的语音特征参数，基于确定出的语音特征参数通过神经网络模型预测得到各子带频谱包络，采用预测出的各子带频谱包络对该语音信号的初始频谱系数进行调整，基于调整后的各频谱系数，即可得到增强后的语音信号。

同样的，参会的另一方的参会人员的语音会话也可以由会议终端设备20的音频采集模块采集并进行语音编码后，通过服务器30发送至会议终端设备10，由会议终端设备20对接收到的语音信号进行解码，并对解码后的语音信号采用本申请实施例所提供的语音信号处理方法进行语音信号的增强处理后，播放给参会的一方的会议人员，从而有效提升了会议中双方的会议人员所听到的语音信号的质量，提升了参会人员的听觉感知。

基于与本申请实施例所提供的信号处理方法相同的原理，本申请实施例还提供了一种语音信号处理装置，如图7中所示，该语音信号处理装置100可以包括特征参数获取模块110、频谱包络预测模块120、频谱调整模块130和信号生成模块140。其中：

特征参数获取模块110，用于获取待处理语音信号的语音特征参数，语音特征参数包括待处理语音信号的初始频谱；

频谱包络预测模块120，用于基于语音特征参数，预测得到第一设定数量的子带频谱包络，其中，设定数量小于初始频谱所包含的初始频谱系数的数量，一个子带频谱包络与第二设定数量的初始频谱系数相对应；

频谱调整模块130，用于基于预测出的子带频谱包络对初始频谱进行调整，得到调整后的频谱；

信号生成模块130，用于基于调整后的频谱，得到待处理语音信号对应的增强处理后的语音信号。

可选的，上述语音特征参数还包括待处理语音信号的时域特征参数。

可选的，时域特征参数包括LSF参数。

可选的，待处理语音信号为待增强语音信号的每一语音帧的语音信号，对于当前语音帧，LSF参数包括以下至少一种：

当前语音帧相对于其相邻语音帧的角频率偏移；

当前语音帧的角频率均值；

当前语音帧的角频率分布相对于参考角频率分布的偏差。

可选的，对于当前语音帧，LSF参数包括当前语音帧相对于其相邻语音帧的角频率偏移和当前帧的角频率均值，或者，包括当前语音帧相对于其相邻语音帧的角频率偏移和当前帧的角频率分布相对于参考角频率分布的偏差。

可选的，每个语音帧包括至少两个子帧，对于一个语音帧，该语音帧的LSF参数包括该语音帧所包含的至少一个子帧的LSF参数。

可选的，频谱调整模块130用于：

将初始频谱划分为第一设定数量的频谱子带，其中，每个频谱子带包含初始频谱中第二设定数量的初始频谱系数；基于各频谱子带所包含的初始频谱系数，得到各频谱子带各自对应的待处理子带频谱包络；分别确定相对应的各预测出的子带频谱包络和对应的待处理子带频谱包络的差值；基于各待处理子带频谱包络所对应的差值，对各待处理子带频谱包络各自所对应的初始频谱系数进行调整，得到调整后的频谱。

可选的，预测出的子带频谱包络和待处理子带频谱包络均为对数域的包络，对于一个待处理子带频谱，频谱调整模块130在基于该待处理子带频谱包络所对应的差值，对该待处理子带频谱包络所对应的初始频谱系数进行调整时，用于：

可选的，特征参数获取模块110用于对待处理语音信号进行时频变换，得到初始频谱；

其中，若时频变换为傅里叶变换，初始频谱为初始幅度谱，预测出的子带频谱包络为子带幅度谱包络，频谱调整模块130用于基于预测出的子带幅度谱包络对初始幅度谱进行调整，得到调整后的幅度谱；信号生成模块140用于：基于待处理语音信号的初始相位谱，得到目标相位谱，基于调整后的幅度谱和目标相位谱进行时频反变换，得到增强处理后的语音信号；

若时频变换为离散余弦变换，信号生成模块用于：将调整后的频谱进行时频反变换，得到增强处理后的语音信号。

可选的，频谱包络预测模块120具体用于基于语音特征参数，通过神经网络，预测得到设定数量的子带频谱；其中，该神经网络是由神经网络训练模块通过执行以下训练方式得到的：

确定各样本语音信号的语音特征参数；

基于各样本语音信号对初始神经网络进行训练，直至神经网络的损失函数收敛，其中，初始神经网络的输入为各样本语音信号的语音特征参数，输出为预测出的各样本语音信号所对应的子带频谱包络，损失函数的值表征了预测出的各样本语音信号对应的子带频谱包络和对应的样本子带频谱包络的差异。

可选的，对于一个纯净语音信号，神经网络训练模块在基于该纯净语音信号，得到该纯净语音信号所对应的样本语音信号所对应的样本子带频谱包络时，具体用于：

可选的，神经网络包括依次级联的输入层、隐藏层和输出层，隐藏层包括依次级联的LSTM层和全连接层；其中，

输入层的输入为语音特征参数的特征向量；

LSTM层，用于对输入层处理后的特征向量进行特征提取；

需要说明的是，由于本发明实施例所提供的装置为可以执行本发明实施例中的方法的装置，故而基于本发明实施例中所提供的方法，本领域所属技术人员能够了解本发明实施例的装置的具体实施方式以及其各种变化形式，所以在此对于该装置如何实现本发明实施例中的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中的方法所采用的装置，都属于本申请所欲保护的范围。

基于与本申请实施例所提供的语音信号处理方法及装置相同的原理，本申请实施例还提供了一种电子设备，该电子设备包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于在运行计算机程序时执行本申请任一可选实施例中所示的语音信号处理方法。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序在被处理器运行时执行本申请任一可选实施例中所示的语音信号处理方法。

在一个可选实施例中，图8中示出了本申请实施例所适用的一种电子设备的结构示意图，如图8中所示，该电子设备4000包括处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音信号处理方法，其特征在于，包括：

获取待处理语音信号的语音特征参数，所述语音特征参数包括所述待处理语音信号的初始频谱；

基于所述语音特征参数，预测得到第一设定数量的子带频谱包络，其中，所述第一设定数量小于所述初始频谱所包含的初始频谱系数的数量，一个子带频谱包络与第二设定数量的初始频谱系数相对应；

基于预测出的子带频谱包络对所述初始频谱进行调整，得到调整后的频谱；

基于调整后的频谱，得到所述待处理语音信号对应的增强处理后的语音信号。

2.根据权利要求1所述的方法，其特征在于，所述语音特征参数还包括所述待处理语音信号的时域特征参数。

3.根据权利要求2所述的方法，其特征在于，所述时域特征参数包括线谱频率LSF参数。

4.根据权利要求3所述的方法，其特征在于，所述待处理语音信号为待增强语音信号的每一语音帧的语音信号，对于当前语音帧，所述LSF参数包括以下至少一种：

当前语音帧相对于其相邻语音帧的角频率偏移；

当前语音帧的角频率均值；

当前语音帧的角频率分布相对于参考角频率分布的偏差。

5.根据权利要求4所述的方法，其特征在于，对于当前语音帧，所述LSF参数包括当前语音帧相对于其相邻语音帧的角频率偏移和当前帧的角频率均值，或者，包括当前语音帧相对于其相邻语音帧的角频率偏移和当前帧的角频率分布相对于参考角频率分布的偏差。

6.根据权利要求5所述的方法，其特征在于，每个语音帧包括至少两个子帧，对于一个语音帧，该语音帧的LSF参数包括该语音帧所包含的至少一个子帧的LSF参数。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述基于预测出的子带频谱包络对所述初始频谱进行调整，得到调整后的频谱，包括：

将所述初始频谱划分为第一设定数量的频谱子带，其中，每个频谱子带包含所述初始频谱中第二设定数量的初始频谱系数；

基于各待处理子带频谱包络所对应的所述差值，对各待处理子带频谱包络各自所对应的初始频谱系数进行调整，得到调整后的频谱。

8.根据权利要求7所述的方法，其特征在于，预测出的子带频谱包络和待处理子带频谱包络均为对数域的包络，对于一个待处理子带频谱，基于该待处理子带频谱包络所对应的所述差值，对该待处理子带频谱包络所对应的初始频谱系数进行调整，包括：

9.根据权利要求1至6中任一项所述的方法，其特征在于，所述获取待处理语音信号的语音特征参数，包括：

对所述待处理语音信号进行时频变换，得到所述初始频谱；

其中，若时频变换为傅里叶变换，所述初始频谱为初始幅度谱，所述预测出的子带频谱包络为子带幅度谱包络，所述基于预测出的子带频谱包络对所述初始频谱进行调整，得到调整后的频谱，以及基于调整后的频谱，得到所述待处理语音信号对应的增强处理后的语音信号，包括：

基于预测出的子带幅度谱包络对所述初始幅度谱进行调整，得到调整后的幅度谱；

基于所述待处理语音信号的初始相位谱，得到目标相位谱；

基于调整后的幅度谱和所述目标相位谱进行时频反变换，得到增强处理后的语音信号；

若所述时频变换为离散余弦变换，基于调整后的频谱，得到增强处理后的语音信号，包括：

10.根据权利要求1至6中任一项所述的方法，其特征在于，所述基于所述语音特征参数，预测得到设定数量的子带频谱包络，包括：

基于所述语音特征参数，通过神经网络，预测得到设定数量的子带频谱；

其中，所述神经网络是通过以下方式训练得到的：

获取训练数据，其中，所述训练数据包括待增强的各样本语音信号、以及各样本语音信号所对应的纯净语音信号；

基于各所述纯净语音信号，得到各样本语音信号所对应的样本子带频谱包络；

确定各样本语音信号的语音特征参数；

基于各样本语音信号对初始神经网络进行训练，直至神经网络的损失函数收敛，其中，所述初始神经网络的输入为各样本语音信号的语音特征参数，输出为预测出的各样本语音信号所对应的子带频谱包络，所述损失函数的值表征了预测出的各样本语音信号对应的子带频谱包络和对应的样本子带频谱包络的差异。

11.根据权利要求10所述的方法，其特征在于，对于一纯净语音信号，基于该纯净语音信号，得到该纯净语音信号所对应的样本语音信号所对应的样本子带频谱包络，包括：

12.根据权利要求10所述的方法，其特征在于，所述神经网络包括依次级联的输入层、隐藏层和输出层，所述隐藏层包括依次级联的长短期记忆网络LSTM层和全连接层；其中，

所述输入层的输入为所述语音特征参数的特征向量；

所述LSTM层，用于对所述输入层处理后的特征向量进行特征提取；

所述全连接层，用于对所述LSTM层所提取得到的特征向量再次进行特征提取；

所述输出层，用于基于所述全连接层所提取得到的特征向量，得到维度为第一设定数量的输出向量，其中，所述输出向量中的各元素的元素值为预测出的各子带频谱包络。

13.一种语音信号处理装置，其特征在于，包括：

特征参数获取模块，用于获取待处理语音信号的语音特征参数，所述语音特征参数包括所述待处理语音信号的初始频谱；

频谱包络预测模块，用于基于所述语音特征参数，预测得到第一设定数量的子带频谱包络，其中，所述设定数量小于所述初始频谱所包含的初始频谱系数的数量，一个子带频谱包络与第二设定数量的初始频谱系数相对应；

频谱调整模块，用于基于预测出的子带频谱包络对所述初始频谱进行调整，得到调整后的频谱；

信号生成模块，用于基于调整后的频谱，得到所述待处理语音信号对应的增强处理后的语音信号。

14.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于在运行所述计算机程序时执行权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序在被处理器运行时执行权利要求1至12中任一项所述的方法。