CN110875049A

CN110875049A - 语音信号的处理方法及装置

Info

Publication number: CN110875049A
Application number: CN201911024108.3A
Authority: CN
Inventors: 鲍枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-03-10
Anticipated expiration: 2039-10-25
Also published as: CN110875049B

Abstract

本申请的实施例提供了一种语音信号的处理方法，包括：对语音信号进行语音预增强生成第一信号，所述语音信号包括含噪语音信号；对所述第一信号进行整流生成第二信号；根据所述第一信号和所述第二信号构建第三信号；基于所述语音信号、所述第一信号、所述第三信号确定目标增益因子；基于所述目标增益因子对所述语音信号进行处理，不仅实现了语音增强，而且减少了谐波的损失。

Description

语音信号的处理方法及装置

技术领域

本申请涉及信号处理领域，具体而言，涉及一种语音信号的处理方法及装置。

背景技术

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的原始语音，从而抑制、降低噪声干扰。简而言之，语音增强是指从含噪语音中提取尽可能纯净的原始语音。

现有技术中，主要通过谱减法、统计模型法、维纳滤波或者机器学习方法来进行语音增强。但是，无论是对平稳噪声具有较好的处理能力的传统方法(例如谱减法、统计模型法、维纳滤波)还是对非平稳噪声具有较好的处理能力的机器学习方法(例如DNN(DeepNeural Networks，深度神经网络)、RNN(Recurrent Neural Networks，循环神经网络)和CNN(Convolutional Neural Networks，卷积神经网络))，增强后的语音信号不可避免地会受到损伤，特别是原始语音中的谐波丢失或者能量削减。语音中的谐波直接影响听者的听觉感受，从而，语音中的谐波丢失或者能量下降降低了主观听觉质量。

由上可知，如何减少语音增强中谐波成分的丢失或能量削减是现有技术中亟待解决的问题。

发明内容

本申请的实施例提供了一种语音信号的处理方法及装置，进而至少在一定程度上可以减少语音增强中谐波成分的丢失或者能量削减，从而降低语音增强中对语音成分的损伤。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种语音信号的处理方法，包括：

对语音信号进行语音预增强生成第一信号，所述语音信号包括含噪语音信号；

对所述第一信号进行整流生成第二信号；

根据所述第一信号和所述第二信号构建第三信号；

基于所述语音信号、所述第一信号、所述第三信号确定目标增益因子；

基于所述目标增益因子对所述语音信号进行处理。

根据本申请实施例的一个方面，提供了一种语音信号的处理装置，包括：

预增强模块，用于对语音信号进行语音预增强生成第一信号，所述语音信号包括含噪语音信号；

整流模块，用于对所述第一信号进行整流生成第二信号；

信号构建模块，用于根据所述第一信号和所述第二信号构建第三信号；

确定模块，用于基于所述语音信号、所述第一信号、所述第三信号确定目标增益因子；

处理模块，用于基于所述目标增益因子对所述语音信号进行处理。

在本申请的一些实施例所提供的技术方案中，由于目标增益因子保留了第一信号相对于语音信号的增益，和第三信号相对于语音信号的增益，而第一信号中保留了语音信号中语音的基波分量，第三信号中凸出了语音中的谐波，从而，按照目标增益因子对语音信号进行处理即可以同时实现语音增强和减少谐波分量的损失，从而有效解决了现有技术中因语音增强处理所造成谐波分量损失的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是根据一示例性实施例示出的语音信号的处理方法的流程图；

图2是图1对应实施例的步骤150在一实施例中的流程图；

图3是图2对应实施例的步骤210之前步骤在一实施例中的流程图；

图4是图1对应实施例的步骤170在一实施例中的流程图；

图5是图4对应实施例的步骤450在一实施例中的流程图；

图6是语音信号相对于噪声信号的归一化互相关系数随语音信号的变化示意图；

图7是图5对应实施例的步骤530在一实施例中的流程图；

图8是图5对应实施例的步骤510之前步骤在一实施例中的流程图；

图9是图8对应实施例的步骤830在一实施例中的流程图；

图10是根据另一实施例示出的语音信号的处理方法的流程图；

图11示出了一含噪语音信号的声谱图；

图12示出了对图11中的含噪语音信号进行语音预增强所得到信号的声谱图；

图13示出了对图11中的含噪语音信号按照本公开所确定目标增益因子进行处理所得到信号的声谱图；

图14是根据一示例性实施例示出的语音信号的处理装置的框图；

图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图1示出了根据本申请的一个实施例的语音信号的处理方法的流程图，该语音信号的处理方法可以由具有计算处理功能的设备来执行。参照图1所示，该语音信号的处理方法至少包括步骤110至步骤190，详细介绍如下：

步骤110，对语音信号进行语音预增强生成第一信号，语音信号包括含噪语音信号。

由于语音信号中可能包括影响原始语音的噪音，从而，需要对该语音信号进行处理，得到语音信号中的原始语音，而且尽可能降低在该处理过程中对原始语音中谐波分量所造成的损伤。

基于此，提出了本公开的方法，从而，步骤110中的语音信号可以是含噪语音信号，该含噪语音信号中混有语音和噪声。

对语音信号做进行的预增强是将语音增强作为本公开处理方法的预处理步骤，换言之，第一信号即是按照现有技术中的语音增强的方法进行增强所得到的，并将该第一信号作为中间信号来实现本公开中的方法。

所进行的语音预增强可以是通过现有技术中的谱减法、统计模型法、维纳滤波或者机器学习方法进行语音增强，在此不进行具体限定。

如背景技术所描述，对语音信号的语音增强是指从语音信号中提取尽可能纯净的原始语音，对应的，在步骤110中，对语音信号进行预增强也是按照现有技术中的语音增强方法从语音信号中提取尽可能纯净的原始语音。

步骤130，对第一信号进行整流生成第二信号。

声音是通过振动产生的，而任何物体的振动都无法做到纯单一的频率。也即是说，对于任一声音，除了基本频率振动的影响外，物体还受到弹性形变的影响，会产生其他频率的振动，这些振动的叠加或消减，就产生了更多频率的振动出现，这些就是谐波。基本频率振动所对应的信号即为基波。

换言之，对于声音信号而言，其中包括谐波分量和基波分量。同理，对于任一原始语音，其包括基波分量和谐波分量。

而对于任一语音中的谐波分量，由于语音中存在基波分量和多次谐波分量，在谐波分量的能量较低时，使得语音的谐波性呈现不明显。对语音信号进行预增强处理所得到的第一信号也对应存在谐波性呈现不明显的问题。

从而，为了凸显语音的谐波性，对第一信号进行整流。所进行的整流可以是半波整流，也可以是全波整流，在此不进行具体限定。

通过半波整流，将第一信号中的负数信号置零，从而相当于削减了第一信号中的部分分量。通过全波整流，将第一信号中的负数信号转换为正数信号，从而，增强了原第一信号中的正数信号。而不管是削减部分负数信号还是将正数信号进行增强，均使得第一信号中的各信号成分的规律性更强，进而，所得到的第二信号相较于第一信号的谐波性更加凸显。

步骤150，根据第一信号和第二信号构建第三信号。

在步骤110中进行语音预增强所得到的第一信号，由于该第一信号相当于对语音信号进行去噪所得到，从而，该第一信号中保留了原始语音中的基波成分。

而对第一信号进行整流所得到的第二信号更加凸显了语音中的谐波分量，从而，通过第一信号和第二信号构建的第三信号不仅可以保证基波成分不丢失，而且突出了谐波分量。

在一实施例中，按帧对第一信号和第二信号进行叠加，从而得到第三信号中的各音频帧。具体而言，按照窗函数和步长对第一信号和第二信号进行分帧，从而使得第二信号中各音频帧与第一信号中的对应位置的音频帧相对齐，然后，顺序地按帧进行第一信号与第二信号的叠加，即得到第三信号的各音频帧。

在一实施例中，对第一信号和第二信号进行加权来构建第三信号。在具体实施例中，第一信号的加权系数和第二信号的加权系数可以根据第一信号各音频帧的频域表达和第二信号对应音频帧的频域表达来确定，还可以将第一信号的加权系数和第二信号的加权系数设定为常数，在此不进行具体限定。优选的，第一信号的加权系数和第二信号的加权系数的和为1，从而避免过度对第一信号和第二信号进行放大或缩小。

步骤170，基于语音信号、第一信号、第三信号确定目标增益因子。

所确定的目标增益因子，用于对语音信号进行处理，以一方面实现对语音信号的语音增强，另一方面，减少对语音信号中原始语音的谐波分量的损伤。

根据第一信号和第三信号可以对应得到第一信号相对于语音信号的第一增益因子和第三信号相对于语音信号的第二增益因子。

由于第一信号中保留了原始语音中的基波分量，从而，按照第一增益因子进行处理可以保留原始语音的基波能量，第三信号中凸显了谐波分量，从而，按照第二增益因子进行处理可以凸显出原始语音的谐波能量。

鉴于此，根据第二增益因子和第一增益因子来对应确定目标增益因子，实现将第二增益因子作用到第一增益因子中。

在一实施例中，对第一增益因子和第二增益因子进行加权来获得目标增益因子。

步骤190，基于目标增益因子对语音信号进行处理。

通过根据目标增益因子对语音信号进行处理，一方面可以实现语音增强，而且可以弥补谐波分量，减少了谐波分量的损失，有效解决了现有技术中因语音增强所造成的谐波分量的丢失或者能量下降的问题。

如上所描述，由于目标增益因子保留了第一信号相对于语音信号的增益，和第三信号相对于语音信号的增益，而第一信号中保留了语音信号中语音的基波分量，第三信号中凸出了语音中的谐波，从而，按照目标增益因子对语音信号进行处理，一方面可以实现对语音信号的语音增强，另一方面弥补了谐波分量，减少了谐波分量的损失。

现有技术中为了恢复谐波，采用机器学习的方法来对纯净语音信号进行建模，并线下训练先验信息，进而线上增强及恢复谐波。该种方法需要预先构建机器学习模型，而机器学习模型的大小决定了其泛化能力，模型越大，处理的泛化能力越强，但计算复杂度越大，反之，模型越小，其处理效果越弱。由于需要进行建模和利用先验信息进行训练，从而使得该种谐波恢复的方法实现过程较为复杂。

现有技术中还存在直接利用半波整流信号进行谐波恢复的方法，虽然计算复杂度较低，但是谐波恢复的效果并不明显，且容易损伤语音中的基波成分。

本公开通过根据第一信号和第三信号所确定的目标增益因子来对语音信号进行处理所实现的语音增强和谐波补偿，即保证了不损伤语音信号中的基波分量，而且不需要利用其他先验信息来进行计算，大大降低了计算复杂度，便于进行实时应用。

在一实施例中，如图2所示，步骤150包括：

步骤210，获取第一信号的频域表达和第二信号的频域表达。

其中，频域表达可以是信号的幅度谱或者功率谱，在此不进行具体限定。

通过将信号进行时频变换即可将时域的信号转换到频域，进而得到信号的频域表达，时频变换可以是傅里叶变换等，在此不进行具体限定。

步骤230，根据第一信号的频域表达和第二信号的频域表达构建第三信号的频域表达，频域表达为功率谱或幅度谱。

在第一信号的频域表达和第二信号的频域表达的基础上，将第一信号的频域表达和第二信号的频域表达进行加权叠加，得到另一频域表达，所得到频域表达所指示的信号即为第三信号。

其中第一信号的频域表达所对应加权系数可以是适应于第一信号变化的因子，也可以是设定的常数系数。同理，第二信号的频域表达所对应加权系数可以适应于第一信号变化的因子，也可以是设定的常数系数，在此不进行具体限定。

在一实施例中，步骤230包括：

按照公式如下公式计算得到第三信号的频域表达：

其中，X₃为第三信号的频域表达，X₁为第一信号的频域表达，X₂为第二信号的频域表达，a和b为非零的常数。

按照如上的公式，可以保证所得到的第三信号一方面保留了原始语音的基波分量，另一方面保留了更充足的谐波特征。

按照如上的公式实现了自适应进行第一信号和第二信号的加权，第三信号中第一信号的占比适应于第一信号的频域表达和第二信号的占比适应于第二信号的频域表达，保证了第三信号与第一信号和第二信号之间的强相关关系，而且保证了第三信号的频域表达的连续性。

在一具体实施例中，a和b均为1，从而，第一信号的频域表达的加权系数和第二信号的频域表达的加权系数和为1，以避免在第三信号中第一信号的分量和第三信号的分量被过度放大或者缩小。

在一实施例中，如图3所示，步骤210之前，该方法还包括：

步骤310，按照对第一信号所进行的分帧对应进行第二信号的分帧，获得第二信号的音频帧。

鉴于语音信号具有短时平稳性，因此，为了将第一信号和第二信号从时域转换到频域，先将第一信号和第二信号进行分帧，然后按帧来进行时频转换。

第一信号中的各音频帧顺序排列即构成了第一信号的音频帧序列，同理，第二信号中的各音频帧顺序排列即构成了第二信号的音频帧序列。

通过按照第一信号所进行的分帧对应进行第二信号的分帧，从而使得第二信号的音频序列中各音频帧与第一信号的音频序列中对应位置的音频帧相对齐。

在一实施例中，为进行信号的分帧，通过加窗来实现，通过窗口的移动来实现信号的分帧。为了保证所得到第二信号中的音频帧与第一信号中的音频帧相对齐，在对第二信号进行分帧过程中，采用与第一信号分帧过程中所使用的窗函数和所使用的步长来进行。换言之，通过保证第一信号和第二信号分帧过程中所使用窗函数的窗口长度、步长、窗口类型相同，从而即可保证第二信号中各音频帧与第一信号中对应位置的音频帧相对齐。

步骤330，分别对第一信号的音频帧和第二信号的音频帧进行时频变换，获得第一信号的音频帧所对应频域表达和第二信号的音频帧所对应频域表达。

通过时频变换，即将时域的第一信号和第二信号转换到频域，即对应得到第一信号中各音频帧的频域表达和第二信号中各音频帧的频域表达。

在一实施例中，如图4所示，步骤170包括：

步骤410，计算第一信号相对于语音信号的第一增益因子。以及

步骤430，计算第三信号相对于语音信号的第二增益因子。

第一增益因子是第一信号相对于语音信号的增益，同理，第二增益因子是第三信号相对于语音信号的增益。

在获得第一信号和第三信号的基础上，从而，按照增益的计算方法即对应计算得到第一信号相对于语音信号的第一增益因子和第三信号相对于语音信号的第二增益因子。

在具体实施例中，可以根据第一信号、第三信号、语音信号所分别对应的频域表达来对应计算第一增益因子和第二增益因子。例如根据幅度谱或者功率谱来计算第一增益因子和第二增益因子。

步骤450，通过第一增益因子和第二增益因子确定目标增益因子。

在得到第一增益因子和第二增益因子的基础上，将第二增益因子作用到第一增益因子上，即得到目标增益因子。

在一实施例中，在对第一信号和第二信号按照步骤310进行分帧的基础上，按帧来计算第一增益因子和第二增益因子，从而，对应来按帧计算目标增益因子。为了实现该过程，先对语音信号进行分帧，从而使得语音信号的音频帧序列中各音频帧、第一信号的音频帧序列中各音频帧、第二信号的音频帧序列中各音频帧对应位置的音频帧彼此对齐。从而来计算得到各个位置的音频帧所对应的目标增益因子。

对应的，在步骤190中，在对语音信号进行处理的过程中，按照语音信号中音频帧所在位置所对应的目标增益因子来对应地对该音频帧进行增益处理。

在一实施例中，如图5所示，步骤450，包括：

步骤510，获取语音信号相对于自身所包含噪声信号的归一化互相关系数。

归一化互相关系数用于表征语音信号相对于自身所包含噪声信号的相关性。

该归一化互相关系数在语音信号和噪声信号确定的情况下，进行相关性计算即可对应得到。

步骤530，根据归一化互相关系数对第一增益因子和第二增益因子进行加权，获得目标增益因子。

由于谐波分量大多存在于语音信号中的语音段，而非语音段是不具有明显的谐波结构的，从而，通过归一化互相关系数来自适应的判断语音信号中的语音段和非语音段，以反之非语音段中多余的谐波能量被恢复出来。

图6示出了归一化互相关系数随语音信号的变化示意图。如图6所示，在非语音段，归一化互相关系数的值接近于1，因为此时，该音频帧中没有语音，仅有噪声信号，此时所计算得到的归一化互相关系数相当于语音信号(没有语音，只有噪声)和噪声信号的自相关系数。而在语音段，语音信号包括噪声信号和语音，此时的归一化互相关系数的值会减小。从图6可以看出，归一化互相关系数的数值随着语音信号的变化自适应地发生变化，从而，可以通过归一化互相关系数来确定第二增益因子的增益系数，并以此来进行第一增益因子和第二增益因子的加权，进而得到目标增益因子。

在一实施例中，如图7所示，步骤530包括：

步骤710，根据归一化互相关系数确定第二增益因子的第二加权系数。

步骤730，根据第二加权系数和为第一增益因子设定的第一加权系数进行第二增益因子和第一增益因子的加权。

如上所描述，在非语音段，归一化互相关系数的值接近于1，从而，为了避免在非语音段恢复出不必要的谐波，从而，可以对应地根据归一化互相关系数来确定第二增益因子的第二加权系数，以避免恢复出不必要的谐波。

其中，第二加权系数是指在步骤730的加权过程中第二增益因子所对应的加权系数。同理，第一加权系数是指在步骤730的加权过程中第一增益因子所对应的加权系数。

在一具体实施例中，以1-ρ作为第二增益因子的第二加权系数，其中ρ可以是为各位置的音频帧所计算得到的归一化互相关系数，还可以是根据为各位置的音频帧所分别计算的归一化互相关系数而确定的常数，以该常数来区分语音信号中的语音段和非语音段。在具体实施例中，该常数可以是各位置的音频帧所分别计算的归一化互相关系数的平均值，或者所选定的百分位数，在此不进行具体限定。

其中，为第一增益因子所设定的第一加权系数可以进行自定义设定，在此不进行具体限定。

在一实施例中，为避免对语音信号中的基波分量进行过度放大或缩小，将第一增益因子设定为1。

在一具体实施例中，按照如下的公式进行加权得到目标增益因子：

G₃＝G₁+(1-ρ)G₂， (公式2)

其中，G₁为第一增益因子，G₂为第二增益因子。在该实施例中，第一加权系数为1，第二加权系数为1-ρ。如上所描述，ρ可以是为各位置的音频帧所计算得到的归一化互相关系数，还可以是根据为各位置的音频帧所分别计算的归一化互相关系数而确定的常数。

按照如上的公式2来确定目标增益因子，从而，对于非语音段，由于ρ更接近于1，从而1-ρ更接近于0，那么(1-ρ)G₂的数值较小，从而可以避免不必要的谐波出现。

在一实施例中，如图8所示，步骤510之前，该方法还包括：

步骤810，根据第一信号确定语音信号中所包含的噪声信号。

步骤830，对语音信号的频域表达和噪声信号的频域表达进行相关性计算，获得归一化互相关系数，频域表达为功率谱或幅度谱。

对于包含噪声信号的语音信号，其可以表示为：

y(t)＝s(t)+n(t)， (公式3)

其中，y(t)表示包含噪声的语音信号，s(t)表示原始语音，n(t)表示噪声信号。由于第一信号是对语音信号进行预增强所得到的，从而，该第一信号可以近似等于该语音信号的原始语音。因此，将语音信号与第一信号相减所得到的信号即可视为语音信号中所包含的噪声信号。

在噪声信号和语音信号确定的情况下，按照如下公式来计算语音信号相对于自身所包含噪声信号的归一化互相关系数：

其中，m表示音频帧的帧数，矢量y表示根据语音信号的频域表达，矢量d表示噪声信号的频域表达。

在一实施例中，如图9所示，步骤830包括：

步骤910，按照对语音信号进行的分帧对应进行噪声信号的分帧，获得噪声信号的音频帧。

步骤930，按帧对语音信号的音频帧所对应频域表达和噪声信号的音频帧所对应频域表达进行相关性计算，获得各音频帧所对应的归一化互相关性系数。

通过步骤910，即可保证语音信号的音频序列中各音频帧与噪声信号的音频序列中对应位置的音频帧相对齐。

在此基础上，逐帧按照上述公式4对语音信号的音频帧所对应频域表达和噪声信号对应音频帧所对应频域表达进行相关性计算，从而得到各个位置的音频帧所对应的归一化互相关系数。

在一实施例中，步骤190包括：

按照目标增益因子对语音信号的频域表达作乘，获得目标语音信号的频域表达。

将目标语音信号的频域表达向时域进行变换，获得时域的目标语音信号。

若目标增益因子是按帧来确定的，则按照语音信号中音频帧所处位置获取对应的目标增益因子来对该位置的音频帧的频域表达进行作乘，即得到目标语音信号中，对应于该位置的音频帧的频域表达。

其中，通过将目标语音信号的频域表达向时域进行变换，从而即可输出时域的目标语音信号，所进行的变换可以是傅里叶反变换。

图10是根据一示例性实施例示出的语音信号的处理方法的流程图，包括如下步骤：

在步骤1010获取到待进行处理的含噪语音信号后，通过步骤1020对该含噪语音信号进行傅里叶变换，从而将时域的含噪语音信号转换到频域。在该步骤1020中，对应计算得到该含噪语音信号的功率谱||X_y||²，从而，该含噪语音信号的功率谱||X_y||²即作为含噪语音信号的频域表达。

在步骤1030中，根据该含噪语音信号的功率谱进行语音预增强，得到预增强信号的功率谱，该预增强信号即作为上述的第一信号。将预增强信号的功率谱表示为||X₁||²。

在步骤1040中，对所得到的预增强信号进行半波整流，得到半波整流信号。该半波整流信号即作为上述的第二信号。在得到半波整流信号后，对应计算该半波整流信号的功率谱||X₂||²。

在步骤1050中，计算谐波恢复功率谱||X₃||²，该谐波恢复功率谱即作为第三信号的频域表达。具体的，按照如下的公式进行谐波恢复功率谱的计算：

在步骤1060中，根据含噪语音信号的功率谱、谐波恢复功率谱和预增强信号的功率谱确定谐波增益，所确定的谐波增益即为目标增益因子。具体地，按照如上的公式(2)G₃＝G₁+(1-ρ)G₂来确定谐波增益，其中G₃为谐波增益。G₁为预增强信号相对于含噪语音信号的增益，

G₂为第三信号相对于含噪语音信号的增益，

在步骤1070中，按照所确定的谐波增益对含噪语音信号进行增益处理，得到目标语音信号的频域表达。

在步骤1080中，对目标语音信号的频域表达进行傅里叶反变换，得到时域的实现谐波恢复的原始语音。

图11示出了一含噪语音信号的声谱图，图12是对图11中的含噪语音信号按照LSTM(Long Short-Term Memory，长短时记忆神经网络)方法进行语音预增强所得到预增强信号的声谱图，图13是按照图10中的过程所确定谐波增益(目标增益因子)对图11中的含噪语音信号进行处理后所得到信号的声谱图。对比图12和13可知，图13包含了图12中被损伤了的部分谐波分量，从而，通过实验证明了按照本公开的方法对语音信号进行处理，不仅可以进行语音增强，而且可以避免原始语音中的谐波分量被损伤。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的方法实施例。

图14是根据一示例性实施例示出的一种语音信号的处理装置1400的框图，该语音信号的处理装置可以配置于具有处理功能的计算机设别中，参照图14所示，该装置包括：

预增强模块1410，用于对语音信号进行语音预增强生成第一信号，语音信号包括含噪语音信号。

整流模块1430，用于对第一信号进行整流生成第二信号。

信号构建模块1450，用于根据第一信号和第二信号构建第三信号。

确定模块1470，用于基于语音信号、第一信号、第三信号确定目标增益因子。

处理模块1490，用于基于目标增益因子对语音信号进行处理。

上述装置中各个模块的功能和作用的实现过程具体详见上述语音信号的处理方法中对应步骤的实现过程，在此不再赘述。

可以理解，这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序。

在一实施例中，信号构建模块1450，包括：

获取单元，用于获取第一信号的频域表达和第二信号的频域表达。

信号构建单元，用于根据第一信号的频域表达和第二信号的频域表达构建第三信号的频域表达，频域表达为功率谱或幅度谱。

在一实施例中，信号构建单元包括：

计算单元，用于按照公式：

计算得到第三信号的频域表达，其中，X₃为第三信号的频域表达，X₁为第一信号的频域表达，X₂为第二信号的频域表达，a和b为非零常数。

在一实施例中，该装置还包括：

第一分帧模块，用于按照对第一信号所进行的分帧对应进行第二信号的分帧，获得第二信号的音频帧。

第一时频变换模块，用于分别对第一信号的音频帧和第二信号的音频帧进行时频变换，获得第一信号的音频帧所对应频域表达和第二信号的音频帧所对应频域表达。

在一实施例中，确定模块1470，包括：

第一增益因子计算单元，用于计算第一信号相对于语音信号的第一增益因子。以及

第二增益因子计算单元，用于计算第三信号相对于语音信号的第二增益因子。

目标增益因子确定单元，用于通过第一增益因子和第二增益因子确定目标增益因子。

在一实施例中，目标增益因子确定单元包括：

归一化互相关系数获取单元，用于获取语音信号相对于自身所包含噪声信号的归一化互相关系数。

加权计算单元，用于根据归一化互相关系数对第一增益因子和第二增益因子进行加权，获得目标增益因子。

在一实施例中，加权计算单元，包括：

第二加权系数确定单元，用于根据归一化互相关系数确定第二增益因子的第二加权系数。

加权计算子单元，用于根据第二加权系数和为第一增益因子设定的第一加权系数进行第二增益因子和第一增益因子的加权。

在一实施例中，该装置还包括：

噪声信号确定模块，用于根据第一信号确定语音信号中所包含的噪声信号。

相关性计算模块，用于对语音信号的频域表达和噪声信号的频域表达进行相关性计算，获得归一化互相关系数，频域表达为功率谱或幅度谱。

在一实施例中，相关性计算模块，包括：

第二分帧单元，用于按照对语音信号进行的分帧对应进行噪声信号的分帧，获得噪声信号的音频帧。

相关性计算单元，用于按帧对语音信号的音频帧所对应频域表达和噪声信号的音频帧所对应频域表达进行相关性计算，获得各音频帧所对应的归一化互相关性系数。

上述装置中各个模块/单元的功能和作用的实现过程具体详见上述语音信号的处理方法中对应步骤的实现过程，在此不再赘述。

需要说明的是，图15示出的电子设备的计算机系统1500仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，计算机系统1500包括中央处理单元(Central Processing Unit，CPU)1501，其可以根据存储在只读存储器(Read-Only Memory，ROM)1502中的程序或者从存储部分1508加载到随机访问存储器(Random Access Memory，RAM)1503中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1503中，还存储有系统操作所需的各种程序和数据。CPU 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(Input/Output，I/O)接口1505也连接至总线1504。

以下部件连接至I/O接口1505：包括键盘、鼠标等的输入部分1506；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1507；包括硬盘等的存储部分1508；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1510上，以便于从其上读出的计算机程序根据需要被安装入存储部分1508。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1509从网络上被下载和安装，和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音信号的处理方法，其特征在于，包括：

对所述第一信号进行整流生成第二信号；

根据所述第一信号和所述第二信号构建第三信号；

基于所述目标增益因子对所述语音信号进行处理。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一信号和所述第二信号构建第三信号，包括：

获取所述第一信号的频域表达和所述第二信号的频域表达；

根据所述第一信号的频域表达和所述第二信号的频域表达构建所述第三信号的频域表达，所述频域表达为功率谱或幅度谱。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一信号的频域表达和所述第二信号的频域表达构建所述第三信号的频域表达，包括：

按照公式：

计算得到所述第三信号的频域表达，其中，X₃为第三信号的频域表达，X₁为第一信号的频域表达，X₂为第二信号的频域表达，a和b为非零常数。

4.根据权利要求2所述的方法，其特征在于，所述获取所述第一信号的频域表达和所述第二信号的频域表达之前，所述方法还包括：

按照对第一信号所进行的分帧对应进行所述第二信号的分帧，获得所述第二信号的音频帧；

分别对所述第一信号的音频帧和所述第二信号的音频帧进行时频变换，获得所述第一信号的音频帧所对应频域表达和所述第二信号的音频帧所对应频域表达。

5.根据权利要求1所述的方法，其特征在于，所述基于所述语音信号、所述第一信号、所述第三信号确定目标增益因子，包括：

计算所述第一信号相对于所述语音信号的第一增益因子；以及

计算所述第三信号相对于所述语音信号的第二增益因子；

通过所述第一增益因子和所述第二增益因子确定所述目标增益因子。

6.根据权利要求5所述的方法，其特征在于，通过所述第一增益因子和所述第二增益因子确定所述目标增益因子，包括：

获取所述语音信号相对于自身所包含噪声信号的归一化互相关系数；

根据所述归一化互相关系数对所述第一增益因子和所述第二增益因子进行加权，获得目标增益因子。

7.根据权利要求6所述的方法，其特征在于，所述根据所述归一化互相关系数对所述第一增益因子和所述第二增益因子进行加权，获得目标增益因子，包括：

根据所述归一化互相关系数确定所述第二增益因子的第二加权系数；

根据所述第二加权系数和为所述第一增益因子设定的第一加权系数进行所述第二增益因子和所述第一增益因子的加权。

8.根据权利要求6所述的方法，其特征在于，所述获取所述语音信号相对于自身所包含噪声信号的归一化互相关系数之前，所述方法还包括：

根据所述第一信号确定所述语音信号中所包含的噪声信号；

对所述语音信号的频域表达和所述噪声信号的频域表达进行相关性计算，获得所述归一化互相关系数，所述频域表达为功率谱或幅度谱。

9.根据权利要求8所述的方法，其特征在于，所述对所述语音信号的频域表达和所述噪声信号的频域表达进行相关性计算，获得所述归一化互相关系数，包括：

按照对所述语音信号进行的分帧对应进行所述噪声信号的分帧，获得所述噪声信号的音频帧；

按帧对所述语音信号的音频帧所对应频域表达和所述噪声信号的音频帧所对应频域表达进行相关性计算，获得各音频帧所对应的归一化互相关性系数。

10.一种语音信号的处理装置，其特征在于，包括：

整流模块，用于对所述第一信号进行整流生成第二信号；