CN114299998A

CN114299998A - 语音信号的处理方法、装置、电子设备及存储介质

Info

Publication number: CN114299998A
Application number: CN202111596113.9A
Authority: CN
Inventors: 李良斌; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-08

Abstract

本公开提供了一种语音信号的处理方法、装置、电子设备及存储介质，属于音频处理技术领域。所述方法包括：基于第一滤波器系数对应的第一延迟滤波器，对有效语音片段进行滤波处理；确定第一噪声片段对应的第二滤波器系数；基于第二滤波器系数对应的第二延迟滤波器，对第一噪声片段进行滤波处理。本公开对于有效语音片段，无需经历收敛过程，避免了有效语音片段在滤波器系数的自适应学习过程中受到损伤，对于第一噪声片段，将以往学习的滤波器系数作为初始滤波器系数，加快了收敛进度，在保护有效语音片段不受到损伤的前提下，有效地滤除了有效语音片段中及之后的第一噪声片段中的环境噪声，改善了有效语音片段前后两部分的处理效果。

Description

语音信号的处理方法、装置、电子设备及存储介质

技术领域

本公开涉及音频处理技术领域，特别涉及一种语音信号的处理方法、装置、电子设备及存储介质。

背景技术

在基于语音交互设备进行语音通信的过程中，麦克风不仅能够采集到用户的声音，而且能够采集到周围的环境噪声。由于采集的环境噪声影响了语音信号的信噪比，进而影响到语音交互设备的通信质量，因此，为了提高语音交互设备的通信质量，有必要对语音信号进行处理。

目前，相关技术主要基于自适应滤波器对语音信号进行处理，该自适应滤波器能够根据不同的语音信号，对滤波器系数进行实时更新，从而达到滤除噪声、增强信噪比的目的。具体处理过程为：根据原始语音信号的能量值、预设能量阈值及Sigmoid函数，确定自适应滤波器的步长系数；根据步长系数不断对初始滤波器系数进行更新；基于更新的滤波器系数，对原始语音信号进行处理。

然而，上述滤波器系数的确定需要逐渐收敛，其收敛过程需要一定的时间，而基于收敛过程中的滤波器系数，对有效语音片段进行自适应滤波处理时，可能会对有效语音片段的前部分造成损伤，甚至滤掉前部分有效语音，而对有效语音片段之后的第一个噪声片段进行自适应滤波处理时，无法滤除该第一个噪声片段的前部分的环境噪声，可见，相关技术对有效语音片段前后两部分的处理效果不佳。

发明内容

本公开实施例提供了一种语音信号的处理方法、装置、电子设备及存储介质，能够改善语音信号的处理效果。所述技术方案如下：

第一方面，提供了一种语音信号的处理方法，所述方法包括：

当从原始语音信号中识别出有效语音片段的起始位置，确定所述有效语音片段对应的第一滤波器系数；

基于所述第一滤波器系数对应的第一延迟滤波器，对所述有效语音片段进行滤波处理，直至识别出所述有效语音片段的结束位置；

确定第一噪声片段对应的第二滤波器系数，所述第一噪声片段为所述有效语音片段之后的第一个噪声片段；

基于所述第二滤波器系数对应的第二延迟滤波器，对所述第一噪声片段进行滤波处理；

其中，所述第一滤波器系数和所述第二滤波器系数为根据已收敛的历史滤波器系数确定。

在本公开的另一个实施例中，所述方法还包括：

在对所述原始语音信号进行滤波处理过程中，基于VAD(Voice ActivityDetection，语音活动检测)从所述原始语音信号中识别出有效语音信号的起始位置和结束位置，将所述起始位置和所述结束位置之间的所述原始语音信号，识别为所述有效语音片段；或者，

根据所述原始语音信号中唤醒信息指示的唤醒起点和唤醒时长，将以所述唤醒起点为起始位置、所述唤醒时长为持续时长的所述原始语音信号，识别为所述有效语音片段。

在本公开的另一个实施例中，所述确定所述有效语音片段对应的第一滤波器系数，包括：

获取所述原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数；

计算所述所有历史噪声片段对应的已收敛的滤波器系数的平均值，得到平均噪声滤波器系数；

将所述平均噪声滤波器系数确定为所述第一滤波器系数。

获取第二噪声片段对应的滤波器系数，所述第二噪声片段为与所述有效语音片段邻近的前一个噪声片段；

将所述第二噪声片段对应的滤波器系数确定为所述第一滤波器系数。

基于所述有效语音片段的第一采集环境，获取所述第一采集环境对应的滤波器系数；

将所述第一采集环境对应的滤波器系数确定为所述第一滤波器系数。

在本公开的另一个实施例中，所述确定第一噪声片段对应的第二滤波器系数，包括：

将所述平均噪声滤波器系数确定为所述第二滤波器系数。

将所述第二噪声片段对应的滤波器系数确定为所述第二滤波器系数。

基于所述第一噪声片段的第二采集环境，获取所述第二采集环境对应的滤波器系数；

将所述第二采集环境对应的滤波器系数确定为所述第二滤波器系数。

在本公开的另一个实施例中，所述基于第二滤波器系数对应的第二延迟滤波器，对所述第一噪声片段进行滤波处理，包括：

获取第三噪声片段，所述第三噪声片段为与所述第一噪声片段同步采集到的具有相同时间戳的噪声片段；

根据所述第一噪声片段和所述第三噪声片段的能量差值，确定收敛步长；

根据所述收敛步长，对所述第二滤波器系数进行调节；

基于调节后的第二滤波器系数对应的第二延迟滤波器，对所述第一噪声片段进行滤波处理。

第二方面，提供了一种语音信号的处理装置，所述装置包括：

确定模块，用于当从原始语音信号中识别出有效语音片段的起始位置，确定所述有效语音片段对应的第一滤波器系数；

处理模块，用于基于所述第一滤波器系数对应的第一延迟滤波器，对所述有效语音片段进行滤波处理，直至识别出所述有效语音片段的结束位置；

所述确定模块，还用于确定第一噪声片段对应的第二滤波器系数，所述第一噪声片段为所述有效语音片段之后的第一个噪声片段；

所述处理模块，还用于所述第二滤波器系数对应的第二延迟滤波器，对所述第一噪声片段进行滤波处理；

其中，所述第一滤波器系数和所述第二滤波器系数根据已收敛的历史滤波器系数确定。

在本公开的另一个实施例中，所述装置还包括：

识别模块，用于在对所述原始语音信号进行滤波处理过程中，基于语音活动检测VAD从所述原始语音信号中识别出有效语音信号的起始位置和结束位置，将所述起始位置和所述结束位置之间的所述原始语音信号，识别为所述有效语音片段；或者，

识别模块，用于根据所述原始语音信号中唤醒信息指示的唤醒起点和唤醒时长，将以所述唤醒起点为起始位置、所述唤醒时长为持续时长的所述原始语音信号，识别为所述有效语音片段。

在本公开的另一个实施例中，所述确定模块，用于获取所述原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数；计算所述所有历史噪声片段对应的已收敛的滤波器系数的平均值，得到平均噪声滤波器系数；将所述平均噪声滤波器系数确定为所述第一滤波器系数。

在本公开的另一个实施例中，所述确定模块，用于获取第二噪声片段对应的滤波器系数，所述第二噪声片段为与所述有效语音片段邻近的前一个噪声片段；将所述第二噪声片段对应的滤波器系数确定为所述第一滤波器系数。

在本公开的另一个实施例中，所述确定模块，用于基于所述有效语音片段的第一采集环境，获取所述第一采集环境对应的滤波器系数；将所述第一采集环境对应的滤波器系数确定为所述第一滤波器系数。

在本公开的另一个实施例中，所述确定模块，用于获取所述原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数；计算所述所有历史噪声片段对应的已收敛的滤波器系数的平均值，得到平均噪声滤波器系数；将所述平均噪声滤波器系数确定为所述第二滤波器系数。

在本公开的另一个实施例中，所述确定模块，用于获取第二噪声片段对应的滤波器系数，所述第二噪声片段为与所述有效语音片段邻近的前一个噪声片段；将所述第二噪声片段对应的滤波器系数确定为所述第二滤波器系数。

在本公开的另一个实施例中，所述确定模块，用于基于所述第一噪声片段的第二采集环境，获取所述第二采集环境对应的滤波器系数；将所述第二采集环境对应的滤波器系数确定为所述第二滤波器系数。

在本公开的另一个实施例中，所述处理模块，用于获取第三噪声片段，所述第三噪声片段为与所述第一噪声片段同步采集到的具有相同时间戳的噪声片段；根据所述第一噪声片段和所述第三噪声片段的能量差值，确定收敛步长；根据所述收敛步长，对所述第二滤波器系数进行调节；基于调节后的第二滤波器系数对应的第二延迟滤波器，对所述第一噪声片段进行滤波处理。

第三方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如第一方面所述的语音信号的处理方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如第一方面所述的语音信号的处理方法。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述电子设备执行如第一方面所述的语音信号的处理方法。

本公开实施例提供的技术方案带来的有益效果是：

基于已收敛的历史滤波器系数，确定出用于对有效语音片段进行滤波处理的第一滤波器系数，以及对第一噪声片段进行滤波处理的第二滤波器系数。对于有效语音片段来说，无需经历收敛过程，避免了有效语音片段在滤波器系数的自适应学习过程中受到损伤；对于第一噪声片段来说，将以往学习的滤波器系数作为初始滤波器系数，加快了收敛进度，从而能够快速获取到有效滤除第一噪声片段中环境噪声的滤波器系数。由于已收敛的历史滤波器系数为根据历史环境噪声及用户的人声特征所学习的滤波系数，该滤波系数能够有效地甄别出用户的人声和环境噪声，采用该方法在保护有效语音片段不受到损伤的前提下，有效地滤除了有效语音片段中及之后的第一噪声片段中的环境噪声，改善了有效语音片段前后两部分的处理效果。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种语音信号的处理方法流程图；

图2是本公开实施例提供的另一种语音信号的处理方法流程图；

图3是本公开实施例提供的一种语音信号的处理装置结构示意图；

图4示出了本公开一个示例性实施例提供的一种电子设备的结构框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

可以理解，本公开实施例所使用的术语“每个”、“多个”及“任一”等，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指对应的多个中的任意一个。举例来说，多个词语包括10个词语，而每个词语是指这10个词语中的每一个词语，任一词语是指10个词语中的任意一个词语。

本公开实施例提供一种语音信号的处理方法，参见图1，本公开实施例提供的方法流程包括：

101.当从原始语音信号中识别出有效语音片段的起始位置，确定有效语音片段对应的第一滤波器系数。

其中，第一滤波器系数根据已收敛的历史滤波器系数确定。

102.基于第一滤波器系数对应的第一延迟滤波器，对有效语音片段进行滤波处理，直至识别出有效语音片段的结束位置。

103.确定第一噪声片段对应的第二滤波器系数。

其中，第一噪声片段为有效语音片段之后的第一个噪声片段。第二滤波器系数根据已收敛的历史滤波器系数确定。

104.基于第二滤波器系数对应的第二延迟滤波器，对第一噪声片段进行滤波处理。

本公开实施例提供的方法，基于已收敛的历史滤波器系数，确定出用于对有效语音片段进行滤波处理的第一滤波器系数，以及对第一噪声片段进行滤波处理的第二滤波器系数。对于有效语音片段来说，无需经历收敛过程，避免了有效语音片段在滤波器系数的自适应学习过程中受到损伤；对于第一噪声片段来说，将以往学习的滤波器系数作为初始滤波器系数，加快了收敛进度，从而能够快速获取到有效滤除第一噪声片段中环境噪声的滤波器系数。由于已收敛的历史滤波器系数为根据历史环境噪声及用户的人声特征所学习的滤波系数，该滤波系数能够有效地甄别出用户的人声和环境噪声，采用该方法在保护有效语音片段不受到损伤的前提下，有效地滤除了有效语音片段中及之后的第一噪声片段中的环境噪声，改善了有效语音片段前后两部分的处理效果。

在本公开的另一个实施例中，该方法还包括：

在对原始语音信号进行滤波处理过程中，基于语音活动检测VAD从原始语音信号中识别出有效语音信号的起始位置和结束位置，将起始位置和结束位置之间的原始语音信号，识别为有效语音片段；或者，

根据原始语音信号中唤醒信息指示的唤醒起点和唤醒时长，将以唤醒起点为起始位置、唤醒时长为持续时长的原始语音信号，识别为有效语音片段。

在本公开的另一个实施例中，确定有效语音片段对应的第一滤波器系数，包括：

获取原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数；

计算所有历史噪声片段对应的已收敛的滤波器系数的平均值，得到平均噪声滤波器系数；

将平均噪声滤波器系数确定为第一滤波器系数。

获取第二噪声片段对应的滤波器系数，第二噪声片段为与有效语音片段邻近的前一个噪声片段；

将第二噪声片段对应的滤波器系数确定为第一滤波器系数。

基于有效语音片段的第一采集环境，获取第一采集环境对应的滤波器系数；

将第一采集环境对应的滤波器系数确定为第一滤波器系数。

在本公开的另一个实施例中，确定第一噪声片段对应的第二滤波器系数，包括：

将平均噪声滤波器系数确定为第二滤波器系数。

将第二噪声片段对应的滤波器系数确定为第二滤波器系数。

基于第一噪声片段的第二采集环境，获取第二采集环境对应的滤波器系数；

将第二采集环境对应的滤波器系数确定为第二滤波器系数。

在本公开的另一个实施例中，基于第二滤波器系数对应的第二延迟滤波器，对第一噪声片段进行滤波处理，包括：

获取第三噪声片段，第三噪声片段为与第一噪声片段同步采集到的具有相同时间戳的噪声片段；

根据第一噪声片段和第三噪声片段的能量差值，确定收敛步长；

根据收敛步长，对第二滤波器系数进行调节；

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本公开实施例提供了一种语音信号的处理方法，以电子设备执行本公开实施例为例，该电子设备可以为具有一定计算能力的终端，例如，智能手机、平板电脑、笔记本电脑、可穿戴设备等。参见图2，本公开实施例提供的方法流程包括：

201.电子设备从原始语音信号中识别出有效语音片段的起始位置。

本公开实施例提供的方法可以应用于对实时采集的语音信号进行滤波处理场景，也可以应用于对已采集的语音信号进行滤波处理场景。当该方法应用于对实时采集的语音信号进行滤波处理场景，该原始语音信号为基于麦克风等语音采集设备实时采集的语音信号；当该方法应用于对已采集的语音信号进行滤波处理场景，该原始语音信号为电子设备已经获取到的语音信号。其中，原始语音信号包括至少一个噪声片段和至少一个有效语音片段。噪声片段为主要包括环境噪声的音频片段，该环境噪声包括外界环境噪声(例如，汽车鸣笛声、施工现场机器作业产生的声音等)、环境人声(例如，市场上的人声、电视播放的人声等)等。有效语音片段为主要包括进行语音通信的用户的人声的音频片段，该有效语音片段中也会包括环境噪声，由于这些环境噪声会影响有效语音片段的信噪比，进而影响到语音通信质量，因而需要对这些环境噪声进行滤波处理，以提高语音通信质量。

在对原始语音信号进行滤波处理过程中，电子设备对原始语音信号进行实时检测，当识别出目标有效语音片段的起始位置，电子设备确定出该有效语音片段对应的第一滤波器系数，进而基于该第一滤波器系数对应的第一滤波器，对该有效语音片段进行滤波处理，直至识别出有效语音片段的结束位置。电子设备在识别有效语音片段时，可采用如下几种方式：

第一种方式、在对原始语音信号进行滤波处理过程中，电子设备基于VAD从原始语音信号中识别出有效语音片段的起始位置和结束位置，进而将起始位置与结束位置之间的原始语音信号，识别为有效语音片段。

第二种方式、当原始语音信号中存在唤醒信息，电子设备根据原始语音信号中唤醒信息指示的唤醒起点和唤醒时长，将以唤醒起点为起始位置、唤醒时长为持续时长的原始语音信号，识别为目标有效语音片段。

需要说明的是，如果原始语音信号为已经获取到的语音信号，则电子设备可在对有效语音片段进行滤波处理之前，直接从原始语音信号中识别出有效语音片段的起始位置和结束位置，进而识别出有效语音片段。如果原始语音信号为实时采集的语音信号，则电子设备可在对有效语音片段进行滤波处理的过程中，通过对原始语音信号进行实时检测，识别出有效语音片段的结束位置，从而基于结束位置识别出有效语音片段。

202.电子设备确定有效语音片段对应的第一滤波器系数。

其中，第一滤波器系数为对有效语音片段进行滤波处理时延迟滤波器的滤波器系数。该第一滤波器系数不会随着有效语音片段的变化实时更新，而是在对整个有效语音片段进行滤波处理过程中固定不变，从而避免有效语音片段收到损伤，提高了对有效语音片段的处理效果，同时大大缩短了对有效语音片段的处理时长。该第一滤波器系数可根据已收敛的历史滤波器系数确定。具体地可包括如下几种方式：

第一种方式、电子设备根据原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数确定第一滤波器系数。

在对原始语音信号处理过程中，电子设备获取原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数，并计算所有历史噪声片段对应的已收敛的滤波器系数的平均值，得到平均噪声滤波器系数，进而将平均噪声滤波器系数确定为第一滤波器系数。

该方法综合考虑了对所有历史噪声片段的学习结果，获取能够反映出对所有历史噪声片段中噪声数据滤波能力的平均噪声滤波器系数，基于该平均噪声滤波器系数对有效语音片段进行滤波处理，能够很好地甄别出有效语音片段中的噪声和人声，提高了对有效语音片段的滤波处理效果，且由于无需基于有效语音片段重新确定滤波系数，大大缩短了对有效语音片段的处理时长。

第二种方式、电子设备根据第二噪声片段对应的滤波器系数确定第一滤波器系数。

其中，第二噪声片段为与有效语音片段邻近的前一个噪声片段。在对原始语音信号处理过程中，电子设备获取与有效语音片段邻近的前一个噪声片段对应的滤波器系数，进而将前一个噪声片段对应的滤波器系数确定为第一滤波器系数。

考虑到用户进行语音通信时外界环境通常不会发生突变，有效语音片段与邻近的前一个噪声片段中的噪声数据大致相同，该方法通过将前一个噪声片段对应的滤波器系数作为有效语音片段的第一滤波器系数，不仅能够滤除有效语音片段中的噪声数据，而且无需重新学习，避免有效语音片段中前部分的语音信号损伤，提高了对有效语音片段的滤波处理效果。

第三种方式、电子设备根据有效语音片段的第一采集环境确定第一滤波器系数。

电子设备检测有效语音片段采集时所处的第一采集环境，并基于该第一采集环境，获取第一采集环境对应的滤波器系数，进而将第一采集环境对应的滤波器系数确定为第一滤波器系数。

进一步地，为了能够快速地获取到第一采集环境对应的滤波器系数，电子设备在获取第一采集环境对应的滤波器系数之前，需要针对不同环境对延迟滤波器的滤波器系数进行训练，得到延迟滤波器在不同环境下已收敛的滤波器系数，进而存储不同环境与已收敛的滤波器系数之间的对应关系。

通常同一环境下的噪声数据是相同的，不同环境下的噪声数据一般是不同的，该方法无需基于有效语音片段重新进行学习，通过检测有效语音片段采集时所处的第一采集环境，进而将该第一采集环境对应的滤波器系数作为第一滤波器系数，缩短了第一滤波器系数的确定时长，提高了对有效语音片段的滤波处理效果。

当然，除了采用上述几种方式，电子设备还可根据原始语音信号中历史有效语音片段对应的已收敛的滤波器系数确定第一滤波器系数。

在一种可能的实现方式中，在对原始语音信号的滤波处理过程中，电子设备可以获取原始语音信号中所有历史有效语音片段对应的已收敛的滤波器系数，并计算所有历史有效语音片段对应的已收敛的滤波器系数的平均值，得到平均有效滤波器系数，进而将该平均有效滤波器系数确定为第一滤波器系数。

考虑到进行语音通信的用户的人声特征及外界环境并不会突变，因而原始语音信号中所有历史有效语音片段所学习的已收敛的滤波器系数，也适用于对该有效语音片段的处理，该方法通过将能够反应对所有历史有效语音片段中噪声数据滤波能力的平均有效滤波器系数作为第一滤波器系数，在保证对该有效语音片段的滤波处理效果的前提下，缩短了对该有效语音片段的滤波处理时长。

在另一种可能的实现方式中，在对原始语音信号进行滤波处理过程中，电子设备获取与该有效语音片段邻近的前一段历史有效语音片段对应的滤波器系数，进而将前一段历史有效语音片段对应的滤波器系数确定为第一滤波器系数。

由于进行语音通信的用户的人声特征及外界环境并不会突变，通过将前一段历史有效语音片段对应的滤波器系数作为第一滤波器系数，在保证对该有效语音片段的滤波处理效果的前提下，缩短了对该有效语音片段的滤波处理时长。

在本公开的另一个实施例中，电子设备不采用任何滤波器对该有效语音片段进行滤波处理。由于并未对该有效语音片段进行滤波处理，因而能够避免该有效语音片段损伤，改善了该有效语音片段中前部分的滤波处理效果。

203.电子设备基于第一滤波器系数对应的第一延迟滤波器，对有效语音片段进行滤波处理，直至识别出有效语音片段的结束位置。

基于所确定的第一滤波器系数，电子设备获取以该第一滤波器系数为滤波器系数的第一延迟滤波器，进而采用该第一延迟滤波器，对该有效语音片段进行滤波处理，直至识别出有效语音片段的结束位置，也即是完成对该有效语音片段的滤波处理。在对该有效语音片段进行滤波处理的整个过程中，维持该滤波器系数不变，保证了处理后的有效语音片段的鲁棒性和平滑性。

204.电子设备确定第一噪声片段对应的第二滤波器系数。

为了更好地对原始语音信号进行处理，当对有效语音片段处理完成，电子设备将开启延迟滤波器的自适应滤波功能，以对第一噪声片段进行滤波处理。该第一噪声片段为有效语音片段之后的第一个噪声片段。为了缩短对第一噪声片段进行滤波处理时延迟滤波器系数的收敛时长，电子设备可根据历史噪声片段对应的已收敛的滤波器系数或所第一噪声片段的采集环境等确定出第二滤波器系数，进而将第一滤波器系数复位为第二滤波器系数，然后以第二滤波器系数为初始滤波器系数，对该第二滤波器系数进行调节，直至调节后的第二滤波器系数收敛。电子设备在确定第二滤波器系数时，可采用如下几种方式：

第一种方式、电子设备根据原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数确定第二滤波器系数。

电子设备获取原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数，并计算所有历史噪声片段对应的已收敛的滤波器系数的平均值，得到平均噪声滤波器系数，进而将平均噪声滤波器系数确定为第二滤波器系数。

第二种方式、电子设备根据第二噪声片段对应的滤波器系数确定第二滤波器系数。

电子设备获取第二噪声片段对应的滤波器系数，将该第二噪声片段对应的滤波器系数确定为第二滤波器系数。

第三种方式、电子设备根据第一噪声片段的第二采集环境确定第二滤波器系数。

电子设备检测第一噪声片段的第二采集环境，并获取第二采集环境对应的滤波器系数，进而将第二采集环境对应的滤波器系数确定为第二滤波器系数。

当然，除了采用上述方法外，电子设备还可采用其他方法确定第二滤波器系数，此处不在一一说明。

205.基于第二滤波器系数对应的第二延迟滤波器，电子设备对第一噪声片段进行滤波处理。

如果第一噪声片段中的环境噪声与历史噪声片段或第二采集环境中的环境噪声完全相同，也即是第二滤波器系数为第一噪声片段对应的已收敛的滤波器系数，则电子设备直接基于第二滤波器系数对应的第二延迟滤波器，对第一噪声片段进行滤波处理，而无需对该第二滤波器系数进行调节。如果第一噪声片段中的环境噪声与历史噪声片段或第二采集环境中的环境噪声不完全相同，则电子设备将以第二滤波器系数为初始滤波器系数，进而基于第一噪声片段，对该第二滤波器系数进行调节。该调节过程包括但不限于以下两种实现方式：

在一种可能的实现方式中，电子设备可根据第一噪声片段的能量值、预设能量阈值及Sigmoid函数，确定延迟滤波器的收敛步长，进而根据所确定的收敛步长，不断调节第二滤波器系数，直至调节后的第二滤波器系数收敛。

在另一种可能的实现方式，电子设备可以获取另一个麦克风等语音采集设备同步采集到与第一噪声片段具有相同时间戳的第三噪声片段，并根据第一噪声片段和第三噪声片段的能量差值，确定延迟滤波器的收敛步长，进而根据收敛步长，调节第二滤波器系数。由于第一噪声片段与第三噪声片段的相关性较强，通过将两个噪声片段的能量差值相减，能够达到尽快收敛的目的。

在对第二滤波器系数进行调节的过程中，电子设备基于每次调节后的第二滤波器系数对应的第二延迟滤波器，对第一噪声片段进行滤波处理。当调节后的第二滤波器系数收敛，电子设备基于已收敛的第二滤波器系数对应的第二延迟滤波器，对第一噪声片段的剩余部分进行滤波处理，直至检测到下一个有效语音片段或者该原始语音信号处理完成，或者第一噪声片段的剩余部分发生突变。

本公开实施例提供的方法，基于已收敛的滤波器系数，确定出用于对有效语音片段进行滤波处理的第一滤波器系数，以及对第一噪声片段进行滤波处理的第二滤波器系数。对于有效语音片段来说，无需经历收敛过程，避免了有效语音片段在滤波器系数的自适应学习过程中受到损伤；对于第一噪声片段来说，将以往学习的滤波器系数作为初始滤波器系数，加快了收敛进度，从而能够快速获取到有效滤除第一噪声片段中环境噪声的滤波器系数。由于已收敛的滤波器系数为根据历史环境噪声及用户的人声特征所学习的滤波系数，该滤波系数能够有效地甄别出用户的人声和环境噪声，采用该方法在保护有效语音片段不受到损伤的前提下，有效地滤除了有效语音片段中及之后的第一噪声片段中的环境噪声，改善了有效语音片段前后两部分的处理效果。

参见图3，本公开实施例提供了一种语音信号的处理装置，该装置包括：

确定模块301，用于当从原始语音信号中识别出有效语音片段的起始位置，确定有效语音片段对应的第一滤波器系数；

处理模块302，用于基于第一滤波器系数对应的第一延迟滤波器，对有效语音片段进行滤波处理，直至识别出有效语音片段的结束位置；

确定模块301，用于确定第一噪声片段对应的第二滤波器系数，第一噪声片段为有效语音片段之后的第一个噪声片段；

处理模块302，用于基于第二滤波器系数对应的第二延迟滤波器，对第一噪声片段进行滤波处理；

其中，第一滤波器系数和第二滤波器系数根据已收敛的历史滤波器系数确定。

在本公开的另一个实施例中，该装置还包括：

识别模块，用于在对原始语音信号进行滤波处理过程中，基于语音活动检测VAD从原始语音信号中识别出有效语音信号的起始位置和结束位置，将起始位置和结束位置之间的原始语音信号，识别为有效语音片段；或者，

识别模块，用于根据原始语音信号中唤醒信息指示的唤醒起点和唤醒时长，将以唤醒起点为起始位置、唤醒时长为持续时长的原始语音信号，识别为有效语音片段。

在本公开的另一个实施例中，确定模块301，用于获取原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数；计算所有历史噪声片段对应的已收敛的滤波器系数的平均值，得到平均噪声滤波器系数；将平均噪声滤波器系数确定为第一滤波器系数。

在本公开的另一个实施例中，确定模块301，用于获取第二噪声片段对应的滤波器系数，第二噪声片段为与有效语音片段邻近的前一个噪声片段；将第二噪声片段对应的滤波器系数确定为第一滤波器系数。

在本公开的另一个实施例中，确定模块301，用于基于有效语音片段的第一采集环境，获取第一采集环境对应的滤波器系数；将第一采集环境对应的滤波器系数确定为第一滤波器系数。

在本公开的另一个实施例中，确定模块301，用于获取原始语音信号中所有历史噪声片段对应的已收敛的滤波器系数；计算所有历史噪声片段对应的已收敛的滤波器系数的平均值，得到平均噪声滤波器系数；将平均噪声滤波器系数确定为第二滤波器系数。

在本公开的另一个实施例中，确定模块301，用于获取第二噪声片段对应的滤波器系数，第二噪声片段为与有效语音片段邻近的前一个噪声片段；将第二噪声片段对应的滤波器系数确定为第二滤波器系数。

在本公开的另一个实施例中，确定模块301，用于基于第一噪声片段的第二采集环境，获取第二采集环境对应的滤波器系数；将第二采集环境对应的滤波器系数确定为第二滤波器系数。

在本公开的另一个实施例中，处理模块302，用于获取第三噪声片段，第三噪声片段为与第一噪声片段同步采集到的具有相同时间戳的噪声片段；根据第一噪声片段和第三噪声片段的能量差值，确定收敛步长；根据收敛步长，对第二滤波器系数进行调节；基于调节后的第二滤波器系数对应的第二延迟滤波器，对第一噪声片段进行滤波处理。

综上所述，本公开实施例提供的装置，基于已收敛的滤波器系数，确定出用于对有效语音片段进行滤波处理的第一滤波器系数，以及对第一噪声片段进行滤波处理的第二滤波器系数。对于有效语音片段来说，无需经历收敛过程，避免了有效语音片段在滤波器系数的自适应学习过程中受到损伤；对于第一噪声片段来说，将以往学习的滤波器系数作为初始滤波器系数，加快了收敛进度，从而能够快速获取到有效滤除第一噪声片段中环境噪声的滤波器系数。由于已收敛的历史滤波器系数为根据历史环境噪声及用户的人声特征所学习的滤波系数，该滤波系数能够有效地甄别出用户的人声和环境噪声，采用该方法在保护有效语音片段不受到损伤的前提下，有效地滤除了有效语音片段中及之后的第一噪声片段中的环境噪声，改善了有效语音片段前后两部分的处理效果。

图4示出了本公开一个示例性实施例提供的一种电子设备400的结构框图。通常，设备400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本公开中方法实施例提供的语音信号的处理方法。

在一些实施例中，电子设备400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：电源404。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

电源404用于为电子设备400中的各个组件进行供电。电源404可以是交流电、直流电、一次性电池或可充电电池。当电源404包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图4中示出的结构并不构成对电子设备400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备400的处理器执行以完成上述语音信号的处理方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现语音信号的处理方法。该计算机可读存储介质可以是非暂态的。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行计算机程序代码，使得电子设备执行语音信号的处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种语音信号的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在对所述原始语音信号进行滤波处理过程中，基于语音活动检测VAD从所述原始语音信号中识别出有效语音信号的起始位置和结束位置，将所述起始位置和所述结束位置之间的所述原始语音信号，识别为所述有效语音片段；或者，

3.根据权利要求1所述的方法，其特征在于，所述确定所述有效语音片段对应的第一滤波器系数，包括：

将所述平均噪声滤波器系数确定为所述第一滤波器系数。

4.根据权利要求1所述的方法，其特征在于，所述确定所述有效语音片段对应的第一滤波器系数，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定所述有效语音片段对应的第一滤波器系数，包括：

6.根据权利要求1所述的方法，其特征在于，所述确定第一噪声片段对应的第二滤波器系数，包括：

将所述平均噪声滤波器系数确定为所述第二滤波器系数。

7.根据权利要求1所述的方法，其特征在于，所述确定第一噪声片段对应的第二滤波器系数，包括：

8.根据权利要求1所述的方法，其特征在于，所述确定第一噪声片段对应的第二滤波器系数，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于第二滤波器系数对应的第二延迟滤波器，对所述第一噪声片段进行滤波处理，包括：

根据所述收敛步长，对所述第二滤波器系数进行调节；

10.一种语音信号的处理装置，其特征在于，所述装置包括：

所述处理模块，还用于基于所述第二滤波器系数对应的第二延迟滤波器，对所述第一噪声片段进行滤波处理；

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至9中任一项所述的语音信号的处理方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至9中任一项所述的语音信号的处理方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述电子设备执行如权利要求1至9中任一项所述的语音信号的处理方法。