CN110660405B

CN110660405B - 一种语音信号的提纯方法及装置

Info

Publication number: CN110660405B
Application number: CN201910923360.1A
Authority: CN
Inventors: 张雅琴
Original assignee: Du Xiaoman Technology Beijing Co Ltd
Current assignee: Du Xiaoman Technology Beijing Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2022-09-23
Anticipated expiration: 2039-09-24
Also published as: CN110660405A

Abstract

本发明公开了一种语音信号的提纯方法，包括：获取待提纯语音信号，其中，所述待提纯语音信号是在密闭环境下进行通话过程中产生的；将所述待提纯语音信号进行去噪声处理和去混响处理，得到目标语音信号。上述的提纯方法中，针对密闭环境下产生的待提纯语音信号进行去噪声和去混响进行处理，得到目标语音信号，实现了对待提纯语音信号的提纯。

Description

一种语音信号的提纯方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音信号的提纯方法及装置。

背景技术

当我们在电梯、地下室、楼梯间等一些封闭而且信号不好的空间中接打电话时，由于信号不好，接收的信号往往有很严重的“滋滋”声，并且由于空间比较密闭狭小，接收的语音信号会带有很严重的混响信号。

在电销场景中，由于客服每天需要打的电话很多，因此也会遇到很多上述的场景。现有技术人员拿到上述语音信号时，一般会选择直接丢弃，直接丢弃的问题在于会产生很严重的数据资源的浪费，另一种做法是把上述语音信号进行语音前端信号处理，由于上述的语音前端信号处理是没有针对性的，没有针对具体场景对具体语音信号做具体处理。

上述语音信号在进行如语音识别或者语音合成处理时，就会导致语音识别或者语音合成不准确，为避免上述不准确的问题，亟需提供一种语音信号的提纯方法，用于对语音识别或者语音合成中的语音信号进行提纯。

发明内容

有鉴于此，本发明提供了一种语音信号的提纯方法及装置，用于实现对语音信号的提纯，具体方案如下：

一种语音信号的提纯方法，包括：

获取待提纯语音信号，其中，所述待提纯语音信号是在密闭环境下进行通话过程中产生的；

将所述待提纯语音信号进行去噪声处理和去混响处理，得到目标语音信号。

上述的方法，可选的，将所述待提纯语音信号进行去噪声处理和去混响处理，得到目标语音信号，包括：

将所述待提纯语音进行去噪声处理，得到第一语音信号；

将所述第一语音信号进行去混响处理，得到目标语音信号。

上述的方法，可选的，将所述待提纯语音进行去噪声处理，得到第一语音信号，包括：

对所述待提纯语音进行小波变换，确定所述待提纯语音时域和频域的对应关系；

依据所述对应关系，确定所述待提纯语音中的噪声的频率范围；

去除所述待提纯语音中处于所述频率范围的语音信号，得到第一语音信号。

上述的方法，可选的，将所述第一语音信号进行去混响处理，得到目标语音信号，包括：

依据所述第一语音信号，确定目标语音信号的表达式；

采用最大似然估计算法构建与所述表达式对应的损失函数；

将所述损失函数迭代预设次数后得到所述目标语音信号。

将所述待提纯语音进行去混响处理，得到第二语音信号；

将所述第二语音信号进行去噪声处理，得到目标语音信号。

一种语音信号的提纯装置，包括：

获取模块，用于获取待提纯语音信号，其中，所述待提纯语音信号是在密闭环境下进行通话过程中产生的；

处理模块，用于将所述待提纯语音信号进行去噪声处理和去混响处理，得到目标语音信号。

上述的装置，可选的，所述处理模块包括：

第一去噪声单元，用于将所述待提纯语音进行去噪声处理，得到第一语音信号；

第一去混响单元，用于将所述第一语音信号进行去混响处理，得到目标语音信号。

上述的装置，可选的，所述第一去噪声单元包括：

小波变换子单元，用于对所述待提纯语音进行小波变换，确定所述待提纯语音时域和频域的对应关系；

频率范围确定子单元，用于依据所述对应关系，确定所述待提纯语音中的噪声的频率范围；

去除子单元，用于去除所述待提纯语音中处于所述频率范围的语音信号，得到第一语音信号。

上述的装置，可选的，所述第一去混响单元包括：

确定子单元，用于依据所述第一语音信号，确定目标语音信号的表达式；

构建子单元，用于采用最大似然估计算法构建与所述表达式对应的损失函数；

迭代子单元，用于将所述损失函数迭代预设次数后得到所述目标语音信号。

上述的装置，可选的，所述处理模块包括：

第二去混响单元，用于将所述待提纯语音进行去混响处理，得到第二语音信号；

第二去噪声单元，用于将所述第二语音信号进行去噪声处理，得到目标语音信号。

与现有技术相比，本发明包括以下优点：

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种语音信号的提纯方法流程图；

图2为本申请实施例公开的一种语音信号的提纯方法又一流程图；

图3为本申请实施例公开的一种双通道的混响与去混响示意图；

图4为本申请实施例公开的一种迭代过程示意图；

图5为本申请实施例公开的一种语音信号的提纯装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种语音信号的提纯方法与装置，应用在密闭环境进行通话产生的语音信号进行提纯的过程中，其中，密闭环境可以是电梯、地下室或者楼梯间等，由于密闭环境的信号不好，会导致在通话过程中接收的语音信号带有很严重的“滋滋”声，本发明实施例中的噪声包括“滋滋”声，并且由于密闭空间相对狭小，还会导致通话过程中接收的语音信号会产生严重的混响，其中，混响的产生过程如下：声波在密闭空间传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在密闭空间内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后还有若干个声波混合持续一段时间(密闭空间的声源停止发声后仍然存在的声延续现象)，这种现象叫做混响，这段时间叫做混响时间。若将上述的语音信号应用于语音识别或者语音合成过程中，会导致识别或者合成的效果差，因此，本发明提供了一种语音信号的提纯方法，所述方法的执行流程如图1所示，包括步骤：

S101、获取待提纯语音信号，其中，所述待提纯语音信号是在密闭环境下进行通话过程中产生的；

本发明实施例中，由于所述待提纯语音信号实在密闭环境下进行通话过程中产生的，可以在对应的语音信号库中获取待提纯语音信号还可以直接将通话过程中产生的语音信号作为待提纯语音信号，其中，针对所述语音信号库获取所述待提纯语音信号的情况，可以对所述语音信号库中的语音信号进行筛选，筛选出，满足预设筛选条件的所述待提纯语音，本发明实施例中对所述预设筛选条件不进行限定；针对通话过程中直接获取所述待提纯语音信号的情况。需要对通话环境进行判定，依据判定结果确定当前通话对应的语音信号是否为待提纯语音信号。

S102、将所述待提纯语音信号进行去噪声处理和去混响处理，得到目标语音信号。

本发明实施例中，由于所述待提纯语音信号中包含“滋滋”声的噪音和混响，需要进行去噪音和去混响处理，但对去噪音和去混响执行的先后顺序不进行限定。针对去噪音，采用小波变换的方法确定所述待提纯语音信号中噪音的频率范围，将所述待提纯语音中的与所述频率范围对应的语音信号进行删除，针对去混响，采用最大似然估计算法构建所述目标语音信号的损失函数，对所述损失函数进行迭代，最终得到所述目标语音信号。

本发明实施例中，以优先进行去噪声处理然后进行去混响处理为例对所述待提纯语音信号的提纯过程进行说明，具体的处理流程如图2所示，包括步骤：

S201、将所述待提纯语音进行去噪声处理，得到第一语音信号；

本发明实施例中，针对去噪声处理优选采用小波变换方法，其中，小波变换WT(wavelet transform)的物理意义是任意一个信号都可以表示为不同频率的小波的线形叠加，小波即小区域的波，它是一种能量在时域非常集中的波，它的能量有限而且集中在某一点附近。小波分析是将信号分解成一系列小波函数的叠加，而这些小波函数都是由一个母小波函数经过平移与尺度伸缩得来的。连续小波变换可以表示为：

上式表示小波变换是信号f(x)与被缩放和平移的小波函数ψ0之积在信号存在的整个期间里求和的结果。小波变换的结果是许多小波系数C，这些系数是缩放因子(scale)与平移(position)的函数。缩放就是指压缩或伸展基本小波，缩放系数越小，则小波越窄；平移指小波的延迟或超前，在数学上，函数f(t)延迟k的表达式为f(t-k)。

小波变换在本文的意义就是将一个时域的突变信号或者非平稳信号通过小波变换变换到频域，通过变换后的频域信号不仅可以知道原信号由哪些频率信号组成，而且可以知道这些频率信号在时域上所属的具体时间，即通过小波变换，我们可以获得一个非平稳信号的时域与频域的相关信息。

本发明实施例中具体的小波变换的流程为：

(1)首先选取一个小波信号，然后将小波信号与待提纯语音信号的第一部分做比较；

其中，小波信号的选取方式不限，待提纯语音最前边的比分依据具体情况进行限定，例如：小波信号的时长为1分钟，待提纯语音信号为4分钟，可以设定将所述待提纯语音每间隔1分钟作为一部分，共分为4部分，

2.计算小波系数C，C代表小波和当前部分的相关性；

3.移动小波，重复步骤1与2，一直遍历所述待提纯语音信号；

4.对小波信号进行缩放，重复步骤1到3；

5.在所有小波尺度下，重复上述步骤。大尺度代表所述待提纯语音信号的低频，小尺度代表所述待提纯语音信号的高频。小波变换之后可以得到许多小波系数，这些系数为缩放因子与平移的函数。缩放就是指压缩或伸展基本小波，缩放因子越小，则小波越窄，通过缩放因子，可以获得所述待提纯语音信号的频域信息；平移指小波的延迟与超前，通过平移系数，可以获得所述待提纯语音信号的时间信息。因此通过小波变换的结果，我们就可以获得所述待提纯语音信号在时域与频域的对应关系。

当获得所述对应关系后，获取所述待提纯语音信号中产生“滋滋”声的时间；然后依据所述对应关系进行对比观察，得到产生“滋滋”声的同一时间段的频率值，通过统计若干组实验结果，我们就可以得到“滋滋”声产生的频率范围。

进一步的，去除所述待提纯语音中处于所述频率范围的语音信号，得到第一语音信号。

S202、将所述第一语音信号进行去混响处理，得到目标语音信号。

本发明实施例中，图3为双通道的混响与去混响示意图，如图3所示，

其中S_t表示源语音信号序列，h⁽¹⁾(z)与h⁽²⁾(z)表示房间脉冲信号，

与

表示噪音信号序列，

与

表示观察到语音信号序列(第一语音信号)，其中t表示时间序列，那么混响的产生过程就是：源语音信号与房间的脉冲信号进行相互作用，然后加上房间的噪声信号，最后得到了我们的观察信号。用公式可以表示为：

去混响过程为图2后面的部分，需要估计一个去混响滤波器即图3中的w⁽¹⁾(z)与w⁽²⁾(z)，当这个去混响滤波器与观察信号进行卷积作用后会获得一个增强信号y_t，增强信号就是我们最后需要的纯净信号，这个去混响滤波器就是所要求的滤波器，用公式表示为：

其中：m-通道数；

k-延迟；

-滤波器；

首先根据混响的固有特性，把没有噪音的观察信号分为直达信号，早期混响与晚期混响三部分。本发明实施例中，直达信号与早期信号一起合称为期望信号，用

表示，只有晚期混响信号才是需要消除的，用

表示。那么观察信号就可以表示为：

其中：

其中，D是将房间脉冲响应分为早期混响与晚期混响的时间索引，也叫做“prediction delay”即预测延迟。由公式(4)可以重新得到新的观察信号表达式：

将公式(5)用向量表示为：

由公式(6)可知，目前的观察信号是过去一系列观察信号与回归信号做卷积，然后加上期望信号所得到的。因此，期望信号

获得的期望信号就是去除混响之后的目标语音信号

本发明实施例中，采用最大似然估计对期望信号进行建模。其图2中的第一通道为例进行说明，第二通道的处理方式与第一通道的处理方式相同。

即损失函数表达式为

其中，

表示期望信号

的概率密度函数。假设语音信号是准静态过程，仅在几十毫秒量级的短时间帧内具有相关性，并且其相关性可以在不同时间帧上变化；并且语音信号具有短时高斯性。因此，假设期望信号符合均值为0，方差为σ的高斯进程，即

将满足高斯性质的高斯分布信号

带入公式(8)的损失函数表达式中，并且令

表示待估计的参数集合，则可以得到下面的式子：

通过使上面这个式子最大化来获得参数集合θ，为了避免0为除数，设置一个最小阈值∈＞0，对于所有的

有

通过简单的迭代算法求解，具体的公式过程如下：

(1)初始化

(2)重复下面的过程直到收敛，针对于收敛的判断是根据具体情况直接设定一个迭代次数，迭代次数越多，效果越好，但是时间会更慢，最后得到的

就是目标语音信号。

A)更新

B)更新

C)更新

其中，迭代的过程如图4示。

本发明实施例中，以优先进行去混响处理然后进行去噪声处理的过程与上述过程相同，只是执行先后顺序的差别，先将所述待提纯语音进行去混响处理，得到第二语音信号；将所述第二语音信号进行去噪声处理，得到目标语音信号，具体的处理过程不再赘述。

基于上述的一种语音信号的提纯方法，本发明实施例中，还提供了一种语音信号的提纯装置，所述提纯装置的结构框图如图5所示，包括：

获取模块301和处理模块302。

其中，

所述获取模块301，用于获取待提纯语音信号，其中，所述待提纯语音信号是在密闭环境下进行通话过程中产生的；

所述处理模块302，用于将所述待提纯语音信号进行去噪声处理和去混响处理，得到目标语音信号。

本发明公开了一种语音信号的提纯装置，包括：获取待提纯语音信号，其中，所述待提纯语音信号是在密闭环境下进行通话过程中产生的；将所述待提纯语音信号进行去噪声处理和去混响处理，得到目标语音信号。上述的提纯装置中，针对密闭环境下产生的待提纯语音信号进行去噪声和去混响进行处理，得到目标语音信号，实现了对待提纯语音信号的提纯。

本发明实施例中，所述处理模块302包括：

第一去噪声单元303和第一去混响单元302。

其中，

所述第一去噪声单元303，用于将所述待提纯语音进行去噪声处理，得到第一语音信号；

所述第一去混响单元304，用于将所述第一语音信号进行去混响处理，得到目标语音信号。

本发明实施例中，所述第一去噪声单元303包括：

小波变换子单元305、频率范围确定子单元306和去除子单元307。

其中，

所述小波变换子单元305，用于对所述待提纯语音进行小波变换，确定所述待提纯语音时域和频域的对应关系；

所述频率范围确定子单元306，用于依据所述对应关系，确定所述待提纯语音中的噪声的频率范围；

所述去除子单元307，用于去除所述待提纯语音中处于所述频率范围的语音信号，得到第一语音信号。

本发明实施例中，所述第一去混响单元304包括：

确定子单元308、构建子单元309和迭代子单元310。

其中，

所述确定子单元308，用于依据所述第一语音信号，确定目标语音信号的表达式；

所述构建子单元309，用于采用最大似然估计算法构建与所述表达式对应的损失函数；

所述迭代子单元310，用于将所述损失函数迭代预设次数后得到所述目标语音信号。

本发明实施例中，所述处理模块302包括：

第二去混响单元311和第二去噪声单元312。

其中，

所述第二去混响单元311，用于将所述待提纯语音进行去混响处理，得到第二语音信号；

所述第二去噪声单元312，用于将所述第二语音信号进行去噪声处理，得到目标语音信号。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种语音信号的提纯方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音信号的提纯方法，其特征在于，包括：

将所述待提纯语音信号进行去噪声处理和去混响处理，得到目标语音信号；

其中，将所述待提纯语音信号进行去噪声处理和去混响处理，得到目标语音信号，包括：将待提纯语音进行去噪声处理，得到第一语音信号；将所述第一语音信号进行去混响处理，得到目标语音信号；其中，将所述待提纯语音进行去噪声处理，得到第一语音信号，包括：对所述待提纯语音进行小波变换，确定所述待提纯语音时域和频域的对应关系；依据所述对应关系，确定所述待提纯语音中的噪声的频率范围；去除所述待提纯语音中处于所述频率范围的语音信号，得到第一语音信号；其中，依据所述对应关系，确定所述待提纯语音中的噪声的频率范围，包括，获取所述待提纯语音信号中产生所述噪声的时间，依据所述对应关系，得到产生所述噪声的同一时间段的频率值，根据多组频率值，确定所述噪声的频率范围；

其中，将所述第一语音信号进行去混响处理，得到目标语音信号，包括：

依据所述第一语音信号，确定目标语音信号的表达式；

采用最大似然估计算法构建与所述表达式对应的损失函数；

将所述损失函数迭代预设次数后得到所述目标语音信号；

其中，所述损失函数表达式为，