CN116364103A

CN116364103A - 一种语音信号处理方法和装置及电子设备

Info

Publication number: CN116364103A
Application number: CN202310198582.8A
Authority: CN
Inventors: 尹悦
Original assignee: Beijing Eswin Computing Technology Co Ltd
Current assignee: Beijing Eswin Computing Technology Co Ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-30

Abstract

本申请实施例公开了一种语音信号处理方法和装置及电子设备。所述装置包括去混响模块和盲源分离模块；其中：所述去混响模块，用于利用第n时刻的预测系数矩阵G(n)，对第n时刻的输入信号y(n)对应的延时信号组Y(n‑D)进行去混响处理，得到第n时刻的去混响实际信号x(n)；所述盲源分离模块，用于利用第n时刻的分离矩阵W(n)，对第n时刻的去混响实际信号x(n)进行处理，得到第n时刻的分离实际信号z(n)；其中，所述装置还包括：计算模块，用于通过如下方式计算第n时刻的预测系数矩阵G(n)，包括：获取第n‑1时刻的分离矩阵W(n‑1)；根据第n‑1时刻的分离矩阵W(n‑1)和第n‑1时刻的预测系数矩阵G(n‑1)，得到第n时刻的预测系数矩阵G(n)。

Description

一种语音信号处理方法和装置及电子设备

技术领域

本申请实施例涉及音频处理领域，尤指一种语音信号处理方法和装置及电子设备。

背景技术

盲源分离(Blind Source Separation,BSS)是从观测信号中分离出多路声源的技术，“盲”表示源信号与传输通道是未知的。多通道盲源分离以麦克风数是否大于、等于、小于声源数目分为超定、正定、欠定三种情况。大部分盲源分离算法关注麦克风数大于等于声源数的情况。由于超定情况下可以利用主成分分析(Principal Component Analysis，PCA)将其转化为正定问题。

针对正定情况下的盲源分离技术，常用的盲源分离方法有独立成分分析(Independent Vector Analysis，ICA)、独立向量分析(Independent Vector Analysis，IVA)、多通道非负矩阵分解(Multichannel Non-Negative Matrix Factorization，MNMF)、独立低秩矩阵分析(Independent Low-Rank Matrix Analysis，ILRMA)等方法。IVA相比ICA，克服了频点模糊问题，因此得到广泛关注。利用基于辅助函数的独立向量分析(Auxiliary Function Based IVA，AuxIVA)是近年来解决BSS问题的主流方向，其中提供了一种可以逐帧更新分离矩阵的实时IVA方法。

麦克风采集的信号除了目标声源外，还包括其他干扰声源的信号、房间混响等，这些信号极大降低了音频系统的性能。盲源分离技术能分离出不同声源，从而去除干扰声源对目标声源的不良影响。然而，盲源分离技术的性能受混响影响较大，随着房间混响时间增大，盲源分离性能快速下降。因此应先对输入信号先进行去混响的预处理。

去混响最常见的技术有噪声抑制和线性预测两类。噪声抑制方法是先估计出混响的能量，将其当作噪声，再用噪声抑制如谱减、维纳滤波等方法去除混响成分。线性预测方法使用过去若干帧的数据预测当前语音帧中的混响成分，再将其减去。其中加权预测误差(Weighted Predict Error,WPE)方法及其自适应变体AWPE因其良好的去混响性能得到广泛应用。

在混响的环境中，声波反射折射产生的混响会对盲源分离产生干扰，极大降低分离性能，提出了将去混响与盲源分离结合的技术方案，但在去混响处理时，将输入信号与单位矩阵进行克罗内克乘积扩展，去混响效果较差。

发明内容

为了解决上述任一技术问题，本申请实施例提供了一种语音信号处理方法和装置及电子设备。

为了达到本申请实施例目的，本申请实施例提供了一种语音信号处理装置，所述装置包括去混响模块和盲源分离模块；其中：

所述去混响模块，用于利用第n时刻的预测系数矩阵G(n)，对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理，得到第n时刻的去混响实际信号x(n)；

所述盲源分离模块，用于利用第n时刻的分离矩阵W(n)，对第n时刻的去混响实际信号x(n)进行处理，得到第n时刻的分离实际信号z(n)；

其中，所述装置还包括：

计算模块，用于通过如下方式计算第n时刻的预测系数矩阵G(n)，包括：

获取第n-1时刻的分离矩阵W(n-1)；

根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1)，得到第n时刻的预测系数矩阵G(n)；

其中：

其中，M表示麦克风通道总数，D表示预测最小时间间隔，K表示延时信号组中不同延时时刻的信号总数，n、M、D和K均为正整数。

一种语音信号处理方法，应用于上文所述的装置，所述方法包括：

获取第n-1时刻的分离矩阵W(n-1)；

利用第n时刻的预测系数矩阵G(n)，对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理，得到第n时刻的去混响实际信号x(n)；

其中：

一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文所述的方法。

上述技术方案中的一个技术方案具有如下优点或有益效果：

通过获取第n-1时刻的分离矩阵W(n-1)，来获取语音信号的先验信息，并根据该先验信息来生成第n时刻的预测系数矩阵G(n)，确定结果更加准确，能够更有效地抑制语音信号的混响，进一步提升盲源分离在高混响场景的性能。

本申请实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请实施例的实施例一起用于解释本申请实施例的技术方案，并不构成对本申请实施例技术方案的限制。

图1为本申请实施例提供的语音信号处理装置100的示意图；

图2为图1所示装置100中去混响模块10的结构示意图；

图3为图1所示装置100的另一示意图；

图4为图3所示置100的另一示意图；

图5为本申请实施例提供的语音信号处理方法的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请实施例中的实施例及实施例中的特征可以相互任意组合。

图1为本申请实施例提供的语音信号处理装置100的示意图。如图1所示，所述装置100包括去混响模块10和盲源分离模块20；其中，y(n)＝(y₁(n),y₂(n)...,y_M(n))^T表示输入信号，为麦克风采集的多路信号，x(n)＝(x₁(n),x₂(n)...,x_M(n))^T表示去混响模块10输出的去混响结果，z(n)＝(z₁(n),z₂(n)...,z_M(n))^T表示盲源分离模块输出的盲源分离结果。

所述去混响模块10，用于利用第n时刻的预测系数矩阵G(n)，对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理，得到第n时刻的去混响实际信号x(n)；

其中：

其中，预测系数矩阵G(n)的初始值可以设为全0；

具体的，去混响过程可表示为

x(n)＝y(n)-G^H(n)Y(n-D)

去混响处理即从n＝D+K时刻起，逐帧应用上式，从输出信号y(n)中减去估计出的混响成分G(n)^HY(n-D)，得到去混响实际信号x(n)。

图2为图1所示装置100中去混响模块10的结构示意图。如图2所示，所述去混响模块10包括K个支路，其中第k条支路利用第k组混响预测系数对(n-D-k+1)个时刻的输入信号进行去混响处理，其中，k＝1,2,3,……,K。

由于第k条支路利用第k组混响预测系数对(n-D-k+1)个时刻的输入信号进行去混响处理，实现K条支路并行处理信号的目的，降低去混响的计算复杂度。

所述盲源分离模块20，与所述去混响模块10相连，用于利用第n时刻的分离矩阵W(n)，对第n时刻的去混响实际信号x(n)进行处理，得到第n时刻的分离实际信号z(n)；

其中，该盲源分离模块20可以采用ICA、AuxIVA、MNMF、ILRMA等多种算法确定第n时刻的分离矩阵W(n)，在此不再赘述。

在得到第n时刻的分离矩阵W(n)后，该盲源分离模块20通过如下计算表达式可以得到第n时刻的分离实际信号z(n)，包括：

z(n)＝W(n)x(n)。

本申请实施例提供的装置，将去混响与盲源分离结合，在有效抑制输入信号的混响后再执行盲源分离操作，可以有效提升盲源分离在高混响场景的性能。

图3为图1所示装置100的另一示意图。如图3所示，所述装置100还包括：

计算模块30，与所述去混响模块10和所述盲源分离模块20相连，用于通过如下方式计算第n时刻的预测系数矩阵G(n)，包括：

获取第n-1时刻的分离矩阵W(n-1)；

根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1)，得到第n时刻的预测系数矩阵G(n)。

具体的，所述计算模块30从所述盲源分离模块20获取第n-1时刻的分离矩阵W(n-1)，来获取语音信号的先验信息，并根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1)，得到第n时刻的预测系数矩阵G(n)，使得第n时刻的预测系数矩阵G(n)是基于先验信息来生成的，与不使用先验信息生成第n时刻的混响预测系数矩阵G(n)相比，本申请实施例提供的第n时刻的预测系数矩阵G(n)的确定结果更加准确。

本申请实施例提供的装置，通过获取第n-1时刻的分离矩阵W(n-1)，来获取语音信号的先验信息，并根据该先验信息来生成第n时刻的预测系数矩阵G(n)，确定结果更加准确，能够更有效地抑制语音信号的混响，进一步提升盲源分离在高混响场景的性能。

在一个示例性实施例中，所述去混响模块10，还用于利用第n-1时刻的预测系数矩阵G(n-1)，对第n时刻的输入信号y(n)进行处理，得到第n时刻的去混响预测信号x_p(n)；

具体的，由于第n时刻的预测系数矩阵G(n)是未知的，可以使用上一时刻的预测系数矩阵近似作为所使用的预测系数矩阵，以完成对第n时刻的去混响预测信号x_p(n)的获取。

所述盲源分离模块20，还用于利用第n-1时刻的分离矩阵W(n-1)，对第n时刻的去混响预测信号x_p(n)进行处理，得到第n时刻的分离预测信号z_p(n)；

具体的，由于第n时刻的分离矩阵W(n)是未知的，可以使用上一时刻的分离矩阵近似作为所使用的分离矩阵，以完成对第n时刻的分离预测信号z_p(n)的获取。

所述计算模块30，用于根据第n时刻的分离预测信号z_p(n)，计算第n时刻的平均功率λ_n，并根据第n时刻的平均功率λ_n，对第n-1时刻的预测系数矩阵G(n-1)进行处理，得到第n时刻的预测系数矩阵G(n)。

具体的，由于第n时刻的分离预测信号z_p(n)是预测得到的源信号的语音数据，与第n时刻的的分离实际信号z(n)存在较强的相似度，因此，可以利用第n时刻的分离预测信号z_p(n)中携带的语音信号的先验信息来生成第n时刻的预测系数矩阵G(n)。

进一步的，利用第n时刻的分离预测信号z_p(n)来计算第n时刻的平均功率λ_n，可以充分利用第n时刻的分离预测信号z_p(n)所携带的语音信号的先验信息。

与使用第n时刻的去混响预测信号x_p(n)来计算第n时刻的平均功率λ_n相比，本申请提供的装置在计算第n时刻的平均功率λ_n所使用的参数不同。

具体的，由于第n时刻的分离预测信号z_p(n)是对第n时刻的去混响预测信号x_p(n)进行处理后得到的信号。与第n时刻的去混响预测信号x_p(n)相比，第n时刻的分离预测信号z_p(n)是基于预测操作得到的第n时刻的源信号，而第n时刻的第n时刻的去混响预测信号x_p(n)是预测操作得到的包括源信号在内的多个信号。由于第n时刻的分离预测信号z_p(n)是不掺杂其他信号，因此，由于该分离预测信号z_p(n)所携带的源信号的语音信息更加准确，使得第n时刻的平均功率λ_n的确定结果更加准确，为更加准确地计算第n时刻的预测系数矩阵G(n)提供支持。

在一个示例性实施例中，所述计算模块30通过如下方式计算第n时刻的预测系数矩阵G(n)，包括：

根据第n时刻的平均功率λ_n，确定第n时刻的调整系数k(n)；

计算第n时刻的调整系数k(n)与第n时刻的去混响预测信号x_p(n)的转置共轭矩阵

的乘积，得到第n时刻的调整矩阵；

利用第n时刻的调整矩阵，对所述第n-1时刻的预测系数矩阵G(n-1)进行更新，得到第n时刻的预测系数矩阵G(n)。

具体的，所述计算模块30通过如下方式计算第n时刻的调整系数k(n)，包括：

其中，

其中，γ为遗忘因子，γ的取值在0.9至1之间的值。

具体的，所述计算模块30通过如下方式计算第n时刻的的预测系数矩阵G(n)，包括：

采用上述方式可以充分利用计算得到的第n时刻的去混响预测信号x_p(n)和第n时刻的分离预测信号z_p(n)，得到第n-1时刻的预测系数矩阵G(n-1)对应的调整信息，能够更加准确地确定第n时刻的预测系数矩阵G(n)。

在一个示例性实施例中，所述计算模块30通过如下方式得到第n时刻的平均功率λ_n，包括：

从第n时刻M个通道的分离预测信号的协方差矩阵中，获取对角线元素之和；

根据所述对角线元素之和以及M个通道，得到第n时刻的平均功率λ_n。

具体的，第n时刻M个通道的分离预测信号的协方差矩阵

的表达式如下：

其中，z_p,m(n)表示第n时刻第m通道的分离预测信号，m＝1,2,3,……,M。

具体的，所述计算模块30通过如下计算表达式获取第n时刻的平均功率λ_n。

其中，

表示协方差矩阵/>

中对角线元素之和。

图4为图3所示装置100的另一示意图。如图4所示，所述装置还包括第一转换模块40和第二转换模块50；其中：

所述第一转换模块40，与所述去混响装置10相连，用于将接收的音频信号从时域信号转换为频域信号；

所述第二转换模块50，与所述盲源分离模块20相连，用于将接收的盲源分离结果从频域信号转换为时域信号。

由于采集的语音信号为短时平稳的时域信号，利用第一转换模块40将时域信号转到频域信号，再输出给去混响装置10，在去混响装置10和盲源分离模块20完成对频域信号的处理后，利用第二转换模块50，对每一帧语音信号，将时域信号转到频域信号。

第一转换模块40通过如下方式完成音频信号从时域信号转换为频域信号，包括：

对采集得到的音频信号进行分帧操作，其中每帧的时长可以为10ms至30m，并设置一定比例的重叠率；

选择一个时域窗函数，通过移动时域窗函数，对时域信号逐帧加窗，其中该时域窗函数可以为汉宁窗；

对每一帧信号进行快速傅里叶变换(Fast Fourier Transformation，FFT)FFT)，将时域信号转到频域。

第二转换模块50通过如下方式完成盲源分离结果从频域信号转换为时域信号，包括：

对每一帧的盲源分离结果进行快速傅里叶逆变换IFFT(Inverse Fast FourierTransform，IFFT),从频域信号转换为时域信号；

从时域信号中取实部，并执行加窗处理；

按照设置的重复率进行信号相加得到目标音频。

图5为本申请实施例提供的语音信号处理方法的流程图。如图5所示，所述方法应用于图3和图4所示的装置，所述方法包括：

步骤A、获取第n-1时刻的分离矩阵W(n-1)；

步骤B、根据第n-1时刻的分离矩阵W(n-1)和第n-1时刻的预测系数矩阵G(n-1)，得到第n时刻的预测系数矩阵G(n)；

步骤C、利用第n时刻的预测系数矩阵G(n)，对第n时刻的输入信号y(n)对应的延时信号组Y(n-D)进行去混响处理，得到第n时刻的去混响实际信号x(n)；

步骤D、利用第n时刻的分离矩阵W(n)，对第n时刻的去混响实际信号x(n)进行处理，得到第n时刻的分离实际信号z(n)；

其中：

在一个示例性实施例中，所述步骤A，包括：

步骤A1、利用第n-1时刻的预测系数矩阵G(n-1)，对第n时刻的输入信号y(n)进行处理，得到第n时刻的去混响预测信号x_p(n)；

步骤A2、利用第n-1时刻的分离矩阵W(n-1)，对第n时刻的去混响预测信号x_p(n)进行处理，得到第n时刻的分离预测信号z_p(n)；

具体的，由于第n时刻的分离矩阵W(n)是未知的，可以使用上一时刻的分离矩阵近似作为所使用的分离矩阵，以完成对第n时刻的去分离预测信号z_p(n)的获取。

步骤A3、根据第n时刻的分离预测信号z_p(n)，计算第n时刻的平均功率λ_n；

由于第n时刻的分离预测信号z_p(n)是预测得到的去除干扰信号的语音数据，与第n时刻的的分离实际信号z(n)存在较强的相似度，因此，可以利用第n时刻的分离预测信号z_p(n)中携带的语音信号的先验信息用于计算第n时刻的预测系数矩阵G(n)。

步骤A4、根据第n时刻的平均功率λ_n，对第n-1时刻的预测系数矩阵G(n-1)进行处理，得到第n时刻的预测系数矩阵G(n)。

具体的，通过如下方式计算第n时刻的调整系数k(n)，包括：

其中，

其中，γ为遗忘因子，γ的取值在0.9至1之间的值。

在一个示例性实施例中，所述步骤A4，包括：

步骤A41、根据第n时刻的平均功率λ_n，确定第n时刻的调整系数k(n)；

步骤A42、计算第n时刻的调整系数k(n)与第n时刻的去混响预测信号x_p(n)的转置共轭矩阵

的乘积，得到第n时刻的调整矩阵；

步骤A43、利用第n时刻的调整矩阵，对所述第n-1时刻的预测系数矩阵G(n-1)进行更新，得到第n时刻的预测系数矩阵G(n)。

具体的，所述计算模块通过如下方式计算第n时刻的的预测系数矩阵G(n)，包括：

在一个示例性实施例中，所述步骤A3，包括：

步骤A31、从第n时刻M个通道的分离预测信号的协方差矩阵中，获取对角线元素之和；

具体的，第n时刻M个通道的分离预测信号的协方差矩阵

的表达式如下：

步骤A32、根据所述对角线元素之和以及M个通道，得到第n时刻的平均功率λ_n。

具体的，通过如下计算表达式获取第n时刻的平均功率λ_n。

其中表示，

表示协方差矩阵/>

中对角线元素之和。

本申请实施例提供的方法，通过获取第n-1时刻的分离矩阵W(n-1)，来获取语音信号的先验信息，并根据该先验信息来生成第n时刻的预测系数矩阵G(n)，确定结果更加准确，能够更有效地抑制语音信号的混响，进一步提升盲源分离在高混响场景的性能。

本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文所述的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。