CN111128221A

CN111128221A - 一种音频信号处理方法、装置、终端及存储介质

Info

Publication number: CN111128221A
Application number: CN201911302374.8A
Authority: CN
Inventors: 侯海宁
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-08
Anticipated expiration: 2039-12-17
Also published as: US11205411B2; US20210183351A1; EP3839950A1; EP3839950B1; CN111128221B

Abstract

本公开是关于一种音频信号处理方法，所述方法包括：由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号；对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号；基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值；基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号；基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号。本公开还公开了一种音频信号处理装置、终端及存储介质。

Description

一种音频信号处理方法、装置、终端及存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种音频信号处理方法、装置、终端及存储介质。

背景技术

相关技术中，智能产品设备拾音多采用麦克风阵列，应用麦克风波束形成技术提高语音信号处理质量，以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感，性能影响较大，另外麦克风个数增多了也会导致产品成本升高。

因此，目前越来越多的智能产品设备只配置两个麦克风；两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强，而如何使得基于盲源分离技术分离后信号的语音质量更高是目前的迫切需要解决的问题。

发明内容

本公开提供一种音频信号处理方法、装置、终端及存储介质。

由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号；

对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号；

基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值；

基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号；

基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号。

上述方案中，所述对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号，包括：

基于分离矩阵与当前帧的原始带噪信号，获取当前帧的第一分离信号；其中，所述分离矩阵为所述当前帧的分离矩阵，或者所述当前帧的前一帧的分离矩阵；

组合每一帧的所述第一分离信号，以获得各所述声源的所述时频估计信号。

上述方案中，当所述当前帧为第一帧时，所述第一帧的分离矩阵为单位矩阵；

所述基于分离矩阵与当前帧的原始带噪信号，获取当前帧的第一分离信号，包括：

基于所述单位矩阵及所述第一帧的原始带噪信号，获取所述第一帧的所述第一分离信号。

上述方案中，所述方法还包括：

若所述当前帧为第一帧以后的音频帧时，基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。

上述方案中，所述基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值，包括：

基于任意所述声源在所述麦克风的所述时频估计信号，以及每一个麦克风的原始带噪信号，获得占比值；

对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

上述方案中，所述对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值，包括：

使用单调递增函数对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

上述方案中，若所述声源为N个，其中，N为大于或等于2的自然数；

所述基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号，包括：

基于所述第N个声源在第x个麦克风的掩蔽值，与所述第x个麦克风的原始带噪信号，确定第x数值；其中，所述x小于或等于X的正整数，所述X为所述麦克风的总个数；

基于所述第1数值至所述第X数值，确定所述第N个声源的更新后的时频估计信号。

根据本公开实施例的第二方面，提供一种音频信号处理装置，包括：

检测模块，用于由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号；

第一获得模块，用于对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号；

第一处理模块，用于基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值；

第二处理模块，用于基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号；

第三处理模块，用于基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号。

上述方案中，所述第一获得模块，包括：

第一获得单元，用于基于分离矩阵与当前帧的原始带噪信号，获取当前帧的第一分离信号；其中，所述分离矩阵为所述当前帧的分离矩阵，或者所述当前帧的前一帧的分离矩阵；

第二获得单元，用于组合每一帧的所述第一分离信号，以获得各所述声源的所述时频估计信号。

第一获得单元，用于基于所述单位矩阵及所述第一帧的原始带噪信号，获取所述第一帧的所述第一分离信号。

上述方案中，所述第一获得模块，还包括：

第三获得单元，用于若所述当前帧为第一帧以后的音频帧时，基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。

上述方案中，所述第一处理模块，包括：

第一处理单元，用于基于任意所述声源在所述麦克风的所述时频估计信号，以及每一个麦克风的原始带噪信号，获得占比值；

第二处理单元，用于对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

上述方案中，所述第二处理单元，用于使用单调递增函数对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

所述第二处理模块，包括：

第三处理单元，用于基于所述第N个声源在第x个麦克风的掩蔽值，与所述第x个麦克风的原始带噪信号，确定第x数值；其中，所述x小于或等于X的正整数，所述X 为所述麦克风的总个数；

第四处理单元，用于基于所述第1数值至所述第X数值，确定所述第N个声源的更新后的时频估计信号。

根据本公开实施例的第三方面，提供一种终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：用于执行所述可执行指令时，实现本公开任一实施例所述的音频信号处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述可读存储介质存储有可执行程序，其中，所述可执行程序被处理器执行时实现本公开任一实施例所述的音频信号处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，通过对至少两个麦克风的原始带噪信号进行分离，以获得至少两个声源发出的声音在各所述麦克风的时频估计信号，能够利用不同声源信号间的独立性进行初步分离，从而将原始带噪信号中至少两个声源发出的声音分开，如此，相对于现有技术中，利用多个麦克风的波束形成技术实现对声源信号进行分离来说，无需考虑该些麦克风的位置，从而能够实现更高精准度的声源发出声音的音频信号的分离。

且，本公开实施例中，还能基于所述时频估计信号，获得至少所述两个声源分别在每一个麦克风的掩蔽值，并基于每一个麦克风所述原始带噪信号及所述掩蔽值，获取至少所述两个声源发出的声音的更新后的时频估计信号；如此，本公开实施例还能根据原始带噪信号及由初步分离出的时频估计信号，进一步实现对至少两个声源发出声音的分离；且，由于其掩蔽值是各声源的所述时频估计信号在分别在每一个麦克风的原始带噪信号的占比；如此，能够将初次分离时部分没有分离出的频带恢复到各自对应的声源的音频信号中，从而能减小分离后的音频信号的语音损伤度，能够使得分离出的各声源的音频信号质量更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种音频信号处理方法的流程图。

图2是根据一示例性实施例示出的一种音频信号处理方法的应用场景的框图。

图3是根据一示例性实施例示出的一种音频信号处理方法的流程图。

图4是根据一示例性实施例示出的一种音频信号处理装置的示意图。

图5是根据一示例性实施例示出的一种终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音频信号处理方法的流程图，如图1所示，所述方法包括以下步骤。

步骤S11，由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号；

步骤S12，对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号；

步骤S13，基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值；

步骤S14，基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号；

步骤S15，基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号。

本公开实施例所述的方法应用在终端中。这里，所述终端为集成了两个或两个以上麦克风的电子设备。例如，所述终端可以为车载终端、计算机、或服务器等。在一实施例中，所述终端还可以是：与集成了两个或两个以上麦克风的预定设备连接的电子设备；所述电子设备基于所述连接接收所述预定设备采集的音频信号，且基于所述连接将处理后的音频信号发送给所述预定设备。例如，所述预定设备为音箱等。

在实际应用中，所述终端中包括至少两个麦克风，所述至少两个麦克风同时检测至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号。这里，可以理解的是，本实施例中所述至少两个麦克风对所述两个声源发出的音频信号是同步进行检测的。

在本公开实施例的所述音频信号处理方法在线模式进行，也可以是在离线模式进行的。其中，所述离线模式进行是指，可以是获取音频帧的原始带噪信号及分离音频帧的音频信号可以同时进行。其中，所述离线模式进行是指，需要对预定时间内的音频帧的原始带噪信号获取完之后，才开始对该预定时间内的音频帧的音频信号进行分离。

在本公开实施例中，所述麦克风为2个或2个以上，所述声源为2个或2个以上。

在本公开实施例中，所述原始带噪信号为：包括至少两个声源发出的声音的混合信号。例如，所述麦克风为2个，分别为：麦克风1和麦克风2；所述声源为2个，分别为声源 1和声源2；则所述麦克风1的原始带噪信号为包括声源1和声源2的音频信号；所述麦克风2原始带噪信号同样也是均包括声源1和声源2音频信号。

例如，所述麦克风为3个，分别为麦克风1、麦克风2和麦克风3；所述声源为3个，分别为声源1、声源2和声源3；则所述麦克风1的原始带噪信号为包括声源1、声源2 和声源3的音频信号；所述麦克风2和所述麦克风3的原始带噪信号同样也是均包括声源 1、声源2和声源3的音频信号。

这里，所述音频信号可以为更新后的时频估计信号经过傅里叶逆变换的值。

这里，若所述时频估计信号为经过第一次分离的信号，则所述更新后的时频估计信号为经过第二次分离的信号。

这里，所述掩蔽值是，各声源的所述时频估计信号分别在每一个麦克风的原始带噪信号的占比

可以理解的是，若一个声源发出的声音在一个对应的麦克风中信号为音频信号，则其它声源在所述麦克风中的信号为噪声信号。本公开实施例是需要从至少两个麦克风中恢复至少两个声源发出的声源。

且，若所述音频信号处理方法应用在两个麦克风的终端设备中，相对于现有技术中至少3个以上的多个麦克风的波束形成技术来提高语音质量来说，还大大减少了麦克风的个数，降低了终端的硬件成本。

可以理解的是，在本公开实施例中，一般麦克风的个数是同于声源个数的。若在一些实施例中，麦克风的个数小于所述声源的个数，可以对所述声源的个数进行降维，以降到与所述麦克风个数相等的维度。

在一些实施例中，所述对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号，包括：

可以理解的是，麦克风采集声源发出声音的音频信号时，可以采集至少一帧音频帧的音频信号，此时采集到的音频信号为每一个麦克风的原始带噪信号。

其中，所述获取每个麦克风的每一帧的原始带噪信号，包括：

采集各麦克风的每一帧的时域信号；

将每一帧的时域信号进行频域变换，根据预定频点的频域信号确定每一帧的原始带噪信号。

这里，可以基于快速傅里叶变换(Fast Fourier Transform，FFT)，将时域信号进行频域变换。或者，可以基于短时傅里叶变换(short-time Fourier transform，STFT)，将时域信号进行频域变换。或者，还可以基于其它傅里叶变换，将时域信号进行频域变换。

示例性的，若第p个麦克风在第n帧的时域信号为：

将第n帧的时域信号变变换为频域信号，确定第n帧的原始带噪信号为：

其中，所述m 为第n帧时域信号的离散时间点数量，k为频点。如此，本实施例可以通过所述时域到频域的变化，可以获得每一帧的原始带噪信号。当然，获取每一帧的原始带噪信号也可以基于其它的快速傅里叶变换公式，在此不做限制。

在本公开实施例中，可以获得每一帧的原始带噪信号，再基于所述分离矩阵与当前帧的原始带噪信号，获得当前帧的第一分离信号。这里，基于所述分离矩阵与当前帧的原始带噪信号，获取当前帧的第一分离信号，可以为：基于分离矩阵乘当前帧的原始带噪信号，获得当前帧的第一分离信号。例如，若所述分离矩阵为W(k)，若当前帧的原始带噪信号为X(k,n)；则所述当前帧的第一分离信号为：Y(k,n)＝W(k)X(k,n)。

在一实施例中，若所述分离矩阵为当前帧的分离矩阵，基于当前帧的分离矩阵与当前帧的原始带噪信号，获得当前帧的所述第一分离信号。

在另一实施例中，若所述分离矩阵为当前帧的前一帧的分离矩阵，基于前一帧的分离矩阵与所述当前帧的原始带噪信号，获得当前帧的所述第一分离信号。

在一实施例中，若麦克风采集到的音频信号的帧长为n，其中，n为大于或等于1的自然数，则n＝1时，为第一帧。

在一些实施例中，若所述当前帧为第一帧时，所述第一帧的分离矩阵为单位矩阵；

这里，若所述麦克风的个数为2个，则所述单位矩阵为：

若所述麦克风的个数为3个，则所述单位矩阵为：

依次类推，若所述麦克风的个数为N个，则所述单位矩阵可以为：

其中，所述

为N×N的矩阵。

在另一些实施例中，所述若所述当前帧为第一帧以后的音频帧时，基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。

在一实施例中，一个音频帧可为预设时长的音频段。

示例性的，基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵，具体可以为如下：则可以先根据原始带噪信号以及前一帧协方差矩阵，计算出当前帧的协方差矩阵；再基于当前帧的协方差以及前一帧的分离矩阵计算当前帧的分离矩阵。

其中，若确定n帧为当前帧，n-1为当前帧的前一帧；则可以先根据原始带噪信号以及前一帧协方差矩阵，计算出当前帧的协方差矩阵；其中，所述协方差矩阵为

其中，所述β为平滑系数，所述 V_p(k,n-1)为上一帧的更新协方差，所述

为加权系数，所述X_p(k,n)为当前帧的原始带噪信号，所述

为当前帧的原始带噪信号的共轭转置矩阵；这里，第一帧的协方差为零矩阵。在一实施例中，当获得当前帧的协方差之后，还可求解如下特征问题： V₂(k,n)e_p(k,n)＝λ_p(k,n)V₁(k,n)e_p(k,n)，求得当前帧的分离矩阵为

其中，所述λ_p(k,n)为特征值，所述e_p(k,n)为特征向量。

在上述本实施例中，若根据当前帧的分离矩阵及当前帧的原始带噪信号，获得第一分离信号，由于分离矩阵是经过更新后的当前帧的分离矩阵，能够动态跟踪各声源发出声音在对应麦克风的占比，因而能够获得的第一分离信号更加精准，从而有利于获得更加精确的时频估计信号。若根据当前帧的前一帧的分离矩阵及当前帧的原始带噪信号，获得第一分离信号，能够使得获得第一分离信号的计算更加简单，从而简化了求取所述时频估计信号的计算过程。

在一些实施例中，所述基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值，包括：

基于任意所述声源在所述麦克风的所述时频估计信号，以及每一个麦克风的原始带噪信号的占比，确定为任意所述声源分别在每一个麦克风的掩蔽值。

示例性的，若麦克风为3个，分别为：麦克风1、麦克风2和麦克风3；声源为3个，分别为声源1、声源2和声源3。若所述麦克风1的原始带噪信号为X1，所述声源1、所述声源2及所述声源3的时频估计信号分别为：Y1、Y2、及Y3。则所述声源1在所述麦克风1的掩蔽值为Y1/X1，所述声源2在所述麦克风1的掩蔽值为Y2/X1，所述声源3 在所述麦克风1的掩蔽值为Y3/X1。

基于上述示例，所述掩蔽值还可以为：所述比值经对数函数关系变换后的值。例如，所述声源1在所述麦克风1的掩蔽值为：α×log(Y₁/X₁)，所述声源2在所述麦克风1的掩蔽值为α×log(Y₂/X₁)，所述声源3在所述麦克风1的掩蔽值为α×log(Y₃/X₁)；其中，所述α整数。在一实施例中，所述α为20。在本实施例中，经过对数函数log变换所述比值，能够同步压缩各掩蔽值的动态范围，使得分离出的语音质量更好。

在一实施例中，所述对数函数的log的底数为10或者e。例如，在上述实施例中，所述log(Y₁/X₁)可以为log₁₀(Y₁/X₁)或者log_e(Y₁/X₁)。

在另一实施例中，若所述麦克风为2个，且所述声源为2个，所述基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值，包括：

其中一个声源的时频估计信号与另一个声源的时频估计信号在同一所述麦克风的比值。

示例性的，若麦克风为2个，分别为：麦克风1和麦克风2；声源为2个，分别为：声源1和声源2；所述麦克风1的原始带噪信号为X₁，所述麦克风2的原始带噪信号为 X₂；所述声源1在所述麦克风1中的时频估计信号为Y₁₁，所述声源2在所述麦克风2中的时频估计信号为Y₂₂；则通过计算可获得所述声源2在所述麦克风1中时频估计信号 Y₁₂＝X₁－Y₁₁，获得所述声源1在所述麦克风2中的时频估计信号Y₂₁＝X₂－Y₂₂；则所述声源1在所述麦克风1的掩蔽值基于(Y₁₁/Y₁₂)获得；所述声源1在所述麦克风2的掩蔽值基于(Y₂₁/Y₂₂)获得。

在另一些实施例中，所述基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值，包括：

其中，所述对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值，包括：

例如，按照sigmoid函数关系对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

这里，所述sigmoid函数为一种非线性激活函数；所述sigmoid函数用于将输入函数映射到(0,1)的区间上。在一实施例中，所述sigmoid函数为：

其中，所述x为掩蔽值。在另一实施例中，所述sigmoid函数为：

其中，所述x为掩蔽值，所述a为表征所述sigmoid函数的函数曲线的弯曲程度系数，所述c为表征所述sigmoid函数的函数曲线在x轴的平移系数。

在另一个实施例中，所述单调递增函数可以为：

其中，所述所述x为掩蔽值；所述a₁大于1。

示例性的，若麦克风为2个，分别为：麦克风1和麦克风2；声源为2个，分别为：声源1和声源2；所述麦克风1的原始带噪信号为X₁，所述麦克风2的原始带噪信号为 X₂；所述声源1在所述麦克风1中的时频估计信号为Y₁₁，所述声源2在所述麦克风2中的时频估计信号为Y₂₂；则通过计算可获得所述声源2在所述麦克风1中时频估计信号 Y₁₂＝X₁—Y₁₁。所述声源1在所述麦克风1的掩蔽值可以为：α×log(Y₁₁/Y₁₂)；所述声源1在所述麦克风2的掩蔽值可以为：α×log(Y₂₁/Y₂₂)。或者，将α×log(Y₁₁/Y₁₂)通过非线性激活函数sigmoid映射到(0,1)的区间中，以获得的第一映射值作为所述声源1 在所述麦克风1中的掩蔽值；并计算1减去所述第一映射值，以获得的第二映射值作为所述声源2在所述麦克风1中的掩蔽值；将α×log(Y₂₁/Y₂₂)通过非线性激活函数sigmoid 映射(0,1)的区间中，以获得的第三映射值作为所述声源1在所述麦克风2中的掩蔽值；并计算1减去所述第三映射值，以获得的第四映射值作为所述声源2在所述麦克风2中掩蔽值。

当然，在其它实施例中，也可以通过其它的非线性映射函数关系，任意所述声源在各所述麦克风的掩蔽值映射在其它预定范围区间；例如(0,2)或(0,3)等，只是此时，后续求取所述更新后的时频估计信号时，要除以相应倍数的系数。

在本公开实施例中，可以通过sigmoid函数等非线性映射将所述任意声源在各麦克风的掩蔽值映射到预定范围区间，能够动态压缩一部分实施例中出现的掩蔽值过大情况，简化计算；且还能为后续更新后的时频估计信号求取统一了参考标准，有利于后续获得更加精准的更新后的时频估计信号。尤其的，若将所述预定范围区间限定为(0,1)，若对于仅包括两个麦克风的掩蔽值的计算，能够极大简化另一个声源在同一所述麦克风掩蔽值的计算过程。

当然，在其它实施例中，也可以基于其它方式获取所述掩蔽值，只要满足基于各声源的时频估计信号在同一所述麦克风原始带噪信号的占比获取即可，可以通过对数函数或者非线性映射等方式压缩所述掩蔽值的动态范围，在此不做限制。

在一些实施例中，所述若所述声源为N个，其中，N为大于或等于2的自然数；

示例性的，基于所述第N个声源在第1个麦克风的掩蔽值，与所述第1个麦克风的原始带噪信号，确定第1数值；

基于所述第N个声源在第2个麦克风的掩蔽值，与所述第2个麦克风的原始带噪信号，确定第2数值；

基于所述第N个声源在第3个麦克风的掩蔽值，与所述第3个麦克风的原始带噪信号，确定第3数值；

依次类推；

直到基于所述第N个声源在第X个麦克风的掩蔽值，与所述第X个麦克风的原始带噪信号，确定第X数值；

基于所述第1数值、第2数值、直至所述第X数值，确定所述第N个声源的更新后的时频估计信号。

如此，对于其它声源的更新后的时频估计信号的确定如上述第N个声源的更新后的时频估计信号的确定方式类似。

为了进一步解释上述示例，可用以下计算公式求得所述第N个声源的更新后的时频估计信号： Y_N(k,n)＝X₁(k,n)·mask1N+X₂(k,n)·mask2N+X₃(k,n)·mask3N+…+X_X(k,n)·maskXN；其中，所述Y_N(k,n)为第N个声源的更新后的时频估计信号，其中，所述k为频点，所述 n为音频帧；所述X₁(k,n)、所述X₂(k,n)、所述X₃(k,n)、……、及所述X_X(k,n)分别为第1个麦克风、第2个麦克风、第3个麦克风、……、及所述第X个麦克风的原始带噪信号；所述mask1N、所述mask2N、所述mask3N、……、及所述maskXN分别为第N 个声源分别在第1个麦克风、第2个麦克风、第3个麦克风、……、及所述第X个麦克风的掩蔽值。

在本公开实施例中，基于掩蔽值及原始带噪信号，可实现对各所述声源发出的声音进行音频信号的再次分离，由于其掩蔽值是基于对音频信号的进行初次分离的时频估计信号以及时频估计信号在原始带噪信号的比值确定的，因而能够初次分离时未分离出的频带信号进行再次分离，恢复到对应的各声源音频信号中。如此，能够减少音频信号的语音损伤度，从而能够增强语语音，提高各声源的音频信号的质量。

在一些实施例中，所述基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号，包括：

对至少两个声源各自的更新后的时频估计信号进行时域变换，以获得所述至少两个声源各自发出的音频信号。

这里，可以基于快速傅里叶逆变换(Inverse Fast Fourier Transform，IFFT)，将更新后的频域估计信号进行时域变换。或者，可以基于短时傅里叶逆变换(Inverse short-time Fourier transform，ISTFT)，将更新后的频域估计信号变成时域信号。或者，还可以基于其它傅里叶逆变换，将更新后的频域频域信号进行时域变换。

为了有助于理解本公开的上述实施例，在此以下面示例为例进行说明。如图2所示，公开了一种音频信号处理方法的应用场景；其中，所述终端包括音箱A，所述音箱A中包括两个麦克风，分别麦克风1和麦克风2；所述声源为2个，分别为声源1和声源2。声源1和声源2发出的信号均会被麦克风1和麦克风2采集到。在每个麦克风中两个声源信号都混叠在一起。

图3是根据一示例性实施例示出的一种音频信号处理方法的流程图；其中，所述音频信号处理方法中，如图2所示，声源包括声源1和声源2，麦克风包括麦克风1和麦克风 2。基于所述音频信号处理方法，从麦克风1和麦克风2的原始带噪信号中恢复出声源1 和声源2的音频信号。如图3所示，所述方法包括以下步骤：

若系统帧长为Nfft，则频点K＝Nfft/2+1。

步骤S301：初始化W(k)和V_p(k)；

其中，初始化包括以下步骤：

1)初始化各个频点的分离矩阵；

其中，所述

为单位矩阵；所述k为频点；所述k＝1,…,K。

2)初始化各声源在各个频点的加权协方差矩阵V_p(k)。

其中，

为零矩阵；其中，所述p用于表示麦克风；p＝1,2。

步骤S302：获得第p个麦克风在第n帧的原始带噪信号；

对

加窗进行Nfft点得到对应的频域信号：

其中，所述m为傅里叶变换所选取的点数；其中，所述STFT为短时傅里叶变换；所述

为第 p个麦克风第n帧的时域信号；这里，所述时域信号为原始带噪信号。

则所述X_P(k,n)的观测信号为：X(k,n)＝[X₁(k,n),X₂(k,n)]^T；其中， [X₁(k,n),X₂(k,n)]^T为转置矩阵。

步骤S303：利用上一帧的W(k)获得两个声源信号的先验频域估计；

令两个声源信号的先验频域估计Y(k,n)＝[Y₁(k,n),Y₂(k,n)]^T，其中Y₁(k,n),Y₂(k,n) 分别为声源1和声源2在时频点(k,n)处的估计值。

通过分离矩阵W(k)对观测矩阵X(k,n)进行分离得到：Y(k,n)＝W(k)'X(k,n)；其中，W'(k)为上一帧(即当前帧的前一帧)的分离矩阵。

则第p个声源在第n帧的先验频域估计为：

步骤S304：更新加权协方差矩阵V_p(k,n)；

计算更新的加权协方差矩阵：

其中，所述β为平滑系数。在一实施例中，所述β为0.98；其中，所述V_p(k,n-1)为上一帧的加权协方差矩阵；所述

为X_p(k,n)的共轭转置；所述

为加权系数，其中，所述

为辅助变量；所述

为对比函数。

其中，所述

代表了第p个声源的基于整个频带的多维超高斯先验概率密度函数。在一实施例中，

此时，若所述

则所述

步骤S305：解特征问题，以求得特征向量e_p(k,n)；

这里，所述e_p(k,n)为第p个麦克风对应的特征向量。

其中，求所述特征问题：V₂(k,n)e_p(k,n)＝λ_p(k,n)V₁(k,n)e_p(k,n)，得到，

其中，

步骤S306：获得各个频点的更新后的分离矩阵的W(k)；

基于上述特征问题的特征向量，求得更新后的当前帧的分离矩阵

步骤S307：利用当前帧的W(k)获得两个声源信号的后验频域估计；

利用当前帧的W(k)对原始带噪信号进行分离得到两个声源信号的后验频域估计Y(k,n)＝[Y₁(k,n),Y₂(k,n)]^T＝W(k)X(k,n)。

可以理解的是，后续步骤的计算可以用先验频域估计或者后验频率估计进行计算，其中，利用先验频域估计是可以简化计算过程，利用后验频域估计是可以获得更准确的各声源的音频信号。这里，上述步骤S301-S307的过程可认为对声源信号进行的第一次分离，其中，所述先验频域估计或者后验频率估计可认为是上述实施例中的时频估计信号。

可以理解的是，本公开实施例中，为了进一步降低语音损伤，可以对分离后的音频信号基于掩蔽值进行再次分离，得到再次分离的音频信号。

步骤S308，获取各声源信号在各麦克风的原始带噪信号中的成分；

由上述步骤，可获得声源1在麦克风1的原始带噪信号X₁(k,n)的成分为：Y₁(k,n)；

获得声源2在麦克风2的原始带噪信号X₂(k,n)的成分为：Y₂(k,n)；

则所述声源2在麦克风1的原始带噪信号X₁(k,n)的成分为：Y₂'(k,n)＝X₁(k,n)-Y₁(k,n)

所述声源1在麦克风2的原始带噪信号X₂(k,n)中的成分为： Y₁'(k,n)＝X₂(k,n)-Y₂(k,n)。

步骤S309：获取各声源信号在各麦克风的原始带噪信号的掩蔽值，以及对所述掩蔽值进行非线性映射；

获得声源1在mic1的原始带噪信号中的掩蔽值为： mask11(k,n)＝20*log10(abs(Y₁(k,n))/abs(Y₂'(k,n)))

对所述声源1在mic1的原始带噪信号中的掩蔽值进行非线性映射，为： mask11(k,n)＝sigmoid(mask11(k,n)，0，0.1)；

则所述声源2在mic1的掩蔽值为：mask12(k,n)＝1-mask11(k,n)

获得所述声源1在mic2的原始带噪信号中的掩蔽值为： mask21(k,n)＝20*log10(abs(Y₁'(k,n))/abs(Y₂(k,n)))；

对所述声源1在mic2的原始带噪信号中的掩蔽值进行非线性映射，为： mask21(k,n)＝sigmoid(mask21(k,n)，0，0.1)；

则声源2在mic2的原始带噪信号中掩蔽值为：mask22(k,n)＝1-mask21(k,n)；

其中，所述

在本实施例中，所述a＝0，所述c为0.1；其中，所述x为掩蔽值，所述a为表征所述sigmoid函数的函数曲线的弯曲程度系数，所述 c为表征所述sigmoid函数的函数曲线在x轴的平移系数。

步骤S310：基于掩蔽值获取更新后的时频估计信号；

基于各声源在各麦克风的掩蔽值及各麦克风的原始带噪信号，可获取各声源的更新后的时频估计信号：

Y₁(k,n)＝(X₁(k,n)*mask11+X₂(k,n)*mask21)/2，其中，所述Y₁(k,n)为声源1的更新后的时频估计信号；

Y₂(k,n)＝(X₁(k,n)*mask12+X₂(k,n)*mask22)/2，其中，所述Y₂(k,n)为声源2的更新后的时频估计信号。

步骤S311，通过傅里叶逆变换对更新后的时频估计信号进行时域变换。

分别对

进行ISTFT和重叠相加得到估计的时域的音频信号：

本公开实施例中，通过对两个麦克风的原始带噪信号进行分离，以获得两个声源发出的声音在各所述麦克风的时频估计信号，能够初步分离出原始带噪信号中两个声源发出的声音在各麦克分的时频估计信号，还能基于所述时频估计信号，获得所述两个声源分别在两个所述麦克风的掩蔽值，并基于所述原始带噪信号及所述掩蔽值，获取所述两个声源发出的声音的更新后的时频估计信号。如此，本公开实施例还能根据原始带噪信号及由初步分离出的时频估计信号，进一步实现对两个声源发出声音的分离；且，由于其掩蔽值是各声源的所述时频估计信号分别在每一个麦克风的原始带噪信号的占比；如此，能够将初次分离时部分没有分离出的频带恢复到各自对应的声源的音频信号中，从而能减小分离后的音频信号的语音损伤度，能够使得分离出的各声源的音频信号质量更高。

且本公开实施例中，仅用了两个麦克风；如此，相对于现有技术中；利用三个或更加多麦克风的波束形成技术实现对声源分离来说，一方面大大减少了麦克风的个数，降低了终端的硬件成本；另一方面无需考虑多麦克风的位置，从而能够实现更高精准度的声源发出声音的音频信号的分离。

图4是根据一示例性示出的一种音频信号处理装置的框图。参照图4，该装置包括：检测模块41、第一获得模块42、第一处理模块43、第二处理模块44及第三处理模块45；其中，

所述检测模块41，用于由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自的原始带噪信号；

所述第一获得模块42，用于对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号；

所述第一处理模块43，用于基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值；

所述第二处理模块44，用于基于所述至少两个麦克风各自的原始带噪信号及所述掩蔽值，更新所述至少两个声源各自的时频估计信号；

所述第三处理模块45，用于基于所述至少两个声源各自的更新后的时频估计信号，确定所述至少两个声源各自发出的音频信号。

在一些实施例中，所述第一获得模块42，包括：

所述第一获得单元421，用于基于分离矩阵与当前帧的原始带噪信号，获取当前帧的第一分离信号；其中，所述分离矩阵为所述当前帧的分离矩阵，或者所述当前帧的前一帧的分离矩阵；

所述第二获得单元422，用于组合每一帧的所述第一分离信号，以获得各所述声源的所述时频估计信号。

在一些是实施例中，当所述当前帧为第一帧时，所述第一帧的分离矩阵为单位矩阵；

所述第一获得单元421，用于基于所述单位矩阵及所述第一帧的原始带噪信号，获取所述第一帧的所述第一分离信号。

在一些实施例中，所述第一获得模块41，还包括：

第三获得单元423，用于若所述当前帧为第一帧以后的音频帧时，基于所述当前帧的前一帧的分离矩阵及当前帧的原始带噪信号确定所述当前帧的分离矩阵。

在一些实施例中，所述第一处理模块43，包括：

第一处理单元431，用于基于任意所述声源在所述麦克风的所述时频估计信号，以及每一个麦克风的原始带噪信号，获得占比值；

第二处理单元432，用于对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

在一些实施例中，所述第二处理单元432，用于使用单调递增函数对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

在一些实施例中，若所述声源为N个，其中，N为大于或等于2的自然数；

所述第二处理模块44，包括：

第三处理单元441，用于基于所述第N个声源在第x个麦克风的掩蔽值，与所述第x个麦克风的原始带噪信号，确定第x数值；其中，所述x小于或等于X的正整数，所述 X为所述麦克风的总个数；

第四处理单元442，用于基于所述第1数值至所述第X数值，确定所述第N个声源的更新后的时频估计信号。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开的实施例还提供了一种终端，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：用于执行可执行指令时，实现本公开任意实施例所述的音频信号处理方法。

所述存储器可包括各种类型的存储介质，该存储介质为非临时性计算机存储介质，在通信设备掉电之后能够继续记忆存储其上的信息。

所述处理器可以通过总线等与存储器连接，用于读取存储器上存储的可执行程序，例如，实现如图1或图3所示的方法的至少其中之一。

本公开的实施例还提供了一种计算机可读存储介质，所述可读存储介质存储有可执行程序，其中，所述可执行程序被处理器执行时实现本公开任意实施例所述的音频信号处理方法。例如，实现如图1或图3所示的方法的至少其中之一。

图5是根据一示例性实施例示出的一种用于终端800的框图。例如，终端800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，终端800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件 814，以及通信组件816。

处理组件802通常控制终端800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在终端800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为终端800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为终端800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述终端800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当终端800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为终端800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为终端800的显示器和小键盘，传感器组件814还可以检测终端800或终端800 一个组件的位置改变，用户与终端800接触的存在或不存在，终端800方位或加速/减速和终端800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD 图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于终端800和其他设备之间有线或无线方式的通信。终端800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA) 技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由终端800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述至少两个麦克风各自的原始带噪信号进行声源分离，以获得所述至少两个声源各自的时频估计信号，包括：

3.根据权利要求2所述的方法，其特征在于，当所述当前帧为第一帧时，所述第一帧的分离矩阵为单位矩阵；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述至少两个声源各自的时频估计信号，确定每一个声源的时频估计信号分别在每一个麦克风的原始带噪信号中的掩蔽值，包括：

基于任意所述声源在所述时频估计信号，以及每一个麦克风的原始带噪信号，获得占比值；

6.根据权利要求5所述的方法，其特征在于，所述对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值，包括：

7.根据权利要求1至4任一项所述的方法，其特征在于，若所述声源为N个，其中，N为大于或等于2的自然数；

基于所述第1数值至所述第X数值，确定所述第N个声源更新后的时频估计信号。

8.一种音频信号处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一获得模块，包括：

10.根据权利要求9所述的装置，其特征在于，当所述当前帧为第一帧时，所述第一帧的分离矩阵为单位矩阵；

11.根据权利要求9所述的装置，其特征在于，所述第一获得模块，还包括：

12.根据权利要求8至11任一项所述的装置，其特征在于，所述第一处理模块，包括：

13.根据权利要求12所述的装置，其特征在于，所述第二处理单元，用于使用单调递增函数对所述占比值进行非线性映射，获得任意所述声源分别在每一个麦克风的掩蔽值。

14.根据权利要求8至11任一项所述的装置，其特征在于，若所述声源为N个，其中，N为大于或等于2的自然数；

所述第二处理模块，包括：

第三处理单元，用于基于所述第N个声源在第x个麦克风的掩蔽值，与所述第x个麦克风的原始带噪信号，确定第x数值；其中，所述x小于或等于X的正整数，所述X为所述麦克风的总个数；

15.一种终端，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：用于执行所述可执行指令时，实现权利要求1-7任一项所述的音频信号处理方法。

16.一种计算机可读存储介质，其特征在于，所述可读存储介质存储有可执行程序，其中，所述可执行程序被处理器执行时实现权利要求1-7任一项所述的音频信号处理方法。