CN114220453B

CN114220453B - 基于频域卷积传递函数的多通道非负矩阵分解方法及系统

Info

Publication number: CN114220453B
Application number: CN202210031383.3A
Authority: CN
Inventors: 王泰辉
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-08-16
Anticipated expiration: 2042-01-12
Also published as: CN114220453A

Abstract

本发明属于盲源分离技术领域，具体地说，涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统，该方法包括：对传声器阵列每一个通道采集的时域观测信号进行分帧并做短时傅里叶变换，得到时频域的观测信号；基于非负矩阵分解声源模型，估计出每一个声源的功率谱密度；基于频域卷积传递函数空间模型，估计出每一个声源的每一阶解混滤波器；利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器，并对时频域的观测信号进行滤波得到时频域的分离信号；将时频域的分离信号进行短时傅里叶逆变换、合成得到时域的分离信号。

Description

基于频域卷积传递函数的多通道非负矩阵分解方法及系统

技术领域

本发明属于盲源分离(Blind source separation,BSS)技术领域，具体地说，涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统。

背景技术

盲源分离是在没有声源和声源到麦克风之间的传递函数等先验信息的情况下，仅利用麦克风的接收信号来估计各个声源信号的方法。音频盲源分离在自动语音识别、自动音乐转录和噪声环境下的目标说话人提取等领域具有重要的应用。

在生物医学信号或图像处理等领域，观测信号是时域的瞬时混合模型。但是，在音频信号处理的应用领域中，由于房间内早期反射声和后期混响的存在，观测信号符合时域的卷积混合模型，这比时域的瞬时混合模型更加难处理。有些研究工作，直接利用时域卷积模型来处理盲音频分离问题。但是这些工作的复杂度较高，且很难处理具有较长混响时间的混合信号。

目前，广泛采用的解决思路是利用短时傅里叶变换将时域的卷积混合模型转换为频域瞬时混合模型，这种转换依赖于窄带假设。需要强调的是窄带假设成立的条件是短时傅里叶变换的窗长要充分长于混响时间。大多数的多通道盲源分离方法需要一个空间模型和一个声源模型，其中空间模型来编码声源到麦克风之间的传递函数，声源模型来编码每个声源的功率谱密度。在窄带假设的前提下，可以证明空间模型是一个秩为一的空间协方差矩阵。独立成分分析(Independent component analysis,ICA)、独立向量分析(Independent vector analysis,IVA)和独立低秩矩阵分析(Independent low-rankmatrix analysis,ILRMA)都是基于秩一空间模型得到的，不同的是这些方法采用了不同的声源模型。ICA假设每个频点独立地服从单位方差的超高斯分布。但在ICA中，每个频点是单独分离的，这导致了乱序问题，需要增加排序算法作为后处理来解决序列对齐问题。IVA假设每个声源的所有频点符合多维超高斯分布，这样解决了ICA存在的排序问题。但是，IVA采用的声源模型不够灵活，没有充分利用声源的功率谱特征。ILRMA假设每个时频点服从零均值的复高斯分布，并且采用一个低秩的声源模型来建模声源的功率谱，同样也避免了排序问题。ILRMA采用的声源模型比IVA的更加强大，因而更能够描述功率谱密度的丰富细节，在音乐分离任务重取得了比IVA更好的分离性能。

很多声学场景的混响时间较长，例如，有些没有做吸声处理的会议室混响时间可达到800～1000毫秒。在这种场景下，短时傅里叶变换的窗长可能小于混响时间，窄带模型不再成立，导致现有盲源分离算法性能下降。另外，当总的数据长度一定时，增长短时傅里叶变换的窗长，使得实际可用计算统计量的数据帧变短，这也降低盲源分离算法的性能。为了解决这个问题，有学者将空间协方差矩阵设置为满秩这一更为普遍的模型，它在强混响环境下取得较好的性能。满秩协方差矩阵分析(Full rank covariance matrix analysis,FCA)算法，多通道非负矩阵分解(Multichannel nonnegative matrix factorization,MNMF)，快速MNMF(Fast-MNMF)都是基于满秩空间协方差矩阵模型开发的。但是，FCA和快速MNMF都采用了无约束的满秩空间协方差矩阵模型，它们需要优化大量的参数，因而算法复杂度高且对初始值敏感。Fast-MNMF作为一种计算高效的MNMF算法，它假设每个频点所有声源的空间协方差矩阵是满秩并且可以联合对角化的。得益于联合对角化的操作，Fast-MNMF的代价函数可以利用迭代投影算法进行优化，因而获得了比Fast-MNMF更好的收敛性能。但是，多于两个非负定厄密特矩阵的精确联合对角化不存在，因而Fast-MNMF在分离多于两个声源时性能下降。

发明内容

为解决现有技术存在的上述缺陷，本发明提出了一种基于频域卷积传递函数的多通道非负矩阵分解方法，该方法能够在强混响环境下取得良好的分离性能。该方法包括：

对传声器阵列每一个通道采集的时域观测信号做短时傅里叶变换，得到时频域的观测信号；

基于非负矩阵分解声源模型，估计出每一个声源的功率谱密度；

基于频域卷积传递函数空间模型，估计出每一个声源的每一阶解混滤波器；

利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器，并对时频域的观测信号进行滤波得到时频域的分离信号；

将时频域的分离信号进行傅里叶逆变换并合成得到时域的分离信号。

本发明还提供了一种基于频域卷积传递函数的多通道非负矩阵分解系统，该系统包括：

短时傅里叶变换模块，用于对传声器阵列每一个通道采集的时域观测信号进行分帧、加窗和傅里叶变换，得到时频域的观测信号；

声源方差估计模块，用于基于非负矩阵分解声源模型，估计出每一个声源的功率谱密度；

解混矩阵估计模块，用于基于频域卷积传递函数空间模型，估计出每一个声源的每一阶解混滤波器；

维纳滤波模块，用于利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器，并对时频域的观测信号进行滤波得到时频域的分离信号；

以及，短时傅里叶逆变换模块，用于将时频域的分离信号进行傅里叶逆变换、加窗和合成，得到时域的分离信号。

本发明与现有技术相比的有益效果是：

1、本发明的方法采用基于频域卷积传递函数空间模型的解混矩阵来分离信号，可以允许使用较短的短时傅里叶变换窗长。而较短的短时傅里叶变换窗长可以捕捉语音的时变特性，并增加了时频点的统计数量，从而提高分离语音的语音质量；

2、本发明的方法采用的基于卷积传递函数空间模型的解混矩阵对于长混响时间的混合信号是有效的，在分离具有强混响的混合信号时，能够在使用短窗长的情况下依然取得良好的分离性能；

3、采用本发明的方法利用非负矩阵分解进行声源谱的建模，可以利用声源的谱特征，进一步地提高估计声源功率谱密度的准确度，进一步地从而提高盲源分离的分离性能。

附图说明

图1是本发明的一种基于频域卷积传递函数的多通道非负矩阵分解方法的方法原理图；

图2是一段音乐信号功率谱的非负矩阵分解示意图；

图3是本发明的一种基于频域卷积传递函数的多通道非负矩阵分解方法的方法流程图。

具体实施方式

现结合附图和实例对本发明作进一步的描述。

如图1所示，展示了传声器阵列捕获声源的混合过程和盲源分离算法分解混合信号的解混过程。解混过程可以看做是混合过程的逆过程。在混合过程中，声源的直达声波和经过房间墙面反射的声波同时被传声器记录。房间墙壁或者房间中其他物体发射到达传声器的反射信号就是我们平时所说的混响信号，混响信号对于盲源分离算法的性能有较大的影响。在解混过程中，盲源分离算法仅利用传声器阵列记录的信号恢复出每一个声源的信息。传统的基于窄带假设的盲源分离算法能够在混响时间较短时解混出源信号，但是当混响时间较长的混合信号分离性能下降。原因是窄带假设在混响时间较长时不再成立。本发明提出的基于卷积传递函数的解混过程能够有效地分离源信号，即使在混合信号的混响时间较长的情况下。

本发明提供了一种基于频域卷积传递函数的多通道非负矩阵分解方法，该方法适用于强混响环境下的音频盲源分离任务，以及能够在强混响环境下取得良好的分离性能；该方法包括：

对传声器阵列每一个通道采集的时域观测信号进行短时傅里叶变换，得到时频域的观测信号；

基于频域卷积传递函数空间模型，估计出每一个声源的每一阶解混滤波器，得到每一个声源的解混矩阵；

将时频域的分离信号进行短时傅里叶逆变换并合成得到时域的分离信号。

该方法具体包括：

步骤1)对传声器阵列的第m通道采集的时域观测信号x_m(j)进行短时傅里叶变换，得到时频域的观测信号x_m,ft；传声器阵列包括多个传声器；每个通道对应一个传声器；1≤m≤M，M为传声器阵列中的传声器数量；t为时间索引；1≤t≤T，T表示样本在时频域的总帧数；f为频率索引，1≤f≤F，F为傅里叶变换点数；

短时傅里叶变换的窗长对于频域盲源分离方法有非常大的影响。传统的基于窄带假设的盲源分离方法要求短时傅里叶变换的窗长远大于混响时间。因此，随着混响时间的增加，窗长也需要变长。然而，过长的窗长会降低短时傅里叶变换在时间维度上的精度，导致该方法对于语音这一时变信号的分离性能下降。此外，当数据长度一定时，过长的窗长会使得短时傅里叶变换获得的数据的时间帧数量减小，这会使得该方法对于统计参数的估计不准确。与基于窄带假设的盲源分离方法不同，本发明提出的方法通过采用基于卷积传递函数的解混矩阵分离长混响时间的混合信号，不需要限制短时傅里叶变换的窗长大于混响时间。在本发明的方法中，短时傅里叶变换的窗长一般小于混响时间。在本实施例中，针对短混响时间(小于300ms)，可以选用64ms的窗长。针对中等混响时间(300ms-700ms)，可以选用128ms的窗长。针对长混响时间(大于700ms)，可以选用256ms的窗长。

步骤2)基于非负矩阵分解声源模型，估计出每一个声源n在每一个时频点(f,t)的功率谱密度λ_n,f,t，1≤n≤N，其中N为声源数目，N≤M；

具体地，步骤201)根据解混矩阵和观测信号计算所有声源每一个时频点的能量

其中w_n,f,0为步骤3)估计出的第n个声源的第l阶解混滤波器，x_ft＝[x_1,ft…x_M,ft]^T。如果是首次执行步骤2)，则利用初始化的解混滤波器进行计算时频点的能量。

w_n,f,0被初始化为第L₀+…+L_n-1+1个元素为1，其他M-1个元素都是0的列向量，且L₀＝0。然后采用步骤202)更新声源的功率谱密度。

步骤202)在每一个时频点，利用基矩阵T_n的元素t_n,fk和激活矩阵V_n的元素v_n,k,t，根据下述的非负矩阵分解声源模型，计算第n个声源的时频点在每一个时频点(f,t)的功率谱密度，计算公式如下

其中K为预先设置好的基向量个数。如果是首次执行该步骤，则需要对基矩阵T_n和激活矩阵V_n进行初始化。初始化方法为利用均匀分布分别对基矩阵和激活矩阵的每一个匀速进行随机初始化。

基向量K的设置是非常重要的，会影响声源功率谱密度估计的准确性。如果基向量个数被设置的比较小，那么非负矩阵分解对于声源的功率谱密度的建模误差会比较大，造成非负矩阵分解模型对于功率谱密度的估计不够准确。如果基向量个数被设置得比较大，那么非负矩阵模型的参数量会比较大，导致优化算法会收敛到局部最优点，进而造成模型对于功率谱密度的估计不够准确。一般来讲，基向量个数满足0＜K＜＜T。作为一种参考，对于语音信号本实施列选取K＝2；对于音乐信号，可以选取K＝30。

然后按照如下规则更新基矩阵

然后按照上述非负矩阵分解模型(即公式(1))更新声源的功率谱密度。接着按照如下公式更新激活矩阵

可以发现，基矩阵和激活矩阵更新公式的所有参数都是非负的。因此，基矩阵和激活矩阵按照上式更新之后仍然是非负的。

为了进一步地说明本发明的方法中的所述步骤2)利用非负矩阵分解估计声源功率谱密度的特点。传统的一些方法直接对声源的功率谱密度进行估计，比如基于独立成分分析的盲分离方法，但是本发明采用所述的基于非负矩阵分解的方法对功率谱密度进行估计的思路有三个优点：

第一，采用依赖于声源的基矩阵和激活矩阵来建模不同的声源，该方法可以避免盲分离中经典的排序问题，减小计算量。

第二，非负矩阵分解降低了声源的功率谱密度的参数量，使得优化更不容易收敛到局部最优点。

第三，非负矩阵分解中的基矩阵能够提取声源的谱结构特征，使得所述方法对于语音和音乐这类具有明显谐波结构信号的功率谱密度的估计更加准确。

图2为一段音乐信号的非负矩阵分解示意图。201为这段音乐信号的功率谱，横轴为时间帧，纵轴为频率。利用非负矩阵分解将功率谱分解为基矩阵202和激活矩阵203。201所示的音乐信号包含两个声源的时频谱，并且两个声源的时频谱特征是不一样。两个声源时频谱的不同表现为含有不同的谐波成分。而经过非负矩阵分解分解得到的混合信号的如202所示的基矩阵，包含了两个含有不同谐波频率的基向量。事实上，这两个基向量即表征了两个信号的谐波特征。而激活矩阵203为对应基向量的时间激活序列，表明了基向量在每一个时刻被激活的权重。

步骤3)基于频域卷积传递函数空间模型，估计每一个频带内，每一个声源n的每一阶解混滤波器w_n,f,l，其中0≤l≤L_n-1，L_n为第n个声源的卷积传递函数滤波器长度；

具体地，步骤301)根据估计的第n个声源的功率谱密度λ_n,f,t，对观测信号x_ft的协方差矩阵进行加权求和再平均，得到加权协方差矩阵Q_nl,f；

其中

为x_ft的共轭转置；

步骤302)根据步骤301)得到的加权协方差矩阵来更新第n个声源的第l阶的解混滤波器w_n,f,l；

其中

是列向量，除了第(L₀+…+L_n-1)+l个元素为1之外，其他剩余的元素都是0；W_f为所有声源的所有阶解混滤波器组成的解混矩阵，其具体形式为

然后，按照下式对第n个声源的第l阶的解混滤波器的幅度进行校正和更新；

步骤303)在更新完w_n,f,l之后，更新W_f；具体地，将W_f的第(L₀+…+L_n-1)+l行的元素替换为

步骤304)对于每一个声源n的每一阶l解混滤波器w_n,f,l重复上述的步骤301)和步骤302)，直到更新完整个解混矩阵W_f。

为了进一步地说明步骤3)所述的解混滤波器的特点。在其他的传统的盲分离方法中，如独立成分分析、独立向量分析、独立低秩矩阵分析等，每一个声源在每一个频带内的解混滤波器为一个列向量。而在本发明所述的方法中，每一个声源在每个频带内的解混滤波器为L_n个列向量组成的矩阵。因此，通过本发明所述的解混滤波器乘上混合信号会得到L_n个信号，即

其中第一个信号为直达信号，之后的为带混响的信号。也就是说，本发明所述的多阶解混滤波器能够分段地解混长混响时间的混合信号。因此，当步骤1)所述的短时傅里叶变换的窗长短于混响时间时，本发明所述的方法也能够取得良好的分离性能。而传统方法则从理论上要求短时傅里叶变换的窗长远大于混响时间。

此外，解混滤波器阶数L_n的选取需要满足条件

也就是说，所有声源的解混滤波器阶数之和等于传声器的数量。此外，解混滤波器阶数的大小会影响分离性能，为了使得每一个声源的分离性能相似，本发明尽可能地将所有声源的解混滤波器阶数设置得相近。举例来说，如果用6个传声器分离2个声源，设L₁＝3，L₂＝3；如果用7个传声器分离2个声源，则设L₁＝4，L₂＝3或者L₁＝3，L₂＝4。

步骤4)循环迭代步骤2)和步骤3)，对声源方差和解混矩阵进行估计，直到达到预先设置的迭代次数，获得每一个声源n的功率谱密度和解混滤波器；迭代次数的设置会影响所述方法最终的性能。在本实施例中，示例性地将迭代次数设置为150。

其中，本发明中的每一个声源的功率谱密度是采用迭代相乘算法估计得到的。

本发明中的每一个声源的解混矩阵是采用迭代投影算法计算得到的。

步骤5)利用获得的所有功率谱密度和所有声源的所有阶解混滤波器构造均方误差准则下的维纳滤波器，并利用该维纳滤波器对观测信号x_ft进行滤波得到每一个声源的时频域分离信号y_n,ft，n＝1,…,N；其中x_ft＝[x_1f,t…x_M]^T，y_n,ft＝[y_n1,ft,…,y_nM,ft]^T；

具体地，步骤501)对步骤3)得到的更新后的解混矩阵在每一个频带内进行求逆操作，得到解混矩阵的逆矩阵H_f；

H_f的具体形式为

其中h_n,f,l是矩阵

的第(L₀+…+L_n-1)+l列；

步骤502)根据步骤501)得到的解混矩阵的逆矩阵和步骤2)得到的第n个声源的功率谱密度，构造第n个声源的维纳滤波器

其中

Λ_n,f,t＝diag([λ_n,f,t,…,λ_n,f,t-L+1])；Λ_f,t＝blkdiag(Λ_1,f,t,Λ_2,f,t,…,Λ_N,f,t)，并且blkdiag(·)是对角化运算符；

为H_n,f的共轭转置；

为H_f的共轭转置；

步骤503)根据步骤502)得到的维纳滤波器和步骤1)提供的时频域观测信号组成的观测信号x_ft，得到第n个声源的分离信号y_n,ft；

其中y_n,ft＝[y_n1,ft,…,y_nM,ft]^T，y_nm,ft表示从第m个传声器中估计出的第n个声源的镜像。

步骤504)针对每一个声源，重复上述步骤502)和步骤503)，直到计算出所有声源的分离信号；

步骤6)任意选取一个通道序号

对每一个声源的分离信号y_n,ft中的通道

对应的时频域分离信号

进行短时傅里叶逆变换，然后得到第n个声源的时域分离信号

进一步地解释为什么要选取一个通道序号

对步骤5)得到的y_n1,ft，f＝1,…,F，t＝1,…,T，进行短时傅里叶逆变换，可以得到第1个传声器接收到的第n个声源的时域信号。同样地，对步骤5)得到的y_n2,ft，f＝1,…,F，t＝1,…,T，进行短时傅里叶逆变换，可以得到第2个传声器接收到的第n个声源的时域信号。以此类推，我们可以得到所有传声器接收到的声源的时域信号。这样计算得到的声源的时域信号是冗余的，并且带来较大的计算量。因此，我们可以任意选取一个传声器序号

只计算该传声器接收到的声源的时域信号，并作为算法分离的时域声源信号输出。

进一步地解释本发明提出的基于卷积传递函数的多通道非负矩阵分解方法能够分离强混响环境下混合信号的原因。而传统的方法大多采用窄带假设建立盲源分离的混合过程。针对传统方法中的混合过程，解混过程中每一个声源的解混滤波器为一个列向量。这种解混滤波器在混响时间较短时，能够取得较好的分离性能。

但是，在传统的方法中，当混响时间变长时，单个列向量的解混滤波器不再能够从长混响信号中解出分离信号。因此，长混响时间会严重降低传统盲分离方法的性能。而本发明所述的基于卷积传递函数的解混过程针对长混响时间的房间脉冲响应，对每一个声源采用L_n个解混滤波器，这样能够从较长混响时间的混合信号中分段地解出源信号。频域卷积传递函数允许我们使用短窗长表示长混响时间的房间脉冲响应。因此，提出的基于频域卷积传递函数的多通道非负矩阵分解方法能够在强混响环境下取得良好的分离性能。

图3为本发明的基于卷积传递函数的多通道非负矩阵分解盲源分离方法的系统框图。短时傅里叶变换(short-time Fourier transform,STFT)模块301表示对每一个通道传声器接收到的时域信号进行短时傅里叶变换，输出时频域的观测信号。声源方差估计模块302表示对声源的方差进行估计。解混矩阵估计模块303表示对声源的解混滤波器进行估计。维纳滤波模块304利用维纳滤波器对观测信号进行滤波，输出时频域的估计信号。短时傅里叶逆变换(Inverse short-time Fourier transform,ISTFT)模块305对估计的时频域分离信号进行逆变换输出时域的估计信号。更加详细地，本发明提出的音频盲源分离方法按照以下步骤进行实施。

如图3所示，本发明还提供了一种基于频域卷积传递函数的多通道非负矩阵分解系统，该系统包括：

短时傅里叶变换(short-time Fourier transform,STFT)模块301，用于对传声器阵列每一个通道采集的时域观测信号进行分帧、加窗和傅里叶变换，得到时频域的观测信号；

声源方差估计模块302，用于基于非负矩阵分解声源模型，估计出每一个声源的功率谱密度；

解混矩阵估计模块303，用于基于频域卷积传递函数空间模型，估计出每一个声源的每一阶解混滤波器，得到每一个声源的解混矩阵；

维纳滤波模块304，用于利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器，并对时频域的观测信号进行滤波得到时频域的分离信号；和

短时傅里叶逆变换(Inverse short-time Fourier transform,ISTFT)模块305，用于将时频域的分离信号进行傅里叶逆变换、加窗和合成，得到时域的分离信号。

以上充分表明了本发明在长混响环境下提供了一种有效的音频盲分离技术。应该指出的是，本发明所提出的盲分离方法及系统可以通过多种方式完成实施，比如软件、硬件或者是硬件和软件的组合。硬件平台可以是中央处理器(Central processing unit，CPU)，现场可编程逻辑门阵列(Field programmable gate array，FPGA)、可编程逻辑器件(Programmable logic device，PLD)或其他专用集成电路(Application specificintegrated circuit，ASIC)。软件平台包括数字信号处理器(Digital signalprocessing，DSP)、ARM或其他微处理器。软件和硬件的组合例如部分模块用DSP软件来实现，部分模块用硬件加速器来实现。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于频域卷积传递函数的多通道非负矩阵分解方法，该方法包括：

2.根据权利要求1所述的基于频域卷积传递函数的多通道非负矩阵分解方法，其特征在于，该方法具体包括：

步骤1)对传声器阵列的第m个通道采集的时域观测信号x_m(j)进行短时傅里叶变换，得到时频域的观测信号x_m,ft；其中1≤m≤M，M为传声器阵列中的传声器数量；t为时间索引；1≤t≤T，T表示样本在时频域的总帧数；f为频率索引，1≤f≤F，F为傅里叶变换点数，j为时间变量；

步骤4)循环迭代步骤2)和步骤3)，直到达到预先设置的迭代次数，获得每一个声源n的功率谱密度和所有阶解混滤波器；

步骤5)利用步骤2)获得的所有功率谱密度和步骤3)获得的所有声源的所有阶解混滤波器构造均方误差准则下的维纳滤波器，并利用该维纳滤波器对观测信号向量x_ft进行滤波得到每一个声源的时频域分离信号y_n,ft，n＝1,…,N；其中x_ft＝[x_1,ft,…,x_M,ft]^T，y_n,ft＝[y_n1,ft,…,y_nM,ft]^T；

步骤6)任意选取一个通道序号