CN114220453B - 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 - Google Patents

基于频域卷积传递函数的多通道非负矩阵分解方法及系统 Download PDF

Info

Publication number
CN114220453B
CN114220453B CN202210031383.3A CN202210031383A CN114220453B CN 114220453 B CN114220453 B CN 114220453B CN 202210031383 A CN202210031383 A CN 202210031383A CN 114220453 B CN114220453 B CN 114220453B
Authority
CN
China
Prior art keywords
time
sound source
matrix
frequency domain
unmixing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210031383.3A
Other languages
English (en)
Other versions
CN114220453A (zh
Inventor
王泰辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202210031383.3A priority Critical patent/CN114220453B/zh
Publication of CN114220453A publication Critical patent/CN114220453A/zh
Application granted granted Critical
Publication of CN114220453B publication Critical patent/CN114220453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明属于盲源分离技术领域,具体地说,涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统,该方法包括:对传声器阵列每一个通道采集的时域观测信号进行分帧并做短时傅里叶变换,得到时频域的观测信号;基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;将时频域的分离信号进行短时傅里叶逆变换、合成得到时域的分离信号。

Description

基于频域卷积传递函数的多通道非负矩阵分解方法及系统
技术领域
本发明属于盲源分离(Blind source separation,BSS)技术领域,具体地说,涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统。
背景技术
盲源分离是在没有声源和声源到麦克风之间的传递函数等先验信息的情况下,仅利用麦克风的接收信号来估计各个声源信号的方法。音频盲源分离在自动语音识别、自动音乐转录和噪声环境下的目标说话人提取等领域具有重要的应用。
在生物医学信号或图像处理等领域,观测信号是时域的瞬时混合模型。但是,在音频信号处理的应用领域中,由于房间内早期反射声和后期混响的存在,观测信号符合时域的卷积混合模型,这比时域的瞬时混合模型更加难处理。有些研究工作,直接利用时域卷积模型来处理盲音频分离问题。但是这些工作的复杂度较高,且很难处理具有较长混响时间的混合信号。
目前,广泛采用的解决思路是利用短时傅里叶变换将时域的卷积混合模型转换为频域瞬时混合模型,这种转换依赖于窄带假设。需要强调的是窄带假设成立的条件是短时傅里叶变换的窗长要充分长于混响时间。大多数的多通道盲源分离方法需要一个空间模型和一个声源模型,其中空间模型来编码声源到麦克风之间的传递函数,声源模型来编码每个声源的功率谱密度。在窄带假设的前提下,可以证明空间模型是一个秩为一的空间协方差矩阵。独立成分分析(Independent component analysis,ICA)、独立向量分析(Independent vector analysis,IVA)和独立低秩矩阵分析(Independent low-rankmatrix analysis,ILRMA)都是基于秩一空间模型得到的,不同的是这些方法采用了不同的声源模型。ICA假设每个频点独立地服从单位方差的超高斯分布。但在ICA中,每个频点是单独分离的,这导致了乱序问题,需要增加排序算法作为后处理来解决序列对齐问题。IVA假设每个声源的所有频点符合多维超高斯分布,这样解决了ICA存在的排序问题。但是,IVA采用的声源模型不够灵活,没有充分利用声源的功率谱特征。ILRMA假设每个时频点服从零均值的复高斯分布,并且采用一个低秩的声源模型来建模声源的功率谱,同样也避免了排序问题。ILRMA采用的声源模型比IVA的更加强大,因而更能够描述功率谱密度的丰富细节,在音乐分离任务重取得了比IVA更好的分离性能。
很多声学场景的混响时间较长,例如,有些没有做吸声处理的会议室混响时间可达到800~1000毫秒。在这种场景下,短时傅里叶变换的窗长可能小于混响时间,窄带模型不再成立,导致现有盲源分离算法性能下降。另外,当总的数据长度一定时,增长短时傅里叶变换的窗长,使得实际可用计算统计量的数据帧变短,这也降低盲源分离算法的性能。为了解决这个问题,有学者将空间协方差矩阵设置为满秩这一更为普遍的模型,它在强混响环境下取得较好的性能。满秩协方差矩阵分析(Full rank covariance matrix analysis,FCA)算法,多通道非负矩阵分解(Multichannel nonnegative matrix factorization,MNMF),快速MNMF(Fast-MNMF)都是基于满秩空间协方差矩阵模型开发的。但是,FCA和快速MNMF都采用了无约束的满秩空间协方差矩阵模型,它们需要优化大量的参数,因而算法复杂度高且对初始值敏感。Fast-MNMF作为一种计算高效的MNMF算法,它假设每个频点所有声源的空间协方差矩阵是满秩并且可以联合对角化的。得益于联合对角化的操作,Fast-MNMF的代价函数可以利用迭代投影算法进行优化,因而获得了比Fast-MNMF更好的收敛性能。但是,多于两个非负定厄密特矩阵的精确联合对角化不存在,因而Fast-MNMF在分离多于两个声源时性能下降。
发明内容
为解决现有技术存在的上述缺陷,本发明提出了一种基于频域卷积传递函数的多通道非负矩阵分解方法,该方法能够在强混响环境下取得良好的分离性能。该方法包括:
对传声器阵列每一个通道采集的时域观测信号做短时傅里叶变换,得到时频域的观测信号;
基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;
基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;
利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;
将时频域的分离信号进行傅里叶逆变换并合成得到时域的分离信号。
本发明还提供了一种基于频域卷积传递函数的多通道非负矩阵分解系统,该系统包括:
短时傅里叶变换模块,用于对传声器阵列每一个通道采集的时域观测信号进行分帧、加窗和傅里叶变换,得到时频域的观测信号;
声源方差估计模块,用于基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;
解混矩阵估计模块,用于基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;
维纳滤波模块,用于利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;
以及,短时傅里叶逆变换模块,用于将时频域的分离信号进行傅里叶逆变换、加窗和合成,得到时域的分离信号。
本发明与现有技术相比的有益效果是:
1、本发明的方法采用基于频域卷积传递函数空间模型的解混矩阵来分离信号,可以允许使用较短的短时傅里叶变换窗长。而较短的短时傅里叶变换窗长可以捕捉语音的时变特性,并增加了时频点的统计数量,从而提高分离语音的语音质量;
2、本发明的方法采用的基于卷积传递函数空间模型的解混矩阵对于长混响时间的混合信号是有效的,在分离具有强混响的混合信号时,能够在使用短窗长的情况下依然取得良好的分离性能;
3、采用本发明的方法利用非负矩阵分解进行声源谱的建模,可以利用声源的谱特征,进一步地提高估计声源功率谱密度的准确度,进一步地从而提高盲源分离的分离性能。
附图说明
图1是本发明的一种基于频域卷积传递函数的多通道非负矩阵分解方法的方法原理图;
图2是一段音乐信号功率谱的非负矩阵分解示意图;
图3是本发明的一种基于频域卷积传递函数的多通道非负矩阵分解方法的方法流程图。
具体实施方式
现结合附图和实例对本发明作进一步的描述。
如图1所示,展示了传声器阵列捕获声源的混合过程和盲源分离算法分解混合信号的解混过程。解混过程可以看做是混合过程的逆过程。在混合过程中,声源的直达声波和经过房间墙面反射的声波同时被传声器记录。房间墙壁或者房间中其他物体发射到达传声器的反射信号就是我们平时所说的混响信号,混响信号对于盲源分离算法的性能有较大的影响。在解混过程中,盲源分离算法仅利用传声器阵列记录的信号恢复出每一个声源的信息。传统的基于窄带假设的盲源分离算法能够在混响时间较短时解混出源信号,但是当混响时间较长的混合信号分离性能下降。原因是窄带假设在混响时间较长时不再成立。本发明提出的基于卷积传递函数的解混过程能够有效地分离源信号,即使在混合信号的混响时间较长的情况下。
本发明提供了一种基于频域卷积传递函数的多通道非负矩阵分解方法,该方法适用于强混响环境下的音频盲源分离任务,以及能够在强混响环境下取得良好的分离性能;该方法包括:
对传声器阵列每一个通道采集的时域观测信号进行短时傅里叶变换,得到时频域的观测信号;
基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;
基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器,得到每一个声源的解混矩阵;
利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;
将时频域的分离信号进行短时傅里叶逆变换并合成得到时域的分离信号。
该方法具体包括:
步骤1)对传声器阵列的第m通道采集的时域观测信号xm(j)进行短时傅里叶变换,得到时频域的观测信号xm,ft;传声器阵列包括多个传声器;每个通道对应一个传声器;1≤m≤M,M为传声器阵列中的传声器数量;t为时间索引;1≤t≤T,T表示样本在时频域的总帧数;f为频率索引,1≤f≤F,F为傅里叶变换点数;
短时傅里叶变换的窗长对于频域盲源分离方法有非常大的影响。传统的基于窄带假设的盲源分离方法要求短时傅里叶变换的窗长远大于混响时间。因此,随着混响时间的增加,窗长也需要变长。然而,过长的窗长会降低短时傅里叶变换在时间维度上的精度,导致该方法对于语音这一时变信号的分离性能下降。此外,当数据长度一定时,过长的窗长会使得短时傅里叶变换获得的数据的时间帧数量减小,这会使得该方法对于统计参数的估计不准确。与基于窄带假设的盲源分离方法不同,本发明提出的方法通过采用基于卷积传递函数的解混矩阵分离长混响时间的混合信号,不需要限制短时傅里叶变换的窗长大于混响时间。在本发明的方法中,短时傅里叶变换的窗长一般小于混响时间。在本实施例中,针对短混响时间(小于300ms),可以选用64ms的窗长。针对中等混响时间(300ms-700ms),可以选用128ms的窗长。针对长混响时间(大于700ms),可以选用256ms的窗长。
步骤2)基于非负矩阵分解声源模型,估计出每一个声源n在每一个时频点(f,t)的功率谱密度λn,f,t,1≤n≤N,其中N为声源数目,N≤M;
具体地,步骤201)根据解混矩阵和观测信号计算所有声源每一个时频点的能量
Figure BDA0003466566460000051
其中wn,f,0为步骤3)估计出的第n个声源的第l阶解混滤波器,xft=[x1,ft…xM,ft]T。如果是首次执行步骤2),则利用初始化的解混滤波器进行计算时频点的能量。
wn,f,0被初始化为第L0+…+Ln-1+1个元素为1,其他M-1个元素都是0的列向量,且L0=0。然后采用步骤202)更新声源的功率谱密度。
步骤202)在每一个时频点,利用基矩阵Tn的元素tn,fk和激活矩阵Vn的元素vn,k,t,根据下述的非负矩阵分解声源模型,计算第n个声源的时频点在每一个时频点(f,t)的功率谱密度,计算公式如下
Figure BDA0003466566460000052
其中K为预先设置好的基向量个数。如果是首次执行该步骤,则需要对基矩阵Tn和激活矩阵Vn进行初始化。初始化方法为利用均匀分布分别对基矩阵和激活矩阵的每一个匀速进行随机初始化。
基向量K的设置是非常重要的,会影响声源功率谱密度估计的准确性。如果基向量个数被设置的比较小,那么非负矩阵分解对于声源的功率谱密度的建模误差会比较大,造成非负矩阵分解模型对于功率谱密度的估计不够准确。如果基向量个数被设置得比较大,那么非负矩阵模型的参数量会比较大,导致优化算法会收敛到局部最优点,进而造成模型对于功率谱密度的估计不够准确。一般来讲,基向量个数满足0<K<<T。作为一种参考,对于语音信号本实施列选取K=2;对于音乐信号,可以选取K=30。
然后按照如下规则更新基矩阵
Figure BDA0003466566460000061
然后按照上述非负矩阵分解模型(即公式(1))更新声源的功率谱密度。接着按照如下公式更新激活矩阵
Figure BDA0003466566460000062
可以发现,基矩阵和激活矩阵更新公式的所有参数都是非负的。因此,基矩阵和激活矩阵按照上式更新之后仍然是非负的。
为了进一步地说明本发明的方法中的所述步骤2)利用非负矩阵分解估计声源功率谱密度的特点。传统的一些方法直接对声源的功率谱密度进行估计,比如基于独立成分分析的盲分离方法,但是本发明采用所述的基于非负矩阵分解的方法对功率谱密度进行估计的思路有三个优点:
第一,采用依赖于声源的基矩阵和激活矩阵来建模不同的声源,该方法可以避免盲分离中经典的排序问题,减小计算量。
第二,非负矩阵分解降低了声源的功率谱密度的参数量,使得优化更不容易收敛到局部最优点。
第三,非负矩阵分解中的基矩阵能够提取声源的谱结构特征,使得所述方法对于语音和音乐这类具有明显谐波结构信号的功率谱密度的估计更加准确。
图2为一段音乐信号的非负矩阵分解示意图。201为这段音乐信号的功率谱,横轴为时间帧,纵轴为频率。利用非负矩阵分解将功率谱分解为基矩阵202和激活矩阵203。201所示的音乐信号包含两个声源的时频谱,并且两个声源的时频谱特征是不一样。两个声源时频谱的不同表现为含有不同的谐波成分。而经过非负矩阵分解分解得到的混合信号的如202所示的基矩阵,包含了两个含有不同谐波频率的基向量。事实上,这两个基向量即表征了两个信号的谐波特征。而激活矩阵203为对应基向量的时间激活序列,表明了基向量在每一个时刻被激活的权重。
步骤3)基于频域卷积传递函数空间模型,估计每一个频带内,每一个声源n的每一阶解混滤波器wn,f,l,其中0≤l≤Ln-1,Ln为第n个声源的卷积传递函数滤波器长度;
具体地,步骤301)根据估计的第n个声源的功率谱密度λn,f,t,对观测信号xft的协方差矩阵进行加权求和再平均,得到加权协方差矩阵Qnl,f
Figure BDA0003466566460000071
其中
Figure BDA0003466566460000072
为xft的共轭转置;
步骤302)根据步骤301)得到的加权协方差矩阵来更新第n个声源的第l阶的解混滤波器wn,f,l
Figure BDA0003466566460000073
其中
Figure BDA0003466566460000074
是列向量,除了第(L0+…+Ln-1)+l个元素为1之外,其他剩余的元素都是0;Wf为所有声源的所有阶解混滤波器组成的解混矩阵,其具体形式为
Figure BDA0003466566460000075
然后,按照下式对第n个声源的第l阶的解混滤波器的幅度进行校正和更新;
Figure BDA0003466566460000076
步骤303)在更新完wn,f,l之后,更新Wf;具体地,将Wf的第(L0+…+Ln-1)+l行的元素替换为
Figure BDA0003466566460000077
步骤304)对于每一个声源n的每一阶l解混滤波器wn,f,l重复上述的步骤301)和步骤302),直到更新完整个解混矩阵Wf
为了进一步地说明步骤3)所述的解混滤波器的特点。在其他的传统的盲分离方法中,如独立成分分析、独立向量分析、独立低秩矩阵分析等,每一个声源在每一个频带内的解混滤波器为一个列向量。而在本发明所述的方法中,每一个声源在每个频带内的解混滤波器为Ln个列向量组成的矩阵。因此,通过本发明所述的解混滤波器乘上混合信号会得到Ln个信号,即
Figure BDA0003466566460000081
其中第一个信号为直达信号,之后的为带混响的信号。也就是说,本发明所述的多阶解混滤波器能够分段地解混长混响时间的混合信号。因此,当步骤1)所述的短时傅里叶变换的窗长短于混响时间时,本发明所述的方法也能够取得良好的分离性能。而传统方法则从理论上要求短时傅里叶变换的窗长远大于混响时间。
此外,解混滤波器阶数Ln的选取需要满足条件
Figure BDA0003466566460000082
也就是说,所有声源的解混滤波器阶数之和等于传声器的数量。此外,解混滤波器阶数的大小会影响分离性能,为了使得每一个声源的分离性能相似,本发明尽可能地将所有声源的解混滤波器阶数设置得相近。举例来说,如果用6个传声器分离2个声源,设L1=3,L2=3;如果用7个传声器分离2个声源,则设L1=4,L2=3或者L1=3,L2=4。
步骤4)循环迭代步骤2)和步骤3),对声源方差和解混矩阵进行估计,直到达到预先设置的迭代次数,获得每一个声源n的功率谱密度和解混滤波器;迭代次数的设置会影响所述方法最终的性能。在本实施例中,示例性地将迭代次数设置为150。
其中,本发明中的每一个声源的功率谱密度是采用迭代相乘算法估计得到的。
本发明中的每一个声源的解混矩阵是采用迭代投影算法计算得到的。
步骤5)利用获得的所有功率谱密度和所有声源的所有阶解混滤波器构造均方误差准则下的维纳滤波器,并利用该维纳滤波器对观测信号xft进行滤波得到每一个声源的时频域分离信号yn,ft,n=1,…,N;其中xft=[x1f,t…xM]T,yn,ft=[yn1,ft,…,ynM,ft]T
具体地,步骤501)对步骤3)得到的更新后的解混矩阵在每一个频带内进行求逆操作,得到解混矩阵的逆矩阵Hf
Figure BDA0003466566460000083
Hf的具体形式为
Figure BDA0003466566460000084
其中hn,f,l是矩阵
Figure BDA0003466566460000085
的第(L0+…+Ln-1)+l列;
步骤502)根据步骤501)得到的解混矩阵的逆矩阵和步骤2)得到的第n个声源的功率谱密度,构造第n个声源的维纳滤波器
Figure BDA0003466566460000091
Figure BDA0003466566460000092
其中
Figure BDA0003466566460000093
Λn,f,t=diag([λn,f,t,…,λn,f,t-L+1]);Λf,t=blkdiag(Λ1,f,t2,f,t,…,ΛN,f,t),并且blkdiag(·)是对角化运算符;
Figure BDA0003466566460000094
为Hn,f的共轭转置;
Figure BDA0003466566460000095
为Hf的共轭转置;
步骤503)根据步骤502)得到的维纳滤波器和步骤1)提供的时频域观测信号组成的观测信号xft,得到第n个声源的分离信号yn,ft
Figure BDA0003466566460000096
其中yn,ft=[yn1,ft,…,ynM,ft]T,ynm,ft表示从第m个传声器中估计出的第n个声源的镜像。
步骤504)针对每一个声源,重复上述步骤502)和步骤503),直到计算出所有声源的分离信号;
步骤6)任意选取一个通道序号
Figure BDA0003466566460000097
对每一个声源的分离信号yn,ft中的通道
Figure BDA0003466566460000098
对应的时频域分离信号
Figure BDA0003466566460000099
进行短时傅里叶逆变换,然后得到第n个声源的时域分离信号
Figure BDA00034665664600000910
进一步地解释为什么要选取一个通道序号
Figure BDA00034665664600000911
对步骤5)得到的yn1,ft,f=1,…,F,t=1,…,T,进行短时傅里叶逆变换,可以得到第1个传声器接收到的第n个声源的时域信号。同样地,对步骤5)得到的yn2,ft,f=1,…,F,t=1,…,T,进行短时傅里叶逆变换,可以得到第2个传声器接收到的第n个声源的时域信号。以此类推,我们可以得到所有传声器接收到的声源的时域信号。这样计算得到的声源的时域信号是冗余的,并且带来较大的计算量。因此,我们可以任意选取一个传声器序号
Figure BDA00034665664600000912
只计算该传声器接收到的声源的时域信号,并作为算法分离的时域声源信号输出。
进一步地解释本发明提出的基于卷积传递函数的多通道非负矩阵分解方法能够分离强混响环境下混合信号的原因。而传统的方法大多采用窄带假设建立盲源分离的混合过程。针对传统方法中的混合过程,解混过程中每一个声源的解混滤波器为一个列向量。这种解混滤波器在混响时间较短时,能够取得较好的分离性能。
但是,在传统的方法中,当混响时间变长时,单个列向量的解混滤波器不再能够从长混响信号中解出分离信号。因此,长混响时间会严重降低传统盲分离方法的性能。而本发明所述的基于卷积传递函数的解混过程针对长混响时间的房间脉冲响应,对每一个声源采用Ln个解混滤波器,这样能够从较长混响时间的混合信号中分段地解出源信号。频域卷积传递函数允许我们使用短窗长表示长混响时间的房间脉冲响应。因此,提出的基于频域卷积传递函数的多通道非负矩阵分解方法能够在强混响环境下取得良好的分离性能。
图3为本发明的基于卷积传递函数的多通道非负矩阵分解盲源分离方法的系统框图。短时傅里叶变换(short-time Fourier transform,STFT)模块301表示对每一个通道传声器接收到的时域信号进行短时傅里叶变换,输出时频域的观测信号。声源方差估计模块302表示对声源的方差进行估计。解混矩阵估计模块303表示对声源的解混滤波器进行估计。维纳滤波模块304利用维纳滤波器对观测信号进行滤波,输出时频域的估计信号。短时傅里叶逆变换(Inverse short-time Fourier transform,ISTFT)模块305对估计的时频域分离信号进行逆变换输出时域的估计信号。更加详细地,本发明提出的音频盲源分离方法按照以下步骤进行实施。
如图3所示,本发明还提供了一种基于频域卷积传递函数的多通道非负矩阵分解系统,该系统包括:
短时傅里叶变换(short-time Fourier transform,STFT)模块301,用于对传声器阵列每一个通道采集的时域观测信号进行分帧、加窗和傅里叶变换,得到时频域的观测信号;
声源方差估计模块302,用于基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;
解混矩阵估计模块303,用于基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器,得到每一个声源的解混矩阵;
维纳滤波模块304,用于利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;和
短时傅里叶逆变换(Inverse short-time Fourier transform,ISTFT)模块305,用于将时频域的分离信号进行傅里叶逆变换、加窗和合成,得到时域的分离信号。
以上充分表明了本发明在长混响环境下提供了一种有效的音频盲分离技术。应该指出的是,本发明所提出的盲分离方法及系统可以通过多种方式完成实施,比如软件、硬件或者是硬件和软件的组合。硬件平台可以是中央处理器(Central processing unit,CPU),现场可编程逻辑门阵列(Field programmable gate array,FPGA)、可编程逻辑器件(Programmable logic device,PLD)或其他专用集成电路(Application specificintegrated circuit,ASIC)。软件平台包括数字信号处理器(Digital signalprocessing,DSP)、ARM或其他微处理器。软件和硬件的组合例如部分模块用DSP软件来实现,部分模块用硬件加速器来实现。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于频域卷积传递函数的多通道非负矩阵分解方法,该方法包括:
对传声器阵列每一个通道采集的时域观测信号进行短时傅里叶变换,得到时频域的观测信号;
基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;
基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;
利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;
将时频域的分离信号进行短时傅里叶逆变换并合成得到时域的分离信号。
2.根据权利要求1所述的基于频域卷积传递函数的多通道非负矩阵分解方法,其特征在于,该方法具体包括:
步骤1)对传声器阵列的第m个通道采集的时域观测信号xm(j)进行短时傅里叶变换,得到时频域的观测信号xm,ft;其中1≤m≤M,M为传声器阵列中的传声器数量;t为时间索引;1≤t≤T,T表示样本在时频域的总帧数;f为频率索引,1≤f≤F,F为傅里叶变换点数,j为时间变量;
步骤2)基于非负矩阵分解声源模型,估计出每一个声源n在每一个时频点(f,t)的功率谱密度λn,f,t,1≤n≤N,其中N为声源数目,N≤M;
步骤3)基于频域卷积传递函数空间模型,估计每一个频带内,每一个声源n的每一阶解混滤波器wn,f,l,其中0≤l≤Ln-1,Ln为第n个声源的卷积传递函数滤波器长度;
步骤4)循环迭代步骤2)和步骤3),直到达到预先设置的迭代次数,获得每一个声源n的功率谱密度和所有阶解混滤波器;
步骤5)利用步骤2)获得的所有功率谱密度和步骤3)获得的所有声源的所有阶解混滤波器构造均方误差准则下的维纳滤波器,并利用该维纳滤波器对观测信号向量xft进行滤波得到每一个声源的时频域分离信号yn,ft,n=1,…,N;其中xft=[x1,ft,…,xM,ft]T,yn,ft=[yn1,ft,…,ynM,ft]T
步骤6)任意选取一个通道序号
Figure FDA0003683468560000011
对每一个声源的分离信号yn,ft中的通道
Figure FDA0003683468560000012
对应的时频域分离信号
Figure FDA0003683468560000021
进行短时傅里叶逆变换,然后得到第n个声源的时域分离信号
Figure FDA0003683468560000022
其中
Figure FDA0003683468560000023
3.根据权利要求2所述的基于频域卷积传递函数的多通道非负矩阵分解方法,其特征在于,所述步骤2)具体包括:
在每一个时频点,利用基矩阵Tn的元素tn,fk和激活矩阵Vn的元素vn,k,t,根据下述的非负矩阵分解声源模型,计算第n个声源的时频点在每一个时频点(f,t)的功率谱密度λn,f,t
Figure FDA0003683468560000024
其中K为预先设置好的基向量个数;并且相应的基矩阵和激活矩阵的更新规则为:
Figure FDA0003683468560000025
Figure FDA0003683468560000026
其中
Figure FDA0003683468560000027
其中wn,f,0为步骤3)估计出的第n个声源的第l阶解混滤波器;如果是首次执行步骤2),wn,f,0被初始化为第L0+…+Ln-1+1个元素为1,其他M-1个元素都是0的列向量,且L0=0。
4.根据权利要求2所述的基于频域卷积传递函数的多通道非负矩阵分解方法,其特征在于,所述步骤3)具体包括:
步骤301)根据估计的第n个声源的功率谱密度λn,f,t,对观测信号xft的协方差矩阵进行加权求和再平均,得到加权协方差矩阵Qnl,f
Figure FDA0003683468560000031
其中
Figure FDA0003683468560000032
为观测信号xft的共轭转秩向量;
步骤302)根据步骤301)得到的加权协方差矩阵来更新第n个声源的第l阶的解混滤波器wn,f,l
Figure FDA0003683468560000033
其中
Figure FDA0003683468560000034
是列向量,除了第(L0+…+Ln-1)+l个元素为1之外,其他剩余的元素都是0,且L0=0;Wf为所有声源的所有阶解混滤波器组成的解混矩阵,其具体形式为
Figure FDA0003683468560000035
然后,按照下式对第n个声源的第l阶的解混滤波器的幅度进行校正和更新;
Figure FDA0003683468560000036
步骤303)在更新完wn,f,l之后,更新Wf;具体地,将Wf的第(L0+…+Ln-1)+l行的元素替换为
Figure FDA0003683468560000037
步骤304)对于每一个声源的每一阶解混滤波器重复上述的步骤301)、步骤302)和步骤303),直到更新完整个解混矩阵。
5.根据权利要求4所述的基于频域卷积传递函数的多通道非负矩阵分解方法,其特征在于,所述步骤5)具体包括:
步骤501)对步骤3)得到的更新后的解混矩阵在每一个频带内进行求逆操作,得到解混矩阵的逆矩阵Hf
Figure FDA0003683468560000038
Hf的具体形式为
Figure FDA0003683468560000039
其中hn,f,l是矩阵
Figure FDA00036834685600000310
的第(L0+…+Ln-1)+l列;
步骤502)根据步骤501)得到的解混矩阵的逆矩阵Hf和步骤2)得到的第n个声源的功率谱密度λn,f,t,构造第n个声源的维纳滤波器
Figure FDA00036834685600000311
Figure FDA00036834685600000312
其中
Figure FDA0003683468560000041
Λn,f,t=diag([λn,f,t,…,λn,f,t-L+1]);Λf,t=blkdiag(Λ1,f,t2,f,t,…,ΛN,f,t);并且blkdiag(·)是对角化运算符;
Figure FDA0003683468560000042
为Hn,f的共轭转置矩阵;
Figure FDA0003683468560000043
为Hf的共轭转置矩阵;
步骤503)根据步骤502)得到的维纳滤波器和步骤1)提供的时频域观测信号组成的观测信号xft,得到第n个声源的分离信号yn,ft
Figure FDA0003683468560000044
其中yn,ft=[yn1,ft,…,ynm,ft,...,ynM,f]T;并且ynm,ft表示从第m个传声器中估计出的第n个声源的镜像。
6.一种基于频域卷积传递函数的多通道非负矩阵分解系统,其特征在于,该系统包括:
短时傅里叶变换模块(301),用于对传声器阵列每一个通道采集的时域观测信号进行分帧、加窗和傅里叶变换,得到时频域的观测信号;
声源方差估计模块(302),用于基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;
解混矩阵估计模块(303),用于基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;
维纳滤波模块(304),用于利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;和
短时傅里叶逆变换模块(305),用于将时频域的分离信号进行傅里叶逆变换、加窗和合成,得到时域的分离信号。
CN202210031383.3A 2022-01-12 2022-01-12 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 Active CN114220453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210031383.3A CN114220453B (zh) 2022-01-12 2022-01-12 基于频域卷积传递函数的多通道非负矩阵分解方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210031383.3A CN114220453B (zh) 2022-01-12 2022-01-12 基于频域卷积传递函数的多通道非负矩阵分解方法及系统

Publications (2)

Publication Number Publication Date
CN114220453A CN114220453A (zh) 2022-03-22
CN114220453B true CN114220453B (zh) 2022-08-16

Family

ID=80708048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210031383.3A Active CN114220453B (zh) 2022-01-12 2022-01-12 基于频域卷积传递函数的多通道非负矩阵分解方法及系统

Country Status (1)

Country Link
CN (1) CN114220453B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116465A (zh) * 2022-05-23 2022-09-27 佛山智优人科技有限公司 一种声源分离的方法及声源分离装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017152825A (ja) * 2016-02-23 2017-08-31 日本電信電話株式会社 音響信号解析装置、音響信号解析方法、及びプログラム
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110111806A (zh) * 2019-03-26 2019-08-09 广东工业大学 一种移动源信号混叠的盲分离方法
CN111133511A (zh) * 2017-07-19 2020-05-08 音智有限公司 声源分离系统
CN112565119A (zh) * 2020-11-30 2021-03-26 西北工业大学 一种基于时变混合信号盲分离的宽带doa估计方法
CN113241090A (zh) * 2021-04-21 2021-08-10 西北工业大学 一种基于最小体积约束的多通道盲声源分离方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
US9721202B2 (en) * 2014-02-21 2017-08-01 Adobe Systems Incorporated Non-negative matrix factorization regularized by recurrent neural networks for audio processing
JP6288561B2 (ja) * 2014-04-24 2018-03-07 晋哉 齋藤 ブラインド信号分離方法およびその装置
GB2548325B (en) * 2016-02-10 2021-12-01 Audiotelligence Ltd Acoustic source seperation systems
JP6622159B2 (ja) * 2016-08-31 2019-12-18 株式会社東芝 信号処理システム、信号処理方法およびプログラム
JP6976804B2 (ja) * 2017-10-16 2021-12-08 株式会社日立製作所 音源分離方法および音源分離装置
CN109994120A (zh) * 2017-12-29 2019-07-09 福州瑞芯微电子股份有限公司 基于双麦的语音增强方法、系统、音箱及存储介质
CN111986695B (zh) * 2019-05-24 2023-07-25 中国科学院声学研究所 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统
CN111415676B (zh) * 2020-03-10 2022-10-18 山东大学 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
CN112908354B (zh) * 2021-01-29 2024-03-22 中国人民解放军63892部队 基于影响权重的频域卷积盲源分离幅度相关性的排序方法
CN113823316B (zh) * 2021-09-26 2023-09-12 南京大学 一种针对位置靠近声源的语音信号分离方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017152825A (ja) * 2016-02-23 2017-08-31 日本電信電話株式会社 音響信号解析装置、音響信号解析方法、及びプログラム
CN111133511A (zh) * 2017-07-19 2020-05-08 音智有限公司 声源分离系统
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110111806A (zh) * 2019-03-26 2019-08-09 广东工业大学 一种移动源信号混叠的盲分离方法
CN112565119A (zh) * 2020-11-30 2021-03-26 西北工业大学 一种基于时变混合信号盲分离的宽带doa估计方法
CN113241090A (zh) * 2021-04-21 2021-08-10 西北工业大学 一种基于最小体积约束的多通道盲声源分离方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Fast Multichannel Nonnegative Matrix Factorization With Directivity-Aware Jointly-Diagonalizable Spatial Covariance Matrices for Blind Source Separatio;Kouhei Sekiguchi;《IEEE/ACM Transactions on Audio, Speech, and Language Processing 》;20200825;第2610-2617页 *
Fast Multichannel Source Separation Based on Jointly Diagonalizable Spatial Covariance Matrices;Kouhei Sekiguchi等;《2019 27th EUSIPCO》;20190906;第1-4页 *
SRP-NMF:一种多通道盲源分离算法;皮磊 等;《通信技术》;20210630;第54卷(第6期);第1333-1336页 *

Also Published As

Publication number Publication date
CN114220453A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
Yoshioka et al. Generalization of multi-channel linear prediction methods for blind MIMO impulse response shortening
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
US8848933B2 (en) Signal enhancement device, method thereof, program, and recording medium
US9830926B2 (en) Signal processing apparatus, method and computer program for dereverberating a number of input audio signals
US20110096942A1 (en) Noise suppression system and method
Cord-Landwehr et al. Monaural source separation: From anechoic to reverberant environments
Aichner et al. Time domain blind source separation of non-stationary convolved signals by utilizing geometric beamforming
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Doclo et al. Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage
CN114220453B (zh) 基于频域卷积传递函数的多通道非负矩阵分解方法及系统
GB2510650A (en) Sound source separation based on a Binary Activation model
JP2014048399A (ja) 音響信号解析装置、方法、及びプログラム
Douglas Blind separation of acoustic signals
US9520137B2 (en) Method for suppressing the late reverberation of an audio signal
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
CN112820312A (zh) 一种语音分离方法、装置及电子设备
US20230306980A1 (en) Method and System for Audio Signal Enhancement with Reduced Latency
CN116052702A (zh) 一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法
CN115273885A (zh) 基于频谱压缩和自注意力神经网络的全频带语音增强方法
Shamsa et al. Noise reduction using multi-channel FIR warped Wiener filter
Jukić et al. Speech dereverberation with convolutive transfer function approximation using MAP and variational deconvolution approaches
CN115588438B (zh) 一种基于双线性分解的wls多通道语音去混响方法
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
Krishnan et al. A sparsity based approach for acoustic room impulse response shortening
Morita et al. MTF-based Sub-band Power-envelope Restoration for Robust Speech Recognitionin Noisy Reverberant Environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Taihui

Inventor after: Yang Feiran

Inventor after: Yang Jun

Inventor before: Wang Taihui