CN102231280B - 卷积语音信号的频域盲分离排序算法 - Google Patents

卷积语音信号的频域盲分离排序算法 Download PDF

Info

Publication number
CN102231280B
CN102231280B CN2011101170222A CN201110117022A CN102231280B CN 102231280 B CN102231280 B CN 102231280B CN 2011101170222 A CN2011101170222 A CN 2011101170222A CN 201110117022 A CN201110117022 A CN 201110117022A CN 102231280 B CN102231280 B CN 102231280B
Authority
CN
China
Prior art keywords
frequency band
frequency
benchmark
algorithm
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011101170222A
Other languages
English (en)
Other versions
CN102231280A (zh
Inventor
刘琚
王倩
杜军
刘朝晨
吕宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN2011101170222A priority Critical patent/CN102231280B/zh
Publication of CN102231280A publication Critical patent/CN102231280A/zh
Application granted granted Critical
Publication of CN102231280B publication Critical patent/CN102231280B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种卷积语音信号的频域盲分离排序算法,对于卷积混叠语音信号,首先由时域转换到频域,在每个频带上使用频域ICA算法进行盲分离,然后使用本发明的排序算法进行排序:(1)选取基准频带进行对准;(2)根据已排序好的基准频带对剩余频带进行排序;(3)标记可能出现排序错误的频带,利用基于分离矩阵的DOA估计进行补充性对准。本发明利用基准频带对准的思想并结合了现有基于频带相关性的排序算法和基于DOA的排序算法两类排序算法的优势,具有很好的鲁棒性和准确性,并且在真实环境中仍然适用。

Description

卷积语音信号的频域盲分离排序算法
技术领域
本发明涉及一种解决卷积混合语音信号在频域盲源分离过程中存在的次序不确定性问题的方法,属于语音信号处理领域。
背景技术
盲分离算法是在源信号和混合过程未知的情况下,从观测的混合信号中估计出原始信号的方法。盲分离算法广泛应用于语音信号处理、无线通信、医学信号处理等多个领域。针对卷积盲分离问题,目前主要存在两类算法:第一类是时域分离算法,第二类是频域分离算法。频域语音信号盲分离算法相对于时域盲源分离算法来说,因其较小的计算量和良好的分离性能而受到研究人员的关注。但是频域分离算法也存在两个问题:一个是幅值不确定性,一个是次序不确定性。其中次序不确定性对卷积混合频域盲分离算法的影响非常大,可以说它是卷积混合频域盲分离算法成功与否的最关键因素,也是当前卷积盲分离研究的热点之一。因为次序不确定性会使相邻频带上分离出来的信号连接错误,最终导致分离失败。
目前解决频域盲分离次序不确定问题的方法主要有两大类:第一类是基于到达角估计(DOA)的排序方法,第二类是基于频带间相关性的排序方法。这两类排序算法的优缺点:
(1)基于DOA的排序算法具有很好的鲁棒性,因为在一个频带上的不对准不会影响其他频带;但是该算法准确性较差,计算量大。
(2)基于频带间相关性的排序算法具有较好的准确性,但是鲁棒性较差,因为在一个频带上的不对准会导致连续频带上的排序发生错误。
发明内容
本发明针对现有解决卷积频域盲分离中存在的次序不确定性问题的方法所存在的不足,提出一种具有较好的鲁棒性和准确性的卷积语音信号的频域盲分离排序算法。
本发明的卷积语音信号的频域盲分离排序算法,使用卷积混叠模型,对于卷积混叠语音信号,首先由时域转换到频域,在每个频带上使用频域ICA算法进行盲分离,然后按以下步骤进行排序,实现每个频带的对准:
(1)基准频带的对准:选取基准频带进行对准,在所有频带中选取基准频带,根据对于同一个语音信号在不同频带上能量随时间呈现相似的变化这一特点对基准频带进行排序;
(2)剩余频带的对准:根据已排序好的基准频带对剩余频带进行排序,每个剩余频带都有对应的基准频带,对应的基准频带是指距离该剩余频带最近的基准频带,利用已排序好的基准频带,根据同一语音信号在相邻频带上的幅度相关性这一特点,对每个剩余频带进行排序;
(3)补充性对准:标记可能出现排序错误的频带,利用基于分离矩阵的DOA估计进行补充性对准,对步骤(2)中可能出现对准错误的频带用基于到达角估计(DOA)的排序方法进行重新排序。
所述步骤(1)的具体实现步骤为:
A.选取基准频带,假设相邻基准频带间隔偶数个频带;
B.计算每个基准频带上的能量轮廓,遍历所有可能的排序,最终找到使目标函数最小化的排序即为最终的排序。
所述步骤(2)的具体实现步骤为:
A.根据分离矩阵计算每个频带上分离出来的信号;
B.计算每个剩余频带与对应的基准频带上分离信号的幅度相关性;
C.遍历所有可能的排序,找到幅度相关性最大的排序即为最终的排序。
所述步骤(3)的具体实现步骤为:
A.若在步骤(2)中对于不同的排序,个别频带上幅度相关性相差不大,则这些频带上有可能出现排序错误,对这些频带进行标记;
B.对标记的频带进行基于分离矩阵的DOA估计;
C.对估计出的DOA进行聚类,即找到分离矩阵相应的排序。
上述算法中第(1)步和第(2)步利用了基于频带相关性的排序算法的准确性高的优点,同时通过基准频带的选取在一定程度上克服了其鲁棒性差的缺点。第(3)步利用了基于DOA的排序算法鲁棒性高的优点来进行补充性对准,同时由于步骤三中所需对准的频带数很少,不会过多增加整个排序算法的计算复杂度。
本发明采用基准频带的思想并结合了现有的基于频带间相关性和基于到达角估计(DOA)这两类主要排序算法的优势,具有很好的鲁棒性和准确性。
附图说明
图1是频域盲分离流程框图。
图2是原始语音信号图。
图3是未排序的全局滤波器W(t)*H(t)的冲激响应图。
图4是本发明排序后的全局滤波器W(t)*H(t)的冲激响应图。
图5是经过每一步排序后的NRR比较图。
图6是真实环境下语音采集的房间布局示意图。
图7是真实环境下观测信号、估计信号和真实源信号图。
具体实施方式
本发明所使用的是K×K(K个源信号,K个观测信号)的卷积混叠模型:其中观测信号向量x(n)=[x1(n),x2(n),..,xK(n)]T,源信号向量s(n)=[s1(n),s2(n),..,sK(n)]T(上标“T”表示转置),N为FIR滤波器的长度,
Figure BDA0000059710540000031
是延迟为l时的K×K混合滤波器矩阵,其中hij是第j个源信号到第i个传感器的冲击响应。对于卷积盲分离,目标是寻找L个K×K分离滤波器矩阵W(l),估计出源信号
Figure BDA0000059710540000032
该式经过短时傅里叶变换(STFT)后,卷积混叠模型转换成在每个频带上的瞬时混叠,即在频带fk,τ时间段上有Y(fk,τ)=W(fk)X(fk,τ)。通过频域ICA(独立成分分析)算法,在每个频带上得到K×K的分离矩阵W(fk)。W(fk)每一行为不同源信号的估计向量。要解决次序不确定性,即解决W(fk)所有行的排序问题,使在所有频带上W(fk)的同一行对应于同一个源信号。
频域盲分离流程如图1所示,采用L=2048STFT,其中的交迭系数为0.75。频域ICA采用的是联合对角化算法(JADIAG),接下来,需要解决频域盲分离排序问题,即要寻找正确的排序矩阵P(f),通过W(f)←P(f)W(f)来更新W(f)。对于解决频域盲分离排序问题的算法具体实施方式如下:
1.基准频带的对准。选取基准频带fb=0,(M/L)FS,(2M/L)FS,...,((L-1)/L)FS,其中M为正奇数,FS为采样频率。对于一个语音信号,在不同频带上的能量随时间呈现相似的变化。基于该相似性,对基准频带进行排序。
首先,计算估计信号的零均值能量轮廓的对数值:
E ( i , f b , τ ) = log ( Y i ( f b , τ ) Y i * ( f b , τ ) ) - mean ( log ( Y i ( f b , τ ) Y i * ( f b , τ ) ) ) , i = 1,2 , . . . , K
其中Yi(fb,τ)是在基准频带fb,时间段τ上的第i个估计信号。
然后,利用“Blind Separation of Speech Mixtures Based on Nonstationarity”in Proc.ofISSPA 2003Conf.,Paris,France,73-76,July 2003.(“基于非平稳性的语音盲分离”,《2003年ISSPA会议论文集》,法国巴黎,73-76,07/2003.)提出的一个目标函数:
Σ i = 1 K | | E ( π i ( f b ) , f b , τ ) - E i ( · ) | | 2
其中Ei(·)是第i个源的能量轮廓,通过计算E(∏(i),fb,τ)在所有基准频带上的平均值求得。πi(fb)是指一种排序方式。遍历{1,...,K}所有的排序,能找到一种排序π1(fb),π2(fb),..,πK(fb)使得该目标函数最小,进而得到排序矩阵P(fb)
2.剩余频带的对准。经过步骤1基准频带的对准后还有(1-1/M)L个频带没有进行对准。根据相邻频带间分离信号的幅度相关性进行排序。具体过程如下:对于第j个基准频带fbj=((j-1)M/L)Fs,它的相邻频带为fbj-(M-1)/2,...,fbj-1,fbj+1,fbj+2,...,fbj+(M-1)/2,其中fbj+l=(((j-1)M+l)/L)Fs。在所有T个时间段τ1,τ2,..τT,频带fbj+l上的第i个输出为Yi(fbj+l)=[Yi(fbj+l,τ1),Yi(fbj+l,τ2),...,Yi(fbj+l,τT),],输出矩阵
Figure BDA0000059710540000041
计算Y(fbjj)和(P(fbj+l)Y(fbj+l))T的相关矩阵Corbj+l,矩阵中的元素
Figure BDA0000059710540000042
表示Y(fbj)的第m行与(P(fbj+l)Y(fbj+l))的第n行的相关系数,其中P为排序矩阵。如果剩余频带是对准的,则Corbj+l应类似于一个对角阵,及对角线上的元素值远大于其他元素的值。则对于不同的排序矩阵,最小化目标函数
Σ m = 1 K 1 | Cor mm bj + l | Σ n ≠ m K | Cor mm bj + l | ,
对于2×2的卷积混叠模型,即为最小化
Figure BDA0000059710540000044
从而在每个剩余频带上分别得到一个排序矩阵P。
3.补充性对准。
经过步骤2对准后,绝大部分频带上实现正确的对准,但存在个别频带与其基准频带的相关矩阵Cor,其对角线上的元素值与其他元素的值相差不大。在这些频带上可能会出现对准错误。首先找到这些个别的频带,对于2×2的卷积混叠模型,这些频带上Cor中的元素满足下面的条件:
| Cor 11 Cor 12 - Cor 21 Cor 22 | < &beta;
其中,β为设定的阈值。根据该条件,假设找到Z个可能出现对准错误的频带,记为fq(q=1,2,...,Z),频带fq上的分离矩阵记为W(fq)。根据经典的DOA公式,如在“A robust andprecise method for solving the permutation problem of frequency-domain blind sourceseparation,”4th International Symposium on Independent Component Analysis and Blind SignalSeparation(ICA2003),April 2003,Nara,Japan.(“一种解决频域盲分离排序问题的鲁棒且准确的方法,”第四届独立成分分析和盲信号分离国际研讨会(ICA 2003),2003年4月,日本奈良)在频带fq上估计出源信号的到达角θi(fq)(i=1,2)。
&theta; 1 ( f q ) = arccos angle ( - W ( f q ) 21 / W ( f q ) 22 ) 2 &pi; F s c - 1 ( d 2 - d 1 )
&theta; 2 ( f q ) = arccos angle ( - W ( f q ) 11 / W ( f q ) 22 ) 2 &pi; F s c - 1 ( d 2 - d 1 )
其中W(fq)11,W(fq)12,W(fq)21,W(fq)22是矩阵W(fq)中的4个元素,c为声速,d1和d2是两个麦克风的位置。由上式可以看出W(fq)的每一行决定一个源信号的到达角。
选取一个基准频带fbj,如基准频带fb3,估计两个到达角θ1(fb3),θ2(fb3)。如果(θ1(fb3)-θ2(fb3))(θ1(fq)-θ2(fq))<0,则将W(fq)的两行颠倒顺序。
这样,在每个频带上都得到了排序好的分离矩阵W(f),对其进行离散傅里叶逆变换得到时域上的分离矩阵,然后通过
Figure BDA0000059710540000053
对观测信号进行卷积得到估计信号y(n)。
下面通过两部分实验来验证本发明的性能。第一部分,对人工卷积的语音文件进行盲分离实验。第二部分,采集真实语音环境中的混叠语音进行盲分离实验,展示分离效果。在两部分实验中,使用2×2的卷积混叠模型。
(1)对人工卷积的语音文件进行盲分离实验。
房间的冲击响应是由roomix.m(http://sound.media.mit.edu/ica-bench)生成,它是在真实的3.5m×7m×3m的会议室环境中测量得出的。两个原始语音信号如图2所示,采样率为16kHz,β=0.5。
a.W(t)*H(t)图。经过JADIAG盲分离算法但未对分离矩阵排序时的全局滤波器W(t)*H(t)(W(t)是经过排序后的分离滤波器,H(t)是房间冲击响应即混合滤波器,“*”是卷积符号)如图3所示。经过本发明的排序方法,得到的全局滤波器W(t)*H(t)图,如图4所示,(W(t)*H(t))11和(W(t)*H(t))22相比于(W(t)*H(t))12和(W(t)*H(t))21,包含了全局滤波器绝大部分能量,并且集中在很短的时间段内,相当于两个单位冲击函数。由此可见两个源信号已经被很好地估计出来。
b.NRR比较。
噪声消除率(NRR)定义如下:
NRR = 1 2 &Sigma; l = 1 2 ( SNR l ( O ) - SNR l ( I ) )
SNR l ( O ) = 10 log 10 &Sigma; f | G ll ( f k ) S l ( f k ) | 2 &Sigma; f | G ln ( f k ) S n ( f k ) | 2
SNR l ( I ) = 10 log 10 &Sigma; f | G ll ( f k ) S l ( f k ) | 2 &Sigma; f | G ln ( f k ) S n ( f k ) | 2
其中
Figure BDA0000059710540000064
Figure BDA0000059710540000065
分别是估计信号的信噪比和源信号的信噪比,n=1,2,并且n≠l。当计算一个信号
Figure BDA0000059710540000066
Figure BDA0000059710540000067
时,将另一个信号视为噪声。Gij(fk)和Hij(fk)分别是G(fk)和H(fk)的第i行第j列,G(fk)=W(fk)H(fk),其中H(fk)是混合矩阵,W(fk)是分离矩阵。可见,NRR越大,证明分离效果越好。经过每一步排序后的NRR值如图5所示,因为第一步是对基准频带进行排序,而基准频带的数目占频带总数的比例很小,所以NRR提升不明显;经过第二步排序后,绝大部分频带实现正确的对准,NRR有了明显的提高;第三步作为对第二步排序的补充性对准,NRR有了一定的改进。
(2)采集真实语音环境中的混叠语音进行盲分离实验。
在如图6所示房间里以12kHz的采样率采集两段语音信号。观测信号的信噪比为11dB。如图7所示,第1行和第2行是两个观测信号,第3行和第4行显示的是估计出的源信号,最后两行显示的是真实的源信号。通过比较估计信号和真实源信号的波形,观测信号已成功实现盲分离,可见本发明在真实环境中也是适用的。

Claims (3)

1.一种卷积语音信号的频域盲分离排序算法,其特征是,使用卷积混叠模型,对于卷积混叠语音信号,首先由时域转换到频域,在每个频带上使用频域ICA算法进行盲分离,然后按以下步骤进行排序,实现每个频带的对准:
(1)基准频带的对准:选取基准频带进行对准,在所有频带中选取基准频带,假设相邻基准频带间隔偶数个频带,根据对于同一个语音信号在不同频带上能量随时间呈现相似的变化这一特点对基准频带进行排序;
(2)剩余频带的对准:根据已排序好的基准频带对剩余频带进行排序,每个剩余频带都有对应的基准频带,对应的基准频带是指距离该剩余频带最近的基准频带,利用已排序好的基准频带,根据同一语音信号在相邻频带上的幅度相关性这一特点,对每个剩余频带进行排序;
(3)补充性对准:标记可能出现排序错误的频带,利用基于分离矩阵的DOA估计进行补充性对准,对步骤(2)中可能出现对准错误的频带用基于到达角估计的排序方法进行重新排序。
2.根据权利要求1所述的卷积语音信号的频域盲分离排序算法,其特征是:所述步骤(2)的具体实现步骤为:
A.根据分离矩阵计算每个频带上分离出来的信号;
B.计算每个剩余频带与对应的基准频带上分离信号的幅度相关性;
C.遍历所有可能的排序,找到幅度相关性最大的排序即为最终的排序。
3.根据权利要求1所述的卷积语音信号的频域盲分离排序算法,其特征是:所述步骤(3)的具体实现步骤为:
A.若在步骤(2)中对于不同的排序,个别频带上幅度相关性相差不大,则这些频带上有可能出现排序错误,对这些频带进行标记;
B.对标记的频带进行基于分离矩阵的DOA估计;
C.对估计出的DOA进行聚类,即找到分离矩阵相应的排序。
CN2011101170222A 2011-05-06 2011-05-06 卷积语音信号的频域盲分离排序算法 Expired - Fee Related CN102231280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101170222A CN102231280B (zh) 2011-05-06 2011-05-06 卷积语音信号的频域盲分离排序算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101170222A CN102231280B (zh) 2011-05-06 2011-05-06 卷积语音信号的频域盲分离排序算法

Publications (2)

Publication Number Publication Date
CN102231280A CN102231280A (zh) 2011-11-02
CN102231280B true CN102231280B (zh) 2013-04-03

Family

ID=44843840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101170222A Expired - Fee Related CN102231280B (zh) 2011-05-06 2011-05-06 卷积语音信号的频域盲分离排序算法

Country Status (1)

Country Link
CN (1) CN102231280B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102610237A (zh) * 2012-03-21 2012-07-25 山东大学 两通道卷积混合语音信号盲分离算法的dsp实现系统
JP6216550B2 (ja) * 2013-06-25 2017-10-18 クラリオン株式会社 フィルタ係数群演算装置及びフィルタ係数群演算方法
CN103870875B (zh) * 2014-03-18 2016-08-31 中国人民解放军理工大学 一种分离时频域混合信号的方法
KR20170051856A (ko) * 2015-11-02 2017-05-12 주식회사 아이티매직 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치
WO2017094862A1 (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
CN105825866A (zh) * 2016-05-24 2016-08-03 天津大学 基于模糊系统实时卷积混合盲信号分离自适应步长方法
CN106231497B (zh) * 2016-09-18 2022-05-17 智车优行科技(北京)有限公司 车载扬声器播放音量调整装置、方法及车辆
CN106887238B (zh) * 2017-03-01 2020-05-15 中国科学院上海微系统与信息技术研究所 一种基于改进独立向量分析算法的声信号盲分离方法
CN109285557B (zh) * 2017-07-19 2022-11-01 杭州海康威视数字技术股份有限公司 一种定向拾音方法、装置及电子设备
CN108447493A (zh) * 2018-04-03 2018-08-24 西安交通大学 频域卷积盲源分离分频段多质心聚类排序方法
CN110058312B (zh) * 2018-10-22 2020-07-31 南方科技大学 一种抑制地磁近场噪声干扰的方法、装置及终端设备
CN110010148B (zh) * 2019-03-19 2021-03-16 中国科学院声学研究所 一种低复杂度的频域盲分离方法及系统
CN112151061B (zh) * 2019-06-28 2023-12-12 北京地平线机器人技术研发有限公司 信号排序方法和装置、计算机可读存储介质、电子设备
CN112863536A (zh) * 2020-12-24 2021-05-28 深圳供电局有限公司 环境噪声提取方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667425A (zh) * 2009-09-22 2010-03-10 山东大学 一种对卷积混叠语音信号进行盲源分离的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8144896B2 (en) * 2008-02-22 2012-03-27 Microsoft Corporation Speech separation with microphone arrays
CN101819782B (zh) * 2010-03-10 2012-04-18 重庆邮电大学 一种变步长自适应盲源分离方法及盲源分离系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667425A (zh) * 2009-09-22 2010-03-10 山东大学 一种对卷积混叠语音信号进行盲源分离的方法

Also Published As

Publication number Publication date
CN102231280A (zh) 2011-11-02

Similar Documents

Publication Publication Date Title
CN102231280B (zh) 卷积语音信号的频域盲分离排序算法
CN104977558B (zh) 一种基于贝叶斯压缩感知的分布源中心波达方向估计方法
CN101957443B (zh) 声源定位方法
CN110010148B (zh) 一种低复杂度的频域盲分离方法及系统
CN101667425A (zh) 一种对卷积混叠语音信号进行盲源分离的方法
CN107015205B (zh) 一种分布式mimo雷达检测的虚假目标消除方法
CN109243483A (zh) 一种含噪频域卷积盲源分离方法
CN101893698B (zh) 噪声源测试分析方法及其装置
CN109669159A (zh) 基于麦克风十字环阵列的声源定位跟踪装置及方法
CN103338024B (zh) 天线组阵中时延的互补卡尔曼滤波装置与方法
CN104793124A (zh) 基于小波变换和ica特征提取的开关电路故障诊断方法
CN105549037A (zh) 一种高精度卫星导航宽带阵列信号生成方法
CN102495280B (zh) 一种抗噪音宽带频率测量方法及锁相频率计
CN106100769A (zh) 一种多个不同体制卫星下微弱回波信号联合检测方法
CN105403918A (zh) 一种三分量微地震数据有效事件识别方法及系统
CN104665875A (zh) 超声多普勒包络和心率检测方法
CN106330342A (zh) 一种低计算复杂度的水声通信多普勒因子估计方法
CN105282067A (zh) 一种复数域盲源分离方法
CN104408025A (zh) 基于频谱校正的超定盲信号分离方法及其装置
CN104950282B (zh) 连续域内稀疏重构实现的宽带信号超分辨测向方法及装置
CN111446998B (zh) 基于深度学习的波达方向估计方法
CN105429720A (zh) 基于emd重构的相关时延估计方法
CN102624660B (zh) 基于四项加权分数傅里叶变换的窄带干扰抑制的方法
CN108269583B (zh) 一种基于时间延迟直方图的语音分离方法
CN105093191B (zh) 外辐射源雷达直达波恢复方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130403

Termination date: 20150506

EXPY Termination of patent right or utility model