CN100495537C - 强鲁棒性语音分离方法 - Google Patents
强鲁棒性语音分离方法 Download PDFInfo
- Publication number
- CN100495537C CN100495537C CNB2007100248948A CN200710024894A CN100495537C CN 100495537 C CN100495537 C CN 100495537C CN B2007100248948 A CNB2007100248948 A CN B2007100248948A CN 200710024894 A CN200710024894 A CN 200710024894A CN 100495537 C CN100495537 C CN 100495537C
- Authority
- CN
- China
- Prior art keywords
- mtd
- mrow
- centerdot
- msub
- mtr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000000926 separation method Methods 0.000 claims abstract description 48
- 238000001514 detection method Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 abstract description 3
- 239000002131 composite material Substances 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了强鲁棒性语音分离算法,采用单声源作用检测方法检测出单声源作用时段,在单声源作用时段实现分离滤波器估计,两声源同时作用时进行混合语音分离;A)采用单声源作用检测方法,使用检测滤波器Di(n),i=1,2实现单声源作用时段的检测:即检测出只有一个声源(s1或s2)发声的时段。B)当单声源作用时段被检测出后,在单声源作用时段进行分离滤波器Wij(n),i,j=1,2的估计;C)分离滤波器估计完成后,使用分离滤波器分离混合语音,得到分离后的语音信号ui(n),i=1,2。该方法计算量小,更易实现。
Description
一、技术领域
本发明涉及一种实现两混合语音分离而鲁棒性较强的方法。
二、背景技术
鸡尾酒会效应通常会影响语音质量。如何将两个不同方向传来的混合语音分离,现有的解决办法是1)使用扬声器阵列实现波达方向(DOA)识别技术及2)基于独立分量分析(ICA)的盲分离技术。阵列方法主瓣宽度难以做到很窄,旁瓣难以抑制;盲分离技术则要求信号互不相关,这使得此技术的实际应用受阻。
中国专利公开CN00804884.3用于语音识别的声调特性,(皇家菲利浦电子有限公司)增强的声音声调特性首先通过引入带有自适应切除的在线的先行追溯基频(FO)轮廓而得到,这个基频用作为信号预处理前端。FO轮廓随后借助于时变的加权移动平均(MA)滤波器并结合FO轮廓的加权的(更多地关注元音)最小平方而被分解为词汇声调影响、词组语调影响、和随机影响。词组语调影响被定义为发声的FO轮廓的长期趋势,它可用FO轮廓的加权移动平均来近似,而其加权值与信号的周期性程度有关。
CN200510067777.0利用中枢网络分离语音信号,它能够分离和重建在语音信号的频率成分被背景噪声掩盖的环境中传输的语音信号。该语音分离系统从一个音频源获得一个伴有噪声的语音信号。然后噪声语音信号可通过一个已训练为能够从背景噪声中隔离和重建纯净语音信号的中枢网络进行馈送。一旦噪声语音信号通过中枢网络进行馈送,该语音信号分离系统就产生一个充分降噪的估值语音信号。
CN00815076.1语音识别的健壮特征提取方法和装置,涉及一种在有噪声环境下用于语音识别的健壮(robust)特征提取方法和装置,在其中按频谱分量的特征对一个语音信号分段。将语音信号划分成L次能带中的许多短期频谱分量,其中的L=1,2,...,并且根据仅含噪声的片段估算一个噪声频谱。然后根据对应的短期频谱执行对估算的噪声频谱的频谱减法,并且为各个短期频谱分量计算出含噪声的概率。最后为含语音的概率很低的各短期频谱的这些频谱分量执行内插,以便平滑那些仅含噪声的短期频谱。通过对含噪声的频谱分量执行内插就能从近旁找到可靠的频谱语音分量。
但现有技术未涉及混合语音分离过滤,尤其是鲁棒性高,计算量较小的语音分离方法并未作为专利提出。
如图1,假设房间中有两个声源发出音频信号(s1和s2),同时有两个麦克风对信号采样(x1和x2)。如果两声源同时发声,s1和s2通过房间固有的传递函数Hij,i,j=1,2混合,麦克风将会得到混合语音。
三、发明内容
本发明的目的是提供一种鲁棒性高,计算量较小的语音分离算法。该方法假设声源存在足够长的单声源作用时段,采用简单的单声源作用时段检测方法,在单声源作用时段实现分离滤波器估计,两声源同时作用时段进行混合语音分离。
本发明是通过以下技术方案来实现的:
强鲁棒性语音分离方法,采用两路麦克风接收信号x1和x2,且每路信号分别联接分离滤波器Wij(n),i,j=1,2(如图1),同时x1和x2分别联接检测滤波器Di(n),i=1,2(如图2),使用单声源作用检测方法检测出单声源作用时段后,再进行分离滤波器估计,这样,两声源同时作用时就可以进行混合语音分离;本发明提供一种鲁棒性较强的方法,可以实现混合语音的分离,在系统输出分别得到s1和s2还原后的信号u1和u2。方法的关键在于假设声源存在足够长的单声源作用时段(即只有si,i=1或2,作用的时段),此时x1、x2分别为
其中,hji(k)是分离滤波器Hji的第k个系数。利用自适应仿射算法最小化u3-i(n),即得
其中Ai是长度为(L-K+1)的任意滤波器(假设L>K)。
估计出分离滤波器后,两声源同时发声时可以在输出端得到分离后的语音信号
其中,
A)采用单声源作用检测方法,使用检测滤波器Di(n),i=1,2实现单声源作用时段的检测:即检测出只有一个声源(s1或s2)发声的时段。当然,两麦克风接收到的信号(x1和x2)同时输入;
B)当单声源作用时段被检测出后,开始分离滤波器Wij(n),i,j=1,2的估计;
C)使用分离滤波器分离混合语音,得到分离后的语音信号ui(n),i=1,2。
本发明特点是:本发明采用一种简单的单声源作用检测方法,在单声源作用时段进行分离滤波器估计,两声源同时作用时段进行混合语音分离。本方法思路简单,计算量不大,鲁棒性好,较易实现。
四、附图说明
图1为语音混合原理及分离滤波器(四个分离滤波器中,{Wj1}与x1联接,{Wj2}与x2联接,j=1,2)的结构框图;
图2为检测滤波器(两个检测滤波器D1、D2分别与x1、x2联接)的结构框图。
五、具体实施方式
下面通过实施案例对本发明进行详细说明:
如图1,假设房间中有两个声源发出音频信号(s1和s2),两麦克风接收信号,要求麦克风之间的距离大于1米,可以是全指向性的(如麦克风置于房间中间的情况)或者指向声源方向(如麦克风置于房间壁面上的情况)。对于声源的位置没有特别的限制,但两声源之间距离越大,分离效果会越好。检测滤波器的检测、分离滤波器的估计及混合语音的分离均可由软件完成。视听室实地录音中,两扬声器相距1米,两全指向性麦克风相距3米,置于房间中间,该算法在正常的背景噪声下(信噪比为13dB)可达到的信号干扰比(即其任一输出中两声源信号的能量之比值)SIR指标为18dB;低信噪比(5dB)时,SIR仍可达到14dB,完全可以实现混合语音分离,充分体现了此算法的鲁棒性。
本发明实施包括三个阶段:单声源作用检测阶段;分离滤波器估计阶段;及混合语音分离阶段。第一阶段即步骤A)由图2所示滤波器组Di(n),i=1,2实现,第二、三阶段即步骤B)、C)由图1所示滤波器组Wij(n),i,j=1,2实现。第二阶段中,在检测出只有信号s1作用或只有信号s2作用时,对分离滤波器{W1j}{W2j},j=1,2,分别进行估计。
首先令i=1,估计W11和W12(如图1所示x1、x2分别经W11、W12滤波):
(1)即步骤A)两个检测滤波器(如图2x1、x2分别经D1、D2滤波)工作,滤波器长度为L(大小视房间混响时间及采样频率而定),按式(4)(5)更新,步长较大,具体可根据实际情况调节但须满足μj<1,(j=1,2),P=5:
Ei(n)=XT e(n)[DT i(n)DT 3-i(n)]T (4)
Dj(n+1)=Dj(n)-μjXPj(n)[XT Pj(n)XPj(n)+δI]-1Ei(n) (5)
其中,[DT i(n)DT 3-i(n)]是由两滤波器系数依次排列组成的长度为2L的行向量且它的第一个系数固定为1;Xe(n)为2LxP的矩阵,XPj(n)为LxP的矩阵,具体如式(6)(7)所示;I是P阶单位矩阵;δ是一个很小的正数,一般令其为0.01。检测滤波器输出为: Di,l(n)是n时刻检测滤波器的第l个系数。
(2)步骤B)和C)当检测滤波器输出uD(n)的绝对值的平均值(1/N)Σn m=n-N+1|uD(n)|(N的值根据录音的采样频率而定,一般满足样本uD(n)长度达到100ms)小于某一门限T时(T值根据实际情况调节,约为输入信号能量的1/4),说明只有一个声源发声。此时令分离滤波器的系数与测量滤波器的系数相同,即Wij=Dj,j=1,2,并开始分离滤波器更新;输入信号仍为x1和x2,更新公式如(4)(5),其中Dj用Wij代替,但步长减小;
(3)当检测滤波器输出uD(n)的绝对值的平均值(1/N)Σn m=n-N+1|uD(n)|大于T时,说明两个声源同时发声,Wij停止更新,令i=2,重复步骤(1)(2),估计W22和W21(如图1所示x1、x2分别经W22、W21滤波)。
(4)当检测滤波器输出uD(n)的绝对值的平均值(1/N)∑n m=n-N+1|uD(n)|大于T时,Wij停止更新。可以按式(8)进行混合语音分离,得到分离信号uj(n),j=1,2:
其中,wji(l)是分离滤波器Wji的第l个系数。
Claims (4)
1、强鲁棒性语音分离方法,其特征是采用单声源作用检测方法检测单声源作用时段,在检测出的单声源作用时段实现分离滤波器估计,最后利用估计出的分离滤波器实现双声源作用时混合语音的分离;
A)采用单声源作用检测方法,使用检测滤波器Di(n),i=1,2实现单声源作用时段的检测:即检测出只有一个声源(s1或s2)发声的时段。
B)当单声源作用时段被检测出后,在单声源作用时段进行分离滤波器Wij(n),i,j=1,2的估计;
C)分离滤波器估计完成后,使用分离滤波器分离混合语音,得到分离后的语音信号ui(n),i=1,2。
2、根据权利要求1所述的强鲁棒性语音分离方法,其特征是采用两路麦克风接收信号x1和x2,且每路信号分别联接分离滤波器Wij(n),i,j=1,2,同时x1和x2分别联接检测滤波器Di(n),i=1,2:在步骤A)时,检测滤波器Di(n)用于单声源作用时段的检测;步骤B)时,估计分离滤波器Wij(n)。
3、根据权利要求1所述的强鲁棒性语音分离方法,其特征是在步骤A)检测滤波的方法:滤波器长度为L,按下述式(1)、(2)更新,i=1,满足μj<1,(j=1,2),P=5:
Ei(n)=XT e(n)[DT i(n)DT 3-i(n)]T (1)
Dj(n+1)=Dj(n)-μjXPj(n)[XT Pj(n)XPjn)+δI]-1Ei(n) (2)
其中,[DT i(n)DT 3-i(n)]是由两滤波器系数顺次排列组成的长度为2L的行向量且它的第一个系数固定为1;Xe(n)为2LxP的矩阵,XPj(n)为LxP的矩阵,具体如下述式(3)、(4)所示;I是P阶单位矩阵;δ为0.01;
4、根据权利要求3所述的强鲁棒性语音分离方法:其特征是步骤B)和C)中:当检测滤波器输出uD(n)的绝对值的平均值(1/N)∑n m=n-N+1|uD(n)|小于某一门限T时,令分离滤波器的系数与测量滤波器的系数相同,即Wij=Dj,Wij开始更新;输入信号仍为x1和x2,更新公式如式(1)、(2),其中Dj用Wij代替,但步长减小;
当检测滤波器输出uD(n)的绝对值的平均值(1/N)∑n m=n-N+1|uD(n)|大于T时,Wij停止更新,令i=2,重复步骤B);
检测滤波器输出uD(n)的绝对值的平均值(1/N)∑n m=n-N+1|uD(n)|大于T时,Wij停止更新,进行混合语音分离,得到分离信号uj(n),j=1,2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100248948A CN100495537C (zh) | 2007-07-05 | 2007-07-05 | 强鲁棒性语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100248948A CN100495537C (zh) | 2007-07-05 | 2007-07-05 | 强鲁棒性语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101083078A CN101083078A (zh) | 2007-12-05 |
CN100495537C true CN100495537C (zh) | 2009-06-03 |
Family
ID=38912600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007100248948A Expired - Fee Related CN100495537C (zh) | 2007-07-05 | 2007-07-05 | 强鲁棒性语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100495537C (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895114B (zh) * | 2016-03-22 | 2019-09-27 | 南京大学 | 一种基于脉冲响应的房间声传播路径分离方法 |
CN111009257B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN113707136B (zh) * | 2021-10-28 | 2021-12-31 | 南京南大电子智慧型服务机器人研究院有限公司 | 服务型机器人语音交互的音视频混合语音前端处理方法 |
-
2007
- 2007-07-05 CN CNB2007100248948A patent/CN100495537C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101083078A (zh) | 2007-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504539B2 (en) | Voice activity detection systems and methods | |
CN110120227B (zh) | 一种深度堆叠残差网络的语音分离方法 | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
Araki et al. | Exploring multi-channel features for denoising-autoencoder-based speech enhancement | |
CN103854662B (zh) | 基于多域联合估计的自适应语音检测方法 | |
CN109065067A (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
EP1443498A1 (en) | Noise reduction and audio-visual speech activity detection | |
Visser et al. | A spatio-temporal speech enhancement scheme for robust speech recognition in noisy environments | |
GB2398913A (en) | Noise estimation in speech recognition | |
Roman et al. | Pitch-based monaural segregation of reverberant speech | |
CN111312275B (zh) | 一种基于子带分解的在线声源分离增强系统 | |
CN113096684A (zh) | 一种基于双麦克风阵列的目标语音提取方法 | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
JP2011033717A (ja) | 雑音抑圧装置 | |
CN100495537C (zh) | 强鲁棒性语音分离方法 | |
Fan et al. | A regression approach to binaural speech segregation via deep neural network | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
Seltzer | Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays | |
Tu et al. | LSTM-based iterative mask estimation and post-processing for multi-channel speech enhancement | |
Chen et al. | Sub-band based additive noise removal for robust speech recognition. | |
Blouet et al. | Evaluation of several strategies for single sensor speech/music separation | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
Li et al. | Beamformed feature for learning-based dual-channel speech separation | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090603 Termination date: 20100705 |