CN108986838A - 一种基于声源定位的自适应语音分离方法 - Google Patents
一种基于声源定位的自适应语音分离方法 Download PDFInfo
- Publication number
- CN108986838A CN108986838A CN201811086181.9A CN201811086181A CN108986838A CN 108986838 A CN108986838 A CN 108986838A CN 201811086181 A CN201811086181 A CN 201811086181A CN 108986838 A CN108986838 A CN 108986838A
- Authority
- CN
- China
- Prior art keywords
- sound source
- matrix
- frequency point
- signal
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 51
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 19
- 230000004807 localization Effects 0.000 title claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 79
- 230000009467 reduction Effects 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000005516 engineering process Methods 0.000 claims abstract description 24
- 239000004615 ingredient Substances 0.000 claims abstract description 18
- 230000002087 whitening effect Effects 0.000 claims abstract description 6
- 230000007613 environmental effect Effects 0.000 claims abstract description 4
- 230000005236 sound signal Effects 0.000 claims abstract description 4
- 239000000203 mixture Substances 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000012880 independent component analysis Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000004568 cement Substances 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 5
- 230000003213 activating effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种基于声源定位的自适应语音分离方法,涉及信息处理技术领域。包括:采集被观测环境音频信号,确认声音源个数和每个声音源的波达方向;生成降维矩阵P;生成语音传递矩阵和延迟叠加波束系数;判定频率点处的活跃声源并分离语音成分;获取得到的语音成分并将未激活声源成分置零;得到各个声源的时域语音信号。本方法通过声源定位技术获得当前环境下的声源数目与方位,配合PCA白化技术对语音信号的各个频段进行降维获得初始分离矩阵,通过频率点激活声源数目自适应的使用波束形成技术与FDICA技术分离各个声源通道的频率成分还原各个语音成分,获得的信噪比提升特性更高,具有更好的噪声抑制性能,适用于真实语音环境下的任意声源情形。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于声源定位的自适应语音分离方法。
背景技术
在免提电话、教室等复杂应用环境下的语音系统中,有效的屏蔽外界各种信号干扰、增强语音纯净度是提高语音系统性能的重要问题之一。语音分离技术的使用可以有效地提取目标语音、去除噪声干扰,从而增强语音信号的信噪比。然而,由于语音环境的复杂多变、多语音混合时的特性耦合等原因,当前基于麦克风阵列的语音分离技术仍存在分离程度低、鲁棒性差,无法在任意声源环境下自适应对语音进行分离提取的问题。因此,针对当前语音分离方法的技术缺陷,设计一种真实语音环境中自适应语音分离方法,具有非常重要的意义。
发明内容
针对现有技术存在的问题,本发明提供一种基于声源定位的自适应语音分离方法,通过声源定位技术获得当前环境下的声源数目与方位,配合PCA白化技术对语音信号的各个频段进行有效降维,且获得初始分离矩阵,通过对频率点激活声源数目的判断自适应的使用波束形成技术与FDICA技术分离各个声源通道的频率成分,以达到在真实语音环境中、任意声源数目下有效稳定地分离语音的目的。
为了实现上述目的,一种基于声源定位的自适应语音分离方法,包括以下步骤:
步骤1:采用M个麦克风组成的麦克风阵列采集被观测环境音频信号,确认该环境声音源个数和每个声音源的波达方向,具体步骤如下:
步骤1.1:对各通道语音信号进行分帧、加窗处理;
步骤1.2:使用语音端点检测技术通过判别各个帧的信号能量强度去除不包含语音成分的音频帧;
步骤1.3:将筛选后包含语音成分的音频帧信号进行短时傅里叶变换,将时域信号转换为频域信号;
步骤1.4:对频域信号进行频段划分,每段频域保证包含十个以上频率点且有重叠,计算划分后的每一个频段的能量独立性;
步骤1.5:通过归一化的通道能量互相关结果对每一个频段的能量独立性进行验证,去除不通过独立性验证的频率分段;
步骤1.6:选取通过筛选的频段信号中能量最大的时频点,对选定的时频点进行延迟叠加波束形成,并生成投票结果;
步骤1.7:将所有帧的各个频段的投票结果进行汇总,并对汇总结果进行平滑处理得到平滑方向矢量y(v),其中,变量v的取值范围为1~360°;
步骤1.8:使用追踪匹配技术结合窗函数确定声源数目与各个声源的入射角度,具体步骤如下:
(1)令窗函数窗长为Q=Q0+1,将窗函数以中心从1到360°为中心依次位移,生成360行窗矩阵R,令该矩阵与平滑方向矢量y(v)相乘:
A=R*yt(v);
式中,取t=0,表示平滑方向矢量的初始值;
(2)找出A中的最大值as,即
s=arg maxs as;
此时,若as大于设定阈值,则表示该方向存在声源,s即为匹配到的声源方向角;
所述设定阈值选取方向矢量y(v)为均匀分布时得到的A值;
(3)从当前的方向矢量yt中去除该R中第s行窗函数选定的方向成分,即:
yt+1=yt-Rs.*yt;
式中,yt+1表示去除了第t个声源的方向成分,Rs表示窗矩阵R的第s行,.*表示矢量与矢量对位相乘;
令t=t+1,重复上述过程,直到as小于设定阈值,或者t大于设定最大声源数目Pmax;
所述最大声源数目Pmax根据具体应用情形设定,且不大于麦克风数目;
步骤2:通过PCA白化技术,对语音信号的各个频率成分进行降维,生成降维矩阵P,具体步骤如下:
步骤2.1:计算各个通道信号在每个频率点处的协方差矩阵;
步骤2.2:对各个频率点的协方差矩阵进行特征值分解,去除特征值低于阈值的特征值与特征向量对;
步骤2.3:将各个频率点处的特征值与特征向量按照从大到小排列,并保留至少一个最多等于步骤1确定的声源数目个特征值与对应的特征向量;
步骤2.4:将各个频率点的特征值构成对角阵E,特征向量按列与特征值对应构成矩阵D,构成降维矩阵为V=D-1/2EH;
步骤3:利用步骤1的声源入射角度结果生成语音信号的各通道传递系数,生成语音传递矩阵H和延迟叠加波束系数Beam;
步骤4:根据波束系数Beam对各个频率点进行波束形成,结合该频率点处的特征值与特征向量的个数判定该频率点处的活跃声源;若频率点处的特征值与特征向量的个数为1,则选取最终能量最大的方向为该频率点成分的归属声源,继续步骤5,若频率点处的特征值与特征向量的个数大于1,则选取能量最大且不超过步骤1中确立声源数目的角度为该频率点处的活跃声源,继续步骤6;
步骤5:对频率点通过波束形成技术进行语音增强,并分离频率点的语音成分,然后执行步骤7;
所述分离频率点的语音成分的公式如下:
Xy(ω)=Beam(ω)*X(ω);
其中,Xy(ω)表示经过算法得到的分离信号;
步骤6:利用波束形成技术与独立成分分析技术,分离频率点的语音成分,具体过程如下:
步骤6.1:通过降维矩阵V对频率点信号进行降维,得到降维频率点信号X’(ω);
步骤6.2:选取频率点处激活声源对应的传递矩阵H与降维矩阵V相乘,生成混合矩阵O,并对矩阵O求逆获得初始分离矩阵Wo;
步骤6.3:使用FDICA对降维信号进行分离矩阵迭代,迭代公式为:
Wk+1(ω)=η[I-<φ(y(ω))yH(ω)>r]Wk(ω)+Wk(ω);
式中,W为迭代的分离矩阵,η为迭代步长,H表示共轭转置,k为迭代次数,y(ω)=Wk(ω)*X(ω)为通过第k次迭代得到的分离矩阵分离得到的结果,< >r为对帧求平均算子,函数为非线性函数,定义如下:
φ(y(ω))=tanh(Re(y(ω)))+g·tanh(Im(y(ω)));
式中,Re表示取实部运算,Im表示取虚部运算,g为虚数单位;
步骤6.4:判断信号非线性相关性是否低于阈值或迭代次数是否超过最大迭代次数,若信号非线性相关性低于阈值或迭代步骤超过设定阈值时,停止迭代并输出分离矩阵W,否则,返回步骤6.3;
步骤6.5:将频率点通过分离矩阵对降维信号进行频率点的语音成分的分离;
所述进行频率点的语音成分的分离的公式如下:
X′y(ω)=W*X′(ω);
步骤6.6:将分离矩阵W与混合矩阵O相乘得到语音信号的近似完整传递矩阵I,将分离信号X′y(ω)依次除以矩阵I的对角元素去除频率点语音成分进行降维与分离时引入的信号能量变化,得到复原后的频率点语音成分Xy(ω),然后执行步骤7;
步骤7:对步骤5与步骤6分离得到的各个频率点处的语音成分进行获取,并将各频率段处未激活声源成分置零;
步骤8:将各个声源的通道成分进行反傅里叶变换,合并各个分帧并去除窗函数,得到各个声源的时域语音信号。
本发明的有益效果:
本发明提出一种基于声源定位的自适应语音分离方法,通过声源定位技术获得当前环境下的声源数目与方位,配合PCA白化技术对语音信号的各个频段进行有效降维,且获得初始分离矩阵,通过对频率点激活声源数目的判断自适应的使用波束形成技术与FDICA技术分离各个声源通道的频率成分,最终还原各个语音成分,本方法适用于真实语音环境下的任意声源情形,相对于传统语音分离算法,能够获得更高的信噪比提升特性,具有更好的噪声抑制性能。
附图说明
图1为本发明实施例中基于声源定位的自适应语音分离方法的流程图;
图2为本发明实施例中原始未混合语音波形图;
其中,(a)为原始语音信号1的波形图;(b)为原始语音信号2的波形图;
图3为本发明实施例中麦克风阵列中心处混合语音信号波形图;
图4为本发明实施例中经过语音分离后的语音波形图;
其中,(a)为经过语音分离后的语音信号1的波形图;(b)为经过语音分离后的语音信号2的波形图。
具体实施方式
为了使本发明的目的、技术方案及优势更加清晰,下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于声源定位的自适应语音分离方法,流程如图1所示,具体方法如下所述:
步骤1:采用M个麦克风组成的麦克风阵列采集被观测环境音频信号,确认该环境声音源个数和每个声音源的波达方向,具体步骤如下:
步骤1.1:对各通道语音信号进行分帧、加窗处理;
步骤1.2:使用语音端点检测技术通过判别各个帧的信号能量强度去除不包含语音成分的音频帧;
所述不包含语音成分的音频帧根据能量阈值由最大能量帧与最小能量帧的能量强度自适应决定,能量强度小于h的帧即为不包含语音成分的音频帧,具体公式如下:
h=min(hmax/a,hmin*b);
式中,hmax为最大能量帧强度,hmin为最小能量帧强度,a和b为设定比值。
本实施例中,a和b为设定比值推荐设定3~5。
步骤1.3:将筛选后包含语音成分的音频帧信号进行短时傅里叶变换,将时域信号转换为频域信号;
步骤1.4:对频域信号进行频段划分,每段频域保证包含十个以上频率点且有重叠,计算划分后的每一个频段的能量独立性;
所述计算频段能量独立性的公式如下:
式中,Ω表示当前进行独立性判断的频率范围,Ri,j(Ω)表示在Ω频率范围内麦克风通道i和通道j间的信号能量相关性,ω表示频率点,Xi(ω)为麦克风通道i的频域信号,Xj(ω)*为麦克风通道j的频域信号的共轭转置,||表示取绝对值。
本实施例中,推荐每段频域之间有二分之一的重叠。
步骤1.5:通过归一化的通道能量互相关结果对每一个频段的能量独立性进行验证,去除不通过独立性验证的频率分段;
所述归一化的通道能量互相关结果的计算公式如下:
式中,ri,j(Ω)为麦克风通道i和通道j归一化的通道能量互相关结果。
本实施例中,通过设定阈值去除不通过独立性验证的频率分段,阈值建议设定0.8-0.9。
步骤1.6:选取通过筛选的频段信号中能量最大的时频点,对选定的时频点进行延迟叠加波束形成,并生成投票结果;
所述对时频点进行延迟叠加波束形成的公式如下:
式中,P表示波束能量,ω表示频率点,q表示波束指向,m表示麦克风通道,且m∈M,g为虚数单位,且g∈M,τ为各个麦克风在q指向方向上距离阵列中心的传播时间;
所述生成投票结果的公式如下:
式中,为最大波束能量的指向q,将该指向方位认定为该频率段的投票结果。
本实施例中,选取时频点的数目依据应用需求与具体环境,推荐1-5个。q的扫描范围依据于具体运用,推荐为麦克风阵列的水平360°范围,扫描间隔为1°。
步骤1.7:将所有帧的各个频段的投票结果进行汇总,并对汇总结果进行平滑处理;
所述平滑处理的公式如下:
式中,y(v)为平滑后的投票结果,y(i)为平滑前的投票结果,w()为均值滤波的窗函数,hN为窗长。
本实施例中,推荐设定宽度为5~10°。
步骤1.8:使用追踪匹配技术结合窗函数确定声源数目与各个声源的入射角度,具体步骤如下:
(1)令窗函数窗长为Q=Q0+1,将窗函数以中心从1到360°为中心依次位移,生成360行窗矩阵R,令该矩阵与平滑方向矢量y(v)相乘:
A=R*yt(v);
式中,取t=0,表示平滑方向矢量的初始值;
(2)找出A中的最大值as,即
s=arg maxs as;
此时,若as大于设定阈值,则表示该方向存在声源,s即为匹配到的声源方向角。
所述设定阈值选取方向矢量y(v)为均匀分布时得到的A值;
(3)从当前的方向矢量yt中去除该R中第i行窗函数选定的方向成分,即:
yt+1=yt-Rs.*yt;
式中,yt+1表示去除了第t个声源的方向成分,Rs表示窗矩阵R的第s行,.*表示矢量与矢量对位相乘。
令t=t+1,重复上述过程,直到as小于某个人为设定的阈值,或者t大于设定最大声源数目Pmax;
所述最大声源数目Pmax根据具体应用情形设定,且不大于麦克风数目。
本实施例中,推荐设定最大声源数目Pmax为6~8。
步骤2:通过PCA白化技术,对语音信号的各个频率成分进行降维,生成降维矩阵P,具体步骤如下:
步骤2.1:计算各个通道信号在每个频率点处的协方差矩阵;
步骤2.2:对各个频率点的协方差矩阵进行特征值分解,去除特征值低于阈值的特征值与特征向量对;
本实施例中,阈值设定范围为1~10-7。
步骤2.3:将各个频率点处的特征值与特征向量按照从大到小排列,并保留至少一个最多等于步骤1确定的声源数目个特征值与对应的特征向量;
步骤2.4:将各个频率点的特征值构成对角阵E,特征向量按列与特征值对应构成矩阵D,构成降维矩阵为V=D-1/2EH;
步骤3:利用步骤1的声源入射角度结果生成语音信号的各通道传递系数,生成语音传递矩阵H和延迟叠加波束系数Beam;
式中,θ为声源角度,ω为频率点;
步骤4:根据波束系数Beam对各个频率点进行波束形成,结合该频率点处的特征值与特征向量的个数判定该频率点处的活跃声源;若频率点处的特征值与特征向量的个数为1,则选取最终能量最大的方向为该频率点成分的归属声源,继续步骤5,若频率点处的特征值与特征向量的个数大于1,则选取能量最大且不超过步骤1中确立声源数目的角度为该频率点处的活跃声源,继续步骤6;
步骤5:对频率点通过波束形成技术进行语音增强,并分离频率点的语音成分,然后执行步骤7;
所述分离频率点的语音成分的公式如下:
Xy(ω)=Beam(ω)*X(ω);
其中,Xy(ω)表示经过算法得到的分离信号;
步骤6:利用波束形成技术与独立成分分析技术,分离频率点的语音成分,具体过程如下:
步骤6.1:通过降维矩阵V对频率点信号进行降维,得到降维频率点信号X’(ω);
所述降维公式如下:
X′(ω)=V*X(ω);
步骤6.2:选取频率点处激活声源对应的传递矩阵H与降维矩阵V相乘,生成混合矩阵O,并对矩阵O求逆获得初始分离矩阵Wo;
所述初始分离矩阵Wo的计算公式如下:
Wo=O-1;
O=V*H;
步骤6.3:使用FDICA对降维信号进行分离矩阵迭代,迭代公式为:
Wk+1(ω)=η[I-<φ(y(ω))yH(ω)>r]Wk(ω)+Wk(ω);
式中,W为迭代的分离矩阵,η为迭代步长,H表示共轭转置,k为迭代次数,y(ω)=Wk(ω)*X(ω)为通过第k次迭代得到的分离矩阵分离得到的结果,< >r为对帧求平均算子,函数为非线性函数,定义如下:
φ(y(ω))=tanh(Re(y(ω)))+g·tanh(Im(y(ω)));
式中,Re表示取实部运算,Im表示取虚部运算;
本实施例中,迭代步长推荐范围为0.1~10-4。
步骤6.4:判断信号非线性相关性是否低于阈值或迭代次数是否超过最大迭代次数,若信号非线性相关性低于阈值或迭代步骤超过设定阈值时,停止迭代并输出分离矩阵W,否则,返回步骤6.3;
本实施例中,相关性阈值推荐10-4,迭代步骤阈值推荐100~1000。
步骤6.5:将频率点通过分离矩阵对降维信号进行频率点的语音成分的分离,然后执行步骤7;
所述进行频率点的语音成分的分离的公式如下:
X′y(ω)=W*X′(ω);
步骤6.6:将分离矩阵W与混合矩阵O相乘得到语音信号的近似完整传递矩阵I,将分离信号X′y(ω)依次除以矩阵I的对角元素去除频率点语音成分进行降维与分离时引入的信号能量变化,得到复原后的频率点语音成分Xy(ω);
步骤7:对步骤5与步骤6分离得到的各个频率点处的语音成分进行获取,并将各频率段处未激活声源成分置零;
步骤8:将各个声源的通道成分进行反傅里叶变换,合并各个分帧并去除窗函数,得到各个声源的时域语音信号。
本实施例中,选取原始语音波形如图2所示,通过本方法先使用麦克风阵列中心处混合语音信号,形成的波形如图3所示,再进行语音成分分离后,得到分离语音波形如图4所示。由如4可以看出,本实施例分离结果优良,信号分离后信噪比分别提升了15.81dB和19.12dB,由于针对各个时频点进行了构成判定,该方法得以自适应的选取波束形成与频域独立成分分析两种算法进行信号增强与分离,从而在保证分离效果优良的前提下极大化的降低了计算复杂度。通过调整PCA降维中的设定阈值,该方法在实际使用环境或实时系统中得以灵活地控制计算量,在有限计算资源下获得较好的语音信号分离效果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;因而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (5)
1.一种基于声源定位的自适应语音分离方法,其特征在于,包括以下步骤:
步骤1:采用M个麦克风组成的麦克风阵列采集被观测环境音频信号,确认该环境声音源个数和每个声音源的波达方向;
步骤2:通过PCA白化技术,对语音信号的各个频率成分进行降维,生成降维矩阵P;
步骤3:利用步骤1的声源入射角度结果生成语音信号的各通道传递系数,生成语音传递矩阵H和延迟叠加波束系数Beam;
步骤4:根据波束系数Beam对各个频率点进行波束形成,结合该频率点处的特征值与特征向量的个数判定该频率点处的活跃声源;若频率点处的特征值与特征向量的个数为1,则选取最终能量最大的方向为该频率点成分的归属声源,继续步骤5,若频率点处的特征值与特征向量的个数大于1,则选取能量最大且不超过步骤1中确立声源数目的角度为该频率点处的活跃声源,继续步骤6;
步骤5:对频率点通过波束形成技术进行语音增强,并分离频率点的语音成分,然后执行步骤7;
所述分离频率点的语音成分的公式如下:
Xy(ω)=Beam(ω)*X(ω);
其中,Xy(ω)表示经过算法得到的分离信号;
步骤6:利用波束形成技术与独立成分分析技术,分离频率点的语音成分,然后执行步骤7;
步骤7:对步骤5与步骤6分离得到的各个频率点处的语音成分进行获取,并将各频率段处未激活声源成分置零;
步骤8:将各个声源的通道成分进行反傅里叶变换,合并各个分帧并去除窗函数,得到各个声源的时域语音信号。
2.根据权利要求1所述的基于声源定位的自适应语音分离方法,其特征在于,所述步骤1包括如下步骤:
步骤1.1:对各通道语音信号进行分帧、加窗处理;
步骤1.2:使用语音端点检测技术通过判别各个帧的信号能量强度去除不包含语音成分的音频帧;
步骤1.3:将筛选后包含语音成分的音频帧信号进行短时傅里叶变换,将时域信号转换为频域信号;
步骤1.4:对频域信号进行频段划分,每段频域保证包含十个以上频率点且有重叠,计算划分后的每一个频段的能量独立性;
步骤1.5:通过归一化的通道能量互相关结果对每一个频段的能量独立性进行验证,去除不通过独立性验证的频率分段;
步骤1.6:选取通过筛选的频段信号中能量最大的时频点,对选定的时频点进行延迟叠加波束形成,并生成投票结果;
步骤1.7:将所有帧的各个频段的投票结果进行汇总,并对汇总结果进行平滑处理得到平滑方向矢量y(v),其中,变量v的取值范围为1~360°;
步骤1.8:使用追踪匹配技术结合窗函数确定声源数目与各个声源的入射角度。
3.根据权利要求2所述的基于声源定位的自适应语音分离方法,其特征在于,所述步骤1.8包括如下步骤:
(1)令窗函数窗长为Q=Q0+1,将窗函数以中心从1到360°为中心依次位移,生成360行窗矩阵R,令该矩阵与平滑方向矢量y(v)相乘:
A=R*yt(v);
式中,取t=0,表示平滑方向矢量的初始值;
(2)找出A中的最大值as,即
s=arg maxsas;
此时,若as大于设定阈值,则表示该方向存在声源,s即为匹配到的声源方向角;
所述设定阈值选取方向矢量y(v)为均匀分布时得到的A值;
(3)从当前的方向矢量yt中去除该R中第i行窗函数选定的方向成分,即:
yt+1=yt-Rs.*yt;
式中,yt+1表示去除了第t个声源的方向成分,Rs表示窗矩阵R的第s行,.*表示矢量与矢量对位相乘;
令t=t+1,重复上述过程,直到as小于某个人为设定的阈值,或者t大于设定最大声源数目Pmax;
所述最大声源数目Pmax根据具体应用情形设定,且不大于麦克风数目。
4.根据权利要求1所述的基于声源定位的自适应语音分离方法,其特征在于,所述步骤2包括如下步骤:
步骤2.1:计算各个通道信号在每个频率点处的协方差矩阵;
步骤2.2:对各个频率点的协方差矩阵进行特征值分解,去除特征值低于阈值的特征值与特征向量对;
步骤2.3:将各个频率点处的特征值与特征向量按照从大到小排列,并保留至少一个最多等于步骤1确定的声源数目个特征值与对应的特征向量;
步骤2.4:将各个频率点的特征值构成对角阵E,特征向量按列与特征值对应构成矩阵D,构成降维矩阵为V=D-1/2EH。
5.根据权利要求1所述的基于声源定位的自适应语音分离方法,其特征在于,所述步骤6包括如下步骤:
步骤6.1:通过降维矩阵V对频率点信号进行降维,得到降维频率点信号X’(ω);
步骤6.2:选取频率点处激活声源对应的传递矩阵H与降维矩阵V相乘,生成混合矩阵O,并对矩阵O求逆获得初始分离矩阵Wo;
步骤6.3:使用FDICA对降维信号进行分离矩阵迭代,迭代公式为:
Wk+1(ω)=η[I-<φ(y(ω))yH(ω)>r]Wk(ω)+Wk(ω);
式中,W为迭代的分离矩阵,η为迭代步长,H表示共轭转置,k为迭代次数,y(ω)=Wk(ω)*X(ω)为通过第k次迭代得到的分离矩阵分离得到的结果,<>r为对帧求平均算子,函数为非线性函数,定义如下:
φ(y(ω))=tanh(Re(y(ω)))+g·tanh(Im(y(ω)));
式中,Re表示取实部运算,Im表示取虚部运算,g为虚数单位;
步骤6.4:判断信号非线性相关性是否低于阈值或迭代次数是否超过最大迭代次数,若信号非线性相关性低于阈值或迭代步骤超过设定阈值时,停止迭代并输出分离矩阵W,否则,返回步骤6.3;
步骤6.5:将频率点通过分离矩阵对降维信号进行频率点的语音成分的分离;
所述进行频率点的语音成分的分离的公式如下:
X′y(ω)=W*X′(ω);
步骤6.6:将分离矩阵W与混合矩阵O相乘得到语音信号的近似完整传递矩阵I,将分离信号X′y(ω)依次除以矩阵I的对角元素去除频率点语音成分进行降维与分离时引入的信号能量变化,得到复原后的频率点语音成分Xy(ω)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811086181.9A CN108986838B (zh) | 2018-09-18 | 2018-09-18 | 一种基于声源定位的自适应语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811086181.9A CN108986838B (zh) | 2018-09-18 | 2018-09-18 | 一种基于声源定位的自适应语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108986838A true CN108986838A (zh) | 2018-12-11 |
CN108986838B CN108986838B (zh) | 2023-01-20 |
Family
ID=64545236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811086181.9A Active CN108986838B (zh) | 2018-09-18 | 2018-09-18 | 一种基于声源定位的自适应语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108986838B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109831731A (zh) * | 2019-02-15 | 2019-05-31 | 杭州嘉楠耘智信息科技有限公司 | 音源定向方法及装置和计算机可读存储介质 |
CN109920405A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 多路语音识别方法、装置、设备及可读存储介质 |
CN110010148A (zh) * | 2019-03-19 | 2019-07-12 | 中国科学院声学研究所 | 一种低复杂度的频域盲分离方法及系统 |
CN110415718A (zh) * | 2019-09-05 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110491412A (zh) * | 2019-08-23 | 2019-11-22 | 北京市商汤科技开发有限公司 | 声音分离方法和装置、电子设备 |
CN110646763A (zh) * | 2019-10-10 | 2020-01-03 | 出门问问信息科技有限公司 | 一种基于语义的声源定位方法、装置及存储介质 |
CN110992977A (zh) * | 2019-12-03 | 2020-04-10 | 北京声智科技有限公司 | 一种目标声源的提取方法及装置 |
CN111724801A (zh) * | 2020-06-22 | 2020-09-29 | 北京小米松果电子有限公司 | 音频信号处理方法及装置、存储介质 |
CN111863015A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN111933182A (zh) * | 2020-08-07 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 声源跟踪方法、装置、设备和存储介质 |
CN112180447A (zh) * | 2019-07-04 | 2021-01-05 | 中国石油天然气集团有限公司 | 一种消除储层强反射屏蔽的方法及系统 |
CN112216295A (zh) * | 2019-06-25 | 2021-01-12 | 大众问问(北京)信息科技有限公司 | 一种声源定位方法、装置及设备 |
CN112242149A (zh) * | 2020-12-03 | 2021-01-19 | 北京声智科技有限公司 | 音频数据的处理方法、装置、耳机及计算机可读存储介质 |
CN112492452A (zh) * | 2020-11-26 | 2021-03-12 | 北京字节跳动网络技术有限公司 | 波束系数存储方法、装置、设备和存储介质 |
CN112863537A (zh) * | 2021-01-04 | 2021-05-28 | 北京小米松果电子有限公司 | 一种音频信号处理方法、装置及存储介质 |
CN113077779A (zh) * | 2021-03-10 | 2021-07-06 | 泰凌微电子(上海)股份有限公司 | 一种降噪方法、装置、电子设备以及存储介质 |
CN113312985A (zh) * | 2021-05-10 | 2021-08-27 | 中国地质大学(武汉) | 一种视听双模态的360度全方位说话人定位方法 |
CN113314135A (zh) * | 2021-05-25 | 2021-08-27 | 北京小米移动软件有限公司 | 声音信号识别方法及装置 |
WO2021228059A1 (zh) * | 2020-05-14 | 2021-11-18 | 华为技术有限公司 | 一种固定声源识别方法及装置 |
CN113687304A (zh) * | 2021-07-07 | 2021-11-23 | 浙江大华技术股份有限公司 | 直达声检测方法、系统以及计算机可读存储介质 |
CN116504264A (zh) * | 2023-06-30 | 2023-07-28 | 小米汽车科技有限公司 | 音频处理方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100017206A1 (en) * | 2008-07-21 | 2010-01-21 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
CN102164328A (zh) * | 2010-12-29 | 2011-08-24 | 中国科学院声学研究所 | 一种用于家庭环境的基于传声器阵列的音频输入系统 |
-
2018
- 2018-09-18 CN CN201811086181.9A patent/CN108986838B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100017206A1 (en) * | 2008-07-21 | 2010-01-21 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
CN102164328A (zh) * | 2010-12-29 | 2011-08-24 | 中国科学院声学研究所 | 一种用于家庭环境的基于传声器阵列的音频输入系统 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109831731A (zh) * | 2019-02-15 | 2019-05-31 | 杭州嘉楠耘智信息科技有限公司 | 音源定向方法及装置和计算机可读存储介质 |
CN109920405A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 多路语音识别方法、装置、设备及可读存储介质 |
CN110010148A (zh) * | 2019-03-19 | 2019-07-12 | 中国科学院声学研究所 | 一种低复杂度的频域盲分离方法及系统 |
CN111863015A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN112216295A (zh) * | 2019-06-25 | 2021-01-12 | 大众问问(北京)信息科技有限公司 | 一种声源定位方法、装置及设备 |
CN112216295B (zh) * | 2019-06-25 | 2024-04-26 | 大众问问(北京)信息科技有限公司 | 一种声源定位方法、装置及设备 |
CN112180447A (zh) * | 2019-07-04 | 2021-01-05 | 中国石油天然气集团有限公司 | 一种消除储层强反射屏蔽的方法及系统 |
CN110491412A (zh) * | 2019-08-23 | 2019-11-22 | 北京市商汤科技开发有限公司 | 声音分离方法和装置、电子设备 |
CN110415718B (zh) * | 2019-09-05 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110415718A (zh) * | 2019-09-05 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
CN110646763A (zh) * | 2019-10-10 | 2020-01-03 | 出门问问信息科技有限公司 | 一种基于语义的声源定位方法、装置及存储介质 |
CN110992977A (zh) * | 2019-12-03 | 2020-04-10 | 北京声智科技有限公司 | 一种目标声源的提取方法及装置 |
WO2021228059A1 (zh) * | 2020-05-14 | 2021-11-18 | 华为技术有限公司 | 一种固定声源识别方法及装置 |
CN111724801A (zh) * | 2020-06-22 | 2020-09-29 | 北京小米松果电子有限公司 | 音频信号处理方法及装置、存储介质 |
CN111933182A (zh) * | 2020-08-07 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 声源跟踪方法、装置、设备和存储介质 |
CN111933182B (zh) * | 2020-08-07 | 2024-04-19 | 抖音视界有限公司 | 声源跟踪方法、装置、设备和存储介质 |
CN112492452A (zh) * | 2020-11-26 | 2021-03-12 | 北京字节跳动网络技术有限公司 | 波束系数存储方法、装置、设备和存储介质 |
CN112492452B (zh) * | 2020-11-26 | 2022-08-26 | 北京字节跳动网络技术有限公司 | 波束系数存储方法、装置、设备和存储介质 |
CN112242149B (zh) * | 2020-12-03 | 2021-03-26 | 北京声智科技有限公司 | 音频数据的处理方法、装置、耳机及计算机可读存储介质 |
CN112242149A (zh) * | 2020-12-03 | 2021-01-19 | 北京声智科技有限公司 | 音频数据的处理方法、装置、耳机及计算机可读存储介质 |
CN112863537A (zh) * | 2021-01-04 | 2021-05-28 | 北京小米松果电子有限公司 | 一种音频信号处理方法、装置及存储介质 |
CN112863537B (zh) * | 2021-01-04 | 2024-06-04 | 北京小米松果电子有限公司 | 一种音频信号处理方法、装置及存储介质 |
CN113077779A (zh) * | 2021-03-10 | 2021-07-06 | 泰凌微电子(上海)股份有限公司 | 一种降噪方法、装置、电子设备以及存储介质 |
CN113312985A (zh) * | 2021-05-10 | 2021-08-27 | 中国地质大学(武汉) | 一种视听双模态的360度全方位说话人定位方法 |
CN113314135A (zh) * | 2021-05-25 | 2021-08-27 | 北京小米移动软件有限公司 | 声音信号识别方法及装置 |
CN113314135B (zh) * | 2021-05-25 | 2024-04-26 | 北京小米移动软件有限公司 | 声音信号识别方法及装置 |
CN113687304A (zh) * | 2021-07-07 | 2021-11-23 | 浙江大华技术股份有限公司 | 直达声检测方法、系统以及计算机可读存储介质 |
CN116504264A (zh) * | 2023-06-30 | 2023-07-28 | 小米汽车科技有限公司 | 音频处理方法、装置、设备及存储介质 |
CN116504264B (zh) * | 2023-06-30 | 2023-10-31 | 小米汽车科技有限公司 | 音频处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108986838B (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986838A (zh) | 一种基于声源定位的自适应语音分离方法 | |
CN107919133B (zh) | 针对目标对象的语音增强系统及语音增强方法 | |
CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
Pedersen et al. | Convolutive blind source separation methods | |
CN109817209A (zh) | 一种基于双麦克风阵列的智能语音交互系统 | |
CN103854660B (zh) | 一种基于独立成分分析的四麦克语音增强方法 | |
CN106504763A (zh) | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 | |
CN108768543B (zh) | 多特征融合认知型水声通信空快时自适应处理算法 | |
CN105393305A (zh) | 用于处理声音信号的方法 | |
CN101325061A (zh) | 用于音频信号处理的方法和装置 | |
CN113096684A (zh) | 一种基于双麦克风阵列的目标语音提取方法 | |
CN108091345A (zh) | 一种基于支持向量机的双耳语音分离方法 | |
CN102760435A (zh) | 一种语音信号频域盲解卷积方法 | |
CN108564962A (zh) | 基于四面体麦克风阵列的无人机声音信号增强方法 | |
CN107635181A (zh) | 一种基于信道学习的多址感知源反馈优化方法 | |
Hu et al. | Robust binaural sound localisation with temporal attention | |
Cobos et al. | Two-microphone separation of speech mixtures based on interclass variance maximization | |
CN114639398B (zh) | 一种基于麦克风阵列的宽带doa估计方法 | |
Yang et al. | Monaural speech separation method based on recurrent attention with parallel branches | |
Ihara et al. | Multichannel speech separation and localization by frequency assignment | |
Nakatani et al. | Reduction of Highly Nonstationary Ambient Noise by Integrating Spectral and Locational Characteristics of Speech and Noise for Robust ASR. | |
Jang et al. | Independent vector analysis using non-spherical joint densities for the separation of speech signals | |
Nakatani et al. | Multichannel source separation based on source location cue with log-spectral shaping by hidden Markov source model. | |
Mazur et al. | A new clustering approach for solving the permutation problem in convolutive blind source separation | |
Naqvi et al. | A multimodal approach for frequency domain independent component analysis with geometrically-based initialization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |