CN112259117B - 一种目标声源锁定和提取的方法 - Google Patents
一种目标声源锁定和提取的方法 Download PDFInfo
- Publication number
- CN112259117B CN112259117B CN202011042009.0A CN202011042009A CN112259117B CN 112259117 B CN112259117 B CN 112259117B CN 202011042009 A CN202011042009 A CN 202011042009A CN 112259117 B CN112259117 B CN 112259117B
- Authority
- CN
- China
- Prior art keywords
- sound source
- target
- energy
- signal
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 43
- 238000000926 separation method Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 230000008901 benefit Effects 0.000 claims abstract description 4
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000001960 triggered effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 claims description 3
- 230000000052 comparative effect Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 239000012634 fragment Substances 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种目标声源锁定和提取的方法,首先通过多通道BSS算法AUX‑IVA(基于辅助函数的独立向量分析)提取出多个声源,再通过基于SNR(信噪比)和语音识别系统反馈的自适应目标声源锁定进行声源选择。在此基础上,再通过声源分离中的不同声源相对的空间信息判断纯干扰声源段,并进行消除。最后使用基于DNN的VAD端点检测。算法提取最终的目标声源有效语音段,语音识别系统的反馈同样作用于VAD算法。基于时间窗的AUX‑IVA算法,总体算法收敛迭代次数所需少,更加轻量级,且进一步利用空间信息进行干扰源和目标源的分离提取。
Description
技术领域
本发明涉及一种目标声源锁定和提取的方法,尤其涉及一种强非稳态干扰环境下基于多通道声源分离和端点检测的目标声源锁定和提取的方法。
背景技术
语音作为新一代的人机交互方式正在越来越多的被用在嵌入式设备中,如汽车中的车机和家用电器,融入到人们的日常生活中。然而这些带语音识别交互功能的嵌入式设备所在的环境通常包含了非稳态的干扰源。虽然近年来的降噪算法发展迅速,且越来越多的使用DNN(神经网络)的建模方式。但是当干扰源和目标声源的声学特征具有很强的共性时,传统语音增强算法的工作流通常无法从这种强非稳态干扰源中区分出目标声源,如具有高保真音响的电视播放的新闻节目等。而输入语音识别系统的理想信号应该是在目标声源和干扰声源重叠部分提取出目标声源信号,且在无目标声源段没有干扰声源输入语音识别系统。
传统的语音增强算法流程中,降噪算法虽然已经可以比较好的能应对一些与人声区别较大的日常噪声。但是对于和人声声学特征非常相似的干扰声源,降噪算法没有能力去区分目标声源。而单纯的多通道声源BSS(盲分离)算法虽然可以应对多个声源的情况,但是由于是盲分离,其无法锁定目标声源,并且在实际语音交互环境下由于混响和其他信号失真的影响,会留下大量纯干扰声源。
本发明主要目为在语音交互场景下,将含有多个声源的多路语音信号进行声源分离,并自适应地锁定目标声源从而提取出目标声源段,且同时大幅减少纯干扰声源信号段的能量水平,从而使语音识别系统在强非稳态干扰源下能够正常识别目标声源的有效语音。并且系统足够轻量级从而能够部署在大部分嵌入式系统中。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种目标声源锁定和提取的方法,使用分离声源的SNR和语音识别反馈来自动锁定目标声源。
其中,具体技术方案为:
1)使用基于辅助函数的窗移独立向量分析;
2)在分离后的多通道声源中选择目标声源;
3)基于分离后声源相对空间信息的纯干扰声源段检测和消除;
4)使用基于DNN的VAD算法进行最终目标声源语音段提取。
上述的一种目标声源锁定和提取的方法,其中,1)使用基于辅助函数的窗移独立向量分析,具体为:
步骤1)将M个麦克风采集到的包含M个源信号的混合信号xm(n),1≤m≤M进行短时傅里叶变换,得到其频域表示x(ω,τ),其中ω和τ分别为频率和时间索引,总的频段数为K;并初始化盲分离矩阵W(ω,τ);
步骤2)累积得到Lb帧混合信号的频域表示X(ω,τ),并使用W(ω,τ)对其进行分离,得到估计的包含M个源的信号Y(ω,τ),即Y(ω,τ)=X(ω,τ)W(ω,τ),Y(ω,τ)为Mx1的向量;
步骤3)依据公式(1)和公式(2)更新辅助函数Vm(ω;τ);
式(1)中,α(0≤α≤1)是遗忘因子,Lb为块大小;
步骤4)依据公式(3)和公式(4)更新盲分离矩阵W(ω,τ),式(3)中ek表示一个列向量,其中第k个元素为1,其余为0;
wm(ω;τ)←(W(ω;τ)Vm(ω;τ))-1em (3)
步骤2)、3)和4)按算法1所示进行迭代计算W(ω,τ)和分离M路声源得到最终的Y(ω,τ)。
算法1:Block-Online的AuxIVA更新规则;
for τ=1 to Nτ do;
更新源分离矩阵:W(ω;τ)=W(ω;τ-1);
for n=1 to N do;
for m=1 to M do:
公式(1)更新rk(τ)(如步骤3));
for ω=1 to Nω do;
更新辅助变量Vk(ω;τ)(如步骤3))和盲矩阵更新(如步骤4));
end for
end for
end for
end for。
上述的一种目标声源锁定和提取的方法,其中,2)在分离后的多通道声源中选择目标声源,具体为:
步骤6)对于每一个分离的声源Sm(ω,τ)=Y(ω,τ)[m],做一个大时间窗T帧的滑动统计,又将这个大时间窗切割成n个时长为1帧的小时间窗;用公式(5)计算每个分离声源的小时间窗能量,其中i为小时间窗的索引:
步骤7)对于当前大时间窗,对于每个分离的声源Sm获取最大/最小的小时间窗累积能量,见公式(6)(7):
E_maxm=Max{Em[i]},i=0,1,2...n-1 (6)
E_minm=Min{Em[i]},i=0,1,2...n-1 (7)
使用当前大时间窗每个声源统计得到的最大/最小值去分别更新信号/噪声的能量统计,其中α为平滑参数,t为大时间窗的索引,见公式(8)(9):
Speechm(t)=α x E_maxm+(1-α)x Speechm(t-1) (8)
Noisem(t)=α x E_maxm+(1-α)x Noisem(t-1) (9)
步骤8)使用语音识别系统反馈进一步提升声源锁定准确率:在语音交互中,语音识别系统既作为声学处理的下游任务,反过来给予声学处理模块以信息反馈;
当语音交互被触发,触发点的前Ttarget帧被认为是极大概率存在有效语音的,对这一段时间的最大值进行统计,增强对于信噪比计算中的语音信号的估计准确度,从而影响SNRmt的计算,具体操作上,当有语音交互被触发时,同样将Ttarget帧切分成为1帧的小时间窗,使用类似公式(5)进行语音信号的统计,见公式(10)(11):
E_max_targetm=Max(E_targetm[i]),i=0,1,2...n-1 (11)
使用公式(12)对目标区域内的最大值去和当前语音信号的统计做加权:
Speechm(t)=γ x E_max_targetm+(1-γ)x Speechm(t) (12)
步骤9)最后更新信号噪声比,β为平滑系数:
对于每个大时间窗,做一次判决,取信噪比SNRm(t)最大的一路分离声源作为目标声源Starget(ω,τ)。
上述的一种目标声源锁定和提取的方法,其中,3)基于分离后声源相对空间信息的纯干扰声源段检测和消除,具体为:
步骤10)进一步利用目标声源和干扰声源的空间相关信息,从而判断当前block是否是纯干扰噪声源,是,则将当前窗进行静音;多通道盲分离方法本质上是让多路输入信号通过多个空间滤波器,每个空间滤波器接收多路信号,将这多路信号中的同一声源信号提取到同一路输出中,则每个空间滤波器的作用就是提取目标声源信号,且滤出其他声源信号,则目标声源对应的空间滤波器SFtarget输出Starget(ω,τ)和其他声源(干扰噪声源)对应的空间滤波器SFin输出Sin(ω,τ)存在比例关系可以用来区分当前窗是否为纯干扰噪声。
上述的一种目标声源锁定和提取的方法,其中,分析如下:
假设X为多路接收到的信号,且假设盲源分离对于各个源头的分离效果是均衡的,则在语音交互中存在两种情况:
情况一计算空间滤波器输出比R:
X(ω,τ)=S+N,其中S为理想纯目标语音信号,N为理想纯干扰噪声源;当SNR>>0时,该R值>>1,当SNR=0时,该R值会接近于1;
情况二计算空间滤波器输出比R:
X=N,接收到的是纯干扰噪声源。则在任意信噪比情况下啊,R值都会小于1。
由以上分析,由于AUX-IVA是以Lb帧为基础单位进行迭代,纯干扰噪声源的判决也可以Lb帧为基础单位进行迭代,可得R值计算公式(16):
步骤11)利用情况二的突出特征来判断当前窗是否是纯干扰噪声,使用固定阈值或者长窗平滑R值作为阈值,即当有阈值R_thresh:
R<R_thresh:当前窗为纯干扰噪声段;
R≥R_thresh:当前窗存在语音信号;
根据以上R值的判断对纯干扰噪声段进行静音处理得到Starget_trim(ω,τ)。
上述的一种目标声源锁定和提取的方法,其中,4)使用基于DNN的VAD算法进行最终目标声源语音段提取,具体为:
步骤12)VAD系统采用基于神经网络的算法得分和基于能量的算法得分的双门限法来区分音频帧的属性:语音帧和非语音帧;考虑到实际应用场景的复杂性,神经网络模型训练数据准备阶段,在基础数据集中加入了充分的远场模拟数据,并混入了不同类型、不同信噪比的噪声数据;依据神经网络的强大学习能力,从不同的数据集中学习到有效语音的特征,从而获得比较的强语音区分能力;
具体为,DNN接收处理过后的目标声源信号Starget_trim(ω,τ)作为输入,对于每一帧τ都得到一个0-1的DNN_score(τ)=DNN(Starget_trim(ω,τ));
步骤13)语音识别系统反馈进行端点检测算法的鲁棒性提升:处理后的目标声源信号Starget_trim(ω,τ)的信噪比一般为0db以上,所以估计有效语音段的能量即可获得当前环境音频的最大能量;充分利用整个系统框架的结构优势,根据语音识别系统的反馈的时间位置信息,系统能够获取到当前环境音频能量的最大值E_bg;在系统的运行期间,首先,使用公式(17)计算Starget_trim(ω,τ)每一帧τ的能量E(τ);
步骤14)更新背景音频能量的时候,系统中存储宽口大小为n的的能量窗,并在语音识别系统反馈的时间点,取能量窗中最大的能量值作为当前待更新的能量值E_bg_curr,使用平滑算法从而能够有效的估计环境不同时段的音频能量水平,具体见公式(19)其中αV为平滑参数。
E_bg_curr=Max[E(τi)],i=0,1,2...n-1 (18)
E_bg=αV×E_bg+(1-αV)×E_bg_curr (19)
步骤15)根据当前帧的能量E(τ)和环境能量E_bg,依据公式(20)计算得到当前帧的能量得分;
Energy_score(τ)=E(τ)/E_bg (20)
步骤16)根据当前帧的DNN得分DNN_score(τ)和能量得分Energy_score(τ),公式(21)计算得到当前帧的最终得分Score(τ),其中βV为能量权重。当Score(τ)大于语音判定阈值speech_thres,判定当前帧为语音帧,否则为非语音帧;
在获取当前帧得分过程中,动态估计了系统工作环境的能量水平,使得能量得分的获取具有一定的自适应能力,从而提高了VAD系统的鲁棒性;
Score(τ)=βV×Energy_score(τ)+(1-βV)×DNN_score(τ) (21)
步骤17)根据得到的Score(τ),当Score(τ)>=VAD阈值vad_threshold时,判定第τ帧为存在语音信号,否则判定为语音不存在,从而提取最终目标声源的有效语音段。
本发明相对于现有技术具有如下有益效果:
本发明所设计的目标声源提取系统,首先通过多通道BSS算法AUX-IVA(基于辅助函数的独立向量分析)提取出多个声源,再通过基于SNR(信噪比)和语音识别系统反馈的自适应目标声源锁定进行声源选择。在此基础上,再通过声源分离中的不同声源相对的空间信息判断纯干扰声源段,并进行消除。最后使用基于DNN的VAD端点检测)算法提取最终的目标声源有效语音段,语音识别系统的反馈同样作用于VAD算法。
1、基于时间窗的AUX-IVA算法,总体算法收敛迭代次数所需少,更加轻量级。
2、使用分离声源的SNR和语音识别反馈来自动锁定目标声源。
3、结合不同声源的相对空间信息来判断纯干扰声源段,从而对纯干扰声源信号段进行增益控制和消除。
4、基于远场模拟和噪声增强数据训练的基于DNN的VAD算法,具有对噪声的识别能力和远场语音的VAD能力。
5、将语音识别系统反馈加入到VAD算法中。
6、该系统对于麦克风阵列的拓扑结构没有先验要求,可以使用大于等于2个麦克风数量的的任意拓扑结构麦克风阵列作为算法硬件基础。
附图说明
图1为目标声源语音提取框图。
图2为语音识别反馈的示意图。
图3为端点检测框图的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
本发明的总体系统执行框图如图1描述,图1是目标声源语音提取框图。
具体操作流程具体描述如下:
1、使用基于辅助函数的窗移独立向量分析。
步骤1)将M个麦克风采集到的包含M个源信号的混合信号xm(n),1≤m≤M进行短时傅里叶变换,得到其频域表示x(ω,τ),其中ω和τ分别为频率和时间索引,总的频段数为K。并初始化盲分离矩阵W(ω,τ);
步骤2)累积得到Lb帧混合信号的频域表示X(ω,τ),并使用W(ω,τ)对其进行分离,得到估计的包含M个源的信号Y((ω,τ),即Y(ω,τ)=X(ω,τ)W(ω,τ),Y(ω,τ)为Mx1的向量;
步骤3)依据公式(1)和公式(2)更新辅助函数Vm(ω;τ);
式(1)中,α(0≤α≤1)是遗忘因子,Lb为块大小;
步骤4)依据公式(3)和公式(4)更新盲分离矩阵W(ω,τ),式(3)中ek表示一个列向量,其中第k个元素为1,其余为0;
wm(ω;τ)←(W(ω;τ)Vm(ω;τ))-1em (3)
步骤2),3)和4)按算法1所示进行迭代计算W(ω,τ)和分离M路声源得到最终的Y(ω,τ)。
算法1:Block-Online的AuxIVA更新规则。
for τ=1 to Nτ do
更新源分离矩阵:W(ω;τ)=W(ω;τ-1);
forn=1 to N do
for m=1 to M do
公式(1)更新rk(τ)(如步骤3));
forω=1to Nω do
更新辅助变量Vk(ω;τ)(如步骤3))和盲矩阵更新(如步骤4));
end for
end for
end for
end for
2、在分离后的多通道声源中选择目标声源。
步骤6)对于每一个分离的声源Sm(ω,τ)=Y(ω,τ)[m],做一个大时间窗T帧的滑动统计,又将这个大时间窗切割成n个时长为1帧的小时间窗。用公式(5)计算每个分离声源的小时间窗能量,其中i为小时间窗的索引:
步骤7)对于当前大时间窗,对于每个分离的声源Sm获取最大/最小的小时间窗累积能量,见公式(6)(7):
E_maxm=Max{Em[i]},i=0,1,2...n-1 (6)
E_minm=Min{Em[i]},i=0,1,2...n-1 (7)
使用当前大时间窗每个声源统计得到的最大/最小值去分别更新信号/噪声的能量统计,其中α为平滑参数,t为大时间窗的索引,见公式(8)(9):
Speechm(t)=α x E_maxm+(1-α)x Speechm(t-1) (8)
Noisem(t)=α x E_maxm+(1-α)x Noisem(t-1) (9)
步骤8)使用语音识别系统反馈进一步提升声源锁定准确率:在语音交互中,语音识别系统既可以作为声学处理的下游任务,又可以反过来给予声学处理模块以信息反馈。本发明结合了这样一种语音识别系统反馈机制,从而帮助信噪比统计时对语音信号的精确定位。如图2所示,当语音交互被触发,触发点的前Ttarget帧可以被认为是极大概率存在有效语音的,对这一段时间的最大值进行统计,可以增强对于信噪比计算中的语音信号的估计准确度,从而影响SNRm,t的计算。具体操作上,当有语音交互被触发时,同样将Ttarget帧切分成为1帧的小时间窗,使用类似公式(5)进行语音信号的统计,见公式(10)(11):
E_max_targetm=Max(E_targetm[i]),i=0,1,2...n-1 (11)
使用公式(12)对目标区域内的最大值去和当前语音信号的统计做加权:
Speechm(t)=γ x E_max_targetm+(1-γ) x Speechm(t) (12)
步骤9)最后更新信号噪声比,β为平滑系数:
对于每个大时间窗,做一次判决,取信噪比SNRm(t)最大的一路分离声源作为目标声源Starget(ω,τ)。
3、基于分离后声源相对空间信息的纯干扰声源段检测和消除
步骤10)进一步利用目标声源和干扰声源的空间相关信息,从而判断当前block是否是纯干扰噪声源,如果是,则可以将当前窗进行静音。多通道盲分离方法本质上是让多路输入信号通过多个空间滤波器,每个空间滤波器接收多路信号,将这多路信号中的同一声源信号提取到同一路输出中。则每个空间滤波器的作用就是提取目标声源信号,且滤出其他声源信号。则目标声源(语音信号)对应的空间滤波器SFtarget输出Starget(ω,τ)和其他声源(干扰噪声源)对应的空间滤波器SFin输出Sin(ω,τ)存在比例关系可以用来区分当前窗是否为纯干扰噪声。
分析如下:
假设X为多路接收到的信号,且假设盲源分离对于各个源头的分离效果是均衡的,则在语音交互中存在两种情况:
情况一计算空间滤波器输出比R:
X(ω,τ)=S+N,其中S为理想纯目标语音信号,N为理想纯干扰噪声源(可以是多个噪声源叠加)。当SNR>>0时,该R值>>1,当SNR=0时,该R值会接近于1。
情况二计算空间滤波器输出比R:
X=N,接收到的是纯干扰噪声源。则在任意信噪比情况下啊,R值都会小于1。
由以上分析,由于AUX-IVA是以Lb帧为基础单位进行迭代,纯干扰噪声源的判决也可以Lb帧为基础单位进行迭代,可得R值计算公式(16):
步骤11)我们可以利用情况二的突出特征来判断当前窗是否是纯干扰噪声:使用固定阈值或者长窗平滑R值作为阈值都可以取得较好效果。即当有阈值R_thresh:
R<R_thresh:当前窗为纯干扰噪声段;
R>=R_thresh:当前窗存在语音信号;
根据以上R值的判断对纯干扰噪声段进行静音处理得到Starget_trim(ω,τ)。
4、使用基于DNN的VAD算法进行最终目标声源语音段提取
一般而言,语音识别系统需要声学前端提供包含有效语音片段的语音信号,而VAD定义为从连续音频信号中检测出实际语音片段的起始点和终止点,从而提取出有效的语音片段,可以为语音识别系统去除不必要的非语音片段,减少了后续语音处理系统的计算压力,有利于提高系统的响应速度。
一般来说,在高信噪比条件下,VAD任务相对容易,传统基于能量或谱熵的检测方法即可得到较高的检测精度。目标声源信号Starget_trim(ω,τ)虽然已去除了空间上的干扰噪声,信号,但是有可能残留一些稳态或者伪稳态的空间不想干的残留噪声。因此,本发明设计了一种噪声鲁棒且支持混响语音的VAD算法,见图3。图3为端点检测框图。
步骤12)VAD系统采用基于神经网络的算法得分和基于能量的算法得分的双门限法来区分音频帧的属性:语音帧和非语音帧。考虑到实际应用场景的复杂性(远场拾音和噪声环境),神经网络模型训练数据准备阶段,在基础数据集中加入了充分的远场模拟数据,并混入了不同类型、不同信噪比的噪声数据;依据神经网络的强大学习能力,从不同的数据集中学习到有效语音的特征,从而获得比较的强语音区分能力。具体来讲,DNN接收处理过后的目标声源信号Starget_trim(ω,τ)作为输入,对于每一帧τ都得到一个0-1的DNN_score(τ)=DNN(Starget_trim(ω,τ))。
步骤13)语音识别系统反馈进行端点检测算法的鲁棒性提升:处理后的目标声源信号Starget_trim(ω,τ)的信噪比一般为0db以上,所以估计有效语音段的能量即可获得当前环境音频的最大能量。充分利用整个系统框架的结构优势,根据语音识别系统的反馈的时间位置信息,系统能够获取到当前环境音频能量的最大值E_bg。在系统的运行期间,首先,使用公式(17)计算Starget_trim(ω,τ)每一帧τ的能量E(τ)。
步骤14)更新背景音频能量的时候,系统中存储宽口大小为n的的能量窗,并在语音识别系统反馈的时间点,取能量窗中最大的能量值作为当前待更新的能量值E_bg_curr,使用平滑算法从而能够有效的估计环境不同时段的音频能量水平,具体见公式(19)其中αV为平滑参数。
E_bg_curr=Max[E(τi)],i=0,1,2...n-1 (18)
E_bg=αV×E_bg+(1-αV)×E_bg_curr (19)
步骤15)根据当前帧的能量E(τ)和环境能量E_bg,依据公式(20)计算得到当前帧的能量得分。
Energy_score(τ)=E(τ)/E_bg (20)
步骤16)根据当前帧的DNN得分DNN_score(τ)和能量得分Energy_score(τ),公式(21)计算得到当前帧的最终得分Score(τ),其中βV为能量权重。当Score(τ)大于语音判定阈值speech_thres,判定当前帧为语音帧,否则为非语音帧。在获取当前帧得分过程中,动态估计了系统工作环境的能量水平,使得能量得分的获取具有一定的自适应能力,从而提高了VAD系统的鲁棒性。
Score(τ)=βV×Energy_score(τ)+(1-βV)×DNN_score(τ) (21)
步骤17)根据得到的Score(τ),当Score(τ)>=VAD阈值vad_threshold时,判定第τ帧为存在语音信号,否则判定为语音不存在,从而提取最终目标声源的有效语音段。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
Claims (1)
1.一种目标声源锁定和提取的方法,其特征在于:
(1)使用基于辅助函数的窗移独立向量分析;
(2)在分离后的多通道声源中选择目标声源;
(3)基于分离后声源相对空间信息的纯干扰声源段检测和消除;
(4)使用基于DNN的VAD算法进行最终目标声源语音段提取;
使用基于辅助函数的窗移独立向量分析,具体为:
步骤1将M个麦克风采集到的包含M个源信号的混合信号xm(n),1≤m≤M进行短时傅里叶变换,得到其频域表示x(ω,τ),其中ω和τ分别为频率和时间索引,总的频段数为K;并初始化盲分离矩阵W(ω,τ);
步骤2累积得到Lb帧混合信号的频域表示X(ω,τ),并使用W(ω,τ)对其进行分离,得到估计的包含M个源的信号Y(ω,τ),即Y(ω,τ)=X(ω,τ)W(ω,τ),Y(ω,τ)为Mx1的向量;
步骤3依据公式(1)和公式(2)更新辅助函数Vm(ω;τ);
式(1)中,α(0≤α≤1)是遗忘因子,Lb为块大小;
步骤4依据公式(3)和公式(4)更新盲分离矩阵W(ω,τ),式(3)中ek表示一个列向量,其中第k个元素为1,其余为0;
wm(ω;τ)←(W(ω;τ)Vm(ω;τ))-1em (3)
步骤2、3和4按算法1所示进行迭代计算W(ω,τ)和分离M路声源得到最终的Y(ω,τ);
算法1:Block-Online的AuxIVA更新规则;
在分离后的多通道声源中选择目标声源,具体为:
步骤6对于每一个分离的声源Sm(ω,τ)=Y(ω,τ)[m],做一个大时间窗T帧的滑动统计,又将这个大时间窗切割成n个时长为1帧的小时间窗;用公式(5)计算每个分离声源的小时间窗能量,其中i为小时间窗的索引:
步骤7对于当前大时间窗,对于每个分离的声源Sm获取最大/最小的小时间窗累积能量,见公式(6)(7):
E_maxm=Max{Em[i]},i=0,1,2...n-1 (6)
E_minm=Min{Em[i]},i=0,1,2...n-1 (7)
使用当前大时间窗每个声源统计得到的最大/最小值去分别更新信号/噪声的能量统计,其中α为平滑参数,t为大时间窗的索引,见公式(8)(9):
Speechm(t)=α x E_maxm+(1-α) x Speechm(t-1) (8)
Noisem(t)=α x E_maxm+(1-α) x Noisem(t-1) (9)
步骤8使用语音识别系统反馈进一步提升声源锁定准确率:在语音交互中,语音识别系统既作为声学处理的下游任务,反过来给予声学处理模块以信息反馈;
当语音交互被触发,触发点的前Ttarget帧被认为是极大概率存在有效语音的,对这一段时间的最大值进行统计,增强对于信噪比计算中的语音信号的估计准确度,从而影响SNRm,t的计算,具体操作上,当有语音交互被触发时,同样将Ttarget帧切分成为1帧的小时间窗,使用公式(5)进行语音信号的统计,见公式(10)(11):
E_max_targetm=Max(E_targetm[i]),i=0,1,2...n-1 (11)
使用公式(12)对目标区域内的最大值去和当前语音信号的统计做加权:
Speechm(t)=γ x E_max_targetm+(1-γ) x Speechm(t) (12)
步骤9)最后更新信号噪声比,β为平滑系数:
对于每个大时间窗,做一次判决,取信噪比SNRm(t)最大的一路分离声源作为目标声源Starget(ω,τ);
3基于分离后声源相对空间信息的纯干扰声源段检测和消除,具体为:
步骤10进一步利用目标声源和干扰声源的空间相关信息,从而判断当前block是否是纯干扰噪声源,是,则将当前窗进行静音;多通道盲分离方法本质上是让多路输入信号通过多个空间滤波器,每个空间滤波器接收多路信号,将这多路信号中的同一声源信号提取到同一路输出中,则每个空间滤波器的作用就是提取目标声源信号,且滤出其他声源信号,则目标声源对应的空间滤波器SFtarget输出Starget(ω,τ)和其他声源(干扰噪声源)对应的空间滤波器SFin输出Sin(ω,τ)存在比例关系可以用来区分当前窗是否为纯干扰噪声;
分析如下:
假设X为多路接收到的信号,且假设盲源分离对于各个源头的分离效果是均衡的,则在语音交互中存在两种情况:
情况一计算空间滤波器输出比R:
X(ω,τ)=S+N,其中S为理想纯目标语音信号,N为理想纯干扰噪声源;当SNR>>0时,该R值>>1,当SNR=0时,该R值会接近于1;
情况二计算空间滤波器输出比R:
X=N,接收到的是纯干扰噪声源,则在任意信噪比情况下啊,R值都会小于1;
由以上分析,由于AUX-IVA是以Lb帧为基础单位进行迭代,纯干扰噪声源的判决也可以Lb帧为基础单位进行迭代,可得R值计算公式(16):
步骤11利用情况二的突出特征来判断当前窗是否是纯干扰噪声,使用固定阈值或者长窗平滑R值作为阈值,即当有阈值R_thresh:
R<R_thresh:当前窗为纯干扰噪声段;
R≥R_thresh:当前窗存在语音信号;
根据以上R值的判断对纯干扰噪声段进行静音处理得到Starget_trim(ω,τ);
使用基于DNN的VAD算法进行最终目标声源语音段提取,具体为:
步骤12VAD系统采用基于神经网络的算法得分和基于能量的算法得分的双门限法来区分音频帧的属性:语音帧和非语音帧;考虑到实际应用场景的复杂性,神经网络模型训练数据准备阶段,在基础数据集中加入了充分的远场模拟数据,并混入了不同类型、不同信噪比的噪声数据;依据神经网络的强大学习能力,从不同的数据集中学习到有效语音的特征,从而获得比较的强语音区分能力;
具体为,DNN接收处理过后的目标声源信号Starget_trim(ω,τ)作为输入,对于每一帧τ都得到一个0-1的DNN_score(τ)=DNN(Starget_trim(ω,τ));
步骤13语音识别系统反馈进行端点检测算法的鲁棒性提升:处理后的目标声源信号Starget_trim(ω,τ)的信噪比一般为0db以上,所以估计有效语音段的能量即可获得当前环境音频的最大能量;充分利用整个系统框架的结构优势,根据语音识别系统的反馈的时间位置信息,系统能够获取到当前环境音频能量的最大值E_bg;在系统的运行期间,首先,使用公式(17)计算Starget_trim(ω,τ)每一帧τ的能量E(τ);
步骤14更新背景音频能量的时候,系统中存储宽口大小为n的能量窗,并在语音识别系统反馈的时间点,取能量窗中最大的能量值作为当前待更新的能量值E_bg_curr,使用平滑算法从而能够有效的估计环境不同时段的音频能量水平,具体见公式(19)其中αV为平滑参数;
E_bg_curr=Max[E(τi)],i=0,1,2...n-1 (18)
E_bg=αV×E_bg+(1-αV)×E_bg_curr (19)
步骤15根据当前帧的能量E(τ)和环境能量E_bg,依据公式(20)计算得到当前帧的能量得分;
Energy_score(τ)=E(τ)/E_bg (20)
步骤16根据当前帧的DNN得分DNN_score(τ)和能量得分Energy_score(τ),公式(21)计算得到当前帧的最终得分Score(τ),其中βV为能量权重,当Score(τ)大于语音判定阈值speech_thres,判定当前帧为语音帧,否则为非语音帧;
在获取当前帧得分过程中,动态估计了系统工作环境的能量水平,使得能量得分的获取具有一定的自适应能力,从而提高了VAD系统的鲁棒性;
Score(τ)=βV×Energy_score(τ)+(1-βV)×DNN_score(τ) (21)
步骤17根据得到的Score(τ),当Score(τ)>=VAD阈值vad_threshold时,判定第τ帧为存在语音信号,否则判定为语音不存在,从而提取最终目标声源的有效语音段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011042009.0A CN112259117B (zh) | 2020-09-28 | 2020-09-28 | 一种目标声源锁定和提取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011042009.0A CN112259117B (zh) | 2020-09-28 | 2020-09-28 | 一种目标声源锁定和提取的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112259117A CN112259117A (zh) | 2021-01-22 |
CN112259117B true CN112259117B (zh) | 2024-05-14 |
Family
ID=74234285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011042009.0A Active CN112259117B (zh) | 2020-09-28 | 2020-09-28 | 一种目标声源锁定和提取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259117B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935883B (zh) * | 2023-09-14 | 2023-12-29 | 北京探境科技有限公司 | 声源定位方法、装置、存储介质及电子设备 |
CN117012202B (zh) * | 2023-10-07 | 2024-03-29 | 北京探境科技有限公司 | 语音通道识别方法、装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101878416A (zh) * | 2007-11-29 | 2010-11-03 | 摩托罗拉公司 | 音频信号的带宽扩展的方法和设备 |
CN105301563A (zh) * | 2015-11-10 | 2016-02-03 | 南京信息工程大学 | 一种基于一致聚焦变换最小二乘法的双声源定位方法 |
WO2017108097A1 (en) * | 2015-12-22 | 2017-06-29 | Huawei Technologies Duesseldorf Gmbh | Localization algorithm for sound sources with known statistics |
CN108802687A (zh) * | 2018-06-25 | 2018-11-13 | 大连大学 | 混响房间内分布式麦克风阵列多声源定位方法 |
CN109839612A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN110610718A (zh) * | 2018-06-15 | 2019-12-24 | 炬芯(珠海)科技有限公司 | 一种提取期望声源语音信号的方法及装置 |
CN111315299A (zh) * | 2016-11-11 | 2020-06-19 | 维托臣股份有限公司 | 声音定位系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8577677B2 (en) * | 2008-07-21 | 2013-11-05 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
-
2020
- 2020-09-28 CN CN202011042009.0A patent/CN112259117B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101878416A (zh) * | 2007-11-29 | 2010-11-03 | 摩托罗拉公司 | 音频信号的带宽扩展的方法和设备 |
CN105301563A (zh) * | 2015-11-10 | 2016-02-03 | 南京信息工程大学 | 一种基于一致聚焦变换最小二乘法的双声源定位方法 |
WO2017108097A1 (en) * | 2015-12-22 | 2017-06-29 | Huawei Technologies Duesseldorf Gmbh | Localization algorithm for sound sources with known statistics |
CN111315299A (zh) * | 2016-11-11 | 2020-06-19 | 维托臣股份有限公司 | 声音定位系统和方法 |
CN110610718A (zh) * | 2018-06-15 | 2019-12-24 | 炬芯(珠海)科技有限公司 | 一种提取期望声源语音信号的方法及装置 |
CN108802687A (zh) * | 2018-06-25 | 2018-11-13 | 大连大学 | 混响房间内分布式麦克风阵列多声源定位方法 |
CN109839612A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
Non-Patent Citations (2)
Title |
---|
一种基于模式识别的多路盲语音提取方法;徐舜;刘郁林;柏森;;应用声学(第03期);全文 * |
基于声源方位信息和非线性时频掩蔽的语音盲提取算法;夏秀渝;何培宇;;声学学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112259117A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020177371A1 (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN107393550B (zh) | 语音处理方法及装置 | |
JP3591068B2 (ja) | 音声信号の雑音低減方法 | |
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
CN109036460B (zh) | 基于多模型神经网络的语音处理方法和装置 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN112259117B (zh) | 一种目标声源锁定和提取的方法 | |
KR102206546B1 (ko) | 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법 | |
KR102152197B1 (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
CN112435683B (zh) | 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法 | |
JP2022529912A (ja) | 深層フィルタを決定するための方法および装置 | |
CN107360497B (zh) | 估算混响分量的计算方法及装置 | |
Lee et al. | Dynamic noise embedding: Noise aware training and adaptation for speech enhancement | |
Ramirez et al. | Voice activity detection with noise reduction and long-term spectral divergence estimation | |
Olvera et al. | Foreground-background ambient sound scene separation | |
CN113870893A (zh) | 一种多通道双说话人分离方法及系统 | |
Sun et al. | Enhanced time-frequency masking by using neural networks for monaural source separation in reverberant room environments | |
CN101533642B (zh) | 一种语音信号处理方法及装置 | |
CN107910016B (zh) | 一种带噪语音的噪声可容度判断方法 | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
KR101022457B1 (ko) | Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 | |
CN114333884B (zh) | 一种基于麦克风阵列结合唤醒词进行的语音降噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |