CN113096684A - 一种基于双麦克风阵列的目标语音提取方法 - Google Patents

一种基于双麦克风阵列的目标语音提取方法 Download PDF

Info

Publication number
CN113096684A
CN113096684A CN202110630288.0A CN202110630288A CN113096684A CN 113096684 A CN113096684 A CN 113096684A CN 202110630288 A CN202110630288 A CN 202110630288A CN 113096684 A CN113096684 A CN 113096684A
Authority
CN
China
Prior art keywords
signal
signals
voice
microphone array
power spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110630288.0A
Other languages
English (en)
Inventor
曾帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202110630288.0A priority Critical patent/CN113096684A/zh
Publication of CN113096684A publication Critical patent/CN113096684A/zh
Priority to CN202111312032.1A priority patent/CN113889138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种基于双麦克风阵列的目标语音提取方法,包括如下步骤:S1.将两个麦克风接收的时域信号转化为频域信号;S2.然后对频域信号进行频域盲源分离算法处理;处理后得到两个源信号的估计信号;S3.利用两个源信号的估计信号求出各自的累加语音存在概率和功率谱值,并根据语音存在概率和功率谱值选择概率值高和功率谱值大的估计信号作为目标语音传输到后端语音识别系统进行识别。本发明对盲源分离算法分离后的两个信号通过语音存在概率和功率谱值的综合比较,提取出目标语音信号;该方法相对传统方法,不需要利用DOA提供目标声源先验信息,且不需要采用深度学习方法提取,对系统资源要求降低。

Description

一种基于双麦克风阵列的目标语音提取方法
技术领域
本发明属于人工智能技术领域,涉及语音提取技术,具体涉及一种基于双麦克风阵列的目标语音提取方法。
背景技术
在人工智能技术领域,语音增强、语音识别一直都是专家学者及语音交互产品市场关注的热点话题。其中,双麦克风阵列以其显而易见的优势成为技术人员研究的主要对象。原因在于相比于单麦克风,双麦克风阵列在降噪处理及远距离拾音等方面具有较大优势;而与多麦克风阵列相比,双麦克风阵列又极大简化了语音交互产品的硬件设计方案及语音前端算法处理的复杂度。因此,双麦克风阵列以其小巧灵活的构型以及电路、算力、成本要求都比较低而广泛应用于智能家居、智能家电、智能玩具等领域。
在语音增强技术上,基于双麦克风阵列的语音信号处理算法主要有基于波束形成的算法,如延时累加波束形成(Delay-Sum Beamforming,DSB)方法、最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)波束形成方法等,基于盲源分离的算法以及基于深度学习的方法等。其中,基于盲源分离的算法相比于传统波束形成方法降噪效果好、相比于深度学习方法算力小,易集成在嵌入式系统上。因此,盲源分离算法在双麦克风阵列降噪处理上具有很好的应用前景。
虽然盲源分离算法在双麦降噪处理上可以取得较好的效果,但由于盲源分离算法只是将语音与噪声或者语音与干扰分离开,对于如何在盲源分离处理后提取目标语音仍是需要解决的难题。目前,对于目标语音的提取,主要的方法有基于目标声源的波达方向(Direction of Arrival,DOA)、基于深度学习的训练、基于音视频融合等方法。但是对于双麦克风而言,由于其麦克风数量较少,空间指向性较弱,利用DOA的方法会使目标语音提取时信号频谱失真甚至无法提取到目标语音,而深度学习的方法又对嵌入式系统的性能和资源要求较高。
发明内容
为克服现有方案技术存在的缺陷,本发明公开了一种基于双麦克风阵列的目标语音提取方法。
本发明所述基于双麦克风阵列的目标语音提取方法,其特征在于,包括如下步骤:
S1. 将两个麦克风接收的时域信号转化为频域信号;
S2. 然后对频域信号进行频域盲源分离算法处理;处理后得到两个源信号的估计信号;
S3. 利用两个源信号的估计信号求出各自的累加语音存在概率和功率谱值,并以功率谱值比值和概率值差值进行综合比较,设置不同的阈值范围,将功率谱值大和概率值高的信号作为目标语音传输到后端语音识别系统进行识别。
优选的:如果步骤S3中识别不成功,则更换另一估计信号进行识别。
优选的:所述S1步骤具体为:
S11.对时域信号做分帧加窗处理,设置每帧长度为K个采样点;
S12. 进行分帧加窗处理后的时域信号进行端点识别处理,检测输入信号是否为语音信号,是则进入下一步骤S13,否则终止进程;
S13.对时域信号进行短时傅里叶变换,得到频域信号。
优选的:所述S2步骤具体为:
S21.对双麦克风阵列,以2 * 2单位矩阵作为分离矩阵W(k,l)的初始化矩阵,对分离矩阵W(k,l)进行逐帧更新;即帧数增加1,更新一次;
W(k,l)的更新规则为:
W(k,l)+η*Δw(k);即每次更新增加一个η*Δw(k);
其中:0<η<1, η为W(k,l)更新的步长因子;
分离矩阵更新变量Δw(k)计算方法为:
Figure DEST_PATH_IMAGE001
其中H表示复数共轭转置,M为单位矩阵,E表示期望,k表示第k个时频点,l表示第l帧语音信号, y(k,l)表示双麦克风阵列估计信号;;
W(k)即分离矩阵 W(k,l),Δw(k)表示分离矩阵更新变量;
语音信号概率密度
Figure 100002_DEST_PATH_IMAGE002
其中
Figure 100002_DEST_PATH_IMAGE003
上式中 i = 1,2,表示不同麦克风的源信号;
y1(k,l)、y2(k,l)分别表示当前帧l下,双麦克风阵列观测的两个源信号的估计信号,K为采样点总数;
S22.对每一帧进行分离矩阵W(k,l)的上述更新;
S23.利用分离矩阵W(k,l)得到估计信号y(k,l)= W(k,l)*x(k,l),x(k,l)表示接收信号。
优选的:所述S3步骤具体为:
根据语音存在概率差值和功率谱值比值提取目标语音Y为:
Figure 100002_DEST_PATH_IMAGE004
δ1=Pow2/Pow1
δ2=Prob2-Prob1
其中两个估计信号y1和y2累加语音存在概率和功率谱值分别为Prob1、Prob2和Pow1、Pow2
本发明通过本发明所述目标语音提取方法,利用盲源分离算法降噪性好的特点,对盲源分离算法分离后的两个信号通过语音存在概率和功率谱值比较,提取出目标语音信号;该方法相对传统方法,不需要利用DOA提供目标声源先验信息,且不需要采用深度学习方法提取,对系统资源要求降低,并在大多数情况下能准确单次即提取出目标语音。
附图说明
图1是本发明所述目标语音提取方法的一个具体实施方式示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述基于双麦克风阵列的目标语音提取方法,包括如下步骤:
S1. 将两个麦克风接收的时域信号转化为频域信号;
S2. 然后对频域信号进行频域盲源分离算法处理;处理后得到两个源信号的估计信号;源信号为麦克风观测的信号,现实中不易直接得出,可利用频域盲源分离算法处理对频域信号进行处理得到源信号的估计信号。
S3. 利用两个源信号的估计信号求出各自的累加语音存在概率和功率谱值,并以功率谱值比值和概率值差值综合比较,设置不同的阈值范围,将功率谱值大和概率值高的信号作为目标语音传输到后端语音识别系统进行识别。
本发明首先对麦克风阵列采集的信号进行语音活性检测,去除静音和不包含语音的噪声信号,然后对端点识别处理后的混合语音信号进行频域盲源分离算法处理,得到两个分离后的信号。并对分离后的信号计算各自的语音存在概率和功率谱值。最后以功率谱值比值和概率值差值综合比较,设置不同的阈值范围,将功率谱值大和概率值高的信号作为目标声源输出,并传输到ASR系统做识别。若该次识别未响应或识别错误,再将另一个分离信号传输到ASR系统做第二次识别。
以下进行更详细的说明。
将两个麦克风接收的时域信号转化为频域信号,假设双麦克风阵列中两个麦克风接收的时域信号分别为z1、z2
首先对两个时域信号z1、z2做分帧加窗处理,设置每帧长度为K个采样点。
进行分帧加窗处理后的时域信号进行端点识别(VAD)处理,检测输入信号是否为语音信号,去除静音和不包含语音的噪声信号。端点识别方法可以是短时功率谱、短时幅度、短时平均过零率等判定方法中任意一种或几种方法的结合。
检测到语音信号起始端点后,对时域信号z1、z2进行短时傅里叶变换,得到频域信号x1(k,l) 、x2(k,l)。其中,k表示第k个时频点,l表示第l帧语音信号。
然后对频域信号x1(k,l) 、x2(k,l)进行频域盲源分离算法处理。常见的盲源分离算法有频域独立分量分析(Frequency Domain Independent Component Analysis,FDICA)、频域独立向量分析(Frequency Domain Independent Vector Analysis,FDIVA)以及基于辅助函数的独立向量分析算法(Auxiliary-Function Independent VectorAnalysis,AuxIVA)等。
本发明以自然梯度下降IVA算法为例,利用双麦克风阵列分离两个源信号,源信号为麦克风观测的信号,现实中不易直接得出,可利用频域盲源分离算法对麦克风阵列的接收信号进行处理得到源信号的估计信号。
具体实现过程为:
设x(k,l),y(k,l)分别为双麦克风阵列的接收信号及经频域盲源分离算法处理后的估计信号,则:
x(k,l)=[x1(k,l),x2(k,l)]T
y(k,l)=[y1(k,l),y2(k,l)]T
y(k,l)=W(k,l)*x(k,l)
其中:x1(k,l) 、y1(k,l)分别表示第一个麦克风的接收信号、第一个源信号的估计信号;x2(k,l) 、y2(k,l) 分别表示第二个麦克风的接收信号、第二个源信号的估计信号,上标T表示向量转置;
对双麦克风阵列,W(k,l)表示2 * 2的分离矩阵。可通过按帧实时更新该分离矩阵W(k,l)得到双麦克风阵列估计信号y(k,l)。
一般的,分离矩阵W(k,l)用2 * 2的单位矩阵作为初始化矩阵,其更新过程为:
以超高斯分布近似表示语音信号的概率密度分布,即源语音信号概率密度分布
Figure DEST_PATH_IMAGE005
其中; yi(k,l)表示估计信号y(k,l)的第i个元素,对应不同麦克风的源信号,i =1,2,K为采样点总数。
则分离矩阵W(k,l)更新的梯度计算方法为:
分离矩阵更新变量:
Figure 780132DEST_PATH_IMAGE001
其中H表示复数共轭转置,M为单位矩阵,E表示期望;
W(k)即分离矩阵 W(k,l),Δw(k)表示分离矩阵更新变量;
语音信号概率密度
Figure DEST_PATH_IMAGE006
y1(k,l)、y2(k,l)分别表示双麦克风阵列观测的两个源信号的估计信号,
则W(k,l)的更新规则为:
W(k,l)+η*Δw(k);即每次更新增加一个η*Δw(k);
其中:0<η<1, η为W(k,l)更新的步长因子,可设置η=0.01。
则估计信号y(k,l)= W(k,l)*x(k,l),
然后分别求两个估计信号y1(k,l)、y2(k,l)的语音存在概率值和功率谱值。
估计信号的语音存在概率的计算过程为:
首先计算估计信号yi每个频点的功率谱:
psdi=| yi(k,l)|2
设置噪声估计窗长为N帧,设置噪声估计窗内信号功率谱阈值最小值为ε;然后根据每N帧长的噪声窗不断更新ε,即
psdi,tmp=min{ psdi,1,…,psdi,N}
ε= min{ε, psdi,tmp}
其中psdi,tmp表示当前噪声估计窗内的信号功率谱值最小值, psdi,N表示当前噪声估计窗内第N帧的信号功率谱值,ε为上一个噪声估计窗内的信号功率谱值最小值。设置语音是否存在的判断阈值δ为ε的M1倍,M1一般为经验参数,可设置M1=5。即可根据功率谱psdi判断语音是否存在:
Figure DEST_PATH_IMAGE007
其中C(k,l)为当前帧的语音存在标识,判断阈值δ=M*ε
则语音存在概率Pi(k,l)为:
Pi(k,l)= αp*Pi(k,l-1)+(1-αp)* C(k,l)
其中:0<αp <1, αp为遗忘因子,可设置αp=0.96,i表示不同麦克风,在双麦克风阵列中,i=1或2。
选取语音能量集中的频带计算累加语音存在概率,两个估计信号的累加语音存在概率为Prob1和Prob2
Figure DEST_PATH_IMAGE008
其中:KS为累加计算点,1<KS <K, K为麦克风频域信号的采样点总数,通常情况下可选取300-3400Hz的频带范围,P1(k,l),P2(k,l)分别表示两个麦克风的语音存在概率。
另外,两个估计信号的功率谱值Pow1和Pow2可通过下列公式计算:
Figure DEST_PATH_IMAGE009
最后以两个麦克风的功率谱值比值和概率值差值综合比较,设置不同的阈值范围,将功率谱值大和概率值高的作为目标语音传输到后端语音识别系统做识别。若该次识别未响应,则将功率谱值小的信号传输到后端语音识别系统做二次识别。
具体地,根据语音存在概率差值和功率谱值比值提取目标语音可按如下设置:
定义:δ1=Pow2/Pow1
δ2=Prob2-Prob1
则提取的目标语音信号Y为:
Figure 900535DEST_PATH_IMAGE004
上述目标语音提取的原理在于,在信噪比较高情况下,当一个估计信号的功率谱比值或概率值明显高于另一个估计信号的功率谱值或概率值时,可认为此时功率谱值或概率值高的估计信号为目标语音信号。但当功率谱值和概率值相差不大时,需要综合考虑差值范围,如上述分段函数所示,选择功率谱值和概率值至少一个相差较大,且另一个也不低的,具体的端点区间可以根据实际情况调整。
采用前述的具体实施方式和参数设置,进行语音提取,其中目标人声位于阵列90°方向,距离双麦克风阵列2米,说话声65-70dB。噪声位于阵列180°方向,距离双麦克风阵列1米,音响播放噪声。噪声类型为新闻噪声和音乐噪声55-60dB;按照本发明所述步骤S1至S3,仅进行第一次识别的实验结果如下表,其中对识别率的统计采用命令词识别方法,即统计100个命令词中能正确识别的词的个数、错误识别的个数及未能识别的个数,最终以正确识别率作为评估标准:
表1 正确识别率比较
Figure DEST_PATH_IMAGE010
从上表可见,在无需进行第二次识别的情况下,与以DOA为先验信息的目标语音提取方法相比,正确识别率相差不大,说明本发明所述目标语音提取方法可正确选取目标语音。
通过本发明所述目标语音提取方法,利用盲源分离算法降噪性好的特点,对盲源分离算法分离后的两个信号通过语音存在概率和功率谱值综合比较,提取出目标语音信号;该方法相对传统方法,不需要利用DOA提供目标声源先验信息,且不需要采用深度学习提取,对系统资源要求降低,并在信噪比(SNR)较高情况如SNR 不小于5dB下能准确单次即提取出目标语音。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (5)

1.一种基于双麦克风阵列的目标语音提取方法,其特征在于,包括如下步骤:
S1. 将两个麦克风接收的时域信号转化为频域信号;
S2. 然后对频域信号进行频域盲源分离算法处理;处理后得到两个源信号的估计信号;
S3. 利用两个源信号的估计信号求出各自的累加语音存在概率和功率谱值,并以功率谱值比值和概率值差值进行综合比较,设置不同的阈值范围,将功率谱值大和概率值高的信号作为目标语音传输到后端语音识别系统进行识别。
2.根据权利要求1所述基于双麦克风阵列的目标语音提取方法,其特征在于:如果步骤S3中识别不成功,则更换另一估计信号进行识别。
3.根据权利要求1所述基于双麦克风阵列的目标语音提取方法,其特征在于:所述S1步骤具体为:
S11.对时域信号做分帧加窗处理,设置每帧长度为K个采样点;
S12. 进行分帧加窗处理后的时域信号进行端点识别处理,检测输入信号是否为语音信号,是则进入下一步骤S13,否则终止进程;
S13.对时域信号进行短时傅里叶变换,得到频域信号。
4.根据权利要求1所述基于双麦克风阵列的目标语音提取方法,其特征在于:所述S2步骤具体为:
S21.对双麦克风阵列,以2 * 2单位矩阵作为分离矩阵W(k,l)的初始化矩阵,对分离矩阵W(k,l)进行逐帧更新;即帧数增加1,更新一次;
W(k,l)的更新规则为:
W(k,l)+η*Δw(k);即每次更新增加一个η*Δw(k);
其中:0<η<1, η为W(k,l)更新的步长因子
分离矩阵更新变量Δw(k)计算方法为:
Figure 254155DEST_PATH_IMAGE001
其中H表示复数共轭转置,M为单位矩阵,E表示期望,k表示第k个时频点,l表示第l帧语音信号, y(k,l)表示双麦克风阵列估计信号;
W(k)即分离矩阵 W(k,l),Δw(k)表示分离矩阵更新变量;
语音信号概率密度
Figure DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE003
i = 1,2,表示不同麦克风的源信号;
y1(k,l)、y2(k,l)分别表示当前帧l下,双麦克风阵列观测的两个源信号的估计信号,K为采样点总数;
S22.对每一帧进行分离矩阵W(k,l)的上述更新;
S23.利用分离矩阵W(k,l)得到估计信号y(k,l)= W(k,l)*x(k,l), x(k,l)表示接收信号。
5.根据权利要求1所述基于双麦克风阵列的目标语音提取方法,其特征在于:所述S3步骤具体为:
根据语音存在概率差值和功率谱值比值提取目标语音Y为:
Figure DEST_PATH_IMAGE004
δ1=Pow2/Pow1
δ2=Prob2-Prob1
其中两个估计信号y1和y2累加语音存在概率和功率谱值分别为Prob1、Prob2和Pow1 、Pow2
CN202110630288.0A 2021-06-07 2021-06-07 一种基于双麦克风阵列的目标语音提取方法 Pending CN113096684A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110630288.0A CN113096684A (zh) 2021-06-07 2021-06-07 一种基于双麦克风阵列的目标语音提取方法
CN202111312032.1A CN113889138A (zh) 2021-06-07 2021-11-08 一种基于双麦克风阵列的目标语音提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110630288.0A CN113096684A (zh) 2021-06-07 2021-06-07 一种基于双麦克风阵列的目标语音提取方法

Publications (1)

Publication Number Publication Date
CN113096684A true CN113096684A (zh) 2021-07-09

Family

ID=76666082

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110630288.0A Pending CN113096684A (zh) 2021-06-07 2021-06-07 一种基于双麦克风阵列的目标语音提取方法
CN202111312032.1A Pending CN113889138A (zh) 2021-06-07 2021-11-08 一种基于双麦克风阵列的目标语音提取方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111312032.1A Pending CN113889138A (zh) 2021-06-07 2021-11-08 一种基于双麦克风阵列的目标语音提取方法

Country Status (1)

Country Link
CN (2) CN113096684A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628634A (zh) * 2021-08-20 2021-11-09 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN114639398A (zh) * 2022-03-10 2022-06-17 电子科技大学 一种基于麦克风阵列的宽带doa估计方法
CN115361617A (zh) * 2022-08-15 2022-11-18 音曼(北京)科技有限公司 无盲区的多麦克风环境噪声抑制方法
CN117012202A (zh) * 2023-10-07 2023-11-07 北京探境科技有限公司 语音通道识别方法、装置、存储介质及电子设备
CN117153186A (zh) * 2022-08-05 2023-12-01 深圳Tcl新技术有限公司 声音信号处理方法、装置、电子设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117014246A (zh) * 2022-04-29 2023-11-07 青岛海尔科技有限公司 智能设备的控制方法、存储介质及电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103763230A (zh) * 2014-01-17 2014-04-30 南京信息工程大学 一种改进的自适应盲源分离方法
CN104167214A (zh) * 2014-08-20 2014-11-26 电子科技大学 一种双麦克风盲声源分离的快速源信号重建方法
CN104866866A (zh) * 2015-05-08 2015-08-26 太原理工大学 改进的自然梯度变步长盲源分离算法
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法
CN109473118A (zh) * 2018-12-24 2019-03-15 苏州思必驰信息科技有限公司 双通道语音增强方法及装置
CN111009256A (zh) * 2019-12-17 2020-04-14 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103763230A (zh) * 2014-01-17 2014-04-30 南京信息工程大学 一种改进的自适应盲源分离方法
CN104167214A (zh) * 2014-08-20 2014-11-26 电子科技大学 一种双麦克风盲声源分离的快速源信号重建方法
CN104866866A (zh) * 2015-05-08 2015-08-26 太原理工大学 改进的自然梯度变步长盲源分离算法
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法
CN109473118A (zh) * 2018-12-24 2019-03-15 苏州思必驰信息科技有限公司 双通道语音增强方法及装置
CN111009256A (zh) * 2019-12-17 2020-04-14 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHANDAN K A REDDY: ""A Computationally Efficient and Practically Feasible Two Microphones Blind Speech Separation Method"", 《ARXIV.ORG》 *
LILI: ""Geometrically constrained Independent Vector Analysis for Directional Speech enhancement"", 《ICASSP》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628634A (zh) * 2021-08-20 2021-11-09 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN113628634B (zh) * 2021-08-20 2023-10-03 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN114639398A (zh) * 2022-03-10 2022-06-17 电子科技大学 一种基于麦克风阵列的宽带doa估计方法
CN114639398B (zh) * 2022-03-10 2023-05-26 电子科技大学 一种基于麦克风阵列的宽带doa估计方法
CN117153186A (zh) * 2022-08-05 2023-12-01 深圳Tcl新技术有限公司 声音信号处理方法、装置、电子设备和存储介质
WO2024027246A1 (zh) * 2022-08-05 2024-02-08 深圳Tcl新技术有限公司 声音信号处理方法、装置、电子设备和存储介质
CN115361617A (zh) * 2022-08-15 2022-11-18 音曼(北京)科技有限公司 无盲区的多麦克风环境噪声抑制方法
CN117012202A (zh) * 2023-10-07 2023-11-07 北京探境科技有限公司 语音通道识别方法、装置、存储介质及电子设备
CN117012202B (zh) * 2023-10-07 2024-03-29 北京探境科技有限公司 语音通道识别方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN113889138A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
CN113096684A (zh) 一种基于双麦克风阵列的目标语音提取方法
Soni et al. Time-frequency masking-based speech enhancement using generative adversarial network
CN109830245B (zh) 一种基于波束成形的多说话者语音分离方法及系统
Zhang et al. A speech enhancement algorithm by iterating single-and multi-microphone processing and its application to robust ASR
Wang et al. On training targets for supervised speech separation
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN110197665B (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
Ji et al. Speaker-aware target speaker enhancement by jointly learning with speaker embedding extraction
Higuchi et al. Adversarial training for data-driven speech enhancement without parallel corpus
KR20130068869A (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
Matsui et al. Online integration of DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming
JP2022529912A (ja) 深層フィルタを決定するための方法および装置
Lee et al. Dynamic noise embedding: Noise aware training and adaptation for speech enhancement
CN110111802A (zh) 基于卡尔曼滤波的自适应去混响方法
Wang et al. Deep neural network based supervised speech segregation generalizes to novel noises through large-scale training
Fujita et al. Unified ASR system using LGM-based source separation, noise-robust feature extraction, and word hypothesis selection
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
CN116092512A (zh) 一种基于数据生成的小样本语音分离方法
CN100495537C (zh) 强鲁棒性语音分离方法
Kundegorski et al. Two-Microphone dereverberation for automatic speech recognition of Polish
Yang et al. Boosting spatial information for deep learning based multichannel speaker-independent speech separation in reverberant environments
Meutzner et al. Binaural signal processing for enhanced speech recognition robustness in complex listening environments
Nakatani et al. Reduction of Highly Nonstationary Ambient Noise by Integrating Spectral and Locational Characteristics of Speech and Noise for Robust ASR.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210709