CN106448693B - 一种语音信号处理方法及装置 - Google Patents

一种语音信号处理方法及装置 Download PDF

Info

Publication number
CN106448693B
CN106448693B CN201610802804.2A CN201610802804A CN106448693B CN 106448693 B CN106448693 B CN 106448693B CN 201610802804 A CN201610802804 A CN 201610802804A CN 106448693 B CN106448693 B CN 106448693B
Authority
CN
China
Prior art keywords
voice signal
angle
gain
microphone
wave beam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610802804.2A
Other languages
English (en)
Other versions
CN106448693A (zh
Inventor
王乐临
李玉龙
郑成诗
厉剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610802804.2A priority Critical patent/CN106448693B/zh
Publication of CN106448693A publication Critical patent/CN106448693A/zh
Application granted granted Critical
Publication of CN106448693B publication Critical patent/CN106448693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

本发明实施例公开了一种语音信号处理方法及装置,涉及信号处理技术领域,可以准确进行目标语音角度的估计,从而有效增强目标语音,并衰减或屏蔽其他方向的噪声和干扰信号。具体方案为:确定出与至少三个传声器对应的至少三个波束;通过至少两个传声器组合,确定当前声场中目标声源的入射角,并计算目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差;根据目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差,计算每个波束的保护角增益,并根据至少三个波束中每个波束的保护角增益,计算语音信号的多波束加权增益,并对至少三个传声器采集的语音信号进行加权输出。本发明用于语音信号的处理过程中。

Description

一种语音信号处理方法及装置
技术领域
本发明涉及信号处理技术领域,尤其涉及一种语音信号处理方法及装置。
背景技术
语音设备在采集语音信号时,不可避免的会受到各种噪声的干扰,常见的噪声一般包括:混响噪声和方向性干扰声源噪声,这些噪声容易对目标语音信号产生干扰,降低目标语音信号的质量。因此,语音信号的处理过程中,抑制混响噪声和方向性干扰声源噪声尤为重要。
其中,定向拾音是常用的一种用于抑制方向性干扰声源噪声的技术。定向拾音是指按照声音来源方向,在混杂的信号中进行目标信号的拾取,即只拾取特定方向传播来的声音信号,衰减或屏蔽其他方向的噪声和干扰信号,从而达到目标语音增强的效果。
现有的定向拾音算法,可以根据配置在电子终端中的多个传声器采集到的语音信号进行目标语音角度的估计(即目标声源的定位),然后根据估计的目标语音角度,对目标声源进行定向拾音。其中,上述定向拾音算法抑制方向性干扰声源噪声的效果很大程度上决定于电子终端中配置的传声器的数量和各个传声器之间的间距。具体的,电子终端中配置的传声器的数量越多、各个传声器之间的间距越大,则进行目标语音角度的估计得到的目标语音角度则越准确。
但是,现有的各种电子终端(如手机)中的传声器数量有限(一般的手机中配置三个传声器)、且由于电子终端的体积有限,电子终端中配置的各个传声器之间的间距也较小;因此,采用现有的定向拾音算法不能准确估计得到目标声源的入射角。并且,现有技术一般采用将主波束直接对准估计得到的目标声源的入射角进行定向拾音;因此,当目标声源的入射角估计不准确时,不仅不能有效增强语音信号,衰减或屏蔽其他方向的噪声和干扰信号,还会对语音信号产生损伤,造成语音信号的失真。
发明内容
本发明的实施例提供一种语音信号处理方法及装置,可以提高目标声源的入射角的准确性,从而有效增强语音信号。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种语音信号处理方法,应用于具有语音信号采集功能的电子终端,电子终端配置有至少三个传声器,至少三个传声器形成至少两个传声器组合,至少两个传声器组合中的每个传声器组合包括两个传声器,每个传声器组合中包含的传声器与其他传声器组合中至少有一个传声器不同,该语音信号处理方法包括:确定出与至少三个传声器对应的至少三个波束,至少三个波束中每个波束的波束方向固定,至少三个波束中每个波束的中心角用于表征该波束的波束方向;通过至少两个传声器组合,确定当前声场中目标声源的入射角,并计算目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差;根据目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差,计算每个波束的保护角增益,其中,每个波束的保护角增益和目标声源的入射角与该波束的角度偏差与该波束的保护角增益成正比;根据至少三个波束中每个波束的保护角增益,计算语音信号的多波束加权增益;采用语音信号的多波束加权增益,对至少三个传声器采集的语音信号进行加权输出。
本发明实施例提供的语音信号处理方法,通过至少两个传声器组合进行目标声源的入射角的定位,可以避免由于电子终端中的传声器数量有限、且各个传声器之间的间距也较小,采用现有的定向拾音算法不能较为准确的估计目标声源的入射角的问题,可以较为准确的估计目标声源的入射角。并且,在本方案中,还可以根据上述至少三个传声器确定至少三个固定波束,并分别计算至少三个固定波束的中心角与目标声源的入射角的角度偏差,然后采用计算得到的角度偏差计算语音信号的多波束加权增益,对语音信号进行加权输出。即本方案中可以通过固定角度的多波束输出,而非现有技术中将主波束直接对准估计得到的目标声源的入射角进行定向拾音,如此不仅可以起到增强语音信号,衰减或屏蔽其他方向的噪声和干扰信号的作用,还可以提供一定的容错能力,即使上述估计的目标语音角度不够准确,也不会对目标语音信号产生损伤,造成目标声源的失真。
在一种可能的实现方式中,以上述电子终端配置有三个传声器(第一传声器、第二传声器和第三传声器)为例,第一传声器对应第一波束,第二传声器对应第二波束,第三传声器对应第三波束,第一波束、第二波束和第三波束的波束方向固定。此处以计算目标声源的入射角与第一波束的中心角的角度偏差为例,对上述“计算目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差”的方法进行举例说明:上述“计算目标声源的入射角与第一波束的中心角的角度偏差”的方法可以包括:采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},计算目标声源的入射角θs(l)与第一波束的中心角φ1的角度偏差Δψ1。其中,由于本方案确定的目标声源的入射角的范围是0°~360°,因此,如果直接计算目标声源的入射角与第一波束的中心角的差值,作为目标声源的入射角与第一波束的中心角的角度偏差,则可能会存在由于目标声源的入射角位于第一象限(即目标声源的入射角为0°~90°),第一波束的中心角位于第四象限(即第一波束的中心角为270°~360°),而导致计算得到的角度偏差远大于其实际角度偏差。例如,假设目标声源的入射角为40°,第一波束的中心角为320°。直接计算目标声源的入射角与第一波束的中心角的差值320°-40°=280°,目标声源的入射角与第一波束的中心角的角度偏差为280°;但是,此时目标声源的入射角与第一波束的中心角的实际角度偏差只有80°。而采用本方案,可以将|θs(l)-φ1|与360-|θs(l)-φ1|中的最小值作为目标声源的入射角与第一波束的中心角的实际角度偏差,可以避免上述计算得到的角度偏差远大于目标声源的入射角与第一波束的中心角实际角度偏差的问题,计算得到准确的角度偏差。
在一种可能的实现方式中,上述“根据所述至少三个波束中每个波束的保护角增益,计算语音信号的多波束加权增益”的方法具体可以包括:根据目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差,计算至少三个波束中每个波束的保护角增益的加权值,至少三个波束中每个波束的保护角增益的加权值和对应波束与目标声源的入射角的角度偏差成反比;根据至少三个波束中每个波束的保护角增益和至少三个波束中每个波束的保护角增益的加权值,计算语音信号的多波束加权增益。优选的,至少三个波束中每个波束的保护角增益的加权值之和为1。
例如,本发明实施例中可以采用计算语音信号的多波束加权增益Gdoa。其中,n用于表示至少三个波束的波束总数,n≥3,Gi用于表示n个波束中第i个波束的保护角增益,wi用于表示n个波束中第i个波束的保护角增益的加权值。此处以n=3为例,则Gdoa=w1·G1+w2·G2+w3·G3。其中,G1用于表示第一波束的保护角增益,G2用于表示第二波束的保护角增益,G3用于表示第三波束的保护角增益。
本方案可以通过多波束加权的方式,先根据上述三个角度偏差计算得到的三个波束中每个波束的保护角增益,然后再根据每个角度偏差,分别计算至少三个波束中每个波束的保护角增益的加权值,然后根据至少三个波束中每个波束的保护角增益和至少三个波束中每个波束的保护角增益的加权值,计算语音信号的多波束加权增益。本方案中计算得到的语音信号的加权增益是根据多个方向的波束计算得到的多波束加权增益,采用该多波束加权增益进行定向拾音时,即使上述估计的目标语音角度不够准确,也不会对目标语音信号产生损伤,造成目标声源的失真。
在一种可能的实现方式中,上述“通过所述至少两个传声器组合,确定当前声场中目标声源的入射角”的方法具体可以包括:根据所述第一传声器采集的语音信号和所述第二传声器采集的语音信号,以及第一传声器和第二传声器之间的距离,计算第一目标角θx(l),0≤θx(l)<180,第一目标角度为目标声源的一估计入射角;根据第一传声器采集的语音信号和第三传声器采集的语音信号,以及第一传声器和第三传声器之间的距离,计算第二目标角θy(l),0≤θy(l)<180,第二目标角度为目标声源的另一估计入射角;根据第一目标角θx(l)和第二目标角θy(l),确定目标声源的入射角在当前声场中所处的象限,当前声场在二维平面包括:第一象限、第二象限、第三象限和第四象限;根据第一目标角θx(l)和第二目标角θy(l),以及目标声源的入射角在当前声场中所处的象限,计算目标声源的入射角θs(l)。其中,通过象限判断的方法确定出目标声源的入射角θs(l),可以降低目标声源的入射角θs(l)的计算复杂度。
在一种可能的实现方式中,可以根据第一目标角θx(l)和第二目标角θy(l)所处的区间或者大小,确定目标声源的入射角在当前声场中所处的象限。具体的,上述“根据第一目标角θx(l)和第二目标角θy(l),确定目标声源的入射角在当前声场中所处的象限”的方法可以包括:若0°≤θx(l)≤90°,且90°<θy(l)≤180°,则确定目标声源的入射角处于当前声场的第一象限;若90°≤θx(l)≤180°,且90°≤θy(l)≤180°,则确定目标声源的入射角处于当前声场的第二象限;若90°<θx(l)≤180°,且0°≤θy(l)≤90°,则确定目标声源的入射角处于当前声场的第三象限;若0°<θx(l)≤90°,且0°<θy(l)≤90°,则确定目标声源的入射角处于当前声场的第四象限。通过本方案,可以根据上述第一目标角θx(l)和第二目标角θy(l)所处的区间或者大小,准确判断出目标声源的入射角在当前声场中所处的象限,进而可以通过象限判断的方法确定出目标声源的入射角θs(l),可以提高计算得到的目标声源的入射角θs(l)的准确性。
在一种可能的实现方式中,上述“根据第一目标角θx(l)和第二目标角θy(l),以及目标声源的入射角在当前声场中所处的象限,计算目标声源的入射角θs(l)”的方法可以包括:根据所述目标声源的入射角所处的象限,计算目标声源的入射角的第一分量θs x(l)和目标声源的入射角的第二分量θs y(l);采用计算目标声源的入射角θs(l)。
在一种可能的实现方式中,目标声源的入射角处于不同的象限时,该目标声源的入射角的第一分量θs x(l)和目标声源的入射角的第二分量θs y(l)的计算方法则会相应不同。具体的,上述“根据所述目标声源的入射角所处的象限,计算目标声源的入射角的第一分量θs x(l)和目标声源的入射角的第二分量θs y(l)”的方法可以为:若目标声源的入射角处于第一象限,则采用θs x(l)=270°-θx(l),计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算目标声源的入射角的第二分量θs y(l);若目标声源的入射角处于第二象限,则采用θs x(l)=270°-θx(l),计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算目标声源的入射角的第二分量θs y(l);若目标声源的入射角处于第三象限,则采用θs x(l)=θx(l)-90°,计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算目标声源的入射角的第二分量θs y(l);若目标声源的入射角处于第四象限,则采用θs x(l)=270°+θx(l),计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算目标声源的入射角的第二分量θs y(l)。本方案中,可以根据目标声源的入射角所处象限的不同,采用不同的方法计算目标声源的入射角的第一分量θs x(l)和第二分量θs y(l),然后再计算第一分量θs x(l)和第二分量θs y(l)的平均值,便可以得到目标声源的入射角θs(l)。其中,在目标声源的入射角处于不同象限时,采用不同的方法计算目标声源的入射角的第一分量θs x(l)和第二分量θs y(l),可以提高计算得到的目标声源的入射角θs(l)的准确性。
在一种可能的实现方式中,以上述电子终端配置有三个传声器为例,则上述至少三个波束包括第一波束、第二波束和第三波束。本发明实施例这里以第一波束为例,对上述“根据计算得到的至少三个角度偏差中的每个角度偏差,计算该角度偏差对应波束的保护角增益”的方法进行说明。具体的,“根据目标声源的入射角与第一波束的中心角的角度偏差,计算第一波束的保护角增益”的方法可以包括:采用计算目标声源的入射角的第一分量θs x(l)与第一波束的中心角φ1的差值采用计算目标声源的入射角的第二分量θs y(l)与第一波束的中心角φ1的差值若第一分量和第二分量满足第一条件,则采用以下公式1计算用于表征角度偏差Δψ1的大小的等效信噪比γd;采用以下公式2,计算第一波束的保护角增益G1
其中,公式1为公式2为角度偏差Δψ1随等效信噪比γd的增大而变小,c0为常数。
在一种可能的实现方式中,上述第一分量和第二分量满足第一条件具体可以为:第一分量大于第一阈值θth,且第二分量大于第一阈值θth。其中,上述第一阈值θth为本发明实施例预先设置或者预先配置的角度阈值。
在一种可能的实现方式中,第一分量和第二分量可能并不满足上述第一条件,即第一分量小于或等于第一阈值θth,和/或第二分量小于或等于第一阈值θth。此时,则不能够采用上述方法计算第一波束的保护角增益,而是直接确定上述第一波束的保护角增益G1=1。具体的,本发明实施例的方法还可以包括:若上述第一分量和第二分量不满足上述第一条件,则确定上述第一波束的保护角增益G1=1。
本方案中,在计算得到的目标声源的入射角的第一分量θs x(l)和第二分量θs y(l)后,无论计算得到的第一分量θs x(l)和第二分量θs y(l)是否满足上述第一条件,都可以计算得到对应的保护角增益。
在一种可能的实现方式中,上述“采用第一传声器和第二传声器计算第l帧的第一目标角θx(l)”的方法可以包括:将至少三个传声器采集的语音信号的频率范围平均划分为m个频带;根据第一传声器采集的语音信号和第二传声器采集的语音信号,在第k个频点的相干函数Γx=Γ12(k)、m个频带中第i个频带的频带选择函数Hf-i(k)、预设修正函数Hs(k)、时域采样频率fs、空气中的声速c,以及第一传声器和第二传声器之间的距离d12,采用以下公式3、公式4和公式5计算第i个频带的目标语音入射角度计算目标声源与噪声信号的成分比重γg(k,l),并采用以下公式6计算第一平滑角度因子αf(k,l);若第一平滑角度因子αf(k,l)大于或等于第二阈值δth,则采用以下公式7计算第l帧的第一目标角θx(l);若第一平滑角度因子
αf(k,l)小于第二阈值δth,则第l帧的第一目标角θx(l)等于θx(l-1);其中,
θx(l-1)为第l-1帧的第一目标角,0≤θx(l-1)<180。
其中,公式3为公式4为公式5为该修正函数Hs(k)是根据第一传声器采集的语音信号x1(n)和第二传声器采集的语音信号x2(n)通过相干平滑变换SCOT得到的;公式6为公式7为 中的最小值。
在一种可能的实现方式中,上述第一波束、第二波束和第三波束中,相邻波束的中心角之间的夹角相等,即第一波束、第二波束和第三波束中相邻波束的中心角之间的夹角为120°。
在一种可能的实现方式中,本发明实施例不仅可以对传声器采集到的信号进行定向拾音,还可以在对传声器采集到的信号进行定向拾音之前,对传声器采集到的信号进行去混响处理。具体的,在“采用语音信号的多波束加权增益,对至少三个传声器采集的语音信号进行加权输出”之前,本发明实施例的方法还可以包括:计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l);采用语音信号的混响声抑制增益Gcdr(k,l),对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。相应的,上述“采用语音信号的多波束加权增益,对至少三个传声器采集的语音信号进行加权输出”具体可以为:采用所述语音信号的多波束加权增益,对去混响语音信号进行加权输出。通过本方案,不仅可以对传声器采集到的信号进行定向拾音,还可以对传声器采集到的信号进行去混响处理。即通过本方案,不仅可以抑制方向性干扰噪声,还可以抑制混响噪声。
在一种可能的实现方式中,上述“计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l)”的方法具体可以包括:采用所述至少两个传声器组合中任一传声器组合采集的语音信号,计算该传声器组合(包括:第一传声器和第二传声器)CDR12(k,l),该CDR12(k,l)用于表征第k频点的语音信号的相干性,该CDR12(k,l)与第k频点的语音信号的相干性成正比;采用以下公式8计算混响声抑制增益Gcdr(k,l)。
其中,公式8为可以想到的是,基于双传声器的非方向相干混相比可以计算得到较为准确的混响声抑制增益,采用该混响声抑制增益可以准确的去除传声器采集的语音信号中的混响噪声。
在一种可能的实现方式中,上述“采用第一传声器和第二传声器采集的语音信号,计算第一传声器和第二传声器的非方向相干混相比CDR12(k,l)”的方法可以包括:采用以下公式9计算第一传声器采集的语音信号和第二传声器采集的语音信号,在第k个频点的相干函数Γn;采用以下公式10计算第一传声器采集的语音信号和第二传声器采集的语音信号,在第l帧第k个频点的相干函数Γx;采用以下公式11计算第一传声器和第二传声器的非方向相干混相比CDR12(k,l)。
其中,公式9为Γn=Γ12(k)=sinc(2·fk·d12/c),fk=k/N·fS;公式10为
公式11为或者,或者,
其中,fS用于表示时域采样频率,d12用于表示第一传声器和第二传声器之间的距离,c用于表示空气中的声速,N用于表示FFT的点数;E{·}用于表示数学期望,*用于表示共轭运算,用于表示取实部运算;X1(k,l)为第一传声器采集到的时域语音信号x1(n)进行STFT得到的频域信号,X2(k,l)为第二传声器采集到的时域语音信号x2(n)进行STFT得到的频域信号。
在一种可能的实现方式中,为了减少去混响过程中带来的音乐噪声,本发明实施例可以对上述混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益然后采用平滑混响声抑制增益对语音信号进行去混响处理,得到去混响语音信号。具体的,在所述采用语音信号的混响声抑制增益Gcdr(k,l),对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号之前,本发明实施例的方法还包括:对语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益相应的,上述“采用语音信号的混响声抑制增益Gcdr(k,l),对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号”的方法具体可以为:采用平滑混响声抑制增益对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。本方案中,可以在对语音信号进行去混响处理之前,先对混响声抑制增益Gcdr(k,l)进行平滑处理,然后再采用平滑混响声抑制增益对语音信号进行去混响处理,如此可以起到保护语音信号的作用,减少去混响过程中带来的音乐噪声。
在一种可能的实现方式中,上述“对语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益”的方法具体可以包括:计算后验信噪比γ1(k,l),该后验信噪比γ1(k,l)为目标声源与混响噪声的成分比重;若γ1(k,l)<αs(k,l-1),则采用以下公式12确定第二平滑角度因子αs(k,l);若γ1(k,l)≥αs(k,l-1),则采用以下公式13确定αs(k,l);采用以下公式14对Gcdr(k,l)进行平滑处理,得到其中,公式12为αs(k,l)=αs(k,l-1);公式13为αs(k,l)=α1·(γ1(k,l)-αs(k,l-1))+αs(k,l-1);公式14为
在一种可能的实现方式中,为了提升去混响的效果,进一步保护语音信号,减少去混响过程中带来的音乐噪声,还可以对混响声抑制增益Gcdr(k,l)进行二次平滑处理,即再对平滑混响声抑制增益进行一次平滑处理。具体的,本发明在“采用平滑混响声抑制增益对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号”之后,本发明实施例的方法还可以包括:采用以下公式15计算去混响语音信号y1(n)的倒谱cy1(q,l);采用以下公式16计算的最大倒谱系数qmax;通过以下公式17对倒谱cy1(q,l)进行倒谱预处理,得到处理后的倒谱cy1(q,l);采用以下公式18计算处理后的倒谱cy1(q,l)的功率谱Pnr1(k,l);通过以下公式19对功率谱Pnr1(k,l)进行子带衰减,得到衰减功率谱Pnr2(k,l);采用以下公式20计算倒谱增益平滑因子βt(q,l);采用倒谱增益平滑因子βt(q,l),通过以下公式21和公式22对平滑混响声抑制增益进行二次平滑,得到二次平滑混响声抑制增益Gcdr_cep(k,l);采用二次平滑混响声抑制增益Gcdr_cep(k,l)对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。
其中,上述公式15为Py1(k,l)为y1(n)的功率谱,用于表示傅立叶逆变换,ln{·}用于表示自然对数运算。
上述公式16为qmax=argmax{|cy1(q,l)|,q∈(fs/fu,fs/fb)},fu=300Hz,fb=70Hz,fu和fb分别为进行倒谱预处理的基频上下限。
上述公式17为Hc(q)为倒谱域加权函数,λth为预设阈值。
上述公式18为 为取实部运算,为傅里叶变换。
上述公式19为Pnr2(k,l)=Pnr1(k,l)exp(-αm),kt为子带带宽,kt=N/qmax,k=mkt,mkt+1,…(m+1)kt-1,N用于表示FFT的点数αm为第m个子带的衰减因子,αm=|min{ln(Py1(k,l))-ln(Pnr1(k,l))}|,k=mkb,mkb+1,…(m+1)kb-1。
上述公式20为β1、β2、β2均为常数,λth为预设阈值。
上述公式21为上述公式22为
本方案中,可以采用二次平滑混响声抑制增益Gcdr_cep(k,l)对语音信号进行去混响处理,得到去混响语音信号。如此,不仅可以提升去混响的效果,还可以进一步保护语音信号,减少去混响过程中带来的音乐噪声。
第二方面,提供一种语音信号处理方法,应用于具有语音信号采集功能的电子终端,该电子终端配置有至少三个传声器,该语音信号处理方法包括:计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l);采用语音信号的混响声抑制增益Gcdr(k,l),对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。通过本方案,可以对传声器采集到的信号进行去混响处理,抑制混响噪声。
在一种可能的实现方式中,为了减少去混响过程中带来的音乐噪声,可以在“采用语音信号的混响声抑制增益Gcdr(k,l),对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号”之前,也可以对上述混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益然后采用平滑混响声抑制增益对语音信号进行去混响处理,得到去混响语音信号。
在一种可能的实现方式中,为了进一步保护语音信号,减少去混响过程中带来的音乐噪声。本发明实施例中还可以对上述平滑混响声抑制增益进行二次平滑,得到二次平滑混响声抑制增益Gcdr_cep(k,l),然后采用Gcdr_cep(k,l)对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。
需要说明的是,本发明实施例第二方面及其可能的实现方式中,“计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l)”、“对混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益”,以及“对平滑混响声抑制增益进行二次平滑,得到二次平滑混响声抑制增益Gcdr_cep(k,l)”的具体方法可以参考本发明实施例第一方面相关实现方式中的详细描述,本发明实施例这里不再赘述。
第三方面,提供一种语音信号处理装置,包含于具有语音信号采集功能的电子终端,该电子终端配置有至少三个传声器,至少三个传声器形成至少两个传声器组合,至少两个传声器组合中的每个传声器组合包括两个传声器,每个传声器组合中包含的传声器与其他传声器组合中至少有一个传声器不同,该装置包括:第一确定模块、第二确定模块、第一计算模块、第二计算模块和加权输出模块。其中,第一确定模块,用于确定出与至少三个传声器对应的至少三个波束,至少三个波束中每个波束的波束方向固定,至少三个波束中每个波束的中心角用于表征该波束的波束方向。第二确定模块,用于通过至少两个传声器组合,确定当前声场中目标声源的入射角。第一计算模块,用于计算第二确定模块确定的目标声源的入射角与第一确定模块确定的至少三个波束中每个波束的中心角的角度偏差。第二计算模块,用于根据第一计算模块计算得到的目标声源的入射角与至少三个波束中任一波束的中心角的角度偏差,计算该波束的保护角增益,其中,目标声源的入射角与该波束的角度偏差和该波束的保护角增益成正比,并根据至少三个波束中每个波束的保护角增益,计算语音信号的多波束加权增益。加权输出模块,用于采用第二计算模块计算得到的语音信号的多波束加权增益,对至少三个传声器采集的语音信号进行加权输出。
在一种可能的实现方式中,上述第二计算模块,具体用于:根据目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差,计算至少三个波束中每个波束的保护角增益的加权值,至少三个波束中每个波束的保护角增益的加权值之和为1,且至少三个波束中每个波束的保护角增益的加权值和对应波束与目标声源的入射角的角度偏差成反比;根据至少三个波束中每个波束的保护角增益和至少三个波束中每个波束的保护角增益的加权值,计算语音信号的多波束加权增益。
在一种可能的实现方式中,上述至少三个传声器包括:第一传声器、第二传声器和第三传声器,至少两个传声器组合包括:第一传声器和第二传声器的组合、第一传声器和第三传声器的组合,以及第三传声器和第二传声器的组合。在这种实现方式中,上述第二确定模块,具体用于:根据第一传声器采集的语音信号和第二传声器采集的语音信号,以及第一传声器和第二传声器之间的距离,计算第一目标角θx(l),0≤θx(l)<180,第一目标角度为目标声源的一估计入射角;根据第一传声器采集的语音信号和第三传声器采集的语音信号,以及第一传声器和第三传声器之间的距离,计算第二目标角θy(l),0≤θy(l)<180,第二目标角度为目标声源的另一估计入射角;根据第一目标角θx(l)和第二目标角θy(l),确定目标声源的入射角在当前声场中所处的象限,当前声场在二维平面包括:第一象限、第二象限、第三象限和第四象限;根据第一目标角θx(l)和第二目标角θy(l),以及目标声源的入射角在当前声场中所处的象限,计算目标声源的入射角θs(l)。
在一种可能的实现方式中,上述“第二确定模块,用于根据第一目标角θx(l)和第二目标角θy(l),确定目标声源的入射角在当前声场中所处的象限”包括:该第二确定模块,用于若0°≤θx(l)≤90°,且90°<θy(l)≤180°,则确定目标声源的入射角处于当前声场的第一象限;若90°≤θx(l)≤180°,且90°≤θy(l)≤180°,则确定目标声源的入射角处于当前声场的第二象限;若90°<θx(l)≤180°,且0°≤θy(l)≤90°,则确定目标声源的入射角处于当前声场的第三象限;若0°<θx(l)≤90°,且0°<θy(l)≤90°,则确定目标声源的入射角处于当前声场的第四象限。
在一种可能的实现方式中,“上述第二确定模块,用于根据第一目标角θx(l)和第二目标角θy(l),以及目标声源的入射角在当前声场中所处的象限,计算目标声源的入射角θs(l)”包括:该第二确定模块,用于:若目标声源的入射角处于第一象限,则采用θs x(l)=270°-θx(l),计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算目标声源的入射角的第二分量θs y(l);若目标声源的入射角处于第二象限,则采用θs x(l)=270°-θx(l),计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算目标声源的入射角的第二分量θs y(l);若目标声源的入射角处于第三象限,则采用θs x(l)=θx(l)-90°,计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算目标声源的入射角的第二分量θs y(l);若目标声源的入射角处于第四象限,则采用θs x(l)=270°+θx(l),计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算目标声源的入射角的第二分量θs y(l);采用计算目标声源的入射角θs(l)。
在一种可能的实现方式中,上述至少三个波束包括:第一波束、第二波束和第三波束。上述“第一计算模块,用于计算目标声源的入射角与第一波束的中心角的角度偏差”包括:第一计算模块,用于采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},计算目标声源的入射角θs(l)与第一波束的中心角φ1的角度偏差Δψ1
在一种可能的实现方式中,上述“第二计算模块根据目标声源的入射角与第一波束的中心角的角度偏差,计算第一波束的保护角增益”包括:第二计算模块,用于:采用计算目标声源的入射角的第一分量θs x(l)与第一波束的中心角φ1的差值采用计算目标声源的入射角的第二分量θs y(l)与第一波束的中心角φ1的差值若第一分量和第二分量满足第一条件,则采用公式1计算用于表征角度偏差Δψ1的大小的等效信噪比γd;其中,角度偏差Δψ1随等效信噪比γd的增大而变小;c0为常数;采用公式2,计算第一波束的保护角增益G1。其中,第一分量和第二分量满足第一条件具体为第一分量大于第一阈值θth,且第二分量大于第一阈值θth
在一种可能的实现方式中,上述第二计算模块,还用于若第一分量和第二分量不满足第一条件,则确定第一波束的保护角增益G1=1。
在一种可能的实现方式中,上述“第二计算模块,用于根据至少三个波束中每个波束的保护角增益和至少三个波束中每个波束的保护角增益的加权值,计算语音信号的多波束加权增益”包括:第二计算模块,用于采用计算语音信号的多波束加权增益Gdoa。其中,n用于表示至少三个波束的波束总数,n≥3,Gi用于表示n个波束中第i个波束的保护角增益,wi用于表示n个波束中第i个波束的保护角增益的加权值。
在一种可能的实现方式中,上述“第二确定模块,用于根据第一传声器采集的语音信号和第二传声器采集的语音信号,以及第一传声器和第二传声器之间的距离,计算第一目标角θx(l)”包括:第二确定模块,用于:将至少三个传声器采集的语音信号的频率范围平均划分为m个频带;根据第一传声器采集的语音信号和第二传声器采集的语音信号,第k个频点的相干函数Γx=Γ12(k)、m个频带中第i个频带的频带选择函数Hf-i(k)、修正函数Hs(k)、时域采样频率fs、空气中的声速c,以及第一传声器和第二传声器之间的距离d12,采用公式3、公式4和公式5计算第i个频带的目标语音入射角度计算目标声源与噪声信号的成分比重γg(k,l),并采用公式6计算第一平滑角度因子αf(k,l);若第一平滑角度因子αf(k,l)大于或等于第二阈值δth,则采用公式7计算第l帧的第一目标角θx(l);若第一平滑角度因子αf(k,l)小于第二阈值δth,则第l帧的第一目标角θx(l)等于θx(l-1);其中,θx(l-1)为第l-1帧的第一目标角,0≤θx(l-1)<180。
在一种可能的实现方式中,上述语音信号处理装置还可以包括:第三计算模块和去混响模块。其中,第三计算模块,用于在加权输出模块采用语音信号的多波束加权增益,对至少三个传声器采集的语音信号进行加权输出之前,计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l)。去混响模块,用于采用第三计算模块计算得到的语音信号的混响声抑制增益Gcdr(k,l),对语音信号进行去混响处理,得到去混响语音信号。相应的,加权输出模块,具体用于采用第二计算模块计算得到的语音信号的多波束加权增益Gcdr(k,l),对去混响模块处理得到的去混响语音信号进行加权输出。
在一种可能的实现方式中,上述第三计算模块,具体用于采用至少三个传声器中任意两个传声器采集的语音信号,计算第一传声器和第二传声器的非方向相干混相比CDR12(k,l),该CDR12(k,l)用于表征第k频点的语音信号的相干性,该CDR12(k,l)与第k频点的语音信号的相干性成正比;采用公式8计算混响声抑制增益Gcdr(k,l)。
在一种可能的实现方式中,该传声器组合为第一传声器和第二传声器的组合。上述“第三计算模块,用于采用至少三个传声器组合中任一传声器组合采集的语音信号,计算该传声器组合的非方向相干混相比CDR12(k,l)”包括:第三计算模块,用于采用公式9计算第一传声器采集的语音信号和第二传声器采集的语音信号,在第k个频点的相干函数Γn;采用公式10计算第一传声器采集的语音信号和第二传声器采集的语音信号,在第l帧第k个频点的相干函数Γx;采用公式11计算第一传声器和第二传声器的非方向相干混相比CDR12(k,l)。
在一种可能的实现方式中,上述语音信号处理装置还可以包括:平滑处理模块。平滑处理模块,用于在去混响模块采用语音信号的混响声抑制增益Gcdr(k,l),对语音信号进行去混响处理,得到去混响语音信号之前,对语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益相应的,上述去混响模块,具体用于采用平滑混响声抑制增益对语音信号进行去混响处理,得到去混响语音信号。
在一种可能的实现方式中,上述平滑处理模块,具体用于:计算后验信噪比γ1(k,l),该后验信噪比γ1(k,l)为目标声源与混响噪声的成分比重;若γ1(k,l)<αs(k,l-1),则采用公式12确定第二平滑角度因子αs(k,l);若γ1(k,l)≥αs(k,l-1),则采用公式13确定αs(k,l);采用公式14对Gcdr(k,l)进行平滑处理,得到
在一种可能的实现方式中,上述平滑处理模块,还可以用于在去混响模块采用平滑混响声抑制增益对语音信号进行去混响处理,得到去混响语音信号之后,采用公式15计算去混响语音信号y1(n)的倒谱cy1(q,l);采用公式16计算的最大倒谱系数qmax;通过公式17对倒谱cy1(q,l)进行倒谱预处理,得到处理后的倒谱cy1(q,l);采用以下公式18计算处理后的倒谱cy1(q,l)的功率谱Pnr1(k,l);通过公式19对功率谱Pnr1(k,l)进行子带衰减,得到衰减功率谱Pnr2(k,l);采用公式20计算倒谱增益平滑因子βt(q,l);采用倒谱增益平滑因子βt(q,l),通过公式21和公式22对平滑混响声抑制增益进行二次平滑,得到二次平滑混响声抑制增益Gcdr_cep(k,l)。上述去混响模块,具体用于采用平滑处理模块处理得到的二次平滑混响声抑制增益Gcdr_cep(k,l),对语音信号进行去混响处理,得到去混响语音信号。
需要说明的是,本发明实施例第三方面的各种可能的实现方式中所采用的公式1-公式22以及公式1-公式22中各个参数的详细描述可以参考本发明实施例第一方面的各种可能的实现方式中的详细描述,本发明实施例这里不再赘述。
第四方面,提供一种语音信号处理装置,该语音信号处理装置:处理器和存储器。存储器用于存储计算机执行指令,处理器与存储器通过总线连接,当语音信号处理装置运行时,处理器执行存储器存储的计算机执行指令,以使语音信号处理装置执行如第一方面以及第一方面的各种可选方式所述的语音信号处理方法。
第五方面,提供一种非易失性存储介质,所述非易失性存储介质中存储有一个或多个程序代码,当第四方面中所述的语音信号处理装置的处理器执行该程序代码时,该语音信号处理装置执行如第一方面以及第一方面的各种可选方式所述的语音信号处理方法。
需要说明的是,本发明实施例的第三方面及其各种可能的实现方式的各个功能模块,是为了执行上述第一方面以及第一方面的各种可选方式所述的语音信号处理方法,而对语音信号处理装置进行的逻辑上的划分。第三方面、第四方面及其各种可能的实现方式的各个模块的详细描述以及有益效果分析可以参考上述第一方面及其各种可能的实现方式中的对应描述及技术效果,此处不再赘述。
第六方面,提供一种语音信号处理装置,包含于具有语音信号采集功能的电子终端,该电子终端配置有至少三个传声器,该语音信号处理装置包括:计算模块和去混响模块。其中,计算模块,用于计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l)。去混响模块,用于采用所述计算模块计算得到的Gcdr(k,l),对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。
在一种可能的实现方式中,第六方面所述的语音信号处理装置还可以包括:平滑处理模块,用于在去混响模块采用Gcdr(k,l),对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号之前,对Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益上述去混响模块,具体用于采用平滑处理模块处理得到的对语音信号进行去混响处理,得到去混响语音信号。
在一种可能的实现方式中,上述平滑处理模块,还可以用于对上述平滑混响声抑制增益进行二次平滑,得到二次平滑混响声抑制增益Gcdr_cep(k,l)。上述去混响模块,具体用于采用Gcdr_cep(k,l)对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。
需要说明的是,本发明实施例第六方面及其可能的实现方式中,计算模块计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l)、平滑处理模块对混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益以及平滑处理模块对平滑混响声抑制增益进行二次平滑,得到二次平滑混响声抑制增益Gcdr_cep(k,l)的具体方法可以参考本发明实施例第一方面相关实现方式中的详细描述,本发明实施例这里不再赘述。
第七方面,提供一种语音信号处理装置,该语音信号处理装置:处理器和存储器。存储器用于存储计算机执行指令,处理器与存储器通过总线连接,当语音信号处理装置运行时,处理器执行存储器存储的计算机执行指令,以使语音信号处理装置执行如第二方面以及第二方面的各种可选方式所述的语音信号处理方法。
第八方面,提供一种非易失性存储介质,所述非易失性存储介质中存储有一个或多个程序代码,当第六方面中所述的语音信号处理装置的处理器执行该程序代码时,该语音信号处理装置执行如第二方面以及第二方面的各种可选方式所述的语音信号处理方法。
需要说明的是,本发明实施例的第七方面及其各种可能的实现方式的各个功能模块,是为了执行上述第二方面以及第二方面的各种可选方式所述的语音信号处理方法,而对语音信号处理装置进行的逻辑上的划分。第七方面、第八方面及其各种可能的实现方式的各个模块的详细描述以及有益效果分析可以参考上述第二方面及其各种可能的实现方式中的对应描述及技术效果,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子终端的结构组成示意图;
图2为本发明实施例提供的一种语音信号处理方法的流程图;
图3为本发明实施例提供的另一种语音信号处理方法的流程图;
图4为本发明实施例提供的另一种语音信号处理方法的流程图;
图5为本发明实施例提供的另一种语音信号处理方法的流程图;
图6为本发明实施例提供的另一种语音信号处理方法的流程图;
图7为本发明实施例提供的另一种语音信号处理方法的流程图;
图8为本发明实施例提供的一种语音信号处理装置的组成示意图;
图9为本发明实施例提供的另一种语音信号处理装置的组成示意图;
图10为本发明实施例提供的另一种语音信号处理装置的组成示意图;
图11为本发明实施例提供的另一种语音信号处理装置的组成示意图;
图12为本发明实施例提供的另一种语音信号处理装置的组成示意图;
图13为本发明实施例提供的另一种语音信号处理装置的组成示意图;
图14为本发明实施例提供的另一种语音信号处理装置的组成示意图。
具体实施方式
本发明的说明书以及附图中的术语“第一”、“第二”和“第三”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一传声器、第二传声器和第三传声器等是用于区别不同的传声器,而不是用于描述传声器的特定顺序。
在本发明的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个处理器是指两个或两个以上处理器。
此外,本发明的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部实施例。
本发明实施例提供的一种语音信号处理方法及装置可以应用于对电子终端采集到的语音信号进行去噪处理的过程中,具体应用于抑制方向性干扰声源噪声以及混响噪声的过程中。
本发明实施例提供的语音信号处理方法的执行主体可以为语音信号处理装置或者电子终端,其中,语音信号处理装置可以为电子终端中用于执行语音信号处理方法的装置,如该语音信号处理装置可以为上述电子终端的中央处理器(Central ProcessingUnit,CPU)或者可以为上述电子终端的中的控制单元或者模块。
请参考图1,为本发明实施例提供的一种电子终端的结构组成示意图。如图1所示,该电子终端包括:处理器11、存储器12、至少三个传声器13。
其中,上述至少三个传声器13用于采集语音信号,该至少三个传声器13可以为模拟或者数字麦克风(Microphone)。存储器12用于存储至少三个传声器13采集到的语音信号,以及处理器11进行语音信号处理过程中的语音信号。
处理器11可以通过上述至少三个传声器13组合的传声器阵列进行目标声源的入射角的定位,可以避免由于电子终端中的传声器数量有限、且各个传声器之间的间距也较小,采用现有的定向拾音算法不能进行准确的目标语音角度(目标声源的入射角)估计的问题,可以较为准确的估计目标声源的入射角。并且,处理器11还可以确定与上述至少三个传声器对应的至少三个固定波束,并分别计算至少三个固定波束的中心角与目标声源的入射角的角度偏差,然后采用计算得到的角度偏差计算语音信号的多波束加权增益,对语音信号进行加权输出。
本申请中采用固定角度的多波束输出,而非现有技术中将主波束直接对准估计得到的目标语音角度进行定向拾音,如此不仅可以起到增强目标语音,衰减或屏蔽其他方向的噪声和干扰信号的作用,还可以提供一定的容错能力,即即使上述估计的目标语音角度不够准确,也不会对目标语音信号产生损伤,造成目标声源的失真。
示例性的,如图1所示,本发明实施例中的至少三个传声器形成传声器阵列的具体方式可以为:至少三个传声器形成至少两个传声器组合,该至少两个传声器组合中的每个传声器组合中包括两个传声器,每个传声器组合中包含的传声器与其他传声器组合中至少有一个传声器不同。例如,假设至少三个传声器包括第一传声器、第二传声器和第三传声器,那么这三个传声器可以形成三个传声器组合,如第一传声器和第二传声器的组合,第一传声器和第三传声器的组合,以及第三传声器和第二传声器的组合。
其中,本发明实施例中的电子终端可以为手机、ipad、mp3等具有语音信号采集功能的电子设备。
下面结合附图,通过具体的实施例及其应用场景对本发明实施例提供的一种语音信号处理方法及装置进行详细地说明。
本发明实施例提供一种语音信号处理方法,可以应用于具有语音信号采集功能的电子终端,该电子终端配置有至少三个传声器。如图2所示,该语音信号处理方法包括:
S201、语音信号处理装置确定出与至少三个传声器对应的至少三个波束,至少三个波束中每个波束的波束方向固定。
可以想到的是,语音信号处理装置可以根据电子终端中配置的至少三个传声器的相对位置确定波束方向固定的至少三个波束。当然,上述至少三个波束也可以是预先配置的、波束方向固定的波束。本发明实施例对此不做限制。
优选的,假设上述至少三个波束包括:第一波束、第二波束和第三波束。该第一波束、第二波束和第三波束中,相邻波束的中心角之间的夹角相等。例如,如图3所示,第一传声器对应第一波束,第二传声器对应第二波束,第三传声器对应第三波束时,第一波束、第二波束和第三波束的波束方向固定,且第一波束、第二波束和第三波束中任意两个相邻波束之间的夹角均为120°。其中,至少三个波束中每个波束的中心角用于表征该波束的波束方向。
S202、语音信号处理装置通过至少两个传声器组合,确定当前声场中目标声源的入射角。
示例性的,语音信号处理装置可以通过第一传声器和第二传声器的组合,以及第一传声器和第三传声器的组合,根据第一传声器采集的语音信号、第二传声器的组合采集的语音信号、时域采样频率fs、空气中的声速c、第一传声器和第二传声器之间的距离、第三传声器的组合采集的语音信号、第一传声器和第三传声器之间的距离等参数,确定出当前声场中目标声源的入射角。
可以想到的是,本发明实施例中确定的当前声场中目标声源的入射角是基于二维平面的角度,即上述目标声源的入射角可以为实际目标声源的入射角在二维平面上的投影。
S203、语音信号处理装置计算目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差。
示例性的,本发明实施例这里以“计算目标声源的入射角与第一波束的中心角的角度偏差”为例,对S203中“语音信号处理装置计算目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差”的方法进行举例说明:
语音信号处理装置可以采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},计算目标声源的入射角θs(l)与第一波束的中心角φ1的角度偏差Δψ1。其中,由于本方案确定的目标声源的入射角的范围是0°~360°,因此,如果直接计算目标声源的入射角与第一波束的中心角的差值,作为目标声源的入射角与第一波束的中心角的角度偏差,则可能会存在由于目标声源的入射角位于第一象限(即目标声源的入射角为0°~90°),第一波束的中心角位于第四象限(即第一波束的中心角为270°~360°),而导致计算得到的角度偏差远大于其实际角度偏差。例如,假设目标声源的入射角为40°,第一波束的中心角为320°。直接计算目标声源的入射角与第一波束的中心角的差值320°-40°=280°,目标声源的入射角与第一波束的中心角的角度偏差为280°;但是,此时目标声源的入射角与第一波束的中心角的实际角度偏差只有80°。而采用本方案,可以将|θs(l)-φ1|与360-|θs(l)-φ1|中的最小值作为目标声源的入射角与第一波束的中心角的实际角度偏差,可以避免上述计算得到的角度偏差远大于目标声源的入射角与第一波束的中心角实际角度偏差的问题,计算得到准确的角度偏差。
需要说明的是,语音信号处理装置计算目标声源的入射角θs(l)与第二波束的中心角φ2的角度偏差Δψ2,以及计算目标声源的入射角θs(l)与第三波束的中心角φ3的角度偏差Δψ3的方法与上述计算Δψ1的方法类似,本发明实施例这里不再一一说明。
S204、语音信号处理装置根据目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差,计算每个波束的保护角增益,其中,目标声源的入射角与该波束的角度偏差和该波束的保护角增益成正比。
S205、语音信号处理装置根据至少三个波束中每个波束的保护角增益,计算语音信号的多波束加权增益。
示例性的,语音信号处理装置可以根据目标声源的入射角与至少三个波束中每个波束的中心角的角度偏差,计算至少三个波束中每个波束的保护角增益的加权值;然后根据至少三个波束中每个波束的保护角增益和至少三个波束中每个波束的保护角增益的加权值,计算语音信号的多波束加权增益。其中,至少三个波束中每个波束的保护角增益的加权值和对应波束与目标声源的入射角的角度偏差成反比。
优选的,至少三个波束中每个波束的保护角增益的加权值之和为1。
举例来说,目标声源的入射角与第一波束的中心角的角度偏差Δψ1、目标声源的入射角与第二波束的中心角的角度偏差Δψ2、目标声源的入射角与第三波束的中心角的角度偏差Δψ3、第一波束的保护角增益的加权值w1、第二波束的保护角增益的加权值w2以及第三波束的保护角增益的加权值w3满足以下公式:w1+w2+w3=1和w1·Δψ1=w2·Δψ2=w3·Δψ3。即w1、w2与w3之和为1,w1与Δψ1成反比,w2与Δψ2成反比,w3与Δψ3成反比。
示例性的,语音信号处理装置可以采用计算语音信号的多波束加权增益Gdoa。其中,n用于表示至少三个波束的波束总数,n≥3,Gi用于表示n个波束中第i个波束的保护角增益,wi用于表示n个波束中第i个波束的保护角增益的加权值。
举例来说,此处以n=3为例,则Gdoa=w1·G1+w2·G2+w3·G3。其中,G1用于表示第一波束的保护角增益,G2用于表示第二波束的保护角增益,G3用于表示第三波束的保护角增益。
可以想到的是,由于本发明实施例中计算得到的语音信号的加权增益是根据多个方向的波束计算得到的多波束加权增益;因此,采用该多波束加权增益进行定向拾音时,即使上述估计的目标语音角度不够准确,也不会对目标语音信号产生损伤,造成目标声源的失真。
S206、语音信号处理装置采用语音信号的多波束加权增益,对至少三个传声器采集的语音信号进行加权输出。
示例性的,语音信号处理装置可以采用
Yout(k,l)=X1(k,l)×Gdoa
计算得到经过多波束加权后的频域语音信号Yout(k,l)。
其中,X1(k,l)为上述第一传声器采集到的时域语音信号x1(n)进行短时傅里叶变换(英文:Short-Time Fourier Transform,简称:STFT)得到的频域信号。
本发明实施例中,语音信号处理装置在计算得到上述Yout(k,l)后,则可以对计算得到的Yout(k,l)执行傅里叶反变换,即以得到时域输出信号s(n),最后输出该s(n)。
可以想到的是,语音信号处理装置不仅可以选择第一传声器采集到的时域语音信号x1(n)的STFTX1(k,l)作为加权输出的目标信号,还可以采用计算得到的Gdoa对X2(k,l)或者X3(k,l)进行加权输出。其中,X2(k,l)为第二传声器采集到的时域语音信号x2(n)进行STFT得到的频域信号,X3(k,l)为第三传声器采集到的时域语音信号x3(n)进行STFT得到的频域信号。
需要说明的是,本发明实施例中,语音信号处理装置采用计算得到的Gdoa对X2(k,l)或者X3(k,l)进行加权输出的方法,与采用计算得到的Gdoa对X1(k,l)进行加权输出的方法类似,本发明实施例这里不再详细描述。
示例性的,此处以传声器i采集到的时域语音信号xi(n)为例,对本发明实施例中传声器采集到的时域语音信号的组成进行详细说明。
传声器i采集到的时域语音信号具体为:
其中,s(n)用于表示纯净的目标语音信号,hi(n)用于为s(n)到传声器i的传递函数,vj(n)用于表示方向性干扰噪声,j=1,2,…,J,gi,j(n)为vj(n)到传声器i的传递函数,ri(n)用于表示混响噪声,bi(n)用于表示无方向性噪声和内部电噪声。
本发明实施例提供的语音信号处理方法,通过至少两个传声器组合进行目标声源的入射角的定位,可以避免由于电子终端中的传声器数量有限、且各个传声器之间的间距也较小,采用现有的定向拾音算法不能较为准确的估计目标声源的入射角的问题,可以较为准确的估计目标声源的入射角。并且,在本方案中,还可以根据上述至少三个传声器确定至少三个固定波束,并分别计算至少三个固定波束的中心角与目标声源的入射角的角度偏差,然后采用计算得到的角度偏差计算语音信号的多波束加权增益,对语音信号进行加权输出。即本方案中可以通过固定角度的多波束输出,而非现有技术中将主波束直接对准估计得到的目标声源的入射角进行定向拾音,如此不仅可以起到增强语音信号,衰减或屏蔽其他方向的噪声和干扰信号的作用,还可以提供一定的容错能力,即使上述估计的目标语音角度不够准确,也不会对目标语音信号产生损伤,造成目标声源的失真。
示例性的,如图4所示,如图2所示的S202具体可以包括S301-S304,即如图4所示,如图2所示的S202可以替换为S301-S304:
S301、语音信号处理装置根据第一传声器采集的语音信号和第二传声器采集的语音信号,以及第一传声器和第二传声器之间的距离,计算第一目标角θx(l),0≤θx(l)<180,第一目标角度为目标声源的一估计入射角。
示例性的,如图4所示的S301具体可以包括S301a-S301e:
S301a、语音信号处理装置将至少三个传声器采集的语音信号的频率范围平均划分为m个频带。
S301b、语音信号处理装置根据第一传声器采集的语音信号和第二传声器采集的语音信号,第k个频点的相干函数Γx=Γ12(k)、m个频带中第i个频带的频带选择函数Hf-i(k)、预设修正函数Hs(k)、时域采样频率fs、空气中的声速c,以及第一传声器和第二传声器之间的距离d12,采用以下公式:
计算第i个频带的目标语音入射角度
其中,上述修正函数Hs(k)是根据第一传声器采集的语音信号x1(n)和第二传声器采集的语音信号x2(n)通过相干平滑变换(英文:Smooth Coherence Transform,简称:SCOT)得到的。
示例性的,语音信号处理装置可以计算得到语音信号x1(n)的自功率谱Gx1x1(k)和语音信号x2(n)的自功率谱Gx2x2(k),然后通过SCOT采用以下公式:
计算得到修正函数Hs(k)。
需要说明的是,语音信号处理装置计算语音信号x1(n)的自功率谱Gx1x1(k)和语音信号x2(n)的自功率谱Gx2x2(k)的具体方法可以参考现有技术中计算x1(n)的自功率谱Gx2x2(k)的相关方法,本发明实施例这里不再赘述。
S301c、语音信号处理装置计算目标声源与噪声信号的成分比重γg(k,l),并采用计算第一平滑角度因子αf(k,l)。
S301d、若第一平滑角度因子αf(k,l)大于或等于第二阈值δth,语音信号处理装置则采用计算第一目标角θx(l)。
其中,中的最小值。
S301e、若平滑角度因子αf(k,l)小于第二阈值δth,语音信号处理装置则确定第一目标角θx(l)等于θx(l-1)。
其中,θx(l-1)为第l-1帧的第一目标角,0≤θx(l-1)<180θx(l),为第l帧的第一目标角。
S302、语音信号处理装置根据第一传声器采集的语音信号和第三传声器采集的语音信号,以及第一传声器和第三传声器之间的距离,计算第二目标角θy(l),0≤θy(l)<180,第二目标角度为目标声源的另一估计入射角。
需要说明的是,语音信号处理装置采用第一传声器和第三传声器计算第二目标角θy(l)的具体方法可以参考S301中采用第一传声器和第二传声器计算第一目标角θx(l)的方法,本发明实施例这里不再赘述。
S303、语音信号处理装置根据第一目标角θx(l)和第二目标角θy(l),确定目标声源的入射角在当前声场中所处的象限,当前声场在二维平面包括:第一象限、第二象限、第三象限和第四象限。
其中,语音信号处理装置可以根据第一目标角θx(l)和第二目标角θy(l)所处区间或者大小的不同,确定目标声源的入射角在当前声场中所处的象限。具体的,如图4所示的S303可以包括S303a-S303e:
S303a、若0°≤θx(l)≤90°,且90°<θy(l)≤180°,语音信号处理装置则确定目标声源的入射角处于当前声场的第一象限。
S303b、若90°≤θx(l)≤180°,且90°≤θy(l)≤180°,语音信号处理装置则确定目标声源的入射角处于当前声场的第二象限。
S303c、若90°<θx(l)≤180°,且0°≤θy(l)≤90°,语音信号处理装置则确定目标声源的入射角处于当前声场的第三象限。
S303e、若0°<θx(l)≤90°,且0°<θy(l)≤90°,语音信号处理装置则确定目标声源的入射角处于当前声场的第四象限。
S304、语音信号处理装置根据第一目标角θx(l)和第二目标角θy(l),以及目标声源的入射角在当前声场中所处的象限,计算目标声源的入射角θs(l)。
本发明实施例中,可以根据上述第一目标角θx(l)和第二目标角θy(l)所处的区间或者大小,准确判断出目标声源的入射角在当前声场中所处的象限,进而可以通过象限判断的方法确定出目标声源的入射角θs(l),可以提高计算得到的目标声源的入射角θs(l)的准确性。
其中,语音信号处理装置可以根据目标声源的入射角所处的象限,计算目标声源的入射角的第一分量θs x(l)和目标声源的入射角的第二分量θs y(l);然后再计算第一分量θs x(l)和第二分量θs y(l)的平均值,得到目标声源的入射角θs(l)。
示例性的,如图4所示的S304可以包括S304a-S304f:
S304a、若目标声源的入射角处于第一象限,语音信号处理装置则采用θs x(l)=270°-θx(l),计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算目标声源的入射角的第二分量θs y(l)。
S304b、若目标声源的入射角处于第二象限,语音信号处理装置则采用θs x(l)=270°-θx(l),计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算目标声源的入射角的第二分量θs y(l)。
S304d、若目标声源的入射角处于第三象限,语音信号处理装置则采用θs x(l)=θx(l)-90°,计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算目标声源的入射角的第二分量θs y(l)。
S304e、若目标声源的入射角处于第四象限,语音信号处理装置则采用θs x(l)=270°+θx(l),计算目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算目标声源的入射角的第二分量θs y(l)。
S304f、语音信号处理装置采用计算目标声源的入射角θs(l)。
其中,在目标声源的入射角处于不同象限时,采用不同的方法计算目标声源的入射角的第一分量θs x(l)和第二分量θs y(l),可以提高计算得到的目标声源的入射角θs(l)的准确性。
其中,由于本方案确定的目标声源的入射角的范围是0°~360°,即该目标声源的入射角可能是位于第一象限、第二象限、第三象限或者第四象限中的任一象限的;而第一目标角θx(l)满足0≤θx(l)<180,第二目标角θy(l)满足0≤θy(l)<180,即θx(l)和θy(l)可能是位于第一象限或者第二象限中的任一象限的;因此,如果直接计算第一目标角θx(l)和第二目标角θy(l)的平均值作为目标声源的入射角θs(l),则可能由于没有考虑到第一目标角θx(l)和第二目标角θy(l)所处的象限,导致计算得到的目标声源的入射角与其真实值的误差较大。而采用本方案,可以根据目标声源的入射角所处的象限,计算目标声源的入射角的第一分量θs x(l)和目标声源的入射角的第二分量θs y(l);然后再计算第一分量θs x(l)和第二分量θs y(l)的平均值,得到目标声源的入射角θs(l),便可以避免上述由于没有考虑到第一目标角θx(l)和第二目标角θy(l)所处的象限,导致计算得到的目标声源的入射角与其真实值的误差较大的问题,提高计算得到的目标声源的入射角的准确性。
示例性的,本发明实施例这里以语音信号处理装置根据目标声源的入射角与第一波束的中心角的角度差,计算第一波束的保护角增益G1为例,对S204进行举例说明。示例性的,如图5所示,如图2所示的S204具体可以包括S401-S403,即如图5所示,如图2所示的S204可以替换为S401-S403:
S401、语音信号处理装置采用计算目标声源的入射角的第一分量θs x(l)与第一波束的中心角φ1的差值
S402、语音信号处理装置采用计算目标声源的入射角的第二分量θs y(l)与第一波束的中心角φ1的差值
S403、若第一分量和第二分量满足第一条件,语音信号处理装置则采用计算用于表征角度偏差Δψ1的大小的等效信噪比γd
其中,角度偏差Δψ1随等效信噪比γd的增大而变小,c0为常数;采用计算第一波束的保护角增益G1。其中,上述第一分量和第二分量满足第一条件具体为第一分量大于第一阈值θth,且第二分量大于第一阈值θth
进一步的,第一分量和第二分量可能并不满足上述第一条件,即第一分量小于或等于第一阈值θth,和/或第二分量小于或等于第一阈值θth。此时,则不能够采用上述方法计算第一波束的保护角增益,而是直接确定上述第一波束的保护角增益G1=1。具体的,如图5所示,如图2所示的S204还可以包括S404:
S404、若第一分量和第二分量不满足第一条件,语音信号处理装置则确定第一波束的保护角增益G1=1。
本发明实施例中,语音信号处理装置在计算得到的目标声源的入射角的第一分量θs x(l)和第二分量θs y(l)后,无论计算得到的第一分量θs x(l)和第二分量θs y(l)是否满足上述第一条件,都可以计算得到对应的保护角增益。
进一步的,本发明实施例不仅可以对传声器采集到的信号进行定向拾音,还可以在对传声器采集到的信号进行定向拾音之前,对传声器采集到的信号进行去混响处理。
具体的,如图6所示,在图2所示的S206之前,本发明实施例的方法还可以包括S501-S502:
S501、语音信号处理装置计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l)。
S502、语音信号处理装置采用语音信号的混响声抑制增益Gcdr(k,l),对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。
相应的,如图6所示,图2所示的S206可以替换为S206′:
S206′、语音信号处理装置采用语音信号的多波束加权增益,对去混响语音信号进行加权输出。
其中,本发明实施例不仅可以对传声器采集到的信号进行定向拾音,还可以对传声器采集到的信号进行去混响处理。即通过本发明实施例的方法,不仅可以抑制方向性干扰噪声,还可以抑制混响噪声。
示例性的,如图6所示的S501可以包括S501a-S501b:
S501a、语音信号处理装置采用至少三个传声器中任意两个传声器采集的语音信号,计算第一传声器和第二传声器的非方向相干混相比CDR12(k,l)。
其中,该CDR12(k,l)用于表征第k频点的语音信号的相干性,该CDR12(k,l)与第k频点的语音信号的相干性成正比。
S501b、语音信号处理装置采用计算混响声抑制增益Gcdr(k,l)。
可以想到的是,基于双传声器的非方向相干混相比可以计算得到较为准确的混响声抑制增益,采用该混响声抑制增益可以准确的去除传声器采集的语音信号中的混响噪声。
示例性的,本发明实施例中,语音信号处理装置采用至少三个传声器中任意两个传声器采集的语音信号,计算第一传声器和第二传声器的非方向相干混相比CDR12(k,l)的方法,即S501a可以包括Sa-Sc:
Sa、语音信号处理装置计算第一传声器采集的语音信号和第二传声器采集的语音信号,在第k个频点的相干函数Γn=Γ12(k)=sinc(2·fk·d12/c),fk=k/N·fS
Sb、语音信号处理装置计算第一传声器采集的语音信号和第二传声器采集的语音信号,在第l帧第k个频点的相干函数
Sc、语音信号处理装置采用以下公式:
或者,
或者,
计算第一传声器和第二传声器的非方向相干混相比CDR12(k,l)。
其中,fS用于表示时域采样频率,d12用于表示第一传声器和第二传声器之间的距离,c用于表示空气中的声速,N用于表示FFT的点数;E{·}用于表示数学期望,*用于表示共轭运算,用于表示取实部运算;X1(k,l)为第一传声器采集到的时域语音信号x1(n)进行STFT得到的频域信号,X2(k,l)为第二传声器采集到的时域语音信号x2(n)进行STFT得到的频域信号。
优选的,为了减少去混响过程中带来的音乐噪声,本发明实施例可以对上述混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益然后采用平滑混响声抑制增益对语音信号进行去混响处理,得到去混响语音信号。
具体的,如图7所示,在如图6所示的S502之前,本发明实施例的方法还可以包括S503:
S503、语音信号处理装置对语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益
示例性的,语音信号处理装置对Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益的方法,即S503具体可以包括S503a-S503d:
S503a、语音信号处理装置计算后验信噪比γ1(k,l),后验信噪比γ1(k,l)为目标声源与混响噪声的成分比重。
S503b、若γ1(k,l)<αs(k,l-1),语音信号处理装置则确定第二平滑角度因子αs(k,l)=αs(k,l-1)。
S503c、若γ1(k,l)≥αs(k,l-1),语音信号处理装置则确定第二平滑角度因子αs(k,l)=α1·(γ1(k,l)-αs(k,l-1))+αs(k,l-1)。
S503d、语音信号处理装置采用
对语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益
相应的,如图7所示,图6所示的S502可以替换为S502′:
S502′、语音信号处理装置采用平滑混响声抑制增益对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。
通过本方案,可以在对语音信号进行去混响处理之前,先对混响声抑制增益Gcdr(k,l)进行平滑处理,然后再采用平滑混响声抑制增益对语音信号进行去混响处理,如此可以起到保护语音信号的作用,减少去混响过程中带来的音乐噪声。
进一步的,为了提升去混响的效果,进一步保护语音信号,减少去混响过程中带来的音乐噪声,还可以对混响声抑制增益Gcdr(k,l)进行二次平滑处理,即再对平滑混响声抑制增益进行一次平滑处理。
具体的,在S502′之后,本发明实施例的方法还可以包括:
S601、语音信号处理装置采用
计算去混响语音信号y1(n)的倒谱cy1(q,l)。
其中,Py1(k,l)为y1(n)的功率谱,用于表示傅立叶逆变换,ln{·}用于表示自然对数运算。
S602、语音信号处理装置采用
qmax=arg max{|cy1(q,l)|,q∈(fs/fu,fs/fb)}
计算的最大倒谱系数qmax
其中,fu=300Hz,fb=70Hz,fu和fb分别为进行倒谱预处理的基频上下限。
S603、语音信号处理装置通过
对倒谱cy1(q,l)进行倒谱预处理,得到处理后的倒谱cy1(q,l);,λth为预设阈值。
其中,Hc(q)为倒谱域加权函数,
S604、语音信号处理装置采用
计算处理后的倒谱c′y1(q,l)的功率谱Pnr1(k,l)。
其中,为取实部运算,为傅里叶变换。
S605、语音信号处理装置通过
对功率谱Pnr1(k,l)进行子带衰减,得到衰减功率谱Pnr2(k,l)。
其中,kt为子带带宽,kt=N/qmax,k=mkt,mkt+1,…(m+1)kt-1,N用于表示FFT的点数,αm为第m个子带的衰减因子,
αm=|min{ln(Py1(k,l))-ln(Pnr1(k,l))}|。
S606、语音信号处理装置采用
计算倒谱增益平滑因子βt(q,l)。
其中,β1、β2、β2均为常数,λth为预设阈值。
S607、语音信号处理装置采用倒谱增益平滑因子βt(q,l),通过
对平滑混响声抑制增益进行二次平滑,得到二次平滑混响声抑制增益Gcdr_cep(k,l)。
S608、语音信号处理装置采用二次平滑混响声抑制增益Gcdr_cep(k,l)对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。
本发明实施例可以采用二次平滑混响声抑制增益Gcdr_cep(k,l)对语音信号进行去混响处理,得到去混响语音信号。如此,不仅可以提升去混响的效果,还可以进一步保护语音信号,减少去混响过程中带来的音乐噪声。
上述主要介绍了语音信号处理装置对语音信号的定向拾音以及去混响处理的过程。可以理解的是,语音信号处理装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的语音信号处理装置及算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例可以根据上述方法示例对语音信号处理装置进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本发明实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图8示出了上述实施例中所涉及的语音信号处理装置的一种可能的结构示意图。该语音信号处理装置可以为具有语音信号采集功能的电子终端的处理器或者控制单元,或者该语音信号处理装置可以为具有语音信号采集功能的电子终端。该电子终端配置有至少三个传声器,至少三个传声器形成至少两个传声器组合,至少两个传声器组合中的每个传声器组合中包括两个传声器,每个传声器组合中包含的传声器与其他传声器组合中至少有一个传声器不同。如图8所示,该语音信号处理装置800包括:第一确定模块801、第二确定模块802、第一计算模块803、第二计算模块804和加权输出模块805。其中,第一确定模块801,用于确定出与至少三个传声器对应的至少三个波束。例如,第一确定模块801用于支持上述实施例中的S201,和/或用于本文所描述的技术的其它过程。第二确定模块802,用于确定当前声场中目标声源的入射角。例如,第二确定模块802用于支持上述实施例中的S202、S202中包括的S301-S304、S301中包括的S301a-S301e、S303中包括的S303a-S303e、S304中包括的S304a-S304f,和/或用于本文所描述的技术的其它过程。第一计算模块803,用于计算第二确定模块802确定的目标声源的入射角与第一确定模块801确定的至少三个波束中每个波束的中心角的角度偏差。例如,第一计算模块803用于支持上述实施例中的S203,和/或用于本文所描述的技术的其它过程。第二计算模块804,用于至少三个波束中任一波束的中心角的角度偏差,计算该波束的保护角增益,并计算语音信号的多波束加权增益。例如,第二计算模块804用于支持上述实施例中的S204、S205,以及S204中包括的S401-S404,和/或用于本文所描述的技术的其它过程。加权输出模块805,用于采用第二计算模块804计算得到的语音信号的多波束加权增益,对至少三个传声器采集的语音信号进行加权输出。例如,加权输出模块805用于支持上述实施例中的S206和/或用于本文所描述的技术的其它过程。
进一步的,如图9所示,如图8所示的语音信号处理装置800还可以包括:第三计算模块806和去混响模块807。其中,第三计算模块806,用于计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l)。例如,第三计算模块806用于支持上述实施例中的S501,以及S501中包括的S501a-S501b,和/或用于本文所描述的技术的其它过程。去混响模块807,用于采用第三计算模块806计算得到的语音信号的混响声抑制增益Gcdr(k,l),对语音信号进行去混响处理,得到去混响语音信号。例如,去混响模块807用于支持上述实施例中的S502,和/或用于本文所描述的技术的其它过程。相应的,上述加权输出模块805还可以用于支持上述实施例中的S206′,和/或用于本文所描述的技术的其它过程。
进一步的,如图10所示,如图9所示的语音信号处理装置800还可以包括:平滑处理模块808。平滑处理模块808,用于对语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益以及对平滑混响声抑制增益进行二次平滑,得到二次平滑混响声抑制增益Gcdr_cep(k,l)。例如,平滑处理模块808用于支持上述实施例中的S503、S503中包括的S503a-S503d和S601-S607,和/或用于本文所描述的技术的其它过程。相应的,上述去混响模块807还可以用于支持上述实施例中的S502′和S608,和/或用于本文所描述的技术的其它过程。
当然,本发明实施例提供的语音信号处理装置800包括但不限于上述所述的功能单元,例如语音信号处理装置800中还可以包括用于存储传声器采集到的语音信号以及进行语音信号处理过程中得到的语音信号的存储模块。
在采用集成的单元的情况下,第一确定模块801、第二确定模块802、第一计算模块803、第二计算模块804、加权输出模块805、第三计算模块806、去混响模块807和平滑处理模块808等可以集成在一个处理模块中实现,该处理模块可以是处理器或控制器,例如可以是CPU,通用处理器,数字信号处理器(英文:Digital Signal Processor,简称:DSP),专用集成电路(英文:Application-Specific Integrated Circuit,简称:ASIC),现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种举例说明逻辑方框,模块和电路。所述处理单元也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。存储模块可以是存储器。
当上述处理模块为处理器,存储模块为存储器时,本发明实施例所涉及的语音信号处理装置可以为图11所示的语音信号处理装置1100。
参阅图11所示,所述语音信号处理装置1100包括:处理器1101、存储器1102以及总线1103。其中,处理器1101、存储器1102通过总线1103相互连接。其中,所述总线1103可以是外设部件互连标准(英文:Peripheral Component Interconnect,简称:PCI)总线或扩展工业标准结构(英文:Extended Industry Standard Architecture,简称:EISA)总线等。所述总线1103可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本发明实施例还提供一种非易失性存储介质,该非易失性存储介质中存储有一个或多个程序代码,当所述语音信号处理装置1100的处理器1101执行该程序代码时,所述语音信号处理装置1100执行图2和图4-图7中任一附图中的相关方法步骤。
其中,本发明实施例提供的所述语音信号处理装置1100中各个模块的详细描述以及各个模块执行图2和图4-图7中任一附图中的相关方法步骤后所带来的技术效果可以参考本发明方法实施例中的相关描述,此处不再赘述。
图12示出了上述实施例中所涉及的语音信号处理装置的一种可能的结构示意图。该语音信号处理装置可以为具有语音信号采集功能的电子终端的处理器或者控制单元,或者该语音信号处理装置可以为具有语音信号采集功能的电子终端。该电子终端配置有至少三个传声器。如图12所示,该语音信号处理装置1200包括:计算模块1201和去混响模块1202。
其中,计算模块1201,用于计算至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l)。例如,计算模块1201用于支持上述实施例中的S501,以及S501中包括的S501a-S501b,和/或用于本文所描述的技术的其它过程。去混响模块1202,用于采用计算模块1201计算得到的Gcdr(k,l),对至少三个传声器采集的语音信号进行去混响处理,得到去混响语音信号。例如,去混响模块1202用于支持上述实施例中的S502,和/或用于本文所描述的技术的其它过程。
进一步的,如图13所示,如图12所示的语音信号处理装置1200还可以包括:平滑处理模块1203。平滑处理模块1203,用于对Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益以及对进行二次平滑,得到二次平滑混响声抑制增益Gcdr_cep(k,l)。例如,平滑处理模块1203用于支持上述实施例中的S503、S503中包括的S503a-S503d和S601-S607,和/或用于本文所描述的技术的其它过程。相应的,上述去混响模块1202还可以用于支持上述实施例中的S502′和S608,和/或用于本文所描述的技术的其它过程。
在采用集成的单元的情况下,上述计算模块1201、去混响模块1202和平滑处理模块1203等功能模块可以集成在一个处理模块中实现,所述处理模块可以是处理器或控制器,例如可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种举例说明逻辑方框,模块和电路。所述处理单元也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。存储模块可以是存储器。
当然,本发明实施例提供的语音信号处理装置1200包括但不限于上述所述的功能单元,例如语音信号处理装置1200中还可以包括用于存储传声器采集到的语音信号以及进行语音信号处理过程中得到的语音信号的存储模块。
参阅图14所示,所述语音信号处理装置1400包括:处理器1401、存储器1402以及总线1403。其中,处理器1401、存储器1402通过总线1403相互连接。其中,所述总线1403可以是PCI总线或EISA总线等。所述总线1403可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本发明实施例还提供一种非易失性存储介质,该非易失性存储介质中存储有一个或多个程序代码,当所述语音信号处理装置1400的处理器1401执行该程序代码时,所述语音信号处理装置1400执行图2和图4-图7中任一附图中的相关方法步骤。
其中,本发明实施例提供的所述语音信号处理装置1400中各个模块的详细描述以及各个模块执行图2和图4-图7中任一附图中的相关方法步骤后所带来的技术效果可以参考本发明方法实施例中的相关描述,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (34)

1.一种语音信号处理方法,其特征在于,应用于具有语音信号采集功能的电子终端,所述电子终端配置有至少三个传声器,所述至少三个传声器形成至少两个传声器组合,所述至少两个传声器组合中的每个传声器组合包括两个传声器,所述每个传声器组合中包含的传声器与其他传声器组合中至少有一个传声器不同,所述方法包括:
确定出与所述至少三个传声器对应的至少三个波束,所述至少三个波束中每个波束的波束方向固定,所述至少三个波束中每个波束的中心角用于表征该波束的波束方向;
通过所述至少两个传声器组合,确定当前声场中目标声源的入射角,并计算所述目标声源的入射角与所述至少三个波束中每个波束的中心角的角度偏差;
根据所述目标声源的入射角与所述至少三个波束中每个波束的中心角的角度偏差,计算每个波束的保护角增益,其中,每个波束的保护角增益和所述目标声源的入射角与该波束的角度偏差成正比,并根据所述至少三个波束中每个波束的保护角增益,计算语音信号的多波束加权增益;
采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少三个波束中每个波束的保护角增益,计算语音信号的多波束加权增益,包括:
根据所述目标声源的入射角与所述至少三个波束中每个波束的中心角的角度偏差,计算所述至少三个波束中每个波束的保护角增益的加权值,所述至少三个波束中每个波束的保护角增益的加权值和对应波束与所述目标声源的入射角的角度偏差成反比;
根据所述至少三个波束中每个波束的保护角增益和所述至少三个波束中每个波束的保护角增益的加权值,计算所述语音信号的多波束加权增益。
3.根据权利要求1或2所述的方法,其特征在于,所述至少三个传声器包括:第一传声器、第二传声器和第三传声器,所述至少两个传声器组合包括:所述第一传声器和所述第二传声器的组合,以及所述第一传声器和所述第三传声器的组合;
所述通过所述至少两个传声器组合,确定当前声场中目标声源的入射角,包括:
根据所述第一传声器采集的语音信号和所述第二传声器采集的语音信号,以及所述第一传声器和所述第二传声器之间的距离,计算第一目标角θx(l),0≤θx(l)<180,所述第一目标角度为所述目标声源的一估计入射角;
根据所述第一传声器采集的语音信号和所述第三传声器采集的语音信号,以及所述第一传声器和所述第三传声器之间的距离,计算第二目标角θy(l),0≤θy(l)<180,所述第二目标角度为所述目标声源的另一估计入射角;
根据所述第一目标角θx(l)和所述第二目标角θy(l),确定所述目标声源的入射角在所述当前声场中所处的象限,所述当前声场在二维平面包括:第一象限、第二象限、第三象限和第四象限;
根据所述第一目标角θx(l)和所述第二目标角θy(l),以及所述目标声源的入射角在所述当前声场中所处的象限,计算所述目标声源的入射角θs(l)。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一目标角θx(l)和所述第二目标角θy(l),以及所述目标声源的入射角在所述当前声场中所处的象限,计算所述目标声源的入射角θs(l),包括:
若所述目标声源的入射角处于所述第一象限,则采用θs x(l)=270°-θx(l),计算所述目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算所述目标声源的入射角的第二分量θs y(l);
若所述目标声源的入射角处于所述第二象限,则采用θs x(l)=270°-θx(l),计算所述目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算所述目标声源的入射角的第二分量θs y(l);
若所述目标声源的入射角处于所述第三象限,则采用θs x(l)=θx(l)-90°,计算所述目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算所述目标声源的入射角的第二分量θs y(l);
若所述目标声源的入射角处于所述第四象限,则采用θs x(l)=270°+θx(l),计算所述目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算所述目标声源的入射角的第二分量θs y(l);
采用计算所述目标声源的入射角θs(l)。
5.根据权利要求1-2、4中任一项所述的方法,其特征在于,所述至少三个波束包括:第一波束、第二波束和第三波束;
计算所述目标声源的入射角与第一波束的中心角的角度偏差的方法包括:
采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},计算所述目标声源的入射角θs(l)与所述第一波束的中心角φ1的角度偏差Δψ1
6.根据权利要求3所述的方法,其特征在于,所述至少三个波束包括:第一波束、第二波束和第三波束;
计算所述目标声源的入射角与第一波束的中心角的角度偏差的方法包括:
采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},计算所述目标声源的入射角θs(l)与所述第一波束的中心角φ1的角度偏差Δψ1
7.根据权利要求5所述的方法,其特征在于,根据所述目标声源的入射角与所述第一波束的中心角的角度偏差,计算所述第一波束的保护角增益的方法包括:
采用计算所述目标声源的入射角的第一分量θs x(l)与所述第一波束的中心角φ1的差值
采用计算所述目标声源的入射角的第二分量θs y(l)与所述第一波束的中心角φ1的差值
若所述第一分量和所述第二分量满足第一条件,则采用计算用于表征角度偏差Δψ1的大小的等效信噪比γd;其中,所述角度偏差Δψ1随所述等效信噪比γd的增大而变小;c0为常数;
采用计算所述第一波束的保护角增益G1
其中,所述第一分量和所述第二分量满足所述第一条件具体为第一分量大于第一阈值θth,且所述第二分量大于所述第一阈值θth
8.根据权利要求6所述的方法,其特征在于,根据所述目标声源的入射角与所述第一波束的中心角的角度偏差,计算所述第一波束的保护角增益的方法包括:
采用计算所述目标声源的入射角的第一分量与所述第一波束的中心角φ1的差值
采用计算所述目标声源的入射角的第二分量与所述第一波束的中心角φ1的差值
若所述第一分量和所述第二分量满足第一条件,则采用计算用于表征角度偏差Δψ1的大小的等效信噪比γd;其中,所述角度偏差Δψ1随所述等效信噪比γd的增大而变小;c0为常数;
采用计算所述第一波束的保护角增益G1
其中,所述第一分量和所述第二分量满足所述第一条件具体为第一分量大于第一阈值θth,且所述第二分量大于所述第一阈值θth
9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
若所述第一分量和所述第二分量不满足所述第一条件,则确定所述第一波束的保护角增益G1=1。
10.根据权利要求1-2、4、6-8中任一项所述的方法,其特征在于,在所述采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出之前,所述方法还包括:
计算所述至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l);
采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号;
所述采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出,包括:
采用所述语音信号的多波束加权增益Gcdr(k,l),对所述去混响语音信号进行加权输出。
11.根据权利要求3所述的方法,其特征在于,在所述采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出之前,所述方法还包括:
计算所述至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l);
采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号;
所述采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出,包括:
采用所述语音信号的多波束加权增益Gcdr(k,l),对所述去混响语音信号进行加权输出。
12.根据权利要求5所述的方法,其特征在于,在所述采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出之前,所述方法还包括:
计算所述至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l);
采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号;
所述采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出,包括:
采用所述语音信号的多波束加权增益Gcdr(k,l),对所述去混响语音信号进行加权输出。
13.根据权利要求9所述的方法,其特征在于,在所述采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出之前,所述方法还包括:
计算所述至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l);
采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号;
所述采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出,包括:
采用所述语音信号的多波束加权增益Gcdr(k,l),对所述去混响语音信号进行加权输出。
14.根据权利要求10所述的方法,其特征在于,所述计算所述至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l),包括:
采用所述至少两个传声器组合中任一传声器组合采集的语音信号,计算该传声器组合的非方向相干混相比CDR12(k,l),所述CDR12(k,l)用于表征第k频点的语音信号的相干性,所述CDR12(k,l)与第k频点的语音信号的相干性成正比;
采用计算所述混响声抑制增益Gcdr(k,l)。
15.根据权利要求11-13任一项所述的方法,其特征在于,所述计算所述至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l),包括:
采用所述至少两个传声器组合中任一传声器组合采集的语音信号,计算该传声器组合的非方向相干混相比CDR12(k,l),所述CDR12(k,l)用于表征第k频点的语音信号的相干性,所述CDR12(k,l)与第k频点的语音信号的相干性成正比;
采用计算所述混响声抑制增益Gcdr(k,l)。
16.根据权利要求10所述的方法,其特征在于,在所述采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号之前,所述方法还包括:
对所述语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益
所述采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号,包括:
采用所述平滑混响声抑制增益对所述语音信号进行去混响处理,得到去混响语音信号。
17.根据权利要求11-13任一项所述的方法,其特征在于,在所述采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号之前,所述方法还包括:
对所述语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益
所述采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号,包括:
采用所述平滑混响声抑制增益对所述语音信号进行去混响处理,得到去混响语音信号。
18.一种语音信号处理装置,其特征在于,包含于具有语音信号采集功能的电子终端,所述电子终端配置有至少三个传声器,所述至少三个传声器形成至少两个传声器组合,所述至少两个传声器组合中的每个传声器组合包括两个传声器,所述每个传声器组合中包含的传声器与其他传声器组合中至少有一个传声器不同,所述装置包括:
第一确定模块,用于确定出与所述至少三个传声器对应的至少三个波束,所述至少三个波束中每个波束的波束方向固定,所述至少三个波束中每个波束的中心角用于表征该波束的波束方向;
第二确定模块,用于通过所述至少两个传声器组合,确定当前声场中目标声源的入射角;
第一计算模块,用于计算所述第二确定模块确定的所述目标声源的入射角与所述第一确定模块确定的所述至少三个波束中每个波束的中心角的角度偏差;
第二计算模块,用于根据所述第一计算模块计算得到的所述目标声源的入射角与所述至少三个波束中每个波束的中心角的角度偏差,计算每个波束的保护角增益,其中,所述每个波束的保护角增益和所述目标声源的入射角与和该波束的角度偏差和该波束的保护角增益成正比,并根据所述至少三个波束中每个波束的保护角增益,计算语音信号的多波束加权增益;
加权输出模块,用于采用所述第二计算模块计算得到的所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出。
19.根据权利要求18所述的装置,其特征在于,所述第二计算模块,具体用于:
根据所述目标声源的入射角与所述至少三个波束中每个波束的中心角的角度偏差,计算所述至少三个波束中每个波束的保护角增益的加权值,且所述至少三个波束中每个波束的保护角增益的加权值和对应波束与所述目标声源的入射角的角度偏差成反比;
根据所述至少三个波束中每个波束的保护角增益和所述至少三个波束中每个波束的保护角增益的加权值,计算所述语音信号的多波束加权增益。
20.根据权利要求18或19所述的装置,其特征在于,所述至少三个传声器包括:第一传声器、第二传声器和第三传声器,所述至少两个传声器组合包括:所述第一传声器和所述第二传声器的组合,以及所述第一传声器和所述第三传声器的组合;
所述第二确定模块,具体用于:
根据所述第一传声器采集的语音信号和所述第二传声器采集的语音信号,以及所述第一传声器和所述第二传声器之间的距离,计算第一目标角θx(l),0≤θx(l)<180,所述第一目标角度为所述目标声源的一估计入射角;
根据所述第一传声器采集的语音信号和所述第三传声器采集的语音信号,以及所述第一传声器和所述第三传声器之间的距离,计算第二目标角θy(l),0≤θy(l)<180,所述第二目标角度为所述目标声源的另一估计入射角;
根据所述第一目标角θx(l)和所述第二目标角θy(l),确定所述目标声源的入射角在所述当前声场中所处的象限,所述当前声场在二维平面包括:第一象限、第二象限、第三象限和第四象限;
根据所述第一目标角θx(l)和所述第二目标角θy(l),以及所述目标声源的入射角在所述当前声场中所处的象限,计算所述目标声源的入射角θs(l)。
21.根据权利要求20所述的装置,其特征在于,所述第二确定模块,用于根据所述第一目标角θx(l)和所述第二目标角θy(l),以及所述目标声源的入射角在所述当前声场中所处的象限,计算所述目标声源的入射角θs(l),包括:
所述第二确定模块,用于:
若所述目标声源的入射角处于所述第一象限,则采用θs x(l)=270°-θx(l),计算所述目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算所述目标声源的入射角的第二分量θs y(l);
若所述目标声源的入射角处于所述第二象限,则采用θs x(l)=270°-θx(l),计算所述目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算所述目标声源的入射角的第二分量θs y(l);
若所述目标声源的入射角处于所述第三象限,则采用θs x(l)=θx(l)-90°,计算所述目标声源的入射角的第一分量θs x(l),采用θs y(l)=θy(l),计算所述目标声源的入射角的第二分量θs y(l);
若所述目标声源的入射角处于所述第四象限,则采用θs x(l)=270°+θx(l),计算所述目标声源的入射角的第一分量θs x(l),采用θs y(l)=360°-θy(l),计算所述目标声源的入射角的第二分量θs y(l);
采用计算所述目标声源的入射角θs(l)。
22.根据权利要求18-19、21中任一项所述的装置,其特征在于,所述至少三个波束包括:第一波束、第二波束和第三波束;
所述第一计算模块,具体用于:
计算所述目标声源的入射角与第一波束的中心角的角度偏差的方法包括:
采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},计算所述目标声源的入射角θs(l)与所述第一波束的中心角φ1的角度偏差Δψ1
23.根据权利要求20所述的装置,其特征在于,所述至少三个波束包括:第一波束、第二波束和第三波束;
所述第一计算模块,具体用于:
计算所述目标声源的入射角与第一波束的中心角的角度偏差的方法包括:
采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},计算所述目标声源的入射角θs(l)与所述第一波束的中心角φ1的角度偏差Δψ1
24.根据权利要求22所述的装置,其特征在于,所述第二计算模块根据所述目标声源的入射角与所述第一波束的中心角的角度偏差,计算所述第一波束的保护角增益,包括:
所述第二计算模块,用于:
采用计算所述目标声源的入射角的第一分量θs x(l)与所述第一波束的中心角φ1的差值
采用计算所述目标声源的入射角的第二分量θs y(l)与所述第一波束的中心角φ1的差值
若所述第一分量和所述第二分量满足第一条件,则采用计算用于表征角度偏差Δψ1的大小的等效信噪比γd;其中,所述角度偏差Δψ1随所述等效信噪比γd的增大而变小;c0为常数;
采用计算所述第一波束的保护角增益G1
其中,所述第一分量和所述第二分量满足所述第一条件具体为第一分量大于第一阈值θth,且所述第二分量大于所述第一阈值θth
25.根据权利要求23所述的装置,其特征在于,所述第二计算模块根据所述目标声源的入射角与所述第一波束的中心角的角度偏差,计算所述第一波束的保护角增益,包括:
所述第二计算模块,用于:
采用计算所述目标声源的入射角的第一分量θs x(l)与所述第一波束的中心角φ1的差值
采用计算所述目标声源的入射角的第二分量θs y(l)与所述第一波束的中心角φ1的差值
若所述第一分量和所述第二分量满足第一条件,则采用计算用于表征角度偏差Δψ1的大小的等效信噪比γd;其中,所述角度偏差Δψ1随所述等效信噪比γd的增大而变小;c0为常数;
采用计算所述第一波束的保护角增益G1
其中,所述第一分量和所述第二分量满足所述第一条件具体为第一分量大于第一阈值θth,且所述第二分量大于所述第一阈值θth
26.根据权利要求24所述的装置,其特征在于,所述第二计算模块,还用于若所述第一分量和所述第二分量不满足所述第一条件,则确定所述第一波束的保护角增益G1=1。
27.根据权利要求25所述的装置,其特征在于,所述第二计算模块,还用于若所述第一分量和所述第二分量不满足所述第一条件,则确定所述第一波束的保护角增益G1=1。
28.根据权利要求18-19、21、23-27中任一项所述的装置,其特征在于,还包括:
第三计算模块,用于在所述加权输出模块采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出之前,计算所述至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l);
去混响模块,用于采用所述第三计算模块计算得到的所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号;
所述加权输出模块,具体用于采用所述第二计算模块计算得到的所述语音信号的多波束加权增益Gcdr(k,l),对所述去混响模块处理得到的所述去混响语音信号进行加权输出。
29.根据权利要求20所述的装置,其特征在于,还包括:
第三计算模块,用于在所述加权输出模块采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出之前,计算所述至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l);
去混响模块,用于采用所述第三计算模块计算得到的所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号;
所述加权输出模块,具体用于采用所述第二计算模块计算得到的所述语音信号的多波束加权增益Gcdr(k,l),对所述去混响模块处理得到的所述去混响语音信号进行加权输出。
30.根据权利要求22所述的装置,其特征在于,还包括:
第三计算模块,用于在所述加权输出模块采用所述语音信号的多波束加权增益,对所述至少三个传声器采集的语音信号进行加权输出之前,计算所述至少三个传声器采集的语音信号的混响声抑制增益Gcdr(k,l);
去混响模块,用于采用所述第三计算模块计算得到的所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号;
所述加权输出模块,具体用于采用所述第二计算模块计算得到的所述语音信号的多波束加权增益Gcdr(k,l),对所述去混响模块处理得到的所述去混响语音信号进行加权输出。
31.根据权利要求28所述的装置,其特征在于,所述第三计算模块,具体用于:
采用所述至少两个传声器组合中任一传声器组合采集的语音信号,计算该传声器组合的非方向相干混相比CDR12(k,l),所述CDR12(k,l)用于表征第k频点的语音信号的相干性,所述CDR12(k,l)与第k频点的语音信号的相干性成正比;
采用计算所述混响声抑制增益Gcdr(k,l)。
32.根据权利要求29-30任一项所述的装置,其特征在于,所述第三计算模块,具体用于:
采用所述至少两个传声器组合中任一传声器组合采集的语音信号,计算该传声器组合的非方向相干混相比CDR12(k,l),所述CDR12(k,l)用于表征第k频点的语音信号的相干性,所述CDR12(k,l)与第k频点的语音信号的相干性成正比;
采用计算所述混响声抑制增益Gcdr(k,l)。
33.根据权利要求28所述的装置,其特征在于,还包括:
平滑处理模块,用于在所述去混响模块采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号之前,对所述语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益
所述去混响模块,具体用于采用所述平滑混响声抑制增益对所述语音信号进行去混响处理,得到去混响语音信号。
34.根据权利要求29-30任一项所述的装置,其特征在于,还包括:
平滑处理模块,用于在所述去混响模块采用所述语音信号的混响声抑制增益Gcdr(k,l),对所述语音信号进行去混响处理,得到去混响语音信号之前,对所述语音信号的混响声抑制增益Gcdr(k,l)进行平滑处理,得到平滑混响声抑制增益
所述去混响模块,具体用于采用所述平滑混响声抑制增益对所述语音信号进行去混响处理,得到去混响语音信号。
CN201610802804.2A 2016-09-05 2016-09-05 一种语音信号处理方法及装置 Active CN106448693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610802804.2A CN106448693B (zh) 2016-09-05 2016-09-05 一种语音信号处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610802804.2A CN106448693B (zh) 2016-09-05 2016-09-05 一种语音信号处理方法及装置

Publications (2)

Publication Number Publication Date
CN106448693A CN106448693A (zh) 2017-02-22
CN106448693B true CN106448693B (zh) 2019-11-29

Family

ID=58163974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610802804.2A Active CN106448693B (zh) 2016-09-05 2016-09-05 一种语音信号处理方法及装置

Country Status (1)

Country Link
CN (1) CN106448693B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215677B (zh) * 2018-08-16 2020-09-29 北京声加科技有限公司 一种适用于语音和音频的风噪检测和抑制方法和装置
CN111755021B (zh) * 2019-04-01 2023-09-01 北京京东尚科信息技术有限公司 基于二元麦克风阵列的语音增强方法和装置

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101052242A (zh) * 2006-04-05 2007-10-10 哈曼贝克自动系统股份有限公司 均衡音响系统的方法
CN101510426A (zh) * 2009-03-23 2009-08-19 北京中星微电子有限公司 一种噪声消除方法及系统
CN102306496A (zh) * 2011-09-05 2012-01-04 歌尔声学股份有限公司 一种多麦克风阵列噪声消除方法、装置及系统
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN103064061A (zh) * 2013-01-05 2013-04-24 河北工业大学 三维空间声源定位方法
CN104737446A (zh) * 2012-10-24 2015-06-24 阿尔卡特朗讯公司 基于距离的自动增益控制和邻近效应补偿
CN104980855A (zh) * 2014-04-07 2015-10-14 哈曼贝克自动系统股份有限公司 自适应滤波
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
CN105355213A (zh) * 2015-11-11 2016-02-24 广东欧珀移动通信有限公司 一种定向录音的方法及装置
CN105451151A (zh) * 2014-08-29 2016-03-30 华为技术有限公司 一种处理声音信号的方法及装置
CN105592394A (zh) * 2016-03-04 2016-05-18 南京迈宸科技有限公司 一种高灵敏拾音及定向扩音装置及其方法
CN105679329A (zh) * 2016-02-04 2016-06-15 厦门大学 可适应强烈背景噪声的麦克风阵列语音增强装置
CN105679328A (zh) * 2016-01-28 2016-06-15 苏州科达科技股份有限公司 一种语音信号处理方法、装置及系统
WO2016114988A2 (en) * 2015-01-12 2016-07-21 Mh Acoustics, Llc Reverberation suppression using multiple beamformers
CN105825867A (zh) * 2016-04-29 2016-08-03 天津大学 基于经验模态分解的鲸类叫声信号去噪装置
CN105848061A (zh) * 2016-03-30 2016-08-10 联想(北京)有限公司 一种控制方法及电子设备
CN105872205A (zh) * 2016-03-18 2016-08-17 联想(北京)有限公司 一种信息处理方法及装置
CN105869651A (zh) * 2016-03-23 2016-08-17 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100388654C (zh) * 2001-05-03 2008-05-14 中兴通讯股份有限公司 一种基于多波束天线的宽带码分多址基站物理层实现方法
WO2007106399A2 (en) * 2006-03-10 2007-09-20 Mh Acoustics, Llc Noise-reducing directional microphone array
US9264553B2 (en) * 2011-06-11 2016-02-16 Clearone Communications, Inc. Methods and apparatuses for echo cancelation with beamforming microphone arrays
US20160210957A1 (en) * 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
CN104464739B (zh) * 2013-09-18 2017-08-11 华为技术有限公司 音频信号处理方法及装置、差分波束形成方法及装置

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101052242A (zh) * 2006-04-05 2007-10-10 哈曼贝克自动系统股份有限公司 均衡音响系统的方法
CN101510426A (zh) * 2009-03-23 2009-08-19 北京中星微电子有限公司 一种噪声消除方法及系统
CN102306496A (zh) * 2011-09-05 2012-01-04 歌尔声学股份有限公司 一种多麦克风阵列噪声消除方法、装置及系统
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN104737446A (zh) * 2012-10-24 2015-06-24 阿尔卡特朗讯公司 基于距离的自动增益控制和邻近效应补偿
CN103064061A (zh) * 2013-01-05 2013-04-24 河北工业大学 三维空间声源定位方法
CN104980855A (zh) * 2014-04-07 2015-10-14 哈曼贝克自动系统股份有限公司 自适应滤波
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
CN105451151A (zh) * 2014-08-29 2016-03-30 华为技术有限公司 一种处理声音信号的方法及装置
JP2016052117A (ja) * 2014-08-29 2016-04-11 華為技術有限公司Huawei Technologies Co.,Ltd. 音声信号処理方法および装置
WO2016114988A2 (en) * 2015-01-12 2016-07-21 Mh Acoustics, Llc Reverberation suppression using multiple beamformers
CN105355213A (zh) * 2015-11-11 2016-02-24 广东欧珀移动通信有限公司 一种定向录音的方法及装置
CN105679328A (zh) * 2016-01-28 2016-06-15 苏州科达科技股份有限公司 一种语音信号处理方法、装置及系统
CN105679329A (zh) * 2016-02-04 2016-06-15 厦门大学 可适应强烈背景噪声的麦克风阵列语音增强装置
CN105592394A (zh) * 2016-03-04 2016-05-18 南京迈宸科技有限公司 一种高灵敏拾音及定向扩音装置及其方法
CN105872205A (zh) * 2016-03-18 2016-08-17 联想(北京)有限公司 一种信息处理方法及装置
CN105869651A (zh) * 2016-03-23 2016-08-17 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
CN105848061A (zh) * 2016-03-30 2016-08-10 联想(北京)有限公司 一种控制方法及电子设备
CN105825867A (zh) * 2016-04-29 2016-08-03 天津大学 基于经验模态分解的鲸类叫声信号去噪装置

Also Published As

Publication number Publication date
CN106448693A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN109102822B (zh) 一种基于固定波束形成的滤波方法及装置
US9525934B2 (en) Steering vector estimation for minimum variance distortionless response (MVDR) beamforming circuits, systems, and methods
JP5814476B2 (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法
EP2647221B1 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
CN105793723B (zh) 使用移动声源的麦克风自定位
US9628905B2 (en) Adaptive beamforming for eigenbeamforming microphone arrays
CN107221336A (zh) 一种增强目标语音的装置及其方法
Torres et al. Robust acoustic source localization based on modal beamforming and time–frequency processing using circular microphone arrays
Lockwood et al. Beamformer performance with acoustic vector sensors in air
JP2017503388A5 (zh)
CN106537501A (zh) 混响估计器
BR112019013548A2 (pt) Aparelho de captura de áudio, método de operação para capturar áudio, e produto de programa de computador
Escolano et al. A Bayesian direction-of-arrival model for an undetermined number of sources using a two-microphone array
Kim et al. Direction-of-arrival based SNR estimation for dual-microphone speech enhancement
JP2020148909A (ja) 信号処理装置、信号処理方法およびプログラム
CN106448693B (zh) 一种语音信号处理方法及装置
Zhao et al. Experimental study of robust acoustic beamforming for speech acquisition in reverberant and noisy environments
Gaubitch et al. On near-field beamforming with smartphone-based ad-hoc microphone arrays
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
Anderson et al. Spatially robust far-field beamforming using the von Mises (-Fisher) distribution
JP6517124B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
Cobos et al. Two-microphone separation of speech mixtures based on interclass variance maximization
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
Lima et al. Efficient steered-response power methods for sound source localization using microphone arrays
Ganguly et al. Non-uniform microphone arrays for robust speech source localization for smartphone-assisted hearing aid devices

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant