CN109074817B - 语音增强方法、装置、设备及存储介质 - Google Patents
语音增强方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109074817B CN109074817B CN201880001281.9A CN201880001281A CN109074817B CN 109074817 B CN109074817 B CN 109074817B CN 201880001281 A CN201880001281 A CN 201880001281A CN 109074817 B CN109074817 B CN 109074817B
- Authority
- CN
- China
- Prior art keywords
- virtual
- omega
- microphone
- microphone array
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012937 correction Methods 0.000 claims abstract description 48
- 230000001427 coherent effect Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010587 phase diagram Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明提供一种语音增强方法、装置、设备及存储介质。该方法,包括:获取固定麦克风阵列的语音信号;根据所述语音信号,构建虚拟麦克风阵列;根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。从而实现不改变麦克风阵列的物理结构,就能使噪声在不同频段的衰减平坦,防止高频混叠,又能控制麦克风阵列的体积足够小,方便应用于便携设备。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音增强方法、装置、设备及存储介质。
背景技术
在语音智能交互应用中,语音增强技术能够提高语音识别的准确率,提高用户体验,因此语音增强技术无论是在传统的语音通讯,还是语音交互应用中都至关重要。语音增强技术分为单通道语音增强技术和多通道语音增强技术。单通道语音增强技术能够消除稳态噪声,但是不能消除非稳态噪声,且信号比提高是以语音损伤为代价,信噪比提高越多,语音损伤越大。多通道语音增强技术利用麦克风阵列采集多路信号,利用多麦克风信号之间的相位信息和相干信息消除噪声,能够消除非稳态噪声,且对语音损伤较小。
目前,一般使用固定距离的麦克风阵列来实现语音增强,当设置较小的麦克风距离时,低频噪声衰减程度较弱。但是,若采用增大麦克风距离的方法来增强低频噪声的衰减,那么当麦克风距离大于最高频率波长的一半时,容易出现高频混叠,导致高频噪声难于消除。
针对上述问题,现有技术采用了多个麦克风组成的线阵或多个麦克风组成的面阵,来克服低频噪声衰减较弱和高频混叠的问题。但是,这种方法的麦克风阵列体积较大,不利于应用在便携设备中。
发明内容
本发明提供一种语音增强方法、装置、设备及存储介质,以实现不改变麦克风阵列的物理结构,就能使噪声在不同频段的衰减平坦,防止高频混叠,又能控制麦克风阵列的体积足够小,方便应用于便携设备。
第一方面,本发明实施例提供一种语音增强方法,包括:
获取固定麦克风阵列的语音信号;
根据所述语音信号,构建虚拟麦克风阵列;
根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
可选地,获取固定麦克风阵列的语音信号,包括:
分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。
可选地,根据所述语音信号,构建虚拟麦克风阵列,包括:
将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X1(ω),第二麦克风的语音信号为X2(ω);ω表示语音信号的频率;
令X1(ω)对应的第一麦克风的位置不变,虚拟移动X2(ω)对应的第二麦克风的位置;
根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual;
根据所述虚拟距离Dvirtual构建虚拟麦克风阵列。
可选地,根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual,包括:
当所述X1(ω)和X2(ω)的频率位于低频区域[0,ωl]内,且ωl<ωh时,使得Dvirtual大于Dture;Dvirtual与Dture满足如下关系:
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωl表示ωl对应的波长,λω表示X1(ω)和X2(ω)对应的波长;Dture表示第一麦克风和第二麦克风的实际距离;
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωh表示ωh对应的波长,λω表示X1(ω)和X2(ω)对应的波长;
当ωl=ωh时,令Dvirtual=C·λω;
可选地,根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号,包括:
假设第二麦克风虚拟移动后的语音信号为X′2(ω),令θ表示X1(ω)到X2(ω)之间的夹角,θ′表示X1(ω)到X′2(ω)之间的夹角,根据Dvirtual=Q·Dture,得到θ′=Q·θ;
X2(ω)到X′2(ω)的夹角Δθ=θ′-θ,则X′2(ω)=X2(ω)·ejΔθ。
可选地,对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号,包括:
将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
第二方面,本实施例提供一种语音增强装置,包括:
获取模块,用于获取固定麦克风阵列的语音信号;
虚拟模块,用于根据所述语音信号,构建虚拟麦克风阵列;
修正模块,用于根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
去噪模块,用于对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
可选地,所述获取模块,具体用于:
分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。
可选地,所述虚拟模块,具体用于:
将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X1(ω),第二麦克风的语音信号为X2(ω);ω表示语音信号的频率;
令X1(ω)对应的第一麦克风的位置不变,虚拟移动X2(ω)对应的第二麦克风的位置;
根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual;
根据所述虚拟距离Dvirtual构建虚拟麦克风阵列。
可选地,根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual,包括:
当所述X1(ω)和X2(ω)的频率位于低频区域[0,ωl]内,且ωl<ωh时,使得Dvirtual大于Dture;Dvirtual与Dture满足如下关系:
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωl表示ωl对应的波长,λω表示X1(ω)和X2(ω)对应的波长;Dture表示第一麦克风和第二麦克风的实际距离;
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωh表示ωh对应的波长,λω表示X1(ω)和X2(ω)对应的波长;
当ωl=ωh时,令Dvirtual=C·λω;
可选地,所述修正模块,具体用于:
假设第二麦克风虚拟移动后的语音信号为X′2(ω),令θ表示X1(ω)到X2(ω)之间的夹角,θ′表示X1(ω)到X′2(ω)之间的夹角,根据Dvirtual=Q·Dture,得到θ′=Q·θ;
X2(ω)到X′2(ω)的夹角Δθ=θ′-θ,则X′2(ω)=X2(ω)·ejΔθ。
可选地,所述去噪模块,具体用于:
将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
第三方面,本发明实施例提供一种语音增强设备,包括:信号处理器和存储器;所述存储器中存储有算法程序,所述信号处理器用于调取所述存储器中的算法程序,执行如第一方面中任一项所述的语音增强方法。
第四方面,本发明实施例提供一种计算机可读存储介质,包括:程序指令,当其在计算机上运行时,使得计算机执行所述程序指令,以实现如第一方面中任一项所述的语音增强方法。
本发明提供的语音增强方法、装置、设备及存储介质,通过获取固定麦克风阵列的语音信号;根据所述语音信号,构建虚拟麦克风阵列;根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。本发明可以虚拟出任何距离的麦克风,等效于有无限多个麦克风组成的麦克风阵列,对不同频率的噪声调整不同的虚拟麦克风距离,使语音增强算法在不同频率处衰减程度相同,从而实现不改变麦克风阵列的物理结构,就能使噪声在不同频段的衰减平坦,防止高频混叠,又能控制麦克风阵列的体积足够小,方便应用于便携设备。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单的介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有的小距离麦克风的噪声衰减曲线示意图;
图2为本发明实施例一提供的语音增强方法的原理示意图;
图3为应用本发明中的方法和现有技术的方法进行语音信号增强的噪声衰减曲线对比示意图;
图4为本发明实施例二提供的语音增强方法的流程图;
图5为针对低频语音信号的虚拟麦克风构建原理示意图;
图6为针对高频语音信号的虚拟麦克风构建原理示意图;
图7为针对低频语音信号的相位修正原理示意图;
图8为针对高频语音信号的相位修正原理示意图;
图9为本发明实施例三提供的语音增强装置的结构示意图;
图10为本发明实施例四提供的语音增强设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开提到的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例,能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为现有的小距离麦克风的噪声衰减曲线示意图,如图1所示,带宽为0-8000Hz的噪声,在小于1000Hz频率的区间内,噪声衰减效果较差。当麦克风距离较大时,可能导致高频混叠,加大麦克风之间的距离能够提高低频区域噪声的衰减程度,但根据空间采样定理,麦克风之间的距离d小于最小波长λmin的一半,即而当时,可能导致高频混叠。
本发明提供一种方法,无需改变固定麦克风阵列的物理结构,而是将对固定麦克风阵列的信号处理算法抽象为:计算与所述固定麦克风阵列对应的虚拟麦克风阵列的输出信号。然后通过对虚拟麦克风阵列的输出信号进行去噪处理,得到增强处理后的语音信号。
具体地,在构建虚拟麦克风阵列时,虚拟麦克风阵列中不同麦克风之间的距离可以根据所述固定麦克风中各个麦克风所接收到的语音信号的频率进行调整。当确定虚拟麦克风阵列中所有麦克风之间的距离之后,即得到所述固定麦克风阵列对应的虚拟麦克风阵列。计算所述虚拟麦克风阵列的修正因数,通过所述修正因数对所述固定麦克风阵列的语音信号进行相位修正,即可得到所述虚拟麦克风阵列的输出信号。
图2为本发明实施例一提供的语音增强方法的原理示意图,如图2所示,XN(ω)表示固定麦克风阵列的语音信号,根据语音信号的当前频率ω的范围构建虚拟麦克风阵列,通过所述虚拟麦克风阵列关于固定麦克风阵列的修正因数对XN(ω)进行相位修正,得到相位修正后的信号;然后对所述相位修正后的信号通过波束形成算法去除相干噪声,然后通过后置滤波处理将通过波束形成算法去除相干噪声的信号做进一步地滤波处理,以去除非相干噪声,最终得到增强的语音信号Y(ω)。
图3为应用本发明中的方法和现有技术的方法进行语音信号增强的噪声衰减曲线对比示意图,如图3所示,现有技术的方法(固定距离的麦克风阵列语音增强方法)在带宽为0-8000Hz范围内,不同频率的噪声的衰减程度不同,即在低频、中频、高频的衰减程度不同,语音增强处理后残留噪声频谱不平坦,会影响用户的听觉感受。而本发明中的方法可以使噪声在100Hz到8000KHz范围内衰减平坦。在实际应用中,由于人的语音频率位于100Hz范围内的能量很少,因此可以通过一个简单的高通滤波滤除小于100Hz的噪声。本发明方法通过虚拟出不同距离的麦克风阵列来显著提高噪声的衰减性能。因此,在设计上可以减小麦克风阵列的体积,使其应用于便携式设备。
下面以具体的实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图4为本发明实施例二提供的语音增强方法的流程图,如图4所示,本实施例中的方法可以包括:
S101、获取固定麦克风阵列的语音信号。
本实施例中,可以分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。本实施例的方法可以应用在不同的固定麦克风阵列中,对麦克风阵列的具体结构和形式,本实施例不予限定。
S102、根据所述语音信号,构建虚拟麦克风阵列。
本实施例中,固定麦克阵列中的任何一个麦克风的位置都可以依据其相邻的麦克风来确定,因此知道相邻麦克风之间的虚拟距离,即可构建与固定麦克风阵列对应的虚拟麦克风阵列。
在一种可选的实施方式中,将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X1(ω),第二麦克风的语音信号为X2(ω)。令X1(ω)对应的第一麦克风的位置不变,虚拟移动X2(ω)对应的第二麦克风的位置。根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual;最后根据所述虚拟距离Dvirtual构建虚拟麦克风阵列。
在一种可选的实施方式中,首先划分一个低频区域和高频区域,具体地,设置低频区域为[0,ωl],高频区域为其中,ωl≤ωh,ωl为低频区域的频率上限值,ωh为高频区域的频率下限值,Fs为采样频率。需要说明的是,本实施例不限定ωl和ωh的具体取值,本领域技术人员可以根据实际应用情况对其进行调整。
第一种情况:所述X1(ω)和X2(ω)的频率位于低频区域[0,ωl]内,且ωl<ωh时,这时,需要增大相邻麦克风之间的虚拟距离,使得Dvirtual大于Dture;Dvirtual与Dture满足如下关系:
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωl表示ωl对应的波长,λω表示X1(ω)和X2(ω)对应的波长。
图5为针对低频语音信号的虚拟麦克风构建原理示意图,如图5所示,所述X1(ω)和X2(ω)的频率位于低频区域[0,ωl]内,且ωl<ωh时,固定第一麦克风10的位置不变,虚拟移动第二麦克风20的位置,使得第一麦克风10和第二麦克风20的虚拟距离增大。这是因为,语音信号的频率较低时,其掺杂的噪声的频率也较低,此时噪声的波长较大,若固定麦克风阵列中的麦克风之间的距离较小(例如固定麦克风阵列中的麦克风之间的距离远小于噪声波长的一半),则会使得噪声衰减较弱。
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωh表示ωh对应的波长,λω表示X1(ω)和X2(ω)对应的波长。
图6为针对高频语音信号的虚拟麦克风构建原理示意图,如图6所示,所述X1(ω)和X2(ω)的频率位于高频区域内,且ωl<ωh时,固定第一麦克风10的位置不变,虚拟移动第二麦克风20的位置,使得第一麦克风10和第二麦克风20的虚拟距离减小。这是因为,语音信号的频率较高时,其掺杂的噪声的频率也较高,此时噪声的波长较小,若固定麦克风阵列中的麦克风之间的距离较大(例如固定麦克风阵列中的麦克风之间的距离大于噪声波长的一半),则会造成语音信号的高频混叠。
第三种情况:当ωl=ωh时,即对语音信号的全频带范围内应用虚拟麦克风阵列,此时,令Dvirtual=C·λω;
本实施例中,C为常数,其具体取值可以根据实际情况进行调整,本实施例不予限定。
S103、根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号。
本实施例中,可以根据步骤S102中计算的得到的虚拟麦克风阵列的修正因数Q对所述固定麦克风阵列的语音信号进行相位修正。
具体地,仍然以相邻的两个麦克风为例进行详细说明。假设第一麦克风的位置固定不变,第二麦克风虚拟移动后的语音信号为X′2(ω),令θ表示X1(ω)到X2(ω)之间的夹角,θ′表示X1(ω)到X′2(ω)之间的夹角,根据Dvirtual=Q·Dture,得到θ′=Q·θ;
图7为针对低频语音信号的相位修正原理示意图,如图7所示,当Q>1时,根据X1(ω)和X2(ω)可求出X1(ω)到X2(ω)之间的夹角θ
X1(ω)到X′2(ω)之间的夹角θ′=Q·θ
X2(ω)到X′2(ω)的夹角Δθ=θ′-θ
最后,计算出虚拟麦克信号X′2(ω)=X2(ω)·ejΔθ。
当Q=1时,无需进行相位修正,X′2(ω)=X2(ω)。
图8为针对高频语音信号的相位修正原理示意图,如图8所示,当Q∈[0,1]时,同样的,根据X1(ω)和X2(ω)可求出X1(ω)到X2(ω)之间的夹角θ
X1(ω)到X′2(ω)之间的夹角θ′=Q·θ
X2(ω)到X′2(ω)的夹角Δθ=θ′-θ
最后,计算出虚拟麦克信号X′2(ω)=X2(ω)·ejΔθ。
需要说明的是,本实施例中以两个相邻麦克风为例进行详细说明,但是本实施例并不限定固定麦克风阵列的具体排列结构和麦克风数量,任何排列结构的麦克风阵列中必然存在相邻的麦克风,而相邻麦克风的虚拟距离设置,以及相位修正方式的原理和实现过程在本发明中已经详细论述,因此可以根据上述方法构建任何麦克风阵列的虚拟麦克风阵列,并得到对应虚拟麦克风阵列的语音信号。
S104、对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
在一种可选的实施方式中,可以将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
本实施例中,可以采用固定波束形成算法、广义旁瓣抵消器(generalized side-lobe canceller,GSC)算法、最小方差无失真响应(Minimum Variance DistortionlessResponse,MVDR)算法、线性约束最小方差(linearly constrained minimum variance,LCMV)算法等中的任一种来对虚拟麦克风阵列的语音信号进行去噪处理。本发明中波束形成算法的选取方式不作限制。波束形成算法主要作用是消除相干噪声。
针对述虚拟麦克风阵列的语音信号的非相干噪声,采用后置滤波方式进行滤除,具体地,在波束形成算法对语音信号处理之后,通过串联的后置滤波器消除非相干噪声。后置滤波的基本原理是:假设麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性,依据预设规则实时更新滤波器的权系数,对所接收到的语音信号进行滤波,从而达到语音增强的目的。本实施例中,波束形成后置滤波是以预设规则估计出维纳滤波器系数,然后在时域或频率对波束形成模块的输出进一步滤波,维纳滤波器系数估计常见方法包括基于互功率谱方法、基于先验信噪比后验信噪比方法、基于小波阈值方法等。本实施例对维纳滤波系数估计方法不作限制。
本实施例,通过获取固定麦克风阵列的语音信号;根据所述语音信号,构建虚拟麦克风阵列;根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。本发明可以虚拟出任何距离的麦克风,等效于有无限多个麦克风组成的麦克风阵列,对不同频率的噪声调整不同的虚拟麦克风距离,使语音增强算法在不同频率处衰减程度相同,从而实现不改变麦克风阵列的物理结构,就能使噪声在不同频段的衰减平坦,防止高频混叠,又能控制麦克风阵列的体积足够小,方便应用于便携设备。
图9为本发明实施例三提供的语音增强装置的结构示意图,如图9所示,本实施例中的装置可以包括:
获取模块31,用于获取固定麦克风阵列的语音信号;
虚拟模块32,用于根据所述语音信号,构建虚拟麦克风阵列;
修正模块33,用于根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
去噪模块34,用于对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
可选地,所述获取模块31,具体用于:
分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。
可选地,所述虚拟模块32,具体用于:
将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X1(ω),第二麦克风的语音信号为X2(ω);
令X1(ω)对应的第一麦克风的位置不变,虚拟移动X2(ω)对应的第二麦克风的位置;
根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual;
根据所述虚拟距离Dvirtual构建虚拟麦克风阵列。
可选地,根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual,包括:
当所述X1(ω)和X2(ω)的频率位于低频区域[0,ωl]内,且ωl<ωh时,使得Dvirtual大于Dture;Dvirtual与Dture满足如下关系:
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωl表示ωl对应的波长,λω表示X1(ω)和X2(ω)对应的波长;
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωh表示ωh对应的波长,λω表示X1(ω)和X2(ω)对应的波长;
当ωl=ωh时,令Dvirtual=C·λω;
可选地,所述修正模块33,具体用于:
假设第二麦克风虚拟移动后的语音信号为X′2(ω),令θ表示X1(ω)到X2(ω)之间的夹角,θ′表示X1(ω)到X′2(ω)之间的夹角,根据Dvirtual=Q·Dture,得到θ′=Q·θ;
X2(ω)到X′2(ω)的夹角Δθ=θ′-θ,则X′2(ω)=X2(ω)·ejΔθ。
可选地,所述去噪模块34,具体用于:
将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
本实施例中的语音增强装置可以执行图2、图4所示的方法,其具体实现过程和技术原理参见图4所示方法中的相关描述,此处不再赘述。
图10为本发明实施例四提供的语音增强设备的结构示意图,如图10所示,本实施例中的语音增强设备40包括:
处理器41以及存储器42;其中:
存储器42,用于存储可执行指令,该存储器还可以是flash(闪存)。
处理器41,用于执行存储器存储的可执行指令,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器42既可以是独立的,也可以跟处理器41集成在一起。
当所述存储器42是独立于处理器41之外的器件时,所述语音增强设备40还可以包括:
总线43,用于连接所述存储器42和处理器41。
本实施例中的语音增强设备可以执行图2、图4所示的方法,其具体实现过程和技术原理参见图4所示方法中的相关描述,此处不再赘述。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于应用专用集成电路(ASIC)中。另外,该应用专用集成电路可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。
Claims (14)
1.一种语音增强方法,其特征在于,包括:
获取固定麦克风阵列的语音信号;
根据所述语音信号,构建虚拟麦克风阵列,其中,所述虚拟麦克风阵列中不同麦克风之间的距离是根据所述固定麦克风中各个麦克风所接收到的语音信号的频率确定的;
根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
2.根据权利要求1所述的方法,其特征在于,获取固定麦克风阵列的语音信号,包括:
分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成为所述固定麦克风阵列的语音信号。
3.根据权利要求1所述的方法,其特征在于,根据所述语音信号,构建虚拟麦克风阵列,包括:
将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X1(ω),第二麦克风的语音信号为X2(ω),ω表示语音信号的频率;
令X1(ω)对应的第一麦克风的位置不变,虚拟移动X2(ω)对应的第二麦克风的位置;
根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual;
根据所述虚拟距离Dvirtual构建虚拟麦克风阵列。
4.根据权利要求3所述的方法,其特征在于,根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual,包括:
当所述X1(ω)和X2(ω)的频率位于低频区域[0,ωl]内,且ωl<ωh时,使得Dvirtual大于Dture;Dvirtual与Dture满足如下关系:
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωl表示ωl对应的波长,λω表示X1(ω)和X2(ω)对应的波长;Dture表示第一麦克风和第二麦克风的实际距离;
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωh表示ωh对应的波长,λω表示X1(ω)和X2(ω)对应的波长;
当ωl=ωh时,令Dvirtua1=C·λω;
6.根据权利要求1-5中任一项所述的方法,其特征在于,对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号,包括:
将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
7.一种语音增强装置,其特征在于,包括:
获取模块,用于获取固定麦克风阵列的语音信号;
虚拟模块,用于根据所述语音信号,构建虚拟麦克风阵列,其中,所述虚拟麦克风阵列中不同麦克风之间的距离是根据所述固定麦克风中各个麦克风所接收到的语音信号的频率确定的;
修正模块,用于根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
去噪模块,用于对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于:
分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。
9.根据权利要求7所述的装置,其特征在于,所述虚拟模块,具体用于:
将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X1(ω),第二麦克风的语音信号为X2(ω),ω表示语音信号的频率;
令X1(ω)对应的第一麦克风的位置不变,虚拟移动X2(ω)对应的第二麦克风的位置;
根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual;
根据所述虚拟距离Dvirtual构建虚拟麦克风阵列。
10.根据权利要求9所述的装置,其特征在于,根据X1(ω)和X2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离Dvirtual,包括:
当所述X1(ω)和X2(ω)的频率位于低频区域[0,ωl]内,且ωl<ωh时,使得Dvirtual大于Dture;Dvirtual与Dture满足如下关系:
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωl表示ωl对应的波长,λω表示X1(ω)和X2(ω)对应的波长;Dture表示第一麦克风和第二麦克风的实际距离;
Dvirtual=Q·Dture;
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λωh表示ωh对应的波长,λω表示X1(ω)和X2(ω)对应的波长;
当ωl=ωh时,令Dvirtual=C·λω;
12.根据权利要求7-11中任一项所述的装置,其特征在于,所述去噪模块,具体用于:
将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
13.一种语音增强设备,其特征在于,包括:信号处理器和存储器;所述存储器中存储有算法程序,所述信号处理器用于调取所述存储器中的算法程序,执行如权利要求1-6中任一项所述的语音增强方法。
14.一种计算机可读存储介质,其特征在于,包括:程序指令,当其在计算机上运行时,使得计算机执行所述程序指令,以实现如权利要求1-6中任一项所述的语音增强方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/096335 WO2020014931A1 (zh) | 2018-07-19 | 2018-07-19 | 语音增强方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109074817A CN109074817A (zh) | 2018-12-21 |
CN109074817B true CN109074817B (zh) | 2021-06-25 |
Family
ID=64789345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880001281.9A Active CN109074817B (zh) | 2018-07-19 | 2018-07-19 | 语音增强方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109074817B (zh) |
WO (1) | WO2020014931A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454300B (zh) * | 2023-12-21 | 2024-04-05 | 广东美的制冷设备有限公司 | 电机异音检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101779476A (zh) * | 2007-06-13 | 2010-07-14 | 爱利富卡姆公司 | 全向性双麦克风阵列 |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
CN102324237A (zh) * | 2011-05-30 | 2012-01-18 | 深圳市华新微声学技术有限公司 | 麦克风阵列语音波束形成方法、语音信号处理装置及系统 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN107544055A (zh) * | 2016-06-23 | 2018-01-05 | 意法半导体股份有限公司 | 基于麦克风阵列的波束形成方法以及对应的装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10118653C2 (de) * | 2001-04-14 | 2003-03-27 | Daimler Chrysler Ag | Verfahren zur Geräuschreduktion |
DE60304147T2 (de) * | 2003-03-31 | 2006-08-17 | Alcatel | Virtuelle Mikrophonanordnung |
-
2018
- 2018-07-19 WO PCT/CN2018/096335 patent/WO2020014931A1/zh active Application Filing
- 2018-07-19 CN CN201880001281.9A patent/CN109074817B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101779476A (zh) * | 2007-06-13 | 2010-07-14 | 爱利富卡姆公司 | 全向性双麦克风阵列 |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
CN102324237A (zh) * | 2011-05-30 | 2012-01-18 | 深圳市华新微声学技术有限公司 | 麦克风阵列语音波束形成方法、语音信号处理装置及系统 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN107544055A (zh) * | 2016-06-23 | 2018-01-05 | 意法半导体股份有限公司 | 基于麦克风阵列的波束形成方法以及对应的装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109074817A (zh) | 2018-12-21 |
WO2020014931A1 (zh) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN109102822B (zh) | 一种基于固定波束形成的滤波方法及装置 | |
US8238569B2 (en) | Method, medium, and apparatus for extracting target sound from mixed sound | |
US8971548B2 (en) | Motor noise reduction circuit | |
CN103632677B (zh) | 带噪语音信号处理方法、装置及服务器 | |
WO2015196729A1 (zh) | 一种麦克风阵列语音增强方法及装置 | |
WO2009026569A1 (en) | Automated sensor signal matching | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN1953059A (zh) | 一种噪声消除装置和方法 | |
CN109215677A (zh) | 一种适用于语音和音频的风噪检测和抑制方法和装置 | |
CN111063366A (zh) | 降低噪声的方法、装置、电子设备及可读存储介质 | |
CN107369460B (zh) | 基于声学矢量传感器空间锐化技术的语音增强装置及方法 | |
CN110556125B (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
CN109616137A (zh) | 噪声处理方法及装置 | |
US20200286501A1 (en) | Apparatus and a method for signal enhancement | |
KR101581885B1 (ko) | 복소 스펙트럼 잡음 제거 장치 및 방법 | |
CN112201273A (zh) | 一种噪声功率谱密度计算方法、系统、设备及介质 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN109074817B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN110708651B (zh) | 一种基于分段陷波的助听器啸叫检测与抑制方法及装置 | |
CN103824563A (zh) | 一种基于模块复用的助听器去噪装置和方法 | |
CN113168843B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN108053834B (zh) | 音频数据处理方法、装置、终端及系统 | |
CN115061087B (zh) | 信号处理方法、doa估计方法及电子设备 | |
CN113611319B (zh) | 基于语音成分实现的风噪抑制方法、装置、设备及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |