CN103000183A - 语音增强方法 - Google Patents

语音增强方法 Download PDF

Info

Publication number
CN103000183A
CN103000183A CN201210008319XA CN201210008319A CN103000183A CN 103000183 A CN103000183 A CN 103000183A CN 201210008319X A CN201210008319X A CN 201210008319XA CN 201210008319 A CN201210008319 A CN 201210008319A CN 103000183 A CN103000183 A CN 103000183A
Authority
CN
China
Prior art keywords
ear
sound
liang
threshold value
mistiming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210008319XA
Other languages
English (en)
Other versions
CN103000183B (zh
Inventor
廖宪正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN103000183A publication Critical patent/CN103000183A/zh
Application granted granted Critical
Publication of CN103000183B publication Critical patent/CN103000183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Abstract

本发明的一种语音增强方法,包含下列步骤:利用麦克风阵列接收多个音框的声音信号;计算各音框的声音信号于各频段对应的至少一双麦克风组合的两耳时间差;根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图;根据该些累积直方图计算一第一两耳时间差门坎值;以及根据该第一两耳时间差过滤该些音框的声音信号。

Description

语音增强方法
技术领域
本发明涉及语音增强(speech enhancement)技术。
背景技术
语音增强技术是一种将接收到的语音信号予以滤除不必要的噪音干扰以增强该语音内容的方法。其可使用于语音通讯、语音人机界面(user voiceinterface)、语音输入(voice input)及其它各种应用。近年来,随着各种移动装置、车用电子和机器人的快速发展,在具有噪音干扰的环境中进行语音通讯、语音输入或语音人机互动的机率日渐提高,如何滤除噪声以增强语音内容,提高语音通讯或语音人机互动的质量,成为此领域的重要课题。
一般而言,通过麦克风所撷取到的语音信号,均包含了目标音源和干扰音源。该干扰音源会造成语音通讯或语音人机互动的困难度升高。为提升语音通讯或语音人机互动的质量,势必需要降低干扰音源对整体声音信号所造成的干扰。先前许多语音增强技术使用了滤波器、适应性滤波器、统计模型等方法,结合单一麦克风来进行语音增强,然其效能均有其限制。近年来,使用多麦克风进行语音增强的技术因其效能普遍来说,较使用单一麦克风较佳,因此开始受到重视。然而,该类技术所需运算量较大,通常无法使用在运算资源受到限制的移动装置上。因此,一搭配麦克风阵列且运算相对简单的语音增强方法,而仍能达成有效降低干扰音源的目的,将会成为极具价值的发明。本发明即提供该语音增强方法。
发明内容
本发明的目的在于揭示一种语音增强方法,搭配麦克风阵列且运算相对简单的语音增强方法,能达成有效降低干扰音源的目的。
为了达到上述目的,本发明揭示一种语音增强方法,包含下列步骤:利用一麦克风阵列接收多个音框的声音信号;计算各音框的声音信号于各频段对应该多个麦克风中的至少一双麦克风组合的两耳时间差(inter-aural timedifference);根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图(cumulative histogram);根据该些累积直方图计算一第一两耳时间差门坎值;以及根据该第一两耳时间差门坎值过滤该些音框的声音信号。
本发明还揭示一种语音增强系统,包含一麦克风阵列、一累积直方图模块、一第一两耳时间差门坎值计算模块以及一声音信号过滤模块。该两耳时间差计算模块用以计算各音框的声音信号于各频段对应该多个麦克风中的至少一双麦克风组合的两耳时间差。该累积直方图模块用以计算各音框两耳时间差的累积直方图。该第一两耳时间差门坎值计算模块用以计算基于累积直方图的第一两耳时间差门坎值。该声音信号过滤模块用以过滤基于第一两耳时间差门坎值的声音信号。
本发明还揭示一种语音增强方法,包含下列步骤:利用一麦克风阵列接收多个音框的声音信号;计算各音框的声音信号于各频段对应该多个麦克风中的至少一双麦克风组合的两耳时间差;根据该计算结果统计各音框的声音信号的两耳时间差的直方图和累积直方图;根据该些累积直方图计算一第一两耳时间差门坎值;根据该些直方图和该第一两耳时间差门坎值计算一第二两耳时间差门坎值;以及根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号。其中,该第二两耳时间差门坎值大于该第一两耳时间差门坎值。
本发明还揭示语音增强系统,包含一麦克风阵列、一累积直方图模块、一第一两耳时间差门坎值计算模块、一第二两耳时间差门坎值计算模块以及一声音信号过滤模块。该两耳时间差计算模块用以计算各音框的声音信号于各频段对应该多个麦克风中的至少一双麦克风组合的两耳时间差。该累积直方图模块用以计算各音框两耳时间差的累积直方图。该第一两耳时间差门坎值计算模块用以计算基于累积直方图的第一两耳时间差门坎值。该第二两耳时间差门坎值计算模块用以计算基于直方图和该第一两耳时间差门坎值的第二两耳时间差门坎值。该声音信号过滤模块用以过滤基于第一两耳时间差门坎值和该第二两耳时间差门坎值的声音信号。
也以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1显示本发明的一实施例的语音增强系统的示意图;
图2显示本发明的一实施例的语音增强方法的流程图;
图3显示本发明的一实施例的声音信号的时域和频域图;
图4显示本发明的一实施例所计算的两耳时间差的累积直方图;
图5显示本发明的另一实施例所计算的两耳时间差的累积直方图;
图6显示本发明的另一实施例的语音增强方法的流程图;
图7显示本发明的一实施例所计算的两耳时间差的直方图;以及
图8显示本发明的另一实施例所计算的两耳时间差的直方图;以及
图9显示本发明的一实施例的语音增强系统的示意图。
其中,附图标记
100 语音增强系统
102 麦克风阵列
150 目标音源
160 干扰音源
201~205 步骤
601~606 步骤
具体实施方式
本发明在此所探讨的方向为一种语音增强方法。为了能彻底地了解本发明,将在下列的描述中提出详尽的步骤。显然地,本发明的实施并未限定于本发明技术领域的技术人员所熟悉的特殊细节。另一方面,众所周知的步骤并未描述于细节中,以避免造成本发明不必要的限制。本发明的较佳实施例会详细描述如下,然而除了这些详细描述之外,本发明还可以广泛地施行在其它的实施例中且本发明的范围不受限定,其以之后的权利要求范围为准。
图1显示本发明的一实施例的语音增强系统的示意图。如图1所示,该语音增强系统100是用以接收一正向面对的目标音源150的声音信号,并包含一双麦克风式(doule-microphone)的麦克风阵列102。然而,该麦克风阵列102也会同时接收另一干扰音源160所发出的声音信号。由于该语音辨识系统100是正向面对该目标音源150,其声音信号传递至该双麦克风式的麦克风阵列102的左右两麦克风的时间相同。反之,由于该语音辨识系统100和该干扰音源160具有一角度,该干扰音源160所发出的声音信号到达该双麦克风式的麦克风阵列102的左右两麦克风的时间不同,而此时间差即定义为两耳时间差。本发明的语音辨识方法即通过两耳时间差的计算以排除该干扰音源160所发出的声音信号。
图2显示本发明的一实施例的语音辨识方法的流程图。在步骤201,利用一双麦克风式的麦克风阵列接收多个音框的声音信号,并进入步骤202。在步骤202,计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差,并进入步骤203。在步骤203,根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图,并进入步骤204。在步骤204,根据该些累积直方图计算一第一两耳时间差门坎值,并进入步骤205。在步骤205,根据该第一两耳时间差门坎值过滤该些音框的声音信号。
复参图1,本发明的另一实施例的语音增强系统,对应至图2的方法,除该双麦克风式的麦克风阵列102及其收音模块外,另包含一两耳时间差计算模块、一累积直方图模块、一第一两耳时间差门坎值计算模块以及一声音信号过滤模块。该两耳时间差计算模块,如步骤202,用以计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差。该累积直方图模块,如步骤203,用以计算各音框两耳时间差的累积直方图。该第一两耳时间差门坎值计算模块,如步骤204,用以计算基于累积直方图的第一两耳时间差门坎值。该声音信号过滤模块,如步骤205,用以过滤基于第一两耳时间差门坎值的声音信号。
以下例示应用图1的语音增强系统和图2的语音增强方法。在步骤201,该双麦克风式的麦克风阵列102接收多个音框的声音信号,其包含该目标音源150和该干扰音源160所发出的声音信号。在步骤202,计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差。图3显示该双麦克风式的麦克风阵列102的其中一麦克风于某一音框所接收的声音信号及其经由离散傅立业转换后所得到的频域的声音信号。若该双麦克风式的麦克风阵列102于第m0个音框的第k0个频段(第k0个点)所接收的频域的声音信号分别为XL(k0;m0)和XR(k0;m0),则该双麦克风式的麦克风阵列102于第m0个音框的第k0个频段的两耳时间差|d(k0,m0)|可表示为
| d ( k 0 , m 0 ) | ≈ 1 | ω k 0 | min r | ∠ X R ( k 0 , m 0 ) - ∠ X L ( k 0 , m 0 ) - 2 πr | , 其中∠XR(k0,m0)和∠XR(k0,m0)分别代表XR(k0;m0)和XL(k0;m0)的相位值;2πr则为一补偿项,可使得∠XR(k0,m0)和∠XR(k0,m0)的相位差落于0-2π之间;ωk0则为角速度。
在步骤203,根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图。图4显示两不同音框所计算的两耳时间差的累积直方图。其中,虚线的累积直方图所对应的音框仅有该干扰音源160所发出的声音信号,而实线的累积直方图所对应的音框同时包含该目标音源150和该干扰音源160所发出的声音信号。如图4所示,由于该虚线的累积直方图所对应的音框未包含该目标音源150所发出的声音信号,其于两耳时间差为零的成分较低。反之,由于该实线的累积直方图所对应的音框包含该目标音源150所发出的声音信号,其于两耳时间差为零的成分较高。
在步骤204,根据该些累积直方图计算一第一两耳时间差门坎值。图5显示根据多个音框所计算的两耳时间差的累积直方图。本发明的部分实施例即分别针对该些音框的累积直方图于不同两耳时间差计算其变异数,并根据该些变异数的最大值决定一第一两耳时间差门坎值。如图5所示,该些累积直方图是于箭头所示处具有最大的变异数,故其对应的两耳时间差即为该第一两耳时间差门坎值。
在步骤205,根据该第一两耳时间差门坎值过滤该些音框的声音信号。本发明的部分实施例是先寻找该双麦克风式的麦克风阵列102所接收的该些音框的声音信号于各频段的两耳时间差高于该第一两耳时间差门坎值的过滤频段,并滤除该些音框的声音信号于该些过滤频段的成分。
在本发明的部分实施例中,步骤205可由下列式子表示:
Figure BSA00000656687300052
其中γ(k0,m0)代表第m0个音框于第k0个频段的过滤值,d(k0,m0)代表第m0个音框于第k0个频段的两耳时间差,τ1代表该第一两耳时间差门坎值,η为一最小单元变量。在本发明的部分实施例中,η等于0.01。在本发明的部分实施例中,步骤205可由下列式子表示:
Figure BSA00000656687300053
其中γ(k0,m0)代表第m0个音框于第k0个频段的过滤值,d(k0,m0)代表第m0个音框于第k0个频段的两耳时间差,τ1代表该第一两耳时间差,β为一控制过滤程度的变量,即β越大则过滤程度越高。
如上列两式所示,步骤205主要是保留两耳时间差低于该第一两耳时间差门坎值的频段,并滤除两耳时间差高于该第一两耳时间差门坎值的频段。另一方面,本发明的部分实施例是利用不同音框的两耳时间差的累积直方图的变异数决定该第一两耳时间差门坎值,而变异数的决定方法可通过递归方式根据一先前计算的变异数计算出一更新的变异数。因此,本发明的语音辨识方法可节省存放先前音框的声音信号的硬件空间及达到节省运算量之目的。换言之,仅需存放先前计算的变异数并接收新的声音信号,即可更新该第一两耳时间差门坎值。
图2所示的语音辨识方法是将该语音辨识系统100所接收的声音信号的两耳时间差,也即相对该语音辨识系统100的不同角度的音源做不同程度的过滤。换言之,图2所示的语音辨识方法是将两耳时间差低于该第一两耳时间差门坎值定义为主要分布区间,并将两耳时间差高于该第一两耳时间差门坎值定义为过滤区间。本发明的部分实施例是再进一步定义一介于该主要分布区间和该过滤区间之间的一次要分布区间,其过滤程度是介于该主要分布区间和该过滤区间之间。
图6显示本发明的另一实施例的语音增强方法的流程图。在步骤601,利用一双麦克风式的麦克风阵列接收多个音框的声音信号,并进入步骤602。在步骤602,计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差,并进入步骤603。在步骤603,根据该计算结果统计各音框的声音信号的两耳时间差的直方图和累积直方图,并进入步骤604。在步骤604,根据该些累积直方图计算一第一两耳时间差门坎值,并进入步骤605。在步骤605,根据该些直方图和该第一两耳时间差计算一第二两耳时间差门坎值,并进入步骤606,其中该第二两耳时间差大于该第一两耳时间差。在步骤606,根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号。
复参图1,本发明的另一实施例的语音增强系统,对应至图6的方法,除该双麦克风式的麦克风阵列102及其收音模块外,另包含一两耳时间差计算模块、一累积直方图模块、一第一两耳时间差门坎值计算模块、一第二两耳时间差门坎值计算模块以及一声音信号过滤模块。该两耳时间差计算模块,如步骤602,用以计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差。该累积直方图模块,如步骤603,用以计算各音框两耳时间差的累积直方图。该第一两耳时间差门坎值计算模块,如步骤604,用以计算基于累积直方图的第一两耳时间差门坎值。该第二两耳时间差门坎值计算模块,如步骤605,用以计算基于直方图和该第一两耳时间差门坎值的第二两耳时间差门坎值。该声音信号过滤模块,如步骤606,用以过滤基于第一两耳时间差门坎值和该第二两耳时间差门坎值的声音信号。
比较图2和图6的语音辨识方法,图6是进一步计算一第二两耳时间差门坎值,并根据第一两耳时间差门坎值和第二两耳时间差门坎值过滤声音信号。以下例示应用图1的语音增强系统和图6的语音增强方法。步骤601和602相似于步骤201和202,为简明起见,在此不详加叙述。在步骤603,根据该计算结果统计各音框的声音信号的两耳时间差的直方图和累积直方图。图7显示两不同音框所计算的两耳时间差的直方图。其中,虚线的直方图所对应的音框仅有该干扰音源160所发出的声音信号,而实线的直方图所对应的音框同时包含该目标音源150和该干扰音源160所发出的声音信号。如图7所示,由于该虚线的直方图所对应的音框未包含该目标音源150所发出的声音信号,其于两耳时间差为零的成分较低。反之,由于该实线的直方图所对应的音框包含该目标音源150所发出的声音信号,其于两耳时间差为零的成分较高。步骤604相似于步骤204,为简明起见,在此不详加叙述。
在步骤605,根据该些直方图和该第一两耳时间差门坎值计算一第二两耳时间差门坎值。图8显示根据多个音框所计算的两耳时间差的直方图。在本发明的部分实施例中,是先根据该些直方图计算目标音源150和干扰音源160的讯杂比,再根据该目标音源150和干扰音源160的讯杂比、该干扰音源160所对应的两耳时间差和该第一两耳时间差门坎值决定该第二两耳时间差门坎值。如图8所示,在本发明的部分实施例中,是将两耳时间差小于第一两耳时间差门坎值的范围所对应的最大直方图值决定为目标音源150的信号强度Smax,并将两耳时间差大于第一两耳时间差门坎值的范围所对应的最大直方图值决定为干扰音源160的信号强度Nmax。据此,即可根据图8所示的直方图决定该目标音源150和干扰音源160的讯杂比为Smax/Nmax
在本发明的部分实施例中,该第二两耳时间差可通过下列式子决定:τ2=τ1+δ+R×SNR,其中τ1代表该第一两耳时间差,τ2代表该第二两耳时间差,R为该干扰音源160所对应的两耳时间差和该第一两耳时间差门坎值的差值,SNR代表该目标音源150和该干扰音源160的讯杂比,δ为一最小角度单元变量。在本发明的部分实施例中,δ等于0.1。复参图8,若该目标音源150和该干扰音源160的讯杂比SNR约等于0.5,则该第二两耳时间差约介于该第一两耳时间差门坎值和该干扰音源160所对应的两耳时间差之间。
在本发明的部分实施例中,该第二两耳时间差可通过下列式子决定:
Figure BSA00000656687300081
其中τ1代表该第一两耳时间差门坎值,τ2代表该第二两耳时间差门坎值,R为该干扰音源所对应的两耳时间差和该第一两耳时间差门坎值的差值,SNR代表该目标音源150和该干扰音源160的讯杂比,β为一控制过滤程度的变量,δ为一最小角度单元变量。在本发明的部分实施例中,δ等于0.1。在这些实施例中,若该目标音源150和该干扰音源160的讯杂比大于0.5,则该次要分布区间的范围较大。反之,若该目标音源150和该干扰音源160的讯杂比小于0.5,则该次要分布区间的范围较小。
在步骤606,根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号。在本发明的部分实施例中,是寻找该些音框的声音信号于各频段的两耳时间差高于该第二两耳时间差门坎值的过滤频段,并滤除该些音框的声音信号于该些过滤频段的成分,以及寻找该等音框的声音信号于各频段的两耳时间差介于该第二两耳时间差门坎值和该第一两耳时间差门坎值的减弱频段,并减弱该些音框的声音信号于该些减弱频段的成分,以供得到一增强语音信号。换言之,该增强语音信号为多个音框的声音信号除去过滤频段的成分并减弱该些减弱频段的成分。在本发明的部分实施例中,步骤606可由下列式子表示: γ ( k 0 , m 0 ) = 1 , if | d ( k 0 , m 0 ) | ≤ τ 1 α , if | d ( k 0 , m 0 ) | > τ 1 and | d ( k 0 , m 0 ) | ≤ τ 2 η , otherwise ,其中γ(k0,m0)代表第m0个音框于第k0个频段的过滤值,d(k0,m0)代表第m0个音框于第k0个频段的两耳时间差,τ1代表该第一两耳时间差门坎值,τ2代表该第二两耳时间差门坎值,α为一介于0和1的间的控制过滤程度的变量,η为一最小单元变量。在本发明的部分实施例中,η等于0.01。
如上所述,在主要分布区间的范围内,是保留该些频段的成分,在次要分布区间的范围内,是减弱该些频段的成分,而在过滤区间的范围内,是滤除该些频段的成分,而得到增强语音信号。在本发明的部分实施例中,α正比于目标音源和干扰音源的讯杂比,并可由下列式子表示:
Figure BSA00000656687300083
其中SNR代表目标音源和干扰音源的讯杂比,并可由前述Smax/Nmax的方式决定,β为一控制过滤程度的变量,即β越大则过滤程度越高。
复参图1的语音增强系统,若该目标音源150位于非正对麦克风方向时,只需在两耳时间差计算上加上一补偿项,使其方向转变为正对麦克风。本领域技术人员便可依据上述实施例实施本发明,在此不再赘述。
又如图1所示,该语音增强系统100,其中一双麦克风式的麦克风阵列102,是由两个麦克风所组成的阵列,然该系统并不限于使用单一双麦克风式的麦克风阵列,两个麦克风以上的麦克风阵列也可任意挑选两个麦克风的至少一种组合来实施本发明,多个麦克风式的麦克风阵列收音模块的该至少一组双麦克风所得到的增强语音信号,可再经由权重模块以加诸预设权重(如W1及W2)的方式进行处理以达到进一步的增强。如图9为一包含4个麦克风的麦克风阵列,例如选择麦克风a与麦克风d进行如图6所示语音增强步骤而得到增强语音信号1(Enhanced Signal 1),而麦克风b与麦克风c进行如图6所示语音增强步骤而得到增强语音信号2(Enhanced Signal 2),增强语音信号1与增强语音信号2可经由下式计算而得加权后的增强语音信号:
Enhanced Signal = W 1 × ( Enhanced Signal 1 ) + W 2 × ( Enhanced Signal 2 ) W 1 + W 2 其中W1与W2分别为增强语音信号1与增强语音信号2的权重。图9显示包含4只麦克风的麦克风阵列的语音增强系统,此系统是由麦克风阵列任意挑选两个麦克风的至少一组麦克风来实施本发明并得到加权后的增强语音信号,在此不再赘述。同理,3个麦克风阵列(无图示),分别计算麦克风的x、y与麦克风y、z或麦克风x、z的增强语音信号1与增强语音信号2及依据其权重而得加权后的增强语音信号。
综上所述,本发明的语音辨识方法利用两耳时间差的累积直方图决定一主要分布区间和一过滤区间,并分配以不同的过滤程度以过滤所接收的声音信号。另一方面,本发明的语音辨识方法利用麦克风阵列和简单的计算即可达成。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (26)

1.一种语音增强方法,其特征在于,包含下列步骤:
利用一双麦克风式的麦克风阵列接收多个音框的声音信号;
计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差;
根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图;
根据该些累积直方图计算一第一两耳时间差门坎值;以及
根据该第一两耳时间差门坎值过滤该些音框的声音信号。
2.根据权利要求1所述的语音增强方法,其特征在于,该计算第一两耳时间差门坎值的步骤包含下列次步骤:
计算该些累积直方图于各两耳时间差的变异数;以及
决定该些变异数的最大值所对应的两耳时间差为该第一两耳时间差门坎值。
3.根据权利要求1所述的语音增强方法,其特征在于,该变异数的计算根据一先前计算的变异数以递归方式计算出一更新的变异数。
4.根据权利要求1所述的语音增强方法,其特征在于,该过滤声音信号的步骤包含下列次步骤:
寻找该些音框的声音信号于各频段的两耳时间差高于该第一两耳时间差门坎值的过滤频段,并滤除该些音框的声音信号于该些过滤频段的成分。
5.根据权利要求4所述的语音增强方法,其特征在于,该滤除声音信号的步骤可由下列式子表示:
Figure FSA00000656687200011
γ(k0,m0)代表第m0个音框于第k0个频段的过滤值,d(k2,m0)代表第m0个音框于第k0个频段的两耳时间差,τ1代表该第一两耳时间差门坎值,η为一最小单元变量。
6.根据权利要求5所述的语音增强方法,其特征在于,η等于0.01。
7.根据权利要求4所述的语音增强方法,其特征在于,该滤除声音信号的步骤可由下列式子表示:
Figure FSA00000656687200021
γ(k0,m0)代表第m0个音框于第k0个频段的过滤值,d(k0,m0)代表第m0个音框于第k0个频段的两耳时间差,τ1代表该第一两耳时间差门坎值,β为一控制过滤程度的变量。
8.一种语音增强方法,其特征在于,包含下列步骤:
利用一双麦克风式的麦克风阵列接收多个音框的声音信号;
计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差;
根据该计算结果统计各音框的声音信号的两耳时间差的直方图和累积直方图;
根据该些累积直方图计算一第一两耳时间差门坎值;
根据该些直方图和该第一两耳时间差门坎值计算一第二两耳时间差门坎值;以及
根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号;
其中该第二两耳时间差门坎值大于该第一两耳时间差门坎值。
9.根据权利要求8所述的语音增强方法,其特征在于,该计算第一两耳时间差门坎值的步骤包含下列次步骤:
计算该些累积直方图于各两耳时间差的变异数;以及
决定该些变异数的最大值所对应的两耳时间差为该第一两耳时间差门坎值。
10.根据权利要求9所述的语音增强方法,其特征在于,该变异数的计算根据一先前计算的变异数以递归方式计算出一更新的变异数。
11.根据权利要求8所述的语音增强方法,其特征在于,该计算第二两耳时间差门坎值的步骤包含下列次步骤:
根据该些直方图计算目标音源和干扰音源的讯杂比;以及
根据该目标音源和干扰音源的讯杂比、该干扰音源所对应的两耳时间差和该第一两耳时间差门坎值决定该第二两耳时间差门坎值。
12.根据权利要求11所述的语音增强方法,其特征在于,该讯杂比为该些直方图所决定的目标音源和干扰音源对应的数值的比例。
13.根据权利要求11所述的语音增强方法,其特征在于,该第二两耳时间差门坎值可由下列式子表示:
τ2=τ1+δ+R×SNR,τ1代表该第一两耳时间差门坎值,τ2代表该第二两耳时间差门坎值,R为该干扰音源所对应的两耳时间差和该第一两耳时间差门坎值的差值,SNR代表该目标音源和干扰音源的讯杂比,δ为一最小角度单元变量。
14.根据权利要求13所述的语音增强方法,其特征在于,δ等于0.1。
15.根据权利要求11所述的语音增强方法,其特征在于,该第二两耳时间差门坎值可由下列式子表示:
Figure FSA00000656687200031
τ1代表该第一两耳时间差门坎值,τ2代表该第二两耳时间差门坎值,R为该干扰音源所对应的两耳时间差和该第一两耳时间差门坎值的差值,SNR代表该目标音源和干扰音源的讯杂比,β为一控制过滤程度的变量,δ为一最小角度单元变量。
16.根据权利要求15所述的语音增强方法,其特征在于,δ等于0.1。
17.根据权利要求8所述的语音增强方法,其特征在于,该过滤声音信号的步骤包含下列次步骤:
寻找该些音框的声音信号于各频段的两耳时间差高于该第二两耳时间差门坎值的过滤频段,并滤除该些音框的声音信号于该些过滤频段的成分;以及
寻找该些音框的声音信号于各频段的两耳时间差介于该第二两耳时间差门坎值和该第一两耳时间差门坎值的减弱频段,并减弱该些音框的声音信号于该些减弱频段的成分。
18.根据权利要求17所述的语音增强方法,其特征在于,该滤除和减弱声音信号的步骤可由下列式子表示:
γ ( k 0 , m 0 ) = 1 , if | d ( k 0 , m 0 ) | ≤ τ 1 α , if | d ( k 0 , m 0 ) | > τ 1 and | d ( k 0 , m 0 ) | ≤ τ 2 η , otherwise , γ(k0,m0)代表第m0个音框于第k0个频段的过滤值,d(k0,m0)代表第m0个音框于第k0个频段的两耳时间差,τ1代表该第一两耳时间差门坎值,τ2代表该第二两耳时间差门坎值,α为一介于0和1之间的控制过滤程度的变量,η为一最小单元变量。
19.根据权利要求18所述的语音增强方法,其特征在于,η等于0.01。
20.根据权利要求18所述的语音增强方法,其特征在于,α正比于目标音源和干扰音源的讯杂比。
21.根据权利要求20所述的语音增强方法,其特征在于,该讯杂比为该些直方图所决定的目标音源和干扰音源对应的数值的比例。
22.根据权利要求20所述的语音增强方法,其特征在于,α可由下列式子决定:
Figure FSA00000656687200041
SNR代表目标音源和干扰音源的讯杂比,β为一控制过滤程度的变量。
23.一种语音增强系统,其特征在于,包含:
一麦克风阵列收音模块,该麦克风阵列收音模块为双麦克风式的麦克风阵列;
一两耳时间差计算模块,用以计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差;
一累积直方图模块,用以计算各音框两耳时间差的累积直方图;
一第一两耳时间差门坎值计算模块,用以计算基于累积直方图的第一两耳时间差门坎值;以及
一声音信号过滤模块,用以过滤基于第一两耳时间差门坎值的声音信号。
24.一种语音增强系统,其特征在于,包含:
一麦克风阵列收音模块,该麦克风阵列收音模块为双麦克风式的麦克风阵列;
一两耳时间差计算模块,用以计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差;
一累积直方图模块,用以计算各音框两耳时间差的直方图和累积直方图;
一第一两耳时间差门坎值计算模块,用以计算基于累积直方图的第一两耳时间差门坎值;
一第二两耳时间差门坎值计算模块,用以计算基于直方图和该第一两耳时间差门坎值的第二两耳时间差门坎值计算模块;以及
一声音信号过滤模块,用以过滤基于第一两耳时间差门坎值和该第二两耳时间差门坎值的声音信号。
25.一种语音增强方法,其特征在于,包含下列步骤:
利用一麦克风阵列接收多个音框的声音信号,该麦克风阵列包含多个麦克风;
计算各音框的声音信号于各频段对应该多个麦克风的至少一双麦克风组合的两耳时间差;
根据该计算结果统计各音框的声音信号的两耳时间差的直方图和累积直方图;
根据该些累积直方图计算一第一两耳时间差门坎值;
根据该些直方图和该第一两耳时间差门坎值计算一第二两耳时间差门坎值;
根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号,而得到至少一增强语音信号,其中该第二两耳时间差门坎值大于该第一两耳时间差门坎值;以及
加权该至少一增强语音信号而得到一加权后的增强语音信号。
26.一种语音增强系统,其特征在于,包含:
一麦克风阵列收音模块,该麦克风阵列收音模块包含多个麦克风;
一两耳时间差计算模块,用以计算各音框的声音信号于各频段对应该多个麦克风的至少一双麦克风组合的两耳时间差;
一累积直方图模块,用以计算各音框两耳时间差的直方图和累积直方图;
一第一两耳时间差门坎值计算模块,用以计算基于累积直方图的第一两耳时间差门坎值;
一第二两耳时间差门坎值计算模块,用以计算基于直方图和该第一两耳时间差门坎值的第二两耳时间差门坎值计算模块;
一声音信号过滤模块,用以过滤基于第一两耳时间差门坎值和该第二两耳时间差门坎值的声音信号而产生至少一增强语音信号;以及
一权重模块,预设至少一权重并加权该至少一增强语音信号而得到一加权后的增强语音信号。
CN201210008319.XA 2011-09-14 2012-01-09 语音增强方法 Active CN103000183B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW100132942 2011-09-14
TW100132942A TWI459381B (zh) 2011-09-14 2011-09-14 語音增強方法

Publications (2)

Publication Number Publication Date
CN103000183A true CN103000183A (zh) 2013-03-27
CN103000183B CN103000183B (zh) 2014-12-31

Family

ID=47830621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210008319.XA Active CN103000183B (zh) 2011-09-14 2012-01-09 语音增强方法

Country Status (3)

Country Link
US (1) US9026436B2 (zh)
CN (1) CN103000183B (zh)
TW (1) TWI459381B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709653A (zh) * 2021-08-25 2021-11-26 歌尔科技有限公司 定向定位听音方法、听力装置、程序产品及介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9685171B1 (en) * 2012-11-20 2017-06-20 Amazon Technologies, Inc. Multiple-stage adaptive filtering of audio signals
CN103268766B (zh) * 2013-05-17 2015-07-01 泰凌微电子(上海)有限公司 双麦克风语音增强方法及装置
US9706299B2 (en) * 2014-03-13 2017-07-11 GM Global Technology Operations LLC Processing of audio received at a plurality of microphones within a vehicle
CN106999710B (zh) * 2014-12-03 2020-03-20 Med-El电气医疗器械有限公司 基于测量的itd的ild的听力植入双侧匹配

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
CN1831554A (zh) * 2005-03-11 2006-09-13 株式会社东芝 声音信号处理设备和声音信号处理方法
CN101903948A (zh) * 2007-12-19 2010-12-01 高通股份有限公司 用于基于多麦克风的语音增强的系统、方法及设备
CN102142259A (zh) * 2010-01-28 2011-08-03 三星电子株式会社 用于自动地选择阈值以分离声音源的信号分离系统和方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US6937980B2 (en) 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
US7167568B2 (en) 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
US7103541B2 (en) 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
KR100480789B1 (ko) 2003-01-17 2005-04-06 삼성전자주식회사 피드백 구조를 이용한 적응적 빔 형성방법 및 장치
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP2005249816A (ja) 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
EP1581026B1 (en) 2004-03-17 2015-11-11 Nuance Communications, Inc. Method for detecting and reducing noise from a microphone array
US7426464B2 (en) 2004-07-15 2008-09-16 Bitwave Pte Ltd. Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition
US7783060B2 (en) 2005-05-10 2010-08-24 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Deconvolution methods and systems for the mapping of acoustic sources from phased microphone arrays
US7619563B2 (en) 2005-08-26 2009-11-17 Step Communications Corporation Beam former using phase difference enhancement
WO2007028250A2 (en) * 2005-09-09 2007-03-15 Mcmaster University Method and device for binaural signal enhancement
CN100535992C (zh) 2005-11-14 2009-09-02 北京大学科技开发部 小尺度麦克风阵列语音增强系统和方法
US8503692B2 (en) 2007-06-13 2013-08-06 Aliphcom Forming virtual microphone arrays using dual omnidirectional microphone array (DOMA)
TWI346323B (en) 2007-11-09 2011-08-01 Univ Nat Chiao Tung Voice enhancer for hands-free devices
TW200926150A (en) 2007-12-07 2009-06-16 Univ Nat Chiao Tung Intelligent voice purification system and its method thereof
CN101192411B (zh) 2007-12-27 2010-06-02 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
WO2009130609A1 (en) * 2008-04-22 2009-10-29 Med-El Elektromedizinische Geraete Gmbh Tonotopic implant stimulation
US9202455B2 (en) 2008-11-24 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
TWI412023B (zh) * 2010-12-14 2013-10-11 Univ Nat Chiao Tung 可消除噪音且增進語音品質之麥克風陣列架構及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
CN1831554A (zh) * 2005-03-11 2006-09-13 株式会社东芝 声音信号处理设备和声音信号处理方法
CN101903948A (zh) * 2007-12-19 2010-12-01 高通股份有限公司 用于基于多麦克风的语音增强的系统、方法及设备
CN102142259A (zh) * 2010-01-28 2011-08-03 三星电子株式会社 用于自动地选择阈值以分离声音源的信号分离系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAXIMO COBOS AND JOSE J. LOPEZ: "Two-microphone separation of speech mixtures based on interclass variance maximization", 《2010 ACOUSTICAL SOCIETY OF AMERICA》, 31 March 2010 (2010-03-31), pages 1661 - 1672 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709653A (zh) * 2021-08-25 2021-11-26 歌尔科技有限公司 定向定位听音方法、听力装置、程序产品及介质
CN113709653B (zh) * 2021-08-25 2022-10-18 歌尔科技有限公司 定向定位听音方法、听力装置及介质

Also Published As

Publication number Publication date
CN103000183B (zh) 2014-12-31
TW201312551A (zh) 2013-03-16
TWI459381B (zh) 2014-11-01
US20130066626A1 (en) 2013-03-14
US9026436B2 (en) 2015-05-05

Similar Documents

Publication Publication Date Title
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN108986838B (zh) 一种基于声源定位的自适应语音分离方法
CN106251877B (zh) 语音声源方向估计方法及装置
CN101505447B (zh) 估计助听器中的音频信号加权函数的方法
CN103000183B (zh) 语音增强方法
CN101430882B (zh) 一种抑制风噪声的方法及装置
CN101164105A (zh) 用于减小音频噪声的系统和方法
EP2608197A1 (en) Method, device, and system for noise reduction in multi-microphone array
CN103871421A (zh) 一种基于子带噪声分析的自适应降噪方法与系统
US8331582B2 (en) Method and apparatus for producing adaptive directional signals
EP4075431A1 (en) Noise reduction method, device, electronic apparatus and readable storage medium
US20130066628A1 (en) Apparatus and method for suppressing noise from voice signal by adaptively updating wiener filter coefficient by means of coherence
CN106970356A (zh) 一种复杂环境下声源定位跟踪方法
CN1953059A (zh) 一种噪声消除装置和方法
CN109285557B (zh) 一种定向拾音方法、装置及电子设备
WO2016078369A1 (zh) 移动终端通话语音降噪方法及装置、存储介质
CN102938254A (zh) 一种语音信号增强系统和方法
US9378754B1 (en) Adaptive spatial classifier for multi-microphone systems
CN105827800A (zh) 一种电子终端及语音信号处理方法
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN102469387A (zh) 抑制噪音系统与方法
CN109874096A (zh) 一种基于智能终端选择输出的双耳麦克风助听器降噪算法
US9495973B2 (en) Speech recognition apparatus and speech recognition method
GB2498009A (en) Synchronous noise removal for speech recognition systems
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant