CN107479030B - 基于分频和改进的广义互相关双耳时延估计方法 - Google Patents
基于分频和改进的广义互相关双耳时延估计方法 Download PDFInfo
- Publication number
- CN107479030B CN107479030B CN201710574614.4A CN201710574614A CN107479030B CN 107479030 B CN107479030 B CN 107479030B CN 201710574614 A CN201710574614 A CN 201710574614A CN 107479030 B CN107479030 B CN 107479030B
- Authority
- CN
- China
- Prior art keywords
- binaural
- signal
- correlation
- frequency
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 26
- 210000000721 basilar membrane Anatomy 0.000 claims abstract description 25
- 238000001914 filtration Methods 0.000 claims abstract description 21
- 238000005314 correlation function Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 17
- 210000003477 cochlea Anatomy 0.000 claims description 10
- 210000002469 basement membrane Anatomy 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 210000003128 head Anatomy 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000021615 conjugation Effects 0.000 claims description 3
- 210000004379 membrane Anatomy 0.000 claims description 3
- 239000012528 membrane Substances 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000012899 de-mixing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 59
- GVGLGOZIDCSQPN-PVHGPHFFSA-N Heroin Chemical compound O([C@H]1[C@H](C=C[C@H]23)OC(C)=O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4OC(C)=O GVGLGOZIDCSQPN-PVHGPHFFSA-N 0.000 description 11
- 230000004807 localization Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 210000005069 ears Anatomy 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明请求保护一种混响环境下基于分频和改进广义互相关双耳时延估计方法,涉及声源定位领域,它利用Gammatone滤波器能有效的模拟人耳基底膜特性,将语音信号分频处理,在混响环境下进行双耳互相关时延估计,相比于广义互相关时延估计方法,该方法具有更准确的时延估计,该声源定位系统在混响环境下具有更好的鲁棒性。使用Gammatone滤波器对双耳信号进行分频处理,对每个子带信号进行倒谱预滤波的去混响处理后反变换到时域,左右耳各子带信号进行广义互相关运算,广义互相关算法中采用改进的相位变换加权函数,得到的每个子带的互相关值进行求和运算,获得最大互相关值对应的双耳时间差。
Description
技术领域
本发明属于声源定位领域,特别是一种基于分频和改进的广义互相关双耳时延估计方法。
背景技术
随着人类社会的进步,人们对机器的人机交互性能要求越来越高。人机交互真正所需的是人与机器或计算机之间更好的耦合,全面直观地进行沟通和交流,而不是简单地更好地设计交互界面的表面特性。人与机器之间日益增长的沟通需要定位和跟踪声源,用于视频音频应用的自动相机跟踪,用于抑制噪声和混响的麦克风阵列波束成形,远程讲话语音识别和机器人音频系统是语音源定位的示例应用。
随着语音识别、声纹识别等技术的快速发展,基于语音的人机交互技术涉及到各个应用领域。以室内的智能服务机器人为例,智能有趣的家居生活情景的构建,都是通过机器人的智能自动化,给人们带来更加轻松方便的生活方式。在室内环境中工作的机器人应该意识到给定的命令,为此,他们需要认识到如来自电器的噪声辐射和来自其周围的无线电或电视的不明的声音事件。因此,能够使机器人捕获空间信息(即在其环境中发生声音事件的方向)的声源定位是相当基本和必要的技术,其必须在机器人采取动作之前被处理。在语音信号处理中,获取声源位置的信息具有重要作用。在封闭的家居室内环境中采集语音时,往往携带着周围环境的各种噪声、房间混响以及其它声源的干扰,这些干扰的存在使声音清晰度下降,声源定位的误差增大,阻止系统充分提取任何语音特征,妨碍人机语音交互技术的广泛使用。
在各种非常不利的声学环境下,人耳都能精确地进行声源定位。例如,“鸡尾酒会效应”中,两个客人可以在一群人的旁边正常的交流,听者还可以根据感兴趣的语音信号判断出目标声源的方向,当听者听到有人叫唤他名字时会将头面向说话者。由此可见,人耳可以从嘈杂的多声源环境中定位出目标声源的位置。这一事实表明可以通过模仿人耳听觉系统的机制,实现有效的人工双耳声源定位。双耳声源定位是实现人机交互的重要组成部分,因为它配备了两个麦克风作为人类听觉定位,能够准确快速地定位声源。声源定位的广适性使其应用于多个领域,在声学通信、人工智能和助听器等方面有着重要的研究意义和实用价值。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种在混响环境下提高声源定位的准确度的基于分频和改进的广义互相关双耳时延估计方法。本发明的技术方案如下:
一种基于分频和改进的广义互相关双耳时延估计方法,其包括以下步骤:
S1:获取包含混响的双耳语音信号,分别用两个麦克风放到人工头的左右耳上,两个麦克风采集到的信号卷积上头部脉冲响应即为双耳语音信号;
S2:对步骤S1得到的含混响的双耳语音信号,使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号;
S3:步骤S2得到的子带语音信号变换到倒谱域,进行倒谱预滤波去混响处理,获得去混响的左右耳各子带信号;
S4:步骤S3得到的去混响的左右耳各子带信号采用改进的广义互相关时延估计方法求取双耳时间差,所述改进广义互相关时延估计方法主要包括:在传统广义互相关法的基础上采用改进的相位加权(MPHAT);
S5:根据双耳时间差几何模型,采用步骤S4得到的双耳时间差获取目标声源的方位。
进一步的,所述步骤S1采用双麦克风模拟人耳听觉系统获取包含混响的双耳语音信号。
进一步的,所述双麦克风模拟人耳听觉系统是根据耳蜗基底膜的分频特性,语音信号各个频率分量在基底膜相对应的位置上出现共振峰实现模拟人儿听觉系统的,耳蜗通常被认为是一组并行的带通滤波器,每个滤波器用来模拟沿着耳蜗基底膜某一特定典型点的频率响应,即沿着膜的每个位置具有特征频率,当该频率的纯音作为输入时,该位置出现峰值;对于复合音信号,则不同频率分量在基底膜映射的相应位置出现峰值,这样就把多频信号分解为了多个单频分量,因此,信号在基底膜各个位置上的响应过程相当于一次滤波;高频的信号输入引起更接近基底膜底部的最大位移,而低频信号输入会导致基底膜顶点处的最大位移,在基底膜顶端附近的频率分辨率高于在底端附近的频率分辨率,对于等效的滤波器组,意味着低频处紧密地分布着较窄的带宽,高频处分布着间隔更远的较宽的带宽。
进一步的,所述Gammatone滤波器组的脉冲响应时域表达式为:
其中,θ和A分别为Gammatone滤波器的初始相位和增益,f0为滤波器
中心频率,对应基底膜上的特征频率,u(t)为阶跃函数,当t<0时,u(t)=0,
当t>0时,u(t)=1,b和n是定义包络的参数,用来调整伽马函数的分布,
n为滤波器的阶数,并确定边沿的斜率。
进一步的,所述滤波器的阶数n=4,b定义为脉冲响应的持续时间,也就是带宽,即b=1.019ERB(f0),ERB(f0)表示中心频率为f0的Gammatone滤波器等效矩形带宽,可表示为:
ERB(f0)=2.47+0.108f0
从公式中可看出,Gammatone滤波器带宽与中心频率成正比。
进一步的,所述步骤S3进行倒谱滤波去混响处理包括步骤:
S41:分别在左子带信号xl(n)和右子带信号xr(n)的每一帧上加上指数窗ω(n)=αn,0≤n≤K-1,其中K是窗长,0<α≤1;
S42:对步骤S41加上指数窗后的左右子带信号分别进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小相位分量;
一个全通分量级联组成。
进一步的,所述广义互相关方法的具体步骤为:
S51:经过上述步骤滤波处理后的双耳信号表示为x1(n)和x2(n),x1(n)表示经过上述步骤处理过后的去混左子带信号,x2(n)表示表示经过上述步骤处理过后的去混右子带信号,得到的互功率函数表示:
S52:将步骤S51中公式代入互相关函数可以得到信号x1(n)和x2(n)的广义互相关函数:
S53:在实际应用中,对互相关函数进行估计,则步骤S52中公式可表示为:
若加权函数ψ(f)=1,即基本的互相关算法,若ψ(f)≠1,则称为广义互相关算法。
进一步的,所述的加权函数包括Roth加权函数、平滑相干变换加权函数SCOT和相位变化加权函数PHAT。
S54:如S53所述的加权函数,其中经常用到的加权函数有Roth加权函数、SCOT加权函数和PHAT加权函数等。
1.Roth加权函数
Roth加权函数为:
则经过Roth加权的GCC函数表示为:
其中和分别为有限时间段中x1(n)和x2(n)的互功率谱和互相关函数。Roth加权函数相当于维纳滤波函数,在理想环境下能得到准确的时延估计,在实际情况下可以抑制噪声大的频带,但会展宽互相关函数的峰,给时延最优值的估计带来干扰,导致声源定位的误差。
2.平滑相干变换(SCOT)
SCOT加权函数为:
则经过SCOT加权的GCC函数表示为:
3.相位变化加权函数(PHAT)
PHAT方法的加权函数表示为:
则经过PHAT加权的GCC函数表示为:
在理想环境下可表示为:
GCC函数可简化为:
PHAT加权函数在信号能量较大的时候具有很好的效果,可以不依赖源信号,所以PHAT方法一般要优于Roth和SCOT加权方法,适用于有混响和较低噪声的环境下。当加权函数则不是一个δ函数,造成时延估计的困难。此外,PHAT加权函数是的倒数的,在信号能量较小的情况下,分母趋向于零,对时延估计造成较大的误差,影响声源定位的准确度。
4.改进的相位变化加权函数(MPHAT)
为了弥补PHAT加权方法的不足之处,对PHAT方法进行改进,改进的相位变化加权函数(MPHAT)表示为:
其中,ν(f)定义为:
R是阈值,其取值范围为:0≤R≤1;γ是噪声频率分量的最低值,其取值范围为:0≤γ<1。
ν'(f)为双耳接收到信号的归一化量,其表达式为:
α和β是根据环境决定的谱减法参数,N(f)为噪声功率谱。
本发明的优点及有益效果如下:
本发明针对混响对语音不同频率分量的影响各不相同,对声源信号各频率分量作同样的处理会产生定位误差的问题,提出了一种基于分频和改进的广义互相关双耳时延估计方法,并详细阐述了整个模型的构建过程。在步骤S2中利用Gammatone滤波器组的分频特性,将混响语音划分为各个频率成分,在步骤S3中把不同的频带信号中进行独立的倒谱预滤波去混响处理,再对信号进行互相关分析。基于分频和改进的广义互相关双耳时延估计方法方法将信号分为多个单一频率的信号,分别进行独立去混响处理,具有更好的定位准确度和良好的抗混响性能。在步骤S4中进行改进相位加权的广义互相关算法,改进的广义互相关算法能够减小噪声对时延估计的影响,使其定位性能更高。
附图说明
图1是本发明提供优选实施例的基于分频和改进的广义互相关双耳时延估计流程图;
图2为Gammatone滤波器组多频率分解图;
图3为倒谱预滤波去混响框图;
图4为广义互相关时延估计原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
针对混响对语音不同频率分量的影响各不相同,对声源信号各频率分量作同样的处理会产生定位误差的问题,提出了一种基于分频和改进的广义互相关双耳时延估计算法。为了避免对语音的各个频率成分都做同样的处理,利用Gammatone滤波器组的分频特性,将混响语音划分为各个频率成分,在不同的频带信号中进行独立的倒谱预滤波去混响处理,再对信号进行互相关分析,获得时延估计。
混响环境下基于分频和改进的广义互相关双耳时延估计方法,其具体步骤如下:
S1:双麦克风模拟人耳听觉系统获取语音信号;
S2:步骤S1得到的含混响的语音信号,使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号;
S3:步骤S2得到的子带语音信号变换到倒谱域,进行倒谱预滤波去混响处理,获得去混响的左右耳各子带信号;
S4:步骤S3得到的去混响的左右耳各子带信号采用基于分频和改进的广义互相关双耳时延估计方法进行双耳时间差估计;
S5:根据双耳时间差几何模型,采用步骤S4得到的双耳时间差获取目标声源的方位;
优选的,根据耳蜗基底膜的分频特性,语音信号各个频率分量在基底膜相对应的位置上出现共振峰:
S21:耳蜗通常被认为是一组并行的带通滤波器,每个滤波器用来模拟沿着耳蜗基底膜某一特定典型点的频率响应。也就是说,沿着膜的每个位置具有特征频率,当该频率的纯音作为输入时,该位置出现峰值;对于复合音信号,则不同频率分量在基底膜映射的相应位置出现峰值,这样就把多频信号分解为了多个单频分量。因此,信号在基底膜各个位置上的响应过程相当于一次滤波。
S22:高频的信号输入引起更接近基底膜底部的最大位移,而低频信号输入会导致基底膜顶点处的最大位移,在基底膜顶端附近的频率分辨率高于在底端附近的频率分辨率,对于等效的滤波器组,意味着低频处紧密地分布着较窄的带宽,高频处分布着间隔更远的较宽的带宽。
优选的,所述的耳蜗基底膜的分频特性,Gammatone听觉滤波器组可以提供耳朵中的基底膜运动的相当精确的感知模型,能将信号分解为各个频率分量的子带信号,并且还可以更好地表征人类听觉系统。
S31:Gammatone滤波器的原理和特性
Gammatone滤波器是由脉冲响应描述的线性滤波器,脉冲响应是伽马分布和正弦曲线的乘积。它是听觉系统中广泛使用的听觉滤波器模型,Gammatone滤波器组的脉冲响应时域表达式为:
其中,θ和A分别为Gammatone滤波器的初始相位和增益。f0为滤波器中心频率,对应基底膜上的特征频率。u(t)为阶跃函数,当t<0时,u(t)=0,当t>0时,u(t)=1。b和n是定义包络的参数,用来调整伽马函数的分布。n为滤波器的阶数,并确定边沿的斜率,当n=4时,该滤波器能给出人类听觉滤波器的良好近似,故本文选取n=4。b定义为脉冲响应的持续时间,也就是带宽,即b=1.019ERB(f0),ERB(f0)表示中心频率为f0的Gammatone滤波器等效矩形带宽,可表示为:
ERB(f0)=2.47+0.108f0
从公式中可看出,Gammatone滤波器带宽与中心频率成正比。
S32:GT带通滤波器的实现:
其中T为采样频率。
优选的,所述的子带信号,将其进行倒谱滤波去混响处理,步骤为:
S41:在各左右子带信号xl(n)和xr(n)的每一帧上加上指数窗ω(n)=αn,0≤n≤K-1,其中K是窗长,0<α≤1;
S42:对各信号进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小相位分量;
其中,0<μ<1,m表示帧数。
优选的,如步骤S45获得的去混子带信号,左右各子带信号进行广义互相关计算,最大互相关值处为时延估计值。广义互相关方法的具体步骤:
S51:将信号x1(n)和x2(n)进行滤波处理,得到的互功率函数表示:
S52:将步骤S51中公式代入互相关函数可以得到信号x1(n)和x2(n)的广义互相关函数:
S53:在实际应用中,观测时间时有限的,所以只能对互相关函数进行估计,则步骤S52中公式可表示为:
然而,随着加权函数的不一致,最终得到的广义互相关函数的差别。若加权函数ψ(f)=1,就是之前讲述的基本的互相关算法。若ψ(f)≠1,则称为广义互相关算法。因为不同的背景噪声以及混响的不同,加权函数的选取也不同,所以要按照声音信号和背景噪声的先验知识进行选取。使得广义互相关函数的峰值得到锐化。但是该加权函数在实际应用中的选取比较困难,所以该值的选取的合适与否是声源定位是否准确的关键。
S54:如S53所述的加权函数,其中经常用到的加权函数有Roth加权函数、SCOT加权函数和PHAT加权函数等。
1.Roth加权函数
Roth加权函数为:
则经过Roth加权的GCC函数表示为:
其中和分别为有限时间段中x1(n)和x2(n)的互功率谱和互相关函数。Roth加权函数相当于维纳滤波函数,在理想环境下能得到准确的时延估计,在实际情况下可以抑制噪声大的频带,但会展宽互相关函数的峰,给时延最优值的估计带来干扰,导致声源定位的误差。
2.平滑相干变换(SCOT)
SCOT加权函数为:
则经过SCOT加权的GCC函数表示为:
3.相位变化加权函数(PHAT)
PHAT方法的加权函数表示为:
则经过PHAT加权的GCC函数表示为:
在理想环境下可表示为:
GCC函数可简化为:
PHAT加权函数在信号能量较大的时候具有很好的效果,可以不依赖源信号,所以PHAT方法一般要优于Roth和SCOT加权方法,适用于有混响和较低噪声的环境下。当加权函数则不是一个δ函数,造成时延估计的困难。此外,PHAT加权函数是的倒数的,在信号能量较小的情况下,分母趋向于零,对时延估计造成较大的误差,影响声源定位的准确度。
4.改进的相位变化加权函数(MPHAT)
为了弥补PHAT加权方法的不足之处,对PHAT方法进行改进,改进的相位变化加权函数(MPHAT)表示为:
其中,ν(f)定义为:
R是阈值,其取值范围为:0≤R≤1;γ是噪声频率分量的最低值,其取值范围为:0≤γ<1。
ν'(f)为双耳接收到信号的归一化量,其表达式为:
α和β是根据环境决定的谱减法参数,N(f)为噪声功率谱。
如图1所示,为本发明提出的基于分频和改进的广义互相关双耳时延估计原理框图,该方法使用Gammatone滤波器对双耳信号进行分频处理,对每个子带信号进行倒谱预滤波的去混响处理后反变换到时域,左右耳各子带信号进行互相关运算,得到的每个子带的互相关值进行求和运算,获得最大互相关值对应的双耳时间差。
如图2所示,为本发明中Gammatone滤波器组多频率分解图。人耳耳蜗基底膜是听觉中枢实现语音分离的重要环节:语音信号由于频率的不同,基底膜不同位置产生不同的振动,从而起到分解语音信号的作用。因此本文选择具有人耳听觉特性的Gammatone滤波器组对语音信号进行频率分解。频率的选择范围从20Hz-4KHz分别对左、右耳混叠信号按时间帧进行频率分解。耳蜗基底膜模型将语音信号分成多个(滤波器个数)通道传递,从而便于语音信号在系统模型中的分离。
如图3所示,为本发明中的倒谱预滤波去混响算法。倒谱预滤波时延估计算法首先对信号分帧加窗,在每一帧信号中加入指数窗,使其变为最小相位信号;然后将信号进行倒谱计算,并将信号进行最小相位分解,获得估计的混响分量;再从信号中滤除估计的混响分量,最后将信号从倒谱域变换到时域后得到去混的信号。
如图4所示,为本发明中改进的广义互相关(GCC-MPHAT)时延估计算法,先将双耳信号进行滤波,再进行加权互相关计算,选取改进的相位加权函数能减少噪声和混响等干扰对时延估计的影响。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (6)
1.一种基于分频和改进的广义互相关双耳时延估计方法,其特征在于,包括以下步骤:
S1:获取包含混响的双耳语音信号,分别用两个麦克风放到人工头的左右耳上,两个麦克风采集到的信号卷积上头部脉冲响应即为双耳语音信号;
S2:对步骤S1得到的含混响的双耳语音信号,使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号;
S3:步骤S2得到的子带语音信号变换到倒谱域,进行倒谱预滤波去混响处理,获得去混响的左右耳各子带信号;
S4:步骤S3得到的去混响的左右耳各子带信号采用改进的广义互相关时延估计方法求取双耳时间差,所述改进广义互相关时延估计方法包括:在传统广义互相关法的基础上采用改进的相位加权MPHAT;
S5:根据双耳时间差几何模型,采用步骤S4得到的双耳时间差获取目标声源的方位;
所述广义互相关方法的具体步骤为:
S51:经过上述步骤滤波处理后的双耳信号表示为x1(n)和x2(n),x1(n)表示经过上述步骤处理过后的去混左子带信号,x2(n)表示表示经过上述步骤处理过后的去混右子带信号,得到的互功率函数表示:
S52:将步骤S51中公式代入互相关函数可以得到信号x1(n)和x2(n)的广义互相关函数:
S53:在实际应用中,对互相关函数进行估计,则步骤S52中公式可表示为:
若加权函数ψ(f)=1,即基本的互相关算法,若ψ(f)≠1,则称为广义互相关;
改进的相位变化加权函数MPHAT表示为:
其中,ν(f)定义为:
R是阈值,其取值范围为:0≤R≤1;γ是噪声频率分量的最低值,其取值范围为:0≤γ<1;
ν'(f)为双耳接收到信号的归一化量,其表达式为:
2.根据权利要求1所述的基于分频和改进的广义互相关双耳时延估计方法,其特征在于,所述步骤S1采用双麦克风模拟人耳听觉系统获取包含混响的双耳语音信号。
3.根据权利要求2所述的基于分频和改进的广义互相关双耳时延估计方法,其特征在于,所述双麦克风模拟人耳听觉系统是根据耳蜗基底膜的分频特性,语音信号各个频率分量在基底膜相对应的位置上出现共振峰实现模拟人儿听觉系统的,耳蜗通常被认为是一组并行的带通滤波器,每个滤波器用来模拟沿着耳蜗基底膜某一特定典型点的频率响应,即沿着膜的每个位置具有特征频率,当该频率的纯音作为输入时,该位置出现峰值;对于复合音信号,则不同频率分量在基底膜映射的相应位置出现峰值,这样就把多频信号分解为了多个单频分量,因此,信号在基底膜各个位置上的响应过程相当于一次滤波;高频的信号输入引起更接近基底膜底部的最大位移,而低频信号输入会导致基底膜顶点处的最大位移,在基底膜顶端附近的频率分辨率高于在底端附近的频率分辨率,对于等效的滤波器组,意味着低频处紧密地分布着较窄的带宽,高频处分布着间隔更远的较宽的带宽。
5.根据权利要求4所述的基于分频和改进的广义互相关双耳时延估计方法,其特征在于,所述滤波器的阶数n=4,b定义为脉冲响应的持续时间,也就是带宽,即b=1.019ERB(f0),ERB(f0)表示中心频率为f0的Gammatone滤波器等效矩形带宽,可表示为:
ERB(f0)=2.47+0.108f0
从公式中可看出,Gammatone滤波器带宽与中心频率成正比。
6.根据权利要求4所述的基于分频和改进的广义互相关双耳时延估计方法,
其特征在于,所述步骤S3进行倒谱滤波去混响处理包括步骤:
S41:分别在左子带信号xl(n)和右子带信号xr(n)的每一帧上加上指数窗ω(n)=αn,0≤n≤K-1,其中K是窗长,0<α≤1;
S42:对步骤S41加上指数窗后的左右子带信号分别进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小相位分量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710574614.4A CN107479030B (zh) | 2017-07-14 | 2017-07-14 | 基于分频和改进的广义互相关双耳时延估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710574614.4A CN107479030B (zh) | 2017-07-14 | 2017-07-14 | 基于分频和改进的广义互相关双耳时延估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107479030A CN107479030A (zh) | 2017-12-15 |
CN107479030B true CN107479030B (zh) | 2020-11-17 |
Family
ID=60595637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710574614.4A Active CN107479030B (zh) | 2017-07-14 | 2017-07-14 | 基于分频和改进的广义互相关双耳时延估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107479030B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091345B (zh) * | 2017-12-27 | 2020-11-20 | 东南大学 | 一种基于支持向量机的双耳语音分离方法 |
CN108415005A (zh) * | 2018-02-06 | 2018-08-17 | 中国人民解放军战略支援部队信息工程大学 | 一种无源定位时延估计方法及装置 |
CN108364642A (zh) * | 2018-02-22 | 2018-08-03 | 成都启英泰伦科技有限公司 | 一种声源锁定方法 |
CN108647556A (zh) * | 2018-03-02 | 2018-10-12 | 重庆邮电大学 | 基于分频和深度神经网络的声源定位方法 |
CN109275084B (zh) * | 2018-09-12 | 2021-01-01 | 北京小米智能科技有限公司 | 麦克风阵列的测试方法、装置、系统、设备和存储介质 |
EP3629602A1 (en) * | 2018-09-27 | 2020-04-01 | Oticon A/s | A hearing device and a hearing system comprising a multitude of adaptive two channel beamformers |
CN109410976B (zh) * | 2018-11-01 | 2022-12-16 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN109901114B (zh) * | 2019-03-28 | 2020-10-27 | 广州大学 | 一种适用于声源定位的时延估计方法 |
CN110740416B (zh) * | 2019-09-27 | 2021-04-06 | 广州励丰文化科技股份有限公司 | 一种音频信号处理方法及装置 |
CN111025233B (zh) * | 2019-11-13 | 2023-09-15 | 阿里巴巴集团控股有限公司 | 一种声源方向定位方法和装置、语音设备和系统 |
CN110954866B (zh) * | 2019-11-22 | 2022-04-22 | 达闼机器人有限公司 | 声源定位方法、电子设备及存储介质 |
CN113948098A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 一种立体声音频信号时延估计方法及装置 |
CN113138363A (zh) * | 2021-04-22 | 2021-07-20 | 苏州臻迪智能科技有限公司 | 一种声源定位方法、装置、存储介质和电子设备 |
CN113466793B (zh) * | 2021-06-11 | 2023-10-17 | 五邑大学 | 一种基于麦克风阵列的声源定位方法、装置及存储介质 |
CN113655354A (zh) * | 2021-09-23 | 2021-11-16 | 河北工业大学 | 直流电弧故障定位方法及定位系统 |
CN114035157B (zh) * | 2021-10-29 | 2022-06-14 | 中国科学院声学研究所 | 一种基于期望最大化算法的分频带时延估计方法及其系统 |
CN114283857B (zh) * | 2021-12-16 | 2024-05-28 | 上海艾为电子技术股份有限公司 | 分频信号的延时补偿、分频方法、系统和分频器 |
CN114822584A (zh) * | 2022-04-25 | 2022-07-29 | 东北大学 | 一种基于积分改进广义互相关的传动装置信号分离方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1212609C (zh) * | 2003-11-12 | 2005-07-27 | 中国科学院声学研究所 | 基于人耳听觉特性的语音信号时间延迟估计方法 |
CN105575387A (zh) * | 2015-12-25 | 2016-05-11 | 重庆邮电大学 | 基于听觉仿生中耳蜗基底膜的声源定位方法 |
-
2017
- 2017-07-14 CN CN201710574614.4A patent/CN107479030B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107479030A (zh) | 2017-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107479030B (zh) | 基于分频和改进的广义互相关双耳时延估计方法 | |
CN105165026B (zh) | 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法 | |
CA2805491C (en) | Method of signal processing in a hearing aid system and a hearing aid system | |
US20100217590A1 (en) | Speaker localization system and method | |
WO2019133765A1 (en) | Direction of arrival estimation for multiple audio content streams | |
EP2630807A1 (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
WO2007028250A2 (en) | Method and device for binaural signal enhancement | |
Aroudi et al. | Cognitive-driven binaural LCMV beamformer using EEG-based auditory attention decoding | |
CN111078185A (zh) | 录制声音的方法及设备 | |
CN108986832A (zh) | 基于语音出现概率和一致性的双耳语音去混响方法和装置 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
TW200835374A (en) | System and method for utilizing omni-directional microphones for speech enhancement | |
CN112820312B (zh) | 一种语音分离方法、装置及电子设备 | |
CN113409804A (zh) | 一种基于变张成广义子空间的多通道频域语音增强算法 | |
Aroudi et al. | Cognitive-driven convolutional beamforming using EEG-based auditory attention decoding | |
Gode et al. | Adaptive dereverberation, noise and interferer reduction using sparse weighted linearly constrained minimum power beamforming | |
Reindl et al. | An acoustic front-end for interactive TV incorporating multichannel acoustic echo cancellation and blind signal extraction | |
Brutti et al. | A Phase-Based Time-Frequency Masking for Multi-Channel Speech Enhancement in Domestic Environments. | |
Chang et al. | Robust distributed noise suppression in acoustic sensor networks | |
Zhao et al. | Frequency-domain beamformers using conjugate gradient techniques for speech enhancement | |
Delikaris-Manias et al. | Cross spectral density based spatial filter employing maximum directivity beam patterns | |
Ganguly | Noise-robust speech source localization and tracking using microphone arrays for smartphone-assisted hearing aid devices | |
Mendoza et al. | An Adaptive Algorithm for Speaker Localization in Real Environments using Smartphones | |
Azarpour et al. | Distortionless-response vs. matched-filter-array processing for adaptive binaural noise reduction | |
Mosayyebpour et al. | Time delay estimation via minimum-phase and all-pass component processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |