CN107479030B - 基于分频和改进的广义互相关双耳时延估计方法 - Google Patents

基于分频和改进的广义互相关双耳时延估计方法 Download PDF

Info

Publication number
CN107479030B
CN107479030B CN201710574614.4A CN201710574614A CN107479030B CN 107479030 B CN107479030 B CN 107479030B CN 201710574614 A CN201710574614 A CN 201710574614A CN 107479030 B CN107479030 B CN 107479030B
Authority
CN
China
Prior art keywords
binaural
signal
correlation
frequency
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710574614.4A
Other languages
English (en)
Other versions
CN107479030A (zh
Inventor
胡章芳
乐聪聪
罗元
张毅
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710574614.4A priority Critical patent/CN107479030B/zh
Publication of CN107479030A publication Critical patent/CN107479030A/zh
Application granted granted Critical
Publication of CN107479030B publication Critical patent/CN107479030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明请求保护一种混响环境下基于分频和改进广义互相关双耳时延估计方法,涉及声源定位领域,它利用Gammatone滤波器能有效的模拟人耳基底膜特性,将语音信号分频处理,在混响环境下进行双耳互相关时延估计,相比于广义互相关时延估计方法,该方法具有更准确的时延估计,该声源定位系统在混响环境下具有更好的鲁棒性。使用Gammatone滤波器对双耳信号进行分频处理,对每个子带信号进行倒谱预滤波的去混响处理后反变换到时域,左右耳各子带信号进行广义互相关运算,广义互相关算法中采用改进的相位变换加权函数,得到的每个子带的互相关值进行求和运算,获得最大互相关值对应的双耳时间差。

Description

基于分频和改进的广义互相关双耳时延估计方法
技术领域
本发明属于声源定位领域,特别是一种基于分频和改进的广义互相关双耳时延估计方法。
背景技术
随着人类社会的进步,人们对机器的人机交互性能要求越来越高。人机交互真正所需的是人与机器或计算机之间更好的耦合,全面直观地进行沟通和交流,而不是简单地更好地设计交互界面的表面特性。人与机器之间日益增长的沟通需要定位和跟踪声源,用于视频音频应用的自动相机跟踪,用于抑制噪声和混响的麦克风阵列波束成形,远程讲话语音识别和机器人音频系统是语音源定位的示例应用。
随着语音识别、声纹识别等技术的快速发展,基于语音的人机交互技术涉及到各个应用领域。以室内的智能服务机器人为例,智能有趣的家居生活情景的构建,都是通过机器人的智能自动化,给人们带来更加轻松方便的生活方式。在室内环境中工作的机器人应该意识到给定的命令,为此,他们需要认识到如来自电器的噪声辐射和来自其周围的无线电或电视的不明的声音事件。因此,能够使机器人捕获空间信息(即在其环境中发生声音事件的方向)的声源定位是相当基本和必要的技术,其必须在机器人采取动作之前被处理。在语音信号处理中,获取声源位置的信息具有重要作用。在封闭的家居室内环境中采集语音时,往往携带着周围环境的各种噪声、房间混响以及其它声源的干扰,这些干扰的存在使声音清晰度下降,声源定位的误差增大,阻止系统充分提取任何语音特征,妨碍人机语音交互技术的广泛使用。
在各种非常不利的声学环境下,人耳都能精确地进行声源定位。例如,“鸡尾酒会效应”中,两个客人可以在一群人的旁边正常的交流,听者还可以根据感兴趣的语音信号判断出目标声源的方向,当听者听到有人叫唤他名字时会将头面向说话者。由此可见,人耳可以从嘈杂的多声源环境中定位出目标声源的位置。这一事实表明可以通过模仿人耳听觉系统的机制,实现有效的人工双耳声源定位。双耳声源定位是实现人机交互的重要组成部分,因为它配备了两个麦克风作为人类听觉定位,能够准确快速地定位声源。声源定位的广适性使其应用于多个领域,在声学通信、人工智能和助听器等方面有着重要的研究意义和实用价值。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种在混响环境下提高声源定位的准确度的基于分频和改进的广义互相关双耳时延估计方法。本发明的技术方案如下:
一种基于分频和改进的广义互相关双耳时延估计方法,其包括以下步骤:
S1:获取包含混响的双耳语音信号,分别用两个麦克风放到人工头的左右耳上,两个麦克风采集到的信号卷积上头部脉冲响应即为双耳语音信号;
S2:对步骤S1得到的含混响的双耳语音信号,使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号;
S3:步骤S2得到的子带语音信号变换到倒谱域,进行倒谱预滤波去混响处理,获得去混响的左右耳各子带信号;
S4:步骤S3得到的去混响的左右耳各子带信号采用改进的广义互相关时延估计方法求取双耳时间差,所述改进广义互相关时延估计方法主要包括:在传统广义互相关法的基础上采用改进的相位加权(MPHAT);
S5:根据双耳时间差几何模型,采用步骤S4得到的双耳时间差获取目标声源的方位。
进一步的,所述步骤S1采用双麦克风模拟人耳听觉系统获取包含混响的双耳语音信号。
进一步的,所述双麦克风模拟人耳听觉系统是根据耳蜗基底膜的分频特性,语音信号各个频率分量在基底膜相对应的位置上出现共振峰实现模拟人儿听觉系统的,耳蜗通常被认为是一组并行的带通滤波器,每个滤波器用来模拟沿着耳蜗基底膜某一特定典型点的频率响应,即沿着膜的每个位置具有特征频率,当该频率的纯音作为输入时,该位置出现峰值;对于复合音信号,则不同频率分量在基底膜映射的相应位置出现峰值,这样就把多频信号分解为了多个单频分量,因此,信号在基底膜各个位置上的响应过程相当于一次滤波;高频的信号输入引起更接近基底膜底部的最大位移,而低频信号输入会导致基底膜顶点处的最大位移,在基底膜顶端附近的频率分辨率高于在底端附近的频率分辨率,对于等效的滤波器组,意味着低频处紧密地分布着较窄的带宽,高频处分布着间隔更远的较宽的带宽。
进一步的,所述Gammatone滤波器组的脉冲响应时域表达式为:
Figure BDA0001350599660000031
其中,θ和A分别为Gammatone滤波器的初始相位和增益,f0为滤波器
中心频率,对应基底膜上的特征频率,u(t)为阶跃函数,当t<0时,u(t)=0,
当t>0时,u(t)=1,b和n是定义包络的参数,用来调整伽马函数的分布,
n为滤波器的阶数,并确定边沿的斜率。
进一步的,所述滤波器的阶数n=4,b定义为脉冲响应的持续时间,也就是带宽,即b=1.019ERB(f0),ERB(f0)表示中心频率为f0的Gammatone滤波器等效矩形带宽,可表示为:
ERB(f0)=2.47+0.108f0
从公式中可看出,Gammatone滤波器带宽与中心频率成正比。
进一步的,所述步骤S3进行倒谱滤波去混响处理包括步骤:
S41:分别在左子带信号xl(n)和右子带信号xr(n)的每一帧上加上指数窗ω(n)=αn,0≤n≤K-1,其中K是窗长,0<α≤1;
S42:对步骤S41加上指数窗后的左右子带信号分别进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小相位分量;
Figure BDA00013505996600000419
表示脉冲信号的最小相位分量,k表示倒谱域变量,
Figure BDA0001350599660000043
表示脉冲响应,在倒谱域中,
Figure BDA0001350599660000044
可由一个最小相位分量和
一个全通分量级联组成。
S43:通过连续信号帧递归获得估计的混响分量,即
Figure BDA0001350599660000045
Figure BDA0001350599660000046
其中,0<μ<1,m表示帧数;
Figure BDA0001350599660000047
表示倒谱域接收信号的最小相位分量。
S44:子带信号
Figure BDA0001350599660000048
减去混响部分
Figure BDA0001350599660000049
得到去混后的倒谱子带信号:
Figure BDA00013505996600000410
S45:再将
Figure BDA00013505996600000411
反变换到时域,并且使用逆指数窗,得到去混子带信号。
进一步的,所述广义互相关方法的具体步骤为:
S51:经过上述步骤滤波处理后的双耳信号表示为x1(n)和x2(n),x1(n)表示经过上述步骤处理过后的去混左子带信号,x2(n)表示表示经过上述步骤处理过后的去混右子带信号,得到的互功率函数表示:
Figure BDA00013505996600000412
Figure BDA00013505996600000413
式中,
Figure BDA00013505996600000414
表示滤波器H2(f)的复共轭;
Figure BDA00013505996600000415
表示双耳信号未经过滤波处理时的互功率谱函数,
Figure BDA00013505996600000416
表示经过滤波处理后的双耳信号x1(n)和x2(n)的互功率谱函数。
S52:将步骤S51中公式代入互相关函数可以得到信号x1(n)和x2(n)的广义互相关函数:
Figure BDA00013505996600000417
其中,ψ(f)为加权函数,
Figure BDA00013505996600000418
S53:在实际应用中,对互相关函数进行估计,则步骤S52中公式可表示为:
Figure BDA0001350599660000051
若加权函数ψ(f)=1,即基本的互相关算法,若ψ(f)≠1,则称为广义互相关算法。
进一步的,所述的加权函数包括Roth加权函数、平滑相干变换加权函数SCOT和相位变化加权函数PHAT。
S54:如S53所述的加权函数,其中经常用到的加权函数有Roth加权函数、SCOT加权函数和PHAT加权函数等。
1.Roth加权函数
Roth加权函数为:
Figure BDA0001350599660000052
则经过Roth加权的GCC函数表示为:
Figure BDA0001350599660000053
Figure BDA0001350599660000054
其中
Figure BDA0001350599660000055
Figure BDA0001350599660000056
分别为有限时间段中x1(n)和x2(n)的互功率谱和互相关函数。Roth加权函数相当于维纳滤波函数,在理想环境下能得到准确的时延估计,在实际情况下可以抑制噪声大的频带,但会展宽互相关函数的峰,给时延最优值的估计带来干扰,导致声源定位的误差。
2.平滑相干变换(SCOT)
SCOT加权函数为:
Figure BDA0001350599660000057
则经过SCOT加权的GCC函数表示为:
Figure BDA0001350599660000061
相比Roth加权函数,SCOT同时考虑两个通道,当
Figure BDA0001350599660000062
时,相当于Roth加权函数,所以会展宽互相关函数的峰。
3.相位变化加权函数(PHAT)
PHAT方法的加权函数表示为:
Figure BDA0001350599660000063
则经过PHAT加权的GCC函数表示为:
Figure BDA0001350599660000064
在理想环境下可表示为:
Figure BDA0001350599660000065
GCC函数可简化为:
Figure BDA0001350599660000066
PHAT加权函数在信号能量较大的时候具有很好的效果,
Figure BDA0001350599660000067
可以不依赖源信号,所以PHAT方法一般要优于Roth和SCOT加权方法,适用于有混响和较低噪声的环境下。当
Figure BDA0001350599660000068
加权函数则不是一个δ函数,造成时延估计的困难。此外,PHAT加权函数是
Figure BDA0001350599660000069
的倒数的,在信号能量较小的情况下,分母趋向于零,对时延估计造成较大的误差,影响声源定位的准确度。
4.改进的相位变化加权函数(MPHAT)
为了弥补PHAT加权方法的不足之处,对PHAT方法进行改进,改进的相位变化加权函数(MPHAT)表示为:
Figure BDA00013505996600000610
其中,ν(f)定义为:
Figure BDA0001350599660000071
R是阈值,其取值范围为:0≤R≤1;γ是噪声频率分量的最低值,其取值范围为:0≤γ<1。
ν'(f)为双耳接收到信号的归一化量,其表达式为:
Figure BDA0001350599660000072
α和β是根据环境决定的谱减法参数,N(f)为噪声功率谱。
本发明的优点及有益效果如下:
本发明针对混响对语音不同频率分量的影响各不相同,对声源信号各频率分量作同样的处理会产生定位误差的问题,提出了一种基于分频和改进的广义互相关双耳时延估计方法,并详细阐述了整个模型的构建过程。在步骤S2中利用Gammatone滤波器组的分频特性,将混响语音划分为各个频率成分,在步骤S3中把不同的频带信号中进行独立的倒谱预滤波去混响处理,再对信号进行互相关分析。基于分频和改进的广义互相关双耳时延估计方法方法将信号分为多个单一频率的信号,分别进行独立去混响处理,具有更好的定位准确度和良好的抗混响性能。在步骤S4中进行改进相位加权的广义互相关算法,改进的广义互相关算法能够减小噪声对时延估计的影响,使其定位性能更高。
附图说明
图1是本发明提供优选实施例的基于分频和改进的广义互相关双耳时延估计流程图;
图2为Gammatone滤波器组多频率分解图;
图3为倒谱预滤波去混响框图;
图4为广义互相关时延估计原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
针对混响对语音不同频率分量的影响各不相同,对声源信号各频率分量作同样的处理会产生定位误差的问题,提出了一种基于分频和改进的广义互相关双耳时延估计算法。为了避免对语音的各个频率成分都做同样的处理,利用Gammatone滤波器组的分频特性,将混响语音划分为各个频率成分,在不同的频带信号中进行独立的倒谱预滤波去混响处理,再对信号进行互相关分析,获得时延估计。
混响环境下基于分频和改进的广义互相关双耳时延估计方法,其具体步骤如下:
S1:双麦克风模拟人耳听觉系统获取语音信号;
S2:步骤S1得到的含混响的语音信号,使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号;
S3:步骤S2得到的子带语音信号变换到倒谱域,进行倒谱预滤波去混响处理,获得去混响的左右耳各子带信号;
S4:步骤S3得到的去混响的左右耳各子带信号采用基于分频和改进的广义互相关双耳时延估计方法进行双耳时间差估计;
S5:根据双耳时间差几何模型,采用步骤S4得到的双耳时间差获取目标声源的方位;
优选的,根据耳蜗基底膜的分频特性,语音信号各个频率分量在基底膜相对应的位置上出现共振峰:
S21:耳蜗通常被认为是一组并行的带通滤波器,每个滤波器用来模拟沿着耳蜗基底膜某一特定典型点的频率响应。也就是说,沿着膜的每个位置具有特征频率,当该频率的纯音作为输入时,该位置出现峰值;对于复合音信号,则不同频率分量在基底膜映射的相应位置出现峰值,这样就把多频信号分解为了多个单频分量。因此,信号在基底膜各个位置上的响应过程相当于一次滤波。
S22:高频的信号输入引起更接近基底膜底部的最大位移,而低频信号输入会导致基底膜顶点处的最大位移,在基底膜顶端附近的频率分辨率高于在底端附近的频率分辨率,对于等效的滤波器组,意味着低频处紧密地分布着较窄的带宽,高频处分布着间隔更远的较宽的带宽。
优选的,所述的耳蜗基底膜的分频特性,Gammatone听觉滤波器组可以提供耳朵中的基底膜运动的相当精确的感知模型,能将信号分解为各个频率分量的子带信号,并且还可以更好地表征人类听觉系统。
S31:Gammatone滤波器的原理和特性
Gammatone滤波器是由脉冲响应描述的线性滤波器,脉冲响应是伽马分布和正弦曲线的乘积。它是听觉系统中广泛使用的听觉滤波器模型,Gammatone滤波器组的脉冲响应时域表达式为:
Figure BDA0001350599660000091
其中,θ和A分别为Gammatone滤波器的初始相位和增益。f0为滤波器中心频率,对应基底膜上的特征频率。u(t)为阶跃函数,当t<0时,u(t)=0,当t>0时,u(t)=1。b和n是定义包络的参数,用来调整伽马函数的分布。n为滤波器的阶数,并确定边沿的斜率,当n=4时,该滤波器能给出人类听觉滤波器的良好近似,故本文选取n=4。b定义为脉冲响应的持续时间,也就是带宽,即b=1.019ERB(f0),ERB(f0)表示中心频率为f0的Gammatone滤波器等效矩形带宽,可表示为:
ERB(f0)=2.47+0.108f0
从公式中可看出,Gammatone滤波器带宽与中心频率成正比。
S32:GT带通滤波器的实现:
Figure BDA0001350599660000101
其中T为采样频率。
优选的,所述的子带信号,将其进行倒谱滤波去混响处理,步骤为:
S41:在各左右子带信号xl(n)和xr(n)的每一帧上加上指数窗ω(n)=αn,0≤n≤K-1,其中K是窗长,0<α≤1;
S42:对各信号进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小相位分量;
Figure BDA0001350599660000102
S43:通过连续信号帧递归获得估计的混响分量,即
Figure BDA0001350599660000103
Figure BDA0001350599660000111
其中,0<μ<1,m表示帧数。
S44:子带信号
Figure BDA0001350599660000112
减去混响部分
Figure BDA0001350599660000113
得到去混后的倒谱子带信号:
Figure BDA0001350599660000114
S45:再将
Figure BDA0001350599660000115
反变换到时域,并且使用逆指数窗,得到去混子带信号;
优选的,如步骤S45获得的去混子带信号,左右各子带信号进行广义互相关计算,最大互相关值处为时延估计值。广义互相关方法的具体步骤:
S51:将信号x1(n)和x2(n)进行滤波处理,得到的互功率函数表示:
Figure BDA0001350599660000116
Figure BDA0001350599660000117
式中,
Figure BDA0001350599660000118
表示滤波器H2(f)的复共轭;
S52:将步骤S51中公式代入互相关函数可以得到信号x1(n)和x2(n)的广义互相关函数:
Figure BDA0001350599660000119
其中,ψ(f)为加权函数,
Figure BDA00013505996600001110
S53:在实际应用中,观测时间时有限的,所以只能对互相关函数进行估计,则步骤S52中公式可表示为:
Figure BDA00013505996600001111
然而,随着加权函数的不一致,最终得到的广义互相关函数的差别。若加权函数ψ(f)=1,就是之前讲述的基本的互相关算法。若ψ(f)≠1,则称为广义互相关算法。因为不同的背景噪声以及混响的不同,加权函数的选取也不同,所以要按照声音信号和背景噪声的先验知识进行选取。使得广义互相关函数的峰值得到锐化。但是该加权函数在实际应用中的选取比较困难,所以该值的选取的合适与否是声源定位是否准确的关键。
S54:如S53所述的加权函数,其中经常用到的加权函数有Roth加权函数、SCOT加权函数和PHAT加权函数等。
1.Roth加权函数
Roth加权函数为:
Figure BDA0001350599660000121
则经过Roth加权的GCC函数表示为:
Figure BDA0001350599660000122
Figure BDA0001350599660000123
其中
Figure BDA0001350599660000124
Figure BDA0001350599660000125
分别为有限时间段中x1(n)和x2(n)的互功率谱和互相关函数。Roth加权函数相当于维纳滤波函数,在理想环境下能得到准确的时延估计,在实际情况下可以抑制噪声大的频带,但会展宽互相关函数的峰,给时延最优值的估计带来干扰,导致声源定位的误差。
2.平滑相干变换(SCOT)
SCOT加权函数为:
Figure BDA0001350599660000126
则经过SCOT加权的GCC函数表示为:
Figure BDA0001350599660000127
相比Roth加权函数,SCOT同时考虑两个通道,当
Figure BDA0001350599660000128
时,相当于Roth加权函数,所以会展宽互相关函数的峰。
3.相位变化加权函数(PHAT)
PHAT方法的加权函数表示为:
Figure BDA0001350599660000131
则经过PHAT加权的GCC函数表示为:
Figure BDA0001350599660000132
在理想环境下可表示为:
Figure BDA0001350599660000133
GCC函数可简化为:
Figure BDA0001350599660000134
PHAT加权函数在信号能量较大的时候具有很好的效果,
Figure BDA0001350599660000135
可以不依赖源信号,所以PHAT方法一般要优于Roth和SCOT加权方法,适用于有混响和较低噪声的环境下。当
Figure BDA0001350599660000136
加权函数则不是一个δ函数,造成时延估计的困难。此外,PHAT加权函数是
Figure BDA0001350599660000137
的倒数的,在信号能量较小的情况下,分母趋向于零,对时延估计造成较大的误差,影响声源定位的准确度。
4.改进的相位变化加权函数(MPHAT)
为了弥补PHAT加权方法的不足之处,对PHAT方法进行改进,改进的相位变化加权函数(MPHAT)表示为:
Figure BDA0001350599660000138
其中,ν(f)定义为:
Figure BDA0001350599660000139
R是阈值,其取值范围为:0≤R≤1;γ是噪声频率分量的最低值,其取值范围为:0≤γ<1。
ν'(f)为双耳接收到信号的归一化量,其表达式为:
Figure BDA0001350599660000141
α和β是根据环境决定的谱减法参数,N(f)为噪声功率谱。
如图1所示,为本发明提出的基于分频和改进的广义互相关双耳时延估计原理框图,该方法使用Gammatone滤波器对双耳信号进行分频处理,对每个子带信号进行倒谱预滤波的去混响处理后反变换到时域,左右耳各子带信号进行互相关运算,得到的每个子带的互相关值进行求和运算,获得最大互相关值对应的双耳时间差。
如图2所示,为本发明中Gammatone滤波器组多频率分解图。人耳耳蜗基底膜是听觉中枢实现语音分离的重要环节:语音信号由于频率的不同,基底膜不同位置产生不同的振动,从而起到分解语音信号的作用。因此本文选择具有人耳听觉特性的Gammatone滤波器组对语音信号进行频率分解。频率的选择范围从20Hz-4KHz分别对左、右耳混叠信号按时间帧进行频率分解。耳蜗基底膜模型将语音信号分成多个(滤波器个数)通道传递,从而便于语音信号在系统模型中的分离。
如图3所示,为本发明中的倒谱预滤波去混响算法。倒谱预滤波时延估计算法首先对信号分帧加窗,在每一帧信号中加入指数窗,使其变为最小相位信号;然后将信号进行倒谱计算,并将信号进行最小相位分解,获得估计的混响分量;再从信号中滤除估计的混响分量,最后将信号从倒谱域变换到时域后得到去混的信号。
如图4所示,为本发明中改进的广义互相关(GCC-MPHAT)时延估计算法,先将双耳信号进行滤波,再进行加权互相关计算,选取改进的相位加权函数能减少噪声和混响等干扰对时延估计的影响。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种基于分频和改进的广义互相关双耳时延估计方法,其特征在于,包括以下步骤:
S1:获取包含混响的双耳语音信号,分别用两个麦克风放到人工头的左右耳上,两个麦克风采集到的信号卷积上头部脉冲响应即为双耳语音信号;
S2:对步骤S1得到的含混响的双耳语音信号,使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号;
S3:步骤S2得到的子带语音信号变换到倒谱域,进行倒谱预滤波去混响处理,获得去混响的左右耳各子带信号;
S4:步骤S3得到的去混响的左右耳各子带信号采用改进的广义互相关时延估计方法求取双耳时间差,所述改进广义互相关时延估计方法包括:在传统广义互相关法的基础上采用改进的相位加权MPHAT;
S5:根据双耳时间差几何模型,采用步骤S4得到的双耳时间差获取目标声源的方位;
所述广义互相关方法的具体步骤为:
S51:经过上述步骤滤波处理后的双耳信号表示为x1(n)和x2(n),x1(n)表示经过上述步骤处理过后的去混左子带信号,x2(n)表示表示经过上述步骤处理过后的去混右子带信号,得到的互功率函数表示:
Figure FDA0002650780960000011
Figure FDA0002650780960000012
式中,
Figure FDA0002650780960000013
表示滤波器H2(f)的复共轭;
Figure FDA0002650780960000014
表示双耳信号未经过滤波处理时的互功率谱函数,
Figure FDA0002650780960000015
表示经过滤波处理后的双耳信号x1(n)和x2(n)的互功率谱函数;
S52:将步骤S51中公式代入互相关函数可以得到信号x1(n)和x2(n)的广义互相关函数:
Figure FDA0002650780960000016
其中,ψ(f)为加权函数,
Figure FDA0002650780960000021
S53:在实际应用中,对互相关函数进行估计,则步骤S52中公式可表示为:
Figure FDA0002650780960000022
若加权函数ψ(f)=1,即基本的互相关算法,若ψ(f)≠1,则称为广义互相关;
改进的相位变化加权函数MPHAT表示为:
Figure FDA0002650780960000023
其中,ν(f)定义为:
Figure FDA0002650780960000024
R是阈值,其取值范围为:0≤R≤1;γ是噪声频率分量的最低值,其取值范围为:0≤γ<1;
ν'(f)为双耳接收到信号的归一化量,其表达式为:
Figure FDA0002650780960000025
α和β是根据环境决定的谱减法参数,N(f)为噪声功率谱。
2.根据权利要求1所述的基于分频和改进的广义互相关双耳时延估计方法,其特征在于,所述步骤S1采用双麦克风模拟人耳听觉系统获取包含混响的双耳语音信号。
3.根据权利要求2所述的基于分频和改进的广义互相关双耳时延估计方法,其特征在于,所述双麦克风模拟人耳听觉系统是根据耳蜗基底膜的分频特性,语音信号各个频率分量在基底膜相对应的位置上出现共振峰实现模拟人儿听觉系统的,耳蜗通常被认为是一组并行的带通滤波器,每个滤波器用来模拟沿着耳蜗基底膜某一特定典型点的频率响应,即沿着膜的每个位置具有特征频率,当该频率的纯音作为输入时,该位置出现峰值;对于复合音信号,则不同频率分量在基底膜映射的相应位置出现峰值,这样就把多频信号分解为了多个单频分量,因此,信号在基底膜各个位置上的响应过程相当于一次滤波;高频的信号输入引起更接近基底膜底部的最大位移,而低频信号输入会导致基底膜顶点处的最大位移,在基底膜顶端附近的频率分辨率高于在底端附近的频率分辨率,对于等效的滤波器组,意味着低频处紧密地分布着较窄的带宽,高频处分布着间隔更远的较宽的带宽。
4.根据权利要求2所述的基于分频和改进的广义互相关双耳时延估计方法,其特征在于,所述Gammatone滤波器组的脉冲响应时域表达式为:
Figure FDA0002650780960000031
其中,θ和A分别为Gammatone滤波器的初始相位和增益,f0为滤波器中心频率,对应基底膜上的特征频率,u(t)为阶跃函数,当t<0时,u(t)=0,当t>0时,u(t)=1,b和n是定义包络的参数,用来调整伽马函数的分布,n为滤波器的阶数,并确定边沿的斜率。
5.根据权利要求4所述的基于分频和改进的广义互相关双耳时延估计方法,其特征在于,所述滤波器的阶数n=4,b定义为脉冲响应的持续时间,也就是带宽,即b=1.019ERB(f0),ERB(f0)表示中心频率为f0的Gammatone滤波器等效矩形带宽,可表示为:
ERB(f0)=2.47+0.108f0
从公式中可看出,Gammatone滤波器带宽与中心频率成正比。
6.根据权利要求4所述的基于分频和改进的广义互相关双耳时延估计方法,
其特征在于,所述步骤S3进行倒谱滤波去混响处理包括步骤:
S41:分别在左子带信号xl(n)和右子带信号xr(n)的每一帧上加上指数窗ω(n)=αn,0≤n≤K-1,其中K是窗长,0<α≤1;
S42:对步骤S41加上指数窗后的左右子带信号分别进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小相位分量;
Figure FDA0002650780960000041
Figure FDA0002650780960000042
表示脉冲信号的最小相位分量,k表示倒谱域变量,
Figure FDA0002650780960000043
表示脉冲响应,在倒谱域中,
Figure FDA0002650780960000044
可由一个最小相位分量和一个全通分量级联组成;
S43:通过连续信号帧递归获得估计的混响分量,即
Figure FDA0002650780960000045
Figure FDA0002650780960000046
其中,0<μ<1,m表示帧数;
Figure FDA0002650780960000047
表示倒谱域接收信号的最小相位分量;
S44:子带信号
Figure FDA0002650780960000048
减去混响部分
Figure FDA0002650780960000049
得到去混后的倒谱子带信号:
Figure FDA00026507809600000410
S45:再将
Figure FDA00026507809600000411
反变换到时域,并且使用逆指数窗,得到去混子带信号。
CN201710574614.4A 2017-07-14 2017-07-14 基于分频和改进的广义互相关双耳时延估计方法 Active CN107479030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710574614.4A CN107479030B (zh) 2017-07-14 2017-07-14 基于分频和改进的广义互相关双耳时延估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710574614.4A CN107479030B (zh) 2017-07-14 2017-07-14 基于分频和改进的广义互相关双耳时延估计方法

Publications (2)

Publication Number Publication Date
CN107479030A CN107479030A (zh) 2017-12-15
CN107479030B true CN107479030B (zh) 2020-11-17

Family

ID=60595637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710574614.4A Active CN107479030B (zh) 2017-07-14 2017-07-14 基于分频和改进的广义互相关双耳时延估计方法

Country Status (1)

Country Link
CN (1) CN107479030B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108091345B (zh) * 2017-12-27 2020-11-20 东南大学 一种基于支持向量机的双耳语音分离方法
CN108415005A (zh) * 2018-02-06 2018-08-17 中国人民解放军战略支援部队信息工程大学 一种无源定位时延估计方法及装置
CN108364642A (zh) * 2018-02-22 2018-08-03 成都启英泰伦科技有限公司 一种声源锁定方法
CN108647556A (zh) * 2018-03-02 2018-10-12 重庆邮电大学 基于分频和深度神经网络的声源定位方法
CN109275084B (zh) * 2018-09-12 2021-01-01 北京小米智能科技有限公司 麦克风阵列的测试方法、装置、系统、设备和存储介质
EP3629602A1 (en) * 2018-09-27 2020-04-01 Oticon A/s A hearing device and a hearing system comprising a multitude of adaptive two channel beamformers
CN109410976B (zh) * 2018-11-01 2022-12-16 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN109901114B (zh) * 2019-03-28 2020-10-27 广州大学 一种适用于声源定位的时延估计方法
CN110740416B (zh) * 2019-09-27 2021-04-06 广州励丰文化科技股份有限公司 一种音频信号处理方法及装置
CN111025233B (zh) * 2019-11-13 2023-09-15 阿里巴巴集团控股有限公司 一种声源方向定位方法和装置、语音设备和系统
CN110954866B (zh) * 2019-11-22 2022-04-22 达闼机器人有限公司 声源定位方法、电子设备及存储介质
CN113948098A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 一种立体声音频信号时延估计方法及装置
CN113138363A (zh) * 2021-04-22 2021-07-20 苏州臻迪智能科技有限公司 一种声源定位方法、装置、存储介质和电子设备
CN113466793B (zh) * 2021-06-11 2023-10-17 五邑大学 一种基于麦克风阵列的声源定位方法、装置及存储介质
CN113655354A (zh) * 2021-09-23 2021-11-16 河北工业大学 直流电弧故障定位方法及定位系统
CN114035157B (zh) * 2021-10-29 2022-06-14 中国科学院声学研究所 一种基于期望最大化算法的分频带时延估计方法及其系统
CN114283857B (zh) * 2021-12-16 2024-05-28 上海艾为电子技术股份有限公司 分频信号的延时补偿、分频方法、系统和分频器
CN114822584A (zh) * 2022-04-25 2022-07-29 东北大学 一种基于积分改进广义互相关的传动装置信号分离方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1212609C (zh) * 2003-11-12 2005-07-27 中国科学院声学研究所 基于人耳听觉特性的语音信号时间延迟估计方法
CN105575387A (zh) * 2015-12-25 2016-05-11 重庆邮电大学 基于听觉仿生中耳蜗基底膜的声源定位方法

Also Published As

Publication number Publication date
CN107479030A (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
CN107479030B (zh) 基于分频和改进的广义互相关双耳时延估计方法
CN105165026B (zh) 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法
CA2805491C (en) Method of signal processing in a hearing aid system and a hearing aid system
US20100217590A1 (en) Speaker localization system and method
WO2019133765A1 (en) Direction of arrival estimation for multiple audio content streams
EP2630807A1 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
WO2007028250A2 (en) Method and device for binaural signal enhancement
Aroudi et al. Cognitive-driven binaural LCMV beamformer using EEG-based auditory attention decoding
CN111078185A (zh) 录制声音的方法及设备
CN108986832A (zh) 基于语音出现概率和一致性的双耳语音去混响方法和装置
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
TW200835374A (en) System and method for utilizing omni-directional microphones for speech enhancement
CN112820312B (zh) 一种语音分离方法、装置及电子设备
CN113409804A (zh) 一种基于变张成广义子空间的多通道频域语音增强算法
Aroudi et al. Cognitive-driven convolutional beamforming using EEG-based auditory attention decoding
Gode et al. Adaptive dereverberation, noise and interferer reduction using sparse weighted linearly constrained minimum power beamforming
Reindl et al. An acoustic front-end for interactive TV incorporating multichannel acoustic echo cancellation and blind signal extraction
Brutti et al. A Phase-Based Time-Frequency Masking for Multi-Channel Speech Enhancement in Domestic Environments.
Chang et al. Robust distributed noise suppression in acoustic sensor networks
Zhao et al. Frequency-domain beamformers using conjugate gradient techniques for speech enhancement
Delikaris-Manias et al. Cross spectral density based spatial filter employing maximum directivity beam patterns
Ganguly Noise-robust speech source localization and tracking using microphone arrays for smartphone-assisted hearing aid devices
Mendoza et al. An Adaptive Algorithm for Speaker Localization in Real Environments using Smartphones
Azarpour et al. Distortionless-response vs. matched-filter-array processing for adaptive binaural noise reduction
Mosayyebpour et al. Time delay estimation via minimum-phase and all-pass component processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant