CN108647556A - 基于分频和深度神经网络的声源定位方法 - Google Patents

基于分频和深度神经网络的声源定位方法 Download PDF

Info

Publication number
CN108647556A
CN108647556A CN201810174588.0A CN201810174588A CN108647556A CN 108647556 A CN108647556 A CN 108647556A CN 201810174588 A CN201810174588 A CN 201810174588A CN 108647556 A CN108647556 A CN 108647556A
Authority
CN
China
Prior art keywords
signal
frequency
sound
deep neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810174588.0A
Other languages
English (en)
Inventor
胡章芳
乐聪聪
谭术兵
徐渝松
陈飞雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810174588.0A priority Critical patent/CN108647556A/zh
Publication of CN108647556A publication Critical patent/CN108647556A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/22Source localisation; Inverse modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Neurology (AREA)
  • Stereophonic System (AREA)

Abstract

本发明请求保护一种混响和噪声环境下基于分频和深度神经网络(Deep Neural Networks,DNNs)的声源定位方法,涉及声源定位领域。该方法首先双耳信号通过Gammatone滤波器后得到分频的子带信号,在每个子带信号中进行最小相位分解的去混响处理,从倒谱域中反变换到时域后对每个子带互相关计算得到广义互相关函数(Generalized Cross‑Correlation Function,GCCF)。该方法将双耳语音定位视为一个多分类的问题,将GCCF和双耳水平差(Interaural Level Differences,ILDs)作为定位特征,输入到顶层为softmax回归结构的DNNs,输出声源处于每个方位的概率,取最大概率方位角为声源位置。

Description

基于分频和深度神经网络的声源定位方法
技术领域
本发明属于声源定位领域,特别是一种基于分频和深度神经网络的声 源定位方法。
背景技术
声源定位技术的内容涉及了模式识别、信号处理、语言科学、计算机技术、 生理学、心理学、神经网络以及人工智能技术等多种学科,其应用领域非常广 泛,包括移动通信、移动机器人、视频会议、银行安全系统、海关、公共场所 监视、医学、人机交互等。例如,在军事方面,声源定位技术可以为雷达提供 一个很好的补充,不需要发射信号,仅靠接收信号就可以判断目标的位置,因 此,在定位的过程中就不会受到干扰和攻击。在视频会议中,说话人跟踪可为 摄像机转向控制与语音拾取提供位置信息,使传播的图像和声音更清晰。声源 定位技术因为其诸多优点以及在应用上的广泛前景成为一个研究热点。
伴随着科技地不断进步,研究者对于说话人的定位技术也不断地更新着, 主要可以分为声源定位技术、电磁波定位技术、激光定位技术和视频定位技术。 经过几十年的发展与研究,如今的视频定位技术已经非常成熟,其可以在实现 目标的定位与跟踪等功能。然而声源定位技术却更能引起众多研究者的重视, 这主要由于声源定位技术有着独特的优势。
第一,隐蔽性。声源定位技术只需要利用麦克风来接收声音信号,而不必 向外界发送任何东西,这一点使得声源定位技术在不改变周围环境下能够轻松 得到外界目标声音的信息,而自己本身的位置却很难被外界所发现。正是声源 定位技术的隐蔽性,很多潜水艇在作战中不会轻易打开声呐等设备,而会使用 声源定位技术来追踪目标的位置。
第二,实用性。声音是属于声波,声波在传输中不会受到电磁场、光线强 弱等的干扰与限制。光线强度弱的环境对于视频定位技术影响很大,存在障碍 物的环境对电磁波有一定干扰。如在深海中由于光线很弱,视频定位技术就不 能使用,而激光与电磁波在深海中能量的衰减会快速导致穿透距离很短。然而 这种情况下声源定位技术却不会受限制于深海环境中,可以很好的实现目标声 源的定位。
第三,易实现。声源定位技术相比于其他几种定位技术,在成本上与设备 上的要求就低很多了,因此声源定位技术在生活中容易得到应用。
在现实生活中,人们的谈话场景通常存在多个声源、背景噪声以及混响, 但是人耳听觉系统能够有效地识别和定位出感兴趣的声源信号,这种现象被称 为“鸡尾酒效应”。这种现象经常出现在鸡尾酒会上,两个客人可以在说话的一 群人的旁边正常的交流,听者还可以根据感兴趣的语音信号判断出目标声源的 方向,比如听者在听到有人叫唤他的名字时会将头转向说话者。由此可以看出, 人耳听觉系统可以从嘈杂的多声源环境中定位出目标声源的方向。声源定位技 术起源于人们对于人耳听觉特性的研究,因此它通过模拟人耳听觉系统实现对 声源方向的定位功能。声源定位的广适性使其应用于多个领域,在声学通信、 人工智能和助听器等方面有着重要的研究意义和实用价值。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种在混响和噪声环境下提 高声源定位的准确度的基于分频和深度神经网络的声源定位方法。本发明 的技术方案如下:
一种基于分频和深度神经网络的声源定位方法,其包括以下步骤:
S11、首先获取纯净的语音信号,再通过卷积双耳房间脉冲响应BRIR 来构建带混响的双耳信号,再加入噪声;
S12、对步骤S11得到的含混响和噪声的双耳语音信号进行预处理,首 先使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的 子带双耳信号,在每个子带信号上进行倒谱域去混响(即将信号变换到倒 谱域,再进行去混响)处理,获得去混响的左右耳各子带信号;
S13:对步骤S12得到的去混响的左右耳各子带信号进行特征提取,选 择GCCF和双耳水平差作为双耳定位特征;
S14:将步骤S13得到的定位特征,输入到顶层为softmax回归结构的 DNNs(深度神经网络),输出声源处于每个方位的概率,取最大概率方位 角为声源位置。
进一步的,所述BRIR是房间脉冲响应RIR卷积头部脉冲响应HRIR得来的, 其中HRIR是HRTF头部相关传输函数的时域表示。
进一步的,所述步骤S13针对每个频带独立地计算右耳信号和左耳信号 之间的互相关,选择广义互相关函数GCCF,其中加权函数为相位加权ILD 对应着左右耳信号之间的能量比,单位为Db,ITD双耳时间差和ILD在不 同频率范围的作用是不同的,当声音频率小于1500Hz时,ITD在双耳声 源定位中起到主要作用;当声音频率大于1500Hz时,相对ITD,ILD是声 源定位线索中的主要部分,ILD也会作为定位特征,最后选择GCCF和双 耳水平差作为定位特征。
进一步的,所述步骤S12采用一组gammatone滤波器来模拟耳蜗的分频特 性,从而对声源信号进行分频处理具体包括:
双耳信号经过gammatone滤波器组进行分频,将语音信号分为子带信号。 选择临界频带的中心频率作为Gammatone滤波器的中心频率,在得到子带信号 之后,在子带信号每帧上加入指数窗使其变为最小相位信号,然后进行倒谱计 算并分解出最小相位分量,获得估计的混响分量,再将子带信号滤除混响分量, 反变换到时域,加上逆指数窗,得到去混子带信号。
进一步的,所述滤波器的阶数为4。
进一步的,所述步骤S12在每个子带信号上进行倒谱域去混响(即将 信号变换到倒谱域,再进行去混响)处理,获得去混响的左右耳各子带信 号,具体包括步骤:
S31:在各左右子带信号xl(n)和xr(n)的每一帧上加上指数窗ω(n)=αn,n表 示指数,0≤n≤K-1,其中K是窗长,0<α≤1;
S32:对各信号进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小 相位分量;
k表示倒谱域变量,脉冲响应,脉冲信号的 最小相位分量。
S33:通过连续信号帧递归获得估计的混响分量,即
其中,0<μ<1,m表示帧数;表示倒谱域接收信号的最小脉冲响应,表示脉冲信号的最小相位分量。
S34:子带信号减去混响部分得到去混后的倒谱子带信号:
S35:再将反变换到时域,并且使用逆指数窗,得到去混子带信号。
进一步的,对于采样频率为16000Hz的语音信号,时延范围在GCCF将会 在每个字带上产生33维的双耳特征,加上1维的ILD,最终形成34维的定位特 征向量。
进一步的,使用DNN将34维双耳特征集映射到对应的方位角,对于 gammatone滤波器分频后的22个频段中的每一个频段都会使用单独的 DNN进行训练;
在随后的训练过程中隐含层的数量会逐渐增加。在每一个训练过程中 采用小批量梯度下降方法加动量的配置,在每个训练阶段结束时,在最后 一个隐含层和输出层之间增加一个额外的隐含层,重复训练阶段,直到达 到所需的隐含层;
输出声源处于每个方位的概率,取最大概率方位角为声源位置。
进一步的,所述DNN包含一层输出层,两层隐含层和一层输出层,输 入层有34个节点,每个节点假定为一个具有零均值和单位方差的高斯随 机变量,每个频带的34维双耳特征输入在作为DNN的输入之前,都进行 了高斯归一化,并加入白色高斯噪声以避免过拟合,两层隐含层中每层包 含128个神经元,隐含层的神经元采用Sigmoid激活函数,具体表达式为:
式中z表示神经元的输入,σ(z)表示神经元的输出;
输出层采用Softmax回归函数,Softmax回归是logistics回归在多分 类问题上的推广,将全部方位角0°到360°每间隔5°进行划分,得到 72个方位角,因此输出层中有72个节点对应着72个方位角。
进一步的,每次在训练集中选择包含128个样本的一批数据,其中动量 在迭代开始时将其设为0.5,在20次迭代后,其值更新为0.99,学习率的 更新采用逐步降低法,即每次迭代后将学习率乘以0.5,初始学习率设为 1,在20次迭代后,其值逐渐减少为0.05,学习率降到0.05后,仍然持 续了5次迭代,还包括一个验证集,如果在最后5次迭代内验证集上没有 新的错误可以实现,训练程序会提前终止。
本发明的优点及有益效果如下:
本发明创新点包括:1,步骤S12所述采用Gammatone滤波器对语音信号分 频处理,针对混响对语音不同频率分量的影响各不相同,对声源信号各频率分 量作同样的处理会产生定位误差的问题,提出了一种基于分频和深度神经网络 的声源定位方法,可以减小将不同频率的语音当成同一频率处理造成的定位误 差;2,步骤S13中所述提取的GCCF和双耳水平差(Interaural Level Differences,ILDs)作为定位特征,GCCF可以在相位加权时可以有效地抑制噪声, 当声音频率大于1500Hz时,相对ITD,ILD是声源定位线索中的主要部分。选 择ILD作为定位特征可以有效利用语音信号中高频部分的定位信息;3,步骤 S14中所述将定位特征输入到DNN框架中进行学习和训练,该方法首先双耳信 号通过后得到分频的子带信号,在每个子带信号中进行最小相位分解的去混响 处理,从倒谱域中反变换到时域后对每个子带互相关计算得到广义互相关函数 (Generalized Cross-CorrelationFunction,GCCF)。该方法将双耳语音定位视为一个 多分类的问题,将GCCF和双耳水平差(Interaural Level Differences,ILDs)作为定 位特征,输入到顶层为softmax回归结构的DNNs,输出声源处于每个方位的概 率,取最大概率方位角为声源位置。基于分频和深度神经网络的声源定位方法 将信号分为多个单一频率的信号,分别进行独立去混响处理,然后在每一个子 带上去特征值,输入到DNN中进行学习和训练,具有更好的定位准确度和良好 的抗混响性能。
附图说明
图1是本发明提供优选实施例基于分频和深度神经网络的声源定位方法原 理框图;
图2为预处理流程图;
图3为深度神经网络框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
1.混响和噪声环境下基于分频和深度神经网络(Deep Neural Networks,DNNs)的声源定位方法,其具体步骤如下:
S11:先构建双耳信号,纯净的语音信号卷积双耳房间脉冲响应 (Binaural RoomImpulse Response,BRIR)得到带混响的双耳信号,再加入噪 声;
S12:步骤S11得到的含混响和噪声的双耳语音信号,对其进行预处理, 首先使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率 的子带双耳信号,在每个子带信号上进行倒谱预滤波去混响处理,获得去 混响的左右耳各子带信号;
S13:步骤S12得到的去混响的左右耳各子带信号进行特征提取,针对 每个频带独立地计算右耳信号和左耳信号之间的互相关。为了更好的抑制 噪声,选择广义互相关函数GCCF,其中加权函数为相位加权ILD对应着 左右耳信号之间的能量比,单位为dB。ITD和ILD在不同频率范围的作用 是不同的,当声音频率小于1500Hz时,ITD在双耳声源定位中起到主要 作用;当声音频率大于1500Hz时,相对ITD,ILD是声源定位线索中的主 要部分。为了不损失语音信号中高频部分的定位信息,因此ILD也会作为 定位特征。最后选择GCCF和双耳水平差(Interaural Level Differences,ILDs)作 为定位特征;
S14:步骤S13得到的定位特征,输入到顶层为softmax回归结构的 DNNs,输出声源处于每个方位的概率,取最大概率方位角为声源位置;
优选的,针对声源信号各频率分量作同样的处理不能解决混响对不同 频率语音的影响差异而导致定位误差的问题,采用一组gammatone滤波器来 模拟耳蜗的分频特性,从而对声源信号进行分频处理:
S21:Gammatone滤波器的原理和特性
Gammatone滤波器是由脉冲响应描述的线性滤波器,脉冲响应是伽马 分布和正弦曲线的乘积。它是听觉系统中广泛使用的听觉滤波器模型, Gammatone滤波器组的脉冲响应时域表达式为:
其中,θ和A分别为Gammatone滤波器的初始相位和增益。f0为滤波器中 心频率,对应基底膜上的特征频率。u(t)为阶跃函数,当t<0时,u(t)=0, 当t>0时,u(t)=1。b和n是定义包络的参数,用来调整伽马函数的分布。n 为滤波器的阶数,并确定边沿的斜率,当n=4时,该滤波器能给出人类听 觉滤波器的良好近似,故本文选取n=4。b定义为脉冲响应的持续时间, 也就是带宽,即b=1.019ERB(f0),ERB(f0)表示中心频率为f0的Gammatone滤 波器等效矩形带宽,可表示为:
ERB(f0)=2.47+0.108f0
从公式中可看出,Gammatone滤波器带宽与中心频率成正比。
S22:对于采样率为16KHz的语音信号,信号的最大频率为采样率的一 半,即8KHz,参考人耳听阈范围内的临界频带表,对应临界表中频率范 围为7000-9500Hz时需要的滤波器组中滤波器个数是22,也就是可以得 到22个分频的子带信号。选择临界频带的中心频率作为Gammatone滤波 器的中心频率,滤波器的阶数为4,能够较为逼真地体现出人耳在听阈范 围内的听觉特性。
优选的,将子带信号进行倒谱滤波去混响处理,包括步骤:
S31:在各左右子带信号xl(n)和xr(n)的每一帧上加上指数窗ω(n)=αn, 0≤n≤K-1,其中K是窗长,0<α≤1;
S32:对各信号进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小 相位分量;
S33:通过连续信号帧递归获得估计的混响分量,即
其中,0<μ<1,m表示帧数。
S34:子带信号减去混响部分得到去混后的倒谱子带信号:
S35:再将反变换到时域,并且使用逆指数窗,得到去混子带信号;
优选的,在经过预处理之后进行特征提取。如步骤S35获得的去混子 带信号后在每个子带上提取双耳特征,包括步骤:
S41:预处理之后,针对每个频带独立地计算右耳信号和左耳信号之间的 互相关。为了更好的抑制噪声,选择广义互相关函数GCCF,其中加权函数为相 位加权。考虑到人头部的尺寸和声音在空气中传播的速度,互相关函数通常取 -1ms至+1ms之间的值。当使用采样频率为16KHz的语音信号时,那么将会得 到33个对应的互相关值。
S42:在双耳声源定位中,通常会用ITD和ILD这两个双耳特征来进 行声源定位。ITD是信号到达左右耳的时延值,在计算互相关函数后,通过峰 值检测找到最大的互相关值,最大互相关值处对应的时延值即为ITD。由于峰值 检测这一操作,使得ITD包含的定位信息没有GCCF中的定位信息完整,从而 使得在环境中存在噪声和混响时,使用ITD进行定位不具有良好的鲁棒性。所 以本文用GCCF来代替ITD作为定位特征。ILD对应着左右耳信号之间的能量 比,单位为dB。ITD和ILD在不同频率范围的作用是不同的,当声音频率小于1500Hz时,ITD在双耳声源定位中起到主要作用;当声音频率大于1500Hz时, 相对ITD,ILD是声源定位线索中的主要部分。为了不损失语音信号中高频部分 的定位信息,因此ILD也会作为定位特征。对于采样频率为16000Hz的语音信 号,时延范围在GCCF将会在每个字带上产生33维的双耳特征,加上1维的ILD, 最终形成34维的定位特征向量。
优选的,所述步骤S14,将DNNs用作分类器,用来映射双耳特征和 方位角之间的关系,如步骤S42获得的4维的定位特征向量输入到顶层为 softmax回归结构的DNNs,包括步骤:
S51:使用DNN将34维双耳特征集映射到对应的方位角。对于 gammatone滤波器分频后的22个频段中的每一个频段都会使用单独的 DNN进行训练。
S52:DNN框架
DNN包含一层输出层,两层隐含层和一层输出层。输入层有34个节 点,每个节点假定为一个具有零均值和单位方差的高斯随机变量。每个频 带的34维双耳特征输入在作为DNN的输入之前,都进行了高斯归一化, 并加入白色高斯噪声以避免过拟合。两层隐含层中每层包含128个神经元, 隐含层的神经元采用Sigmoid激活函数,具体表达式为:
式中z表示神经元的输入,σ(z)表示神经元的输出。
输出层采用Softmax回归函数,Softmax回归是logistics回归在多分 类问题上的推广。将全部方位角0°到360°没间隔5°进行划分,可以得 到72个方位角,因此输出层中有72个节点对应着72个方位角。
S53:步骤S52中神经网络初始时设置为单隐含层,在随后的训练过 程中隐含层的数量会逐渐增加。在每一个训练过程中采用小批量梯度下降 方法加动量(momentum)的配置,这种配置通常能极大地加快收敛速度。 每次在训练集中选择包含128个样本的一批数据,其中动量在迭代开始时 将其设为0.5,在20次迭代后,其值更新为0.99。学习率的更新采用逐步 降低法,即每次迭代后将学习率乘以0.5。初始学习率设为1,在20次迭 代后,其值逐渐减少为0.05。学习率降到0.05后,仍然持续了5次迭代。 我们还包括一个验证集,如果早最后5次迭代内验证集上没有新的错误可 以实现,训练程序会提前终止。在每个训练阶段结束时,在最后一个隐含 层和输出层之间增加一个额外的隐含层,重复训练阶段,直到达到所需的 两个隐含层。
S54:输出声源处于每个方位的概率,取最大概率方位角为声源位置, 包括步骤:
给定在时间帧t和子频带f处观察到的特征集xt,f,在子频带f处的 DNN中的72个‘Softmax’输出值为后验概率P(θ|xt,f),其中θ是方位角, 并且所有概率之和为1,即∑θP(θ|xt,f)=1。然后,在整个频率范围内,将所 有频率范围的特征组合在一起,从而产生时间帧为t方位角θ的概率:
上式中P(θ)是方位角θ的先验概率。假设对于所有源方位没有源方位 和相等概率的先验知识,那么上式即变为
由T个时间帧组成的信号块进行声源定位。因此,帧的后验进一步平 均时间产生声源活动的后验分布概率P(θ)
由最大后验分布概率P(θ)即可得到目标声源的方位角θ
针对混响对语音不同频率分量的影响各不相同,对声源信号各频率分 量作同样的处理会产生定位误差的问题,提出了一种基于分频和深度神经 网络的声源定位方法,并详细阐述了整个模型的构建过程,该方法首先双 耳信号通过Gammatone滤波器后得到分频的子带信号,在每个子带信号 中进行最小相位分解的去混响处理,从倒谱域中反变换到时域后对每个子 带互相关计算得到广义互相关函数(Generalized Cross-CorrelationFunction,GCCF)。该方法将双耳语音定位视为一个多分类的问题,将GCCF 和双耳水平差(Interaural Level Differences,ILDs)作为定位特征,输入到顶 层为softmax回归结构的DNNs,输出声源处于每个方位的概率,取最大 概率方位角为声源位置。基于分频和深度神经网络的声源定位方法将信号 分为多个单一频率的信号,分别进行独立去混响处理,然后在每一个子带 上去特征值,输入到DNN中进行学习和训练,具有更好的定位准确度和 良好的抗混响性能。
针对混响对语音不同频率分量的影响各不相同,对声源信号各频率分量作 同样的处理会产生定位误差的问题,提出了一种基于分频和深度神经网络的 声源定位方法。为了避免对语音的各个频率成分都做同样的处理,利用 Gammatone滤波器组的分频特性,将混响语音划分为各个频率成分,在不同的频 带信号中进行独立的倒谱预滤波去混响处理,之后再提取双耳定位特征输入到 顶层为softmax回归结构的DNNs,输出声源处于每个方位的概率,取最大概率 方位角为声源位置。
如图1所示,为本发明提出的基于分频和深度神经网络的声源定位方法原 理框图,该方法在训练过程中,纯净的语音信号通过BRIR来构建双耳信号,而 BRIR是房间脉冲响应(Room Impulse Response,RIR)卷积头部脉冲响应(Head Related ImpulseResponse,HRIR)得来的,其中HRIR是HRTF的时域表示。在预 处理之前会加入噪声,之后将提取到双耳特征输入到DNNs中。在测试阶段中, 输入测试语音,通过DNNs最后会输出声源处于每个方位的概率,取最大概率 的方位角为声源位置。
如图2所示,为本发明中预处理过程。双耳信号经过gammatone滤波器组 进行分频,将语音信号分为子带信号。选择临界频带的中心频率作为Gammatone 滤波器的中心频率,滤波器的阶数为4,能够较为逼真地体现出人耳在听阈范围 内的听觉特性。在得到子带信号之后,在子带信号每帧上加入指数窗使其变为 最小相位信号,然后进行倒谱计算并分解出最小相位分量,获得估计的混响分 量,再将子带信号滤除混响分量,反变换到时域,加上逆指数窗,得到去混子 带信号。
如图3所示,为本发明中的深度神经网络框图。DNN包含一层输出层,两 层隐含层和一层输出层。输入层有34个节点,每个节点假定为一个具有零均值 和单位方差的高斯随机变量。每个频带的34维双耳特征输入在作为DNN的输 入之前,都进行了高斯归一化,并加入白色高斯噪声以避免过拟合。两层隐含 层中每层包含128个神经元,隐含层的神经元采用Sigmoid激活函数,输出层采 用Softmax回归函数,Softmax回归是logistics回归在多分类问题上的推广。将 全部方位角0°到360°没间隔5°进行划分,可以得到72个方位角,因此输出层 中有72个节点对应着72个方位角。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范 围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或 修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于分频和深度神经网络的声源定位方法,其特征在于,包括以下步骤:
S11、首先获取纯净的语音信号,再通过卷积双耳房间脉冲响应BRIR来构建带混响的双耳信号,再加入噪声;
S12、对步骤S11得到的含混响和噪声的双耳语音信号进行预处理,首先使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号,将每个子带信号变换到倒谱域,再进行去混响处理,获得去混响的左右耳各子带信号;
S13:对步骤S12得到的去混响的左右耳各子带信号进行特征提取,选择GCCF和双耳水平差作为双耳定位特征;
S14:将步骤S13得到的定位特征,输入到顶层为softmax回归结构的DNNs深度神经网络,输出声源处于每个方位的概率,取最大概率方位角为声源位置。
2.根据权利要求1所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述BRIR是房间脉冲响应RIR卷积头部脉冲响应HRIR得来的,其中HRIR是HRTF头部相关传递函数的时域表示。
3.根据权利要求1所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述步骤S13针对每个频带独立地计算右耳信号和左耳信号之间的互相关,选择广义互相关函数GCCF,其中加权函数为相位加权ILD对应着左右耳信号之间的能量比,单位为Db,ITD(双耳时间差)和ILD在不同频率范围的作用是不同的,当声音频率小于1500Hz时,ITD在双耳声源定位中起到主要作用;当声音频率大于1500Hz时,相对ITD,ILD是声源定位线索中的主要部分,ILD也会作为定位特征,最后选择GCCF和双耳水平差作为定位特征。
4.根据权利要求1所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述步骤S12采用一组gammatone滤波器来模拟耳蜗的分频特性,从而对声源信号进行分频处理具体包括:
双耳信号经过gammatone滤波器组进行分频,将语音信号分为子带信号。选择临界频带的中心频率作为Gammatone滤波器的中心频率,在得到子带信号之后,在子带信号每帧上加入指数窗使其变为最小相位信号,然后进行倒谱计算并分解出最小相位分量,获得估计的混响分量,再将子带信号滤除混响分量,反变换到时域,加上逆指数窗,得到去混子带信号。
5.根据权利要求4所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述滤波器的阶数为4。
6.根据权利要求4所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述步骤S12将每个子带信号变换到倒谱域,再进行去混响处理,获得去混响的左右耳各子带信号,具体包括步骤:
S31:在各左右子带信号xl(n)和xr(n)的每一帧上加上指数窗ω(n)=αn,n表示指数,0≤n≤K-1,其中K是窗长,0<α≤1;
S32:对各信号进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小相位分量;
k表示倒谱域变量,脉冲响应,脉冲信号的最小相位分量;
S33:通过连续信号帧递归获得估计的混响分量,即
其中,0<μ<1,m表示帧数;表示倒谱域接收信号的最小相位分量,表示脉冲信号的最小相位分量;
S34:子带信号减去混响部分得到去混后的倒谱子带信号:
S35:再将反变换到时域,并且使用逆指数窗,得到去混子带信号。
7.根据权利要求3所述的基于分频和深度神经网络的声源定位方法,其特征在于,对于采样频率为16000Hz的语音信号,时延范围在GCCF将会在每个字带上产生33维的双耳特征,加上1维的ILD,最终形成34维的定位特征向量。
8.根据权利要求7所述的基于分频和深度神经网络的声源定位方法,其特征在于,使用DNN将34维双耳特征集映射到对应的方位角,对于gammatone滤波器分频后的22个频段中的每一个频段都会使用单独的DNN进行训练;
在随后的训练过程中隐含层的数量会逐渐增加。在每一个训练过程中采用小批量梯度下降方法加动量的配置,在每个训练阶段结束时,在最后一个隐含层和输出层之间增加一个额外的隐含层,重复训练阶段,直到达到所需的隐含层;
输出声源处于每个方位的概率,取最大概率方位角为声源位置。
9.根据权利要求7所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述DNN包含一层输出层,两层隐含层和一层输出层,输入层有34个节点,每个节点假定为一个具有零均值和单位方差的高斯随机变量,每个频带的34维双耳特征输入在作为DNN的输入之前,都进行了高斯归一化,并加入白色高斯噪声以避免过拟合,两层隐含层中每层包含128个神经元,隐含层的神经元采用Sigmoid激活函数,具体表达式为:
式中z表示神经元的输入,σ(z)表示神经元的输出;
输出层采用Softmax回归函数,Softmax回归是logistics回归在多分类问题上的推广,将全部方位角0°到360°每间隔5°进行划分,得到72个方位角,因此输出层中有72个节点对应着72个方位角。
10.根据权利要求7所述的基于分频和深度神经网络的声源定位方法,其特征在于,每次在训练集中选择包含128个样本的一批数据,其中动量在迭代开始时将其设为0.5,在20次迭代后,其值更新为0.99,学习率的更新采用逐步降低法,即每次迭代后将学习率乘以0.5,初始学习率设为1,在20次迭代后,其值逐渐减少为0.05,学习率降到0.05后,仍然持续了5次迭代,还包括一个验证集,如果在最后5次迭代内验证集上没有新的错误可以实现,训练程序会提前终止。
CN201810174588.0A 2018-03-02 2018-03-02 基于分频和深度神经网络的声源定位方法 Pending CN108647556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810174588.0A CN108647556A (zh) 2018-03-02 2018-03-02 基于分频和深度神经网络的声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810174588.0A CN108647556A (zh) 2018-03-02 2018-03-02 基于分频和深度神经网络的声源定位方法

Publications (1)

Publication Number Publication Date
CN108647556A true CN108647556A (zh) 2018-10-12

Family

ID=63744068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810174588.0A Pending CN108647556A (zh) 2018-03-02 2018-03-02 基于分频和深度神经网络的声源定位方法

Country Status (1)

Country Link
CN (1) CN108647556A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
CN110517705A (zh) * 2019-08-29 2019-11-29 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
CN111667843A (zh) * 2019-03-05 2020-09-15 北京京东尚科信息技术有限公司 终端设备的语音唤醒方法、系统、电子设备、存储介质
CN111833901A (zh) * 2019-04-23 2020-10-27 北京京东尚科信息技术有限公司 音频处理方法、音频处理装置、系统及介质
CN112086105A (zh) * 2020-08-31 2020-12-15 中国船舶重工集团公司七五0试验场 一种基于Gammatone分频带连续谱特征的目标识别方法
CN112946576A (zh) * 2020-12-10 2021-06-11 北京有竹居网络技术有限公司 声源定位方法、装置和电子设备
CN113657416A (zh) * 2020-05-12 2021-11-16 中国科学院声学研究所 一种基于改进的深度神经网络的深海声源测距方法及系统
CN114764022A (zh) * 2021-01-13 2022-07-19 百度(美国)有限责任公司 用于自主驾驶车辆的声源检测和定位的系统和方法
US11735168B2 (en) 2020-07-20 2023-08-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing voice

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法
CN107703486A (zh) * 2017-08-23 2018-02-16 南京邮电大学 一种基于卷积神经网络cnn的声源定位算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法
CN107703486A (zh) * 2017-08-23 2018-02-16 南京邮电大学 一种基于卷积神经网络cnn的声源定位算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NING MA等: "《"Exploiting Deep Neural Networks and Head Movements for Robust Binaural Localization of Multiple Sources in Reverberant Environments》", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
张毅等: "《混响环境下基于倒谱BRIR的双耳互相关声源定位算法》", 《自动化学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
CN111667843A (zh) * 2019-03-05 2020-09-15 北京京东尚科信息技术有限公司 终端设备的语音唤醒方法、系统、电子设备、存储介质
CN111667843B (zh) * 2019-03-05 2021-12-31 北京京东尚科信息技术有限公司 终端设备的语音唤醒方法、系统、电子设备、存储介质
CN111833901A (zh) * 2019-04-23 2020-10-27 北京京东尚科信息技术有限公司 音频处理方法、音频处理装置、系统及介质
CN111833901B (zh) * 2019-04-23 2024-04-05 北京京东尚科信息技术有限公司 音频处理方法、音频处理装置、系统及介质
CN110517705A (zh) * 2019-08-29 2019-11-29 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
CN110517705B (zh) * 2019-08-29 2022-02-18 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
CN113657416B (zh) * 2020-05-12 2023-07-18 中国科学院声学研究所 一种基于改进的深度神经网络的深海声源测距方法及系统
CN113657416A (zh) * 2020-05-12 2021-11-16 中国科学院声学研究所 一种基于改进的深度神经网络的深海声源测距方法及系统
US11735168B2 (en) 2020-07-20 2023-08-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing voice
CN112086105A (zh) * 2020-08-31 2020-12-15 中国船舶重工集团公司七五0试验场 一种基于Gammatone分频带连续谱特征的目标识别方法
CN112086105B (zh) * 2020-08-31 2022-08-19 中国船舶重工集团公司七五0试验场 一种基于Gammatone分频带连续谱特征的目标识别方法
CN112946576B (zh) * 2020-12-10 2023-04-14 北京有竹居网络技术有限公司 声源定位方法、装置和电子设备
WO2022121800A1 (zh) * 2020-12-10 2022-06-16 北京有竹居网络技术有限公司 声源定位方法、装置和电子设备
CN112946576A (zh) * 2020-12-10 2021-06-11 北京有竹居网络技术有限公司 声源定位方法、装置和电子设备
CN114764022A (zh) * 2021-01-13 2022-07-19 百度(美国)有限责任公司 用于自主驾驶车辆的声源检测和定位的系统和方法

Similar Documents

Publication Publication Date Title
CN108647556A (zh) 基于分频和深度神经网络的声源定位方法
Vecchiotti et al. End-to-end binaural sound localisation from the raw waveform
Nguyen et al. Robust source counting and DOA estimation using spatial pseudo-spectrum and convolutional neural network
Zhang et al. Deep learning based binaural speech separation in reverberant environments
Jiang et al. Binaural classification for reverberant speech segregation using deep neural networks
Li et al. Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization
CN109800700A (zh) 一种基于深度学习的水下声信号目标分类识别方法
CN110517705A (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
Pang et al. Multitask learning of time-frequency CNN for sound source localization
CN109164415A (zh) 一种基于卷积神经网络的双耳声源定位方法
CN110728989A (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
CN106019230B (zh) 一种基于i-vector说话人识别的声源定位方法
Xu et al. A binaural sound localization system using deep convolutional neural networks
Liu et al. Head‐related transfer function–reserved time‐frequency masking for robust binaural sound source localization
van Schaik Adaptive sound localization with a silicon cochlea pair
Girin et al. Audio source separation into the wild
Aarabi et al. Robust sound localization using conditional time–frequency histograms
Xu et al. A machine hearing system for binaural sound localization based on instantaneous correlation
Pan et al. Multi-tones' phase coding (mtpc) of interaural time difference by spiking neural network
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
Firoozabadi et al. Combination of nested microphone array and subband processing for multiple simultaneous speaker localization
Zhao et al. Deep learning for binaural sound source localization with low signal-to-noise ratio
Al-Abboodi Binaural sound source localization using machine learning with spiking neural networks features extraction
Youssef et al. Simultaneous identification and localization of still and mobile speakers based on binaural robot audition
Al-Ali et al. Enhanced forensic speaker verification performance using the ICA-EBM algorithm under noisy and reverberant environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181012