CN107942290A - 基于bp神经网络的双耳声源定位方法 - Google Patents

基于bp神经网络的双耳声源定位方法 Download PDF

Info

Publication number
CN107942290A
CN107942290A CN201711138517.7A CN201711138517A CN107942290A CN 107942290 A CN107942290 A CN 107942290A CN 201711138517 A CN201711138517 A CN 201711138517A CN 107942290 A CN107942290 A CN 107942290A
Authority
CN
China
Prior art keywords
output
layer
neuron
signal
binaural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711138517.7A
Other languages
English (en)
Other versions
CN107942290B (zh
Inventor
周琳
王立杰
庄琰
李楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711138517.7A priority Critical patent/CN107942290B/zh
Publication of CN107942290A publication Critical patent/CN107942290A/zh
Application granted granted Critical
Publication of CN107942290B publication Critical patent/CN107942290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/803Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于BP神经网络的双耳声源定位方法,本发明提取出双耳声信号的互相关函数与耳间强度差作为特征参数,用反向传播BP神经网络对特征参数进行建模。测试过程中根据测试双耳声信号的互相关函数和耳间强度差,利用神经网络估计每帧双耳声信号对应的声源方位。相对于现有技术,本发明鲁棒性和准确率有明显提高。

Description

基于BP神经网络的双耳声源定位方法
技术领域
本发明涉及声源定位方法,尤其涉及一种基于BP神经网络的双耳声源定位方法。
背景技术
声源定位算法是语音信号处理的重要研究方向,也有比较广泛的应用场合,如视频会议系统中,声源定位技术可实现摄像头实时对准发言人;应用于语音识别的前期处理过程可以改善语音的质量,帮助提高识别的正确率;应用于助听装置时,可为听力障碍者提供声源位置信息,并提供有效语音信息。
声源定位技术所涉领域很广,包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。双耳声源定位利用的是对双耳各自采集到的信号的差异进行分析从而估计声源方位,目前的定位算法根据其定位参数的区别可以分为两类:
1、基于耳间差的定位
Lord Rayleigh于1907年在球形人头假设之上,首次提出基于耳间线索差的定位理论,即由于声源与人的双耳位置之间的位置差异,使得双耳接收到的声信号存在时间和强度差异,即耳间时间差(Inter-aural Time Difference,ITD)和耳间强度差(Inter-aural Intensity Difference,IID),这两方面因素差异是双耳声源定位的基础。与ITD、IID相关双耳声信号的互相关函数(Cross Correlation Function,CCF)也是耳间差异参数,但实际环境中由于混响和噪声的干扰,会导致定位性能的下降。
2、基于头相关传递函数的定位
ITD信息可以判断左、右方位的声源,而不能判别声音是来自前方还是后方,也不能定位仰角位置。但是基于与头相关传递函数(Head-Related Transfer Function,HRTF)的方法对声源的定位就不再局限于水平面及前向声源,可以实现对三维空间声源的定位,该方法利用HRTF数据库设计逆滤波器,通过逆滤波之后的双耳信号计算互相关值,据此来估计声源方位。此类方法解决了三维空间声源定位问题,但是计算复杂度过大,并且与头相关传递函数的个体性较强,对不同个体,或者周围环境有所差异(即存在不同噪声或混响情况下)时,可能导致实际传递函数与定位模型中使用的函数不一致,进而影响定位的准确率。
发明内容
发明目的:针对以往定位算法在噪声和混响条件下,性能下降的问题,本发明提出了一种基于BP神经网络的双耳声源定位方法,该方法采用BP神经网路对多环境下的样本数据进行训练,在不同声学环境下的仿真测试表明,该方法的鲁棒性和准确率有显著提高。
技术方案:本发明所述的基于BP神经网络的双耳声源定位方法包括以下步骤:
(1)将训练单声道声信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成不同方位角的训练双耳声信号;
(2)将所述不同方位角的训练双耳声信号加入不同混响时间的混响声和不同信噪比的白噪声,得到不同方位角在不同声学环境下的训练双耳声信号;
(3)对步骤(2)得到的训练双耳声信号分别进行预处理,得到不同方位角的多个单帧训练双耳声信号;
(4)对于每个方位角的每个单帧训练双耳声信号,计算其互相关函数CCF和耳间强度差IID;
(5)对于每个方位角,将其对应的所有帧训练双耳声信号的CCF和IID作为神经网络的输入层参数,将方位角作为神经网络的输出参数,根据设置的神经网络参数,基于BP学习算法迭代训练神经网络;
(6)对不同声学环境下的测试双耳声信号进行预处理,得到不同方位角的多个单帧测试双耳声信号;
(7)对于每个方位角的每个单帧测试双耳声信号,计算其互相关函数CCF和耳间强度差IID;
(8)将步骤(7)得到的互相关函数CCF和耳间强度差IID作为步骤(5)训练后得到的神经网络的输入特征,估计得到测试双耳声信号的方位角。
其中,所述步骤(1)中的不同方位角的训练双耳声信号的计算公式为;
x′L=s*hL
x′R=s*hR
其中,x′L、x′R分别为左耳声信号、右耳声信号,s为单声道声信号,hL、hR分别为指定方位角θ对应的左耳HRIR和右耳HRIR,*为卷积运算。
其中,所述步骤(3)和步骤(6)中的预处理步骤包括幅度归一化、分帧和加窗;其中:
幅度归一化方法为:
式中,分别为幅度归一化前的左耳声信号、右耳声信号,即根据步骤(2)对x′L、x′R加入混响、噪声后的双耳声信号,xL、xR分别为幅度归一化后的左耳声信号、右耳声信号,
分帧方法为:采用预设分帧长度和帧移,将声信号划分为多个单帧信号;
加窗方法为:
xL(τ,m)=wH(m)xL(τN+m)0≤m<N
xR(τ,m)=wH(m)xR(τN+m)
式中,xL(τ,m)、xR(τ,m)分别为加窗后的第τ帧的左耳声信号、右耳声信号,为汉明窗,N为帧长
其中,所述步骤(4)和步骤(7)中互相关函数CCF的计算公式为:
式中,R(τ,d)表示第τ帧的双耳声信号的互相关函数CCF,xL(τ,m)、xR(τ,m+d)分别为预处理后的第τ帧的左耳声信号、右耳声信号,d为延迟采样点数,N为帧长;
其中,所述步骤(4)和步骤(7)中耳间强度差IID的计算公式为:
式中,IIDτ(ω)表示第τ帧的双耳声信号的耳间强度差,XR(τ,ω)、XL(τ,ω)分别为预处理后得到的左耳声信号xL(τ,m)、右耳声信号xR(τ,m)的傅里叶变换,N为帧长。
其中,所述步骤(5)具体包括:
(5-1)网络初始化:设置神经网络输入层神经元个数MIN为输入特征的维数,具体为IID特征维数+CCF特征维数,输出层神经元个数MOUT等于所有可能的输出方位角θ的个数,隐含层层数为2,隐含层神经元个数MM为预设值;初始化网络各层间的权值,包括输入层与第一个隐含层之间的权值为wij,两个隐含层之间的权值为wjk,第二个隐含层与输出层之间的权值为wkl;初始化两个隐含层神经元的阈值a1 j、a2 k与输出层的阈值bl;其中,i为输入层第i个神经元,j为第一个隐含层的第j个神经元,k为第二个隐含层的第k个神经元,l为输出层的第l个神经元;
(5-2)输入训练样本(X,Y),其中xi为每帧双耳声信号的CCF和IID参数,yl为神经网络的预期输出;其中,神经网络的预期输出为:真实方位角对应的输出层神经元输出为1,输出层其余神经元输出为0,即神经网络的理想输出为:
其中,θtrue表示输入的当前帧信号所对应的真实方位角,θl表示第l个神经元对应的方位角;
(5-3)依次计算每层网络的实际输出值,直到计算出输出层每个神经元的实际输出其中,第一个隐含层的第j个神经元、第二个隐含层的第k个神经元的输出分别为:
其中,f()表示隐含层的激活函数,对于每个隐含层的神经元,当[0,1]区间的随机数rand(1)大于预设dropout参数时,Mask的值为1,反之Mask的值为0;
根据计算得到的两个隐含层的输出,得到输出层各节点的实际输出:
其中,g()表示输出层的激活函数;
(5-4)计算当前训练样本的误差,对所有输出节点,输出误差e定义预期输出yl与实际输出yl *的差值之和:
(5-5)根据下式计算误差e对权重wkl、wjk与wij的偏导,并根据偏导修正权重wkl、wjk与wij
(5-6)根据下式计算误差e对于阈值bl的偏导,并根据偏导修正阈值bl
(5-7)若当前迭代次数小于预设总迭代次数,则返回至(5-3)进行再计算,直至得到达到预设迭代次数,迭代结束,训练神经网络结束。
有益效果:本发明与现有技术相比,其显著优点是:本发明提取出双耳声信号的互相关函数与耳间强度差作为特征参数,用反向传播BP(Back Propagation)神经网络对特征参数进行训练,测试过程中根据测试双耳声信号的互相关函数和耳间强度差,利用神经网络估计每帧双耳声信号对应的声源方位。本发明鲁棒性和准确率有明显提高。
附图说明
图1是本发明的一个实施例的流程示意图;
图2是分帧处理示意图;
图3是采用本发明对方位角0度、无混响且信噪比为5dB的女声测试信号的测试结果示意图;
图4是采用本发明在不同条件下定位正确率比较结果图;
图5是不同方法在无混响条件下的正确率比较结果图;
图6是不同方法在混响时间为200ms的正确率比较结果图;
图7是不同方法在混响时间为600ms的正确率比较结果图;
图8是不同混响时间下,随着信噪比的降低,定位正确率的变化趋势图;
图9是采用本发明对方位角为10度,-60度,40度混合声源的测试结果图;
具体实施方式
如图1所示,本实施例提供的基于BP神经网络的双耳声源定位方法包括以下步骤:
步骤一、将训练单声道声信号与不同方位角的与头相关脉冲响应函数HRIR(HeadRelated Impulse Response)卷积,生成不同方位角的训练双耳声信号,计算公式为;
x′L=s*hL
x′R=s*hR
其中,x′L、x′R分别为左耳声信号、右耳声信号,s为单声道声信号,hL、hR分别为指定方位角θ对应的左耳HRIR和右耳HRIR,*为卷积运算。
单声道声信号采用CHAINS Speech Corpus语音库SOLO中的单声道女声、男声信号。HRIR数据采用麻省理工学院媒体实验室测量的HRIR数据,方位角θ范围为[-90°,90°],间隔10°取值,每个方位角θ对应一对HRIR数据,即左耳HRIR、右耳HRIR。
步骤二、将所述不同方位角的训练双耳声信号加入不同混响时间的混响声和不同信噪比的白噪声,得到不同方位角在不同声学环境下的训练双耳声信号。
步骤一生成的是无噪声、无混响环境下的纯净双耳声信号,为了能让BP神经网络能够学习到噪声、混响环境下,双耳声信号对应的空间特征参数的分布规律,还同时将混响时间设置为200、600ms,信噪比设置为0、5、10、15、20dB,在上述生成的纯净双耳声信号加入相应的混响和白噪声,从而得到不同方位角在不同声学环境下的双耳声信号。这样对应每个方位角,分别得到无混响时,信噪比为0、5、10、15、20dB、纯净条件下的双耳声信号,混响时间为200ms时,信噪比为0、5、10、15、20dB的双耳声信号,以及混响时间为600ms时,信噪比为0、5、10、15、20dB的双耳声信号。
步骤三、对步骤二得到的训练双耳声信号分别进行预处理,得到不同方位角的多个单帧训练信号。
其中,进行预处理一方面是考虑到算法需要适用于不同声学环境下,而这要求对数据处理进行某种程度的“标准化”。预处理步骤包括幅度归一化、分帧和加窗。
(1)幅度归一化:语音信号的采集过程中,环境、设备等条件的差异会导致语音信号之间存在一定的幅度差异。这无疑会对后续特征提取等过程造成影响,若需要算法对不同声学环境具有适用性,则需要消除这种由幅度差异带来的不稳定因素,因此,有必要对采集的声信号进行。幅度归一化采用以下公式实现:
式中,分别为幅度归一化前的左耳声信号、右耳声信号,即根据步骤(2)对x′L、x′R加入混响、噪声后的双耳声信号,xL、xR分别为幅度归一化后的左耳声信号、右耳声信号,
(2)分帧:语音信号总体上是一个时变信号,即所要提取的特征在整个时长范围内是变化的。对此的解决方法是短时分析,这是由于语音信号的短时平稳特性,所以可以对信号分帧加窗,其在每一帧的时间内可看作平稳的,这使得逐帧分析得以实现。通常,每秒的帧数约为33~100帧。分帧一般采取如图2所示的交叠分段的方法,以使帧与帧之间平滑过渡,保持连续性。前后两帧的交叠部分称为帧移。
(3)加窗:分割出的单帧信号需要通过时域窗函数进行平滑处理,保持帧间连续性,降低截断效应。相较于矩形窗,汉明窗的旁瓣更小,因此选用汉明窗对分帧后的信号加窗。加窗方法为:
xL(τ,m)=wH(m)xL(τN+m)0≤m<N
xR(τ,m)=wH(m)xR(τN+m)
式中,xL(τ,m)、xR(τ,m)分别为加窗后的第τ帧的左耳声信号、右耳声信号,为汉明窗,N为帧长。
步骤四、对于每个方位角的每个单帧训练信号,计算其互相关函数CCF和耳间强度差IID。
其中,互相关函数CCF的计算公式为:
式中,R(τ,d)表示第τ帧的双耳声信号的互相关函数CCF,xL(τ,m)、xR(τ,m+d)分别为预处理后的第τ帧的左耳声信号、右耳声信号,d为延迟采样点数,N为帧长;
其中,耳间强度差IID的计算公式为:
式中,IIDτ(ω)表示第τ帧的双耳声信号的耳间强度差,XR(τ,ω)、XL(τ,ω)分别为预处理后得到的左耳声信号xL(τ,m)、右耳声信号xR(τ,m)的傅里叶变换,N为帧长。
步骤五、对于每个方位角,将其对应的所有帧训练信号的CCF和IID作为神经网络的输入层参数,将方位角作为神经网络的输出参数,根据设置的神经网络参数,基于BP学习算法迭代训练神经网络。
本发明采用神经网络包含两个隐含层,每个隐含层包含100个神经元。对神经网络的学习率进行设置。本发明在仿真实验基础上,将学习率设置为0.1,总迭代次数设置为20次,学习率设为0.1可以避免误差函数和误分率振荡过大,同时迭代次数为20时,神经网络的模型接近收敛。在参数较多的神经网络训练过程中,可能会存在训练过度的问题,本发明为了防止过度拟合,引入了dropout参数。该方法是从神经网络中随机丢弃神经元以及所连接的权值,这样可以防止神经元调整过多,这种随机丢弃的方法使得在训练过程中创建稀疏网络。本发明的dropout参数为0.5。综合以上步骤,最终可以确定本发明所构建的神经网络具有两层隐含层,隐含层的节点数为100,学习率为0.1,dropout参数为0.5。
基于设定的参数,步骤五具体包括以下步骤:
(5-1)网络初始化:输入层为输入特征的维数,其中IID特征有512维,CCF参数特征有32维,所以输入层神经元个数为544;输出层神经元对应所有可能的输出方位角θ,所以输出层神经元个数为19,每个输出神经元对应不同的方位角;两个隐含层神经元个数均为100;初始化网络各层间的权值,包括输入层与第一个隐含层之间的权值为wij,两个隐含层之间的权值为wjk,第二个隐含层与输出层之间的权值为wkl;初始化两个隐含层神经元的阈值a1 j、a2 k与输出层的阈值bl;其中,i为输入层第i个神经元,j为第一个隐含层的第j个神经元,k为第二个隐含层的第k个神经元,l为输出层的第l个神经元;
(5-2)输入训练样本(X,Y),其中X=(x1,x2,...,xi,...,x544),Y=(y1,y2,...,yl,...,y19),xi为每帧双耳声信号的CCF和IID参数,yl为神经网络的预期输出;其中,神经网络的预期输出为:真实方位角对应的输出层神经元输出为1,输出层其余神经元输出为0,即神经网络的理想输出为:
其中,θtrue表示输入的当前帧信号所对应的真实方位角,θl表示第l个神经元对应的方位角;
(5-3)依次计算每层网络的实际输出值,直到计算出输出层每个神经元的实际输出其中,第一个隐含层的第j个神经元、第二个隐含层的第k个神经元的输出分别为:
其中,f()表示隐含层的激活函数,对于每个隐含层的神经元,当[0,1]区间的随机数rand(1)大于预设dropout参数时,Mask的值为1,反之Mask的值为0;
根据计算得到的两个隐含层的输出,得到输出层各节点的实际输出:
其中,g()表示输出层的激活函数;
(5-4)计算当前训练样本的误差,对所有输出节点,输出误差e定义预期输出yl与实际输出的差值之和:
(5-5)根据下式计算误差e对权重wkl、wjk与wij的偏导,并根据偏导修正权重wkl、wjk与wij
(5-6)根据下式计算误差e对于阈值bl的偏导,并根据偏导修正阈值bl
其中,根据偏导修正权重wkl、wjk与wij修正阈值bl均是BP神经网络的常用权重修正过程,是通用方法,在此不再进行阐述。
(5-7)若当前迭代次数小于预设总迭代次数,则返回至(5-3)进行再计算,直至得到达到预设迭代次数,迭代结束,训练神经网络结束。
步骤六、对不同声学环境下的测试双耳声信号进行预处理,得到不同方位角的多个单帧测试信号。
其中,预处理步骤与步骤三相同。
步骤七、对于每个方位角的每个单帧测试信号,计算其互相关函数CCF和耳间强度差IID。
其中,计算互相关函数CCF和耳间强度差IID的步骤与步骤四相同。
步骤八、将步骤七得到的互相关函数CCF和耳间强度差IID作为步骤五训练后得到的神经网络的输入特征,估计得到测试双耳声信号的方位角。
神经网络的输入层为测试双耳声信号每一帧的CCF参数和IID参数,输出层为测试双耳声信号每一帧最大出现概率的方位角,即该帧测试双耳声信号的空间特征线索对应概率最大的方位角。
对以上方法进行仿真验证,最终的性能评估如下:
(1)不同参数条件下声源测试性能对比:
网络的输出实际是声源位于19个方位角的概率值,选取概率最大的方位角即为声源方位。以方位角0度、无混响且信噪比为5dB的女声信号为例,图3给出了每一帧声源定位结果,可以看出定位角度为0度的帧数最多,由此可见,定位正确率较高。
表1-表3给出了不同混响条件下的定位正确率,测试数据所考虑的参数主要为性别和信噪比。
表1无混响情况下各参数语音对应的定位正确率
表2混响200ms情况下各参数语音对应的定位正确率
表3混响600ms情况下各参数语音对应的定位正确率
将表1-表3中男声、女声的定位正确率平均,绘制成图4,从而分析定位正确率随各因素变化趋势。由图4可知,当信噪比从20dB降至5dB时,定位性能下降并不明显,但是信噪比降至0dB时,定位正确率有极为明显的降低。这说明本发明对噪声、混响具有一定的鲁棒性。
(2)与其他方法性能对比
使用不同信噪比、不同混响时间下的单声源测试双耳声信号,将本发明方法的定位正确率与以往方法对比。表4-表6给出了经典GCC定位算法、基于子带SNR声源定位算法与本发明算法的定位正确率比较。
表4不同方法定位正确率对比(无混响)
信噪比 GCC定位法 基于子带SNR估计法 本发明
20dB 98% 99% 100%
15dB 95% 98% 100%
10dB 86% 93% 99%
5dB 65% 86% 94%
0dB 40% 79% 73%
表5不同方法定位正确率对比(混响200ms)
信噪比 GCC定位法 基于子带SNR估计法 本发明
20dB 92% 92% 99%
15dB 82% 90% 98%
10dB 70% 85% 95%
5dB 53% 76% 88%
0dB 35% 65% 71%
表6不同方法定位正确率对比(混响600ms)
信噪比 GCC定位法 基于子带SNR估计法 本发明
20dB 87% 89% 98%
15dB 78% 86% 97%
10dB 65% 80% 93%
5dB 50% 72% 86%
0dB 34% 60% 69%
根据表4-表6,基于神经网络的双耳声源定位算法比之前两者的正确率整体有所上升。在信噪比较小时,正确率的提升则很显著,在信噪比为0dB的情况下,本发明的正确率甚至提升到了GCC方法的两倍有余。图5-7为表4-表6的图示形式。
(3)多声源定位效果评估
对于三声源信号,输出依然是声源位于各方位角的概率,此时选取概率最大的三个方向为定位方向,此时定位正确率的定义是输出的概率最大声源方位是三个正确方位中的一个时,即判定为定位正确,表7为不同混响时间、不同信噪比下的定位正确率。
表7三声源定位正确率
从表7中可以看出除混响时间为600ms,本发明方法依然保持了较高的定位正确率。图8显示了不同混响时间下,随着信噪比的降低,定位正确率的变化趋势,在5dB的信噪比条件下正确率均保持在70%以上。
图9以方位角分别是40度、-60度、10度的混合测试双耳声信号为例,每一帧估计的三个声源方位角统计结果,图示直观的给出了三个声源的方位角。
本发明讨论的主要是算法对定位的性能问题,之前已对多声源这种特殊情况的正确定位做出定义,要具体区分不同声源则已属于语音分离的范畴,本发明不再继续做更深入讨论。

Claims (6)

1.一种基于BP神经网络的双耳声源定位方法,其特征在于,该方法包括以下步骤:
(1)将训练单声道声信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成不同方位角的训练双耳声信号;
(2)将所述不同方位角的训练双耳声信号加入不同混响时间的混响声和不同信噪比的白噪声,得到不同方位角在不同声学环境下的训练双耳声信号;
(3)对步骤(2)得到的训练双耳声信号分别进行预处理,得到不同方位角的多个单帧训练双耳声信号;
(4)对于每个方位角的每个单帧训练双耳声信号,计算其互相关函数CCF和耳间强度差IID;
(5)对于每个方位角,将其对应的所有帧训练双耳声信号的CCF和IID作为神经网络的输入层参数,将方位角作为神经网络的输出参数,根据设置的神经网络参数,基于BP学习算法迭代训练神经网络;
(6)对不同声学环境下的测试双耳声信号进行预处理,得到不同方位角的多个单帧测试双耳声信号;
(7)对于每个方位角的每个单帧测试双耳声信号,计算其互相关函数CCF和耳间强度差IID;
(8)将步骤(7)得到的互相关函数CCF和耳间强度差IID作为步骤(5)训练后得到的神经网络的输入特征,估计得到测试双耳声信号的方位角。
2.根据权利要求1所述的基于BP神经网络的双耳声源定位方法,其特征在于:所述步骤(1)中的不同方位角的训练双耳声信号的计算公式为;
x′L=s*hL
x′R=s*hR
其中,x′L、x′R分别为左耳声信号、右耳声信号,s为单声道声信号,hL、hR分别为指定方位角θ对应的左耳HRIR和右耳HRIR,*为卷积运算。
3.根据权利要求1所述的基于BP神经网络的双耳声源定位方法,其特征在于:所述步骤(3)和步骤(6)中的预处理步骤包括幅度归一化、分帧和加窗;其中:
幅度归一化方法为:
式中,分别为幅度归一化前的左耳声信号、右耳声信号,即根据步骤(2)对x′L、x′R加入混响、噪声后的双耳声信号,xL、xR分别为幅度归一化后的左耳声信号、右耳声信号,
分帧方法为:采用预设分帧长度和帧移,将声信号划分为多个单帧信号;
加窗方法为:
xL(τ,m)=wH(m)xL(τN+m)0≤m<N
xR(τ,m)=wH(m)xR(τN+m)
式中,xL(τ,m)、xR(τ,m)分别为加窗后的第τ帧的左耳声信号、右耳声信号,为汉明窗,N为帧长。
4.根据权利要求1所述的基于BP神经网络的双耳声源定位方法,其特征在于:所述步骤(4)和步骤(7)中互相关函数CCF的计算公式为:
式中,R(τ,d)表示第τ帧的双耳声信号的互相关函数CCF,xL(τ,m)、xR(τ,m+d)分别为预处理后的第τ帧的左耳声信号、右耳声信号,d为延迟采样点数,N为帧长。
5.根据权利要求1所述的基于BP神经网络的双耳声源定位方法,其特征在于:所述步骤(4)和步骤(7)中耳间强度差IID的计算公式为:
式中,IIDτ(ω)表示第τ帧的双耳声信号的耳间强度差,XR(τ,ω)、XL(τ,ω)分别为预处理后得到的左耳声信号xL(τ,m)、右耳声信号xR(τ,m)的傅里叶变换,N为帧长。
6.根据权利要求1所述的基于BP神经网络的双耳声源定位方法,其特征在于:所述步骤(5)具体包括:
(5-1)网络初始化:设置神经网络输入层神经元个数MIN为输入特征的维数,具体为IID特征维数+CCF特征维数,输出层神经元个数MOUT等于所有可能的输出方位角θ的个数,隐含层层数为2,隐含层神经元个数MM为预设值;初始化网络各层间的权值,包括输入层与第一个隐含层之间的权值为wij,两个隐含层之间的权值为wjk,第二个隐含层与输出层之间的权值为wkl;初始化两个隐含层神经元的阈值a1 j、a2 k与输出层的阈值bl;其中,i为输入层第i个神经元,j为第一个隐含层的第j个神经元,k为第二个隐含层的第k个神经元,l为输出层的第l个神经元;
(5-2)输入训练样本(X,Y),其中xi为每帧双耳声信号的CCF和IID参数,yl为神经网络的预期输出;其中,神经网络的预期输出为:真实方位角对应的输出层神经元输出为1,输出层其余神经元输出为0,即神经网络的理想输出为:
其中,θtrue表示输入的当前帧信号所对应的真实方位角,θl表示第l个神经元对应的方位角;
(5-3)依次计算每层网络的实际输出值,直到计算出输出层每个神经元的实际输出其中,第一个隐含层的第j个神经元、第二个隐含层的第k个神经元的输出分别为:
其中,f()表示隐含层的激活函数,对于每个隐含层的神经元,当[0,1]区间的随机数rand(1)大于预设dropout参数时,Mask的值为1,反之Mask的值为0;
根据计算得到的两个隐含层的输出,得到输出层各节点的实际输出:
其中,g()表示输出层的激活函数;
(5-4)计算当前训练样本的误差,对所有输出节点,输出误差e定义为预期输出yl与实际输出yl *的差值之和:
(5-5)根据下式计算误差e对权重wkl、wjk与wij的偏导,并根据偏导修正权重wkl、wjk与wij
(5-6)根据下式计算误差e对于阈值bl的偏导,并根据偏导修正阈值bl
(5-7)若当前迭代次数小于预设总迭代次数,则返回至(5-3)进行再计算,直至得到达到预设迭代次数,迭代结束,训练神经网络结束。
CN201711138517.7A 2017-11-16 2017-11-16 基于bp神经网络的双耳声源定位方法 Active CN107942290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711138517.7A CN107942290B (zh) 2017-11-16 2017-11-16 基于bp神经网络的双耳声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711138517.7A CN107942290B (zh) 2017-11-16 2017-11-16 基于bp神经网络的双耳声源定位方法

Publications (2)

Publication Number Publication Date
CN107942290A true CN107942290A (zh) 2018-04-20
CN107942290B CN107942290B (zh) 2019-10-11

Family

ID=61932615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711138517.7A Active CN107942290B (zh) 2017-11-16 2017-11-16 基于bp神经网络的双耳声源定位方法

Country Status (1)

Country Link
CN (1) CN107942290B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109164415A (zh) * 2018-09-07 2019-01-08 东南大学 一种基于卷积神经网络的双耳声源定位方法
CN111246363A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种基于听觉匹配的虚拟声定制方法及装置
CN111324989A (zh) * 2020-03-19 2020-06-23 重庆大学 一种基于ga-bp神经网络的齿轮接触疲劳寿命预测方法
CN111370019A (zh) * 2020-03-02 2020-07-03 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN111381211A (zh) * 2020-03-02 2020-07-07 北京声智科技有限公司 一种声源定位方法及装置
CN111707990A (zh) * 2020-08-19 2020-09-25 东南大学 一种基于密集卷积网络的双耳声源定位方法
CN111781555A (zh) * 2020-06-10 2020-10-16 厦门市派美特科技有限公司 具有校正功能的有源降噪耳机声源定位方法和装置
CN112346013A (zh) * 2020-10-28 2021-02-09 西北工业大学 一种基于深度学习的双耳声源定位方法
CN113640744A (zh) * 2021-08-20 2021-11-12 歌尔科技有限公司 声源定位方法及音频设备
CN115902774A (zh) * 2022-10-13 2023-04-04 广州成至智能机器科技有限公司 无人机声源定位方法、装置、无人机及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
CN105575403A (zh) * 2015-12-25 2016-05-11 重庆邮电大学 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法
KR101647059B1 (ko) * 2015-03-18 2016-08-10 서강대학교산학협력단 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법
CN105976827A (zh) * 2016-05-26 2016-09-28 南京邮电大学 一种基于集成学习的室内声源定位方法
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN106501772A (zh) * 2016-10-18 2017-03-15 武汉轻工大学 一种基于双耳线索的空间音源定位方法及系统
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
KR101647059B1 (ko) * 2015-03-18 2016-08-10 서강대학교산학협력단 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법
CN105575403A (zh) * 2015-12-25 2016-05-11 重庆邮电大学 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法
CN105976827A (zh) * 2016-05-26 2016-09-28 南京邮电大学 一种基于集成学习的室内声源定位方法
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN106501772A (zh) * 2016-10-18 2017-03-15 武汉轻工大学 一种基于双耳线索的空间音源定位方法及系统
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
束佳明: "基于双耳声源定位的鲁棒语音分离研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109164415A (zh) * 2018-09-07 2019-01-08 东南大学 一种基于卷积神经网络的双耳声源定位方法
CN111246363A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种基于听觉匹配的虚拟声定制方法及装置
CN111246363B (zh) * 2020-01-08 2021-07-20 华南理工大学 一种基于听觉匹配的虚拟声定制方法及装置
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN111370019A (zh) * 2020-03-02 2020-07-03 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN111381211A (zh) * 2020-03-02 2020-07-07 北京声智科技有限公司 一种声源定位方法及装置
CN111324989A (zh) * 2020-03-19 2020-06-23 重庆大学 一种基于ga-bp神经网络的齿轮接触疲劳寿命预测方法
CN111324989B (zh) * 2020-03-19 2024-01-30 重庆大学 一种基于ga-bp神经网络的齿轮接触疲劳寿命预测方法
CN111781555A (zh) * 2020-06-10 2020-10-16 厦门市派美特科技有限公司 具有校正功能的有源降噪耳机声源定位方法和装置
CN111781555B (zh) * 2020-06-10 2023-10-17 厦门市派美特科技有限公司 具有校正功能的有源降噪耳机声源定位方法和装置
CN111707990B (zh) * 2020-08-19 2021-05-14 东南大学 一种基于密集卷积网络的双耳声源定位方法
CN111707990A (zh) * 2020-08-19 2020-09-25 东南大学 一种基于密集卷积网络的双耳声源定位方法
CN112346013B (zh) * 2020-10-28 2023-06-30 西北工业大学 一种基于深度学习的双耳声源定位方法
CN112346013A (zh) * 2020-10-28 2021-02-09 西北工业大学 一种基于深度学习的双耳声源定位方法
CN113640744A (zh) * 2021-08-20 2021-11-12 歌尔科技有限公司 声源定位方法及音频设备
CN115902774A (zh) * 2022-10-13 2023-04-04 广州成至智能机器科技有限公司 无人机声源定位方法、装置、无人机及存储介质
CN115902774B (zh) * 2022-10-13 2023-11-07 广州成至智能机器科技有限公司 无人机声源定位方法、装置、无人机及存储介质

Also Published As

Publication number Publication date
CN107942290B (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN107942290B (zh) 基于bp神经网络的双耳声源定位方法
CN109164415B (zh) 一种基于卷积神经网络的双耳声源定位方法
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
CN104464750B (zh) 一种基于双耳声源定位的语音分离方法
Willert et al. A probabilistic model for binaural sound localization
CN110517705B (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
EP3633676A1 (en) Rnn-based noise reduction method and device for real-time conference
CN109782231B (zh) 一种基于多任务学习的端到端声源定位方法及系统
CN109410976A (zh) 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN106057210B (zh) 双耳间距下基于频点选择的快速语音盲源分离方法
US20100183158A1 (en) Apparatus, systems and methods for binaural hearing enhancement in auditory processing systems
CN108122559A (zh) 一种数字助听器中基于深度学习的双耳声源定位方法
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN108647556A (zh) 基于分频和深度神经网络的声源定位方法
Xiong et al. Joint estimation of reverberation time and early-to-late reverberation ratio from single-channel speech signals
CN108877831B (zh) 基于多标准融合频点筛选的盲源分离快速方法及系统
CN112885368B (zh) 基于改进胶囊网络的多频带谱减法振动信号去噪方法
CN111816200B (zh) 一种基于时频域二值掩膜的多通道语音增强方法
CN106019230B (zh) 一种基于i-vector说话人识别的声源定位方法
CN112380939A (zh) 一种基于生成对抗网络的深度学习信号增强方法
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN111707990B (zh) 一种基于密集卷积网络的双耳声源定位方法
Lee et al. Natural frequency-based neural network approach to radar target recognition
CN111948609B (zh) 基于Soft-argmax回归器的双耳声源定位方法
CN115426055B (zh) 一种基于解耦卷积神经网络的含噪水声信号盲源分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant