CN111707990B - 一种基于密集卷积网络的双耳声源定位方法 - Google Patents

一种基于密集卷积网络的双耳声源定位方法 Download PDF

Info

Publication number
CN111707990B
CN111707990B CN202010835547.9A CN202010835547A CN111707990B CN 111707990 B CN111707990 B CN 111707990B CN 202010835547 A CN202010835547 A CN 202010835547A CN 111707990 B CN111707990 B CN 111707990B
Authority
CN
China
Prior art keywords
sub
binaural
dense
signal
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010835547.9A
Other languages
English (en)
Other versions
CN111707990A (zh
Inventor
周琳
王天仪
冯坤
许越
马康宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010835547.9A priority Critical patent/CN111707990B/zh
Publication of CN111707990A publication Critical patent/CN111707990A/zh
Application granted granted Critical
Publication of CN111707990B publication Critical patent/CN111707990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于密集卷积网络的双耳声源定位方法,在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对密集卷积网络进行训练,得到密集卷积网络分类器;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的密集卷积网络分类器估计每帧双耳声信号对应的方位信息。在不同声学环境下的实验结果表明,本发明具有很好的鲁棒性,尤其是在高噪声和强混响情况下显著提升了定位正确率。

Description

一种基于密集卷积网络的双耳声源定位方法
技术领域
本发明属于声源定位技术领域,涉及一种基于密集卷积网络的双耳声源定位方法。
背景技术
在语音信号处理领域,声源定位技术是一个经典的研究课题。可靠的声源定位技术有利于提升语音增强、语音分离等前端语音处理算法的性能。声源定位技术在生活中也有着广泛的应用场景。例如,在人机交互场景中,机器人可以通过声源定位技术寻找或跟随说话者,或者利用声源定位技术提升语音识别的能力。在视频监控场景中,通过声源定位技术,摄像头可以自动转向以追踪发出声响的方向。
声源定位技术所涉领域很广,包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。双耳声源定位利用双耳信号的差异进行分析从而估计声源方位,目前的定位算法根据其定位参数的区别可以分为两类,但均存在缺陷:
1、基于耳间差的定位
Lord Rayleigh于1907年首次提出基于耳间线索差的定位理论,“双工理论”。该理论指出,人类可以依靠声音到达左右耳时产生的耳间时间差(Interaural TimeDifference, ITD)和耳间强度差(Interaural Intensity Difference, IID)进行声源的定位,其中,ITD主要来自于声音中的低频部分,IID主要来自于声音中的高频部分,此外与ITD、IID相关双耳声信号的互相关函数(Cross Correlation Function,CCF)也是耳间差异参数。ITD、IID和CCF在目前主流的方法中被用来作为双耳声源定位系统的重要参数,但实际环境中由于混响和噪声的干扰,会导致定位性能的下降,如何提升复杂环境中定位算法的鲁棒性仍然需要进一步的研究。
2、基于头相关传递函数的定位
ITD信息可以判断左、右方位的声源,而不能判别声音是来自前方还是后方,也不能定位仰角位置。但是基于与头相关传递函数(Head-Related Transfer Function,HRTF)的方法对声源的定位就不再局限于水平面及前向声源,可以实现对三维空间声源的定位,该方法利用HRTF数据库设计逆滤波器,通过逆滤波之后的双耳信号计算互相关值,据此来估计声源方位。此类方法解决了三维空间声源定位问题,但是计算复杂度过大,并且与头相关传递函数的个体性较强,对不同个体,或者周围环境有所差异(即存在不同噪声或混响情况下)时,可能导致实际传递函数与定位模型中使用的函数不一致,进而影响定位的准确率。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于密集卷积网络的双耳声源定位方法,在子带内提取出训练双耳声信号的互相关函数和耳间强度差组成二维特征参数作为训练样本,采用密集卷积网络对多环境下的特征参数进行训练,得到密集卷积网络分类器,测试中提取测试双耳声信号的二维特征参数,利用训练得到的密集卷积网络分类器估计每帧双耳声信号对应的方位信息。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于密集卷积网络的双耳声源定位方法,包括以下步骤:
步骤1,获取不同方位角、不同混响时间、不同信噪比下的双耳声信号:
步骤2,对双耳声信号进行子带滤波、分帧和加窗,得到各个子带分帧后的双耳声信号。
步骤3,计算子带分帧后的双耳声信号的耳间特征参数,并将耳间特征参数进行融合,从而形成双耳声信号二维特征参数向量。
根据各个子带分帧后的双耳声信号计算子带每一帧双耳声信号的互相关函数CCF和耳间强度差IID,并将互相关函数和耳间强度差参数组成一维的特征向量,其中互相关函数CCF的公式为:
Figure DEST_PATH_IMAGE001
式中,CCF(i,τ,d)表示第i个子带第τ帧的双耳声信号对应的互相关函数CCF,x L (i,τ,m) 表示子带滤波分帧加窗后第i个子带第τ帧的左耳声信号,x R (i,τ,m)表示子带滤波分帧加窗后第i个子带第τ帧的右耳声信号,m表示样本点序号,d为延迟采样点数,L为最大延迟采样点数。
耳间强度差IID的计算公式为:
Figure 518200DEST_PATH_IMAGE002
式中,IID(i,τ)表示第i个子带第τ帧的耳间强度差IID。
将第i个子带第τ帧的互相关函数CCF和耳间强度差IID组成一维特征向量:
Figure DEST_PATH_IMAGE003
式中,C(i,τ)表示第i个子带第τ帧的一维特征向量。
将每一帧中每个子带的一维特征向量,根据子带顺序,融合组成一个二维向量:
Figure 436347DEST_PATH_IMAGE004
式中,X(τ)表示第τ帧双耳声信号二维特征参数向量,K为子带个数。
步骤4,利用训练双耳声信号的二维特征参数训练密集卷积网络,密集卷积网络的训练过程具体包括:
步骤41,随机初始化所有卷积层和全连接层的权值。
步骤42,输入训练样本(X(τ),Y),其中X(τ)是步骤3获得的第τ帧双耳声信号二维特征参数向量。Y=(y 1,y 2,..,y n ,…,y Mout ),y n 表示密集卷积网络第n个输出神经元的预期输出值,M out 表示方位角个数。密集卷积网络的预期输出为:真实方位角对应的输出层神经元输出为1,输出层其余神经元输出为0,即:
Figure DEST_PATH_IMAGE005
式中,θ true 表示当前帧双耳声信号所对应的真实方位角,θ n 表示第n个输出神经元对应的方位角,M out 表示方位角个数。
步骤43,根据神经网络的前向传播算法,依次计算每层网络的实际输出值,直到计算出归一化指数函数Softmax的实际输出值yˊ1,yˊ2,..,yˊ n ,…,yˊ Mout
步骤44,计算当前训练特征参数的代价函数J
Figure 557274DEST_PATH_IMAGE006
式中,n表示归一化指数函数Softmax输出层神经元的序号。
步骤45,使用反向传播算法,计算代价函数J对网络权重的偏导,并修正权重。
步骤46,若当前迭代次数小于预设总迭代次数,则返回至步骤42,继续输入训练样本进行计算,直至得到达到预设迭代次数时迭代结束,训练密集卷积网络结束,得到训练好的密集卷积网络。
步骤5,通过训练好的密集卷积网络对待测试双耳声信号对应的融合二维空间特征参数进行运算,确定声源的方位。
优选的:所述步骤1中获取不同方位角、不同混响时间、不同信噪比下的双耳声信号的计算公式为:
Figure DEST_PATH_IMAGE007
式中,x L (m)表示加入混响和噪声后的左耳声信号,x R (m)表示加入混响和噪声后的右耳声信号,s(m)为单声道源信号,h L (m)为混响时间一对应的双耳房间冲激响应函数,h R (m)为混响时间二对应的双耳房间冲激响应函数,混响时间一和混响时间二不同,v L (m) 表示指定信噪比下的左耳白噪声信号, v R (m)表示指定信噪比下的右耳白噪声信号,m表示样本点序号,
Figure 92029DEST_PATH_IMAGE008
为卷积运算。
优选的:步骤2中子带滤波采用Gammatone滤波器组,Gammatone滤波器组的时域冲激响应函数为:
Figure DEST_PATH_IMAGE009
式中,g i (m)表示Gammatone滤波器组的时域冲激响应函数,i表示滤波器的序号。A为滤波器增益。f i 是滤波器的中心频率。f s 是采样频率。b i 是滤波器的衰减因子。u(m)代表阶跃函数,m表示样本点序号。
优选的:所述步骤2中子带滤波的计算公式为:
Figure 81239DEST_PATH_IMAGE010
式中,x L (i,m) 为滤波后的第i个子带的左耳声信号,x R (i,m)为滤波后的第i个子带的右耳声信号。
优选的:所述步骤2中分帧和加窗的公式为:
Figure DEST_PATH_IMAGE011
式中,x L (i,τ,m) 表示分帧后第i个子带第τ帧的左耳声信号、x R (i,τ,m)表示分帧后第i个子带第τ帧的右耳声信号,w H (m)为窗函数,N为帧长, m表示样本点序号,
Figure 853891DEST_PATH_IMAGE012
表示滤波后的第i个子带的左耳声信号,
Figure DEST_PATH_IMAGE013
表示滤波后的第i个子带的右耳声信号。
优选的:所述密集卷积网络包括输入层、卷积层、两个以上的密集连接块和转换层、全连接层、输出层,输入层的输入特征参数为双耳声信号二维特征参数向量,输入层与卷积层连接,密集连接块和转换层交替排列连接,且转换层位于两个密集连接块之间,密集连接块中包含卷积和dropout操作,转换层中包含卷积和池化操作,排在第一位的密集连接块与卷积层连接,排在最后一位的密集连接块为全局池化层,全局池化层、全连接层、输出层依次连接,通过输出层归一化指数函数Softmax函数映射转化为概率,得到M out 个输出值,M out 个输出值表示了M out 个方位角对应的概率。
优选的:所述步骤5通过训练的密集卷积网络对测试双耳声信号对应的融合二维空间特征参数进行运算,确定声源的方位的方法:将待测试双声信号经过子带滤波、分帧加窗后提取的二维特征参数作为训练好的密集卷积网络的输入特征,经过训练好的密集卷积网络的计算,得到密集卷积网络M out 输出神经元的输出值,即每个方位角对应的概率值,概率最大值对应的方位角为目标声源的方位。
本发明相比现有技术,具有以下有益效果:
在不同声学环境下的实验结果表明,本发明提出的基于密集卷积网络的双耳声源定位方法,具有很好的鲁棒性,尤其是在高噪声和强混响情况下显著提升了定位正确率,优于现有技术中的经典算法。
附图说明
图1为本发明一个实施例的流程示意图。
图2为一帧中各个子带的互相关函数与耳间强度差组成二维特征参数可视化后的灰度图。
图3为本发明提供的实施例中密集卷积网络整体结构示意图。
图4为本发明提供的实施例中密集卷积网络内密集连接块结构示意图。
图5为本发明方法在不同条件下定位正确率结果图。
图6为不同方法在A房间声学环境的正确率比较结果图。
图7为不同方法在B房间声学环境的正确率比较结果图。
图8为不同方法在C房间声学环境的正确率比较结果图。
图9为不同方法在D房间声学环境的正确率比较结果图。
图10为不同方法在四种不同房间声学环境的平均正确率比较结果图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本实施例提供的基于密集卷积网络的双耳声源定位方法,包括以下步骤:
步骤一、获取不同方位角、不同混响时间、不同信噪比下的双耳声信号,计算公式为:
Figure 948714DEST_PATH_IMAGE014
式中,x L (m)表示加入混响和噪声后的左耳声信号,x R (m)表示加入混响和噪声后的右耳声信号,s(m)为单声道源信号,h L (m)、h R (m)为不同混响时间对应的双耳房间冲激响应函数,h L (m)为混响时间一对应的双耳房间冲激响应函数,h R (m)为混响时间二对应的双耳房间冲激响应函数,混响时间一和混响时间二不同,v L (m) 表示指定信噪比下的左耳白噪声信号, v R (m)表示指定信噪比下的右耳白噪声信号,m表示样本点序号,
Figure 65705DEST_PATH_IMAGE008
为卷积运算。
本例中,单声道源信号采用CHAINS Speech Corpus语音库SOLO中的单声道女声、男声信号。训练数据的双耳房间脉冲响应函数采用Roomsim仿真软件生成的数据,无混响时,双耳房间脉冲响应函数即为与头相关脉冲响应函数HRIR。测试数据的混响采用Surrey大学实测的双耳房间脉冲响应数据。方位角的范围为[-90°, 90°],间隔5°取值,总计37个方位角。每个方位角对应一对双耳房间脉冲响应函数,即左耳房间脉冲响应函数、右耳房间脉冲响应函数。
训练样本为噪声、混响环境下的双耳声信号,是为了能让密集卷积网络能够学习到噪声、混响环境下双耳声信号的空间特征参数的分布规律。训练双耳声信号的混响时间设置为0.2s、0.6s,信噪比设置为10dB、20dB、30dB,从而得到不同方位角在6种不同声学环境下的双耳声信号。测试双耳声信号的混响来自Surrey大学实测的四个不同房间A、B、C、D数据,信噪比设置为0dB、5dB、10dB、15dB、20dB,从而得到20种不同方位角在20种不同声学环境下的双耳声信号。表1是各房间的声学特性,包括混响时间T60、直达反射比(Direct-to-Reverberant Ratio, DRR)、初始时延间隔(Initial Time Delay Gap, ITDG)。
表1 房间声学特性
Figure DEST_PATH_IMAGE015
步骤二、对步骤一得到的双耳声信号进行子带滤波、分帧和加窗,得到各个子带分帧后的双耳声信号,具体包括如下子步骤:
子带滤波可以采用Gammatone滤波器组,Gammatone滤波器的时域冲激响应函数为:
Figure 327447DEST_PATH_IMAGE016
式中,g i (m) 表示Gammatone滤波器组的时域冲激响应函数,i表示滤波器的序号,A为滤波器增益,f i 是滤波器的中心频率,f s 是采样频率,b i 是滤波器的衰减因子,u(m)代表阶跃函数,m表示样本点序号。
子带滤波的计算公式为:
Figure DEST_PATH_IMAGE017
式中,x L (i,m) 为滤波后的第i个子带的左耳声信号,x R (i,m)为滤波后的第i个子带的右耳声信号,m表示样本点序号。
实际上,本发明的子带滤波器不限制于此实施例的滤波器结构,只要是实现声信号的子带滤波功能的,都可以采用。
分帧和加窗的公式为:
Figure 485765DEST_PATH_IMAGE018
式中,x L (i,τ,m) 表示分帧后第i个子带第τ帧的左耳声信号、x R (i,τ,m)表示分帧后第i个子带第τ帧的右耳声信号,w H (m)为窗函数,N为帧长,m表示样本点序号,
Figure DEST_PATH_IMAGE019
表示滤波后的第i个子带的左耳声信号,
Figure 447030DEST_PATH_IMAGE020
表示滤波后的第i个子带的右耳声信号。
步骤三、计算子带分帧双耳声信号的耳间特征参数,并将耳间特征参数进行融合,从而形成二维特征参数。
首先计算子带每一帧双耳声信号的互相关函数CCF和耳间强度差IID,并将互相关函数和耳间强度差参数组成一维的特征向量,其中互相关函数CCF的计算为:
Figure DEST_PATH_IMAGE021
式中,CCF(i,τ,d)表示第i个子带第τ帧的双耳声信号对应的互相关函数CCF,x L (i,τ,m) 表示子带滤波分帧加窗后第i个子带第τ帧的左耳声信号,x R (i,τ,m)表示子带滤波分帧加窗后第i个子带第τ帧的右耳声信号,m表示样本点序号,d为延迟采样点数,L为最大延迟采样点数。
耳间强度差IID的计算公式为:
Figure 428149DEST_PATH_IMAGE022
式中,IID(i,τ)表示第i个子带第τ帧的耳间强度差IID。
将第i个子带、第τ帧的CCF和IID参数组成一维特征向量的计算过程为:
Figure DEST_PATH_IMAGE023
式中,C(i,τ)表示第i个子带第τ帧的一维特征向量。
然后将每一帧中每个子带的一维特征向量,根据子带顺序,融合组成一个二维向量,其计算过程为:
Figure 756231DEST_PATH_IMAGE024
式中,X(τ)表示第τ帧双耳声信号二维特征参数向量,K为子带个数。
在本实施例中,子带个数K取值为64,互相关函数的最大延迟采样点数L取值为16,这样X(τ)是一个64×34的特征向量。
图2是一个特征参数矩阵可视化后的实例。
步骤四、利用训练双耳声信号的二维特征参数训练密集卷积网络。
下面给出本实施例的密集卷积网络结构。实际上,本发明的密集卷积网络的结构不限制于此实施例的网络结构。
如图3所示,本实施例采用的密集卷积网络依次包含1个输入层,1个卷积层,3个密集连接块和2个转换层,1个池化层,1个全连接层和1个输出层。输入层的输入特征参数为步骤三得到的测试双耳声信号的二维特征参数X(τ),维数为K ×(2L+2),K为子带个数,L为最大延迟采样点数,本例中X(τ)为64×34的特征向量。首个卷积层卷积核大小设置为5×2,卷积核个数为16,步长为1。卷积层后3个密集连接块和2个转换层依次排列,如图4所示,每个密集连接块中各有8层,每层依次经过块归一化函数、ReLU激活函数、3×3卷积、dropout处理,单层固定输出通道数为12,每个密集连接块增加的通道数为96。转换层依次经过块归一化函数、ReLU激活函数、1×1卷积、dropout、2×2最大池化处理,其中1×1卷积的压缩系数θ=0.5,最大池化步长为2。与最后一个密集连接块连接的全局平均池化层步长为2。卷积和池化前均前对上一层的输出进行零填充,以确保卷积和池化前后特征尺寸不会缩小。dropout的保留概率为0.8,引入Dropout方法可以降低过拟合的风险,该方法是从神经网络中随机丢弃神经元以及所连接的权值,这样可以防止神经元调整过多,这种随机丢弃的方法使得在训练过程中创建稀疏网络。全连接层将特征映射为M out 个结果,通过Softmax转化为概率,代表了M out 个方位角对应的概率,这里选择了前向37个方位角。
基于设定的参数,步骤四的具体包括以下步骤:
(4-1)随机初始化所有卷积层和全连接层的权值。
(4-2)输入训练样本(X(τ),Y),其中X(τ)是步骤三获得的第τ帧双耳声信号二维特征参数向量。Y=(y 1,y 2,..,y n ,…,y Mout ),y n 表示密集卷积网络第n个输出神经元的预期输出值,M out 为方位角个数。密集卷积网络的预期输出为:真实方位角对应的输出层神经元输出为1,输出层其余神经元输出为0,即:
Figure DEST_PATH_IMAGE025
式中,θ true 表示当前帧双耳声信号所对应的真实方位角,θ n 表示第n个输出神经元对应的方位角,M out 表示方位角个数。
(4-3)根据神经网络的前向传播算法,依次计算每层网络的实际输出值,直到计算出每个Softmax单元的实际输出值yˊ1,yˊ2,..,yˊ n ,…,yˊ Mout
(4-4)计算当前训练特征参数的代价函数J,定义如下:
Figure 506405DEST_PATH_IMAGE026
式中, n表示归一化指数函数Softmax输出层神经元的序号。
(4-5)使用反向传播算法,计算代价函数J对网络权重的偏导,并修正权重。
(4-6)若当前迭代次数小于预设总迭代次数,则返回至(4-2),继续输入训练样本进行计算,直至得到达到预设迭代次数时迭代结束,训练密集卷积网络结束。
步骤五、通过训练的密集卷积网络对测试双耳声信号对应的融合二维空间特征参数进行运算,确定声源的方位。
将测试双声信号经过子带滤波、分帧加窗后提取的二维特征参数作为预先训练的密集卷积网络的输入特征,经过密集卷积网络的计算,得到密集卷积网络M out 输出神经元的输出值,即每个方位角对应的概率值,概率最大值对应的方位角为目标声源的方位。
对以上方法进行仿真验证,最终的性能评估如下:
使用[-90°, +90°]范围内以5°为间隔的测试双耳声信号对密集卷积网络进行定位测试,将声源定位误差在[-5°, +5°]之间的输出判为正确,定位正确率定义为定位准确的帧数与总帧数之比,即:
Figure DEST_PATH_IMAGE027
测试环境由4种混响环境和5种信噪比组成,共20测试组。测试结果如表2所示。
表2 不同混响和噪声下本发明的定位正确率
Figure 527320DEST_PATH_IMAGE028
将表2的数据绘制成图5,从而分析定位正确率随各因素变化趋势。由图可知,在复杂的混响条件下,环境为高信噪比时定位正确率较高,环境为低信噪比时定位正确率有所下降,但下降并不明显。这说明本发明对噪声、混响具有一定的鲁棒性。
使用不同信噪比、不同混响时间下的测试双耳声信号,将本发明方法的定位正确率与传统的双耳声源定位算法,如经典的广义互相关(Generalized Cross Correlation,GCC)定位算法、基于子带信噪比SNR估计的双耳声源定位算法的性能进行比较,表3给出了不同算法的定位正确率比较结果。
表3 不同定位算法在不同环境下的定位正确率比较
Figure DEST_PATH_IMAGE029
图6-图10为表3的图示形式,根据结果,相对于传统双耳定位算法,基于密集卷积网络的双耳声源定位算法的正确率整体有显著提高,在低信噪比和复杂的混响条件下提升明显。在信噪比为0dB的一些混响条件下,本发明的正确率甚至较GCC方法提升了近两倍。
综上所述,在不同声学环境下的实验结果表明,本发明具有很好的鲁棒性,尤其是在高噪声和强混响情况下显著提升了定位正确率,优于现有技术中的经典算法。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于密集卷积网络的双耳声源定位方法,其特征在于,包括以下步骤:
步骤1,获取不同方位角、不同混响时间、不同信噪比下的双耳声信号;
步骤2,对双耳声信号进行子带滤波、分帧和加窗,得到各个子带分帧后的双耳声信号;
子带滤波的计算公式为:
Figure 505184DEST_PATH_IMAGE001
式中,x L (i,m) 为滤波后的第i个子带的左耳声信号,x R (i,m)为滤波后的第i个子带的右耳声信号;
分帧和加窗的公式为:
Figure 422325DEST_PATH_IMAGE002
式中,x L (i,τ,m) 表示分帧后第i个子带第τ帧的左耳声信号、x R (i,τ,m)表示分帧后第i个子带第τ帧的右耳声信号,w H (m)为窗函数,
Figure 654592DEST_PATH_IMAGE003
表示滤波后的第i个子带的左耳声信号,
Figure 315380DEST_PATH_IMAGE004
表示滤波后的第i个子带的右耳声信号;
步骤3,计算子带分帧后的双耳声信号的耳间特征参数,并将耳间特征参数进行融合,从而形成双耳声信号二维特征参数向量;
根据各个子带分帧后的双耳声信号计算子带每一帧双耳声信号的互相关函数CCF和耳间强度差IID,并将互相关函数和耳间强度差参数组成一维的特征向量,其中,互相关函数CCF的公式为:
Figure 129753DEST_PATH_IMAGE005
式中,CCF(i,τ,d)表示第i个子带第τ帧的双耳声信号对应的互相关函数CCF,x L (i,τ,m)表示子带滤波分帧加窗后第i个子带第τ帧的左耳声信号,x R (i,τ,m)表示子带滤波分帧加窗后第i个子带第τ帧的右耳声信号,m表示样本点序号,N为帧长,d为延迟采样点数,L为最大延迟采样点数;
耳间强度差IID的计算公式为:
Figure 155477DEST_PATH_IMAGE006
式中,IID(i,τ)表示第i个子带第τ帧的耳间强度差IID;
将第i个子带第τ帧的互相关函数CCF和耳间强度差IID组成一维特征向量:
Figure 688090DEST_PATH_IMAGE007
式中,C(i,τ)表示第i个子带第τ帧的一维特征向量;
将每一帧中每个子带的一维特征向量,根据子带顺序,融合组成一个二维向量:
Figure 90252DEST_PATH_IMAGE008
式中,X(τ)表示第τ帧双耳声信号二维特征参数向量,K为子带个数,子带个数K取值为64,最大延迟采样点数L取值为16,双耳声信号二维特征参数向量X(τ)为64×34的特征向量;
步骤4,利用双耳声信号的二维特征参数训练密集卷积网络,所述密集卷积网络包括1个输入层、1个卷积层、3个密集连接块和2个转换层、1个全连接层、1个输出层,输入层的输入特征参数为双耳声信号二维特征参数向量X(τ),输入层与卷积层连接,密集连接块和转换层交替排列连接,且转换层位于两个密集连接块之间,每个密集连接块中各有8层,每层依次经过块归一化函数、ReLU激活函数、3×3卷积、dropout操作处理,转换层中包含卷积和池化操作,排在第一位的密集连接块与卷积层连接,排在最后一位的密集连接块为全局池化层,全局池化层、全连接层、输出层依次连接,最终通过归一化指数函数Softmax函数映射转化为概率,得到M out 个输出值,M out 个输出值表示了M out 个方位角对应的概率;密集卷积网络的训练过程具体包括:
步骤41,随机初始化所有卷积层和全连接层的权值;
步骤42,输入训练样本(X(τ),Y),其中,X(τ)是步骤3获得的第τ帧双耳声信号二维特征参数向量;Y=(y 1,y 2,..,y n ,…,y Mout ),y n 表示密集卷积网络第n个输出神经元的预期输出值,M out 表示方位角个数;密集卷积网络的预期输出为:真实方位角对应的输出层神经元输出为1,输出层其余神经元输出为0,即:
Figure 759131DEST_PATH_IMAGE009
式中,θ true 表示当前帧双耳声信号所对应的真实方位角,θ n 表示第n个输出神经元对应的方位角;
步骤43,根据神经网络的前向传播算法,依次计算每层网络的实际输出值,直到计算出归一化指数函数Softmax的实际输出值yˊ1,yˊ2,..,yˊ n ,…,yˊ Mout
步骤44,计算当前训练特征参数的代价函数J
Figure 18074DEST_PATH_IMAGE010
式中, n表示归一化指数函数Softmax输出层神经元的序号;
步骤45,使用反向传播算法,计算代价函数J对网络权重的偏导,并修正权重;
步骤46,若当前迭代次数小于预设总迭代次数,则返回至步骤42,继续输入训练样本进行计算,直至得到达到预设迭代次数时迭代结束,训练密集卷积网络结束,得到训练好的密集卷积网络;
步骤5,通过训练好的密集卷积网络对待测试双耳声信号对应的融合二维空间特征参数进行运算,确定声源的方位;
通过训练的密集卷积网络对测试双耳声信号对应的融合二维空间特征参数进行运算,确定声源的方位的方法:将待测试双耳 声信号经过子带滤波、分帧加窗后提取的二维特征参数作为训练好的密集卷积网络的输入特征,经过训练好的密集卷积网络的计算,得到密集卷积网络M out 输出神经元的输出值,即每个方位角对应的概率值,概率最大值对应的方位角为目标声源的方位。
2.根据权利要求1所述基于密集卷积网络的双耳声源定位方法,其特征在于:所述步骤1中获取不同方位角、不同混响时间、不同信噪比下的双耳声信号的计算公式为:
Figure 975666DEST_PATH_IMAGE011
式中,x L (m)表示加入混响和噪声后的左耳声信号,x R (m)表示加入混响和噪声后的右耳声信号,s(m)为单声道源信号,h L (m)为混响时间一对应的双耳房间冲激响应函数,h R (m)为混响时间二对应的双耳房间冲激响应函数,混响时间一和混响时间二不同,v L (m) 表示指定信噪比下的左耳白噪声信号,v R (m)表示指定信噪比下的右耳白噪声信号,m表示样本点序号,
Figure 712678DEST_PATH_IMAGE012
为卷积运算。
3.根据权利要求2所述基于密集卷积网络的双耳声源定位方法,其特征在于:步骤2中子带滤波采用Gammatone滤波器组,Gammatone滤波器组的时域冲激响应函数为:
Figure 501642DEST_PATH_IMAGE013
式中,g i (m) 表示Gammatone滤波器组的时域冲激响应函数,i表示滤波器的序号;A为滤波器增益;f i 是滤波器的中心频率;f s 是采样频率;b i 是滤波器的衰减因子;u(m)代表阶跃函数,m表示样本点序号。
CN202010835547.9A 2020-08-19 2020-08-19 一种基于密集卷积网络的双耳声源定位方法 Active CN111707990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010835547.9A CN111707990B (zh) 2020-08-19 2020-08-19 一种基于密集卷积网络的双耳声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010835547.9A CN111707990B (zh) 2020-08-19 2020-08-19 一种基于密集卷积网络的双耳声源定位方法

Publications (2)

Publication Number Publication Date
CN111707990A CN111707990A (zh) 2020-09-25
CN111707990B true CN111707990B (zh) 2021-05-14

Family

ID=72547170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010835547.9A Active CN111707990B (zh) 2020-08-19 2020-08-19 一种基于密集卷积网络的双耳声源定位方法

Country Status (1)

Country Link
CN (1) CN111707990B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112904279B (zh) * 2021-01-18 2024-01-26 南京工程学院 基于卷积神经网络和子带srp-phat空间谱的声源定位方法
CN116719035B (zh) * 2023-08-10 2023-11-07 西安交通大学 双耳超声空间定位方法、自主移动机器人及控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN102565759A (zh) * 2011-12-29 2012-07-11 东南大学 一种基于子带信噪比估计的双耳声源定位方法
CN103901401A (zh) * 2014-04-10 2014-07-02 北京大学深圳研究生院 一种基于双耳匹配滤波器的双耳声音源定位方法
CN107942290A (zh) * 2017-11-16 2018-04-20 东南大学 基于bp神经网络的双耳声源定位方法
CN108122559A (zh) * 2017-12-21 2018-06-05 北京工业大学 一种数字助听器中基于深度学习的双耳声源定位方法
CN109164415A (zh) * 2018-09-07 2019-01-08 东南大学 一种基于卷积神经网络的双耳声源定位方法
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN102565759A (zh) * 2011-12-29 2012-07-11 东南大学 一种基于子带信噪比估计的双耳声源定位方法
CN103901401A (zh) * 2014-04-10 2014-07-02 北京大学深圳研究生院 一种基于双耳匹配滤波器的双耳声音源定位方法
CN107942290A (zh) * 2017-11-16 2018-04-20 东南大学 基于bp神经网络的双耳声源定位方法
CN108122559A (zh) * 2017-12-21 2018-06-05 北京工业大学 一种数字助听器中基于深度学习的双耳声源定位方法
CN109164415A (zh) * 2018-09-07 2019-01-08 东南大学 一种基于卷积神经网络的双耳声源定位方法
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Binaural sound localization based on deep neural network and affinity propagation clustering in mismatched HRTF condition;Jing Wang 等;《EURASIP Journal on Audio,Speech,and Music Processing》;20200210;第3.2.1节 *
Densely Connected Convolutional Networks;Gao Huang 等;《arXiv:1608.06993v5 [cs.CV]》;20180128;全文 *
基于BP神经网络的双耳声源定位算法;谈雅文 等;《电声技术》;20180530;第42卷(第5期);第28-32、56页 *
基于深度学习的鲁棒双耳声源定位研究;王立杰;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》;20200615(第06期);第三章 *

Also Published As

Publication number Publication date
CN111707990A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN109164415B (zh) 一种基于卷积神经网络的双耳声源定位方法
US10602298B2 (en) Directional propagation
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
JP5857071B2 (ja) オーディオ・システムおよびその動作方法
CN111707990B (zh) 一种基于密集卷积网络的双耳声源定位方法
CN107820158B (zh) 一种基于头相关脉冲响应的三维音频生成装置
US10932081B1 (en) Bidirectional propagation of sound
CN111948609B (zh) 基于Soft-argmax回归器的双耳声源定位方法
Khan et al. Video-aided model-based source separation in real reverberant rooms
Ishi et al. Hearing support system using environment sensor network
Lee et al. A real-time audio system for adjusting the sweet spot to the listener's position
Yang et al. Full-sphere binaural sound source localization using multi-task neural network
CN111123202B (zh) 一种室内早期反射声定位方法及系统
Zhou et al. Binaural Sound Source Localization Based on Convolutional Neural Network.
CN114255780B (zh) 一种基于深度神经网络的噪声鲁棒盲混响时间估计方法
Massicotte et al. LSTM with scattering decomposition-based feature extraction for binaural sound source localization
CN112216301B (zh) 基于对数幅度谱和耳间相位差的深度聚类语音分离方法
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
Schwark et al. Data-driven optimization of parametric filters for simulating head-related transfer functions in real-time rendering systems
CN112346013B (zh) 一种基于深度学习的双耳声源定位方法
US11937073B1 (en) Systems and methods for curating a corpus of synthetic acoustic training data samples and training a machine learning model for proximity-based acoustic enhancement
Ishi et al. A sound-selective hearing support system using environment sensor network
Alim et al. Modeling non-individualized binaural sound localization in the horizontal plane using artificial neural networks
Sharma et al. Development of a speech separation system using frequency domain blind source separation technique
Lee Position-dependent crosstalk cancellation using space partitioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant