CN108122559B - 一种数字助听器中基于深度学习的双耳声源定位方法 - Google Patents
一种数字助听器中基于深度学习的双耳声源定位方法 Download PDFInfo
- Publication number
- CN108122559B CN108122559B CN201711397816.2A CN201711397816A CN108122559B CN 108122559 B CN108122559 B CN 108122559B CN 201711397816 A CN201711397816 A CN 201711397816A CN 108122559 B CN108122559 B CN 108122559B
- Authority
- CN
- China
- Prior art keywords
- interaural
- sound source
- binaural
- deep learning
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 23
- 210000003128 head Anatomy 0.000 claims description 18
- 210000005069 ears Anatomy 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 7
- 230000004807 localization Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 210000003477 cochlea Anatomy 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000005314 correlation function Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 210000002469 basement membrane Anatomy 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 231100000895 deafness Toxicity 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Stereophonic System (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开一种数字助听器中基于深度学习的双耳声源定位方法,首先将双耳声源信号通过gammatone滤波器分解成若干信道,通过加权系数提取高能量的信道,接着利用头相关函数(head‑related‑transform function,HRTF)提取第一类特征,即耳间时间差(Interaural Time Difference,ITD)和耳间强度差(Interaural Intensity Difference,IID)作为深度学习的输入,将水平面划分为四个象限,缩小定位范围。然后提取头相关传递的第二类特征,即耳间声压差(Interaural Level Difference,ILD)和耳间相位差(Interaural Phase Difference,IPD),最后为了得到更精确的定位,将第一类和第二类的四个特征作为下一个深度学习的输入,从而得到声源定位的方位角。实现在水平面上0度到360度以5度为步长进行72个方位角的精确定位。
Description
技术领域
本发明属于语音信号处理技术领域,涉及一种数字助听器中基于深度学习的双耳声源定位方法。
背景技术
耳聋已经成为世界性问题。对于耳聋者来说,选配合适的数字助听器是帮助其提高听力的最佳方法。数字助听器的基本工作原理如图2所示,外界的声音信号进入麦克风从声能转化成电能,通过模/数转化器转化为数字信号,然后在DSP处理器中运用多通道响度补偿算法、自适应降噪算法、回波消除算法、移频算法和声源定位等技术进行处理,处理后的数字电信号需要经过数/模转换器转换成模拟电信号,最后由受话器再将其转化为声能输入至佩戴者耳中。
声源定位技术是根据目标声源和噪声源的空间位置不同,对特定方向的目标声源进行增强的技术。但是不同于降噪算法,助听器方向性增强技术利用语音和噪声的空间差异来实现语音增强,其实际效果仅次于调频系统和或红外监听技术。考虑到人与人交流时,面对面的情况比较普遍,所以早期的方向性助听器采用方向性麦克风实现,这种麦克风由于其特殊的振膜结构,可以抵消来自患者后方和侧面的声音,前方声音得到增强,从而实现使用一个麦克风就可以实现方向性语音增强。但是方向性麦克风使用时假定声源的方向是已知的,不能自动跟踪声源的方向,而且无法适应复杂的噪声场景,因此结合双耳声源定位技术进行方向性增强是目前研究的一个重要方向。
即使在“鸡尾酒效应”下,人耳的听觉系统也能很好的辨认出不同说话人的位置,根据需求有选择的进行目标声源的关注。对于听力受损的耳障患者来说,通过对传入耳朵的声音进行放大的同时进行噪声抑制等语音增强处理,使听力损失患者能够正确识别听力正常人所接受音量的声音。但是,人耳只有一对听觉感受器官,其相当于一个声信号处理系统的两个声音传感器,即麦克风。人类听觉系统只依靠这一对感受器官,就可以感知声源位置,分离语音信号。当然这必须借助于人类复杂的听觉生理系统,而不仅仅是一对外耳。如果要模拟人类的声音处理,必须利用两个麦克风进行数据采集。
研究表明,人类听觉系统对声源的定位机理主要是由于人的头部以及躯体等对入射的声波具有一定的散射作用,以致到达双耳时,不同方向上的声源会使双耳处产生不同的声波状态,即两耳采集的信号形成的时间差和强度差,造成了听觉的方位感和深度感,这就是常说的“双耳效应”,同时耳朵结构的“耳廓效应”以及复杂的神经系统,都是人耳对于声音信号方向位置判决的主要依据。
由于数字助听器是一种便携式设备,同时它也需要很高的实时性,因此,数字助听器对算法有一定的特殊要求,比如,算法低复杂度,低功耗和实时性等要求。最终让数字助听器佩戴者有最高的言语可懂度和听觉舒适度。对于大多数数字助听器中的声源定位技术复杂度高,形成时延,不能满足助听器实时性的要求。
本发明提出的基于深度学习的双耳声源定位技术,该技术结合双耳定位线索、头相关传递函数、gammatone滤波器和深度学习,首先将双耳语音信号通入gammatone滤波器分成若干通道,并提取人耳敏感信息,然后利用头相关函数提取第一类特征,即耳间时间差(ITD)和耳间强度差(IID)作为深度学习的输入,将水平面划分为四个象限,缩小定位范围。然后提取头相关传递的第二类特征,即耳间声压差(ILD)和耳间相位差(IPD),最后将第一类和第二类的四个特征作为下一个深度学习的输入,从而得到声源定位的方位角。
发明内容
本发明针对现有的数字助听器主要利用环境信噪比的判断是否切换到方向性麦克风状态,且通常假定前方是目标声源,而在实际生活中,声源的方向是不固定的,因此利用声源定位进行方向性语音增强,同时深度学习具有较强的学习能力和在线下训练的优点,因此该技术在不同信噪比下都能达到较高的定位准确率、低复杂度和更好的实时性。
为了解决以上所述的问题,本发明采用的技术方案是:基于可以模拟人耳听觉系统中的基底膜和听觉神经的工作机理的gammatone滤波器,把信号频带非均匀地分为N个通道的频响补偿算法,以及利用人耳听觉感知理论,结合头相关传递函数和深度学习,最终实现双耳的声源定位。具体过程包括步骤如下:
步骤一,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,把双耳语音信号通入gammatone滤波器分成N个通道,并提取人耳敏感信息;
步骤二,利用头相关传递函数的双耳定位线索提取第一类特征,即耳间时间差和耳间强度差;
步骤三,将第一类特征作为深度学习的输入,利用深度学习的分类功能把水平面平均分成四个象限,缩小定位范围;
步骤四,再次利用头相关传递函数的双耳定位线索提取第二类特征,即耳间声压差和耳间相位差;
步骤五,为了得到更精确的定位,将第一类和第二类的特征相结合,同时利用深度学习在步骤三得到的具体某个象限里进行水平面方位角的定位。
本发明提出了数字助听器中基于深度学习的双耳声源定位技术。该方法利用人耳听觉感知理论,结合gammatone滤波器、头相关传递函数和深度学习进行双耳声源定位。首先将双耳声源信号通过gammatone滤波器分解成若干信道,通过加权系数提取高能量的信道,接着利用头相关传递函数(head related transform function,HRTF)提取第一类特征,即耳间时间差(Interaural Time Difference,ITD)和耳间强度差(InterauralIntensity Difference,IID)作为深度学习的输入,将水平面划分为四个象限,缩小定位范围。然后提取头相关传递的第二类特征,即耳间声压差(Interaural Level Difference,ILD)和耳间相位差(Interaural Phase Difference,IPD),最后为了得到更精确的定位,将第一类和第二类的四个特征作为下一个深度学习的输入,从而得到声源定位的方位角。实现在水平面上0度到360度以5度为步长进行72个方位角的精确定位,由于深度学习有很强的学习能力,所以我们的误差范围在0.5度以内。该算法实现简单,低复杂度,低功耗,实时性好,精确度高。
附图说明
图1本发明的实现流程图
图2数字助听器的主要工作原理
图3水平面的象限的划分
图4深度学习原理框图
具体实施方式
步骤一,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,把双耳语音信号通入gammatone滤波器分成N个通道,并提取人耳敏感信息;
由于耳蜗的分频特性和听觉掩蔽特性,利用gammatone滤波器组将语音信号分解为多个通道,gammatone滤波器是一种基于听觉模型中的耳蜗基底膜模型,能够较好地模拟出基底膜尖锐的滤波特性,符合人耳的听觉感知特性,并且该滤波器的实现简单,为此选取gammatone滤波器组对含噪语音进行信号分解,使其能够模拟人耳的听觉特性。其冲激响应函数的时域表达式如(1)所示。
G(t)=cos(2πfct+φ)·exp(-2πBt)·Bn·tn-1·U(t) (1)
其中,参数n为滤波器的阶数。分析可知当阶数n=4时,gammatone滤波器就能够较好地模拟出复杂的耳蜗滤波器特性,为此本文设置n=4。φ为滤波器的初始相位,U(t)为单位阶跃函数,fc为滤波器的中心频率,B是带宽,其计算公式如(2)所示。
B=b·ERB(fc) (2)
其中b为衰减速度系数,通过大量实验可得当b的取值为1.019时效果最优,为此b的取值是1.019,参数EBR(fc)表示为滤波器的等效矩形带宽,其与中心频率具有公式(3)的关系。
ERB(fc)=24.7+0.108fc (3)
由于人耳对声音信号的听觉感知以临界频带为基础,因此,选择人耳的听觉临界频带的中心频率作为gammatone滤波器的中心频率。在人耳的听阈范围内把频带划分为26个频带,再通过语音信号的采样率就可以确定gammatone滤波器的个数。
考虑到各个子带信号的能量不同,在声源定位中的重要性也不同,将各个信道按照能量大小排序,并且对不同子带赋予不同权重进行数据压缩。由于在声源定位中,能量越大的信道重要性越大,本发明赋予能量大前8个信道加权系数为1,其余能量小的子带则赋予0权值,如公式(4)所示。
其中i是信道编号,w是加权参数,D是信道数据。
通过该方法,我们可以提取重要信息,去除次要信息,从而达到减少数据量的目的,简化算法复杂度。
步骤二,利用头相关传递函数的双耳定位线索提取第一类特征,即耳间时间差和耳间强度差;
利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第一类特征,即耳间时间差和耳间强度差,根据压缩后的双耳数据xl和xr计算出声源定位因子,它们的计算方法如公式所示。
第一类特征提取:
(1)耳间时间差(ITD):
其中ITD表示双耳时间差,n为样点数,fn为总样本点数。
(2)耳间强度差(IID):
其中Xl(f)表示频域的左耳语音信号,Xr(f)表示频域的右耳语音信号。
步骤三,将第一类特征作为深度学习的输入,利用深度学习的分类功能把水平面平均分成四个象限,如图3所示,缩小定位范围;
本发明采用第一个深度神经网络结构是52*28*28*28*4,输入是经过gammatone滤波器分解的26*2维的ITD和IID的特征,输入层神经元的个数是52,隐含层的神经元的个数是28,隐含层的层数是3,输出层的层数是4,即输出的四个象限。通过第一级深度神经网络这个模型,将ITD和IID的特征进行四个象限的分类,划分声源所在的象限。
(1)初始化网络:初始化输入层与隐层的连接权值wij,隐含层与输出层的连接权值wjk,初始化隐含层阈值aj,输出层阈值bk,并设定学习速率为0.01。
(2)计算隐含层的输出:根据wij,aj和输入xi的特征向量ITD和IID,各隐含层的输出公式为:
(3)计算输出层的输出:由隐含层的输出Hj和wjk,bk,输出层的公式为:
(4)计算误差:根据网络预测输出O和期望输出Y,网络的预测误差公式为:
ek=Yk-Ok,k=1 (9)
wjk=wjk+ηHjek,j=1,2,...5;k=1 (11)
bk=bk+ek,k=1 (13)
(7)判断是否完成四个象限的分类,若没有完成,返回步骤(2)。
步骤四,再次利用头相关传递函数的双耳定位线索提取第二类特征,即耳间声压差和耳间相位差;
利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第二类特征,即耳间声压差和耳间相位差,根据压缩后的双耳数据xl和xr计算出声源定位因子,它们的计算方法如公式所示。
第二类特征提取:
(3)耳间声压差(ILD):
其中xl(t)表示左耳语音信号,xr(t)表示右耳语音信号,fn表示语音信号的总帧数,d为声源延迟。
(4)耳间相位差(IPD):
其中E表示期望,Xl(f)表示频域的左耳语音信号,Xr(f)表示频域的右耳语音信号,
*表示共轭。
步骤五,为了得到更精确的定位,将第一类和第二类的特征相结合,同时利用深度学习在步骤三得到的具体某个象限里进行更准确的水平面方位角的定位;
本发明采用第二个深度神经网络结构是108*25*25*25*25*4,输入是经过gammatone滤波器分解的26*4维的ITD、IID、ILD和IPD的四个特征,输入层神经元的个数是108,隐含层的神经元是25,隐含层的层数是4,输出层的层数是1,即具体的方位角数值。具体学习过程如图4所示,通过第二级深度神经网络这个模型,将表征双耳线索的四个特征与水平面的方位角进行非线性映射,结合步骤三中的象限位置,实现水平面的声源定位。
Claims (2)
1.一种数字助听器中基于深度学习的双耳声源定位方法,其特征在于,包括以下步骤:
步骤一,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,把双耳语音信号通入gammatone滤波器分成N个通道,并提取人耳敏感信息;
步骤二,利用头相关传递函数的双耳定位线索提取第一类特征,即耳间时间差和耳间强度差;
步骤三,将第一类特征作为深度学习的输入,利用深度学习的分类功能把水平面平均分成四个象限;
步骤四,再次利用头相关传递函数的双耳定位线索提取第二类特征,即耳间声压差和耳间相位差;
步骤五,将第一类和第二类的特征相结合,同时利用深度学习在步骤三得到的具体象限里进行水平面方位角的定位;
步骤二中,利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第一类特征,即耳间时间差和耳间强度差,根据压缩后的双耳数据xl和xr计算出声源定位因子,计算方式为:
第一类特征提取:
(1)耳间时间差(ITD):
其中,ITD表示双耳时间差,n为样点数,fn为总样本点数,
(2)耳间强度差(IID):
其中,Xl(f)表示频域的左耳语音信号,Xr(f)表示频域的右耳语音信号;
步骤四中,利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第二类特征,即耳间声压差和耳间相位差,根据压缩后的双耳数据xl和xr计算出声源定位因子,计算方式为:
第二类特征提取:
(3)耳间声压差(ILD):
其中,xl(t)表示左耳语音信号,xr(t)表示右耳语音信号,fn表示语音信号的总帧数,d为声源延迟,
(4)耳间相位差(IPD):
其中,E表示期望,Xl(f)表示频域的左耳语音信号,Xr(f)表示频域的右耳语音信号,*表示共轭。
2.如权利要求1所述的数字助听器中基于深度学习的双耳声源定位方法,其特征在于,步骤三中,采用第一个深度神经网络结构是52*28*28*28*4,输入是经过gammatone滤波器分解的26*2维的ITD和IID的特征,输入层神经元的个数是52,隐含层的神经元的个数是28,隐含层的层数是3,输出层的层数是4,即输出的四个象限,通过第一级深度神经网络模型,将ITD和IID的特征进行四个象限的分类,划分声源所在的象限,具体为:
(1)初始化网络:初始化输入层与隐层的连接权值wij,隐含层与输出层的连接权值wjk,初始化隐含层阈值aj,输出层阈值bk,并设定学习速率为0.01;
(2)计算隐含层的输出:根据wij,aj和输入xi的特征向量ITD和IID,各个隐含层的输出公式为:
(3)计算输出层的输出:由隐含层的输出Hj和wjk,bk,输出层的公式为:
(4)计算误差:根据网络预测输出O和期望输出Y,网络的预测误差公式为:
ek=Yk-Ok,k=1 (9)
wjk=wjk+ηHjek,j=1,2,...5;k=1 (11)
bk=bk+ek,k=1 (13)
(7)判断是否完成四个象限的分类,若没有完成,返回步骤(2)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711397816.2A CN108122559B (zh) | 2017-12-21 | 2017-12-21 | 一种数字助听器中基于深度学习的双耳声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711397816.2A CN108122559B (zh) | 2017-12-21 | 2017-12-21 | 一种数字助听器中基于深度学习的双耳声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108122559A CN108122559A (zh) | 2018-06-05 |
CN108122559B true CN108122559B (zh) | 2021-05-14 |
Family
ID=62231205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711397816.2A Active CN108122559B (zh) | 2017-12-21 | 2017-12-21 | 一种数字助听器中基于深度学习的双耳声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108122559B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109164415B (zh) * | 2018-09-07 | 2022-09-16 | 东南大学 | 一种基于卷积神经网络的双耳声源定位方法 |
CN109410976B (zh) * | 2018-11-01 | 2022-12-16 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN109862498A (zh) * | 2019-01-28 | 2019-06-07 | 天津大学 | 一种基于卷积神经网络的数字助听器声源定向方法 |
CN109993280B (zh) * | 2019-03-27 | 2021-05-11 | 东南大学 | 一种基于深度学习的水下声源定位方法 |
CN111707990B (zh) * | 2020-08-19 | 2021-05-14 | 东南大学 | 一种基于密集卷积网络的双耳声源定位方法 |
CN112269158B (zh) * | 2020-10-14 | 2022-09-16 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种基于unet结构利用传声器阵列语音源定位方法 |
CN113744869B (zh) * | 2021-09-07 | 2024-03-26 | 中国医科大学附属盛京医院 | 基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102438189A (zh) * | 2011-08-30 | 2012-05-02 | 东南大学 | 基于双通路声信号的声源定位方法 |
CN102565759A (zh) * | 2011-12-29 | 2012-07-11 | 东南大学 | 一种基于子带信噪比估计的双耳声源定位方法 |
CN103458347A (zh) * | 2011-12-29 | 2013-12-18 | Gn瑞声达A/S | 具有改进的定位的助听器 |
CN103901401A (zh) * | 2014-04-10 | 2014-07-02 | 北京大学深圳研究生院 | 一种基于双耳匹配滤波器的双耳声音源定位方法 |
CN104185129A (zh) * | 2013-05-22 | 2014-12-03 | Gn瑞声达A/S | 具有改善的定位的助听器 |
KR101627247B1 (ko) * | 2014-12-30 | 2016-06-03 | 가우디오디오랩 주식회사 | 추가 자극을 생성하는 바이노럴 오디오 신호 처리 방법 및 장치 |
WO2017064368A1 (en) * | 2015-10-12 | 2017-04-20 | Nokia Technologies Oy | Distributed audio capture and mixing |
-
2017
- 2017-12-21 CN CN201711397816.2A patent/CN108122559B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102438189A (zh) * | 2011-08-30 | 2012-05-02 | 东南大学 | 基于双通路声信号的声源定位方法 |
CN102565759A (zh) * | 2011-12-29 | 2012-07-11 | 东南大学 | 一种基于子带信噪比估计的双耳声源定位方法 |
CN103458347A (zh) * | 2011-12-29 | 2013-12-18 | Gn瑞声达A/S | 具有改进的定位的助听器 |
CN104185129A (zh) * | 2013-05-22 | 2014-12-03 | Gn瑞声达A/S | 具有改善的定位的助听器 |
CN103901401A (zh) * | 2014-04-10 | 2014-07-02 | 北京大学深圳研究生院 | 一种基于双耳匹配滤波器的双耳声音源定位方法 |
KR101627247B1 (ko) * | 2014-12-30 | 2016-06-03 | 가우디오디오랩 주식회사 | 추가 자극을 생성하는 바이노럴 오디오 신호 처리 방법 및 장치 |
WO2017064368A1 (en) * | 2015-10-12 | 2017-04-20 | Nokia Technologies Oy | Distributed audio capture and mixing |
Non-Patent Citations (5)
Title |
---|
Localization based stereo speech source separation using probabilistic time-frequency masking and deep neural networks;Yu, Yang;《EURASIP Journal on Audio, Speech, and Music Processing 》;20161231;1-18 * |
The segregation of spatialised speech in interference by optimal mapping of diverse cues;Gao J;《2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20150806;2095-2099 * |
Towards a systematic study of binaural cues;Youssef, K;《2012 IEEE/RSJ International Conference on Intelligent Robots and Systems》;20121224;1004-1009 * |
基于Gammatone滤波器组分解的数字助听器频响补偿算法;李如玮;《北京生物医学工程》;20160430;第35卷(第2期);143-150 * |
基于双耳空间信息的语音分离研究;李枭雄;《中国优秀硕士学位论文全文数据库信息科技辑》;20160831;I136-133 * |
Also Published As
Publication number | Publication date |
---|---|
CN108122559A (zh) | 2018-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108122559B (zh) | 一种数字助听器中基于深度学习的双耳声源定位方法 | |
US10431239B2 (en) | Hearing system | |
US7761291B2 (en) | Method for processing audio-signals | |
AU2010346387B2 (en) | Device and method for direction dependent spatial noise reduction | |
CN101505447B (zh) | 估计助听器中的音频信号加权函数的方法 | |
CA2621940C (en) | Method and device for binaural signal enhancement | |
CN102456351A (zh) | 一种语音增强的系统 | |
JP5659298B2 (ja) | 補聴器システムにおける信号処理方法および補聴器システム | |
CN109410976A (zh) | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 | |
Kohlrausch et al. | An introduction to binaural processing | |
EP2897382B1 (en) | Binaural source enhancement | |
Jeub et al. | Binaural dereverberation based on a dual-channel wiener filter with optimized noise field coherence | |
Wittkop et al. | Speech processing for hearing aids: Noise reduction motivated by models of binaural interaction | |
Derleth et al. | Binaural signal processing in hearing aids | |
Gößling et al. | Performance analysis of the extended binaural MVDR beamformer with partial noise estimation | |
Bissmeyer et al. | Adaptive spatial filtering improves speech reception in noise while preserving binaural cues | |
Courtois | Spatial hearing rendering in wireless microphone systems for binaural hearing aids | |
DeSimio et al. | Phoneme recognition with binaural cochlear models and the stereausis representation | |
Ahrens | Modelled Speech Intelligibility with various Individual Head Related Transfer Functions | |
Katagi et al. | Sound Source Localization Ability in Hearing Aids: A Survey | |
Douglas A | A model for predicting localization performance in cochlear implant users | |
Junlong et al. | Study of Speech Enhancement Based on the Second-Order Differential Microphone Array | |
Usagawa et al. | Concurrent Speech Segregation based on DOA Information using Frequency Domain Binaural Model–An application for hearing aid– | |
Miller | Modeling HRTF for sound localization in normal listeners and bilateral cochlear implant users | |
Neher et al. | The influence of hearing-aid microphone location and room reverberation on better-ear effects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |