CN105976827B - 一种基于集成学习的室内声源定位方法 - Google Patents
一种基于集成学习的室内声源定位方法 Download PDFInfo
- Publication number
- CN105976827B CN105976827B CN201610356146.9A CN201610356146A CN105976827B CN 105976827 B CN105976827 B CN 105976827B CN 201610356146 A CN201610356146 A CN 201610356146A CN 105976827 B CN105976827 B CN 105976827B
- Authority
- CN
- China
- Prior art keywords
- signal
- integrated study
- sound source
- integrated
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000004807 localization Effects 0.000 title claims abstract description 22
- 238000005314 correlation function Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 20
- 238000003066 decision tree Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 241000209140 Triticum Species 0.000 claims 1
- 235000021307 Triticum Nutrition 0.000 claims 1
- 238000013480 data collection Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000007812 deficiency Effects 0.000 abstract description 2
- 230000002411 adverse Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于集成学习的室内声源定位方法,特别是涉及声源定位识别方法所使用的特征。本发明使用信号的相位变换广义互相关函数作为位置特征,将声源信号数据转换成特征数据集,再使用集成学习技术(Bagging,AdaBoost等)对特征数据进行训练和定位测试,最终得到的集成学习分类器能很好地鉴别声源位置,克服了传统声源定位算法在恶劣环境下性能损失严重的不足。相比较传统的定位算法,本发明的优势在于能在室内环境下,有较强的噪声、混响的恶劣环境下,依旧能够获得鲁棒的声源定位性能。
Description
技术领域
本发明属于无线电波的反射或再辐射的定位或存在检测领域,涉及一种在混响和噪声干扰环境下基于集成学习的室内声源定位方法,特别是涉及声源定位识别方法所使用的特征。
背景技术
基于麦克风阵列的声源定位技术是近几年国内外的一项研究热点。它主要原理是:通过具有一定几何拓扑结构的麦克风阵列采集声源信号,通过阵列信号处理技术对语音信号进行处理和分析,从而确定声源位置。
目前,基于麦克风阵列的声源定位技术已广泛应用于许多领域,如视频会议、声音检测、语音增强、语音识别、说话人识别、智能机器人、监控监听系统、助听装置等。传统的声源定位算法主要有三类:
第一类是基于高分辨率谱估计的方法。该方法源于一些现代高分辨率估计技术,如自回归模型(AR,Auto Regressive)、最小方差谱估计(MV,Minimum Variance)、多重信号分类(MUSIC,Multiple Signal Classification)等等,它们利用求解麦克风信号间的相关矩阵来定出方向角,从而进一步确定声源位置;这类方法有很强的分辨力,但是运算量极大,且不适用于近距离的定位。
第二类是基于时延估计(TDOA,Time Difference of Arrival)的技术。该方法首先求出声音到达不同位置麦克风的时间差,从而根据时间差用几何法来计算出声源位置;这类时延估计算法主要有广义互相关函数(GCC,Generalized cross correlation)时延估计算法和自适应最小均方时延(LMS,Least Mean Square)估计算法。比如专利名称为"麦克风间距测量方法和装置"(申请人:华为终端有限公司,专利号:CN101685153B)就属于这类技术。这类方法计算量小,实时性好,成本低易于实现,但是由于要先估计时延会造成二次估计上的误差,时延精度也易受到混响和噪声干扰的影响,鲁棒性较差。
第三类是基于最大输出功率可控的波束成型方法。该方法对麦克风阵列接受的语音信号进行滤波、加权求和,然后直接控制麦克风指向波束有最大输出功率的方向即是声源的位置;比如名称为"一种声源定位的方法及系统"(申请人:TCL集团股份有限公司,公开号:CN105204001A)的发明专利属于这类技术。但是该方法需要声源和环境噪声的先验知识,实际情况下先验知识较难获得,同时对外界环境以及声源频率反映比较敏感,从而限制了应用场合。
因此,目前大多数的基于麦克风阵列的定位技术中,特别是在室内环境,如小型会场、教室、办公室等,当噪声大、有混响的情况下存在定位准确率不高,系统成本高、计算量大等等问题。
集成学习技术是一个迅速发展中的研究领域,它是机器学习领域中用来提升分类算法准确率的技术。集成学习通过构建并合并多个弱学习器(分类器)来完成学习分类任务,常常能获得比单一学习器显著优越的泛化性能。常用的集成学习算法有Bagging(装袋)、Boosting(提升)、RandomForest(随机森林)等等。
当前,集成学习技术正在众多领域获得日益广泛的应用,在其从出现到目前短短的近二十年里,它已经广泛应用于语音识别、文本过滤、遥感信息处理、疾病诊断等领域。预计将来会有越来越多的研究可由集成学习来解决。
发明内容
本发明目的在于解决在有较强的噪声、混响的恶劣室内环境下鲁棒性较差的问题。为解决上述问题,本发明提出的技术方案为一种基于集成学习的室内声源定位方法,包括如下步骤:
步骤1:设定声源的训练位置li(i=1,2···n)(单位:角度),使用若干个麦克风阵列记录声源发出的混响信号Xji(i=1,2···n,j=1,2···m);
步骤2:利用记录下的混响信号Xji,根据具体要求,加入一定信噪比的高斯白噪声,对混响信号计算处理生成信号的相位变换广义互相关函数Ri;
步骤3:利用得到的相位变换广义互相关函数Ri产生对应声源位置li的特征向量Yi;
步骤4:处理特征向量Yi对应的特征数据集yi,将数据集划分为训练数据集和测试数据集;
步骤5:对训练数据集使用集成学习方法,弱学习器选择常用的决策树,训练出集成学习分类器;
步骤6:使用得到的集成学习分类器进行测试,识别出声源的位置。
进一步,步骤2中,所使用的特征为相位变换广义互相关函数,特征的计算过程包括如下步骤:
步骤2-1:设声源位置为li,则产生出混响时间为T的房间脉冲响应h(li,k)i,说话人语音为s(k),使用m个麦克风组成麦克风阵,则麦克风接受到的信号为xn(k)=h(li,k)*s(k)(n=1,2,···m);
步骤2-2:对步骤2-1得到的信号xn(k),分帧加汉宁窗采集数据,对每帧信号数据,可在频域计算出它们之间的广义互相关函数其中ψ1n,2n(ω)为加权函数,此处使用相位变换加权函数(PHAT)能增强互相关函数的抗混响能力;
步骤2-3:将步骤2-2得到的所有的对应所有位置的广义互相关函数Ri(τ)作预处理转化为分类算法的训练数据和测试数据。取其中round是取整函数,D是麦克风间距离,fs是采样频率,c是声速,因子α设为1.67,则取得的数据集为R(τmax-1),R(τmax)]T,按一定比例随机划分Y就得到了训练数据集Ytrain和测试数据集Ytest。
作为优选方案,步骤2-2中所述采集数据的方式为帧长512个采样点,帧移256个采样点,共使用200帧的数据。
同样,作为优选方案,步骤2-3中所述按一定比例随机划分Y是指按6:4的比例随机划分Y。
进一步,步骤5中数据的分类和最后的定位使用了集成学习方法集成了决策树算法。
具体而言,作为优选方案,上述集成学习方法包括AdaBoost和Bagging方法。
与现有技术相比,本发明的有益效果在于:
1.本发明通过使用相位变换广义互相关函数作为识别特征,利用分类识别的方法来进行声源定位,能够克服传统的三类声源定位算法在室内条件,噪声、混响较为恶劣的环境下定位性能急剧恶化,甚至无法定位的弱点。
2.随着环境温度、湿度等的变化,以及器件的老化,经过一段时间后麦克风的特性将发生变化,使得传统的麦克风阵的定位性能下降,本发明不需要对麦克风进行校正。
3.本发明使用了集成学习算法。在实际应用中,想要直接构造一个拥有很高性能的学习器模型是很难的,而集成学习算法常常能通过增加数据扰动提升学习器的性能,同时得到的集成学习器不需要提前知道弱学习器的先验知识,也不容易过拟合。因此,可以很容易地在一定基础上对模型的性能不断处理、改进。
附图说明
图1为本发明的方法流程图。
图2为模拟出的房间、麦克风阵以及声源的示意图。
图3为模拟的房间平面图,以及位于90°位置上的声源的示意图。
图4为声源位于10°、50°位置上所对应的相位变换广义互相关函数。
图5为声源位于9个位置、混响时间为0.3S时四种方法的准确率比较图。
图6为声源位于9个位置时、混响时间为0.6S时四种方法定位的准确率比较图。
具体实施方式
下面结合说明书附图对本发明创造作进一步的详细说明。本发明的工作原理是通过使用信号的广义互相关函数作为位置特征,将声源信号数据转化成特征数据集,再使用集成学习技术(Bagging(装袋),AdaBoost(自适应提升)等)对特征数据进行训练和定位测试,最终得到的集成学习分类器能很好地鉴别声源位置,克服了传统声源定位算法在恶劣环境下性能损失严重的不足。
基于上述原理,本发明所采取的技术方案主要包括如下步骤:
步骤1:设定声源的训练位置li(i=1,2…n)(单位:角度),使用若干个麦克风阵列记录声源发出的混响信号Xji(i=1,2…n,j=1,2…m);
步骤2:利用记录下的混响信号Xji,根据具体要求,加入一定信噪比的高斯白噪声,对混响信号计算处理生成信号的相位变换广义互相关函数Ri;
步骤3:利用得到的相位变换广义互相关函数Ri产生对应声源位置li的特征向量Yi;
步骤4:处理特征向量Yi对应的特征数据集yi,将数据集划分为训练数据集和测试数据集;
步骤5:对训练数据集使用集成学习方法(AdaBoost,Bagging),弱学习器选择常用的决策树,训练出集成学习分类器。;
步骤6:使用得到的集成学习分类器进行测试,识别出声源的位置。
如图1所示,本发明是一种混响和噪声环境下基于集成学习的室内声源定位方法,该方法包含训练和定位两个阶段,在训练阶段对每个位置由互相关函数训练出集成学习器模型,然后在定位阶段通过使用上一阶段训练出的模型来测试数据的互相关函数从而确定声源的位置。下面将具体描述每一步的细节。
本发明具体实施步骤,包括如下:
步骤1:图2所示为模拟出的房间,和房间中的麦克风阵,以及位于170°位置上的声源。使用matlab工具包roomsim模拟出7m×6m×3m的房间,使用2个麦克风组成麦克风阵,对于声源位置为li(设相对麦克风阵的水平方向角为10°、30°、…150°、170°,共9个位置,距离为2m,图3即为声源位置为90°时的情况),产生出混响时间为T的房间脉冲响应h(li,k)i;语音信号采用麻省理工大学的TIMIT语音库的语音s(k)。使用2个麦克风组成麦克风阵,麦克间距离为0.3m,则麦克风接受到的信号为xn(k)=h(li,k)*s(k)(n=1,2)。
步骤2:对步骤1得到的信号x1(k)和x2(k),分帧加汉宁窗,帧长512个采样点,帧移256个采样点,共使用200帧的数据。对每帧信号数据,可在频域计算出它们之间的广义互相关函数其中ψ1,2(ω)为加权函数,此处使用相位变换加权函数(PHAT)能增强互相关函数的抗混响能力。图4为声源位于10°、50°位置上所对应的相位变换广义互相关函数,可见声源在不同位置(声源10°、50°)时对应的广义互相关函数是有差异的。
步骤3:将步骤2得到的所有的对应所有位置的广义互相关函数Ri(τ)作预处理转化为分类算法的训练数据和测试数据。取其中round是取整函数,D是麦克风间距离,fs是采样频率,c是声速,因子α设为1.67。则取得的数据集为 按6:4的比例随机划分Y就得到了训练数据集Ytrain和测试数据集Ytest。
步骤4:利用步骤3得到的训练数据Ytrain,使用决策树算法训练分类器模型model1,同时,分别使用AbaBoost和Bagging方法集成决策树训练分类器模型model2和modle3。
步骤5:使用步骤4得到的模型modle1、modle2和modle3对测试数据集Ytest进行定位。
步骤6:结果比较分析,参数调整。将定位结果与传统的声源定位算法的定位结果作对比测试(这里选择SRP-PHAT(可控响应功率-相位加权)算法),不断调整信噪比(纯净语音,25dB,20dB,15dB,10dB,5dB),选择不同长度的混响时间(0.6S和0.3S)。最终定位结果如图5,图6所示。图5为声源位于9个位置时,混响时间为0.3S,SRP-PHAT算法、决策树算法,AdaBoost和Bagging决策树方法在信噪比由纯净语音,25dB,20dB,15dB,10dB直到5dB变化时,以上四种方法的准确率。图6为声源位于9个位置时,混响时间为0.6S,SRP-PHAT算法、决策树算法,AdaBoost和Bagging决策树方法在信噪比由纯净语音,25dB,20dB,15dB,10dB直到5dB变化时,以上四种方法定位的准确率。可以发现本发明随着噪声和混响的加强,定位准确率和鲁棒性都要强于经典的SRP-PHAT算法。
对本领域技术人员而言,根据上述实施类型可以很容易联想其他变形,如弱分类器的选择,声源位置的选择,麦克风数量等。因此,本发明不局限于以上实例,其仅仅作为例子对本发明的一种形态进行详细、示范性的说明。在不背离本发明宗旨的范围内,本领域技术人员根据上述具体实例,通过各种等同替换所得到的技术方案,均应包含在本发明的权利要求范围及其等同范围之内。
Claims (5)
1.一种基于集成学习的室内声源定位方法,其特征在于,包括如下步骤:
步骤1:设定声源的训练位置li(i为训练位置的序号,单位:角度),使用两个麦克风阵列记录声源发出的混响信号Xji(j为麦克风阵列的序号);
步骤2:利用记录下的混响信号Xji,根据具体要求,加入一定信噪比的高斯白噪声,对两个麦克风得到的混响信号计算处理生成信号的相位变换广义互相关函数Ri,所使用的特征为相位变换广义互相关函数,特征的计算过程包括如下步骤:
步骤2-1:设声源位置为li,则产生出混响时间为T的房间脉冲响应h(li,k),说话人语音为s(k),使用2个麦克风组成麦克风阵,则麦克风接受到的信号为xji(k)=h(li,k)*s(k)(j=1,2);
步骤2-2:对步骤2-1得到的信号xji(k),分帧加汉宁窗采集数据,对每帧信号数据,可在频域计算出它们之间的广义互相关函数其中ψ1i,2i(ω)为加权函数,此处使用相位变换加权函数能增强互相关函数的抗混响能力;
步骤2-3:将步骤2-2得到的所有的对应所有位置的广义互相关函数Ri(τ)作预处理转化为分类算法的训练数据和测试数据,取其中round是取整函数,D是麦克风间距离,fs是采样频率,c是声速,因子α设为1.67,则取得的数据集为Y=[R(-τmax),R(-τmax+1),R(-τmax+2),…R(τmax-2),…
R(τmax-1),R(τmax)]T,按一定比例随机划分Y就得到了训练数据集Ytrain和测试数据集Ytest;
步骤3:利用得到的相位变换广义互相关函数Ri产生对应声源位置li的特征向量Yi;
步骤4:处理特征向量Yi对应的特征数据集yi,将数据集划分为训练数据集和测试数据集;
步骤5:对训练数据集使用集成学习方法,弱学习器选择常用的决策树,训练出集成学习分类器;
步骤6:使用得到的集成学习分类器进行测试,识别出声源的位置。
2.根据权利要求1所述的一种基于集成学习的室内声源定位方法,其特征在于步骤2-2中所述采集数据的方式为帧长512个采样点,帧移256个采样点,共使用200帧的数据。
3.根据权利要求1所述的一种基于集成学习的室内声源定位方法,其特征在于步骤2-3中所述按一定比例随机划分Y是指按6:4的比例随机划分Y。
4.根据权利要求1所述的一种基于集成学习的室内声源定位方法,其特征在于步骤5中数据的分类和最后的定位使用了集成学习方法集成了决策树算法。
5.根据权利要求4所述的一种基于集成学习的室内声源定位方法,其特征在于,所述集成学习方法包括AdaBoost和Bagging方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610356146.9A CN105976827B (zh) | 2016-05-26 | 2016-05-26 | 一种基于集成学习的室内声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610356146.9A CN105976827B (zh) | 2016-05-26 | 2016-05-26 | 一种基于集成学习的室内声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105976827A CN105976827A (zh) | 2016-09-28 |
CN105976827B true CN105976827B (zh) | 2019-09-13 |
Family
ID=56956413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610356146.9A Active CN105976827B (zh) | 2016-05-26 | 2016-05-26 | 一种基于集成学习的室内声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105976827B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107942290B (zh) * | 2017-11-16 | 2019-10-11 | 东南大学 | 基于bp神经网络的双耳声源定位方法 |
CN108416096B (zh) * | 2018-02-01 | 2022-02-25 | 北京百度网讯科技有限公司 | 基于人工智能的远场语音数据信噪比估计方法及装置 |
CN108872939B (zh) * | 2018-04-29 | 2020-09-29 | 桂林电子科技大学 | 基于声学镜像模型的室内空间几何轮廓重构方法 |
CN108810838A (zh) * | 2018-06-03 | 2018-11-13 | 桂林电子科技大学 | 基于智能手机室内背景声感知的房间级定位方法 |
CN109061558A (zh) * | 2018-06-21 | 2018-12-21 | 桂林电子科技大学 | 一种基于深度学习的声音碰撞检测及声源定位方法 |
US11937076B2 (en) | 2019-07-03 | 2024-03-19 | Hewlett-Packard Development Copmany, L.P. | Acoustic echo cancellation |
CN111372211A (zh) * | 2020-03-11 | 2020-07-03 | 山东科技大学 | 一种基于集成学习的智能手机WiFi室内定位方法 |
CN112190259B (zh) * | 2020-09-10 | 2024-06-28 | 北京济声科技有限公司 | 用于测试声源定位能力的方法、测试者终端、受试者终端 |
CN112684412B (zh) * | 2021-01-12 | 2022-09-13 | 中北大学 | 一种基于模式聚类的声源定位方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
CN103439688A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种用于分布式麦克风阵列的声源定位系统及定位方法 |
CN104076331A (zh) * | 2014-06-18 | 2014-10-01 | 南京信息工程大学 | 一种七元麦克风阵列的声源定位方法 |
CN104464750A (zh) * | 2014-10-24 | 2015-03-25 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
CN105388459A (zh) * | 2015-11-20 | 2016-03-09 | 清华大学 | 分布式麦克风阵列网络的鲁棒声源空间定位方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4352790B2 (ja) * | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
-
2016
- 2016-05-26 CN CN201610356146.9A patent/CN105976827B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
CN103439688A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种用于分布式麦克风阵列的声源定位系统及定位方法 |
CN104076331A (zh) * | 2014-06-18 | 2014-10-01 | 南京信息工程大学 | 一种七元麦克风阵列的声源定位方法 |
CN104464750A (zh) * | 2014-10-24 | 2015-03-25 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
CN105388459A (zh) * | 2015-11-20 | 2016-03-09 | 清华大学 | 分布式麦克风阵列网络的鲁棒声源空间定位方法 |
Non-Patent Citations (1)
Title |
---|
基于双耳互相关函数的声源定位算法;万新旺等;《东南大学学报(自然科学版)》;20110930;第41卷(第5期);第903-906页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105976827A (zh) | 2016-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105976827B (zh) | 一种基于集成学习的室内声源定位方法 | |
CN110517705B (zh) | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统 | |
CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
CN110245608A (zh) | 一种基于半张量积神经网络的水下目标识别方法 | |
CN105388459B (zh) | 分布式麦克风阵列网络的鲁棒声源空间定位方法 | |
CN110068795A (zh) | 一种基于卷积神经网络的室内麦克风阵列声源定位方法 | |
Wan et al. | Sound source localization based on discrimination of cross-correlation functions | |
CN107450724A (zh) | 一种基于双声道音频多普勒效应的手势识别方法及系统 | |
CN111239687A (zh) | 一种基于深度神经网络的声源定位方法及系统 | |
CN107167770A (zh) | 一种混响条件下的麦克风阵列声源定位装置 | |
CN103258533A (zh) | 远距离语音识别中的模型域补偿新方法 | |
CN109212481A (zh) | 一种利用麦克风阵列进行声源定位的方法 | |
Zhang et al. | A new regional localization method for indoor sound source based on convolutional neural networks | |
CN102509548B (zh) | 一种基于多距离声传感器的音频索引方法 | |
Do et al. | Human-assisted sound event recognition for home service robots | |
Lu | Sound event detection and localization based on CNN and LSTM | |
CN112180318B (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
CN106526541B (zh) | 基于分布矩阵决策的声音定位方法 | |
CN111179959A (zh) | 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统 | |
ÇATALBAŞ et al. | 3D moving sound source localization via conventional microphones | |
Hu et al. | A generalized network based on multi-scale densely connection and residual attention for sound source localization and detection | |
Youssef et al. | From monaural to binaural speaker recognition for humanoid robots | |
Lee et al. | A new sound source localization approach using stereo directional microphones | |
Youssef et al. | Simultaneous identification and localization of still and mobile speakers based on binaural robot audition | |
Adavanne | Sound event localization, detection, and tracking by deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |