CN108198568A - 一种多声源定位的方法及系统 - Google Patents
一种多声源定位的方法及系统 Download PDFInfo
- Publication number
- CN108198568A CN108198568A CN201711433961.1A CN201711433961A CN108198568A CN 108198568 A CN108198568 A CN 108198568A CN 201711433961 A CN201711433961 A CN 201711433961A CN 108198568 A CN108198568 A CN 108198568A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- fundamental frequency
- pair
- microphone
- dimensional position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000004807 localization Effects 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 210000000721 basilar membrane Anatomy 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 157
- 238000009432 framing Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 102100032219 Cathepsin D Human genes 0.000 description 16
- 101000869010 Homo sapiens Cathepsin D Proteins 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000005314 correlation function Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 210000004379 membrane Anatomy 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明公开一种多声源定位的方法及系统。该方法包括:获取初始语音信号集合;对每个初始语音信号进行预处理;采用耳蜗基底膜滤波器将预处理后的信号划分为多个子带;获得同一子带的互功率谱密度函数;融合所有子带的互功率谱密度函数;获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数;获得每个麦克风对的加权二维位置/基频特性函数;获得融合后的加权二维位置/基频特性函数;在设定阈值范围内根据融合后的加权二维位置/基频特性函数的函数值确定各个声源的方位角和基频。本发明的方法及系统,克服了声源信号间的相互干扰,提高了定位精度。而且本发明有较高的抗混响性,能在强混响情况下准确估计出各个声源的位置。
Description
技术领域
本发明涉及声源定位领域,特别是涉及一种多声源定位的方法及系统。
背景技术
声源定位技术一直是语音信号处理领域的重要研究内容,其在目标定位、视频会议、远程侦听以及语音识别等领域都有着重要的应用价值。封闭环境中的声源会在所处的环境中产生一个随机变化的声场,声场的特性与声源的位置和房间的声学环境都有关,同时声源所处的声学环境中会存在混响、背景噪声,以及多声源信号间的混叠,上述干扰都会严重影响多声源定位方法的准确性。
传统的声源定位主要集中在单声源上,在多声源、噪声混响存在的真实环境中性能下降严重。随着信息技术的发展,越来越多的研究者们也加入到了多声源定位技术的研究队伍中来,提出了很多相关方法。现有的多声源定位方法在定位时大多仅考虑声源的位置特性,导致鲁棒性较差。
发明内容
本发明的目的是提供一种多声源定位的方法及系统,以提高多声源定位的准确性及鲁棒性。
为实现上述目的,本发明提供了如下方案:
一种多声源定位的方法所述方法包括:
获取麦克风阵列拾取的初始语音信号集合;所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号;所述麦克风阵列包括多个麦克风对,每个麦克风对包括两个位置相对设置的麦克风;
对每个初始语音信号进行预处理,获得第一语音信号集合;所述第一语音信号集合包括每个初始语音信号对应的处理后的第一语音信号;
采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带;
获得第一语音信号对的同一子带区域的互功率谱密度函数;所述第一语音信号对为一个麦克风对对应的两路第一语音信号;
融合每个第一语音信号对的所有子带区域的互功率谱密度函数,获得每个第一语音信号对的互功率谱密度函数;
对每个第一语音信号对的互功率谱密度函数进行谐波检测,获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数;
使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数;
根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数,获得融合后的加权二维位置/基频特性函数;
在设定阈值范围内根据所述融合后的加权二维位置/基频特性函数的函数值确定各个声源的方位角和基频。
可选的,所述对每个初始语音信号进行预处理,获得第一语音信号集合,具体包括:
对于每一个初始语音信号,使用FIR带通滤波器滤除所述初始语音信号的低频段噪声和高频段噪声,得到滤波后的语音信号;
对所述滤波后的语音信号进行加窗分帧,获得分帧后的信号;
根据所述分帧后的信号,采用双门限端点检测法确定每个滤波后的语音信号对应的起始点和终止点;
剔除每个滤波后的语音信号的起始点至终止点之外的信号,将每个滤波后的语音信号的起始点至终止点之间的信号确定为对应的第一语音信号;
依次获得所有的第一语音信号,得到第一语音信号集合。
可选的,所述根据所述分帧后的信号,采用双门限端点检测法确定每个滤波后的语音信号对应的起始点和终止点,具体包括:
根据所述分帧后的信号的短时能量确定第一阈值T1;
根据背景噪声的短时能量确定第二阈值T2,其中T2<T1;
将短时能量大于所述第一阈值的第一帧信号确定为滤波后的语音信号对应的起始帧信号;
将短时能量小于所述第二阈值的第一帧信号确定为滤波后的语音信号对应的终止帧信号;
根据背景噪声的平均过零率确定第三阈值T3;
将所述起始帧信号中过零率大于所述第三阈值的第一个采样点作为滤波后的语音信号的起始点;
将所述终止帧信号中过零率小于所述第三阈值的第一个采样点作为滤波后的语音信号的终止点。
可选的,所述采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带,具体包括:
采用耳蜗基底膜滤波器组将每个第一语音信号划分为64个不同的子带,中心频率分布在等效矩形带宽50~8000Hz。
可选的,所述获得第一语音信号对的同一子带区域的互功率谱密度函数,具体包括:
利用获得第g个子带区域中两路第一语音信号的初始互功率谱密度函数其中g为子带的索引,Yi(n,λ)表示第i个阵元对应的第一语音信号yi(k)的短时傅里叶变换,Yl(n,λ)表示第l个阵元对应的第一语音信号yl(k)的短时傅里叶变换,H表示复共轭,E{·}表示期望;
采用一阶平滑滤波器对初始的互功率谱密度函数进行加权平滑处理,获得平滑后的互功率谱密度函数其中,α为平滑系数,取值范围为(0<α<0.5)。
可选的,所述融合每个第一语音信号对的所有子带区域的互功率谱密度函数,获得每个第一语音信号对的互功率谱密度函数,具体包括:
利用对每个第一语音信号对的所有子带区域的互功率谱密度函数进行融合,获得每个第一语音信号对的互功率谱密度函数Φil′(n,λ),其中G为子带的数量,为第g个子带区域中两路第一语音信号的互功率谱密度函数。
可选的,所述对每个第一语音信号对的互功率谱密度函数进行谐波检测,获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数,具体包括:
利用对第一语音信号对的互功率谱密度函数Φil′(n,λ)进行谐波检测,获得第一语音信号对对应的麦克风对的二维位置/基频特性函数其中|Φil′[np]|表示互功率谱密度函数的幅度,np为谐波检测的频率索引,p表示谐波数目,N表示帧长,fs表示采样频率;f0为基频信息,ψil[np]表示互功率谱密度函数的相位,ψil[np]=arg{Φil′[np]},表示基频f0和方位角组合的期望相位,dil表示第i个和第j个麦克风之间的距离,c表示空气中声音的速度,T{·}表示一个额外的相位转换。
可选的,所述使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数,具体包括:
利用对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数其中 表示对麦克风对的两路信号的GCC-PHAT函数和WCC函数进行采样。
可选的,所述在设定阈值范围内获得使所述融合后的加权二维位置/基频特性函数的函数值最大时的各个声源的方位角和基频,具体包括:
以方位角步长1°,基频步长1Hz的步进方式在设定阈值范围内获得所述融合后的加权二维位置/基频特性函数的多个函数值,所述设定阈值范围为80~280Hz的基频范围、0°~180°的方位角范围;
将所述多个函数值按照降序排列;
根据声源的个数,将按照降序排列后的前n个函数值对应的方位角和基频确定为n个声源的方位角和基频。
本发明还提供一种多声源定位的系统,所述系统应用于上述的方法,所述系统包括:
初始语音信号集合获取模块,用于获取麦克风阵列拾取的初始语音信号集合;所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号;所述麦克风阵列包括多个麦克风对,每个麦克风对包括两个位置相对设置的麦克风;
预处理模块,用于对每个初始语音信号进行预处理,获得第一语音信号集合;所述第一语音信号集合包括每个初始语音信号对应的处理后的第一语音信号;
子带划分模块,用于采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带;
互功率谱密度函数获取模块,用于获得第一语音信号对的同一子带区域的互功率谱密度函数;所述第一语音信号对为一个麦克风对对应的两路第一语音信号;
第一融合模块,用于融合每个第一语音信号对的所有子带区域的互功率谱密度函数,获得每个第一语音信号对的互功率谱密度函数;
谐波检测模块,用于对每个第一语音信号对的互功率谱密度函数进行谐波检测,获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数;
加权模块,用于使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数;
第二融合模块,用于根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数,获得融合后的加权二维位置/基频特性函数;
声源方位角和基频确定模块,用于在设定阈值范围内获得使所述融合后的加权二维位置/基频特性函数的函数值最大时的各个声源的方位角和基频。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
针对现存的多声源定位算法无法克服多声源间的相互干扰以及混响的影响,从而无法准确获得各个声源位置的问题,本发明采用加权的基于耳蜗基底膜的联合位置和基频的多声源定位方法,以提高在多声源混响环境下的定位性能。该方法基于人耳蜗基底膜特性,首先使用耳蜗基底膜滤波器对麦克风阵列接收到的混合语音信号进行子带划分,计算每个子带中两路麦克风信号的互功率谱密度函数,其次通过归一化求和的方式融合各个子带的互功率谱密度函数,并对融合后的互功率谱密度函数进行谐波检测得到每对麦克风的二维位置/基频特征,使用抗混响性较好的广义互相关函数GCC-PHAT和WCC函数对其加权;最后通过在给定基频和方位角的范围内搜索最大值来求得声源的方位角和基频。本发明充分利用了人耳蜗基底膜特性,克服了多声源信号间的干扰;同时使用混响性较好的广义互相关函数GCC-PHAT和WCC函数作为加权函数,提高定位方法在多声源混响环境下的定位精度。因此,与传统的双声源定位方法相比,本发明克服了声源信号间的相互干扰,提高了定位精度。而且本发明有较高的抗混响性,能在强混响情况下准确估计出各个声源的位置。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多声源定位方法的流程示意图;
图2为本发明多声源定位方法中加权二维位置/基频特性函数的计算示意图;
图3为本发明多声源定位方法中Gammachirp滤波器的频率响应图;
图4为本发明多声源定位系统的结构示意图;
图5为本发明多声源定位方法及系统中采用的麦克风阵列示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明多声源定位方法的流程示意图。如图1所示,所述方法包括:
步骤100:获取初始语音信号集合。初始的语音信号集合是通过麦克风阵列拾取的。所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号,一个麦克风拾取一个初始语音信号;所述麦克风阵列包括多个麦克风对,每个麦克风对包括两个位置相对设置的麦克风。
步骤200:对初始语音信号进行预处理,获得第一语音信号集合。对每个初始语音信号进行预处理,一个初始语音预处理之后得到一个第一语音信号,依次获得第一语音信号集合。预处理包括:预滤波、加窗分帧以及端点检测,具体预处理的过程包括:
(1)对于每一个初始语音信号,使用FIR带通滤波器滤除所述初始语音信号的低频段和高频段噪声,得到滤波后的语音信号。预滤波的目的是抑制语音信号中的低频和高频噪声,提高信噪比。语音信号的频率范围为300~3400Hz,在对信号进行预处理之前,需要滤除低频和高频噪声。
(2)对所述滤波后的语音信号进行加窗分帧,获得分帧后的信号。语音信号作为一种非平稳的宽带信号,加窗分帧能够保证其短时平稳特性。本发明采用交叠分段的办法进行分帧,窗函数选取矩形窗,其表达式为本发明中信号的采样频率为fs=16000Hz,帧长为1024个采样点,帧移为521个采样点。对麦克风阵列接收到的混合语音信号y(k)进行分帧,每帧表示为y(n,λ),n=1,2,...N,n为采样点,N表示帧长,λ表示帧数。
(3)根据所述分帧后的信号,采用双门限端点检测法确定每个滤波后的语音信号对应的起始点和终止点。端点检测的目的就是从一段接收声信号中找出有效信号的起始点和结束点,从而只对有效信号进行处理,准确的端点检测不仅可以减少数据存储量和处理时间,而且能排除无声段和噪声的干扰。本发明采用双门限检测法来完成端点检测:
短时能量即一帧信号所具有的平均能量,计算公式为
短时平均过零率为每帧内信号通过零值的次数,对于离散的信号,只需比较相邻两个采样点的符号即可,计算公式如下其中
本发明采用双门限检测法来完成端点检测,包括两级判决:
第一级判决
首先根据语音信号的多帧平均能量值设定一个较高的第一阈值T1,用来寻找语音的起始点。将短时能量大于所述第一阈值的第一帧信号确定为滤波后的语音信号对应的起始帧信号,此处第一帧信号是指第一次出现短时能量大于第一阈值的那一帧信号,在此帧信号之前的所有帧信号的短时能量都是不大于第一阈值的,将此帧信号作为起始帧信号;
然后再利用噪声的平均能量设定一个较低的第二阈值T2,其中T2<T1,用来判定语音信号的结束点。将短时能量小于所述第二阈值的第一帧信号确定为滤波后的语音信号对应的终止帧信号,同样的,此处的第一帧信号也是指第一次出现短时能量小于第二阈值的那一帧信号,在此帧信号之前的所有帧信号的短时能量都是不小于第二阈值的,将此帧信号作为终止帧信号。
至此第一级判决结束。
第二级判决
利用噪声的平均过零率ZN,设定一个阈值T3,用来判定语音信号开始时的清音和结尾处的尾音。将起始帧信号中过零率大于所述第三阈值的第一个采样点作为滤波后的语音信号的起始点;由于起始帧信号包括多个采样点,为了更高精度的确定有效语音的起始点,通过将过零率第一次大于第三阈值的采样点作为起始点,在此采样点之前的所有采样点的过零率都是不大于第三阈值的。
将所述终止帧信号中过零率小于所述第三阈值的第一个采样点作为滤波后的语音信号的终止点,在该采样点之前的所有采样点的过零率都是不小于第三阈值的
其中,三个阈值的确定过程具体实施方式可以为:首先计算最初10帧信号每帧的短时能量Ei,最大值记为EMAX,最小值记为EMIN,然后令:
I1=0.03(EMAX-EMIN)+EMIN;I2=4EMIN;
T1和T2按下式确定:
T2=min(I1,I2);T1=5T2。
过零率阈值T3:
T3=min(IF,zc+2fzc),IF为25;zc、fzc分别为最初10帧过零率的“均值”和“标准差”。
(4)剔除每个滤波后的语音信号的起始点至终止点之外的信号,将每个滤波后的语音信号的起始点至终止点之间的信号确定为对应的第一语音信号;
依次获得所有的第一语音信号,得到第一语音信号集合。第一语音信号集合中的元素为每个麦克风对应的第一语音信号。
步骤300:将每个第一语音信号划分为多个子带。采用耳蜗基底膜滤波器组将每个第一语音信号划分为64个不同的子带,中心频率分布在等效矩形带宽50~8000Hz。与其他滤波器相比,Gammachip滤波器更符合人耳的基底膜特性,所以本发明采用Gammachirp滤波器将语音信号划分为64个子带,其中16通道的滤波器频率响应如图3所示。
步骤400:获得同一子带区域的互功率谱密度函数CPSD。此步骤针对第一语音信号对的同一子带区域的信号进行处理,第一语音信号对即一个麦克风对对应的两路第一语音信号。由于每个麦克风对应的第一语音信号分为多个子带,即包括多个子带区域,例如第一子带区域、第二子带区域、第三子带区域……,此步骤将一个麦克风对对应的两路第一语音信号同一子带区域求取互功率谱密度函数CPSD,即第一子带区域的两路信号求取互功率谱密度函数CPSD,第二子带区域的两路信号求取互功率谱密度函数CPSD……
具体过程为:
利用获得第g个子带区域中两路第一语音信号的初始互功率谱密度函数其中g为子带的索引,Yi(n,λ)表示第i个阵元对应的第一语音信号yi(k)的短时傅里叶变换,Yl(n,λ)表示第l个阵元对应的第一语音信号yl(k)的短时傅里叶变换,H表示复共轭,E{·}表示期望;
引入一阶平滑滤波器对两路信号的CPSD函数进行平滑处理,保持各帧信号之间的连续性,消除仅由当前帧信号估计结果带来的波动,提高算法的定位精度。采用一阶平滑滤波器对初始的互功率谱密度函数进行加权平滑处理,获得平滑后的互功率谱密度函数其中,α为平滑系数,取值范围为(0<α<0.5)。
步骤500:融合互功率谱密度函数CPSD。融合每个第一语音信号对的所有子带区域的互功率谱密度函数,获得每个第一语音信号对的互功率谱密度函数,即每个麦克风对对应的两路信号的互功率谱密度函数。本发明采用加权平均的方式融合各子带中的平滑CPSD函数,即先对每个子带中的平滑CPSD函数进行加权,然后再求平均值获得最终的CPSD函数。具体的,利用对每个第一语音信号对的所有子带区域的互功率谱密度函数进行融合,获得每个第一语音信号对的互功率谱密度函数Φil′(n,λ),其中G为子带的数量,为第g个子带区域中两路第一语音信号的互功率谱密度函数。
步骤600:对CPSD进行谐波检测,获得麦克风对的二维位置/基频特性函数。对于联合位置和基频的声源定位,通常仅考虑语音信号的浊音段来作为声源,假设语音信号包含一个基频f0(pitch)和数次谐波,通常使用一个谐波检测来估计语音信号的基频。谐波检测的频率索引定义如下:
式中,p表示谐波数目,N表示帧长,fs表示采样频率。
二维位置/基频(DOA/pitch)特征可通过对融合后的CPSD进行谐波检测来得到
ψil[np]=arg{Φil′[np]};
其中|Φil′[np]|表示互功率谱密度函数的幅度;f0为基频信息,ψil[np]表示互功率谱密度函数的相位,表示基频f0和方位角组合的期望相位,dil表示第i个和第j个麦克风之间的距离,c表示空气中声音的速度,T{·}表示一个额外的相位转换,这个转换增加了相位权重对谐波检测的影响。式中,0<ε≤1影响优选方向的宽度,χ表示CPSD的相位与基频f0和组合的期望相位的差值,当χ→0或者2π的倍数时,相位权重越大,此时的f0和就越接近真实声源的值。
步骤700:对每个麦克风对的二维位置/基频特性函数加权。使用抗混响性较好的广义相关函数GCC-PHAT和WCC函数对二维位置/基频特性加权。基于耳蜗基底膜特性的联合位置和基频算法在理想环境下得到了较高的定位精度,但在高混响环境下,二维方位角/基频特征的峰值展宽,导致算法的定位精度降低。鉴于传统的互相关算法GCC-PHAT函数以及WCC函数具有较好的鲁棒性和抗混响性,本发明采用这两种函数对二维方位角/基频特征进行加权,以此提高算法在高混响环境下的定位性能,同时GCC-PHAT函数和WCC函数里包含有信号的幅度分量,直接对二维方位角/基频特征加权时会破坏信号的周期性,影响基频的估计,因此采用如下方式来实现对二维方位角/基频特征的加权:
利用对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数其中 表示对麦克风对的两路信号的GCC-PHAT函数和WCC函数进行采样。
两路麦克风信号的GCC-PHAT函数表达式如下:
其中,Φil[n]为麦克风i和麦克风j接收信号的互功率谱密度函数。
两路麦克风的WCC函数可表示为:
式中,ψGCC(p)为两路信号的广义互相关函数GCC-PHAT,ψAMDF(p)为两路信号的平均幅度差函数,ε表示一个小的正数,以防止分母为零。ψAMDF(p)的表达式为
步骤800:获得融合后的加权二维位置/基频特性函数。根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数,获得融合后的加权二维位置/基频特性函数。此处一般平均法是为了区别加权平均,一般平均法即将所有值相加求平均的方法,不考虑每个元素的权重。通过加和求平均的方法获得最终一个二维位置/基频特性函数
步骤900:获得各个声源的方位角和基频,以实现多声源的定位。在设定阈值范围内以步进的方式获得融合后的加权二维位置/基频特性函数的多个函数值。加权二维位置/基频特性函数的函数值的计算仅在给定的f0和的范围内进行,其中方位角的搜索范围为0°~180°,步长为1°,基频f0的搜索范围为80~280Hz,步长为1Hz。经过在设定阈值范围内的搜索,获得多个函数值,将所有的函数值按照降序排序,根据声源的个数,筛选排序后的前n个函数值对应的方位角和基频即为n个声源对应的方位角和基频。如果是一个声源的话就是找函数最大值,最大值对应的方位角和基频即为声源的定位信息;两个声源就是搜索函数的最大值和次大值,最大值对应的方位角和基频为一个声源的定位信息,次大值对应的方位角和基频为另一个声源的定位信息。
图2为本发明多声源定位方法中加权二维位置/基频特性函数的计算示意图。如图2所示,计算的过程包括:对经过预处理后的麦克风信号进行子带划分;计算各个子带中任一对对立麦克风信号的平滑CPSD函数;融合各个子带的平滑CPSD函数,获得两路信号最终的CPSD函数;对融合后的CPSD函数进行谐波检测。
图3为本发明多声源定位方法中Gammachirp滤波器的频率响应图。如图3所示,本发明采用Gammachirp滤波器将语音信号划分为64个子带,图3为其中16通道的滤波器频率响应图。
图4为本发明多声源定位系统的结构示意图。如图4所示,所述系统包括:
初始语音信号集合获取模块401,用于获取麦克风阵列拾取的初始语音信号集合;所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号;所述麦克风阵列包括多个麦克风对,每个麦克风对包括两个位置相对设置的麦克风;
预处理模块402,用于对每个初始语音信号进行预处理,获得第一语音信号集合;所述第一语音信号集合包括每个初始语音信号对应的处理后的第一语音信号;
子带划分模块403,用于采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带;
互功率谱密度函数获取模块404,用于获得第一语音信号对的同一子带区域的互功率谱密度函数;所述第一语音信号对为一个麦克风对对应的两路第一语音信号;
第一融合模块405,用于融合每个第一语音信号对的所有子带区域的互功率谱密度函数,获得每个第一语音信号对的互功率谱密度函数;
谐波检测模块406,用于对每个第一语音信号对的互功率谱密度函数进行谐波检测,获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数;
加权模块407,用于使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数;
第二融合模块408,用于根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数,获得融合后的加权二维位置/基频特性函数;
声源方位角和基频确定模块409,用于在设定阈值范围内获得使所述融合后的加权二维位置/基频特性函数的函数值最大时的各个声源的方位角和基频。
图5为本发明多声源定位方法及系统中采用的麦克风阵列示意图。本发明的麦克风阵列包括多个麦克风对,麦克风对为设置在相对位置的两个麦克风组成的组合。麦克风阵列可以为均匀线性圆阵列,也可以为均匀线性直线阵列。如图5所示,图5为采用8个麦克风组成的均匀线性圆阵列。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种多声源定位的方法,其特征在于,所述方法包括:
获取麦克风阵列拾取的初始语音信号集合;所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号;所述麦克风阵列包括多个麦克风对,每个麦克风对包括两个位置相对设置的麦克风;
对每个初始语音信号进行预处理,获得第一语音信号集合;所述第一语音信号集合包括每个初始语音信号对应的处理后的第一语音信号;
采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带;
获得第一语音信号对的同一子带区域的互功率谱密度函数;所述第一语音信号对为一个麦克风对对应的两路第一语音信号;
融合每个第一语音信号对的所有子带区域的互功率谱密度函数,获得每个第一语音信号对的互功率谱密度函数;
对每个第一语音信号对的互功率谱密度函数进行谐波检测,获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数;
使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数;
根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数,获得融合后的加权二维位置/基频特性函数;
在设定阈值范围内根据所述融合后的加权二维位置/基频特性函数的函数值确定各个声源的方位角和基频。
2.根据权利要求1所述的方法,其特征在于,所述对每个初始语音信号进行预处理,获得第一语音信号集合,具体包括:
对于每一个初始语音信号,使用FIR带通滤波器滤除所述初始语音信号的低频段噪声和高频段噪声,得到滤波后的语音信号;
对所述滤波后的语音信号进行加窗分帧,获得分帧后的信号;
根据所述分帧后的信号,采用双门限端点检测法确定每个滤波后的语音信号对应的起始点和终止点;
剔除每个滤波后的语音信号的起始点至终止点之外的信号,将每个滤波后的语音信号的起始点至终止点之间的信号确定为对应的第一语音信号;
依次获得所有的第一语音信号,得到第一语音信号集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述分帧后的信号,采用双门限端点检测法确定每个滤波后的语音信号对应的起始点和终止点,具体包括:
根据所述分帧后的信号的短时能量确定第一阈值T1;
根据背景噪声的短时能量确定第二阈值T2,其中T2<T1;
将短时能量大于所述第一阈值的第一帧信号确定为滤波后的语音信号对应的起始帧信号;
将短时能量小于所述第二阈值的第一帧信号确定为滤波后的语音信号对应的终止帧信号;
根据背景噪声的平均过零率确定第三阈值T3;
将所述起始帧信号中过零率大于所述第三阈值的第一个采样点作为滤波后的语音信号的起始点;
将所述终止帧信号中过零率小于所述第三阈值的第一个采样点作为滤波后的语音信号的终止点。
4.根据权利要求1所述的方法,其特征在于,所述采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带,具体包括:
采用耳蜗基底膜滤波器组将每个第一语音信号划分为64个不同的子带,中心频率分布在等效矩形带宽50~8000Hz。
5.根据权利要求1所述的方法,其特征在于,所述获得第一语音信号对的同一子带区域的互功率谱密度函数,具体包括:
利用g=1.2.3...G获得第g个子带区域中两路第一语音信号的初始互功率谱密度函数其中g为子带的索引,Yi(n,λ)表示第i个阵元对应的第一语音信号yi(k)的短时傅里叶变换,Yl(n,λ)表示第l个阵元对应的第一语音信号yl(k)的短时傅里叶变换,H表示复共轭,E{·}表示期望;
采用一阶平滑滤波器λ≥2对初始的互功率谱密度函数进行加权平滑处理,获得平滑后的互功率谱密度函数其中,α为平滑系数,取值范围为(0<α<0.5)。
6.根据权利要求1所述的方法,其特征在于,所述融合每个第一语音信号对的所有子带区域的互功率谱密度函数,获得每个第一语音信号对的互功率谱密度函数,具体包括:
利用对每个第一语音信号对的所有子带区域的互功率谱密度函数进行融合,获得每个第一语音信号对的互功率谱密度函数Φil′(n,λ),其中G为子带的数量,为第g个子带区域中两路第一语音信号的互功率谱密度函数。
7.根据权利要求1所述的方法,其特征在于,所述对每个第一语音信号对的互功率谱密度函数进行谐波检测,获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数,具体包括:
利用对第一语音信号对的互功率谱密度函数Φil′(n,λ)进行谐波检测,获得第一语音信号对对应的麦克风对的二维位置/基频特性函数其中|Φil′[np]|表示互功率谱密度函数的幅度,np为谐波检测的频率索引,p=1...P,p表示谐波数目,N表示帧长,fs表示采样频率;f0为基频信息,ψil[np]表示互功率谱密度函数的相位,ψil[np]=arg{Φil′[np]},表示基频f0和方位角组合的期望相位,dil表示第i个和第j个麦克风之间的距离,c表示空气中声音的速度,T{·}表示一个额外的相位转换。
8.根据权利要求7所述的方法,其特征在于,所述使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数,具体包括:
利用对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数其中表示对麦克风对的两路信号的GCC-PHAT函数和WCC函数进行采样。
9.根据权利要求1所述的方法,其特征在于,所述在设定阈值范围内获得使所述融合后的加权二维位置/基频特性函数的函数值最大时的各个声源的方位角和基频,具体包括:
以方位角步长1°,基频步长1Hz的步进方式在设定阈值范围内获得所述融合后的加权二维位置/基频特性函数的多个函数值,所述设定阈值范围为80~280Hz的基频范围、0°~180°的方位角范围;
将所述多个函数值按照降序排列;
根据声源的个数,将按照降序排列后的前n个函数值对应的方位角和基频确定为n个声源的方位角和基频。
10.一种多声源定位的系统,其特征在于,所述系统包括:
初始语音信号集合获取模块,用于获取麦克风阵列拾取的初始语音信号集合;所述初始语音信号集合包括所述麦克风阵列中所有麦克风拾取的初始语音信号;所述麦克风阵列包括多个麦克风对,每个麦克风对包括两个位置相对设置的麦克风;
预处理模块,用于对每个初始语音信号进行预处理,获得第一语音信号集合;所述第一语音信号集合包括每个初始语音信号对应的处理后的第一语音信号;
子带划分模块,用于采用耳蜗基底膜滤波器将每个第一语音信号划分为多个子带;
互功率谱密度函数获取模块,用于获得第一语音信号对的同一子带区域的互功率谱密度函数;所述第一语音信号对为一个麦克风对对应的两路第一语音信号;
第一融合模块,用于融合每个第一语音信号对的所有子带区域的互功率谱密度函数,获得每个第一语音信号对的互功率谱密度函数;
谐波检测模块,用于对每个第一语音信号对的互功率谱密度函数进行谐波检测,获得每个第一语音信号对对应的麦克风对的二维位置/基频特性函数;
加权模块,用于使用GCC-PHAT函数和WCC函数对每个麦克风对的二维位置/基频特性函数加权,获得每个麦克风对的加权二维位置/基频特性函数;
第二融合模块,用于根据一般平均法融合所有麦克风对的加权二维位置/基频特性函数,获得融合后的加权二维位置/基频特性函数;
声源方位角和基频确定模块,用于在设定阈值范围内获得使所述融合后的加权二维位置/基频特性函数的函数值最大时的各个声源的方位角和基频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711433961.1A CN108198568B (zh) | 2017-12-26 | 2017-12-26 | 一种多声源定位的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711433961.1A CN108198568B (zh) | 2017-12-26 | 2017-12-26 | 一种多声源定位的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108198568A true CN108198568A (zh) | 2018-06-22 |
CN108198568B CN108198568B (zh) | 2020-10-16 |
Family
ID=62584291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711433961.1A Active CN108198568B (zh) | 2017-12-26 | 2017-12-26 | 一种多声源定位的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108198568B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN110007276A (zh) * | 2019-04-18 | 2019-07-12 | 太原理工大学 | 一种声源定位方法及系统 |
CN110867193A (zh) * | 2019-11-26 | 2020-03-06 | 广东外语外贸大学 | 一种段落英语口语评分方法及系统 |
CN110954866A (zh) * | 2019-11-22 | 2020-04-03 | 达闼科技成都有限公司 | 声源定位方法、电子设备及存储介质 |
CN111190167A (zh) * | 2020-01-06 | 2020-05-22 | 山东大学 | 一种仿生声呐机器人的目标定位方法 |
WO2020107455A1 (zh) * | 2018-11-30 | 2020-06-04 | 深圳市欢太科技有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN112684412A (zh) * | 2021-01-12 | 2021-04-20 | 中北大学 | 一种基于模式聚类的声源定位方法及系统 |
CN112690783A (zh) * | 2020-12-28 | 2021-04-23 | 佛山博智医疗科技有限公司 | 一种控制声音频率交变输出的方法 |
CN113419216A (zh) * | 2021-06-21 | 2021-09-21 | 南京信息工程大学 | 一种适用于混响环境的多声源定位方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1832633A (zh) * | 2005-03-07 | 2006-09-13 | 华为技术有限公司 | 一种声源定位方法 |
CN101567969A (zh) * | 2009-05-21 | 2009-10-28 | 上海交通大学 | 基于麦克风阵列声音制导的智能视频导播方法 |
CN101950559A (zh) * | 2010-07-05 | 2011-01-19 | 李华东 | 大词汇量连续语音合成方法及终端设备 |
CN102522082A (zh) * | 2011-12-27 | 2012-06-27 | 重庆大学 | 一种公共场所异常声音的识别与定位方法 |
CN102854494A (zh) * | 2012-08-08 | 2013-01-02 | Tcl集团股份有限公司 | 一种声源定位方法及装置 |
US20140241549A1 (en) * | 2013-02-22 | 2014-08-28 | Texas Instruments Incorporated | Robust Estimation of Sound Source Localization |
CN104076331A (zh) * | 2014-06-18 | 2014-10-01 | 南京信息工程大学 | 一种七元麦克风阵列的声源定位方法 |
CN104142492A (zh) * | 2014-07-29 | 2014-11-12 | 佛山科学技术学院 | 一种srp-phat多源空间定位方法 |
CN105938657A (zh) * | 2016-06-27 | 2016-09-14 | 常州加美科技有限公司 | 一种无人驾驶车辆的听觉感知与智能决策系统 |
CN106226739A (zh) * | 2016-07-29 | 2016-12-14 | 太原理工大学 | 融合子带分析的双声源定位方法 |
CN106405499A (zh) * | 2016-09-08 | 2017-02-15 | 南京阿凡达机器人科技有限公司 | 一种机器人定位声源的方法 |
-
2017
- 2017-12-26 CN CN201711433961.1A patent/CN108198568B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1832633A (zh) * | 2005-03-07 | 2006-09-13 | 华为技术有限公司 | 一种声源定位方法 |
CN101567969A (zh) * | 2009-05-21 | 2009-10-28 | 上海交通大学 | 基于麦克风阵列声音制导的智能视频导播方法 |
CN101950559A (zh) * | 2010-07-05 | 2011-01-19 | 李华东 | 大词汇量连续语音合成方法及终端设备 |
CN102522082A (zh) * | 2011-12-27 | 2012-06-27 | 重庆大学 | 一种公共场所异常声音的识别与定位方法 |
CN102854494A (zh) * | 2012-08-08 | 2013-01-02 | Tcl集团股份有限公司 | 一种声源定位方法及装置 |
US20140241549A1 (en) * | 2013-02-22 | 2014-08-28 | Texas Instruments Incorporated | Robust Estimation of Sound Source Localization |
CN104076331A (zh) * | 2014-06-18 | 2014-10-01 | 南京信息工程大学 | 一种七元麦克风阵列的声源定位方法 |
CN104142492A (zh) * | 2014-07-29 | 2014-11-12 | 佛山科学技术学院 | 一种srp-phat多源空间定位方法 |
CN105938657A (zh) * | 2016-06-27 | 2016-09-14 | 常州加美科技有限公司 | 一种无人驾驶车辆的听觉感知与智能决策系统 |
CN106226739A (zh) * | 2016-07-29 | 2016-12-14 | 太原理工大学 | 融合子带分析的双声源定位方法 |
CN106405499A (zh) * | 2016-09-08 | 2017-02-15 | 南京阿凡达机器人科技有限公司 | 一种机器人定位声源的方法 |
Non-Patent Citations (3)
Title |
---|
倪志莲 等: "基于子带可控响应功率的多声源定位方法", 《计算机工程与应用》 * |
马令坤 等: "基于信号功率谱密度分布的动态非均匀子带分解方法", 《计算机应用》 * |
黄丽霞 等: "融合子带分析的加权广义互相关双声源定位", 《计算机工程与设计》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
WO2020107455A1 (zh) * | 2018-11-30 | 2020-06-04 | 深圳市欢太科技有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN112997249B (zh) * | 2018-11-30 | 2022-06-14 | 深圳市欢太科技有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN112997249A (zh) * | 2018-11-30 | 2021-06-18 | 深圳市欢太科技有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN110007276B (zh) * | 2019-04-18 | 2021-01-12 | 太原理工大学 | 一种声源定位方法及系统 |
CN110007276A (zh) * | 2019-04-18 | 2019-07-12 | 太原理工大学 | 一种声源定位方法及系统 |
CN110954866A (zh) * | 2019-11-22 | 2020-04-03 | 达闼科技成都有限公司 | 声源定位方法、电子设备及存储介质 |
CN110954866B (zh) * | 2019-11-22 | 2022-04-22 | 达闼机器人有限公司 | 声源定位方法、电子设备及存储介质 |
CN110867193A (zh) * | 2019-11-26 | 2020-03-06 | 广东外语外贸大学 | 一种段落英语口语评分方法及系统 |
CN111190167A (zh) * | 2020-01-06 | 2020-05-22 | 山东大学 | 一种仿生声呐机器人的目标定位方法 |
CN111190167B (zh) * | 2020-01-06 | 2023-04-07 | 山东大学 | 一种仿生声呐机器人的目标定位方法 |
CN112690783A (zh) * | 2020-12-28 | 2021-04-23 | 佛山博智医疗科技有限公司 | 一种控制声音频率交变输出的方法 |
CN112684412A (zh) * | 2021-01-12 | 2021-04-20 | 中北大学 | 一种基于模式聚类的声源定位方法及系统 |
CN113419216A (zh) * | 2021-06-21 | 2021-09-21 | 南京信息工程大学 | 一种适用于混响环境的多声源定位方法 |
CN113419216B (zh) * | 2021-06-21 | 2023-10-31 | 南京信息工程大学 | 一种适用于混响环境的多声源定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108198568B (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198568A (zh) | 一种多声源定位的方法及系统 | |
US9837099B1 (en) | Method and system for beam selection in microphone array beamformers | |
CN102918588B (zh) | 基于声输入信号提供空间参数的空间音频处理器和方法 | |
CN106226739A (zh) | 融合子带分析的双声源定位方法 | |
CN102854494B (zh) | 一种声源定位方法及装置 | |
CN101447190A (zh) | 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法 | |
CN110133596A (zh) | 一种基于频点信噪比和偏置软判决的阵列声源定位方法 | |
CN107102296A (zh) | 一种基于分布式麦克风阵列的声源定位系统 | |
CN107976651A (zh) | 一种基于麦克风阵列的声源定位方法及装置 | |
CN102013911A (zh) | 一种基于门限检测的宽带信号波达方向估计方法 | |
CN110534126B (zh) | 一种基于固定波束形成的声源定位和语音增强方法及系统 | |
CN108549052A (zh) | 一种时频-空域联合加权的圆谐域伪声强声源定位方法 | |
CN103021405A (zh) | 基于music和调制谱滤波的语音信号动态特征提取方法 | |
CN106371057B (zh) | 语音声源测向方法及装置 | |
US10755727B1 (en) | Directional speech separation | |
CN109212481A (zh) | 一种利用麦克风阵列进行声源定位的方法 | |
CN112034418A (zh) | 基于频域Bark子带的波束扫描方法及声源定向装置 | |
Imran et al. | A methodology for sound source localization and tracking: Development of 3D microphone array for near-field and far-field applications | |
CN110111802A (zh) | 基于卡尔曼滤波的自适应去混响方法 | |
Rubio et al. | Two-microphone voice activity detection based on the homogeneity of the direction of arrival estimates | |
CN110838303B (zh) | 一种利用传声器阵列的语音声源定位方法 | |
CN109901114B (zh) | 一种适用于声源定位的时延估计方法 | |
Nakano et al. | Automatic estimation of position and orientation of an acoustic source by a microphone array network | |
CN111650559B (zh) | 一种实时处理的二维声源定位方法 | |
Guo et al. | Underwater target detection and localization with feature map and CNN-based classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |