CN115201753B - 一种低功耗多频谱分辨的语音定位方法 - Google Patents
一种低功耗多频谱分辨的语音定位方法 Download PDFInfo
- Publication number
- CN115201753B CN115201753B CN202211136339.5A CN202211136339A CN115201753B CN 115201753 B CN115201753 B CN 115201753B CN 202211136339 A CN202211136339 A CN 202211136339A CN 115201753 B CN115201753 B CN 115201753B
- Authority
- CN
- China
- Prior art keywords
- calculating
- spectrum
- matrix
- voice
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims abstract description 63
- 239000011159 matrix material Substances 0.000 claims abstract description 58
- 230000003595 spectral effect Effects 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 230000004807 localization Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 230000001268 conjugating effect Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000001310 location test Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种低功耗多频谱分辨的语音定位方法,属于语音定位技术领域,其包括:通过阵列分布的麦克风获取语音数据,计算得到噪声子空间;根据麦克风阵列形状和间距,计算得到导向矢量;计算导向矢量和噪声子空间相乘矩阵;计算导向矢量和噪声子空间相乘矩阵的功率谱,根据功率谱计算得到空间频谱向量;获得空间频谱向量在各个频点中的最大值;在空间频谱的维度中规整数值;对规整后数值在整个空间频谱区域内求和,然后取均值;对均值进行谱峰搜索,获得谱峰列表,对谱峰列表排序后的最大值即为语音源最可能存在的位置。本发明实现了低功耗、低内存、高精度的语音定位,可搭载在廉价的语音芯片上,解决了多频谱分辨算法复杂度高、适用范围小的问题。
Description
技术领域
本发明属于语音定位技术领域,具体涉及一种低功耗多频谱分辨的语音定位方法。
背景技术
目前,声源定位技术是确定声音在空间中来源位置的技术,而语音定位是声源定位的核心子模块,同理,语音定位是确定人的说话声在空间中来源位置的技术。语音定位技术可用于很多电子穿戴、智能家电、办公设备中,比如通过人声定位追踪轨迹的舞台摄像头、空调防直吹、拾音器、扫地机器人等人机语音交互相关场景,也可以用于麦克风阵列波束形成,对某个特定方向进行语音增强和降噪。
语音数字信号属于宽带数据信号,具有全频的特性,不同于其它信号,如天线信号是窄带信号,有特定的频段。当在强混响或强噪声情况下,语音和噪声会发生多路径反射,使得声场环境变得极其的复杂,实际到达时间差难以测量、频谱差异性弱化,进行有效的语音定位,是极具挑战性的。
TDOA和波术形成是语音定位主要的两种传统方式。TDOA主要核心思想是计算语音源到达各个麦克风的时间差,这要求系统的采样率足够高;此外,该方法通常通过互相关或广义互相关算法计算时间差,可能不适合用于对周期性信号进行定位。波术形成方法通过将阵列中各个传感器所采集到的数据信号进行滤波、加权叠加后形成波束,扫描整个接收空间,对一个平面的声压分布进行成像可视化,但此方法需要众多的传感器,成本高,不适用普通电子设备中。此外还有采用深度学习的方式,仿真海量数据,让神经网络自行预判和学习,此方法除了计算量大,在不同的声场环境和麦克风阵列下不具备普适性,需要根据不同场景进行模型重新训练。
由于语音是非周期性信号,TDOA算法适用且成本低。主流的TDOA算法有CSSM(详见参考文献[1] H. Wang and M. Kaveh, "Coherent signal-subspace processing forthe detection and estimation of angles of arrival of multiple wide-bandsources",IEEE Transactions on Acoustics, Speech, and Signal Processing(Volume: 33, Issue: 4, August 1985).)、FRIDA(详见参考文献[2] Hanjie Pan, RobinScheibler, Eric Bezzam, Ivan Dokmanic, and Martin Vetterli, "FRI-baseddirection of arrival finding algorithm", IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP),19 June 2017.)、SRP(详见参考文献[3] Leonardo Oliveira Nunes and Wallace Martins, etc.,"A Steered-ResponsePower Algorithm Employing Hierarchical Search for Acoustic SourceLocalization Using Microphone Arrays", IEEE Transactions on Signal Processing62(19):5171-5183,October 2014.)、TOPS(详见参考文献[4] Arnab K. Shaw, "ImprovedWideband DOA Estimation Using Modified TOPS (mTOPS) Algorithm", IEEE SignalProcessing Letters, 28 September 2016.)、MUSIC(详见参考文献[5] Schmidt, R. O.,"Multiple emitter location and signal parameter estimation", IEEE Trans.Antennas Propag. 34, 276-280 (1986))等。语音的全频段特性,使得多频谱分辨(MUSIC)可以提高定位精度,所以多频谱分辨的方式是综合表现是最好的,尤其它的抗干扰性最强,但是它致命的缺点是算法复杂度太大,无法在普通的廉价芯片上植入,昂贵的算力资源开销,让该算法的使用门槛受限。如果采用归一化方式,可以进一步提升算法精度,但是其计算量也会进一步提升。
发明内容
为了克服多频谱分辨算法复杂度高,提升多频谱分辨语音定位在不同算力芯片的适用范围,本发明的目的在于提供一种低功耗多频谱分辨的语音定位方法,在降低内存开销的情况下,还可以满足低功耗要求,同时可以进一步提升其语音定位准确性和鲁棒性,使得它可以搭载在低算力的语音芯片上。
为实现上述目的,本发明采用如下技术方案:一种低功耗多频谱分辨的语音定位方法,包括以下步骤:
S10、通过阵列分布的麦克风获取语音数据,计算得到噪声子空间;
S20、根据麦克风阵列形状和间距,计算得到导向矢量;
S30、计算导向矢量和噪声子空间相乘矩阵;
S40、计算导向矢量和噪声子空间相乘矩阵的功率谱,根据功率谱计算得到空间频谱向量;
S50、获得空间频谱向量在各个频点中的最大值;
S60、在空间频谱的维度中规整数值;
S70、对规整后数值在整个空间频谱区域内进行求和,然后取均值;
S80、对均值进行谱峰搜索,获得谱峰列表,对谱峰列表排序后的最大值即为语音源最可能存在的位置。
进一步地,步骤S10具体包括以下步骤:
S11、通过M个在平面空间360°内阵列分布的麦克风获取语音数据a=[M, L],将语音数据a通过2N个点的傅里叶快速变换后为语音频谱A=[L/N, N, M, 1],同时计算得到语音数据a的均值α和方差β;其中,L为每个麦克风的采样点;
S12、将语音频谱A进行转置和共厄得到Â=[L/N, N, 1, M],用Optimized CW-like算法计算出广义互相关矩阵U=A*Â;
S13、将广义互相关矩阵U进行多帧平滑处理,即计算出广义互相关矩阵U在采样帧长度L/N中的均值为Ū=[L/N, N, M, M];
S14、用均值α和方差β对均值Ū矩阵归一化后为厄米特矩阵Û=[L/N, N, M, M];
S15、采用修改基于Hessenberg的QR分解算法分解厄米特矩阵Û,进行1-3轮迭代,迭代时将虚部置为0,获得e=[L/N, N, M]个特征值;
S16、采用快速排序算法比较e个特征值的实部大小,选出最大特征值ė=[L/N, N,1];根据最大特征值ė和麦克风的个数M,计算出特征向量E=[L/N, N, M, 1];将特征向量E进行归一化后得到Ĕ=[L/N, N, M, 1];将矩阵Ĕ进行转置和共轭得到Ē=[L/N, N, 1,M];
S17、采用Optimized CW-like算法计算语音信号源广义互相关矩阵的补集,即噪声子空间C=I-E*Ē=[N, M, M];其中,I是形状为[N, M, M]的单位矩阵。
进一步地,步骤S15中的所述修改基于Hessenberg的QR分解算法的具体方法为:将矩阵通过初等行列变换为上三角矩阵。
进一步地,步骤S20具体为:根据麦克风的阵列形状和间距,计算出导向矢量W=[360, N, M, 1];将导向矢量W进行转置和共轭得到Ŵ=[360, N, 1, M]。
进一步地,步骤S30具体为:采用Optimized CW-like算法计算导向矢量W和噪声子空间C相乘矩阵:D=Ŵ*C*W=[360, N, 1, M]*[N, M, M]*[360, N, M, 1]=[360, N]。
进一步地,步骤S40具体为:计算出导向矢量W和噪声子空间C相乘矩阵D的功率谱为S,计算出空间频谱向量P=1/S=[360, N]。
进一步地,步骤S50具体为:获得空间频谱向量P在各个频点中的最大值ρ=[1, N]。
进一步地,步骤S60具体为:在空间频谱的维度中规整数值Ө=P/ρ=[360, N]/[1,N]=[360, N]。
进一步地,步骤S70具体为:对规整后数值Ө在整个空间频谱区域内进行求和为G=[360, 1],取均值获得Ĝ=G/N=[360, 1]。
进一步地,步骤S80具体为:对均值Ĝ进行谱峰搜索,获得谱峰列表Q,对谱峰列表Q排序后的最大值即为语音源最可能存在的位置。
与现有技术相比,本发明具有以下有益效果:通过麦克风阵列接收数据,实现低功耗、低内存、高精度的多频谱分辨的语音定位,该语言定位方法可以搭载在廉价的语音芯片上面,使得在小型轻巧的穿戴、家电、办公等产品中可以拥有精准的语音定位功能,从而让该方法具有更加广泛的商用价值。
附图说明
图1为本发明的流程图。
图2为本发明实施例的流程图。
具体实施方式
为了让本发明的上述特征和优点更明显易懂,下面特举实施例,并配合附图,作详细说明如下。
如图1所示,一种低功耗多频谱分辨的语音定位方法,包括以下步骤:
S10、通过阵列分布的麦克风获取语音数据,计算得到噪声子空间;
S20、根据麦克风阵列形状和间距,计算得到导向矢量;
S30、计算导向矢量和噪声子空间相乘矩阵;
S40、计算导向矢量和噪声子空间相乘矩阵的功率谱,根据功率谱计算得到空间频谱向量;
S50、获得空间频谱向量在各个频点中的最大值;
S60、在空间频谱的维度中规整数值;
S70、对规整后数值在整个空间频谱区域内进行求和,然后取均值;
S80、对均值进行谱峰搜索,获得谱峰列表,对谱峰列表排序后的最大值即为语音源最可能存在的位置。
具体实施例:以M 麦线阵,2N 个点的傅里叶变换,L 个采样点,平面空间分为360°为例描述工程化方案(此方法适配任意麦克风阵列、麦克风个数、傅里叶变换点数,[X,···]代表对应矩阵数据的形状)。
如图2所示,一种低功耗多频谱分辨的语音定位方法,包括以下步骤:
S10、通过阵列分布的麦克风获取语音数据,计算得到噪声子空间。
步骤S10具体包括以下步骤:
S11、通过M个在平面空间360°内阵列分布的麦克风获取语音数据a=[M, L],将语音数据a通过2N个点的傅里叶快速变换后为语音频谱A=[L/N, N, M, 1],同时计算得到语音数据a的均值α和方差β;其中,L为每个麦克风的采样点。
S12、将语音频谱A进行转置和共厄得到Â=[L/N, N, 1, M],用Optimized CW-like算法(详见参考文献[1] https://handwiki.org/wiki/Galactic_algorithm)计算出广义互相关矩阵U=A*Â;这个步骤的计算量由原来的M3变成M 2.3728596。
S13、将广义互相关矩阵U进行多帧平滑处理,即计算出广义互相关矩阵U在采样帧长度L/N中的均值为Ū=[L/N, N, M, M];通过多帧平滑处理,可以提升定位的精准度。
S14、用均值α和方差β对均值Ū矩阵归一化后为厄米特矩阵Û=[L/N, N, M, M];通过归一化处理,归一化后存储的数据类型只要单精度浮点即可,无需双精度,进一步降低计算量和节省存储空间,同时避免矩阵特征值和特征向量在计算过程中发散。
S15、由于Û是厄米特矩阵(共轭转置等于自身),可以针对厄米特矩阵,采用修改基于Hessenberg的QR分解算法(详见参考文献[2] QR factorization, EE263, StanfordUniversity)分解厄米特矩阵Û,进行1-3轮迭代,迭代时将虚部置为0,获得e=[L/N, N, M]个特征值;其中,迭代目的在于选出最大的特征值,所以无需进行超过3轮迭代,由于进行近似矩阵分解,虚部没有充分迭代无法趋近于0,直接将虚部置为0;这个步骤的计算量由原来的M3变成M 2。
其中,步骤S15中的所述修改基于Hessenberg的QR分解算法的具体方法为:将矩阵通过初等行列变换为上三角矩阵。因为在这里变换后特征值不一定要与原矩阵特征值一样,只要能找出最大特征值即可。初等行变换无需进行迭代,在变换前所有的虚部可以设置为零,时间复杂度也是O(n²),不存在发散问题。而Hessenberg的QR分解通过用Givens变换将矩阵分解为Hessenberg矩阵,此矩阵与原矩阵相似,然后使得时间从O(n³)变成O(n²),原理在于相似矩阵有相同的特征值,但是此算法的迭代次数需要比较多,尤其是数值比较大的时候,可能会发散,不收敛导致迭代失效。
S16、采用快速排序算法比较e个特征值的实部大小,选出最大特征值ė=[L/N, N,1];根据最大特征值ė和麦克风的个数M,计算出特征向量E=[L/N, N, M, 1];将特征向量E进行归一化后得到Ĕ=[L/N, N, M, 1];将矩阵Ĕ进行转置和共轭得到Ē=[L/N, N, 1,M];这里的特征向量E必须进行归一化,如果没有归一化,会影响后续的排序和比较。
S17、采用Optimized CW-like算法计算语音信号源广义互相关矩阵的补集,即噪声子空间C=I-E*Ē=[N, M, M];其中,I是形状为[N, M, M]的单位矩阵;这个步骤的计算量由原来的M3变成M 2.3728596。
S20、根据麦克风的阵列形状和间距,计算出导向矢量W=[360, N, M, 1];将导向矢量W进行转置和共轭得到Ŵ=[360, N, 1, M]。
S30、采用Optimized CW-like算法计算导向矢量W和噪声子空间C相乘矩阵:D=Ŵ*C*W=[360, N, 1, M]*[N, M, M]*[360, N, M, 1]=[360, N]。
S40、计算出导向矢量W和噪声子空间C相乘矩阵D的功率谱为S,根据功率谱S计算出空间频谱向量P=1/S=[360, N];这个步骤的计算量由原来的M6变成M 4.7457192。
S50、获得空间频谱向量P在各个频点中的最大值ρ=[1, N]。
S60、在空间频谱的维度中规整数值Ө=P/ρ=[360, N]/[1, N]=[360, N]。
S70、对规整后数值Ө在整个空间频谱区域内进行求和为G=[360, 1],取均值获得Ĝ=G/N=[360, 1]。
S80、对均值Ĝ进行谱峰搜索,获得谱峰列表Q,对谱峰列表Q排序后的最大值即为语音源最可能存在的位置。
下面对本实施例的方案进行实验。
实验的参数:256个点傅里叶变换,双麦克风线阵列,麦克风间距为35mm,二维平面360°。
实验的硬件:杰理AC791N系列的芯片(CPU 320MHz,DRAM 64M)。
实验的方法:C语言工程化算法,DSP软件串口烧入芯片。
实验的结果:
①优化前的算法运行时CPU峰值占用25%,即80MHz,DRAM峰值占用大约2M;优化后的算法运行时CPU峰值仅占用10%,即32MHz,DRAM峰值仅为0.7M左右。
②三个方位进行语音定位测试:0°(左边)、90°(中间)、180°(右边),1男1女,办公室环境下随机说话,信噪比约为10~15db,统计如下列表:
③优化后的算法,不仅计算量小、内存空间消耗远低于原有算法,而且在各个方向的识别率都超过原有算法,整体语音定位的准确性高于原有算法6%左右。
由此可见,本实施例通过优化矩阵相乘和分解、归一化矩阵和规律地下标读取内存数据,使得此方法具有更加广泛的商用价值,取得非常好的技术效果,具体如下。
1) 优化前的计算量为3*M3+M6,优化后计算量为2*M2.3728596+M2+M4.7457192,计算量比值约为M1.2542808:1,当麦克风数量越大,即M 越大,节省的计算量越明显,且节省算力比例成幂级数增长。
2) 内存空间通过下标进行矩阵读写,矩阵数据规整后数值变小,可以节省近1/3的内存空间开销,因为计算过程中的数值在单精度浮点范围内,无需用到双精度缓存。
3) 由于以上两点(计算量和存储空间减小),功耗自然低,此方法可以适用于廉价的芯片,无需频繁更换电池或充电,使得小型廉价的家电、穿戴、办公等产品可以搭载精准的语音定位功能,此方法适用的智能穿戴如手表、手环、耳机、眼镜等,小型家电办公设备如灯泡、镜子、闹钟、录音笔、扫描笔、电子秤、门锁猫眼、儿童相机、微型摄像头等。
以上所述,仅为本发明的较佳实施例,并非对本发明做任何形式上的限制,任何熟悉本领域的技术人员但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做任何简单的修改、均等变化与修饰,皆应属本发明的涵盖范围。
Claims (6)
1.一种低功耗多频谱分辨的语音定位方法,其特征在于,包括以下步骤:
S10、通过阵列分布的麦克风获取语音数据,计算得到噪声子空间;
步骤S10具体包括以下步骤:
S11、通过M个在平面空间360°内阵列分布的麦克风获取语音数据a=[M, L],将语音数据a通过2N个点的傅里叶快速变换后为语音频谱A=[L/N, N, M, 1],同时计算得到语音数据a的均值α和方差β;其中,L为每个麦克风的采样点;
S12、将语音频谱A进行转置和共厄得到Â=[L/N, N, 1, M],用Optimized CW-like算法计算出广义互相关矩阵U=A*Â;
S13、将广义互相关矩阵U进行多帧平滑处理,即计算出广义互相关矩阵U在采样帧长度L/N中的均值为Ū=[L/N, N, M, M];
S14、用均值α和方差β对均值Ū矩阵归一化后为厄米特矩阵Û=[L/N, N, M, M];
S15、采用修改基于Hessenberg的QR分解算法分解厄米特矩阵Û,进行1-3轮迭代,迭代时将虚部置为0,获得e=[L/N, N, M]个特征值;
S16、采用快速排序算法比较e个特征值的实部大小,选出最大特征值ė=[L/N, N, 1];根据最大特征值ė和麦克风的个数M,计算出特征向量E=[L/N, N, M, 1];将特征向量E进行归一化后得到Ĕ=[L/N, N, M, 1];将矩阵Ĕ进行转置和共轭得到Ē=[L/N, N, 1, M];
S20、根据麦克风阵列形状和间距,计算得到导向矢量;
步骤S20具体为:根据麦克风的阵列形状和间距,计算出导向矢量W=[360, N, M, 1];将导向矢量W进行转置和共轭得到Ŵ=[360, N, 1, M];
S30、计算导向矢量和噪声子空间相乘矩阵;
步骤S30具体为:采用Optimized CW-like算法计算导向矢量W和噪声子空间C相乘矩阵:D=Ŵ*C*W=[360, N, 1, M]*[N, M, M]*[360, N, M, 1]=[360, N];
S40、计算导向矢量和噪声子空间相乘矩阵的功率谱,根据功率谱计算得到空间频谱向量;
步骤S40具体为:计算出导向矢量W和噪声子空间C相乘矩阵D的功率谱为S,计算出空间频谱向量P=1/S=[360, N];
S50、获得空间频谱向量在各个频点中的最大值;
S60、在空间频谱的维度中规整数值;
S70、对规整后数值在整个空间频谱区域内进行求和,然后取均值;
S80、对均值进行谱峰搜索,获得谱峰列表,对谱峰列表排序后的最大值即为语音源最可能存在的位置。
2.根据权利要求1所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S15中的所述修改基于Hessenberg的QR分解算法的具体方法为:将矩阵通过初等行列变换为上三角矩阵。
3.根据权利要求1所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S50具体为:获得空间频谱向量P在各个频点中的最大值ρ=[1, N]。
4.根据权利要求3所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S60具体为:在空间频谱的维度中规整数值Ө=P/ρ=[360, N]/[1, N]=[360, N]。
5.根据权利要求4所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S70具体为:对规整后数值Ө在整个空间频谱区域内进行求和为G=[360, 1],取均值获得Ĝ=G/N=[360, 1]。
6.根据权利要求5所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S80具体为:对均值Ĝ进行谱峰搜索,获得谱峰列表Q,对谱峰列表Q排序后的最大值即为语音源最可能存在的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211136339.5A CN115201753B (zh) | 2022-09-19 | 2022-09-19 | 一种低功耗多频谱分辨的语音定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211136339.5A CN115201753B (zh) | 2022-09-19 | 2022-09-19 | 一种低功耗多频谱分辨的语音定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115201753A CN115201753A (zh) | 2022-10-18 |
CN115201753B true CN115201753B (zh) | 2022-11-29 |
Family
ID=83573703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211136339.5A Active CN115201753B (zh) | 2022-09-19 | 2022-09-19 | 一种低功耗多频谱分辨的语音定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115201753B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116390008B (zh) * | 2023-05-31 | 2023-09-01 | 泉州市音符算子科技有限公司 | 一种实现特定区域内免提式的无感扩音系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1473964A3 (en) * | 2003-05-02 | 2006-08-09 | Samsung Electronics Co., Ltd. | Microphone array, method to process signals from this microphone array and speech recognition method and system using the same |
US9368097B2 (en) * | 2011-11-02 | 2016-06-14 | Mitsubishi Electric Corporation | Noise suppression device |
CN102866385B (zh) * | 2012-09-10 | 2014-06-11 | 上海大学 | 一种基于球麦克风阵列的多声源定位方法 |
CN104360310B (zh) * | 2014-12-03 | 2017-06-27 | 吉林大学 | 一种多目标近场源定位方法和装置 |
CN105301563B (zh) * | 2015-11-10 | 2017-09-22 | 南京信息工程大学 | 一种基于一致聚焦变换最小二乘法的双声源定位方法 |
CN106054130B (zh) * | 2016-06-06 | 2019-01-22 | 南京工程学院 | 一种基于music算法的室内定位方法及装置 |
JP6623185B2 (ja) * | 2017-02-28 | 2019-12-18 | 日本電信電話株式会社 | 音源定位装置、方法、及びプログラム |
CN109993280B (zh) * | 2019-03-27 | 2021-05-11 | 东南大学 | 一种基于深度学习的水下声源定位方法 |
CN110221249A (zh) * | 2019-05-16 | 2019-09-10 | 西北工业大学 | 基于压缩感知的宽带声源定位方法 |
CN112116920B (zh) * | 2020-08-10 | 2022-08-05 | 北京大学 | 一种说话人数未知的多通道语音分离方法 |
CN111798869B (zh) * | 2020-09-10 | 2020-11-17 | 成都启英泰伦科技有限公司 | 一种基于双麦克风阵列的声源定位方法 |
CN112904279B (zh) * | 2021-01-18 | 2024-01-26 | 南京工程学院 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
-
2022
- 2022-09-19 CN CN202211136339.5A patent/CN115201753B/zh active Active
Non-Patent Citations (2)
Title |
---|
"A Modified Frequency Weighted MUSIC Algorithm for Multiple Sound Sources Localization";Shan Gao 等;《 2018 IEEE 23rd International Conference on Digital Signal Processing 》;20190203;正文第1-3页 * |
基于近似核密度估计的近场多声源定位算法;房玉琢等;《通信学报》;20170125(第01期);正文第106-111页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115201753A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110531313B (zh) | 一种基于深度神经网络回归模型的近场信号源定位方法 | |
CN106054123B (zh) | 一种稀疏l阵及其二维doa估计方法 | |
CN111415676B (zh) | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 | |
CN111123192B (zh) | 一种基于圆形阵列和虚拟扩展的二维doa定位方法 | |
CN107576931B (zh) | 一种基于协方差低维度迭代稀疏重构的相关/相干信号波达方向估计方法 | |
CN107037392A (zh) | 一种基于压缩感知的自由度增加型互质阵列波达方向估计方法 | |
CN106872934B (zh) | L型电磁矢量传感器阵列解相干esprit参数估计方法 | |
Masnadi-Shirazi et al. | An ICA-SCT-PHD filter approach for tracking and separation of unknown time-varying number of sources | |
CN115201753B (zh) | 一种低功耗多频谱分辨的语音定位方法 | |
CN110082741A (zh) | 一种基于伪数据重构的超分辨波达角估计算法 | |
CN111693937A (zh) | 一种基于稀疏重构的无需网格化的近场信号源定位方法 | |
CN109901110A (zh) | 基于主成分分析的支持向量机近场声源定位方法 | |
CN110895325B (zh) | 基于增强四元数多重信号分类的到达角估计方法 | |
Suleiman et al. | Search-free decentralized direction-of-arrival estimation using common roots for non-coherent partly calibrated arrays | |
CN106908754B (zh) | L型声矢量传感器阵列esprit解相干参数估计方法 | |
CN113593596B (zh) | 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法 | |
KR100621076B1 (ko) | 마이크로폰 어레이 방법 및 시스템 및 이를 이용한 음성인식 방법 및 장치 | |
CN115932714A (zh) | 一种基于双曲正切核相关熵的单快拍波达方向估计方法 | |
CN114184999B (zh) | 一种互耦小孔径阵列的生成式模型处理方法 | |
CN110967664B (zh) | 基于cold阵列增强四元数esprit的doa估计方法 | |
CN112799008B (zh) | 一种声速无关的快速二维波达方向估计方法 | |
CN114047481A (zh) | 一种基于子空间正交性的稳健自适应波束形成方法 | |
Mao et al. | An effective algorithm for direction-of-arrival estimation of coherent signals with ULA | |
Yao et al. | A degenerate spatial ARMA process of external sources impinging upon an azimuth-only ULA and the estimation of Doas and noise variances | |
CN109683128B (zh) | 冲击噪声环境下的单快拍测向方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |