CN115201753A - 一种低功耗多频谱分辨的语音定位方法 - Google Patents

一种低功耗多频谱分辨的语音定位方法 Download PDF

Info

Publication number
CN115201753A
CN115201753A CN202211136339.5A CN202211136339A CN115201753A CN 115201753 A CN115201753 A CN 115201753A CN 202211136339 A CN202211136339 A CN 202211136339A CN 115201753 A CN115201753 A CN 115201753A
Authority
CN
China
Prior art keywords
spectrum
calculating
matrix
vector
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211136339.5A
Other languages
English (en)
Other versions
CN115201753B (zh
Inventor
郑珊珊
郑典郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanzhou Note Operator Technology Co ltd
Original Assignee
Quanzhou Note Operator Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanzhou Note Operator Technology Co ltd filed Critical Quanzhou Note Operator Technology Co ltd
Priority to CN202211136339.5A priority Critical patent/CN115201753B/zh
Publication of CN115201753A publication Critical patent/CN115201753A/zh
Application granted granted Critical
Publication of CN115201753B publication Critical patent/CN115201753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种低功耗多频谱分辨的语音定位方法,属于语音定位技术领域,其包括:通过阵列分布的麦克风获取语音数据,计算得到噪声子空间;根据麦克风阵列形状和间距,计算得到导向矢量;计算导向矢量和噪声子空间相乘矩阵;计算导向矢量和噪声子空间相乘矩阵的功率谱,根据功率谱计算得到空间频谱向量;获得空间频谱向量在各个频点中的最大值;在空间频谱的维度中规整数值;对规整后数值在整个空间频谱区域内求和,然后取均值;对均值进行谱峰搜索,获得谱峰列表,对谱峰列表排序后的最大值即为语音源最可能存在的位置。本发明实现了低功耗、低内存、高精度的语音定位,可搭载在廉价的语音芯片上,解决了多频谱分辨算法复杂度高、适用范围小的问题。

Description

一种低功耗多频谱分辨的语音定位方法
技术领域
本发明属于语音定位技术领域,具体涉及一种低功耗多频谱分辨的语音定位方法。
背景技术
目前,声源定位技术是确定声音在空间中来源位置的技术,而语音定位是声源定位的核心子模块,同理,语音定位是确定人的说话声在空间中来源位置的技术。语音定位技术可用于很多电子穿戴、智能家电、办公设备中,比如通过人声定位追踪轨迹的舞台摄像头、空调防直吹、拾音器、扫地机器人等人机语音交互相关场景,也可以用于麦克风阵列波束形成,对某个特定方向进行语音增强和降噪。
语音数字信号属于宽带数据信号,具有全频的特性,不同于其它信号,如天线信号是窄带信号,有特定的频段。当在强混响或强噪声情况下,语音和噪声会发生多路径反射,使得声场环境变得极其的复杂,实际到达时间差难以测量、频谱差异性弱化,进行有效的语音定位,是极具挑战性的。
TDOA和波术形成是语音定位主要的两种传统方式。TDOA主要核心思想是计算语音源到达各个麦克风的时间差,这要求系统的采样率足够高;此外,该方法通常通过互相关或广义互相关算法计算时间差,可能不适合用于对周期性信号进行定位。波术形成方法通过将阵列中各个传感器所采集到的数据信号进行滤波、加权叠加后形成波束,扫描整个接收空间,对一个平面的声压分布进行成像可视化,但此方法需要众多的传感器,成本高,不适用普通电子设备中。此外还有采用深度学习的方式,仿真海量数据,让神经网络自行预判和学习,此方法除了计算量大,在不同的声场环境和麦克风阵列下不具备普适性,需要根据不同场景进行模型重新训练。
由于语音是非周期性信号,TDOA算法适用且成本低。主流的TDOA算法有CSSM(详见参考文献[1] H. Wang and M. Kaveh, "Coherent signal-subspace processing forthe detection and estimation of angles of arrival of multiple wide-bandsources",IEEE Transactions on Acoustics, Speech, and Signal Processing(Volume: 33, Issue: 4, August 1985).)、FRIDA(详见参考文献[2] Hanjie Pan, RobinScheibler, Eric Bezzam, Ivan Dokmanic, and Martin Vetterli, "FRI-baseddirection of arrival finding algorithm", IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP),19 June 2017.)、SRP(详见参考文献[3] Leonardo Oliveira Nunes and Wallace Martins, etc.,"A Steered-ResponsePower Algorithm Employing Hierarchical Search for Acoustic SourceLocalization Using Microphone Arrays", IEEE Transactions on Signal Processing62(19):5171-5183,October 2014.)、TOPS(详见参考文献[4] Arnab K. Shaw, "ImprovedWideband DOA Estimation Using Modified TOPS (mTOPS) Algorithm", IEEE SignalProcessing Letters, 28 September 2016.)、MUSIC(详见参考文献[5] Schmidt, R. O.,"Multiple emitter location and signal parameter estimation", IEEE Trans.Antennas Propag. 34, 276-280 (1986))等。语音的全频段特性,使得多频谱分辨(MUSIC)可以提高定位精度,所以多频谱分辨的方式是综合表现是最好的,尤其它的抗干扰性最强,但是它致命的缺点是算法复杂度太大,无法在普通的廉价芯片上植入,昂贵的算力资源开销,让该算法的使用门槛受限。如果采用归一化方式,可以进一步提升算法精度,但是其计算量也会进一步提升。
发明内容
为了克服多频谱分辨算法复杂度高,提升多频谱分辨语音定位在不同算力芯片的适用范围,本发明的目的在于提供一种低功耗多频谱分辨的语音定位方法,在降低内存开销的情况下,还可以满足低功耗要求,同时可以进一步提升其语音定位准确性和鲁棒性,使得它可以搭载在低算力的语音芯片上。
为实现上述目的,本发明采用如下技术方案:一种低功耗多频谱分辨的语音定位方法,包括以下步骤:
S10、通过阵列分布的麦克风获取语音数据,计算得到噪声子空间;
S20、根据麦克风阵列形状和间距,计算得到导向矢量;
S30、计算导向矢量和噪声子空间相乘矩阵;
S40、计算导向矢量和噪声子空间相乘矩阵的功率谱,根据功率谱计算得到空间频谱向量;
S50、获得空间频谱向量在各个频点中的最大值;
S60、在空间频谱的维度中规整数值;
S70、对规整后数值在整个空间频谱区域内进行求和,然后取均值;
S80、对均值进行谱峰搜索,获得谱峰列表,对谱峰列表排序后的最大值即为语音源最可能存在的位置。
进一步地,步骤S10具体包括以下步骤:
S11、通过M个在平面空间360°内阵列分布的麦克风获取语音数据a=[M, L],将语音数据a通过2N个点的傅立叶快速变换后为语音频谱A=[L/N, N, M, 1],同时计算得到语音数据a的均值α和方差β;其中,L为每个麦克风的采样点;
S12、将语音频谱A进行转置和共厄得到Â=[L/N, N, 1, M],用Optimized CW-like算法计算出广义互相关矩阵U=A*Â;
S13、将广义互相关矩阵U进行多帧平滑处理,即计算出广义互相关矩阵U在采样帧长度L/N中的均值为Ū=[L/N, N, M, M];
S14、用均值α和方差β对均值Ū矩阵归一化后为厄米特矩阵Û=[L/N, N, M, M];
S15、采用修改基于Hessenberg的QR分解算法分解厄米特矩阵Û,进行1-3轮迭代,迭代时将虚部置为0,获得e=[L/N, N, M]个特征值;
S16、采用快速排序算法比较e个特征值的实部大小,选出最大特征值ė=[L/N, N,1];根据最大特征值ė和麦克风的个数M,计算出特征向量E=[L/N, N, M, 1];将特征向量E进行归一化后得到Ĕ=[L/N, N, M, 1];将矩阵Ĕ进行转置和共轭得到Ē=[L/N, N, 1,M];
S17、采用Optimized CW-like算法计算语音信号源广义互相关矩阵的补集,即噪声子空间C=I-E*Ē=[N, M, M];其中,I是形状为[N, M, M]的单位矩阵。
进一步地,步骤S15中的所述修改基于Hessenberg的QR分解算法的具体方法为:将矩阵通过初等行列变换为上三角矩阵。
进一步地,步骤S20具体为:根据麦克风的阵列形状和间距,计算出导向矢量W=[360, N, M, 1];将导向矢量W进行转置和共轭得到Ŵ=[360, N, 1, M]。
进一步地,步骤S30具体为:采用Optimized CW-like算法计算导向矢量W和噪声子空间C相乘矩阵:D=Ŵ*C*W=[360, N, 1, M]*[N, M, M]*[360, N, M, 1]=[360, N]。
进一步地,步骤S40具体为:计算出导向矢量W和噪声子空间C相乘矩阵D的功率谱为S,计算出空间频谱向量P=1/S=[360, N]。
进一步地,步骤S50具体为:获得空间频谱向量P在各个频点中的最大值ρ=[1, N]。
进一步地,步骤S60具体为:在空间频谱的维度中规整数值Ө=P/ρ=[360, N]/[1,N]=[360, N]。
进一步地,步骤S70具体为:对规整后数值Ө在整个空间频谱区域内进行求和为G=[360, 1],取均值获得Ĝ=G/N=[360, 1]。
进一步地,步骤S80具体为:对均值Ĝ进行谱峰搜索,获得谱峰列表Q,对谱峰列表Q排序后的最大值即为语音源最可能存在的位置。
与现有技术相比,本发明具有以下有益效果:通过麦克风阵列接收数据,实现低功耗、低内存、高精度的多频谱分辨的语音定位,该语言定位方法可以搭载在廉价的语音芯片上面,使得在小型轻巧的穿戴、家电、办公等产品中可以拥有精准的语音定位功能,从而让该方法具有更加广泛的商用价值。
附图说明
图1为本发明的流程图。
图2为本发明实施例的流程图。
具体实施方式
为了让本发明的上述特征和优点更明显易懂,下面特举实施例,并配合附图,作详细说明如下。
如图1所示,一种低功耗多频谱分辨的语音定位方法,包括以下步骤:
S10、通过阵列分布的麦克风获取语音数据,计算得到噪声子空间;
S20、根据麦克风阵列形状和间距,计算得到导向矢量;
S30、计算导向矢量和噪声子空间相乘矩阵;
S40、计算导向矢量和噪声子空间相乘矩阵的功率谱,根据功率谱计算得到空间频谱向量;
S50、获得空间频谱向量在各个频点中的最大值;
S60、在空间频谱的维度中规整数值;
S70、对规整后数值在整个空间频谱区域内进行求和,然后取均值;
S80、对均值进行谱峰搜索,获得谱峰列表,对谱峰列表排序后的最大值即为语音源最可能存在的位置。
具体实施例:以M 麦线阵,2N 个点的傅立叶变换,L 个采样点,平面空间分为360°为例描述工程化方案(此方法适配任意麦克风阵列、麦克风个数、傅立叶变换点数,[X,···]代表对应矩阵数据的形状)。
如图2所示,一种低功耗多频谱分辨的语音定位方法,包括以下步骤:
S10、通过阵列分布的麦克风获取语音数据,计算得到噪声子空间。
步骤S10具体包括以下步骤:
S11、通过M个在平面空间360°内阵列分布的麦克风获取语音数据a=[M, L],将语音数据a通过2N个点的傅立叶快速变换后为语音频谱A=[L/N, N, M, 1],同时计算得到语音数据a的均值α和方差β;其中,L为每个麦克风的采样点。
S12、将语音频谱A进行转置和共厄得到Â=[L/N, N, 1, M],用Optimized CW-like算法(详见参考文献[1] https://handwiki.org/wiki/Galactic_algorithm)计算出广义互相关矩阵U=A*Â;这个步骤的计算量由原来的M3变成M 2.3728596
S13、将广义互相关矩阵U进行多帧平滑处理,即计算出广义互相关矩阵U在采样帧长度L/N中的均值为Ū=[L/N, N, M, M];通过多帧平滑处理,可以提升定位的精准度。
S14、用均值α和方差β对均值Ū矩阵归一化后为厄米特矩阵Û=[L/N, N, M, M];通过归一化处理,归一化后存储的数据类型只要单精度浮点即可,无需双精度,进一步降低计算量和节省存储空间,同时避免矩阵特征值和特征向量在计算过程中发散。
S15、由于Û是厄米特矩阵(共轭转置等于自身),可以针对厄米特矩阵,采用修改基于Hessenberg的QR分解算法(详见参考文献[2] QR factorization, EE263, StanfordUniversity)分解厄米特矩阵Û,进行1-3轮迭代,迭代时将虚部置为0,获得e=[L/N, N, M]个特征值;其中,迭代目的在于选出最大的特征值,所以无需进行超过3轮迭代,由于进行近似矩阵分解,虚部没有充分迭代无法趋近于0,直接将虚部置为0;这个步骤的计算量由原来的M3变成M 2
其中,步骤S15中的所述修改基于Hessenberg的QR分解算法的具体方法为:将矩阵通过初等行列变换为上三角矩阵。因为在这里变换后特征值不一定要与原矩阵特征值一样,只要能找出最大特征值即可。初等行变换无需进行迭代,在变换前所有的虚部可以设置为零,时间复杂度也是O(n²),不存在发散问题。而Hessenberg的QR分解通过用Givens变换将矩阵分解为Hessenberg矩阵,此矩阵与原矩阵相似,然后使得时间从O(n³)变成O(n²),原理在于相似矩阵有相同的特征值,但是此算法的迭代次数需要比较多,尤其是数值比较大的时候,可能会发散,不收敛导致迭代失效。
S16、采用快速排序算法比较e个特征值的实部大小,选出最大特征值ė=[L/N, N,1];根据最大特征值ė和麦克风的个数M,计算出特征向量E=[L/N, N, M, 1];将特征向量E进行归一化后得到Ĕ=[L/N, N, M, 1];将矩阵Ĕ进行转置和共轭得到Ē=[L/N, N, 1,M];这里的特征向量E必须进行归一化,如果没有归一化,会影响后续的排序和比较。
S17、采用Optimized CW-like算法计算语音信号源广义互相关矩阵的补集,即噪声子空间C=I-E*Ē=[N, M, M];其中,I是形状为[N, M, M]的单位矩阵;这个步骤的计算量由原来的M3变成M 2.3728596
S20、根据麦克风的阵列形状和间距,计算出导向矢量W=[360, N, M, 1];将导向矢量W进行转置和共轭得到Ŵ=[360, N, 1, M]。
S30、采用Optimized CW-like算法计算导向矢量W和噪声子空间C相乘矩阵:D=Ŵ*C*W=[360, N, 1, M]*[N, M, M]*[360, N, M, 1]=[360, N]。
S40、计算出导向矢量W和噪声子空间C相乘矩阵D的功率谱为S,根据功率谱S计算出空间频谱向量P=1/S=[360, N];这个步骤的计算量由原来的M6变成M 4.7457192
S50、获得空间频谱向量P在各个频点中的最大值ρ=[1, N]。
S60、在空间频谱的维度中规整数值Ө=P/ρ=[360, N]/[1, N]=[360, N]。
S70、对规整后数值Ө在整个空间频谱区域内进行求和为G=[360, 1],取均值获得Ĝ=G/N=[360, 1]。
S80、对均值Ĝ进行谱峰搜索,获得谱峰列表Q,对谱峰列表Q排序后的最大值即为语音源最可能存在的位置。
特别需要说明的是,上述各个步骤的计算方法均可以采用常规的计算方法,如步骤S40中的功率谱S的计算方法是S=
Figure 944683DEST_PATH_IMAGE001
,R是实部,I是虚部。
下面对本实施例的方案进行实验。
实验的参数:256个点傅立叶变换,双麦克风线阵列,麦克风间距为35mm,二维平面360°。
实验的硬件:杰理AC791N系列的芯片(CPU 320MHz,DRAM 64M)。
实验的方法:C语言工程化算法,DSP软件串口烧入芯片。
实验的结果:
①优化前的算法运行时CPU峰值占用25%,即80MHz,DRAM峰值占用大约2M;优化后的算法运行时CPU峰值仅占用10%,即32MHz,DRAM峰值仅为0.7M左右。
②三个方位进行语音定位测试:0°(左边)、90°(中间)、180°(右边),1男1女,办公室环境下随机说话,信噪比约为10~15db,统计如下列表:
Figure 875923DEST_PATH_IMAGE003
③优化后的算法,不仅计算量小、内存空间消耗远低于原有算法,而且在各个方向的识别率都超过原有算法,整体语音定位的准确性高于原有算法6%左右。
由此可见,本实施例通过优化矩阵相乘和分解、归一化矩阵和规律地下标读取内存数据,使得此方法具有更加广泛的商用价值,取得非常好的技术效果,具体如下。
1) 优化前的计算量为3*M3+M6,优化后计算量为2*M2.3728596+M2+M4.7457192,计算量比值约为M1.2542808:1,当麦克风数量越大,即M 越大,节省的计算量越明显,且节省算力比例成幂级数增长。
2) 内存空间通过下标进行矩阵读写,矩阵数据规整后数值变小,可以节省近1/3的内存空间开销,因为计算过程中的数值在单精度浮点范围内,无需用到双精度缓存。
3) 由于以上两点(计算量和存储空间减小),功耗自然低,此方法可以适用于廉价的芯片,无需频繁更换电池或充电,使得小型廉价的家电、穿戴、办公等产品可以搭载精准的语音定位功能,此方法适用的智能穿戴如手表、手环、耳机、眼镜等,小型家电办公设备如灯泡、镜子、闹钟、录音笔、扫描笔、电子秤、门锁猫眼、儿童相机、微型摄像头等。
以上所述,仅为本发明的较佳实施例,并非对本发明做任何形式上的限制,任何熟悉本领域的技术人员但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做任何简单的修改、均等变化与修饰,皆应属本发明的涵盖范围。

Claims (9)

1.一种低功耗多频谱分辨的语音定位方法,其特征在于,包括以下步骤:
S10、通过阵列分布的麦克风获取语音数据,计算得到噪声子空间;
步骤S10具体包括以下步骤:
S11、通过M个在平面空间360°内阵列分布的麦克风获取语音数据a=[M, L],将语音数据a通过2N个点的傅立叶快速变换后为语音频谱A=[L/N, N, M, 1],同时计算得到语音数据a的均值α和方差β;其中,L为每个麦克风的采样点;
S12、将语音频谱A进行转置和共厄得到Â=[L/N, N, 1, M],用Optimized CW-like算法计算出广义互相关矩阵U=A*Â;
S13、将广义互相关矩阵U进行多帧平滑处理,即计算出广义互相关矩阵U在采样帧长度L/N中的均值为Ū=[L/N, N, M, M];
S14、用均值α和方差β对均值Ū矩阵归一化后为厄米特矩阵Û=[L/N, N, M, M];
S15、采用修改基于Hessenberg的QR分解算法分解厄米特矩阵Û,进行1-3轮迭代,迭代时将虚部置为0,获得e=[L/N, N, M]个特征值;
S16、采用快速排序算法比较e个特征值的实部大小,选出最大特征值ė=[L/N, N, 1];根据最大特征值ė和麦克风的个数M,计算出特征向量E=[L/N, N, M, 1];将特征向量E进行归一化后得到Ĕ=[L/N, N, M, 1];将矩阵Ĕ进行转置和共轭得到Ē=[L/N, N, 1, M];
S17、采用Optimized CW-like算法计算语音信号源广义互相关矩阵的补集,即噪声子空间C=I-E*Ē=[N, M, M];其中,I是形状为[N, M, M]的单位矩阵;
S20、根据麦克风阵列形状和间距,计算得到导向矢量;
S30、计算导向矢量和噪声子空间相乘矩阵;
S40、计算导向矢量和噪声子空间相乘矩阵的功率谱,根据功率谱计算得到空间频谱向量;
S50、获得空间频谱向量在各个频点中的最大值;
S60、在空间频谱的维度中规整数值;
S70、对规整后数值在整个空间频谱区域内进行求和,然后取均值;
S80、对均值进行谱峰搜索,获得谱峰列表,对谱峰列表排序后的最大值即为语音源最可能存在的位置。
2.根据权利要求1所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S15中的所述修改基于Hessenberg的QR分解算法的具体方法为:将矩阵通过初等行列变换为上三角矩阵。
3.根据权利要求1或2所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S20具体为:根据麦克风的阵列形状和间距,计算出导向矢量W=[360, N, M, 1];将导向矢量W进行转置和共轭得到Ŵ=[360, N, 1, M]。
4.根据权利要求3所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S30具体为:采用Optimized CW-like算法计算导向矢量W和噪声子空间C相乘矩阵:D=Ŵ*C*W=[360, N, 1, M]*[N, M, M]*[360, N, M, 1]=[360, N]。
5.根据权利要求4所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S40具体为:计算出导向矢量W和噪声子空间C相乘矩阵D的功率谱为S,计算出空间频谱向量P=1/S=[360, N]。
6.根据权利要求5所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S50具体为:获得空间频谱向量P在各个频点中的最大值ρ=[1, N]。
7.根据权利要求6所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S60具体为:在空间频谱的维度中规整数值Ө=P/ρ=[360, N]/[1, N]=[360, N]。
8.根据权利要求7所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S70具体为:对规整后数值Ө在整个空间频谱区域内进行求和为G=[360, 1],取均值获得Ĝ=G/N=[360, 1]。
9.根据权利要求8所述的低功耗多频谱分辨的语音定位方法,其特征在于:步骤S80具体为:对均值Ĝ进行谱峰搜索,获得谱峰列表Q,对谱峰列表Q排序后的最大值即为语音源最可能存在的位置。
CN202211136339.5A 2022-09-19 2022-09-19 一种低功耗多频谱分辨的语音定位方法 Active CN115201753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211136339.5A CN115201753B (zh) 2022-09-19 2022-09-19 一种低功耗多频谱分辨的语音定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211136339.5A CN115201753B (zh) 2022-09-19 2022-09-19 一种低功耗多频谱分辨的语音定位方法

Publications (2)

Publication Number Publication Date
CN115201753A true CN115201753A (zh) 2022-10-18
CN115201753B CN115201753B (zh) 2022-11-29

Family

ID=83573703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211136339.5A Active CN115201753B (zh) 2022-09-19 2022-09-19 一种低功耗多频谱分辨的语音定位方法

Country Status (1)

Country Link
CN (1) CN115201753B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116390008A (zh) * 2023-05-31 2023-07-04 泉州市音符算子科技有限公司 一种实现特定区域内免提式的无感扩音系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220800A1 (en) * 2003-05-02 2004-11-04 Samsung Electronics Co., Ltd Microphone array method and system, and speech recognition method and system using the same
CN102866385A (zh) * 2012-09-10 2013-01-09 上海大学 一种基于球麦克风阵列的多声源定位方法
US20140098968A1 (en) * 2011-11-02 2014-04-10 Mitsubishi Electric Corporation Noise suppression device
CN104360310A (zh) * 2014-12-03 2015-02-18 吉林大学 一种多目标近场源定位方法和装置
CN105301563A (zh) * 2015-11-10 2016-02-03 南京信息工程大学 一种基于一致聚焦变换最小二乘法的双声源定位方法
CN106054130A (zh) * 2016-06-06 2016-10-26 南京工程学院 一种基于music算法的室内定位方法及装置
JP2018142917A (ja) * 2017-02-28 2018-09-13 日本電信電話株式会社 音源定位装置、方法、及びプログラム
CN109993280A (zh) * 2019-03-27 2019-07-09 东南大学 一种基于深度学习的水下声源定位方法
CN110221249A (zh) * 2019-05-16 2019-09-10 西北工业大学 基于压缩感知的宽带声源定位方法
CN111798869A (zh) * 2020-09-10 2020-10-20 成都启英泰伦科技有限公司 一种基于双麦克风阵列的声源定位方法
CN112116920A (zh) * 2020-08-10 2020-12-22 北京大学 一种说话人数未知的多通道语音分离方法
CN112904279A (zh) * 2021-01-18 2021-06-04 南京工程学院 基于卷积神经网络和子带srp-phat空间谱的声源定位方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220800A1 (en) * 2003-05-02 2004-11-04 Samsung Electronics Co., Ltd Microphone array method and system, and speech recognition method and system using the same
US20140098968A1 (en) * 2011-11-02 2014-04-10 Mitsubishi Electric Corporation Noise suppression device
CN102866385A (zh) * 2012-09-10 2013-01-09 上海大学 一种基于球麦克风阵列的多声源定位方法
CN104360310A (zh) * 2014-12-03 2015-02-18 吉林大学 一种多目标近场源定位方法和装置
CN105301563A (zh) * 2015-11-10 2016-02-03 南京信息工程大学 一种基于一致聚焦变换最小二乘法的双声源定位方法
CN106054130A (zh) * 2016-06-06 2016-10-26 南京工程学院 一种基于music算法的室内定位方法及装置
JP2018142917A (ja) * 2017-02-28 2018-09-13 日本電信電話株式会社 音源定位装置、方法、及びプログラム
CN109993280A (zh) * 2019-03-27 2019-07-09 东南大学 一种基于深度学习的水下声源定位方法
CN110221249A (zh) * 2019-05-16 2019-09-10 西北工业大学 基于压缩感知的宽带声源定位方法
CN112116920A (zh) * 2020-08-10 2020-12-22 北京大学 一种说话人数未知的多通道语音分离方法
CN111798869A (zh) * 2020-09-10 2020-10-20 成都启英泰伦科技有限公司 一种基于双麦克风阵列的声源定位方法
CN112904279A (zh) * 2021-01-18 2021-06-04 南京工程学院 基于卷积神经网络和子带srp-phat空间谱的声源定位方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHAN GAO 等: ""A Modified Frequency Weighted MUSIC Algorithm for Multiple Sound Sources Localization"", 《 2018 IEEE 23RD INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING 》 *
XIAO, ZL 等: ""Detection and segmentation of underwater CW-like signals in spectrum image under strong noise background"", 《JOURNAL OF VISUAL COMMUNICATION & IMAGE REPRESENTATION》 *
伊晓东等: "分布式圆阵空间宽带声源定位方法", 《信号处理》 *
房玉琢等: "基于近似核密度估计的近场多声源定位算法", 《通信学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116390008A (zh) * 2023-05-31 2023-07-04 泉州市音符算子科技有限公司 一种实现特定区域内免提式的无感扩音系统
CN116390008B (zh) * 2023-05-31 2023-09-01 泉州市音符算子科技有限公司 一种实现特定区域内免提式的无感扩音系统

Also Published As

Publication number Publication date
CN115201753B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN110531313B (zh) 一种基于深度神经网络回归模型的近场信号源定位方法
CN111415676B (zh) 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
CN108375763B (zh) 一种应用于多声源环境的分频定位方法
CN108318862B (zh) 一种基于神经网络的声源定位方法
Xiang et al. Improved de-multipath neural network models with self-paced feature-to-feature learning for DOA estimation in multipath environment
CN111123192B (zh) 一种基于圆形阵列和虚拟扩展的二维doa定位方法
CN110320490B (zh) 一种无直达信号条件下的无线电波达方向估计方法
CN110907893B (zh) 一种适用于球麦克风阵列的超分辨声源定位方法
Masnadi-Shirazi et al. An ICA-SCT-PHD filter approach for tracking and separation of unknown time-varying number of sources
CN115201753B (zh) 一种低功耗多频谱分辨的语音定位方法
CN113567913A (zh) 基于迭代重加权可降维的二维平面doa估计方法
CN110895325B (zh) 基于增强四元数多重信号分类的到达角估计方法
CN113593596B (zh) 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法
Suleiman et al. Search-free decentralized direction-of-arrival estimation using common roots for non-coherent partly calibrated arrays
KR100621076B1 (ko) 마이크로폰 어레이 방법 및 시스템 및 이를 이용한 음성인식 방법 및 장치
CN116559778B (zh) 一种基于深度学习的车辆鸣笛定位方法及系统
CN110907892B (zh) 一种球麦克风阵列语音信号到达角估计方法
CN111693937A (zh) 一种基于稀疏重构的无需网格化的近场信号源定位方法
CN114184999B (zh) 一种互耦小孔径阵列的生成式模型处理方法
Pan et al. Simplified spatial smoothing for DoA estimation of coherent signals
CN110967664B (zh) 基于cold阵列增强四元数esprit的doa估计方法
Mao et al. An Effective Algorithm for Direction-of-Arrival Estimation of Coherent Signals with ULA
CN114047481A (zh) 一种基于子空间正交性的稳健自适应波束形成方法
CN110824484B (zh) 一种基于恒模算法的阵元位置估计方法
Yang et al. A Review of Sound Source Localization Research in Three-Dimensional Space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant