CN115201753B

CN115201753B - 一种低功耗多频谱分辨的语音定位方法

Info

Publication number: CN115201753B
Application number: CN202211136339.5A
Authority: CN
Inventors: 郑珊珊; 郑典郎
Original assignee: Quanzhou Note Operator Technology Co ltd
Current assignee: Quanzhou Note Operator Technology Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-11-29
Anticipated expiration: 2042-09-19
Also published as: CN115201753A

Abstract

一种低功耗多频谱分辨的语音定位方法，属于语音定位技术领域，其包括：通过阵列分布的麦克风获取语音数据，计算得到噪声子空间；根据麦克风阵列形状和间距，计算得到导向矢量；计算导向矢量和噪声子空间相乘矩阵；计算导向矢量和噪声子空间相乘矩阵的功率谱，根据功率谱计算得到空间频谱向量；获得空间频谱向量在各个频点中的最大值；在空间频谱的维度中规整数值；对规整后数值在整个空间频谱区域内求和，然后取均值；对均值进行谱峰搜索，获得谱峰列表，对谱峰列表排序后的最大值即为语音源最可能存在的位置。本发明实现了低功耗、低内存、高精度的语音定位，可搭载在廉价的语音芯片上，解决了多频谱分辨算法复杂度高、适用范围小的问题。

Description

一种低功耗多频谱分辨的语音定位方法

技术领域

本发明属于语音定位技术领域，具体涉及一种低功耗多频谱分辨的语音定位方法。

背景技术

目前，声源定位技术是确定声音在空间中来源位置的技术，而语音定位是声源定位的核心子模块，同理，语音定位是确定人的说话声在空间中来源位置的技术。语音定位技术可用于很多电子穿戴、智能家电、办公设备中，比如通过人声定位追踪轨迹的舞台摄像头、空调防直吹、拾音器、扫地机器人等人机语音交互相关场景，也可以用于麦克风阵列波束形成，对某个特定方向进行语音增强和降噪。

语音数字信号属于宽带数据信号，具有全频的特性，不同于其它信号，如天线信号是窄带信号，有特定的频段。当在强混响或强噪声情况下，语音和噪声会发生多路径反射，使得声场环境变得极其的复杂，实际到达时间差难以测量、频谱差异性弱化，进行有效的语音定位，是极具挑战性的。

TDOA和波术形成是语音定位主要的两种传统方式。TDOA主要核心思想是计算语音源到达各个麦克风的时间差，这要求系统的采样率足够高；此外，该方法通常通过互相关或广义互相关算法计算时间差，可能不适合用于对周期性信号进行定位。波术形成方法通过将阵列中各个传感器所采集到的数据信号进行滤波、加权叠加后形成波束，扫描整个接收空间，对一个平面的声压分布进行成像可视化，但此方法需要众多的传感器，成本高，不适用普通电子设备中。此外还有采用深度学习的方式，仿真海量数据，让神经网络自行预判和学习，此方法除了计算量大，在不同的声场环境和麦克风阵列下不具备普适性，需要根据不同场景进行模型重新训练。

由于语音是非周期性信号，TDOA算法适用且成本低。主流的TDOA算法有CSSM（详见参考文献[1] H. Wang and M. Kaveh, "Coherent signal-subspace processing forthe detection and estimation of angles of arrival of multiple wide-bandsources"，IEEE Transactions on Acoustics, Speech, and Signal Processing(Volume: 33, Issue: 4, August 1985).）、FRIDA（详见参考文献[2] Hanjie Pan, RobinScheibler, Eric Bezzam, Ivan Dokmanic, and Martin Vetterli, "FRI-baseddirection of arrival finding algorithm", IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP),19 June 2017.）、SRP（详见参考文献[3] Leonardo Oliveira Nunes and Wallace Martins, etc.,"A Steered-ResponsePower Algorithm Employing Hierarchical Search for Acoustic SourceLocalization Using Microphone Arrays", IEEE Transactions on Signal Processing62(19):5171-5183，October 2014.）、TOPS（详见参考文献[4] Arnab K. Shaw, "ImprovedWideband DOA Estimation Using Modified TOPS (mTOPS) Algorithm", IEEE SignalProcessing Letters, 28 September 2016.）、MUSIC（详见参考文献[5] Schmidt, R. O.,"Multiple emitter location and signal parameter estimation", IEEE Trans.Antennas Propag. 34, 276-280 (1986)）等。语音的全频段特性，使得多频谱分辨（MUSIC）可以提高定位精度，所以多频谱分辨的方式是综合表现是最好的，尤其它的抗干扰性最强，但是它致命的缺点是算法复杂度太大，无法在普通的廉价芯片上植入，昂贵的算力资源开销，让该算法的使用门槛受限。如果采用归一化方式，可以进一步提升算法精度，但是其计算量也会进一步提升。

发明内容

为了克服多频谱分辨算法复杂度高，提升多频谱分辨语音定位在不同算力芯片的适用范围，本发明的目的在于提供一种低功耗多频谱分辨的语音定位方法，在降低内存开销的情况下，还可以满足低功耗要求，同时可以进一步提升其语音定位准确性和鲁棒性，使得它可以搭载在低算力的语音芯片上。

为实现上述目的，本发明采用如下技术方案：一种低功耗多频谱分辨的语音定位方法，包括以下步骤：

S10、通过阵列分布的麦克风获取语音数据，计算得到噪声子空间；

S20、根据麦克风阵列形状和间距，计算得到导向矢量；

S30、计算导向矢量和噪声子空间相乘矩阵；

S40、计算导向矢量和噪声子空间相乘矩阵的功率谱，根据功率谱计算得到空间频谱向量；

S50、获得空间频谱向量在各个频点中的最大值；

S60、在空间频谱的维度中规整数值；

S70、对规整后数值在整个空间频谱区域内进行求和，然后取均值；

S80、对均值进行谱峰搜索，获得谱峰列表，对谱峰列表排序后的最大值即为语音源最可能存在的位置。

进一步地，步骤S10具体包括以下步骤：

S11、通过M个在平面空间360°内阵列分布的麦克风获取语音数据a=[M, L]，将语音数据a通过2N个点的傅里叶快速变换后为语音频谱A=[L/N, N, M, 1]，同时计算得到语音数据a的均值α和方差β；其中，L为每个麦克风的采样点；

S12、将语音频谱A进行转置和共厄得到Â=[L/N, N, 1, M]，用Optimized CW-like算法计算出广义互相关矩阵U=A*Â；

S13、将广义互相关矩阵U进行多帧平滑处理，即计算出广义互相关矩阵U在采样帧长度L/N中的均值为Ū=[L/N, N, M, M]；

S14、用均值α和方差β对均值Ū矩阵归一化后为厄米特矩阵Û=[L/N, N, M, M]；

S15、采用修改基于Hessenberg的QR分解算法分解厄米特矩阵Û，进行1-3轮迭代，迭代时将虚部置为0，获得e=[L/N, N, M]个特征值；

S16、采用快速排序算法比较e个特征值的实部大小，选出最大特征值ė=[L/N, N,1]；根据最大特征值ė和麦克风的个数M，计算出特征向量E=[L/N, N, M, 1]；将特征向量E进行归一化后得到Ĕ=[L/N, N, M, 1]；将矩阵Ĕ进行转置和共轭得到Ē=[L/N, N, 1,M]；

S17、采用Optimized CW-like算法计算语音信号源广义互相关矩阵的补集，即噪声子空间C=I-E*Ē=[N, M, M]；其中，I是形状为[N, M, M]的单位矩阵。

进一步地，步骤S15中的所述修改基于Hessenberg的QR分解算法的具体方法为：将矩阵通过初等行列变换为上三角矩阵。

进一步地，步骤S20具体为：根据麦克风的阵列形状和间距，计算出导向矢量W=[360, N, M, 1]；将导向矢量W进行转置和共轭得到Ŵ=[360, N, 1, M]。

进一步地，步骤S30具体为：采用Optimized CW-like算法计算导向矢量W和噪声子空间C相乘矩阵：D=Ŵ*C*W=[360, N, 1, M]*[N, M, M]*[360, N, M, 1]=[360, N]。

进一步地，步骤S40具体为：计算出导向矢量W和噪声子空间C相乘矩阵D的功率谱为S，计算出空间频谱向量P=1/S=[360, N]。

进一步地，步骤S50具体为：获得空间频谱向量P在各个频点中的最大值ρ=[1, N]。

进一步地，步骤S60具体为：在空间频谱的维度中规整数值Ө=P/ρ=[360, N]/[1,N]=[360, N]。

进一步地，步骤S70具体为：对规整后数值Ө在整个空间频谱区域内进行求和为G=[360, 1]，取均值获得Ĝ=G/N=[360, 1]。

进一步地，步骤S80具体为：对均值Ĝ进行谱峰搜索，获得谱峰列表Q，对谱峰列表Q排序后的最大值即为语音源最可能存在的位置。

与现有技术相比，本发明具有以下有益效果：通过麦克风阵列接收数据，实现低功耗、低内存、高精度的多频谱分辨的语音定位，该语言定位方法可以搭载在廉价的语音芯片上面，使得在小型轻巧的穿戴、家电、办公等产品中可以拥有精准的语音定位功能，从而让该方法具有更加广泛的商用价值。

附图说明

图1为本发明的流程图。

图2为本发明实施例的流程图。

具体实施方式

为了让本发明的上述特征和优点更明显易懂，下面特举实施例，并配合附图，作详细说明如下。

如图1所示，一种低功耗多频谱分辨的语音定位方法，包括以下步骤：

S20、根据麦克风阵列形状和间距，计算得到导向矢量；

S30、计算导向矢量和噪声子空间相乘矩阵；

S50、获得空间频谱向量在各个频点中的最大值；

S60、在空间频谱的维度中规整数值；

具体实施例：以M 麦线阵，2N 个点的傅里叶变换，L 个采样点，平面空间分为360°为例描述工程化方案（此方法适配任意麦克风阵列、麦克风个数、傅里叶变换点数，[X,···]代表对应矩阵数据的形状）。

如图2所示，一种低功耗多频谱分辨的语音定位方法，包括以下步骤：

S10、通过阵列分布的麦克风获取语音数据，计算得到噪声子空间。

步骤S10具体包括以下步骤：

S11、通过M个在平面空间360°内阵列分布的麦克风获取语音数据a=[M, L]，将语音数据a通过2N个点的傅里叶快速变换后为语音频谱A=[L/N, N, M, 1]，同时计算得到语音数据a的均值α和方差β；其中，L为每个麦克风的采样点。

S12、将语音频谱A进行转置和共厄得到Â=[L/N, N, 1, M]，用Optimized CW-like算法（详见参考文献[1] https://handwiki.org/wiki/Galactic_algorithm）计算出广义互相关矩阵U=A*Â；这个步骤的计算量由原来的M³变成M^2.3728596。

S13、将广义互相关矩阵U进行多帧平滑处理，即计算出广义互相关矩阵U在采样帧长度L/N中的均值为Ū=[L/N, N, M, M]；通过多帧平滑处理，可以提升定位的精准度。

S14、用均值α和方差β对均值Ū矩阵归一化后为厄米特矩阵Û=[L/N, N, M, M]；通过归一化处理，归一化后存储的数据类型只要单精度浮点即可，无需双精度，进一步降低计算量和节省存储空间，同时避免矩阵特征值和特征向量在计算过程中发散。

S15、由于Û是厄米特矩阵（共轭转置等于自身），可以针对厄米特矩阵，采用修改基于Hessenberg的QR分解算法（详见参考文献[2] QR factorization, EE263, StanfordUniversity）分解厄米特矩阵Û，进行1-3轮迭代，迭代时将虚部置为0，获得e=[L/N, N, M]个特征值；其中，迭代目的在于选出最大的特征值，所以无需进行超过3轮迭代，由于进行近似矩阵分解，虚部没有充分迭代无法趋近于0，直接将虚部置为0；这个步骤的计算量由原来的M³变成M ²。

其中，步骤S15中的所述修改基于Hessenberg的QR分解算法的具体方法为：将矩阵通过初等行列变换为上三角矩阵。因为在这里变换后特征值不一定要与原矩阵特征值一样，只要能找出最大特征值即可。初等行变换无需进行迭代，在变换前所有的虚部可以设置为零，时间复杂度也是O(n²)，不存在发散问题。而Hessenberg的QR分解通过用Givens变换将矩阵分解为Hessenberg矩阵，此矩阵与原矩阵相似，然后使得时间从O(n³)变成O(n²)，原理在于相似矩阵有相同的特征值，但是此算法的迭代次数需要比较多，尤其是数值比较大的时候，可能会发散，不收敛导致迭代失效。

S16、采用快速排序算法比较e个特征值的实部大小，选出最大特征值ė=[L/N, N,1]；根据最大特征值ė和麦克风的个数M，计算出特征向量E=[L/N, N, M, 1]；将特征向量E进行归一化后得到Ĕ=[L/N, N, M, 1]；将矩阵Ĕ进行转置和共轭得到Ē=[L/N, N, 1,M]；这里的特征向量E必须进行归一化，如果没有归一化，会影响后续的排序和比较。

S17、采用Optimized CW-like算法计算语音信号源广义互相关矩阵的补集，即噪声子空间C=I-E*Ē=[N, M, M]；其中，I是形状为[N, M, M]的单位矩阵；这个步骤的计算量由原来的M³变成M^2.3728596。

S20、根据麦克风的阵列形状和间距，计算出导向矢量W=[360, N, M, 1]；将导向矢量W进行转置和共轭得到Ŵ=[360, N, 1, M]。

S30、采用Optimized CW-like算法计算导向矢量W和噪声子空间C相乘矩阵：D=Ŵ*C*W=[360, N, 1, M]*[N, M, M]*[360, N, M, 1]=[360, N]。

S40、计算出导向矢量W和噪声子空间C相乘矩阵D的功率谱为S，根据功率谱S计算出空间频谱向量P=1/S=[360, N]；这个步骤的计算量由原来的M⁶变成M ^4.7457192。

S50、获得空间频谱向量P在各个频点中的最大值ρ=[1, N]。

S60、在空间频谱的维度中规整数值Ө=P/ρ=[360, N]/[1, N]=[360, N]。

S70、对规整后数值Ө在整个空间频谱区域内进行求和为G=[360, 1]，取均值获得Ĝ=G/N=[360, 1]。

S80、对均值Ĝ进行谱峰搜索，获得谱峰列表Q，对谱峰列表Q排序后的最大值即为语音源最可能存在的位置。

特别需要说明的是，上述各个步骤的计算方法均可以采用常规的计算方法，如步骤S40中的功率谱S的计算方法是S=

，R是实部，I是虚部。

下面对本实施例的方案进行实验。

实验的参数：256个点傅里叶变换，双麦克风线阵列，麦克风间距为35mm，二维平面360°。

实验的硬件：杰理AC791N系列的芯片（CPU 320MHz，DRAM 64M）。

实验的方法：C语言工程化算法，DSP软件串口烧入芯片。

实验的结果：

①优化前的算法运行时CPU峰值占用25%，即80MHz，DRAM峰值占用大约2M；优化后的算法运行时CPU峰值仅占用10%，即32MHz，DRAM峰值仅为0.7M左右。

②三个方位进行语音定位测试：0°（左边）、90°（中间）、180°（右边），1男1女，办公室环境下随机说话，信噪比约为10~15db，统计如下列表：

③优化后的算法，不仅计算量小、内存空间消耗远低于原有算法，而且在各个方向的识别率都超过原有算法，整体语音定位的准确性高于原有算法6%左右。

由此可见，本实施例通过优化矩阵相乘和分解、归一化矩阵和规律地下标读取内存数据，使得此方法具有更加广泛的商用价值，取得非常好的技术效果，具体如下。

1) 优化前的计算量为3*M³+M⁶，优化后计算量为2*M^2.3728596+M²+M^4.7457192，计算量比值约为M^1.2542808：1，当麦克风数量越大，即M 越大，节省的计算量越明显，且节省算力比例成幂级数增长。

2) 内存空间通过下标进行矩阵读写，矩阵数据规整后数值变小，可以节省近1/3的内存空间开销，因为计算过程中的数值在单精度浮点范围内，无需用到双精度缓存。

3) 由于以上两点（计算量和存储空间减小），功耗自然低，此方法可以适用于廉价的芯片，无需频繁更换电池或充电，使得小型廉价的家电、穿戴、办公等产品可以搭载精准的语音定位功能，此方法适用的智能穿戴如手表、手环、耳机、眼镜等，小型家电办公设备如灯泡、镜子、闹钟、录音笔、扫描笔、电子秤、门锁猫眼、儿童相机、微型摄像头等。

以上所述，仅为本发明的较佳实施例，并非对本发明做任何形式上的限制，任何熟悉本领域的技术人员但凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做任何简单的修改、均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种低功耗多频谱分辨的语音定位方法，其特征在于，包括以下步骤：

步骤S10具体包括以下步骤：

S16、采用快速排序算法比较e个特征值的实部大小，选出最大特征值ė=[L/N, N, 1]；根据最大特征值ė和麦克风的个数M，计算出特征向量E=[L/N, N, M, 1]；将特征向量E进行归一化后得到Ĕ=[L/N, N, M, 1]；将矩阵Ĕ进行转置和共轭得到Ē=[L/N, N, 1, M]；

S17、采用Optimized CW-like算法计算语音信号源广义互相关矩阵的补集，即噪声子空间

；其中，I是形状为[N, M, M]的单位矩阵；

S20、根据麦克风阵列形状和间距，计算得到导向矢量；

步骤S20具体为：根据麦克风的阵列形状和间距，计算出导向矢量W=[360, N, M, 1]；将导向矢量W进行转置和共轭得到Ŵ=[360, N, 1, M]；

S30、计算导向矢量和噪声子空间相乘矩阵；

步骤S30具体为：采用Optimized CW-like算法计算导向矢量W和噪声子空间C相乘矩阵：D=Ŵ*C*W=[360, N, 1, M]*[N, M, M]*[360, N, M, 1]=[360, N]；

步骤S40具体为：计算出导向矢量W和噪声子空间C相乘矩阵D的功率谱为S，计算出空间频谱向量P=1/S=[360, N]；

S50、获得空间频谱向量在各个频点中的最大值；

S60、在空间频谱的维度中规整数值；

2.根据权利要求1所述的低功耗多频谱分辨的语音定位方法，其特征在于：步骤S15中的所述修改基于Hessenberg的QR分解算法的具体方法为：将矩阵通过初等行列变换为上三角矩阵。

3.根据权利要求1所述的低功耗多频谱分辨的语音定位方法，其特征在于：步骤S50具体为：获得空间频谱向量P在各个频点中的最大值ρ=[1, N]。

4.根据权利要求3所述的低功耗多频谱分辨的语音定位方法，其特征在于：步骤S60具体为：在空间频谱的维度中规整数值Ө=P/ρ=[360, N]/[1, N]=[360, N]。

5.根据权利要求4所述的低功耗多频谱分辨的语音定位方法，其特征在于：步骤S70具体为：对规整后数值Ө在整个空间频谱区域内进行求和为G=[360, 1]，取均值获得Ĝ=G/N=[360, 1]。

6.根据权利要求5所述的低功耗多频谱分辨的语音定位方法，其特征在于：步骤S80具体为：对均值Ĝ进行谱峰搜索，获得谱峰列表Q，对谱峰列表Q排序后的最大值即为语音源最可能存在的位置。