CN110876100B

CN110876100B - 一种音源定向方法与系统

Info

Publication number: CN110876100B
Application number: CN201810992759.0A
Authority: CN
Inventors: 高威特; 张楠赓
Original assignee: Canaan Bright Sight Co Ltd
Current assignee: Canaan Bright Sight Co Ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2022-12-09
Anticipated expiration: 2038-08-29
Also published as: CN110876100A

Abstract

本发明的实施方式提供了一种音源定向方法和系统，所述方法包括：通过麦克风阵列接收多路音频信号，根据所述多路音频信号计算多个预设方向的信号强度信息，针对每一个预设方向，获取预设方向的特征向量；将所述多个预设方向的特征向量累加获取综合特征向量，其中，综合特征向量的方向为音源的方向，综合特征向量的模为音源的强度。本发明通过很少的运算量实现较高精度音源定向，并且克服了由于麦克风物理结构所造成的定向误差。

Description

一种音源定向方法与系统

技术领域

本发明涉及语音识别领域，具体涉及一种音源定向方法与系统。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

麦克风阵列包含多个以阵列方式相连接的麦克风，传统的音源定向技术通过由麦克风接收的音源信号得知音源信号的方向。现有技术中，采用“延迟后求和”(delay-and-sum)技术，针对每一个预设音源方向，将多个麦克风收到多个音源信号时按照预设音源方向所对应的时延值依序进行信号延迟，再将经过这些时间延迟的信号进行求和获得该预设音源方向的声音信号，最后，从这些求和后的声音信号中找出具有最大振幅的信号，即判定其所对应的预设声音方向为音源方向。例如，图1A、图1B、图1C分别示出了三个麦克风由于物理位置不同，导致接收到音频信号的时间点不同。在实际运算时，可以设置其中一个麦克风作为基准麦克风，再根据麦克风位置信息、声音入射方向以及声速即可得到其他每一个麦克风相对于基准麦克风的信号延迟时间。紧接着，如图1D所示，可以通过将上述每一个麦克风根据各自的延迟时间对音频信号进行时延，并将所有时延后的声音信号累加获得音频累加信号，进一步地，由于上述声音入射方向未知，可以通过设置多个预设方向作为假定的声音入射方向分别进行上述运算，其中，采用与实际声音方向最接近的预设方向进行运算可以得到最大总能量的累加音频信号，因此，通过计算出所有的预设方向下的音频累加信号的总能量，将具有最大总能量的预设方向作为最终的定向结果即可。

然而由上述技术方案存在以下问题：(1)由于音频信号的不稳定性，仅选取具有最大总能量的预设方向作为实际方向会造成定位精度较差；(2)在实际情况下，由于麦克风阵列的物理结构使得麦克风阵列对周围一圈方向的响应程度是不相同的，这会造成定向过程中的选择倾向性；(3)需要对每个方向分别进行运算处理会造成很大的计算量，并进一步导致运算速度下降，资源消耗过大等问题。

发明内容

针对现有技术中的音源信号定向精度较差且运算量较大的问题，本发明提供了一种音源定向方法和系统，以减少音源定向运算量，同时提升音源定向精确度。

在本发明实施方式的第一方面，提出一种音源定向方法，其特征在于，所述方法包括：

通过麦克风阵列接收多路音频信号；

根据所述多路音频信号计算多个预设方向的信号强度信息；

针对每一个所述预设方向，根据所述每一个预设方向对应的所述信号强度信息获取所述每一个预设方向的特征向量；

将所述多个预设方向的特征向量累加获取综合特征向量；

其中，所述综合特征向量的方向为音源的方向，所述综合特征向量的模为所述音源的强度。

在一些实施方法中，其中，所述根据所述信号强度信息获取所述每一个预设方向的特征向量包括：

将所述每一个预设方向转化为单位向量；

根据所述每一个预设方向的单位向量与所述每一个预设方向对应的所述信号强度信息获取所述每一个预设方向的特征向量。

在一些实施方法中，其中，所述根据所述每一个预设方向的单位向量与所述每一个预设方向对应的所述信号强度信息获取所述每一个预设方向的特征向量具体包括：

将所述每一个预设方向的单位向量乘以每一个预设方向对应的信号强度信息获取所述预设方向的特征向量。

在一些实施方法中，其中，所述根据所述多路音频信号计算所述多个预设方向的信号强度信息进一步包括：

针对每一个预设方向，获取所述多路音频信号分别对应的多个时延值；

根据所述多个时延值对所述多路音频信号进行延迟累加；

获取延迟累加后的音频信号总能量作为所述预设方向上的信号强度信息。

在一些实施方法中，其中，所述方法还包括：

对获取的综合向量进行低通滤波处理。

在一些实施方法中，其中，所述低通滤波处理进一步包括：

利用线性插值法进行低通滤波处理；或

利用卡尔曼滤波法进行低通滤波处理。

在本发明实施方式的第二方面，提出一种音频定向系统，其特征在于，所述系统包括：

麦克风阵列，用于接收多路音频信号；

第一计算模块，用于根据所述多路音频信号计算多个预设方向的信号强度信息；

第二计算模块，用于针对每一个所述预设方向，根据所述每一个预设方向对应的所述信号强度信息获取所述每一个预设方向的特征向量；

第三计算模块，用于将所述多个预设方向的特征向量累加获取综合特征向量；

其中，所述综合特征向量的方向为音源的方向，所述综合特征向量的模为所述音频的信号强度。

在一些实施方法中，其中，所述第二计算模块还用于：

将所述每一个预设方向转化为单位向量；

在一些实施方法中，其中，，所述根据所述每一个预设方向的单位向量与所述每一个预设方向对应的所述信号强度信息获取所述每一个预设方向的特征向量具体包括：

在一些实施方法中，其中，所述第一计算模块还用于：

根据所述多个时延值对所述多路音频信号进行延迟累加；

在一些实施方法中，其中，所述系统还包括：

低通滤波器，所述低通滤波器连接至第三计算模块，用于对获取的综合向量进行低通滤波处理。

在一些实施方法中，其中，所述低通滤波器还用于：

利用线性插值法进行低通滤波处理；或

利用卡尔曼滤波进行低通滤波处理。

正是通过本发明实施方式所提供的提出一种音源定向方法和系统，通过将多个预设方向上的多路音频延迟累加总能量矢量化，并直接通过矢量累加的方式获取综合方向与综合强度作为定向的结果，一方面提高了定向的准确度，另一方面减少了运算量，此外，通过上述矢量累加的技术方案，减少了麦克风物理结构所造成的选择倾向性误差。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1A、图1B、图1C和图1D示出了现有技术中音源定向方法示意图；

图2示出了根据本发明实施例的一种音源定向方法流程图；

图3示出了根据本发明实施例的一种麦克风阵列工作示意图；

图4示出了根据本发明实施例的多个预设方向的特征向量示意图；

图5示出了根据本发明实施例的一种音源定向方法流程图；

图6示出了根据本发明实施例的一种音源定向系统结构示意图；

图7示出了根据本发明实施例的第一计算模块系统结构示意图；

图8示出了根据本发明实施例的又一种音源定向系统结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

示例性方法

本发明实施例提出一种音源定向方法。

图2是根据本发明实施例的一种音源定向方法的示意性流程图。如图2所示，该方法包括但不限于如下步骤：

S110：通过麦克风阵列接收多路音频信号。

具体地，上述麦克风阵列可以由两个以上麦克风组成，所述麦克风的排列方式为三维空间阵列、平面阵列和直线阵列中的任意一种。

上述麦克风阵列中的多个麦克风采集的音频信号集合成为多路音频信号，上述音频信号为经过模数变换之后的数字音频信号。

S120:分别计算所述多路音频信号在多个预设方向上的信号强度信息。

具体地，所述多个预设方向为假定的音频信号入射方向。

在一实施例中，所述预设方向根据实际情况可以设置为平面方向或者空间方向。

其中，所述将预设方向设置为空间方向具体为该设置的预设方向不限于同一平面，相应地，若所述预设方向设置为空间方向时，所述麦克风阵列中的麦克风排布方式也可以不限于一个平面，例如，在圆球型麦克风阵列底盘上固定放置多个麦克风。

在一实施例中，当音源方向事先已经限定在了某一角度范围内时，例如，当麦克风阵列放置于房间墙面时，则只有一侧方向可能传来音频信号。此时上述预设方向同样可以进一步进行限定与划分，仅预先设置由该侧空间范围内指向麦克风阵列的预设方向。

在一实施例中，该多个预设方向通常采用在预设的方向范围内进行均分的设计。

在一实施例中，例如，如图3所示，本实施例以圆盘型麦克风阵列为例，该圆盘型麦克风包括A、B、C、D、E五个麦克风，本实施例中，在麦克风阵列平面中均分设置预设方向1至8，其中，每个预设方向为假定的音频信号方向。例如，在图3中，图中的直线箭头方向代表实际的音频信号入射方向，对于麦克风阵列中的多个麦克风而言，音频信号平行地入射到每一个麦克风中。

在这里，对上述列举的形状、麦克风数量、麦克风固定方式和麦克风固定位置不作具体限定，在实际应用中，上述麦克风阵列底盘可以采用直线型、三角型、圆球型、半圆球型等任意形状，上述麦克风数量为大于1的任意数量，以及上述多个麦克风可以采用除重叠放置外的任意排布方式进行固定式安装或可移动式安装，本发明以上述图3中的麦克风为例，但不限于此。

此外，在这里，对上述预设方向的设置方式不作具体限定，其可以是平面或空间中的任何数量大于1的方向组合，本发明实施例以上述图3中的预设方向1～8为例，但不限于此。

如图4所示，在一些实施方式中，分别计算所述多路音频信号在多个预设方向上的信号强度信息进一步包括：

针对每个预设方向，进行如下运算：

S121:获取所述多路音频信号分别对应的多个时延值。

具体地，本发明实施方式采用延时累加算法，可以将其分为三部分：时间延迟估计、时间延迟补偿以及累加部分，

其中，时间延迟估计具体包括：针对每一个预设方向，可以将麦克风A设置为基准麦克风，求出其他麦克风与基准麦克风A在该预设方向上的各个时延值。多个麦克风各自接收的音频信号集合成为多路音频信号，并根据各个麦克风所对应的时延值分别计算出各路音频信号与基准麦克风的音频信号之间的时延估计值。具体地，该时延估计值、麦克风间距、采样频率成正比，与声音的传播速度成反比。

S122:根据所述多个时延值对所述多路音频信号进行延迟累加。

具体地，基于上述获取的多个时延值，将每一路音频在时域中根据各自对应的时延估计值进行偏移，再将上述多路经过时延补偿的音频信号进行叠加，获取该音频信号的总能量作为该预设方向下的信号强度信息。

在一实施例中，上述音频信号的总能量可以为预设频段的总能量，上述预设频段优选为人声频段。

在这里，对预设频域范围的选定不作具体限定，其可以根据实际应用场景选定不同的频域范围，例如在海洋生物检测应用场景中选定特定动物的特定声音频率范围作为预设频域范围。本申请实施例中以人声频域为例，但是不限于此。

S123:获取延迟累加后的音频信号总能量作为所述预设方向上的信号强度信息。

具体地，在其它的因素相同的情况下，选定的预设方向与实际的音频方向越接近，该预设方向对应的时延估计值就越准确，进一步地，多路音频信号在时域进行时延累加后才能获得更高的总能量，也即最高的音频信号强度。

相应地，若预设方向偏离实际音频方向越大，其获得的音频信号强度则越低。

S130：根据所述多个预设方向上的信号强度信息获取分别对应于所述多个预设方向的多个特征向量。

其中，所述每个预设方向的特征向量的模为该预设方向所对应的信号强度信息。

在一实施例中，所述根据所述多个预设方向上的信号强度信息获取分别对应于所述多个预设方向的多个特征向量进一步包括：

S131：将每个所述预设方向转化为单位向量。

具体地，对应于预设方向的范围，上述单位向量可以为平面向量或空间向量。

在一实施例中，具体地，针对平面范围内的预设方向，其中，平面中每个预设方向所对应的单位向量都可以转换为平面坐标系中的有序实数对(a,b),其中，

幅角与对应的预设方向相同，进一步地，可以采用向量的复数形式进行后续运算。

对于空间方向定位而言，可以将空间向量转换为空间坐标系中的有序实数对(x，y，z)，其中

幅角与对应的预设方向相同。

S132：将每个所述单位向量乘以对应的信号强度信息获取每个所述预设方向对应的特征向量。

如图5所示，针对每个预设方向，将获取的音频信号强度信息与其对应的单位向量相乘，获取与该预设方向相对应的特征向量，该特征向量的模为该预设方向上的音频信号强度信息，该特征向量的方向也即预设方向。

S140：将述多个特征向量累加获取综合特征向量。

具体地，如图5所示，将获取的每一个预设方向所对应的特征向量累加得到综合特征向量

其中，所述综合特征向量

的方向即所述音频信号的方向，所述综合特征向量

的模为所述音频信号的强度。

如图3所示，在实际情况下，不可能穷尽列举出所有的角度作为预设方向，例如，图3中的实际音频方向在预设方向5与预设方向6之间，现有技术中通过比较每一个预设方向下多路音频信号延迟累加后的总能量大小找到具有最大音频信号强度的预设方向，也即是，在图3中的预设方向5或预设方向6中具备更大音频信号强度的一个。显然地，上述判断必然会存在一定的偏差。预设方向的密度越低，偏差的范围就越大，因此，现有技术方案通常要求预设尽可能多的入射角度作为预设方向。

此外，由于麦克风的物理结构特征，例如，麦克风的工作部件通常安装于壳体内，壳体的物理形状会造成麦克风对来自不同方向的音频信号的响应程度不同，进一步地，音频信号强度就会不同程度地被削弱，最终造成方向判断产生误差。例如，如图3所示，假设麦克风的工作部位全部面向圆盘外侧，那么面对不同方向传来的音频，麦克风所接收到的音频信号存在一定程度的失真，而且每个麦克风所对应的失真程度并不相同。因此可能造成后续的音源方向或强度判断的误差。

本发明实施例采用将所有预设方向下的特征向量累加的技术方案，那么在呈180°夹角的两个预设方向上(例如预设角度2与6、预设角度1与5、预设角度3与7、预设角度4与8)对称存在的上述失真因素可以在向量累加过程中对冲减少。

在一实施例中，还可以在获取综合特征向量之后对其进行低通滤波处理，从而达到消除噪音抖动的技术效果。

具体地，上述低通滤波处理可以减轻该音频信号中的由噪音造成信号强度变化，进一步地，对于随机噪音，后置的低通滤波会使结果比较稳定。

在一实施例中，上述低通滤波处理进一步可以包括：

(1)通过线性插值法对所述综合特征向量进行低通滤波处理。

具体地，上述综合特征向量所对应的音频信号为一段音频的其中一帧音频信号，也就是说，每一帧音频信号都有其对应的综合特征向量。正常情况下，由于音频的连续性，连续两帧音频信号所对应的综合特征向量之间应该也具备连续性，此时，通过对当前帧音频信号的综合特征向量与前一帧音频信号的特征向量进行线性插值处理，能够对当前的综合特征向量进行低通滤波处理。

(2)通过卡尔曼滤波方法对所述综合特征向量进行低通滤波处理。

通过上述对获取的综合向量进行低通滤波处理实现了消除噪音抖动音的技术效果。

综上，正是通过本发明实施方式所提供的提出一种音源定向方法和系统，通过将多个预设方向上的多路音频延迟累加总能量矢量化，并直接通过矢量累加的方式获取综合方向与综合强度作为定向的结果，一方面提高了定向的准确度，另一方面减少了运算量，此外，通过上述矢量累加的技术方案，对冲减少了麦克风物理结构所造成的选择倾向性误差。

示例性设备

图6是根据本发明实施例的一种音源定向系统500的结构示意图。如图6所示，该系统500包括麦克风阵列510、第一计算模块520、第二计算模块530和第三计算模块540，其中：

麦克风阵列510，用于接收多路音频信号。

具体地，上述麦克风阵列510可以由两个以上麦克风组成，所述麦克风的排列方式为三维空间阵列、平面阵列和直线阵列中的任意一种。上述麦克风阵列中的多个麦克风采集的音频信号集合成为多路音频信号，上述音频信号为经过模数变换之后的数字音频信号。

第一计算模块520，用于根据所述多路音频信号计算多个预设方向的信号强度信息。

如图7所示，在一实施例中，针对每一个预设方向，上述第一计算模块520还包括：

时延估计单元521，用于获取所述多路音频信号分别对应的多个时延值。

其中，时延估计单元521具体用于：针对每一个预设方向，可以将麦克风A设置为基准麦克风，求出其他麦克风与基准麦克风A在该预设方向上的各个时延值。多个麦克风各自接收的音频信号集合成为多路音频信号，并根据各个麦克风所对应的时延值分别计算出各路音频信号与基准麦克风的音频信号之间的时延估计值。具体地，该时延估计值、麦克风间距及采样频率成正比，与声音的传播速度成反比。

时延补偿单元522，用于将每一路音频信号偏移对应的时延值。

延迟累加单元523，用于将所述时延补偿后的多路音频信号进行累加。

具体地，基于上述获取的多个时延值，将每一路音频在时域中根据各自对应的时延估计值进行偏移，再将上述多路经过时延补偿的音频信号进行叠加，获取该音频信号的能量总能量作为该预设方向下的信号强度信息。

第二计算模块530，用于针对每一个预设方向，根据所述信号强度信息获取所述预设方向的特征向量；

在一实施例中，上述第二计算模块530还用于：

将所述预设方向转化为单位向量。

幅角与对应的预设方向相同。

采用下列公式将所述单位向量乘以对应的信号强度信息获取所述预设方向对应的特征向量

如图8所示，本发明实施例的音源定向系统中还包括低通滤波器550，该低通滤波器550连接至第三计算模块540，用于对获取的综合向量进行低通滤波处理。

在一实施例中，所述低通滤波器550还用于：

(1)利用线性插值法对所述综合特征向量进行低通滤波处理。

(2)利用卡尔曼滤波法对所述综合特征向量进行低通滤波处理。

通过上述对获取的综合向量进行低通滤波处理实现了消消除噪音抖动音抖动的技术效果。

综上，通过本发明实施方式所提供的提出一种音源定向方法和系统，通过将多个预设方向上的多路音频延迟累加总能量矢量化，并直接通过矢量累加的方式获取综合方向与综合强度作为定向的结果，一方面提高了定向的准确度，另一方面减少了运算量，此外，通过上述矢量累加的技术方案，对冲减少了麦克风物理结构所造成的选择倾向性误差。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分方式仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音源定向方法，其特征在于，所述方法包括：

通过麦克风阵列接收多路音频信号；

根据所述多路音频信号计算多个预设方向的信号强度信息，其中，针对每一个预设方向，获取所述多路音频信号分别对应的多个时延值，根据所述多个时延值对所述多路音频信号进行延迟累加，获取延迟累加后的音频信号总能量作为所述预设方向上的信号强度信息；

将所述多个预设方向的特征向量累加获取综合特征向量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述信号强度信息获取所述每一个预设方向的特征向量包括：

将所述每一个预设方向转化为单位向量；

3.根据权利要求2所述的方法，其特征在于，所述根据所述每一个预设方向的单位向量与所述每一个预设方向对应的所述信号强度信息获取所述每一个预设方向的特征向量具体包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对获取的综合向量进行低通滤波处理。

5.根据权利要求4所述的方法，其特征在于，所述低通滤波处理进一步包括：

利用线性插值法进行低通滤波处理；或

利用卡尔曼滤波法进行低通滤波处理。

6.一种音频定向系统，其特征在于，所述系统包括：

麦克风阵列，用于接收多路音频信号；

第一计算模块，用于根据所述多路音频信号计算多个预设方向的信号强度信息，其中，针对每一个预设方向，获取所述多路音频信号分别对应的多个时延值，根据所述多个时延值对所述多路音频信号进行延迟累加，获取延迟累加后的音频信号总能量作为所述预设方向上的信号强度信息；

7.根据权利要求6所述的系统，其特征在于，所述第二计算模块还用于：

将所述每一个预设方向转化为单位向量；

8.根据权利要求7所述的系统，其特征在于，所述根据所述每一个预设方向的单位向量与所述每一个预设方向对应的所述信号强度信息获取所述每一个预设方向的特征向量具体包括：

9.根据权利要求6所述的系统，其特征在于，所述系统还包括：

10.根据权利要求9所述的系统，其特征在于，所述低通滤波器还用于：

利用线性插值法进行低通滤波处理；或

利用卡尔曼滤波进行低通滤波处理。