CN108845292B

CN108845292B - 一种声源定位的方法及装置

Info

Publication number: CN108845292B
Application number: CN201810623301.8A
Authority: CN
Inventors: 孙学京; 张晨; 张兴涛
Original assignee: Beijing Tuoling Inc
Current assignee: Beijing Tuoling Xinsheng Technology Co.,Ltd.
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2020-11-27
Anticipated expiration: 2038-06-15
Also published as: CN108845292A

Abstract

本发明公开了一种声源定位的方法及装置，该方法包括：获取待检测声源方向的第一格式音频信号；根据第一格式音频信号以及与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量；根据检测向量，确定声源的空间方位。在获取待检测声源方向的第一格式音频信号后，实现获取与第一格式音频信号对应的3D导向矢量，然后根据第一格式音频信号和与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量，最终根据声源方向的检测向量，确定声源的空间方位。通过上述方式，不仅仅可以得到声源在水平方向的位置信息，还可以得到声源在垂直方向的位置信息，从而全方位的实现3D空间的定位。

Description

一种声源定位的方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种声源定位的方法及装置。

背景技术

随着科学技术的发展，各个领域对于音频质量的追求越来越高，音频研究的对象由最初的单路(mono)，逐渐过渡到立体声(stereo)、环绕声(surround)以及3D(3-dimensional)音频。不同于单路音频，多路音频通常是通过麦克风阵列得到的。目前基于波达方向(Direction of arrival,DOA)估计的麦克风阵列声源定位技术是很多领域的研究热点，广泛应用在声呐、视频电话会议、人工智能、地震研究、语音追踪与识别、监控系统等方面。

但是，现有利用DOA估计的麦克风阵列声源定位技术只能针对水平面进行声源定位，而一旦需要针对垂直方向或者三维立体方向的声源定位时，则无法实现。

发明内容

本发明的目的在于提供一种声源定位的方法及装置，用以解决现有声源定位技术只能针对水平面进行声源定位的问题。

为实现上述目的，本发明的技术方案提供了一种声源定位的方法，该声源定位的方法包括：

获取待检测声源方向的第一格式音频信号；

根据第一格式音频信号以及与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量；

根据检测向量，确定声源的空间方位，其中与第一格式音频信号对应的3D导向矢量为预先获取的导向矢量。

本发明具有如下优点：在获取声源方位的第一格式音频信号后，实现获取与第一格式音频信号对应的3D导向矢量，然后根据第一格式音频信号和与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量，最终根据声源方向的检测向量，确定声源的空间方位。通过上述方式，不仅仅可以得到声源在水平方向的位置信息，还可以得到声源在垂直方向的位置信息，从而全方位的实现3D空间的定位。

为实现上述目的，本发明的技术方案提供了一种声源定位的装置，该声源定位的装置包括：

获取单元，获取待检测声源方位的第一格式音频信号；

处理单元，用于根据第一格式音频信号以及与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量；

本发明具有如下优点：在获取待检测声源方位的第一格式音频信号后，实现获取与第一格式音频对应的3D导向矢量，然后根据第一格式音频信号和与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量，最终根据声源方向的检测向量，确定声源的空间方位。通过上述方式，不仅仅可以得到声源在水平方向的位置信息，还可以得到声源在垂直方向的位置信息，从而全方位的实现3D空间的定位。

附图说明

图1为本发明实施例提供的一种声源定位的方法流程示意图；

图2为本发明采集四路音频信号的麦阵放置方式示意图；

图3为本发明实施例提供的一种声源定位的装置结构示意图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

本发明实施例1提供了一种声源定位的方法流程示意图。具体如图1所示，该方法可以包括：

步骤110，获取待检测声源方向的第一格式音频信号。

具体的，获取的第一格式音频信号可以是Ambisonic格式的音频信号。其第一格式音频信号可以是Ambisonic A格式音频信号，可以包括：左前路音频(left-front-up，简称LFU)、右前路音频(right-front-down，简称RFD)、左后路音频(left-back-down，简称LBD)、右后路音频(right-back-up，简称RBU)。

即，

Ambisonic A格式音频信号实际是根据麦克方式定义的，具体麦克风放置方式如图2所示。而上文的4路音频：LFU路音频、RFD路音频、LBD路音频、RBU路音频则是在麦克风放置好后，可以直接采集的音频信号。

步骤120，根据第一格式音频信号以及与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量。

步骤130，根据检测向量，确定声源的空间方位。

与第一格式音频信号对应的3D导向矢量为预先获取的导向矢量。

在一个具体的例子中，具体的，Ambisonic A格式音频信号中，利用图2所示的指向性麦克采集音频，指向性麦克在3D空间的各个方向的音频拾取都是特定的。因此与第一格式音频信号对应的3D导向矢量的获取同样是可以预先计算得到的。具体获取3D导向矢量的方式为现有技术，这里不做过多的介绍。

3D导向矢量的表达式可以如下式表示：

SteerV＝[S₁ S₂ S₃ S₄] (公式2)

其中，

那么，检测向量D_oaV可以通过下式表示：

D_oaV＝A_amb×SteerV (公式4)

根据检测向量D_oaV确定声源的空间方位时，可以是通过查找极大值方式获取，即对应的索引值即为3D空间方位。

以上实施例，是从整体的角度考虑，即直接获取声源在3D空间的导向矢量，进而获取在3D空间的检测向量，通过3D空间的检测向量获取3D空间方位。

在另一个具体的例子中，则可以先获取声源在水平方向的方位角，然后获取在垂直方向的方位角。根据水平方向的方位角和垂直方向的方位角，综合确定声源的3D空间方位。具体如下：

分别将第一格式音频信号投影到水平方向以及垂直方向后，获取第一格式音频信号在水平方向的第一子格式音频信号和在垂直方向的第二子格式音频信号；

根据第一子格式音频信号以及与第一子格式音频信号对应的水平方向的导向矢量，获取声源的水平方位角；

和，

根据第二子格式音频信号以及与第二子格式音频信号对应的垂直方向的导向矢量，获取声源的垂直方位角；

最终，根据水平方位角和垂直方位角，确定声源的空间方位。

即，Ambisonic A格式音频信号(包含LFU路音频、RFD路音频、LBD路音频、RBU路音频)，如公式1所示。

然后将Ambisonic A格式音频信号进行投影到水平面，进行预处理，获取位于水平面同一平面的4路音频信号。具体如下式所示：

A_hor＝A_amb×A (公式5)

其中，A为转换矩阵：

其中，

为高度角，

为与

相关的函数，实际上就是从空间映射到平面上时所用到的函数，例如sin函数或者cos函数等。但是，加上

函数后，可能会导致计算比较复杂。但是实际上，在转换到平面时，相当于4路音频都已经做了相同的处理，因此，即使忽略高度信息，也不会对计算结果造成太大的影响，反而可以降低复杂度。因此，在具体实施过程中，可以将该高度信息忽略掉。进而，

根据位于水平面同一平面的4路音频信号和预先计算的水平方向投影的导向矢量steering vectors进行处理，得到声源在水平方向的检测向量D_oaX[M]。

具体公式如下所示：

D_oaX＝A_hor×SteerX

其中，SteerX[4][M]即为预先获取的水平方向投影的导向矢量steeringvectors，M代表水平方向的DOA检测分辨率。

根据D_oaX向量获取水平方位角，获取方式同样是通过查找水平方向的检测向量的极大值，对应的索引值即为水平方位角。

进一步的，对Ambiosonic A格式音频信号进行投影到垂直面的预处理，得到位于在垂直面同一平面的4路音频信号；

A_ver＝A_amb×B (公式8)

转换矩阵B为：

与上述相类似的，其中，

为水平角，

为与

相关的函数。如果忽略水平角及其相应函数，则可以得到：

根据位于在垂直面同一平面的4路音频信号和预先计算的垂直方向投影的steering vectors进行处理，得到声源在垂直方向的检测向量D_oaY[N]。

D_oaY＝A_ver×SteerY (公式11)

其中，SteerY[4][N]，N代表垂直方向的DOA检测分辨率。

根据DoaY向量获取垂直方位角，具体为查找垂直方向的检测向量的极大值，其对应的索引值即为垂直方位角。

最终，根据水平方位角和垂直方位角，确定声源的3D空间方位。

在另一个具体的例子中，可能声源信号就是单纯的可以在某一个方向检测到，例如水平方向又或者是垂直方向。而如果还通过上述两个例子的方式获取空间定位，会增加算法的复杂度。因此，可以通过下面的方式可以直接获取：

将第一格式音频信号转换为第二格式音频信号，第二格式音频至少包括Y分量和Z分量，其中，Y分量为左右方向的分量，Z分量为上下方向的分量；

根据Y分量的能量计算声源在水平方向的声源发散度参数，以及根据Z分量的能量计算声源在垂直水平方向的声源发散度参数；

当确定水平方向的声源发散度参数大于或者等于垂直方向的声源发散度参数时，将第一格式音频信号投影到水平方向，获取水平方向的第一子格式音频信号；

根据第一子格式音频信号以及与第一子格式音频信号对应的水平方向的导向矢量，获取声源的空间方位。

或者，当确定水平方向的声源发散度参数小于垂直方向的声源发散度参数时，将第一格式音频信号投影到垂直方向，获取垂直方向的第二子格式音频信号；

根据第二子格式音频信号以及与第二子格式音频信号对应的垂直方向的导向矢量，获取声源的空间方位。

具体的，将输入的Ambisonic A格式音频转换为Ambisonic B格式音频。

音频领域中将包含W、X、Y、Z分量的音频信号称为Ambisonic B格式音频信号。其中，W为全向的分量，X为前后方向的分量，Y为左右方向的分量，Z为上下方向的分量。而本申请中主要涉及的分量为Y分量和Z分量。

进一步结合基于Z信号的能量估计水平面的diffusivity参数，基于Y信号的能量估计垂直面的diffusivity参数。从而决定对输入的多路音频信号采用水平方位DOA还是垂直方位DOA。

这里的diffusivity参数即为声源发散度参数。参数决定了声源方位可检测的程度，数值越小，则可检测程度越大，否则，可检测程度越小。因此可以结合水平面和垂直面的diffusivity参数，自适应选择DOA检测方式。

具体包括：

对Ambiosonic A格式音频信号(公式1所示)进行预处理，得到Ambisonic B格式音频信号(包含W、X、Y、Z分量)。

其中，

B_amb＝C×A_amb (公式13)

其中，

基于Z信号的能量估计水平面的diffusivity参数，基于Y信号的能量估计垂直面的diffusivity参数。

当确定水平方向的声源发散度参数大于或者等于垂直方向的声源发散度参数时，将第一格式音频信号投影到水平方向，获取水平方向的第一子格式音频信号，根据第一子格式音频信号以及与第一子格式音频信号对应的水平方向的导向矢量，获取声源的空间方位。否则，当确定水平方向的声源发散度参数小于垂直方向的声源发散度参数时，将第一格式音频信号投影到垂直方向，获取垂直方向的第二子格式音频信号，根据第二子格式音频信号以及与第二子格式音频信号对应的垂直方向的导向矢量，获取声源的空间方位。

而后续获取声源的空间方位的过程同第二个具体例子中获取空间方位的过程类似，这里将不做过多介绍。唯一不同的是，本例子中，仅仅获取某一个(水平或垂直)方向的方位角，进而确定声源信号的空间方位。

本发明实施例提供的一种声源定位方法，在获取带检测声源方位的第一格式音频信号后，实现获取与第一格式音频信号对应的3D导向矢量，然后根据第一格式音频信号和与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量，最终根据声源方向的检测向量，确定声源空间方位。通过上述方式，不仅仅可以得到声源在水平方向的位置信息，还可以得到声源在垂直方向的位置信息，从而全方位的实现3D空间的定位。

实施例2

与实施例1相对应的，本发明实施例还提供了一种声源定位的装置，具体如图2所示，该装置包括：获取单元201和处理单元202。

获取单元201，获取待检测声源方向的第一格式音频信号；

处理单元202，用于根据第一格式音频信号以及与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量；

可选的，处理单元202具体用于，分别将第一格式音频信号投影到水平方向以及垂直方向后，获取第一格式音频信号在水平方向的第一子格式音频信号和在垂直方向的第二子格式音频信号；

和，

根据水平方位角和垂直方位角，确定声源的空间方位。

可选的，处理单元202，具体用于将第一格式音频信号转换为第二格式音频信号，第二格式音频信号至少包括Y分量和Z分量，其中，Y分量为左右方向的分量，Z分量为上下方向的分量；

进一步可选的，处理单元202还用于，当确定水平方向的声源发散度参数小于垂直方向的声源发散度参数时，将第一格式音频信号投影到垂直方向，获取垂直方向的第二子格式音频信号；

本发明实施例提供的声源定位的装置中各部件所执行的功能均已在上述实施例1中做了详细的介绍，因此这里不做详细介绍。

本发明实施例提供的一种声源定位的装置，在获取待检测声源方位的第一格式音频信号后，实现获取与第一格式音频信号对应的3D导向矢量，然后根据第一格式音频信号和与第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量，最终根据声源方向的检测向量，确定声源的空间方位。通过上述方式，不仅仅可以得到声源在水平方向的位置信息，还可以得到声源在垂直方向的位置信息，从而全方位的实现3D空间的定位。

实施例3

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现上述实施例1的方法步骤。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种声源定位的方法，其特征在于，所述方法包括：

获取待检测声源方向的第一格式音频信号；

根据所述第一格式音频信号以及与所述第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量；

根据所述检测向量，确定所述声源的空间方位，其中所述与所述第一格式音频信号对应的3D导向矢量为预先获取的导向矢量；

其中，根据所述第一格式音频信号以及与所述第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量，具体包括：

将所述第一格式音频信号转换为第二格式音频信号，所述第二格式音频至少包括Y分量和Z分量，其中，Y分量为左右方向的分量，Z分量为上下方向的分量；

根据Y分量的能量计算所述声源在水平方向的声源发散度参数，以及根据Z分量的能量计算所述声源在垂直方向的声源发散度参数；

当确定所述水平方向的声源发散度参数大于或者等于所述垂直方向的声源发散度参数时，将所述第一格式音频信号投影到水平方向，获取水平方向的第一子格式音频信号；

根据所述第一子格式音频信号以及与所述第一子格式音频信号对应的水平方向的导向矢量，获取所述声源的空间方位。

2.根据权利要求1所述的方法，其特征在于，当确定所述水平方向的声源发散度参数小于所述垂直方向的声源发散度参数时，将所述第一格式音频信号投影到垂直方向，获取垂直方向的第二子格式音频信号；

根据所述第二子格式音频信号以及与所述第二子格式音频信号对应的垂直方向的导向矢量，获取所述声源的空间方位。

3.一种声源定位的装置，其特征在于，所述装置包括：

获取单元，获取待检测声源方向的第一格式音频信号；

处理单元，用于根据所述第一格式音频信号以及与所述第一格式音频信号对应的3D导向矢量，获取声源方向的检测向量；

其中，所述处理单元，具体用于将所述第一格式音频信号转换为第二格式音频信号，所述第二格式音频至少包括Y分量和Z分量，其中，Y分量为左右方向的分量，Z分量为上下方向的分量；

根据Y分量的能量计算所述声源信号在水平方向的声源发散度参数，以及根据Z分量的能量计算所述声源信号在垂直方向的声源发散度参数；

4.根据权利要求3所述的装置，其特征在于，所述处理单元还用于，当确定所述水平方向的声源发散度参数小于所述垂直方向的声源发散度参数时，将所述第一格式音频信号投影到垂直方向，获取垂直方向的第二子格式音频信号；