CN113608167B

CN113608167B - 声源定位方法、装置及设备

Info

Publication number: CN113608167B
Application number: CN202111173456.4A
Authority: CN
Inventors: 陈维广; 黄伟隆; 冯津伟
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-02-08
Anticipated expiration: 2041-10-09
Also published as: EP4375695A1; WO2023056905A1; CN113608167A

Abstract

本申请公开了会议发言展示系统，声源定位方法和装置，会议系统，拾音设备。其中，所述方法包括：通过指向性麦克风阵列采集多通道语音信号；根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定声源方向信息。采用这种处理方式，使得在确定导向矢量时同时考虑相位信息和振幅信息，这样可以有效提升声源定位的准确度。

Description

声源定位方法、装置及设备

技术领域

本申请涉及语音处理技术领域，具体涉及会议发言展示系统，声源定位方法和装置，会议系统，拾音设备。

背景技术

会议场景中的音视频设备的基本功能包括发言者跟踪功能。要实现发言者跟踪功能，就需要对发言者进行实时定位。声源定位（Sound Localization）是对声源空间位置的判定，声源定位的准确度直接影响着发言者跟踪的准确度。

一种典型的声源定位方法是基于麦克风的波达方向估计（DirectionofArrival，DOA）方法。基于麦克风的DOA方法包括两类：基于全向性麦克风的DOA方法和基于指向性麦克风阵列的DOA方法。由于基于全向性麦克风阵列的DOA方法受混响影响大,而基于指向性麦克风阵列的DOA方法的鲁棒性更高，因此基于指向性麦克风阵列的DOA方法得到了广泛应用。基于指向性麦克风阵列的DOA现有方法是，采用呈圆形的指向性麦克风阵列，在可控响应功率(Steered-Response Power,SRP)声源定位算法基础上增加权重函数（WeightingFunction）,利用部分面向声源的麦克风拾取的信号估计声源方向。

然而，在实现本发明过程中，发明人发现基于指向性麦克风阵列的DOA现有方案至少存在如下问题：由于只利用了部分面向声源的麦克风拾取的信号，且没有充分利用振幅信息，因此声源定位准确度较低。

发明内容

本申请提供声源定位方法，以解决现有技术存在的声源定位准确度较低的问题。本申请另外提供会议发言展示系统，声源定位装置，会议系统，拾音设备。

本申请提供一种会议发言展示系统，包括：

终端设备，用于通过指向性麦克风阵列采集会议空间的多通道语音信号；根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定会议发言用户的位置信息；将所述语音信号和所述位置信息发送至服务端；以及，展示服务端回送的不同会议发言用户的会议发言文本；

服务端，用于通过语音识别算法，将所述语音信号转换为会议发言文本；根据所述位置信息，确定不同会议发言用户的会议发言文本。

本申请还提供一种声源定位方法，包括：

通过指向性麦克风阵列采集多通道语音信号；

根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；

根据所述导向矢量和所述语音信号，确定声源方向信息。

可选的，所述根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量，包括：

根据阵列形状信息，确定相位差；

根据麦克风指向方向信息，确定振幅响应；

根据相位差和振幅响应，确定所述导向矢量。

可选的，所述阵列包括线性阵列；

所述阵列形状信息包括麦克风之间的距离；

所述麦克风指向方向包括垂直于阵列指向一侧。

可选的，所述阵列包括圆形阵列；

所述阵列形状信息包括圆形阵列半径；

所述麦克风指向方向为麦克风相对圆形阵列圆心的方向。

可选的，所述根据所述导向矢量和所述语音信号，确定声源方向信息，包括：

根据所述导向矢量和所述语音信号，确定空间谱；

根据所述空间谱，确定所述声源方向信息。

可选的，所述根据所述空间谱，确定所述声源方向信息，包括：

将能量响应数据排在前面的方向作为声源方向。

本申请还提供一种声源定位装置，包括：

声音采集单元，用于通过指向性麦克风阵列采集多通道语音信号；

导向矢量确定单元，用于根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；

声源方向确定单元，用于根据所述导向矢量和所述语音信号，确定声源方向信息。

本申请还提供一种会议系统，包括：声源定位装置和发言者跟踪装置。

本申请还提供一种拾音设备，包括：

指向性麦克风阵列；

处理器和存储器；存储器，用于存储实现上述方法的程序，该设备通电并通过所述处理器运行该方法的程序。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的声源定位方法，通过指向性麦克风阵列采集多通道语音信号；根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定声源方向信息。采用这种处理方式，使得在确定导向矢量时同时考虑相位信息和振幅信息，这样可以有效提升声源定位的准确度。

本申请实施例提供的会议发言展示系统，终端设备通过指向性麦克风阵列采集会议空间的多通道语音信号；根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定会议发言用户的位置信息；将所述语音信号和所述位置信息发送至服务端；服务端通过语音识别算法，将所述语音信号转换为会议发言文本；根据所述位置信息，确定不同会议发言用户的会议发言文本；终端设备展示不同会议发言用户的会议发言文本。采用这种处理方式，使得在确定导向矢量时同时考虑相位信息和振幅信息，这样可以有效提升会议发言用户定位的准确度，进而提升会议发言展示的准确度。

附图说明

图1本申请提供的声源定位方法的实施例的流程示意图；

图2本申请提供的声源定位方法的实施例的线性阵列示意图；

图3本申请提供的声源定位方法的实施例的具体流程示意图；

图4本申请提供的会议发言展示系统实施例的应用场景示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了会议发言展示系统，声源定位方法和装置，会议系统，拾音设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

本申请实施例提供了声源定位方法，可用于拾音设备、音视频会议终端等，所述设备包括指向性麦克风阵列，而非全向性麦克风阵列。

请参看图1，其为本申请的声源定位方法的实施例的流程示意图。在本实施例中，所述方法可包括如下步骤：

步骤S101：通过指向性麦克风阵列采集多通道语音信号。

所述指向性麦克风，包括但不限于：心形，超心形，枪型，双指向式。

所述麦克风阵列，可以是圆形阵列或者线性阵列，也可以是其它几何形状的阵列，如方形阵列、三角形阵列等，还可以是不规则几何形状的阵列。

步骤S103：根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量。

本申请实施例提供的方法的处理流程采用了与现有技术中基于全向性麦克风的DOA方法相同的处理流程，但对其中的导向矢量的确定方式进行了改进，本步骤S103即为改进后的导向矢量确定方式。

具体实施时，可以采用联合可控响应功率和相位变换(Steered-Response Power-Phase Transform,SRP-PHAT)、MUSIC以及MVDR等DOA定位方法。以SRP-PHAT定位方法为例，该方法通过扫描不同角度（0-360度），根据导向矢量以及麦克风阵列接收到的信号，计算每个角度的能量响应，进而得到空间谱；在获得空间谱后，可选取空间谱中较高能量响应的角度作为声源定位结果。这些DOA方法的不同之处在于，根据导向矢量和多通道语音信号计算空间谱的方式不同。

所述阵列形状信息，与阵列的几何形状有关。以线性阵列为例，阵列形状信息可包括麦克风之间的距离等信息。以圆形阵列为例，阵列形状信息可包括圆形阵列半径等信息。

所述麦克风指向方向信息，也与阵列的几何形状有关。以线性阵列为例，麦克风指向方向为垂直于阵列指向一侧。以圆形阵列为例，麦克风指向方向为麦克风相对阵列圆心的方向。

在现有技术中，当使用全向麦克风阵列时，导向矢量只表示入射信号在麦克风阵列中每个阵元上的相位关系。在本申请提供的方法中，当阵列中的麦克风为指向性麦克风时，导向矢量还考虑麦克风的指向性，即要计算方向上的振幅响应。也就是说，本申请实施例所述的导向矢量包括了相位信息和振幅信息。因此，对于不同方向的信号，可以同时使用相位信息和振幅信息进行定位。

在本实施例中，步骤S103可包括如下子步骤：根据阵列形状信息，确定相位差；根据麦克风指向方向信息，确定振幅响应；根据相位差和振幅响应，确定所述导向矢量。

如图2所示，在一个示例中，指向性麦克风阵列为线性阵列，可采用如下公式计算振幅响应：

在该公式中，p(θ_m,θ)表示第m个指向性麦克风的振幅响应，θ表示信号入射方向，θ_m是第m个指向性麦克风的指向方向，α是一阶指向性麦克风的系数。

相应的，所述导向矢量的可采用如下公式：

由该公式可见,指向性麦克风阵列包括m个指向性麦克风，相邻麦克风之间的距离为d，d即为所述阵列形状信息。其中，v(w)表示所述导向矢量，该导向矢量包括相位差和振幅响应两部分；p(θ_i,θ)表示第i个指向性麦克风在方向θ上的振幅响应，e^{-jwd/c cosθ}表示指向性麦克风在方向θ上的相位差。对于第一个麦克风而言，距离差为0，相位差为1；对于第二个麦克风而言，距离差为d，相位差为e^{-jwd/c cosθ}；以此类推，对于第m个麦克风而言，距离差为（m-1）d，相位差为e^{-jw(m-1)d/c cosθ}。

而现有技术中，全向麦克风指向性麦克风导向矢量的计算可采用如下公式：

由该公式可见,现有技术在计算导向矢量时并没有考虑振幅信息，因此导向矢量不够准确。

在另一个示例中，指向性麦克风阵列为圆形阵列，导向矢量可采用如下公式：

在该公式中，θ表示信号入射方向，θ_m是第m个指向性麦克风的指向方向，R是圆形阵列的半径。

步骤S105：根据所述导向矢量和所述语音信号，确定声源方向信息。

在确定包括相位信息和振幅信息的导向矢量后，就可以采用DOA方法，根据所述导向矢量和所述语音信号，确定声源方向信息。

如图3所示，指向性麦克风阵列可以是圆形阵列或者线性阵列。具体实施时，步骤S105可包括如下子步骤：根据所述导向矢量和所述语音信号，确定空间谱；根据所述空间谱，确定所述声源方向信息。具体实施时，在获得空间谱后，可选取空间谱中较高能量响应的角度作为声源定位结果。由于SRP-PHAT、MUSIC以及MVDR等DOA方法属于较为成熟的现有技术，因此此处不再赘述。

从上述实施例可见，本申请实施例提供的声源定位方法，通过指向性麦克风阵列采集多通道语音信号；根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定声源方向信息。采用这种处理方式，使得在确定导向矢量时同时考虑相位信息和振幅信息，这样可以有效提升声源定位的准确度。

第二实施例

在上述的实施例中，提供了一种声源定位方法，与之相对应的，本申请还提供一种声源定位装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种声源定位装置，包括：

可选的，所述导向矢量确定单元包括：

确定相位差子单元，用于根据阵列形状信息，确定相位差；

确定振幅响应子单元，用于根据麦克风指向方向信息，确定振幅响应；

确定导向矢量子单元，用于根据相位差和振幅响应，确定所述导向矢量。

可选的，所述阵列包括线性阵列；

所述阵列形状信息包括麦克风之间的距离；

所述麦克风指向方向包括垂直于阵列指向一侧。

可选的，所述阵列包括圆形阵列；

所述阵列形状信息包括圆形阵列半径；

所述麦克风指向方向为麦克风相对圆形阵列圆心的方向。

可选的，所述声源方向确定单元包括：

确定空间谱子单元，用于根据所述导向矢量和所述语音信号，确定空间谱；

确定声源方向子单元，用于根据所述空间谱，确定所述声源方向信息。

可选的，所述确定声源方向子单元，具体用于将能量响应数据排在前面的方向作为声源方向。

第三实施例

与上述的声源定位方法相对应，本申请还提供一种会议系统。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种会议系统包括：声源定位装置和发言者跟踪装置。

音视频会议系统是两个或两个以上不同地方的个人或群体，通过传输线路及会议终端等设备，将声音、影像及文件资料互传，实现即时且互动的沟通，以实现同时进行会议的系统设备。

其中，所述声源定位装置与第一实施例相对应，因此不再赘述，请参见实施例一中的相应部分。所述发言者跟踪装置用于根据所述声源定位装置输出的声源方向信息，确定发言者的活动轨迹信息。由于发言者跟踪属于较为成熟的现有技术，因此此处不再赘述。

从上述实施例可见，本申请实施例提供的会议系统，包括声源定位装置和发言者跟踪装置，所述声源定位装置用于通过指向性麦克风阵列采集多通道语音信号；根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定声源方向信息；所述发言者跟踪装置用于根据所述声源定位装置输出的声源方向信息，确定发言者的活动轨迹信息。该系统在确定导向矢量时同时考虑相位信息和振幅信息，因此可以有效提升声源定位的准确度，进而提升发言者跟踪的准度度。

第四实施例

与上述的声源定位方法相对应，本申请还提供一种会议发言展示系统。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种会议系统包括：终端设备和服务端。

请参考图4，其为本申请的会议发言展示系统的场景示意图。在本实施例中，终端设备部署在会议现场，服务端部署在云端服务器上，此外会议现场还可部署大屏幕，用于实时显示会议发言文本及对应的发言用户，供用户观看。服务端、终端设备间可通过网络连接，如终端设备可通过GPRS\4G\WIFI等方式联网。其中，所述终端设备用于通过指向性麦克风阵列采集会议空间的多通道语音信号；根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定会议发言用户的位置信息；将所述语音信号和所述位置信息发送至服务端；所述服务端用于通过语音识别算法，将所述语音信号转换为会议发言文本；根据所述位置信息，确定不同会议发言用户的会议发言文本；所述终端设备在大屏幕上显示会议发言文本及对应的发言用户信息。

从上述实施例可见，本申请实施例提供的会议发言展示系统，终端设备通过指向性麦克风阵列采集会议空间的多通道语音信号；根据阵列形状信息和麦克风指向方向信息，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定会议发言用户的位置信息；将所述语音信号和所述位置信息发送至服务端；服务端通过语音识别算法，将所述语音信号转换为会议发言文本；根据所述位置信息，确定不同会议发言用户的会议发言文本；终端设备展示不同会议发言用户的会议发言文本。采用这种处理方式，使得在确定导向矢量时同时考虑相位信息和振幅信息，这样可以有效提升会议发言用户定位的准确度，进而提升会议发言展示的准确度。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

Claims

1.一种会议发言展示系统，其特征在于，包括：

终端设备，用于通过指向性麦克风阵列采集会议空间的多通道语音信号；根据阵列形状信息，确定各指向性麦克风在语音信号的入射方向上的相位差；根据各指向性麦克风的指向方向与所述入射方向之间的夹角信息，确定各指向性麦克风的振幅响应；根据相位差和振幅响应之间的乘积，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定会议发言用户的位置信息；将所述语音信号和所述位置信息发送至服务端；以及，展示服务端回送的不同会议发言用户的会议发言文本；

2.一种声源定位方法，其特征在于，包括：

通过指向性麦克风阵列采集多通道语音信号；

根据阵列形状信息，确定各指向性麦克风在语音信号的入射方向上的相位差；

根据各指向性麦克风的指向方向与所述入射方向之间的夹角信息，确定各指向性麦克风的振幅响应；

根据相位差和振幅响应之间的乘积，确定包括相位信息和振幅信息的导向矢量；

根据所述导向矢量和所述语音信号，确定声源方向信息。

3.根据权利要求2所述的方法，其特征在于，

所述阵列包括线性阵列；

所述阵列形状信息包括麦克风之间的距离；

所述麦克风的指向方向包括垂直于阵列指向一侧。

4.根据权利要求2所述的方法，其特征在于，

所述阵列包括圆形阵列；

所述阵列形状信息包括圆形阵列半径；

所述麦克风的指向方向为麦克风相对圆形阵列圆心的方向。

5.根据权利要求2所述的方法，其特征在于，

所述根据所述导向矢量和所述语音信号，确定声源方向信息，包括：

根据所述导向矢量和所述语音信号，确定空间谱；

根据所述空间谱，确定所述声源方向信息。

6.根据权利要求5所述的方法，其特征在于，

所述根据所述空间谱，确定所述声源方向信息，包括：

将能量响应数据排在前面的方向作为声源方向。

7.一种声源定位装置，其特征在于，包括：

相位差确定单元，用于根据阵列形状信息，确定各指向性麦克风在语音信号的入射方向上的相位差；

振幅响应确定单元，用于根据各指向性麦克风的指向方向的指向方向与所述入射方向之间的夹角信息，确定各指向性麦克风的振幅响应；

导向矢量确定单元，用于根据相位差和振幅响应之间的乘积，确定所述导向矢量；

8.一种拾音设备，其特征在于，包括：

指向性麦克风阵列；

处理器；以及

存储器，用于存储实现声源定位方法的程序，该设备通电并通过所述处理器运行该方法的程序；所述声源定位方法包括如下步骤：

通过指向性麦克风阵列采集多通道语音信号；

根据所述导向矢量和所述语音信号，确定声源方向信息。

9.一种会议系统，其特征在于，包括：

声源定位装置和发言者跟踪装置；

所述声源定位装置，用于通过指向性麦克风阵列采集多通道语音信号；根据阵列形状信息，确定各指向性麦克风在语音信号的入射方向上的相位差；根据各指向性麦克风的指向方向与所述入射方向之间的夹角信息，确定各指向性麦克风的振幅响应；根据相位差和振幅响应之间的乘积，确定包括相位信息和振幅信息的导向矢量；根据所述导向矢量和所述语音信号，确定声源方向信息。