CN115508777A

CN115508777A - 说话人定位方法、装置及设备

Info

Publication number: CN115508777A
Application number: CN202210993854.9A
Authority: CN
Inventors: 黄伟隆; 冯津伟; 彭博
Original assignee: Dingtalk China Information Technology Co Ltd
Current assignee: Dingtalk China Information Technology Co Ltd
Priority date: 2022-03-22
Filing date: 2022-08-18
Publication date: 2022-12-23

Abstract

本申请公开了说话人定位方法，用于会议设备，该设备包括第一麦克风阵列、第二麦克风阵列、第三麦克风阵列和至少一个扬声器。此外还公开了语音处理方法。其中，说话人定位方法在本地会议设备播放远程会场的说话人声音时，根据离扬声器较远的麦克风采集的信号进行本地会场说话人定位，避免受到扬声器发出声音的影响；因此，可以有效提升说话人定位准确度。在远程会场没有人说话时，根据所有麦克风采集的信号进行本地会场说话人定位；因此，可以有效提升说话人定位的鲁棒性和精度。

Description

说话人定位方法、装置及设备

本申请要求在2022年3月22日提交中国专利局、申请号为2022102847233、发明名称为“说话人定位方法、装置及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音处理技术领域，具体涉及说话人定位方法和装置，语音处理方法和装置，会议终端。

背景技术

互联网技术带来人们通信工具的改变，基于云计算的音视频会议系统逐步普及。其中，音视频会议环境下的说话人定位一直都是研究的热点。

一种典型的说话人定位方法是无论远程会场是否有人说话，均基于相同的麦克风信息进行说话人定位处理。然而，在实现本发明过程中，发明人发现现有方案至少存在如下问题：一方面，在远程会场有人说话时，说话人定位会受到扬声器发出声音的影响，因此说话人定位准确度较低；另一方面，在远程会场没有人说话时，说话人定位的鲁棒性和精度有待提高。

发明内容

本申请提供说话人定位方法，以解决现有技术存在的说话人定位准确度较低的问题。本申请另外提供说话人定位装置，回声消除方法和装置，会议终端。

本申请提供一种说话人定位方法，用于会议设备，所述会议设备包括：第一麦克风阵列，第二麦克风阵列，第三麦克风阵列，至少一个扬声器；

所述方法包括：

通过第一麦克风阵列采集多路第一麦克风信号；通过第二麦克风阵列采集多路第二麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过扬声器获取回采参考信号；

根据所述回采参考信号，检测扬声器是否发出声音；

若检测到扬声器发出声音，则根据所述多路第三麦克风信号，获取水平角度的第一定位信息；根据所述多路第二麦克风信号，获取垂直角度的第二定位信息；

根据第一定位信息和第二定位信息，获取第一说话人位置信息。

可选的，还包括：

若未检测到扬声器发出声音，则根据所述多路第一麦克风信号和所述多路第三麦克风信号，获取水平角度的第三定位信息；根据所述多路第二麦克风信号，获取垂直角度的第二定位信息；

根据第三定位信息和第二定位信息，获取第二说话人位置信息。

可选的，所述会议设备还包括：至少一个摄像头；

所述方法还包括：

通过所述至少一个摄像头采集图像信号；

根据所述图像信号，获取说话人图像信息；

根据第一定位信息、第二定位信息和说话人图像信息，获取第一说话人位置信息。

可选的，所述第二麦克风阵列和所述第三麦克风阵列呈正交形态，且交叉位置共用一个麦克风。

可选的，所述第一麦克风阵列和所述第三麦克风阵列包括水平方向的线性阵列；

所述第二麦克风阵列包括垂直方向的线性阵列。

可选的，所述麦克风包括全向性麦克风。

可选的，所述麦克风采集远场的声源信号。

本申请还提供一种语音处理方法，用于会议设备，所述会议设备包括：第一麦克风阵列，第三麦克风阵列，至少一个第四麦克风，至少一个扬声器；

所述至少一个第四麦克风靠近所述至少一个扬声器阵列；

所述方法包括：

通过第一麦克风阵列采集多路第一麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过至少一个第四麦克风采集至少一路第四麦克风信号，作为声参考麦克风信号；以及，通过扬声器获取回采参考信号；

根据所述回采参考信号，检测扬声器是否发出声音；

若检测到扬声器发出声音，则根据所述多路第三麦克风信号、声参考麦克风信号和回采参考信号，获取回声消除信号。

可选的，还包括：

若未检测到扬声器发出声音，则根据所述多路第一麦克风信号和所述多路第三麦克风信号，获取声音信号。

可选的，所述第四麦克风包括低灵敏度的麦克风。

本申请还提供一种会议设备，包括：

第一麦克风阵列，第二麦克风阵列，第三麦克风阵列，至少一个扬声器；

处理器；以及存储器，用于存储实现根据上述说话人定位方法的程序，该终端通电并通过所述处理器运行该方法的程序。

可选的，所述会议设备还包括：至少一个摄像头。

本申请还提供一种会议设备，包括：

第一麦克风阵列，第三麦克风阵列，至少一个第四麦克风，至少一个扬声器；

处理器；以及

存储器，用于存储实现根据上述语音处理方法的程序，该终端通电并通过所述处理器运行该方法的程序。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的说话人定位方法，用于会议设备，该设备包括第一麦克风阵列、第二麦克风阵列、第三麦克风阵列和至少一个扬声器，该方法通过第一麦克风阵列采集多路第一麦克风信号；通过第二麦克风阵列采集多路第二麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过扬声器获取回采参考信号；根据所述回采参考信号，检测扬声器是否发出声音；若检测到扬声器发出声音，则根据所述多路第三麦克风信号，获取水平角度的第一定位信息；根据所述多路第二麦克风信号，获取垂直角度的第二定位信息；根据第一定位信息和第二定位信息，获取第一说话人位置信息。采用这种处理方式，使得在本地会议设备播放远程会场的说话人声音时，根据离扬声器较远的麦克风采集的信号进行本地会场说话人定位，避免受到扬声器发出声音的影响；因此，可以有效提升说话人定位准确度。在远程会场没有人说话时，根据所有麦克风采集的信号进行本地会场说话人定位；因此，可以有效提升说话人定位的鲁棒性和精度。

本申请实施例提供的语音处理方法，用于会议设备，该设备包括第一麦克风阵列、第三麦克风阵列、至少一个第四麦克风和至少一个扬声器，所述至少一个第四麦克风靠近所述至少一个扬声器阵列，该方法通过第一麦克风阵列采集多路第一麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过至少一个第四麦克风采集至少一路第四麦克风信号，作为声参考麦克风信号；以及，通过扬声器获取回采参考信号；根据所述回采参考信号，检测扬声器是否发出声音；若检测到扬声器发出声音，则根据所述多路第三麦克风信号、声参考麦克风信号和回采参考信号，获取回声消除信号。采用这种处理方式，使得在本地会议设备播放远程会场的说话人声音时，根据离扬声器较远的麦克风采集的信号进行回声消除处理，避免受到扬声器发出声音的影响；因此，可以有效提升回声消除效果。在远程会场没有人说话时，获取所有麦克风采集的信号；因此，可以有效提升声音采集的鲁棒性和精度。其中，利用传统回声消除中的电参考信号，再结合麦克风阵列波束形成和声参考麦克风，实现多参考的回声消除。采用这种处理方式，使得利用麦克风阵列对回声信号进行估计，不仅可以估计回声信号在传播过程中的线性部分，也可以估计非线性部分，这样可以利用麦克风阵列估计的回声信号作为新的参考信号，进行线性自适应滤波，这样就可以降低回声消除系统受到实际产品中非线性的影响，有效滤除回声信号中的非线性成分，从而提升回声消除效果。

附图说明

图1本申请提供的说话人定位方法的实施例的流程示意图；

图2本申请提供的说话人定位方法的实施例的设备结构示意图；

图3本申请提供的说话人定位方法的实施例的具体流程示意图；

图4本申请提供的语音处理方法的实施例的流程示意图；

图5本申请提供的语音处理方法的实施例的具体流程示意图；

图6本申请提供的语音处理方法的实施例的声音方向示意图；

图7本申请提供的语音处理方法的实施例的波束示意图；

图8本申请提供的语音处理方法的实施例的具体流程示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了说话人定位方法和装置，回声消除方法和装置，会议终端。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参看图1，其为本申请的说话人定位方法的实施例的流程示意图。在本实施例中，所述方法可包括如下步骤：

步骤S101：通过第一麦克风阵列采集多路第一麦克风信号；通过第二麦克风阵列采集多路第二麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过扬声器获取回采参考信号。

所述方法可应用在音视频会议系统中的会议终端设备的说话人定位场景。音视频会议系统是两个或两个以上不同地方的个人或群体，通过传输线路及会议终端等设备，将声音、影像及文件资料互传，实现即时且互动的沟通，以实现同时进行会议的系统设备，因此，音视频会议系统是一种典型的实时通信系统。

所述会议设备包括：第一麦克风阵列，第二麦克风阵列，第三麦克风阵列，至少一个扬声器。所述麦克风阵列可进行远端声源拾音。所述麦克风可以是全向性麦克风或者指向性麦克风。

所述回采参考信号，可以是扬声器的信号源，是来自远端会场的声音信号，可包括远端发言人的声音。部署在本地会场的本地会议终端通过通信网络，接收部署在远端会场的远端会议终端采集的声音信号，并通过本地会议终端的扬声器播放。

在一个示例中，所述会议设备还可包括：至少一个摄像头。如图2所示，其为一个音视频一体机，该音视频一体机包括扬声器阵列(至少一个扬声器)、用于水平方向声源定位的第一麦克风阵列(包括N个麦克风)、用于垂直方向声源定位的第二麦克风阵列(包括M个麦克风)、用于水平方向声源定位的第三麦克风阵列(包括P个麦克风)和摄像头阵列(至少一个摄像头)。

由图2可见，可在该设备的中心处放置一个由多个镜头组成的镜头群模组(即摄像头阵列)，用于音视频一体机的视频信息采集。放音系统则是位于摄像头一侧，可由多个全向扬声器组成的扬声器阵列。扬声器系统的下侧有一个水平的麦克风阵列模组(第一麦克风阵列)，由N个全向麦克风组成，可用于水平方向声源定位。

由图2可见，在摄像头模组的另外一侧，有一个垂直方向的麦克风阵列模组(第二麦克风阵列)，用于垂直方向的声源定位，数量由M个组成。与这个垂直方向的阵列正交的是一个水平方向的麦克风阵列模组(第三麦克风阵列)，此模组和垂直方向共用一颗麦克风，可以有P个全向麦克风组成。

可见，图2所示的拾音系统由一个麦克风阵列系统组成，此系统由三个麦克风阵列模组组成，每一个均可由全向麦克风组成。因此整个系统由M+N+P-1个正常全向麦克风组成，一个扬声器阵列模组，一个多镜头群的摄像模组。

步骤S103：根据所述回采参考信号，检测扬声器是否发出声音。

本地会议终端通过扬声器播放接收到的远端会场的声音信号(所述回采参考信号)，远端会场有时有人说话，有时无人说话，因此在所述回采参考信号中包括语音信号和非语音信号。本实施例通过语音活性检测(Voice activity detection，VAD)，探测所述回采参考信号中的空白。

步骤S105：若检测到扬声器发出声音，则根据所述多路第三麦克风信号，获取水平角度的第一定位信息；根据所述多路第二麦克风信号，获取垂直角度的第二定位信息。

根据水平角度的多个麦克风采集的多路第三麦克风信号，获取水平角度的第一定位信息，属于较为成熟的现有技术，此处不再赘述。

根据垂直角度的多个麦克风采集的多路第二麦克风信号，获取垂直角度的第二定位信息，属于较为成熟的现有技术，此处不再赘述。

步骤S107：根据第一定位信息和第二定位信息，获取第一说话人位置信息。

根据水平角度的第一定位信息和垂直角度的第二定位信息，获取第一说话人位置信息，属于较为成熟的现有技术，此处不再赘述。

在一个示例中，所述方法还可包括如下步骤：

步骤S201：若未检测到扬声器发出声音，则根据所述多路第一麦克风信号和所述多路第三麦克风信号，获取水平角度的第三定位信息；根据所述多路第二麦克风信号，获取垂直角度的第二定位信息。

步骤S203：根据第三定位信息和第二定位信息，获取第二说话人位置信息。

如图3所示，在一个示例中，基于如图2所示的会议设备，所述方法还可包括如下步骤：

步骤S301：通过所述至少一个摄像头采集图像信号。

步骤S303：根据所述图像信号，获取说话人图像信息。

根据所述图像信号，获取说话人图像信息(如人脸信息)，属于较为成熟的现有技术，此处不再赘述。

相应的，步骤S107可采用如下方式实现：根据第一定位信息、第二定位信息和说话人图像信息，获取第一说话人位置信息。

相应的，步骤S203可采用如下方式实现：根据第三定位信息、第二定位信息和说话人图像信息，获取第二说话人位置信息。

在一个示例中，在根据第一定位信息、第二定位信息，获取第一说话人位置信息之后，所述方法还可包括如下步骤：

步骤S401：根据说话人图像信息，判断说话人是否为真实的人；

步骤S403：若根据说话人图像识别到说话人是人，则放大说话人图像。

采用这种处理方式，可以将本地会场说话人的人脸图像作为辅助信息，这样即使说话人为本地会场的手机等设备发出的声音，也能够准确对该设备进行定位。如果根据说话人图像识别到说话人是人，而不是设备，可以给予说话人特写放大的镜头。

从上述实施例可见，本申请实施例提供的说话人定位方法，用于会议设备，该设备包括第一麦克风阵列、第二麦克风阵列、第三麦克风阵列和至少一个扬声器，该方法通过第一麦克风阵列采集多路第一麦克风信号；通过第二麦克风阵列采集多路第二麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过扬声器获取回采参考信号；根据所述回采参考信号，检测扬声器是否发出声音；若检测到扬声器发出声音，则根据所述多路第三麦克风信号，获取水平角度的第一定位信息；根据所述多路第二麦克风信号，获取垂直角度的第二定位信息；根据第一定位信息和第二定位信息，获取第一说话人位置信息。采用这种处理方式，使得在本地会议设备播放远程会场的说话人声音时，根据离扬声器较远的麦克风采集的信号进行本地会场说话人定位，避免受到扬声器发出声音的影响；因此，可以有效提升说话人定位准确度。在远程会场没有人说话时，根据所有麦克风采集的信号进行本地会场说话人定位；因此，可以有效提升说话人定位的鲁棒性和精度。

第二实施例

请参看图4，其为本申请的语音处理方法的实施例的流程示意图。在本实施例中，所述方法可包括如下步骤：

步骤S401：通过第一麦克风阵列采集多路第一麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过至少一个第四麦克风采集至少一路第四麦克风信号，作为声参考麦克风信号；以及，通过扬声器获取回采参考信号。

所述方法可应用在音视频会议系统中的会议终端设备的回声消除场景。音视频会议系统是两个或两个以上不同地方的个人或群体，通过传输线路及会议终端等设备，将声音、影像及文件资料互传，实现即时且互动的沟通，以实现同时进行会议的系统设备，因此，音视频会议系统是一种典型的实时通信系统。

所述会议设备包括：第一麦克风阵列，第三麦克风阵列，至少一个第四麦克风，至少一个扬声器,所述至少一个第四麦克风靠近所述至少一个扬声器阵列。所述麦克风阵列可进行远端声源拾音。所述麦克风可以是全向性麦克风或者指向性麦克风。

在一个示例中，所述会议设备还可包括：至少一个摄像头。如图2所示，其为一个音视频一体机，该音视频一体机包括扬声器阵列(至少一个扬声器)、用于水平方向声源定位的第一麦克风阵列(包括N个麦克风)、用于垂直方向声源定位的第二麦克风阵列(包括M个麦克风)、用于水平方向声源定位的第三麦克风阵列(包括P个麦克风)、至少一个第四麦克风和摄像头阵列(至少一个摄像头)。

由图2可见，放音系统则是位于摄像头一侧，由多个全向扬声器组成的扬声器阵列，可在扬声器阵列模组中心靠近某扬声器的位置，放置一个低灵敏度的声参考麦克风，由于低灵敏度，此麦克风能够记录扬声器的工作状态且不被扬声器震破音。

由图2可见，在摄像头模组的另外一侧，拾音系统则由一个麦克风阵列系统组成，此系统由三个麦克风阵列模组组成，每一个均可由全向麦克风组成。一个垂直方向的麦克风阵列模组，用于垂直方向的声源定位，数量由M个组成。与这个垂直方向的阵列正交的是一个水平方向的麦克风阵列模组，此模组和垂直方向共用一颗麦克风，可以有P个全向麦克风组成。因此整个系统由M+N+P-1个正常全向麦克风组成，一颗或多颗低灵敏度的声参考麦克风组成，一个扬声器阵列模组，一个多镜头群的摄像模组。

一般而言，一个音频通信设备会有麦克风阵列作为拾音单元和喇叭作为放音单元，此类音频通信设备在实际应用中，会遇到回声消除问题。在本实施例中，音视频一体机会有数量为P的全向性麦克风排列成线性阵列作为拾音单元。针对图2给出的音视频一体机，喇叭声源会在第三麦克风阵列的一侧，在喇叭旁边还包括一个麦克风，本实施例将该麦克风称为声参考麦克风。第三麦克风阵列的每一个麦克风单元都会同时拾取近端声源的声音和喇叭的声音，对于一个通信系统来说，设备最终接受并且传输的信号只希望是本地声源的语音，被第三麦克风阵列接收到的喇叭信号，被称之为声学回声，是需要被消除掉，而不被通信系统传送到远端，有效地消除这个声学回声对于任何一个通信设备都至关重要。具体实施时，麦克风阵列是利用多颗麦克风排列成线性、环形、球形等阵列形态同时进行声音采集。具体实施时，第三麦克风阵列进行近端声源拾音，可以进一步在一定程度抑制回声。具体实施时，可以是全向性麦克风或者指向性麦克风。

步骤S403：根据所述回采参考信号，检测扬声器是否发出声音。

步骤S405：若检测到扬声器发出声音，则根据所述多路第三麦克风信号、声参考麦克风信号和回采参考信号，获取回声消除信号。

所述第三麦克风信号包括声源信号和回声信号。

如图5所示，在本实施例中，所述方法还可包括如下步骤：

步骤S501：若未检测到扬声器发出声音，则根据所述多路第一麦克风信号和所述多路第三麦克风信号，获取声音信号。

在本实施例中，步骤S405可包括如下子步骤：

步骤S601：通过指向扬声器的第一波束形成算法，增强所述回声信号并抑制所述声源信号，以获得第一声音信号，所述第一声音信号包括线性回声信号和非线性回声信号。

本申请实施例提供的方法，其核心思路需要利用第三麦克风阵列得到指向扬声器的波束成形。波束成形算法(beamformingalgorithm)就是基于麦克风阵列实现的一种空间滤波算法(spatialfilteralgorithm)，所谓空间滤波就是设定一个目标方向，目标方向范围内的信号会被拾取，而目标方向范围外的信号就会被抑制。由此基于波束成形算法，麦克风阵列可以实现特定方向范围的拾音，而特定方向之外的声音会被抑制。

如图6所示，近端声源一般会在线性麦克风阵列的侧边方向(broadside)，可定义为90度或者270度，喇叭声源会在线性麦克风阵列的端射方向(end-fire)，可定义为0度。在本实施例中，音视频通信一体机应用设备会有数量为M的全向性麦克风排列成线性阵列作为拾音单元，另外一个麦克风作为声参考麦克风，位于扬声器单元的附近，由于麦克风距离扬声器较近，假如扬声器声音过大，此时声参考麦克风接收的声音声压会超过一般的麦克风正常工作允许的上限，因此可选用较低灵敏度的麦克风作为声参考麦克风。

对于指向扬声器的波束成形将与上述波束对应出现，3D波束图示例如图7所示，对于来自扬声器的声音会拾取，对于指向说话人波束成形算法拾音方向会进行抑制。

具体实施时，设计指向说话人的波束形成或者指向扬声器的波束成形可以基于不同的理论，比如差分波束成形理论，超指向波束成形理论等，不限于上述某一种。

具体实施时，所述方法还可包括如下步骤：将所述多路麦克风信号转换为时频域声音信号。

针对数量为M的麦克风输入，将麦克风信号基于傅里叶变换变换到时频域如下：

其中，[]^T是线性代数转置的运算，ω表示当前所对应的频域子带，n表示时间帧标识。此麦克风阵列信号中主要由来自近端声源信号

和来自喇叭声学回声信号

组成，如下式表示：

以上公式进一步表示为：

其中，s(ω，n)表示近端声源在发声点的信号，

表示近端声源发声点和麦克风阵列之间的声学传播函数；u(ω，n)表示喇叭发声点的信号，

表示喇叭声源发声点和麦克风阵列之间的声学传播函数。

需要强调的是，本申请提供的方法利用端射方向波束成形进行处理之后的z_endfire(ω，n)之中不仅仅包含了喇叭里面线性播放信号，还包含了喇叭播放过程中的非线性成分，因此后续将以此作为回声消除系统之中的参考信号。

步骤S603：根据所述第一声音信号、所述声参考麦克风信号、所述回采参考信号和所述第三麦克风信号，执行线性自适应滤波处理，以得到回声消除信号。

利用所述第三麦克风阵列采集的多路第三麦克风信号、第一声音信号z_endfire(ω，n)、电路回采电参考信号(e_ref)和声参考麦克风声参考信号(m_ref)进行自适应滤波处理得到回声消除信号。所述自适应滤波算法，包括但不限于：归一化最小均方差(normalizedleast mean square：NLMS)，迭代式最小二乘(Recursive least square：RLS)等算法。

在一个示例中，所述方法还可包括如下步骤：

步骤S701：通过指向目标声源的第二波束形成算法，抑制所述回声信号并增强所述声源信号，以获得第二声音信号。

这种实施方式的核心思路需要利用第三麦克风阵列得到指向扬声器(端侧方向)的波束成形和指向说话人(侧边方向)的波束形成。如图6所示，一种指向侧边方向波束形成的3D波束图示例，可以看出，对于说话人声源声音会拾取，对于回声声音会进行抑制。

利用环形麦克风阵列进行两个方向的波束成形设计，一个波束成形(第一波束形成算法)的拾音方向可以设置为指向阵列内部扬声器，另外一个波束成形(第二波束形成算法)的拾音方向可以设置为指向环形阵列外侧说话人。指向环形阵列外侧说话人的波束成形会将阵列端射方向来的信号作为干扰噪音进行抑制，而主要针对近端声源进行拾音；指向阵列内部扬声器的波束成形会将阵列外侧近端说话人的信号作为干扰噪音进行抑制，而主要针对端射的喇叭声源进行拾音。

利用线性麦克风阵列进行两个方向的波束成形设计，一个波束成形(第二波束形成算法)的拾音方向可以设置为侧边方向，另外一个波束成形(第一波束形成算法)的拾音方向可以设置为端射方向。侧边方向的波束成形会将阵列端射方向来的信号作为干扰噪音进行抑制，而主要针对近端声源进行拾音；端射方向的波束成形会将阵列侧边方向来的信号作为干扰噪音进行抑制，而主要针对端射的喇叭声源进行拾音。

在本实施例中，指向扬声器的第一波束形成算法(端射方向波束形成算法)会在频域子带算出一个复数权重向量如下表示：

其中，每个麦克风对应一个复数权重，多个麦克风的复数权重形成复数权重向量。

指向说话人的第二波束形成算法(侧边方向波束形成算法)会在频域子带算出一个复数权重向量如下表示：

为了更好地描述本申请实施例提供的方法，如图2所示，下面以16颗麦克风组成的直径为等间距线性麦克风为例，每颗麦克风的距离为2厘米，作为一个示例进行分析和说明。

一般来说，语音最重要的频带为1khz，将其作为本实施例分析示例频带，为了分析和阐述方便，本实施例约定端射方向为0度方向，约定侧边方向为90度方向，由于线性阵列的形态，显而易见，270度方向也是侧边方向，基于波束成形的波束图对本申请提出的波束成形特点进行描述。一般来说，波束图描述了波束成形算法会在空间各个方向的响应，例如，0db表示波束成形的响应为1，就是信号被不失真拾取，-10db表示波束会将信号抑制10db。

波束成形的方法可以基于不同的理论，比如差分波束成形理论，超指向波束成形理论等，不限于上述某一种，本实施例基于差分波束成形(differentialbeamforming)算法原理为例，可以在端射方向和侧边方向分别设计如图4所对应的波束成形算法。由图4可以看出，端射方向的波束成形可以对端射方向(0度)的信号进行理论上不失真拾取，而对侧边方向的信号进行最大程度的抑制；侧边方向的波束成形可以对端射方向的信号进行最大程度抑制，而对侧边方向信号进行不失真拾取。

基于上述思想，在自由场(anechoic field)和声学平行波传输的理论假设下，端射方向的波束成形(第一波束形成算法)和近端声源方向的传递函数以及喇叭方向的传递函数得到以下关系：

同时侧边方向的波束成形(第二波束形成算法)和近端声源方向的传递函数以及喇叭方向的传递函数得到以下关系：

如图8所示，对麦克风阵列输入信号基于如下公式进行端射方向波束成形处理之后输出如下：

该公式表示：抑制说话人声源方向后的第一声音信号(z_endfire(ω，n))为时频域的多路麦克风信号

)与第一波束形成算法(波束形成函数)的乘积。其中，

表示第一波束形成算法。

基于上述分析，端射方向在自由场和平行波理论上可以得到下面关系：

z_inner(ω，n)＝u(ω，n)

该公式表示：抑制说话人声源方向后的第一声音信号为喇叭发声点的信号。

但在实际环境中，由于自由场的假设不再满足，

这一个关系不再成立，但是

的结果也将是一个比较小的值，尤其是在实施例的应用场景中，一般喇叭由于空间距离麦克风更近，距离越近经过声学传播之后信号能量能够保存更多，由此即使不是平行波和自由场的理论假设，以下条件依旧成立：

该公式可表示：通过第一波束成形处理后的扬声器方向信号远远大于说话人声源方向的信号。

因此在实际环境中，对于端射方向波束成形的输出，可以得到如下关系：

z_endfire(ω，n)≈u(ω，n)

该公式可表示：通过第一声音信号约等于扬声器方向信号。

对麦克风阵列输入信号基于如下公式进行侧边方向波束成形处理之后输出如下：

该公式表示：抑制扬声器方向信号并增强声源信号后的第二声音信号为时频域的多路麦克风信号与第二波束形成算法(第二波束形成函数)的乘积。其中，

表示第二波束形成算法。

基于上述分析，在自由场和平行波理论上可以得到下面关系

z_broadside(ω，n)＝s(ω，n)

该公式表示：抑制扬声器方向信号后的第二声音信号为近端声源在发声点的信号。

在一个示例中，步骤S701可包括如下子步骤：1)根据扬声器和麦克风阵列之间的声学传播函数和所述第二波束形成算法在频域算出的各麦克风权重向量，确定抑制系数；2)根据所述抑制系数，获取抑制后回声信号；3)将所述抑制后回声信号与所述声源信号的之和作为所述第二声音信号。

在实际环境中，由于自由场的假设不再满足，

这一个关系不再成立，且喇叭距离麦克风位置较近，喇叭发声点的信号传播到麦克风之后能量依旧很大，所以侧边方向波束形成算法处理，只能将喇叭发声的回声信号进行一定抑制，因此，本申请实施例提供的方法给出以下条件

β＜1，进一步给出一下关系：

z_broadside(ω，n)≈s(ω，n)+β*u(ω，n)

该公式可表示：通过第二波束成形处理后的第二声音信号约等于近端声源在发声点的信号与一定程度抑制后的扬声器方向信号之和。

在这种实施方式中，步骤S105可采用如下方式实现：根据所述第一声音信号、所述第二声音信号、所述声参考麦克风信号和所述回采参考信号，执行线性自适应滤波处理，以得到回声消除信号。

如图8所示，基于上述信号模型的分析，利用第二声音信号z_broadside(ω，n)、第一声音信号z_endfire(ω，n)、电路回采电参考信号(e_ref)和声参考麦克风声参考信号(m_ref)进行自适应滤波处理得到回声消除信号output1(ω，n)。下面以业界常用的归一化最小均方差(NLMS)为例进行说明，回声消除信号(output1)可按如下公式计算：

其中，

为tap长度是N的NLMS自适应滤波器，

为当前时间帧数据z_mix(ω，n)和之前N-1帧历史时间帧数据[z_mix(ω，n-1)，…，z_mix(ω，n-N+1)]；NLMS自适应滤波器

可由如下公式求得：

其中，μ为自适应滤波步长。此步长的大小，基于NLMS滤波器特点，一般在只有喇叭发声的时候，设置一个固定参数，比如μ＝0.1。在喇叭和近端声源同时发声时，μ＝0。

为了得到z_mix(ω，n)，在图8的融合器中，将阵列参考信号z_endfire(ω，n)、电路回采电参考信号(e_ref)和声参考麦克风声参考信号(m_ref)进行融合得到融合信号z_mix(ω，n)，融合的方法示例如下(但不限于这一种方法)：

z_mix(ω，n)＝α*z_endfire(ω，n)+β*m_ref(ω，n)+ρ*e_ref

其中，α或者β或者ρ都可以是固定的常数，可以为零表示某参考不使用。

需要说明的是，具体实施时也可采用如下公式确定回声消除信号：

也即，可以不对说话人方向的信号进行波束成形处理。

从上述实施例可见，本申请实施例提供的语音处理方法，用于会议设备，该设备包括第一麦克风阵列、第三麦克风阵列、至少一个第四麦克风和至少一个扬声器，所述至少一个第四麦克风靠近所述至少一个扬声器阵列，该方法通过第一麦克风阵列采集多路第一麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过至少一个第四麦克风采集至少一路第四麦克风信号，作为声参考麦克风信号；以及，通过扬声器获取回采参考信号；根据所述回采参考信号，检测扬声器是否发出声音；若检测到扬声器发出声音，则根据所述多路第三麦克风信号、声参考麦克风信号和回采参考信号，获取回声消除信号。采用这种处理方式，使得在本地会议设备播放远程会场的说话人声音时，根据离扬声器较远的麦克风采集的信号进行回声消除处理，避免受到扬声器发出声音的影响；因此，可以有效提升回声消除效果。在远程会场没有人说话时，获取所有麦克风采集的信号；因此，可以有效提升声音采集的鲁棒性和精度。其中，利用传统回声消除中的电参考信号，再结合麦克风阵列波束形成和声参考麦克风，实现多参考的回声消除。采用这种处理方式，使得利用麦克风阵列对回声信号进行估计，不仅可以估计回声信号在传播过程中的线性部分，也可以估计非线性部分，这样可以利用麦克风阵列估计的回声信号作为新的参考信号，进行线性自适应滤波，这样就可以降低回声消除系统受到实际产品中非线性的影响，有效滤除回声信号中的非线性成分，从而提升回声消除效果。

第三实施例

在上述的实施例中，提供了一种语音处理方法，与之相对应的，本申请还提供一种语音处理装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音处理装置，用于会议设备，所述会议设备包括：第一麦克风阵列，第三麦克风阵列，至少一个第四麦克风，至少一个扬声器；所述至少一个第四麦克风靠近所述至少一个扬声器阵列。

所述装置包括：

信号采集单元，用于通过第一麦克风阵列采集多路第一麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过至少一个第四麦克风采集至少一路第四麦克风信号，作为声参考麦克风信号；以及，通过扬声器获取回采参考信号；

VAD单元，用于根据所述回采参考信号，检测扬声器是否发出声音；

第一信号处理单元，用于若检测到扬声器发出声音，则根据所述多路第三麦克风信号、声参考麦克风信号和回采参考信号，获取回声消除信号。

可选的，所述装置还可包括：第二信号处理单元，用于若未检测到扬声器发出声音，则根据所述多路第一麦克风信号和所述多路第三麦克风信号，获取声音信号。

第四实施例

在上述的实施例中，提供了一种说话人定位方法，与之相对应的，本申请还提供一种说话人定位装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种说话人定位装置，用于会议设备，所述会议设备包括：第一麦克风阵列，第二麦克风阵列，第三麦克风阵列，至少一个扬声器。

所述装置包括：

信号采集单元，用于通过第一麦克风阵列采集多路第一麦克风信号；通过第二麦克风阵列采集多路第二麦克风信号；通过第三麦克风阵列采集多路第三麦克风信号；以及，通过扬声器获取回采参考信号；

第一定位单元，用于若检测到扬声器发出声音，则根据所述多路第三麦克风信号，获取水平角度的第一定位信息；根据所述多路第二麦克风信号，获取垂直角度的第二定位信息；

第二定位单元，用于根据第一定位信息和第二定位信息，获取第一说话人位置信息。

可选的，所述装置还可包括：

第三定位单元，用于若未检测到扬声器发出声音，则根据所述多路第一麦克风信号和所述多路第三麦克风信号，获取水平角度的第三定位信息；根据所述多路第二麦克风信号，获取垂直角度的第二定位信息；

第四定位单元，用于根据第三定位信息和第二定位信息，获取第二说话人位置信息。

第五实施例

在上述的实施例中，提供了一种说话人定位方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种电子设备，包括：第一麦克风阵列、第二麦克风阵列、第三麦克风阵列和至少一个扬声器；处理器；以及存储器。其中，存储器用于存储实现上述说话人定位方法的程序，该终端通电并通过所述处理器运行该方法的程序。

所述电子设备，可以是音视频会议终端，也可以是拾音设备。

在一个示例中，所述会议设备还可包括：至少一个摄像头。

第六实施例

在上述的实施例中，提供了一种语音处理方法，与之相对应的，本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种电子设备，包括：第一麦克风阵列，第三麦克风阵列，至少一个第四麦克风，至少一个扬声器；处理器；以及存储器。其中，存储器用于存储实现上述语音处理方法的程序，该终端通电并通过所述处理器运行该方法的程序。

在一个示例中，所述会议设备还可包括：至少一个摄像头。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种说话人定位方法，用于会议设备，其特征在于，

所述会议设备包括：第一麦克风阵列，第二麦克风阵列，第三麦克风阵列，至少一个扬声器；

所述方法包括：

根据所述回采参考信号，检测扬声器是否发出声音；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，

所述会议设备还包括：至少一个摄像头；

所述方法还包括：

通过所述至少一个摄像头采集图像信号；

根据所述图像信号，获取说话人图像信息；

4.根据权利要求1至3任一项所述的方法，其特征在于，

所述第二麦克风阵列和所述第三麦克风阵列呈正交形态，且交叉位置共用一个麦克风。

5.根据权利要求1至3任一项所述的方法，其特征在于，

所述第一麦克风阵列和所述第三麦克风阵列包括水平方向的线性阵列；

所述第二麦克风阵列包括垂直方向的线性阵列。

6.根据权利要求1至3任一项所述的方法，其特征在于，所述麦克风包括全向性麦克风。

7.根据权利要求1至3任一项所述的方法，其特征在于，所述麦克风采集远场的声源信号。

8.一种语音处理方法，用于会议设备，其特征在于，

所述会议设备包括：第一麦克风阵列，第三麦克风阵列，至少一个第四麦克风，至少一个扬声器；

所述至少一个第四麦克风靠近所述至少一个扬声器阵列；

所述方法包括：

根据所述回采参考信号，检测扬声器是否发出声音；

9.根据权利要求8所述的方法，其特征在于，还包括：

10.根据权利要求8至9任一项所述的方法，其特征在于，所述第四麦克风包括低灵敏度的麦克风。

11.一种会议设备，其特征在于，

处理器；以及存储器，用于存储实现根据权利要求1-7任一项所述方法的程序，该终端通电并通过所述处理器运行该方法的程序。

12.根据权利要求11所述的设备，其特征在于，所述会议设备还包括：至少一个摄像头。

13.一种会议设备，其特征在于，包括：

处理器；以及

存储器，用于存储实现根据权利要求8-10任一项所述方法的程序，该终端通电并通过所述处理器运行该方法的程序。