CN111551921A

CN111551921A - 一种声像联动的声源定向系统及方法

Info

Publication number: CN111551921A
Application number: CN202010425113.1A
Authority: CN
Inventors: 陈龙; 张�浩; 王荔; 李虎; 雷鸣; 卞飞; 张小博
Original assignee: Beijing Zhongdian Huisheng Technology Co ltd
Current assignee: Beijing Zhongdian Huisheng Technology Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-08-18

Abstract

本发明公开了一种声像联动的声源定向系统，包括麦克风阵列采集声源处的音频信号；信号处理模块根据所述音频信号对声源的方向进行计算以获得声源的方向估计角度；摄像装置根据所述方向估计角度旋转并采集声源处的视频图像；信号处理模块对所述视频图像进行检测以获得视频检测结果，并根据所述视频检测结果和方向估计角度确定声源的定向角度。本发明还公开了一种声像联动的声源定向方法。本发明通过声像联动的方式可实现准确、高效的说话人定向功能，应用场景包括多人会议等其他需要对声源进行定向的场景，该声像联动的声源定向系统可作为会议自动转写系统、会议分角色记录系统、会议视频录制和转播系统的组成部分或辅助工具。

Description

一种声像联动的声源定向系统及方法

技术领域

本发明属于声学定向技术领域,具体涉及一种声像联动的声源定向系统及方法。

背景技术

在多人会议等场景下，一些自动化装置或工具能够正常工作或较好地工作的前提是需要确定说话人的具体方向。例如在会议记录系统中，参加会议的人员可能在不同的时间段发言，会议记录系统需要将话筒采集到的语音转换成文字形式的会议发言记录，同时需要通过摄像装置记录说话人的发言视频。

现有技术中的会议记录系统存在以下技术问题：

(1)说话人角色区分不够准确

由于参会人员的座位是固定的，因此，通常会议转写系统依靠语音输入话筒的编号对说话人角色进行区分。但由于参会人员在发言过程中可能会转动头部，这经常会导致说话人的语音到达旁边话筒的声压级比到达自己所用的话筒的声压级还要大，从而引起角色区分不准确的问题。参见图1，图1为现有技术中的会议转写系统的应用现场俯视图，第一说话人在讲话过程中头部旋转，使得脸部正对第二话筒，因此语音到达第二话筒的声压级比到达第一话筒的要大。这样，会议转写系统则将第一说话人的发言内容错误地记录成第二说话人的发言内容。

(2)会议摄像不够准确

在会议过程中，经常需要对说话人的发言过程进行视频摄像，目前的摄像方法通常是采集会场的全景图像或人为地调整摄像的角度，然而这样的摄像方法智能化水平有限，无法满足人们对会议记录系统的需求。

对于上述问题，有研究人员提出了许多解决方法。例如，现有技术中的一种语音定位方法，需要发言者在正式发言之前说出关键字语音，即通常情况下的语音唤醒，通过关键字语音来区分说话人的角色。但这种语音定位方法不够简便，在实际应用中无法保证使用者每次发言之前都记得先说出关键字；另外这种语音定位方法没有解决说话人转头的问题。

还有一种声源定位的方法或摄像装置，虽然能够利用声源定位的方法确定说话人的位置从而调节视频采集的方向，但在现实应用中，会议现场的噪声，尤其是非稳定噪声(如其他人咳嗽、走路、放置杯子等噪声)会对声源定位的结果造成影响，从而降低了声源定位的准确性。

发明内容

本发明实施例提供一种声像联动的声源定向系统及方法及，以至少解决现有技术中的一个技术问题。

第一方面，本发明实施例提供一种声像联动的声源定向系统，包括麦克风阵列、信号处理模块和摄像装置；其中，

所述麦克风阵列采集声源处的音频信号；

所述信号处理模块根据所述音频信号对声源的方向进行计算以获得声源的方向估计角度；

所述摄像装置根据所述方向估计角度旋转并采集声源处的视频图像；

所述信号处理模块对所述视频图像进行检测以获得视频检测结果，并根据所述视频检测结果和方向估计角度确定声源的定向角度。

进一步的，所述信号处理模块还根据所述定向角度确定声源的定向角度范围。

进一步的，所述麦克风阵列为具有360°指向性的圆形阵。

进一步的，所述信号处理模块利用声源定向算法根据所述音频信号对声源的方向进行计算，以获得所述方向估计角度。

进一步的，所述声源定向算法为ARMA谱分析法、最大似然法、熵谱分析法、特征分解法或MUSIC算法。

进一步的，所述信号处理模块还用于执行以下操作：

利用视觉分析算法对视频图像进行人脸检测以判断摄像装置的当前视野内是否存在人脸，若存在人脸，则进一步判断人脸区域内是否存在唇动，若当前视野内存在唇动，则对声源的位置角度进行计算以确定声源的定向角度；若不存在人脸或不存在唇动，则该声源定向系统继续对声源定向操作。

进一步的，所述摄像装置还根据声源的定向角度旋转以对人脸进行位置跟踪，直至在预设的时间段内检测不到唇动为止。

进一步的，所述视频检测结果包括视野中分线与人脸中分线之间的水平距离、视野范围的水平跨度和摄像头的视场角范围；其中，

所述信号处理模块根据所述视野中分线与人脸中分线之间的水平距离、视野范围的水平跨度和摄像头的视场角范围计算出视野中分线和人脸中分线的角度差值；

摄像装置根据所述角度差值进行旋转使人脸中分线与视野中分线重合；

信号处理模块利用视觉分析算法并根据所述角度差值确定所述声源的定向角度。

第二方面，本发明实施例提供一种声像联动的声源定向方法,包括以下步骤：

获取声源处的音频信号；

根据所述音频信号对声源的方向进行计算以获得声源的方向估计角度；

根据所述方向估计角度旋转摄像装置并采集声源处的视频图像；

对所述视频图像进行检测以获得视频检测结果，并根据所述视频检测结果和方向估计角度确定声源的定向角度。

进一步的，根据所述定向角度确定声源的定向角度范围。

本发明的一种声像联动的声源定向系统及方法通过声像联动的方式可实现准确、高效的说话人定向功能，应用场景包括多人会议等其他需要对声源(例如：人声)进行定向的场景，该声像联动的声源定向系统可作为会议自动转写系统、会议分角色记录系统、会议视频录制和转播系统的组成部分或辅助工具。

附图说明

图1为现有技术中的会议转写系统的应用现场俯视图；

图2为本发明实施例提供的一种声像联动的声源定向系统的结构示意图；

图3为本发明实施例提供的一种7个麦克风组成的圆形阵麦克风阵列的结构示意图；

图4为本发明实施例提供的一种13个麦克风组成的圆形阵麦克风阵列的结构示意图；

图5为本发明实施例提供的一种声像联动的声源定向系统的工作过程示意图；

图6(a)为本发明实施例提供的一种视频检测结果的示意图；

图6(b)为本发明实施例提供的一种说话人的定向角度示意图；

图7为本发明实施例提供的一种声像联动的声源定向系统在会议室场景下的定向角度范围示意图；

图8为本发明实施例提供的一种声像联动的声源定向方法的流程示意图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

由于人类具备声像联动的感知功能，其中，听觉系统能够全方位的检测周围环境，一旦出现刺激信号，视觉系统会随之进行定位，并根据看到的图像分析当前视野内是否有刺激信号的来源。例如，当听到有人喊自己名字的时候，人们会转向声音发出的方向，之后用眼睛寻找声音的来源。本实施例受上述人类感知功能特点的启发，公开了一种声像联动的声源定向系统及方法，可应用于多种场景，包括但不限于多人会议记录场景等。

实施例一

参见图2，图2为本发明实施例提供的一种声像联动的声源定向系统的结果示意图，包括麦克风阵列、信号处理模块和摄像装置；其中，

所述麦克风阵列采集声源处的音频信号；

进一步的，信号处理模块还根据所述声源的定向角度确定声源的定向角度范围。

下面将具体描述本实施例的声像联动的声源定向系统的工作过程，下面将说话人设为声源，以摄像头为例来说明摄像装置的工作过程。

一、麦克风阵列采集说话人的音频信号

本实施例中的麦克风阵列是指具有一定数量的声学传感器(麦克风)按照一定的规律排列组成的声音拾取装置，一般可以分为线阵、环形阵、圆形阵等类型；

优选的，所述麦克风阵列为具有360°指向性的圆形阵，参见图3和4，图3、4分别为本发明实施例提供的一种7、13麦圆形阵的结构示意图；可以理解的是，在其他实施例中，麦克风的数量可根据实际应用场景的需要布设。

在所述声源定向系统的工作过程中，麦克风阵列一直处于声音拾取状态，且按照预设的时间间隔将多路音频信号传送至信号处理模块，信号处理模块用于对声源的音频信号进行定向。需要说明的是，麦克风阵列中的麦克风仅用于定向，与说话人的发言内容的无关。

二、计算说话人的方向估计角度

本实施例中的麦克风阵列将采集到的说话人的多路音频信号发送至信号处理模块后，该信号处理模块可以利用声源定向算法进行计算，以获得所述说话人的方向估计角度；

进一步的，所述声源定向算法为ARMA谱分析法、最大似然法、熵谱分析法、特征分解法或MUSIC(MultipleSignalClassification，多信号分类算法)算法等。

其中，所述MUSIC算法是一种基于子空间分解的算法，它利用信号子空间和噪声子空间的正交性来构建空间谱函数，并通过谱峰搜索估计出声源处的多路音频信号的参数。

本实施例利用MUSIC算法对说话人的音频信号进行方向角度计算，以获得说话人的方向估计角度θ_S，该方向估计角度θ_S用于对摄像装置的方向进行调整，从而摄像装置将采集的视频图像实时地传送至信号处理模块。

由于MUSIC算法为本领域内的常规声源定向计算方法，具体原理和计算方法此处不再赘述。

信号处理模块获得说话人的方向估计角度θ_S可用于辅助该声源定向系统的语音转写功能，可解决因说话人人转头导致的依靠话筒区分角色不准确的问题，具有高效、稳定、不易受噪声干扰等优点。

由于通过上述声源定向算法获得的方向估计角度确定出的说话人方向不精确，而且说话人还会受到来自非说话人的噪声影响，因此还需要根据摄像头采集的视频图像处理后的视频检测结果进行联动，以确定说话人的定向角度。

三、摄像头采集说话人的视频图像

除了麦克风阵列采集说话人的音频信号外，摄像头所采集的视频或图像数据也能从另一角度反映说话人的方向。摄像头的采集范围可为360°以对说话人的视频图像进行采集。

本实施例的摄像头根据所述方向估计角度旋转并采集说话人的视频图像，将所述视频图像发送至信号处理模块，该信号处理模块利用视觉分析算法来进一步确定说话人的定向角度角度，从而使最终确定的说话人的方向角度更为准确。

具体的，参见图5，摄像头根据所述方向估计角度旋转并采集声源处的视频图像，将所述视频图像反馈至信号处理模块，该信号处理模块首先利用视觉分析算法对视频图像进行人脸检测以判断摄像头的当前视野内是否存在人脸，若存在人脸，则进一步判断人脸区域内是否存在唇动；若不存在人脸，则该声源定向系统继续对声源定向操作即摄像装置根据方向估计角度重新旋转并采集新的视频图像；

若当前视野内存在唇动，从而获得视频检测结果，根据则视频检测结果确定说话人的定向角度；其中，所述视频检测结果包括视野中分线与人脸中分线之间的水平距离、视野范围的水平跨度和摄像头的视场角范围；进一步的，摄像头还根据说话人的定向角度旋转以对人脸进行位置跟踪，直至在预设的时间段检测不到唇动为止；

若不存在唇动，则该声源定向系统继续对声源定向操作，即摄像装置根据方向估计角度重新旋转并采集新的视频图像。

四、计算说话人的定向角度

参见图6(a)和6(b)，所述信号处理模块根据视野中分线与人脸中分线之间的水平距离、视野范围的水平跨度和摄像头的视场角范围计算出视野中分线和人脸中分线的角度差值Δθ_I，Δθ_I表示的是使摄像头正对说话人脸部所需偏转的角度，计算公式如下：

其中，Δθ_I为视野中分线和人脸中分线的角度差值；d为视野中分线与人脸中分线之间的水平距离；L为视野范围的水平跨度；Ω为摄像头的视场角范围在实际应用中，d和L均可以利用视频图像的像素值来表示；

摄像头再根据该视野中分线和人脸中分线的角度差值Δθ_I进行旋转使人脸中分线与视野中分线重合；信号处理模块利用视觉分析算法并根据角度差值确定说话人的定向角度θ_I，计算公式如下：

θ_I＝θ_S+Δθ_I (2)

其中，θ_I为说话人的定向角度；θ_S为说话人的方向估计角度；Δθ_I为视野中分线和人脸中分线的角度差值。

由于说话人在讲话过程中人脸在摄像头视野中的位置可能发生变化，因此本实施例中的声源定向系统以预设的时间段按上式(1)旋转以调整摄像头的方向，通过调整，一方面可以使说话人始终处于摄像头视野的中心位置，有利于采集视频图像；另一方面说话人的定向角度θ_I也可用于对说话人定位角度范围的约束，避免说话人在讲话期间其他方向的噪声对声源定向功能的干扰。

五、确定说话人的定向角度的移动范围

本实例中的声像联动的声源定向系统对所述说话人的定向角度θ_I更新，在更新过程中，定向角度θ_I也被用于约束说话人的定向角度的移动范围。

参见图7，图7为本发明实施例提供的一种声像联动的声源定向系统在会议室场景下的定向角度范围示意图；定向角度的θ_I的取值在不断更新，这时声源定向系统的声源定向功能则不再以360°全向作为检测范围，而是将检测范围限定在[θ_I-σ，θ_I+σ]内，其中σ为根据使用场景事先设定的角度阈值，因此[θ_I-σ，θ_I+σ]的物理意义是说话人在发言过程中的可能的移动角度范围，通过限定说话人的定向角度的移动范围，可有效避免[θ_I-σ，θ_I+σ]范围以外的噪声对声源定向系统的声源定向结果的干扰，使该声源定向系统更加稳定。

需要说明的是，说话人的定向角度的移动范围一直持续到人脸、唇动均无检测结果，即当前说话人发言完毕，信号处理模块利用视觉分析算法会再次以摄像头的360°作为视频图像的检测范围，直至再次确定新的说话人的定向角度。

因此，通过对说话人的视频图像进行跟踪，能够使说话人处于摄像头的视场角范围的中心位置，能够在说话人位置移动的情况下实现自动跟踪，并且能够根据说话人的发声顺序自动切换镜头。

实施例二

参见图8，图8为本发明实施例提供的一种声像联动的声源定向方法的流程示意图,该声源定向方法包括以下步骤：

S100：获取声源处的音频信号；

S200：根据所述音频信号对声源的方向进行计算以获得声源的方向估计角度；

S300：根据所述方向估计角度旋转摄像装置并采集声源处的视频图像；

S400：对所述视频图像进行检测以获得视频检测结果，并根据所述视频检测结果和方向估计角度确定声源的定向角度。

进一步的，所述声源定向方法还包括以下步骤S500：根据所述声源的定向角度确定声源的定向角度范围。

本实施例的声源定向方法的具体工作原理和工作过程与实施例一类似，在此不再赘述。

综上所述，本发明具有以下优点：

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种声像联动的声源定向系统，包括麦克风阵列、信号处理模块和摄像装置；其中，

所述麦克风阵列采集声源处的音频信号；

2.根据权利要求1所述的声源定向系统，其特征在于，所述信号处理模块还根据所述定向角度确定声源的定向角度范围。

3.根据权利要求1所述的声源定向系统，其特征在于，所述麦克风阵列为具有360°指向性的圆形阵。

4.根据权利要求1所述的声源定向系统，其特征在于，所述信号处理模块利用声源定向算法根据所述音频信号对声源的方向进行计算，以获得所述方向估计角度。

5.根据权利要求4所述的声源定向系统，其特征在于，所述声源定向算法为ARMA谱分析法、最大似然法、熵谱分析法、特征分解法或MUSIC算法。

6.根据权利要求1所述的声源定向系统，其特征在于，所述信号处理模块还用于执行以下操作：

7.根据权利要求6所述的声源定向系统，其特征在于，所述摄像装置还根据声源的定向角度旋转以对人脸进行位置跟踪，直至在预设的时间段内检测不到唇动为止。

8.根据权利要求1所述的声源定向系统，其特征在于，所述视频检测结果包括视野中分线与人脸中分线之间的水平距离、视野范围的水平跨度和摄像头的视场角范围；其中，

9.一种声像联动的声源定向方法,包括以下步骤：

获取声源处的音频信号；

10.根据权利要求9所述的声源定向方法，其特征在于，根据所述定向角度确定声源的定向角度范围。