CN111046850B

CN111046850B - 一种基于声音与图像融合的发言者定位方法

Info

Publication number: CN111046850B
Application number: CN201911406105.6A
Authority: CN
Inventors: 王全强; 刘红艳; 毛海滨
Original assignee: Hangzhou Chingan Technology Co ltd
Current assignee: Hangzhou Chingan Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-04-06
Anticipated expiration: 2039-12-31
Also published as: CN111046850A

Abstract

本发明提供一种基于声音与图像融合的发言者定位方法，可以精准的定位发言者，并且平滑的切换到发言者区域特写图像。本发明包括如下步骤：步骤一、基于麦克风阵列来实现声源定位;步骤二、基于改进的YOLO V3神经网络来实现人脸检测;步骤三、设置2个变倍摄像头与1个定焦摄像头，并通过步骤一的声源定位和步骤二的人脸检测来定位发言者，2个变倍摄像头定义为摄像机一与摄像机二。

Description

一种基于声音与图像融合的发言者定位方法

技术领域

本发明涉及一种基于声音与图像融合的发言者定位方法，应用在视频会议用摄像机领域。

背景技术

近年来，在企业级视频会议的应用场景中，一个备受关注的功能是场景内发言者的精准定位，以及对发言者特写镜头的平滑切换。

设想一个中大型会议室,一般是5-10米长、4-8米宽，有多人参加会议，如图1所示,会议过程中会出现一种情况是多人轮流发言，除当前发言者之外的人只听不发言。对于视频会议摄像机输出的视频来说，最佳的体验是只需关注当前发言者的特写区域，而无需关注其他听讲人的情况。发言者特写区域与证件照类似，区域从上至下包含发言者的头顶到胸前，区域两侧包含发言者的双肩与手势，这个特写区域是考虑到人脸表情，肢体动作等，给观看摄像机输出视频的人更清晰，更直观的感受，就好像与发言者在近距离沟通。

在以往的一个解决方案中，通常会使用搭载10倍，12倍或20倍光学变倍镜头的PTZ(Pan/Tilt/Zoom，意为：云台全方位(左右/上下)移动及镜头变倍、变焦控制)摄像机来拍摄发言者特写画面。往往在会议开始之前，设备操作员会在发言者正前方位置设置好摄像机，利用PTZ功能转动云台、拉动Zoom电机到适当倍率，通过手动或自动聚焦功能调节Focus电机到达聚焦点来保证图像清晰，至此会前准备结束。如果是大型会议场景，还可能设置多台摄像机，做到不同发言者之间的特写画面切换的功能，但这种录播切换功能基本是通过人工的方式实现的。为了解决上述问题，可以设计一种无需人工操作就可以输出特写画面的方法：在摄像机里额外增加一颗定焦镜头，并且运用定焦镜头捕获的全景图像上运行人脸检测算法，它会通过人脸区域检测的方式自动地转动云台，拉动Zoom电机到达适当倍率，让发言者占图像的三分之一至四分之一大小。然而此种方法也存在几个弊端：首先当摄像机找到目标后会拉动Zoom电机，这个变倍的过程会直接显示在画面中，给观看者带来一种不流畅的感觉，其次当摄像机锁定另外一个特写目标之后，直接转动云台到指定位置的过程也会暴露给视频观看者，带来视觉突兀的体验。所以设计一种能够平滑切换发言者特写画面的算法是本发明关注的第一个重点。

在会议场景中能用来定位发言者的特征包括声音信息、面部信息、肢体信息等。1)声音信息作为定位发言者最重要的一个特征，通常是利用设计好的麦克风阵列：一字型，十字型，圆形，3D球形等，通过麦克风阵列上的多个麦克风同时采集声音，利用基于达到时间差算法来定位发声源位置。2)面部信息中首先要检测到人脸位置，进而可以分析发言者嘴唇的运动量，它会远远大于倾听者嘴唇的运动量。3)肢体信息往往是发言者在讲话的同时，手部、头部、肩部的运动频率与运动量会远远大于倾听者。上一段落中关注发言者特写画面的平滑切换，实际上它要基于发言者区域定位才能够实现，所以精准地定位发言者区域是本发明关注的第二个重点。

目前可使用若干个麦克风阵元排列形成麦克风阵列结构，实时的通过各阵元采集声音数据进行空间与时间上的处理来实现声源方位确定。较为常见的三种方法是：①基于到达时间差的声源定位方法(Time Delay of Arrival，TDOA)，它是依据各阵元空间上的关系，对麦克风传感器之间的一组声音到达时间的不同来定位方位，它的不足是需要两步来实现，第二步的输入参数很依赖第一步的输出结果，属于次最优方法估计声源位置。②基于高分辨率谱的声源定位方法是利用每个麦克风阵元所接收到的空间信号相关矩阵的空间谱，对相关矩阵求解估算声源位置，此方法优点是计算速度较快，但精度较低，很容易受噪音混响等因素影响。③基于可控波束形成的声源定位方法，它是对声音信号进行加权求和得到波束，然后不断的调整权值求出输出功率最大的那个波束，最后通过最大功率波束对应的点求得声源位置。波束形成算法的优点是计算速度快、算法较为成熟、适用于近场、原理容易实现。

基于神经网络技术的各类检测算法发展迅猛，它近年被广泛的应用在智能产品中，其中人脸检测算法是最为常见的一个，它被神经网络科学家设计成为计算多层不同等级特征的权重达到预测图像中是否存在人脸以及定位人脸区域的算法，核心思想是利用图像中不同等级的特征：低等级特征(low-level feature)关注图像中一些微小的细节，例如边缘、颜色、转角、梯度、像素等，高等级特征(high-level feature)关注图像中目标、形状，同时考虑更加丰富的语义信息，例如五官、痣、脸型等。

近年，图像处理芯片发展非常迅速，例如Hisi3519A，Hisi559A等，它本身在实时地捕获、处理、输出视频流的同时，依赖芯片内部嵌入的ARM核，NNIE核还可以实时地处理一些需要大量计算的外部算法，比如ARM核上可以很好的运行腾讯公司极值优化的移动端神经网络开发库NCNN，或在NNIE核上通过转换的形式快速、实时地运行神经网络算法。

如上所述，面对本发明关注的第一、第二个重点，在设计精良小巧的摄像机产品内，如何在在算力不足的嵌入式端精准的定位发言者，并且平滑的切换到发言者区域特写图像是一个必须解决的难点。

发明内容

有鉴于此，本发明的目的在于克服上述难题，而提供一种基于声音与图像融合的发言者定位方法，可以精准的定位发言者，并且平滑的切换到发言者区域特写图像。

本发明为解决上述问题所采用的技术方案是一种基于声音与图像融合的发言者定位方法，其特征在于：包括如下步骤：

步骤一、基于麦克风阵列来实现声源定位，步骤如下：

1)选择一字型麦克风阵列；

2)麦克风阵列A是多个麦克风阵元的集合：A＝{A₁,A₂,...,A_k,...,A_n}，其中n是阵元数量，A_k代表第k个阵元，1≤k≤n；

3)采集各个阵元的声音信息S＝{S₁,S₂,...,S_k,...,S_n}，其中S_k代表A_k阵元采集来的声音信息；

4)对声音信息S进行滤波、降噪、归一化预处理，得到声音特征S_fea；

5)对声音特征S_fea进行时间上的排序处理，时间长度为t；

6)利用波束形成算法B，计算麦克风阵列的波束功率P＝B(S_fea)，P中最大的功率指向的角度就是声源定位结果；

步骤二、基于改进的YOLO V3神经网络来得到人脸检测器，步骤如下：

1)搭建神经网络训练服务器，对神经网络训练加速；

2)准备人脸检测训练数据集D，D＝{d₁,d₂,...,d_k,...,d_n}，其中n是样本个数,d_k代表单个人脸图片样本，1≤k≤n；

3)改进YOLO V3神经网络，最后得到改进版的YOLO V3神经网络M；

4)计算YOLO V3神经网络M的人脸检测器权重W，设置迭代次数i，同时计算损失度l对比阈值大小，当损失度l小于阈值时训练停止，最终得到人脸检测器Dtr，它是由M和W共同组成；

5)在人脸数据集D中选取出一部分数据作为测试数据集D_t,把测试数据集D_t输入到人脸检测器Dtr里，测试人脸检测器Dtr的有效性；

步骤三、设置2个变倍摄像头与1个定焦摄像头，并通过步骤一的声源定位和步骤二的人脸检测器来定位发言者，2个变倍摄像头定义为摄像机一与摄像机二，步骤如下：

1)无人场景：摄像机一拉动至用户设置的位置，视频输出摄像机一无人全景；

2)单人场景：

21)单人入镜：单人入镜前，视频输出摄像机一无人全景；单人入镜后，摄像机二场景内的单人框住，待镜头拉伸停止后，视频切换为摄像机二单人特写；

22)不移动：单人在场景内不移动，视频保持输出当前摄像机单人特写；

23)移动：单人移动前，视频输出摄像机一单人特写；单人移动后，由摄像机二框住移动后的人物位置，待镜头拉伸停止后，视频切换为摄像机二单人特写；

24)单人出镜：视频回到无人场景；

3)多人场景：

31)多人入镜：多人入镜前，场景内没有人时视频输出摄像机一无人全景，场景内有一个人时视频输出摄像机一单人特写；多人入境后，摄像机二把场景内多人同时框住，待镜头拉伸停止后，视频切换为摄像机二多人特写；

32)无人讲话，无人移动：多人在场景内不讲话、不移动，视频保持输出当前摄像机多人特写；

33)无人讲话，单人或多人移动：单人或多人移动前，视频输出摄像机一多人特写；单人或多人移动后，由摄像机二框住多人位置，待镜头拉伸停止后，视频切换为摄像机二多人特写；

34)单人讲话，无人移动：单人讲话前，如果不存在其他单人正在讲话，视频输出摄像机一多人特写；单人开始讲话几秒钟后，拉动摄像机二至正在讲话单人脸部特写位置，并且视频切换为摄像机二单人特写；讲话完毕几秒种后，视频切换回摄像机一多人特写；单人再次讲话，重复以上动作；

35)单人讲话，单人或多人移动：单人讲话但无人移动场景下，视频输出摄像机一单人特写；正在讲话的单人一边讲话一边移动，此时由摄像机二以讲话人为目标，框住移动后的单人脸部特写位置，待镜头拉伸停止后，视频切换为摄像机二单人特写；单人讲话完毕，并且场景内无人在有大范围移动，摄像机一拉回至多人特写，视频切换为摄像机一；

36)多人讲话：在此场景下，无论是否存在人物移动，视频都会输出先讲话单人或者声音较大单人特写；

37)多人出镜：多人出镜前，视频输出摄像机一多人特写；多人出镜后，如果场景内存在单人，摄像机二拉动至单人特写位置，视频切换为摄像机二，如果场景内无人存在，视频切换回无人场景。

本发明利用RK3229声音采集芯片来采集各个阵元的声音。

本发明所述的t＝0.5s。

本发明改进YOLO V3神经网络的步骤为：适当减少YOLO V3的卷积层数，并且降低剩余卷积层的核大小，目的是让算法运行的更快，同时考虑MobileNet卷积层的形态，把部分剩余卷积层的标准卷积调整为点卷积，进一步加速神经网络算法的计算速度。

本发明移动时：如果单人持续移动，摄像机二会等目标位置稳定后，再进行框选、拉伸动作，如果单人时而移动，时而停止，摄像机一与摄像机二交替重复框选、拉伸动作。

本发明无人讲话、单人或多人移动时：如果存在单人或多人持续移动，摄像机二会等所有目标位置稳定后，再进行框选、拉伸动作；如果单人或多人时而移动，时而停止，摄像机一与摄像机二交替重复以上动作。

本发明单人讲话，无人移动时：单人二讲话前，如果存在单人一正在讲话，视频输出摄像机一单人一特写。单人一停止讲话，马上单人二开始讲话，摄像机二拉动至单人二脸部特写位置，待镜头拉伸后，视频切换为摄像机二单人二特写。若单人二讲话完毕，单人一未再发言，摄像机一拉回多人特写，并且视频切换回摄像机一。若单人二讲话完毕，单人一再次发言，摄像机一调整至单人一特写，同时视频切换回摄像机一。

本发明在步骤三当中每次捕捉特写镜头时，都要拉动Zoom电机到达适当倍率并聚焦。

本发明与现有技术相比，具有以下优点和效果：1、在可移动设备端，做到了在算力不足的嵌入式端实时地运行运行声源定位与人脸检测算法。2、声源定位算法可以精准的定位声源。3、人脸检测算法可以精准的检测出人脸位置。4、声源定位与人脸检测算法合理的融合在一起，能够精准定位与快速的平滑的切换发言者特写画面。5、自动聚焦算法做到能够在大倍率浅景深状态下检测出人脸区域，并且聚焦到此区域，同时考虑画面震荡小、聚焦速度快、准确性高、稳定性强等技术特点。6、算法空间时间复杂度小，占用内存量低，定位与检测时间短。7、鲁棒性好，可靠性高，可扩展性强，可维护性高。8、在实际场景中使用有良好的效果表现。

附图说明

图1为本发明实施例使用的摄像机的结构示意图。

具体实施方式

下面通过实施例对本发明作进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

参见图1，本发明实施例包括如下步骤：

步骤一、基于麦克风阵列来实现声源定位，步骤如下：

1)声音定位效果的好坏取决于麦克风阵列形态的设计是否合理，阵列形态通常有面向于水平角度定位的一字型，面向于水平与垂直角度定位的十字型或圆形，面向于水平、垂直与距离定位的3D球形等。本发明选择一字型麦克风阵列，定义为A。

2)麦克风阵列A是多个麦克风阵元的集合A＝{A₁,A₂,...,A_k,...,A_n}，其中n是阵元数量，A_k代表第k个阵元，1≤k≤n。

3)本发明利用RK3229声音采集芯片来采集各个阵元的声音S＝{S₁,S₂,...,S_k,...,S_n}，其中S_k代表A_k阵元采集来的声音信息。

4)对声音信息S进行滤波，降噪，归一化预处理，得到声音特征S_fea。

5)对声音特征S_fea进行时间上的排序处理，时间长度为t，本发明中t＝0.5s。

6)利用波束形成算法B，计算阵列的波束功率P＝B(S_fea)，那么P中最大的功率指向的角度就是声源定位结果。

1)使用GPU(Nvidia RTX 2080Ti)搭建神经网络训练服务器，对神经网络训练加速。

2)准备人脸检测训练数据集：D＝{d₁,d₂,...,d_k,...,d_n}，其中n是样本个数,d_k代表单个人脸图片样本，1≤k≤n，在本发明的训练中n约等于40万，其中一部分来自开源的人脸数据库，另一部分是自己标注的人脸数据。

3)改进YOLO V3神经网络，适当减少YOLO V3的卷积层数，并且降低剩余卷积层的核大小，目的是让算法运行的更快，同时考虑MobileNet卷积层的形态，把部分剩余卷积层的标准卷积调整为点卷积，进一步加速神经网络算法的计算速度，最后得到改进版的YOLOV3神经网络M。

4)计算YOLO V3神经网络M的人脸检测器权重W，设置迭代次数i，同时计算损失度l对比阈值大小，当损失度l小于阈值时训练停止，最终得到人脸检测器Dtr，它是由M和W共同组成。

5)在人脸数据集D中选取出一部分数据作为测试数据集D_t,把测试数据集D_t输入到人脸检测器Dtr里，测试人脸检测器Dtr的有效性，其中D_t与D不重叠。

步骤三、本发明使用2个12x变倍摄像头与1个定焦摄像头，并通过步骤一的声源定位和步骤二的人脸检测器协同工作来定位发言者，其中人脸检测算法运行在定焦摄像头内，声源定位算法运行在摄像机的RK3229芯片内，2个变倍摄像头定义为摄像机一与摄像机二，2个12x变倍摄像头与1个定焦摄像头集成在一台摄像机上；步骤为：

1)无人场景：

摄像机一拉动至用户设置的位置(预置点0、预置点1或保持原位)，视频输出摄像机一无人全景，其中预置点意为用户事先设置好的一个PTZ位置。

2)单人场景：

21)单人入镜：

单人入镜前，视频输出摄像机一无人全景。单人入镜后，摄像机二根据人脸检测算法把场景内的单人框住，待镜头拉伸停止后，视频切换为摄像机二单人特写。

22)不移动：

单人在场景内不移动，视频保持输出当前摄像机单人特写。

23)移动：

单人移动前，视频输出摄像机一单人特写。单人移动后，由摄像机二框住移动后的人物位置，待镜头拉伸停止后，视频切换为摄像机二单人特写。如果单人持续移动，摄像机二会等目标位置稳定后，再进行框选、拉伸动作。如果单人时而移动，时而停止，摄像机一与摄像机二交替重复以上动作。

24)单人出镜：

视频回到无人场景。

3)多人场景：

31)多人入镜：

多人入镜前，场景内没有人时视频输出摄像机一无人全景，场景内有一个人时视频输出摄像机一单人特写。多人入境后，摄像机二把场景内多人同时框住，待镜头拉伸停止后，视频切换为摄像机二多人特写。

32)无人讲话，无人移动：

多人在场景内不讲话、不移动，视频保持输出当前摄像机多人特写。

33)无人讲话，单人或多人移动：

单人或多人移动前，视频输出摄像机一多人特写。单人或多人移动后，由摄像机二框住多人位置，待镜头拉伸停止后，视频切换为摄像机二多人特写。如果存在单人或多人持续移动，摄像机二会等所有目标位置稳定后，再进行框选、拉伸动作。如果单人或多人时而移动，时而停止，摄像机一与摄像机二交替重复以上动作。

34)单人讲话，无人移动：

单人讲话前，如果不存在其他单人正在讲话，视频输出摄像机一多人特写。单人开始讲话几秒钟后，拉动摄像机二至正在讲话单人脸部特写位置，并且视频切换为摄像机二单人特写。讲话完毕几秒种后，视频切换回摄像机一多人特写。单人再次讲话，重复以上动作。

单人二讲话前，如果存在单人一正在讲话，视频输出摄像机一单人一特写。单人一停止讲话，马上单人二开始讲话，摄像机二拉动至单人二脸部特写位置，待镜头拉伸后，视频切换为摄像机二单人二特写。若单人二讲话完毕，单人一未再发言，摄像机一拉回多人特写，并且视频切换回摄像机一。若单人二讲话完毕，单人一再次发言，摄像机一调整至单人一特写，同时视频切换回摄像机一。

35)单人讲话，单人或多人移动：

单人讲话但无人移动场景下，视频输出摄像机一单人特写。正在讲话的单人一边讲话一边移动，可能同时存在其它不讲话多人移动，此时由摄像机二以讲话人为目标，框住移动后的单人脸部特写位置，待镜头拉伸停止后，视频切换为摄像机二单人特写。单人讲话完毕，并且场景内无人在有大范围移动，摄像机一拉回至多人特写，视频切换为摄像机一。

36)多人讲话：

在此场景下，无论是否存在人物移动，视频都会输出先讲话单人或者声音较大单人特写。

37)多人出镜：

多人出镜前，视频输出摄像机一多人特写。多人出镜后，如果场景内存在单人，摄像机二拉动至单人特写位置，视频切换为摄像机二，如果场景内无人存在，视频切换回无人场景。

步骤四、在步骤三当中每次捕捉特写镜头时，都要拉动Zoom电机到达适当倍率并触发自动聚焦算法并聚焦。

此外，需要说明的是，本说明书中所描述的具体实施例，其算法的结构、所取名称、装置的结构可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所作的举例说明。

Claims

1.一种基于声音与图像融合的发言者定位方法，其特征在于：包括如下步骤：

步骤一、基于麦克风阵列来实现声源定位，步骤如下：

1)选择一字型麦克风阵列；

5)对声音特征S_fea进行时间上的排序处理，时间长度为t；

1)搭建神经网络训练服务器，对神经网络训练加速；

3)改进YOLO V3神经网络，最后得到改进版的YOLO V3神经网络M；改进YOLO V3神经网络的步骤为：减少YOLO V3的卷积层数，并且降低剩余卷积层的核大小，把部分剩余卷积层的标准卷积调整为点卷积；

2)单人场景：

24)单人出镜：视频回到无人场景；

3)多人场景：

34)单人讲话，无人移动：单人讲话前，如果不存在其他单人正在讲话，视频输出摄像机一多人特写；单人开始讲话后，拉动摄像机二至正在讲话单人脸部特写位置，并且视频切换为摄像机二单人特写；讲话完毕后，视频切换回摄像机一多人特写；单人再次讲话，重复以上动作；

2.根据权利要求1所述的基于声音与图像融合的发言者定位方法，其特征在于：利用RK3229声音采集芯片来采集各个阵元的声音。

3.根据权利要求1所述的基于声音与图像融合的发言者定位方法，其特征在于：所述的t＝0.5s。

4.根据权利要求1所述的基于声音与图像融合的发言者定位方法，其特征在于：移动时：如果单人持续移动，摄像机二会等目标位置稳定后，再进行框选、拉伸动作，如果单人时而移动，时而停止，摄像机一与摄像机二交替重复框选、拉伸动作。

5.根据权利要求1所述的基于声音与图像融合的发言者定位方法，其特征在于：无人讲话、单人或多人移动时：如果存在单人或多人持续移动，摄像机二会等所有目标位置稳定后，再进行框选、拉伸动作；如果单人或多人时而移动，时而停止，摄像机一与摄像机二交替重复以上动作。

6.根据权利要求1所述的基于声音与图像融合的发言者定位方法，其特征在于：单人讲话，无人移动时：单人二讲话前，如果存在单人一正在讲话，视频输出摄像机一单人一特写；单人一停止讲话，马上单人二开始讲话，摄像机二拉动至单人二脸部特写位置，待镜头拉伸后，视频切换为摄像机二单人二特写；若单人二讲话完毕，单人一未再发言，摄像机一拉回多人特写，并且视频切换回摄像机一；若单人二讲话完毕，单人一再次发言，摄像机一调整至单人一特写，同时视频切换回摄像机一。

7.根据权利要求1所述的基于声音与图像融合的发言者定位方法，其特征在于：在步骤三当中每次捕捉特写镜头时，都要拉动Zoom电机到达适当倍率并聚焦。