CN117037271A

CN117037271A - 一种会议摄像头的发言人追踪方法、系统及存储介质

Info

Publication number: CN117037271A
Application number: CN202310990754.5A
Authority: CN
Inventors: 杨悦; 陈冠岐; 黄正林; 王亮; 王欢良
Original assignee: Suzhou Qimengzhe Technology Co ltd
Current assignee: Suzhou Qimengzhe Technology Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-11-10

Abstract

本发明公开了一种会议摄像头的发言人追踪方法、系统及存储介质，该方法包括：步骤1：人脸检测，获取视频帧画面里的所有人脸边界框；步骤2：人脸追踪，获取所有人脸边界框的追踪轨迹；步骤3：人脸说话动作识别，获取人脸说话动作得分；步骤4：后处理判决，获取发言人的人脸位置。本发明提供的会议摄像头的发言人追踪方法、系统及存储介质中，不使用阵列麦克风声源定位技术，而是使用视频中发言人说话动作识别来对发言人进行定位和追踪，有效防止非发言人的误检，操作简洁、准确率高，解决了现有会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下，阵列麦克风声源定位算法不够准确等问题。

Description

一种会议摄像头的发言人追踪方法、系统及存储介质

技术领域

本发明属于计算机视觉技术领域，具体涉及一种会议摄像头的发言人追踪方法、系统及存储介质。

背景技术

当前，办公室视频会议系统在很多公司得到了广泛使用，其中相当重要的功能之一便是对发言人进行定位，然后显示发言人的特写。常见的视频会议发言人追踪方法是使用阵列麦克风声源定位技术和人脸检测算法，通常的流程是先进行声源定位，估计出方位后，在这个方向上进行人脸检测，提取发言人特写。但是，当会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下，阵列麦克风声源定位算法不够准确，并且只使用人脸检测只能证明阵列麦克风声源定位算法估计出来的声源位置有人，并不能证明这个人真在说话，因此，在音视频模组中常常结合人脸识别、声纹识别等技术使用，然而使用人脸识别和声纹识别需要提前进行注册，不够灵活。

发明内容

为解决现有技术中存在的技术问题，本发明的目的在于提供一种会议摄像头的发言人追踪方法、系统及存储介质。

为实现上述目的，达到上述技术效果，本发明采用的技术方案为：

一种会议摄像头的发言人追踪方法，包括以下步骤：

步骤1：人脸检测，获取视频帧画面里的所有人脸边界框；

步骤2：人脸追踪，获取所有人脸边界框的追踪轨迹；

步骤3：人脸说话动作识别，获取人脸说话动作得分；

步骤4：后处理判决，获取发言人的人脸位置。

进一步的，步骤1中，人脸检测，获取视频帧画面里的所有人脸边界框的步骤包括：

使用高清广角摄像头拍摄采集连续的会议室全景视频帧，每获取一帧会议室全景图像，将原始4K图像压缩到适合摄像头模组NPU计算的尺寸，使用轻量级人脸检测器进行人脸检测，从而检测出当前视频帧画面里的所有人脸边界框。

进一步的，步骤2中，人脸追踪，获取所有人脸边界框的追踪轨迹的步骤包括：

将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中，为每一个人脸边界框赋予一个追踪ID，从而得到所有人脸边界框的追踪轨迹。

进一步的，步骤3中，人脸说话动作识别，获取人脸说话动作得分的步骤包括：

1)采集发言人人脸说话动作视频数据，制作数据集；

2)构建说话动作识别模型；

3)使用SpeakAction数据集训练说话动作识别模型；

4)基于步骤1得到的人脸边界框坐标，从原始4K图像中截取人脸图像并压缩，基于步骤2得到的人脸ID，输入说话动作识别模型，得到当前帧时刻的人脸说话动作得分。

进一步的，步骤3中，共获取3类人脸说话动作得分，包括类1、类2、类3，将会出现连续张闭嘴的说话动作作为类1，将持续张嘴的笑、打哈欠等动作作为类2；将持续闭嘴的不说话动作作为类3。

进一步的，所述说话动作识别模型为shufflenetV2-TSM模型，使用轻量级分类网络shufflenetV2为模型主干网络并在其每个shuffleBlock之前插入TSM模块以融合时序上的动作信息。

进一步的，步骤4中，后处理判决，获取发言人的人脸位置的步骤包括：

1)所述说话动作识别模型按时序输入视频帧，每输入一帧图像，输出3类嘴唇动作对应的得分，使用平滑窗口对当前时刻至过去一段时间T内的输出得分进行平滑，若平滑后类1得分最高，则初步判断当前帧的人脸在说话；

2)若当前帧满足类1得分最高，则对类1设置平滑窗口阈值Thresh_seg，判断在窗口t时间内，t<T，若类1得分的累加的平均值满足阈值Thresh_seg，则进一步认为当前帧的人脸在说话；

3)对类1设置平滑峰值阈值Thresh_peak，Thresh_peak>Thresh_seg；若当前帧过去窗口t时间内满足阈值Thresh_seg，则进一步判断窗口t时间内是否存在类1的最高得分大于Thresh_peak的帧，若满足，则最终判定当前帧的人脸在说话，从而得到发言人的人脸位置。

本发明还公开了一种会议摄像头的发言人追踪系统，包括：

高清广角摄像头，用于采集会议室全景数据，保证会议室每个座位的参会者的人脸不会被遮挡或丢失；

发言人追踪模块，用于检测会议室内发言人位置信息。根据参会者人脸说话动作识别来判断是否是发言人，并发送检测到的发言人位置信息；

视频特写模块，用于对发言人进行特写展示。

本发明还公开了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于通过调用计算机程序，执行如上所述的一种会议摄像头的发言人追踪方法。

本发明还公开了一种可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的一种会议摄像头的发言人追踪方法。

与现有技术相比，本发明的有益效果为：

本发明公开了一种会议摄像头的发言人追踪方法、系统及存储介质，不使用阵列麦克风声源定位技术，而是使用视频中发言人说话动作识别来对发言人进行定位和追踪，克服噪声混响和多人同时对话时定位追踪不够准确的问题，操作简洁、准确率高。

附图说明

图1为本发明的流程图；

图2为本发明的人脸说话动作视频数据图；

图3为本发明的说话动作识别模型的结构图；

图4为本发明的后处理判决的流程图。

具体实施方式

下面对本发明进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

如图1-4所示，一种会议摄像头的发言人追踪方法，包括如下步骤：

步骤1：人脸检测。使用高清广角摄像头拍摄采集连续的会议室全景视频帧。每获取一帧会议室全景图像，将原始4K图像压缩到适合摄像头模组NPU计算的尺寸，使用轻量级人脸检测器进行人脸检测，从而检测出当前视频帧画面里的所有人脸边界框；

步骤2：人脸追踪。将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中，为每一个人脸边界框赋予一个追踪ID，得到所有人脸边界框的追踪轨迹；

步骤3：人脸说话动作识别，得到3类(类1、类2、类3)人脸说话动作的得分；

步骤4：后处理判决。根据模型输出结果使用后处理判决当前时刻检测人脸是否发生说话的动作，从而得到发言人的人脸位置。

步骤3中，包括以下步骤：

1)采集发言人人脸说话动作视频数据，制作训练数据集。数据包括各个角度的静止人脸、基于xyz轴运动的人脸如抬头低头、左右摇头、左右晃头、各人脸做说话、大笑、打哈欠、闭嘴等动作。将会出现连续张闭嘴的说话动作作为类1；将持续张嘴的笑、打哈欠等动作作为类2；将持续闭嘴的不说话动作作为类3。将采集并分类好的视频数据切成视频帧，制作人脸说话动作识别数据集SpeakAction；

2)构建说话动作识别模型。使用轻量级分类网络shufflenetV2为模型主干网络并在其每个shuffleBlock之前插入TSM模块去融合时序上的动作信息，得到shufflenetV2-TSM模型；

3)使用SpeakAction数据集训练shufflenetV2-TSM模型；

4)基于步骤1得到的人脸边界框坐标，从原始4K图像中截取人脸图像并压缩到所需尺寸大小；基于步骤2得到的人脸ID X，将X的人脸图像输入shufflenetV2-TSM模型，得到当前帧时刻的X人脸说话动作得分。

步骤4中，包括以下步骤：

1)模型按时序输入视频帧，每输入一帧图像，输出3类嘴唇动作对应的得分。使用平滑窗口对当前时刻至过去一段时间T内的输出得分进行平滑，若平滑后类1得分最高，则初步判断当前帧的人脸在说话；

2)对类1设置平滑窗口阈值Thresh_seg。若当前帧满足类1得分最高，则进一步判断在窗口t(t<T)时间内，若类1得分的累加的平均值满足阈值Thresh_seg，则进一步认为当前帧的人脸在说话；

3)对类1设置平滑峰值阈值Thresh_peak，Thresh_peak>Thresh_seg。若当前帧过去窗口t时间内满足阈值Thresh_seg，则进一步判断窗口t时间内是否存在类1的最高得分大于Thresh_peak的帧，若满足，则最终判定当前帧的人脸在说话，从而得到发言人的人脸位置。

一种会议摄像头的发言人追踪系统，包括：

视频特写模块，用于对发言人进行特写展示。当有说话动作检测到后，根据当前ID的人脸边界框进行扩展扣图，提取发言人特写画面，输出特写并显示在会议大屏上。

与现有技术相比，本发明至少具有以下技术效果：

为解决现有会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下，阵列麦克风声源定位算法不够准确等问题，本发明单独使用时序图像信息，对发言人面部说话动作识别，能够有效追踪发言人的位置，并且加上简易的后处理判决方法，有效防止非发言人的误检。

实施例1

步骤1：人脸检测

1)将30fps/4K分辨率的高清广角摄像头采集到的会议视频压缩并跳帧到360p/15fps送入轻量级人脸检测器，采用人脸检测算法进行人脸检测，得到会议场景的人脸边界框；

步骤2：人脸追踪

1)将步骤1中检测到的人脸边界框按帧序输入人脸追踪模型，为每个会议视频中每一个人脸赋予不同的ID；

步骤3：人脸说话动作识别

1)采集发言人人脸说话动作视频数据，制作数据集

从网络视频中采集不同背景、不同光照下不同角度的静止人脸以及基于xyz轴运动的人脸如抬头低头、左右摇头、左右晃头、各人脸做说话、大笑、打哈欠、闭嘴等动作。将会出现连续张闭嘴的说话动作作为类1；将持续张嘴的笑、打哈欠等动作作为类2；将持续闭嘴的不说话动作作为类3；

将采集并分类好的视频数据切成1-2s的小片段，抽取每个小片段视频帧，提取视频帧中人脸部分，resize到112*112大小，制作人脸说话动作识别数据集SpeakAction，如图2所示；

2)构建说话动作识别模型

使用轻量级分类网络shufflenetV2为模型主干网络并在其每个shuffleBlock之前插入TSM模块去融合时序上的动作信息，将上一帧的一部分特征和当前帧的一部分特征拼接起来。即将当前帧时刻的每一层shuffleBlock的输入特征图位移8个通道和下一帧时刻同一层的同样移位8个通道后shuffleBlock的输入特征图进行拼接(首帧拼接初始化为全0的特征图)，得到shufflenetV2-TSM模型，如图3所示，由一个3x3卷积和maxpool进行初步的特征提取得到特征图，在接下来的每一层shuffleBlock之前，将得到的特征图位移8个通道，与下一帧图像在同一层同样位移8个通道后的特征图进行拼接，即将相邻帧时刻的特征在shuffleBlock之前进行融合，经过N层shuffleBlock的特征融合后，经过1个3x3卷积层、全局平均池化GAP、全连接层FC和softmax后输出分类得分。

3)使用SpeakAction数据集训练shufflenetV2-TSM模型

本实施例1能达到97.115％的准确率；

4)基于步骤1得到的人脸边界框坐标，从原始4K图像中截取人脸图像并压缩到112*112尺寸大小；基于步骤2得到的人脸ID X，将X的人脸图像输入shufflenetV2-TSM模型，得到当前帧时刻的X人脸说话动作得分；

步骤4：后处理判决

1)根据步骤3输出的3类嘴唇动作对应的得分，使用平滑窗口对当前时刻至过去一段时间T(T＝8s)内的输出得分进行平滑，若平滑后当前帧时刻类1得分最高，则初步判断当前帧的人脸在说话，进入下一步判决；

2)若当前帧满足类1得分最高，则对类1设置平滑窗口阈值Thresh_seg，进一步判断在t＝6帧时长内，若类1得分的累加的平均值满足阈值Thresh_seg＝0.6，则进一步认为当前帧的人脸在说话，进入下一步判决；

3)若当前帧过去窗口t＝6帧时长内满足Thresh_seg，则对类1设置平滑峰值阈值Thresh_peak，Thresh_peak>Thresh_seg，进一步判断窗口t时间内是否存在类1的最高得分大于Thresh_peak＝0.8的帧，若满足，则认为当前帧的人脸在说话。

一种会议摄像头的发言人追踪系统，包括：

一个30fps/4K分辨率(3840*2160)的高清广角摄像头，用于采集会议室全景数据，保证会议室每个座位的参会者的人脸不会被遮挡或丢失；

视频特写模块，用于对发言人进行特写展示。当收到发言人人脸边界框的坐标信息后，根据人脸边界框的宽度和高度比例从原始4K图像上进行扣图，提取发言人特写画面，输出特写并显示在会议大屏左上角上。若有多个发言人，则特写画面在大屏幕上按顺序排列。

本发明未具体描述的部分或结构采用现有技术或现有产品即可，在此不做赘述。

对本领域技术人员而言，根据上述实施类型可以很容易联想其他变形，如不同人脸检测模型、不同的人脸追踪算法等。因此，本发明不局限于以上实施例，其仅仅作为例子对本发明的一种形态进行详细、示范性的说明。在不背离本发明宗旨的范围内，本领域技术人员根据上述具体实例，通过各种等同替换所得到的技术方案，均应包含在本发明的权利要求范围及其等同范围之内。

Claims

1.一种会议摄像头的发言人追踪方法，其特征在于，包括以下步骤：

步骤1：人脸检测，获取视频帧画面里的所有人脸边界框；

步骤2：人脸追踪，获取所有人脸边界框的追踪轨迹；

步骤3：人脸说话动作识别，获取人脸说话动作得分；

步骤4：后处理判决，获取发言人的人脸位置。

2.根据权利要求1所述的一种会议摄像头的发言人追踪方法，其特征在于，步骤1中，人脸检测，获取视频帧画面里的所有人脸边界框的步骤包括：

3.根据权利要求1所述的一种会议摄像头的发言人追踪方法，其特征在于，步骤2中，人脸追踪，获取所有人脸边界框的追踪轨迹的步骤包括：

4.根据权利要求1所述的一种会议摄像头的发言人追踪方法，其特征在于，步骤3中，人脸说话动作识别，获取人脸说话动作得分的步骤包括：

1)采集发言人人脸说话动作视频数据，制作数据集；

2)构建说话动作识别模型；

3)使用SpeakAction数据集训练说话动作识别模型；

5.根据权利要求1或4所述的一种会议摄像头的发言人追踪方法，其特征在于，步骤3中，共获取3类人脸说话动作得分，包括类1、类2、类3，将会出现连续张闭嘴的说话动作作为类1，将持续张嘴的笑、打哈欠等动作作为类2；将持续闭嘴的不说话动作作为类3。

6.根据权利要求4所述的一种会议摄像头的发言人追踪方法，其特征在于，所述说话动作识别模型为shufflenetV2-TSM模型，使用轻量级分类网络shufflenetV2为模型主干网络并在其每个shuffleBlock之前插入TSM模块以融合时序上的动作信息。

7.根据权利要求1所述的一种会议摄像头的发言人追踪方法，其特征在于，步骤4中，后处理判决，获取发言人的人脸位置的步骤包括：

8.一种会议摄像头的发言人追踪系统，其特征在于，包括：

视频特写模块，用于对发言人进行特写展示。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于通过调用计算机程序，执行如权利要求1-7中任一项所述的一种会议摄像头的发言人追踪方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一项所述的一种会议摄像头的发言人追踪方法。