CN114241570A

CN114241570A - 一种基于视觉的定位拍摄方法及系统

Info

Publication number: CN114241570A
Application number: CN202111576107.7A
Authority: CN
Inventors: 张明; 董健; 李帅
Original assignee: Ruimo Intelligent Technology Shenzhen Co ltd
Current assignee: Ruimo Intelligent Technology Shenzhen Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-25

Abstract

本发明公开了一种基于视觉的定位拍摄方法及系统。该方法包括：对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息，其中所述人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息；根据所述人物检测信息维护人物位置序列表；根据所述人物位置序列表中的嘴唇特征信息判断是否有人物正在说话；根据当前帧视频图像对应的坐标信息从当前帧视频图像中裁剪正在说话的人物的特写镜头，或者根据当前帧视频图像对应的坐标信息控制摄像头对正在说话的人物进行特写拍摄。本发明在不增加成本的基础上，在空间受限的情况下实现了对发言者的实时定位，并进行定位拍摄。

Description

一种基于视觉的定位拍摄方法及系统

技术领域

本发明实施例涉及拍摄技术领域，尤其涉及一种基于视觉的定位拍摄方法及系统。

背景技术

在视频会议中或是在录播系统中，实时定位发言者，然后将镜头对准发言者进行特写拍摄，或者从视频全景图像中裁剪发言者的特写镜头，对于提升视频拍摄的体验很有帮助。目前针对视频定位采用麦克风阵列语音定位来实现，但是使用麦克风阵列需要增加额外的设备，成本高昂，且系统复杂度上升，而对于小型会议室或教室等空间受限的情况，采用麦克风阵列成本很高。在不增加成本的基础上，如何在空间受限的情况下实现对发言者的实时定位，进行定位拍摄是我们急需解决的技术问题。

发明内容

本发明提供一种基于视觉的定位拍摄方法及系统，以实现在不增加成本的基础上，在空间受限的情况下实现对发言者的实时定位，并进行定位拍摄。

第一方面，本发明实施例提供了一种基于视觉的定位拍摄方法，该基于视觉的定位拍摄方法包括：

对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息，其中所述人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息；

根据所述人物检测信息维护人物位置序列表；

根据所述人物位置序列表中的嘴唇特征信息判断是否有人物正在说话；

根据当前帧视频图像对应的坐标信息从当前帧视频图像中裁剪正在说话的人物的特写镜头，或者根据当前帧视频图像对应的坐标信息控制摄像头对正在说话的人物进行特写拍摄。

其中，所述根据所述人物位置序列表中的嘴唇特征信息判断是否有人物正在说话包括：

依次将每一人物对应的人物位置序列信息中的嘴唇特征信息从当前帧开始并按间隔N帧的方式往回抽取K帧，将抽取的K帧视频图像对应的嘴唇特征信息送入说话分类器中，得到每一人物的实时得分；

对每一人物前M次计算的实时得分进行平均值计算，得到当前帧视频图像的说话得分，若所述说话得分大于等于预设阈值，则判断出该人物正在说话。

其中，所述对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息具体为：

利用人脸检测算法对图像帧序列中的人物进行人脸检测；根据人脸检测结果获取每一人物的人脸特征信息；并从人脸检测结果中提取嘴唇特征信息；

获取每一人物的在当前帧视频图像中的坐标信息。

其中，所述从人脸检测结果中提取嘴唇特征信息包括：

对人脸检测结果中的人脸进行关键点检测，检测出嘴唇位置；

以所述嘴唇位置为中心，裁剪出一个图像块，并缩放到一固定尺寸，得到嘴唇图像；

将所述嘴唇图像输入到卷积神经网络，得到嘴唇特征信息。

其中，所述根据所述人物检测信息维护人物位置序列表具体为：

将当前帧图像检测到的人脸特征信息与人物位置序列表中的人物的人脸特征信息进行匹配，若存在匹配的人物，则对该人物对应的位置序列信息进行更新；若不存在匹配的人物，则为该人物构建一新的人物位置序列信息；或

将当前帧图像检测到的坐标信息与人物位置序列表中的人物的坐标信息进行匹配，若存在匹配的人物，则对该人物对应的位置序列信息进行更新；若不存在匹配的人物，则为该人物构建一新的人物位置序列信息。

第二方面，本发明实施例还提供了一种基于视觉的定位拍摄系统，该基于视觉的定位拍摄系统包括：

人物检测模块，用于对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息，其中所述人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息；

序列维护模块，用于根据所述人物检测信息维护人物位置序列表；

判断模块，用于根据所述人物位置序列表中的嘴唇特征信息判断是否有人物正在说话；

拍摄模块，用于根据当前帧视频图像对应的坐标信息从当前帧视频图像中裁剪正在说话的人物的特写镜头，或者根据当前帧视频图像对应的坐标信息控制摄像头对正在说话的人物进行特写拍摄。

其中，所述判断模块具体用于：

其中，所述人物检测模块包括：

人脸检测单元，用于利用人脸检测算法对图像帧序列中的人物进行人脸检测；根据人脸检测结果获取每一人物的人脸特征信息；并从人脸检测结果中提取嘴唇特征信息；

坐标获取单元，用于获取每一人物在当前帧视频图像中的坐标信息。

其中，所述从人脸检测结果中提取嘴唇特征信息包括：：

将所述嘴唇图像输入到卷积神经网络，得到嘴唇特征信息。

其中，所述序列维护模块包括：

匹配单元，用于将当前帧图像检测到的人脸特征信息与人物位置序列表中的人物的人脸特征信息进行匹配；或将当前帧图像检测到的坐标信息与人物位置序列表中的人物的坐标信息进行匹配；

更新单元，用于若匹配单元判断出存在匹配的人物，则对该人物对应的位置序列信息进行更新；

构建单元，用于若匹配单元判断出不存在匹配的人物，则为该人物构建一新的人物位置序列信息。

本发明通过利用人脸检测算法对图像帧序列中的人物进行人脸检测；根据人脸检测结果维护人物位置序列表；其中，为每一个人物构建一个位置序列信息，所述位置序列信息包括人脸特征信息、嘴唇特征信息、坐标信息及时间戳，所有位置序列信息组成所述人物位置序列表；根据所述位置序列信息判断是否有人物正在说话；根据所述坐标信息从当前帧视频图像中裁剪正在说话的人物的特写镜头，或者根据坐标信息控制摄像头对正在说话的人物进行特写拍摄。本发明在不增加成本的基础上，在空间受限的情况下实现了对发言者的实时定位，并进行定位拍摄。

附图说明

图1是本发明实施例一提供的一种基于视觉的定位拍摄方法的方法流程图；

图2是本发明实施例二提供的另一种基于视觉的定位拍摄方法的方法流程图；

图3是本发明实施例二提供的一种基于视觉的定位拍摄方法的一子方法流程图；

图4是本发明实施例二提供的一种从人脸检测结果中提取嘴唇特征信息的流程示意图；

图5是本发明实施例实施例二提供的一种基于视觉的定位拍摄方法的另一子方法流程图；

图6是本发明实施例三提供的一种基于视觉的定位拍摄系统的结构框图；

图7是本发明实施例四提供的另一种基于视觉的定位拍摄系统的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种基于视觉的定位拍摄方法的方法流程图，本实施例可适用于目标跟踪特写拍摄的情况，该方法可以由计算机或者摄像机来执行，具体包括如下步骤：

步骤110、对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息。

其中，人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息。本实施例利用人脸检测算法对视频图像帧序列中的人物进行人脸检测，以获取当前帧每一人物的人脸特征信息和嘴唇特征信息，从当前帧视频图像中获取每一人物的坐标信息。

步骤S120、根据所述人物检测信息维护人物位置序列表。

其中，为每一个人物构建一个人物位置序列信息，所述人物位置序列信息包括人脸特征信息、嘴唇特征信息、坐标信息及当前帧图像的时间戳，所有人物位置序列信息组成所述人物位置序列表。优选地，根据每帧视频图像检测的人物检测信息维护人物位置序列表，具体包括：将人脸特征信息与人物位置序列表中的人物的人脸特征信息进行匹配，若存在匹配的人物，则对该人物对应的人物位置序列信息进行更新；若不存在匹配的人物，则为该人物构建一新的人物位置序列信息；或将当前帧图像检测到的坐标信息与人物位置序列表中的人物的坐标信息进行匹配，若存在匹配的人物，则对该人物对应的位置序列信息进行更新；若不存在匹配的人物，则为该人物构建一新的人物位置序列信息。根据人脸特征信息进行匹配，匹配的准确率更好。但是对于座位固定的场所，特别是对于座位固定整齐排列的场所，根据坐标信息进行人物位置序列表的更新，系统负担小，响应速度更快。

步骤S130、根据所述人物位置序列表中的嘴唇特征信息判断是否有人物正在说话。

每一人物在人物位置序列表中对应一序列的嘴唇特征信息，即记录嘴唇变化过程的嘴唇轨迹，根据序列的嘴唇特征信息能准确地判断出对应的人物是否正在说话。

步骤S140、根据当前帧视频图像对应的坐标信息从当前帧视频图像中裁剪正在说话的人物的特写镜头，或者根据当前帧视频图像对应的坐标信息控制摄像头对正在说话的人物进行特写拍摄。

当判断出有人物正在说话时，则根据正在说话的人物在当前帧视频图像对应的坐标信息从当前帧视频图像中裁剪对应人物的特写镜头，或者根据正在说话的人物在当前帧视频图像对应的坐标信息控制摄像头对对应人物进行特写拍摄，完成了对发言者的自动定位拍摄。

本实施例通过对视频图像帧序列进行人物检测，获取获取当前帧视频图像中每一人物的人脸特征信息、嘴唇特征信息及坐标信息，根据人物的一序列的嘴唇特征(即嘴唇轨迹)来判断人物是否说话，能准确地判断出人物是否正在说话，若存在人物正在说话，则根据从当前帧视频图像中获取的人物坐标信息控制从视频图像中裁剪正在说话的人物的特写镜头或控制摄像头对正在说话的人物进行特写拍摄。本实施例在不增加成本的基础上，在空间受限的情况下实现了对发言者的实时定位，并进行定位拍摄。

实施例二

图2为本发明实施例二提供的另一种基于视觉的定位拍摄方法的方法流程图，本实施例可适用于目标跟踪特写拍摄的情况，该方法可以由计算机或者摄像机来执行，具体包括如下步骤：

步骤210、利用人脸检测算法对图像帧序列中的人物进行人脸检测；根据人脸检测结果获取每一人物的人脸特征信息；并从人脸检测结果中提取嘴唇特征信息。

利用人脸检测算法对图像帧序列中的人物进行人脸检测，以获取当前帧每一人物的人脸特征信息和嘴唇特征信息。在一些实施例中，如图3所示，所述从人脸检测结果中提取嘴唇特征信息包括步骤S211～步骤S213，具体内容如下：

步骤S211、对人脸检测结果中的人脸进行关键点检测，检测出嘴唇位置。

步骤S212、以所述嘴唇位置为中心，裁剪出一个图像块，并缩放到一固定尺寸，得到嘴唇图像。

步骤S213、将所述嘴唇图像输入到卷积神经网络，得到嘴唇特征信息。

具体地，从人脸检测结果中提取嘴唇特征信息的流程如图4所示，人脸检测、嘴唇特征信息的处理接近于实时处理，可使用轻量级的网络架构和快速的图像处理算法，有利于提高设备的处理效率，提高响应速度。

步骤S220、获取每一人物在当前帧视频图像中的坐标信息。

其中，人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息，利用人脸检测算法对视频图像帧序列中的人物进行人脸检测，以获取当前帧每一人物的人脸特征信息和嘴唇特征信息，从当前帧视频图像中获取每一人物的坐标信息。

步骤S230、根据所述人物检测信息维护人物位置序列表。

其中，为每一个人物构建一个人物位置序列信息，所述人物位置序列信息包括人脸特征信息、嘴唇特征信息、坐标信息及当前帧图像的时间戳，所有人物位置序列信息组成所述人物位置序列表。优选地，根据每帧视频图像检测的人物检测信息维护人物位置序列表，具体包括：将人脸特征信息与人物位置序列表中的人物的人脸特征信息进行匹配，若存在匹配的人物，则对该人物对应的人物位置序列信息进行更新；若不存在匹配的人物，则为该人物构建一新的人物位置序列信息；或将当前帧图像检测到的坐标信息与人物位置序列表中的人物的坐标信息进行匹配，若存在匹配的人物，则对该人物对应的位置序列信息进行更新；若不存在匹配的人物，则为该人物构建一新的人物位置序列信息。本实施例根据人脸特征信息进行匹配，可以提高检测的准确性，进而提高定位特写拍摄的准确性；而对于座位固定的场所，特别是对于座位固定整齐排列的场所，根据坐标信息进行人物位置序列表的更新，在保证准确性的前提下，系统负担小，响应速度更快。

步骤S240、根据所述人物位置序列表中的嘴唇特征信息判断是否有人物正在说话。

在一些实施例中，如图5所示，步骤S240具体包括步骤S241～步骤S242，具体内容如下：

步骤S241、依次将每一人物对应的人物位置序列信息中的嘴唇特征信息从当前帧开始并按间隔N帧的方式往回抽取K帧，将抽取的K帧视频图像对应的嘴唇特征信息送入说话分类器中，得到每一人物的实时得分。

每一人物的嘴唇轨迹的实时得分每个一段时间计算一次，将嘴唇特征信息从当前帧开始并按间隔N帧的方式往回抽取K帧，将抽取的K帧视频图像对应的嘴唇特征信息，将这些嘴唇特征信息进行顺序拼接然后送入说话分类器中，得到该人物的嘴唇轨迹的实时得分。

步骤S242、对每一人物前M次计算的实时得分进行平均值计算，得到当前帧视频图像的说话得分，若所述说话得分大于等于预设阈值，则判断出该人物正在说话。

每一人物的嘴唇轨迹由一系列实时得分的序列构成，其值越高代表对应的人物正在说话的可能性越高，对每一人物前M次计算的实时得分进行平均作为当前帧视频图像的说话得分，若一人物当前帧视频图像的说话得分大于等于预设阈值，则判断出该人物正在说话。M的取值取1s内摄像机拍摄的帧数即可，M的取值太小，则计算负荷太大，响应系统功能；M的取值太大，则实时性会下降。

在一些实施例中，嘴唇特征信息的提取为实时性人物可采用轻量级处理器处理，而人物说话得分的计算为非实时性任务可采用重量级处理器处理，以均衡计算负载和降低整体计算延迟，同时该方案可以有效降低实际运行中的计算负荷。

步骤S250、根据当前帧视频图像对应的坐标信息从当前帧视频图像中裁剪正在说话的人物的特写镜头，或者根据当前帧视频图像对应的坐标信息控制摄像头对正在说话的人物进行特写拍摄。

当判断出有人物正在说话时，则根据正在说话的人物在当前帧视频图像对应的坐标信息从当前帧视频图像中裁剪对应人物的特写镜头，或者根据正在说话的人物在当前帧视频图像对应的坐标信息控制摄像头对对应人物进行特写拍摄，完成了对发言者的自动定位拍摄。若正在说话的人物的数量大于等于2，可以分别裁剪对应人物的特写镜头，也可以裁剪包含所有正在说话的人物的最小边界框对应的特写镜头；或者是可以根据人物在当前帧视频图像对应的坐标信息控制不同的摄像头分别对对应的人物进行特写拍摄，即一人物对应一摄像头，也可以获取所有正在说话的人物的坐标信息中的最小横坐标、最大横坐标、最小纵坐标和最大纵坐标，根据所述最小横坐标、最大横坐标、最小纵坐标和最大纵坐标控制摄像头对所有正在说话的人物进行特写拍摄。

本实施例的技术方案，通过根据人物的一序列的嘴唇特征(即嘴唇轨迹)来判断人物是否说话，能准确地判断出人物是否正在说话，若存在人物正在说话，则根据从图像中获取的人物坐标信息从当前帧视频图像中裁剪正在说话的人物的特写镜头或控制摄像头对正在说话的人物进行特写拍摄。本实施例通过视觉处理技术来定位视频中的发言者，以省去视频会议系统的麦克风阵列，这对于小型会议室、低成本会议室解决方案具有显著意义，可以在不增加成本的情况下具备定位拍摄功能，提升了用户使用体验。

实施例三

本发明实施例所提供的基于视觉的定位拍摄系统可执行本发明任意实施例所提供的基于视觉的定位拍摄方法，具备执行方法相应的功能模块和有益效果。

图6为本发明实施例三提供的一种基于视觉的定位拍摄系统的结构框图，本实施例可适用于目标跟踪特写拍摄的情况，该系统可以由计算机或者摄像机来执行，包括人物检测模块10、序列维护模块20、判断模块30和拍摄模块40，具体内容如下：

人物检测模块10，用于对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息，其中所述人物检测信息包括：人脸特征信息、嘴唇特征信息及坐标信息。

序列维护模块20，用于根据所述人物检测信息维护人物位置序列表。

判断模块30，用于根据所述人物位置序列表中的嘴唇特征信息判断是否有人物正在说话。

拍摄模块40，用于根据当前帧视频图像对应的坐标信息从当前帧视频图像中裁剪正在说话的人物的特写镜头，或者根据当前帧视频图像对应的坐标信息控制摄像头对正在说话的人物进行特写拍摄。

实施例四

如图7为本发明实施例四提供的另一种基于视觉的定位拍摄系统的结构框图，本实施例可适用于目标跟踪特写拍摄的情况，该系统可以由计算机或者摄像机来执行，包括人物检测模块10、序列维护模块20、判断模块30和拍摄模块40，具体内容如下：

在一些实施例中，人物检测模块10包括人脸检测单元11和坐标获取单元12，具体内容如下：

人脸检测单元11，用于利用人脸检测算法对图像帧序列中的人物进行人脸检测；根据人脸检测结果获取每一人物的人脸特征信息；并从人脸检测结果中提取嘴唇特征信息。

优选地，所述从人脸检测结果中提取嘴唇特征信息包括：

将所述嘴唇图像输入到卷积神经网络，得到嘴唇特征信息。

坐标获取单元12，用于获取每一人物在当前帧视频图像中的坐标信息。

在一些实施例中，序列维护模块20包括匹配单元21、更新单元22和构建单元23，具体内容如下：

匹配单元21，用于将当前帧图像检测到的人脸特征信息与人物位置序列表中的人物的人脸特征信息进行匹配；或将当前帧图像检测到的坐标信息与人物位置序列表中的人物的坐标信息进行匹配。

更新单元22，用于若匹配单元判断出存在匹配的人物，则对该人物对应的位置序列信息进行更新。

构建单元23，用于若匹配单元判断出不存在匹配的人物，则为该人物构建一新的人物位置序列信息。

在一些实施例中，判断模块30具体用于：

本实施例通过对视频图像帧序列进行人物检测，获取获取当前帧视频图像中每一人物的人脸特征信息、嘴唇特征信息及坐标信息，根据人物的一序列的嘴唇特征(即嘴唇轨迹)来判断人物是否说话，能准确地判断出人物是否正在说话，若存在人物正在说话，则根据从当前帧视频图像中获取的人物坐标信息控制从视频图像中裁剪正在说话的人物的特写镜头或控制摄像头对正在说话的人物进行特写拍摄。本实施例通过视觉处理技术来定位视频中的发言者，以省去视频会议系统的麦克风阵列，这对于小型会议室、低成本会议室解决方案具有显著意义，可以在不增加成本的情况下具备定位拍摄功能，提升了用户使用体验。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于视觉的定位拍摄方法，其特征在于，所述基于视觉的定位拍摄方法包括：

根据所述人物检测信息维护人物位置序列表；

2.根据权利要求1所述的基于视觉的定位拍摄方法，其特征在于，所述根据所述人物位置序列表中的嘴唇特征信息判断是否有人物正在说话包括：

3.根据权利要求1所述的基于视觉的定位拍摄方法，其特征在于，所述对视频图像帧序列进行人物检测，获取当前帧视频图像中每一人物的人物检测信息具体为：

获取每一人物在当前帧视频图像中的坐标信息。

4.根据权利要求3所述的基于视觉的定位拍摄方法，其特征在于，所述从人脸检测结果中提取嘴唇特征信息包括：

将所述嘴唇图像输入到卷积神经网络，得到嘴唇特征信息。

5.根据权利要求1所述的基于视觉的定位拍摄方法，其特征在于，所述根据所述人物检测信息维护人物位置序列表具体为：

6.一种基于视觉的定位拍摄系统，其特征在于，所述基于视觉的定位拍摄系统包括：

7.根据权利要求6所述的基于视觉的定位拍摄系统，其特征在于，所述判断模块具体用于：

8.根据权利要求6所述的基于视觉的定位拍摄系统，其特征在于，所述人物检测模块包括：

9.根据权利要求8所述的基于视觉的定位拍摄系统，其特征在于，所述从人脸检测结果中提取嘴唇特征信息包括：

将所述嘴唇图像输入到卷积神经网络，得到嘴唇特征信息。

10.根据权利要求8所述的基于视觉的定位拍摄系统，其特征在于，所述序列维护模块包括：