CN105915798A

CN105915798A - 视频会议中摄像头的控制方法和控制装置

Info

Publication number: CN105915798A
Application number: CN201610390131.4A
Authority: CN
Inventors: 陈志军; 王百超; 杨松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2016-08-31

Abstract

本公开是关于一种视频会议中摄像头的控制方法和控制装置，属于智能控制技术领域。所述控制方法包括：获取参加视频会议的参与者的脸部图像；对参与者的脸部图像进行特征识别以确定参与者的嘴部特征；根据连续帧的脸部图像判断参与者的嘴部特征是否有变化；如果判断参与者的嘴部特征有变化，则确定参与者为发言者；以及控制视频会议中的摄像头对发言者进行对焦。实现了对发言者的准确定位，提升视频会议互动性，提升用户使用体验。

Description

视频会议中摄像头的控制方法和控制装置

技术领域

本公开涉及智能控制技术领域，尤其涉及一种视频会议中摄像头的控制方法和控制装置。

背景技术

视频会议，是指位于两个或多个地点的人们，通过通信设备和网络，进行面对面交谈的会议。使用视频会议系统，参会者可以听到其它会场的声音、看到其它会场现场参会人的形象、动作和表情，还可以发送电子演示内容。

但是，在视频会议时，通过摄像头拍摄的区域是固定的，与讲话者位于不同地点的参会者有时无法定位讲话者具体是哪一位，导致视频会议的互动性差，用户使用体验变差。

发明内容

为克服相关技术中存在的问题，本公开提供一种视频会议中摄像头的控制方法和控制装置。

根据本公开实施例的第一方面，提供一种视频会议中摄像头的控制方法，包括：

获取参加视频会议的参与者的脸部图像；

对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征；

根据连续帧的脸部图像判断所述参与者的嘴部特征是否有变化；

如果判断所述参与者的嘴部特征有变化，则确定所述参与者为发言者；以及

控制所述视频会议中的摄像头对所述发言者进行对焦。

如上所述的控制方法，在所述确定所述参与者为发言者之后，还包括：

控制所述摄像头转向所述发言者。

如上所述的控制方法，所述获取参加视频会议的参与者的脸部图像包括：

获取所述视频会议的图像；

对所述视频会议的图像进行人脸识别，以获取所述参加视频会议的参与者的脸部图像。

如上所述的控制方法，所述对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征包括：

对所述参与者的脸部图像进行特征识别，以确定所述脸部图像中嘴部的关键点位置；以及

根据所述嘴部的关键点位置确定所述参与者的嘴部特征。

如上所述的控制方法，还包括：

检测所述发言者与所述摄像头之间的距离；以及

根据所述发言者与所述摄像头之间的距离对所述摄像头的焦距进行调整。

如上所述的控制方法，通过红外距离传感器检测所述发言者与所述摄像头之间的距离。

如上所述的控制方法，还包括：

采集所述发言者的语音信息；

对所述发言者的语音信息进行语音识别以生成文字信息，并根据所述文字信息生成会议纪要。

根据本公开实施例的第二方面，提供一种视频会议中摄像头的控制装置，包括：

图像获取模块，用于获取参加视频会议的参与者的脸部图像；

图像识别模块，用于对所述图像获取模块获取的所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征；

判断模块，用于根据连续帧的脸部图像判断所述图像识别模块确定的所述参与者的嘴部特征是否有变化；

确定模块，用于在所述判断模块判断所述参与者的嘴部特征有变化时，确定所述参与者为发言者；以及

对焦控制模块，用于控制所述视频会议中的摄像头对所述确定模块确定的所述发言者进行对焦。

如上所述的控制装置，还包括：

转动控制模块，用于控制所述摄像头转向所述确定模块确定的所述发言者。

如上所述的控制装置，所述图像获取模块包括：

图像获取单元，用于获取所述视频会议的图像；

识别单元，用于对所述图像获取单元获取的所述视频会议的图像进行人脸识别，以获取所述参加视频会议的参与者的脸部图像。

如上所述的控制装置，所述图像识别模块包括：

关键点位置确定单元，用于对所述参与者的脸部图像进行特征识别，以确定所述脸部图像中嘴部的关键点位置；以及

确定单元，用于根据所述关键点位置确定单元确定的所述嘴部的关键点位置确定所述参与者的嘴部特征。

如上所述的控制装置，所述对焦控制模块，包括：

距离检测单元，用于检测所述发言者与所述摄像头之间的距离；以及

焦距控制单元，用于根据所述发言者与所述摄像头之间的距离对所述摄像头的焦距进行调整。

如上所述的控制装置，所述距离检测模块为红外距离传感器。

如上所述的控制装置，还包括：

采集模块，用于采集所述发言者的语音信息；

生成模块，用于对所述采集模块采集的所述发言者的语音信息进行语音识别以生成文字信息，并根据所述文字信息生成会议纪要。

根据本公开实施例的第三方面，提供一种视频会议中摄像头的控制装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取参加视频会议的参与者的脸部图像；

控制所述视频会议中的摄像头对所述发言者进行对焦。

本公开的实施例提供的技术方案可以包括以下有益效果：通过获取参加视频会议的参与者的脸部图像，对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征，根据参与者的嘴部特征的变化，确定所述参与者为发言者，进而控制所述视频会议中的摄像头对所述发言者进行对焦，准确地对发言者进行定位，提升视频会议互动性，提升用户使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频会议中摄像头的控制方法的流程图。

图2是确定脸部图像中嘴部的关键点位置的效果示意图。

图3是根据另一示例性实施例示出的一种视频会议中摄像头的控制方法的流程图。

图4是根据一示例性实施例示出的一种视频会议中摄像头的控制装置框图。

图5是根据另一示例性实施例示出的一种视频会议中摄像头的控制装置框图。

图6是根据一示例性实施例示出的一种视频会议中摄像头的控制装置600的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频会议中摄像头的控制方法的流程图，如图1所示，视频会议中摄像头的控制方法，包括以下步骤；

在步骤S101中，获取参加视频会议的参与者的脸部图像。

具体地，视频会议系统可通过摄像头获取视频会议的图像，然后对视频会议的图像进行人脸识别，从而获取参加视频会议的参与者的脸部图像。

在步骤S102中，对参与者的脸部图像进行特征识别以确定参与者的嘴部特征。

具体地，可对参与者的脸部图像进行特征识别，根据识别出的特征确定脸部图像中嘴部的关键点位置，然后可根据嘴部的关键点位置确定参与者的嘴部特征。举例来说，如图2所示，可通过ASM(Active Shape Model，动态形状模型)、SDM(Supervised Descent Method，监督倾斜法)、CNN(Convolutional neural networks，卷积神经网络)等算法，确定脸部图像中嘴部的关键点位置。具体地，脸部的几何形状可以通过N个关键特征点的坐标依次串联形成一个形状向量来表示。每个关键特征点均具有对应的坐标。也就是说，只需利用ASM模型等查找到哪些关键特征点是嘴部的(查找样本库中与当前关键特征点相似的嘴部特征样本，以此确认当前关键特征点是否为嘴部)，将嘴部的关键特征点与坐标关联起来，即确定嘴部的关键点位置。

在步骤S103中，根据连续帧的脸部图像判断参与者的嘴部特征是否有变化。

具体地，在确定嘴部的关键点位置之后，可通过连续帧的脸部图像查看嘴部的关键点位置是否有变化，从而判断参与者的嘴部特征是否有变化。

在步骤S104中，如果判断参与者的嘴部特征有变化，则确定参与者为发言者。

经过多个连续帧的脸部图像的判断，如果参与者的嘴部特征有变化，即嘴部位置产生位移或者嘴部形状发生变化，则可确定参与者为发言者。

在步骤S105中，控制视频会议中的摄像头对发言者进行对焦。

在确定发言者之后，可控制视频会议中的摄像头对发言者进行对焦。具体地，可通过红外距离传感器检测发言者与摄像头之间的距离，然后根据发言者与摄像头之间的距离对摄像头的焦距进行调整，使得发言者的图像能够清晰，从而完成对焦。

当然，在对发言者进行对焦时，可控制摄像头转向发言者，使发言者位于图像的中心位置，能够突出显示发言者，对发言者进行定位，让其他参与者能够得知当前的发言者是哪一位。

综上，本实施例提供的视频会议中摄像头的控制方法，通过获取参加视频会议的参与者的脸部图像，对参与者的脸部图像进行特征识别以确定参与者的嘴部特征，根据参与者的嘴部特征的变化，确定参与者为发言者，进而控制视频会议中的摄像头对发言者进行对焦，准确地对发言者进行定位，提升视频会议互动性，提升用户使用体验。

图3是根据另一示例性实施例示出的一种视频会议中摄像头的控制方法的流程图，

如图3所示，视频会议中摄像头的控制方法，可以包括如下几个步骤：

在步骤S301中，获取参加视频会议的参与者的脸部图像。

在步骤S302中，对参与者的脸部图像进行特征识别以确定参与者的嘴部特征。

在步骤S303中，根据连续帧的脸部图像判断参与者的嘴部特征是否有变化。

在步骤S304中，如果判断参与者的嘴部特征有变化，则确定参与者为发言者。

在步骤S305中，控制视频会议中的摄像头对发言者进行对焦。

在步骤S306中，采集发言者的语音信息。

在对发言者进行对焦时，视频会议系统还可通过麦克风等录音设备采集发言者的语音信息。

在步骤S307中，对发言者的语音信息进行语音识别以生成文字信息，并根据文字信息生成会议纪要。

在采集发言者的语音信息后，可对语音信息进行语音识别，通过语音转换文本技术将语音信息转换成文字信息，然后记录转换后的文字信息，将上述文字信息作为会议纪要进行保存。

综上，本实施例提供的视频会议中摄像头的控制方法，通过采集发言者的语音信息，然后对发言者的语音信息进行语音识别以生成文字信息，并根据文字信息生成会议纪要，在定位发言者的同时，还可记录发言者的语音信息，省去人工记录会议纪要的繁琐，提升用户使用体验。

图4是根据一示例性实施例示出的一种视频会议中摄像头的控制装置框图，该控制装置可以通过软件、硬件或者两者的结合实现。如图4所示，该控制装置包括图像获取模块11、图像识别模块12、判断模块13、确定模块14和对焦控制模块15。

图像获取模块11被配置为对图像获取模块获取的参与者的脸部图像进行特征识别以确定参与者的嘴部特征。

其中，图像获取模块11包括图像获取单元111和识别单元112。

图像获取单元111被配置为获取视频会议的图像。

识别单元112被配置为对图像获取单元获取的视频会议的图像进行人脸识别，以获取参加视频会议的参与者的脸部图像。

图像识别模块12被配置为根据运动状态信息判断用户的平衡状态是否满足预设要求。

其中，图像识别模块12包括关键点位置确定单元121和确定单元122。

关键点位置确定单元121被配置为对参与者的脸部图像进行特征识别，以确定脸部图像中嘴部的关键点位置。

确定单元122被配置为根据关键点位置确定单元确定的嘴部的关键点位置确定参与者的嘴部特征。

判断模块13被配置为根据连续帧的脸部图像判断图像识别模块确定的参与者的嘴部特征是否有变化。

确定模块14被配置为在判断模块判断参与者的嘴部特征有变化时，确定参与者为发言者。

对焦控制模块15被配置为控制视频会议中的摄像头对确定模块确定的发言者进行对焦。

其中，对焦控制模块15包括距离检测单元151和焦距控制单元152。

距离检测单元151被配置为检测发言者与摄像头之间的距离。

焦距控制单元152被配置为根据发言者与摄像头之间的距离对摄像头的焦距进行调整。

关于上述实施例中的控制装置，其中各个模块执行操作的具体方式已经在有关该控制方法的实施例中进行了详细描述，此处将不做详细阐述说明。

综上，本实施例提供的视频会议中摄像头的控制装置，通过获取参加视频会议的参与者的脸部图像，对参与者的脸部图像进行特征识别以确定参与者的嘴部特征，根据参与者的嘴部特征的变化，确定参与者为发言者，进而控制视频会议中的摄像头对发言者进行对焦，准确地对发言者进行定位，提升视频会议互动性，提升用户使用体验。

图5是根据另一示例性实施例示出的一种视频会议中摄像头的控制装置框图，该控制装置可以通过软件、硬件或者两者的结合实现。如图5所示，视频会议中摄像头的控制装置，包括：图像获取模块11、图像识别模块12、判断模块13、确定模块14、对焦控制模块15、转动控制模块16、采集模块17和生成模块18。

其中，图像获取模块11、图像识别模块12、判断模块13、确定模块14、对焦控制模块15与上一实施例描述一致，故此处不赘述。

转动控制模块16被配置为控制摄像头转向确定模块确定的发言者。

采集模块17被配置为采集发言者的语音信息。

生成模块18被配置为对采集模块采集的发言者的语音信息进行语音识别以生成文字信息，并根据文字信息生成会议纪要。

综上，本实施例提供的视频会议中摄像头的控制装置，通过采集发言者的语音信息，然后对发言者的语音信息进行语音识别以生成文字信息，并根据文字信息生成会议纪要，在定位发言者的同时，还可记录发言者的语音信息，省去人工记录会议纪要的繁琐，提升用户使用体验。

如图6所示，装置600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，传感器组件608，以及通信组件610。

处理组件602通常控制控制装置600的整体操作，诸如与显示，数据通信，记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在控制装置600上操作的任何应用程序或方法的指令。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为控制装置600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为控制装置600生成、管理和分配电力相关联的组件。

传感器组件608包括一个或多个传感器，用于为控制装置600提供各个方面的状态评估。传感器组件608可以包括加速度传感器、压力传感器，被配置用来检测加速度和压力值。

通信组件610被配置为便于控制装置600和其他设备之间有线或无线方式的通信。控制装置600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件610经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。

在示例性实施例中，控制装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由控制装置600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由视频会议系统的处理器执行时，使得视频会议系统能够执行一种视频会议中摄像头的控制方法，所述控制方法包括：

获取参加视频会议的参与者的脸部图像；

对参与者的脸部图像进行特征识别以确定参与者的嘴部特征；

根据连续帧的脸部图像判断参与者的嘴部特征是否有变化；

如果判断参与者的嘴部特征有变化，则确定参与者为发言者；以及

控制视频会议中的摄像头对发言者进行对焦。

关于上述实施例中的控制装置，其中处理器执行操作的具体方式已经在有关该控制方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频会议中摄像头的控制方法，其特征在于，包括以下步骤：

获取参加视频会议的参与者的脸部图像；

控制所述视频会议中的摄像头对所述发言者进行对焦。

2.如权利要求1所述的视频会议中摄像头的控制方法，其特征在于，在所述确定所述参与者为发言者之后，还包括：

控制所述摄像头转向所述发言者。

3.如权利要求1所述的视频会议中摄像头的控制方法，其特征在于，所述获取参加视频会议的参与者的脸部图像包括：

获取所述视频会议的图像；

4.如权利要求1所述的视频会议中摄像头的控制方法，其特征在于，所述对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征包括：

根据所述嘴部的关键点位置确定所述参与者的嘴部特征。

5.如权利要求1所述的视频会议中摄像头的控制方法，其特征在于，控制所述视频会议中的摄像头对所述发言者进行对焦，包括：

检测所述发言者与所述摄像头之间的距离；以及

6.如权利要求5所述的视频会议中摄像头的控制方法，其特征在于，通过红外距离传感器检测所述发言者与所述摄像头之间的距离。

7.如权利要求1所述的视频会议中摄像头的控制方法，其特征在于，还包括：

采集所述发言者的语音信息；

8.一种视频会议中摄像头的控制装置，其特征在于，包括：

9.如权利要求8所述的视频会议中摄像头的控制装置，其特征在于，还包括：

10.如权利要求8所述的视频会议中摄像头的控制装置，其特征在于，所述图像获取模块包括：

图像获取单元，用于获取所述视频会议的图像；

11.如权利要求8所述的视频会议中摄像头的控制装置，其特征在于，所述图像识别模块包括：

12.如权利要求8所述的视频会议中摄像头的控制装置，其特征在于，所述对焦控制模块，包括：

13.如权利要求12所述的视频会议中摄像头的控制装置，其特征在于，所述距离检测模块为红外距离传感器。

14.如权利要求8所述的视频会议中摄像头的控制装置，其特征在于，还包括：

采集模块，用于采集所述发言者的语音信息；

15.一种视频会议中摄像头的控制装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取参加视频会议的参与者的脸部图像；

控制所述视频会议中的摄像头对所述发言者进行对焦。