CN109492506A

CN109492506A - 图像处理方法、装置和系统

Info

Publication number: CN109492506A
Application number: CN201710820963.XA
Authority: CN
Inventors: 刘源
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2019-03-19

Abstract

本申请实施例提供一种图像处理方法、装置和系统，该方法包括：图像处理装置获取多帧待检测图像；每帧待检测图像包括参加视频会议的同一会场内的至少一个待检测对象；图像处理装置根据多帧待检测图像，从至少一个待检测对象中确定待特写对象；图像处理装置根据待特写对象在每帧待检测图像中的嘴部开合度，确定待特写对象处于发言状态；图像处理装置输出待特写对象的特写图像。本申请实施例提供的图像处理方法、装置和系统，图像处理装置可以通过对待特写对象进行唇动检测的方式，准确的识别待特写对象是否正在发言，使定位发言人的方式不受视频会议会场的环境的影响，提高了定位发言人的精度。

Description

图像处理方法、装置和系统

技术领域

本申请实施例涉及图像处理技术，尤其涉及一种图像处理方法、装置和系统。

背景技术

视频会议是指位于两个或多个地点的人们，通过通信设备和网络进行面对面交谈的会议。现有技术中，通常会采用跟踪摄像机，使用声源定位的方式定位视频会议中正在发言的人，并输出该发言人的特写镜头。这样，参会者可以通过特写镜头观看发言人的面部表情和动作细节，使得参会者能够获得良好的体验，保障了视频会议的效果。

具体地，跟踪摄像机通常设置有一个水平阵列麦克风(Microphone，MIC)和一个垂直阵列MIC。其中，水平阵列MIC用于定位发言人嘴部的水平角度，垂直阵列MIC用于定位发言人嘴部的垂直角度。因此，基于水平阵列MIC和垂直阵列MIC的定位结果，可以确定发言人的位置，进而可以调整摄像机输出发言人的特写镜头。

然而，上述跟踪摄像机在采用声源定位的方式定位发言人时，易受视频会议会场的环境的影响，导致跟踪摄像机定位发言人的精度较低，无法满足实际使用时的需求。

发明内容

本申请实施例提供一种图像处理方法、装置和系统，用于解决现有技术中跟踪摄像机定位发言人的精度较低的技术问题。

第一方面，本申请实施例提供一种图像处理方法，该方法包括：

图像处理装置获取多帧待检测图像；每帧所述待检测图像包括参加视频会议的同一会场内的至少一个待检测对象；

所述图像处理装置根据所述多帧待检测图像，从所述至少一个待检测对象中确定待特写对象；

所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态；

所述图像处理装置输出所述待特写对象的特写图像。

通过第一方面提供的图像处理方法，图像处理装置通过对从待检测图像中确定的待特写对象进行唇动检测的方式，可以准确的识别待特写对象是否正在发言，使定位发言人的方式不再受视频会议会场的环境的影响，提高了定位发言人的精度。

在一种可能的实施方式中，所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，包括：

所述图像处理装置根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部开合度；其中，所述嘴部特征点包括：位于左嘴角的特征点、位于右嘴角的特征点、位于上嘴唇的特征点和位于下嘴唇的特征点。

通过该可能的实施方式提供的图像处理方法，图像处理装置可以基于待特写对象的嘴部特征点在每帧所述待检测图像中的位置，确定待特写对象在每帧所述待检测图像中的嘴部开合度，进而可以基于待特写对象在每帧所述待检测图像中的嘴部开合度，准确的识别待特写对象是否正在发言，使定位发言人的方式不再受视频会议会场的环境的影响，提高了定位发言人的精度。

在一种可能的实施方式中，所述图像处理装置根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部开合度，包括：

所述图像处理装置根据所述待特写对象位于左嘴角的特征点在每帧所述待检测图像中的位置，以及位于右嘴角的特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部长度；根据所述待特写对象位于上嘴唇的特征点在每帧所述待检测图像中的位置，以及位于下嘴唇的特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部宽度；

所述图像处理装置将所述待特写对象在每帧所述待检测图像中的嘴部长度和嘴部宽度的比值作为所述待特写对象在每帧所述待检测图像中的嘴部开合度。

通过该可能的实施方式提供的图像处理方法，图像处理装置可以基于待特写对象在每帧待检测图像中的嘴部长度和嘴部宽度，确定待特写对象在每帧所述待检测图像中的嘴部开合度，进而可以基于待特写对象在每帧所述待检测图像中的嘴部开合度，准确的识别待特写对象是否正在发言，使定位发言人的方式不再受视频会议会场的环境的影响，提高了定位发言人的精度。

在一种可能的实施方式中，所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态，包括：

所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象的嘴部开合度的均值和嘴部开合度的方差；

所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时，确定所述待特写对象处于发言状态。

通过该可能的实施方式提供的图像处理方法，图像处理装置可以基于待特写对象在每帧待检测图像中的嘴部开合度的均值和方差，准确的识别待特写对象是否正在发言，使定位发言人的方式不再受视频会议会场的环境的影响，提高了定位发言人的精度。

在一种可能的实施方式中，所述方法还包括：

所述图像处理装置获取所述待特写对象在每帧所述待检测图像中的嘴部图像的亮度直方图；

所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时，确定所述待特写对象处于发言状态，包括：

所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值，以及，所述亮度直方图的像素占比大于或等于预设像素占比阈值时，确定所述待特写对象处于发言状态，所述像素占比为所述亮度直方图中亮度小于预设亮度阈值的像素数量占所述亮度直方图的总像素数量的比值。

通过该可能的实施方式提供的图像处理方法，上述图像处理装置可以综合待特写对象的嘴部开合度，以及，嘴部图像的亮度直方图，来准确的判断待特写对象是否处于发言状态，进一步提高判断待特写对象是否处于发言状态的准确性。

在一种可能的实施方式中，所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，还包括：

所述图像处理装置获取所述视频会议的声源定位对象；

所述图像处理装置在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值，以及，所述声源定位对象为所述待特写对象时，确定所述待特写对象处于发言状态。

通过该可能的实施方式提供的图像处理方法，图像处理装置可以综合唇动检测的结果，以及，声源定位的结果，来准确的判断待特写对象是否处于发言状态，进一步提高判断待特写对象是否处于发言状态的准确性。

在一种可能的实施方式中，所述图像处理装置根据所述多帧待检测图像，从所述至少一个待检测对象中确定待特写对象，包括：

所述图像处理装置将在每帧所述待检测图像中满足相同预设条件的待检测对象作为所述待特写对象；

所述预设条件包括以下至少一项：

所述待检测对象的运动速度小于或等于预设运动速度阈值，所述待检测对象的脸部面积大于或等于预设脸部面积阈值，所述待检测对象的脸部的水平转动角度小于或等于预设水平角度阈值，所述待检测对象的脸部的俯仰角度小于或等于预设俯仰角度阈值。

通过该可能的实施方式提供的图像处理方法，图像处理装置通过预设条件，从至少一个待检测对象中筛选出符合唇动检测条件的待检测对象作为待特写对象，从而通过对待特写对象进行唇动检测的方式，可以准确的识别待特写对象是否正在发言，使定位发言人的方式不再受视频会议会场的环境的影响，提高了定位发言人的精度。

在一种可能的实施方式中，所述图像处理装置获取多帧待检测图像，包括：

所述图像处理装置获取所述视频会议的同一会场的多帧全景图像；

所述图像处理装置对所述多帧全景图像进行图像预处理，得到所述多帧待检测图像。

通过该可能的实施方式提供的图像处理方法，图像处理装置可以基于全景摄像头拍摄的全景图像，通过唇动检测的方式，准确的识别待特写对象是否正在发言，不再依赖于声源定位的方法，因此，可以在视频会议的会场布设无水平阵列MIC和垂直阵列MIC的小型化摄像机，以在小型化的摄像机上实现语音跟踪功能，提高了定位发言人的精度，也提高了用户体验。

所述图像处理装置获取所述视频会议声源定位对象的多帧初始特写图像；

所述图像处理装置对所述多帧初始特写图像进行图像预处理，得到所述多帧待检测图像。

通过该可能的实施方式提供的图像处理方法，图像处理装置可以获取声源定位的声源定位对象的多帧初始特写图像，以使得图像处理装置可以基于声源定位对象的多帧初始特写图像，对声源定位对象进行唇动检测，以确定的声源定位对象是否处于发言状态，从而修正现有的含有水平阵列MIC和垂直阵列MIC的摄像机的声源定位结果，提高了定位发言人的精度。

所述图像处理装置获取所述视频会议的多帧全景图像；

所述图像处理装置根据所述视频会议的声源水平定位角度，确定在所述全景图像中的搜索范围；

所述图像处理装置根据所述搜索范围，从所述多帧全景图像中提取多帧待搜索图像；

所述图像处理装置对所述多帧待搜索图像进行图像预处理，得到所述多帧待检测图像。

通过该可能的实施方式提供的图像处理方法，图像处理装置可以通过水平阵列MIC的声源水平定位角度，缩减进行唇动检测的图像的大小，从而使图像处理装置可以基于待搜索图像检测处于发言状态的待特写对象，而不用基于全景图像检测处于发言状态的待特写对象，提高了检测处于发言状态的待特写对象的效率。

在一种可能的实施方式中，所述待特写对象为多个，则所述图像处理装置输出所述待特写对象的特写图像，包括：

所述图像处理装置输出包括所有待特写对象的特写图像。

通过该可能的实施方式提供的图像处理方法，使得图像处理装置可以在会场有多个发言人时，能够输出包括所有发言人的特写图像，提高了用户体验。

第二方面，本申请实施例提供一种图像处理装置，包括：

处理模块，用于获取多帧待检测图像；并根据所述多帧待检测图像，从所述至少一个待检测对象中确定待特写对象；根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态；其中，每帧所述待检测图像包括参加视频会议的同一会场内的至少一个待检测对象；

输出模块，用于输出所述待特写对象的特写图像。

在一种可能的实施方式中，所述处理模块，还用于在根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部开合度；其中，所述嘴部特征点包括：位于左嘴角的特征点、位于右嘴角的特征点、位于上嘴唇的特征点和位于下嘴唇的特征点。

在一种可能的实施方式中，所述处理模块，具体用于根据所述待特写对象位于左嘴角的特征点在每帧所述待检测图像中的位置，以及位于右嘴角的特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部长度；根据所述待特写对象位于上嘴唇的特征点在每帧所述待检测图像中的位置，以及位于下嘴唇的特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部宽度；并将所述待特写对象在每帧所述待检测图像中的嘴部长度和嘴部宽度的比值作为所述待特写对象在每帧所述待检测图像中的嘴部开合度。

在一种可能的实施方式中，所述处理模块，具体用于根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象的嘴部开合度的均值和嘴部开合度的方差；并在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时，确定所述待特写对象处于发言状态。

在一种可能的实施方式中，所述处理模块，还用于获取所述待特写对象在每帧所述待检测图像中的嘴部图像的亮度直方图；

所述处理模块，具体用于在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值，以及，所述亮度直方图的像素占比大于或等于预设像素占比阈值时，确定所述待特写对象处于发言状态，所述像素占比为所述亮度直方图中亮度小于预设亮度阈值的像素数量占所述亮度直方图的总像素数量的比值。

在一种可能的实施方式中，所述处理模块，还用于在根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，获取所述视频会议的声源定位对象；

所述处理模块，具体用于在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值，以及，所述声源定位对象为所述待特写对象时，确定所述待特写对象处于发言状态。

在一种可能的实施方式中，所述处理模块，具体用于将在每帧所述待检测图像中满足相同预设条件的待检测对象作为所述待特写对象；

所述预设条件包括以下至少一项：

在一种可能的实施方式中，所述处理模块，具体用于获取所述视频会议的同一会场的多帧全景图像，并对所述多帧全景图像进行图像预处理，得到所述多帧待检测图像。

在一种可能的实施方式中，所述处理模块，具体用于获取所述视频会议声源定位对象的多帧初始特写图像，并对所述多帧初始特写图像进行图像预处理，得到所述多帧待检测图像。

在一种可能的实施方式中，所述处理模块，具体用于获取所述视频会议的多帧全景图像，根据所述视频会议的声源水平定位角度，确定在所述全景图像中的搜索范围，根据所述搜索范围，从所述多帧全景图像中提取多帧待搜索图像，并对所述多帧待搜索图像进行图像预处理，得到所述多帧待检测图像。

在一种可能的实施方式中，所述输出模块，具体用于在所述待特写对象为多个时，输出包括所有待特写对象的特写图像。

上述第二方面以及第二方面的各可能的实施方式所提供的图像处理装置，其有益效果可以参见上述第一方面和第一方面的各可能的实施方式所带来的有益效果，在此不再赘述。

第三方面，本申请实施例提供一种图像处理装置，包括：存储器和处理器，以及存储在所述存储器上可供所述处理器执行的计算机程序；

所述处理器执行所述计算机程序实现如上述第一方面和第一方面的各可能的实施方式所提供的图像处理方法的步骤。

第四方面，本申请实施例提供一种图像处理装置，包括用于执行以上第一方面的方法的至少一个处理元件(或芯片)。

第五方面，本申请实施例提供一种图像处理系统，包括：前述任一方面所述的图像处理装置。

第六方面，本申请实施例提供一种程序，该程序在被处理器执行时用于执行以上第一方面的方法。

第七方面，本申请实施例提供一种程序产品，例如计算机可读存储介质，包括第六方面的程序。

第八方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面的方法。

本申请实施例提供的图像处理方法、装置和系统，图像处理装置通过对从待检测图像中确定的待特写对象进行唇动检测的方式，可以准确的识别待特写对象是否正在发言，使定位发言人的方式不再受视频会议会场的环境的影响，提高了定位发言人的精度。

附图说明

图1为全景图像的示意图；

图2为本申请实施例提供的一种图像处理方法的流程示意图；

图3为本申请实施例提供的一种待特写对象的示意图；

图4为本申请实施例提供的视频会议的场景示意图一；

图5为本申请实施例提供的另一种图像处理方法的流程示意图；

图6为本申请实施例提供的视频会议的场景示意图二；

图7为本申请实施例提供的又一种图像处理方法的流程示意图；

图8为本申请实施例提供的又一种图像处理方法的流程示意图；

图9为本申请实施例提供的全景图像的示意图；

图10为本申请实施例提供的一种图像处理装置的结构示意图；

图11为本申请实施例提供的另一种图像处理装置的结构示意图。

具体实施方式

现有技术中，跟踪摄像机设置有一个水平阵列MIC和一个垂直阵列MIC。因此，跟踪摄像机可以通过水平阵列MIC和垂直阵列MIC，对跟踪摄像机所在的视频会议的会场进行声源定位，同时对该会场进行全景拍摄。

图1为全景图像的示意图。如图1所示，跟踪摄像机可以通过一个平面直角坐标系对拍摄的全景图像进行标记。其中，全景图像的中心点(即0点)为平面直角坐标系的原点，平面直角坐标系的水平数轴(即x轴)上的刻度为全景图像的水平角度，平面直角坐标系的垂直数轴(即y轴)上的刻度为全景图像的垂直角度。需要说明的是，图1所示出的刻度仅是一种示意，本申请实施例并不对刻度的大小进行限定。

因此，跟踪摄像机可以基于水平阵列MIC定位的发言人嘴部在全景图像中的水平角度、垂直阵列MIC定位的发言人嘴部在全景图像中的垂直角度，确定发言人在全景图像中的位置，进而输出该发言人的特写图像。这样，参会者可以通过特写镜头观看发言人的面部表情和动作细节，使得参会者能够获得良好的体验，保障了视频会议的效果。

然而，受视频会议会场的环境的影响，发言人在发言时，声音可能会产生混响和/或反射。因此，上述跟踪摄像机在采用声源定位的方式定位发言人时，定位精度较低。因此，考虑到上述问题，本申请实施例提供了一种图像处理方法，图像处理装置可以通过对从待检测图像中确定的待特写对象进行唇动检测的方式，准确的识别待特写对象是否正在发言，使定位发言人的方式不受视频会议会场的环境的影响，提高了定位发言人的精度。

本申请实施例所涉及的图像处理装置可以为具有处理功能的摄像机(例如跟踪摄像机)，还可以为能够与摄像机进行通信的通信设备，例如，终端设备、服务器、计算机等。其中，终端设备可以是无线终端也可以是有线终端，无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network，RAN)与一个或多个核心网进行通信，无线终端可以是移动终端，如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。例如，个人通信业务(Personal CommunicationService，PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol，SIP)话机、无线本地环路(Wireless Local Loop，WLL)站、个人数字助理(Personal DigitalAssistant，PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station)，移动站(Mobile Station)、移动台(Mobile)、远程站(RemoteStation)、远程终端(Remote Terminal)、接入终端(Access Terminal)、用户终端(UserTerminal)、用户代理(User Agent)、用户设备(User Device or User Equipment)，具有网络接入功能的传感器，在此不作限定。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请实施例提供的一种图像处理方法的流程示意图。本实施例涉及的是图像处理装置通过对待特写对象的唇动检测，确定待特写对象是否处于发言状态的具体过程。如图2所示，该方法可以包括：

S101、图像处理装置获取多帧待检测图像；每帧待检测图像包括参加视频会议的同一会场内的至少一个待检测对象。

其中，上述多帧待检测图像可以为该会场的摄像机连续拍摄的多帧图像，还可以为对该摄像机连续拍摄的多帧图像进行图像预处理后得到的多帧图像。这里所说的图像预处理可以包括：图像校正、图像降噪、图像亮度调节、图像色度调节等。通过图像预处理，可以去除原始图像中的镜头畸变、噪声、环境亮度和摄像头结构偏差等导致的不利影响，能够提高后续唇动检测的准确率。

需要说明的是，本申请实施例对上述多帧待检测图像的帧数不进行限定，例如，上述多帧待检测图像的帧数的取值范围可以为5至10之间的任一整数。

S102、图像处理装置根据多帧待检测图像，从至少一个待检测对象中确定待特写对象。

具体的，上述图像处理装置在获取到多帧待检测图像之后，可以从该多帧待检测图像所包括的至少一个待检测对象中筛选出具备唇动检测条件的对象，并将具备唇动检测条件的对象作为待特写对象。其中，这里所说的具备唇动检测条件例如可以为运动幅度较小、距离摄像机较近、侧脸角度较小等中的一项或多项。

可选的，上述图像处理装置可以采用现有的检测运动对象的方法，例如，背景差分法、帧间差分法、光流法等，对每帧待检测图像和该帧待检测图像的前一帧图像进行处理，以获取至少一个待检测对象在每帧待检测图像中的运动信息。其中，这里所说的运动信息例如可以包括待检测对象的运动速度、处于运动状态的待检测对象的面积等。若处于运动状态的待检测对象的面积大于或等于预设面积阈值，说明该会场处于不稳定状态(例如：会场中有人走来走去)。在该场景下，流程可以结束，即图像处理装置不再执行后续的动作。

上述图像处理装置可以采用现有的检测人脸的方法，例如，haar特征分类器和Adaboosting，对每帧待检测图像进行人脸检测，得到至少一个待检测对象在每帧图像中的脸部信息。其中，这里所说的脸部信息例如可以包括：待检测对象的脸部面积、待检测对象的脸部的水平转动角度、待检测对象的脸部的俯仰角度等中的一项或多项。待检测对象的脸部面积可以反映出待检测对象的脸部距离摄像机的远近。

在获取到待检测对象在每帧待检测图像中的运动信息和脸部信息之后，上述图像处理装置可以将在每帧待检测图像中满足相同预设条件的待检测对象作为待特写对象。其中，这里所说的预设条件可以包括以下至少一项：待检测对象的运动速度小于或等于预设运动速度阈值、待检测对象的脸部面积大于或等于预设脸部面积阈值、待检测对象的脸部的水平转动角度小于或等于预设水平角度阈值、待检测对象的脸部的俯仰角度小于或等于预设俯仰角度阈值。

举例来说，上述图像处理装置可以将在每帧待检测图像中的运动速度均小于或等于预设运动速度阈值的待检测对象作为待特写对象。或者，上述图像处理装置可以将在每帧待检测图像中的脸部面积均大于或等于预设脸部面积阈值的待检测对象作为待特写对象。或者，上述图像处理装置可以将在每帧待检测图像中的脸部的水平转动角度均小于或等于预设水平角度阈值的待检测对象作为待特写对象。或者，上述图像处理装置可以将在每帧待检测图像中的脸部的俯仰角度均小于或等于预设俯仰角度阈值的待检测对象作为待特写对象。或者，上述图像处理装置可以将在每帧待检测图像中运动速度小于或等于预设运动速度阈值、脸部面积大于或等于预设脸部面积阈值的待检测对象作为待特写对象。或者，上述图像处理装置可以将在每帧待检测图像中脸部面积大于或等于预设脸部面积阈值、脸部的水平转动角度小于或等于预设水平角度阈值、脸部的俯仰角度小于或等于预设俯仰角度阈值的待检测对象作为待特写对象。或者，上述图像处理装置可以将在每帧待检测图像中运动速度小于或等于预设运动速度阈值、脸部面积大于或等于预设脸部面积阈值、脸部的水平转动角度小于或等于预设水平角度阈值、脸部的俯仰角度小于或等于预设俯仰角度阈值的待检测对象作为待特写对象。

需要说明的是，上述举例仅是一种示意。本领域技术人员可以理解的是，上述预设条件可以包括其中的某一项，也可以包括其中的几项，也可以包括所有项，对此不再一一列举和赘述。另外，上述预设运动速度阈值、预设脸部面积阈值、预设水平角度阈值、预设俯仰角度阈值具体可以根据会场的大小，和/或摄像机的位置确定。

可选的，上述图像处理装置可以根据多帧待检测图像，采用现有的其他方式，从至少一个待检测对象中筛选出具备唇动检测条件的对象，对此不再赘述。

S103、图像处理装置根据待特写对象在每帧待检测图像中的嘴部开合度，确定待特写对象处于发言状态。

具体的，上述嘴部开合度用于表征待特写对象的嘴部张开的程度。由于待特写对象在发言时，待特写对象嘴部的开合度交替变化的幅度较大，而总体均值较小。因此，图像处理装置在从至少一个待检测对象中确定待特写对象之后，可以根据待特写对象每帧待检测图像中的嘴部开合度，确定待特写对象是否处于发言状态。

例如，上述图像处理装置可以先根据待特写对象在每帧待检测图像中的嘴部开合度，确定待特写对象的嘴部开合度的均值和嘴部开合度的方差。然后，图像处理装置可以根据待特写对象的嘴部开合度的均值和嘴部开合度的方差，确定待特写对象是否处于发言状态。若待特写对象的嘴部开合度的均值小于或等于预设均值阈值，且待特写对象的嘴部开合度的方差小于预设方差阈值，则图像处理装置可以确定待特写对象处于闭嘴状态。若待特写对象的嘴部开合度的均值小于或等于预设均值阈值，且待特写对象的嘴部开合度的方差大于或等于预设方差阈值，则图像处理装置可以确定待特写对象处于发言状态。若待特写对象的嘴部开合度的均值大预设均值阈值，且待特写对象的嘴部开合度的方差小于预设方差阈值，则图像处理装置可以确定待特写对象处于张嘴状态。

在一些实施例中，上述图像处理装置还可以获取待特写对象在每帧待检测图像中的嘴部图像(即从待检测图像中裁剪出来的待特写对象嘴部的图像)的亮度直方图，以采用待特写对象在每帧待检测图像中的嘴部图像的亮度直方图，辅助确定待特写对象是否处于发言状态。由于待特写对象在处于张嘴状态时，待特写对象的嘴部图像的亮度较暗，使得嘴部图像的亮度直方图的亮度分布偏暗。而待特写对象在处于闭嘴状态时，待特写对象的嘴部图像的亮度较亮，使得嘴部图像的亮度直方图的亮度分布偏亮。因此，上述图像处理装置可以综合待特写对象的嘴部开合度，以及，嘴部图像的亮度直方图，来准确的判断待特写对象是否处于发言状态，进一步提高判断待特写对象是否处于发言状态的准确性。

例如，上述图像处理装置可以在待特写对象的嘴部开合度的均值小于或等于预设均值阈值，待特写对象的嘴部开合度的方差大于或等于预设方差阈值，以及，亮度直方图的像素占比大于或等于预设像素占比阈值时，确定待特写对象处于发言状态。其中，这里所说的像素占比为亮度直方图中亮度小于预设亮度阈值的像素数量占亮度直方图的总像素数量的比值。具体实现时，上述预设像素占比阈值具体可以根据用户的需求设定。

在一些实施例中，上述图像处理装置还可以通过机器学习算法，确定待特写对象是否处于发言状态。例如，通过预先建立嘴部开合度与发言状态的对应关系的模型，使得图像处理装置可以通过该模型来确定待特写对象是否处于发言状态，对此不再赘述。其中，上述所说的模型例如可以为现有技术中具有分类功能的模型，例如：随机森林模型、支持向量机(Support Vector Machine，SVM)模型、神经网络模型等。具体实现时，上述模型的输入参数可以为待特写对象的嘴部开合度，也可以为多帧待检测图像等。

进一步地，在图像处理装置根据待特写对象在每帧待检测图像中的嘴部开合度，确定待特写对象处于发言状态之前，上述图像处理装置还可以根据待特写对象的嘴部特征点在每帧待检测图像中的位置，确定待特写对象在每帧待检测图像中的嘴部开合度；其中，嘴部特征点包括：位于左嘴角的特征点、位于右嘴角的特征点、位于上嘴唇的特征点和位于下嘴唇的特征点。

图3为本申请实施例提供的一种待特写对象的示意图。如图3所示，示例性的，上述位于左嘴角的特征点可以为数字1所在的位置，上述位于右嘴角的特征点可以为数字2所在的位置，上述位于上嘴唇的特征点可以为数字3所在的位置，上述位于下嘴唇的特征点可以为数字4所在的位置。或者，上述位于左嘴角的特征点可以为数字1所在的位置，上述位于右嘴角的特征点可以为数字2所在的位置，上述位于上嘴唇的特征点可以为数字5所在的位置，上述位于下嘴唇的特征点可以为数字6所在的位置。可以理解，上述图3示出的嘴部特征点仅为一种示意。本申请实施例对上述嘴部特征点在嘴唇的位置并不进行限定，具体可以根据待特写对象嘴部的轮廓确定。

在本实施例中，上述图像处理装置可以根据待特写对象位于左嘴角的特征点在每帧待检测图像中的位置，以及位于右嘴角的特征点在每帧待检测图像中的位置，确定待特写对象在每帧待检测图像中的嘴部长度。即，位于左嘴角的特征点在每帧待检测图像中的位置，与位于右嘴角的特征点在每帧待检测图像中的位置之间的直线距离。上述图像处理装置可以根据待特写对象位于上嘴唇的特征点在每帧待检测图像中的位置，以及位于下嘴唇的特征点在每帧待检测图像中的位置，确定待特写对象在每帧待检测图像中的嘴部宽度。即，位于上嘴唇的特征点在每帧待检测图像中的位置，与位于下嘴唇的特征点在每帧待检测图像中的位置之间的直线距离。然后，图像处理装置可以将待特写对象在每帧待检测图像中的嘴部长度和嘴部宽度的比值作为待特写对象在每帧待检测图像中的嘴部开合度。其中，嘴部开合度的取值越大，说明待检测对象嘴部的张开程度也越大。

示例性的，假定上述图像处理装置获取了3帧待检测图像，分别为待检测图像1、待检测图像2、待检测图像3。以一个待特写对象为例，则该待特写对象在每帧待检测图像中的嘴部长度、嘴部宽度和嘴部开合度可以如表1所示。具体地，

表1

S104、图像处理装置输出待特写对象的特写图像。

具体的，图像处理装置在确定待特写对象处于发言状态后，可以输出待特写对象的特写图像。当图像处理装置所确定的处于发言状态的待特写对象仅有一个时，上述图像处理装置可以输出该待特写对象的特写图像。当图像处理装置所确定的处于发言状态的待特写对象有多个时，上述图像处理装置可以输出包括所有待特写对象的特写图像。

上述所说的包括所有待特写对象的特写图像可以为含有所有待特写对象的特写图像。在该实现方式下，若多个待特写对象中的至少两个待特写对象相互间隔的距离较远时，含有所有待特写对象的特写图像可能无法体现出处于发言状态的待特写对象的面部表情和动作细节，因此，上述图像处理装置可以放弃输出特写图像，仍然输出全景图像。

上述所说的包括所有待特写对象的特写图像还可以为使用各待特写对象的特写图像拼接形成的图像。其中，本实施例不限定上述各待特写对象的特写图像的拼接方式。以图像处理装置所确定的处于发言状态的待特写对象有2个为例，则上述图像处理装置可以输出由该2个待特写对象的特写图像拼接形成的图像。例如，该图像的左半部为一个待特写对象的特写图像，右半部为另外一个待特写对象的特写图像。或者，该图像的上半部为一个待特写对象的特写图像，下半部为另外一个待特写对象的特写图像等。

通过上述方式，参会者可以通过特写镜头观看发言人的面部表情和动作细节，使得参会者能够获得良好的体验，保障了视频会议的效果。

本申请实施例提供的图像处理方法，图像处理装置通过对从待检测图像中确定的待特写对象进行唇动检测的方式，可以准确的识别待特写对象是否正在发言，使定位发言人的方式不再受视频会议会场的环境的影响，提高了定位发言人的精度。

本申请实施例的方法可以不再依赖于声源定位的方法，因此，具体实施本申请实施例时，可以在视频会议的会场布设无水平阵列MIC和垂直阵列MIC的小型化摄像机，以在小型化的摄像机上实现语音跟踪功能。同时，本申请实施例的方法也可以用于修正现有的含有水平阵列MIC和垂直阵列MIC的摄像机的声源定位结果，以提高定位发言人的精度。下面，将结合具体的场景，来对本申请实施例提供的图像处理方法进行介绍。

图4为本申请实施例提供的视频会议的场景示意图一。如图4所示，在本实施例中，视频会议的一个会场的摄像机可以包括全景摄像头和至少一个PTZ摄像头，无水平阵列MIC和垂直阵列MIC。其中，PTZ摄像头为支持Pan/Tilt/Zoom操作的摄像头。Pan和Tilt为PTZ摄像头的云台的左右、上下运动，Zoom为PTZ摄像头的镜头的变倍、变焦控制。下面基于该场景，对本申请实施例提供的图像处理方法进行介绍。

图5为本申请实施例提供的另一种图像处理方法的流程示意图。本实施例涉及的是图像处理装置通过对待特写对象的唇动检测，确定待特写对象是否处于发言状态的具体过程。如图5所示，该方法可以包括：

S201、图像处理装置获取视频会议的同一会场的多帧全景图像。

具体的，图像处理装置可以获取该会场的全景摄像头拍摄的多帧全景图像。例如，图像处理装置可以获取该会场的全景摄像头拍摄的5至10帧全景图像。

S202、图像处理装置对多帧全景图像进行图像预处理，得到多帧待检测图像。

具体的，图像处理装置在获取到多帧全景图像之后，可以对每帧全景图像进行图像校正、图像降噪、图像亮度调节、图像色度调节等图像预处理，以得到多帧待检测图像。其中，每帧待检测图像包括参加视频会议的同一会场内的至少一个待检测对象。

S203、图像处理装置根据多帧待检测图像，从至少一个待检测对象中确定待特写对象。

可选的，上述图像处理装置可以将在每帧待检测图像中运动速度小于或等于预设运动速度阈值、脸部面积大于或等于预设脸部面积阈值、脸部的水平转动角度小于或等于预设水平角度阈值、脸部的俯仰角度小于或等于预设俯仰角度阈值的待检测对象作为待特写对象。通过这种方式，可以提高确定待特写对象是否处于发言状态的准确率。

S204、图像处理装置根据待特写对象的嘴部特征点在每帧待检测图像中的位置，确定待特写对象在每帧待检测图像中的嘴部开合度。

S205、图像处理装置根据待特写对象在每帧待检测图像中的嘴部开合度，确定待特写对象的嘴部开合度的均值和嘴部开合度的方差。

其中，步骤S204至步骤S205的描述可以参见前述S103的描述，对此不再赘述。

S206、图像处理装置根据待特写对象的嘴部开合度的均值和嘴部开合度的方差，确定待特写对象是否处于发言状态。若是，则执行S207，若否，则结束流程。

具体的，若待特写对象的嘴部开合度的均值小于或等于预设均值阈值，且待特写对象的嘴部开合度的方差大于或等于预设方差阈值，则图像处理装置确定待特写对象处于发言状态。否则，上述图像处理装置可以确定待特写对象未处于发言状态。在待特写对象未处于发言状态时，上述图像处理装置可以停止执行后续步骤，仍然继续输出视频会议的全景图像。

在一些实施例中，上述图像处理装置还可以采用待特写对象在每帧待检测图像中的嘴部图像的亮度直方图，辅助确定待特写对象是否处于发言状态，具体可以参见前述S103描述，对此不再赘述。

在一些实施例中，上述图像处理装置还可以通过机器学习算法，确定待特写对象是否处于发言状态。也就是说，通过预先建立嘴部开合度与发言状态的对应关系的模型，使得图像处理装置可以通过该模型来确定待特写对象是否处于发言状态，对此不再赘述。其中，上述所说的模型例如可以为现有技术中具有分类功能的模型，例如：随机森林模型、支持向量机(Support Vector Machine，SVM)模型、神经网络模型等。

可选的，在一些实施例中，若上述摄像机还包括水平阵列MIC和垂直阵列MIC，则在上述S206之前，上述图像处理装置还可以获取视频会议的声源定位对象(即处于发言状态的对象)。具体实现时，上述图像处理装置可以通过水平阵列MIC定位的声源定位对象(即正在发言的对象)嘴部在全景摄像头拍摄的全景图像中的水平角度、垂直阵列MIC定位的声源定位对象嘴部在该全景图像中的垂直角度，确定声源定位对象在该全景图像中的位置，具体过程可以参见前述关于现有技术的描述。

则在该实现方式下，上述S206还可以采用如下步骤替代：

上述图像处理装置根据待特写对象的嘴部开合度的均值和嘴部开合度的方差，以及，声源定位对象、待特写对象，确定待特写对象是否处于发言状态。

若待特写对象的嘴部开合度的均值小于或等于预设均值阈值，待特写对象的嘴部开合度的方差大于或等于预设方差阈值，以及，声源定位对象为待特写对象，则图像处理装置确定待特写对象处于发言状态。否则，上述图像处理装置可以确定待特写对象未处于发言状态。在待特写对象未处于发言状态时，上述图像处理装置可以停止执行后续步骤，仍然继续输出视频会议的全景图像。具体实现时，上述图像处理装置可以采用现有的人脸识别的方式，来确定声源定位对象是否为待特写对象，对此不再赘述。

S207、图像处理装置输出待特写对象的特写图像。

若图像处理装置所确定的处于发言状态的待特写对象仅有一个时，上述图像处理装置可以使其中一个PTZ摄像头拍摄并输出该待特写对象的特写图像。继续参照图4，如图4所示，假设该会场中有参会人员A、B、C，其中，A为待特写对象、且处于发言状态(即A为发言人)，则上述图像处理装置可以控制其中一个PTZ摄像头拍摄并输出该待特写对象A的特写图像(该图像也可以称为PTZ特写图像)。

若图像处理装置所确定的处于发言状态的待特写对象有多个，且PTZ摄像头的数量大于或等于处于发言状态的待特写对象时，上述图像处理装置可以控制一个PTZ摄像头拍摄一个处于发言状态的待特写对象。然后，上述图像处理装置可以输出使用各待特写对象的特写图像拼接形成的图像。若PTZ摄像头的数量小于处于发言状态的待特写对象时，上述图像处理装置可以控制其中一个PTZ摄像头拍摄并输出一个含有所有处于发言状态的待特写对象的特写图像。或者，无论PTZ摄像头的数量是否大于或等于处于发言状态的待特写对象，均控制其中一个PTZ摄像头拍摄并输出一个含有所有处于发言状态的待特写对象的特写图像等。

下面以输出一个待特写对象的特写图像为例，介绍图像处理装置控制PTZ摄像头拍摄一个处于发言状态的待特写对象的特写图像的过程。具体地，

上述图像处理装置可以根据待特写对象的脸部面积，以及，公式(1)，计算待特写对象距离全景摄像头的距离(也可以称为深度)。其中，上述待特写对象的脸部面积具体可以由图像处理装置采用现有的检测人脸的方法获得。

具体实现时，上述公式(1)例如可以如下述所示：

其中，d为待特写对象距离全景摄像头的距离(单位可以为mm)，L为人脸的物理尺寸(单位可以为mm)，l为待特写对象的脸部面积(单位可以为像素)，f为全景摄像头的等效焦距(可以通过摄像机的标定技术获得)。上述L的取值具体可以根据假设的物理人脸尺寸确定。

然后，上述图像处理装置可以根据待特写对象距离全景摄像头的深度，以及，公式(2)、公式(3)和公式(4)，计算得到待特写对象的脸部中心在全景摄像头坐标系中的空间三维坐标。其中，全景摄像头的光心位置为空间三维坐标的原点。

具体实现时，上述公式(2)、公式(3)和公式(4)例如可以如下述所示：

C＝d (4)

其中，A为待特写对象的脸部中心在空间三维坐标的x轴上的位置(单位为mm)，B为待特写对象的脸部中心在空间三维坐标的y轴上的位置(单位为mm)，C为待特写对象的脸部中心在空间三维坐标的z轴上的位置(单位为mm)，a为待特写对象的脸部中心的图像水平坐标(单位为像素)，b为待特写对象的脸部中心的图像垂直坐标(单位为像素)。

上述图像处理装置计算得到待特写对象的脸部中心在全景摄像头坐标系中的空间三维坐标之后，可以使用该空间三维坐标、全景摄像头和PTZ摄像头之间的位置关系，以及下述公式(5)，计算得到待特写对象的脸部中心在PTZ摄像头坐标系中的三维空间位置。具体实现时，上述公式(5)例如可以如下述所示：

X₂＝R₂₁X₁+t₂₁ (5)

其中，X₁为待特写对象的脸部中心在全景摄像头坐标系中的坐标向量{A,B,C}，R₂₁为全景摄像头相对于PTZ摄像头之间的旋转关系，t₂₁为全景摄像头与PTZ摄像头之间的平移关系。具体可以通过摄像机标定技术得到)，X₂为待特写对象的脸部中心在PTZ摄像头坐标系中的坐标向量{X,Y,Z}，即三维空间位置。X为待特写对象的脸部中心在PTZ摄像头坐标系中的x轴上的位置(单位为mm)，Y为待特写对象的脸部中心在PTZ摄像头坐标系中的y轴上的位置(单位为mm)，Z为待特写对象的脸部中心在PTZ摄像头坐标系中的z轴上的位置(单位为mm)。

因此，上述图像处理装置可以基于待特写对象的脸部中心在PTZ摄像头坐标系中的三维空间位置{X,Y,Z}，将待特写对象的脸部中心重投到PTZ摄像头的一个固定位置(通常为PTZ摄像头的Home位置)的成像面上，以确定待特写对象在PTZ摄像头图像中的位置。

上述图像处理装置在将待特写对象的脸部中心重投到PTZ摄像头的一个固定位置的成像面上之后，可以采用摄像机旋转模型计算PTZ摄像头的PT的角度(即左右上下的角度)，使位于PTZ摄像头的Home位置处的待特写对象的脸部中心调整到特写位置上。假设待特写对象的脸部中心在PTZ摄像头的成像平面上的目标特写位置像素坐标为x₀,y₀，待特写对象的脸部中心在PTZ摄像头的成像平面上的当前像素坐标位置为x_c,y_c，则分别绕X轴和Y轴旋转，使待特写对象的像素位置和目标特写位置重合，则PTZ摄像头的Pan的旋转角度Δp如公式(6)所示，PTZ摄像头的Tilt的旋转角度Δt如公式(7)所示。具体地，

其中，f_x，f_y为PTZ摄像头拍摄特写图像时的等效焦距。需要说明的是，由于PTZ摄像头为变焦相机，因此，可以根据PTZ摄像头的变焦倍数Z，以及，公式(8)、公式(9)，计算f_x和f_y。具体地，

f_x＝a₀+a₁Z+a₂Z²+...a_nZⁿ (8)

f_y＝b₀+b₁Z+b₂Z²+...b_nZⁿ (9)

其中，上述a₀至a_n、b₀至b_n为多项式拟合的系数。PTZ摄像头的Z值由特写的放大倍数确定。该放大倍数和待特写对象距离全景摄像头的深度d有关，d越小，放大倍数越小，d越大，放大倍数也越大。

上述图像处理装置在得到PTZ摄像头的Pan和Tilt操作的旋转角度之后，可以根据Δp和Δt对PTZ摄像头进行调整，以使得PTZ摄像头拍摄待特写对象的特写图像的拍摄效果较佳。这样，参会者可以通过特写镜头观看发言人的面部表情和动作细节，使得参会者能够获得良好的体验，保障了视频会议的效果。

图6为本申请实施例提供的视频会议的场景示意图二。如图6所示，在本实施例中，上述视频会议的一个会场的摄像机包括全景摄像头，无PTZ摄像头、无水平阵列MIC、无垂直阵列MIC。其中，该全景摄像头可以为大广角、高分辨率的定焦镜头，没有云台和光学变焦系统。则在该场景下，上述图像处理装置可以继续沿用上述S201-S206的方式，确定处于发言状态的待特写对象。

上述图像处理装置在确定处于发言状态的待特写对象之后，可以采用ePTZ方式(也可以称为电子云台)输出待特写对象的特写图像。示例性的，假设该会场中有参会人员A、B、C，其中，A为待特写对象、且处于发言状态(即A为发言人)，则上述图像处理装置可以根据该待特写对象A的脸部中心在全景图像中的位置，确定特写区域。其中，上述特写区域的宽高比可以为16:9，待特写对象A的脸部中心在特写区域中位于水平居中、垂直中心偏上的位置，且待特写对象A约占整个特写区域高度的2/3等。上述图像处理装置在确定特写区域后，可以将特写区域从全景图像中剪裁出来作为待特写对象A的特写图像(该图像也可以称为ePTZ特写图像)。

若上述图像处理装置确定的处于发言状态的待特写对象有多个，以则图像处理装置可以根据每个待特写对象的脸部中心在全景图像中的位置，确定特写区域，以使得该特写区域可以涵盖所有处于发言状态的待特写对象。上述图像处理装置在确定特写区域后，可以将特写区域从全景图像中剪裁出来作为待特写对象的特写图像。

需要说明的是，若上述特写区域的分辨率和特写图像的分辨率不一致，则需要在裁剪之前，对全景图像进行缩小或放大处理，以使得特写区域的分辨率等于特写图像的分辨率。例如，若特写图像的分辨率高于特写区域的分辨率，则可以在裁剪之前，对全景图像进行放大处理。若特写图像的分辨率小于特写区域的分辨率，则可以在裁剪之前，对全景图像进行缩小处理等。

图7为本申请实施例提供的又一种图像处理方法的流程示意图。在本实施例中，视频会议的一个会场的摄像机可以包括全景摄像头、水平阵列MIC和垂直阵列MIC。可选的，该摄像机还可以包括PTZ摄像头。本实施例涉及的是上述图像处理装置对声源定位对象进行唇动检测，以辅助声源定位确定待特写对象的过程。如图7所示，该方法可以包括：

S301、图像处理装置获取视频会议声源定位对象的多帧初始特写图像。

具体的，上述声源定位对象为图像处理装置通过摄像机的水平阵列MIC和垂直阵列MIC定位的处于发言状态的对象。具体实现时，上述图像处理装置可以通过水平阵列MIC定位的声源定位对象(即正在发言的对象)嘴部在全景摄像头拍摄的全景图像中的水平角度、垂直阵列MIC定位的声源定位对象嘴部在该全景图像中的垂直角度，确定声源定位对象在该全景图像中的位置，具体过程可以参见前述关于现有技术的描述。

若摄像机包括PTZ摄像头，则图像处理装置可以采用上述S207所示的方法，控制PTZ摄像头拍摄多帧声源定位对象的特写图像。若摄像机仅包括全景摄像头，无PTZ摄像头，则上述图像处理装置可以采用上述图6所示的方法，从全景摄像头拍摄的多帧全景图像中截取多帧声源定位对象的特写图像。此时，该多帧特写图像即为初始特写图像。

S302、图像处理装置对多帧初始特写图像进行图像预处理，得到多帧待检测图像。

具体的，图像处理装置在获取到多帧初始特写图像之后，可以对每帧初始特写图像进行图像校正、图像降噪、图像亮度调节、图像色度调节等图像预处理，以得到多帧待检测图像。其中，每帧待检测图像均包括声源定位对象。此时，该声源定位对象即为待检测对象。

S303、图像处理装置根据多帧待检测图像，确定是否将声源定位对象作为待特写对象。若是，则执行S304，若否，则结束流程。

具体的，图像处理装置可以根据多帧待检测图像，确定该待检测对象是否符合唇动检测条件。即，确定声源定位对象是否符合唇动检测条件。若该待检测对象符合唇动检测条件，则将该待检测对象作为待特写对象，即将声源定位对象作为待特写对象。若该待检测对象不符合唇动检测条件，则上述图像处理装置可以停止执行后续步骤，仍然继续输出视频会议的全景图像。

可选的，上述图像处理装置可以在待检测对象在每帧待检测图像中运动速度小于或等于预设运动速度阈值、脸部面积大于或等于预设脸部面积阈值、脸部的水平转动角度小于或等于预设水平角度阈值、脸部的俯仰角度小于或等于预设俯仰角度阈值时，将该待检测对象作为待特写对象。在不满足上述条件时，结束流程。通过这种方式，可以提高确定待特写对象是否处于发言状态的准确率。

S304、图像处理装置根据待特写对象的嘴部特征点在每帧待检测图像中的位置，确定待特写对象在每帧待检测图像中的嘴部开合度。

S305、图像处理装置根据待特写对象在每帧待检测图像中的嘴部开合度，确定待特写对象的嘴部开合度的均值和嘴部开合度的方差。

S306、图像处理装置根据待特写对象的嘴部开合度的均值和嘴部开合度的方差，确定待特写对象是否处于发言状态。若是，则执行S307，若否，则结束流程。

其中，步骤S304至步骤S306的具体描述可以参见前述S204-S206的具体描述，对此不再赘述。

通过这种方式，可以使图像处理装置根据待特写对象的嘴部开合度的均值和嘴部开合度的方差，来进一步确定待特写对象(即声源定位对象)是否处于发言状态，以修正现有的含有水平阵列MIC和垂直阵列MIC的摄像机的声源定位结果，确保了所定位的发言人的准确性。

S307、图像处理装置输出待特写对象的特写图像。

具体的，在上述图像处理装置确定待特写对象(即声源定位对象)处于发言状态时，上述图像处理装置可以将该声源定位对象的初始特写图像作为待特写对象的特写图像输出。通过上述方式，参会者可以通过特写镜头观看发言人的面部表情和动作细节，使得参会者能够获得良好的体验，保障了视频会议的效果。

本申请实施例提供的图像处理方法，图像处理装置可以通过唇动检测的方式，检测采用声源定位的方式确定的声源定位对象是否处于发言状态，以修正现有的含有水平阵列MIC和垂直阵列MIC的摄像机的声源定位结果，提高了定位发言人的精度。

图8为本申请实施例提供的又一种图像处理方法的流程示意图。在本实施例中，视频会议的一个会场的摄像机可以包括全景摄像头、水平阵列MIC，无垂直阵列MIC。由于垂直阵列MIC的尺寸较大，因此，通过去除垂直阵列MIC，可以缩减摄像机的尺寸和造型。可选的，该摄像机还可以包括PTZ摄像头。本实施例涉及的是上述图像处理装置通过声源定位的水平角度，从多帧全景图像中提取多个待搜索图像，并基于待搜索图像检测处于发言状态的待特写对象的具体过程。如图8所示，该方法可以包括：

S401、图像处理装置获取视频会议的同一会场的多帧全景图像。

其中，步骤S401的描述可以参见前述S201的描述，对此不再赘述。

S402、图像处理装置根据视频会议的声源水平定位角度，确定在全景图像中的搜索范围。

具体的，上述图像处理装置可以通过水平阵列MIC定位的声源定位对象(即正在发言的对象)嘴部在全景摄像头拍摄的全景图像中的水平角度，确定在全景图像中的搜索范围。

图9为本申请实施例提供的全景图像的示意图。如图9所示，假定上述图像处理装置确定声源定位对象嘴部在全景摄像头拍摄的全景图像中的水平定位角度为35，则上述图像处理装置可以根据预设的搜索范围的大小，以该水平定位角度作为搜索范围的中心点，确定在全景图像中的搜索范围。在本示例中，图9中粗线所示的框图即为全景图像中的搜索范围。本领域技术人员可以理解的是，上述图9所示的搜索范围仅是一种示意，具体实现时，可以根据预设的搜索范围的大小，确定在全景图像中的搜索范围，对此不再赘述。

S403、图像处理装置根据搜索范围，从多帧全景图像中提取多帧待搜索图像。

具体的，图像处理装置在确定搜索范围之后，可以根据该搜索范围，将多帧全景图像中位于该搜索范围内的图像截取出来，作为待搜索图像。通过这种方式，可以使图像处理装置基于待搜索图像检测处于发言状态的待特写对象，而不用基于全景图像检测处于发言状态的待特写对象，提高了检测处于发言状态的待特写对象的效率。

S404、图像处理装置对多帧待搜索图像进行图像预处理，得到多帧待检测图像。

具体的，图像处理装置在获取到多帧待搜索图像之后，可以对每帧待搜索图像进行图像校正、图像降噪、图像亮度调节、图像色度调节等图像预处理，以得到多帧待检测图像。其中，每帧待检测图像包括参加视频会议的同一会场内的至少一个待检测对象。

S405、图像处理装置根据多帧待检测图像，从至少一个待检测对象中确定待特写对象。

S406、图像处理装置根据待特写对象的嘴部特征点在每帧待检测图像中的位置，确定待特写对象在每帧待检测图像中的嘴部开合度。

S407、图像处理装置根据待特写对象在每帧待检测图像中的嘴部开合度，确定待特写对象的嘴部开合度的均值和嘴部开合度的方差。

S408、图像处理装置根据待特写对象的嘴部开合度的均值和嘴部开合度的方差，确定待特写对象是否处于发言状态。若是，则执行S409，若否，则结束流程。

其中，步骤S405至步骤S408的具体描述可以参见前述S203-S206的具体描述，对此不再赘述。

S409、图像处理装置输出待特写对象的特写图像。

若上述摄像机包括至少一个PTZ摄像头，则上述图像处理装置可以采用上述S207的方法，输出待特写对象的特写图像。若上述摄像机无PTZ摄像头，则上述图像处理装置可以采用上述图6所对应的方法，输出待特写对象的特写图像，对此不再赘述。

本申请实施例提供的图像处理方法，图像处理装置可以通过水平阵列MIC的声源水平定位角度，缩减进行唇动检测的图像的大小，从而使图像处理装置可以基于待搜索图像检测处于发言状态的待特写对象，而不用基于全景图像检测处于发言状态的待特写对象，提高了检测处于发言状态的待特写对象的效率。

图10为本申请实施例提供的一种图像处理装置的结构示意图。如图10所示，上述图像处理装置可以通过软件、硬件或者两者的结合实现摄像机或通信设备(例如，终端设备、服务器、计算机等)的部分或者全部。上述图像处理装置可以包括：处理模块11和输出模块12。其中，

处理模块11，用于获取多帧待检测图像；并根据所述多帧待检测图像，从所述至少一个待检测对象中确定待特写对象；根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态；其中，每帧所述待检测图像包括参加视频会议的同一会场内的至少一个待检测对象；

输出模块12，用于输出所述待特写对象的特写图像。可选的，所述输出模块12，具体用于在所述待特写对象为多个时，输出包括所有待特写对象的特写图像。

可选的，所述处理模块11，还用于在根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部开合度；其中，所述嘴部特征点包括：位于左嘴角的特征点、位于右嘴角的特征点、位于上嘴唇的特征点和位于下嘴唇的特征点。

例如，所述处理模块11，可以具体用于根据所述待特写对象位于左嘴角的特征点在每帧所述待检测图像中的位置，以及位于右嘴角的特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部长度；根据所述待特写对象位于上嘴唇的特征点在每帧所述待检测图像中的位置，以及位于下嘴唇的特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部宽度；并将所述待特写对象在每帧所述待检测图像中的嘴部长度和嘴部宽度的比值作为所述待特写对象在每帧所述待检测图像中的嘴部开合度。

可选的，所述处理模块11，具体用于根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象的嘴部开合度的均值和嘴部开合度的方差；并在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时，确定所述待特写对象处于发言状态。

在一些实施例中，所述处理模块11，还用于获取所述待特写对象在每帧所述待检测图像中的嘴部图像的亮度直方图；则在该实现方式下，处理模块11，具体用于在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值，以及，所述亮度直方图的像素占比大于或等于预设像素占比阈值时，确定所述待特写对象处于发言状态，所述像素占比为所述亮度直方图中亮度小于预设亮度阈值的像素数量占所述亮度直方图的总像素数量的比值。

在一些实施例中，所述处理模块11，还用于在根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，获取所述视频会议的声源定位对象；则在该实现方式下，处理模块11，具体用于在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值，以及，所述声源定位对象为所述待特写对象时，确定所述待特写对象处于发言状态。

可选的，所述处理模块11，具体用于将在每帧所述待检测图像中满足相同预设条件的待检测对象作为所述待特写对象；所述预设条件包括以下至少一项：所述待检测对象的运动速度小于或等于预设运动速度阈值，所述待检测对象的脸部面积大于或等于预设脸部面积阈值，所述待检测对象的脸部的水平转动角度小于或等于预设水平角度阈值，所述待检测对象的脸部的俯仰角度小于或等于预设俯仰角度阈值。

可选的，所述处理模块11，具体用于获取所述视频会议的同一会场的多帧全景图像，并对所述多帧全景图像进行图像预处理，得到所述多帧待检测图像。或者，具体用于获取所述视频会议声源定位对象的多帧初始特写图像，并对所述多帧初始特写图像进行图像预处理，得到所述多帧待检测图像。或者，具体用于获取所述视频会议的多帧全景图像，根据所述视频会议的声源水平定位角度，确定在所述全景图像中的搜索范围，根据所述搜索范围，从所述多帧全景图像中提取多帧待搜索图像，并对所述多帧待搜索图像进行图像预处理，得到所述多帧待检测图像。

本申请实施例提供的图像处理装置，可以执行前述方法实施例中图像处理装置的动作，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上处理模块可以以软件通过处理元件调用的形式实现；也可以以硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图11为本申请实施例提供的另一种图像处理装置的结构示意图。如图11所示，上述图像处理装置可以包括存储器21和处理器22，以及存储在所述存储器21上可供所述处理器22执行的计算机程序。

需要说明的是：存储器21可以包括易失性存储器(volatile memory)，例如随机存取内存(random access memory，简称RAM)；还可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，简称HDD)或固态硬盘(solid-state drive，简称SSD)；存储器还可以包括上述种类的存储器的组合。所述处理器22可以是中央处理器(central processing unit，简称CPU)，网络处理器(networkprocessor，简称NP)或者CPU和NP的组合。处理器22还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，简称ASIC)，可编程逻辑器件(programmable logic device，简称PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，简称CPLD)，现场可编程逻辑门阵列(field-programmable gate array，简称FPGA)，通用阵列逻辑(generic array logic，简称GAL)或其任意组合。

在本实施例中，所述处理器22执行存储在所述存储器21的所述计算机程序，以实现上述方法实施例中图像处理装置的动作，其实现原理和技术效果类似，在此不再赘述。

本申请实施例还提供了一种图像处理系统，该图像处理系统可以包括：前述实施例所说的图像处理装置，其实现原理和技术效果类似，在此不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

Claims

1.一种图像处理方法，其特征在于，包括：

所述图像处理装置输出所述待特写对象的特写图像。

2.根据权利要求1所述的方法，其特征在于，所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，包括：

3.根据权利要求2所述的方法，其特征在于，所述图像处理装置根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部开合度，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述图像处理装置根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，还包括：

所述图像处理装置获取所述视频会议的声源定位对象；

7.根据权利要求1-6任一项所述的方法，其特征在于，所述图像处理装置根据所述多帧待检测图像，从所述至少一个待检测对象中确定待特写对象，包括：

所述预设条件包括以下至少一项：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述图像处理装置获取多帧待检测图像，包括：

9.根据权利要求1-7任一项所述的方法，其特征在于，所述图像处理装置获取多帧待检测图像，包括：

10.根据权利要求1-7任一项所述的方法，其特征在于，所述图像处理装置获取多帧待检测图像，包括：

所述图像处理装置获取所述视频会议的多帧全景图像；

11.根据权利要求1-10任一项所述的方法，其特征在于，所述待特写对象为多个，则所述图像处理装置输出所述待特写对象的特写图像，包括：

所述图像处理装置输出包括所有待特写对象的特写图像。

12.一种图像处理装置，其特征在于，包括：

输出模块，用于输出所述待特写对象的特写图像。

13.根据权利要求12所述的装置，其特征在于，所述处理模块，还用于在根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，根据所述待特写对象的嘴部特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部开合度；其中，所述嘴部特征点包括：位于左嘴角的特征点、位于右嘴角的特征点、位于上嘴唇的特征点和位于下嘴唇的特征点。

14.根据权利要求13所述的装置，其特征在于，所述处理模块，具体用于根据所述待特写对象位于左嘴角的特征点在每帧所述待检测图像中的位置，以及位于右嘴角的特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部长度；根据所述待特写对象位于上嘴唇的特征点在每帧所述待检测图像中的位置，以及位于下嘴唇的特征点在每帧所述待检测图像中的位置，确定所述待特写对象在每帧所述待检测图像中的嘴部宽度；并将所述待特写对象在每帧所述待检测图像中的嘴部长度和嘴部宽度的比值作为所述待特写对象在每帧所述待检测图像中的嘴部开合度。

15.根据权利要求12-14任一项所述的装置，其特征在于，所述处理模块，具体用于根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象的嘴部开合度的均值和嘴部开合度的方差；并在所述待特写对象的嘴部开合度的均值小于或等于预设均值阈值，且所述待特写对象的嘴部开合度的方差大于或等于预设方差阈值时，确定所述待特写对象处于发言状态。

16.根据权利要求15所述的装置，其特征在于，所述处理模块，还用于获取所述待特写对象在每帧所述待检测图像中的嘴部图像的亮度直方图；

17.根据权利要求15所述的装置，其特征在于，所述处理模块，还用于在根据所述待特写对象在每帧所述待检测图像中的嘴部开合度，确定所述待特写对象处于发言状态之前，获取所述视频会议的声源定位对象；

18.根据权利要求12-17任一项所述的装置，其特征在于，所述处理模块，具体用于将在每帧所述待检测图像中满足相同预设条件的待检测对象作为所述待特写对象；

所述预设条件包括以下至少一项：

19.根据权利要求12-18任一项所述的装置，其特征在于，所述处理模块，具体用于获取所述视频会议的同一会场的多帧全景图像，并对所述多帧全景图像进行图像预处理，得到所述多帧待检测图像。

20.根据权利要求12-18任一项所述的装置，其特征在于，所述处理模块，具体用于获取所述视频会议声源定位对象的多帧初始特写图像，并对所述多帧初始特写图像进行图像预处理，得到所述多帧待检测图像。

21.根据权利要求12-18任一项所述的装置，其特征在于，所述处理模块，具体用于获取所述视频会议的多帧全景图像，根据所述视频会议的声源水平定位角度，确定在所述全景图像中的搜索范围，根据所述搜索范围，从所述多帧全景图像中提取多帧待搜索图像，并对所述多帧待搜索图像进行图像预处理，得到所述多帧待检测图像。

22.根据权利要求12-21任一项所述的装置，其特征在于，所述输出模块，具体用于在所述待特写对象为多个时，输出包括所有待特写对象的特写图像。

23.一种图像处理装置，其特征在于，包括存储器和处理器，以及存储在所述存储器上可供所述处理器执行的计算机程序；

所述处理器执行所述计算机程序实现如权利要求1-11任一项所述的图像处理方法的步骤。

24.一种图像处理系统，其特征在于，包括：如权利要求12-22任一项所述的图像处理装置。