CN109413359B

CN109413359B - 摄像跟踪方法、装置及设备

Info

Publication number: CN109413359B
Application number: CN201710702192.4A
Authority: CN
Inventors: 郑志伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2020-07-28
Anticipated expiration: 2037-08-16
Also published as: EP3657781A1; US10873666B2; US20200186649A1; EP3657781B1; CN109413359A; EP3657781A4; WO2019033968A1

Abstract

本申请提供一种摄像跟踪方法、装置及设备，该方法包括：导播设备根据第一摄像机在预设时段内采集的第一视频信息、以及多个麦克风MIC在预设时段内采集的第一音频信息，确定预设时段内的历史发言信息，第一摄像机用于采集本地视频；导播设备根据第一摄像机在当前时刻采集的第二视频信息和多个MIC在当前时刻采集得到的第二音频信息，确定当前发言对象；导播设备根据历史发言信息、当前发言对象和至少一个导播摄像机在当前时刻拍摄的发言对象，控制至少一个导播摄像机的导播状态，导播摄像机用于向其它会场发送导播视频流。避免了导播摄像机进行频繁及不必要的切换。

Description

摄像跟踪方法、装置及设备

技术领域

本申请涉及摄像技术领域，尤其涉及一种摄像跟踪方法、装置及设备。

背景技术

目前，视频会议的应用越来越广泛，在视频会议场景中，在会议室通常设置有导播摄像机，通过导播摄像机实时获取会议室中参会人员的视频信息，并将获取得到的视频信息传输给会议的另一方或多方。

在现有技术中，导播摄像机可以利用声源定位技术，自动将导播镜头切换至当前正在发言的参会人员。具体的，通过声源检测设备定位声音来源，并根据声音的来源对导播摄像机进行调节，使得导播摄像机可以拍摄当前正在发言的参会人员。然而，在现有技术中，当会议室中讲话的人发生变化，导播摄像机的摄像镜头通常会进行切换，导致导播摄像机的摄像镜头进行频繁以及不必要的切换。

发明内容

本申请提供一种摄像跟踪方法、装置及设备，避免了导播摄像机进行频繁及不必要的切换。

第一方面，本申请提供一种摄像跟踪方法，在导播系统中至少包括第一摄像机、多个MIC、导播摄像机和导播设备，第一摄像机用于实施采集本地视频，多个MIC用于实施采集音频信息，导播摄像机用于向其它会场发送导播视频流，导播设备用于对导播摄像机的导播状态进行控制。当导播设备需要控制导播摄像机的导播状态时，导播设备根据第一摄像机在预设时段内采集的第一视频信息、以及多个麦克风MIC在预设时段内采集的第一音频信息，确定预设时段内的历史发言信息，根据第一摄像机在当前时刻采集的第二视频信息和多个MIC在当前时刻采集得到的第二音频信息，确定当前发言对象，并根据历史发言信息、当前发言对象和至少一个导播摄像机在当前时刻拍摄的发言对象，控制至少一个导播摄像机的导播状态。

在本申请中，在视频导播过程中，导播设备根据确定得到的预设时段内的历史发言信息、当前发言对象和至少一个导播摄像机在当前时刻拍摄的发言对象，控制至少一个导播摄像机的导播状态。由于历史发言信息可以反映会场中的参会者发言模式、以及参会者的重要程度等信息，因此，根据历史发言信息、当前发言对象和至少一个导播摄像机在当前时刻拍摄的发言对象，导播设备可以对导播摄像机进行更为精确的控制，避免了导播摄像机进行频繁及不必要的切换。

可选的，导播摄像机的导播状态可以包括摄像角度或焦距，至少一个导播摄像机中包括第一导播摄像机和第二导播摄像机；相应的，导播设备可以通过如下可行的实现方式控制至少一个导播摄像机的导播状态：

当当前发言对象和第一导播摄像机在当前时刻拍摄的发言对象相同时，导播设备保持第一导播摄像机的摄像角度和焦距不变，第一导播摄像机拍摄的导频视频在当前时刻被发送至其它会场。

当当前发言对象和第一导播摄像机在当前时刻拍摄的发言对象不同时，导播设备根据历史发言信息，调整第一导播摄像机和第二导播摄像机中的至少一个的摄像角度或焦距。

可选的，当当前发言对象和第一导播摄像机在当前时刻拍摄的发言对象不同时，导播设备根据历史发言信息，确定在预设时段内的发言模式，并根据预设时段内的发言模式，调整第一导播摄像机和第二导播摄像机中的至少一个的摄像角度或焦距；其中，发言模式包括单人发言模式、双人辩论模式和多人讨论模式中的至少一种

在另一种可能的实现方式中，导播设备可以通过如下可行的实现方式根据历史发言信息，确定在预设时段内的发言模式：

导播设备根据历史发言信息，确定预设时段内的有效发言人数；可选的，导播设备根据预设时段内每一个发言对象的优先级、及每一个发言对象的在预设时段内每次发言的发言时长，确定每一个发言对象的有效发言次数，将有效发言次数大于或等于1的发言对象确定为有效发言对象，并将有效发言对象的个数确定为有效发言人数。

导播设备根据预设时段内的有效发言人数，确定在预设时段内的发言模式。可选的，当有效发言人数为1时，导播设备确定预设时段内的发言模式为单人发言模式；当有效发言人数为2时，若两个有效发言人交替发言，导播设备确定预设时段内的发言模式为单人发言模式或双人辩论模式；当有效发言人数大于2时，导播设备根据预设时段内的至少两个有效发言对象优先级，确定预设时段内的发言模式为单人发言模式或多人讨论模式。

可选的，若至少两个有效发言对象中包括重要发言对象，导播设备确定预设时段内的发言模式为单人发言模式；若至少两个有效发言对象中不包括重要发言对象，导播设备确定预设时段内的发言模式为多人讨论模式。

根据发言模式的不同，导播设备对第一导播摄像机或第二导播摄像机的控制过程也不同，可以包括至少如下三种可行的实现方式：

第一种可行的实现方式：发言模式为单人发言模式。

在该种可行的实现方式中，导播设备在预设时段内有效发言对象中确定目标发言对象，并调节第二导播摄像机的摄像角度或焦距，以使目标发言对象的人脸图像位于第二导播摄像机的摄像目标位置。

可选的，可以通过如下可行的实现方式确定目标发言对象：

当预设时段内的有效发言人数为1时，则将预设时段内的一个有效发言对象确定为目标发言对象；当预设时段内的有效发言人数为2时，则根据两个有效发言对象的优先级在两个有效发言对象中确定目标发言对象；当预设时段内的有效发言人数大于2时，则将在预设时段内发言的重要发言对象确定为目标发言对象。

第二种可行的实现方式：发言模式为双人辩论模式。

若预设时段内的两个有效发言对象之间的距离小于预设距离，导播设备调整第二导播摄像机的摄像角度或焦距，以使两个有效发言对象对应的人脸图像位于第二导播摄像机的摄像目标位置；若预设时段内的两个有效发言对象之间的距离大于或等于预设距离，导播设备调整第一导播摄像和第二导播摄像机中至少一个的摄像角度或焦距，以使两个有效发言对象中的一个有效发言对象对应的人脸图像位于第一导播摄像机的摄像目标位置、另一个有效发言对象对应的人脸图像位于第二导播摄像机的摄像目标位置。

第三种可行的实现方式：发言模式为多人讨论模式。

若预设时段内的至少两个有效发言对象之间的距离小于预设距离，导播设备调整第二导播摄像机的摄像角度或焦距，以使至少两个有效发言对象对应的人脸图像位于第二导播摄像机的摄像目标位置；若预设时段内的至少两个有效发言对象之间的距离小于预设距离，导播设备调整第二导播摄像机的摄像角度或焦距，以使第二导播摄像机拍摄全景视频。

在上述任意一种实现方式中，在导播设备调整第二导播摄像机的摄像角度或焦距之后，导播设备向终端设备发送第二导播摄像机拍摄的视频流，以使终端设备将第二导播摄像机拍摄的视频流发送至其它会场。

在上述任意一种实现方式中，在导播设备调整第一导播摄像和第二导播摄像机中至少一个的摄像角度或焦距之后，导播设备向终端设备发送第一导播摄像机拍摄的视频流和第二导播摄像机拍摄的视频流，以使终端设备将第一导播摄像机拍摄的视频流和第二导播摄像机拍摄的视频流发送至其它会场。

在另一种可能的实现方式中，导播设备根据第一摄像机在预设时段内采集的第一视频信息、以及多个麦克风MIC在预设时段内采集的第一音频信息，确定预设时段内的历史发言信息，包括：

导播设备根据预设时段内各时刻对应的视频信息和音频信息，确定各时刻对应的发言对象；

导播设备对各时刻对应的发言对象进行统计，得到历史发言信息，历史发言信息包括如下信息中的至少一种：预设时段内的发言对象个数、每一个发言对象的发言时长、每一个发言对象的发言次数、每一个发言对象的发言内容、每一次发言的发言时长、每一次发言的发言时刻、和每一个发言对象的优先级。

可选的，针对预设时段内的第一时刻，根据第一时刻的视频信息和音频信息，确定第一时刻对应的发言对象，包括：

导播设备根据第一时刻的视频信息，确定每一个人脸图像对应的水平角度和垂直角度；

导播设备根据第一时刻对应的音频信息，确定在第一时刻时的声源对应的水平角度和垂直角度；

导播设备根据每一个人脸图像对应的水平角度和垂直角度、及声源对应的水平角度和垂直角度，确定第一时刻对应的发言对象。

可选的，当第一摄像机为双目摄像机时，导播设备根据第一时刻的视频信息，确定每一个人脸图像对应的水平角度和垂直角度，包括：

导播设备根据第一时刻的视频信息，获取每一个人脸图像在双目摄像机中两个摄像镜头中的二维坐标；

导播设备根据双目摄像机的两个摄像镜头之间的距离、及每一个人脸信息在两个摄像镜头中的二维坐标，确定每一个人脸图像的深度，人脸图像的深度为人脸与双目摄像机之间的距离；

导播设备根据每一个人脸图像的深度，确定每一个人脸图像在双目坐标系中的三维坐标，双目坐标系为以双目摄像机的一个摄像镜头为原点的三维坐标系；

导播设备根据每一个人脸图像在双目坐标系中的三维坐标，确定每一个人脸图像对应的水平角度和垂直角度。

可选的，根据每一个人脸图像对应的水平角度和垂直角度、及声源对应的水平角度和垂直角度，确定第一时刻对应的发言对象，包括：

导播设备根据每一个人脸图像对应的水平角度和垂直角度、及声源对应的水平角度和垂直角度，确定每一个人脸图像对应的人脸与声源之间的距离；

导播设备根据每一个人脸图像对应的人脸与声源之间的距离，确定第一时刻对应的发言对象。

第二方面，本申请提供一种摄像跟踪装置，包括第一确定模块、第二确定模块和控制模块，其中，

所述第一确定模块用于，根据第一摄像机在预设时段内采集的第一视频信息、以及多个麦克风MIC在所述预设时段内采集的第一音频信息，确定所述预设时段内的历史发言信息，所述第一摄像机用于采集本地视频；

所述第二确定模块用于，根据所述第一摄像机在当前时刻采集的第二视频信息和所述多个MIC在当前时刻采集得到的第二音频信息，确定当前发言对象；

所述控制模块用于，根据所述历史发言信息、所述当前发言对象和至少一个导播摄像机在所述当前时刻拍摄的发言对象，控制所述至少一个导播摄像机的导播状态，所述导播摄像机用于向其它会场发送导播视频流。

在一种可能的实现方式中，导播摄像机的导播状态包括摄像角度或焦距，所述至少一个导播摄像机中包括第一导播摄像机和第二导播摄像机；所述控制模块具体用于：

当所述当前发言对象和第一导播摄像机在所述当前时刻拍摄的发言对象相同时，保持所述第一导播摄像机的摄像角度和焦距不变，所述第一导播摄像机拍摄的导频视频在当前时刻被发送至其它会场；

当所述当前发言对象和第一导播摄像机在所述当前时刻拍摄的发言对象不同时，根据所述历史发言信息，调整所述第一导播摄像机和所述第二导播摄像机中的至少一个的摄像角度或焦距。

在另一种可能的实现方式中，所述控制模块包括确定单元和调整单元，其中，

所述确定单元用于，在所述当前发言对象和第一导播摄像机在所述当前时刻拍摄的发言对象不同时，根据所述历史发言信息，确定在所述预设时段内的发言模式，所述发言模式包括单人发言模式、双人辩论模式和多人讨论模式中的至少一种；

所述调整单元用于，根据所述预设时段内的发言模式，调整所述第一导播摄像机和所述第二导播摄像机中的至少一个的摄像角度或焦距。

在另一种可能的实现方式中，所述确定单元具体用于：

根据所述历史发言信息，确定所述预设时段内的有效发言人数；

根据所述预设时段内的有效发言人数，确定在所述预设时段内的发言模式。

在另一种可能的实现方式中，所述确定单元具体用于：

根据所述预设时段内每一个发言对象的优先级、及每一个发言对象的在所述预设时段内每次发言的发言时长，确定每一个发言对象的有效发言次数；

将有效发言次数大于或等于1的发言对象确定为有效发言对象；

将所述有效发言对象的个数确定为所述有效发言人数。

在另一种可能的实现方式中，所述确定单元具体用于：

当所述有效发言人数为1时，确定所述预设时段内的发言模式为单人发言模式；

当所述有效发言人数为2时，若所述两个有效发言人交替发言，确定所述预设时段内的发言模式为单人发言模式或双人辩论模式；

当所述有效发言人数大于2时，根据所述预设时段内的至少两个有效发言对象优先级，确定所述预设时段内的发言模式为单人发言模式或多人讨论模式。

在另一种可能的实现方式中，所述确定单元具体用于：

若所述至少两个有效发言对象中包括重要发言对象，确定所述预设时段内的发言模式为单人发言模式；

若所述至少两个有效发言对象中不包括重要发言对象，确定所述预设时段内的发言模式为多人讨论模式。

在另一种可能的实现方式中，所述发言模式为单人发言模式；所述调整单元具体用于：

在所述预设时段内有效发言对象中确定目标发言对象；

调节所述第二导播摄像机的摄像角度或焦距，以使所述目标发言对象的人脸图像位于所述第二导播摄像机的摄像目标位置。

在另一种可能的实现方式中，所述调整单元具体用于：

当所述预设时段内的有效发言人数为1时，则将所述预设时段内的一个有效发言对象确定为所述目标发言对象；

当所述预设时段内的有效发言人数为2时，则根据所述两个有效发言对象的优先级在所述两个有效发言对象中确定目标发言对象；

当所述预设时段内的有效发言人数大于2时，则将在所述预设时段内发言的重要发言对象确定为所述目标发言对象。

在另一种可能的实现方式中，所述发言模式为双人辩论模式；所述调整单元具体用于：

若所述预设时段内的两个有效发言对象之间的距离小于预设距离，调整所述第二导播摄像机的摄像角度或焦距，以使所述两个有效发言对象对应的人脸图像位于所述第二导播摄像机的摄像目标位置；

若所述预设时段内的两个有效发言对象之间的距离大于或等于预设距离，调整所述第一导播摄像和所述第二导播摄像机中至少一个的摄像角度或焦距，以使所述两个有效发言对象中的一个有效发言对象对应的人脸图像位于所述第一导播摄像机的摄像目标位置、另一个有效发言对象对应的人脸图像位于所述第二导播摄像机的摄像目标位置。

在另一种可能的实现方式中，所述发言模式为多人讨论模式；所述调整单元具体用于：

若所述预设时段内的至少两个有效发言对象之间的距离小于预设距离，调整所述第二导播摄像机的摄像角度或焦距，以使所述至少两个有效发言对象对应的人脸图像位于所述第二导播摄像机的摄像目标位置；

若所述预设时段内的至少两个有效发言对象之间的距离小于预设距离，调整所述第二导播摄像机的摄像角度或焦距，以使所述第二导播摄像机拍摄全景视频。

在另一种可能的实现方式中，所述装置还包括发送模块，其中，

所述发送模块用于，在所述调整单元调整所述第二导播摄像机的摄像角度或焦距之后，向终端设备发送所述第二导播摄像机拍摄的视频流，以使所述终端设备将所述第二导播摄像机拍摄的视频流发送至其它会场。

在另一种可能的实现方式中，所述发送模块还用于：

在所述调整单元调整所述第一导播摄像和所述第二导播摄像机中至少一个的摄像角度或焦距之后，向终端设备发送所述第一导播摄像机拍摄的视频流和所述第二导播摄像机拍摄的视频流，以使所述终端设备将所述第一导播摄像机拍摄的视频流和所述第二导播摄像机拍摄的视频流发送至其它会场。

在另一种可能的实现方式中，所述第一确定模块具体用于：

根据所述预设时段内各时刻对应的视频信息和音频信息，确定各时刻对应的发言对象；

对各时刻对应的发言对象进行统计，得到所述历史发言信息，所述历史发言信息包括如下信息中的至少一种：所述预设时段内的发言对象个数、每一个发言对象的发言时长、每一个发言对象的发言次数、每一个发言对象的发言内容、每一次发言的发言时长、每一次发言的发言时刻、和每一个发言对象的优先级。

在另一种可能的实现方式中，针对所述预设时段内的第一时刻，所述第一确定模块具体用于：

根据所述第一时刻的视频信息，确定每一个人脸图像对应的水平角度和垂直角度；

根据所述第一时刻对应的音频信息，确定在所述第一时刻时的声源对应的水平角度和垂直角度；

根据每一个人脸图像对应的水平角度和垂直角度、及所述声源对应的水平角度和垂直角度，确定所述第一时刻对应的发言对象。

在另一种可能的实现方式中，所述第一摄像机为双目摄像机；所述第一确定模块具体用于：

根据所述第一时刻的视频信息，获取每一个人脸图像在所述双目摄像机中两个摄像镜头中的二维坐标；

根据所述双目摄像机的两个摄像镜头之间的距离、及每一个人脸信息在所述两个摄像镜头中的二维坐标，确定每一个人脸图像的深度，人脸图像的深度为人脸与所述双目摄像机之间的距离；

根据每一个人脸图像的深度，确定每一个人脸图像在双目坐标系中的三维坐标，所述双目坐标系为以所述双目摄像机的一个摄像镜头为原点的三维坐标系；

根据每一个人脸图像在所述双目坐标系中的三维坐标，确定每一个人脸图像对应的水平角度和垂直角度。

在另一种可能的实现方式中，所述第一确定模块具体用于：

根据每一个人脸图像对应的水平角度和垂直角度、及所述声源对应的水平角度和垂直角度，确定每一个人脸图像对应的人脸与所述声源之间的距离；

根据每一个人脸图像对应的人脸与所述声源之间的距离，确定所述第一时刻对应的发言对象。

第三方面，本申请提供一种导播设备，包括：处理器、存储器及通信总线，所述通信总线用于实现各元器件之间的连接，所述存储器用于存储程序指令，所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行上述第一方面任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当存储设备的至少一个处理器执行该计算机执行指令时，存储设备执行上述各种可能设计提供的摄像跟踪方法。

第五方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，该计算机执行指令存储在计算机可读存储介质中。存储设备的至少一个处理器可以从计算机可读存储介质读取该计算机执行指令，至少一个处理器执行该计算机执行指令使得存储设备实施前述方法实施例中的各种可能设计提供的摄像跟踪方法。

第六方面，本申请提供一种芯片系统，该芯片系统包括处理器，用于支持导播设备实现上述方面中所涉及的功能，例如，处理上述方法中所涉及的信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存导播设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其它分立器件。

本申请提供的摄像跟踪方法、装置及设备，在视频导播过程中，导播设备根据确定得到的预设时段内的历史发言信息、当前发言对象和至少一个导播摄像机在当前时刻拍摄的发言对象，控制至少一个导播摄像机的导播状态。由于历史发言信息可以反映会场中的参会者发言模式、以及参会者的重要程度等信息，因此，根据历史发言信息、当前发言对象和至少一个导播摄像机在当前时刻拍摄的发言对象，导播设备可以对导播摄像机进行更为精确的控制，避免了导播摄像机进行频繁及不必要的切换。

附图说明

图1为本申请提供的摄像跟踪方法的应用场景示意图；

图2为本申请提供的摄像跟踪方法的流程示意图；

图3为本申请提供的确定发言对象方法的流程示意图；

图4为本申请提供的实物坐标系；

图5为本申请提供的控制导播摄像机方法的流程示意图；

图6A为本申请提供的视频画面示意图一；

图6B为本申请提供的视频画面示意图二；

图6C为本申请提供的视频画面示意图三；

图6D为本申请提供的视频画面示意图四；

图6E为本申请提供的视频画面示意图五；

图7为本申请提供的摄像跟踪装置的结构示意图一；

图8为本申请提供的摄像跟踪装置的结构示意图二；

图9为本申请提供的导播设备的结构示意图。

具体实施方式

图1为本申请提供的摄像跟踪方法的应用场景示意图。请参见图1，在本地会场中设置有导播系统，导播系统可以跟踪拍摄会场中发言对象，并将拍摄的视频流实时传送至其它会场。导播系统包括摄像支架101、导播摄像机102、第一摄像机103、麦克风(Microphone，简称MIC)阵列104、导播设备105和终端设备106。其中，导播摄像机102、第一摄像机103和MIC阵列104分别设置在摄像支架上。

可选的，导播摄像机102的个数还可以为1个、3个等，导播摄像机102拍摄的视频流用于传输给其它会场，需要说明的是，当导播摄像机102的个数为多个时，在同一时刻，可能仅部分导播摄像机102(一个或多个)拍摄的视频流用于传输给其它会场。第一摄像机103可以为双目摄像机，第一摄像机103可以拍摄得到整个会场中的画面，第一摄像机拍摄103的视频仅用于进行本地处理，不用于向其它会场发送。MIC阵列104中的多个MIC采集得到的音频仅用于进行本地处理，不用于向其它会场发送。本申请对于导播系统中包括的导播摄像机的个数不作具体限定，本申请对MIC阵列中包括的MIC的个数也不作具体限定。

在实际应用过程中，第一摄像机103可以实时采集会场中的视频信息，并将采集得到的视频信息传输给导播设备105。视频MIC阵列104中的MIC可以实时采集会场中的音频，并将采集得到的音频信息传输给导播设备105。导播设备105可以根据获取得到的视频信息和音频信息，确定当前时刻需要拍摄的对象，并根据当前时刻需要拍摄的对象的位置，对导播摄像机的拍摄角度或焦距进行控制。导播摄像机102将采集得到的视频流实时发送给导播设备。同时，导播设备105还确定当前需要向其它会场发送哪个导播摄像机拍摄的视频流，并将确定得到的导播摄像机的视频流发送给终端设备106，以使终端设备106将接收到的视频流发送给其它会场。当然，若终端设备106为视频播放设备，则终端设备可以在本地播放接收到的视频流。

在本申请中，在导播设备105对导播摄像机102进行控制的过程中，导播设备105根据第一摄像机103和MIC阵列104在当前时刻采集得到的信息可以确定当前发言对象，导播设备105还根据第一摄像机103和MIC阵列104在历史时段内采集得到的信息确定历史发言信息，导播设备105根据当前发言对象和历史发言信息对导播摄像机进行控制。由于历史发言信息可以反映会场中的参会者发言模式、以及参会者的重要程度等信息，因此，导播设备105根据当前发言对象和历史发言信息，可以对导播摄像机进行更为精确的控制，避免了导播摄像机进行频繁及不必要的切换。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行赘述。

图2为本申请提供的摄像跟踪方法的流程示意图。请参见图2，该方法可以包括：

S201、导播设备根据第一摄像机在预设时段内采集的第一视频信息、以及多个MIC在预设时段内采集的第一音频信息，确定预设时段内的历史发言信息，第一摄像机用于采集本地视频。

需要说明的是，导播设备可以参见图1实施例中导播设备105，第一摄像机可以参见图1实施例中的第一摄像机103，多个MIC可以参见图1实施例中的MIC阵列104，此处不再进行赘述。

可选的，预设时段可以为当前时刻之前的一个时段，例如，预设时段可以为当前时刻之前的30秒、1分钟、5分钟、10分钟等。本申请对预设时段的时长不作具体限定。

需要说明的是，在视频会议进行过程中，不同时刻对应的预设时段也可以不同，例如，在会议刚开始不久时，预设时段的时长可以较短，在会议持续较长时间之后，预设时段的时长可以较长。例如，在会议开始后的1分钟至5分钟内，预设时段的时长可以为1分钟，在会议开始5分钟之后，预设时段的时长可以为5分钟。在实际应用过程中，可以根据实际需要设置该预设时段的时长。

可选的，可以获取预设时段内每一个时刻对应的视频信息和音频信息，根据预设时段内每一个时刻对应的视频信息和音频信息，确定每一个时刻对应的发言对象，并对每一个时刻对应的发言对象进行统计，得到历史发言信息。需要说明的是，在图3所示的实施例中，对确定某一时刻对应的发言对象的方法进行详细说明，此处不再进行赘述。

可选的，历史发言信息可以如下信息中的至少一种：预设时段内发言对象的个数、每一个发言对象的发言时长、每一个发言对象的发言内容、每一个发言对象的发言次数、每一次发言的发言时长、每一次发言的发言时刻、以及每一个发言对象的优先级等。当然，在实际应用过程中，可以根据实际需要确定历史发言信息中包括的内容，本申请对此不作具体限定。

S202、导播设备根据第一摄像机在当前时刻采集的第二视频信息和多个MIC在当前时刻采集得到的第二音频信息，确定当前发言对象。

可选的，可以通过如下可行的实现方式确定当前发言对象：可以获取第一摄像机在当前时刻拍摄的视频信息中每一个人脸图像对应的水平角度和垂直角度，获取多个MIC在当前时刻采集的音频信息，根据多个MIC在当前时刻采集的音频信息，确定在当前时刻时的声源对应的水平角度和垂直角度，根据每一个人脸图像对应的水平角度和垂直角度、及声源对应的水平角度和垂直角度，确定在当前时刻发言的当前发言对象。

需要说明的是，在图3所示的实施例中对确定当前时刻对应的当前发言对象的方法进行详细说明，此处不再进行赘述。

S203、导播设备根据历史发言信息、当前发言对象和至少一个导播摄像机在当前时刻拍摄的发言对象，控制至少一个导播摄像机的导播状态，导播摄像机用于向其它会场发送导播视频流。

在本申请中，至少一个导播摄像机的个数可以为1个，也可以为多个。

当导播摄像的个数为1个时，该一个导播摄像机实时进行拍摄，且该一个导播摄像机拍摄的视频流被发送给其它会场。相应的，至少一个导播摄像机在当前时刻拍摄的发言对象为：该一个导播摄像机在当前时刻拍摄的发言对象。

当导播摄像机的个数为多个时，该多个导播摄像机均进行实时拍摄，但是，在同一时刻，可能部分导播摄像机拍摄的视频流被发送给其它会场，例如，可能只有一个或两个导播摄像机拍摄的视频流被发送给其它会场。相应的，至少一个导播摄像机在当前时刻拍摄的发言对象为：视频流被发送给其它会场的导播摄像机在当前时刻拍摄的发言对象。

可选的，导播摄像机的导播状态包括导播摄像机的摄像角度或导播摄像机的焦距。

可选的，假设至少一个导播摄像机中包括第一导播摄像机和第二导播摄像机，且在当前时刻，第一导播摄像机拍摄的导频视频被发送至其它会场，相应的，可以通过如下可行的实现方式控制至少一个导播摄像机的导播状态：

当当前发言对象和第一导播摄像机在当前时刻拍摄的发言对象相同时，导播设备保持第一导播摄像机的摄像角度和焦距不变。可选的，在该种情况下，导播设备也可以保持第二导播摄像机的摄像角度和焦距不变。当然，导播设备也可以根据历史发言对象、及当前发言对象估计下一个发言对象，并根据下一个发言对象的位置，调节第二导播摄像机的摄像角度和焦距，以使估计的下一个发言对象对应的人脸图像位于第二导播摄像机的摄像目标位置。可选的，第二导播摄像机的摄像目标位置可以为第二导播摄像机的拍摄镜头的中心位置，也可以为第二导播摄像机的拍摄镜头的中心偏上位置等。在实际应用过程中，可以根据实际需要设置该摄像目标位置，本申请对此不作具体限定。

当当前发言对象和第一导播摄像机在当前时刻拍摄的发言对象不同时，导播设备根据历史发言信息，调整第一导播摄像机和第二导播摄像机中的至少一个的摄像角度或焦距。可选的，导播设备可以仅对第二导播摄像机的摄像角度或焦距进行调节，导播设备也可以同时对第一导播摄像机和第二导播摄像机的摄像角度和焦距进行调节，当然，导播设备还可以仅对第一导播摄像机的摄像角度或焦距进行调节。需要说明的是，在图5所示的实施例中对该种情况下对至少一个导播摄像机的控制过程进行详细说明，此处不再进行赘述。

本申请提供的摄像跟踪方法，在视频导播过程中，导播设备根据确定得到的预设时段内的历史发言信息、当前发言对象和至少一个导播摄像机在当前时刻拍摄的发言对象，控制至少一个导播摄像机的导播状态。由于历史发言信息可以反映会场中的参会者发言模式、以及参会者的重要程度等信息，因此，根据历史发言信息、当前发言对象和至少一个导播摄像机在当前时刻拍摄的发言对象，导播设备可以对导播摄像机进行更为精确的控制，避免了导播摄像机进行频繁及不必要的切换。

在图2所示实施例的基础上，可选的，在S201中，在确定历史发言信息的过程中需要确定预设时段内各时刻对应的发言对象，在S202中，需要确定当前时刻对应的当前发言对象。确定预设时段内每一个时刻对应的发言对象的过程、与确定当前时刻对应的当前发言对象的过程类似，下面，以确定第一时刻(预设时段内的任意一个时刻或者当前时刻)对应的发言对象的过程为例，对确定某一时刻对应的发言对象的过程进行详细说明。具体的，请参见图3所示的实施例。需要说明的是，在图3所示的实施例中，以第一摄像机为双目摄像机为例进行说明。

图3为本申请提供的确定发言对象方法的流程示意图。请参见图3，该方法可以包括：

S301、导播设备根据第一时刻的视频信息，确定每一个人脸图像对应的水平角度和垂直角度。

下面，结合图4所示的实物坐标系、和如下步骤A-步骤D，确定每一个人脸图像对应的水平角度和垂直角度。

图4为本申请提供的实物坐标系。请参见图4，摄像支架包括水平支架M和垂直支架N，水平支架M和垂直支架N相互垂直，且水平之间M和垂直支架N之间的交点为水平支架的中点O1。水平支架M的中点为O1，垂直支架N的中点为O2。设置在水平支架M上的第一摄像机包括摄像镜头A1和摄像镜头A2，摄像镜头A1和摄像镜头A2关于O1对称设置。在本申请中，双目坐标系为三维坐标系(图中为示出)，双目坐标系可以以摄像镜头A1为坐标原点，也可以以摄像镜头A2为坐标原点。

步骤A、获取每一个人脸图像在双目摄像机中两个摄像镜头中的二维坐标。

可选的，人脸图像在摄像镜头中的二维坐标可以为：人脸图像在摄像镜头拍摄的图片中的二维坐标。双目摄像机通常具有两个摄像镜头，两个摄像镜头之间具有一定的距离，以使得两个摄像镜头拍摄同一物体时，该同一物体在两个摄像镜头中的二维坐标不同。

例如，请参见图4，双目摄像机的两个摄像镜头分别为摄像镜头A1和摄像镜头A2，在同一时刻，摄像镜头A1对对象P拍摄得到的图像可以如图像P1所示，在图像P1中，对象P的人脸图像位于图像P1的左侧，摄像镜头A2对对象P拍摄得到的图像可以如图像P2所示，在图像P2中，对象P的人脸图像位于图像P2的右侧。由上可知，对象P的人脸图像在摄像镜头A1中的二维坐标、在摄像镜头A2中的二维坐标不同。

步骤B、根据双目摄像机的两个摄像镜头之间的距离、及每一个人脸信息在两个摄像镜头中的二维坐标，确定每一个人脸图像的深度。

其中，人脸图像的深度为人脸与双目摄像机之间的距离。

请参见图4，两个摄像镜头之间的距离为摄像镜头A1和摄像镜头A2之间的距离。人脸图像的深度为对象P与水平支架M之间的距离。例如，可以通过对象P向水平支架M所在的直线做垂线，得到垂直交点，对象P与垂直交点之间的距离为人脸图像的深度s。

需要说明的是，可以根据现有技术中的公式确定步骤B中所示的人脸图像的深度，本申请不再进行赘述。

步骤C、导播设备根据每一个人脸图像的深度，确定每一个人脸图像在双目坐标系中的三维坐标，双目坐标系为以双目摄像机的一个摄像镜头为原点的三维坐标系。

请参见图4，双目坐标系可以为以摄像镜头A1为坐标原点的三维坐标系，也可以为以摄像镜头A2为坐标原点的三维坐标系。

需要说明的是，可以根据现有技术中的公式确定步骤C中所述的三维坐标，本申请不再进行赘述。

步骤D、根据每一个人脸图像在双目坐标系中的三维坐标，确定每一个人脸图像对应的水平角度和垂直角度。

请参见图4，水平角度为直线PO1与水平支架之间的角度α。垂直角度为PO2与垂直支架之间的角度β。

可选的，可以通过如下公式一，确定人脸图像对应的水平角度α：

其中，(x，y，z)为人脸图像在双目坐标系中的三维坐标，dx为一个摄像镜头与水平支架中点之间的距离，例如，请参见图4，dx为A1与O1之间的距离。

可选的，可以通过如下公式二确定人脸图像对应的垂直角度β：

其中，(x，y，z)为人脸图像在双目坐标系中的三维坐标，dy为垂直支架长度的一半，例如，请参见图4，dy可以为O1与O2之间的距离。

S302、导播设备根据第一时刻对应的音频信息，确定在第一时刻时的声源对应的水平角度和垂直角度。

在本申请中，由于多个MIC在摄像支架中的设置位置不同，因此，对于同一声源，不同的MIC采集得到的音频信息不同，例如，对于同一声源，不同MIC采集得到的音频信息的幅度或者相位不同。

需要说明的是，可以根据现有技术中的方法确定在第一时刻时的声源对应的水平角度和垂直角度，本申请不再进行赘述。

S303、根据每一个人脸图像对应的水平角度和垂直角度、及声源对应的水平角度和垂直角度，确定第一时刻对应的发言对象。

可选的，可以通过如下可行的实现方式确定第一时刻对应的发言对象：

根据每一个人脸图像对应的水平角度和垂直角度、及声源对应的水平角度和垂直角度，确定每一个人脸图像对应的人脸与声源之间的距离，根据每一个人脸图像对应的人脸与声源之间的距离，确定第一时刻对应的发言对象。

可选的，可以通过如下公式三，确定人脸与声源之间的距离；

其中，α为人脸图像对应的水平角度，β为人脸图像对应的垂直角度。α₁为声源对应的水平角度，β₁为声源对应的垂直角度。

在图3所示的实施例中，在确定第一时刻对应的发言对象时，结合双目摄像机在第一时刻拍摄的视频信息、以及多个MIC在第一时刻采集得到的音频信息，确定发言对象，其中，根据多个MIC在第一时刻采集得到的音频信息，可以初步确定得到发言对象的大致位置，进一步的，根据双目摄像机在第一时刻拍摄的视频信息，可以准确的确定得到人脸在会场终端的位置，因此，结合视频信息和音频信息可以精确的确定得到发言对象。

在上述任意一个实施例的基础上，下面，结合图5所示的实施例，以导播摄像机包括第一导播摄像机和第二导播摄像机、且第一导播摄像机拍摄的导频视频在当前时刻被发送至其它会场为例，对导播摄像机的控制过程进行详细说明。

需要说明的是，当导播设备判断当前发言对象和第一导播摄像机在当前时刻拍摄的发言对象相同时，则无需对导播摄像机进行调整。当导播设备判断当前发言对象和第一导播摄像机在当前时刻拍摄的发言对象不同时，才需要对导播摄像机进行调整。在图5所示的实施例中，仅对当前发言对象和第一导播摄像机在当前时刻拍摄的发言对象不同时，对导播摄像机的调整过程进行说明。

图5为本申请提供的控制导播摄像机方法的流程示意图。请参见图5，该方法可以包括：

S501、导播设备根据预设时段内每一个发言对象的优先级、及每一个发言对象在预设时段内每次发言的发言时长，确定每一个发言对象的有效发言次数。

在本申请中，会场中的每一个参会者对应一个优先级。

可选的，参会者的优先级可以由管理员预先在导播设备中进行设置。例如，管理人员可以根据参会者在本次会议中的身份、或者参会者的职务确定每一个参会者的优先级，并将参会者的信息(例如人脸信息或者声音特征)、与对应的优先级导入导播设备，这样，在会议过程中，导播设备可以根据采集得到的视频信息或者音频信息可以确定参会者的优先级。

可选的，还可以在会议开始时，由导播设备根据第一摄像机拍摄的视频信息，确定每一个参会者在会场中的座位，并根据参会者在会场中的座位，为每一个参会者确定一个优先级，其中，会场中的座位具有预设的优先级。例如，坐在会场中心位置的参会者的优先级最高，座位越远离会场中心位置的参会者的优先级越低。

在会议进行中，导播设备还可以根据每一个参会者的发言情况，对参会者的优先级进行更新。例如，当参会者发言次数较多、或者参会者的发言时长较长，可以提升该参会者的优先级，当参会者的发言次数较少、或者参会者的发言时长较短，则可以降低该参会者的优先级，当参会者的发言内容中包括预设关键词(例如，同志们、大伙、加油、努力等)，可以提高参会者的优先级。当然，在实际应用过程中，还可以根据其它内容对参会者的优先级进行更新，本申请对此不作具体限定。

可选的，不同优先级对应有不同的有效发言时长阈值，优先级越高，有效发言时长阈值越低。当一个发言对象的一次发言的发言时长大于该发言对象的优先级对应的有效发言时长阈值时，则可以确定该次发言为一次有效发言。

可选的，针对预设时段内任意的第一发言对象，当需要获取第一发言对象的有效发言次数时，先获取第一发言对象在预设时段内的优先级，并获取该优先级对应的有效发言时长阈值；还获取第一发言对象在预设时段内每次发言的发言时长，并获取发言时长大于有效发言时长阈值的发言次数，该发言次数即为有效发言次数。

需要说明的是，在实际应用过程中，可以根据实际需要设置优先级对应的有效发言时长阈值，本申请对此不作具体限定。

S502、导播设备将有效发言次数大于或等于1的发言对象确定为有效发言对象。

可选的，若一个发言对象的有效发言次数大于1，则可以将该发言对象确定为有效发言对象。

S503、导播设备将有效发言对象的个数确定为有效发言人数。

在导播设备确定得到每一个发言对象是否为有效发言对象之后，可以统计有效发言对象的个数，以确定有效发言人数。

需要说明的是，导播设备通过S501-S503可以确定得到预设时段内的有效发言人数，当然，在实际应用过程中，导播设备还可以通过其它可行的实现方式确定有效发言人数，本申请对此不作具体限定。

S504、导播设备根据预设时段内的有效发言人数，确定在预设时段内的发言模式。

可选的，发言模式包括单人发言模式、双人辩论模式和多人讨论模式中的至少一种。当然，发言模式还可以包括其它，例如三人辩论模式等，本申请对发言模式不作具体限定。

可选的，当有效发言人数的个数不同时，确定发言模式的方法也不同，可以包括至少如下三种可能的实现方式：

第一种可能的实现方式：有效发言人数为1。

在该种可能的实现方式下，由于预设时段内仅有一个有效发言对象，因此，导播设备可以确定预设时段内的发言模式为单人发言模式。

第二种可能的实现方式：有效发言人数为2。

在该种可能的实现方式下，当有效发言个数为2时，则说明在预设时段内有两个有效发言对象。若该两个有效发言对象为交替发言、且交替次数较多时，则可以确定该两个有效发言对象在进行辩论，则可以确定发言模式为双人辩论模式，否则，则确定发言模式为单人发言模式。

第三种可能的实现方式：有效发言人数大于2。

在该种可能的实现方式下，导播设备根据预设时段内的至少两个有效发言对象优先级，确定预设时段内的发言模式为单人发言模式或多人讨论模式。

可选的，可以根据至少两个有效发言对象的优先级，判断至少两个有效发言对象中是否包括重要发言对象，其中，重要发言对象的优先级可以为预设优先级，或者，重要发言对象的优先级高于预设优先级。

若至少两个有效发言对象中包括重要发言对象，则导播设备可以确定预设时段内的发言模式为单人发言模式。若至少两个有效发言对象中不包括重要发言对象，则导播设备可以确定预设时段内的发言模式为多人讨论模式。

在导播设备确定得到预设时段内的发言模式之后，导播设备根据预设时段内的发言模式，调整第一导播摄像机和第二导播摄像机中的至少一个的摄像角度或焦距，其中，当发言模式不同时，对导播摄像机的调节过程也不同。

可选的，当确定得到发言模式为单人发言模式时，则可以通过S505-S507对导播摄像机进行调节。当确定得到发言模式为双人辩论模式时，则可以通过S508-S512对导播摄像机进行调节。当确定得到发言模式为多人讨论模式时，则可以通过S513-S517对导播摄像机进行调节。

S505、导播设备在预设时段内有效发言对象中确定目标发言对象。

在本申请中，无论预设时段内的发言人数为多少，均可能将预设时段内的发言模式确定为单人发言模式，相应的，当已确定发言模式为单人发言模式时，根据预设时段内的有效发言人数不同，确定目标发言对象的方式也不同，具体的，可以至少如下三种可能的实现方式：

第一种可能的实现方式：预设时段内的有效发言人数为1。

在该种可能的实现方式中，可以将预设时段内的一个有效发言对象确定为目标发言对象。

第二种可能的实现方式：预设时段内的有效发言人数为2。

在该种可能的实现方式中，可以根据两个有效发言对象的优先级在两个有效发言对象中确定目标发言对象。例如，可以将该两个有效发言对象中、优先级较高的有效发言对象确定为目标发言对象。

第三种可能的实现方式：预设时段内的有效发言人数大于2。

在该种可能的实现方式中，可以根据预设时段内有效发言对象的优先级确定重要发言对象，并将重要发言对象确定为目标发言对象。

需要说明的是，在实际应用过程中，还可以根据其它可行的实现方式确定目标发言对象，本申请对此不作具体限定。

S506、导播设备调节第二导播摄像机的摄像角度或焦距，以使目标发言对象的人脸图像位于第二导播摄像机的摄像目标位置。

由于在当前时刻，第一导播摄像机拍摄的视频流被传送至其它会场。当确定得到发言模式为单人发言模式时，为了避免传输至其它会场的视频流中的画面出现缩放和平移过程，则可以对第二导播摄像机进行调节，在对第二导播摄像机进行调节的过程中，仍向其它会场传输第一导播摄像机拍摄的视频流。

需要说明的是，若在当前时刻，第一导播摄像机和第二导播摄像机拍摄的视频流均被传送至其它会场，则此时可以对任意一个导播摄像机进行调节，或者，对需要调节幅度较小的导播摄像机进行调节。

可选的，可以通过如下步骤A-步骤D调节第二导播摄像机的摄像角度或焦距：

步骤A、导播设备获取目标发言对象在双目坐标系中的三维坐标。

需要说明的是，该步骤A的执行过程可以参见S301中的步骤A-步骤C，此处不再进行赘述。

步骤B、导播设备根据双目摄像机(第一摄像机)和第二导播摄像机之间的外部参数，确定目标发言对象在导播坐标系中的三维坐标。

其中，导播坐标系是指以第二导播摄像机的初始位置为原点的三维坐标系。

可选的，双目摄像机和第二导播摄像机之间的外部参数包括双目摄像机与第二导播摄像机之间的距离等。

步骤C、导播设备根据目标发言对象在导播坐标系中的三维坐标，确定目标发言对象在第二导播摄像机的摄像镜头中的二维坐标。

步骤D、根据目标发言对象与第二导播摄像机之间的距离、以及目标发言对象在第二导播摄像机的摄像镜头中的二维坐标和需要达到的目标位置，计算第二导播摄像机的焦距、以及第二导播摄像机需要转动的水平角度和垂直角度。

需要说明的是，再通过上述步骤A-步骤D，对第二导播摄像机进行调节之后，还可以判断第二导播摄像机拍摄得到的人脸是否处于镜头的目标位置，若否，则对第二导播摄像机进行微调，直至目标发言对象的人脸图像位于第二导播摄像机的摄像目标位置。

下面，结合图6A，对第二导播摄像机拍摄的视频中的画面进行说明。

图6A为本申请提供的视频画面示意图一。请参见图6A，视频画面中包括一个发言对象，且该一个有效发言对象位于画面的目标位置，例如，该目标位置为画面的中心位置。

S507、导播设备向终端设备发送第二导播摄像机拍摄的视频流，以使终端设备将第二导播摄像机拍摄的视频流发送至其它会场。

导播设备向终端设备发送第二导播摄像机拍摄的视频流之后，终端设备则将接收到的视频流发送给其它会场。

S508、判断预设时段内的两个有效发言对象之间的距离是否小于预设距离。

若是，则执行S509-S510。

若否，则执行S511-S512。

S509、导播设备调整第二导播摄像机的摄像角度或焦距，以使两个有效发言对象对应的人脸图像位于第二导播摄像机的摄像目标位置。

需要说明的是，S509的执行过程可以参见S506，此处不再进行赘述。

下面，结合图6B，对第二导播摄像机拍摄的视频中的画面进行说明。

图6B为本申请提供的视频画面示意图二。请参见图6B，视频画面中包括两个有效发言对象，且该两个有效发言对象位于画面的中心位置。

S510、导播设备向终端设备发送第二导播摄像机拍摄的视频流，以使终端设备将第二导播摄像机拍摄的视频流发送至其它会场。

需要说明的是，S510的执行过程可以参见S507，此处不再进行赘述。

S511、导播设备调整第一导播摄像和第二导播摄像机中至少一个的摄像角度或焦距，以使两个有效发言对象中的一个有效发言对象对应的人脸图像位于第一导播摄像机的摄像目标位置、另一个有效发言对象对应的人脸图像位于第二导播摄像机的摄像目标位置。

需要说明的是，对第一导播摄像机或第二导播摄像机的调节过程可以参见S506，此处不再进行赘述。

S512、导播设备向终端设备发送第一导播摄像机拍摄的视频流和第二导播摄像机拍摄的视频流，以使终端设备将第一导播摄像机拍摄的视频流和第二导播摄像机拍摄的视频流发送至其它会场。

在终端设备接收到第一导播摄像机拍摄的视频流和第二导播摄像机拍摄的视频流之后，终端设备则将第一导播摄像机拍摄的视频流和第二导播摄像机拍摄的视频流均发送给其它会场，以使其它会场可以同时播放第一导播摄像机和第二导播摄像机拍摄的视频流。

可选的，在导播设备向终端设备发送第一导播摄像机拍摄的视频流和第二导播摄像机拍摄的视频流之前，还可以对第一导播摄像机拍摄的视频流和第二导播摄像机拍摄的视频流进行组合，并向终端设备发送组合后的视频流。

可选的，在终端设备向其它会场发送第一导播摄像机和第二导播摄像机拍摄的视频流之前，也可以先对第二导播摄像机和第二导播摄像机拍摄的视频流进行组合，再向其它会场发送组合后的视频流。

下面，结合图6C，对第二导播摄像机拍摄的视频中的画面进行说明。

图6C为本申请提供的视频画面示意图三。请参见图6C，视频画面中包括两个有效发言对象，该两个有效发言对象分别由第一导播摄像机和第二导播摄像机拍摄得到，且该两个有效发言对象对应的画面由终端设备组合在一起。

S513、导播设备判断至少两个有效发言对象之间的距离小于预设距离是否小于预设距离。

若是，则执行S514-S515。

若否，则执行S516-S517。

可选的，导播设备可以将相距最远的两个有效发言对象之间的距离确定为至少两个有效发言对象之间的距离。

S514、导播设备调整第二导播摄像机的摄像角度或焦距，以使至少两个有效发言对象对应的人脸图像位于第二导播摄像机的摄像目标位置。

需要说明的是，S514的执行过程可以参见S506，此处不再进行赘述。

下面，结合图6D，对第二导播摄像机拍摄的视频中的画面进行说明。

图6D为本申请提供的视频画面示意图四。请参见图6D，假设至少两个发言对象的个数为三个，则视频画面中包括三个有效发言对象，且该两个有效发言对象位于画面的中心位置。

S515、导播设备向终端设备发送第二导播摄像机拍摄的视频流，以使终端设备将第二导播摄像机拍摄的视频流发送至其它会场。

需要说明的是，S515的执行过程可以参见S507，此处不再进行赘述。

S516、导播设备调整第二导播摄像机的摄像角度或焦距，以使第二导播摄像机拍摄全景视频。

需要说明的是，S516的执行过程可以参见S506，此处不再进行赘述。

下面，结合图6E，对第二导播摄像机拍摄的视频中的画面进行说明。

图6E为本申请提供的视频画面示意图五。请参见图6E，第二导播摄像机拍摄的视频面为全景画面，该全景画面中包括了会场中所有参会者的人脸图像。

S517、导播设备向终端设备发送第二导播摄像机拍摄的视频流，以使终端设备将第二导播摄像机拍摄的视频流发送至其它会场。

需要说明的是，S517的执行过程可以参见S507，此处不再进行赘述。

在图5所示的实施例中，导播设备根据预设时段内的历史发言信息确定发言模式，并根据发言模式对导播摄像机进行控制。预设时段内的发言模式可以体现会议的真实场景，根据会议的真实场景可以对导播摄像机进行准确的控制，避免了导播摄像机进行频繁及不必要的切换。

图7为本申请提供的摄像跟踪装置的结构示意图一。该摄像跟踪装置可以设置在图1实施例所示的导播设备中。请参见图7，该装置可以包括第一确定模块11、第二确定模块12和控制模块13，其中，

所述第一确定模块11用于，根据第一摄像机在预设时段内采集的第一视频信息、以及多个麦克风MIC在所述预设时段内采集的第一音频信息，确定所述预设时段内的历史发言信息，所述第一摄像机用于采集本地视频；

所述第二确定模块12用于，根据所述第一摄像机在当前时刻采集的第二视频信息和所述多个MIC在当前时刻采集得到的第二音频信息，确定当前发言对象；

所述控制模块13用于，根据所述历史发言信息、所述当前发言对象和至少一个导播摄像机在所述当前时刻拍摄的发言对象，控制所述至少一个导播摄像机的导播状态，所述导播摄像机用于向其它会场发送导播视频流。

本申请提供的摄像跟踪装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，导播摄像机的导播状态包括摄像角度或焦距，所述至少一个导播摄像机中包括第一导播摄像机和第二导播摄像机；所述控制模块13具体用于：

图8为本申请提供的摄像跟踪装置的结构示意图二。在图7所示实施例的基础上，请参见图8，所述控制模块13包括确定单元131和调整单元132，其中，

所述确定单元131用于，在所述当前发言对象和第一导播摄像机在所述当前时刻拍摄的发言对象不同时，根据所述历史发言信息，确定在所述预设时段内的发言模式，所述发言模式包括单人发言模式、双人辩论模式和多人讨论模式中的至少一种；

所述调整单元132用于，根据所述预设时段内的发言模式，调整所述第一导播摄像机和所述第二导播摄像机中的至少一个的摄像角度或焦距。

在另一种可能的实施方式中，所述确定单元131具体用于：

将所述有效发言对象的个数确定为所述有效发言人数。

在另一种可能的实施方式中，所述确定单元131具体用于：

在另一种可能的实施方式中，所述发言模式为单人发言模式；所述调整单元132具体用于：

在所述预设时段内有效发言对象中确定目标发言对象；

在另一种可能的实施方式中，所述调整单元132具体用于：

在另一种可能的实施方式中，所述发言模式为双人辩论模式；所述调整单元132具体用于：

在另一种可能的实施方式中，所述发言模式为多人讨论模式；所述调整单元132具体用于：

在另一种可能的实施方式中，所述装置还包括发送模块14，其中，

所述发送模块14用于，在所述调整单元132调整所述第二导播摄像机的摄像角度或焦距之后，向终端设备发送所述第二导播摄像机拍摄的视频流，以使所述终端设备将所述第二导播摄像机拍摄的视频流发送至其它会场。

在另一种可能的实施方式中，所述发送模块14还用于：

在所述调整单元132调整所述第一导播摄像和所述第二导播摄像机中至少一个的摄像角度或焦距之后，向终端设备发送所述第一导播摄像机拍摄的视频流和所述第二导播摄像机拍摄的视频流，以使所述终端设备将所述第一导播摄像机拍摄的视频流和所述第二导播摄像机拍摄的视频流发送至其它会场。

在另一种可能的实施方式中，所述第一确定模块11具体用于：

在另一种可能的实施方式中，针对所述预设时段内的第一时刻，所述第一确定模块11具体用于：

在另一种可能的实施方式中，所述第一摄像机为双目摄像机；所述第一确定模块11具体用于：

图9为本申请提供的导播设备的结构示意图。请参见图9，该导播设备包括：处理器21、存储器22及通信总线23，所述通信总线23用于实现各元器件之间的连接，所述存储器22用于存储程序指令，所述处理器21用于读取所述存储器22中的程序指令，并根据所述存储器22中的程序指令执行上述方法实施例所示的技术方案。

本申请提供的导播设备可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当存储设备的至少一个处理器执行该计算机执行指令时，存储设备执行上述各种可能设计提供的摄像跟踪方法。

本申请提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，该计算机执行指令存储在计算机可读存储介质中。存储设备的至少一个处理器可以从计算机可读存储介质读取该计算机执行指令，至少一个处理器执行该计算机执行指令使得存储设备实施前述方法实施例中的各种可能设计提供的摄像跟踪方法。

本申请提供一种芯片系统，该芯片系统包括处理器，用于支持导播设备实现上述方面中所涉及的功能，例如，处理上述方法中所涉及的信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存导播设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其它分立器件。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种摄像跟踪方法，其特征在于，包括：

导播设备根据第一摄像机在预设时段内采集的第一视频信息、以及多个麦克风MIC在所述预设时段内采集的第一音频信息，确定所述预设时段内的历史发言信息，所述第一摄像机用于采集本地视频；

所述导播设备根据所述第一摄像机在当前时刻采集的第二视频信息和所述多个MIC在当前时刻采集得到的第二音频信息，确定当前发言对象；

所述导播设备根据所述历史发言信息、所述当前发言对象和至少一个导播摄像机在所述当前时刻拍摄的发言对象，控制所述至少一个导播摄像机的导播状态，所述导播摄像机用于向其它会场发送导播视频流；

所述导播摄像机的导播状态包括摄像角度或焦距，所述至少一个导播摄像机中包括第一导播摄像机和第二导播摄像机；所述导播设备根据所述历史发言信息、所述当前发言对象和至少一个导播摄像机在所述当前时刻拍摄的发言对象，控制所述至少一个导播摄像机的导播状态，包括：

当所述当前发言对象和第一导播摄像机在所述当前时刻拍摄的发言对象相同时，所述导播设备保持所述第一导播摄像机的摄像角度和焦距不变，所述第一导播摄像机拍摄的导频视频在当前时刻被发送至其它会场；

当所述当前发言对象和第一导播摄像机在所述当前时刻拍摄的发言对象不同时，所述导播设备根据所述历史发言信息，调整所述第一导播摄像机和所述第二导播摄像机中的至少一个的摄像角度或焦距。

2.根据权利要求1所述的方法，其特征在于，

当所述当前发言对象和第一导播摄像机在所述当前时刻拍摄的发言对象不同时，所述导播设备根据所述历史发言信息，确定在所述预设时段内的发言模式，所述发言模式包括单人发言模式、双人辩论模式和多人讨论模式中的至少一种；

所述导播设备根据所述预设时段内的发言模式，调整所述第一导播摄像机和所述第二导播摄像机中的至少一个的摄像角度或焦距。

3.根据权利要求2所述的方法，其特征在于，所述导播设备根据所述历史发言信息，确定在所述预设时段内的发言模式，包括：

所述导播设备根据所述历史发言信息，确定所述预设时段内的有效发言人数；

所述导播设备根据所述预设时段内的有效发言人数，确定在所述预设时段内的发言模式。

4.根据权利要求3所述的方法，其特征在于，所述导播设备获取所述预设时段内的有效发言人数，包括：

所述导播设备根据所述预设时段内每一个发言对象的优先级、及每一个发言对象的在所述预设时段内每次发言的发言时长，确定每一个发言对象的有效发言次数；

所述导播设备将有效发言次数大于或等于1的发言对象确定为有效发言对象；

所述导播设备将所述有效发言对象的个数确定为所述有效发言人数。

5.根据权利要求3或4所述的方法，其特征在于，所述导播设备根据所述预设时段内的有效发言人数，确定在所述预设时段内的发言模式，包括：

当所述有效发言人数为1时，所述导播设备确定所述预设时段内的发言模式为单人发言模式；

当所述有效发言人数为2时，若所述两个有效发言人交替发言，所述导播设备确定所述预设时段内的发言模式为单人发言模式或双人辩论模式；

当所述有效发言人数大于2时，所述导播设备根据所述预设时段内的至少两个有效发言对象优先级，确定所述预设时段内的发言模式为单人发言模式或多人讨论模式。

6.根据权利要求5所述的方法，其特征在于，所述导播设备根据所述预设时段内的至少两个有效发言对象优先级，确定所述预设时段内的发言模式为单人发言模式或多人讨论模式，包括：

若所述至少两个有效发言对象中包括重要发言对象，所述导播设备确定所述预设时段内的发言模式为单人发言模式；

若所述至少两个有效发言对象中不包括重要发言对象，所述导播设备确定所述预设时段内的发言模式为多人讨论模式。

7.根据权利要求2-4任一项所述的方法，其特征在于，所述发言模式为单人发言模式；所述导播设备根据所述预设时段内的发言模式，调整所述第一导播摄像机和所述第二导播摄像机中的至少一个的摄像角度或焦距，包括：

所述导播设备在所述预设时段内有效发言对象中确定目标发言对象；

所述导播设备调节所述第二导播摄像机的摄像角度或焦距，以使所述目标发言对象的人脸图像位于所述第二导播摄像机的摄像目标位置。

8.根据权利要求7所述的方法，其特征在于，所述导播设备在所述预设时段内有效发言对象中确定目标发言对象，包括：

9.根据权利要求2-4任一项所述的方法，其特征在于，所述发言模式为双人辩论模式；所述导播设备根据所述预设时段内的发言模式，调整所述第一导播摄像机和所述第二导播摄像机中的至少一个的摄像角度或焦距，包括：

若所述预设时段内的两个有效发言对象之间的距离小于预设距离，所述导播设备调整所述第二导播摄像机的摄像角度或焦距，以使所述两个有效发言对象对应的人脸图像位于所述第二导播摄像机的摄像目标位置；

若所述预设时段内的两个有效发言对象之间的距离大于或等于预设距离，所述导播设备调整所述第一导播摄像和所述第二导播摄像机中至少一个的摄像角度或焦距，以使所述两个有效发言对象中的一个有效发言对象对应的人脸图像位于所述第一导播摄像机的摄像目标位置、另一个有效发言对象对应的人脸图像位于所述第二导播摄像机的摄像目标位置。

10.根据权利要求2-4任一项所述的方法，其特征在于，所述发言模式为多人讨论模式；所述导播设备根据所述预设时段内的发言模式，调整所述第一导播摄像机和所述第二导播摄像机中的至少一个的摄像角度或焦距，包括：

若所述预设时段内的至少两个有效发言对象之间的距离小于预设距离，所述导播设备调整所述第二导播摄像机的摄像角度或焦距，以使所述至少两个有效发言对象对应的人脸图像位于所述第二导播摄像机的摄像目标位置；

若所述预设时段内的至少两个有效发言对象之间的距离小于预设距离，所述导播设备调整所述第二导播摄像机的摄像角度或焦距，以使所述第二导播摄像机拍摄全景视频。

11.根据权利要求10所述的方法，其特征在于，所述导播设备调整所述第二导播摄像机的摄像角度或焦距之后，还包括：

所述导播设备向终端设备发送所述第二导播摄像机拍摄的视频流，以使所述终端设备将所述第二导播摄像机拍摄的视频流发送至其它会场。

12.根据权利要求9所述的方法，其特征在于，所述导播设备调整所述第一导播摄像和所述第二导播摄像机中至少一个的摄像角度或焦距之后，还包括：

所述导播设备向终端设备发送所述第一导播摄像机拍摄的视频流和所述第二导播摄像机拍摄的视频流，以使所述终端设备将所述第一导播摄像机拍摄的视频流和所述第二导播摄像机拍摄的视频流发送至其它会场。

13.根据权利要求1-4任一项所述的方法，其特征在于，所述导播设备根据第一摄像机在预设时段内采集的第一视频信息、以及多个麦克风MIC在所述预设时段内采集的第一音频信息，确定所述预设时段内的历史发言信息，包括：

所述导播设备根据所述预设时段内各时刻对应的视频信息和音频信息，确定各时刻对应的发言对象；

所述导播设备对各时刻对应的发言对象进行统计，得到所述历史发言信息，所述历史发言信息包括如下信息中的至少一种：所述预设时段内的发言对象个数、每一个发言对象的发言时长、每一个发言对象的发言次数、每一个发言对象的发言内容、每一次发言的发言时长、每一次发言的发言时刻、和每一个发言对象的优先级。

14.根据权利要求13所述的方法，其特征在于，针对所述预设时段内的第一时刻，根据所述第一时刻的视频信息和音频信息，确定所述第一时刻对应的发言对象，包括：

所述导播设备根据所述第一时刻的视频信息，确定每一个人脸图像对应的水平角度和垂直角度；

所述导播设备根据所述第一时刻对应的音频信息，确定在所述第一时刻时的声源对应的水平角度和垂直角度；

所述导播设备根据每一个人脸图像对应的水平角度和垂直角度、及所述声源对应的水平角度和垂直角度，确定所述第一时刻对应的发言对象。

15.根据权利要求14所述的方法，其特征在于，所述第一摄像机为双目摄像机；所述导播设备根据所述第一时刻的视频信息，确定每一个人脸图像对应的水平角度和垂直角度，包括：

所述导播设备根据所述第一时刻的视频信息，获取每一个人脸图像在所述双目摄像机中两个摄像镜头中的二维坐标；

所述导播设备根据所述双目摄像机的两个摄像镜头之间的距离、及每一个人脸信息在所述两个摄像镜头中的二维坐标，确定每一个人脸图像的深度，人脸图像的深度为人脸与所述双目摄像机之间的距离；

所述导播设备根据每一个人脸图像的深度，确定每一个人脸图像在双目坐标系中的三维坐标，所述双目坐标系为以所述双目摄像机的一个摄像镜头为原点的三维坐标系；

所述导播设备根据每一个人脸图像在所述双目坐标系中的三维坐标，确定每一个人脸图像对应的水平角度和垂直角度。

16.根据权利要求14或15所述的方法，其特征在于，所述根据每一个人脸图像对应的水平角度和垂直角度、及所述声源对应的水平角度和垂直角度，确定所述第一时刻对应的发言对象，包括：

所述导播设备根据每一个人脸图像对应的水平角度和垂直角度、及所述声源对应的水平角度和垂直角度，确定每一个人脸图像对应的人脸与所述声源之间的距离；

所述导播设备根据每一个人脸图像对应的人脸与所述声源之间的距离，确定所述第一时刻对应的发言对象。

17.一种摄像跟踪装置，其特征在于，包括第一确定模块、第二确定模块和控制模块，其中，

所述控制模块用于，根据所述历史发言信息、所述当前发言对象和至少一个导播摄像机在所述当前时刻拍摄的发言对象，控制所述至少一个导播摄像机的导播状态，所述导播摄像机用于向其它会场发送导播视频流；

导播摄像机的导播状态包括摄像角度或焦距，所述至少一个导播摄像机中包括第一导播摄像机和第二导播摄像机；所述控制模块具体用于：

18.根据权利要求17所述的装置，其特征在于，所述控制模块包括确定单元和调整单元，其中，

19.根据权利要求18所述的装置，其特征在于，所述确定单元具体用于：

20.根据权利要求19所述的装置，其特征在于，所述确定单元具体用于：

将所述有效发言对象的个数确定为所述有效发言人数。

21.根据权利要求19或20所述的装置，其特征在于，所述确定单元具体用于：

22.根据权利要求21所述的装置，其特征在于，所述确定单元具体用于：

23.根据权利要求18-20任一项所述的装置，其特征在于，所述发言模式为单人发言模式；所述调整单元具体用于：

在所述预设时段内有效发言对象中确定目标发言对象；

24.根据权利要求23所述的装置，其特征在于，所述调整单元具体用于：

25.根据权利要求18-20任一项所述的装置，其特征在于，所述发言模式为双人辩论模式；所述调整单元具体用于：

26.根据权利要求18-20任一项所述的装置，其特征在于，所述发言模式为多人讨论模式；所述调整单元具体用于：

27.根据权利要求26所述的装置，其特征在于，所述装置还包括发送模块，其中，

28.根据权利要求27所述的装置，其特征在于，所述发送模块还用于：

29.根据权利要求17-20任一项所述的装置，其特征在于，所述第一确定模块具体用于：

30.根据权利要求29所述的装置，其特征在于，针对所述预设时段内的第一时刻，所述第一确定模块具体用于：

31.根据权利要求30所述的装置，其特征在于，所述第一摄像机为双目摄像机；所述第一确定模块具体用于：

32.根据权利要求30或31所述的装置，其特征在于，所述第一确定模块具体用于：

33.一种导播设备，其特征在于，包括：处理器、存储器及通信总线，所述通信总线用于实现各元器件之间的连接，所述存储器用于存储程序指令，所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行权利要求1-16任一项所述的方法。