CN105657329B

CN105657329B - 视频会议系统、处理装置及视频会议方法

Info

Publication number: CN105657329B
Application number: CN201610104903.3A
Authority: CN
Inventors: 韦国华; 陈冬根
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2016-02-26
Filing date: 2016-02-26
Publication date: 2018-11-20
Anticipated expiration: 2036-02-26
Also published as: CN105657329A

Abstract

本发明提供一种视频会议系统、处理装置及视频会议方法，处理装置包括：音源定位模块，用于根据麦克风矩阵所采集的音频确定第一音源以及至少一个第二音源所在方向；第一控制模块，用于控制第一摄像机转向第一音源所在方向，并指示第一摄像机采集第一音源所在方向的第一视频数据；第一截取模块，用于获取第二摄像机采集的全景视频数据，并根据第二音源所在方向在全景视频数据中截取对应于至少一个第二音源所在方向的至少一个第二视频数据；合成模块，用于将第一视频数据和至少一个第二视频数据合成到合成画面中。本发明提供的视频会议系统、处理装置及视频会议方法能够顾及整个视频会议场所中的情景变化。

Description

视频会议系统、处理装置及视频会议方法

技术领域

本发明涉及视频会议领域，尤其涉及一种视频会议系统、处理装置及视频会议方法。

背景技术

传统的视频会议系统中，当多方进行会议时，尤其是当一个会议室里有多人参加会议，并发言时，实际的会议画面无法在聚焦于实际的发言人身上，其他与会各方无法实时、清晰的看到发言人的举止和表情。而与会各方通常都有与发言人进行沟通、交流和对话需求，并且通常都希望能将画面聚焦到发言人身上，并有一种面对面的感觉。

在这样的需求下，各种手动、自动的发言人跟踪、定位的系统与方法也应运而生。然而现有的一些系统在整套会议系统的部署上通常存在诸多问题，如：需要为每个人设置一个预置位，讲话前必须按发言键，话筒的位置需要固定等等。这都为整个系统的设置和最终会议的进行带来了各种各样的约束和限制，甚至极大的降低和损失了视频会议的友善性，交互性和体验度。

另有其他一些现有技术，利用一个摄像头来对整个会议场所内的发言人进行定位和跟踪，但在系统实际运行的过程中常常会因仅关注于小范围内的画面，都无法及时顾及整个会议场所内的一些情景及变化，从而易导致对一些特殊场景下的变化无法作出必要的反应或者反应不够及时。

发明内容

本发明为了克服上述现有技术存在的缺陷，提供了一种视频会议系统、处理装置及视频会议方法，其能够顾及整个视频会议场所中的情景变化。

根据本发明的一个方面，提供一种处理装置，应用于视频会议系统。所述视频会议系统包括第一摄像机、第二摄像机以及麦克风矩阵，所述处理装置包括：音源定位模块，用于根据所述麦克风矩阵所采集的音频确定第一音源以及至少一个第二音源所在方向，所述第一音源为持续音源，所述第二音源为动态音源；第一控制模块，用于控制所述第一摄像机转向第一音源所在方向，并指示所述第一摄像机采集第一音源所在方向的第一视频数据；第一截取模块，用于获取所述第二摄像机采集的全景视频数据，并根据所述第二音源所在方向在所述全景视频数据中截取对应于至少一个所述第二音源所在方向的至少一个第二视频数据；合成模块，用于将所述第一视频数据和至少一个所述第二视频数据合成到合成画面中。

优选地，所述处理装置还包括：语音识别模块，用于根据所述麦克风矩阵所采集的音频识别来自不同发言人的所述第一音源以及至少一个所述第二音源。

优选地，所述处理装置还包括：切换模块，用于：当所述语音识别模块未识别到所述第一音源和所述第二音源时，指示所述处理装置输出全景视频数据；当所述语音识别模块识别到所述第一音源但未识别到所述第二音源时，指示所述处理装置输出第一视频数据；当所述语音识别模块识别到所述第一音源和至少一个所述第二音源时，指示所述处理装置输出所述合成画面。

优选地，所述合成模块还用于根据所述第二视频数据的数量将所述第一视频数据和所述第二视频数据布局在所述合成画面中。

优选地，所述第一视频数据在所述合成画面中所占比例大于任一个所述第二视频数据在所述合成画面中所占比例。

优选地，所述第一音源的音量大于第一阈值，并且所述第一音源大于第一阈值的持续时间大于第二阈值；以及所述第二音源在所述第一音源大于第一阈值的持续时间内大于第三阈值，并且所述第二音源大于第三阈值的持续时间小于第四阈值。

优选地，所述处理装置还包括：人脸识别模块，用于对所述第一视频数据及所述全景视频数据进行人脸识别，并根据所述第一视频数据获取与所述第一音源对应的第一发言人的位置。

优选地，所述处理装置还包括：定位校正模块，用于根据所述全景视频数据对所述第一视频数据中的所述第一发言人的位置进行校正。

优选地，所述处理装置还包括：运动跟踪模块，用于对所述第一视频数据中的所述第一发言人进行运动检测跟踪；所述第一控制模块还用于根据所述运动跟踪模块控制所述第一摄像机追踪所述第一发言人。

优选地，所述处理装置还包括：运动检测模块，用于对所述全景视频数据中的除所述第一发言人外的人员进行运动检测；以及第二截取模块，用于获取所述第二摄像机采集的全景视频数据，并在所述全景视频数据截取第三视频数据，所述第三视频数据包括除所述第一发言人外的人员移动的图像。

优选地，所述合成模块还用于将所述第三视频数据合成到所述合成画面中。

优选地，所述处理装置还包括：判断模块，用于判断使用所述第一截取模块和/或所述第二截取模块截取所述全景视频数据。

根据本发明的又一方面，还提供一种视频会议系统，包括：第一摄像机；第二摄像机；麦克风矩阵，用于采集音频；视频输出装置；以及处理装置，包括：音源定位模块，用于根据所述麦克风矩阵所采集的音频确定第一音源以及至少一个第二音源所在方向，所述第一音源为持续音源，所述第二音源为动态音源；第一控制模块，用于控制所述第一摄像机转向第一音源所在方向，并指示所述第一摄像机采集第一音源所在方向的第一视频数据；第一截取模块，用于获取所述第二摄像机采集的全景视频数据，并根据所述第二音源所在方向在所述全景视频数据中截取对应于至少一个所述第二音源所在方向的至少一个第二视频数据；合成模块，用于将所述第一视频数据和至少一个所述第二视频数据合成到合成画面中。

优选地，所述第一摄像机为球型摄像机；所述第二摄像机为全景摄像机。

根据本发明的再一方面，还提供一种视频会议方法，应用如上所述的处理装置，包括：根据所述麦克风矩阵所采集的音频确定第一音源以及至少一个第二音源所在方向，所述第一音源为持续音源，所述第二音源为动态音源；控制所述第一摄像机转向第一音源所在方向，并指示所述第一摄像机采集第一音源所在方向的第一视频数据；获取所述第二摄像机采集的全景视频数据，并根据所述第二音源所在方向在所述全景视频数据中截取对应于至少一个所述第二音源所在方向的至少一个第二视频数据；以及将所述第一视频数据和至少一个所述第二视频数据合成到合成画面中。

本发明利用双摄像机，配合麦克风矩阵，能够将视频会议场所中多个与会人员的发言都能够合成在同一画面中进行输出，并保证主要的发言人的定位和追踪，这样，不需要为每个与会人员都配备一台摄像机，就够实现视频会议输出的动态变化。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1示出了根据本发明实施例的视频会议系统的示意图。

图2示出了根据本发明实施例的处理装置的示意图。

图3示出了根据本发明另一实施例的处理装置的示意图。

图4示出了根据本发明实施例的视频会议方法的流程图。

图5示出了根据本发明实施例的第一视频数据的画面。

图6示出了根据本发明实施例的第二视频数据的画面。

图7示出了根据本发明实施例的一种合成画面。

图8示出了根据本发明实施例的另一种合成画面。

图9示出了根据本发明实施例的又一种合成画面。

图10示出了根据本发明实施例的再一种合成画面。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

参见图1，图1示出了根据本发明实施例的视频会议系统的示意图。视频会议系统包括第一摄像机110、第二摄像机120、麦克风矩阵130、视频输出装置150以及处理装置140。第一摄像机110可选地为球形摄像机。例如，第一摄像机110可以是PTZ云台摄像机。第二摄像机120可选地为全景摄像机，用于采集视频会议场所的全景视频数据。麦克风矩阵130用于采集视频会议场所中的音频以供处理装置140进行音源定位。具体而言，麦克风矩阵130中包括多个麦克风，该多个麦克风排列成矩阵形式。麦克风矩阵130中的每个麦克风接收到同一音源的时间不同，麦克风在麦克风矩阵130中的位置以及接收到同一音源的时间差可以同来确定音源位置。处理装置140可以根据麦克风矩阵130采集的音频及其时间差将音源所在方向的视频画面作为会议视频输出。

具体而言，图1中所示的视频会议系统中的各个部件可以通过有线或无线的方式进行连接。例如，第一摄像机110和第二摄像机120通过有线的方式与处理装置140连接，麦克风矩阵130以无线的方式与处理装置140连接。又例如，第一摄像机110、第二摄像机120、麦克风矩阵130、视频输出装置150都通过诸如局域网、互联网等无线的方式与处理装置140连接。可选地，本发明提供视频会议系统配合ITU/T H.239Role management andadditional media channels for H.300-series terminals协议，或者RFC4582BFCP和RFC4583SDP Format for BFCP Streams等协议一起使用，以实现同时显示第一摄像机110和第二摄像机120所采集的视频数据的画面。以上协议仅示例性地说明视频会议系统所使用的协议，但实际实现时并非以此为限。

本视频会议系统利用麦克风矩阵来实现音源的定位，并通过处理装置对第一摄像机和第二摄像机的控制来自动定位并跟踪到当前的发言人，且无需繁琐的操作，整个功能可自动化实现，无需对会议的使用者进行如此那般的教育和指导，也无需人工干预，为视频会议的召开和进行带来了极大的便利，并可为参与会议的各方带来一种面对面的体验和感受，可极大的提升视频会议的整体交互性和体验度。并在相对小的一个会议环境中得以更佳的体验。同时，双摄像头的设计也可为会议的管理和控制带来更多的灵活性，也同时可有效提升整个会议过程中的交互性。

处理装置的结构如图2所示。处理装置200包括音源定位模块203、第一控制模块201、第一截取模块202以及合成模块204。

音源定位模块203用于根据麦克风矩阵所采集的音频确定第一音源以及至少一个第二音源所在方向。具体而言，第一音源为持续音源，来表示第一发言人(主发言人)。当音源定位模块203确定某一音源的音量大于第一阈值，并且大于该第一阈值的持续时间大于第二阈值，可以将该音源作为第一音源。第二音源为动态音源，来表示其余发言人。当音源定位模块203确定某一个或多个音源在第一音源大于第一阈值的持续时间内大于第三阈值，并且第二音源大于第三阈值的持续时间小于第四阈值时，可以将该一个或多个音源作为第二音源。其中，第三阈值小于第一阈值，第四阈值小于第二阈值。

具体而言，音源定位模块203通过各个麦克风在麦克风矩阵中的位置以及接收到同一音源的时间差可以同来确定音源所在方向。其中，音源所在方向可以用该音源在视频会议场景中的坐标(极坐标或直角坐标)来表示。音源定位模块203将第一音源及第二音源的音源所在方向发送给第一控制装置201及第一截取装置202。

第一控制模块201用于控制第一摄像机转向第一音源所在方向，并指示第一摄像机采集第一音源所在方向的第一视频数据。具体而言，第一控制模块201根据音源定位模块203所发送的第一音源所在方向(例如视频会议场所中的坐标)，来控制第一摄像机转向第一音源所在方向，以获取包含发出第一音源的第一发言人画面的第一视频数据。所获得的第一视频数据的画面可以参见图5所示的第一视频数据画面510。

第一截取模块202用于获取第二摄像机采集的全景视频数据，并根据第二音源所在方向在全景视频数据中截取对应于至少一个第二音源所在方向的至少一个第二视频数据。具体而言，第一截取模块202获取音源定位模块203所发送的第二音源所在方向(例如视频会议场所中的坐标)，并将获取的第二音源所在方向转换为全景视频数据画面(如图6所示的全景视频数据画面520)中对应位置，以该对应位置为中心截取能够包括发出第二音源的其余发言人的画面区域作为第二视频数据(如图6所示的包括第二发言人162的第二视频数据画面530)。当有多个第二音源时，第一截取模块202可截取对应于该多个第二音源的多个第二视频数据。

合成模块204用于将第一视频数据和至少一个第二视频数据合成到合成画面中。可选地，合成模块204还用于根据第二视频数据的数量将第一视频数据和第二视频数据布局在合成画面中。例如，将一个或多个第二视频数据嵌入第一视频数据的画面中(如图7和图8所示的合成画面500)。又例如，将一个或多个第二视频数据画面分布在第一视频数据画面的一侧或两侧(如图9和图10所示的合成画面500)。可选地，第一视频数据在合成画面500中所占比例大于任一个第二视频数据在合成画面500中所占比例。具体而言，当第二视频数据的数量发生变化时，合成模块204自动切换合成画面，例如从图7所示的仅有一个第二视频数据的合成画面500切换为图8所示的有两个第二视频数据的合成画面500。

可选地，处理装置还可以具有更多的模块，如图3所示。图3所示的处理装置300除了与图2中相同的音源定位模块305、第一控制模块301、第一截取模块302以及合成模块304之外，还包括多个模块。该多个模块可以部分省略或配合使用来实现更多的功能。

可选地，处理装置300还包括语音识别装置306。语音识别装置306用于根据麦克风矩阵所采集的音频识别来自不同发言人的第一音源以及至少一个第二音源。具体而言，语音识别装置306与音源定位模块305配合使用。语音识别模块306可以根据所获取的音源声纹来辨别由不同的发言人所发出的音源。例如，当确定第一音源由第一发言人发出后，语音识别模块306识别第一音源的声纹，当第一音源再次出现，或其余音源出现时，语音识别模块306即可识别该音源由第一发言人发出或由其余发言人发出。同样地，语音识别模块306还可以识别第二发言人、第三发言人、第四发言人等的音源。

可选地，处理装置300还包括切换模块307。切换模块307用于切换视频输出。具体而言，当语音识别装置306未识别到第一音源和第二音源(也就是语音识别装置306未识别到任何发言人发言)时，指示处理装置300输出由第二摄像机所采集的全景视频数据(如图6所示的全景视频数据画面520)。当语音识别装置306识别到第一音源但未识别到第二音源(也就是语音识别装置306仅识别到第一发言人发言)时，指示处理装置300输出由第一摄像机所采集的第一视频数据(如图5所示的第一视频数据画面510)。当语音识别装置306识别到第一音源和至少一个第二音源时，指示处理装置300输出合成画面(如图7至图10所示的合成画面)。可选地，切换模块307按上述方式根据语音识别装置306的识别结果对会议视频输出进行切换。在一些变化例中，切换模块307也可以由用户手动控制以对会议视频输出进行切换。

可选地，处理装置还包括人脸识别模块309。人脸识别模块309用于对第一视频数据及全景视频数据进行人脸识别，并根据第一视频数据获取与第一音源对应的第一发言人的位置。具体而言，当第一控制模块301控制第一摄像机获取第一视频数据时，由于音源所在方向的误差，导致第一发言人并非位于第一视频数据画面的中心。因此，可以通过对第一视频数据画面进行人脸识别，以将第一视频数据画面中的第一发言人的脸或上半身置于第一视频数据画面的中心。同理，对于第一截取模块302截取第二视频数据时也类似地，进行人脸识别来将其余发言人的脸或上半身置于第二视频数据画面的中心。

可选地，处理装置还包括定位校正模块310。定位校正模块310用于根据全景视频数据对第一视频数据中的第一发言人的位置进行校正。在一些实施例中，第一控制模块301控制第一摄像机获取第一视频数据时，可能导致多个发言人或没有发言人位于第一视频数据画面中，在这样情况下，可以通过定位校正模块310在全景视频数据中定位第一音源所在方向来识别第一发言人的位置，并根据第一发言人在全景视频数据中的位置，进一步使第一控制模块301调整第一摄像机的方向的焦距，以使第一发言人位于第一视频数据画面的中心。

可选地，处理装置300还包括运动跟踪模块312。运动跟踪模块312用于对第一视频数据中的第一发言人进行运动检测跟踪。根据运动跟踪模块312对第一发言人的跟踪情况，第一控制模块301进一步控制第一摄像机追踪第一发言人。具体而言，运动跟踪模块312可以利用例如方向梯度直方图(Histogram of Oriented Gradient,HOG)的算法来对第一发言人进行运动跟踪。

可选地，处理装置300还包括运动检测模块311和第二截取模块303。运动检测模块311用于对全景视频数据中的除第一发言人外的人员进行运动检测。运动检测模块311也可以利用例如方向梯度直方图(Histogram of Oriented Gradient,HOG)的算法来对除第一发言人外的人员进行运动检测。第二截取模块303用于获取第二摄像机采集的全景视频数据，并在全景视频数据截取第三视频数据，第三视频数据包括除第一发言人外的人员移动的图像。具体而言，第二截取模块303获取运动检测模块311所检测的除第一发言人外的移动人员画面区域作为第三视频数据(如图6所示的包括正在移动的第三发言人163的第三视频数据画面540)。当有多个发言人移动时，第二截取模块303可截取对应于该多个移动的发言人的多个第三视频数据。可选地，合成模块304还用于将第三视频数据合成到合成画面中。第三视频数据与第二视频数据类似地嵌入第一视频数据画面中，或布局在第一视频画面的一侧或两侧。同时，第一视频数据在合成画面所占的比例也大于任一个第三视频数据在合成画面中所占的比例。第三视频画面在合成画面中所占的比例优选地，与第二视频画面在合成画面中所占的比例相同。在一些实施例中，第三视频画面在合成画面中所占的比例也可以与第二视频画面在合成画面中所占的比例不同。

可选地，处理装置300还包括判断模块308。判断模块308用于判断使用第一截取模块303和/或第二截取模块304截取全景视频数据。换言之，用户可以根据视频会议的需求，在视频会议输出中兼顾多个发言人的视频画面和/或在视频会议输出中兼顾移动人员的视频画面。

图3所示实施例仅示意性地示出处理装置300的模块，本领域技术人员理解，处理装置300还可以包括其他诸如用于通讯、计算等功能的模块，并且示出在图3中的多个模块也可以被省略。

图4示出了根据本发明实施例的视频会议方法的流程图，该视频会议方法应用于如图1所示的视频会议系统。在图4示出了四个步骤：

步骤S210：根据麦克风矩阵所采集的音频确定第一音源以及至少一个第二音源所在方向。其中，第一音源为持续音源，第二音源为动态音源。

在一个具体实施例中，当检测到音频能量超过一定阀值，即开始对当前的音频进行语音检测分析。若当前音频能量够大，并且从中可以检测到语音，说明当前本地会场有人在发言，开始对判别当前的音源的方位，并将该音源作为第一发言人的第一音源。可选地，语音检测的方法可以参考人类语音的基音频率范围来得出。可选地，音源定位的方法可以通过声速、计算的时间延迟及麦克风间距来得出。

步骤S220：控制第一摄像机转向第一音源所在方向，并指示第一摄像机采集第一音源所在方向的第一视频数据。

在检测并识别到会议场所第一发言人的大致方位的情况下，处理装置即可控制第一摄像机转向第一音源所在方向，并在第一摄像机采集的视频画面进行人脸识别，进而寻找人脸或者与人形(上半身)相匹配的模式。可选地，可以根据两个摄像机的画面及麦克风矩阵的音源方位，对实际的第一发言人位置进行校正。

具体而言，若找到唯一匹配的人脸，则将第一摄像机聚焦到该人脸或(上半身)。若找到多个与人脸匹配的模式，则将第一摄像机聚焦到该片区，同时联动第二摄像机中该方位区域图像片区及麦克风矩阵所检查的音源方位进行进一步筛选，以确定并定位到实际的唯一发言人(第一发言人)。若找不到人脸，则将第一摄像机定位于第一音源所在方向。

可选地，在第一发言人固定的情况下，第一摄像机持续固定聚焦于第一发言人，同时，音源定位持续进行。在第一发言人正常切换的情况下，可以调整第二摄像机将画面聚焦到新的发言人，同时，音源定位持续进行。

可选地，若第一发言人从位置上离开，并在会场里走动，或对会议场所内的黑板、白板进行操作，则通过运动跟踪技术来进行运动检测，并调用第以摄像机对此进行运动跟踪。

步骤S230：获取第二摄像机采集的全景视频数据，并根据第二音源所在方向在全景视频数据中截取对应于至少一个第二音源所在方向的至少一个第二视频数据。

步骤S240：将第一视频数据和至少一个第二视频数据合成到合成画面中。

在当前会议场所中的其他与会人员临时插话的情况下，处理装置将在第一摄像机采集到的视频与第二摄像机中采集到的视频数据进行合成。

具体而言，在第一摄像机检测并实际定位到第一发言人的情况下，并且发言人持续的过程中，若麦克风矩阵有检测到第一发言人之外的、超过一定阀值的音源，或者第二摄像机中有检测到非第一发言人的人员移动等动作时，将触发双摄像机的画面合成功能。

可选地，通过麦克风矩阵的音源定位找到在第二摄像机上的音源位置，并在此位置检测人脸或人形的目标，若找到匹配目标，并从中截取第二音源(其余发言人)位置的视频数据。可选地，在第二摄像机采集的全景视频数据中通过HOG之类的运动检测方法来检测到非第一发言人之外的人员走动，若检测到相关事件，截取第二摄像机中的相关视频数据。将上述从第二摄像机中截取的视频数据与第一摄像机的视频数据进行画面合成后，再进行编码，并发送给位于其他会议场所，以便于其他会议场所中的人们可以看到当前会议场所中的发言人的状况及变化，

可选地，在步骤S210之前，还可以包括如下步骤：

在参加一个视频会议后，第一摄像机和第二摄像机预设定位到会议场所的整个画面。同时，启动麦克风矩阵采集会议场所的音频，启动第一摄像机和第二摄像机采集视频数据。

可选地，在视频会议过程中，还可以包括如下步骤：

若在连续超过一定时间未检测到任何发言人的语音，并且未检测到发言人的走动，则视为发言结束。一旦本地发言人发言结束，处理装置将调动第一摄像机，将本地画面定位到会议室的整个画面，直到检测到本地与会的各方中再次有人发言。

通过上述本发明的技术方案说明，采用本发明，在用户在进行视频会议时，利用麦克风阵列实现音源的定位，再结合人脸检测，对发言人进行自动定位、聚焦和跟踪，整个功能可自动化实现，无需对会议的使用者进行如此那般的教育和指导，也无需人工干预，也无需为每一个与会人员单独设置一个麦克风，且麦克风可以不固定位置，为视频会议的召开和进行带来了极大的便利，并可为参与会议的各方带来一种面对面的体验和感受，可极大的提升视频会议的整体交互性和体验度。并在相对小的一个会议环境中得以更佳的体验。并且，双摄像机的设计，及对双视频输入源的灵活控制，而在检测到必要信息时，将双摄像头的图像进行相关的合成，以给远程参会方提供本会议场所中正在发生的、更多的实时辅助信息，对会议的互动性带来的很大的提升，并且整个发言人信息的提供做到在自动的同时又可兼顾输入源的控制要求，对会议的管理和扩展带来有效的帮助。

以上具体地示出和描述了本发明的示例性实施方式。应该理解，本发明不限于所公开的实施方式，相反，本发明意图涵盖包含在所附权利要求范围内的各种修改和等效置换。

Claims

1.一种处理装置，应用于视频会议系统，所述视频会议系统包括第一摄像机、第二摄像机以及麦克风矩阵，其特征在于，所述处理装置包括：

音源定位模块，用于根据所述麦克风矩阵所采集的音频确定第一音源以及多个第二音源所在方向，所述第一音源为持续音源，所述第二音源为动态音源，所述第一音源的音量大于第一阈值，并且所述第一音源的音量大于第一阈值的持续时间大于第二阈值，所述第二音源的音量在所述第一音源的音量大于第一阈值的持续时间内大于第三阈值，并且所述第二音源的音量大于第三阈值的持续时间小于第四阈值，所述第三阈值小于第一阈值，所述第四阈值小于第二阈值；

第一控制模块，用于控制所述第一摄像机转向第一音源所在方向，并指示所述第一摄像机采集第一音源所在方向的第一视频数据；

第一截取模块，用于获取所述第二摄像机采集的全景视频数据，并根据所述第二音源所在方向在所述全景视频数据中截取对应于多个所述第二音源所在方向的多个第二视频数据；

合成模块，用于将所述第一视频数据和多个所述第二视频数据合成到合成画面中，所述合成模块还用于根据所述第二视频数据的数量将所述第一视频数据和所述第二视频数据布局在所述合成画面中，其中，所述第一视频数据在所述合成画面中所占比例大于任一个所述第二视频数据在所述合成画面中所占比例。

2.如权利要求1所述的处理装置，其特征在于，还包括：

语音识别模块，用于根据所述麦克风矩阵所采集的音频识别来自不同发言人的所述第一音源以及多个所述第二音源。

3.如权利要求2所述的处理装置，其特征在于，还包括：

切换模块，用于：

当所述语音识别模块未识别到所述第一音源和所述第二音源时，指示所述处理装置输出全景视频数据；

当所述语音识别模块识别到所述第一音源但未识别到所述第二音源时，指示所述处理装置输出第一视频数据；

当所述语音识别模块识别到所述第一音源和多个所述第二音源时，指示所述处理装置输出所述合成画面。

4.如权利要求1至3任一项所述的处理装置，其特征在于，还包括：

人脸识别模块，用于对所述第一视频数据及所述全景视频数据进行人脸识别，并根据所述第一视频数据获取与所述第一音源对应的第一发言人的位置。

5.如权利要求4所述的处理装置，其特征在于，还包括：

定位校正模块，用于在所述全景视频数据中定位第一音源所在方向来识别第一发言人的位置，并根据所述第一发言人在全景视频数据中的位置使第一控制模块调整第一摄像机的方向，以使所述第一发言人位于第一视频数据画面的中心。

6.如权利要求5所述的处理装置，其特征在于，还包括：

运动跟踪模块，用于对所述第一视频数据中的所述第一发言人进行运动检测跟踪；

所述第一控制模块还用于根据所述运动跟踪模块控制所述第一摄像机追踪所述第一发言人。

7.如权利要求5所述的处理装置，其特征在于，还包括：

运动检测模块，用于对所述全景视频数据中的除所述第一发言人外的人员进行运动检测；以及

第二截取模块，用于获取所述第二摄像机采集的全景视频数据，并在所述全景视频数据截取第三视频数据，所述第三视频数据包括除所述第一发言人外的人员移动的图像。

8.如权利要求7所述的处理装置，其特征在于，所述合成模块还用于将所述第三视频数据合成到所述合成画面中。

9.如权利要求8所述的处理装置，其特征在于，还包括：

判断模块，用于判断使用所述第一截取模块和/或所述第二截取模块截取所述全景视频数据。

10.一种视频会议系统，其特征在于，包括：

第一摄像机；

第二摄像机；

麦克风矩阵，用于采集音频；

视频输出装置；以及

处理装置，包括：

11.如权利要求10所述的视频会议系统，其特征在于，

所述第一摄像机为球型摄像机；

所述第二摄像机为全景摄像机。

12.一种视频会议方法，应用如权利要求1至9任一项所述的处理装置，其特征在于，包括：

根据所述麦克风矩阵所采集的音频确定第一音源以及多个第二音源所在方向，所述第一音源为持续音源，所述第二音源为动态音源；

控制所述第一摄像机转向第一音源所在方向，并指示所述第一摄像机采集第一音源所在方向的第一视频数据；

获取所述第二摄像机采集的全景视频数据，并根据所述第二音源所在方向在所述全景视频数据中截取对应于多个所述第二音源所在方向的多个第二视频数据；以及

将所述第一视频数据和多个所述第二视频数据合成到合成画面中。