CN101442654A

CN101442654A - 视频通信中视频对象切换的方法、装置及系统

Info

Publication number: CN101442654A
Application number: CNA2008101889262A
Authority: CN
Inventors: 詹五洲; 王东琦
Original assignee: Shenzhen Huawei Communication Technologies Co Ltd
Current assignee: Huawei Device Co Ltd; Huawei Device Shenzhen Co Ltd
Priority date: 2008-12-26
Filing date: 2008-12-26
Publication date: 2009-05-27
Anticipated expiration: 2028-12-26
Also published as: CN101442654B; EP2375741A4; EP2375741A1; US8730296B2; WO2010072075A1; US20110249085A1

Abstract

本发明实施例公开了一种视频通信中视频对象切换的方法、装置及系统，涉及到视频会议技术领域，用以实现视频会议过程中视频图像的自动切换。本发明实施例提供的视频通信中视频对象切换的方法，包括：获取会场视频图像信号以及声音信息；根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号；将所述切换后的视频图像信号发送到其他会场。本发明实施例提供的方法、装置及系统实现了视频会议过程中视频图像信号的自动切换，从而可避免人为因素导致的切换错误且提高了会议效率。

Description

视频通信中视频对象切换的方法、装置及系统

技术领域

本发明涉及视频会议技术领域，尤其涉及一种视频会议过程中视频对象切换的方法、装置及系统。

背景技术

视频会议系统使得位于不同地方的人们能够面对面地进行远程交流和协作。一个会场的与会者能够通过显示屏幕看到其它会场的与会者，并通过音频设备听到其它会场中当前发言人的声音，使得与会者感觉自己和其它会场中的与会者好像是处于同一个物理会场中参加会议一样。现今，很多视频会议系统为了提高不同会场间与会者交流的效率和效果，通常会以真人大小显示与会者，这样一个会场中的显示屏幕很难同时显示出其它会场中所有的与会者。

例如，在会场A中有A1、A2、A3三位与会者，而在其它会场的显示屏幕上只能够显示其中两位与会者，比如A1和A2；那么，在A3需要发言的时候，就需要让其它会场的与会者通过显示屏幕看到A3的图像，这时候就需要进行视频的切换。

目前，在视频会议过程中进行视频切换的方式有以下几种：

1)在会场中每一个与会者的前面安装一个切换按钮，当某个与会者需要发言且需要其它会场人员看到该发言人时，该发言人可以按下面前的切换按钮，通知系统进行视频切换，使得其它会场人员可以通过显示屏幕看到该发言人的视频；

2)在每个会场有一个会议控制人员来进行手动视频切换，当需要切换到含有当前发言人的视频时，由会议控制人员通过自己的视觉和听觉等感官，判断出是哪位与会者正在发言，然后手动进行视频切换，使其它会场人员可以通过显示屏幕看到当前发言人的视频。

在实现上述视频会议中视频切换的过程中，发明人发现现有技术中至少存在如下问题：

不管是发言人自主进行视频切换，还是由会议控制人员来进行视频切换，都是一个手动的过程，很容易会打断会议的节奏或者出现视频切换错误等情况，从而影响会议效率。

发明内容

本发明的实施例提供一种视频通信中视频对象切换的方法、装置及系统，以实现视频会议过程中视频图像信号的自动切换。

为达到上述目的，本发明的实施例采用如下技术方案：

一种视频通信中视频对象切换的方法，包括：

获取会场视频图像信号以及声音信息；

根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号；

将所述切换后的视频图像信号发送到其他会场。

一种会议终端，包括终端设备以及与所述终端设备分别连接的视频呈现设备、音频输出设备、摄像设备和麦克风阵列，其中，所述终端设备包括：

获取单元，用于获取会场视频图像信号以及声音信息；

确定单元，用于根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号；

发送单元，用于将所述切换后的视频图像信号发送到其他会场。

一种会议管理设备，包括：

获取单元，用于获取会场视频图像信号以及声音信息；

一种视频会议系统，包括一个第一会议终端和至少一个第二会议终端；其中，

所述第一会议终端，用于获取第一会场的会场视频图像信号以及声音信息，然后根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号，并将切换后的视频图像信号发送到第二会场终端；

所述至少一个第二会议终端，用于接收所述第一会议终端发送的视频图像信号，并显示所述切换后的视频图像信号；

其中，所述第一会场为当前发言人所在的会场。

一种视频会议系统，包括一个第一会议终端、一个会议管理设备以及至少一个第二会议终端；其中，

所述第一会议终端，用于采集第一会场的会场视频图像以及声音信息，并将所述会场视频图像以及声音信息发送到视频会议管理设备；

所述会议管理设备，接收所述第一会议终端发送的所述会场视频图像以及声音信息，然后根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号，并将切换后的视频图像信号发送到第二会场终端；

所述至少一个第二会议终端，用于接收所述视频会议管理设备发送的视频图像信号，并显示所述切换后的视频图像信号；

其中，所述第一会场为当前发言人所在的会场。

本发明实施例提供的视频通信中视频对象切换的方法、装置及系统，能够在视频会议过程中，根据第一会场的会场图像信号和声音信息自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象，然后将视频图像信号切换至含有所述视频对象的部分以显示给其它会场人员；相对于现有技术，本发明实施例提供的视频通信中视频对象切换的方法、装置及系统，实现了视频会议过程中视频图像信号的自动切换，从而可避免人为因素导致的切换错误且提高了会议效率。

附图说明

图1为本发明实施例一中的方法流程图；

图2为本发明实施例二中的方法流程图；

图3为摄像机成像原理示意图；

图4为会场中所采用的第一种坐标系的示意图；

图5为会场中所采用的第二种坐标系的示意图；

图6为本发明实施例二中第一会场中发言人位置的第一示意图；

图7为本发明实施例二中第一会场中发言人位置的第二示意图；

图8为本发明实施例二中第一会场中发言人位置的第三示意图；

图9为本发明实施例二中第一会场中发言人位置的第四示意图；

图10为本发明实施例二中第一会场中发言人位置的第五示意图；

图11为本发明实施例三中会议终端的结构示意图；

图12为本发明实施例三中会议终端设备中确定单元的示意图；

图13为本发明实施例四中会议管理设备的结构示意图；

图14为本发明实施例四中会议管理设备中确定单元的示意图；

图15为本发明实施例五中的系统结构示意图；

图16为本发明实施例六中的系统结构示意图；

图17为本发明实施例六中的系统实例示意图。

具体实施方式

为了实现视频会议中当某一会场中发言人发生改变时，其它会场中所显示的视频图像能够自动进行切换，本发明实施例提供一种视频通信中视频对象切换的方法、装置及系统。下面结合实施例与附图对本发明实施例提供的视频通信中视频对象切换的方法、装置及系统进行详细描述。

在视频会议过程中，以当前发言人所在的会场为第一会场，其它会场均为第二会场。

实施例一：

如图1所示，本发明实施例提供的视频通信中视频对象切换的方法，包括以下步骤：

11、获取会场视频图像信号以及声音信息。

通过会场中的摄像设备和麦克风阵列可以采集到会场内的视频图像信号以及声音信息。

12、根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号。

结合所获取到的会场视频图像信号以及声音信息，通过图像识别技术和麦克风阵列技术即可确定会场中的哪位与会人员是当前的发言人，并将其作为视频对象。

13、将所述切换后的视频图像信号发送到其他会场。

上述将视频图像信号发送给其他会场，可以是直接将切换后的视频图像信号发送给第二会场的终端设备，也可以是将切换后的视频图像信号通过会议管理设备(比如多点控制单元MCU)发送到多个第二会场的终端设备。

本发明实施例提供的视频通信中视频对象切换的方法，能够在视频会议过程中，根据第一会场的会场图像信号和声音信息自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象，然后将视频图像信号切换至含有所述视频对象的部分以显示给其它会场人员；相对于现有技术，本发明实施例提供的视频通信中视频对象切换的方法，实现了视频会议过程中视频图像信号的自动切换，从而可避免人为因素导致的切换错误且提高了会议效率。

实施例二：

设定第一会场内有P1、P2、P3、P4四位与会者，而第二会场的视频呈现设备只能够显示第一会场中的两位与会者。

如图2所示，本发明实施例提供的视频通信中视频对象切换的方法，具体包括以下步骤：

21、获取第一会场的会场视频图像信号以及声音信息。

22、根据上述会场视频图像信号确定第一会场中每个与会者相对于摄像设备的方位信息。

首先，通过图像识别技术，从摄像机获取到的视频图像中将所有与会者的图像识别出来；

然后，根据摄像机的成像原理，计算出所有与会者相对于摄像机的方位，其原理如图3所示：

图中原点O点对应摄像机镜头的中心，z轴沿摄像机镜头垂直方向，x轴与y轴组成的平面与z轴垂直。空间点O₁所在的平面为实际空间中一点P₁所在且与z轴相垂直的平面，它与O点沿z轴的距离，即物距为d；成像点O₂所在的平面为P₁点的成像点P₂所在且与z轴相垂直的平面，它与O点沿z轴的距离，即像距等于相机的焦距f(由于物距远大于像距，因此这里近似认为像距等于相机的焦距f)。根据图像识别技术，我们可以得到P₂到x₂轴和y₂轴的距离分别为|h|和|w|，那么我们就可以通过P1点的成像点P2在x₂y₂坐标系中的坐标(w、h)来计算得到P₁点相对于摄像机的方位(在本发明实施例中，与会者相对于摄像机的方位信息均以方位角α来表示)。

α＝arctan(w/f)，α∈(0，180)

如图4所示，其中一名与会者P4相对于摄像机的角度为α，此即为该与会者相对于摄像机的方位信息。

23、根据所述声音信息确定当前发言人相对于摄像设备的方位信息。

在会场中，视频呈现设备和与会者之间会设置一个麦克风阵列，该麦克风阵列可以是但不限于是由至少两个麦克风组成的线形阵列、圆形阵列或者十字形阵列，当然也可以是其它形式的麦克风阵列。

由于麦克风阵列中各个麦克风位置的不同而导致声源发出的声音到各个麦克风的距离也不同，我们可以检测出各个麦克风录制的音频信号之间的时延；根据所述音频信号之间的时延，结合麦克风阵列中麦克风对应的位置即可估计出当前发言人相对于麦克风阵列的方位。

通过上述麦克风阵列处理技术，再结合麦克风阵列与摄像机之间的位置关系可以计算出当前发言人、也就是需要显示的视频对象相对于摄像机的方位。

如果通过摄像机获取的视频图像信号确定与会者的方位时所采用的水平坐标系(简称摄像机坐标系)和通过麦克风阵列计算当前发言人的方位时所采用的水平坐标系(简称麦克风阵列坐标系)重合，如图4所示，此时摄像机镜头的中心与麦克风阵列的中心也是重合的，那么由麦克风阵列处理技术得到的当前发言人相对于麦克风阵列的方位信息(角度β)就是所述当前发言人相对于摄像机的方位信息，即此时α＝β。

如果摄像机坐标系和麦克风阵列坐标系不重合，那么还需要对两者所在的水平坐标系进行统一，例如可以把摄像机坐标系统一到麦克风阵列坐标系，也可以把麦克风阵列坐标系统一到摄像机坐标系当中。如图5所示，摄像机坐标系原点O和麦克风阵列坐标系原点O′并未重合，不过由于原点O和原点O′的位置关系是已知的，即x1和y1是已知的，而当前发言人到原点O′的距离(x2和y2)也是可以通过麦克风阵列处理技术得到的，那么我们就可以方便地由x1、y1、x2和y2得到上述当前发明人相对于原点O，也就是摄像机镜头中心的方位信息α′：

α' = \arctan (\frac{y 2 - y 1}{x 2 - x 1}),

α′∈(0，180)

24、从所述与会者中找出与所述当前发言人的方位信息一致的与会者作为视频对象。

理论上讲，当前视频对象相对于摄像机的方位角α与当前发言人相对于摄像机的方位信息β(或者α′)是相同的，因此我们就可以比较不同与会者相对于摄像机的方位信息和当前发言人相对于摄像机的方位信息β(或者α′)，其中，方位信息和当前发言人的方位信息β(或者α′)相同的与会者就是当前的视频对象。在实际情况中由于误差的存在，α和β(或者α′)很难完全相等，此时相对于摄像机的方位信息与β(或者α′)具有最小绝对差值的与会者就是当前的视频对象，其中所述绝对差值为两个角的差值的绝对值。

如果与会者中当前只有一个发言人或者有两个相邻的发言人，此时第二会场可以正常显示所述发言人的视频图像，则进行步骤26；如果与会者中当前存在不相邻的发言人或者有多个发言人，且第二会场无法同时显示上述多个发言人的视频图像，就需要先对视频图像进行处理，进行步骤25。

25、从会场视频图像信号中截取出需要显示的发言人的图像，并将截取出的图像组合成包含所述需要显示的发言人的视频图像。

如图6所示，经过图像识别后，第一会场的会场视频图像信号被划分为四个部分，P1、P2、P3和P4分别对应的区域如表1所示(其中，所有单位均为像素)。

表1

与会者	区域左下角坐标	区域右上角坐标
与会者	区域左下角坐标	区域右上角坐标	P1	(0，0)	(x1-1，y)
P2	(x1，0)	(x2-1，y)	P1	(0，0)	(x1-1，y)
P2	(x1，0)	(x2-1，y)	P3	(x2，0)	(x3-1，y)
P4	(x3，0)	(x4-1，y)	P3	(x2，0)	(x3-1，y)

如果系统检测到第一会场中的与会者P1在进行较长时间的讲话(见图6)，而此时第二会场的与会者观看到第一会场的视频图像中不包含P1，例如所述视频图像包含有P2和P3，那么此时需要把图像切换到含有P1的图像。如果第二会场的视频呈现设备针对每个会场可以显示两人，那么可以选择与P1相邻的一个与会者进行显示，例如在本实施例中第一会场中有四个人与会，那么就可以考虑在第二会场中显示含有P1和P2的图像。

如果在第一会场中存在两个相邻的发言人，其确定需要切换的视频图像信号范围的过程与上述同时显示P1和P2图像的过程相似，此处不再赘述。

不过，以下几种情况就需要先对视频图像进行处理，然后才能确定需要切换的视频图像信号范围。

1)如果检测到多个人在讲话(如图7)，且讲话人的数量不大于第二会场的视频呈现设备可显示的人数，例如第一会场中的会谈主要集中在P1和P3，那么可以考虑将P1和P3从第一会场所对应的视频图像中裁剪出来，然后重新组合拼接后成为一个新的视频图像信号，以便在第二会场中的显示设备中进行显示。

2)在协作类的视频会议中，会遇到讲话主要集中在其中几个人的情况，而讲话人的数量超过了第二会场的视频呈现设备可以显示的人数，如图8所示，发言者主要是P1、P2和P3，如果第二会场的视频呈现设备可以显示同一会场中的三个人，那么就可以考虑选择将P1、P2和P3一起呈现在第二会场中(如图8)。

但是，实际情况更多地类似于本发明实施例设定的情况，即在第二会场中只能同时显示一个会场中的两个人，那么就需要以区域为单位来去定选择哪些区域进行显示。例如，P1、P2和P3都在讲话，而第二会场只能显示其中两人，这就需要在P1与P2所组成的区域或者P2与P3所组成的区域中选择一个区域作为需要切换的视频图像区域，此时可以通过比较两个区域组合中语音信号能量的大小，来选取语音信号能量大的区域组合进行显示。

针对P1、P2和P3都在讲话的情况，还有一种方案就是：根据会场视频图像信号计算出三者的中心位置，并以此中心位置为需要切换的视频图像的显示中心以便在第二会场的视频呈现设备中进行显示(如图9)。但是，该方案会导致P1和P3的部分影像被裁掉；在此情况下，考虑到P1、P2、P3之间存在空白无人区域，可以将所述空白无人区域裁掉，以便所有讲话人的图像都能在第二会场的视频呈现设备中显示，其显示效果如图10所示。

26、将所述会场视频图像信号切换至包含所述视频对象的视频图像信号。

在判断出是哪位与会者是视频对象以后，如果此时需要显示的视频对象没有在第二会场显示的视频图像中出现，则要将显示的视频图像切换到包含所述视频对象的视频图像部分。

27、将所述切换后的视频图像信号发送到其他会场。

这里，将视频图像信号发送给其他会场的方式可以是直接将切换后的视频图像信号发送给第二会场的终端设备，也可以是将切换后的视频图像信号通过会议管理设备(比如多点控制单元MCU)发送到多个第二会场的终端设备。

第二会场的视频呈现设备只能显示第一会场中部分与会者所对应的视频图像，因此我们可以考虑在发送包含视频对象的视频图像信号给第二会场的同时，将一个低码率的第一会场的会场全景视频图像信号作为辅助视频信号一起发送给第二会场，并进行显示。这样，可以帮助第二会场的与会者更直观地了解第一会场的情况，在进行视频切换的时候也不会感觉太突兀。

本实施例中提供的编号并不用于限定各步骤的顺序，例如步骤22和23是可以同时进行的，且这两个步骤都是实时进行的。

本发明实施例提供的视频通信中视频对象切换的方法，能够根据每个与会者相对于摄像机的方位信息同当前方言人相对于摄像机的方位信息之间的匹配程度来自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象，然后将视频图像信号切换至含有所述视频对象的部分以显示给其它会场人员；针对在第一会场存在多个发言人导致第二会场的视频呈现设备无法正常显示所有发言人的情况，本发明实施例通过对视频图像进行重新剪接，从而实现在第二会场中同时显示一个会场中的多个发言人；相对于现有技术，本发明实施例提供的视频通信中视频对象切换的方法，实现了视频会议过程中视频图像信号的自动切换，从而可避免人为因素导致的切换错误且提高了会议效率。

实施例三：

为了更好地实现上述视频通信中视频对象切换的方法，本发明实施例提供了一种用于视频会议的会议终端；下面结合附图，对该会议终端进行详细描述。

如图11所示，本发明实施例提供的会议终端，包括终端设备111以及与所述终端设备111分别连接的视频呈现设备112、音频输出设备113、摄像设备114和麦克风阵列115，其中，所述终端设备111进一步包括：获取单元1111、确定单元1112以及发送单元1113；其中，

获取单元1111通过会场中的摄像设备114和麦克风阵列115获取到会场内的会场视频图像信号以及声音信息，然后确定单元1112根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号；最后，通过发送单元1113将所述切换后的视频图像信号发送到其他会场。

所述确定单元1112可以结合所获取到的会场视频图像信号以及声音信息，通过图像识别技术和麦克风阵列技术即可确定会场中的哪位与会人员是当前的发言人，并将其作为视频对象；如图12所示，所述确定单元1112进一步包括：第一确定模块11121、第二确定模块11122、查找模块11123以及切换模块11124；其中，

所述第一确定模块11121根据图像识别技术以及摄像机的成像原理，并结合所述会场视频图像信号确定每个与会者相对于摄像设备的方位信息；

所述第二确定模块11122根据麦克风阵列技术并结合所述声音信息确定当前发言人相对于摄像设备的方位信息；

一般情况下，根据所述声音信息得到的方位信息都是当前发言人相对于麦克风阵列的方位信息；如果当前会场中摄像设备镜头的中心与麦克风阵列的中心重合，那么当前发言人相对于麦克风阵列的方位信息也就是当前发言人相对于摄像设备的方位信息；如果摄像设备镜头的中心与麦克风阵列的中心不重合，则根据所述当前发言人相对于麦克风阵列的方位信息进行换算，得到所述当前发言人相对于摄像设备的方位信息。

然后，所述查找模块11123从所述与会者中找出与所述当前发言人的方位信息一致的与会者作为视频对象；其中，所述与所述当前发言人的方位信息一致具体为：所述与当前发言人的方位信息相同；或者，在所有与会者的方位信息中，与所述当前发言人所处方位的绝对差值最小；

最后，所述切换模块11124将所述会场视频图像信号切换至包含所述视频对象的视频图像信号。

如果第一会场中存在至少两个视频对象且视频呈现设备无法同时显示所述至少两个视频对象，则所述确定单元1112还包括：

截取模块11125，用于从所述会场视频图像信号中截取出每个需要显示的所述视频对象对应的图像信号；

组合模块11126，用于将所截取出的图像信号组合成包含所述需要显示的视频对象的视频图像信号，并将组合后的视频图像信号发送给所述切换模块。

如果所述第二会场的数量大于等于2，则需要一会议管理设备对切换后的视频图像信号进行转发，此时所述发送单元1113将所述切换后的视频图像信号通过发送到所述会议管理设备。为了能让第二会场的与会者更直观地看到第一会场的情况，所述发送单元1113还将一个低码率的会场全景视频图像信号同含有视频对象的视频图像信号一起发送给其他会场。

本发明实施例提供的会议终端，能够根据每个与会者的方位同当前方言人方位的匹配程度来自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象，然后将视频图像信号切换至含有所述视频对象的部分以显示给其它会场人员；相对于现有技术，本发明实施例提供的会议终端，实现了视频会议过程中视频图像信号的自动切换，从而可避免人为因素导致的切换错误且提高了会议效率。

实施例四：

为了更好地实现上述视频通信中视频对象切换的方法，本发明实施例提供了一种用于视频会议的会议管理设备；下面结合附图，对该会议管理设备进行详细描述。

如图13所示，本发明实施例提供的会议管理设备，包括：接收单元131、确定单元132以及发送单元133；其中，

接收单元131接收第一会场的会场视频图像信号以及声音信息，然后确定单元132根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号；最后，通过发送单元133将所述切换后的视频图像信号发送到其他会场。

所述确定单元132可以结合所获取到的会场视频图像信号以及声音信息，通过图像识别技术和麦克风阵列技术即可确定会场中的哪位与会人员是当前的发言人，并将其作为视频对象；如图14所示，所述确定单元132进一步包括：第一确定模块1321、第二确定模块1322、查找模块1323以及切换模块1324；其中，

所述第一确定模块1321根据图像识别技术以及摄像机的成像原理，并结合所述会场视频图像信号确定每个与会者相对于摄像设备的方位信息；

所述第二确定模块1322根据麦克风阵列技术并结合所述声音信息确定当前发言人相对于摄像设备的方位信息；

然后，所述查找模块1323从所述与会者中找出与所述当前发言人的方位信息一致的与会者作为视频对象；其中，所述与所述当前发言人的方位信息一致具体为：所述与当前发言人的方位信息相同；或者，在所有与会者的方位信息中，与所述当前发言人所处方位的绝对差值最小；

最后，所述切换模块1324将所述会场视频图像信号切换至包含所述视频对象的视频图像信号。

如果第一会场中存在至少两个视频对象且视频呈现设备无法同时显示所述至少两个视频对象，则所述确定单元132还包括：

截取模块1325，用于从所述会场视频图像信号中截取出每个需要显示的所述视频对象对应的图像信号；

组合模块1326，用于将所截取出的图像信号组合成包含所述需要显示的视频对象的视频图像信号，并将组合后的视频图像信号发送给所述切换模块。

为了能让第二会场的与会者更直观地看到第一会场的情况，所述发送单元133还将一个低码率的会场视频图像信号同含有视频对象的视频图像信号一起发送给其他会场。

本发明实施例提供的会议管理设备，能够根据每个与会者的方位同当前方言人方位的匹配程度来自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象，然后将视频图像信号切换至含有所述视频对象的部分以显示给其它会场人员；相对于现有技术，本发明实施例提供的视频会议管理设备，实现了视频会议过程中视频图像信号的自动切换，从而可避免人为因素导致的切换错误且提高了会议效率。

实施例五：

本发明实施例还提供了一种可实现上述视频通信中视频对象切换方法的视频会议系统，如图15所示，包括：一个第一会议终端151和至少一个第二会议终端152；其中，

所述第一会议终端151获取第一会场的会场视频图像信号以及声音信息，然后根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号，并将切换后的视频图像信号发送到第二会场终端；

所述至少一个第二会议终端152接收所述第一会议终端发送的视频图像信号，并显示所述切换后的视频图像信号；

其中，所述第一会场为当前发言人所在的会场。

如果所述第二会议终端的数量大于等于2，则本发明实施例中的视频会议系统还需要一个会议管理设备153，用于获取所述第一会议终端切换后的视频图像信号，并将该视频图像信号发送给所述第二会议终端。

本发明实施例提供的视频会议系统，能够在视频会议过程中，所述第一会议终端151根据第一会场的会场图像信号和声音信息自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象，然后将视频图像信号切换至含有所述视频对象的部分并发送给第二会议终端152以显示给第二会场人员；相对于现有技术，本发明实施例提供的视频会议系统，实现了视频会议过程中视频图像信号的自动切换，从而可避免人为因素导致的切换错误且提高了会议效率。

实施例六：

本发明实施例还提供了一种可实现上述视频通信中视频对象切换方法的视频会议系统，如图16所示，包括：一个第一会议终端161、一个会议管理设备162和至少一个第二会议终端163；其中，

所述第一会议终端161采集第一会场的会场视频图像以及声音信息，并将所述会场视频图像以及声音信息发送到视频会议管理设备；

所述会议管理设备162，接收所述第一会议终端161发送的所述会场视频图像以及声音信息，然后根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号，并将切换后的视频图像信号发送到第二会场终端；

所述至少一个第二会议终端163，接收所述会议管理设备162发送的视频图像信号，并显示所述切换后的视频图像信号；

其中，所述第一会场为当前发言人所在的会场。

如图17所示，为本发明具体应用的一个实施例。其中，会议管理设备为多点控制单元。

当视频会议进行时，多点控制单元同时接收会场S1、S2和S3中会议终端提供的会场图像信号以及声音信息，然后根据每个会场的会场图像信号以及声音信息判断出哪个会场是第一会场；如果会场S1即为第一会场，那么多点控制单元根据会场S1的会场图像信号以及声音信息确定需要切换的包含视频对象的视频图像信号，并将其发送给会场S2和S3的会议终端以在第二会场中进行显示。

本发明实施例提供的视频会议系统，由第一会议终端161采集第一会场中的会场图像信号以及声音信息，并发送给会议管理设备162，然后由会议管理设备162根据第一会场的会场图像信号和声音信息自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象，然后将视频图像信号切换至含有所述视频对象的部分并将含有视频对象的视频图像信号发送给第二会议终端163以显示给第二会场人员；相对于现有技术，本发明实施例提供的视频会议系统，实现了视频会议过程中视频图像信号的自动切换，从而可避免人为因素导致的切换错误且提高了会议效率。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1、一种视频通信中视频对象切换的方法，其特征在于，包括：

获取会场视频图像信号以及声音信息；

将所述切换后的视频图像信号发送到其他会场。

2、根据权利要求1所述的视频通信中视频对象切换的方法，其特征在于，所述根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号，具体为：

根据所述会场视频图像信号确定每个与会者相对于摄像设备的方位信息；

根据所述声音信息确定当前发言人相对于摄像设备的方位信息；

从所述与会者中找出与所述当前发言人的方位信息一致的与会者作为视频对象；

将所述会场视频图像信号切换至包含所述视频对象的视频图像信号。

3、根据权利要求2所述的视频通信中视频对象切换的方法，其特征在于，所述与当前发言人的方位信息一致，包括：

与所述当前发言人相对于摄像设备的方位信息相同；或者，

在所有与会者的方位信息中，与所述当前发言人所处方位的绝对差值最小。

4、根据权利要求2所述的视频通信中视频对象切换的方法，其特征在于，如果存在至少两个视频对象且视频呈现设备无法同时显示所述至少两个视频对象，则在所述将所述会场视频图像信号切换至包含所述视频对象的视频图像信号之前，还包括：

从所述会场视频图像信号中截取出每个需要显示的所述视频对象对应的图像信号；

将所截取出的图像信号组合成包含所述需要显示的视频对象的视频图像信号。

5、根据权利要求1所述的视频通信中视频对象切换的方法，其特征在于，所述将所述切换后的视频图像信号发送到其他会场，包括：

将所述切换后的视频图像信号通过会议管理设备发送到其他会场。

6、一种会议终端，包括终端设备以及与所述终端设备分别连接的视频呈现设备、音频输出设备、摄像设备和麦克风阵列，其特征在于，所述终端设备包括：

获取单元，用于获取会场视频图像信号以及声音信息；

7、根据权利要求6所述的会议终端，其特征在于，所述确定单元，包括：

第一确定模块，用于根据所述会场视频图像信号确定每个与会者相对于摄像设备的方位信息；

第二确定模块，用于根据所述声音信息确定当前发言人相对于摄像设备的方位信息；

查找模块，用于从所述与会者中找出与所述当前发言人的方位信息一致的与会者作为视频对象；

切换模块，用于将所述会场视频图像信号切换至包含所述视频对象的视频图像信号。

8、根据权利要求7所述的会议终端，其特征在于，如果存在至少两个视频对象且视频呈现设备无法同时显示所述至少两个视频对象，则所述确定单元还包括：

截取模块，用于从所述会场视频图像信号中截取出每个需要显示的所述视频对象对应的图像信号；

组合模块，用于将所截取出的图像信号组合成包含所述需要显示的视频对象的视频图像信号，并将组合后的视频图像信号发送给所述切换模块。

9、一种会议管理设备，其特征在于，包括：

接收单元，用于接收第一会场的会场视频图像信号以及声音信息；

确定单元，用于根据所述第一会场的会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号；

10、根据权利要求9所述的会议管理设备，其特征在于，所述确定单元，包括：

11、根据权利要求10所述的会议管理设备，其特征在于，如果存在至少两个视频对象且视频呈现设备无法同时显示所述至少两个视频对象，则所述确定单元还包括：

12、一种视频会议系统，其特征在于，包括一个第一会议终端和至少一个第二会议终端；其中，

其中，所述第一会场为当前发言人所在的会场。

13、根据权利要求12所述的视频会议系统，其特征在于，还包括一个会议管理设备；

所述会议管理设备，用于获取所述第一会议终端切换后的视频图像信号，并将该视频图像信号发送给所述第二会议终端。

14、一种视频会议系统，其特征在于，包括一个第一会议终端、一个会议管理设备以及至少一个第二会议终端；其中，

所述会议管理设备，用于接收所述第一会议终端发送的所述会场视频图像以及声音信息，然后根据所述会场视频图像信号以及声音信息，确定需要切换的包含视频对象的视频图像信号，并将切换后的视频图像信号发送到第二会场终端；

其中，所述第一会场为当前发言人所在的会场。