具体实施方式
为了实现视频会议中当某一会场中发言人发生改变时,其它会场中所显示的视频图像能够自动进行切换,本发明实施例提供一种视频通信中视频对象切换的方法、装置及系统。下面结合实施例与附图对本发明实施例提供的视频通信中视频对象切换的方法、装置及系统进行详细描述。
在视频会议过程中,以当前发言人所在的会场为第一会场,其它会场均为第二会场。
实施例一:
如图1所示,本发明实施例提供的视频通信中视频对象切换的方法,包括以下步骤:
11、获取会场视频图像信号以及声音信息。
通过会场中的摄像设备和麦克风阵列可以采集到会场内的视频图像信号以及声音信息。
12、根据所述会场视频图像信号以及声音信息,确定需要切换的包含视频对象的视频图像信号。
结合所获取到的会场视频图像信号以及声音信息,通过图像识别技术和麦克风阵列技术即可确定会场中的哪位与会人员是当前的发言人,并将其作为视频对象。
13、将所述切换后的视频图像信号发送到其他会场。
上述将视频图像信号发送给其他会场,可以是直接将切换后的视频图像信号发送给第二会场的终端设备,也可以是将切换后的视频图像信号通过会议管理设备(比如多点控制单元MCU)发送到多个第二会场的终端设备。
本发明实施例提供的视频通信中视频对象切换的方法,能够在视频会议过程中,根据第一会场的会场图像信号和声音信息自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象,然后将视频图像信号切换至含有所述视频对象的部分以显示给其它会场人员;相对于现有技术,本发明实施例提供的视频通信中视频对象切换的方法,实现了视频会议过程中视频图像信号的自动切换,从而可避免人为因素导致的切换错误且提高了会议效率。
实施例二:
设定第一会场内有P1、P2、P3、P4四位与会者,而第二会场的视频呈现设备只能够显示第一会场中的两位与会者。
如图2所示,本发明实施例提供的视频通信中视频对象切换的方法,具体包括以下步骤:
21、获取第一会场的会场视频图像信号以及声音信息。
22、根据上述会场视频图像信号确定第一会场中每个与会者相对于摄像设备的方位信息。
首先,通过图像识别技术,从摄像机获取到的视频图像中将所有与会者的图像识别出来;
然后,根据摄像机的成像原理,计算出所有与会者相对于摄像机的方位,其原理如图3所示:
图中原点O点对应摄像机镜头的中心,z轴沿摄像机镜头垂直方向,x轴与y轴组成的平面与z轴垂直。空间点O1所在的平面为实际空间中一点P1所在且与z轴相垂直的平面,它与O点沿z轴的距离,即物距为d;成像点O2所在的平面为P1点的成像点P2所在且与z轴相垂直的平面,它与O点沿z轴的距离,即像距等于相机的焦距f(由于物距远大于像距,因此这里近似认为像距等于相机的焦距f)。根据图像识别技术,我们可以得到P2到x2轴和y2轴的距离分别为|h|和|w|,那么我们就可以通过P1点的成像点P2在x2y2坐标系中的坐标(w、h)来计算得到P1点相对于摄像机的方位(在本发明实施例中,与会者相对于摄像机的方位信息均以方位角α来表示)。
α=arctan(w/f),α∈(0,180)
如图4所示,其中一名与会者P4相对于摄像机的角度为α,此即为该与会者相对于摄像机的方位信息。
23、根据所述声音信息确定当前发言人相对于摄像设备的方位信息。
在会场中,视频呈现设备和与会者之间会设置一个麦克风阵列,该麦克风阵列可以是但不限于是由至少两个麦克风组成的线形阵列、圆形阵列或者十字形阵列,当然也可以是其它形式的麦克风阵列。
由于麦克风阵列中各个麦克风位置的不同而导致声源发出的声音到各个麦克风的距离也不同,我们可以检测出各个麦克风录制的音频信号之间的时延;根据所述音频信号之间的时延,结合麦克风阵列中麦克风对应的位置即可估计出当前发言人相对于麦克风阵列的方位。
通过上述麦克风阵列处理技术,再结合麦克风阵列与摄像机之间的位置关系可以计算出当前发言人、也就是需要显示的视频对象相对于摄像机的方位。
如果通过摄像机获取的视频图像信号确定与会者的方位时所采用的水平坐标系(简称摄像机坐标系)和通过麦克风阵列计算当前发言人的方位时所采用的水平坐标系(简称麦克风阵列坐标系)重合,如图4所示,此时摄像机镜头的中心与麦克风阵列的中心也是重合的,那么由麦克风阵列处理技术得到的当前发言人相对于麦克风阵列的方位信息(角度β)就是所述当前发言人相对于摄像机的方位信息,即此时α=β。
如果摄像机坐标系和麦克风阵列坐标系不重合,那么还需要对两者所在的水平坐标系进行统一,例如可以把摄像机坐标系统一到麦克风阵列坐标系,也可以把麦克风阵列坐标系统一到摄像机坐标系当中。如图5所示,摄像机坐标系原点O和麦克风阵列坐标系原点O′并未重合,不过由于原点O和原点O′的位置关系是已知的,即x1和y1是已知的,而当前发言人到原点O′的距离(x2和y2)也是可以通过麦克风阵列处理技术得到的,那么我们就可以方便地由x1、y1、x2和y2得到上述当前发明人相对于原点O,也就是摄像机镜头中心的方位信息α′:
α′∈(0,180)
24、从所述与会者中找出与所述当前发言人的方位信息一致的与会者作为视频对象。
理论上讲,当前视频对象相对于摄像机的方位角α与当前发言人相对于摄像机的方位信息β(或者α′)是相同的,因此我们就可以比较不同与会者相对于摄像机的方位信息和当前发言人相对于摄像机的方位信息β(或者α′),其中,方位信息和当前发言人的方位信息β(或者α′)相同的与会者就是当前的视频对象。在实际情况中由于误差的存在,α和β(或者α′)很难完全相等,此时相对于摄像机的方位信息与β(或者α′)具有最小绝对差值的与会者就是当前的视频对象,其中所述绝对差值为两个角的差值的绝对值。
如果与会者中当前只有一个发言人或者有两个相邻的发言人,此时第二会场可以正常显示所述发言人的视频图像,则进行步骤26;如果与会者中当前存在不相邻的发言人或者有多个发言人,且第二会场无法同时显示上述多个发言人的视频图像,就需要先对视频图像进行处理,进行步骤25。
25、从会场视频图像信号中截取出需要显示的发言人的图像,并将截取出的图像组合成包含所述需要显示的发言人的视频图像。
如图6所示,经过图像识别后,第一会场的会场视频图像信号被划分为四个部分,P1、P2、P3和P4分别对应的区域如表1所示(其中,所有单位均为像素)。
表1
与会者 | 区域左下角坐标 | 区域右上角坐标 |
P1 | (0,0) | (x1-1,y) |
P2 | (x1,0) | (x2-1,y) |
P3 | (x2,0) | (x3-1,y) |
P4 | (x3,0) | (x4-1,y) |
如果系统检测到第一会场中的与会者P1在进行较长时间的讲话(见图6),而此时第二会场的与会者观看到第一会场的视频图像中不包含P1,例如所述视频图像包含有P2和P3,那么此时需要把图像切换到含有P1的图像。如果第二会场的视频呈现设备针对每个会场可以显示两人,那么可以选择与P1相邻的一个与会者进行显示,例如在本实施例中第一会场中有四个人与会,那么就可以考虑在第二会场中显示含有P1和P2的图像。
如果在第一会场中存在两个相邻的发言人,其确定需要切换的视频图像信号范围的过程与上述同时显示P1和P2图像的过程相似,此处不再赘述。
不过,以下几种情况就需要先对视频图像进行处理,然后才能确定需要切换的视频图像信号范围。
1)如果检测到多个人在讲话(如图7),且讲话人的数量不大于第二会场的视频呈现设备可显示的人数,例如第一会场中的会谈主要集中在P1和P3,那么可以考虑将P1和P3从第一会场所对应的视频图像中裁剪出来,然后重新组合拼接后成为一个新的视频图像信号,以便在第二会场中的显示设备中进行显示。
2)在协作类的视频会议中,会遇到讲话主要集中在其中几个人的情况,而讲话人的数量超过了第二会场的视频呈现设备可以显示的人数,如图8所示,发言者主要是P1、P2和P3,如果第二会场的视频呈现设备可以显示同一会场中的三个人,那么就可以考虑选择将P1、P2和P3一起呈现在第二会场中(如图8)。
但是,实际情况更多地类似于本发明实施例设定的情况,即在第二会场中只能同时显示一个会场中的两个人,那么就需要以区域为单位来去定选择哪些区域进行显示。例如,P1、P2和P3都在讲话,而第二会场只能显示其中两人,这就需要在P1与P2所组成的区域或者P2与P3所组成的区域中选择一个区域作为需要切换的视频图像区域,此时可以通过比较两个区域组合中语音信号能量的大小,来选取语音信号能量大的区域组合进行显示。
针对P1、P2和P3都在讲话的情况,还有一种方案就是:根据会场视频图像信号计算出三者的中心位置,并以此中心位置为需要切换的视频图像的显示中心以便在第二会场的视频呈现设备中进行显示(如图9)。但是,该方案会导致P1和P3的部分影像被裁掉;在此情况下,考虑到P1、P2、P3之间存在空白无人区域,可以将所述空白无人区域裁掉,以便所有讲话人的图像都能在第二会场的视频呈现设备中显示,其显示效果如图10所示。
26、将所述会场视频图像信号切换至包含所述视频对象的视频图像信号。
在判断出是哪位与会者是视频对象以后,如果此时需要显示的视频对象没有在第二会场显示的视频图像中出现,则要将显示的视频图像切换到包含所述视频对象的视频图像部分。
27、将所述切换后的视频图像信号发送到其他会场。
这里,将视频图像信号发送给其他会场的方式可以是直接将切换后的视频图像信号发送给第二会场的终端设备,也可以是将切换后的视频图像信号通过会议管理设备(比如多点控制单元MCU)发送到多个第二会场的终端设备。
第二会场的视频呈现设备只能显示第一会场中部分与会者所对应的视频图像,因此我们可以考虑在发送包含视频对象的视频图像信号给第二会场的同时,将一个低码率的第一会场的会场全景视频图像信号作为辅助视频信号一起发送给第二会场,并进行显示。这样,可以帮助第二会场的与会者更直观地了解第一会场的情况,在进行视频切换的时候也不会感觉太突兀。
本实施例中提供的编号并不用于限定各步骤的顺序,例如步骤22和23是可以同时进行的,且这两个步骤都是实时进行的。
本发明实施例提供的视频通信中视频对象切换的方法,能够根据每个与会者相对于摄像机的方位信息同当前方言人相对于摄像机的方位信息之间的匹配程度来自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象,然后将视频图像信号切换至含有所述视频对象的部分以显示给其它会场人员;针对在第一会场存在多个发言人导致第二会场的视频呈现设备无法正常显示所有发言人的情况,本发明实施例通过对视频图像进行重新剪接,从而实现在第二会场中同时显示一个会场中的多个发言人;相对于现有技术,本发明实施例提供的视频通信中视频对象切换的方法,实现了视频会议过程中视频图像信号的自动切换,从而可避免人为因素导致的切换错误且提高了会议效率。
实施例三:
为了更好地实现上述视频通信中视频对象切换的方法,本发明实施例提供了一种用于视频会议的会议终端;下面结合附图,对该会议终端进行详细描述。
如图11所示,本发明实施例提供的会议终端,包括终端设备111以及与所述终端设备111分别连接的视频呈现设备112、音频输出设备113、摄像设备114和麦克风阵列115,其中,所述终端设备111进一步包括:获取单元1111、确定单元1112以及发送单元1113;其中,
获取单元1111通过会场中的摄像设备114和麦克风阵列115获取到会场内的会场视频图像信号以及声音信息,然后确定单元1112根据所述会场视频图像信号以及声音信息,确定需要切换的包含视频对象的视频图像信号;最后,通过发送单元1113将所述切换后的视频图像信号发送到其他会场。
所述确定单元1112可以结合所获取到的会场视频图像信号以及声音信息,通过图像识别技术和麦克风阵列技术即可确定会场中的哪位与会人员是当前的发言人,并将其作为视频对象;如图12所示,所述确定单元1112进一步包括:第一确定模块11121、第二确定模块11122、查找模块11123以及切换模块11124;其中,
所述第一确定模块11121根据图像识别技术以及摄像机的成像原理,并结合所述会场视频图像信号确定每个与会者相对于摄像设备的方位信息;
所述第二确定模块11122根据麦克风阵列技术并结合所述声音信息确定当前发言人相对于摄像设备的方位信息;
一般情况下,根据所述声音信息得到的方位信息都是当前发言人相对于麦克风阵列的方位信息;如果当前会场中摄像设备镜头的中心与麦克风阵列的中心重合,那么当前发言人相对于麦克风阵列的方位信息也就是当前发言人相对于摄像设备的方位信息;如果摄像设备镜头的中心与麦克风阵列的中心不重合,则根据所述当前发言人相对于麦克风阵列的方位信息进行换算,得到所述当前发言人相对于摄像设备的方位信息。
然后,所述查找模块11123从所述与会者中找出与所述当前发言人的方位信息一致的与会者作为视频对象;其中,所述与所述当前发言人的方位信息一致具体为:所述与当前发言人的方位信息相同;或者,在所有与会者的方位信息中,与所述当前发言人所处方位的绝对差值最小;
最后,所述切换模块11124将所述会场视频图像信号切换至包含所述视频对象的视频图像信号。
如果第一会场中存在至少两个视频对象且视频呈现设备无法同时显示所述至少两个视频对象,则所述确定单元1112还包括:
截取模块11125,用于从所述会场视频图像信号中截取出每个需要显示的所述视频对象对应的图像信号;
组合模块11126,用于将所截取出的图像信号组合成包含所述需要显示的视频对象的视频图像信号,并将组合后的视频图像信号发送给所述切换模块。
如果所述第二会场的数量大于等于2,则需要一会议管理设备对切换后的视频图像信号进行转发,此时所述发送单元1113将所述切换后的视频图像信号通过发送到所述会议管理设备。为了能让第二会场的与会者更直观地看到第一会场的情况,所述发送单元1113还将一个低码率的会场全景视频图像信号同含有视频对象的视频图像信号一起发送给其他会场。
本发明实施例提供的会议终端,能够根据每个与会者的方位同当前方言人方位的匹配程度来自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象,然后将视频图像信号切换至含有所述视频对象的部分以显示给其它会场人员;相对于现有技术,本发明实施例提供的会议终端,实现了视频会议过程中视频图像信号的自动切换,从而可避免人为因素导致的切换错误且提高了会议效率。
实施例四:
为了更好地实现上述视频通信中视频对象切换的方法,本发明实施例提供了一种用于视频会议的会议管理设备;下面结合附图,对该会议管理设备进行详细描述。
如图13所示,本发明实施例提供的会议管理设备,包括:接收单元131、确定单元132以及发送单元133;其中,
接收单元131接收第一会场的会场视频图像信号以及声音信息,然后确定单元132根据所述会场视频图像信号以及声音信息,确定需要切换的包含视频对象的视频图像信号;最后,通过发送单元133将所述切换后的视频图像信号发送到其他会场。
所述确定单元132可以结合所获取到的会场视频图像信号以及声音信息,通过图像识别技术和麦克风阵列技术即可确定会场中的哪位与会人员是当前的发言人,并将其作为视频对象;如图14所示,所述确定单元132进一步包括:第一确定模块1321、第二确定模块1322、查找模块1323以及切换模块1324;其中,
所述第一确定模块1321根据图像识别技术以及摄像机的成像原理,并结合所述会场视频图像信号确定每个与会者相对于摄像设备的方位信息;
所述第二确定模块1322根据麦克风阵列技术并结合所述声音信息确定当前发言人相对于摄像设备的方位信息;
一般情况下,根据所述声音信息得到的方位信息都是当前发言人相对于麦克风阵列的方位信息;如果当前会场中摄像设备镜头的中心与麦克风阵列的中心重合,那么当前发言人相对于麦克风阵列的方位信息也就是当前发言人相对于摄像设备的方位信息;如果摄像设备镜头的中心与麦克风阵列的中心不重合,则根据所述当前发言人相对于麦克风阵列的方位信息进行换算,得到所述当前发言人相对于摄像设备的方位信息。
然后,所述查找模块1323从所述与会者中找出与所述当前发言人的方位信息一致的与会者作为视频对象;其中,所述与所述当前发言人的方位信息一致具体为:所述与当前发言人的方位信息相同;或者,在所有与会者的方位信息中,与所述当前发言人所处方位的绝对差值最小;
最后,所述切换模块1324将所述会场视频图像信号切换至包含所述视频对象的视频图像信号。
如果第一会场中存在至少两个视频对象且视频呈现设备无法同时显示所述至少两个视频对象,则所述确定单元132还包括:
截取模块1325,用于从所述会场视频图像信号中截取出每个需要显示的所述视频对象对应的图像信号;
组合模块1326,用于将所截取出的图像信号组合成包含所述需要显示的视频对象的视频图像信号,并将组合后的视频图像信号发送给所述切换模块。
为了能让第二会场的与会者更直观地看到第一会场的情况,所述发送单元133还将一个低码率的会场视频图像信号同含有视频对象的视频图像信号一起发送给其他会场。
本发明实施例提供的会议管理设备,能够根据每个与会者的方位同当前方言人方位的匹配程度来自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象,然后将视频图像信号切换至含有所述视频对象的部分以显示给其它会场人员;相对于现有技术,本发明实施例提供的视频会议管理设备,实现了视频会议过程中视频图像信号的自动切换,从而可避免人为因素导致的切换错误且提高了会议效率。
实施例五:
本发明实施例还提供了一种可实现上述视频通信中视频对象切换方法的视频会议系统,如图15所示,包括:一个第一会议终端151和至少一个第二会议终端152;其中,
所述第一会议终端151获取第一会场的会场视频图像信号以及声音信息,然后根据所述会场视频图像信号以及声音信息,确定需要切换的包含视频对象的视频图像信号,并将切换后的视频图像信号发送到第二会场终端;
所述至少一个第二会议终端152接收所述第一会议终端发送的视频图像信号,并显示所述切换后的视频图像信号;
其中,所述第一会场为当前发言人所在的会场。
如果所述第二会议终端的数量大于等于2,则本发明实施例中的视频会议系统还需要一个会议管理设备153,用于获取所述第一会议终端切换后的视频图像信号,并将该视频图像信号发送给所述第二会议终端。
本发明实施例提供的视频会议系统,能够在视频会议过程中,所述第一会议终端151根据第一会场的会场图像信号和声音信息自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象,然后将视频图像信号切换至含有所述视频对象的部分并发送给第二会议终端152以显示给第二会场人员;相对于现有技术,本发明实施例提供的视频会议系统,实现了视频会议过程中视频图像信号的自动切换,从而可避免人为因素导致的切换错误且提高了会议效率。
实施例六:
本发明实施例还提供了一种可实现上述视频通信中视频对象切换方法的视频会议系统,如图16所示,包括:一个第一会议终端161、一个会议管理设备162和至少一个第二会议终端163;其中,
所述第一会议终端161采集第一会场的会场视频图像以及声音信息,并将所述会场视频图像以及声音信息发送到视频会议管理设备;
所述会议管理设备162,接收所述第一会议终端161发送的所述会场视频图像以及声音信息,然后根据所述会场视频图像信号以及声音信息,确定需要切换的包含视频对象的视频图像信号,并将切换后的视频图像信号发送到第二会场终端;
所述至少一个第二会议终端163,接收所述会议管理设备162发送的视频图像信号,并显示所述切换后的视频图像信号;
其中,所述第一会场为当前发言人所在的会场。
如图17所示,为本发明具体应用的一个实施例。其中,会议管理设备为多点控制单元。
当视频会议进行时,多点控制单元同时接收会场S1、S2和S3中会议终端提供的会场图像信号以及声音信息,然后根据每个会场的会场图像信号以及声音信息判断出哪个会场是第一会场;如果会场S1即为第一会场,那么多点控制单元根据会场S1的会场图像信号以及声音信息确定需要切换的包含视频对象的视频图像信号,并将其发送给会场S2和S3的会议终端以在第二会场中进行显示。
本发明实施例提供的视频会议系统,由第一会议终端161采集第一会场中的会场图像信号以及声音信息,并发送给会议管理设备162,然后由会议管理设备162根据第一会场的会场图像信号和声音信息自动地判断出哪位与会者是当前发言人、即当前视频图像中需要显示的视频对象,然后将视频图像信号切换至含有所述视频对象的部分并将含有视频对象的视频图像信号发送给第二会议终端163以显示给第二会场人员;相对于现有技术,本发明实施例提供的视频会议系统,实现了视频会议过程中视频图像信号的自动切换,从而可避免人为因素导致的切换错误且提高了会议效率。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。