CN106161985B

CN106161985B - 一种浸入式视频会议的实现方法

Info

Publication number: CN106161985B
Application number: CN201610534581.6A
Authority: CN
Inventors: 朱国康; 钱晓炯
Original assignee: Ningbo Chrysanthemum Wind System Softcom Ltd
Current assignee: Ningbo Chrysanthemum Wind System Softcom Ltd
Priority date: 2016-07-05
Filing date: 2016-07-05
Publication date: 2019-08-27
Anticipated expiration: 2036-07-05
Also published as: CN106161985A

Abstract

本发明涉及一种浸入式视频会议的实现方法，其特征在于：包含如下步骤：步骤一、采集视频会议室内的大视野图像；步骤二、通过声源定位方法实时找到视频讲话人的声源定位点；步骤三、根据实时的声源定位点对采集的大视野图像进行裁剪，裁剪位置以声源定位点作为裁剪画面的中心位置，裁剪的视角大小为25～90度，获得裁减后的视频图像，将该裁减后的视频图像作为输出的视频图像。与现有技术相比，本发明的优点在于：能实现快速定位视频讲话人跟踪，具有模仿人类眼睛和注意力的沉浸式的效果，能捕捉视频会议室内的大视野图像，并能在大视野图像内定位说话人的画面，降低视频编码码率，节省带宽，无需转动摄像头，避免了需要机械结构而产生的问题。

Description

一种浸入式视频会议的实现方法

技术领域

本发明涉及一种浸入式视频会议的实现方法。

背景技术

视频会议的一种常见场景是，在会议室中多人参与视频通话；视频会议系统供应厂家为了实现更优秀的视频效果，大多会采用声源定位，通过声源定位的位置转动摄像头，将摄像头对准视频讲话人，实现讲话人跟踪。

发明内容

本发明所要解决的技术问题是无需转动摄像头就能实现快速定位视频讲话人跟踪的浸入式视频会议的实现方法。

本发明解决上述技术问题所采用的技术方案为：一种浸入式视频会议的实现方法，其特征在于：包含如下步骤：

步骤一、采集视频会议室内的大视野图像；

步骤二、通过声源定位方法实时找到视频讲话人的声源定位点；

步骤三、根据实时的声源定位点对采集的大视野图像进行裁剪，裁剪位置以声源定位点作为裁剪画面的中心位置，裁剪的视角大小为25～90度，获得裁剪后的视频图像，将该裁剪后的视频图像作为输出的视频图像。

所述步骤一中，可以采用广角镜头来采集视频会议室内的大视野图像，也可以多个镜头分别同步采集视频图像，然后将多个镜头同步采集的视频图像进行拼接获得大视野图像。

所述步骤一中采集视频会议室内的大视野图像中所采用的镜头距离人脸/景物最小的距离为20cm。

所述步骤三中，裁剪后的视频图像的大小由以下方式决定：

设步骤一中获得的大视野图像的总画面的视角为a，画面宽为D，裁剪的视角大小为x，根据比例关系，可得到裁剪后的视频图像宽度Wc为：

设视频讲话人像与镜头之间的距离为L，设m＝10，n＝60；

下面是计算x的具体计算步骤：

步骤(1)、输入L，如果L小于20cm，则设定L为20；

步骤(2)、通过如下两个公式计算x1和x2：

如果通过上述两个公式计算获得的x1和x2小于25度，则设x1为25度或30度，设x2为25度或30度；如果通过上述两个公式计算获得的x1和x2大于90度，则设则设x1和x2为90度；

步骤(3)、初始状态，x＝0.5*(x2+x1)；非初始状态，如果上一帧实际裁剪视角x∈(x2，x1)，则保持不变，否则x设为

其中abs是求取绝对值的函数。

在步骤三获得裁剪后的视频图像中，以人脸为中心，如果检测不到人脸，则以画面为中心，然后在视角g度范围内保留原有画面精度，在g度外逐渐过渡为高斯模糊，其中视角g的计算公式为：

在步骤三获得裁剪后的视频图像中，以人脸为中心，如果检测不到人脸，则以画面为中心，在视角25度范围内保留原有画面精度，在25度外逐渐过渡为高斯模糊。

如果步骤二中采用声源定位方法定位出会场中同时有多人讲话，则裁剪后的视频图像需要覆盖到多人讲话的空间范围内；如果裁剪的视角大小为扩大到90度仍无法满足覆盖，则分别将多个讲话人的视频图像裁剪出来，然后拼接成一个视频图像，最后将这个拼接的视频图像作为输出的视频图像。

与现有技术相比，本发明的优点在于：能实现快速定位视频讲话人跟踪，具有模仿人类眼睛和注意力的沉浸式的效果，能捕捉视频会议室内的大视野图像，并能在大视野图像内定位说话人的画面，降低视频编码码率，节省带宽，无需转动摄像头，避免了需要机械结构而产生的问题。

附图说明

图1为本发明实施例中浸入式视频会议的实现方法流程部。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1所示的浸入式视频会议的实现方法，包含如下步骤：

步骤一、采用广角镜头来采集视频会议室内的大视野图像，或采用多个镜头分别同步采集视频图像，然后将多个镜头同步采集的视频图像进行拼接获得大视野图像；该步骤中，采集视频会议室内的大视野图像中所采用的镜头距离人脸/景物的距离需满足最小距离为20cm；

步骤三、根据实时的声源定位点对采集的大视野图像进行裁剪，裁剪位置以声源定位点作为裁剪画面的中心位置，裁剪的视角大小为25～90度，获得裁剪后的视频图像，将该裁剪后的视频图像作为输出的视频图像；该步骤中，裁剪后的视频图像的大小由以下方式决定：

设视频讲话人像与镜头之间的距离为L，设m＝10，n＝60；

下面是计算x的具体计算步骤：

步骤(1)、输入L，如果L小于20cm，则设定L为20；

步骤(2)、通过如下两个公式计算x1和x2：

其中abs是求取绝对值的函数；

步骤四、在获得裁剪后的视频图像中，以人脸为中心，如果检测不到人脸，则以画面为中心，然后在视角g度范围内保留原有画面精度，在g度外逐渐过渡为高斯模糊，其中视角g的计算公式为：

另外，也可以在得裁剪后的视频图像中，以人脸为中心，如果检测不到人脸，则以画面为中心，在视角25度范围内保留原有画面精度，在25度外逐渐过渡为高斯模糊。

Claims

1.一种浸入式视频会议的实现方法，其特征在于：包含如下步骤：

步骤一、采集视频会议室内的大视野图像；

步骤三、根据实时的声源定位点对采集的大视野图像进行裁剪，裁剪位置以声源定位点作为裁剪画面的中心位置，裁剪的视角大小为25～90度，获得裁剪后的视频图像，将该裁剪后的视频图像作为输出的视频图像；

所述步骤三中，裁剪后的视频图像的大小由以下方式决定：

设视频讲话人像与镜头之间的距离为L，设m＝10，n＝60；

下面是计算x的具体计算步骤：

步骤(1)、输入L，如果L小于20cm，则设定L为20；

步骤(2)、通过如下两个公式计算x1和x2：

步骤(3)、初始状态，x＝0.5*(x2+x1)；非初始状态，如果上一帧实际裁剪视角x∈(x2,x1)，则保持不变，否则x设为

其中abs是求取绝对值的函数。

2.根据权利要求1所述的浸入式视频会议的实现方法，其特征在于：所述步骤一中，采用广角镜头来采集视频会议室内的大视野图像。

3.根据权利要求1所述的浸入式视频会议的实现方法，其特征在于：所述步骤一中，采用多个镜头分别同步采集视频图像，然后将多个镜头同步采集的视频图像进行拼接获得大视野图像。

4.根据权利要求2或3所述的浸入式视频会议的实现方法，其特征在于：所述步骤一中采集视频会议室内的大视野图像中所采用的镜头距离人脸/景物最小的距离为20cm。

5.根据权利要求1所述的浸入式视频会议的实现方法，其特征在于：在步骤三获得裁剪后的视频图像中，以人脸为中心，如果检测不到人脸，则以画面为中心，然后在视角g度范围内保留原有画面精度，在g度外逐渐过渡为高斯模糊，其中视角g的计算公式为：

6.根据权利要求1所述的浸入式视频会议的实现方法，其特征在于：在步骤三获得裁剪后的视频图像中，以人脸为中心，如果检测不到人脸，则以画面为中心，在视角25度范围内保留原有画面精度，在25度外逐渐过渡为高斯模糊。

7.根据权利要求1所述的浸入式视频会议的实现方法，其特征在于：如果步骤二中采用声源定位方法定位出会场中同时有多人讲话，则裁剪后的视频图像需要覆盖到多人讲话的空间范围内；如果裁剪的视角大小为扩大到90度仍无法满足覆盖，则分别将多个讲话人的视频图像裁剪出来，然后拼接成一个视频图像，最后将这个拼接的视频图像作为输出的视频图像。