CN103034330A

CN103034330A - 一种用于视频会议的眼神交互方法及系统

Info

Publication number: CN103034330A
Application number: CN2012105195952A
Authority: CN
Inventors: 尹苓琳; 陈益强; 纪雯
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2012-12-06
Filing date: 2012-12-06
Publication date: 2013-04-10
Anticipated expiration: 2032-12-06
Also published as: CN103034330B

Abstract

本发明提供一种用于视频会议的眼神交互方法及系统，该方法包括：步骤100，通过彩色摄像机获取彩色图像，通过深度摄像机获取与所述彩色图像对齐后的深度图像；步骤200，对所述彩色图像和深度图像进行前期处理，获得虚拟坐标系下的三维信息，并将其投影到虚拟摄像机平面获得眼神矫正的图像；步骤300，对所述眼神矫正的图像进行中值滤波，获得眼神直视的图像。本发明操作方便、实时性高，对参与视频会议的人员的不同位置具有自适应性，实现简单，能增强参与视频会议的沉浸感。

Description

一种用于视频会议的眼神交互方法及系统

技术领域

本发明涉及视频会议，特别涉及一种用于视频会议的眼神交互方法及系统。

背景技术

视频会议在未来的交流中占据着举足轻重的位置，它能使人们更有效的交流，视频会议可以使参与者双方观察到对方的面部表情、肢体动作及对自己说话的反应。通过视频捕获装置，参与者一方的图像将被获取然后经过网络传输到达另一方的显示屏上。

但是远程视频会议不能保障参与者眼神的交互。参与者必须选择直视摄像头或者直视屏幕。只有一方参与者选择直视摄像头的时候，另一方才有对方正在看着自己的感觉。但如果参与者选择凝视屏幕，那么这种眼神交流将会缺失。研究表明，当角度超过5度时，眼神交流的缺失将会很明显。

眼神交流在面对面的交流中是非常重要的，而在视频会议往往得不到保障。由于眼睛凝视屏幕的视线和摄像机放置的位置不一致导致了眼睛直视效果的缺失。这种眼神交流的缺失将会降低远程视频的沉浸感。

目前传统的眼神矫正方法主要有2种，基于硬件的方法和基于软件的方法：

（1）在基于硬件的方法中，通常是将半透明反射镜呈一定角度对准视线凝视的位置。这些方法通常包含一个45度角安放于显示器前方的分束器。一种典型的配置方法是将摄像头放置于分束器之后，通过分束器获得参与者的图像。参与者将看到经分束器反射之后的另一方图像。

（2）基于软件的方法又可以分为基于计算机视觉的方法和图像处理的方法。基于计算机视觉的方法中通常将多个摄像头放置于显示屏边缘。通过多摄像头进行立体分析可以得到场景的深度图，进而对多幅图像进行在虚拟视角的融合，从而保证眼神交互。其中虚拟视角常被设置为多个摄像机中点，也有通过人工自调整到最佳位置。基于图像处理的方法中通过眼睛虹膜检测算法、眼睛轮廓检测算法找到眼睛位置，一旦眼睛的位置被确定，可通过变换眼睛局部图像来达到眼神直视的效果。

在第一种方法中，需要特制的硬件设备和复杂的配置过程，加大了系统的复杂度和成本。该方法不适合在普适环境下使用。

第二种方法中，基于计算机视觉和图像处理的方法被广泛应用于视线矫正中。但是硬件需要按规定安置并且需要标定摄像机外参数。一旦硬件设备固定就不能轻易变动，否则摄像机外参数需要进行重新标定。并且多幅图像的虚拟融合点被固定在一个位置，忽略了人和摄像机的相对位置关系，对于人的位置变化不具备自适应性，当人的头部偏离此固定点较远时，会导致从此虚拟视角点获取的图像依然达不到眼神直视的效果。并且，三维点云的建立计算量大，导致方法实时性不好。

发明内容

本发明的目的是提供一种操作方便、实时性高，对参与视频会议的人员的不同位置具有自适应性，且能增强参与视频会议的人员沉浸感的眼神交互方法及系统，以保障视频会议中的眼神交流。

为了实现上述目的，本发明提供一种用于视频会议的眼神交互方法，该方法包括：

步骤1，通过彩色摄像机获取彩色图像，通过深度摄像机获取与所述彩色图像对齐后的深度图像；

步骤2，对所述彩色图像和深度图像进行前期处理，获得虚拟坐标系下的三维信息，并将其投影到虚拟摄像机平面获得眼神矫正的图像；

步骤3，对所述眼神矫正的图像进行中值滤波，获得眼神直视的图像。

所述步骤1中的所述彩色摄像机和所述深度摄像机的平面平行于屏幕平面。

所述步骤2包括：

步骤21，对所述彩色图像进行前景提取，获得前景的彩色图像；同时对应的将所述与彩色图像对齐的深度图像的非前景区域设置为零，并对其进行深度图像预处理；

步骤22，利用所述彩色图像对彩色摄像机进行一次参数标定，获取彩色摄像机内参数；

步骤23，设定虚拟坐标系，对所述前景的彩色图像提取眼睛的位置特征，通过所述位置特征计算眼睛距离彩色摄像头的水平和垂直偏移量，根据所述水平和垂直偏移量得到虚拟摄像机外参数。

步骤24，根据所述彩色摄像机内参数与所述前景的彩色图像对齐的深度图像，获得前景区域三维信息，

步骤25，利用所述前景区域三维信息和所述虚拟摄像机外参数，获得虚拟坐标系下的三维信息；

步骤26，利用所述彩色摄像机内参数将所述虚拟坐标系下的三维信息投影到虚拟摄像机平面获得眼神矫正的图像。

所述步骤21中进行深度图像预处理的步骤：

步骤221，将误判为前景区域的深度值设置为零，并将像素深度符合规定的深度值设置为背景区域；其中，原本为背景区域被判断成了前景区域，叫做错误判断，计算前景深度的均值和方差，将某点深度值与均值之差的绝对值大于方差加上某个阈值时，认定为错误判断；

步骤222，所述前景区域的深度值为零的区域进行最近邻补全，获得与所述前景的彩色图像对齐的深度图像，其中所述最近邻补全是指将欧式距离最近的点非零深度值赋值给该像素。

所述步骤23包括：

步骤231，设置一只眼睛平行凝视所述彩色摄像头平面的点为虚拟坐标系原点；

步骤232，通过寻找所述彩色图像中该只眼睛的位置特征和对应的深度信息确定眼睛距离彩色摄像头的水平和垂直位移；

步骤233，根据所述水平和垂直位移得到彩色摄像头仰视的角度和平移的角度；

步骤234，虚拟坐标系设置模块，利用所述仰视和平移角度将彩色摄像头进行垂直方向和水平方向的旋转得到虚拟坐标系。

为实现上述目的，本发明还一种用于视频会议的眼神交互系统，该系统包括：

图像获取模块，通过彩色摄像机获取彩色图像，通过深度摄像机获取与所述彩色图像对齐后的深度图像；

图像处理模块，对所述彩色图像和深度图像进行前期处理，获得虚拟坐标系下的三维信息，并将其投影到虚拟摄像机平面获得眼神矫正的图像；

眼神交互图像获取模块，对所述眼神矫正的图像进行中值滤波，获得眼神直视的图像。

所述图像获取模块中的所述彩色摄像机和所述深度摄像机的平面平行于屏幕平面。

所述图像获取模块包括：

预处理模块，对所述彩色图像进行前景提取，获得前景的彩色图像；同时对应的将所述与彩色图像对齐的深度图像的非前景区域设置为零，并对其进行深度图像预处理；

参数标定模块，利用所述彩色图像对彩色摄像机进行一次参数标定，获取彩色摄像机内参数；

虚拟处理模块，设定虚拟坐标系，对所述前景的彩色图像提取眼睛的位置特征，通过所述位置特征计算眼睛距离彩色摄像头的水平和垂直偏移量，根据所述水平和垂直偏移量得到虚拟摄像机外参数。

前景三维信息获取模块，根据所述彩色摄像机内参数与所述前景的彩色图像对齐的深度图像，获得前景区域三维信息，

虚拟三维信息获取模块，利用所述前景区域三维信息和所述虚拟摄像机外参数，获得虚拟坐标系下的三维信息；

投影矫正模块，利用所述彩色摄像机内参数将所述虚拟坐标系下的三维信息投影到虚拟摄像机平面获得眼神矫正的图像。

所述预处理模块包括：

设置模块，将误判为前景区域的深度值设置为零，并将像素深度符合规定的深度值设置为背景区域；其中，原本为背景区域被判断成了前景区域，叫做错误判断，计算前景深度的均值和方差，将某点深度值与均值之差的绝对值大于方差加上某个阈值时，认定为错误判断；

最近邻补全模块，所述前景区域的深度值为零的区域进行最近邻补全，获得与所述前景的彩色图像对齐的深度图像，其中所述最近邻补全是指将欧式距离最近的点非零深度值赋值给该像素。

所述虚拟处理模块包括：

虚拟坐标原点设置模块，设置一只眼睛平行凝视所述彩色摄像头平面的点为虚拟坐标系原点；

距离确定模块，通过寻找所述彩色图像中该只眼睛的位置特征和对应的深度信息确定眼睛距离彩色摄像头的水平和垂直位移；

角度计算模块，根据所述水平和垂直位移计算得到彩色摄像头仰视的角度和平移的角度；

虚拟坐标系设置模块，利用所述仰视和平移角度将彩色摄像头进行垂直方向和水平方向的旋转得到虚拟坐标系。

本发明的有益功效在于，

1.操作方便，硬件位置无需固定

本发明无需用户将硬件固定某个位置不变，也无需用户每次对设备进行参数标定。极大地给用户提供了方便性和可操作性。对用户无专业知识的要求。

2.对人不同位置具有自适应性。

当人的位置发生变化时，虚拟视角会跟随人眼变动。这表明虚拟摄像机不是固定在一个位置，而是根据人的位置调整到最佳的捕获直视效果的位置。对不同人的位置具有自适应性，因此也不要求参与者固定一定距离于摄像头前。

3.实时性高。

发明用深度摄像头获取立体数据，减少了立体匹配带来的大计算量。提高了计算效率，保证了实时性。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明的用于视频会议的眼神交互方法流程图；

图2（a）为虚拟视角点位置和垂直偏移示意图；

图2（b）为虚拟视角点位置和水平偏移示意图；

图3（a）为虚拟坐标系Y轴和Z轴的设定；

图3（b）为虚拟坐标系X轴和Z轴的设定；

图4为虚拟坐标系的几何模型；

图5为本发明的用于视频会议的眼神交互系统示意图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案进行详细的描述，以更进一步了解本发明的目的、方案及功效，但并非作为本发明所附权利要求保护范围的限制。

为了方便理解，在对本发明的方法做详细说明前，首先给出本发明方法的一个可能的应用场景。在远程视频时候，交流双方需要进行眼神的沟通，都希望对方有直视自己的效果。首先，用户需要放置好彩色摄像头和深度摄像头于桌面上。深度摄像头获取的数据是对齐了彩色摄像头图像的。然后，方法经过一个预处理阶段就呈能现矫正后的效果。

针对上述应用场景，在下文中给出了本发明的眼神矫正方法的实施例。需要说明的是，在下列实施例中，需要将彩色摄像头和深度摄像头放置于桌面，并且深度摄像头获取到的数据与彩色摄像头数据进行了对齐。彩色摄像头的平面需平行于屏幕平面。

图1为本发明的用于视频会议的眼神交互方法流程图。如图1所示，该方法包括：

步骤100，通过彩色摄像机获取彩色图像，通过深度摄像机获取与所述彩色图像对齐后的深度图像；

步骤200，对所述彩色图像和深度图像进行前期处理，获得虚拟坐标系下的三维信息，并将其投影到虚拟摄像机平面获得眼神矫正的图像；

步骤300，对所述眼神矫正的图像进行中值滤波，获得眼神直视的图像。

所述步骤100中只使用到了一个深度摄像头和一个彩色摄像头，用于获取深度数据和彩色数据。虽然方法不要求固定摄像机的位置，但要求摄像机平面平行于屏幕平面。需要说明的是本发明原始数据还需要前景人物的标识信息用于表明哪一部分属于前景图像。这主要是为了只对人头部分进行处理，并且减少不必要的计算量。

所述步骤200包括：

步骤22，利用所述彩色图像对彩色摄像机内进行一次参数标定，获取彩色摄像机内参数；摄像机模型用

p = \frac{1}{Z} * M * P - - - (1)

表示。欧式空间的坐标点（X，Y，Z）可以写成齐次坐标的形式P=[X Y Z1]^T。而彩色图像上一点（x,y）的齐次坐标可以写成p=[x y 1]^T。其中M有如下表达形式

M＝κ[R t] （2）

其中

κ = [\begin{matrix} α & α \cot θ & x_{0} \\ 0 & \frac{β}{\sin θ} & y_{0} \\ 0 & 0 & 1 \end{matrix}] - - - (3)

κ即为摄相机内参数矩阵，其中α、β是与摄像机焦距相关的参数，x₀、y₀是主轴光心在摄像机坐标系下的位置，θ是纵横坐标之间的夹角。R是世界坐标系与摄像机坐标系的旋转矩阵，对于t是世界坐标系与摄像机坐标系原点的偏移。使用如下方法进行摄像机内参数标定：

将公式（2）、（3）简化成如下形式

Zp＝HP (4)

其中，定义H＝κ[r₁r₂t]

这里是平面标定，即令Z=0,则平移向量只有r₁、r₂。H描述的是空间平面三维点和相机平面二维点之间的关系。因为相机平面上的点的坐标通过图像处理的方式获取，而空间平面中三维点可以通过事先做好的棋盘获取。

H矩阵写成3个列向量形式，

[h₁h₂h₃]＝λκ[r₁r₂t]（5）

λ是个缩放因子标量，r₁和r₂是标准正交，根据性质有：

h_{1}^{T} κ^{- T} κ^{- 1} h_{2} = 0 - - - (6)

h_{1}^{T} κ^{- T} h_{1} = h_{2}^{T} κ^{- T} κ^{- 1} h_{2} - - - (7)

令

B = κ^{- T} κ^{- 1} &equiv; [\begin{matrix} B_{11} & B_{12} & B_{13} \\ B_{12} & B_{22} & B_{23} \\ B_{13} & B_{23} & B_{33} \end{matrix}] - - - (8)

令b＝[B₁₁ B₁₂ B₂₂ B₁₃ B₂₃ B₃₃]^T (9)

H矩阵的列向量形式为

h_i＝[h_i1 h_i2 h_i3] （10）

根据公式10将公式6改写成

h_{i}^{T} {Bh}_{j} = v_{ij}^{T} b - - - (11)

其中

于是有

[\begin{matrix} v_{12}^{T} \\ {(v_{11} - v_{22})}^{T} \end{matrix}] b = 0 - - - (12)

即Vb＝0 （13）

V矩阵是2*6矩阵，因为每张图片可以建立两个方程组，于是三张以上照片即可将未知数解出。b矩阵的解出，相机内参数A也就求解出了。而此处我们只需要获得摄像机内参数。所以将世界坐标系设定为相机坐标系，也即在做相机内参数标定阶段R为单位矩阵，t=0。其中P和p分别为前面提到的空间坐标和二维坐标。对于一个焦距不变的摄像头，他的相机内参数是不变的。所以步骤300）不是每一次使用该方法都需进行。只需进行一次摄像机内参数标定即可。一旦摄像机内参数得出，这一步可跳过。

步骤23，设定虚拟坐标系，对所述前景的彩色图像提取眼睛的位置特征，并通过所述位置特征计算眼睛距离彩色摄像头的水平和垂直偏移量，根据所述水平和垂直偏移量得到虚拟摄像机外参数。方法假设在虚拟坐标系原点处存在一台与真实摄像机有相等摄相机内参数的虚拟摄像机，而此虚拟摄像机的摄像机坐标系与本文设定的虚拟坐标系保持一致。从此虚拟摄像机重投影三维点云数据得到的二维图像即为虚拟视角图像。

本方法将设置左眼睛平行凝视摄像机平面的点为虚拟视角点也即为虚拟坐标系原点。如附图2(a)与附图2（b）所示。图2（a）为虚拟视角点位置和垂直偏移示意图，图2（b）为虚拟视角点位置和水平偏移示意图。这个点是随着人的身高坐姿所变动的，而非固定的一个位置。方法将虚拟视角点依托于人眼的位置而不是硬件设备的位置，充分考虑了对不同人不同位置的自适应性。另外一方面，通过如此设定的虚拟视角点能方便地求出虚拟摄像机外参数，使得硬件设备不必处于固定的位置。

步骤24，根据所述彩色摄像机内参数与所述前景的彩色图像对齐的深度图像，用公式（1）、（2）、（3）则得到了前景区域每个像素点对应的三维信息。也即世界坐标系下前景区域的三维坐标。

步骤25，利用所述前景区域三维信息和所述虚拟摄像机外参数，获得虚拟坐标系下的三维信息；利用摄像头内参数重投影到虚拟摄像机平面。对于每一个像素点在世界坐标系下的P，使用公式（2）、其中R、t为步骤23所得结果，κ为步骤22所得结果。进行转换到虚拟摄像机二维平面上的点p，将RGB彩色信息值重新赋值到p上形成矫正后的图像。

中值滤波法是一种非线性平滑技术，它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。

方法采用3*3的中值滤波器，对于步骤26形成的矫正后的图像中每一点的值设置为3*3领域的9个像素点的值的中值。以此来弥补图像空洞问题。

所述步骤21中进行深度图像预处理的步骤：

步骤221，对误判为前景区域的深度值设为零。计算深度图像的均值μ和方差δ，设定阈值λ。对于像素深度d，规定若

|d-μ|＞δ+λ

则将d设置为零。并将该点设置为背景区域。

步骤222，所述前景区域的深度值为零的区域进行最近邻补全，获得与所述前景的彩色图像对齐的深度图像。若此像素点深度值为零又为前景区域，则用最近点的深度值进行补全。其中所述最近邻补全是指将欧式距离最近的点非零深度值赋值给该像素。

下面是虚拟摄像机外参数的自标定过程。首先，介绍虚拟摄像机的设定过程即所述步骤23包括：

步骤231，设置一只眼睛平行凝视所述彩色摄像头平面的点为虚拟坐标系原点；例如设置左眼睛平行凝视彩色摄像机平面的点为虚拟视角点也即为虚拟坐标系原点。

步骤232，通过寻找彩色图像中该只眼睛的位置特征和对应的深度信息确定眼睛距离彩色摄像头的水平X_off和垂直位移Y_off。在彩色摄像头坐标系下，眼睛的齐次坐标为[X_off,Y_off,L,1]^T。设定此时获取到得RGB图像中眼睛的位置为[x_e,y_e,1],则根据公式（1）、（2）、（3）有

x_{e} = x_{o} - \frac{X_{off} + Y_{off} * α * \cot θ}{L}

y_{e} = y_{o} - \frac{Y_{off} * β}{\sin θ * L}

而L为该只眼睛的深度值，可以通过深度数据获得。于是可以得到X_off、Y_off。即

Y_{off} = \frac{(y_{o} - y_{e}) * \sin θ * L}{β}

X_off＝(x_o-x_e)*L-Y_off*α*cotθ

步骤233，根据所述水平和垂直位移得到彩色摄像头仰视的角度和平移的角度；即所得到的水平和垂直位移用于得到彩色摄像头仰视的角度θ'和平移的角度α'。

θ^{'} = \tan^{- 1} \frac{Y_{off}}{L}

α^{'} = \tan^{- 1} \frac{X_{off}}{L}

步骤234，利用所述仰视和平移角度将所述虚拟坐标系进行垂直和水平方向的角度旋转。

虚拟视角坐标系Y'轴和Z'轴为彩色摄像头坐标系的Y轴和Z轴绕彩色摄像头坐标系的X轴方向旋转了θ'，虚拟视角坐标系的X'轴和Z'轴绕虚拟坐标系的Y'轴再旋转了α'。如图3(a)与图3(b)所示。图3（a）为虚拟坐标系Y轴和Z轴的设定；图3（b）为虚拟坐标系X轴和Z轴的设定。几何模型如图4所示。图4为虚拟坐标系的几何模型。

方法假设在虚拟坐标系原点处存在一台与真实摄像机有相等摄相机内参数的虚拟摄像机，而此虚拟摄像机的摄像机坐标系与本文设定的虚拟坐标系保持一致。虚拟摄像机的外参数即虚拟摄像坐标系与世界坐标系之间的关系。用公式（1）中R与t表示。

根据上述计算得到的各参数。虚拟坐标系的外参数可以表示为：

R = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos θ^{'} & - \sin θ^{'} \\ 0 & {\sin θ}^{'} & \cos θ^{;} \end{matrix}] [\begin{matrix} \cos α^{'} & 0 & - \sin α^{'} \\ 0 & 1 & 0 \\ \sin α^{'} & 0 & \cos α^{'} \end{matrix}]

图5为本发明的用于视频会议的眼神交互系统示意图。如图5所示，该系统包括：

图像获取模块110，通过彩色摄像机获取彩色图像，通过深度摄像机获取与所述彩色图像对齐后的深度图像；

图像处理模块120，对所述彩色图像和深度图像进行前期处理，获得虚拟坐标系下的三维信息，并将其投影到虚拟摄像机平面获得眼神矫正的图像；

眼神交互图像获取模块130，对所述眼神矫正的图像进行中值滤波，获得眼神直视的图像。

所述图像获取模块110中只使用到了一个深度摄像头和一个彩色摄像头，用于获取深度数据和彩色数据。虽然方法不要求固定摄像机的位置，但要求摄像机平面平行于屏幕平面。需要说明的是本发明原始数据还需要前景人物的标识信息用于表明哪一部分属于前景图像。这主要是为了只对人头部分进行处理，并且减少不必要的计算量。

所述图像处理模块120包括：

参数标定模块，利用所述彩色图像对彩色摄像机进行一次参数标定，获取彩色摄像机内参数；摄像机模型用

p = \frac{1}{Z} * M * P - - - (1)

M＝κ[R t] （2）

其中

κ = [\begin{matrix} α & α \cot θ & x_{0} \\ 0 & \frac{β}{\sin θ} & y_{0} \\ 0 & 0 & 1 \end{matrix}] - - - (3)

将公式（2）、（3）简化成如下形式

Zp＝HP (4)

其中，定义H＝κ[r₁r₂t]

H矩阵写成3个列向量形式，

[h₁h₂h₃]＝λκ[r₁r₂t] （5）

λ是个缩放因子标量，r₁和r₂是标准正交，根据性质有：

h_{1}^{T} κ^{- T} κ^{- 1} h_{2} = 0 - - - (6)

h_{1}^{T} κ^{- T} h_{1} = h_{2}^{T} κ^{- T} κ^{- 1} h_{2} - - - (7)

令

B = κ^{- T} κ^{- 1} &equiv; [\begin{matrix} B_{11} & B_{12} & B_{13} \\ B_{12} & B_{22} & B_{23} \\ B_{13} & B_{23} & B_{33} \end{matrix}] - - - (8)

令b＝[B₁₁ B₁₂ B₂₂ B₁₃ B₂₃ B₃₃]^T (9)

H矩阵的列向量形式为

h_i＝[h_i1 h_i2 h_i3] （10）

根据公式10将公式6改写成

h_{i}^{T} {Bh}_{j} = v_{ij}^{T} b - - - (11)

其中

于是有

[\begin{matrix} v_{12}^{T} \\ {(v_{11} - v_{22})}^{T} \end{matrix}] b = 0 - - - (12)

即Vb＝0 （13）

V矩阵是2*6矩阵，因为每张图片可以建立两个方程组，于是三张以上照片即可将未知数解出。b矩阵的解出，相机内参数A也就求解出了。而此处我们只需要获得摄像机内参数。所以将世界坐标系设定为相机坐标系，也即在做相机内参数标定阶段R为单位矩阵，t=0。其中P和p分别为前面提到的空间坐标和二维坐标。

对于一个焦距不变的摄像头，他的相机内参数是不变的。所以眼神交互图像获取模块130不是每一次使用该方法都需进行。只需进行一次摄像机内参数标定即可。一旦摄像机内参数得出，这一步可跳过。

虚拟处理模块，设定虚拟坐标系，对所述前景的彩色图像提取眼睛的位置特征，并通过所述位置特征计算眼睛距离彩色摄像头的水平和垂直偏移量，根据所述水平和垂直偏移量得到虚拟摄像机外参数。方法假设在虚拟坐标系原点处存在一台与真实摄像机有相等摄相机内参数的虚拟摄像机，而此虚拟摄像机的摄像机坐标系与本文设定的虚拟坐标系保持一致。从此虚拟摄像机重投影三维点云数据得到的二维图像即为虚拟视角图像。

本方法将设置左眼睛平行凝视摄像机平面的点为虚拟视角点也即为虚拟坐标系原点。如附图2(a)与附图2（b）所示。如附图2(a)与附图2（b）所示。图2（a）为虚拟视角点位置和垂直偏移示意图，图2（b）为虚拟视角点位置和水平偏移示意图。这个点是随着人的身高坐姿所变动的，而非固定的一个位置。方法将虚拟视角点依托于人眼的位置而不是硬件设备的位置，充分考虑了对不同人不同位置的自适应性。另外一方面，通过如此设定的虚拟视角点能方便地求出虚拟摄像机外参数，使得硬件设备不必处于固定的位置。

前景三维信息获取模块，根据所述彩色摄像机内参数与所述前景的彩色图像对齐的深度图像，用公式（1）、（2）、（3）则得到了前景区域每个像素点对应的三维信息。也即世界坐标系下前景区域的三维坐标。

虚拟三维信息获取模块，利用所述前景区域三维信息和所述虚拟摄像机外参数，获得虚拟坐标系下的三维信息；利用摄像头内参数重投影到虚拟摄像机平面。对于每一个像素点在世界坐标系下的P，使用公式（2）、其中R、t为虚拟处理模块所得结果，κ为参数标定模块所得结果。进行转换到虚拟摄像机二维平面上的点p，将RGB彩色信息值重新赋值到p上形成矫正后的图像。

方法采用3*3的中值滤波器，对于投影矫正模块形成的矫正后的图像中每一点的值设置为3*3领域的9个像素点的值的中值。以此来弥补图像空洞问题。

所述预处理模块中进行深度图像预处理的步骤：

设置模块，对误判为前景区域的深度值设为零。计算深度图像的均值μ和方差δ，设定阈值λ。对于像素深度d，规定若

|d-μ|＞δ+λ

则将d设置为零。并将该点设置为背景区域。

最近邻补全模块，所述前景区域的深度值为零的区域进行最近邻补全，获得与所述前景的彩色图像对齐的深度图像。若此像素点深度值为零又为前景区域，则用最近点的深度值进行补全。

下面是虚拟摄像机外参数的自标定过程。首先，介绍虚拟摄像机的设定过程即所述虚拟处理模块包括：

虚拟坐标原点设置模块，设置一只眼睛平行凝视所述彩色摄像头平面的点为虚拟坐标系原点；例如设置左眼睛平行凝视彩色摄像机平面的点为虚拟视角点也即为虚拟坐标系原点。

距离确定模块，通过寻找彩色图像中该只眼睛的位置特征和对应的深度信息确定眼睛距离彩色摄像头的水平X_off和垂直位移Y_off。在彩色摄像头坐标系下，眼睛的齐次坐标为[X_off，Y_off,L,1]^T。设定此时获取到得RGB图像中眼睛的位置为[x_e,y_e,1],则根据公式（1）、（2）、（3）有

x_{e} = x_{o} - \frac{X_{off} + Y_{off} * α * \cot θ}{L}

y_{e} = y_{o} - \frac{Y_{off} * β}{\sin θ * L}

Y_{off} = \frac{(y_{o} - y_{e}) * \sin θ * L}{β}

X_off＝(x_o-x_e)*L-Y_off*α*cotθ

角度计算模块，根据所述水平和垂直位移得到彩色摄像头仰视的角度和平移的角度；即所得到的水平和垂直位移用于得到彩色摄像头仰视的角度θ'和平移的角度α'。

θ^{'} = \tan^{- 1} \frac{Y_{off}}{L}

α^{'} = \tan^{- 1} \frac{X_{off}}{L}

R = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos θ^{'} & - \sin θ^{'} \\ 0 & {\sin θ}^{'} & \cos θ^{;} \end{matrix}] [\begin{matrix} \cos α^{'} & 0 & - \sin α^{'} \\ 0 & 1 & 0 \\ \sin α^{'} & 0 & \cos α^{'} \end{matrix}]

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种用于视频会议的眼神交互方法，其特征在于，包括：

2.如权利要求1所述的眼神交互方法，其特征在于，所述步骤1中的所述彩色摄像机和所述深度摄像机的平面平行于屏幕平面。

3.如权利要求1所述的眼神交互方法，其特征在于，所述步骤2包括：

步骤23，设定虚拟坐标系，对所述前景的彩色图像提取眼睛的位置特征，并通过所述位置特征计算眼睛距离彩色摄像头的水平和垂直偏移量，根据所述水平和垂直偏移量得到虚拟摄像机外参数。

4.如权利要求3所述的眼神交互方法，其特征在于，所述步骤21中进行深度图像预处理的步骤：

步骤221，将误判为前景区域的深度值设置为零，并将像素深度符合规定的深度值设置为背景区域；

步骤222，所述前景区域的深度值为零的区域进行最近邻补全，获得与所述前景的彩色图像对齐的深度图像。

5.如权利要求3所述的眼神交互方法，其特征在于，所述步骤23包括：

6.一种用于视频会议的眼神交互系统，其特征在于，包括：

7.如权利要求6所述的眼神交互系统，其特征在于，所述步骤1中的所述彩色摄像机和所述深度摄像机的平面平行于屏幕平面。

8.如权利要求6所述的眼神交互方法，其特征在于，所述图像获取模块包括：

虚拟处理模块，设定虚拟坐标系，对所述前景的彩色图像提取眼睛的位置特征，并通过所述位置特征计算眼睛距离彩色摄像头的水平和垂直偏移量，根据所述水平和垂直偏移量得到虚拟摄像机外参数。

9.如权利要求8所述的眼神交互方法，其特征在于，所述预处理模块包括：

设置模块，将误判为前景区域的深度值设置为零，并将像素深度符合规定的深度值设置为背景区域；

最近邻补全模块，所述前景区域的深度值为零的区域进行最近邻补全，获得与所述前景的彩色图像对齐的深度图像。

10.如权利要求8所述的眼神交互方法，其特征在于，所述虚拟处理模块包括：