CN110087059A

CN110087059A - 一种针对真实三维场景的交互式自由立体显示方法

Info

Publication number: CN110087059A
Application number: CN201810078152.1A
Authority: CN
Inventors: 王琼华; 任慧; 罗令; 邢妍
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2019-08-02
Anticipated expiration: 2038-01-26
Also published as: CN110087059B

Abstract

本发明提出一种针对真实三维场景的交互式自由立体显示方法，该方法包括真实场景超多视点视差信息的获取、超多视点微图像阵列序列的生成和手势交互立体显示三个过程。该方法利用摄像机阵列获取真实三维目标场景的超多视点视差信息，利用Kinect体感设备，对观看者发出的手势信号进行检测，实现三维目标场景视差信息的切换显示，使得在主视区内观看到真实三维场景的超多视点信息。

Description

一种针对真实三维场景的交互式自由立体显示方法

一、技术领域

本发明涉及自由立体显示技术，特别涉及针对真实三维场景的交互式自由立体显示技术。

二、背景技术

自由立体显示技术是一种无需佩戴任何辅助设备即可在一定范围内观看到立体图像的显示技术。基于光栅的自由立体显示通过在二维显示屏前放置一定参数的柱面透镜光栅/狭缝光栅，利用光栅对光线的遮挡或折射形成一系列的视点，当眼睛在不同的视点上时，即可观看到对应的视差图像，经大脑融合后形成立体感知。

传统的光栅自由立体显示受柱透镜/狭缝参数和二维显示屏分辨率的限制，存在视点数与立体分辨率相互制约的难题，即立体分辨率越高，在主视区内看到的视差图像越少，相应地，所能观看的三维场景视差范围越窄。Kinect是由微软开发的一种体感摄影机，具有即时动态捕捉和影像辨识等功能，利用Kinect对光栅自由立体显示器进行交互可解决观看三维场景视差范围窄的难题，但目前此类交互系统多针对虚拟三维场景，鲜有对真实三维场景进行交互的自由立体显示系统。

三、发明内容

本发明为克服观看真实三维场景视差范围窄的难题，提出了一种针对真实三维场景的交互式自由立体显示方法。该方法通过手势交互实现真实三维场景大视差范围的立体显示，具体包括真实场景超多视点视差信息的获取、超多视点合成图像序列的生成和手势交互立体显示三个过程，具体流程如附图1所示。本发明硬件系统由摄像机阵列、Kinect体感设备、自由立体显示器和计算机组成，如附图2所示。

所述真实场景超多视点视差信息的获取过程，首先对摄像机阵列位姿进行调整，将N个摄像机在水平方向上以等间隔排列，调整每个摄像机的位姿，使得所有摄像机的光轴会聚于一点。为增大拍摄场景的视差范围，本发明要求摄像机数N远大于显示视点数M。摄像机阵列与拍摄中心深度平面的距离为D，镜头焦距为f，相邻镜头光心间距为b，则真实三维场景的拍摄视差范围α满足：

根据立体显示原理，对摄像机阵列进行标定，在拍摄中心深度平面处放置棋盘格标定板，利用摄像机阵列对棋盘格标定板进行拍摄，得到N幅标定板视差图像序列，以n为索引来表示，n∈{1,2,3,…,N}。最后利用摄像机阵列对真实三维目标场景进行拍摄，得到N幅目标场景视差图像序列，同样以n为索引进行表示。

所述超多视点合成图像序列的生成过程，首先对获取的目标场景视差图像序列进行校正。对于每幅标定板视差图像，利用亚像素精度角点检测技术，确定棋盘格边缘四个角点的像素坐标，并根据相似性关系，对角点坐标进行拓展，获得边缘角点的最大拓展坐标。结合校正后视差图像分辨率S_p×R_p，计算得到第n幅视差图像的单应性变换矩阵Mat_n，利用该矩阵对拍摄的第n幅目标场景视差图像I_n(x,y)进行校正，获得对应的校正视差图像为I'_n(x',y')，两者满足：

I_n(x，y)＝I′_n(x′，y′) (2)

然后，利用校正后的N幅目标场景视差图像序列，生成合成图像序列，如附图3所示。在校正后的视差图像序列中，以第m幅视差图像为起点，选取相邻的M幅视差图像序列进行像素映射，合成分辨率为S_e×R_e的初始合成图像E_m(x”,y”)，随后，以1个视点为间隔选取第m+1～m+M幅视差图像序列，采用相同的像素映射方法合成下一幅合成图像E_m+1(x”,y”)，以此类推，最终生成数目为N-M+1的超多视点合成图像序列。E_m(x”,y”)与校正视差图像I'_n(x',y')满足：

E_m(x″，y″)＝I′_n(x′，y′) (4)

n＝M-1-mod(y″，M)+m (7)

其中，m＝{1,2,3,…,N-M+1}，x”＝{0,1,2,…,S_e-1}，y”＝{0,1,2,…,R_e-1}，x'＝{0,1,2,…,S_p-1}，y'＝{0,1,2,…,R_p-1}，floor(*)表示向下取整，mod(*,*)表示取余。

所述手势交互立体显示过程，首先利用Kinect体感设备，通过Kinect SDK系统开发工具包中相应的API(应用程序接口)，从正面获得观看者的人体骨骼信息，然后从中提取手部骨骼信息，通过手势识别模块和响应模块对其进行分析和处理，如附图4所示。手势识别模块中，通过对观看者的手势状态进行分析判断，获得指导响应模块的输出结果。该模块分为判断手部挥动距离是否超过设定阈值和判断手势是否符合特定手势模板。若判断结果均为否，则返回到获取下一时刻手部骨骼点信息的步骤；若判断结果为手部挥动距离超过设定的距离阈值，则输出结果为“触发成功”；若判断结果为手势状态符合设定的特定手势模板，则输出“匹配成功”及对应的匹配参数。响应模块中，依据手势识别模块的输出结果，调用相应的合成图像进行自由立体显示，该模块由阈值检测响应函数和特殊命令响应函数两部分组成。当手势识别模块的输出结果为“触发成功”时，执行所述阈值检测响应函数，即检测当前显示的合成图像E_m(x”,y”)，并切换为与之相邻的下一幅合成图像E_m+1(x”,y”)进行显示；当手势识别模块的输出结果为“匹配成功”时，执行所述特殊命令响应函数，即根据传入的匹配参数完成对应的特殊命令，如快速切换至最左、最右或中间视点的合成图像进行显示。执行完成响应函数，对整个过程进行循环。

本发明提出的针对真实三维场景的交互式自由立体显示方法，通过获得真实三维目标场景的超多视点视差信息，利用Kinect体感设备，对观看者发出的手势信号进行检测，从而实现三维目标场景视差信息的切换显示，使得在主视区内能够观看到真实三维场景的超多视点信息。

四、附图说明

附图1为本发明提出的一种针对真实三维场景的交互式自由立体显示方法的流程图

附图2为一种针对真实三维场景的交互式自由立体显示方法的硬件系统图

附图3为超多视点合成图像序列生成过程图

附图4为手势交互立体显示流程图

上述附图的图示标号为：

1摄像机阵列，2 Kinect体感设备，3自由立体显示器，4计算机，5标定板视差图像，6校正标定板视差图像，7拓展后单应性变化矩阵，8目标场景视差图像，9校正目标场景视差图像，10校正目标场景视差图像序列，11合成图像序列。

应该理解上述附图只是示意性的，并没有按比例绘制。

五、具体实施方式

下面详细说明本发明的一种针对真实三维场景的交互式自由立体显示方法的一个典型实施例，对本发明进行进一步的具体描述。有必要在此指出的是，以下实施例只用于本发明做进一步的说明，不能理解为对本发明保护范围的限制，该领域技术熟练人员根据上述本发明内容对本发明做出一些非本质的改进和调整，仍属于本发明的保护范围。

所述真实场景超多视点视差信息的获取过程，首先对摄像机阵列位姿进行调整，将N＝64个摄像机在水平方向上以等间隔排列，调整每个摄像机的位姿，使得所有摄像机的光轴会聚于一点。为增大拍摄场景的视差范围，本发明要求摄像机数64远大于显示视点数M＝8。摄像机阵列与拍摄中心深度平面的距离为D＝4.0m，镜头焦距为f＝22mm，相邻镜头光心间距为b＝10cm，则真实三维场景的拍摄视差范围α满足：

本实施例中，计算出α＝76.4°。然后根据立体显示原理，对摄像机阵列进行标定，在拍摄中心深度平面处放置棋盘格标定板，利用摄像机阵列对棋盘格标定板进行拍摄，得到64幅标定板视差图像序列，以n为索引来表示，n∈{1,2,3,…,64}。最后利用摄像机阵列对真实三维目标场景进行拍摄，得到64幅目标场景视差图像序列，同样以n为索引进行表示。

所述超多视点合成图像序列的生成过程，首先对获取的目标场景视差图像序列进行校正。对于每幅标定板视差图像，利用亚像素精度角点检测技术，确定棋盘格边缘四个角点的像素坐标，并根据相似性关系，对角点坐标进行拓展，获得边缘角点的最大拓展坐标。结合校正后视差图像分辨率S_p×R_p＝2720×1540计算得到第n幅视差图像的单应性变换矩阵Mat_n，利用该矩阵对拍摄的第n幅目标场景视差图像I_n(x,y)进行校正，获得对应的校正视差图像为I'_n(x',y')，两者满足：

I_n(x，y)＝I′_n(x′，y′) (2)

本实施例中，以第16个摄像机为例，对应的拓展单应性变换矩阵为：

然后，利用校正后的64幅目标场景视差图像序列，生成合成图像序列，如附图3所示。在校正后的视差图像序列中，以第m幅视差图像为起点，选取相邻的M＝8幅视差图像序列进行像素映射，合成分辨率为S_e×R_e＝3840×2160初始合成图像E_m(x”,y”)，随后，以1个视点为间隔选取第m+1～m+M幅视差图像序列，采用相同的像素映射方法合成下一幅合成图像E_m+1(x”,y”)，以此类推，最终生成数目为N-M+1的超多视点合成图像序列。E_m(x”,y”)与校正视差图像I'_n(x',y')满足：

E_m(x″，y″)＝I′_n(x′，y′) (4)

n＝M-1-mod(y″，M)+m (7)

其中，m＝{1,2,3,…,N-M+1}，x”＝{0,1,2,…,3839}，y”＝{0,1,2,…,2159}，x'＝{0,1,2,…,2719}，y'＝{0,1,2,…,1539}，floor(*)表示向下取整，mod(*,*)表示取余。

所述手势交互立体显示过程，首先利用Kinect体感设备，通过Kinect SDK系统开发工具包中相应的API(应用程序接口)，从正面获得观看者的人体骨骼信息，并将所述人体骨骼信息通过USB数据线传送至与自由立体显示器相连的计算机。其中人体活动范围限制在Kinect设备的水平视角范围小于70°、垂直视角范围小于60°和最佳传感深度范围0.5m到4.5m之间。然后对人体骨骼信息中的手部骨骼信息进行提取，分割视频信息，得到每一帧的手部骨骼信息。通过手势识别模块和响应模块对其进行分析和处理，如附图4所示。手势识别模块中，通过对观看者的手势状态进行分析判断，获得指导响应模块的输出结果。该模块分为判断手部挥动距离是否超过设定阈值和判断手势是否符合特定手势模板。若判断结果均为否，则返回到获取下一时刻手部骨骼点信息的步骤；若判断结果为手部挥动距离超过设定的距离阈值，则输出结果为“触发成功”；若判断结果为手势状态符合设定的特定手势模板，则输出“匹配成功”及对应的匹配参数。响应模块中，依据手势识别模块的输出结果，调用相应的合成图像进行自由立体显示，该模块由阈值检测响应函数和特殊命令响应函数两部分组成。当手势识别模块的输出结果为“触发成功”时，执行所述阈值检测响应函数，即检测当前显示的合成图像E_m(x”,y”)，并切换为与之相邻的下一幅合成图像E_m+1(x”,y”)进行显示；当手势识别模块的输出结果为“匹配成功”时，执行所述特殊命令响应函数，即根据传入的匹配参数完成对应的特殊命令，如快速切换至最左、最右或中间视角的合成图像进行显示。执行完成响应函数，对该过程进行循环。

Claims

1.一种针对真实三维场景的交互式自由立体显示方法，其特征在于，所述方法首先获取真实场景超多视点视差信息，利用一维摄像机阵列分别获取标定板视差图像序列以及目标场景视差图像序列，然后生成超多视点合成图像序列，利用标定板视差图像序列对目标场景视差图像序列进行校正，利用校正后的目标场景视差图像序列生成超多视点合成图像序列，最后实现手势交互立体显示，利用Kinect体感设备，对观看者发出的手势信号进行检测并完成相应响应，实现三维目标场景视差信息的切换显示。

2.根据权利要求1所述的一种针对真实三维场景的交互式自由立体显示方法，其特征在于，所述真实场景超多视点视差信息的获取过程，首先，将N个摄像机在水平方向上以等间隔排列，调整每个摄像机的位姿，使得所有摄像机的光轴会聚于一点，要求摄像机数N远大于显示视点数M，然后，在拍摄中心深度平面处放置棋盘格标定板，利用摄像机阵列对棋盘格标定板进行拍摄，得到N幅标定板视差图像序列，以n为索引来表示，n∈{1,2,3,…,N}，最后，利用摄像机阵列对真实三维目标场景进行拍摄，得到N幅目标场景视差图像序列，同样以n为索引进行表示。

3.根据权利要求1所述的一种针对真实三维场景的交互式自由立体显示方法，其特征在于，所述超多视点的微图像阵列序列的生成过程，首先，对每幅标定板视差图像利用亚像素精度角点检测技术确定棋盘格边缘四个角点的像素坐标，并根据相似性关系对角点坐标进行拓展，获得边缘角点的最大拓展坐标，结合校正后视差图像分辨率S_p×R_p，计算得到第n幅视差图像的单应性变换矩阵Mat_n，利用该矩阵对拍摄的第n幅目标场景视差图像I_n(x,y)进行校正，获得对应的校正视差图像为I'_n(x',y')，两者满足：I_n(x，y)＝I′_n(x′，y′)，n∈{1,2,3,…,N}，其中N为摄像机总数，然后，在校正后的视差图像序列中以第m幅视差图像为起点，选取相邻的M幅视差图像序列进行像素映射，合成分辨率为S_e×R_e的初始微图像阵列E_m(x”,y”)，M是单幅微图像阵列视点数，随后以1个视点为间隔选取第m+1～m+M幅视差图像序列，采用相同的像素映射方法合成下一幅合成图像E_m+1(x”,y”)，以此类推，最终合成数目为N-M+1的超多视点合成图像序列，E_m(x”,y”)与校正视差图像I'_n(x',y')需满足：E_m(x″，y″)＝I′_n(x′，y′)，n＝M-1-mod(y”,M)+m，其中，m＝{1,2,3,…,N-M+1}，x”＝{0,1,2,…,S_e-1}，y”＝{0,1,2,…,R_e-1}，x'＝{0,1,2,…,S_p-1}，y'＝{0,1,2,…,R_p-1}，floor(*)表示向下取整，mod(*,*)表示取余。

4.根据权利要求1所述的一种针对真实三维场景的交互式自由立体显示方法，其特征在于，所述手势交互立体显示的过程，首先，利用Kinect体感设备及Kinect SDK系统开发工具包中相应的API，获得观看者的人体骨骼信息，然后从中提取手部骨骼信息，通过手势识别模块判断手部挥动距离是否超过设定的距离阈值或手势是否符合特定手势模板，若判断结果均为否，则继续获取下一时刻手部骨骼点信息，若判断结果为手部挥动距离超过设定的距离阈值，则输出“触发成功”，若判断结果为手势状态符合设定的特定手势模板，则输出“匹配成功”及对应的匹配参数，接着进入响应模块，当手势识别模块输出为“触发成功”时，执行阈值检测响应函数，即检测当前显示的合成图像E_m(x”,y”)，并切换为与之相邻的下一幅合成图像E_m+1(x”,y”)进行显示，其中m＝{1,2,3,…,N-M+1}，N为摄像机总数，M为单幅合成图像视点数，当手势识别模块输出为“匹配成功”时，执行特殊命令响应函数，即根据传入的匹配参数完成对应的特殊命令，如快速切换至最左、最右或中间视点的合成图像进行显示，执行完成响应函数，对该过程进行循环。