CN103440036B

CN103440036B - 三维图像的显示和交互操作方法及装置

Info

Publication number: CN103440036B
Application number: CN201310374840.XA
Authority: CN
Inventors: 闫晓林; 李相涛; 邵诗强
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2013-08-23
Filing date: 2013-08-23
Publication date: 2018-04-17
Anticipated expiration: 2033-08-23
Also published as: CN103440036A

Abstract

本发明公开了一种三维图像的显示和交互操作方法及装置，属于图像处理领域。所述方法包括：获取第一图像和第二图像；根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离；根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像；显示所述左右眼图像；根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效；如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。本发明通过生成用于三维显示的左右眼图像，提供了图像实时3D化的显示方式，同时，支持3D图像界面非接触性的交互操作。

Description

三维图像的显示和交互操作方法及装置

技术领域

本发明涉及图像处理领域，特别涉及一种三维图像的显示和交互操作方法和装置。

背景技术

随着计算机软硬件技术的发展，3D（3 Dimensional，三维）技术被广泛应用到影视、游戏、网页、广告等领域，为用户带来了一场全新的视觉盛宴。目前，通过3D技术制作的影视作品和人机交互界面逐年增加，而用户大多时候观看到的图像以及人机交互过程中使用的界面还停留在2D的水平。因此，如何将3D图像展现给用户的同时，实现3D界面的人机交互具有重要意义。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

现有技术中，前期制作中未进行3D化的影视作品，播放时不能实时3D化显示，人机交互过程中的3D图像界面不支持非接触性的交互操作。

发明内容

为了解决三维图像的显示以及非接触性的交互操作的问题，本发明实施例提供了一种三维图像的显示和交互操作方法及装置。所述技术方案如下：

一方面，提供了一种三维图像的显示和交互操作方法，所述方法包括：

获取第一图像和第二图像，所述第一图像为第一图像采集设备采集的用于检测人眼的图像，所述第二图像为第二图像采集设备采集的用于检测人眼的图像；

根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离；

根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像；

显示所述左右眼图像；

根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效；

如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。

显示所述左右眼图像之后，包括：

获取第三图像和第四图像，所述第三图像为第一图像采集设备采集的用于检测人手的图像，所述第四图像为第二图像采集设备采集的用于检测人手的图像；

根据投影矩阵、对所述第三图像的人手区域和所述第四图像的人手区域进行计算，得到人手三维坐标。

根据投影矩阵、对所述第三图像的人手区域和所述第四图像的人手区域进行计算，得到人手三维坐标之前，包括：

对所述第三图像和第四图像分别进行人手检测，确定所述第三图像的人手区域和所述第四图像的人手区域。

获取第一图像和第二图像之前，包括：

利用第一图像采集设备和第二图像采集设备进行摄像头标定，获取投影矩阵。

根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离之前，包括：

对所述第一图像和第二图像分别进行人脸检测，确定所述第一图像的人脸区域和第二图像的人脸区域；

对所述第一图像的人脸区域和所述第二图像的人脸区域分别进行人眼检测，确定所述第一图像的人眼区域和所述第二图像的人眼区域。

根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，包括：

根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔坐标；

根据所述瞳孔坐标进行计算，得到瞳孔间距和第一距离。

根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像，包括：

根据所述瞳孔间距和第一距离进行计算，得到左眼投影公式和右眼投影公式其中，X、Y和Z为空间三维坐标，d_tv为第一距离，d_eye为瞳孔间距；

根据待显示的3D模型数据、左眼投影公式和右眼投影公式，生成用于三维显示的左右眼图像。

另一方面，提供了一种三维图像的显示和交互操作装置，所述装置包括：

人眼图像获取模块，用于获取第一图像和第二图像，所述第一图像为第一图像采集设备采集的用于检测人眼的图像，所述第二图像为第二图像采集设备采集的用于检测人眼的图像；

第一计算模块，用于根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离；

图像生成模块，用于根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像；

显示模块，用于显示所述左右眼图像；

判断模块，用于根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效；

触发模块，用于如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。

所述装置还包括：

人手图像获取模块，用于获取第三图像和第四图像，所述第三图像为第一图像采集设备采集的用于检测人手的图像，所述第四图像为第二图像采集设备采集的用于检测人手的图像；

第二计算模块，用于根据投影矩阵、对所述第三图像的人手区域和所述第四图像的人手区域进行计算，得到人手三维坐标。

所述装置还包括：

人手检测模块，用于对所述第三图像和第四图像分别进行人手检测，确定所述第三图像的人手区域和所述第四图像的人手区域。

所述装置还包括：

摄像头标定模块，用于利用第一图像采集设备和第二图像采集设备进行摄像头标定，获取投影矩阵。

所述装置还包括：

人脸检测模块，用于对所述第一图像和第二图像分别进行人脸检测，确定所述第一图像的人脸区域和第二图像的人脸区域；

人眼检测模块，用于对所述第一图像的人脸区域和所述第二图像的人脸区域分别进行人眼检测，确定所述第一图像的人眼区域和所述第二图像的人眼区域。

所述第一计算模块包括：

瞳孔坐标计算单元，用于根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔坐标；

瞳孔间距和第一距离计算单元，用于根据所述瞳孔坐标进行计算，得到瞳孔间距和第一距离。

所述图像生成模块包括：

投影公式计算单元，用于根据所述瞳孔间距和第一距离进行计算，得到左眼投影公式和右眼投影公式其中，X、Y和Z为空间三维坐标，d_tv为第一距离，d_eye为瞳孔间距；

三维图像生成单元，用于根据待显示的3D模型数据、左眼投影公式和右眼投影公式，生成用于三维显示的左右眼图像。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中提供的三维图像的显示和交互操作方法及装置，通过获取第一图像和第二图像，所述第一图像为第一图像采集设备采集的用于检测人眼的图像，所述第二图像为第二图像采集设备采集的用于检测人眼的图像；根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离；根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像；显示所述左右眼图像；根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效；如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。采用本发明实施例提供的技术方案，通过生成用于三维显示的左右眼图像，提供了一种视频播放时图像实时3D化的显示方式，同时，通过根据人手三维坐标触发交互图像对应的功能，支持了3D图像界面非接触性的交互操作。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种三维图像的显示和交互操作方法流程图；

图2a是本发明第二实施例提供的一种三维图像的显示和交互操作方法流程图；

图2b是图2a中的一种透视投影示意图；

图3是本发明第三实施例提供的一种三维图像的显示和交互操作装置结构示意图；

图4是本发明第四实施例提供的一种三维图像的显示和交互操作装置结构示意图；

图5是本发明第五实施例提供的一种三维图像的显示和交互操作装置结构示意图；

图6是本发明第六实施例提供的一种三维图像的显示和交互操作装置结构示意图；

图7是本发明第七实施例提供的一种三维图像的显示和交互操作装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明第一实施例提供的一种三维图像的显示和交互操作方法流程图，参见图1，本发明实施例的执行主体是具有图像处理功能的3D视频播放设备，如智能3D电视、连接着3D显示器的电脑等，本发明实施例中涉及到的第一图像采集设备和第二图像采集设备可以为独立于视频播放设备的设备，与视频播放器相连，也可以是集成于视频播放器的设备，该方法包括：

101：获取第一图像和第二图像，所述第一图像为第一图像采集设备采集的用于检测人眼的图像，所述第二图像为第二图像采集设备采集的用于检测人眼的图像；

其中，第一图像采集设备和第二图像采集设备置于预设距离范围内，以便获取相同场景下不同角度的图像，预设范围由技术人员在设计过程中进行设置。当视频播放器处于开机状态时，第一图像采集设备和第二图像采集设备按照预设时间间隔进行图像采集，预设时间可以为0.1s、0.5s、1s等，对此，本发明实施例不作具体限定。

视频播放器接收由第一图像采集设备发送的图像和第二图像采集设备发送的图像，将第一图像采集设备发送的图像作为第一图像，将第二图像采集设备发送的图像作为第二图像。

102：根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离；

其中，投影矩阵是指真实世界中的物点的三维坐标与其图像平面中的像点的二维坐标的射影几何映射关系。

视频播放器获取的第一图像和第二图像是二维图像，因此，对第一图像和第二图像的人眼区域进行定位，可以获取第一图像的左眼瞳孔和第二图像的左眼瞳孔的二维坐标；利用投影矩阵、第一图像的左眼瞳孔的二维坐标和第二图像的左眼瞳孔的二维坐标，可以获取真实世界中左眼瞳孔的三维坐标。真实世界中的右眼瞳孔的三维坐标获取方式和左眼瞳孔的三维坐标获取方式相同，在此不再赘述。

计算左眼瞳孔的三维坐标和右眼瞳孔的三维坐标之间的空间距离差值作为瞳孔间距；将左眼瞳孔的三维坐标中垂直于屏幕方向的坐标作为第一距离，或者将右眼瞳孔的三维坐标在垂直于屏幕方向的坐标作为第一距离，也可以将左眼瞳孔和右眼瞳孔的三维坐标中垂直于屏幕方向的坐标的均值作为第一距离，对此，本发明实施例不作具体限定。

需要说明的是，本发明实施例中使用的坐标均为世界坐标，即采用固定的原点和坐标轴，如将视频播放器的左下角作为坐标原点，屏幕水平向右为x轴，屏幕垂直向上为y轴，垂直于屏幕的方向为z轴。

103：根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像；

其中，所述左右眼图像是3D显示设备用于显示出3D效果的源图像。

视频播放器利用3D图形接口生成左右眼图像，3D图形接口可以为OpenGL、Direct3D、Irrlicht Engine或OGRE等，优选地，视频播放器选用OpenGL（Open GraphicsLibrary，开放图形库）生成左右眼图像，OpenGL是一个在电脑、工作站、超级计算机等硬件设备上的高性能、极具冲击力的高视觉表现力图形处理的软件。

视频播放器的3D图形接口利用瞳孔间距和第一距离，对待显示3D模型和其它界面模型进行3D渲染处理，生成用于三维显示的左右眼图像。其中，3D模型可以利用3D MAX、Maya、Blender等工具制作。利用3D图像接口生成3D图像的方法为本领域技术人员所熟知，对此不再赘述。

104：显示所述左右眼图像；

视频播放器将生成的左右眼图像发送至显示器，显示器播放该左右眼图像，使得用户可以观看到3D效果的图像。

需要说明的是，视频是由一帧一帧的图像构成，因此，本发明实施例仅以视频播放器显示3D化图像为例进行说明，不再对视频播放器显示3D化视频进行说明。

105：根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效，如果所述人手对所述播放图像中交互图标的操作有效，执行步骤106，如果所述人手对所述播放图像中交互图标的操作无效，重复进行该步骤；

其中，交互图标的三维坐标为视频播放器中已存储的坐标。

用户对观看到的3D化图像界面进行功能性操作，该操作可以为点击、长按、滑动等非接触性的操作，对于选择性操作的方式本发明实施例不作具体限定。

在视频播放器获取到人手的三维坐标后，判断人手对该播放图像中的交互图标的操作是否有效，判断该人手的三维坐标是否属于交互图标的三维坐标，如果该人手的三维坐标不属于交互性图标的三维坐标，则人手对该播放图像中的交互图标的操作无效，如果该人手的三维坐标属于交互性图标的三维坐标，则人手对该播放图像中的交互图标的操作有效。

当人手对该播放图像中的交互图标的操作无效时，重复该步骤，通过重复判断，以达到对人手操作进行实时处理的目的。

需要说明的是，用户对播放图像中的交互图标的操作还可以是接触性的操作，或者通过遥控器按键进行的操作，对此，本发明实施例不作具体限定。

106：如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。

如果该人手对该播放图像中交互图标的操作有效，该视频播放器向该交互图标对应的模块发送指令信息，使得该交互图标对应的模块在接收到该指令信息后，触发与该交互图标对应的功能，比如进入或退出某个目录等。

本发明实施例中提供的三维图像的显示和交互操作方法，通过获取第一图像和第二图像，所述第一图像为第一图像采集设备采集的用于检测人眼的图像，所述第二图像为第二图像采集设备采集的用于检测人眼的图像；根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离；根据显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像；显示所述左右眼图像；根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效；如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。

采用本发明实施例提供的技术方案，通过生成用于三维显示的左右眼图像，提供了一种视频播放时图像实时3D化的显示方式，在该显示方式中，系统自适应了用户的瞳孔距离以及用户与屏幕的距离，使得显示效果更佳，同时，通过根据人手三维坐标触发交互图像对应的功能，支持了3D图像界面非接触性的交互操作。

图2a是本发明第二实施例提供的一种三维图像的显示和交互操作方法流程图，本发明实施例的执行主体是具有图像处理功能的视频播放器，本发明实施例中以第一图像和第二图像中包含人脸区域，且第三图像和第四图像中包含人手区域为例进行说明，像参见图2a，该方法包括：

201：利用第一图像采集设备和第二图像采集设备进行摄像头标定，获取投影矩阵；

其中，摄像头标定是指通过实验和计算获取摄像头成像的几何模型，即投影矩阵。一般认为物点的三维坐标(X Y Z)通过一个投影矩阵M映射成图像平面像点的二维坐标(uv)。常用的摄像头标定算法有：传统标定方法、自标定方法和基于主动视觉的标定方法。优选地，在本发明实施例中，使用传统标定方法中的Tsai两步法进行摄像头标定，如公式（1）所示。

其中，Z_c是比例因子，X、Y和Z为真实世界中的物点的三维坐标，u和v为图像平面像点的二维坐标，为投影矩阵，记为M。

利用第一图像采集设备对真实世界进行图像采集，根据真实世界多个物点的三维坐标(X Y Z)、每个物点在二维图像平面的二维坐标(u v)以及公式（1）进行计算，获取第一图像采集设备的投影矩阵M₁，以和第一图像采集设备的投影矩阵的获取方式相同的方式获取第二图像采集设备的投影矩阵M₂。

202：获取第一图像和第二图像，所述第一图像为第一图像采集设备采集的用于检测人眼的图像，所述第二图像为第二图像采集设备采集的用于检测人眼的图像；

通过第一图像采集设备实时进行图像拍摄获取第一图像的同时，通过第二图像采集设备进行图像拍摄获取第二图像。为了使视频播放器能够对人眼进行准确定位，第一图像和第二图像为同一场景下同一时刻拍摄的不同角度的图像。

203：对所述第一图像和第二图像分别进行人脸检测，确定所述第一图像的人脸区域和第二图像的人脸区域；

其中，人脸检测是指对于任一幅给定的图像，按照一定的策略进行搜索以确定是否存在人脸区域。人脸检测的方法包括模板法、基于示例学习法、基于器官特征法、神经网络法、彩色信息加形状分析法和基于haar特征的AdaBoost方法，优选地，在本发明实施例中，采用检测速度较快的基于haar特征的AdaBoost方法检测人脸，AdaBoost为本领域技术人员所熟知，在此不再赘述。

视频播放器采用AdaBoost方法，将第一图像缩放为多个大小不同的图像，然后遍历多个大小不同的图像，使用haar特征算法提取出其特征向量，将提取出的特征向量作为分类器的输入进行分类，确定第一图像的人脸区域。确定第二图像的人脸区域与确定第一图像的人脸区域的方法向相似，在此不再赘述。

需要说明的是，当第一图像和/或第二图像中不存在人脸区域时，返回执行步骤202，以实现对用户位置变换的实时监测。

204：对所述第一图像的人脸区域和所述第二图像的人脸区域分别进行人眼检测，确定所述第一图像的人眼区域和所述第二图像的人眼区域；

其中，人眼检测是指对于任一幅给定的图像，按照一定的策略进行搜索以确定是否存在人眼区域。常用的人眼检测方法有基于模板匹配的方法、基于灰度投影的方法、基于统计的方法和基于先验知识的方法。优选地，本发明实施例采用模板匹配方法中的AdaBoost方法进行检测。

人眼检测的方法和人脸检测采用的方法相同，具体执行方法参考步骤203中使用AdaBoost进行人脸检测的过程，在此不再赘述。

205：根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔坐标；

视频播放器根据第一图像的人眼区域和第二图像的人眼区域，确定图像中二维的左眼质心坐标和右眼质心坐标，根据左眼质心坐标、右眼质心坐标和投影矩阵进行计算，得到真实世界中左眼瞳孔三维坐标和右眼瞳孔三维坐标。本发明实施例仅以计算左眼瞳孔三维坐标为例进行说明。

视频播放器在获取到第一图像的人眼区域和第二图像的人眼区域后，获取第一图像的左眼质心坐标为(u_el v_el)，第二图像的左眼质心坐标为(u_er v_er)。利用(u_el v_el)、(u_erv_er)，两个摄像头的投影矩阵M₁和M₂进行计算，带入公式（1）中可以得到公式（2）和（3），

其中，Z_c1、Z_c2为比例因子，为投影矩阵M₁，为投影矩阵M₂，X_l、Y_l、Z_l为左眼的三维坐标，经过计算消去Z_c1、Z_c2，得到关于(X_lY_lZ_l)的四个线性方程，如（4）所示，

通过对（4）中的方程求解可以得出左眼的瞳孔坐标(X_l Y_l Z_l)，以同样的方式获取右眼的瞳孔坐标(X_r Y_r Z_r)，对此不再赘述。

206：根据所述瞳孔坐标进行计算，得到瞳孔间距和第一距离；

在获取到左眼的瞳孔坐标和右眼的瞳孔坐标后，根据公式（5）计算瞳孔间距，

其中，d_eye为瞳孔间距，(X_l Y_l Z_l)为左眼的瞳孔坐标，(X_r Y_r Z_r)为右眼的瞳孔坐标

在获取到左眼的瞳孔坐标和右眼的瞳孔坐标后，根据公式（6）计算瞳孔间距，

其中，d_tv为瞳孔间距，Z_l为垂直于视屏播放器屏幕的方向的左眼瞳孔坐标，Z_r为垂直于视屏播放器屏幕的方向的右眼瞳孔坐标，abs表示取绝对值。

步骤205-206是根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离的过程，所述第一距离是指用户与图像采集设备之间的距离。

207：根据所述瞳孔间距和第一距离进行计算，得到左眼投影公式和右眼投影公式

其中，X、Y和Z为空间三维坐标，d_tv为第一距离，d_eye为瞳孔间距；

为使本领域技术人员更容易理解左眼投影公式和右眼投影公式原理，图2b是图2a中的一种透视投影示意图，参见图2b，图中1和2分别为人的左眼和右眼，A和B分别为空间中的两个点，A₁和A₂分别是左眼和右眼看到的A点在xy平面的像点，B₁和B₂分别是左眼和右眼看到的B点在xy平面的像点。左眼投影公式和右眼投影公式用于计算将图中A点投影到A₁和A₂的坐标，以及将B点投影到B₁和B₂的坐标。通过左眼投影公式和右眼投影公式使得用户在观看图像时，根据投影平面上的点能够捕获到投影平面外的图像，即产生了深度距离，二维的图像变成了三维的图像。

利用相似三角形原理，根据瞳孔间距和第一距离进行计算，可以获取到左眼投影公式和右眼投影公式。

208：根据待显示的3D模型数据、左眼投影公式和右眼投影公式，生成用于三维显示的左右眼图像；

根据左眼投影公式和右眼投影公式，采用3D图形API（Application ProgramInterface，应用程序接口）生成左右眼3D图像。利用3D图形API生成3D图像为本领域技术人员所熟知，对此不再赘述。

步骤207-208是根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像的过程。

209：显示所述左右眼图像；

视频播放器显示该左右眼图像，虽然左右眼图像为二维图像，但是，该左右眼图像通过在投影平面进行投影，使得用户可以观看到三维的效果图像。

210：获取第三图像和第四图像，所述第三图像为第一图像采集设备采集的用于检测人手的图像，所述第四图像为第二图像采集设备采集的用于检测人手的图像；

通过第一图像采集设备实时进行图像拍摄获取第三图像的同时，通过第二图像采集设备进行图像拍摄获取第四图像。为了使视频播放器能够对人手进行准确定位，第三图像和第四图像为同一场景下同一时刻拍摄的不同角度的图像。

值得说明的是，第三图像与第一图像可以来源于共同的源图像，第四图像与第二图像可以来源于共同的源图像。

211：对所述第三图像和第四图像分别进行人手检测，确定所述第三图像的人手区域和所述第四图像的人手区域；

其中，人手检测是指对于任一幅给定的图像，按照一定的策略进行搜索以确定是否存在人手区域。本发明实施例采用ASM（主动形状模型）算法进行人手检测，该ASM算法是一种基于模型的特征匹配方法，它既可以灵活地改变模型的形状以适应目标形状不确定的特性，又将形状的变化控制在模型允许的范围内，保证模型改变时不会由于受各种因素影响而出现不合理的形状。

ASM算法主要有以下三个步骤：

（1）通过图像采样获得形状向量和轮廓点特征信息。建立模型时通过手工标定训练图像。选择N幅人手图像，每一幅图像手工标定n个轮廓点作为训练数据。标定点为：

S_i=(u_i1,v_i1,u_i2,v_i2,…u_in,v_in)^T,i=1,2,…N （7）

其中，(u_ijv_ij)为第i幅图像的第j个轮廓点的坐标；n为每幅图像标定的点数，N为训练图像数目，每一幅图像的S_i为一个形状向量。获取每一个标定点附近的特征信息，作为匹配的主要特征。

（2）建立模型。由于各个样本图像受到拍摄条件、分辨率的影响而存在差异，对各个样本图像的形状向量进行归一化，通过旋转、平移和缩放使得各个样本图像的坐标具有一致性。由于各个样本向量之间存在一定的相关性，且样本数量较大，造成计算量过大，通过采用PCA（主成分分析）的思想对样本空间进行正交变换，确定主成分，降低计算量。任意的人手形状向量S可以表示成一个平均形状向量与t个形状向量P_t的线性组合，如公式（8）所示，

其中，b=(b₁,b₂,…b_t)。

（3）目标检测。在ASM中一般采用基于轮廓的灰度匹配法，即在训练的样本中的每个轮廓的法线方向进行采样获取灰度特征。ASM利用轮廓的灰度特征在各个候选区域进行迭代，在每一步迭代中通过调整参数b改变当前模型的位置和形状，完成目标的检测。

按照上方法对该第三图像和该第四图像分别进行人手检测，由于在本发明实施例中采用第三图像和第四图像是包含人手区域的图像，因此，通过ASM方法可以确定该第三图像的人手区域和该第四图像的人手区域。

需要说明的是，当第三图像和/或第四图像中不存在人脸区域时，执行步骤210，以实现对用户进行人机交互操作的实时监测。

212：根据所述投影矩阵，对所述第三图像的人手区域和所述第四图像的人手区域进行计算，得到人手三维坐标；

人手三维坐标的计算与人眼三维坐标的计算方法相同，根据第三图像的人手区域和第四图像的人手区域，获取第三图像的人手质心坐标(u_hlv_hl)与第四图像的人手质心坐标(u_hrv_hr)，根据第一图像采集设备的投影矩阵M₁和第二图像采集设备的投影矩阵M₂，可以得到方程（9）和（10），

其中，X_h、Y_h和Z_h为人手的三维坐标，经过整理消去Z_c1和Z_c2，得到关于(X_h Y_h Z_h)的线性方程组（11），

通过对方程组（11）进行求解，得到人手的三维位置坐标(X_hY_hZ_h)。

213：根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效，如果所述人手对所述播放图像中交互图标的操作有效，执行步骤214，如果所述人手对所述播放图像中交互图标的操作无效，执行步骤210；

当人手对该播放图像中的交互图标的操作无效时，重复该步骤，通过重复判断，以达到对人手操作进行实时检测处理的目的。

214：如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。

如果该人手对该播放图像中交互图标的操作有效，该视频播放器响应用户操作，触发与该交互图标对应的功能。如，当用户选择的交互图标为音量调整功能时，在用户的操作有效时，触发视频播放器的音量调整功能，进行音量的调整。

本发明实施例中提供的三维图像的显示和交互操作方法，通过获取第一图像和第二图像，所述第一图像为第一图像采集设备采集的用于检测人眼的图像，所述第二图像为第二图像采集设备采集的用于检测人眼的图像；根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离；根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像；显示所述左右眼图像；根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效；如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。采用本发明实施例提供的技术方案，通过生成用于三维显示的左右眼图像，提供了一种视频播放时图像实时3D化的显示方式，同时，通过根据人手三维坐标触发交互图像对应的功能，支持了3D图像界面非接触性的交互操作。

图3是本发明第三实施例提供的一种三维图像的显示和交互操作装置结构示意图，参见图3，该装置包括：

人眼图像获取模块301，用于获取第一图像和第二图像，所述第一图像为第一图像采集设备采集的用于检测人眼的图像，所述第二图像为第二图像采集设备采集的用于检测人眼的图像；

第一计算模块302，用于根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离，一般地，图像采集设备设置在视频播放器的屏幕上方；

图像生成模块303，用于根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像；

显示模块304，用于显示所述左右眼图像；

判断模块305，用于根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效；

触发模块306，用于如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。

图4是本发明第四实施例提供的一种三维图像的显示和交互操作装置结构示意图，参见图4，所述装置还包括：

人手图像获取模块401，用于获取第三图像和第四图像，所述第三图像为第一图像采集设备采集的用于检测人手的图像，所述第四图像为第二图像采集设备采集的用于检测人手的图像；

第二计算模块402，用于根据投影矩阵、对所述第三图像的人手区域和所述第四图像的人手区域进行计算，得到人手三维坐标。

图5是本发明第五实施例提供的一种三维图像的显示和交互操作装置结构示意图，参见图5，所述装置还包括：

人手检测模块501，用于对所述第三图像和第四图像分别进行人手检测，确定所述第三图像的人手区域和所述第四图像的人手区域。

图6是本发明第六实施例提供的一种三维图像的显示和交互操作装置结构示意图，参见图6，所述装置还包括：

摄像头标定模块601，用于利用第一图像采集设备和第二图像采集设备进行摄像头标定，获取投影矩阵。

图7是本发明第七实施例提供的一种三维图像的显示和交互操作装置结构示意图，参见图7，所述装置还包括：

人脸检测模块701，用于对所述第一图像和第二图像分别进行人脸检测，确定所述第一图像的人脸区域和第二图像的人脸区域；

人眼检测模块702，用于对所述第一图像的人脸区域和所述第二图像的人脸区域分别进行人眼检测，确定所述第一图像的人眼区域和所述第二图像的人眼区域。

所述第一计算模块302包括：

所述图像生成模块303包括：

本发明实施例中提供的三维图像的显示和交互操作装置，通过获取第一图像和第二图像，所述第一图像为第一图像采集设备采集的用于检测人眼的图像，所述第二图像为第二图像采集设备采集的用于检测人眼的图像；根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离；根据待显示的3D模型数据、所述瞳孔间距和第一距离，生成用于三维显示的左右眼图像；显示所述左右眼图像；根据播放图像中交互图标的三维坐标和人手三维坐标，判断所述人手对所述播放图像中交互图标的操作是否有效；如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能。采用本发明实施例提供的技术方案，通过生成用于三维显示的左右眼图像，提供了一种视频播放时图像实时3D化的显示方式，同时，通过根据人手三维坐标触发交互图像对应的功能，支持了3D图像界面非接触性的交互操作。

需要说明的是：上述实施例提供的三维图像的显示和交互操作装置在三维图像的显示和交互操作时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的三维图像的显示和交互操作装置与三维图像的显示和交互操作方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种三维图像的显示和交互操作方法，其特征在于，所述方法包括：

根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离，所述第一距离具体为左眼瞳孔的三维坐标中垂直于屏幕方向的坐标，或者右眼瞳孔的三维坐标在垂直于屏幕方向的坐标，或者左眼瞳孔和右眼瞳孔的三维坐标中垂直于屏幕方向的坐标的均值；

显示所述左右眼图像；

如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能；

其中，所述投影矩阵根据确定，Z_c是比例因子，X、Y和Z为真实世界中的物点的三维坐标，u和v为图像平面像点的二维坐标，为投影矩阵，记为M；

2.根据权利要求1所述的方法，其特征在于，显示所述左右眼图像之后，包括：

根据所述投影矩阵，对所述第三图像的人手区域和所述第四图像的人手区域进行计算，得到人手三维坐标。

3.根据权利要求2所述的方法，其特征在于，根据投影矩阵、对所述第三图像的人手区域和所述第四图像的人手区域进行计算，得到人手三维坐标之前，包括：

4.根据权利要求1所述的方法，其特征在于，获取第一图像和第二图像之前，包括：

5.根据权利要求1所述的方法，其特征在于，根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离之前，包括：

6.根据权利要求1所述的方法，其特征在于，根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，包括：

根据所述瞳孔坐标进行计算，得到瞳孔间距和第一距离。

7.一种三维图像的显示和交互操作装置，其特征在于，所述装置包括：

第一计算模块，用于根据投影矩阵，对所述第一图像的人眼区域和所述第二图像的人眼区域进行计算，得到瞳孔间距和第一距离，所述第一距离是指用户与图像采集设备之间的距离，所述第一距离具体为左眼瞳孔的三维坐标中垂直于屏幕方向的坐标，或者右眼瞳孔的三维坐标在垂直于屏幕方向的坐标，或者左眼瞳孔和右眼瞳孔的三维坐标中垂直于屏幕方向的坐标的均值；

显示模块，用于显示所述左右眼图像；

触发模块，用于如果所述人手对所述播放图像中交互图标的操作有效，触发与所述交互图标对应的功能；

所述图像生成模块包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

12.根据权利要求7所述的装置，其特征在于，所述第一计算模块包括：