CN103729885B

CN103729885B - 多视角投影与三维注册联合的手绘场景三维建模方法

Info

Publication number: CN103729885B
Application number: CN201410026189.1A
Authority: CN
Inventors: 马华东; 刘亮; 卢大玮; 刘安尔
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2014-01-21
Filing date: 2014-01-21
Publication date: 2016-08-24
Anticipated expiration: 2034-01-21
Also published as: CN103729885A

Abstract

一种多视角投影与三维注册联合的手绘场景三维建模方法，先对三维模型库内的所有三维模型进行标准化预处理：在正多面体各顶点设置虚拟摄像机，拍摄每个三维模型各角度的投影图表示其视觉形状；提取每个模型所有投影图的视觉特征，依此建立三维模型特征库。然后，用户手绘要展现的三维场景的每个三维模型的二维手绘图及其文字标签，用摄像机拍摄其图像和针对图像区域进行处理：提取手绘图视觉特征，并将处理后的文字标签区域作为检索关键字，将手绘图的视觉特征与三维模型特征库的三维模型特征进行相似度计算，检索得到三维场景的三维模型；再用三维注册算法将相似度最大的三维模型投影到相应位置，实现手绘场景的三维建模和三维场景的展现。

Description

多视角投影与三维注册联合的手绘场景三维建模方法

技术领域

本发明涉及一种多视角投影与三维注册联合的手绘场景三维建模方法，属于三维模型检索和增强现实的技术领域。

背景技术

随着三维技术的发展，三维模型和三维场景这种更加接近真实世界的三维空间描述方式，在交通、医学及娱乐等多个领域得到了越来越广泛的应用。三维场景的展现，首先要解决的技术问题是：“如何构建三维模型”。但是，构建三维模型所需的代价往往十分巨大。而且，随着三维建模方法的发展，三维模型相关应用的增加以及互联网的快速发展，可用三维模型的数量也在飞速增长；这就使得通过现有的三维模型来展现三维场景，已经成为近年来的主要发展趋势。这样，上述问题就逐渐演变为“如何快速而准确地找到可用的三维模型”，于是，对三维模型的检索就变得尤为重要。

目前基于文本(标签，关键字)的检索方法发展比较成熟，但是，其输入带有较强的主观性，会明显地影响检索结果。而且，基于内容的检索方法是以三维模型作为输入，并通过模型之间的内在特征的相似性进行检索。因此其检索结果更加可靠，也是目前该技术领域的主要研究方向。许多国内外知名学者和科研机构都开展了相关的研究工作，并逐步取得了很多突破性地进展。

例如：在《谷歌形状：基于几何词语及表达的不变形状检索》(“Shape Google:Geometric Words and Expressions for Invariant Shape Retrieval”发表于《ACMTransactions on Graphics 2011》)文章中，作者将图像检索中的视觉词语和词袋模型引入到基于实例的三维模型检索中，有效地提高了检索效率。

在《基于超图分析的三维模型检索与识别》(“3-D Object Retrieval andRecognition with Hypergraph Analysis”发表于《IEEE Transactions on ImageProcessing 2012》)文章中，作者使用超图分析的方法进行了基于二维视图的三维模型检索的研究。

但是，这些方法也存在着难以获取检索所需的输入模型或输入视图等多项缺陷。这些现有技术的缺陷成为业内科技人员关注的焦点。

得到所需的三维模型以后，就可以利用这些三维模型进行三维场景的展现。目前比较常用也比较成熟的方法是在完全虚拟的环境中将三维模型进行拼接和融合，然后对该环境进行渲染，以模拟的方式来展现真实世界。然而，随着应用的不断发展，现有技术的展现方法不可避免地暴露出一些不容忽视的问题。例如：由于过度强调用户的沉浸感，从而造成系统对现实的隔离。这就产生了三维场景展现方法的新需求，即如何把虚拟物体融合到现实中，并实现用户与虚拟场景以及现实之间的交互。这些问题都成为业内技术人员所关注的新课题。

发明内容

有鉴于此，本发明的目的是提供一种多视角投影与三维注册联合的手绘场景三维建模方法，该方法从系统易用性和更好的用户体验的角度出发，由用户手绘所需要展现的三维场景的二维手绘图。然后以手绘图内容为输入，基于三维模型的多视角投影来检索三维场景展现所需的三维模型，实现更好的三维模型复用。最后通过三维注册算法将检索得到的三维模型与用户手绘的场景融合在一起，完成用户手绘场景的三维建模，最终得到虚拟与现实相结合的三维场景的展示，实现用户与虚拟以及现实之间的交互。

为了达到上述目的，本发明提供了一种多视角投影与三维注册联合的手绘场景三维建模方法，其特征在于，该方法包括下述两个操作步骤的实现阶段：

步骤1，预处理阶段：对三维模型库内的所有三维模型进行标准化预处理，以使系统预置的正多面体能将每个三维模型都包围在内；再在正多面体的各个顶点处设置虚拟摄像机，用于拍摄每个三维模型的各个不同角度的投影图，表示该三维模型的视觉形状信息；然后提取每个模型所有投影图的视觉特征，并依此建立三维模型特征库；该步骤1包括下列操作内容：

(11)对每个三维模型进行标准化预处理：

先将三维模型的中心移至世界坐标系、即绝对坐标系的原点；每个三维模型的中心坐标是计算该三维模型的正多面体包围盒得到的：因模型文件存储的信息是一系列的点、线、面和材质，这里只需读取所有的点，再分别找出在X、Y和Z三个坐标轴方向上的最小值和最大值，就得到该三维模型的正多面体包围盒，该包围盒的中心就是三维模型的中心；由此得到将三维模型移至世界坐标系原点的变换矩阵T'＝(T_X,T_Y,T_Z)；其中，u＝X,Y,Z；Maxcoor_u和Mincoor_u分别是三维模型在u坐标轴上的坐标最大值和最小值；

得到三维模型的包围盒后，求解其在X、Y和Z三个坐标轴方向的坐标最大值和最小值之差，就得到其长宽高，进而将三维模型缩放至单位长度；

然后，选取长宽高三个数值中的最大值，将其倒数作为缩放参数Q、即Q的计算公式为：再将三维模型的每个点的坐标乘以该缩放参数Q，就完成三维模型尺寸的归一化和标准化的预处理；

(12)预置一个正多面体将三维模型包围住，并在该正多面体的各个顶点都设置虚拟摄像机，用于拍摄该三维模型多个不同视角的投影图，并利用这些投影图表示该三维模型的视觉形状信息；

(13)获得该三维模型投影图后，采用基于图像的视觉形状特征提取算法从中选择包括角半径变换ART(Angular Radial Transform)、傅里叶、偏心率和圆形性四种特征描述符提取该三维模型的视觉形状特征，以便与用户输入的手绘图进行比较；其中，傅里叶特征描述符是基于轮廓的，其余三个特征描述符是基于区域的；

步骤2，执行处理阶段：用户手绘要展现的三维场景的每个三维模型的二维手绘图和为每个手绘图附设文字标签，还利用摄像机获取每个手绘图及其文字标签的数字图像；再针对这些数字图像中的手绘图及其对应的文字标签的区域进行处理：采用提取三维模型投影图视觉特征的相同方法提取手绘图的视觉特征，并将处理后的文字标签区域作为检索关键字，将手绘图的视觉特征与三维模型特征库中的三维模型特征进行相似度计算，检索得到三维场景所需要的三维模型；最后采用三维注册算法将相似度最大的三维模型投影到相应位置实现手绘场景的三维建模，并最终完成三维场景的展现；该步骤2包括下列操作内容：

(21)为便于提取每个二维手绘图的视觉特征，需要将所有手绘图的图形都绘制在一个规则多边形边框内，形成一个手绘场景；并在每个手绘图的下方添写一个文本、即文字标签，再利用摄像机拍摄获取手绘图及其文本的数字图像，并对该数字图像进行二值化处理和膨胀处理，以便将手绘图及其文字标签与背景分割开来，并消除噪声、连接相邻区域和填充孔洞；然后进行两次轮廓提取，得到没有外部干扰和不含孔洞的轮廓，由此提取到手绘图区域及其文字标签区域；最后将手绘图及其文字标签关联起来，并记录每个手绘图的位置；

(22)根据步骤(21)处理后的手绘图区域，利用步骤(13)的基于图像的视觉形状特征提取方法提取手绘图的视觉特征，以供用于与三维模型投影图进行比较；

(23)将步骤(21)处理后的文字标签区域作为检索关键字，并将手绘图的视觉特征与步骤(13)提取的三维模型特征库中的三维模型特征采用相似性计算的方式进行比较；

(24)藉由步骤(23)的检索得到三维场景所需的三维模型后，采用三维注册算法来实现手绘场景中的三维建模，并最终完成三维场景的展现；所述手绘场景是包含手绘图及其文字标签的规则多边形边框；该展现方法的关键是三维注册算法：先获取三维空间中物体的准确三维坐标，并由计算机根据该三维坐标生成虚拟物体，再在摄像机下将其映射到真实三维空间中，实现虚拟物体和真实环境的融合。

本发明多视角投影与三维注册联合的手绘场景三维建模方法是在基于内容的三维模型检索方法基础上，以用户手绘的二维手绘图作为输入，通过检索的方式获取三维场景展现所需的三维模型，并应用三维注册算法在用户手绘场景的的基础上加载三维模型，实现用户与虚拟场景以及现实之间的交互。下面分别从两方面介绍本发明方法的优点：

从获取三维场景展现所需的三维模型的检索方法上来说，本发明以最便捷的方式，即二维手绘图作为检索的输入，用户直接手绘图形于纸上，既不需要预先提供相似模型的实例，也不需要用鼠标在复杂的界面上艰难地绘制图形，更加符合用户的使用需求。而且，本发明的手绘图中可以包含多个检索目标，通过对该手绘图进行拍摄于处理，提取用户绘制的所有图形和相关信息，可以同时实现多个三维模型的检索。另外，本发明通过对三维模型库的预处理，得到所有三维模型的不同视角的投影图，采用基于轮廓和基于区域的特征描述符相结合的方式提取手绘图和投影图的视觉特征，并进行相似度计算，提高了三维模型检索的精度和速度。

从三维场景展现的实现方法上说，本发明通过三维注册算法直接在摄像机下用户的手绘场景上加载三维模型，实现虚拟物体与现实场景的融合，解决了虚拟与现实隔离的缺陷，并有效地提高用户的体验效果。

因此，本发明具有很好的推广应用前景。

附图说明

图1是本发明多视角投影与三维注册联合的手绘场景三维建模方法操作步骤流程图。

图2是本发明实施例中包围人体三维模型的正十二面体示意图。

图3是本发明实施例中以正十二面体包围人体三维模型的各个顶点为视角所拍摄的所有三维模型的10个正投影图示意图。

图4是本发明实施例中用户手绘场景中二维手绘图及其文字标签的实例图。

图5是本发明实施例中用户手绘场景信息处理步骤的流程图。

图6(a)、(b)、(c)和(d)是本发明实施例中用户手绘场景信息处理和提取的分步操作的各个步骤示例图。

图7是本发明实施例中对已提取的用户二维手绘图轮廓进行填充操作的示意图。

图8是本发明实施例中实现手绘场景三维建模的三维注册算法的示意图。

图9(A)、(B)分别是本发明实施例中最终实现的三维场景的两个实例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，具体介绍本发明多视角投影与三维注册联合的手绘场景三维建模方法，该方法包括下述依次执行操作步骤的两个阶段：

步骤1，预处理阶段：对三维模型库内的所有三维模型进行标准化预处理，以使系统预置的正多面体能将每个三维模型都包围在内；再在正多面体的各个顶点处设置虚拟摄像机，用于拍摄每个三维模型的各个不同角度的投影图，表示该三维模型的视觉形状信息；然后提取每个模型所有投影图的视觉特征，并依此建立三维模型特征库。该步骤1包括下列依次执行的操作内容：

(11)对每个三维模型进行标准化预处理：

先将三维模型的中心移至世界坐标系(即绝对坐标系)的原点；每个三维模型的中心坐标是计算该三维模型的正多面体包围盒得到的：因模型文件存储的信息是一系列的点、线、面和材质，这里不需要材质信息，只需读取所有的点，再分别找出在X、Y和Z三个坐标轴方向上的最小值和最大值，就得到该三维模型的正多面体包围盒，该包围盒的中心就是三维模型的中心；由此得到将三维模型移至世界坐标系原点的变换矩阵T'＝(T_X,T_Y,T_Z)；其中，u＝X,Y,Z；Maxcoor_u和Mincoor_u分别是三维模型在u坐标轴上的坐标最大值和最小值；

然后，选取长宽高三个数值中的最大值，将其倒数作为缩放参数Q、即Q的计算公式为：再将三维模型的每个点的坐标乘以该缩放参数Q，就完成三维模型尺寸的归一化和标准化的预处理。

(12)预置一个正多面体将三维模型包围住，并在该正多面体的各个顶点都设置虚拟摄像机，用于拍摄该三维模型多个不同视角的投影图，并利用这些投影图表示该三维模型的视觉形状信息。

下面参见图2，介绍本发明的一实施例来具体描述上述步骤(12)的操作内容：完成三维模型的标准化处理后，预置一个正十二面体将模型包围住，把摄像机置于均匀分布在包围模型的正十二面体的20个顶点上，就可以从20个不同视角获取三维模型的投影图，然后采用这些投影图就可以表示三维模型的视觉形状信息。

另外，要获取模型的拍摄投影图像，还要读取模型文件信息并进行忽略模型的光照、材质等非关键信息的简化处理，以加快处理速度和减少特征数量。然后，直接将处理后的模型以正交投影方式存储于帧缓存，最后读取帧缓存中的数据来生成最终的三维模型的投影图像。

所述帧缓存是显示屏幕所呈现的一个直接映象，又称为位映射图或光栅。帧缓存的每个存储单元都与屏幕上显示的图像中的一个像素相对应，因此，整个帧缓存对应一帧图像。通常，帧缓存保存的数据有：颜色缓存(至多4个)，深度缓存(1个)，模板缓存(1个)，积累缓存(1个)，多重采样缓存(1个)。其中，深度缓存存储的数据是每个像素在三维世界中距离摄像机的距离，利用深度缓存存储可判断三维空间的可见性。因为三维模型的投影图不要求保留模型表面的具体细节，因此只有直接读取帧缓存的深度缓存区中的深度数据即可。

由于正十二面体本身的几何特点，在任意相对的两个顶点处获得的正交投影图像是完全对称或一致的，因此实际上，从这20个视角只可获得10张不同的投影图像(参见3所示)。

为了能够更精准地表现三维模型的视觉形状特征，这里离线预置了10个不同的正十二面体视角的三维模型，并在每个视角的三维模型下，分别绘制有三维模型的投影图。又因为在每个正十二面体视角的三维模型系统下，可以得到10个不同的投影图像，因此每个三维模型总共可以得到10×10＝100张不同的投影图像。至此获得的这100张投影图像就代表了这个三维模型的视觉形状。

(13)获得该三维模型投影图后，就要从中提取相应的视觉特征，用于与用户输入手绘图进行比较。由于用户手绘图和三维模型的投影图都是表达事物的视觉形状，因此本发明通过提取视觉形状特征来进行两者的比较。

在二维图像空间里，形状特征包括轮廓曲线和内部区域的描述，因此图像的视觉形状特征提取算法有两类：基于轮廓和基于区域。为了增强比较效果，本发明综合使用这两类算法，选择了四个特征描述符来提取视觉特征：采用基于图像的视觉形状特征提取算法从中选择包括角半径变换ART(Angular RadialTransform)、傅里叶、偏心率和圆形性四种特征描述符提取该三维模型的视觉形状特征，用于与用户输入的手绘图进行比较；其中，傅里叶特征描述符是基于轮廓的，其余三个特征描述符是基于区域的。

在步骤(13)中，为保证缩放后的投影图不改变三维模型图的形状，要将投影图的大小以图形的最大直径为缩放指数进行归一化处理：通过提取三维模型投影图的视觉形状特征，能够得到每个三维模型投影图的35个ART描述参数、10个傅里叶描述参数、1个偏心率描述参数和1个圆形性描述参数；

为减少上述各个描述参数的存储空间，将每个描述参数量化为8位，即量化后的参数值G＝[g×a×255+0.5]，其中，量化后的参数值G的数值范围是(0～255)，原参数值g的数值范围是(0.0～1.0)，设置ART描述参数的缩放因子a＝1，其他描述参数的缩放因子a＝2。另外，为简化计算过程、提高计算效率和加快检索速度，还建立一个二维查找表，以供不再计算而直接从表中查询0到255之间各个描述参数数值之间的距离：Look_Up_Table[j][k]＝|j-k|，式中，j和k分别是该二维查找表的横坐标和纵坐标的数值，其取值范围都是[0,255]；采用上述方法得到的所有三维模型投影图的视觉特征，就构成三维模型特征库。

下面进一步介绍步骤(13)中用到的四种特征描述符：

ART描述符是MPEG-7标准推荐的一个基于区域的形状描述符，它使用一组角半径变换系数来描述单个连通区域或多个不连通区域，并对旋转具有鲁棒性。角半径变换是定义在极坐标内的一个单位圆内的二维复变换，是一种正交变换，对噪声具有鲁棒性。

傅里叶描述符是一种广泛应用的形状描述符，其基本思想是用物体边界的傅里叶变换来描述其形状。假设一个物体的形状轮廓是由一系列坐标为(x_s,y_s)的像素组成，其中，0≤s≤N-1，N是轮廓上的像素总数。从这些边界点的坐标可以推导出四种形状表述：分别是曲率函数、质心距离、复坐标函数和弦长函数。以往的研究成果显示，在三维模型检索中，基于质心距离的傅里叶描述的效率大于其他表述，因此这里我们将计算基于质心距离的傅里叶描述。

质心距离W(s)是物体边界点(x_s,y_s)到物体重心的距离，其计算公式为：其中，为重心坐标。形状描述符可以从这些参数中计算得到。为了保持旋转不改变形状，可以仅仅保留相关参数的大小信息。缩放不变性是通过将所有参数的大小尺寸都除以第一个非零参数的商来保证的，而平移不变性是所有基于轮廓的物体形状所固有的特点。

对于质心距离函数，我们只考虑正频率的坐标轴，因为这时函数的傅里叶变换是对称的，即有|F_-i|＝|F_i|。由质心距离导出的形状描述符f为：

其中，F_i为傅里叶变换形状描述符的第i个分量，M为该分量的最大值。为了保证数据库中所有物体的形状特征长度都相同，在实施傅里叶变换之前，需要将所有边界点的数目进行统一。

偏心率描述符是一种描述区域紧凑性的描述符，记作eccentricity。其计算公式为：其中i₀₂，i₁₁，i₂₀是轮廓区域的二阶不变矩。二阶不变矩具有平移不变性，可以用于描述图形的特征。偏心率的值处于0到1之间，圆形的偏心率为0，直线的偏心率为1。偏心率不受区域平移、旋转和尺度变换的影响。

圆形性描述符O是用图形区域的所有边界点定义视觉特征量的描述符，其计算公式为：式中，μ_R为图形区域的重心到其边界点的平均距离，σ_R为从图形区域的重心到其边界点距离的均方差。当图形区域趋向圆形时，圆形性是单增趋向无穷的，同时圆形性不受图形区域平移、旋转和尺寸变化的影响。

对于上述四种描述符的计算，都需要用到图形区域的重心信息，由于在特征匹配的过程中，每个图形区域的重心位置可能有所不同，则需要按照下述公式分别计算每个区域的重心位置其中R表示图形区域，A表示图形区域的面积，(x_R,y_R)为区域中点的坐标。

步骤2，执行处理阶段：用户手绘要展现的三维场景的每个三维模型的二维手绘图和为每个手绘图附设文字标签，还利用摄像机获取每个手绘图及其文字标签的数字图像；再针对这些数字图像中的手绘图及其对应的文字标签的区域进行处理：采用提取三维模型投影图视觉特征的相同方法提取手绘图的视觉特征，并将处理后的文字标签区域作为检索关键字，将手绘图的视觉特征与三维模型特征库中的三维模型特征进行相似度计算，检索得到三维场景所需要的三维模型；最后采用三维注册算法将相似度最大的三维模型投影到相应位置，实现手绘场景的三维建模，并最终完成三维场景的展现。

该步骤2包括下列四个操作内容：

(21)为便于提取每个二维手绘图的视觉特征，需要将所有手绘图的图形都绘制在一个规则多边形边框内，形成一个手绘场景；并在每个手绘图的下方添写一个文本、即文字标签，再利用摄像机拍摄获取手绘图及其文本的数字图像，并对该数字图像进行二值化处理和膨胀处理，以便将手绘图及其文字标签与背景分割开来，并消除噪声、连接相邻区域和填充孔洞；然后进行两次轮廓提取，得到没有外部干扰和不含孔洞的轮廓，由此提取到手绘图区域及其文字标签区域；最后将手绘图及其文字标签关联起来，并记录每个手绘图的位置。

下面参见图4～图6，根据本发明实施例具体描述该步骤(21)的操作内容：

图4绘制了三个手绘图作为检索目标，并将这三个图形都绘制在一个黑色正方形外框内。为了给支持关键字检索的三维模型检索系统提供关键字的输入途径，图中在每个图形下面添加一个文本标签。

通过数字摄像机拍摄获取的手绘图的数字图像中，包含很多与手绘图并不相关的干扰信息，因此需要对它进行处理而删除之，以便提取出所有的手绘图及其对应的文字标签，并计算每个图形相对于正方形外框的位置。下面参见图5，介绍本发明用户手绘图信息处理的具体操作步骤：

(A)首先进行二值化处理：由于正方形外框和手绘图是黑色的，背景为白色，因此选择适当阈值对图像执行二值化处理，可以初步将正方形外框和手绘图从背景中分割出来，二值化处理后的图像效果如图6(a)所示。

(B)然后进行膨胀处理：通过二值化处理后的结果可以看到，图像中还存在有较多的噪声区域，而且，由于文字标签是由多个字母组合而成，因此每个词的各个字母不在一个连通的区域内，这些都不利于后续的信息提取工作。

为了解决这个问题，这里要对该二值化的图像执行数学形态学的膨胀处理。膨胀使得区域的边缘变大，从而具有消除噪声、连接相邻区域和填充孔洞等作用。为了方便执行膨胀处理，以及对每个检测到的区域进行区分，这里要将二值图像的前景颜色和背景颜色互换，并把不同的区域用不同的颜色进行填充。经过膨胀处理后图像的效果如图6(b)所示。

(C)提取初次轮廓：经过膨胀处理后，去除了很多小噪声，文本标签也被连接成了一个连通区域，但是仍然还存在很多大的噪声区域。在所有的区域轮廓中，正方形外框所包围的面积最大，因此可以以此特征来分割各个区域。查找膨胀后的图像所包含的所有轮廓，并计算它们的包围矩形的面积、去除面积后的最大轮廓(即最外层的正方形轮廓)，以及该轮廓外部的干扰轮廓，这样就能够得到目标轮廓。提取的初次轮廓图像效果如图6(c)所示。

(D)执行二次轮廓的提取：初次轮廓提取后，得到的轮廓区域中含有孔洞，为了去掉孔洞，还要再次提取外部轮廓，作为二次提取，得到不含孔洞的轮廓。提取的二次轮廓图像效果如图6(d)所示，至此就完成了删除所有不相关轮廓的处理操作。

(E)提取手绘图区域和文字标签区域：由于手绘图轮廓和文字轮廓是成对出现的，所以手绘图轮廓的数量为此时所有轮廓总数的一半。由于手绘图轮廓的包围矩形的面积比文字轮廓的矩形大，所以所有轮廓中面积较大的一半轮廓都是手绘图轮廓，而面积较小的一半轮廓是文字标签轮廓。

得到手绘图轮廓和文字轮廓后，提取二值化图像中手绘图轮廓对应的区域图像，并将内部白色孔洞填充为黑色，然后将其保存为图片，用作三维模型的检索输入(参见图7所示)。而文字区域则送至光学字符识别OCR(OpticalCharacter Recognition)处理模块进行识别，并将识别结果作为三维模型检索的检索关键字。

(F)按照欧几里德距离d的计算公式：

d ((x_{p}, y_{p}), (x_{q}, y_{q})) = \sqrt{{(x_{p} - x_{q})}^{2} + {(y_{p} - y_{q})}^{2}},

将手绘图与其最近的文字标签进行关联；其中，(x_p,y_p)是文字标签中心坐标，(x_q,y_q)是手绘图中心坐标。并记录每个手绘图形的位置，其计算方法是：

\{\begin{matrix} α = \frac{x_{q} - x_{b}}{\frac{l e n g t h}{2}} \\ β = \frac{y_{q} - y_{b}}{\frac{l e n g t h}{2}} \end{matrix};

其中，(x_b,y_b)和length分别是正方形外框中心的坐标及其边长，此处求解得到的α和β分别是手绘图相对于正方形外框中心的偏移率。

(22)根据步骤(21)处理后的手绘图区域，利用步骤(13)的基于图像的视觉形状特征提取方法提取手绘图的视觉特征，以供用于与三维模型投影图进行比较。

(23)将步骤(21)处理后的文字标签区域作为检索关键字，并将手绘图的视觉特征与步骤(13)提取的三维模型特征库中的三维模型特征采用相似性计算的方式进行比较。

因为本发明三维模型库里的三维模型是稳定的，因此三维模型的特征提取操作过程可以离线完成，而将提取出来的特征值保存至文件就可以随时读取。手绘图是用户检索时提供的输入信息，其视觉特征必须是实时提取的。在用户完成手绘图以后，系统就要提取手绘图的视觉特征，然后与已经离线提取好的三维模型的特征进行比较。该步骤(23)包括下列操作内容：

(23a)先利用关键字搜索找到三维模型库中与手绘图对应的关键字有关联的所有三维模型，然后将手绘图与三维模型特征库中每个三维模型的每张投影图的视觉特征进行比较，并计算两者相似度；

该相似度表示为两者之间的距离，且距离越大，相似度越小，距离越小，相似度越大；而视觉特征之间的距离计算公式为：

D (I n p u t S h a p e, M o d e l S h a p e) = \underset{t}{Σ} w_{t} | C_{1 t} - C_{2 t} |,

式中，自然数t为特征参数序号，C_1t和C_2t分别是手绘图和三维模型每个投影图中第t个特征参数，w_t为每个特征参数的权重，本发明设置所有特征参数权重均为1。

(23b)选取上述各个距离值中的最小距离值作为手绘图形和三维模型的距离，即：

D (I n p u t S h a p e, 3 D M o d e l) = \underset{0 \leq r \leq 99}{M i n} D_{r} (I n p u t S h a p e, M o d e l S h a p e),

式中，自然数r为三维模型投影图的序号，D_r为手绘图与三维模型第r张投影图的距离；

(23c)计算得到手绘图与三维模型特征库里的每个三维模型的距离，并选取距离最小的K个模型作为计算结果，自然数K的数值是根据需要设置的。

下面根据本发明实施例进一步具体描述步骤(24)的操作内容：

检索得到实现三维场景所需的三维模型后，本发明采用三维注册算法来实现手绘场景中的三维建模，并最终完成三维场景的展现。实施例中的手绘场景就是包含手绘图的黑色封闭正方形。

本发明实现方法的关键是三维注册算法，参见图8，介绍一个三维注册算法的实施例：

(X_m,Y_m,Z_m)^T为标识坐标系m，定义标识中心为标识坐标系的原点，X_m、Y_m和Z_m分别是该标识坐标系m的三个坐标轴，这里标识所在平面是X_mY_m平面，Z_m轴垂直于标识向上。

(X_c,Y_c,Z_c)^T为摄像机坐标系c，其原点位于摄像机的光学镜头的中心，X_c、Y_c和Z_c分别是该摄像机坐标系c的三个坐标轴，X_cY_c平面位于焦平面，Z_c轴与光轴重合；

(X_c,Y_c)^T为理想屏幕的坐标系，即摄像机坐标系的X_cY_c平面；(X_e,Y_e)^T为实际屏幕坐标系e。三维注册算法的具体计算步骤如下：

(A)通过标识识别获取标识的4个角点在实际屏幕坐标系的坐标(x_e,y_e)，再按照下述公式：计算标识的4个角点在理想屏幕坐标系下对应点的坐标(x_c,y_c)；其中，(x₀,y₀)为光学畸变中心的位置，为比例参数，γ为畸变因子，x、y和z为中间变量；

(B)按照公式：

[\begin{matrix} h x_{c} \\ {hy}_{c} \\ h \end{matrix}] = {ST}_{c m} [\begin{matrix} X_{m} \\ Y_{m} \\ Z_{m} \\ 1 \end{matrix}]

计算变换矩阵T_cm；其中，(X_ml,Y_ml,Z_ml)和(l＝0,1,2,3)为标识坐标系下标识的黑色正方形外框的4个角点的坐标；h表示某个时刻；S为摄像机的已知内部参数。

(C)利用非线性最小二乘法的计算公式：

{err}^{2} = \frac{1}{4} Σ_{l = 0}^{3} ({(x_{c l} - x_{c l}^{^})}^{2} + {(y_{c l} - y_{c l}^{^})}^{2}) &RightArrow; \min

对T_cm进行迭代求精；其中，和是根据估算出的初始T_cm和步骤(B)中的计算公式计算得到的4个角点在理想屏幕坐标系下的坐标。

(D)基于实时计算得到的T_cm，只需要设置三维场景中各个虚拟物体在标识坐标系下的位置，就能够计算得到这些物体在摄像机坐标系下的位置，最终由摄像机把它们投影到显示屏幕上，实现虚拟物体和真实环境的融合，从而完成三维场景的展现。

本发明实施例所展现的三维场景如图9所示。

本发明已经进行了多次仿真实施试验，试验的结果是成功的，实现了发明目的。

Claims

1.一种多视角投影与三维注册联合的手绘场景三维建模方法，其特征在于，该方法包括下述两个操作步骤的实现阶段：

(11)对每个三维模型进行标准化预处理：

步骤2，执行处理阶段：用户手绘其要展现的每个三维模型的二维手绘图和为每个手绘图附设文字标签，还利用摄像机获取每个手绘图及其文字标签的数字图像；再针对这些数字图像中的手绘图及其对应的文字标签的区域进行处理：采用提取三维模型投影图视觉特征的相同方法提取手绘图的视觉特征，并将处理后的文字标签区域作为检索关键字，将手绘图的视觉特征与三维模型特征库中的三维模型特征进行相似度计算，检索得到三维场景所需要的三维模型；最后采用三维注册算法将相似度最大的三维模型投影到相应位置，实现手绘场景的三维建模，并最终完成三维场景的展现；该步骤2包括下列操作内容：

2.根据权利要求1所述的方法，其特征在于：所述步骤(13)中，为保证缩放后的投影图不改变三维模型图的形状，要将投影图的大小以图形的最大直径为缩放指数进行归一化：通过提取三维模型投影图的视觉形状特征，能够得到每个三维模型投影图的35个ART描述参数、10个傅里叶描述参数、1个偏心率描述参数和1个圆形性描述参数；

为减少上述各个描述参数的存储空间，将每个描述参数量化为8位，即量化后的参数值G＝[g×a×255+0.5]，其中，G的数值范围是(0～255)，原参数值g的数值范围是(0.0～1.0)，设置ART描述参数的缩放因子a＝1，其他描述参数的缩放因子a＝2；另外，为简化计算过程、提高计算效率和加快检索速度，还建立一个二维查找表，以供不再计算而直接从表中查询0到255之间各个描述参数数值之间的距离：Look_Up_Table[j][k]＝|j-k|，式中，j和k分别是该二维查找表的横坐标和纵坐标的数值，其取值范围是[0,255]；采用上述方法得到的所有三维模型投影图的视觉特征，就构成三维模型特征库。

3.根据权利要求1所述的方法，其特征在于，所述步骤(23)包括下列操作内容：

D (I n p u t S h a p e, M o d e l S h a p e) = \underset{t}{Σ} w_{t} | C_{1 t} - C_{2 t} |,

式中，自然数t为特征参数序号，C_1t和C_2t分别是手绘图和三维模型每个投影图中第t个特征参数，w_t为每个特征参数的权重，且设置所有特征参数权重均为1；

D (I n p u t S h a p e, 3 D M o d e l) = \underset{0 \leq r \leq 99}{M i n} D_{r} (I n p u t S h a p e, M o d e l S h a p e),