CN102842122A

CN102842122A - 基于小波神经网络的增强现实图像方法

Info

Publication number: CN102842122A
Application number: CN2012102283078A
Authority: CN
Inventors: 石大明; 唐降龙; 郑丽颖; 程丹松; 赵旭东
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2012-06-21
Filing date: 2012-06-21
Publication date: 2012-12-26

Abstract

本发明提供一种基于小波神经网络的增强现实图像引导方法。步骤包括：分别利用Radon变换及高斯型拉普拉斯滤波确定两幅图像之间的旋转与尺度关系，在对源图像进行平移、旋转及尺度变换之后，同时对源图像及目标图像提取小波特征并计算匹配度；虚拟场景是利用手术前拍摄的CT切片图像重建出内部组织的三维结构，现实场景是内窥镜图像，将现实场景与虚拟场景进行图像配准，然后将融合后的图像显示在增强现实头盔系统上，从而形成一个有透视能力的虚拟内窥镜。本发明是一种时-频分析法，通过提取图像的小波特征来实现配准。小波神经网结合了小波变换的时-频特性以及神经网络的学习优化机制，能更快速准确地实现图像配准。

Description

基于小波神经网络的增强现实图像方法

(一)技术领域

本发明涉及图像处理技术，具体说就是一种基于小波神经网络的增强现实图像方法。

(二)背景技术

虚拟内窥镜(Virtual Endoscope)，又可称作计算内窥镜(Computed Endoscope)，就是利用计算机处理三维图像数据，达到或接近普通医用内窥镜的视觉效果。虚拟内窥镜不仅可以用于实际观察或仿真预演，还可以在很多场合直接代替真实的内窥镜。虚拟内窥镜的研究在过去十年得到迅猛发展，主要是因为图像融合及虚拟现实技术已逐渐成熟。由于虚拟场景是由CT/MRI图像构建，而实际的内窥镜要与之配准就涉及到多体图像融合问题，即将同一对象的不同介质图像协同地混合在一起来揭示更清晰的信息。虽然现在有许多不同介质如超声波、X光、CT、MRI、PET、SPET等都可以获取医学图像，但是如何定量地测量各种图像之间的相互关系以及如何进行优势互补则需要数据融合来解决。比如MRI和CT图像可以高清晰地显示结构信息，PET和SPET则以低分辨率方式提供功能信息。MRI/CT图像与PET/SPET图像融合后就可综合这两方面的信息而更好地定量分析。又比如，MRI图像与CT图像融合可以同时展现高密质的骨骼结构以及疏密质软纤维信息。

最简单直接的图像融合方法是采取线性变换，如强度-色调饱和变换。Sharma采用主元分析(PCA)获得两幅图像的变化参数后，将目标图像加权叠加到源图像。这类方法的效果不理想，这是因为两幅图像的特征不一定是同时出现的，所以在融合后的图像上会以降低对比度的方式或机械叠加的方式呈现。研究表明，人类的视觉系统对不同尺度大小的边缘特别敏感，两幅图像的尺寸和分辨率必须相同才能被正确地配准与融合，而上述的线性变换方法没有考虑到这一特点。

目前最成功的图像融合方法是时-频分析法。这种方法实际是将图像分解成高通系数与低通系数的表示，在高频和低频部分融合后，经过逆变换生成最终结果。最常用的时-频分析法是小波变换，它在每一级将图像分解成低-低、低-高、高-低、高-高四个空间频率带。低-低带包含了平均的图像信息，高频带则包含了方向或边缘信息。

(三)发明内容

本发明的目的在于提供一种基于小波神经网络的增强现实图像方法。

本发明的目的是这样实现的：步骤如下：

步骤一：基于小波神经网络的图像配准

分别利用Radon变换及高斯型拉普拉斯滤波确定两幅图像之间的旋转与尺度关系，在对源图像进行平移、旋转及尺度变换之后，同时对源图像及目标图像提取小波特征并计算匹配度；

步骤二：基于虚拟内窥镜的增强现实图像系统集成

虚拟场景是利用拍摄的CT切片图像重建出内部组织的三维结构，现实场景是内窥镜图像，将现实场景与虚拟场景进行图像配准，然后将融合后的图像显示在增强现实头盔系统上，从而形成一个有透视能力的虚拟内窥镜；

步骤三：数据集测试与动物实验

将已集成的系统应用于人工合成的手写字符集以及公开的基准数据库，经过数据分析和改进算法后，将这种增强现实内窥镜图像系统用于动物实验。

本发明是一种时-频分析法，通过提取图像的小波特征来实现配准。小波神经网结合了小波变换的时-频特性以及神经网络的学习优化机制，能更快速准确地实现图像配准。本课题旨在利用增强现实的技术构建一个具有透视能力的虚拟内窥镜，使得使用者能看到被覆盖在表层以下的组织。而实现这一系统的关键技术是虚拟场景与现实场景的图像配准。即系统的准确性与实时性都取决于虚拟场景与现实场景进行图像配准的精度与速度。所以，本发明的研究集中在基于并行Radon变换的图像平移、旋转及尺度关系，并利用小波神经网的函数近似与自适应学习能力来匹配两幅图像。该项方法的研究还可以用于管道机器人视觉导航，这将是下一代智能机器人的标准配备，市场前景极为广阔。此外本项研究还可以扩展开发出全自主运作、具有精确定位和目标识别功能的机器人，它不仅可用于工业生产和日常的生活，还可以用于侦察敌情及抗震救灾。

(四)具体实施方式

下面举例对本发明作进一步说明。

实施例1：本发明一种基于小波神经网络的增强现实图像方法，步骤如下：

步骤一：基于小波神经网络的图像配准

步骤二：基于虚拟内窥镜的增强现实图像系统集成

步骤三：数据集测试与动物实验

实施例2：本发明一种基于小波神经网络的增强现实图像方法，步骤如下：

(1)基于小波神经网进行图像配准

采用计算每幅图像的绝对尺度参数来获得相对缩放比例；通过分析Radon空间获得图像之间的相对旋转角度；最后通过小波神经网找到两幅图像的最佳匹配值。

在多尺度图像分析法中，尺度-空间表示法描述的是某一特定点周围的局部图像结构。通过对图像中若干个点进行尺度归一的高斯型拉普拉斯算子运算(Laplacian of Gaussian，LoG)，进而经过表决确定整幅图像的尺度。

利用快速的并行Radon变换方法，合并多个不同系数的傅立叶变换获得多个频谱集。这种方法不仅不需要传统的补零处理，还可以并行运算，在速度和精度上都有显著提高。给定两幅图像，分别生成频谱图，运用投影定理将直角坐标系映射至极坐标，再对各角度的投影作一维傅立叶逆变换从而形成Radon空间上的正弦图，然后分析两幅图像之间的旋转关系。

图像跟踪的第一步是找到视频序列中各帧间的对应。在本方法中，我们关注基于固有三维像素特征的配准方法，该方法直接作用于图像灰度值，无需对图像进行人工预处理。

习惯上，上述对应即指计算从两幅图像中抽取特征的变化。基于亮度的方法易受光照变化干扰。此时，在内窥镜成像中普遍采用适用于光照变化的纹理信息。为降低亮度变化的干扰，我们在关注亮度变化的同时，拟采用特征区域的空间信息来进行相似性估计。

利用小波的尺度特性和神经网络的高效学习机制，小波网络一诞生即成为强健的工具用于许多领域。如在小波网络理论中一样，Gabor奇函数被写成平移、旋转和扩张的编码。在本方法中，考虑连续函数空间上的紧致性，我们采用常见的Gabor奇函数和偶函数。

首先，我们引入Gabor分析作为信号处理和通信的工具。Gabor将扩展信号f视为如下序列：f(x)＝∑c_mnexp{i2πmbx}g(x-na)。其中g(x-na)是高斯函数。在采用Gabor函数作为网络的母函数之前，我们先关注帧特性。给定参数

和函数

中形如{e^i2πb(mx+ny)g(x-ka，y-la)}_{k，l，m，n∈Z}的一帧称为Gabor帧。当ab≤1时，Gabor帧退化为

中的一帧。当且仅当ab＝1时，Gabor帧为ReiZs基。(我们仅将两个一维Gabor相乘以获得二维Gabor帧)。

我们将用Gabor滤波技术中的函数定义Gabor帧，如式(1)所示：

{h_{nmkl}} = {\{\begin{matrix} \cos (2 πmbx) \cos (2 πnby) \\ \cos (2 πmbx) \sin (2 πnby) \\ \sin (2 πmbx) \cos (2 πnby) \\ \sin (2 πmbx) \sin (2 πnby) \end{matrix}\} g (x - ka, y - la)}_{n, m, k, l &Element; Z} - - - (1)

一旦获得Gabor似然函数帧，小波神经网络即可建立。我们将采用下述结构作为近似函数：

ξ (x, y) = \underset{i}{Σ} w_{i} h_{i} (x, y) + \overset{&OverBar;}{g} &equiv; \underset{n, m, k, l}{Σ} w_{nmkl} h_{nmkl} + \overset{&OverBar;}{g} - - - (2)

更进一步地，我们需要定义用于网络的Gabor函数采样并作如下参数选择。为获得Gabor滤波技术的频率，我们采用

其中，L为图像宽度，α＝L/2。因此，函数集的频率为

{\sqrt{2}, 2 \sqrt{2}, 3 \sqrt{2}, . . .} - - - (3)

我们得到了式(2)的采样，并将其合一以近似对式(2)的和。其中h_i(x，y)是小波函数。w_i为权值，

为附加参数，N为网络中的函数个数。

Gabor小波神经网络的构造实际上是一个寻优过程：第一，如何选择最小数目的小波，这不仅会降低计算开销，而且会降低大量参数计算带来的潜在错误。第二，如何表示原图像与目标图像的最佳匹配度。

小波神经网的优化标准是最小化最终预测误差(Final PredictionError，FPE)，其定义如下：

FPE (ξ) = \frac{1 + n_{p} / N_{t}}{1 - n_{p} / N_{t}} \frac{1}{{2 N}_{t}} Σ_{n = 1}^{N_{t}} {[ξ (x, y) - I_{0} (x, y)]}^{2} - - - (4)

其中，n_p为回归量的个数，I₀(x，y)为训练点(x，y)的期望输出，N_t＝M²为训练数据的长度(窗口尺寸M×M)。

最后，我们需要训练网络。训练任务规划如下。在感兴趣区域(窗口尺寸M×M)中，存在一个采样点{(x，y)，I₀(x，y)}用于网络训练。我们需要给出可用于精确亮度函数近似的权值，如式(2)所示。为此，我们最小化与权值相关的目标函数，当最小化完成时，得到如下近似：I₀(x，y)≈ξ(x，y)。

小波神经网的构造如图2所示。采用选中窗口的像素坐标作为输入，Gabor函数作为隐含层的神经元，我们获得式(3)的和，它就是原图像的最近似输出。然后计算目标图像与此近似输出的最小均方误差

Σ_{k = - \frac{M}{2}}^{\frac{M}{2}} Σ_{l = - \frac{M}{2}}^{\frac{M}{2}} {[I (x + l, y + k) - ξ (x + l, y + k)]}^{2} - - - (5)

其中，(x，y)为目标图像I(x，y)窗口的中心。

(2)基于虚拟内窥镜的增强现实图像系统集成。

AREIGS系统包括四个主要部分：①跟踪、检测、成像(TDI)单元，②头盔式立体显示仪，③图形工作站，和④用于研究室实验的内窥镜系统。其中TDI单元用于三维追踪、三维表面检测和立体成像；显示单元可在不引起外科医生感觉不适的情况下提供逼真的视觉影像。工作站用于现实变形的预测，图形生成，实时视频采集和实时混合视频输出。最后把TDI单元安装在推车上一个被动手臂上，并连接系统其他部分；这样可以方便使用者在手术室的移动TDI，并进行定位。

(3)AREIGS系统的实验

我们采取循序渐进的方法实验测试系统性能，即先利用人工合成的数据，再利用公开的数据测试配准，最后做动物实验。人工合成数据：我们将对已有的大规模手写汉字字符集进行随机参数的平移、旋转及尺度缩放。由于字符图像数据样本集中的各线段端点位置已知，特别适合图像配准问题的性能测试。实验中，我们采用HITPU数据库，它由哈尔滨工业大学与香港理工大学联合采集，共收集收集了3755个汉字类别的200个不同人书写的手写字符。

实施例3：采取以下三大步骤来完成该项目，即基于小波神经网络的图像配准、增强现实内窥镜图像引导系统的集成、数据集测试及动物实验。系统集成后的实验与前两个步骤又是一个双向交互的过程。一方面，通过已实现的图像配准算法与虚拟内窥镜系统得到实验结果；另一方面，通过对实验数据的分析去改进算法及系统。

第一步：基于小波神经网络的图像配准。图像配准的最关键技术就是如何确定两幅图像之间的平移、旋转及尺度关系。在本课题中，我们分别利用Radon变换及高斯型拉普拉斯滤波确定两幅图像之间的旋转与尺度关系。在对源图像进行平移、旋转及尺度变换之后，同时对源图像及目标图像提取小波特征并计算匹配度。

第二步：基于虚拟内窥镜的增强现实图像引导系统集成。在本方案中，虚拟场景是利用拍摄的CT切片图像重建出内部组织的三维结构，现实场景是内窥镜图像。将现实场景与虚拟场景进行图像配准，然后将融合后的图像显示在增强现实头盔系统上，从而形成一个有透视能力的虚拟内窥镜。

第三步：数据集测试与动物实验。将已集成的系统应用于人工合成的手写字符集以及公开的基准数据库。经过数据分析和改进算法后，将这种增强现实内窥镜图像引导系统用于动物实验。

Claims

1.一种基于小波神经网络的增强现实图像方法，其特征在于：步骤如下：

步骤一：基于小波神经网络的图像配准

步骤二：基于虚拟内窥镜的增强现实图像系统集成

步骤三：数据集测试与动物实验

将已集成的系统应用于人工合成的手写字符集以及公开的基准数据库，经过数据分析和改进算法后，将这种增强现实内窥镜图像引导系统用于动物实验。