CN103955499B

CN103955499B - 一种基于即时计算与动态追踪的视觉体验增强方法

Info

Publication number: CN103955499B
Application number: CN201410163045.0A
Authority: CN
Inventors: 王皓悦; 夏天晗; 张恿; 李鲲; 杨明
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-04-22
Filing date: 2014-04-22
Publication date: 2018-02-02
Anticipated expiration: 2034-04-22
Also published as: CN103955499A

Abstract

本发明公开了一种基于即时计算与动态追踪的视觉体验增强方法，根据图像边缘提取、轮廓匹配、模式匹配、SIFI特征检测与比较来进行图像的多场景适应性匹配，识别图像，反馈图片对应的动态信息，在移动端播放，同时根据图像主体判断与识别来锁定图像，跟踪主体的位置，通过动态信息播放，动态信息元件移动修正，使动态信息正确的覆盖图像，达到动态信息替换静态信息的目的，实现动态的视觉体验。该方法以动态信息“替换”静态信息，使动态信息“融入现实”从而实现视觉体验增强的效果，搭配各种移动终端载体，可广泛应用于平面媒体，博物馆，教育，旨在大幅度提升静态图片所携带的信息量，丰富图像表现形式，增强动态的视觉体验。

Description

一种基于即时计算与动态追踪的视觉体验增强方法

技术领域

本发明涉及图片处理领域，涉及视觉体验领域，涉及现实增强领域。

背景技术

随着计算机和信息技术的不断发展，计算机的应用形式与应用范围发生着巨大变革。伴随着计算机的功能拓展，移动终端的硬件升级，以及现实增强的概念与技术的普及，我们可以预见在不久的将来，视觉体验增强将是一个热门的研究方向。而近年来便携式移动终端硬件的升级，使其能够承载很大的计算量，非常适合作为视觉体验增强的实现载体。这让平面媒体上的静态图像动起来称为可能。

当今社会的普遍资料获取方式还是纸质资料，虽然电子资料的普遍化与网络化带来了信息的大量共享，却依旧存在着携带不便、分享不便、查看繁琐等问题。而对于大量的文字、图片类资料，很多时候我们并不能够获取完整的信息。通过图像处理技术实现动态的视觉体验增强，就可以很好的解决这个问题。

发明内容

本发明的技术解决问题是：通过多场景适应性匹技术和普适性主体锁定跟踪技术，在移动终端上，使动态信息替换静态信息，达到“融入现实”的目的，从而实现视觉体验增强的效果。

本发明技术解决方案：一种基于即时计算与动态追踪的视觉体验增强方法，其特征在于使用多场景适应性匹配方法，和普适性图像主体的跟踪方法，通过在移动设备摄像头视野内将静态信息替换为动态信息，实现动态信息融入现实的目的，从而达到视觉体验增强的效果。

(一)通过多场景适应性匹配和普适性主体锁定跟踪实现移动设备上视觉体验增强效果。

移动设备上视觉体验增强效果的实现是基于这样一个思路：通过移动设备的摄像头将当前实景展示在设备屏幕上，同时软件后台将当前的摄像头帧数据上传至服务器，服务器通过多场景适应性匹配来检索数据库，得到当前帧数据匹配的动态信息(一般为图片匹配的视频)并回传至客户端，客户端收到动态信息后，锁定当前摄像头范围内的静态图片进行跟踪播放动态信息，简单可以描述为它通过对图像的识别，反馈图片对应的动态信息，在移动端播放，同时锁定图像，跟踪主体的位置，使动态信息正确的覆盖图像，达到动态信息替换静态信息的目的，实现动态的视觉体验。

(二)图像的多场景适应性匹配

在数据库中我们将图片与其对应的动态信息绑定，以图片来索引动态信息进行检索，通过图像识别，搜到图片对应的动态信息。但是由于我们目前能接触到的图像检索技术仍旧非常的粗浅，不论是Google还是百度等公司的常见图像搜索都是用的较为简单的算法，只能实现很相似的图之间的匹配。但我们所需要的算法是能够实现多场景适应性匹配。所以我们基于OpenCV库编写了符合我们需求的，可以实现多场景适应性匹配，效率可以接受的的图像模糊匹配算法。多场景的适应性匹配算法主要步骤为：图像边缘提取——轮廓匹配——模式匹配——SIFT特征检测与比较。具体的实现方法与细节如下(可参考图1)：

1)图像边缘提取

由于我们的目的是实现模糊匹配，所以有必要过滤掉图片中不相关的细节，因此我们需要提取图像边缘，消除光线对物体颜色的影响，以及大背景对模糊匹配的影响。

这一步的实现主要使用了Canny算子，通过对图像去噪声，亮度梯度检测，边缘跟踪，来实现边缘的提取。

我们先获取无附加响应的最优检测，目的是减少噪声响应。再检测边缘位置和实际边缘之间距离最小的正确定位，目的是确定边缘检测的正确性。最后减少单边缘的多重响应而得到单响应，目的是限制单个边缘点对于亮度变化的定位。通过这个流程来实现边缘的提取。

2)轮廓匹配

轮廓匹配是最基础的匹配，由于其效率很高，因此可以用来筛选掉完全不相关的图片，大幅度减小搜索范围，提高整体的算法效率。

主要实现方法是比较不同轮廓的HU不变矩，我们首先计算每个图像的HU不变矩，之后通过检查不同轮廓的HU不变矩的差异来比较相似性。

比较公式是I(A，B)＝重要的比较公式是

其中，A，B分别指代两个待比较图像，

其中，是A和B的HU矩，sign是求符号函数；

其中，A，B分别指代两个待比较图像，通过逐一的比对，得到HU不变矩差距在一定阈值范围内的图像，为进一步的确定搜索范围。

3)模式匹配

模式匹配是核心，用来检索最终的匹配图片。主要是以要搜索的图片为模板，在轮廓匹配确定的范围内，对模板进行匹配，获取最相似的结果。

这一步主要使用了离散傅里叶变换，傅里叶乘法。核心是通过利用卷积和乘法之间的对偶性，借助傅里叶变换来实现。

重要的公式是R(x，y)＝∑_x′，y′[(x′，y′)-(x+x′，y+y′)]²，其中，R(x，y)是像素点(x，y)的匹配度，(x'，y')是待匹配图像的像素坐标。

其中，x，y分别是模板和搜索图像的像素点。

模式匹配对噪声的和遮挡有很好的不敏感性，可以很好的处理较高噪声情况下的匹配问题，这一点正是实现模糊匹配的核心。只有恰当的噪声容量才能正确的符合模糊匹配的需求。

同时，对模板的搜索进行优化，针对待搜索图像的大小进行缩放，使待搜索图像与待匹配图像大小相等，大大提高了模式匹配的效率，使模糊匹配的过程更加迅速，降低服务器端计算资源的占用，也提供了更好的响应速度。

4)SIFT特征

SIFT特征是尺度不变特征转换，在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量。此算法由David Lowe在1999年所发表，2004年完善总结。SIFT特征的信息量大，适合在海量数据库中快速准确匹配。

该方法可以减少由遮挡、杂乱和噪声所引起的低提取概率。

首先，把高斯算子的差值应用于图像以确定一些可能的兴趣特征，目的是保证特征选取不依赖于特征大小(尺度)或特征朝向。其次，对这些特征进行分析，在利用局部梯度方向确定特征朝向之前确定特征的位置和尺度。最后，把这些特征转换成一种表达，这种表达可以处理光照变化和局部形状畸变。从本质上而言，是利用了局部信息来优化标准算子所得到的信息。

首先对图像的SIFT特征进行检测并存储，需要的时候取SIFT特征进行比较，对匹配结果做最后的确定。但这一步不是必须的，根据之前的搜索结果匹配度情况和服务器端效率可以动态确定是否进行SIFT特征检测和比较。

(三)普适性的主体锁定跟踪

由于我们的目的是实现“视觉体验”的增强，所以“体验”是重点。单纯的播放图片相关动态信息不能很好的达到增强体验的效果。因此我们需要在移动终端加入主体跟踪功能。

这一步的主要是识别出当前摄像头下的主体并锁定，跟踪主体的移动(由移动终端位置小幅度变化导致的图像内主体的移动)，获取主体的尺寸。之后修正动态信息的位置和尺寸，使动态信息完整地覆盖主体，并可以跟着主体的移动而移动，从而实现“图片动起来的”动态视觉体验。主体跟踪算法基本步骤为：图像主体判断与识别——动态信息播放——动态信息移动修正。具体实现方法如下(可参考图2)：

1)图像主体判断与识别

为了实现物体的锁定与跟踪，必须要识别出物体。目前实现的内容识别主要是人脸识别，一般物体的识别资料很少。于是我们考虑根据我们的实际需求设计合适的算法来解决这个问题。

根据软件的实际应用场景，使用的时候用户一定是将目标物体放在主体位置，这样一来我们可以依靠识别主体来达到识别目标物体的目的。而主体的一个最大特征就是在图像中占的面积最大。因此我们主要根据这个特点实现主体识别。

首先获取摄像头每一帧的数据，对帧数据进行边缘提取(提取方法同图像的多场景适应性匹配中的边缘提取)，再对提取结果做Laplace变换过滤掉杂碎的轮廓，之后计算每个轮廓围成的面积。面积最大部分的即为所要找的主体。

由于我们只需要找出主体位置，而别的细节我们完全不关注，因此我们需要对得到的边缘进行过滤。Laplace变换是一个实现二阶微分的模板，由此求出一个水平二阶模板，再与垂直二阶微分结合起来，就得到了全模板。这样的计算是各向同性的。但对噪声响应较强，所以只用来过滤Canny的结果。另一方面，由于二阶微分算子的运算效率比一阶算子低很多，因此将一阶算子的输出作为二阶算子的输入，这样可以很大程度的优化运算效率。

得到过滤的结果后再对边缘进行分析链接得到完整的轮廓，之后再分别计算轮廓面积，对面积最大的轮廓求外接矩形，这个矩形就是主体位置和大小的描述。

2)动态信息播放

获取了每一帧的主体位置和大小以后，实时更新动态信息播放的位置，以及动态信息的覆盖面积，让动态信息完全的替代原本的静态信息，让动态信息融入现实，达到动态播放的效果，实现“图片动起来”的目的，即我们提到的动态视觉体验增强。

具体实现上，由于我们的DEMO是基于Android平台开发的，因此我们使用Android的双缓冲SurfaceView来进行预览和播放。叠加使用两个SurfaceView，即四个缓冲面，达到一边预览摄像头场景，一边用动态信息替换静态信息的目的，实现最真实的视觉体验。

3)动态信息元件移动修正

由于使用时手持移动终端难免会有抖动，而抖动会引起主体识别结果的小幅度改变，这种小幅度的改变不应用来使动态信息移动。因此需要修正每次的识别结果，避免动态信息的不必要的移动。

由于识别主体算法并不能保证一定准确，难免会有某一帧识别错误的情况，而识别错误必将导致识别结果的大幅度变化。因此需要检测识别结果的变化幅度，进而进行修正，避免识别失误带来的大幅度偏差。

移动修正主要靠阈值来控制，对于一定阈值范围内的移动才会响应，而对阈值范围以外的移动进行削弱或忽视，从而避免错误的移动对视觉效果的破坏。

本发明与现有技术相比的优点在于：

(1)本发明可以在移动设备上实现较好的“视觉增强”效果。静态图片的动态视觉体验增强可以提供给人一种更为新颖、便捷的获取信息的方式，可以大幅度提升静态图片所携带的信息量，同时它拥有良好的使用体验，可以使人们获取的信息的同时享受信息带来的视觉效果。动态的视觉体验增强可以广泛应用于许多领域，具有非常良好的扩展性。

(2)本发明可以利用移动设备的便携，易用等优势，配合服务器的计算能力，通过移动设备与服务器的交互来达到视觉增强的目的。只要有一部移动终端，就能随时随地体验视觉增强的效果，并且能够通过用户的使用不断对素材库进行自我扩充。素材库放置在服务器端，并通过移动终端与服务器端的交互实现身份验证与数据的传输。服务器端配置了Axis2+Tomcat+Mysql，使用WebService来验证信息、筛选信息，实现数据交互。调用服务器本地的算法来进行多场景适应性匹配，减少对移动终端计算资源的消耗。

(3)本发明所使用的图像多场景适应性匹配技术相对于当前类似技术的优点是可以较好的实现模糊匹配，而不只是精确匹配。同时，在模糊度方面，我们针对实际需求做了计算，可以较好的在模糊度与精确度之间取得平衡，在实现模糊匹配的同时不失匹配度准确度。

(4)本发明所使用的多场景适应性匹配技术对模板的搜索进行了优化，大大提高了模式匹配的效率，使模糊匹配的过程更加迅速，降低服务器端计算资源的占用，也提供了更好的响应速度。

(5)本发明所使用的图像主体跟踪技术与现有的追踪算法通过非常复杂的迭代，递归，滤波等方法实现跟踪相比，最大可能的简化了算法，优化算法效率，保证在移动终端有限的运算能力下流程运行，同时又能准确跟踪。

(6)本发明的两个核心算法均是针对项目的总体需求，在满足需求的前提下进行了较大程度的优化，拥有很好的针对性，提供更好的使用体验。

附图说明

图1为本发明中图像多场景适应性匹配的算法流程示意图；

图2为本发明中普适性图像主体锁定跟踪算法流程示意图；

图3为本发明具体使用流程示意图。

具体实施方式

如图3所示，本发明的具体使用流程包括三个方面：

(一)数据库的构建：

1)用户使用移动设备拍摄一段视频；

2)用户使用移动设备拍摄一张与1)中视频相关的照片；

3)客户端(或移动设备)在后台将视频和照片打包发送到服务器；

4)服务器收到视频和照片包后，将视频和照片建立映射；

5)服务器将映射信息写入数据库中。

(二)用户使用“视觉体验增强”：

1)用户打开客户端，将摄像头对准想要进行视觉体验增强的图片(如报刊插图，书籍等)；

2)客户端后台将摄像头的帧数据上传至服务器；

3)服务器通过多场景适应性匹配技术检索数据库，得到图片匹配的动态信息；

4)服务器将动态信息返回给客户端；

5)客户端收到动态信息后，通过普适性图像主体跟踪技术识别当前摄像头场景中的图像主体，将动态信息覆盖在主体上，锁定主体，进行跟踪播放，例如，如果将手机对准一张报纸上的插图，通过上述过程，客户端屏幕上的插图区域显示的不是插图，而是与插图相关的视频，并且无论如何移动设备，视频都会完整覆盖在插图上，从而实现在视觉上插图动了起来的效果。

6)无论移动设备晃动，拉远或拉近，动态信息总可以保持对图像主体的完整、正确的覆盖，在用户看来主体已被替换为动态信息，从而实现视觉体验增强的效果。

(三)用户成就系统

1)用户上传视频和图片；

2)服务器端确认用户上传的视频和图片的有效性；

3)若有效，则给予相应用户一定的奖励成就；

4)通过用户成就系统激励用户的上传，从而更大程度上的丰富数据库。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于即时计算与动态追踪的视觉体验增强方法，其特征在于：使用多场景适应性匹配方法，和普适性图像主体的跟踪方法，通过在移动设备摄像头视野内将静态信息替换为动态信息，实现动态信息融入现实的目的，从而达到视觉体验增强的效果；

所述多场景适应性匹配方法包括如下步骤：

步骤2.1)使用Canny算子，通过对图像去噪声，亮度梯度检测，边缘跟踪，来实现边缘的提取；

步骤2.2)计算每个图像的HU不变矩，然后检查不同轮廓的HU不变矩的差异来比较相似性，实现轮廓匹配，比较公式是：

<mrow> <mi>I</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>7</mn> </msubsup> <mo>|</mo> <mrow> <mfrac> <mn>1</mn> <msubsup> <mi>m</mi> <mi>i</mi> <mi>A</mi> </msubsup> </mfrac> <mo>-</mo> <mfrac> <mn>1</mn> <msubsup> <mi>m</mi> <mi>i</mi> <mi>B</mi> </msubsup> </mfrac> </mrow> <mo>|</mo> <mo>,</mo> </mrow>

其中，A，B分别指代两个待比较图像，

其中，是A和B的HU矩，sign是求符号函数；

步骤2.3)使用离散傅里叶变换，傅里叶乘法，利用卷积和乘法之间的对偶性，借助傅里叶变换来实现模式匹配，公式是：

R(x，y)＝∑_x′，y′[(x′，y′)-(x+x′，y+y′)]²，其中，R(x，y)是像素点(x，y)的匹配度，(x'，y')是待匹配图像的像素坐标，(x，y)是搜索图像的像素坐标；

步骤2.4)对图像的SIFT特征进行检测并存储，需要的时候取SIFT特征进行比较，对匹配结果做最后的确定，或根据之前的搜索结果匹配度情况和服务器端效率动态确定是否进行SIFT特征检测和比较；

所述的普适性的图像主体跟踪方法包括如下步骤：

步骤3.1)获取摄像头每一帧的数据，对帧数据进行边缘提取，再对提取结果做Laplace变换过滤掉杂碎的轮廓，之后计算每个轮廓围成的面积，面积最大部分的即为所要找的主体；之后利用得到的过滤结果，对边缘进行分析链接得到完整的轮廓，再分别计算轮廓面积，对面积最大的轮廓求外接矩形，这个矩形就是主体位置和大小的描述；

步骤3.2)利用步骤3.1)中获取的每一帧的主体位置和大小，实时更新动态信息播放的位置，以及动态信息的覆盖面积，让动态信息完全的替代原本的静态信息，让动态信息融入现实，达到动态播放的效果；

步骤3.3)检测主体识别结果的变化幅度，进行动态信息元件移动修正，避免手持移动设备小幅抖动所造成的动态信息的不必要移动和识别主体算法产生的异常结果所造成的大幅度偏差。

2.一种基于即时计算与动态追踪的视觉体验增强方法，其特征在于：

步骤1，构建数据库：

1)用户使用移动设备拍摄一段视频；

2)用户使用移动设备拍摄一张与1)中视频相关的照片；

3)移动设备上的客户端在后台将视频和照片打包发送到服务器；

4)服务器收到视频和照片包后，将视频和照片建立映射；

5)服务器将映射信息写入数据库中；

步骤2，用户使用“视觉体验增强”：

(1)用户打开客户端，将摄像头对准想要进行视觉体验增强的图片；

(2)客户端后台将摄像头的帧数据上传至服务器；

(3)服务器通过多场景适应性匹配技术检索数据库，得到图片匹配的动态信息；所述多场景适应性匹配技术包括图像边缘提取——轮廓匹配——模式匹配——SIFT特征检测与比较；

(4)服务器将动态信息返回给客户端；

(5)客户端收到动态信息后，通过普适性图像主体跟踪技术识别当前摄像头场景中的图像主体，将动态信息覆盖在主体上，锁定主体，进行跟踪播放；

(6)无论移动设备晃动，拉远或拉近，动态信息总可以保持对图像主体的完整、正确的覆盖，在用户看来主体已被替换为动态信息，从而实现视觉体验增强的效果；

所述的普适性的图像主体跟踪的方法包括如下步骤：

步骤3.3)检测主体识别结果的变化幅度，进行动态信息元件移动修正，避免手持移动设备小幅抖动所造成的动态信息的不必要移动和识别主体算法产生的异常结果所造成的大幅度偏差；

步骤3，用户成就系统：

(1)用户上传视频和图片；

(2)服务器端确认用户上传的视频和图片的有效性；

(3)若有效，则给予相应用户一定的奖励成就；

通过用户成就系统激励用户的上传，从而丰富数据库。