CN112330753B

CN112330753B - 一种增强现实系统的目标检测方法

Info

Publication number: CN112330753B
Application number: CN202011278389.8A
Authority: CN
Inventors: 翁冬冬; 胡明伟; 陈锋
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2023-05-09
Anticipated expiration: 2040-11-16
Also published as: CN112330753A

Abstract

本发明公开了一种增强现实系统的目标检测方法，利用AR眼镜和目标检测神经网络相结合的方式，使用户可以通过光学透射式AR眼镜直观的观察现实环境，而不需要如手机一般，将显示器中的图像和现实环境对比后才能在现实环境中操作，降低了用户使用的复杂度。同时，利用标定方法简化了AR显示与现实世界之间的融合难度，一定程度上降低了计算复杂度，减少了延时，从而带给用户更好的实时AR体验。

Description

一种增强现实系统的目标检测方法

技术领域

本发明属于AR增强现实技术领域，具体涉及一种增强现实系统的目标检测方法。

背景技术

目前有研究提出将目标检测网络用于视频透射式的AR检测方式。他们利用手机这类手持的移动设备对环境进行拍摄，并使用简化的SSD目标检测网络对手机所拍摄到的图像进行目标检测。接着，他们直接在手机屏幕上对目标物体进行框选，从而完成目标检测。直接使用手机之类的设备对环境进行拍摄，并将检测框直接显示在手机上的方式并不能带给用户一个直观的AR体验。用户在使用过程中需要先观察手机屏幕，从手机屏幕上确认目标物体的位置再与现实环境对照，然后才能在现实中去寻找目标。这样的方式增加了用户使用的困难。同时，这种方式的检测时间过长，平均检测时间在1.5s。

还有研究将AR技术和用电信息采集系统结合在一起。他们利用摄像头对电箱的环境进行拍摄，然后图像上传到云端进行检测。同时，他们在检测过程中通过对位置的变换拍摄多幅图像一同上传，并利用SLAM技术对环境进行重建。最后，将检测的结果发送到AR眼镜上，并结合SLAM三维重建的结果在AR眼镜上显示出来。该方式利用单目相机对环境进行多张图片的拍摄，将所有的图片上传到云端，从而利用SLAM技术对环境进行三维重建，以及利用目标检测和识别技术对物体进行判断。这种方式会使用大量的计算力，同时造成极大的延时，难以满足日常生活中人们的实时要求。

发明内容

有鉴于此，本发明的目的是提供一种增强现实系统的目标检测方法，可以快速的从复杂的现实环境中找到用户需要的物体，并显示。

一种增强现实系统的目标检测方法，包括如下步骤：

步骤1、建立数据集，具体为：

在绿幕背景下拍摄多组目标物体的绿幕图像；

将绿幕图像转化到HSV空间，抠除绿幕背景，得到目标物体的主体图像；

将目标物体的主体图像与背景图像进行合成，从而得到数据集；

步骤2、利用步骤1建立的数据库集目标检测网络进行训练；

步骤3、利用AR头盔上集成的RGB摄像头捕获现实环境中的实时图像，送入步骤2训练好的目标检测网络进行目标检测，并将检测结果以检测框的形式显示在AR头盔上。

进一步的，还包括对AR头盔和RGB摄像头的标定，具体为：

将AR头盔显示部分与人眼作为整体，在unity环境中设置为虚拟相机；

将虚拟相机和RGB摄像头都设置成为定焦模式且分辨率设置为720P；

在真实环境中制作标定板并在标定板的中心制作标志点；

在unity环境中设置标定瞄准器，设置瞄准器的尺寸形状与真实空间中的标志点一致；

人眼透过AR头盔观察标志点，并利用鼠标移动瞄准器使瞄准器与标志点完全重合：当瞄准器与标志点完全重合的时候，记录下此时标志点中心在RGB相机图像的像素坐标以及瞄准器在Unity中的三维坐标；

改变标定板的位置，重复以上操作，直到记录下12组坐标点；

使用PnP算法对12组坐标点求解，从而得到RGB相机与AR显示器的相对位姿关系，完成标定。

较佳的，所述步骤3中，提取所述检测结果中检测框的左上角坐标和右下角坐标，送入unity3D中进行检测框绘制并传输到AR头盔显示器进行显示。

较佳的，所述步骤3中，采用TCP通讯方式将左上角坐标和右下角坐标，送入unity3D。

较佳的，所述目标检测网络为YOLOv3。

较佳的，所述步骤1中，采用包括平移、缩放、透视变换的方式对目标物体的主体图像进行数量扩增。

较佳的，所述步骤1中，所述多组目标物体的绿幕图像为多角度图像。

较佳的，所述步骤3中检测框为：

取目标物体的主体图像中目标物体部分，最小横坐标和最大纵坐标作为检测框的左上角顶点坐标，并且取目标物体的主体图像中目标物体部分的最大横坐标和最小纵坐标作为检测框的右下角顶点坐标，由此得到了检测框的大小。

本发明具有如下有益效果：

本发明利用AR眼镜和目标检测神经网络相结合的方式，使用户可以通过光学透射式AR眼镜直观的观察现实环境，而不需要如手机一般，将显示器中的图像和现实环境对比后才能在现实环境中操作，降低了用户使用的复杂度。同时，利用标定方法简化了AR显示与现实世界之间的融合难度，一定程度上降低了计算复杂度，减少了延时，从而带给用户更好的实时AR体验。

附图说明

图1为本发明的方法流程图；

图2为本发明自建数据集流程图；

图3为增强现实系统显示效果图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种可用于日常生活中的增强现实系统的目标检测方法，该系统可以快速、高效的从复杂的现实环境中寻找出用户需要的物体，为用户的日常生活提供便利，帮助用户提高工作效率。本系统直接利用AR头盔上集成的RGB摄像头捕获现实环境中的实时图像信息，在本地进行目标检测，并将检测结果以检测框的形式直观的显示在AR头盔上。用户可以利用该系统可以快速、准确、直观地从复杂的环境中找到他们所需要的物体，从而提升了用户的工作生活。

为了解决以上问题，本系统直接利用NED+GlassX2系列头盔上集成的RGB摄像头捕获现实环境中的复杂的实时图像信息，并且使用SPAAM的标定方式，将AR头盔与RGB摄像头进行标定。同时，本系统通过自建的数据集对YOLOv3目标检测网络进行训练。然后，本系统将实时图像信息传递给自主训练好的YOLOv3实时目标检测网络进行目标检测。本系统对YOLOv3算法进行了一定的优化处理，将YOLOv3网络的所生成的方形检测框的左上角顶点坐标和右下角顶点坐标直接通过TCP通讯的方式发送到Unity3D中。由于OpenCV的图像坐标系与Unity3D的图像坐标系不同，本系统在Unity3D中对接收到的检测框的顶点坐标进行了坐标系变换。接着，本系统在Unity3D中利用OpenGLSDK对检测框进行了实时的绘制并实时的传输到AR头盔显示器上进行实时显示。用户可以利用该系统可以快速、准确、直观地从复杂的环境中找到他们所需要的物体，从而提升了用户的工作生活的效率。

本发明整体可分为硬件、软件、目标检测算法和系统标定。系统构成如图1。

硬件：

本系统主要由NED⁺GlassX2系列头盔和一台PC机组成。NED⁺GlassX2系列头盔属于光学透射式的AR头盔，其优势在于透过该头盔可以直接观察到现实场景而不是通过视频流，从而带给用户更真实的AR体验。NED⁺GlassX2系列头盔集成了一个720P的RGB摄像头(原装未标定)。另外，本系统的PC机为系统提供了一个IntelCorei7-4790KCPU和一个NVIDIARTX2080GPU的计算能力。

软件：

本系统利用NED⁺GlassSDK将PC机的显示画面分屏投影到AR头盔上。Unity3D软件为本系统的AR显示部分提供了场景支持。基于计算机图像学的OpenGLSDK为AR显示界面中的图像绘制提供支持。基于计算机视觉的OpenCVSDK为目标检测网络的基础图像处理过程提供支持。Tensorflow深度学习框架为目标检测网络的运行提供了平台。

目标检测算法：

本系统在对目标检测网络的选择上主要考虑两点：首先，本系统是一个用于实时目标检测的增强现实系统，因此，必须要保证系统的实时性。为了达到上述目标，本系统在对目标检测网络的选择上必须要求目标检测网络的运行延时必须尽可能的小。其次，为了使本系统可以适用于更多的硬件平台，本系统需要降低系统运行对计算能力的要求。因此，在目标检测网络的选择上，本发明应该在保证检测效果的基础上尽可能的选择网络结构简单的目标检测网络。综合以上两点因素，本系统最终选择YOLOv3目标检测网络作为本系统的基础网络架构。

本系统只需要从YOLOv3网络的输出中获取目标框的左上角顶点坐标和右下角顶点坐标，因此，本系统对YOLOv3网络的输出进行了简化处理，只通过TCP通讯的方式在本地传输目标框的顶点坐标，而将目标框的绘制工作放入unity3D中，从而进一步降低了网络的延时，提高了系统效率。

本系统针对个性化物体自主搭建了数据集，并使用自主搭建的数据集对YOLOv3网络进行重新训练，从而能更好的对现实环境中的个性化物体进行实时目标检测。

快速自建数据集方式：

在本系统中，我们提出了一种快速自建数据集的方法。

通常情况下，我们在使用神经网络为自己的系统服务时，为了令神经网络能在我们的个性化环境下有一个更好的表现，我们会对现有的数据集进行个性化的补充，然后使用补充后的数据集对前人的所搭建的神经网络进行再次训练，从而提高神经网络的整体稳定性。因此，如何快速高效的制作出符合我们要求的数据集是至关重要的问题。一般用于目标检测网路训练的数据集通常是利用标注软件进行人工手动标注而生成的。这样的标注方式是非常耗时的。针对这个问题，本系统提出了一套快速制作个性化数据集的方法。图2展示了该方法的整体思想。

首先，本发明在绿幕背景下拍摄多组目标检测物体的视频。视频中尽可能多的涵盖目标物体各个角度的画面。图2展示了本系统以飞机模型为目标物所拍摄的绿幕环境下的真实图像，其中包含了飞机模型的三种姿态。

其次，将绿幕图像转化到HSV空间，抠除绿幕背景，得到目标物体的主体图像；

第三步，本发明将目标物体的主体图像与其对应的绿幕图像进行相同随机的尺寸变换、旋转变换以及像素坐标平移变换。

第四步，本发明以变换后的掩膜图像为基础，取掩模图像中目标物体部分(黑色部分)在像素坐标系下的最小横坐标和最大纵坐标作为检测框的左上角顶点坐标，并且取掩模图像中目标物体部分在像素坐标系下的最大横坐标和最小纵坐标作为检测框的右下角顶点坐标。至此，得到了对应图像的中的目标物检测框的大小。

最后，本发明将随机变换后的目标物图像与丰富的背景图像进行合成，从而得到了新的数据集。

系统标定方法：

为了使AR显示系统能准确的检测并跟踪目标物体，本系统结合了SPAAM的方法对本系统中的光学透射式AR头盔和RGB摄像头进行了标定。本发明将AR头盔显示部分与人眼作为整体，在unity环境中设置为虚拟相机。接着，本发明将虚拟相机和RGB相机都设置成为定焦模式且分辨率设置为720P。下一步，本发明在真实环境中制作标定板并在标定板的中心制作“x”型标志点。同时，本系统在unity环境中设置标定瞄准器，设置瞄准器的尺寸形状与真实空间中的标志点一致。然后，人眼透过AR头盔观察标志点，并利用鼠标移动瞄准器使瞄准器与标志点完全重合。当瞄准器与标志点完全重合的时候，本发明记录下此时标志点中心在RGB相机图像的像素坐标以及瞄准器在Unity3D中的三维坐标。接着，本发明改变标定板的位置，重复以上操作，直到记录下12组坐标点。最后，本发明使用PnP算法对12组坐标点求解，从而得到RGB相机与AR显示器的相对位姿关系，完成标定。在本系统中，由于相机和显示器的光轴偏差不大，我们默认它们是重合的。标定后的相机和AR头盔显示器可以准确的利用检测框将目标物体进行框选。

除了进行文本输入以外，用户还可以通过键盘进行简单的指令控制。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种增强现实系统的目标检测方法，其特征在于，包括如下步骤：

步骤1、建立数据集，具体为：

在绿幕背景下拍摄多组目标物体的绿幕图像；

步骤2、利用步骤1建立的数据库集目标检测网络进行训练；

步骤3、利用AR头盔上集成的RGB摄像头捕获现实环境中的实时图像，送入步骤2训练好的目标检测网络进行目标检测，并将检测结果以检测框的形式显示在AR头盔上；

对AR头盔和RGB摄像头的标定，具体为：

在真实环境中制作标定板并在标定板的中心制作标志点；

使用PnP算法对12组坐标点求解，从而得到RGB相机与AR显示器的相对位姿关系，完成标定；

所述步骤3中，提取所述检测结果中检测框的左上角坐标和右下角坐标，送入unity3D中进行检测框绘制并传输到AR头盔显示器进行显示。

2.如权利要求1所述的一种增强现实系统的目标检测方法，其特征在于，所述步骤3中，采用TCP通讯方式将左上角坐标和右下角坐标，送入unity3D。

3.如权利要求1所述的一种增强现实系统的目标检测方法，其特征在于，所述目标检测网络为YOLOv3。

4.如权利要求1所述的一种增强现实系统的目标检测方法，其特征在于，所述步骤1中，采用包括平移、缩放、透视变换的方式对目标物体的主体图像进行数量扩增。

5.如权利要求1所述的一种增强现实系统的目标检测方法，其特征在于，所述步骤1中，所述多组目标物体的绿幕图像为多角度图像。

6.如权利要求1所述的一种增强现实系统的目标检测方法，其特征在于，所述步骤3中检测框为：