CN109683719B

CN109683719B - 一种基于YOLOv3的视觉投影交互方法

Info

Publication number: CN109683719B
Application number: CN201910090253.5A
Authority: CN
Inventors: 谢巍; 张伟东; 刘亚文; 李鸿斌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2021-10-22
Anticipated expiration: 2039-01-30
Also published as: CN109683719A

Abstract

本发明公开了一种基于YOLOv3的视觉投影交互方法，系统硬件包括PC、摄像头、近红外激光、近红外滤光片和投影仪，本发明的交互场景是弓箭射击虚拟交互场景，核心目标是获取弓箭的离弦速度和弓箭的击中位置，包括步骤，首先系统利用近红外激光构建一个近红外光面，当弓箭触及该光面时将产生高亮光斑，之后通过二值化、膨胀、腐蚀等图像处理算法来实现对射击位置的检测；其次，利用YOLOv3神经网络算法实现对双手位置的检测，进而确定双手距离；最后通过双手距离与弓箭离弦速度的线性关系获得弓箭的离弦速度。本发明使用YOLOv3神经网络模型进行双手位置的检测，相对于传统的手势追踪，本发明在准确度和速度方面拥有明显的优势。

Description

一种基于YOLOv3的视觉投影交互方法

技术领域

本发明涉及计算机视觉和图像识别领域，具体涉及一种基于YOLOv3的视觉投影交互方法。

背景技术

由于计算机硬件和软件的快速发展，基于视觉投影的虚拟交互系统能够营造一种使用户具有真实感官体验的交互模式。该系统利用投影仪，在特定的区域中投影一组计算机影像信息，该信息表达了此刻计算机的输出。当用户进入影像区域并与系统进行互动时，系统使用所设计的算法检测和识别用户的有效动作，作出与该动作模式相对应的反应，并在投射的影像信息中向用户反馈，从而形成由投影系统、视觉系统及图像识别算法组成的一整套视觉投影交互系统。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供了一种基于YOLOv3的视觉投影交互方法。

为实现以上目的，本发明采取如下技术方案：

一种基于YOLOv3的视觉投影交互方法，采用视觉投影交互系统，所述的包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑，所述近红外激光沿投影面安装，上下各两个，用以形成近红外激面；所述普通摄像头与电脑相连，用于捕捉用户做出双手动作时刻的画面；所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连，用于捕捉用户双手动作的作用物触及近红外激光面时的画面，所述投影仪安装于相对所述投影面的支架上，用以向投影面投影交互画面，包括步骤：

S1、收集预定数量的拉弓时刻的画面训练集，并对所述拉弓时刻的画面训练集进行标注；

S2、使用迁移学习的方式对预训练的YOLOv3模型进行训练，最终得到一个基于YOLOv3的双手检测模型；

S3、打开近红外激光，构建近红外激光面，投影仪将交互界面投向激光面；

S4、利用安装有滤光片的摄像头采集箭击中时刻的画面；

S5、将所述箭击中时刻的画面转换为灰度图像，根据灰度阈值对画面进行二值化转换；

S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理，获取位置信息；

S7、摄像头采集拉弓时刻的画面；

S8、载入训练好的双手检测模型，将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测，获得位置信息。

进一步地，所述拉弓时刻的画面训练集采用的训练数据格式为voc格式，使用labelImg软件进行标注，标记数据格式为xml格式。

进一步地，标记后的所述拉弓时刻的画面训练集还采用图像旋转、亮度改变和增加的数据增强方法增加数据集。

进一步地，所述使用迁移学习的方式对预训练的YOLOv3模型进行训练时采用的预训练模型为yolov3-voc.cfg和darknet53.conv.74。

进一步地，在转换灰度图像时，利用OPENCV库的cvCvtColor函数，在进行二值化时按如下公式进行：

其中y为灰度值，ε为阈值。

进一步地，采用腐蚀、膨胀图像处理算法对图像进行降噪处理，获取位置信息时，所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数。

进一步地，在降噪处理后，利用OPENCV库中cvFindContours函数寻找光斑位置，最终得出作用物触及点位置信息。

进一步地，所述将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测，获得位置信息的步骤中，所述双手检测模型模型预测过程包括：

feature map中的每个cell预测3个边界框，每个边界框会预测3类参数包括：坐标信息的预测，具体为中心坐标、预测框的高度bh和宽度bw，以及置信度预测和每个类别的概率预测，最终模型将结合上述信息和置信度阈值给出最终位置信息。

进一步地，所述的近红外激光为一字线型激光管；所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符。

相比现有技术，本发明的有益效果包括：

1、本发明使用YOLOv3神经网络模型进行双手位置的检测，相对于传统的手势追踪，本发明在准确度和速度方面拥有明显的优势。

2、使用近红外激光构建探测面的方式来检测弓箭击中位置。当弓箭接触到近红外激光面时，将产生高亮光斑。装有滤光片的摄像头所获取的画面中物体几乎为高亮光斑，其他的复杂投影画面背景将会被过滤掉，这样可以大大提高定位的准确性。

3、本发明由于采用数据驱动型的神经网络，其在使用过程中可以不断收集数据，不断进行训练以改善模型的性能。

附图说明

图1是本发明的实施流程图；

图2是本发明的结构示意图；

图3是YOLOv3的网络结构图；

图4是YOLOv3的训练参数图；

图5是检测双手效果图；

图中：1-投影仪；2-带近红外滤光片的摄像头；3-普通摄像头；4-近红外激光；5-投影面；6-箭；7-弓。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本发明的基于YOLOv3的视觉投影交互方法，采用视觉投影交互系统，如图2所示，包括一投影仪1、近红外激光4、带近红外滤光片的摄像头2、普通摄像头3和电脑，所述近红外激光沿投影面安装，上下各两个共四个，用以形成近红外激面；所述普通摄像头与电脑相连，用于捕捉用户做出双手动作时刻的画面；所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连，用于捕捉用户双手动作的作用物触及近红外激光面时的画面，所述投影仪安装于相对所述投影面的支架上，用以向投影面投影交互画面，所述的近红外激光为一字线型激光管；所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符，如图1所示，所述基于YOLOv3的视觉投影交互方法包括步骤：

S1、如图5所示，收集预定数量的拉弓时刻的画面训练集，并对所述拉弓时刻的画面训练集进行标注，述拉弓7时刻的画面训练集采用的训练数据格式为voc格式，使用labelImg软件进行标注，标记数据格式为xml格式，最终获得数据集3700张并且采用图像旋转、亮度改变和增加的数据增强方法增加数据集。

S2、如图3所示，使用迁移学习的方式对预训练的YOLOv3模型进行训练，最终得到一个高准确率、高性能的基于YOLOv3的双手检测模型，本实施例采用的预训练模型为yolov3-voc.cfg和darknet53.conv.74，在此模型的基础上进行训练。在训练之前，需要对模型的网络结构进行调整，包括对分类类别数量进行调整，以及卷积核数量的调整。之后设定训练参数，具体包括batch、learning_rate、decay和steps等参数，相应参数如图4所示。

S4、利用安装有滤光片的摄像头采集箭6击中时刻的画面；

S5、将所述箭击中时刻的画面转换为灰度图像，根据灰度阈值对画面进行二值化转换，具体地，在转换灰度图像时，利用OPENCV库的cvCvtColor函数，在进行二值化时按如下公式进行：

其中y为灰度值，ε为阈值。

S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理，获取位置信息；具体地，采用腐蚀、膨胀图像处理算法对图像进行降噪处理，获取位置信息时，所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数。在降噪处理后，利用OPENCV库中cvFindContours函数寻找光斑位置，最终得出作用物触及点位置信息。

S7、摄像头采集拉弓时刻的画面；

S8、载入训练好的双手检测模型，将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测，获得位置信息。具体地，所述将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测，获得位置信息的步骤中，所述双手检测模型模型预测过程包括：

feature map中的每个cell预测3个边界框，每个边界框会预测3类参数包括：坐标信息的预测，具体为中心坐标(tx,ty)、预测框的高度bh和宽度bw，以及置信度预测(confidence)和每个类别的概率预测，最终模型将结合上述信息和置信度阈值给出最终位置信息。

尽管参照特定的优选实施例示出并描述了本发明专利，但本领域技术人员应当理解，本说明书中列举的具体实施方案和实施例，只不过是为了理解本发明的技术内容，不是对本发明的限制。在不背离本发明的主旨和范围的情况下，本发明在形式上和细节上可以进行改变，凡本领域的普通技术人员根据上述描述所做的润饰、修改或等同替换，均属于本发明所保护的范围。

Claims

1.一种基于YOLOv3的视觉投影交互方法，采用视觉投影交互系统，所述的视觉投影交互系统包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑，所述近红外激光沿投影面安装，上下各两个，用以形成近红外激光面；所述普通摄像头与电脑相连，用于捕捉用户做出双手动作时刻的画面；所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连，用于捕捉用户双手动作的作用物触及近红外激光面时的画面，所述投影仪安装于相对所述投影面的支架上，用以向投影面投影交互画面，其特征在于，包括步骤：

S2、使用迁移学习的方式对采用的预训练模型为yolov3-voc.cfg和darknet53.conv.74进行训练，最终得到基于YOLOv3的双手检测模型；

S4、利用安装有滤光片的摄像头采集箭击中时刻的画面；

S5、将所述箭击中时刻的画面转换为灰度图像，根据灰度阈值对画面进行二值化转换；具体是利用OPENCV库的cvCvtColor函数，在进行二值化时按如下公式进行：

其中y为灰度值，ε为阈值；

S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理，获取作用物触及点位置信息；

S7、摄像头采集拉弓时刻的画面；

S8、载入训练好的双手检测模型，将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测，获得位置信息；所述双手检测模型检测过程包括：

feature map中的每个cell预测3个边界框，每个边界框会预测3类参数包括：坐标信息的预测以及置信度预测和每个类别的概率预测，最终模型将结合上述信息和置信度阈值给出最终位置信息；所述坐标信息具体为中心坐标、预测框的高度bh和宽度bw。

2.根据权利要求1所述的基于YOLOv3的视觉投影交互方法，其特征在于，所述拉弓时刻的画面训练集采用的训练数据格式为voc格式，使用labelImg软件进行标注，标记数据格式为xml格式。

3.根据权利要求2所述的基于YOLOv3的视觉投影交互方法，其特征在于，标记后的所述拉弓时刻的画面训练集还采用图像旋转、亮度改变和增加的数据增强方法增加数据集。

4.根据权利要求3所述的基于YOLOv3的视觉投影交互方法，其特征在于，采用腐蚀、膨胀图像处理算法对图像进行降噪处理，获取位置信息时，所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数。

5.根据权利要求4所述的基于YOLOv3的视觉投影交互方法，其特征在于，在降噪处理后，利用OPENCV库中cvFindContours函数寻找光斑位置，最终得出作用物触及点位置信息。

6.根据权利要求5所述的基于YOLOv3的视觉投影交互方法，其特征在于，所述的近红外激光为一字线型激光管；所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符。