CN109683719B - 一种基于YOLOv3的视觉投影交互方法 - Google Patents
一种基于YOLOv3的视觉投影交互方法 Download PDFInfo
- Publication number
- CN109683719B CN109683719B CN201910090253.5A CN201910090253A CN109683719B CN 109683719 B CN109683719 B CN 109683719B CN 201910090253 A CN201910090253 A CN 201910090253A CN 109683719 B CN109683719 B CN 109683719B
- Authority
- CN
- China
- Prior art keywords
- camera
- infrared laser
- picture
- moment
- hands
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
- G06F3/042—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
- G06F3/0425—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于YOLOv3的视觉投影交互方法,系统硬件包括PC、摄像头、近红外激光、近红外滤光片和投影仪,本发明的交互场景是弓箭射击虚拟交互场景,核心目标是获取弓箭的离弦速度和弓箭的击中位置,包括步骤,首先系统利用近红外激光构建一个近红外光面,当弓箭触及该光面时将产生高亮光斑,之后通过二值化、膨胀、腐蚀等图像处理算法来实现对射击位置的检测;其次,利用YOLOv3神经网络算法实现对双手位置的检测,进而确定双手距离;最后通过双手距离与弓箭离弦速度的线性关系获得弓箭的离弦速度。本发明使用YOLOv3神经网络模型进行双手位置的检测,相对于传统的手势追踪,本发明在准确度和速度方面拥有明显的优势。
Description
技术领域
本发明涉及计算机视觉和图像识别领域,具体涉及一种基于YOLOv3的视觉投影交互方法。
背景技术
由于计算机硬件和软件的快速发展,基于视觉投影的虚拟交互系统能够营造一种使用户具有真实感官体验的交互模式。该系统利用投影仪,在特定的区域中投影一组计算机影像信息,该信息表达了此刻计算机的输出。当用户进入影像区域并与系统进行互动时,系统使用所设计的算法检测和识别用户的有效动作,作出与该动作模式相对应的反应,并在投射的影像信息中向用户反馈,从而形成由投影系统、视觉系统及图像识别算法组成的一整套视觉投影交互系统。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供了一种基于YOLOv3的视觉投影交互方法。
为实现以上目的,本发明采取如下技术方案:
一种基于YOLOv3的视觉投影交互方法,采用视觉投影交互系统,所述的包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑,所述近红外激光沿投影面安装,上下各两个,用以形成近红外激面;所述普通摄像头与电脑相连,用于捕捉用户做出双手动作时刻的画面;所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连,用于捕捉用户双手动作的作用物触及近红外激光面时的画面,所述投影仪安装于相对所述投影面的支架上,用以向投影面投影交互画面,包括步骤:
S1、收集预定数量的拉弓时刻的画面训练集,并对所述拉弓时刻的画面训练集进行标注;
S2、使用迁移学习的方式对预训练的YOLOv3模型进行训练,最终得到一个基于YOLOv3的双手检测模型;
S3、打开近红外激光,构建近红外激光面,投影仪将交互界面投向激光面;
S4、利用安装有滤光片的摄像头采集箭击中时刻的画面;
S5、将所述箭击中时刻的画面转换为灰度图像,根据灰度阈值对画面进行二值化转换;
S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理,获取位置信息;
S7、摄像头采集拉弓时刻的画面;
S8、载入训练好的双手检测模型,将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测,获得位置信息。
进一步地,所述拉弓时刻的画面训练集采用的训练数据格式为voc格式,使用labelImg软件进行标注,标记数据格式为xml格式。
进一步地,标记后的所述拉弓时刻的画面训练集还采用图像旋转、亮度改变和增加的数据增强方法增加数据集。
进一步地,所述使用迁移学习的方式对预训练的YOLOv3模型进行训练时采用的预训练模型为yolov3-voc.cfg和darknet53.conv.74。
进一步地,在转换灰度图像时,利用OPENCV库的cvCvtColor函数,在进行二值化时按如下公式进行:
其中y为灰度值,ε为阈值。
进一步地,采用腐蚀、膨胀图像处理算法对图像进行降噪处理,获取位置信息时,所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数。
进一步地,在降噪处理后,利用OPENCV库中cvFindContours函数寻找光斑位置,最终得出作用物触及点位置信息。
进一步地,所述将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测,获得位置信息的步骤中,所述双手检测模型模型预测过程包括:
feature map中的每个cell预测3个边界框,每个边界框会预测3类参数包括:坐标信息的预测,具体为中心坐标、预测框的高度bh和宽度bw,以及置信度预测和每个类别的概率预测,最终模型将结合上述信息和置信度阈值给出最终位置信息。
进一步地,所述的近红外激光为一字线型激光管;所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符。
相比现有技术,本发明的有益效果包括:
1、本发明使用YOLOv3神经网络模型进行双手位置的检测,相对于传统的手势追踪,本发明在准确度和速度方面拥有明显的优势。
2、使用近红外激光构建探测面的方式来检测弓箭击中位置。当弓箭接触到近红外激光面时,将产生高亮光斑。装有滤光片的摄像头所获取的画面中物体几乎为高亮光斑,其他的复杂投影画面背景将会被过滤掉,这样可以大大提高定位的准确性。
3、本发明由于采用数据驱动型的神经网络,其在使用过程中可以不断收集数据,不断进行训练以改善模型的性能。
附图说明
图1是本发明的实施流程图;
图2是本发明的结构示意图;
图3是YOLOv3的网络结构图;
图4是YOLOv3的训练参数图;
图5是检测双手效果图;
图中:1-投影仪;2-带近红外滤光片的摄像头;3-普通摄像头;4-近红外激光;5-投影面;6-箭;7-弓。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明的基于YOLOv3的视觉投影交互方法,采用视觉投影交互系统,如图2所示,包括一投影仪1、近红外激光4、带近红外滤光片的摄像头2、普通摄像头3和电脑,所述近红外激光沿投影面安装,上下各两个共四个,用以形成近红外激面;所述普通摄像头与电脑相连,用于捕捉用户做出双手动作时刻的画面;所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连,用于捕捉用户双手动作的作用物触及近红外激光面时的画面,所述投影仪安装于相对所述投影面的支架上,用以向投影面投影交互画面,所述的近红外激光为一字线型激光管;所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符,如图1所示,所述基于YOLOv3的视觉投影交互方法包括步骤:
S1、如图5所示,收集预定数量的拉弓时刻的画面训练集,并对所述拉弓时刻的画面训练集进行标注,述拉弓7时刻的画面训练集采用的训练数据格式为voc格式,使用labelImg软件进行标注,标记数据格式为xml格式,最终获得数据集3700张并且采用图像旋转、亮度改变和增加的数据增强方法增加数据集。
S2、如图3所示,使用迁移学习的方式对预训练的YOLOv3模型进行训练,最终得到一个高准确率、高性能的基于YOLOv3的双手检测模型,本实施例采用的预训练模型为yolov3-voc.cfg和darknet53.conv.74,在此模型的基础上进行训练。在训练之前,需要对模型的网络结构进行调整,包括对分类类别数量进行调整,以及卷积核数量的调整。之后设定训练参数,具体包括batch、learning_rate、decay和steps等参数,相应参数如图4所示。
S3、打开近红外激光,构建近红外激光面,投影仪将交互界面投向激光面;
S4、利用安装有滤光片的摄像头采集箭6击中时刻的画面;
S5、将所述箭击中时刻的画面转换为灰度图像,根据灰度阈值对画面进行二值化转换,具体地,在转换灰度图像时,利用OPENCV库的cvCvtColor函数,在进行二值化时按如下公式进行:
其中y为灰度值,ε为阈值。
S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理,获取位置信息;具体地,采用腐蚀、膨胀图像处理算法对图像进行降噪处理,获取位置信息时,所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数。在降噪处理后,利用OPENCV库中cvFindContours函数寻找光斑位置,最终得出作用物触及点位置信息。
S7、摄像头采集拉弓时刻的画面;
S8、载入训练好的双手检测模型,将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测,获得位置信息。具体地,所述将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测,获得位置信息的步骤中,所述双手检测模型模型预测过程包括:
feature map中的每个cell预测3个边界框,每个边界框会预测3类参数包括:坐标信息的预测,具体为中心坐标(tx,ty)、预测框的高度bh和宽度bw,以及置信度预测(confidence)和每个类别的概率预测,最终模型将结合上述信息和置信度阈值给出最终位置信息。
尽管参照特定的优选实施例示出并描述了本发明专利,但本领域技术人员应当理解,本说明书中列举的具体实施方案和实施例,只不过是为了理解本发明的技术内容,不是对本发明的限制。在不背离本发明的主旨和范围的情况下,本发明在形式上和细节上可以进行改变,凡本领域的普通技术人员根据上述描述所做的润饰、修改或等同替换,均属于本发明所保护的范围。
Claims (6)
1.一种基于YOLOv3的视觉投影交互方法,采用视觉投影交互系统,所述的视觉投影交互系统包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑,所述近红外激光沿投影面安装,上下各两个,用以形成近红外激光面;所述普通摄像头与电脑相连,用于捕捉用户做出双手动作时刻的画面;所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连,用于捕捉用户双手动作的作用物触及近红外激光面时的画面,所述投影仪安装于相对所述投影面的支架上,用以向投影面投影交互画面,其特征在于,包括步骤:
S1、收集预定数量的拉弓时刻的画面训练集,并对所述拉弓时刻的画面训练集进行标注;
S2、使用迁移学习的方式对采用的预训练模型为yolov3-voc.cfg和darknet53.conv.74进行训练,最终得到基于YOLOv3的双手检测模型;
S3、打开近红外激光,构建近红外激光面,投影仪将交互界面投向激光面;
S4、利用安装有滤光片的摄像头采集箭击中时刻的画面;
S5、将所述箭击中时刻的画面转换为灰度图像,根据灰度阈值对画面进行二值化转换;具体是利用OPENCV库的cvCvtColor函数,在进行二值化时按如下公式进行:
其中y为灰度值,ε为阈值;
S6、采用腐蚀、膨胀图像处理算法对灰度图像进行降噪处理,获取作用物触及点位置信息;
S7、摄像头采集拉弓时刻的画面;
S8、载入训练好的双手检测模型,将摄像头采集的拉弓时刻的画面传给双手检测模型进行检测,获得位置信息;所述双手检测模型检测过程包括:
feature map中的每个cell预测3个边界框,每个边界框会预测3类参数包括:坐标信息的预测以及置信度预测和每个类别的概率预测,最终模型将结合上述信息和置信度阈值给出最终位置信息;所述坐标信息具体为中心坐标、预测框的高度bh和宽度bw。
2.根据权利要求1所述的基于YOLOv3的视觉投影交互方法,其特征在于,所述拉弓时刻的画面训练集采用的训练数据格式为voc格式,使用labelImg软件进行标注,标记数据格式为xml格式。
3.根据权利要求2所述的基于YOLOv3的视觉投影交互方法,其特征在于,标记后的所述拉弓时刻的画面训练集还采用图像旋转、亮度改变和增加的数据增强方法增加数据集。
4.根据权利要求3所述的基于YOLOv3的视觉投影交互方法,其特征在于,采用腐蚀、膨胀图像处理算法对图像进行降噪处理,获取位置信息时,所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数。
5.根据权利要求4所述的基于YOLOv3的视觉投影交互方法,其特征在于,在降噪处理后,利用OPENCV库中cvFindContours函数寻找光斑位置,最终得出作用物触及点位置信息。
6.根据权利要求5所述的基于YOLOv3的视觉投影交互方法,其特征在于,所述的近红外激光为一字线型激光管;所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910090253.5A CN109683719B (zh) | 2019-01-30 | 2019-01-30 | 一种基于YOLOv3的视觉投影交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910090253.5A CN109683719B (zh) | 2019-01-30 | 2019-01-30 | 一种基于YOLOv3的视觉投影交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109683719A CN109683719A (zh) | 2019-04-26 |
CN109683719B true CN109683719B (zh) | 2021-10-22 |
Family
ID=66195194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910090253.5A Active CN109683719B (zh) | 2019-01-30 | 2019-01-30 | 一种基于YOLOv3的视觉投影交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109683719B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991417A (zh) * | 2017-04-25 | 2017-07-28 | 华南理工大学 | 一种基于模式识别的视觉投影交互系统及交互方法 |
CN108388341A (zh) * | 2018-02-11 | 2018-08-10 | 苏州笛卡测试技术有限公司 | 一种基于红外摄像机-可见光投影仪的人机交互系统及装置 |
CN108398049A (zh) * | 2018-04-28 | 2018-08-14 | 上海亿湾特训练设备科技有限公司 | 一种联网互战式投影对抗射击训练系统 |
CN108614995A (zh) * | 2018-03-27 | 2018-10-02 | 深圳市智能机器人研究院 | 用于yolo网络的手势数据集采集方法、手势识别方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101344816B (zh) * | 2008-08-15 | 2010-08-11 | 华南理工大学 | 基于视线跟踪和手势识别的人机交互方法及装置 |
CN103677274B (zh) * | 2013-12-24 | 2016-08-24 | 广东威创视讯科技股份有限公司 | 一种基于主动视觉的互动投影方法及系统 |
US9922245B2 (en) * | 2014-08-15 | 2018-03-20 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for recognizing an object |
CN107481267A (zh) * | 2017-08-14 | 2017-12-15 | 华南理工大学 | 一种基于双目视觉的摄像投影交互系统及方法 |
-
2019
- 2019-01-30 CN CN201910090253.5A patent/CN109683719B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991417A (zh) * | 2017-04-25 | 2017-07-28 | 华南理工大学 | 一种基于模式识别的视觉投影交互系统及交互方法 |
CN108388341A (zh) * | 2018-02-11 | 2018-08-10 | 苏州笛卡测试技术有限公司 | 一种基于红外摄像机-可见光投影仪的人机交互系统及装置 |
CN108614995A (zh) * | 2018-03-27 | 2018-10-02 | 深圳市智能机器人研究院 | 用于yolo网络的手势数据集采集方法、手势识别方法和装置 |
CN108398049A (zh) * | 2018-04-28 | 2018-08-14 | 上海亿湾特训练设备科技有限公司 | 一种联网互战式投影对抗射击训练系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109683719A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9449432B2 (en) | System and method for identifying faces in unconstrained media | |
US10248854B2 (en) | Hand motion identification method and apparatus | |
US8805018B2 (en) | Method of detecting facial attributes | |
CN108171133B (zh) | 一种基于特征协方差矩阵的动态手势识别方法 | |
CN110796018B (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
Lu et al. | Face detection and recognition algorithm in digital image based on computer vision sensor | |
Kumar et al. | Recent trends in multicue based visual tracking: A review | |
JP2014229303A (ja) | シーン内の物体を検出する方法 | |
WO2010042068A1 (en) | Method and system for object detection and tracking | |
CN109343701A (zh) | 一种基于动态手势识别的智能人机交互方法 | |
Cao et al. | Learning spatial-temporal representation for smoke vehicle detection | |
KR20120089948A (ko) | Mhi의 형태 정보를 이용한 실시간 동작 인식시스템 및 실시간 동작 인식 방법 | |
CN116703919A (zh) | 一种基于最优传输距离损失模型的表面杂质检测方法 | |
Kyrkou | C 3 Net: end-to-end deep learning for efficient real-time visual active camera control | |
Wang et al. | A deep learning-based experiment on forest wildfire detection in machine vision course | |
CN109683719B (zh) | 一种基于YOLOv3的视觉投影交互方法 | |
Rubin Bose et al. | In-situ identification and recognition of multi-hand gestures using optimized deep residual network | |
Sabaghi et al. | Deep learning meets liveness detection: recent advancements and challenges | |
Chai et al. | 3D gesture recognition method based on faster R-CNN network | |
CN113361475A (zh) | 一种基于多阶段特征融合信息复用的多光谱行人检测方法 | |
Yang et al. | Heterogeneous face detection based on multi‐task cascaded convolutional neural network | |
Wang et al. | Smoking behavior detection algorithm based on YOLOv8-MNC | |
Xu et al. | The construction of portrait identification tracking system based on mask R-CNN | |
Sagayama et al. | Virtual robotic arm control with hand gesture recognition and deep learning strategies | |
CN104731323B (zh) | 一种基于hog特征的多旋转方向svm模型的手势跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |