CN115761809A - 基于手势识别的投影仪操控方法、装置、设备及存储介质 - Google Patents

基于手势识别的投影仪操控方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115761809A
CN115761809A CN202211489096.3A CN202211489096A CN115761809A CN 115761809 A CN115761809 A CN 115761809A CN 202211489096 A CN202211489096 A CN 202211489096A CN 115761809 A CN115761809 A CN 115761809A
Authority
CN
China
Prior art keywords
gesture
image
alexnet model
projector
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211489096.3A
Other languages
English (en)
Inventor
王豪庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Formovie Chongqing Innovative Technology Co Ltd
Original Assignee
Formovie Chongqing Innovative Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Formovie Chongqing Innovative Technology Co Ltd filed Critical Formovie Chongqing Innovative Technology Co Ltd
Priority to CN202211489096.3A priority Critical patent/CN115761809A/zh
Publication of CN115761809A publication Critical patent/CN115761809A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明属于智能识别技术领域,公开了一种基于手势识别的投影仪操控方法、装置、设备及存储介质。该方法包括:获取目标静态手势图像;将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述目标静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息;根据所述指令信息操控投影仪执行相应操作。通过上述方式,能够在无遥控器的情况下实现对投影仪的操控。

Description

基于手势识别的投影仪操控方法、装置、设备及存储介质
技术领域
本发明涉及智能识别技术领域,尤其涉及一种基于手势识别的投影仪操控方法、装置、设备及存储介质。
背景技术
随着人们生活水平的提高,投影仪让生活充满科技感,所以得到人们的青睐,随着投影仪的不断推广,不同的投影仪面临着在不同应用场景下实现不同功能的挑战。目前投影仪基本上都是使用遥控器对其进行操控,但部分用户经常将遥控器乱放甚至出现丢失情况则无法对投影仪进行操控。
发明内容
本发明的主要目的在于提供一种基于手势识别的投影仪操控方法、装置、设备及存储介质,旨在解决现有技术中因遥控器乱放或丢失而影响用户对投影仪进行操控的技术问题。
为实现上述目的,本发明提供了一种基于手势识别的投影仪操控方法,所述方法包括以下步骤:
获取目标静态手势图像;
将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述目标静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息;
根据所述指令信息操控投影仪执行相应操作。
可选地,所述将所述静态手势图像输入至预设改进AlexNetp模型之前,还包括:
获取多个不同的静态手势图像,并基于所述多个不同的静态手势图像确定训练集和测试集;
在AlexNet模型的基础上进行模型优化,得到改进AlexNet模型;
将所述训练集输入至改进AlexNet模型中进行训练得到训练结果,以及将所述测试集输入至改进AlexNet模型中进行测试得到测试结果之后,基于所述训练结果以及所述测试结果来调整所述改进AlexNet模型的参数,以生成预设改进AlexNet模型。
可选地,所述获取多个不同的静态手势图像,包括:
收集多个不同的动态手势视频;
从所述动态手势视频中获取三帧图像,其中,所述三帧图像包括第一图像、第二图像以及第三图像;
确定第一图像与第二图像的第一灰度差,以及确定所述第二图像与第三图像的第二灰度差;
将所述第一灰度差与所述第二灰度差做交集运算,得到所述动态手势视频对应的静态手势图像,以获取多个不同的静态手势图像。
可选地,所述基于所述多个不同的静态手势图像确定训练集和测试集,包括:
分别对多个不同的静态手势图像进行数据增强处理,生成多个增强手势图像;
调用opencv的threshold函数对增强手势图像进行二值化操作,并调用opencv的findContours函数得到所述增强手势图像对应的手势轮廓图;
基于手势轮廓图确定训练集和测试集。
可选地,所述基于手势轮廓图确定训练集和测试集,包括:
确定预设图像尺寸;
基于所述预设图像尺寸对多个手势轮廓图进行修改,得到多个新手势轮廓图,以基于所述新手势轮廓图确定训练集和测试集;
所述将所述目标静态手势图像输入至预设改进AlexNet模型,包括:
基于所述预设图像尺寸对所述目标静态手势图像进行修改,得到新目标静态手势图像;
将所述新目标静态手势图像输入至预设改进AlexNet模型。
可选地,所述在AlexNet模型的基础上进行模型优化,得到改进AlexNet模型,包括:
将AlexNet模型中第一个卷积层的卷积核调整为第一预设大小卷积核;
使用预设数量第二预设大小卷积核的卷积层来代替AlexNet模型中的第二卷积层;
将AlexNet模型中第一池化层和第二池化层均修改为第三预设大小池化层,其中,stride保持不变。
可选地,所述在AlexNet模型的基础上进行模型优化,还包括:
将AlexNet模型中softmax分类器修改为SVM分类器;
将AlexNet模型中第三池化层修改为空间金字塔池化层;
将AlexNet模型中激活函数是ReLU修改为TReLU;
其中,所述TReLU的函数表达式如下:
Figure BDA0003964137360000031
式中,λ表示超参数,λ的取值范围为(0,1],x是连续3个3*3卷积层提取出的图片的特征向量。
此外,为实现上述目的,本发明还提出一种基于手势识别的投影仪操控装置,所述基于手势识别的投影仪操控装置包括:
获取模块,用于获取目标静态手势图像;
确定模块,用于将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述目标静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息;
执行模块,用于根据所述指令信息操控投影仪执行相应操作。
此外,为实现上述目的,本发明还提出一种基于手势识别的投影仪操控设备,所述基于手势识别的投影仪操控设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于手势识别的投影仪操控程序,所述基于手势识别的投影仪操控程序配置为实现如上文所述的基于手势识别的投影仪操控方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于手势识别的投影仪操控程序,所述基于手势识别的投影仪操控程序被处理器执行时实现如上文所述的基于手势识别的投影仪操控方法的步骤。
本发明提出的基于手势识别的投影仪操控方法、装置、设备及存储介质,通过获取目标静态手势图像;将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述目标静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息;根据所述指令信息操控投影仪执行相应操作。通过将目标静态手势图像输入至预设改进AlexNet模型来预测该目标静态收拾图像的分类结果,再确定分类结果对应的指令信息,以使投影仪能够根据指令信息执行相应操作,能够在无遥控器的情况下实现对投影仪的操控,从而有效提高用户的全程使用体验。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于手势识别的投影仪操控设备的结构示意图;
图2为本发明基于手势识别的投影仪操控方法第一实施例的流程示意图;
图3为本发明基于手势识别的投影仪操控方法第一实施例中的手势动作对应的指令信号的示意图;
图4为本发明基于手势识别的投影仪操控方法第二实施例的流程示意图;
图5为本发明基于手势识别的投影仪操控方法第二实施例中AlexNet模型的模型结构图;
图6为本发明基于手势识别的投影仪操控方法第二实施例中改进AlexNet模型的模型结构图;
图7为本发明基于手势识别的投影仪操控装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于手势识别的投影仪操控设备结构示意图。
如图1所示,该基于手势识别的投影仪操控设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于手势识别的投影仪操控设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于手势识别的投影仪操控程序。
在图1所示的基于手势识别的投影仪操控设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于手势识别的投影仪操控设备中的处理器1001、存储器1005可以设置在基于手势识别的投影仪操控设备中,所述基于手势识别的投影仪操控设备通过处理器1001调用存储器1005中存储的基于手势识别的投影仪操控程序,并执行本发明实施例提供的基于手势识别的投影仪操控方法。
基于上述硬件结构,提出本发明基于手势识别的投影仪操控方法实施例。
参照图2,图2为本发明一种基于手势识别的投影仪操控方法第一实施例的流程示意图。
本实施例中,所述基于手势识别的投影仪操控方法包括以下步骤:
步骤S10:获取目标静态手势图像。
需要说明的是,本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等,或者是一种能够实现上述功能的电子设备或基于手势识别的投影仪操控设备。以下以所述基于手势识别的投影仪操控设备为例,对本实施例及下述各实施例进行说明。
需要说明的是,可根据目标静态手势图像来识别出用户的手势动作,再确定用户的手势动作对应的指令信息,最后再根据指令信息来操控投影仪。具体地,手势动作可以是五指张开、握拳、大拇指朝上以及大拇指朝下等等,本实施例对此不做限定。
在具体实现中,基于手势识别的投影仪操控设备与投影仪之间可通过蓝牙设备建立通信联系,目标静态手势图像可以通过基于手势识别的投影仪操控设备上的摄像头来获取。
步骤S20:将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息。
需要说明的是,AlexNet模型相比于其他用于分类手势图像的模型更加轻量化,对计算要求更低,计算时间更短,且在AlexNet模型的基础上进行模型优化后得到的改进AlexNet模型能够有效提高对目标静态手势图像的分类准确率,且更能满足显示使用的场景。
在具体实现中,可将目标静态手势图像进行resize操作变成227×227的目标静态手势图像,再将227×227的目标静态手势图像输入至预设改进AlexNet模型中。
需要说明的是,指令信息包括但不限于调高音量、调低音量、快进、回退、暂停、继续。
在具体实现中,如图3所示,可将大拇指朝上对应的指令信息设为调高音量,可将大拇指朝下对应的指令信息设为调低音量,可将食指朝右对应的指令信息设为快进,可将食指朝左对应的指令信息设为回退,可将五指张开对应的指令信息设为暂停,可将ok手势对应的指令信息设为继续。
步骤S30:根据所述指令信息操控投影仪执行相应操作。
在具体实现中,投影仪可根据接收到的指令信息来进行相应操作,示例地,当投影机接收到的指令信息为暂停时,投影仪可暂停播放用户正在观看的视频。
本实施例通过获取目标静态手势图像;将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述目标静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息;根据所述指令信息操控投影仪执行相应操作。通过将目标静态手势图像输入至预设改进AlexNet模型来预测该目标静态收拾图像的分类结果,再确定分类结果对应的指令信息,以使投影仪能够根据指令信息执行相应操作,能够在无遥控器的情况下实现对投影仪的操控,从而有效提高用户的全程观看体验。
参考图4,图4为本发明一种基于手势识别的投影仪操控方法第二实施例的流程示意图。
基于上述第一实施例,本实施例基于手势识别的投影仪操控方法在所述步骤S20之前,还包括:
步骤S201:获取多个不同的静态手势图像,并基于所述多个不同的静态手势图像确定训练集和测试集。
需要说明的是,不同的静态手势图像包括不同背景的静态手势图像以及不同手势类型的静态手势图像,其中,不同背景的静态手势图像可以是不同背景但手势类型相同的静态手势图像,也可以是不同背景且手势类型不同的静态手势图像,不同手势类型的静态手势图像可以是不同手势类型但相同背景的静态手势图像,也可以不同手势类型且不同背景的静态手势图像,不同背景包括静态手势图像中背景区域的占比不同和静态手势图像中背景区域的场景不同。
在一实施例中,所述基于所述多个不同的静态手势图像确定训练集和测试集,包括:
将静态手势图像转换为YCbCr颜色模型的图像;
判断所述YCbCr颜色模型的图像中各像素点的CbCr是否在肤色分布的椭圆区域内,以区分静态手势图像中手势区域和背景区域,得到区分结果;
基于所述区分结果,将手势区域从静态手势图像中提取出来,以生成手势图像,并基于手势图像确定训练集和测试集。
需要说明的是,YCbCr颜色模型是一种常用的肤色检测模型的色彩模型,其中,Y代表亮度,Cb代表光源中的蓝色分量,Cr代表光源中的红色分量。肤色的YCbCr颜色空间CbCr平面分布在近似的椭圆区域内,当像素点的CbCr落在该椭圆区域内时,可确定该像素点属于手势区域,当像素点的CbCr没有落在该椭圆区域内时,可确定该像素点为背景区域,故可通过遍历YCbCr颜色模型的图像中各像素点的CbCr来确定静态手势图像中的手势区域和背景区域。
在本实施例中,通过将静态手势图像转化为YCbCr颜色模型的图像,再根据YCbCr颜色模型的图像中各像素点的CbCr来区分静态手势图像中的手势区域和背景区域,能够快速且方便地将手势区域从静态手势图像中分割出来。
在一实施例中,所述获取多个不同的静态手势图像,包括:
收集多个不同的动态手势视频;
从所述动态手势视频中获取三帧图像,其中,所述三帧图像包括第一图像、第二图像以及第三图像;
确定第一图像与第二图像的第一灰度差,以及确定所述第二图像与第三图像的第二灰度差;
将所述第一灰度差与所述第二灰度差做交集运算,得到所述动态手势视频对应的静态手势图像,以获取多个不同的静态手势图像。
需要说明的是,三帧图像为动态手势视频中的连续三帧图像,三帧图像在动态手势视频中的前后顺序依次为第一图像、第二图像以及第三图像。
在本实施例中,采用三帧差分法能够提取出动态手势视频中的视频关键帧,且筛选出动态手势视频中手势区分度大或者手势占比大的静态手势图像,从而能够防止因视频中手势动作离镜头远近不同、手势大小不同或是背景复杂而影响AlexNet模型的训练结果。
在一实施例中,所述基于所述多个不同的静态手势图像确定训练集和测试集,包括:
分别对多个不同的静态手势图像进行数据增强处理,生成多个增强手势图像;
调用opencv的threshold函数对增强手势图像进行二值化操作,并调用opencv的findContours函数得到所述增强手势图像对应的手势轮廓图;
基于手势轮廓图确定训练集和测试集。
需要说明的,数据增强处理包括形态学处理和数据增强操作;其中,对静态手势图像进行形态学处理指的是对静态手势图像进行先腐蚀后膨胀操作,具有分离细小物体的作用;对静态手势图像进行数据增强操作指的是通过对静态手势图像进行左右翻转、亮度调整以及随机裁剪,还可以在静态手势图像中随机加入噪音,能够通过对静态手势图像进行数据增强处理来达到扩充数据集的目的。
在具体实现中,还可根据增强手势图像中的手势动作来对增强手势图像进行分类,示例性地,增强手势图像中手势动作为大拇指朝上指代投影仪调高音量这一类别,增强手势图像中手势动作为大拇指朝下指代投影仪调低音量这一类别。
在一实施例中,所述基于手势轮廓图确定训练集和测试集,包括:
确定预设图像尺寸;
基于所述预设图像尺寸对多个手势轮廓图进行修改,得到多个新手势轮廓图,以基于所述新手势轮廓图确定训练集和测试集;
所述将所述目标静态手势图像输入至预设改进AlexNet模型,包括:
基于所述预设图像尺寸对所述目标静态手势图像进行修改,得到新目标静态手势图像;
将所述新目标静态手势图像输入至预设改进AlexNet模型。
需要说明的是,可提前设定好预设图像尺寸,优选地,预设图像尺寸可设为227×227。
在具体实现中,为了方便将训练集或测试集中的手势轮廓图传到改进AlexNet模型的神经网络输入层中,可将手势轮廓图的大小统一成预设图像尺寸227×227。
在具体实现中,为了方便将目标静态手势图像传到改进AlexNet模型的神经网络输入层中,可先将目标静态手势图像的大小修改为预设图像尺寸为227×227。
在本实施例中,将训练集中的图像、测试集中的图像以及目标静态手势图像统一成预设图像尺寸,能够方便将图像传输至改进AlexNet模型的神经网络输入层中。
步骤S202:在AlexNet模型的基础上进行模型优化,得到改进AlexNet模型。
在一实施例中,所述在AlexNet模型的基础上进行模型优化,得到改进AlexNet模型,包括:
将AlexNet模型中第一个卷积层的卷积核调整为第一预设大小卷积核;
使用预设数量第二预设大小卷积核的卷积层来代替AlexNet模型中的第二卷积层;
将AlexNet模型中第一池化层和第二池化层均修改为第三预设大小池化层,其中,stride保持不变。
需要说明的是,如图5所示的AlexNet模型进行模型优化前的模型结构图,AlexNet模型的模型结构中包括5个卷积层和3个池化层。
需要说明的是,AlexNet模型中第一个卷积层的卷积核的大小为11×11,第一预设大小卷积核指的是大小为7×7的卷积核,第二预设大小卷积核指的是大小为3×3的卷积核,第三预设大小池化层指的是2×2size的池化层,stride保持不变指的是池化层中的步长保持不变。
需要说明的是,预设数量第二预设大小卷积核的卷积层中的预设数量可根据实际情况进行设定,当预设数量越大时,模型的参数会随之增多,计算时间也会增加,优选地,可将预设数量设定为2个。
在具体实现中,如图6所示的改进AlexNet模型的模型结构图,可将AlexNet模型中第一个卷积层的卷积核大小从11×11调整为7×7,可使用2个卷积核大小为3×3的卷积层来代替AlexNet模型中的第二卷积层,可将AlexNet模型中第一池化层和第二池化层均修改为2×2池化层。
在本实施例中,在AlexNet模型中第一个卷积层中采用较小的卷积核不仅能够提取更全面的静态手势图像特征信息,还能够在减少参数的同时提高AlexNet模型的识别精度;使用2个卷积核大小为3×3的卷积层来代替AlexNet模型中的第二卷积层通过在具有相同感知野的条件下增加神经网络层数,在提升神经网络的分类效果的同时降低参数量,从而缩短神经网络模型的计算时间,并降低对计算资源的要求;将AlexNet模型中第一池化层和第二池化层均修改为2×2池化层,能够对特征图的尺寸大小进行调整,以方便后续的计算。
在一实施例中,所述在AlexNet模型的基础上进行模型优化,还包括:
将AlexNet模型中softmax分类器修改为SVM分类器;
将AlexNet模型中第三池化层修改为空间金字塔池化层;
将AlexNet模型中激活函数是ReLU修改为TReLU;
其中,所述TReLU的函数表达式如下:
Figure BDA0003964137360000111
式中,λ表示超参数,λ的取值范围为(0,1],x是连续3个3*3卷积层提取出的图片的特征向量。
需要说明的是,AlexNet模型所使用的激活函数是ReLU,ReLU函数表达式:f(x)=max(0,x),从ReLU函数表达式中可以确定当输入值在小于等于0这个区间时,输出的结果为0;当输入值在大于0这个区间时,输出的结果为1。但是在AlexNet模型中使用ReLU函数来作为模型的激活函数存在以下缺点:(1)部分神经节点可能永远不参加模型训练,故导致部分神经节点的相应参数永远不变,当神经网络中出现高学习率时,会导致神经网络中一部分神经节点梯度为0。(2)ReLU函数还存在计算值的平均数大于0的问题,这会导致在神经网络传播时会发生值偏移的问题,随着网络不断加深和传播偏移值就越大。
需要说明的是,针对ReLU函数存在的缺点,提出一种新的激活函数TReLU,其中,新的激活函数TReLU的表达式如下所示:
Figure BDA0003964137360000112
式中,λ表示超参数,λ的取值范围为(0,1],x是连续3个3*3卷积层提取出的图片的特征向量。
可以理解的是,新的激活函数TReLU具有以下优势:(1)x小于0区域内的值不为0,新的激活函数TReLU在此区域内可以影响着权重的更新,解决激活函数ReLU让x小于0区间内神经节点挂掉的问题。(2)x大于0区域内的值可以随着输入值的不同而发生变化,保证数据分布均匀。(3)可变超参数λ使得新的激活函数TReLU的激活函数值可变,当面临在神经网络中处理不同数据集时保持可变性,使新的激活函数TReLU适应于不同的数据集。
需要说明的是,AlexNet模型使用的是softmax分类器,改进AlexNet模型使用的是SVM分类器。具体地,SVM分类器与softmax分类器使用的损失函数不同,SVM分类器使用的是折叶损失函数,而softmax分类器使用的是交叉熵损失函数。折叶损失函数能够实现软间隔分类,保持支持向量机的稀疏性,由于非支持向量的普通样本对应的是折叶损失的零区域,支持向量机的优点在于普通样本不参与超平面的计算,不但能够大大减少对训练样本数的依赖,还能够有效提高模型训练效率。此外,SVM分类器通过有限的支持向量数据来计算出空间中的分离超平面,softmax分类器则通过非线性映射的方式,越靠近超平面的分类数据其权重越高,离超平面越远的分类数据的权重越低,所以SVM分类器和softmax分类器的本质都是借助超平面实现样本的分类。但SVM分类器通过将原始问题转换为对偶问题,故在找出空间中的分隔超平面时只需要考虑支持向量的数据点,且对于复杂模型采用核函数能缩小计算量,大大的节省训练时间。
需要说明的是,AlexNet模型中3个池化层均使用的是最大值池化层,最大值池化是从局部域内所有值中找出最大值,倾向于保留图片的纹理特征,虽然最大值池化优点能有效减小卷积造成估计均值的偏差,但是最大值池化在模型训练中容易导致过拟合。改进AlexNet模型将AlexNet模型中的第三池化层改成空间金字塔池化层,采用空间金字塔池化层的改进AlexNet模型不需要对图像进行resize、crop等操作。空间金字塔池化层运用到池化区域内多尺度数据,可以把大小不同的特征最后转换为相同维度特征,不用对原始输入图片或特征图进行相应操作便能使得图像的size大小一致,能解决均值池化和最大值池化中存在的信息丢失问题,获得更有价值的特征信息,使得训练出的改进AlexNet模型效果更好。
可以理解的是,采用多尺度分块,通过多个不同的池化处理,其中池化框大小分别为4×4,2×2,1×1,经过不同尺寸池化后得到的图像特征向量通过串联可以使得输出大小一致,改进AlexNet模型中的空间金字塔池化层能够得到静态手势图片中更精确更丰富的特征表达,从而提高改进AlexNet模型对静态手势图片的识别精度。
步骤S203:将所述训练集输入至改进AlexNet模型中进行训练得到训练结果,以及将所述测试集输入至改进AlexNet模型中进行测试得到测试结果之后,基于所述训练结果以及所述测试结果来调整所述改进AlexNet模型的参数,以生成预设改进AlexNet模型。
需要说明的是,改进AlexNet模型的参数包括但不限于Epoch、batch_size、学习率。
在具体实现中,不断地根据训练结果和测试结果来调整改进AlexNet模型的参数,使得改进AlexNet模型达到预设状态(即测试集测试的准确率达到最高)时,得到预设改进AlexNet模型。
本实施例通过获取多个不同的静态手势图像,并基于所述多个不同的静态手势图像确定训练集和测试集;在AlexNet模型的基础上进行模型优化,得到改进AlexNet模型;将所述训练集输入至改进AlexNet模型中进行训练得到训练结果,以及将所述测试集输入至改进AlexNet模型中进行测试得到测试结果之后,基于所述训练结果以及所述测试结果来调整所述改进AlexNet模型的参数,以生成预设改进AlexNet模型。通过收集不同的静态手势图像来训练改进AlexNet模型,能够有效提高改进AlexNet模型的训练速度。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于手势识别的投影仪操控程序,所述基于手势识别的投影仪操控程序被处理器执行时实现如上文所述的基于手势识别的投影仪操控方法的步骤。
参照图7,图7为本发明基于手势识别的投影仪操控装置第一实施例的结构框图。
如图7所示,本发明实施例提出的基于手势识别的投影仪操控装置包括:
获取模块10,用于获取目标静态手势图像。
确定模块20,用于将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述目标静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息。
执行模块30,用于根据所述指令信息操控投影仪执行相应操作。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
本实施例通过获取目标静态手势图像;将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述目标静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息;根据所述指令信息操控投影仪执行相应操作。通过将目标静态手势图像输入至预设改进AlexNet模型来预测该目标静态收拾图像的分类结果,再确定分类结果对应的指令信息,以使投影仪能够根据指令信息执行相应操作,能够在无遥控器的情况下实现对投影仪的操控,从而有效提高用户的全程观看体验。
在一实施例中,所述确定模块20,还用于:
获取多个不同的静态手势图像,并基于所述多个不同的静态手势图像确定训练集和测试集;
在AlexNet模型的基础上进行模型优化,得到改进AlexNet模型;
将所述训练集输入至改进AlexNet模型中进行训练得到训练结果,以及将所述测试集输入至改进AlexNet模型中进行测试得到测试结果之后,基于所述训练结果以及所述测试结果来调整所述改进AlexNet模型的参数,以生成预设改进AlexNet模型。
在一实施例中,所述确定模块20,还用于:
收集多个不同的动态手势视频;
从所述动态手势视频中获取三帧图像,其中,所述三帧图像包括第一图像、第二图像以及第三图像;
确定第一图像与第二图像的第一灰度差,以及确定所述第二图像与第三图像的第二灰度差;
将所述第一灰度差与所述第二灰度差做交集运算,得到所述动态手势视频对应的静态手势图像,以获取多个不同的静态手势图像。
在一实施例中,所述确定模块20,还用于:
分别对多个不同的静态手势图像进行数据增强处理,生成多个增强手势图像;
调用opencv的threshold函数对增强手势图像进行二值化操作,并调用opencv的findContours函数得到所述增强手势图像对应的手势轮廓图;
基于手势轮廓图确定训练集和测试集。
在一实施例中,所述确定模块20,还用于:
确定预设图像尺寸;
基于所述预设图像尺寸对多个手势轮廓图进行修改,得到多个新手势轮廓图,以基于所述新手势轮廓图确定训练集和测试集;
所述将所述目标静态手势图像输入至预设改进AlexNet模型,包括:
基于所述预设图像尺寸对所述目标静态手势图像进行修改,得到新目标静态手势图像;
将所述新目标静态手势图像输入至预设改进AlexNet模型。
在一实施例中,所述确定模块20,还用于:
将AlexNet模型中第一个卷积层的卷积核调整为第一预设大小卷积核;
使用预设数量第二预设大小卷积核的卷积层来代替AlexNet模型中的第二卷积层;
将AlexNet模型中第一池化层和第二池化层均修改为第三预设大小池化层,其中,stride保持不变。
在一实施例中,所述确定模块20,还用于:
将AlexNet模型中softmax分类器修改为SVM分类器;
将AlexNet模型中第三池化层修改为空间金字塔池化层;
将AlexNet模型中激活函数是ReLU修改为TReLU;
其中,所述TReLU的函数表达式如下:
Figure BDA0003964137360000151
式中,λ表示超参数,λ的取值范围为(0,1],x是连续3个3*3卷积层提取出的图片的特征向量。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于手势识别的投影仪操控方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于手势识别的投影仪操控方法,其特征在于,所述基于手势识别的投影仪操控方法包括:
获取目标静态手势图像;
将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述目标静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息;
根据所述指令信息操控投影仪执行相应操作。
2.如权利要求1所述的方法,其特征在于,所述将所述静态手势图像输入至预设改进AlexNetp模型之前,还包括:
获取多个不同的静态手势图像,并基于所述多个不同的静态手势图像确定训练集和测试集;
在AlexNet模型的基础上进行模型优化,得到改进AlexNet模型;
将所述训练集输入至改进AlexNet模型中进行训练得到训练结果,以及将所述测试集输入至改进AlexNet模型中进行测试得到测试结果之后,基于所述训练结果以及所述测试结果来调整所述改进AlexNet模型的参数,以生成预设改进AlexNet模型。
3.如权利要求2所述的方法,其特征在于,所述获取多个不同的静态手势图像,包括:
收集多个不同的动态手势视频;
从所述动态手势视频中获取三帧图像,其中,所述三帧图像包括第一图像、第二图像以及第三图像;
确定第一图像与第二图像的第一灰度差,以及确定所述第二图像与第三图像的第二灰度差;
将所述第一灰度差与所述第二灰度差做交集运算,得到所述动态手势视频对应的静态手势图像,以获取多个不同的静态手势图像。
4.如权利要求2所述的方法,其特征在于,所述基于所述多个不同的静态手势图像确定训练集和测试集,包括:
分别对多个不同的静态手势图像进行数据增强处理,生成多个增强手势图像;
调用opencv的threshold函数对增强手势图像进行二值化操作,并调用opencv的findContours函数得到所述增强手势图像对应的手势轮廓图;
基于手势轮廓图确定训练集和测试集。
5.如权利要求4所述的方法,其特征在于,所述基于手势轮廓图确定训练集和测试集,包括:
确定预设图像尺寸;
基于所述预设图像尺寸对多个手势轮廓图进行修改,得到多个新手势轮廓图,以基于所述新手势轮廓图确定训练集和测试集;
所述将所述目标静态手势图像输入至预设改进AlexNet模型,包括:
基于所述预设图像尺寸对所述目标静态手势图像进行修改,得到新目标静态手势图像;
将所述新目标静态手势图像输入至预设改进AlexNet模型。
6.如权利要求2所述的方法,其特征在于,所述在AlexNet模型的基础上进行模型优化,得到改进AlexNet模型,包括:
将AlexNet模型中第一个卷积层的卷积核调整为第一预设大小卷积核;
使用预设数量第二预设大小卷积核的卷积层来代替AlexNet模型中的第二卷积层;
将AlexNet模型中第一池化层和第二池化层均修改为第三预设大小池化层,其中,stride保持不变。
7.如权利要求6所述的方法,其特征在于,所述在AlexNet模型的基础上进行模型优化,还包括:
将AlexNet模型中softmax分类器修改为SVM分类器;
将AlexNet模型中第三池化层修改为空间金字塔池化层;
将AlexNet模型中激活函数是ReLU修改为TReLU;
其中,所述TReLU的函数表达式如下:
Figure FDA0003964137350000031
式中,λ表示超参数,λ的取值范围为(0,1],x是连续3个3*3卷积层提取出的图片的特征向量。
8.一种基于手势识别的投影仪操控装置,其特征在于,所述基于手势识别的投影仪操控装置包括:
获取模块,用于获取目标静态手势图像;
确定模块,用于将所述目标静态手势图像输入至预设改进AlexNet模型,预测出所述目标静态手势图像的分类结果,并根据所述分类结果确定对应的指令信息;
执行模块,用于根据所述指令信息操控投影仪执行相应操作。
9.一种基于手势识别的投影仪操控设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于手势识别的投影仪操控程序,所述基于手势识别的投影仪操控程序配置为实现如权利要求1至7中任一项所述的基于手势识别的投影仪操控方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于手势识别的投影仪操控程序,所述基于手势识别的投影仪操控程序被处理器执行时实现如权利要求1至7任一项所述的基于手势识别的投影仪操控方法的步骤。
CN202211489096.3A 2022-11-25 2022-11-25 基于手势识别的投影仪操控方法、装置、设备及存储介质 Pending CN115761809A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211489096.3A CN115761809A (zh) 2022-11-25 2022-11-25 基于手势识别的投影仪操控方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211489096.3A CN115761809A (zh) 2022-11-25 2022-11-25 基于手势识别的投影仪操控方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115761809A true CN115761809A (zh) 2023-03-07

Family

ID=85337844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211489096.3A Pending CN115761809A (zh) 2022-11-25 2022-11-25 基于手势识别的投影仪操控方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115761809A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649702A (zh) * 2024-01-30 2024-03-05 山东诚海电子科技有限公司 一种基于人体姿态的教学辅助方法、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649702A (zh) * 2024-01-30 2024-03-05 山东诚海电子科技有限公司 一种基于人体姿态的教学辅助方法、设备及介质
CN117649702B (zh) * 2024-01-30 2024-05-07 山东诚海电子科技有限公司 一种基于人体姿态的教学辅助方法、设备及介质

Similar Documents

Publication Publication Date Title
CN111260665B (zh) 图像分割模型训练方法和装置
CN112232425B (zh) 图像处理方法、装置、存储介质及电子设备
US8144932B2 (en) Image processing apparatus, image processing method, and interface apparatus
CN108647641B (zh) 基于双路模型融合的视频行为分割方法和装置
KR20200130440A (ko) 이미지 내 객체를 식별하기 위한 방법 및 상기 방법을 실행하기 위한 모바일 디바이스(method for identifying an object within an image and mobile device for executing the method)
TW202139183A (zh) 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體
US11494886B2 (en) Hierarchical multiclass exposure defects classification in images
CN108234882B (zh) 一种图像虚化方法及移动终端
Liu et al. Real-time skin color detection under rapidly changing illumination conditions
US9305208B2 (en) System and method for recognizing offensive images
CN107679448A (zh) 眼球动作分析方法、装置及存储介质
US11301711B2 (en) Systems and methods for enhancing real-time image recognition
CN111935479B (zh) 一种目标图像确定方法、装置、计算机设备及存储介质
CN112233075B (zh) 视频清晰度评估方法、装置、存储介质及电子设备
CN107633205A (zh) 嘴唇动作分析方法、装置及存储介质
CN110738160A (zh) 一种结合人脸检测的人脸质量评估方法
CN108171241B (zh) 基于IFCS/Otsu的IOFR火焰识别方法
US20230245441A9 (en) Image detection method and apparatus, and electronic device
CN113012188A (zh) 图像融合方法、装置、计算机设备和存储介质
CN115761809A (zh) 基于手势识别的投影仪操控方法、装置、设备及存储介质
CN111160240A (zh) 图像对象的识别处理方法、装置及智能设备、存储介质
CN115512207A (zh) 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法
Shih et al. Multiskin color segmentation through morphological model refinement
WO2023047162A1 (en) Object sequence recognition method, network training method, apparatuses, device, and medium
CN113052242A (zh) 图像处理网络的训练方法及装置、图像处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination