CN111709295A - 一种基于SSD-MobileNet的实时手势检测和识别方法及系统 - Google Patents

一种基于SSD-MobileNet的实时手势检测和识别方法及系统 Download PDF

Info

Publication number
CN111709295A
CN111709295A CN202010419695.2A CN202010419695A CN111709295A CN 111709295 A CN111709295 A CN 111709295A CN 202010419695 A CN202010419695 A CN 202010419695A CN 111709295 A CN111709295 A CN 111709295A
Authority
CN
China
Prior art keywords
gesture
ssd
mobilenet
data set
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010419695.2A
Other languages
English (en)
Inventor
程志宇
徐国庆
许犇
张岚斌
付尧
罗京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202010419695.2A priority Critical patent/CN111709295A/zh
Publication of CN111709295A publication Critical patent/CN111709295A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于SSD‑MobileNet的实时手势检测和识别方法及系统,其中,一种基于SSD‑MobileNet的实时手势检测和识别系统包括数据处理单元,用于接收原始egohands视频数据集,原始egohands视频数据集包括多帧原始数据集图像,还用于对多帧原始数据集图像进行扩充处理,建立扩充数据集;SSD‑MobileNet手部数据检测模型,包括SSD网络及Mobilenet网络,用于手势图像提取,使用扩充数据集进行训练及优化,还用于对自建的复杂背景下的数字手势数据集中的图像进行手势图像提取,获取手势识别数据集;改进的CNN的手势识别模型用Ghost模块层代替传统卷积层,对手势图像进行手势识别,使用手势识别数据集进行训练及优化。本发明引入SSD‑MobileNet和改进的CNN的手势识别模型相结合,具有提高手势检测和识别的工作效率的优点。

Description

一种基于SSD-MobileNet的实时手势检测和识别方法及系统
技术领域
本发明涉及图像识别的技术领域,具体涉及一种基于SSD-MobileNet的实时手势检测和识别方法及系统。
背景技术
随着目标检测技术的不断发展和深入,现代检测仪器精度的不断提升,各种先进的检测算法广泛应用于当下的智能设备中,其中手势检测和识别分析一直以来都是人机交互领域研究的重点。可以从不同的手部特征开始利用检测算法对手的表面纹理及外部姿态进行深入分析,达到检测和识别的目的。
目前,针对实时手势检测与识别相结合的研究在确保高精度的情况下往往是借助较高端的外部硬件设备实现,如Leap公司制造的Leap Motion体感控制器,微软推出的Kinect体感周边外设,谷歌设计的Project Soli雷达芯片以及CyberGlove系统公司提供的数据手套设备等,能够达到良好的识别速度和精度,但不具备普适性。15年Minto L,Zanuttigh P.等人在Exploiting silhouette descriptors and synthetic data forhand gesture recognition一文提出了一种实时手势识别方案,针对的是深度相机设备得到深度数据,从采集到的数据中提取出手部轮廓特征,然后输入到多类别支持向量机中,进行手势识别。
检测技术的完备随之而来的是检测类别的丰富和完善,越来越多手势数据集的开源,为手势的检测和识别任务提供了很好的数据基础。然而目前对手势数据的整理和利用不是很充分,在检测速度和检测精度上还存在不足,严重制约了实时手势检测和识别的工作效率。
发明内容
本发明的目的在于克服现有技术中的缺点,提供一种基于SSD-MobileNet的实时手势检测和识别方法及系统,引入SSD-MobileNet和改进的CNN的手势识别模型相结合,具有提高手势检测和识别的工作效率的优点。
本发明的目的是通过以下技术方案来实现的:一种基于SSD-MobileNet的实时手势检测和识别方法,包括以下步骤:
S1:获取原始egohands视频数据集,所述原始egohands视频数据集包括多帧原始数据集图像,对多帧原始数据集图像进行扩充处理,建立扩充数据集,执行S2;
S2:建立SSD-MobileNet手部数据检测模型,所述SSD-MobileNet手部数据检测模型用于提取手势图像,所述SSD-MobileNet手部数据检测模型包括SSD网络及Mobilenet网络,对SSD-MobileNet手部数据检测模型进行训练并优化,执行S3;
S3:使用SSD-MobileNet手部数据检测模型对自建的复杂背景下的数字手势数据集中的图像进行手势图像提取,获取手势识别数据集,执行S4;
S4:建立改进的CNN的手势识别模型,使用手势识别数据集训练并优化改进的CNN的手势识别模型,执行S5;
S5:获取待检测视频数据集,使用SSD-MobileNet手部数据检测模型对待检测视频数据集中的图像进行手势图像提取,使用改进的CNN的手势识别模型对手势图像进行手势识别,输出识别结果。
本发明的有益效果是,在进行实时检测之前,先建立SSD-MobileNet手部数据检测模型及改进的CNN的手势识别模型,训练及优化SSD-MobileNet手部数据检测模型及改进的CNN的手势识别模型。在实时检测时,接收实时视频数据,将实时视频数据中的帧图像处理成一定大小,SSD-MobileNet手部数据检测模型对实时视频数据进行手势提取,按照周期提取手势图并分类别保存,去除所有不完整和模糊的手势图片,将处理好的手势图按照一定大小进行缩放,统一尺寸。改进的CNN的手势识别模型识别手势图中的手势,测试过程中的帧率符合实时检测和识别的要求,达到提高手势检测和识别的工作效率的效果。
进一步,所述S1中对多帧原始数据集图像进行扩充处理具体包括,
对多帧原始数据集图像进行随机翻转和/或平移和/或剪裁和/或亮度调整和/或对比度调整和/或加噪声和/或高斯模糊,获得不同对比度的手势数据,建立扩充数据集。
采用上述进一步方案的有益效果是,对原始数据集中的图像进行随机翻转、平移、剪裁、亮度调整、对比度调整、加噪声、高斯模糊操作中的一种或多种,扩充多次,获得不同对比度的手势数据,减少了原始数据获取的工作量。
进一步,所述S2中对SSD-MobileNet手部数据检测模型进行训练并优化具体包括,
S231:按照比例,将扩充数据集分为训练集及测试集,抽取训练集中一部分验证集,执行S232;
S232:使用训练集训练SSD-MobileNet手部数据检测模型,使用验证集调节SSD-MobileNet手部数据检测模型参数,执行S233;
S233:使用测试集判断SSD-MobileNet手部数据检测模型是否完成优化,若否,执行S232,若是,执行S3。
采用上述进一步方案的有益效果是,使用训练集训练SSD-MobileNet手部数据检测模型,使用验证集调节SSD-MobileNet手部数据检测模型参数,测试集判断SSD-MobileNet手部数据检测模型的优化程度,有效降低了数据的偶然性。
进一步,所述S4具体包括以下步骤,
S41:建立改进的CNN的手势识别模型,执行S42;
S42:使用手势识别数据集训练并优化改进的CNN的手势识别模型,执行S42;
S43:获取改进的CNN的手势识别模型的优化评价参数,所述优化评价参数包括正类预测为正类结果参数TP、负类预测为正类结果参数FP、负类预测为正类结果参数FN、负类预测为负类结果参数TN,执行S44;
S44:根据优化评价参数计算改进的CNN的手势识别模型的评价指标,所述评价指标包括准确率、精确率及召回率,执行S45;
S45:根据改进的CNN的手势识别模型的评价指标判断改进的CNN的手势识别模型是否优化成功,若否,执行S42,若是执行S5。
进一步,所述改进的CNN的手势识别模型用Ghost模块层代替传统卷积层,所述改进的CNN的手势识别模型的损失函数为categorical_crossentropy损失函数,优化函数为Adam优化算法。
采用上述进一步方案的有益效果是,Ghost模块层生成特征图操作简单高效,与传统卷积层相比,在同样精度下,计算量明显减少。Adam优化算法是在自适应梯度算法AdaGrad和均方根传播RMSProp两种算法的基础上提出的,其优点是简单高效,梯度变换对参数影响小,适合梯度稀疏和很大噪声问题。
一种基于SSD-MobileNet的实时手势检测和识别系统,包括,
数据处理单元,用于接收原始egohands视频数据集,所述原始egohands视频数据集包括多帧原始数据集图像,还用于对多帧原始数据集图像进行扩充处理,建立扩充数据集;
SSD-MobileNet手部数据检测模型,包括SSD网络及Mobilenet网络,用于手势图像提取,使用扩充数据集进行训练及优化,还用于对自建的复杂背景下的数字手势数据集中的图像进行手势图像提取,获取手势识别数据集,还用于对待测试视频数据集中的图像进行手势图像提取;
改进的CNN的手势识别模型,用于对手势图像进行手势识别,使用手势识别数据集进行训练及优化,还用于从待测试视频数据集中提取的手势图像进行手势识别,输出识别结果。
本发明的有益效果是,在进行实时检测之前,先建立SSD-MobileNet手部数据检测模型及改进的CNN的手势识别模型,训练及优化SSD-MobileNet手部数据检测模型及改进的CNN的手势识别模型。在实时检测时,数据处理单元接收实时视频数据,将实时视频数据中的帧图像处理成一定大小,SSD-MobileNet手部数据检测模型对实时视频数据进行手势提取,按照周期提取手势图并分类别保存,去除所有不完整和模糊的手势图片,将处理好的手势图按照一定大小进行缩放,统一尺寸。改进的CNN的手势识别模型识别手势图中的手势,达到提高手势检测和识别的工作效率的效果。
进一步,所述数据处理单元对多帧原始数据集图像进行随机翻转和/或平移和/或剪裁和/或亮度调整和/或对比度调整和/或加噪声和/或高斯模糊,获得不同对比度的手势数据,建立扩充数据集。
采用上述进一步方案的有益效果是,数据处理单元对原始数据集中的图像进行随机翻转、平移、剪裁、亮度调整、对比度调整、加噪声、高斯模糊操作中的一种或多种,扩充多次,获得不同对比度的手势数据,减少了原始数据获取的工作量。
进一步,所述数据处理处理单元还用于将扩充数据集分为训练集及测试集,抽取训练集中一部分验证集,所述SSD-MobileNet手部数据检测模型使用扩充数据集进行训练及优化具体包括以下步骤,
所述S2中对SSD-MobileNet手部数据检测模型进行训练并优化具体包括,
S31:按照比例,将扩充数据集分为训练集及测试集,抽取训练集中一部分验证集,执行S32;
S32:使用训练集训练SSD-MobileNet手部数据检测模型,使用验证集调节SSD-MobileNet手部数据检测模型参数,执行S33;
S33:使用测试集判断SSD-MobileNet手部数据检测模型是否完成优化,若否,执行S32,若是,完成优化。
采用上述进一步方案的有益效果是,使用训练集训练SSD-MobileNet手部数据检测模型,使用验证集调节SSD-MobileNet手部数据检测模型参数,测试集判断SSD-MobileNet手部数据检测模型的优化程度,有效降低了数据的偶然性。
进一步,所述改进的CNN的手势识别模型包括输入层、三层Ghost模块层、三层池化层、两层全连接层及输出层,损失函数为categorical_crossentropy损失函数,优化函数为Adam优化算法。
采用上述进一步方案的有益效果是,Ghost模块层生成特征图操作简单高效,与传统卷积层相比,在同样精度下,计算量明显减少。Adam优化算法是在自适应梯度算法AdaGrad和均方根传播RMSProp两种算法的基础上提出的,其优点是简单高效,梯度变换对参数影响小,适合梯度稀疏和很大噪声问题。
本发明中各个名词解释如下:
Figure BDA0002496404120000071
Figure BDA0002496404120000081
附图说明
图1为本发明的实施例1的结构示意图;
图2为本发明用于展示扩充数据集的部分图像的示意图;
图3为本发明用于展示SSD-MobileNet模型训练的map曲线图;
图4为本发明用于展示SSD-MobileNet手部数据检测模型提取的部分的手势图像的示意图;
图5为本发明用于展示改进的CNN的手势识别模型的结构示意图;
图6为本发明用于展示改进的CNN的手势识别模型训练和优化过程中accuracy变化的示意图;
图7为本发明用于展示改进的CNN的手势识别模型训练和优化过程中loss变化的示意图;
图8为本发明的实施例2的一种基于SSD-MobileNet的实时手势检测和识别方法的流程示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下。
实施例1
参照图1,一种基于SSD-MobileNet的实时手势检测和识别系统,包括,
数据处理单元,用于接收原始egohands视频数据集,原始egohands视频数据集包括多帧原始数据集图像,还用于对多帧原始数据集图像进行扩充处理,建立扩充数据集;
SSD-MobileNet手部数据检测模型,包括SSD网络及Mobilenet网络,用于手势图像提取,使用扩充数据集进行训练及优化,还用于对扩充数据集中的图像进行手势图像提取,获取手势识别数据集,还用于对待测试视频数据集中的图像进行手势图像提取;
改进的CNN的手势识别模型,用Ghost模块层代替传统卷积层,用于对手势图像进行手势识别,使用手势识别数据集进行训练及优化,还用于从待测试视频数据集中提取的手势图像进行手势识别,输出识别结果。
下面依次对每个部分进行详细说明。
本实施例中,数据处理单元接收的原始egohands视频数据集包括48段两人互动视频,48段视频中的每个视频都有100个带标签的帧,均为JPEG文件(720x1280px),总计4,800个帧,数据处理单元标记原始egohands视频数据集中所有带标签的帧。值得说明的是,为了提高训练速度,数据处理单元将原始egohands视频数据集中所有带标签的帧处理成300*300px,标签大小按比例缩小。
数据处理单元包括imgaug数据增强库,使用imgaug数据增强库中的Flipud,Fliplr,Multiply,AdditiveGaussianNoise,GaussianBlur等离线数据增强工具对原始egohands视频数据集进行扩充。
参照图2,对带标签的帧进行随机翻转和/或平移和/或剪裁和/或亮度调整和/或对比度调整和/或加噪声和/或高斯模糊,扩充两次,获得不同对比度的手势数据,建立扩充数据集,扩充数据集包含9564张图片。得到扩充数据集后,以9:1的比例将扩充数据集划分训练集和测试集。其中训练集包括8608张图片,测试集包括956张图片,抽取训练集中一部分验证集。其中训练集用于训练模型,验证集用于调节模型参数,而测试集只用来衡量模型的好坏,有效降低了数据的偶然性。
SSD-MobileNet手部数据检测模型,包括SSD网络及Mobilenet网络。其中,MobileNet网络模型的优势是使用深度可分离卷积将标准卷积核分解成深度卷积核和点卷积核,减少计算量。
假设卷积核大小为DK*DK,输入特征图的大小为DF*DF,通道数为M,输出特征图的大小为DG*DG,通道数为N,则与标准卷积核的计算量的比值为:
Figure BDA0002496404120000101
Mobilenet网络引入宽度乘数α和分辨率乘数β后总的计算量为:
Dk·Dk·αM·βDF·βDF+αM·αN·βDF·βDF
宽度乘数α和分辨率乘数β也影响着SSD-MobileNet手部数据检测模型的准确度、参数量以及参数的计算量。
SSD网络的损失函数计算由定位损失和分类损失两个部分组成,总的损失函数表达式为:
Figure BDA0002496404120000102
其中,N为所有匹配到真实框的default box数目,Lconf为置信损失,Lloc为定位损失。
参照图3,SSD-MobileNet手部数据检测模型的训练过程如下,
S1:修改label_map.pbtxt文件内容,检测类别为1,name为hand;
S2:SSD-MobileNet手部数据检测模型配置文件选择ssd_mobilenet_v1_coco.config文件,修改检测类别数,训练集和测试集的tfrecords地址以及config文件的位置;
S3:开始训练,学习率设置为0.004,迭代步数设置为180000次,使用tensorboard进行监测,得到训练过程图的map;
S4:将完成训练后的SSD-MobileNet手部数据检测模型导出,生成frozen_inference_graph.pb文件。
参照图4,使用训练后的SSD-MobileNet手部数据检测模型对原始egohands视频数据集进行手势提取,建立手势识别原始数据集。手势识别原始数据集包含六种不同的手势,每种手势包含十段左右15s~20s的手势视频。SSD-MobileNet手部数据检测模型对手势识别数据集按照每5帧为一个周期提取手势图并分类别保存,去除所有不完整和模糊的手势图片,将处理好的数据图按照60*60px大小进行缩放,统一尺寸,建立手势识别数据集。手势识别数据集将得到的手势数据分成六种类别,标签分别为“fist”、“one”、“two”、“three”、“four”、“five”,每种手势的数据量在3000张左右,取总数据集的85%作为训练集,训练集包括15471张图片,测试集包括2731张图片。
参照图5,改进的CNN的手势识别模型包括输入层、三层Ghost模块层、三层池化层、两层全连接层及输出层,具体结构如下:
输入层,手势图片的输入大小缩放成60*60px,通道数为3;
Ghost模块层,使用32个3*3大小的卷积核对输入图像进行卷积和深度卷积操作,填充方式是‘same’,用0填充,输出大小为60*60*32;
池化层,对得到的特征图进行核大小为2*2的最大池化操作,输出大小为30*30*32;
Ghost模块层,使用64个3*3大小的卷积核对输入的特征图进行卷积和深度卷积操作,填充方式是‘same’,用0填充,输出大小为30*30*64;
池化层,对得到的特征图进行核大小为2*2的最大池化操作,输出大小为15*15*64;
Ghost模块层,使用128个3*3大小的卷积核对输入的特征图进行卷积和深度卷积操作,填充方式是‘same’,用0填充,输出大小为15*15*128;
池化层,对得到的特征图进行核大小为2*2的最大池化操作,输出大小为7*7*128;
全连接层,将7*7*128的特征图展开成6272维的向量,节点个数设为64;
全连接层,输入的节点数为64,输出节点数为64;
输出层,输入节点数为64,输出节点数为6,有六个标签。
用Ghost模块层代替传统卷积层来提取图像特征,生成中间特征图,优化传统卷积层在计算特征图存在的大量冗余,减少计算成本。Ghost模块将传统的卷积操作分成两步实现,首先用卷积生成通道数较少的特征图,再用深度卷积生成特征图,两组特征图进行拼接得到最终输出特征图。Ghost模块使用一个恒等映射和n(s-1)个线性运算,其中n为卷积核数量,s为幻影特征图数量。每个线性运算的内核大小为d*d,在实验中选择内核大小为3*3来实现。Ghost模块层生成特征图操作简单高效,和传统卷积层相比,在同样精度下,计算量明显减少。
改进的CNN的手势识别模型的一次训练所选取的样本数Batchsize设置为32,学习率lr设为0.001,迭代次数epoch设为31,损失函数选择categorical_crossentropy损失函数,其中优化算法选择Adam优化算法。
Adam优化算法是在自适应梯度算法AdaGrad和均方根传播RMSProp两种算法的基础上提出的,其优点是简单高效,梯度变换对参数影响小,适合梯度稀疏和很大噪声问题。优化算法使用的计算函数如下:
VdW=β1VdW+(1-β1)dW
Vdb=β1Vdb+(1-β1)db
SdW=β2SdW+(1-β2)dW2
Sdb=β2Sdb+(1-β2)db2
Figure BDA0002496404120000131
Figure BDA0002496404120000132
Figure BDA0002496404120000133
Figure BDA0002496404120000134
Figure BDA0002496404120000135
Figure BDA0002496404120000136
其中,t为迭代次数,β1是指数衰减率,控制动量和当前梯度的权重分配,通常将β1设为0.9,β2则是控制梯度平方的影响,通常将β2设为0.999,默认参数更新的学习率α为0.001,Vdw和Vdb是损失函数迭代过程中用指数加权平均累积的梯度动量;W是权重,b是偏置;dw和db是损失函数反向传播求得的梯度;Sdw和Sdb是损失函数迭代过程中累积的梯度平方动量;
Figure BDA0002496404120000141
Figure BDA0002496404120000142
是修正指数加权平均梯度动量;
Figure BDA0002496404120000143
Figure BDA0002496404120000144
是修正梯度平方动量。使用Adam优化算法能够从梯度均值和平方两方面自适应调整计算更新步长。
参照图6、7,本实施例中,改进的CNN的手势识别模型经过31个epoch训练后,训练和测试的准确率稳定在99%左右,loss值降到0.04左右,完成训练及优化。
在实时检测时,数据处理单元接收实时视频数据,将实时视频数据中的帧图像处理成300*300px,SSD-MobileNet手部数据检测模型对实时视频数据进行手势提取,按照每5帧为一个周期提取手势图并分类别保存,去除所有不完整和模糊的手势图片,将处理好的手势图按照60*60px大小进行缩放,统一尺寸。改进的CNN的手势识别模型识别手势图中的手势,测试过程中的帧率符合实时检测和识别的要求,符合实时检测和识别的要求,且识别效果良好。针对复杂背景下的数字手势能够做到准确的识别在人机交互领域有着重要的意义。根据用户的使用习惯和操作自然便捷性,可以给不同手势预先设定指令内容,利用手势动作对不同设备进行控制,拓宽交互体验空间和范围。
实施例2
参照图8,一种基于SSD-MobileNet的实时手势检测和识别方法,包括以下步骤:
S1:获取原始egohands视频数据集,原始egohands视频数据集包括多帧原始数据集图像,对多帧原始数据集图像进行扩充处理,建立扩充数据集,执行S2;
S2:建立SSD-MobileNet手部数据检测模型,SSD-MobileNet手部数据检测模型用于提取手势图像,SSD-MobileNet手部数据检测模型包括SSD网络及Mobilenet网络,对SSD-MobileNet手部数据检测模型进行训练并优化,执行S3;
S3:使用SSD-MobileNet手部数据检测模型对自建的复杂背景下的数字手势数据集中的图像进行手势图像提取,获取手势识别数据集,执行S4;
S4:建立改进的CNN的手势识别模型,用Ghost模块层代替传统卷积层,使用手势识别数据集训练并优化改进的CNN的手势识别模型,执行S5;
S5:获取待检测视频数据集,使用SSD-MobileNet手部数据检测模型对待检测视频数据集中的图像进行手势图像提取,使用改进的CNN的手势识别模型对手势图像进行手势识别,输出识别结果。
下面依次对每个步骤进行详细说明。
S1:获取原始egohands视频数据集,原始egohands视频数据集包括多帧原始数据集图像,对多帧原始数据集图像进行扩充处理,建立扩充数据集,执行S2。
原始egohands视频数据集包括48段两人互动视频,48段视频中的每个视频都有100个带标签的帧,均为JPEG文件(720x1280px),总计4,800个帧,数据处理单元标记原始egohands视频数据集中所有带标签的帧。值得说明的是,为了提高训练速度,先将原始egohands视频数据集中所有带标签的帧处理成300*300px,标签大小按比例缩小。
S1中对多帧原始数据集图像进行扩充处理具体包括,
参照图2,对多帧原始数据集图像进行随机翻转和/或平移和/或剪裁和/或亮度调整和/或对比度调整和/或加噪声和/或高斯模糊,扩充两次,获得不同对比度的手势数据,建立扩充数据集。扩充数据集包含9564张图片,得到扩充数据集后,以9:1的比例将扩充数据集划分训练集和测试集。其中训练集包括8608张图片,测试集包括956张图片,抽取训练集中一部分验证集。其中训练集用于训练模型,验证集用于调节模型参数,而测试集只用来衡量模型的好坏,有效降低了数据的偶然性。
S2:建立SSD-MobileNet手部数据检测模型,SSD-MobileNet手部数据检测模型用于提取手势图像,SSD-MobileNet手部数据检测模型包括SSD网络及Mobilenet网络,对SSD-MobileNet手部数据检测模型进行训练并优化,执行S3。
SSD-MobileNet手部数据检测模型,包括SSD网络及Mobilenet网络。其中,MobileNet网络模型的优势是使用深度可分离卷积将标准卷积核分解成深度卷积核和点卷积核,减少计算量。
假设卷积核大小为DK*DK,输入特征图的大小为DF*DF,通道数为M,输出特征图的大小为DG*DG,通道数为N,则与标准卷积核的计算量的比值为:
Figure BDA0002496404120000161
Mobilenet网络引入宽度乘数α和分辨率乘数β后总的计算量为:
Dk·Dk·αM·βDF·βDF+αM·αN·βDF·βDF
宽度乘数α和分辨率乘数β也影响着SSD-MobileNet手部数据检测模型的准确度、参数量以及参数的计算量。
SSD网络的损失函数计算由定位损失和分类损失两个部分组成,总的损失函数表达式为:
Figure BDA0002496404120000171
其中,N为所有匹配到真实框的defaultbox数目,Lconf为置信损失,Lloc为定位损失。
参照图3,SSD-MobileNet手部数据检测模型的训练过程如下,
S21:修改label_map.pbtxt文件内容,检测类别为1,name为hand;
S22:SSD-MobileNet手部数据检测模型配置文件选择ssd_mobilenet_v1_coco.config文件,修改检测类别数,训练集和测试集的tfrecords地址以及config文件的位置;
S23:开始训练,学习率设置为0.004,迭代步数设置为180000次,使用tensorboard进行监测,得到训练过程图的map;
S23具体包括以下步骤;
S231:以9:1的比例将扩充数据集划分训练集和测试集,其中训练集包括8608张图片,测试集包括956张图片,抽取训练集中一部分验证集,执行S232;
S232:使用训练集训练SSD-MobileNet手部数据检测模型,使用验证集调节SSD-MobileNet手部数据检测模型参数,执行S233;
S233:使用测试集判断SSD-MobileNet手部数据检测模型是否完成优化,即,通过SSD-MobileNet手部数据检测模型进行测试集的手势图像提取,计算正确率,根据正确率判断SSD-MobileNet手部数据检测模型是否完成优化,若否,执行S232,若是,执行S24;
S24:将完成训练后的SSD-MobileNet手部数据检测模型导出,生成frozen_inference_graph.pb文件。
S3:使用SSD-MobileNet手部数据检测模型对自建的复杂背景下的数字手势数据集中的图像进行手势图像提取,获取手势识别数据集,执行S4。
参照图4,使用训练后的SSD-MobileNet手部数据检测模型对原始egohands视频数据集进行手势提取,建立手势识别原始数据集。手势识别原始数据集包含六种不同的手势,每种手势包含十段左右15s~20s的手势视频。SSD-MobileNet手部数据检测模型对手势识别数据集按照每5帧为一个周期提取手势图并分类别保存,去除所有不完整和模糊的手势图片,将处理好的数据图按照60*60px大小进行缩放,统一尺寸,建立手势识别数据集。手势识别数据集将得到的手势数据分成六种类别,标签分别为“fist”、“one”、“two”、“three”、“four”、“five”,每种手势的数据量在3000张左右。
S4:建立改进的CNN的手势识别模型,用Ghost模块层代替传统卷积层,使用手势识别数据集训练并优化改进的CNN的手势识别模型,执行S5。
参照图5,改进的CNN的手势识别模型包括输入层、三层Ghost模块层、三层池化层、两层全连接层及输出层,具体结构如下:
输入层,手势图片的输入大小缩放成60*60px,通道数为3;
Ghost模块层,使用32个3*3大小的卷积核对输入图像进行卷积和深度卷积操作,填充方式是‘same’,用0填充,输出大小为60*60*32;
池化层,对得到的特征图进行核大小为2*2的最大池化操作,输出大小为30*30*32;
Ghost模块层,使用64个3*3大小的卷积核对输入的特征图进行卷积和深度卷积操作,填充方式是‘same’,用0填充,输出大小为30*30*64;
池化层,对得到的特征图进行核大小为2*2的最大池化操作,输出大小为15*15*64;
Ghost模块层,使用128个3*3大小的卷积核对输入的特征图进行卷积和深度卷积操作,填充方式是‘same’,用0填充,输出大小为15*15*128;
池化层,对得到的特征图进行核大小为2*2的最大池化操作,输出大小为7*7*128;
全连接层,将7*7*128的特征图展开成6272维的向量,节点个数设为64;
全连接层,输入的节点数为64,输出节点数为64;
输出层,输入节点数为64,输出节点数为6,有六个标签。
用Ghost模块层代替传统卷积层来提取图像特征,生成中间特征图,优化传统卷积层在计算特征图存在的大量冗余,减少计算成本。Ghost模块将传统的卷积操作分成两步实现,首先用卷积生成通道数较少的特征图,再用深度卷积生成特征图,两组特征图进行拼接得到最终输出特征图。Ghost模块使用一个恒等映射和n(s-1)个线性运算,其中n为卷积核数量,s为幻影特征图数量。每个线性运算的内核大小为d*d,在实验中选择内核大小为3*3来实现。Ghost模块层生成特征图操作简单高效,和传统卷积层相比,在同样精度下,计算量明显减少。
改进的CNN的手势识别模型的一次训练所选取的样本数Batchsize设置为32,学习率lr设为0.001,迭代次数epoch设为31,损失函数选择categorical_crossentropy损失函数,其中优化算法选择Adam优化算法。
Adam优化算法是在自适应梯度算法AdaGrad和均方根传播RMSProp两种算法的基础上提出的,其优点是简单高效,梯度变换对参数影响小,适合梯度稀疏和很大噪声问题。优化算法使用的计算函数如下:
VdW=β1VdW+(1-β1)dW
Vdb=β1Vdb+(1-β1)db
SdW=β2SdW+(1-β2)dW2
Sdb=β2Sdb+(1-β2)db2
Figure BDA0002496404120000201
Figure BDA0002496404120000202
Figure BDA0002496404120000203
Figure BDA0002496404120000204
Figure BDA0002496404120000205
Figure BDA0002496404120000206
其中,t为迭代次数,β1是指数衰减率,控制动量和当前梯度的权重分配,通常将β1设为0.9,β2则是控制梯度平方的影响,通常将β2设为0.999,默认参数更新的学习率α为0.001,Vdw和Vdb是损失函数迭代过程中用指数加权平均累积的梯度动量;W是权重,b是偏置;dw和db是损失函数反向传播求得的梯度;Sdw和Sdb是损失函数迭代过程中累积的梯度平方动量;
Figure BDA0002496404120000211
Figure BDA0002496404120000212
是修正指数加权平均梯度动量;
Figure BDA0002496404120000213
Figure BDA0002496404120000214
是修正梯度平方动量。使用Adam优化算法能够从梯度均值和平方两方面自适应调整计算更新步长。
S4具体包括以下步骤,
S41:建立改进的CNN的手势识别模型,执行S42;
S42:使用手势识别数据集训练并优化改进的CNN的手势识别模型,执行S42;
S43:获取改进的CNN的手势识别模型的优化评价参数,优化评价参数包括正类预测为正类结果参数TP、负类预测为正类结果参数FP、负类预测为正类结果参数FN、负类预测为负类结果参数TN,执行S44;
S44:根据优化评价参数计算改进的CNN的手势识别模型的评价指标,评价指标包括准确率、精确率及召回率,执行S45;
值得说明的是,准确率accuracy用于衡量预测正确的概率;
accuracy=(TP+TN)/(TP+FP+FN+TN)
精确率precision衡量预测为正类中真正的正类的概率:
precision=TP/(TP+FP)
召回率recall衡量在正类中正类预测正确的概率:
recall=TP/(TP+FN);
S45:根据改进的CNN的手势识别模型的评价指标判断改进的CNN的手势识别模型是否优化成功,若否,执行S42,若是执行S5
参照图6、7,本实施例中,改进的CNN的手势识别模型经过31个epoch训练后,训练和测试的准确率稳定在99%左右,loss值降到0.04左右,完成训练及优化。
S5:获取待检测视频数据集,使用SSD-MobileNet手部数据检测模型对待检测视频数据集中的图像进行手势图像提取,使用改进的CNN的手势识别模型对手势图像进行手势识别,输出识别结果。
在实时检测时,接收实时视频数据,将实时视频数据中的帧图像处理成300*300px,SSD-MobileNet手部数据检测模型对实时视频数据进行手势提取,按照每5帧为一个周期提取手势图并分类别保存,去除所有不完整和模糊的手势图片,将处理好的手势图按照60*60px大小进行缩放,统一尺寸。改进的CNN的手势识别模型识别手势图中的手势,测试过程中的帧率符合实时检测和识别的要求,符合实时检测和识别的要求,且识别效果良好。针对复杂背景下的数字手势能够做到准确的识别在人机交互领域有着重要的意义。根据用户的使用习惯和操作自然便捷性,可以给不同手势预先设定指令内容,利用手势动作对不同设备进行控制,拓宽交互体验空间和范围。
值得说明的是,经过与传统卷积网络结构进行对比识别测试,本发明的识别模型在相同精度的条件下,模型参数大小减少10%左右,参数的冗余计算明显减少。利用RGB摄像头进行实时手势检测和识别的实验中,在复杂背景和光照下,本发明的识别模型正确识别出手势的正确率在92%左右,每种手势的置信度高于98%。用传统人工提取手势特征加svm分类器模型做对比实验,本发明的识别模型测试识别正确率在92%左右,传统人工提取手势特征加svm分类器模型测试识别正确率在90%左右,本发明的识别模型测试识别准确度较高,具有较强的鲁棒性和泛化能力。
以上仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护。

Claims (10)

1.一种基于SSD-MobileNet的实时手势检测和识别方法,其特征在于,包括以下步骤:
S1:获取原始egohands视频数据集,所述原始egohands视频数据集包括多帧原始数据集图像,对多帧原始数据集图像进行扩充处理,建立扩充数据集,执行S2;
S2:建立SSD-MobileNet手部数据检测模型,所述SSD-MobileNet手部数据检测模型用于提取手势图像,所述SSD-MobileNet手部数据检测模型包括SSD网络及Mobilenet网络,对SSD-MobileNet手部数据检测模型进行训练并优化,执行S3;
S3:使用SSD-MobileNet手部数据检测模型对自建的复杂背景下的数字手势数据集中的图像进行手势图像提取,获取手势识别数据集,执行S4;
S4:建立改进的CNN的手势识别模型,使用手势识别数据集训练并优化改进的CNN的手势识别模型,执行S5;
S5:获取待检测视频数据集,使用SSD-MobileNet手部数据检测模型对待检测视频数据集中的图像进行手势图像提取,使用改进的CNN的手势识别模型对手势图像进行手势识别,输出识别结果。
2.根据权利要求1所述的一种基于SSD-MobileNet的实时手势检测和识别方法,其特征在于,所述S1中对多帧原始数据集图像进行扩充处理具体包括,
对多帧原始数据集图像进行随机翻转和/或平移和/或剪裁和/或亮度调整和/或对比度调整和/或加噪声和/或高斯模糊,获得不同对比度的手势数据,建立扩充数据集。
3.根据权利要求1或2所述的一种基于SSD-MobileNet的实时手势检测和识别方法,其特征在于,所述S2中对SSD-MobileNet手部数据检测模型进行训练并优化具体包括,
S231:按照比例,将扩充数据集分为训练集及测试集,抽取训练集中一部分验证集,执行S232;
S232:使用训练集训练SSD-MobileNet手部数据检测模型,使用验证集调节SSD-MobileNet手部数据检测模型参数,执行S233;
S233:使用测试集判断SSD-MobileNet手部数据检测模型是否完成优化,若否,执行S232,若是,执行S3。
4.根据权利要求1或2所述的一种基于SSD-MobileNet的实时手势检测和识别方法,其特征在于,所述S4具体包括以下步骤,
S41:建立改进的CNN的手势识别模型,执行S42;
S42:使用手势识别数据集训练并优化改进的CNN的手势识别模型,执行S43;
S43:获取改进的CNN的手势识别模型的优化评价参数,所述优化评价参数包括正类预测为正类结果参数TP、负类预测为正类结果参数FP、负类预测为正类结果参数FN、负类预测为负类结果参数TN,执行S44;
S44:根据优化评价参数计算改进的CNN的手势识别模型的评价指标,所述评价指标包括准确率、精确率及召回率,执行S45;
S45:根据改进的CNN的手势识别模型的评价指标判断改进的CNN的手势识别模型是否优化成功,若否,执行S42,若是执行S5。
5.根据权利要求4所述的一种基于SSD-MobileNet的实时手势检测和识别方法,其特征在于,所述改进的CNN的手势识别模型用Ghost模块层代替传统卷积层,所述改进的CNN的手势识别模型的损失函数为categorical_crossentropy损失函数,优化函数为Adam优化算法。
6.一种基于SSD-MobileNet的实时手势检测和识别系统,其特征在于,包括,
数据处理单元,用于接收原始egohands视频数据集,所述原始egohands视频数据集包括多帧原始数据集图像,还用于对多帧原始数据集图像进行扩充处理,建立扩充数据集;
SSD-MobileNet手部数据检测模型,包括SSD网络及Mobilenet网络,用于手势图像提取,使用扩充数据集进行训练及优化,还用于对自建的复杂背景下的数字手势数据集中的图像进行手势图像提取,获取手势识别数据集,还用于对待测试视频数据集中的图像进行手势图像提取;
改进的CNN的手势识别模型,用于对手势图像进行手势识别,使用手势识别数据集进行训练及优化,还用于从待测试视频数据集中提取的手势图像进行手势识别,输出识别结果。
7.根据权利要求6所述的一种基于SSD-MobileNet的实时手势检测和识别系统,其特征在于,所述数据处理单元对多帧原始数据集图像进行随机翻转和/或平移和/或剪裁和/或亮度调整和/或对比度调整和/或加噪声和/或高斯模糊,获得不同对比度的手势数据,建立扩充数据集。
8.根据权利要求6或7所述的一种基于SSD-MobileNet的实时手势检测和识别系统,其特征在于,所述数据处理处理单元还用于将扩充数据集分为训练集及测试集,抽取训练集中一部分验证集,所述SSD-MobileNet手部数据检测模型使用扩充数据集进行训练及优化具体包括以下步骤,
所述S2中对SSD-MobileNet手部数据检测模型进行训练并优化具体包括,
S31:按照比例,将扩充数据集分为训练集及测试集,抽取训练集中一部分验证集,执行S32;
S32:使用训练集训练SSD-MobileNet手部数据检测模型,使用验证集调节SSD-MobileNet手部数据检测模型参数,执行S33;
S33:使用测试集判断SSD-MobileNet手部数据检测模型是否完成优化,若否,执行S32,若是,完成优化。
9.根据权利要求8所述的一种基于SSD-MobileNet的实时手势检测和识别系统,其特征在于,所述SSD网络的损失函数包括定位损失和分类损失,所述SSD网络的损失函数为:
Figure FDA0002496404110000041
其中,N为所有匹配到真实框的default box数目,Lconf为置信损失,Lloc为定位损失。
10.根据权利要求6或7所述的一种基于SSD-MobileNet的实时手势检测和识别系统,其特征在于,所述改进的CNN的手势识别模型包括输入层、三层Ghost模块层、三层池化层、两层全连接层及输出层,损失函数为categorical_crossentropy损失函数,优化函数为Adam优化算法。
CN202010419695.2A 2020-05-18 2020-05-18 一种基于SSD-MobileNet的实时手势检测和识别方法及系统 Pending CN111709295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010419695.2A CN111709295A (zh) 2020-05-18 2020-05-18 一种基于SSD-MobileNet的实时手势检测和识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010419695.2A CN111709295A (zh) 2020-05-18 2020-05-18 一种基于SSD-MobileNet的实时手势检测和识别方法及系统

Publications (1)

Publication Number Publication Date
CN111709295A true CN111709295A (zh) 2020-09-25

Family

ID=72537939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010419695.2A Pending CN111709295A (zh) 2020-05-18 2020-05-18 一种基于SSD-MobileNet的实时手势检测和识别方法及系统

Country Status (1)

Country Link
CN (1) CN111709295A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597969A (zh) * 2020-05-14 2020-08-28 新疆爱华盈通信息技术有限公司 基于手势识别的电梯控制方法及系统
CN112307955A (zh) * 2020-10-29 2021-02-02 广西科技大学 一种基于ssd红外图像行人检测的优化方法
CN112507924A (zh) * 2020-12-16 2021-03-16 深圳荆虹科技有限公司 一种3d手势识别方法、装置及系统
CN113239831A (zh) * 2021-05-20 2021-08-10 中南大学 基于手势识别技术的智能视力检测仪及其使用方法
CN113569667A (zh) * 2021-07-09 2021-10-29 武汉理工大学 基于轻量级神经网络模型的内河船舶目标识别方法及系统
CN113568435A (zh) * 2021-09-24 2021-10-29 深圳火眼智能有限公司 一种基于无人机自主飞行态势感知趋势的分析方法与系统
CN113963229A (zh) * 2021-09-23 2022-01-21 西北大学 一种基于视频的无线信号增强与跨目标手势识别方法
WO2022110564A1 (zh) * 2020-11-25 2022-06-02 苏州科技大学 智能家居多模态人机自然交互系统及其方法
CN115082511A (zh) * 2021-03-12 2022-09-20 沈阳中科数控技术股份有限公司 一种基于轻量级堆叠沙漏网络的机械臂姿态估计方法
CN115147867A (zh) * 2022-06-10 2022-10-04 重庆长安汽车股份有限公司 一种基于大数据的静态手势识别验证方法
US12002254B2 (en) 2021-02-26 2024-06-04 Boe Technology Group Co., Ltd. Method and apparatus of training object detection network and object detection method and apparatus

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法
CN109902577A (zh) * 2019-01-25 2019-06-18 华中科技大学 一种轻量级手势检测卷积神经网络模型的构建方法及应用
US20190236344A1 (en) * 2018-01-29 2019-08-01 Google Llc Methods of determining handedness for virtual controllers
CN110110646A (zh) * 2019-04-30 2019-08-09 浙江理工大学 一种基于深度学习的手势图像关键帧提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190236344A1 (en) * 2018-01-29 2019-08-01 Google Llc Methods of determining handedness for virtual controllers
CN109902577A (zh) * 2019-01-25 2019-06-18 华中科技大学 一种轻量级手势检测卷积神经网络模型的构建方法及应用
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法
CN110110646A (zh) * 2019-04-30 2019-08-09 浙江理工大学 一种基于深度学习的手势图像关键帧提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAI HAN ET AL.: "GhostNet:More Features from Cheap Operations" *
杨力: "基于单目摄像头的嵌入式手势识别算法研究与实现" *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597969A (zh) * 2020-05-14 2020-08-28 新疆爱华盈通信息技术有限公司 基于手势识别的电梯控制方法及系统
CN112307955A (zh) * 2020-10-29 2021-02-02 广西科技大学 一种基于ssd红外图像行人检测的优化方法
WO2022110564A1 (zh) * 2020-11-25 2022-06-02 苏州科技大学 智能家居多模态人机自然交互系统及其方法
CN112507924A (zh) * 2020-12-16 2021-03-16 深圳荆虹科技有限公司 一种3d手势识别方法、装置及系统
CN112507924B (zh) * 2020-12-16 2024-04-09 深圳荆虹科技有限公司 一种3d手势识别方法、装置及系统
US12002254B2 (en) 2021-02-26 2024-06-04 Boe Technology Group Co., Ltd. Method and apparatus of training object detection network and object detection method and apparatus
CN115082511A (zh) * 2021-03-12 2022-09-20 沈阳中科数控技术股份有限公司 一种基于轻量级堆叠沙漏网络的机械臂姿态估计方法
CN113239831A (zh) * 2021-05-20 2021-08-10 中南大学 基于手势识别技术的智能视力检测仪及其使用方法
CN113569667B (zh) * 2021-07-09 2024-03-08 武汉理工大学 基于轻量级神经网络模型的内河船舶目标识别方法及系统
CN113569667A (zh) * 2021-07-09 2021-10-29 武汉理工大学 基于轻量级神经网络模型的内河船舶目标识别方法及系统
CN113963229A (zh) * 2021-09-23 2022-01-21 西北大学 一种基于视频的无线信号增强与跨目标手势识别方法
CN113963229B (zh) * 2021-09-23 2023-08-18 西北大学 一种基于视频的无线信号增强与跨目标手势识别方法
CN113568435A (zh) * 2021-09-24 2021-10-29 深圳火眼智能有限公司 一种基于无人机自主飞行态势感知趋势的分析方法与系统
CN115147867A (zh) * 2022-06-10 2022-10-04 重庆长安汽车股份有限公司 一种基于大数据的静态手势识别验证方法

Similar Documents

Publication Publication Date Title
CN111709295A (zh) 一种基于SSD-MobileNet的实时手势检测和识别方法及系统
EP3398034B1 (en) Electrical device for hand gestures detection
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
CN113128558B (zh) 基于浅层空间特征融合与自适应通道筛选的目标检测方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
US9734435B2 (en) Recognition of hand poses by classification using discrete values
CN112949408B (zh) 一种过鱼通道目标鱼类实时识别方法和系统
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN114723010B (zh) 一种异步事件数据的自动学习增强方法及系统
Gu et al. Visual affordance detection using an efficient attention convolutional neural network
Huang et al. Scalable object detection accelerators on FPGAs using custom design space exploration
Wong et al. Real-time adaptive hand motion recognition using a sparse bayesian classifier
CN109902720B (zh) 基于子空间分解进行深度特征估计的图像分类识别方法
CN110826469B (zh) 一种人物检测方法、装置及计算机可读存储介质
Zhao et al. Understanding and Improving the Intermediate Features of FCN in Semantic Segmentation
CN113743189B (zh) 一种基于分割引导的人体姿态识别方法
CN116935494B (zh) 一种基于轻量化网络模型的多人坐姿识别方法
CN111291745B (zh) 目标位置估计方法及装置、存储介质、终端
CN118135369A (zh) 一种基于改进yolov7模型的目标检测方法
Brask Evaluating Transfer Learning Models on Synthetic Data for Beverage Label Image Retrieval: A Comparative Study
CN118314161A (zh) 基于文本语义引导的小样本医学图像分割方法
Veena et al. Design of Optimized CNN for Image Processing using Verilog
Xuanhao et al. A Review of Attention Mechanisms in Computer Vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination