CN109117742A - 手势检测模型处理方法、装置、设备及存储介质 - Google Patents

手势检测模型处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109117742A
CN109117742A CN201810805273.1A CN201810805273A CN109117742A CN 109117742 A CN109117742 A CN 109117742A CN 201810805273 A CN201810805273 A CN 201810805273A CN 109117742 A CN109117742 A CN 109117742A
Authority
CN
China
Prior art keywords
model
training
image
epicycle
treated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810805273.1A
Other languages
English (en)
Other versions
CN109117742B (zh
Inventor
高原
胡扬
柏提
刘霄
李旭斌
孙昊
文石磊
丁二锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810805273.1A priority Critical patent/CN109117742B/zh
Publication of CN109117742A publication Critical patent/CN109117742A/zh
Application granted granted Critical
Publication of CN109117742B publication Critical patent/CN109117742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种手势检测模型处理方法、装置、设备及存储介质,本发明的方法,通过获取训练集合,所述训练集合包括至少一组包括训练图像及训练图像的标注数据的训练数据;根据训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型;通过将待检测图像输入手势检测模型,即可检测出待检测图像中手势的手势类型和位置,实现了对于不包括深度信息的待检测图像的手势识别,无需使用包含深度信息的硬件单元,降低了成本,且相较于现有技术采用聚类方法进行手势检测,本实施例通过卷积神经网络模型进行手势检测提高了手势检测的精度和效率。

Description

手势检测模型处理方法、装置、设备及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种手势检测模型处理方法、装置、设备及存储介质。
背景技术
在智能硬件全面普及的今天,人与智能硬件的交互方式和效率是影响用户体验的最大因素之一。传统的按键和触屏的交互方式在很多场景下已经不能满足用户与设备的交互的需求,语音交互的方式也在诸多场景下存在着需要唤醒词、环境嘈杂识别不准等问题。手势识别的交互方式可以很好的解决很多场景下人机交互不便的问题。
现有的手势识别方法,通过包含深度信息的硬件单元采集手势的深度图像信息,对包含深度信息的图像采用聚类算法提取图像中的手势特征信息,采用隐马尔克夫等概率模型对手势特征信息进行分类,得到图像中的手势特征信息对应的手势类型,硬件成本高,手势识别的精度较低且效率慢。
发明内容
本发明提供一种手势检测模型处理方法、装置、设备及存储介质,用以解决现有的手势识别方法硬件成本高,手势识别的精度较低且效率慢的问题。
本发明的一个方面是提供一种手势检测模型处理方法,包括:
获取训练集合,所述训练集合包括至少一组包括训练图像及训练图像的标注数据的训练数据;
根据所述训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型。
本发明的另一个方面是提供一种手势检测模型处理装置,包括:
数据获取模块,用于获取训练集合,所述训练集合包括至少一组包括训练图像及训练图像的标注数据的训练数据;
训练优化模块,用于根据所述训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型。
本发明的另一个方面是提供一种手势检测模型处理设备,其特征在于,包括:
存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,
所述处理器运行所述计算机程序时实现上述所述的方法。
本发明的另一个方面是提供一种计算机可读存储介质,存储有计算机程序,
所述计算机程序被处理器执行时实现上述所述的方法。
本发明提供的手势检测模型处理方法、装置、设备及存储介质,通过获取训练集合,根据训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型;通过将待检测图像输入手势检测模型,即可检测出待检测图像中手势的手势类型和位置,实现了对于不包括深度信息的待检测图像的手势识别,无需使用包含深度信息的硬件单元,降低了成本,且相较于现有技术采用聚类方法进行手势检测,本实施例通过卷积神经网络模型进行手势检测提高了手势检测的精度和效率。
附图说明
图1为本发明实施例一提供的手势检测模型处理方法流程图;
图2为本发明实施例二提供的手势检测模型处理方法流程图;
图3为本发明实施例二提供的逐层量化存储的示意图;
图4为本发明实施例三提供的手势检测模型处理装置的结构示意图;
图5为本发明实施例五提供的手势检测模型处理设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明的各实施例中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
实施例一
图1为本发明实施例一提供的手势检测模型处理方法流程图。本发明实施例针对现有的手势识别方法硬件成本高,手势识别的精度较低且效率慢的问题,提供了手势检测模型处理方法。如图1所示,该方法具体步骤如下:
步骤S101、获取训练集合,训练集合包括至少一组包括训练图像及训练图像的标注数据的训练数据。
在实际应用中,训练集合包括大量的训练数据,训练数据越多,通过训练集合训练得到的手势检测模型的准确率相对越好。
每一组训练数据包括训练图像及训练图像的标注数据。每个训练图像中可以包括一个或者多个手势,训练图像的标注数据包括训练图像中所有手势的手势类型和位置。
其中,训练图像中的手势类型可以包括握拳、手掌、OK手势等静态手势,手势类型可以由技术人员根据实际需要进行定义,本实施例对此不做具体限定。
训练图像中手势的位置是指手势在训练图像中的位置,或者可以为手势相对于实际应用场景的位置等,训练图像中手势的位置可以由技术人员根据实际需要进行定义,本实施例对此不做具体限定。
步骤S102、根据训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型。
本实施例中,训练集合中的训练图像可以为不包括深度信息的图像,那么,根据该训练集合对卷积神经网络进行训练得到的手势检测模型可以实现对不包括深度信息的图像的手势检测。
在实际应用中,由于输入图像的尺寸越大,需要卷积神经网络的深度越深,卷积神经网络的手势检测越准确,但是计算量会越大。本实施例中,针对应用于的不同的嵌入式设备,可以根据应用的嵌入式设备的运算能力和具体的手势检测场景来调整手势检测模型的输入图像大小信息。例如,嵌入式设备的CPU性能好,可以将手势检测模型的输入图像大小设置大一些;也可以根据实际手势检测场景中获取的图像的大小来设定手势检测模型的输入图像大小信息。例如,手势检测模型的输入图像大小信息可以设定为256x256。
可选的,根据嵌入式设备的硬件性能,对于运算能力不高的设备,例如只包括CPU不包括GPU的设备,在卷积神经网络模型中增加卷积层的Group数量,来降低运算量,以平衡计算量和效果。
可选的,可以采用随机梯度下降的优化策略对卷积神经网络进行训练。
在得到手势检测模型之后,通过将待检测图像输入手势检测模型,可以检测出待检测图像中手势的手势类型和位置。
本发明实施例提供的方法可以应用于嵌入式设备,例如,手机,平板,摄像头,小度在家等拥有摄像头的智能设备,嵌入式设备可以通过手势检测来完成翻页、调整音量等与人的交互。
本发明实施例通过获取训练集合,根据训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型;通过将待检测图像输入手势检测模型,即可检测出待检测图像中手势的手势类型和位置,实现了对于不包括深度信息的待检测图像的手势识别,无需使用包含深度信息的硬件单元,降低了成本,且相较于现有技术采用聚类方法进行手势检测,本实施例通过卷积神经网络模型进行手势检测提高了手势检测的精度和效率。
实施例二
图2为本发明实施例二提供的手势检测模型处理方法流程图;图3为本发明实施例二提供的逐层量化存储的示意图。在上述实施例一的基础上,本实施例中,在根据训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型之前,还可以对训练集合进行数据增强处理,以增加训练集合中训练数据的数量;在训练过程中还可以对卷积神经网络进行剪裁优化;在训练结束后还可以将手势检测模型中的BN层叠加到对应的卷积层;以及,对手势检测模型进行量化存储。如图2所示,该方法具体步骤如下:
步骤S201、获取训练集合,训练集合包括至少一组包括训练图像及训练图像的标注数据的训练数据。
该步骤与上述步骤S101一致,本实施例此处不再赘述。
步骤S202、对训练集合进行数据增强处理。
在实际应用中,通常需预先拍摄大量的训练图像,获取训练图像的成本较高。本实施例中,为了降低数据成本,可以通过对训练集合进行数据增强处理,可以快速扩充训练集合中的训练数据的数量,使得手势检测模型的泛化能力得到保证。
本实施例中,对训练集合进行数据增强处理,具体可以采用如下方式实现:
对训练集合中的训练图像进行数据增强处理,得到训练图像对应的增强图像;获取增强图像的标注数据;将增强图像和增强图像的标注数据作为一组训练数据添加到训练集合中。
其中,对训练集合中的训练图像进行数据增强处理,具体可以对训练集合中的训练图像进行以下至少一种数据增强处理:
1)对训练集合中的训练图像进行图像翻转处理。
具体的,对训练集合中的每一个训练图像,以第一预设概率进行水平翻转、竖直翻转、或者其他预设方向的翻转,或者进行多个方向的翻转。
其中,第一预设概率可以由技术人员根据实际需要和经验进行设定,本实施例此处不做具体限定。例如,第一预设概率可以为50%。
2)根据图像变换参数对训练集合中的训练图像进行图像变换处理,图像变换参数包括以下至少一种:亮度参数、饱和度参数和色度参数。
具体的,图像变换参数可以是随机生成的一组图像变换参数,或者还可以是从预设的多组图像变换参数中随机的选择一组。其中图像变换参数的值表示训练图像的对应参数的变化范围。
对训练集合中的每一个训练图像,以第二预设概率根据图像变换参数对该训练图像进行图像变换处理。其中,第二预设概率可以由技术人员根据实际需要和经验进行设定,本实施例此处不做具体限定。
可选的,图像变换参数的值的取值范围可以为[0.5-1.5],图像变换参数的值的取值范围可以由技术人员根据实际需要和经验进行设定,本实施例此处不做具体限定。
例如,随机生成的一组图像变换参数为:亮度:0.8,饱和度:1.2,则根据该组图像变换参数对训练图像进行图像变换处理时,训练图像的亮度的变化范围不能超过0.8,饱和度的变化范围不能超过1.2。
3)对训练集合中的训练图像进行图像剪裁处理。
对训练集合中的每一个训练图像,以第三预设概率根据图像变换参数对该训练图像进行图像剪裁处理。其中,第三预设概率可以由技术人员根据实际需要和经验进行设定,本实施例此处不做具体限定。
具体的,在训练图像上随机生成多个矩形框,作为剪裁的备选框;将包含手势图像的备选框作为目标框,随机选取其中的一个目标框对该训练图像进行剪裁处理,得到选取的一个目标框对应区域内的图像。
4)对训练集合中的训练图像进行图像缩放处理。
具体的,根据手势检测模型的输入图像大小信息,对训练集合中的每一个训练图像进行图像缩放处理,以使训练图像的大小符合手势检测模型的要求。
其中,可以预先设定手势检测模型的输入图像大小信息。
在实际应用中,由于输入图像的尺寸越大,需要卷积神经网络的深度越深,卷积神经网络的手势检测越准确,但是计算量会越大。本实施例中,针对应用于的不同的嵌入式设备,可以根据应用的嵌入式设备的运算能力和具体的手势检测场景来调整手势检测模型的输入图像大小信息。例如,嵌入式设备的CPU性能好,可以将手势检测模型的输入图像大小设置大一些;也可以根据实际手势检测场景中获取的图像的大小来设定手势检测模型的输入图像大小信息。
本实施例中,可以通过上述四种方式中的任意一种或者多种方式的组合对训练集合中的训练图像进行数据增强处理,若采用多种方式的组合对训练集合中的训练图像进行数据增强处理,本实施例对于不同方式的顺序不做具体限定。
通过执行以下步骤S203-S206,根据训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型。
步骤S203、根据第一训练集对卷积神经网络进行一轮训练及剪裁优化处理,得到本轮处理后的第一模型。
其中,第一训练集为训练集合的非空子集。
可选的,可以采用随机梯度下降的优化策略对卷积神经网络进行训练。
具体的,根据第一训练集对卷积神经网络进行一轮训练及剪裁优化处理,得到本轮处理后的第一模型,具体可以采用如下方式实现:
根据第一训练集对卷积神经网络进行一轮训练,得到本轮训练后的第二模型;将第二模型中所有小于本轮权重阈值的权重设为0,得到本轮处理后的第一模型,在后续的训练过程中,将不再更新设为0的权重。
其中,权重阈值在每一轮迭代中会不断地增加,权重阈值每次增加的增量可以由技术人员根据实际需要和经验进行设定,本实施例此处不做具体限定。
步骤S204、根据第二训练集判断本轮处理后的第一模型是否满足预设迭代条件。
其中,第二训练集为训练集合的非空子集。可选的,对第二训练集与第一训练集的交集为空集。
可选的,该步骤的一种可行的实施方式为:
根据第二训练,计算本轮处理后的第一模型的手势检测准确率;若本轮处理后的第一模型的手势检测准确率大于预设阈值,则确定本轮处理后的第一模型满足预设迭代条件;若本轮处理后的第一模型的手势检测准确率小于或者等于预设阈值,则确定本轮处理后的第一模型不满足预设迭代条件。
其中,预设阈值可以由技术人员根据实际需要和经验进行设定,本实施例此处不做具体限定。
可选的,该步骤的另一种可行的实施方式为:
根据第二训练,计算本轮处理后的第一模型的手势检测准确率;若本轮处理后的第一模型的手势检测准确率与第一轮处理后的第一模型的手势检测准确率的差值小于预设差值,则确定本轮处理后的第一模型满足预设迭代条件;若本轮处理后的第一模型的手势检测准确率小于第一轮处理后的第一模型的手势检测准确率,并且本轮处理后的第一模型的手势检测准确率与第一轮处理后的第一模型的手势检测准确率的差值大于或者等于预设差值,则确定本轮处理后的第一模型满足预设迭代条件。
其中,预设差值可以由技术人员根据实际需要和经验进行设定,本实施例此处不做具体限定。
若本轮处理后的第一模型满足预设迭代条件,则继续执行步骤S205,根据第一训练集对本轮处理后的第一模型进行新一轮训练集剪裁优化处理,直至新一轮处理后的第一模型不满足预设迭代条件时为止。
在迭代过程中第一模型的手势检测准确率可能会不断下降,该实施方式中当第一模型的手势检测准确率下降到不满足迭代条件时,后续迭代得到的第一模型手势检测准确率将无法满足需求,停止迭代。
若本轮处理后的第一模型不满足预设迭代条件,则停止迭代,执行步骤S206将本轮或者上一轮处理后的第一模型确定为手势检测模型。
步骤S205、根据第一训练集对本轮处理后的第一模型进行新一轮训练集剪裁优化处理。
在该步骤之后,执行步骤S204,继续判断新一轮处理后的第一模型是否满足预设迭代条件。
步骤S206、将本轮或者上一轮处理后的第一模型确定为手势检测模型。
可选的,若本轮处理后的第一模型的手势检测的准确率小于预设准确率,则将上一轮处理后的第一模型确定为手势检测模型;若本轮处理后的第一模型的手势检测的准确率大于或者等于预设准确率,则可以将本轮或者上一轮处理后的第一模型确定为手势检测模型。
可选的,可以将本轮处理后的第一模型和上一轮处理后的第一模型中手势检测的准确率高的作为最终的手势检测模型。
经过上述步骤S203-S205的多次迭代,得到的手势检测模型中大量的权重为0。在进行手势检测模型的计算过程中,涉及矩阵相乘的计算可以采用稀疏矩阵乘法来计算,可以降低计算量,从而可以提高手势检测的效率。
步骤S207、将手势检测模型中的BN(Batch Normalization)层叠加到对应的卷积层。
在实际应用中,卷积神经网络中通常在卷积层后会连接一个BN层,卷积层后的BN层通常用于对卷积层的输出进行线性变换。
该步骤为可选步骤,若手势检测模型中包括BN层,则在训练结束得到手势检测模型后,手势检测模型中的BN层的所有参数就都已经确定,该步骤中可以通过将BN层的线性变换操作直接叠加到对应卷积层权重上,去掉BN层,可以减少大量的冗余计算,从而提高提高手势检测的效率。
步骤S208、对手势检测模型的权重进行逐层量化处理,存储逐层量化处理后的手势检测模型。
在实际应用中,移动端的存储空间十分有限,并且在非Wifi环境下下载安装手势检测模型时的流量会产生费用。
本实施例中,对手势检测模型的权重进行逐层量化处理,存储逐层量化处理后的手势检测模型,实现对手势检测模型体积的压缩,可以减少手势检测模型所占用的存储空间。
具体的,如图3所示,对于手势检测模型种每一层的权重,确定这层所有权重中的最大值和最小值(例如,最大值为1,最小值为-1),然后将最小值和最大值构成的闭区间等分为预设刻度数量(例如256)个刻度,每个刻度值为整数;对于这层的每个权重,确定距离该权重最近的刻度值,将该权重对应到距离权重最近的刻度上,这样整个层的权重只有预设刻度数量(例如256)种数字,通过存储各权重对应的刻度索引,以及最大值和最小值,即可完成手势检测模型的存储。
另外,图3中仅仅示意出权重对应于一个刻度值,并未给出权重所对应的刻度值具体是哪一个刻度。图3仅仅对每层权重进行量化的原理进行示意性说明,其中的每个权重对应的刻度值为多少可以通过计算得到。
其中,预设刻度数量可以为2的n次幂,其中n为正整数。预设刻度数量可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。
例如,预设刻度数量可以为256,卷积神经网络模型中各层的权重为浮点型数据,而浮点型数据的存储需要占用32个bit,而整型数据的存储只需8个bit,索引这256个数字只需8个bit,可以达到压缩的效果。
通过在Imagenet上的实验结果,通过该步骤,在保证手势检测效果的前提下,可以将手势检测模型的存储空间缩小约70%。其中ImageNet是一个计算机视觉系统识别项目名称,是目前世界上图像识别最大的数据库。
步骤S209、将待检测图像输入手势检测模型,检测出待检测图像中手势的手势类型和位置。
本发明实施例通过对训练集合进行数据增强处理,可以增加训练集合中训练数据的数量;通过在训练过程中对卷积神经网络进行剪裁优化,得到的手势检测模型中大量的权重为0,在进行手势检测模型的计算过程中,涉及矩阵相乘的计算可以采用稀疏矩阵乘法来计算,可以降低计算量,通过在训练结束后将手势检测模型中的BN层叠加到对应的卷积层,可以减少大量的冗余计算,通过对手势检测模型进行量化存储,可以减少手势检测模型所占用的存储空间,从而提高使用该手势检测模型进行手势检测的效率。
实施例三
图4为本发明实施例三提供的手势检测模型处理装置的结构示意图。本发明实施例提供的手势检测模型处理装置可以执行手势检测模型处理方法实施例提供的处理流程。如图4所示,该装置40包括:数据获取模块401和训练优化模块402。
具体地,数据获取模块401用于获取训练集合,训练集合包括至少一组包括训练图像及训练图像的标注数据的训练数据。
训练优化模块402用于根据训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型。
本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过获取训练集合,根据训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型;通过将待检测图像输入手势检测模型,即可检测出待检测图像中手势的手势类型和位置,实现了对于不包括深度信息的待检测图像的手势识别,无需使用包含深度信息的硬件单元,降低了成本,且相较于现有技术采用聚类方法进行手势检测,本实施例通过卷积神经网络模型进行手势检测提高了手势检测的精度和效率。
实施例四
在上述实施例三的基础上,本实施例中,数据获取模块还用于:
对训练集合中的训练图像进行数据增强处理,得到训练图像对应的增强图像;获取增强图像的标注数据;将增强图像和增强图像的标注数据作为一组训练数据添加到训练集合中。
可选的,数据获取模块还用于:
对训练集合中的训练图像进行以下至少一种数据增强处理:对训练集合中的训练图像进行图像翻转处理;根据图像变换参数对训练集合中的训练图像进行图像变换处理,图像变换参数包括以下至少一种:亮度参数、饱和度参数和色度参数;对训练集合中的训练图像进行图像剪裁处理;以及,对训练集合中的训练图像进行图像缩放处理。
可选的,训练优化模块还用于:
根据第一训练集对卷积神经网络进行一轮训练及剪裁优化处理,得到本轮处理后的第一模型,第一训练集为训练集合的非空子集;根据第二训练集判断本轮处理后的第一模型是否满足预设迭代条件,第二训练集为训练集合的非空子集;若本轮处理后的第一模型满足预设迭代条件,则根据第一训练集对本轮处理后的第一模型进行新一轮训练集剪裁优化处理,直至新一轮处理后的第一模型不满足预设迭代条件时为止;若本轮处理后的第一模型不满足预设迭代条件,则将本轮或者上一轮处理后的第一模型确定为手势检测模型。
可选的,训练优化模块还用于:
根据第一训练集对卷积神经网络进行一轮训练,得到本轮训练后的第二模型;将第二模型中所有小于本轮权重阈值的权重设为0,得到本轮处理后的第一模型,在后续的训练过程中,将不再更新设为0的权重。
可选的,训练优化模块还用于:
根据第二训练,计算本轮处理后的第一模型的手势检测准确率;若本轮处理后的第一模型的手势检测准确率大于预设阈值,则确定本轮处理后的第一模型满足预设迭代条件;若本轮处理后的第一模型的手势检测准确率小于或者等于预设阈值,则确定本轮处理后的第一模型不满足预设迭代条件。
可选的,训练优化模块还用于:
根据第二训练,计算本轮处理后的第一模型的手势检测准确率;若本轮处理后的第一模型的手势检测准确率与第一轮处理后的第一模型的手势检测准确率的差值小于预设差值,则确定本轮处理后的第一模型满足预设迭代条件;若本轮处理后的第一模型的手势检测准确率小于第一轮处理后的第一模型的手势检测准确率,并且本轮处理后的第一模型的手势检测准确率与第一轮处理后的第一模型的手势检测准确率的差值大于或者等于预设差值,则确定本轮处理后的第一模型满足预设迭代条件。
可选的,训练优化模块还用于:将手势检测模型中的BN层叠加到对应的卷积层。
可选的,训练优化模块还用于:
对手势检测模型的权重进行逐层量化处理,存储逐层量化处理后的手势检测模型。
可选的,该装置还可以包括检测模块。检测模块用于将待检测图像输入手势检测模型,检测出待检测图像中手势的手势类型和位置。
本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过对训练集合进行数据增强处理,可以增加训练集合中训练数据的数量;通过在训练过程中对卷积神经网络进行剪裁优化,得到的手势检测模型中大量的权重为0,在进行手势检测模型的计算过程中,涉及矩阵相乘的计算可以采用稀疏矩阵乘法来计算,可以降低计算量,通过在训练结束后将手势检测模型中的BN层叠加到对应的卷积层,可以减少大量的冗余计算,通过对手势检测模型进行量化存储,可以减少手势检测模型所占用的存储空间,从而提高提高手势检测的效率。
实施例五
图5为本发明实施例五提供的手势检测模型处理设备的结构示意图。如图5所示,该设备50包括:处理器501,存储器502,以及存储在所述存储器502上并可由所述处理器501执行的计算机程序。
所述处理器501在执行存储在所述存储器502上的计算机程序时实现上述任一方法实施例提供的方法。
本发明实施例通过获取训练集合,根据训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型,将待检测图像输入手势检测模型,检测出待检测图像中手势的手势类型和位置,实现了对于不包括深度信息的待检测图像的手势识别,无需使用包含深度信息的硬件单元,降低了成本,且相较于现有技术采用聚类方法进行手势检测,本实施例通过卷积神经网络模型进行手势检测提高了手势检测的精度和效率。
另外,本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例提供的方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (20)

1.一种手势检测模型处理方法,其特征在于,包括:
获取训练集合,所述训练集合包括至少一组包括训练图像及训练图像的标注数据的训练数据;
根据所述训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型之前,还包括:
对所述训练集合中的训练图像进行数据增强处理,得到所述训练图像对应的增强图像;
获取所述增强图像的标注数据;
将所述增强图像和所述增强图像的标注数据作为一组训练数据添加到所述训练集合中。
3.根据权利要求2所述的方法,其特征在于,所述对所述训练集合中的训练图像进行数据增强处理,包括:
对所述训练集合中的训练图像进行以下至少一种数据增强处理:
对所述训练集合中的训练图像进行图像翻转处理;
根据图像变换参数对所述训练集合中的训练图像进行图像变换处理,所述图像变换参数包括以下至少一种:亮度参数、饱和度参数和色度参数;
对所述训练集合中的训练图像进行图像剪裁处理;
以及,
对所述训练集合中的训练图像进行图像缩放处理。
4.根据权利要求1所述的方法,其特征在于,所述根据所述训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型,包括:
根据第一训练集对所述卷积神经网络进行一轮训练及剪裁优化处理,得到本轮处理后的第一模型,所述第一训练集为所述训练集合的非空子集;
根据第二训练集判断所述本轮处理后的第一模型是否满足预设迭代条件,所述第二训练集为所述训练集合的非空子集;
若所述本轮处理后的第一模型满足所述预设迭代条件,则根据所述第一训练集对所述本轮处理后的第一模型进行新一轮训练集剪裁优化处理,直至新一轮处理后的第一模型不满足所述预设迭代条件时为止;
若所述本轮处理后的第一模型不满足所述预设迭代条件,则将本轮或者上一轮处理后的第一模型确定为所述手势检测模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一训练集对所述卷积神经网络进行一轮训练及剪裁优化处理,得到本轮处理后的第一模型,包括:
根据所述第一训练集对所述卷积神经网络进行一轮训练,得到本轮训练后的第二模型;
将所述第二模型中所有小于本轮权重阈值的权重设为0,得到所述本轮处理后的第一模型,在后续的训练过程中,将不再更新设为0的权重。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第二训练集判断所述本轮处理后的第一模型是否满足预设迭代条件,包括:
根据所述第二训练,计算所述本轮处理后的第一模型的手势检测准确率;
若所述本轮处理后的第一模型的手势检测准确率大于预设阈值,则确定所述本轮处理后的第一模型满足预设迭代条件;
若所述本轮处理后的第一模型的手势检测准确率小于或者等于所述预设阈值,则确定所述本轮处理后的第一模型不满足预设迭代条件。
7.根据权利要求4所述的方法,其特征在于,所述根据所述第二训练集判断所述本轮处理后的第一模型是否满足预设迭代条件,包括:
根据所述第二训练,计算所述本轮处理后的第一模型的手势检测准确率;
若所述本轮处理后的第一模型的手势检测准确率与第一轮处理后的第一模型的手势检测准确率的差值小于预设差值,则确定所述本轮处理后的第一模型满足预设迭代条件;
若所述本轮处理后的第一模型的手势检测准确率小于第一轮处理后的第一模型的手势检测准确率,并且所述本轮处理后的第一模型的手势检测准确率与第一轮处理后的第一模型的手势检测准确率的差值大于或者等于所述预设差值,则确定所述本轮处理后的第一模型满足预设迭代条件。
8.根据权利要求1所述的方法,其特征在于,所述根据所述训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型之后,还包括:
将所述手势检测模型中的BN层叠加到对应的卷积层。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述根据所述训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型之后,还包括:
对所述手势检测模型的权重进行逐层量化处理,存储逐层量化处理后的所述手势检测模型。
10.一种手势检测模型处理装置,其特征在于,包括:
数据获取模块,用于获取训练集合,所述训练集合包括至少一组包括训练图像及训练图像的标注数据的训练数据;
训练优化模块,用于根据所述训练集合中各训练图像和训练图像的标注数据,对卷积神经网络进行训练,得到手势检测模型。
11.根据权利要求10所述的装置,其特征在于,所述数据获取模块还用于:
对所述训练集合中的训练图像进行数据增强处理,得到所述训练图像对应的增强图像;
获取所述增强图像的标注数据;
将所述增强图像和所述增强图像的标注数据作为一组训练数据添加到所述训练集合中。
12.根据权利要求11所述的装置,其特征在于,所述数据获取模块还用于:
对所述训练集合中的训练图像进行以下至少一种数据增强处理:
对所述训练集合中的训练图像进行图像翻转处理;
根据图像变换参数对所述训练集合中的训练图像进行图像变换处理,所述图像变换参数包括以下至少一种:亮度参数、饱和度参数和色度参数;
对所述训练集合中的训练图像进行图像剪裁处理;
以及,
对所述训练集合中的训练图像进行图像缩放处理。
13.根据权利要求10所述的装置,其特征在于,所述训练优化模块还用于:
根据第一训练集对所述卷积神经网络进行一轮训练及剪裁优化处理,得到本轮处理后的第一模型,所述第一训练集为所述训练集合的非空子集;
根据第二训练集判断所述本轮处理后的第一模型是否满足预设迭代条件,所述第二训练集为所述训练集合的非空子集;
若所述本轮处理后的第一模型满足所述预设迭代条件,则根据所述第一训练集对所述本轮处理后的第一模型进行新一轮训练集剪裁优化处理,直至新一轮处理后的第一模型不满足所述预设迭代条件时为止;
若所述本轮处理后的第一模型不满足所述预设迭代条件,则将本轮或者上一轮处理后的第一模型确定为所述手势检测模型。
14.根据权利要求13所述的装置,其特征在于,所述训练优化模块还用于:
根据所述第一训练集对所述卷积神经网络进行一轮训练,得到本轮训练后的第二模型;
将所述第二模型中所有小于本轮权重阈值的权重设为0,得到所述本轮处理后的第一模型,在后续的训练过程中,将不再更新设为0的权重。
15.根据权利要求13所述的装置,其特征在于,所述训练优化模块还用于:
根据所述第二训练,计算所述本轮处理后的第一模型的手势检测准确率;
若所述本轮处理后的第一模型的手势检测准确率大于预设阈值,则确定所述本轮处理后的第一模型满足预设迭代条件;
若所述本轮处理后的第一模型的手势检测准确率小于或者等于所述预设阈值,则确定所述本轮处理后的第一模型不满足预设迭代条件。
16.根据权利要求13所述的装置,其特征在于,所述训练优化模块还用于:
根据所述第二训练,计算所述本轮处理后的第一模型的手势检测准确率;
若所述本轮处理后的第一模型的手势检测准确率与第一轮处理后的第一模型的手势检测准确率的差值小于预设差值,则确定所述本轮处理后的第一模型满足预设迭代条件;
若所述本轮处理后的第一模型的手势检测准确率小于第一轮处理后的第一模型的手势检测准确率,并且所述本轮处理后的第一模型的手势检测准确率与第一轮处理后的第一模型的手势检测准确率的差值大于或者等于所述预设差值,则确定所述本轮处理后的第一模型满足预设迭代条件。
17.根据权利要求10所述的装置,其特征在于,所述训练优化模块还用于:
将所述手势检测模型中的BN层叠加到对应的卷积层。
18.根据权利要求10-17任一项所述的装置,其特征在于,所述训练优化模块还用于:
对所述手势检测模型的权重进行逐层量化处理,存储逐层量化处理后的所述手势检测模型。
19.一种手势检测模型处理设备,其特征在于,包括:
存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,
所述处理器运行所述计算机程序时实现如权利要求1-9中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,存储有计算机程序,
所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的方法。
CN201810805273.1A 2018-07-20 2018-07-20 手势检测模型处理方法、装置、设备及存储介质 Active CN109117742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810805273.1A CN109117742B (zh) 2018-07-20 2018-07-20 手势检测模型处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810805273.1A CN109117742B (zh) 2018-07-20 2018-07-20 手势检测模型处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109117742A true CN109117742A (zh) 2019-01-01
CN109117742B CN109117742B (zh) 2022-12-27

Family

ID=64863079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810805273.1A Active CN109117742B (zh) 2018-07-20 2018-07-20 手势检测模型处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109117742B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110141232A (zh) * 2019-06-11 2019-08-20 中国科学技术大学 用于鲁棒肌电信号识别的数据增强方法
CN110276292A (zh) * 2019-06-19 2019-09-24 上海商汤智能科技有限公司 智能车运动控制方法及装置、设备和存储介质
CN111291756A (zh) * 2020-02-14 2020-06-16 平安科技(深圳)有限公司 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质
CN111860073A (zh) * 2019-04-30 2020-10-30 青岛海尔智能技术研发有限公司 一种食材图像识别的方法及装置、家电设备
CN112034450A (zh) * 2019-06-03 2020-12-04 富士通株式会社 物品检测方法和装置
CN112203053A (zh) * 2020-09-29 2021-01-08 北京市政建设集团有限责任公司 地铁施工人员行为智能监管方法及其系统
CN113743249A (zh) * 2021-08-16 2021-12-03 北京佳服信息科技有限公司 一种违章识别方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480600A (zh) * 2017-07-20 2017-12-15 中国计量大学 一种基于深度卷积神经网络的手势识别方法
CN108229318A (zh) * 2017-11-28 2018-06-29 北京市商汤科技开发有限公司 手势识别和手势识别网络的训练方法及装置、设备、介质
CN108257347A (zh) * 2018-01-10 2018-07-06 安徽大学 一种利用卷积神经网络的火焰图像序列分类方法及装置
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法
CN108288089A (zh) * 2018-01-29 2018-07-17 百度在线网络技术(北京)有限公司 用于生成卷积神经网络的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480600A (zh) * 2017-07-20 2017-12-15 中国计量大学 一种基于深度卷积神经网络的手势识别方法
CN108229318A (zh) * 2017-11-28 2018-06-29 北京市商汤科技开发有限公司 手势识别和手势识别网络的训练方法及装置、设备、介质
CN108257347A (zh) * 2018-01-10 2018-07-06 安徽大学 一种利用卷积神经网络的火焰图像序列分类方法及装置
CN108288089A (zh) * 2018-01-29 2018-07-17 百度在线网络技术(北京)有限公司 用于生成卷积神经网络的方法和装置
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860073A (zh) * 2019-04-30 2020-10-30 青岛海尔智能技术研发有限公司 一种食材图像识别的方法及装置、家电设备
CN112034450A (zh) * 2019-06-03 2020-12-04 富士通株式会社 物品检测方法和装置
CN110141232A (zh) * 2019-06-11 2019-08-20 中国科学技术大学 用于鲁棒肌电信号识别的数据增强方法
CN110141232B (zh) * 2019-06-11 2020-10-27 中国科学技术大学 用于鲁棒肌电信号识别的数据增强方法
CN110276292A (zh) * 2019-06-19 2019-09-24 上海商汤智能科技有限公司 智能车运动控制方法及装置、设备和存储介质
CN110276292B (zh) * 2019-06-19 2021-09-10 上海商汤智能科技有限公司 智能车运动控制方法及装置、设备和存储介质
CN111291756A (zh) * 2020-02-14 2020-06-16 平安科技(深圳)有限公司 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质
CN111291756B (zh) * 2020-02-14 2023-11-21 平安科技(深圳)有限公司 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质
CN112203053A (zh) * 2020-09-29 2021-01-08 北京市政建设集团有限责任公司 地铁施工人员行为智能监管方法及其系统
CN113743249A (zh) * 2021-08-16 2021-12-03 北京佳服信息科技有限公司 一种违章识别方法、装置、设备及可读存储介质
CN113743249B (zh) * 2021-08-16 2024-03-26 北京佳服信息科技有限公司 一种违章识别方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN109117742B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN109117742A (zh) 手势检测模型处理方法、装置、设备及存储介质
CN109902798A (zh) 深度神经网络的训练方法和装置
CN109871532A (zh) 文本主题提取方法、装置及存储介质
CN109711544A (zh) 模型压缩的方法、装置、电子设备及计算机存储介质
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN110209867A (zh) 图像检索模型的训练方法、装置、设备及存储介质
CN108287864A (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN111652378B (zh) 学习来选择类别特征的词汇
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN113705775A (zh) 一种神经网络的剪枝方法、装置、设备及存储介质
CN110119477A (zh) 一种信息推送方法、装置和存储介质
CN107832794A (zh) 一种卷积神经网络生成方法、车系识别方法及计算设备
CN109284761A (zh) 一种图像特征提取方法、装置、设备及可读存储介质
CN110378397A (zh) 一种驾驶风格识别方法及装置
CN109740057A (zh) 一种基于知识萃取的增强神经网络及信息推荐方法
CN109782906A (zh) 一种广告机的手势识别方法、交互方法、装置和电子设备
CN110321546A (zh) 账号识别、显示方法、装置、服务器、终端及存储介质
CN109272340B (zh) 参数阈值确定方法、装置及计算机存储介质
CN108090117A (zh) 一种图像检索方法及装置,电子设备
CN104778202B (zh) 基于关键词的事件演化过程的分析方法及系统
CN111783688A (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN110069647A (zh) 图像标签去噪方法、装置、设备及计算机可读存储介质
CN112529637B (zh) 基于情景感知的服务需求动态预测方法及系统
CN108932704A (zh) 图片处理方法、图片处理装置及终端设备
CN114373098A (zh) 一种图像分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant