CN114155562A - 手势识别方法及装置 - Google Patents

手势识别方法及装置 Download PDF

Info

Publication number
CN114155562A
CN114155562A CN202210120694.7A CN202210120694A CN114155562A CN 114155562 A CN114155562 A CN 114155562A CN 202210120694 A CN202210120694 A CN 202210120694A CN 114155562 A CN114155562 A CN 114155562A
Authority
CN
China
Prior art keywords
gesture
image data
gesture recognition
image
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210120694.7A
Other languages
English (en)
Inventor
高圣君
李长亮
徐支勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202210120694.7A priority Critical patent/CN114155562A/zh
Publication of CN114155562A publication Critical patent/CN114155562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种手势识别方法及装置,其中所述手势识别方法包括:通过图像采集设备采集手势图像数据;对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量;将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果,提高了手势识别的效率,并降低了手势识别所需的资源占用。

Description

手势识别方法及装置
技术领域
本申请涉及人工智能的人机交互技术领域,特别涉及手势识别方法及装置、计算设备和计算机可读存储介质。
背景技术
人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。
人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术。
体感交互是个体不需要借助任何复杂的控制系统,以体感技术为基础,直接通过肢体动作与周边数字设备装置和环境进行自然的交互。依照体感方式与原理的不同,体感技术主要分为三类:惯性感测、光学感测以及光学联合感测。体感交互通常由运动追踪、手势识别、运动捕捉、面部表情识别等一系列技术支撑。
随着人工智能的发展,用户对智能化设备的智能化需求越来越高,而手势识别作为一种简洁又直观的智能化人机交互方法,可以满足很多场景下用户对智能设备的智能化需求,提高用户对智能设备使用的便易性。而由于手势识别过程中需要耗费大量的计算资源,因此,对需要进行手势识别的智能设备的性能要求较高。目前手势识别主要面向的设备为PC(Personal Computer,个人电脑)或服务器等计算资源较为丰富的设备,而对于计算资源相对薄弱的客户端则不太适用。
发明内容
有鉴于此,本申请实施例提供了一种手势识别方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种手势识别方法,包括:
通过图像采集设备采集手势图像数据;
对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量;
将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果。
可选地,所述对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
通过执行多数据流类型的汇编指令对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
可选地,所述通过执行多数据流类型的汇编指令对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
计算所述手势图像数据中像素点的每个通道值对应的平均值以及方差;
在所述手势图像数据的像素点的像素值中获取至少一个像素序列,其中每个像素序列包含设定数量的目标像素值;
通过执行多数据流类型的第一汇编指令将所述至少一个像素序列中包含的目标像素值并行化加载至第一寄存器;
通过执行多数据流类型的第二汇编指令将所述目标像素值对应的平均值以及方差加载至第二寄存器;
通过执行多数据流类型的第三汇编指令对将所述第一寄存器中的目标像素值、与所述第二寄存器中的平均值以及方差进行归一化计算,获得所述目标像素值对应的图像归一化向量。
可选地,所述对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量之前,还包括:
将所述手势图像数据进行格式转换,获得设定格式的手势图像数据;
所述对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
对所述设定格式的手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
可选地,所述将所述手势图像数据进行格式转换,获得设定格式的手势图像数据,包括:
将所述手势图像数据转换为目标编码格式的手势图像数据;或,
将所述手势图像数据转换为目标存储格式的手势图像数据;或,
将所述手势图像数据转换为目标编码格式的手势图像数据,并将目标编码格式的手势图像数据转换为目标存储格式的手势图像数据。
可选地,所述对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量之前,还包括:
在确定所述手势图像数据存在偏移旋转角度的情况下,确定所述偏移旋转角度对应的位置映射关系;
根据所述位置映射关系对所述手势图像数据中像素点进行位置转换,获得矫正后的手势图像数据;
相应的,所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
对矫正后的手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
可选地,所述将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果,包括:
将所述图像归一化向量输入预先量化的手势识别模型,获得所述手势识别模型输出的手势检测框以及手势类型;
将所述手势检测框以及所述手势类型作为手势识别结果。
可选地,所述将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果,包括:
将所述图像归一化向量输入预先量化的手势识别模型中的特征提取模块进行特征提取,获得所述特征提取模块输出的图像特性向量;
将所述图像特征向量分别输入手势识别模型中的第一卷积层以及第二卷积层,获得所述第一卷积层输出的手势检测框以及所述第二卷积层输出的手势类型,将所述手势检测框以及所述手势类型作为所述手势识别模型输出的手势识别结果。
可选地,所述将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果之后,还包括:
基于手势识别结果,确定所述手势图像数据对应的手势类型;
执行所述手势类型对应的应用策略。
根据本申请实施例的第二方面,提供了一种手势识别装置,包括:
采集模块,被配置为通过图像采集设备采集手势图像数据;
处理模块,被配置为对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量;
识别模块,被配置为将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述手势识别方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,所述计算机指令被处理器执行时实现所述手势识别方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,所述计算机指令被芯片执行时实现所述手势识别方法的步骤。
本申请实施例中,通过图像采集设备采集手势图像数据;对手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量;将图像归一化向量输入预先量化的手势识别模型,获得手势识别结果。减少了手势识别模型的资源占用,并提高了手势识别的效率。
附图说明
图1是本申请一实施例提供的计算设备的结构框图;
图2是本申请一实施例提供的手势识别方法的示意图;
图3是本申请一实施例提供的手势识别方法的流程图;
图4是本申请一实施例提供的一种应用于移动客户端的手势识别方法的处理流程图;
图5是本申请一实施例提供的手势识别方法中手势识别数据以及手势识别结果的示意图;
图6是本申请一实施例提供的手势识别装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
YUV:是一种颜色编码方法,其中,“Y”表示明亮度(Luminance或Luma),也就是灰阶值,“U”和“V”表示的则是色度(Chrominance或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色。
Libyuv:是开源的实现各种YUV与RGB之间相互转换、旋转、缩放的库。
RGB(红、绿、蓝):是工业界的一种颜色标准,是通过对红(Red)、绿(Green)、蓝(Blue)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。
CMYK:印刷四色模式是彩色印刷时采用的一种套色模式,利用色料的三原色混色原理,加上黑色油墨,共计四种颜色混合叠加,形成所谓“全彩印刷”。四种标准颜色是:C:Cyan = 青色,又称为‘天蓝色’或是‘湛蓝’M:Magenta = 品红色,又称为‘洋红色’;Y:Yellow = 黄色;K:blacK = 黑色,虽然有文献解释说这里的K应该是Key Color(定位套版色),但其实是和制版时所用的定位套版观念混淆而有此一说。此处缩写使用最后一个字母K而非开头的B,是为了避免与Blue混淆。CMYK模式是减色模式,相对应的RGB模式是加色模式。
MobileNet v2:一种轻量化的深度学习分类模型作为手势识别的分类模型。
KNN(k-NearestNeighbor,k最邻近分类算法):是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,是指每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。
随机森林:是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
量化:一种模型压缩方法,将神经网络的浮点运算转为定点,进而减少权重占用的内存大小。
NEON Assembly:一种用于ARM Cortex-A系列处理器的128位的SIMD扩展结构,用于移动端对图像数据进行快速处理。
深度可分离卷积:将标准化卷积分解为逐深度卷积(depthwise convolution)和逐点1x1卷积(pointwise convolution)。对于MobileNets,逐个深度卷积将单个滤波器应用到每一个输入通道。然后,逐点卷积用1x1卷积来组合不同深度卷积的输出。
BatchNormalization(批量标准化):用以将数据转换到[0,1]之间。
在本申请中,提供了一种手势识别方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802。11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
参见图2,图2示出了根据本申请一实施例提供的手势识别方法的示意图。
具体的,如图2所示,将手势识别方法分为三个处理流程,这三个处理流程分别为:摄像头数据处理、模型预处理以及模型识别。这三个处理流程之间彼此衔接,实现对图像数据的手势识别。
其中,摄像头数据处理是通过手机摄像头获取YUV格式的图像数据,该图像数据为byte[]类型的数组(该byte[]类型的数组是指由byte类型的图像数据组成的数组)。基于Libyuv将YUV数据转为RGB格式,并将格式转换处理后的图像数据进行矫正,获得矫正图像数据。
在通过摄像头数据处理获得矫正图像数据的基础上,对矫正图像数据进行模型预处理。该模型预处理是对矫正图像数据进行并行化重排,并将并行化数据用NEON assembly进行归一化处理,获得图像归一化向量。
进一步的,对模型预处理输出的图像归一化向量进行模型识别。该模型是通过Int8量化的方式精简模型权重,获得的量化后的模型,将图像归一化向量输入量化后的模型进行识别推理,即可获得识别结果。
本申请实施例,通过将采集的图像数据进行并行地归一化处理,提高了对图像数据的识别效率。并将处理后的数据输入量化后的模型进行识别处理,降低了通过手机进行手势识别的计算压力。
其中,处理器120可以执行图3所示手势识别方法中的步骤。图3示出了根据本申请一实施例提供的手势识别方法的流程图,具体包括如下步骤:
步骤302:通过图像采集设备采集手势图像数据。
图像采集设备,是指客户端装配或外携带的照相机、摄像头等具有拍照功能的设备。手势图像数据,是指通过图像采集设备采集的带有手势图像特征的图像数据。实际应用中,该手势图像数据可以为有像素点的像素值组成的一维数组。
实际应用中,为了简化用户对智能设备的操作,或者提高用户的趣味性,可以使用户面向图像采集设备做出某种手势。并通过图像采集设备对这种手势以手势图像数据的形式进行采集。再通过对该手势图像数据的识别执行与识别结果对应的预设操作。
具体实施时,由于手势识别过程中需要耗费大量的计算资源,因此,对需要进行手势识别的智能设备的性能要求较高。而需要手势识别的应用场景通常在客户端。考虑到客户端的计算资源相对比较薄弱,如果运行复杂的手势识别,将对客户端造成计算压力。有鉴于此,为了使手势识别在客户端进行手势识别具有可实施性,本申请通过客户端直接对手势图像数据进行手势识别,提高了手势识别的效率,并减少了手势识别模型对移动客户端的资源占用。
其中,客户端可以包括手机、平板电脑等移动智能设备,也可以包括台式机、电脑一体机、笔记本电脑等智能设备,在此不做限制。
比如:通过摄像头采集用户U的手势图像数据GI。
步骤304:对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
具体的,在上述采集手势图像数据的基础上,为了便于通过手势识别模型对手势图像数据进行处理,需要将手势图像数据进行归一化处理。此外,考虑到手势图像数据中像素点的数量较多,若依次对这些像素点的像素值进行归一化处理,耗时较长。因此,为了提高处理效率,可以对这些手势图像数据中像素点的像素值进行并行归一化处理。
归一化处理是数据挖掘中特征向量表达时的重要问题,当不同的特征陈列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,需要对抽取出来的特征进行归一化处理,以保证每个特征被平等对待。实际应用中,归一化处理的方式是多种多样的,比如线性归一化、零均值归一化以及非线性归一化等,在此不做限制。而并行归一化处理,是指对手势图像数据中至少两个像素点并行地进行归一化处理。相应地,图像归一化向量是指对像素点的像素值进行归一化处理之后形成的向量值。
具体实施时,可以通过如下公式1进行线性归一化处理:
Figure 913527DEST_PATH_IMAGE001
其中,Ri为手势图像数据中第i个像素点的R通道值,Rvi为对Ri进行线性归一化处理后的值,Rmax为手势图像数据中像素点的通道值中的最大R通道值,Rmin为手势图像数据中像素点的通道值中的最小R通道值。类似地,其他通道值(比如G通道值或B通道值)的归一化处理,也可以参考上述公式1,在此不再赘述。
此外,还可以通过如下公式2进行零均值归一化处理:
Figure 951890DEST_PATH_IMAGE002
其中,Ri为手势图像数据中第i个像素点的R通道值,Rvi为对Ri进行线性归一化处理后的值,Ru为手势图像数据中所有像素点的R通道值的均值,Rv为手势图像数据中所有像素点的R通道值的方差。类似地,其他通道值(比如G通道值或B通道值)的归一化处理,也可以参考上述公式2,在此不再赘述。
具体实施时,考虑到通过图像采集设备采集到的手势图像数据可能与手势识别模型中需要处理的数据格式不同的。因此,需要预先对采集的手势图像数据进行预处理,将手势图像数据转换为手势识别模型中可以处理的数据格式,再进行归一化处理。本申请实施例,具体通过如下方式实现:
将手势图像数据进行格式转换,获得设定格式的手势图像数据;
相应的,对手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
对设定格式的手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
由于手势图像数据的本质是图像数据,而图像数据通常是由组成图像的像素点的像素值组成。而这些像素值的存储方式或编码方式可能由于所采用的图像采集设备不同而不同。为了便于对采集的手势图像数据的格式直接进行手势识别,需要预先对手势图像数据进行格式转换。
其中,设定格式,是指预先设置的用以进行手势识别的图像格式。该格式可以包括手势图像数据中色彩的编码格式和/或存储格式。具体的,色彩的编码格式包括:YUV格式、RGB格式、CMYK格式等;色彩的存储格式包括:打包(packed)格式,也可以是平面(planar)格式等,在此不做限制。
其中,打包格式是指将像素的通道值存放在同一个数组中,通常是几个相邻的像素组成一个宏像素(macro-pixel)。即将像素点的各个通道像素值按照像素点进行存储,比如YUV格式的图像以打包格式存储为:[Y1,U1,V1,Y2,U2,V2,Y3,U3,V3];而平面格式是使用不同数组分开存放向量的几个通道值。即将像素点的各个通道像素值按照通道类型进行存储,比如YUV格式的图像以平面格式存储为:[Y1,Y2,Y3,U1,U2,U3,V1,V2,V3]。
进一步的,对设定格式的手势图像数据中像素点的像素值进行并行化的归一化处理,需要根据手势图像数据的预设格式选择合宜的归一化方式进行处理即可。
具体实施时,将手势图像数据进行格式转换,获得设定格式的手势图像数据,具体包括如下三种方式:
方式一:将手势图像数据转换为目标编码格式的手势图像数据。
目标编码格式,是指用于进行手势识别处理的色彩的编码格式。实际应用中,由于图像采集设备所采集的手势图像数据通常为YUV格式,而可以用于手势识别处理的图像数据通常为RGB格式。因此,在手势图像数据的编码格式不为RGB格式的情况下,通常需要将手势图像数据转换为RGB格式的手势图像数据。
具体实施时,YUV与RGB转换格式之间的存在映射关系,因此,二者之间可以通过如下3个公式进行转换:
R = Y + 1.403 * (V – 128),公式3
G = Y - 0.343 * (U - 128) - 0.714 * (V - 128),公式4
B = Y + 1.770 * (U - 128),公式5
其中,公式3用于将通过将YUV格式中的Y值和V值转换为RGB格式中的R值;公式4用于将通过将YUV格式中的U值和V值转换为RGB格式中的G值;公式5用于将通过将YUV格式中的Y值和U值转换为RGB格式中的B值。
此外,还可以基于Libyuv对手势图像数据进行格式转换。基于Libyuv的格式转换,可以大幅缩减格式转换的预处理耗时。
方式二:将手势图像数据转换为目标存储格式的手势图像数据。
目标存储格式,是指对手势图像数据进行手势识别时所需采用的色彩的存储格式。实际应用中,由于进行手势识别时,通常所需的手势图像数据的存储格式为平面格式。因此,在手势图像数据不为平面格式的情况下,需要将手势图像数据转换为平面格式。
实际应用中,通过对手势图像数据中像素点的像素值的通道值进行位置关系的转换(重排),即可对其存储格式进行转换。具体实施时,可以并行地对至少两个像素点的通道值或并行地对至少两个通道值进行位置转换,从而提高转换效率。
假设手势图像数据中包括4个像素点的通道值,这4个像素点的通道值以打包格式存储为:[R1,G1,B1,R2,G2,B2,R3,G3,B3,R4,G4,B4];将这些通道值进行位置关系的重排,转换为平面格式的手势图像数据为:[R1,R2,R3,R4,G1,G2,G3,G4,B1,B2,B3,B4]。
方式三:将手势图像数据转换为目标编码格式的手势图像数据,并将目标编码格式的手势图像数据转换为目标存储格式的手势图像数据。
具体的,将手势图像数据转换为目标编码格式的手势图像数据的具体实现与方式一的具体实现类似,将目标编码格式的手势图像数据转换为目标存储格式的手势图像数据的具体实现与上述方式二的具体实现类似,在此不做赘述。
综上,通过以上三种方式对手势图像数据进行预处理,使采集的手势图像数据可以满足进行手势识别的数据格式需求,提高了手势识别的识别效率。
此外,考虑到采集的手势图像数据由于图像采集设备以及采集设置或采集方式的不同,可能导致手势图像数据存在偏移旋转角度的情况。针对这种情况,为了提高识别准确率,需要将手势图像数据进行矫正。因此,本申请实施例,具体通过如下方式实现:
在确定手势图像数据存在偏移旋转角度的情况下,确定偏移旋转角度对应的位置映射关系;
根据位置映射关系对手势图像数据中像素点进行位置转换,获得矫正后的手势图像数据;
手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
对矫正后的手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
偏移旋转角度,是指采集的手势图像数据所形成的手势图像与正向手势图像之间的偏移角度。该偏移旋转角度,与摄像头的采集角度有关,也与对摄像头的采集设置有关。其可以是90度、-90度,180度,270度等,在此不做限制。实际应用中,由于在手势图像数据存在偏移旋转角度的情况下,会影响手势识别的准确性。因此,需要对存在偏移旋转角度的手势图像数据进行矫正。而存在偏移旋转角度的手势图像数据中像素点与正向手势图像对应的正向手势图像数据之间像素点是存在位置映射关系(即像素位置映射关系)的,该位置映射关系可以通过对像素点进行旋转获得。
基于该位置映射关系对手势图像数据中像素点进行位置转换,获得矫正后的手势图像数据(即矫正后的手势图像数据)。再对矫正后的手势图像数据中的像素点的像素值进行并行归一化处理即可。
沿用上例,在采集用户U的手势图像数据GI的基础上,在确定手势图像数据GI存在偏移旋转角度-90度的情况下,确定该偏移旋转角度-90度对应的位置映射关系。将该手势图像数据GI的像素点按照该位置映射关系进行位置转换,即可获得矫正后的手势图像数据GI1。再通过归一化算法对矫正后的手势图像数据GI1中像素点的像素值进行归一化处理,即可获得矫正后的手势图像数据GI1对应的图像归一化向量。
综上,通过对存在偏移旋转角度的手势图像数据进行矫正,再进行归一化化处理,保障了后续手势识别的准确性。
进一步的,由于归一化处理的计算量较多,可能导致归一化处理耗时较长。为了提高归一化处理的效率,可以通过多数据流类型的汇编指令执行归一化处理,本申请实施例,具体通过如下方式实现:
通过执行多数据流类型的汇编指令对手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
多数据流类型的汇编指令,可以理解为单指令流多数据流(Single InstructionMultiple Data,SIMD)的汇编指令。该汇编指令是采用一个控制器来控制多个处理器,同时对一组数据中的每一个分别执行相同的操作从而实现空间上的并行性的技术。
具体的,多数据流类型的汇编指令,可以包括MMX(Multi-Media Extension,多媒体扩展)多媒体指令集中的指令、SSE(Streaming SIMD Extensions)指令集的指令、SSE2(Streaming SIMD Extensions 2)指令集的指令、NEON Assembly指令等,在此不做限制。
综上,通过多数据流类型的汇编指令对手势图像数据中像素点的像素值进行并行归一化处理,提高了归一化处理的效率。
进一步的,由于汇编指令通过一条命令执行一个计算步骤,而归一化处理通常包含多个计算步骤,因此,需要多个汇编指令配合共同完成归一化处理,本申请实施例,具体通过如下方式实现:
计算手势图像数据中像素点的每个通道值对应的平均值以及方差;
在手势图像数据的像素点的像素值中获取至少一个像素序列,其中每个像素序列包含设定数量的目标像素值;
通过执行多数据流类型的第一汇编指令将至少一个像素序列中包含的目标像素值并行化加载至第一寄存器;
通过执行多数据流类型的第二汇编指令将目标像素值对应的平均值以及方差加载至第二寄存器;
通过执行多数据流类型的第三汇编指令对将第一寄存器中的目标像素值、与第二寄存器中的平均值以及方差进行归一化计算,获得目标像素值对应的图像归一化向量。
具体的,计算手势图像数据的像素点的每个通道值的平均值以及方差。由于RGB格式的手势图像数据中包括3个通道值,这3个通道值分别为:R值,G值,以及B值。其中,R通道值对应的平均值为手势图像数据中所有R值的平均值;R通道值对应的方差为手势图像数据中所有R值的方差。类似地,G通道值对应的平均值为手势图像数据中所有G值的平均值;G通道值对应的方差为手势图像数据中所有G值的方差;B通道值对应的平均值为手势图像数据中所有B值的平均值;B通道值对应的方差为手势图像数据中所有B值的方差。
在计算平均值以及方差的基础上,获取包含设定数量(比如4个、5个等预先设置的数量)的目标像素值组成像素序列,对像素序列中这设定数量的目标像素值并行化地进行归一化处理。
具体的,第一汇编指令,是指将目标像素值加载至寄存器(即第一寄存器)的汇编指令;相应地,第二汇编指令,是指将目标像素值对应的平均值以及方差加载至寄存器(即第二寄存器)的汇编指令;第三汇编指令是指对将目标像素值与平均值进行相减的指令以及对相减结果与方差计算商值的汇编指令。
以汇编指令为NEON Assembly汇编指令为例,通过执行NEON Assembly汇编指令中的像素值加载指令将像素序列S1中包含4个的目标像素值从内存并行化加载至NEON寄存器中。通过执行NEON Assembly汇编指令中的平均值加载指令将4个的目标像素值对应的平均值
Figure 961434DEST_PATH_IMAGE004
并行化加载至NEON寄存器v1中,且通过执行NEON Assembly汇编指令中的方差加载指令将这4个的目标像素值对应的方差R2并行化加载至NEON寄存器v2中。再通过执行NEONAssembly汇编指令中的相减指令,并行化计算NEON寄存器v0中4个目标像素值和NEON寄存器v1中对应的平均值
Figure 152375DEST_PATH_IMAGE004
的差值。将4个差值存储至NEON寄存器v3中。再通过执行NEONAssembly汇编指令中的求商指令,并行化计算NEON寄存器v3中4个差值与NEON寄存器v2中的方差R2的4个商值,并将这4个商值作为这4个目标像素值对应的图像归一化向量V1,并将获得图像归一化向量V1返回至内存。
综上,通过执行上述多数据流类型的汇编指令,将手势图像数据中像素点的并行化地进行归一化处理,提高了归一化处理的效率。
步骤306:将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果。
具体的,在上述进行并行归一化处理的基础上,将图像归一化向量输入预先量化的手势识别模型进行手势识别,获得手势识别结果。该手势识别结果中可以包括手势类型、手部骨骼关键点、手势检测框等,在此不做限制。
其中,手势识别模型,可以为预先训练的KNN模型、随机森林、轻量网络Mobilenetv2模型等,在此不做限制。实际应用中,常规的模型权重为FP32精度的类型,模型会占用较大的空间资源。为了进一步减少手势识别模型进行量化处理。具体的,可以将Mobilenet v2模型中卷积层的权重从Float32(浮点)类型量化为Int8(整数)类型。
实际应用中,由于所采用的手势识别模型的不同,获得的手势识别结果也有所不同。此外,由于手势识别模型可能在识别过程中输出很多内容。其中有些内容可以作为手势识别结果满足应用场景的需要,还便于用户了解识别的准确性。本申请实施例,在通过预先量化的手势识别模型进行手势识别时,可以将识别出的手势检测框以及手势类型作为手势识别结果。具体通过如下方式实现:
将图像归一化向量输入预先量化的手势识别模型,获得手势识别模型输出的手势检测框以及手势类型;
将手势检测框以及手势类型作为手势识别结果。
手势检测框,是指图像中手势图像特征所处位置的包围框。手势类型,是指手指姿势所属的类别。
沿用上例,将手势图像数据GI中每个像素点的像素值对应的图像归一化向量输入量化后的Mobilenet v2模型中,获得该Mobilenet v2模型输出的手势检测框Dbox以及手势类型“点赞”。并将该手势检测框Dbox以及手势类型“点赞”作为手势识别结果。
综上,通过将手势检测框以及手势类型作为手势识别结果,提高了手势识别结果的丰富性,并便于对手势识别结果进行准确性判断。
进一步的,将图像归一化向量输入预先量化的手势识别模型,获得手势识别结果,包括:
将图像归一化向量输入预先量化的手势识别模型中的特征提取模块进行特征提取,获得特征提取模块输出的图像特性向量;
将图像特征向量分别输入手势识别模型中的第一卷积层以及第二卷积层,获得第一卷积层输出的手势检测框以及第二卷积层输出的手势类型,将手势检测框以及手势类型作为手势识别模型输出的手势识别结果。
具体实施时,该手势识别模型的模型组件中可以包括:特征提取模块以及两个卷积层(即第一卷积层以及第二卷积层)。以手势识别模型为轻量网络Mobilenet v2模型为例,特征提取模块中可以包括:深度可分离卷积、BatchNormalization(批量标准化)、Relu6非线性激活、四层反残差网络结构;两个卷积层可以都为3*3卷积层。其中,每层反残差网络结构都由深度可分离卷积、BatchNormalization、ReLU6非线性激活、常规卷积构成。这些反残差网络结构彼此相连,用于对图像归一化向量进行不同层级特征向量的提取。具体的,第一层反残差网络结构与第二层反残差网络结构进行残差连接。
此外,两个3*3卷积层中第一个卷积层用于对从四层反残差网络结构提取的图像特征向量进行手势检测框检测输出手势检测框,第二个3*3卷积层用于对从四层反残差网络结构提取的图像特征向量进行分类处理输出手势类型。
综上,通过量化后的手势识别模型中的特征提取模块进行特征提取,并通过两个卷积层分别对提取的特征进行手势检测框的检测以及分类处理,在降低了手势识别模型的资源占用的情况下,保障了手势识别的准确性并提高了手势识别的性能。
实际应用中,手势识别通常具有实际的场景需求。为了满足手势识别的场景需求,可以为手势识别结果中的手势类型设置对应的应用策略。再通过执行该应用策略满足手势识别的场景需求。本申请实施例,具体通过如下方式实现:
基于手势识别结果,确定手势图像数据对应的手势类型;
执行手势类型对应的应用策略。
具体的,应用策略是指预先针对手势类型设置的执行策略。实际应用中,该应用策略是多种多样的,比如,该应用策略,可以是针对手势类型播放相应的动画特效(比如针对比心手势设置的应用策略为展示红心飘出特效,针对抱拳手势设置的应用策略为展示红包雨策略等,在此不做限制);该应用策略,也可以是发送针对目标音乐的音乐播放指令,并响应于该音乐播放指令播放目标音乐;或者是发送应用开启指令,并响应于该应用开启指令,开启目标应用(比如视频应用、游戏应用等)等,此外,该应用策略,还可以是对手势类型进行核验,并在核验通过的基础上,执行页面跳转;本实施例中,可以根据实际需要进行设置,在此不做限制。
沿用上例,根据手势识别结果确定手势图像数据GI对应的手势类型为“点赞”。该“点赞”手势类型对应的应用策略为开启A应用,则执行开启A应用。
综上,基于手势识别结果中的手势类型,执行手势类型对应的应用策略,增加了对手势识别结果应用的灵活性以及多样性。
本申请实施例中,通过图像采集设备采集手势图像数据;对手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量;将图像归一化向量输入预先量化的手势识别模型,获得手势识别结果。实现了减少手势识别模型的资源占用,并提高了手势识别的效率。
下述结合附图4,以本申请提供的手势识别方法在移动客户端中的应用为例,对手势识别方法进行进一步说明。其中,图4示出了本申请一实施例提供的一种应用于移动客户端的手势识别方法的处理流程图,具体包括以下步骤:
步骤402:通过移动客户端的图像采集设备采集手势图像数据。
其中,移动客户端可以包括手机、平板电脑等可移动的智能设备,在此不做限制。具体的,该手势图像数据对应的图像如图5中的(a)部分所示。
基于此,通过手机内置的摄像头采集带有用户手势的手势图像数据P。
步骤404:将手势图像数据转换为目标编码格式的手势图像数据。
具体的,在手势图像数据P为由n个YUV格式的像素值组成的一维图像数组[Y1,U1,V1,Y2,U2,V2,……,Yn,Un,Vn]的情况下,将该一维图像数组中的数值,通过上述公式3、公式4以及公式5进行转换,获得由n个RBG格式的像素值组成的一维图像数组[R1,G1,B1,R2,G2,B2,……,Rn,Gn,Bn]。
步骤406:在确定手势图像数据存在偏移旋转角度的情况下,确定偏移旋转角度对应的像素位置映射关系。
具体的,在手势图像数据P所形成的图像存在-90度偏移旋转角度的情况下,根据-90度偏移旋转角度,确定该手势图像数据P进行-90度偏移时像素点的位置映射关系M。
步骤408:根据位置映射关系对手势图像数据中像素点进行位置转换,获得矫正后的手势图像数据。
具体的,根据位置映射关系M对手势图像数据P中的像素点的像素值进行位置转换,即可获得矫正后的手势图像数据P1,具体的,矫正后的手势图像数据P1=[R11,G11,B11,R22,G22,B22,……,Rnn,Gnn,Bnn]。
步骤410:将矫正后的手势图像数据转换为目标存储格式的手势图像数据。
基于此,在矫正后的手势图像数据P1的存储格式不为平面格式的情况下,将该矫正后的手势图像数据P1转换为平面格式的手势图像数据P2,转换后的手势图像数据为P2=[R11,R22,……,Rnn,G11,G22,……,Gnn,B11,B22,……,Bnn]。
步骤412:计算手势图像数据中像素点的每个通道值对应的平均值以及方差。
基于此,对手势图像数据P2=[R11,R22,……,Rnn,G11,G22,……,Gnn,B11,B22,……,Bnn]中的所有的R值求平均值,获得的平均值
Figure 221963DEST_PATH_IMAGE005
=(R11+R22+……+Rnn)/n;类似地,对手势图像数据P2中所有的G值求平均值,获得的平均值
Figure 747622DEST_PATH_IMAGE006
=(G11+G22+……+Gnn)/n;对手势图像数据P2中所有的B值求平均值,获得的平均值
Figure 826436DEST_PATH_IMAGE007
=(B11+B22+……+Bnn)/n;再对手势图像数据P2中所有的R值求方差,获得的方差为R2=((R11-
Figure 58834DEST_PATH_IMAGE008
2+(R22-
Figure 627219DEST_PATH_IMAGE009
2+……+(Rnn-
Figure 312278DEST_PATH_IMAGE005
2)/n;类似地,对转换后的手势图像数据P2中所有的G值求方差,获得的方差为G2=((G11-
Figure 991521DEST_PATH_IMAGE010
2+(G22-
Figure 344005DEST_PATH_IMAGE011
2+……+(Gnn-
Figure 20974DEST_PATH_IMAGE012
2)/n;对手势图像数据P2中所有的B值求方差,获得的方差为B2=((B11-
Figure 6379DEST_PATH_IMAGE013
2+(B22-
Figure 161417DEST_PATH_IMAGE014
2+……+(Bnn-
Figure 430724DEST_PATH_IMAGE015
2)/n。
步骤414:在手势图像数据的像素点的像素值中获取至少一个像素序列,其中每个像素序列包含设定数量的目标像素值。
具体的,设定数量,是指预先设置的进行并行化处理的像素值的数量,改设定数量可以为4,5,6等,在此不做限制。实际应用中,可以按照设定数量对手势图像数据的像素点的像素值进行划分,获得至少一个像素序列。
基于此,对手势图像数据P2=[R11,R22,……,Rnn,G11,G22,……,Gnn,B11,B22,……,Bnn]的像素点的像素值按照预设数量4进行划分,获得m=n/4个像素序列。
步骤416:通过执行多数据流类型的第一汇编指令将至少一个像素序列中包含的目标像素值并行化加载至第一寄存器。
基于此,通过执行NEON Assembly汇编指令中的像素值加载指令将m个像素序列中每个像素序列包含4个的目标像素值从内存并行化加载至NEON寄存器中,其中,像素序列s1中包含的4个目标像素值为R11,R22,R33,R44,将这4个目标像素值从内存并行化加载至NEON寄存器v0中。
步骤418:通过执行多数据流类型的第二汇编指令将目标像素值对应的平均值以及方差加载至第二寄存器。
基于此,通过执行NEON Assembly汇编指令中的平均值加载指令将4个的目标像素值R11,R22,R33,R44对应的平均值
Figure 278594DEST_PATH_IMAGE005
并行化加载至NEON寄存器v1中,且通过执行NEONAssembly汇编指令中的方差加载指令将这4个的目标像素值对应的方差R2并行化加载至NEON寄存器v2中。
步骤420:通过执行多数据流类型的第三汇编指令对将第一寄存器中的目标像素值、与第二寄存器中的平均值以及方差进行归一化计算,获得目标像素值对应的图像归一化向量。
基于此,通过执行NEON Assembly汇编指令中的相减指令,并行化计算NEON寄存器v0中4个目标像素值R11,R22,R33,R44和NEON寄存器v1中对应的平均值
Figure 203825DEST_PATH_IMAGE005
的差值;将4个差值存储至NEON寄存器v3中;再通过执行NEON Assembly汇编指令中的求商指令,并行化计算NEON寄存器v3中4个差值与NEON寄存器v2中的方差R2的4个商值。将这4个商值作为这4个目标像素值R11,R22,R33,R44对应的图像归一化向量V1,并将获得图像归一化向量V1返回至内存。
步骤422:将图像归一化向量输入预先量化的手势识别模型,获得手势识别模型输出的手势检测框以及手势类型,并将手势检测框以及手势类型作为手势识别结果。
具体的,将对m个像素序列中目标像素值对应的图像归一化向量V1至Vm ,输入预先量化的手势识别模型M,获得该手势识别模型M输出的如图5中的(b)部分中的手势检测框以及手势类型“OK类型”作为手势识别结果。
步骤424:执行手势识别结果中手势类型对应的应用策略。
基于此,执行手势类型“OK类型”对应的视频应用开启策略,具体的,发送针对A视频应用的开启指令,并响应于该开启指令,开启A视频应用。
综上所述,通过对采集的手势图像数据进行并行归一化处理,提高了数据处理的速度,并通过量化的手势识别模型减少对移动客户端的资源占用,实现了在移动客户端有限的硬件资源的条件下对用户手势进行识别,不仅减少了识别时间,也提高了手势识别的性能。
与上述方法实施例相对应,本申请还提供了手势识别装置实施例,图6示出了本申请一个实施例提供的手势识别装置的结构示意图。如图6所示,该装置包括:
采集模块602,被配置为通过图像采集设备采集手势图像数据;
处理模块604,被配置为对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量;
识别模块606,被配置为将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果。
可选地,所述处理模块604,进一步被配置为:
通过执行多数据流类型的汇编指令对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
可选地,所述处理模块604,进一步被配置为:
计算所述手势图像数据中像素点的每个通道值对应的平均值以及方差;
在所述手势图像数据的像素点的像素值中获取至少一个像素序列,其中每个像素序列包含设定数量的目标像素值;
通过执行多数据流类型的第一汇编指令将所述至少一个像素序列中包含的目标像素值并行化加载至第一寄存器;
通过执行多数据流类型的第二汇编指令将所述目标像素值对应的平均值以及方差加载至第二寄存器;
通过执行多数据流类型的第三汇编指令对将所述第一寄存器中的目标像素值、与所述第二寄存器中的平均值以及方差进行归一化计算,获得所述目标像素值对应的图像归一化向量。
可选地,所述手势识别装置,还包括:
格式转换模块,被配置为将所述手势图像数据进行格式转换,获得设定格式的手势图像数据;
相应的,所述处理模块604,进一步被配置为:
对所述设定格式的手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
可选地,所述格式转换模块,进一步被配置为:
将所述手势图像数据转换为目标编码格式的手势图像数据;或,
将所述手势图像数据转换为目标存储格式的手势图像数据;或,
将所述手势图像数据转换为目标编码格式的手势图像数据,并将目标编码格式的手势图像数据转换为目标存储格式的手势图像数据。
可选地,所述手势识别装置,还包括:
确定关系模块,被配置为在确定所述手势图像数据存在偏移旋转角度的情况下,确定所述偏移旋转角度对应的位置映射关系;
位置转换模块,被配置为根据所述位置映射关系对所述手势图像数据中像素点进行位置转换,获得矫正后的手势图像数据;
相应的,所述处理模块604,进一步被配置为:
对矫正后的手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
可选地,所述识别模块606,进一步被配置为:
将所述图像归一化向量输入预先量化的手势识别模型,获得所述手势识别模型输出的手势检测框以及手势类型;
将所述手势检测框以及所述手势类型作为手势识别结果。
可选地,所述识别模块606,进一步被配置为:
将所述图像归一化向量输入预先量化的手势识别模型中的特征提取模块进行特征提取,获得所述特征提取模块输出的图像特性向量;
将所述图像特征向量分别输入手势识别模型中的第一卷积层以及第二卷积层,获得所述第一卷积层输出的手势检测框以及所述第二卷积层输出的手势类型,将所述手势检测框以及所述手势类型作为所述手势识别模型输出的手势识别结果。
可选地,所述手势识别装置,还包括:
确定类型模块,被配置为基于手势识别结果,确定所述手势图像数据对应的手势类型;
执行策略模块,被配置为执行所述手势类型对应的应用策略。
本申请实施例中,通过图像采集设备采集手势图像数据;对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量;将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果。实现了减少手势识别模型的资源占用,并提高了手势识别的效率。
上述为本实施例的一种手势识别装置的示意性方案。需要说明的是,该手势识别装置的技术方案与上述的手势识别方法的技术方案属于同一构思,手势识别装置的技术方案未详细描述的细节内容,均可以参见上述手势识别方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述的手势识别方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的手势识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述手势识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,所述计算机指令被处理器执行时实现如前所述手势识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的手势识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述手势识别方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,所述计算机指令被处理器执行时实现如前所述手势识别方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (12)

1.一种手势识别方法,其特征在于,包括:
通过图像采集设备采集手势图像数据;
对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量;
将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果。
2.根据权利要求1所述的手势识别方法,其特征在于,所述对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
通过执行多数据流类型的汇编指令对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
3.根据权利要求2所述的手势识别方法,其特征在于,所述通过执行多数据流类型的汇编指令对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
计算所述手势图像数据中像素点的每个通道值对应的平均值以及方差;
在所述手势图像数据的像素点的像素值中获取至少一个像素序列,其中每个像素序列包含设定数量的目标像素值;
通过执行多数据流类型的第一汇编指令将所述至少一个像素序列中包含的目标像素值并行化加载至第一寄存器;
通过执行多数据流类型的第二汇编指令将所述目标像素值对应的平均值以及方差加载至第二寄存器;
通过执行多数据流类型的第三汇编指令对将所述第一寄存器中的目标像素值、与所述第二寄存器中的平均值以及方差进行归一化计算,获得所述目标像素值对应的图像归一化向量。
4.根据权利要求1所述的手势识别方法,其特征在于,所述对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量之前,还包括:
将所述手势图像数据进行格式转换,获得设定格式的手势图像数据;
相应的,所述对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
对所述设定格式的手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
5.根据权利要求4所述的手势识别方法,其特征在于,所述将所述手势图像数据进行格式转换,获得设定格式的手势图像数据,包括:
将所述手势图像数据转换为目标编码格式的手势图像数据;或,
将所述手势图像数据转换为目标存储格式的手势图像数据;或,
将所述手势图像数据转换为目标编码格式的手势图像数据,并将目标编码格式的手势图像数据转换为目标存储格式的手势图像数据。
6.根据权利要求1所述的手势识别方法,其特征在于,所述对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量之前,还包括:
在确定所述手势图像数据存在偏移旋转角度的情况下,确定所述偏移旋转角度对应的位置映射关系;
根据所述位置映射关系对所述手势图像数据中像素点进行位置转换,获得矫正后的手势图像数据;
所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量,包括:
对矫正后的手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量。
7.根据权利要求1所述的手势识别方法,其特征在于,所述将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果,包括:
将所述图像归一化向量输入预先量化的手势识别模型,获得所述手势识别模型输出的手势检测框以及手势类型;
将所述手势检测框以及所述手势类型作为手势识别结果。
8.根据权利要求1所述的手势识别方法,其特征在于,所述将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果,包括:
将所述图像归一化向量输入预先量化的手势识别模型中的特征提取模块进行特征提取,获得所述特征提取模块输出的图像特性向量;
将所述图像特征向量分别输入手势识别模型中的第一卷积层以及第二卷积层,获得所述第一卷积层输出的手势检测框以及所述第二卷积层输出的手势类型,将所述手势检测框以及所述手势类型作为所述手势识别模型输出的手势识别结果。
9.根据权利要求1所述的手势识别方法,其特征在于,所述将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果之后,还包括:
基于手势识别结果,确定所述手势图像数据对应的手势类型;
执行所述手势类型对应的应用策略。
10.一种手势识别装置,其特征在于,包括:
采集模块,被配置为通过图像采集设备采集手势图像数据;
处理模块,被配置为对所述手势图像数据中像素点的像素值进行并行归一化处理,获得图像归一化向量;
识别模块,被配置为将所述图像归一化向量输入预先量化的手势识别模型,获得手势识别结果。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-9任意一项所述方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。
CN202210120694.7A 2022-02-09 2022-02-09 手势识别方法及装置 Pending CN114155562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210120694.7A CN114155562A (zh) 2022-02-09 2022-02-09 手势识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210120694.7A CN114155562A (zh) 2022-02-09 2022-02-09 手势识别方法及装置

Publications (1)

Publication Number Publication Date
CN114155562A true CN114155562A (zh) 2022-03-08

Family

ID=80450110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210120694.7A Pending CN114155562A (zh) 2022-02-09 2022-02-09 手势识别方法及装置

Country Status (1)

Country Link
CN (1) CN114155562A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724078A (zh) * 2022-03-28 2022-07-08 西南交通大学 基于目标检测网络与知识推理的人员行为意图识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411773A (zh) * 2011-07-28 2012-04-11 中国人民解放军国防科学技术大学 面向向量处理器的去均值归一化积相关系数的向量化实现方法
CN102665049A (zh) * 2012-03-29 2012-09-12 中国科学院半导体研究所 基于可编程视觉芯片的视觉图像处理系统
CN106503650A (zh) * 2016-10-21 2017-03-15 上海未来伙伴机器人有限公司 一种手势图像的识别方法及系统
CN110933441A (zh) * 2019-12-12 2020-03-27 西安邮电大学 一种深度图轮廓预测的并行实现方法
CN111797777A (zh) * 2020-07-07 2020-10-20 南京大学 基于时空语义特征的手语识别系统及方法
CN112949437A (zh) * 2021-02-21 2021-06-11 深圳市优必选科技股份有限公司 一种手势识别方法、手势识别装置及智能设备
CN112967331A (zh) * 2021-03-25 2021-06-15 北京的卢深视科技有限公司 一种图像处理的方法、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411773A (zh) * 2011-07-28 2012-04-11 中国人民解放军国防科学技术大学 面向向量处理器的去均值归一化积相关系数的向量化实现方法
CN102665049A (zh) * 2012-03-29 2012-09-12 中国科学院半导体研究所 基于可编程视觉芯片的视觉图像处理系统
CN106503650A (zh) * 2016-10-21 2017-03-15 上海未来伙伴机器人有限公司 一种手势图像的识别方法及系统
CN110933441A (zh) * 2019-12-12 2020-03-27 西安邮电大学 一种深度图轮廓预测的并行实现方法
CN111797777A (zh) * 2020-07-07 2020-10-20 南京大学 基于时空语义特征的手语识别系统及方法
CN112949437A (zh) * 2021-02-21 2021-06-11 深圳市优必选科技股份有限公司 一种手势识别方法、手势识别装置及智能设备
CN112967331A (zh) * 2021-03-25 2021-06-15 北京的卢深视科技有限公司 一种图像处理的方法、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724078A (zh) * 2022-03-28 2022-07-08 西南交通大学 基于目标检测网络与知识推理的人员行为意图识别方法

Similar Documents

Publication Publication Date Title
CN109472270B (zh) 图像风格转换方法、装置及设备
CN111402143B (zh) 图像处理方法、装置、设备及计算机可读存储介质
US11776129B2 (en) Semantic refinement of image regions
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN112562019A (zh) 图像色彩调整方法及装置、计算机可读介质和电子设备
CN111598776A (zh) 图像处理方法、图像处理装置、存储介质与电子设备
WO2024027287A1 (zh) 图像处理系统及方法、计算机可读介质和电子设备
CN112257526A (zh) 一种基于特征交互学习的动作识别方法及终端设备
US10452955B2 (en) System and method for encoding data in an image/video recognition integrated circuit solution
CN113822794A (zh) 一种图像风格转换方法、装置、计算机设备和存储介质
CN110348358B (zh) 一种肤色检测系统、方法、介质和计算设备
WO2022067653A1 (zh) 图像处理方法及装置、设备、视频处理方法及存储介质
CN112200817A (zh) 基于图像的天空区域分割和特效处理方法、装置及设备
CN114155562A (zh) 手势识别方法及装置
CN112489144B (zh) 图像处理方法、图像处理装置、终端设备及存储介质
CN113627314A (zh) 人脸图像模糊检测方法、装置、存储介质与电子设备
US20190220699A1 (en) System and method for encoding data in an image/video recognition integrated circuit solution
Huang et al. Edge device-based real-time implementation of CycleGAN for the colorization of infrared video
CN112200816A (zh) 视频图像的区域分割及头发替换方法、装置及设备
KR20140138046A (ko) 픽처를 처리하기 위한 방법 및 디바이스
CN116433491A (zh) 一种图像处理方法、装置、设备、存储介质及产品
CN115272527B (zh) 基于色盘对抗网络的图像上色方法
CN112967194B (zh) 目标图像生成方法及装置、计算机可读介质和电子设备
CN113287147A (zh) 一种图像处理方法及装置
KR20230013989A (ko) 이미지 처리 장치, 이의 동작 방법 및, 이를 포함하는 이미지 처리 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination