CN112101312A - 手部关键点的识别方法、装置、机器人和存储介质 - Google Patents

手部关键点的识别方法、装置、机器人和存储介质 Download PDF

Info

Publication number
CN112101312A
CN112101312A CN202011275675.9A CN202011275675A CN112101312A CN 112101312 A CN112101312 A CN 112101312A CN 202011275675 A CN202011275675 A CN 202011275675A CN 112101312 A CN112101312 A CN 112101312A
Authority
CN
China
Prior art keywords
hand
image
key points
training
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011275675.9A
Other languages
English (en)
Inventor
郭渺辰
程骏
汤志超
邵池
钱程浩
庞建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubtech Robotics Corp
Original Assignee
Ubtech Robotics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubtech Robotics Corp filed Critical Ubtech Robotics Corp
Priority to CN202011275675.9A priority Critical patent/CN112101312A/zh
Publication of CN112101312A publication Critical patent/CN112101312A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本申请涉及人工智能技术领域,提供了一种手部关键点的识别方法、装置、机器人和存储介质,包括:获取到手部图像时,将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标;由于手部关键点检测模型基于训练样本训练卷积神经网络所得,且每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注;即便在训练时,手部关键点被遮挡,但是依然标注完全,使得训练得到的手部关键点检测模型在检测手部图像中手部关键点时,可以避免关键点被遮挡时造成误识别的缺陷。

Description

手部关键点的识别方法、装置、机器人和存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种手部关键点的识别方法、装置、机器人和存储介质。
背景技术
儿童绘本在儿童教育中占有一席之地。“绘本”,顾名思义就是其中充满大量的图画,让人可以望图生意。儿童绘本以儿童阅读内容为取向,普遍图画简单,主题简单,内容情节简短。低龄儿童的文字识别能力有限,为了在没有成人陪同下依然可以进行文字阅读,出现了点读绘本。点读绘本最初是商家将点读笔与绘本绑定,在绘本页内置芯片,再配套点读笔载入音频包,这样当点读笔点击绘本并进行匹配后,点读笔发出语音。
当前绘本点读主要分为两种方案,方案一是语音点读笔和配套绘本组合,方案一中的配套绘本每页内置芯片,成本较高,且和点读笔绑定,拓展性较差。因此诞生了方案二,方案二是桌面机器人进行识别和朗读。
方案二中的关键是识别出手部的关键点,目前,基于深度学习的手部关键点检测模型主要有两种方案,一种方法是卷积网络降采样4倍或8倍得到热图,监督信息是包含每个关键点的高斯热图,在降采样得到的热图中寻找峰值,峰值所在的像素坐标映射到原图中作为关键点坐标。该热图的方法计算量较大,不适合移动端离线推理,优点是结果更为精确。
另一种方法是以谷歌为代表的直接回归法,利用卷积神经网络直接回归出每个关键点的x,y坐标。该方法的优点是模型推理速度快,不需要保持大尺寸的特征图。但是目前采用的回归法中的卷积神经网络训练时,在关键点不可见则不标注,导致在检测手部关键点时,关键点被遮挡时易出现关键点的误识别,进而导致指尖定位出现误判。
发明内容
本申请的主要目的为提供一种手部关键点的识别方法、装置、机器人和存储介质,旨在克服目前手部关键点易出现误识别的缺陷。
为实现上述目的,本申请提供了一种手部关键点的识别方法,包括以下步骤:
获取手部图像;
将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标;其中,所述手部关键点为手部上预先定义的多个点,预设的所述手部关键点检测模型基于训练样本训练卷积神经网络所得;每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注。
进一步地,所述手部关键点包括手掌、五根手指的关节和五根手指的指尖。
进一步地,所述将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标的步骤之前,还包括:
将所述手部图像的分辨率调整为指定分辨率。
进一步地,所述获取手部图像的步骤,包括:
采集指定区域的图像;
基于预设的手部检测模型对所述指定区域的图像进行检测,得到所述手部图像;其中,所述手部检测模型是基于深度学习的目标检测模型,其用于从所述指定区域的图像中识别出感兴趣区域,作为所述手部图像。
进一步地,所述指定区域的图像为用户手部在绘本上的图像;
所述将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标的步骤之后,包括:
从所述手部关键点的坐标中,获取所述用户指尖的坐标;其中,所述用户的指尖为所述手部关键点中的一个;
基于所述用户指尖的坐标,获取所述用户的指尖在所述绘本上所指向的绘本区域。
进一步地,所述获取手部图像的步骤之前,还包括:
获取所述绘本的封面图像,并基于所述封面图像识别所述绘本的类别;
获取所述绘本的内页图像,并基于所述内页图像识别所述绘本的页码;
所述基于所述用户指尖的坐标,获取所述用户的指尖在所述绘本上所指向的绘本区域的步骤之后,包括:
基于所述绘本的类别、页码以及所述用户的指尖在所述绘本上所指向的绘本区域,确定所述用户的指尖在所述绘本上所指向的内容。
进一步地,所述预设的手部关键点检测模型的损失函数为:
Figure 781807DEST_PATH_IMAGE001
其中,w取值为0.5-1.0之间,x为神经网络权重,c为预先调节的参数。
本申请还提供了一种手部关键点的识别装置,包括:
第一获取单元,用于获取手部图像;
输出单元,用于将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标;其中,所述手部关键点为手部上预先定义的多个点,预设的所述手部关键点检测模型基于训练样本训练卷积神经网络所得;每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注。
本申请还提供一种机器人,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的手部关键点的识别方法、装置、机器人和存储介质,获取手部图像时,将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标;由于手部关键点检测模型基于训练样本训练卷积神经网络所得,且每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注;即便在训练时,某些手部关键点被遮挡,但是依然标注完全,使得训练得到的手部关键点检测模型在检测手部图像中手部关键点时,可以避免关键点被遮挡时造成误识别的缺陷。
附图说明
图1 是本申请一实施例中手部关键点的识别方法步骤示意图;
图2 是本申请一实施例中手部关键点的划分示意图;
图3 是本申请另一实施例中手部关键点的识别方法步骤示意图;
图4 是本申请一实施例中手部关键点的识别装置结构框图;
图5 为本申请一实施例的机器人的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种手部关键点的识别方法,包括以下步骤:
步骤S1,获取手部图像;
步骤S2,将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标;其中,所述手部关键点为手部上预先定义的多个点,预设的所述手部关键点检测模型基于训练样本训练卷积神经网络所得;每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注。
在本实施例中,上述方法应用于从手部图像中识别手部关键点,而根据识别出的手部关键点便于识别出手部的各个部位,有利于在一些需要识别手部部位的场景中进行手部识别。例如在绘本点读的场景中,则可以基于本申请中的方法识别出用户的手指指尖,从而确定出用户的手指指尖所指向的绘本内容。
如上述步骤S1所述的,上述手部图像指的是包含用户手部的RGB图像,通常该RGB图像中只包含一只手。上述手部图像可以是通过目标检测模型从指定图像中检测出的图像。在本实施例中,上述指定图像是单目RGB图像,因此从上述单目RGB图像中检测出的手部图像同样为单目RGB图像。上述单目RGB图像采用单目RGB相机获取到,单目RGB相机相对于RGBD(深度图像)相机价格较低,且应用广泛;同时,单目RGB图像更易于获取,因此易于获得大量训练数据。
如上述步骤S2所述的,上述手部的关键点是预先定义的一些位置,例如手指关节、指尖、掌心等。上述手部关键点检测模型基于卷积神经网络训练所得,且训练上述卷积神经网络所采用的每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注;即便在训练时,某些手部关键点被遮挡,但是依然根据主观预测对其进行完全标注,使得训练得到的手部关键点检测模型在检测手部图像中手部关键点时,可以避免关键点被遮挡时造成误识别的缺陷。而在目前的技术中,在关键点不可见时则不进行标注,这将使得对于一些关键点被遮挡的手部图像,上述手部关键点检测模型无法从中预测出所有的关键点,造成关键点的误识别将大大增加。因此,采用本申请中的手部关键点检测模型可以避免关键点被遮挡时造成误识别的缺陷,提高识别的准确率。
在本实施例中,上述手部关键点检测模型基于监督学习方式,采用端到端训练,监督学习中每个训练样本都具有对应的监督信息,本实施例中监督信息为所有关键点的坐标。例如上述关键点为21个,本实施例中的监督信息即groundtruth(正确的标注)时刻保持21个点,即使某些关键点被遮挡,但是由于手的结构相对固定,依然可以通过主观预测标注完全。使得训练时的训练样本具有所有关键点的坐标,从而基于上述训练样本进行训练,使得训练得到的上述手部关键点检测模型具有更强的预测能力,即针对具有关键点遮挡的手部图像依然可以具有较强的预测能力,降低关键点的误判。
目前识别手部手指的传统方法是通过肤色模型分割手部区域,进而通过区域生长确定指尖位置,但是肤色模型对光照敏感,并且确定具体是哪一根手指十分困难。而在本申请的实施例中,基于手部关键点检测模型对手部图像进行运算,输出得到手部图像中所有手部关键点的坐标,即获取到手部每一个关键点的坐标,从而根据该坐标,便可以准确分辨出具体是哪一根手指,以及手指具体的位置,检测准确率高,效果显著。
在本实施例中,应用上述方法的设备可以是移动终端、机器人等。在一具体实施例中,上述设备是基于人工智能的桌面机器人,随着人工智能AI技术的快速发展,AI技术渗透到我们生活的方方面面。桌面机器人逐渐走入千家万户,桌面机器人的功能也得到了很大的扩充,它的功能也不仅仅局限于语音、运动等,也包含图像的识别、绘本的识别与点读。当前针对消费者的桌面机器人普遍配备相机,具有相应的视觉功能,例如物体识别、人脸检测、人脸识别等。在本实施例中,便可以利用上述桌面机器人采集图像,进而识别图像的手部关键点,进而为后续工作作出准备。
参照图2,在一实施例中,所述手部关键点包括手掌、五根手指的关节和五根手指的指尖。其中,上述每一个手部关键点,具有对应的标号(标签),如图2中的标签0-20。在本实施例中,根据手部关节位置,在一只手中定位21个关键点。本实施例中针对上述手部图像,基于手部关键点检测模型最终得到的是手部关键点的二维图像坐标(x,y),本实施例中不考虑手部关键点的深度信息以及手部关键点之间的相对深度。
在一实施例中,所述将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标的步骤之前,还包括:
将所述手部图像的分辨率调整为指定分辨率。
在本实施例中,上述指定分辨率为64X64,而上述手部图像的分辨率通常高于64X64,因此,在本实施例中,将手部图像的分辨率降低为64X64,降低计算复杂度,保障上述设备(机器人)的运算实时性。
在一实施例中,所述获取手部图像的步骤S1,包括:
步骤S11,采集指定区域的图像;
步骤S12,基于预设的手部检测模型对所述指定区域的图像进行检测,得到所述手部图像;其中,所述手部检测模型是基于深度学习的目标检测模型,其用于从所述指定区域的图像中识别出感兴趣区域,作为所述手部图像。
在本实施例中,上述设备为基于人工智能的桌面机器人,桌面机器人普遍配备相机。将桌面机器人置于桌面上,让桌面机器人头部相机调节到合适角度,以使得上述桌面机器人的相机朝向指定区域。在一个实施例中,上述指定区域可以是桌面上放置绘本的区域。当用户用手指向桌面上的绘本时,上述桌面机器人可以拍摄指定区域的图像,以同时采集到用户的手部图像以及绘本图像。在本实施例中,上述桌面机器人的相机是单目RGB相机,上述指定区域的图像是单目RGB图像,上述单目RGB图像采用单目RGB相机获取到,单目RGB相机相对于RGBD相机价格较低,且应用广泛。
参照图3,在一实施例中,所述指定区域的图像为用户手部在绘本上的图像;
所述将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标的步骤S2之后,包括:
步骤S3,从所述手部关键点的坐标中,获取所述用户指尖的坐标;其中,所述用户的指尖为所述手部关键点中的一个;
步骤S4,基于所述用户指尖的坐标,获取所述用户的指尖在所述绘本上所指向的绘本区域。
在本实施例中,上述手部关键点包括多个,在手绘点读的场景中,需要识别的是上述手部关键点中的指尖部分,在识别到上述指尖部分之后,便可以根据上述指定区域的图像中该指尖所在的区域,确定出上述用户的指尖在绘本上所指向的绘本区域,从而根据上述绘本区域,进行文字识别、图像识别等确定出用户所要点读的内容。
在本实施例中,所述获取手部图像的步骤S1之前,还包括:
获取所述绘本的封面图像,并基于所述封面图像识别所述绘本的类别;
获取所述绘本的内页图像,并基于所述内页图像识别所述绘本的页码;
所述基于所述用户指尖的坐标,获取所述用户的指尖在所述绘本上所指向的绘本区域的步骤之后,包括:
基于所述绘本的类别、页码以及所述用户的指尖在所述绘本上所指向的绘本区域,确定所述用户的指尖在所述绘本上所指向的内容。
在本实施例中,首先将桌面机器人放置于桌面上,让桌面机器人头部相机调节到合适角度,指向绘本封面,进行绘本封面的识别,以便确认对哪一本绘本进行点读,如果绘本数量较多(如上千本绘本),则使用sift匹配的方式识别封面;若可识别绘本较少,则可使用基于深度学习的神经网络分类模型确定绘本类别。识别完上述绘本的封面后,需要识别绘本的内页,即识别绘本的具体页数,由于儿童绘本普遍页数较少(几十页),因此使用基于深度学习的神经网络分类模型进行分类即可。
在一实施例中,上述手部关键点检测模型的损失函数为:L1、L2和smooth L1,公式如下,其中x为神经网络权重:
Figure 332874DEST_PATH_IMAGE002
Figure 866624DEST_PATH_IMAGE003
Figure 688211DEST_PATH_IMAGE004
根据神经网络反向传播的性质,对上述损失函数进行求导,如下:
Figure 914793DEST_PATH_IMAGE005
Figure 953157DEST_PATH_IMAGE006
Figure 25018DEST_PATH_IMAGE007
由上述损失函数的导数可以看出,L2损失函数求导所得梯度会随着x的增大而增大,导致在训练初期误差较大的时候不易收敛,L1损失函数导数为分段常数,导致当训练到一定程度时由于梯度不变难以进一步提高精度,smooth L1损失函数克服这两个缺点,当x绝对值较大时,采用分段常数,x绝对值较小时也可进行调整。
如果是在形变较小或者刚体上检测关键点,采用上述smooth L1损失函数可以取得较好的效果。但是手部关键点不同于人脸关键点等关键点相对位置比较固定(五官位置相对固定),手部手指非常灵活因此在不同姿态下的差别较大,导致关键点在回归到groundtruth附近时无法精确定位。因此希望在x较小时,仍具有较大的梯度。因此,本实施例中,提出上述预设的手部关键点检测模型的损失函数为:
Figure 465226DEST_PATH_IMAGE008
其中,w取值为0.5-1.0之间,x为神经网络权重,c为预先调节的参数。通过调节c和w的值来保证分段函数的连续。相对于smooth L1损失函数,本实施例中的损失函数在零点附近具有可变的较大梯度,使得手部关键点的定位更加精准。本实施例中的手部关键点检测模型采用上述优化的损失函数之后,对手部关键点的检测更加准确,提升模型检测效果。
在一实施例中,上述采集指定区域的图像的步骤S11,包括:
获取相机的朝向角度;
判断所述相机的角度是否在预设的范围之内;
若在预设的范围之内,则判定所述相机指向所述指定区域;启动所述相机,获取所述指定区域的预览图像;
检测所述指定区域的预览图像中是否同时包括绘本以及手部;
若同时包括,则采集所述预览图像,作为所述指定区域的图像。
在本实施例中,若要通过桌面机器人采集图像,要么将桌面机器人的相机设置为始终开启,要么设置相应的启动开关,或者采用其它语音控制的方式控制相机开启;若将相机设置为始终开启,将增加功耗。而设置启动开关、或者语音控制相机开启,均需要用户主动进行开启。
在本实施例中,将上述桌面机器人放置在桌面上,预先获取桌面机器人的相机朝向指定区域内绘本时的角度,并根据该角度,设置一个浮动的角度范围,作为上述预设的范围。由上述桌面机器人获取当前相机的朝向角度,若该相机的角度是否在预设的范围之内,则表明该桌面机器人的相机可能正在朝向上述指定区域。此时,可以启动相机,获取一个预览图像。由于,上述桌面机器人的相机朝向指定区域时,用户不一定在进行绘本点读,因此,需要进一步进行检测。从上述预览图像中检测是否同时包括绘本以及手部,若不包括,则表明此时用户并没有在进行绘本点读,此时,则不需要进行图像的采集,将桌面机器人的相机关闭。同时,为了避免再次误启动,可以将相机的角度调整为预置的水平状态。
若上述预览图像中检测到同时包括绘本以及手部,则可以判定当前用户正在进行绘本点读,此时则采集上述预览图像,作为所述指定区域的图像,以便进行后续的手部关键点的识别动作,在此不再进行赘述。
参照图4,本申请一实施例中还提供了一种手部关键点的识别装置,包括:
第一获取单元10,用于获取手部图像;
输出单元20,用于将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标;其中,所述手部关键点为手部上预先定义的多个点,预设的所述手部关键点检测模型基于训练样本训练卷积神经网络所得;每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注。
在一实施例中,所述手部关键点包括手掌、五根手指的关节和五根手指的指尖。
在一实施例中,上述部关键点的识别装置,还包括:
分辨率调节单元,用于将所述手部图像的分辨率调整为指定分辨率。
在一实施例中,所述第一获取单元10,包括:
采集子单元,用于采集指定区域的图像;
检测子单元,用于基于预设的手部检测模型对所述指定区域的图像进行检测,得到所述手部图像;其中,所述手部检测模型是基于深度学习的目标检测模型,其用于从所述指定区域的图像中识别出感兴趣区域,作为所述手部图像。
在本实施例中,所述指定区域的图像为用户手部在绘本上的图像;
上述部关键点的识别装置,还包括:
第二获取单元,用于从所述手部关键点的坐标中,获取所述用户指尖的坐标;其中,所述用户的指尖为所述手部关键点中的一个;
第三获取单元,用于基于所述用户指尖的坐标,获取所述用户的指尖在所述绘本上所指向的绘本区域。
在一实施例中,上述部关键点的识别装置,还包括:
第四获取单元,用于获取所述绘本的封面图像,并基于所述封面图像识别所述绘本的类别;
第五获取单元,用于获取所述绘本的内页图像,并基于所述内页图像识别所述绘本的页码;
确定单元,用于基于所述绘本的类别、页码以及所述用户的指尖在所述绘本上所指向的绘本区域,确定所述用户的指尖在所述绘本上所指向的内容。
在上述实施例中,所述预设的手部关键点检测模型的损失函数为:
Figure 597130DEST_PATH_IMAGE009
其中,w取值为0.5-1.0之间,x为神经网络权重,c为预先调节的参数。
在本实施例中,上述装置实施例中的各个单元、子单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图5,本申请实施例中还提供一种机器人,该机器人可以是人工智能桌面机器人,其内部结构可以如图5所示。该机器人包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该机器人的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该机器人的数据库用于存储手部图像等。该机器人的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手部关键点的识别方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的机器人的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种手部关键点的识别方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的手部关键点的识别方法、装置、机器人和存储介质,获取手部图像时,将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标;由于手部关键点检测模型基于训练样本训练卷积神经网络所得,且每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注;即便在训练时,某些手部关键点被遮挡,但是依然标注完全,使得训练得到的手部关键点检测模型在检测手部图像中手部关键点时,可以避免关键点被遮挡时造成误识别的缺陷。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种手部关键点的识别方法,其特征在于,包括以下步骤:
获取手部图像;
将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标;其中,所述手部关键点为手部上预先定义的多个点,预设的所述手部关键点检测模型基于训练样本训练卷积神经网络所得;每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注。
2.根据权利要求1所述的手部关键点的识别方法,其特征在于,所述手部关键点包括手掌、五根手指的关节和五根手指的指尖。
3.根据权利要求1所述的手部关键点的识别方法,其特征在于,所述将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标的步骤之前,还包括:
将所述手部图像的分辨率调整为指定分辨率。
4.根据权利要求1所述的手部关键点的识别方法,其特征在于,所述获取手部图像的步骤,包括:
采集指定区域的图像;
基于预设的手部检测模型对所述指定区域的图像进行检测,得到所述手部图像;其中,所述手部检测模型是基于深度学习的目标检测模型,其用于从所述指定区域的图像中识别出感兴趣区域,作为所述手部图像。
5.根据权利要求4所述的手部关键点的识别方法,其特征在于,所述指定区域的图像为用户手部在绘本上的图像;
所述将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标的步骤之后,包括:
从所述手部关键点的坐标中,获取所述用户指尖的坐标;其中,所述用户的指尖为所述手部关键点中的一个;
基于所述用户指尖的坐标,获取所述用户的指尖在所述绘本上所指向的绘本区域。
6.根据权利要求5所述的手部关键点的识别方法,其特征在于,所述获取手部图像的步骤之前,还包括:
获取所述绘本的封面图像,并基于所述封面图像识别所述绘本的类别;
获取所述绘本的内页图像,并基于所述内页图像识别所述绘本的页码;
所述基于所述用户指尖的坐标,获取所述用户的指尖在所述绘本上所指向的绘本区域的步骤之后,包括:
基于所述绘本的类别、页码以及所述用户的指尖在所述绘本上所指向的绘本区域,确定所述用户的指尖在所述绘本上所指向的内容。
7.根据权利要求1-6任一项所述的手部关键点的识别方法,其特征在于,所述预设的手部关键点检测模型的损失函数为:
Figure 553240DEST_PATH_IMAGE001
其中,w取值为0.5-1.0之间,x为神经网络权重,c为预先调节的参数。
8.一种手部关键点的识别装置,其特征在于,包括:
第一获取单元,用于获取手部图像;
输出单元,用于将所述手部图像输入至预设的手部关键点检测模型中进行回归运算,输出所述手部图像中所有手部关键点的坐标;其中,所述手部关键点为手部上预先定义的多个点,预设的所述手部关键点检测模型基于训练样本训练卷积神经网络所得;每个所述训练样本中包括手部训练图像以及手部训练图像中所有手部关键点的标注。
9.一种机器人,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011275675.9A 2020-11-16 2020-11-16 手部关键点的识别方法、装置、机器人和存储介质 Pending CN112101312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011275675.9A CN112101312A (zh) 2020-11-16 2020-11-16 手部关键点的识别方法、装置、机器人和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011275675.9A CN112101312A (zh) 2020-11-16 2020-11-16 手部关键点的识别方法、装置、机器人和存储介质

Publications (1)

Publication Number Publication Date
CN112101312A true CN112101312A (zh) 2020-12-18

Family

ID=73785561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011275675.9A Pending CN112101312A (zh) 2020-11-16 2020-11-16 手部关键点的识别方法、装置、机器人和存储介质

Country Status (1)

Country Link
CN (1) CN112101312A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507954A (zh) * 2020-12-21 2021-03-16 深圳市优必选科技股份有限公司 一种人体关键点识别方法、装置、终端设备及存储介质
CN112613409A (zh) * 2020-12-24 2021-04-06 咪咕动漫有限公司 手部关键点检测方法、装置、网络设备及存储介质
CN113393563A (zh) * 2021-05-26 2021-09-14 杭州易现先进科技有限公司 关键点自动标注的方法、系统、电子装置和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718879A (zh) * 2016-01-19 2016-06-29 华南理工大学 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法
US9501716B2 (en) * 2014-12-11 2016-11-22 Intel Corporation Labeling component parts of objects and detecting component properties in imaging data
US20180025538A1 (en) * 2014-12-23 2018-01-25 Google Inc. Labeling for Three-Dimensional Occluded Shapes
CN109325464A (zh) * 2018-10-16 2019-02-12 上海翎腾智能科技有限公司 一种基于人工智能的手指点读文字识别方法及翻译方法
CN110163080A (zh) * 2019-04-02 2019-08-23 腾讯科技(深圳)有限公司 人脸关键点检测方法及装置、存储介质和电子设备
CN110443231A (zh) * 2019-09-05 2019-11-12 湖南神通智能股份有限公司 一种基于人工智能的单手手指点读文字识别方法和系统
CN111695453A (zh) * 2020-05-27 2020-09-22 深圳市优必选科技股份有限公司 绘本识别方法、装置及机器人
CN111753783A (zh) * 2020-06-30 2020-10-09 北京小米松果电子有限公司 手指遮挡图像检测方法、装置及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9501716B2 (en) * 2014-12-11 2016-11-22 Intel Corporation Labeling component parts of objects and detecting component properties in imaging data
US20180025538A1 (en) * 2014-12-23 2018-01-25 Google Inc. Labeling for Three-Dimensional Occluded Shapes
CN105718879A (zh) * 2016-01-19 2016-06-29 华南理工大学 基于深度卷积神经网络的自由场景第一视角手指关键点检测方法
CN109325464A (zh) * 2018-10-16 2019-02-12 上海翎腾智能科技有限公司 一种基于人工智能的手指点读文字识别方法及翻译方法
CN110163080A (zh) * 2019-04-02 2019-08-23 腾讯科技(深圳)有限公司 人脸关键点检测方法及装置、存储介质和电子设备
CN110443231A (zh) * 2019-09-05 2019-11-12 湖南神通智能股份有限公司 一种基于人工智能的单手手指点读文字识别方法和系统
CN111695453A (zh) * 2020-05-27 2020-09-22 深圳市优必选科技股份有限公司 绘本识别方法、装置及机器人
CN111753783A (zh) * 2020-06-30 2020-10-09 北京小米松果电子有限公司 手指遮挡图像检测方法、装置及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHEN-HUA FENG等: "Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks", 《ARXIV(HTTPS://ARXIV.ORG/ABS/1711.06753V1)》 *
位雪勇: "基于深度学习的高速公路目标检测与细分类研究及实现", 《中国优秀博硕士学位论文全文数据库(硕士) 工程科技II辑》 *
黄毅超: "基于卷积神经网络的第一视角手势交互研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507954A (zh) * 2020-12-21 2021-03-16 深圳市优必选科技股份有限公司 一种人体关键点识别方法、装置、终端设备及存储介质
CN112507954B (zh) * 2020-12-21 2024-01-19 深圳市优必选科技股份有限公司 一种人体关键点识别方法、装置、终端设备及存储介质
CN112613409A (zh) * 2020-12-24 2021-04-06 咪咕动漫有限公司 手部关键点检测方法、装置、网络设备及存储介质
CN113393563A (zh) * 2021-05-26 2021-09-14 杭州易现先进科技有限公司 关键点自动标注的方法、系统、电子装置和存储介质
CN113393563B (zh) * 2021-05-26 2023-04-11 杭州易现先进科技有限公司 关键点自动标注的方法、系统、电子装置和存储介质

Similar Documents

Publication Publication Date Title
CN112101312A (zh) 手部关键点的识别方法、装置、机器人和存储介质
CN111353501A (zh) 一种基于深度学习的书本点读方法及系统
CN109947273B (zh) 一种点读定位方法及装置
CN111104883B (zh) 作业答案提取方法、装置、设备及计算机可读存储介质
CN112651298A (zh) 基于手指关节定位的点读方法、装置、系统及介质
CN112926462B (zh) 训练方法、装置、动作识别方法、装置及电子设备
CN111444850B (zh) 一种图片检测的方法和相关装置
CN110543823B (zh) 基于残差网络的行人再识别方法、装置和计算机设备
CN113936340B (zh) 一种基于训练数据采集的ai模型训练方法及装置
WO2022021948A1 (zh) 动作识别方法、装置、计算机设备及存储介质
CN110765814A (zh) 一种黑板书写行为识别方法、装置及摄像机
CN108804971A (zh) 一种图像识别系统、增强现实显示设备和图像识别方法
CN111860121A (zh) 一种基于ai视觉下的阅读能力辅助评估方法及系统
CN111753168A (zh) 一种搜题的方法、装置、电子设备及存储介质
CN105204752B (zh) 投影式阅读中实现交互的方法和系统
CN111091034B (zh) 一种基于多手指识别的搜题方法及家教设备
CN111079777B (zh) 一种基于书页定位的点读方法及电子设备
CN114022684B (zh) 人体姿态估计方法及装置
CN113365382B (zh) 灯光控制方法、装置、电子设备和存储介质
CN111291756B (zh) 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质
CN111432131A (zh) 一种拍照框选的方法、装置、电子设备及存储介质
Brandenburg et al. Object classification for robotic platforms
CN110765994B (zh) 一种书本内容定位方法、装置、电子设备及存储介质
CN117649702B (zh) 一种基于人体姿态的教学辅助方法、设备及介质
CN116206332B (zh) 一种基于姿态估计的行人重识别方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination