CN108764133B

CN108764133B - 图像识别方法、装置及系统

Info

Publication number: CN108764133B
Application number: CN201810521462.6A
Authority: CN
Inventors: 陈文科; 姚聪
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Yuanli Jinzhi (Chongqing) Technology Co.,Ltd.
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2020-10-20
Anticipated expiration: 2038-05-25
Also published as: CN108764133A

Abstract

本发明提供了一种图像识别方法、装置及系统，涉及图像识别技术领域，该方法包括：获取待识别图像；将待识别图像输入至卷积神经网络模型；其中，卷积神经网络模型包括平移不变形的残差金字塔模块、沙漏模块和级联特征金字塔模块；通过卷积神经网络模型中的残差金字塔模块、沙漏模块和级联特征金字塔模块逐级对待识别图像进行特征提取，得到待识别图像的识别结果；识别结果包括至少一个目标点的位置。本发明可以基于单目摄像头拍摄的图像进行识别，并且能够提高图像识别的准确率。

Description

图像识别方法、装置及系统

技术领域

本发明涉及图像识别技术领域，尤其是涉及一种图像识别方法、装置及系统。

背景技术

由于手部姿态存在高形变、自遮挡、互遮挡、外部遮挡以及背景噪音等特点，基于普通摄像头进行手部姿态识别是非常困难的。现有技术通常依赖于多个普通摄像头，从而获取多角度的手部姿态的图像，再进行手部姿态识别。

然而，上述手部姿态识别的方法，在应用时需要布置多个摄像头，并且需要进行摄像头的基准测试等，导致实际应用非常受限，而且模型的准确性也有待进一步提高。

发明内容

有鉴于此，本发明的目的在于提供一种图像识别方法、装置及系统，可以通过单目摄像头进行图像识别，且提高了识别的准确率。

第一方面，本发明实施例提供了一种图像识别方法，包括：获取待识别图像；将所述待识别图像输入至卷积神经网络模型；其中，所述卷积神经网络模型包括平移不变形的残差金字塔模块、沙漏模块和级联特征金字塔模块；通过所述卷积神经网络模型中的所述残差金字塔模块、沙漏模块和级联特征金字塔模块逐级对所述待识别图像进行特征提取，得到所述待识别图像的识别结果；所述识别结果包括所述待识别图像上至少一个目标点的位置。

进一步，所述方法还包括：通过所述待识别图像的导向概率热力图对所述卷积神经网络模型进行训练，直至所述卷积神经网络模型的误差收敛至预设值，将所述误差收敛至所述预设值时对应的参数作为所述卷积神经网络模型的参数。

进一步，当下述条件均满足时，确定所述卷积神经网络模型的误差收敛至预设值：所述沙漏模块的损失函数值小于第一预设值；所述级联特征金字塔模块的损失函数值小于第二预设值。

进一步，所述导向概率热力图的生成如下：获取当前训练样本的真实热力图；根据所述真实热力图构建向导热力图；其中，所述向导热力图和所述真实热力图的中心与所述当前训练样本的目标点的位置相同；将所述向导热力图与真实热力图融合，得到导向概率热力图。

进一步，所述获取待识别图像的步骤，包括：通过单目摄像头采集图像，并检测该图像中的手部图像；将该手部图像作为待识别图像。

进一步，所述卷积神经网络模型还包括卷积层；所述通过所述卷积神经网络模型中的所述残差金字塔模块、沙漏模块和级联特征金字塔模块逐级对所述待识别图像进行特征提取，得到所述待识别图像的识别结果的步骤，包括：通过所述卷积层对输入的所述待识别图像进行卷积处理，得到所述待识别图像的第一特征图，并将所述第一特征图输入至所述残差金字塔模块；通过所述残差金字塔模块对所述第一特征图进行多尺度特征提取，得到所述待识别图像的第二特征图，并将所述第二特征图输入至所述沙漏模块；通过至少一个所述沙漏模块对所述第二特征图进行多尺度特征提取，得到所述待识别图像的第三特征图，并将所述第三特征图输入至所述级联特征金字塔模块；通过所述级联特征金字塔模块对所述第三特征图进行多尺度特征提取，输出识别结果。

进一步，所述残差金字塔模块包括主分支和金字塔分支，所述主分支包括至少一层卷积层；所述通过所述残差金字塔模块对所述第一特征图进行多尺度特征提取，得到所述待识别图像的第二特征图的步骤，包括：将所述第一特征图分别输入所述主分支和所述金字塔分支；所述主分支和所述金字塔分支分别对所述第一特征图进行特征提取；将所述主分支和所述金字塔分支提取得到的特征信息融合，得到所述待识别图像的第二特征图。

进一步，所述识别结果为包含横向、纵向和频道的三维热力图，所述频道与所述目标点的位置一一对应。

第二方面，本发明实施例提供了一种图像识别装置，包括：获取模块，用于获取待识别图像；输入模块，用于将所述待识别图像输入至卷积神经网络模型；其中，所述卷积神经网络模型包括平移不变形的残差金字塔模块、沙漏模块和级联特征金字塔模块；识别模块，用于通过所述卷积神经网络模型中的所述残差金字塔模块、沙漏模块和级联特征金字塔模块逐级对所述待识别图像进行特征提取，得到所述待识别图像的识别结果；所述识别结果包括所述待识别图像上至少一个目标点的位置。

第三方面，本发明实施例提供了一种图像识别系统，所述系统包括：图像采集装置、处理器和存储装置；所述图像采集装置，用于采集待识别图像；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面任一项所述的方法的步骤。

本发明实施例提供了一种图像识别方法、装置及系统，可以通过卷积神经网络模型对待识别图像进行特征提取，得到待识别图像的识别结果，该识别结果中包括目标点的位置信息；其中该卷积神经网络模型中包括平移不变形的金字塔残差模块，可以帮助卷积神经网络模型提取细粒度多尺度的目标对象的特征，而且能保证待识别图像中的识别目标的位置信息不受破坏；该卷积神经网络模型中还融合了沙漏模块和级联特征金字塔模块，使得卷积神经网络模型可以训练学习到丰富且多尺度的识别目标的特征，从而可以基于单目摄像头拍摄的图像进行识别，并且能够提高图像识别的准确率。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子设备的结构示意图；

图2为本发明实施例提供的一种图像识别方法的流程图；

图3为本发明实施例提供的一种导向概率热力图的生成过程示意图；

图4为本发明实施例提供的一种平移不变形的残差金字塔模块的示意图；

图5为本发明实施例提供的一种卷积神经网络模型的示意图；

图6为本发明实施例提供的一种Hourglass模块的示意图；

图7为本发明实施例提供的一种CPN模块的示意图；

图8为本发明实施例提供的一种图像识别装置的结构框图；

图9为本发明实施例提供的另一种图像识别装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的手部姿态识别的方法依赖于多摄像头实现，应用不便，且模型准确率不足，为改善此问题，本发明实施例提供的一种图像识别方法、装置及系统，以下对本发明实施例进行详细介绍。

实施例一

首先，参照图1来描述用于实现本发明实施例的图像识别方法、装置及系统的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。该图像采集装置110可以是摄像头或者相机。

示例性地，用于实现根据本发明实施例的图像识别方法、装置及系统的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。

实施例二

参见图2所示的一种图像识别方法的流程图，该方法可由前述实施例提供的电子设备执行，该方法具体包括如下步骤：

步骤S202，获取待识别图像。

在本发明实施例中，待识别图像可以是摄像头采集的视频流中的图像帧，可以是相机采集的图像，也可以是其他格式的图片等。其中，待识别图像既可以是图像采集装置采集的原始图像，也可以是基于该原始图像进行目标检测后获得的图像，还可以是经过其他方式修改或生成的图像。在此需要说明的是该摄像头可以是一个或者拍摄角度不同的多个，可以基于一个摄像头获取的图像帧进行识别，也可以基于多个摄像头获取的图像帧进行识别。

步骤S204，将待识别图像输入至卷积神经网络模型。

其中，卷积神经网络模型包括平移不变形的残差金字塔模块、沙漏模块和级联特征金字塔模块。在本实施例中的卷积神经网络模型，其基础卷积模块可以是平移不变形的残差金字塔模块(TiPRM，Translation Invariance Pyramid Resiual Module)，可以帮助卷积神经网络模型提取细粒度多尺度的识别目标的特征，而且能保证待识别图像中的识别目标的位置信息不受破坏。沙漏模块(Hourglass)和级联特征金字塔模块(CPN，CascadedPyramid Network)均构建在平移不变形的金字塔残差模块之上，为卷积神经网络的主要构成部分。

本发明实施例中的卷积神经网络模型是一种叠式混合U型神经网络模型，其融合了沙漏模块和级联特征金字塔模块两种U型模块，使得卷积神经网络模型可以训练学习到丰富且多尺度的识别目标的特征。

步骤S206，通过卷积神经网络模型中的残差金字塔模块、沙漏模块和级联特征金字塔模块逐级对待识别图像进行特征提取，得到待识别图像的识别结果。

通过卷积神经网络模型对上述待识别图像进行特征提取，可以将待识别图像或者其对应的特征图逐级输入上述残差金字塔模块、沙漏模块和级联特征金字塔模块。在得到的待识别图像的识别结果中包括待识别图像上至少一个目标点的位置，该目标点可以是对图像中对象的动作或姿势的识别有比较重要影响的关键位置，例如该待识别图像为人脸图像，该目标点可以是人脸上的特征点：眼睛、眉毛、鼻子、嘴巴等；如果该待识别图像为手部图像，该目标点可以是手部的指尖中心或各关节中心等。在得到上述目标点后，可以基于其获得图像内对象的动作或姿势等信息。该目标点可以根据实际待识别图像的种类和内容进行确定。在得到上述识别结果后，也可以根据该识别结果确定待识别图像的语义信息。

本发明实施例提供的上述图像识别方法，可以通过卷积神经网络模型对待识别图像进行特征提取，得到待识别图像的识别结果，该识别结果中包括目标点的位置信息；其中该卷积神经网络模型中包括平移不变形的金字塔残差模块，可以帮助卷积神经网络模型提取细粒度多尺度的目标对象的特征，而且能保证待识别图像中的识别目标的位置信息不受破坏；该卷积神经网络模型中还融合了沙漏模块和级联特征金字塔模块，使得卷积神经网络模型可以训练学习到丰富且多尺度的识别目标的特征，从而可以基于单目摄像头拍摄的图像进行识别，并且能够提高图像识别的准确率。

在使用上述卷积神经网络模型进行图像识别之前，需要先对该模型进行训练，例如可以以下步骤执行：

通过导向概率热力图对卷积神经网络模型进行训练，直至卷积神经网络模型的误差收敛至预设值，将误差收敛至预设值时对应的参数作为卷积神经网络模型的参数。其中，该导向概率热力图是具有导向功能的概率热力图，对当前训练样本中欲识别的内容进行增强，可以引导模型训练，有利于模型尽快收敛，并且可以提高模型的预测精度。

该导向概率热力图的生成过程如下：

(1)获取当前训练样本的真实热力图。

(2)根据真实热力图构建向导热力图。其中，向导热力图和真实热力图的中心与当前训练样本的目标点的位置相同。

(3)将向导热力图与真实热力图融合，得到导向概率热力图。

在上述模型训练过程中，还为沙漏模块和级联特征金字塔引入损失函数，有助于顶层卷积模块学到更高层的特征。当下述条件均满足时，可以确定卷积神经网络模型的误差收敛至预设值：沙漏模块的损失函数值小于第一预设值；级联特征金字塔模块的损失函数值小于第二预设值。在误差收敛至预设值，可以停止模型训练过程。

上述待识别图像的主题可以是各种内容的主题，例如拍摄的行人、建筑、风景或者文字的图像等，在以下实施例中，以该待识别图像是手部的图像为例进行说明。上述获取待识别图像的步骤，可以通过单目摄像头采集图像，并检测该图像中的手部图像，并将该手部图像作为待识别图像。

为了方便后续对手部姿势表示的语义进行识别，在手部标记了21个关键点：手腕关节中心、大拇指掌指关节中心、大拇指近侧掌指关节中心、大拇指远侧掌指关节中心、大拇指指尖中心、食指掌指关节中心、食指近侧掌指关节中心、食指远侧掌指关节中心、食指指尖中心、中指掌指关节中心、中指近侧掌指关节中心、中指远侧掌指关节中心、中指指尖中心、无名指掌指关节中心、无名指近侧掌指关节中心、无名指远侧掌指关节中心、无名指指尖中心、小拇指掌指关节中心、小拇指近侧掌指关节中心、小拇指远侧掌指关节中心和小拇指指尖中心。上述关键点可以作为待识别图像的目标点。在识别得到上述关键位置在图像中的位置后，根据各关键点的位置可以识别出手部表示的语义。

参见图3所述的导向概率热力图的生成过程示意图，其中(a)为向导热力图，(b)为真实热力图，(c)为融合得到的导向概率热力图。例如，图2中该真实热力图为上述大拇指掌指关节中心的真实热力图，可以基于该大拇指掌指关节中心所在的实际位置，构建向导热力图。例如，该真实热力图为3*3高斯分布的概率热力图，该向导热力图可以是与该3*3高斯分布的概率热力图具有相同中心，且同样是高斯分布的概率热力图，例如7*7的概率热力图。在本实施例中可以不使用以手部关键点为中心的高斯分布作为地面真值，而是将其与向导热力图融合后作为地面真值，这样能使卷积神经网络模型更加关注手部关键点的特征。

在对卷积神经网络模型进行介绍前，先对平移不变形的残差金字塔模块进行说明。

在一个可选的实施例中，上述残差金字塔模块包括：主分支和金字塔分支，主分支包括至少一层卷积层，金字塔分支包括至少一个金字塔子分支；金字塔子分支包括卷积层、线性插值层、下采样层和上采样层。在训练或者识别时，可以输入第一特征图并输出第二特征图，如下：将第一特征图分别输入主分支和金字塔分支；主分支和金字塔分支分别对第一特征图进行特征提取；将主分支和金字塔分支提取得到的特征信息融合，得到待识别图像的第二特征图。使用平移不变形的残差金字塔模块，可以提高手部遮挡情况下的识别准确率，

参见图4所示的平移不变形的残差金字塔模块的示意图，示出了左侧的主分支、右侧的多个金字塔子分支。其中主分支以包括一个BN-EeLU-1*1卷积层和一个BN-ReLU-3*3卷积层为例，其分别包括批量标准化、激活函数和卷积，可以对输入的特征图引入非线性、降采样和特征提取。金字塔子分支包括多个，每个金字塔子分支包括线性插值层、下采样层、BN-ReLU-3*3卷积层和上采样层。各个金字塔子分支输出的特征图融合后，再与主分支输出的特征图融合，将融合得到的特征图作为残差金字塔模块输出的特征图。

由于残差金字塔在下采样时会随机抛弃部分信息，引入随机性，在需要对手部关键点定位时，会导致定位不准确，本实施例中使用的平移不变形的残差金字塔模块，可以保证手部特征的位置信息不受破坏。

除包括上述平移不变形的残差金字塔模块、沙漏模块和级联特征金字塔模块以外，上述卷积神经网络模型还可以包括卷积层。上述通过卷积神经网络模型对待识别图像进行特征提取的步骤，可以以下步骤执行：

(1)通过卷积层对输入的待识别图像进行卷积处理，得到待识别图像的第一特征图，并将第一特征图输入至残差金字塔模块；

(2)通过残差金字塔模块对第一特征图进行多尺度特征提取，得到待识别图像的第二特征图，并将第二特征图输入至沙漏模块；

(3)通过至少一个沙漏模块对第二特征图进行多尺度特征提取，得到待识别图像的第三特征图，并将第三特征图输入至级联特征金字塔模块；

(4)通过级联特征金字塔模块对第三特征图进行多尺度特征提取，输出识别结果。

参见图5所示的卷积神经网络模型的示意图，模型中的TiPRM模块、Hourglass模块和CPN模块的数量可以根据实际情况确定，在图4中以2个TiPRM模块、8个Hourglass模块和1个CPN模块为例进行说明。待识别的手部图像(128*128)先依次输入3*3卷积层和两个TiPRM模块，输出特征图(64*64)至8个Hourglass模块，输出特征图(64*64)至CPN模块，最终输出已标记手部关键点的图像。该模型可以称为叠式混合U型神经网络模型。

参见图6所示的Hourglass模块的示意图，包括多个残差模块和卷积层。首先卷积层和池化层用于将输入的特征图缩放到很小的分辨率；每一个降采样处，网络进行分叉，并对原来分辨率的特征进行卷积；得到最低分辨率特征后，网络开始进行上采样，并逐渐结合不同尺度的特征信息。沙漏模块是对称的，下采样过程中每有一个网络层，则在上采样的过程中相应低就会有一个对应网络层。在得到沙漏模块输出后，再采用多个连续的卷积层进行处理，得到最终的输出。

参见图7所示的CPN模块的示意图，包括左侧的GlobalNet和右侧的RefineNet。其中GlobalNet为类似FPN(Feature Pyramid Network，特征金字塔网络)的架构，计算不同尺度特征图和关键点响应图的L2loss(损失函数)。右侧的RefineNet，对GlobalNet骨架网络的各层，经过不同次数的bottleneck(瓶颈)之后进行concatenate(融合)，再经过一个bottleneck回归到关键点响应图。

上述卷积神经网络模型的输入为来自普通单目摄像头记录下的图片，模型的输出为包含横向、纵向和频道的三维张量形式的热力图，其中热力图的频道与目标点的位置一一对应。以上述21个关键点为例，可以输出21张三维热力图。

综上所述，本实施例提供的图像识别方法，使用具有导向功能的概率热力图训练模型，可以更精准地定位手部关键位置；设计平移不变形的金字塔残差模块，可以学习细粒度多尺度的手部特征；设计叠式混合U型神经网络模型，融合了沙漏模块和级联特征金字塔模块两种U型模块，使得模型可以学习丰富且多尺度的手部特征，从而提高图像识别的准确率。

实施例三：

对于实施例二中所提供的图像识别方法，本发明实施例提供了一种图像识别装置，参见图8所示的一种图像识别装置的结构框图，包括：

获取模块802，用于获取待识别图像；

输入模块804，用于将待识别图像输入至卷积神经网络模型；其中，卷积神经网络模型包括平移不变形的残差金字塔模块、沙漏模块和级联特征金字塔模块；

识别模块806，用于通过卷积神经网络模型中的残差金字塔模块、沙漏模块和级联特征金字塔模块逐级对待识别图像进行特征提取，得到待识别图像的识别结果；识别结果包括至少一个目标点的位置。

本发明实施例提供的上述图像识别装置，可以通过卷积神经网络模型对待识别图像进行特征提取，得到待识别图像的识别结果，该识别结果中包括目标点的位置信息；其中该卷积神经网络模型中包括平移不变形的金字塔残差模块，可以帮助卷积神经网络模型提取细粒度多尺度的目标对象的特征，而且能保证待识别图像中的识别目标的位置信息不受破坏；该卷积神经网络模型中还融合了沙漏模块和级联特征金字塔模块，使得卷积神经网络模型可以训练学习到丰富且多尺度的识别目标的特征，从而可以基于单目摄像头拍摄的图像进行识别，并且能够提高图像识别的准确率。

在一种实施方式中，参见图9所示的另一种图像识别装置的结构框图，该装置还包括训练模块902，用于通过导向概率热力图对卷积神经网络模型进行训练，直至卷积神经网络模型的误差收敛至预设值，将误差收敛至预设值时对应的参数作为卷积神经网络模型的参数。当下述条件均满足时，确定卷积神经网络模型的误差收敛至预设值：沙漏模块的损失函数值小于第一预设值；级联特征金字塔模块的损失函数值小于第二预设值。

导向概率热力图的生成如下：获取当前训练样本的真实热力图；根据真实热力图构建向导热力图；其中，向导热力图和真实热力图的中心与当前训练样本的目标点的位置相同；将向导热力图与真实热力图融合，得到导向概率热力图。

在一种实施方式中，上述获取模块包括：采集单元，用于通过单目摄像头采集图像，并检测该图像中的手部图像；图像单元，用于将该手部图像作为待识别图像。

在一种实施方式中，上述卷积神经网络模型还包括卷积层；上述识别模块还用于：通过卷积层对输入的待识别图像进行卷积处理，得到待识别图像的第一特征图，并将第一特征图输入至残差金字塔模块；通过残差金字塔模块对第一特征图进行多尺度特征提取，得到待识别图像的第二特征图，并将第二特征图输入至沙漏模块；通过至少一个沙漏模块对第二特征图进行多尺度特征提取，得到待识别图像的第三特征图，并将第三特征图输入至级联特征金字塔模块；通过级联特征金字塔模块对第三特征图进行多尺度特征提取，输出识别结果。

在一种实施方式中，上述残差金字塔模块包括主分支和金字塔分支。

上述识别模块还用于：将第一特征图分别输入主分支和金字塔分支；主分支和金字塔分支分别对第一特征图进行特征提取；将主分支和金字塔分支提取得到的特征信息融合，得到待识别图像的第二特征图。

沙漏模块包括多个残差模块和卷积层；上述识别模块还用于：将第二特征图逐级通过残差模块，得到不同尺度的特征信息以及将第二特征图缩小至预设分辨率；对预设分辨率的第二特征图进行上采样，并逐渐结合特征信息，得到与第二特征图分辨率相同的初步特征图；将初步特征图输入卷积层得到待识别图像的第三特征图，并将第三特征图输入至级联特征金字塔模块。

上述级联特征金字塔模块包括GlobalNet和RefineNet；上述识别模块还用于：通过级联特征金字塔模块对第三特征图进行多尺度特征提取，输出识别结果的步骤，包括：将第三特征图输入GlobalNet，进行特征计算得到不同尺度的中间特征图；通过RefineNet对中间特征图进行瓶颈运算和融合运算，输出识别结果。

上述识别结果为包含横向、纵向和频道的三维热力图，频道与目标点的位置一一对应。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种图像识别系统，包括：图像采集装置、处理器和存储装置；图像采集装置，用于采集待识别图像；存储装置上存储有计算机程序，计算机程序在被处理器运行时执行实施例二提供的图像识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例二所提供的方法的步骤。

本发明实施例所提供的基于图像识别方法、装置及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行实施例二提供的方法，具体实现可参见方法实施例，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请的上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别图像；

将所述待识别图像输入至卷积神经网络模型；其中，所述卷积神经网络模型包括平移不变形的残差金字塔模块、沙漏模块和级联特征金字塔模块；

通过所述卷积神经网络模型中的所述残差金字塔模块、沙漏模块和级联特征金字塔模块逐级对所述待识别图像进行特征提取，得到所述待识别图像的识别结果；所述识别结果包括所述待识别图像上至少一个目标点的位置。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所述待识别图像的导向概率热力图对所述卷积神经网络模型进行训练，直至所述卷积神经网络模型的误差收敛至预设值，将所述误差收敛至所述预设值时对应的参数作为所述卷积神经网络模型的参数。

3.根据权利要求2所述的方法，其特征在于，当下述条件均满足时，确定所述卷积神经网络模型的误差收敛至预设值：所述沙漏模块的损失函数值小于第一预设值；所述级联特征金字塔模块的损失函数值小于第二预设值。

4.根据权利要求2所述的方法，其特征在于，所述导向概率热力图的生成如下：

获取当前训练样本的真实热力图；

根据所述真实热力图构建向导热力图；其中，所述向导热力图和所述真实热力图的中心与所述当前训练样本的目标点的位置相同；

将所述向导热力图与真实热力图融合，得到导向概率热力图。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述获取待识别图像的步骤，包括：

通过单目摄像头采集图像，并检测所述图像中的手部图像；

将所述手部图像作为待识别图像。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述卷积神经网络模型还包括卷积层；所述通过所述卷积神经网络模型中的所述残差金字塔模块、沙漏模块和级联特征金字塔模块逐级对所述待识别图像进行特征提取，得到所述待识别图像的识别结果的步骤，包括：

通过所述卷积层对输入的所述待识别图像进行卷积处理，得到所述待识别图像的第一特征图，并将所述第一特征图输入至所述残差金字塔模块；

通过所述残差金字塔模块对所述第一特征图进行多尺度特征提取，得到所述待识别图像的第二特征图，并将所述第二特征图输入至所述沙漏模块；

通过至少一个所述沙漏模块对所述第二特征图进行多尺度特征提取，得到所述待识别图像的第三特征图，并将所述第三特征图输入至所述级联特征金字塔模块；

通过所述级联特征金字塔模块对所述第三特征图进行多尺度特征提取，输出识别结果。

7.根据权利要求6所述的方法，其特征在于，所述残差金字塔模块包括主分支和金字塔分支；

所述通过所述残差金字塔模块对所述第一特征图进行多尺度特征提取，得到所述待识别图像的第二特征图的步骤，包括：

将所述第一特征图分别输入所述主分支和所述金字塔分支；

所述主分支和所述金字塔分支分别对所述第一特征图进行特征提取；

将所述主分支和所述金字塔分支提取得到的特征信息融合，得到所述待识别图像的第二特征图。

8.根据权利要求6所述的方法，其特征在于，所述沙漏模块包括多个残差模块和卷积层；

所述通过至少一个所述沙漏模块对所述第二特征图进行多尺度特征提取，得到所述待识别图像的第三特征图，并将所述第三特征图输入至所述级联特征金字塔模块的步骤，包括：

将所述第二特征图逐级通过所述残差模块，得到不同尺度的特征信息以及将所述第二特征图缩小至预设分辨率；

对所述预设分辨率的所述第二特征图进行上采样，并逐渐结合所述特征信息，得到与所述第二特征图分辨率相同的初步特征图；

将所述初步特征图输入所述卷积层得到所述待识别图像的第三特征图，并将所述第三特征图输入至所述级联特征金字塔模块。

9.根据权利要求6所述的方法，其特征在于，所述级联特征金字塔模块包括GlobalNet和RefineNet；

所述通过所述级联特征金字塔模块对所述第三特征图进行多尺度特征提取，输出识别结果的步骤，包括：

将所述第三特征图输入所述GlobalNet，进行特征计算得到不同尺度的中间特征图；

通过所述RefineNet对所述中间特征图进行瓶颈运算和融合运算，输出识别结果。

10.根据权利要求1-4任一项所述的方法，其特征在于，所述识别结果为包含横向、纵向和频道的三维热力图，所述频道与所述目标点的位置一一对应。

11.一种图像识别装置，其特征在于，包括：

获取模块，用于获取待识别图像；

输入模块，用于将所述待识别图像输入至卷积神经网络模型；其中，所述卷积神经网络模型包括平移不变形的残差金字塔模块、沙漏模块和级联特征金字塔模块；

识别模块，用于通过所述卷积神经网络模型中的所述残差金字塔模块、沙漏模块和级联特征金字塔模块逐级对所述待识别图像进行特征提取，得到所述待识别图像的识别结果；所述识别结果包括所述待识别图像上至少一个目标点的位置。

12.一种图像识别系统，其特征在于，所述系统包括：图像采集装置、处理器和存储装置；

所述图像采集装置，用于采集待识别图像；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行上述权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至10任一项所述的方法的步骤。