发明内容
本发明提供了一种手掌图像识别方法、装置及计算机可读存储介质,解决了现有的方法受光照等环境的影响较大,使得手掌图像判断的可靠性较低。
本发明提供了一种手掌图像识别方法,包括:
通过训练好的神经网络对待识别图像进行关键点的区域预测,得到多张热图,每张所述热图对应一个关键点的区域预测结果;
将所述热图的最高像素作为所述热图的预测置信度值;
根据所有所述预测置信度值和预置规则计算代表值,并将所述代表值与预置第一阈值比较,若所述代表值大于所述预置第一阈值则判定所述待识别图像为手掌图像。
优选地,
所述的手掌图像识别方法,还包括:
若所述待识别图像为手掌图像且所述热图包含关键点的预测区域,则将热图的最高像素点作为关键点的第一类预测点,并输出所有所述第一类预测点坐标及相应的所述预测置信度值;
若所述待识别图像为手掌图像且所述热图不包含关键点的预测区域,则判定关键点的预测点缺失。
优选地,
所述神经网络包括第一卷积层、第二卷积层、池化层和反卷积层;
所述第一卷积层和所述池化层配合用于减小所述待识别图像的尺寸并计算得到特征图像;
所述反卷积层和所述第二卷积层配合用于增加所述特征图像的尺寸并计算得到多张所述热图,且使得所述热图和所述待识别图像尺寸相同。
优选地,
所述神经网络还包括全连接层;
所述的手掌图像识别方法还包括:通过所述全连接层对经过任意一个所述第二卷积层计算后的特征图像进行处理得到关键点的第二类预测点,并输出所述第二类预测点坐标,其中所述第二类预测点包括所述第一类预测点和缺失的预测点。
优选地,
所述的手掌图像识别方法,还包括:
将所述预测置信度值大于预置第二阈值的所述第一类预测点标记为可信任;
将所述预测置信度值不大于预置第二阈值的所述第一类预测点及缺失的预测点标记为不可信任,并从第二类预测点坐标中选取与不可信任的预测点对应的坐标,然后将选取的坐标作为不可信任的预测点的新坐标。
优选地,
本发明提及的任意一种所述手掌图像识别方法,还包括:
将经过所述第一卷积层计算后的特征图像数据与所述第二卷积层待计算的特征图像数据合并,并将合并后的特征图像数据作为所述第二卷积层新的待计算数据。
优选地,
所述代表值为所有所述预测置信度值的中位数或平均数。
本发明提供了一种手掌图像识别装置,包括:
预测单元,用于通过训练好的神经网络对待识别图像进行关键点的区域预测,得到多张热图,每张所述热图对应一个关键点的区域预测结果;
第一确定单元,用于将所述热图的最高像素作为所述热图的预测置信度值;
判断单元,用于根据所有所述预测置信度值和预置规则计算代表值,并将所述代表值与预置第一阈值比较,若所述代表值大于所述预置第一阈值则判定所述待识别图像为手掌图像。
优选地,
所述的手掌图像识别装置,还包括:
关键点确定单元,当所述待识别图像为手掌图像且所述热图包含关键点的预测区域时,则将热图的最高像素点作为关键点的第一类预测点,并输出所有所述第一类预测点坐标及相应的所述预测置信度值;
若所述待识别图像为手掌图像且所述热图不包含关键点的预测区域,则判定关键点的预测点缺失。
本发明提供了一种计算机可读存储介质,其上存储有计算程序,该程序被处理器执行时实现以下步骤:
通过训练好的神经网络对待识别图像进行关键点的区域预测,得到多张热图,每张所述热图对应一个关键点的区域预测结果;
将所述热图的最高像素作为所述热图的预测置信度值;
根据所有所述预测置信度值和预置规则计算代表值,并将所述代表值与预置第一阈值比较,若所述代表值大于所述预置第一阈值则判定所述待识别图像为手掌图像。
从以上技术方案可以看出,本发明具有以下优点:
首先通过训练好的神经网络对待识别图像进行关键点的区域预测,得到多张热图,每张热图对应一个关键点的区域预测结果;然后将热图的最高像素作为热图的预测置信度值;再根据所有预测置信度值和预置规则计算代表值,并将代表值与预置第一阈值比较,若代表值大于预置第一阈值则判定待识别图像为手掌图像;本发明采用神经网络的方法的对手掌关键点的区域进行预测,然后利用预测得到的热图判断待识别图像是否为手掌图像,利用了神经网络的优势,所以本发明分类准确度高,且具有较好的鲁棒性和容错性,而又因为神经网络对灰度的依赖性较小,所以本发明受环境影响较小,可靠性较高。
具体实施方式
本发明实施例提供了一种手掌图像识别方法、装置及计算机可读存储介质,解决了现有的方法受光照等环境的影响较大,使得手掌图像判断的可靠性较低。
为了便于对本发明的技术方案进行理解,特进行以下说明:在本发明中,手掌图像识别包括初步识别和进一步识别两部分,其中初步识别是指判断待识别图像是否为手掌图像,进一步识别是指对手掌图像上的关键点进行预测,其中进一步识别的目的在于后续对关键点周围的手掌特征进行提取和比对。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供的一种手掌图像识别方法的第一实施例的流程示意图。
本发明提供了一种手掌图像识别方法的第一实施例,包括:
步骤101,通过训练好的神经网络对待识别图像进行关键点的区域预测,得到多张热图,每张热图对应一个关键点的区域预测结果。
在本实施例中,进行关键点的区域预测是指对关键点所在的区域进行预测。
可以理解的是,在步骤101之前可以通过预置的关键点模型对神经网络进行训练,使得训练后的神经网络在接收到输入的待识别图像后,会输出特定的热图。
关键点模型有多种,在本实施例中,对神经网络训练使用的关键点模型为图6所示的关键点模型,在该关键点模型中,用户预先人工标注了9个关键点,而神经网络训练时的输入图像可以是包含手掌的图像,也可以不包含手掌的图像,神经网络训练的目标是图像。
对于包含手掌的图像来说,目标可以是人工标注的手掌关键点的位置经处理后的图像,并将每个关键点处理至一个平面上;其中处理方法包括但不限于,以关键点位置为中心,半径为3的圆周区域为特定值,其他区域均为零的图像表示关键点回归的目标。
对于不包含手掌的图像来说,回归目标可以是一个与手掌图像同样尺寸,但所有像素值均为零的图像。
具体地,图7和图9分别为两个手掌图像,图8为与图7对应的9个关键点的9张热图,图10为与图9对应的9个关键点的9张热图,从图8和图10可以看出,该关键点模型决定了神经网络输出的热图中包括关键点的预测区域及黑色背景区域,其中预测区域为白色区域。
步骤102,将热图的最高像素作为热图的预测置信度值。
基于本实施例在训练时对目标图像采用的处理方法,最高像素必然存在于关键点的预测区域中,而预测区域外的像素为0。
步骤103,根据所有预测置信度值和预置规则计算代表值,并将代表值与预置第一阈值比较,若代表值大于预置第一阈值则判定待识别图像为手掌图像。
需要说明的是,预置规则和第一阈值均可以根据神经网络的训练结果进行设定,例如可以将手掌图像识别率最高的规则作为预置规则;而不同的预置规则可能对应不同的代表值,例如代表值可以为所有预测置信度值的中位数或平均数。
本发明采集神经网络的方法的对手掌关键点的区域进行预测,具有分类准确度高,具有较好的鲁棒性和容错性,然后利用预测得到的热图判断待识别图像是否为手掌图像,受环境影响较小,可靠性较高。
请参阅图2,本发明提供的一种手掌图像识别方法的第二实施例的流程示意图。
本发明提供了一种手掌图像识别方法的第二实施例,包括:
步骤201,通过训练好的神经网络对待识别图像进行关键点的区域预测,得到多张热图,每张热图对应一个关键点的区域预测结果。
为了实现神经网络的预测效果,本实施例的神经网络包括第一卷积层、第二卷积层、池化层和反卷积层,具体可参阅图4。
第一卷积层和池化层配合用于减小待识别图像的尺寸并计算得到特征图像,其中池化层用于下采样。
反卷积层和第二卷积层配合用于增加特征图像的尺寸并计算得到多张热图,且使得热图和待识别图像尺寸相同,其中反卷积层用于上采样。
需要说明的是,图4中矩形代表特征图像,数字代表特征图像的通道数,向下箭头表示下采样,向上箭头表示上采样,除标记100的其他所有右向箭头均表示卷积和激活函数,可以看出,卷积和下采样过程交替进行,上采样过程和卷积也交替进行,所以第一卷积层和池化层是交替设置,反卷积层和第二卷积层也是交替设置,而神经网络的通道数、第一卷积层和池化层的先后顺序、反卷积层和第二卷积层的先后顺序、第一卷积层的数量、第二卷积层的数量、池化层的数量和反卷积层的数量均不限于图4所示情况。
在图4所示的神经网络中,每经过第一卷积层的卷积处理后,通道数都翻倍,而下采样过程不改变通道数;每次上采样后,通道数都减半。
进一步地,在本实施例中,还可以将经过第一卷积层计算后的特征图像数据与第二卷积层待计算的特征图像数据合并,并将合并后的特征图像数据作为第二卷积层新的待计算数据。
如图4和图5所示,标记100的右向箭头表示将左侧的特征图像数据与右侧的特征图像数据合并,并将合并后的新的待计算数据用于接下来的第二卷积层的卷积处理。
需要说明的是,数据合并处理可以增加图像细节以提高预测准确度,但同时也会增加通道数,增加计算量;另外,数据合并的前提是合并的两张特征图像的尺寸相同。
步骤202,将热图的最高像素作为热图的预测置信度值。
步骤202与本申请第一实施例中步骤102的内容相同,具体描述可以参见第一实施例步骤102的内容,在此不再赘述。
步骤203,根据所有预测置信度值和预置规则计算代表值,并将代表值与预置第一阈值比较,若代表值大于预置第一阈值则判定待识别图像为手掌图像。
步骤203与本申请第一实施例中步骤103的内容相同,具体描述可以参见第一实施例步骤103的内容,在此不再赘述。
步骤204,若待识别图像为手掌图像且热图包含关键点的预测区域,则将热图的最高像素点作为关键点的第一类预测点,并输出所有第一类预测点坐标及相应的预测置信度值;
若待识别图像为手掌图像且热图不包含关键点的预测区域,则判定关键点的预测点缺失。
可以理解的是,如果待识别图像为不完整的手掌图像,那么可能存在不包含关键点预测区域的热图,如图9和图10所示,9张热图中有1张热图不包含关键点的预测区域,这种情况可以认为预测点缺失。
需要说明的是,第一类预测点是根据热图中的预测区域得出来的;所以当预测区域存在但没有显示在热图中时,无法获取到该预测区域中预测点的坐标;如图10所示,还存在预测区域不完全显示在热图中的情况,那么预测区域的最高像素点其实存在热图之外,那么这个最高像素点坐标也不能获取到,即此时获取到的第一类预测点坐标存在偏差,相应的预测置信度值也不够高。
进一步地,所述神经网络还可以包括全连接层。
步骤205,通过全连接层对经过任意一个第二卷积层计算后的特征图像进行处理得到关键点的第二类预测点,并输出第二类预测点坐标,其中第二类预测点包括第一类预测点和缺失的预测点。
具体可参阅图5,全连接层可以在输出位置2处添加,也可以输出热图的位置添加,需要说明的是,将全连接层添加在输出热图的位置会使得预测效果更好,然而计算量也会随之增大,所以全连接层的添加位置可以根据实际需要进行调整,其中全连接层为现有技术,故此处对全连接层不做详述。
需要说明的是,第二类预测点通过全连接层处理得到的,不依赖于热图。
步骤206,将预测置信度值大于预置第二阈值的第一类预测点标记为可信任;
将预测置信度值不大于预置第二阈值的第一类预测点及缺失的预测点标记为不可信任,并从第二类预测点坐标中选取与不可信任的预测点对应的坐标,然后将选取的坐标作为不可信任的预测点的新坐标。
基于第一类预测点的缺陷,从第二类预测点坐标中选取相应的坐标作为不可信任的预测点的坐标。
需要说明的是,本实施例对关键点所在的区域进行预测而不是对关键点进行直接预测,并结合计算最终确定关键点的预测点,可以提高关键点的预测准确度。
请参阅图3,本发明提供的一种手掌图像识别装置的一个实施例的结构示意图。
本发明提供了一种手掌图像识别装置的一个实施例,包括:
预测单元301,用于通过训练好的神经网络对待识别图像进行关键点的区域预测,得到多张热图,每张热图对应一个关键点的区域预测结果。
第一确定单元302,用于将热图的最高像素作为热图的预测置信度值;
判断单元303,用于根据所有预测置信度值和预置规则计算代表值,并将代表值与预置第一阈值比较,若代表值大于预置第一阈值则判定待识别图像为手掌图像。
关键点确定单元304,当待识别图像为手掌图像且热图包含关键点的预测区域时,则将热图的最高像素点作为关键点的第一类预测点,并输出所有第一类预测点坐标及相应的预测置信度值;
若待识别图像为手掌图像且热图不包含关键点的预测区域,则判定关键点的预测点缺失。
本发明提供了一种计算机可读存储介质,其上存储有计算程序,该程序被处理器执行时实现以下步骤:
通过训练好的神经网络对待识别图像进行关键点的区域预测,得到多张热图,每张热图对应一个关键点的区域预测结果;
将热图的最高像素作为热图的预测置信度值;
根据所有预测置信度值和预置规则计算代表值,并将代表值与预置第一阈值比较,若代表值大于预置第一阈值则判定待识别图像为手掌图像。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。