CN115050059A

CN115050059A - 模型训练方法、手掌姿态估计方法、电子设备及存储介质

Info

Publication number: CN115050059A
Application number: CN202210593175.2A
Authority: CN
Inventors: 王亚运; 薛远; 曹天宇; 李绪琴; 户磊
Original assignee: Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-13

Abstract

本申请实施例涉及图像识别领域，公开了一种模型训练方法、手掌姿态估计方法、电子设备及存储介质。模型训练方法包括：构建用于生成图像样本对的特征图的特征提取模型；其中，所述图像样本对包括手掌彩色图像和手掌红外图像；对所述手掌彩色图像的特征图和所述手掌红外图像的特征图进行匹配，确定互为同名点的特征点对；基于所述特征点对得到的视差值与所述手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数，对所述特征提取模型进行训练。应用于手掌姿态估计过程中，提高手掌姿态估计准确性。

Description

模型训练方法、手掌姿态估计方法、电子设备及存储介质

技术领域

本申请实施例涉及图像识别领域，特别涉及一种模型训练方法、手掌姿态估计方法、电子设备及存储介质。

背景技术

手掌姿态估计是掌纹掌静脉识别系统中重要的一环，通过得到的检测结果告知用户进行手掌姿态的相应调整，以更好地获取手掌图像，从而保证掌纹掌静脉的识别准确率。手掌姿态估计按照最终的生成方式来分的话可以分为两类：基于检测的方法和基于回归的方法。基于检测的方法是通过生成热图来得到预测的手掌关键点，根据预测的手掌关键点确定手掌姿态。基于回归的方法是直接回归关键点的位置坐标，根据关键点的位置坐标得到手掌的三维姿态。

但基于回归的方法缺乏空间泛化能力，丢失了空间信息，致使姿态估计结果不准确。基于检测的方法大多采用大量带标签的手部数据和复杂的深度学习模型才能得到准确的手掌姿态，而带标签的手部数据的采集需要耗费大量时间和人力，复杂的深度学习模型也不利于移植到刷掌系统的嵌入式平台中。

发明内容

本申请实施方式的目的在于提供一种模型训练方法、手掌姿态估计方法、电子设备及存储介质，通过将模型训练方法和特征检测匹配方法相结合，使得通过结构较为简单的特征提取模型得到的特征图更加准确，从而提高了后续根据特征图的特征点确定手掌姿态的准确性。

为解决上述技术问题，本申请的实施方式提供了一种模型训练方法，包括：构建用于生成图像样本对的特征图的特征提取模型；其中，所述图像样本对包括手掌彩色图像和手掌红外图像；对所述手掌彩色图像的特征图和所述手掌红外图像的特征图进行匹配，确定互为同名点的特征点对；基于所述特征点对得到的视差值与所述手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数，对所述特征提取模型进行训练。

本申请的实施方式还提供了一种手掌姿态估计方法，包括：将拍摄同一手掌得到的待测手掌彩色图像和待测手掌红外图像输入到已训练好的特征提取模型中，得到所述待测手掌彩色图像的特征图和待测手掌红外图像的特征图；其中所述特征提取模型通过如上所述的模型训练方法获取；对所述待测手掌彩色图像的特征图和所述待测手掌红外图像的特征图进行匹配，确定互为同名点的特征点对，并获取所述特征点对中待测手掌红外图像的特征点的三维点云数据；计算所述三维点云数据的协方差矩阵，并采用特征值分解法确定所述协方差矩阵的特征值和所述特征值对应的特征向量；将所述特征值的最大值所对应的特征向量、次大值所对应的特征量和第三大值所对应的特征向量组合作为手掌姿态旋转矩阵，并根据所述手掌姿态旋转矩阵确定手掌的三维姿态。

本申请的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述实施方式提及的模型训练方法，或者能够执行上述实施方式提及的手掌姿态估计方法。

本申请的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式提及的模型训练方法，或者能够执行上述实施方式提及的手掌姿态估计方法。

本申请实施方式提供的模型训练方法，将手掌彩色图像和手掌红外图像输入到特征提取模型中，得到手掌彩色图的特征图和手掌红外图的特征图，计算确定手掌彩色图的特征图和手掌红外图的特征图中互为同名点的特征点对，以特征点对得到的视差值与手掌红外图像经单目匹配算法得到的视差值之间的距离作为损失函数对特征提取模型进行计算，由于整个模型只负责特征图的提取，因而模型架构较为简单，无需大量带标签的数据进行训练，而模型的训练通过特征检测匹配计算的特征点对的视差值和手掌红外图像经单目匹配算法得到的视差值之间的距离进行约束，也就是说，本申请将图像处理方法(特征检测匹配)和深度学习方法(模型训练)相结合，使得通过特征提取模型得到的手掌彩色图像的特征图和手掌红外图像的特征图更加准确，从而提高了后续根据特征图的特征点确定手掌姿态的准确性。

本申请实施方式提供的手掌姿态估计方法，通过模型训练方法获取的特征提取模型提取待测手掌彩色图像的特征图和待测手掌红外图像的特征图，对这两个特征图进行匹配确定互为同名点的特征点对，由特征点对确定三维点云数据，然后根据三维点云数据协方差矩阵的特征值和特征值所对应的特征向量确定手掌的三维姿态。整个方法只需对待测手掌彩色图像的特征图和待测手掌红外图像的特征图采用图像处理算法就可得到准确的手掌三维姿态，简单便捷，可移植性高，大幅提高了掌纹掌静脉识别系统中手掌姿态估计模块的实用性。

另外，本申请实施方式提供的模型训练方法，对所述手掌彩色图像的特征图和所述手掌红外图像的特征图进行匹配，确定互为同名点的特征点对，包括：分别计算所述手掌彩色图像的特征图和所述手掌红外图像的特征图中每个像素点的特征向量模值；以预设的搜索窗口分别在所述手掌彩色图像的特征图和所述手掌红外图像的特征图中，确定所述搜索窗口内特征向量模值的极大值点，并将所述极大值点对应的像素点作为特征点；采用预设的特征匹配算法对所述手掌彩色图像的特征图中的特征点和所述手掌红外图像的特征图中的特征点进行匹配，确定互为同名点的特征点对。本申请将搜索窗口内特征向量模值的极大值点所对应的像素点作为特征点，即通过特征向量模值选择强特征的像素点作为后续计算手掌三维姿态的像素点，避免了通过所有像素点计算手掌三维姿态时计算量大、像素点之间冗余信息较多、效率低的问题。

另外，本申请实施方式提供的模型训练方法，所述基于所述特征点对得到的视差值与所述手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数，对所述特征提取模型进行训练，包括：将所述手掌红外图像经单目匹配算法得到的视差图投影到红外相机坐标系下，并进行下采样处理得到红外相机坐标系下与所述特征图尺寸相同的视差图；确定所述手掌红外图像的特征图中各特征点在所述视差图中对应的像素点的视差值，并将所述视差值作为参考视差值；基于所述特征点对得到的视差值与所述参考视差值之间的距离构建损失函数，对所述特征提取模型进行训练。本申请通过特征提取模型得到的特征图的尺寸一般小于原始图像(手掌红外图像和手掌彩色图像)的尺寸，因此将手掌红外图像经单目匹配算法得到的视差图进行下采样处理，得到与特征图尺寸一样的视差图，进而在构建损失函数时能根据特征点的坐标快速地确定出对应的参考视差值。

另外，本申请实施方式提供的手掌姿态估计方法，所述获取所述特征点对中待测手掌红外图像的特征点的三维点云数据，包括：采用深度计算公式获取所述特征点对中待测手掌红外图像的特征点的深度值；根据所述待测手掌红外图像的特征点的图像坐标、所述深度值和预设的相机内参，计算在红外相机坐标系下待测手掌红外图像的特征点的三维点云数据。本申请通过特征点对中待测手掌红外图像的特征点的深度值获取特征点的三维点云数据，将其作为手掌特征点，对这些手掌特征点的三维点云数据进行简单的数学计算即可确定手掌的三维姿态。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请的实施方式提供的模型训练方法的流程图；

图2是本申请的实施方式提供的手掌姿态估计方法的流程图；

图3是本申请的实施方式的提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

下面对本实施方式的模型训练的实现细节进行举例说明。以下内容仅为方便理解而提供的实现细节，并非实施本方案的必须。

本申请的实施方式涉及一种模型训练方法，如图1所示，包括：

步骤101，构建用于生成图像样本对的特征图的特征提取模型；其中，图像样本对包括手掌彩色图像和手掌红外图像。

本实施例中，用于训练的图像样本对包含若干组，每一组图像样本对均包括一张手掌彩色图像和一张手掌红外图像，且这两张图像为拍摄同一手掌得到的。比如：用于训练的图像样本对有10组，这10组图像样本对可以是同一手掌、不同拍摄位置的图像，也可以是不同手掌、同一拍摄位置的图像，但每一组图像样本对都包括同一手掌的彩色图像和红外图像。一般来说，采用彩色相机和红外相机同步采集手掌的彩色图像和手掌的红外图像，彩色相机和红外相机的拍摄视点不同。

步骤102，对手掌彩色图像的特征图和手掌红外图像的特征图进行匹配，确定互为同名点的特征点对。

本实施例中，对获取到的手掌彩色图像的特征图和手掌红外图像的特征图进行特征检测和特征匹配，确定互为同名点的特征点对。即特征点对包括两个具有强特征的像素点。需要注意的是，在后续进行手掌姿态估计过程中，本申请是根据具有强特征的像素点来确定手掌的三维姿态，一方面，并不是所有的像素点都对手掌三维姿态的确定具有帮助，即有些像素点的信息很可能是不需要的；另一方面，相邻像素点之间存在冗余信息，若将手掌图像中的所有像素点都进行手掌姿态估计的计算，整个过程的计算量将会大大增加，不利于提高手掌姿态估计的效率。

在一实施例中，步骤102具体包括：分别计算手掌彩色图像的特征图和手掌红外图像的特征图中每个像素点的特征向量模值；以预设的搜索窗口分别在手掌彩色图像的特征图和手掌红外图像的特征图中，确定搜索窗口内特征向量模值的极大值点，并将极大值点对应的像素点作为特征点；采用预设的特征匹配算法对手掌彩色图像的特征图中的特征点和手掌红外图像的特征图中的特征点进行匹配，确定互为同名点的特征点对。

本实施例中，对得到的特征图计算每个像素点的特征向量的模值，而每个像素点特征向量的维数与模型的通道数有关，比如：特征提取模型的通道数为1024维，则每个像素点的特征向量都为1024维的特征向量。然后以预设的搜索窗口分别在手掌彩色图像的特征图和手掌红外图像的特征图中，确定搜索窗口内特征向量模值的极大值点，假设搜索窗口大小为3*3，则比较搜索窗口内9个特征向量模值的大小，将特征向量模值的最大值对应的像素点作为特征点。具体地，搜索窗口的大小和搜索步长可以根据手掌姿态估计的准确度、计算速度的需要自行设定。而预设的图像匹配算法可以是快速最邻近搜索算法(FLANN)、SIFT算法，SURF算法，PCA-SIFT算法等等。具体地，在匹配过程中可以根据欧式距离、马氏距离等确定相匹配的两个像素点。

另外，为了提高匹配计算的准确性，可以在获取图像样本对之前对两个相机进行标定，确定相机内参和外参，根据相机内参和外参采用Fusiello方法，对手掌红外图像和手掌彩色图像进行极线校正，达到严格行对齐的效果，即两幅图像的对极线恰好在同一水平线上，两幅图像的同名点(特征匹配点)具有相同行号。具体地，相机标定的过程包括：将棋盘格标定板置于红外相机和彩色相机的前方，保证标定板同时完整的出现在两种相机视野内。同步采集若干组标定板的彩色图像和红外图像。首先对两种相机分别进行内部参数标定，具体为提取标定板角点坐标、估计初始内参、最小二乘法迭代优化重投影误差等步骤，获取的内参包括：相机焦距、主点坐标、畸变系数等；然后固定两种相机的内部参数，估计初始外参，并使用最小二乘法迭代优化重投影误差，获取两个相机的外部参数，包括旋转矩阵、平移矩阵、校正后内参矩阵等。

步骤103，基于特征点对得到的视差值与手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数，对特征提取模型进行训练。

本实施例中，以手掌红外图像经单目匹配算法得到的参考视差值作为损失函数中的真实值，以特征对得到的视差值作为预测视差值。需要说明的是，参考视差值是在红外相机一侧增加激光投射器构建单目结构光系统，通过对手掌红外图像进行单目匹配算法获取的。可以理解的是，激光投射器发射的主要都是红外激光，因此红外相机获取的手掌散斑图像会比由RGB相机构成的单目结构光系统获取的手掌散斑图像更加清晰，进而手掌红外散斑图像和参考红外散斑图像经单目匹配算法确定的视差值精度更高、误差更小。基于此，模型训练过程中让跨模态的特征点对(手掌彩色图像的特征图的特征点和手掌红外图像的特征图的特征点)计算得到的视差值尽可能地接近高精度的参考视差值，提高跨模态图像的视差计算精度。

在一实施例中，步骤103具体包括：将手掌红外图像经单目匹配算法得到的视差图投影到红外相机坐标系下，并进行下采样处理得到红外相机坐标系下与所述特征图尺寸相同的视差图；确定所述手掌红外图像的特征图中各特征点在视差图中对应的像素点的视差值，并将所述视差值作为参考视差值；基于特征点对得到的视差值与所述参考视差值之间的距离构建损失函数，对所述特征提取模型进行训练。

本实施例中，由于经特征提取模型得到的特征图的尺寸一般都小于原图像的尺寸，而手掌红外图像经单目匹配算法得到的视差图尺寸与原图像一致，因此，在损失函数计算时，需要对视差图进行下采样处理，得到与特征图尺寸相同的视差图，如此，就可以根据手掌红外图像的特征图中各特征点的坐标，确定视差图中对应的像素点。即在手掌彩色图像的特征点、手掌红外图像的特征点和视差图中的对应像素点之间建立了对应关系。

具体地，本实施例特征提取模型在训练时采用的损失函数为:

其中，N是特征点对的数量，

是所述手掌红外图像经单目匹配算法得到的参考视差值，

是所述手掌红外图的特征图的特征点x坐标，

是所述手掌彩色图的特征图的特征点x坐标。

需要说明的是，本申请的特征提取模型可以采用密集卷积网络DenseNet结构，也可以采用其他网络结构，如残差网络、注意力机制网络等等。若采用DenseNet结构，为了更好地利用各个卷积层的特征信息，可以将DenseNet-transition模块中的均值池化层修改为最大池化层，以进一步突出特征响应，网络最终输出特征图分辨率为原始图像的1/4，通道数为1024。特征提取模型在训练时，可以分为两阶段训练，第一阶段，采用开源数据集进行预训练，得到高度泛化的网络模型参数，让网络具备初始的特征提取能力。第二阶段，在自己构建的图像样本对上进行迁移训练。具体地，第二阶段训练过程可以使用RMSProp优化器，初始学习率为0.001，模型训练过程中对学习率进行动态调整，其随迭代次数的增加而阶梯式下降。

本申请的实施方式涉及一种手掌姿态估计方法，如图2所示，包括：

步骤201，将拍摄同一手掌得到的待测手掌彩色图像和待测手掌红外图像输入到已训练好的特征提取模型中，得到待测手掌彩色图像的特征图和待测手掌红外图像的特征图；其中所述特征提取模型通过如上所述的模型训练方法获取。

本实施例中，特征提取模型的网络结构、训练方法、损失函数都可以参考步骤101-步骤103的具体实施细节。

步骤202，对待测手掌彩色图像的特征图和待测手掌红外图像的特征图进行匹配，确定互为同名点的特征点对，并获取特征点对中待测手掌红外图像的特征点的三维点云数据。

本实施例中，特征点对的确定方法与模型训练阶段特征点对的确定方法相同，在此不做赘述。而获取所述特征点对中待测手掌红外图像的特征点的三维点云数据，包括：采用深度计算公式获取所述特征点对中待测手掌红外图像的特征点的深度值；根据所述待测手掌红外图像的特征点的图像坐标、所述深度值和预设的相机内参，计算在红外相机坐标系下待测手掌红外图像的特征点的三维点云数据。

具体地，深度计算公式为：

其中，u_ir和u_rgb分别为待测手掌红外图像和待测手掌彩色图像中特征点的像素坐标，f为内参矩阵中的焦距像素值，L为内参矩阵中的基线长度。

具体地，三维点云数据的计算公式为:

其中，(X，Y，Z)为特征点的三维坐标，(u_ir，v_ir)为待测手掌红外图像的特征点的图像坐标，(c_x，c_y)为内参矩阵中的主点坐标，f为内参矩阵中的焦距像素值，d为特征点对应的深度值。

步骤203，计算三维点云数据的协方差矩阵，并采用特征值分解法确定协方差矩阵的特征值和特征值对应的特征向量。

本实施例中，协方差矩阵的计算过程包括：对三维点云数据去中心化，即将每个点的坐标值都减去三维点云数据各坐标的平均值，然后对去中心化的三维点云数据计算协方差矩阵，假设有m条n维的数据，将原始数据组成n行m列的矩阵X，协方差的计算公式则为Cov＝(1/m)*XX^T。对计算得到的协方差矩阵采用特征分解法确定协方差矩阵的特征值和特征值对应的特征向量。具体地，特征值的数量为特征方程的次数。

步骤204，将特征值的最大值所对应的特征向量、次大值所对应的特征量和第三大值所对应的特征向量组合作为手掌姿态旋转矩阵，并根据手掌姿态旋转矩阵确定手掌的三维姿态。

本实施例中，对得到的特征值按从大到小的顺序排列，选择最大值所对应的特征向量、次大值所对应的特征量和第三大值所对应的特征向量组合作为手掌姿态旋转矩阵，并根据手掌姿态旋转矩阵确定手掌的三维姿态。假设以手掌中心作为原点建立坐标系，手掌前进的方向为x轴，垂直于手掌的方向为z轴，垂直于x轴和z轴的方向为y轴，基于此，最大的特征值所对应的特征向量为x轴方向，次大值所对应的特征向量为y轴方向，第三大值所对应的特征向量为z轴方向。

具体地，手掌三维姿态的计算公式为：

其中，R为手掌姿态旋转矩阵，(θ_x，θ_y，θ_z)为手掌的三维姿态。

另外，所述获取所述特征点对中待测手掌红外图像的特征点的三维点云数据之前，还包括：计算所述特征点对中两个特征点的横坐标差值；将所述横坐标差值超过预设阈值所对应的特征点对从确定的特征点对中剔除。需要说明的是，由于网络泛化性问题，可能会存在误匹配现象，因此在完成特征匹配之后，还需要基于对极约束原则，对挑选出的同名点对进一步筛选，剔除横坐标差值相差超过阈值的同名点对，以提高同名点对的匹配准确率。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请的实施方式涉及一种电子设备，如图3所示，包括：

至少一个处理器301；以及，与至少一个处理器301通信连接的存储器302；其中，存储器302存储有可被至少一个处理器301执行的指令，指令被至少一个处理器301执行，以使至少一个处理器301能够执行如上述实施方式提及的模型训练方法，或者能够执行上述实施方式提及的手掌姿态估计方法。

该电子设备包括：一个或多个处理器301以及存储器302，图3中以一个处理器301为例。处理器301、存储器302可以通过总线或者其他方式连接，图3中以通过总线连接为例。存储器302作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施方式中策略空间内的各处理策略对应的算法就存储于存储器302中。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述模型训练方法或手掌姿态估计方法。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器302可选包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器302中，当被一个或者多个处理器301执行时，执行上述任意实施方式中的模型训练方法，或者能够执行上述实施方式提及的手掌姿态估计方法。

上述产品可执行本申请实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本申请实施方式所提供的方法。

本申请的实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。