CN115050059A - 模型训练方法、手掌姿态估计方法、电子设备及存储介质 - Google Patents

模型训练方法、手掌姿态估计方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115050059A
CN115050059A CN202210593175.2A CN202210593175A CN115050059A CN 115050059 A CN115050059 A CN 115050059A CN 202210593175 A CN202210593175 A CN 202210593175A CN 115050059 A CN115050059 A CN 115050059A
Authority
CN
China
Prior art keywords
palm
characteristic
image
infrared image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210593175.2A
Other languages
English (en)
Inventor
王亚运
薛远
曹天宇
李绪琴
户磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Dilusense Technology Co Ltd
Original Assignee
Hefei Dilusense Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Dilusense Technology Co Ltd filed Critical Hefei Dilusense Technology Co Ltd
Priority to CN202210593175.2A priority Critical patent/CN115050059A/zh
Publication of CN115050059A publication Critical patent/CN115050059A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1347Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1365Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例涉及图像识别领域,公开了一种模型训练方法、手掌姿态估计方法、电子设备及存储介质。模型训练方法包括:构建用于生成图像样本对的特征图的特征提取模型;其中,所述图像样本对包括手掌彩色图像和手掌红外图像;对所述手掌彩色图像的特征图和所述手掌红外图像的特征图进行匹配,确定互为同名点的特征点对;基于所述特征点对得到的视差值与所述手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数,对所述特征提取模型进行训练。应用于手掌姿态估计过程中,提高手掌姿态估计准确性。

Description

模型训练方法、手掌姿态估计方法、电子设备及存储介质
技术领域
本申请实施例涉及图像识别领域,特别涉及一种模型训练方法、手掌姿态估计方法、电子设备及存储介质。
背景技术
手掌姿态估计是掌纹掌静脉识别系统中重要的一环,通过得到的检测结果告知用户进行手掌姿态的相应调整,以更好地获取手掌图像,从而保证掌纹掌静脉的识别准确率。手掌姿态估计按照最终的生成方式来分的话可以分为两类:基于检测的方法和基于回归的方法。基于检测的方法是通过生成热图来得到预测的手掌关键点,根据预测的手掌关键点确定手掌姿态。基于回归的方法是直接回归关键点的位置坐标,根据关键点的位置坐标得到手掌的三维姿态。
但基于回归的方法缺乏空间泛化能力,丢失了空间信息,致使姿态估计结果不准确。基于检测的方法大多采用大量带标签的手部数据和复杂的深度学习模型才能得到准确的手掌姿态,而带标签的手部数据的采集需要耗费大量时间和人力,复杂的深度学习模型也不利于移植到刷掌系统的嵌入式平台中。
发明内容
本申请实施方式的目的在于提供一种模型训练方法、手掌姿态估计方法、电子设备及存储介质,通过将模型训练方法和特征检测匹配方法相结合,使得通过结构较为简单的特征提取模型得到的特征图更加准确,从而提高了后续根据特征图的特征点确定手掌姿态的准确性。
为解决上述技术问题,本申请的实施方式提供了一种模型训练方法,包括:构建用于生成图像样本对的特征图的特征提取模型;其中,所述图像样本对包括手掌彩色图像和手掌红外图像;对所述手掌彩色图像的特征图和所述手掌红外图像的特征图进行匹配,确定互为同名点的特征点对;基于所述特征点对得到的视差值与所述手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数,对所述特征提取模型进行训练。
本申请的实施方式还提供了一种手掌姿态估计方法,包括:将拍摄同一手掌得到的待测手掌彩色图像和待测手掌红外图像输入到已训练好的特征提取模型中,得到所述待测手掌彩色图像的特征图和待测手掌红外图像的特征图;其中所述特征提取模型通过如上所述的模型训练方法获取;对所述待测手掌彩色图像的特征图和所述待测手掌红外图像的特征图进行匹配,确定互为同名点的特征点对,并获取所述特征点对中待测手掌红外图像的特征点的三维点云数据;计算所述三维点云数据的协方差矩阵,并采用特征值分解法确定所述协方差矩阵的特征值和所述特征值对应的特征向量;将所述特征值的最大值所对应的特征向量、次大值所对应的特征量和第三大值所对应的特征向量组合作为手掌姿态旋转矩阵,并根据所述手掌姿态旋转矩阵确定手掌的三维姿态。
本申请的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的模型训练方法,或者能够执行上述实施方式提及的手掌姿态估计方法。
本申请的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的模型训练方法,或者能够执行上述实施方式提及的手掌姿态估计方法。
本申请实施方式提供的模型训练方法,将手掌彩色图像和手掌红外图像输入到特征提取模型中,得到手掌彩色图的特征图和手掌红外图的特征图,计算确定手掌彩色图的特征图和手掌红外图的特征图中互为同名点的特征点对,以特征点对得到的视差值与手掌红外图像经单目匹配算法得到的视差值之间的距离作为损失函数对特征提取模型进行计算,由于整个模型只负责特征图的提取,因而模型架构较为简单,无需大量带标签的数据进行训练,而模型的训练通过特征检测匹配计算的特征点对的视差值和手掌红外图像经单目匹配算法得到的视差值之间的距离进行约束,也就是说,本申请将图像处理方法(特征检测匹配)和深度学习方法(模型训练)相结合,使得通过特征提取模型得到的手掌彩色图像的特征图和手掌红外图像的特征图更加准确,从而提高了后续根据特征图的特征点确定手掌姿态的准确性。
本申请实施方式提供的手掌姿态估计方法,通过模型训练方法获取的特征提取模型提取待测手掌彩色图像的特征图和待测手掌红外图像的特征图,对这两个特征图进行匹配确定互为同名点的特征点对,由特征点对确定三维点云数据,然后根据三维点云数据协方差矩阵的特征值和特征值所对应的特征向量确定手掌的三维姿态。整个方法只需对待测手掌彩色图像的特征图和待测手掌红外图像的特征图采用图像处理算法就可得到准确的手掌三维姿态,简单便捷,可移植性高,大幅提高了掌纹掌静脉识别系统中手掌姿态估计模块的实用性。
另外,本申请实施方式提供的模型训练方法,对所述手掌彩色图像的特征图和所述手掌红外图像的特征图进行匹配,确定互为同名点的特征点对,包括:分别计算所述手掌彩色图像的特征图和所述手掌红外图像的特征图中每个像素点的特征向量模值;以预设的搜索窗口分别在所述手掌彩色图像的特征图和所述手掌红外图像的特征图中,确定所述搜索窗口内特征向量模值的极大值点,并将所述极大值点对应的像素点作为特征点;采用预设的特征匹配算法对所述手掌彩色图像的特征图中的特征点和所述手掌红外图像的特征图中的特征点进行匹配,确定互为同名点的特征点对。本申请将搜索窗口内特征向量模值的极大值点所对应的像素点作为特征点,即通过特征向量模值选择强特征的像素点作为后续计算手掌三维姿态的像素点,避免了通过所有像素点计算手掌三维姿态时计算量大、像素点之间冗余信息较多、效率低的问题。
另外,本申请实施方式提供的模型训练方法,所述基于所述特征点对得到的视差值与所述手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数,对所述特征提取模型进行训练,包括:将所述手掌红外图像经单目匹配算法得到的视差图投影到红外相机坐标系下,并进行下采样处理得到红外相机坐标系下与所述特征图尺寸相同的视差图;确定所述手掌红外图像的特征图中各特征点在所述视差图中对应的像素点的视差值,并将所述视差值作为参考视差值;基于所述特征点对得到的视差值与所述参考视差值之间的距离构建损失函数,对所述特征提取模型进行训练。本申请通过特征提取模型得到的特征图的尺寸一般小于原始图像(手掌红外图像和手掌彩色图像)的尺寸,因此将手掌红外图像经单目匹配算法得到的视差图进行下采样处理,得到与特征图尺寸一样的视差图,进而在构建损失函数时能根据特征点的坐标快速地确定出对应的参考视差值。
另外,本申请实施方式提供的手掌姿态估计方法,所述获取所述特征点对中待测手掌红外图像的特征点的三维点云数据,包括:采用深度计算公式获取所述特征点对中待测手掌红外图像的特征点的深度值;根据所述待测手掌红外图像的特征点的图像坐标、所述深度值和预设的相机内参,计算在红外相机坐标系下待测手掌红外图像的特征点的三维点云数据。本申请通过特征点对中待测手掌红外图像的特征点的深度值获取特征点的三维点云数据,将其作为手掌特征点,对这些手掌特征点的三维点云数据进行简单的数学计算即可确定手掌的三维姿态。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请的实施方式提供的模型训练方法的流程图;
图2是本申请的实施方式提供的手掌姿态估计方法的流程图;
图3是本申请的实施方式的提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
下面对本实施方式的模型训练的实现细节进行举例说明。以下内容仅为方便理解而提供的实现细节,并非实施本方案的必须。
本申请的实施方式涉及一种模型训练方法,如图1所示,包括:
步骤101,构建用于生成图像样本对的特征图的特征提取模型;其中,图像样本对包括手掌彩色图像和手掌红外图像。
本实施例中,用于训练的图像样本对包含若干组,每一组图像样本对均包括一张手掌彩色图像和一张手掌红外图像,且这两张图像为拍摄同一手掌得到的。比如:用于训练的图像样本对有10组,这10组图像样本对可以是同一手掌、不同拍摄位置的图像,也可以是不同手掌、同一拍摄位置的图像,但每一组图像样本对都包括同一手掌的彩色图像和红外图像。一般来说,采用彩色相机和红外相机同步采集手掌的彩色图像和手掌的红外图像,彩色相机和红外相机的拍摄视点不同。
步骤102,对手掌彩色图像的特征图和手掌红外图像的特征图进行匹配,确定互为同名点的特征点对。
本实施例中,对获取到的手掌彩色图像的特征图和手掌红外图像的特征图进行特征检测和特征匹配,确定互为同名点的特征点对。即特征点对包括两个具有强特征的像素点。需要注意的是,在后续进行手掌姿态估计过程中,本申请是根据具有强特征的像素点来确定手掌的三维姿态,一方面,并不是所有的像素点都对手掌三维姿态的确定具有帮助,即有些像素点的信息很可能是不需要的;另一方面,相邻像素点之间存在冗余信息,若将手掌图像中的所有像素点都进行手掌姿态估计的计算,整个过程的计算量将会大大增加,不利于提高手掌姿态估计的效率。
在一实施例中,步骤102具体包括:分别计算手掌彩色图像的特征图和手掌红外图像的特征图中每个像素点的特征向量模值;以预设的搜索窗口分别在手掌彩色图像的特征图和手掌红外图像的特征图中,确定搜索窗口内特征向量模值的极大值点,并将极大值点对应的像素点作为特征点;采用预设的特征匹配算法对手掌彩色图像的特征图中的特征点和手掌红外图像的特征图中的特征点进行匹配,确定互为同名点的特征点对。
本实施例中,对得到的特征图计算每个像素点的特征向量的模值,而每个像素点特征向量的维数与模型的通道数有关,比如:特征提取模型的通道数为1024维,则每个像素点的特征向量都为1024维的特征向量。然后以预设的搜索窗口分别在手掌彩色图像的特征图和手掌红外图像的特征图中,确定搜索窗口内特征向量模值的极大值点,假设搜索窗口大小为3*3,则比较搜索窗口内9个特征向量模值的大小,将特征向量模值的最大值对应的像素点作为特征点。具体地,搜索窗口的大小和搜索步长可以根据手掌姿态估计的准确度、计算速度的需要自行设定。而预设的图像匹配算法可以是快速最邻近搜索算法(FLANN)、SIFT算法,SURF算法,PCA-SIFT算法等等。具体地,在匹配过程中可以根据欧式距离、马氏距离等确定相匹配的两个像素点。
另外,为了提高匹配计算的准确性,可以在获取图像样本对之前对两个相机进行标定,确定相机内参和外参,根据相机内参和外参采用Fusiello方法,对手掌红外图像和手掌彩色图像进行极线校正,达到严格行对齐的效果,即两幅图像的对极线恰好在同一水平线上,两幅图像的同名点(特征匹配点)具有相同行号。具体地,相机标定的过程包括:将棋盘格标定板置于红外相机和彩色相机的前方,保证标定板同时完整的出现在两种相机视野内。同步采集若干组标定板的彩色图像和红外图像。首先对两种相机分别进行内部参数标定,具体为提取标定板角点坐标、估计初始内参、最小二乘法迭代优化重投影误差等步骤,获取的内参包括:相机焦距、主点坐标、畸变系数等;然后固定两种相机的内部参数,估计初始外参,并使用最小二乘法迭代优化重投影误差,获取两个相机的外部参数,包括旋转矩阵、平移矩阵、校正后内参矩阵等。
步骤103,基于特征点对得到的视差值与手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数,对特征提取模型进行训练。
本实施例中,以手掌红外图像经单目匹配算法得到的参考视差值作为损失函数中的真实值,以特征对得到的视差值作为预测视差值。需要说明的是,参考视差值是在红外相机一侧增加激光投射器构建单目结构光系统,通过对手掌红外图像进行单目匹配算法获取的。可以理解的是,激光投射器发射的主要都是红外激光,因此红外相机获取的手掌散斑图像会比由RGB相机构成的单目结构光系统获取的手掌散斑图像更加清晰,进而手掌红外散斑图像和参考红外散斑图像经单目匹配算法确定的视差值精度更高、误差更小。基于此,模型训练过程中让跨模态的特征点对(手掌彩色图像的特征图的特征点和手掌红外图像的特征图的特征点)计算得到的视差值尽可能地接近高精度的参考视差值,提高跨模态图像的视差计算精度。
在一实施例中,步骤103具体包括:将手掌红外图像经单目匹配算法得到的视差图投影到红外相机坐标系下,并进行下采样处理得到红外相机坐标系下与所述特征图尺寸相同的视差图;确定所述手掌红外图像的特征图中各特征点在视差图中对应的像素点的视差值,并将所述视差值作为参考视差值;基于特征点对得到的视差值与所述参考视差值之间的距离构建损失函数,对所述特征提取模型进行训练。
本实施例中,由于经特征提取模型得到的特征图的尺寸一般都小于原图像的尺寸,而手掌红外图像经单目匹配算法得到的视差图尺寸与原图像一致,因此,在损失函数计算时,需要对视差图进行下采样处理,得到与特征图尺寸相同的视差图,如此,就可以根据手掌红外图像的特征图中各特征点的坐标,确定视差图中对应的像素点。即在手掌彩色图像的特征点、手掌红外图像的特征点和视差图中的对应像素点之间建立了对应关系。
具体地,本实施例特征提取模型在训练时采用的损失函数为:
Figure BDA0003666441450000061
Figure BDA0003666441450000062
其中,N是特征点对的数量,
Figure BDA0003666441450000063
是所述手掌红外图像经单目匹配算法得到的参考视差值,
Figure BDA0003666441450000064
是所述手掌红外图的特征图的特征点x坐标,
Figure BDA0003666441450000065
是所述手掌彩色图的特征图的特征点x坐标。
需要说明的是,本申请的特征提取模型可以采用密集卷积网络DenseNet结构,也可以采用其他网络结构,如残差网络、注意力机制网络等等。若采用DenseNet结构,为了更好地利用各个卷积层的特征信息,可以将DenseNet-transition模块中的均值池化层修改为最大池化层,以进一步突出特征响应,网络最终输出特征图分辨率为原始图像的1/4,通道数为1024。特征提取模型在训练时,可以分为两阶段训练,第一阶段,采用开源数据集进行预训练,得到高度泛化的网络模型参数,让网络具备初始的特征提取能力。第二阶段,在自己构建的图像样本对上进行迁移训练。具体地,第二阶段训练过程可以使用RMSProp优化器,初始学习率为0.001,模型训练过程中对学习率进行动态调整,其随迭代次数的增加而阶梯式下降。
本申请实施方式提供的模型训练方法,将手掌彩色图像和手掌红外图像输入到特征提取模型中,得到手掌彩色图的特征图和手掌红外图的特征图,计算确定手掌彩色图的特征图和手掌红外图的特征图中互为同名点的特征点对,以特征点对得到的视差值与手掌红外图像经单目匹配算法得到的视差值之间的距离作为损失函数对特征提取模型进行计算,由于整个模型只负责特征图的提取,因而模型架构较为简单,无需大量带标签的数据进行训练,而模型的训练通过特征检测匹配计算的特征点对的视差值和手掌红外图像经单目匹配算法得到的视差值之间的距离进行约束,也就是说,本申请将图像处理方法(特征检测匹配)和深度学习方法(模型训练)相结合,使得通过特征提取模型得到的手掌彩色图像的特征图和手掌红外图像的特征图更加准确,从而提高了后续根据特征图的特征点确定手掌姿态的准确性。
本申请的实施方式涉及一种手掌姿态估计方法,如图2所示,包括:
步骤201,将拍摄同一手掌得到的待测手掌彩色图像和待测手掌红外图像输入到已训练好的特征提取模型中,得到待测手掌彩色图像的特征图和待测手掌红外图像的特征图;其中所述特征提取模型通过如上所述的模型训练方法获取。
本实施例中,特征提取模型的网络结构、训练方法、损失函数都可以参考步骤101-步骤103的具体实施细节。
步骤202,对待测手掌彩色图像的特征图和待测手掌红外图像的特征图进行匹配,确定互为同名点的特征点对,并获取特征点对中待测手掌红外图像的特征点的三维点云数据。
本实施例中,特征点对的确定方法与模型训练阶段特征点对的确定方法相同,在此不做赘述。而获取所述特征点对中待测手掌红外图像的特征点的三维点云数据,包括:采用深度计算公式获取所述特征点对中待测手掌红外图像的特征点的深度值;根据所述待测手掌红外图像的特征点的图像坐标、所述深度值和预设的相机内参,计算在红外相机坐标系下待测手掌红外图像的特征点的三维点云数据。
具体地,深度计算公式为:
Figure BDA0003666441450000071
其中,uir和urgb分别为待测手掌红外图像和待测手掌彩色图像中特征点的像素坐标,f为内参矩阵中的焦距像素值,L为内参矩阵中的基线长度。
具体地,三维点云数据的计算公式为:
Figure BDA0003666441450000081
其中,(X,Y,Z)为特征点的三维坐标,(uir,vir)为待测手掌红外图像的特征点的图像坐标,(cx,cy)为内参矩阵中的主点坐标,f为内参矩阵中的焦距像素值,d为特征点对应的深度值。
步骤203,计算三维点云数据的协方差矩阵,并采用特征值分解法确定协方差矩阵的特征值和特征值对应的特征向量。
本实施例中,协方差矩阵的计算过程包括:对三维点云数据去中心化,即将每个点的坐标值都减去三维点云数据各坐标的平均值,然后对去中心化的三维点云数据计算协方差矩阵,假设有m条n维的数据,将原始数据组成n行m列的矩阵X,协方差的计算公式则为Cov=(1/m)*XXT。对计算得到的协方差矩阵采用特征分解法确定协方差矩阵的特征值和特征值对应的特征向量。具体地,特征值的数量为特征方程的次数。
步骤204,将特征值的最大值所对应的特征向量、次大值所对应的特征量和第三大值所对应的特征向量组合作为手掌姿态旋转矩阵,并根据手掌姿态旋转矩阵确定手掌的三维姿态。
本实施例中,对得到的特征值按从大到小的顺序排列,选择最大值所对应的特征向量、次大值所对应的特征量和第三大值所对应的特征向量组合作为手掌姿态旋转矩阵,并根据手掌姿态旋转矩阵确定手掌的三维姿态。假设以手掌中心作为原点建立坐标系,手掌前进的方向为x轴,垂直于手掌的方向为z轴,垂直于x轴和z轴的方向为y轴,基于此,最大的特征值所对应的特征向量为x轴方向,次大值所对应的特征向量为y轴方向,第三大值所对应的特征向量为z轴方向。
具体地,手掌三维姿态的计算公式为:
Figure BDA0003666441450000082
Figure BDA0003666441450000083
其中,R为手掌姿态旋转矩阵,(θx,θy,θz)为手掌的三维姿态。
另外,所述获取所述特征点对中待测手掌红外图像的特征点的三维点云数据之前,还包括:计算所述特征点对中两个特征点的横坐标差值;将所述横坐标差值超过预设阈值所对应的特征点对从确定的特征点对中剔除。需要说明的是,由于网络泛化性问题,可能会存在误匹配现象,因此在完成特征匹配之后,还需要基于对极约束原则,对挑选出的同名点对进一步筛选,剔除横坐标差值相差超过阈值的同名点对,以提高同名点对的匹配准确率。
本申请实施方式提供的手掌姿态估计方法,通过模型训练方法获取的特征提取模型提取待测手掌彩色图像的特征图和待测手掌红外图像的特征图,对这两个特征图进行匹配确定互为同名点的特征点对,由特征点对确定三维点云数据,然后根据三维点云数据协方差矩阵的特征值和特征值所对应的特征向量确定手掌的三维姿态。整个方法只需对待测手掌彩色图像的特征图和待测手掌红外图像的特征图采用图像处理算法就可得到准确的手掌三维姿态,简单便捷,可移植性高,大幅提高了掌纹掌静脉识别系统中手掌姿态估计模块的实用性。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请的实施方式涉及一种电子设备,如图3所示,包括:
至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行如上述实施方式提及的模型训练方法,或者能够执行上述实施方式提及的手掌姿态估计方法。
该电子设备包括:一个或多个处理器301以及存储器302,图3中以一个处理器301为例。处理器301、存储器302可以通过总线或者其他方式连接,图3中以通过总线连接为例。存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施方式中策略空间内的各处理策略对应的算法就存储于存储器302中。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述模型训练方法或手掌姿态估计方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器302中,当被一个或者多个处理器301执行时,执行上述任意实施方式中的模型训练方法,或者能够执行上述实施方式提及的手掌姿态估计方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本申请的实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
构建用于生成图像样本对的特征图的特征提取模型;其中,所述图像样本对包括手掌彩色图像和手掌红外图像;
对所述手掌彩色图像的特征图和所述手掌红外图像的特征图进行匹配,确定互为同名点的特征点对;
基于所述特征点对得到的视差值与所述手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数,对所述特征提取模型进行训练。
2.根据权利要求1所述的模型训练方法,其特征在于,所述对所述手掌彩色图像的特征图和所述手掌红外图像的特征图进行匹配,确定互为同名点的特征点对,包括:
分别计算所述手掌彩色图像的特征图和所述手掌红外图像的特征图中每个像素点的特征向量模值;
以预设的搜索窗口分别在所述手掌彩色图像的特征图和所述手掌红外图像的特征图中,确定所述搜索窗口内特征向量模值的极大值点,并将所述极大值点对应的像素点作为特征点;
采用预设的特征匹配算法对所述手掌彩色图像的特征图中的特征点和所述手掌红外图像的特征图中的特征点进行匹配,确定互为同名点的特征点对。
3.根据权利要求1或2所述的模型训练方法,其特征在于,所述基于所述特征点对得到的视差值与所述手掌红外图像经单目匹配算法得到的参考视差值之间的距离构建损失函数,对所述特征提取模型进行训练,包括:
将所述手掌红外图像经单目匹配算法得到的视差图投影到红外相机坐标系下,并进行下采样处理得到红外相机坐标系下与所述特征图尺寸相同的视差图;
确定所述手掌红外图像的特征图中各特征点在所述视差图中对应的像素点的视差值,并将所述视差值作为参考视差值;
基于所述特征点对得到的视差值与所述参考视差值之间的距离构建损失函数,对所述特征提取模型进行训练。
4.根据权利要求1或2所述的模型训练方法,其特征在于,所述损失函数通过以下公式构建:
Figure FDA0003666441440000021
Figure FDA0003666441440000022
其中,N是特征点对的数量,
Figure FDA0003666441440000023
是所述手掌红外图像经单目匹配算法得到的参考视差值,
Figure FDA0003666441440000024
是所述手掌红外图的特征图的特征点x坐标,
Figure FDA0003666441440000025
是所述手掌彩色图的特征图的特征点x坐标。
5.一种手掌姿态估计方法,其特征在于,包括:
将拍摄同一手掌得到的待测手掌彩色图像和待测手掌红外图像输入到已训练好的特征提取模型中,得到所述待测手掌彩色图像的特征图和待测手掌红外图像的特征图;其中所述特征提取模型通过如上权利要求1至4中任一项所述的模型训练方法获取;
对所述待测手掌彩色图像的特征图和所述待测手掌红外图像的特征图进行匹配,确定互为同名点的特征点对,并获取所述特征点对中待测手掌红外图像的特征点的三维点云数据;
计算所述三维点云数据的协方差矩阵,并采用特征值分解法确定所述协方差矩阵的特征值和所述特征值对应的特征向量;
将所述特征值的最大值所对应的特征向量、次大值所对应的特征量和第三大值所对应的特征向量组合作为手掌姿态旋转矩阵,并根据所述手掌姿态旋转矩阵确定手掌的三维姿态。
6.根据权利要求5所述的手掌姿态估计方法,其特征在于,所述获取所述特征点对中待测手掌红外图像的特征点的三维点云数据,包括:
采用深度计算公式获取所述特征点对中待测手掌红外图像的特征点的深度值;
根据所述待测手掌红外图像的特征点的图像坐标、所述深度值和预设的相机内参,计算在红外相机坐标系下待测手掌红外图像的特征点的三维点云数据。
7.根据权利要求5所述的手掌姿态估计方法,其特征在于,通过以下公式确定手掌的三维姿态:
Figure FDA0003666441440000026
Figure FDA0003666441440000031
其中,R为手掌姿态旋转矩阵,(θx,θy,θz)为手掌的三维姿态。
8.根据权利要求5所述的手掌姿态估计方法,其特征在于,所述获取所述特征点对中待测手掌红外图像的特征点的三维点云数据之前,还包括:
计算所述特征点对中两个特征点的横坐标差值;
将所述横坐标差值超过预设阈值所对应的特征点对从确定的特征点对中剔除。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一所述的模型训练方法,或者能够执行如权利要求5至8中任一项所述的手掌姿态估计方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一所述的模型训练方法,或者能够执行如权利要求5至8中任一项所述的手掌姿态估计方法。
CN202210593175.2A 2022-05-27 2022-05-27 模型训练方法、手掌姿态估计方法、电子设备及存储介质 Pending CN115050059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210593175.2A CN115050059A (zh) 2022-05-27 2022-05-27 模型训练方法、手掌姿态估计方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210593175.2A CN115050059A (zh) 2022-05-27 2022-05-27 模型训练方法、手掌姿态估计方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115050059A true CN115050059A (zh) 2022-09-13

Family

ID=83159027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210593175.2A Pending CN115050059A (zh) 2022-05-27 2022-05-27 模型训练方法、手掌姿态估计方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115050059A (zh)

Similar Documents

Publication Publication Date Title
Penate-Sanchez et al. Exhaustive linearization for robust camera pose and focal length estimation
US8452081B2 (en) Forming 3D models using multiple images
US8447099B2 (en) Forming 3D models using two images
US8755630B2 (en) Object pose recognition apparatus and object pose recognition method using the same
JP6489551B2 (ja) 画像のシーケンスにおいて前景を背景から分離する方法およびシステム
Li et al. A 4-point algorithm for relative pose estimation of a calibrated camera with a known relative rotation angle
EP3182371B1 (en) Threshold determination in for example a type ransac algorithm
US8903161B2 (en) Apparatus for estimating robot position and method thereof
US10540813B1 (en) Three-dimensional point data alignment
KR20190059594A (ko) 디스패리티 추정 장치 및 방법
CN111144349B (zh) 一种室内视觉重定位方法及系统
KR102608956B1 (ko) 스테레오 이미지의 정류를 위한 방법 및 시스템
US11651581B2 (en) System and method for correspondence map determination
He et al. Linear approach for initial recovery of the exterior orientation parameters of randomly captured images by low-cost mobile mapping systems
CN112435294B (zh) 目标物体的六自由度姿态跟踪方法及终端设备
Chum et al. Homography estimation from correspondences of local elliptical features
CN117726747A (zh) 补全弱纹理场景的三维重建方法、装置、存储介质和设备
CN109741245B (zh) 平面信息的插入方法及装置
CN115050059A (zh) 模型训练方法、手掌姿态估计方法、电子设备及存储介质
Tola Multiview 3D Reconstruction of a scene containing independently moving objects
WO2019058487A1 (ja) 3次元復元画像処理装置、3次元復元画像処理方法及び3次元復元画像処理プログラムを記憶したコンピュータ読み取り可能な記憶媒体
Wang et al. Stereo rectification based on epipolar constrained neural network
Fitzgibbon et al. Learning priors for calibrating families of stereo cameras
CN117315018B (zh) 基于改进PnP的用户面部位姿检测方法、设备、介质
Chesi LMI-based estimation of scene points in vision systems with generalized cameras

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination