CN114882537A - 一种基于神经辐射场的手指新视角图像生成方法 - Google Patents

一种基于神经辐射场的手指新视角图像生成方法 Download PDF

Info

Publication number
CN114882537A
CN114882537A CN202210397203.3A CN202210397203A CN114882537A CN 114882537 A CN114882537 A CN 114882537A CN 202210397203 A CN202210397203 A CN 202210397203A CN 114882537 A CN114882537 A CN 114882537A
Authority
CN
China
Prior art keywords
finger
radiation field
image
new
visual angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210397203.3A
Other languages
English (en)
Other versions
CN114882537B (zh
Inventor
陈卓明
康文雄
王伟民
赵学艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210397203.3A priority Critical patent/CN114882537B/zh
Publication of CN114882537A publication Critical patent/CN114882537A/zh
Application granted granted Critical
Publication of CN114882537B publication Critical patent/CN114882537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1347Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1365Matching; Classification

Abstract

本发明公开了一种基于神经辐射场的手指新视角图像生成方法,包括以下步骤:获取包含轴向旋转的图像,作为图像样本;扩增图像数据;提取扩增得到的图片数据的相对外参数;生成轴向旋转新视角的图像;利用扩增图像数据和生成轴向旋转新视角的图像训练识别模型。本方法通过传统数据扩增方法模拟手指采集过程中在各个方向上偏移的情况,增强样本数据的多样性,提升识别系统的鲁棒性,利用基于神经辐射场的方法,为每个手指生成了多张轴向旋转的手指图像,丰富了手指轴向旋转数据的多样性,提升系统的鲁棒性,向窗口内采样的像素加入梯度信息、结构相似性信息以及深度平滑信息的约束,提升新视角生成的质量,提升识别系统的性能。

Description

一种基于神经辐射场的手指新视角图像生成方法
技术领域
本发明涉及计算机视觉特征识别领域,具体涉及一种基于神经辐射场的手指新视角图像生成方法。
背景技术
近年来,随着信息化时代中信息安全要求逐渐提升以及计算机技术逐渐成熟和普及,生物特征识别技术在身份认证领域占据了越来越大的份额。相比于密码、ID信息等传统身份验证方式,生物特征信息通常具备普遍性、独特性、持久性、可采集性等明显的优势。因此,生物特征识别适合用于对身份识别精度要求相对较高的场所,如门禁、银行等。其中,指纹信息处于人体特征中相对不敏感的区域,且具备易于采集的特性,在近年来一直被广泛研究且投放适用于各类场景当中。
指部特征信息主要包含指纹信息以及指静脉信息,指纹作为近年来使用最多的生物特征之一,被广泛运用于手机解锁、门禁解锁、刑侦破案等邻域当中,具备一定的法律效应。除此之外,用户的指纹在相当长一段时间内固定的,而且在实际使用场景中易于获取指纹样本,使得指纹识别具有非常高的实用性。
指部特征识别技术主要分为基于特征工程的技术以及基于深度学习的技术。在基于特征工程的识别技术中,由于这指纹特征以及指静脉特征的纹理信息存在比较大的差异,所以这两种特征都有其独特的基于特征工程的特征提取方法。指纹当前主要使用的特征类型可分为局部特征以及全局特征,其中局部特征可以描述指纹的细微特征,全局特征则可以描述指纹整体的特征信息。局部特征主要是通过脊线方向、纹路连续情况等较为细节的特征点进行两个指纹之间的区分,这些特征点可以细分为端点、断点、桥街点、分叉点等;全局特征主要包括纹型、模式区、核心点、三角点和脊线数。
在基于深度学习的方法中,研究者们提出了利用卷积神经网络同时进行指纹特征的提取已经图像的认证,从而实现端到端的训练策略。随着深度学习中模型的优化,指部特征识别的精度和性能也在不停的提升,MobileNet系列、 ShuffleNet系列等轻量化网络的提出大大推动了指部特征识别技术在嵌入式设备的部署,解决了嵌入式设备显存容量较小的问题,使嵌入式终端设备能够以优秀的性能完成认证的任务。
神经网络的训练需要输入大量样本来进行学习,得到具有判别力的特征,从而避免网络过拟合的情况。而在自由度较高的设备中进行图像采集难免会出现手指各方向的平移以及旋转情况,在采集的时候无法将这些情况全部考虑在内。为了提升神经网络的鲁棒性,可以采用传统的数据扩增方法增加样本的多样性。传统的数据扩增方法主要包括随机平移、随机缩放、随机旋转、随机裁剪、随机调整伽马系数等,其中利用传统数据扩增方法中的图像平移可以获得在前后方向以及左右方向上偏移的相关样本,利用图像缩放可以获取在上下方向上的偏移的相关样本,通过图像旋转可以获取在手指平面上旋转的相关样本。除此之外,通过随机裁剪以及随机调整伽马系数的扩增方式,更能模拟实际采集场景中会发生的情况,大幅度地提升了数据库的丰富性。训练可以采用在线扩增数据的方式,从而使每个批次输入网络的图片都有着足够的差异,可以很大程度上解决神经网络需要大量数据而所采集的指部特征数据不足的问题,降低网络过拟合的风险,从而为认证系统的鲁棒性提供了保障。
神经辐射场(Neural Radiance Fields,NeRF)被提出且用于了新视角生成的任务,NeRF将包含复杂几何及物体信息的三维场景编码至多层感知机中,并且通过坐标以方向信息解码得到三维空间中的色彩及密度信息。网络通过输入包含内外参数的多视角图片进行训练,在不同视角下对场景进行观测并且渲染出对应的图像,与该视角下的真实图像作损失为网络的反向传播提供更新的梯度方向,不需要额外的真实深度信息作为监督信号。
NeRF以及其大部分的改进方法中都只能将单个三维场景的信息编码至神经网络当中,因此在具有大量场景的情况下,不仅需要花费大量的时间对每个场景进行单独训练,还要使用不同的模型参数对这些场景信息进行保存,不利于NeRF 在新场景中的泛化。因此,MVSNeRF提出了相应的解决方案,使网络可以在训练一个模型的基础上,完成多个场景的多视角生成任务,大幅度地减少了在多个场景情况下的训练时长以及模型存储难度。
现有技术的缺点:
1、现有的指部特征识别采集系统中,所获取的指部特征图片通常只具备手指某一面的信息,而且由于采集过程中因为手指自由度过高容易导致用户多次采集的图片差异较大,使系统的错误拒绝率过高。
2、现有的数据扩增方法中只能对手指的平移、缩放等情况进行扩增,而不能模拟由手指轴向旋转所导致的指部纹理新增或者消失的情况。
3、现有的基于神经辐射场的新视角生成方法中,在对目标视角采样像素进行预测时采取了随机采样的方法,使采样得到的像素之间不存在任何约束,导致所生成新视角下的图像可能会丢失局部信息。
在MVSNeRF(多视角立体几何神经辐射场)等基于NeRF(神经辐射场)的多视角生成方法中,通过随机采样在训练图像中得到目标像素进行训练,通过对比像素的预测颜色信息与真实颜色信息得到网络的损失,并且根据这些损失进行反向传播,更新网络参数。然而,通过随机采样得到目标像素会使得采样得到的像素之间缺乏约束,从而难以保留图像的局部几何信息。
发明内容
为解决了由于手指自由度过高容易导致用户多次采集的图片差异较大、传统数据扩增方法中无法模拟手指轴向旋转所导致的指部纹理新增或者消失以及基于神经辐射场的新视角生成方法中随机采样所导致的局部信息丢失的问题,提出一种基于神经辐射场的手指新视角图像生成方法。
本发明至少通过如下技术方案之一实现。
一种基于神经辐射场的手指新视角图像生成方法,包括以下步骤:
1)获取包含轴向旋转的原始图像,作为图像样本;
2)扩增图像数据;
3)提取原始图像数据之间的相对外参;
4)利用步骤1)采集得到的原始图像以及步骤3)得到的图像之间的相对外参生成轴向旋转新视角的图像;
5)利用步骤2)的扩增图像数据和步骤4)生成的轴向旋转新视角的图像训练识别模型。
进一步地,步骤1)具体包括:将手指在轴向-30°至30°的范围内旋转后进行拍摄,从而得到多个旋转角度下的图片。
进一步地,步骤2)具体包括:采用包括随机平移、随机缩放、随机裁剪的数据扩增模拟实际采集场景中可能发生的情况。
进一步地,经过步骤1)获取的多张图片后,通过基于运动恢复结构方法的 COLMAP提取多张包含轴向旋转的图片之间的相对内外参数以及粗糙的三位点云信息,其中三维点云信息用于约束后续新视角重建过程中的深度的预测范围;在得到多张图像对应相机坐标系之间的相对内外参数后,用于后续的新视角生成任务。
进一步地,步骤2)具体为:通过多视角立体几何神经辐射场的新视角生成方法根据包含轴向旋转样本的原始图像对手指的隐式三维模型进行建模,并且在此基础上得到其余视角的图像。
进一步地,根据包含轴向旋转样本的原始图像对多视角立体几何神经辐射场建模得到手指的隐式三维模型,具体包括:
通过采样Nw个边长为w的正方形窗口,并使w×w×Nw=Np,Np为采样像素的总数量,从而加强新视角生成过程中的局部信息约束;在训练的过程中增加如下的梯度损失
Figure BDA0003599507340000051
结构相似性损失
Figure BDA0003599507340000052
以及深度平滑损失
Figure BDA0003599507340000053
进行约束:
Figure BDA0003599507340000054
Figure BDA0003599507340000055
Figure BDA0003599507340000056
其中,Wi pred表示第i个窗口的预测颜色,Wi gt表示第i个窗口的真实颜色,
Figure BDA00035995073400000612
表示在x方向上的梯度,
Figure BDA0003599507340000061
表示在y方向上的梯度,
Figure BDA0003599507340000062
表示窗口Wi pred的平均值,
Figure BDA0003599507340000063
表示窗口Wi gt的平均值,
Figure BDA0003599507340000064
表示窗口Wi pred以及窗口Wi gt之间的协方差,
Figure BDA0003599507340000065
表示窗口Wi gt的方差,
Figure BDA0003599507340000066
表示窗口Wi gt的方差,Di表示 MVSNeRF网络预测的目标视角下的深度值;c1、c2为维持计算结构相似性稳定的两个变量;
最终,多视角立体几何神经辐射场的损失函数为:
Figure BDA0003599507340000067
其中,
Figure BDA0003599507340000068
表示像素pj的预测颜色,
Figure BDA0003599507340000069
表示像素pj的真实颜色,其中α、β以及γ分别为梯度损失、结构相似性损失以及深度平滑损失的权重系数,
Figure BDA00035995073400000614
为多视角立体几何神经辐射场训练的损失函数。
进一步地,所述识别模型包括特征提取器和分类器,特征提取器包括卷积层、三个反向残差模块、三个最大池化层、自适应性平均池化层;后面两个最大池化层前连接有第一反向残差模块Block1、第二反向残差模块Block2;
所述卷积层的卷积核的大小为3×3、卷积层的数量为32,步长为2的卷积层,并在卷积层之后连接调整特征分布的批归一化层、增强非线性拟合能力的ReLU 激活函数;
所述自适应性平均池化层前连接有第三反向残差模块Block3,在空间维度上将Block3输出特征图的信息进行聚合,得到维度为
Figure BDA00035995073400000611
的特征向量;在识别模型的训练过程中,基于全连接层的输出与图片真实的用户标签计算损失,提供识别模型反向传播的梯度,从而进行参数的更新,使识别模型逐步学习到具有判别力的特征信息。
进一步地,所述分类器包括一个维度为
Figure BDA0003599507340000071
的全连接层,通过将特征提取器得到的特征向量输入全连接层进行回归,得到维度为
Figure BDA0003599507340000072
的输出,表示输入图像对应k个用户的分数。
进一步地,所述第一反向残差模块Block1、第二反向残差模块Block2、第三反向残差模块Block3均包括依次连接的第一卷积层、第二卷积层、第三卷积层;所述第一卷积层和第三卷积层的卷积核大小均为1×1的卷积层,第二个卷积层的卷积核大小为3×3且带卷积通道分组操作的卷积层。
进一步地,所述特征提取器采用MobileNetV2以降低识别网络参数量为导向的特征提取器。
与现有的技术相比,本发明的有益效果为:
1、本方法通过MVSNeRF生成手指的新视角,可以生成手指轴向转转的数据,从而弥补由于采集过程中手指自由度过高导致的轴向旋转问题,提高手指特征认证系统的识别准确率;
2、本方法在对MVSNeRF训练样本的获取中采用了基于窗口采样的策略,可以向窗口内采样的像素加入梯度信息、结构相似性信息以及深度平滑信息的约束,提升新视角生成的质量。
附图说明
图1为本实施例一种基于神经辐射场的手指新视角图像生成方法流程图;
图2为本实施例训练图片示意图;
图3为本实施例相机相对位姿图;
图4为本实施例采样策略示意图;
图5为本实施例网络结构图;
图6为本实施例MobileNetV2中的反向残差模块结构图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1
如图1所示,一种基于神经辐射场的手指新视角图像生成方法,包括以下步骤:
1、如图2所示,获取包含轴向旋转的图像:采集工作者引导受试者将手指在轴向-30°至30°的范围内旋转后进行拍摄,从而得到受试者在多个旋转角度下的一组图片。在得到了多张不同旋转角度下的旋转图片之后,可以将采集的图片用于应对用户在实际使用场景中由于手指自由度过高容易导致用户多次采集的图片存在差异的问题。
2、扩增图像数据:经过步骤1获取的多张轴向旋转角度下的图片后,采用包括随机平移、随机缩放、随机裁剪等数据扩增的方法模拟实际采集场景中可能发生的情况,如手指在拍摄过程中的平移以及缩放等情况。通过对采集数据进行扩增,可以增强所采集数据的多样性,加强后续神经网络训练的收敛能力。
3、提取图片的相对外参:经过步骤1获取的多张轴向旋转角度下的图片后,通过基于运动恢复结构方法(structure-from-motion)的COLMAP提取多张包含轴向旋转的采集图片之间的相对内外参数(位姿关系)以及粗糙的三位点云信息,其中三维点云信息可以用于约束后续新视角重建过程中的深度的预测范围。COLMAP提取相机之间相对关系的结果如图3的a和b所示,在得到多张图像对应相机坐标系之间的位姿关系后,可以用于后续的新视角生成任务。
4、生成轴向旋转新视角的图像:经过步骤3得到多张轴向旋转图片的相对内外参数以及深度的预测范围后,通过基于多视角立体几何神经辐射场(MVSNeRF)的新视角生成方法根据已有的旋转角度图片对手指的隐式三维模型进行建模,并且在此基础上得到其余视角的图像,从而增强图像样本在旋转方向上的多样性。在基于MVSNeRF的新视角生成方法中可以采用以下两种采样方式:
第一种:如图4的a所示,通过随机采样的方式得到Np个像素,并且基于所采样像素的真实颜色与预测颜色之间差值的范数作为多视角立体几何神经辐射场(多视角立体几何神经辐射场完成训练后可以表示为手指的隐式三维模型)训练的损失函数:
Figure BDA0003599507340000091
其中,
Figure BDA0003599507340000092
表示像素pj的预测颜色,
Figure BDA0003599507340000093
表示像素pj的真实颜色;
Figure BDA0003599507340000094
为神经网络即多视角立体几何神经辐射场训练的损失函数。
第二种:如图4的b所示,基于窗口采样的MVSNeRF方法,在基于窗口采样的MVSNeRF方法中,通过采样Nw个边长为w的正方形窗口,并使w×w× Nw=Np,从而加强新视角生成过程中的局部信息约束;
基于窗口采样的MVSNeRF方法中,除了可以利用式(1)对预测像素的颜色进行约束,还可以在训练的过程中对了公式(2)中的梯度损失、公式(3)中的结构相似性损失以及公式(4)的深度平滑损失进行约束,从而保留生成图像更多的局部信息,提升新视角生成实验中所生成图像的质量:
Figure BDA0003599507340000101
Figure BDA0003599507340000102
Figure BDA0003599507340000103
其中,Wi pred表示第i个窗口的预测颜色,Wi gt表示第i个窗口的真实颜色,
Figure BDA0003599507340000104
表示在x方向上的梯度,
Figure BDA0003599507340000105
表示在y方向上的梯度,
Figure BDA0003599507340000106
表示窗口Wi pred的平均值,
Figure BDA0003599507340000107
表示窗口Wi gt的平均值,
Figure BDA0003599507340000108
表示窗口Wi pred以及窗口Wi gt之间的协方差,
Figure BDA0003599507340000109
表示窗口Wi gt的方差,
Figure BDA00035995073400001010
表示窗口Wi gt的方差,Di表示 MVSNeRF网络预测的目标视角下的深度值;c1、c2为维持计算结构相似性稳定的两个变量。
最终,多视角立体几何神经辐射场的损失函数为:
Figure BDA00035995073400001011
其中α、β以及γ分别为梯度损失、结构相似性损失以及深度平滑损失的权重系数,通过优化该损失函数,在预测准确颜色信息的同时,保留手指图像的局部结构信息。
5、训练识别模型:经过步骤2以及步骤4获取到的扩增数据之后,训练如图5所示的识别模型架构训练手指特征认证任务的模型。所述识别模型包括特征提取器和分类器,特征提取器包括卷积层、三个反向残差模块、三个最大池化层、自适应性平均池化层;后面两个最大池化层之前连接有第一反向残差模块Block1、第二反向残差模块Block2;所述自适应性平均池化层之前连接有第三反向残差模块Block3,在空间维度上将Block3输出特征图的信息进行聚合,得到维度为
Figure BDA0003599507340000111
的特征向量;所述分类器包括一个维度为
Figure BDA0003599507340000112
的全连接层,通过将特征提取器得到的特征向量输入全连接层进行回归,得到维度为
Figure BDA0003599507340000113
的输出,表示输入图像对应k个用户的分数。
其中,输入是一张维度为
Figure BDA0003599507340000114
的图像I。特征提取器由四部分组成,第一部分是一个卷积核的大小为3×3、卷积层的数量为32,步长为2的卷积层,并在卷积层之后连接调整特征分布的批归一化层、增强非线性拟合能力的ReLU 激活函数以及聚合局部信息的最大池化层;第二部分以及第三部分是接着最大池化层的反向残差模块Block1、Block2;第四部分是反向残差模块Block3以及自适应性平均池化层,自适应性平均池化层在空间维度上将Block3输出特征图的信息进行聚合,得到维度为
Figure BDA0003599507340000115
的特征向量。分类器则由一个维度为
Figure BDA0003599507340000116
的全连接层构成,通过将特征提取器得到的特征向量输入全连接层进行回归,得到维度为
Figure BDA0003599507340000117
的输出,表示输入图像对应k个用户的分数。在识别模型的训练过程中,基于全连接层的输出与图片真实的用户标签计算损失,提供识别模型反向传播的梯度,从而进行参数的更新,使识别模型逐步学习到具有判别力的特征信息。
其中,反向残差模块是MobileNetV2中为了在保证计算准确率的基础上降低模型参数量以及计算量而提出的模块。如图6所示,反向残差模块主要由卷积核大小为1×1的卷积层、卷积核大小为3×3且带卷积通道分组操作的卷积层以及另外一个卷积核大小为1×1的卷积层三部分组成。其中,第一个卷积层的作用是通过1×1的卷积核在低参数量以及计算量的情况下提升特征的通道数,增加可以提取的特征;第二个卷积层的作用是通过卷积通道分组操作以及3×3的卷积核在融合局部信息的同时大幅度降低计算量;最后通过1×1的卷积核的卷积核将特征图的维度降低,并且如输入反向残差模块的特征图结合,在保留其原有特征信息的基础上进行增强。除此之外,反向残差模块中前两个卷积层之后都接上ReLU激活函数,增强网络对非线性特征的拟合能力,而在最后一个卷积层之后,为了避免非线性单元对特征的破坏,防止特征被破坏。
实施例2
不同于实施例1中以降低模型参数量为导向的特征提取器,可以采用EfficientNet等以提升网络识别性能为导向的特征提取器。
实施例3
在基于窗口对MVSNeRF目标像素进行采样的过程中,除了固定采样Nw个边长为w的正方形窗口,还可以在不同的训练阶段中使用不同窗口大小w的窗口进行采样。
上述实施例仅用于详细阐述以帮助理解本发明的技术方案,对本领域技术人员而言,在不脱离本发明原理的前提下做出的任何改进与替换,均属于本发明的保护范围。

Claims (10)

1.一种基于神经辐射场的手指新视角图像生成方法,其特征在于,包括以下步骤:
1)获取包含轴向旋转的原始图像,作为图像样本;
2)扩增图像数据;
3)提取原始图像数据之间的相对外参;
4)利用步骤1)采集得到的原始图像以及步骤3)得到的图像之间的相对外参生成轴向旋转新视角的图像;
5)利用步骤2)的扩增图像数据和步骤4)生成的轴向旋转新视角的图像训练识别模型。
2.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法,其特征在于,步骤1)具体包括:将手指在轴向-30°至30°的范围内旋转后进行拍摄,从而得到多个旋转角度下的图片。
3.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法,其特征在于,步骤2)具体包括:采用包括随机平移、随机缩放、随机裁剪的数据扩增模拟实际采集场景中可能发生的情况。
4.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法,其特征在于,经过步骤1)获取的多张图片后,通过基于运动恢复结构方法的COLMAP提取多张包含轴向旋转的图片之间的相对内外参数以及粗糙的三位点云信息,其中三维点云信息用于约束后续新视角重建过程中的深度的预测范围;在得到多张图像对应相机坐标系之间的相对内外参数后,用于后续的新视角生成任务。
5.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法,其特征在于,步骤2)具体为:通过多视角立体几何神经辐射场的新视角生成方法根据包含轴向旋转样本的原始图像对手指的隐式三维模型进行建模,并且在此基础上得到其余视角的图像。
6.根据权利要求5所述的一种基于神经辐射场的手指新视角图像生成方法,其特征在于,根据包含轴向旋转样本的原始图像对多视角立体几何神经辐射场建模得到手指的隐式三维模型,具体包括:
通过采样Nw个边长为w的正方形窗口,并使w×w×Nw=Np,Np为采样像素的总数量,从而加强新视角生成过程中的局部信息约束;在训练的过程中增加如下的梯度损失
Figure FDA0003599507330000021
结构相似性损失
Figure FDA0003599507330000022
以及深度平滑损失
Figure FDA0003599507330000023
进行约束:
Figure FDA0003599507330000024
Figure FDA0003599507330000025
Figure FDA0003599507330000026
其中,Wi pred表示第i个窗口的预测颜色,Wi gt表示第i个窗口的真实颜色,
Figure FDA0003599507330000027
表示在x方向上的梯度,
Figure FDA0003599507330000028
表示在y方向上的梯度,
Figure FDA0003599507330000029
表示窗口Wi pred的平均值,
Figure FDA00035995073300000210
表示窗口Wi gt的平均值,
Figure FDA00035995073300000211
表示窗口Wi pred以及窗口Wi gt之间的协方差,
Figure FDA00035995073300000212
表示窗口Wi gt的方差,
Figure FDA00035995073300000213
表示窗口Wi gt的方差,Di表示MVSNeRF网络预测的目标视角下的深度值;c1、c2为维持计算结构相似性稳定的两个变量;
最终,多视角立体几何神经辐射场的损失函数为:
Figure FDA0003599507330000031
其中,
Figure FDA0003599507330000032
表示像素pj的预测颜色,
Figure FDA0003599507330000033
表示像素pj的真实颜色,其中α、β以及γ分别为梯度损失、结构相似性损失以及深度平滑损失的权重系数,
Figure FDA0003599507330000035
为多视角立体几何神经辐射场训练的损失函数。
7.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法,其特征在于,所述识别模型包括特征提取器和分类器,特征提取器包括卷积层、三个反向残差模块、三个最大池化层、自适应性平均池化层;后面两个最大池化层前连接有第一反向残差模块Block1、第二反向残差模块Block2;
所述卷积层的卷积核的大小为3×3、卷积层的数量为32,步长为2的卷积层,并在卷积层之后连接调整特征分布的批归一化层、增强非线性拟合能力的ReLU激活函数;
所述自适应性平均池化层前连接有第三反向残差模块Block3,在空间维度上将Block3输出特征图的信息进行聚合,得到维度为
Figure FDA0003599507330000036
的特征向量;在识别模型的训练过程中,基于全连接层的输出与图片真实的用户标签计算损失,提供识别模型反向传播的梯度,从而进行参数的更新,使识别模型逐步学习到具有判别力的特征信息。
8.根据权利要求7所述的一种基于神经辐射场的手指新视角图像生成方法,其特征在于,所述分类器包括一个维度为
Figure FDA0003599507330000037
的全连接层,通过将特征提取器得到的特征向量输入全连接层进行回归,得到维度为
Figure FDA0003599507330000038
的输出,表示输入图像对应k个用户的分数。
9.根据权利要求7所述的一种基于神经辐射场的手指新视角图像生成方法,其特征在于,所述第一反向残差模块Block1、第二反向残差模块Block2、第三反向残差模块Block3均包括依次连接的第一卷积层、第二卷积层、第三卷积层;所述第一卷积层和第三卷积层的卷积核大小均为1×1的卷积层,第二个卷积层的卷积核大小为3×3且带卷积通道分组操作的卷积层。
10.根据权利要求7所述的一种基于神经辐射场的手指新视角图像生成方法,其特征在于,所述特征提取器采用MobileNetV2以降低识别网络参数量为导向的特征提取器。
CN202210397203.3A 2022-04-15 2022-04-15 一种基于神经辐射场的手指新视角图像生成方法 Active CN114882537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210397203.3A CN114882537B (zh) 2022-04-15 2022-04-15 一种基于神经辐射场的手指新视角图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210397203.3A CN114882537B (zh) 2022-04-15 2022-04-15 一种基于神经辐射场的手指新视角图像生成方法

Publications (2)

Publication Number Publication Date
CN114882537A true CN114882537A (zh) 2022-08-09
CN114882537B CN114882537B (zh) 2024-04-02

Family

ID=82668971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210397203.3A Active CN114882537B (zh) 2022-04-15 2022-04-15 一种基于神经辐射场的手指新视角图像生成方法

Country Status (1)

Country Link
CN (1) CN114882537B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797571A (zh) * 2023-02-03 2023-03-14 天津大学 3d风格化场景的新视角合成方法
CN116681818A (zh) * 2022-10-28 2023-09-01 荣耀终端有限公司 新视角重建方法、新视角重建网络的训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991511A (zh) * 2019-11-26 2020-04-10 中原工学院 一种基于深度卷积神经网络的向日葵作物种子分拣方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113706714A (zh) * 2021-09-03 2021-11-26 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991511A (zh) * 2019-11-26 2020-04-10 中原工学院 一种基于深度卷积神经网络的向日葵作物种子分拣方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113706714A (zh) * 2021-09-03 2021-11-26 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEILI YANG: "LFMB-3DFB:A Large-scale Finger Mult-Biometric Database and Benchmark for 3D Finger Biometric", 《IEEE》, 7 August 2021 (2021-08-07), pages 1 - 8, XP033944011, DOI: 10.1109/IJCB52358.2021.9484369 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681818A (zh) * 2022-10-28 2023-09-01 荣耀终端有限公司 新视角重建方法、新视角重建网络的训练方法及装置
CN116681818B (zh) * 2022-10-28 2024-04-09 荣耀终端有限公司 新视角重建方法、新视角重建网络的训练方法及装置
CN115797571A (zh) * 2023-02-03 2023-03-14 天津大学 3d风格化场景的新视角合成方法
CN115797571B (zh) * 2023-02-03 2023-04-14 天津大学 3d风格化场景的新视角合成方法

Also Published As

Publication number Publication date
CN114882537B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN111310731B (zh) 基于人工智能的视频推荐方法、装置、设备及存储介质
CN110399799B (zh) 图像识别和神经网络模型的训练方法、装置和系统
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN108038420B (zh) 一种基于深度视频的人体行为识别方法
CN111539370A (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN112949565A (zh) 基于注意力机制的单样本部分遮挡人脸识别方法及系统
CN112766160A (zh) 基于多级属性编码器和注意力机制的人脸替换方法
CN111680672B (zh) 人脸活体检测方法、系统、装置、计算机设备和存储介质
CN112288627B (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN114882537B (zh) 一种基于神经辐射场的手指新视角图像生成方法
US11810366B1 (en) Joint modeling method and apparatus for enhancing local features of pedestrians
US20230162522A1 (en) Person re-identification method of integrating global features and ladder-shaped local features and device thereof
CN110825900A (zh) 特征重构层的训练方法、图像特征的重构方法及相关装置
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN114694089A (zh) 一种新型的多模态融合的行人重识别算法
CN116311368A (zh) 行人重识别方法
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN113591797B (zh) 一种深度视频行为识别方法
CN115588220A (zh) 两阶段多尺度自适应的低分辨率人脸识别方法及应用
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
CN114022516A (zh) 一种基于高秩特征和位置注意力的双模态视觉跟踪方法
CN113962846A (zh) 图像对齐方法及装置、计算机可读存储介质及电子设备
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant