CN114882537A

CN114882537A - 一种基于神经辐射场的手指新视角图像生成方法

Info

Publication number: CN114882537A
Application number: CN202210397203.3A
Authority: CN
Inventors: 陈卓明; 康文雄; 王伟民; 赵学艳
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-09
Anticipated expiration: 2042-04-15
Also published as: CN114882537B

Abstract

本发明公开了一种基于神经辐射场的手指新视角图像生成方法，包括以下步骤：获取包含轴向旋转的图像，作为图像样本；扩增图像数据；提取扩增得到的图片数据的相对外参数；生成轴向旋转新视角的图像；利用扩增图像数据和生成轴向旋转新视角的图像训练识别模型。本方法通过传统数据扩增方法模拟手指采集过程中在各个方向上偏移的情况，增强样本数据的多样性，提升识别系统的鲁棒性，利用基于神经辐射场的方法，为每个手指生成了多张轴向旋转的手指图像，丰富了手指轴向旋转数据的多样性，提升系统的鲁棒性，向窗口内采样的像素加入梯度信息、结构相似性信息以及深度平滑信息的约束，提升新视角生成的质量，提升识别系统的性能。

Description

一种基于神经辐射场的手指新视角图像生成方法

技术领域

本发明涉及计算机视觉特征识别领域，具体涉及一种基于神经辐射场的手指新视角图像生成方法。

背景技术

近年来，随着信息化时代中信息安全要求逐渐提升以及计算机技术逐渐成熟和普及，生物特征识别技术在身份认证领域占据了越来越大的份额。相比于密码、ID信息等传统身份验证方式，生物特征信息通常具备普遍性、独特性、持久性、可采集性等明显的优势。因此，生物特征识别适合用于对身份识别精度要求相对较高的场所，如门禁、银行等。其中，指纹信息处于人体特征中相对不敏感的区域，且具备易于采集的特性，在近年来一直被广泛研究且投放适用于各类场景当中。

指部特征信息主要包含指纹信息以及指静脉信息，指纹作为近年来使用最多的生物特征之一，被广泛运用于手机解锁、门禁解锁、刑侦破案等邻域当中，具备一定的法律效应。除此之外，用户的指纹在相当长一段时间内固定的，而且在实际使用场景中易于获取指纹样本，使得指纹识别具有非常高的实用性。

指部特征识别技术主要分为基于特征工程的技术以及基于深度学习的技术。在基于特征工程的识别技术中，由于这指纹特征以及指静脉特征的纹理信息存在比较大的差异，所以这两种特征都有其独特的基于特征工程的特征提取方法。指纹当前主要使用的特征类型可分为局部特征以及全局特征，其中局部特征可以描述指纹的细微特征，全局特征则可以描述指纹整体的特征信息。局部特征主要是通过脊线方向、纹路连续情况等较为细节的特征点进行两个指纹之间的区分，这些特征点可以细分为端点、断点、桥街点、分叉点等；全局特征主要包括纹型、模式区、核心点、三角点和脊线数。

在基于深度学习的方法中，研究者们提出了利用卷积神经网络同时进行指纹特征的提取已经图像的认证，从而实现端到端的训练策略。随着深度学习中模型的优化，指部特征识别的精度和性能也在不停的提升，MobileNet系列、 ShuffleNet系列等轻量化网络的提出大大推动了指部特征识别技术在嵌入式设备的部署，解决了嵌入式设备显存容量较小的问题，使嵌入式终端设备能够以优秀的性能完成认证的任务。

神经网络的训练需要输入大量样本来进行学习，得到具有判别力的特征，从而避免网络过拟合的情况。而在自由度较高的设备中进行图像采集难免会出现手指各方向的平移以及旋转情况，在采集的时候无法将这些情况全部考虑在内。为了提升神经网络的鲁棒性，可以采用传统的数据扩增方法增加样本的多样性。传统的数据扩增方法主要包括随机平移、随机缩放、随机旋转、随机裁剪、随机调整伽马系数等，其中利用传统数据扩增方法中的图像平移可以获得在前后方向以及左右方向上偏移的相关样本，利用图像缩放可以获取在上下方向上的偏移的相关样本，通过图像旋转可以获取在手指平面上旋转的相关样本。除此之外，通过随机裁剪以及随机调整伽马系数的扩增方式，更能模拟实际采集场景中会发生的情况，大幅度地提升了数据库的丰富性。训练可以采用在线扩增数据的方式，从而使每个批次输入网络的图片都有着足够的差异，可以很大程度上解决神经网络需要大量数据而所采集的指部特征数据不足的问题，降低网络过拟合的风险，从而为认证系统的鲁棒性提供了保障。

神经辐射场(Neural Radiance Fields，NeRF)被提出且用于了新视角生成的任务，NeRF将包含复杂几何及物体信息的三维场景编码至多层感知机中，并且通过坐标以方向信息解码得到三维空间中的色彩及密度信息。网络通过输入包含内外参数的多视角图片进行训练，在不同视角下对场景进行观测并且渲染出对应的图像，与该视角下的真实图像作损失为网络的反向传播提供更新的梯度方向，不需要额外的真实深度信息作为监督信号。

NeRF以及其大部分的改进方法中都只能将单个三维场景的信息编码至神经网络当中，因此在具有大量场景的情况下，不仅需要花费大量的时间对每个场景进行单独训练，还要使用不同的模型参数对这些场景信息进行保存，不利于NeRF 在新场景中的泛化。因此，MVSNeRF提出了相应的解决方案，使网络可以在训练一个模型的基础上，完成多个场景的多视角生成任务，大幅度地减少了在多个场景情况下的训练时长以及模型存储难度。

现有技术的缺点：

1、现有的指部特征识别采集系统中，所获取的指部特征图片通常只具备手指某一面的信息，而且由于采集过程中因为手指自由度过高容易导致用户多次采集的图片差异较大，使系统的错误拒绝率过高。

2、现有的数据扩增方法中只能对手指的平移、缩放等情况进行扩增，而不能模拟由手指轴向旋转所导致的指部纹理新增或者消失的情况。

3、现有的基于神经辐射场的新视角生成方法中，在对目标视角采样像素进行预测时采取了随机采样的方法，使采样得到的像素之间不存在任何约束，导致所生成新视角下的图像可能会丢失局部信息。

在MVSNeRF(多视角立体几何神经辐射场)等基于NeRF(神经辐射场)的多视角生成方法中，通过随机采样在训练图像中得到目标像素进行训练，通过对比像素的预测颜色信息与真实颜色信息得到网络的损失，并且根据这些损失进行反向传播，更新网络参数。然而，通过随机采样得到目标像素会使得采样得到的像素之间缺乏约束，从而难以保留图像的局部几何信息。

发明内容

为解决了由于手指自由度过高容易导致用户多次采集的图片差异较大、传统数据扩增方法中无法模拟手指轴向旋转所导致的指部纹理新增或者消失以及基于神经辐射场的新视角生成方法中随机采样所导致的局部信息丢失的问题，提出一种基于神经辐射场的手指新视角图像生成方法。

本发明至少通过如下技术方案之一实现。

一种基于神经辐射场的手指新视角图像生成方法，包括以下步骤：

1)获取包含轴向旋转的原始图像，作为图像样本；

2)扩增图像数据；

3)提取原始图像数据之间的相对外参；

4)利用步骤1)采集得到的原始图像以及步骤3)得到的图像之间的相对外参生成轴向旋转新视角的图像；

5)利用步骤2)的扩增图像数据和步骤4)生成的轴向旋转新视角的图像训练识别模型。

进一步地，步骤1)具体包括：将手指在轴向-30°至30°的范围内旋转后进行拍摄，从而得到多个旋转角度下的图片。

进一步地，步骤2)具体包括：采用包括随机平移、随机缩放、随机裁剪的数据扩增模拟实际采集场景中可能发生的情况。

进一步地，经过步骤1)获取的多张图片后，通过基于运动恢复结构方法的 COLMAP提取多张包含轴向旋转的图片之间的相对内外参数以及粗糙的三位点云信息，其中三维点云信息用于约束后续新视角重建过程中的深度的预测范围；在得到多张图像对应相机坐标系之间的相对内外参数后，用于后续的新视角生成任务。

进一步地，步骤2)具体为：通过多视角立体几何神经辐射场的新视角生成方法根据包含轴向旋转样本的原始图像对手指的隐式三维模型进行建模，并且在此基础上得到其余视角的图像。

进一步地，根据包含轴向旋转样本的原始图像对多视角立体几何神经辐射场建模得到手指的隐式三维模型，具体包括：

通过采样N_w个边长为w的正方形窗口，并使w×w×N_w＝N_p，N_p为采样像素的总数量，从而加强新视角生成过程中的局部信息约束；在训练的过程中增加如下的梯度损失

结构相似性损失

以及深度平滑损失

进行约束：

其中，W_i ^pred表示第i个窗口的预测颜色，W_i ^gt表示第i个窗口的真实颜色，

表示在x方向上的梯度，

表示在y方向上的梯度，

表示窗口W_i ^pred的平均值，

表示窗口W_i ^gt的平均值，

表示窗口W_i ^pred以及窗口W_i ^gt之间的协方差，

表示窗口W_i ^gt的方差，

表示窗口W_i ^gt的方差，D_i表示 MVSNeRF网络预测的目标视角下的深度值；c₁、c₂为维持计算结构相似性稳定的两个变量；

最终，多视角立体几何神经辐射场的损失函数为：

其中，

表示像素p_j的预测颜色，

表示像素p_j的真实颜色，其中α、β以及γ分别为梯度损失、结构相似性损失以及深度平滑损失的权重系数，

为多视角立体几何神经辐射场训练的损失函数。

进一步地，所述识别模型包括特征提取器和分类器，特征提取器包括卷积层、三个反向残差模块、三个最大池化层、自适应性平均池化层；后面两个最大池化层前连接有第一反向残差模块Block1、第二反向残差模块Block2；

所述卷积层的卷积核的大小为3×3、卷积层的数量为32，步长为2的卷积层，并在卷积层之后连接调整特征分布的批归一化层、增强非线性拟合能力的ReLU 激活函数；

所述自适应性平均池化层前连接有第三反向残差模块Block3，在空间维度上将Block3输出特征图的信息进行聚合，得到维度为

的特征向量；在识别模型的训练过程中，基于全连接层的输出与图片真实的用户标签计算损失，提供识别模型反向传播的梯度，从而进行参数的更新，使识别模型逐步学习到具有判别力的特征信息。

进一步地，所述分类器包括一个维度为

的全连接层，通过将特征提取器得到的特征向量输入全连接层进行回归，得到维度为

的输出，表示输入图像对应k个用户的分数。

进一步地，所述第一反向残差模块Block1、第二反向残差模块Block2、第三反向残差模块Block3均包括依次连接的第一卷积层、第二卷积层、第三卷积层；所述第一卷积层和第三卷积层的卷积核大小均为1×1的卷积层，第二个卷积层的卷积核大小为3×3且带卷积通道分组操作的卷积层。

进一步地，所述特征提取器采用MobileNetV2以降低识别网络参数量为导向的特征提取器。

与现有的技术相比，本发明的有益效果为：

1、本方法通过MVSNeRF生成手指的新视角，可以生成手指轴向转转的数据，从而弥补由于采集过程中手指自由度过高导致的轴向旋转问题，提高手指特征认证系统的识别准确率；

2、本方法在对MVSNeRF训练样本的获取中采用了基于窗口采样的策略，可以向窗口内采样的像素加入梯度信息、结构相似性信息以及深度平滑信息的约束，提升新视角生成的质量。

附图说明

图1为本实施例一种基于神经辐射场的手指新视角图像生成方法流程图；

图2为本实施例训练图片示意图；

图3为本实施例相机相对位姿图；

图4为本实施例采样策略示意图；

图5为本实施例网络结构图；

图6为本实施例MobileNetV2中的反向残差模块结构图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1

如图1所示，一种基于神经辐射场的手指新视角图像生成方法，包括以下步骤：

1、如图2所示，获取包含轴向旋转的图像：采集工作者引导受试者将手指在轴向-30°至30°的范围内旋转后进行拍摄，从而得到受试者在多个旋转角度下的一组图片。在得到了多张不同旋转角度下的旋转图片之后，可以将采集的图片用于应对用户在实际使用场景中由于手指自由度过高容易导致用户多次采集的图片存在差异的问题。

2、扩增图像数据：经过步骤1获取的多张轴向旋转角度下的图片后，采用包括随机平移、随机缩放、随机裁剪等数据扩增的方法模拟实际采集场景中可能发生的情况，如手指在拍摄过程中的平移以及缩放等情况。通过对采集数据进行扩增，可以增强所采集数据的多样性，加强后续神经网络训练的收敛能力。

3、提取图片的相对外参：经过步骤1获取的多张轴向旋转角度下的图片后，通过基于运动恢复结构方法(structure-from-motion)的COLMAP提取多张包含轴向旋转的采集图片之间的相对内外参数(位姿关系)以及粗糙的三位点云信息，其中三维点云信息可以用于约束后续新视角重建过程中的深度的预测范围。COLMAP提取相机之间相对关系的结果如图3的a和b所示，在得到多张图像对应相机坐标系之间的位姿关系后，可以用于后续的新视角生成任务。

4、生成轴向旋转新视角的图像：经过步骤3得到多张轴向旋转图片的相对内外参数以及深度的预测范围后，通过基于多视角立体几何神经辐射场(MVSNeRF)的新视角生成方法根据已有的旋转角度图片对手指的隐式三维模型进行建模，并且在此基础上得到其余视角的图像，从而增强图像样本在旋转方向上的多样性。在基于MVSNeRF的新视角生成方法中可以采用以下两种采样方式：

第一种：如图4的a所示，通过随机采样的方式得到N_p个像素，并且基于所采样像素的真实颜色与预测颜色之间差值的范数作为多视角立体几何神经辐射场(多视角立体几何神经辐射场完成训练后可以表示为手指的隐式三维模型)训练的损失函数：

其中，

表示像素p_j的预测颜色，

表示像素p_j的真实颜色；

为神经网络即多视角立体几何神经辐射场训练的损失函数。

第二种：如图4的b所示，基于窗口采样的MVSNeRF方法，在基于窗口采样的MVSNeRF方法中，通过采样N_w个边长为w的正方形窗口，并使w×w× N_w＝N_p，从而加强新视角生成过程中的局部信息约束；

基于窗口采样的MVSNeRF方法中，除了可以利用式(1)对预测像素的颜色进行约束，还可以在训练的过程中对了公式(2)中的梯度损失、公式(3)中的结构相似性损失以及公式(4)的深度平滑损失进行约束，从而保留生成图像更多的局部信息，提升新视角生成实验中所生成图像的质量：

表示在x方向上的梯度，

表示在y方向上的梯度，

表示窗口W_i ^pred的平均值，

表示窗口W_i ^gt的平均值，

表示窗口W_i ^pred以及窗口W_i ^gt之间的协方差，

表示窗口W_i ^gt的方差，

表示窗口W_i ^gt的方差，D_i表示 MVSNeRF网络预测的目标视角下的深度值；c₁、c₂为维持计算结构相似性稳定的两个变量。

最终，多视角立体几何神经辐射场的损失函数为：

其中α、β以及γ分别为梯度损失、结构相似性损失以及深度平滑损失的权重系数，通过优化该损失函数，在预测准确颜色信息的同时，保留手指图像的局部结构信息。

5、训练识别模型：经过步骤2以及步骤4获取到的扩增数据之后，训练如图5所示的识别模型架构训练手指特征认证任务的模型。所述识别模型包括特征提取器和分类器，特征提取器包括卷积层、三个反向残差模块、三个最大池化层、自适应性平均池化层；后面两个最大池化层之前连接有第一反向残差模块Block1、第二反向残差模块Block2；所述自适应性平均池化层之前连接有第三反向残差模块Block3，在空间维度上将Block3输出特征图的信息进行聚合，得到维度为

的特征向量；所述分类器包括一个维度为

的输出，表示输入图像对应k个用户的分数。

其中，输入是一张维度为

的图像I。特征提取器由四部分组成，第一部分是一个卷积核的大小为3×3、卷积层的数量为32，步长为2的卷积层，并在卷积层之后连接调整特征分布的批归一化层、增强非线性拟合能力的ReLU 激活函数以及聚合局部信息的最大池化层；第二部分以及第三部分是接着最大池化层的反向残差模块Block1、Block2；第四部分是反向残差模块Block3以及自适应性平均池化层，自适应性平均池化层在空间维度上将Block3输出特征图的信息进行聚合，得到维度为

的特征向量。分类器则由一个维度为

的全连接层构成，通过将特征提取器得到的特征向量输入全连接层进行回归，得到维度为

的输出，表示输入图像对应k个用户的分数。在识别模型的训练过程中，基于全连接层的输出与图片真实的用户标签计算损失，提供识别模型反向传播的梯度，从而进行参数的更新，使识别模型逐步学习到具有判别力的特征信息。

其中，反向残差模块是MobileNetV2中为了在保证计算准确率的基础上降低模型参数量以及计算量而提出的模块。如图6所示，反向残差模块主要由卷积核大小为1×1的卷积层、卷积核大小为3×3且带卷积通道分组操作的卷积层以及另外一个卷积核大小为1×1的卷积层三部分组成。其中，第一个卷积层的作用是通过1×1的卷积核在低参数量以及计算量的情况下提升特征的通道数，增加可以提取的特征；第二个卷积层的作用是通过卷积通道分组操作以及3×3的卷积核在融合局部信息的同时大幅度降低计算量；最后通过1×1的卷积核的卷积核将特征图的维度降低，并且如输入反向残差模块的特征图结合，在保留其原有特征信息的基础上进行增强。除此之外，反向残差模块中前两个卷积层之后都接上ReLU激活函数，增强网络对非线性特征的拟合能力，而在最后一个卷积层之后，为了避免非线性单元对特征的破坏，防止特征被破坏。

实施例2

不同于实施例1中以降低模型参数量为导向的特征提取器，可以采用EfficientNet等以提升网络识别性能为导向的特征提取器。

实施例3

在基于窗口对MVSNeRF目标像素进行采样的过程中，除了固定采样N_w个边长为w的正方形窗口，还可以在不同的训练阶段中使用不同窗口大小w的窗口进行采样。

上述实施例仅用于详细阐述以帮助理解本发明的技术方案，对本领域技术人员而言，在不脱离本发明原理的前提下做出的任何改进与替换，均属于本发明的保护范围。

Claims

1.一种基于神经辐射场的手指新视角图像生成方法，其特征在于，包括以下步骤：

1)获取包含轴向旋转的原始图像，作为图像样本；

2)扩增图像数据；

3)提取原始图像数据之间的相对外参；

2.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法，其特征在于，步骤1)具体包括：将手指在轴向-30°至30°的范围内旋转后进行拍摄，从而得到多个旋转角度下的图片。

3.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法，其特征在于，步骤2)具体包括：采用包括随机平移、随机缩放、随机裁剪的数据扩增模拟实际采集场景中可能发生的情况。

4.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法，其特征在于，经过步骤1)获取的多张图片后，通过基于运动恢复结构方法的COLMAP提取多张包含轴向旋转的图片之间的相对内外参数以及粗糙的三位点云信息，其中三维点云信息用于约束后续新视角重建过程中的深度的预测范围；在得到多张图像对应相机坐标系之间的相对内外参数后，用于后续的新视角生成任务。

5.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法，其特征在于，步骤2)具体为：通过多视角立体几何神经辐射场的新视角生成方法根据包含轴向旋转样本的原始图像对手指的隐式三维模型进行建模，并且在此基础上得到其余视角的图像。

6.根据权利要求5所述的一种基于神经辐射场的手指新视角图像生成方法，其特征在于，根据包含轴向旋转样本的原始图像对多视角立体几何神经辐射场建模得到手指的隐式三维模型，具体包括：

结构相似性损失

以及深度平滑损失

进行约束：

表示在x方向上的梯度，

表示在y方向上的梯度，

表示窗口W_i ^pred的平均值，

表示窗口W_i ^gt的平均值，

表示窗口W_i ^pred以及窗口W_i ^gt之间的协方差，

表示窗口W_i ^gt的方差，

表示窗口W_i ^gt的方差，D_i表示MVSNeRF网络预测的目标视角下的深度值；c₁、c₂为维持计算结构相似性稳定的两个变量；

最终，多视角立体几何神经辐射场的损失函数为：

其中，

表示像素p_j的预测颜色，

为多视角立体几何神经辐射场训练的损失函数。

7.根据权利要求1所述的一种基于神经辐射场的手指新视角图像生成方法，其特征在于，所述识别模型包括特征提取器和分类器，特征提取器包括卷积层、三个反向残差模块、三个最大池化层、自适应性平均池化层；后面两个最大池化层前连接有第一反向残差模块Block1、第二反向残差模块Block2；

所述卷积层的卷积核的大小为3×3、卷积层的数量为32，步长为2的卷积层，并在卷积层之后连接调整特征分布的批归一化层、增强非线性拟合能力的ReLU激活函数；

8.根据权利要求7所述的一种基于神经辐射场的手指新视角图像生成方法，其特征在于，所述分类器包括一个维度为

的输出，表示输入图像对应k个用户的分数。

9.根据权利要求7所述的一种基于神经辐射场的手指新视角图像生成方法，其特征在于，所述第一反向残差模块Block1、第二反向残差模块Block2、第三反向残差模块Block3均包括依次连接的第一卷积层、第二卷积层、第三卷积层；所述第一卷积层和第三卷积层的卷积核大小均为1×1的卷积层，第二个卷积层的卷积核大小为3×3且带卷积通道分组操作的卷积层。

10.根据权利要求7所述的一种基于神经辐射场的手指新视角图像生成方法，其特征在于，所述特征提取器采用MobileNetV2以降低识别网络参数量为导向的特征提取器。