CN116309030A

CN116309030A - 一种基于gan的小数据集颅面翻译方法

Info

Publication number: CN116309030A
Application number: CN202310292938.4A
Authority: CN
Inventors: 刘晓宁; 王晓蕾; 王洁; 雷诗宇; 田少彤
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-06-23

Abstract

本发明公开了一种基于GAN的小数据集颅面翻译方法，包括如下步骤：1、采集颅骨和面部CT图像数据；2、将颅骨和面部CT图像数据进行图像预处理、三维重建和光顺处理，得到完整的颅骨和面部的三维模型；3、将颅骨和面部的三维模型放置在法兰克福坐标系中进行归一化操作；4、在法兰克福坐标系中将颅骨和面部的三维模型对XOZ平面作垂直映射，得到颅骨与面部的主视图像；5、在GAN网络引入高斯金字塔，构建用于颅骨和面部翻译的网络模型PCC‑GAN；6、训练金字塔循环一致性生成对抗网络模型PCC‑GAN的网络参数；7、将颅骨和面部图像放进颅面翻译模型PCC‑GAN中，生成二维颅骨与面部图像，可以在较少的点云数据条件下生成更加准确真实的面部图像。

Description

一种基于GAN的小数据集颅面翻译方法

技术领域

本发明属于颅骨复原技术领域，具体是一种基于GAN的小数据集颅面翻译方法。

背景技术

面部是人类视觉外观的一个独特特征，从颅骨复原面貌，是颅骨身份识别的一项重要的技术。例如，在遇到不明头骨时，利用颅面复原技术恢复容貌，在信息库比对识别颅骨身份，对警方破案具有重要参考价值。早期的三维颅面复原是根据颅骨和面部之间的三维关系，从颅骨预测面部的几何结构，广泛地应用于考古学、刑事调查和法医学和医学美容等领域，并发挥着越来越重要的作用。

近年来，计算机辅助颅面复原的研究引起了广泛关注，通过利用计算机技术，可以显著缩减工作时间和难度，是一种更灵活、高效的复原方法。目前，计算机辅助颅面复原主要包括两种方法，即知识分析模型和统计学习模型，它们存在点云数据量大、特征点标定方法不准确及数目不足以描述颅面形态、颅面形态变化规律描述不完善和过程耗时较长等问题。

目前，图像翻译(Image-to-Image translation)技术渐渐地被广泛使用，它利用生成对抗网络GAN实现，旨在学习领域之间的映射函数，将图像的内容或风格从原始领域X转换到另一图像领域Y；生成对抗网络GAN是生成器(Generator)和鉴别器(Discriminator)的组合，生成器的目标是学习从潜在代码中映射生成图像，判别器是学习区分真实图像和生成器生成的图像，在此过程中，生成器和判别器相互博弈，从而生成与真实图像难以区分的图像。

故而，有望提出一种基于生成对抗网络GAN的图像翻译技术实现颅面复原，从而解决现有的三维颅面复原过程中点云数据量大、完成过程耗时长和模型精确度不高等问题。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于GAN的小数据集颅面翻译方法，可以在较少的点云数据条件下生成更加准确真实的颅面图像。

为了实现上述目的，本发明采用以下技术方案予以实现：

一种基于GAN的小数据集颅面翻译方法，其特征在于，包括如下步骤：

步骤1、采集颅骨和面部CT图像数据；

步骤2、将颅骨和面部CT图像数据进行图像预处理、三维重建和光顺处理，得到完整的颅骨和面部的三维模型；

步骤3、将颅骨和面部的三维模型放置在法兰克福坐标系中，进行归一化操作；

步骤4、在法兰克福坐标系中，将颅骨和面部的三维模型对XOZ平面作垂直映射，得到颅骨与面部的主视图像；

步骤5、在GAN网络引入高斯金字塔，构建用于颅骨和面部翻译的金字塔循环一致性生成对抗网络模型PCC-GAN；

步骤6、训练金字塔循环一致性生成对抗网络模型PCC-GAN的网络参数；

步骤7、将颅骨和面部图像放进颅面翻译模型PCC-GAN中，生成二维颅骨与面部图像。

进一步地，所述步骤1中采集颅骨和面部CT数据的具体过程为：利用计算机断层扫描技术，使用χ线束、γ射线或超声波对头颅部的厚层面进行精细扫描，得到若干连续的颅骨和面部CT切片图像。

进一步地，所述步骤6中训练金字塔循环一致性生成对抗网络模型PCC-GAN的过程为：

步骤6.1、在颅骨和面部成对数据集上进行网络训练模型PCC-GAN训练，学习图像翻译域X和域Y之间的映射；

步骤6.2、用对抗损失函数L_GAN、循环一致性损失函数L_cyc(G,F)和多尺度损失函数L_multi-scale优化图像翻译域转化问题，网络结构的总损失函数表示为：

Lall＝λ₁L_GAN+λ₂L_cyc(G,F)+λ₃L_multi-scale (2)

式中，λ₁，λ₂，λ₃分别是L_GAN、L_cyc(,F)和L_multi-scale的超参数值，G是域X->域Y的生成器，F是域Y->域X的生成器。

进一步地，所述步骤6.1具体包括如下步骤：

步骤6.1.1、提取颅骨和面部图像的特征图输入PCC-GAN网络中，经过学习后由生成器G生成颅骨和面部图像；

步骤6.1.2、利用高斯卷积对生成的颅骨和面部图像进行尺度变换，然后对得到的特征图的最后一层进行下采样，再接着利用高斯卷积进行4次尺度变换得到第一个八度，对第一个八度的最后一层图像下采样和利用高斯卷积进行4次尺度变换后得到第二个八度，对第二个八度的最后一层图像下采样和利用高斯卷积进行4次尺度变换后得到第三个八度；

步骤6.1.3、对来自生成器G生成的且即将要输入到判别器D的图像进行变换增强，变换增强后的图像和目标图像输入判别器D。

进一步地，所述步骤6.1.2中尺度变换的具体过程为：

步骤6.1.2.1、采用低通滤波器平滑生成图像和目标图像，低通滤波器使用高斯核G_σ，G_σ是标准差σ＝1的二维高斯核，表示为：

式中，x是像素点的横坐标值，y是像素点的纵坐标值；

步骤6.1.2.2、对平滑生成图像和目标图像进行下采样，去除图像的冗余像素并降低图像的分辨率；

步骤6.1.2.3、执行多个高斯卷积从而实现尺度变换，得到尺寸相同的特征图。

进一步地，所述步骤6.1.3中的变换增强包括像素变换、几何变换、颜色变换、图像空间滤波、加性噪声和剪切；

所述像素变换包括x翻转、90°旋转和整数平移。

进一步地，所述步骤6.1.3中变换增强的强度P值根据过拟合的程度动态调整，过拟合表示为：

式中，D_train是判别器D的输出，

是N个连续小批量的平均值，N＝4，当r＝0时，表示没有过拟合，r＝1表示完全过拟合；

通过将P值初始化为零，且以固定量递增或递减，使其能够快速地从0上升到1，从实现自适应判别器增强ADA。

进一步地，所述r的目标值为0.6，P值控制在0.8以下。

进一步地，所述步骤6.2具体包括如下步骤：

步骤6.2.1、对于生成器G的对抗损失函数表示为：

式中，D_Y是域X->域Y的生成器G的判别器；

对于生成器F的对抗损失函数表示为：

式中，D_X是域Y->域X的生成器D的判别器；

故而，总对抗损失函数L_GAN表示为：

L_GAN＝L_GAN(G,D_Y,X,U)+L_GAN(F,D_X,X,U) (5)

步骤6.2.2、为了约束生成图像与目标图像内容信息的一致性，引入循环一致性损失函数L_cyc(G,F)，使域X的图像经过生成器G之后输入到生成器F中，生成的图像与域X中的原始图像x保持一致，即x->G(x)->F(G(x))≈x，同样地，Y域中的图像y也满足反向循环一致损失，即y->F(y)->G(F(y))≈y；循环一致性损失函数L_cyc(G,F)表示为：

在高斯金字塔中，提取每个八度中的第一层图像计算损失，损失函数表示为：

公式(6)和(7)中，F_i(y)和G分别表示高斯滤波操作和生成器，i是每个八度的编号，且每个八度为不同的尺度，||||smoot L1表示计算smoothL1损失的值，x、y和z分别表示目标域的输入图像、目标图像和随机噪声，x～p_data(x)表示来自真实域X的图像x，y～p_data(y)表示来自真实域Y的图像y；

步骤6.2.3、多尺度损失函数L_multi-scale表示为：

式中，λ_i表示尺度i的权重。

本发明与现有技术相比，具有如下技术效果：

本发明将颅面复原问题转换为从颅骨图像翻译生成面貌图像，简称颅面翻译，完成对未知颅骨的身份识别，由于区分度大的面貌特征大部分集中在正视图上，因此生成的二维面貌图像完全可用于未知颅骨的身份识别；与三维颅面重建技术相比，利用PCC-GAN网络实现的二维颅面图像生成技术，主要有两个优势：(1)它具有捕捉颅骨和面貌之间复杂关系的巨大能力；(2)它不需要整个头部的三维扫描数据，训练阶段只需要成对的颅骨和面貌正视图，应用阶段仅需要一张颅骨的正视图，极大简化了面貌生成步骤；而且，本发明通过在多个尺度上约束生成的图像，尺度变换前期学习图像细节，后期学习图像轮廓，提取更全面的颅骨形态信息，生成与目标更接近的面部图像。

针对小数据集容易产生判别器过拟合问题，本发明引入自适应判别器增强机制，该机制在有限的数据条件下显著稳定训练，生成的面部图像在视觉质量和图像质量评价指标上都更优，更加准确和真实。

附图说明

图1为本发明的流程图；

图2为本发明的PCC-GAN模型的训练过程；

图3为本发明生成的面部图像；

图4为本发明的自适应判别器机制流程图；

图5为本发明与现有模型生成的颅面图像对比图。

具体实施方式

以下结合实施例对本发明的具体内容做进一步详细解释说明。

本实施例中颅面数据三维重建过程可参考文献：林芃樾.基于生成对抗网络的颅骨和面部复原与真实感处理研究[D].西北大学,2022.DOI:10.27405/d.cnki.gxbdu.2022.000244)。

如图1所示，一种基于GAN的小数据集颅面翻译PCC-GAN方法，包括以下步骤：

步骤1、采集尺寸为256*256的颅骨和面部CT图像数据：先利用计算机断层扫描技术，使用χ线束、γ射线和超声波对头颅部的厚层面进行精细扫描，然后把得到的颅骨和面部CT数据录入到计算机中，得到头部的断面图形，为了表现整个颅面形状，需要许多连续的颅骨和面部截面图形图像，其中最常见的是横截面图形图像，因CT切片可以通过三维重建技术描述出颅面的具体形态结构，故而本实施例采用CT扫描获取颅骨和面部图像数据；

步骤2、颅面数据三维重建：为了进一步获取更直观更完整的颅面形态与结构，需要对采集的颅骨和面部CT图像数据进行图像预处理、三维重建和光顺处理从而得到完整的颅骨与面貌三维模型，进而为后续的颅面复原与真实感处理奠定基础；

步骤3、将颅骨与面貌数据放置在法兰克福坐标系中并进行归一化操作，去掉与复原任务无关的因素，例如姿态和尺度，确保实验结果不会被干扰；

步骤4、颅面主视图图像获取与处理：在法兰克福坐标系下，将颅骨与人脸的三维模型对XOZ平面作垂直映射，得到颅骨与面部的主视图像；

步骤5、在GAN网络引入高斯金字塔，构建用于颅骨和面部翻译的金字塔循环一致性生成对抗网络模型PCC-GAN，其结构如图2所示；

步骤6、训练金字塔循环一致性生成对抗网络模型PCC-GAN的网络参数，具体包括如下步骤：

步骤6.1、将配对好的颅骨和面部图像放到网络训练模型PCC-GAN网络中进行学习训练，学习图像翻译域X和域Y之间的映射，具体过程为：

步骤6.1.2、利用高斯卷积对生成的颅骨和面部图像进行尺度变换，然后对得到的特征图的最后一层进行下采样，再接着利用高斯卷积进行4次尺度变换得到第一个八度，对第一个八度的最后一层图像下采样和利用高斯卷积进行4次尺度变换后得到第二个八度，对第二个八度的最后一层图像下采样和利用高斯卷积进行4次尺度变换后得到第三个八度；其中，尺度变换的具体过程为：

步骤6.1.2.1、采用低通滤波器平滑生成图像和目标图像，由于高斯核是实现图像尺度变换的唯一线性核，使用此线性核不会引入其他的噪声，故而本实施例的低通滤波器使用3×3高斯核G_σ，G_σ是标准差σ＝1的二维高斯核，表示为：

式中，x是像素点的横坐标值，y是像素点的纵坐标值；

步骤6.1.2.3、执行多个高斯卷积从而实现尺度变换，得到尺寸相同的特征图；

步骤6.1.3、对来自生成器G生成的且即将要输入到判别器D的图像进行变换增强，变换增强后的图像和目标图像输入判别器D；

所述变换增强包括像素变换、几何变换、颜色变换、图像空间滤波、加性噪声和剪切这六个类别，其中，像素变换包括x翻转、90°旋转和整数平移；仅用变换增强的图像评估判别器D，如图4所示，训练时，用一组预定义的变换以固定顺序增强即将要输入到判别器D的图像，增强强度由概率p∈[0，1]控制，每个变换都以概率p应用或以概率1-p跳过，所有的变换均使用相同的P值，图4中蓝色元素突出显示与扩增相关的操作，绿色框表示正在训练的网络，橙色元素表示损失函数，而其余元素使用生成器G和判别器D执行标准GAN训练，根据过拟合的程度动态调整增强强度P值，从而避免手动调整，过拟合表示为：

式中，D_train是判别器D的输出，

是N个连续小批量的平均值，本实施例中N＝4，当r＝0时，表示没有过拟合，r＝1表示完全过拟合；

控制增强强度P，将P初始化为零，并根据过拟合启发式(9)，每4个小批次调整一次P值，当r值接近于1或者接近于0表示拟合过多或过少，通过将P递增或递减固定量来进行计数，设置调整P值大小，使得P可以足够快地从0上升到1，称这种变体为自适应判别器增强(ADA)，当P值过高时，生成器无法知道生成的图像应该面向哪个方向，故而，本实施例中r的目标值为0.6，P值保持在安全值0.8以下，使生成器生成的图像就不会产生图像渗透和方向错乱等现象；

Lall＝λ₁L_GAN+λ₂L_cyc(G,F)+λ₃L_multi-scale (2)

式中，λ₁，λ₂，λ₃分别是L_GAN、L_cyc(,F)和L_multi-scale的超参数值，本实施例中λ₁＝30，λ₂＝35，λ₃＝50，G是域X->域Y的生成器，F是域Y->域X的生成器；

步骤6.2.1、对于生成器G的对抗损失函数表示为：

式中，D_Y是域X->域Y的生成器G的判别器；

对于生成器F的对抗损失函数表示为：

式中，D_x是域Y->域X的生成器D的判别器；

故而，总对抗损失函数L_GAN表示为：

L_GAN＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,X,Y) (5)

在高斯金字塔中，第一层和执行4次高斯卷积后产生尺寸相同的特征图的集合称为八度，本实施例共采用3个八度，每个八度中共有五层图像，下一个八度中的第一层图像是通过对上一个八度中最后一层图像进行下采样获得，并对其执行高斯模糊操作，提取每个八度中的第一层图像计算损失，损失函数表示为：

公式(6)和(7)中，F_i(y)和G分别表示高斯滤波操作和生成器，i是每个八度的编号，i＝1，2，3…l，i表示不同的尺度值，l是最后确定的八度个数，||||smoot L1表示计算smoothL1损失的值，x、y和z分别表示目标域的输入图像、目标图像和随机噪声，x～p_data(x)表示来自真实域X的图像x，y～p_data(y)表示来自真实域Y的图像y；

由于PCC-GAN网络模型中的L₁损失直接计算生成的面部图像和真实的面部图像之间的差异，会增加对生成图像的限制，为了削弱L₁损失带来的约束，本实施例将L₁损失函数替换为SmoothL₁损失函数，同时也在其他经过高斯卷积核进行下采样的尺度上对齐生成的图像和真实图像；所述尺度是图像内容的粗细程度，尺度越大，图像越模糊，不同尺度是模拟人在远近距离观看图像的效果；相比于L₁失函数，SmoothL₁损失对离群点、异常值不敏感，梯度变化相对更小，因此SmoothL₁损失比L₁损失函数收敛得更快；

步骤6.2.3、多尺度损失函数L_multi-scale表示为：

式中，λ_i表示尺度i的权重；

步骤7、将颅骨和面部图像放进颅面翻译模型PCC-GAN中，生成二维颅骨和面部图像，如图3所示。

本实施例步骤6中基于Python3.6和Pytorch1.2，使用NVIDIA A6000显卡对金字塔循环一致性生成对抗网络模型PCC-GAN的网络参数进行训练，本发明使用resnet-9模块的生成器G结构作为基线，而判别器D的结构使用PatchGAN，batchsize设置为4，使用的优化器是Adam，其中β1＝0.5，β2＝0.999，训练时间段的总数设置为100，学习率采用stepLR方法，等间隔调整学习率，每次降为原来的十分之一。

本实施例的PCC-GAN网络模型结合高斯金字塔在多个尺度上对图像进行训练，提取更全面的颅骨形态信息，生成与目标更接近的面部图像，针对小数据集，本实施例引入自适应判别器增强，以防止判别器过拟合导致训练发散，该机制在有限的数据条件下显著稳定训练，如图5所示，经过实验对比，本实施例(本发明方法)生成的图像与目标图像更为相似，直观而恰当地反映了颅骨与面部之间的形状关系。

Claims

1.一种基于GAN的小数据集颅面翻译方法，其特征在于，包括如下步骤：

步骤1、采集颅骨和面部CT图像数据；

2.根据权利要求1所述的基于GAN的小数据集颅面翻译方法，其特征在于，所述步骤1中采集颅骨和面部CT数据的具体过程为：利用计算机断层扫描技术，使用χ线束、γ射线或超声波对头颅部的厚层面进行精细扫描，得到若干连续的颅骨和面部CT切片图像。

3.根据权利要求1所述的基于GAN的小数据集颅面翻译方法，其特征在于，所述步骤6中训练金字塔循环一致性生成对抗网络模型PCC-GAN的过程为：

Lall＝λ₁L_GAN+λ₂L_cyc(G,F)+λ₃L_multi-scale (2)

式中，λ₁，λ₂，λ₃分别是L_GAN、L_cyc(G,F)和L_multi-scale的超参数值，G是域X->域Y的生成器，F是域Y->域X的生成器。

4.根据权利要求3所述的基于GAN的小数据集颅面翻译方法，其特征在于，所述步骤6.1具体包括如下步骤：

5.根据权利要求4所述的基于GAN的小数据集颅面翻译方法，其特征在于，所述步骤6.1.2中尺度变换的具体过程为：

式中，x是像素点的横坐标值，y是像素点的纵坐标值；

6.根据权利要求4所述的基于GAN的小数据集颅面翻译方法，其特征在于，所述步骤6.1.3中的变换增强包括像素变换、几何变换、颜色变换、图像空间滤波、加性噪声和剪切；

所述像素变换包括x翻转、90°旋转和整数平移。

7.根据权利要求4或6所述的基于GAN的小数据集颅面翻译方法，其特征在于，所述步骤6.1.3中变换增强的强度P值根据过拟合的程度动态调整，过拟合表示为：

式中，D_train是判别器D的输出，

8.根据权利要求7所述的基于GAN的小数据集颅面翻译方法，其特征在于，所述r的目标值为0.6，P值控制在0.8以下。

9.根据权利要求3所述的基于GAN的小数据集颅面翻译方法，其特征在于，所述步骤6.2具体包括如下步骤：

步骤6.2.1、对于生成器G的对抗损失函数表示为：

式中，D_Y是域X->域Y的生成器G的判别器；

对于生成器F的对抗损失函数表示为：

式中，D_X是域Y->域X的生成器D的判别器；

故而，总对抗损失函数L_GAN表示为：

L_GAN＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,X,Y) (5)

公式(6)和(7)中，F_i(y)和G分别表示高斯滤波操作和生成器，i是每个八度的编号，且每个八度为不同的尺度，||||smoot L1表示计算smoothL1损失的值，x、y和z分别表示目标域的输入图像、目标图像和随机噪声，x～o_data()表示来自真实域X的图像x，y～o_data()表示来自真实域Y的图像y；

步骤6.2.3、多尺度损失函数L_multi-scale表示为：

式中，λ_i表示尺度i的权重。