CN116630599A

CN116630599A - 一种生成牙齿正畸后预测照片的方法

Info

Publication number: CN116630599A
Application number: CN202310446163.1A
Authority: CN
Inventors: 张耀龙
Original assignee: Beijing Haoya Technology Co ltd
Current assignee: Beijing Haoya Technology Co ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-08-22

Abstract

本公开的实施例提供了一种生成牙齿正畸后预测照片的方法。应用于数字牙科技术领域，所述方法对正畸前微笑露齿正面人脸图像进行人脸对齐，对正畸前牙齿图像进行牙齿对齐，并合成生成人脸牙齿拼接图像，作为输入数据集；对正畸后微笑露齿正面人脸图像进行人脸对齐，作为目标数据集；利用所述输入数据集和目标数据集对生成式对抗网络模型进行训练，获得训练后的生成式对抗网络模型的生成网络，将对齐后正畸前微笑露齿正面人脸图像输入该网络生成牙齿正畸后预测照片。以此方式，患者可以方便的了解牙齿正畸后的面部效果，尤其是露齿微笑效果。

Description

一种生成牙齿正畸后预测照片的方法

技术领域

本发明涉及数字牙科技术，尤其涉及一种生成牙齿正畸后预测照片的方法。

背景技术

口腔正畸是针对牙齿排列畸形或错颌，利用矫治器械，对牙齿施加三维矫治力和力矩，调整颜面骨骼、牙齿和颌面肌肉三者间的平衡和协调，经过一段时间的矫治后改善排齐牙列并提高咀嚼效能的一种治疗方法。牙齿正畸治疗可以改善用户面型和露齿微笑时的形象。这也是用户较为关注的一种正畸效果。传统的正畸治疗，在治疗方案确定前，一般是正畸医生通过手动排牙实验来告知患者可能涉及到的牙齿移动和最终治疗效果。手动排牙的过程需要耗费较多的资源而且排牙实验结果也不直观。现有计算机正畸预测技术，通常需要专业人士获得用户的牙列模型或是口腔CT影像。因此患者难以方便的了解正畸后的面部效果。

发明内容

本公开提供了一种生成牙齿正畸后预测照片的方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种牙齿正畸后预测照片生成模型的训练方法。该方法包括：对正畸前微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸前人脸图像；对正畸前牙齿图像进行牙齿对齐，获得对齐后正畸前牙齿图像；将所述对齐后正畸前人脸图像与对应的对齐后牙齿图像进行合成操作，生成人脸牙齿拼接图像，作为输入数据集；对正畸后微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸后人脸图像，作为目标数据集；利用所述输入数据集和目标数据集对生成式对抗网络模型进行训练，获得训练后的生成式对抗网络模型的生成网络；将所述训练后的生成式对抗网络模型的生成网络作为牙齿正畸后预测照片生成模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述正畸前牙齿图像，包括咬合状态露齿多角度牙齿图像和张口状态上牙列、下牙列图像。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述人脸对齐包括：对正畸前微笑露齿正面人脸图像进行人脸检测；将检测到的人脸进行剪裁，获取人脸区域图像；利用人脸关键点定位模型识别出人脸区域的关键点；利用关键点，对人脸区域图像进行姿态校正和对齐。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述牙齿对齐包括：对正畸前牙齿图像进行关键点定位；利用关键点信息对正畸前牙齿图像进行姿态矫正和对齐。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述生成式对抗网络为pix2pix网络，在所述pix2pix网络的生成器和辨别器分别添加有注意力网络。

根据本公开的第二方面，提供了一种牙齿正畸后微笑预测照片的生成方法。该方法包括：对待预测微笑露齿正面人脸图像进行人脸对齐，获得对齐后待预测人脸图像；对待预测牙齿图像进行牙齿对齐，获得对齐后待预测牙齿图像；将所述对齐后待预测人脸图像与对应的对齐后待预测牙齿图像进行合成操作，生成待预测人脸牙齿拼接图像；将所述对齐后待预测人脸牙齿拼接图像输入如权利要求1-5所述的牙齿正畸后预测照片生成模型，得到对应的正畸后微笑露齿正面图像。

根据本公开的第三方面，提供了一种牙齿正畸后预测照片生成模型的训练装置。该装置包括：正畸前人脸对齐模块，用于对正畸前微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸前人脸图像；牙齿对齐模块，用于对正畸前牙齿图像进行牙齿对齐，获得对齐后正畸前牙齿图像；拼接模块，用于将所述对齐后正畸前人脸图像与对应的对齐后牙齿图像进行合成操作，生成人脸牙齿拼接图像，作为输入数据集；正畸后人脸对齐模块，用于对正畸后微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸后人脸图像，作为目标数据集；模型训练模块，用于利用所述输入数据集和目标数据集对生成式对抗网络模型进行训练，获得训练后的生成式对抗网络模型的生成网络；模型存储模块，用于将所述训练后的生成式对抗网络模型的生成网络作为牙齿正畸后预测照片生成模型。

根据本公开的第四方面，提供了一种生成牙齿正畸后预测照片的装置。该装置包括：人脸对齐模块，用于对待预测微笑露齿正面人脸图像进行人脸对齐，获得对齐后待预测人脸图像；牙齿对齐模块，用于对待预测牙齿图像进行牙齿对齐，获得对齐后待预测牙齿图像；拼接模块，用于将所述对齐后待预测人脸图像与对应的对齐后待预测牙齿图像进行合成操作，生成待预测人脸牙齿拼接图像；预测模块，用于将所述对齐后待预测人脸牙齿拼接图像输入如权利要求1-5所述的牙齿正畸后预测照片生成模型，得到对应的正畸后微笑露齿正面图像。

根据本公开的第五方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。

本公开大体涉及与预测用户牙齿正畸后效果有关的系统、方法和/或计算机可读介质，并且尤其涉及提供给用户一个或多个预测的和/或预期的露齿微笑效果。本文的实施方式是根据用户自己采集的面部和牙齿部位的照片来生成预测的正畸效果照片。现有技术只能依靠专业人士，例如牙医或是技术人员，构建模型或是拍摄牙部CT等原始的方式生成预测的正畸效果模型。本文的实施方式使初步接触到正畸治疗和/或正准备接受正畸治疗的人们，无需到访医疗机构，就能够借助手机或电脑应用方便的自动生成预测的正畸后露齿微笑照片。本文的实施方式也能够帮助牙齿医生，借助手机或电脑应用，方便的借助预测的正畸后露齿微笑照片帮助病人直观的了解牙齿正畸效果。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的总体设计架构；

图2示出了根据本公开的实施例的一种牙齿正畸后预测照片生成模型的训练方法的流程；

图3示出了根据本公开的实施例的生成牙齿正畸后预测照片的流程；

图4示出了根据本公开的实施例的人脸对齐的流程；

图5示出了根据本公开的实施例的牙齿关键点定位模型的训练流程；

图6示出了根据本公开的实施例的牙齿对齐的流程；

图7示出了根据本公开的实施例的牙齿正畸后预测照片生成模型的网络结构；

图8示出了根据本公开的实施例的一种牙齿正畸后预测照片生成模型的训练装置800的框图；

图9示出了根据本公开的实施例的一种生成牙齿正畸后预测照片的装置900的框图；

图10示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开提供了一种生成牙齿正畸后预测照片的方法。本公开是根据用户自己采集的面部和牙齿部位的照片来生成预测的正畸效果照片。现有技术只能依靠专业人士，例如牙医或是技术人员，构建模型或是拍摄牙部CT等原始的方式生成预测的正畸效果模型。本公开通过建立一个专门用于牙齿正畸后效果预测的pix2pix网络来有效地处理用户自采图像可能质量低下的问题。通过将CBAM网络加入到UNet模型中，提高模型性能和鲁棒性，从而生成逼真的牙齿正畸后预测照片。

本公开所提出的方法主要解决用户牙齿正畸后效果难以预知的问题。本公开可以用于以下场景：(1)初步接触到正畸治疗和/或正准备接受正畸治疗的人们，无需到访医疗机构，就能够借助手机或电脑应用方便的自动生成预测的正畸后露齿微笑照片。(2)牙齿医生，借助手机或电脑应用，方便的借助牙齿正畸后预测照片帮助病人直观的了解牙齿正畸效果。

图1是根据本公开的实施例的总体设计架构。

参考图1，

在一些实施例中，本公开可以由两个主要部分组成：应用和服务器。

110是应用；

在一些实施例中，应用可以是web应用也可以是手机端应用。应用的功能是辅助普通用户完成图像的采集和上传。应用可以通过关联应用所在设备的摄像设备完成图像采集。应用同时可以完成摄像引导。例如，提示用户至少要完成5种图像的采集，包括正面露齿微笑照片，咬合状态露齿左侧偏转90度+-15度、右侧偏转90度+-15度、前面的牙齿照片图像和张口状态上牙列、下牙列照片图像。在引导过程中，应用可以做出拍摄合规判断同时判断图像属于5种中的哪一种，然后给每个照片打上标签。如果用户拍摄方式不合格拍摄要求，提示用户调整拍摄方式。应用也可以让用户从设备存储读取现有的照片，并通过扫描照片和拍摄合规判断来提示用户现有的照片是否符合拍摄要求。应用将用户采集的图像上传到服务器。当应用将带标签的图像上传到服务器，服务器完成了牙齿正畸后预测以后，会存入数据库返回一个或多个预测图像链接。应用会通过该链接从服务器抓取该预测图像并展示给用户。同时应用也可以辅助高级用户完成模型训练样本采集。

120是服务器；

在一些实施例中，服务器应该是云端服务器。服务应该包括如下模块：数据库121，数据集处理模块122，人脸对齐模块123，牙齿对齐模块124，模型训练模块125，和牙齿正畸后预测模块126。服务器可以不通过应用直接接收用于模型训练的样本数据。同时服务器也可以接收到应用上传的普通用户自采集数据或是高级用户采集的样本数据。

数据库121是用来存储图像数据的。对不同来源的数据分别存入普通用户数据库和模型训练数据库。

数据集处理模块122主要是对图像进行去重，去噪等处理。同时数据集处理模块还可以对图像进行切除，拼接等功能。同时数据集处理模块还可以对数据集按照一定比例进行划分，控制训练集和验证集的比例。

人脸对齐模块123的主要功能是对样本数据里面的或是用户自己采集的正畸前和正畸后微笑露齿正面人脸图像进行人脸对齐。人脸对齐模块是采用预训练的人脸对齐模型将图像中的不同人脸进行归一化处理，使它们具有相似的面部结构和位置。具体来说，人脸对齐是通过检测眼睛、鼻子、嘴巴等面部关键点，然后通过旋转、缩放和平移等变换来对齐人脸。对齐后的人脸可以方便深度学习模型提取各种特征，例如嘴唇的形状和脸颊特征等。主流的人脸对齐方法是2D人脸对齐算法，如基于2D人脸关键点的对齐方法，如MTCNN等。模块也包括将预训练的模型进行保存和加载。

牙齿对齐模块124的主要功能是对样本数据里面的或是用户自己采集的牙齿照片进行牙齿对齐。牙齿对齐技术一般包括牙齿的分割和配准。牙齿对齐模块是用预训练的模型对牙齿实现精准对齐，方便深度学习模型提取牙齿的各种特征。模块也包括将预训练的模型进行保存和加载。

模型训练模块125包括模型的构建功能，包括利用深度学习框架，实现预测模型架构并设置模型超参数。同时选择合适的损失函数和预设停止条件。然后利用样本数据，来调整模型的权重和参数，并进行迭代训练，直到满足预设的停止条件。模型训练模块也可以利用测试数据集对模型进行测试。

牙齿正畸后预测模块126的功能是根据正畸前的正面露齿微笑照片和正畸前牙齿照片预测正畸后微笑露齿正面人脸图像。牙齿正畸后预测模块是利用预训练的模型生成微笑露齿正面人脸。模块也包括将预训练的模型进行保存和加载。然后提取普通用户上传的人脸加牙齿图像并输入到加载好的模型，然后通过模型进行预测。将预测结果的图片进行分辨率的优化。最后存入数据库。

图2是根据本公开的实施例的一种牙齿正畸后预测照片生成模型的训练方法的流程。

参考图2，

在框210，

在一些实施例中，对正畸前微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸前人脸图像。

根据本公开的实施例，将正畸前微笑露齿正面人脸图像进行对齐后，使得人脸关键点位置对齐到一个标准的位置。这样可以减小后续任务中的变化和干扰，提高任务的准确性和鲁棒性。

在框220，

在一些实施例中，对正畸前牙齿图像进行牙齿对齐，获得对齐后正畸前牙齿图像。

根据本公开的实施例，将正畸前牙齿图像进行对齐后，使得牙齿关键点位置对齐到一个标准的位置。这样可以减小后续任务中的变化和干扰，提高任务的准确性和鲁棒性。

在框230，

在一些实施例中，将所述对齐后正畸前人脸图像与对应的对齐后牙齿图像进行合成操作，生成人脸牙齿拼接图像，作为输入数据集。

根据本公开的实施例，合成操作首先将对齐后正畸前牙齿图像进行剪裁，只保留牙齿区域，然后调整大小，确保和人脸中牙齿部分的区域大小基本一致。将对齐后正畸前人脸图像与对应的对齐后牙齿图像进行拼接可以提供更加丰富的信息，有助于提高后续任务的准确性和鲁棒性。例如，在进行微笑预测时，牙齿的形态和颜色等信息可以提供额外的特征，有助于更加丰富的体现正畸效果。

在框240，

在一些实施例中，对正畸后微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸后人脸图像，作为目标数据集。

根据本公开的实施例，同样的将正畸后微笑露齿正面人脸图像进行对齐后，使得人脸关键点位置对齐到一个标准的位置。这样可以减小后续任务中的变化和干扰，提高任务的准确性和鲁棒性。

在框250，

在一些实施例中，利用所述输入数据集和目标数据集对生成式对抗网络模型进行训练，获得训练后的生成式对抗网络模型的生成网络。

根据本公开的实施例，生成式对抗网络模型是一种生成式模型，其主要作用是生成与输入数据相似的新数据。生成式对抗网络模型包括两个神经网络，一个生成器和一个判别器。生成器的任务是生成与输入数据相似的新数据，而判别器的任务是判断输入数据是真实的数据还是生成器生成的数据。通过不断训练生成器和判别器，生成式对抗网络模型可以生成高质量的新数据。

在框260，

在一些实施例中，将所述训练后的生成式对抗网络模型的生成网络作为牙齿正畸后预测照片生成模型。

根据本公开的实施例，生成式对抗网络模型有很强的泛化能力。生成式对抗网络模型的生成网络可以生成高质量的牙齿正畸后预测照片。

图3是根据本公开的实施例的生成牙齿正畸后预测照片的流程。

参考图3，

在框310，

在一些实施例中，对待预测微笑露齿正面人脸图像进行人脸对齐，获得对齐后待预测人脸图像。

根据本公开的实施例，待预测微笑露齿正面人脸图像一般情况下是用户自己采集的。因此可能存在图像角度不同等问题。将待预测微笑露齿正面人脸图像进行对齐后，使得人脸关键点位置对齐到一个标准的位置。这样可以减小后续任务中的变化和干扰，提高任务的准确性和鲁棒性。

在框320，

在一些实施例中，对待预测牙齿图像进行牙齿对齐，获得对齐后待预测牙齿图像；

根据本公开的实施例，同样的，待预测牙齿图像一般情况下是用户自己采集的。因此可能存在图像角度不同等问题。将待预测牙齿图像进行对齐后，使得牙齿关键点位置对齐到一个标准的位置。这样可以减小后续任务中的变化和干扰，提高任务的准确性和鲁棒性。

在框330，

在一些实施例中，将所述对齐后待预测人脸图像与对应的对齐后待预测牙齿图像进行合成操作，生成待预测人脸牙齿拼接图像；

根据本公开的实施例，合成操作首先将对齐后待预测牙齿图像进行剪裁，只保留牙齿区域，然后调整大小，确保和人脸中牙齿部分的区域大小基本一致。因为在模型训练过程中采用了人脸牙齿拼接图像，因此获取对齐后待预测人脸图像与对应的对齐后牙齿图像也进行拼接成为标准的模型输入。

在框340，

在一些实施例中，将所述对齐后待预测人脸牙齿拼接图像输入完成训练的牙齿正畸后预测照片生成模型，得到对应的正畸后微笑露齿正面图像。

根据本公开的实施例，正畸后微笑露齿正面图像输入到分辨率优化模型，生成高分辨率图片，存入数据库。应用可以从数据库提取高分辨率图片并展示给用户。初步接触到正畸治疗和/或正准备接受正畸治疗的人们，无需到访医疗机构，就能够借助手机或电脑应用方便的自动生成预测的正畸后露齿微笑照片。正畸后微笑露齿正面图像也能够帮助牙齿医生，帮助病人直观的了解牙齿正畸效果。

图4是根据本公开的实施例的人脸对齐的流程。

人脸对齐是对原始人脸图像进行变换，按照人的眼睛嘴巴为中心显示人脸图像。人脸对齐可以减少的背景信息对不同人脸分析的影响。通过人脸对齐，可以定位人脸的每个部件，提取相应的部件特征。图4是人脸对齐的主要流程，

在框410，

在一些实施例中，对人脸图像进行特征提取和关键点定位。

根据本公开的实施例，特征提取是用来支持算法识别人脸的关键部位的。人脸图像的特征提取通常包括Haar特征、HOG特征和CNN特征等方法。

根据本公开的实施例，人脸关键点定位的目的是支持计算放射变换矩阵。人脸关键点定位是在人脸区域图像中检测出关键点的位置，如鼻子、眼睛、嘴巴等。这些关键点的位置通常是预先定义好的，可以用于人脸特征提取和后续对齐任务的支持。目前，常用的人脸关键点检测算法主要是68点关键点检测算法。除了68点关键点检测算法外，还有其他类型的关键点检测算法，如5点关键点检测、81点关键点检测等。5点关键点检测算法是指只检测眼睛、鼻子和嘴巴的位置。68点关键点检测算法是通过检测人脸图像中的68个特定关键点位置，如眼睛、鼻子、嘴巴等，来获取人脸的特征。而81点关键点检测算法则是指在68点关键点的基础上，增加了额头、下巴和颧骨等位置的检测，从而使得人脸特征更加全面和准确。人脸关键点检测模型一般是深度学习模型，如基于卷积神经网络(CNN)的模型。CNN的算法是目前最为流行的人脸关键点检测算法，如Hourglass网络、ResNet网络、MobileNet网络等都是比较常用的CNN网络结构。具体构建模型的过程需要考虑到网络的深度、宽度、卷积核大小、激活函数等因素。目前人脸关键点检测有公开数据集和公开模型，例如Dlib。Dlib视觉计算库中提供了人脸对齐算法。利用公开人脸特征点数据集上训练得出的68个特征点模型及GBDT算法应用在人脸关键点定位上。Dlib将人脸关键点分为内部关键点和轮廓关键点，内部关键点包含眉毛、眼睛、鼻子、嘴巴共计51个关键点，轮廓关键点包含17个关键点。68点关键点检测算法还包括形态学操作、滤波器等技术来去除一些噪声点。

根据本公开的实施例，关键点定位是为了支持计算仿射变换矩阵。关键点定位一般使用像素坐标系。每个关键点都可以用一个二元组表示，包含横坐标和纵坐标值。这个坐标系通常是相对于图像的左上角而言的，也就是说图像的左上角为原点，向右为x轴正方向，向下为y轴正方向。因此，通过这个坐标系可以对关键点在图像中的位置进行准确的定位。通过关键点检测，获取人脸关键点位置坐标。

在框420，

在一些实施例中，计算仿射变换矩阵。

根据本公开的实施例，计算仿射变换矩阵的目的是支持仿射变换。获取了关键点位置坐标后，再获取一个仿射变换矩阵就可以利用仿射变换进行人脸对齐。在计算仿射变换矩阵时，需要提供至少三个点的坐标，例如左眼、右眼和鼻尖等位置。每个关键点都有图像里面的位置和位置坐标，同时也有固定位置和固定位置坐标。所谓固定位置就是标准位置。这些标准位置通常是预先定义的。关键点的预先定义也可以根据人脸特征的不同来进行调整。基于两种坐标，使用线性代数中的矩阵变换来计算仿射变换矩阵，也可以使用一些现有的仿射变换库如OpenCV等来实现。

在框430，

在一些实施例中，将整张人脸图像进行仿射变换。

根据本公开的实施例，对原人脸图像上每一像素点的坐标，利用仿射变换矩阵，变换位置，并生成新图像；遍历原图像全部像素后，对新图像上没有值的像素，用插值方法获得这些像素的图像值，完成人脸对齐，获得新图像。新图像里面人脸关键点位置对齐到固定位置所代表的标准位置，有助于提高后续任务的准确性和鲁棒性。

图5是根据本公开的实施例的牙齿关键点定位模型的训练流程。

牙齿关键点定位是牙齿对齐的必要步骤，是从牙齿图像数据中提取出关键点，例如牙齿中心点、齿尖、齿颈等。基于关键点，后续操作才可以实施，例如对牙齿进行分割，配准，和精确对齐。和人脸关键点定位不同的是，牙齿关键点定位的现有模型较为稀少。本实施例介绍一个采用MTCNN模型联合DSNT关键点回归网络定位牙齿关键点的模型的训练流程。

参考图5，

在框510，

在一些实施例中，获取正畸前牙齿图像和正畸后牙齿图像，并标注牙齿图像。

根据本公开的实施例，获取牙齿图像的目的是为了提取丰富的牙齿特征。因此需要采集丰富的牙齿图像。例如正畸前牙齿图像和正畸后牙齿图像，可以包括咬合状态左侧、右侧、前面的牙齿照片和张口状态上牙列、下牙列照片。标注的目的是为了定位牙齿区域和关键点。因此需要对这些图片进行边界区域和关键点标注。边界区域即可作为实际框。

在框520，

在一些实施例中，获取一个MTCNN模型。

根据本公开的实施例，MTCNN模型的目的是定位一张图像中的牙齿区域。MTCNN(Multi-task convolutional neural network，多任务卷积神经网络)网络是一种人脸检测网络，也可以用于牙齿检测。MTCNN的特点是具有很强的适应性和鲁棒性。MTCNN总体可分为P-Net、R-Net、和O-Net三层网络结构。PNet全称为Proposal Network，其基本的构造是一个全卷积网络，P-Net是一个关键区域的区域建议网络，该网络的将特征输入结果三个卷积层之后，通过一个分类器判断该区域是否是关键区域，同时使用边框回归。R-Net全称为Refine Network，其基本的构造是一个卷积神经网络，相对于第一层的P-Net来说，增加了一个全连接层，因此对于输入数据的筛选会更加严格。在图片经过P-Net后，会留下许多预测窗口，然后将所有的预测窗口送入R-Net，这个网络会滤除大量效果比较差的候选框，最后对选定的候选框进行Bounding-Box Regression和NMS进一步优化预测结果。ONet全称为Output Network，基本结构是一个较为复杂的卷积神经网络，相对于R-Net来说多了一个卷积层。O-Net的效果与R-Net的区别在于这一层结构会通过更多的监督来识别关键区域。

在框530，

在一些实施例中，训练MTCNN模型。

在一些实施例中，首先定义优化器和损失函数。将牙齿图片输入MTCNN模型的PNet网络并生成大量候选框。然后计算候选框和实际框的IOU值，并计算回归框偏移量，将图片信息，标签信息和回归框信息输入RNet网络，获得候选框的置信度和回归系数，筛选和精修候选框，通过RNet过滤掉部分候选框，输出余下候选框，通过ONet输出最终候选框和标志区域坐标；最终候选框内就是可能存在牙齿的区域。保存训练好的MTCNN模型。

根据本公开的实施例，MTCNN网络是采用金字塔结构来处理不同尺度的图像，从而可以检测到不同大小的牙齿。用户采集的图像往往存在治采集不规范的问题。这种金字塔结构可以有效地提高检测的准确性和召回率。

在框540，

在一些实施例中，获取并训练DSNT模型。

根据本公开的实施例，获取DSNT的目的是对可能存在牙齿的区域进行关键点检测。具体说来，就是将最终候选框内的区域以及标注的位置标注，输入DSNT网络，进行模型训练。DSNT网络是一种常用于关键点检测的神经网络，可以用于牙齿关键点检测。它主要思路是将关键点检测任务转化为回归问题，并通过训练网络来直接输出关键点的坐标位置。通常采用类似于回归器的结构，通过训练网络，直接输出关键点的坐标位置。在关键点回归的过程中，使用一些特殊的损失函数，例如L1、L2、Smooth L1等，以优化网络的训练效果。

图6是根据本公开的实施例的牙齿对齐的流程。

牙齿对齐是从牙齿图像数据中提取出关键点，例如牙齿中心点、齿尖、齿颈等，然后对牙齿进行分割，配准，和精确对齐。牙齿对齐是为了支持牙齿建模等操作。图6是牙齿对齐的主要流程，

在框610，

在一些实施例中，采集的牙齿照片输入训练好的MTCNN模型，输出最终候选框，锁定可能存在牙齿的区域，然后将这些区域输入DSNT模型，直接输出关键点的位置坐标。

根据本公开的实施例，输出关键点的位置坐标是为了支持后续的对齐步骤，如仿射变换。

在框620，

在一些实施例中，计算仿射变换矩阵。

根据本公开的实施例，计算仿射变换矩阵的目的是支持仿射变换。获取了关键点位置坐标后，再获取一个仿射变换矩阵就可以利用仿射变换进行牙齿对齐。在计算仿射变换矩阵时，需要提供至少三个点的坐标，例如牙齿中心点、齿尖、齿颈等位置。每个关键点都有图像里面的位置和位置坐标，同时也有固定位置和固定位置坐标。所谓固定位置就是标准位置。这些标准位置通常是预先定义的。基于两种坐标，使用线性代数中的矩阵变换来计算仿射变换矩阵，也可以使用一些现有的仿射变换库如OpenCV等来实现。

在框630，

在一些实施例中，将整张牙齿图像进行仿射变换。

根据本公开的实施例，对原牙齿图像上每一像素点的坐标，利用仿射变换矩阵，变换位置，并生成新图像；遍历原图像全部像素后，对新图像上没有值的像素，用插值方法获得这些像素的图像值，完成牙齿对齐，获得新图像。新图像里面牙齿关键点位置对齐到固定位置所代表的标准位置，有助于提高后续任务的准确性和鲁棒性。除了放射变换，还有最小二乘法等算法支持牙齿对齐操作。

图7是根据本公开的实施例的牙齿正畸后预测照片生成模型的网络结构。

参考图7，

本实施例是利用pix2pix网络来训练牙齿正畸后预测照片生成模型。pix2pix网络的网络结构基于生成对抗网络(GAN)。pix2pix网络的网络结构主要包括生成器和判别器。生成器的目标是生成假样本，而判别器的目标是区分真实样本和生成的假样本。在训练过程中，生成器不断提高假样本的质量，而判别器尝试区分真实样本和生成的假样本来保持其准确性。最终，生成器能够生成与真实样本非常相似的样本。在pix2pix网络中，编码器和解码器通常采用卷积神经网络(CNN)结构，并且可以采用类似于UNet的跨层连接结构，以加强特征传递和保留。

牙齿正畸后预测照片生成模型是pix2pix网络里面的生成模型。本实施例的生成模型结构如图4所示，是在UNet模型的基础上添加了CBAM网络组成的。UNet模型是一种卷积神经网络，由编码器和解码器组成。编码器由多个卷积层组成，可以将输入图像逐步缩小，并提取出图像的特征。解码器由多个上采样层和卷积层组成，可以将编码器生成的特征图逐步还原到原始图像大小，并生成分割结果。相比于传统的CNN模型，UNet模型具有更强的图像分割能力，可以处理多尺度、多分辨率的图像。在GAN网络中，UNet网络作为生成模型的网络结构，可以有效地处理输入和输出之间的关系，从而生成逼真的图像。通过将CBAM网络加入到UNet模型中，可以进一步提高其性能和鲁棒性。CBAM(Convolutional BlockAttention Module)是一种用于图像分类和目标检测的注意机制网络，可以学习图像中的空间和通道特征，增强网络的表达能力和泛化能力。在本实施例中，将CBAM网络集成到UNet模型中，具体来说就是将四个CBAM模块添加到卷积层。编码器中的CBAM模块可以学习空间和通道注意权重，自适应调整特征映射的重要性，以改善特征提取。在模型训练的过程中，需要在交叉熵损失函数的基础上添加感知损失函数，通过联合训练交叉熵损失函数和感知损失函数来提高UNet-CBAM模型的性能。在本实施例中，pix2pix网络的判别器结构和生成器结构一致，可以区分真实图像和生成的假图像。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图8示出了根据本公开的实施例的一种牙齿正畸后预测照片生成模型的训练装置800的框图。装置800可以被包括在图1的123,124,125中。如图8所示，装置800包括：

正畸前人脸对齐模块801，用于对正畸前微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸前人脸图像；牙齿对齐模块802，用于对正畸前牙齿图像进行牙齿对齐，获得对齐后正畸前牙齿图像；拼接模块803，用于将所述对齐后正畸前人脸图像与对应的对齐后牙齿图像进行合成操作，生成人脸牙齿拼接图像，作为输入数据集；正畸后人脸对齐模块804，用于对正畸后微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸后人脸图像，作为目标数据集；模型训练模块805，用于利用所述输入数据集和目标数据集对生成式对抗网络模型进行训练，获得训练后的生成式对抗网络模型的生成网络；模型存储模块806，用于将所述训练后的生成式对抗网络模型的生成网络作为牙齿正畸后预测照片生成模型。

图9示出了根据本公开的实施例的一种生成牙齿正畸后预测照片的装置900的框图。装置900可以被包括在图1的123,124,126中。如图9所示，装置900包括：

人脸对齐模块901，用于对待预测微笑露齿正面人脸图像进行人脸对齐，获得对齐后待预测人脸图像；牙齿对齐模块902，用于对待预测牙齿图像进行牙齿对齐，获得对齐后待预测牙齿图像；拼接模块903，用于将所述对齐后待预测人脸图像与对应的对齐后待预测牙齿图像进行合成操作，生成待预测人脸牙齿拼接图像；预测模块904，用于将所述对齐后待预测人脸牙齿拼接图像输入完成训练的牙齿正畸后预测照片生成模型，得到对应的正畸后微笑露齿正面图像。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

电子设备1000包括计算单元1001，其可以根据存储在ROM1002中的计算机程序或者从存储单元1008加载到RAM1003中的计算机程序，来执行各种适当的动作和处理。在RAM1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM1002以及RAM1003通过总线1004彼此相连。I/O接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如一种生成牙齿正畸后预测照片的方法。例如，在一些实施例中，生成牙齿正畸后预测照片的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的一种生成牙齿正畸后预测照片的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行一种生成牙齿正畸后预测照片的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种牙齿正畸后预测照片生成模型的训练方法，其特征在于，包括：

对正畸前微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸前人脸图像；

对正畸前牙齿图像进行牙齿对齐，获得对齐后正畸前牙齿图像；

将所述对齐后正畸前人脸图像与对应的对齐后正畸前牙齿图像进行合成操作，生成人脸牙齿拼接图像，作为输入数据集；

对正畸后微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸后人脸图像，作为目标数据集；

利用所述输入数据集和目标数据集对生成式对抗网络模型进行训练，获得训练后的生成式对抗网络模型的生成网络；

将所述训练后的生成式对抗网络模型的生成网络作为牙齿正畸后预测照片生成模型。

2.根据权利要求1所述的方法，其特征在于，所述正畸前牙齿图像，包括咬合状态露齿多角度牙齿图像和张口状态上牙列、下牙列图像。

3.根据权利要求1所述的方法，其特征在于，所述人脸对齐包括：对正畸前微笑露齿正面人脸图像进行人脸检测；将检测到的人脸进行剪裁，获取人脸区域图像；利用人脸关键点定位模型识别出人脸区域的关键点；利用关键点，对人脸区域图像进行姿态校正和对齐。

4.根据权利要求1所述的方法，其特征在于，所述牙齿对齐包括：对正畸前牙齿图像进行关键点定位；利用关键点信息对正畸前牙齿图像进行姿态矫正和对齐。

5.根据权利要求1所述的方法，其特征在于，所述生成式对抗网络为pix2pix网络，在所述pix2pix网络的生成器和辨别器分别添加有注意力网络。

6.一种牙齿正畸后微笑预测照片的生成方法，其特征在于，包括：

对待预测微笑露齿正面人脸图像进行人脸对齐，获得对齐后待预测人脸图像；

对待预测牙齿图像进行牙齿对齐，获得对齐后待预测牙齿图像；

将所述对齐后待预测人脸图像与对应的对齐后待预测牙齿图像进行合成操作，生成待预测人脸牙齿拼接图像；

将所述对齐后待预测人脸牙齿拼接图像输入如权利要求1-5所述的牙齿正畸后预测照片生成模型，得到对应的正畸后微笑露齿正面图像。

7.一种牙齿正畸后预测照片生成模型的训练装置，包括：

正畸前人脸对齐模块，用于对正畸前微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸前人脸图像；牙齿对齐模块，用于对正畸前牙齿图像进行牙齿对齐，获得对齐后正畸前牙齿图像；拼接模块，用于将所述对齐后正畸前人脸图像与对应的对齐后牙齿图像进行合成操作，生成人脸牙齿拼接图像，作为输入数据集；正畸后人脸对齐模块，用于对正畸后微笑露齿正面人脸图像进行人脸对齐，获得对齐后正畸后人脸图像，作为目标数据集；模型训练模块，用于利用所述输入数据集和目标数据集对生成式对抗网络模型进行训练，获得训练后的生成式对抗网络模型的生成网络；模型存储模块，用于将所述训练后的生成式对抗网络模型的生成网络作为牙齿正畸后预测照片生成模型。

8.一种生成牙齿正畸后预测照片的装置，包括：

人脸对齐模块，用于对待预测微笑露齿正面人脸图像进行人脸对齐，获得对齐后待预测人脸图像；牙齿对齐模块，用于对待预测牙齿图像进行牙齿对齐，获得对齐后待预测牙齿图像；拼接模块，用于将所述对齐后待预测人脸图像与对应的对齐后待预测牙齿图像进行合成操作，生成待预测人脸牙齿拼接图像；预测模块，用于将所述对齐后待预测人脸牙齿拼接图像输入如权利要求1-5所述的牙齿正畸后预测照片生成模型，得到对应的正畸后微笑露齿正面图像。

9.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一权利要求所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至6中任一权利要求所述的方法。