CN112700430A

CN112700430A - 一种基于深度学习的正畸影像图片智能识别方法

Info

Publication number: CN112700430A
Application number: CN202110030618.2A
Authority: CN
Inventors: 李亚龙; 李美杰; 李鹏程
Original assignee: Chongqing Maiqi Medical Technology Co ltd
Current assignee: Chongqing Maiqi Medical Technology Co ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-04-23

Abstract

本发明属于图像识别技术领域，具体来说是涉及一种基于深度学习的正畸影像图片智能识别方法。本发明针对正畸图片的特点，设计了多任务检测网络。首先，将图片分类问题转为检测问题，检测到的目标包围框，可用于解决拍摄时目标不够居于中心，大小不合适，且可能具有较大面积的背景的问题。其次新增了识别图片中目标存在的旋转和镜像状态的任务，用于修正常见于正畸图片中目标姿态不合适的问题。本发明有效提高了识别效率，可以极大减弱正畸图片这类医疗数据缺少的问题。

Description

一种基于深度学习的正畸影像图片智能识别方法

技术领域

本发明属于图像识别技术领域，具体来说是涉及一种基于深度学习的正畸影像图片智能识别方法。

背景技术

目前正畸图片的处理进入了数字化发展阶段，通过采集病人多模态多类别的全方位数据用于诊断。其中图片数据一般包含外貌照3张(微笑照、正面照、侧面照)，口内照5张(上颌、下颌、正面、左侧和右侧)，侧位片和全景片共10类。实际情况中某些病例可能包含有局部牙片、正位片以及更多其他不同侧身角度的侧貌照等。在实际处理中，采集的数据需要进行有效录入，管理和使用。然而图片多而杂，传统的需要用户手动选择图片并上传或归类的系统，费时费力。根据目前的深度学习技术，可以结合使用深度学习的图像分类和检测等技术的系统，将会提供更智能简化的解决方案。

然而正畸影像图片具有医疗数据少，子类多，有重复，目标拍摄对象姿态不好等特点，对识别的方法提出了挑战。主要包括的问题包括：医疗数据的稀缺性，难以获得大量的正畸图片数据训练网络；包含多个模态的数据，且外貌照和口内照有多个子类，子类间差异比较小，识别较为困难；在拍摄时，为了拍到合适的照片，会多次拍摄，存在一些重复的图片；外貌照和口内照由人为拍摄，目标可能并不居中有较多背景，以及存在目标姿态有旋转或镜像。

而目前对于这些问题相关的解决方法较少，并且还存在以下不足：没有系统的去分析正畸图片中存在的相关问题，并提出较为全面的解决方案；没有处理拍照时出现的旋转，镜像和目标偏离中心问题；没有考虑支持后续图片去重的问题；医疗类的正畸影像图片少，直接在数据集上训练的网络识别率低；正畸影像图片外貌类的子类多，类别间差异小，图片容易误判。

发明内容

本发明的目的，是为克服上述现有技术所述的至少一种缺陷(不足)，提供一种基于深度学习的正畸影像图片智能识别方法。该方法可以直接预测图片中的目标物体类别，及其旋转和镜像状态信息，在正畸影像数据集小时，仍然有很高的准确率。

本发明的技术方案是：一种基于深度学习的正畸影像图片智能识别方法，包括以下步骤：

S1、构建多任务检测网络，所述多任务检测网络包括用于特征提取的基础网络和用于估计旋转和镜像的检测头网络；

S2、采用coco检测数据集，通过增强生成旋转和镜像标签后，对步骤S1构建的多任务网络进行预训练；

S3、采集正畸影像图片，通过增强生成具有旋转和镜像标签的增强正畸影像图片训练集，利用增强正畸影像图片训练集，对预训练后的网络以迁移学习的方式调优训练，获得训练好的多任务检测网络；

S4、将待识别的正畸影像图片输入训练好的多任务检测网络进行识别。

进一步的，所述基础网络为unet网络，包括多个层次的encoder和decoder，每层的encoder包括卷积层和最大池化层，decoder包括卷积层和置换卷积层，相同层次的encoder和decoder之间有跳跃连接，unet网络的输入图片和输出图片分辨率相同；

所述多任务检测网络为基于keypoints类的检测网络，包括用于检测目标中心的关键点网络层，检测目标宽高的回归层，是否存在镜像的罗杰斯特回归层，估计旋转类别的分类层；其中旋转类别分为0度、90度、180度和270度四类；对应的损失函数为：预测关键点位置时，使用高斯热力图，并使用应用了Focal loss的像素级罗杰斯特回归作为损失函数，回归目标宽高的L1损失函数，是否镜像的罗杰斯特回归损失函数，旋转分类的多类别交叉熵损失函数。

本发明的有益效果是，相对于现有技术本发明针对正畸图片的特点，设计了多任务检测网络。首先，将图片分类问题转为检测问题，检测到的目标包围框，可用于解决拍摄时目标不够居于中心，大小不合适，且可能具有较大面积的背景的问题。其次新增了识别图片中目标存在的旋转和镜像状态的任务，用于修正常见于正畸图片中目标姿态不合适的问题。增强了公开检测数据集对网络进行预训练，可以极大减弱正畸图片这类医疗数据缺少的问题。使用FocalLoss训练，解决某些类别图片少，以及外貌类图片子类多，差异小，难分辨的问题。输出图片的概率分布，而非直接某种类别，可以支持后续对同类图片按概率进行排序择优，或者混合用户操作进行调整和选择。

附图说明

图1是本发明的识别方法流程图；

图2是本发明的多任务检测网络示意图。

具体实施方式

下面结合附图，详细描述本发明的技术方案：

如图1所示，本发明主要包括：

(1)构建一个多任务检测网络，包含一个具有抽取特征的基础(backbone)网络，和能估计旋转和镜像的检测头网络(head)。

(2)准备较大的检测数据集，例如coco检测数据集，并增强该数据集生成旋转和镜像标签，使用该增强后的检测数据集预训练网络。

(3)准备正畸影像图片数据集，并增强该数据集生成旋转和镜像标签，使用该增强的正畸图片数据集在与预训练后的检测网络上，以迁移学习的方式调优训练。在训练时加入FocalLoss方式的损失函数进行优化。

(4)给定查询图片，通过训练好的网络检测图中存在的对象，实现识别的目的。

本发明具体构建的网络结构为：

如图2所示，网络包含抽取特征的基础网络backbone和多任务检测网络head。其中backbone可以是unet网络(或FPN等网络)。unet包含多个层次的encoder和decoder部分，encoder每个层次包含卷积层和最大池化层，decoder部分包含卷积层和置换卷积层(由于池化层减小了空间分辨率，置换卷积层用于提高空间分辨率)，decoder层次数目跟encoder一样，最终输出层的空间分辨率跟输入图片分辨率一样大小。另外unet结构的encoder和decoder每个对应的层次间有跳跃连接。

其中多任务检测网络head基于keypoints类型的检测网络修改而来(参见论文：objects as points)，包括用于检测目标中心的关键点网络层，检测目标宽高的回归层，是否存在镜像的罗杰斯特回归层，和估计旋转类别的分类层，其中旋转离散成了0度、90度、180度和270度四类。网络在每个空间位置共输出C+7(C为物体类别数量，7为宽高2、旋转4和镜像1)。所有的输出共享同一个抽取特征的基础网络，对于每一个输出模态，都是在基础网络后接了个3x3卷积层，ReLU层和1x1卷积层。由于backbone的输出层的分辨率跟输入图片一样，本方法这里不需要特别估计局部偏移。

损失函数包括(1)预测关键点位置时，使用高斯热力图，并使用应用了Focal loss的像素级罗杰斯特回归作为损失函数，(2)回归目标宽高的L1损失函数，(3)是否镜像的罗杰斯特回归损失函数以及(4)旋转分类的多类别交叉熵损失函数。

所有训练使用Adam优化器进行优化。

在本发明中，可采用增强coco检测数据集用于预训练检测网络。由于基本的检测数据集没有镜像和旋转标签，因此在训练时动态生成每张图片的镜像与旋转标签。具体的，对每张图片，随机选择是否应用镜像，随机应用一种旋转类别进行增强。将增强后的图片作为输入，将用于增强的镜像状态和旋转类别作为标签。其中，单张图片中的所有目标具有共同的镜像状态和旋转类别，并且默认初始图片无镜像以及旋转为0度。特别的，旋转90度和270度时，需要交换目标框的宽高标签。

准备正畸图片数据集：采集1000个病人的正畸影像图片，主要包括基本的微笑照、正貌照、侧貌照、口内上颌、口内下颌、口内正面、口内左侧、口内右侧、侧位片和全景片等10类照片。然后将多余的其他类型的正畸图片，例如侧貌45度照、正位片等以及从coco数据集中采样一些其他自然图片作为其他类别，共11类。同时标记外貌照(微笑照、正貌照、侧貌照)的人头部作为目标框，标记口内照口腔内部处作为目标框，标记侧位片和全景片以及正位片的整个目标区域作为目标框(例如图片中含有一些人为的其他背景，则需标注片子的前景区域；无明显背景时，则目标框跟图像一样大)。同时，类似增强coco检测数据集的方式，在训练时，即时生成图片的镜像和旋转标签。

本发明中训练过程包括预训练和迁移学习：首先使用coco增强数据集训练多任务检测网络，训练完成后，将预测的类别的网络的输出层数从coco的80层修改为正畸图片的11层，并随机初始化参数，而基础网络和其他任务的层的参数复用预训练网络的参数，继续微调训练。

对于待识别图片的识别：将待识别的正畸图片输入给训练完成的网络，在关键点输出层(对应于多个类别的多通道热力图)，对每一个类别通道求softmax，将热力图转为概率图，并提取每个通道概率最大的位置和值，得到属于每个类别的概率。同时，从类别概率中的最大概率对应的通道类别c和空间位置处(center_x,center_y)，从其他相应输出层提取物体宽高(width,height)。图片目标的位置则为(center_x-width/2,center_y-height/2,center_x+width/2,center_y+height/2)。比较镜像的输出值，如果值大于0.5则存在镜像，如果小于0.5则不存在镜像。同时从旋转分类层的输出获取旋转的类别信息。即在本发明的识别方法中，可以将检测到的具有最高概率的对象作为该图片的目标类别，并记录其类别概率分布、检测候选框和镜像旋转状态。

Claims

1.一种基于深度学习的正畸影像图片智能识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的正畸影像图片智能识别方法，其特征在于，所述基础网络为unet网络，包括多个层次的encoder和decoder，每层的encoder包括卷积层和最大池化层，decoder包括卷积层和置换卷积层，相同层次的encoder和decoder之间有跳跃连接，unet网络的输入图片和输出图片分辨率相同；

所述多任务检测网络为基于keypoints类的检测网络，包括用于检测目标中心的关键点网络层，检测目标宽高的回归层，是否存在镜像的罗杰斯特回归层，估计旋转类别的分类层；其中旋转类别分为0度、90度、180度和270度四类；对应的损失函数为：预测关键点位置时，使用高斯热力图，并使用应用了Focalloss的像素级罗杰斯特回归作为损失函数，回归目标宽高的L1损失函数，是否镜像的罗杰斯特回归损失函数，旋转分类的多类别交叉熵损失函数。