CN114359090A

CN114359090A - 一种口腔ct影像的数据增强方法

Info

Publication number: CN114359090A
Application number: CN202111644473.1A
Authority: CN
Inventors: 黄凯; 李浩鹏; 陈泽涛; 宋日辉; 曾培生; 刘海雯
Original assignee: ORAL SUBSIDIARY SUN YAT-SEN UNIVERSITY HOSPITAL; Sun Yat Sen University
Current assignee: ORAL SUBSIDIARY SUN YAT-SEN UNIVERSITY HOSPITAL; Sun Yat Sen University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-15

Abstract

本发明涉及医学图像处理技术领域，更具体地，涉及一种口腔CT影像的数据增强方法；包括：S1.基于生成对抗网络对数据进行增强：向生成对抗网络中输入原始口腔CT影像数据，通过生成对抗网络对原始口腔CT影像数据进行训练，得到一个口腔CT影像数据生成模型；S2.采用生成对抗网络空间的可解释控制发现算法获取特征控制向量：使用生成对抗网络空间算法对步骤S1得到的口腔CT影像数据生成模型潜空间在欧氏空间下进行主成分分析，无监督地识别潜在特征控制向量，并对潜在特征控制向量进行人工筛选保存；S3.采用特征控制向量定向生成口腔CT影像。本发明能够在原始数据量较少的情况下生成高分辨率的口腔CT影像，以辅助口腔CT影像实现大数据智能分析。

Description

一种口腔CT影像的数据增强方法

技术领域

本发明涉及医学图像处理技术领域，更具体地，涉及一种口腔CT影像的数据增强方法。

背景技术

完成口腔CT影像的大数据智能分析，需要收集大量的口腔CT影像，经过专业人员对数据进行标注，构建口腔CT影像数据集，基于这个数据集进行后续的智能分析。数据集的采集和标注费时费力，更重要的是，由于不同疾病的发病率不一样，常见疾病的样本数量与罕见疾病的差距很大，导致数据集出现类别不平衡的问题。

现有技术中，一些处理方法是依靠待分类图像与各类别原型图像间欧氏距离来判断待分类图像的类别，但是该方法不适用于口腔CT影像数据，因为口腔CT影像数据集不同类别影像之间的差异在很多情况下仅在较小的一块区域体现，依照该方法获得的各个类别的原型图像之间差异不大；一些处理方法是将生成对抗网络WGAN应用于甲状腺超声数据ROI区域数据集中，实现了对良性与恶性甲状腺超声数据ROI区域数据集的扩充，并在增强后的数据集和原始数据集上对比了VGG-16网络的性能，证明了该数据增强方法的可行性，但是无法定向生成原始数据集指定类别的图像数据，因为它缺乏控制图像生成类别的模块，由生成对抗网络随机生成的图像需要额外的人工分类标注，才可实现数据增强，医学图像的标注需由如医生的专业人员来完成，在类别数较多的时候需要耗费大量的时间，并且该方法所需要的原始数据量较多，且要求原始训练集各类别样本分布较为均匀，当原始数据量较少，原始数据集存在着严重类别不平衡的情况时，该方法不一定能够胜任，同时该方法无法生成如512*512 的较高分辨率的高质量图像，在对医学图像数据质量要求较高、数据集细节较为丰富的医学图像分类任务中表现不佳。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种口腔CT影像的数据增强方法，能够在原始数据量较少的情况下生成高分辨率的口腔CT影像，以辅助口腔CT影像实现大数据智能分析。

为解决上述技术问题，本发明采用的技术方案是：一种口腔CT影像的数据增强方法，包括以下步骤：

S1.基于生成对抗网络对数据进行增强：向生成对抗网络中输入原始口腔 CT影像数据，通过生成对抗网络对原始口腔CT影像数据进行训练，得到一个口腔CT影像数据生成模型；

S2.采用生成对抗网络空间的可解释控制发现算法获取特征控制向量：使用生成对抗网络空间算法对步骤S1得到的口腔CT影像数据生成模型潜空间在欧氏空间下进行主成分分析，无监督地识别潜在特征控制向量，并对潜在特征控制向量进行人工筛选保存；

S3.采用特征控制向量定向生成口腔CT影像。

进一步的，所述的生成对抗网络包括第一生成器、第二生成器、判别器和映射网络；所述的第一生成器，将原始口腔CT影像分割成N×N个单元，并设计一个目标函数，对口腔CT影像上的ROI区域的矩形标注进行训练，得到口腔CT影像上颌窦ROI区域目标识别模型，用于输出口腔CT影像上颌窦ROI 区域坐标；所述的第二生成器与映射网络相互配合，映射网络对潜空间进行解耦，由隐藏变量z生成中间隐藏变量w，将变量w转换而来的仿射变换和随机噪声加入到第二生成器的每一层中，达到对生成图像各个尺度特征进行控制的目的，实现可控制的图像生成；所述的判别器接受来自第一生成器的坐标信息以及来自第二生成器所生成的假图像信息的输入，对第二生成器生成的图像真假进行判断。

进一步的，所述的步骤S1具体包括：

S11.向生成对抗网络中输入原始口腔CT影像，原始口腔CT影像中一部分带有对上颌窦ROI区域的矩形标注，另一部分没有；通过第一生成器的处理后，未经标注的口腔CT影像得到一个以上颌窦ROI区域为中心的、尺寸相同的矩形标注；

S12.映射网络将隐藏变量z经过归一化处理后，通过多层全连接层，得到中间隐藏变量w，并配合随机噪声，作为第二生成器的初始及各个卷积层的输入，输入过程采用AdaIN算法，生成可控制的图像；

S13.第一生成器和第二生成器的输出共同作为判别器的输入，判别输入的图片是真实的还是虚假的。

其中，AdaIN是一个现成的算法，自适应实例归一化是对它的直译，它是一种风格迁移的算法，输入一个样式图和一个内容图，即可以将样式图的一些特征迁移到内容图上。IN是机器学习中的术语，即实例归一化，作用是对单个图片的所有像素求均值和标准差。Ada是adaptive的缩写，自适应，顾名思义就是自适应地进行IN的调整。

进一步的，所述的第一生成器的目标函数为：

第一生成器的输出为一个1×5的向量，即预测的

式中，当网格中存在目标时p_ij为1，q_ij为0，网格中不存在目标时p_ij为0，q_ij为1；x_i与y_i为真实边界框坐标，

与

为预测边界框坐标；w_i与h_i为真实边界框的宽与高，

与

为预测边界框的宽与高；c_i为置信度值，

为预测边界框与真实边界框的交叉值，即预测边界框与真实边界框交集的面积除以并集的面积。

进一步的，所述的第二生成器与判别器均采用WGAN-GP目标函数，表示如下：

式中，λ为常数，

指数学期望，

指梯度，D为概率函数，判断输入的参数为真的概率，结果在[0,1]区间；

指

梯度的L2范数；x为真实数据，

为生成器所生成的数据，

指真实数据的分布，

指由

隐式定义的模型分布；设x_r与x_g为分别从

与

中随机采样的一对真假样本，引入一个值为[0,1] 的随机数∈，则

指在x_r与x_g间线性随机插值采样，

则为该采样流程得到的

所满足的分布。

进一步的，所述的步骤S3具体包括：将真实或生成的口腔CT影像投影至第二生成器的潜空间，潜空间是压缩数据的表示，其中相似的数据点在空间上更靠近，在特征控制向量上加以设定的权重参数进行移动，生成所需类型的高分辨率口腔CT影像数据。

本发明还提供一种口腔CT影像的数据增强系统，包括：

获取模块：用于向生成对抗网络中输入原始口腔CT影像数据，通过生成对抗网络对原始口腔CT影像数据进行训练，得到一个口腔CT影像数据生成模型；

处理模块：用于使用生成对抗网络空间算法对步骤S1得到的口腔CT影像数据生成模型潜空间在欧氏空间下进行主成分分析，无监督地识别潜在特征控制向量，并对潜在特征控制向量进行人工筛选保存；

生成模块：用于采用特征控制向量定向生成口腔CT影像。

进一步的，所述的获取模块包括：

第一生成器单元：用于向生成对抗网络中输入原始口腔CT影像，原始口腔CT影像中一部分带有对上颌窦ROI区域的矩形标注，另一部分没有；通过第一生成器的处理后，未经标注的口腔CT影像得到一个以上颌窦ROI区域为中心的、尺寸相同的矩形标注；其中，第一生成器的目标函数为：

第一生成器的输出为一个1×5的向量，即预测的

与

为预测边界框坐标；w_i与h_i为真实边界框的宽与高，

与

为预测边界框的宽与高；c_i为置信度值，

为预测边界框与真实边界框的交叉值，即预测边界框与真实边界框交集的面积除以并集的面积；

映射网络和第二生成器单元：用于映射网络将隐藏变量z经过归一化处理后，通过多层全连接层，得到中间隐藏变量w，并配合随机噪声，作为第二生成器的初始及各个卷积层的输入，输入过程采用AdaIN算法，生成可控制的图像；

判别单元：用于将第一生成器和第二生成器的输出共同作为判别器的输入，判别输入的图片是真实的还是虚假的；

其中，第二生成器与判别器均采用WGAN-GP目标函数，表示为：

式中，λ为常数，

指数学期望，

指

梯度的L2范数；x为真实数据，

为生成器所生成的数据，

指真实数据的分布，

指由

隐式定义的模型分布；设x_r与x_g为分别从

与

指在x_r与x_g间线性随机插值采样，

则为该采样流程得到的

所满足的分布。

本发明还提供一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行计算机程序，所述的处理器执行所述计算机程序，实现以上所述的口腔CT影像的数据增强方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现以上所述的口腔CT影像的数据增强方法。

与现有技术相比，有益效果是：

1、本发明采用无监督学习的方法，与普通的图像数据不同，因为口腔CT 影像数据有着规范的获取流程，从固定的角度进行拍摄，数据质量高，因此无监督学习方法能够用于口腔CT影像的场景。在获得足够原始口腔CT影像数据后，只需预先对其进行简单的裁剪，即可进行生成对抗网络的训练，完成数据增强任务，可节省人工分类标注的开销，并且只需要一次训练，即可满足多个不同分类任务的数据增强需要，无需针对每个分类任务分别训练网络。针对不同的医学CT影像，可更改算法的网络，有针对地设置参数进行训练，满足不同任务的需求。与现有技术相比，能够大幅降低人为标注的工作量；

2、本发明可生成512*512的高分辨率高质量图像，与现有技术只能生成较低分辨率图像相比，能够保留更多有效的信息，在口腔CT影像某些分类中，不同类别的影像之间差异较小，对其进行分类要求更丰富的细节信息，因此高分辨率图像生成方法能够用于口腔CT影像的数据增强场景，并且这一特性使得本发明具有更强的通用性，在对图像数据质量要求较高的其它医学图像分类任务中也有使用的价值；

3、本发明算法采取了风格迁移的思想，与现有技术只能随机生成特定类型数据相比，本发明生成特定特征的强度是可控的，对新获取的原始数据集中不存在的口腔CT影像，也可以直接利用训练好的模型和保存的特征控制向量进行影像属性的编辑。因为口腔CT影像某些分类中，不同类别的影像之间并非界限分明，要求生成特定类型数据时定向且可控，因此本发明能够用于口腔CT 影像的场景；

4、本发明提供的方法在训练样本较少、数据类别不平衡的情况下表现优异。医学图像处理领域经常遇到样本量不足的挑战，本发明针对原始样本量少的口腔CT影像数据集，需要尽可能利用到所有原始样本的信息，与现有技术要求原始数据集较为平衡相比，本发明训练过程中正负样本都参与了贡献，生成原始样本量较少类别的数据时可以利用到其它类别下数据的信息，能够在原始数据量较少，数据存在严重类别不平衡的挑战环境中进行生成对抗网络的训练，实现数据增强，提升分类任务的准确率。

附图说明

图1是本发明的方法流程示意图。

图2是本发明生成对抗网络概括示意图。

图3是本发明生成对抗网络的详细参数图，其中箭头表示数据流。

图4是本发明处理的原始口腔CT影像及其ROI区域示例图。

图5是本发明步骤S2流程示意图。

图6是本发明步骤S3的流程示意图。

图7是本发明所述方法定向生成某个类别口腔CT影像效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。下面结合具体实施方式对本发明作在其中一个实施例中说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/或”的含义为，包括三个并列的方案，以“A和/或B”为例，包括A方案，或B方案，或A和B同时满足的方案。

实施例1：

如图1所示，一种口腔CT影像的数据增强方法，包括以下步骤：

S3.采用特征控制向量定向生成口腔CT影像。

本发明提供的一种口腔CT影像的数据增强方法，能够无监督地、渐进地对口腔CT影像数据集中CT影像数据各个属性进行学习(比如，囊肿、积液、上颌窦底线等)，训练完毕的模型可用于生成分辨率为512×512的高分辨率的口腔CT影像。

如表1、表2和表3所示，生成对抗网络包括第一生成器、第二生成器、判别器和映射网络；所述的第一生成器的实现原理是，分类任务中起重要作用的上颌窦ROI区域，在原始口腔CT影像上的位置以及大小相对固定；第一生成器将原始口腔CT影像分割成8×8个单元，并设计一个目标函数，对口腔 CT影像上的ROI区域的矩形标注进行训练，得到口腔CT影像上颌窦ROI区域目标识别模型，用于输出口腔CT影像上颌窦ROI区域坐标；所述的第二生成器与映射网络相互配合，映射网络对潜空间进行解耦，由隐藏变量z生成中间隐藏变量w，将变量w转换而来的仿射变换和随机噪声加入到第二生成器的每一层中，达到对生成图像各个尺度特征进行控制的目的，实现可控制的图像生成；所述的判别器接受来自第一生成器的坐标信息以及来自第二生成器所生成的假图像信息的输入，对第二生成器生成的图像真假进行判断。

本发明使用生成对抗网络空间的可解释控制发现算法，在使用口腔CT影像数据集训练完毕的生成对抗网络模型潜空间上进行主成分分析，无监督地识别重要的潜在特征控制向量，来发现其中的可解释控制。寻找出各个特征控制向量后，对其进行人工筛选保存，确定每个特征控制向量所控制的具体属性，将真实或生成的口腔CT影像投影至模型潜空间，在各个特征控制向量与权重参数相乘，从而生成希望获得类型的数据，如将无积液的口腔CT影像转化为有积液的口腔CT影像。

表1第一生成器各层参数表

表2第2生成器各层参数表

表3判别器各层参数表

进一步的，所述的步骤S1具体包括：

S11.向生成对抗网络中输入原始口腔CT影像，原始口腔CT影像中一部分带有对上颌窦ROI区域的矩形标注，另一部分没有；通过第一生成器的处理后，未经标注的口腔CT影像得到一个以上颌窦ROI区域为中心的、尺寸相同的矩形标注；所述的第一生成器的目标函数为：

第一生成器的输出为一个1×5的向量，即预测的

与

为预测边界框坐标；w_i与h_i为真实边界框的宽与高，

与

为预测边界框的宽与高；c_i为置信度值，

其中，所述的第二生成器与判别器均采用WGAN-GP目标函数，表示如下：

式中，λ为常数，

指数学期望，

指

梯度的L2范数；x为真实数据，

为生成器所生成的数据，

指真实数据的分布，

指由

隐式定义的模型分布；设x_r与x_g为分别从

与

指在x_r与x_g间线性随机插值采样，

则为该采样流程得到的

所满足的分布。

另外，如图3所示，所述的步骤S3具体包括：将真实或生成的口腔CT影像投影至第二生成器的潜空间，潜空间是压缩数据的表示，其中相似的数据点在空间上更靠近，在特征控制向量上加以设定的权重参数进行移动，生成所需类型的高分辨率口腔CT影像数据。如图7所示，调节上颌窦底线形态控制向量，可以定向控制口腔CT影像上颌窦底线形态的变化，从而定向生成所需类型的口腔CT影像数据。

实施例2

本实施例提供一种口腔CT影像的数据增强系统，包括：

生成模块：用于采用特征控制向量定向生成口腔CT影像。

具体的，所述的获取模块包括：

第一生成器的输出为一个1×5的向量，即预测的

与

为预测边界框坐标；w_i与h_i为真实边界框的宽与高，

与

为预测边界框的宽与高；c_i为置信度值，

其中，第二生成器与判别器均采用WGAN-GP目标函数，表示为：

式中，λ为常数，

指数学期望，

指

梯度的L2范数；x为真实数据，

为生成器所生成的数据，

指真实数据的分布，

指由

隐式定义的模型分布；设x_r与x_g为分别从

与

指在x_r与x_g间线性随机插值采样，

则为该采样流程得到的

所满足的分布。

实施例3

本实施例提供一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行计算机程序，所述的处理器执行所述计算机程序，实现实施例1所述的口腔CT影像的数据增强方法。

实施例4

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现实施例1所述的口腔CT影像的数据增强方法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种口腔CT影像的数据增强方法，其特征在于，包括以下步骤：

S1.基于生成对抗网络对数据进行增强：向生成对抗网络中输入原始口腔CT影像数据，通过生成对抗网络对原始口腔CT影像数据进行训练，得到一个口腔CT影像数据生成模型；

S3.采用特征控制向量定向生成口腔CT影像。

2.根据权利要求1所述的口腔CT影像的数据增强方法，其特征在于，所述的生成对抗网络包括第一生成器、第二生成器、判别器和映射网络；所述的第一生成器，将原始口腔CT影像分割成N×N个单元，并设计一个目标函数，对口腔CT影像上的ROI区域的矩形标注进行训练，得到口腔CT影像上颌窦ROI区域目标识别模型，用于输出口腔CT影像上颌窦ROI区域坐标；所述的第二生成器与映射网络相互配合，映射网络对潜空间进行解耦，由隐藏变量z生成中间隐藏变量w，将变量w转换而来的仿射变换和随机噪声加入到第二生成器的每一层中，达到对生成图像各个尺度特征进行控制的目的，实现可控制的图像生成；所述的判别器接受来自第一生成器的坐标信息以及来自第二生成器所生成的假图像信息的输入，对第二生成器生成的图像真假进行判断。

3.根据权利要求2所述的口腔CT影像的数据增强方法，其特征在于，所述的步骤S1具体包括：

4.根据权利要求3所述的口腔CT影像的数据增强方法，其特征在于，所述的第一生成器的目标函数为：