CN113139931A

CN113139931A - 甲状腺切片图像分类模型训练方法、装置

Info

Publication number: CN113139931A
Application number: CN202110285736.8A
Authority: CN
Inventors: 武卓越; 田雪叶; 杨林; 崔磊
Original assignee: Hangzhou Diyingjia Technology Co ltd
Current assignee: Hangzhou Diyingjia Technology Co ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-07-20
Anticipated expiration: 2041-03-17
Also published as: CN113139931B

Abstract

本申请涉及一种甲状腺切片图像分类模型训练方法、装置。所述方法包括：获取预设放大倍数下甲状腺切片图像；对所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块；对所述图像块，通过图像块分类模型进行分类，获得所述图像块为恶性肿瘤的概率；所述图像块分类模型训练过程中，采用优化损失函数，通过反向传播算法调整模型参数；将所述概率映射到，与其对应的所述图像块在所述甲状腺切片图像的位置，获得所述甲状腺切片图像的概率热图；从所述概率热图中提取肿瘤的特征值输入SVM分类器进行训练，获得甲状腺切片图像分类模型。采用本方法能够提高模型分类的精确度。

Description

甲状腺切片图像分类模型训练方法、装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种甲状腺切片图像分类模型训练方法、装置。

背景技术

近几十年来甲状腺癌的全球发病率持续上升，增长速度在所有实体瘤中名列前茅，发病率每年以6％的速度递增。目前甲状腺癌仍以手术治疗为主，由于甲状腺术中的冰冻切片对判断甲状腺的良恶性的特异性较高，因此临床上往往依赖常规术中冰冻切片来决定进一步的治疗方案。但在百亿级像素的甲状腺冰冻切片中寻找肿瘤区域并判断切片良恶性对病理医生来说存在极大的挑战，病理医生有可能会因为经验不足或疲劳而对甲状腺冰冻切片解读错误，使患者错过最佳治疗时期。因此可以将深度学习应用在甲状腺冰冻切片良恶性判读方面，辅助医生进行疾病诊断，这样不但可以将医生从枯燥的工作中解放出来，而且降低了疾病误判率。

针对乳腺癌、肺癌等癌症，一些研究已经证明卷积神经网络是检测数字病理切片的有效工具。对于数字病理图像全切片分类问题，即判断数字病理切片中最严重的癌变类型问题，由于百万级像素的数字病理切片无法直接送入卷积神经网络进行训练，大部分研究者采取的做法是从数字病理切片中提取N×N大小的图像块作为训练数据，然后训练卷积神经网络充当图像块分类器，在预测时使用N×N大小的窗口从左到右、从上到小划过数字病理切片，并使用图像块分类器对划过的窗口尽行分类，最后综合图像块级别的分类结果得到全切片的分类结果，可以看到训练的图像块分类器的准确与否直接决定数字化病理切片分类结果的好坏。但是目前大部分先进的分类网络对图像块分类时存在严重的漏诊，这是因为甲状腺切片中细胞形态存在多样性，部分良性肿瘤区域甚至正常区域和恶性肿瘤区域具有相似的视觉特征。正是由于细胞形态的多样性直接导致了图像块分类器存在严重的漏诊情况，从而间接导致了全切片分类存在严重的漏诊情况。但是在临床诊断中将甲状腺恶性肿瘤判断为甲状腺良性肿瘤甚至是正常组织是不允许出现的，因为这样的漏诊将会直接导致病人错过最佳治疗时期。

总之，现有技术中根据甲状腺切片图像对甲状腺肿瘤良恶的判断方法，易将恶性肿瘤判断为良性肿瘤的概率较高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高模型分类精度的甲状腺切片图像分类模型训练方法、装置。

一种甲状腺切片图像分类模型训练方法，所述方法包括：

获取预设放大倍数下甲状腺切片图像；

对所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块；

对所述图像块，通过图像块分类模型进行分类，获得所述图像块为恶性肿瘤的概率；所述图像块分类模型训练过程中，采用优化损失函数，通过反向传播算法调整模型参数；

将所述概率映射到，与其对应的所述图像块在所述甲状腺切片图像的位置，获得所述甲状腺切片图像的概率热图；

从所述概率热图中提取肿瘤特征，输入SVM分类器进行训练，获得甲状腺切片图像分类模型。

在其中一个实施例中，对所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块，包括：使用滑动窗口法将所述甲状腺切片图像从左到右、从上到下划成互不重叠的1024×1024图像。

在其中一个实施例中，在对所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块之后，包括：过滤背景占比超过50％的图像块。

在其中一个实施例中，在对所述图像块，通过图像块分类模型进行分类，获得所述图像块为恶性肿瘤的概率之前，包括：获取预设放大倍数下，带有标注的甲状腺切片图像；所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块，并根据标注基于所述图像块恶性或非恶性的标签；根据所述图像块和标签，对Inception-v3模型进行训练，获得图像块分类模型；其中，所述图像块分类模型训练过程中，采用优化损失函数，通过反向传播算法调整模型参数。

在其中一个实施例中，所述优化损失函数为：

其中，n为图像块数量，

为传统的交叉熵损失函数，

为图像块X_i的惩罚项，k为类别总数，j表示某一类别，y_i为独热编码，并且y_i＝[y_i0,y_i1]，p_i为网络预测出的概率向量并且p_i＝[p_i0,p_i1]，其中p_i0为图像块X_i为非恶性的概率，p_i1为图像块X_i为恶性的概率，

为图像块X_i的标签，若图像块为恶性则标签为1，否则标签为0，

为网络预测出的图像块标签。

在其中一个实施例中，从所述概率热图中提取肿瘤特征，输入SVM分类器进行训练，获得甲状腺切片图像分类模型，包括：根据所述概率热图，获取肿瘤概率的最大值特征值、肿瘤概率的平均概率特征值、肿瘤区域的面积特征值、肿瘤区域的长轴长度特征值、肿瘤区域的短轴长度特征值和肿瘤区域的周长特征值；根据所述肿瘤概率的最大值特征值、肿瘤概率的平均概率特征值、肿瘤区域的面积特征值、肿瘤区域的长轴长度特征值、肿瘤区域的短轴长度特征值和肿瘤区域的周长特征值，构建特征向量；将所述特征向量输入SVM分类器进行训练，获得甲状腺切片图像分类模型。

在其中一个实施例中，所述预设放大倍数为20×放大倍数。

一种甲状腺切片图像分类模型训练装置，所述装置包括：

图像获取模块，用于获取预设放大倍数下甲状腺切片图像；

图像划分模块，用于对所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块；

概率计算模块，用于对所述图像块，通过图像块分类模型进行分类，获得所述图像块为恶性肿瘤的概率；所述图像块分类模型训练过程中，采用优化损失函数，通过反向传播算法调整模型参数；

概率热图构建模块，用于将所述概率映射到，与其对应的所述图像块在所述甲状腺切片图像的位置，获得所述甲状腺切片图像的概率热图；

图像分类模型训练模块，用于从所述概率热图中提取肿瘤特征，输入SVM分类器进行训练，获得甲状腺切片图像分类模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取预设放大倍数下甲状腺切片图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取预设放大倍数下甲状腺切片图像；

从所述概率热图中提取肿瘤的特征值输入SVM分类器进行训练，获得甲状腺切片图像分类模型。

上述甲状腺切片图像分类模型训练方法、装置、计算机设备和存储介质，通过优化损失函数对Inception-v3网络模型的网络参数进行调整，能够提高图像块分类模型的分类精确度，进而能够提高获得的所述图像块为恶性肿瘤的概率的准确度，然后所述图像块为恶性肿瘤的概率构建概率热图，通过SVM分类器进行训练，获得甲状腺切片图像分类模型，并通过甲状腺切片图像分类模型对概率热图进行分类，获得所述甲状腺切片图像是否为恶性肿瘤的结果，能够提高模型分类的准确性。

附图说明

图1为一个实施例中甲状腺切片图像分类模型训练方法的流程示意图；

图2为一个实施例中甲状腺切片图像分类模型训练装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种甲状腺切片图像分类模型训练方法，包括以下步骤：

S110，获取预设放大倍数下甲状腺切片图像。

其中，甲状腺切片可为甲状腺冰冻切片。预设放大倍数可为20×放大倍数下读取的甲状腺切片图像，也可为40×放大倍数下读取的甲状腺切片图像。

S120，对所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块。

其中，预设大小的图像块可为1024×1024的图像块，当然，预设大小的具体尺寸在此不作限定。

S130，对所述图像块，通过图像块分类模型进行分类，获得所述图像块为恶性肿瘤的概率；所述图像块分类模型训练过程中，采用优化损失函数，通过反向传播算法调整模型参数。

其中，图像块分类模型根据Inception-v3网络模型训练获得，用于输入图像块，输出所述图像块为恶性肿瘤的概率。Inception-v3网络模型由Inception模块堆叠组成，网络最后是全连接层以及softmax输出层；其中，Inception模块使用不同大小的滤波器对输入执行卷积操作，然后将所有子层的输出进行级联，这样可以有效地提取图像中不同尺度的特征。本实施例中，为了对图像块进行良恶性分类，对Inception-v3网络模型的分类层进行了修改，使得向Inception-v3网络模型输入图像块后，网络输出其分别为良性肿瘤、恶性肿瘤的概率，然后将网络模型参数初始化为在ImageNet上表现最佳的参数集,通过反向传播去微调网络的所用网络模型参数。

其中，所述优化损失函数L为：

其中，n为图像块数量，

为传统的交叉熵损失函数，

为图像块X_i的惩罚项，k为类别总数，j表示某一类别，y_i为独热编码，并且y_i＝[y_i0,y_i1]，y_i0、y_i1的取值为0或者1，在图像块为恶性时，y_i0、y_i1取值分别0、1，在图像块为非恶性时，y_i0、y_i1取值分别1、0，p_i为网络预测出的概率向量并且p_i＝[p_i0,p_i1]，其中p_i0为图像块X_i为非恶性的概率，p_i1为图像块X_i为恶性的概率，

为网络预测出的图像块标签。

由于在甲状腺切片中部分非恶性肿瘤区域和恶性肿瘤区域具有相似的视觉特征，使用传统的交叉熵函数训练的分类模型对图像块进行分类时存在严重的漏诊情况，本实施例中对传统的交叉熵损失函数进行了修改，使用带有惩罚的损失函数进行训练可以很大程度上避免漏诊情况的发生，其形式如公式(1)所示，惩罚项

的本质在于在模型训练过程中当图像块被网络误判为良性，即

为0而

为1时施加惩罚项，使得p_i0尽可能的小而p_i1尽可能的大，而在其他情况下惩罚项都为0。

S140，将所述概率映射到，与其对应的所述图像块在所述甲状腺切片图像的位置，获得所述甲状腺切片图像的概率热图。

其中，所述概率热图为甲状腺切片图像中的每个图像块通过概率对应的R、G、B三个颜色分量进行表示的图片。例如，对于一张分辨率大小为N×N的甲状腺切片图像，使用512×512大小的窗口从左到右、从上到下划过甲状腺切片图像，并使用图像块分类器对划过的窗口进行分类，得到一张

大小的概率图，其中每个点与一个512×512大小的图像块对应，然后将概率图转换成一张具有R、G、B三个颜色分量的概率热图，可以通过概率热图中“热”的区域为红色区域，即为肿瘤区域，“冷”的区域即蓝色区域，即为良性肿瘤区域、正常人体组织区域或者背景区域。

S150，从所述概率热图中提取肿瘤特征，输入SVM分类器进行训练，获得甲状腺切片图像分类模型。

其中，从概率热图中提取到的特征包括肿瘤概率的最大值特征值、肿瘤概率的平均概率特征值、肿瘤区域的面积特征值、肿瘤区域的长轴长度特征值、肿瘤区域的短轴长度特征值和肿瘤区域的周长特征值。关于SVM分类器的训练方法，可以参考现有的SVM分类器的训练方法。训练获得的甲状腺切片图像分类模型，能够根据输入的甲状腺切片图像的概率热图，输出甲状腺切片是恶性切片或者是良性切片的判断。

上述甲状腺切片图像分类模型方法中，通过优化损失函数对Inception-v3网络模型的网络参数进行调整，能够提高图像块分类模型的分类精度，进而能够提高获得的所述图像块为恶性肿瘤的准确度，然后使用所述图像块为恶性肿瘤的概率构建概率热图，通过SVM分类器进行训练，获得甲状腺切片图像分类模型，并通过甲状腺切片图像分类模型对概率热图进行分类，获得所述甲状腺切片图像是否为恶性肿瘤的结果，能够提高模型分类的准确性。

在其中一个实施例中，在对所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块之后，包括：过滤背景占比超过50％的图像块。由于一些1024×1024的图像块中包含大量背景信息或者几乎全是背景，这些背景通常为灰白色，因此我们需要过滤掉这些带有少量信息的图像块，留下与分类任务相关的图像块，因此在图像块筛选阶段我们将背景占有比在50％以上的图像块去除。

在其中一个实施例中，在所述对所述图像块，通过图像块分类模型进行分类，获得所述图像块为恶性肿瘤的概率之前，包括：获取预设放大倍数下，带有标注的甲状腺切片图像；所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块，根据标注给予每个所述图像块恶性或非恶性的标签；根据所述图像块和标签，对Inception-v3模型进行训练，获得图像块分类模型；其中，所述图像块分类模型训练过程中，采用优化损失函数，通过反向传播算法调整模型参数。

其中，带有标注的甲状腺切片图像可通过人工进行图像标注。每个图像块可根据其是否在标注范围内，给其赋予标签，例如，属于标注范围内的图像块设置恶性标签，属于标注范围外的图像块设置非恶性标签。

在其中一个实施例中，所述从所述概率热图中提取肿瘤的特征值输入SVM分类器进行训练，获得甲状腺切片图像分类模型，包括：根据所述概率热图，获取肿瘤概率的最大值特征值、肿瘤概率的平均概率特征值、肿瘤区域的面积特征值、肿瘤区域的长轴长度特征值、肿瘤区域的短轴长度特征值和肿瘤区域的周长特征值；根据所述肿瘤概率的最大值特征值、肿瘤概率的平均概率特征值、肿瘤区域的面积特征值、肿瘤区域的长轴长度特征值、肿瘤区域的短轴长度特征值和肿瘤区域的周长特征值，构建特征向量；将所述特征向量输入SVM分类器进行训练，获得甲状腺切片图像分类模型。

由于细胞形态的多样性，使得先进的分类网络训练一个可以区分甲状腺图像块良、恶性并且分类准确率高达100％的分类器几乎是不可能的事情，因此不可避免地会发生漏诊的情况，本申请实施例甲状腺切片图像分类模型可以在维持准确率不变的条件下，使得将甲状腺恶性肿瘤判读为甲状腺良性肿瘤的情况尽可能少地甚至几乎不出现，因为这种恶性判断良性将会导致病人错过最佳治疗时期，但是将甲状腺良性肿瘤判断为甲状腺恶性肿瘤的情况却允许发生，这也只是增加了病理医生复查的工作量。

图1为模型训练过程，首先需要训练图像块分类模型，等图像块分类模型训练完成后，使用图像块分类模型分别对每张甲状腺切片图像使用滑窗法进行预测，得到甲状腺切片图像对应的概率热图，然后从热率热图中提取特征训练SVM分类器。

在一个实施例中，如图2所示，提供了一种甲状腺切片图像分类模型训练装置，包括：图像获取模块210、图像划分模块220、概率计算模块230、概率热图构建模块240和图像分类模型训练模块250，其中：

图像获取模块210，用于获取预设放大倍数下甲状腺切片图像。

图像划分模块220，用于对所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块。

概率计算模块230，用于对所述图像块，通过图像块分类模型进行分类，获得所述图像块为恶性肿瘤的概率；所述图像块分类模型训练过程中，采用优化损失函数，通过反向传播算法调整模型参数。

概率热图构建模块240，用于将所述概率映射到，与其对应的所述图像块在所述甲状腺切片图像的位置，获得所述甲状腺切片图像的概率热图。

图像分类模型训练模块250，用于从所述概率热图中提取肿瘤的特征值输入SVM分类器进行训练，获得甲状腺切片图像分类模型。

在其中一个实施例中，图像划分模块220，还用于使用滑动窗口法将所述甲状腺切片图像从左到右、从上到下划成互不重叠的1024×1024图像。

在其中一个实施例中，所述甲状腺切片图像分类模型训练装置，还包括：过滤模块，用于过滤背景占比超过50％的图像块。

在其中一个实施例中，所述甲状腺切片图像分类模型训练装置，还包括：所述图像获取模块210，还用于获取预设放大倍数下，带有标注的甲状腺切片图像；所述图像划分模块220，还用于所述甲状腺切片图像划分成多个互不重叠的预设大小的图像块，根据标注给予每个所述图像块恶性或非恶性的标签；训练模块，用于根据所述图像块和标签，对Inception-v3模型进行训练，获得图像块分类模型；其中，所述图像块分类模型训练过程中，采用优化损失函数，通过反向传播算法调整模型参数。

在其中一个实施例中，所述优化损失函数为：

其中，n为图像块数量，

为传统的交叉熵损失函数，

为网络预测出的图像块标签。

在其中一个实施例中，所述图像分类模型训练模块250包括：特征值获取单元，用于根据所述概率热图，获取肿瘤概率的最大值特征值、肿瘤概率的平均概率特征值、肿瘤区域的面积特征值、肿瘤区域的长轴长度特征值、肿瘤区域的短轴长度特征值和肿瘤区域的周长特征值；特征向量构建单元，用于根据所述肿瘤概率的最大值特征值、肿瘤概率的平均概率特征值、肿瘤区域的面积特征值、肿瘤区域的长轴长度特征值、肿瘤区域的短轴长度特征值和肿瘤区域的周长特征值，构建特征向量；图像分类模型训练单元，用于将所述特征向量输入SVM分类器进行训练，获得甲状腺切片图像分类模型。

在其中一个实施例中，所述预设放大倍数为20×放大倍数。

关于甲状腺切片图像分类模型训练装置的具体限定可以参见上文中对于甲状腺切片图像分类模型训练方法的限定，在此不再赘述。上述甲状腺切片图像分类模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储甲状腺切片图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种甲状腺切片图像分类模型训练方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。