CN110223281B

CN110223281B - 一种数据集中含有不确定数据时的肺结节图像分类方法

Info

Publication number: CN110223281B
Application number: CN201910489713.1A
Authority: CN
Inventors: 毛克明; 王新琦; 常辉东; 李佳明; 李翰鹏
Original assignee: Northeastern University China
Current assignee: Shenyang Mingran Technology Co ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2022-06-28
Anticipated expiration: 2039-06-06
Also published as: CN110223281A

Abstract

本发明涉及计算机视觉技术领域，提供一种数据集中含有不确定数据时的肺结节图像分类方法。首先，收集肺结节CT图像集并利用专家投票法通过多数投票原则确定图像的类别，经过预处理后得到肺结节CT图像数据集；然后，基于知识蒸馏法，构建包括教师模型、学生模型的肺结节图像分类模型；接着，获取确定标签数据集，在确定标签数据集上训练教师模型，并在肺结节CT图像数据集上计算软标签；然后，在联合硬标签和软标签的数据集上训练学生模型；最后，将预处理后的待分类肺结节CT图像输入训练后的肺结节图像分类模型中，获得其类别。本发明能够有效利用数据集中的不确定标签数据，提升肺结节诊断的准确性和效率，且易用性和鲁棒性高。

Description

一种数据集中含有不确定数据时的肺结节图像分类方法

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种数据集中含有不确定数据时的肺结节图像分类方法。

背景技术

肺癌是世界上最致命的疾病之一，2017年肺癌约占所有癌症发病人数的26％。尽管最近的诊断和治疗取得了长足的发展，但肺癌五年治愈率仅为18％。值得注意的是，如果患者能够进行早期准确诊断并且实施适当的治疗，那么这一比率将大大增加。低剂量计算机断层扫描(CT)已被广泛用于肺癌检查，与其他成像技术相比，CT可以显示低对比度的结节，具有更多优势。根据全国肺部筛查的报告，低剂量CT扫描可将肺癌死亡率降低20％。传统的肺结节诊断主要依赖医生专家的观察，因此会有一些缺点：诊断结果具有主观性；工作量大耗时长；人类视觉局限性；偏远地区医生无法普及。随着计算机视觉技术的发展，特别是自动分类识别技术取得的进步，通过提供有价值的意见来帮助临床医生进行诊断。

现在计算机视觉和机器学习技术的发展使快速和可靠的CT图像分类成为可能，因其高效和减少人工等优势成为热门的研究领域。一些有代表性的工作包括采用基于肺结节图像的低维度特征，包括纹理、形状、滤波和强度等；还有一些算法采用一些在计算机视觉领域中精心设计的特征提取和表示方法，如SIFT，HOG，LBP特征等；随着计算能力的提高和深度学习的兴起，基于深度学习的目标检测和识别性能，不论是检测速度还是检测准确度都获得了很大的提高。深度学习模型可以描述肺结节图像的高级抽象，具有强大的特征提取能力和泛化能力，因此深度学习方法的效果远远好于传统机器学习方法。但是神经网络模型的训练需要大量的标注正确的数据。因为医学影像标注的专业性和特殊性，还有道德法律的限制，所以获得大量的训练数据是一件困难的事情。在一般的公共数据集中包括以下问题：(i)数据集规模小，类别分布不平衡；(ii)包含噪音和不确定的标签。以LIDC-IDRI数据集为例，肺部CT图片通过多个专家进行标注，每个专家标注数据的一部分，每个数据也被多个专家标注，虽然工作量减少并能给出相对较好的标注结果，但是不同的专家水平不同，会产生很多不统一的标签；其次，数据中有许多被判定为不确定类型的数据和无标签的数据，传统的处理方法是将不确定类型的数据直接舍弃，但这种做法会丢失很多有价值的信息。

因此，针对肺结节图像数据集包含不统一标签和不确定数据的现状，急需要一种可以高效处理和分类CT图像中肺结节良恶性的方法。

发明内容

针对现有技术存在的问题，本发明提供一种数据集中含有不确定数据时的肺结节图像分类方法，能够有效利用数据集中的不确定标签数据，提升肺结节诊断的准确性和效率，且易用性和鲁棒性高。

本发明的技术方案为：

一种数据集中含有不确定数据时的肺结节图像分类方法，其特征在于，包括下述步骤：

步骤1：组织数据集：收集N张肺结节CT图像构成图像集I＝{I₁,I₂,...,I_n,...,I_N}，将肺结节分为良性、恶性和不确定三种类型；采用专家法对每张肺结节CT图像进行类别标注，得到第n张肺结节CT图像I_n的类别为e_n；对每张肺结节CT图像进行预处理，得到肺结节CT图像数据集D；所述预处理包括将肺结节CT图像转换为JPG格式并对转换后的图像进行裁剪、尺寸调整、数据增强预处理；

其中，n∈{1,2,...,N}，e_n∈M_level，M_level＝{0,1,2}，M_level中的0、1、2分别代表良性、不确定、恶性三种肺结节类型；D＝{(x₁,y₁),(x₂,y₂),...,(x_i,y_i),...,(x_m,y_m)}，m为肺结节CT图像数据集D中的样本总数，x_i为肺结节CT图像数据集D中的第i张肺结节CT图像，y_i为第i张肺结节CT图像x_i的类别标签，y_i∈M_level；

步骤2：基于知识蒸馏法，构建肺结节图像分类模型，所述肺结节图像分类模型包括教师模型、学生模型；所述教师模型包括L个神经网络模型和L个softmax分类器，所述学生模型包括神经网络模型、第一softmax分类器s₁、第二softmax分类器s₂；

步骤3：在确定标签数据集上训练教师模型；

步骤3.1：获取确定标签数据集：从肺结节CT图像数据集D中提取类别标签为良性和类别标签为恶性的元素，构成确定标签数据集D_C；

其中，D_C＝{(x₁,y₁),(x₂,y₂),...,(x_j,y_j),...,(x_mC,y_mC)}∈D，mC为确定标签数据集D_C中的样本总数，y_j为确定标签数据集D_C中的肺结节CT图像x_j的类别标签，y_j∈M_C＝{0,1}，M_C中的0、1分别代表良性、恶性两种肺结节类型；

步骤3.2：对确定标签数据集D_C按照批次处理，依次将每一批次的样本集D_Cs输入教师模型中的每个神经网络模型，采用随机初始化来初始化网络参数，通过教师模型中的L个神经网络模型对样本集D_Cs进行特征提取，在教师模型中的每个神经网络模型后都通过softmax分类器对样本集D_Cs中的肺结节CT图像进行分类；其中，D_Cs∈D_C，D_Cs中的样本个数为ms；

对于输入的肺结节CT图像x_k∈D_Cs，经过假设函数

输出二维向量p_k，向量p_k中的每个元素代表对于给定的肺结节CT图像x_k每一个肺结节类型σ∈M_C的概率估计值p(y_k＝σ|x_k)，假设函数

为

其中，θ＝{θ,θ₁}为模型参数集，

为对概率分布进行归一化使得所有概率总和为1，

为模型参数集θ中第μ个元素的转置；

在确定标签数据集D_C上通过损失函数J_C(θ)采用小批量梯度下降法对教师模型进行训练：

其中，

logloss为类别交叉熵损失函数，log loss(p,q)＝-p log q，

为肺结节CT图像x_k经过教师模型中的神经网络模型和softmax分类器输出的类别概率向量；

为肺结节CT图像x_k的正确类别标签即硬标签，根据步骤1中计算的类别标签来确定

良性为[1,0]、恶性为[0,1]；R(θ)为正则化项，γ为正则化系数，γ≥0；p(y_k＝σ|x_k；θ)为参数为θ时softmax分类器将样本x_k分类为类别σ的概率，l_r_t为学习率；

步骤3.3：应用训练好的教师模型到肺结节CT图像数据集D以计算软标签：去掉教师模型中每个神经网络模型后的softmax分类器，将肺结节CT图像数据集D作为教师模型中每个神经网络模型的输入，获取教师模型中每个神经网络模型的logits输出值，对教师模型中所有神经网络模型的logits输出值进行加权平均，得到肺结节CT图像x_i的最终logits输出值为

计算得到肺结节CT图像x_i的软标签为

其中，α_r为教师模型中第r个神经网络模型的logits输出值占最终logtis输出值的权重，

l_r()为教师模型中第r个神经网络模型的logits输出值，

为z_i中的第μ个元素；

为肺结节CT图像x_i的软化的概率分布即软标签，

中的元素数值介于0-1之间，

为二维向量；T为温度参数，用于控制软标签概率分布的平滑程度；

步骤4：在联合硬标签和软标签的数据集上训练学生模型：

步骤4.1：对确定标签数据集D_C和不确定标签数据集D_unc按照批次处理，每一批次中从确定标签数据集D_C和不确定标签数据集D_unc中随机提取数据构成联合硬标签和软标签的数据集D_C-unc，依次将每一批次的数据集D_C-unc输入学生模型；

其中，D_unc＝D-D_C，数据集D_C-unc中来自确定标签数据集D_C和不确定标签数据集D_unc的样本比例为ε，数据集D_C-unc中的样本总数为mu；

步骤4.2：采用随机初始化来初始化网络参数，通过学生模型中的神经网络模型对数据集D_C-unc进行特征提取，输出数据集D_C-unc中每个肺结节CT图像的logits输出值，将数据集D_C-unc中每个肺结节CT图像的logits输出值输入第一softmax分类器s₁，将数据集D_C-unc中每个肺结节CT图像的logits输出值除以温度参数T后输入第二softmax分类器s₂；将第一softmax分类器s₁的输出与硬标签输入到类别交叉熵损失函数中求出硬标签交叉熵损失函数值，将第二softmax分类器s₂的输出与软标签输入到类别交叉熵损失函数中求出软标签交叉熵损失函数值，将硬标签交叉熵损失函数值和软标签交叉熵损失函数值按权重加和计算最终的损失函数值为

其中，x_t为数据集D_C-unc中的第t张肺结节CT图像；1{}为指示函数，{}内为条件，若条件成立则1{}＝1，若条件不成立则1{}＝0；β为硬标签交熵损失函数值的权重；

为肺结节CT图像x_t经过学生模型中的神经网络模型和第一softmax分类器s₁输出的类别标签概率分布，

为肺结节CT图像x_t经过学生模型中的神经网络模型和第二softmax分类器s₂输出的类别软标签，

步骤4.3：在联合硬标签和软标签的数据集D_C-unc上通过损失函数J(θ)采用小批量梯度下降法对学生模型进行训练，得到训练后的学生模型；除去第二softmax分类器s₂，得到训练后的肺结节图像分类模型；

步骤5：采用与步骤1中相同的预处理方法对待分类肺结节CT图像进行预处理，将预处理后的待分类肺结节CT图像输入训练后的肺结节图像分类模型中，训练后的肺结节图像分类模型对待分类肺结节CT图像进行分类，根据

输出待分类肺结节CT图像的类别标签。

所述步骤1中，采用专家法对每张肺结节CT图像进行类别标注，得到第n张肺结节CT图像I_n的类别为e_n，包括：通过Γ个专家分别对每张肺结节CT图像进行类别标注，得到第η个专家对第n张肺结节CT图像I_n的类别标注为E_η(I_n)；计算第n张肺结节CT图像I_n被标注为类别e的总数为

若第n张肺结节CT图像I_n在每个类别上获得的标注数均不相同，则计算第n张肺结节CT图像I_n的类别为

若第n张肺结节CT图像I_n在多个类别上获得的标注数相同，则取该多个类别的算术平均值四舍五入后的值作为第n张肺结节CT图像I_n的类别；其中，η∈{1,2,...,Γ}；若E_η(I_n)＝e，则S(E_η(I_n)＝e)＝1；若E_η(I_n)≠e，则S(E_η(I_n)＝e)＝0。

所述步骤1中，对转换后的图像进行尺寸调整的方法为双三次插值方法。

所述步骤1中，肺结节CT图像的类别标签采用one-hot编码。

本发明的有益效果为：

本发明与传统的应用机器学习进行肺结节图像分类的方法相比，提出了一种模型训练方法，能够有效利用数据集中的不确定标签数据，有效解决数据集中标签不统一以及数据较少等问题，为深度神经网络的训练提供有价值的信息，提升了肺结节图像分类模型的特征提取能力，能够获得更好的模型泛化，并能在较短时间内为医生提供辅助的肺结节分类诊断结果，从而提升肺结节诊断的准确性和效率，并具有更好的易用性和鲁棒性，为肺结节图像分类技术可以应用在用户场景奠定一定的基础。

附图说明

图1为本发明数据集中含有不确定数据时的肺结节图像分类方法的流程图；

图2为本发明数据集中含有不确定数据时的肺结节图像分类方法中肺结节图像分类模型的结构示意图；

图3为本发明数据集中含有不确定数据时的肺结节图像分类方法中教师模型的结构示意图；

图4为本发明数据集中含有不确定数据时的肺结节图像分类方法中学生模型的结构示意图；

图5为本发明数据集中含有不确定数据时的肺结节图像分类方法中肺结节图像分类模型的训练过程示意图；

图6为本发明数据集中含有不确定数据时的肺结节图像分类方法中肺结节图像分类模型的测试过程示意图。

具体实施方式

下面将结合附图和具体实施方式，对本发明作进一步描述。

如图1所示，为本发明数据集中含有不确定数据时的肺结节图像分类方法的流程图。本发明的一种数据集中含有不确定数据时的肺结节图像分类方法，其特征在于，包括下述步骤：

其中，n∈{1,2,...,N}，e_n∈M_level，M_level＝{0,1,2}，M_level中的0、1、2分别代表良性、不确定、恶性三种肺结节类型；D＝{(x₁,y₁),(x₂,y₂),...,(x_i,y_i),...,(x_m,y_m)}，m为肺结节CT图像数据集D中的样本总数，x_i为肺结节CT图像数据集D中的第i张肺结节CT图像，y_i为第i张肺结节CT图像x_i的类别标签，y_i∈M_level。

本实施例中，以LIDC-IDRI公共肺部图片数据集作为图像集I。LIDC-IDRI数据集中已包含的数据标签由四名专家按照肺结节恶性程度分为{1,2,3,4,5}五个恶性等级，其中等级1表示肺结节是恶性的可能性最低，等级5表示肺结节是恶性的可能性最高；针对本数据集的标签特点，按照步骤1所述的公式统一多个专家给出的标签，并定义恶性等级{1,2}为良性，恶性等级{4,5}为恶性，恶性等级{3}为不确定类型。将肺结节CT图像转换为JPG格式后，对图像进行裁剪：原始肺部CT扫描图像为512*512像素，以肺结节位置坐标为中心，将图像裁剪为48*48像素。然后，对图像进行尺寸调整：使用双三次插值法进一步将裁剪后的肺结节CT图像调整为64*64像素。并对肺结节CT图像应用数据增强：对于图像集I，按照0.5的概率对其进行采样，用于数据增强，使用的数据增强方法包括随机旋转、随机偏移和随机扰动(亮度、饱和度、色调和对比度)；新创建的样本使用与原始标签相同的标签设置；经过数据增强的数据集被分为8组：7个随机选择的组用于训练，剩下的一组用于测试，该过程重复8次，并通过平均8次独立测试来计算结果。其中，肺结节CT图像的类别标签采用one-hot编码。

步骤2：基于知识蒸馏法，构建如图2所示的肺结节图像分类模型，所述肺结节图像分类模型包括如图3所示的教师模型、如图4所示的学生模型；所述教师模型包括L个神经网络模型和L个softmax分类器，所述学生模型包括神经网络模型、第一softmax分类器s₁、第二softmax分类器s₂。

如图5所示，为本发明肺结节图像分类模型的训练过程示意图，训练过程如下：

步骤3：在确定标签数据集上训练教师模型；

其中，D_C＝{(x₁,y₁),(x₂,y₂),...,(x_j,y_j),...,(x_mC,y_mC)}∈D，mC为确定标签数据集D_C中的样本总数，y_j为确定标签数据集D_C中的肺结节CT图像x_j的类别标签，y_j∈M_C＝{0,1}，M_C中的0、1分别代表良性、恶性两种肺结节类型。

对于输入的肺结节CT图像x_k∈D_Cs，经过假设函数

为

其中，θ＝{θ,θ₁}为模型参数集，

为对概率分布进行归一化使得所有概率总和为1，

为模型参数集θ中第μ个元素的转置；

其中，

logloss为类别交叉熵损失函数，log loss(p,q)＝-p log q，

良性为[1,0]、恶性为[0,1]；R(θ)为正则化项，γ为正则化系数，γ≥0；p(y_k＝σ|x_k；θ)为参数为θ时softmax分类器将样本x_k分类为类别σ的概率，l_r_t为学习率。

本实施例中，教师模型中有3个神经网络模型，分别为VGG16、resnet34、xception。在教师模型的训练过程中，参数的预定义为：初始学习率l_r_t＝0.01，在训练过程中，时期每增加10，学习率衰减为当前学习率的0.1倍；最大时期(epoch)数e_t＝50，每个时期包含的训练步数s_p_e_t＝200，每个批次大小(batch size)也即D_Cs中的样本个数为ms＝b_s_t＝16。

计算得到肺结节CT图像x_i的软标签为

l_r()为教师模型中第r个神经网络模型的logits输出值，

为z_i中的第μ个元素；

为肺结节CT图像x_i的软化的概率分布即软标签，

中的元素数值介于0-1之间，

为二维向量；T为温度参数，用于控制软标签概率分布的平滑程度。本实施例中，温度参数T＝10。

从而，确定标签数据集D_C拥有硬标签和软标签，不确定标签数据集D_unc拥有软标签。

步骤4：在联合硬标签和软标签的数据集上训练学生模型：

其中，x_t为数据集D_C-unc中的第t张肺结节CT图像；1{}为指示函数，{}内为条件，若条件成立则1{}＝1，若条件不成立则1{}＝0；若x_t∈D_C则1{x_t∈D_C}＝1，若

则1{x_t∈D_C}＝0；β为硬标签交熵损失函数值的权重，β越小，表明引导越依赖教师模型的贡献；

步骤4.3：在联合硬标签和软标签的数据集D_C-unc上通过损失函数J(θ)采用小批量梯度下降法对学生模型进行训练，得到训练后的学生模型；除去第二softmax分类器s₂，得到训练后的肺结节图像分类模型。

本实施例中，学生模型中的神经网络模型为mobilenet。在学生模型的训练过程中，参数的预定义为：初始学习率l_r_s＝0.01，在训练过程中，时期每增加10，学习率衰减为当前学习率的0.1倍；最大时期数e_s＝50，每个时期包含的训练步数s_p_e_s＝200，每个批次大小(batchsize)也即数据集D_C-unc中的样本总数为mu＝b_s_s＝16，每个批次中数据集D_C-unc中来自确定标签数据集D_C和不确定标签数据集D_unc的样本比例为ε＝1:1；温度参数T＝10；硬标签交熵损失函数值的权重初始值β＝0.1，在训练初期使用较小的值，在训练后期适当增加硬标签的比重。

输出待分类肺结节CT图像的类别标签。

如图6所示，将测试样本输入训练后的肺结节图像分类模型中，最终输出测试样本的类别标签。

显然，上述实施例仅仅是本发明的一部分实施例，而不是全部的实施例。上述实施例仅用于解释本发明，并不构成对本发明保护范围的限定。基于上述实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等，均落在本发明要求的保护范围内。

Claims

1.一种数据集中含有不确定数据时的肺结节图像分类方法，其特征在于，包括下述步骤：

步骤3：在确定标签数据集上训练教师模型；

对于输入的肺结节CT图像x_k∈D_Cs，经过假设函数

为

其中，θ＝{θ₀,θ₁}为模型参数集，

为对概率分布进行归一化使得所有概率总和为1，

为模型参数集θ中第μ个元素的转置；

其中，

logloss为类别交叉熵损失函数，logloss(p,q)＝-plogq，

计算得到肺结节CT图像x_i的软标签为

其中，α_r为教师模型中第r个神经网络模型的logits输出值占最终logits输出值的权重，

l_r()为教师模型中第r个神经网络模型的logits输出值，

为z_i中的第μ个元素；

为肺结节CT图像x_i的软化的概率分布即软标签，

中的元素数值介于0-1之间，

步骤4：在联合硬标签和软标签的数据集上训练学生模型：

输出待分类肺结节CT图像的类别标签。

2.根据权利要求1所述的数据集中含有不确定数据时的肺结节图像分类方法，其特征在于，所述步骤1中，采用专家法对每张肺结节CT图像进行类别标注，得到第n张肺结节CT图像I_n的类别为e_n，包括：通过Γ个专家分别对每张肺结节CT图像进行类别标注，得到第η个专家对第n张肺结节CT图像I_n的类别标注为E_η(I_n)；计算第n张肺结节CT图像I_n被标注为类别e的总数为

3.根据权利要求2所述的数据集中含有不确定数据时的肺结节图像分类方法，其特征在于，所述步骤1中，对转换后的图像进行尺寸调整的方法为双三次插值方法。

4.根据权利要求3所述的数据集中含有不确定数据时的肺结节图像分类方法，其特征在于，所述步骤1中，肺结节CT图像的类别标签采用one-hot编码。