CN113239985B

CN113239985B - 一种面向分布式小规模医疗数据集的分类检测方法

Info

Publication number: CN113239985B
Application number: CN202110450133.9A
Authority: CN
Inventors: 张霖; 杨源
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-12-13
Anticipated expiration: 2041-04-25
Also published as: CN113239985A

Abstract

本申请公开了一种面向分布式小规模医疗数据集的分类检测的构建方法，该方法包括：在中央服务器中设置teacher网络，在多家医疗机构的本地服务器中分别设置student网络，中央服务器能访问多家医疗机构的医疗数据，本地服务器只能访问其对应的医疗机构的医疗数据；中央服务器根据从每家医疗机构中获取的医疗数据以及预设的任务需求对teacher网络进行训练生成软标签；本地服务器根据每家医疗机构的医疗数据对student网络进行训练生成硬标签，并确定医疗数据对应的真实标签，根据软标签、硬标签和真实标签计算网络损失函数；根据损失函数计算网络损失，根据网络损失优化teacher网络以及student网络得到分布式知识蒸馏网络。本申请解决了现有技术中训练出的学习模型的性能较差的技术问题。

Description

一种面向分布式小规模医疗数据集的分类检测方法

技术领域

本申请涉及医疗数据处理技术领域，尤其涉及一种面向分布式小规模医疗数据集的分类检测方法。

背景技术

当前很多领域都涉及到隐私问题，尤其对于医疗领域，许多国家和医疗机构为防止恶意复制甚至篡改医疗患者敏感数据进行相关的法律保护和审查机制。但是这些规定像一把双刃剑，虽然能保护用户的隐私，但是客观上也会造成健康档案之间的相互协作和数据共享不足。

进一步，随着机器学习技术的快速发展，为了更好、更便捷、快速的对医疗数据进行分析，训练出一个成功的机器模型是有必要的，而训练机器模型需要足够的数据量。但是，目前由于上述政策和挑战，在实际应用过程中很难获得足够的医疗数据来训练机器学习模型。虽然国际上有很多医疗机构、科研机构和高校公开了很多医疗数据集，即便如此，可用于机器学习研究的数据集仍然非常有限，大量数据壁垒导致数据无法互联互通、大数据停滞在一些浅层应用难以向更深更广处推进。由于信息系统技术规范、基础信息数据标准的不统一和缺失，使得各医疗机构大量有价值的数据，变成了“数据孤岛”，进而导致训练出的学习模型的性能较差。

发明内容

本申请解决的技术问题是：针对现有技术中训练出的学习模型的性能较差，本申请提供了一种面向分布式小规模医疗数据集的分类检测的构建方法，本申请实施例所提供的方案中，提出了一种分布式知识蒸馏网络，在student网络之间不共享原始医疗数据的情况下，即在保证医疗数据隐私的情况下，通过teacher网络对分布在不同student网络中的医疗数据进行学习和指导训练，避免各医疗机构大量有价值的数据，变成了“数据孤岛”，可以学习分布在各个不同地方的所有数据的数据特征和分布，丰富了训练的数据量，比只从一个单一的小量数据集中训练出的模型的性能更高。

第一方面，本申请实施例提供一种面向分布式小规模医疗数据集的分类检测的构建方法，该方法包括：

在中央服务器中设置teacher网络，在多家医疗机构的本地服务器中分别设置student网络，其中，所述中央服务器能访问所述多家医疗机构的医疗数据，所述本地服务器只能访问其对应的所述医疗机构的医疗数据；

所述中央服务器根据从所述每家所述医疗机构中获取的医疗数据以及预设的任务需求对所述teacher网络进行训练生成软标签；

所述本地服务器根据所述每家医疗机构的医疗数据对所述student网络进行训练生成硬标签，并确定所述医疗数据对应的真实标签，根据所述软标签、所述硬标签和所述真实标签计算网络损失函数；

根据所述损失函数计算网络损失，根据所述网络损失优化所述teacher网络以及所述student网络得到分布式知识蒸馏网络。

可选地，所述teacher网络为Resnet-50网络，所述student网络为Resnet-18网络。

可选地，所述中央服务器根据从所述每家所述医疗机构中获取的医疗数据以及预设的任务需求对所述teacher网络进行训练生成软标签，包括：

将所述医疗数据通过输入层输入到所述teacher网络中，以及通过所述teacher网络的多个卷积层对所述医疗数据进行分布预测得到预测结果；

将所述预测结果输入到所述teacher网络中的平均池化和全连接层进行处理得到处理后的数据；

将所述处理后的数据输入到所述teacher网络中的输出层，通过所述输出层将所述处理后的数据进行计算生成所述软标签。

可选地，若所述预设的任务需求为将新型冠状肺炎患者CT图像和正常人的CT图像进行分类，所述医疗数据包括所述新型冠状肺炎患者的CT图像以及所述正常人的CT图像；所述软标签为CT图像的软化后的概率向量。

可选地，通过所述输出层将所述处理后的数据进行计算生成所述软标签，包括：

通过所述输入层将所述处理后的数据取自然对数得到任一类CT图像的自然对数值，将所述任一类CT图像对应的自然对数值与所有类CT图像的自然对数值进行比较得到生成所述任一类CT图像的概率；

根据预设的温度系数以及所述任一类CT图像的概率生成所述软化后的概率向量。

可选地，根据预设的温度系数以及所述任一类CT图像的概率生成所述软化后的概率向量，包括：

通过下式生成所述软化后的概率向量：

其中，q_i表示所述软化后的概率向量；T表示所述预设的温度系数；z_i表示第i类CT图像的概率；z_j表示第J类CT图像的概率。

可选地，根据所述软标签、所述硬标签和所述真实标签计算网络损失函数，包括：

分别计算所述软标签与所述真实标签之间的第一损失函数，所述硬标签与所述真实标签之间的第二损失函数，以及所述软标签与所述硬标签之间的第三损失函数；

根据所述第一损失函数、所述第二损失函数以及所述第三损失函数计算得到所述网络损失函数。

可选地，根据所述第一损失函数、所述第二损失函数以及所述第三损失函数计算得到所述网络损失函数，包括：

通过下式计算所述网络损失函数：

KDloss＝∑(Lambda·lossT(hard)+Lambda·lossS(hard))+Lambda·lossT(soft))

lossT(hard)＝CE(labe，labe_T)

lossS(hard)＝CE(labe，labe_S)

lossT(soft)＝CE(labe_T，labe_S)

其中，KDloss表示所述网络损失函数；Lambda表示预设的比例系数；lossT(hard)表示所述第一损失函数；lossS(hard)表示所述第二损失函数；lossT(soft)表示所述第三损失函数；CE表示交叉熵；labe表示所述真实标签；labe_T表示所述软标签；labe_S表示所述硬标签。

与现有技术相比，本申请所提供的实施例具有如下有益效果：本申请实施例所提供的方案中，通过在中央服务器中设置teacher网络，在多家医疗机构的本地服务器中分别设置student网络，中央服务器能访问多家医疗机构的医疗数据，本地服务器只能访问其对应的医疗机构的医疗数据，即提出了一种分布式知识蒸馏网络，在student网络之间不共享原始医疗数据的情况下，即在保证医疗数据隐私的情况下，通过teacher网络对分布在不同student网络中的医疗数据进行学习和指导训练，避免各医疗机构大量有价值的数据，变成了“数据孤岛”，可以学习分布在各个不同地方的所有数据的数据特征和分布，丰富了训练的数据量，比只从一个单一的小量数据集中训练出的模型的性能更高。

附图说明

图1为本申请实施例所提供的一种面向分布式小规模医疗数据集的分类检测的构建方法的流程示意图；

图2为本申请实施例所提供的一种分布式知识蒸馏网络的结构示意图；

图3为本申请实施例所提供的一种分布式知识蒸馏网络的损失函数示意图。

具体实施方式

本申请实施例提供的方案中，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

以下结合说明书附图对本申请实施例所提供的一种面向分布式小规模医疗数据集的分类检测的构建方法做进一步详细的说明，该方法具体实现方式可以包括以下步骤(方法流程如图1所示)：

步骤101，在中央服务器中设置teacher网络，在多家医疗机构的本地服务器中分别设置student网络，其中，所述中央服务器能访问所述多家医疗机构的医疗数据，所述本地服务器只能访问其对应的所述医疗机构的医疗数据。

参见图2，为本申请实施例提供的一种分布式知识蒸馏网络的结构示意图。在图2中，分布式知识蒸馏网络包括设置于中央服务器中的teacher网络，以及设置在多家医疗机构的本地服务器中的student网络，由于多家医疗机构一般位于不同的位置，即分布式知识蒸馏网络中多个student网络分布式设置。为了便于表示在图2中，用T表示teacher网络，用s1，s2，…，sn表示多个student网络。

进一步，在本申请实施例所提供的方案中，医疗数据包括但不限制于新型冠状患者以及正常人的CT图像，用户就诊记录等。teacher网络学习在当前所有分布式医疗机构中的真实医疗数据特征与分布，直到训练分布式的本地student网络，最终模型用作完成特定的医疗数据分类任务。

进一步，在本申请实施例所提供的方案中，teacher网络和student网络均为神经网络，由于神经网络的种类有多种，故teacher网络和student网络的种类也有多种，下面以一种为例进行说明。

在一种可能实现的方式中，所述teacher网络为Resnet-50网络，所述student网络为Resnet-18网络。

具体的，Resnet-18网络与其他res系列网络的差异主要在于layer1～layer4，其他的层都是相似的。

步骤102，所述中央服务器根据从所述每家所述医疗机构中获取的医疗数据以及预设的任务需求对所述teacher网络进行训练生成软标签。

具体的，在央服务器中设置teacher网络，在多家医疗机构的本地服务器中分别设置student网络之后，为了构建分布式知识蒸馏网络，还需要通过teacher网络指导训练student网络。

进一步，为了使得通过teacher网络指导训练student网络，需要通过对teacher网络进行训练生成软标签。具体的，在本申请实施例所提供的方案中，teacher网络训练生成软标签的方式有多种，下面以其中一种方式为例进行说明。

在一种可能实现的方式中，所述中央服务器根据从所述每家所述医疗机构中获取的医疗数据以及预设的任务需求对所述teacher网络进行训练生成软标签，包括：

具体的，在本申请实施例所提供的方案中，teacher网络是一个Resnet-50，医疗数据进入Resnet-50后先经过输入部分(conv1,bn1,relu,maxpool)；然后进入中间卷积部分(layer1,layer2,layer3,layer4)；最后数据经过一个平均池化和全连接层(avgpool,fc)输出得到结果。

进一步，在一种可能实现的方式中，若所述预设的任务需求为将新型冠状肺炎患者CT图像和正常人的CT图像进行分类，所述医疗数据包括所述新型冠状肺炎患者的CT图像以及所述正常人的CT图像；所述软标签为CT图像的软化后的概率向量。

进一步，在一种可能实现的方式中，通过所述输出层将所述处理后的数据进行计算生成所述软标签，包括：

进一步，在一种可能实现的方式中，根据预设的温度系数以及所述任一类CT图像的概率生成所述软化后的概率向量，包括：

通过下式生成所述软化后的概率向量：

具体的，在本申请实施例所提供的方案中，teacher网络中“softmax”输出层会将前面的卷积层得到的预测结果转化为概率值p。该层会对预测结果取自然对数得到某一类的logit值z_i，通过与所有类的logit值z_j进行比较，生成这个类的概率p_i；知识蒸馏通过对其进行修改，增加一个系数T，使得输出层会产生一个“软化”后的概率向量q_i，随着T参数的增大，对应的分布概率越平缓。概率向量q_i可用于之后知识蒸馏网络的损耗KD Loss的计算。

步骤103，所述本地服务器根据所述每家医疗机构的医疗数据对所述student网络进行训练生成硬标签，并确定所述医疗数据对应的真实标签，根据所述软标签、硬标签和所述真实标签计算网络损失函数。

具体的，在分布式知识蒸馏(Asyn Knowledge Distillation，AsynKD)框架中，多个student网络分布在n节点(医院、移动设备)。student网络可以选取Resnet-18，任一本地student网络Sj只访问存储在j节点的数据，因此，student网络以异步方式来进行训练。

进一步，本地服务器根据所述每家医疗机构的医疗数据对所述student网络进行训练生成硬标签之后，需要计算网络损失函数，即交叉熵损失函数，其中，交叉熵损失函数(Cross Entropy)的作用是表示预测样本标签和真实样本标签之间的差值。当预测结果与真实结果一致时，它们的交叉熵就为零；如果预测结果偏差较大，那么它们之间的交叉熵值就很大。在本申请实施例所提供的方案中，通过将teacher网络和student网络对应的损失函数进行混合，可以更好地衡量预测样本与真实样本之间的差异性和差值。在计算该函数的时候会对将中央teacher网络进行知识蒸馏，从而让本地student网络学习到中央teacher网络中的知识。

进一步，为了便于理解下面对计算网络损失函数的过程进行简要介绍。

在一种可能实现的方式中，根据所述软标签、所述硬标签和所述真实标签计算网络损失函数，包括：

进一步，在一种可能实现的方式中，根据所述第一损失函数、所述第二损失函数以及所述第三损失函数计算得到所述网络损失函数，包括：

通过下式计算所述网络损失函数：

KDloss＝∑(Lambda·lossT(hard)+Lambda·lossS(hard))+Lambda·lossT(soft))

lossT(hard)＝CE(labe，labe_T)

lossS(hard)＝CE(labe，labe_S)

lossT(soft)＝CE(labe_T，labe_S)

其中，KDloss表示所述网络损失函数；Lambda表示预设的比例系数；lossT(hard)表示所述第一损失函数；lossS(hard)表示所述第二损失函数；lossT(soft)表示所述第三损失函数；CE表示交叉熵；labe表示所述真实标签；labe_T表示所述软标签；labe_S表示所述硬标签

具体的，参见图3，在本申请实施例所提供的方案中，AsynKD网络由3个损失函数组成：

1.中央teacher网络的输出的soft标签与CT图像的真实标签之间的损失记为lossT(hard)：

lossT(hard)＝CE(labe，labe_T)

2.本地student网络的输出标签与CT图像的真实标签之间的损失记为lossS(hard)：

lossS(hard)＝CE(labe，labe_S)

3.本地student网络的输出标签与输出的soft标签之间的损失记为lossT(soft)：

lossT(soft)＝CE(labe_T，labe_S)

4.损失函数的表达式如下：

KDloss＝∑(Lambda·lossT(hard)+Lambda·lossS(hard))+Lambda·lossT(soft))

步骤104，根据所述损失函数计算网络损失，根据所述网络损失优化所述teacher网络以及所述student网络得到分布式知识蒸馏网络。

具体的，在AsynKD网络优化过程需要进行多次迭代，每次迭代将一个随机采样的数据元组提供给AsynKD网络，例如，以CT图像为例，用X表示输入的CT图像，用

表示teacher网络的输出的软标签(即soft标签)，S表示tudent网络，T表示teacher网络，然后按照下述的顺序迭代更新网络：

1)、S-update：Calculating the loss for j-th Student Sj and uρdate Sj，wherej＝1，2，...，N.

2)、T-update：After updating all Student model，T will be updated usingthe loss

进一步，将上述更新顺序过程定义为算法1，在算法1中将交叉熵损失引入算法中，在此基础上进一步对AsynKD网络进行分析，具体分析过程如下所示：

Algorithm 1 Training algorithm of ASynKD.

for number of total training iterationS do

for number of interations to train student-network do

for each node j∈[N]do

-Sample minibatch of of m auxiliary variables

from sj(x)and send to student-network and teacher-network.

-Generate m Soft label from teacher-network T，

and send to node j.

-Update the Student-network by descending itS Stochastic gradient：

end for

-Update the teacher-network by descending its Stochastic gradient：

end for

本申请实施例所提供的方案中，通过在中央服务器中设置teacher网络，在多家医疗机构的本地服务器中分别设置student网络，中央服务器能访问多家医疗机构的医疗数据，本地服务器只能访问其对应的医疗机构的医疗数据，即提出了一种分布式知识蒸馏网络，在student网络之间不共享原始医疗数据的情况下，即在保证医疗数据隐私的情况下，通过teacher网络对分布在不同student网络中的医疗数据进行学习和指导训练，避免各医疗机构大量有价值的数据，变成了“数据孤岛”，可以学习分布在各个不同地方的所有数据的数据特征和分布，丰富了训练的数据量，比只从一个单一的小量数据集中训练出的模型的性能更高。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种面向分布式小规模医疗数据集的分类检测的构建方法，其特征在于，包括：

根据所述损失函数计算网络损失，根据所述网络损失优化所述teacher网络以及所述student网络得到分布式知识蒸馏网络；

根据所述软标签、所述硬标签和所述真实标签计算网络损失函数，包括：

根据所述第一损失函数、所述第二损失函数以及所述第三损失函数计算得到所述网络损失函数，包括：

通过下式计算所述网络损失函数：

KDloss＝∑(Lambda·lossT(hard)+Lambda·lossS(hard))+Lambda·lossT(soft))

lossT(hard)＝CE(labe,labe_T)

lossS(hard)＝CE(labe,labe_S)

lossT(soft)＝CE(labe_T,labe_S)

2.如权利要求1所述的方法，其特征在于，所述teacher网络为Resnet-50网络，所述student网络为Resnet-18网络。

3.如权利要求2所述的方法，其特征在于，所述中央服务器根据从所述每家所述医疗机构中获取的医疗数据以及预设的任务需求对所述teacher网络进行训练生成软标签，包括：

4.如权利要求3所述的方法，其特征在于，若所述预设的任务需求为将新型冠状肺炎患者CT图像和正常人的CT图像进行分类，所述医疗数据包括所述新型冠状肺炎患者的CT图像以及所述正常人的CT图像；所述软标签为CT图像的软化后的概率向量。

5.如权利要求4所述的方法，其特征在于，通过所述输出层将所述处理后的数据进行计算生成所述软标签，包括：

6.如权利要求5所述的方法，其特征在于，根据预设的温度系数以及所述任一类CT图像的概率生成所述软化后的概率向量，包括：

通过下式生成所述软化后的概率向量：