CN113239972A

CN113239972A - 一种面向医学影像的人工智能辅助诊断模型构建系统

Info

Publication number: CN113239972A
Application number: CN202110420443.6A
Authority: CN
Inventors: 潘志方; 陈高翔; 胡剑策
Original assignee: Wenzhou Medical University
Current assignee: Wenzhou Medical University
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-08-10
Also published as: WO2022222458A1

Abstract

本发明提供一种面向医学影像的人工智能辅助诊断模型构建系统，包括依序连接的数据中心模块、数据脱敏模块、数据预处理模块和模型构建模块；数据中心模块接收并保存影像数据及其对应的标签；数据脱敏模块对每一影像数据均进行脱敏处理，去除隐私信息；数据预处理模块将所有去除隐私信息的影像数据格式转换成图像格式，并输入到相应的预处理管道进行数据处理；模型构建模块将预处理后的影像数据划分为训练和验证样本，导入基于联邦机器学习法集成的预训练模型进行训练和验证，得到最终的人工智能辅助诊断模型。实施本发明，能解决现有模型大多在构建完成后无法再基于最新的临床数据更新、数据出院安全性、不通用性等问题。

Description

一种面向医学影像的人工智能辅助诊断模型构建系统

技术领域

本发明涉及医学影像处理技术领域，尤其涉及一种面向医学影像的人工智能辅助诊断模型构建系统。

背景技术

医院影像数据体量巨大，安全有效地基于人工智能技术利用这些数据辅助临床诊断，是智慧医疗发展的必要趋势。很多大型医院目前都开始基于各自的病例数据构建出模型并应用于临床，一方面，由于各个医院之间的病例存在较大差异，另一方面，各个医院所采用的模型构建系统不互通、标准不统一，使得基于这种方式训练出的人工智能模型不具有通用性，可能不适用于其他医院以及难以推广到基层的社区医院。因此已有公司开始和多个医院同时合作，采集多个来源的数据以训练更有效的模型。

但是，上述数据采集方式工作量较大，并且数据出院可能会存在潜在的安全问题。基于上述原因，有必要形成一个完整的流程和通用的系统，使得各个医院训练的模型保持有效性的同时，能够在保证隐私不泄露的前提下集成并获得更具鲁棒性的通用模型。

发明内容

本发明实施例所要解决的技术问题在于，提供一种面向医学影像的人工智能辅助诊断模型构建系统，能解决现有模型大多在构建完成后无法再基于最新的临床数据更新、数据出院安全性、不通用性等问题。

为了解决上述技术问题，本发明实施例提供了一种面向医学影像的人工智能辅助诊断模型构建系统，包括依序连接的数据中心模块、数据脱敏模块、数据预处理模块和模型构建模块；其中，

所述数据中心模块，用于接收并保存来自各医院的影像数据及其对应的标签；其中，所述影像数据的类型包括CT影像、超声影像和MRI影像等；

所述数据脱敏模块，用于对每一影像数据均进行脱敏处理，去除每一影像数据各自所含的隐私信息；

所述数据预处理模块，用于根据每一影像数据的类型，将所有去除隐私信息的影像数据的格式均转换成nii图像格式，并进一步自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理；

所述模型构建模块，用于将预处理后的影像数据划分为训练集样本和验证集样本，并将所述训练集样本和所述验证集样本均导入基于联邦机器学习法集成有多个医院私有任务模型所形成的预训练模型进行训练和验证，得到最终的人工智能辅助诊断模型。

其中，所述数据脱敏模块包括隐私信息提取子模块和去除子模块；其中，

所述隐私信息提取子模块，用于对每一影像数据均采用OCR文字提取，得到每一影像数据各自所含的隐私信息；其中，隐私信息包括患者姓名、患者编号、影像号和医院名称；

所述去除子模块，用于去除每一影像数据各自所含的隐私信息。

其中，所述数据预处理模块包括数据格式转换子模块和数据预处理子模块；其中，

所述数据格式转换子模块，用于根据每一影像数据的类型，通过DICOM适配器处理将所有去除隐私信息的影像数据的格式均转换成nii图像格式；

所述数据预处理子模块，用于自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理。

其中，若当前转换格式后的影像数据的类型为CT图像，则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于所有图像前景体素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。

其中，若当前转换格式后的影像数据的类型为超声图像，则对应的预处理管道包括采用斑点去噪算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。

其中，若当前转换格式后的影像数据的类型为MRI图像，则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强、伽玛校正及偏差场校正的数据增强子模块。

其中，若当前转换格式后的影像数据的类型为除CT图像、超声图像及MRI图像之外的其他类型图像，则对应的默认预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。

其中，所述模型构建模块包括数据样本划分子模块、预训练模型选择及构建子模块和模型训练及验证子模块；其中，

所述数据样本划分子模块，用于将预处理后的影像数据划分为训练集样本和验证集样本；

所述预训练模型选择及构建子模块，用于基于联邦机器学习法集成有多个医院私有任务模型形成预训练模型，并确定所述预训练模型所采用的神经网络模型、全监督损失函数和优化器；

所述模型训练及验证子模块，用于将所述训练集样本和所述验证集样本均导入所述预训练模型进行训练和验证，得到最终的人工智能辅助诊断模型。

其中，所述联邦机器学习法基于本地模型和全局通用模型的预测一致性，根据联邦学习次数来实现对无标签数据的训练。

实施本发明实施例，具有以下有益效果：

本发明解决了现有模型大多在构建完成后无法再基于最新的临床数据进行更新的问题，解决了同时利用各个医院数据训练人工智能模型可能导致的安全问题，解决了现有面向医学影像的模型不适用于多种任务和多种影像类型，即不具有通用性的问题，解决了现有医学领域的联邦学习方法少有充分利用无标签数据的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的一种面向医学影像的人工智能辅助诊断模型构建系统的结构示意图；

图2为为本发明实施例提供的一种面向医学影像的人工智能辅助诊断模型构建系统的应用场景图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提出的一种面向医学影像的人工智能辅助诊断模型构建系统，包括依序连接的数据中心模块1、数据脱敏模块2、数据预处理模块3和模型构建模块4；其中，

数据中心模块1，用于接收并保存来自各医院的影像数据及其对应的标签；其中，该影像数据的类型包括CT影像、超声影像和MRI影像等。

数据脱敏模块2，用于对每一影像数据均进行脱敏处理，去除每一影像数据各自所含的隐私信息。其中，该数据脱敏模块2具体包括隐私信息提取子模块和去除子模块；隐私信息提取子模块，用于对每一影像数据均采用OCR文字提取，得到每一影像数据各自所含的隐私信息；隐私信息包括但不限于患者姓名、患者编号、影像号和医院名称；去除子模块，用于去除每一影像数据各自所含的隐私信息。

数据预处理模块3，用于根据每一影像数据的类型，将所有去除隐私信息的影像数据的格式均转换成nii图像格式，并进一步自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理。其中，该数据预处理模块3包括数据格式转换子模块和数据预处理子模块；数据格式转换子模块，用于根据每一影像数据的类型，通过DICOM适配器处理将所有去除隐私信息的影像数据的格式均转换成易于后续处理的nii图像格式；数据预处理子模块，用于自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理。

模型构建模块4，用于将预处理后的影像数据划分为训练集样本和验证集样本，并将训练集样本和验证集样本均导入基于联邦机器学习法集成有多个医院私有任务模型所形成的预训练模型进行训练和验证，得到最终的人工智能辅助诊断模型。其中，该模型构建模块4包括数据样本划分子模块、预训练模型选择及构建子模块和模型训练及验证子模块；数据样本划分子模块，用于将预处理后的影像数据划分为训练集样本和验证集样本；预训练模型选择及构建子模块，用于基于联邦机器学习法集成有多个医院私有任务模型形成预训练模型，并确定预训练模型所采用的神经网络模型、全监督损失函数和优化器；模型训练及验证子模块，用于将训练集样本和验证集样本均导入预训练模型进行训练和验证，得到最终的人工智能辅助诊断模型。

在本发明实施例中，若当前转换格式后的影像数据的类型为CT图像，则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于所有图像前景体素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。

若当前转换格式后的影像数据的类型为超声图像，则对应的预处理管道包括采用斑点去噪算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。

若当前转换格式后的影像数据的类型为MRI图像，则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强、伽玛校正及偏差场校正的数据增强子模块。

若当前转换格式后的影像数据的类型为除CT图像、超声图像及MRI图像之外的其他类型图像，则对应的默认预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。

在本发明实施例中，联邦机器学习法根据联邦学习次数来实现对无标签数据的训练，即每个医院私有任务模型都在本地训练，一旦所有医院私有任务模型集成后，若是第一次训练(即第一次联邦学习)，则不训练无标签数据，若之前已在系统中进行过联邦学习(即第二次及之后的联邦学习)，则在上述每次有标签数据迭代后，增加对无标签数据的训练过程。

如图2所示，对本发明实施例中的一种面向医学影像的人工智能辅助诊断模型构建系统的应用场景做进一步说明：

数据中心模块存储原始医疗数据，包括影像数据和对应的标签数据。其中影像数据来自于影像归档与通讯系统(picture archiving and communication systems，PACS)，影像模态主要包括CT、超声和MRI等。数据由医生在工作站客户端进行批量选取和发送，根据医生选取影像数据的模态、解剖部位以及想要构建新的模型(分类、分割和诊断等)或者直接应用已构建模型进行辅助诊断，每次都将自动生成配置文件用于后续模型的流程，配置文件也可由医生手动替换或修改。影像数据对应的标签由医生手动标注产生。另外，若存在没有标签的同一任务影像数据，医生也可批量选取后与有标签数据同时发送，数据和配置文件将输入到后续处理中。

数据脱敏模块去除患者和医院的隐私信息。对患者影像识别的方法采用OCR文字提取，可在影像中精确提取出患者姓名、患者编号、影像号和医院名称等敏感信息，对其进行脱敏处理，之后将处理后的影像数据发送到数据预处理模块。

数据预处理模块对已脱敏的数据进一步预处理使其适用于模型的构建和部署。首先，数据将经过DICOM适配器处理，由DICOM格式文件转换成易于后续处理的nii图像格式。之后，根据配置文件自动将不同模态的影像数据输入到不同的预处理管道。默认的预处理管道包括采用中值滤波方法的去噪模块、采用三阶样条插值的重采样模块、采用Z-Score的标准化模块和采用高斯模糊、对比度增强和伽玛校正的数据增强模块。

除此之外，主要针对三种影像(CT、超声和MRI影像)对默认的预处理管道进行了修改：

若是CT图像，则对于默认预处理管道中的Z-Score标准化模块进行修改：默认基于每个图像的所有像素值的均值和标准差进行Z-Score标准化，对于CT图像，则忽略图像背景，仅基于所有图像前景体素值的均值和标准差进行Z-Score标准化。其中，Z-Score标准化是指将数据按比例缩放，使之保持在一个特定的区间。

若是超声图像，则需要对于默认预处理管道中的去噪模块进行修改：由于超声图像成像过程会产生特有的斑点噪声，因此将默认中值滤波算法替换成更适用的斑点去噪算法。

若是MRI图像，则在数据增强模块中加入偏差场校正算法：由于磁场的不均匀性，成像过程中生成的原始MRI会受亮度不均匀性的影响，也称为偏置场。因此在数据增强模块中加入最常用的N4偏置场校正算法对图像进行处理。

数据内部存储模块存储经过脱敏和预处理的影像数据和标签数据。通过对有标签的影像数据和无标签的影像数据进行区分存储并分别构建有标签数据集和无标签数据集。另外还将根据配置文件对不同任务的数据进行分类存储，同样根据配置文件确定此次流程的数据是用于构建新的模型还是应用已有模型进行预测，之后的模型构建模块与模型部署模块将分别读取数据进行后续的操作。存储模块应至少包括一种类型的可读存储介质，包括闪存、硬盘和光盘等。

模型构建模块根据配置文件，若数据用于训练模型，则将数据输入到不同任务对应的模型训练管道。

首先将有标签的影像数据集分为5份，其中4份作为训练集，1份作为验证集。若此次流程存在无标签训练数据，且之前已在系统中进行过联邦学习，则将基于后续的全局通用模型构建一致性损失模块进行训练。

其次，采用后续联邦学习集成模块中的全局模型作为预训练模型，基于最新数据微调训练最新的模型；若是第一次训练，则调用的是全局初始化模型，若之前已在系统中进行过联邦学习，则调用的是全局通用模型。此时，涉及到的神经网络需要根据不同的任务选取现有的开源网络作为框架基础，主要包括用于目标检测的RetinaNet，用于分类应用的InceptionV3，和图像分割的U-Net；涉及到的全监督损失函数选择用于目标检测的FocalLoss，用于分类任务的Cross-Entropy Loss以及用于分割任务的Cross-Entropy Loss与Dice Loss之和；涉及到的优化器统一选择Stochastic Gradient Descent(SGD)作为所有任务的优化器，优化器中的Nesterov momentum系数为0.99，初始学习率为0.01。涉及到的训练方案为每次流程的模型构建都采用5折交叉验证，即将前述分成5份的影像数据都分别作为验证集训练出5个模型，对5个模型采用平均集成策略得到最终的模型，从而充分利用输入的影像数据。

需要说明的是，联邦学习集成用于集成训练本院构建的模型和采用同样系统构建出的其他医院的同一任务模型。可以联合不同的医院进行协作训练，但是数据并不出院，仅需要各个医院共享经过训练的模型及其参数进行全局通用模型的构建。该模块可以分为两个部分：服务器端和客户端。

实现时既可以选择任一家医院作为服务器端，其他医院作为客户端，也可以选择一家云服务公司作为服务器端，所有医院作为客户端。该模块的具体实现步骤如下：

(1)启动服务器。服务器端设置通信端口，SSL证书，最大和最小客户端数。

(2)启动客户端。对客户端配置进行初始化，然后向服务器发出登录请求。

(3)客户端从服务器下载当前特定任务所对应的全局初始化模型(第一次联邦学习)或已集成的全局通用模型(第二次及之后的联邦学习)作为预训练模型，如模型构建模块所述，并使用本地数据集对模型进行训练：

定义客户端模型c的初始参数为θ_init，对于训练过程中的每次迭代j∈1,2,···,n，每个客户端在本地训练模型，从而使各个医院无需访问其他医院的数据。针对有标签数据，通过优化模型构建模块中定义的全监督损失模块进行训练，如下式所示：

另外，由于本地数据集可能包含有标签数据和无标签数据，若服务器仅存在全局初始化模型(第一次联邦学习)，则不训练无标签数据。若存在已集成的全局通用模型(第二次及之后的联邦学习)，则在上述每次有标签数据迭代后，增加对无标签数据的训练过程。

具体来说，对于每次迭代过程，通过假设同一无标签数据在分别输入本地模型和全局通用模型后的输出应具有一致性，在全监督损失模块的基础上增加一致性损失模块：

其中c(u_j；θ)表示未标记数据输入本地正在训练的模型后的预测结果，h(u_j；θ)表示未标记数据输入全局通用模型后的预测结果，一致性损失

基于Kullback-Leibler距离计算得到。

总的来说，将每个客户端i的学习率定义为λ_i，在客户端训练时，通过下式调整模型参数：

迭代完成后，得到模型参数的变化量：

Δθ←θ-θinit

然后，仅将每个客户端模型的参数变化Δθ_i以及其训练迭代次数n_i提交到服务器。值得注意的是，所有客户端可以自己控制将要发送给服务器的模型权重，即将多少百分比的模型参数经过模型加密模块后得到加密模型，再共享给服务器进行最终的模型聚合。

(4)服务器从预先定义的最小数量的客户端收到模型后，便会将它们聚合为新的全局通用模型：

服务器端管理着整个模型的训练进度，并将特定任务所对应的全局初始化模型(第一次联邦学习)或已集成的全局通用模型(第二次及之后的联邦学习)发送给所有参与的客户端。一台服务器同时与多个客户端进行通信，模型结构也在服务器和客户端之间共享。通信过程中仅涉及神经网络模型权重的传递，这对所有客户端都是同步的。来自一个客户端的数据对于服务器和其他客户端都是不可见的。除了简单地对模型的加权聚合，在服务器端通常没有复杂的计算。在联邦学习训练期间，服务器会同时从客户端获得参数θ，汇总这些参数，然后将新的模型权重发送回客户端。具体来说，对于服务器集成过程的每一轮，在等待到所有客户端发送的各自模型的Δθ_i和n_i后，计算各个客户端的权重。假设客户端的数量为C，客户端的权重主要由两部分组成：基于迭代次数n_i的权重和所有客户端的聚合权重W，如下式所示：

之后，对于联邦学习所需的同步轮次t＝1,2,···,T，服务器基于Δθ_i实现了权重聚合，如下式所示，以加权求和的形式进行：

所有聚合轮次完成后，得到新的全局通用模型及其参数，模型将在下次联邦学习时分发给每个客户端作为预训练模型。

模型外部存储模块存储可用于分享的各个任务的全局通用模型。分享的全局通用模型可以用于计算未标记数据的一致性损失，也可作为各个参与者医院的预训练模型以及直接应用的部署模型，除此之外，也可直接共享给没有资源参与训练和构建模型的基层社区医院，其可直接作为部署模型直接应用于临床辅助诊断。存储模块应至少包括一种类型的可读存储介质，包括闪存、硬盘和光盘等。

模型部署模块部署已经构建的模型并输出辅助诊断结果。在数据经过数据内部存储模块后，若配置文件中显示此次数据用于应用已有模型进行预测，则直接发送到该模块。同样根据配置文件确认相应的任务，将数据输入到不同任务对应的模型部署管道中。主要包括数据读取模块、已构建模型模块、结果后处理模块和结果输出模块。其中已构建模型来源于模型外部存储模块对应任务的全局通用模型，而结果后处理模块，基于DICOM适配器将结果转换回DICOM格式。结果输出模块则在接收到DICOM格式结果后直接将输出结果返回到医生工作站的操作界面上，辅助医生的诊断。

实施本发明实施例，具有以下有益效果：

值得注意的是，上述系统实施例中，所包括的各个系统模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种面向医学影像的人工智能辅助诊断模型构建系统，其特征在于，包括依序连接的数据中心模块、数据脱敏模块、数据预处理模块和模型构建模块；其中，

2.如权利要求1所述的面向医学影像的人工智能辅助诊断模型构建系统，其特征在于，所述数据脱敏模块包括隐私信息提取子模块和去除子模块；其中，

3.如权利要求1所述的面向医学影像的人工智能辅助诊断模型构建系统，其特征在于，所述数据预处理模块包括数据格式转换子模块和数据预处理子模块；其中，

4.如权利要求3所述的面向医学影像的人工智能辅助诊断模型构建系统，其特征在于，若当前转换格式后的影像数据的类型为CT图像，则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于所有图像前景体素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。

5.如权利要求3所述的面向医学影像的人工智能辅助诊断模型构建系统，其特征在于，若当前转换格式后的影像数据的类型为超声图像，则对应的预处理管道包括采用斑点去噪算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。

6.如权利要求3所述的面向医学影像的人工智能辅助诊断模型构建系统，其特征在于，若当前转换格式后的影像数据的类型为MRI图像，则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强、伽玛校正及偏差场校正的数据增强子模块。

7.如权利要求3所述的面向医学影像的人工智能辅助诊断模型构建系统，其特征在于，若当前转换格式后的影像数据的类型为除CT图像、超声图像及MRI图像之外的其他类型图像，则对应的默认预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。

8.如权利要求1所述的面向医学影像的人工智能辅助诊断模型构建系统，其特征在于，所述模型构建模块包括数据样本划分子模块、预训练模型选择及构建子模块和模型训练及验证子模块；其中，

9.如权利要求8所述的面向医学影像的人工智能辅助诊断模型构建系统，其特征在于，所述联邦机器学习法基于本地模型和全局通用模型的预测一致性，根据联邦学习次数来实现对无标签数据的训练。