CN113239972A - 一种面向医学影像的人工智能辅助诊断模型构建系统 - Google Patents
一种面向医学影像的人工智能辅助诊断模型构建系统 Download PDFInfo
- Publication number
- CN113239972A CN113239972A CN202110420443.6A CN202110420443A CN113239972A CN 113239972 A CN113239972 A CN 113239972A CN 202110420443 A CN202110420443 A CN 202110420443A CN 113239972 A CN113239972 A CN 113239972A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- image
- model
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 28
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000007781 pre-processing Methods 0.000 claims abstract description 42
- 238000012795 verification Methods 0.000 claims abstract description 17
- 238000000586 desensitisation Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 238000012937 correction Methods 0.000 claims description 18
- 238000012952 Resampling Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000002604 ultrasonography Methods 0.000 claims description 5
- 238000002759 z-score normalization Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims 4
- 238000005070 sampling Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 19
- 230000008569 process Effects 0.000 description 13
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000006854 communication Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4023—Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10088—Magnetic resonance imaging [MRI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10132—Ultrasound image
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供一种面向医学影像的人工智能辅助诊断模型构建系统,包括依序连接的数据中心模块、数据脱敏模块、数据预处理模块和模型构建模块;数据中心模块接收并保存影像数据及其对应的标签;数据脱敏模块对每一影像数据均进行脱敏处理,去除隐私信息;数据预处理模块将所有去除隐私信息的影像数据格式转换成图像格式,并输入到相应的预处理管道进行数据处理;模型构建模块将预处理后的影像数据划分为训练和验证样本,导入基于联邦机器学习法集成的预训练模型进行训练和验证,得到最终的人工智能辅助诊断模型。实施本发明,能解决现有模型大多在构建完成后无法再基于最新的临床数据更新、数据出院安全性、不通用性等问题。
Description
技术领域
本发明涉及医学影像处理技术领域,尤其涉及一种面向医学影像的人工智能辅助诊断模型构建系统。
背景技术
医院影像数据体量巨大,安全有效地基于人工智能技术利用这些数据辅助临床诊断,是智慧医疗发展的必要趋势。很多大型医院目前都开始基于各自的病例数据构建出模型并应用于临床,一方面,由于各个医院之间的病例存在较大差异,另一方面,各个医院所采用的模型构建系统不互通、标准不统一,使得基于这种方式训练出的人工智能模型不具有通用性,可能不适用于其他医院以及难以推广到基层的社区医院。因此已有公司开始和多个医院同时合作,采集多个来源的数据以训练更有效的模型。
但是,上述数据采集方式工作量较大,并且数据出院可能会存在潜在的安全问题。基于上述原因,有必要形成一个完整的流程和通用的系统,使得各个医院训练的模型保持有效性的同时,能够在保证隐私不泄露的前提下集成并获得更具鲁棒性的通用模型。
发明内容
本发明实施例所要解决的技术问题在于,提供一种面向医学影像的人工智能辅助诊断模型构建系统,能解决现有模型大多在构建完成后无法再基于最新的临床数据更新、数据出院安全性、不通用性等问题。
为了解决上述技术问题,本发明实施例提供了一种面向医学影像的人工智能辅助诊断模型构建系统,包括依序连接的数据中心模块、数据脱敏模块、数据预处理模块和模型构建模块;其中,
所述数据中心模块,用于接收并保存来自各医院的影像数据及其对应的标签;其中,所述影像数据的类型包括CT影像、超声影像和MRI影像等;
所述数据脱敏模块,用于对每一影像数据均进行脱敏处理,去除每一影像数据各自所含的隐私信息;
所述数据预处理模块,用于根据每一影像数据的类型,将所有去除隐私信息的影像数据的格式均转换成nii图像格式,并进一步自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理;
所述模型构建模块,用于将预处理后的影像数据划分为训练集样本和验证集样本,并将所述训练集样本和所述验证集样本均导入基于联邦机器学习法集成有多个医院私有任务模型所形成的预训练模型进行训练和验证,得到最终的人工智能辅助诊断模型。
其中,所述数据脱敏模块包括隐私信息提取子模块和去除子模块;其中,
所述隐私信息提取子模块,用于对每一影像数据均采用OCR文字提取,得到每一影像数据各自所含的隐私信息;其中,隐私信息包括患者姓名、患者编号、影像号和医院名称;
所述去除子模块,用于去除每一影像数据各自所含的隐私信息。
其中,所述数据预处理模块包括数据格式转换子模块和数据预处理子模块;其中,
所述数据格式转换子模块,用于根据每一影像数据的类型,通过DICOM适配器处理将所有去除隐私信息的影像数据的格式均转换成nii图像格式;
所述数据预处理子模块,用于自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理。
其中,若当前转换格式后的影像数据的类型为CT图像,则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于所有图像前景体素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。
其中,若当前转换格式后的影像数据的类型为超声图像,则对应的预处理管道包括采用斑点去噪算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。
其中,若当前转换格式后的影像数据的类型为MRI图像,则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强、伽玛校正及偏差场校正的数据增强子模块。
其中,若当前转换格式后的影像数据的类型为除CT图像、超声图像及MRI图像之外的其他类型图像,则对应的默认预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。
其中,所述模型构建模块包括数据样本划分子模块、预训练模型选择及构建子模块和模型训练及验证子模块;其中,
所述数据样本划分子模块,用于将预处理后的影像数据划分为训练集样本和验证集样本;
所述预训练模型选择及构建子模块,用于基于联邦机器学习法集成有多个医院私有任务模型形成预训练模型,并确定所述预训练模型所采用的神经网络模型、全监督损失函数和优化器;
所述模型训练及验证子模块,用于将所述训练集样本和所述验证集样本均导入所述预训练模型进行训练和验证,得到最终的人工智能辅助诊断模型。
其中,所述联邦机器学习法基于本地模型和全局通用模型的预测一致性,根据联邦学习次数来实现对无标签数据的训练。
实施本发明实施例,具有以下有益效果:
本发明解决了现有模型大多在构建完成后无法再基于最新的临床数据进行更新的问题,解决了同时利用各个医院数据训练人工智能模型可能导致的安全问题,解决了现有面向医学影像的模型不适用于多种任务和多种影像类型,即不具有通用性的问题,解决了现有医学领域的联邦学习方法少有充分利用无标签数据的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提供的一种面向医学影像的人工智能辅助诊断模型构建系统的结构示意图;
图2为为本发明实施例提供的一种面向医学影像的人工智能辅助诊断模型构建系统的应用场景图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提出的一种面向医学影像的人工智能辅助诊断模型构建系统,包括依序连接的数据中心模块1、数据脱敏模块2、数据预处理模块3和模型构建模块4;其中,
数据中心模块1,用于接收并保存来自各医院的影像数据及其对应的标签;其中,该影像数据的类型包括CT影像、超声影像和MRI影像等。
数据脱敏模块2,用于对每一影像数据均进行脱敏处理,去除每一影像数据各自所含的隐私信息。其中,该数据脱敏模块2具体包括隐私信息提取子模块和去除子模块;隐私信息提取子模块,用于对每一影像数据均采用OCR文字提取,得到每一影像数据各自所含的隐私信息;隐私信息包括但不限于患者姓名、患者编号、影像号和医院名称;去除子模块,用于去除每一影像数据各自所含的隐私信息。
数据预处理模块3,用于根据每一影像数据的类型,将所有去除隐私信息的影像数据的格式均转换成nii图像格式,并进一步自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理。其中,该数据预处理模块3包括数据格式转换子模块和数据预处理子模块;数据格式转换子模块,用于根据每一影像数据的类型,通过DICOM适配器处理将所有去除隐私信息的影像数据的格式均转换成易于后续处理的nii图像格式;数据预处理子模块,用于自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理。
模型构建模块4,用于将预处理后的影像数据划分为训练集样本和验证集样本,并将训练集样本和验证集样本均导入基于联邦机器学习法集成有多个医院私有任务模型所形成的预训练模型进行训练和验证,得到最终的人工智能辅助诊断模型。其中,该模型构建模块4包括数据样本划分子模块、预训练模型选择及构建子模块和模型训练及验证子模块;数据样本划分子模块,用于将预处理后的影像数据划分为训练集样本和验证集样本;预训练模型选择及构建子模块,用于基于联邦机器学习法集成有多个医院私有任务模型形成预训练模型,并确定预训练模型所采用的神经网络模型、全监督损失函数和优化器;模型训练及验证子模块,用于将训练集样本和验证集样本均导入预训练模型进行训练和验证,得到最终的人工智能辅助诊断模型。
在本发明实施例中,若当前转换格式后的影像数据的类型为CT图像,则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于所有图像前景体素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。
若当前转换格式后的影像数据的类型为超声图像,则对应的预处理管道包括采用斑点去噪算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。
若当前转换格式后的影像数据的类型为MRI图像,则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强、伽玛校正及偏差场校正的数据增强子模块。
若当前转换格式后的影像数据的类型为除CT图像、超声图像及MRI图像之外的其他类型图像,则对应的默认预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。
在本发明实施例中,联邦机器学习法根据联邦学习次数来实现对无标签数据的训练,即每个医院私有任务模型都在本地训练,一旦所有医院私有任务模型集成后,若是第一次训练(即第一次联邦学习),则不训练无标签数据,若之前已在系统中进行过联邦学习(即第二次及之后的联邦学习),则在上述每次有标签数据迭代后,增加对无标签数据的训练过程。
如图2所示,对本发明实施例中的一种面向医学影像的人工智能辅助诊断模型构建系统的应用场景做进一步说明:
数据中心模块存储原始医疗数据,包括影像数据和对应的标签数据。其中影像数据来自于影像归档与通讯系统(picture archiving and communication systems,PACS),影像模态主要包括CT、超声和MRI等。数据由医生在工作站客户端进行批量选取和发送,根据医生选取影像数据的模态、解剖部位以及想要构建新的模型(分类、分割和诊断等)或者直接应用已构建模型进行辅助诊断,每次都将自动生成配置文件用于后续模型的流程,配置文件也可由医生手动替换或修改。影像数据对应的标签由医生手动标注产生。另外,若存在没有标签的同一任务影像数据,医生也可批量选取后与有标签数据同时发送,数据和配置文件将输入到后续处理中。
数据脱敏模块去除患者和医院的隐私信息。对患者影像识别的方法采用OCR文字提取,可在影像中精确提取出患者姓名、患者编号、影像号和医院名称等敏感信息,对其进行脱敏处理,之后将处理后的影像数据发送到数据预处理模块。
数据预处理模块对已脱敏的数据进一步预处理使其适用于模型的构建和部署。首先,数据将经过DICOM适配器处理,由DICOM格式文件转换成易于后续处理的nii图像格式。之后,根据配置文件自动将不同模态的影像数据输入到不同的预处理管道。默认的预处理管道包括采用中值滤波方法的去噪模块、采用三阶样条插值的重采样模块、采用Z-Score的标准化模块和采用高斯模糊、对比度增强和伽玛校正的数据增强模块。
除此之外,主要针对三种影像(CT、超声和MRI影像)对默认的预处理管道进行了修改:
若是CT图像,则对于默认预处理管道中的Z-Score标准化模块进行修改:默认基于每个图像的所有像素值的均值和标准差进行Z-Score标准化,对于CT图像,则忽略图像背景,仅基于所有图像前景体素值的均值和标准差进行Z-Score标准化。其中,Z-Score标准化是指将数据按比例缩放,使之保持在一个特定的区间。
若是超声图像,则需要对于默认预处理管道中的去噪模块进行修改:由于超声图像成像过程会产生特有的斑点噪声,因此将默认中值滤波算法替换成更适用的斑点去噪算法。
若是MRI图像,则在数据增强模块中加入偏差场校正算法:由于磁场的不均匀性,成像过程中生成的原始MRI会受亮度不均匀性的影响,也称为偏置场。因此在数据增强模块中加入最常用的N4偏置场校正算法对图像进行处理。
数据内部存储模块存储经过脱敏和预处理的影像数据和标签数据。通过对有标签的影像数据和无标签的影像数据进行区分存储并分别构建有标签数据集和无标签数据集。另外还将根据配置文件对不同任务的数据进行分类存储,同样根据配置文件确定此次流程的数据是用于构建新的模型还是应用已有模型进行预测,之后的模型构建模块与模型部署模块将分别读取数据进行后续的操作。存储模块应至少包括一种类型的可读存储介质,包括闪存、硬盘和光盘等。
模型构建模块根据配置文件,若数据用于训练模型,则将数据输入到不同任务对应的模型训练管道。
首先将有标签的影像数据集分为5份,其中4份作为训练集,1份作为验证集。若此次流程存在无标签训练数据,且之前已在系统中进行过联邦学习,则将基于后续的全局通用模型构建一致性损失模块进行训练。
其次,采用后续联邦学习集成模块中的全局模型作为预训练模型,基于最新数据微调训练最新的模型;若是第一次训练,则调用的是全局初始化模型,若之前已在系统中进行过联邦学习,则调用的是全局通用模型。此时,涉及到的神经网络需要根据不同的任务选取现有的开源网络作为框架基础,主要包括用于目标检测的RetinaNet,用于分类应用的InceptionV3,和图像分割的U-Net;涉及到的全监督损失函数选择用于目标检测的FocalLoss,用于分类任务的Cross-Entropy Loss以及用于分割任务的Cross-Entropy Loss与Dice Loss之和;涉及到的优化器统一选择Stochastic Gradient Descent(SGD)作为所有任务的优化器,优化器中的Nesterov momentum系数为0.99,初始学习率为0.01。涉及到的训练方案为每次流程的模型构建都采用5折交叉验证,即将前述分成5份的影像数据都分别作为验证集训练出5个模型,对5个模型采用平均集成策略得到最终的模型,从而充分利用输入的影像数据。
需要说明的是,联邦学习集成用于集成训练本院构建的模型和采用同样系统构建出的其他医院的同一任务模型。可以联合不同的医院进行协作训练,但是数据并不出院,仅需要各个医院共享经过训练的模型及其参数进行全局通用模型的构建。该模块可以分为两个部分:服务器端和客户端。
实现时既可以选择任一家医院作为服务器端,其他医院作为客户端,也可以选择一家云服务公司作为服务器端,所有医院作为客户端。该模块的具体实现步骤如下:
(1)启动服务器。服务器端设置通信端口,SSL证书,最大和最小客户端数。
(2)启动客户端。对客户端配置进行初始化,然后向服务器发出登录请求。
(3)客户端从服务器下载当前特定任务所对应的全局初始化模型(第一次联邦学习)或已集成的全局通用模型(第二次及之后的联邦学习)作为预训练模型,如模型构建模块所述,并使用本地数据集对模型进行训练:
定义客户端模型c的初始参数为θinit,对于训练过程中的每次迭代j∈1,2,···,n,每个客户端在本地训练模型,从而使各个医院无需访问其他医院的数据。针对有标签数据,通过优化模型构建模块中定义的全监督损失模块进行训练,如下式所示:
另外,由于本地数据集可能包含有标签数据和无标签数据,若服务器仅存在全局初始化模型(第一次联邦学习),则不训练无标签数据。若存在已集成的全局通用模型(第二次及之后的联邦学习),则在上述每次有标签数据迭代后,增加对无标签数据的训练过程。
具体来说,对于每次迭代过程,通过假设同一无标签数据在分别输入本地模型和全局通用模型后的输出应具有一致性,在全监督损失模块的基础上增加一致性损失模块:
总的来说,将每个客户端i的学习率定义为λi,在客户端训练时,通过下式调整模型参数:
迭代完成后,得到模型参数的变化量:
Δθ←θ-θinit
然后,仅将每个客户端模型的参数变化Δθi以及其训练迭代次数ni提交到服务器。值得注意的是,所有客户端可以自己控制将要发送给服务器的模型权重,即将多少百分比的模型参数经过模型加密模块后得到加密模型,再共享给服务器进行最终的模型聚合。
(4)服务器从预先定义的最小数量的客户端收到模型后,便会将它们聚合为新的全局通用模型:
服务器端管理着整个模型的训练进度,并将特定任务所对应的全局初始化模型(第一次联邦学习)或已集成的全局通用模型(第二次及之后的联邦学习)发送给所有参与的客户端。一台服务器同时与多个客户端进行通信,模型结构也在服务器和客户端之间共享。通信过程中仅涉及神经网络模型权重的传递,这对所有客户端都是同步的。来自一个客户端的数据对于服务器和其他客户端都是不可见的。除了简单地对模型的加权聚合,在服务器端通常没有复杂的计算。在联邦学习训练期间,服务器会同时从客户端获得参数θ,汇总这些参数,然后将新的模型权重发送回客户端。具体来说,对于服务器集成过程的每一轮,在等待到所有客户端发送的各自模型的Δθi和ni后,计算各个客户端的权重。假设客户端的数量为C,客户端的权重主要由两部分组成:基于迭代次数ni的权重和所有客户端的聚合权重W,如下式所示:
之后,对于联邦学习所需的同步轮次t=1,2,···,T,服务器基于Δθi实现了权重聚合,如下式所示,以加权求和的形式进行:
所有聚合轮次完成后,得到新的全局通用模型及其参数,模型将在下次联邦学习时分发给每个客户端作为预训练模型。
模型外部存储模块存储可用于分享的各个任务的全局通用模型。分享的全局通用模型可以用于计算未标记数据的一致性损失,也可作为各个参与者医院的预训练模型以及直接应用的部署模型,除此之外,也可直接共享给没有资源参与训练和构建模型的基层社区医院,其可直接作为部署模型直接应用于临床辅助诊断。存储模块应至少包括一种类型的可读存储介质,包括闪存、硬盘和光盘等。
模型部署模块部署已经构建的模型并输出辅助诊断结果。在数据经过数据内部存储模块后,若配置文件中显示此次数据用于应用已有模型进行预测,则直接发送到该模块。同样根据配置文件确认相应的任务,将数据输入到不同任务对应的模型部署管道中。主要包括数据读取模块、已构建模型模块、结果后处理模块和结果输出模块。其中已构建模型来源于模型外部存储模块对应任务的全局通用模型,而结果后处理模块,基于DICOM适配器将结果转换回DICOM格式。结果输出模块则在接收到DICOM格式结果后直接将输出结果返回到医生工作站的操作界面上,辅助医生的诊断。
实施本发明实施例,具有以下有益效果:
本发明解决了现有模型大多在构建完成后无法再基于最新的临床数据进行更新的问题,解决了同时利用各个医院数据训练人工智能模型可能导致的安全问题,解决了现有面向医学影像的模型不适用于多种任务和多种影像类型,即不具有通用性的问题,解决了现有医学领域的联邦学习方法少有充分利用无标签数据的问题。
值得注意的是,上述系统实施例中,所包括的各个系统模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (9)
1.一种面向医学影像的人工智能辅助诊断模型构建系统,其特征在于,包括依序连接的数据中心模块、数据脱敏模块、数据预处理模块和模型构建模块;其中,
所述数据中心模块,用于接收并保存来自各医院的影像数据及其对应的标签;其中,所述影像数据的类型包括CT影像、超声影像和MRI影像等;
所述数据脱敏模块,用于对每一影像数据均进行脱敏处理,去除每一影像数据各自所含的隐私信息;
所述数据预处理模块,用于根据每一影像数据的类型,将所有去除隐私信息的影像数据的格式均转换成nii图像格式,并进一步自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理;
所述模型构建模块,用于将预处理后的影像数据划分为训练集样本和验证集样本,并将所述训练集样本和所述验证集样本均导入基于联邦机器学习法集成有多个医院私有任务模型所形成的预训练模型进行训练和验证,得到最终的人工智能辅助诊断模型。
2.如权利要求1所述的面向医学影像的人工智能辅助诊断模型构建系统,其特征在于,所述数据脱敏模块包括隐私信息提取子模块和去除子模块;其中,
所述隐私信息提取子模块,用于对每一影像数据均采用OCR文字提取,得到每一影像数据各自所含的隐私信息;其中,隐私信息包括患者姓名、患者编号、影像号和医院名称;
所述去除子模块,用于去除每一影像数据各自所含的隐私信息。
3.如权利要求1所述的面向医学影像的人工智能辅助诊断模型构建系统,其特征在于,所述数据预处理模块包括数据格式转换子模块和数据预处理子模块;其中,
所述数据格式转换子模块,用于根据每一影像数据的类型,通过DICOM适配器处理将所有去除隐私信息的影像数据的格式均转换成nii图像格式;
所述数据预处理子模块,用于自动将转换格式后的每一影像数据输入到相应的预处理管道进行数据处理。
4.如权利要求3所述的面向医学影像的人工智能辅助诊断模型构建系统,其特征在于,若当前转换格式后的影像数据的类型为CT图像,则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于所有图像前景体素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。
5.如权利要求3所述的面向医学影像的人工智能辅助诊断模型构建系统,其特征在于,若当前转换格式后的影像数据的类型为超声图像,则对应的预处理管道包括采用斑点去噪算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。
6.如权利要求3所述的面向医学影像的人工智能辅助诊断模型构建系统,其特征在于,若当前转换格式后的影像数据的类型为MRI图像,则对应的预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强、伽玛校正及偏差场校正的数据增强子模块。
7.如权利要求3所述的面向医学影像的人工智能辅助诊断模型构建系统,其特征在于,若当前转换格式后的影像数据的类型为除CT图像、超声图像及MRI图像之外的其他类型图像,则对应的默认预处理管道包括采用中值滤波算法的去噪子模块、采用三阶样条插值的重采样子模块、采用基于每个图像的所有像素值的均值和标准差进行Z-Score标准化的标准化子模块以及采用高斯模糊、对比度增强及伽玛校正的数据增强子模块。
8.如权利要求1所述的面向医学影像的人工智能辅助诊断模型构建系统,其特征在于,所述模型构建模块包括数据样本划分子模块、预训练模型选择及构建子模块和模型训练及验证子模块;其中,
所述数据样本划分子模块,用于将预处理后的影像数据划分为训练集样本和验证集样本;
所述预训练模型选择及构建子模块,用于基于联邦机器学习法集成有多个医院私有任务模型形成预训练模型,并确定所述预训练模型所采用的神经网络模型、全监督损失函数和优化器;
所述模型训练及验证子模块,用于将所述训练集样本和所述验证集样本均导入所述预训练模型进行训练和验证,得到最终的人工智能辅助诊断模型。
9.如权利要求8所述的面向医学影像的人工智能辅助诊断模型构建系统,其特征在于,所述联邦机器学习法基于本地模型和全局通用模型的预测一致性,根据联邦学习次数来实现对无标签数据的训练。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110420443.6A CN113239972A (zh) | 2021-04-19 | 2021-04-19 | 一种面向医学影像的人工智能辅助诊断模型构建系统 |
PCT/CN2021/131601 WO2022222458A1 (zh) | 2021-04-19 | 2021-11-19 | 一种面向医学影像的人工智能辅助诊断模型构建系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110420443.6A CN113239972A (zh) | 2021-04-19 | 2021-04-19 | 一种面向医学影像的人工智能辅助诊断模型构建系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239972A true CN113239972A (zh) | 2021-08-10 |
Family
ID=77128691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110420443.6A Pending CN113239972A (zh) | 2021-04-19 | 2021-04-19 | 一种面向医学影像的人工智能辅助诊断模型构建系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113239972A (zh) |
WO (1) | WO2022222458A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169339A (zh) * | 2022-02-14 | 2022-03-11 | 北京智源人工智能研究院 | 医疗命名实体识别模型训练方法、识别方法及联邦学习系统 |
CN114841377A (zh) * | 2022-06-28 | 2022-08-02 | 国汽智控(北京)科技有限公司 | 应用于图像目标识别的联邦学习模型训练方法、识别方法 |
CN115170565A (zh) * | 2022-09-06 | 2022-10-11 | 浙商银行股份有限公司 | 基于自动神经网络架构搜索的图像欺诈检测方法及装置 |
WO2022222458A1 (zh) * | 2021-04-19 | 2022-10-27 | 温州医科大学 | 一种面向医学影像的人工智能辅助诊断模型构建系统 |
CN115578369A (zh) * | 2022-10-28 | 2023-01-06 | 佐健(上海)生物医疗科技有限公司 | 一种基于联邦学习的在线宫颈细胞tct切片检测方法和系统 |
CN116563246A (zh) * | 2023-05-10 | 2023-08-08 | 之江实验室 | 一种用于医学影像辅助诊断的训练样本生成方法及装置 |
CN117592555A (zh) * | 2023-11-28 | 2024-02-23 | 中国医学科学院北京协和医院 | 一种面向多源异构医疗数据的联邦学习方法及系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117238452B (zh) * | 2023-10-08 | 2024-05-17 | 中世康恺科技有限公司 | 一种区域医学影像云及检查检验结果互认共享平台 |
CN117132790B (zh) * | 2023-10-23 | 2024-02-02 | 南方医科大学南方医院 | 基于人工智能的消化道肿瘤诊断辅助系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120942A1 (zh) * | 2016-12-31 | 2018-07-05 | 西安百利信息科技有限公司 | 一种多模型融合自动检测医学图像中病变的系统及方法 |
CN109166105A (zh) * | 2018-08-01 | 2019-01-08 | 中国人民解放军南京军区南京总医院 | 人工智能医学影像的肿瘤恶性风险分层辅助诊断系统 |
CN111652863A (zh) * | 2020-05-27 | 2020-09-11 | 刘君茹 | 一种医学影像检测方法、装置、设备和存储介质 |
CN112465786A (zh) * | 2020-12-01 | 2021-03-09 | 平安科技(深圳)有限公司 | 模型训练方法、数据处理方法、装置、客户端及存储介质 |
CN112508907A (zh) * | 2020-12-02 | 2021-03-16 | 平安科技(深圳)有限公司 | 一种基于联邦学习的ct图像检测方法及相关装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3100642A1 (en) * | 2018-05-21 | 2019-11-28 | Corista, LLC | Multi-sample whole slide image processing in digital pathology via multi-resolution registration and machine learning |
CN109801258A (zh) * | 2018-12-18 | 2019-05-24 | 重庆市忠县人民医院 | 一种医学影像诊断质量管理系统及方法 |
CN110517238B (zh) * | 2019-08-20 | 2022-01-11 | 厦门天允星途医疗科技有限公司 | Ct医学影像ai三维重建与人机交互可视化网络系统 |
CN111767801B (zh) * | 2020-06-03 | 2023-06-16 | 中国地质大学(武汉) | 一种基于深度学习的遥感影像水域自动提取方法及系统 |
CN113239972A (zh) * | 2021-04-19 | 2021-08-10 | 温州医科大学 | 一种面向医学影像的人工智能辅助诊断模型构建系统 |
-
2021
- 2021-04-19 CN CN202110420443.6A patent/CN113239972A/zh active Pending
- 2021-11-19 WO PCT/CN2021/131601 patent/WO2022222458A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120942A1 (zh) * | 2016-12-31 | 2018-07-05 | 西安百利信息科技有限公司 | 一种多模型融合自动检测医学图像中病变的系统及方法 |
CN109166105A (zh) * | 2018-08-01 | 2019-01-08 | 中国人民解放军南京军区南京总医院 | 人工智能医学影像的肿瘤恶性风险分层辅助诊断系统 |
CN111652863A (zh) * | 2020-05-27 | 2020-09-11 | 刘君茹 | 一种医学影像检测方法、装置、设备和存储介质 |
CN112465786A (zh) * | 2020-12-01 | 2021-03-09 | 平安科技(深圳)有限公司 | 模型训练方法、数据处理方法、装置、客户端及存储介质 |
CN112508907A (zh) * | 2020-12-02 | 2021-03-16 | 平安科技(深圳)有限公司 | 一种基于联邦学习的ct图像检测方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
陈涛;郭睿;刘志强;: "面向大数据隐私保护的联邦学习算法航空应用模型研究", 信息安全与通信保密 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022222458A1 (zh) * | 2021-04-19 | 2022-10-27 | 温州医科大学 | 一种面向医学影像的人工智能辅助诊断模型构建系统 |
CN114169339B (zh) * | 2022-02-14 | 2022-05-17 | 北京智源人工智能研究院 | 医疗命名实体识别模型训练方法、识别方法及联邦学习系统 |
CN114169339A (zh) * | 2022-02-14 | 2022-03-11 | 北京智源人工智能研究院 | 医疗命名实体识别模型训练方法、识别方法及联邦学习系统 |
CN114841377A (zh) * | 2022-06-28 | 2022-08-02 | 国汽智控(北京)科技有限公司 | 应用于图像目标识别的联邦学习模型训练方法、识别方法 |
CN114841377B (zh) * | 2022-06-28 | 2022-09-13 | 国汽智控(北京)科技有限公司 | 应用于图像目标识别的联邦学习模型训练方法、识别方法 |
CN115170565B (zh) * | 2022-09-06 | 2022-12-27 | 浙商银行股份有限公司 | 基于自动神经网络架构搜索的图像欺诈检测方法及装置 |
CN115170565A (zh) * | 2022-09-06 | 2022-10-11 | 浙商银行股份有限公司 | 基于自动神经网络架构搜索的图像欺诈检测方法及装置 |
CN115578369A (zh) * | 2022-10-28 | 2023-01-06 | 佐健(上海)生物医疗科技有限公司 | 一种基于联邦学习的在线宫颈细胞tct切片检测方法和系统 |
CN115578369B (zh) * | 2022-10-28 | 2023-09-15 | 佐健(上海)生物医疗科技有限公司 | 一种基于联邦学习的在线宫颈细胞tct切片检测方法和系统 |
CN116563246A (zh) * | 2023-05-10 | 2023-08-08 | 之江实验室 | 一种用于医学影像辅助诊断的训练样本生成方法及装置 |
CN116563246B (zh) * | 2023-05-10 | 2024-01-30 | 之江实验室 | 一种用于医学影像辅助诊断的训练样本生成方法及装置 |
CN117592555A (zh) * | 2023-11-28 | 2024-02-23 | 中国医学科学院北京协和医院 | 一种面向多源异构医疗数据的联邦学习方法及系统 |
CN117592555B (zh) * | 2023-11-28 | 2024-05-10 | 中国医学科学院北京协和医院 | 一种面向多源异构医疗数据的联邦学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2022222458A1 (zh) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239972A (zh) | 一种面向医学影像的人工智能辅助诊断模型构建系统 | |
Yang et al. | MRI cross-modality image-to-image translation | |
EP3511942B1 (en) | Cross-domain image analysis using deep image-to-image networks and adversarial networks | |
WO2020108525A1 (zh) | 图像分割方法、装置、诊断系统、存储介质及计算机设备 | |
Nakao et al. | Unsupervised deep anomaly detection in chest radiographs | |
Yao et al. | Enhancing pseudo label quality for semi-supervised domain-generalized medical image segmentation | |
WO2020019738A1 (zh) | 磁共振血管壁成像的斑块处理方法、装置和计算设备 | |
WO2019167884A1 (ja) | 機械学習方法及び装置、プログラム、学習済みモデル、並びに判別装置 | |
CN111932529B (zh) | 一种图像分类分割方法、装置及系统 | |
WO2023015935A1 (zh) | 一种体检项目推荐方法、装置、设备及介质 | |
WO2021120961A1 (zh) | 大脑成瘾结构图谱评估方法及装置 | |
WO2021102644A1 (zh) | 图像增强方法、装置及终端设备 | |
Cui et al. | Artificial intelligence in spinal imaging: current status and future directions | |
CN115147426A (zh) | 基于半监督学习的模型训练与图像分割方法和系统 | |
CN113706562A (zh) | 图像分割方法、装置、系统及细胞分割方法 | |
Shi et al. | Dual dense context-aware network for hippocampal segmentation | |
Hong et al. | Dual encoder network with transformer-CNN for multi-organ segmentation | |
Pham et al. | Toward deep-learning-based methods in image forgery detection: A survey | |
Bercea et al. | What do aes learn? challenging common assumptions in unsupervised anomaly detection | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
CN113822323A (zh) | 脑部扫描图像的识别处理方法、装置、设备及存储介质 | |
CN113450394B (zh) | 一种基于Siamese网络的异尺寸图像配准方法 | |
Cui et al. | SCU‐Net++: A Nested U‐Net Based on Sharpening Filter and Channel Attention Mechanism | |
Xu et al. | Hyperspectral image super-resolution reconstruction based on image partition and detail enhancement | |
Li et al. | Global weighted average pooling network with multilevel feature fusion for weakly supervised brain tumor segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Pan Zhifang Inventor after: Chen Gaoxiang Inventor after: Hu Jiance Inventor after: Pan Jingye Inventor before: Pan Zhifang Inventor before: Chen Gaoxiang Inventor before: Hu Jiance |
|
CB03 | Change of inventor or designer information |