CN115803751A - 训练模型用于对医学数据执行任务 - Google Patents
训练模型用于对医学数据执行任务 Download PDFInfo
- Publication number
- CN115803751A CN115803751A CN202180049170.7A CN202180049170A CN115803751A CN 115803751 A CN115803751 A CN 115803751A CN 202180049170 A CN202180049170 A CN 202180049170A CN 115803751 A CN115803751 A CN 115803751A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- local
- data
- clinical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Radiology & Medical Imaging (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Image Analysis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
根据一个方面,提供了一种训练模型的方法,用于使用分布式机器学习过程对医学数据执行任务,由此全局模型基于在多个临床站点处对模型的本地副本所执行的训练而被更新。该方法包括:a)向多个临床站点发送(302)信息,以使得多个临床站点中的每个临床站点能够创建模型的本地副本,并且根据在相应的临床站点处的训练数据训练相应的模型的本地副本。然后,该方法包括b)从多个临床站点中的每个临床站点接收(304):i)对模型中的参数的本地更新,该本地更新是通过根据在相应的临床站点处的训练数据训练模型的本地副本而被获得,以及ii)与在相应的临床站点处所执行的训练的质量相关的元数据;以及c)基于所接收的对参数的本地更新和所接收的元数据,更新(306)全局模型中的参数。
Description
技术领域
本文的实施例涉及使用分布式机器学习过程来训练模型。
背景技术
从大量患者数据中学习可以极大地增加生成和测试关于医疗保健的假设的能力。为了捕获和使用在大量患者数据中包含的知识,使用了预测模型。可以使用机器学习过程对来自先前已接受治疗的患者的大量数据来训练模型。以这种方式训练的模型具有被用来在诸如图像分割和诊断之类的许多医学领域中进行预测的潜力。这种模型可以被用来更好地个性化医疗保健。
通过使用利用机器学习过程所训练的模型来实现个性化医学的主要障碍之一是获得充足的患者数据来训练模型。来自仅一家医院的数据不可能足以开发可以被用于种类繁多的患者(例如,可以遍布全球)的模型。然而,要从不同的医院和患者群体得到数据可能会花费很长的时间,而这增加了模型的从规划到部署的时间。在深度学习领域中,模型的性能随着训练数据样本数目的增加而提高。因此,为了确保最佳可能的模型来帮助医生,可以用更多的数据主动地改善模型的性能。然而,由于与数据共享相关联的伦理、法律、政治和行政障碍,组合源自多个临床站点(clinical site)(例如,医院、医生的手术室等)的数据可能很困难。缓解这种问题的一种方式是通过使用分布式机器学习过程来训练模型,诸如例如在Bonawitz等人于2019年的题为“面向大规模的联合学习:系统设计(TowardsFederated Learning at Scale:System Design)”的论文中所描述的联合学习过程。分布式学习使得模型能够使用来自不同临床站点的数据来被训练,而不用数据离开该场所。
发明内容
如上面所指出,分布式机器学习过程可以被用来对位于不同站点的训练数据训练模型(或者称为“机器学习模型”),而不需要将训练数据从相应站点移动。本领域技术人员将熟悉诸如联合机器学习之类的分布式学习和分布式学习过程,然而,这在图1中简要示出,图1示出了与多个临床站点104至112通信的中央服务器102。中央服务器使用分布式学习过程,使用位于每个临床站点104到112的训练数据来协调模型的训练。中央服务器保存模型的“全局(global)”或中央副本,并且可以向每个临床站点发送114关于全局模型的信息,例如诸如使得能够创建模型的本地副本的参数。然后,每个临床站点可以创建模型的本地副本,并根据在相应的临床站点的训练数据训练其本地副本。然后,每个临床站点104到112可以向中央服务器发送116对模型的一个或多个参数的更新。中央服务器组合来自相应的临床站点的更新,例如通过平均来更新全局模型。这允许基于多个临床站点104到112处的训练数据来训练中央服务器102处的全局模型,例如更新和改进,而数据不必离开相应的临床站点。本文的实施例的目的是改进用于训练模型的此类过程以使用分布式机器学习过程对医学数据执行任务。
因此,根据第一方面,提供了一种训练模型的方法,用于使用分布式机器学习过程对医学数据执行任务,由此全局模型基于在多个临床站点处对模型的本地副本所执行的训练而被更新。该方法包括:a)向多个临床站点发送信息,以使得多个临床站点中的每个临床站点能够创建模型的本地副本,并且根据在相应的临床站点处的训练数据训练模型的相应的本地副本;b)从多个临床站点中的每个临床站点接收i)对模型中的参数的本地更新,该本地更新是通过根据在相应的临床站点处的训练数据训练模型的本地副本而获得的,以及ii)与在相应的临床站点处所执行的训练的质量相关的元数据;以及c)基于所接收的对参数的本地更新和所接收的元数据,更新全局模型中的参数。
因此,当将本地更新组合为用于全局模型的更新时,可以使用与在每个站点处所执行的训练的质量相关的元数据。以这种方式,根据在相应的临床站点所执行的训练的质量,可以给予不同的本地更新不同的重要性(例如,通过使用加权)。这可以导致改进的训练,从而导致改进的模型以及针对使用该模型的临床过程的改进的临床结果。由于模型是对来自不同站点的数据进行训练的,因此数据中可能存在不规则性,并且这可能导致偏置和模型漂移。通过在合并权重的同时考虑适当的元数据,可以避免模型漂移,导致更好的质量模型。
根据第二方面,提供了一种在临床站点处用于训练模型的方法,用于使用分布式机器学习过程对医学数据执行任务,由此在中央服务器处的全局模型基于在临床站点处对模型的本地副本所执行的训练而被更新。该方法包括:从中央服务器接收信息,使得模型的本地副本能够被创建并且能够根据在临床站点处的训练数据被训练;根据上述信息训练模型的本地副本;以及向中央服务器发送i)对模型的更新,该更新基于根据在临床站点处的训练数据的模型的本地副本的训练,以及ii)与在相应的临床站点处所执行的训练的质量相关的元数据。
根据第三方面,使用根据第一方面或第二方面所训练的模型来对医学数据执行任务。
根据第四方面,提供了一种用于训练模型的装置,用于使用分布式机器学习过程对医学数据执行任务,由此全局模型基于在多个临床站点处所执行的训练而被更新。该装置包括:存储器,其包括表示指令集合的指令数据;以及处理器,其被配置为与存储器通信并且被配置为执行指令集合。指令集合在由处理器执行时,使处理器:a)向多个临床站点发送信息,以使多个临床站点中的每个临床站点能够创建模型的本地副本,并且根据在相应的临床站点处的训练数据训练模型的相应的本地副本;b)从多个临床站点中的每个临床站点接收i)对模型中的参数的本地更新,该本地更新是通过根据在相应的临床站点处的训练数据训练模型的本地副本而获得的,以及ii)与在相应的临床站点处所执行的训练的质量相关的元数据;以及c)基于所接收的对参数的本地更新和所接收的元数据,更新全局模型中的参数。
根据第五方面,提供了一种包括计算机可读介质的计算机程序产品,计算机可读介质具有包含在其中的计算机可读代码,计算机可读代码被配置为使得在由合适的计算机或处理器执行时,使计算机或处理器执行第一方面和第二方面的方法。
这些和描述的实施例,这些和其它方面将是显而易见的并被阐明。
附图说明
现在将参考以下附图仅以示例的方式描述示例实施例,其中:
图1图示了用于训练模型的分布式学习过程;
图2图示了根据本文一些实施例的装置;
图3图示了根据本文一些实施例的方法;
图4图示了根据本文一些实施例的确定模型漂移的方法;
图5图示了根据本文一些实施例的装置;
图6图示了根据本文一些实施例的方法;
图7图示了根据本文一些实施例的系统;以及
图8图示了根据模型的肝脏的图像的分割,该模型是根据本文实施例所训练的。
具体实施方式
如上所述,本文的实施例旨在改进用于训练临床模型的方法,以使用分布式机器学习过程对医学数据执行任务。
转到图2,在一些实施例中,存在根据本文一些实施例的装置200,装置200用于训练模型,以使用分布式机器学习过程对医学数据执行任务。通常,该装置可以形成计算机装置或系统的一部分,例如,诸如膝上型计算机、台式计算机或其它计算设备。在一些实施例中,装置200可以形成分布式计算布置或云的一部分。
该装置包括存储器204和处理器202(例如,处理电路系统或逻辑),存储器204包括表示指令集合的指令数据,处理器202被配置为与存储器通信并执行该指令集合。通常,指令集合在由处理器执行时可使处理器执行如下所述的方法300的任何实施例。
装置200的实施例可以用于训练模型,以在使用分布式机器学习过程对医学数据执行任务,由此基于多个临床站点处对模型的本地副本所执行的训练来更新全局模型。更具体地,指令集合在由处理器202执行时使处理器:a)向多个临床站点发送信息,以使多个临床站点中的每个临床站点能够创建该模型的本地副本,并且根据在相应的临床站点处的训练数据训练该模型的相应的本地副本;b)从多个临床站点中的每个临床站点接收i)对模型中的参数的本地更新,该本地更新是通过根据在相应的临床站点处的训练数据训练模型的本地副本而获得的,以及ii)与在相应的临床站点处所执行的训练的质量相关的元数据;以及c)基于所接收的对参数的本地更新和所接收的元数据来更新全局模型中的参数。
处理器202可以包括一个或多个处理器、处理单元、多核处理器或模块,它们被配置或编程为以本文所描述的方式来控制装置200。在特定实现中,处理器202可以包括多个软件和/或硬件模块,每个软件和/或硬件模块被配置为执行或用于执行本文所描述的方法的单个或多个步骤。处理器202可以包括一个或多个处理器、处理单元、多核处理器和/或模块,它们被配置或编程为以本文所描述的方式来控制装置200。在一些实现中,例如,处理器202可以包括被配置用于分布式处理的多个(例如,互操作的)处理器、处理单元、多核处理器和/或模块。本领域的技术人员应当理解,这种处理器、处理单元、多核处理器和/或模块可以位于不同的位置,并且可以执行本文所描述的方法的不同步骤和/或单个步骤的不同部分。
存储器204被配置为存储可以由处理器202执行的程序代码,以执行本文所述的方法。备选地或另外地,一个或多个存储器204可以位于装置200外部(例如,与装置200分离或远离装置200)。例如,一个或多个存储器204可以是另一设备的一部分。存储器204可以被用来存储全局模型、所接收的本地更新、所接收的元数据和/或由装置200的处理器202或从装置200外部的任何接口、存储器或设备接收、计算或确定的任何其它信息或数据。处理器202可以被配置为控制存储器204以存储全局模型、所接收的本地更新、所接收的元数据和/或本文所描述的任何其他信息或数据。
在一些实施例中,存储器204可以包括多个子存储器,每个子存储器能够存储一条指令数据。例如,至少一个子存储器可以存储表示指令集合的至少一个指令的指令数据,而至少一个其它的子存储器可以存储表示指令集合的至少一个其它指令的指令数据。
应了解,图2仅示出了图示本公开的此方面所需的组件,而在实际实现中,装置200可以包括除所示组件之外的额外组件。例如,装置200还可以包括显示器。显示器可以例如包括计算机屏幕和/或移动电话或平板电脑上的屏幕。该装置还可以包括用户输入设备(诸如键盘、鼠标或使用户能够与该装置交互的其他输入设备),例如,以提供在本文所描述的方法中使用的初始输入参数。装置200可以包括用于为装置200供电的电池或其它电源或用于将装置200连接到市电电源的部件。
转到图3,存在一种计算机实现的方法300,其用于训练模型以使用分布式机器学习过程对医学数据执行任务(例如,处理),由此全局模型基于在多个临床站点处对模型的本地副本所执行的训练而被更新。方法300的实施例可以例如由诸如上述装置200之类的装置来执行。
简要地,在步骤a)中,方法300包括:向多个临床站点发送302信息,以使得多个临床站点中的每个临床站点能够创建该模型的本地副本,并且根据在相应的临床站点处的训练数据训练该模型的相应的本地副本。在步骤b)中,方法300包括从多个临床站点中的每个临床站点接收304:i)对模型中的参数的本地更新,该本地更新是通过根据在相应的临床站点处的训练数据训练该模型的本地副本而获得的,以及ii)与在相应的临床站点处所执行的训练的质量相关的元数据。在步骤c)中,该方法包括基于所接收的对参数的本地更新和所接收的元数据来更新306全局模型中的参数。
如上面所指出,由于模型对来自不同站点的数据进行训练,所以在站点之间的数据中可能存在不规则性,并且这可能导致偏置和模型漂移,由此在不同训练时期之间存在被用来执行任务(例如,分类/分割等)的决策边界的差异。通常,偏置描述的是模型与训练集的匹配程度。具有高偏置的模型不会紧密地匹配数据集,而具有低偏置的模型会非常紧密地匹配数据集。偏置来自于过于简单且无法捕获数据集中存在的趋势的模型。模型漂移可以被分类为两大类别。第一类型被称为“概念漂移”。概念漂移意味着模型尝试预测的目标变量的统计性质以不可预见的方式随时间改变。这导致了问题,因为随着时间流逝,预测变得不太准确。“数据漂移”:如果基础变量正在改变,则模型注定会失败。这在预测器的统计性质发生改变时发生。
通过在合并权重的同时考虑适当的元数据,可以避免模型漂移,这会导致更好的质量模型。因此,当将本地更新组合成用于全局模型的更新时,可以使用与在每个站点处所执行的训练的质量相关的元数据。以这种方式,取决于在相应的临床站点所执行的训练的质量,可以给予不同的本地更新不同的重要性(例如,通过使用加权)。
更详细地,该模型可以包括任何类型的模型,这些模型可以使用机器学习过程来训练。模型的示例包括但不限于神经网络、诸如F网、U网和卷积神经网络之类的深度神经网络、随机森林模型和支持向量机(SVM)模型。
本领域技术人员熟悉机器学习和机器学习模型,但是简而言之,机器学习可以被用来找到给定数据集的预测函数;数据集通常是给定的输入到输出之间的映射。预测函数(或映射函数)在训练阶段中被生成,其涉及向模型提供示例的输入和地面真值(groundtruth)(例如,正确的)输出。测试阶段包括预测针对给定输入的输出。机器学习的应用例如包括曲线拟合、面部识别和垃圾邮件过滤。
在本文的一些实施例中,模型包括神经网络模型,诸如深度神经网络模型。本领域技术人员将熟悉神经网络,但是简而言之,神经网络是一种机器学习模型,其可以被训练以预测给定输入数据的期望输出。通过提供训练数据来训练神经网络,训练数据包括示例输入数据和所期望的对应的“正确”或地面真值结果。神经网络包括多个神经元层,每个神经元表示被应用于输入数据的数学运算。神经网络中每一层的输出被馈送到下一层中以产生输出。对于每段训练数据,(例如,使用诸如反向传播和/或梯度下降之类的过程)调整与神经元相关联的权重,直到找到产生反映对应地面真值的训练示例的预测的最优权重。
如上面所指出,本文的方法和系统涉及使用分布式学习过程来训练诸如上述任何模型之类的模型。上文参考图1描述了分布式学习过程,并且其中的细节将被理解为适用于装置200和方法300的实施例。分布式学习过程的示例包括但不限于联合学习和分布式数据并行方法。
在一些实施例中,装置200可以包括协调由多个临床站点处的服务器所执行的训练的服务器,换言之,“中央服务器”。在本文中,方法300可以由用户、公司或训练过程的任何其他设计者或编排者例如使用装置200来执行或发起。使用通常与分布式学习方案相关联的专业术语,中央服务器(例如,诸如装置200)可以包括方案的“主”,并且多个临床站点可以包括“工作者”或节点。
中央服务器(例如,装置200)可以存储和/或维护(例如,更新)全局模型。全局模型(或模型的全局副本)包括该模型的主副本或中央副本。如下面更详细地描述的,在多个临床站点中的每个临床站点处所执行的训练的结果(例如,本地更新)被传输到中央服务器并且被合并到全局模型中。因此,全局模型表示在多个临床站点处所执行的所有训练的当前“组合的”结果。
在此上下文中,临床站点可以包括医院、手术室、诊所和/或数据中心或适于存储源自这种临床站点的医学数据的其他计算站点。
如上面所指出,该模型用于对医学数据执行任务。在此上下文中,医学数据可以包括可以在医学环境中被使用、产生和/或获得的任何类型的数据,包括但不限于:临床诊断数据(诸如患者生命体征或生理参数)、医学图像、医学文件(例如,诸如患者记录)、和/或医疗机器的输出(例如,来自医疗设备的操作或诊断数据)。
模型可以将上述的一种或多种类型的医学数据作为输入,并且对医学数据执行任务。该任务可以包括例如分类任务或分割任务。例如,该模型可以预测医学数据的分类和/或提供输出分类。在本文的实施例中,该模型可以基于输入的医学数据输出例如患者诊断。在其中医学数据包括医学图像的实施例中,模型可以输出例如医学图像的分割、医学图像中感兴趣特征的位置、或基于医学图像的诊断。然而,本领域技术人员将理解,这些仅仅是示例,并且该模型可以采取不同类型的医学数据作为输入,并且向以上提供的示例提供不同类型的输出(例如,执行不同的任务)。
返回到方法300,如上面所指出,方法300包括:a)向多个临床站点发送(302)信息,以使多个临床站点中的每个临床站点能够创建该模型的本地副本,并且根据在相应的临床站点处的训练数据训练该模型的相应的本地副本。
例如,该信息可以包括指示模型类型的模型信息和/或模型中的参数值。例如,在其中模型包括神经网络的实施例中,信息可以包括参数,参数包括但不限于神经网络模型中的层数、模型的输入和输出信道、以及神经网络模型中的权重和偏置的值。通常,在步骤a)中发送的信息足以使多个临床站点中的每个临床站点创建该模型的本地副本。
该信息还可以包括每个临床站点如何训练模型的指令。例如,该信息可以指示例如要执行的训练时期的数目、应当被用来训练模型的训练数据的数目、要被用来训练模型的数据类型等。
在步骤b)中,方法300包括从多个临床站点中的每个临床站点接收(304):i)对模型中的参数的本地更新,该本地更新是通过根据在相应的临床站点处的训练数据训练模型的本地副本而获得的,以及ii)与在相应的临床站点处所执行的训练的质量相关的元数据。
对模型中的参数的本地更新可以包括根据在相应的临床站点处的训练数据对模型的本地副本进行训练的结果。例如,由训练产生的模型参数的变化。在其中模型包括神经网络的实施例中,参数可以包括神经网络中的权重或偏置,或者应该被应用于神经网络中的权重或偏置的变化。因此,在一些实施例中,步骤b)包括接收神经网络模型中的一个或多个权重或偏置的更新值wi(或值变化Δwi)。
元数据与在相应的临床站点所执行的训练的质量相关。在一些实施例中,元数据提供模型的相应的本地副本在训练之后的性能的指示。例如,在相应的临床站点处的本地模型的准确度的指示。
在一些实施例中,针对具有预期会影响模型误差的共同特性的训练数据的一个或多个子集,元数据提供模型的相应的本地副本在训练之后的性能的指示。例如,通过使模型更容易(或相反地更难以)对医学数据执行任务(例如,分类/分割),可以预期该特性会影响模型误差。例如,元数据可以包括对具有不同质量等级或不同的完整性等级(例如,全图像与部分图像相比)的医学数据进行分类时的相应本地模型的性能的指示。
在另一个实施例中,元数据可以包括可能影响训练误差的医学统计。换言之,元数据可以包括与在相应医学站点处的训练数据的特征相关的静态,其可能会影响相应本地模型的准确度。例如,高质量的训练数据样本的数目与低质量的训练数据样本的数目相比较。
在一些实施例中,元数据提供在相应的临床站点处的训练数据的质量指示。例如,元数据可以提供在临床站点处的训练数据在模型的不同输出分类之间的分布指示。在这个意义上,输出分类可以包括由模型输出的标签或类别。例如,元数据可以描述训练数据是否均匀地分布在不同的输出分类之间,或者训练数据是否向特定分类偏斜(例如,与其他标签相比,与一些标签相关联的训练数据更多)。
例如,考虑有5个类(或标签)的分类问题,每个临床站点在每个类中具有不同的数据比率,并且可训练数据随着分布式学习的执行而变化。返回的元数据可以包括在权重更新期间每个节点中存在的每个类的样本数。这可以提供被用来训练相应的本地模型的训练数据(例如,在不同类别之间)如何被平衡的指示。与由较不平衡的训练数据集产生的本地更新相比,由更平衡的训练数据集产生的本地更新可以被赋予更多的权重。
在方法300的步骤c)中,该方法包括基于所接收的对参数的本地更新和所接收的元数据来更新(306)全局模型中的参数。
通常,元数据被用来在中央服务器处执行参数合并。因此,合并参数可以包括从临床站点所接收的参数的函数和对应的元数据。换言之,在一些实施例中:
合并参数=函数(元数据,从临床站点所接收的参数)。在数学上,该函数可以被表示如下:假设,考虑具有参数W1、W2、W3……等的n个临床站点N1、N2、N3……等,并且每个临床站点具有质量的度量(measure)α1、α2、α3……等,其中α值在0和1之间变化并且根据从临床站点被发送到中央服务器的元数据来计算。因此,合并参数因此可以被计算为:
合并参数=(α1*W1+α2*W2+α3*W3+.......)/(α1+α2+α3+...........)
换个说法,在一些实施例中,组合对参数的本地更新以确定对全局模型的更新的步骤包括根据下式来确定用于全局模型的参数:
全局参数=(α1*W1+α2*W2+α3*W3+....+αN*WN)/(α1+α2+α3+....αN);
其中WN包括对由第n个临床站点所确定的模型中的参数的本地更新,并且αN包括范围在0≤αN≤1内的实数。从与对由第n个临床站点所确定的模型中的参数的更新相关联的元数据来确定αN的值。为了避免疑问,在计算α值时也可以使用其他参数。例如,对于分批式训练,计算αi的方法之一包括:
αi=第i个节点中的相关样本的数目/全局批量大小其中可以从扫描的元数据信息(切片厚度,分辨率等)获得第n个节点中的可用样本。在一些实施例中,步骤c)可以包括通过根据相应的元数据对每个本地更新进行加权来组合对参数的本地更新以确定对全局模型的更新,使得与指示高质量训练结果的元数据相关联的本地更新相比于与指示低质量训练结果的元数据相关联的更新具有更高的加权(例如,如上所述的更高的α值)。例如,通常来说,与较不精确的本地模型相关联的本地更新相比,可以对与较精确的本地模型相关联的本地更新赋予更高的权重。
在一个实施例中,医学数据包括计算机断层摄影CT扫描数据。在这种实施例中,元数据可以在分类不同辐射剂量的CT图像时提供模型的相应本地副本的性能的指示,例如,元数据可以在对高剂量CT扫描和/或(或与之相比)低剂量CT扫描进行分类时提供模型的性能的指示。在这种示例中,可以预期,相比于对低辐射剂量的CT图像进行分类,该模型能够更准确地对高辐射剂量的CT图像进行分类。在该实施例中,在方法300的步骤c)中,例如,即使第一模型在低剂量CT扫描上的性能相对较差,与从第二临床站点(具有在高剂量CT扫描上性能较低的本地模型)所接收到的更新相比,这种元数据也可以被用来对从第一临床站点(具有在高剂量CT扫描上性能较高的本地模型)所接收到的更新进行优先级排序。
在另一个实施例中,元数据可以描述针对对比度增强的低剂量或高剂量的训练数据样本的数目。如上面所指出,如果模型在低剂量CT图像上出错,则与在高剂量CT图像上出错的模型相比,该误差被赋予较小的权重(因为期望是该算法在高剂量CT图像上执行得非常好,并且在低剂量CT图像上的几个错误将是可接受的)。
在另一个示例中,元数据可以包括在对不同完整性等级的训练数据进行分类时的模型性能的指示。例如,在其中训练模型以执行医学成像数据中的解剖特征分割的实施例中;并且其中元数据包括当分割解剖特征的全图像和/或解剖特征的部分图像时的模型性能的指示。在该实施例中,在方法300的步骤c)中,例如,即使当分割解剖特征的部分图像时第一模型的性能相对较差,与从第二临床站点(具有在分割解剖特征的全图像时性能较低的本地模型)接收的更新相比,这种元数据也可以被用来对从第一临床站点(具有在分割解剖特征的全图像时性能较高的本地模型)接收的更新进行优先级排序。
在其中医学数据包括CT扫描数据并且模型用于CT扫描数据中的肝脏的分割的实施例中,元数据可以包括例如以下信息:
1.针对低剂量CT的误差和针对高剂量CT的误差
2.基于分割面积的误差
当观察CT体积时,在CT体积的每个切片上肝脏将全部不可见,如果模型在肝脏部分可见时发生错误,则该误差应当是可接受的,并且当整个肝脏可见时(即,在肝脏分割的分布式学习期间),当与在图像切片上发生错误相比时肯定具有较小的误差,在肝脏部分可见的情况下在一个节点上发生错误,并且在肝脏部分可见和肝脏完全可见的两种情况下在第二节点上发生错误,算法应对来自前一节点的更新赋予权重。
因此,以上述方式,可以使用元数据来更新全局模型,元数据提供在分布式学习方案中由多个临床站点所确定的本地更新的质量的更深入的了解。如上所述,在其中训练数据源自不同临床站点的情况下,存在偏置和/或模型漂移对模型造成影响的可能性。本文的方法展现了减少这种影响以及抗衡模型偏置以及数据异质性的手段。
现在转到其他实施例,在本文的一些实施例中,基于可视化输出的分析,可以通过检测全局模型在训练过程期间是否漂移进一步改进方法300。例如,如果在确定分类或标签时由模型激活/考虑的感兴趣区域保持变化,则可以查明相关的漂移。可以基于在训练过程期间的不同时间点通过全局模型馈送的基准训练数据来计算变化值(例如,在时间点t0并且在t1获得变化的改变)。变化计算可以按照坐标值,或者是由模型激活/考虑的感兴趣区域的边界框下的面积。
例如,模型漂移可以根据下式来确定:
模型漂移:|(t0处的坐标)-(t1处的坐标))>动态阈值
换言之,在先的步骤a)、b)和c)(例如,在时间t0),方法300可以包括:针对测试医学图像,确定由全局模型用来对测试医学图像执行任务的测试图像的第一区域。然后,该方法还可以包括,在步骤a)、b)和c)之后:针对测试医学图像,确定由所更新的全局模型用来对测试医学图像执行任务的测试图像的第二区域,以及将测试图像的第一区域与测试图像的第二区域进行比较以确定模型漂移的度量。
比较步骤可以包括,例如,比较与第一区域和第二区域相关联的坐标(例如,在区域或边界框的中心或边缘处的坐标),或者比较第一区域和第二区域内的区域并确定该区域是否已经改变例如统计上显著的量或改变大于阈值量。
在此上下文中,可以基于当前内容和不同模型以及所讨论的模型类型来确定动态阈值。因此,它对于所有的应用/模型类型来说不是静态的。
这在图4中被图示,图4示出了包括损伤404的肝脏402的图像。模型被用来对病变进行分类(例如,定位)。根据上述方法300来训练模型。在步骤a)、b)和c)之前,在时间t0,该模型基于图像406a的区域对病变进行分类。在时间t1,该模型基于图像406b的区域对相同的病变的进行分类。区域406a和区域406b的位置和大小的差异可以指示该模型已经漂移。因此,通过比较和监视不同训练时期/更新之间的区域中的变化,可以确定模型的漂移。
在其它实施例中,可以重复步骤a)、b)和c),例如,以提供训练时期序列。例如,步骤a)、b)和c)可以周期性地被重复,或者每当新的训练数据在临床站点变得可用时被重复。
转向其他实施例,在一些实施例中,可以通过使用主动学习来增强该方法。本领域技术人员会熟悉主动学习,但是简而言之,主动学习集中在训练数据上的训练,这些训练数据先前已经被模型错误分类或以低的准确度概率进行了分类。因此,有效地,将训练集中在了模型中的薄弱区域。
在一些实施例中,该方法因此可以包括针对在每个相应的临床站点处的训练数据的子集重复步骤a)、b)和c),这些训练数据由该模型以低于阈值确定性水平的确定性而被分类。例如,可以使用由模型输出的置信水平来度量确定性。在其他实施例中,可以使用熵的度量来计算对数据进行分类的模型的确定性。熵的度量可以反映数据集中的信息量。因此,熵越高,数据集中的信息量就越高。因此,例如,如果数据集具有高熵,则其内容具有多样性。
通常,可以定义一个模糊区域,其包括分类是不确定的训练数据。在这种模糊区域中的训练数据可以被用于随后的模型训练的时期。注意,模糊区域可以是动态的,并且随着(全局)模型的改进而在时期之间改变。
此外,在这些实施例中,在其中执行优化的(例如,主动的)分布式学习的情况下,其中每次在错误分类的训练样本上训练模型,如上所述的元数据以及因此的质量度量值(α)可以针对每个训练时期而改变。
以这种方式,在每个训练时期中考虑最相关的训练数据,每个训练时期给模型增加了更多值。以这种方式,可以执行“经优化的”分布式学习,其仅考虑用于在后续时期中更新权重的错误分类的示例。所提出的概念捕获数据集中的变化,同时确保数据不离开医院场所。此外,所设计的新概念确保训练模型以较少的数据给出高性能。
通常,分布式学习过程的一个问题在于:随着模型预测的改进,参数更新变得更小(通过应用简单的平均或加权平均,权重更新变得无效)。有时,这会使分布式学习模型的性能不如集中式模型。通过仅考虑错误分类(主动学习的性质)或没有用于重新训练的恰当分割或分类的图像,如上所述的主动学习的使用有助于克服该问题。这具有各种优点:每次的训练数据减少,使得训练时间更快;由于算法只对错误分类的数据进行训练,因此损失函数更集中并且用于更新模型的梯度可能更好。
通常,假设来自所有临床站点的数据非常相似是一种乌托邦的想法。因此,将错误分类的数据的质量(根据主动学习原理)视为元数据并在合并权重时使用该信息将有助于构建更好的全局模型。
分布式学习和主动学习相结合的思想遵循“全局思考”和“本地行动”的哲学。可以通过分布式学习使用来自位于全球的不同医院的训练数据来教授全局模型,通过主动学习在各个节点处具有改进的模型性能。分布式学习捕获跨(可能)位于全球定位的人群的数据变化,而主动学习用较少的数据去改善本地节点处的性能。
现在,转到执行如上所述的本地训练的临床站点的视图,图5图示了根据本文一些实施例的装置500,装置500用于在临床站点中训练模型,以使用分布式机器学习过程对医学数据执行任务。通常,该装置可以形成计算机装置或系统的一部分,例如,诸如膝上型计算机、台式计算机或其它计算设备。在一些实施例中,装置500可以形成分布式计算布置或云的一部分。
该装置包括存储器504和处理器502(例如,处理电路系统或逻辑),存储器504包括表示指令集合的指令数据,处理器502被配置为与存储器通信并执行该指令集合。通常,指令集合在由处理器执行时可使处理器执行如下所述的方法600的任何实施例。
装置500的实施例可以用于在临床站点中训练模型,以使用分布式机器学习过程对医学数据执行任务,由此在中央服务器处的全局模型基于在临床站点处对模型的本地副本所执行的训练而被更新。更具体地,指令集合在由处理器执行时使处理器:从中央服务器接收信息,使该模型的本地副本能够被创建并且能够根据在临床站点处的训练数据被训练;根据该信息训练模型的本地副本;以及向中央服务器发送i)对模型的更新,该更新基于根据在临床站点处的训练数据的模型的本地副本的训练,以及ii)与在相应的临床站点处所执行的训练的质量相关的元数据。
处理器502可以包括一个或多个处理器、处理单元、多核处理器或模块,它们被配置或编程为以本文所描述的方式来控制装置500。在特定实现中,处理器502可以包括多个软件和/或硬件模块,它们各自被配置为执行或用于执行本文所描述的方法的单个或多个步骤。处理器502可以包括一个或多个处理器、处理单元、多核处理器和/或模块,它们被配置或编程为以本文所描述的方式来控制装置500。在一些实现中,例如,处理器502可以包括被配置用于分布式处理的多个(例如,互操作的)处理器、处理单元、多核处理器和/或模块。本领域的技术人员应当理解,这种处理器、处理单元、多核处理器和/或模块可以位于不同的位置,并且可以执行本文所描述的方法的不同步骤和/或单个步骤的不同部分。
存储器504被配置为存储可以由处理器502执行的程序代码,以执行本文所述的方法。备选地或另外地,一个或多个存储器504可以位于装置500外部(例如,与装置500分离或远离装置500)。例如,一个或多个存储器504可以是另一设备的一部分。存储器504可以被用来存储全局模型、所接收的本地更新、所接收的元数据和/或由装置500的处理器502或从装置500外部的任何接口、存储器或设备接收、计算或确定的任何其它信息或数据。处理器502可以被配置为控制存储器504以存储模型的本地副本、训练数据、训练的输出和/或由下文所述的方法600产生或者在方法600被使用的任何其他信息或数据。
在一些实施例中,存储器504可以包括多个子存储器,每个子存储器能够存储一条指令数据。例如,至少一个子存储器可以存储表示指令集合的至少一个指令的指令数据,而至少一个其它的子存储器可以存储表示指令集合的至少一个其它指令的指令数据。
应了解,图5仅示出了图示本公开此方面所需的组件,而在实际实现中,装置500可以包括除所示组件之外的额外组件。例如,装置500还可以包括显示器。显示器可以例如包括计算机屏幕和/或移动电话或平板电脑上的屏幕。该装置还可以包括用户输入设备(诸如键盘,鼠标或使用户能够与该装置交互的其他输入设备),例如,以提供在本文所描述的方法中使用的初始输入参数。装置500可以包括用于为装置500供电的电池或其它电源或用于将装置200连接到市电电源的部件。
转到图6,存在一种计算机实现的方法300,其用于训练模型,以使用分布式机器学习过程对医学数据执行任务,由此全局模型基于在多个临床站点处对模型的本地副本所执行的训练而被更新。方法600的实施例可以例如由诸如上述装置500之类的装置来执行。
简言之,在第一步骤602中,方法600包括:从中央服务器接收信息,使模型的本地副本能够被创建并且能够根据在临床站点处的训练数据被训练。在第二步骤604中,该方法包括:根据该信息训练模型的本地副本。在第三步骤606中,该方法包括:向中央服务器发送i)对模型的更新,该更新基于根据在临床站点处的训练数据的模型的本地副本的训练,以及ii)与在相应的临床站点处所执行的训练的质量相关的元数据。
参考图2和图3在上文中描述了与中央服务器相对应的方法和装置,并且其中的细节将被理解为同样适用于临床站点中的方法。
在此上下文中,临床站点500可以包括与医院、手术室、诊所或任何其他医疗设施相关联的服务器(例如,“临床服务器”)或数据中心。临床站点可以包括例如数据中心,诸如医院数据中心(HDC)或适于存储医学数据的任何其他计算站点。
关于图2和图3在上文中描述了步骤602中接收的信息,并且其中的细节将被理解为同样适用于装置500和方法600。使用该信息,临床站点创建模型的本地副本,并且使用临床站点处的训练数据(例如,根据从中央服务器接收的信息)来训练模型的本地副本。
本领域技术人员将熟悉训练机器学习模型的方法,例如,使用包括但不限于梯度下降和反向传播的方法。
临床站点获得与在相应的临床站点处对本地模型所执行的训练的质量相关的元数据,并且在步骤606中,向中央服务器发送i)对模型的更新,该更新基于根据在临床站点处的训练数据的模型的本地副本的训练(例如,训练结果),和ii)元数据。关于装置200和方法300在上文中详细描述了元数据,并且其中的细节将被理解为同样适用于装置500和方法600。
现在转向另一个实施例,图7图示了根据本文一些实施例的使用分布式学习过程来训练模型的方法。在该实施例中,在计算机或服务器700、中央服务器702和多个临床站点(或节点)704上存在研究人员或其他用户。为清楚起见,图7中仅示出一个临床站点704。在该实施例中,该模型包括神经网络。该方法如下所述。
研究人员开发该模型并将其与预先初始化的权重708一起放置在服务器上。然后执行以下过程:
710.研究人员将模型和初始化的权重发送到服务器702。这启动了服务器。服务器等待节点704连接。
712.一旦服务器连接,深度学习模型就被传递到节点,服务器和节点之间的连接被加密。节点704接收714该模型。
716.节点创建该模型的本地副本并对该模型的本地副本执行训练。训练使用主动学习方法进行,由此初始化的模型被用来对该节点处的训练数据执行预测(或分类)。如果预测具有小于特定阈值置信度值的置信度(阈值置信度值由研究人员分配,例如,小于0.95的骰子分数),则这被用于该模型的进一步训练。如模型文件中所提到的,模型被训练若干时期。通常,训练包括接收权重值718、拟合不同时期720以及获得最终权重和元数据722。
724.权重连同与所执行的训练的质量相关的元数据一起被返回给中央服务器702。
726.在从节点返回的元数据的帮助下,使用平均或加权平均或研究人员认为合适的其它统计方法合并所返回的权重,然后将其用来更新全局模型(例如,存储在中央服务器602上的模型版本)。然后,将描述已更新的全局模型的信息发送回726节点704,以便用新的合并权重进行再训练。
该过程以迭代方式被执行,直到模型收敛。中央服务器704和节点706之间的转送可以被记录在数据库中(这也可以被记录在区块链上,使得记录不能被删除)。该步骤可以被用来维护隐私。
一旦模型已经收敛,则可以将最终权重发送730给研究人员。
注意,如果中央服务器具有存储在其上的本地训练数据,则中央服务器还可以对其自己的模型的本地副本执行训练732(例如,在一些实施例中,中央服务器可以包括在临床站点处的服务器,其训练其自己的模型的本地副本,同时还协调多个临床站点之间的分布式训练过程)。
现在转到另一个实施例,在一些实施例中,使用根据本文的任何方法或装置(例如,方法300,方法600或方法700或装置200或装置500)所训练的模型以对医学数据执行任务。可以除本文的方法之外使用或与本文的方法分开使用。使用的实例包括但不限于:例如,使用根据本文的任何方法训练的模型来分割图像(诸如肝脏的CT扫描);使用根据本文的任何方法训练的模型对医学记录进行分类(例如,诊断或进行一些其他分类)。
现在转到图8,其示出由使用传统分布式学习过程所训练的模型所产生的肝脏802的输出分割,并与由使用上述方法300和方法600所训练的模型输出的肝脏804的分割进行对比。
在另一个实施例中,提供了一种包括计算机可读介质的计算机程序产品,计算机可读介质具有包含在其中的计算机可读代码,计算机可读代码被配置为使得在由合适的计算机或处理器执行时使计算机或处理器执行本文的一种或多种方法。
因此,应当理解,本公开也适用于计算机程序,特别是适于将实施例付诸实践的在载体上或载体中的计算机程序。该程序可以是源代码、目标代码、代码中间源和目标代码的形式,其诸如以部分编译的形式、或者以适于在根据本文所描述的实施例的方法实现中使用的任何其他形式。
还应当理解,这种程序可以具有许多不同的架构设计。例如,实现该方法或系统的功能性的程序代码可以被细分成一个或多个子例程。在这些子例程之间分发功能性的许多不同方式对于本领域技术人员来说是显而易见的。子例程可以一起被存储在一个可执行文件中以形成自包含程序。这种可执行文件可以包括计算机可执行指令,例如,处理器指令和/或解释器指令(例如,Java解释器指令)。备选地,一个或多个或所有的子例程可以被存储在至少一个外部库文件中,并且例如在运行时静态地或动态地与主程序链接。主程序包含对至少一个子例程的至少一个调用。子例程还可以包括对彼此的函数调用。
计算机程序的载体可以是能够携带该程序的任何实体或设备。例如,载体可以包括数据存储器,诸如ROM(例如,CDROM或半导体ROM)、或磁记录介质(例如,硬盘)。此外,载体可以是诸如电或光信号之类的可传输载体,其可以经由电缆或光缆或通过无线电或其它手段来传送。当程序被包含在这种信号中时,载体可以由这种电缆或其它设备或部件构成。备选地,载体可以是其中嵌入了程序的集成电路,其适于执行相关方法或在相关方法的执行中被使用。
所属领域的技术人员在实践本文所述的原理和技术时,通过研究附图、本公开和所附的权利要求书可以理解并实现所公开实施例的变化。在权利要求中,词语“包括”不排除其他的元件或步骤,并且不定冠词“一”或“一个”不排除多个。单个处理器或其它单元可以实现权利要求中陈述的若干项的功能。在相互不同的从属权利要求中陈述某些措施的事实并不表示不能有利地使用这些措施的组合。计算机程序可以被存储或分布在适当的介质上,诸如与其他硬件一起作为其他硬件的一部分提供的光存储介质或固态介质,但是也可以例如经由互联网或其他有线或无线电信系统以其他形式分布。权利要求中的任何参考符号不应被解释为限制其范围。
附录1
实验数据
实验1:样本大小:在每个节点处的样本数目(类别不平衡)
模型类型:在修改的国家标准和技术研究所数据库(MINST)上训练的神经网络。MINST包含数字0到9的手写图像。训练该模型以基于其数字内容对每个图像进行分类。
在实验中,医学数据在2个节点处可用。训练数据集有10个不同的类。在第一节点中,有9个类似流行的类和来自类10的少量样本。在第二节点,前9类数据是非常稀疏的,第10类数据是流行的。
在上述实例中,使用两种方法来合并模型。
1)简单平均合并:在没有元数据信息的情况下合并模型。合并的模型给出了20%的准确度。
2)加权平均合并:使用元数据信息来合并模型(类流行)。该模型对训练和测试数据的准确度分别达到了90%和88.9%。
结果总结如下。
实验2:采集/图像扫描仪设置
模型:神经网络
假设,在2个节点处有数据可用。使用不同的CT机器在两个不同的位置采集节点1和节点2处的数据集。
在以上示例中,从两个不同的位置采集数据。第一数据集有60HU的平均HU强度,其中第二数据集有100的平均HU强度。为了执行联合学习,基于元数据,将需要使用提前的预处理技术。例如,如果一个站点的平均强度与期望值稍有不同,则仍然可以使用该数据,但是对于该站点具有较低的权重(例如,基于根据期望值的程度或差异进行缩放)。即,指示来自该站点的权重更新应当被给予较低的优先级,因为分布不是如期望的那样。如果数据完全在不同的尺度上,则可以使权重为零,使得不会完全毁掉模型。通常,如果来自两个站点的数据不同或具有不同的性质,则该模型更有可能失败。因此,可以基于统计异质性来变化分配给站点的权重,以从给定站点中找到最佳模型。这提高了所得到的全局模型的准确度。
实验3:图像质量(CT扫描)
模型:神经网络
假设在2个节点处有数据可用。使用不同的CT机器在两个不同的位置采集节点1和节点2处的数据集。从两个中心采集的数据质量完全不同。基于强度直方图压缩,可以执行加权合并。其中基于与总样本数据集的相似性来分配较高的权重。
这允许在通过分配较低权重而对低质量数据发生错误的情况下不惩罚模型。这提高了所得到的全局模型的准确度。
Claims (13)
1.一种计算机实现的训练模型的方法,用于使用分布式机器学习过程对医学数据执行任务,由此全局模型基于在多个临床站点处对所述模型的本地副本所执行的训练而被更新,其中所述模型是用于在预测针对所述医学数据的分类时使用,或者其中所述医学数据包括医学图像并且所述模型是用于在分割所述医学图像时使用,所述方法包括:
a)向所述多个临床站点发送(302)信息,以使得所述多个临床站点中的每个临床站点能够创建所述模型的本地副本并且根据在相应的所述临床站点处的训练数据训练所述模型的相应的所述本地副本;
b)从所述多个临床站点中的每个临床站点接收(304):i)对所述模型中的参数的本地更新,所述本地更新是通过根据在相应的所述临床站点处的所述训练数据训练所述模型的所述本地副本而获得的,以及ii)与在相应的所述临床站点处所执行的所述训练的质量相关的元数据;以及
c)基于所接收的对所述参数的所述本地更新和所接收的所述元数据,通过以下来更新(306)所述全局模型中的所述参数:通过根据相应的所述元数据对每个本地更新进行加权来组合对所述参数的所述本地更新以确定对所述全局模型的更新,使得与指示高质量训练结果的元数据相关联的本地更新相比于与指示低质量训练结果的元数据相关联的更新具有更高的加权。
2.根据权利要求1所述的方法,其中组合对所述参数的所述本地更新以确定对所述全局模型的所述更新的步骤包括:
根据下式确定用于所述全局模型的参数:
全局参数=(α1*W1+α2*W2+α3*W3+…+αN*WN)/(α1+α2+α3+…αN);
其中WN包括对由第n个临床站点所确定的所述模型中的所述参数的所述本地更新,并且αN包括范围在0≤αN≤1中的实数;以及
其中所述αN的值是根据与对由所述第n个临床站点所确定的所述模型中的所述参数的所述更新相关联的所述元数据而被确定的。
3.根据前述权利要求中任一项所述的方法,其中针对在相应的所述临床站点处的、具有预期会影响模型误差的共同特性的训练数据的一个或多个子集,所述元数据提供所述模型的相应的所述本地副本在所述训练之后的性能的指示。
4.根据权利要求3所述的方法,其中所述医学数据包括计算机断层摄影CT扫描;以及
其中所述元数据包括当分类不同辐射剂量的CT扫描时所述模型的所述本地副本的所述性能的指示。
5.根据权利要求3所述的方法,其中所述医学数据包括医学图像,并且所述模型是用于在分割所述医学图像时使用以获得所述医学成像数据中的解剖特征的分割;并且其中所述元数据包括当分割所述解剖特征的全图像和/或所述解剖特征的部分图像时所述模型的所述性能的指示。
6.根据前述权利要求中任一项所述的方法,其中所述元数据提供在相应的所述临床站点处的所述训练数据的质量的指示。
7.根据权利要求6所述的方法,其中所述元数据提供在所述临床站点处的所述训练数据在所述模型的不同输出分类之间的分布的指示。
8.根据前述权利要求中任一项所述的方法,其中所述医学数据包括医学图像,所述方法还包括:
在步骤a)、b)和c)之前:
针对测试医学图像,确定由所述全局模型用来对所述测试医学图像执行所述任务的所述测试图像的第一区域;以及在步骤a)、b)和c)之后:
针对所述测试医学图像,确定由所更新的所述全局模型用来对所述测试医学图像执行所述任务的所述测试图像的第二区域;以及
将所述测试图像的所述第一区域与所述测试图像的所述第二区域进行比较以确定模型漂移的度量。
9.根据前述权利要求中任一项所述的方法,还包括:
针对在每个相应的临床站点处的所述训练数据的子集重复步骤a)、b)和c),所述训练数据的子集由所述模型以低于阈值确定性水平的确定性而被分类。
10.一种在临床站点处用于训练模型的计算机实现的方法,用于使用分布式机器学习过程对医学数据执行任务,由此在中央服务器处的全局模型基于在所述临床站点处对所述模型的本地副本所执行的训练而被更新,其中所述模型用于在预测针对所述医学数据的分类时使用,或者其中所述医学数据包括医学图像并且所述模型用于在分割所述医学图像时使用,所述方法包括:
从中央服务器接收信息,使得所述模型的本地副本能够被创建并且能够根据在所述临床站点处的训练数据被训练;
根据所述信息训练所述模型的本地副本;以及
向所述中央服务器发送i)对所述模型的更新,所述更新基于根据在所述临床站点处的所述训练数据的所述模型的所述本地副本的训练,以及ii)与在相应的所述临床站点处所执行的所述训练的质量相关的元数据。
11.根据前述权利要求中任一项所述的方法,其中所述模型包括神经网络模型,并且所述参数包括所述神经网络模型中的权重或偏置。
12.一种用于训练模型的装置,用于使用分布式机器学习过程对医学数据执行任务,由此全局模型基于在多个临床站点处对所述模型的本地副本所执行的训练而被更新,其中所述模型用于在预测针对所述医学数据的分类时使用,或者其中所述医学数据包括医学图像并且所述模型用于在分割所述医学图像时使用,所述装置包括:
存储器,所述存储器包括表示指令集合的指令数据;以及
处理器,所述处理器被配置为与所述存储器通信并且被配置为执行所述指令集合,其中所述指令集合在由所述处理器执行时,使所述处理器:
a)向所述多个临床站点发送信息,以使得所述多个临床站点中的每个临床站点能够创建所述模型的本地副本并且根据在相应的所述临床站点处的训练数据训练所述模型的相应的所述本地副本;
b)从所述多个临床站点中的每个临床站点接收i)对所述模型中的参数的本地更新,所述本地更新是通过根据在相应的所述临床站点处的所述训练数据训练所述模型的所述本地副本而获得的,以及ii)与在相应的所述临床站点处所执行的所述训练的质量相关的元数据;以及
c)基于所接收的对所述参数的所述本地更新和所接收的所述元数据,通过以下来更新所述全局模型中的所述参数:通过根据相应的所述元数据对每个本地更新进行加权来组合对所述参数的所述本地更新以确定对所述全局模型的更新,使得与指示高质量训练结果的元数据相关联的本地更新相比于与指示低质量训练结果的元数据相关联的更新具有更高的加权。
13.一种包括计算机可读介质的计算机程序产品,所述计算机可读介质具有包含在其中的计算机可读代码,所述计算机可读代码被配置为使得在由合适的计算机或处理器执行时,使所述计算机或所述处理器执行根据权利要求1至11中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20185311.6 | 2020-07-10 | ||
EP20185311.6A EP3937084A1 (en) | 2020-07-10 | 2020-07-10 | Training a model to perform a task on medical data |
PCT/EP2021/068922 WO2022008630A1 (en) | 2020-07-10 | 2021-07-08 | Training a model to perform a task on medical data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115803751A true CN115803751A (zh) | 2023-03-14 |
Family
ID=71575212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180049170.7A Pending CN115803751A (zh) | 2020-07-10 | 2021-07-08 | 训练模型用于对医学数据执行任务 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230252305A1 (zh) |
EP (2) | EP3937084A1 (zh) |
JP (1) | JP2023533188A (zh) |
CN (1) | CN115803751A (zh) |
WO (1) | WO2022008630A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115222945B (zh) * | 2022-09-15 | 2022-12-06 | 深圳市软盟技术服务有限公司 | 基于多尺度自适应课程学习的深度语义分割网络训练方法 |
WO2024071845A1 (ko) * | 2022-09-28 | 2024-04-04 | 주식회사 메디컬에이아이 | 의료용 인공지능 모델의 구축 방법, 프로그램 및 장치 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3528179A1 (en) * | 2018-02-15 | 2019-08-21 | Koninklijke Philips N.V. | Training a neural network |
-
2020
- 2020-07-10 EP EP20185311.6A patent/EP3937084A1/en not_active Withdrawn
-
2021
- 2021-07-08 WO PCT/EP2021/068922 patent/WO2022008630A1/en unknown
- 2021-07-08 CN CN202180049170.7A patent/CN115803751A/zh active Pending
- 2021-07-08 EP EP21742110.6A patent/EP4179467A1/en active Pending
- 2021-07-08 US US18/015,144 patent/US20230252305A1/en active Pending
- 2021-07-08 JP JP2022578700A patent/JP2023533188A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023533188A (ja) | 2023-08-02 |
EP4179467A1 (en) | 2023-05-17 |
WO2022008630A1 (en) | 2022-01-13 |
EP3937084A1 (en) | 2022-01-12 |
US20230252305A1 (en) | 2023-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10540578B2 (en) | Adapting a generative adversarial network to new data sources for image classification | |
Zuo et al. | R2AU‐Net: attention recurrent residual convolutional neural network for multimodal medical image segmentation | |
Ricciardi et al. | Assessing cardiovascular risks from a mid-thigh CT image: a tree-based machine learning approach using radiodensitometric distributions | |
US20190198156A1 (en) | Medical Image Classification Based on a Generative Adversarial Network Trained Discriminator | |
Heidari et al. | A new lung cancer detection method based on the chest CT images using Federated Learning and blockchain systems | |
Czolbe et al. | Is segmentation uncertainty useful? | |
Viji et al. | RETRACTED ARTICLE: An improved approach for automatic spine canal segmentation using probabilistic boosting tree (PBT) with fuzzy support vector machine | |
US20230351204A1 (en) | Selecting a training dataset with which to train a model | |
Wankhade et al. | A novel hybrid deep learning method for early detection of lung cancer using neural networks | |
US11790492B1 (en) | Method of and system for customized image denoising with model interpretations | |
CN115803751A (zh) | 训练模型用于对医学数据执行任务 | |
US20210145389A1 (en) | Standardizing breast density assessments | |
Luo et al. | Rethinking annotation granularity for overcoming shortcuts in deep learning–based radiograph diagnosis: A multicenter study | |
CN113240699B (zh) | 图像处理方法及装置,模型的训练方法及装置,电子设备 | |
CN112488178B (zh) | 网络模型的训练方法及装置、图像处理方法及装置、设备 | |
CN113724185B (zh) | 用于图像分类的模型处理方法、装置及存储介质 | |
Nematzadeh et al. | Ensemble-based genetic algorithm explainer with automized image segmentation: A case study on melanoma detection dataset | |
Suganyadevi et al. | Deep recurrent learning based qualified sequence segment analytical model (QS2AM) for infectious disease detection using CT images | |
Thilagavathy et al. | Digital transformation in healthcare using eagle perching optimizer with deep learning model | |
Mahima et al. | Deep learning-based lung cancer detection | |
US20220391760A1 (en) | Combining model outputs into a combined model output | |
Srinivasan et al. | To pretrain or not? A systematic analysis of the benefits of pretraining in diabetic retinopathy | |
de Souza-Filho et al. | Deep learning and artificial intelligence in nuclear cardiology | |
Somasundaram et al. | Automatic detection of inadequate pediatric lateral neck radiographs of the airway and soft tissues using deep learning | |
Kovalev et al. | Automatic detection of pathological changes in chest X-ray screening images using deep learning methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |