CN115907026A

CN115907026A - 用于联邦学习的隐私保护数据策管

Info

Publication number: CN115907026A
Application number: CN202211187856.5A
Authority: CN
Inventors: 刘永珍; G·帕拉迪尼; E·吉布森; P·帕特尔; P·乌拉斯克里希南
Original assignee: Siemens Healthineers AG
Current assignee: Siemens Healthineers AG
Priority date: 2021-09-28
Filing date: 2022-09-28
Publication date: 2023-04-04
Also published as: US11934555B2; EP4156201A1; US20230102732A1

Abstract

系统和方法通过将潜在数据样本的一部分传输到远程位置来促进联邦学习系统中的隐私保护数据策管。检查该部分的质量，以排除不满足数据策管准则的数据样本。远程检查聚焦于审核感兴趣的区域，但是保持隐私，因为该检查不能解析任何其他可标识的对象信息，诸如面部、身体形状等，因为不包括该部分之外的像素或体素。检查结果被发送回合作者，以便在联邦学习轮次期间可以排除不适当的数据样本。

Description

用于联邦学习的隐私保护数据策管

技术领域

本实施例涉及联邦学习。

背景技术

在过去的几年里，由于计算硬件的改进和医疗保健数据的激增，深度学习已经从医学研究领域提升到了医疗产品领域。诸如研究中心、医院或其他医疗实体的大量实体每天都在收集大量的数据。数据分析可以改进学习模型和用户体验。训练这些模型的复杂问题可以通过利用在网络边缘处可用的参与设备的资源存储、计算能力、周期、内容和带宽，由分布式计算来解决。在这样的分布式机器学习场景中，数据集被传输到多个边缘设备或存储在多个边缘设备之间。所述设备解决分布式优化问题，以共同学习底层模型。对于分布式计算，相似（或相同）的数据集可以被分配给多个设备，然后所述多个设备能够并行地解决问题。然而，由于法规对共享受保护的医疗保健信息的关注，访问大型、多样化的医疗保健数据集仍然是一个挑战。

隐私和连接性问题可能会阻止数据在实体之间共享，从而阻碍大规模分布式方法。例如，医院可能不愿意或不被允许与其他实体或未知用户共享医疗数据。联邦学习是一种分布式计算方法，它使得实体能够在机器学习项目上进行协作，而无需共享敏感数据，诸如患者记录、财务数据或保密的机密。联邦学习背后的基本前提是模型为了满足数据而移动，而不是数据为了满足模型而移动。因此，跨联邦所需的最少数据移动是模型参数及其更新。不过，在管理数据流、模型训练和隐私问题方面，挑战依然存在。

发明内容

提供了用于联邦学习过程的数据策管（data curation）的系统、方法和计算机可读介质。

在第一方面，提供了一种用于由多个合作者使用联邦学习来训练模型的方法，该方法包括：由多个合作者中的合作者从参数聚合服务器接收全局模型参数；由所述合作者获取样本数据；由所述合作者将所述样本数据的匿名化部分传输到策管服务器，所述策管服务器被配置为标识满足或不满足一个或多个数据选择条件的数据样本；由所述合作者从策管服务器接收对样本数据的验证；由所述合作者使用经验证的样本数据来训练模型；以及由所述合作者将模型的本地模型参数传输到参数聚合服务器。

在第二方面，提供了一种由多个合作者使用联邦学习来训练模型的方法，该方法包括：由多个合作者中的合作者从参数聚合服务器接收全局模型参数；由所述合作者获取样本数据；由所述合作者将样本数据的匿名化部分提交给机器训练的模型，所述机器训练的模型被配置为标识不满足数据选择条件的数据样本；由所述合作者从机器训练的模型接收对样本数据的验证；由所述合作者使用经验证的样本数据来训练模型；以及由所述合作者将模型的本地模型参数传输到参数聚合服务器。

在第三方面，提供了一种用于联邦学习的系统。该系统包括多个合作者、策管服务器和聚合服务器。所述多个合作者中的每个合作者被配置为获取样本数据、匿名化样本数据、以及将匿名化的样本数据传输到策管服务器以进行验证。每个合作者进一步被配置为使用经验证的样本数据来训练本地机器学习模型，更新本地机器学习模型的本地模型权重，并且将更新的本地模型权重发送给聚合服务器。策管服务器被配置为接收匿名化的样本数据，并且标识满足或不满足一个或多个数据选择条件的样本数据。聚合服务器被配置为从所述多个合作者接收更新的模型权重，计算聚合的模型权重，并且将聚合的模型权重传输给所述多个合作者以更新本地机器学习模型。

上述方面中的任何一个或多个可以单独使用或组合使用。从要结合随附附图阅读的以下对优选实施例的详细描述中，这些和其他方面、特征和优点将变得显而易见。本发明由以下权利要求限定，并且本节中的任何内容都不应该被视为对这些权利要求的限制。本发明的其他方面和优点将在下面结合优选实施例进行讨论，并且以后可以独立地或组合地要求保护。

附图说明

组件和附图不一定按比例绘制，相反，重点在于说明实施例的原理。此外，在附图中，相同的附图标记贯穿于不同的视图指定对应的部分。

图1描绘了示例联邦学习系统。

图2描绘了根据实施例的模型参数的自适应聚合的示例方法。

图3描绘了根据实施例的模型参数的自适应聚合的示例工作流。

图4描绘了根据实施例的示例聚合服务器。

具体实施方式

实施例提供了用于联邦学习的数据策管的系统和方法。实施例通过将潜在数据样本的一部分传输到远程位置来促进隐私保护数据策管。检阅该部分的质量，以排除不满足数据策管准则的数据样本。远程检查聚焦于在视觉上审核感兴趣的区域，但是保持隐私，因为所述检查不能解析任何其他可标识的对象信息，诸如面部、身体形状等，因为不包括该部分之外的体素。检查结果被发送回合作者，以便在联邦学习轮次期间可以排除不适当的数据样本。

联邦学习（FL）是一种用于训练模型的分布式方法，该模型包括多个分布式设备/合作者和至少一个聚合/中央服务器。所述合作者中的每一个下载当前模型，并且使用本地数据在合作者自身处计算更新的模型（ala边缘计算）。然后，本地训练的模型被从合作者发送回中央服务器，在那里模型或参数被聚合。单个合并和改进的全局模型被从服务器发送回设备。存在不同的方案和设置（例如对等），但是联邦学习的基础是本地数据留在本地站点，并且不被合作者共享。联邦学习允许机器学习算法从位于不同位置的大范围数据集获得经验。该方法使得多个组织能够协作开发模型，但是不需要彼此直接共享安全数据。在几个训练迭代的过程中，共享模型接触到的数据比任何单个组织内部拥有的数据都显著地更广泛。换句话说，联邦学习通过消除将数据集中到单个位置的需要来使机器学习去中心化。相反，该模型在不同的位置进行多次迭代训练。

在实施例中，合作者或远程位置包括医院和医疗中心。利用联邦学习，这些站点可以维持完全控制和拥有其患者数据，以及对数据访问进行完全跟踪，从而限制第三方滥用的风险。现有的医疗数据通常不会被机器学习完全使用，因为数据驻留在数据孤岛或围墙花园中，并且隐私问题限制了访问。然而，中心化或发布数据不仅会带来与隐私和数据保护相关的监管、道德和法律挑战，还会带来技术挑战。匿名化、控制访问和安全传递医疗保健数据是一项不平凡的任务，并且有时甚至是不可能完成的任务。来自电子健康记录的匿名化数据可能看起来无害且符合规定，但是仅仅几个数据元素就可能允许重新标识患者。这同样适用于基因组数据和医学图像，使它们像指纹一样独一无二。因此，除非匿名化过程破坏了数据的保真度，很可能使其变得无用，否则不能排除重新标识患者或信息泄露的可能性。因此，医院和医疗中心可以充分利用联邦学习。

图1描述了联邦学习系统的示例。如所描绘的，联邦学习系统包括三个合作者设备/远程设备，本文也称为合作者131和中央/聚合服务器121。在典型的联邦学习系统中，取决于应用，可能存在数十、数百、数千或更多的设备/合作者131。每个合作者131被配置为获取本地数据，针对所述本地数据在多个轮次中在本地训练模型。为了开始训练，聚合服务器121向选取的所有合作者131发送全局模型参数（例如模型权重或表示权重的向量）以进行初始化。每个合作者131利用本地获取的数据来训练（利用全局模型参数初始化的）本地模型，并更新某些时期（epoch）的模型参数。合作者131然后将更新的模型参数发送回聚合服务器121。聚合服务器121聚合更新的模型参数，并且然后将全局模型参数发送给合作者131用于另一轮训练。结果是允许培训数据安全地保留在现场的系统，从而提高了安全性和隐私性。对于某些模型，诸如医学应用程序，当以前的隐私问题和法规可能禁止使用数据时，所述数据现在可以使用。然而，联邦学习的分布式性质也产生了潜在的缺点和复杂性。一般来说，跨联邦所需的最小数据移动是模型参数及其更新。

为了在临床实践中实现质量和可推广性，需要确保足够大的策管数据集来训练现代AI模型。然而，在联邦学习的背景下，临床数据的隐私保护目的和去中心化性质使数据策管程序确定临床级准确性复杂化并阻碍了该程序，尽管它是安全的并且可推广到看不见的数据。数据策管是在医学图像数据上训练深度网络的关键步骤，因为不相关的数据样本可能使训练性能退化。目前，数据策管通常在中心化数据集上进行，或者在本地合作机构中独立完成。例如，这些选择任务通常是通过人工检查将要使用的整组数据样本来完成的。中心化数据集上的数据策管确实使得能够利用标准化的选择准则，但是可能违反隐私保护，而隐私保护是联邦学习的关键优势。经由远程桌面进行数据策管被认为是一种替代解决方案，但是仍然存在破坏患者隐私保护的巨大风险，因为敏感的视觉信息仍然可能被泄露。另一方面，本地合作机构的独立数据策管将无法利用标准化程序，并且由于策管程序的不一致以及涉及检查者，还会导致不良结果。由于每个站点都需要专家的努力，这也可能是不可行的。

在联邦学习中，数据策管对训练深度网络的影响可能比在中心化学习中更大。对于在联邦学习轮次期间具有小的数据的合作者131来说，质量差的数据样本可能造成更严重的干扰。取决于联邦学习模型聚合的鲁棒性，这可能对整体联邦学习进度具有显著影响，并且可能导致不稳定的联邦学习轮次。实施例提供了一致的数据策管，其可以促进增强的联邦学习训练稳定性和可推广性，而不违反隐私保护，这是大规模临床采用的基本要求。数据可用性是AI方法在临床实践中实现的一个重要障碍。通过提供不违背联邦学习目的的数据策管程序，实施例有助于增加高质量数据的可用性。

本文描述的实施例提供了数据的分布式处理，同时维护了隐私和传输问题。模型的训练以去中心化方式与多个合作者131发生，其中只有本地数据对于每个合作者131可用。所述多个合作者131不共享数据。在实施例中，模型参数的聚合发生在聚合服务器121上。虽然本文档的其余部分描述了聚合方案，但是实施例可适用于其中样本数据不在站点之间共享的任何联邦学习方案。例如，联邦学习系统可以使用对等共享策略，其中合作者131在他们之间交换参数（但不是样本数据），而不使用中心化服务器。验证/策管每个合作者131的本地数据。数据策管促进增强的联邦学习训练稳定性和可推广性，而不违反隐私保护。验证/策管可以远程或本地执行。当远程执行时，样本数据的匿名化部分被传输到验证服务器，该验证服务器确定数据样本是否满足模型的数据选择条件。类似地，当在本地执行时，样本数据的匿名化部分被输入到机器训练的分类器中，该分类器确定数据样本是否满足模型的数据选择条件。

图2描绘了用于联邦学习系统中的多个合作者131的数据策管的方法，该联邦学习系统在多个训练轮次上训练模型。该工作流描述了将要执行的多个训练轮次中的一个潜在轮次。在模型被训练之前，可能执行数十、数百、数千或更多轮次。对于每一轮次，合作者131或远程设备利用本地数据训练本地模型。本地模型参数然后被发送到聚合服务器121，聚合服务器121被配置为将来自多个合作者131的参数聚合成单个中央模型。用于单个中心模型的参数从聚合服务器121传送回合作者131，以用于随后的一轮训练。如以下部分所述，可以使用图1、3或4中所示组件的任意组合来执行这些动作。以下动作可以由合作者131、聚合服务器121、基于云的服务器或其组合来执行。可以提供附加的、不同的或更少的动作。所述动作按所示顺序或其他顺序执行。数据策管可以发生在一轮或多轮联邦学习期间的任何点。所述动作也可以重复。取决于联邦学习方案，可以跳过或调整某些动作。例如，在对等联邦学习系统中，没有聚合服务器121。相反，合作者131在没有中心化控制器的情况下在它们之间共享参数。

图3描述了一个策管过程的示例。在图3中，合作者131分割整个身体。合作者131掩盖剩余解剖结构，这使患者数据匿名化。样本数据被传输到策管服务器141，策管服务器141被配置为执行掩盖的数据的数据策管。策管的数据或验证被发送回与其他合作者131组合执行本地训练的合作者131。

在动作A110，多个合作者131中的合作者131从参数聚合服务器121接收全局模型参数。合作者131可以远离聚合服务器121。在一个实施例中，合作者131是医院站点。合作者131被配置为使用本地获取的数据来训练模型，出于隐私或安全原因，所述数据不会离开相应合作者131的站点。每个合作者131获取数据，在一期或多期内训练模型，然后通过网络将模型参数传输到聚合服务器121。聚合服务器121可以包括一个或多个机器或服务器。聚合服务器的层级可以用于接收模型参数，所述模型参数可以由附加的服务器进一步聚合。聚合服务器121可以被配置为在云中或者在多个不同的机器上操作。在实施例中，聚合服务器121和合作者131位于远程。替代地，聚合服务器121和合作者131可以位于同一地点。聚合服务器121和合作者131使用网络进行通信，所述网络可以包括有线网络、无线网络或其组合。无线网络可以是蜂窝电话网络、LTE（长期演进）、4G LTE、无线局域网，诸如802.11、802.16、802.20、WiMax（微波接入全球互通）网络、DSRC（也称为WAVE、ITS-G5或802.11p及其未来版本）、5G无线网络或无线短程网络。此外，网络127可以是诸如互联网的公共网络、诸如内联网的专用网络或其组合，并且可以利用现在可用的或以后开发的各种联网协议，包括但不限于基于传输控制协议/互联网协议（TCP/IP）的联网协议。

该模型可以是使用机器学习过程训练的任何模型。医学应用的示例包括寻找临床相似的患者、预测由于心脏事件而导致的住院、死亡率和ICU停留时间。模型还可以包括医学成像领域中的应用，诸如用于全脑分割以及脑肿瘤分割。在一个实施例中，该模型可以用于在COVID-19的背景下标识疾病相关的生物标志物。

模型参数可以由一个或多个参数向量来表示。参数向量可以是来自模型的参数集合（例如，集）或参数集的表示。参数向量可以是参数向量的随机选择的分量。模型可能包括数千或数百万个参数。对于带宽和定时而言，将该参数集压缩成参数向量可能比传输和重新计算该参数集中的每个参数更有效。参数向量也可以被进一步压缩。在一个实施例中，输入参数向量也可以被压缩成稀疏子空间向量。

在一个实施例中，使用监督学习过程来训练模型。监督学习过程可以用于预测数值（回归）和用于分类目的（预测适当的类）。除了处理其他类型的数据之外，监督学习处理还可以包括处理图像、音频文件、视频、数字数据和文本。除了其他之外，分类示例还包括分割、对象识别、人脸识别、信用风险评估、语音识别和客户流失。回归示例包括基于多个（有时数百或数千个）输入变量确定连续数值。

该模型可以包括机器学习过程，诸如支持向量机（SVM）、提升和袋装决策树、k-最近邻、朴素贝叶斯、判别分析、逻辑回归和神经网络。在示例中，使用包括最大池化层的两级卷积神经网络。两级卷积神经网络（CNN）针对非线性使用线性整流单元，并在末端针对图像分类使用全连接层。在实施例中，可以使用对抗训练过程来训练模型，例如，模型可以包括生成对抗网络（GAN）。对于对抗训练方法，生成网络和判别网络被提供用于由设备进行训练。生成网络被训练以标识一个域A中的数据的特征，并且将来自域A的数据转换成与域B中的数据不可区分的数据。在训练过程中，判别网络扮演法官的角色，以对来自域A的转换后的数据与域B的数据相似的可能性进行评分，例如，该数据是来自域B的伪造数据还是真实数据。在实施例中，该模型适用于医学诊断，例如，被配置为在输入图像或体积时标识或诊断疾病或问题的分类网络。

在动作A120，合作者131获取样本数据。每个合作者131的训练数据不是独立且相同分布的（非独立同分布）。两个不同合作者131的数据分布是不同且不平衡的（例如，合作者131具有不同数量级的所获取的数据）。在示例中，对于图像数据，一个设备可能具有几千兆字节的医学成像数据，其与针对多个患者的多个程序拍摄的图像相关，而另一个设备仅具有单个图像数据集。尽管具有更多数据的合作者131可以提供更多有用的参数，但是这两个数据集对于训练分割模型都是有用的。设备之间的数据质量也可能不同。某些设备可以包括更高质量的传感器，或者可以包括更多的数据存储装置，从而允许捕获更高质量的数据。

合作者131被配置为使用训练数据来训练或配置本地模型。在实施例中，训练数据被标记。标记数据被用于监督学习。通过输入已知输入和已知输出来训练该模型。调整权重或参数，直到模型精确匹配已知的输入和输出。在示例中，为了训练机器学习模型以使用获取的图像数据来标识某些伪影，需要具有各种各样配置的伪影的图像作为输入变量。可以人工或自动分配这样的数据的标签，例如正确的名称。正确的输入变量集和正确的分类构成了训练数据集。例如，可以通过从用户请求附加的输入（请求人工注释）、从附加的数据中导出（解析文本描述）、或者通过并入来自其他来源的附加数据来提供标签。可以使用用于标记数据的其他方法，例如，基于云的服务可以给出从云中下载到设备的准确但不完整的标签。样本数据例如可以是医学成像数据，包括患者的成像数据的图像（2D）或体积（3D）。

在动作A130，合作者131将样本数据的匿名化部分传输到策管服务器141，策管服务器141被配置为标识不满足数据选择条件的数据样本。如上所述，数据样本可以是例如患者的成像数据。在一个实施例中，合作者131利用全身器官分割来提取需要管理的感兴趣的解剖区域（例如，脑部、肺部），并掩盖掉图像的剩余部分，使得不可能标识个体患者。掩模数据在感兴趣的解剖区域中包括与原始体积数据相同的分辨率、取向和图像质量（SNR、锐度/对比度），使得远程检查者可以应用相同的数据策管准则。

在一个实施例中，匿名化部分是与诊断无关的体积/成像数据的解剖区域。然而，匿名化部分可以提供全身分割的整体质量的指示。因此，匿名化部分可以用作相关部分的代理，同时仍然保持患者诊断的隐私和安全性。在一个示例中，当诊断涉及患者的脑部时，该部分可以包括或者是非相关器官，例如肺部。如下所述，如果肺部分割是低质量的，则脑部分割也可能是低质量的，并且因此可以将数据样本放在一边以供进一步检查。

在进一步的实施例中，样本数据的匿名化部分被输入到机器训练模型中，该模型被配置为输出质量的分类或指示。机器训练的策管分类模型可以集中训练，并且然后在每个站点实现。合作者131在本地将他们的数据样本提交给机器训练的策管分类模型。替代地，可以使用联邦学习方法来训练机器训练的策管分类模型。在这样的情况下，机器训练的策管分类模型首先被训练来策管数据，该数据然后被用于训练主模型。

在动作A140，合作者131从策管服务器141接收对样本数据的验证。策管服务器141可以对样本数据执行一个或多个验证任务，以确定样本数据是否足以用于训练模型。由于样本数据只是数据的一部分，因此患者保持匿名。在一个实施例中，样本数据可以由远程检查者审查。远程检查者可以聚焦于视觉上审核感兴趣的区域。远程检查者不能看到任何其他可标识的受试者信息，诸如面部、身体形状等，因为分割掩模之外的像素或体素被屏蔽或不包括在内。掩盖数据包括感兴趣解剖区域中与原始体积数据相同的分辨率、取向和图像质量（SNR、锐度/对比度），因此远程检查者能够应用相同的数据策管准则。检查结果被发送回合作者131，以便在联邦学习轮次期间可以排除不适当的数据样本。在一个实施例中，如果数据样本不满足数据策管准则，则该数据样本可以被标记用于本地审查。本地审查过程可以由临床医生或操作员执行，并且可以包括标识数据样本的问题并纠正或修复所述问题，以及将数据样本重新提交给策管服务器141。

在一个实施例中，策管服务器141可以执行离群值检测方法来验证样本数据。离群值检测方法主要通过探索统计特性、基于距离的特征、基于聚类的特征和基于密度的特征来将低质量数据视为离群值。离群值检测方法的一个示例包括AVF（属性值频率）算法。在基于离群值检测的数据清洗方法中，如果数据样本远离所有数据中的大部分，则它们被标识为离群值。对于基于离群值检测的方法，只有样本数据的某些度量或特性可以被提供给策管服务器141，例如描述样本数据或感兴趣区域的统计特性。

另一种方法可以包括使用基于机器学习的分类器。在一个实施例中，可以为每个数据策管准则实现AI分类网络，其可以自动标识不满足数据选择条件的数据样本。分类网络可以在中心化数据集或本地数据集上训练，并且在一个实施例中，可以随后部署到合作者131。具有由AI方法标识的低置信度分类得分的数据样本子集可以被发送给审查员，用于使用上述方法进行人工视觉检阅。

在动作A150，合作者131使用经验证的样本数据来训练模型。未经验证的样本数据可能会被搁置一旁或在现场进行人工审查。替代地，可以使用质量差的样本数据，但是质量低的指示可以被传送到聚合服务器，该聚合服务器可以对来自特定合作者131的参数打折扣。在一个实施例中，使用梯度下降技术或随机梯度下降技术来训练模型。这两种技术都试图最小化为模型定义的误差函数。为了训练（最小化误差函数），合作者131首先连接到参数服务器。合作者131可以从随机初始化的模型参数开始，或者可以从参数服务器请求初始模型参数。起始参数也可以从另一个预先训练的模型中导出，而不是被随机初始化。可以将初始参数分配给所有随后的合作者131。替代地，如果训练过程已经开始，则可以分配更新的中央参数。在一个示例中，合作者131最初可以在不同的时间与参数服务器通信。第一合作者131可以与聚合服务器121通信，并被分配随机初始化的模型参数。类似地，第二合作者131可以在此后不久与聚合服务器121通信，并且被分配随机初始化的模型参数。在某个点处，合作者131开始将模型参数传输回聚合服务器121。如下面详细描述的，聚合服务器121更新中央模型参数，并且将更新的模型参数传输回合作者131。在此时间之后第一次与参数服务器通信的任何合作者131可以被分配中央参数，而不是随机初始化的模型参数。这样，新的合作者131可以在训练过程中的任何时候被添加到系统中，而不会中断训练过程。向新加入的合作者131分发最新的参数可以在早期阶段导致更快的学习。

梯度下降技术试图最小化模型的误差函数。每个合作者131使用本地训练数据来训练本地模型。训练模型包括调整本地模型的内部权重或参数，直到本地模型能够在给定新输入数据点的情况下准确预测正确的结果。训练过程的结果是包括一个或多个本地参数的模型，所述一个或多个本地参数在给定本地训练数据的情况下使函数的误差最小化。所述一个或多个本地参数可以表示为参数向量。由于本地训练数据有限，因此当预测未标识的输入数据点的结果时，经训练的模型可能不是非常准确。然而，在给定覆盖更宽范围数据的起始参数的情况下，训练模型可以被训练得更准确。可以从聚合服务器121获取更好的起始参数。

在动作A160，合作者131将模型的本地模型参数传输到参数聚合服务器。聚合的模型参数被多个合作者131用于随后的一轮训练。随后的轮次类似于A110-A160的所述轮次。每次迭代的差异是模型中一个或多个参数的不同起点。接收到的中央参数向量可以不同于A110中提供的本地参数向量。该过程重复多次迭代，直到参数收敛或达到预定的迭代次数。这个过程可能会重复数百次或数千次。在一个示例中，可以执行数百次（例如，100到500次）或数千次（例如，3000到5000次）迭代。取决于模型的复杂性以及设备和数据的类型和数量，可以会执行更多或更少的迭代。如果新的数据被添加到训练数据中，则设备可以重新训练模型并且请求新的中央参数（并且该过程可以完全或部分重复）。训练过程的结果是一个模型，该模型例如能够在给定未标记输入的情况下准确预测分类。该模型用于新的数据，以生成例如预测或分类。在一个示例中，对于图像分类模型，合作者131使用经训练的机器学习模型在新获取的（看不见的）成像数据中标识对象或特征。

在一个实施例中，机器训练的模型被部署到每个合作者131以策管数据。机器训练的模型可以在策管服务器上被训练、存储和更新。在被训练之后，机器训练的模型可以被传输给合作者131，然后合作者131将他们的数据样本本地提交给模型以便进行策管。

在一个实施例中，数据策管可以被应用于训练在医学应用中使用的模型。在医学应用中，深度学习有潜力为医学问题的筛选和诊断创造重要的工具，例如最近的COVID-19。然而，由于监管机构对共享受保护的医疗保健信息的担忧，因此访问大型、多样化的医疗保健数据集仍然是一项挑战。表示来自多机构/多国家AI试验的强烈威慑的一个问题是对患者数据的严格监管和保护要求。美国健康保险流通和责任法案（HIPAA）和欧洲通用数据保护法规（GDPR）都关于个人可标识数据和健康相关数据的存储和交换制定了严格的规则，要求认证、授权、可追究性和——在GDPR情况下——AI可解释性，引发了对数据处置、所有权和AI治理的考虑。伦理、道德和科学指南）也规定了对隐私的尊重，即保留对人们的个人信息的完全控制和保密的能力。另一个原因是缺乏标准化的电子患者记录。电子患者数据管理非常昂贵，并且贫困地区的医院可能无法负担参与需要它的研究，这可能会使上述偏见和公平问题继续存在。数据的去中心化性质使数据策管变得复杂，难以确定结果的完整性和质量。使用如上所述的数据策管方案可以缓解一些问题，并且允许联邦学习过程生成准确且有用的模型。下面提供了可以与联邦学习一起使用，并且利用上述数据策管的模型类型的示例。

在一个实施例中，使用自适应聚合来克服将FL应用于 COVID-19诊断的先前问题。一个经训练的模型使用胸部计算机断层摄影（CT）扫描，该扫描对于 COVID-19诊断更敏感，并且目前被广泛应用于疾病的早期筛查。使用分割网络，其可以自动量化通常在 COVID-19患者中出现的异常计算机断层摄影（CT）模式。第二个经训练的模型使用分类网络，该分类网络可以自动检测 COVID-19病理，并且在胸部CT中与其他肺炎、间质性肺疾病（ILD）和正常受试者区分开来。在一个实施例中，样本数据（例如，全身（或部分）分割）被掩盖以排除除了肺部之外的一切。被掩盖掉的体积或者被远程验证，或者被机器训练的分类网络验证。一旦被确认，该体积就可以被合作者131用来训练网络以检测和/或诊断 COVID-19。

在一个实施例中，分割网络包括具有3D卷积块的类似U-Net的架构，该3D卷积块包含1 3 3或3 3 3的 CNN核来处理各向异性分辨率。3D输入张量被馈送到3D 1 3 3卷积层，随后是批归一化和泄漏ReLU。然后将特征图传播到5个DenseNet块。对于前两个DenseNet块，通过步长为1 2 2的1 2 2卷积对特征进行下采样。各向异性下采样核被配置为保持输入图像体积的切片间分辨率。最后三个DenseNet块包括步长为2 2 2的各向同性下采样核。每个解码器块的输入是通过级联具有相同分辨率的编码器输出特征和从前一个解码器上采样的特征图而获得的。上采样核是利用转置卷积核构建的，其大小和步长与对应的DenseNet块相同。通过将特征图投影到2个输出通道并且由softmax运算激活，导出最终的网络输出。

在一个实施例中，分类网络被配置用于对胸部CT数据进行 COVID-19病理学区分，其提取2D轴向特征和3D全局特征。该网络包括一个ResNet50作为骨干轴向特征提取器，它将一系列CT平面内切片作为输入，并为对应的切片生成特征图。从所有切片中提取的特征然后通过最大池化运算来组合。全局特征被馈送到全连接层，该全连接层通过softmax运算针对每个案例产生 COVID-19预测得分。

对于每个模型，在联邦学习期间，使用数据策管来处理来自每个医院站点的非独立同分布数据。数据策管允许模型被高效地训练，而不会被由于低质量或数据样本不足而导致的低质量训练轮次所污染。

图4描绘了策管服务器141的示例。策管服务器141包括至少存储器125、处理器123、接口129和收发器127。策管服务器141可以使用收发器127与一个或多个合作者131或站点通信，以接收样本数据并且传输验证数据。所述一个或多个合作者131可以包括医院站点或以其他方式被配备为获取或存储患者的医疗数据的中心。例如，所述一个或多个合作者131可以包括医学成像设备和/或PACS系统，其被配置为采集或存储医学成像数据以用于训练模型和生成模型参数。

存储器125可以是存储表示由处理器123可执行的指令的数据的非暂时性计算机可读存储介质，用于时变再入院风险预测。用于实现本文讨论的过程、方法和/或技术的指令在非暂时性计算机可读存储介质或存储器上提供，诸如高速缓存、缓冲器、RAM、可移动介质、硬盘驱动器或其他计算机可读存储介质。非暂时性计算机可读存储介质包括各种类型的易失性和非易失性存储介质。响应于存储在计算机可读存储介质中或计算机可读存储介质上的一个或多个指令集，执行在附图中图示或在本文中描述的功能、动作或任务。所述功能、动作或任务独立于指令集、存储介质、处理器或处理策略，并且可以由单独或组合地操作的软件、硬件、集成电路、固件、微代码等执行。同样，处理策略可以包括多处理、多任务、并行处理等。在一个实施例中，指令存储在可移动介质设备上，以用于由本地或远程系统读取。在其他实施例中，指令存储在远程位置，用于通过计算机网络或电话线传递。在其他实施例中，指令存储在给定的计算机、CPU、GPU或系统内。存储器125可以存储模型或机器学习网络。

处理器123是通用处理器、中央处理单元、控制处理器、图形处理单元、数字信号处理器、三维渲染处理器、图像处理器、专用集成电路、现场可编程门阵列、数字电路、模拟电路、它们的组合，或者用于处理医学成像数据的其他现在已知或以后开发的设备。处理器123是以串行、并行或分离方式操作的单个设备或多个设备。处理器123可以是诸如膝上型或台式计算机之类的计算机的主处理器，或者可以是用于处置诸如服务器之类的较大系统中的一些任务的处理器。处理器123由指令、设计、硬件和/或软件配置，以执行本文讨论的动作。

处理器123可以被配置为从一个或多个合作者131接收样本数据，检查数据，并返回关于样本数据是否满足由例如模型或联邦学习过程的管理员设置的数据策管准则的确定。在一个实施例中，远程检查聚焦于在视觉上审核数据样本的感兴趣区域。由处理器审查的数据可以仅包括存储在合作者131处的数据样本的一部分。例如，合作者131可以掩盖掉图像或体积的一部分，使得不可能识别个体患者。因此，由处理器123进行的检查可能看不到任何可标识的对象信息，诸如患者的面部、身体形状等，因为掩模外的像素或体素被屏蔽掉了。掩模数据在感兴趣的解剖区域中包括与原始体积数据相同的分辨率、取向和图像质量（SNR、锐度/对比度），因此远程检查者可以应用相同的数据策管准则。检查结果被发送回合作者131，以便在联邦学习轮次期间可以排除不适当的数据样本。

处理器123可以被配置为实现机器学习分类模型，该模型被配置为标识满足数据策管准则的数据样本。机器学习的分类模型可以存储在存储器125中。可以使用训练数据集来训练机器学习分类模型，该训练数据集包括满足和不满足数据策管准则的数据样本。处理器123可以针对不同的准则实现多个模型。可以使用监督或无监督学习来训练（一个或多个）机器学习分类模型。（一个或多个）机器学习分类模型可以包括被定义为多个顺序特征单元或层的神经网络。顺序用于指示输出特征值从一层到输入至下一层的一般流程。顺序用于指示输出特征值从一层到输入至下一层的一般流程。来自下一层的信息被馈送到下一层，依此类推，直到最终输出。所述层可以仅前馈或者可以是双向的，包括对前一层的一些反馈。每个层或单元的节点可以与前一层和/或后一层或单元的所有节点或仅一个节点子集连接。可以使用跳跃连接，诸如一层输出到顺序上的下一层以及其他层。深度架构被定义为基于输入数据学习不同抽象级别的特征，而不是对特征进行预编程并试图将特征与属性相关联。学习所述特征以重建较低级别的特征（即，更抽象或压缩级别的特征）。单元的每个节点表示一个特征。为学习不同的特征提供了不同的单元。可以使用各种单元或层，诸如卷积、池化（例如，最大池化）、去卷积、全连接或其他类型的层。在一个单元或层内，提供任意数量的节点。例如，提供了100个节点。后面或随后的单元可以具有更多、更少或相同数量的节点。基于样本的分布，使用诸如k-最近邻的方法，也可以使用无监督学习。

不同的神经网络配置和工作流程可以用于或用在机器学习分类模型中，诸如卷积神经网络（CNN）、深度信念网络（DBN）或其他深度网络。CNN学习前馈映射功能，而DBN学习数据的生成模型。此外，CNN对所有本地区域使用共享权重，而DBN是全连接网络（例如，对特征地图的所有区域包括不同的权重。通过反向传播，CNN的训练是完全判别性的。另一方面，DBN采用逐层无监督训练（例如，预训练），随后是必要时利用反向传播进行的判别细化。在一个实施例中，训练网络的布置是全卷积网络（FCN）。可以使用其他网络布置，例如3D极深卷积网络（3D-VGGNet）。VGGNet堆叠许多层块，包含窄卷积层，之后是最大池化层。可以使用3D深度残差网络（3D-ResNet）架构。Resnet使用残差块和跳过连接来学习残差映射。

机器学习分类模型的训练数据包括在每个合作者131或站点处获得的基准真值数据或黄金标准数据。基准真值数据和黄金标准数据是包括正确或相当准确的标签的数据，所述标签通过人工或其他一些准确的方法进行验证。可以在将训练数据输入到模型中之前的任何点处获取训练数据。每个机器学习分类模型可以输入训练数据（例如，患者数据）并输出预测或分类，例如基于一个或多个数据准则（诸如，质量、分辨率等）指示数据是可接受的。将预测与来自训练数据的注释进行比较。损失函数可以用于从比较中标识误差。损失函数用作当前预测集与对应的真实值有多远的度量。可以使用的损失函数的一些示例包括均方误差、均方根误差和交叉熵损失。均方误差损失（或简称MSE）计算为预测值和实际值之间的平方差的平均值。均方根误差类似地计算为预测值和实际值之间的均方根误差的平均值。对于交叉熵损失，将每个预测的概率与实际的类输出值（0或1）进行比较，并且计算得分，该得分基于与期望值的距离来惩罚该概率。惩罚可以是对数的，为小的差异提供小的得分（0.1或0.2），并且为大的差异提供巨大的得分（0.9或1.0）。在训练和重复迭代期间，网络试图最小化损失函数，因为实际值和预测值之间的较低误差意味着网络在学习方面的工作做得很好。可以使用不同的优化算法来最小化损失函数，除其他之外，诸如例如梯度下降、随机梯度下降、批梯度下降、迷你批梯度下降。在以最小化损失函数为目标的情况下，输入、输出、比较和调整的过程被重复预定迭代次数。一旦经过调整和训练，模型就被配置为被应用。在一个实施例中，经训练的模型可以被部署到合作者131中的每一个。合作者131可以将该模型应用于利用标准化策管准则来在本地策管数据。

策管服务器141还可以包括接口设备，该接口设备具有用于向用户显示信息的显示器，例如CRT（阴极射线管）或LCD（液晶显示器）监视器，以及用户可以通过其向计算机提供输入的键盘和定点设备，例如鼠标或轨迹球。也可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。该接口可以包括一个或多个按钮、小键盘、键盘、鼠标、手写笔、轨迹球、摇臂开关、触摸板、语音识别电路或用于在审查样本数据的同时向策管服务器141输入数据的其他设备或组件。

本文描述的各种改进可以一起使用或单独使用。尽管在本文中已经参考附图描述了本发明的说明性实施例，但是应该理解，本发明不限于那些精确的实施例，并且在不脱离本发明的范围或精神的情况下，本领域技术人员可以进行各种其他改变和修改。

Claims

1.一种用于由多个合作者使用联邦学习来训练模型的方法，所述方法包括：

由所述多个合作者中的合作者从参数聚合服务器接收全局模型参数；

由所述合作者获取样本数据；

由所述合作者将所述样本数据的匿名化部分传输到策管服务器，所述策管服务器被配置为标识满足或不满足一个或多个数据选择条件的数据样本；

由所述合作者从策管服务器接收对样本数据的验证；

由所述合作者使用经验证的样本数据来训练模型；和

由所述合作者将所述模型的本地模型参数传输到所述参数聚合服务器。

2.根据权利要求1所述的方法，其中样本数据的匿名化部分包括样本数据的掩盖部分。

3.根据权利要求2所述的方法，其中所述掩模部分在感兴趣的解剖区域中包括与所述样本数据相同的分辨率、取向和图像质量。

4.根据权利要求2所述的方法，其中所述策管服务器上的一个或多个实体无法标识样本数据的主题信息，因为掩盖部分之外的体素或像素被屏蔽。

5.根据权利要求1所述的方法，其中所述验证包括样本数据的分类置信度得分，其中所述合作者被配置为仅使用超过阈值分类置信度得分的样本数据。

6.根据权利要求1所述的方法，其中所述策管服务器包括机器训练分类网络，所述机器训练分类网络被配置为将样本数据的匿名化部分分类为满足或不满足所述一个或多个数据选择条件。

7.根据权利要求1所述的方法，其中所述模型包括用于执行医学诊断的图像分类模型，其中所述样本数据包括患者的医学成像数据。

8.根据权利要求1所述的方法，其中标识满足或不满足一个或多个数据选择条件的数据样本包括标识离群值数据样本。

9.根据权利要求1所述的方法，其中不满足所述一个或多个数据选择条件的数据样本被标记以供临床医生人工审查。

10.一种用于由多个合作者使用联邦学习来训练模型的方法，所述方法包括：

由所述合作者获取样本数据；

由所述合作者将所述样本数据的匿名化部分提交给机器训练模型，所述机器训练模型被配置为标识不满足数据选择条件的数据样本；

由所述合作者从机器训练模型接收对样本数据的验证；

由所述合作者使用经验证的样本数据来训练模型；和

11.根据权利要求10所述的方法，其中样本数据的匿名化部分包括样本数据的掩盖部分。

12.根据权利要求11所述的方法，其中所述掩模部分在感兴趣的解剖区域中包括与所述样本数据相同的分辨率、取向和图像质量。

13.根据权利要求10所述的方法，其中所述验证包括所述样本数据的分类置信度得分，其中所述合作者被配置为仅使用超过阈值分类置信度得分的样本数据。

14.根据权利要求10所述的方法，其中所述机器训练模型包括用于执行医学诊断的图像分类模型，其中所述样本数据包括患者的医学成像数据。

15.根据权利要求10所述的方法，其中标识满足或不满足一个或多个数据选择条件的数据样本包括标识离群值数据样本。

16.根据权利要求10所述的方法，其中不满足所述一个或多个数据选择条件的数据样本被标记以供临床医生人工检查。

17.一种用于联邦学习的系统，所述系统包括：

多个合作者，所述多个合作者中的每个合作者被配置为获取样本数据，匿名化所述样本数据，并且将匿名化的样本数据传输到策管服务器以进行验证，每个合作者进一步被配置为使用经验证的样本数据来训练本地机器学习模型，更新所述本地机器学习模型的本地模型权重，并且将更新的本地模型权重发送到聚合服务器；

策管服务器，被配置为接收匿名化的样本数据并且标识满足或不满足一个或多个数据选择条件的样本数据；和

聚合服务器被配置为从多个合作者接收更新的模型权重，计算聚合的模型权重，并且将聚合的模型权重传输给多个合作者以更新本地机器学习模型。

18.根据权利要求17所述的系统，其中每个合作者被配置为通过掩盖掉不包括感兴趣区域的区域来匿名化样本数据，同时保持与样本数据相同的分辨率、取向和图像质量。

19.根据权利要求17所述的系统，其中所述策管服务器包括机器训练模型，所述机器训练模型被配置为标识满足或不满足一个或多个数据选择条件的样本数据。

20.根据权利要求17所述的系统，其中所述本地机器学习模型包括用于执行医学诊断的图像分类模型，其中所述样本数据包括患者的医学成像数据。