CN115563495A - 用于利用具有分布式数据生成模型的连续联合学习的深度学习技术的系统和方法 - Google Patents
用于利用具有分布式数据生成模型的连续联合学习的深度学习技术的系统和方法 Download PDFInfo
- Publication number
- CN115563495A CN115563495A CN202210717883.2A CN202210717883A CN115563495A CN 115563495 A CN115563495 A CN 115563495A CN 202210717883 A CN202210717883 A CN 202210717883A CN 115563495 A CN115563495 A CN 115563495A
- Authority
- CN
- China
- Prior art keywords
- global
- site
- local
- model
- respective local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30016—Brain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种计算机实现的方法。该方法包括通过多个处理器建立连续联合学习框架(22),该连续联合学习框架包括在全局站点(12)处的全局模型(16)和在相应本地站点(14)处从全局模型(16)导出的相应本地模型(18)。该方法还包括不在该全局站点(12)和该相应本地站点(14)之间共享实际数据集而是共享从该实际数据集生成的合成数据集的情况下,通过该多个处理器再训练或重新调整该全局模型(16)和该相应本地模型(18)。
Description
背景技术
本文公开的主题涉及深度学习技术,并且更具体地,涉及用于利用具有分布式数据生成模型的连续联合学习的深度学习技术的系统和方法。
已经证明深度学习模型成功地解决了涉及出现在计算机视觉、语音处理、图像处理和其他问题中的足够大的、平衡的和标记的数据集的问题。理想地,希望这些模型不断地学习并适应新的数据,但是这对于神经网络模型仍然是一个挑战,因为这些模型中的大多数模型是用静态的大批量数据进行训练的。用增量数据进行再训练通常导致灾难性遗忘(即,用新信息来训练模型会干扰先前学习的知识)。
理想情况下,人工智能(AI)学习系统应该在改进现有知识的同时不断地适应和学习新知识。当前的AI学习方案假设在训练阶段期间所有样本都是可用的,因此需要在整个数据集上对网络参数进行再训练,以适应数据分布的变化。尽管从头开始的再训练实际上解决了灾难性遗忘,但是在许多实际场景中,数据隐私问题不允许共享训练数据。在这些情况下,用增量新数据进行再训练可能导致准确性的显著损失(灾难性遗忘)。
发明内容
下文示出了本文所公开的某些实施方案的概述。应当理解,提供这些方面仅仅是为了向读者提供这些特定实施方案的简要概述,并且这些方面并非旨在限制本公开的范围。实际上,本公开可涵盖下文可能未示出的各个方面。
在一个实施方案中,提供了一种计算机实现的方法。该方法包括通过多个处理器建立连续联合学习框架,该连续联合学习框架包括在全局站点处的全局模型和在相应本地站点处从全局模型导出的相应本地模型。该方法还包括不在全局站点和相应本地站点之间共享实际数据集而是共享从实际数据集生成的合成数据集的情况下,通过多个处理器再训练或重新调整全局模型和相应本地模型。
在另一个实施方案中,提供了一种基于深度学习的连续联合学习网络系统。该系统包括全局站点,该全局站点包括全局模型。该系统还包括多个本地站点,其中多个本地站点中的每个相应本地站点包括从全局模型导出的相应本地模型。该系统还包括多个处理器,其被配置为不在全局站点和相应本地站点之间共享实际数据集而是共享从实际数据集生成的合成数据集的情况下,再训练或重新调整全局模型和相应本地模型。
在另一个实施方案中,一种非暂态计算机可读介质,该计算机可读介质包括处理器可执行代码,该处理器可执行代码在由一个或多个处理器执行时使一个或多个处理器执行动作。动作包括建立连续联合学习框架,该连续联合学习框架包括在全局站点处的全局模型和在相应本地站点处从全局模型导出的相应本地模型。动作还包括不在全局站点和相应本地站点之间共享实际数据集而是共享从实际数据集生成的合成数据集的情况下,再训练或重新调整全局模型和相应本地模型。
附图说明
当参考附图阅读以下详细描述时,将更好地理解本发明的这些和其他特征、方面和优点,附图中相同的符号在整个附图中表示相同的部分,其中:
图1是根据本公开的各方面的连续联合学习方案或场景的示意图的实施方案;
图2是根据本公开的各方面的连续联合学习方案或场景(例如,利用分布式数据生成模型)的示意图的实施方案;
图3是根据本公开的各方面用于全局站点和本地站点的集中式布置的示意图的实施方案;
图4是根据本公开的各方面用于全局站点和本地站点的分散式布置的示意图的实施方案;
图5是根据本公开的各方面可被配置为实现本文所述功能的基于处理器的设备或系统的框图;
图6是根据本公开的各方面用于再训练本地和全局模型的方法的流程图的实施方案;
图7是根据本公开的各方面用于再训练本地和全局模型的方法的流程图的实施方案;
图8示出了根据本公开的各方面利用生成模型生成的合成医学图像(例如,FLAIRMRI图像)的示例;并且
图9示出了根据本公开的各方面利用生成模型生成的合成医学图像(例如,T2 MRI图像)的示例。
具体实施方式
在下面将描述一个或多个具体的实施方案。为了提供这些实施方案的简明描述,并非实际具体实施的所有特征都要在说明书中进行描述。应当理解,在任何此类实际具体实施的开发中,如在任何工程或设计项目中,必须做出许多特定于具体实施的决策以实现开发者的具体目标,诸如遵守可能因具体实施而不同的系统相关和业务相关约束。此外,应当理解,此类开发努力可能是复杂且耗时的,但对于受益于本公开的普通技术人员来说仍然是设计、制作和制造的常规任务。
当介绍本发明的各种实施方案的元件时,冠词“一个”、“一种”、“该”和“所述”旨在表示存在元件中的一个或多个。术语“包括”、“包含”和“具有”旨在是包含性的,并且意指除了列出的元件之外还可存在附加元件。此外,以下讨论中的任何数值示例旨在非限制性的,并且因此附加的数值、范围和百分比在所公开的实施方案的范围内。
提供了一些广义信息,以提供本公开的各方面的一般背景,并且有利于理解和解释本文所述的某些技术概念。
这里讨论的深度学习(DL)方法可以基于人工神经网络,并且因此可以包括深度神经网络、全连接网络、卷积神经网络(CNN)、感知器、编码器-解码器、递归网络、小波滤波器组、u-net、生成对抗网络(GAN)或其他神经网络架构中的一个或多个。神经网络可包括捷径、激活、批归一化层和/或其他特征。这些技术在本文中被称为深度学习技术,但是可也特别地参考深度神经网络的使用来使用该术语,深度神经网络是具有多个层的神经网络。
如本文所讨论的,深度学习技术(可也称为深度机器学习、分级学习或深度结构化学习)是机器学习技术的分支,其采用数据的数学表示以及用于学习和处理此类表示的人工神经网络。例如,深度学习方法可表征为它们使用一个或多个算法来提取一类关注数据的高度抽象概念或对其进行建模。这可以使用一个或多个处理层来完成,其中每个层通常对应于不同的级别的抽象概念,并且因此可能采用或利用初始数据的不同的方面或前一层的输出(即,层的分级结构或级联结构)作为给定层的过程或算法的目标。在图像处理或重建背景中,这可以被表征作为对应于数据中的不同的特征级别或分辨率的不同的层。一般来讲,可将一个表示空间到下一级表示空间的处理视为过程的一个“阶段”。过程的每个阶段可由单独的神经网络或由一个较大神经网络的不同的部分来执行。
深度神经网络将特征表示学习和分类器组合在统一的框架中,并且已经证明在涉及出现在计算机视觉、语音处理和图像处理中的足够大的、平衡的和标记的数据集的许多问题以及其他问题中是成功的。然而,与卫生保健或飞行中监测相关的问题提出了不同的挑战,如数据有限、样本分布的多样性以及对训练数据的访问受限或无法访问。迁移学习是在给定新的输入数据的情况下再训练模型的常见框架,但这些模型集遭受灾难性遗忘(即,每当试图用单个新(额外)响应来训练网络时,先前学习的响应出现灾难性损失)。挑战是学习和适应新的输入数据,同时保留先前学习的响应的记忆。这在站点处的数据不能与全局或中央站点共享以进行再训练的情况下更具挑战性。在这种情况下,该模型应该能够仅利用来自部署其的站点的数据进行在线适应和学习。
在集中训练数据上训练标准深度学习模型。深度学习模型的性能可能会受到机器制造、软件版本、患者基本信息和特定地点临床偏好等站点特定可变性的不利影响。联合学习使得能够对全局模型进行增量站点特定的调整,以创建本地版本。此类模型对于站点特定可变性更具鲁棒性。然后,使用加密通信将来自多个本地站点的本地模型进一步发送到云,以对全局模型进行微调。在该过程中,必须在全局和本地测试数据集中维护性能标准,以遵守监管机构的规定。
本公开提供了一种数据生成框架,该数据生成框架使得能够估计和生成从全局和本地数据集导出的合成或生成样本,以解决数据共享隐私问题。权重的调整/再训练和全局模型更新是利用来自分布的合成或生成样本(减轻数据隐私问题)进行的,该分布与类似联合学习框架中的全局和本地数据集分布非常相似。这使得能够在站点级别进行本地学习来考虑站点特定的偏好,同时保持全局性能(减轻灾难性遗忘问题)。
与使用来自外部站点的数据训练的全局模型相比,分布式本地增量学习和微调确保了更好的性能。此类设计模型在包括航空、卫生保健、电力、增材制造和机器人的多个行业中是可通用的。通过使全局模型的权重的更新依赖于从全局数据集导出的合成或生成样本,确保维持经许可/验证的全局模型架构以及微调本地权重,以更好地适合本地偏好,因此随着时间的推移在不发生灾难性遗忘的情况下提高性能。
例如,如下所述,可以建立连续联合学习框架,该连续联合学习框架包括在全局站点处的全局模型和在相应本地站点处从全局模型导出的相应本地模型。在全局站点和相应本地站点之间不共享实际数据集而是共享从实际数据集生成的合成数据集的情况下进行全局模型和相应本地模型的再训练或重新调整。这使得能够在特定站点(例如,本地站点)处捕获数据分布的多样性。另外,提高了训练(即再训练/重新调整)效率。
考虑到前述内容,并且通过提供有用的上下文,图1示出了连续联合学习方案或场景10的示意图。在集中训练数据上训练标准深度学习模型。深度学习模型的性能可能会受到机器制造、软件版本、患者基本信息和特定地点临床偏好等站点特定可变性的不利影响。如图所示,连续联合学习方案10包括全局站点12(例如,中央站点或主站点)和多个本地站点或节点14(例如,远离全局站点12)。全局站点12包括在主数据集17(例如,全局数据集)上训练的全局模型16(例如,全局神经网络或机器学习模型)。联合学习使得能够(通过本地数据上的本地增量学习)对全局模型16进行站点特定的增量调整,以创建本地版本18。此类模型对于站点特定可变性更具鲁棒性。然后,使用加密通信将来自本地站点14的本地模型18(例如,本地神经网络或机器学习模型)进一步发送到云,以对全局模型16进行微调。在该过程中,必须在全局和本地测试数据集中维护性能标准。
在连续联合学习场景10中,全局模型16被部署在不能导出数据的多个站点14上。使用自动综合处理模型生成站点特定的地面实况,该自动综合处理模型可以使用分段、配准机器学习和/或深度学习模型。可能必须根据专家的本地偏好来细化站点特定的地面实况。然后,将自动生成和细化的地面实况进一步用于模型的本地训练。全局模型16的权重的选择性本地更新创建全局模型16的本地突变体18。然后,加密本地模型18的权重并将其发送到中央服务器,用于对全局模型16进行选择性更新,如框20所示。当在全局站点12处更新全局模型16时,来自本地站点14的这些本地更新或站点特定偏好(例如,权重)被组合。全局模型更新将是战略性的,并且将取决于领域和行业特定要求。
图2示出了利用分布式数据生成模型来解决数据隐私(或不能存储的大量数据)和灾难性遗忘问题的连续联合学习方案或场景22。连续联合学习方案22包括全局站点12(例如,中央站点或主站点)和多个本地站点或节点14(例如,远离全局站点12)。全局站点12包括在实际或真实数据的主数据集17(例如,全局数据集)上训练的全局模型16(例如,全局神经网络或机器学习模型)。在多站点部署期间,每个本地站点14还接收如在全局站点12处初始训练的全局模型16。在全局站点12处,生成模型24(例如,全局生成模型)利用主数据集17来合成或生成与主数据集17类似的合成或生成的(例如,生成)数据集26(例如,全局合成或生成的数据集)。从主数据集17导出的合成或生成数据集26反映了主数据集17中的实际或真实数据的分布。可以利用变分自动编码器、生成对抗网络、数据增强和/或回归方法来创建生成模型24。通过多站点部署将生成模型24和生成的数据集26分布到本地站点14中的每个站点。
在本地站点14处,生成的数据集26和本地数据集(实际或真实本地数据)被组合用于全局模型16的本地重新调整/再训练,以生成新的本地模型18。另外,在本地站点14处,从生成模型24和本地数据集创建本地生成模型28。本地生成模型28利用本地数据集来合成或生成与主数据集17类似的合成或生成的(例如,生成)数据集30(例如,本地合成或生成的数据集)。从本地数据集导出的本地合成或生成的数据集30反映了本地数据集17中的实际或真实数据的分布。然后,加密来自本地站点14中的每个站点的新的本地模型18、本地生成模型28和本地生成的数据集30,并将其发送到中央服务器,用于对全局模型16进行选择性更新/重新调整/再训练,如框32所示。然后,可以将经过再训练的全局模型提供给本地站点14。该过程可以按迭代方式进行。随着时间的推移,在迭代地重复循环之后,相应的本地生成模型28和生成模型24最终应当具有相同的分布(即,模型24、28将至少在均值和方差方面收敛)。
使用与全局和本地数据集类似的合成样本进行再训练确保了数据隐私并减轻了灾难性遗忘。创建被配置为生成与全局和本地站点处的合成样本类似的合成样本的生成模型确保了捕获全局和本地数据分布,从而使得能够在无数据共享的情况下在连续联合学习框架中训练(例如,再训练)神经网络。
可以如图3所示的集中式布置来布置全局站点12和本地站点14。例如,全局站点12可以位于中央站点或主站点处的一个或多个中央或主服务器或计算设备处。本地站点或节点14可以位于远离全局站点12的位置。每个本地站点或节点14可以包括一个或多个服务器或计算设备。全局站点12和本地站点14可以通过互联网互连。在某些实施方案中,全局站点12和本地站点可通过云或云计算环境互连。如本文所用,术语“云”或“云计算环境”可以指通常将基于互联网的各种演进布置、基础设施、网络等。该术语可以指任何类型的云,包括客户端云、应用云、平台云、基础设施云、服务器云等等。
或者,可以如图4所示的分散式布置来布置全局站点12和本地站点14。在分散式布置中,全局站点12并非真正存在(而是例如在云环境中由本地站点14维护,而本地站点被配置为在它们之间进行协调)。例如,云计算环境36包括多个分布式节点14(例如,本地站点)。节点14的计算资源被集中起来为多个消费者服务,根据消费者需求动态分配和重新分配不同的物理和虚拟资源。资源的示例包括存储、处理、存储器、网络带宽和虚拟机。节点14可以彼此通信以分配资源,并且此类资源分配的通信和管理可以由驻留在一个或多个节点14上的云管理模块控制。节点14可以通过任何合适的布置和协议进行通信。此外,节点14可以包括与一个或多个提供商相关联的服务器。例如,可通过程序所有者提供的一组节点14访问某些程序或软件平台,而其他节点14由数据存储公司提供。某些节点14也可以是在较高负载时间期间使用的溢出节点。
图5是基于处理器的设备或系统38的框图,该设备或系统可被配置为根据一个实施方案实现本文所述的功能。如本文所述的各种功能可以由基于处理器的系统38来执行,或者结合基于处理器的系统来执行,根据一个实施方案在图5中大致示出了该基于处理器的系统。例如,本文中的各种计算设备或服务器(例如,在全局站点和/或本地站点处使用的计算设备或服务器)可以包括或者部分或全部体现在基于处理器的系统中,例如当前所示的系统。基于处理器的系统38可以是通用计算机,例如个人计算机,其被配置为运行各种软件,包括实现本文所述的全部或部分功能的软件。或者,在其他实施方案中,基于处理器的系统38可尤其包括分布式计算系统或专用计算机或工作站,其被配置为基于作为系统的一部分而提供的专用软件和/或硬件来实现全部或部分当前描述的功能。此外,基于处理器的系统38可以包括单个处理器或多个处理器,以便于实现当前公开的功能。
在一个实施方案中,示例性的基于处理器的系统38包括微控制器或微处理器40,例如中央处理器(CPU),其执行系统38的各种例程和处理功能。例如,微处理器40可以执行各种操作系统指令以及被配置为实现某些进程的软件例程,这些软件例程存储在制造品中或由制造品提供,该制造品包括诸如存储器42(例如,个人计算机的随机存取存储器(RAM))的一个或多个计算机可读介质(至少共同存储软件例程)或一个或多个大容量存储设备44(例如,内部或外部硬盘驱动器、固态存储设备、CD-ROM、DVD或另一存储设备)。此外,微处理器40处理作为各种例程或软件程序的输入而提供的数据,例如在基于计算机的具体实施中作为本文所述主题的一部分而提供的数据。
此类数据可以存储在存储器42或大容量存储设备44中或由其提供。存储器42或大容量存储设备可以存储各种数据集(例如,诸如全局数据集或本地数据集、本地合成数据集、全局合成数据集等的实际数据集)、各种深度学习或机器学习模型(例如,全局模型、本地模型、全局生成模型、本地生成模型等)和其他信息。或者,此类数据可以通过一个或多个输入设备46提供给微处理器40。输入设备46可以包括手动输入设备,诸如键盘、鼠标、触摸屏(例如,在平板上)等。此外,输入设备46可以包括网络设备,诸如有线或无线以太网卡、无线网络适配器或被配置为便于通过任何合适的通信网络(诸如局域网或互联网)与其他设备通信的各种端口或设备中的任一个。通过此类网络设备,系统38可以与其他联网的电子系统交换数据和通信,不管是接近还是远离系统38。
由微处理器40产生的结果,例如通过根据一个或多个存储的例程处理数据而获得的结果,可以通过一个或多个输出设备48(例如,显示器)提供给操作者。基于处理器的系统38的各个组件之间的通信通常可以通过芯片组和电连接系统38的组件的一个或多个总线或互连来实现。
图6是用于在连续联合学习框架中再训练本地和全局模型的方法50的流程图。图2中的全局站点12和/或本地站点14的一个或多个组件(例如,图5中的基于处理器的设备38)可以用于执行方法50。方法50的一个或多个步骤可同时执行或以与图6所示的顺序不同的顺序执行。假设在连续联合学习框架中,全局数据集和本地数据集分别在全局站点和本地站点以及生成的训练模型中可用。
方法50包括建立连续联合学习框架,该连续联合学习框架包括在全局站点处的全局模型和在相应本地站点处从全局模型导出的相应本地模型(框52)。建立连续联合学习框架可以包括生成经过训练的全局模型(例如,利用实际全局数据集进行生成)以及在全局站点(例如,中央站点或主站点)处验证经过训练的全局模型(例如,利用从实际全局数据集保留或与实际全局数据集分离的实际全局测试数据集进行验证)。建立连续联合学习框架也可以包括将经过训练的全局模型提供给多个远离全局站点的本地站点或节点。这可以包括在每个本地站点处从每个本地站点可用的数据库或存储器访问经过训练的全局模型。
方法50还包括不在全局站点和相应本地站点之间共享实际数据集而是共享从实际数据集生成的合成或生成数据集的情况下,再训练或重新调整全局模型和相应本地模型(框54)。实际数据集(例如,实际全局数据集和相应实际本地数据集)在本地站点之间或在全局站点和本地站点之间不共享(例如,由于数据隐私或不能存储的大量数据)。
图7是用于在连续联合学习框架中再训练本地和全局模型的方法56的流程图。图2中的全局站点12和/或本地站点14的一个或多个组件(例如,图5中的基于处理器的设备38)可以用于执行方法50。方法56的一个或多个步骤可同时执行或以与图7所示不同的顺序执行。假设在连续联合学习框架中,全局数据集和本地数据集分别在全局站点和本地站点以及生成的训练模型中可用。还假设每个本地站点包括从全局站点处经过训练的全局模型导出的经过训练的本地模型(例如,在实际本地数据集上训练)。
方法56包括在全局站点处创建或生成生成模型,该生成模型被配置为生成合成或生成的全局数据集,该合成或生成的全局数据集与利用实际全局数据集的实际全局数据集类似并且基于该实际全局数据集(框58)。在某些实施方案中,可以利用变分自动编码器、生成对抗网络、数据增强和/或回归方法创建生成模型。
方法56还包括在全局站点处将生成模型和合成全局数据集提供给相应本地站点中的每个站点(框60)。方法56还包括,在每个本地站点处,利用合成全局数据集和相应本地站点处的实际本地数据集再训练或重新调整每个相应本地模型,以在本地重新调整权重,从而生成新的相应本地模型(框62)。方法56还包括,在每个本地站点处,利用在相应本地站点处的实际本地测试数据集验证每个新的相应本地模型(无灾难性遗忘)(框64)。实际本地测试数据集从用于训练本地模型和生成生成本地数据集的实际本地数据集保留或分离。方法56还包括,在每个本地站点处,创建或生成本地生成模型,该本地生成模型被配置为生成合成或生成的本地数据集,该合成或生成的本地数据集与利用实际本地数据集的实际本地数据集类似并且基于该实际本地数据集(框66)。全局生成模型也可用于生成本地生成模型。具体地,可以利用实际本地数据集重新调整或再训练本地站点处的全局生成模型。
方法56包括,在每个本地站点处,将相应的本地生成模型、新的相应本地模型和相应合成本地数据集提供给全局站点(框68)。方法56还包括在全局站点处利用实际全局测试数据集验证每个新的相应本地模型(框70)。实际全局测试数据集从用于训练全局模型和生成生成全局数据集的实际全局数据集保留或分离。
方法56包括,在全局站点处,利用来自相应本地站点中的每个站点的相应合成本地数据集对全局模型进行再训练或重新调整,以重新调整全局权重,从而生成经过再训练的全局模型(框72)。方法56还包括,在全局站点,利用实际全局测试数据集验证经过再训练的全局模型(框74)。方法56还包括,在全局站点处,将经过再训练的全局模型提供给相应本地站点中的每个站点(框76)。然后可以按迭代方式重复方法56的步骤。
上述系统和方法可用于各种行业(例如,卫生保健、航空等)中的各种类型的数据。可以利用的数据的一个示例是从医学成像系统获取的成像数据(例如,医学成像数据)。图8和图9提供了通过基于实际医学图像的模拟数据分布由全局或本地生成模型生成的合成医学图像的示例。图8包括利用流体衰减反转恢复(FLAIR)MRI序列采集的脑的磁共振(MR)图像的合成图像78、80和82。圆圈84表示在合成图像78、80和82中产生的合成病变。图9包括利用T2 MRI序列采集的脑的MR图像的合成图像86、88和90。圆圈92表示在合成图像86、88和90中产生的合成病变。
所公开的主题的技术效果包括提供用于利用连续联合学习框架的系统和方法,该连续联合学习框架利用通过与实际本地和全局数据集类似的生成数据来训练本地和全局模型,从而减轻灾难性遗忘问题和数据共享问题。该方法独立于运营商,并且还提供本地适应和站点专用定制。此外,该方法减少与再训练/测试相关的时间,尤其是在难以共享训练数据的领域(例如,卫生保健)。此外,该方法提供站点特定数据的在线学习。
参考本文所提出的并受权利要求书保护的技术并将其应用于具有实际性质的实物和具体示例,所述实际性质明确地改善目前的技术领域,因此,不是抽象的、无形的或纯理论的。此外,如果附加到本说明书末尾的任何权利要求含有指定为“用于[执行]...功能的装置”或“用于[执行]...功能的步骤”的一个或多个元素,则旨在将此类元素根据U.S.C.第35条第112(f)款加以解释。然而,对于含有以任何其他方式指定的元素的任何权利要求,则不旨在将此类元素根据U.S.C.第35条第112(f)款加以解释。
本书面描述使用示例来公开本主题,包括最佳模式,并且还使本领域技术人员能够实践主题,包括制造和使用任何设备或系统以及执行任何包含的方法。本主题的专利范围由权利要求书限定,并且可包括本领域技术人员想到的其他示例。如果此类其他示例具有与权利要求书的字面语言没有区别的结构元素,或者如果它们包括与权利要求书的字面语言具有微小差别的等效结构元素,则此类其他示例旨在落入权利要求书的范围内。
Claims (15)
1.一种计算机实现的方法,所述方法包括:
通过多个处理器建立连续联合学习框架,所述连续联合学习框架包括在全局站点处的全局模型和在相应本地站点处从所述全局模型导出的相应本地模型;以及
不在所述全局站点和所述相应本地站点之间共享实际数据集而是共享从所述实际数据集生成的合成数据集的情况下,通过所述多个处理器再训练或重新调整所述全局模型和所述相应本地模型。
2.根据权利要求1所述的计算机实现的方法,所述方法包括通过所述全局站点处的一个或多个处理器生成被配置为从实际全局数据集生成合成全局数据集的生成模型。
3.根据权利要求2所述的计算机实现的方法,所述方法包括通过所述全局站点处的所述一个或多个处理器将所述生成模型和所述合成全局数据集提供给所述相应本地站点中的每个站点。
4.根据权利要求3所述的计算机实现的方法,所述方法包括利用所述合成全局数据集和所述相应本地站点处的实际本地数据集,通过每个相应本地站点处的一个或多个处理器再训练或重新调整每个相应本地模型,以在本地重新调整权重,从而生成新的相应本地模型。
5.根据权利要求4所述的计算机实现的方法,所述方法包括利用所述相应本地站点处的实际本地测试数据集,通过每个相应本地站点处的所述一个或多个处理器验证每个新的相应本地模型,而没有灾难性遗忘。
6.根据权利要求4所述的计算机实现的方法,所述方法包括通过每个相应本地站点处的所述一个或多个处理器,生成被配置为从所述相应本地站点处的所述实际本地数据集生成相应合成本地数据集的相应本地生成模型。
7.根据权利要求6所述的计算机实现的方法,所述方法包括通过每个相应本地站点处的所述一个或多个处理器,将所述相应本地生成模型、所述新的相应本地模型和所述相应合成本地数据集提供给所述全局站点。
8.根据权利要求7所述的计算机实现的方法,所述方法包括利用实际全局测试数据集通过所述全局站点处的所述一个或多个处理器,验证每个新的相应本地模型。
9.根据权利要求7所述的计算机实现的方法,所述方法包括利用来自所述相应本地站点中的每个站点的所述相应合成本地数据集,通过所述全局站点处的一个或多个处理器再训练或重新调整所述全局模型,以重新调整全局权重,从而生成经过再训练的全局模型。
10.根据权利要求9所述的计算机实现的方法,所述方法包括利用实际全局测试数据集,通过所述全局站点处的所述一个或多个处理器验证所述经过再训练的全局模型。
11.根据权利要求10所述的计算机实现的方法,所述方法包括通过所述全局站点处的所述一个或多个处理器,将所述经过再训练的全局模型提供给所述相应本地站点中的每个站点。
12.根据权利要求1所述的计算机实现的方法,其中所述实际数据集包括由医疗成像系统获取的医疗成像数据。
13.一种基于深度学习的连续联合学习网络系统,所述连续联合学习网络系统包括:
全局站点,所述全局站点包括全局模型;
多个本地站点,其中所述多个本地站点中的每个相应本地站点包括从所述全局模型导出的相应本地模型;和
多个处理器,所述多个处理器被配置为不在所述全局站点和所述相应本地站点之间共享实际数据集而是共享从所述实际数据集生成的合成数据集的情况下,再训练或重新调整所述全局模型和所述相应本地模型。
14.根据权利要求13所述的系统,其中,在所述全局站点处,所述多个处理器中的一个或多个处理器被配置为:
生成生成模型,所述生成模型被配置为从所述实际全局数据集生成合成全局数据集;以及
将所述生成模型和所述合成全局数据集提供给所述相应本地站点中的每个站点。
15.根据权利要求14所述的系统,其中,在每个相应本地站点处,所述多个处理器中的一个或多个处理器被配置为:
利用所述合成全局数据集和所述相应本地站点处的实际本地数据集再训练或重新调整所述相应本地模型,以在本地重新调整权重,从而生成新的相应本地模型;以及
利用所述相应本地站点处的实际本地测试数据集验证所述新的相应本地模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/365,650 | 2021-07-01 | ||
US17/365,650 US20230004872A1 (en) | 2021-07-01 | 2021-07-01 | System and method for deep learning techniques utilizing continuous federated learning with a distributed data generative model |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115563495A true CN115563495A (zh) | 2023-01-03 |
Family
ID=84737596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210717883.2A Pending CN115563495A (zh) | 2021-07-01 | 2022-06-21 | 用于利用具有分布式数据生成模型的连续联合学习的深度学习技术的系统和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230004872A1 (zh) |
CN (1) | CN115563495A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230208639A1 (en) * | 2021-12-27 | 2023-06-29 | Industrial Technology Research Institute | Neural network processing method and server and electrical device therefor |
-
2021
- 2021-07-01 US US17/365,650 patent/US20230004872A1/en active Pending
-
2022
- 2022-06-21 CN CN202210717883.2A patent/CN115563495A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230004872A1 (en) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178542B (zh) | 基于机器学习建模的系统和方法 | |
US20240152754A1 (en) | Aggregated embeddings for a corpus graph | |
US11741361B2 (en) | Machine learning-based network model building method and apparatus | |
US11423295B2 (en) | Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning | |
US10360517B2 (en) | Distributed hyperparameter tuning system for machine learning | |
US20200034750A1 (en) | Generating artificial training data for machine-learning | |
DE112020002110T5 (de) | Ressourcenarme entitätsauflösung mit transfer learning | |
US20180165599A1 (en) | Predictive model integration | |
CN108764726B (zh) | 根据规则对请求进行决策的方法及装置 | |
US8280836B2 (en) | Converting unordered graphs to oblivious read once ordered graph representation | |
Schelter et al. | Factorbird-a parameter server approach to distributed matrix factorization | |
US20220051146A1 (en) | Non-iterative federated learning | |
Wille et al. | Variability mining of technical architectures | |
Osipov et al. | Multilevel automatic synthesis of behavioral programs for smart devices | |
CN115563495A (zh) | 用于利用具有分布式数据生成模型的连续联合学习的深度学习技术的系统和方法 | |
US20230162487A1 (en) | System and method for deep learning techniques utilizing continuous federated learning with a distributed data generative model | |
Qiu et al. | Cost minimization for heterogeneous systems with Gaussian distribution execution time | |
US11521026B2 (en) | Classifying individual elements of an infrastructure model | |
JP7225874B2 (ja) | モデル出力プログラム、モデル出力方法及びモデル出力装置 | |
Duran et al. | Top-down evaluation of reusable goal models | |
JP7306432B2 (ja) | 情報処理方法、情報処理装置及びプログラム | |
CN114898184A (zh) | 模型训练方法、数据处理方法、装置及电子设备 | |
US20220358360A1 (en) | Classifying elements and predicting properties in an infrastructure model through prototype networks and weakly supervised learning | |
CN115412401A (zh) | 训练虚拟网络嵌入模型及虚拟网络嵌入的方法和装置 | |
CN114721670A (zh) | 一种基于tvm的npu神经网络模型部署方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |