CN118265985A

CN118265985A - 管理使用机器学习过程训练的模型

Info

Publication number: CN118265985A
Application number: CN202280073390.8A
Authority: CN
Inventors: A·P·S·苏塞亚; R·帕蒂尔; S·阿纳达; M·Y·潘迪亚; S·乔杜里; N·布萨
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2021-11-01
Filing date: 2022-10-27
Publication date: 2024-06-28
Also published as: EP4174721A1; WO2023073092A1

Abstract

一种管理第一模型的计算机实现的方法，所述第一模型使用第一机器学习过程来训练并被部署和用于标记医学数据。所述方法包括确定(202)针对所述第一模型的性能量度，以及如果所述性能量度在阈值性能水平以下，则触发(204)升级过程，其中，所述升级过程包括在所述第一模型上执行进一步训练以产生经更新的第一模型，其中，所述进一步训练使用主动学习过程来执行，其中，用于所述进一步训练的训练数据根据所述主动学习过程从未标记数据样本的池中被选择，并被发送给标记者以获得真值标记以供在所述进一步训练中使用。

Description

管理使用机器学习过程训练的模型

技术领域

本文中的实施例涉及机器学习以及使用机器学习过程训练的模型。尤其但非排他地，本文中的实施例涉及管理在医学应用中用于标记医学数据的部署模型。

背景技术

本公开存在于机器学习(ML)模型以及管理医学领域中使用的部署机器学习模型领域。研究界有句俗语“人工智能模型的好坏取决于数据”。这是因为建立并部署可靠的ML系统取决于有足够数量的高质量训练数据。在诸如医学领域的关键应用上尤其如此，其中，需要高质量的(例如可靠的)ML系统，因此需要最高质量和数量的数据。使用机器学习技术开发的大多数医学ML系统基于监督学习方法，其中，利用注释对训练数据进行标注，注释通过提供支持信息来改善其质量/可训练性。该方法还使模型学习过程向模型的目标进行。然而，获得针对数据的标记以执行监督学习是项昂贵且不平凡的任务。已经有专用于获得针对数据的注释的许多服务，例如亚马逊土耳其机器人、快速工作者(rapid workers)和撒马源，它们中的一些使用众包来获得数据标记(参见Zhao、Sukthankar和Sukthankar的文章(2011年)，题为“Incremental relabeling for active learning with noisycrowdsourced annotations”；IEEE关于隐私、安全、风险和信任的第三次国际会议暨2011年IEEE关于社会计算的第三次国际会议，第728-733页，2011年)。这些服务成本高昂并且有时是不切实际的。例如，在医学领域，出于安全原因，注释不能被众包。因此，问题“哪些数据应被注释？”以及“多少数据应被注释？”在该领域仍是突出的。

发明内容

如上所述，通常难以提供足够数量和质量的经注释的训练数据用于训练机器学习模型以供在医学产品和医学决策中的使用。在医学领域获得注释可能成本高昂，因为注释需要专业技能。此外，在训练之后，可能需要升级这种模型，而这可能是困难的，尤其是如果模型在部署之前必须得到认证才能使用。

已经研究和开发的许多医学ML模型主要由于不能在保持严格合规的同时以可靠的方式升级模型而从未在医院环境中得到部署。例如，美国(US)食品和药品管理局(FDA)会在ML模型能够被部署在美国的医学产品中之前先批准ML模型(参见皮尤慈善信托基金的简报文章，题为：“How FDA Regulates Artificial Intelligence in Medical Products”，2021年7月)。大体上，FDA认为这种模型构成“作为医学设备的软件”(SaMD)。FDA已表达了其对产品内改造的积极看法，条件是改造并不显著。本文中的实施例的目标是对当前的方法做出改进，以更好地为ML模型在医学应用中的使用提供便利。

本文中的一些实施例的目标是对该情形进行改善，以为高质量机器学习模型在医学产品中的使用提供便利。

因此，根据第一方面，存在一种管理第一模型的计算机实现的方法，所述第一模型使用第一机器学习过程来训练，并被部署和用于标记医学数据。所述方法包括：i)确定针对所述第一模型的性能量度；以及ii)如果所述性能量度指示性能在阈值性能水平以下，则触发升级过程，其中，所述升级过程包括在所述第一模型上执行进一步训练以产生经更新的第一模型，其中，所述进一步训练使用主动学习过程来执行，其中，用于所述进一步训练的训练数据根据所述主动学习过程从未标记数据样本的池中被选择，并被发送给标记者以获得真值标记以供在所述进一步训练中使用。

根据第二方面，存在一种用于管理第一模型的系统，所述第一模型使用机器学习过程来训练并被部署和用于标记医学数据。所述系统包括存储器，其包括表示指令集的指令数据；以及，处理器，其被配置为与所述存储器通信并运行所述指令集。所述指令集在由所述处理器运行时令所述处理器：i)确定针对所述第一模型的性能量度；以及，ii)如果所述性能量度指示性能在阈值性能水平以下，则触发升级过程，其中，所述升级过程包括在所述第一模型上执行进一步训练以产生经更新的第一模型，其中，所述训练使用主动学习过程来执行，其中，用于所述进一步训练的训练数据根据所述主动学习过程从未标记数据样本的池中被选择，并被发送给标记者以获得真值标记以供在所述进一步训练中使用。

根据第三方面，存在一种计算机程序产品，包括计算机可读介质，所述计算机可读介质具有体现于其中的计算机可读代码，所述计算机可读代码被配置为使得在由合适的计算机或处理器运行时令所述计算机或处理器执行所述第一方面的所述方法。

因此，根据本文中所述的系统和方法，当性能水平指示性能在阈值性能水平以下时，使用主动学习(本文中也被称作查询学习)升级部署的机器学习模型。以此方式，根据所述查询学习过程，选择性地对训练数据进行采样，以获得最有可能改善所述模型的质量的训练数据。以此方式，能够减少所需要的训练数据的量，因此以专家标记者的最小标记工作量，获得良好的质量改善。

附图说明

为了更好地理解和更清楚地示出可以如何将本文中的实施例付诸实施，现在将仅以举例的方式参考附图，附图中：

图1示出根据本文中的一些实施例的系统；

图2示出根据本文中的一些实施例的方法；

图3图示针对部署的ML模型的范例用户反馈形式；

图4示出根据本文中的一些实施例的方法；以及

图5示出根据本文中的一些实施例的方法。

具体实施方式

本文中的实施例涉及在部署之后管理使用机器学习过程训练的模型(也被称作机器学习模型)。

现在转到图1，在一些实施例中，存在一种用于管理第一模型的系统100，第一模型使用第一机器学习过程来训练，并被部署和用于标记医学数据。所述系统可以形成诸如专用医学仪器的专用仪器的部分。更一般地，所述系统可以形成诸如膝上型电脑、台式计算机或其他设备的计算机系统的部分。备选地，系统100可以形成云/分布式计算布置的部分。

所述系统包括：存储器104，其包括表示指令集106的指令数据；以及，处理器102，其被配置为与存储器通信并运行所述指令集。大体上，在由处理器运行时，所述指令集可以令处理器执行如下所述的方法200的实施例中的任一个。在一些实施方式中，指令集能够包括多个软件和/或硬件模块，其每个被配置为执行或用于执行本文中描述的方法的单个或多个步骤。

更具体地，如将在下文更详细描述的，指令集106在由处理器运行时令处理器：i)确定针对第一模型的性能量度；以及，ii)如果性能量度指示性能在阈值性能水平以下，则触发升级过程，其中，升级过程包括在第一模型上执行进一步训练以产生经更新的第一模型，其中，训练使用主动学习过程来执行，其中，根据主动学习过程，用于进一步训练的训练数据选自未标记数据样本的池，并被发送给标记者以获得真值标记以供在所述进一步训练中使用。

处理器102能够包括被配置或编程为以本文中描述的方式控制系统100的一个或多个处理器、处理单元、多核处理器或模块。在具体实施方式中，处理器102能够包括多个软件和/或硬件模块，其每个都被配置为执行或用于执行本文中描述的方法的单个或多个步骤。处理器102能够包括被配置或编程为以本文中描述的方式控制系统100的一个或多个处理器、处理单元、多核处理器和/或模块。在一些实施方式中，例如，处理器102可以包括被配置用于进行分布式处理的多个(例如，互操作的)处理器、处理单元、多核处理器和/或模块。本领域技术人员将认识到，这样的处理器、处理单元、多核处理器或/或模块可以位于不同位置，并且可以执行本文中描述的方法的不同步骤和/或单个步骤的不同部分。

存储器104被配置为存储程序代码，程序代码能够由处理器102运行以执行本文中描述的方法。备选地或额外地，一个或多个存储器104可以在系统100外部(即与系统100分开或远离系统100)。例如，一个或多个存储器104可以为另一设备的部分。存储器104能够用于存储第一模型、第一模型的输入和输出参数、以及由系统100的处理器102接收、计算或确定或来自系统100外部的任意接口、存储器或设备的任意其他信息和/或数据。处理器102可以被配置为控制存储器104存储第一模型、第一模型的输入和输出参数、以及由处理器102接收、计算或确定的任意其他信息和或数据。

在一些实施例中，存储器104可以包括多个子存储器，每个子存储器能够存储一条指令数据。例如，至少一个子存储器可以存储表示指令集中的至少一条指令的指令数据，同时至少一个其他子存储器可以存储表示指令集中的至少一条其他指令的指令数据。

所述系统还可以包括用户输入，例如键盘、鼠标或使得用户能够与系统交互的其他输入设备，例如，以提供要在本文中描述的方法中使用的初始输入参数。

将认识到，图1仅示出要图示本公开的该方面所需要的部件，并且在实际实施方式中，系统100可以包括除所示的那些以外的部件。例如，系统100可以包括用于为系统100供电的电池或其他电源，或者用于将系统100连接到主电源的装置。

更详细地，本领域技术人员将熟悉机器学习和使用机器学习过程训练的模型(即机器学习模型)，但简言之，机器学习过程可以包括在数据上运行以创建机器学习模型的流程。机器学习过程包括这样的程序和/或指令，训练数据可以通过其在训练过程中被处理或使用以生成机器学习模型。机器学习过程从训练数据学习。例如，过程可以用于确定训练数据中的一个参数集(模型的输入参数)如何与训练数据中的另一参数集(模型的输出参数)相关。机器学习过程可以用于将模型拟合到训练数据。机器学习过程能够使用数学(例如线性代数和/或伪代码)来描述，并且能够分析并量化机器学习过程的效率。存在许多机器学习过程，例如用于归类的算法(如k-近邻)、用于回归的算法(如线性回归或逻辑回归)、以及用于聚类的算法(如k-均值)。机器学习模型的另外的范例是决策树模型和人工神经网络模型。

第一模型(其也可以被称作第一机器学习模型)可以包括针对如本文中描述的如何使用数据以例如进行预测的数据和流程两者。第一模型是从机器学习(例如训练)过程输出的，例如能够在输入数据上执行以产生输出的规则或数据处理步骤的集合。如此，模型可以包括例如规则、数字以及例如要进行预测所需要的任意其他特定于算法的数据结构或架构。

不同类型的模型采取不同的形式。本文中可以使用的机器学习过程和模型的一些范例包括，但不限于：线性回归过程，其产生包括系数(数据)的向量的模型，系数的值通过训练来学习；决策树过程，其产生包括(包括学习值的)if/then语句(例如规则)的树的模型；以及，神经网络模型，其包括具有特定值的权重和偏差的向量或矩阵的图形结构，其值使用诸如反向传播和梯度下降的机器学习过程来学习。

大体上，第一模型可以为任意类型的归类或回归模型，并且第一机器学习过程可以为任意监督或半监督机器学习过程。第一模型一般可以为使用(使用经注释的训练数据的)训练过程训练的任意类型的模型。

例如，第一模型可以为基于决策树或随机森林的归类器，参见文章：Quinlan(1986年)题为：“Induction of decision trees”Machine Learning第1卷，第81-106页(1986年)；以及Breiman(2001年)题为“Random Forests”；Mach Learn 45(1)：5-32。在其他实施例，第一模型为深度神经网络，参见Schmidhuber(2015年)，题为：“Deep learning inneural networks:An overview”Neural Networks第61卷，2015年1月，第85-117页的文章。将认识到，模型的类型可以取决于输入参数的格式(例如，卷积神经网络可能更适合将图像作为输入)。

(例如在部署之前)训练第一模型。第一模型是在标记数据上训练的，其可以被称作“标记种子数据”。在重新部署训练期间，标记种子数据一般被分成训练池和验证池。训练是根据第一机器学习过程使用训练池数据来执行的，并且当第一模型在验证池上呈现良好性能时，停止训练。(初始)训练之后，部署第一模型。

第一模型可以被部署并被用于临床环境，例如在临床决策过程中。系统100可以用于管理第一模型，以确保将第一模型的性能维持在例如第一阈值性能水平以上。

第一模型用于标记医学数据(例如注释或根据其作预测)。可以将医学数据作为输入提供到第一模型，并且第一模型可以输出针对第一模型的标记(或注释)。医学数据可以包括任意类型的医学数据，例如与个体(例如患者)有关的医学数据。例如，医学数据可以包括医学图像，例如从一次或多次扫描获得的图像。医学数据可以包括医学记录、患者工作流、与给予患者的处置相关的信息、来自医学仪器的读数、与个体有关的测试结果或任意其他医学数据。

例如，第一模型可以用于医学或保健程序。作为范例，第一模型可以用于注释医学图像，例如，注释医学图像中的病变的位置和/或性质。第一模型可以用于进行诊断、选择疗程、分析例如患者患有一种或多种疾病或病症的风险、监测医学仪器、或者用于医学机构(例如医院、诊所等)中的任意其他过程。

第一模型可以将患者数据作为输入，诸如人口统计数据(例如年龄、体重、身高、种族、性别等)、来自医学仪器的读数(例如来自血压监测器、心率监测器、SpO2监测器或任意其他医学监测器的读数)、医学历史(例如先前病况、诊断、疾病等)、成像数据(例如x射线图像、超声图像、磁共振成像(MRI)扫描)或是任意其他类型的患者数据。

第一模型可以提供针对医学数据的标记或注释作为输出。在一些实施例中，标记可以是对例如状况或诊断的预测或应当给予患者的处置的预测。

作为另一范例，第一模型可以用于对计算机断层摄影(CT)、磁共振成像(MRI)或超声(US)图像中的异常的诊断。如此，对模型的(一个或多个)输入可以包括CT、MRI或US图像，并且输出可以包括诊断或异常标记。

作为另一范例，第一模型可以用于检测心电图(ECG)、脑电图(EEG)或眼电图(EOG)数据中的生命体征事件。如此，对模型的(一个或多个)输入可以包括ECG、EEG和/或EOG数据，并且输出可以包括对生命体征事件的指示。

例如，第一模型可以将心电图(ECG)、脑电图(EEG)和/或眼电图(EOG)信号作为输入。第一模型然后可以提供指示输入信号是否(和/或何处)包含生命体征事件的归类作为输出。生命体征事件的范例包括但不限于：心律失常事件(例如心率上的问题/异常)，如房颤、室上性心动过速、心动过缓、心脏传导阻滞和/或室颤。

作为另一范例，第一模型可以用于基于医学成像的诊断，其中，第一模型可以被部署用于医学图像中的异常检测。在这样的范例中，第一模型可以将医学图像作为输入，并输出归类。所述归类可以指示图像中是否存在异常。在这样的范例中，第一模型可以输出异常的位置和/或异常的性质(例如癌症/非癌症)。

将认识到，这些仅为范例，并且第一模型可以已经被训练为采用输入参数的任意组合并提供输出参数的任意组合，以供在医学领域中使用。

部署第一模型，例如使其可供医学专业人员或其他用户使用。例如，第一模型可以被部署为(医学)计算机程序的部分或是经由应用程序接口(API)来部署。如此，第一模型可以由临床医师、医学专业人员或其他用户查询，并且第一模型的输出可以由所述临床医师、医学专业人员和/或其他用户在医学决策制定中使用。

如将在下文更详细描述的，第一模型可以已经由医学机构认证为符合医学标准。例如，第一模型可以由FDA或另一标准机构认证。

现在转到图2，其示出了根据本文中的一些实施例的方法200。方法200为管理第一模型的计算机实现的方法，第一模型使用第一机器学习过程来训练，并被部署和用于标记医学数据。方法200可以由诸如上文关于图1描述的系统100的系统来执行。

简言之，在第一步骤202中，所述方法包括i)确定针对第一模型的性能量度。在第二步骤204中，如果性能量度指示性能在阈值性能水平以下，则所述方法包括触发升级过程，其中，升级过程包括在第一模型上执行进一步训练以产生经更新的第一模型，其中，进一步训练使用主动学习过程来执行，其中，根据主动学习过程，用于进一步训练的训练数据选自未标记数据样本的池，并被发送给标记者以获得真值标记以供在进一步训练中使用。

更详细地，在步骤202中，性能量度能够为对模型如何执行的任意量度。在一些范例中，性能量度能够反映第一模型的准确度、对第一模型的用户满意度的量度或第一模型的准确度与对所述模型的用户满意度的量度的组合。然而。这些仅为范例，并且同样可以使用其他性能量度。

性能量度可以以任何方式来获得。例如，准确度可以使用验证数据集来确定，所述验证数据集包括未被用于训练第一模型的范例输入和真值注释(例如之前未见过的训练数据)。

在其他范例中，对用户满意度的量度可以从模型的用户获得。例如，经由例如图3中图示的反馈形式300。例如在用户满意度低时，用户反馈也可以用于获得正确的例如真值标记。例如，也可以要求用户提供正确标记。

对用户满意度的量度可以基于平均满意度。例如，用户(其可以为放射科医师r)的满意度评分SSr如下计算：

其中，n为接收到的(或存储器中保存的)反馈的总条数，并且FSi是第i个反馈评分。

对准确度的量度可以为任意类型的准确度，例如，在进行预测时由第一模型输出的损失或置信度。

在一些实施例中，使用基于盲验证评分的准确度的量度。这是在标记训练数据的验证池上确定的模型的总体准确度。在第一模型为二元预测模型的实施例中，盲验证评分VS_b为其由下式给出的准确度：

VS_b＝(TP+TN)/(TP+TN+FP+FN)

其中，TP为真阳性的数目，TN为真阴性的数目，FP为假阳性的数目，并且FN为假阴性的数目。本领域技术人员将认识到这仅为范例，并且取决于第一模型的输出的性质可以以各种不同方式计算盲验证评分。换言之，VS_b的公式是特定于任务的。

大体上，全部盲验证都是在训练数据集中不存在的样本(例如输入范例)上实施的。如果样本是从独立的源获得的，则盲验证可以得到进一步增强。例如，在使用由第一制造商制造的CT扫描器获得的CT扫描上训练的模型可以使用使用由第二制造商制造的不同的CT扫描器获得的CT扫描来验证。这有助于确保模型为通用的。

在一些实施例中，可以使用量度的组合。例如，在步骤202中，性能量度可以为以上SS_r和VS_b的加权组合。例如，性能量度CS可以如下来计算：

CS＝a*SS_r+b*VS_b

其中，a和b为常数。a和b的值可以以任意方式来设置，或者取决于系统配置管理员的偏好而被设置为优先考虑用户反馈或盲验证评分。换言之，常数a和b可以分别基于赋予用户满意度和验证性能的重要性来设置。作为范例，a和b每个能够被设置到0.5，从而CS的最大值为1.0。

如果性能量度指示性能在阈值性能水平以下，则在步骤204中，方法200包括ii)触发升级过程。所述升级过程包括在第一模型上执行进一步训练，以产生经更新的第一模型。在步骤204中，进一步训练使用主动学习过程来执行，其中，根据主动学习过程，用于进一步训练的训练数据选自未标记数据样本的池，并被发送给标记者，以获得真值标记以供在进一步训练中使用。

可以例如根据系统配置管理员或用户的偏好，将阈值性能水平设置为系统配置参数。作为范例，在性能量度为上述参数CS，并且常数a和b都被设置在0.5时，则阈值性能水平可以被设置在0.8。然而这仅为范例，并且可以将阈值性能水平设置在被视为适用于具体应用的任何水平。

如果性能量度指示性能在阈值性能水平以下，则这触发升级过程，从而使用主动学习机器学习过程在第一模型上执行进一步训练。

本领域技术人员将熟悉主动学习，也称作查询学习。假设存在大量免费可得的未标记数据，主动学习利用第一模型的帮助来确定哪些未标记数据需要被标记并被馈送到第一模型用于重新训练。例如，来自未标记数据样本的池的哪些范例应被标记并用作训练数据，以最好地改进模型。以此方式，能够选择性地标记训练数据，更好地利用(人类)标记者的专业知识和有限资源。在Settles,Burr(2009年)题为“Active Learning LiteratureSurvey”的文章中回顾了主动学习技术，该文章由威斯康星大学麦迪逊分校计算机科学系发表。

如本文中使用的，标记者为在主动学习过程中所选择的未标记数据范例的“Oracle”或注释员。标记者是有资格标记数据的任何专家。例如，一般为能够针对从未标记数据样本的池所选择的训练数据提供正确(“真值”)标记的人类专家。其他范例中，可以以自动的方式生成标记或标记的各方面(例如中间标记)。

可以从医院或(一个或多个)医院或相关数据的任意其他数据库检索未标记数据样本的池。例如，可以从图片存档和通信系统(PACS)来检索它。未标记数据样本的池包括多个数据。每条数据或数据条目在本文中被称作数据范例或实例。

在一些实施例中，步骤204可以包括过滤数据。例如，以去除(例如由于不完整、高噪声水平或与第一模型不兼容而)不能被用作训练数据的数据。

在一些实施例中，在第一模型上执行204进一步训练以产生经更新的第一模型的步骤包括过滤未标记数据样本的池，以去除不具有对应于第一模型的输入和/或输出参数的参数的未标记数据样本。在其他实施例中，步骤204可以包括过滤未标记数据样本的池，以去除对应于与由第一模型覆盖的患者人口统计数据不同的患者人口统计数据的未标记数据样本。换言之，可以从未标记数据样本的池过滤未落入与第一模型相同范围的数据。因此，可以从未标记数据范例的池过滤不相关数据，以确保剩下的数据在以下方面落入与第一模型的相同范围内：

解剖学，例如所述数据描述正确的解剖特征或身体部分。在其中第一模型将成像数据作为输入的实施例中，未标记数据样本的池可以包括根据图像中包含的解剖特征过滤的成像数据。

模态，例如在其中第一模型将成像数据作为输入的实施例中，未标记数据样本的池可以包括根据成像模态过滤的成像数据。

患者人口统计数据，例如由第一模型覆盖的年龄范围或性别。

模型/原始设备制造商(OEM)。来自不同OEM的数据可以具有在模型构建时需要考虑的独有特性。例如，如果模型被开发为仅适用于来自特定制造商的具有特定成像序列的磁共振(MR)，则数据集可以被限制到该特定模型、OEM和成像序列。如果另一OEM具有类似功能，则也可以包括来自其机器。

在一些实施例中，在第一模型上执行204进一步训练以产生经更新的第一模型的步骤包括过滤未标记数据样本的池，以去除具有高噪声水平的未标记数据样本。

例如，在其中第一模型将图像作为输入的实施例中，可以基于数据重建误差去除噪声图像。例如，能够过滤数据以留下在其中数据重建误差最小的范例。能够使用诸如自动编码器的算法压缩和解压缩未标记数据样本的池中的数据。重建误差是原始数据与未压缩数据之间的差。该误差可以为基于数据的类型使用以下技术之一的量度：

图像：结构相似性指数

信号：欧几里得范数

能够滤除具有高重建误差的未标记数据样本的池。

换个说法，可以使用压缩过程(例如自动编码器)来压缩未标记数据样本；然后可以使用解压缩过程(例如反向自动编码器)重建经压缩的未标记数据样本。然后可以确定针对所重建的未标记数据样本的重建误差，并且可以过滤未标记数据样本的池，以去除具有高于第一重建误差阈值的重建误差的未标记数据样本。其工作原理是具有较低噪声的高质量图像相比噪声图像可以被更可靠地压缩和解压缩。

过滤可以通过仅选择高质量、相关的样本用于标记，来减少查询学习中涉及的工作量。

转回到步骤204，训练数据一般可以以各种不同方式选自未标记数据样本的池(无论经过滤或未经过滤)。

在一些实施例中，主动学习过程包括从未标记数据样本的池中选择训练数据，所述训练数据在通过第一模型时，得到被预测为具有当与阈值置信水平相比低置信度的输出。换言之，第一模型可以用于标记未标记数据样本的池中的数据，并且得到低置信度的输出的数据可以被标识为应被发送给标记者以供标记以及对模型进行后续重新训练的范例。置信度可以使用各种不同的量度来描述，例如后验概率量度、后验概率的熵、置信度评分等。

作为范例，可以使用第一模型的后验概率的熵。在馈送来自未标记数据样本的池的数据实例时第一模型给出高度不确定的后验概率时，该实例(或范例)被选择以供标记。例如，考虑以下在两个实例上的两类别归类的后验概率的集

I、类别A：0.2，类别B：0.8，熵＝0.50

II、类别A：0.55，类别B：0.45，熵＝0.688

当然，案例II更不确定并且对应的实例应被发送以供注释。

另一范例中，能够使用第二模型，被称作第一模型的“伙伴”模型。伙伴模型是使用与第一模型相同的训练数据训练的模型，但具有与第一模型不同的超参数。考虑未标记数据的实例，两个模型的后验概率的差确定该实例是否需要被标记。该差能够使用例如投票熵或KL散度来计算。例如，未标记数据样本的池中投票熵高(例如在预定义阈值以上)或Kullback-Leiler(KL)散度高(例如在预定义阈值水平以上)的数据实例可以被标识以供标记。在被馈送以某些样本并因此可以被标识以供标记时，这两个量度都给出伙伴模型是否偏离主模型的指示。

换个说法，在一些实施例中，主动学习过程包括从未标记数据样本的池选择训练数据，该训练数据在通过第一模型时得到的输出不同于使用第二机器学习过程训练的第二模型(例如伙伴模型)的输出，第二模型具有与第一模型不同的超参数，并且其中，所述输出相差大于第一阈值差。

在该实施例中，第一模型总体上将是与第二伙伴模型相同类型的模型(例如神经网络、随机森林等)，但具有不同的超参数(例如不同层数、权重/偏差的不同初始化值)。大体上，第二机器学习过程将与第一机器学习过程相同(例如，第一模型和第二模型将使用相同的训练过程来训练，例如梯度下降等)。如上，差可以在诸如投票熵或KL散度的量度方面进行量化，并且第一阈值差可以基于取决于系统配置管理员的偏好的这些量度来设置。

在一些范例中，能够使用针对的投票熵和/或KL散度的(一个或多个)动态阈值。起初可以将动态阈值设置在任意值(例如比如说0.3的任意阈值)。其随后可以基于被标识以供标记的样本的数目而被增大或减小。例如，如果例如由于放射科医师可用于注释而需要较少样本，则可以增大阈值，从而标识较少样本以供注释。换言之，如果标记者很忙，则可以增大阈值，从而其时间仅用于最关键的样本。

如果已知放射科医师的分配用于注释的时间，则能够自动设置阈值。例如，可以变化阈值，使得标识响应的次数(Nf)遵循以下性质：

N_f≈t_ra/t_av

其中，t_ra为放射科医师可用于注释会话的时间，并且t_av为注释样本的平均时间。

因此，查询学习能够用于选择利用其执行进一步训练的合适的训练数据。本领域技术人员将认识到，这些仅是主动学习(例如查询学习)过程可以如何用于从未标记数据范例的池选择训练数据以供在进一步训练中使用的范例，例如参见上文引用的Settles,Burr(2009)在文章中描述的方法。

一旦被选择为训练数据，则训练数据被发送给标记者以获得真值标记以供在进一步训练中使用。如上文指出的，标记者可以为诸如临床医师或受过医学训练的专家的人类专家。在其中第一模型将图像数据作为输入的实施例中，则标记者可以为放射科医师。

在一些情况下，多位临床医师(例如放射科医师或其他医学专业人员)可以有空进行标记。因此，一些实施例中，标记者包括多位临床医师，并且主动学习过程包括获得来自多位临床医师的针对所选择的未标记数据样本的注释。因此，从多位临床医师获得的注释的加权组合可以用作针对所选择的未标记数据样本的真值标记。

多位临床医师可能具有不同的经验水平。因此，可以根据多位临床医师中的每位的经验水平和/或多位临床医师中的每位提供注释的一致性水平，来设置加权组合的权重。

可以根据下式通过考虑来自具有较高权重的经验更丰富的临床医师的注释对注释进行平均化：

L＝c*c1*L_R1+d*c2*L_R2

其中，L为用于数据实例的最终标记，R1和R2是两位不同的临床医师，并且L_R1和L_R2是由他们提供的标记。常数c和d是他们的经验的比例。c1和c2分别是R1和R2的一致性量度。例如，如果临床医师在两个不同查询期间利用相同标记注释相同图像，则可以将c1设置为1。临床医师经验能够例如从医院人员数据库获得。

有时数据自身可能质量差。这可以通过将数据发送给多位标记者(例如临床医师)来确定，并且如果无论哪位标记者，数据都具有低的一致性评分，则所述数据被认为是噪声。

一旦从标记者获得真值标记，则使用所选择的注释训练数据在第一模型上执行进一步训练。进一步训练可以以相同的方式来执行，例如使用与在例如部署之前在模型上执行的原始训练相同的方法。

因此，方法200可以用于确定何时升级第一模型以及确定应在哪些数据上训练模型，从而仅需要对特定案例进行标记。因此，可以以系统的方式执行升级，允许在标记数据时对经验丰富的医学从业者的有效利用。得到的模型更具广泛实用性以及准确性。这降低了升级成本(由于需要较少更具针对性的注释)，而不损害质量。

将认识到，可以通过重复步骤i)和ii)(例如步骤202和204)以迭代(例如连续)的方式执行方法200。例如，可以周期性地(例如以设定时间间隔)或响应于触发(例如在接收到用户反馈的情况下)执行方法200。

在另外的实施例中，可以在经更新的第一模型上执行符合性测试。这在其中第一模型被诸如FDA的实体认证为符合医学标准的实施例中尤其有用。根据FDA，如果升级不严重影响其性能，则能够升级ML模型。因此，本文中的一些实施例还可以涉及测量预期升级要对模型做出多大改变(“预期模型改变”)。该量度可以用于确定是否提出符合性请求或提出停用请求。

一个范例中，所预期的模型改变可以与上述性能量度一起考虑。例如：

如果所预期的模型改变小，则利用经更新的第一模型升级/代替第一模型。

如果预期模型改变高：a)如果步骤202中的性能量度始终(例如在模型的预定义使用次数上，比如说4次使用)在阈值性能水平以上(例如不会根据步骤204触发模型升级的良好模型性能)，则最好提出符合性请求以检查模型仍符合标准。

b)如果在步骤202中查询学习开关具有始终(例如在模型的预定义使用次数上，比如说4次使用)在阈值性能水平以下的性能量度(例如会根据步骤204触发模型升级的不良性能)，则可以考虑停用第一模型，或更大规模的训练，而非符合性请求。

可以如下根据后验概率来计算预期模型改变：

所选择的训练数据用于在第一模型上执行进一步训练以产生经更新的第一模型。

使用验证数据池(例如包括之前未见过的注释训练范例，如未用于训练第一模型或经更新的第一模型)将经更新的第一模型“B”与(原始)第一模型A进行如下比较：

换个说法，方法200还可以包括，在进一步训练之后，将进一步训练之前的第一模型与通过进一步训练产生的经更新的第一模型进行比较。如果比较指示差小于第二阈值差，则部署经更新的第一模型以供在标记后续医学数据中使用。以此方式，如果进一步训练得到对第一模型相对小的改变，则可以由经更新的第一模型来更新或代替第一模型。

例如，第二阈值差可以基于平均验证损失。或者对两个模型之间的差的任意其他量度。如上所述，在一些实施例中，将进一步训练之前的第一模型与通过进一步训练产生的经更新的第一模型进行比较步骤包括在验证数据集上计算针对进一步训练之前的第一模型V_模型1的平均验证损失；在验证数据集上计算针对通过进一步训练产生的经更新的第一模型V_{经更新的模型1}的平均验证损失，并根据(V_{经更新的模型1}-V_模型1)/(V_{经更新的模型1}+V_模型1)计算第一模型与经更新的第一模型之间的平均验证损失。

因此，第二阈值差可以是(V_{经更新的模型1}-V_模型1)/(V_{经更新的模型1}+V_模型1)的阈值。如果所计算的第一模型与经更新的第一模型之间的平均验证损失在第二阈值差以上，则可以部署经更新的第一模型来代替(原始)第一模型。如果所计算的(V_{经更新的模型1}-V_模型1)/(V_{经更新的模型1}+V_模型1)的水平在第二阈值差水平以下，则可以提出符合性请求，或者可以停用模型，如上所述。

现在转到图4，其示出了根据本文中的实施例管理第一模型的方法400，第一模型使用第一机器学习过程来训练并被部署和用于标记医学数据。方法400是计算机实现的，并且可以由诸如上文所述的系统100的系统来执行。

在步骤404中，方法400包括使用包括标记种子数据的训练数据集来训练第一模型。然后部署406模型以供在标记医学数据中使用。

在该实施例中，在使用时，针对第一模型的性能量度根据如上所述的用户满意度评分SS_r 410和盲验证评分VS_b 412来确定。用户满意度评分可以从例如放射科医师、临床医师或第一模型的其他用户中获得，例如通过如图3中图示的反馈问卷并如上描述的关于方法200的步骤202来获得。

将用户满意度评分SS_r 410和盲验证评分VS_b 412发送到查询学习开关408(又称为“主动学习开关”)，其执行方法200的步骤202并根据用户满意度评分SS_r 410和盲验证评分VS_b 412确定(如计算)如上所述的性能量度CS。如果性能量度指示性能在阈值性能水平以下，则查询学习开关408触发针对第一模型的升级过程，例如触发上述方法200的步骤204)。升级过程包括在第一模型上执行进一步训练以产生经更新的第一模型。使用由查询学习方框402执行的主动学习过程来执行进一步训练。作为主动学习过程的部分，用于进一步训练的训练数据根据主动学习过程选自未标记数据样本416的池，并被发送给标记者以获得真值标记以供在进一步训练中使用。

在该实施例中，在步骤418中预过滤未标记数据样本416的池。将理解，上文关于方法200的步骤204所描述的过滤(例如，用于去除对应于不同患者人口统计数据的样本，用于去除噪声样本和/或用于去除不具有对应于模型的输入/输出的参数的样本)，并且其中的细节同样适用于方法400的步骤418。

在方框414中，使用上文关于方法200的步骤204所描述的技术中的任一种，从未标记数据样本416的经过滤的池中选择用于进一步训练的训练数据。例如，基于第一模型的输出与第二(伙伴)模型的输出的比较，或者基于后验概率在阈值后验概率以下。

在方框420中，所选择的训练数据被发送给标记者以获得标记或注释。在图4中所示的实施例中，标记者为放射科医师420，但将理解，标记者能够是有资格标记所选择的训练数据的任何专家。

在方框422中，如果例如从多于一位放射科医师420获得多于一个标记，则可以例如使用加权平均对这些标记进行组合。加权平均可以基于进行标记的放射科医师的经验水平和/或它们标记数据的一致性，如上文关于步骤204所描述的。放射科医师为其提供冲突的或不同标记的样本可以作为噪声或无定论而被进一步过滤掉。

然后使用所选择的训练数据在第一模型上执行进一步训练。然后将经更新的第一模型发送到符合性测试器/记录器模块424，其根据(V_{经更新的模型1}-V_模型1)/(V_{经更新的模型1}+V_模型1)来计算第一模型与经更新的第一模型之间的差的量度。

如果(V_{经更新的模型1}-V_模型1)/(V_{经更新的模型1}+V_模型1)在第二阈值差以上，则发送经更新的第一模型用于符合性测试，否则将其部署为代替(原始)第一模型。

将认识到，图4仅为范例，并且其中所描述的功能可以由与上述那些不同的计算模型/节点或者计算模型/节点的不同组合来执行。

现在转到图5，存在示出由用于管理第一模型的系统500执行的步骤的范例实施例。在该范例中，第一模型510用于中风检测。例如，第一模型可以是深度学习模型，其被训练为将患者的头部的计算机断层摄影(CT)扫描作为输入，并输出对是否检测到出血(中风)的归类。所述输出可以是二元输出，例如，检测到中风或无中风。备选地，输出可以是出血/无出血/不能确定。这些仅是范例，并且第一模型可以备选地或额外地产生其他输出，例如检测到的中风的类型。还将认识到，中风检测仅为范例，并且图5中图示的范例可以同样适用于不同类型的第一模型，以供在标记其他类型的医学数据中使用。

步骤可以包括步骤502，其用于评估第一模型510的性能并选择合适的训练数据以供在主动学习过程中使用。可以还存在用于在所选择的训练数据504上重新训练模型的步骤。步骤502可以作为上述方法200的步骤204的部分来执行。

在该范例中，在方法200的步骤204中，作为主动学习过程的部分，从医院数据库(如图片存档和通信系统(PACS))提取506未标记数据样本的池。在未标记数据上执行预处理508(例如如上关于方法200的步骤202所述的过滤，其细节将被认为同样适用于方法500)。

然后将未标记数据馈送通过第一模型“模型1”510和第二模型“模型2”512。在该范例中，第二模型512是第一模型510的伙伴模型，并且具有与第一模型510不同的超参数。将由每个模型(针对未标记数据样本的池中的每个数据实例)产生的标记进行比较514，并且如果输出相差大于第一阈值差，则该数据实例被选择为用于第一模型的进一步训练的训练数据，并被发送给标记者(在该范例中为oracle 516)，以获得针对该数据的标记。如果第一模型不正确地标记了该数据实例，则在步骤S520和522中在所述数据实例上重新训练第一模型和/或第二模型，得到经更新的第一模型和/或经更新的伙伴模型。然后将经更新的第一模型部署为代替(原始)第一模型510。第一模型和第二模型的不同版本能够被存储在数据库524中。

注意，模型倾向于随着时间而从原始意图的性能漂移。漂移可以使用针对该目的的手挑数据集来确定。这种手挑数据集可以被认为是“黄金真值”数据集。手挑数据集可以利用正确的(真值GT)标记和异质性来组织，以便涵盖不同风格的数据变化。想要的是，在该GT数据上，模型应当运行良好，以确保重新训练不会引起模型性能的劣化。将此放在软件世界的角度，GT数据可以被认为是“测试案例”。因此，在步骤526中，能够在主动学习之后，使用手挑数据集518，以检查模型已稳定化(没有新的数据样本改变)，并在稳定化的模型上测试模型漂移。

现在转到其他实施例，另一实施例中，提供一种计算机程序产品，包括计算机可读介质，所述计算机可读介质具有体现于其中的计算机可读代码，所述计算机可读代码被配置为使得，在由合适的计算机或处理器运行时，引起所述计算机或处理器执行本文中描述的所述一个或多个方法。

因此，将认识到，本公开也应用于适于将实施例付诸实践的计算机程序，尤其是在载体上或中的计算机程序。程序的形式可以为源代码、目标代码、代码中间源以及诸如为部分编译形式的目标代码，或为适用于根据本文中描述的方法的实施的差人意其他形式。

也将认识到，这样的程序可以具有许多不同的架构设计。例如，实施该方法或系统的程序代码可以被细分成一个或多个子例程。功能在这些子例程间的许多不同的分布方式对本领域技术人员将是明显的。子例程可以被一起存储在一个可执行文件中，以形成自包含程序。这样的可执行文件可以包括计算机可执行指令，例如处理器指令和/或解释器指令(如Java解释器指令)。备选地，子例程中的一个或多个或全部可以被存储在至少一个外部库文件中并且与主程序静态或动态链接，如在运行时。主程序包含对子例程中的至少一个的至少一次调用。子例程也可以包括对彼此的函数调用。

计算机程序的载体可以为能够承载程序的任意实体或设备。例如，载体可以包括数据存储器，例如ROM，如CD ROM或半导体ROM，或者磁性记录介质，如硬盘。此外，载体可以为可传输载体，如电或光信号，其可以经由电或光缆或者无线电或其他方式来传输。当程序被包含在这样的信号中时，载体可以由这样的线缆或者其他设备或方式构成。备选地，载体可以为其中包含有程序的集成电路，该集成电路适于执行相关方法，或被用于相关方法执行。

本领域技术人员根据对附图、公开内容和所附权利要求的研究，能够理解并实现所公开实施例的变型。在权利要求中，词语“包括”不排除其他元件和步骤，并且不定冠词“一”或“一个”不排除多个。单个处理器或其他单元可以实现权利要求中记载的几个项目的功能。互不相同的从属权利要求中记载了特定措施这一仅有事实并不指示不能利用这些措施的组合。计算机程序可以被存储/分布在合适的介质上，例如与其他硬件一起或作为其他硬件的部分提供的光学存储介质或固态介质，但也可以被分布为其他形式，例如经由因特网或者其他有线或无线电信系统。权利要求中的任意附图标记不因被解读为限制范围。

Claims

1.一种管理第一模型的计算机实现的方法，所述第一模型使用第一机器学习过程来训练并被部署和用于标记医学数据，所述方法包括：

i)确定针对所述第一模型的性能量度；以及

ii)如果所述性能量度指示性能在阈值性能水平以下，则触发升级过程，其中，所述升级过程包括在所述第一模型上执行进一步训练以产生经更新的第一模型，其中，所述进一步训练使用主动学习过程来执行，其中，用于所述进一步训练的训练数据根据所述主动学习过程从未标记数据样本的池中被选择，并被发送给标记者以获得真值标记以供在所述进一步训练中使用。

2.如权利要求1所述的方法，其中，所述性能量度是所述第一模型的准确度的量度和/或所述第一模型的用户满意度的量度。

3.如权利要求1或2所述的方法，其中，所述主动学习过程包括从未标记数据样本的所述池中选择训练数据，所述训练数据：

当通过所述第一模型时，得到被预测为具有当与阈值置信水平相比低置信度的输出；或者

当通过所述第一模型时，得到与使用第二机器学习过程训练的第二模型的输出不同的输出，所述第二模型具有与所述第一模型不同的超参数，并且其中，所述输出相差大于第一阈值差。

4.如前述权利要求中的任一项所述的方法，其中，在所述第一模型上执行进一步训练以产生经更新的第一模型的步骤包括：

使用压缩过程压缩所述未标记数据样本；

使用解压缩过程重建经压缩的未标记数据样本；

确定针对所重建的未标记数据样本的重建误差；以及

过滤未标记数据样本的所述池，以去除具有大于第一重建误差阈值的重建误差的未标记数据样本。

5.如前述权利要求中的任一项所述的方法，其中，在所述第一模型上执行进一步训练以产生经更新的第一模型的步骤包括：

过滤未标记数据样本的所述池，以去除不具有对应于所述第一模型的输入和/或输出参数的参数的未标记数据样本；和/或

过滤未标记数据样本的所述池，以去除对应于与由所述第一模型覆盖的患者人口统计数据不同的患者人口统计数据的未标记数据样本。

6.如前述权利要求中的任一项所述的方法，其中，所述标记者包括多位临床医师，并且所述主动学习过程包括：

获得针对所选择的未标记数据样本的来自所述多位临床医师的注释；以及

将从所述多位临床医师获得的所述注释的加权组合用作针对所选择的未标记数据样本的所述真值标记。

7.如权利要求6所述的方法，其中，针对所述加权组合的权重根据所述多位临床医师中的每位的经验水平和/或所述多位临床医师中的每位提供所述注释的一致性水平来设置。

8.如前述权利要求中的任一项所述的方法，其中，所述第一模型由医学机构认证为符合医学标准。

9.如权利要求8所述的方法，包括：

继所述进一步训练之后，将在所述进一步训练之前的所述第一模型与通过所述进一步训练产生的所述经更新的第一模型进行比较；并且

如果所述比较指示差大于第二阈值差，则标志所述经更新的第一模型以供与所述医学标准的符合性测试。

10.如权利要求9所述的方法，还包括：

如果所述比较指示差小于所述第二阈值差，则部署所述经更新的第一模型以供在标记后续医学数据中使用。

11.如权利要求9或10所述的方法，其中，所述第二阈值差基于平均验证损失，并且其中，将在所述进一步训练之前的所述第一模型与通过所述进一步训练产生的所述经更新的第一模型进行比较的步骤包括：

在验证数据集上，计算针对在所述进一步训练之前的所述第一模型的平均验证损失V_模型1；

在所述验证数据集上，计算针对通过所述进一步训练产生的所述经更新的第一模型的平均验证损失V_{经更新的模型1}；

根据(V_{经更新的模型1}-V_模型1)/(V_{经更新的模型1}+V_模型1)来计算所述第一模型与所述经更新的第一模型之间的平均验证损失。

12.如前述权利要求中的任一项所述的方法，还包括：

以迭代的方式重复步骤i)和ii)。

13.如前述权利要求中的任一项所述的方法，其中，所述第一模型用于诊断计算机断层摄影、磁共振成像或超声图像中的异常；或者

其中，所述第一模型用于检测心电图、脑电图或眼电图测量结果中的事件。

14.一种用于管理第一模型的系统，所述第一模型使用机器学习过程来训练并被部署和用于标记医学数据，所述系统包括：

存储器，其包括表示指令集的指令数据；以及

处理器，其被配置为与所述存储器通信并运行所述指令集，其中，所述指令集在被所述处理器运行时令所述处理器：

i)确定针对所述第一模型的性能量度；以及

ii)如果所述性能量度指示性能在阈值性能水平以下，则触发升级过程，其中，所述升级过程包括在所述第一模型上执行进一步训练以产生经更新的第一模型，其中，所述训练使用主动学习过程来执行，其中，用于所述进一步训练的训练数据根据所述主动学习过程从未标记数据样本的池中被选择，并被发送给标记者以获得真值标记以供在所述进一步训练中使用。

15.一种计算机程序产品，包括计算机可读介质，所述计算机可读介质具有体现于其中的计算机可读代码，所述计算机可读代码被配置为使得在由合适的计算机或处理器运行时，令所述计算机或处理器执行如权利要求1至13中的任一项所述的方法。