CN115039184A

CN115039184A - 用于根据胸部射线照片诊断胸部病症的深度学习系统和方法

Info

Publication number: CN115039184A
Application number: CN202080092290.0A
Authority: CN
Inventors: A.B.塞勒格伦; S.R.谢蒂; S.米塔尔; D.F.斯泰纳; A.马杰科夫斯卡; G.E.达根
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-11-07
Filing date: 2020-10-13
Publication date: 2022-09-09
Also published as: EP4038627A1; US20220384042A1; JP2023500538A; WO2021091661A1; JP7422873B2

Abstract

本公开提供了用于训练和/或采用机器学习模型(例如，人工神经网络)来基于胸部射线照片诊断胸部病症(诸如气胸、混浊、结节或肿块和/或骨折)的系统和方法。例如，一个或多个机器学习模型可以接收和处理胸部射线照片以生成输出。该输出可以针对一个或多个胸部病症中的每一个来指示胸部射线照片是否(例如，以某种置信度度量)描绘了胸部病症。机器学习模型的输出可以被提供给医疗专业人员和/或患者，以用于向患者提供治疗(例如，治疗检测出的病症)。

Description

用于根据胸部射线照片诊断胸部病症的深度学习系统和方法

相关申请

本申请要求2019年11月7日提交的美国临时专利申请第62/931,974号的优先权和权益。美国临时专利申请第62/931,974号在此通过全文引用合并于此。

技术领域

本公开总体上涉及诊断技术。更具体地，本公开涉及使用深度学习模型来基于胸部射线照片诊断胸部病症(condition)，诸如，例如气胸、混浊、结节或肿块、和/或骨折。

背景技术

尽管是最常见和最完善的成像模态之一，但是射线照相术对于重要临床发现的检测而言受到显著的阅片者间的可变性(inter-reader variability)和次优的灵敏度(suboptimal sensitivity)的影响。因此，即使在一组受过解释射线照片的训练的人(例如，放射科医师)当中，也可能在正确的解释之间存在显著的分歧，包括该组中的大多数人未能检测出具有挑战性但却关键的病症的情况。

发明内容

本公开的实施例的方面和优点将在以下描述中部分地阐述，或者可以从描述中获知，或者可以通过对实施例的实践而获知。

本公开的一个示例方面针对一种经由机器学习对胸部射线照片进行改进的解释的方法。该方法包括：由一个或多个计算设备获得描述一个或多个机器学习模型的数据，该一个或多个机器学习模型被配置为接收和处理胸部射线照片以生成指示胸部射线照片是否描绘一个或多个胸部病症的输出。该方法包括：由一个或多个计算设备访问包括多个训练示例的训练数据集，其中多个训练示例中的每个训练示例包括示例胸部射线照片和分配给示例胸部射线照片的标签，该标签指示该示例胸部射线照片是否描绘一个或多个胸部病症。针对多个训练示例中的至少一些训练示例，分配给示例胸部射线照片的标签包括基于由多个人类评价者分别为示例胸部射线照片提供的多个最终评价而生成的裁定标签。在提供多个最终评价之前，经由一轮或多轮中间评价，向人类评价者提供由其他人类评价者提供的一个或多个相应的中间评价。该方法包括：由一个或多个计算设备使用训练数据集中包括的多个训练示例来训练一个或多个机器学习模型。

本公开的另一示例方面针对一种用于为机器学习模型生成改进的训练数据的方法，该机器学习模型被配置为接收和处理胸部射线照片以生成指示胸部射线照片是否描绘一个或多个胸部病症的输出。对分别包括多个示例胸部射线照片的多个训练示例中的一个或多个训练示例执行该方法。该方法包括向多个人类评价者提供示例胸部射线照片。该方法包括分别从多个人类评价者接收对示例胸部射线照片的多个中间评价。该方法包括，针对一轮或多轮中间评价中的每一轮中间评价：向多个人类评价者中的每个人类评价者提供多个中间评价；以及为多个人类评价者中的每个人类评价者接收对这个人类评价者是维持还是改变他们相应的中间评价的指示。该方法包括：在一轮或多轮中间评价之后，分别为多个人类评价者确定示例胸部射线照片的多个最终评价。该方法包括基于多个最终评价来生成示例胸部射线照片的标签。该方法包括将标签与示例胸部射线照片一起存储在训练数据集中。

本公开的另一示例方面针对一种用于在胸部射线照片上评价机器学习模型性能时执行逆概率加权的方法。对参考数据集中包括的多个参考示例中的一个或多个参考示例执行该方法。该方法包括由一个或多个计算设备获得由一个或多个机器学习模型针对参考胸部射线照片生成的输出，其中该输出指示参考胸部射线照片是否描绘一个或多个胸部病症。该方法包括由一个或多个计算设备访问与参考胸部射线照片相关联的标签。该方法包括由一个或多个计算设备至少部分地基于输出与标签的比较来评价一个或多个机器学习模型针对参考胸部射线照片的加权性能，其中使用与关联于参考示例的富集(enrichment)量成反比的权重值对加权性能进行加权。

本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。

参考以下描述和所附权利要求，将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书并构成其一部分的附图示出了本公开的示例实施例，并与描述一起用于解释相关原理。

附图说明

针对本领域普通技术人员的实施例的详细讨论在参考附图的说明书中阐述，其中：

图1A-图1C描绘了根据本公开的示例实施例的示例计算系统。

图2描绘了根据本公开的示例实施例的用于获得裁定标签的示例过程。

图3描绘了根据本公开的示例实施例的用于确定已训练模型的加权性能评价的示例技术的框图。

图4描绘了根据本公开的示例实施例的使用加权损失函数来训练模型的示例技术的框图。

图5描绘了根据本公开的示例实施例的被配置为产生多个放射学推断的多头模型的框图。

图6描绘了根据本公开的示例实施例的获得和使用裁定标签的示例方法的流程图。

图7描绘了根据本公开的示例实施例的确定模型输出的加权性能评价的示例方法的流程图。

具体实施方式

总体上，本公开涉及用于训练和/或采用机器学习模型(例如，人工神经网络)来基于胸部射线照片诊断胸部病症(诸如，作为示例的气胸、混浊、结节或肿块和/或骨折)的系统和方法。例如，一个或多个机器学习模型可以接收和处理胸部射线照片以生成输出。输出可以针对一个或多个胸部病症中的每个胸部病症来(例如，以某种置信度度量)指示胸部射线照片是否描绘胸部病症。机器学习模型的输出可以被提供给医疗专业人员和/或患者，以在向患者提供治疗时使用(例如，以治疗检测出的病症)。

本公开的一个方面针对使用包括裁定标签作为参考标准的训练数据集来训练本文描述的机器学习模型。使用裁定的训练数据可以提高所得模型的准确度，特别是在多数评价者可能遗漏的具有挑战性的诊断的情况下。

更具体地，开发临床相关诊断模型的关键方面涉及在已经定义了“基础事实”标签的参考数据集上训练和评价模型。然而，在建立这些参考标准图像标签时，阅片者间的可变性对性能和评价具有显著影响。

具体地，用于射线照相图像分析的深度学习的现有工作通常利用单个阅片者或跨多个独立阅片者的多数表决法来提供参考标准标签。然而，由于所得标签中的误差或不一致性，这种方法可能导致高估模型性能。例如，如果只有少数独立阅片者(正确地)识别出具有挑战性但却关键的发现，那么这些发现可能被忽视，从而通过多数表决法而贴错标签。这可能导致模型无法检测出这些发现(由于不正确的训练标签)，也无法测量出这些误差(由于不正确的参考标准标签)，从而导致虚假的模型准确感。

为了解决这些问题，本公开提供了一种用于由人类评价者裁定基本事实参考标签的改进过程。具体地，本公开提供了裁定过程，其该裁定过程中，多个(例如，3个、5个等)人类评价者(例如，放射科医师)能够协作评价参考射线照片(例如，参考胸部射线照片)以生成参考射线照片的裁定标签。具体地，裁定过程可以发生在一轮或多轮中间评价中(例如，2轮、3轮、5轮等)。在每一轮中间评价中，每个人类评价者都可以有机会审阅(review)参考示例并提供相应的中间评价。

根据本公开的一个方面，在每一轮中间评价中，每个人类评价者也可以被提供机会来审阅由其他评价者在(多个)先前和/或当前的轮次中提供的中间评价。每个评价者可以基于关于其他潜在不同观点的信息来决定是否维持或更新他们自己的相应中间评价。

通过为人类评价者提供考虑其他评价者的评价的能力，人类评价者可能能够识别他们先前未能检测出的病症。换句话说，可经由放射学检测的某些病症可能具有很大的挑战性，使得甚至多数审阅者都未能正确诊断出病症。然而，在所提出的方案中，协作的讨论/考虑可以在一个或多个轮次中发生，少数观点可以在最终判断之前被考虑。在少数观点实际上是正确诊断的情况下，讨论可以使少数成员能够说服多数成员来改变他们的诊断。例如，一个精明的专家评价者可能能够使其他评价者确信他们最初未能提供正确的诊断。以这种方式，由人类评价者提供的评价可以为具有高度挑战性的病例提供更准确的标签。

在一些实施方式中，在每一轮中间评价中，人类评价者可以向其他人类评价者提供关于他们相应的中间评价的相应的书面评论。例如，书面笔记可以从每个评价者发送到组。这可以允许人类评价者提供对他们为什么提供他们相应的评价以及潜在地为什么优于相反的评价的书面描述。

类似地，在一些实施方式中，在每一轮中间评价中，人类评价者可以向其他人类评价者提供示例胸部射线照片上的相应视觉标记。例如，视觉标记可以包括着色、注释和/或评价者可以用来为评价制作视觉外壳的其他形式的标记。

在一些实施方式中，在每一轮中间评价中，一些或所有人类评价者对于其他人类评价者可以是匿名的。通过保持评价者的身份匿名，可以防止其他评价者允许政治、社会或其他隐含的偏见影响对其他评价者的评价的尊重程度。例如，如果人类评价者之一是杰出的放射学家，对她的身份保密将防止其他评价者出于尊重或其他考虑而简单地遵从她的判断。

在一些实施方式中，各轮中间评价可以同步执行，使得评价者能够同时协作(例如，经由聊天界面、视频会议等)。替代地或附加地，各轮中间评价可以异步执行。异步过程可以使评价者能够在灵活的进度表上标记图像，从而避免需要对齐多个临床进度表。

在一轮或多轮中间评价之后(例如，一旦达成共识或达到最大轮次数量)，每个人类评价者可以提供最终评价。例如，最终评价可以简单地是在最后一轮中间评价中提供的最后一个中间评价。来自多个人类评价者的最终评价可以被组合或聚集以生成参考射线照片的裁定标签。例如，可以应用表决方案来选择由多数评价者提供的病症评价作为裁定标签。

所提议的裁定过程产生裁定标签(例如，可用于训练、测试和/或验证)，其展现出改进的准确度，特别是在具有挑战性但关键的边缘情况下展现出改进的准确度。通过提供具有改进的准确度的标签，从这种标签学习的所得机器学习模型也可以展现出改进的准确度。此外，在这种标签上测试的模型的性能可以被准确地测量。

本公开的另一方面涉及使用群体调整的评价方法来评价本文描述的机器学习模型，该方法考虑了对参考数据集(例如，训练数据集、测试数据集、验证数据集等)内的阳性发现(positive finding)的富集。

更具体地，数据集选择是在放射学中的机器学习方法的重要元素。对阳性发现的富集是在创建数据集时可以通过高效使用标记资源为训练和评价提供必要示例的一种策略。具体地，在数据集富集中，具有阳性训练标签(例如，描述待检测的病症)的训练示例在参考数据集内被过度表示(over-represent)，从而为模型提供了附加的机会来对在其他情况下可能非常罕见的阳性标签(例如，如果待检测的病症在一般群体中很少出现)进行学习或测试。

然而，因为被富集的数据集不一定反映真实世界的患病率(prevalence)或病例组合(case-mix)多样性，所以这种富集也可能阻止对诊断性能进行有意义的临床解释。总而言之，富集和不良的病例组合多样性的问题可能降低通常报告的机器学习系统的性能指标的意义。

为了应对这一挑战，本公开提供了用于评价考虑了对(多个)参考数据集的富集的机器学习模型的改进技术。具体地，在评价模型性能的每个情况中(例如，在训练、测试或验证期间)，模型的原始性能分数(例如，会正常生成的分数)可以用权重值来修改，其中权重值与对评价模型性能所针对的示例执行的富集量成反比。

简而言之，基于各种选择标准，每个参考示例(例如，训练示例或测试示例)可以被分配到“富集组”以便于进行加权。作为一个示例，这些组可以由分配给参考示例的标签来定义或者与这些标签同延(conextensive)(例如，针对“骨折”病症具有“是”标签的所有参考示例可以被分配给一个组)。作为另一示例，这些组可以基于与相应标签相关联的置信度水平(例如，对阳性诊断高度确信vs.(相对于)仅仅是异常vs.对阴性诊断高度确信)。

在一些实施方式中，为了计算特定参考示例的权重，计算系统可以评价该组成员在参考数据集(例如，训练数据集或测试数据集)中出现的频率vs.该组成员在父数据集中出现的频率。例如，父数据集可以包括所有已知的参考示例。例如，父数据集可以展现出群体级别分布。

更具体地，在一个示例中，每个参考示例的权重可以等于与参考示例相关联的分组中包括的父数据集中包括的示例的数量除以包括在参考数据集中并且包括在与参考示例相关联的分组中的参考示例的数量。举例来说，如果父数据集包括被包括在同一选择组中(例如，具有相同标签)的20个示例，而参考数据集仅包括10个示例，则10个示例中的每个示例的权重值可以等于2。因此，权重与“富集量”成反比，其中最低可能权重1对应于当标签类型的所有可能图像都被包括在被富集的集合中时的场景。(例如，这些是相对于实际临床病例组合在参考集中被高度富集的相对罕见的图像类型，从而低权重反映了它们在调整期间是罕见的)。

如上所述的加权性能评价可以在训练和/或训练后评价(例如，测试)期间应用。例如，在训练期间，权重值可以作为损失函数的一部分来应用，以控制损失函数对更新模型参数的影响程度。在测试期间，权重值可以应用于性能度量(诸如准确度度量)，以便在应用于具有群体级别分布的病例时(例如，与专用参考数据集所展现的被富集的分布相反)获得对模型真实性能的更准确测量。

如美国临时专利申请第62/931,974号中所证明的，根据本文描述的技术而训练的示例模型实现了与委员会认证的放射科医师的胸部x光片解释的对等性，以用于在不同的多中心胸部x光片数据集上检测气胸、结节/肿块、混浊和骨折。具体地，包含在美国临时专利申请第62/931，974号中的示例实验数据证明了，参考标准方法的差异以及所得的对性能评价的影响强化了严格且标准化的方法对于促进放射学中的人工智能应用的发展的重要性。

尽管本公开的示例方面集中于为射线照片(尤其是胸部射线照片)生成裁定标签的过程，但是可以执行裁定过程来为训练示例的其他形式的模态生成裁定标签。此外，尽管本公开的示例方面集中于确定放射学推断的加权性能评价，但是加权性能评价可以应用于测量由机器学习模型提供的其他形式的推断的性能。作为一个示例，虽然示例方面集中于胸部射线照片和胸部病症，但是本文描述的技术可扩展到人体的任何部位(例如，手)的射线照片以及可从这种射线照片检测出的任何病症(例如，骨折)。同样，本文描述的技术可扩展到其他形式的医学成像(例如，CT扫描)以及可从这种形式的医学成像中检测出的任何病症(例如，脑损伤)。

在一些实施方式中，模型所使用的(例如，用于训练和/或推断的)数据可以是去识别的(de-identified)数据。例如，个人可识别信息(诸如位置、姓名、确切出生日期、联系信息、生物测定信息、面部照片等)可以在被传输到模型和/或包括模型的计算系统和/或被其利用之前从记录中清除。例如，可以对数据进行去识别，以保护个人的身份并符合关于医疗数据的规定(诸如HIPAA)，使得在模型所使用的和/或用于训练模型的数据中不存在个人可识别信息(例如，受保护的健康信息)。

除了上面的描述之外，可以向用户提供控制，以允许用户关于本文描述的系统、程序或特征是否以及何时能够收集用户信息(例如，观察、干预、状态等)进行选择。此外，在存储或使用某些数据之前，可以以一种或多种方式对其进行处理，使得个人可识别信息被移除。例如，可以对用户的身份进行处理，使得不能针对用户确定任何个人可识别信息。因此，用户可以控制收集关于用户的什么信息、如何使用该信息以及向用户提供什么信息。

例如，可以向患者提供控制，以允许患者同意使用患者的电子病历(electronicmedical record，EMR)数据。作为另一示例，可以向患者提供控制，以允许患者限制收集或存储一些或所有形式的EMR数据。作为另一示例，可以向患者提供控制，以允许患者限制使用或继续使用EMR数据(诸如通过限制EMR数据被用作训练数据或用于与不同患者相关联的预测)。例如，机器学习模型可以仅使用经过清除和去识别的数据的公共可用数据集来进行训练(例如，不使用从患者得到的受保护的健康信息)。

现在参考附图，将更详细地讨论本公开的示例实施例。

示例设备和系统

图1A-图1C描绘了根据本公开的示例实施例的示例计算系统。具体地，图1A示出了一种示例系统，其中，一个或多个机器学习模型140被远程射线照片解释系统130用来根据由x光机101生成的射线照片生成放射学推断。图1B示出了一种替代系统，其中，一个或多个机器学习模型120被射线照相计算系统102用来生成放射学推断。图1C示出了被连接以实现对机器学习模型120或140的训练的系统/设备的组件。

更具体地，首先参考图1A和图1B，可以操作x光机101来生成描绘患者20的部位的一个或多个射线照片。射线照片可以最初被收集或提供给射线照相计算系统102。例如，射线照相计算系统102可以是位于x光机101现场的计算系统。例如，射线照相计算系统102可以是x光机101的一部分(例如，射线照相计算系统102可以控制x光机101并在捕获时接收和存储来自x光机101的x光片数据(例如，射线照片))。替代地或附加地，射线照相计算系统102可以是与x光机101一起位于医疗护理设施现场的独立系统。例如，射线照相计算系统102可以是医疗提供者的计算系统，诸如为医院、医生办公室等进行操作的计算系统等(例如，其存储各种类型的患者文件或数据)。

在图1A中，射线照片从射线照相计算系统102传输到远程射线照片解释系统130。例如，远程射线照片解释系统130可以是云服务(例如，可经由(多个)API来访问)，其中射线照相计算系统102可以调用该云服务来接收放射学推断。具体地，远程射线照片解释系统130可以存储和使用一个或多个机器学习模型140来基于(多个)射线照片生成一个或多个放射学推断。例如，每个放射学推断可以(例如，以某种置信度度量)指示给定射线照片是否描绘给定病症的存在或不存在。远程射线照片解释系统130可以将(多个)放射学推断传输到射线照相计算系统102，并且射线照相计算系统102可以向护理提供者30(例如，医生或其他医学专业人员)提供(例如，显示)放射学推断。护理提供者30可以使用放射学推断(例如，除了他们自己的判断之外)来为患者20确定诊断和/或治疗计划。在一些实施方式中，放射学推断可以具体包括针对所推断的病症的建议治疗。

图1B与图1A高度相似，除了使用被本地存储在射线照相计算系统102处的一个或多个机器学习模型120在射线照相计算系统102处本地分析射线照片之外。

现在参考图1C，用于启用机器学习模型120和140的系统100包括通过网络180通信耦合的射线照相计算系统102、远程射线照片解释系统130和训练计算系统150。

射线照相计算系统102可以包括任何类型的计算设备，诸如，例如个人计算设备(例如，膝上型或桌上型)、移动计算设备(例如，智能电话或平板计算机)、嵌入式计算设备、一个或多个服务器、包含在x光机内的设备或任何其他类型的计算设备。

射线照相计算系统102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是可操作地连接的一个处理器或多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器114可以存储由处理器112执行的数据116和指令118，以使射线照相计算系统102执行操作。

在一些实施方式中，射线照相计算系统102可以存储或包括一个或多个机器学习模型120。例如，机器学习模型120可以是各种机器学习模型，或者可以以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型，包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如，长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。

在一些实施方式中，一个或多个机器学习模型120可以通过网络180从远程射线照片解释系统130被接收，被存储在射线照相计算系统存储器114中，然后由一个或多个处理器112使用或者以其他方式实施。在一些实施方式中，射线照相计算系统102可以实施单个机器学习模型120的多个并行实例(例如，以跨多个射线照片实例来执行并行的放射学推断)。

附加地或替代地，一个或多个机器学习模型140可以被包括在根据客户端-服务器关系与射线照相计算系统102进行通信的远程射线照片解释系统130中，或者以其他方式由该远程射线照片解释系统130存储和实施。例如，机器学习模型140可以由远程射线照片解释系统140实施为网络服务(例如，放射学服务)的一部分。因此，可以在射线照相计算系统102处存储和实施一个或多个模型120，和/或可以在远程射线照片解释系统130处存储和实施一个或多个模型140。

射线照相计算系统102还可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或触笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件可以用来实施虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户可以用来提供用户输入的其他部件。

远程射线照片解释系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是可操作地连接的一个处理器或多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器134可以存储由处理器132执行的数据136和指令138，以使远程射线照片解释系统130执行操作。

在一些实施方式中，远程射线照片解释系统130包括一个或多个服务器计算设备，或者以其他方式由一个或多个服务器计算设备实施。在远程射线照片解释系统130包括多个服务器计算设备的情况下，这种服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来进行操作。

如上所述，远程射线照片解释系统130可以存储一个或多个机器学习模型140，或者以其他方式包括一个或多个机器学习模型140。例如，模型140可以是各种机器学习模型，或者可以以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。

射线照相计算系统102和/或远程射线照片解释系统130可以经由与通过网络180通信耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与远程射线照片解释系统130分离，或者可以是远程射线照片解释系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是可操作地连接的一个处理器或多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器154可以存储由处理器152执行的数据156和指令158，以使训练计算系统150执行操作。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备，或者以其他方式由一个或多个服务器计算设备实施。

训练计算系统150可以包括模型训练器160，模型训练器160使用各种训练或学习技术(诸如，例如误差的反向传播)来训练存储在射线照相计算系统102和/或远程射线照片解释系统130处的机器学习模型120和/或140。例如，损失函数可以通过(多个)模型反向传播，以(例如，基于损失函数的梯度)更新(多个)模型的一个或多个参数。可以使用各种损失函数，诸如均方误差、似然损失、交叉熵损失、铰链损失和/或各种其他损失函数。梯度下降技术可以用于在多次训练迭代中迭代地更新参数。

在一些实施方式中，执行误差的反向传播可以包括随时间执行截短的反向传播。模型训练器160可以执行多种泛化技术(例如，权重衰减、漏失等)来改进被训练的模型的泛化能力。

具体地，模型训练器160可以基于一组训练数据162来训练机器学习模型120和/或140。训练数据162可以包括例如已经用一个或多个裁定标签标记的示例训练或参考射线照片。例如，示例射线照片可以是胸部射线照片。每个射线照片的裁定标签可以(例如，以可以是二元的或连续的某种置信度)指示该射线照片是否描绘一个或多个病症。

作为更具体的示例，示例训练数据集可以如下：第一数据集1(DS1)可以包括具有来自538390名患者的报告的、759611张(数字的和扫描的)去识别的正面胸部射线照片。该数据集由2010年11月至2018年1月期间从印度5个城市(班加罗尔、布巴内斯瓦尔、钦奈、海德拉巴、新德里)的阿波罗医院集团的5个区域中心获得的DICOM格式的所有连续的住院患者和门诊患者图像组成。第二数据集可以是来自国立卫生研究院的公开可用数据集(ChestX-ray14)(1821)，其由来自30805名患者的112120张正面胸部射线照片图像组成(表1)。因为DS1包括来自多个不同医院的所有胸部x光片，所以该数据集中的异常反映了这些群体中不同异常的自然群体患病率。相比之下，相对于一般群体，ChestX-ray14富含各种胸部异常。

用于准备训练数据集的一个示例过程如下：对于DS1，可以将患者随机分配到训练集、调谐/验证集或测试集。对于ChestX-ray14，可以保留来自2797名患者的25596个图像的原始测试集。来自28008名患者的剩余86524个图像可以被随机划分成训练集(80％)和调谐/验证集(20％)。对于这两个数据集，来自相同患者的图像可以保持在相同划分中，以避免对相同患者进行训练和测试。

作为进一步的示例，为了提供足够数量的具有阳性发现的不同且高质量的带标签图像，可以从DS1和ChestX-ray14两者中选择大约2000个图像。因为ChestXray14已经富含阳性发现，所以可以从可用图像中随机选择图像。对于DS1，可以基于放射学报告选择图像，以富含阳性发现，同时维持病例组合多样性，并还允许通过逆概率加权在分析时进行群体调整。虽然放射学报告可以用于促进病例富集，但是每个图像的参考标准标签可以经由裁定的放射科医师图像审阅来提供。

在一些示例实施方式中，训练示例可以经由两种方法来标记，即专家图像标注和自然语言处理(NLP)。例如，为了标记训练图像(例如，DS1图像)，可以使用NLP模型来根据使用大约35000个报告的原始放射学报告预测图像标签。简而言之，可以训练一维深度卷积神经网络，并且可以针对经人类标记的报告来评价性能。用于NLP模型开发的训练集、验证集和测试集可以是用于图像建模的相对应的数据划分的子集。

在一些实施方式中，如果用户已经提供同意，则训练示例可以由射线照相计算系统102提供。因此，在这样的实施方式中，提供给射线照相计算系统102的模型120可以由训练计算系统150在从射线照相计算系统102接收的用户特定数据上进行训练。在一些情况下，该过程可以被称为个性化模型。

模型训练器160包括用于提供所需功能的计算机逻辑。模型训练器160可以用控制通用处理器的硬件、固件和/或软件来实施。例如，在一些实施方式中，模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中，模型训练器160包括存储在有形计算机可读存储介质(诸如RAM硬盘或光学介质或磁性介质)中的一个或多个计算机可执行指令集。

网络180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，互联网)或其某种组合，并且可以包括任何数量的有线链路或无线链路。一般地，网络180上的通信可以使用各种各样的通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)，经由任何类型的有线连接和/或无线连接来携带。

图1C示出了可以用于实施本公开的一个示例计算系统。也可以使用其他计算系统。例如，在一些实施方式中，射线照相计算系统102可以包括模型训练器160和训练数据集162。在这样的实施方式中，模型120可以在射线照相计算系统102处本地进行训练和使用。在一些这样的实施方式中，射线照相计算系统102可以实施模型训练器160，以基于用户特定的数据来个性化模型120。

示例标签裁定过程

图2描绘了根据本公开的示例实施例的用于获得裁定标签的示例过程。具体地，在示出的裁定过程中，多个(例如，1-N个)人类评价者(例如，放射科医师)能够协作评价参考射线照片(例如，参考胸部射线照片)以生成参考射线照片的裁定标签。具体地，裁定过程可以发生在一轮或多轮中间评价中(例如，2轮、3轮、5轮等)。在每一轮中间评价中，每个人类评价者都可以有机会审阅参考示例并提供相应的中间评价。

通过为人类评价者提供考虑其他评价者的评价的能力，人类评价者可以能够识别他们先前未能检测出的病症。换句话说，可经由放射学检测的某些病症可能具有很大的挑战性，使得甚至多数审阅者都未能正确诊断出病症。然而，在所提出的协作的讨论/考虑可以在一个或多个轮次中发生的方案中，少数观点可以在最终判断之前被考虑。在少数观点实际上是正确诊断的情况下，讨论可以使少数成员能够说服多数成员来改变他们的诊断。例如，一个精明的专家评价者可能能够使其他评价者确信他们最初未能提供正确的诊断。以这种方式，由人类评价者提供的评价可以为具有高度挑战性的病例提供更准确的标签。

在一轮或多轮中间评价之后(例如，一旦达成共识或达到最大轮次数量)，每个人类评价者可以提供最终评价。例如，最终评价可以简单地是在触发终结条件之前发生的最后一轮中间评价中提供的最后一个中间评价。来自多个人类评价者的最终评价可以被组合或聚集以生成参考射线照片的裁定标签。例如，可以应用表决方案来选择由多数评价者提供的病症评价作为裁定标签。

所提议的裁定过程产生裁定标签(例如，用于训练、测试和/或验证)，其展现出改进的准确度，特别是在具有挑战性但关键的边缘情况下展现出改进的准确度。通过提供具有改进的准确度的标签，从这种标签学习的所得机器学习模型也可以展现出改进的准确度。此外，在这种标签上测试的模型的性能可以被准确地测量。

对该过程的一个示例实施方式的更详细描述如下：示例裁定过程可以寻求识别四个胸部射线照相发现：气胸、混浊、结节/肿块(作为混浊的特定亚型)和骨折。这些类别的临床定义可以基于弗莱舍纳学会胸成像术语表(Fleischner Society Glossary of Termsfor Thoracic Imaging)，但骨骨折除外，骨骨折可以被定义为可见的肋骨、锁骨、肱骨或椎体骨折。例如，结节可以被定义为小于3厘米，肿块可以被定义为3厘米或更大。这些发现中的每个发现的存在或不存在可以在图像级别进行标记。也可以收集胸管和骨折锐度标签。

在一些示例中，用于最终验证和测试集图像的参考标准标签可以经由三个放射科医师的裁定审查来分配。对于测试集中的每个图像，可以从11名委员会认证的放射科医师组群(在普通放射科工作3-21年，没有胸科专家，包括A.D.)中分配三个阅片者。验证集的每个图像的三个阅片者可以从13个人的组群(由委员会认证的放射科医师(没有胸科专家)和住院医师组成)中进行选择。

简而言之，图像可以由3个阅片者独立地进行评价，以允许经由相同阅片者多达5轮的异步匿名讨论来解决分歧，但不强制达成共识。在没有达成共识的情况下，可以选择性使用多数表决。所有阅片者都可以获得患者年龄和图像视图(PA与AP)，但是没有附加的临床数据或患者数据。结节/肿块和气胸可以被裁定为存在、不存在或“待定(hedge)”(即，不确定是存在还是不存在)，并且混浊和骨折可以被裁定为存在或不存在。对于评价，模糊可以被视为阳性，理由是临床模糊会促使附加的阅片、动作和/或临床随访。

示例性能评价

图3描绘了根据本公开的示例实施例的用于(例如，在验证或测试期间)确定已训练模型的加权性能评价的示例技术的框图。具体地，如图3所示，机器学习模型304可以接收和处理参考射线照片，以生成一个或多个放射学推断306。可以对一个或多个放射学推断执行性能评价(例如，加权性能评价)308。

具体地，当在308处评价模型304的性能时，模型304的原始性能分数(例如，使用传统评价技术会正常生成的准确度分数等)可以用权重值来修改，其中权重值与评价模型性能所针对的参考射线照片302上执行的富集量成反比。

简而言之，基于各种选择标准，参考数据集中的每个参考示例(例如，参考射线照片302)可以被分配到“富集组”以便于进行加权。作为一个示例，这些组可以由分配给参考示例的标签来定义或者与这些标签同延(例如，针对“骨折”病症具有“是”标签的所有参考示例可以被分配给一个组)。作为另一示例，这些组可以基于与相应标签相关联的置信度水平(例如，对阳性诊断高度确信vs.仅仅是异常vs.对阴性诊断高度确信)。

在一些实施方式中，为了计算特定参考示例302的权重，计算系统可以评价该组成员在参考数据集(例如，训练数据集或测试数据集)中出现的频率vs.该组成员在父数据集中出现的频率。例如，父数据集可以包括所有已知的参考示例。例如，父数据集可以展现出与群体中病症的分布普遍相匹配的群体级别分布。

更具体地，在一个示例中，参考射线照片302的权重可以等于与参考射线照片302相关联的分组中包括的父数据集中包括的示例的数量除以包括在参考数据集中并且包括在与参考射线照片302相关联的分组中的参考示例的数量。举例来说，如果父数据集包括被包括在同一选择组中(例如，具有相同标签)的20个示例，而参考数据集仅包括10个示例，则10个示例中的每个示例的权重值可以等于2。因此，权重与“富集量”成反比，其中最低可能权重1对应于当标签类型的所有可能图像都被包括在被富集的集合中时的场景。(例如，这些是相对于实际临床病例组合在参考集中被高度富集的相对罕见的图像类型，从而低权重反映了它们在调整期间是罕见的)。

作为一个示例，可以通过使用每图像模型预测作为决策变量来计算在接收器工作曲线下的面积(area under the receiver operating curve，AUC-ROC)来评价模型性能。可以在两个操作点处将模型性能与放射科医师在测试集上的性能进行比较：平均放射科医师敏感度以及平均放射科医师特异性。

图4描绘了根据本公开的示例实施例的使用加权损失函数来训练模型的示例技术的框图。如图4所示，机器学习模型404可以接收并处理训练射线照片402，以生成一个或多个放射学推断406。损失函数(例如，加权损失函数)308可以比较(例如，确定之间的差异)(多个)放射学推断406和一个或多个基本事实标签403(例如，裁定标签)以生成损失值(例如，加权损失值)。具体地，如本文所述，训练射线照片402的加权损失值可以使用与关联于训练射线照片402的富集量成反比的权重来进行加权。损失值可以用作训练信号来训练(多个)机器学习模型404。例如，加权损失函数408可以根据梯度下降技术通过(多个)模型404进行反向传播。

对用于评价模型性能的示例过程的更详细描述如下：模型和放射科医师性能的置信区间(Confidence interval，CI)可以使用非参数自举(bootstrap)方法通过在图像级别进行1000倍重采样来计算。可以使用Obuchowski-Rockette-Hillis程序将模型性能与放射科医师进行比较。这种分析最初是为了比较成像模态，现在已经适用于放射科医师性能与独立算法性能的比较。对于这种分析，可以使用与平均放射科医师灵敏度(当比较特异性时)和平均放射科医师特异性(当比较灵敏度时)相对应的操作点来设定模型的阈值，并且对模型和放射科医师两者都使用二元化的协定(即正确vs.不正确)。非劣效性(noninferiority)可以通过将裕度参数(5％)合并到测试统计的分子中来进行评价。简而言之，小的p值指示虚假设(放射科医师表现比模型好5％或更多)被拒绝。刀切(jackknife)法可以用于估计测试的协方差项。

示例模型架构

图5描绘了可以使用的一个示例机器学习模型架构。图5所示的架构仅仅是一个示例，除了所示的架构之外或者作为其替代，还可以使用其他架构。

如图5所示，示例机器学习模型500可以包括共享特征提取部分504和多个分类头(例如，头506、507、508)，这些分类头为不同的病症提供相应的放射学推断(例如，推断516、517、518)。更具体地，共享特征提取部分504可以接收射线照片502作为输入，并且可以处理射线照片502以生成中间表示(其也可以被称为嵌入)。中间表示可以是例如低维或高维潜在空间中的连续值向量。

共享特征提取部分504可以向每个分类头506、507、508提供中间表示。每个分类头506、507、508可以基于中间表示产生相应的放射学推断516、517、518。每个相应的推断516、517、518可以是二元推断(例如，分类)或者可以是连续值推断(例如，在范围[0,1]内)。如果需要，可以将阈值应用于连续值推断以获得二元推断。在一些实施方式中，输出516、517、518中的一个或多个还可以指示对相对应的预测而言十分重要的一个或多个显著区域。

对示例模型架构的更详细描述如下：可以训练两个单独的深度学习模型来分别区分骨折和结节/肿块的存在或不存在。可以训练具有两个输出的单个深度学习模型来识别气胸和混浊两者。模型可以是用来自DS1和ChestX-ray14训练集的组合训练图像集进行训练的卷积神经网络。Xception网络可以用作卷积神经网络架构。该网络可以在3亿个自然图像上进行预训练。为了与预训练的Xception架构兼容，单通道灰度图像可以被平铺为3个通道(最初针对RGB)。可以用交叉熵损失和Adam优化器来训练模型。训练可以使用批量大小为16的衰减学习速率和动量，来使用指数衰减率为0.865的初始学习率0.00143和衰减率为0.822的动量。

可以基于验证集上的在精度-召回曲线下的面积(area under the precision-recall curve，AUC-PR)来选择用于集成(ansembling)的模型。最终模型可以是在相同数据集上进行训练的多个模型的集成，并且最终模型预测可以被计算为对集成的预测的平均值。

因此，作为示例，针对每个病症，可以训练多头模型来优化一组被经验地示为提高感兴趣病症的性能的二元分类任务。对于模型集成，每个训练配置可以用相同的参数运行三次。

在训练期间，模型可以被定期保存为检查点。可以在DS1和ChestX-ray14的验证集上监测性能，并且可以将对感兴趣病症具有最高AUC-PR的检查点集成为最终模型。

作为一个示例，针对气胸，可以训练模型来预测气胸、空域混浊、胸管的存在以及在无胸管情况下气胸的存在。一个示例最终模型是基于跨三个训练副本的以下检查点的集成：对DS1的气胸任务的最高AUCPR，对ChestXray14的气胸任务的最高AUC-PR，在无胸管任务的情况下对DS1的气胸的最高AUC-PR，以及在无胸管任务的情况下对ChestX-ray的气胸的最高AUC-PR 14。这导致了12个检查点。

作为另一示例，针对混浊，可以使用与气胸相同的模型训练配置，但是可以采用空域混浊输出来代替气胸输出。一个示例最终模型是基于跨三个训练副本的以下检查点的集成，这三个训练副本对DS1的空域混浊任务具有最高AUC-PR，并且对ChestX-ray14的空域混浊任务具有最高的AUC-PR。这导致了6个检查点。

作为另一示例，针对结节/肿块，可以训练模型来预测结节/肿块、空域混浊、结节和肿块的存在，并且对结节的计数类型进行分类(单个、多个或扩散)。一个示例最终模型可以是基于检查点的集成，针对三个训练副本中的每个副本，这些检查点对DS1的结节/肿块任务具有最高AUC-PR，并且对ChestX-ray14的结节/肿块任务具有最高AUC-PR，从而导致了6个检查点。

作为另一示例，针对骨折，可以训练模型来预测骨折的存在以及在左/右锁骨、左/右肋骨、左/右肩和脊柱中的每个位置中的存在。这允许对跨各种位置的多个骨折的预测。一个示例最终模型是基于检查点的集成，针对三个训练副本中的每个副本，这些检查点对DS1的骨折任务具有最高AUC-PR，并且对ChestX-ray14的骨折任务具有最高AUCPR，从而导致了6个检查点。

示例方法

图6描绘了根据本公开的示例实施例的获得和使用裁定标签的示例方法600的流程图。

在602，计算系统可以向多个人类评价者提供示例射线照片。

在604，计算系统可以分别从多个人类评价者接收对示例射线照片的多个中间评价。

在606，计算系统可以在多个人类评价者中的每个人类评价者之间共享多个中间评价。

在608，计算系统可以从每个评价者接收对这个评价者是维持还是改变他们相应的中间评价的指示。

在610，计算系统可以确定是否应该执行附加轮次的中间评价。例如，可以将轮次计数器与最大轮次数进行比较(例如，一旦执行了5个回合，中间轮次就结束)。作为另一示例，计算系统可以确定是否已经达成共识，并且如果是，则中间轮次可以结束。

如果在610处确定应该执行附加轮次的中间评价，则方法600返回到606，并且再次与所有评价者共享当前评价。

然而，如果在610处确定不应执行附加轮次的中间评价，则方法600可以前进到612。在612，计算系统将最后一轮中间评价视为评价者的最终评价。

在614，计算系统可以基于最终评价生成示例射线照片的裁定标签，并且可以将该标签与示例射线照片一起存储在训练数据集中。

在616，计算系统可以使用示例射线照片和裁定标签来训练一个或多个机器学习模型。

图7描绘了根据本公开的示例实施例的确定模型输出的加权性能评价的示例方法700的流程图。

在702，计算系统可以从参考数据集访问参考示例。特定标签可以与参考示例相关联。

在704，计算系统可以基于参考示例确定由机器学习模型产生的输出的原始性能值。

在706，计算系统可以确定与参考数据集中的特定标签相关联的富集量。

在708，计算系统可以至少部分地基于富集量来确定权重值。

在710，计算系统可以用权重值修改原始性能值(例如，通过乘法)以获得加权性能值。

附加公开

本文讨论的技术涉及服务器、数据库、软件应用和其他基于计算机的系统，以及所采取的动作、发送到这些系统和从这些系统接收的信息。基于计算机的系统的固有灵活性允许在组件之间对任务和功能进行各种各样可能的配置、组合和划分。例如，本文讨论的过程可以使用单个设备或组件或者组合工作的多个设备或组件来实施。数据库和应用可以在单个系统上实施，或者分布在多个系统上。分布式组件可以顺序或并行地进行操作。

虽然本主题已经关于其各种具体示例实施例进行了详细描述，但是每个示例都是以解释的方式提供的，而不是对本公开的限制。本领域的技术人员在理解了前述内容之后，可以容易地对这些实施例进行变更、变化和等效。相应地，本主题公开不排除对本主题的这种修改、变化和/或添加，这对本领域普通技术人员来说是显而易见的。例如，作为一个实施例的一部分而示出或描述的特征可以与另一实施例一起使用，以产生又一实施例。因此，本公开旨在覆盖这样的更改、变化和等效。

具体地，尽管图6和图7出于说明和讨论的目的分别描绘了以特定次序执行的步骤，但是本公开的方法不限于特定示出的次序或布置。在不脱离本公开的范围的情况下，方法600和700的各个步骤可以以各种方式被省略、重新布置、组合和/或修改。

本公开的另一示例方面针对利用机器学习模型来区分正常胸部射线照片和异常胸部射线照片的系统和方法。这些系统、方法和模型已经被证明可以泛化到看不见的疾病。在一个示例中，这些系统、方法和模型可以用作分诊(triage)工具。

更具体地，某些算法已经被示为以与放射科医师相当或更高的性能来检测特定发现，诸如肺炎、胸腔积液和骨折。然而，由于被开发来检测特定发现，这些算法不太可能正确地报告它们没有被训练来检测的其他异常。

鉴于上述内容，本公开的一个示例方面提供了一种将胸部射线照片(chestradiograph，CXR)分类为正常或异常的机器学习系统(例如，深度学习系统)。具体地，在放射科医师具有高度审查负担的场景中，这些提出的系统和方法可以用于识别有可能包含发现的病例，并将它们分组在一起以进行优先审查，从而减少异常病例的周转时间。正常病例也可以通过AI算法而快速定性，从而使医疗保健专业人员能够快速排除某些区别诊断，并且允许诊断检查在其他方向上没有延迟地进行。

这些建议的系统可以用作非放射科医师的一线定点护理工具。这些提出的系统优于现有解决方案的一个优点是通用性。通过在六个国际数据集(包括两种未被专门训练来检测的疾病(例如，结核和冠状病毒疾病2019))上评价所提出的系统的示例实施方式，经验已经表明，所提出的模型对比现有解决方案在更广范围的异常上表现良好。

Claims

1.一种用于经由机器学习对胸部射线照片进行改进的解释的方法，所述方法包括：

由一个或多个计算设备获得描述一个或多个机器学习模型的数据，所述一个或多个机器学习模型被配置为接收和处理胸部射线照片以生成指示所述胸部射线照片是否描绘一个或多个胸部病症的输出；

由所述一个或多个计算设备访问包括多个训练示例的训练数据集，其中，所述多个训练示例中的每个训练示例包括示例胸部射线照片和分配给所述示例胸部射线照片的标签，所述标签指示所述示例胸部射线照片是否描绘所述一个或多个胸部病症，

其中，针对所述多个训练示例中的至少一些训练示例，分配给所述示例胸部射线照片的标签包括基于由多个人类评价者为所述示例胸部射线照片分别提供的多个最终评价而生成的裁定标签，以及

其中，在提供所述多个最终评价之前，经由一轮或多轮中间评价向所述人类评价者提供由其他人类评价者提供的一个或多个相应的中间评价；以及

由所述一个或多个计算设备使用所述训练数据集中包括的所述多个训练示例来训练所述一个或多个机器学习模型。

2.根据权利要求1所述的方法，其中，针对所述一轮或多轮中间评价中的至少一轮中间评价，所述多个人类评价者向其他人类评价者提供关于他们的相应中间评价的相应书面评论。

3.根据任一前述权利要求所述的方法，其中，针对所述一轮或多轮中间评价中的至少一轮中间评价，所述多个人类评价者向其他人类评价者提供在所述示例胸部射线照片上的相应视觉标记。

4.根据任一前述权利要求所述的方法，其中，针对所述一轮或多轮中间评价中的至少一轮中间评价，所述多个人类评价者中的每个人类评价者对所述其他人类评价者是匿名的。

5.根据任一前述权利要求所述的方法，其中，每个裁定标签包括来自由所述多个人类评价者分别提供的相应多个最终评价的共识或多数发现。

6.根据任一前述权利要求所述的方法，还包括，在训练所述一个或多个机器学习模型之后：

由所述一个或多个计算设备获得与患者相关联的临床胸部射线照片；以及

由所述一个或多个计算设备使用所述一个或多个机器学习模型，基于所述临床胸部射线照片为所述患者生成临床诊断。

7.根据权利要求6所述的方法，还包括至少部分地基于所述临床诊断来治疗所述患者。

8.根据任一前述权利要求所述的方法，其中，所述训练数据集中包括的示例胸部射线照片中的至少一些包括正面胸部射线照片。

9.根据任一前述权利要求所述的方法，其中，所述一个或多个胸部病症包括气胸、混浊、结节和骨折中的一个或多个。

10.根据任一前述权利要求所述的方法，其中：

每个训练示例的标签指示多个胸部病症的存在或不存在；并且

所述一个或多个机器学习模型包括至少一个多头模型，所述多头模型具有分别用于所述多个胸部病症的多个二元分类头。

11.一种用于为机器学习模型生成改进的训练数据的方法，所述机器学习模型被配置为接收和处理胸部射线照片以生成指示所述胸部射线照片是否描绘一个或多个胸部病症的输出，所述方法包括：

针对分别包括多个示例胸部射线照片的多个训练示例中的一个或多个训练示例：

向多个人类评价者提供所述示例胸部射线照片；

分别从所述多个人类评价者接收对所述示例胸部射线照片的多个中间评价；

针对一轮或多轮中间评价中的每一轮中间评价：

向所述多个人类评价者中的每个人类评价者提供所述多个中间评价；以及

为所述多个人类评价者中的每个人类评价者接收对这个人类评价者是维持还是改变他们相应的中间评价的指示；

在所述一轮或多轮中间评价之后，分别为所述多个人类评价者确定所述示例胸部射线照片的多个最终评价；

基于所述多个最终评价为所述示例胸部射线照片生成标签；以及

将所述标签与所述示例胸部射线照片一起存储在训练数据集中。

12.根据权利要求11所述的方法，其中，针对所述一轮或多轮中间评价中的至少一轮中间评价，向所述多个人类评价者中的每个人类评价者提供所述多个中间评价包括向其他人类评价者提供从所述多个人类评价者接收的相应书面评论。

13.根据权利要求11或12所述的方法，其中，针对所述一轮或多轮中间评价中的至少一轮中间评价，向所述多个人类评价者中的每个人类评价者提供所述多个中间评价包括向其他人类评价者提供从所述多个人类评价者接收的在所述胸部射线照片上的相应视觉标记。

14.根据权利要求11、12或13所述的方法，其中，针对所述一轮或多轮中间评价中的至少一轮中间评价，所述多个人类评价者中的每个人类评价者对其他人类评价者是匿名的。

15.一种计算系统，包括在任一前述权利要求中描述的对所述训练数据集进行训练的一个或多个机器学习模型。

16.一种用于当评价关于胸部射线照片的机器学习模型性能时执行逆概率加权的方法，所述方法包括：

针对参考数据集中包括的多个参考示例中的一个或多个参考示例：

由一个或多个计算设备获得由一个或多个机器学习模型为参考胸部射线照片生成的输出，其中，所述输出指示所述参考胸部射线照片是否描绘一个或多个胸部病症；

由所述一个或多个计算设备访问与所述参考胸部射线照片相关联的标签；以及

由所述一个或多个计算设备至少部分地基于所述输出与所述标签的比较来为所述参考胸部射线照片评价所述一个或多个机器学习模型的加权性能，其中，使用与关联于所述参考示例的富集量成反比的权重值对所述加权性能进行加权。

17.根据权利要求16所述的方法，其中：

所述参考数据集包括父数据集的子集；以及

每个参考示例的权重值等于与所述参考示例相关联的分组中包括的所述父数据集中包括的示例的数量除以包括在所述参考数据集中并且包括在与所述参考示例相关联的分组中的参考示例的数量。

18.根据权利要求17所述的方法，其中，与所述参考示例相关联的分组包括具有与所述参考示例相同的标签的所有参考示例。

19.根据权利要求16或17或18所述的方法，其中，所述参考数据集包括用于在训练过程之后测试所述一个或多个机器学习模型的性能的测试数据集。

20.根据权利要求16或17或18或19所述的方法，其中，所述参考数据集包括用于训练所述一个或多个机器学习模型的训练数据集，并且其中，所述加权性能包括加权损失。

21.根据权利要求20所述的方法，还包括由所述一个或多个计算设备至少部分地基于加权损失来训练所述一个或多个机器学习模型。

22.根据权利要求17-21中任一项所述的方法，其中，所述父数据集展现群体级别分布。