CN112868068A

CN112868068A - 使用利用其它模式训练的机器学习模型处理眼底相机图像

Info

Publication number: CN112868068A
Application number: CN201880098753.7A
Authority: CN
Inventors: 丽莉·浩·仪·彭; 达莱·R·韦伯斯特; 阿维纳什·维迪亚纳坦·瓦拉达拉扬; 皮纳尔·巴维希
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2021-05-28
Anticipated expiration: 2038-10-17
Also published as: WO2020081075A1; US20210357696A1; EP3850638B1; EP3850638A1; US11894125B2; CN112868068B

Abstract

方法、系统和设备，包括在计算机存储介质上编码的计算机程序，用于训练眼底图像处理机器学习模型，所述眼底图像处理机器学习模型被配置成处理由眼底相机捕获的一个或多个眼底图像以生成预测标签。所述方法中的一个包括生成训练数据，包括：接收由眼底相机捕获的一个或多个训练眼底图像的集合；对于所述集合中的每个集合，接收地面真值标签，所述地面真值标签被分配给已使用不同成像模式捕获的与该集合相对应的所述患者的所述眼睛的不同图像；以及对于训练眼底图像的每个集合，生成训练示例，所述训练示例包括训练眼底图像的所述集合联合分配给所述患者眼睛的所述不同图像的所述地面真值标签；以及在所述训练数据中的所述训练示例上训练所述机器学习模型。

Description

使用利用其它模式训练的机器学习模型处理眼底相机图像

背景技术

本说明书涉及使用机器学习模型来处理图像。

机器学习模型接收输入并且基于接收到的输入生成输出，例如预测输出。一些机器学习模型是参数模型，并且基于接收到的输入以及基于模型的参数值生成输出。

一些机器学习模型是深度模型，所述深度模型采用多层模型针对接收到的输入生成输出。例如，深度神经网络是一种深度机器学习模型，所述深度机器学习模型包括输出层和一个或多个隐藏层，每个隐藏层将非线性变换应用于接收到的输入以生成输出。

一些神经网络是递归神经网络。递归神经网络是接收输入序列并且从输入序列生成输出序列的神经网络。具体来说，在从输入序列中的当前输入生成输出时，递归神经网络在处理输入序列中的前一输入之后使用网络的一些或全部内部状态。

发明内容

本说明书通常描述一种通过使用眼底图像处理机器学习模型处理包括使用眼底相机获取的患者的一个或多个眼底图像的数据来生成患者的健康分析数据的系统。

可以实施本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。

健康分析系统可以有效地训练机器学习模型，以仅使用由眼底相机捕获的患者眼睛的视网膜的一个或多个图像来做出与患者的健康的某一方面相关的预测。具体来说，系统可以使用分配给通过不同模式捕获的图像的标签来训练模型。此不同模式可以显著不同于眼底相机，例如类似于光学相干断层扫描(OCT)的三维成像模式，或使用射线照相术捕获眼睛图像的模式。具体来说，不同模式生成的图像通常比眼底相机生成的图像对专业人员更具信息性，但是具有妨碍其在筛查现场广泛使用的缺点。换句话说，眼底相机的制造、购买和维护相对便宜，并且易于使用。另一方面，另一成像模式可能(i)比典型的眼底相机更贵，(ii)比典型的眼底相机具有更复杂的操作流程，(iii)在测试位置比典型的眼底相机更不容易获得，和/或(iv)比用眼底相机拍摄眼底图像对患者更有害。因此，尽管可以更容易地将眼底相机部署到筛查现场，即使在特别偏远或资源受限的位置，但是其它成像模式在大多数筛查现场通常也不可用。通过使用分配给使用这些其它模式捕获的图像的标签来训练机器学习模型，训练模型可以生成高度精确的预测标签，即使在训练之后仅通过眼底相机捕获的图像可用，即，使用其它模式捕获的图像不可用。因此，在训练之后，可以将模型布置在筛查现场进行高度精确的预测，而不会产生费用、复杂的工作流程、潜在的患者伤害或与其它模式相关联的其它因素。

具体来说，使用在本说明书中描述的技术训练的眼底图像处理机器学习模型可以生成预测标签，所述预测标签不仅比通过使用先前已知技术生成的模型(即，在分配给眼底相机图像的标签上训练的模型)预测的标签更精确，而且比人类专家从通过该模型处理的相同眼底图像生成的标签更精确。因此，机器学习模型从分配给其它成像模式特征的标签中学习，这些标签以前被认为只能从其它模式的图像中辨别。

在下表1中显示的结果中，可以看到当使用分配给OCT图像的标签预测DME时由所描述模型获得的精度水平的示例。表1示出使用所描述的训练技术训练的模型(OCT模型)、使用先前已知的训练技术训练的模型(HE模型)和三位人类专家(专家1、专家2和专家3，三位受过训练的视网膜专家)的性能水平。具体来说，根据整个临床验证集(1033个模型输入)计算表1中针对两个模型示出的结果，而对于视网膜专家，仅在标记为可分级的图像上计算结果。从表1中可以看到，关于各种度量(阳性预测值、阴性预测值、敏感性和特异性)，OCT模型的性能远超于人类专家和先前已知模型的性能，尽管两个模型和人类专家只能使用眼底相机图像作为输入(或者，在人类专家的情况下，分析的来源)。

表1、CI＝置信区间

在附图和以下具体实施方式中阐述本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将从具体实施方式、附图和权利要求书变得显而易见。

附图说明

图1A示出示例眼底图像分析系统。

图1B示出示例训练系统。

图2A是用于生成健康分析数据的示例过程的流程图。

图2B是用于训练眼底图像处理机器学习模型的示例过程的流程图。

图2C示出通过眼底图像处理机器学习模型处理示例眼底图像。

图3是用于生成特定于特定医学状况的健康分析数据的示例过程的流程图。

图4是用于生成识别患者后续动作的健康分析数据的示例过程的流程图。

图5是用于生成预测医学状况的可能进展的健康分析数据的示例过程的流程图。

图6是用于生成预测给定患者的医学状况的合适治疗的健康分析数据的示例过程的流程图。

图7是用于生成包括预测眼底图像的健康分析数据的示例过程的流程图。

图8是用于生成预测健康事件发生的风险的健康分析数据的示例过程的流程图。

图9是用于生成表征患者的整体健康的健康分析数据的示例过程的流程图。

图10是用于生成包括一个或多个风险因素的预测值的健康分析数据的示例过程的流程图。

图11是用于生成健康分析数据的示例过程的流程图，所述健康分析数据包括识别在生成预测标签时由机器学习模型关注的眼底图像中的位置的数据。

在各个附图中的相似参考数字和标号指示相似的元件。

具体实施方式

本说明书通常描述一种可以从包括使用眼底相机捕获的患者眼睛的一个或多个眼底图像的输入来生成患者的健康分析数据的系统。眼底图像是患者的一只眼睛的眼底照片。眼睛的眼底是眼睛与晶状体相对的表面，并且包括视网膜和视盘等。

一般来说，为了生成给定患者的健康分析数据，系统使用眼底图像处理机器学习模型处理一个或多个眼底图像，以生成患者的预测标签，然后从预测标签生成健康分析数据。如下文将更详细地描述，预测标签是表征患者的健康的预测。

具体来说，系统在包括标记的训练眼底图像的训练数据上训练眼底图像处理机器学习模型。也就是说，训练数据包括一个或多个训练眼底图像的多个集合，并且每个集合与识别预测标签的地面真值标签相关联，机器学习模型应针对训练眼底图像集合生成所述预测标签。有利地，当将地面真值标签分配给训练眼底图像时，系统利用不同成像模式。例如，系统可以将标签分配给从光学相干断层扫描(OCT)检查生成的训练眼底图像。

在训练模型之后，即在推理时，即使来自其它成像模式的图像在推理时不可用，也可以在来自眼底相机的图像上使用该模型以生成高质量的预测标签。

图1A示出示例眼底图像分析系统100。眼底图像分析系统100是实施为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，在所述位置中可以实施下文描述的系统、组件和技术。

对于给定患者，眼底图像分析系统100接收包括患者眼睛的一个或多个眼底图像的眼底图像数据122，并且生成表征患者健康的健康分析数据142。

在一些实施方案中，眼底图像分析系统100包括眼底图像捕获系统110或与眼底图像捕获系统110通信，所述眼底图像捕获系统生成眼底图像并且将眼底图像作为输入眼底图像数据122提供到眼底图像分析系统。具体来说，眼底图像捕获系统110包括一个或多个图像捕获装置，例如图像捕获装置120，所述图像捕获装置被配置成捕获患者眼底的图像。一般来说，图像捕获装置120是专用眼底相机，所述眼底相机被配置成例如使用彩色眼底摄影、立体摄影、广角或超广角摄影或扫描激光检眼镜(SLO)来捕获合适类型的眼底图像。眼底相机通常包括附接到相机的显微镜，所述相机例如使用彩色眼底摄影、立体摄影、广角或超广角摄影或SLO来捕获合适类型的图像。这种简单布置允许以相对简单的方式捕获患者眼底的眼底图像。在一些情况下，图像捕获系统110包括捕获不同类型的眼底图像的多个图像捕获装置。

在其它实施方案中，眼底图像分析系统100例如通过数据通信网络从外部系统接收输入眼底图像数据122。

眼底图像分析系统100使用眼底图像处理机器学习模型130处理输入眼底图像数据122以及任选地处理给定患者的其它数据。眼底图像处理机器学习模型130是配置成处理输入眼底图像数据122以及任选地处理其它患者数据124以生成表征患者健康的预测标签132的机器学习模型。

眼底图像数据122中有多少眼底图像，系统100是否接收到其它患者数据124，以及如果是，则接收到的其它患者数据124的性质以及预测标签132的构成取决于眼底图像处理机器学习模型130的配置。下文参考图2至9更详细地描述眼底图像数据、机器学习模型130的示例配置，以及预测标签132的示例构成。

眼底图像分析系统100还包括患者健康分析子系统140，所述患者健康分析子系统接收预测标签132并且生成患者健康分析数据142。通常，患者健康分析子系统140生成健康分析数据，所述健康分析数据以可以呈现给系统用户的方式表征预测标签。患者健康分析子系统140然后可以提供健康分析数据142，以在例如患者的用户计算机上或医学专家的计算机上的用户界面中呈现给用户，存储健康分析数据142以供未来使用，或提供健康分析数据142以用于一些其它直接目的。

在一些实施方案中，眼底图像分析系统100通过数据通信网络从用户计算机的远程用户接收对患者健康分析数据142的请求。例如，用户计算机(例如，其上实施眼底图像捕获系统110的计算机)可能够通过向眼底图像分析系统100提供眼底图像数据作为进行应用程序接口(API)调用的一部分而通过数据通信网络向眼底图像分析系统100提交请求。响应于API调用，眼底图像分析系统100可以生成健康分析数据142并且通过数据通信网络将健康分析数据传送到用户计算机。

另外，在一些实施方案中，机器学习模型130由远离眼底图像分析系统100的一个或多个计算机实施。在这些实施方案中，眼底图像分析系统100可以通过在包括机器学习模型130的输入的网络上进行API调用来访问机器学习模型130，并且可以响应于API调用而接收预测标签132。

尽管本说明书中的描述总体上描述生成特定预测标签的单个机器学习模型130，但是在一些情况下，系统100包括用于给定种类的预测标签的多个机器学习模型的集合体或与多个机器学习模型的集合体通信。每个机器学习模型130生成相同种类的预测标签，并且系统100或另一系统可以例如通过计算预测标签的集中趋势度量(例如，平均值、中间值、最小值或最大值)来组合由集合体生成的预测标签。然后，系统100可以将组合的输出视为预测标签132。

眼底图像分析系统100还包括训练系统150，所述训练系统150训练机器学习模型130以生成预测标签，即训练机器学习模型以调整该模型的参数值来提高由该模型进行的预测的精度。一旦训练了模型130，眼底图像分析系统100就可以使用模型参数的训练值对新患者进行预测。

具体来说，训练系统150在包括标记的训练眼底图像的训练数据上训练眼底图像处理机器学习模型130。也就是说，训练数据中的每个训练眼底图像与识别预测标签的地面真值标签相关联，机器学习模型应针对该训练眼底图像生成所述预测标签。有利地，当将地面真值标签分配给训练眼底图像时，系统利用不同成像模式。如下文将参考图1B更详细地描述，系统获得分配给患者眼睛的图像的地面真值标签，所述图像使用不同成像模式捕获，并且将这些标签与使用眼底相机捕获的对应训练眼底图像相关联。因此，在训练之后，与直接在分配给眼底相机图像的标签上训练的模型相比，所述模型展现出大大提高的性能。

图1B示出示例训练系统150。训练系统150是实施为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，在所述位置中可以实施下文描述的系统、组件和技术。

训练系统150生成用于训练机器学习模型130的训练数据，然后使用生成的训练数据来训练模型130，即生成经训练的机器学习模型130。

如上所述，训练数据包括一个或多个训练眼底图像的多个集合，以及用于训练眼底图像的每个集合的相应地面真值标签。每个图像集合包括与配置成在进行预测时接收的模型相同数目和相同种类的图像。

为了生成训练数据，系统接收使用眼底相机捕获的一个或多个训练眼底图像152的多个集合。每个集合包括对应患者的眼睛的一个或多个图像。

对于多个集合中的每个集合，系统还获得地面真值标签154，所述地面真值标签已被分配给对应患者的眼睛，具体来说，对应患者的眼睛的视网膜(以及任选地周围组织)的不同图像。对应患者的眼睛的不同图像由不同模式捕获，即，不由眼底相机捕获。

通常，另一模式是具有以下特征中的一个或多个的模式：(i)比典型的眼底相机更贵，(ii)比典型的眼底相机具有更复杂的操作流程，(iii)在测试位置比典型的眼底相机更不容易获得，和/或(iv)比用眼底相机拍摄眼底图像对患者更有害。

换句话说，由另一成像模式捕获的图像通常对专业人员(例如，医师或其它临床医生)更具信息性，但是具有阻止另一成像模式广泛用作眼底相机的一个或多个缺点。

作为一个示例，另一成像模式可以是捕获三维图像(即，与由眼底相机捕获的二维图像相比)的成像模式。具体来说，这些成像模式可以捕获患者眼睛的视网膜的截面。此成像模式的示例是OCT。尽管OCT图像(还称为OCT检查)或另一三维图像通常比眼底相机图像对人类专家更具信息性，因为所述图像将眼底描绘为三维体积，但是与典型的眼底相机相比，OCT成像装置的购买和维护更昂贵且具有复杂得多的流程(即，可能需要专门训练的专业人员)。因此，与眼底相机相比，OCT成像装置在评估患者健康的筛查现场不太容易使用。

作为另一示例，另一成像模态可以是捕获患者眼睛的射线照片的射线照相设备，即X射线机器。尽管射线照片通常比眼底相机图像对人类专家更具信息性，但是与眼底相机图像相比，X射线机器的购买和维护更昂贵，具有更复杂的流程并且将患者暴露于更高水平的辐射，即，可能对患者更有害。

作为另一示例，另一成像模式可以是低剂量计算断层扫描模式，即，x射线设备和后处理计算机系统的组合。尽管低剂量计算断层扫描成像过程产生的截面图像通常比眼底相机图像对人类专家更具信息性，但是与眼底相机相比，相关联机械的购买和维护更昂贵，具有更复杂的流程并且将患者暴露于更高水平的辐射，即可能对患者更有害。

在一些情况下，系统接收地面真值标签，即由人类专家通过查看对应的另一模态图像而生成的地面真值标签。例如，系统或另一系统可以提供用户界面以供在专家用户的计算机上呈现，所述用户界面允许用户在查看另一模式图像时生成地面真值标签。

在一些其它情况下，系统接收另一模式图像并使用另一模式机器学习模型处理所述另一模式图像，所述机器学习模型被配置成生成与眼底图像处理机器学习模型相同类型的预测标签，但是通过处理其它模式图像，而不是眼底相机图像来实现。

在任一种情况下，地面真值标签基于其它模式图像来生成，因此利用可从这些图像获得的附加信息，其在眼底相机图像中(对于人类专家而言)不可用。

系统150然后对于一个或多个训练眼底图像的每个集合生成训练示例，所述训练示例包括(i)一个或多个训练眼底图像的集合联合(ii)地面真值标签，所述地面真值标签被分配给已使用不同成像模式捕获的与该集合相对应的患者眼睛的视网膜的不同图像。在一些情况下，作为生成训练示例的一部分，系统可以如下文参考图2A所描述预处理一个或多个训练眼底图像。

在已生成训练数据后，训练系统150使用监督学习技术在训练数据上训练模型130，以通过处理一个或多个训练眼底图像的集合来生成预测标签，所述预测标签与关联于该集合的地面真值标签相匹配。这通过使用监督学习技术从模型参数的初始(例如随机初始化或根据另一种机器学习参数初始化技术初始化)值确定模型参数的训练值来实现。例如，如果模型130是前馈神经网络，则系统150可以使用具有后向传播的随机梯度下降来训练模型以最小化损失函数。作为另一示例，如果模型130是递归神经网络，则系统150可以使用定时后向传播或截短的定时后向传播来训练模型以最小化损失函数。相对于地面真值标签，损失函数可以是例如最大似然损失或交叉熵损失。

训练系统150然后将模型参数的训练值提供到推理系统，以用于预测新患者的标签，或者如果训练系统150与推理系统在同一组计算机上，则使用训练模型来预测新患者的标签。

图2A是用于生成健康分析数据的示例过程200的流程图。为了方便起见，过程200将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程200。

系统接收输入眼底图像数据以及任选地其它患者数据(步骤202)。

一般来说，眼底图像数据包括患者眼睛的一个或多个眼底图像。

在一些实施方案中，眼底图像数据包括单个眼底图像，例如捕获患者眼底的当前状态的图像。

在一些其它实施方案中，眼底图像数据包括捕获患者眼底的当前状态的多个眼底图像。例如，眼底图像数据可以包括在患者左眼中的眼底的一个或多个图像，以及在患者右眼中的眼底的一个或多个图像。作为另一示例，眼底图像可以包括多个不同类型的眼底照片。例如，眼底图像可以包括以下项中的两个或更多个：彩色眼底照片、立体眼底照片、广角或超广角眼底照片，或扫描激光检眼镜(SLO)眼底照片。作为又一示例，眼底图像可以包括使用不同成像技术(例如光学相干断层扫描(OCT)和海德堡视网膜断层扫描(HRT))捕获的多个图像。

在又其它实施方案中，眼底图像数据包括捕获眼底的状态如何随时间演变的眼底图像的时间序列。也就是说，时间序列包括多个眼底图像，其中每个眼底图像在不同时间拍摄。在一些实施方案中，眼底图像以从最早到最近的时间序列排序。

其它患者数据是表征患者的眼睛的数据、通常表征患者的数据，或两者。例如，其它患者数据可以包括：眼部测量数据，例如眼压、视野、视敏度、角膜中央厚度等；患者人口统计信息，例如年龄、性别、种族、家族史等，或两者。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据以及任选地其它患者数据，以生成预测标签(步骤204)。已使用参考图1B描述的技术训练眼底图像处理机器学习模型。

任选地，在使用机器学习模型处理眼底图像数据之前，系统可以预处理眼底图像。例如，对于给定图像，系统可以将各种常规图像处理技术中的任一个应用于图像，以提高由机器学习模型生成的输出的质量。作为示例，系统可以对图像进行裁剪、缩放、偏斜校正或重新居中。作为另一示例，系统可以使用常规图像处理技术从图像中去除失真，例如，去除模糊或重新聚焦图像。

在眼底图像数据包括单个眼底图像的实施方案中，眼底图像处理机器学习模型是前馈机器学习模型，所述前馈机器学习模型已通过在适当标记的训练数据上进行训练而配置，以处理眼底图像数据以及任选地其它患者数据，从而生成表征患者健康的特定方面的预测标签。例如，眼底图像处理机器学习模型可以是深度卷积神经网络。在Szegedy、Christian等人的“通过卷积深入研究”(计算机视觉和模式识别IEEE会议的会议记录，2015年)中描述深度卷积神经网络的示例，可以训练所述深度卷积神经网络以处理眼底图像，从而生成在本说明书中描述的预测标签。在Szegedy、Christian等人的可在http://arxiv.org/abs/1602.07261处获得的“Inception-v4、Inception-ResNet和残余连接对学习的影响”中描述深度卷积神经网络的其它示例，包括具有残余连接的卷积神经网络，可以训练所述深度卷积神经网络以处理眼底图像，从而生成在本说明书中描述的预测标签。

在眼底图像数据包括表征患者眼底的当前状态的多个眼底图像的实施方案中，眼底图像处理机器学习模型可以是前馈眼底图像处理机器学习模型，所述前馈眼底图像处理机器学习模型已通过在适当标记的训练数据上进行训练而配置，以处理所有眼底图像，从而生成表征患者健康的特定方面的预测标签。例如，眼底图像处理机器学习模型可以是包括多个卷积层塔的深度卷积神经网络。在Yue-Hei Ng、Joe等人的“超过简短片段：用于视频分类的深度网络”(计算机视觉和模式识别IEEE会议的会议记录，2015年)中描述深度卷积神经网络的示例，可以训练所述深度卷积神经网络以处理多个眼底图像，从而生成在本说明书中描述的预测标签。

在眼底图像数据包括眼底图像的时间序列的实施方案中，眼底图像处理机器学习模型可以是递归眼底图像处理机器学习模型，所述递归眼底图像处理机器学习模型已被配置成逐个处理时间序列中的每个图像，以对于每个图像更新递归眼底图像处理机器学习模型的内部状态，并且在已处理时间序列中的最后一个图像之后，生成表征患者健康的特定方面的预测标签。例如，眼底图像处理机器学习模型可以是包括一个或多个长短期记忆(LSTM)层的递归神经网络。在Venugopalan、Subhashini等人的“序列到序列视频到文本”(计算机视觉IEEE国际会议的会议记录，2015年)中描述递归神经网络，可以训练所述递归神经网络以处理一系列眼底图像以生成在本说明书中描述的预测标签。

在一些实施方案中，预测标签特定于特定医学状况。下文参考图3至6更详细地描述特定于特定医学状况的预测标签。

在一些其它实施方案中，预测标签是对患者眼睛的眼底的未来状态的预测。下文参考图7更详细地描述作为对眼底的未来状态的预测的预测标签。

在又其它实施方案中，预测标签是对将来发生特定健康事件的风险的预测。下文参考图8更详细地描述作为对发生特定事件的风险的预测。

在又其它实施方案中，预测标签表征患者的整体健康。下文参考图9更详细地描述表征患者的整体健康的预测标签。

在又其它实施方案中，预测标签是对导致特定种类的健康相关风险的因素值的预测。下文参考图10更详细地描述作为对风险因素值的预测的预测标签。

系统从预测标签生成健康分析数据(步骤206)。通常，健康分析数据以可以呈现给系统用户的方式表征预测标签。

在一些实施方案中，健康分析数据还包括从机器学习模型的中间输出导出的数据，所述中间输出解释当生成预测标签时机器学习模型所关注的一个或多个眼底图像的部分。具体来说，在一些实施方案中，机器学习模型包括注意力机制，所述注意力机制将相应的注意力权重分配给输入眼底图像的多个区域中的每个区域，然后根据注意力权重关注从这些区域提取的特征。在这些实施方案中，系统可以生成识别注意力权重的数据，并且包括所生成的数据作为健康分析数据的一部分。例如，所生成的数据可以是反映分配给图像区域的注意力权重的眼底图像的注意力图。例如，注意力图可以覆盖在眼底图像上，以识别在生成预测标签时机器学习模型所关注的患者眼底的区域。下文参考图11更详细地描述生成识别机器学习模型所关注的眼底的区域的数据。

系统然后可以提供健康分析数据以在例如患者的用户计算机上或医学专家的计算机上的用户界面中呈现给用户，或存储健康分析数据以供未来使用。

图2B是用于训练眼底图像处理机器学习模型的示例过程260的流程图。为了方便起见，过程260将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的训练系统(例如，图1的训练系统100)可以执行过程260。

系统接收通过眼底相机捕获的一个或多个训练眼底图像的多个集合(步骤262)。眼底图像的每个集合对应于相应患者，即在给定集合内的所有图像具有相同患者，并且集合中的每个训练眼底图像是与所述集合相对应的患者眼睛的图像。

对于多个集合中的每个集合，系统接收地面真值标签(步骤264)。有利地，地面真值标签是被分配给患者眼睛的不同图像的地面真值标签，所述图像与已使用不同于眼底相机的成像模式捕获的集合相对应。例如，可能已通过人类分值者或通过上述不同地训练的机器学习模型分配标签。

对于一个或多个训练眼底图像的每个集合，系统生成训练示例，所述训练示例包括(i)一个或多个训练眼底图像的该集合联合(ii)地面真值标签，所述地面真值标签被分配给已使用不同成像模式捕获的与该集合相对应的患者眼睛的不同图像(步骤266)。

系统在训练数据中的训练示例上训练眼底图像处理机器学习模型，以通过处理一个或多个训练眼底图像的集合来生成预测标签，所述预测标签与关联于该集合的地面真值标签相匹配(步骤268)。换句话说，系统使用机器学习训练技术调整模型参数值以最小化损失函数。

系统提供指定经训练的眼底图像处理机器学习模型的数据，以用于生成新眼底图像的预测标签(步骤270)。也就是说，系统可以提供训练模型参数值，以及任选地指定经训练的机器学习模型的架构的其它数据。系统可以将数据提供到另一系统，即推理系统，以便使其它系统能够部署训练模型以用于生成预测标签。替代地或另外，系统可以使用训练模型以使用所提供的数据生成预测标签，而不需要将数据传送到外部系统。

图2C示出通过眼底图像处理机器学习模型130处理示例眼底图像250。具体来说，在图1B的示例中，眼底图像处理机器学习模型130是深度卷积神经网络，所述深度卷积神经网络被配置成接收眼底图像250并且处理眼底图像250，以生成表征患者健康的特定方面的预测标签。已使用上文参考图1B描述的技术训练眼底图像处理机器学习模型130。

图2C中说明的卷积神经网络是深度卷积神经网络的简化示例，并且包括一组卷积神经网络层162，随后是一组完全连接层164，以及输出层166。应理解，实际上，深度卷积神经网络可以包括其它类型的神经网络层，例如，池化层、归一化层等，并且可以例如作为多个模块、多个子网络等布置在各种配置中。

在通过卷积神经网络处理眼底图像250期间，输出层166接收由所述一组完全连接层164中的最后一个完全连接层生成的输出，并且生成眼底图像150的预测标签。在图2C的示例中，预测标签是一组分值170，其中每个分值由输出层166中的对应节点生成。如下文将更详细地描述，在一些情况下，所述一组分值170特定于特定医学状况。在一些其它情况下，所述一组分值170中的每个分值是对将来发生相应健康事件的风险的预测。在又其它情况下，所述一组分值170中的分值表征患者的整体健康。

在已生成所述一组分值170后，眼底图像分析系统从分值170生成表征患者健康的某一方面的患者健康分析数据，并且提供健康分析数据以在例如患者的用户计算机上或医学专家的计算机上的用户界面中呈现给用户，存储健康分析数据以供未来使用，或提供健康分析数据以用于一些其它直接目的。

图3是用于生成特定于特定医学状况的健康分析数据的示例过程300的流程图。为了方便起见，过程300将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程300。

系统接收输入眼底图像数据以及任选地其它患者数据(步骤302)。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据以及任选地其它患者数据，以生成一组状况状态分值(步骤304)。

通常，所述一组状况状态分值特定于系统已被配置成分析的特定医学状况。

在一些实施方案中，医学状况是特定眼睛相关状况。

例如，特定眼睛相关状况可以是糖尿病黄斑水肿(DME)。DME是黄斑中液体积聚并且可能导致失明。

作为另一示例，特定眼睛相关状况可以是青光眼。通常，青光眼是视神经受损的状况，这可能导致失明。

作为另一示例，特定眼睛相关状况可以是老年性黄斑变性。通常，老年性黄斑变性是黄斑(视网膜中心附近的区域)已经恶化的状况，这可能导致部分或全部视力丧失。

作为另一示例，特定眼睛相关状况可以是视网膜脱落。通常，视网膜脱落是视网膜从其支撑组织的下层部分或完全脱落的病症。

作为另一示例，特定眼睛相关状况可以是眼部阻塞。通常，眼部阻塞是将血液输送到眼睛的某些部分或从眼睛的某些部分输送血液(例如，将血液输送到视网膜或从视网膜输送血液)的血管的阻塞或闭合。

作为另一示例，特定眼睛相关状况可以是眼睛中存在特定种类的积液，例如视网膜下积液、或视网膜内积液，或两者。

在一些实施方案中，模型针对多个不同的眼睛相关状况生成单独预测。也就是说，模型针对多个眼睛相关状况中的每个进行单独预测。在这些情况下，训练系统以多任务方式训练模型，并且用于训练输入图像的每个集合的地面真值标签包括多个状况中的每个状况的相应地面真值标签。

在一些其它实施方案中，特定状况不是眼睛相关状况，而是神经退行性状况，例如，帕金森氏症或阿尔茨海默氏症，或者可以使用眼底图像进行有效分析的另一种状况。

在一些实施方案中，所述一组状况状态分值包括表示患者患有医学状况的可能性的单个分值。

作为示例，在DME的情况下，单个分值可以表示患者患有DME的可能性。

作为另一示例，在青光眼的情况下，单个分值可以表示患者患有青光眼的可能性。

作为另一示例，在老年性黄斑变性的情况下，单个分值可以表示患者患有老年性黄斑变性的可能性。

作为另一示例，在视网膜脱落的情况下，单个分值可以表示患者患有视网膜脱落的可能性。

作为另一示例，在眼部阻塞的情况下，单个分值可以表示患者患有一个或多个眼部阻塞的可能性。

作为另一示例，在神经退行性状况的情况下，单个分值可以表示患者患有神经退行性状况(例如，帕金森氏症或阿尔茨海默氏症)的可能性。

在一些其它实施方案中，所述一组状况状态分值包括针对医学状况的多个可能水平中的每个的相应分值，其中每个状况分值表示对应水平是患者状况的当前水平的可能性。

例如，在DME的情况下，所述一组分值可以包括无DME、轻度或早期DME、中度DME、重度DME，以及任选地未确定或未指定阶段的分值。

作为另一示例，在青光眼的情况下，所述一组分值可以包括无青光眼、轻度或早期青光眼、中度青光眼、重度青光眼，以及任选地未确定或未指定阶段的分值。

作为另一示例，在老年性黄斑变性的情况下，所述一组分值可以包括无黄斑变性、早期黄斑变性、中度黄斑变性、晚期黄斑变性，以及任选地未确定或未指定阶段的分值。

作为另一示例，在视网膜脱落的情况下，所述一组分值可以包括无视网膜脱落、初始视网膜脱落(即，仅视网膜撕裂或视网膜断裂)、晚期视网膜脱落，以及任选地未确定或未指定阶段的分值。

作为另一示例，在眼部阻塞的情况下，所述一组分值可以包括无眼部阻塞、轻微眼部阻塞、重度眼部阻塞，以及任选地未确定或未指定阶段的分值。

作为另一示例，在神经退行性状况的情况下，所述一组分值可以包括未患有神经退行性状况的分值、神经退行性状况的多个阶段中的每个以及任选地未确定或未指定阶段的分值。

系统从状况状态分值生成健康分析数据(步骤306)。例如，系统可以生成健康分析数据，所述健康分析数据识别患者患者医学状况的可能性或识别患有最高状况状态分值的一个或多个状况水平。

图4是用于生成识别患者后续动作的健康分析数据的示例过程400的流程图。为了方便起见，过程400将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程400。

系统接收输入眼底图像数据以及任选地其它患者数据(步骤402)。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据以及任选地其它患者数据，以生成一组后续分值(步骤404)。如上文参考图1B所描述已训练模型。

所述一组后续分值包括患者可以采取来治疗特定医学状况的多个可能后续动作中的每个的相应分值。例如，所述一组可能后续动作可以包括将来执行重新筛查，将来去看医生，以及立即去看医生。每个后续分值表示对应后续动作是为有效治疗医学状况而应采取的适当动作的可能性。

系统从后续分值生成健康分析数据(步骤406)。例如，系统可以生成建议患者采取具有最高后续分值的后续动作的健康分析数据。

图5是用于生成预测医学状况的可能进展的健康分析数据的示例过程500的流程图。为了方便起见，过程500将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程500。

系统接收输入眼底图像数据以及任选地其它患者数据(步骤502)。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据以及任选地其它患者数据，以生成一组进展分值(步骤504)。所述一组进展分值特定于系统已被配置成分析的特定医学状况。所述一组状况状态分值包括针对医学状况的多个可能水平中的每个的相应分值，其中每个状况分值表示对应水平是在预定未来时间(例如，6个月内、1年内或5年内)患者的状况水平的可能性。

例如，在青光眼的情况下，所述一组分值可以包括无青光眼、轻度或早期青光眼、中度青光眼和重度青光眼的分值，其中每个阶段的分值表示对应阶段是在将来患者的青光眼阶段的可能性。

作为另一示例，在老年性黄斑变性的情况下，所述一组分值可以包括无黄斑变性、早期黄斑变性、中度黄斑变性和晚期黄斑变性的分值，以及任选地其中每个阶段的分值表示对应阶段是在将来患者的黄斑变性阶段的可能性。

作为另一示例，在神经退行性状况的情况下，所述一组分值可以包括没有神经退行性状况的分值，以及神经退行性状况的多个阶段中的每个的分值，其中每个阶段的分值表示对应阶段是将来患者的状况阶段的可能性。

系统从进展分值生成健康分析数据(步骤506)。健康分析数据识别患者的医学状况的可能进展。例如，系统可以生成健康分析数据，健康分析数据识别可能状况水平中的一个或多个，并且对于每个可能的状况水平，识别对应水平是患者的未来状况水平的可能性。

图6是用于生成预测给定患者的医学状况的合适治疗的健康分析数据的示例过程600的流程图。为了方便起见，过程600将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程600。

系统接收输入眼底图像数据以及任选地其它患者数据(步骤602)。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据以及任选地其它患者数据，以生成一组治疗分值(步骤604)。

所述一组治疗分值包括针对给定医学状况的多个可能治疗中的每个的相应分值，其中每个治疗分值表示对应治疗是当前患者的状况的最有效治疗的可能性。

例如，所述一组治疗分值可以包括可以向患有医学状况的患者开出的多种药物中的每个的相应分值。

作为另一示例，所述一组治疗分值可以包括给定医学状况的多个治疗方案中的每个的相应分值，例如，用于一个或多个医疗手术的相应分值以及未经历手术而康复的分值。

系统从进展分值生成健康分析数据(步骤606)。例如，健康分析数据可以识别最高分值治疗中的一个或多个。

图7是用于生成包括预测眼底图像的健康分析数据的示例过程700的流程图。为了方便起见，过程700将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程700。

系统接收输入眼底图像数据以及任选地其它患者数据(步骤702)。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据以及任选地其它患者数据，以生成预测眼底图像(步骤704)。

预测眼底图像是预测在特定未来时间(例如，在六个月内、在一年内，或在五年内)看到的患者眼睛的眼底的图像。

例如，眼底图像处理机器学习模型可以是卷积神经网络，所述卷积神经网络通过训练配置成针对输入眼底图像中的每个像素，预测在特定未来时间像素的颜色。

作为另一示例，当眼底图像数据包括眼底图像的时间序列时，眼底图像处理机器学习模型可以是递归神经网络，所述递归神经网络通过训练配置成针对序列中的最近眼底图像中的每个像素，预测在未来特定时间像素的颜色。系统可以使用像素的预测颜色值来生成预测眼底图像。

系统从进展分值生成健康分析数据(步骤706)。例如，健康分析数据可以包括预测眼底图像以及任选地附加健康分析数据。

图8是用于生成预测健康事件发生的风险的健康分析数据的示例过程800的流程图。为了方便起见，过程800将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程800。

系统接收输入眼底图像数据以及任选地其它患者数据(步骤802)。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据以及任选地其它患者数据，以生成一组风险分值(步骤804)。

在一些实施方案中，所述一组风险分值包括测量特定种类风险的单个分值。例如，分值可以测量患者的预测心血管状况风险，例如，可以是测量患者的10年心血管状况风险的预测弗雷明汉风险分值。

在一些实施方案中，所述一组风险分值可以特定于特定不期望健康事件。

例如，不期望健康事件可以是心脏病、中风、死亡、住院、摔倒、术前或术后并发症等。在这些实施方案中的一些实施方案中，所述一组风险分值包括表示将来例如在指定未来时间窗内发生不期望健康事件的可能性的单个分值。在这些实施方案中的其它实施方案中，所述一组风险分值包括针对健康事件的多个风险水平(例如，低、中和高)中的每个的相应分值，其中每个风险分值表示对应风险水平发生健康事件的当前风险水平的可能性。

在又其它实施方案中，所述一组分值可以包括多个分值，其中每个分值对应于相应的不期望健康事件并且表示将来例如在指定未来时间窗内发生对应的不期望健康事件的可能性。

系统从风险分值生成健康分析数据(步骤806)。例如，在所述一组分值包括单个分值的实施方案中，健康分析数据可以识别单个分值。作为另一示例，在所述一组分值包括多个分值的情况下，健康分析数据可以识别最高分值风险水平。

图9是用于生成表征患者的整体健康的健康分析数据的示例过程900的流程图。为了方便起见，过程900将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程900。

系统接收输入眼底图像数据以及任选地其它患者数据(步骤902)。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据以及任选地其它患者数据，以生成一组保健分值(步骤904)。

在一些实施方案中，所述一组保健分值包括按预定比例测量患者的整体健康的单个分值。

在一些其它实施方案中，所述一组保健分值可以包括多个保健标签中的每个的相应分值，每个保健标签表征患者的总体健康。例如，保健标签可以是“非常健康”、“健康”、“有些不健康”和“非常不健康”。每个分值表示对应保健标签准确地表征患者的当前健康的可能性。因此，例如，保健标签“非常健康”的分值表示患者非常健康的可能性，而“有些不健康”标签的分值表示患者有些不健康的可能性。

系统从风险分值生成健康分析数据(步骤906)。例如，在所述一组分值包括单个分值的实施方案中，健康分析数据可以识别单个分值。作为另一示例，在所述一组分值包括多个分值的情况下，健康分析数据可以识别最高分值健康标签。

图10是用于生成包括一个或多个风险因素的预测值的健康分析数据的示例过程1000的流程图。为了方便起见，过程1000将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程1000。

系统接收包括一个或多个眼底图像的输入眼底图像数据(步骤1002)。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据，以生成一个或多个风险因素中的每个的相应预测值(步骤1004)。

每个风险因素是导致患者发生特定一组健康相关事件中的一个健康相关事件的风险的因素。例如，当风险是心血管状况风险时，特定一组健康相关事件可以是分类为主要心血管状况健康事件的健康事件，例如，心肌梗塞、心脏衰竭、心脏介入治疗、冠状动脉搭桥术、恶性心律不齐、心源性休克、植入式心脏复律除颤器、恶性心律失常、心脏相关的死亡等。

继续以心血管状况风险为例，风险因素可以包括以下项中的一个或多个：年龄、性别、体重指数、收缩压、舒张压、HbA1c(糖化血红蛋白)的测量值，或吸烟状态，即患者是否抽烟。

在一些实施方案中，系统采用多个机器学习模型，每个机器学习模型生成风险因素的不同子集的预测值。例如，一个模型可以生成可以仅采用两个值(例如，吸烟状态和性别)之一的二元风险因素的预测值，而另一种模型可以生成可以采用某个值范围内的连续值(例如年龄、体重指数和血压)的连续风险因素的预测值。这两个模型中的每个可能具有相似的架构，但是具有不同的参数值。

系统从预测值生成健康分析数据(步骤1006)。例如，健康分析数据可以识别每个所生成的预测值。在一些情况下，系统可以使用预测值来计算特定风险的度量，并且提供计算出的风险度量作为健康分析数据的一部分。例如，系统可以提供预测值作为被配置成预测风险度量的另一机器学习模型的输入或者硬编码公式的输入以获得所计算的度量。例如，在心血管状况风险的情况下，系统可以使用预测值计算弗雷明汉风险分值。或者，系统可以提供预测值作为已被训练以基于风险因素值预测风险度量的机器学习模型的输入。

图11是用于生成健康分析数据的示例过程1100的流程图，所述健康分析数据包括识别在生成预测标签时由机器学习模型关注的眼底图像中的位置的数据。为了方便起见，过程1100将被描述为通过位于一个或多个位置中的一个或多个计算机的系统执行。例如，经适当编程的眼底图像分析系统(例如，图1的眼底图像分析系统100)可以执行过程1100。

系统接收输入眼底图像数据以及任选地其它患者数据(步骤1102)。

系统使用眼底图像处理机器学习模型来处理输入眼底图像数据以及任选地其它患者数据，以生成预测标签(步骤1104)。预测标签可以是上文参考图2至10描述的预测标签中的任一个。

具体来说，机器学习模型可以是包括一个或多个初始卷积层，随后是注意力机制的模型，所述注意力机制之后进而是一个或多个附加神经网络层。

初始卷积层处理眼底图像数据中的每个眼底图像，以提取眼底图像中的多个区域中的每个的相应特征向量。

注意力机制确定眼底图像中的每个区域的注意力权重，然后根据对应的注意力权重关注特征向量以生成注意力输出。通常，注意力机制通过计算特征向量的加权和或加权平均值来关注特征向量，其中每个特征向量的权重是对应区域的注意力权重。为了确定注意力权重，系统可以使用多种注意力方案中的任一个来确定每个特征向量的相关性，以生成眼底图像的预测标签，然后将所确定相关性归一化以计算注意力权重。示例注意力方案包括：使用一个或多个完全连接层处理特征向量以确定相关性；以及通过计算特征向量与学习的上下文向量之间的余弦相似性来确定给定特征向量的相关性。在Xu等人的可在https://arxiv.org/abs/1502.03044处获得的“显示、关注和讲述：具有视觉注意力的神经图像字幕生成”中描述示例注意力机制，所述注意力机制可以适用于眼底图像处理机器学习模型。

遵循注意力机制的附加神经网络层接收每个眼底图像的注意力输出，并且从注意力输出生成预测标签。例如，当机器学习模型是递归神经网络时，附加神经网络层包括一个或多个递归层。当机器学习模型是卷积神经网络时，附加神经网络层可以包括卷积神经网络层、完全连接层，或其它卷积前馈神经网络层。

系统从风险分值生成健康分析数据(步骤1106)。具体来说，如上所述，健康分析数据以可以呈现给系统用户的方式表征预测标签。

另外，健康分析数据包括表征机器学习模型所关注以生成预测标签的眼底图像的区域的数据。具体来说，健康分析数据包括识别分配给眼底图像中的区域的注意力权重的数据。例如，系统可以生成注意力图，对于眼底图像中的每个像素，所述注意力图识别分配给像素的注意力权重，即，像素所属的图像区域的注意力权重。例如，注意力图可以是将注意力权重表示为颜色的热图。在一些实施方案中，系统提供注意力图作为对应眼底图像的覆盖。

本说明书结合系统和计算机程序组件使用术语“配置的”。对于要配置成执行特定操作或动作的一个或多个计算机的系统，意味着所述系统已在其上安装在操作时使系统执行操作或动作的软件、固件、硬件或它们的组合。对于要配置成执行特定操作或动作的一个或多个计算机程序，意味着一个或多个程序包括当由数据处理设备执行时使设备执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路、在有形地实施的计算机软件或固件、在计算机硬件，包括本说明书中所公开的结构以及其结构等效物，或在其中的一者或多者的组合中实施。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序，即，在有形的非暂时性存储介质上编码以供数据处理设备执行或控制数据处理设备的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储装置、机器可读存储衬底、随机或串行存取存储器装置，或其中的一者或多者的组合。替代地或另外，程序指令可以在例如机器产生的电信号、光信号或电磁信号等人为产生的传播信号上编码，产生所述人为产生的传播信号以对传输到合适接收器设备以供数据处理设备执行的信息进行编码。

术语“数据处理设备”是指数据处理硬件并且涵盖用于处理数据的所有种类的设备、装置和机器，包括例如可编程处理器、计算机，或多个处理器或计算机。设备还可以是或可以进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，设备还可以任选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统，或其中的一者或多者的组合的代码。

也可以称为或描述为程序、软件、软件应用程序、应用程序、模块、软件模块、脚本或代码的计算机程序可以用任何形式的编程语言编写，包括编译或解释性语言，或声明性或程序性语言；并且它可以以任何形式进行部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其它单元进行部署。机程序可以(但不需要)对应于文件系统中的文件。程序可以存储在文件的一部分中，所述文件将其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)保存在专用于所讨论的程序的单个文件中，或多个协调文件(例如，存储一个或多个模块、子程序或代码的一部分的文件)中。计算机程序可以被部署为在一个计算机上或在多个计算机上执行，所述多个计算机位于一个位置处或跨越多个位置分布并且通过通信网络互连。

在本说明书中，术语“数据库”广泛地用于指代任何数据集合：数据不需要以任何特定方式进行结构化或根本不需要结构化，并且数据可以在一个或多个位置中存储在存储装置上。因此，例如，索引数据库可以包括多个数据集合，每个数据集合可以被不同地组织和访问。

类似地，在本说明书中，术语“引擎”广泛地用于指代编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常，引擎将被实施为在一个或多个位置中安装在一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定引擎；在其它情况下，多个引擎可以安装在相同的一个或多个计算机上并在相同的一个或多个计算机上运行。

本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过在输入数据上操作并且产生输出来执行功能。所述过程和逻辑流程还可以通过专用逻辑电路(例如，FPGA或ASIC)或者通过专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机可以基于通用或专用微处理器或两者，或者基于任何其它种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或实施指令的中央处理单元，以及用于存储指令和数据的一个或多个存储器装置。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储装置，或可操作地耦合以从所述一个或多个大容量存储装置接收数据或将数据传递到所述一个或多个大容量存储装置，或从所述一个或多个大容量存储装置接收数据且将数据传递到所述一个或多个大容量存储装置，所述一个或多个大容量存储装置例如，磁盘、磁光盘或光盘。然而，计算机不需要具有此类装置。此外，计算机可以嵌入另一装置中，例如，仅举几例，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储装置(例如，通用串行总线(USB)闪存驱动器)。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置，包括例如，半导体存储器装置，例如，EPROM、EEPROM和闪存存储器装置；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实施，所述计算机具有用于将信息显示给用户的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，以及键盘和指向装置(例如，鼠标或轨迹球)，用户可以通过所述键盘和指向装置将输入提供到计算机。其它种类的装置也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；以及从用户产生的输入可以用任何形式接收，包括声音、语音或触觉输入。另外，通过将文档发送到用户使用的装置以及从所述装置接收文档；例如，通过响应于从网络浏览器接收的请求而将网页发送到用户的装置上的网络浏览器，计算机可以与用户交互。此外，计算机可以通过将文本消息或其它形式的消息发送到个人装置(例如，运行消息传递应用程序的智能手机)，并进而从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理设备还可以包括例如，专用硬件加速器单元，用于处理机器学习训练或生产(即推理)工作负载的通用部分和计算密集型部分。

可以使用机器学习框架(例如TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架，或Apache MXNet框架)来实施和部署机器学习模型。

本说明书中描述的主题的实施例可以在计算系统中实施，所述计算系统包括后端组件，例如作为数据服务器；或包括中间件组件，例如应用程序服务器；或包括前端组件，例如具有图形用户界面、网络浏览器或应用程序的客户端计算机，用户可以通过所述客户端计算机与本说明书中描述的主题的实施方案交互；或包括一个或多个此后端、中间件或前端组件的任何组合。系统的组件可以通过数字数据通信，例如通信网络的任何形式或介质互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行以及彼此具有客户端-服务器关系的计算机程序产生。在一些实施例中，例如出于将数据显示给与用作客户端的装置交互的用户以及从所述用户接收用户输入的目的，服务器将数据(例如，HTML页)传输到用户装置。可以在服务器从装置接收在用户装置处(例如，由于用户交互)产生的数据。

尽管本说明书含有许多特定实施方案细节，但是这些细节不应解释为限制任何发明的范围或可以主张的内容的范围，而是对可能特定于特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各个特征也可以单独地在多个实施例中或在任何合适的子组合中实施。此外，尽管特征可以在上文描述为在某些组合中起作用且甚至初始地如此主张，但是来自所主张组合的一个或多个特征在一些情况下可以从所述组合中删除，并且所主张组合可以针对子组合或子组合的变体。

类似地，尽管在附图中以特定次序描绘操作并且在权利要求中以特定顺序叙述操作，但是这不应理解为需要按所示的特定次序或按顺序执行此类操作，或执行所有所说明的操作以实现所需要的结果。在某些情况下，多任务和并行处理可以是有利的。此外，上述实施例中的各个系统模块和组件的分离不应理解为在所有实施例中需要此种分离，并且应理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或封装成多个软件产品。

已描述主题的特定实施例。其它实施例在所附权利要求书的范围内。例如，权利要求书中叙述的动作可以按不同次序执行并且仍实现所需要的结果。作为另一示例，附图中描绘的过程不一定需要所示的特定次序或连续次序来实现期望的结果。在一些情况下，多任务和并行处理可以是有利的。

Claims

1.一种方法，包括：

生成用于训练眼底图像处理机器学习模型的训练数据，

其中所述眼底图像处理机器学习模型被配置成处理由眼底相机捕获的一个或多个眼底图像，以生成预测标签，

其中所述一个或多个眼底图像中的每个眼底图像是患者的眼睛的眼底的图像，

其中所述预测标签表征所述患者的健康，以及

其中生成所述训练数据包括：

接收由眼底相机捕获的一个或多个训练眼底图像的多个集合，每个集合对应于相应患者，并且所述集合中的每个训练眼底图像是与该集合相对应的所述患者的眼睛的图像；

对于所述多个集合中的每个集合，接收地面真值标签，所述地面真值标签被分配给已使用不同于所述眼底相机的成像模式捕获的与该集合相对应的所述患者的所述眼睛的不同图像；以及

对于一个或多个训练眼底图像的每个集合，生成训练示例，所述训练示例包括(i)一个或多个训练眼底图像的该集合，该集合关联了(ii)被分配给已使用所述不同成像模式捕获的与该集合相对应的所述患者的所述眼睛的所述不同图像的所述地面真值标签；

在所述训练数据中的所述训练示例上训练所述眼底图像处理机器学习模型，以通过处理一个或多个训练眼底图像的所述集合来生成预测标签，所述预测标签与关联于该集合的所述地面真值标签相匹配；以及

提供指定经训练的眼底图像处理机器学习模型的数据，以用于生成新眼底图像的预测标签。

2.根据权利要求1所述的方法，其中由所述眼底相机捕获的所述眼底图像是二维图像，并且其中使用所述不同成像模式捕获的所述不同图像是三维图像。

3.根据权利要求2所述的方法，其中所述不同成像模式是捕获所述眼睛的视网膜的截面的模式。

4.根据权利要求2或3中任一项所述的方法，其中所述不同成像模式是光学相干断层扫描OCT。

5.根据权利要求1至4中任一项所述的方法，其中所述预测标签和所述地面真值标签表征所述患者关于糖尿病黄斑水肿DME的健康。

6.根据权利要求5所述的方法，其中所述预测标签和所述地面真值标签包括表示所述患者患有DME的可能性的状况状态分值。

7.根据权利要求5或6中任一项所述的方法，其中所述预测标签和所述地面真值标签包括多个状况状态分值，每个状况状态分值对应于DME的相应可能水平，并且每个状况状态分值表示DME的对应可能水平是针对所述患者的DME的当前水平的相应可能性。

8.根据权利要求1至7中任一项所述的方法，进一步包括：

接收由眼底相机捕获的新眼底图像，新患者的眼睛的所述新眼底图像；以及

使用所述经训练的眼底图像处理机器学习模型来处理接收到的新眼底图像，以生成用于所述新眼底图像的预测标签。

9.一种承载计算机程序的计算机可读介质，所述计算机程序包括配置成使一个或多个处理器执行根据任一前述权利要求所述的方法的计算机可读指令。

10.一种计算机系统，包括：

存储器，所述存储器存储处理器可读指令；以及

一个或多个处理器，所述一个或多个处理器被布置成读取并执行存储在所述存储器中的指令；

其中所述处理器可读指令包括被布置成控制所述计算机执行根据权利要求1至8中任一项所述的方法的指令。