CN113906472A

CN113906472A - 用于选择胚胎的方法和系统

Info

Publication number: CN113906472A
Application number: CN202080041427.XA
Authority: CN
Inventors: J·M·M·霍尔; D·佩鲁吉尼; M·佩鲁吉尼
Original assignee: Presagen Pty Ltd
Current assignee: Presagen Pty Ltd
Priority date: 2019-04-04
Filing date: 2020-04-02
Publication date: 2022-01-07
Also published as: EP3948772A4; WO2020198779A1; US20220198657A1; JP2022528961A; AU2020251045A1; EP3948772A1

Abstract

描述了一种人工智能(AI)计算系统，用于从胚胎的单个图像生成胚胎活力评分，以帮助选择用于体外受精(IVF)过程中植入的胚胎。AI模型使用一种应用于图像的深度学习方法，其中通过分割和真实标签(如，在六周超声扫描时检测到心跳)来识别图像中的透明带区域。

Description

用于选择胚胎的方法和系统

优先权文件

本申请要求2019年4月4日提交的发明名称为“用于选择胚胎的方法和系统”的澳大利亚临时专利申请第2019901152号的优先权，其全部内容通过引用合并于此。

技术领域

本发明涉及体外受精(IVF)。在特定形式中，本发明涉及用于选择胚胎的方法。

背景技术

体外受精(IVF)程序从刺激卵子产生的卵巢刺激阶段开始。然后从患者体内取出卵子(卵母细胞)并与精子体外受精，精子穿过透明带，透明带是围绕卵子(卵母细胞)形成合子的糖蛋白层。胚胎在大约5天的时间内发育，此后胚胎形成适合移植回患者体内的囊胚(由滋养层、囊胚腔和内细胞团组成)。大约5天时，囊胚仍被透明带包围，囊胚将从透明带孵化，然后植入子宫内膜壁。我们将把以透明带内表面为界的区域称为带内腔(IZC，InnerZonal Cavity)。在移植时选择最佳胚胎对于确保积极的妊娠结果至关重要。胚胎师使用显微镜对胚胎进行视觉评估，以进行选择。一些诊疗机构在选择时记录胚胎的图像，胚胎师可以根据不同的指标和显微镜下的视觉评估对每个胚胎进行评分。例如，一个常用的评分系统是加德纳(Gardner)量表，在该量表中，按照字母数字量表评估和分级形态特征，如内细胞团质量、滋养外胚层质量和胚胎发育进程。然后，胚胎师选择一个(或多个)胚胎，然后将其移植回患者。

因此，胚胎选择目前是一个手工过程，涉及胚胎师通过目视检查对胚胎进行主观评估。胚胎分级的一个关键挑战是不同技能水平的胚胎师之间存在的很大的主观性以及操作员自身和操作员之间的差异。这意味着，标准化即使在同一个实验室内也很难实现，在整个行业更不可能实现。因此，这一过程严重依赖胚胎师的专业知识，尽管他们尽了最大努力，IVF的成功率仍然相对较低(约20％)。虽然妊娠结果低的原因很复杂，但更准确地选择最具活力的胚胎的工具有望增加成功的妊娠结果。

到目前为止，已经开发了几种工具来帮助胚胎师选择具有活力的胚胎，包括植入前基因筛查(PGS)或延时影像拍摄。然而，每种方法都有严重的局限性。PGS包括通过活检对胚胎中的几个细胞进行遗传评估，然后筛选所提取的细胞。虽然这有助于识别可能导致妊娠失败的遗传风险，但这也有可能在活检过程中损害胚胎。它也很昂贵，在许多大型新兴市场(如中国)上供应有限或根本没有。另一个被考虑的工具是在胚胎发育过程中使用延时成像。然而，这需要昂贵的专用硬件，这对于许多诊疗机构来说成本过高。而且，没有证据表明它能可靠地改善胚胎选择。充其量，它可以帮助确定早期胚胎是否会发育为成熟囊胚，但尚未证明它能够可靠地预测妊娠结果，因此，它在胚胎选择中的作用有限。

因此，需要提供一种改进的工具，以帮助胚胎师选择胚胎进行植入，或者至少为现有工具和系统提供一种有用的替代方案。

发明内容

根据第一方面，提供一种用于以计算方式生成人工智能(AI)模型的方法，该AI模型用来从图像估计胚胎活力评分，所述方法包括：

接收多个图像和相关联的元数据，其中每个图像在体外受精(IVF)后的预定时间窗口期间被捕获，所述预定时间窗口为24小时或更短，且与所述图像相关联的元数据包括至少妊娠结果标签；

对每个图像进行预处理，其中包括至少分割所述图像以识别透明带区域；

通过使用深度学习方法训练至少一个透明带深度学习模型，生成用来从输入图像生成胚胎活力评分的人工智能(AI)模型，其中包括在透明带图像的集合上训练深度学习模型，在所述透明带图像中所述透明带区域被识别，且相关的妊娠结果标签至少用于评估被训练的模型的准确度；以及

部署所述AI模型。

在再一种形式中，所述透明带图像的集合包括这样的图像，即，在这些图像中被所述透明带区域为界的区域被遮罩。

在再一种形式中，生成所述AI模型还包括训练一个或多个附加AI模型，其中，每个附加AI模型是使用机器学习方法训练的计算机视觉模型，该机器学习方法使用从图像提取的一个或多个计算机视觉描述符的组合来估计胚胎活力评分，在包括透明带和IZC区域的胚胎局部图像上训练的深度学习模型，以及在带内腔(IZC)图像集上训练的深度学习模型，在该IZC图像中除IZC以外的所有区域都被遮罩，以及使用系综方法将所述至少一个透明带深度学习模型中的至少两个和所述一个或多个附加AI模型组合起来，以从输入图像生成AI模型胚胎活力评分；或者使用提炼方法训练AI模型，以使用所述至少一个透明带深度学习模型和所述一个或多个附加AI模型生成AI模型胚胎活力评分，以生成所述AI模型。

在一种形式中，使用系综模型生成所述AI模型，其中包括从所述至少一个透明带深度学习模型和所述一个或多个附加AI模型中选择至少两个对比AI模型，进行AI模型选择以生成一组对比AI模型，并对所述至少两个对比AI模型应用投票策略，该投票策略定义了如何将所选择的至少两个对比AI模型组合起来以生成图像的结果评分。

在再一种形式中，选择至少两个对比AI模型包括：

针对所述至少一个透明带深度学习模型和所述一个或多个附加AI模型中的每一个模型，从一组图像生成胚胎活力评分的分布；以及

将所述分布进行比较，如果所述相关的分布与另一个分布过于相似而无法选择具有对比分布的AI模型，则将模型舍弃。

在一种形式中，所述预先确定的时间窗口是从受精后5天开始的24小时计时器周期。在一种形式中，所述妊娠结果标签是在胚胎移植后12周内进行的真实(ground-truth)妊娠结果测量。在一种形式中，所述真实妊娠结果测量是是否检测到胎儿心跳。

在一种形式中，该方法还包括清洗所述多个图像，其中包括识别具有可能不正确的妊娠结果标签的图像，并排除或重新标记所识别的图像。

在再一种形式中，清洗所述多个图像包括：估计与图像相关联的妊娠结果标签不正确的可能性，并与阈值进行比较，然后排除或重新标记可能性超过阈值的图像。

在再一种形式中，通过使用多个AI分类模型和k折交叉验证方法来估计与图像相关联的妊娠结果标签不正确的可能性，其中多个图像被分成k个互斥的验证数据集，多个AI分类模型中的每一个AI分类模型在k-1个组合起来的验证数据集上训练，然后用于对剩余的验证数据集内的图像进行分类，并基于将图像的所述妊娠结果标签错误分类的AI分类模型的数量来确定可能性。

在一种形式中，训练每个AI模型或生成所述系综模型包括使用多个度量来评估AI模型的性能，所述多个度量包括至少一个准确度度量和至少一个置信度度量，或将准确度和置信度结合的度量。

在一种形式中，对所述图像进行预处理还包括：通过使用深度学习或计算机视觉方法在所述图像中定位胚胎来裁剪所述图像。

在一种形式中，对所述图像进行预处理还包括下面的一个或多个：将图像填充、将颜色平衡归一化、将亮度归一化、以及将图像缩放到预定义分辨率。

在一种形式中，可以执行图像填充以生成图像的方形纵横比。在一种形式中，该方法还包括生成一个或多个增强图像以用于训练Al模型。准备每个图像还可以包括通过制作具有改变的图像的副本来生成一个或多个增强图像，或者可以对图像执行增强。它可以在训练之前或训练期间(即时)执行。任何数量的增强可通过如下来执行：图像的不同数量的90度旋转、镜像翻转、非90度旋转(其中填充对角线边界以匹配背景颜色)、图像模糊、使用强度条形图调整图像对比度，以及在水平和/或垂直方向上应用一个或多个小的随机平移、随机旋转、JPEG噪声、随机图像大小调整、随机色调抖动、随机亮度抖动、对比度受限自适应条形图均衡化、随机翻转/镜像、图像锐化、图像浮雕，随机亮度和对比度、RGB颜色偏移、随机色调和饱和度、通道混洗，将RGB切换到BGR或RBG或其它、粗略衰减(coarse dropout)、运动模糊、中值模糊、高斯模糊、随机偏移缩放旋转(即，所有三个组合起来)。

在一种形式中，在AI模型的训练期间，为所述训练集中的每个图像生成一个或多个增强图像，且在所述验证集的评估期间，将针对所述一个或多个增强图像的结果进行组合，以生成所述图像的单个结果。可以使用平均置信度、中值置信度、多数平均置信度、最大置信度方法或其他将模型预测组合起来的投票策略中的一种将结果组合起来。

在一种形式中，对所述图像进行预处理还包括：使用一个或多个特征描述符模型对图像进行注释，并遮罩除描述符关键点的给定半径内的区域以外的所述图像的所有区域。一个或多个特征描述符模型可包括灰度共生矩阵(GLCM)纹理分析、定向梯度条形图(HOG)、来自加速分割测试(FAST)和旋转二进制鲁棒独立基本特征(BRIEF)的定向特征、二进制鲁棒不变可伸缩关键点(BRISK)，最大稳定极值区域(MSER)或良好跟踪特征(GFTT)特征检测器。

在一种形式中，每个AI模型生成结果评分，其中所述结果是具有n个状态的n元结果，训练AI模型包括多个训练和验证周期，还包括将多个图像随机分配到训练集、验证集或盲验证集内的一个，使得所述训练数据集包含至少60％的图像，所述验证数据集包含至少10％的图像，所述盲验证数据集包含至少10％的图像，并且在将图像分配给所述训练集、验证集和盲验证集之后，计算每个所述训练集、验证集和盲验证集内的每个n元结果状态的频率，并测试这些频率是否相似，如果这些频率不相似，则将所述分配舍弃并重复进行所述随机化，直到获得这些频率相似的随机化。

在一种形式中，训练计算机视觉模型包括执行多个训练和验证周期，在每个周期中，使用无监督聚类算法基于计算机视觉描述符将所述图像进行聚类，以生成一组集群，使用基于所述图像的所述计算机视觉描述符的值的距离度量将每个图像分配给集群，并使用监督学习方法确定这些特征的特定组合是否对应于结果度量，以及所述多个图像中每个计算机视觉描述符的存在的频率信息。

在一种形式中，每个深度学习模型是卷积神经网络(CNN)，并且对于输入图像，每个深度学习模型生成结果概率。

在一种形式中，所述深度学习方法使用用来修改优化曲面的损失函数来强调全局极小值。所述损失函数包括根据网络权重定义的剩余项，该剩余项对来自模型的预测值和每个图像的目标结果中的集体差异进行编码，并将其作为对正常交叉熵损失函数的额外贡献。

在一种形式中，在基于云的计算系统上使用Web服务器、数据库和多个训练服务器执行该方法，其中所述Web服务器从用户接收一个或多个模型训练参数，所述Web服务器在所述多个训练服务器中的一个或多个上发起训练过程，包括将训练代码上传到所述多个训练服务器中的一个上，所述训练服务器从数据存储库请求所述多个图像和相关联的元数据，并执行准备每个图像的步骤，生成多个计算机视觉模型并生成多个深度学习模型，每个训练服务器用来周期性地将模型保存到存储服务，并将准确度信息保存到一个或多个日志文件，以允许重新启动训练过程。在再一种形式中，训练所述系综模型以将残余误差偏置，以将假阴性最小化。

在一种形式中，结果是要么有活力要么无活力的二元结果。且随机化可以包括计算具有可行分类和不可行分类的图像在训练集、验证集和盲注中的每一个中的频率验证集并测试它们是否相似。在一种形式中，结果测量是使用与每个图像相关联的生存力分类的胚胎生存力的测量。在一种形式中，每个结果概率可以是图像有活力的概率。在一种形式中，每个图像可以是相差图像。

根据第二方面，提供了一种用于以计算方式从图像生成胚胎活力评分的方法，所述方法包括：

在计算系统中生成人工智能(AI)模型，该AI模型用来根据第一方面的方法从图像生成胚胎活力评分；

经由计算系统的用户界面从用户接收在体外受精(IVF)后的预定时间窗口期间捕获的图像；

根据用于生成所述AI模型的所述预处理步骤对所述图像进行预处理；

向所述AI模型提供所述预处理后的图像，以获得胚胎活力评分的估计值；以及

经由所述用户界面将所述胚胎活力评分发送给所述用户。

根据第三方面，提供了一种用于从图像获得胚胎活力评分的方法，包括：

经由用户界面，将在体外受精(IVF)后的预定时间窗口期间捕获的图像上传到基于云的人工智能(AI)模型，该基于云的AI模型用来从图像生成胚胎活力评分，其中所述AI模型是根据第一方面的方法生成的；

经由所述用户界面从所述基于云的AI模型接收胚胎活力评分。

根据第四方面，提供了一种基于云的计算系统，用来以计算方式生成人工智能(AI)模型，该AI模型用来根据第一方面的方法从图像估计胚胎活力评分。

根据第五方面，提供了一种基于云的计算系统，用来以计算方式从图像生成胚胎活力评分，其中所述计算系统包括：

用来从图像生成胚胎活力评分的人工智能(AI)模型，其中所述AI模型是根据第一方面的方法生成的；

经由所述计算系统的用户界面从用户接收在体外受精(IVF)后的预定时间窗口期间捕获的图像；

向所述AI模型提供所述图像以获得胚胎活力评分；以及

经由所述用户界面将所述胚胎活力评分发送给所述用户。

根据第六方面，提供了一种计算系统，用来从图像生成胚胎活力评分，其中所述计算系统包括至少一个处理器和至少一个存储器，所述至少一个存储器包括指令以将所述至少一个处理器配置成用来：

接收在体外受精(IVF)后的预定时间窗口期间捕获的图像；

经由用户界面，将在体外受精(IVF)后的预定时间窗口期间捕获的图像上传至基于云的人工智能(AI)模型，该AI模型用来从图像生成胚胎活力评分，其中所述AI模型是根据第一方面的方法生成的；

从所述基于云的AI模型接收胚胎活力评分；以及

经由所述用户界面显示所述胚胎活力评分。

附图说明

参考附图讨论本发明的实施例，其中：

图1A是根据一个实施例的人工智能(AI)模型生成的示意性流程图，该AI模型用来从图像估计胚胎活力评分；

图1B是根据一个实施例的基于云的计算系统的示意框图，该计算系统用来以计算方式生成和使用AI模型，该AI模型用来从图像估计胚胎活力评分；

图2是根据一个实施例的使用AI模型的IVF程序示意图，该AI模型用来从图像估计胚胎活力评分，以帮助选择用于植入的胚胎；

图3A是根据一个实施例的基于云的计算系统的架构示意图，该计算系统用来生成和使用AI模型，该AI模型用来从图像估计胚胎活力评分；

图3B是根据一个实施例的训练服务器上的模型训练过程的示意流程图；

图4是根据一个实施例的用于在人类胚胎图像上查找边界的二进制阈值处理的示意图；

图5是根据一个实施例的在人类胚胎图像上查找边界的方法的示意图；

图6A是根据一个实施例的将几何活动轮廓(GAC)模型应用于图像的固定区域进行图像分割的示例；

图6B是根据本发明的将形态学蛇应用于图像的固定区域以进行图像分割的示例；

图6C是根据一个实施例的语义分割模型的U-Net架构示意图；

图6D是第5天胚胎的图像；

图6E是图6D的填充版本，创建了一个方形图像；

图6F示出了根据一个实施例的基于图6E的透明带图像，其中IZC被遮罩；

图6G示出了根据一个实施例的基于图6E的IZC图像，其中透明带和背景被遮罩；

图7是根据相关实施例的灰度共生矩阵(GLCM)图，示出了在六个透明带区域和六个细胞质区域的集合上计算的以下样本特征描述符的GLCM相关性：ASM、同质性、相关性、对比度和熵；

图8是根据一个实施例的深度学习方法的示意性架构图，包括卷积层，其在训练后将输入图像转换为预测；

图9是根据一个实施例的系综模型的一个实施例识别胚胎活力的准确度曲线图；

图10是一个条形图，示出了与世界顶尖胚胎师(临床医生)相比，系综模型的实施例准确识别胚胎活力的准确度；

图11是一个条形图，示出了在胚胎师的评估不正确的情况下，与世界顶尖胚胎师(临床医生)相比，系综模型正确识别胚胎活力的准确度；以及在系综模型评估不正确的情况下，胚胎师正确识别胚胎活力的准确度；

图12是当应用于研究1的盲验证数据集时，使用系综模型的实施例的有活力的胚胎(临床妊娠成功)的推断评分分布图；

图13是当应用于研究1的盲验证数据集时，使用系综模型的实施例的无活力的胚胎(临床妊娠失败)的推断评分分布图；

图14是从整个盲数据集的胚胎师评分中获得的分级的条形图；

图15是从整个盲数据集的系综模型推断的实施例中获得的分级的条形图；

图16是在放入1到5的分级带之前，系综模型推断的条形图；

图17是当应用于研究2的盲验证数据集时，使用系综模型得出的有活力的胚胎(临床妊娠成功)的推断评分分布图；

图18是当应用于研究2的盲验证数据集时，使用系综模型得出的无活力的胚胎(临床妊娠失败)的推断评分分布图；

图19是当应用于研究3的盲验证数据集时，使用系综模型得出的有活力的胚胎(临床妊娠成功)的推断评分分布图；

图20是当应用于研究3的盲验证数据集时，使用系综模型得出的无活力的胚胎(临床妊娠成功)的推断评分分布图。

在下面的描述中，相同的附图标记在整个附图中表示相同或相应的部分。

具体实施方式

参照图1A、1B和2，现在讨论基于云的计算系统1的实施例，该计算系统1用来以计算方式生成和使用人工智能(AI)模型100，该AI模型100用来从胚胎的单个图像估计胚胎活力评分。该AI模型100还会被称为胚胎活力评估模型。图1A是根据一个实施例的使用基于云的计算系统1生成AI模型100的示意流程图。从一个或多个数据源接收(或获得)多个图像和相关联的元数据(步骤101)。每个图像在体外受精(IVF)后的预定时间窗口期间被捕获，例如从受精后第5天开始的24小时。图像和元数据可以来自IVF诊疗机构，可以是使用光学显微镜捕获的图像(包括相差图像)。元数据包括妊娠结果标签(例如，IVF后第一次扫描时检测到的心跳)，还可以包括一系列其他临床和患者信息。

然后对图像进行预处理(步骤102)，预处理包括分割图像以识别图像的透明带区域。分割还可包括识别被透明带区域包围的带内腔(IZC)。预处理图像还可能涉及如后所述的一个或多个(或全部)：对象检测、阿尔法通道移除、填充、裁剪/定位、将颜色平衡归一化、将亮度归一化和/或将图像缩放到预定义的分辨率。对图像进行预处理还可包括：从图像计算/确定计算机视觉特征描述符，并执行一次或多次图像增强，或生成一个或多个增强图像。

在透明带图像集上训练至少一个透明带深度学习模型(步骤103)，以生成用来从输入图像生成胚胎活力评分的人工智能(AI)模型100(步骤104)。透明带图像集是在其中识别透明带区域的图像(例如，在步骤102的分割期间)。在一些实施例中，透明带图像集是这样的图像，即，这些图像的除透明带区域之外的所有区域都被遮罩(即，因此，深度学习模型仅根据来自/关于透明带区域的信息进行训练)。妊娠结果标签至少用于评估经过训练的模型(即评估准确度/性能)，也可用于模型训练(例如，通过损失函数推动模型优化)。可以训练多个透明带深度学习模型，选择表现最好的模型作为AI模型100。

在另一个实施例中，在预处理的图像上训练一个或多个附加AI模型(步骤106)。这些模型可以是直接在胚胎图像上训练的和/或在IZC图像集(其中除IZC之外的图像的所有区域都被遮罩)上训练的附加深度学习模型，或计算机视觉(CV)模型，该CV模型被训练以将在预处理步骤102中生成的计算机视觉特征/描述符组合起来，以从图像生成胚胎活力评分。每个计算机视觉模型使用从图像中提取的一个或多个计算机视觉描述符的组合来估计图像中的胚胎的胚胎活力评分，且机器学习方法执行多个训练和验证周期以生成CV模型。类似地，在多个训练和验证周期中训练每个深度学习模型，以使得每个深度学习模型学习如何估计图像中胚胎的胚胎活力评分。在训练期间，可以将图像随机分配给训练集、验证集和盲验证集中的每一个，每个训练和验证周期包括(进一步)对训练集、验证集和盲验证集中的每一个内的多个图像进行随机化。也就是说，每个集合中的图像在每个周期中被随机取样，以使得在每个周期分析不同的图像子集，或以不同的顺序进行分析。但是，请注意，由于它们是随机抽样的，因此允许两个或多个集合相同，只要这是通过随机选择过程实现的。

然后，在步骤104中，使用系综、提炼或其他类似技术将多个AI模型组合成单个AI模型100(步骤107)，以生成AU模型100。系综方法涉及从可用模型集中选择模型，并使用投票策略，该投票策略定义了如何从所选模型的各个结果生成结果评分。在一些实施例中，选择模型以确保将结果对比以产生结果分布。它们最好尽可能独立，以确保结果的良好分布。在提炼法中，使用多个AI模型作为教师来训练单个学生模型，学生模型成为最终的AI模型100。

在步骤104中，选择最终的AI模型。它可以是在步骤103中训练的透明带深度学习模型之一，也可以是使用系综、提炼或类似组合步骤(步骤107)获得的模型，其中训练包括至少一个透明带深度学习模型(来自步骤103)和一个或多个附加AI模型(深度学习和/或CV；步骤106)。一旦生成最终的AI模型100(步骤104)，该模型就被部署用于操作用途，以从输入图像估计胚胎活力评分(步骤105)，例如，在云服务器上，该云服务器用来接收使用光学显微镜在IVF诊疗机构捕获的第5天胚胎的相差图像。这在图2中会进一步说明并在后面讨论。在一些实施例中，部署包括保存或导出所训练的模型，例如通过将模型权重和关联的模型元数据写入文件，该文件被传输到操作计算系统并上传以重新创建训练模型。部署还可以包括将所训练的模型移动、复制(copying)或同步(replicating)到操作计算系统(如一个或多个基于云的服务器，或IVF诊疗机构的本地计算机服务器)上。在一个实施例中，部署可包括重新配置训练AI模型的计算系统以接受新图像并使用训练模型生成活力估计值，例如通过添加接口来接收图像，在接收到的图像上运行训练模型，并将结果发送回源，或存储结果以供以后检索。所部署的系统用来接收输入图像，并执行用于生成AI模型的任何预处理步骤(即，以与所训练的图像相同的方式对新图像进行预处理)。在一些实施例中，可以在上传到云系统之前对图像进行预处理(即，本地预处理)。在一些实施例中，预处理可以分布在本地系统和远程(例如，云)系统之间。在图像上执行或运行所部署的模型，以生成胚胎活力评分，然后提供给用户。

图1B是基于云的计算系统1的示意框图，该计算系统用来以计算方式生成AI模型100，该AI模型100用来从图像(即胚胎活力评估模型)估计胚胎活力评分，然后使用该AI模型100生成胚胎活力评分(即结果评分)，这是对接收到的图像的活力的估计(或评估)。输入10包括诸如胚胎图像和妊娠结果信息(例如，在IVF后第一次超声扫描时检测到的心跳、是否活产或成功植入)的数据，其可用于生成活力的分类。其作为创建并训练AI模型的模型创建过程20的输入来提供。这些模型包括透明带深度学习模型(103)，在一些实施例中还包括附加的深度学习和/或计算机视觉模型(106)。可以使用各种方法和信息对模型进行训练，包括使用分割数据集(例如，透明带图像、IZC图像)和妊娠结果数据。在训练多个AI模型的情况下，可根据某些标准(如基于妊娠结果信息)选择性能最佳的模型；或者可以利用选择AI模型并基于投票策略生成结果的系综模型将多个AI模型组合起来；或者可以使用提炼法，其中多个AI模型被用作教师来训练学生AI模型；或者可以使用一些其他类似方法将多个模型组合成单个模型。基于云的模型管理和监控工具(在此称之为模型监控器21)用于创建(或生成)AI模型。其使用了一系列链接服务，例如亚马逊网络服务(AWS)，它管理特定于图像分析和模型的该模型的训练、日志记录和跟踪。可以使用其他云平台上的其他类似服务。这些服务可以使用深度学习方法22、计算机视觉方法23、分类方法24、统计方法25和基于物理的模型26。模型生成还可以使用领域专业技术12(如，来自胚胎师、计算机学家、科学/技术文献等的领域专业技术，例如关于在计算机视觉模型中提取和使用什么特征)作为输入。模型创建过程的输出是AI模型(100)的一个实例，AI模型(100)也称为经过验证的胚胎评估模型。

使用基于云的交付平台30，其为用户40提供访问系统的用户界面42。参照图2进一步说明这一点，图2是根据一个实施例的IVF程序(200)的示意图，该IVF程序使用先前训练的AI模型来生成胚胎活力评分，以帮助选择用于植入的胚胎。在第0天，使采集的卵受精(202)。然后将其体外培养数天，然后例如使用相差显微镜捕获胚胎的图像(204)。如下所述，人们普遍发现，体外受精后5天拍摄的图像比前几天拍摄的图像效果更好。因此，优选地，在第5天胚胎上训练和使用模型，但是应当理解，可以参考特定时期(epoch)在特定时间窗口期间对胚胎进行训练和使用模型。在一个实施例中，时间是24小时，但是可以使用其他时间窗口，例如12小时、36小时或48小时。通常，最好是较小的时间窗口24小时或更短，以确保在外观上具有更大的相似性。在一个实施例中，其可以是特定的一天(从一天的开始(0:00)到一天的结束(23:39)的24小时窗口)，或者是诸如第4天或第5天的特定的几天(从第4天开始的48小时窗口)。或者，时间窗口可以定义窗口大小和时期(epoch)，例如以第5天为中心的24小时(即第4.5天到第5.5天)。时间窗口可以是开放的，具有下限，例如至少5天。如上所述，虽然最好使用第5天前后24小时的时间窗口中的胚胎图像，但应理解，可以使用更早期的胚胎，包括第3天或第4天的图像。

通常几个卵子会同时受精，因此会获得多个图像的一个集合，以考虑哪一个胚胎最适合植入(即最有活力)。用户例如使用“拖放”功能经由用户界面42将捕获的图像上传到平台30。用户可以上传单个图像或多个图像，例如，以帮助从考虑植入的多个胚胎的集合中选择哪个胚胎。平台30接收存储在包括图像存储库的数据库36中的一个或多个图像312。基于云的交付平台包括按需云服务器32，可以进行图像预处理(例如，对象检测、分割、填充、归一化、裁剪、居中等)，然后将处理后的图像提供给经过训练的AI(胚胎活力评估)模型100，在一个按需云服务器32上执行，以生成胚胎活力评分314。生成包括胚胎活力评分的报告316，并将该报告例如通过用户界面42发送或以其他方式提供给用户40。用户(例如胚胎师)通过用户界面接收胚胎活力评分，然后可以使用活力评分来帮助决定是否植入胚胎，或者集合中哪一个胚胎最应该植入。然后将所选择的胚胎植入(205)。为了进一步完善人工授精模型，可向系统提供妊娠结果数据，如植入后(通常在受精后6-10周左右)第一次超声扫描中检测到(或未检测到)心跳。这使得可以随着获得更多数据而重新训练和更新AI模型。

可使用一系列成像系统(如现有IVF诊疗机构中的成像系统)捕获图像。这样做的好处是不需要IVF诊疗机构购买新的成像系统或使用专门的成像系统。成像系统通常是用来捕获胚胎的单相差图像的光学显微镜。然而，应当理解，可以使用其他成像系统，尤其是使用一系列成像传感器和图像捕获技术的光学显微镜系统。其可以包括相差显微镜、偏振光显微镜、微分干涉差(DIC)显微镜、暗场显微镜和亮场显微镜。可以使用配备有照相机或图像传感器的常规光学显微镜捕获图像，或者可以使用具有能够拍摄高分辨率或高放大率图像的集成光学系统(包括智能电话系统)的照相机捕获图像。图像传感器可以是CMOS传感器芯片或电荷耦合器件(CCD)，每个传感器都具有相关的电子器件。光学系统可用来收集特定波长或使用包括带通滤波器的滤波器来收集(或排除)特定波长。一些图像传感器可用来对特定波长的光或在包括红外(IR)或近红外的光学范围之外的波长的光进行操作或对其敏感。在一些实施例中，成像传感器是在多个不同波长范围收集图像的多光谱照相机。照明系统也可用于用特定波长、特定波段或特定强度的光照亮胚胎。可以使用停止和其他组件来限制或修改图像(或图像平面)某些部分的照明。

而且，本文所述实施例中使用的图像可以来自视频和延时成像系统。视频流是图像帧的周期性序列，其中图像帧之间的间隔由捕获帧速率(例如24或48帧/秒)定义。类似地，延时系统以非常慢的帧速率(例如1个图像/小时)捕获图像序列，以在胚胎生长(受精后)时获得图像序列。因此，将理解，在本文描述的实施例中使用的图像可以是从视频流提取的单个图像或者胚胎的图像的时间推移序列。在从视频流或延时序列提取图像的情况下，可将要使用的图像选择成捕获时间最接近参考时间点(例如受精后5.0天或5.5天)的图像。

在一些实施例中，预处理可包括图像质量评估，以使得如果图像未通过质量评估，则可将图像排除。如果原始图像未通过质量评估，则可捕获另一图像。在从视频流或延时序列中选择图像的实施例中，所选择的图像是最接近参考时间的通过质量评估的第一图像。或者，可以定义参考时间窗口(例如，第5.0天开始后30分钟)以及图像质量标准。在该实施例中，所选择的图像是在选择基准时间窗口期间具有最高质量的图像。用于执行质量评估的图像质量标准可以基于像素颜色分布、亮度范围和/或指示质量差或设备故障的异常图像特性或特征。可以通过分析图像的参考集来确定阈值。这可以基于从分布中提取异常值的手动评估或自动系统。

可以参照图3A进一步理解AI胚胎活力评估模型100的生成，图3A是根据实施例的用来生成和使用AI模型100的基于云的计算系统1的示意性架构图，该AI模型100用来从图像估计胚胎活力评分。参照图1B，该AI模型生成方法由模型监视器21处理。

模型监视器21允许用户40向包括数据存储库的数据管理平台提供图像数据和元数据(14)。执行数据准备步骤，例如，以将图像移动到特定文件夹，并对图像进行重命名和预处理(如，对象检测、分割、阿尔法通道移除、填充、裁剪/定位、归一化、缩放等)。还可以计算特征描述符，以及预先生成的增强图像。然而，在训练期间(即，即时)，也可以进行包括增强的额外的预处理。还可以对图像进行质量评估，以允许拒绝明显较差的图像，并允许捕获替换图像。同样地，对患者记录或其他临床数据进行处理(准备)以增加胚胎活力分类(例如，有活力的或无活力的)，该分类与每个图像链接或关联，以能够在AI模型训练和/或评估中使用。使用最新版本的训练算法将准备好的数据加载到云提供商(例如AWS)模板服务器28上(16)。保存模板服务器，并在一系列训练服务器集群37上制作多个副本，训练服务器集群37可以基于CPU、GPU、ASIC、FPGA或TPU(张量处理单元)，它们形成训练服务器35。然后，针对用户40提交的每个作业，从多个基于云的训练服务器35对模型监视器Web服务器31应用训练服务器37。每个训练服务器35使用诸如Pytorch、Tensorflow或等效的库来运行用于训练AI模型的预先准备的代码(来自模板服务器28)，并且可以使用诸如OpenCV的计算机视觉库。PyTorch和OpenCV是开源库，具有用于构建CV机器学习模型的低级命令。

训练服务器37管理训练过程。其可包括例如使用随机分配过程将图像划分为训练集、验证集和盲验证集。而且，在训练和验证周期中，训练服务器37还可以在周期开始时将图像集随机化，以使得在每个周期分析不同的图像子集，或者以不同的顺序分析不同的图像子集。如果之前未执行预处理或预处理不完整(例如，在数据管理期间)，则可执行额外的预处理，包括对象检测、分割和生成遮罩数据集(例如，仅透明带图像，或仅IZC图像)、计算/估计CV特征描述符，以及生成数据增强。预处理还可根据需要包括填充、归一化等。也就是说，预处理步骤102可以在训练之前、训练期间或某种组合(即分布式预处理)期间执行。可以从浏览器界面管理正在运行的训练服务器35的数量。随着训练的进行，有关训练状态的日志记录信息被记录到分布式日志记录服务，如云监控(CloudWatch)60上(62)。关键患者和准确度信息也从日志中解析出来并保存到关系数据库36中。模型还被定期保存到数据存储器(例如，AWS简单存储服务(S3)或类似的云存储服务)50中(51)，以使得在以后检索和加载(例如，在发生错误或其他停止时重新启动)。如果训练服务器的作业完成或遇到错误，则向用户40发送关于训练服务器的状态的电子邮件更新(44)。

在每个训练集群37中都会发生很多个过程。一旦集群经由Web服务器31启动，脚本将自动运行，读取准备好的图像和患者记录，并开始所请求的特定Pytorch/OpenCV训练代码(71)。模型训练28的输入参数由用户40经由浏览器界面42或经由配置脚本提供。然后针对所请求的模型参数启动训练过程72，训练过程72可以是一项漫长而高强度的任务。因此，为了在训练过程中不丢失进度，日志会被定期保存到日志记录(例如AWS Cloudwatch)服务60(62)，模型的当前版本(训练时的)会被保存到数据(例如S3)存储服务51(51)，以供以后检索和使用。图3B示出了训练服务器上模型训练过程的示意流程图的一个实施例。通过访问数据存储服务上的一系列经过训练的AI模型，可以例如使用系综、提炼或类似方法将多个模型组合在一起，以合并一系列深度学习模型(如Pytorch)和/或目标计算机视觉模型(如OpenCV)，以生成提供给基于云的交付平台30的强健的AI模型100。

然后，基于云的交付平台30系统允许用户10将图像直接拖放到Web应用程序34上，Web应用程序34准备图像并将图像传递给经过训练/验证的AI模型100，以获得胚胎活力评分，胚胎活力评分立即在报告中返回(如图2所示)。Web应用程序34还允许诊疗机构将图像和患者信息等数据存储在数据库36中，创建关于数据的各种报告，为其组织、集团或特定用户创建关于工具使用情况的审计报告，以及收费和用户帐户(例如，创建用户、删除用户、重置密码、更改访问级别等)。基于云的交付平台30还允许产品管理员访问系统以创建新的客户账户和用户、重置密码，以及访问客户/用户帐户(包括数据和屏幕)，以利于技术支持。

现在将更详细地讨论生成AI模型的实施例的各种步骤和变化，该AI模型用来从图像估计胚胎活力评分。参照图1A，该模型被训练，并使用受精后5天(即从第5天的00:00到第5天的23:59的24小时期间)捕获的图像。对验证模型的研究表明，与受精后第4天拍摄的图像相比，使用受精后第5天拍摄的图像显著提高了模型性能。但是如上所述，仍然可以使用较短的时间窗口(如12小时)，或在其他天(如第3天或第4天)拍摄的图像，或受精后的最短时间段，如至少5天(如开放式时间窗口)，来开发有效模型。可能比确切的时间窗口(如第4天或第5天)更重要的是，用于AI模型训练并随后由所训练的AI模型进行分类的图像是在类似且优选为相同的时间窗口(例如，相同的12或24小时时间窗口)期间拍摄的。

在分析之前，每个图像都经过预处理(图像准备)程序102，包括至少分割图像以识别透明带区域。可以应用一系列预处理步骤或技术。可以在添加到数据存储器14之后或在被训练服务器37训练期间执行该操作。在一些实施例中，对象检测(定位)模块用于检测和定位胚胎上的图像。对象检测/定位包括估计包含胚胎的边界框。这可用于图像的裁剪和/或分割。图像也可以用给定的边界填充，然后将颜色平衡和亮度标准化。然后对图像进行裁剪，使胚胎的外部区域接近图像的边界。这是通过使用计算机视觉技术进行边界选择实现的，包括使用AI对象检测模型。图像分割是一种计算机视觉技术，可用于为某些模型准备图像，以选择模型训练要关注的相关区域，例如透明带和带内腔(IZC)。图像可以被遮罩以生成仅有透明带的图像(即裁剪透明带的边界，并遮罩IZC，见图6F)或仅有IZC(即裁剪至IZC的边界以排除透明带，图6G)。背景可能留在图像中，也可能被遮罩。然后，可以仅使用被遮罩的图像(例如，被遮罩成仅包含透明带和图像的背景的透明带图像，和/或被遮罩成仅包含IZC的IZC图像)来训练胚胎活力模型。缩放涉及重新缩放图像达到预定义的比例，以适应所训练的特定模型。增强包括对图像副本进行微小更改，例如旋转图像，以控制胚胎盘的方向。深入学习之前使用分割对深度学习方法的表现有显著影响。类似地，增强对于生成强健的模型非常重要。

在训练AI模型之前，可以使用一系列图像预处理技术准备人类胚胎图像。这些技术包括：

阿尔法通道剥离：包括剥离阿尔法通道(如果存在的话)的图像，以确保其以3通道格式(例如RGB)编码，例如移除透明度贴图；

填充/增强：在分割、裁剪或边界查找之前，使用填充边框填充/增强每个图像，以生成方形纵横比。此过程确保图像尺寸一致、可比，并兼容深度学习方法，深度学习方法通常需要方形尺寸的图像作为输入，同时还确保图像的关键部件不被裁剪；

归一化：将RGB(红、绿、蓝)或灰度图像归一化到所有图像的固定平均值。例如，其包括获取每个RGB通道的平均值，并将每个通道除以其平均值。然后将每个通道乘以100/255的固定值，以确保RGB空间中每个图像的平均值为(100、100、100)。该步骤确保图像之间的颜色偏差被抑制，并且每个图像的亮度被归一化；

阈值处理：使用二进制法、大津(Otsu)法或自适应法对图像进行阈值处理。包括使用膨胀(打开)、腐蚀(关闭)和缩放梯度对图像进行形态学处理，并使用缩放遮罩来提取形状的外部和内部边界；

对象检测/裁剪：对图像进行对象检测/裁剪，以定位胚胎上的图像，并确保图像边缘没有伪影。这可以使用对象检测器来执行，对象检测器使用对象检测模型(下文讨论)，对象检测模型经过训练以估计包含胚胎(包括透明带)的边界框；

提取：使用图像轮廓的椭圆霍夫变换提取边界的几何特性，例如根据在图像的二值阈值地图上计算的椭圆霍夫变换的最佳椭圆拟合。该方法通过选择图像中胚胎的硬边界，并通过裁剪新图像的方形边界，使得新椭圆的最长半径被新图像的宽度和高度包围，并且使得椭圆的中心是新图像的中心；

缩放(zooming)：通过确保在椭圆区域周围具有一致边界大小的一致居中图像来缩放图像；

分割：分割图像以识别透明带区域和细胞质带内腔(IZC)区域。可以通过在给定区域内使用几何活动轮廓(GAC)模型或形态学蛇计算非椭圆图像周围的最佳拟合轮廓来执行分割。根据训练模型在透明带区域或可能包含囊胚的细胞质(带内腔)区域的焦点，可以对蛇的内部和其他区域进行不同的处理。或者，可以训练语义分割模型，语义分割模型识别图像中每个像素的类别。在一个实施例中，使用U-Net架构和预训练的ResNet-50编码器开发语义分割模型，以分割透明带和IZC。模型采用二元交叉熵损失函数进行训练；

注释：通过选择特征描述符对图像进行注释，并遮罩图像的所有区域(描述符关键点的给定半径内的区域除外)；

调整大小/缩放(resizing/scaling)：将整个图像集的大小调整/缩放到指定的分辨率；和

张量转换：包括将每个图像转换为张量，而不是可视显示的图像，因为这种数据格式更适用于深度学习模型。在一个实施例中，使用平均值(0.485、0.456、0.406)和标准偏差(0.299、0.224、0.225)从标准预训练的ImageNet值获得张量归一化。

图4是根据一个实施例的用于在人类胚胎图像上寻找边界的二进制阈值处理400的示意图。图4示出了应用于同一图像的8个二进制阈值，即级别60、70、80、90、100、110(分别为图像401、402、403、404、405、406)、自适应高斯407和大津高斯408。图5是根据一个实施例的人类胚胎图像上的边界查找方法500的示意图。第一个面板示出外边界501、内边界502以及带有检测到的内边界和外边界的图像503。内边界502可大致对应于IZC边界，外边界501可大致对应于透明带区域的外边缘。

图6A是根据一个实施例的使用应用于图像600的固定区域的几何活动轮廓(GAC)模型进行图像分割的示例。蓝色实线601是透明带区域的外边界，绿色虚线602表示界定透明带区域边缘和细胞质(带内腔或IZC)区域的内边界。图6B是将形态学蛇应用于图像的固定区域进行图像分割的示例。同样地，蓝色实线611是透明带区域的外边界，绿色虚线612表示界定透明带区域边缘和细胞质(内)区域的内边界。在第二个图像中，边界612(定义细胞质带内空腔区域)具有不规则形状，在右下象限有一个凸起或突出部分。

在另一个实施例中，对象检测器使用对象检测模型，该对象检测模型经过训练以估计包含胚胎的边界框。对象检测的目标是识别包含与该对象相关联的所有像素的最大边界框。这要求该模型对对象的位置和类别/标签(即框中的内容)都进行建模，因此检测模型通常包含对象分类器头部和边界框回归头部。

一种方法是使用昂贵搜索过程的区域卷积神经网络(或R-CNN)，用于搜索图像修补方案(潜在边界框)。然后使用这些边界框裁剪感兴趣图像的区域。然后使裁剪后的图像通过分类模型，对图像区域的内容进行分类。此过程复杂且计算成本高。另一种方法是快速CNN，它使用CNN提出特征区域，而不是搜索图像修补方案。此模型使用CNN估计固定数量的候选框，通常设置为100到2000之间。更快的替代方法是更快的RCNN，它使用锚框限制所需框的搜索空间。默认情况下，使用一组标准的9个锚框(每个锚框的大小不同)。更快的RCNN。其使用了一个小型网络，它联合学习预测感兴趣的特征区域，与R-CNN或快速CNN相比，其可以加快运行时间，因为昂贵的区域搜索可以被取代。

对于从背面出来的每个功能激活，一个模型被视为锚定点(下面对图像中为红色)。对于每个锚点，生成9个(或更多，或更少，取决于问题)锚框。锚框对应于训练数据集内的常用对象大小。由于有多个锚点和多个锚框，因此产生了成千上万的区域方案。然后，通过一个称为非最大抑制(NMS)的过程对方案进行过滤，该过程选择包含置信较小框的最大框。这确保每个对象只有一个框。由于NMS依赖于每个边界框预测的置信度，所以必须考虑何时将对象视为同一对象实例的一部分的阈值。由于锚框无法完美拟合对象，回归头的工作是预测这些锚框的偏移，从而将它们变形为最佳拟合的边界框。

探测器还可以专门且仅估计对象的一个子集的框，例如，行人探测器仅用于人。不感兴趣的对象类别被编码到与背景类对应的0类中。在训练期间，背景类的补片/框通常从不包含边界框信息的图像区域随机采样。此步骤允许模型对那些不需要的对象保持不变，例如，它可以学会忽略它们，而不是错误地对它们进行分类。边界框通常以两种不同的格式表示：最常见的是(x1，y1，x2，y2)，其中点p1＝(x1，y1)是框的左上角，p2＝(x2，y2)是右下角。另一种常见的框格式是(cx、cy、高度、宽度)，其中边界框/矩形被编码为框的中心点(cx、cy)和框大小(高度、宽度)。不同的检测方法将根据任务和情况使用不同的编码/格式。

回归头可使用L1损失进行训练，分类头可使用交叉熵损失进行训练。也可以使用对象性损失(是背景还是对象)。最终损失计算为这些损失的总和。个别损失也可以加权，例如：

损失＝λ₁回归损失+λ₂分类损失+λ₃对象性损失

(loss＝λ₁regression_loss+λ₂classification_loss+λ₃objectness_loss) (1)

在一个实施例中，使用了基于更快的RNN的胚胎检测模型。在该实施例中，大约2000个图像用真实边界框手动标记。框上贴上标签，使整个胚胎(包括透明带区域)都在边界框内。如果存在一个以上的胚胎(也称为双胚胎移植)，则两个胚胎均被标记，以使得模型能够区分双胚胎移植和单胚胎移植。由于无法协调在双胚胎移植中哪个胚胎是哪个，因此将模型配置为在检测到双胚胎移植时引发使用错误。具有多个“叶”的模型被标记为单胚胎。

作为GAC分割的替代方法，可以使用语义分割。语义分割是试图预测每个像素的类别或标签的任务。语义分割之类的任务称为像素密集预测任务，因为每个输入像素都需要输出。语义分割模型的设置与标准模型不同，因为它们需要完整的图像输出。通常，语义分割(或任何密集预测模型)具有编码模块和解码模块。编码模块负责创建图像的低维表示(有时称为特征表示)。然后通过解码模块将该特征表示解码为最终输出图像。在训练期间，将预测的标签地图(用于语义分割)与为每个像素分配类别的真实标签地图进行比较，并计算损失。分割模型的标准损失函数为二元交叉熵或标准交叉熵损失(取决于问题是否为多类)。这些实现方式与它们的图像分类的同类一致，不同之处在于损失是按像素(在张量的整个图像通道维度上)应用的。

完全卷积网络(FCN)风格的架构通常用于通用语义分割任务领域。在该架构中，首先使用预训练模型(如ResNet)对低分辨率图像进行编码(约为原始分辨率的1/32，但如果使用扩展卷积，则可以为1/8)。然后将此低分辨率标签地图向上采样到原始图像分辨率，并计算损失。预测低分辨率标签地图背后的直觉是，语义分割掩码的频率非常低，不需要较大解码器的所有额外参数。该模型存在更复杂的版本，使用多级上采样来改善分割结果。简单地说，损失是以渐进的方式在多个分辨率下计算的，以细化每个尺度上的预测。

这种模型的一个缺点是，如果输入数据是高分辨率的，或包含高频信息(即更小/更薄的对象)，低分辨率标签映射将无法捕获这些更小的结构(尤其在编码模型不使用扩展卷积时)。在标准编码器/卷积神经网络中，随着模型的深入，输入图像/图像特征会逐渐减少采样。然而，由于图像/特征是下采样的，关键高频细节可能会丢失。因此，为了解决这一问题，可以使用替代的U-Net架构，而不是在编码器和解码器的对称组件之间使用跳过连接。简单地说，每个编码块在解码器中都有一个对应的块。然后将每个阶段的特征与最低分辨率特征表示一起传递给解码器。对于每个解码块，输入特征表示被上采样以匹配其相应编码块的分辨率。然后，将编码块的特征表示和上采样的低分辨率特征连接起来并通过2D卷积层。通过以这种方式将特征连接，解码器可以学习对每个块的输入进行细化，根据输入选择哪些细节(低分辨率细节或高分辨率细节)要集成起来。

图6C中示出了U-Net架构620的示例。FCN样式模型和U-Net样式模型之间的主要区别在于，在FCN模型中，编码器负责预测低分辨率标签地图，然后对其进行上采样(可能是渐进式的)。然而，直到最后一层，U-Net模型才具有完全完整的标签地图预测。最终，这些模型确实存在许多变体，可以权衡它们之间的差异(例如，混合型)。U-net架构也可以使用预先训练的权重，如ResNet-18或ResNet-50，用于没有足够数据而从头开始训练模型的情况。

在一些实施例中，使用U-Net架构执行分割，使用二元交叉熵对预先训练的ResNet-50编码器进行训练，以识别透明带区域和带内空腔区域。这种基于U-Net架构的分割器通常优于基于活动轮廓的分割，尤其是在质量较差的图像上。图6D至6F示出了根据一个实施例的分割。图6D是第5天胚胎630的图像，包括围绕带内腔(IZC，632)的透明带区域631。在本实施例中，胚胎开始孵化，ISZ从透明带出现(孵化)。胚胎被背景像素633界定。图6E是通过添加填充像素641、642从图6D创建的填充图像640，以创建更容易通过深度学习方法处理的方形图像。图6F示出了一幅透明带图像650，其中IZC被遮罩(652)以留下透明区631和背景像素633，图6G示出了一幅IZC图像660，其中透明区和背景被遮罩(661)，只留下IZC区域632。一旦分割，可以生成除所需区域之外的所有区域都被遮罩的图像集。然后AI模型可以在这些特定的图像集上进行训练。也就是说，AI模型可以分为两类：第一类是包含额外图像分割的模型，第二类是需要整个未分割图像的模型。在遮罩IZC、暴露透明带区域的图像上进行训练的模型称为透明带模型。在训练中，还考虑了在遮罩透明带的图像上训练的模型(称为IZC模型)，以及在完整胚胎图像上训练的模型(即第二组)。

在一个实施例中，为了确保每个图像的唯一性，以使得记录的副本不会影响结果，将新图像的名称设置为等于原始图像内容的散列，作为png(无损)文件。运行时，对于输出目录中不存在的任何图像(如果不存在，将创建该图像)，数据解析器将以多线程方式输出图像，因此，如果这是一个漫长的过程，即使被中断，也可以从同一点重新启动。数据准备步骤还可包括处理元数据以移除与不一致或矛盾记录相关联的图像，并识别任何错误的临床记录。例如，可以在电子表格上运行脚本，以将元数据整合到预定义的格式中。这确保了用于生成和训练模型的数据具有高质量，并具有统一的特征(例如大小、颜色、比例等)。

在一些实施例中，通过识别具有可能不正确的妊娠结果标签(即错误标记的数据)的图像并排除或重新标记所识别的图像来清洗数据。在一个实施例中，这是通过估计与图像相关联的妊娠结果标签不正确的可能性并将该可能性与阈值进行比较来执行的。如果可能性超过阈值，则排除或重新标记图像。可通过使用多个AI分类模型和k折交叉验证方法来估计妊娠结果标签不正确的可能性。在这种方法中，图像被分割成k个互斥的验证数据集。多个AI分类模型中的每一个在k-1个组合的验证数据集上进行训练，然后用于对剩余验证数据集中的图像进行分类。然后根据对图像的妊娠结果标签进行了错误分类的AI分类模型的数量确定可能性。在一些实施例中，深度学习模型可进一步用于学习似然值。

数据经过适当预处理后，可用于训练一个或多个AI模型。在一个实施例中，在预处理期间，在除透明带之外的图像的所有区域都被遮罩的情况下，AI模型是在透明带图像集上训练的深度学习模型。在一个实施例中，多个AI模型被训练，然后使用系综或提炼方法进行组合。AI模型可以是一个或多个深度学习模型和/或一个或多个计算机视觉(CV)模型。深度学习模型可以在完整胚胎图像、透明带图像或IZC图像上进行训练。计算机视觉(CV)模型可以使用机器学习方法，使用从每个图像计算的一组特征描述符生成。每个单独的模型用来估计图像中胚胎的胚胎活力评分，AI模型将选定的模型结合起来，生成一个由AI模型返回的总体胚胎活力评分。

使用随机数据集进行训练。复杂图像数据集可能会出现不均匀分布，特别是如果数据集小于10000个图像，其中在该集合中关键的有活力或无活力胚胎的样本不会均匀分布。因此，一度考虑数据的若干(例如20次)随机化，然后将其分为以下定义的训练子集、验证子集和盲测试子集。所有随机化都用于单个训练示例，以确定哪一个表现出了用于训练的最佳分布。作为推断，确保每个子集中有活力胚胎和无活力胚胎数量的比率相同也是有益的。胚胎图像非常多样化，因此确保图像在测试集和训练集之间均匀分布可用于提高性能。因此，在执行随机化后，计算并测试每个训练集、验证集和盲验证集中具有有活力分类的图像与具有无活力分类的图像的比率，以确保比率相似。例如，这可能包括以下测试：比率的范围是否小于阈值或者是否在考虑图像数量时的某个方差范围内。如果范围不相似，则舍弃随机化，生成并测试新的随机化，直到获得比率相似的随机化。更一般地，如果结果是具有n个状态的n元结果，则在执行随机化之后，计算步骤可包括计算每个训练集、验证集和盲验证集中的每个n元结果状态的频率，并测试频率是否相似，如果频率不相似，则舍弃分配并重复随机化，直到获得频率相似的随机化。

训练还包括执行多个训练和验证周期。在每个训练和验证周期中，总的可用数据集的每次随机化通常分为三个分离的数据集，称为训练数据集、验证数据集和盲验证数据集。在某些变体中，可以使用三个以上的数据集，例如，验证数据集和盲验证数据集可以分层为多个难度不同的子测试集。

第一个数据集是训练数据集，包括至少60％的图像，优选为70-80％的图像。深度学习模型和计算机视觉模型使用这些图像创建胚胎活力评估模型，以准确识别有活力的胚胎。第二个数据集是验证数据集，通常占图像的约(或至少)10％。该数据集用于验证或测试使用训练数据集创建的模型的准确度。尽管这些图像相对于用于创建模型的训练数据集是独立的，但验证数据集在准确度上仍然存在较小的正偏差，因为它用于监控和优化模型训练的进度。因此，训练往往以最大限度地提高这一特定验证数据集的准确度的模型作为目标，当更普遍地应用于其它胚胎图像时，它可能不一定是最佳模型。第三个数据集是盲验证数据集，通常占图像的约10-20％。为了解决上述验证数据集的正偏差的问题，使用第三个盲验证数据集对最终模型进行最终无偏准确度评估。该验证发生在建模和验证过程结束时，即创建并选择最终模型时。重要的是确保最终模型的准确度与验证数据集相对一致，以确保模型可对所有图像适用。由于上述原因，验证数据集的准确度可能高于盲验证数据集。盲验证数据集的结果是模型准确度的更可靠的度量。

在一些实施例中，对数据进行预处理还包括将图像增强，其中对图像进行了更改。这可以在训练之前或训练期间(即，即时)执行。增强可包括直接增强(改变)图像或通过制作具有小改变的图像的副本。任何数量的增强可通过如下来执行：图像的不同数量的90度旋转、镜像翻转、非90度旋转(其中填充对角线边界以匹配背景颜色)、图像模糊、使用强度条形图调整图像对比度，以及在水平和/或垂直方向上应用一个或多个小的随机平移、随机旋转、添加JPEG(或压缩)噪声、随机图像大小调整、随机色调抖动、随机亮度抖动、对比度受限自适应条形图均衡化、随机翻转/镜像、图像锐化、图像浮雕，随机亮度和对比度、RGB颜色偏移、随机色调和饱和度、通道混洗：将RGB切换到BGR或RBG或其它、粗略衰减(coarsedropout)、运动模糊、中值模糊、高斯模糊、随机偏移缩放旋转(即，所有三个组合起来)。同一组增强图像可用于多个训练和验证周期，或者，在每个周期中可以即时生成新的增强。用于CV模型训练的另一增强是改变用于提取特征描述符的随机数生成器的“种子”。获取计算机视觉描述符的技术在提取特征样本时包含随机性元素。这个随机数可以改变并包含在增强中，以便为CV模型提供更强健的训练。

计算机视觉模型依赖于识别图像的关键特征并用描述符表述它们。这些描述符可以对诸如像素变化、灰度、纹理粗糙度、固定角点或图像梯度方向等的质量进行编码，它们在OpenCV或类似库中实现。通过选择要在每个图像中搜索的特征，可以通过发现特征的哪种排列方式是胚胎活力的良好指标来建立模型。这一过程最好通过机器学习过程(例如随机森林或支持向量机)来实现，它们能够根据图像的描述将图像从计算机视觉分析中分离出来。

使用了一系列计算机视觉描述符，包括小型和大型特征，这些特征与传统的机器学习方法相结合，生成用于胚胎选择的“CV模型”。可选地，它们可以稍后与深度学习(DL)模型组合成例如系综模型或用于提炼以训练学生模型。合适的计算机视觉图像描述符包括：

通过霍夫变换获得的透明带：找到内部和外部椭圆以将分开的透明带和带内腔近似处理，并记录半径的平均值和差值作为特征；

灰度共生矩阵(GLCM)纹理分析：通过比较区域内相邻像素来检测不同区域的粗糙度。使用的样本特征描述符有：角度二阶矩(ASM)、同质性、相关性、对比度和熵。该区域的选择是通过随机抽样给定数量的具有给定大小的图像方形子区域获得的，并记录每个区域的五个描述符中的每一个的结果作为特征的总集；

方向梯度条形图(HOG)：使用比例不变特征变换描述符和形状上下文检测对象和特征。该方法优先用于胚胎学和其他医学成像，但其本身并不构成机器学习模型；

来自加速分割测试(FAST)和旋转二进制鲁棒独立基本特征(BRIENT)(ORB)的定向特征：SIFT和SURF特征的行业标准替代品，其依赖于快速关键点检测器(特定像素)和简短描述符组合，并已修改为包括旋转不变性；

二进制鲁棒不变可扩展关键点(BRISK)：一种基于快速的检测器，结合像素强度比较的集合，通过对关键点指定特征周围的每个邻域进行采样来实现；

最大稳定极值区域(MSER)：一种局部形态特征检测算法，通过提取协变区域，协变区域是与从图像中提取的一个或多个灰度集相关的稳定连通分量。

良好跟踪特征(GFTT)：一种特征检测器，使用自适应窗口大小检测角点纹理，使用Harris角点检测或Shi-Tomasi角点检测进行识别，并提取在其空间强度剖面中显示高标准偏差的点。

图7是灰度共生矩阵(GLCM)700的图，示出了样本特征描述符702(ASM、同质性、相关性、对比度和熵)的GLCM相关性，其是在图像701中的六个透明带区域(标记为711至716；交叉阴影线)和六个细胞质/IZC区域(标记为721至726；虚线)的集合上计算的。

计算机视觉(CV)模型通过以下方法构建。选择上面列出的一种(或多种)计算机视觉图像描述符技术，并从训练数据集中的所有图像中提取特征。这些特征被排列成一个组合数组，然后提供给K均值无监督聚类算法，这个数组被称为码本，用于“视觉单词包”。集群数是模型的自由参数。从这一点开始的聚集特征表示通过算法组合使用的“自定义特征”，验证或测试集中的每个单独图像将与之进行比较。每个图像都提取了特征，并分别进行了聚类。对于具有聚类特征的给定图像，使用KD树查询算法测量(在特征空间中)到码本中每个集群的“距离”，该算法给出最近的聚集特征。然后，树查询的结果可以表示为条形图，显示图像中每个特征出现的频率。最后，需要使用机器学习来评估这些特征的特定组合是否对应于胚胎活力的度量。这里，条形图和真实结果用于执行监督学习。用于获得最终选择模型的方法包括随机森林或支持向量机(SVM)。

还可以生成多个深度学习模型。深度学习模型基于神经网络方法，通常是由多个连接层组成的卷积神经网络(CNN)，与基于特征的方法(即CV模型)相比，每层“神经元”包含一个非线性激活函数，如“整流器”、“sigmoid”等，深度学习和神经网络代替了“学习”特征，而不是依赖手工设计的特征描述符。这使他们能够学习为所需任务量身定制的“特征表示法”。这些方法适用于图像分析，由于他们能够提取小细节和整体形态，以实现整体分类，因此可以使用各种深度学习模型，每种模型具有不同的架构(即不同的层数和层间连接)，例如剩余网络(例如ResNet-18、ResNet-50和ResNet-101)，密集连接的网络(如DenseNet-121和DenseNet-161)和其他变体(如Inception V4和Inception-ResNetV2)。深度学习模型可基于稳定性(训练过程中验证集的准确度值的稳定性)、可转移性(训练数据的准确度与验证集的准确度之间的关联程度)和预测准确度(哪些模型提供了最佳的验证准确度，对于有活力胚胎和无活力胚胎都包括：总组合准确度，和平衡准确度，其被定义为两类胚胎的加权平均准确度)进行评估。训练包括尝试模型参数和超参数的不同组合，包括输入图像分辨率、优化器选择、学习率值和调度、动量值、辍学和权重初始化(预训练)。可以定义损失函数来评估模型的性能，且在训练期间，通过改变学习率来优化深度学习模型，以驱动网络权重参数的更新机制，从而将目标/损失函数最小化。

深度学习模型可以使用多种库和软件语言实现。在一个实施例中，PyTorch库用于用python语言实现神经网络。Pytorch库还允许创建利用硬件(GPU、TPU)加速的张量，并包括用于构建神经网络多层的模块。虽然深度学习是图像分类最强大的技术之一，但可以通过使用上述分割或增强提供指导来改进深度学习。研究发现，在深度学习之前使用分割对深度学习方法的性能有显著影响，并有助于生成对比模型。因此，优选地，至少一些深度学习模型是在分割图像(例如，其中透明带已被识别的图像，或者该图像被掩罩以隐藏除透明带区域之外的所有区域)上训练的。在一些实施例中，多个深度学习模型包括至少一个在分割图像上训练的模型，以及一个在未经分割的图像上训练的模型。同样，增强对于生成强健的模型也很重要。

方法的有效性由深度神经网络(DNN)的架构决定。然而，与特征描述符方法不同，在使用分类器之前DNN在整个卷积层中学习特征本身。也就是说，在不手动添加所提议的特征的情况下，DNN可用于检查文献中的现有实践，以及开发以前未使用的描述符，特别是人眼难以检测和测量的描述符。

DNN的架构受作为输入的图像的大小、隐藏层(具有描述DNN的张量的尺寸)和线性分类器(以类标签的数量作为输出)的约束。大多数架构都采用了许多下采样率，使用小(3×3像素)过滤器来捕获左右、上下和中心的概念。a)二维卷积层、b)校正线性单元(ReLU)和c)最大池化层的堆叠允许通过DNN的参数数量保持可解决，同时允许过滤器通过图像的高级(拓扑)特征，将其映射到嵌入图像中的中间和最终微观特征。顶层通常包括一个或多个完全连接的神经网络层，其充当分类器，类似于SVM。通常，Softmax层用于将结果张量归一化为包含完全连接分类器之后的概率。因此，模型的输出是图像无活力或有活力的概率列表。

图8是根据一个实施例的深度学习方法的示意性架构图，该方法包括卷积层，其在训练后将输入图像转换为预测。图8示出了根据一个实施例的基于RESNET 152架构的一系列层。各部件被注释如下。“CONV”表示二维卷积层，它计算来自下面层的输入的互相关。卷积层中的每个元素或神经元仅处理来自其感受野的输入，例如3×3或7×7像素。这减少了描述该层所需的可学习参数的数量，并允许形成比完全连接层构造的神经网络更深的神经网络，其中每个神经元连接到下一层中的每个其他神经元，这是高度记忆密集型的，并且容易过度拟合。卷积层也是空间平移不变的，这对于处理主题无法保证精确居中的图像非常有用。“POOL”指最大池化层，这是一种下采样方法，在给定区域内仅选择具有代表性的神经元权重，以降低网络的复杂性并减少过度拟合。例如，对于卷积层4×4平方区域内的权重，计算每个2×2角块的最大值，然后使用这些代表性值将平方区域的尺寸减小到2×2。RELU表示使用校正线性单元，作为非线性激活函数。作为一个常见的例子，斜坡函数对来自给定神经元的输入x采用以下形式，类似于生物学中神经元的激活：

f(x)＝max(0，x) (2)

在输入通过所有卷积层之后，网络末端的最后一层通常是一个全连接(FC)层，用作分类器。该层接受最终输入并输出一个与分类类别具有相同维数的数组。对于两个类别，例如“有活力的第5天胚胎”和“无活力的第5天胚胎”，最后一层将输出一个长度为2的数组，该数组表示输入图像包含分别与每个类别对齐的特征的比例。通常会添加一个最终softmax层，该层将输出数组中的最终数字转换为0到1之间的百分比，两者加起来总共为1，因此最终输出可以解释为要在其中一个类别中分类的图像的置信限。

一种合适的DNN架构是Resnet(https://ieeexplore.ieee.org/document/7780459)，例如ResNet152、ResNet101、ResNet50或ResNet-18。2016年，ResNet通过使用大量隐藏层和引入“跳过连接”(也称为“剩余连接”)显著提升了该领域。只计算从一层到下一层的差异，这更节省时间，且如果在特定层检测到很少的变化，则跳过该层，从而创建一个网络，该网络将非常快速地调整自身以适应图像中大小特征的组合。特别是ResNet-18、ResNet-50、ResNet-101、DenseNet-121和DenseNet-161通常优于其它架构。另一个合适的DNN架构是DenseNet(https://ieeexplore.ieee.org/document/8099726)，例如DenseNet161、DenseNet201、DenseNet169、DenseNet121。DenseNet是ResNet的一个扩展，现在每一层都可以跳转到任何其它层，跳转连接的数量最大。这种架构需要更多的内存，因此效率较低，但可以在ResNet上表现出更好的性能。由于模型参数较多，因此也容易过度训练/过度拟合。所有模型架构通常与控制方法相结合，尤其是DenseNet-121和DenseNet-161。另一个合适的DNN架构是Inception(-ResNet)(https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewPaper/14806)，例如：InceptionV4、InceptionResNetV2。Inception表示一个更复杂的卷积单元，因此，不是简单地使用第3.2节中描述的固定大小的滤波器(例如3×3像素)，而是并行计算几个大小的滤波器：(5×5、3×3、1×1像素)，其权重为自由参数，因此，神经网络可以在DNN的每一层中优先选择最适合的滤波器。此类架构的扩展以与ResNet相同的方式将其与跳过连接相结合，以创建初始ResNet。尤其是ResNet-18、ResNet-50、ResNet-101、DenseNet-121和DenseNet-161，通常优于其它架构。

如上所述，使用多个训练和验证周期在预处理数据上对计算机视觉和深度学习方法进行训练。训练和验证周期遵循以下框架：

对训练数据进行预处理，并分成多批(每批数据的数量是一个自由模型参数，但控制算法学习的速度和稳定性)。可在分批前或训练期间进行增强。

每批完成后，调整网络的权重，并评估到目前为止的运行总准确度。在一些实施例中，例如使用梯度累积，在批处理期间更新权重。当对所有图像进行评估并执行1个时期后，训练集将被重洗(即，获得一次集合的新随机化)，且对于下一个时期，训练将再次从顶部开始。

根据数据集的大小、数据的复杂程度和所训练模型的复杂程度，在训练期间可能会运行多个时期。最佳时期数通常在2到100之间，但可能更多地取决于具体情况。

在每个时期之后，在验证集上运行模型，而不进行任何训练，以提供模型准确度方面的进展的度量，并指导用户是否应运行更多时期，或者更多时期是否会导致过度训练。验证集指导系综模型参数的选择，或超参数，因此不是真正的盲集。然而，重要的是，验证集的图像分布与训练后运行的最终盲测试集非常相似。

在报告验证集结果时，每个图像可以包含增强(all)或不包含增强(noaug)。此外，可以将每个图像的增强组合起来，以提供图像的更稳健的最终结果。可以使用几种组合/投票策略，包括：平均置信度(取所有增强的模型的推断的平均值)、中值置信度、多数平均置信度(取多数活力评估，仅提供一致者的平均置信度，如果没有多数，则取平均值)，最大置信度、加权平均值、多数最大置信度等。

机器学习领域中使用的另一种方法是转移学习，其中将先前训练的模型用作训练新模型的起点。这也称为预训练。预训练被广泛使用，这允许快速构建新模型。有两种预训练。预训练的一个实施例是ImageNet预训练。大多数模型架构都使用标准图像数据库ImageNet提供一组预先训练的权重。虽然它不特定于医学图像，并且包含一千种不同类型的对象，但它为模型提供了一种已经学会识别形状的方法。所述一千个对象的分类器被完全移除，一个新的生存分类器取代了它。这种预训练优于其他初始化策略。预训练的另一个实施例是定制预训练，它使用先前训练的胚胎模型，其来自具有不同结果集的研究，或者对不同图像的研究(PGS，而不是活力，或者随机分配的结果)。这些模型仅为分类提供了一点好处。

对于未经预训练的模型，或预训练后添加的新层(如分类器)，需要将权重初始化。初始化方法会影响训练的成功。例如，所有设置为0或1的权重会执行得非常糟糕。随机数的统一排列，或随机数的高斯分布，也代表常用的选项。这些算法通常还与标准化方法相结合，如Xavier或Kaiming算法。这解决了一个问题，即神经网络中的节点可能在某个状态下“被困”，即饱和(接近1)或死亡(接近0)，此时很难测量调整与该特定神经元相关的权重的方向。这在引入双曲正切函数或S形函数时尤其普遍，Xavier初始化解决了这一问题。

在Xavier初始化协议中，神经网络权重的随机化方式应确保激活函数各层的输入不会太接近饱和端或死端。然而，ReLU的使用表现更好，不同的初始化提供的好处更小，例如Kaiming初始化。Kaiming初始化更适合于使用ReLU作为神经元非线性激活模式的情况。这有效地实现了与Xavier初始化相同的过程。

在深度学习中，一系列自由参数用于优化验证集上的模型训练。其中一个关键参数是学习率，它决定于每批处理后底层神经元权重的调整程度。训练选择模型时，应避免过度训练或过度拟合数据。当模型包含太多无法拟合的参数，并且基本上“记忆”了数据时，在训练集或验证集上用泛化能力换取准确度，就会发生这种情况。这是要避免的，因为泛化能力是衡量模型是否在数据噪声中正确识别了指示胚胎健康的真实基础参数的真正量度，不能为了完美地拟合训练集而有损于它。

在验证和测试阶段，由于训练阶段的过度拟合，成功率有时会突然下降。这可以通过多种策略来改善，包括减慢或衰减学习率(例如，每n个时期使学习率减半)或使用余弦连接，结合上述张量初始化或预训练方法，以及添加噪声，如辍学层，或批量标准化。批量标准化用于抵消消失或爆炸的梯度，从而提高训练大型模型的稳定性，从而提高泛化。通过引入一个随机机会将整流器接收范围内的所有输入权重设置为零，辍学正则化有效地简化了网络。通过引入噪声，它有效地确保剩余的整流器正确地适合数据的表示，而不依赖于过度专业化。这使得DNN能够更有效地泛化，并且对网络权重的特定值不那么敏感。类似地，批量标准化提高了极深层神经网络的训练稳定性，这使得通过将输入权重转移到零平均值和单位方差作为校正阶段的前兆，实现更快的学习和更好的泛化。

在执行深度学习时，改变神经元权重以实现可接受分类的方法包括需要指定优化协议。也就是说，对于“准确度”或“损失”(下文讨论)的给定定义，应该调整多少权重，以及应该如何使用学习率的值，有许多技术需要指定。合适的优化技术包括动量随机梯度下降(SGD)(和/或Nesterov加速梯度)、增量自适应梯度(Adaptive Gradient with Delta，简称Adadelta)、自适应矩估计(Adam)、均方根传播(RMSProp)和有限记忆Broyden-Fletcher-Goldfarb-Shanno(L-BFGS)算法。其中，基于SGD的技术通常优于其他优化技术。人类胚胎的相差显微镜图像的典型学习率在0.01到0.0001之间。然而，学习率将取决于批量大小，而批量大小取决于硬件容量。例如，更大的GPU允许更大的批量和更高的学习率。

带有动量(和/或Nesterov加速梯度)的随机梯度下降(SGD)代表了最简单和最常用的优化器。梯度下降算法通常计算给定权重对准确度影响的梯度(斜率)。如果需要计算整个数据集的梯度以执行权重更新，则速度较慢，而随机梯度下降则会对每个训练图像执行更新，每次更新一个。虽然这可能会导致总体目标准确度或损失的波动，但与其他方法相比它更容易泛化，因为它能够跳入损失参数景观的新区域，并找到新的最小损失函数。对于在胚胎选择等难题中的噪声损失景观，SGD表现良好。SGD在浏览不对称损失函数曲面曲线时可能会遇到困难，因为不对称损失函数曲面曲线的一侧比另一侧更陡峭，这可以通过添加一个称为动量的参数来补偿。这有助于在方向上加速SGD，并通过在从先前状态导出的权重更新中添加额外评分来抑制准确度的高波动。该方法的一个扩展也包括下一状态中权重的估计位置，该扩展称为Nesterov加速梯度。

增量自适应梯度(Adadelta)是一种算法，用于使学习率适应权重本身，对频繁出现的参数执行较小的更新，对不频繁出现的特征执行较大的更新，非常适合稀疏数据。虽然这可能会在整个数据集的几个时期后突然降低学习率，但添加增量参数可以将累积的过去梯度所允许的窗口限制在某个固定大小。然而，这个过程使得默认的学习率变得多余，并且附加自由参数的自由度在寻找最佳总体选择模型时提供了一些控制。

自适应矩估计(Adam)存储过去平方和非平方梯度的指数衰减平均值，并将其合并到权重更新中。这具有为权重更新方向提供“摩擦力”的效果，并且适用于具有相对较浅或平坦损耗最小值且没有强烈波动的问题。在胚胎选择模型中，使用Adam进行的训练倾向于在训练集中表现良好，但往往训练过度，并且不如使用动量的SGD那么合适。

均方根传播(RMSProp)与上述自适应梯度优化器相关，与Adelta几乎相同，区别在于权重的更新项将学习率除以平方梯度的指数衰减平均值。

有限内存Broyden-Fletcher Goldfarb-Shanno(L-BFGS)算法。虽然计算量很大，但实际估计损失景观(loss landscape)的曲率的L-BFGS算法(而不是其他方法)并没有试图用附加项来弥补估计的不足。当数据集较小时，它的性能往往优于Adam，但在速度和准确度方面并不一定优于SGD。

除上述方法外，还可以包括非均匀学习率。也就是说，可以将卷积层的学习率指定为比分类器的学习率大或小得多。这在预训练模型的情况下是有用的，在这种情况下，对分类器下面的过滤器的更改应保持更“冻结”，并对分类器进行重新训练，以使得预训练不会因额外的重新训练而取消。

当优化器指定如何更新给定特定损失或准确度度量的权重时，在一些实施例中，对损失函数进行修改以纳入分布效应。这些可能包括交叉熵(CE)损失、加权CE、剩余CE、推断分布或自定义损失函数。

交叉熵损失是一种常用的损失函数，其表现倾向于优于真实值和预测值之间的简单均方差。如果网络的结果通过Softmax层，例如这里的情况，则交叉熵的分布导致更好的准确度。这是因为其通过不过于加权遥远的异常值，自然地将正确分类输入数据的可能性最大化。对于表示一批图像的输入数组batch(批次)和表示有活力或无活力的class(类别)，交叉熵损失定义为：

其中，C是class(类别)的数目。在二元情形下，其可简化成：

loss(p，C)＝-(y log(p))+(1-y)log(1-p) (4)

一个优化版本是：

如果数据包含类别偏差，即有活力示例比无活力示例多(或反之亦然)，则损失函数应按比例加权，以使得对数量较少的类别的元素进行第错误分类会受到更严重的惩罚。这是通过将等式(2)的右侧预乘以系数来实现的：

其中N[class]是每个类别的图像总数，N是数据集内的样本总数，C是class(类别)的数目。如有必要，也可以手动将权重偏向有活力的胚胎，以相当于假阳性减少假阴性的数量。

在一些实施例中，可以使用推断分布。虽然在胚胎分类中寻求高水平的准确度很重要，但在模型中寻求高水平的可移植性也很重要。也就是说，了解评分的分布通常是有益的，虽然寻求高准确度是一个重要目标，但有把握地分离有活力的胚胎和无活力的胚胎是一个指标，表明该模型会很好地泛化到测试集。由于在测试集上的准确度经常用于引述与重要临床基准(例如胚胎师对同一胚胎分类的准确度)的比较，因此还应将确保泛化能力纳入对模型成功的逐批评估中。

在一些实施例中，使用自定义损耗函数。在一个实施例中，我们定制了如何定义损失函数，从而改变优化曲面以使全局极小值更加明显，从而提高模型的鲁棒性。为了实现这一点，在保持可微性的损失函数中添加了一个新项，称为残差项，它是根据网络权重定义的。它对每个图像的模型预测值和目标结果的集体差异进行编码，并将其作为正常交叉熵损失函数的额外贡献。对于N个图像，残差项的公式如下：

对于这种自定义损失函数，有活力的和无活力的胚胎评分的间隔合适的集群因此被认为与更高的损失评级一致。需要注意的是，这种自定义损失函数并不特定于胚胎检测应用程序，可以用于其他深度学习模型。

在一些实施例中，将模型组合起来以生成更稳健的最终的AI模型100。也就是说，深度学习和/或计算机视觉模型结合在一起，有助于对胚胎活力的总体预测。

在一个实施例中，使用系综方法。首先，选择性能良好的模型。然后，每个模型对其中一个图像进行“投票”(使用增强或其他方式)，并选择导致最佳结果的投票策略。投票策略的示例包括最大置信度、平均值、多数平均值、中值、平均置信度、中值置信度、多数平均置信度、加权平均值、多数最大置信度等。一旦选择了投票策略，还必须选择增强的组合的评估方法，它描述了系综应如何处理每个旋转，如前所述。在该实施例中，最终的AI模型100因此可以被定义为使用深度学习和/或计算机视觉模型的经过训练的AI模型的集合，以及对定义如何将个体AI模型结果组合起来的投票策略进行编码的模式和定义如何将增强(如果存在)合并的评估模式。

选择模型应这样进行：它们的结果相互形成对比，即，其结果尽可能独立，且评分分布均匀。通过检查每个模型的测试集内哪些图像被正确识别来执行该选择过程。如果在比较两个模型时，被正确识别的图像集非常相似，或者每个模型为给定图像提供的评分彼此相似，则这些模型不被视为对比模型。但是，如果被正确识别的图像动两个集合之间几乎没有重叠，或者为每个图像提供的评分彼此明显不同，则认为这些模型是对比模型。该过程有效地评估了两个不同模型在测试集上的胚胎评分分布是否相似。由于输入图像或分割不同，对比标准以不同的预测结果分布驱动模型选择。该方法避免选择仅在特定临床数据集上表现良好的模型，从而防止过度拟合，从而确保了可翻译性。此外，模型选择也可以使用多样性标准。多样性标准促使模型选择包括不同模型的超参数和配置。原因是，在实践中，相似的模型设置会导致相似的预测结果，因此可能对最终的系综模型没有用处。

在一个实施例中，这可以通过使用计数方法和指定阈值相似性(例如，两个集合中有50％、75％或90％的重叠图像)来实现。在其他实施例中，一个图像集(例如，有活力的集)中的评分可以相加并比较两个集合(总计)，且如果这两个总计小于阈值量，则分级相似。还可以使用基于统计的比较，例如考虑集合中的图像的数量，或者以其他方式比较每个集合中的图像的分布。

在其他实施例中，提炼方法可用于将多个个体AI模型组合起来。在这种方法中，AI模型被用作教师模型来训练学生模型。这些个体AI模型的选择可以使用针对系综方法讨论的多样性和对比标准来执行。还可以使用其他方法从一系列模型中选择最佳模型，或将多个模型的输出组合成单个输出。

生成了一个基于系综的胚胎活力评估模型的实施例，并在IVF诊疗机构进行了两项验证(或基准化)研究，以评估本文所述胚胎活力评估模型的性能(与在职胚胎师相比)。为了便于引述，将其称为系综模型。这些验证研究表明，直接与世界顶尖胚胎师相比，胚胎活力评估模型识别胚胎活力的准确度提高了30％以上。因此，这些研究验证了本文所述的系综模型的实施例对胚胎师的选择决策提供信息通知和支持的能力，这有望帮助改善夫妇的IVF结果。

第一项研究是在澳大利亚一家诊疗机构(莫纳什IVF)进行的前导性研究，第二项研究是在多个诊疗机构和地理位置进行的。这些研究评估了所述基于系综的胚胎活力评估模型的一个实施例的预测第5天胚胎活力(通过临床妊娠来测量)的能力。

对于每个临床研究，IVF过程中的每个患者都可能有多个胚胎可供选择。本文所述的胚胎活力评估模型的实施例用于评估这些胚胎中的每个胚胎的活力并评分。然而，只有植入且妊娠结果已知的胚胎(例如，第一次超声扫描时检测到的胎儿心跳)可用于验证模型的准确度。因此，整个数据集包括植入患者体内的胚胎图像，以及相关的已知结果，所以可以验证模型的准确度(以及性能)。

为了进一步严格验证，用于验证的一些图像包括胚胎师对胚胎活力的评分。在某些情况下，如果仍然是最有利的胚胎选择和/或根据患者的要求，被评分为“无活力”的胚胎仍然可以植入。这些数据可以直接比较系综模型与胚胎师的表现。系综模型和胚胎师的准确度都是以评分为有活力且妊娠结果成功(真阳性)的胚胎数量加上评分为无活力且妊娠结果不成功(真阴性)的胚胎数量，除以被评分的胚胎的总数得到的百分比来衡量的。这种方法用于验证系综模型在直接与顶尖的胚胎师进行比较时是否表现得相当或更好。值得注意的是，并非所有图像在数据集中都有相应的胚胎师评分。

为了将选择模型的准确度与胚胎师采用的当前手工方法进行直接比较，对于至少是囊胚的扩张程度(Ovation Fertility符号中的‘BL’，或Midwest FertilitySpecialists符号中的‘XB’)，使用以下对每个诊疗机构的胚胎师评分的解释。被列为细胞期(例如，10个细胞)、从细胞期压实到桑椹胚或空泡桑椹胚(IVF后第5天囊胚腔小于总体积的50％)的胚胎被认为是无活力的。

表示带内腔(第一个字母)和滋养外胚层(第二个字母)质量的字母等级排列成胚胎质量的带，由胚胎师识别。然后使用下表1进行分割，以表示胚胎是否可能被判断为无活力或有活力。带1至带3被认为可能是有活力的，带4及以上被认为可能是无活力的。在带6中，如果任一字母评分低于“C”，则认为胚胎可能无活力。在带7中，Midwest FertilitySpecialists的评分为“1XX”，表明早期囊胚具有早期(大型)滋养外胚层细胞，且没有明显的带内腔，被认为可能是无活力的。

表1

Ovation Fertility和Midwest Fertility Specialists胚胎师的可能活力评分带

获得了在IVF后第5天拍摄的约20000个胚胎图像的集合，以及相关妊娠和植入前基因筛查(PGS)结果和族群信息，包括患者年龄和诊疗机构地理位置。为本研究提供数据的诊疗机构有：隶属于莫纳什IVF集团(澳大利亚维多利亚州墨尔本)的Repromed(澳大利亚南澳大利亚州阿德莱德)、Ovation Fertility(美国德克萨斯州奥斯汀)、San Antonio IVF(美国德克萨斯州圣安东尼奥)、Midwest Fertility Specialists(美国加利福尼亚州卡梅尔)、生殖健康研究所(Institute for Reproductive Health，美国俄亥俄州辛辛那提)、生育协会(Fertility Associates，新西兰的奥克兰、汉密尔顿、惠灵顿、克赖斯特彻奇和达尼丁)、俄勒冈生殖医学中心(Oregon Reproductive Medicine，美国俄勒冈州波特兰)和阿尔法生育中心(Alpha Fertility Centre，马来西亚雪兰莪州佩塔林贾亚)。

试验中使用的AI模型的生成过程如下。首先，生成一系列模型架构(或模型类型)并使用模型参数和超参数的各种设置，包括输入图像分辨率、优化器选择、学习率值和调度、动量值、退出和权重初始化(预训练)，对每个AI模型进行训练。执行初始过滤以选择表现出稳定性(在训练过程中准确度稳定)、可转移性(训练集和验证集之间准确度稳定)和预测准确度的模型。预测准确度检查了哪些模型提供了最佳验证准确度，包括有活力胚胎和无活力胚胎、总组合准确度和平衡准确度，定义为两类胚胎的加权平均准确度。在一个实施例中，使用ImageNet预训练权重证明了这些数量的提高。损失函数的评估表明加权CE函数和剩余CE损失函数通常优于其他模型。

然后，将模型分为两组：第一组是包含附加图像分割(透明带或IZC识别)的模型，第二组是使用整个未分割图像的模型(即完整胚胎模型)。在遮罩IZC的图像(暴露透明带区域)上训练的模型表示为透明带模型。在训练中也考虑在遮罩透明带的图像上训练的模型(表示为IZC模型)和在完整胚胎图像上训练的模型。选择了一组包含不同架构和预处理方法的模型，以提供多样性并最大限度地提高验证集的性能。

最终的基于系综的AI模型是基于多样性和对比结果选择的性能最高的个体模型的系综。表现出不同方法或从通过机器学习获得的特征中提取不同偏差的各个性能良好的模型，基于每个模型的置信度使用一系列投票策略进行组合。被评估的投票策略包括平均值、中值、最大值、多数平均投票、最大置信度、平均值、多数平均值、中值、平均置信度、中值置信度、多数平均置信度、加权平均值、多数最大置信度等。在一个实施例中，在测试中使用的多数平均投票策略优于其他投票策略，在所有数据集上提供了最稳定的模型。

在本实施例中，最终的基于系综的AI模型包括八个深度学习模型，其中四个是透明带模型，四个是完整胚胎模型。本实施例中使用的最终模型配置如下：

一个完整胚胎ResNet-152模型，使用SGD进行训练，动量＝0.9，CE损失，学习率5.0e-5，每3个时期逐步调度将学习率减半，批量大小为32，输入分辨率为224×224，辍学值为0.1；

一个透明带ResNet-152模型，使用SGD进行训练，动量＝0.99，CE损失，学习率1.0e-5，每3个时期逐步调度将学习率除以10，批量大小为8，输入分辨率为299×299，辍学值为0.1；

三个透明带ResNet-152模型，使用SGD进行训练，动量＝0.99，CE损失，学习率1.0e-5，每6个时期逐步调度将学习率除以10，批量大小为8，输入分辨率为299×299，辍学值为0.1，其中一个以任意角度的随机旋转进行训练；

一个完整胚胎DenseNet-161模型，使用SGD进行训练，动量＝0.9，CE损失，学习率1.0e-4，每5个时期逐步调度将学习率减半，批量大小为32，输入分辨率为224×224，辍学值为0，并使用任意角度的随机旋转进行训练；

一个完整胚胎DenseNet-161模型，使用SGD进行训练，动量＝0.9，CE损失，学习率1.0e-4，每5个时期逐步调度将学习率减半，批量大小为32，输入分辨率为299×299，辍学值为0；

一个完整胚胎DenseNet-161模型，使用SGD进行训练，动量＝0.9，剩余CE损失，学习率1.0e-4，每5个时期逐步调度将学习率减半，批量大小为32，输入分辨率为299×299，辍学值为0，并使用任意角度的随机旋转进行训练。

图8示出了与ResNet-152相对应的架构图，该架构图在最终模型配置中具有重要功能。随后对最终的系综模型进行了验证，并如结果部分所述，在盲测试数据集上进行了测试。

在评估数据上的模型行为时使用的准确度量度包括：敏感性、特异性、总体准确度、预测分布、以及与胚胎师评分方法的比较。对于AI模型，50％以上的胚胎活力评分被认为是有活力的，而低于50％的胚胎活力评分则被认为是无活力的。识别有活力的胚胎的准确度(敏感性)被定义为：被AI模型识别为有活力的胚胎数量除以导致阳性临床妊娠的已知有活力的胚胎总数。识别无活力的胚胎的准确度(特异性)被定义为：被AI模型识别为无活力的胚胎的数量除以导致阴性临床妊娠结果的已知无活力的胚胎总数。AI模型的总体准确度通过敏感性和特异性的加权平均值确定，AI模型的准确度相对于胚胎师的百分比提高被定义为：准确度差值(作为与原始的胚胎师准确度的比例)，即，(AI_准确度–胚胎师_准确度)/胚胎师_准确度。

前导性研究

莫纳什IVF为系综模型提供了大约10000个胚胎图像以及每个图像的相关妊娠和活产数据。提供的其他数据包括患者年龄、BMI、胚胎是新鲜移植还是冷冻移植，以及任何与生育有关的医疗条件。一些图像的数据包含胚胎师对胚胎活力的评分。初步的训练、验证和分析表明，与第4天胚胎相比，第5天胚胎的模型准确度显著提高。因此，第4天的胚胎全部被移除，留下大约5000个图像。用于训练和验证的可用数据集为4650个图像。此初始数据集被分成三个独立的数据集。然后，进一步提供了632个图像，作为第二盲验证数据集。训练和验证的最终数据集包括：

·训练数据集：3892个图像；

·验证数据集：390个图像，其中70个(17.9％)具有成功的妊娠结果，149个图像包括胚胎师对胚胎活力的评分；

·盲验证数据集1：368个图像，其中76个(20.7％)具有成功的妊娠结果，121个图像包括胚胎师对胚胎活力的评分；以及

·盲验证数据集2：632个图像，其中194个(30.7％)具有成功的妊娠结果，477个图像包括胚胎师对胚胎活力的评分

并非所有图像在数据集中都有相应的胚胎师评分。以下列出了数据集的大小以及包括胚胎师评分的子集。

基于系综的AI模型应用于三个验证数据集。系综模型在识别有活力胚胎方面的总体准确度结果如表2所示。两个盲验证数据集的准确度结果是关键的准确度指标，但为了完整性显示了验证数据集的结果。识别有活力胚胎的准确度被计算为：系综模型可识别为有活力(模型的活力评分为50％或更高)的有活力胚胎(即具有成功妊娠结果的图像)的数量除以数据集内有活力胚胎总数得到的百分比。同样，识别无活力的胚胎的准确度计算为：系综模型可识别为无活力(模型的活力评分低于50％)的无活力胚胎(即妊娠结果不成功的图像)的数量除以数据集内无活力胚胎总数得到的百分比。

在使用莫纳什IVF进行验证的第一阶段，将系综模型的训练后的胚胎活力评估模型应用于两组具有已知妊娠结果的胚胎图像盲数据集，总共1000个图像(患者)。图9是根据一个实施例的系综模型的一个实施例在识别胚胎活力中的准确度的曲线图900。结果表明，系综模型910在两个盲验证数据集中识别胚胎活力的总体准确度为67.7％。准确度的计算方法是：将识别为有活力并导致成功结果的胚胎数量加上识别为无活力并导致失败结果的胚胎数量，除以胚胎总数。系综模型识别有活力胚胎的准确度920为74.1％，识别无活力胚胎的准确度930为65.3％。这意味着该胚胎师已经预选并植入患者体内的大量胚胎数据集的准确度有显著提高，其中只有27％的胚胎成功妊娠。

为了进一步严格验证，用于验证的图像子集具有与胚胎活力相关的胚胎师评分(598个图像)。在某些情况下，如果被认为是患者最有利的胚胎选择和/或根据患者的要求，尽管成功的可能性很低，被胚胎师评分为“无活力”的胚胎仍可能被植入。胚胎评分被用作胚胎师评估活力的真实值，从而可以将系综模型的性能与顶尖胚胎师直接比较。

盲验证数据集1或2的最坏情况准确度为：在盲数据集1中识别有活力胚胎的准确度为63.2％，在盲数据集2中识别无活力胚胎的准确度为57.5％，在盲数据集2中总准确度为63.9％。

表3示出了盲数据集1和2的总平均准确度，识别有活力胚胎的准确度为74.1％，识别无活力胚胎的准确度为65.3％，有活力胚胎和无活力胚胎的总准确度为67.7％。

考虑到27％的胚胎导致成功的妊娠结果，而且系综模型的艰巨任务是对已被胚胎师分析并选择为有活力或比同一批次中的其他胚胎更有利的胚胎图像进一步分类，两个表中的准确度值都很高。

表2

应用于三类验证数据集时胚胎活力评估模型的准确度。结果示出了识别有活力胚胎和无活力胚胎的准确度，以及有活力胚胎和无活力胚胎的总准确度。

表3

仅适用于盲验证数据集1和2时，胚胎活力评估模型的总平均准确度。结果示出了识别有活力胚胎和无活力胚胎的准确度，以及有活力胚胎和无活力胚胎的总准确度。

盲验证数据集1&2	有活力	无活力	总计
				总平均准确度	74.1％	65.3％	67.7％

表4示出了将模型的准确度与胚胎师的准确度进行比较的结果。准确度值与上表中的值不同，因为并非数据集中的所有胚胎图像都有胚胎评分，因此下面的结果是每个数据集的子集的准确度值。该表显示，该模型识别有活力胚胎的准确度高于胚胎师。这些结果如图10中的条形图1000所示，系综模型的结果1010在左侧，胚胎师的结果1020在右侧。

表4

系综模型与世界顶尖胚胎师识别有活力/无活力胚胎的准确度比较。

表5示出了模型能够正确识别胚胎活力的次数与胚胎师无法识别胚胎活力的次数的比较，反之亦然。结果表明，与模型正确而胚胎师不正确的情况相比，胚胎师正确而模型不正确的情况较少。这些结果如图11所示。这一结果进一步验证了系综模型的胚胎活力评估模型的高性能和准确度。

表5

总体而言，系综模型在识别胚胎活力方面总共达到66.7％的准确度，而胚胎师根据其评分方法获得51％的准确度(图10)。与胚胎师相比，额外的15.7％的准确度表示系综模型的性能(准确度)显著提高了30.8％(p＝0.021，n＝2，学生t试验)。具体而言，结果表明，当胚胎师不正确时，系综模型能够正确分类胚胎活力148次，反之，当系综模型不正确时，胚胎师仅正确分类胚胎活力54次。图11是一个条形图，示出了系综模型(条1110)与世界顶尖胚胎师(临床医生)(条1120)在正确识别胚胎活力时的准确度，其中胚胎师的评估不正确，与胚胎师相比，在系综模型评估不正确的情况下，胚胎师能够正确识别胚胎活力。这些结果表明，与世界顶尖胚胎师相比，系综模型在识别有活力的和无活力的胚胎上具有明显的优势。对卵子受精的胚胎图像进行了进一步的验证研究，结果相似。

成功的验证表明，系综模型的方法和技术可以应用于胚胎图像，以创建一个能够准确识别有活力胚胎并最终改善夫妇IVF结果的模型。该模型随后在一项更大规模的跨诊疗机构研究中得到进一步验证。

跨诊疗机构研究

在澳大利亚前导性研究之后的一项更广泛的跨诊疗机构研究中，汇集了来自多个族群的超过10000个胚胎图像。在这些图像中，超过8000个与胚胎师对胚胎活力的评分有关。对于训练，每个图像都要被标记为有活力或无活力，以允许深度学习和计算机视觉算法对与胚胎活力相关的模式和特征进行识别。

在第一项跨诊疗机构的研究中，用于开发系综模型的2217个图像(以及相关结果)的可用数据集，以与前导性研究相同的方式被分成三个子集：训练数据集、验证数据集和盲验证数据集。这些研究包括来自以下诊疗机构的数据：Ovation Fertility Austin、SanAntonio IVF、Midwest Fertility Specialists、以及新西兰生殖健康和生育协会研究所(Institute for Reproductive Health and Fertility Associates NZ)。这包括：

·训练数据集：1744个图像，其中886个无活力，858个有活力；

·验证数据集：193个图像，其中96个无活力，97个有活力；

·盲验证数据集1：280个图像，其中139个无活力，141个有活力；

在完成训练、验证和盲验证阶段后，对一个完整的单独的族群进行第二项研究，该族群来源于以下诊疗机构：俄勒冈州生殖医学中心(Oregon Reproductive Medicine)。该数据集包括：

·盲验证数据集2：286个图像，其中106个无活力，180个有活力。

第三项研究利用了来自以下诊疗机构的胚胎镜图像：阿尔法生育中心：

·胚胎镜验证数据集：62个图像，其中32个无活力，30个有活力。

在生成经过训练的基于系综的AI模型时，每个经过训练的模型都使用相同的训练数据集，以使得它们可以以一致的方式进行比较。

应用于混合族群盲验证数据集的基于系综的AI模型的最终结果如下。总准确度的汇总见表6。

表6

应用于跨诊疗机构研究的研究1的盲验证数据集时，基于系综的AI模型的准确度。结果示出了识别有活力胚胎和无活力胚胎的准确度，以及有活力胚胎和无活力胚胎组合的总准确度。

盲验证数据集	有活力	无活力	总计
				模型准确度	99/141＝70.21％	87/139＝62.59％	181/280＝66.43％

以条形图显示的推断分布如图12和13所示。图12是应用于研究1的盲验证数据集时，使用基于系综的AI模型实施例的有活力的胚胎(临床妊娠成功)的推断评分1200的分布图。推断在0和1之间进行归一化，可以解释为置信度评分。模型正确的实例标记在填充有向下粗对角线的框中(真阳性1220)；而模型不正确的实例标记在填充有向上细对角线的框中(假阴性1210)。图13是应用于研究1的盲验证数据集时，使用基于系综的AI模型实施例的无活力的胚胎(临床妊娠失败)的推断评分1300的分布图。推断在0和1之间归一化，可以解释为置信度评分。模型正确的实例标记在填充有向下粗对角线的框中(真阴性1320)，而模型不正确的实例标记在填充有向上细对角线的框中(假阳性1310)。这两组之间有明显的区别。这些条形图显示正确识别和不正确识别的胚胎图像之间有很好的区别，这提供了证据表明该模型将很好地转化为盲验证集。

图13包含假阳性1310中的一个高峰值(框中填充了向上细对角线)，该峰值在图12中的假阴性的等效条形图中并不突出。这种效应的原因可能是由于无法通过胚胎图像本身识别的患者健康因素(如子宫疤痕)的存在。这些因素的存在意味着即使是一个理想的胚胎也可能无法成功植入。这也限制了单独使用胚胎图像分析预测临床妊娠成功的准确度上限。

在选择胚胎时，人们普遍认为，与危害潜在健康的胚胎(假阴性)相比，允许植入无活力的胚胎(假阳性)更为有利。因此，在获得形成基于系综的AI模型的最终的基于系综的AI模型时，已尽可能将残余误差偏置，以优先将假阴性最小化。因此，最终模型的敏感性高于特异性，即，选择有活力胚胎的准确度高于选择无活力胚胎的准确度。为了将模型偏置以优先将假阴性最小化，如果可能的话，将包含在最终的基于系综的AI模型中的模型选择成，使得有活力胚胎图像集上的基于系综的AI模型的准确度高于无活力胚胎图像集上的准确度。如果无法找到模型而使它们结合在一起从而对活力的准确度产生偏差，则有时会在训练期间提供额外的参数，这会增加对将有活力胚胎错误分类的惩罚。

虽然总准确度有助于粗略评估模型的总体功效，但不同族群数据的复杂性必须平均。因此，将结果分解成不同的关键组是有启发性的，如下所述。

研究1：人口统计学横断面

为了探索基于系综的AI模型的行为，考虑了以下族群。首先，新西兰生育协会提供的数据集的准确度低于美国的诊疗机构。这可能是由于该诊疗机构的数据固有的多样性，其中包括许多不同的城市、摄像头过滤器和亮度水平，基于系综的AI模型必须对其取平均值。预计AI在更大数据集上的进一步训练，通过将其与微调训练数据集合并，能够解释相机多样性。包括和不包括NZ(新西兰)数据的准确度如表7和表8所示。

由于来自诊疗机构Midwest Fertility Associates和San Antonio IVF的图像数量较少，样本量太小，无法提供可靠的准确度测量。因此，他们的结果与表7中OvationFertility Austin的结果合并。

表7

应用于研究1的盲验证数据集时，基于系综的AI模型的准确度，按诊疗机构细分。

还对患者年龄对基于系综的AI模型准确度的影响进行了研究，如表7所示。研究发现，年龄大于等于35岁的患者的胚胎图像分类更准确。如果年龄界限提高到38岁，准确度再次提高，这表明基于系综的AI模型对于随着年龄增长而变得更加突出的形态特征更加敏感。

表8

应用于研究1的盲验证数据集时，基于系综的AI模型的准确度，细分成年龄或孵化/未孵化的带。

还考虑了胚胎在移植前是否采用孵化或非孵化方案进行处理。结果发现，与未孵化胚胎相比，AI更容易识别具有更多大体形态特征的孵化胚胎，但孵化胚胎的特异性降低。这可能是因为，在孵化胚胎和未孵化胚胎的混合数据集上训练的基于系综的AI模型倾向于将成功孵化的胚胎与活力相关联。

研究1：胚胎师分级比较

基于系综的AI模型和胚胎师的准确度总结见表9和表10，与第5A节中考虑的族群细分相同。本研究仅考虑具有相应胚胎师评分的胚胎图像。

引用了基于系综的AI模型相对于胚胎师在准确度方面的提高百分比，其定义为准确度差值占原始胚胎师准确度的比例，即，(AI_准确度–胚胎师_准确度)/胚胎师_准确度。研究发现，尽管图像总数的提高率为31.85％，但在特定的族群中，提高率波动很大，因为在每个给定数据集上提高因素对胚胎师的表现高度敏感。

在新西兰生育协会的情形中，胚胎师的表现明显优于其他族群，使用基于系综的AI模型仅提高了12.37％。在基于系综的AI模型表现非常好的情形中，例如OvationFertility Austin，提高率高达77.71％。基于系综的AI模型与胚胎师相比的性能比较也反映在被正确评估的图像总数中，其中其比较器错误评估了相同的图像，如表9和表10的最后两列所示。

表9对于具有胚胎师评分的图像胚胎师比较，按诊疗机构细分。

如果胚胎师评分包含一个数字或术语，其表示胚胎的关于它们的进展或停止方面(细胞数量、致密、桑椹胚、空泡、早期囊胚、完整囊胚或孵化囊胚)的分级，则可以进行另一项研究，比较基于系综的AI模型和胚胎师评估的功效。通过使胚胎师的评估与1到5的数字评分相等，同时将AI推断划分为5个相等的带(从最小推断到最大推断)，标记为1到5，可以对胚胎的分级进行比较。基于系综的AI模型和胚胎师的评分均表示为1到5之间的整数，分级准确度比较如下。

如果基于系综的AI模型和胚胎师对给定的胚胎图像赋予相同的等级，则这被视为一致。然而，如果基于系综的AI模型提供的等级高于胚胎师，且真实结果被记录为有活力，或者基于系综的AI模型提供的等级低于胚胎师，且真实结果被记录为无活力，则该结果被视为模型正确。类似地，如果基于系综的AI模型提供的等级低于胚胎师，且真实结果被记录为有活力，或者基于系综的AI模型提供的等级较高，且结果被记录为无活力，则该结果被视为模型不正确。对于与上述相同的族群细分，表11和表12中列出了评估为一致、模型正确或模型不正确的图像比例的汇总。如果模型正确比例较高，而一致性和模型不正确比例较低，则认为基于系综的AI模型在数据集上表现良好。

表10对于具有胚胎师评分的图像的胚胎师比较，按诊疗机构细分。

表11

胚胎师分级研究，其中分级一致、模型正确或模型不正确的比例表示为每个诊疗机构中的图像总计的百分比。

表12

胚胎师分级研究，其中分级一致、模型正确或模型不正确的比例表示为每个族群中图像总计的百分比。

图14和图15中的条形图分别示出了研究1的整个盲数据集上的来自胚胎师和基于系综的AI模型的分级分布的视觉呈现。图14是整个盲数据集上的从胚胎师评分获得的等级条形图1400，图15是整个盲数据集上的从基于系综的AI模型推断的实施例中获得的等级条形图1500。

图14和图15在分布形状上彼此不同。在等级值3左右胚胎师评分占优势，但对于较低的评分1和2，评分急剧下降；基于系综的AI模型在值2和3左右具有更均匀的评分分布，等级4为占优势的评分。图16是直接从基于系综的AI模型获得的推断评分中提取出来的，在图13中示为条形图用于比较。图12中的等级是图13中评分的粗略版本。图16中更精细的分布表明，在低于50％的评分(预测无活力)1610和更高的评分(预测有活力)1620之间存在明显的差异。这表明与标准评分方法相比，基于系综的AI模型对于胚胎分级提供了更大的粒度，从而能够实现更明确的选择。

研究2：二次盲验证

在研究2中，胚胎图像来自单独的诊疗机构俄勒冈州生殖医学中心，用作二次盲验证。与临床妊娠结果相关的图像总数为286个，与研究1中的盲验证数据集大小相似。应用于混合族群盲验证集的基于系综的AI模型的最终结果见表13。在该盲验证中，与研究1相比，准确度仅下降(66.43％–62.64％＝3.49％)，这表明该模型正在转换为二级盲集。然而，在无活力的胚胎和有活力的胚胎中，准确度的下降并不一致。特异性降低，而敏感性保持稳定。在本试验中，在研究开始前移除了183个来自旧的(>1年)

相机的低质量图像(达不到质量标准)，以防止它们影响基于系综的AI模型正确预测胚胎活力。

表13

应用于俄勒冈州生殖医学中心的研究2的盲验证数据集时，基于系综的AI模型的准确度。结果示出了识别有活力胚胎和无活力胚胎时的准确度，以及有活力胚胎和无活力胚胎合计的总准确度。

盲验证数据集2	有活力	无活力	总计
				临床妊娠准确度	128/180＝71.11％	52/106＝49.06％	181/286＝62.94％

为了进一步探索这一点，进行了一项单独的研究，其中通过引入不均匀裁剪、缩放(模糊)或添加压缩噪声(如jpeg伪影)使胚胎图像连续失真。在每种情况下，都发现基于系综的AI模型预测的置信度随着伪影的增加而降低。而且，发现基于系综的AI模型倾向于将失真图像预测为无活力。从基于系综的AI模型的角度来看这是有意义的，因为该模型无法区分受损胚胎的图像和正常胚胎的受损图像。在这两种情况下，基于系综的AI模型都识别出失真，将图像预测为无活力的可能性增加。

作为对该分析的确认，基于系综的AI模型仅应用于从俄勒冈州生殖医学中心的主要高质量图像集去除的183个Pixelink相机图像，结果如表14所示。

表14

应用于俄勒冈州生殖医学中心的研究2的低质量Pixelink图像时，基于系综的AI模型的准确度。结果示出了识别有活力胚胎和无活力胚胎时的准确度，以及有活力胚胎和无活力胚胎合计的总准确度。

仅Pixelink图像	有活力	无活力	总计
				临床妊娠准确度	15/116＝12.93％	64/67＝95.52％	79/183＝43.17％

从表14可以清楚地看出，在图像失真和图像质量差(即质量评估失败)的情况下，不仅基于系综的AI模型性能会下降，而且更大比例的图像将被预测为无活力。下文将进一步分析基于系综的AI模型在不同相机设置上的行为，以及处理此类伪影以改善结果的方法。以条形图1700和1800示出的推断分布如图17和18所示。正如在研究1中一样，图17和图18都示出了有活力的胚胎和无活力的胚胎的正确预测(1720；1820；框中填充了向下粗对角线)和不正确预测(1710；1810；框中填充了向上细对角线)之间的明显区别。图17和图18之间的分布形状也彼此相似，尽管假阳性的误报率高于假阴性。

研究3：胚胎镜验证

在研究3中，探索了基于系综的AI模型在来自完全不同的相机设置的数据集上的潜在性能。从阿尔法生育中心获得了数量有限的胚胎镜图像，目的是测试基于系综的AI模型，该模型已经主要基于相差显微镜图像进行了训练。胚胎镜图像在胚胎周围有一个清晰明亮的环(来自培养箱灯)和一个位于该环外部的黑暗区域，在研究1中的典型相差显微镜图像中不存在该黑暗区域。在胚胎镜图像上应用该模型而不进行任何额外处理会导致预测不均匀，如表15所示，高比例的图像被预测为无活力，导致假阴性率高，灵敏度低。然而，使用计算机视觉成像技术，一个粗略的、第一次通过(first-pass)的应用程序使图像更接近其预期形式，导致推断的显著再平衡以及准确度的提高。

表15

应用于阿尔法生育中心的研究3的盲验证数据集时，基于系综的AI模型的准确度。结果示出了识别有活力胚胎和无活力胚胎时的准确度，以及有活力胚胎和无活力胚胎的总准确度。

仅Pixelink图像	有活力	无活力	总计
				图像处理前的准确度	8/30＝26.67％	27/32＝84.38％	35/62＝56.45％
图像处理后的准确度	17/62＝56.67％	23/62＝71.88％	40/62＝64.52％

尽管该数据集小，但它提供的证据证明，减少图像形式变化的计算机视觉技术可用于提高基于系综的AI模型的泛化能力。还与胚胎师进行了比较。虽然阿尔法生育中心没有直接提供评分，但发现保守的假设，即预测胚胎有活力(以避免假阴性)，导致准确度与研究1的真正的胚胎师的准确度非常接近。因此，通过做出这一假设，基于系综的AI模型准确度和胚胎师准确度之间的比较可以以相同的方式进行，如表16所示。在这项研究中，发现了33.33％的百分比提高，与从研究1获得的31.85％的总提高差不多。

表16

胚胎师比较。在这种情况下，如果没有记录胚胎师评分，则作为替代措施，假设所有胚胎都被保守地预测为有活力。预期的胚胎师的准确度与研究1中的诊疗机构的结果相似。

在本研究中还可以获得推断的分布，如图19和图20所示。图19是使用基于系综的AI模型的有活力的胚胎(临床妊娠成功)的推断评分分布图1900(假阴性框1910，填充向上的细对角线；真阳性框1920，填充向下的粗对角线)。图20是使用基于系综的AI模型对无活力的胚胎(临床妊娠成功)的推断评分分布图2000(假阴性框1220，填充向上的细对角线；真阳性框2020，填充向下的粗对角线)。虽然研究规模有限(62个图像)，无法清楚地显示分布情况，但可以观察到，在这种情况下，有活力的胚胎和无活力的胚胎的正确预测(1920；2020)和不正确预测(1910；2010)之间的区别要小得多。对于表现出相当不同的额外特征(如，胚胎镜相机设置导致的伪影)的图像，这是期望的。这些额外的伪影对图像有效地增加了噪声，使得提取指示胚胎健康的相关特征变得更加困难。

而且，有活力类别的准确度明显低于无活力类别，导致高的假阴性率。然而，研究发现，即使在对图像进行初级的计算机视觉处理后，这种影响也会大大降低，这为改善处理来自不同相机源的图像提供了证据。此外，预计在后续训练或微调阶段添加胚胎镜图像也会提高性能。

总结

在澳大利亚的一项前导性研究和三项跨诊疗机构研究中，探索了AI模型(包括深度学习和计算机视觉模型)在基于显微镜图像预测胚胎活力方面的功效，以开发一个通用的基于系综的AI模型。

涉及一家澳大利亚诊疗机构的前导性研究能够得到以下结果：识别胚胎活力的总体准确度为67.7％，有活力的胚胎的准确度为74.1％，无活力的胚胎的准确度为65.3％。这使胚胎师的分类率提高了30.8％。这些结果的成功促使了更彻底的跨诊疗机构研究。

在三项独立的跨诊疗机构研究中，开发、验证了一个通用AI选择模型，并对美国、新西兰和马来西亚的不同诊疗机构的一系列族群数据进行了测试。在研究1中，发现与来自各个诊疗机构的胚胎师相比，基于系综的AI模型能够实现较高的准确度，在跨诊疗机构盲验证研究中平均提高了31.85％，这与澳大利亚前导性研究中的提高率接近。此外，从基于系综的AI模型中获得的推断评分的分布表明，有活力胚胎和无活力胚胎的正确预测和不正确预测之间存在明显的分离，这为该模型正确地转换到未来的盲数据集提供了证据。

扩大了与胚胎师评分的比较研究，以考虑胚胎分级的顺序的影响。通过将基于系综的AI模型推断和胚胎师分级转换成1到5之间的整数，可以直接比较基于系综的AI模型如何在胚胎从最有活力到最无活力的分级方面不同于胚胎师。结果发现，基于系综的AI模型再次优于胚胎师，40.08％的图像获得了更好的分级，而只有25.19％的图像获得了更差的分级，34.73％的图像在分级中保持不变。

将基于系综的AI模型应用于第二盲验证集，其准确度在研究1的几个百分点之内。还评估了基于系综的AI模型对受损或扭曲图像的处理能力。研究发现，不符合标准相差显微镜图像的图像，或质量低、模糊、压缩或裁剪不良的图像可能被评估为无活力，且基于系综的AI模型对预测的胚胎图像的置信度降低。

为了了解不同相机硬件的问题以及其对研究结果的影响，获得了胚胎镜图像数据集，并发现当将基于系综的AI模型简单地应用于该数据集时，并未达到对于研究1中原始数据集的高准确度。然而，对图像进行初级数据清洗处理，以处理伪影并系统地降低胚胎镜图像中的噪声，显著改善了结果，使基于系综的AI模型的准确度更接近研究1中的最佳值。由于基于系综的AI模型的能力可以通过将更大、更多样化的数据集纳入训练过程来提高，因此对模型进行微调从而使其能够随着时间的推移自我改进，本文中的三项研究为AI模型作为在不久的将来对胚胎活力进行稳健和一致评估的重要工具的有效性提供了令人信服的证据。

而且，尽管上述示例使用光显微镜和胚胎镜系统的相差图像，但进一步测试表明，该方法可用于使用一系列成像系统捕获的图像。该测试表明，该方法对一系列图像传感器和图像(即不仅仅是胚胎镜和相差图像)具有鲁棒性，包括从视频和延时系统提取的图像。当使用从视频和延时系统提取的图像时，可以定义参考捕获时间点，并且从此类系统提取的图像可以是在时间上最接近该参考捕获时间点的图像，或者是在参考时间之后捕获的第一图像。可以对图像执行质量评估，以确保所选择的图像通过最低质量标准。

已经描述了用于以计算方式生成AI模型的方法和系统的实施例，该AI模型用来使用一个或多个深度学习模型从图像生成胚胎活力评分。对于一组新的用于训练的胚胎图像，通过分割图像以识别透明带和IZC区域，将图像注释为关键形态学成分，可以生成一个新的用于估计胚胎活力的AI模型。然后，在透明带被遮罩的图像上训练至少一个透明带深度学习模型。在一些实施例中，生成包括深度学习模型和/或计算机视觉模型的多个AI模型，并选择表现出稳定性、从验证集到盲测试集的可转移性的模型，且保持预测准确度。这些AI模型可以组合起来，例如使用一个系综模型，该系综模型根据对比度和多样性标准选择模型，并使用基于置信度的投票策略进行组合。一旦训练出合适的AI模型，然后可以部署它来估计新收集的图像的活力。这可以作为云服务提供，允许IVF诊疗机构或胚胎师上传捕获的图像并获得活力评分，以帮助决定是否植入胚胎，或者当有多个胚胎可用时选择哪个胚胎(或哪些胚胎)最有可能有活力。部署可包括将模型系数和模型元数据导出到文件，然后加载到另一计算系统以处理新图像，或重新配置计算系统以接收新图像并生成活力估计值。

基于系综的AI模型的实现包括许多选择，本文所述的实施例包括若干新颖且有利的特征。可以执行图像预处理步骤，如识别透明带和IZC区域的分割、对象检测、图像归一化、图像裁剪，图像清洗如去移旧图像或不合格图像(例如，包含伪影)。

关于深度学习模型，使用分割来识别透明带具有显著效果，最终的基于系综的AI模型具有四个透明带模型。进一步的深度学习模型通常优于计算机视觉模型，最终的模型由八个深度学习AI模型组成。然而，仍然可以使用基于透明带图像的个体AI模型或包含深度学习和CV模型组合的系综(或类似)AI模型生成有用的结果。因此，首选使用一些深度学习模型，其中在深度学习之前执行分割，并有助于生成对比度高的深度学习模型，以用于基于系综的AI模型。还发现图像增强可提高鲁棒性。几个表现良好的架构包括ResNet-152和DenseNet-161(尽管可以使用其他变体)。同样，在几乎所有试验中，随机梯度下降在改变神经元权重方面通常优于所有其他优化协议(其次是Adam)。使用自定义损失函数修改优化曲面，使全局最小值更加明显，从而提高了鲁棒性。发现训练前数据集的随机化，特别是检查数据集在测试和训练集中的分布是否均匀(或相似)，也有显著影响。有活力的胚胎的图像是相当多样的，因此对随机化进行检查提供了针对多样性效应的鲁棒性。使用选择过程选择对比模型(即，它们的结果尽可能独立，评分分布均匀)来构建基于系综的AI模型也提高了性能。这可以通过检查两个模型的有活力图像集合中的重叠来评估。优先考虑减少假阴性(即数据清洗)也有助于提高准确度。如本文所述，在胚胎活力评估模型的情况下，使用体外受精后5天拍摄的图像的模型优于使用更早(例如第4天或之前)拍摄的图像的模型。

使用计算机视觉和深度学习方法的AI模型可以使用这些有利特征中的一个或多个生成，并且可以应用于胚胎以外的其他图像集。参照图1，胚胎模型100可被替换为替代模型，在其他图像数据上进行训练和使用，无论是否具有医学性质。这些方法也可以更普遍地用于基于深度学习的模型，包括基于系综的深度学习模型。可以使用如图3A和3B所示以及上文所述的系统来训练和实现这些功能。

如本文所述地训练的模型可以有效地部署，以对新图像进行分类，从而帮助胚胎师做出植入决策，从而提高成功率(即怀孕)。对基于系综的AI模型的实施例进行了广泛测试，其中基于系综的AI模型用来根据体外受精后五天拍摄的胚胎图像生成胚胎的胚胎活力评分。测试表明，该模型能够清晰地分离出有活力的和无活力的胚胎(见图13)，表10至12和图14至16表明，该模型优于胚胎师。特别是如上述研究所示，基于系综的AI模型的实施例在识别有活力的胚胎(74.1％)和无活力的胚胎(65.3％)方面具有较高的准确度，且在评估图像活力方面显著优于经验丰富的胚胎师30％以上。

本领域技术人员会理解，可以使用各种技术中的任何一种来表示信息和信号。例如，在整个以上描述中可能提及的数据、指令、命令、信息、信号、位、符号和芯片，可以用电压、电流、电磁波、磁场或粒子、光场或粒子或其任何组合来表示。

本领域技术人员将进一步理解，结合本文所公开的实施例描述的各种说明性的逻辑块、模块、电路和算法步骤可以实现为电子硬件、计算机软件或指令、中间件、平台或两者的组合。为了清楚地说明硬件和软件的这种可互换性，上面已经大体上根据其功能描述了各种说明性组件、块、模块、电路和步骤。将这种功能性实现为硬件还是软件取决于特定的应用程序和施加在整个系统上的设计约束。本领域技术人员可以针对每个特定应用以各种方式来实现所描述的功能，但是这些被决定的实现方式不应被解释为导致脱离本发明的范围。

结合本文所公开的实施例描述的方法或算法的步骤可直接体现在硬件、由处理器执行的软件模块或两者的组合中，包括基于云的系统。对于硬件实现，可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计为执行本文所述功能的其他电子单元或其组合内实现处理。可以使用各种中间件和计算平台。

在一些实施例中，处理器模块包括一个或多个中央处理单元(CPU)或图形处理单元(GPU)，用来执行方法的一些步骤。类似地，计算设备可以包括一个或多个CPU和/或GPU。CPU可以包括输入/输出接口、算术和逻辑单元(ALU)以及通过输入/输出接口与输入和输出设备通信的控制单元和程序计数器元件。输入/输出接口可包括网络接口和/或通信模块，用于使用预定义通信协议(例如蓝牙、Zigbee、IEEE 802.15、IEEE 802.11、TCP/IP、UDP等)与另一设备中的等效通信模块通信。计算设备可以包括单个CPU(核心)或多个CPU(多个核心)或多个处理器。计算设备通常是使用GPU集群的基于云的计算设备，但可以是并行处理器、向量处理器或分布式计算设备。存储器可操作地连接到处理器，并且可以包括RAM和ROM组件，并且可以设置在设备或处理器模块内部或外部。存储器可用于存储操作系统和附加软件模块或指令。处理器可用来加载并执行存储在存储器中的软件模块或指令。

软件模块，也称为计算机程序、计算机代码或指令，可包含多个源代码或目标代码段或指令，并可位于在任何计算机可读介质中，如RAM存储器、闪存、ROM存储器、EPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM、DVD-ROM、蓝光光盘或任何其他形式的计算机可读介质。在一些方面中，计算机可读介质可包括非暂时性计算机可读介质(例如，有形介质)。此外，对于其他方面，计算机可读介质可包括暂时性计算机可读介质(例如，信号)。上述的组合也应包括在计算机可读介质的范围内。在另一方面中，计算机可读介质可集成到处理器。处理器和计算机可读介质可以驻留在ASIC或相关设备中。软件代码可以存储在存储器单元中，并且处理器可以用来执行它们。存储器单元可以在处理器内部或处理器外部实现，在这种情况下，可以通过本领域已知的各种手段将其通信地连接到处理器。

此外，应当理解，可以由计算设备下载和/或以其他方式获得用于执行本文所述的方法和技术的模块和/或其他合适的装置。例如，这样的设备可以连接到服务器以使得于用于执行本文描述的方法的装置的传输。可替代地，可以经由存储装置(例如，RAM、ROM、物理存储介质如光盘(CD)或软盘等)来提供本文描述的各种方法，使得在将存储装置连接或提供给计算设备时计算设备可以获得各种方法。而且，用于将本文描述的方法和技术提供给设备的任何其他合适的技术都可以使用。

本文公开的方法包括用于实现所描述的方法的一个或多个步骤或动作。方法步骤和/或动作可以在不脱离权利要求的范围的情况下彼此互换。换句话说，除非指定了步骤或动作的特定顺序，否则可以修改特定步骤和/或动作的顺序和/或使用，而不脱离权利要求的范围。

在整个说明书和所附权利要求中，除非上下文另有要求，术语“包括”、“包含”及其变化形式将被理解为暗示包括所明示的特征或一组特征，但并不排除任何其他特征或一组特征。

本说明书中对任何现有技术的引用不是，也不应被视为承认此类现有技术构成公共常识的一部分的任何形式的意思表示。

本领域技术人员会理解，本发明的用途不限于所描述的一个或多个特定应用。关于本文描述或描绘的特定元件和/或特征，本发明也不局限于其优选实施方式。应当理解的是，本发明不限于所公开的一个或多个实施方式，而是能够在不背离由所附权利要求阐述和限定的范围的情况下进行各种重新排列、修改和替换。

Claims

1.一种用于以计算方式生成人工智能(AI)模型的方法，该AI模型用来从图像估计胚胎活力评分，所述方法包括：

部署所述AI模型。

2.如权利要求1所述的方法，其中，所述透明带图像的集合包括这样的图像，即，在这些图像中被所述透明带区域为界的区域被遮罩。

3.如权利要求1或2所述的方法，其中，生成所述AI模型还包括训练一个或多个附加AI模型，其中，

每个附加AI模型是使用机器学习方法训练的计算机视觉模型，该机器学习方法使用从图像提取的一个或多个计算机视觉描述符的组合来估计胚胎活力评分，在包括透明带和IZC区域的胚胎局部图像上训练的深度学习模型，以及是在带内腔(IZC)图像集上训练的深度学习模型，在该IZC图像中除IZC以外的所有区域都被遮罩，以及使用系综方法将所述至少一个透明带深度学习模型中的至少两个和所述一个或多个附加AI模型组合起来，以从输入图像生成AI模型胚胎活力评分；或者使用提炼方法训练AI模型，以使用所述至少一个透明带深度学习模型和所述一个或多个附加AI模型生成AI模型胚胎活力评分，以生成所述AI模型。

4.如权利要求3所述的方法，其中，使用系综模型生成所述AI模型，其中包括从所述至少一个透明带深度学习模型和所述一个或多个附加AI模型中选择至少两个对比AI模型，进行AI模型选择以生成一组对比AI模型，并对所述至少两个对比AI模型应用投票策略，该投票策略定义了如何将所选择的至少两个对比AI模型组合起来以生成图像的结果评分。

5.如权利要求3所述的方法，其中，选择至少两个对比AI模型包括：

将所述分布进行比较，如果所相关的分布与另一个分布过于相似而无法选择具有对比分布的AI模型，则将模型舍弃。

6.如任一前述权利要求所述的方法，其中，所述预定时间窗口是从受精后5天开始的24小时计时器周期。

7.如任一前述权利要求所述的方法，其中，所述妊娠结果标签是在胚胎移植后12周内进行的真实妊娠结果测量。

8.如权利要求7所述的方法，其中，所述真实妊娠结果测量是是否检测到胎儿心跳。

9.如任一前述权利要求所述的方法，还包括清洗所述多个图像，其中包括识别具有可能不正确的妊娠结果标签的图像，并排除或重新标记所识别的图像。

10.如权利要求9所述的方法，其中，清洗所述多个图像包括：估计与图像相关联的妊娠结果标签不正确的可能性，并与阈值进行比较，然后排除或重新标记可能性超过阈值的图像。

11.如权利要求10所述的方法，其中，通过使用多个AI分类模型和k折交叉验证方法来估计与图像相关联的妊娠结果标签不正确的可能性，其中多个图像被分成k个互斥的验证数据集，多个AI分类模型中的每一个AI分类模型在k-1个组合起来的验证数据集上训练，然后用于对剩余的验证数据集内的图像进行分类，并基于将图像的所述妊娠结果标签错误分类的AI分类模型的数量来确定可能性。

12.如任一前述权利要求所述的方法，其中，训练每个AI模型或生成所述系综模型包括使用多个度量来评估AI模型的性能，所述多个度量包括至少一个准确度度量和至少一个置信度度量，或将准确度和置信度结合的度量。

13.如任一前述权利要求所述的方法，其中，对所述图像进行预处理还包括：通过使用深度学习或计算机视觉方法在所述图像中定位胚胎来裁剪所述图像。

14.如任一前述权利要求所述的方法，其中，对所述图像进行预处理还包括下面的一个或多个：将图像填充、将颜色平衡归一化、将亮度归一化、以及将图像缩放到预定义分辨率。

15.如任一前述权利要求所述的方法，还包括：生成一个或多个增强图像以用于训练AI模型。

16.如任一前述权利要求所述的方法，其中，通过对图像应用下面的一个或多个来生成增强图像：旋转、反射、调整大小、模糊、对比度变化、抖动或随机压缩噪声。

17.如权利要求15或16所述的方法，其中，在AI模型的训练期间，为所述训练集中的每个图像生成一个或多个增强图像，且在所述验证集的评估期间，将针对所述一个或多个增强图像的结果进行组合，以生成所述图像的单个结果。

18.如任一前述权利要求所述的方法，其中，对所述图像进行预处理还包括：使用一个或多个特征描述符模型对图像进行注释，并遮罩除描述符关键点的给定半径内的区域以外的所述图像的所有区域。

19.如任一前述权利要求所述的方法，其中，每个AI模型生成结果评分，其中所述结果是具有n个状态的n元结果，训练AI模型包括多个训练和验证周期，还包括将多个图像随机分配到训练集、验证集或盲验证集内的一个，使得所述训练数据集包含至少60％的图像，所述验证数据集包含至少10％的图像，所述盲验证数据集包含至少10％的图像，并且在将图像分配给所述训练集、验证集和盲验证集之后，计算每个所述训练集、验证集和盲验证集内的每个n元结果状态的频率，并测试这些频率是否相似，如果这些频率不相似，则将所述分配舍弃并重复进行所述随机化，直到获得这些频率相似的随机化。

20.如权利要求3所述的方法，其中，训练计算机视觉模型包括执行多个训练和验证周期，在每个周期中，使用无监督聚类算法基于计算机视觉描述符将所述图像进行聚类，以生成一组集群，使用基于所述图像的所述计算机视觉描述符的值的距离度量将每个图像分配给集群，并使用监督学习方法确定这些特征的特定组合是否对应于结果度量，以及所述多个图像中每个计算机视觉描述符的存在的频率信息。

21.如任一前述权利要求所述的方法，其中，每个深度学习模型是卷积神经网络(CNN)，并且对于输入图像，每个深度学习模型生成结果概率。

22.如任一前述权利要求所述的方法，其中，所述深度学习方法使用用来修改优化曲面的损失函数来强调全局极小值。

23.如任一前述权利要求所述的方法，其中，所述损失函数包括根据网络权重定义的剩余项，该剩余项对来自模型的预测值和每个图像的目标结果中的集体差异进行编码，并将其作为对正常交叉熵损失函数的额外贡献。

24.如任一前述权利要求所述的方法，其中，在基于云的计算系统上使用Web服务器、数据库和多个训练服务器执行该方法，其中所述Web服务器从用户接收一个或多个模型训练参数，所述Web服务器在所述多个训练服务器中的一个或多个上发起训练过程，包括将训练代码上传到所述多个训练服务器中的一个上，所述训练服务器从数据存储库请求所述多个图像和相关联的元数据，并执行准备每个图像的步骤，生成多个计算机视觉模型并生成多个深度学习模型，每个训练服务器用来周期性地将模型保存到存储服务，并将准确度信息保存到一个或多个日志文件，以允许重新启动训练过程。

25.如任一前述权利要求所述的方法，其中，训练所述系综模型以将残余误差偏置，以将假阴性最小化。

26.如任一前述权利要求所述的方法，其中，所述胚胎活力评分是要么有活力要么无活力的二元结果。

27.如任一前述权利要求所述的方法，其中，每个图像都是相差图像。

28.一种用于以计算方式从图像生成胚胎活力评分的方法，所述方法包括：

在计算系统中生成人工智能(AI)模型，该AI模型用来根据权利要求1至27中任一项所述的方法从图像生成胚胎活力评分；

经由所述用户界面将所述胚胎活力评分发送给所述用户。

29.一种用于从图像获得胚胎活力评分的方法，包括：

经由用户界面，将在体外受精(IVF)后的预定时间窗口期间捕获的图像上传到基于云的人工智能(AI)模型，该基于云的AI模型用来从图像生成胚胎活力评分，其中所述AI模型是根据权利要求1至27中任一项所述的方法生成的；

30.一种基于云的计算系统，用来以计算方式生成人工智能(AI)模型，该AI模型用来根据权利要求1至27中任一项所述的方法从图像估计胚胎活力评分。

31.一种基于云的计算系统，用来以计算方式从图像生成胚胎活力评分，其中所述计算系统包括：

用来从图像生成胚胎活力评分的人工智能(AI)模型，其中所述AI模型是根据权利要求1至27中任一项所述的方法生成的；

向所述AI模型提供所述图像以获得胚胎活力评分；以及

经由所述用户界面将所述胚胎活力评分发送给所述用户。

32.一种计算系统，用来从图像生成胚胎活力评分，其中所述计算系统包括至少一个处理器和至少一个存储器，所述至少一个存储器包括指令以将所述至少一个处理器配置成用来：

接收在体外受精(IVF)后的预定时间窗口期间捕获的图像；

经由用户界面，将在体外受精(IVF)后的预定时间窗口期间捕获的图像上传至基于云的人工智能(AI)模型，该AI模型用来从图像生成胚胎活力评分，其中所述AI模型是根据权利要求1至27中任一项所述的方法生成的；

从所述基于云的AI模型接收胚胎活力评分；以及

经由所述用户界面显示所述胚胎活力评分。