CN114846507A - 用于使用人工智能(ai)模型进行非侵入性基因检测的方法和系统 - Google Patents
用于使用人工智能(ai)模型进行非侵入性基因检测的方法和系统 Download PDFInfo
- Publication number
- CN114846507A CN114846507A CN202080081475.1A CN202080081475A CN114846507A CN 114846507 A CN114846507 A CN 114846507A CN 202080081475 A CN202080081475 A CN 202080081475A CN 114846507 A CN114846507 A CN 114846507A
- Authority
- CN
- China
- Prior art keywords
- model
- image
- images
- training
- chromosome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
- G06T7/0014—Biomedical image inspection using an image reference approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10056—Microscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30044—Fetus; Embryo
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
使用基于人工智能(AI)的计算系统,在植入前非侵入性地估计在胚胎图像中是否存在一系列非整倍体和镶嵌体。具有相似不良结果风险的非整倍体和镶嵌体被分组,用它们的组标记训练图像。使用相同的训练数据集为每个组训练单独的AI模型,然后,例如通过使用系综或蒸馏方法将各单独的模型组合起来,以开发可以识别广泛的非整倍体风险和镶嵌风险的模型。通过训练多个模型(包括二元模型、分级分层模型和多类别模型)生成针对一个组的AI模型。具体地,分级分层模型是通过将质量标签分配给图像来生成的。在每一层,训练集被划分成质量最好的图像和其它图像。该层的模型在质量最好的图像上进行训练,其它图像被传递到下一层并重复该过程(于是,剩余的图像被分成下一个质量最好的图像和其它图像)。然后,最终模型可用于在植入前从胚胎图像非侵入性地识别非整倍体和镶嵌体以及相关联的不良后果风险。
Description
优先权文件
本申请要求2019年9月25日提交的发明名称为“用于使用人工智能(AI)模型进行非侵入性基因检测的方法和系统(Method and System for Performing Non-invasiveGenetic Testing Using an Artificial Intelligence(AI)Model)”的澳大利亚临时专利申请第2019903584号的优先权,其全部内容通过引用合并于此。
技术领域
本公开涉及人工智能(AI),包括基于计算机视觉和深度学习的图像分类。在特定形式中,本发明涉及用于非侵入性地识别用于体外受精(IVF)的胚胎中的非整倍体的计算AI方法。
背景技术
人体细胞包含23对染色体(共46条),除非受到不利影响,例如辐射或遗传条件/先天性疾病造成的细胞损伤。在这些情况下,一条或多条染色体可能被全部或部分地改变。这可能会对胚胎发育产生广泛和长期(持续到成年的)的健康影响,了解患者是否表现出这种染色体异常或者是染色体变异的携带者(使他们的孩子易患这种疾病)以便他们得到充分的治疗具有重要的价值。虽然准父母可能有一种或多种遗传倾向,但无法提前预测后代是否会实际表现出一种或多种遗传学异常。
一种常用的辅助生殖技术(ART)是测试胚胎、受精后和进行基因测序,以评估胚胎的基因健康状况,并将其分类为“整倍体”(遗传学正常)或“非整倍体”(表现出基因改变)。
这种筛选技术在IVF过程(胚胎在体外受精,并在受精后大约3到5天重新植入准妈妈体内)中尤为重要。这通常是患者在与IVF医生协商后做出的决定,作为协助诊断这对夫妇经历的潜在生育并发症或早期诊断任何疾病风险并进行选择以预防它们的过程的一部分。
这种筛查过程,被称为植入前遗传学筛查(PGS),或植入前非整倍体基因检测(PGT-A),具有许多使其不够理想的特征,但是,目前在生育行业中它仍然是获取胚胎遗传信息的最可行的选项。
进行PGT-A的最大风险因素是该测试具有高度侵入性,因为通常需要从发育中的胚胎中去除少量细胞(使用一系列活检技术中的一种)才能进行测试。这种技术对胚胎发育的长期影响是不确定的,也没有被完全表征。而且,所有接受PGT-A的胚胎都需要往返于进行活检的实验室,并且需要在诊所延迟数天或数周才能收到结果。这意味着“怀孕时间”(IVF治疗成功的重要衡量指标)被延长,而且所有此类胚胎都必须经过冷冻。由于近年来玻璃化冷冻等现代冷冻技术在胚胎存活率方面与“慢速冷冻”相比有了显著提高,因此现在许多IVF诊所都采用这种技术,即使在进行PGT-A的情况下也是如此。这背后的逻辑是允许准妈妈的激素水平在刺激过度排卵后重新均衡,以增加胚胎着床的可能性。
目前尚不清楚现代玻璃化技术是否对胚胎有害。由于玻璃化技术和PGT-A的流行和广泛接受的使用,特别是在美国,PGT-A被作为常规进行,大多数胚胎都经历了这个过程并为诊所和患者获取遗传数据。
PGT-A性能的另一个问题是由于胚胎“镶嵌”。该术语意味着活检中收集的单个细胞的染色体谱可能不代表整个胚胎,即使在胚胎发育的早期细胞分裂阶段也是如此。也就是说,镶嵌型胚胎是整倍体(染色体正常)细胞和非整倍体细胞(染色体的过量/缺失/修饰)的混合物,且在不同的细胞中可能存在多个不同的非整倍体(包括所有细胞都是非整倍体细胞,胚胎中不存在整倍体细胞的情形)。因此,来自同一胚胎的不同细胞的PGT-A结果可能相互矛盾。由于无法评估活检是否具有代表性,因此此类PGT-A测试的总的准确度/可靠性降低。
因此需要提供用于进行胚胎基因筛选的改进方法,或至少提供现有方法的有用替代方案。
发明内容
根据本发明的第一方面,提供一种用于以计算方式生成非整倍体筛选人工智能(AI)模型的方法,该AI模型用于筛选在胚胎图像中是否存在非整倍体,该方法包括:
定义多个染色体组标签,其中每个组包括一个或多个不同的非整倍体,所述非整倍体包含不同的基因改变或染色体异常;
从第一组图像生成训练数据集,其中每个图像包括在体外受精后捕获的胚胎的图像且被标记有一个或多个染色体组标签,每个标签指示在所述胚胎的至少一个细胞中是否存在与相应的染色体组相关联的至少一个非整倍体,所述训练数据集包括标记有每个染色体组的图像;
从第二组图像生成测试数据集,其中每个图像包括在体外受精后捕获的胚胎的图像且被标记有一个或多个染色体组标签,每个标签指示是否存在与相应的染色体组相关联的至少一个非整倍体,所述测试数据集包括标记有每个染色体组的图像;
使用用于训练所有模型的所述训练数据集分别为每个染色体组训练至少一个染色体组AI模型,其中训练每个染色体组AI模型以识别标记有相关染色体组标签的图像中的形态特征,和/或在训练数据上训练至少一个多组AI模型,其中训练每个多组AI模型以独立识别标记有每个相关染色体组标签的图像中的形态特征,以生成关于输入图像的一个多组输出以指示在所述图像中是否存在与每个染色体组相关联的至少一个非整倍体;
使用所述测试数据集选择针对每个染色体组的最佳染色体组AI模型,或一个最佳多组AI模型;以及
部署所选择的AI模型来筛选在胚胎图像中是否存在一种或多种非整倍体。
在一种形式中,分别为每个染色体组训练至少一个染色体组AI模型的步骤包括:训练分级分层模型和/或训练至少一个多组AI模型,其中训练分级分层模型包括:
训练分层模型的分级序列,其中在每一层,与染色体组相关联的图像被分配第一标签并针对第二组图像进行训练,其中所述第二组图像基于质量的最大水平被分组,且在每个顺序层所述第二组图像是来自前一层中的第二组图像的子集,其质量低于所述前一层中的第二组图像的最大质量。
在另一种形式中,训练分级分层模型包括:
为所述多个图像中的每个图像分配质量标签,其中所述质量标签集包括分级的质量标签集,该分级的质量标签集至少包括“有活力的整倍体胚胎”、“无活力的整倍体胚胎”、“不严重的非整倍体胚胎”和“严重的非整倍体胚胎”;
通过将所述训练集划分为具有“有活力的整倍体胚胎”标签的第一质量数据集和包含所有其它图像的另一个数据集来训练顶层模型,并在标记有染色体组的图像和第一质量数据集内的图像上训练模型;
依次训练一个或多个中间层模型,其中在每个中间层,从另一个数据集内选择具有带最高质量标签的标签的图像,生成下一个质量等级数据集,并在标记有所述染色体组的图像和所述下一个质量等级数据集内的图像上训练模型;以及
在标记有所述染色体组的图像和来自所述前一层的所述其它数据集内的图像上训练基础层模型。
在另一种形式中,在为第一染色体组训练第一基础水平模型之后,对于每个其它染色体组,训练分级分层模型包括:针对用于训练所述第一基础水平模型的所述其它数据集,训练所述其它染色体组。
在另一种形式中,分别为每个染色体组训练至少一个染色体组AI模型的步骤可进一步包括:
为每个染色体组训练一个或多个二元模型,包括:
用“存在”标签标记所述训练数据集内带有与染色体组匹配的标签的图像,用“不存在”标签标记所述训练集内的所有其它图像,使用所述“存在”标签和“不存在”标签训练二元模型以生成关于输入图像的二元输出,以指示在所述图像中是否存在与所述染色体组相关联的染色体异常。
在另一种形式中,分级分层模型均为二元模型。
在一种形式中,每个染色体组标签还包括多个互斥的非整倍体类别,其中所述染色体组内的非整倍体类别的概率之和为1,所述AI模型为经过训练以估计染色体组内每个非整倍体类别的概率的多类别AI模型。在另一种形式中,非整倍体类别可以包括:“丢失”、“插入”、“重复”、“缺失”、“正常”。
在一种形式中,该方法可以还包括:
为每个染色体组生成系综模型,包括:
训练多个最终模型,其中所述多个最终模型中的每一个最终模型基于针对相应组的最佳染色体组AI模型,且所述多个最终模型中的每一个最终模型在具有不同初始条件集和图像排序的训练数据集上训练;以及
根据系综投票策略将多个经过训练的最终模型组合起来。
在一种形式中,该方法可以还包括:
为每个染色体组生成蒸馏模型,包括:
训练多个教师模型,其中所述多个教师模型中的每一个教师模型基于针对相应组的最佳染色体组AI模型,且所述多个教师模型中的每一个教师模型在具有不同初始条件集和图像排序的训练数据集的至少一部分上训练;以及
使用蒸馏损失函数在所述训练数据集上使用多个经过训练的教师模型训练学生模型。
在一种形式中,该方法可以还包括:
接收多个图像,每个图像包括体外受精后拍摄的胚胎图像和一个或多个非整倍体结果;
将所述多个图像分成所述第一组图像和所述第二组图像,并基于相关联的一个或多个非整倍体结果为每个图像分配一个或多个染色体组标签,其中所述第一组图像和所述第二组图像具有相似比例的每个所述染色体组标签。
在一种形式中,每一组包括具有相似的不良结果风险的多个不同的非整倍体。在另一种形式中,所述多个染色体组标签至少包括低风险组和高风险组。在另一种形式中,所述低风险组至少包括1、3、4、5、17、19、20和“47,XYY”号染色体,所述高风险组至少包括13、16、21、“45,X”、“47,XXY”和“47,XXX”号染色体。
在一种形式中,可以在受精后3到5天内捕获图像。
在一种形式中,所述测试数据集内每个染色体组的相对比例与所述训练数据集内每个染色体组的相对比例相似。
根据本发明第二方面,提供一种用于以计算方式生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果的方法,该方法包括:
在计算系统中,根据第一方面的方法生成非整倍体筛选AI模型;
经由所述计算系统的用户界面从用户接收包含在体外受精后捕获的胚胎的图像;
将所述图像提供给所述非整倍体筛选AI模型,以获得关于在所述图像中是否存在一个或多个非整倍体的估计结果;以及
经由所述用户界面向所述用户发送关于在所述图像中是否存在一个或多个非整倍体的报告。
根据本发明的第三方面,提供一种用于获得关于在胚胎图像中是否存在一个或多个非整倍体的估计结果的方法,该方法包括:
经由用户界面向基于云的人工智能(AI)模型上传在体外受精(IVF)之后的预定时间窗口期间捕获的图像,所述AI模型用于生成关于在图像中是否存在一个或多个非整倍体的估计结果,其中所述AI模型是根据第一方面的方法生成的;
经由所述用户界面接收关于在胚胎图像中是否存在一个或多个非整倍体的估计结果。
根据本发明的第四方面,提供一种基于云的计算系统,用于以计算方式生成非整倍体筛选人工智能(AI)模型,该模型被根据第一方面的方法配置。
根据本发明的第五方面,提供一种基于云的计算系统,用来以计算方式生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果,其中该计算系统包括:
一个或多个计算服务器,包括一个或多个处理器和一个或多个存储器,所述存储器用来保存非整倍体筛选人工智能(AI)模型,该非整倍体筛选人工智能(AI)模型用来生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果,其中所述非整倍体筛选人工智能(AI)模型是根据第一方面的方法生成的,且所述一个或多个计算服务器用于:
经由所述计算系统的用户界面从用户接收图像;
将所述图像提供给所述非整倍体筛选人工智能(AI)模型,以获得关于在所述图像中是否存在一个或多个非整倍体的估计结果;以及
经由所述用户界面向所述用户发送关于在所述图像中是否存在一个或多个非整倍体的报告。
根据本发明的第六方面,提供一种计算系统,用来生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果,其中该计算系统包括至少一个处理器和至少一个存储器,该存储器包括用来使所述至少一个处理器执行以下操作的指令:
接收在体外受精(IVF)后的预定时间窗口内捕获的图像;
经由用户界面,将在体外受精(IVF)后的预定时间窗口内捕获的所述图像上传到基于云的人工智能(AI)模型,所述AI模型用于生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果,其中所述AI模型是根据权利要求1至13中任一项所述的方法生成的;
经由所述用户界面接收关于在胚胎图像中是否存在一个或多个非整倍体的估计结果;以及
经由所述用户界面显示所述关于在胚胎图像中是否存在一个或多个非整倍体的估计结果。
附图说明
参考附图讨论本发明的实施例,其中:
图1A是根据一个实施例的以计算方式生成人工智能(AI)模型的方法的流程图,该AI模型用于筛选胚胎图像中是否存在非整倍体;
图1B是根据一个实施例的使用经过训练的非整倍体筛选AI模型,以计算方式生成在胚胎的图像中是否存在一个或多个非整倍体的估计结果的方法的流程图;
图2A是根据一个实施例的二元模型的训练步骤的流程图;
图2B是根据一个实施例的分级分层模型的训练步骤的流程图;
图2C是根据一个实施例的多类别模型的训练步骤的流程图;
图2D是根据一个实施例的选择最佳染色体组AI模型的步骤的流程图;
图3是根据一个实施例的用来以计算方式生成和使用非整倍体筛选AI模型的基于云的计算系统的示意架构;
图4是根据一个实施例的使用非整倍体筛选AI模型帮助选择用于植入的胚胎的IVF程序的示意图;
图5A是根据一个实施例的使用基于云的计算系统生成非整倍体筛选模型的示意流程图;
图5B是根据一个实施例的在训练服务器上的模型训练过程的示意性流程图;
图5C是根据一个实施例的包括卷积层的深度学习方法的示意性架构图,在训练之后卷积层将输入图像转换为预测;
图6A是根据一个实施例的在盲测试集中检测非整倍体21号染色体胚胎的21号染色体AI模型的置信度图,其中低置信度估计结果显示在左侧的对角正斜线填充的条中,高置信度估计结果显示在右侧的对角反斜线填充的条中;
图6B是根据一个实施例的在盲测试集中检测整倍体有活力胚胎的21号染色体AI模型的置信度图,其中低置信度估计结果显示在左侧的对角正斜线填充的条中,高置信度估计结果显示在右侧的对角反斜线填充的条中;
图7A是根据一个实施例的在盲测试集中检测非整倍体16号染色体胚胎的16号染色体AI模型的置信度图,其中低置信度估计结果显示在左侧的对角正斜线填充的条中,高置信度估计结果显示在右侧的对角线反斜线填充的条中;
图7B是根据一个实施例的在盲测试集中检测整倍体有活力胚胎的16号染色体AI模型的置信度图,其中低置信度估计结果显示在左侧的对角正斜线填充的条中,高置信度估计结果显示在右侧的对角反斜线填充的条中;
图8A是根据一个实施例的在盲测试集中检测14、16、18、21和45,X号染色体中的非整倍体的染色体严重组(14、16、18、21和45,X)AI模型的置信度图,其中低置信度估计结果显示在左侧的对角正斜线填充的条中,高置信度估计结果显示在右侧的对角反斜线填充的条中;
图8B是根据一个实施例的在盲测试集中检测整倍体有活力胚胎的染色体严重组(14、16、18、21和45,X)AI模型的置信度图,其中低置信度估计结果显示在左侧的对角正斜线填充的条中,高置信度估计结果显示在右侧的对角反斜线填充的条中。
在下面的描述中,相同的附图标记在整个附图中表示相同或相应的部分。
具体实施方式
描述了用于筛选在胚胎中是否存在非整倍体(基因改变)的或其可能性的非侵入性方法的实施例。这些非整倍体,即基因改变,会导致染色体部分甚至整个染色体的修改、缺失或额外复制。在许多情况下,这些染色体异常会导致胚胎图像中染色体外观发生细微的(有时是清晰的)变化。该方法的实施例使用基于计算机视觉的人工智能(AI)/机器学习模型,完全基于从胚胎的相差显微镜图像(或胚胎的类似图像)提取的形态学数据,检测是否存在非整倍体(即,染色体异常)。AI模型使用计算机视觉技术检测胚胎图像中的通常微妙的形态特征,以估计一系列非整倍体存在(或不存在)的概率或可能性。然后,可以使用该估计结果/信息帮助做出植入决定或决定选择哪些胚胎进行侵入性PGT-A测试。
该系统的优点是它是非侵入性的(即,纯粹针对显微镜图像工作),且通过使用基于云的用户界面上传图像,可以在收集图像后的几秒钟内执行分析,该用户界面在基于云的服务器上使用先前训练过的AI模型分析图像,以将非整倍体(或特定非整倍体)的可能性估计结果快速返回给临床医生。
图1A是用于以计算方式生成非整倍体筛选人工智能(AI)模型的方法100的流程图,该AI模型用于筛选在胚胎图像中是否存在非整倍体。图1B是用于使用经过训练的非整倍体筛选AI模型(即,根据图1A生成的AI模型),以计算方式生成在胚胎图像中存在一个或多个非整倍体的估计结果的方法110的流程图。
对于22种非性染色体,考虑的染色体异常类型包括:与正常染色体结构相比,完全插入、完全丢失、缺失(部分,在染色体内)、重复(部分,在染色体内)。对于性染色体,考虑的异常类型包括:缺失(部分,染色体内),重复(部分,染色体内),完全丢失:“45,X”,与正常XX或正常XY染色体相比三种类型的完整插入:“47,XXX”、“47,XXY”、“47,XYY”。
胚胎也可能表现出镶嵌,其中胚胎中的不同细胞具有不同的染色体组。也就是说,胚胎可以包含一个或多个整倍体细胞和一个或多个非整倍体细胞(即具有一个或多个染色体异常)。而且,可能存在多种非整倍体,不同的细胞具有不同的非整倍体(例如,一个细胞可能在1号染色体上具有缺失,而另一个细胞可能具有X插入,例如47,XXX)。在某些极端情况下,镶嵌型胚胎中的每个细胞都表现出非整倍体(即,没有整倍体细胞)。因此,可以训练AI模型以检测胚胎的一个或多个细胞中的非整倍体,从而检测镶嵌的存在。
AI模型的输出可以表示为结果的可能性,如非整倍体风险评分或胚胎活力评分。应当理解,胚胎活力和非整倍体风险是互补的术语。例如,如果它们是概率,则胚胎存活风险和非整倍体风险的总和可能为1。即,二者都可以衡量不良结果的可能性,例如流产或严重遗传疾病的风险。因此,我们将结果称为非整倍体风险/胚胎活力评分。结果也可以是处于不利结果的特定风险类别的可能性,例如非常低风险、低风险、中等风险、高风险、非常高风险。每个风险类别可以包括一组(至少一个,通常更多)具有相似的不良结果概率的特定染色体异常。例如,极低风险可能是未检测到非整倍体,低风险组可能是1、3、10、12和19号染色体中的非整倍体/镶嵌体,中等风险组可能是4、5以及47,XYY号染色体中的非整倍体/镶嵌体等。可能性可以表示为预定义尺度上的分数、从0到1.0的概率或硬分类,例如硬二元分类(存在/不存在非整倍体)或硬分类为几个组之一(低风险、中等风险、高风险,非常高风险)。
在步骤101中,我们定义了多个染色体组标签。每一组包含一种或多种不同的非整倍体,包括不同的基因改变或染色体异常。不同的非整倍体/基因改变会对胚胎产生不同的影响,导致不同的染色体异常。在染色体组标签中,可以定义单独的镶嵌体类别,如果存在的话,可以是低、中或高,表明同一胚胎可以表现出不同类型的染色体异常。镶嵌的严重(风险)等级也可以考虑表现出镶嵌的细胞数量和/或存在的非整倍体的类型。因此,染色体组标签不仅可以包括受影响的染色体数量,还可以包括是否存在镶嵌(在某种程度上)。这使得可以更精细地描述胚胎的非整倍体或基因健康的进行性水平。存在的镶嵌的严重等级取决于镶嵌所涉及的染色体的严重程度,如下表1中所述。而且,严重等级可能与表现出镶嵌的细胞数量有关。基于临床证据,例如基于PGT-A测试和妊娠结果,可以根据不良结果的风险和严重程度对不同的非整倍体/染色体异常进行分组,从而分配用于植入的优先级(非整倍体风险/胚胎活力评分)。表1列出了10万例妊娠的自然流产和活产中染色体异常的数量和类型,来自Griffiths AJF、Miller JH、Suzuki DT等人的《遗传分析概论》,第7版,纽约:W.H.Freeman;2000年。
表1
10万例妊娠的自然流产和活产中染色体异常的数量和类型,来自Griffiths AJF、Miller JH、Suzuki DT等人的《遗传分析概论》,第7版,纽约:W.H.Freeman;2000年。在由性染色体多余或性染色体缺失定义的情形下,格式为“47”(或“45”)后跟性染色体。
表1或从其它临床研究中获得的类似数据可用于基于风险等级对非整倍体进行分组。那些风险最高的被认为是转移的最低优先级,且被认为是避免植入后不良后果的最高优先级。例如,我们可以基于自然流产例数即每10万例妊娠中少于100例,形成由1、3、4、5、17、19、20和“47,XYY”号染色体组成的第一个低风险组。可以基于自然流产例数即每10万例妊娠中少于200例(并超过100例),定义由2、6-12号染色体组成的中等风险组。可以基于自然流产例数即每10万例妊娠中大于200例,定义由14、15、18和22号染色体组成的高风险组。可以基于自然流产例数即每10万例妊娠中超过1000例或已知会产生对健康有不利影响的活产婴儿,定义由13、16、21、“45,X”、“47,XXY”和“47,XXX”号染色体组成的最后一个非常高风险组。也可以使用其它划分方式,例如可以分成第一组包括1、3、10、12、19和20号染色体,第二个风险稍高的组包括4、5和“47,XYY”号染色体。染色体也可以根据完全添加(三体)、正常配对(二体)和完全缺失(单体)单独分类。例如,3号染色体(二体)可以在与3号染色体(三体)不同的组。通常三体(完全添加)被视为高风险,应该避免。
染色体组可以包括单个染色体,或染色体的子集(例如具有相似风险分布或低于风险阈值的染色体的子集)。染色体组可以定义镶嵌体的特定类型或类别,如胚胎中染色体的类型和非整倍体细胞的计数。然后,这些染色体将成为构建AI/机器学习模型的重点,该模型将识别与该染色体修饰相关联的形态特征。在一个实施例中,使用基于植入优先级/风险分布的类别标签,标记每个图像,例如基于上面列出的分组方式,其基于表1中列出的风险(例如,“低风险”组中的胚胎图像可以被分配类别标签1,“中等风险”组中的胚胎图像可以被分配类别标签2等)。注意,以上分组方式仅是说明性的,在其它实施例中,可以使用其它临床风险分布或其它临床数据或风险因素定义(不同)染色体组,并将染色体组标签分配给图像。如上所述,胚胎可能表现出镶嵌,其中胚胎中的不同细胞具有不同的染色体组,因此(镶嵌型)胚胎是整倍体(染色体正常)和非整倍体细胞(染色体的多余/缺失/修饰)的混合物。因此,可以根据镶嵌体的存在以及存在的非整倍体的类型和数量/范围来定义风险组。在一些实施例中,风险可以基于胚胎中存在的最严重的非整倍体(即使仅存在于单个细胞中)。在其它实施例中,可以定义低风险非整倍体的阈值数量,然后如果非整倍体太多(即,非整倍体的数量超过阈值),就将胚胎重新分类为更高风险。
在步骤102,我们从第一组图像生成训练数据集120。每个图像包括在体外受精后捕获的胚胎图像,并用一个或多个染色体组标签进行标记。每个标签指示是否存在与相应染色体组相关联的至少一个非整倍体。训练数据集被配置成包括用每个染色体组标记的图像,以使得模型暴露于要检测的每个染色体组。还应注意,单个胚胎/图像可能具有多个不同的非整倍体,因此被用多个染色体组标记,并包括在多个染色体组中。
类似地,在步骤103,我们从第二组图像生成测试数据集140。同样,每个图像包括在体外受精后拍摄的胚胎图像,并用一个或多个染色体组标签进行标记。每个标签指示是否存在与相应染色体组相关联的至少一个非整倍体。与训练数据集120一样,测试数据集140包括用每个染色体组标记的图像。
训练集120和测试集140可以使用胚胎的图像生成,其中可以获得PGT-A结果和/或妊娠结果(例如,对于被植入的胚胎),它们可用于标记图像。通常,图像将是体外受精(IVF)后3-5天捕获的胚胎的相差显微镜图像。在体外受精过程中通常会捕获此类图像,以帮助胚胎师决定选择哪个胚胎进行植入。然而,应当理解,可以使用在其它时间、其它照明条件或放大范围下捕获的其它显微镜图像。在一些实施例中,可以使用图像的延时序列,例如,通过将一系列图像组合/连接成被AI模型分析的单个图像。通常,可用的图像池将被分成一个包含大约90%图像的大型训练集和一个小的(剩余的10%)盲保留测试集;即,测试数据集不用于训练模型。训练集120的一小部分,例如10%,也可以分配给验证数据集。优选地,测试数据集120中每个染色体组的相对比例与训练数据集140中每个染色体组的相对比例相似(例如在10%以内,优选在5%以内或更低)。
在步骤104,我们使用用于训练所有模型的同一训练数据集120,为每个染色体组分别训练至少一个染色体组AI模型。每个染色体组AI模型都经过训练,以识别标有相关染色体组标签的图像中的形态特征。作为附加或作为替代,可以在训练数据上训练至少一个多组AI模型。训练每个多组AI模型以独立地识别标记有每个相关染色体组标签的图像中的形态特征,以生成关于输入图像的多组输出,以指示图像中是否存在与每个染色体组相关联的至少一个非整倍体。
然后,在步骤105,我们使用测试数据集为每个染色体组选择最佳染色体组AI模型或选择最佳多组AI模型(取决于在步骤104生成的内容)。在一些实施例中,最终选择的模型将用于生成进一步的系综或知识蒸馏模型。在步骤106,我们部署所选择的AI模型,以筛选在胚胎图像中是否存在一个或多个非整倍体。
因此,构建可以检测/预测广泛的染色体缺陷的非整倍体筛选AI模型的方法是,将问题分解,针对染色体缺陷的子集训练单个目标AI模型,然后将单独的AI模型组合起来检测更大范围的染色体缺陷。如上所述,每个染色体组将被视为彼此独立。每个胚胎(或胚胎图像)可能有多个染色体缺陷,且单个图像可能与多个染色体组相关联。即,镶嵌型胚胎(其中不同的细胞具有不同的非整倍体)可以具有对应于胚胎中存在的每个非整倍体的多个组标记。在每种情况下,都将利用完整的训练数据集来创建机器学习模型(或系综/蒸馏模型)。对于每个关注的染色体组(受能够创建机器学习模型的数据集的质量和总大小的限制),该过程重复多次,以便可以从同一训练数据集创建覆盖不同染色体修饰的多个模型。在某些情况下,这些模型可能彼此非常相似,都是从同一“基础”模型建立的,但在与所考虑的每个染色体对应的最后一层有单独的分类器。在其它情况下,模型可能仅分别处理一个染色体,并使用系综方法或蒸馏方法将这些模型组合在一起。这些场景将在下面结合最佳模型的选择进行讨论。
在一个实施例中,为每个染色体组分别训练至少一个染色体组AI模型103的步骤包括:为每个染色体组训练二元模型、分级分层(多层)模型或单个多组模型中的一个或多个,然后使用测试数据集为该染色体组选择最佳模型。在图2A到2D中对其进一步说明并在下面讨论。图2A、2B和2C示出了根据一个实施例的二元模型137、分级分层模型138和多组模型139的训练步骤的流程图。图2D是根据一个实施例的使用测试数据集140选择最佳染色体组AI模型146的步骤的流程图。
图2A是为染色体组训练二元模型的步骤104a的流程图。用与第i个染色体组匹配的标签,如“存在”标签(或“是”,或1),标记训练集120中的图像,以创建图像的第i个染色体组121。然后,我们用“不存在标签”(或“否”,或0)标记训练集内的所有其它图像,以创建所有其它图像的集合122。然后,我们使用“存在”标签和“不存在”标签(即,在第i个染色体组121和所有其它图像122上)训练二元模型(步骤131),使得二元模型127生成关于输入图像的二元输出,以指示在图像中是否存在(或不存在)与染色体异常相关联的第i个染色体组。“存在”标签通常指示在至少一个细胞中存在(例如,如果有镶嵌),但也可以指示胚胎中细胞的阈值数量,或在所有细胞中存在。
图2B是为染色体组(第i个染色体组121)训练分层模型的分级序列的步骤104b的流程图,我们将其称为分级分层模型(或多层模型)。在本实施例中,其包括训练分层二元模型的分级序列(尽管如下所述,对二元模型的要求可以放宽)。在每一层,与第i个染色体组121相关联的图像被分配第一标签,并针对来自训练数据集120的第二组图像进行训练,其中第二组图像基于最大质量等级分组(质量组)。在每个顺序层,训练中使用的第二组图像是前一层中的第二组图像的子集,其质量低于前一层中的第二组图像的最大质量。也就是说,我们先将数据集分成:被第i个染色体组标记(与第i个染色体组标记关联)的图像,以及数据集内的剩余图像。数据集内剩余的图像被分配一个质量标签。然后在每个等级,我们将当前数据集分成:与数据集内剩余的最高质量等级对应的第一组,以及剩余的较低质量的图像(即图像的残余组)。在下一个等级,先前的残差组进一步分成:对应于(残余)数据集内最高质量等级的第一组,以及剩余的较低质量的图像(成为更新后的残余图像组)。重复此过程,直到我们处于最低等级。
即,第二组(或第二类)包括基于遗传完整性(包括镶嵌在内的染色体缺陷)和活力(如果植入患者体内,有活力的胚胎导致怀孕并被认为是“好”的)的不同质量等级的胚胎图像。分级分层模型方法背后的基本原理是,被认为是高质量的胚胎图像可能在异常最少的图像中具有最高质量的形态特征(即“看起来像最好的胚胎”),因此与包含染色体缺陷的胚胎图像(即“看起来不好或具有异常特征”)相比会具有最大的形态学差异,从而使AI算法能够更好地检测和预测图像的这两种(极端)分类之间的形态特征。
在图2B所示的实施例中,我们将质量标签分配给训练数据集120中的每个图像,其中质量标签集包括质量标签的分级的集合,可用于将训练数据集120划分为不同质量的子集。每个图像都有一个质量标签。在本实施例中,它们包括“有活力的整倍体胚胎”123、“无活力的整倍体胚胎”125、“不严重的非整倍体胚胎”127和“严重的非整倍体胚胎”129。在其它实施例中,它们可以是不利结果的风险类别,例如非常低风险、低风险、中等风险、高风险或非常高风险,或者简单地只是低风险、中等风险和高风险。然后如上所述,将训练数据集划分为:被关注的第i个染色体组,以及剩余的图像。然后,我们通过将训练集划分为具有“有活力的整倍体胚胎”标签的第一质量数据集123以及包含所有其它图像的另一个数据集124,并在标记有第i个染色体组121的图像和第一质量数据集123中的图像上训练二元模型,对顶层二元模型132进行训练。然后,我们依次训练一个或多个(在本例中为两个)中间层二元模型132、133,其中在每个中间层,通过选择具有在另一个数据集内具有最高质量标签的标签的图像生成下一个质量等级数据集,在标记有染色体组的图像和下一个质量数据集内的图像上训练二元模型。因此,我们从顶层中的其它较低质量的图像124中选择“整倍体非有活力胚胎”125,并在来自第i个染色体组121和“整倍体非有活力胚胎”125的图像上训练第一中间层模型133。剩余的其它较低质量的图像126包括“不严重的非整倍体胚胎”127和“严重的非整倍体胚胎”129。在下一个中间层,再次提取下一个质量等级的图像,即“不严重的非整倍体胚胎”127,并在来自第i个染色体组121和“不严重的非整倍体胚胎”127的图像上训练另一个中间层模型133。剩余的其它较低质量的图像128现在包括“严重的非整倍体胚胎”129。然后,我们在标记有第i个染色体组121的图像和来自前一层的另一个数据集(即“严重的非整倍体胚胎”129)内的图像上训练二元基础层模型135。该步骤的输出是经过训练的分级分层(二元)模型138,它将生成关于输入图像的二元输出以指示在图像中是否存在(或不存在)与第i个染色体组相关联的染色体异常。这可以重复多次,以生成多个不同的模型进行比较/选择,包括通过改变层数/质量标签的数量(例如从5个:(非常低风险、低风险、中等风险、高风险、非常高风险)到3(低风险、中等风险、高风险))。
在一些实施例中,在为第一染色体组训练第一二元基础级模型之后,再次用“严重的非整倍体胚胎”129图像训练每个其它染色体组。即,训练分级分层模型包括:针对用于训练第一个二元基础级模型的其它数据集(“严重的非整倍体胚胎”129)训练其它染色体组。在一些实施例中,我们可以跳过中间层,而简单地使用顶层和基础层模型(在这种情况下,基础层在具有多个质量等级的图像上进行训练,但不在“整倍体有活力胚胎”123上进行训练)。
在上面的示例中,模型是单标签模型,其中每个标签只是简单的“存在”/“不存在”(有一定概率)。然而,在另一个实施例中,模型也可以是多类别模型,其中每个独立标签包括多个独立的非整倍体类别。例如,如果组标签是“严重”、“中等”或“轻度”,则每个标签都可以具有非整倍体类别如(“丢失”、“插入”、“重复”、“缺失”、“正常”)。值得注意的是,组标签是独立的,因此一个染色体组中的一种非整倍体的置信度不会影响模型的在另一个染色体组中的非整倍体的置信度,例如他们可以都是高置信度或都是低置信度。标签内的类别是互斥的,因此标签内不同类别的概率之和为1(例如,你不能在同一条染色体上同时有丢失和插入)。因此,每个组的输出是每个类别的概率列表,而不是二元/“是”输出。而且,由于标签是独立的,不同的标签/染色体组可以具有不同的二元/多类别类别,例如有些可能是二元的(整倍体、非整倍体),而另一些可能是多类别的(“丢失”、“插入”、“重复”、“缺失”、“正常”)。也就是说,训练模型以估计一个标签内每个非整倍体类别的概率。也就是说,如果有m个类别,则对于这些类别,输出将是一组m n是/否(存在/不存在,或1/0值)结果(例如,在列表或类似数据结构中)概率,以及该标签的总体概率。
在另一个实施例中,分层模型的分级序列可以是多类别模型和二元模型的混合,或者可以都是多类别模型。也就是说,参考上面的讨论,我们可以用多类别模型替换一个或多个(或全部)二元模型,除了质量标签之外,该多类别模型还可以在一组染色体组上进行训练。就此而言,分层模型的完整分级序列涵盖了训练集内所有可用的组标签。然而,序列中的每个模型都可以仅在一个或多个染色体组的子集上进行训练。以这种方式,可以在大型数据集上训练顶级模型并将数据集分类为一个或多个预测结果。然后在与其中一个结果有关的数据子集上训练序列中的后续模型,进一步将此集合分类为更精细的子组。这个过程可以重复多次以创建一系列模型。通过重复此过程,并更改哪些等级使用二元模型、哪些等级使用多类别模型、以及不同质量标签的数量,可以在训练数据集的不同子集上训练一系列模型。
在另一个实施例中,可以将模型训练为多组模型(单类别或多类别)。也就是说,如果有n个染色体标签/组,不是为每个组分别训练一个模型,而是训练单个多组模型,该多组模型在从数据穿越的单次穿越(a single pass through the data)中,同时估计n个组标签中的每一个。图2C是为染色体组(第i个染色体组121)训练单个多组模型136的步骤104c的流程图。然后,我们使用每个染色体组120和所有其它图像122的存在标签和不存在标签(在二元情况下),在训练数据120上训练单个多组模型136,以生成多组模型139。当出现输入图像时,多组模型139生成多组输出以指示在图像中是否存在或不存在与每个染色体组相关联的至少一个非整倍体。也就是说,如果有n个染色体组,输出将是一组n是/否(存在/不存在,或1/0值)结果(例如,在列表或类似数据结构中)。在多类别的情况下,染色体组中的每个类别都会有额外的概率估计结果。请注意,具体的模型架构(例如,卷积层和池化层的配置)类似于上面讨论的单染色体组模型,但最终的输出层会有所不同,因为对于特定的染色体组并非是二元分类或多类别分类,输出层必须为每个染色体组生成独立的估计结果。输出层的这种变化有效地改变了优化问题,因此与上面讨论的多个单个染色体组模型相比,提供了不同的性能/结果,从而提供了模型/结果的进一步多样性,这可能有助于找到最佳的总的AI模型。而且,多组模型不需要估计/分类所有染色体组,相反,我们可以训练几个(M>1)多组模型,每个模型都估计/分类染色体组的不同子集。例如,如果有n个染色体组,我们可以分别训练M个多组模型,其中每个模型同时估计k个组,M、k和n是整数,且n=M.k。但是请注意,每个多组模型不需要估计/分类相同数量的染色体组,例如,如果我们训练M个多组模型且每个多组模型联合分类km个染色体组,则n=Σm=1..Mkm。
在另一个实施例中,多组模型也可以用在图2B所示的分级分层模型方法中。即,不是为每个染色体组分别训练分级模型(例如,为n个染色体组训练n个分级分层模型),我们可以使用分级方法为所有染色体组训练单个多组模型,其中数据集基于数据集内剩余的图像的质量等级被连续分区(我们在每一层训练新的多组模型)。而且,我们可以使用分级方法训练几个(M>1)多组模型,其中每个多组模型对染色体组的不同子集进行分类,使得所有组都由M个多组模型之一分类。而且,每个多组模型可以是二元模型或多类别模型。
图2D是为第i个染色体组或最佳多组模型选择最佳染色体组AI模型的步骤105的流程图。测试数据集包含被选择用于训练模型的所有整倍体和非整倍体类别的图像。我们采用测试数据集140,并将(未标记的)图像作为输入提供给来自图2A至2D的二元模型137、分级分层模型128和多组模型139中的每一个。我们获得二元模型测试结果141、分级分层模型测试结果142和多组模型测试结果143,并使用第i个染色体组标签145比较模型结果144。然后使用选择标准来选择表现最佳的模型146,例如基于计算一个或多个指标并使用这些指标中的一个或多个将模型相互比较。该指标可以从公认的性能指标列表中选择,例如(但不限于):总准确度、均衡准确度、F1分数、平均类别准确度、精确度、召回率、对数损失或自定义置信度或损失指标,如下所述(例如式(7))。模型在一组验证图像上的性能是根据指标来衡量的,然后相应地选择性能最好的模型。这些模型可以使用次要指标进一步排序,并且该过程重复多次,直到获得最终模型或选出模型(如果需要,用于创建系综模型)。
可以使用系综或知识蒸馏方法进一步完善性能最佳的模型。在一个实施例中,可以通过训练多个最终模型来生成每个染色体组的系综模型,其中多个最终模型中的每一个基于相应组(或多个组,如果选择了多组模型)的最佳染色体组AI模型,且多个最终模型中的每一个都在具有不同初始条件集和图像排序的训练数据集上进行训练。通过根据系综投票策略将多个训练的最终模型组合起来,通过根据它们在上面列出的一个或多个指标上的表现将表现出对比或互补行为的模型组合起来,获得最终的系综模型。
在一个实施例中,生成针对每个染色体组的蒸馏模型。这包括:训练多个教师模型,其中多个教师模型中的每一个都基于针对相应组(或相应的多个组,如果选择了多组模型)最好的染色体组AI模型,且多个教师模型中的每一个在训练数据集的至少一部分上用不同的初始条件和图像排序集进行训练。然后,我们使用蒸馏损失函数在训练数据集上使用多个经过训练的教师模型来训练学生模型。
对每个染色体组重复这些操作,以生成总的非整倍体筛选AI模型150。一旦训练了非整倍体筛选AI模型150,它就可以部署在计算系统中以提供实时(或接近实时)的筛选结果。图1B是根据一个实施例的使用经过训练的非整倍体筛选AI模型以计算方式生成在胚胎图像中是否存在一个或多个非整倍体的估计结果的方法110的流程图。
在步骤111,在计算系统中根据上述方法100生成非整倍体筛选AI模型150。在步骤112,经由计算系统的用户界面从用户接收包含在体外受精之后捕获的胚胎的图像。在步骤113,将图像提供给非整倍体筛选AI模型150以获得在图像中是否存在一个或多个非整倍体的估计结果。然后在步骤114,经由用户界面向用户发送关于图像中是否存在一个或多个非整倍体的报告。
也可以提供相关联的基于云的计算系统,其用来以计算方式生成非整倍体筛选人工智能(AI)模型150,该模型被配置成根据训练方法100生成,估计在胚胎图像中是否存在一个或多个非整倍体(包括在镶嵌现象的情况下是否在至少一个细胞中存在,或是否在胚胎的所有细胞中存在)(方法110)。在图3、4、5A和5B中进一步对其进行说明。
图3是基于云的计算系统1的示意性架构,其用来以计算方式生成非整倍体筛选AI模型150,然后使用该模型生成具有在接收到的胚胎图像中是否存在一个或多个非整倍体的估计结果的报告。输入10包括数据,如胚胎图像和可用于生成标签(分类)的结果信息(是否存在一种或多种非整倍体、是否活产、或成功植入等)。将其作为输入提供给创建计算机视觉模型和深度学习模型的模型创建过程20,这些模型被组合起来生成非整倍体筛选AI模型以分析输入的图像。其也可以称为非整倍体筛选人工智能(AI)模型或非整倍体筛选AI模型。基于云的模型管理和监控工具(我们称之为模型监控器21)用于创建(或生成)AI模型。其使用了一系列链接服务,例如亚马逊网络服务(AWS),它管理与图像分析和模型特定相关的该模型的训练、日志记录和跟踪。可以使用其它云平台上的其它类似服务。这些服务可以使用深度学习方法22、计算机视觉方法23、分类方法24、统计方法25和基于物理的模型26。模型生成还可以使用领域专业技术12(如,来自胚胎师、计算机学家、科学/技术文献等的领域专业技术,例如关于在计算机视觉模型中提取和使用什么特征)作为输入。模型创建过程的输出是非整倍体筛选AI模型的实例,在本实施例中该模型是经过验证的非整倍体筛选(或胚胎评估)AI模型150。可以使用具有相关结果数据的其它图像数据,生成其它的非整倍体筛选AI模型150。
使用基于云的交付平台30,其为用户40提供访问系统的用户界面42。参考图4进一步说明这一点,图4是根据一个实施例的IVF程序200的示意图,该程序使用非整倍体筛选AI模型150帮助选择用于植入的胚胎,或选择拒绝哪个胚胎,或选择哪个胚胎进行侵入性PGT-A测试。在第0天,使采集的卵受精(202)。然后将其体外培养数天,然后例如使用相差显微镜捕获胚胎的图像(204)。优选地,该模型被训练并用于参考特定纪元(epoch)在同一天或在特定时间窗口期间捕获的胚胎图像。在一个实施例中,时间是24小时,但也可以使用其它时间窗口,例如12小时、36小时或48小时。通常,最好是较小的时间窗口24小时或更短,以确保在外观上具有更大的相似性。在一个实施例中,其可以是特定的一天(从一天的开始(0:00)到一天的结束(23:39)的24小时窗口),或者是诸如第4天或第5天的特定的几天(从第4天开始的48小时窗口)。或者,时间窗口可以定义窗口大小和纪元,例如以第5天为中心的24小时(即第4.5天到第5.5天)。时间窗口可以是开放的且具有下限,例如至少5天。如上所述,虽然最好使用第5天前后24小时的时间窗口中的胚胎图像,但可以理解,可以使用更早期的胚胎,包括第3天或第4天的图像。
通常几个卵子会同时受精,因此会获得多个图像,以考虑哪一个胚胎最适合植入(即最有活力)(这可能包括识别由于严重缺陷的高风险而要排除的胚胎)。用户例如使用“拖放”功能经由用户界面42将捕获的图像上传到平台30。用户可以上传单个图像或多个图像,例如,以帮助从考虑植入的多个胚胎的集合中选择哪个胚胎(或拒绝哪个胚胎)。平台30接收保存在包括图像存储库的数据库36中的一个或多个图像312。基于云的交付平台包括按需云服务器32,可以进行图像预处理(例如,对象检测、分割、填充、归一化、裁剪、居中等),然后将处理后的图像提供给经过训练的AI(非整倍体)筛选模型150,其在按需云服务器32之一上执行,分析图像以产生非整倍体风险/胚胎存活力评分314。生成模型结果(例如存在一个或多个非整倍体的可能性、或二元调用(使用/不使用)、或从模型获得的其它信息)的报告(316),并将其例如经由用户界面42发送或以其它方式提供给用户40。用户(例如胚胎师)经由用户界面接收非整倍体风险/胚胎活力评分和报告,然后可以使用报告(可能性)帮助决定是否植入胚胎,或者集合中的哪个胚胎最应该植入。然后植入205所选择的胚胎。为了帮助进一步完善AI模型,可以向系统提供妊娠结果数据,例如在植入后的第一次超声扫描(通常在受精后6-10周左右)中检测到(或未检测到)心跳,或来自PGT-A测试的非整倍体结果。这使得在更多数据可用时,对AI模型进行重新训练和更新。
可使用一系列成像系统(如现有IVF诊疗机构中的成像系统)捕获图像。这样做的好处是不需要IVF诊疗机构购买新的成像系统或使用专门的成像系统。成像系统通常是用来捕获胚胎的单相差图像的光学显微镜。然而,应当理解,可以使用其它成像系统,尤其是使用一系列成像传感器和图像捕获技术的光学显微镜系统。其可以包括相差显微镜、偏振光显微镜、微分干涉差(DIC)显微镜、暗场显微镜和亮场显微镜。可以使用配备有照相机或图像传感器的常规光学显微镜捕获图像,或者可以使用具有能够拍摄高分辨率或高放大率图像的集成光学系统(包括智能电话系统)的照相机捕获图像。图像传感器可以是CMOS传感器芯片或电荷耦合器件(CCD),每个传感器都具有相关的电子器件。光学系统可用来收集特定波长或使用包括带通滤波器的滤波器来收集(或排除)特定波长。一些图像传感器可用来对特定波长的光或在包括红外(IR)或近红外的光学范围之外的波长的光进行操作或对其敏感。在一些实施例中,成像传感器是在多个不同波长范围收集图像的多光谱照相机。照明系统也可用于用特定波长、特定波段或特定强度的光照亮胚胎。可以使用停止和其它组件来限制或修改图像(或图像平面)某些部分的照明。
而且,本文所述实施例中使用的图像可以来自视频和延时成像系统。视频流是图像帧的周期性序列,其中图像帧之间的间隔由捕获帧速率(例如24或48帧/秒)定义。类似地,延时系统以非常慢的帧速率(例如1个图像/小时)捕获图像序列,以在胚胎生长(受精后)时获得图像序列。因此,可以理解,在本文描述的实施例中使用的图像可以是从视频流提取的单个图像或者胚胎的图像的延时序列。在从视频流或延时序列提取图像的情况下,可将要使用的图像选择成捕获时间最接近参考时间点(例如受精后5.0天或5.5天)的图像。
在一些实施例中,预处理可以包括图像质量评估,以使得如果图像未通过质量评估,则可将图像排除。如果原始图像未通过质量评估,则可以再捕获一个图像。在从视频流或延时序列中选择图像的实施例中,所选择的图像是最接近参考时间的通过质量评估的第一图像。或者,可以定义参考时间窗口(例如,第5.0天开始后30分钟)以及图像质量标准。在本实施例中,所选择的图像是在选择参考时间窗口期间具有最高质量的图像。用于执行质量评估的图像质量标准可以基于像素颜色分布、亮度范围和/或指示质量差或设备故障的异常图像特性或特征。可以通过分析图像的参考集来确定阈值。这可以基于从分布中提取异常值的手动评估或自动系统。
可以参照图5A进一步理解非整倍体筛选AI模型150的生成,图5A是根据一个实施例的使用基于云的计算系统1生成非整倍体筛选模型150的示意流程图,该AI模型150用来估计在图像中是否存在非整倍体(包括镶嵌)。参考图5B,该生成方法由模型监控器21处理。
模型监控器21允许用户40向包括数据存储库的数据管理平台提供图像数据和元数据(步骤14)。执行数据准备步骤,例如,以将图像移动到特定文件夹,并对图像进行重命名和预处理(如,对象检测、分割、阿尔法通道移除、填充、裁剪/定位、归一化、缩放等)。还可以计算特征描述符,并预先生成增强图像。然而,也可以在训练期间(即在运行中)执行包括增强在内的额外预处理。还可以对图像进行质量评估,以允许拒绝明显较差的图像,并允许捕获替换图像。类似地,对患者记录或其它临床数据进行处理(准备)以增加胚胎活力分类(例如,有活力的或无活力的),该分类与每个图像链接或关联,以能够用于训练机器学习和深度学习模型。将准备好的数据加载(步骤16)到云提供商(例如AWS)模板服务器28上,其具有最新版本的训练算法。保存模板服务器,并在一系列训练服务器集群37上制作多个副本,训练服务器集群37可以是基于CPU、GPU、ASIC、FPGA或TPU(张量处理单元)的训练服务器集群,它们形成(本地)训练服务器35。
然后,针对用户40提交的每个作业,模型监控器Web服务器31从多个基于云的训练服务器35申请训练服务器37。每个训练服务器35使用诸如Pytorch、Tensorflow或等效的库来运行用于训练AI模型的预先准备的代码(来自模板服务器28),并且可以使用诸如OpenCV的计算机视觉库。PyTorch和OpenCV是开源库,具有用于构建CV机器学习模型的低级命令。
训练服务器37管理训练过程。其可包括:例如使用随机分配过程将图像划分为训练集、验证集和盲验证集。而且,在训练和验证周期中,训练服务器37还可以在周期开始时将图像集随机化,以使得在每个周期分析不同的图像子集,或者以不同的顺序分析不同的图像子集。如果之前未执行预处理或预处理不完整(例如,在数据管理期间),则可执行额外的预处理,包括对象检测、分割和生成遮罩数据集(例如,仅IZC图像)、计算/估计CV特征描述符,以及生成数据增强。根据需要,预处理还可以包括填充、归一化等。也就是说,预处理步骤102可以在训练之前、训练期间或以某种组合(即分布式预处理)执行。可以从浏览器界面管理正在运行的训练服务器35的数量。随着训练的进行,有关训练状态的日志记录信息被记录到分布式日志记录服务,如云监控(CloudWatch)60上(步骤62)。关键患者和准确度信息也从日志中解析出来并保存到关系数据库36中。还定期地将模型保存到数据存储器(例如,AWS简单存储服务(S3)或类似的云存储服务)50中(步骤51),以使得在以后检索和加载它们(例如,在发生错误或其它停止时重新启动)。如果训练服务器的作业完成或遇到错误,则向用户40发送关于训练服务器的状态的电子邮件更新(步骤44)。
在每个训练集群37中都会发生很多个过程。一旦集群经由Web服务器31启动,脚本将自动运行,读取准备好的图像和患者记录,并开始所请求的特定Pytorch/OpenCV训练代码71。模型训练28的输入参数由用户40经由浏览器界面42或经由配置脚本提供。然后针对所请求的模型参数启动训练过程72,其可能是一项漫长而高强度的任务。因此,为了在训练过程中不丢失进度,日志会被定期保存到日志记录(例如AWS Cloudwatch)服务60(步骤62),模型的当前版本(训练时的)会被保存到数据(例如S3)存储服务51(步骤51),以供以后检索和使用。图5B示出了训练服务器上的模型训练过程的示意流程图的一个实施例。通过访问数据存储服务上的一系列经过训练的AI模型,可以例如使用系综、蒸馏或类似方法将多个模型组合在一起,以合并一系列深度学习模型(如Pytorch)和/或目标计算机视觉模型(如OpenCV),生成提供给基于云的交付平台30的更强健的非整倍体筛选AI模型100。
然后,基于云的交付平台30系统允许用户10将图像直接拖放到Web应用程序34上,Web应用程序34准备图像并将图像传递给经过训练/验证的非整倍体筛选AI模型30,以获得胚胎活力评分(或非整倍体风险),其立即在报告中返回(如图4所示)。Web应用程序34还允许诊疗机构将图像和患者信息等数据存储在数据库36中,创建关于数据的各种报告,为其组织、集团或特定用户创建关于工具使用情况的审计报告,以及收费和用户帐户(例如,创建用户、删除用户、重置密码、更改访问级别等)。基于云的交付平台30还允许产品管理员访问系统以创建新的客户帐户和用户、重置密码,以及访问客户/用户帐户(包括数据和屏幕),以利于技术支持。
现在更详细地讨论生成用来从图像估计非整倍体风险/胚胎活力评分的AI模型的实施例中的各种步骤和变化。参考图3,该模型被训练,并使用受精后5天(即从第5天的00:00到第5天的23:59的24小时期间)捕获的图像。但是如上所述,仍然可以使用较短的时间窗口(如12小时),较长的时间窗口48小时,或甚至没有时间窗口(即开放式),来开发有效模型。可以在其它日子,例如第1、2、3或4天,或受精后的最短时间段如至少3天或至少5天(例如开放式时间窗口),拍摄更多的图像。然而,通常优选(但不是绝对必要),用于AI模型训练并随后由经过训练的AI模型进行分类的图像是在类似且优选为相同的时间窗口(例如,相同的12、24或48小时时间窗口)期间拍摄的。
在分析之前,每个图像都经过预处理(图像准备)。可以应用一系列预处理步骤或技术。可以在添加到数据存储器14之后或在被训练服务器37训练期间执行该操作。在一些实施例中,对象检测(定位)模块用于检测和定位胚胎上的图像。对象检测/定位包括估计包含胚胎的边界框。这可用于图像的裁剪和/或分割。图像也可以用给定的边界填充,然后将颜色平衡和亮度标准化。然后对图像进行裁剪,使胚胎的外部区域接近图像的边界。这是通过使用计算机视觉技术进行边界选择实现的,包括使用AI对象检测模型。
图像分割是一种计算机视觉技术,可用于为某些模型准备图像,以挑选出模型训练重点关注的相关区域,例如带内腔(IZC)、胚胎内的单个细胞(即细胞边界以协助识别镶嵌)或其它区域,如透明带。如上所述,镶嵌发生在胚胎中的不同细胞拥有不同染色体组的情况下。即,镶嵌型胚胎是整倍体(染色体正常)和非整倍体细胞(染色体过量/缺失/修饰)的混合物,可能存在多个存在不同的非整倍体,在某些情况下可能不存在整倍体细胞。分割可用于识别IZC或细胞边界,从而将胚胎分割成单个细胞。在一些实施例中,生成胚胎的多个遮罩(增强)图像,其中除了单个细胞之外的每个图像都被遮罩。也可以对图像进行遮罩以仅生成IZC的图像,从而排除透明带和背景,或者这些图像可以留在图像中。然后,可以使用被遮罩的图像(例如,IZC图像,这些图像被被遮罩以仅包含IZC,或被被遮罩以识别胚胎中的单个细胞)训练非整倍体AI模型。缩放涉及重新缩放图像达到预定义的比例,以适应所训练的特定模型。增强包括对图像副本进行微小更改,例如旋转图像,以控制胚胎盘的方向。深入学习之前使用分割对深度学习方法的表现有显著影响。类似地,增强对于生成强健的模型非常重要。
可以使用一系列图像预处理技术准备胚胎图像以供分析,例如确保图像标准化。示例包括:
阿尔法通道剥离:包括剥离阿尔法通道(如果存在的话)的图像,以确保其以3通道格式(例如RGB)编码,例如移除透明度贴图;
填充/增强:在分割、裁剪或边界查找之前,使用填充边框填充/增强每个图像,以生成方形纵横比。此过程确保图像尺寸一致、可比,并兼容深度学习方法,深度学习方法通常需要方形尺寸的图像作为输入,同时还确保图像的关键部件不被裁剪;
归一化:将RGB(红、绿、蓝)或灰度图像归一化到所有图像的固定平均值。例如,其包括获取每个RGB通道的平均值,并将每个通道除以其平均值。然后将每个通道乘以100/255的固定值,以确保RGB空间中每个图像的平均值为(100、100、100)。该步骤确保图像之间的颜色偏差被抑制,并且每个图像的亮度被归一化;
阈值处理:使用二进制法、大津(Otsu)法或自适应法对图像进行阈值处理。包括使用膨胀(打开)、腐蚀(关闭)和缩放梯度对图像进行形态学处理,并使用缩放遮罩来提取形状的外部和内部边界;
对象检测/裁剪:对图像进行对象检测/裁剪,以定位胚胎上的图像,并确保图像边缘没有伪影。这可以使用对象检测器来执行,对象检测器使用对象检测模型(下文讨论),该对象检测模型被训练以估计包含图像主要特征的边界框,例如胚胎(IZC或透明带),以便图像是一个居中良好且经过裁剪的胚胎;
提取:使用图像轮廓的椭圆霍夫变换提取边界的几何特性,例如根据在图像的二值阈值地图上计算的椭圆霍夫变换的最佳椭圆拟合。该方法通过选择图像中胚胎的硬边界,并通过裁剪新图像的方形边界,使得新椭圆的最长半径被新图像的宽度和高度包围,并且使得椭圆的中心是新图像的中心;
缩放(zooming):通过确保在椭圆区域周围具有一致边界大小的一致居中图像来缩放图像;
分割:分割图像以识别细胞质带内腔(IZC)区域、透明带区域和/或细胞边界。可以通过在给定区域内使用几何活动轮廓(GAC)模型或形态学蛇计算非椭圆图像周围的最佳拟合轮廓来执行分割。根据经过训练的模型在可能包含胚泡或胚泡内细胞的细胞质带内腔(IZC)上的焦点,可以对蛇的内部和其它区域进行不同的处理。或者,可以训练语义分割模型,语义分割模型识别图像中每个像素的类别。例如,可以使用带有预训练的ResNet-50编码器的U-Net架构开发并使用二元交叉熵损失函数训练语义分割模型,以分割背景、透明带和IZC,或分割IZC内的细胞;
注释:通过选择特征描述符对图像进行注释,并遮罩图像的所有区域(描述符关键点的给定半径内的区域除外);
调整大小/缩放(resizing/scaling):将整个图像集的大小调整/缩放到指定的分辨率;和
张量转换:包括将每个图像转换为张量,而不是可视显示的图像,因为这种数据格式更适用于深度学习模型。在一个实施例中,使用平均值(0.485、0.456、0.406)和标准偏差(0.299、0.224、0.225)从标准的预训练的ImageNet值获得张量归一化。
在另一个实施例中,对象检测器使用对象检测模型,该对象检测模型经过训练以估计包含胚胎的边界框。对象检测的目标是识别包含与该对象相关联的所有像素的最大边界框。这要求该模型对对象的位置和类别/标签(即框中的内容)都进行建模,因此检测模型通常包含对象分类器头部和边界框回归头部。
一种方法是使用昂贵搜索过程的区域卷积神经网络(或R-CNN),用于搜索图像修补方案(潜在边界框)。然后使用这些边界框裁剪被关注的图像区域。然后使裁剪后的图像通过分类模型,对图像区域的内容进行分类。此过程复杂且计算成本高。另一种方法是快速CNN,它使用CNN提出特征区域,而不是搜索图像修补方案。此模型使用CNN估计固定数量的候选框,通常设置为100到2000之间。更快的替代方法是更快的RCNN,它使用锚框限制所需框的搜索空间。默认情况下,使用一组标准的9个锚框(每个锚框的大小不同)。更快的RCNN。其使用了一个小型网络,它联合学习预测被关注的特征区域,与R-CNN或快速CNN相比,其可加快运行时间,因为昂贵的区域搜索可被取代。
对于从背面出来的每个功能激活,一个模型被视为锚定点(下面的图像中为红色)。对于每个锚点,生成9个(或更多,或更少,取决于问题)锚框。锚框对应于训练数据集内的常用对象大小。由于有多个锚点和多个锚框,因此产生了成千上万的区域方案。然后,通过一个称为非最大抑制(NMS)的过程对方案进行过滤,该过程选择包含较小框的最大框。这确保每个对象只有一个框。由于NMS依赖于每个边界框预测的置信度,所以必须考虑何时将对象视为同一对象实例的一部分的阈值。由于锚框无法完美拟合对象,回归头的工作是预测这些锚框的偏移,从而将它们变形为最佳拟合的边界框。
探测器还可以专门且仅估计对象的一个子集的框,例如,行人探测器仅用于人。不被关注的对象类别被编码到与背景类对应的0类中。在训练期间,背景类的补片/框通常从不包含边界框信息的图像区域随机采样。此步骤允许模型对那些不需要的对象保持不变,例如,它可以学会忽略它们,而不是错误地对它们进行分类。边界框通常以两种不同的格式表示:最常见的是(x1,y1,x2,y2),其中点p1=(x1,y1)是框的左上角,p2=(x2,y2)是右下角。另一种常见的框格式是(cx、cy、高度、宽度),其中边界框/矩形被编码为框的中心点(cx、cy)和框大小(高度、宽度)。不同的检测方法将根据任务和情况使用不同的编码/格式。
回归头可使用L1损失进行训练,分类头可使用交叉熵损失进行训练。也可以使用对象性损失(是背景还是对象)。最终损失计算为这些损失的总和。个别损失也可以加权,例如:
损失=λ1回归损失+λ2分类损失+λ3对象性损失
(loss=λ1regression_loss+λ2classification_loss+λ3objectness_loss) (1)
在一个实施例中,使用了基于更快的RNN的胚胎检测模型。在本实施例中,用真实边界框手动标记约2000个图像。对框进行标记,使得整个胚胎(包括透明带区域)都在边界框内。如果存在一个以上的胚胎(也称为双胚胎移植),则两个胚胎均被标记,以使得模型能够区分双胚胎移植和单胚胎移植。由于无法协调在双胚胎移植中哪个胚胎是哪个,因此将模型配置为在检测到双胚胎移植时引发使用错误。具有多个“叶”的模型被标记为是单胚胎。
作为GAC分割的替代方法,可以使用语义分割。语义分割是试图预测每个像素的类别或标签的任务。语义分割之类的任务称为像素密集预测任务,因为每个输入像素都需要输出。语义分割模型的设置与标准模型不同,因为它们需要完整的图像输出。通常,语义分割(或任何密集预测模型)具有编码模块和解码模块。编码模块负责创建图像的低维表示(有时称为特征表示)。然后通过解码模块将该特征表示解码为最终输出图像。在训练期间,将预测的标签地图(用于语义分割)与为每个像素分配类别的真实标签地图进行比较,并计算损失。分割模型的标准损失函数为二元交叉熵或标准交叉熵损失(取决于问题是否为多类别)。这些实现方式与它们的图像分类的同类一致,不同之处在于损失是按像素(在张量的整个图像通道维度上)应用的。
全卷积网络(FCN)风格的架构通常用于通用语义分割任务领域。在该架构中,首先使用预训练模型(如ResNet)对低分辨率图像进行编码(约为原始分辨率的1/32,但如果使用扩展卷积,则可以为1/8)。然后将此低分辨率标签地图向上采样到原始图像分辨率,并计算损失。预测低分辨率标签地图背后的直觉是,语义分割掩码的频率非常低,不需要较大解码器的所有额外参数。该模型存在更复杂的版本,使用多级上采样来改善分割结果。简单地说,损失是以渐进的方式在多个分辨率下计算的,以细化每个尺度上的预测。
这种模型的一个缺点是,如果输入数据是高分辨率的,或包含高频信息(即更小/更薄的对象),低分辨率标签映射将无法捕获这些更小的结构(尤其在编码模型不使用扩展卷积时)。在标准编码器/卷积神经网络中,随着模型的深入,输入图像/图像特征会逐渐减少采样。然而,由于图像/特征是下采样的,关键高频细节可能会损失。因此,为了解决这一问题,可以使用替代的U-Net架构,而不是在编码器和解码器的对称组件之间使用跳过连接。简单地说,每个编码块在解码器中都有一个对应的块。然后将每个阶段的特征与最低分辨率特征表示一起传递给解码器。对于每个解码块,输入特征表示被上采样以匹配其相应编码块的分辨率。然后,将编码块的特征表示和上采样的低分辨率特征连接起来并通过二维卷积层。通过以这种方式将特征连接,解码器可以学习对每个块的输入进行细化,根据输入选择哪些细节(低分辨率细节或高分辨率细节)要集成起来。FCN样式模型和U-Net样式模型之间的主要区别在于,在FCN模型中,编码器负责预测低分辨率标签地图,然后对其进行上采样(可能是渐进式的)。然而,直到最后一层,U-Net模型才具有完全完整的标签地图预测。最终,这些模型确实存在许多变体,可以权衡它们之间的差异(例如,混合型)。U-net架构也可以使用预先训练的权重,如ResNet-18或ResNet-50,用于没有足够数据而从头开始训练模型的情况。
在一些实施例中,使用带有预训练动ResNet-50编码器的U-net架构执行分割,该编码器使用二元交叉熵进行训练以识别透明带区域、带内腔区域和/或细胞边界。一旦被分割,就可以生成所需区域之外的所有区域都被遮罩的图像集。然后AI模型可以在这些特定的图像集上进行训练。也就是说,AI模型可以分为两组:第一组是包含额外图像分割的模型,第二组是需要整个未分割图像的模型。在遮罩IZC、暴露透明带区域的图像上进行训练的模型称为透明带模型。在训练中,还考虑了在遮罩透明带的图像上训练的模型(称为IZC模型),以及在完整胚胎图像上训练的模型(即第二组)。
在一个实施例中,为了确保每个图像的唯一性,以使得记录的副本不会使结果偏离,将新图像的名称设置为等于原始图像内容的散列,作为png(无损)文件。运行时,对于输出目录中不存在的任何图像(如果不存在,将创建该图像),数据解析器将以多线程方式输出图像,因此,如果这是一个漫长的过程,即使被中断,也可以从同一点重新启动。数据准备步骤还可包括处理元数据以移除与不一致或矛盾记录相关联的图像,并识别任何错误的临床记录。例如,可以在电子表格上运行脚本,以将元数据整合到预定义的格式中。这确保了用于生成和训练模型的数据具有高质量,并具有统一的特征(例如大小、颜色、比例等)。
一旦数据准备妥当,它就可以用于训练上面讨论的AI模型。在一个实施例中,使用机器学习方法生成多个计算机视觉(CV)模型并且使用深度学习方法生成多个深度学习模型。深度学习模型可以在完整胚胎图像或被遮罩的图像集上进行训练。计算机视觉(CV)模型可以使用机器学习方法,使用从每个图像计算的一组特征描述符生成。每个单独的模型都配置成估计可能性,例如非整倍体风险/胚胎图像中胚胎的活力评分,人工智能模型结合选定的模型来产生总的非整倍体风险/胚胎活力评分,或类似的总的可能性或硬分类。使用系综和知识蒸馏技术可以改进在单个染色体组上生成的模型。使用随机数据集进行训练。复杂图像数据集可能会出现不均匀分布,特别是如果数据集小于10000个图像,其中在该集合中关键的有活力或无活力胚胎的样本分布不均匀。因此,考虑一次进行数据的若干(例如20次)随机化,然后将其分为以下定义的训练子集、验证子集和盲测试子集。所有随机化都用于单个训练示例,以确定哪一个表现出了用于训练的最佳分布。作为推断,确保每个子集内有活力胚胎和无活力胚胎数量的比率相同也是有益的。胚胎图像非常多样化,因此确保图像在测试集和训练集之间均匀分布可用于提高性能。因此,在执行随机化后,计算并测试每个训练集、验证集和盲验证集内具有有活力分类的图像与具有无活力分类的图像的比率,以确保比率相似。例如,这可能包括以下测试:比率的范围是否小于阈值或者是否在考虑图像数量时的某个方差范围内。如果范围不相似,则舍弃随机化,生成并测试新的随机化,直到获得比率相似的随机化。更一般地,如果结果是具有n个状态的n元结果,则在执行随机化之后,计算步骤可包括计算每个训练集、验证集和盲验证集内的每个n元结果状态的频率,并测试频率是否相似,如果频率不相似,则舍弃分配并重复随机化,直到获得频率相似的随机化。
训练还包括执行多个训练和验证周期。在每个训练和验证周期中,总的可用数据集的每次随机化通常分为三个分离的数据集,称为训练数据集、验证数据集和盲验证数据集。在某些变体中,可以使用三个以上的数据集,例如,验证数据集和盲验证数据集可以分层为多个难度不同的子测试集。
第一个数据集是训练数据集,包括至少60%的图像,优选为70-80%的图像。深度学习模型和计算机视觉模型使用这些图像创建胚胎活力评估模型,以准确识别有活力的胚胎。第二个数据集是验证数据集,通常占图像的约(或至少)10%。该数据集用于验证或测试使用训练数据集创建的模型的准确度。尽管这些图像相对于用于创建模型的训练数据集是独立的,但验证数据集在准确度上仍然存在较小的正偏差,因为它用于监控和优化模型训练的进度。因此,训练往往以最大限度地提高这一特定验证数据集的准确度的模型作为目标,当更普遍地应用于其它胚胎图像时,它可能不一定是最佳模型。第三个数据集是盲验证数据集,通常占图像的约10-20%。为了解决上述验证数据集的正偏差的问题,使用第三个盲验证数据集对最终模型进行最终无偏准确度评估。该验证发生在建模和验证过程结束时,即创建并选择最终模型时。重要的是确保最终模型的准确度与验证数据集相对一致,以确保模型可对所有图像适用。由于上述原因,验证数据集的准确度可能高于盲验证数据集。盲验证数据集的结果是模型准确度的更可靠的度量。
在一些实施例中,对数据进行预处理还包括将图像增强,其中对图像进行了更改。这可以在训练之前或训练期间(即,即时)执行。增强可包括直接增强(改变)图像或通过制作具有小改变的图像的副本。任何数量的增强可通过如下来执行:图像的不同数量的90度旋转、镜像翻转、非90度旋转(其中填充对角线边界以匹配背景颜色)、图像模糊、使用强度条形图调整图像对比度,以及在水平和/或垂直方向上应用一个或多个小的随机平移、随机旋转、JPEG或压缩噪声、随机图像大小调整、随机色调抖动、随机亮度抖动、对比度受限自适应条形图均衡化、随机翻转/镜像、图像锐化、图像浮雕,随机亮度和对比度、RGB颜色偏移、随机色调和饱和度、通道混洗:将RGB切换到BGR或RBG或其它、粗略衰减(coarse dropout)、运动模糊、中值模糊、高斯模糊、随机偏移缩放旋转(即,所有三个组合起来)。同一组增强图像可用于多个训练和验证周期,或者,在每个周期中可以即时生成新的增强。用于CV模型训练的另一增强是改变用于提取特征描述符的随机数生成器的“种子”。获取计算机视觉描述符的技术在提取特征样本时包含随机性元素。这个随机数可以改变并包含在增强中,以便为CV模型提供更强健的训练。
计算机视觉模型依赖于识别图像的关键特征并用描述符表述它们。这些描述符可以对诸如像素变化、灰度、纹理粗糙度、固定角点或图像梯度方向等的质量进行编码,它们在OpenCV或类似库中实现。通过选择要在每个图像中搜索的特征,可以通过发现特征的哪种排列方式是胚胎活力的良好指标来建立模型。这一过程最好通过机器学习过程(例如随机森林或支持向量机)来实现,它们能够根据图像的描述将图像从计算机视觉分析中分离出来。
使用了一系列计算机视觉描述符,包括小型特征和大型特征,这些特征与传统的机器学习方法相结合,生成用于胚胎选择的“CV模型”。可选地,它们可以稍后与深度学习(DL)模型组合成例如系综模型或用于蒸馏以训练学生模型。合适的计算机视觉图像描述符包括:
通过霍夫变换获得的透明带:找到内部和外部椭圆以将分开的透明带和带内腔近似处理,并记录半径的平均值和差值作为特征;
灰度共生矩阵(GLCM)纹理分析:通过比较区域内相邻像素来检测不同区域的粗糙度。使用的样本特征描述符有:角度二阶矩(ASM)、同质性、相关性、对比度和熵。该区域的选择是通过随机抽样给定数量的具有给定大小的图像方形子区域获得的,并记录每个区域的五个描述符中的每一个的结果作为特征的总集;
方向梯度条形图(HOG):使用比例不变特征变换描述符和形状上下文检测对象和特征。该方法优先用于胚胎学和其它医学成像,但其本身并不构成机器学习模型;
来自加速分割测试(FAST)和旋转二进制鲁棒独立基本特征(BRIENT)(ORB)的定向特征:SIFT和SURF特征的行业标准替代品,其依赖于快速关键点检测器(特定像素)和简短描述符组合,并已修改为包括旋转不变性;
二进制鲁棒不变可扩展关键点(BRISK):一种基于快速的检测器,结合像素强度比较的集合,通过对关键点指定特征周围的每个邻域进行采样来实现;
最大稳定极值区域(MSER):一种局部形态特征检测算法,通过提取协变区域,协变区域是与从图像中提取的一个或多个灰度集相关的稳定连通分量。
良好跟踪特征(GFTT):一种特征检测器,使用自适应窗口大小检测角点纹理,使用Harris角点检测或Shi-Tomasi角点检测进行识别,并提取在其空间强度剖面中显示高标准偏差的点。
计算机视觉(CV)模型通过以下方法构建。选择上面列出的一种(或多种)计算机视觉图像描述符技术,并从训练数据集内的所有图像中提取特征。这些特征被排列成一个组合数组,然后提供给K均值无监督聚类算法,这个数组被称为码本,用于“视觉单词包”。集群数是模型的自由参数。从这一点开始的聚集特征表示通过算法组合使用的“自定义特征”,验证或测试集内的每个单独图像将与之进行比较。每个图像都提取了特征,并分别进行了聚类。对于具有聚类特征的给定图像,使用KD树查询算法测量(在特征空间中)到码本中每个集群的“距离”,该算法给出最近的聚集特征。然后,树查询的结果可以表示为条形图,显示图像中每个特征出现的频率。最后,需要使用机器学习来评估这些特征的特定组合是否对应于胚胎活力的度量。这里,条形图和真实结果用于执行监督学习。用于获得最终选择模型的方法包括随机森林或支持向量机(SVM)。
还可以生成多个深度学习模型。深度学习模型基于神经网络方法,通常是由多个连接层组成的卷积神经网络(CNN),与基于特征的方法(即CV模型)相比,每层“神经元”包含一个非线性激活函数,如“整流器”、“sigmoid”等,深度学习和神经网络代替了“学习”特征,而不是依赖手工设计的特征描述符。这使他们能够学习为所需任务量身定制的“特征表示法”。
这些方法适用于图像分析,由于他们能够提取小细节和整体形态,以实现整体分类,因此可以使用各种深度学习模型,每种模型具有不同的架构(即不同的层数和层间连接),例如剩余网络(例如ResNet-18、ResNet-50和ResNet-101),密集连接的网络(例如DenseNet-121和DenseNet-161)和其它变体(例如Inception V4和Inception-ResNetV2)。深度学习模型可基于稳定性(训练过程中验证集的准确度值的稳定性)、可迁移性(训练数据的准确度与验证集的准确度之间的关联程度)和预测准确度(哪些模型提供了最佳的验证准确度,对于有活力胚胎和无活力胚胎都包括:总组合准确度,和平衡准确度,其被定义为两类胚胎的加权平均准确度)进行评估。训练包括尝试模型参数和超参数的不同组合,包括输入图像分辨率、优化器选择、学习率值和调度、动量值、辍学和权重初始化(预训练)。可以定义损失函数来评估模型的性能,且在训练期间,通过改变学习率来优化深度学习模型,以驱动网络权重参数的更新机制,从而将目标/损失函数最小化。
深度学习模型可以使用多种库和软件语言实现。在一个实施例中,PyTorch库用于用python语言实现神经网络。Pytorch库还允许创建利用硬件(GPU、TPU)加速的张量,并包括用于构建神经网络多层的模块。虽然深度学习是图像分类最强大的技术之一,但可以通过使用上述分割或增强提供指导来改进深度学习。研究发现,在深度学习之前使用分割对深度学习方法的性能有显著影响,并有助于生成对比模型。因此,优选地,至少一些深度学习模型是在分割图像(例如识别IZC或细胞边界的图像,或者对图像进行遮罩以排除IZC或细胞边界之外的区域)上训练的。在一些实施例中,多个深度学习模型包括至少一个在分割图像上训练的模型,以及一个在未经分割的图像上训练的模型。同样,增强对于生成强健的模型也很重要。
方法的有效性由深度神经网络(DNN)的架构决定。然而,与特征描述符方法不同,在使用分类器之前DNN在整个卷积层中学习特征本身。也就是说,在不手动添加所提议的特征的情况下,DNN可用于检查文献中的现有实践,以及开发以前未使用的描述符,特别是人眼难以检测和测量的描述符。
DNN的架构受作为输入的图像的大小、隐藏层(具有描述DNN的张量维度)和线性分类器(以类别标签的数量作为输出)的约束。大多数架构都采用了许多下采样率,使用小(3×3像素)过滤器来捕获左右、上下和中心的概念。(a)二维卷积层、(b)校正线性单元(ReLU)和(c)最大池化层的堆叠允许通过DNN的参数数量保持可解决,同时允许过滤器通过图像的高级(拓扑)特征,将其映射到嵌入图像中的中间和最终微观特征。顶层通常包括一个或多个全连接神经网络层,其充当分类器,类似于SVM。通常,Softmax层用于将结果张量归一化为包含全连接分类器之后的概率。因此,模型的输出是图像无活力或有活力的概率列表。一系列AI架构可以基于ResNet变体(18、34、50、101、152)、Wide ResNet变体(50-2、101-2)、ResNeXt变体(50-32x4d、l1-32x8d)、DenseNet变体(121、161、169、201)、Inception(v4)、Inception-ResNet(v2)、EfficientNet变体(b0、bl、b2、b3)等神经网络架构。
图5C是根据一个实施例的包括基于RESNET152架构的一系列层的AI模型151的示意架构图,其将输入图像转换为预测。其中包括二维卷积层,在图5C中标注为“CONV”,它计算来自下面层的输入的互相关。卷积层中的每个元素或神经元仅处理来自其感受野的输入,例如3×3或7×7像素。这减少了描述该层所需的可学习参数的数量,并允许形成比完全连接层构造的神经网络更深的神经网络,其中每个神经元连接到下一层中的每个其它神经元,这是高度记忆密集型的,并且容易过度拟合。卷积层也是空间平移不变的,这对于处理主题无法保证精确居中的图像非常有用。图5C中的AI架构还包括最大池化层,在图5C中标注为“POOL”,这是一种下采样方法,在给定区域内仅选择具有代表性的神经元权重,以降低网络的复杂性并减少过度拟合。例如,对于卷积层4×4平方正方形区域内的权重,计算每个2×2角块的最大值,然后使用这些代表性值将平方正方形区域的维度尺寸减小到2×2。该架构还可能包括使用校正线性单元,作为非线性激活函数。作为一个常见的例子,斜坡函数对来自给定神经元的输入x采用以下形式,类似于生物学中神经元的激活:
f(x)=max(0,x) (2)
在输入通过所有卷积层之后,网络末端的最后一层通常是一个全连接(FC)层,用作分类器。该层接受最终输入并输出一个与分类类别具有相同维数的数组。对于两个类别,例如“存在非整倍体”和“不存在非整倍体”,最后一层将输出一个长度为2的数组,该数组表示输入图像包含分别与每个类别对齐的特征的比例。通常会添加一个最终softmax层,该层将输出数组中的最终数字转换为适合0到1之间的百分比,两者加起来总共为1,因此最终输出可以解释为要在其中一个类别中分类的图像的置信限。
一种合适的DNN架构是ResNet(及其变体;参见https://ieeexplore.ieee.org/document/7780459),例如ResNetl52、ResNet101、ResNet50或ResNet-18。2016年,通过使用大量隐藏层和引入“跳过连接”(也称为“剩余连接”),ResNet显著推进了该领域。只计算从一层到下一层的差异,这更节省时间,且如果在特定层检测到很少的变化,则跳过该层,从而创建一个网络,该网络将非常快速地调整自身以适应图像中大小特征的组合。
另一种合适的DNN架构是DenseNet变体(https://ieeexplore.ieee.org/document/8099726),包括DenseNet161、DenseNet201、DenseNet169、DenseNet121。DenseNet是Resnet的扩展,现在每一层都可以跳到任何其它层,具有最大数量的跳过连接。这种架构需要更多的内存,因此效率较低,但可以表现出比Resnet更好的性能。由于模型参数较多,因此也容易过度训练/过度拟合。所有模型架构通常与对此进行控制的方法相结合。
另一种合适的DNN架构是Inception(-ResNet)(https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewPaper/14806),例如:InceptionV4、InceptionResNetV2。Inception表示一个更复杂的卷积单元,因此,不是简单地使用第3.2节中描述的固定大小的滤波器(例如3×3像素),而是并行计算几个大小的滤波器:(5×5、3×3、1×1像素),其权重为自由参数,因此,神经网络可以在DNN的每一层中优先选择最适合的滤波器。如果架构是将其与跳跃连接以与ResNet相同的方式结合起来以创建Inception-ResNet,则是一种扩展。
如上所述,使用多个训练和验证周期在预处理数据上对计算机视觉和深度学习方法进行训练。训练和验证周期遵循以下框架:
对训练数据进行预处理,并分成多个批次(每个批次数据的数量是一个自由模型参数,但控制算法学习的速度和稳定性)。可在分批前或训练期间进行增强。
在每个批次之后,调整网络的权重,并评估到目前为止的运行总准确度。在一些实施例中,例如使用梯度累积在批处理期间更新权重。当所有图像都被评估了时执行了1个纪元(epoch),训练集被打乱(即,获得该数据集的新的随机化结果),对于下一个纪元训练从顶部重新开始。
根据数据集的大小、数据的复杂程度和所训练模型的复杂程度,在训练期间可能会运行多个纪元。最佳的纪元数通常在2到100之间,但根据具体情况可以更多。在每个纪元之后,在验证集上运行模型,而不进行任何训练,以提供模型准确度方面的进展的度量,并指导用户是否应该运行更多的纪元,或者更多的纪元是否导致过度训练。
验证集指导系综模型参数或超参数的选择,因此不是真正的盲集。然而,重要的是验证集的图像分布与训练后运行的最终盲测集非常相似。
在报告验证集结果时,每个图像可以包含增强(all)或不包含增强(noaug)。而且,可以将每个图像的增强组合起来,以提供图像的更强健的最终结果。可以使用几种组合/投票策略,包括:平均置信度(取所有增强的模型的推断的平均值)、中值置信度、多数平均置信度(取多数活力评估,仅提供一致者的平均置信度,如果没有多数,则取平均值),最大置信度、加权平均值、多数最大置信度等。
机器学习领域中使用的另一种方法是迁移学习,其中将先前训练的模型用作训练新模型的起点。这也称为预训练。预训练被广泛使用,这允许快速构建新模型。有两种预训练。预训练的一个实施例是ImageNet预训练。大多数模型架构都具有一组使用标准图像数据库ImageNet预先训练的权重。虽然它不特定于医学图像,且包含一千种不同类型的对象,但它为模型提供了一种已经学会识别形状的方法。将所述一千个对象的分类器完全移除,一个新的活力分类器取代了它。这种预训练优于其它初始化策略。预训练的另一个实施例是定制预训练,它使用先前训练的胚胎模型,其来自具有不同结果集的研究,或者对不同图像(PGS,而不是活力,或者随机分配的结果)的研究。这些模型仅为分类提供了一点好处。
对于非预训练的模型,或者预训练后添加的新层如分类器,需要将权重初始化。初始化方法可以对训练的成功产生影响。例如,所有设置为0或1的权重都会表现得很差。随机数的均匀排列,或随机数的高斯分布,也是常用的选项。它们也经常与归一化方法如Xavier或Kaiming算法结合使用。这解决了一个问题,即神经网络中的节点可能在某个状态下“被困”,即饱和(接近1)或死亡(接近0),此时很难测量与该特定的神经元相关联的权重向哪个方向调整。这在引入双曲正切函数或S形函数时尤其普遍,Xavier初始化解决了这一问题。
在Xavier初始化协议中,神经网络权重的随机化方式应确保激活函数各层的输入不会太接近饱和或死亡这样的极端。然而,ReLU的使用表现更好,不同的初始化提供的好处更小,例如Kaiming初始化。Kaiming初始化更适合于使用ReLU作为神经元非线性激活分布的情况。这有效地实现了与Xavier初始化相同的过程。
在深度学习中,使用一系列自由参数来优化在验证集上进行的模型训练。其中一个关键参数是学习率,它决定在每个批次之后底层神经元的权重调整了多少。在训练选择模型时,应避免过度训练或过度拟合数据。当模型包含太多无法拟合的参数,并且基本上“记忆”了数据时,在训练集或验证集上用泛化能力换取准确度,就会发生这种情况。这是要避免的,因为泛化能力是衡量模型是否在数据噪声中正确识别出指示胚胎健康的真实基础参数的真正量度,不能为了完美地拟合训练集而有损于它。
在验证阶段和测试阶段,由于训练阶段的过度拟合,成功率有时会突然下降。这可以通过多种策略来改善,包括减慢或衰减学习率(例如,每n个纪元使学习率减半)或使用余弦退火,结合上述张量初始化或预训练的方法,以及添加噪声,如辍学层或批量归一化。批量归一化用于抵消梯度消失或梯度爆炸,从而提高训练大型模型的稳定性,从而提高了泛化。通过引入一个随机机会将校正器接收范围内的所有输入权重设置为零,辍学正则化有效地简化了网络。通过引入噪声,它有效地确保了剩余的校正器正确地拟合数据的表示,而不依赖于过度专业化。这使得DNN能够更有效地进行泛化,且对网络权重的特定值变得不那么敏感。类似地,批量归一化提高了非常深的神经网络的训练稳定性,它通过将输入权重迁移到零均值和单位方差,作为校正阶段的前兆,实现更快的学习和更好的泛化。
在执行深度学习时,改变神经元权重以实现可接受的分类的方法包括:需要指定优化协议。也就是说,对于“准确度”或“损失”(下文讨论)的给定定义,究竟应该调整多少权重,以及应该如何使用学习率的值,需要指定许多技术。合适的优化技术包括:具有动量(和/或Nesterov加速梯度)的随机梯度下降(SGD)、增量自适应梯度(Adaptive Gradientwith Delta,简称Adadelta)、自适应矩估计(Adam)、均方根传播(RMSProp)、和有限内存Broyden-Fletcher-Goldfarb-Shanno(L-BFGS)算法。其中,基于SGD的技术通常优于其它优化技术。例如,在人类胚胎的相差显微镜图像上训练AI模型的学习率在0.01到0.0001之间。然而,这是一个例子,学习率将取决于批量大小,而批量大小取决于硬件容量。例如,GPU越大,批量大小越大,学习率越高。
带有动量(和/或Nesterov加速梯度)的随机梯度下降(SGD)代表了最简单和最常用的优化器。梯度下降算法通常计算给定权重对准确度影响的梯度(斜率)。如果需要计算整个数据集的梯度以执行权重更新,则速度较慢,而随机梯度下降则会对每个训练图像执行更新,每次更新一个。虽然这可能会导致总体目标准确度或损失的波动,但与其它方法相比它更容易泛化,因为它能够跳入损失参数景观(landscape)的新区域,并找到新的最小损失函数。在胚胎选择等难题中的嘈杂损失景观,SGD表现良好。SGD在导航不对称损失函数曲面曲线时可能会遇到困难,因为不对称损失函数曲面曲线的一侧比另一侧更陡峭,这可以通过添加一个称为动量的参数来补偿。这有助于在方向上加速SGD,并通过在从先前状态导出的权重更新中添加额外评分来抑制准确度的高波动。该方法的一个扩展也包括下一状态中权重的估计结果位置,该扩展称为Nesterov加速梯度。
增量自适应梯度(Adadelta)是一种算法,用于使学习率适应权重本身,对频繁出现的参数执行较小的更新,对不频繁出现的特征执行较大的更新,非常适合稀疏数据。虽然这可能会在整个数据集的几个纪元后突然降低学习率,但添加增量参数可以将累积的过去梯度所允许的窗口限制在某个固定大小。然而,这个过程使得默认的学习率变得多余,并且附加自由参数的自由度在寻找最佳总体选择模型时提供了一些控制。
自适应矩估计(Adam)保存过去平方和非平方梯度的指数衰减平均值,并将其合并到权重更新中。这具有为权重更新方向提供“摩擦力”的效果,并且适用于具有相对较浅或平坦损耗最小值且没有强烈波动的问题。在胚胎选择模型中,使用Adam进行的训练倾向于在训练集内表现良好,但往往训练过度,并且不如具有动量的SGD那么适合。
均方根传播(RMSProp)与上述自适应梯度优化器相关,与Adelta几乎相同,区别在于权重的更新项将学习率除以平方梯度的指数衰减平均值。
有限内存Broyden-Fletcher Goldfarb-Shanno(L-BFGS)算法。虽然计算量很大,但实际估计损失景观的曲率的L-BFGS算法(而不是其它方法)并没有试图用附加项来弥补估计的不足。当数据集较小时,它的性能往往优于Adam,但在速度和准确度方面并不一定优于SGD。
除了上述方法之外,还可以包括非均匀学习率。也就是说,可以将卷积层的学习率指定为比分类器的学习率大或小得多。这在预训练模型的情况下是有用的,在这种情况下,对分类器下面的过滤器的更改应保持更“冻结”,并对分类器进行重新训练,以使得预训练不会因额外的重新训练而取消。
当优化器指定如何更新给定特定损失或准确度度量的权重时,在一些实施例中,对损失函数进行修改以纳入分布效应。这些可能包括交叉熵(CE)损失、加权CE、剩余CE、推断分布或自定义损失函数。
交叉熵损失是一种常用的损失函数,其表现倾向于优于真实值和预测值之间的简单均方差。如果网络的结果通过Softmax层,例如这里的情况,则交叉熵的分布导致更好的准确度。这是因为其通过不过于加权遥远的异常值,自然地将正确分类输入数据的可能性最大化。对于表示一批图像的输入数组batch(批次)和表示有活力或无活力的class(类别),交叉熵损失定义为:
其中,C是class(类别)的数目。在二元情形下,其可简化成:
loss(p,C)=-(ylog(p))+(1-y)log(1-p) (4)
一个优化版本是:
如果数据包含类别偏差,即有活力示例比无活力示例多(或反之亦然),则损失函数应按比例加权,以使得对数量较少的类别的元素进行的错误分类会受到更严重的惩罚。这是通过将等式(2)的右侧预乘以系数来实现的:
其中N[class]是每个类别的图像总数,N是数据集内的样本总数,C是class(类别)的数目。如有必要,也可以手动将权重偏向有活力的胚胎,以相对于假阳性减少假阴性的数量。
在一些实施例中,可以使用推断分布。虽然在胚胎分类中寻求高水平的准确度很重要,但在模型中寻求高水平的可迁移性也很重要。也就是说,了解评分的分布通常是有益的,虽然寻求高准确度是一个重要目标,但有把握地分离有活力的胚胎和无活力的胚胎是一个指标,表明该模型会很好地泛化到测试集。由于在测试集上的准确度经常用于引述与重要临床基准(例如胚胎师对同一胚胎分类的准确度)的比较,因此在每个纪元,还应将确保泛化能力纳入对模型成功的逐批评估中。
在一些实施例中,使用自定义损耗函数。在一个实施例中,我们定制了如何定义损失函数,从而改变优化曲面以使全局极小值更加明显,从而提高模型的鲁棒性。为了实现这一点,在保持可微性的损失函数中添加了一个新项,称为残差项,它是根据网络权重定义的。它对每个图像的模型预测值和目标结果的集体差异进行编码,并将其作为正常交叉熵损失函数的额外贡献。对于N个图像,残差项的公式如下:
对于这种自定义损失函数,有活力的和无活力的胚胎评分的间隔合适的集群因此被认为与更高的损失评级一致。需要注意的是,这种自定义损失函数并不特定于胚胎检测应用程序,可以用于其它深度学习模型。
在一些实施例中,使用基于自定义置信度的损失函数。这是一个加权损失函数,有两种变体:线性和非线性。对于这两种情况,目的是将分数的分离编码成对损失函数的贡献,但以与上述不同的方式,通过将预测分数中的类别之间的差异整合在一起作为损失的权重功能。差异越大,损失减少的越多。该损失函数将有助于驱动预测模型扩大两个类别之间的差异,并增加模型对结果的置信度。对于置信权重:第i个输入样本的二进制目标标签表示为y∈{±1},指定真实类别。假设预测模型的结果是yp=[yp0,yp1],yp0,yp1∈[0,1]是模型的估计结果概率输出,分别对应于无活力和有活力结果的输入。
对于线性设置,定义d=|yp0-yp1|;对于非线性设置,定义参数d表示模型在类别0和类别1的预测结果之间的概率差异。对于标准log softmax函数,我们定义pt如下(log(pt)将作为标准交叉熵损失函数落在损失函数中):
对于类别权重:对于类别1,权重因子∝∈[0,1],对于类别-1,权重因子1-∝,我们以与定义pt类似的方式定义∝t:
聚焦参数γ平滑地调整结果分数差异影响损失函数的速率。最后,我们将提出包含所有三种不同加权策略的损失函数:
LF=-∝t(1-exp(d))γlog(pt) (10)
在一些实施例中,使用了软损失函数,该函数使用称为标签平滑的技术。对于每种类型的结果或类别(例如,在二元分类问题中:有活力的、无活力的),任何或所有类别都可以表现出标签平滑。引入标签平滑以创建软损失函数、损失函数,如加权交叉熵损失。然后,在计算损失函数时,如果任何类别包括标签平滑,则在损失函数的输入之间计算Kullback-Leibler(KL)-Divergence损失,即,当前批次的分数分布,以及分数分布的修改版本,其中显示标签平滑的每个类别都已从其实际值(例如0或1)改变了分数量e/(类别-1的数目)。因此,此参数e是一个自由参数,用于控制引入的标签平滑量。然后将该K.L Divergence损失作为损失函数返回。
在一些实施例中,将模型被组合起来以生成更强健的最终AI模型100。也就是说,将深度学习和/或计算机视觉模型结合在一起,以有助于对非整倍体的总体预测。
在一个实施例中,使用系综方法。首先,选择性能良好的模型。然后,每个模型对其中一个图像进行“投票”(使用增强或其它方式),并选择导致最佳结果的投票策略。投票策略的示例包括最大置信度、平均值、多数平均值、中值、平均置信度、中值置信度、多数平均置信度、加权平均值、多数最大置信度等。一旦选择了投票策略,还必须选择增强的组合的评估方法,它描述了系综应如何处理每个旋转,如前所述。在本实施例中,最终的AI模型100因此可以被定义为使用深度学习和/或计算机视觉模型的经过训练的AI模型的集合,以及对定义如何将个体AI模型结果组合起来的投票策略进行编码的模式和定义如何将增强(如果存在)合并的评估模式。
模型的选择应这样进行:它们的结果相互形成对比,即,其结果尽可能独立,且评分分布均匀。通过检查每个模型的测试集内哪些图像被正确识别来执行该选择过程。如果在比较两个模型时,被正确识别的图像集非常相似,或者每个模型为给定图像提供的评分彼此相似,则这些模型不被视为对比模型。但是,如果被正确识别的图像的两个集合之间几乎没有重叠,或者为每个图像提供的评分彼此明显不同,则认为这些模型是对比模型。该过程有效地评估了两个不同模型在测试集上的胚胎评分分布是否相似。由于输入图像或分割不同,对比标准以不同的预测结果分布驱动模型选择。该方法避免选择仅在特定临床数据集上表现良好的模型,从而防止过度拟合,从而确保了可翻译性。而且,模型选择也可以使用多样性标准。多样性标准促使模型选择包括不同模型的超参数和配置。原因是,在实践中,相似的模型设置会导致相似的预测结果,因此可能对最终的系综模型没有用处。
在一个实施例中,这可以通过使用计数方法和指定阈值相似性(例如,两个集合中有50%、75%或90%的重叠图像)来实现。在其它实施例中,一个图像集(例如,有活力的集)中的评分可以相加并比较两个集合(总计),且如果这两个总计小于阈值量,则分级相似。还可以使用基于统计的比较,例如考虑集合中的图像的数量,或者以其它方式比较每个集合中的图像的分布。
AI和机器学习中的另一种方法称为“知识蒸馏”(简称蒸馏)或“学生-教师”模型,其中使用从一个(或多个)模型(教师)获得的权重参数的分布,经由学生模型的损失函数,通知另一个模型(学生)的权重更新。我们将使用术语蒸馏来描述使用教师模型训练学生模型的过程。这个过程背后的想法是训练学生模型来模仿一组教师模型。这个过程背后的直觉是,教师模型包含预测输出概率(软标签)之间的微妙但重要的关系,在没有来自教师模型的分布的情况下从模型结果直接获得的原始预测概率(硬标签)中不存在这些关系。
首先,在关注的数据集上训练一组教师模型。教师模型可以是任何神经网络或模型架构,甚至可以是彼此完全不同的架构或与学生模型完全不同的架构。它们可以共享完全相同的数据集,可以没有交集,也可以有原始数据集的重叠子集。一旦这些教师模型被训练,学生将使用蒸馏损失函数来模拟这些教师模型的输出。在蒸馏过程中,首先将教师模型应用于教师模型和学生模型都可用的数据集(称为transfer dataset,即“迁移数据集”)。迁移数据集可以是从原始数据集提取的保留的盲数据集,也可以是原始数据集本身。而且,迁移数据集不必完全标记,即,数据的某些部分与已知结果无关。这种标签限制的解除允许人为地增加数据集的大小。然后将学生模型应用于迁移数据集。通过散度度量函数(例如KL-Divergence)或“相对熵”函数,将教师模型的输出概率(软标签)与从分布计算的学生模型的输出概率进行比较。散度度量是一种公认的用于测量两个概率分布之间的“距离”定数学方法。然后将散度度量与标准交叉熵分类损失函数相加,从而使损失函数同时有效地将分类损失以及学生模型与教师模型的分歧最小化,提高模型性能。通常,软标签匹配损失(新损失的发散分量)和硬标签分类损失(损失的原始分量)相互加权的(向训练过程引入一个额外的可调参数),以控制这两项中的每一项在新损失函数中的贡献。
模型可以由其网络权重定义。这可能涉及使用机器学习代码/API的适当功能来导出或保存检查点文件或模型文件。检查点文件可以是由机器学习代码/库生成的具有所定义格式的文件,该文件可以被导出然后使用提供的标准函数作为机器学习代码/API的一部分读回(重新加载)(例如ModelCheckpoint()和load_weights())。文件格式可以直接发送或复制(例如ftp或类似协议),也可以使用JSON、YAML或类似数据传输协议进行序列化和发送。在一些实施例中,可以导出/保存附加的模型元数据(如模型准确度、纪元数等)并与网络权重一起发送,其可以进一步表征模型,或者以其它方式帮助在另一个节点/服务器上构建另一个模型(例如,学生模型)。
该方法的实施例可用于生成AI模型,这些AI模型用于获得关于在胚胎图像中是否存在一个或多个非整倍体的估计结果。这些AI模型可以在基于云的计算系统中实现,该计算系统用来以计算方式生成非整倍体筛选人工智能(AI)模型。一旦生成了模型,可以将其部署在基于云的计算系统中,该基于云的计算系统用来以计算方式生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果。在该系统中,基于云的计算系统包括先前生成的(训练的)非整倍体筛选人工智能(AI)模型,且该计算系统被配置成,经由该计算系统的用户界面从用户接收被提供给非整倍体筛选人工智能(AI)模型的图像,以获得关于在图像中是否存在一个或多个非整倍体的估计结果。经由用户界面向用户发送关于在图像中是否存在一个或多个非整倍体的报告。类似地,可以在获得图像的诊疗机构或类似位置提供计算系统,该计算系统用来生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果。在本实施例中,计算系统包括至少一个处理器和至少一个存储器,该存储器包括用来将处理器配置成执行以下操作的指令:接收在体外受精(IVF)之后的预定时间窗口期间捕获的图像,并经由用户界面将在体外受精(IVF)之后的预定时间窗口期间捕获的图像上传到基于云的人工智能(AI)模型,该AI模型用来生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果。经由用户界面接收关于在胚胎图像中是否存在一个或多个非整倍体的估计结果,并由用户界面显示。
结果
证明AI模型能够纯粹从相差显微镜图像中分离出与特定染色体或染色体组相对应的形态特征的结果如下所示。根据表1,这包括一系列针对几种最严重的染色体缺陷(即,植入后不良后果的高风险)的示例研究。在前三种案例中,构建一个简单的例子来说明是否存在对应于特定染色体异常的形态特征。这是通过仅包括受影响的染色体和整倍体有活力胚胎来完成的。这些简化的示例提供了证据,表明基于把单独的模型组合起来生成一个总的模型是可行的,其中每个单独的模型都专注于不同的染色体缺陷/遗传缺陷。还产生了使用包含表1中列出的非整倍体的染色体组的另一个例子。
进行了第一项研究,以评估AI模型是否可以检测整倍体有活力胚胎与包括与唐氏(Down)综合症相关联的21号染色体的任何异常的胚胎(包括镶嵌型胚胎)之间的差异。在包含214个图像的盲数据集上训练模型的结果达到了71.0%的总体准确度。
在AI模型训练之前,具有如果出现在非整倍体(来自表1)和有活力的整倍体图像中就被认为是严重健康风险的所有染色体的表征的盲测试集被保留,以便可以用作训练模型的通用测试集。研究中涉及的图像总数见表2:
表2用于21号染色体研究的数据集的细分(1322个图像)
数据集 | 图像总数 | 非整倍体21号染色体图像数 | 整倍体活力图像数 |
训练(80%) | 887 | 417 | 470 |
验证(10%) | 221 | 105 | 116 |
测试(10%) | 214 | 68 | 146 |
测试集上的准确度结果如下:
·21号染色体有任何异常的胚胎:76.47%(52/68被正确识别);
·有活力的整倍体胚胎:68.49%(100/146被正确识别)。
非整倍体有活力胚胎和整倍体有活力胚胎的结果分布分别如图6A和6B所示。非整倍体分布600显示了左侧的被AI模型错误识别(遗漏)的21号染色体异常胚胎的小集合610(左侧的对角正斜线填充条),以及被AI模型正确识别的21号染色体异常胚胎的大集合620(右侧的对角反斜线填充条)。类似地,整倍体分布630显示了左侧的被AI模型错误识别(遗漏)的21号染色体正常胚胎的小集合640(左侧的对角正斜线填充条),以及被AI模型正确识别的21号染色体正常胚胎的大集合650(右侧的对角反斜线填充条)。在这两个图中,非整倍体胚胎图像和整倍体胚胎图像被很好地分离,AI模型提供的它们的倍性状态的结果评分清晰聚类。
以与21号染色体研究相同的方式,对16号染色体重复该方法,其修饰与自闭症有关。研究中涉及的图像总数如表3所示。
表3用于16号染色体研究的数据集的细分(1058个图像)。
数据集 | 图像总数 | 非整倍体16号染色体图像数 | 整倍体活力图像数 |
训练(80%) | 692 | 339 | 353 |
验证(10%) | 173 | 85 | 88 |
测试(10%) | 193 | 47 | 146 |
测试集上的准确度结果如下:
·16号染色体有任何异常的胚胎:70.21%(33/47被正确识别);
·有活力的整倍体胚胎:73.97%(108/146被正确识别)。
非整倍体有活力胚胎和整倍体有活力胚胎的结果分布分别如图7A和7B所示。非整倍体分布700显示了左侧的被AI模型错误识别(遗漏)的16号染色体异常胚胎的小集合710(左侧的对角正斜线填充条),以及被AI模型正确识别的16号染色体异常胚胎的大集合750(右侧的对角反斜线填充条)。类似地,整倍体分布730显示了左侧的被AI模型错误识别(遗漏)的16号染色体正常胚胎的小集合740(左侧的对角正斜线填充条),以及被AI模型正确识别的16号染色体正常胚胎的大集合750(右侧的对角反斜线填充条)。
作为第三个案例研究,对与帕套(Patau)综合征相关联的13号染色体重复该方法。研究中涉及的图像总数如表4所示。
表4用于13号染色体研究的数据集的细分(794个图像)。
数据集 | 图像总数 | 非整倍体13号染色体图像数 | 整倍体活力图像数 |
训练(80%) | 624 | 282 | 342 |
验证(10%) | 170 | 71 | 99 |
测试(10%) | 193 | 44 | 149 |
准确度结果如下:
·13号染色体有任何异常的胚胎:54.55%(24/44被正确识别);
·有活力的整倍体胚胎:69.13%(103/149被正确识别)。
虽然对于该特定染色体的准确度低于21号和16号染色体,但对于给定的数据集大小,预计不同的染色体将具有不同等级的置信度,在这些置信度下与其特定相关非整倍体相对应的图像可以被识别。也就是说,每种遗传学异常都会表现出不同的可见特征,因此预计某些异常比其它异常更容易检测到。然而,与大多数机器学习系统一样,增加训练数据集的大小和多样性有望最大限度地提高模型检测特定染色体异常存在的能力。因此,能够同时分别地评估多个非整倍体的组合方法可以提供与胚胎相关联的遗传学异常的有用图片,并具有不同等级的置信度,具体取决于已纳入训练的病例的罕见程度。
作为第四个案例研究,该方法用于染色体组分析,其中包括有活力的整倍体胚胎以及被认为是“严重”的染色体组,包括染色体13、14、16、18、21和45,X(根据表1)。出于本示例的目的,镶嵌体和非镶嵌体被包括在一起,并且所有类型的染色体改变都被包括在一起。研究中涉及的图像总数如表5所示。
表5用于“严重”染色体组研究的数据集的细分(853个图像)。
数据集 | 图像总数 | 严重非整倍体染色体图像数 | 整倍体活力图像数 |
训练(80%) | 563 | 343 | 220 |
验证(10%) | 140 | 86 | 54 |
测试(10%) | 150 | 91 | 59 |
准确度结果如下:
·胚胎出现严重染色体异常:54.95%(50/91被正确识别);
·有活力的整倍体胚胎:64.41%(38/59被正确识别)。
非整倍体有活力胚胎和整倍体有活力胚胎的结果分布分别如图8A和8B所示。非整倍体分布800显示了左侧的被AI模型错误识别(遗漏)的属于染色体严重组的非整倍体/异常胚胎小集合810(左侧的对角正斜线填充的条),以及被AI模型正确识别的属于染色体严重组的非整倍体/异常胚胎大集合820(右侧的对角反斜线填充条)。类似地,整倍体分布830显示了左侧的被AI模型错误识别(遗漏)的正常整倍体胚胎的小集合840,以及被AI模型正确识别的正常整倍体胚胎的大集合850(右侧的对角反斜线填充条)。
虽然对于该染色体组的准确度低于单个染色体,但预计对于给定的数据集大小,可以识别与其特定相关非整倍体相对应的具有相似严重程度的分组染色体或形态学基础上的特定组合。也就是说,每种遗传学异常都会表现出不同的可见特征,因此预计某些异常比其它异常更容易检测到。然而,与大多数机器学习系统一样,增加训练数据集的大小和多样性有望最大限度地提高模型检测特定染色体异常存在的能力。因此,能够同时分别评估多个非整倍体的组合方法可以提供与胚胎相关联的遗传学异常的有用图片,并具有不同等级的置信度,具体取决于已纳入训练的病例的罕见程度。
这4项研究表明,AI/机器学习和计算机视觉技术可以分别识别与21、16和13号染色体和组合染色体组异常相关联的形态学特征。
每个AI模型都能够以一定等级的置信度检测与某些严重染色体异常相关联的形态特征。由选择模型提供的与倍性状态相关联的评分直方图显示了整倍体胚胎图像和非整倍体胚胎图像之间的合理分离。
与染色体异常相关联的形态学特征可能是微妙而复杂的,这使得通过在小型数据集上训练有效地发现这些图案是颇具挑战性的。虽然这项研究确实表明图像中的胚胎形态与染色体异常之间存在很强的相关性,但预计使用更大、更多样化的数据集来训练AI模型可以实现更高的准确度。
这些研究表明,基于将侧重于不同的染色体异常的不同模型组合起来构建一个通用的非整倍体评估模型是可行的。这种更通用的非整倍体评估模型可以包含更广泛的染色体异常,包括严重和轻微的(如表1中所述,或根据临床实践判断)。也就是说,与之前的那些通常只是将所有非整倍体(和镶嵌)归并在一起以给出存在/不存在结果的系统不同,本系统通过将问题分解为独立的染色体组并在每个组上单独训练单个模型,然后将这些模型结合在一起以能够检测各种染色体异常,提高了性能。将问题分解为更小的染色体组,然后训练多个不同的模型,每个模型都以不同的方式训练或具有不同的配置或架构(例如分级、二元、多类别、多组),从而产生多样性的模型,其中的每一个模型都有效地解决了不同的优化问题,因此生成了关于输入图像的不同的结果。然后,这种多样性允许选择最佳模型。而且,这种方法旨在识别目前用侵入性筛查方法无法检测的镶嵌。在一个体外受精周期中,胚胎是宝贵且有限的资源。目前的成功率(就有活力妊娠而言)很低,如果进行更多个周期的话财务和情感成本都很高。因此,提供一种改进的非侵入性非整倍体评估工具,基于定义染色体组(例如基于不良结果严重性的那些染色体组),为临床医生和患者提供更细致和信息丰富的结果。这允许做出更明智的决定,特别是在所有可用胚胎(对于当前周期)都表现出非整倍体或镶嵌体的困难情况下,从而使临床医生和患者能够均衡可能的风险并就决定植入哪个胚胎做出更明智的选择。
讨论了若干实施例,包括分级分层模型和二元模型,以及单组模型或多组模型。特别是通过将质量标签分配给胚胎图像,可以使用分级分层模型来训练AI模型。在本实施例中,生成分层模型的分级序列,且可以为每个染色体组生成单独的分级分层模型。在每一层中,图像根据质量进行划分,其中质量最好的图像用于在该层训练模型。也就是说,在每一层,训练集都被划分为质量最好的图像和其它图像。该层的模型在质量最好的图像上进行训练,其它图像被传递到下一层并重复该过程(于是,剩余的图像被分成下一个质量最好的图像和其它图像)。分级分层模型中的模型,在所有层上可以都是二元模型、都是多类别模型、或是二元模型和多类别模型的组合。另外,这种分级训练方法也可用于训练多组模型。分级分层模型方法背后的基本原理是,被认为高质量的胚胎图像可能在异常最少的图像中具有最高质量的形态特征(即“看起来像最好的胚胎”),因此与包含染色体缺陷的胚胎图像相比形态差异最大(即“看起来不好或有异常特征”)。因此,这使AI算法能够更好地检测和预测这两种(极端)图像分类之间的形态特征。该过程可以重复多次,具有不同的层数/质量标签,以生成一组分级分层模型。为每个染色体组生成多个独立的分级分层模型模型,并且可以从这组分级分层模型中选择最佳分级分层模型。其可以基于质量指标,或者可以使用系综或蒸馏技术。
在一些实施例中,可以为每个染色体组生成一组二元模型,或者一个或多个将所有染色体组(或至少多个染色体组)分类的多组模型。可以生成多个不同组的二元模型、多个多类别模型,以及多组模型(包括多个分级的多组模型)。它们为AI模型提供了更多的多样性。一旦生成了一组候选模型,它们就可以用于生成最终的AI模型,以识别图像中的每个染色体组。其可以使用系综、蒸馏或其它类似方法进一步细化或生成,以基于多个模型训练最终的单个模型。一旦选择了最终模型,就可以将其用于在IVF期间对新图像进行分类,从而例如通过识别和排除高风险胚胎或者通过识别非整倍体风险最低的胚胎,帮助选择用于植入的胚胎(或多个胚胎)。
因此,结合染色体异常研究开发的方法可用于在植入前遗传学诊断(PGD)之前表征胚胎图像,作为预筛选工具或提供一套高级遗传学分析,以支持无法使用现成的PGD技术的诊疗机构。例如,如果图像表明存在不利染色体异常的可能性/可信度很高,则可以丢弃胚胎以便仅植入被认为是低风险的胚胎,或利用侵入性(也具有更高风险)的PGD技术进一步检查。
本领域技术人员会理解,可以使用各种技术中的任何一种来表示信息和信号。例如,在整个以上描述中可能提及的数据、指令、命令、信息、信号、位、符号和芯片,可以用电压、电流、电磁波、磁场或粒子、光场或粒子或其任何组合来表示。
本领域技术人员将进一步理解,结合本文所公开的实施例描述的各种说明性的逻辑块、模块、电路和算法步骤可以实现为电子硬件、计算机软件或指令、中间件、平台或两者的组合。为了清楚地说明硬件和软件的这种可互换性,上面已经大体上根据其功能描述了各种说明性组件、块、模块、电路和步骤。将这种功能性实现为硬件还是软件取决于特定的应用程序和施加在整个系统上的设计约束。本领域技术人员可以针对每个特定应用以各种方式来实现所描述的功能,但是这些被决定的实现方式不应被解释为导致脱离本发明的范围。
结合本文所公开的实施例描述的方法或算法的步骤可直接体现在硬件、由处理器执行的软件模块或两者的组合中,包括基于云的系统。对于硬件实现,可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计为执行本文所述功能的其它电子单元、或其组合内实现处理。可以使用各种中间件和计算平台。
在一些实施例中,处理器模块包括一个或多个中央处理单元(CPU)或图形处理单元(GPU),用来执行方法的一些步骤。类似地,计算设备可以包括一个或多个CPU和/或GPU。CPU可以包括输入/输出接口、算术和逻辑单元(ALU)以及通过输入/输出接口与输入和输出设备通信的控制单元和程序计数器元件。输入/输出接口可包括网络接口和/或通信模块,用于使用预定义通信协议(例如IEEE 802.11、IEEE 802.15、TCP/IP、UDP等)与另一设备中的等效通信模块通信。计算设备可以包括单个CPU(核心)或多个CPU(多个核心)或多个处理器。计算设备通常是使用GPU集群的基于云的计算设备,但可以是并行处理器、向量处理器或分布式计算设备。存储器可操作地连接到处理器,并且可以包括RAM和ROM组件,并且可以设置在设备或处理器模块内部或外部。存储器可用于存储操作系统和附加软件模块或指令。处理器可用来加载并执行存储在存储器中的软件模块或指令。
软件模块,也称为计算机程序、计算机代码或指令,可包含多个源代码或目标代码段或指令,并可位于在任何计算机可读介质中,如RAM存储器、闪存、ROM存储器、EPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM、DVD-ROM、蓝光光盘或任何其它形式的计算机可读介质。在一些方面中,计算机可读介质可包括非暂时性计算机可读介质(例如,有形介质)。而且,对于其它方面,计算机可读介质可包括暂时性计算机可读介质(例如,信号)。上述的组合也应包括在计算机可读介质的范围内。在另一方面中,计算机可读介质可集成到处理器。处理器和计算机可读介质可以驻留在ASIC或相关设备中。软件代码可以存储在存储器单元中,并且处理器可以用来执行它们。存储器单元可以在处理器内部或处理器外部实现,在这种情况下,可以通过本领域已知的各种手段将其通信地连接到处理器。
而且,应当理解,可以由计算设备下载和/或以其它方式获得用于执行本文所述的方法和技术的模块和/或其它合适的装置。例如,这样的设备可以连接到服务器以使得于用于执行本文描述的方法的装置的传输。可替代地,可以经由存储装置(例如,RAM、ROM、物理存储介质如光盘(CD)或软盘等)来提供本文描述的各种方法,使得在将存储装置连接或提供给计算设备时计算设备可以获得各种方法。而且,用于将本文描述的方法和技术提供给设备的任何其它合适的技术都可以使用。
本文公开的方法包括用于实现所描述的方法的一个或多个步骤或动作。方法步骤和/或动作可以在不脱离权利要求的范围的情况下彼此互换。换句话说,除非指定了步骤或动作的特定顺序,否则可以修改特定步骤和/或动作的顺序和/或使用,而不脱离权利要求的范围。
在整个说明书和所附权利要求中,除非上下文另有要求,术语“包括”、“包含”及其变化形式将被理解为暗示包括所明示的整数或一组整数,但并不排除任何其它整数或一组整数。本说明书中对任何现有技术的引用不是,也不应被视为承认此类现有技术构成公共常识的一部分的任何形式的意思表示。
本领域技术人员会理解,本发明的用途不限于所描述的一个或多个特定应用。关于本文描述或描绘的特定元件和/或特征,本发明也不局限于其优选实施方式。应当理解的是,本发明不限于所公开的一个或多个实施方式,而是能够在不背离由所附权利要求阐述和限定的范围的情况下进行各种重新排列、修改和替换。
Claims (21)
1.一种用于以计算方式生成非整倍体筛选人工智能(AI)模型的方法,该AI模型用于筛选在胚胎图像中是否存在非整倍体,该方法包括:
定义多个染色体组标签,其中每个组包括一个或多个不同的非整倍体,所述非整倍体包含不同的基因改变或染色体异常;
从第一组图像生成训练数据集,其中每个图像包括在体外受精后捕获的胚胎的图像且被标记有一个或多个染色体组标签,每个标签指示在所述胚胎的至少一个细胞中是否存在与相应的染色体组相关联的至少一个非整倍体,所述训练数据集包括标记有每个染色体组的图像;
从第二组图像生成测试数据集,其中每个图像包括在体外受精后捕获的胚胎的图像且被标记有一个或多个染色体组标签,每个标签指示是否存在与相应的染色体组相关联的至少一个非整倍体,所述测试数据集包括标记有每个染色体组的图像;
使用用于训练所有模型的所述训练数据集分别为每个染色体组训练至少一个染色体组AI模型,其中训练每个染色体组AI模型以识别标记有相关染色体组标签的图像中的形态特征,和/或在训练数据上训练至少一个多组AI模型,其中训练每个多组AI模型以独立识别标记有每个相关染色体组标签的图像中的形态特征,以生成关于输入图像的一个多组输出以指示在所述图像中是否存在与每个染色体组相关联的至少一个非整倍体;
使用所述测试数据集选择针对每个染色体组的最佳染色体组AI模型,或一个最佳多组AI模型;以及
部署所选择的AI模型来筛选在胚胎图像中是否存在一种或多种非整倍体。
2.如权利要求1所述的方法,其中,分别为每个染色体组训练至少一个染色体组AI模型和/或训练至少一个多组AI模型的步骤包括:训练分级分层模型,其中训练分级分层模型包括:
训练分层模型的分级序列,其中在每一层,与染色体组相关联的图像被分配第一标签并针对第二组图像进行训练,其中所述第二组图像基于质量的最大水平被分组,且在每个顺序层所述第二组图像是来自前一层中的第二组图像的子集,其质量低于所述前一层中的第二组图像的最大质量。
3.如权利要求2所述的方法,其中,训练分级分层模型包括:
为所述多个图像中的每个图像分配质量标签,其中所述质量标签集包括分级的质量标签集,该分级的质量标签集至少包括“有活力的整倍体胚胎”、“无活力的整倍体胚胎”、“不严重的非整倍体胚胎”和“严重的非整倍体胚胎”;
通过将所述训练集划分为具有“有活力的整倍体胚胎”标签的第一质量数据集和包含所有其它图像的另一个数据集来训练顶层模型,并在标记有染色体组的图像和第一质量数据集内的图像上训练模型;
依次训练一个或多个中间层模型,其中在每个中间层,从另一个数据集内选择具有带最高质量标签的标签的图像,生成下一个质量等级数据集,并在标记有所述染色体组的图像和所述下一个质量等级数据集内的图像上训练模型;以及
在标记有所述染色体组的图像和来自所述前一层的所述其它数据集内的图像上训练基础层模型。
4.如权利要求3所述的方法,其中,在为第一染色体组训练第一基础水平模型之后,对于每个其它染色体组,训练分级分层模型包括:针对用于训练所述第一基础水平模型的所述其它数据集,训练所述其它染色体组。
5.如权利要求2至4中任一项所述的方法,其中,分别为每个染色体组训练至少一个染色体组AI模型的步骤进一步包括:
为每个染色体组训练一个或多个二元模型,包括:
用“存在”标签标记所述训练集内带有与染色体组匹配的标签的图像,用“不存在”标签标记所述训练集内的所有其它图像,使用所述“存在”标签和“不存在”标签训练二元模型以生成关于输入图像的二元输出,以指示在所述图像中是否存在与所述染色体组相关联的染色体异常。
6.如权利要求2至5中任一项所述的方法,其中,所述分级分层模型均是二元模型。
7.如权利要求1-5中任一项所述的方法,其中,每个染色体组还包括多个互斥的非整倍体类别,其中所述染色体组内的非整倍体类别的概率之和为1,一个或多个所述AI模型为经过训练以估计染色体组内每个非整倍体类别的概率的多类别AI模型。
8.如权利要求7所述的方法,其中,所述非整倍体类别包括:“丢失”、“插入”、“重复”、“缺失”、“正常”。
9.如前述权利要求中任一项所述的方法,还包括:
为每个染色体组生成系综模型,包括:
训练多个最终模型,其中所述多个最终模型中的每一个最终模型基于针对相应组的最佳染色体组AI模型,且所述多个最终模型中的每一个最终模型在具有不同初始条件集和图像排序的训练数据集上训练;以及
根据系综投票策略将多个经过训练的最终模型组合起来。
10.如前述权利要求中任一项所述的方法,还包括:
为每个染色体组生成蒸馏模型,包括:
训练多个教师模型,其中所述多个教师模型中的每一个教师模型基于针对相应组的最佳染色体组AI模型,且所述多个教师模型中的每一个教师模型在具有不同初始条件集和图像排序的训练数据集的至少一部分上训练;以及
使用蒸馏损失函数在所述训练数据集上使用多个经过训练的教师模型训练学生模型。
11.如前述权利要求中任一项所述的方法,还包括:
接收多个图像,每个图像包括体外受精后拍摄的胚胎图像和一个或多个非整倍体结果;
将所述多个图像分成所述第一组图像和所述第二组图像,并基于相关联的一个或多个非整倍体结果为每个图像分配一个或多个染色体组标签,其中所述第一组图像和所述第二组图像具有相似比例的每个所述染色体组标签。
12.如前述权利要求中任一项所述的方法,其中,每一组包括具有相似的不良结果风险的多个不同的非整倍体。
13.如权利要求12所述的方法,其中,所述多个染色体组标签至少包括低风险组和高风险组。
14.如权利要求13所述的方法,其中,所述低风险组至少包括1、3、4、5、17、19、20和“47,XYY”号染色体,所述高风险组至少包括13、16、21、“45,X”、“47,XXY”和“47,XXX”号染色体。
15.如前述权利要求中任一项所述的方法,其中,所述图像是在受精后3至5天内捕获的。
16.如前述权利要求中任一项所述的方法,其中,所述测试数据集内每个染色体组的相对比例与所述训练数据集内每个染色体组的相对比例相似。
17.一种用于以计算方式生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果的方法,该方法包括:
在计算系统中,根据权利要求1至16中任一项所述的方法生成非整倍体筛选AI模型;
经由所述计算系统的用户界面从用户接收包含在体外受精后捕获的胚胎的图像;
将所述图像提供给所述非整倍体筛选AI模型,以获得关于在所述图像中是否存在一个或多个非整倍体的估计结果;以及
经由所述用户界面向所述用户发送关于在所述图像中是否存在一个或多个非整倍体的报告。
18.一种用于获得关于在胚胎图像中是否存在一个或多个非整倍体的估计结果的方法,该方法包括:
经由用户界面向基于云的人工智能(AI)模型上传在体外受精(IVF)之后的预定时间窗口期间捕获的图像,所述AI模型用于生成关于在图像中是否存在一个或多个非整倍体的估计结果,其中所述AI模型是根据权利要求1至16中任一项所述的方法生成的;
经由所述用户界面接收关于在胚胎图像中是否存在一个或多个非整倍体的估计结果。
19.一种基于云的计算系统,用于以计算方式生成非整倍体筛选人工智能(AI)模型,该模型被根据权利要求1至16中任一项所述的方法配置。
20.一种基于云的计算系统,用来以计算方式生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果,其中该计算系统包括:
一个或多个计算服务器,包括一个或多个处理器和一个或多个存储器,所述存储器用来保存非整倍体筛选人工智能(AI)模型,该非整倍体筛选人工智能(AI)模型用来生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果,其中所述非整倍体筛选人工智能(AI)模型是根据权利要求1至16中任一项所述的方法生成的,且所述一个或多个计算服务器用于:
经由所述计算系统的用户界面从用户接收图像;
将所述图像提供给所述非整倍体筛选人工智能(AI)模型,以获得关于在所述图像中是否存在一个或多个非整倍体的估计结果;以及
经由所述用户界面向所述用户发送关于在所述图像中是否存在一个或多个非整倍体的报告。
21.一种计算系统,用来生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果,其中该计算系统包括至少一个处理器和至少一个存储器,该存储器包括用来使所述至少一个处理器执行以下操作的指令:
接收在体外受精(IVF)后的预定时间窗口内捕获的图像;
经由用户界面,将在体外受精(IVF)后的预定时间窗口内捕获的所述图像上传到基于云的人工智能(AI)模型,所述AI模型用于生成关于在胚胎图像中是否存在一个或多个非整倍体的估计结果,其中所述AI模型是根据权利要求1至16中任一项所述的方法生成的;
经由所述用户界面接收关于在胚胎图像中是否存在一个或多个非整倍体的估计结果;以及
经由所述用户界面显示所述关于在胚胎图像中是否存在一个或多个非整倍体的估计结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AU2019903584 | 2019-09-25 | ||
AU2019903584A AU2019903584A0 (en) | 2019-09-25 | Method and system for performing non-invasive genetic testing using an artificial intelligence (ai) model | |
PCT/AU2020/000111 WO2021056046A1 (en) | 2019-09-25 | 2020-09-25 | Method and system for performing non-invasive genetic testing using an artificial intelligence (ai) model |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114846507A true CN114846507A (zh) | 2022-08-02 |
Family
ID=75164782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080081475.1A Pending CN114846507A (zh) | 2019-09-25 | 2020-09-25 | 用于使用人工智能(ai)模型进行非侵入性基因检测的方法和系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220343178A1 (zh) |
EP (1) | EP4035126A4 (zh) |
JP (1) | JP2022551683A (zh) |
CN (1) | CN114846507A (zh) |
AU (1) | AU2020351825A1 (zh) |
WO (1) | WO2021056046A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866908B (zh) * | 2019-11-12 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、服务器及存储介质 |
US20210216596A1 (en) * | 2020-01-13 | 2021-07-15 | Digital Candy, Inc. | Method for executing a search against degraded images |
CN114723652A (zh) * | 2021-01-04 | 2022-07-08 | 富泰华工业(深圳)有限公司 | 细胞密度确定方法、装置、电子设备及存储介质 |
US20220318667A1 (en) * | 2021-03-30 | 2022-10-06 | Accenture Global Solutions Limited | Intelligent real-time defect prediction, detection, and ai driven automated correction solution |
WO2022221911A1 (en) * | 2021-04-19 | 2022-10-27 | Newsouth Innovations Pty Limited | "quality assessment of reproductive material" |
CN113111950B (zh) * | 2021-04-19 | 2022-05-31 | 中国农业科学院农业资源与农业区划研究所 | 一种基于集成学习的小麦锈病分类方法 |
CN117836820A (zh) * | 2021-05-10 | 2024-04-05 | 张康 | 用于人ivf衍生胚胎的结果评价的系统和方法 |
US11875578B2 (en) * | 2021-08-12 | 2024-01-16 | GM Global Technology Operations LLC | Determination of traffic light orientation |
CN113744892A (zh) * | 2021-09-02 | 2021-12-03 | 上海宝藤生物医药科技股份有限公司 | 胚胎整倍性预测方法、装置、电子设备及存储介质 |
CN113962995B (zh) * | 2021-12-21 | 2022-04-19 | 北京鹰瞳科技发展股份有限公司 | 一种白内障模型的训练方法及白内障识别方法 |
CN116091773B (zh) * | 2023-02-02 | 2024-04-05 | 北京百度网讯科技有限公司 | 图像分割模型的训练方法、图像分割方法和装置 |
CN116778482B (zh) * | 2023-08-17 | 2023-10-31 | 武汉互创联合科技有限公司 | 胚胎图像卵裂球目标检测方法、计算机设备及存储介质 |
CN116883673B (zh) * | 2023-09-08 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 语义分割模型训练方法、装置、设备及存储介质 |
CN118314673A (zh) * | 2024-04-07 | 2024-07-09 | 河南唐都科技有限公司 | 基于互联网数据的智能火灾预警方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2373842C2 (ru) * | 2003-12-02 | 2009-11-27 | Шрага РОТТЕМ | Искусственный интеллект и устройство для диагностики, скрининга, профилактики и лечения состояний системы матери и плода |
US8372584B2 (en) * | 2006-06-14 | 2013-02-12 | The General Hospital Corporation | Rare cell analysis using sample splitting and DNA tags |
SG178536A1 (en) * | 2009-08-22 | 2012-03-29 | Univ Leland Stanford Junior | Imaging and evaluating embryos, oocytes, and stem cells |
TWI687937B (zh) * | 2018-10-05 | 2020-03-11 | 中國醫藥大學附設醫院 | 染色體異常檢測模型之建立方法、染色體異常檢測系統及染色體異常檢測方法 |
-
2020
- 2020-09-25 JP JP2022518893A patent/JP2022551683A/ja active Pending
- 2020-09-25 CN CN202080081475.1A patent/CN114846507A/zh active Pending
- 2020-09-25 WO PCT/AU2020/000111 patent/WO2021056046A1/en active Search and Examination
- 2020-09-25 US US17/763,401 patent/US20220343178A1/en active Pending
- 2020-09-25 EP EP20870020.3A patent/EP4035126A4/en active Pending
- 2020-09-25 AU AU2020351825A patent/AU2020351825A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220343178A1 (en) | 2022-10-27 |
EP4035126A1 (en) | 2022-08-03 |
JP2022551683A (ja) | 2022-12-13 |
WO2021056046A1 (en) | 2021-04-01 |
EP4035126A4 (en) | 2023-10-25 |
AU2020351825A1 (en) | 2022-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114846507A (zh) | 用于使用人工智能(ai)模型进行非侵入性基因检测的方法和系统 | |
US20220198657A1 (en) | Method and system for selecting embryos | |
Xu et al. | A deep convolutional neural network for classification of red blood cells in sickle cell anemia | |
Bhardwaj et al. | Diabetic retinopathy severity grading employing quadrant‐based Inception‐V3 convolution neural network architecture | |
JP7294695B2 (ja) | 学習済モデルによるプログラム、情報記録媒体、分類装置、ならびに、分類方法 | |
CN117015796A (zh) | 处理组织图像的方法和用于处理组织图像的系统 | |
CN112464983A (zh) | 一种用于苹果树叶病害图像分类的小样本学习方法 | |
CN113011450B (zh) | 青光眼识别的训练方法、训练装置、识别方法及识别系统 | |
Malmsten et al. | Automated cell division classification in early mouse and human embryos using convolutional neural networks | |
Athira et al. | Diabetic retinopathy grading from color fundus images: an autotuned deep learning approach | |
Kotiyal et al. | Diabetic retinopathy binary image classification using PySpark | |
CN118230166A (zh) | 基于改进Mask2YOLO网络的玉米冠层器官识别方法及冠层表型检测方法 | |
CN114580501A (zh) | 骨髓细胞分类方法、系统、计算机设备及存储介质 | |
BalaKrishna et al. | Autism spectrum disorder detection using machine learning | |
US20240331150A1 (en) | Method and system of predicting pregnancy outcomes and quality grades in mammalian embryos | |
Patel et al. | Parallel Custom Deep Learning Model for Classification of Plant Leaf Disease Using Fusion of Features. | |
Kaoungku et al. | Colorectal Cancer Histology Image Classification Using Stacked Ensembles | |
Habijan et al. | Ensemble Transfer Learning for Lymphoma Classification | |
CN117995417B (zh) | 基于机器学习的ivf/icsi预处理方案优化系统 | |
Blanc | Artificial intelligence methods for object recognition: applications in biomedical imaging | |
Bhandari et al. | Improved Diabetic Retinopathy Severity Classification Using Squeeze-and-excitation and Sparse Light Weight Multi-level Attention U-net With Transfer Learning From Xception | |
Bhartiya | Diagnosing Cervical Cancer with Deep Learning | |
Manoranjitham | An artificial intelligence ensemble model for paddy leaf disease diagnosis utilizing deep transfer learning | |
Karthik et al. | Autism Detection for Toddlers using Facial Features with Deep Learning | |
Sangeetha et al. | Proficient Prediction of Acute Lymphoblastic Leukemia Using Machine Learning Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |