CN117593505A

CN117593505A - 数字pcr泄漏检测和校正方法及系统

Info

Publication number: CN117593505A
Application number: CN202311032666.0A
Authority: CN
Inventors: M·冈萨雷斯; L·施莫尔; J·H·韦莱特
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2022-08-18
Filing date: 2023-08-16
Publication date: 2024-02-23
Also published as: US20240060845A1

Abstract

本公开中的系统和方法识别从一个分区到周围分区的泄漏。检测泄漏可包括输入数据，所述输入数据描述所述分区的位置、荧光强度以及所述分区对于分析物是否为阳性。机器学习模型可基于广泛的输入数据集来进行训练，以识别具有泄漏或高泄漏概率的分区。在一些实施方案中，在所述机器学习模型中使用的特征包括描述所述分区周围的近邻而不只是所述分区自身的值。

Description

数字PCR泄漏检测和校正方法及系统

背景技术

数字聚合酶链式反应(数字PCR或dPCR)是一种诊断技术。数字PCR耗材包括一系列分区(即，孔)。包含核酸分子(例如，DNA、cDNA或RNA)的样品被分布到孔。孔中的核酸分子被扩增并与检测剂/测定物(例如，荧光标记)反应。在分区中检测到或未检测到检测剂，并且相应地对分区进行分类。关于孔中核酸分子的类型和用于每种类型的孔的数量的信息可用于分析样品并诊断从其获得样品的受试者。

对样品进行分区的目的是获得独立的荧光测量结果。当对样品进行分区以执行dPCR时出现的问题是，来自一个分区的材料可能越过一个分区的边缘泄漏到另一分区中。泄漏可能是由于过度填充、填充不足、限定分区的材料中的缺陷或处理中的错误造成的。样品跨板的填充不足或过度填充可能导致因泄漏而造成的带有高荧光测量结果的孔的增加。到另外的分区中的泄漏可能导致高估目标的存在，因为另外的分区的测量结果显示升高的荧光值。识别带有泄漏的分区对于改善诊断测定是可取的。这些和其他需求得到了解决。

发明内容

本公开中的系统和方法识别从一个分区到周围分区的泄漏。检测泄漏可包括输入数据，该输入数据描述分区的位置、荧光强度以及分区对于分析物是否为阳性。机器学习模型可基于广泛的输入数据集来进行训练，以识别具有泄漏或高泄漏概率的分区。在一些实施例中，在机器学习模型中使用的特征包括描述分区周围的近邻而不只是分区自身的值。带有泄漏的分区可以为在数字PCR系统中使用的板上的六边形分区。

实施例可包括检测微流体装置中的泄漏的方法。方法可包括：接收测试输入数据。对于测试多个分区中的每个分区，测试输入数据可包括从微流体装置的一个或多个图像的像素获得的性质。性质可包括：分区在微流体装置内的位置、与分区相关联的像素的强度的值以及分析物在分区中不存在或存在的状态。方法可附加地包括：使用机器学习模型来确定测试多个分区中的第一分区是否以泄漏为特征的分类。机器学习模型可使用测试输入数据。机器学习模型可通过接收训练输入数据来进行训练。训练输入数据可从多个训练微流体装置的图像的像素来获得，其中每个训练微流体装置具有第一多个分区。对于每个分区，训练输入数据包括：与测试输入数据相同的性质，以及第一标记，该第一标记指示对于第一多个分区中的每个分区，分区是否以泄漏为特征的已知分类。方法也可包括：当使用训练输入数据来执行机器学习模型时，基于机器学习模型的输出与第一标记中的对应标记匹配或不匹配，使用训练输入数据来优化机器学习模型的参数。机器学习模型的输出可指定分区是否以泄漏为特征。该方面的其他实施例包括对应的计算机系统、设备以及记录在一个或多个计算机存储装置上的计算机程序，其中的每一者都被配置为执行方法的动作。

实施例可包括训练用于检测微流体装置中的泄漏的机器学习模型的方法。方法可包括：接收训练输入数据。训练输入数据可从多个训练微流体装置的图像的像素获得。每个训练微流体装置可具有第一多个分区。对于每个分区，训练输入数据可包括：分区在每个训练微流体装置内的位置、与分区相关联的像素的强度的值、分析物在分区中不存在或存在的状态以及第一标记，该第一标记指示对于第一多个分区中的每个分区，分区是否以泄漏为特征的已知分类。方法可附加地包括：当使用训练输入数据来执行机器学习模型时，基于机器学习模型的输出与第一标记中的对应标记匹配或不匹配，使用训练输入数据来优化机器学习模型的参数。机器学习模型的输出可指定分区是否以泄漏为特征。该方面的其他实施例包括对应的计算机系统、设备以及记录在一个或多个计算机存储装置上的计算机程序，其中的每一者都被配置为执行方法的动作。

一个或多个计算机的系统可被配置为通过在该系统上安装软件、固件、硬件或它们的组合来执行特定的操作或动作，该软件、固件、硬件或它们的组合在操作中引起该系统执行动作。一个或多个计算机程序可被配置为通过包括指令来执行特定的操作或动作，该指令在由数据处理设备执行时引起该设备执行动作。

参考以下具体实施方式和附图，可以更好地理解本发明的实施例的性质和优点。

附图说明

图1示出了根据本发明的实施例的孔板的图示。

图2示出了根据本发明的实施例的分区周围的近邻。

图3示出了根据本发明的实施例的未标记为具有泄漏的分区和标记为泄漏的分区的实例。

图4示出了根据本发明的实施例的用于将标记泳道分成六个集(即，份)的技术。

图5是根据本发明的实施例的用以检测泄漏的示例性过程的流程图。

图6是根据本发明的实施例的用以训练模型以检测泄漏的示例性过程的流程图。

图7示出了根据本发明的实施例的测量系统。

图8示出了根据本发明的实施例的可与系统和方法一起使用的示例性计算机系统的框图。

具体实施方式

某些测定(诸如在数字PCR上执行的那些)对分区阵列中的分析物进行检测和量化。对于给定分析物呈阳性的分区的数量基于测定灵敏度而可能影响分析。被称为阳性的分区的数量方面的错误可能影响对医学疾病(诸如癌症)的诊断。分区之间可能发生泄漏，这可能导致一些分区即使当它们本来并非为阳性时对于分析物也表现为阳性。在PCR循环步骤期间可能发生泄漏。PCR循环可包括40个周期，但泄漏可能在周期早期(例如，前10个周期)更为普遍。当前用以识别泄漏的方法取决于dPCR分析者手动识别图像中的泄漏区域。此类分析可能是缓慢和费力的。此外，对泄漏的检测是主观的，并且dPCR分析者对于泄漏是否存在可能存在分歧。

本公开描述了用于识别泄漏的系统和方法。系统和方法使用经训练的机器学习模型来识别泄漏。机器学习模型基于稳健的训练数据集来进行训练。机器学习模型的特征包括表示分区的近邻与特定泳道或孔板中的分区的群体相比如何的值。本文所述的系统和方法通过允许更快地识别泄漏、避免重复测定、提高准确性和/或允许更小的样品来改善测定技术。

分区的形状可以为六边形。六边形分区具有可有利于确定泄漏的某些特征。恰好三个六边形在每个顶点相交，并且所有三个此类六边形都是相邻的或共享边缘。相比之下，正方形平铺将导致四个正方形在每个顶点相交，并且成对的对角正方形不共享边缘。在正方形实例中，越过边缘的泄漏无法轻松地传递到共享顶点的所有多边形，因为泄漏越过任何平铺多边形的边缘来扩散。在六边形实例中，每个内部六边形都被相等面积的六个相邻六边形包围。这导致与正方形或三角形平铺不同的类似于靶心(bullseye)的扩散图案。主混合流体泄漏到其中的邻近多边形可通过对平铺的选择来确定。

如本文所用的术语“分类”是指与样品的特定性质相关联的任何数字或其他字符。例如，“+”符号(或“阳性”一词)可表示样品被分类为具有缺失或扩增。该分类可以是二元的(例如，阳性或阴性)，或者可具有更多的分类级别(例如，从1到10或从0到1的标度)。

术语“截止点”和“阈值”是指在操作中使用的预先确定的数字。例如，阈值可指强度值，高于该强度值则认为检测到分析物。阈值可以为这样的值，高于或低于该值则特定分类适用。这些术语中的任一术语都可在这些上下文中的任一上下文中使用。截止点或阈值可以为“参考值”，或者可源自表示特定分类或在两个或更多个分类之间进行区分的参考值。如本领域技术人员将理解的，此类参考值可以各种方式来确定。例如，可针对带有不同已知分类的两个不同受试者群组来确定度量，并且参考值可被选择为对一个分类的表示(例如，均值)或在两个度量集群之间的值(例如，被选择以获得所需的灵敏度和特异性)。又如，可基于对样品的统计分析或模拟来确定参考值。

术语“机器学习模型”可包括基于使用样品数据(例如，训练数据)来对测试数据进行预测的模型，并且因此可包括监督学习。机器学习模型通常使用计算机或处理器来开发。机器学习模型可包括统计模型。

术语“约”或“大致”可意指在如本领域普通技术人员所确定的特定值的可接受误差范围内，该可接受误差范围将部分地取决于如何测量或确定该值，即，测量系统的局限性。例如，按照本领域中的实践，“约”可意指在1个或多于1个标准偏差以内。替代性地，“约”可意指给定值的至多20％、至多10％、至多5％或至多1％的范围。替代性地，特别是关于生物系统或过程，术语“约”或“大致”可意指在值的数量级内，优选地在5倍以内，并且更优选地在2倍以内。在本申请和权利要求书中描述了特定值的情况下，除非另有说明，否则应认为术语“约”意指在该特定值的可接受误差范围内。术语“约”可具有如本领域普通技术人员通常理解的含义。术语“约”可指±10％。术语“约”可指±5％。

I.示例性测定系统

可能遇到泄漏的测定系统的实例为dPCR系统。dPCR系统可使用带有荧光检测的PCR。含有核酸分子的生物样品可被分配到孔板中。这些孔(即，分区)可能发生泄漏。

A.板

图1示出了板104的图示。板104包括八个相等泳道(例如，泳道108、泳道112)。每个泳道的宽度相等并且跨越板104的长度。每个泳道包括许多分区。在不同的板当中，分区可具有不同的尺寸和密度。特定板中和泳道中的分区具有相同的尺寸和均匀的密度。例如，分区集116包括各自带有30μL的反应体积的分区。板104可包括分区集116中的约30,000个分区。又如，分区集120可包括各自带有40μL的反应体积的分区。板104可包括分区集120中的约20,000个分区。作为又另一示例，分区集124可包括各自带有10μL的反应体积的分区。孔板104可包括分区集124中的约100,000个分区。带有不同尺寸或分区数量的不同板可用于不同应用，包括基因表达、绝对定量、游离DNA、残留DNA测试、微生物检测和拷贝数变异。图1中的示例性分区为六边形。

B.用以确定阳性分区的程序

对于目标分析物呈阳性的分区会发荧光。测定系统可使用不同的检测通道来检测不同类型的荧光。例如，系统可包括六个检测通道，每个通道用于不同类型的染料。对阳性分区的检测可包括若干步骤。一些分区可能失效，并且可计算中间结果。来自中间算法的此类结果可用作后续算法的输入。在每个阶段，只有有效分区才可用于计算后续算法。

在PCR扩增期间或之后，可跨板的水平维度(例如，泳道)获取一系列高分辨率图像。板的分区可被组织成图像中的行和列。之后，图像可经历伪影去除，这可包括去除可能被灰尘、毛发或其他颗粒污染的分区。所得到的图像可被分割成不同的分区。分区的边缘可被识别并且与分区的内容分离。可基于位置来为不同的分区指派坐标。可将对应的整数荧光值指派到每个被有效识别的分区。该数据集可包括每个有效分区的荧光值以及分区的相关联的坐标。

该数据集可经历掩蔽算法，该掩蔽算法使分区的集无效，而不管分区的原始荧光值如何并且没有任何伴随的计算或算法。目的是去除板的整个区域，这有时导致不良信号。串扰校正可调整跨通道的荧光值，以减轻源于跨通道的同时测量的干扰。荧光值也可通过对照通道的荧光值来进行归一化。

然后，归一化后的精炼数据可用于基于每个颜色通道的荧光值来将分区分类为阳性或阴性。可通过将荧光值与阈值进行比较来对分区进行分类。可通过操作者判断或通过计算机系统来确定阈值。阈值可基于所需的准确性(例如，特异性和/或灵敏度)。在实施例中，对分区的分类可由计算机系统执行。

II.示例性泄漏检测

可使用足够的训练数据和描述分区的近邻的特征来检测分区中的泄漏。数字PCR系统和其他系统可能在现场达10年，并且在此期间可能没有进行软件更新。因此，需要稳健的训练集来确保用以检测泄漏的准确技术。此外，用以检测泄漏的技术应适用于系统历经其生命周期可能遇到的各种样品和用例。

A.特征

在用以确定泄漏的技术中使用的特征包括与给定分区的近邻相关的值。这些特征模仿靶心图案来识别泄漏。特征可以为关于每个内部六边形周围的近邻的计算出的统计数据。关于此类近邻的统计数据可以为衡量每个近邻与靶心的相似程度的度量。

图2示出了分区周围的近邻。分区204在图208、图212和图216中以黄色示出。图208以红色示出了距分区204一个分区的分区(例如，分区220)(即，1-近邻)。图212以红色示出了距分区204两个分区或更少个分区的分区(例如，分区224)(即，2-近邻)。分区224距分区204两个分区。图216以红色示出了距分区204三个分区或更少个分区的分区(例如，分区228)(即，3-近邻)。分区228距分区204三个分区。

板坐标系可包括孔跨板的水平和竖直位置。六边形平铺可由自然编号的元组(x,y)来表示。分区(x,y)周围的n-近邻可描述如下。每个分区在其上方都具有通过向上平移移位n个六边形分区来实现的n-近邻分区。类似地，可定义下方、和左上(下)以及右上(下)的n-近邻。六边形(x,y)的n-近邻定义为(x,y)在所有方向上的所有i个近邻，其中i<＝n。

如果存在来自分区204的泄漏，则泄漏到达其n-近邻中的概率与n成反比。这是泄漏的本质和六边形平铺图案的结果。当泄漏材料已在相同方向上流过至少n个分区边界时发生到达n-近邻的泄漏。

在机器学习模型中使用的特征可包括基于n-近邻的特征。例如，分区周围的n-近邻可能具有k个六边形分区。k个分区中的每个分区都具有荧光测量结果以及由先前分类确定产生的假定阳性或阴性结果两者。可对此类近邻进行计算，诸如跨近邻的荧光值的标准偏差。

此外，特征可基于n-近邻的值的分布。n-近邻的群体可针对特定泳道。特征可包括确定泳道中的每个n-近邻的某个值。例如，特征可包括平均荧光值、阳性分区的数量和/或阴性分区的数量。特征可包括特定分区周围基于所有n-近邻的分布的n-近邻的统计值。例如，统计值可以为标准偏差的数量(例如，z-评分)、百分位数、与中值或均值的分离值(差值或比率)或者偏态。

特征也可包括分区自身的值，而不考虑n-近邻。例如，特征可包括分区的强度的值。特征可包括分区的强度的统计值。例如，统计值可以为标准偏差的数量(例如，z-评分)、百分位数、与中值或均值的分离值(差值或比率)或者偏态。

B.训练数据

在许多情况下，当仪器在现场时，训练数据可能没有被更新。因此，当新用户创建新测定时，训练数据应当已经预期并反映该未知数据。准确和广泛的训练数据集可用于用以针对不同场景来概括模型的泄漏模型。

1.泳道和实验

针对训练数据所选择的实验涵盖宽泛的范围。数据选自若干测定，包括确定基因表达、绝对定量、游离DNA、残留DNA测试、微生物检测和拷贝数变异。此外，因为泄漏极少发生(少于1％的时间)，所以实验人员也创建了泄漏数据。使用带有较高泄漏的板的过时版本来创建数据。实验人员也对实验室制剂进行物理操纵以诱导泄漏。

对来自实验的图像数据进行预处理以确定阳性分区。预处理可包括与本文所述的用以确定阳性分区相同的程序。例如，图像可被获取、被组织成行和列、经历伪影去除以及被分割成不同的分区。分区可各自被指派荧光值。分区的数据以及荧光值可经历掩蔽算法、串扰校正和值归一化。然后可将分区分类为阳性或阴性。

2.标记数据

图3示出了未标记为具有泄漏的分区和标记为泄漏的分区的实例。白色六边形(例如，分区304)指示阳性分区。为深灰色的分区(例如，分区308)对于分析物呈阴性。图示302中所示的分区未标记为泄漏。处于两种颜色之间的分区(例如，分区312)具有在阳性与阴性之间的一些荧光。当阳性分区被具有这些中间荧光强度的分区包围时，可能已经发生泄漏。图示310示出了标记为泄漏的分区。数字PCR图像分析者对泄漏进行标记。可通过多边形(例如，多边形316)来识别泄漏区域。多边形内的分区被标记为具有泄漏。可使用若干dPCR图像分析者来对相同图像中的泄漏进行标记。

3.数据泄漏

以兆兆字节的数据开始，泳道被分成训练/验证数据和两种形式的测试数据。对于标记的数据，使用了用于5份交叉验证的泳道的六个集和保留的测试集。

跨单个泳道的特征值可能是相关的，因为特征值中的大多数特征值来自原始数据跨泳道的分布。例如，特征可被计算为跨整个泳道的常数，而不是处于分区级的函数。每个Z评分特征都是根据跨整个泳道的分布来计算的。在训练数据和测试数据两者中包括来自相同泳道的原始数据导致数据泄漏。当模型基于类似数据进行训练和测试两者时发生数据泄漏，从而导致模型与此类数据过度拟合。为了减轻这个问题，整个泳道都包括在交叉验证或测试集中。

4.下采样

泄漏发生少于1％的时间。因此，下采样用于正确地训练二元分类器。在不存在下采样的情况下，任何机器学习模型都可只是预测多数类别。如果在将泳道指派到用于交叉验证的六个集以及测试集之前执行下采样，则每个集中将出现不同百分比的阳性分区和阴性分区。相反，选择总体下采样率，并且针对六个集中的每个集计算特定下采样率以满足总体下采样率。

图4示出了用于将标记的泳道分成六个集(即，份)的技术。在阶段404处，以标记为泄漏的分区的总数的降序列出泳道。将前六个泳道置于它们自己的份中。此后，在阶段408处，将下一个泳道置于带有最少的标记为泄漏的分区的份中。通过所有泳道进行迭代，泳道类似地被分布到份。这是用以解决每个集中具有大致相等的阳性分区的问题的在数学方面和计算方面最优的解决方案。单个泳道被指派到单个份，并且不在不同的份当中进行拆分。

在下采样之后，超过5％的分区中存在泄漏。带有泄漏的分区权重较高，以有助于训练二元分类器。

5.未标记的测试集

在使用训练和验证集对模型进行初始训练和选择之后，使用首先被标记的测试数据。选择模型的阈值以减轻假阳性和假阴性两者。最大比例的可用泳道未被标记并且被用作测试数据。

此后使用未被标记的第二测试数据集来手动评估来自泄漏模型的跨各种泳道的错误。在目视评估50至100个其他泳道之后，对模型的阈值进行了微调。

除阈值计算之外，还使用未标记的测试数据集来手动和自动更新训练数据集。例如，在模型的不同迭代之后，计算了关于数百个泳道的统计数据。如果发现大量泄漏，则以迭代方式将这些添加到训练数据集中。这导致捕捉到许多极端情况并且此后对模型进行调适。如前所述，许多泳道也进行了手动评估，其目的是微调模型阈值。任何重复出现的手动评估的错误都有助于使模型受益，因为这被添加到训练数据集中。在所有此类情况下，这都有助于迭代地减少来自模型的假阳性和阴性。在模型验证之后，基于所有标记的数据来训练用于在实际仪器上采用的模型。

C.示例性决策树模型

使用了LightGBM模型的Microsoft具体实施。选择了带有树的系综技术是因为泄漏发生率低，并且因此训练数据集偏差非常大。利用系综技术，人们可选择装袋(bagging)或推进(boosting)。选择了推进算法是因为泄漏发生率低，并且泄漏相当稳定。

在这些装袋方法中，存在逐叶或逐级生长选项。这些是指追加树或弱学习器的附加级的不同技术。如果跨所有叶来集体追加附加级，则该方法被称为逐级。相反，如果基于一些互信息或准确性度量来恰好在最弱的位置中添加附加节点，则该方法被称为逐叶生长。尽管逐叶生长可能是更有利的并且学习得更快，但是其当基于小数据集来进行训练时可能通常过度拟合。在针对二元分类器努力创建大泄漏训练数据集之后，LightGBM模型能够利用逐叶生长。

选择了针对模型的超参数是为了增加普遍性。超参数导致系综内更少和更简单的弱学习器或树。超参数可包括小的最大树深度、高的最小子节点、低的迭代次数：装袋被实现的次数、低的特征分数：每个装袋具体实施所使用的特征的比例、高的正则化参数：推进为贪婪算法并且可能过度拟合、小的最大值箱尺寸、直方图：箱特征的数量被划分到其中、低的学习率和早期停止。

D.后处理

液体流过物理相邻分区导致泄漏。所有数据通道都从相同液体进行记录。这个概念在后处理步骤期间被并入算法中，并且传递是否每个分区同等地跨所有通道都被预测为泄漏。如果算法预测任何一个或多个通道中存在泄漏，则泄漏被解析为在所有通道中都存在。

如果分区泄漏模型将泳道中小于阈值的有效分区预测为泄漏，则泳道保持有效。可在没有被预测为泄漏的分区的情况下执行包括每个分区的副本的后续算法和计算。

如果分区泄漏模型将泳道中大于或等于阈值的有效分区预测为泄漏，则将泳道标记为无效。不能使用泳道执行进一步的后续算法。

由于泄漏的物理原因源于流体从阳性分区流到阴性分区中，因此整个阴性泳道不能具有泄漏。如果从聚类算法既未检测到阳性分区又未检测到阴性分区，则可停用该算法。该停用在通道级上完成，并且算法在带有阳性分区和阴性分区两者的任何剩余通道上保持活动。类似地，当恰好一个分区为阳性时，算法可被停用，因为不会发生泄漏。

III.示例性方法

实施例包括使用经训练的机器学习模型来检测分区中的泄漏的方法。此外，实施例包括训练机器学习模型的方法。

A.检测泄漏的方法

图5是示例性过程500的流程图。在一些具体实施中，图5的一个或多个过程框可由系统700来执行。

在框510处，可接收测试输入数据。对于测试多个分区中的每个分区，测试输入数据可包括从微流体装置的一个或多个图像的像素获得的若干性质。性质可包括：分区在微流体装置内的位置、与分区相关联的像素的强度的值以及分析物在分区中不存在或存在的状态。分区的位置可以使用如本文所述的x,y坐标系。对于测试多个分区中的每个分区，测试输入数据的性质可进一步包括分区是有效还是无效的归类。例如，分区可作为掩蔽算法、伪影去除或如所描述的其他错误校正的一部分而被无效。

像素的强度可以为荧光强度。性质可包括与分区相关联的多个强度中的每个强度的值，并且该多个强度可包括不同荧光通道的强度。可定制不同的荧光通道来检测不同的荧光染料。不同荧光通道的数量和该多个强度的数量可以为2至10。

测试多个分区中的每个分区可以为六边形。六边形可以为正六边形。在一些实施例中，分区可以为椭圆形(圆形或卵形)、矩形、正方形、三角形或五边形。测试多个分区可包括至少1,000个分区、5,000个分区、10,000个分区、20,000个分区，包括至少30,000个分区、50,000个分区、80,000个分区和100,000个分区。微流体装置可以为数字PCR板，并且分区可以为数字PCR板中的孔。数字PCR板可以为聚合物，包括环烯烃共聚物(COC)或环烯烃聚合物(COP)。板可以为本文所述的任何板。例如，微流体装置可以为2020年3月27日提交的US2020/0306753 A1中描述的微流体装置，其全部内容出于所有目的通过引用并入本文。测试多个可包括dPCR板的所有分区或所有有效分区。在一些实施例中，测试多个可以为dPCR板的泳道中的所有分区或所有有效分区。例如，当存在八个泳道时，则测试多个可以为板上所有分区的八分之一。在一些实施例中，测试多个可以为来自泳道的一个图像中的所有分区或所有有效分区。例如，当针对泳道获取八个图像时，则测试多个可以为泳道中所有分区的八分之一。

在一些实施例中，过程500可进一步包括：对于测试多个分区中的每个分区，使用与分区相关联的像素的强度的值来确定分析物的状态。分析物可以为核酸分子，包括DNA、RNA和本文所述的任何其他核酸分子。分析物可包括特定类型的分析物。例如，分析物可包括来自一种单倍型的核酸分子和来自另一种单倍型的核酸分子。可通过将强度(总、均值、中值、众数或百分位数强度)与阈值进行比较来确定分析物在分区中的状态。当强度高于阈值时，可确定状态为阳性(存在)。当强度低于阈值时，可确定状态为阴性(不存在)。在一些实施例中，使用两个不同的阈值来确定阳性和阴性状态，并且将不确定状态指派到两个阈值之间的强度值。

在一些实施例中，过程500可包括：使用微流体装置来执行测定以检测测试多个分区中的分析物。测定可以为数字PCR测定。执行测定可包括获得生物样品。可将生物样品与试剂和引物混合。可将混合的生物样品添加到微流体装置中。可在分区中历经若干周期使分析物扩增。在实施例中，过程500可包括：获取微流体装置的一个或多个图像。可针对每个颜色通道获取图像。

在框520处，可使用机器学习模型来确定测试多个分区中的第一分区是否以泄漏为特征的分类。机器学习模型使用测试输入数据来确定分类。机器学习模型可通过接收训练输入数据来进行训练。训练输入数据可从多个训练微流体装置的图像的像素获得。每个训练微流体装置可具有第一多个分区。对于每个分区，训练输入数据可包括与测试输入数据相同的性质。训练输入数据可包括第一标记，该第一标记指示对于第一多个分区中的每个分区，分区是否以泄漏为特征的已知分类。当使用训练输入数据来执行机器学习模型时，基于机器学习模型的输出与第一标记中的对应标记匹配或不匹配，通过使用训练输入数据来优化机器学习模型的参数来训练机器学习模型。机器学习模型的输出可指定分区是否以泄漏为特征。第一分区的分类可基于截止值以达到所需的准确性(例如，灵敏度和/或特异性)。可如本文所述来训练机器学习模型(例如，图6)。

机器学习模型可使用不同的特征来确定泄漏的分类。机器学习模型可接收这些特征的值，或者机器学习模型可计算这些特征的值。机器学习模型可使用在距第一分区的阈值距离内的分区的状态的统计值。例如，统计值可以为如本文所述的n-近邻中的分区的状态的统计值。n-近邻可包括为1、2、3、4、5、6、7、8、9、10和/或11的n。在一些实施例中，统计值可以为在n-近邻内的分区的统计值(例如，均值、中值、众数、方差)。在一些实施例中，统计值可以为以第一分区为中心的特定n-近邻与n-近邻的总体分布的比较。例如，统计值可以为百分位数的标准偏差的数量(例如，z-评分)。状态可以为对于分析物呈阳性、阴性或阳性和阴性的组合。在一些实施例中，统计值为沿共同轴线的分区的状态的统计值。例如，统计值可沿与第一分区相交的分区线。对于六边形分区，该线可相对于微流体装置的纵向轴线成30度、90度或150度的角度。机器学习模型可使用对测试多个分区中的多个分区中的像素的强度进行表示的值。

机器学习模型使用的其他特征可包括：与分区相关联的像素的强度的值，或者与n-近邻或包括分区的线相关联的像素的强度的值。特征可包括限于仅被称为阳性的分区或被称为阴性的分区的值。在一些实施例中，特征可包括被称为阳性或阴性的分区的值。值可以为统计值(例如，均值、中值、众数、百分位数、最大值、最小值)。值可被归一化。特征可包括n-近邻中阳性分区的数量、阴性分区的数量或它们的统计值。值也可以为具有特定特性的强度或分区的总和或计数。

可针对单个分区或多个分区(例如，n-近邻或线)来计算一些特征。可针对泳道、通道或整个微流体装置来计算一些特征。例如，特征可包括对跨整个泳道不被称为阳性的平均强度分区进行量化的值(例如，降雨值(rain value))。机器学习模型可使用特征中的任何特征、所有特征和特征的任何组合。

机器学习模型可以为如本文所述的决策树学习模型。机器学习模型可包括监督学习模型。监督学习模型可包括不同的方法和算法，包括分析学习、人工神经网络、反向传播、推进(元算法)、贝叶斯统计、基于案例的推理、决策树学习、归纳逻辑编程、高斯过程回归、遗传编程、成组数据处理方法、内核估计器、学习自动机、学习分类器系统、最小消息长度(决策树、决策图等)、多线性子空间学习、朴素贝叶斯分类器、最大熵分类器、条件随机场、最近邻算法、可能近似正确学习(PAC)学习、链波下降规则(rippledown rule)、知识获取方法、符号机器学习算法、子符号机器学习算法、支持向量机、最小复杂度机(MCM)、随机森林、分类器系综、有序分类、数据预处理、处理不平衡数据集、统计关系学习或多标准分类算法Proaftn。模型可包括线性回归、逻辑回归、深度循环神经网络(例如，长短期记忆，LSTM)、贝叶斯分类器、隐马尔可夫模型(HMM)、线性判别分析(LDA)、k-均值聚类、基于密度的带噪声空间聚类应用(DBSCAN)、随机森林算法、支持向量机(SVM)或本文所述的任何模型。

模型可包括卷积神经网络(CNN)。CNN可包括被配置为过滤输入数据的卷积过滤器的集。用于每个层的过滤器的数量可以为10至20、20至30、30至40、40至50、50至60、60至70、70至80、80至90、90至100、100至150、150至200或更大。过滤器的内核尺寸可以为2、3、4、5、6、7、8、9、10、11、12、13、14、15、15至20、20至30、30至40或更大。CNN可包括被配置为接收输入数据的输入层。CNN也可包括多个隐藏层，该多个隐藏层包括多个节点。该多个隐藏层中的第一层耦接到输入层。CNN可进一步包括输出层，该输出层耦接到该多个隐藏层中的最后一层并且被配置为输出输出数据。神经网络可确定在机器学习模型中使用的特征。

确定分类可包括：使用该多个强度中对应于荧光通道的第一强度来确定第一分区以泄漏为特征。当在该多个强度中的第一强度中确定第一分区以泄漏为特征时，过程可包括：在该多个强度中的所有其他强度中确定第一分区以泄漏为特征。

过程500可包括：确定分类为第一分区以泄漏为特征。在一些实施例中，过程500可进一步包括：当第一分区以泄漏为特征时，根据来自不包括第一分区的测试多个分区的子集的多个状态来确定受试者中是否存在拷贝数变异的分类。

分类可以为第一分类。过程可进一步包括：针对测试多个分区中除第一分区之外的每个分区来确定多个第二分类。过程可进一步包括：确定测试多个分区中具有指示泄漏的第一分类或第二分类的分区的量。过程可包括：将该量与阈值进行比较。阈值可以为泳道或整个微流体装置中的分区的1％、2％、3％、4％、5％、6％、7％、8％、9％或10％。过程可进一步包括：基于比较来输出测试多个分区不适用于进一步分析。

过程500可以包括附加的实现，诸如所描述的和/或结合本文别处描述的一个或多个其他过程的任何单个实现或实现的任意组合。

尽管图5示出了过程500的示例性框，但是在一些具体实施中，过程500可包括与图5中描绘的那些框相比的附加框、更少框、不同框或以不同方式布置的框。附加地或替代性地，过程500的框中的两个或更多个框可并行执行。

B.训练模型的方法

图6是示例性过程600的流程图。在一些具体实施中，图6的一个或多个过程框可由系统700来执行。过程600可以为用于训练过程500中的机器学习模型的过程。

在框610处，可接收训练输入数据。训练输入数据可从多个训练微流体装置的图像的像素获得。每个训练微流体装置可具有第一多个分区。对于每个分区，训练输入数据可包括：分区在每个训练微流体装置内的位置、与分区相关联的像素的强度的值以及分析物在分区中不存在或存在的状态。此外，训练输入数据可包括第一标记，该第一标记指示对于第一多个分区中的每个分区，分区是否以泄漏为特征的已知分类。该多个训练微流体装置可包括100个或更多个微流体装置。训练输入数据可以为至少1千兆字节、100千兆字节、500千兆字节或1兆兆字节的数据。

在框620处，可使用训练输入数据来优化机器学习模型的参数。当使用训练输入数据来执行机器学习模型时，可基于机器学习模型的输出与第一标记中的对应标记匹配或不匹配来优化机器学习模型的参数。机器学习模型的输出可指定分区是否以泄漏为特征。

可从多个第一训练样品的图像获得训练输入数据。该多个第一训练样品可包括该多个第一训练样品的子集。每个子集可包括具有第一标记的分区的总数，该第一标记指示在其他子集中的分区总数的10％以内存在泄漏的已知分类。优化参数可包括：使用一个子集来确定参数，并且基于另一子集来验证参数。例如，优化参数可包括：使用如本文所述的5份交叉验证。每个训练微流体装置可包括分区的泳道。每个泳道中的所有分区都可在该多个第一训练样品的单个子集中。

过程600可以包括附加的实现，诸如所描述的和/或结合本文别处描述的一个或多个其他过程的任何单个实现或实现的任意组合。

尽管图6示出了过程600的示例性框，但是在一些具体实施中，过程600可包括与图6中描绘的那些框相比的附加框、更少框、不同框或以不同方式布置的框。附加地或替代性地，过程600的框中的两个或更多个框可并行执行。

IV.示例性系统

图7示出了根据本发明的实施例的测量系统700。如图所示的系统包括样品705，诸如样品保持器710内的DNA分子，其中可使样品705与测定物708接触以提供物理特性715的信号。样品保持器的实例可以为包括测定引物的dPCR孔板。检测器720检测来自样品的物理特性715(例如，荧光强度、电压或电流)。检测器702可以间隔(例如，周期性间隔)进行测量来获得构成数据信号的数据点。在一个实施例中，模数转换器以多次将来自检测器的模拟信号转换成数字形式。检测器702可以为成像装置。样品保持器701和检测器702可形成测定装置，例如，根据本文所述的实施例的dPCR系统。数据信号725从检测器702被发送到逻辑系统703。数据信号725可存储在本地存储器735、外部存储器704或存储装置745中。

逻辑系统703可以为或可包括计算机系统、ASIC、微处理器等。其也可包括以下或与以下耦接：显示器(例如，监视器、LED显示器等)和用户输入装置(例如，鼠标、键盘、按钮等)。逻辑系统703和其他部件可以为独立式或网络连接的计算机系统的一部分，或者它们可直接附接到以下或并入以下中：包括检测器702和/或样品保持器701的装置(例如，测序装置)。逻辑系统703也可包括在处理器720中执行的软件。逻辑系统703可包括计算机可读介质，该计算机可读介质存储用于控制系统700以执行本文所述的方法中的任何方法的指令。例如，逻辑系统703可向包括样品保持器701的系统提供命令，使得执行测序或其他物理操作。此类物理操作可以特定次序来执行，例如，其中以特定次序添加和去除试剂。此类物理操作可由机器人系统(例如，包括机械臂)来执行，如可用于获得样品并且执行测定。

本文提到的任何计算机系统都可以利用任何合适数量的子系统。此类子系统的实例在图8中在计算机系统10中示出。在一些实施例中，计算机系统包括单个计算机设备，其中子系统可以是计算机设备的部件。在其他实施例中，计算机系统可以包括多个计算机设备，每一个均是带有内部组件的子系统。计算机系统可以包括台式计算机和膝上型计算机、平板电脑、移动电话、其他移动装置和基于云的系统。

图125所示的子系统经由系统总线75互连。示出附加的子系统，诸如打印机74、键盘78、存储装置79、监视器76(例如显示屏，诸如LED，其耦接到显示适配器82)等。耦接到I/O控制器71的外围装置和输入/输出(I/O)装置可通过本领域已知的任何数量的装置(诸如输入/输出(I/O)端口77(例如，USB、Thunderbolt、Lightning))连接到计算机系统。例如，I/O端口77或外部接口81(例如，以太网、Wi-Fi等)可用于将计算机系统10连接至广域网，诸如互联网、鼠标输入装置或扫描仪。通过系统总线75的互连允许中央处理器73与每一个子系统通信并控制对来自系统存储器72或存储装置79(例如，固定磁盘，诸如硬盘驱动器，或光盘)的多个指令的执行，以及子系统之间的信息交换。所述系统存储器72和/或存储装置79可以包含计算机可读介质。另一子系统是数据收集装置85，诸如照相机、麦克风、加速度计等。本文提到的任何数据均可以从一个部件输出至另一部件，并可以输出给用户。

计算机系统可以包括多个相同的部件或子系统，例如，通过外部接口81、通过内部接口或通过可移动存储装置连接在一起，该可移动存储装置可以从一个部件连接或移动至另一个部件。在某些实施例中，计算机系统、子系统或设备可以通过网络来通信。在这种情况下，一台计算机可以视为客户端，另一台计算机可以视为服务器，其中每一台计算机均可以视为同一计算机系统的一部分。客户端和服务器可以各自包括多个系统、子系统或组件。

实施例的各方面可使用硬件电路(例如，专用集成电路或现场可编程门阵列)和/或使用带有一般可编程处理器的计算机软件，以控制逻辑的形式，以模块化或集成方式来实现。如本文所用，处理器可包括单核处理器、在同一集成芯片上的多核处理器、或在单电路板上或联网的多个处理单元，以及专用硬件。基于本文提供的公开内容和启示，本领域普通技术人员将知道并理解使用硬件以及硬件和软件的组合实现本发明实施例的其他方式和/或方法。

可使用任何合适的计算机语言，诸如，例如，Java、C、C++、C#、Objective-C、Swift，或脚本语言，诸如Perl或Python，使用例如传统技术或面向对象技术，将本申请中描述的任何软件组件或功能实现为由处理器执行的软件代码。软件代码可以作为一系列指令或命令存储在计算机可读介质上，以进行存储和/或传输。合适的非暂时性计算机可读介质可包括随机存取存储器(RAM)、只读存储器(ROM)、磁性介质诸如硬盘驱动器或软盘、或者光学介质诸如光盘(CD)或DVD(数字通用光盘)或蓝光光盘、闪存等。所述计算机可读介质可以是这种存储或传输装置的任何组合。

也可使用载波信号对此类程序进行编码和传输，该载波信号调节为适于经由符合包括互联网在内的各种协议的有线网络、光学网络和/或无线网络进行传输。如此，计算机可读介质可以使用经这种程序编码的数据信号来创建。以程序代码编码的计算机可读介质可与兼容装置一起打包，或者与其他装置分开提供(例如通过互联网下载)。任何此类计算机可读介质都可驻留在单个计算机产品(例如，硬盘驱动器、CD或整个计算机系统)上或内部，并且可存在于系统或网络内的不同计算机产品上或内部。计算机系统可以包括监测器、打印机或其他合适的显示器，用于向用户提供本文提到的任何结果。

本文描述的任何方法可以由包括一个或多个处理器的计算机系统完全或部分地执行，该计算机系统可以构造为用于执行步骤。因此，实施例可以针对被配置成执行本文描述的任何方法的步骤的计算机系统，可能具有执行相应步骤或相应步骤组的不同组件。尽管以编号的步骤呈现，但是可以同时或在不同时间或以不同顺序执行本文所述方法的步骤。此外，部分步骤可以与其他方法中的部分步骤一起使用。另外，全部或部分步骤可以任选。另外，任何方法的任何步骤都可以用模块、单元、电路或用于执行这些步骤的系统的其他装置来执行。

在不脱离本发明实施例的精神和范围的情况下，可以以任何合适的方式组合特定实施例的具体细节。然而，本发明的其他实施例可以针对与每一个单独方面有关的特定实施例，或者这些单独方面的特定组合。

为了说明和描述的目的，已经呈现了对本公开的示例性实施例的以上描述。并不旨在穷举本公开或将本公开限制为所描述的精确形式，并且根据以上教导，许多修改和变化是可能的。

除非特别指出是相反情况，否则对“一个”、“一种”或“该”的陈述旨在表示“一个或多个”。除非特别指出是相反情况，否则“或”的使用旨在表示“包含或”，而不是“排除或”。提及“第一”部件并不一定要求提供第二部件。此外，除非明确说明，否则对“第一”或“第二”组件的引用并不是将所引用的组件限于特定位置。术语“基于”旨在表示“至少部分基于”。

本文提及的所有专利、专利申请、出版物和说明书全文出于所有目的以引用方式并入本文。没有一项被认为是现有技术。

Claims

1.一种检测微流体装置中的泄漏的方法，所述微流体装置具有测试多个分区，所述方法包括：

接收测试输入数据，所述测试输入数据包括对于所述测试多个分区中的每个分区，从所述微流体装置的一个或多个图像的像素获得的以下性质：

所述分区在所述微流体装置内的位置，

与所述分区相关联的像素的强度的值，以及

分析物在所述分区中不存在或存在的状态；以及

使用机器学习模型来确定所述测试多个分区中的第一分区是否以泄漏为特征的分类，其中所述机器学习模型使用所述测试输入数据并且通过以下进行训练：

接收训练输入数据，所述训练输入数据从多个训练微流体装置的图像的像素来获得，每个训练微流体装置具有第一多个分区，所述训练输入数据包括对于每个分区：

与所述测试输入数据相同的性质，以及

第一标记，所述第一标记指示对于所述第一多个分区中的每个分区，分区是否以泄漏为特征的已知分类，以及当使用所述训练输入数据来执行所述机器学习模型时，基于所述机器学习模型的输出与所述第一标记中的对应标记匹配或不匹配，使用所述训练输入数据来优化所述机器学习模型的参数，其中所述机器学习模型的输出指定分区是否以泄漏为特征。

2.根据权利要求1所述的方法，其中所述测试多个分区中的每个分区为六边形。

3.根据权利要求1所述的方法，其中所述机器学习模型使用在距所述第一分区的阈值距离内的分区的所述状态的统计值。

4.根据权利要求3所述的方法，其中所述统计值为沿共同轴线的分区的所述状态的统计值。

5.根据权利要求1所述的方法，其中所述机器学习模型使用表示所述测试多个分区中的多个分区中的像素的强度的值。

6.根据权利要求1所述的方法，其中所述测试输入数据的所述性质进一步包括对于所述测试多个分区中的每个分区，所述分区是有效还是无效的归类。

7.根据权利要求1所述的方法，其中所述微流体装置为数字PCR板。

8.根据权利要求1所述的方法，其中所述机器学习模型为决策树学习模型。

9.根据权利要求1所述的方法，其中所述像素的所述强度为荧光强度。

10.根据权利要求1所述的方法，其中：

所述性质包括与所述分区相关联的多个强度中的每个强度的值，并且

所述多个强度包括不同荧光通道的强度。

11.根据权利要求10所述的方法，其中确定所述分类包括：使用所述多个强度中的第一强度来确定所述第一分区以泄漏为特征，并且

当在所述多个强度中的所述第一强度中确定所述第一分区以泄漏为特征时，在所述多个强度中的所有其他强度中确定所述第一分区以泄漏为特征。

12.根据权利要求1所述的方法，其进一步包括：

对于所述测试多个分区中的每个分区，使用与所述分区相关联的所述像素的所述强度的所述值来确定所述分析物的所述状态。

13.根据权利要求1所述的方法，其进一步包括：确定所述分类为所述第一分区以泄漏为特征。

14.根据权利要求1所述的方法，其中所述分类为第一分类，

所述方法进一步包括：

对于所述测试多个分区中除所述第一分区之外的每个分区，确定多个第二分类。

15.根据权利要求14所述的方法，其进一步包括：

确定所述测试多个分区中具有指示泄漏的所述第一分类或所述第二分类的分区的量，

将所述量与阈值进行比较，以及

基于所述比较，输出所述测试多个分区不适用于进一步分析。