CN112602153A - 用于对pcr测定进行基因分型的机器学习系统 - Google Patents

用于对pcr测定进行基因分型的机器学习系统 Download PDF

Info

Publication number
CN112602153A
CN112602153A CN201980056219.4A CN201980056219A CN112602153A CN 112602153 A CN112602153 A CN 112602153A CN 201980056219 A CN201980056219 A CN 201980056219A CN 112602153 A CN112602153 A CN 112602153A
Authority
CN
China
Prior art keywords
quality control
qpcr
assay
svm
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980056219.4A
Other languages
English (en)
Inventor
D·王
P·布隆佐斯卡
E·谢尔顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Life Technologies Corp
Original Assignee
Life Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Life Technologies Corp filed Critical Life Technologies Corp
Publication of CN112602153A publication Critical patent/CN112602153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种用于qPCR的质量控制系统接收因所述qPCR系统在测定物上的操作而产生的信号并将标记的数据集应用于支持向量机(SVM)以生成用于所述信号的分类从而生成被用作到所述qPCR系统的操作反馈的分类。

Description

用于对PCR测定进行基因分型的机器学习系统
背景技术
一些常规的PCR测定基因分型方法(例如,
Figure BDA0002952258060000011
)是基于非监督式质心最小簇分离西格玛(MCSS)算法。在质量控制(QC)期间经验地选择MCSS截止(例如,5.0)以将测定物标签化为失败或通过。但是,硬性截止意味着测定物没有以细微差别分类。例如,如果截止为5.0,则MCSS=5.0导致QC通过分类,而MCSS=4.9导致QC失败分类。这导致可能可接受的许多产品的QC失败并且因此增加了制造损失。
发明内容
基于支持向量机分类和学习公开了一种用于测定物阵列的新分类方法,并且可以实施所述新分类方法以对细胞系和生物样品进行基因分型。通过借助于用于对基因型进行分类并且利用基因型分类对qPCR反应和样品进行标签化的模型训练来将历史基因分型结果考虑在内,所述新方法改善了先前QC方法的成问题的模糊性。
附图说明
为了容易地识别对任何特定元件或动作的讨论,附图标记中的一个或多个最高有效数位是指其中首次引入所述元件的附图编号。
图1展示了根据一个实施例的过程100。
图2展示了根据一个实施例的qPCR系统200。
图3展示了根据一个实施例的板制备300。
图4展示了根据一个实施例的基因分型系统400。
图5展示了根据一个实施例的径向算法500。
图6展示了根据一个实施例的SVM qPCR测定模型600。
图7展示了根据一个实施例的云学习和控制系统700。
图8是可以结合本发明的实施例的计算装置800的示例框图。
具体实施方式
图1展示了根据一个实施例的在PCR扩增中使用的过程100,具体地,在PCR扩增中使用的5'核酸酶测定。过程100示出了此测定过程的四个时期,所述四个时期在每个循环中发生并且不干扰产物的指数累积。所述四个时期包含聚合阶段102、链置换阶段104、切割阶段106和完成阶段108。在聚合阶段102期间,正向引物和反向引物开始在靶序列110附近复制双链DNA 114的一部分。正向引物(5'->3')包括热启动聚合酶124(Taq聚合酶),所述热启动聚合酶在DNA聚合酶无活性的温度下起作用,从而避免了不需要的复制。探针包括报告染料118、互补序列126、非荧光淬灭剂120和小沟粘结剂122。探针通过互补序列126与靶序列110杂交。非荧光淬灭剂120和小沟粘结剂122充当与探针的3'端连接的分子。当探针完整时,非荧光淬灭剂120(NFQ)阻止报告染料118发出荧光信号。因为非荧光淬灭剂120不发荧光,所以所述非荧光淬灭剂产生较低的背景信号,从而产生提高的定量精度。小沟粘结剂122(MGB)增加探针的熔化温度(Tm)而不增加其长度,从而允许更短的探针设计。在聚合阶段102期间,热启动聚合酶124向探针移动,其中报告染料118与探针的5'侧连接。
在链置换阶段104中,热启动聚合酶124与置换报告染料118的杂交探针相互作用。在切割阶段106中,热启动聚合酶124从探针切割报告染料118。切割将报告染料与淬灭剂染料分离;在非荧光淬灭剂120不再阻断报告染料118的情况下,分离的报告染料116增加了其荧光。荧光的增加仅在靶序列与探针互补并且在PCR期间扩增时发生。仪器从报告染料检测到荧光,从而指示双链DNA 114上存在靶序列。由于探针与靶序列110的杂交,热启动聚合酶124在互补序列126处终止,从而指示完成阶段108。
图2展示了qPCR系统200,所述qPCR系统包括反应板204、样品装载仪器202、实时PCR仪器208、样品混合物206、计算机系统220和用户界面226。反应板204包括多个子阵列,每个子阵列包括用作qPCR实验的反应位置的多个通孔。通孔中的每个通孔可以涂覆有测定物210。在一些配置中,测定物210是特异性地靶向样品DNA中的核苷酸序列的探针。在样品DNA的扩增期间,探针通过由实时PCR仪器208检测到的报告染料的释放来指示其靶序列的存在。将反应板204与靶多核苷酸序列212在样品装载仪器202中组合。在将反应板204与靶多核苷酸序列212组合之前,在包括反应混合体216的样品混合物206中制备靶多核苷酸序列212。反应混合体216至少包括聚合酶214和引物230。聚合酶214在PCR反应期间扩增双链DNA。样品装载仪器202将特定体积的样品混合物206装载到反应板204中的每个预期通孔中。当样品装载仪器202已完成其对反应板204的制备时,将反应板204装载到实时PCR仪器208中。实时PCR仪器208由计算机系统220配置成操作热循环仪,所述热循环仪在不同的温度范围内循环,触发DNA复制的特定阶段。当反应板204本身经历包含使打破互补碱基之间的氢键的DNA链变性的高热阶段(94-98℃(201-208℉))的几个循环的复制时,从而产生两个单链DNA分子。变性阶段之后是退火阶段,在所述退火阶段,反应温度降低到50-65℃(122-149℉)持续20-40秒。退火阶段允许将引物和探针组退火到DNA中的靶序列。退火阶段之后是扩展/延伸阶段,在所述扩展/延伸阶段,将温度调节至Taq(水生栖热菌(Thermusaquaticus))聚合酶的热稳定DNA聚合酶的最佳活性温度约75-80℃(167-176℉)。在延伸/扩展阶段,聚合酶从引物的位置旁边开始合成互补链并且一直持续到合成新的互补链,直到所述新的互补链与靶序列上的探针邻接为止。当聚合酶与探针相互作用时,探针释放由实时PCR仪器208的检测器218检测到的荧光标志物。来自检测器218的信息由计算机系统220记录为与通孔之一相对应的第一信号。将检测到的信号报告至计算机系统220,所述计算机系统包括存储和处理所述信息以生成簇分析绘图228的存储器222和处理器224,所述簇分析绘图示出了样品混合物206中的靶序列的拷贝数和个例。计算机系统220将基因分型结果传送到用户界面226以显示簇分析绘图228。
如本领域的普通技术人员被告知的,PCR分析在热循环仪器上进行,所述热循环仪器具有用于循环通过多个热循环以扩增基因靶标的各种方案。在本发明教导的各个实施例中,为了扩增而执行的循环的数量可以介于约20-40个循环之间。对于本发明教导的各个实施例,为了扩增而执行的循环的数量可以大于40个循环。对于基因靶标的扩增,热循环仪器可以在可以与第一热循环数量相关联的一定的循环时间内执行PCR实验的第一热循环。
在基因分型分析的各个实施例中,用第一探针和第二探针探测两个或更多个DNA样品。处理器可以基于用于数据收集的各种协议中的任何一种在第一时间从qPCR仪器接收第一数据集,所述第一数据集包含所述两个或更多个DNA样品中的每个样品在第一时间处的第一探针强度和第二探针强度。处理器可以基于用于数据收集的各种协议中的任何一种在第二时间从qPCR仪器接收第二数据集,所述第二数据集包含所述两个或更多个DNA样品中的每个样品在第二时间处的第一探针强度和第二探针强度。
根据本发明教导的各个实施例,用户界面可以向最终用户呈现用于第一次和第二次接收到的数据集的分析的可视化工具。如先前所提及的,可以批量处理多个样品以进行基因分型分析,从而产生数据密集型数据集。根据本发明教导的系统和方法的各个实施例提供了可以帮助最终用户评估和分析此类数据密集型数据集的可视化工具的实施例。对于根据本发明教导的系统和方法的各个实施例,响应于来自最终用户的输入,处理器可以使用第一数据集生成第一探针强度对第二探针强度的第一绘图。进一步地,处理器可以响应于来自最终用户的输入使用第二数据集生成第一探针强度随第二探针强度而变化的第二绘图。根据本发明教导的系统和方法的各个实施例,处理器可以响应于来自最终用户的输入显示第一绘图和第二绘图。在各个实施例中,输入可以是用于以逐步方式显示数据的与用户界面的交互过程。在此类实施例中,最终用户可以按任何顺序选择任何数据集以进行显示。
在各个实施例中,处理器可以在PCR实验的运行时间期间接收数据。例如,处理器可以在收集第一数据集之后并且在收集第二数据集之前从qPCR仪器接收第一数据集。进一步地,此协议可以在整个运行时间内扩展,使得例如处理器可以在收集第二数据集之后并且在收集后续数据集之前从qPCR仪器接收第二数据集。
在一些实施例中,处理器可以在热循环已完成之后从qPCR仪器接收第一数据集和第二数据集。例如,处理器可以在第一数据集和第二数据集已存储在计算机可读介质上之后接收第一数据集和第二数据集。
在一些配置中,可视化工具可以帮助最终用户显示基因分型数据集的各个方面,由此促进基因分型数据的分析。在各个实施例中,处理器可以显示示出了第二数据集与第一数据集之间的轨迹线的绘图。在各个实施例中,处理器可以在第一绘图上显示用于第一数据集的质量值并且在第二绘图上显示用于第二数据集的质量值。根据各个实施例,用户界面提供在样品表上做出的选择与在基因分型数据绘图上动态显示的选择之间的交互。在各个实施例中,最终用户从可视化工具的用户界面做出的选择可以例如但不限于提供动态分析,以用于使最终用户能够例如但不限于对模棱两可的终点数据进行故障排除、做出手动调用、使用轨迹线帮助使簇可视化以增强基因型分配、优化测定条件(即,标记探针、测定缓冲液等)和优化分析条件。
各个实施例,系统利用可以例如但不限于根据簇分析绘图228中描绘的图表示的数据集。此类表示可以由利用两种具有不同波长下的发射的染料的分析引起,所述染料可以与针对生物样品中的基因组基因座的两个等位基因之一的标记探针相关联。在此类双链体反应中,针对三种可能的基因型中的每一种产生离散的信号集。在信号2对信号1的笛卡尔坐标系中,如簇分析绘图所示,在此类图形表示上显示的每个数据点可以在给定的三个离散信号集之一中具有坐标。因此,对于每个数据点,可以将用于多个样品的离散信号集作为数据点存储在数据集中。如随后将更详细地讨论的,此类数据集可以存储在各种计算机可读介质中并且在分析期间动态地或在分析后进行分析。
如随后将讨论的,用于展现用于基因分型数据的可视化的方法和系统的实施例的特征的这样一种类型的测定可以利用
Figure BDA0002952258060000041
试剂并且还可以使用例如但不限于FAM和VIC染料标记。然而,本领域普通技术人员将认识到,可以利用包含标记探针试剂的各种测定来产生可以根据本发明教导的方法和系统的各个实施例进行分析的数据。
根据各个实施例,术语“标记探针”通常是指在扩增反应中使用的分子,所述分子通常用于定量或qPCR分析以及终点分析。此类标记探针可以用于监测靶多核苷酸的扩增。在一些实施例中,存在于扩增反应中的寡核苷酸标记探针适合于监测随时间的变化产生的一个或多个扩增子的量。此类寡核苷酸标记探针包含但不限于本文所述的5'-核酸外切酶测定
Figure BDA0002952258060000051
标记探针(还参见美国专利第5,538,848号)、各种茎环分子信标(参见例如美国专利第6,103,476号和第5,925,517号以及Tyagi和Kramer,1996,《自然生物技术(NatureBiotechnology)》14:303-308)、无茎或线性信标(参见例如WO 99/21881)、PNA MolecularBeaconsTM(参见例如美国专利第6,355,421号和第6,593,091号)、线性PNA信标(参见例如Kubista等人,2001,SPIE 4264:53-58)、非FRET标记探针(参见例如美国专利第6,150,097号)、
Figure BDA0002952258060000052
标记探针(美国专利第6,548,250号)、茎环和双链体ScorpionTM标记探针(Solinas等人,2001,《核酸研究(Nucleic Acids Research)》29:E96和美国专利第6,589,743号)、凸环标记探针(美国专利第6,590,091号)、假结探针(美国专利第6,589,250号)、循环因子(cyclicon)(美国专利第6,383,752号)、MGB EclipseTM探针(新时代生物科学公司(Epoch Biosciences))、发夹标记探针(美国专利第6,596,490号)、肽核酸(PNA)发光标记探针、自组装的纳米颗粒探针以及在例如以下中描述的经过二茂铁修饰的标记探针:美国专利第6,485,901号;Mhlanga等人,2001,《方法(Methods)》25:463-471;Whitcombe等人,1999,《自然生物技术》.17:804-807;Isacsson等人,2000,《分子细胞标记探针(Molecular Cell Labeling probes)》.14:321-328;Svanvik等人,2000,《分析生物化学(Anal Biochem.)》281:26-35;Wolffs等人,2001,《生物技术(Biotechniques)》766:769-771;Tsourkas等人,2002,《核酸研究》.30:4208-4215;Riccelli等人,2002,核酸研究》30:4088-4093;Zhang等人,2002上海(Shanghai).34:329-332;Maxwell等人,2002,《美国化学学会杂志(J.Am.Chem.Soc.)》124:9606-9612;Broude等人,2002,《生物技术趋势(TrendsBiotechnol.)》20:249-56;Huang等人,2002,《毒理学化学研究(Chem Res.Toxicol.)》15:118-126;以及Yu等人,2001,《美国化学学会杂志》14:11155-11161。标记探针还可以包括黑洞淬灭剂(生物研究公司(Biosearch))、Iowa Black(IDT)、QSY淬灭剂(分子标记探针公司(Molecular Labeling Probes))以及Dabsyl和Dabcel磺酸酯/羧酸酯淬灭剂(爱博克公司(Epoch))。标记探针还可以包括两个标记探针,其中例如荧光团位于一个探针上,并且淬灭剂位于另一个探针上,其中所述两个标记探针在靶标上杂交在一起将信号淬灭,或者其中在靶标上杂交通过荧光变化来改变信号签名特征。标记探针还可以包括具有磺酸基而不是羧酸酯基团的荧光素染料的磺酸酯衍生物、荧光素的亚磷酰胺形式、CY 5的亚磷酰胺形式(可例如从安玛西亚公司(Amersham)获得)。
如本文所使用的,术语“核酸样品”是指根据本发明教导在生物样品中发现的核酸。预计可以侵入性或非侵入性地收集样品。样品可以在以下上、中、内、来自以下或结合以下发现:纤维、织物、香烟、口香糖、粘合材料、土壤或无生命的物体。如本文所使用的,“样品”以其最广泛的意义使用并且是指含有可以衍生出基因靶标或靶多核苷酸的核酸的样品。样品可以包括细胞、从细胞分离的染色体(例如,中期染色体的扩散)、基因组DNA、RNA、cDNA等。样品可以是涵盖含有核酸的任何生物体的动物或植物来源(包含但不限于植物、家畜、家庭宠物和人样品)并且可以衍生自多个来源。这些来源可以包含但不限于全血、毛发、血液、尿液、组织活检、淋巴、骨骼、骨髓、牙齿、羊水、毛发、皮肤、精液、肛门分泌物、阴道分泌物、汗液、唾液、口腔拭子、各种环境样品(例如,农业、水和土壤)、研究样品、经纯化样品以及经裂解细胞。应当理解,可以使用本领域已知的各种样品制备程序中的任何一种从样品中分离含有靶多核苷酸序列的核酸样品,例如,包含使用如机械力、超声处理、限制性核酸内切酶切割或本领域已知的任何方法等程序。
如本文所使用的,术语“靶多核苷酸”、“基因靶标”等在本文中可互换地使用并且是指特定感兴趣核酸序列。“靶标”可以是寻求被扩增并且可以在存在其它核酸分子的情况下存在或存在于更大核酸分子内的多核苷酸序列。靶多核苷酸可以从任何来源获得并且可以包括任何数量的不同组成性组分。例如,靶标可以是核酸(例如,DNA或RNA)。靶标可以是甲基化的、非甲基化的或两者。进一步地,应当理解,在特定感兴趣核酸序列的上下文中使用的“靶标”另外地是指其替代物例如扩增产物和天然序列。在一些实施例中,特定感兴趣核酸序列是衍生自降解来源的短DNA分子,如可以在例如但不限于法医样品中发现的。如上所述,本发明教导的特定感兴趣核酸序列可以衍生自许多生物体和来源中的任何一种。
如本文所使用的,“DNA”是指如本领域中所了解呈其各种形式的脱氧核糖核酸,如基因组DNA、cDNA、分离的核酸分子、载体DNA以及染色体DNA。“核酸”是指呈任何形式的DNA或RNA。分离的核酸分子的实例包含但不限于载体中所含的重组DNA分子、维持在异源宿主细胞中的重组DNA分子、部分地或基本上纯化的核酸分子以及合成的DNA分子。“分离的”核酸通常不含天然地侧接衍生出核酸的生物体的基因组DNA中的核酸的序列(即,位于核酸的5'和3'端处的序列)。此外,“分离的”核酸分子如cDNA分子当通过重组技术产生时通常基本上不含其它细胞材料或培养基或当以化学方式合成时不含化学前体或其它化学品。
在一些实施例中,PCR扩增产物可以通过与PCR扩增引物缀合的荧光染料来检测,例如,如PCT专利申请WO 2009/059049中所述。PCR扩增产物还可以通过其它技术检测,所述其它技术包含但不限于对扩增产物的染色例如银染色等。
在一些实施例中,检测包括仪器,即,使用可以但不需要包括计算机算法的自动化或半自动化检测构件。在一些实施例中,仪器是便携式的、可运输的或包括便携式组件,所述便携式组件可以插入到移动性较小或可运输的组件中,例如,从而驻留在进行扩增产物的检测的实验室、医院或其它环境中。在某些实施例中,检测步骤与至少一个扩增步骤、一个测序步骤、一个分离(isolation)步骤、一个分离(separating)步骤组合或作为其延续,例如但不限于包括至少一个荧光扫描仪和至少一个图形绘制、记录或读出组件的毛细管电泳仪器;与吸光度监测器或荧光扫描仪和图形记录仪耦接的色谱柱;与包括记录和/或检测组件的质谱仪耦接的色谱柱;包括至少一个UV/可见光扫描仪和至少一个图形绘制、记录或读出组件的分光光度计仪器;具有数据记录装置如扫描仪或CCD相机的微阵列;或选自以下的带有检测组件的测序仪器:包括至少一个荧光扫描仪和至少一个图形绘制、记录或读出组件的测序仪器;包括荧光团标记的可逆终止子核苷酸的合成测序仪器;焦磷酸测序方法,所述焦磷酸测序方法包括在通过DNA聚合酶掺入核苷酸后检测焦磷酸(PPi)释放、成对末端测序、聚合酶克隆测序、单分子测序、纳米孔测序以及通过杂交或通过连接进行的测序,如通过引用并入本文的Lin,B.等人《生物医学工程的最新专利(Recent Patents onBiomedical Engineering)》(2008)1(1)60-67中所讨论的。
在某些实施例中,检测步骤与扩增步骤组合,所述扩增步骤例如但不限于实时分析,如Q-PCR。用于执行检测步骤的示例性构件包含:ABI
Figure BDA0002952258060000071
基因分析仪仪器系列、ABI
Figure BDA0002952258060000072
DNA分析仪仪器系列、ABI
Figure BDA0002952258060000073
序列检测系统仪器系列和Applied Biosystems实时PCR仪器系列(均来自应用生物系统公司(Applied Biosystems));以及微阵列和相关软件,如Applied Biosystems微阵列和Applied Biosystems 1700化学发光微阵列分析仪以及可从艾菲矩阵公司(Affymetrix)、安捷伦科技公司(Agilent)和安玛西亚生物科学公司(Amersham Biosciences)等获得的其它可商购获得的微阵列和分析系统(还参见Gerry等人,《分子生物学杂志(J.Mol.Biol.)》292:251-62,1999;De Bellis等人,《密涅瓦生物技术(Minerva Biotec)》14:247-52,2002;以及Stears等人,《自然医学(Nat.Med.)》9:140-45,包含增刊,2003)或珠粒阵列平台(加利福尼州亚圣地亚哥的依诺米那公司(Illumina,San Diego,Calif.))。示例性软件包含GeneMapperTM软件、
Figure BDA0002952258060000074
分析软件和
Figure BDA0002952258060000075
软件(均来自应用生物系统公司)。
在一些实施例中,可以基于扩增子的至少一部分的质荷比(m/z)对扩增产物进行检测和定量。例如,在一些实施例中,引物包括质谱兼容性报告基团,包含但不限于掺入扩增产物中并且可以用于质谱仪检测的质量标签、电荷标签、可切割部分或同位素(参见例如,Haff和Smirnov,《核酸研究》25:3749-50,1997;以及Sauer等人,《核酸研究》31:e63,2003)。扩增产物可以通过质谱进行检测。在一些实施例中,引物包括用于促进扩增产物的一部分的释放以进行检测的限制性酶位点、可切割部分等。在某些实施例中,将多个扩增产物通过液相色谱或毛细管电泳来分离、进行ESI或MALDI并且通过质谱来检测。质谱的描述可以在以下以及其它地方找到:《生物技术中不断扩大的质谱作用(The Expanding Roleof Mass Spectrometry in Biotechnology)》,Gary Siuzdak,MCC出版社(MCC Press),2003。
在一些实施例中,检测包括手动或视觉读出或评估或其组合。在一些实施例中,检测包括自动化或半自动化数字或模拟读出。在一些实施例中,检测包括实时或终点分析。在一些实施例中,检测包括微流体装置,所述微流体装置包含但不限于
Figure BDA0002952258060000081
低密度阵列(应用生物系统公司)。在一些实施例中,检测包括实时检测仪器。示例性实时仪器包含:ABI
Figure BDA0002952258060000082
7000序列检测系统、ABI
Figure BDA0002952258060000083
7700序列检测系统、Applied Biosystems 7300实时PCR系统、Applied Biosystems 7500实时PCR系统、Applied Biosystems 7900HT快速实时PCR系统(均来自应用生物系统公司);LightCyclerTM系统(罗氏分子公司(RocheMolecular));Mx3000PTM实时PCR系统、Mx3005PTM实时PCR系统和
Figure BDA0002952258060000084
多重定量PCR系统(加利福利亚州拉荷亚的Stratagene公司(Stratagene,La Jolla,Calif.));以及智能循环仪系统(塞沛公司(Cepheid),由飞世尔科技公司(Fisher Scientific)分销)。实时仪器的描述可以在以下以及其它地方找到:其各自制造商的用户手册;McPherson;DNA扩增:目前的技术和应用(DNA Amplification:Current Technologies and Applications),Demidov和Broude编,《地平线生物科学(Horizon Bioscience)》,2004;以及美国专利第6,814,934号。
术语“扩增反应混合物”和/或“主混合体”可以指包括用于扩增靶核酸的各种(一些或全部)试剂的水溶液。此类反应还可以使用固相载体或半固相载体(例如,阵列)来执行。反应还可以根据用户的期望以单一或多重形式执行。这些反应通常包含酶、水性缓冲液、盐、扩增引物、靶核酸以及核苷三磷酸。在一些实施例中,扩增反应混合体和/或主混合体可以包含以下中的一种或多种:例如缓冲液(例如,Tris)、一种或多种盐(例如,MgC、KC1)、甘油、dNTP(dA、dT、dG、dC、dU)、重组BSA(牛血清白蛋白)、染料(例如,ROX被动参考染料)、一种或多种去垢剂、聚乙二醇(PEG)、聚乙烯吡咯烷酮(PVP)、明胶(例如,鱼或牛来源)和/或消泡剂。根据上下文,混合物可以是完全或不完全扩增反应混合物。在一些实施例中,主混合体在用于扩增反应中之前不包含扩增引物。在一些实施例中,主混合体在用于扩增反应中之前不包含靶核酸。在一些实施例中,在与扩增引物接触之前,将扩增主混合体与靶核酸样品混合。
在一些实施例中,扩增反应混合物包括扩增引物和主混合体。在一些实施例中,扩增反应混合物包括扩增引物、可检测地标记的探针和主混合体。
在一些实施例中,扩增引物和主混合体的反应混合物或者扩增引物、探针和主混合体在储存容器或反应容器中干燥。在一些实施例中,扩增引物和主混合体的反应混合物或者扩增引物、探针和主混合体在储存容器或反应容器中冻干。在一些实施例中,本公开总体上涉及从单个对照核酸分子扩增多个靶标特异性序列。例如,在一些实施例中,所述单个对照核酸分子可以包含RNA,并且在其它实施例中,所述单个对照核酸分子可以包含DNA。在一些实施例中,靶标特异性引物和引物对是可以扩增核酸分子例如对照核酸分子的特定区域的靶标特异性序列。在一些实施例中,靶标特异性引物可以引发RNA的逆转录以生成靶标特异性cDNA。在一些实施例中,靶标特异性引物可以扩增靶DNA或cDNA。在一些实施例中,选择性扩增所需的DNA量可以为约1ng至1微克。在一些实施例中,选择性扩增一个或多个靶序列所需的DNA量可以为约1ng、约5ng或约10ng。在一些实施例中,选择性扩增靶序列所需的DNA量为约10ng至约200ng。
如本文所使用的,术语“反应容器”通常是指根据本发明教导可以在其中发生反应的任何容器、室、装置或组合件。在一些实施例中,反应容器可以是微管,例如但不限于0.2mL或0.5mL反应管,如Micro AmpTM光学管(加利福尼亚州卡尔斯巴德的生命技术公司(Life Technologies Corp.,Carlsbad,CA))或微离心管或属于分子生物学实验室的惯例的那类的其它容器。在一些实施例中,反应容器包括多孔板(如48孔、96孔或384孔微量滴定板)的孔、载玻片上的斑点、TaqManTM阵列卡中的孔或微流体装置(包含但不限于TaqManTM低密度阵列)的通道或室或TaqManTMOpenArrayTM实时PCR板的通孔(应用生物系统公司、赛默飞世尔科技公司)。例如但不是作为限制,多个反应容器可以驻留在同一载体上。例如,OpenArrayTM板是反应板3072通孔。此类板中的每个这样的通孔可以含有单个TaqManTM测定物。在一些实施例中,例如可从卡利珀公司(Caliper)或富鲁达公司(Fluidigm)获得的芯片实验室样装置可以提供反应容器。将认识到,各种反应容器是可商购获得的或可以被设计成用于在本发明教导的背景下使用。
术语“退火(annealing)”和“杂交(hybridizing)”包含但不限于词根“杂交(hybridize)”和“退火(anneal)”的变化、可互换地使用并且意指一个核酸与另一个核酸的核苷酸碱基配对相互作用,所述核苷酸碱基配对相互作用导致形成双链体、三链体或其它更高阶结构。初级相互作用通常通过沃森-克里克(Watson-Crick)和胡斯坦(Hoogsteen)型氢键合而具有核苷酸碱基特异性,例如A:T、A:U和G:C。在某些实施例中,碱基堆积和疏水性相互作用也可以促成双链体稳定性。引物和探针退火到互补序列的条件在本领域中是众所周知的,例如如在《核酸杂交实用方法(Nucleic Acid Hybridization,A PracticalApproach)》,Hames和Higgins编,IRL出版社(IRL Press),华盛顿哥伦比亚特区(Washington,D.C.)(1985)以及Wetmur和Davidson,《分子生物学》(Mol.Biol.)31:349(1968)中所述的。
除了其它方面之外,此类退火是否进行通常受以下影响:引物的互补部分的互补部分和其在靶侧翼序列和/或扩增子中的对应结合位点的长度或报告探针的对应互补部分和其结合位点的长度;pH;温度;一价和二价阳离子的存在情况;杂交区域中G和C核苷酸的比例;培养基的粘度;以及变性剂的存在情况。此类变量影响杂交所需的时间。因此,优选退火条件将取决于特定应用。然而,此类条件可以由本领域的普通技术人员常规地确定,而无需过度实验。优选地,选择退火条件以允许引物和/或探针与对应的靶侧翼序列或扩增子中的互补序列选择性地杂交,但在第二反应温度下不与反应组合物中的不同靶核酸或非靶序列以任何显著程度杂交。
图3展示了在将反应板308装载到qPCR仪器中之前用于所述反应板的板制备300。反应板308包括多个子阵列,每个子阵列314包括多个贯通阵列通孔306。每个通孔可以用作测定物318的反应位置。在一些配置中,反应板308包括48个子阵列,其中每个子阵列包括64个通孔,每个通孔能够保持33-nL的反应体积。在前述配置中,反应板308包括3072个通孔。
取决于反应板308的配置,阵列通孔306中的一些阵列通孔将包含点样在其中的测定物318。每个通孔包括可以点样测定物318的亲水内部。亲水通孔还被保持反应容纳在内的疏水表面包围。
为了将设定的体积准确地装载到每个期望的阵列通孔306中,利用样品装载仪器302。样品装载仪器302将设定体积的样品混合物312等分到反应板308的每个期望的通孔中。在一些配置中,由样品装载仪器302利用尖端块316将包括引物324和聚合酶326的反应混合体328的样品混合物312分配到反应板308的通孔中。
当样品装载仪器302被操作时,尖端块316可以跨反应板308移动,从而允许将设定体积的样品混合物312递送到特定的阵列通孔306。当样品装载仪器302完成其运行时,反应板308转换为装载的反应板310,其中多个子阵列例如子阵列322包括包含靶多核苷酸序列320的装载的通孔304。
参考图4,基因分型系统400包括qPCR系统402和学习系统404。学习系统404进一步包括支持向量机406、数据存储系统408、人分类器410、标记的数据集412和分类模型414。
qPCR系统402可以是qPCR系统200的实施例。qPCR系统402生成包括
Figure BDA0002952258060000113
Figure BDA0002952258060000114
荧光染料的强度的信号。然后将此强度向量发送到学习系统404的支持向量机406和数据存储系统408两者。可以利用质心最小簇分离西格玛(MCSS)簇的数量、测定物地址、MCSS值等的值进一步扩展向量。
支持向量机406从qPCR系统402接收数据向量。支持向量机406可以通过利用最小-最大缩放(min-max scaling)或Z评分归一化来归一化输入的原始数据向量。支持向量机406然后可以从分类模型414中选择模型。模型可以从SVM线性、多项式和径向分类器(RBF)核中选择。RBF核可以如下:
Figure BDA0002952258060000111
等式1
其中x是数据向量,并且γ是可调参数。模型还可以具有硬间隔或软间隔。软间隔可以如下:
Figure BDA0002952258060000112
等式2
其中w和b是超平面的参数,xn是数据向量,yn是第i个靶标,ζ是松弛变量,并且C是可调参数。每个模型还可以具有一组超参数。例如,利用RBF核的模型可以具有关联的γ值,如介于10与1000之间的值。另外,利用软间隔的模型可以具有关联的C值,如介于0.01与30之间的值。可以选择参数以在操作效率与准确度之间取得平衡。选择的模型可以例如具有C值0.3和γ值300。支持向量机406利用选择的模型来确定数据向量的基因型预测。由于数据集包括三个种类,因此利用一对余(one-vs-the-rest)(OvR)策略为新个例分配基因型。此策略利用每个种类(此处为三个种类)一个分类器。每个分类器然后对输入数据向量进行操作,例如,一个分类器用于“11”状态,一个分类器用于“12”状态,并且一个分类器用于“22”状态。支持向量机406可以基于每个分类器的输出在“11”状态、“12”状态和“22”状态之间进行选择。然后输出确定的分类。
数据存储系统408存储来自qPCR系统402的数据输出。数据存储系统408可以存储用于训练模型的历史数据以及在模型已经被训练之后由qPCR系统402生成的另外的数据。新模型可以从存储在数据存储系统408中的更新数据集生成。数据存储系统408可以进一步存储来自多于一个qPCR系统402的数据。
人分类器410将标记应用于存储在数据存储系统408中的数据以生成标记的数据集412。标记包含“11”状态、“12”状态和“22”状态。然后利用标记的数据集412来训练每个分类模型414。
分类模型414可以影响qPCR系统402的操作。分类模型414可以利用与其它分类模型414不同的一组输入。选择的分类模型414然后可以确定来自qPCR系统402的输出数据向量。可以通过接收标记的数据集412来训练每个分类模型414,所述标记的数据集可以包含多数基因型(MG)和基因型一致性(GC)。MG是考虑到一对测定物-样品组合具有最高频率的基因型。由于qPCR反应的基因型在生物学上可以是一致的,因此MG=max(G11,G12,G22),其中G11、G12和G22是纯合子(G11和G22)和杂合子(G12)的基因型频率。GC是历史数据中的多数基因型的个例数除以qPCR反应总数(测定物-样品对)的百分比,GC=100*(MG个例/总个例)。从存储的数据集中提取失败的qPCR反应,所述存储的数据集由约50万个个例(又称不良个例)组成,然后随机选择历史上从未失败的另外50万个个例(良好个例)。这是用于训练和测试的输入数据。每个分类模型414可以包含三个分类器。每个分类器确定超平面(w和b值)以将标记的数据集412分为两个类别——种类的一部分或者不是种类的一部分。例如,第一分类器确定数据向量是“11”或不是“11”。第二分类器确定数据向量是“12”或不是“12”。第三分类器确定数据向量是“22”或不是“22”。比较现有(基线)与基于SVM的基因分型之间的准确度。依据统计显著性,模型的结果可以是三个类别之一:类似、较好和较差。在利用网格搜索之后,依据SVM的核和参数确定“最佳”预测模型。一旦将模型确定为“最佳”模型,就通过四折交叉验证来验证其鲁棒性。将输入数据集分为四个群组。然后将模型在三个群组上重新训练并且用所述四个群组进行测试。这样做四次,每个群组作为测试群组一次。训练结果表明,基于相同数据集,基于SVM的算法比常规模型预测的准确度高至少约20%。结果还表明,SVM-RBF能够挽救现有算法不能作出基因型预测的这1簇或2簇数据。另外,基于SVM的算法挽救超过50%通过常规算法标签化的未调用个例和LowROX个例。
在一些情况下,原始数据包括来自qPCR系统的操作的原始图像数据。原始图像数据包括在qPCR系统的操作期间由图像传感器生成的像素值阵列。
参考图5,径向算法500接收测试和训练数据(框502)。然后将测试和训练数据归一化(框504)。可以利用最小-最大缩放或Z评分归一化。选择特定的核(框506)。核可以包含线性、多项式和径向分类器(RBF)核。然后确定核的参数范围(框508)。例如,对于RBF核,γ值的范围可以介于10与1000之间。径向算法500然后确定SVM是具有硬间隔还是软间隔(判定框510)。如果间隔是软的,则确定松弛罚分变量C的范围(框512)。例如,范围可以介于0.01与30之间。一旦确定了C的范围或者如果间隔是硬的,则对用于训练数据集的参数的一个或多个范围进行网格搜索(框514)。网格搜索可以将参数的范围变换成参数的特定组合。例如,前述范围的网格值可以是C=0.01,γ=10;C=3,γ=10o;以及C=30,γ=1000。可以利用其它值。测试数据然后可以用来测试通过网格搜索生成的模型并选择模型参数(框516)。可以基于操作效率、准确度、精度等来选择模型。然后利用四折交叉验证方法验证选择的模型(框518)。可以将测试和训练数据分为四组。群组中的三个群组被用来利用选择的参数重新训练模型。然后利用第四群组来测试所得模型。这执行四次,每个群组作为“测试”群组一次。对模型在不同数据集上被训练的能力进行了评估。
参考图6,SVM qPCR测定模型600接收输入数据向量(框602)。输入数据向量可以是来自qPCR系统的输出(所述输出包含
Figure BDA0002952258060000133
Figure BDA0002952258060000134
荧光染料的强度)以及在一些实施例中的其它信息,所述其它信息包含质心最小簇分离西格玛(MCSS)簇的数量、测定物地址、MCSS值等的值。然后将输入数据向量随后被归一化(框604)。可以利用最小-最大缩放或Z评分归一化。SVM qPCR测定模型600可以确定用于训练模型的归一化方法并利用相同的方法。将具有确定的参数的核应用于输入数据向量(框606)。这可以将归一化的输入变换成用于经过训练的模型的适当维度空间。将超平面应用于经过变换的输入数据向量以确定符号(即,分类)(框608)。由于存在三个或更多个分类,因此可以利用多个分类器(超平面)。每个分类可以利用一个超平面。分别返回指示输入数据向量具有所述分类或不具有所述分类的符号“+1”或“-1”的每个超平面/分类器。具有仅一个“+1”的输入数据向量可以被给予所述分类。对于框606和框608,可以利用以下:
Figure BDA0002952258060000131
等式3
其中
Figure BDA0002952258060000132
是用于输入数据向量的核变换,并且w和b是在模型的训练期间确定的用于模型的超平面的参数。此处,有三个超平面,因为有三个分类。
图7展示了根据一个实施例的云学习和控制系统700。云学习和控制系统700包括云分析系统710,所述云分析系统包括学习系统404,例如本文中公开的实施例的一个或多个。由云分析系统710通过互联网702或其它网络监测来自多个PCR运行或其它实验(例如,PCR实验室仪器704、PCR实验室仪器706和PCR实验室仪器708)的实验数据。云分析系统710处理实验数据并且提供学习的配置参数作为反馈,以针对当前或未来的实验调节PCR仪器的配置设置。
图8是可以结合本发明的实施例的计算装置800的示例框图。图8仅说明了用于实行本文中描述的技术过程的各方面的机器系统并且不限制权利要求的范围。本领域的技术人员将认识到其它变化、修改和替代方案。在一个实施例中,计算装置800通常包含监视器或图形用户界面802、数据处理系统820、通信网络接口812、一个或多个输入装置808、一个或多个输出装置806等。
如图8中所描绘的,数据处理系统820可以包含通过总线子系统818与许多外围装置通信的一个或多个处理器804。这些外围装置可以包含一个或多个输入装置808、一个或多个输出装置806、通信网络接口812和如易失性存储器810和非易失性存储器814等存储子系统。
易失性存储器810和/或非易失性存储器814可以存储计算机可执行指令,并且因此形成逻辑822,所述逻辑在应用于一个或多个处理器804并由其执行时实施本文中公开的分析和控制过程的实施例。
一个或多个输入装置808包含用于将信息输入到数据处理系统820的装置和机制。这些输入装置可以包含键盘、小键盘、并入到监视器或图形用户界面802中的触摸屏、音频输入装置如语音识别系统、麦克风和其它类型的输入装置。在各个实施例中,一个或多个输入装置808可以体现为计算机鼠标、跟踪球、跟踪板、操纵杆、无线遥控器、绘图板、语音命令系统、眼睛跟踪系统等。一个或多个输入装置808通常允许用户通过命令如单击按钮等来选择出现在监视器或图形用户界面802上的对象、图标、控制区域、文本等。
一个或多个输出装置806包含用于将信息从数据处理系统820输出的装置和机制。这些输出装置可以包含本领域中充分了解的监视器或图形用户界面802、扬声器、打印机、红外LED等。
通信网络接口812提供到通信网络(例如,通信网络816)和在数据处理系统820外部的装置的接口。通信网络接口812可以用作用于从其它系统接收数据并且将数据传输到其它系统的接口。通信网络接口812的实施例可以包含以太网接口、调制解调器(电话、卫星、电缆、ISDN)、(异步)数字订户线(DSL)、火线(FireWire)、USB、无线通信接口如蓝牙或Wi-Fi、近场通信无线接口、蜂窝接口等。
通信网络接口812可以经由天线、电缆等耦接到通信网络816。在一些实施例中,通信网络接口812可以物理地集成在数据处理系统820的电路板上或在一些情况下可以在软件或固件如“软调制解调器”等中实施。
计算装置800可以包含使能够使用如HTTP、TCP/IP、RTP/RTSP、IPX、UDP等协议通过网络进行通信的逻辑。
易失性存储器810和非易失性存储器814是有形介质的实例,所述有形介质被配置成存储计算机可读数据和指令以实施本文中所描述的过程的各个实施例。其它类型的有形介质包含可移除存储器(例如,可插拔USB存储器装置、移动装置SIM卡)、光学存储介质如CD-ROMS、DVD、半导体存储器如闪速存储器、非暂时性只读存储器(ROMS)、电池支持的易失性存储器、联网存储装置等。易失性存储器810和非易失性存储器814可以被配置成存储提供所公开过程和其在本发明的范围内的其它实施例的功能的基本编程和数据构造。
实施本发明的实施例的逻辑822可以由易失性存储器810和/或非易失性存储器814来体现。所述逻辑822的指令可以从易失性存储器810和/或非易失性存储器814中读取并且由一个或多个处理器804执行。易失性存储器810和非易失性存储器814还可以提供用于存储由逻辑822使用的数据的储库。
易失性存储器810和非易失性存储器814可以包含多个存储器,所述多个存储器包含用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)以及其中存储有只读非暂时性指令的只读存储器(ROM)。易失性存储器810和非易失性存储器814可以包含为程序和数据文件提供持久性(非易失性)存储的文件存储子系统。易失性存储器810和非易失性存储器814可以包含可移除存储系统,如可移除闪速存储器。
总线子系统818提供用于使数据处理系统820的各个组件和子系统能够按照预期彼此通信的机制。尽管通信网络接口812被示意性地描绘为单个总线,但是总线子系统818的一些实施例可以利用多个不同的总线。
对于本领域普通技术人员而言将显而易见的是,计算装置800可以是如智能电话、台式计算机、膝上型计算机、机架安装式计算机系统、计算机服务器或平板计算机装置等装置。如本领域中通常已知的,计算装置800可以被实施为多个联网计算装置的集合。进一步地,计算装置800将通常包含类型和性质在本领域中众所周知的操作系统逻辑(未展示)。
附加术语和解释
本文中所使用的术语应被赋予其在相关领域中的普通含义或由其在上下文中的使用指示的含义,但如果提供明确的定义,则以所述含义为准。
“核”是指核函数,所述核函数在高维隐含特征空间中操作,而无需计算所述空间中的数据的坐标,而是通过简单地计算特征空间中的所有数据对的投影之间的内积。此操作在计算上通常比显式地计算坐标更便宜。当与SVM一起使用时,此方法被称为“核技巧(kernel trick)”。
“支持向量机”是指带有分析用于分类和回归分析的数据的相关联的学习算法的监督学习模型。给定一组训练实例,每个训练实例都标记为属于两个类别中的一个或另一个类别,SVM训练算法构建将新实例分配给一个类别或另一个类别从而使其成为非概率二进制线性分类器的模型。SVM模型是将实例表示为空间中的点的表示,所述实例被映射成使得单独类别的实例被尽可能宽的明显间隙分开。新实例然后被映射到相同的空间中并且基于其落在间隙的哪一侧来预测属于类别。除了执行线性分类外,SVM还可以使用所谓的核技巧高效地执行非线性分类,从而隐式地将其输入映射到高维特征空间中。
本文中的“电路系统”是指具有至少一个离散电路的电路系统、具有至少一个集成电路的电路系统、具有至少一个专用集成电路的电路系统、形成通过计算机程序配置的通用计算装置(例如,通过至少部分地实行本文所描述的过程或装置的计算机程序配置的通用计算机或者通过至少部分地实行本文所描述的过程或装置的计算机程序配置的微处理器)的电路系统、形成存储器装置的电路系统(例如,多种形式的随机存取存储器)或形成通信装置的电路系统(例如,调制解调器、通信交换机或光电装备)。
本文中的“固件”是指体现为存储在只读存储器或介质中的处理器可执行指令的软件逻辑。
本文中的“硬件”是指体现为模拟或数字电路系统的逻辑。
本文中的“逻辑”是指机器存储器电路、非暂时性机器可读介质和/或通过其材料和/或材料-能量配置来包括可以施加以影响装置的操作的控制和/或程序信号和/或设置和值(如电阻、阻抗、电容、电感、电流/电压等级等)的电路系统。磁性介质、电子电路、电学存储器和光学存储器(易失性和非易失性两者)以及固件是逻辑的实例。逻辑专门排除纯信号或软件本身(然而不排除包括软件且由此形成物质的配置的机器存储器)。
本文中的“软件”是指被实施为机器存储器中的处理器可执行指令(例如,读取/写入易失性或非易失性存储器或介质)的逻辑。
在本文中,对“一个实施例”或“实施例”的引用不一定指相同的实施例,但它们可以指相同的实施例。除非上下文另外清楚地要求,否则在整个说明书和权利要求中,词语“包括(comprise/comprising)”等应在包含性意义上解释而不是与排他性或穷举性意义相反;也就是说,在“包含但不限于”的意义上解释。除非明确限制为单个或多个,否则使用单数或复数的词也分别包含复数或单数。另外,当在本申请中使用时,词语“本文”、“上文”、“下文”和类似意义的词语是指本申请整体,而不是指本申请的任何特定部分。当权利要求使用与两个或更多个项目的列表相关的词“或”时,除非明确限制为一个或另一个,否则所述词涵盖所有以下对所述词的解释:列表中的项目中的任何一个项目、列表中的所有项目以及列表中的项目的任何组合。本文中未明确定义的任何术语具有如一个或多个相关领域的技术人员通常理解的常规含义。
本文描述的各种逻辑功能操作可以以使用反映所述操作或功能的名词或名词短语引用的逻辑来实施。例如,关联操作可以由“关联器”或“相关器”实行。同样,可以通过“开关”实行切换,通过“选择器”实行选择等等。

Claims (14)

1.一种质量控制系统,其包括:
qPCR系统,所述qPCR系统包括测定物;
存储系统,所述存储系统被耦接以接收因所述qPCR系统在所述测定物上的操作而产生的第一信号;以及
计算系统,所述计算系统包括用于以下的逻辑:
接收所述第一信号;
从所述存储系统接收包括标记的数据集的第二信号;
操作支持向量机(SVM)以基于所述第二信号生成用于所述第一信号的分类并将所述分类作为操作反馈应用于所述qPCR系统。
2.根据权利要求1所述的质量控制系统,其中所述SVM包括径向基函数核。
3.根据权利要求2所述的质量控制系统,其中所述核包括:
Figure FDA0002952258050000011
4.根据权利要求3所述的质量控制系统,其中所述SVM进一步包括以下的软间隔参数:
Figure FDA0002952258050000012
5.根据权利要求1所述的质量控制系统,其中所述存储系统和所述SVM由云服务器系统提供。
6.根据权利要求1所述的质量控制系统,其中所述分类作为反馈来应用以适配所述测定物或所述测定物在所述qPCR系统中的使用。
7.根据权利要求1所述的质量控制系统,被适配成生成并适配所述测定物的模型的所述SVM。
8.根据权利要求7所述的质量控制系统,其中所述模型包括SVM线性、多项式和径向分类器核之一。
9.根据权利要求1所述的质量控制系统,其中所述第一信号和所述第二信号包括来自qPCR系统的所述操作的原始图像数据。
10.一种质量控制方法,其包括:
在测定物上操作qPCR系统以生成第一信号;
从存储系统接收包括标记的数据集的第二信号;
操作支持向量机(SVM)以基于所述第二信号生成用于所述第一信号的分类,其中所述SVM被适配成具有包括以下的核:
Figure FDA0002952258050000021
以及软间隔参数,所述软间隔参数包括:
Figure FDA0002952258050000022
以及
应用所述分类以适配用于生成所述测定物或操作所述qPCR系统的过程中的一者或两者。
11.根据权利要求10所述的质量控制系统,其中所述存储系统和所述SVM由云服务器系统提供。
12.根据权利要求10所述的质量控制系统,其中所述分类作为反馈来应用以适配所述测定物的制造或所述测定物在所述qPCR系统中的使用。
13.根据权利要求10所述的质量控制系统,所述SVM被适配成生成并适配所述测定物的模型。
14.根据权利要求10所述的质量控制系统,其中所述第一信号和所述第二信号包括来自qPCR系统的操作的原始图像数据。
CN201980056219.4A 2018-08-30 2019-08-28 用于对pcr测定进行基因分型的机器学习系统 Pending CN112602153A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862725171P 2018-08-30 2018-08-30
US62/725,171 2018-08-30
PCT/US2019/048551 WO2020047081A1 (en) 2018-08-30 2019-08-28 Machine learning system for genotyping pcr assays

Publications (1)

Publication Number Publication Date
CN112602153A true CN112602153A (zh) 2021-04-02

Family

ID=67909482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980056219.4A Pending CN112602153A (zh) 2018-08-30 2019-08-28 用于对pcr测定进行基因分型的机器学习系统

Country Status (6)

Country Link
US (2) US20200075129A1 (zh)
EP (1) EP3844757A1 (zh)
JP (1) JP7308261B2 (zh)
CN (1) CN112602153A (zh)
SG (1) SG11202101782YA (zh)
WO (1) WO2020047081A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11982620B2 (en) * 2019-03-18 2024-05-14 Life Technologies Corporation Multi-capillary optical detection system
CN113853657A (zh) * 2019-05-20 2021-12-28 3M创新有限公司 用于检测对生物测定的抑制的系统和方法
JP2021153516A (ja) * 2020-03-27 2021-10-07 シスメックス株式会社 核酸増幅の成否判定方法、核酸増幅の成否判定装置、及び核酸増幅の成否判定システム
CN112331266A (zh) * 2020-11-20 2021-02-05 安图实验仪器(郑州)有限公司 消除pcr荧光基线期波动的方法
CN114622006B (zh) * 2022-05-16 2022-08-26 浙江正合谷生物科技有限公司 一种基于12v电压驱动的核酸变温扩增系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110010103A1 (en) * 2009-04-13 2011-01-13 Canon U.S. Life Sciences, Inc. Rapid method of pattern recognition, machine learning, and automated genotype classification through correlation analysis of dynamic signals
CN102959090A (zh) * 2010-06-24 2013-03-06 默克专利股份公司 用于表征和鉴别遗传毒性化合物的基因表达分析
CN103069427A (zh) * 2010-04-09 2013-04-24 生命技术公司 qPCR基因分型数据的可视化工具
US20150100242A1 (en) * 2012-03-15 2015-04-09 Qiagen Sciences Llc Method, kit and array for biomarker validation and clinical use
CN106918570A (zh) * 2017-03-23 2017-07-04 河南工业大学 一种基于光谱的转基因稻谷智能分类器
CN107206043A (zh) * 2014-11-05 2017-09-26 维拉赛特股份有限公司 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法
WO2018119443A1 (en) * 2016-12-23 2018-06-28 The Regents Of The University Of California Method and device for digital high resolution melt
CN108348168A (zh) * 2015-09-09 2018-07-31 优比欧迈公司 用于湿疹的源自微生物群系的诊断及治疗方法和系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
US5767259A (en) 1994-12-27 1998-06-16 Naxcor Oligonucleotides containing base-free linking groups with photoactivatable side chains
US5925517A (en) 1993-11-12 1999-07-20 The Public Health Research Institute Of The City Of New York, Inc. Detectably labeled dual conformation oligonucleotide probes, assays and kits
US5538848A (en) 1994-11-16 1996-07-23 Applied Biosystems Division, Perkin-Elmer Corp. Method for detecting nucleic acid amplification using self-quenching fluorescence probe
EP0892808B1 (en) 1996-04-12 2008-05-14 PHRI Properties, Inc. Detection probes, kits and assays
US6485901B1 (en) 1997-10-27 2002-11-26 Boston Probes, Inc. Methods, kits and compositions pertaining to linear beacons
WO1999022018A2 (en) 1997-10-27 1999-05-06 Boston Probes, Inc. Methods, kits and compositions pertaining to pna molecular beacons
US6383752B1 (en) 1999-03-31 2002-05-07 Hybridon, Inc. Pseudo-cyclic oligonucleobases
US6528254B1 (en) 1999-10-29 2003-03-04 Stratagene Methods for detection of a target nucleic acid sequence
US6596490B2 (en) 2000-07-14 2003-07-22 Applied Gene Technologies, Inc. Nucleic acid hairpin probes and uses thereof
US6350580B1 (en) 2000-10-11 2002-02-26 Stratagene Methods for detection of a target nucleic acid using a probe comprising secondary structure
US6593091B2 (en) 2001-09-24 2003-07-15 Beckman Coulter, Inc. Oligonucleotide probes for detecting nucleic acids through changes in flourescence resonance energy transfer
US6589250B2 (en) 2001-11-20 2003-07-08 Stephen A. Schendel Maxillary distraction device
CA2594730A1 (en) * 2005-01-13 2006-07-20 Progenika Biopharma, S.A. Methods and products for in vitro genotyping
JP2008278783A (ja) * 2007-05-09 2008-11-20 Order-Made Souyaku Co Ltd 蛍光強度を指標とした遺伝子測定における異常値検出装置及び方法
TW200930818A (en) 2007-10-30 2009-07-16 Applied Biosystems Method and kits for multiplex amplification of short tandem repeat loci

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110010103A1 (en) * 2009-04-13 2011-01-13 Canon U.S. Life Sciences, Inc. Rapid method of pattern recognition, machine learning, and automated genotype classification through correlation analysis of dynamic signals
CN103069427A (zh) * 2010-04-09 2013-04-24 生命技术公司 qPCR基因分型数据的可视化工具
CN102959090A (zh) * 2010-06-24 2013-03-06 默克专利股份公司 用于表征和鉴别遗传毒性化合物的基因表达分析
US20150100242A1 (en) * 2012-03-15 2015-04-09 Qiagen Sciences Llc Method, kit and array for biomarker validation and clinical use
CN107206043A (zh) * 2014-11-05 2017-09-26 维拉赛特股份有限公司 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法
CN108348168A (zh) * 2015-09-09 2018-07-31 优比欧迈公司 用于湿疹的源自微生物群系的诊断及治疗方法和系统
WO2018119443A1 (en) * 2016-12-23 2018-06-28 The Regents Of The University Of California Method and device for digital high resolution melt
CN106918570A (zh) * 2017-03-23 2017-07-04 河南工业大学 一种基于光谱的转基因稻谷智能分类器

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BO LIU,等: "Cloud-based bioinformatics workflow platform for large-scale next-generation sequencing analyses", 《JOURNAL OF BIOMEDICAL INFORMATICS》, vol. 49, 22 January 2014 (2014-01-22), pages 119 - 133, XP055600991, DOI: 10.1016/j.jbi.2014.01.005 *
CHIH-WEI HSU,等: "A Practical Guide to Support Vector Classication", 《网址HTTP://WWW.CSIE.NTU.EDU.TW/~CJLIN》, 30 October 2016 (2016-10-30), pages 1 - 16 *
GOO JUN,等: "An efficient and scalable analysis framework for variant extraction and refinement from population-scale DNA sequence data", 《GENOME RESEARCH》, vol. 25, no. 6, 30 June 2015 (2015-06-30), pages 918 - 925 *
LARS GERDES,等: "Optimization of digital droplet polymerase chain reaction for quantification of genetically modified organisms", 《BIOMOLECULAR DETECTION AND QUANTIFICATION》, vol. 7, 7 January 2016 (2016-01-07), pages 9 - 20, XP055549482, DOI: 10.1016/j.bdq.2015.12.003 *
PORNPAT ATHAMANOLAP,等: "Trainable High Resolution Melt Curve Machine Learning Classifier for Large-Scale Reliable Genotyping of Sequence Variants", 《PLOS ONE》, vol. 9, no. 10, 2 October 2014 (2014-10-02), pages 109094, XP055233770, DOI: 10.1371/journal.pone.0109094 *
RAN SU,等: "Supervised prediction of drug-induced nephrotoxicity based on interleukin-6 and -8 expression levels", 《BMC BIOINFORMATICS》, vol. 15, 8 December 2014 (2014-12-08), pages 1 - 9 *
TOBIAS P. MANN,等: "Automated Validation of Polymerase Chain Reactions Using Amplicon Melting Curves", 《IEEE COMPUTATIONAL SYSTEMS BIOINFORMATICS CONFERENCE》, 6 September 2005 (2005-09-06), pages 377 - 385 *

Also Published As

Publication number Publication date
SG11202101782YA (en) 2021-03-30
WO2020047081A1 (en) 2020-03-05
US20230395195A1 (en) 2023-12-07
JP2021535514A (ja) 2021-12-16
JP7308261B2 (ja) 2023-07-13
EP3844757A1 (en) 2021-07-07
US20200075129A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
JP7308261B2 (ja) ジェノタイピングpcrアッセイのための機械学習システム
US11836614B2 (en) Image driven quality control for array-based PCR
San Segundo-Val et al. Introduction to the gene expression analysis
Grün et al. Design and analysis of single-cell sequencing experiments
Jong et al. Breakpoint identification and smoothing of array comparative genomic hybridization data
US10629290B2 (en) Visualization tool for QPCR genotyping data
Lee et al. Genomic analysis
JP7171709B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
Lee et al. Microarrays: an overview
KR20060103813A (ko) 뉴클레오티드 서열의 실질적인 대표체
US11208692B2 (en) Combinatorial barcode sequences, and related systems and methods
WO2018218103A1 (en) Methods and systems to detect large rearrangements in brca1/2
Tischler et al. Investigating transcriptional states at single-cell-resolution
CN108140072B (zh) Pcr结果可视化工具
EP2556459B1 (en) Systems and methods for genotyping by angle configuration search
WO2018236631A1 (en) METHODS AND COMPOSITIONS FOR RESOLVING INEFFICIENCY IN AMPLIFICATION REACTIONS
Rando Nucleic acid platform technologies
EP3847276A2 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
Deharvengt et al. Nucleic acid analysis in the clinical laboratory
US20230212561A1 (en) Accurate sequencing library generation via ultra-high partitioning
WO2024059487A1 (en) Methods for detecting allele dosages in polyploid organisms
Barbaro Overview of NGS platforms and technological advancements for forensic applications
Vıg et al. Dynamic Evolutionary Clustering for Gene Expression Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination