CN113151428A

CN113151428A - 一种检测文库构建过程中样本混淆的方法和装置

Info

Publication number: CN113151428A
Application number: CN202110440968.6A
Authority: CN
Inventors: 邓艳; 魏利然; 林灵; 张朔; 付欢欢; 范佩佩; 罗向光; 张晓歌; 蒋丽莎; 丁飞飞; 楼敬伟
Original assignee: Shanghai Biotecan Medical Diagnostics Co ltd; Shanghai Zhangjiang Medical Innovation Research Institute; Shanghai Biotecan Biology Medicine Technology Co ltd
Current assignee: Shanghai Biotecan Medical Diagnostics Co ltd; Shanghai Zhangjiang Medical Innovation Research Institute; Shanghai Biotecan Biology Medicine Technology Co ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23

Abstract

本发明提供了一种检测文库构建过程中样本混淆的方法和装置，所述方法包括：利用核酸质谱法检测样本在文库构建过程中的中间产物的SNP位点，对不同中间产物SNP位点的核酸质谱结果进行比对，判断发生样本混淆的步骤。本发明基于样本SNP位点信息，利用核酸质谱技术检测文库构建过程中的中间产物的SNP位点，并对一系列中间产物的SNP检测结果进行对比，实现了准确、低成本判断发生样本混淆环节的效果。

Description

一种检测文库构建过程中样本混淆的方法和装置

技术领域

本发明属于高通量测序技术领域，涉及一种检测文库构建过程中样本混淆的方法和装置。

背景技术

二代测序又称为下一代测序(Next Generating Sequencing，NGS)，以对DNA分子进行高通量测序且测序读长较短为特征，通过对多基因、多位点进行集成式检测，可以一次性检测与肿瘤密切相关的基因位点。文库构建是二代测序最重要的环节之一，经典的文库构建方式是将提取的基因组核酸片段化，经过末端修复、接头连接、预文库扩增后再使用探针捕获目标片段，进行上机测序。

质谱是一种功能强大的综合性技术平台，具有高通量、高灵敏的特点，除了可以进行蛋白质多肽检测、微生物鉴定、糖基化检测外，还可以进行基因的SNP突变、甲基化及CNV分析。核酸质谱的一大优点在于其谱图检测峰显示A、G、T、C四个碱基，数据准确且易于判别。

单核苷酸多态性(SNP)主要指基因组水平上由单个核苷酸变异引起的DNA序列多态性。SNP是一种二态标记，一般由单个碱基的转换或者颠换引起，在人类基因组中广泛存在，平均每300个碱基对中就有一个SNP位点，编码区、非编码区以及基因间区均存在SNP。

在高通量测序的实际操作中，由于操作者的疏忽有可能导致核酸样本混淆，使得样本分析结果不匹配或是出现了与临床诊断不符的突变。对于二代测序中不确定的结果，主要采用qPCR、质谱等方法进行验证。但是，这些方法只能反映验证的样本是否存在突变，无法确定样本在建库过程中是否发生混淆。目前，检测核酸跨样本污染的方法是在建库过程中加入SNP引物或者内标，测序完成后通过生物信息学手段判定是否存在核酸跨样本污染的情况。

CN109686404A公开了检测样本混淆的方法及装置，该方法包括以下步骤：S1，获取待检测样本及其对照样本的目的基因的序列信息；以及S2，对序列信息进行分析，筛选出胚系位点变异信息，通过计算其中特定类型突变比例确定待检测样本的是否处于混淆状态。该技术方案基于测序数据进行样本是否混淆的判定，由于可以节省参考品，因此，节约了成本，并且具有高灵敏性和高特异性的特点。但是，该方法需要确保引物或参考品没有发生污染，否则可能造成结果的错误，另外额外添加的引物或参考品增加了操作的时间成本和测序成本，且不能确定在建库过程中的哪一步发生了样本混淆。

发明内容

针对现有技术的不足和实际需求，本发明提供了一种检测文库构建过程中样本混淆的方法和装置，所述方法基于样本SNP位点信息，将文库构建过程中的中间产物进行核酸质谱检测，根据核酸质谱检测结果对发生样本混淆的环节作出判断。

为达此目的，本发明采用以下技术方案：

第一方面，本发明提供了一种检测文库构建过程中样本混淆的方法，所述方法包括：

利用核酸质谱法检测样本在文库构建过程中的中间产物的SNP位点，对不同中间产物SNP位点的核酸质谱结果进行比对，判断发生样本混淆的步骤。

本发明中，基于样本SNP位点信息，利用核酸质谱技术检测文库构建过程中的中间产物的SNP位点，并对一系列中间产物的SNP检测结果进行对比，理论上，处于不同状态的样本或者同一样本在不同环节的遗传信息是相同的，如果样本在建库过程中发生混淆，可以根据遗传信息的变化提示出错的环节及可能发生混淆的样本，所述方法不依赖于内标，测序成本显著降低，并且可以准确确定发生样本混淆的环节。

优选地，所述中间产物包括核酸提取原液、核酸片段化产物、接头连接产物、扩增文库或探针捕获文库中的任意一种或至少两种的组合。

优选地，所述SNP位点包括rs2032582、rs2072671、rs4244285、rs11572080、rs1057910、rs55951658、rs67376798、rs3918290、rs1801159、rs1801265、rs11615、rs13181、rs1695、rs1045642、rs4880、rs1131341、rs9937、rs1042858、rs1800460、rs1142345、rs4148323、rs25487或rs1799782中的任意一种或至少两种的组合，这些SNP位点不仅可以区分不同的个体，而且包含不同癌种的检测基因范围，适用于杂交捕获的终文库的样本混淆检测。

本发明中，本装置选择的SNP位点具有较高的特异性，可以筛选具有人群差异的位点，并且与常规二代测序检测的化疗药物敏感位点一致，通过组合这些位点，可以达到区分不同个体的目的。

优选地，所述rs2032582的PCR引物包括SEQ ID NO:1～2所示的核酸序列，延伸引物包括SEQ ID NO:3所示的核酸序列；

SEQ ID NO:1：ACGTTGGATGTGCAATAGCAGGAGTTGTTG；

SEQ ID NO:2：ACGTTGGATGCATATTTAGTTTGACTCACC；

SEQ ID NO:3：TATGTAGTTTGACTCACCTTCCCAG。

优选地，所述rs2072671的PCR引物包括SEQ ID NO:4～5所示的核酸序列，延伸引物包括SEQ ID NO:6所示的核酸序列；

SEQ ID NO:4：ACGTTGGATGACAGGAAAGTGACTGTAGGG；

SEQ ID NO:5：ACGTTGGATGCTGAAGCCTGAGTGTGTCCA；

SEQ ID NO:6：TCCCAGGAGGCCAAG。

优选地，所述rs4244285的PCR引物包括SEQ ID NO:7～8所示的核酸序列，延伸引物包括SEQ ID NO:9所示的核酸序列；

SEQ ID NO:7：ACGTTGGATGGCAATAATTTTCCCACTATC；

SEQ ID NO:8：ACGTTGGATGTCCATCGATTCTTGGTGTTC；

SEQ ID NO:9：GTTAAGTAATTTGTTATGGGTTCC。

优选地，所述rs11572080的PCR引物包括SEQ ID NO:10～11所示的核酸序列，延伸引物包括SEQ ID NO:12所示的核酸序列；

SEQ ID NO:10：ACGTTGGATGTTTCTCCCTCACAACCTTGC；

SEQ ID NO:11：ACGTTGGATGCAGTGAGCTTCCTCTTGAAC；

SEQ ID NO:12：ACGGTCCTCAATGCTC。

优选地，所述rs1057910的PCR引物包括SEQ ID NO:13～14所示的核酸序列，延伸引物包括SEQ ID NO:15所示的核酸序列；

SEQ ID NO:13：ACGTTGGATGTGTCACAGGTCACTGCATGG；

SEQ ID NO:14：ACGTTGGATGATGCAAGACAGGAGCCACAT；

SEQ ID NO:15：ACGAGGTCCAGAGATAC。

优选地，所述rs55951658的PCR引物包括SEQ ID NO:16～17所示的核酸序列，延伸引物包括SEQ ID NO:18所示的核酸序列；

SEQ ID NO:16：ACGTTGGATGCAAATTCAGTGGACTACCCC；

SEQ ID NO:17：ACGTTGGATGACTCTAGCCTTTTGGTCCAG；

SEQ ID NO:18：GGGATTTATGAAAAGTGCC。

优选地，所述rs67376798的PCR引物包括SEQ ID NO:19～20所示的核酸序列，延伸引物包括SEQ ID NO:21所示的核酸序列；

SEQ ID NO:19：ACGTTGGATGCTTACCTGGTAGCCAGAATC；

SEQ ID NO:20：ACGTTGGATGGCAACGTAGAGCAAGTTGTG；

SEQ ID NO:21：AAGTTGTGGCTATGATTG。

优选地，所述rs3918290的PCR引物包括SEQ ID NO:22～23所示的核酸序列，延伸引物包括SEQ ID NO:24所示的核酸序列；

SEQ ID NO:22：ACGTTGGATGTCACTGAACTAAAGGCTGAC；

SEQ ID NO:23：ACGTTGGATGAACATTCACCAACTTATGCC；

SEQ ID NO:24：TTGTTTTAGATGTTAAATCACACTTA。

优选地，所述rs1801159的PCR引物包括SEQ ID NO:25～26所示的核酸序列，延伸引物包括SEQ ID NO:27所示的核酸序列；

SEQ ID NO:25：ACGTTGGATGTGCGCTAGCAAGACCAAAAG；

SEQ ID NO:26：ACGTTGGATGCTCCTATTGATCTGGTGGAC；

SEQ ID NO:27：TCCCTGGCCGGATTGAAGTTT。

优选地，所述rs1801265的PCR引物包括SEQ ID NO:28～29所示的核酸序列，延伸引物包括SEQ ID NO:30所示的核酸序列；

SEQ ID NO:28：ACGTTGGATGGTCTAATTTCTTGGCCGAAG；

SEQ ID NO:29：ACGTTGGATGATCCTGGCTTTAAATCCTCG；

SEQ ID NO:30：TGACACAAACTCATGCAACTCTG。

优选地，所述rs11615的PCR引物包括SEQ ID NO:31～32所示的核酸序列，延伸引物包括SEQ ID NO:33所示的核酸序列；

SEQ ID NO:31：ACGTTGGATGCAGAGCTCACCTGAGGAACA；

SEQ ID NO:32：ACGTTGGATGGGCAATCCCGTACTGAAGTT；

SEQ ID NO:33：GGGAAGTACTGAAGTTCGTGCGCAA。

优选地，所述rs13181的PCR引物包括SEQ ID NO:34～35所示的核酸序列，延伸引物包括SEQ ID NO:36所示的核酸序列；

SEQ ID NO:34：ACGTTGGATGAGCAGCTAGAATCAGAGGAG；

SEQ ID NO:35：ACGTTGGATGCACCAGGAACCGTTTATGGC；

SEQ ID NO:36：GAGCAATCTGCTCTATCCTCT。

优选地，所述rs1695的PCR引物包括SEQ ID NO:37～38所示的核酸序列，延伸引物包括SEQ ID NO:39所示的核酸序列；

SEQ ID NO:37：ACGTTGGATGTGGTGCAGATGCTCACATAG；

SEQ ID NO:38：ACGTTGGATGTGGTGGACATGGTGAATGAC；

SEQ ID NO:39：ACCTCCGCTGCAAATAC。

优选地，所述rs1045642的PCR引物包括SEQ ID NO:40～41所示的核酸序列，延伸引物包括SEQ ID NO:42所示的核酸序列；

SEQ ID NO:40：ACGTTGGATGTATGGAGACAACAGCCGGGT；

SEQ ID NO:41：ACGTTGGATGTAGGCAGTGACTCGATGAAG；

SEQ ID NO:42：CTTTGCTGCCCTCAC。

优选地，所述rs4880的PCR引物包括SEQ ID NO:43～44所示的核酸序列，延伸引物包括SEQ ID NO:45所示的核酸序列；

SEQ ID NO:43：ACGTTGGATGTGCTTTCTCGTCTTCAGCAC；

SEQ ID NO:44：ACGTTGGATGTTCTGCCTGGAGCCCAGATA；

SEQ ID NO:45：TTAGCCCAGATACCCCAAA。

优选地，所述rs1131341的PCR引物包括SEQ ID NO:46～47所示的核酸序列，延伸引物包括SEQ ID NO:48所示的核酸序列；

SEQ ID NO:46：ACGTTGGATGTTGCTTACACTTACGCTGCC；

SEQ ID NO:47：ACGTTGGATGCAGAGCATTCAGAACCATCC；

SEQ ID NO:48：ACCATCCACCTACCC。

优选地，所述rs9937的PCR引物包括SEQ ID NO:49～50所示的核酸序列，延伸引物包括SEQ ID NO:51所示的核酸序列；

SEQ ID NO:49：ACGTTGGATGCCTTATTTAGAGTGAACTGG；

SEQ ID NO:50：ACGTTGGATGTGTAGGGTTTGAAGACTGGG；

SEQ ID NO:51：CCGAATGGGATGTATTATTTAAGGAC。

优选地，所述rs1042858的PCR引物包括SEQ ID NO:52～53所示的核酸序列，延伸引物包括SEQ ID NO:54所示的核酸序列；

SEQ ID NO:52：ACGTTGGATGTGTAGGGTTTGAAGACTGGG；

SEQ ID NO:53：ACGTTGGATGCCTTATTTAGAGTGAACTGG；

SEQ ID NO:54：GTGAACTGGATTGGATTAGC。

优选地，所述rs1800460的PCR引物包括SEQ ID NO:55～56所示的核酸序列，延伸引物包括SEQ ID NO:57所示的核酸序列；

SEQ ID NO:55：ACGTTGGATGACTTACCATTTGCGATCACC；

SEQ ID NO:56：ACGTTGGATGGTTTTTTCTCTTTCTGGTAGG；

SEQ ID NO:57：AATGTGACATGATTTGGGATAGAGGA。

优选地，所述rs1142345的PCR引物包括SEQ ID NO:58～59所示的核酸序列，延伸引物包括SEQ ID NO:60所示的核酸序列；

SEQ ID NO:58：ACGTTGGATGAGAACGACATAAAAGTTGGG；

SEQ ID NO:59：ACGTTGGATGCCTCAAAAACATGTCAGTGTG；

SEQ ID NO:60：TCATTTACTTTTCTGTAAGTAGA。

优选地，所述rs4148323的PCR引物包括SEQ ID NO:61～62所示的核酸序列，延伸引物包括SEQ ID NO:63所示的核酸序列；

SEQ ID NO:61：ACGTTGGATGCTGACGCCTCGTTGTACATC；

SEQ ID NO:62：ACGTTGGATGACATCCTCCCTTTGGAATGG；

SEQ ID NO:63：TCAAGGTGTAAAATGCTC。

优选地，所述rs25487的PCR引物包括SEQ ID NO:64～65所示的核酸序列，延伸引物包括SEQ ID NO:66所示的核酸序列；

SEQ ID NO:64：ACGTTGGATGCAGGATAAGGAGCAGGGTTG；

SEQ ID NO:65：ACGTTGGATGATCGTGCGTAAGGAGTGGGT；

SEQ ID NO:66：GAGGCGGCGGCTGCCCTCCC。

优选地，所述rs1799782的PCR引物包括SEQ ID NO:67～68所示的核酸序列，延伸引物包括SEQ ID NO:69所示的核酸序列；

SEQ ID NO:67：ACGTTGGATGTAGGTCTCAACCCTACTCAC；

SEQ ID NO:68：ACGTTGGATGATGAGAGCGCCAACTCTCTG；

SEQ ID NO:69：TCGGAGGCCGGGGCCTCTCTTCTTCAGC。

本发明中，PCR扩增后的产物在加入SNP序列特异延伸引物后将发生单碱基延伸反应，并且在反应体系中以ddNTPs替代dNTPs，邻近SNP位点设计探针，使探针仅在SNP位点处延伸一个碱基即终止。根据SNP位点的不同，探针将结合不同的ddNTPs，从而具有不同的分子量，质谱仪即可检测出这种分子量差异，从而实现SNP分型的目的。

优选地，所述样本包括来源于血液、唾液、尿液、组织、口腔拭子或毛囊中的核酸。

第二方面，本发明提供了一种检测文库构建过程中样本混淆的装置，所述装置包括文库构建模块、核酸质谱检测模块和信息比对模块；

所述文库构建模块用于从样本中提取核酸，并进行片段化、接头连接、文库扩增和目标序列捕获，并收集相应的中间产物；

所述核酸质谱检测模块用于对中间产物的SNP位点进行检测；

所述信息比对模块用于对不同中间产物SNP位点的核酸质谱结果进行比对，判断发生样本混淆的步骤。

优选地，所述SNP位点包括rs2032582、rs2072671、rs4244285、rs11572080、rs1057910、rs55951658、rs67376798、rs3918290、rs1801159、rs1801265、rs11615、rs13181、rs1695、rs1045642、rs4880、rs1131341、rs9937、rs1042858、rs1800460、rs1142345、rs4148323、rs25487或rs1799782中的任意一种或至少两种的组合。

优选地，所述rs2032582的PCR引物包括SEQ ID NO:1～2所示的核酸序列，延伸引物包括SEQ ID NO:3所示的核酸序列。

优选地，所述rs2072671的PCR引物包括SEQ ID NO:4～5所示的核酸序列，延伸引物包括SEQ ID NO:6所示的核酸序列。

优选地，所述rs4244285的PCR引物包括SEQ ID NO:7～8所示的核酸序列，延伸引物包括SEQ ID NO:9所示的核酸序列。

优选地，所述rs11572080的PCR引物包括SEQ ID NO:10～11所示的核酸序列，延伸引物包括SEQ ID NO:12所示的核酸序列。

优选地，所述rs1057910的PCR引物包括SEQ ID NO:13～14所示的核酸序列，延伸引物包括SEQ ID NO:15所示的核酸序列。

优选地，所述rs55951658的PCR引物包括SEQ ID NO:16～17所示的核酸序列，延伸引物包括SEQ ID NO:18所示的核酸序列。

优选地，所述rs67376798的PCR引物包括SEQ ID NO:19～20所示的核酸序列，延伸引物包括SEQ ID NO:21所示的核酸序列。

优选地，所述rs3918290的PCR引物包括SEQ ID NO:22～23所示的核酸序列，延伸引物包括SEQ ID NO:24所示的核酸序列。

优选地，所述rs1801159的PCR引物包括SEQ ID NO:25～26所示的核酸序列，延伸引物包括SEQ ID NO:27所示的核酸序列。

优选地，所述rs1801265的PCR引物包括SEQ ID NO:28～29所示的核酸序列，延伸引物包括SEQ ID NO:30所示的核酸序列。

优选地，所述rs11615的PCR引物包括SEQ ID NO:31～32所示的核酸序列，延伸引物包括SEQ ID NO:33所示的核酸序列。

优选地，所述rs13181的PCR引物包括SEQ ID NO:34～35所示的核酸序列，延伸引物包括SEQ ID NO:36所示的核酸序列。

优选地，所述rs1695的PCR引物包括SEQ ID NO:37～38所示的核酸序列，延伸引物包括SEQ ID NO:39所示的核酸序列。

优选地，所述rs1045642的PCR引物包括SEQ ID NO:40～41所示的核酸序列，延伸引物包括SEQ ID NO:42所示的核酸序列。

优选地，所述rs4880的PCR引物包括SEQ ID NO:43～44所示的核酸序列，延伸引物包括SEQ ID NO:45所示的核酸序列。

优选地，所述rs1131341的PCR引物包括SEQ ID NO:46～47所示的核酸序列，延伸引物包括SEQ ID NO:48所示的核酸序列。

优选地，所述rs9937的PCR引物包括SEQ ID NO:49～50所示的核酸序列，延伸引物包括SEQ ID NO:51所示的核酸序列。

优选地，所述rs1042858的PCR引物包括SEQ ID NO:52～53所示的核酸序列，延伸引物包括SEQ ID NO:54所示的核酸序列。

优选地，所述rs1800460的PCR引物包括SEQ ID NO:55～56所示的核酸序列，延伸引物包括SEQ ID NO:57所示的核酸序列。

优选地，所述rs1142345的PCR引物包括SEQ ID NO:58～59所示的核酸序列，延伸引物包括SEQ ID NO:60所示的核酸序列。

优选地，所述rs4148323的PCR引物包括SEQ ID NO:61～62所示的核酸序列，延伸引物包括SEQ ID NO:63所示的核酸序列。

优选地，所述rs25487的PCR引物包括SEQ ID NO:64～65所示的核酸序列，延伸引物包括SEQ ID NO:66所示的核酸序列。

优选地，所述rs1799782的PCR引物包括SEQ ID NO:67～68所示的核酸序列，延伸引物包括SEQ ID NO:69所示的核酸序列。

优选地，所述样本包括血液、唾液、尿液、组织、口腔拭子或毛囊中的任意一种或至少两种的组合。

第三方面，本发明提供了第二方面所述的装置在制备高通量测序质控试剂中的应用。

与现有技术相比，本发明具有如下有益效果：

(1)本发明基于样本SNP位点信息，利用核酸质谱技术检测文库构建过程中的中间产物的SNP位点，并对一系列中间产物的SNP检测结果进行对比，理论上，处于不同状态的样本或者同一样本在不同环节的遗传信息是相同的，如果样本在建库过程中发生混淆，可以根据遗传信息的变化提示出错的环节及可能发生混淆的样本；

(2)本发明的方法不依赖于内标，测序成本显著降低，并且可以准确确定发生样本混淆的环节。

附图说明

图1为检测文库构建过程中样本混淆的方法和装置的原理示意图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道商购获得的常规产品。

实施例1

当NGS分析结果显示经过不同处理的样本遗传信息一致性差或者检测结果与临床诊断不符时(例如在肠癌样本中检测到L858突变)，将处于不同状态的样本核酸进行核酸质谱分析，得到23个SNP位点信息；

对于样本A和样本B不匹配的情况，如果样本A的所有SNP位点一致，样本B的所有SNP位点也一致，但其23个SNP位点中存在不一致的遗传位点，则两个样本的核酸在提取或提取之前的环节发生混淆；

如果样本A或样本B的SNP遗传信息在任一中间环节改变，则样本A和样本B在该环节之前的SNP遗传信息相同，在该环节之后的SNP遗传信息改变；

对于基因突变与临床诊断不符的情况，可以对同批次可能混淆的样本进行验证，例如，同批次样本中有一例结直肠癌样本C检测到L858突变，需要优先检测其与肺癌样本混淆的可能。

检测文库构建过程中样本混淆的原理示意图如图1所示，“＝”表示前后两个环节的SNP遗传信息相同，“≠”表示前后两个环节的SNP遗传信息不同。

实施例2

根据送检信息，样本A和样本B为同一个体的组织和血液样本，其NGS结果显示A和B的配对率仅65.2％，本实施例利用核酸质谱方法，将样本A和样本B的核酸原液产物S1、核酸片段化产物S2、WGS文库S3和第二次抽提的核酸S1-2进行核酸质谱分析，得到23个SNP位点的遗传信息，见表1。

表1

可以看出，样本A的遗传信息一致，B样本的遗传信息也一致，但是在P18位点两个样本的遗传信息完全不同，通过核对发现，样本A和样本B来自不同个体，样本A与其他样本的混淆发生在核酸抽提环节或送检环节。

实施例3

样本C临床诊断为结直肠癌，其NGS检测结果显示有L858突变，将样本C以及同批次建库的一例可能混淆的样本D的核酸原液产物S1、核酸片段化产物S2和WGS文库S3进行核酸质谱分析，得到23个SNP位点的遗传信息，见表2。

表2

可以看出，样本C的遗传信息在S1和S2之间发生变化，样本C的S1遗传信息与样本D的S2、S3遗传信息相同，样本D的S1遗传信息与样本C的S2、S3遗传信息相同，提示样本C和样本D在打断环节发生混淆。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

SEQUENCE LISTING

<110> 上海宝藤生物医药科技股份有限公司

上海宝藤医学检验所有限公司

上海张江医学创新研究院

<120> 一种检测文库构建过程中样本混淆的方法和装置

<130> 2021

<160> 69

<170> PatentIn version 3.3

<210> 1

<211> 30

<212> DNA

<213> 人工序列

<400> 1

acgttggatg tgcaatagca ggagttgttg 30

<210> 2

<211> 30

<212> DNA

<213> 人工序列

<400> 2

acgttggatg catatttagt ttgactcacc 30

<210> 3

<211> 25

<212> DNA

<213> 人工序列

<400> 3

tatgtagttt gactcacctt cccag 25

<210> 4

<211> 30

<212> DNA

<213> 人工序列

<400> 4

acgttggatg acaggaaagt gactgtaggg 30

<210> 5

<211> 30

<212> DNA

<213> 人工序列

<400> 5

acgttggatg ctgaagcctg agtgtgtcca 30

<210> 6

<211> 15

<212> DNA

<213> 人工序列

<400> 6

tcccaggagg ccaag 15

<210> 7

<211> 30

<212> DNA

<213> 人工序列

<400> 7

acgttggatg gcaataattt tcccactatc 30

<210> 8

<211> 30

<212> DNA

<213> 人工序列

<400> 8

acgttggatg tccatcgatt cttggtgttc 30

<210> 9

<211> 24

<212> DNA

<213> 人工序列

<400> 9

gttaagtaat ttgttatggg ttcc 24

<210> 10

<211> 30

<212> DNA

<213> 人工序列

<400> 10

acgttggatg tttctccctc acaaccttgc 30

<210> 11

<211> 30

<212> DNA

<213> 人工序列

<400> 11

acgttggatg cagtgagctt cctcttgaac 30

<210> 12

<211> 16

<212> DNA

<213> 人工序列

<400> 12

acggtcctca atgctc 16

<210> 13

<211> 30

<212> DNA

<213> 人工序列

<400> 13

acgttggatg tgtcacaggt cactgcatgg 30

<210> 14

<211> 30

<212> DNA

<213> 人工序列

<400> 14

acgttggatg atgcaagaca ggagccacat 30

<210> 15

<211> 17

<212> DNA

<213> 人工序列

<400> 15

acgaggtcca gagatac 17

<210> 16

<211> 30

<212> DNA

<213> 人工序列

<400> 16

acgttggatg caaattcagt ggactacccc 30

<210> 17

<211> 30

<212> DNA

<213> 人工序列

<400> 17

acgttggatg actctagcct tttggtccag 30

<210> 18

<211> 19

<212> DNA

<213> 人工序列

<400> 18

gggatttatg aaaagtgcc 19

<210> 19

<211> 30

<212> DNA

<213> 人工序列

<400> 19

acgttggatg cttacctggt agccagaatc 30

<210> 20

<211> 30

<212> DNA

<213> 人工序列

<400> 20

acgttggatg gcaacgtaga gcaagttgtg 30

<210> 21

<211> 18

<212> DNA

<213> 人工序列

<400> 21

aagttgtggc tatgattg 18

<210> 22

<211> 30

<212> DNA

<213> 人工序列

<400> 22

acgttggatg tcactgaact aaaggctgac 30

<210> 23

<211> 30

<212> DNA

<213> 人工序列

<400> 23

acgttggatg aacattcacc aacttatgcc 30

<210> 24

<211> 26

<212> DNA

<213> 人工序列

<400> 24

ttgttttaga tgttaaatca cactta 26

<210> 25

<211> 30

<212> DNA

<213> 人工序列

<400> 25

acgttggatg tgcgctagca agaccaaaag 30

<210> 26

<211> 30

<212> DNA

<213> 人工序列

<400> 26

acgttggatg ctcctattga tctggtggac 30

<210> 27

<211> 21

<212> DNA

<213> 人工序列

<400> 27

tccctggccg gattgaagtt t 21

<210> 28

<211> 30

<212> DNA

<213> 人工序列

<400> 28

acgttggatg gtctaatttc ttggccgaag 30

<210> 29

<211> 30

<212> DNA

<213> 人工序列

<400> 29

acgttggatg atcctggctt taaatcctcg 30

<210> 30

<211> 23

<212> DNA

<213> 人工序列

<400> 30

tgacacaaac tcatgcaact ctg 23

<210> 31

<211> 30

<212> DNA

<213> 人工序列

<400> 31

acgttggatg cagagctcac ctgaggaaca 30

<210> 32

<211> 30

<212> DNA

<213> 人工序列

<400> 32

acgttggatg ggcaatcccg tactgaagtt 30

<210> 33

<211> 25

<212> DNA

<213> 人工序列

<400> 33

gggaagtact gaagttcgtg cgcaa 25

<210> 34

<211> 30

<212> DNA

<213> 人工序列

<400> 34

acgttggatg agcagctaga atcagaggag 30

<210> 35

<211> 30

<212> DNA

<213> 人工序列

<400> 35

acgttggatg caccaggaac cgtttatggc 30

<210> 36

<211> 21

<212> DNA

<213> 人工序列

<400> 36

gagcaatctg ctctatcctc t 21

<210> 37

<211> 30

<212> DNA

<213> 人工序列

<400> 37

acgttggatg tggtgcagat gctcacatag 30

<210> 38

<211> 30

<212> DNA

<213> 人工序列

<400> 38

acgttggatg tggtggacat ggtgaatgac 30

<210> 39

<211> 17

<212> DNA

<213> 人工序列

<400> 39

acctccgctg caaatac 17

<210> 40

<211> 30

<212> DNA

<213> 人工序列

<400> 40

acgttggatg tatggagaca acagccgggt 30

<210> 41

<211> 30

<212> DNA

<213> 人工序列

<400> 41

acgttggatg taggcagtga ctcgatgaag 30

<210> 42

<211> 15

<212> DNA

<213> 人工序列

<400> 42

ctttgctgcc ctcac 15

<210> 43

<211> 30

<212> DNA

<213> 人工序列

<400> 43

acgttggatg tgctttctcg tcttcagcac 30

<210> 44

<211> 30

<212> DNA

<213> 人工序列

<400> 44

acgttggatg ttctgcctgg agcccagata 30

<210> 45

<211> 19

<212> DNA

<213> 人工序列

<400> 45

ttagcccaga taccccaaa 19

<210> 46

<211> 30

<212> DNA

<213> 人工序列

<400> 46

acgttggatg ttgcttacac ttacgctgcc 30

<210> 47

<211> 30

<212> DNA

<213> 人工序列

<400> 47

acgttggatg cagagcattc agaaccatcc 30

<210> 48

<211> 15

<212> DNA

<213> 人工序列

<400> 48

accatccacc taccc 15

<210> 49

<211> 30

<212> DNA

<213> 人工序列

<400> 49

acgttggatg ccttatttag agtgaactgg 30

<210> 50

<211> 30

<212> DNA

<213> 人工序列

<400> 50

acgttggatg tgtagggttt gaagactggg 30

<210> 51

<211> 26

<212> DNA

<213> 人工序列

<400> 51

ccgaatggga tgtattattt aaggac 26

<210> 52

<211> 30

<212> DNA

<213> 人工序列

<400> 52

acgttggatg tgtagggttt gaagactggg 30

<210> 53

<211> 30

<212> DNA

<213> 人工序列

<400> 53

acgttggatg ccttatttag agtgaactgg 30

<210> 54

<211> 20

<212> DNA

<213> 人工序列

<400> 54

gtgaactgga ttggattagc 20

<210> 55

<211> 30

<212> DNA

<213> 人工序列

<400> 55

acgttggatg acttaccatt tgcgatcacc 30

<210> 56

<211> 31

<212> DNA

<213> 人工序列

<400> 56

acgttggatg gttttttctc tttctggtag g 31

<210> 57

<211> 26

<212> DNA

<213> 人工序列

<400> 57

aatgtgacat gatttgggat agagga 26

<210> 58

<211> 30

<212> DNA

<213> 人工序列

<400> 58

acgttggatg agaacgacat aaaagttggg 30

<210> 59

<211> 31

<212> DNA

<213> 人工序列

<400> 59

acgttggatg cctcaaaaac atgtcagtgt g 31

<210> 60

<211> 23

<212> DNA

<213> 人工序列

<400> 60

tcatttactt ttctgtaagt aga 23

<210> 61

<211> 30

<212> DNA

<213> 人工序列

<400> 61

acgttggatg ctgacgcctc gttgtacatc 30

<210> 62

<211> 30

<212> DNA

<213> 人工序列

<400> 62

acgttggatg acatcctccc tttggaatgg 30

<210> 63

<211> 18

<212> DNA

<213> 人工序列

<400> 63

tcaaggtgta aaatgctc 18

<210> 64

<211> 30

<212> DNA

<213> 人工序列

<400> 64

acgttggatg caggataagg agcagggttg 30

<210> 65

<211> 30

<212> DNA

<213> 人工序列

<400> 65

acgttggatg atcgtgcgta aggagtgggt 30

<210> 66

<211> 20

<212> DNA

<213> 人工序列

<400> 66

gaggcggcgg ctgccctccc 20

<210> 67

<211> 30

<212> DNA

<213> 人工序列

<400> 67

acgttggatg taggtctcaa ccctactcac 30

<210> 68

<211> 30

<212> DNA

<213> 人工序列

<400> 68

acgttggatg atgagagcgc caactctctg 30

<210> 69

<211> 28

<212> DNA

<213> 人工序列

<400> 69

tcggaggccg gggcctctct tcttcagc 28

Claims

1.一种检测文库构建过程中样本混淆的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述中间产物包括核酸提取原液、核酸片段化产物、接头连接产物、扩增文库或探针捕获文库中的任意一种或至少两种的组合。

3.根据权利要求1所述的方法，其特征在于，所述SNP位点包括rs2032582、rs2072671、rs4244285、rs11572080、rs1057910、rs55951658、rs67376798、rs3918290、rs1801159、rs1801265、rs11615、rs13181、rs1695、rs1045642、rs4880、rs1131341、rs9937、rs1042858、rs1800460、rs1142345、rs4148323、rs25487或rs1799782中的任意一种或至少两种的组合。

4.根据权利要求3所述的方法，其特征在于，所述rs2032582的PCR引物包括SEQ ID NO:1～2所示的核酸序列，延伸引物包括SEQ ID NO:3所示的核酸序列；

5.根据权利要求1所述的方法，其特征在于，所述样本包括来源于血液、唾液、尿液、组织、口腔拭子或毛囊中的核酸。

6.一种检测文库构建过程中样本混淆的装置，其特征在于，所述装置包括文库构建模块、核酸质谱检测模块和信息比对模块；

所述核酸质谱检测模块用于对中间产物的SNP位点进行检测；

7.根据权利要求6所述的装置，其特征在于，所述SNP位点包括rs2032582、rs2072671、rs4244285、rs11572080、rs1057910、rs55951658、rs67376798、rs3918290、rs1801159、rs1801265、rs11615、rs13181、rs1695、rs1045642、rs4880、rs1131341、rs9937、rs1042858、rs1800460、rs1142345、rs4148323、rs25487或rs1799782中的任意一种或至少两种的组合。

8.根据权利要求7所述的装置，其特征在于，所述rs2032582的PCR引物包括SEQ ID NO:1～2所示的核酸序列，延伸引物包括SEQ ID NO:3所示的核酸序列；

9.根据权利要求6所述的装置，其特征在于，所述样本包括血液、唾液、尿液、组织、口腔拭子或毛囊中的任意一种或至少两种的组合。

10.权利要求6-9任一项所述的装置在制备高通量测序质控试剂中的应用。