CN110656157B - 用于高通量测序样本溯源的质控品及其设计和使用方法 - Google Patents

用于高通量测序样本溯源的质控品及其设计和使用方法 Download PDF

Info

Publication number
CN110656157B
CN110656157B CN201910981484.5A CN201910981484A CN110656157B CN 110656157 B CN110656157 B CN 110656157B CN 201910981484 A CN201910981484 A CN 201910981484A CN 110656157 B CN110656157 B CN 110656157B
Authority
CN
China
Prior art keywords
quality control
sequence
sample
gapdh
control product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910981484.5A
Other languages
English (en)
Other versions
CN110656157A (zh
Inventor
何杨
陈亮
刘俊
岳平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Population And Family Planning Research Institute Of Science And Technology
Original Assignee
Chongqing Population And Family Planning Research Institute Of Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Population And Family Planning Research Institute Of Science And Technology filed Critical Chongqing Population And Family Planning Research Institute Of Science And Technology
Priority to CN201910981484.5A priority Critical patent/CN110656157B/zh
Publication of CN110656157A publication Critical patent/CN110656157A/zh
Application granted granted Critical
Publication of CN110656157B publication Critical patent/CN110656157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Abstract

本发明属于分子生物学领域,涉及一种基于全外显子组捕获二代测序过程中,用于质量监控,特别是样本溯源的标准质控品。具体而言,本发明公开了一种用于高通量测序样本溯源的质控品的设计方法,包括设计一段DNA序列,将其分成3~5段人工序列,在第一段人工序列前设置GAPDH基因序列Ⅰ、在第一段人工序列和在第二段人工序列之间设置标签序列,在其余的相邻的人工序列之间设置标签序列和GAPDH基因序列Ⅱ,在最后一段人工序列后设置标签序列和GAPDH基因序列Ⅲ。本发明还同时提供了一种用于高通量测序样本溯源的质控品,以及提供了该质控品的使用方法。

Description

用于高通量测序样本溯源的质控品及其设计和使用方法
技术领域
本发明属于分子生物学领域,具体是涉及一种基于全外显子组捕获二代测序过程中,用于质量监控,特别是样本溯源的标准质控品。
背景技术
人类基因组计划已经完成20年,近十近来,随着高通量测序技术的发展,基因组学已经从科研向临床应用方面发展。同时随着测序成本的进一步下降,高通量测序技术已经广泛应用在遗传病检测、产前筛查、产前诊断、植入前诊断等领域。
人类基因组有30亿碱基对,即3GB,但真正起作用的,编码氨基酸的外显子部分只占1-2%,约有3千万碱基对,即30M区域。因此,通过对人类2万多个基因的全外显子捕获后,再进行高通量测序,既降低了测序成本,同时又能保证外显子部分的测序深度,尽多可能的解释遗传病因。因此,全外显子组捕获测序近几年来应用越来越广泛。
由于全外显子组捕获测序步骤多,各种转管频繁,很容易在中间过程将样本混错,或者污染了不同的样本。特别是随着现在分工的进一步细化,医院端只负责采血,样本室负责收样与DNA提取,样本处理组负责文库构建,上机测序组负责文库的鉴定与上机测序,生物信息组负责数据的区分。步骤多了之后,就更容易造成原始样本与数据不一致,且这种样本混错还非常难发现,一旦发生,溯源也相对麻烦。
目前高通量测序的溯源机制还不够完善,更多是依赖于实验室的质量体系,以及出错之后的溯源,比如通过sanger测序采取多个SNP位点的方式与高通量测序结果进行比较,从而来确定样本有没出错。但这种情况只有当质疑样本混错的情况下才会采用。如果没发现样本出错,就不会触发这种纠错机制。同时通过这种方法,额外增加了相当高的成本,以及人力和物力。
发明内容
本发明要解决的技术问题是提供一种用于全外显子组捕获后高通量测序的质控品,用于监控最终的数据与初始的DNA样本是否一致,样本之间是否有混错,或者不同样本之间是否存在交叉污染。
为了解决上述技术问题,本发明提供一种用于高通量测序样本溯源的质控品的设计方法,包括以下:
一、设计一段DNA序列,将其分成3~5段人工序列,每段人工序列的长度为35~45bp长,每段人工序列的GC含量在45-65%;每段人工序列在NCBI核酸数据库进行blast比对,均检索不到;
即,确保所设计的该段DNA序列满足以下条件:与世界上已知物种基因组均不同;
二、在第一段人工序列前设置GAPDH基因序列Ⅰ、在第一段人工序列和在第二段人工序列之间设置标签序列(barcode),在其余的相邻的人工序列之间设置标签序列(barcode)和GAPDH基因序列Ⅱ,在最后一段人工序列后设置标签序列(barcode)和GAPDH基因序列Ⅲ。
作为本发明的用于高通量测序样本溯源的质控品的设计方法的改进:GAPDH基因序列Ⅰ、II、III的GC含量为45~65%,与正常人DGV数据库对比,该区域不存在整个外显子缺失/重复,也没有SNP,且至少包括一个STS,即唯一序列;
标签序列(barcode)为8bp长。
即,GAPDH基因序列Ⅰ、II、III每一段在核酸数据库中都含有一段独一无二的序列。
本发明还同时提供了一种用于高通量测序样本溯源的质控品:
带方框的序列为人工序列;40-50bp长,GC含量在45-65%,在NCBI上与核酸数据库进行blast比对,均检索不到;
GAPDH-ex3(即,GAPDH基因序列Ⅰ),表示GAPDH基因第3号外显子的一段39~40bp序列:CG含量60%;
GAPDH-ex4(即,GAPDH基因序列Ⅱ),表示GAPDH基因第4号外显子的一段35~60bp的序列:GC含量43%;
GAPDH-ex5(即,GAPDH基因序列Ⅲ),表示GAPDH基因第5号外显子的一段35~60bp的序列:GC含量56%;
barcode序列为8碱基的一段序列。
注:同一类的若干个标准品,除barcode序列不同,其他固有序列均相同。
即,本发明设计一段250bp左右长的,且与世界上已知物种基因组均不同的DNA序列,同时在这段序列中,每隔40-50bp,设计进去1段GAPDH基因序列,以及一个8bp长的标签序列(barcode),如上。
作为本发明的用于高通量测序样本溯源的质控品的改进:
GAPDH-ex3:ATTTGGTCGTATTGGGCGCCTGGTCACCAGGGCTGCTTT;
GAPDH-ex4:GTTTACATGTTCCAATATGATTCCACCCATGGCAAATTCC;
GAPDH-ex5:GCGAGATCCCTCCAAAATCAAGTGGGGCGATGCTGGCGCT;
barcode1:TAGATCGC,
barcode2:CTCTCTAT,
barcode3:TATCCTCT。
因此,当使用barcode1时,标准品1的序列为:
当使用barcode2时,标准品2的序列为:
当使用barcode3时,标准品3的序列为:
本发明的双链DNA序列由杭州擎科生物公司负责合成。
本发明还同时公开了上述质控品的使用方法,包括以下步骤:
1)、对于批量检测的一系列基因组DNA样品,针对每个基因组DNA样品放入一个具有唯一性的标准品溶液;
上述标准品属于同一类的若干个标准品(即,除barcode序列不同,其他固有序列均相同);
所述标准品:基因组DNA样品=100:1的摩尔比;
标准品溶液中,标注品的摩尔浓度约为10~100pmole/ul;
具体而言:
将合成所得的DNA(标准品),用去离子水溶解至浓度为10-100pmole/ul,检测浓度后备用;
计算将要做全外显子组测序的基因组DNA摩尔浓度,如1ug的基因组DNA,摩尔浓度计算方式为1*10-6/(650*3*109)=5.12*10-19mole,标准品以100:1的浓度加入到基因组DNA中,即加入5.12*10-19*100=5.12*10-17mole,因此,每1ug的基因组DNA,加0.00512pmole的标准品。0.00512pmole换算为质量为5.12*10-17*650*259=0.00812ng;其中259为这段序列的碱基长度,650为一bp的分子量。
2)、将步骤1)所得的每个混了标准品的基因组DNA作为样本,进行全外显子捕获测序,从而获得上机前的基因组文库;
具体为:混了标准品的基因组DNA,按全外显子捕获测序的流程进行实验,参考illumina TruSeq Exome Library Prep Reference Guide进行捕获建库,下载链接:https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_do cumentation/samplepreps_truseq/truseqexome/truseq-exome-library-prep-reference-guide-15059911-01.pdf;得到可以用于illumina上机测序的基因组文库。
3)、将步骤2)构建所得的文库,进行Illumina novaseq上机(按标准流程进行),每个样本(混了标准品的每个基因)获得原始数据(10G以上的原始数据,约有5千万条序列),将原始数据与标准品序列进行比对(可通过samtool,blast等工具进行,从而得知原始数据中的哪些序列是属于标准品的),并进行计数,得到标准品序列的reads数;
4)、利用步骤3)所得结果,进行判断:
①、测序后计数得到的该待测样本对应的标准品序列大于平均测序深度的30%时,分成以下两种情况:
别的标准品序列均不能检测到,或者虽然检测到但是低于平均测序深度的30%,说明该待测样本中没有混入其他样本;数据与样本为一一对应;
别的标准品序列能检测到,且≥平均测序深度的30%,说明该待测样本中混入了该标准品对应的样本;说明存在样本污染,且标准品序列之比,代表原始样本污染的比例;
②、测序后计数得到的该待测样本对应的标准品序列不能检测到,或者虽然检测到但是低于平均测序深度的30%,说明样本发生了混淆,即,此不是待测样本。
本发明的创新之处在于设计了特殊的标准品,该标准品既可以被全外显子捕获探针给捕获到,同时还设计了人工的序列,因此,标准品序列与人源基因组序列完全不同,从而可以轻易将数据区分开。同时还设计了barcode标签序列,使得不同的样本有不同的标准品。并且在一个样本中只加入了微量的标准品,不影响测序反应,也不会增加额外测序步骤,不增加额外测序成本。通过简便的方法,就可以做到数据的溯源,保证数据与样本的一致性。本发明稍加变形,就可以应用于其他肿瘤靶向捕获,全基因组测序等领域。为了验证本发明方法的通用性,发明人进行了大量的验证实验,结果证明以下判断规则完全正确。
具体实施方式
实验一、为了验证本发明的有效性,本发明设计了几组实验进行验证
实验方法与步骤:
1.取三份基因组DNA样本(为健康人外周血的DNA样本),分别标记为A,B,C,浓度,总量以及加入标准品如下,按每1000ng基因组DNA,加0.00862ng的标准品:
即,标准品:基因组DNA样本=100:1的摩尔浓度比。
标准品1的序列、标准品2的序列、标准品3的序列,如上文所述。
模拟样本混合:
2.对以上S1,S2,S3,S4,共四个样本按illumina的全外显子捕获测序的方法进行文库构建,然后用illumina novaseq进行上机测序,对每个样本要求获得10G以上数据。
3.利用samtools工具,对原始数据(步骤2所得数据)进行分析,计算获得的barcode数,得到如下结果:
结果显示,序列的比例原混样比例基本相同,因此,可以通过标准品的比例,反推出不同样本的混合比例,从而对每个数据进行溯源,保证样本与数据一一对应,从而保证了实验的可靠性。
最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,如可以用该标准品技术应用于肿瘤靶向捕获、全基因组二代测序的样本溯源,均应认为是本发明的保护范围。
序列表
<110> 重庆市人口和计划生育科学技术研究院
<120> 用于高通量测序样本溯源的质控品及其设计和使用方法
<160> 3
<170> SIPOSequenceListing 1.0
<210> 1
<211> 39
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
atttggtcgt attgggcgcc tggtcaccag ggctgcttt 39
<210> 2
<211> 40
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
gtttacatgt tccaatatga ttccacccat ggcaaattcc 40
<210> 3
<211> 40
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
gcgagatccc tccaaaatca agtggggcga tgctggcgct 40

Claims (3)

1.用于高通量测序样本溯源的质控品,其特征在于:
带方框的序列为人工序列;
GAPDH_ex3,表示GAPDH基因第3号外显子的一段39~40bp序列:CG含量60%;GAPDH_ex4,表示GAPDH基因第4号外显子的一段35~60bp的序列:GC含量43%;GAPDH_ex5,表示GAPDH基因第5号外显子的一段35~60bp的序列:GC含量56%;barcode序列为8碱基的一段序列;
GAPDH_ex3:ATTTGGTCGTATTGGGCGCCTGGTCACCAGGGCTGCTTT;
GAPDH_ex4:GTTTACATGTTCCAATATGATTCCACCCATGGCAAATTCC;
GAPDH_ex5:GCGAGATCCCTCCAAAATCAAGTGGGGCGATGCTGGCGCT;
barcode为barcode1、barcode2或barcode3;
barcode1:TAGATCGC,
barcode2:CTCTCTAT,
barcode3:TATCCTCT。
2.根据权利要求1所述的用于高通量测序样本溯源的质控品,其特征在于:
当使用barcode1时,质控品1的序列为:
当使用barcode2时,质控品2的序列为:
当使用barcode3时,质控品3的序列为:
3.如权利要求1或2所述的质控品的使用方法,其特征在于包括以下步骤:
1)、对于批量检测的一系列基因组DNA样品,针对每个基因组DNA样品放入一个具有唯一性的如权利要求1或2所述的质控品溶液;
上述质控品属于同一类的若干个质控品;
所述质控品:基因组DNA样品=100:1的摩尔比;
质控品溶液中,质控品的摩尔浓度为10~100pmole/ul;
2)、将步骤1)所得的每个混了质控品的基因组DNA作为样本,进行全外显子捕获测序,从而获得上机前的基因组文库;
3)、将步骤2)构建所得的文库,进行Illumina novaseq上机,每个样本获得原始数据,将原始数据与质控品序列进行比对,并进行计数,得到质控品序列的reads数;
4)、利用步骤3)所得结果,进行判断:
①、测序后计数得到的待测样本对应的质控品序列大于平均测序深度的30%时,分成以下两种情况:
别的质控品序列均不能检测到,或者虽然检测到但是低于平均测序深度的30%,说明该待测样本中没有混入其他样本;数据与样本为一一对应;
别的质控品序列能检测到,且≥平均测序深度的30%,说明该待测样本中混入了该质控品对应的样本;说明存在样本污染,且质控品序列之比,代表原始样本污染的比例;
②、测序后计数得到的该待测样本对应的质控品序列不能检测到,或者虽然检测到但是低于平均测序深度的30%,说明样本发生了混淆,即,此不是待测样本。
CN201910981484.5A 2019-10-16 2019-10-16 用于高通量测序样本溯源的质控品及其设计和使用方法 Active CN110656157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910981484.5A CN110656157B (zh) 2019-10-16 2019-10-16 用于高通量测序样本溯源的质控品及其设计和使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910981484.5A CN110656157B (zh) 2019-10-16 2019-10-16 用于高通量测序样本溯源的质控品及其设计和使用方法

Publications (2)

Publication Number Publication Date
CN110656157A CN110656157A (zh) 2020-01-07
CN110656157B true CN110656157B (zh) 2023-09-08

Family

ID=69041010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910981484.5A Active CN110656157B (zh) 2019-10-16 2019-10-16 用于高通量测序样本溯源的质控品及其设计和使用方法

Country Status (1)

Country Link
CN (1) CN110656157B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111500691A (zh) * 2020-04-24 2020-08-07 中国食品药品检定研究院 微生物高通量dna测序数据的质量控制标准品和质量控制方法
CN111944806A (zh) * 2020-07-30 2020-11-17 上海韦翰斯生物医药科技有限公司 一种高通量测序污染检测用分子标签组及其应用
CN112853001A (zh) * 2021-02-06 2021-05-28 浙江树人学院(浙江树人大学) 用于宏基因组测序检测rna病毒的质控品及其应用
CN113897354A (zh) * 2021-08-27 2022-01-07 海宁麦凯医学检验有限公司 一组用于测序矫正的内标及其应用
CN115798590A (zh) * 2022-12-26 2023-03-14 上海亿康医学检验所有限公司 一种样本溯源方法、样本保存器皿、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107481A1 (zh) * 2016-12-16 2018-06-21 深圳华大基因股份有限公司 一种用于核酸样品标识的基因标签、试剂盒及其应用
JP2019131539A (ja) * 2018-01-31 2019-08-08 公益財団法人かずさDna研究所 次世代シーケンシングにおける検体間相互汚染の検出方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150252359A1 (en) * 2012-11-21 2015-09-10 Berry Genomics Co., Ltd Method for tracking test sample by second-generation DNA sequencing technology and detection kit

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107481A1 (zh) * 2016-12-16 2018-06-21 深圳华大基因股份有限公司 一种用于核酸样品标识的基因标签、试剂盒及其应用
JP2019131539A (ja) * 2018-01-31 2019-08-08 公益財団法人かずさDna研究所 次世代シーケンシングにおける検体間相互汚染の検出方法

Also Published As

Publication number Publication date
CN110656157A (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
CN110656157B (zh) 用于高通量测序样本溯源的质控品及其设计和使用方法
US20200335178A1 (en) Detecting repeat expansions with short read sequencing data
JP7051900B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
CN105543380B (zh) 一种检测基因融合的方法及装置
CN105861700B (zh) 一种针对神经肌肉病的高通量检测方法
US20200286586A1 (en) Sequence-graph based tool for determining variation in short tandem repeat regions
CN115198023B (zh) 一种海南黄牛液相育种芯片及其应用
US20220254442A1 (en) Methods and systems for visualizing short reads in repetitive regions of the genome
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
JP2016518822A (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
CN109182538A (zh) 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法
CN105803054A (zh) 试剂盒及其在检测唇腭裂相关基因中的用途
CN108728515A (zh) 一种使用duplex方法检测ctDNA低频突变的文库构建和测序数据的分析方法
CN113564266B (zh) Snp分型遗传标记组合、检测试剂盒及用途
JPWO2019231856A5 (zh)
US20200208195A1 (en) Method for measuring mutation rate
CN109280697B (zh) 利用孕妇血浆游离dna进行胎儿基因型鉴定的方法
CN104561015A (zh) Myl4基因突变体及其应用
RU2799654C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов
Ogundolie et al. Microbiome characterization and identification: key emphasis on molecular approaches
CN114277183A (zh) 一种5种人肠病毒的mnp标记组合、引物对组合、试剂盒及其应用
CN117587159A (zh) 一种辣椒snp分子标记组合、snp芯片及其应用
CN116555488A (zh) 一种猪繁殖与呼吸综合征病毒的mnp标记位点、引物组合物、试剂盒及应用
TW201741462A (zh) 篩選病毒相關變異群變化之分子標記的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant