CN111363783B - 一种基于特有识别序列的t细胞受体库高通量测序文库构建及测序数据分析方法 - Google Patents
一种基于特有识别序列的t细胞受体库高通量测序文库构建及测序数据分析方法 Download PDFInfo
- Publication number
- CN111363783B CN111363783B CN201811598261.2A CN201811598261A CN111363783B CN 111363783 B CN111363783 B CN 111363783B CN 201811598261 A CN201811598261 A CN 201811598261A CN 111363783 B CN111363783 B CN 111363783B
- Authority
- CN
- China
- Prior art keywords
- sequence
- tcr
- sequences
- sequencing
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 65
- 108091008874 T cell receptors Proteins 0.000 title claims abstract description 36
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 27
- 238000010276 construction Methods 0.000 title claims abstract description 22
- 238000007405 data analysis Methods 0.000 title claims description 10
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 32
- 239000002299 complementary DNA Substances 0.000 claims abstract description 26
- 230000008707 rearrangement Effects 0.000 claims abstract description 22
- 238000010839 reverse transcription Methods 0.000 claims abstract description 12
- 108020004414 DNA Proteins 0.000 claims description 31
- 230000003321 amplification Effects 0.000 claims description 22
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 22
- 239000000203 mixture Substances 0.000 claims description 21
- 101150008942 J gene Proteins 0.000 claims description 14
- 230000000295 complement effect Effects 0.000 claims description 14
- 239000002773 nucleotide Substances 0.000 claims description 14
- 125000003729 nucleotide group Chemical group 0.000 claims description 14
- 238000012408 PCR amplification Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 9
- 238000001821 nucleic acid purification Methods 0.000 claims description 9
- 230000006798 recombination Effects 0.000 claims description 9
- 238000005215 recombination Methods 0.000 claims description 9
- 101150117115 V gene Proteins 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 6
- 108091034117 Oligonucleotide Proteins 0.000 claims description 6
- 238000000137 annealing Methods 0.000 claims description 4
- 238000012300 Sequence Analysis Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 230000002998 immunogenetic effect Effects 0.000 claims description 3
- 238000000746 purification Methods 0.000 claims description 3
- 238000003908 quality control method Methods 0.000 claims description 3
- 102000003960 Ligases Human genes 0.000 claims description 2
- 108090000364 Ligases Proteins 0.000 claims description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 claims description 2
- 125000003277 amino group Chemical group 0.000 claims description 2
- 239000003153 chemical reaction reagent Substances 0.000 claims description 2
- 230000036425 denaturation Effects 0.000 claims description 2
- 238000004925 denaturation Methods 0.000 claims description 2
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 claims description 2
- 238000011144 upstream manufacturing Methods 0.000 claims description 2
- 230000009258 tissue cross reactivity Effects 0.000 claims 21
- 108091032973 (ribonucleotides)n+m Proteins 0.000 abstract description 8
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 abstract 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 abstract 1
- 108020004999 messenger RNA Proteins 0.000 abstract 1
- 239000011324 bead Substances 0.000 description 24
- 101100112922 Candida albicans CDR3 gene Proteins 0.000 description 23
- 239000000047 product Substances 0.000 description 13
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 12
- 108090000765 processed proteins & peptides Proteins 0.000 description 12
- 229920001184 polypeptide Polymers 0.000 description 11
- 102000004196 processed proteins & peptides Human genes 0.000 description 11
- 210000001744 T-lymphocyte Anatomy 0.000 description 10
- 238000001514 detection method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000002156 mixing Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 239000006228 supernatant Substances 0.000 description 6
- 150000001413 amino acids Chemical class 0.000 description 5
- 239000000427 antigen Substances 0.000 description 5
- 108091007433 antigens Proteins 0.000 description 5
- 102000036639 antigens Human genes 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 210000005259 peripheral blood Anatomy 0.000 description 5
- 239000011886 peripheral blood Substances 0.000 description 5
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 238000007403 mPCR Methods 0.000 description 4
- 101150097493 D gene Proteins 0.000 description 3
- 101710163270 Nuclease Proteins 0.000 description 3
- 238000010009 beating Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 108020004705 Codon Proteins 0.000 description 2
- 108091035707 Consensus sequence Proteins 0.000 description 2
- 230000005778 DNA damage Effects 0.000 description 2
- 231100000277 DNA damage Toxicity 0.000 description 2
- 238000000246 agarose gel electrophoresis Methods 0.000 description 2
- 230000011712 cell development Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 210000002865 immune cell Anatomy 0.000 description 2
- 230000002028 premature Effects 0.000 description 2
- 108020003175 receptors Proteins 0.000 description 2
- 102000005962 receptors Human genes 0.000 description 2
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 108060003951 Immunoglobulin Proteins 0.000 description 1
- 102100034343 Integrase Human genes 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 230000024932 T cell mediated immunity Effects 0.000 description 1
- 210000000662 T-lymphocyte subset Anatomy 0.000 description 1
- 101150002618 TCRP gene Proteins 0.000 description 1
- 230000001363 autoimmune Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012224 gene deletion Methods 0.000 description 1
- 238000013427 histology analysis Methods 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 108091008915 immune receptors Proteins 0.000 description 1
- 102000027596 immune receptors Human genes 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 102000018358 immunoglobulin Human genes 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000003161 ribonuclease inhibitor Substances 0.000 description 1
- YEENEYXBHNNNGV-XEHWZWQGSA-M sodium;3-acetamido-5-[acetyl(methyl)amino]-2,4,6-triiodobenzoate;(2r,3r,4s,5s,6r)-2-[(2r,3s,4s,5r)-3,4-dihydroxy-2,5-bis(hydroxymethyl)oxolan-2-yl]oxy-6-(hydroxymethyl)oxane-3,4,5-triol Chemical compound [Na+].CC(=O)N(C)C1=C(I)C(NC(C)=O)=C(I)C(C([O-])=O)=C1I.O[C@H]1[C@H](O)[C@@H](CO)O[C@]1(CO)O[C@@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](CO)O1 YEENEYXBHNNNGV-XEHWZWQGSA-M 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1096—Processes for the isolation, preparation or purification of DNA or RNA cDNA Synthesis; Subtracted cDNA library construction, e.g. RT, RT-PCR
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Biomedical Technology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Immunology (AREA)
- Plant Pathology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于特有识别序列的T细胞受体库高通量测序文库构建及测序数据分析方法。该方法针对TCR恒定区C区mRNA序列设计了特异性逆转录引物,逆转录获得cDNA,再于cDNA的3’端连接带有特有识别序列的文库构建接头;然后使用夹板连接法添加上带有特有识别序列的接头,利用带有标签的基因特异性引物在DNA聚合酶的作用下扩增出TCR基因重排序列;最后通过PCR扩增使DNA文库加上测序接头,从而制备高通量测序cDNA文库并用于测序。通过生物信息学对TCR基因多样性进行全面分析,可精确高效获得包含J区、D区和V区基因TCR基因的重排规律。本方法建库效率高,建库步骤少,所需RNA起始量低,建库成本低。
Description
技术领域
本发明属于基因测序技术领域,具体涉及一种基于特有识别序列的T淋巴细胞受体库高通量测序文库构建及测序数据分析方法,应用于T细胞受体(T cell receptor,TCR)多样性检测。
背景技术
T细胞受体(T cell receptor,TCR)是介导特异性免疫应答的T细胞表面表达的可特异性识别抗原的分子。由αβ或γδ两条肽链构成的异二聚体,组成了95~99%的T细胞TCRαβ和1~5%的T细胞TCRγδ两种类型。外周血T细胞主要为TCRαβ的T细胞,是介导机体特异性细胞免疫反应的主要细胞。TCR序列具备类似于二维码结构的“溯源”能力,与TCR和细胞亚群的变异以及机体的健康状态有着密切关系。利用TCR序列信息有助于识别和靶向定位与致病性相关的T细胞亚群,为复合抗体、疫苗研发、肿瘤免疫治疗以及自身免疫系统疾病等研究提供数据信息。
α链和β链均属于免疫球蛋白超家族成员,其中,α链由70~80可变区(Variableregion,V)、61个连接区(joining,J)和1个恒定区(constant region,C)编码;β链由52个V、2个多样区(diversity,D),13个J和2个C编码。其抗原特异性存在于V区;其有三个互补决定区(complementarities determining region,CDR)-CDR1、CDR2、CDR3,在T细胞发育过程中CDR1,2和骨架区(framework region,FR)相对保守,变异最大的CDR3区由V、D和J重排形成具有特异性抗原识别功能的包含2*106~2.5*108个TCR编码基因的T细胞受体库(TCRrepertoire),决定着人的免疫系统如何适应环境的变化。此外,由于在重排的过程中,在V-D及D-J的连接区经常有非模板的核苷酸的随机插入或删除,进一步增加了CDR3区的多样性。这种基因片段多样性的连接和重组重排使各种不同的抗原可以被其重排后的TCR识别。
随着高通量测序技术的高速发展,免疫学检测亦发展到新的高度,形成了以基因组和转录组等多种组学分析为核心的全方位分析技术,以便更加细致深入的了解T细胞特异性识别抗原的分子机制。目前对TCR基因多样性的检测主要是二代测序技术,llumina测序平台的测序错误率约为1/1000,虽然远低于其他测序平台,但仍然无法区分PCR/测序错误引入的假阳性突变和真实突变,低于5%的突变无法进行检测。因此在不进行纠错的情况下,二代测序可以对含量在5%以上的突变进行检测。达到这个分辨率通常需要数千倍的覆盖度。因此成本上无法对全基因组进行检测,只能对特定的区域/位点进行靶向测序检测。
目前用于TCR基因检测的靶向测序技术,主要有两大技术类型,多重PCR(multiplex PCR,MPCR)和cDNA 5′端的快速扩增法(5′Rapid amplification of cDNAends,5′RACE)。多重PCR存在着较高的扩增偏向性和测序错误;其次对于DNA损伤和PCR引入的错误无法识别,因而准确性较差,且检测结果有存在假阳性的可能。AMP技术是基于5′RACE原理的一种技术,可以有效降低错误率和扩增偏差,但是存在着末端修复加A和第二链合成等操作繁琐的步骤。
因此,从临床适用性上来讲,精确确定个体的免疫受体组库对预后、诊断和表征均具有极大的意义,建立一种可对扩增偏差和测序错误进行矫正的方法对准确评估TCR的多样性十分必要。
发明内容
本发明针对现有技术中TCR基因检测的多重PCR靶向测序技术中存在着较高的扩增偏向性和测序错误;其次对于DNA损伤和PCR引入的错误无法识别,因而准确性较差,且检测结果有存在假阳性的可能的技术问题,提供一种基于特有识别序列的T淋巴细胞受体库高通量测序文库构建及测序数据分析方法。该方法使用带有特有识别序列的建库接头构建测序文库,并基于该特有识别序列矫正建库过程中的扩增偏差、扩增错配和测序过程中的错误,以准确检测某一生理或病理状态下的TCR/BCR多样性,包括TCR的序列信息及序列丰度。
为了实现上述目的,本发明采用如下技术方案:
第一方面,提供一种带有特有识别序列的T细胞受体高通量测序文库构建接头元件,所述接头元件为带有粘性末端的发夹结构的DNA寡核苷酸,DNA序列从5’到3’依次包含茎环发夹序列A(Hairpin A,HA)、识别序列RS(Recognition sequence,RS)、固定序列FS(Fixed sequence,FS)、发夹序列B(Hairpin B,HB),和随机序列(Random sequence),发夹序列A和B互补形成发夹的茎结构,接头元件的5’末端带有磷酸基团修饰,3’末端带有氨基基团修饰;所述接头元件的识别序列RS包含4~15个随机排列组合的核苷酸;接头元件的固定序列FS为Illumina/Life文库PCR引物的识别序列;所述接头元件为一条两端序列互补的DNA寡核苷酸,通过高温变性后退火形成发夹结构;所述接头元件为含有不同随机排列组合核苷酸序列的识别序列RS的发夹结构DNA寡核苷酸的混合物;
优选地,上述带有特有识别序列的T细胞受体高通量测序文库构建接头元件从5’→3’方向的序列为:GTGTATCCAGTGNNNNNNNNGATCGTCGGACTGTAGAACTCTGAACCACTGGATACACNNNNNN,如SEQ ID NO:1所示,其中GTGTATCCAGTG为发夹序列A,NNNNNNNN为识别序列RS,GATCGTCGGACTGTAGAACTCTGAAC为固定序列FS,CACTGGATACAC为发夹序列B,NNNNNN为随机序列;发夹序列A和B互补,通过高温退火形成发夹的茎结构,同时使随机序列突出形成粘性末端;固定序列FS为Illumina/Life文库PCR引物的识别序列;N表示A、T、C、G中任意一种碱基,不同位置的N为相同或不同的碱基;5’带有PO4修饰,3’带有NH2修饰。
第二方面,提供一种对T细胞受体进行高通量测序的方法,包括如下步骤:
(1)T细胞受体测序文库的构建方法:
S1:提取样本的总RNA;
优选的,使用Trizol试剂或商品化试剂盒提取总RNA。
S2:使用与TCR恒定区序列互补的TCR特异性引物进行逆转录,获得TCR链完整cDNA分子;
优选地,所述特异性引物的核苷酸序列为CAGAGGTGCTCTTGGAGGAG,如SEQ ID NO.2所示。
S3:使用splint ligation(夹板连接法)将上述接头元件连接到步骤S2所述cDNA的3′端;
优选的,使用T4连接酶进行连接。
S4:cDNA纯化;
优选地,使用Beckman核酸纯化试剂盒(Beckman,Agencourt AMPure XP,A63880)对步骤S3获得的cDNA进行纯化;
S5:cDNA的靶向扩增,获得两端带有Illumina/Life文库PCR引物的识别序列的DNA;
优选的,所述靶向扩增上游引物的核苷酸序列为(5’→3’)AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAG TCCGA,如SEQ ID NO:3所示,其中GTTCAGAGTTCTACAGTCCGA与接头中的固定序列FS互补结合;所述靶向扩增下游引物的核苷酸序列为(5’→3’)GTGACTGGAGTTCCTTGGCACCCGAGAATTCCACTCCTCCAAGAGCACCTCTG,如SEQ ID NO:4所示,其中,CTCCTCCAAGAGCACCTCTG与步骤S2所述的特异性引物互补,GTGACTGGAGTTCCTTGGCACCCGAGAATTCCA为Illumina/Life文库PCR引物的识别序列。
S6:DNA纯化;
优选地,使用Beckman核酸纯化试剂盒(Beckman,Agencourt AMPure XP,A63880)对步骤S5获得的DNA进行纯化;
S7:DNA的PCR扩增:
优选地,所述PCR扩增引物为SEQ ID NO:3和SEQ ID NO:5,其中SEQ ID NO.5的序列:(5’→3’)CAAGCAGAAGACGGCATACGAGATCTAGTACGGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA,其中GTGACTGGAGTTCCTTGGCACCCGAGAATTCCA为Illumina/Life文库PCR引物的识别序列。
S8:PCR产物纯化:
优选地,使用Beckman核酸纯化试剂盒(Beckman,Agencourt AMPure XP,A63880)对步骤S7获得的DNA进行纯化;
S9:使用Illumina高通量测序平台MiSeq PE250进行测序。
(2)构建的T细胞受体测序文库测序数据分析方法:
S1:对下机数据(raw data)进行质量控制,去除含有低质量碱基的序列、去除测序读N碱基的序列和截掉相应的测序接头;
S2:利用接头中的固定序列,寻找到特有识别序列的位置,并对特有识别序列进行序列解析;
S3:reads聚类:把带有相同特有识别序列的reads作为一个聚类(cluster);在每一个cluster中,通过计算reads之间的序列相似性,进行再次聚类,得到亚聚类(sub-cluster):相似度高于95%的reads聚为一个亚类,似度低于95%的reads归入不同的亚类中;
S4:reads的一致性归并:将每个sub-cluster下面的reads进行多序列比对和一致性归并,最终得到一条一致性read。在一致性归并的过程中,来源相同的分子的重复reads最终被归并为一条序列,达到去重的目的;同时,同一sub-cluster中的reads在PCR扩增或上机测序过程中引入的错误碱基也会基于多条reads的一致性序列被纠正,从而实现去除重复和纠正错误的双重目的;
S5:测序过程中特有识别序列同样会引入错误,因此对相同一致性reads的特有识别序列进行相似性比较,将相似性高于90%的特有识别序列进行合并,达到特有识别序列纠错的目的;
S6:使用MiXCR软件(Bolotin DA 2015),将通过一致性归并获得的所有reads序列与国际免疫遗传学数据库(IMGT,http://www.imgt.org/)中的V、D、J基因片段进行比对,确定每条一致性序列的TCR组成,包括V、D、J基因使用情况,TCR重组中随机插入和删除的碱基;
S7:V、D、J基因功能注释:根据IMGT中V/J基因功能注释、CDR3区域长度和CDR3编码产物,判断TCR重排序列是否具备功能,并统计TCR功能分类;
S8:根据TCR的比对结果,统计V和J基因及V-J基因对使用频率,寻找不同样本间表达模式差异,并计算样本TCR组成多样性;
优选地,采用Shannon’s entropy,Simpson’s index和D50(Wu J 2015)计算样本TCR组成多样性:
Shannon’s entropy计算公式:
Simpson’s index计算公式:
其中:s表示实际观测到TCR重组序列数目;pi表示第i个TCR重排序列在所有TCR中所占的比例;
将样本中所有TCR重排序列按照在样本中所占比例从高到低进行排列,然后按照这个顺序将TCR序列所占比例依次相加,当相加比例达到样本的一半时,此时所相加的TCR重排序列数目即为D50,D50数值越大,说明样本TCR多样性越高。
第三方面,提供一种构建T细胞受体高通量测序文库的试剂盒,该试剂盒包括:
(1)上述带有特有识别序列的T细胞受体高通量测序文库构建接头元件,其核苷酸序列如SEQ ID NO:1所示;
(2)与TCR恒定区序列互补的TCR特异性引物,如SEQ ID NO.2所示,用于进行逆转录;
(3)cDNA的靶向扩增上、下游引物,其核苷酸序列如SEQ ID NO.3和4所示;
(4)DNA的PCR扩增引物,其核苷酸序列如SEQ ID NO.3和5所示。
第四方面,提供上述带有特有识别序列的T细胞受体高通量测序文库构建接头元件或上述试剂盒在对T细胞受体进行高通量测序的方法中的应用。
采用本发明的技术方案,获得如下有益效果:
(1)逆转录获得了TCR全长RNA序列,与DNA分析相比,可以更为全面和准确地获得某一状态下TCR的多样性信息。且完整覆盖TCR的全长,包括CDR1、2、3序列,对研究MHC的亲和力起到重要作用。
(2)非MPCR测序方法,可以检测到更多的V-J pairing的多样性,同时具有更低的偏好性和较高的准确性。
(3)实现了对特异性TCR克隆丰度的准确定量;在建库过程中PCR的扩增偏好性不可避免,本发明使用的接头中带有的特有识别序列,数据分析时通过该识别序列去除PCR扩增重复、排除PCR偏好性影响,准确还原PCR前的cDNA片段组成并分析TCR克隆的丰度。
(4)准确分析TCR的多样性,TCR序列的高度多样性使得其对测序数据错误极为敏感,PCR和测序错误都可能被误认为序列的突变或重排,因此必须加入校准机制。数据分析时,使用特有识别序列进行聚类和比对时,同时可纠正PCR和测序错误,确定真实的序列。
附图说明
图1是本发明TCR文库构建过程示意图;
图2是本发明构建的TCR文库琼脂糖凝胶电泳检测结果图;
图3是TCR测序数据分析的流程示意图;
图4是基于特异识别序列矫正扩增偏差和测序错误的方法示意图;
图5是TCR测序分析结果、CDR3区域编码多肽序列的长度分布统计;
坐标表示CDR3多肽序列长度,纵坐标表示对应多肽长度的CDR3数量在样本中所有CDR3的比例。
图6是TCR测序分析结果、CDR3多肽序列组成分析;
图7是TCR测序分析结果、CDR3区域内插入和缺失序列长度分布统计;
图8是TCR测序分析结果、TCR的V基因使用频率分布;
图9是TCR测序分析结果、TCR的J基因使用频率分布;
图10是TCR测序分析结果、TCR的V-J基因对使用频率分布;
图11是TCR测序分析结果、Top100TCR重排序列分布;
具体实施方式
通过以下详细说明结合附图可以进一步理解本发明的特点和优点。所提供的实施例仅是对本发明方法的说明,而不以任何方式限制本发明揭示的其余内容。
【实施例1】
一、构建TCR测序文库所需的带有特有识别序列的接头元件
接头元件的序列SEQ ID NO.1:(5’→3’)GTGTATCCAGTGNNNNNNNNGATCGTCGGACTGTAGAACTCTGAAC CACTGGATACAC NNNNNN。
其中GTGTATCCAGTG为发夹序列A(Hairpin A,HA),NNNNNNNN为特异识别序列(Recognition sequence,RS),GATCGTCGGACTGTAGAACTCTGAAC为固定序列(Fixedsequence,FS)、CACTGGATACAC为发夹序列B(Hairpin B,HB),NNNNNN为随机序列(Randomsequence)。发夹序列A和B互补,通过高温退火形成发夹的茎结构,同时使随机序列突出形成粘性末端。固定序列FS为Illumina/Life文库PCR引物的识别序列。N表示A、T、C、G中任意一种碱基;5’带有PO4修饰,3’带有NH2修饰。
本具体实施方式中的接头元件包含的特异识别序列RS为8个随机排列组合的碱基,当然也可以多于或少于8个,但都在本发明的包含范围内。
二、TCR测序文库的构建
构建流程如图1所示。
(一)、本实施例中所使用的核酸序列:
1.接头元件的序列SEQ ID NO.1:(5’→3’)GTGTATCCAGTGNNNNNNNNGATCGTCGGACTGTAGAACTCTGAAC CACTGGATACAC NNNNNN。
2.逆转录引物序列SEQ ID NO.2:(5’→3’)CAGAGGTGCTCTTGGAGGAG,与TCR恒定区序列互补。
3、靶向扩增引物SEQ ID NO.3:(5’→3’)AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAGTCCGA(F),其中GTTCAGAGTTCTACAGTCCGA与接头中的固定序列FS互补结合;靶向扩增引物SEQ ID NO.4:(5’→3’)GTGACTGGAGTTCCTTGGCACCCGAGAATTCCACTCCTCCAAGAGCACCTCTG(R),其中,CTCCTCCAAGAGCACCTCTG与逆转录获得的cDNA互补,GTGACTGGAGTTCCTTGGCACCCGAGAATTC CA为Illumina/Life文库PCR引物的识别序列。
4、PCR扩增引物SEQ ID NO.5:(5’→3’)CAAGCAGAAGACGGCATACGAGATCTAGTACGGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA(R)。其中GTGACTGGAGTTCCTTGGCACCCGAGAATTCCA为Illumina/Life文库PCR引物的识别序列。
(二)、文库构建步骤:
以下实验中E1样本为Jurkat细胞系;E2,E3,E4,E6为外周血样本分离的免疫细胞。
S1:使用LymphoPrep试剂盒(Axis-shield,Cat.No.AS111 4544UK)从外周血中分离外周血单核细胞(PBMC),使用PureLink Genomic RNA Mini Kit(Life Technology,Cat.No:12183018A)试剂盒提取PBMC的总RNA,并用Nanodrop2000(Thermo)测定RNA的浓度及纯度。
S2:使用TCR特异性逆转录引物进行逆转录,产生包含TCR(例如,α、β)的CDR3信息的cDNA。
配制如下反应体系,放到预热好的PCR仪上,开始反应;
组分 | 体积(μL) |
提取的总RNA | 8 |
5x SmartScribe buffer(Takara,639536) | 4 |
RT primer(SEQ ID NO.2)(10uM) | 1 |
H2O | 4.5 |
total | 17.5 |
65℃反应5min,然后4℃反应5min;
配制如下反应体系,加入上述体系,混匀;
组分 | 体积(μL) |
10mM dNTPs(Clontech,639536) | 1.5 |
RNase inhibitor(Thermo,N8080119) | 0.5 |
SMARTScribeTMReverse Transcriptase(100U/μL,Takara,639536) | 1 |
Total | 2.5 |
-42℃反应60min
-94℃反应10min
-4℃hold
S3:使用夹板连接法(Splint Ligation)将实施例1中的接头元件连接到cDNA的3’末端。
配制如下组分:
放到预热好的PCR仪上,20℃连接1h;
S4:cDNA纯化:
提前取出核酸纯化试剂盒(Beckman,Agencourt AMPure XP,A63880),充分涡旋使试剂盒中的NGS磁珠混匀,室温平衡30min以上;向连接产物中加入1.8倍体积的1×NGS磁珠,充分混匀,室温结合10min;将产物置于磁力架上约5min(待溶液澄清),小心用移液器吸出上清,保持样品始终处于磁力架中,向NGS磁珠中加入200ul新鲜配制的80%乙醇,室温放置30s后小心吸去乙醇(注意不要吹散磁珠);
重复上述步骤一次;保持样品始终处于磁力架中,打开管盖约7min,室温晾干磁珠(以磁珠刚刚出现龟裂为最佳);
回溶DNA:向磁珠中加入41.3μL的ddH2O,吸打混匀后室温放置2min后轻轻涡旋20s,再室温放置2min;
瞬离磁珠置磁力架,待溶液澄清后小心吸取40.3μL上清(纯化后DNA)至一个新的nuclease free PCR管中。
S5:cDNA的靶向扩增:
配制如下体系:
再以该cDNA为模板,使用靶向扩增引物SEQ ID NO.3/4进行扩增,获得两端带有通用序列的cDNA,以通用测序引物扩增构建文库后测序。
组分 | 体积(μL) |
PCR Primer(SEQ ID NO.3)(10μM) | 1 |
PCR Primer(SEQ ID NO.4)(10μM) | 1 |
2×KAPA HiFi PCR Mix(KAPA,KK2611) | 25 |
cDNA | 23 |
Total | 50 |
在PCR仪中进行如下反应:
S6:PCR产物纯化:
提前取出核酸纯化试剂盒(Beckman,Agencourt AMPure XP,A63880),充分涡旋使试剂盒中的NGS磁珠混匀,室温平衡30min以上;向连接产物中加入1.8倍体积的AMP磁珠,充分混匀,室温结合10min;将产物置于磁力架上约5min(待溶液澄清),小心用移液器吸出上清,保持样品始终处于磁力架中,向NGS磁珠中加入200μL新鲜配制的80%乙醇,室温放置30s后小心吸去乙醇(注意不要吹散磁珠);
重复上述步骤一次;保持样品始终处于磁力架中,打开管盖约7min,室温晾干磁珠(以磁珠刚刚出现龟裂为最佳);
回溶DNA:向磁珠中加入23μL的ddH2O,吸打混匀后室温放置2min后轻轻涡旋20s,再室温放置2min;
瞬离磁珠置磁力架,待溶液澄清后小心吸取21μL上清(纯化后DNA)至一个新的nuclease free PCR管中。
S7:DNA的PCR扩增
配制如下体系:
组分 | 体积(μL) |
PCR Primer(SEQ ID NO.3)(10μM) | 2 |
PCR Primer(SEQ ID NO.5)(10μM) | 2 |
2×KAPA HiFi PCR Mix(KAPA,KK2611) | 25 |
cDNA | 21 |
Total | 50 |
在PCR仪中进行如下反应:
S8:PCR产物纯化:
提前取出核酸纯化试剂盒(Beckman,Agencourt AMPure XP,A63880),充分涡旋使试剂盒中的NGS磁珠混匀,室温平衡30min以上;向连接产物中加入1.8倍体积的AMP磁珠,充分混匀,室温结合10min;将产物置于磁力架上约5min(待溶液澄清),小心用移液器吸出上清,保持样品始终处于磁力架中,向NGS磁珠中加入200ul新鲜配制的80%乙醇,室温放置30s后小心吸去乙醇(注意不要吹散磁珠);
重复上述步骤一次;保持样品始终处于磁力架中,打开管盖约7min,室温晾干磁珠(以磁珠刚刚出现龟裂为最佳);
回溶DNA:向磁珠中加入15ul的ddH2O,吸打混匀后室温放置2min后轻轻涡旋20s,再室温放置2min;
瞬时离心后将磁珠置磁力架,待溶液澄清后小心吸取15μL上清(纯化后DNA)至一个新的nuclease free PCR管中。
S9:取1~2μL PCR产物进行琼脂糖凝胶电泳检测,结果如图2所示。
S10:使用Illumina高通量测序平台MiSeq PE250进行测序。
三、TCR测序数据分析方法
数据分析流程如图3所示。
基于特有识别序列的reads去重和纠错原理如图4所示。
S1:对下机数据(raw data)进行质量控制,去除含有低质量碱基的序列、去除测序读N碱基的序列和截掉相应的测序接头。
S2:利用接头中的固定序列,寻找到特有识别序列的位置,并对特有识别序列进行序列解析。
S3:reads聚类。把带有相同特有识别序列的reads作为一个聚类(cluster);在每一个cluster中,通过计算reads之间的序列相似性,进行再次聚类,得到亚聚类(sub-cluster):相似度高于95%的reads聚为一个亚类,似度低于95%的reads归入不同的亚类中。
S4:reads的一致性归并。将每个sub-cluster下面的reads进行多序列比对和一致性归并,最终得到一条一致性read。在一致性归并的过程中,来源相同的分子的重复reads最终被归并为一条序列,达到去重的目的。同时,同一sub-cluster中的reads在PCR扩增或上机测序过程中引入的错误碱基也会基于多条reads的一致性序列被纠正,从而实现去除重复和纠正错误的双重目的。
S5:测序过程中特有识别序列同样会引入错误。因此对相同一致性reads的特有识别序列进行相似性比较,将相似性高于90%的特有识别序列进行合并,达到特有识别序列纠错的目的。
S6:使用MiXCR软件(Bolotin DA 2015),将通过一致性归并获得的所有reads序列与国际免疫遗传学数据库(IMGT,http://www.imgt.org/)中的V、D、J基因片段进行比对,确定每条一致性序列的TCR组成,包括V、D、J基因使用情况,TCR重组中随机插入和删除的碱基。
S7:V、D、J基因功能注释。根据IMGT中V/J基因功能注释、CDR3区域长度和CDR3编码产物,判断TCR重排序列是否具备功能,并统计TCR功能分类。
S8:根据TCR的比对结果,统计V和J基因及V-J基因对使用频率,寻找不同样本间表达模式差异,并计算样本TCR组成多样性。优选的,采用Shannon’s entropy,Simpson’sindex和D50(Wu J 2015)计算样本TCR组成多样性。
优选的,采用Shannon’s entropy,Simpson’s index和D50(Wu J 2015)计算样本TCR组成多样性。
Shannon’s entropy计算公式:
Simpson’s index计算公式:
其中:s表示实际观测到TCR重组序列数目;pi表示第i个TCR重排序列在所有TCR中所占的比例。
将样本中所有TCR重排序列按照在样本中所占比例从高到低进行排列,然后按照这个顺序将TCR序列所占比例依次相加,当相加比例达到样本的一半时,此时所相加的TCR重排序列数目即为D50,D50数值越大,说明样本TCR多样性越高。
四、TCR测序数据分析结果示例:
(一)、TCR功能分类统计
功能分类主要包括以下类别:
in-frame:TCR可以编码有功能的产物;
non-function:TCR包括的VJ基因不发挥功能,在IMGT中被定义为“pseudogene”;
out-of-frame(incomplete):测序reads没有完整覆盖CDR3区域。
out-of-frame(CDR3length):由于CDR3区域发生移码突变,导致CDR3mRNA长度不是3倍数;
out-of-frame(stop codon):终止密码子提前出现导致TCR编码提前终止;
(二)、CDR3区域编码多肽序列的长度分布统计
如图5所示,横坐标表示CDR3区域多肽链的长度,纵坐标表示各长度多肽链出现的频率,直方图不同颜色表示不同样本,表明不同样本中由于VDJ重排不同,长度为13,14,15,16个氨基酸的多肽链CDR3出现频率较高;
(三)、CDR3多肽序列组成分析
将序列长度分布占比前三的多肽,提取对应的CDR3序列进行氨基酸组成分析。如图6所示,横坐标表示每个位置的氨基酸种类,纵坐标表示每种氨基酸出现的可能性,由此可以看出不同长度多肽链的CDR3区域的氨基酸组成;
(四)、CDR3插入和删除序列长度分布
在T细胞发育过程中,CDR3区由V,D,J进行重排。由于在重排过程中,在V-D和D-J的连接区经常会有非模板的核苷酸的随机插入和缺失。对CDR3区域内插入和缺失序列长度分布进行统计。
在图7中从左至右,从上到下依次为V基因3’端删除序列(V3Del),D基因5’端(D5Del),D基因3’端(D3Del)和J基因5’端(J5Del)缺失序列长度分布和VD(VDJunction)、DJ(DJJunction)和D基因缺失情况下VJ(VJJunction)区域插入序列长度分布,横坐标表示脱氧核苷酸长度,纵坐标表示该种长度所占的比值。
(五)、VDJ基因出现频率统计
根据数据库可知,人外周血中TCRα链具有70-80种V和61种J基因片段,β链具有52种V,2种D和13种J基因片段。本实施例参考现有数据库,通过比对分析每一条高通量测序所得TCRP序列,获得57种V,2种D和13种J基因片段,其中V基因和J基因的使用频率分布如图8、图9所示,横坐标为不同的V/J基因家族,纵坐标为每类基因家族的序列占总序列数(Totalreads)的百分比。V-J基因对使用频率分布如图10所示,X、Y坐标分别为不同的V/J基因家族,纵坐标为每类V-J基因对的使用占总序列数(Total reads)的百分比。由此可知,本发明提供的逆转录引物组覆盖了大部分VDJ基因片段。
(六)、TCR多样性计算
Shannon和Simpson值越大,说明样本的TCR多样性越高。将样本中所有TCR重排序列按照在样本中所占比例从高到低进行排列,然后按照这个顺序将TCR序列所占比例依次相加,当相加比例达到样本的一半时,此时所相加的TCR重排序列数目即为D50,D50数值越大,说明样本TCR多样性越高。
(七)、Top100TCR重排序列分布
选取TCR重组序列中占比最高的前100条重排序列进行分布统计,从而直观地了解样本中TCR重排分布。如图11所示。
(八)结果总结
E1样本为Jurkat细胞系,β链主要由TRBV12-3-TRBD1-TRBJ1-2重组构成;E2,E3,E4,E6为外周血样本分离的免疫细胞;通过图8,图9可以分析出样本TCRβ基因中V区和J区的多样性情况。
序列表
<110> 武汉康测科技有限公司
<120> 一种基于特有识别序列的T细胞受体库高通量测序文库构建及测序数据分析方法
<160> 5
<170> SIPOSequenceListing 1.0
<210> 1
<211> 64
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (13)..(20)
<223> n表示a、t、c、g中任意一种碱基
<220>
<221> misc_feature
<222> (59)..(64)
<223> n表示a、t、c、g中任意一种碱基
<400> 1
gtgtatccag tgnnnnnnnn gatcgtcgga ctgtagaact ctgaaccact ggatacacnn 60
nnnn 64
<210> 2
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
cagaggtgct cttggaggag 20
<210> 3
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
aatgatacgg cgaccaccga gatctacacg ttcagagttc tacagtccga 50
<210> 4
<211> 53
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
gtgactggag ttccttggca cccgagaatt ccactcctcc aagagcacct ctg 53
<210> 5
<211> 65
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
caagcagaag acggcatacg agatctagta cggtgactgg agttccttgg cacccgagaa 60
ttcca 65
Claims (5)
1.一种带有特有识别序列的T细胞受体高通量测序文库构建接头元件,其特征在于,所述接头元件为带有粘性末端的发夹结构的DNA寡核苷酸,DNA序列从5’到3’依次包含茎环发夹序列A、识别序列RS、固定序列FS、发夹序列B和随机序列,发夹序列A和B互补形成发夹的茎结构,接头元件的5’末端带有磷酸基团修饰,3’末端带有氨基基团修饰;所述接头元件的识别序列RS包含4~15个随机排列组合的核苷酸;接头元件的固定序列FS为Illumina/Life文库PCR引物的识别序列;所述接头元件为一条两端序列互补的DNA寡核苷酸,通过高温变性后退火形成发夹结构;所述接头元件为含有不同随机排列组合核苷酸序列的识别序列RS的发夹结构DNA寡核苷酸的混合物;
上述带有特有识别序列的T细胞受体高通量测序文库构建接头元件从5’→3’方向的序列为:GTGTATCCAGTGNNNNNNNNGATCGTCGGACTGTAGAAC TCTGAACCACTGGATACACNNNNNN,其中GTGTAT CCAGTG为发夹序列A,NNNNNNNN为识别序列RS,GATCGTCGGACTGTA GAACTCTGAAC为固定序列FS,CACTGGATACAC为发夹序列B,NNNNNN为随机序列;发夹序列A和B互补,通过高温退火形成发夹的茎结构,同时使随机序列突出形成粘性末端;固定序列FS为Illumina/Life文库PCR引物的识别序列;N表示A、T、C、G中任意一种碱基,不同位置的N为相同或不同的碱基;5’带有PO4修饰,3’带有NH2修饰。
2.一种对T细胞受体进行高通量测序的方法,所述方法为非疾病诊断目的,其特征在于,包括如下步骤:
(1)T细胞受体测序文库的构建方法:
S1:提取样本的总RNA:使用Trizol试剂或商品化试剂盒提取总RNA;
S2:使用与TCR恒定区序列互补的TCR特异性引物进行逆转录,获得TCR链完整cDNA分子;所述TCR特异性引物的核苷酸从5’→3’方向的序列为CAGAGGTGCTCTTGGAGGAG;
S3:使用夹板连接法将权利要求1所述的接头元件使用T4连接酶连接到步骤S2所述cDNA的3′端;
S4:cDNA纯化:使用Beckman核酸纯化试剂盒对步骤S3获得的cDNA进行纯化;
S5:cDNA的靶向扩增:所述靶向扩增上游引物的核苷酸从5’→3’方向的序列为AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAG TCCGA,其中GTTCAGAGTTCTACAGTCCGA与权利要求1所述的接头元件中的固定序列FS互补结合;所述靶向扩增下游引物的核苷酸从5’→3’方向的序列为GTGACTGGAGTTCCTTGGCACCCGA GAATTCCACTCCTCCAAG AGCACCTCTG,其中,CTCCTCCA AGAGCACCTCTG与步骤S2所述的特异性引物互补,GTGACTGGAGTTCCTTGGCACCCGAGAA TTCCA为Illumina/Life文库PCR引物的识别序列;通过靶向扩增获得两端带有Illumina/Life文库PCR引物的识别序列的DNA;
S6:DNA纯化:使用Beckman核酸纯化试剂盒对步骤S5获得的DNA进行纯化;
S7:DNA的PCR扩增:所述PCR扩增引物为SEQ ID NO:3和SEQ ID NO:5,其中SEQ ID NO.5的GTGACTGGAGTTCCT TGGCACCCGAGAATTCCA为Illumina/Life文库PCR引物的识别序列;
S8:PCR产物纯化:使用Beckman核酸纯化试剂盒对步骤S7获得的DNA进行纯化;
S9:使用Illumina高通量测序平台MiSeq PE250进行测序;
(2)对(1)构建的T细胞受体测序文库测序数据分析方法:
S1:对下机数据进行质量控制,去除含有低质量碱基的序列、去除测序读N碱基的序列和截掉相应的测序接头;
S2:利用接头中的固定序列,寻找到特有识别序列的位置,并对特有识别序列进行序列解析;
S3:reads聚类:把带有相同特有识别序列的reads作为一个聚类cluster;在每一个cluster中,通过计算reads之间的序列相似性,进行再次聚类,得到亚聚类sub-cluster:相似度高于95%的reads聚为一个亚类,相似度低于95%的reads归入不同的亚类中;
S4:reads的一致性归并:将每个sub-cluster下面的reads进行多序列比对和一致性归并,最终得到一条一致性read;在一致性归并的过程中,来源相同的分子的重复reads最终被归并为一条序列,达到去重的目的;同时,同一sub-cluster中的reads在PCR扩增或上机测序过程中引入的错误碱基也会基于多条reads的一致性序列被纠正,从而实现去除重复和纠正错误的双重目的;
S5:测序过程中特有识别序列同样会引入错误,因此对相同一致性reads的特有识别序列进行相似性比较,将相似性高于90%的特有识别序列进行合并,达到特有识别序列纠错的目的;
S6:使用MiXCR软件,即Bolotin DA 2015,将通过一致性归并获得的所有reads序列与国际免疫遗传学数据库IMGT中的V、D、J基因片段进行比对,其网址为http://www.imgt.org/,确定每条一致性序列的TCR组成,包括V、D、J基因使用情况,TCR重组中随机插入和删除的碱基;
S7:V、D、J基因功能注释:根据IMGT中V/J基因功能注释、CDR3区域长度和CDR3编码产物,判断TCR重排序列是否具备功能,并统计TCR功能分类;
S8:根据TCR的比对结果,统计V和J基因及V-J基因对使用频率,寻找不同样本间表达模式差异,并计算样本TCR组成多样性。
3.根据权利要求2所述的对T细胞受体进行高通量测序的方法,其特征在于,采用Shannon’s entropy,Simpson’s index和D50计算样本TCR组成多样性:
Shannon’s entropy计算公式:
Simpson’s index计算公式:
其中:s表示实际观测到TCR重组序列数目;pi表示第i个TCR重排序列在所有TCR中所占的比例;
将样本中所有TCR重排序列按照在样本中所占比例从高到低进行排列,然后按照这个顺序将TCR序列所占比例依次相加,当相加比例达到样本的一半时,此时所相加的TCR重排序列数目即为D50,D50值越大,说明样本TCR多样性越高。
4.一种构建T细胞受体高通量测序文库的试剂盒,其特征在于,该试剂盒包括:
(1)权利要求1所述的带有特有识别序列的T细胞受体高通量测序文库构建接头元件,其核苷酸序列如SEQ ID NO:1所示;
(2)与TCR恒定区序列互补的TCR特异性引物,如SEQ ID NO.2所示,用于进行逆转录;
(3)cDNA的靶向扩增上、下游引物,其核苷酸序列如SEQ ID NO.3和4所示;
(4)DNA的PCR扩增引物,其核苷酸序列如SEQ ID NO.3和5所示。
5.权利要求1所述的带有特有识别序列的T细胞受体高通量测序文库构建接头元件或权利要求4所述的试剂盒在对T细胞受体进行高通量测序的方法中的应用,所述方法为非疾病诊断目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811598261.2A CN111363783B (zh) | 2018-12-26 | 2018-12-26 | 一种基于特有识别序列的t细胞受体库高通量测序文库构建及测序数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811598261.2A CN111363783B (zh) | 2018-12-26 | 2018-12-26 | 一种基于特有识别序列的t细胞受体库高通量测序文库构建及测序数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111363783A CN111363783A (zh) | 2020-07-03 |
CN111363783B true CN111363783B (zh) | 2024-01-02 |
Family
ID=71202834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811598261.2A Active CN111363783B (zh) | 2018-12-26 | 2018-12-26 | 一种基于特有识别序列的t细胞受体库高通量测序文库构建及测序数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111363783B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112210595A (zh) * | 2020-08-11 | 2021-01-12 | 广州君瑞康生物科技有限公司 | 一种检测微小残留病的方法 |
CN112143777B (zh) * | 2020-08-18 | 2022-07-01 | 北京臻知医学科技有限责任公司 | 一种构建人源TCRβ的CDR3区高通量测序文库的引物组及其应用 |
CN113122618B (zh) * | 2021-03-09 | 2023-07-14 | 武汉弘康医学检验实验室股份有限公司 | 一种基于高通量测序精准检测t细胞免疫组库的方法及其引物体系 |
CN114203254B (zh) * | 2021-12-02 | 2023-05-23 | 杭州艾沐蒽生物科技有限公司 | 一种基于人工智能分析免疫特征相关tcr的方法 |
CN114107287A (zh) * | 2021-12-13 | 2022-03-01 | 云测智能科技有限公司 | 一种采用少量简并引物全面扩增humanTCRβ链文库的制备方法 |
CN114657254B (zh) * | 2022-05-17 | 2022-08-23 | 至本医疗科技(上海)有限公司 | 用于bcr/tcr基因重排检测的试剂盒和装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004015075A2 (en) * | 2002-08-08 | 2004-02-19 | Dharmacon, Inc. | Short interfering rnas having a hairpin structure containing a non-nucleotide loop |
GB0514935D0 (en) * | 2005-07-20 | 2005-08-24 | Solexa Ltd | Methods for sequencing a polynucleotide template |
CN101659990A (zh) * | 2008-08-29 | 2010-03-03 | 北京微生物流行病研究所 | 细胞疾病靶标的负选择 |
US8207316B1 (en) * | 2002-11-26 | 2012-06-26 | Rosetta Genomics, Inc. | HCMV-related nucleic acids and microRNA |
CN102533752A (zh) * | 2012-02-28 | 2012-07-04 | 盛司潼 | 一种Oligo dT引物及构建cDNA文库的方法 |
CN102586420A (zh) * | 2011-12-27 | 2012-07-18 | 盛司潼 | 一种检测乳腺癌易感基因的方法及试剂盒 |
CN103160537A (zh) * | 2013-02-26 | 2013-06-19 | 中南大学 | 一个长链非编码rna基因在制备干扰和抑制剂上的应用方法 |
WO2017028753A1 (zh) * | 2015-08-14 | 2017-02-23 | 深圳市瀚海基因生物科技有限公司 | 多重pcr引物及其应用 |
CN106497920A (zh) * | 2016-11-21 | 2017-03-15 | 深圳华大基因研究院 | 一种用于非小细胞肺癌基因突变检测的文库构建方法及试剂盒 |
CN106755410A (zh) * | 2016-12-23 | 2017-05-31 | 孙涛 | 一种基于高通量测序同时检测t细胞和b细胞免疫组库的方法 |
CN106957906A (zh) * | 2016-12-23 | 2017-07-18 | 孙涛 | 一种应用于高通量测序检测t细胞白血病微小残留病的引物组合及试剂盒 |
CN106957905A (zh) * | 2016-12-23 | 2017-07-18 | 孙涛 | 一种用于评估肿瘤免疫治疗效果的分子检测方法及引物组合物及试剂盒 |
CN108300716A (zh) * | 2018-01-05 | 2018-07-20 | 武汉康测科技有限公司 | 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法 |
WO2018209625A1 (zh) * | 2017-05-18 | 2018-11-22 | 北京吉因加科技有限公司 | 一种基于外周血无创性检测病灶免疫组库多样性的分析系统及其用途 |
CN109022544A (zh) * | 2018-07-11 | 2018-12-18 | 山东师范大学 | 一种检测dna甲基化转移酶活性的试剂盒及其方法 |
-
2018
- 2018-12-26 CN CN201811598261.2A patent/CN111363783B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004015075A2 (en) * | 2002-08-08 | 2004-02-19 | Dharmacon, Inc. | Short interfering rnas having a hairpin structure containing a non-nucleotide loop |
US8207316B1 (en) * | 2002-11-26 | 2012-06-26 | Rosetta Genomics, Inc. | HCMV-related nucleic acids and microRNA |
GB0514935D0 (en) * | 2005-07-20 | 2005-08-24 | Solexa Ltd | Methods for sequencing a polynucleotide template |
CN101659990A (zh) * | 2008-08-29 | 2010-03-03 | 北京微生物流行病研究所 | 细胞疾病靶标的负选择 |
CN102586420A (zh) * | 2011-12-27 | 2012-07-18 | 盛司潼 | 一种检测乳腺癌易感基因的方法及试剂盒 |
CN102533752A (zh) * | 2012-02-28 | 2012-07-04 | 盛司潼 | 一种Oligo dT引物及构建cDNA文库的方法 |
CN103160537A (zh) * | 2013-02-26 | 2013-06-19 | 中南大学 | 一个长链非编码rna基因在制备干扰和抑制剂上的应用方法 |
WO2017028753A1 (zh) * | 2015-08-14 | 2017-02-23 | 深圳市瀚海基因生物科技有限公司 | 多重pcr引物及其应用 |
CN106497920A (zh) * | 2016-11-21 | 2017-03-15 | 深圳华大基因研究院 | 一种用于非小细胞肺癌基因突变检测的文库构建方法及试剂盒 |
CN106755410A (zh) * | 2016-12-23 | 2017-05-31 | 孙涛 | 一种基于高通量测序同时检测t细胞和b细胞免疫组库的方法 |
CN106957906A (zh) * | 2016-12-23 | 2017-07-18 | 孙涛 | 一种应用于高通量测序检测t细胞白血病微小残留病的引物组合及试剂盒 |
CN106957905A (zh) * | 2016-12-23 | 2017-07-18 | 孙涛 | 一种用于评估肿瘤免疫治疗效果的分子检测方法及引物组合物及试剂盒 |
WO2018209625A1 (zh) * | 2017-05-18 | 2018-11-22 | 北京吉因加科技有限公司 | 一种基于外周血无创性检测病灶免疫组库多样性的分析系统及其用途 |
CN108300716A (zh) * | 2018-01-05 | 2018-07-20 | 武汉康测科技有限公司 | 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法 |
CN109022544A (zh) * | 2018-07-11 | 2018-12-18 | 山东师范大学 | 一种检测dna甲基化转移酶活性的试剂盒及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111363783A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111363783B (zh) | 一种基于特有识别序列的t细胞受体库高通量测序文库构建及测序数据分析方法 | |
CN107586832B (zh) | 用于测量和校准多重pcr反应中的扩增偏倚的组合物和方法 | |
CN106048009B (zh) | 一种用于超低频基因突变检测的标签接头及其应用 | |
JP2019523638A (ja) | 遺伝子突然変異を検出するマルチポジショニングダブルタグアダプターセット、及びその調製方法と応用 | |
CN110546272B (zh) | 将衔接子附接至样品核酸的方法 | |
CN111808854B (zh) | 带有分子条码的平衡接头及快速构建转录组文库的方法 | |
CN111471754B (zh) | 一种通用型高通量测序接头及其应用 | |
CN107779495B (zh) | T细胞抗原受体多样性测序文库的构建方法以及试剂盒 | |
CN113811618B (zh) | 基于甲基化dna目标区域构建测序文库及系统和应用 | |
CN113502287A (zh) | 分子标签接头及测序文库的构建方法 | |
KR20150141939A (ko) | 면역 레퍼토리를 평가하기 위한 방법 | |
CN107038349B (zh) | 确定重排前v/j基因序列的方法和装置 | |
CN110603327A (zh) | Pcr引物对及其应用 | |
CN104093854A (zh) | 表征组合物中的rna的方法和试剂盒 | |
US20220002337A1 (en) | Poly(A)-ClickSeq Click-Chemistry for Next Generation 3-End Sequencing Without RNA Enrichment or Fragmentation | |
CN110734958A (zh) | 一种单分子标签免疫组库高通量测序文库构建方法 | |
KR101969905B1 (ko) | 염기서열분석을 위한 라이브러리용 프라이머 세트 및 라이브러리 제조방법 | |
CN115807056B (zh) | 一种bcr或tcr重排序列模板池及其应用 | |
CN111005075A (zh) | 用于双样本共建测序文库的y型接头和双样本共建测序文库的方法 | |
EP3918091A1 (en) | Method of sequencing nucleic acid with unnatural base pairs | |
CN114774517A (zh) | 一种人免疫组库测序的方法及试剂盒 | |
KR20220074756A (ko) | Pcr 과정 동안 생성되는 가닥들의 정보를 연결하여 하나의 클러스터를 만들고, 생성된 가닥들의 생성 순서를 추적할 수 있는 방법 | |
KR101782806B1 (ko) | 차세대염기서열분석기술 기반의 고효율, 고해상도 조직적합성 형별 분석 방법 및 키트 | |
CN114277096B (zh) | 鉴别地中海贫血αααanti4.2杂合型和HKαα杂合型的方法和试剂盒 | |
CN114807302B (zh) | 扩增子文库构建方法及用于地中海贫血突变型与缺失型基因检测的试剂盒 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231109 Address after: 430000 floor 2, building C1, Optics Valley Biological City, No. 666, Gaoxin Avenue, Donghu high tech Zone, Wuhan, Hubei Applicant after: WUHAN SEQEALTH TECHNOLOGY Co.,Ltd. Applicant after: WUHAN University Address before: 430000 floor 2, building C1, Optics Valley Biological City, No. 666, Gaoxin Avenue, Donghu high tech Zone, Wuhan, Hubei Applicant before: WUHAN SEQEALTH TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |