CN105780129A - 目标区域测序文库构建方法 - Google Patents
目标区域测序文库构建方法 Download PDFInfo
- Publication number
- CN105780129A CN105780129A CN201410779502.9A CN201410779502A CN105780129A CN 105780129 A CN105780129 A CN 105780129A CN 201410779502 A CN201410779502 A CN 201410779502A CN 105780129 A CN105780129 A CN 105780129A
- Authority
- CN
- China
- Prior art keywords
- reference sequence
- region
- sequencing
- genes
- optionally
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 47
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 106
- 239000000523 sample Substances 0.000 claims abstract description 100
- 239000012634 fragment Substances 0.000 claims abstract description 51
- 230000003321 amplification Effects 0.000 claims abstract description 21
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 21
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 21
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 13
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 13
- 230000008439 repair process Effects 0.000 claims abstract description 5
- 230000035772 mutation Effects 0.000 claims description 42
- 238000012216 screening Methods 0.000 claims description 23
- 239000013642 negative control Substances 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 239000013641 positive control Substances 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 239000002773 nucleotide Substances 0.000 claims description 6
- 125000003729 nucleotide group Chemical group 0.000 claims description 6
- 239000013068 control sample Substances 0.000 claims description 5
- 238000011144 upstream manufacturing Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 31
- 206010028980 Neoplasm Diseases 0.000 description 72
- 108020004414 DNA Proteins 0.000 description 42
- 239000003814 drug Substances 0.000 description 25
- 229940079593 drug Drugs 0.000 description 19
- 201000011510 cancer Diseases 0.000 description 18
- 210000002381 plasma Anatomy 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 15
- 238000011282 treatment Methods 0.000 description 14
- 238000012544 monitoring process Methods 0.000 description 12
- 210000005259 peripheral blood Anatomy 0.000 description 12
- 239000011886 peripheral blood Substances 0.000 description 12
- 210000004369 blood Anatomy 0.000 description 9
- 239000008280 blood Substances 0.000 description 9
- 238000010276 construction Methods 0.000 description 9
- 238000003745 diagnosis Methods 0.000 description 9
- 239000011324 bead Substances 0.000 description 8
- 230000008901 benefit Effects 0.000 description 8
- 206010009944 Colon cancer Diseases 0.000 description 7
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 7
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 7
- 238000011161 development Methods 0.000 description 7
- 238000013399 early diagnosis Methods 0.000 description 7
- 201000005202 lung cancer Diseases 0.000 description 7
- 208000020816 lung neoplasm Diseases 0.000 description 7
- 230000036438 mutation frequency Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 239000000439 tumor marker Substances 0.000 description 7
- 239000002246 antineoplastic agent Substances 0.000 description 6
- 238000002512 chemotherapy Methods 0.000 description 6
- 229940044683 chemotherapy drug Drugs 0.000 description 6
- 238000004393 prognosis Methods 0.000 description 6
- 238000009396 hybridization Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 238000000746 purification Methods 0.000 description 5
- 210000001519 tissue Anatomy 0.000 description 5
- 231100000331 toxic Toxicity 0.000 description 5
- 230000002588 toxic effect Effects 0.000 description 5
- 102100030708 GTPase KRas Human genes 0.000 description 4
- 238000012408 PCR amplification Methods 0.000 description 4
- 230000034994 death Effects 0.000 description 4
- 231100000517 death Toxicity 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002980 postoperative effect Effects 0.000 description 4
- 210000005000 reproductive tract Anatomy 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 239000006228 supernatant Substances 0.000 description 4
- 210000004881 tumor cell Anatomy 0.000 description 4
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 3
- 206010008342 Cervix carcinoma Diseases 0.000 description 3
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 3
- 206010033128 Ovarian cancer Diseases 0.000 description 3
- 206010061535 Ovarian neoplasm Diseases 0.000 description 3
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 3
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 3
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 3
- 208000005718 Stomach Neoplasms Diseases 0.000 description 3
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 3
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 3
- 201000010881 cervical cancer Diseases 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 206010017758 gastric cancer Diseases 0.000 description 3
- 201000007270 liver cancer Diseases 0.000 description 3
- 208000014018 liver neoplasm Diseases 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 201000011549 stomach cancer Diseases 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 102100028914 Catenin beta-1 Human genes 0.000 description 2
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 2
- 206010059866 Drug resistance Diseases 0.000 description 2
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 2
- 101150016325 EPHA3 gene Proteins 0.000 description 2
- 206010014733 Endometrial cancer Diseases 0.000 description 2
- 206010014759 Endometrial neoplasm Diseases 0.000 description 2
- 101150025643 Epha5 gene Proteins 0.000 description 2
- 102100030324 Ephrin type-A receptor 3 Human genes 0.000 description 2
- 102100021605 Ephrin type-A receptor 5 Human genes 0.000 description 2
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 2
- 101710105178 F-box/WD repeat-containing protein 7 Proteins 0.000 description 2
- 102100028138 F-box/WD repeat-containing protein 7 Human genes 0.000 description 2
- 102100031510 Fibrillin-2 Human genes 0.000 description 2
- 102100023593 Fibroblast growth factor receptor 1 Human genes 0.000 description 2
- 102100023600 Fibroblast growth factor receptor 2 Human genes 0.000 description 2
- 101710182389 Fibroblast growth factor receptor 2 Proteins 0.000 description 2
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 2
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 2
- 102100029974 GTPase HRas Human genes 0.000 description 2
- 102100039788 GTPase NRas Human genes 0.000 description 2
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 2
- 101000846890 Homo sapiens Fibrillin-2 Proteins 0.000 description 2
- 101000584633 Homo sapiens GTPase HRas Proteins 0.000 description 2
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 2
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 2
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 2
- 101000606537 Homo sapiens Receptor-type tyrosine-protein phosphatase delta Proteins 0.000 description 2
- 101000777277 Homo sapiens Serine/threonine-protein kinase Chk2 Proteins 0.000 description 2
- 101000628562 Homo sapiens Serine/threonine-protein kinase STK11 Proteins 0.000 description 2
- 208000008839 Kidney Neoplasms Diseases 0.000 description 2
- 102100025725 Mothers against decapentaplegic homolog 4 Human genes 0.000 description 2
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 description 2
- 108010071382 NF-E2-Related Factor 2 Proteins 0.000 description 2
- 102100031701 Nuclear factor erythroid 2-related factor 2 Human genes 0.000 description 2
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 2
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 2
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 2
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 2
- 102100039666 Receptor-type tyrosine-protein phosphatase delta Human genes 0.000 description 2
- 206010038389 Renal cancer Diseases 0.000 description 2
- 102100031075 Serine/threonine-protein kinase Chk2 Human genes 0.000 description 2
- 102100026715 Serine/threonine-protein kinase STK11 Human genes 0.000 description 2
- 208000024770 Thyroid neoplasm Diseases 0.000 description 2
- 102100033254 Tumor suppressor ARF Human genes 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000000973 chemotherapeutic effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 2
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 2
- 201000004101 esophageal cancer Diseases 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 201000010982 kidney cancer Diseases 0.000 description 2
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 2
- 201000002528 pancreatic cancer Diseases 0.000 description 2
- 208000008443 pancreatic carcinoma Diseases 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 102220198301 rs121912580 Human genes 0.000 description 2
- 102200006539 rs121913529 Human genes 0.000 description 2
- 201000002510 thyroid cancer Diseases 0.000 description 2
- 102100040077 A-kinase anchor protein 6 Human genes 0.000 description 1
- 102100040084 A-kinase anchor protein 9 Human genes 0.000 description 1
- 102100024387 AF4/FMR2 family member 3 Human genes 0.000 description 1
- 102100034580 AT-rich interactive domain-containing protein 1A Human genes 0.000 description 1
- 102100034571 AT-rich interactive domain-containing protein 1B Human genes 0.000 description 1
- 102100025339 ATP-dependent DNA helicase DDX11 Human genes 0.000 description 1
- 102100030088 ATP-dependent RNA helicase A Human genes 0.000 description 1
- 102000052567 Anaphase-Promoting Complex-Cyclosome Apc1 Subunit Human genes 0.000 description 1
- 108700004581 Anaphase-Promoting Complex-Cyclosome Apc1 Subunit Proteins 0.000 description 1
- 102000007372 Ataxin-1 Human genes 0.000 description 1
- 108010032963 Ataxin-1 Proteins 0.000 description 1
- 102000007371 Ataxin-3 Human genes 0.000 description 1
- 108010032947 Ataxin-3 Proteins 0.000 description 1
- 102100035682 Axin-1 Human genes 0.000 description 1
- 102100021247 BCL-6 corepressor Human genes 0.000 description 1
- 108700020463 BRCA1 Proteins 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102100023054 Band 4.1-like protein 4A Human genes 0.000 description 1
- 102100033943 Basic salivary proline-rich protein 2 Human genes 0.000 description 1
- 102100028164 Bestrophin-3 Human genes 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 102100025401 Breast cancer type 1 susceptibility protein Human genes 0.000 description 1
- 102100028737 CAP-Gly domain-containing linker protein 1 Human genes 0.000 description 1
- 102100021975 CREB-binding protein Human genes 0.000 description 1
- 102100040807 CUB and sushi domain-containing protein 3 Human genes 0.000 description 1
- 102100024158 Cadherin-10 Human genes 0.000 description 1
- 102100024156 Cadherin-12 Human genes 0.000 description 1
- 102100040751 Casein kinase II subunit alpha Human genes 0.000 description 1
- ZEOWTGPWHLSLOG-UHFFFAOYSA-N Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F Chemical compound Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F ZEOWTGPWHLSLOG-UHFFFAOYSA-N 0.000 description 1
- 102100024343 Contactin-5 Human genes 0.000 description 1
- 102100040499 Contactin-associated protein-like 2 Human genes 0.000 description 1
- 102100022053 Contactin-associated protein-like 3B Human genes 0.000 description 1
- 102100038111 Cyclin-dependent kinase 12 Human genes 0.000 description 1
- 102100025178 DDB1- and CUL4-associated factor 4-like protein 2 Human genes 0.000 description 1
- 102100024810 DNA (cytosine-5)-methyltransferase 3B Human genes 0.000 description 1
- 101710123222 DNA (cytosine-5)-methyltransferase 3B Proteins 0.000 description 1
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 1
- 102100031817 Delta-type opioid receptor Human genes 0.000 description 1
- 102100029792 Dentin sialophosphoprotein Human genes 0.000 description 1
- 108010086291 Deubiquitinating Enzyme CYLD Proteins 0.000 description 1
- 102100028360 Diphosphoinositol polyphosphate phosphohydrolase 3-beta Human genes 0.000 description 1
- 102100022820 Disintegrin and metalloproteinase domain-containing protein 28 Human genes 0.000 description 1
- 102100031637 Dynein axonemal heavy chain 8 Human genes 0.000 description 1
- 102100027418 E3 ubiquitin-protein ligase RNF213 Human genes 0.000 description 1
- 102100026245 E3 ubiquitin-protein ligase RNF43 Human genes 0.000 description 1
- 102100040465 Elongation factor 1-beta Human genes 0.000 description 1
- 101100379079 Emericella variicolor andA gene Proteins 0.000 description 1
- 108010067770 Endopeptidase K Proteins 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 101710182386 Fibroblast growth factor receptor 1 Proteins 0.000 description 1
- 102100027844 Fibroblast growth factor receptor 4 Human genes 0.000 description 1
- 108010010285 Forkhead Box Protein L2 Proteins 0.000 description 1
- 102100035137 Forkhead box protein L2 Human genes 0.000 description 1
- 102100037740 GRB2-associated-binding protein 1 Human genes 0.000 description 1
- 108090000369 Glutamate Carboxypeptidase II Proteins 0.000 description 1
- 102100041003 Glutamate carboxypeptidase 2 Human genes 0.000 description 1
- 102100032191 Guanine nucleotide exchange factor VAV3 Human genes 0.000 description 1
- 102100032610 Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Human genes 0.000 description 1
- 102100023954 Guanine nucleotide-binding protein subunit alpha-15 Human genes 0.000 description 1
- 102100035108 High affinity nerve growth factor receptor Human genes 0.000 description 1
- 102100027755 Histone-lysine N-methyltransferase 2C Human genes 0.000 description 1
- 102100027768 Histone-lysine N-methyltransferase 2D Human genes 0.000 description 1
- 102100029239 Histone-lysine N-methyltransferase, H3 lysine-36 specific Human genes 0.000 description 1
- 101000890611 Homo sapiens A-kinase anchor protein 6 Proteins 0.000 description 1
- 101000890598 Homo sapiens A-kinase anchor protein 9 Proteins 0.000 description 1
- 101000833166 Homo sapiens AF4/FMR2 family member 3 Proteins 0.000 description 1
- 101000924266 Homo sapiens AT-rich interactive domain-containing protein 1A Proteins 0.000 description 1
- 101000924255 Homo sapiens AT-rich interactive domain-containing protein 1B Proteins 0.000 description 1
- 101000722210 Homo sapiens ATP-dependent DNA helicase DDX11 Proteins 0.000 description 1
- 101000864670 Homo sapiens ATP-dependent RNA helicase A Proteins 0.000 description 1
- 101000874566 Homo sapiens Axin-1 Proteins 0.000 description 1
- 101100165236 Homo sapiens BCOR gene Proteins 0.000 description 1
- 101001049968 Homo sapiens Band 4.1-like protein 4A Proteins 0.000 description 1
- 101001068639 Homo sapiens Basic salivary proline-rich protein 2 Proteins 0.000 description 1
- 101000697366 Homo sapiens Bestrophin-3 Proteins 0.000 description 1
- 101000767052 Homo sapiens CAP-Gly domain-containing linker protein 1 Proteins 0.000 description 1
- 101000896987 Homo sapiens CREB-binding protein Proteins 0.000 description 1
- 101000892045 Homo sapiens CUB and sushi domain-containing protein 3 Proteins 0.000 description 1
- 101000762229 Homo sapiens Cadherin-10 Proteins 0.000 description 1
- 101000762238 Homo sapiens Cadherin-12 Proteins 0.000 description 1
- 101000892026 Homo sapiens Casein kinase II subunit alpha Proteins 0.000 description 1
- 101000892015 Homo sapiens Casein kinase II subunit alpha' Proteins 0.000 description 1
- 101000909507 Homo sapiens Contactin-5 Proteins 0.000 description 1
- 101000749877 Homo sapiens Contactin-associated protein-like 2 Proteins 0.000 description 1
- 101000900791 Homo sapiens Contactin-associated protein-like 3B Proteins 0.000 description 1
- 101000884345 Homo sapiens Cyclin-dependent kinase 12 Proteins 0.000 description 1
- 101000721255 Homo sapiens DDB1- and CUL4-associated factor 4-like protein 2 Proteins 0.000 description 1
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 1
- 101000992305 Homo sapiens Delta-type opioid receptor Proteins 0.000 description 1
- 101000865404 Homo sapiens Dentin sialophosphoprotein Proteins 0.000 description 1
- 101000632661 Homo sapiens Diphosphoinositol polyphosphate phosphohydrolase 3-beta Proteins 0.000 description 1
- 101000756727 Homo sapiens Disintegrin and metalloproteinase domain-containing protein 23 Proteins 0.000 description 1
- 101000756756 Homo sapiens Disintegrin and metalloproteinase domain-containing protein 28 Proteins 0.000 description 1
- 101000866323 Homo sapiens Dynein axonemal heavy chain 8 Proteins 0.000 description 1
- 101000650316 Homo sapiens E3 ubiquitin-protein ligase RNF213 Proteins 0.000 description 1
- 101000692702 Homo sapiens E3 ubiquitin-protein ligase RNF43 Proteins 0.000 description 1
- 101000976468 Homo sapiens E3 ubiquitin-protein ligase ZNF598 Proteins 0.000 description 1
- 101000967447 Homo sapiens Elongation factor 1-beta Proteins 0.000 description 1
- 101000917134 Homo sapiens Fibroblast growth factor receptor 4 Proteins 0.000 description 1
- 101001024897 Homo sapiens GRB2-associated-binding protein 1 Proteins 0.000 description 1
- 101000775742 Homo sapiens Guanine nucleotide exchange factor VAV3 Proteins 0.000 description 1
- 101001014590 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Proteins 0.000 description 1
- 101001014594 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms short Proteins 0.000 description 1
- 101000904080 Homo sapiens Guanine nucleotide-binding protein subunit alpha-15 Proteins 0.000 description 1
- 101000596894 Homo sapiens High affinity nerve growth factor receptor Proteins 0.000 description 1
- 101001045848 Homo sapiens Histone-lysine N-methyltransferase 2B Proteins 0.000 description 1
- 101001008892 Homo sapiens Histone-lysine N-methyltransferase 2C Proteins 0.000 description 1
- 101001008894 Homo sapiens Histone-lysine N-methyltransferase 2D Proteins 0.000 description 1
- 101000634050 Homo sapiens Histone-lysine N-methyltransferase, H3 lysine-36 specific Proteins 0.000 description 1
- 101000998139 Homo sapiens Interleukin-32 Proteins 0.000 description 1
- 101000971797 Homo sapiens KH homology domain-containing protein 4 Proteins 0.000 description 1
- 101000605522 Homo sapiens Kallikrein-1 Proteins 0.000 description 1
- 101001051730 Homo sapiens Keratin-associated protein 4-11 Proteins 0.000 description 1
- 101001007047 Homo sapiens Keratin-associated protein 4-8 Proteins 0.000 description 1
- 101001007846 Homo sapiens Keratin-associated protein 5-5 Proteins 0.000 description 1
- 101001017859 Homo sapiens Leucine-rich repeat and IQ domain-containing protein 3 Proteins 0.000 description 1
- 101000581803 Homo sapiens Lithostathine-1-beta Proteins 0.000 description 1
- 101000692954 Homo sapiens Lysine-specific demethylase PHF2 Proteins 0.000 description 1
- 101000627860 Homo sapiens Matrix metalloproteinase-27 Proteins 0.000 description 1
- 101000614988 Homo sapiens Mediator of RNA polymerase II transcription subunit 12 Proteins 0.000 description 1
- 101000978418 Homo sapiens Melanocortin receptor 4 Proteins 0.000 description 1
- 101000623901 Homo sapiens Mucin-16 Proteins 0.000 description 1
- 101000972278 Homo sapiens Mucin-6 Proteins 0.000 description 1
- 101000589016 Homo sapiens Myomegalin Proteins 0.000 description 1
- 101000637240 Homo sapiens Neurite extension and migration factor Proteins 0.000 description 1
- 101001024606 Homo sapiens Neuroblastoma breakpoint family member 10 Proteins 0.000 description 1
- 101001014610 Homo sapiens Neuroendocrine secretory protein 55 Proteins 0.000 description 1
- 101000582005 Homo sapiens Neuron navigator 3 Proteins 0.000 description 1
- 101000721722 Homo sapiens Neuronal tyrosine-phosphorylated phosphoinositide-3-kinase adapter 2 Proteins 0.000 description 1
- 101001018109 Homo sapiens Nucleotidyltransferase MB21D2 Proteins 0.000 description 1
- 101000594423 Homo sapiens Olfactory receptor 10G8 Proteins 0.000 description 1
- 101001122140 Homo sapiens Olfactory receptor 10Z1 Proteins 0.000 description 1
- 101000594779 Homo sapiens Olfactory receptor 14C36 Proteins 0.000 description 1
- 101000982239 Homo sapiens Olfactory receptor 2B11 Proteins 0.000 description 1
- 101001121141 Homo sapiens Olfactory receptor 2M2 Proteins 0.000 description 1
- 101001137095 Homo sapiens Olfactory receptor 2T2 Proteins 0.000 description 1
- 101000594471 Homo sapiens Olfactory receptor 2T33 Proteins 0.000 description 1
- 101000594474 Homo sapiens Olfactory receptor 2T34 Proteins 0.000 description 1
- 101001122435 Homo sapiens Olfactory receptor 4C15 Proteins 0.000 description 1
- 101001122432 Homo sapiens Olfactory receptor 4C16 Proteins 0.000 description 1
- 101000721113 Homo sapiens Olfactory receptor 4K2 Proteins 0.000 description 1
- 101000611364 Homo sapiens Olfactory receptor 4M2 Proteins 0.000 description 1
- 101000611363 Homo sapiens Olfactory receptor 4N2 Proteins 0.000 description 1
- 101000614002 Homo sapiens Olfactory receptor 4N4 Proteins 0.000 description 1
- 101000982762 Homo sapiens Olfactory receptor 51V1 Proteins 0.000 description 1
- 101000586103 Homo sapiens Olfactory receptor 5D18 Proteins 0.000 description 1
- 101000992275 Homo sapiens Olfactory receptor 5L2 Proteins 0.000 description 1
- 101001137111 Homo sapiens Olfactory receptor 8H2 Proteins 0.000 description 1
- 101000741895 Homo sapiens POTE ankyrin domain family member C Proteins 0.000 description 1
- 101000610209 Homo sapiens Pappalysin-2 Proteins 0.000 description 1
- 101001120056 Homo sapiens Phosphatidylinositol 3-kinase regulatory subunit alpha Proteins 0.000 description 1
- 101000604565 Homo sapiens Phosphatidylinositol glycan anchor biosynthesis class U protein Proteins 0.000 description 1
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 description 1
- 101000589450 Homo sapiens Poly(ADP-ribose) glycohydrolase Proteins 0.000 description 1
- 101001117245 Homo sapiens Polymerase delta-interacting protein 2 Proteins 0.000 description 1
- 101000997296 Homo sapiens Potassium voltage-gated channel subfamily B member 2 Proteins 0.000 description 1
- 101000610110 Homo sapiens Pre-B-cell leukemia transcription factor 2 Proteins 0.000 description 1
- 101000797903 Homo sapiens Protein ALEX Proteins 0.000 description 1
- 101000918287 Homo sapiens Protein FAM135B Proteins 0.000 description 1
- 101000882215 Homo sapiens Protein FAM47A Proteins 0.000 description 1
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 1
- 101000824415 Homo sapiens Protocadherin Fat 3 Proteins 0.000 description 1
- 101000613366 Homo sapiens Protocadherin-11 X-linked Proteins 0.000 description 1
- 101000697601 Homo sapiens Putative STAG3-like protein 2 Proteins 0.000 description 1
- 101000882214 Homo sapiens Putative protein FAM47C Proteins 0.000 description 1
- 101000853457 Homo sapiens Ral GTPase-activating protein subunit beta Proteins 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 101000581815 Homo sapiens Regenerating islet-derived protein 3-alpha Proteins 0.000 description 1
- 101000920971 Homo sapiens Rootletin Proteins 0.000 description 1
- 101000650804 Homo sapiens Semaphorin-3E Proteins 0.000 description 1
- 101000783404 Homo sapiens Serine/threonine-protein phosphatase 2A 65 kDa regulatory subunit A alpha isoform Proteins 0.000 description 1
- 101000625859 Homo sapiens T-box transcription factor TBX6 Proteins 0.000 description 1
- 101000633632 Homo sapiens Teashirt homolog 3 Proteins 0.000 description 1
- 101000669970 Homo sapiens Thrombospondin type-1 domain-containing protein 4 Proteins 0.000 description 1
- 101000831496 Homo sapiens Toll-like receptor 3 Proteins 0.000 description 1
- 101000622236 Homo sapiens Transcription cofactor vestigial-like protein 3 Proteins 0.000 description 1
- 101000798707 Homo sapiens Transmembrane protease serine 13 Proteins 0.000 description 1
- 101000611194 Homo sapiens Trinucleotide repeat-containing gene 6A protein Proteins 0.000 description 1
- 101000997832 Homo sapiens Tyrosine-protein kinase JAK2 Proteins 0.000 description 1
- 101000934996 Homo sapiens Tyrosine-protein kinase JAK3 Proteins 0.000 description 1
- 101000955105 Homo sapiens WAS protein family homolog 2 Proteins 0.000 description 1
- 101000771618 Homo sapiens WD repeat-containing protein 62 Proteins 0.000 description 1
- 101000804908 Homo sapiens Xin actin-binding repeat-containing protein 2 Proteins 0.000 description 1
- 101000785626 Homo sapiens Zinc finger E-box-binding homeobox 1 Proteins 0.000 description 1
- 101000744897 Homo sapiens Zinc finger homeobox protein 4 Proteins 0.000 description 1
- 101000915634 Homo sapiens Zinc finger protein 479 Proteins 0.000 description 1
- 101000976250 Homo sapiens Zinc finger protein 804A Proteins 0.000 description 1
- 101000976244 Homo sapiens Zinc finger protein 804B Proteins 0.000 description 1
- 101000976415 Homo sapiens Zinc finger protein 814 Proteins 0.000 description 1
- 101000825848 Homo sapiens snRNA-activating protein complex subunit 4 Proteins 0.000 description 1
- 102100027004 Inhibin beta A chain Human genes 0.000 description 1
- 102100033501 Interleukin-32 Human genes 0.000 description 1
- 102100021449 KH homology domain-containing protein 4 Human genes 0.000 description 1
- 102100038297 Kallikrein-1 Human genes 0.000 description 1
- 108090000484 Kelch-Like ECH-Associated Protein 1 Proteins 0.000 description 1
- 102000004034 Kelch-Like ECH-Associated Protein 1 Human genes 0.000 description 1
- 102100024904 Keratin-associated protein 4-11 Human genes 0.000 description 1
- 102100028331 Keratin-associated protein 4-8 Human genes 0.000 description 1
- 102100027590 Keratin-associated protein 5-5 Human genes 0.000 description 1
- 102100033286 Leucine-rich repeat and IQ domain-containing protein 3 Human genes 0.000 description 1
- 102100027338 Lithostathine-1-beta Human genes 0.000 description 1
- 102100026395 Lysine-specific demethylase PHF2 Human genes 0.000 description 1
- 102100024132 Matrix metalloproteinase-27 Human genes 0.000 description 1
- 102100021070 Mediator of RNA polymerase II transcription subunit 12 Human genes 0.000 description 1
- 102100023724 Melanocortin receptor 4 Human genes 0.000 description 1
- 102000004866 Microtubule-associated protein 1B Human genes 0.000 description 1
- 108090001040 Microtubule-associated protein 1B Proteins 0.000 description 1
- 102100023123 Mucin-16 Human genes 0.000 description 1
- 102100022493 Mucin-6 Human genes 0.000 description 1
- 102100032966 Myomegalin Human genes 0.000 description 1
- 102100029166 NT-3 growth factor receptor Human genes 0.000 description 1
- 206010061309 Neoplasm progression Diseases 0.000 description 1
- 102100031810 Neurite extension and migration factor Human genes 0.000 description 1
- 102100037003 Neuroblastoma breakpoint family member 10 Human genes 0.000 description 1
- 102100030464 Neuron navigator 3 Human genes 0.000 description 1
- 102100025111 Neuronal tyrosine-phosphorylated phosphoinositide-3-kinase adapter 2 Human genes 0.000 description 1
- 102100033052 Nucleotidyltransferase MB21D2 Human genes 0.000 description 1
- 102100035615 Olfactory receptor 10G8 Human genes 0.000 description 1
- 102100027078 Olfactory receptor 10Z1 Human genes 0.000 description 1
- 102100036102 Olfactory receptor 14C36 Human genes 0.000 description 1
- 102100026691 Olfactory receptor 2B11 Human genes 0.000 description 1
- 102100026574 Olfactory receptor 2M2 Human genes 0.000 description 1
- 102100035537 Olfactory receptor 2T2 Human genes 0.000 description 1
- 102100035494 Olfactory receptor 2T33 Human genes 0.000 description 1
- 102100035686 Olfactory receptor 2T34 Human genes 0.000 description 1
- 102100027146 Olfactory receptor 4C15 Human genes 0.000 description 1
- 102100027147 Olfactory receptor 4C16 Human genes 0.000 description 1
- 102100025148 Olfactory receptor 4K2 Human genes 0.000 description 1
- 102100040741 Olfactory receptor 4M2 Human genes 0.000 description 1
- 102100040740 Olfactory receptor 4N2 Human genes 0.000 description 1
- 102100040575 Olfactory receptor 4N4 Human genes 0.000 description 1
- 102100026978 Olfactory receptor 51V1 Human genes 0.000 description 1
- 102100030038 Olfactory receptor 5D18 Human genes 0.000 description 1
- 102100031824 Olfactory receptor 5L2 Human genes 0.000 description 1
- 102100035642 Olfactory receptor 8H2 Human genes 0.000 description 1
- 102100038763 POTE ankyrin domain family member C Human genes 0.000 description 1
- 102100040154 Pappalysin-2 Human genes 0.000 description 1
- 102100026169 Phosphatidylinositol 3-kinase regulatory subunit alpha Human genes 0.000 description 1
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 description 1
- 102100032347 Poly(ADP-ribose) glycohydrolase Human genes 0.000 description 1
- 102100024168 Polymerase delta-interacting protein 2 Human genes 0.000 description 1
- 102100034311 Potassium voltage-gated channel subfamily B member 2 Human genes 0.000 description 1
- 102100040168 Pre-B-cell leukemia transcription factor 2 Human genes 0.000 description 1
- 102100029056 Protein FAM135B Human genes 0.000 description 1
- 102100039011 Protein FAM47A Human genes 0.000 description 1
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 1
- 102100028286 Proto-oncogene tyrosine-protein kinase receptor Ret Human genes 0.000 description 1
- 102100022134 Protocadherin Fat 3 Human genes 0.000 description 1
- 102100040913 Protocadherin-11 X-linked Human genes 0.000 description 1
- 102100028010 Putative STAG3-like protein 2 Human genes 0.000 description 1
- 102100039012 Putative protein FAM47C Human genes 0.000 description 1
- 108060007241 RYR2 Proteins 0.000 description 1
- 102000004912 RYR2 Human genes 0.000 description 1
- 102100035887 Ral GTPase-activating protein subunit beta Human genes 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 102100029981 Receptor tyrosine-protein kinase erbB-4 Human genes 0.000 description 1
- 101710100963 Receptor tyrosine-protein kinase erbB-4 Proteins 0.000 description 1
- 102100027336 Regenerating islet-derived protein 3-alpha Human genes 0.000 description 1
- 102100032198 Rootletin Human genes 0.000 description 1
- 108091006258 SLC6A10P Proteins 0.000 description 1
- 102100027752 Semaphorin-3E Human genes 0.000 description 1
- 102100036122 Serine/threonine-protein phosphatase 2A 65 kDa regulatory subunit A alpha isoform Human genes 0.000 description 1
- 102100024751 T-box transcription factor TBX6 Human genes 0.000 description 1
- 102100029222 Teashirt homolog 3 Human genes 0.000 description 1
- 102100039309 Thrombospondin type-1 domain-containing protein 4 Human genes 0.000 description 1
- 102100024324 Toll-like receptor 3 Human genes 0.000 description 1
- 102100023476 Transcription cofactor vestigial-like protein 3 Human genes 0.000 description 1
- 102100032467 Transmembrane protease serine 13 Human genes 0.000 description 1
- 102100040241 Trinucleotide repeat-containing gene 6A protein Human genes 0.000 description 1
- 102100033444 Tyrosine-protein kinase JAK2 Human genes 0.000 description 1
- 102100025387 Tyrosine-protein kinase JAK3 Human genes 0.000 description 1
- 102100024250 Ubiquitin carboxyl-terminal hydrolase CYLD Human genes 0.000 description 1
- 102100038949 WAS protein family homolog 2 Human genes 0.000 description 1
- 102100029478 WD repeat-containing protein 62 Human genes 0.000 description 1
- 102100036955 Xin actin-binding repeat-containing protein 2 Human genes 0.000 description 1
- 102000006076 ZNF598 Human genes 0.000 description 1
- 102100026457 Zinc finger E-box-binding homeobox 1 Human genes 0.000 description 1
- 102100039968 Zinc finger homeobox protein 4 Human genes 0.000 description 1
- 102100029034 Zinc finger protein 479 Human genes 0.000 description 1
- 102100023875 Zinc finger protein 804A Human genes 0.000 description 1
- 102100023869 Zinc finger protein 804B Human genes 0.000 description 1
- 102100023595 Zinc finger protein 814 Human genes 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 101150072346 anapc1 gene Proteins 0.000 description 1
- 208000036878 aneuploidy Diseases 0.000 description 1
- 231100001075 aneuploidy Toxicity 0.000 description 1
- 239000003146 anticoagulant agent Substances 0.000 description 1
- 229940127219 anticoagulant drug Drugs 0.000 description 1
- 230000010100 anticoagulation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007622 bioinformatic analysis Methods 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 239000001913 cellulose Substances 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 108010019691 inhibin beta A subunit Proteins 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000002147 killing effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 239000007791 liquid phase Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 201000004228 ovarian endometrial cancer Diseases 0.000 description 1
- JMANVNJQNLATNU-UHFFFAOYSA-N oxalonitrile Chemical compound N#CC#N JMANVNJQNLATNU-UHFFFAOYSA-N 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 102100022780 snRNA-activating protein complex subunit 4 Human genes 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 210000001179 synovial fluid Anatomy 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 108010064892 trkC Receptor Proteins 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
- 238000003260 vortexing Methods 0.000 description 1
- 230000005186 women's health Effects 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种构建目标区域测序文库的方法,包括:获取待测样本中的核酸,所述核酸由多个核酸片段组成;末端修复所述核酸片段,获得末端修复片段;加碱基A至所述末端修复片段的两端,获得粘性末端片段;连接接头于所述粘性末端片段的两端,获得接头连接片段;对所述接头连接片段进行第一扩增,获得第一扩增产物;利用试剂盒对所述第一扩增产物进行捕获,获得所述目标区域;以及对所述目标区域进行第二扩增,获得第二扩增产物,所述第二扩增产物即为所述目标区域测序文库;其中,所述试剂盒包含探针,所述探针能够特异性识别表1里的547个基因中的至少10个基因的基因区域。本发明还公开了一种测序方法、目标区域变异检测方法及其装置。
Description
技术领域
本发明涉及生物医学领域,具体的,本发明涉及一种构建目标区域测序文库的方法、一种测序方法、目标区域变异检测方法及装置。
背景技术
肿瘤是严重威胁人类健康的疾病之一,20世纪70年代以来,我国癌症发病及死亡率一直呈上升趋势,至90年代的20年间,癌症死亡率上升29.42%,年龄调整死亡率上升11.56%。2000年癌症发病人数约180-200万,死亡140-150万。恶性肿瘤发病率全国35岁至39岁年龄段为87.07/10万,40岁至44岁年龄段几乎翻番,达到154.53/10万;50岁以上人群发病占全部发病的80%以上,60岁以上癌症发病率超过1%,80岁达到高峰。全国肿瘤死亡率为180.54/10万,每年因癌症死亡病例达270万例。我国居民因癌症死亡的几率是13%[赫捷,陈万青.(2012).2012中国肿瘤登记年报.军事医学科学出版社:18-28.McBride,D.J.andA.K.Orpana,etal.(2010)."Useofcancer-specificgenomicrearrangementstoquantifydiseaseburdeninplasmafrompatientswithsolidtumors."GenesChromosomesCancer49(11):1062-1069.]。癌症不仅严重影响劳动人民的健康,而且成为医疗费用上涨的重要因素。我国每年耗费大量资金用于癌症病人的医疗费用,带来巨大的经济负担。
癌症的发生时一个渐进缓慢的过程,如能够对其做到早期发现,临床有效治疗,到术后复发监测进行全面控制,可有效的降低其发生率和死亡率,将有着巨大的经济效益和社会效益,寻找特异性的肿瘤标志物对早期筛查、术后监控等方面均有重要作用[KayabaH.Tumormarkers:essentialdiagnostictoolsforradiologists[J].NipponLgakuHoshasenGakkaiZasshi,2003,63(4):133-139]。
循环DNA是存在于血液、滑膜液等体液中的细胞外游离DNA,研究发现许多肿瘤患者循环DNA与正常人相比有很大差异,由于肿瘤细胞凋亡,癌症患者循环DNA中含有一定的肿瘤标志物。近年来肿瘤患者血液中循环游离DNA的基因检测诊断已成为研究热点,研究显示血液中循环肿瘤DNA有可能成为一种新的肿瘤早期诊断及预后判断的标志物。检测血液中循环游离DNA中的肿瘤标志物检测具有区别于传统组织肿瘤标志物检测方式,具有无创、随时监控和早期筛查等优势,并且对循环游离DNA的取样检测避免了当前分子诊断需要采集癌组织作为标本来源的困难,是一种很有潜力的肿瘤标志物。同时将血液肿瘤标志物与临床检验结合起来,可以辅助肿瘤的早期诊断和实时监控或者为肿瘤的早期诊断或监控提供重要线索,有可能能成为肿瘤的早期筛查和预后判断提供重要依据。
发明内容
依据本发明的一方面,提供一种构建目标区域测序文库的方法,所述方法包括:(a)获取待测样本中的核酸,所述核酸由多个核酸片段组成,所述核酸片段来自断裂的基因组DNA和/或游离的DNA;(b)末端修复所述核酸片段,获得末端修复片段;(c)加碱基A至所述末端修复片段的两端,获得粘性末端片段;(d)连接接头于所述粘性末端片段的两端,获得接头连接片段;(e)对所述接头连接片段进行第一扩增,获得第一扩增产物;(f)利用试剂盒对所述第一扩增产物进行捕获,获得所述目标区域;以及(g)对所述目标区域进行第二扩增,获得第二扩增产物,所述第二扩增产物构成所述目标区域测序文库;其中,所述试剂盒包含探针,所述探针能够特异性识别以下预定区域:表1里的547个基因中的至少10个基因的基因区域。本发明这一方面的测序文库构建方法,特别适用于样本含微量核酸的测序文库的构建,在本发明的一个实施例中,样本为含微量游离DNA的血浆样本,包含极其微量的目标游离DNA,第一扩增使得核酸的量能满足芯片/探针杂交捕获的需求,而因芯片杂交捕获会损耗一定量的核酸,第二扩增能使捕获下的目标片段获得再次扩增以满足上机测序和质控检测的要求。这一文库构建方法特别适用于总游离核酸不低于10ng或者常规组织基因组DNA不低于1μg的样本的测序文库构建。
表1
在本发明的一些实施例中,所述预定区域为所述547个基因中的至少20个、40个、80个、160个、320个或者全部所述547个基因的基因区域。本发明的这一方面方法中使用的试剂盒探针能够特异性识别的基因区域,是发明人经过多次收集、多次筛选和多次试验组合获得的,这些基因区域是常见肿瘤的发生或发育相关区域。所述常见肿瘤包括肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌和肝癌。利用本发明一方面的方法能够一次性、简单方便且高特异性的获取多种常见癌症的相关基因序列,并且对这些相关基因序列进行测序文库构建,接着进行序列测定,基于测定数据的检测分析结果可以辅助用于多种常见癌症的早期筛查判断,增加人为的早期干预肿瘤的发生发展的可能性和效果。目前大部分癌症如肺癌、肝癌、胃癌等在医院病理确诊时已是晚期,耽误了较早的治疗时间大大的减少治愈的可能性。
在本发明的一个实施例中,所述预定区域为所述547个基因中的表2所列的145个基因的基因区域。探针能够特异性识别的表2的145个基因的基因区域,是发明人经过多次收集、多次筛选和多次试验组合获得的,这些基因区域组合与肺癌的发生发展相关。利用本发明方法中的这一试剂盒中的探针,能够一次性的、简单方便且高特异性的获取全部肺癌相关基因序列,而且基于检测这些基因序列获取的信息能够辅助肺癌的早期筛查诊断。
表2
KRAS | ALK | ROS1 | ADAM23 | KIAA0907 | KRTAP5-5 | MAP1B |
EGFR | RB1 | FGFR3 | DNMT3B | GAB1 | TSHZ3 | ZNF814 |
TP53 | PDGFRA | FGFR4 | SDHAP2 | OR10Z1 | XIRP2 | ZFHX4 |
BRAF | KDR | JAK3 | DHX9 | CNTNAP3B | NYAP2 | ZNF804A |
PIK3CA | FBXW7 | APC | CSNK2A1 | IL32 | NUDT11 | OR5D18 |
ERBB2 | HRAS | FRG1B | CNTN5 | NAV3 | SNAPC4 | ZNF479 |
CDKN2A | JAK2 | CHEK2 | ATXN3 | TNRC6A | ZNF598 | OR51V1 |
NRAS | ERBB4 | KLK1 | CLIP1 | FAM135B | KIAA2022 | OR4N2 |
STK11 | KIT | NBPF10 | OR4M2 | VGLL3 | DDX11L2 | OR4C15 |
NFE2L2 | SMAD4 | PARG | OR10G8 | KRTAP4-11 | MUC6 | OR14C36 |
CTNNB1 | FGFR2 | FBN2 | PAPPA2 | ANAPC1 | ATXN1 | CROCC |
MET | DDR2 | HSD17B7P2 | OR8H2 | FAM47C | MUC16 | OR2T2 |
PTEN | ATM | WASH2P | PBX2 | AKAP6 | BEST3 | PCDH11X |
AKT1 | RET | POTEC | POLDIP2 | ZNF804B | DSPP | REG3A |
KEAP1 | NOTCH1 | EEF1B2 | SLC6A10P | ZEB1 | MB21D2 | REG1B |
DDX11 | EPB41L4A | TBX6 | PRB2 | OR2T34 | NTRK3 | LRRIQ3 |
DNAH8 | OR2M2 | WDR62 | CNTNAP2 | LPA | NTRK1 | EPHA5 |
OR2B11 | OR4C16 | DCAF4L2 | CDH10 | MMP27 | NF1 | OR5L2 |
OR4K2 | KCNB2 | EPHA3 | CDH12 | VAV3 | INHBA | OR2T33 |
FAM47A | STAG3L2 | PTPRD | RALGAPB | THSD4 | FGFR1 | GNA15 |
RYR2 | KRTAP4-8 | NOTCH2 | FOLH1 | OR4N4 |
在本发明的一个实施例中,所述预定区域为所述547个基因中的表3所列60个基因的基因区域。探针能够特异性识别的表3的60个基因的基因区域,是发明人经过多次收集、多次筛选和多次试验组合获得的,这些基因区域组合与结直肠癌的发生发展相关。利用本发明方法中的这一试剂盒中的探针,能够一次性的、简单方便且高特异性的获取全部结直肠癌相关基因序列,而且基于检测这些基因序列获取的信息能够辅助结直肠癌的早期筛查诊断。
表3
KRAS | SRC | TLR3 | EP300 | TMPRSS13 | EPHA5 |
BRAF | PTEN | MC4R | CYLD | PHF2 | EPHA3 |
APC | AXIN1 | MLH1 | FBN2 | OPRD1 | PTPRD |
TP53 | FLG | AKT1 | NF1 | LILRB5 | NTRK3 |
PIK3CA | LIG1 | CASD1 | ASXL1 | COL18A1 | NTRK1 |
CTNNB1 | MAP2K1 | PTCH1 | SMAD4 | LARP4B | ALK |
NRAS | PIK3R1 | ADAMTS18 | IRF5 | DMKN | ROS1 |
EGFR | ERBB2 | MSH2 | DOCK3 | ROBO2 | RET |
FBXW7 | STK11 | BAP1 | MYOM1 | KCNN3 | PDGFRA |
ARID1A | IL7R | CTNNA1 | NEFH | INHBA | FGFR1 |
在本发明的一个实施例中,所述预定区域为所述547个基因中的表4所列43个基因的基因区域。探针能够特异性识别的表4的43个基因的基因区域,是发明人经过多次收集、多次筛选和多次试验组合获得的,这些基因区域组合与妇科生殖道肿瘤的发生发展相关。所说的生殖道肿瘤包括卵巢癌、子宫内膜癌和宫颈癌。利用本发明方法中的这一试剂盒中的探针,能够一次性的、简单方便且高特异性的获取全部生殖道肿瘤相关基因序列,而且基于检测这些基因序列获取的信息能够辅助生殖道肿瘤的早期筛查诊断。
表4
AFF3 | BRCA2 | FBXW7 | MED12 | PDE4DIP | STK11 |
AKAP9 | CDK12 | FGFR2 | MLL2 | PIK3CA | TP53 |
AKT1 | CDKN2A | FGFR3 | MLL3 | PIK3R1 | |
APC | CREBBP | FOXL2 | MSH6 | PPP2R1A | |
ARID1A | CSMD3 | GNAS | NF1 | PTEN | |
BCOR | CTNNB1 | HRAS | NFE2L2 | RB1 | |
BRAF | EGFR | KIT | NRAS | RNF213 | |
BRCA1 | FAT3 | KRAS | NSD1 | RNF43 |
在本发明的一个实施例中,所述探针的长度为25-300nt,较佳的,为50-250nt,更佳的,为80nt-120nt。为获得能够在同一反应体系中同时特异性捕获所说的基因区域的探针,在本发明的一个实施例中,探针是通过先获得初始探针集,再筛选所述初始探针集来确定的。获取所述初始探针集包括:确定所述基因区域的参考序列,从所述参考序列的一端开始,在所述参考序列上依次获取DNA片段直至所述参考序列的另一端,其中,一条DNA片段为一条初始探针,全部所述DNA片段构成所述初始探针集,所述DNA片段之间完全重叠、部分重叠或完全不重叠,所述初始探针集能够覆盖所述基因区域至少一次。所说的基因区域的参考序列可以从参考基因组上获取,例如从人参考基因组HG19上获得对应的基因区域,所有的HG19上的对应的基因区域构成所说的基因区域的参考序列,HG19可以从NCBI数据库下载。在本发明的一个实施例中,利用迭代算法设计获取所述初始探针集,包括:确定所述基因区域在参考基因组上的位置,获取所述基因区域的参考序列,从所述参考序列的第一个核苷酸开始拷贝所述参考序列获取第一条DNA片段,从所述参考序列的第二个核苷酸开始拷贝所述参考序列获取第二条DNA片段,从所述参考序列的第三个核苷酸开始拷贝所述参考序列获取第三条DNA片段,这样依次获取后续DNA片段直至第N条DNA片段的一端超出所述参考序列,其中,一条DNA片段为一条初始探针,全部所述DNA片段构成所述初始探针集,N为所述初始探针集中包含的初始探针的总数,以获得能够全面覆盖目标基因区域的初始探针集,而且为使最终的探针具高特异性,在本发明的一个实施例中,进一步对所述筛选初始探针集,包括:将所述DNA片段(初始探针集)与所述参考序列比对,获得每一条DNA片段在参考序列上的比对次数,过滤掉比对次数超过1的DNA片段。为使最终的探针能在同一反应体系中捕获所说的基因区域,和/或使捕获的基因区域在同一反应条件下被一起洗脱下来,进一步对所述初始探针集进行筛选,包括:去除掉GC含量不在35-70%的DNA片段。
依据本发明的另一方面,本发明提供一种测序方法,所述方法包括:根据上述本发明一方面或者任一具体实施方式中的测序文库构建方法构建目标区域测序文库;对所述目标区域测序文库进行测序,获得测序数据,所述测序数据由多个读段组成。前述对本发明一方面的目标区域测序文库得构建方法的技术特征和优点的描述,也适用于本发明这一方面的测序方法,在此不再赘述。所说的测序可以利用已知平台进行,包括但不限于Illumina的Hiseq2000/2500平台、LifeTechnologies的IonTorrent平台和单分子测序平台。测序方式可以选择单端测序,也可以是双末端测序,在本发明的一个实施例中利用双末端测序,所得的测序数据由多对读段对组成。利用本发明的目标区域文库构建方法以及测序方法,测序后的下机数据质量高,基于高质量的下机数据利于后续的准确检测分析。
依据本发明的再一方面,本发明提供一种检测目标区域变异的方法,所述方法包括:(1)利用上述本发明一方面或者任一具体实施方式中的测序方法,获得测序数据;(2)基于所述测序数据,检测所述目标区域变异,获得变异位点信息,所述变异包括SNV、InDel、SV和CNV至少之一。在本发明的一个实施例中,步骤(2)包括:将所述测序数据与参考序列进行第一比对,获得第一比对结果;将所述第一比对结果与所述参考序列的一部分进行第二比对,获得第二比对结果;基于所述第一比对结果和所述第二比对结果,同时检测所述目标区域中的SNP、InDel、SV和CNV变异。
为使变异检测结果更准确可信,在本发明的一个实施例中,在所述第一比对之前,对所述测序数据进行过滤,所述过滤包括去除掉不确定碱基比例超过10%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段。并且任选地,在所述第二比对之前,去除掉第一比对结果中的一个读段对中的两个读段相同的读段对。所说的参考序列的一部分包括目标区域参考序列中的每个已知InDel位点,以及所述每个已知InDel位点上下游各1000bp的参考序列。这里,所说的第二比对为局部比对,第一比对为常规全局比对,可利用但不限于SOAP或BWA等软件依照其默认设置进行,获得第一比对结果,第一比对结果包括读段在参考序列上的匹配位置及匹配情况信息,在本发明的一个实施例中,进行第二比对即基于第一比对结果,对与所捕获的基因区域对应的参考序列中的所有已知INDEL附近的所有序列信息(reads)进行局部重新比对,能够消除第一比对中的错误,提高后续变异检测的准确性,第二比对可利用GATK重比对软件(https://www.broadinstitute.org/gatk/)进行。在本发明的一个实施例中,通过GATKUnifiedGenotyper软件同时检测所说的SNP和INDEL变异。利用本发明的这一方面的变异检测方法,能够准确检测出突变频率为1%的低频突变。
在本发明的一个实施例中,步骤(2)还包括,当所检测出的变异位点中的至少之一满足以下,则判定所测样本为阳性样本:在阴性对照样本中的读段支持数少于2和在阳性对照样本中的突变率大于1%。在本发明的另一个实施例中,步骤(2)还包括,当所检测出的变异位点中的至少之一满足以下,则判定所测样本为阳性样本:测序深度不小于10X,至少有3个读段的支持,在阴性对照样本中的读段支持数少于2,在阳性对照样本中的突变率大于1%,以及变异位点的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异。所说的阳性样本指肿瘤样本,包括但不限于肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌或肝癌样本。实施例中的两个判定条件是发明人结合目前相关数据库信息和大量文献报道信息、检测统计大量阳性样本和大量阴性样本确定下来的,具有统计意义,后者比前者更为严格,较佳的,这里的阳性或者阴性对照样本超过30个,对照样本的数据可以自己对对照样本的核酸进行提取、序列测定来获得,也可以依照他人已公开或公开数据库中的的样本测序数据,多个对照样本数据使统计判定条件/结果具有统计意义,更加可信。依据两个判定条件中的任一判定的结果可以辅助用于临床的肿瘤诊断筛查,可辅助用于了解所测样本个体癌变的可能性及病情发展情况等。需要说明的是,所说的变异位点在待测样本中的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异,其中的读段支持量,可以为支持该变异的读段的数目,也可以是支持该变异的读段在比对上该位点读段中的比例,在本发明的一个实施例中,采用后者来比较,所说的具有显著差异指具有实质差异,例如对于待测样本中的变异位点A,多个阳性样本(cancer样本)中的reads支持比例都为5/400(变异5条reads,总400条reads),即阳性样本中该位点的平均变异频率1.25%,而在多个阴性对照样本中的reads支持比例都为1/200(变异1条reads,总200条reads),即阴性对照样本中的平均变异频率0.5%,若待测样本中的该变异位点的变异频率更接近1.25%,例如达到0.9%,则达到所说的显著差异或者所说的实质差异。具有显著差异,也可以指统计学上的对数据差异性的评价——显著性差异,例如对待测样本中的变异位点A进行多次检测,获得该位点的多组比对结果数据,从每组比对结果数据中都可获得一个读段支持比例,所说的读段支持比例=支持该变异位点的读段数/比对上该位点的总读段数,接着比较待测样本的变异位点A的读段支持比例(变异频率)与阴性对照样本中的该位点的突变频率的差异,例如可以利用z检验或t检验,差异具有显著性(p≤0.05),即认为达到所说的具有显著差异。
血液游离DNA含量会随着肿瘤病情的发展以及转移性肿瘤的发生而产生变化,但整体上血浆游离肿瘤DNA的含量会较癌组织中获取到的DNA含量低很多,尤其是对于早期筛查以及预后监控的样本来说,含量会更低,这使得血浆游离DNA中的肿瘤标志物突变频率较癌组织频率低,这就需要对血浆游离DNA进行超高的深度测序,才能更准确的检出早期发生的肿瘤标志物,传统的测序实验方法应用于血浆游离DNA,检测灵敏度低,特异性差,无法很好的达到用于早期筛查、预后监控以及个体化用药指导所需的数据水平,这就需要开发可利用微量血浆游离DNA,且进行高深度覆盖度测序的检测方法。本发明的这一方面的对微量血液游离DNA进行目标区域芯片捕获测序的方法,是基于高通量测序技术平台和芯片捕获技术,采用优化的血浆游离DNA提取及测序建库方法,使用本发明中的肿瘤个体化芯片进行目标区域捕获,对血浆游离DNA进行超高深度DNA测序,同时基于生物信息分析方法,在样本包含微量核酸、肿瘤标志物突变频率较低的情况下,也能够准确检测出这些低频突变,对于进行早期诊断、预后监控以及个体化的致病分析及用药指导,有重要意义,能够用于有效辅助临床检测结果,达到无创诊疗、随时监控,也能辅助临床上对肿瘤患者准确的个体化致病分析及用药指导,为全面实现肿瘤个体化诊疗奠定基础。
依据本发明的一方面,本发明还提供一种检测目标区域变异的装置,用以实现或执行上述本发明一方面的或者任一具体实施方式的目标区域变异检测方法,所述装置包括:数据获取单元,用于实现上述本发明一方面的测序方法,获取目标区域的测序数据,所述测序数据由多个读段组成;检测单元,用于基于来自数据获取单元的测序数据,检测所述目标区域变异,获得变异位点信息,所述变异包括SNP、InDel、SV和CNV至少之一。本领域人员可以理解,本发明的装置中的全部或部分单元,可选择的、可拆卸的包含一个或多个子单元以执行或实现前述本发明方法的各个具体实施方式。
例如,在本发明的一个实施例中,如图1所示,装置1000中的检测单元200包括第一比对子单元13、第二比对子单元15和变异识别子单元17,所述第一比对子单元13用以将来自数据获取单元100的测序数据与参考序列进行第一比对,获得第一比对结果,所述第二比对子单元15用以将来自所述第一比对子单元13的第一比对结果与所述参考序列的一部分进行第二比对,获得第二比对结果,所述变异识别子单元17用以基于来自所述第一比对子单元13的第一比对结果和来自所述第二比对子单元15的第二比对结果,同时检测所述目标区域中的SNV、InDel、SV和CNV变异中的至少两种变异,获得变异位点信息,其中,所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点,以及所述每个已知InDel位点上下游各1000bp的参考序列。在本发明的一个实施例中,如图2所示,所述装置1000的检测单元200还包括第一过滤子单元12,所述第一过滤子单元12与所述第一比对子单元13连接,用于在所述测序数据进入所述第一比对子单13元之前,对所述测序数据进行过滤,所述过滤包括去除掉不确定碱基比例超过10%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段。任选的,如图3所示,所述检测单元200还包括第二过滤子单元14,所述第二过滤子单元分别14与所述第一比对子单元13和所述第二比对子单元15连接,用于在所述第一比对结果进入所述第二比对子单元15之前,去除掉来自所述第一比对子单元13的第一比对结果中的一个读段对中的两个读段相同的读段对。上述参考序列可以为HG19,所述第一比对单元中进行的第一比对为全局比对,所述第二比对子单元中进行的第二比对为局部比对。在本发明的一个实施例中,如图4所示,所述装置1000中的检测单元200还包括判定子单元19,所述判定子单元19用以判定来自所述变异识别子单元17中的变异位点是否满足以下,当所述变异位点中的至少一个满足以下则判定所述待测样本为阳性样本:在阴性对照样本中的读段支持数少于2条和在阳性对照样本中的突变率大于1%。在本发明的另一个实施例中,所述检测单元200还包括判定子单元19,所述判定子单元19用以判定来自所述变异识别子单元17中的变异位点是否满足以下,当所述变异位点中的至少一个满足以下则判定所述待测样本为阳性样本:测序深度不小于10X,至少有3个读段的支持,在阴性对照样本中的读段支持数少于2条,在阳性对照样本中的突变率大于1%,以及变异位点的读段支持量与正常对照样本相同位点的读段支持量具有显著差异。前述对本发明一方面或者任一具体实施方式中的目标区域变异检测方法的技术特征和优点的描述,同样适用于本发明这一方面的检测装置,在此不再赘述。
正常人外周血中的游离血浆DNA(cfDNA)的浓度为1-100ng/mL,而肿瘤患者外周血中的循环肿瘤DNA(ctDNA)含量将明显增加,由于肿瘤细胞分泌、凋亡或坏死所产生基因组片段入血,使肿瘤患者外周血中的ctDNA含量平均浓度可达180ng/mL,利用本发明的方法和/或装置,通过对肿瘤患者外周血ctDNA的含量变化及突变情况进行定时监控,可应用或者辅助应用于以下至少之一:肿瘤的早期诊断检测,遗传性肿瘤预测及状态评估,肿瘤早期发病进展检测,肿瘤术后效果检测评估,肿瘤靶向治疗、化疗治疗基因变异情况分析,肿瘤致病基因微量残留检测,肿瘤耐药性基因变异情况分析。将本发明的方法和/或装置辅助于肿瘤临床诊断,具有如下优势:微创性:受检者只需要提供5-10mL外周血样本;实时性:可对受检者进行多次实时采血,早期筛查时可定期检测,监控肿瘤发病风险,肿瘤患者可在手术后、化疗用药/靶向用药后随时检测,以分析手术预后情况及用药的灵敏性、耐药性情况等;高灵敏度:不受限与病灶位置及大小,通过高深度的目标区域捕获测序,可以检测出突变频率为1%的低频变异,对于肿瘤发病早期以及肿瘤治疗复发后所出现的变异能够及时准确检出;高特异性:在ctDNA含量较少的情况下,能够保证较低的假阳性率、假阴性率,确保得到的检测结果能够准确的反应受检者实时外周血状况;高通量:基于新一代测序技术的目标区域捕获测序,能够在很短的时间内同时进行多例样本检测,并且在目标区域捕获芯片的使用下,相同数据量可进行更高深度的数据挖掘。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明的一个实施例中的目标区域变异检测装置的结构示意图;
图2是本发明的一个实施例中的目标区域变异检测装置的结构示意图;
图3是本发明的一个实施例中的目标区域变异检测装置的结构示意图;
图4是本发明的一个实施例中的目标区域变异检测装置的结构示意图。
具体实施方式
本发明中的“变异”、“核酸变异”、“基因变异”可通用,本发明中的“SNP”(SNV)、“CNV”、“插入缺失”(indel)和“结构变异”(SV)同通常定义,但本发明中对各种变异的大小不作特别限定,这样这几种变异之间有的有交叉,比如当插入/缺失的为大片段甚至整条染色体时,也属于发生拷贝数变异(CNV)或是染色体非整倍性,也属于SV。这些类型变异的大小交叉并不妨碍本领域人员通过上述描述执行实现本发明的方法和/或装置并且达到所描述的结果。
本发明中的“参考序列”为已知基因组序列或者已知基因组序列的至少一部分,本发明中所使用的“第一”、“第二”等仅为方便描述指代,不能理解为指示或暗示相对重要性,也不能理解为有先后顺序关系。本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
下面通过具体的实施例,对本发明进行说明,需要说明的是这些实施例仅仅是为了说明目的,而不能以任何方式解释成对本发明的限制。
实现本发明一方面的方法和/或装置,一般包括目标区域捕获探针/芯片的设计、微量样本建库及上机测序、下机数据的生物信息分析和变异数据解读。
一、目标区域捕获芯片设计
基于TCGA、ICGC、COSMIC等数据库和收集提取大量相关参考文献中的信息,采用迭代算法设计出能够用于或者辅助用于肿瘤早诊、术后监控以及肿瘤治疗(放化疗、靶向药物治疗等)效果监控的目标区域捕获芯片CANPer,CANPer为液相芯片。CANPer芯片包括了常见高发癌症的相关驱动基因(DriverGene)、高频突变基因、癌症相关12条信号通路中重要基因,共计547个基因,300Kb。基因列表详见表1。
二、样本制备
抽取肺癌结节早期患者外周血5-10mL,存于EDTA抗凝管中,在4-6小时内对外周血进行分离,得到血浆游离DNA(cfDNA),cfDNA中包含来自肿瘤细胞的DNA(ctDNA);
cfDNA定量检测;
文库制备及测序
对cfDNA片段进行末端修复;
对cfDNA片段末端加A;
连接Adapter文库接头:文库接头(Adapter)是指经过设计的一段碱基序列,作用在于cfDNA/ctDNA文库扩增时与引物相结合,使DNA扩增进行,并且在上机测序时与测序引物相结合,利于测序引物与待测序位点结合辅助DNA测序进行。
文库进行第一轮PCR扩增;
扩增后文库质控并与上述探针/芯片杂交;
杂交文库进行第二轮PCR扩增;
文库定量及质控;
IlluminaHiSeq2500/2000上机测序,测序深度达300X以上。
三、目标区域捕获测序下机数据进行生物信息分析
获得下机数据后需进行如下生物信息分析,得到最终的变异结果
SOAPnukefilter:去除低质量reads;
与reference序列比对,产生bam文件;
标记重复序列;
比对结果不好的序列重新比对,并校正质量值;
去除错配序列;
分析下机数据QC;
寻找变异;
对变异结果进行注释,得到最终数据结果。
四、基因预测药物疗效数据库构建及肿瘤变异解
化疗药物对肿瘤细胞的杀伤效应于特定的一种(一组)基因的表达和/或多态性显著相关,通过相关基因的检测,预测化疗药物的疗效,选择合适的药物进行个体化化疗,已经成为提高疗效、减少无效治疗、降低毒副作用的合理选择。基于化疗药物特点,参考多个相关数据库,整合目前临床上所有的化疗药物、与疗效相关的基因以及疗效预测评判,形成化疗个体化用药解读数据库,并将化疗数据整合入肿瘤个体化生物信息分析流程,完成化疗药物的数据库构建及自动化解读。表5显示所说的数据库中包含的部分变异和药物的关联关系。
表5
靶向药物在肿瘤治疗中具有药效显著、毒副作用小的特点,但其对靶点(包括蛋白、基因等)有特异性依赖,必须先对患者做靶点分析,才能确定患者是否适合用药。整合目前FDA批准的靶向药物,以及处于临床II、III期药物,依据NCCN临床治疗指南,最新的临床药物基因研究,整理药物靶点基因与靶向药物疗效关系,形成肿瘤个体化靶向药物解读数据库。
对生物信息分析后的变异数据进行个体化解读,参考构建的肿瘤数据库及相关文献,对患者检出的变异进行分析,判断变异所产生的致病原因、各种化疗药物的预期疗效及毒副作用、最适合的获益靶向药物及耐药性靶向药物,辅助临床医生诊断判断,使其对肿瘤患者的用药治疗更有针对性,免去无效用药所耽误的宝贵时间以及毒副作用给患者带去的治疗痛苦。
实施例
以下具体实施过程以结直肠癌患者的外周血血浆作为研究对象,样本来自天津妇幼保健院,内容如下:
(一)外周血样本分离
1)采集受检者外周血1-2管(5mL/管)于EDTA抗凝管中,轻柔上下颠倒(防止细胞破裂)6-8次充分混匀,在采血当天4-6小时内进行以下处理;
2)在4℃条件下1600g离心10分钟,离心后将上清(血浆)分装到多个1.5mL/2mL离心管中,在吸取过程中不能吸到中间层白细胞;
3)在4℃条件下16000g离心10分钟,去除残余细胞,将上清(血浆)转移到新的1.5mL/2mL离心管中,不能吸到管底白细胞,即得到分离后所需血浆;
4)血浆样本处理完后,分离得到的血浆及剩余血细胞均保存到-80℃冰箱中,避免反复冻融。
(二)血浆游离DNA提取(采用QIAampCirculatingNucleicAcidKit)
1)加30μL蛋白酶K至1.5mL离心管中;
2)加入300μL血浆;
3)加入240μLBufferACL和1.68μLCarrierRNA(0.2μg/μL),涡旋振荡30s,60℃温浴30min,温浴期间适当取出振荡;
4)加入540μLBufferACB,涡旋振荡15-30s,冰上或-20℃冰箱放置5min;
5)取700μL血浆混合物加入过滤柱中,7500rpm离心30s;
6)过滤柱空甩8000rpm,1min;
7)加入600μLBufferACW1,8000rpm,1min离心洗涤;
8)加入700μLBufferACW2,8000rpm,1min离心洗涤;
9)加入700μL无水乙醇,8000rpm,1min离心洗涤;
10)过滤柱空甩14000rpm,3min;
11)把过滤柱放入新收集管中,打开盖子,56℃金属浴10min;
12)将柱子放入新离心管汇总,加入60μLBufferAVE回溶3min;
13)14.000rpm离心1min,Qubit(Invitrogen,theQuant-iTTMdsDNAHSAssayKit)定量质控所提取的cfDNA。
(三)文库构建(采用KAPALTPLibraryPreparationKit)
1)末端修复
反应后加入AgencourtAMPureXPreagent120μL,磁珠纯化后,使用42μLddH2O回溶,带磁珠进行下一步反应;
a)末端加A
反应后加入PEG/NaClSPRISolution90μL,充分混合并进行磁珠纯化,下步Adapter连接反应体系中Adapter和ddH2O加入量按照下面公式进行计算:10nM*建库起始DNA量(ng)*Adaper用量(μL)=15μM(Adapter浓度)*50μL,使用ddH2O用量(μL)=35μL-Adapter用量(μL)回溶,进行下一步反应;
3)接头连接
反应后,加入PEG/NaClSPRISolution50μL,进行第一次磁珠纯化,使用50μLTris-HCl(1mM,pH8.0)回溶;
再加入PEG/NaClSPRISolution50μL,进行第二次磁珠纯化,使用25μLTris-HCl(1mM,pH8.0)回溶;
4)第一轮PCR扩增
反应后加入AgencourtAMPureXPreagent90μL,磁珠纯化后,使用31μLddH2O回溶,取上清后质控并进行芯片杂交。
5)目标区域捕获芯片杂交
本实施例中采用委托Roche合成的上述基因芯片CANPer-1.75M,参照芯片制造商提供的说明书进行杂交捕获及洗脱。最后使用21μLddH2O回溶杂交洗脱磁珠。
6)第二轮PCR扩增
反应后加入AgencourtAMPureXPreagent108μL,磁珠纯化后,使用31μLEB回溶,取上清后质控并上机测序。
7)上机测序
本实施例中,采用IlluminaHiSeq2500PE101+8+101程序进行上机测序,测序实验操作按照制造商提供的操作说明书(参见Illumina/Solexa官方公布cBot)进行上机测序操作。
(四)下机数据生物信息分析解读
表6和表7分别为测序信息及测序数据统计结果。
表6
表7
基于测序数据,进行以下:
1)SOAPnukefilter:去除n≥10%和碱基质量值≤5的碱基数目>50%的reads;
2)Bwaaln->sampe|samtoolsview|samtoolssort:与reference序列比对,产生bam文件;
3)MarkDuplicates.jar:将同一个pe的相同的reads标记为重复;
4)GenomeAnalysisTK.jar-TRealignerTargetCreator、IndelRealigner:将比对不好的reads重新比对;
5)GenomeAnalysisTK.jar-TBaseRecalibrator、PrintReads:校正质量值;
6)Filt_bam:去掉错配(mismatch)碱基≥3个的reads;
7)QC:统计芯片的捕获效率、有效reads数、平均深度、重复率、覆盖度及未被覆盖的区间等信息;
8)识别SNV/InDel/SV/CNV及筛选其中的高频变异位点:
用MuTect(http://www.broadinstitute.org/cancer/cga/mutect)、varScan(http://massgenomics.org/varscan)流程识别出SNP变异;
用gatk(https://www.broadinstitute.org/gatk/)、varScan、ForestSV(http://sebatlab.ucsd.edu/index.php/software-data)流程识别出InDel变异;
用contra.py(http://contra-cnv.sourceforge.net/)流程识别出CNV;
用ForestSV(http://sebatlab.ucsd.edu/index.php/software-data)流程识别出SV;
所使用的筛选参数为:测序深度≥10X,在阴性(正常)样本中的变异率≤2%,在阳性样本中的变异率≥1%,在该待测样本数据中支持该变异的reads数≥3,与正常对照(体细胞)的读段支持比例具有显著差异(p≤0.05)。表8显示所检样本的部分高频变异筛选结果。
表8
基因 | 碱基突变 | 氨基酸突变 | 突变频率 |
KRAS | c.[35G>A] | p.[G12D] | 12.6% |
APC | c.[1378G>T] | p.[E460*] | 16.98% |
APC | c.[3992_3993insAACC] | p.[R1331fs*?] | 7.76% |
SMAD4 | c.[1157G>T] | p.[G386V] | 3.8% |
ARID1B | c.[299T>A] | p.[L100H] | 5.88% |
SEMA3E | c.[2315C>T] | p.[T772M] | 15.98% |
CHEK2 | c.[1489G>T] | p.[D497Y] | 3.62% |
基于上述经过严格生物信息分析后的变异结果,结合化疗药物与靶向药物相关基因数据库,对结直肠癌患者的变异基因进行详细解读,部分解读结果如表9所示,分析各变异与患者发病的相关性,分析临床化疗药物与靶向药物的用药可获益性、耐药性及毒副作用。辅助临床给出肿瘤个体化基因检测报告,辅助临床检验以及为医生后续治疗提供基因参考。
表9
上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明技术方案所做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (10)
1.一种构建目标区域测序文库的方法,其特征在于,包括:
(a)获取待测样本中的核酸,所述核酸由多个核酸片段组成,所述核酸片段来自断裂的基因组DNA和/或游离的DNA;
(b)末端修复所述核酸片段,获得末端修复片段;
(c)加碱基A至所述末端修复片段的两端,获得粘性末端片段;
(d)连接接头于所述粘性末端片段的两端,获得接头连接片段;
(e)对所述接头连接片段进行第一扩增,获得第一扩增产物;
(f)利用试剂盒对所述第一扩增产物进行捕获,获得所述目标区域;以及,
(g)对所述目标区域进行第二扩增,获得第二扩增产物,所述第二扩增产物构成所述目标区域测序文库;其中,
所述试剂盒包含探针,所述探针能够特异性识别以下预定区域:表1里的547个基因中的至少10个基因的基因区域;
任选的,所述预定区域为所述547个基因中的至少20个基因的基因区域;
任选的,所述预定区域为所述547个基因中的至少40个基因的基因区域;
任选的,所述预定区域为所述547个基因中的至少80个基因的基因区域;
任选的,所述预定区域为所述547个基因中的至少160个基因的基因区域;
任选的,所述预定区域为所述547个基因中的至少320个基因的基因区域;
任选的,所述预定区域为所述547个基因中的表2所列145个基因的基因区域;
任选的,所述预定区域为所述547个基因中的表3所列60个基因的基因区域;
任选的,所述预定区域为所述547个基因中的表4所列43个基因的基因区域;
任选的,所述预定区域为所述547个的基因区域。
2.权利要求1的方法,其特征在于,所述探针的长度为25-300nt。
3.权利要求1的方法,其特征在于,所述探针的获得包括,获得初始探针集以及筛选所述初始探针集;
任选的,所述获得初始探针集包括:
确定所述基因区域的参考序列,
从所述基因区域参考序列的一端开始,在所述基因区域参考序列上依次获取DNA片段直至所述基因区域参考序列的另一端,其中,
一条DNA片段为一条初始探针,全部所述DNA片段构成所述初始探针集,所述DNA片段之间完全重叠、部分重叠或完全不重叠,所述初始探针集能够覆盖所述基因区域至少一次;
任选的,所述获取初始探针集包括:
确定所述基因区域在参考基因组上的位置,获取所述基因区域的参考序列,
从所述基因区域参考序列一端的第一个核苷酸开始拷贝所述参考序列获取第一条DNA片段,
从所述基因区域参考序列一端的第二个核苷酸开始拷贝所述参考序列获取第二条DNA片段,
从所述基因区域参考序列一端的第三个核苷酸开始拷贝所述参考序列获取第三条DNA片段,
这样依次获取后续DNA片段直至第N条DNA片段的一端超出所述基因区域参考序列的另一端,其中,
一条DNA片段为一条初始探针,全部所述DNA片段构成所述初始探针集,N为所述初始探针集中包含的初始探针的总数。
4.权利要求3的方法,其特征在于,所述筛选初始探针集包括:
将所述DNA片段与所述参考序列比对,获得每一条DNA片段在参考序列上的比对次数,过滤掉比对次数超过1的DNA片段;
任选的,所述筛选初始探针还包括,去除掉GC含量不在35-70%的DNA片段。
5.一种测序方法,其特征在于,包括:
根据权利要求1-4任一方法构建目标区域测序文库;
对所述目标区域测序文库进行测序,获得测序数据,所述测序数据由多个读段组成;
任选地,所述测序为双末端测序,所述测序数据由多对读段对组成。
6.一种检测目标区域变异的方法,其特征在于,包括,
(1)利用权利要求5的方法,获得测序数据;
(2)基于所述测序数据,检测所述目标区域变异,获得变异位点信息,所述变异包括SNV、InDel、SV和CNV至少之一。
7.权利要求6的方法,其特征在于,步骤(2)包括,
将所述测序数据与参考序列进行第一比对,获得第一比对结果;
将所述第一比对结果与所述参考序列的一部分进行第二比对,获得第二比对结果;
基于所述第一比对结果和所述第二比对结果,同时检测所述目标区域中的SNP、InDel、SV和CNV变异中的至少两种;其中,
所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点,以及所述每个已知InDel位点上下游各1000bp的参考序列。
8.权利要求7的方法,其特征在于,在所述第一比对之前,对所述测序数据进行过滤,所述过滤包括去除掉不确定碱基比例超过10%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段。
9.权利要求7或8任一方法,其特征在于,在所述第二比对之前,去除掉第一比对结果中的一个读段对中的两个读段相同的读段对;
任选地,所述参考序列为HG19;
任选地,所述第一比对为全局比对,所述第二比对为局部比对。
10.权利要求6-9任一方法,其特征在于,步骤(2)还包括,当所述变异位点中的至少之一满足以下(i)或(ii),则判定所述待测样本为阳性样本:
(i)在阴性对照样本中的读段支持数少于2条和在阳性对照样本中的突变率大于1%;
(ii)测序深度不小于10X,至少有3个读段的支持,在阴性对照样本中的读段支持数少于2条,在阳性对照样本中的突变率大于1%,以及变异位点的读段支持量与正常对照样本相同位点的读段支持量具有显著差异。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410779502.9A CN105780129B (zh) | 2014-12-15 | 2014-12-15 | 目标区域测序文库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410779502.9A CN105780129B (zh) | 2014-12-15 | 2014-12-15 | 目标区域测序文库构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105780129A true CN105780129A (zh) | 2016-07-20 |
CN105780129B CN105780129B (zh) | 2019-06-11 |
Family
ID=56374777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410779502.9A Active CN105780129B (zh) | 2014-12-15 | 2014-12-15 | 目标区域测序文库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105780129B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106835291A (zh) * | 2016-12-14 | 2017-06-13 | 广州燃石医学检验所有限公司 | Dna 文库的制备方法以及试剂盒 |
CN107090503A (zh) * | 2017-04-27 | 2017-08-25 | 元码基因科技(北京)有限公司 | 探针组合物、基因捕获芯片、试剂盒及其应用 |
CN107723352A (zh) * | 2016-08-12 | 2018-02-23 | 嘉兴允英医学检验有限公司 | 一种循环肿瘤dna肝癌驱动基因高通量检测方法 |
CN109376711A (zh) * | 2018-12-06 | 2019-02-22 | 深圳市淘米科技有限公司 | 一种基于iltp的人脸情绪预判方法 |
CN109754845A (zh) * | 2018-12-29 | 2019-05-14 | 浙江安诺优达生物科技有限公司 | 模拟目标疾病仿真测序文库的方法及其应用 |
CN109852672A (zh) * | 2017-11-30 | 2019-06-07 | 深圳豪石生物科技有限公司 | 一种筛选急性髓系白血病dna甲基化预后标志物的方法 |
CN109957606A (zh) * | 2019-04-17 | 2019-07-02 | 杭州西合森医学检验实验室有限公司 | 靶向药耐药性检测试剂的测序文库构建方法 |
TWI694464B (zh) * | 2017-09-13 | 2020-05-21 | 日商三菱太空軟體股份有限公司 | 複製數計測裝置、複製數計測程式產品、複製數計測方法以及基因集合 |
WO2021051665A1 (zh) * | 2019-09-20 | 2021-03-25 | 上海臻迪基因科技有限公司 | 基因目标区域的富集方法及体系 |
CN114898802A (zh) * | 2022-07-14 | 2022-08-12 | 臻和(北京)生物科技有限公司 | 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000026412A1 (en) * | 1998-11-02 | 2000-05-11 | Kenneth Loren Beattie | Nucleic acid analysis using sequence-targeted tandem hybridization |
CN101292044A (zh) * | 2005-08-12 | 2008-10-22 | 新加坡科技研究局 | 寡核苷酸设计和/或核酸检测的方法和/或装置 |
CN102409048A (zh) * | 2010-09-21 | 2012-04-11 | 深圳华大基因科技有限公司 | 一种基于高通量测序的dna标签文库构建方法 |
CN103290137A (zh) * | 2013-06-26 | 2013-09-11 | 北京迈基诺基因科技有限责任公司 | 一种肿瘤易感基因的筛查方法 |
CN103757709A (zh) * | 2013-10-23 | 2014-04-30 | 上海美吉生物医药科技有限公司 | 乳腺癌相关基因的捕获及其探针的制备方法及应用 |
CN103806111A (zh) * | 2012-11-15 | 2014-05-21 | 深圳华大基因科技有限公司 | 高通量测序文库的构建方法及其应用 |
CN104032001A (zh) * | 2014-06-11 | 2014-09-10 | 上海交通大学医学院附属新华医院 | 用于胆囊癌预后评估的erbb信号通路突变靶向测序方法 |
CN104109709A (zh) * | 2014-04-04 | 2014-10-22 | 北京泛生子生物科技有限公司 | 用于癌症个体化诊断治疗的重要基因富集方法 |
-
2014
- 2014-12-15 CN CN201410779502.9A patent/CN105780129B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000026412A1 (en) * | 1998-11-02 | 2000-05-11 | Kenneth Loren Beattie | Nucleic acid analysis using sequence-targeted tandem hybridization |
CN101292044A (zh) * | 2005-08-12 | 2008-10-22 | 新加坡科技研究局 | 寡核苷酸设计和/或核酸检测的方法和/或装置 |
CN102409048A (zh) * | 2010-09-21 | 2012-04-11 | 深圳华大基因科技有限公司 | 一种基于高通量测序的dna标签文库构建方法 |
CN103806111A (zh) * | 2012-11-15 | 2014-05-21 | 深圳华大基因科技有限公司 | 高通量测序文库的构建方法及其应用 |
CN103290137A (zh) * | 2013-06-26 | 2013-09-11 | 北京迈基诺基因科技有限责任公司 | 一种肿瘤易感基因的筛查方法 |
CN103757709A (zh) * | 2013-10-23 | 2014-04-30 | 上海美吉生物医药科技有限公司 | 乳腺癌相关基因的捕获及其探针的制备方法及应用 |
CN104109709A (zh) * | 2014-04-04 | 2014-10-22 | 北京泛生子生物科技有限公司 | 用于癌症个体化诊断治疗的重要基因富集方法 |
CN104032001A (zh) * | 2014-06-11 | 2014-09-10 | 上海交通大学医学院附属新华医院 | 用于胆囊癌预后评估的erbb信号通路突变靶向测序方法 |
Non-Patent Citations (2)
Title |
---|
陈丹等: ""用于高通量测序的基因组靶序列捕获方法的建立"", 《遗传》 * |
顾鸣敏等: "《医学遗传学 第3版》", 31 August 2013, 上海科学技术文献出版社 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107723352A (zh) * | 2016-08-12 | 2018-02-23 | 嘉兴允英医学检验有限公司 | 一种循环肿瘤dna肝癌驱动基因高通量检测方法 |
CN106835291A (zh) * | 2016-12-14 | 2017-06-13 | 广州燃石医学检验所有限公司 | Dna 文库的制备方法以及试剂盒 |
CN107090503A (zh) * | 2017-04-27 | 2017-08-25 | 元码基因科技(北京)有限公司 | 探针组合物、基因捕获芯片、试剂盒及其应用 |
CN107090503B (zh) * | 2017-04-27 | 2020-06-19 | 元码基因科技(北京)股份有限公司 | 探针组合物、基因捕获芯片、试剂盒及其应用 |
TWI694464B (zh) * | 2017-09-13 | 2020-05-21 | 日商三菱太空軟體股份有限公司 | 複製數計測裝置、複製數計測程式產品、複製數計測方法以及基因集合 |
CN109852672B (zh) * | 2017-11-30 | 2021-01-29 | 深圳豪石生物科技有限公司 | 一种筛选急性髓系白血病dna甲基化预后标志物的方法 |
CN109852672A (zh) * | 2017-11-30 | 2019-06-07 | 深圳豪石生物科技有限公司 | 一种筛选急性髓系白血病dna甲基化预后标志物的方法 |
CN109376711A (zh) * | 2018-12-06 | 2019-02-22 | 深圳市淘米科技有限公司 | 一种基于iltp的人脸情绪预判方法 |
CN109754845B (zh) * | 2018-12-29 | 2020-02-28 | 浙江安诺优达生物科技有限公司 | 模拟目标疾病仿真测序文库的方法及其应用 |
CN109754845A (zh) * | 2018-12-29 | 2019-05-14 | 浙江安诺优达生物科技有限公司 | 模拟目标疾病仿真测序文库的方法及其应用 |
CN109957606A (zh) * | 2019-04-17 | 2019-07-02 | 杭州西合森医学检验实验室有限公司 | 靶向药耐药性检测试剂的测序文库构建方法 |
WO2021051665A1 (zh) * | 2019-09-20 | 2021-03-25 | 上海臻迪基因科技有限公司 | 基因目标区域的富集方法及体系 |
CN114898802A (zh) * | 2022-07-14 | 2022-08-12 | 臻和(北京)生物科技有限公司 | 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105780129B (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105780129B (zh) | 目标区域测序文库构建方法 | |
CN106047998B (zh) | 一种肺癌基因的检测方法及应用 | |
CN105779434A (zh) | 试剂盒及其用途 | |
WO2016095093A1 (zh) | 肿瘤筛查方法、目标区域变异检测方法和装置 | |
CN108753967A (zh) | 一种用于肝癌检测的基因集及其panel检测设计方法 | |
CN107577921A (zh) | 一种肿瘤靶向基因测序数据解析方法 | |
CN105779435A (zh) | 试剂盒及其用途 | |
CN107406885A (zh) | 使用血浆dna的尺寸和数目畸变检测癌症 | |
US20130122010A1 (en) | Diagnostic Methods Based on Somatically Acquired Rearrangement | |
CN110343748B (zh) | 基于高通量靶向测序分析肿瘤突变负荷的方法 | |
CN107849569B (zh) | 肺腺癌生物标记物及其应用 | |
CN105779432A (zh) | 试剂盒及其用途 | |
CN114187964A (zh) | 一种肺癌围手术期分子残留病灶基因检测panel及检测模型的构建方法 | |
JP7499239B2 (ja) | 体細胞変異のための方法およびシステム、ならびにそれらの使用 | |
CN105925665A (zh) | 试剂盒、建库方法以及检测目标区域变异的方法及系统 | |
CN110117652A (zh) | 肝癌早期诊断方法 | |
Li et al. | Assessment of ctDNA in CSF may be a more rapid means of assessing surgical outcomes than plasma ctDNA in glioblastoma | |
CN108949979A (zh) | 一种通过血液样本判断肺结节良恶性的方法 | |
US20150119260A1 (en) | Circulating cancer biomarker and its use | |
CN105779433A (zh) | 试剂盒及其用途 | |
CN110004229A (zh) | 多基因作为egfr单克隆抗体类药物耐药标志物的应用 | |
CN105950709A (zh) | 试剂盒、建库方法以及检测目标区域变异的方法及系统 | |
CN112063714A (zh) | 一种与结直肠癌相关的miRNA及其应用 | |
CN113817822B (zh) | 一种基于甲基化检测的肿瘤诊断试剂盒及其应用 | |
CN106282366A (zh) | 一种与前列腺癌相关的分子标记物及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |