CN114015778A - 预测肺癌的生物标志物组 - Google Patents
预测肺癌的生物标志物组 Download PDFInfo
- Publication number
- CN114015778A CN114015778A CN202111448186.3A CN202111448186A CN114015778A CN 114015778 A CN114015778 A CN 114015778A CN 202111448186 A CN202111448186 A CN 202111448186A CN 114015778 A CN114015778 A CN 114015778A
- Authority
- CN
- China
- Prior art keywords
- lung cancer
- biomarker
- sample
- functional fragment
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000090 biomarker Substances 0.000 title claims abstract description 160
- 208000020816 lung neoplasm Diseases 0.000 title claims abstract description 124
- 206010058467 Lung neoplasm malignant Diseases 0.000 title claims abstract description 123
- 201000005202 lung cancer Diseases 0.000 title claims abstract description 123
- 238000004393 prognosis Methods 0.000 claims abstract description 29
- 239000000523 sample Substances 0.000 claims description 104
- 238000000034 method Methods 0.000 claims description 75
- 108090000623 proteins and genes Proteins 0.000 claims description 73
- 239000003153 chemical reaction reagent Substances 0.000 claims description 32
- 239000012634 fragment Substances 0.000 claims description 29
- 230000014509 gene expression Effects 0.000 claims description 29
- 150000007523 nucleic acids Chemical class 0.000 claims description 28
- 102000004169 proteins and genes Human genes 0.000 claims description 23
- 108020004707 nucleic acids Proteins 0.000 claims description 21
- 102000039446 nucleic acids Human genes 0.000 claims description 21
- -1 RP11.411K7.1 Proteins 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 17
- 230000004083 survival effect Effects 0.000 claims description 17
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 claims description 15
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 claims description 14
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 102100040094 Glycogen phosphorylase, brain form Human genes 0.000 claims description 10
- 101000748183 Homo sapiens Glycogen phosphorylase, brain form Proteins 0.000 claims description 10
- 101100181430 Homo sapiens LCE3C gene Proteins 0.000 claims description 10
- 101000578128 Homo sapiens Mitochondrial potassium channel Proteins 0.000 claims description 10
- 102100024570 Late cornified envelope protein 3C Human genes 0.000 claims description 10
- 102100028054 Mitochondrial potassium channel Human genes 0.000 claims description 10
- 102100036570 Coiled-coil domain-containing protein 177 Human genes 0.000 claims description 8
- 108010016788 Cyclin-Dependent Kinase Inhibitor p21 Proteins 0.000 claims description 8
- 102100033270 Cyclin-dependent kinase inhibitor 1 Human genes 0.000 claims description 8
- 102100022735 Diacylglycerol kinase alpha Human genes 0.000 claims description 8
- 101000715214 Homo sapiens Coiled-coil domain-containing protein 177 Proteins 0.000 claims description 8
- 101001044817 Homo sapiens Diacylglycerol kinase alpha Proteins 0.000 claims description 8
- 101000619663 Homo sapiens Leucine-rich repeat-containing protein 1 Proteins 0.000 claims description 8
- 101000962359 Homo sapiens NACHT, LRR and PYD domains-containing protein 10 Proteins 0.000 claims description 8
- 101001126104 Homo sapiens Putative protein PLEKHA9 Proteins 0.000 claims description 8
- 101000868880 Homo sapiens Serpin B13 Proteins 0.000 claims description 8
- 101000786318 Homo sapiens Zinc finger BED domain-containing protein 2 Proteins 0.000 claims description 8
- 102100022237 Leucine-rich repeat-containing protein 1 Human genes 0.000 claims description 8
- 102100039260 NACHT, LRR and PYD domains-containing protein 10 Human genes 0.000 claims description 8
- 102100030457 Putative protein PLEKHA9 Human genes 0.000 claims description 8
- 102100032322 Serpin B13 Human genes 0.000 claims description 8
- 102100025797 Zinc finger BED domain-containing protein 2 Human genes 0.000 claims description 8
- 238000004949 mass spectrometry Methods 0.000 claims description 7
- 102100032518 Gamma-crystallin B Human genes 0.000 claims description 6
- 101000942158 Homo sapiens Gamma-crystallin B Proteins 0.000 claims description 6
- 101001081606 Homo sapiens Islet cell autoantigen 1 Proteins 0.000 claims description 6
- 101001091371 Homo sapiens Kallikrein-8 Proteins 0.000 claims description 6
- 101001096190 Homo sapiens Pleckstrin homology domain-containing family A member 1 Proteins 0.000 claims description 6
- 102100027640 Islet cell autoantigen 1 Human genes 0.000 claims description 6
- 102100034870 Kallikrein-8 Human genes 0.000 claims description 6
- 102100037862 Pleckstrin homology domain-containing family A member 1 Human genes 0.000 claims description 6
- 210000001124 body fluid Anatomy 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000007899 nucleic acid hybridization Methods 0.000 claims description 6
- 239000010839 body fluid Substances 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 5
- 102100023961 ADP-ribosylation factor-like protein 2-binding protein Human genes 0.000 claims description 4
- 102100031510 Fibrillin-2 Human genes 0.000 claims description 4
- 101000757692 Homo sapiens ADP-ribosylation factor-like protein 2-binding protein Proteins 0.000 claims description 4
- 101000846890 Homo sapiens Fibrillin-2 Proteins 0.000 claims description 4
- 101000734289 Homo sapiens RING finger protein 222 Proteins 0.000 claims description 4
- 101000649937 Homo sapiens Vacuolar protein sorting-associated protein 28 homolog Proteins 0.000 claims description 4
- 108010009513 Mitochondrial Aldehyde Dehydrogenase Proteins 0.000 claims description 4
- 102000009645 Mitochondrial Aldehyde Dehydrogenase Human genes 0.000 claims description 4
- 102100034818 RING finger protein 222 Human genes 0.000 claims description 4
- 102100028227 Vacuolar protein sorting-associated protein 28 homolog Human genes 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 claims description 4
- 238000003018 immunoassay Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000000611 regression analysis Methods 0.000 claims description 4
- 102100033793 ALK tyrosine kinase receptor Human genes 0.000 claims description 3
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 claims description 3
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 claims description 3
- 238000011529 RT qPCR Methods 0.000 claims description 3
- 238000004587 chromatography analysis Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000002649 immunization Methods 0.000 claims description 3
- 230000003053 immunization Effects 0.000 claims description 3
- 238000008157 ELISA kit Methods 0.000 claims description 2
- 102100025614 Galectin-related protein Human genes 0.000 claims description 2
- 108090001053 Gastrin releasing peptide Proteins 0.000 claims description 2
- 101000779641 Homo sapiens ALK tyrosine kinase receptor Proteins 0.000 claims description 2
- 101000998011 Homo sapiens Keratin, type I cytoskeletal 19 Proteins 0.000 claims description 2
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 claims description 2
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 claims description 2
- 101000642478 Homo sapiens Serpin B3 Proteins 0.000 claims description 2
- 102100033420 Keratin, type I cytoskeletal 19 Human genes 0.000 claims description 2
- 101100119835 Mus musculus Fbn2 gene Proteins 0.000 claims description 2
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 claims description 2
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 claims description 2
- 102100036383 Serpin B3 Human genes 0.000 claims description 2
- 238000001378 electrochemiluminescence detection Methods 0.000 claims description 2
- 238000000684 flow cytometry Methods 0.000 claims description 2
- 238000003119 immunoblot Methods 0.000 claims description 2
- 238000003317 immunochromatography Methods 0.000 claims description 2
- 238000013115 immunohistochemical detection Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 101000911019 Homo sapiens Zinc finger protein castor homolog 1 Proteins 0.000 claims 1
- 102100026655 Zinc finger protein castor homolog 1 Human genes 0.000 claims 1
- 230000035945 sensitivity Effects 0.000 abstract description 16
- 238000003556 assay Methods 0.000 description 22
- 230000003321 amplification Effects 0.000 description 16
- 230000027455 binding Effects 0.000 description 16
- 238000003199 nucleic acid amplification method Methods 0.000 description 16
- 238000012360 testing method Methods 0.000 description 15
- 201000011510 cancer Diseases 0.000 description 12
- 239000000975 dye Substances 0.000 description 12
- 206010028980 Neoplasm Diseases 0.000 description 11
- 238000013103 analytical ultracentrifugation Methods 0.000 description 11
- 239000012472 biological sample Substances 0.000 description 10
- 238000002493 microarray Methods 0.000 description 10
- 238000002405 diagnostic procedure Methods 0.000 description 9
- 238000009396 hybridization Methods 0.000 description 9
- 108010021625 Immunoglobulin Fragments Proteins 0.000 description 8
- 102000008394 Immunoglobulin Fragments Human genes 0.000 description 8
- 238000013145 classification model Methods 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 8
- 238000003753 real-time PCR Methods 0.000 description 8
- 210000001519 tissue Anatomy 0.000 description 8
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 7
- 108020004414 DNA Proteins 0.000 description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 description 7
- 239000000427 antigen Substances 0.000 description 7
- 108090000765 processed proteins & peptides Proteins 0.000 description 7
- 150000001413 amino acids Chemical class 0.000 description 6
- 108091007433 antigens Proteins 0.000 description 6
- 102000036639 antigens Human genes 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 108091033319 polynucleotide Proteins 0.000 description 6
- 102000040430 polynucleotide Human genes 0.000 description 6
- 239000002157 polynucleotide Substances 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 108060003951 Immunoglobulin Proteins 0.000 description 5
- 108010090804 Streptavidin Proteins 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 102000018358 immunoglobulin Human genes 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 229920000642 polymer Polymers 0.000 description 5
- 238000003752 polymerase chain reaction Methods 0.000 description 5
- 229920001184 polypeptide Polymers 0.000 description 5
- 102000004196 processed proteins & peptides Human genes 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 4
- 101800001649 Heparin-binding EGF-like growth factor Proteins 0.000 description 4
- 101000655540 Homo sapiens Protransforming growth factor alpha Proteins 0.000 description 4
- 108091034117 Oligonucleotide Proteins 0.000 description 4
- 102100033762 Proheparin-binding EGF-like growth factor Human genes 0.000 description 4
- 102100032350 Protransforming growth factor alpha Human genes 0.000 description 4
- 238000003491 array Methods 0.000 description 4
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 101150090724 3 gene Proteins 0.000 description 3
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 3
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 3
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 3
- 238000002965 ELISA Methods 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 239000011324 bead Substances 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000000556 factor analysis Methods 0.000 description 3
- 108020001507 fusion proteins Proteins 0.000 description 3
- 102000037865 fusion proteins Human genes 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 239000002105 nanoparticle Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007170 pathology Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 239000000758 substrate Substances 0.000 description 3
- 238000002198 surface plasmon resonance spectroscopy Methods 0.000 description 3
- 238000004885 tandem mass spectrometry Methods 0.000 description 3
- TYMLOMAKGOJONV-UHFFFAOYSA-N 4-nitroaniline Chemical compound NC1=CC=C([N+]([O-])=O)C=C1 TYMLOMAKGOJONV-UHFFFAOYSA-N 0.000 description 2
- 102100031780 Endonuclease Human genes 0.000 description 2
- 108010042407 Endonucleases Proteins 0.000 description 2
- 108700039887 Essential Genes Proteins 0.000 description 2
- 108010067060 Immunoglobulin Variable Region Proteins 0.000 description 2
- 102000017727 Immunoglobulin Variable Region Human genes 0.000 description 2
- 238000000636 Northern blotting Methods 0.000 description 2
- 108091005461 Nucleic proteins Proteins 0.000 description 2
- 108091036407 Polyadenylation Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 238000002835 absorbance Methods 0.000 description 2
- 230000000890 antigenic effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 229960002685 biotin Drugs 0.000 description 2
- 235000020958 biotin Nutrition 0.000 description 2
- 239000011616 biotin Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000003608 fece Anatomy 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000002866 fluorescence resonance energy transfer Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 229940072221 immunoglobulins Drugs 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007901 in situ hybridization Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 210000002751 lymph Anatomy 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000000206 photolithography Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 238000001959 radiotherapy Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000009870 specific binding Effects 0.000 description 2
- 206010041823 squamous cell carcinoma Diseases 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 102100026205 1-phosphatidylinositol 4,5-bisphosphate phosphodiesterase gamma-1 Human genes 0.000 description 1
- 101150055869 25 gene Proteins 0.000 description 1
- 102000009346 Adenosine receptors Human genes 0.000 description 1
- 108050000203 Adenosine receptors Proteins 0.000 description 1
- 102000007698 Alcohol dehydrogenase Human genes 0.000 description 1
- 108010021809 Alcohol dehydrogenase Proteins 0.000 description 1
- 108091023037 Aptamer Proteins 0.000 description 1
- 206010003445 Ascites Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 108090001008 Avidin Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 101000764817 Chromohalobacter salexigens (strain ATCC BAA-138 / DSM 3043 / CIP 106854 / NCIMB 13768 / 1H11) Oxygen-dependent choline dehydrogenase 1 Proteins 0.000 description 1
- 108010076010 Cystathionine beta-lyase Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 1
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 102100035813 E3 ubiquitin-protein ligase CBL Human genes 0.000 description 1
- 102000001301 EGF receptor Human genes 0.000 description 1
- 108060006698 EGF receptor Proteins 0.000 description 1
- 101150039808 Egfr gene Proteins 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- NYHBQMYGNKIUIF-UUOKFMHZSA-N Guanosine Chemical group C1=NC=2C(=O)NC(N)=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O NYHBQMYGNKIUIF-UUOKFMHZSA-N 0.000 description 1
- 102100034051 Heat shock protein HSP 90-alpha Human genes 0.000 description 1
- 102100021519 Hemoglobin subunit beta Human genes 0.000 description 1
- 108091005904 Hemoglobin subunit beta Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000691599 Homo sapiens 1-phosphatidylinositol 4,5-bisphosphate phosphodiesterase gamma-1 Proteins 0.000 description 1
- 101001016865 Homo sapiens Heat shock protein HSP 90-alpha Proteins 0.000 description 1
- 101001056707 Homo sapiens Proepiregulin Proteins 0.000 description 1
- 101001130509 Homo sapiens Ras GTPase-activating protein 1 Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 108020005196 Mitochondrial DNA Proteins 0.000 description 1
- 238000011495 NanoString analysis Methods 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 101710124239 Poly(A) polymerase Proteins 0.000 description 1
- 102100033237 Pro-epidermal growth factor Human genes 0.000 description 1
- 101710098940 Pro-epidermal growth factor Proteins 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 102100025498 Proepiregulin Human genes 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 108010029485 Protein Isoforms Proteins 0.000 description 1
- 102000001708 Protein Isoforms Human genes 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 102100031426 Ras GTPase-activating protein 1 Human genes 0.000 description 1
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 1
- 108010046983 Ribonuclease T1 Proteins 0.000 description 1
- 108010083644 Ribonucleases Proteins 0.000 description 1
- 102000006382 Ribonucleases Human genes 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 241000283984 Rodentia Species 0.000 description 1
- 108010017324 STAT3 Transcription Factor Proteins 0.000 description 1
- 102100024040 Signal transducer and activator of transcription 3 Human genes 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000021736 acetylation Effects 0.000 description 1
- 238000006640 acetylation reaction Methods 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 201000008395 adenosquamous carcinoma Diseases 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000149 argon plasma sintering Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000003567 ascitic fluid Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000011230 binding agent Substances 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 238000006664 bond formation reaction Methods 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013375 chromatographic separation Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000003795 desorption Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000539 dimer Substances 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000005518 electrochemistry Effects 0.000 description 1
- 238000002330 electrospray ionisation mass spectrometry Methods 0.000 description 1
- 238000000295 emission spectrum Methods 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 108700021358 erbB-1 Genes Proteins 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009650 gentamicin protection assay Methods 0.000 description 1
- 230000013595 glycosylation Effects 0.000 description 1
- 238000006206 glycosylation reaction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002962 histologic effect Effects 0.000 description 1
- 210000004408 hybridoma Anatomy 0.000 description 1
- 238000010166 immunofluorescence Methods 0.000 description 1
- 238000003364 immunohistochemistry Methods 0.000 description 1
- 238000001114 immunoprecipitation Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000007641 inkjet printing Methods 0.000 description 1
- 239000000138 intercalating agent Substances 0.000 description 1
- 238000009830 intercalation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 238000007834 ligase chain reaction Methods 0.000 description 1
- 230000029226 lipidation Effects 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 238000004020 luminiscence type Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000816 matrix-assisted laser desorption--ionisation Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000004005 microsphere Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000013188 needle biopsy Methods 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 150000003833 nucleoside derivatives Chemical class 0.000 description 1
- 125000003835 nucleoside group Chemical group 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 238000002966 oligonucleotide array Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000004557 prognostic gene signature Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000010791 quenching Methods 0.000 description 1
- 230000002285 radioactive effect Effects 0.000 description 1
- 238000003127 radioimmunoassay Methods 0.000 description 1
- 238000003259 recombinant expression Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 238000004007 reversed phase HPLC Methods 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000006557 surface reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical class CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 108700012359 toxins Proteins 0.000 description 1
- 230000009261 transgenic effect Effects 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
- 230000005740 tumor formation Effects 0.000 description 1
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 1
- 229940121358 tyrosine kinase inhibitor Drugs 0.000 description 1
- 239000005483 tyrosine kinase inhibitor Substances 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 238000001262 western blot Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57423—Specifically defined cancers of lung
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Urology & Nephrology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Hematology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biochemistry (AREA)
- Medical Informatics (AREA)
- Microbiology (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Public Health (AREA)
- Zoology (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Cell Biology (AREA)
- Wood Science & Technology (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
Abstract
本发明公开了预测肺癌的生物标志物组,所述生物标志物组用于预测肺癌具有较高的准确性、敏感性和特异性。同时所述生物标志物组可用于预测肺癌的预后。
Description
技术领域
本发明属于生物医药领域,涉及预测肺癌的生物标志物组。
背景技术
据统计,在世界范围内肺癌的发病率和死亡率一直高居不下。IV期肺癌的五年生存率只有1-9%,且造成的死亡人数比乳腺癌、胰腺癌、结肠癌和前列腺癌总的死亡人数还要多(Testa U,Castelli G,Pelosi E.Lung Cancers:Molecular Characterization,Clonal Heterogeneity and Evolution,and Cancer Stem Ce11s[J].Cancers(Basel),2018,10(8).)。据世界卫生组织2020年的数据估计,在我国,肺癌的发病率居恶性肿瘤首位,新发肺癌病例约为80万例,无论发病率和病死率也居恶性肿瘤之首(中国肺癌防治联盟,中华医学会呼吸病学分会肺癌学组,中国医师协会呼吸医师分会肺癌工作委员会.肺癌筛查与管理中国专家共识[J].国际呼吸杂志,2019,39(21):1604-1615.)。
肺癌最常见的类型是非小细胞肺癌,占所有肺癌种类的85-90%,包括腺癌、鳞状细胞癌、腺鳞癌等。90%的有吸烟史的NSCLC患者确诊时已经到了晚期阶段,导致许多治疗措施不能实施。在早期,约58%的NSCLC患者可以接受手术治疗,而到了III期,骤降到了约18%,此外约62%的患者接受了化疗或(和)放疗(Miller KD,Nogueira L,Mariotto AB,etal.Cancer Treatment and Survivorship Statistics,2019[J].CA Cancer J C1in,2019,69(5):363-385.)。但是由于放化疗副作用较大,而且最终都会导致耐药,患者的平均生存期小于10个月。找到合适的早期诊断及治疗、预后评估靶点对改善肺癌患者的生存是十分重要的。
近20年来,随着分子病理和精准医学的发展,从分子基础和肿瘤学的角度,尤其是在细胞水平上对肿瘤发生发展机制的深度理解是当前也是未来进一步提升临床缓解甚至治愈率不可缺少的环节。驱动基因是编码细胞增殖和生存的关键蛋白的基因,它们可以促使肿瘤形成并维持其生长(Wu JY,Yu CJ,Chang YC,et al.Effectiveness of tyrosinekinase inhibitors on"uncommon"epidermal growth factor receptor mutations ofunknown clinical significance in non-small cell lung cancer[J].Clin CancerRe,2011,17(11):3812-3821.)。
EGFR作为第一个被发现和研究的NSCLC靶向基因,迄今已经成为最主要的、亚洲人检出率最高的分子靶点,国内一些研究显示EGFR阳性率可高达43%~60%(Pan Y,ZhangY,Li Y,et al.ALK,ROS 1and RET fusions in 1139lung adenocarcinomas:acomprehensive study of common and fusion pattern-specific clinicopathologic,histologic and cytologic features[J].Lung Cancer,2014,84(2):121-126.),其重要性不容忽视。2018年,美国病理学学院、国际肺癌研究协会再一次强调EGFR是肺癌必须检测的靶向基因之一。围绕EGFR研究与肺癌相关的标志物,为实现早期肺癌的诊断,进而实现早干预早治疗提供了新的手段和方向。
发明内容
为了弥补现有技术的不足,本发明提供了1)用作指示肺癌的生物标志物其可用于对受试者中的肺癌进行准确诊断或预测;2)用作指示肺癌预后的生物标志物,其可用于对受试者中的肺癌进行准确诊断或预测。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一方面提供了一种用于预测肺癌的生物标志物,所述生物标志物至少包括以下基因的任意两种的组合:PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2、ARL2BP、ALDH2、VPS28、RNF222、OTOP2。
进一步,所述标志物至少包括以下一组特征性基因组:Sig0.25、Sig0.5、Sig0.7和Sig;
所述Sig0.25组包括以下基因:PYGB、CCDC51、LCE3C、PLEKHA8P1;
所述Sig0.5组包括以下基因:PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P;
所述Sig0.75组包括以下基因:PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2;
所述Sig组包括以下基因:PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2、ARL2BP、ALDH2、VPS28、RNF222、OTOP2。
本发明第二方面提供了检测样本中的本发明第一方面所述的生物标志物的试剂在制备诊断或预测肺癌的产品中的应用。
进一步,所述试剂包括通过数字成像技术、蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂。
进一步,采用蛋白免疫技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括抗体,所述抗体对生物标志物或其功能片段的表位具有特异性。
进一步,所述抗体为标记抗体。
进一步,采用染料技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括染料,所述染料对生物标志物或其功能片段具有特异性。
进一步,采用核酸测序技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括引物,所述引物与生物标志物或其功能片段的序列结合。
进一步,采用核酸杂交技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括探针,所述探针与生物标志物或其功能片段的序列互补。
进一步,所述探针为标记探针。
进一步,所述样本包括组织、体液。
本发明的第三方面提供了检测样本中的本发明第一方面所述的生物标志物的试剂在制备预测肺癌预后的产品中的应用。
进一步,所述试剂包括通过数字成像技术、蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂。
进一步,采用蛋白免疫技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括抗体,所述抗体对生物标志物或其功能片段的表位具有特异性。
进一步,所述抗体为标记抗体。
进一步,采用染料技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括染料,所述染料对生物标志物或其功能片段具有特异性。
进一步,采用核酸测序技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括引物,所述引物与生物标志物或其功能片段的序列结合。
进一步,采用核酸杂交技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括探针,所述探针与生物标志物或其功能片段的序列互补。
进一步,所述探针为标记探针。
进一步,所述样本包括组织、体液。
进一步,所述试剂盒还包括用于诊断或预测肺癌的说明书。
本发明第四方面提供了一种诊断或预测肺癌/肺癌预后的产品,所述产品包括检测本发明第一方面所述的生物标志物的试剂。
进一步,所述产品包括芯片、试剂盒。
进一步,所述试剂盒包括qPCR试剂盒、免疫印迹检测试剂盒、免疫层析检测试剂盒、流式细胞分析试剂盒、免疫组化检测试剂盒、ELISA试剂盒和电化学发光检测试剂盒。
进一步,所述试剂盒还包括用于诊断或预测肺癌/肺癌预后的说明书。
本发明的第五方面提供了一种体系,包含:
样品;
一种或多种探针和/或染色剂,所述探针和/或染色剂与本发明第一方面所述的生物标志物和/或其同源序列结合;以及
一种或多种设备,所述设备能够定量至少一种探针或染色剂的存在、不存在和/或量,所述探针或染色剂与本发明第一方面所述生物标志物和/或其同源序列结合。
本发明的第六方面提供了一种诊断对象是否患有肺癌或存在患肺癌风险以及预测肺癌预后的系统/装置,包括:
分析单元,所述单元适于测量对象样本中本发明第一方面所述的生物标志物的量;和
评估单元,其包含存储的参考和数据处理器,所述数据处理器已经实现了用于比较分析单元测量的生物标志物的量与存储的参考的算法,由此诊断肺癌或存在患肺癌的风险。
本发明的第七方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明第六方面所述的系统/装置。
本发明的第八方面提供了一种筛选预测肺癌标志物的方法,所述方法包括:
1)构建肺癌驱动基因的互作蛋白网络;
2)筛选与肺癌密切相关的网络蛋白;
3)根据筛选的网络蛋白进行分组;
4)根据3)中所述的分组筛选差异表达基因。
所述方法进一步包括对步骤4)中的基因进行单因素分析,筛选与生存相关的基因;
所述方法进一步对生存相关的基因进行多因素回归分析,筛选用于预后的标志物。
进一步,所述肺癌驱动基因包括EGFR、ALK、GRP、KRT19、SERPINB3、ROS1、BRAF、MET、RET、ERBB2、KRAS。
进一步,所述肺癌驱动基因为EGFR。
进一步,步骤3)中利用网络蛋白表达水平的中位数进行分组。
本发明的优点和有益效果:
本发明基于肺癌的驱动基因EGFR筛选了可用于准确预测肺癌的生物标志物,所述标志物具有较高的诊断敏感性和特异性。
本发明提供了一种基于驱动基因筛选用于预测肺癌的生物标志物的方法,所述方法筛选的标志物具有较高的诊断效能。
附图说明
图1是EGFR的PPI图;
图2是差异基因的ROC曲线图,其中图2A是HBEGF;图2B是TGFA;图2C是CDH1;
图3是利用p的有效值的差异基因分组图;
图4是不同分组的诊断效能图,其中,图4A是Sig0.25的DT ROC曲线图;图4B是Sig0.25的RF ROC曲线图;图4C是Sig0.25的SVM ROC曲线图;图4D是Sig0.5的DT ROC曲线图;图4E是Sig0.5的RF ROC曲线图;图4F是Sig0.5的SVM ROC曲线图;图4G是Sig0.75的DTROC曲线图;图4H是Sig0.75的RF ROC曲线图;图4I是Sig0.75的SVM ROC曲线图;图4J是Sig的DT ROC曲线图;图4K是Sig的RF ROC曲线图;图4L是Sig的SVM ROC曲线图;
图5是不同分组预测肺癌预后的效能图,其中,图5A是Sig0.25预测肺癌预后的生存曲线图,图5B是Sig0.25预测肺癌预后的ROC曲线图;图5C是Sig0.5预测肺癌预后的生存曲线图,图5D是Sig0.5预测肺癌预后的ROC曲线图;图5E是Sig0.75预测肺癌预后的生存曲线图,图5F是Sig0.75预测肺癌预后的ROC曲线图;图5G是Sig预测肺癌预后的生存曲线图,图5H是Sig预测肺癌预后的ROC曲线图。
具体实施方式
本发明通过广泛而深入的研究,基于11基因的EGFR基因网络,研究与肺癌强相关的基因,发现了3-基因的特征性基因组。本发明旨在充分利用EGFR作为肺癌的标志物的潜在价值,以开发出有效的特征性基因组合来预测肺癌以及肺癌的预后。发明人临床数据库中发现了与3-基因的特征性基因组相关的差异表达基因。并不进一步从这些差异性表达基因中,构建了25个特征性基因组和多个子组。这些特征性基因组十分有效地预测了肺癌以及肺癌的预后。
如本文中在诸如“A和/或B”的短语中使用的术语“和/或”旨在包括A和B两者;A或B;A(单独);以及B(单独)。同样地,在诸如“A、B和/或C”的短语中使用的术语“和/或”旨在涵盖以下实施方案的每一个:A、B和C;A、B或C;A或C;A或B;B或C;A和C;A和B;B和C;A(单独);B(单独);以及C(单独)。
术语“生物标志物”是指以可用于预测个体的癌症状态的不同浓度存在于个体中的生物分子。生物标志物可包括,但不限于,核酸、蛋白质及其变体和片段。生物标志物可以是包含编码该生物标志物的全部或部分核酸序列或这类序列的互补体的DNA。可用于本发明的生物标志物核酸被认为包括包含任何目的核酸序列的全部或部分序列的DNA和RNA。
在本发明的具体实施方式中,所述生物标志物包括基因及其编码的蛋白及其同源物,突变,和同等型。该术语涵盖全长,未加工的生物标志物,以及源自细胞中加工的任何形式的生物标志物。该术语涵盖生物标志物的天然发生变体(例如剪接变体或等位变体)。
如本文所用,术语“样本”是指从如本文所述的目的来源获得或衍生的生物样本。在一些实施方案中,目的来源包含生物体,诸如动物或人。在一些实施方案中,生物样本包含生物组织或液体。在一些实施方案中,生物样本可以是或包含骨髓;血液;血细胞;腹水;组织或细针活检样本;含有细胞的体液;游离漂浮核酸;痰液;唾液;尿液;脑脊液腹膜液;胸膜液;粪便;淋巴;皮肤拭子;口服拭子;鼻拭子;洗涤物(washings)或灌洗物,诸如导管灌洗物或支气管肺泡灌洗物;吸出物;刮屑;骨髓标本;组织活检标本;手术标本;粪便,其他体液,分泌物和/或排泄物;和/或其中的细胞等。在一些实施方案中,生物样本是或包含从个体获得的细胞。在一些实施方案中,样本是通过任何合适的手段直接从目的来源获得的“初级样本”。例如,在一些实施方案中,通过选自以下的方法获得初级生物样本:活组织检查(例如,细针抽吸或组织活组织检查)、手术组织、体液(例如,血液、淋巴、粪便等)的收集等。在一些实施方案中,如从上下文将显而易见的,术语“样本”是指通过加工(例如,通过去除初级样本的一种或多种组分和/或通过向初级样本添加一种或多种试剂)获得的制剂。例如,使用半透膜过滤。这类“经处理的样本”可以包含例如从样本中提取的或通过对初级样本进行诸如mRNA的扩增或逆转录、某些组分的分离和/或纯化等技术而获得的核酸或蛋白质。
可以通过将来自测试受试者的样本中的生物标志物的水平与合适的对照进行对比来确定来源于测试受试者的生物样本中的生物标志物的水平是否与存在于正常受试者中的生物标志物的水平不同。技术人员可以为所讨论的测定选择适当的对照。例如,合适的对照可以是来源于已知受试者(例如,已知是没有癌症的正常受试者的受试者)的生物样本。如果从正常受试者获得合适的对照,则测试受试者中的生物标志物的水平相对于合适的对照的统计学显著差异指示受试者患有肺癌。在一个实施方案中,生物标志物的水平的差异是增加。合适的对照也可以是参比标准。参比标准用作对比的参比水平,使得可以将测试样本与参比标准进行对比,以推断受试者的肺癌状态。参比标准可以代表已知受试者(例如,已知为正常受试者的受试者或已知患有肺癌的受试者)中一种或多种生物标志物的水平。同样地,参比标准可以代表已知受试者群体(例如,已知为正常受试者的受试者群体或已知患有肺癌的受试者群体)中的一种或多种生物标志物的水平。例如,可以通过合并来自多个个体的样本并确定所合并的样本中的生物标志物的水平来获得参比标准,从而在平均群体中产生标准。这类参比标准代表个体群体中的生物标志物的平均水平。例如,也可以通过将确定存在于从多个个体获得的个体样本中的生物标志物的水平平均来获得参比标准。这类标准还代表个体群体中的生物标志物的平均水平。参比标准也可以是值的集合,每个值代表个体群体中已知受试者中的生物标志物的水平。在某些实施方案中,可以将测试样本与这类值的集合进行对比,以推断受试者的肺癌状态。在某些实施方案中,参比标准是绝对值。在这类实施方案中,可以将测试样本与绝对值进行对比,以推断受试者的肺癌状态。在一个实施方案中,通过执行软件分类算法进行样本中的一种或多种生物标志物相对于合适对照的水平之间的对比。在一些实施方案中,生物标志物的一种或组合的表达增加,其中该增加的表达比正常样本中相同生物标志物的表达高约10%,20%,30%,40%,50%,60%,70%,80%,90%,95%或约100%或更多。在一些实施方案中,生物标志物的一种或组合的表达增加,其中该增加的表达是与正常样本中相同的生物标志物的一种或组合的表达相比约2X,3X,4X,5X,6X,7X,8X,9X或约10X或更多的表达。
术语“参比”是指其水平可用于对比测试样本中生物标志物水平的生物标志物。在本发明的一个实施方案中,参比包括管家gene,诸如β-球蛋白、醇脱氢酶或任何其他管家gene,其水平或表达不根据含有标志物的细胞的疾病状态而变化。在另一个实施方案中,所有测定的生物标志物或其子集可用作参比。
术语“多核苷酸”和“核酸”和“核酸分子”在本文中可互换使用,并且是指任何长度的核苷酸的聚合物,并且包括DNA和RNA。多核苷酸可以是脱氧核糖核苷酸、核糖核苷酸、修饰的核苷酸或碱基,和/或其类似物,或可以通过DNA或RNA聚合酶掺入聚合物中的任何底物。
术语“多肽”和“肽”和“蛋白质”在本文中可互换使用,并且是指任何长度的氨基酸的聚合物。该聚合物可以是直链或支链的,它可以包含修饰的氨基酸,并且它可以被非氨基酸中断。该术语还涵盖已经天然修饰或通过干预修饰的氨基酸聚合物;例如,二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操作或修饰,诸如与标记组分缀合。该定义内还包括例如含有一个或多个氨基酸类似物(包括,例如,非天然氨基酸)以及本领域已知的其他修饰的多肽。应理解,因为本发明的多肽可基于抗体或融合蛋白,所以在某些实施方案中,多肽可作为单链或相关链(例如,二聚体)出现。
术语“受试者”是指任何动物(例如,哺乳动物),包括,但不限于,人类、非人灵长类、犬、猫、啮齿动物等。进一步,受试者是人类受试者。术语“受试者”、“个体”和“患者”在本文中可互换使用。因此,术语“受试者”、“个体”和“患者”涵盖患有癌症(例如,肺癌)的个体,包括已经经历或进行切除(手术)以去除癌组织的候选者的那些个体。
确定生物标志物的水平
生物样本中一种或多种生物标志物的水平可以通过任何合适的方法确定。可以使用任何可靠的方法来测量样本中的水平或数量。通常,可通过各种已知用于mRNA的方法从样本(包括其级分)(诸如分离的RNA的样本)中检测以及定量,各种已知方法包括,例如,基于扩增的方法(例如,聚合酶链反应(PCR)、实时聚合酶链反应(RT-PCR)、定量聚合酶链反应(qPCR)、滚环扩增等)、基于杂交的方法(例如,杂交阵列(例如,微阵列)、NanoString分析、Northern Blot分析、分支DNA(bDNA)信号扩增、原位杂交等),以及基于测序的方法(例如,下一代测序方法,例如,使用Illumina或IonTorrent平台)。其他示例性技术包括核糖核酸酶保护测定法(RPA)和质谱法。
基于扩增的方法
存在许多基于扩增的方法用于检测生物标志物核酸序列的水平,包括,但不限于,PCR、RT-PCR、qPCR和滚环扩增。其他基于扩增的技术包括,例如,连接酶链反应、多重可连接探针扩增、体外转录(IVT)、链置换扩增、转录介导的扩增、RNA(Eberwine)扩增,以及本领域技术人员已知的其他方法。
基于杂交的方法
可以使用基于杂交的方法检测生物标志物,该基于杂交的方法包括但不限于杂交阵列(例如,微阵列)、NanoString分析、Northern Blot分析、分支DNA(bDNA)信号扩增和原位杂交。
微阵列可用于同时测量大量生物标志物的表达水平。可以使用各种技术制造微阵列,包括用细尖针在载玻片上进行印刷、使用预制掩模进行光刻、使用动态微镜器件进行光刻、喷墨印刷或在微电极阵列上进行电化学。还可使用基于微流体qRT-PCR反应阵列的微流体TaqMan低密度阵列,以及相关的基于微流体qRT-PCR的方法。
可以使用Axon B-4000扫描仪和Gene-Pix Pro 4.0软件或其他合适的软件来扫描图像。除去在背景扣除后的非阳性斑点以及通过ESD程序检测的异常值。将得到的信号强度值归一化为每个芯片的中值,然后用于获得每个生物标志物的几何平均值和标准误差。可将每个信号转化为log基数2,并进行单样本t检验。每个样品的独立杂交可以在芯片上进行,每个生物标志物点样多次以增加数据的稳健性。
可以采用几种类型的微阵列,包括,但不限于,点状寡核苷酸微阵列,预制寡核苷酸微阵列或点状长寡核苷酸阵列。
在一些实施方案中,通过本领域技术人员已知的测定法确定生物标志物表达,该测定法包括,但不限于,多分析物谱测试、酶联免疫吸附测定法(ELISA)、放射免疫测定法、蛋白质印迹测定法、免疫荧光测定法、酶免疫测定法、免疫沉淀测定法、化学发光测定法、免疫组织化学测定法、斑点印迹测定法或狭线印迹测定法。在一些实施方案中,其中在测定中使用抗体,该抗体被可检测地标记。抗体标记可以包括,但不限于,免疫荧光标记、化学发光标记、磷光标记、酶标记、放射性标记、抗生物素蛋白/生物素、胶体金颗粒、有色颗粒和磁性颗粒。在一些实施方案中,通过IHC测定法确定生物标志物的表达。
在一些实施方案中,使用特异性结合生物标志物的试剂确定生物标志物的表达。显示与生物标志物特异性结合的任何分子实体均可用于确定样品中该生物标志物蛋白的水平。特异性结合剂包括,但不限于,抗体、抗体片段、抗体模拟物和多核苷酸(例如,适体等)。技术人员理解,所需特异性的程度由用于检测生物标志物蛋白的特定测定法确定,在一些实施方案中,本公开涉及包含固体支持物(诸如ELISA板、凝胶、珠或柱,其包含抗体、抗体片段、抗体模拟物和/或能够结合T3p或其盐的多核苷酸)的体系。
如本文所用,术语“抗体”是指免疫球蛋白分子,其通过至少一个抗原结合位点识别并特异性结合靶标,诸如蛋白质、多肽、肽、碳水化合物、多核苷酸、脂质或前述的组合。如本文所用,该术语涵盖完整的多克隆抗体、完整的单克隆抗体、单链抗体、抗体片段(诸如Fab、Fab′、F(ab')2和Fv片段)、单链Fv(scFv)抗体、多特异性抗体(诸如双特异性抗体)、单特异性抗体、单价抗体、嵌合抗体、人源化抗体、人抗体、包含抗体的抗原结合位点的融合蛋白,以及包含抗原结合位点的任何其他修饰的免疫球蛋白分子,只要该抗体表现出所需的生物结合活性。抗体可以是五种主要类别的免疫球蛋白中的任一种:IgA、IgD、IgE、IgG和IgM,或其亚类(同种型)(例如IgG1、IgG2、IgG3、IgG4、IgA1和IgA2)。不同类别的免疫球蛋白具有不同的和熟知的亚单位结构和三维构型。抗体可以是裸露的或与其他分子缀合,包括但不限于毒素和放射性同位素。
术语“抗体片段”是指完整抗体的一部分并且是指完整抗体的抗原决定可变区。抗体片段的示例包括,但不限于,Fab、Fab′、F(ab')2和Fv片段、线性抗体、单链抗体和由抗体片段形成的多特异性抗体。如本文所用,“抗体片段”包含至少一个抗原结合位点或表位结合位点。术语抗体的“可变区”是指单独或组合的抗体轻链的可变区或抗体重链的可变区。重链或轻链的可变区通常由四个框架区(FR)组成,其由三个互补决定区(CDR)连接,也称为“高变区”。每条链中的CDR通过框架区紧密邻近地结合在一起,并且有助于抗体的抗原结合位点的形成。
术语“单克隆抗体”是指参与单一抗原决定簇或表位的高特异性识别和结合的均质抗体群。这与通常包括针对多种不同抗原决定簇的不同抗体的混合物的多克隆抗体形成对比。术语“单克隆抗体”涵盖完整的和全长的单克隆抗体以及抗体片段(例如,Fab、Fab′、F(ab')2、Fv)、单链(scFv)抗体、包含抗体部分的融合蛋白和包含抗原结合位点的任何其他修饰的免疫球蛋白分子。此外,“单克隆抗体”是指通过许多技术制备的这类抗体,该技术包括但不限于杂交瘤生产、噬菌体选择、重组表达和转gene动物。
基于测序的方法
如果可用,也可以使用高级测序方法。例如,可以使用Illumina检测生物标志物。下一代测序(例如,Sequencing-By-Synthesis或TruSeq方法,其使用例如HiSeq、HiScan、GenomeAnalyzer或MiSeq系统(加利福尼亚州圣地亚哥Illumina,Inc.))。生物标志物也可以使用离子流测序(Ion Torrent Systems,Inc.,Gulliford,康涅狄格州)或其他合适的半导体测序方法来进行检测。
其他检测工具
可以使用质谱法使用RNase图谱(mapping)对生物标志物进行定量。在通过MS或串联MS(MS/MS)方法对分离的RNA进行分析之前,可以用具有高特异性的RNA内切核酸酶(RNase)(例如,RNase T1,其在所有未修饰的鸟苷残基的3'侧切割)对分离的RNA进行酶促消化。开发的第一种方法使用直接与ESI-MS偶联的反相HPLC对核酸内切酶消化物进行在线色谱分离。转录后修饰的存在可以通过与基于RNA序列预期的那些的质量偏移来揭示。然后可以分离质量/电荷值异常的离子用于串联MS测序,从而定位转录后修饰的核苷的序列位置。
基质辅助激光解吸/电离质谱法(MALDI-MS)也已被用作获得关于转录后修饰的核苷的信息的分析方法。基于MALDI的方法可以通过分离步骤与基于ESI的方法区分。在MALDI-MS中,质谱仪用于分离生物标志物。
用于生物标志物检测和测量的其他方法包括,例如,链侵入测定(Third WaveTechnologies,Inc.)、表面等离子共振(SPR)、cDNA、MTDNA(金属DNA;萨斯喀彻温省萨斯卡通市Advance Technologies)以及单分子方法,诸如由US Genomics开发的方法。可以使用结合了表面酶反应和纳米颗粒扩增SPR成像(SPRI)的新方法以微阵列形式检测多个生物标志物。poly(A)聚合酶的表面反应在杂交到锁核酸(LNA)微阵列上的生物标志物上产生poly(A)尾。然后将DNA修饰的纳米颗粒吸附到poly(A)尾并用SPRI检测。这种超灵敏的纳米颗粒扩增的SPRI方法可用于以阿摩尔(attamole)水平进行生物标志物分析。
检测扩增或非扩增的生物标志物
在某些实施方案中,标记、染料或标记的探针和/或引物用于检测扩增的或未扩增的生物标志物。基于检测方法的灵敏度和靶标的丰度,技术人员将认识到哪些检测方法是合适的。根据检测方法的灵敏度和靶标的丰度,在检测之前可能需要或可能不需要扩增。本领域技术人员将认识到优选生物标志物扩增的检测方法。
探针或引物可以包括标准(A,T或U,G和C)碱基,或修饰的碱基。修饰的碱基包括,但不限于,AEGIS碱基。在某些方面,碱基通过天然磷酸二酯键或不同的化学键连接。不同的化学键包括,但不限于,肽键或锁核酸(LNA)键。
在某些实施方案中,扩增反应中的一种或多种引物可以包括标记。在更进一步的实施方案中,不同的探针或引物包含可彼此区分的可检测标记。在一些实施方案中,核酸,诸如探针或引物,可以用两种或更多种可区分的标记来标记。
在一些方面,标记附着于一种或多种探针并具有以下性质中的一种或多种:(i)提供可检测信号;(ii)与第二标记相互作用以修饰由第二标记提供的可检测信号,例如,FRET(荧光共振能量转移);(iii)稳定杂交,例如,形成双链体;以及(iv)提供结合复合物或亲和组的成员,例如亲和力、抗体-抗原、离子复合物、半抗原-配体(例如,生物素-亲和素)。在另外其他方面,标记的使用可以使用大量已知技术中的任何一种(该已知技术采用已知标记、键、连接基团、试剂、反应条件以及分析和纯化方法)来实现。
生物标志物可通过直接或间接方法检测。在直接检测方法中,通过与核酸分子连接的可检测标记来检测一种或多种生物标志物。在这类方法中,生物标志物可以在与探针结合之前被标记。因此,通过筛选与探针结合的标记的生物标志物来检测结合。该探针任选地与反应体积中的珠子(bead)连接。
在某些实施方案中,通过与标记的探针直接结合来检测核酸,并随后检测探针。在本发明的一个实施方案中,使用与探针缀合的FIexMAP微球(Luminex)检测核酸(诸如扩增的生物标志物),以捕获期望的核酸。一些方法可涉及例如用荧光标记修饰的多核苷酸探针检测或分支DNA(bDNA)检测。
在一些实施方案中,使用基于PCR的测定法来确定生物标志物的表达,该测定法包含每种生物标志物的特异性引物和/或探针。如本文所用,术语“探针”是指能够选择性结合特定预期目标生物分子的任何分子。在一些实施方案中,本文中,术语“探针”是指可间接地或直接地、共价地或非共价地结合至本文公开的任何底物和/或反应产物和/或蛋白酶的任何分子或与其相关,并且其相关或结合可使用本文公开的方法检测。在一些实施方案中,探针是荧光探针、抗体或基于吸光度的探针。如果是基于吸光度的探针,发色团pNA(对硝基苯胺)可用作检测和/或定量本文公开的靶核酸序列的探针。在一些实施方案中,探针可以是包含荧光分子或底物的核酸序列,该荧光分子或底物在暴露于酶时变为发荧光的,并且该核酸序列与一种核酸序列的片段互补。
术语“引物”或“探针”涵盖具有特定序列的寡核苷酸或具有特定序列的寡核苷酸。在其他实施方案中,通过间接检测方法检测核酸。例如,生物素化的探针可以与链霉亲和素缀合的染料组合以检测结合的核酸。链霉亲和素分子结合扩增的生物标志物上的生物素标记,并且结合的生物标志物通过检测附着在链霉亲和素分子上的染料分子来检测。在一个实施方案中,缀合链霉亲和素的染料分子包含PHYCOLINK。链霉亲和素R-藻红蛋白(PROzyme)。其他缀合染料分子是本领域技术人员已知的。
标记包括,但不限于:发光、光散射和吸光化合物,其产生或淬灭可检测的荧光、化学发光或生物发光信号。在一些实施方案中使用包括报告荧光团和淬灭剂荧光团的双重标记的荧光探针。应当理解,选择具有不同发射光谱的成对荧光团,使得它们可以容易地区分。在某些实施方案中,标记是杂交稳定部分,其用于增强、稳定或影响双链体的杂交,例如,嵌入剂和嵌入染料。
诊断
本文所述的生物标志物可单独或组合用于诊断测试中以评估受试者的肺癌状态。肺癌状态包括肺癌存在或不存在。肺癌状态还可以包括监测肺癌的病程,例如,监测疾病进展。基于受试者的肺癌状态,可以指示另外的程序,包括例如另外的诊断测试或治疗程序。
通常根据测定的准确度、测定的灵敏度、测定的特异性或“曲线下面积”(AUC,例如,接受者操作特征(ROC)曲线下面积)来测量诊断测试正确预测疾病状态的能力。如本文所用,准确度是错误分类的样品的分数的量度。可以将准确度度计算为例如在测试群体中正确分类的样本的总数除以样本的总数。灵敏度是通过测试预测为阳性的“真阳性”的量度,并且可以计算为正确鉴定的肺癌样品的数目除以肺癌样品的总数。特异性是通过测试预测为阴性的“真阴性”的量度,并且可以计算为正确鉴定的正常样品的数目除以正常样品的总数。AUC是接受者操作特征曲线下面积的量度,其为灵敏度对假阳性率(1-特异性)的曲线。AUC越大,测试的预测值越强大。测试效用的其他有用量度包括“阳性预测值”和“阴性预测值”两者,“阳性预测值”是测试为阳性的实际阳性的百分比,“阴性预测值”是测试为阴性的实际阴性的百分比。在一个优选的实施方案中,相对于正常受试者,来源于具有不同肺癌状态的受试者的样品中一种或多种生物标志物的水平显示出至少p=0.05,例如p=0.05,p=0.01,p=0.005,p=0.001等的统计学显著差异,如相对于合适的对照所确定的。在其他优选的实施方案中,单独或组合使用本文所述的生物标志物的诊断测试显示至少约75%的准确度,例如,至少约75%,约80%,约85%,约90%,约95%,约97%,约99%或约100%的准确度。在其他实施方案中,单独或组合使用本文所述的生物标志物的诊断测试显示出至少约75%的特异性,例如至少约75%,约80%,约85%,约90%,约95%,约97%,约99%或约100%的特异性。在其他实施方案中,单独或组合使用本文所述的生物标志物的诊断测试显示出至少约75%的灵敏度,例如至少约75%,约80%,约85%,约90%,约95%,约97%,约99%或约100%的灵敏度。在其他实施方案中,单独或组合地使用本文所述的生物标志物的诊断测试显示出各自至少约75%的特异性和灵敏度,例如,至少约75%,约80%,约85%,约90%,约95%,约97%,约99%或约100%的特异性和灵敏度(例如,至少约80%的特异性和至少约80%的灵敏度,或例如,至少约80%的特异性和至少约95%的灵敏度)。
每种生物标志物与正常受试者相比不同地存在于来源于患有肺癌的受试者的生物样品中,因此每种生物标志物可单独用于促进测试受试者中肺癌的确定。这类方法涉及确定来源于受试者的样品中的生物标志物的水平。确定样品中生物标志物的水平可以包括使用任何合适的方法(例如本文所述的方法)测量、检测或测定样品中生物标志物的水平。确定样品中生物标志物的水平还可以包括检查所测量、检测或测定样品中生物标志物的水平的测定的结果。该方法还可以涉及将样品中的生物标志物的水平与合适的对照进行对比。使用合适的对照评估的生物标志物相对于正常受试者中的生物标志物水平的变化指示受试者的肺癌状态。可以使用诊断量的生物标志物,其表示高于或低于该诊断量时,受试者被归类为具有特定肺癌状态。例如,如果与正常个体相比,生物标志物在来源于患有肺癌的个体的样品中上调,则高于诊断截止值的测量量提供了对肺癌的诊断。如本领域所熟知的,调节测定中使用的具体诊断截止值允许人们根据需要调节诊断测定的灵敏度和/或特异性。具体的诊断截止值可以例如通过测量来自具有不同肺癌状态的受试者的统计上显著数量的样品中的生物标志物的量,并以期望的准确度、灵敏度和/或特异性水平绘制截止值来确定。在某些实施方案中,诊断截止值可在分类算法的帮助下确定。
虽然单独的生物标志物可用于肺癌的诊断应用,如本文所示,但生物标志物的组合可比单独使用时的生物标志物提供更高的肺癌状态的预测值。具体地,检测多个生物标志物可以增加诊断测试的准确度、灵敏度和/或特异性。本发明包括这些表中列出的个体生物标志物和生物标志物组合,以及它们在本文所述的方法和试剂盒中的用途。
在一些实施方案中,使用诸如“已知样本”的样本生成的数据然后可用于“训练”分类模型。“已知样品”是已经被预先分类的样品,例如,被分类为来自正常受试者或来自患有肺癌的受试者的样品。由光谱导出并用于形成分类模型的数据可称为“训练数据集”。一旦被训练,分类模型可以识别从使用未知样品产生的光谱导出的数据中的模式。然后可以使用该分类模型来将这些未知样品分类成类。例如,这在预测特定生物样品是否与特定生物状况(例如,患病和未患病)相关中是有用的。
可以使用任何合适的统计分类(或“学习”)方法来形成分类模型,该方法试图基于数据中存在的客观参数将数据体分成类。在监督分类中,将包含已知类别的示例的训练数据呈现给学习机制,该学习机制学习定义每个已知类别的一组或多组关系。然后可以将新数据应用于学习机制,该学习机制然后使用所学习的关系对新数据进行分类。监督分类过程的示例包括线性回归过程(例如,多重线性回归(MLR)、偏最小二乘(PLS)回归和主成分回归(PCR))、二元决策树(例如,诸如CART分类和回归树的递归分区过程)、诸如反向传播网络的人工神经网络、判别分析(例如,贝叶斯分类器(Bayesian classifier)或费舍尔分析(Fischer analysis))、逻辑分类器,以及支持向量分类器(支持向量机)。
在其他实施方案中,可以使用无监督学习方法来形成所创建的分类模型。无监督分类尝试基于训练数据集中的相似性来学习分类,而不对从中得出训练数据集的光谱进行预分类。无监督学习方法包括聚类分析。聚类分析试图将数据分成“聚类”或组,在理想情况下,这些“聚类”或组应该具有彼此非常相似且与其他聚类的成员非常不相似的成员。然后使用某种距离度量来测量相似性,该距离度量测量数据项之间的距离,并将彼此接近的数据项聚类在一起。
分类模型可以在任何合适的数字计算机上形成和使用。合适的数字计算机包括使用任何标准或专用操作系统(诸如基于Unix、WINDOWS或LINUX的操作系统)的微型(micro)、迷你(mini)或大型计算机。
训练数据集和分类模型可以通过由数字计算机执行或使用的计算机代码来体现。计算机代码可以存储在任何合适的计算机可读介质上,包括光盘或磁盘、磁棒、磁带等,并且可以用任何合适的计算机编程语言编写,包括C、C++、visual basic等。
上述学习算法可用于开发针对肺癌的生物标志物的分类算法。分类算法又可通过为单独或组合使用的生物标志物提供诊断值(例如,截止点)而用于诊断测试中。
试剂盒
本发明提供了用于诊断受试者中的肺癌的试剂盒,该试剂盒用于确定生物标志物的水平(其中序列任选地包含尿嘧啶以代替所公开的胸腺嘧啶中的一种、多于一种或全部)及其组合。试剂盒可以包括适于选择性检测来源于受试者的样品中用于诊断肺癌的生物标志物或生物标志物组的存在的材料和试剂。例如,在一个实施方案中,该试剂盒可以包括与生物标志物特异性杂交的试剂。这类试剂可以是适于检测生物标志物的形式的核酸分子,例如,探针或引物。该试剂盒可以包括用于进行测定以检测一种或多种生物标志物的试剂,例如,可以用于在qPCR反应中检测一种或多种生物标志物的试剂。该试剂盒同样可以包括用于检测一种或多种生物标志物的微阵列。
在进一步的实施方案中,试剂盒可以含有标记或产品插页形式的合适操作参数的说明书。例如,说明书可以包括关于如何收集样品,如何确定样品中一种或多种生物标志物的水平,或如何将样品中一种或多种生物标志物的水平与受试者的肺癌状态相关联的信息或指导。
在另一个实施方案中,试剂盒可以含有一个或多个容器,其具有生物标志物样品,以用作参比标准,合适的对照,或用于测定的校准以检测测试样品中的生物标志物。
系统/装置
本发明涉及一种诊断对象是否患有肺癌或存在患肺癌风险以及预测肺癌预后的系统/装置,包括:
分析单元,所述单元适于测量对象样本中本发明所述的生物标志物的量;和
评估单元,其包含存储的参考和数据处理器,所述数据处理器已经实现了用于比较分析单元测量的生物标志物的量与存储的参考的算法,由此诊断肺癌或存在患肺癌的风险。
如本文应用的装置应至少包括上述单元。装置的单元可操作地彼此连接。如何以操作方式链接单元将取决于装置中包含的单元的类型。例如,在分析单元中应用用于自动定量测量生物标志物的工具的情况下,由所述自动操作单元获得的数据可以由评估单元处理,例如,由在作为数据处理器的计算机上运行的计算机程序处理,以便促进诊断。在一个实施方式中,数据处理器实行生物标志物的量与参考的比较。
进一步,在这种情况下,单元由单个装置构成。然而,分析单元和评估单元也可为物理上分离的。在这种情况下,可以经由允许数据传输的单元之间的有线和无线连接来实现操作连接(operative linkage)。无线连接可使用无线LAN(WLAN)或互联网。有线连接可通过单元之间的光学和非光学电缆连接实现。用于有线连接的电缆进一步适于高通量数据传输。
下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于说明本发明而不用于限制本发明的范围。实施例中未注明具体条件的实验方法,通常按照常规条件,或按照制造厂商所建议的条件。
1、构建EGFR的PPI网络
基于string数据库围绕EGFR构建PPI网络图,由此得到了一个基因集:CBL,CDH1,EGF,EGFR,EREG,HBEGF,HSP90AA1,PLCG1,STAT3,TGFA,RASA1,见图1。
2、筛选与肺癌密切相关的网络蛋白
从UCSC Xena(https://gdc.xenahubs.net)下载肺鳞癌的基因表达的RNA测序数据(FPKM值)和临床信息,对数据进行处理,处理过程如下:删除没有临床随访信息的样本和生存时间未知,小于0天和没有生存状态的样本;对数据样本进行基因注释;去重取平均值和进行次方转换;最终纳入的样本为49个正常样本和493个癌症样本。
将样本分为正常组和癌症组,使用R中的"pROC"包绘制PPI网络基因的ROC曲线,选择与肺癌密切相关的基因,筛选标准:AUC>0.85。
基因的ROC曲线及AUC值分别如图2和表1所示,CDH1,TGFA,HBEGF与肺癌密切相关。
表1各基因的AUC值
3、分组及差异表达基因的筛选
根据CDH1,TGFA,HBEGF这3个基因的表达数据的中位数,将癌症样本分为高低两组,将根据这3个基因表达数据的中位数得到的3个高组交集,将全部高表达的定义为高表达组,其它的定义为低表达组,得到高表达组样本为85,低表达组408。
基于高低表达的分组,使用R语言中的“limma”包进行差异表达的分析,筛选差异表达基因,筛选标准为:FDR<0.01。
筛选结果显示,有1117个基因呈现显著性差异,其中,690个基因显著上调,427个基因显著下调。
4、单因素分析
对在高低表达分组中呈现显著性差异的基因使用R中的“survival”、“survminer”包进行单因素分析,筛选与生存相关的基因,筛选标准为:P<0.05。
筛选结果显示,与生存相关的基因有52个。
5、LASSO Cox回归分析
对与生存相关的基因使用R中的“survival”、“glmnet”进行LASSO Cox分析,构建回归模型,利用LASSO Cox回归模型系数与mRNA表达水平的线性组合构建预后genesignature(Sig)。
回归分析结果如表2所示,共得到25个基因的回归模型。
表2预后基因
6、标志物亚组的分类
根据p值所确定的有效性,进一步将25个基因又细分为不同的亚组,分别是25%(Sig0.25),50%(Sig0.5),75%(Sig0.5),100%(Sig)。分组情况如图3所示。
7、标志物亚组对肺癌的预测
基于正常疾病的分组,对4个亚组在R中分别使用机器学习的方法构建模型来预测标志物对疾病的诊断效能,其中每个亚组都构建了RF,SVM,DT这3种模型。
结果如图4所示,Sig0.25组构建的DT,RF,SVM模型预测肺癌的AUC分别为0.822、0.934、0.928;Sig0.5组构建的DT,RF,SVM模型预测肺癌的AUC分别为0.903、0.995、0.995;Sig0.75组构建的DT,RF,SVM模型预测肺癌的AUC分别为0.903、0.998、0.998;Sig组构建的DT,RF,SVM模型预测肺癌的AUC分别为0.945、0.999、0.998,不同的亚组都能够有效的预测肺癌,其均具有较高的敏感性和特异性,其中Sig组的预测效能最高。
8、标志物亚组对肺癌预后的预测
采用R软件“survival”、“survminer”“ggplot2”、“timeROC”包对四个亚组进行生存分析和时间依赖ROC的绘制。
结果如图5所示,不同的亚组可以用于预测肺癌的预后(P<0.0001)。
实施例的说明只是用于理解本发明的方法及其核心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也将落入本发明权利要求的保护范围内。
Claims (10)
1.一种用于预测肺癌的生物标志物,其特征在于,至少包括以下基因的任意两种的组合:PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2、ARL2BP、ALDH2、VPS28、RNF222、OTOP2;
优选地,所述标志物至少包括以下一组特征性基因组:Sig0.25、Sig0.5、Sig0.7和Sig;
所述Sig0.25组包括以下基因:PYGB、CCDC51、LCE3C、PLEKHA8P1;
所述Sig0.5组包括以下基因:PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P;
所述Sig0.75组包括以下基因:PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2;
所述Sig组包括以下基因:PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2、ARL2BP、ALDH2、VPS28、RNF222、OTOP2。
2.检测样本中权利要求1所述的生物标志物的试剂在制备诊断或预测肺癌的产品中的应用。
3.检测样本中权利要求1所述的生物标志物的试剂在制备预测肺癌预后的产品中的应用。
4.根据权利要求2或3所述的应用,其特征在于,所述试剂包括通过数字成像技术、蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂;
优选地,采用蛋白免疫技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括抗体,所述抗体对生物标志物或其功能片段的表位具有特异性;
优选地,所述抗体为标记抗体;
优选地,采用染料技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括染料,所述染料对生物标志物或其功能片段具有特异性;
优选地,采用核酸测序技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括引物,所述引物与生物标志物或其功能片段的序列结合;
优选地,采用核酸杂交技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括探针,所述探针与生物标志物或其功能片段的序列互补;
优选地,所述探针为标记探针。
5.根据权利要求2或3所述的应用,其特征在于,所述样本包括组织、体液。
6.一种诊断或预测肺癌/肺癌预后的产品,其特征在于,所述产品包括检测权利要求1所述的生物标志物的试剂;
优选地,所述产品包括芯片、试剂盒;
优选地,所述试剂盒包括qPCR试剂盒、免疫印迹检测试剂盒、免疫层析检测试剂盒、流式细胞分析试剂盒、免疫组化检测试剂盒、ELISA试剂盒和电化学发光检测试剂盒;
优选地,所述试剂盒还包括用于诊断或预测肺癌/肺癌预后的说明书。
7.一种体系,其特征在于,包含:
样品;
一种或多种探针和/或染色剂,所述探针和/或染色剂与权利要求1中所述的生物标志物和/或其同源序列结合;以及
一种或多种设备,所述设备能够定量至少一种探针或染色剂的存在、不存在和/或量,所述探针或染色剂与权利要求1所述生物标志物和/或其同源序列结合。
8.一种诊断对象是否患有肺癌或存在患肺癌的风险以及预测肺癌预后的系统/装置,其特征在于,包括:
分析单元,所述单元适于测量对象样本中权利要求1所述的生物标志物的量;和
评估单元,其包含存储的参考和数据处理器,所述数据处理器已经实现了用于比较分析单元测量的生物标志物的量与存储的参考的算法,由此诊断肺癌或存在患肺癌的风险。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求8所述的系统/装置。
10.一种筛选预测肺癌标志物的方法,其特征在于,包括:
1)构建肺癌驱动基因的互作蛋白网络;
2)筛选与肺癌密切相关的网络蛋白;
3)根据筛选的网络蛋白进行分组;
4)根据3)中所述的分组筛选差异表达基因;
优选地,所述方法进一步包括对步骤4)中的基因进行单因素分析,筛选与生存相关的基因;
优选地,所述方法进一步对生存相关的基因进行多因素回归分析,筛选用于预后的标志物;
优选地,所述肺癌驱动基因包括EGFR、ALK、GRP、KRT19、SERPINB3、ROS1、BRAF、MET、RET、ERBB2、KRAS;
优选地,所述肺癌驱动基因为EGFR;
优选地,步骤3)中利用网络蛋白表达水平的中位数进行分组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111448186.3A CN114015778A (zh) | 2021-11-30 | 2021-11-30 | 预测肺癌的生物标志物组 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111448186.3A CN114015778A (zh) | 2021-11-30 | 2021-11-30 | 预测肺癌的生物标志物组 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114015778A true CN114015778A (zh) | 2022-02-08 |
Family
ID=80067225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111448186.3A Pending CN114015778A (zh) | 2021-11-30 | 2021-11-30 | 预测肺癌的生物标志物组 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114015778A (zh) |
-
2021
- 2021-11-30 CN CN202111448186.3A patent/CN114015778A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10877039B2 (en) | Diagnostic for colorectal cancer | |
US11208698B2 (en) | Methods for detection of markers bladder cancer and inflammatory conditions of the bladder and treatment thereof | |
JP6554646B2 (ja) | 遺伝子型及び表現型バイオマーカーを用いる無症候性血尿を有する患者のトリアージ | |
KR101566368B1 (ko) | 암 검출을 위한 소변 유전자 발현 비율 | |
JP2020150949A (ja) | メラノーマ癌の予後予測 | |
US20160146818A1 (en) | Bladder cancer detection composition, kit, and associated methods | |
JP2011523049A (ja) | 頭頚部癌の同定、モニタリングおよび治療のためのバイオマーカー | |
AU2009240781B2 (en) | An assay to detect a gynecological condition | |
CN113981098A (zh) | 用于肝癌诊断以及肝癌预后预测的生物标志物 | |
JP2005523727A (ja) | 腫瘍のバイオマーカーを発見して腫瘍を診断する方法 | |
CN113943815A (zh) | 基于alk的生物标志物组及其应用 | |
CN114107504A (zh) | 用于检测肺癌及肺癌预后的生物标志物 | |
CN113981097A (zh) | 基于hspa4的生物标志物组及其在肝癌中的应用 | |
CN112795658A (zh) | 早期结直肠癌的基于生物标志物的诊断 | |
CN116121392A (zh) | 用于胰腺囊性肿瘤诊断的方法和试剂 | |
CN114015778A (zh) | 预测肺癌的生物标志物组 | |
KR101345374B1 (ko) | 1기 폐암 환자의 병기 구분용 마커, 상기 마커에 대한프라이머를 포함하는 키트, 상기 마커 또는 상기 마커에대한 항체를 포함하는 마이크로어레이, 및 1기 폐암환자의 병기를 구분하는 방법 | |
CN112921094A (zh) | 生物标志物用于评估早期结直肠癌 | |
CN113025717A (zh) | 早期结直肠癌的指示物 | |
CN112921095A (zh) | 用于诊断早期结直肠癌的生物标志物及其应用 | |
CN113061657A (zh) | 诊断早期结直肠癌的产品及系统 | |
CN112921096A (zh) | 早期结直肠癌的预测 | |
EP2607494A1 (en) | Biomarkers for lung cancer risk assessment | |
US20070275380A1 (en) | Method for Distinguishing Aml Subtypes With Aberrant and Prognostically Intermediate Karyotypes | |
CA3214819A1 (en) | Protein markers for estrogen receptor (er)-positive luminal a(la)-like and luminal b1 (lb1)-like breast cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |