CN108475300A - 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统 - Google Patents
利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统 Download PDFInfo
- Publication number
- CN108475300A CN108475300A CN201680062975.4A CN201680062975A CN108475300A CN 108475300 A CN108475300 A CN 108475300A CN 201680062975 A CN201680062975 A CN 201680062975A CN 108475300 A CN108475300 A CN 108475300A
- Authority
- CN
- China
- Prior art keywords
- cancer
- gene
- base sequence
- information
- mentioned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 521
- 201000011510 cancer Diseases 0.000 title claims abstract description 508
- 239000003814 drug Substances 0.000 title claims abstract description 76
- 238000010187 selection method Methods 0.000 title abstract description 16
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 544
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 197
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 197
- 230000035772 mutation Effects 0.000 claims abstract description 143
- 238000004458 analytical method Methods 0.000 claims abstract description 86
- 230000004083 survival effect Effects 0.000 claims abstract description 73
- 238000004393 prognosis Methods 0.000 claims abstract description 50
- 239000002246 antineoplastic agent Substances 0.000 claims abstract description 46
- 229940124597 therapeutic agent Drugs 0.000 claims abstract description 42
- 230000000694 effects Effects 0.000 claims abstract description 23
- 238000012546 transfer Methods 0.000 claims abstract description 20
- 102000048850 Neoplasm Genes Human genes 0.000 claims abstract description 17
- 108700019961 Neoplasm Genes Proteins 0.000 claims abstract description 16
- 238000011319 anticancer therapy Methods 0.000 claims abstract 2
- 230000006378 damage Effects 0.000 claims description 89
- 239000003471 mutagenic agent Substances 0.000 claims description 69
- 238000000034 method Methods 0.000 claims description 67
- 210000004027 cell Anatomy 0.000 claims description 62
- 206010069754 Acquired gene mutation Diseases 0.000 claims description 61
- 230000037439 somatic mutation Effects 0.000 claims description 61
- 102000004169 proteins and genes Human genes 0.000 claims description 38
- 210000001519 tissue Anatomy 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 229940079593 drug Drugs 0.000 claims description 19
- 229940000406 drug candidate Drugs 0.000 claims description 17
- 238000012300 Sequence Analysis Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 13
- 230000002401 inhibitory effect Effects 0.000 claims description 13
- 108700020796 Oncogene Proteins 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 10
- 239000000090 biomarker Substances 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 208000027418 Wounds and injury Diseases 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 6
- 208000014674 injury Diseases 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 241000408710 Hansa Species 0.000 claims description 4
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 102100029671 E3 ubiquitin-protein ligase TRIM8 Human genes 0.000 claims description 3
- 101000795300 Homo sapiens E3 ubiquitin-protein ligase TRIM8 Proteins 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000000491 multivariate analysis Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000006698 induction Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000003657 Likelihood-ratio test Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000009545 invasion Effects 0.000 abstract description 7
- 238000011394 anticancer treatment Methods 0.000 abstract 1
- 239000002585 base Substances 0.000 description 136
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 30
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 29
- 230000006870 function Effects 0.000 description 22
- 238000011160 research Methods 0.000 description 17
- 238000011282 treatment Methods 0.000 description 16
- 208000030381 cutaneous melanoma Diseases 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 15
- 201000003708 skin melanoma Diseases 0.000 description 15
- 208000032818 Microsatellite Instability Diseases 0.000 description 14
- 231100000518 lethal Toxicity 0.000 description 13
- 230000001665 lethal effect Effects 0.000 description 13
- 108010082117 matrigel Proteins 0.000 description 12
- 101000804908 Homo sapiens Xin actin-binding repeat-containing protein 2 Proteins 0.000 description 11
- 201000010099 disease Diseases 0.000 description 11
- 239000002773 nucleotide Substances 0.000 description 11
- 102000039446 nucleic acids Human genes 0.000 description 10
- 108020004707 nucleic acids Proteins 0.000 description 10
- 150000007523 nucleic acids Chemical class 0.000 description 10
- 125000003729 nucleotide group Chemical group 0.000 description 10
- 206010009944 Colon cancer Diseases 0.000 description 9
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 9
- 206010027476 Metastases Diseases 0.000 description 8
- 230000009401 metastasis Effects 0.000 description 8
- 101001016199 Homo sapiens Dynein axonemal heavy chain 2 Proteins 0.000 description 7
- 108060007242 RYR3 Proteins 0.000 description 7
- 230000030833 cell death Effects 0.000 description 7
- 102000004914 RYR3 Human genes 0.000 description 6
- 102100036955 Xin actin-binding repeat-containing protein 2 Human genes 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 6
- 230000001939 inductive effect Effects 0.000 description 6
- 201000011061 large intestine cancer Diseases 0.000 description 6
- 102000054765 polymorphisms of proteins Human genes 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 102000015694 estrogen receptors Human genes 0.000 description 5
- 108010038795 estrogen receptors Proteins 0.000 description 5
- 238000006467 substitution reaction Methods 0.000 description 5
- 230000001225 therapeutic effect Effects 0.000 description 5
- 102100032245 Dynein axonemal heavy chain 2 Human genes 0.000 description 4
- 101000585675 Homo sapiens Obscurin Proteins 0.000 description 4
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 4
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 4
- 150000001413 amino acids Chemical class 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 201000005202 lung cancer Diseases 0.000 description 4
- 208000020816 lung neoplasm Diseases 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000004797 therapeutic response Effects 0.000 description 4
- 238000007482 whole exome sequencing Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 108020004485 Nonsense Codon Proteins 0.000 description 3
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 3
- 239000003513 alkali Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000004709 cell invasion Effects 0.000 description 3
- 238000002512 chemotherapy Methods 0.000 description 3
- 230000034994 death Effects 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 231100000225 lethality Toxicity 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 201000005243 lung squamous cell carcinoma Diseases 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 231100000350 mutagenesis Toxicity 0.000 description 3
- 230000037434 nonsense mutation Effects 0.000 description 3
- 230000007918 pathogenicity Effects 0.000 description 3
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 2
- 108700020463 BRCA1 Proteins 0.000 description 2
- 102000036365 BRCA1 Human genes 0.000 description 2
- 101150072950 BRCA1 gene Proteins 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 108700005090 Lethal Genes Proteins 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 208000024556 Mendelian disease Diseases 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 2
- 102100030127 Obscurin Human genes 0.000 description 2
- 208000000102 Squamous Cell Carcinoma of Head and Neck Diseases 0.000 description 2
- 241000982634 Tragelaphus eurycerus Species 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 239000002671 adjuvant Substances 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 230000004611 cancer cell death Effects 0.000 description 2
- 208000009060 clear cell adenocarcinoma Diseases 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002651 drug therapy Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000004907 gland Anatomy 0.000 description 2
- 201000000459 head and neck squamous cell carcinoma Diseases 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000002703 mutagenesis Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 239000002777 nucleoside Substances 0.000 description 2
- 150000003833 nucleoside derivatives Chemical class 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- VBUBYMVULIMEHR-UHFFFAOYSA-N propa-1,2-diene;prop-1-yne Chemical compound CC#C.C=C=C VBUBYMVULIMEHR-UHFFFAOYSA-N 0.000 description 2
- 230000004853 protein function Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000009257 reactivity Effects 0.000 description 2
- 102000005962 receptors Human genes 0.000 description 2
- 108020003175 receptors Proteins 0.000 description 2
- 229920002477 rna polymer Polymers 0.000 description 2
- 230000037432 silent mutation Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000037436 splice-site mutation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 108090000312 Calcium Channels Proteins 0.000 description 1
- 102000003922 Calcium Channels Human genes 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 238000007808 Cell invasion assay Methods 0.000 description 1
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 1
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 1
- 208000030808 Clear cell renal carcinoma Diseases 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108010010803 Gelatin Proteins 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 101000848199 Homo sapiens Protocadherin Fat 4 Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 102000057248 Lipoprotein(a) Human genes 0.000 description 1
- 108010033266 Lipoprotein(a) Proteins 0.000 description 1
- 241000813323 Maize streak Reunion virus Species 0.000 description 1
- 238000007807 Matrigel invasion assay Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 101100426085 Mus musculus Trim8 gene Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 101150063858 Pik3ca gene Proteins 0.000 description 1
- RJKFOVLPORLFTN-LEKSSAKUSA-N Progesterone Natural products C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H](C(=O)C)[C@@]1(C)CC2 RJKFOVLPORLFTN-LEKSSAKUSA-N 0.000 description 1
- 102100034547 Protocadherin Fat 4 Human genes 0.000 description 1
- 238000012228 RNA interference-mediated gene silencing Methods 0.000 description 1
- 102000004912 RYR2 Human genes 0.000 description 1
- 108060007241 RYR2 Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 206010039491 Sarcoma Diseases 0.000 description 1
- 108700005078 Synthetic Genes Proteins 0.000 description 1
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 238000009098 adjuvant therapy Methods 0.000 description 1
- 229910021529 ammonia Inorganic materials 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 206010073251 clear cell renal cell carcinoma Diseases 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001086 cytosolic effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 229920000159 gelatin Polymers 0.000 description 1
- 239000008273 gelatin Substances 0.000 description 1
- 235000019322 gelatine Nutrition 0.000 description 1
- 235000011852 gelatine desserts Nutrition 0.000 description 1
- 230000009368 gene silencing by RNA Effects 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000009650 gentamicin protection assay Methods 0.000 description 1
- 230000003054 hormonal effect Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 201000005249 lung adenocarcinoma Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 208000011645 metastatic carcinoma Diseases 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 108091062637 miR-367 stem-loop Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000037023 motor activity Effects 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 210000003360 nephrocyte Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011275 oncology therapy Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000092 prognostic biomarker Substances 0.000 description 1
- 238000002818 protein evolution Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004248 saffron Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 239000000107 tumor biomarker Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XOOUIPVCVHRTMJ-UHFFFAOYSA-L zinc stearate Chemical compound [Zn+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O XOOUIPVCVHRTMJ-UHFFFAOYSA-L 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Pathology (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Public Health (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Hospice & Palliative Care (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Oncology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
Abstract
本发明涉及利用癌症基因组碱基序列突变和患者生存信息的定制型药物选择方法及系统,更具体地涉及利用癌症基因组碱基序列突变中的合成癌生存(Synthetic Cancer Survival)基因的突变信息的定制型抗癌治疗药物选择方法及系统。本发明的利用癌症基因组突变和患者生存信息或者癌细胞或组织侵袭或转移能力评估的定制型抗癌治疗方法及系统为可通过分析从癌症基因组碱基序列突变和癌生存及转移信息导出的合成癌生存基因对的突变的可有效选择个别性抗癌治疗效果及预后良好的抗癌治疗药物的技术,可信度高,并可迅速简单地提供相关信息。
Description
技术领域
本发明涉及利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统,更具体地涉及利用癌症患者的基因组碱基序列突变中的合成癌生存(Synthetic Cancer Survival)基因的突变信息的定制型抗癌治疗药物选择方法及系统。
背景技术
由于生物技术的进步,目前已达到提供通过分析人类的全基因组碱基序列(wholegenome sequence)来预测每个人的疾病并提供定制型预防及治疗疾病的方法的阶段。
随着基因组学的迅速发展,基因组的不稳定性和累积的变形已被正式确立为癌症的病因论,并且随着基因组的高速大量分析及信息处理新技术的迅速发展,发达国家迅速实现实际临床适用。
另一方面,在治疗具有原发性肿瘤的癌症患者的过程中,正确的预测预后(prognosis)为重要的部分之一,这些预后不仅基于普通的临床变量,如年龄、病理结果等,而且最近基于如基因组学变异或扩增等的分子学变量来判断。作为代表性的雌激素受体(ER)、孕酮受体(PR)、人类上皮因子受体2(HER2)的蛋白质表达水平被确认为乳房癌的重要的预后因子,这还适用于实际治疗中。并且,最近,介绍有使用卵巢癌的分子图谱来进行预测预后的研究,在此研究中报告有如下内容,即,根据是否具有存在于被周知为乳房癌的预后因子的乳腺癌1号(BRCA1)基因和乳腺癌2号(BRCA2)基因的突变状况,该患者组的预后互不相同。此研究为用于确认除了临床变量之外还能够以分子图谱测定癌症患者的预后的初期研究之一,是一项暗示分子基因组学指标能够以各种方式应用于多种癌的研究。
最近,通过肿瘤基因图谱(The Cancer Genome Atlas,TCGA)、国际癌症基因组联盟(International Cancer Genome Consortium,ICGC)等事业发表了多种癌症基因组分析数据和其分析结果等,还发表了多个相关论文。目前,对于大多数主要癌症发表了基因组、转录组、表观基因组等图谱分析数据,包括有关寻找癌症的致因基因、寻找有助于癌的分子分类的生物指标(biomarker)、寻找预后因子、寻找治疗反应指标、癌组织和癌基因组突变的异质性(heterogeneity)等的多种内容。
到目前为止发表的大部分研究都集中在针对个别基因的特性和作用的研究,与癌的治疗靶点或预后指标有关的多个研究也是大部分为针对个别基因和单一癌症的有限的研究。但是,这样确认的致因基因直接适用于治疗靶点或新药物开发并不容易,由于癌症的复杂性和异质性,以单一生物指标为中心的癌症研究结果在反映个体差异的个体化用药(personalized medicine)的方面上并不容易,因此在临床应用中表现出各种局限性。
因此,为了克服目前的利用单一生物指标的癌症研究的局限性,强烈提出有必要开发基于定制型抗癌治疗药物选择方法论的个人定制型癌症诊断及治疗方法论,上述定制型抗癌治疗药物选择方法论为基于直接使用按照每个人基因组碱基序列突变的综合分析信息的数据。
发明内容
技术问题
本发明考虑到如上所述的问题提出的,通过使用癌症患者的基因组突变信息和生存信息来导出按照癌症类型的合成癌生存基因对后,通过分析个别癌症患者的基因组碱基序列突变信息分析来选定属于一个以上的合成癌生存基因对的一个以上的突变基因,并通过选择可以抑制与选定的一个以上的上述突变基因配对并构成合成癌生存基因对的一个以上的对应基因的一个以上的候选药物,来提供用于提供定制型抗癌治疗药物选择的信息的方法及系统。
解决问题的方案
在一实施方式中,本发明提供用于提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其中,包括:由癌症患者的基因组碱基序列信息确定属于合成癌生存基因对的一个以上的基因的碱基序列突变信息的步骤;以及由上述碱基序列突变信息选定一个以上的用于抑制与属于合成癌生存基因对的一个以上的突变基因配对的一个以上的对应基因的候选药物的步骤。
在再一实施方式中,本发明提供利用癌症患者的基因组碱基序列突变的定制型抗癌治疗药物选择系统,其中,包括:数据库,可检索或提取与对癌症患者成为适用对象的抗癌治疗药物及上述药物可抑制的基因有关的信息;通信部,可访问上述数据库;癌症基因组碱基序列分析部;药物选择信息提供部;以及显示部,上述癌症基因组碱基序列分析部包括用于选定属于合成癌生存基因对的一个以上的突变基因的突变基因选定部以及用于选定通过对于一个以上的上述突变基因与相应突变基因进行配对来形成合成癌生存基因对的一个以上的对应基因的对应基因选定部,上述药物选择信息提供部用于提供对一个以上的上述对应基因的抗癌治疗药物选择信息。
在另一实施方式中,本发明提供计算机可读介质,其中,包括使使处理器运行的执行模块,上述处理器执行包括如下步骤的动作:从癌症患者的基因组碱基序列信息筛选合成癌生存基因对的步骤;以及筛选用于抑制与属于上述合成癌生存基因对的一个以上的突变基因配对的一个以上的对应基因的一个以上的候选药物的步骤。
在还一实施方式中,本发明提供用于提供癌症患者的预后预测的信息的方法,其中,包括从癌症患者基因组的碱基序列信息计算属于合成癌生存基因对的一个以上的基因数的步骤。
在又一实施方式中,本发明提供利用癌症患者的基因组碱基序列突变的定制型抗癌治疗药物选择系统,其中,包括:数据库,可检索或提取与对癌症患者成为适用对象的抗癌治疗药物及上述药物可抑制的基因有关的信息;通信部,可访问上述数据库;癌基因组碱基序列分析部;药物选择信息提供部;以及显示部,上述癌症基因组碱基序列分析部包括用于选定属于合成癌生存基因对的一个以上的突变基因的突变基因对选定部以及用于选定通过对于一个以上的上述突变基因与相应突变基因进行配对来形成合成癌生存基因对的一个以上的对应基因对应基因选定部,上述药物选择信息提供部用于提供使上述癌症患者的合成癌生存基因对的数量增加的药物选择信息。
在又一实施方式中,本发明提供计算机可读介质,包括使下述处理器运行的执行模块,上述处理器执行包括如下步骤的动作:从癌症患者的基因组碱基序列信息筛选合成癌生存基因对的步骤;以及在用于抑制与属于上述合成癌生存基因对的一个以上的突变基因配对的一个以上的对应基因的一个以上的候选药物中,筛选使合成癌生存基因对的数量增加的候选药物的步骤。
发明的效果
本发明的利用癌症患者的基因组突变信息和生存信息的定制型药物选择方法及系统为可通过分析从癌症患者的基因组突变信息和生存信息导出的合成癌生存基因对的碱基序列突变的可有效选择个别性治疗效果及预后良好的抗癌治疗药物的技术,可信度高,并可迅速简单地提供相关信息。
在利用本发明的方法及系统的情况下,选定属于用于诱发合成癌生存的基因对的一个以上的突变基因,并通过选定与相应突变基因配对并构成合成癌生存基因对的一个以上的对应基因,来选择用于抑制上述对应基因的一个以上的抗癌治疗药物,从而可以在多个比较对象药物中选择针对个人的定制型抗癌剂,并可事先预测药物的效果或副作用风险率等,从而可确定对适用于个人的抗癌剂之间的优先顺序、最佳组合或使用与否。并且,是一种如下技术:在属于合成癌生存基因对的突变基因的组合中,按照特定癌选择在相应癌症中从多个患者发现的一个以上的突变基因的组合,独立于个别患者的基因组碱基序列分析结果,可通过选择一般在相应癌症的多个患者中预测为治疗效果及预后良好的一个以上的抗癌治疗药物的组合,来使用于按照癌症类型进行特性化的联合化疗(combinationchemotherapy)的开发及临床应用,可信度高且可以迅速简单地提供相关信息。
并且,本发明的方法及系统可通过分析合成癌生存基因对的按照个人的碱基序列突变的频率及分布来使用于预测癌症的预后,并可通过分析合成癌生存基因对和体细胞突变的按照个人的碱基序列突变的频率及分布来使用于预测癌的预后。并且,还可通过分析合成癌生存基因对和体细胞突变的按照个人的碱基序列突变的频率及分布来有效地使用于预测药物治疗反应性。
附图说明
图1为通过例举从皮肤黑素瘤患者中发现的合成癌生存基因对之一的DNAH2和XIRP2基因对的一例,来示出属于相应一合成癌生存基因对的两个基因均具有严重的(低的)基因损伤评分的情况(红线)、两个基因中只有一个具有严重的基因损伤评分的两种情况(黄线和蓝线)及两个基因均具有严重的基因损伤评分的情况(绿线)的生存分析曲线的图。
图2为示出构成合成癌生存基因对的基因网络的图(肺腺癌(LUAD,红线)、皮肤黑素瘤(SKCM,黄线)、肺鳞状细胞癌(LUSC,蓝线)、头颈部鳞状细胞癌(HNSC,褐色线)、肾细胞癌(Kidney Renal Clear Cell Carcinoma,KIRP,紫线))。
图3为以由肺腺癌症患者组中发现的合成癌生存基因对构成的肺腺癌合成癌生存网络为背景,重叠绘制一名肺腺癌症患者的体细胞突变的图。由绘制成灰色的肺腺癌合成癌生存网络中的一个节点是指属于肺腺癌的合成癌生存基因对的一个基因,连接线用于连接一对合成癌生存基因对。黄色节点与红色节点表示相应肺腺癌症患者中呈现出基因损伤评分低的体细胞突变的基因,其中,红色节点是指与由连接线连接的对应节点一同构成合成癌生存基因对的节点。黄色节点是指因由连接线连接的对应节点中不存在具有低的基因损伤评分的基因而不构成合成癌生存基因对的节点。
图4为通过例举肺腺癌的一例,来将在肺腺癌症患者中具有低的基因损伤评分的体细胞突变的发生频率按照基因进行例示并以条形图表示出的图。例示了TP53和TTN基因最频繁地显示基因损伤体细胞突变。
图5为通过例举肺腺癌的一例,根据相应参与频率以条形图表示出在肺腺癌症患者中形成合成癌生存基因对的多个基因分别参与几个合成癌生存基因对的图。例示的红色折线图表为例示相应基因参与几个合成癌生存基因对并被发现的频率的图。在肺腺癌的情况下,例示XIRP2和RYR3最普遍构成合成癌生存基因对。
图6为以341名肺腺癌症患者为对象,分为没有任何合成癌生存基因对的149名、仅具有一个以上至小于十个的122名及具有十个以上的70名共三组,并进行适用COX回归模型(Cox proportional hazard model)的生存分析的图。处于图6的下端的三个生存图表为根据用于合成癌生存基因对的数量将341名的肺腺癌症患者共分为三组后,根据体细胞突变数量的多少将各个子组分为一半,并用红色示出体细胞突变负担更高的(high)74名、61名、35名的生存曲线,用淡蓝色示出体细胞突变负担更低的(low)75名、61名、35名的生存曲线的图。
图7为以181名的皮肤黑素瘤患者为对象,分为不具有任何合成癌生存基因对的88名、具有一个以上至小于5个的47名及具有5个以上的46名共三组,并进行适用COX回归模型的生存分析的图。处于图7的下端的三个生存图表为根据拥有合成癌生存基因对的数量将181名的皮肤黑素瘤患者共分为三组后,根据体细胞突变数量的多少分别将各个子组分一半,并用红色示出体细胞突变负担更高的(high)44名、23名、23名的生存曲线,用淡蓝色示出体细胞突变负担更低的(low)44名、24名、23名的生存曲线的图。
图8为用对数-对数关系表示肺腺癌症患者与皮肤黑素瘤患者中的体细胞突变负担和合成癌生存负担的相关关系的图。
图9为示出由5个肺癌细胞株,A(□)、B(○)、C(△)、D(+)及E(x)的基因组碱基序列分析获得的体细胞突变负担和合成癌生存负担的相关关系的图。
图10为以条形图表示出通过使用基质胶侵袭实验(Matrigel invasion assay)方法来用三次实验鉴别5个肺癌细胞株,A(□)、B(○)、C(△)、D(+)及E(x)的基质胶(Matrigel)侵袭能力或转移能力结果。在图10的下端罗列的3行拍摄照片为通过拍摄对上述5个肺癌细胞株的三次的基质胶侵袭实验结果的图。
具体实施方式
本发明脱离现有公知的合成致死(synthetic lethality)的概念,而是基于“合成癌生存(Synthetic Cancer Survival,SCS)”的概念,上述“合成癌生存”的概念为仅在特定患者中的特定两个基因中相应两个基因的功能均受到损伤的情况下,相应患者的生存率高,相应两个基因的功能均正常,或者相应两个基因中任何一种功能受到损伤的情况下,患者的生存率也很低的组合的形态,通过利用其提供可用于预测癌中的基因相互作用的分析、定制型抗癌治疗药物选择及癌症患者的预后的新的方法。
在一实施方式中,本发明提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其中,包括:由癌症患者的基因组碱基序列信息确定属于合成癌生存基因对的一个以上的基因的碱基序列突变信息的步骤;以及由上述碱基序列突变信息选定一个以上用于抑制与属于合成癌生存基因对的一个以上的突变基因配对的一个以上的对应基因的候选药物的步骤。
在本发明中所使用的术语“碱基序列或核苷酸序列(base sequence ornucleotide sequence)”是指按顺序排列作为脱氧核糖核酸(DNA)或核糖核酸(RNA)结构的基本单位的核苷酸的组成成分之一的碱基的有序排列。
在本发明中所使用的术语“碱基序列突变信息”是指在核酸碱基序列与作为比较对象的参照碱基序列具有序列上的差异的情况下,具有其差异的部分,是指与构成基因的外显子的碱基的取代、添加或缺失有关的信息。这些碱基的取代、添加或缺失可能由各种原因所导致,例如,可以基于染色体的结构差异,包括突变、切割、缺失、重复、逆位和/或易位。
上述参照碱基序列或参照基因组(Reference base(or nucleotide)sequence orReference genome)是指当比较碱基序列时成为基准的碱基序列,并称为参照碱基序列或标准碱基序列。
在本发明中所使用的癌症基因组碱基序列信息可利用公知的碱基序列分析法来确定,并且可利用提供常用化的服务的北京基因组研究所(Beijing Genome Institute,BGI)、Knome、Macrogen、DNALink等的服务,并不限定于此。
在本发明中,可利用多种方法提取存在于癌基因组碱基序列的基因碱基序列突变信息,参照组,例如,与HG19的基因组碱基序列的序列比较程序,例如,可通过利用ANNOVAR(Wang et al.,Nucleic Acids Research,2010;38(16):e164),SVA(Sequence VariantAnalyzer)(Ge et al.,Bioinformatics.2011;27(14):1998-2000),BreakDancer(Chen etal.,Nat Methods.2009 Sep;6(9):677-81)等的碱基序列比较分析来获得。
上述基因碱基序列突变信息可通过计算机系统接收/获得,在这方面,本发明的方法还可包括利用计算机系统接收基因突变信息的步骤。在本发明中使用的计算机系统可包括一个以上数据库或访问数据库,上述数据库能够检索或提取对癌症患者成为适用对象的抗癌治疗药物及上述药物能够抑制的与基因有关的信息。
在本发明中所使用的术语“合成癌生存”为包括在癌细胞或癌组织的两个以上突变基因组合诱发相应癌症患者的生存率提高的现象,在这两个以上的突变基因中的每一个突变基因都不会诱发相应癌症患者的生存率的提高,但是在这两个以上的突变基因的组合诱发相应癌症患者的生存率提高的情况下,将其现象称为合成癌生存。在本发明中所使用的术语合成癌生存不是仅指诱发合成癌生存的两个以上的突变基因的组合必须在一个癌细胞中发生的情况。在这些两个以上的突变基因的组合即使是互不相同的癌细胞,分别在相同的癌组织中的互不相同的癌细胞发生并形成组合的情况下,也称为合成癌生存。在本发明的一实施例中,通过利用癌症患者的基因组突变和生存信息的癌症患者生存分析来选定了合成癌生存基因,在本发明的另一实施例中,通过癌细胞株或癌组织中的基因组突变分析及上述癌细胞株或癌组织中的侵袭能力或转移能力鉴别来选定了合成癌生存基因。
在本发明中所使用的术语“合成癌生存基因对(SCS pair of genes)”为包括在癌细胞或癌组织的两个以上的突变基因的组合诱发相应癌症患者的生存率提高的基因对,这两个以上的突变基因中每一个突变基因不会诱发相应癌症患者的生存率提高,但是在这两个以上的突变基因的组合诱发相应癌症患者的生存率提高的情况下,将其基因对称为合成癌生存基因对。在本发明中使用的术语合成癌生存基因对不是仅指诱发合成癌生存的基因对必须在一个癌细胞中发生的情况,而即使是互不相同的癌细胞,分别在相同的癌组织中的互不相同的癌细胞发生并形成组合的基因对也被称为合成癌生存基因对。此时,属于合成癌生存基因对的两个基因中,若两个均为具有低的基因损伤评分的突变基因,则定义为相应两个基因构成合成癌生存基因对。并且,属于合成癌生存基因对的两个基因中,若一个为具有低的基因损伤评分的突变基因,另一个为基因损伤评分不低的对应基因,则利用抑制相应的对应基因的药物来抑制相应的对应基因时,可预测为提高相应癌症患者的生存率。在本发明的一实施例中,通过利用癌症基因组突变和患者生存信息的生存分析来选定合成癌生存基因对,其具体例如表2所示,本发明的范围并不限定于此。
更具体地,在本发明的一实施例中,通过利用癌症患者的基因组突变和生存信息的癌症患者生存分析来选定合成癌生存基因对,但是,上述合成癌生存基因对不仅使用从癌症患者直接获得的癌细胞或癌组织来获得,而且还可在生物体外(in vitro)通过癌细胞株实验或癌组织实验获得。在此情况下,以与癌症患者的生存信息相对应的癌细胞的转移或侵袭能力为基准,可推定转移或侵袭能力越低所对应的生存率越高,在转移或侵袭能力越高的情况下,可推定所对应的生存低。即,基于本发明的合成癌生存基因对不仅可以从患者组的临床信息获得,还可以通过细胞、组织或动物实验等来获得。尤其,在细胞、组织或动物实验的情况下,不仅通过自然发生的基因组碱基序列突变,而通过因表达的抑制实验,如诱变(mutagenesis)、药物或核糖核酸干扰现象,来实现特定基因的功能损伤情况,因此可通过人为地诱发比实际临床能够观察的癌症患者的基因组碱基序列突变更多的碱基序列突变或者通过进行多种与之相应的基因功能抑制的实验来获的更多的合成癌生存基因对。
如上所述,不仅通过癌症患者的生存信息及自然发生的基因组碱基序列突变,而且通过人为地诱发突变的碱基序列突变或基因表达的抑制等方法,在癌细胞、组织或动物实验中通过转移或侵袭能力鉴别获得的合成癌生存基因对也属于本发明的范畴。
在本发明中使用的术语合成癌生存与“合成致死”是不同的概念。合成致死是两个以上的基因的碱基序列突变的组合诱发细胞死亡的现象,在这两个以上的基因的碱基序列突变中每一个基因的碱基序列突变为不会诱发细胞死亡的可生存的碱基序列突变(viablemutation/variant),但是,在这两个以上的基因的可生存的碱基序列突变的组合诱发细胞死亡的情况下,将该现象称为合成致死。
上述合成致死是两个以上的基因的碱基序列突变的组合诱发细胞死亡的现象,是指当适用于癌症疾病时,两个以上的基因的碱基序列突变的组合诱发癌细胞的死亡的现象。在癌症疾病的情况下,癌细胞死亡可多少会影响相应癌症患者的生存率,但是其影响程度有限,据悉,与癌细胞死亡相比,癌转移对癌症患者的生存率有更大的影响。并且,合成致死的评价指标为细胞死亡,而并不是癌症患者的生存率,本发明的合成癌生存与致使癌细胞死亡的合成致死不同,是指癌症的基因组突变诱发对癌细胞的成长能力或转移能力等对癌症相应癌症患者的危害能力下降,从而提高相应癌症患者的生存的现象,在本发明公开的合成癌生存与现有的公知的合成致死是不同的概念。
并且,在诱发两个以上的基因的碱基序列突变的组合细胞死亡的现有公知的合成致死现象的情况下,具有如下特征,即,对应癌细胞会死亡,因此可以在实验室(in vitro)进行观察,但是难以在实际患者的癌组织中发现。与此相反,合成癌生存是根据在实际患者的癌组织中发现的两个以上的基因的碱基序列突变的组合所发生的现象,因此是与现有公知的合成致死是不同的概念。
更具体地,如本发明的实施例1至实施例3所示,本发明人在实际各种癌的组织及癌细胞株中发现了多个合成癌生存基因对,并确认上述癌组织及癌细胞株存活而没有致使细胞死亡。从这些结果可以确认,如上所述,在本发明公开的作为与癌症患者的生存有关的概念的合成癌生存和细胞死亡相关的概念与合成致死是不同的概念。
并且,如本发明的实施例4及实施例5所示,本发明人提出有关合成癌生存负担(Synthetic Cancer Survival Burden)的概念,确认了越是具有更多的合成癌生存基因对的患者,癌生存率越好的良性线型相关关系。与此相反,在合成致死的概念中,没有谈到这种线型相关关系,在合成致死概念中,并且仅以一对合成致死基因对的损伤来定义对应细胞非可逆性死亡。因此,即使再发现两对或三对或其以上的合成致死基因对,也并不能作为诱发更多或更大的或强烈的死亡的概念是无效的。因此,如‘合成致死负担(SyntheticLethality Burden)’的概念尚未成立或证明。可在合成癌生存负担的新概念中可以看出,合成癌生存与合成致死使为不同的概念。
在本发明中,突变基因和对应基因能够以是否拥有功能缺失变异(Loss ofFunction Variant)为基准计算。在上述功能缺失变异中可包括有无义突变(nonsensemutation)、代替添加和缺失(frameshift insertion and deletion)、不间断的突变(nonstop mutation and splice site mutation),但并不局限于此。
更具体地,突变基因和该基因可根据每个相应基因所拥有的基因碱基序列突变分数来确定。
在本发明中所使用术语“基因碱基序列突变分数”是指基因组碱基序列突变在编码蛋白质的基因的外显子位点被发现时,这些个别突变导致相应基因所编码的蛋白质的氨基酸序列突变(取代、添加或缺失)或转录调节突变等,对相应蛋白质的结构和/或功能诱发显著变化或损伤的程度进行数值化的分数,上述基因碱基序列突变分数可通过考虑随着基因组碱基序列上氨基酸的进化保守性、变形的氨基酸的物理特性所涉及的相应蛋白质结构或功能变化的影响程度等来进行计算。
就计算本发明的基因损伤评分计算方法中所使用的基因碱基序列突变分数而言,可利用本技术领域中公知的方法来进行。例如,SIFT(应用点突变预测程序,SortingIntolerant From Tolerant,Pauline C et al.,Genome Res.2001 May;11(5):863-874;Pauline C et al.,Genome Res.2002 March;12(3):436-446;Jing Hul et al.,GenomeBiol.2012;13(2):R9)、PolyPhen(多态性分型)、PolyPhen-2(多态性分型-2,PolymorphismPhenotyping,Ramensky V et al.,Nucleic Acids Res.2002 September 1;30(17):3894-3900;Adzhubei IA et al.,Nat Methods 7(4):248-249(2010))、MAPP(蛋白质多态性的多变量分析,Eric A.et al.,Multivariate Analysis of Protein Polymorphism,GenomeRes.2005;15:978-986)、Logre(Log R Pfam E-value,Clifford R.J et al.,Bioinformatics 2004;20:1006-1014)、Mutation Assessor(Reva B et al.,GenomeBiol.2007;8:R232,http://mutationassessor.org/)、Condel(Gonzalez-Perez A etal.,The American Journal of Human Genetics 2011;88:440-449,http://bg.upf.edu/fannsdb/)、GERP(基因组进化速率评测,Cooper et al.,Genomic Evolutionary RateProfiling,Genome Res.2005;15:901-913,http://mendel.stanford.edu/SidowLab/downloads/gerp/)、CADD(Combined Annotation-Dependent Depletion,http://cadd.gs.washington.edu/)、MutationTaster、MutationTaster2(Schwarz et al.,MutationTaster2:mutation prediction for the deep-sequencing age.NatureMethods 2014;11:361-362,http://www.mutationtaster.org/)、PROVEAN(Choi et al.,PLoS One.2012;7(10):e46688)、PMuit(Ferrer-Costa et al.,Proteins 2004;57(4):811-819,http://mmb.pcb.ub.es/PMut/)、CEO(Combinatorial Entropy Optimization,Reva et al.,Genome Biol 2007;8(11):R232)、SNPeffect(Reumers et al.,Bioinformatics.2006;22(17):2183-2185,http://snpeffect.vib.be)、fathmm(Shihabet al.,Functional Analysis through Hidden Markov Models,Hum Mutat 2013;34:57-65,http://fathmm.biocompute.org.uk/)、MSRV(Jiang,R.et al.Sequence-basedprioritization of nonsynonymous single-nucleotide polymorphisms for the studyof disease mutations.Am J Hum Genet 2007;81:346-360,http://msms.usc.edu/msrv/)、Align-GVGD(Tavtigian,Sean V.,et al.Comprehensive statistical study of452 BRCA1 missense substitutions with classification of eight recurrentsubstitutions as neutral.Journal of medical genetics 2006:295-305.,http://agvgd.hci.utah.edu/)、DANN(Quang,Daniel,Yifei Chen,and Xiaohui Xie.DANN:a deeplearning approach for annotating the pathogenicity of geneticvariants.Bioinformatics 2014:btu703.,https://cbcl.ics.uci.edu/public_data/DANN/)、Eigen(Ionita-Laza,Iuliana,et al.A spectral approach integratingfunctional genomic annotations for coding and noncoding variants.Naturegenetics(2016):214-220.,http://www.columbia.edu/~ii2135/eigen.html)、KGGSeq(Li MX,Gui HS,Kwan JS,Bao SY,Sham PC.A comprehensive framework forprioritizing variants in exome sequencing studies of Mendeliandiseases.Nucleic Acids Res.2012 Apr;40(7):e53.,http://grass.cgs.hku.hk/limx/kggseq/)、LRT(Chun,Sung,and Justin C.Fay.Identification of deleteriousmutations within three human genomes.Genome Res.2009:1553-1561.,http://www.genetics.wustl.edu/jflab/lrt_query.html)、MetaLR(Dong,Chengliang,etal.Comparison and integration of deleteriousness prediction methods fornonsynonymous SNVs in whole exome sequencing studies.Human molecular genetics2015;24(8):2125-2137)、MetaSVM(Dong,Chengliang,et al.Comparison andintegration of deleteriousness prediction methods for nonsynonymous SNVs inwhole exome sequencing studies.Human molecular genetics 2015;24(8):2125-2137)、MutPred(Mort,Matthew,et al.MutPred Splice:machine learning-basedprediction of exonic variants that disrupt splicing.Genome Biology 2014;(15)1:1,http://www.mutdb.org/mutpredsplice/about.htm)、PANTHER(Mi,Huaiyu,et al.ThePANTHER database of protein families,subfamilies,functions andpathways.Nucleic Acids Research 2005;(33)suppl 1:D284-D288.,http://www.pantherdb.org/tools/csnpScoreForm.jsp)、Parepro(Tian,Jian,et al.Predictingthe phenotypic effects of non-synonymous single nucleotide polymorphismsbased on support vector machines.BMC bioinformatics 2007;8.1,http://www.mobioinfor.cn/parepro/contact.htm)、phastCons(Siepel,Adam,etal.Evolutionarily conserved elements in vertebrate,insect,worm,and yeastgenomes.Genome Res.2005;915)8:1034-1050,http://compgen.cshl.edu/phast/)、PhD-SNP(Capriotti,E.,Calabrese,R.,Casadio,R.Predicting the insurgence of humangenetic diseases associated to single point protein mutations with supportvector machines and evolutionary information.Bioinformatics 2006;22:2729-2734.,http://snps.biofold.org/phd-snp/)、phyloP(Pollard,Katherine S.,etal.Detection of nonneutral substitution rates on mammalian phylogenies._Genome Res.2010;(20)1:110-121.,http://compgen.cshl.edu/phast/background.php)、PON-P(Niroula,Abhishek,Siddhaling Urolagin,and Mauno Vihinen.PON-P2:prediction method for fast and reliable identification of harmfulvariants.PLoS One 2015;(10)2:e0117380.,http://structure.bmc.lu.se/PON-P2/)、SiPhy(Garber,Manuel,et al.Identifying novel constrained elements byexploiting biased substitution patterns.Bioinformatics 2009;(25)12:i54-i62,http://portals.broadinstitute.org/genome_bio/siphy/documentation.html)、SNAP(Bromberg,Y.and Rost,B.SNAP:predict effect of non-synonymous polymorphisms onfunction.Nucleic Acids Res.2007;35:3823-3835,w http://www.rostlab.org/services/SNAP)、SNPs&GO(Remo Calabrese,Emidio Capriotti,Piero Fariselli,PierLuigi Martelli,and Rita Casadio.Functional annotations improve the predictivescore of human disease-related mutations in proteins.Human Mutatation 2009;30:1237-1244,http://snps.biofold.org/snps-and-go/)、VEP(McLaren W,Pritchard B,Rios D,Chen Y,Flicek P and Cunningham F.Deriving the consequences of genomicvariants with the Ensembl API and SNP Effect Predictor.Bioinformatics 2010;26:2069-70 http://www.ensembl.org/info/docs/tools/vep/)、VEST(Carter H,Douville C,Stenson P,Cooper D,Karchin R Identifying Mendelian disease geneswith the Variant Effect Scoring Tool BMC Genomics 2013;14(Suppl 3):S3)、SNAP2(Yana Bromberg,Guy Yachdav,and Burkhard Rost.SNAP predicts effect ofmutations on protein function.Bioinformatics 2008;24:2397-2398,http://www.rostlab.org/services/SNAP)、CAROL(Lopes MC,Joyce C,Ritchie GR,John SL,Cunningham F et al.A combined functional annotation score for non-synonymousvariants,http://www.sanger.ac.uk/science/tools/carol)、PaPI(Limongelli,Ivan,Simone Marini,and Riccardo Bellazzi.PaPI:pseudo amino acid composition toscore human protein-coding variants.BMC bioinformatics 2015;(16)1:1,http://papi.unipv.it/)、Grantham(Grantham,R.Amino acid difference formula to helpexplain protein evolution.Science 1974;(185)4154:862-864,https://ionreporter.thermofisher.com/ionreporter/help/GUID-D9DFB21C-652D-4F95-8132-A0C442F65399.html)、SInBaD(Lehmann,Kjong-Van,and Ting Chen.Exploringfunctional variant discovery in non-coding regions with SInBaD.Nucleic AcidsResearch 2013;(41)1:e7-e7,http://tingchenlab.cmb.usc.edu/sinbad/)、VAAST(Hu,Hao,et al.VAAST2.0:Improved variant classification and disease_]geneidentification using a conservation_]controlled amino acid substitutionmatrix.Genetic epidemiology 2013;(37)6:622-634,http://www.yandell-lab.org/software/vaast.html)、REVEL(Ioannidis,Nilah M.,et al.REVEL:an Ensemble Methodfor Predicting the Pathogenicity of Rare Missense Variants._AGHG 2016,https://sites.google.com/site/revelgenomics/)、CHASM(Carter H,Chen S,Isik L,Tyekucheva S,Velculescu VE,Kinzler KW,Vogelstein B,Karchin R Cancer-specifichigh-throughput annotation of somatic mutations:computational prediction ofdriver missense mutations Cancer Res 2009;69(16):6660-7,http://www.cravat.us)、mCluster(Yue P,Forrest WF,Kaminker JS,Lohr S,Zhang Z,Cavet G:Inferring the functional effects of mutation through clusters of mutations inhomologous proteins.Human mutation.2010;31(3):264-271.10.1002/humu.21194.)、nsSNPAnayzer(Lei Bao,Mi Zhou,and Yan Cui nsSNPAnalyzer:identifying disease-associated nonsynonymous single nucleotide polymorphisms.Nucleic Acids Res2005;33:480-482,http://snpanalyzer.uthsc.edu/)、SAAPpred(Nouf S Al-Numair andAndrew C R Martin.The SAAP pipeline and database:tools to analyze the impactand predict the pathogenicity of mutations.BMC Genomics 2013;14(3):1-11,www.bioinf.org.uk/saap/dap/)、HanSa(Acharya V.and Nagarajaram H.A.Hansa Anautomated method for discriminating disease and neutral human nsSNPs.HumanMutation 2012;2:332-337,hansa.cdfd.org.in:8080/)、CanPredict(Kaminker,J.S.etal.CanPredict:a computational tool for predicting cancer-associated missensemutations.Nucleic Acids Res.,2007;35:595:598,http://pgws.nci.nih.gov/cgi-bin/GeneViewer.cgi_)、FIS(Boris Reva,Yevgeniy Antipin,and Chris Sander.Predictingthe functional impact of protein mutations:Application to cancergenomics.Nucleic Acids Res 2011;39:e118-e118.)、BONGO(Cheng T.M.K.,Lu Y-E,Vendruscolo M.,Lio P.,Blundell T.L.Prediction by graph theoretic measures ofstructural effects in proteins arising from non-synonymous single nucleotidepolymorphisms.PLoS Comp Biology 2008;(4)7:e1000135,http://www.bongo.cl.cam.ac.uk/Bongo2/Bongo.htm)等算法适用于每个相应基因所拥有的基因碱基序列突变来从基因碱基序列突变信息中计算基因碱基序列突变分数,但并不局限于此。例如,当通过利用应用点突变预测程序得分来分配基因碱基序列突变分数时,假设通过应用点突变预测程序得分为0.7分以上的突变,对于相应基因的功能没有诱发有意义的变化,来可以将0.7分以上的突变适用于滤波处理,如换算成不存在突变,这些变形属于本发明的范围。例如,通过利用应用点突变预测程序得分来分配基因碱基序列突变分数时,通过任何函数对于对应应用点突变预测程序得分计算变形(transform)的值来适用的分数也属于本发明的范畴。
所述的算法的目的在于,为了辨别各个基因碱基序列突变对应蛋白质的表达或功能有多大的影响且此影响对蛋白质的损伤有多大或者是否有其他影响等。这些基本相同之处在于,判断个别基因碱基序列突变所造成的相应基因所编码的蛋白质的氨基酸序列及相关变化,从而判断相应蛋白质的表达、结构和/或功能的影响。
在本发明还一实例中,为了计算个别基因碱基序列突变分数,利用了应用点突变预测程序算法。在应用点突变预测程序算法的情况下,例如,通过以VCF(Variant CallFormat)形式文件输入基因碱基序列突变信息,来对各个基因碱基序列突变损伤该基因的程度进行分数化。在应用点突变预测程序算法的情况下,计算分数越接近0,相应基因所编码的蛋白质的损伤越严重,因而判断为相应功能受到损伤,越接近1时,判断为相应基因所编码的蛋白质维持正常功能。
在作为另一算法的PolyPhen-2的情况下,判断计算分数越高,相应基因所编码的蛋白质的功能损伤程度越大。
最近,发表有通过对应用点突变预测程序、Polyphen2、MAPP、Logre、MutationAssessor进行比较综合来提出Condel算法的研究(Gonzalez-Peerez,A.&Lopez-Bigas,N.Improving the assessment of the outcome of nonsynonymous SNVs with aconsensus deleteriousness score,Condel.The American Journal of HumanGenetics,2011;88(4):440-449),在上述研究中,针对损伤蛋白质的基因碱基序列突变及影响少的基因碱基序列突变,通过使用作为公知的数据的集合的HumVar和HumDiv(Adzhubei,IAet al.,A method and server for predicting damaging missensemutations.Nature Methods,2010;7(4):248-249)对上述五个算法进行了比较。其结果,在上述五个算法中至少在三个算法中同样检测到HumVar的97.9%的引起蛋白质损伤的基因碱基序列突变和97.3%的影响少的基因碱基序列突变,在上述五个算法中至少在三个算法中同样检测到HumDiv的99.7%的引起蛋白质损伤的基因碱基序列突变和98.8%的影响少的基因碱基序列突变。并且,对于上述HumDiv和HumVar绘制接受者操作曲线(ROC,RecieverOperating Curve),其显示通过整合上述五个算法和各算法来计算的结果的正确度,结果确认,在相当高的水平(69%~88.2%)下具有接受者操作曲线下区域(AUC,Area Underthe Reciever Operating Curve)的一致性。即,虽然所述的多种算法的计算方法不同,但所计算出的基因碱基序列突变分数相互具有显著的相关性。因此,通过适用所述的算法或应用算法的方法来计算基因碱基序列突变分数是属于本发明的范畴的,而与互不相同的算法的种类无关。基因碱基序列突变发生在编码蛋白质的基因的外显子位点的情况下,可能直接影响蛋白质的表达、结构和/或功能。因此,可能上述基因碱基序列突变信息与蛋白质功能损伤程度有关。在这方面而言,本发明的方法包括基于基因碱基序列突变分数来计算“基因损伤评分”的概念。更具体地,突变基因和对应基因可根据基因损伤评分来确定,上述基因损伤评分从将所述的算法适用于每个相应基因所拥有的基因碱基序列突变来计算的基因碱基序列突变分数计算。
在本发明中,突变基因和对应基因在每个相应基因所拥有的基因碱基序列突变为两个以上的情况下,可根据由每个基因碱基序列突变分数的平均值计算的基因损伤评分来确定。
在本发明中所使用的术语“基因损伤评分(Gene Deleteriousness Score,GDS)”是指当在编码一个蛋白质的基因位点发现两个以上的显著的碱基序列突变时,在一个蛋白质具有两个以上的基因碱基序列突变分数的情况下,通过总结上述基因碱基序列突变分数来计算的分数,如果编码蛋白质的基因位点具有一个显著的碱基序列突变的情况下,则能够以相同的方式计算基因损伤评分与相应基因碱基序列突变分数。此时,在编码蛋白质的基因碱基序列突变为两个以上的情况下,基因损伤评分按照各突变计算的基因碱基序列突变分数的平均值来计算,这些平均值可以由例如,几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均、四分位平均、二次平均、切尾平均、温塞平均、加权平均、加权几何平均、加权算术平均、加权调和平均、函数的平均、幂平均、广义f-均值、百分位数、最大值、最小值、众数、中位数、中央范围、或集中趋势(measures ofcentral tendency)、简单乘积或加权乘积或上述计算值的函数运算来计算,但并不局限于此。
在本发明再一实例中,通过下列数学式1计算出基因损伤评分,可对下列数学式1进行各种变形,因此并不限制于此。
数学式1:
在上述数学式1中,Sg为基因g所编码的蛋白质的基因损伤评分,n为上述基因g的碱基序列突变中分析对象碱基序列突变的数,vi为第i个分析对象碱基序列突变的上述碱基序列突变分数,p为不是0的实数。
在上述数学式1中,上述p的值为1时为算术平均,上述p的值为-1时为调和平均,上述p的值在接近于0的情况下为几何平均。
在本发明的另一实例中,通过下列数学式2来计算了基因损伤评分。
数学式2:
在上述数学式2中,Sg为基因g所编码的蛋白质的基因损伤评分,n为上述基因g的碱基序列突变中分析对象的碱基序列突变的数,vi为第i个分析对象碱基序列突变的上述基因碱基序列突变分数,wi为分配上述第i个碱基序列突变的上述基因碱基序列突变分数vi的加权值。
在所有加权值wi为相等值的情况下,上述基因损伤评分Sg成为上述基因碱基序列突变分数vi的几何平均值。可通过考虑相应蛋白质的种类、相应蛋白质的药代动力学或药效学分类、相应药物酶蛋白质的药代动力学参数、人口群体或种族分布来分配上述加权值。
本发明的碱基序列突变分数及基因损伤评分公开在韩国专利申请号10-2014-0107916、PCT国际申请号PCT/KR2014/007685中,此公开内容全文作为参照整体并入本文。
本发明的方法还可包括:通过利用上述合成癌生存基因对信息来确定适用于上述癌症患者的药物之间的优先顺序的步骤;或者通过利用上述合成癌生存基因对信息来确定适用于上述癌症患者的药物的使用与否的步骤。
本发明的方法进一步地按照癌症类型以显著的生物标记为基准分为两个以上的组后,可通过利用各子组中的基因组突变和患者生存信息的生存分析来选定合成癌生存基因对。
上述生物标记涉及与癌症相关的诊断、治疗及预后,是包括所有在本技术领域中公知的标记的概念。例如,可以不受限制地使用按照各种癌症类型公知的标记,包括已知的对大肠癌的诊断、治疗及预后重要的生物标记微卫星不稳性(Microsatelliteinstability,MSI)在内。
在本发明中,候选药物的选定可以经如下步骤进行:通过计算与一个以上的对应基因配对的一个以上的突变基因数量,以计算出的数量为基准来确定候选药物的优先顺序或组合,上述一个以上的对应基因属于从上述癌症患者基因组的碱基序列信息筛选的合成癌生存基因对。
在再一实施方式中,本发明提供利用癌症患者的基因组碱基序列突变的定制型抗癌治疗药物选择系统,其中,包括:数据库,可检索或提取与对于癌症患者成为适用对象的抗癌治疗药物及上述药物能够抑制的基因有关的信息;通信部,可访问上述数据库;癌症基因组碱基序列分析部;药物选择信息提供部;以及显示部,上述癌症基因组碱基序列分析部包括用于选定属于合成癌生存基因对的一个以上的突变基因的突变基因选定部以及用于选定通过对于一个以上的上述突变基因与相应突变基因进行配对来形成合成癌生存基因对的一个以上的对应基因的对应基因选定部,上述药物选择信息提供部用于提供对一个以上的上述对应基因进行抑制的抗癌治疗药物选择信息。
本发明的系统还可包括用户界面,通过访问数据库来提取相关信息,并由此向用户提供上述定制型药物选择信息,上述数据库可以检索或提取对于癌症患者成为适用对象的抗癌治疗药物及与上述药物可抑制的基因有关的信息。
在本发明的系统中,可以互相连接包括上述数据库或其访问信息的服务器、计算出的信息及与此相连接的用户界面装置。
在本发明的系统中,用户界面或终端可以从服务器请求利用癌基因组碱基序列突变的定制型抗癌治疗药物选择处理、接收结果和/或储存,可通过设置存储单元如智能电话、个人电脑(Personal Computer,PC)、平板电脑,个人数字助理(Personal DigitalAssistant,PDA)、便笺簿,并搭载微处理器,来构成具有计算能力且设有移动通信功能的终端设备。
在本发明的系统中,服务器作为提供对数据库进行访问的单元,通过通信部与用户界面或终端相连接,以便可交换各种信息。其中,通信部不仅包括相同的硬件中的通信,而且可包括局域网(local area network,LAN)、城域网(metropolitan area network,MAN)、广域网(wide area network,WAN)、网络、第二代移动通讯技术(2G)、第三代移动通讯技术(3G)、第四代移动通讯技术(4G)移动网、无线保真(Wi-Fi)、无线宽带(Wibro)等,通信方式也不分有限、无线,任何方式都可以利用。数据库也可以直接连接到各种可通过互联网访问的生命科学数据库,并且可以直接安装在服务器上。
本发明的方法可以由硬件、固件或软件或它们的组合来实现。在以软件实现的情况下,存储介质包括可由装置如计算机读取的形式的用于存储或传输的任何介质。例如,计算机可读介质可包括只读存贮器(read only memory,ROM);随机存取存储器(randomaccess memory,RAM);磁盘存储介质;光存储介质;闪存装置及其他电学、光学或声学信号传输介质等。
在这些实施方式中,本发明提供包括使下述处理器运行的执行模块的计算机可读介质,上述处理器执行包括如下步骤的动作:从癌症患者的基因组碱基序列信息筛选合成癌生存基因对的步骤;以及筛选用于抑制与属于上述合成癌生存基因对的一个以上的突变基因配对的一个以上的对应基因的一个以上的候选药物的步骤。
本发明的利用癌症患者的基因组突变信息和生存信息的定制型药物选择方法及系统为可通过分析从癌症患者的基因组突变信息和生存信息导出的合成癌生存基因对的碱基序列突变的可有效选择个别性治疗效果及预后良好的抗癌治疗药物的技术,可信度高,并可迅速简单地提供相关信息。
在利用本发明的方法及系统的情况下,选定属于用于诱发合成癌生存的基因对的一个以上的突变基因,并通过选定与相应突变基因配对并构成合成癌生存基因对的一个以上的对应基因,来选择用于抑制上述对应基因的一个以上的抗癌治疗药物,从而可以在多个比较对象药物中选择针对个人的定制型抗癌剂,并可事先预测药物的效果或副作用风险率等,从而可确定对适用于个人的抗癌剂之间的优先顺序、最佳组合或使用与否。并且,是一种如下技术:在属于合成癌生存基因对的突变基因的组合中,按照特定癌选择在相应癌症中从多个患者发现的一个以上的突变基因的组合,独立于个别患者的基因组碱基序列分析结果,可通过选择一般在相应癌症的多个患者中预测为治疗效果及预后良好的一个以上的抗癌治疗药物的组合,来使用于按照癌症类型进行特性化的联合化疗的开发及临床应用,可信度高且可以迅速简单地提供相关信息。
并且,本发明的方法及系统可通过分析合成癌生存基因对的按照个人的碱基序列突变的频率及分布来使用于预测癌症的预后,并可通过分析合成癌生存基因对和体细胞突变的按照个人的碱基序列突变的频率及分布来使用于预测癌的预后。并且,还可通过分析合成癌生存基因对和体细胞突变的按照个人的碱基序列突变的频率及分布来有效地使用于预测药物治疗反应性。
在另一实施方式中,本发明提供用于提供癌症患者的预后预测的信息的方法,其中,包括从癌症患者基因组的碱基序列信息计算属于合成癌生存基因对的一个以上的基因数的步骤。
上述方法可包括从上述癌症患者基因组的碱基序列信息计算属于合成癌生存基因对的一个以上的基因数及体细胞突变基因数的步骤。
在本发明一实施例中,确认了具有越多的合成癌生存基因对,癌症患者的生存率在统计学上显著变高,通过癌症患者的基因组分析,来确认由癌症患者中的合成癌存活基因对的数量表示的癌生存负担,从而可以有效预测相应癌症患者的生存预后。
在还一实施方式中,本发明提供利用癌症患者的基因组碱基序列突变的定制型抗癌治疗药物选择系统,其中,包括:数据库,可检索或提取与对癌症患者成为适用对象的抗癌治疗药物及上述药物可抑制的基因有关的信息;通信部,可访问上述数据库;癌症基因组碱基序列分析部;药物选择信息提供部;以及显示部,上述癌症基因组碱基序列分析部包括用于选定属于合成癌生存基因对的一个以上的突变基因的突变基因对选定部以及用于选定通过对于一个以上的上述突变基因与相应突变基因进行配对来形成合成癌生存基因对的一个以上的对应基因的对应基因选定部,上述药物选择信息提供部用于提供使上述癌症患者的合成癌生存基因对的数量增加的药物选择信息。
在本发明一实施例中,在通过适用定制型药物选择方法来将药物施用于患者的情况下,确认了还可通过分析根据相应药物所阻断的基因而增加的合成癌生存基因对的数量来预测对于相应药物的治疗反应,更具体地,确认了可以根据相应处理药物使相应患者的合成癌生存基因对数量增加的程度来预测相应治疗反应,相反,可根据相应治疗反应大大提高的药物来选择定制型治疗药物。
在又一实施方式中,本发明提供计算机可读介质,其中,包括使下述处理器运行的执行模块,上述处理器执行包括如下步骤的动作:
从癌症患者的基因组碱基序列信息筛选合成癌生存基因对的步骤;以及在用于抑制与属于上述合成癌生存基因对的一个以上的突变基因配对的一个以上的对应基因的一个以上的候选药物中,筛选使合成癌生存基因对的数量增加的候选药物的步骤。
关于在本发明中所利用的计算机可读介质已进行说明,因此为避免过度重复省略其记载。
以下,提供有助于理解本发明的优选实施例。但是,下述实施例仅用于更容易理解本发明而提供,而本发明的内容并不局限于实施例。
实施例1.按照癌症类型的合成癌生存基因对的检测及利用其的定制型药物选择方法
1-1.对象数据的选定
用于分析的数据于2015年3月4日为基准在肿瘤基因图谱数据门户网上下载。上述数据包括5618名的二级(level2)体细胞突变(somatic mutation)数据和6838名的二级临床数据。上述二级体细胞突变数据以变异注释格式(mutation annotation format,maf)形式存储。为了进行分析适用了突变位置和突变分类。多个突变分为“错义突变(Missensemutation)”、“无义突变”、“移码缺失(Frameshift indel)”、“读框缺失(In frameindel)”、“剪接位点突变(splice site mutation);无表型突变(Silent mutation)”、“内含子(Intron)”、‘非编码区(UTR)”及“基因间(Intergenic)”等。上述二级临床数据包括根据癌症的多种临床变量,实际上使用于COX回归模型的变量已被专业病理学家探讨。
1-2.数据处理及分析数据构成
首先,排除了临床数据中没有用于COX回归模型的信息的患者的数据。然后,确认患有其他恶性肿瘤或发生转移的患者、具有放射线治疗、药理(pharmaco)治疗、消融佐剂(ablation adjuvant)治疗的患者后,考虑到上述因素对患者预后具有强烈干扰,因此排除了相应患者的数据。并且,排除了没有突变数据的患者的数据。更具体地,就突变数据而言,首先排除同义(synonymous)突变后,用没有HGNC符号(HGNC symbol)的基因排除了在数据中标记为‘未知(Unknown)’的基因。最后,排除了没有临床信息的患者的数据,最终,利用4844名的患者的数据来使用于后续分析中。
数据处理结果,在20个癌症中获得了4884名的临床数据和体细胞突变数据。这样得到的数据均具有两种数据类型,因具有对COX回归模型所需的所有临床变量数据而使用于后续分析中。
1-3.基因损伤评分
在本实施例中,为了对基因的有害程度进行定量化,对基因损伤评分(GeneDeleteriousness Score,GDS)下了定义。考虑相应基因的突变数量和种类来计算基因损伤评分,并将其定义为具有介于0分至1分的值。基因损伤评分被定义为分数越少相应基因的功能性结构性损伤更严重的意思。例如,如果某个基因具有功能缺失变异,如无义突变,代替添加和缺失、不间断的突变,则将相应基因的基因损伤评分定义为0分。如果某个基因具有功能缺失(LoF)变异,则相应基因的基因损伤评分被定义为相应基因中所具有的所有的非同义(non-synonymous)突变中的应用点突变预测程序得分为0.7以下的突变的应用点突变预测程序分数的几何平均。此时,为了避免分母为0的情况,当应用点突变预测程序分数为0时,将用10e-8分代替它。上述应用点突变预测程序得分0.7的过滤标准是适用于本实施例的情况下的任意过滤标准,并且可以根据分析的目的来适用各种过滤标准。并且,为了避免分母为0,所分配的10e-8分的变化分数也是适用于本实施例的情况的任何标准,并且可以根据分析的目的适用各种标准。在本实施例中,为了计算基因损伤评分所使用的应用点突变预测程序算法(参照下列数学式3)也是适用于本实施例的情况的任何算法,并且可以根据分析目的使用各种算法。
方程3:
1-4.基因损伤评分的分布和分析阈值的设定
以在上述实施例1~2中分类的数据为基础,在每个癌症中计算出至少具有一个以上的非同义突变(non-synonymous mutation)的所有基因的基因损伤评分。对于没有任何非同义突变的基因分配给了1分的基因损伤评分。
其结果,虽然在癌细胞中发生多个体细胞突变,但是在整个基因中发生体细胞突变是不为寻常的现象,因此可以确认大部分的基因的基因损伤评分为1分。除了1分以外,具有体细胞突变的多个基因的基因损伤评分分布在0分。在本实施例中,以基因损伤评分0.3分为基准(分析阈值),分为受到中度以上的基因功能损伤的基因和无基因功能损伤的两组,并使用于后续分析中。
1-5.按照癌症类型的合成癌生存基因对的检测和按照癌症类型的合成癌生存基因网络的构建
在癌症患者的基因组数据中,为了检测成癌生存现象进行了使用COX回归模型的生存分析。COX回归模型可保证临床变量的干扰作用。对于所有基因对将各个癌症患者组分为四组;所有两个基因的基因损伤评分为0.3以下的双损伤组、两个基因中只有一个基因的基因损伤评分为0.3以下,另一个不是的独损伤组、以及两个基因的基因损伤评分均大于0.3的非损伤组。
在通常使用的基于极大似然估计(maximum likelihood)的COX回归模型的情况下,患者死亡事件在0次的情况下发生‘收敛(convergence)’问题,因此在本实施例中为了避免此情况而使用了采用罚分似然法(penalized likelihood)的COX回归模型。生存分析通过利用R统计软件包(R Statistical Package)版3.2.0的‘coxphf’软件包来进行。并且,为了纠正各个癌症对临床变数的干扰作用,添加了Cox模型。添加了普通临床变量如年龄或性别和病理学专家的探讨且用于之前研究中的临床变量。
在图1中,根据DNAH2基因和XIRP2基因对的体细胞突变状态来将皮肤黑素瘤患者组共分为一个双损伤组、两个独损伤组及一个非损伤组四个组,并例示了生存曲线。此时,显示了四个组的生存曲线和生存分析结果。如图1所示,可知DNAH2基因和XIRP2基因为处于相互合成癌生存基因对的关系。即,在DNAH2和XIRP2对中,只有DNAH2的基因损伤评分低(蓝线)或只有XIRP2的基因损伤评分低(黄线)的独损伤组的情况下,可以确认如下情况,即,所有两个基因在与基因损伤评分不低的非损伤组(绿线)相比时,癌生存率中没有显著差异,但是DNAH2和XIRP2的基因损伤评分均低的双损伤组与所有三组相比,癌症患者的生存率在统计学上显著高(p<0.05,HR>1.0)。因此,确认了在皮肤黑素瘤中具有体细胞突变的DNAH2基因和XIRP2基因对符合如上所定义的皮肤黑素瘤的合成癌生存基因对的判断标准。
并且,在图2中例示了五种癌(肺腺癌、皮肤黑素瘤、肺鳞状细胞癌、头颈部鳞状细胞癌、肾细胞癌)中由按照每个癌获得的合成癌生存基因对构成的合成癌生存基因网络。肺腺癌(LUAD)合成癌生存基因对用红色连接线、皮肤黑素瘤合成癌生存基因对用黄色连接线、肺鳞状细胞癌合成癌生存基因对用蓝色连接线、头颈部鳞状细胞癌合成癌生存基因对用褐色连接线、肾细胞癌合成癌生存基因对用紫色连接线表示。如图2所示,可以确认各癌中存在多种合成癌生存(SCS)基因对,对此的具体说明在下述实施例2中公开。
在本实施例中,通过实际癌症患者的癌症基因组突变信息的分析获得了多种合成癌生存基因对,但是,其仅为可应用的多种方法之一,并不局限于上述方法。例如,在细胞株或动物实验环境中以各种方式诱发基因突变,通过实际癌症患者中难以观察的突变基因的分析获得合成癌生存基因对,并可以构成合成癌生存基因网络。尤其,如实施例5及图9至图10中所例示,可通过使用用于鉴别包括侵袭能力(Invasion Assay)的癌细胞转移能力的多种实验方法来获得合成癌生存基因对。
1-6.利用按照癌症类型的合成癌生存基因对的分析的定制型药物选择方法
通过本发明的癌症患者的基因组突变和生存分析方法及系统来有效且高效地找到按照癌症类型的合成癌生存基因对,并为了对通过利用其来进行定制型药物选择的方法进行说明,进行了如下实验。
在图3中,通过将一种肺腺癌症患者的体细胞突变的分布重叠在合成癌生存基因对的网络来进行了图示。图3的节点和连接线是指通过分析肺腺癌基因组测序数据来获得的合成癌生存基因对的网络。此时,节点是指各个基因,用连接线连接的一对基因是指肺腺癌的合成癌生存基因对。用红色绘制的基因节点是指与相应癌症患者中相对应的基因一同形成合成癌生存基因对,并发现体细胞突变的基因。用黄色绘制的基因节点是指基因损伤评分低的体细胞突变基因,但在与相应基因配对形成合成癌生存基因对的基因中,未发现具有显示低基因损伤评分的体细胞突变的对应基因,意味着未构成合成癌存活基因对的基因。用灰色绘制的基因节点是指相应癌症患者中未发现基因损伤评分低的体细胞突变。
因此,图3例示如下的方法,即,在利用灰色绘制的基因中,当利用对相应基因的一个以上的阻隔剂来抑制通过考虑合成癌生存基因网络信息来选定一个以上的基因时,可知如何与其他基因形成几对合成癌生存基因对的方法。例如,若对图3所示的肺腺癌症患者的癌细胞处理XIRP2阻隔剂,则可以预测与RYR2、LPA、FAT4等基因形成多对合成癌生存基因对,并可提高对应肺腺癌症患者的生存率。并且,即使在上述肺腺癌症患者的癌细胞中阻断RYR3,也可以与多个基因形成合成癌生存基因对,但是在RYR3的情况下,可以用钙通道阻隔剂来阻断,如Dandrolene。最近,可通过抗体新药的开发来阻断特定基因,因此还可通过本发明的合成基因对的分析来筛选成为新型药开发的靶基因。在一研究(Zhang et al.,ProcNatl Acad Sci U S A.2011 Aug 16;108(33):13653-13658.)中,发现随着用于抑制RYR3的micro-RNA miR-367的结合位点的单核苷酸多态性,卵巢癌的预后不同,这些发现是否归因于作为本发明的结果物的合成癌生存基因对的主要参与基因的RYR3阻断效应尚不清楚,但是可推测作为本发明的结果物的合成癌的生存基因组表现出预后差异。新药的开发不仅考虑其有效性方面,而且在副作用等安全性方面也需一同考虑发展,但本实施例通过分析癌症患者基因组信息的新一代测序数据分析,使用在本发明中弄清的合成癌存活基因对的特征来为癌症患者的定制型药物选择和开发提供有用的信息。
实施例2.按照癌症类型的合成癌生存基因对的分布及预后预测
如上述实施例1中所示,进行合成癌生存基因分析的结果,在五种癌中选定了436个合成癌生存基因对,其结果如表1所示(p<0.05,HR>1)。严格适用了使用于本实施例的合成癌生存基因对的筛选标准。显然,用于检测合成癌生存基因对的多种条件组合是可能的,然而,如实施例1所示,在比较双损伤组和非损伤组中也存在统计学显著差异,在比较双损伤组与两个独损伤组中也存在统计学显著差异,与此相反,在非损伤组和两个独损伤组之间的三次比较中,适用无统计学显著差异的严格标准,选定了按照癌症的合成癌生存基因对。
表1
如上述表1所示,肺腺癌(Lung adenocarcinoma,LUAC)及皮肤黑素瘤中筛选了尤其多的合成癌生存基因对,在本实施例中选定的436个合成癌生存基因对,更具体地由281个基因构成,属于最多的合成癌生存基因对的基因为XIRP2和RYR3等。
通过适用本实施例的判断标准,获得五种癌的436个合成癌生存基因对的目录如表2所示。
表2
通过适用本实施例的判断标准来按照癌症类型获得的按照癌症类型的436个合成癌生存基因对
若属于合成癌生存基因对的两个基因种均为基因损伤评分低的突变基因,则将相应两个基因定义为构成合成癌生存基因对。若属于合成癌生存基因对的两个基因中一个为基因损伤评分低的突变基因,另一个为基因损伤评分不低的基因,则可以预测当利用用于抑制相应的对应基因的药物时可提高相应癌症患者的生存率。
在图2中,以多重曲线图示出在上述表2中公开的由合成癌生存基因对构成的基因网络。此时,每个节点为基因,相互用连接线连接的基因对是指合成癌生存基因对。
并且,在图4中,用条形图表图示出在肺腺癌症患者组中基因损伤评分为0.3分以下的突变基因的频率,在图5中,示出了从肺腺癌症患者中发现在肺腺癌中检测出的属于合成癌生存基因对的突变基因的突变基因的频率。
如图4及图5所示,可知,在许多患者中XIRP2与RYR3基因构成合成癌生存基因对。相反,在TTN基因的情况下,TTN基因的基因损伤评分低的患者的数虽多,但是可知TTN基因构成合成癌生存基因对的患者的数相对少。即,现有的研究以癌症基因的体细胞突变频率为中心进行,但是简单的仅以个别基因的突变分析预测癌症患者的预后及治疗反应并不容易,如本发明中所示,基因对的分析及基因网络的分析可以有助于预测癌症患者的预后及治疗反应。
实施例3.利用按照癌症类型的合成癌生存负担的癌症生存及预后预测
分析了癌症患者的合成癌生存基因对的数量对癌症患者的预后和生存率产生的影响。作为一例,将341名的肺腺癌症患者(LUAD)和181名的皮肤黑素瘤患者中的结果分别表示在图6及图7中。
首先,将341名的肺腺癌症患者共分为不具有任何合成癌生存基因对的149名、仅具有一个以上至小于十个的122名及具有十个以上的70名共三组,并进行适用COX回归模型的生存分析。其结果如图6所示,确认具有最多的合成癌生存基因对(具有10个以上)的70名的生存率最高,具有一个以上至小于十个的122名的生存率为中间值,不具有任何合成癌生存基因对的149名的生存率最低,由此,可以确认具有越多的合成癌生存基因对,肺腺癌症患者的生存在率统计学上显著高。
然后,将181名的皮肤黑素瘤患者共分为不具有任何合成癌生存基因对的88名、具有一个以上至小于5个的47名及具有5个以上的46名共三组,并进行适用COX回归模型的生存分析。其结果如图7所示,可以确认具有越多的合成癌生存基因对,皮肤黑素瘤患者的生存率在统计学上显著高。
通过以上的实验确认,通过癌症患者的基因组分析来确认由癌症患者的合成癌生存基因对数量表示的合成癌生存负担,从而可以有效预测相应癌症患者的生存预后。
实施例4.利用按照癌症类型的合成癌生存负担和体细胞突变负担的癌生存及预后预测
使用在上述实施例3中公开的在癌症患者中发现的合成癌生存基因对的数量的癌生存率的分析,在医学上具有非常重要的意义。目前,通常认为癌细胞的非同义体细胞突变越多,癌症患者的预后越差,这是由于与此不同的分析结果。
更具体地,将用对数-对数曲线图示出合成癌生存基因对的数量和非同义体细胞突变的频率(图8)。如图8所示,合成癌生存基因对的数量在所有肺腺癌和皮肤黑素瘤中与非同义体细胞突变的频率成正比。因此,根据常规见解,随着体细胞突变越多预后越差,与体细胞突变负担成正比的癌生存基因对的数量越多预后预后的可变高。但是,实施例3的结果显示,合成癌生存基因对的数量越多预后越好。即,如实施例3中公开,在合成癌生存基因对的数量越多的患者的情况下,体细胞突变也随着增加的可能性变高,但是,可知作为体细胞突变的特殊的形态的合成癌生存基因对的突变变得越多,反而预后变好。
在图6及图7的下端表示的各组的生存分析曲线图中可以清楚地确认影响这些癌的合成癌生存负担和体细胞突变负担的癌症患者预后的的逆相关关系。更具体地,图6的下端的三个生存分析曲线图示出,根据拥有合成癌生存基因对的数量将341名的肺腺癌症患者分为三组后,进行生存分析的结果,在所有三组中,与用蓝色表示的体细胞突变负担更低的患者(分别为75名、61名、35名)相比,用红色表示的体细胞突变负担更高的患者(分别为74名、61名、35名)在统计学上具有显著差的预后。
并且,图7的下端的三个生存分析曲线图示出,根据拥有合成癌生存基因对的数量将181名的皮肤黑素瘤患者分为三组后,进行生存分析的结果,在所有三组中,与用蓝色表示的体细胞突变负担更低的患者(分别为44名、24名、23名)相比,用红色表示的体细胞突变负担更高的患者(分别为44名、23名、23名)在统计学上具有显著差的预后。
通过上述结果可知,若合成癌生存基因对的数量得到纠正,则体细胞突变数越多预后越差的现有的学说相一致。相反,通过在图6及图7中公开的分析结果可知,即使体细胞突变数量多的情况下,若纠正其突变数量,则合成癌生存基因对负担为重要的癌预后预测因子。
综上所述,在本发明中提出的合成癌生存基因对的分析是与现有公知的体细胞突变分析是不同的概念。即,若体细胞突变负担相同,则合成癌生存负担越大相应癌症患者的预后越好,若合成癌生存负担相同,则体细胞突变负担越少,能够预测相应癌症患者的预后越好。通对这些现象进行函数化,可通过癌基因组分析获得的的合成癌生存负担和体细胞突变负担信息,用于预测癌症患者的预后。
并且,如上述实施例1中公开,可知,对患者施用通过适用癌症患者的定制型药物选择方法选择的药物的情况下,还可通过因相应药物阻断的基因而增加的合成癌生存基因对的数量分析来预测对于相应药物的治疗反应也对应。即,可根据该治疗药物使相应患者的合成癌生存基因对的数量增加的程度,来预测相应治疗反应,相反,可根据相应治疗反应大大提高的药物来选择定制型治疗药物。
实施例5.利用按照癌症类型的合成癌生存负担和体细胞突变负担的癌细胞的转移能力预测
癌症患者死于癌的转移而不是因为癌。癌组织本身可以通过局部治疗,例如,放射疗法来移除或控制,但是转移癌的治疗非常困难,因为转移癌细胞引起各种危害。即,作为本发明结果物的合成癌生存基因对越多,癌的预后越好,可以认为合成癌的生存基因对与癌细胞的转移能力的降低有关。目前,用于鉴别癌细胞的转移能力的方法之一有细胞侵袭实验(cell invasion assay)。作为一例,提供如下方法:由康宁公司提供的基质胶侵袭实验方法是由Engelbreth-Holm-Swarm(EHS)小鼠肉瘤细胞分泌的明胶样蛋白混合物,可以定量评估癌细胞穿透多少基质胶。
为了分析对由本发明的结果得到的合成癌生存基因对的癌转移的影响,五个肺癌细胞株(A、B、C、D,E)中进行了全基因组测序(Whole exome sequencing,WXS)和基质胶侵袭实验。通过进行两轮来验证实验,第一个实验的基质胶的最终浓度为300ug/ml,培养时间为24小时,使用细胞数为每孔75000个,第二个实验的基质胶的最终浓度为300ug/ml,培养时间为42小时,使用细胞数为每孔约75000个为实验条件,重复两次实验。实验共进行三次。全基因组测序使用illnumina HiSeq 2000系统并使用了Hg19版本的人类参考基因组(HumanReference Genome)。
图9为例示上述五个细胞株的体细胞突变负担和合成癌生存负担的分布。图9为如实施例4中所说明的,合成癌生存基因对的数量与体细胞突变数量成正比,显示增加。图10为条形图示出作为基质胶侵袭实验的结果的各细胞株的基质胶侵袭能力(invasiveness)或转移能力。即,每场细胞侵袭的细胞数量越多,相应癌细胞株的侵袭能力或转移能力就越大。因此,可以判断以C、B、D、E、A细胞株顺序癌转移能力越大。
若利用图9中示出的体细胞突变负担和合成癌生存负担的分布,则在体细胞突变负担略大于400的D与A的比较中,预测合成癌生存负担更大的A的癌转移能力更低,这在图10的条形图表中如所预期的那样被证实。并且,在体细胞突变负担为460个前后的B与E的比较中,预测合成癌生存负担更大的E的癌转移能力更低,这在图10的条形图中如所预期的那样被证实。并且,在合成癌生存负担为37个的B与A的比较中,预测体细胞突变负担更大的B的癌转移能力更高,这在图10的条形图中如所预期的那样被证实。因此,确认可通过作为本发明的结果物的合成癌生存基因对的分析来评估癌细胞的转移能力。在本实施例中,为了鉴别癌细胞或组织的侵袭能力或转移能力进行了癌细胞株的基质胶细胞侵袭检查,但并不局限于此。例如,为了评估癌细胞或组织的侵袭能力或转移能力,可进行对控制免疫能力的实验动物移植癌细胞或组织,更直接地兼备癌细胞或组织的侵袭能力或转移能力的方法,通过兼备像这样多种癌细胞或组织的侵袭能力或转移能力来发现合成癌生存基因对,使用合成癌生存现象的定制型药物选择方法属于本发明的范畴。
实施例6.根据使用生物标记的癌症的具体组的的合成癌生存基因对分析的有用性
本实施例通过适应分析对象癌特定生物标记来分为具体组后,检测合成癌生存基因对,预测定制型药物选择及预后的方法。即,本实施例例示在上述实施例1至实施例4中例示的癌合成癌生存分析中,不仅是现有的临床、病理学癌分类体系,而且将主要诊断、治疗及预后相关生物标记的具体组,来可以进行更加精确的合成癌生存分析,使用这种生物标记的具体组的合成癌生存分析属于本发明的范畴。
作为一例,据悉微卫星不稳性对大肠癌的诊断、治疗及预后非常重要。在本实施例中,在大肠癌中根据微卫星不稳性的状划分患者组进行合成癌生存分析,不仅可以揭示对应于上述实施例1至实施例4的合成癌生存分析的结果,有可能获得有用和稳定的精密分析结果。
于2016年7月11日为准在美国国家癌症研究所基因数据共享(National CancerInstitute Genomic Data Commons,NCI GDC)数据门户网下载了大肠癌(COAD)数据,于2016年3月21日为准在数据门户网下载了肿瘤基因图谱。上述数据中国家癌症研究所基因数据共享数据包括433名的体细胞突变(somatic mutation)数据,肿瘤基因图谱数据包括458名的微卫星不稳性数据和459名的临床数据。上述体细胞突变数据为VCF文件形式,以人体标准基因组GRCh38为标准进行排列并确定MuTect2突变。上述二级临床数据包括多种临床变量,病理学家筛选了使用于COX回归模型的变量。上述微卫星不稳性数据根据每个患者的微卫星不稳性的状态分为'MSS'、'MSI-L'、'MSI-H',在本实施例中将MSI-L与MSI-H组分为微卫星不稳性阳性组,MSS组分为微卫星不稳性阴性组来进行分析。
排除了没有适用于COX回归模型所需的信息的患者、其他恶性肿瘤阳性或转移阳性、放射线治疗、药物、消融佐剂治疗患者的数据。而且,排除了没有体细胞突变数据和微卫星不稳性数据的患者。利用变异注释工具(Variant Annotation Tool,VAT)贴变异的注释,排除同义变异后,排除了没有HGNC symbol的基因的数据。最后,排除了没有临床信息和微卫星不稳性数据的患者的数据。最终,427名的大肠癌症患者被使用于分析中。
首先,以所有427名的大肠癌症患者为对象,实施例1至实施例2中所例示的方法想寻找合成癌生存基因对,但是仅找到一个显著的合成癌生存基因对图。在大肠癌的情况下,由于根据微卫星不稳性状态体细胞突变的数量及预后不同,因此分为151名的微卫星不稳性阳性组和276名的阴性组。根据微卫星不稳性状态将大肠癌症患者分为两组,并在微卫星不稳性阳性组(MSI-L&MSI-H)中检测到14个显著的合成癌生存基因对(p<0.05,HR>1)。然而,在体细胞突变负担低的微卫星不稳性阴性组中,未发现显著的合成癌生存基因对。在微卫星不稳性阳性组中检测的大肠癌的合成癌生存基因对如表3所示。
表3
通过适用本实施例的判断标准来在大肠癌的微卫星不稳性阳性组中获得的14个合成癌生存基因对
如表3所示,14个合成癌生存基因对由17个基因组成,与细胞的肌动活动(motoractivity)或核苷/核苷酸结合(nucleoside/nucleotide binding)有关。尤其,确认在微卫星不稳性组中OBSCN基因和PIK3CA基因相互组成合成癌生存基因对。即,在OBSC和PIK3CA对中,与所有基因的基因损伤评分不低的非损伤组相比,只有OBSCN的基因损伤评分低或只有PIK3CA的基因损伤评分低的独损伤组在癌生存率中没有显著差异,但是,可以确认与其他三组相比,OBSCN和PIK3CA的基因损伤评分低的双损伤组在统计学上癌症患者的生存率显著高(p<0.05,HR>1.0)。因此,在大肠癌中,具有体细胞突变的OBSCN基因和PIK3CA基因对符合在上述中定义的大肠癌的合成癌生存基因对的判断标准。
然后,与实施例3相同,分析合成癌生存基因对的数量对癌症患者的预后和生存率的影响。其结果如表4所示。
表4
如表4所示,将427名的大肠癌症患者分为不具有合成癌生存基因对的345名、具有一个以上的82名两组后,并进行适用COX回归模型的生存分析的结果可以确认,具有合成癌生存基因对的82名的生存率在统计学上显著高(p<0.0005,HR>1.0)。由此,可知,可通过确认癌症患者的合成癌生存基因对的数量表示的合成癌生存负担可预测相应癌症患者的生存预后。
如上所述,在相同的数据中未区分微卫星不稳性状态而以所有大肠癌症患者为对象进行分析中,未发现合成癌生存基因对的相比,以上结果具有非常重要的医学意义。通常,如使用所有大肠癌症患者的情况,在以更多的患者为对象进行统计分析的情况下,可知检测到显著的结果的概率会更高。但是,在本实施例中例示以生物标记为基准区分的更为同类的组中进行合成癌生存分析时,可以提供更精准的结果。例如,根据乳房癌雌激素受体(Estrogen Receptor,ER)、孕酮受体(Progesteron Receptor,PR)等激素受体表达与否对诊断、治疗、预后具有重大的影响,因而在临床上细分组进行判断。因此,在本实施例例示根据最新的生物标记将相同的癌分为细分组来进行合成癌生存分析不仅有用而且有效,这种方法应属于本发明的范围。
Claims (23)
1.一种提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,
由癌症患者的基因组碱基序列信息确定属于合成癌生存基因对的一个以上的基因的碱基序列突变信息的步骤;以及
由上述碱基序列突变信息选定一个以上的用于抑制与属于合成癌生存基因对的一个以上的突变基因配对的一个以上的对应基因的候选药物的步骤。
2.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述基因碱基序列突变信息为构成基因的外显子的碱基的取代、添加或缺失。
3.根据权利要求2所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述碱基的取代、添加或缺失为因包括染色体的切割、缺失、重复、逆位或易位在内的结构异常引起。
4.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述基因碱基序列突变信息是通过与参照组的基因组碱基序列进行比较分析获得。
5.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述突变基因和上述对应基因以是否拥有功能缺失变异(Loss of Function(LoF)Variant)为基准计算。
6.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述突变基因和上述对应基因为根据每个相应基因所拥有的基因碱基序列突变分数来确定。
7.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述突变基因和上述对应基因为通过将选自由如下算法组成的组中的一种以上的算法适用于每个相应基因所拥有的基因碱基序列突变中来计算得出的一种以上的基因碱基序列突变分数进行计算而得:SIFT(SortingIntolerant From Tolerant)、PolyPhen、PolyPhen-2(Polymorphism Phenotyping)、MAPP(Multivariate Analysis of Protein Polymorphism)、Logre(Log R Pfam E-value)、Mutation Assessor、Condel、GERP(Genomic Evolutionary Rate Profiling)、CADD(Combined Annotation-Dependent Depletion)、MutationTaster、MutationTaster2、PROVEAN、PMuit、CEO(Combinatorial Entropy Optimization)、SNPeffect、fathmm、MSRV(Multiple Selection Rule Voting)、Align-GVGD、DANN、Eigen、KGGSeq、LRT(LikelihoodRatio Test)、MetaLR、MetaSVM、MutPred、PANTHER、Parepro、phastCons、PhD-SNP、phyloP、PON-P、PON-P2、SiPhy、SNAP、SNPs&GO、VEP(Variant Effect Predictor)、VEST(VariantEffect Scoring Tool)、SNAP2、CAROL、PaPI、Grantham、SInBaD、VAAST、REVEL、CHASM(Cancer-specific High-throughput Annotation of Somatic Mutations)、mCluster、nsSNPAnayzer、SAAPpred、HanSa、CanPredict、FIS及BONGO(Bonds ON Graphs)。
8.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述突变基因和上述对应基因是根据基因损伤评分确定,上述基因损伤评分通过将选自由如下算法组成的组中的一种以上的算法适用于每个相应基因所拥有的基因碱基序列突变中来计算得出的一种以上的基因碱基序列突变分数计算而得:SIFT(Sorting Intolerant From Tolerant)、PolyPhen,PolyPhen-2(Polymorphism Phenotyping)、MAPP(Multivariate Analysis of ProteinPolymorphism)、Logre(Log R Pfam E-value)、Mutation Assessor、Condel、GERP(GenomicEvolutionary Rate Profiling)、CADD(Combined Annotation-Dependent Depletion)、MutationTaster、MutationTaster2、PROVEAN、PMuit、CEO(Combinatorial EntropyOptimization)、SNPeffect、fathmm、MSRV(Multiple Selection Rule Voting)、Align-GVGD、DANN、Eigen、KGGSeq、LRT(Likelihood Ratio Test)、MetaLR、MetaSVM、MutPred、PANTHER、Parepro、phastCons、PhD-SNP、phyloP、PON-P、PON-P2、SiPhy、SNAP、SNPs&GO、VEP(Variant Effect Predictor)、VEST(Variant Effect Scoring Tool)、SNAP2、CAROL、PaPI、Grantham、SInBaD、VAAST、REVEL、CHASM(Cancer-specific High-throughputAnnotation of Somatic Mutations)、mCluster、nsSNPAnayzer、SAAPpred、HanSa、CanPredict、FIS及BONGO(Bonds ON Graphs)。
9.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,在每个相应基因所拥有的基因碱基序列突变为两个以上的情况下,上述突变基因和上述对应基因根据每个基因碱基序列突变分数的平均值计算的基因损伤评分来确定。
10.根据权利要求9所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述平均值通过选自由几何平均、算术平均、调和平均、算术几何平均、算术调和平均、几何调和平均、毕达哥拉斯平均、希罗平均、逆调和平均、均方根偏差、质心平均、四分位平均、二次平均、切尾平均、温塞平均、加权平均、加权几何平均、加权算术平均、加权调和平均、函数的平均、幂平均、广义f-均值、百分位数、最大值、最小值、众数、中位数、中央范围、集中趋势度量、简单乘积及加权乘积组成的组中的一种以上来计算而得。
11.根据权利要求8所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述基因损伤评分由下列数学式1计算而得:
数学式1:
在上述数学式1中,Sg为基因g编码的蛋白质的基因损伤评分,n为上述基因g的碱基序列突变中分析对象碱基序列突变的数,vi为第i个分析对象碱基序列突变的上述碱基序列突变分数,p为不是0的实数。
12.根据权利要求8所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述基因损伤评分为由下述数学式2计算:
数学式2:
在上述数学式2中,Sg为基因g编码的蛋白质的基因损伤评分,n为上述基因g的碱基序列突变中的分析对象的碱基序列突变的数,vi为第i个分析对象碱基序列突变的上述基因碱基序列突变分数,wi为分配上述第i个碱基序列突变的上述基因碱基序列突变分数vi的加权值。
13.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述合成癌生存基因对是指包含在癌细胞株或癌组织的两个以上的突变基因的组合诱发相应癌症患者生存率的提高的基因对,上述两个以上的突变基因中每个个别突变基因不会诱发相应癌症患者生存率的提高,但是上述两个以上的突变基因的组合诱发相应癌症患者生存率的提高。
14.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,还包括:
利用上述合成癌生存基因对信息来确定适用于上述癌症患者的药物之间的先后顺序的步骤;或者
利用上述合成癌生存基因对信息来确定适用于上述癌症患者的药物的使用与否的步骤。
15.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,
作为上述碱基序列突变信息确定对象的一个以上的基因所属的合成癌生存基因对的选定包括:
进行利用癌症患者的基因组突变和生存信息的癌症患者生存分析的步骤;或者
癌细胞株或癌组织中的基因组突变分析及对上述癌细胞株或癌组织中的侵袭能力或转移能力进行鉴定的步骤。
16.根据权利要求15所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述癌症患者生存分析以生物标记为基准分为两个以上的子组后,利用每个子组中的基因组突变和患者生存信息。
17.根据权利要求1所述的提供利用癌症患者的基因组碱基序列突变的用于选择定制型抗癌治疗药物的信息的方法,其特征在于,上述候选药物的选定为如下的步骤,即,计算与属于由上述癌症患者基因组的碱基序列信息筛选出的合成癌生存基因对的一个以上的对应基因配对的一个以上的突变基因的数量,以该计算数量为基准来确定候选药物的优先顺序或组合。
18.一种利用癌症患者的基因组碱基序列突变的定制型抗癌治疗药物选择系统,其特征在于,
上述系统包括:
数据库,能够检索或提取与对癌症患者成为适用对象的抗癌治疗药物及上述药物能够抑制的基因有关的信息;
通信部,能够访问上述数据库;
癌症基因组碱基序列分析部;
药物选择信息提供部;以及
显示部,
上述癌症基因组碱基序列分析部包括用于选定属于合成癌生存基因对的一个以上的突变基因的突变基因选定部以及用于选定通过对于一个以上的上述突变基因与相应突变基因进行配对来形成合成癌生存基因对的一个以上的对应基因的对应基因选定部,
上述药物选择信息提供部用于提供对一个以上的上述对应基因进行抑制的抗癌治疗药物选择信息。
19.一种计算机可读介质,其特征在于,包括使下述处理器运行的执行模块,
上述处理器执行包括如下步骤的动作:
从癌症患者的基因组碱基序列信息筛选合成癌生存基因对的步骤;以及
筛选用于抑制与属于上述合成癌生存基因对的一个以上的突变基因配对的一个以上的对应基因的一个以上的候选药物的步骤。
20.一种用于提供癌症患者的预后预测的信息的方法,其特征在于,包括从癌症患者基因组的碱基序列信息计算属于合成癌生存基因对的一个以上的基因数的步骤。
21.根据权利要求20所述的用于提供癌症患者的预后预测的信息的方法,其特征在于,上述方法包括从上述癌症患者基因组的碱基序列信息计算属于合成癌生存基因对的一个以上的基因数及体细胞突变基因数的步骤。
22.一种利用癌症患者的基因组碱基序列突变的定制型抗癌治疗药物选择系统,其特征在于,
上述系统包括:
数据库,能够检索或提取与对癌症患者成为适用对象的抗癌治疗药物及上述药物能够抑制的基因有关的信息;
通信部,能够访问上述数据库;
癌基因组碱基序列分析部;
药物选择信息提供部;以及
显示部,
上述癌症基因组碱基序列分析部包括用于选定属于合成癌生存基因对的一个以上的突变基因的突变基因对选定部以及用于选定通过对于一个以上的上述突变基因与相应突变基因进行配对来形成合成癌生存基因对的一个以上的对应基因的对应基因选定部,
上述药物选择信息提供部用于提供使上述癌症患者的合成癌生存基因对的数量增加的药物选择信息。
23.一种计算机可读介质,其特征在于,包括使下述处理器运行的执行模块,上述处理器执行包括如下步骤的动作:
从癌症患者的基因组碱基序列信息筛选合成癌生存基因对的步骤;以及
在用于抑制与属于上述合成癌生存基因对的一个以上的突变基因配对的一个以上的对应基因的一个以上的候选药物中,筛选使合成癌生存基因对的数量增加的候选药物的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20150148717 | 2015-10-26 | ||
KR10-2015-0148717 | 2015-10-26 | ||
PCT/KR2016/012108 WO2017074036A2 (ko) | 2015-10-26 | 2016-10-26 | 암 환자의 유전체 염기서열 변이 정보와 생존 정보를 이용한 맞춤형 약물 선택 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108475300A true CN108475300A (zh) | 2018-08-31 |
CN108475300B CN108475300B (zh) | 2024-01-23 |
Family
ID=60163763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680062975.4A Active CN108475300B (zh) | 2015-10-26 | 2016-10-26 | 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20180312928A1 (zh) |
EP (1) | EP3396573A4 (zh) |
JP (1) | JP6681475B2 (zh) |
KR (1) | KR101949286B1 (zh) |
CN (1) | CN108475300B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113228190A (zh) * | 2018-12-23 | 2021-08-06 | 豪夫迈·罗氏有限公司 | 基于预测的肿瘤突变负荷的肿瘤分类 |
CN113228195A (zh) * | 2019-01-15 | 2021-08-06 | 国际商业机器公司 | 用于识别药物的最佳组合的技术 |
CN113836931A (zh) * | 2021-11-24 | 2021-12-24 | 慧算医疗科技(上海)有限公司 | 基于领域本体的癌症用药知识库构建方法、系统及终端 |
CN117373534A (zh) * | 2023-10-17 | 2024-01-09 | 中山大学孙逸仙纪念医院 | 一种三阴型乳腺癌预后风险评估系统 |
CN117809741A (zh) * | 2024-03-01 | 2024-04-02 | 浙江大学 | 一种基于分子进化选择压预测癌症特征基因的方法与装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816253A (zh) * | 2020-06-16 | 2020-10-23 | 荣联科技集团股份有限公司 | 一种基因检测解读方法及装置 |
CN116324722A (zh) * | 2020-10-07 | 2023-06-23 | 国立大学法人 新潟大学 | 软件提供装置、软件提供方法及程序 |
CN112852961B (zh) * | 2021-01-08 | 2022-09-13 | 上海市胸科医院 | 肺腺癌铁死亡敏感性标志物adcy10及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1688364A (zh) * | 2002-08-14 | 2005-10-26 | 鹿特丹依拉斯姆斯大学医学中心 | 证实与肿瘤发生相关的鼠基因组区域在抗癌药物的开发和癌症诊断中的应用 |
US20080064055A1 (en) * | 2006-08-10 | 2008-03-13 | Millennium Pharmaceuticals, Inc. | Methods for the identification, assessment, and treatment of patients with cancer therapy |
CN101815793A (zh) * | 2007-06-15 | 2010-08-25 | 南佛罗里达大学 | 诊断和治疗癌症的方法 |
CN104732116A (zh) * | 2015-03-13 | 2015-06-24 | 西安交通大学 | 一种基于生物网络的癌症驱动基因的筛选方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3495504B1 (en) * | 2013-08-19 | 2020-10-07 | Cipherome, Inc. | Method and system for selecting drug on basis of individual protein damage information for preventing side effects of drug |
US20150320755A1 (en) * | 2014-04-16 | 2015-11-12 | Infinity Pharmaceuticals, Inc. | Combination therapies |
-
2016
- 2016-10-26 JP JP2018542073A patent/JP6681475B2/ja active Active
- 2016-10-26 US US15/771,288 patent/US20180312928A1/en active Pending
- 2016-10-26 KR KR1020160140346A patent/KR101949286B1/ko active IP Right Grant
- 2016-10-26 EP EP16860219.1A patent/EP3396573A4/en active Pending
- 2016-10-26 CN CN201680062975.4A patent/CN108475300B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1688364A (zh) * | 2002-08-14 | 2005-10-26 | 鹿特丹依拉斯姆斯大学医学中心 | 证实与肿瘤发生相关的鼠基因组区域在抗癌药物的开发和癌症诊断中的应用 |
US20080064055A1 (en) * | 2006-08-10 | 2008-03-13 | Millennium Pharmaceuticals, Inc. | Methods for the identification, assessment, and treatment of patients with cancer therapy |
CN101815793A (zh) * | 2007-06-15 | 2010-08-25 | 南佛罗里达大学 | 诊断和治疗癌症的方法 |
CN104732116A (zh) * | 2015-03-13 | 2015-06-24 | 西安交通大学 | 一种基于生物网络的癌症驱动基因的筛选方法 |
Non-Patent Citations (2)
Title |
---|
LI, MENG等: "Enriched transcription factor binding sites in hypermethylated gene promoters in drug resistant cancer cells", 《BIOINFORMATICS》 * |
陈伟光 等: "纳米载体共载基因与化疗药物用于癌症治疗的研究进展", 《陈伟光》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113228190A (zh) * | 2018-12-23 | 2021-08-06 | 豪夫迈·罗氏有限公司 | 基于预测的肿瘤突变负荷的肿瘤分类 |
CN113228190B (zh) * | 2018-12-23 | 2024-06-11 | 豪夫迈·罗氏有限公司 | 分类和/或鉴定癌症亚型的系统和方法 |
CN113228195A (zh) * | 2019-01-15 | 2021-08-06 | 国际商业机器公司 | 用于识别药物的最佳组合的技术 |
CN113836931A (zh) * | 2021-11-24 | 2021-12-24 | 慧算医疗科技(上海)有限公司 | 基于领域本体的癌症用药知识库构建方法、系统及终端 |
CN113836931B (zh) * | 2021-11-24 | 2022-03-08 | 慧算医疗科技(上海)有限公司 | 基于领域本体的癌症用药知识库构建方法、系统及终端 |
CN117373534A (zh) * | 2023-10-17 | 2024-01-09 | 中山大学孙逸仙纪念医院 | 一种三阴型乳腺癌预后风险评估系统 |
CN117373534B (zh) * | 2023-10-17 | 2024-04-30 | 中山大学孙逸仙纪念医院 | 一种三阴型乳腺癌预后风险评估系统 |
CN117809741A (zh) * | 2024-03-01 | 2024-04-02 | 浙江大学 | 一种基于分子进化选择压预测癌症特征基因的方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
KR101949286B1 (ko) | 2019-02-18 |
EP3396573A2 (en) | 2018-10-31 |
EP3396573A4 (en) | 2019-08-28 |
JP6681475B2 (ja) | 2020-04-15 |
JP2019503016A (ja) | 2019-01-31 |
US20180312928A1 (en) | 2018-11-01 |
KR20170048227A (ko) | 2017-05-08 |
CN108475300B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taliun et al. | Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program | |
JP6854792B2 (ja) | ゲノムモデルに関するデータ統合を用いたパスウェイ認識アルゴリズム(paradigm) | |
CN108475300A (zh) | 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统 | |
US10975445B2 (en) | Integrated machine-learning framework to estimate homologous recombination deficiency | |
JP7487163B2 (ja) | がんの進化の検出および診断 | |
ES2923602T3 (es) | Detección y tratamiento de enfermedades que muestran heterogeneidad celular de enfermedad y sistemas y métodos para comunicar los resultados de las pruebas | |
US20230114581A1 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
Johnston et al. | Secondary variants in individuals undergoing exome sequencing: screening of 572 individuals identifies high-penetrance mutations in cancer-susceptibility genes | |
Jordan et al. | Human allelic variation: perspective from protein function, structure, and evolution | |
CN111278993A (zh) | 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测 | |
WO2019169049A1 (en) | Multimodal modeling systems and methods for predicting and managing dementia risk for individuals | |
US20140229495A1 (en) | Method for processing genomic data | |
CN108138233A (zh) | Dna混合物中组织的单倍型的甲基化模式分析 | |
Diossy et al. | A subset of lung cancer cases shows robust signs of homologous recombination deficiency associated genomic mutational signatures | |
Camastra et al. | Statistical and computational methods for genetic diseases: an overview | |
Chen et al. | Comprehensive genomic profiling of breast cancers characterizes germline-somatic mutation interactions mediating therapeutic vulnerabilities | |
Dong et al. | Detection of novel germline mutations in six breast cancer predisposition genes by targeted next‐generation sequencing | |
Hasan et al. | Copy number architectures define treatment-mediated selection of lethal prostate cancer clones | |
KR102188376B1 (ko) | 암 유전체 염기서열 변이, 전사체 발현 및 환자 생존 정보를 이용한 맞춤형 항암 치료 방법 및 시스템 | |
Wang et al. | Genome-wide analysis of rare haplotypes associated with breast cancer risk | |
Kafka et al. | Recent insights on genetic testing in primary prostate cancer | |
Wu et al. | Comparing the value of mammographic features and genetic variants in breast cancer risk prediction | |
Oetting | Clinical genetics & human genome variation: The 2008 human genome variation society scientific meeting | |
Politopoulos et al. | Composite likelihood-based meta-analysis of breast cancer association studies | |
Niu et al. | Tagging large CNV blocks in wheat boosts digitalization of germplasm resources by ultra-low-coverage sequencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230301 Address after: Seoul, South Kerean Applicant after: Ai Futiren Address before: Seoul, South Kerean Applicant before: CIPHEROME |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |