CN116741272A - 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 - Google Patents
基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 Download PDFInfo
- Publication number
- CN116741272A CN116741272A CN202310741958.5A CN202310741958A CN116741272A CN 116741272 A CN116741272 A CN 116741272A CN 202310741958 A CN202310741958 A CN 202310741958A CN 116741272 A CN116741272 A CN 116741272A
- Authority
- CN
- China
- Prior art keywords
- hrd
- mutation
- wes
- rna
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 81
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 56
- 206010033128 Ovarian cancer Diseases 0.000 title claims abstract description 47
- 206010061535 Ovarian neoplasm Diseases 0.000 title claims abstract description 47
- 230000014509 gene expression Effects 0.000 title claims abstract description 39
- 238000012163 sequencing technique Methods 0.000 claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 13
- 238000007477 logistic regression Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 9
- 230000001105 regulatory effect Effects 0.000 claims description 9
- 230000008826 genomic mutation Effects 0.000 claims description 7
- 210000004602 germ cell Anatomy 0.000 claims description 6
- 238000002864 sequence alignment Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003828 downregulation Effects 0.000 claims description 5
- 230000036438 mutation frequency Effects 0.000 claims description 5
- 230000003827 upregulation Effects 0.000 claims description 5
- 230000001276 controlling effect Effects 0.000 claims description 4
- 102100030489 15-hydroxyprostaglandin dehydrogenase [NAD(+)] Human genes 0.000 claims description 2
- 102100032309 A disintegrin and metalloproteinase with thrombospondin motifs 15 Human genes 0.000 claims description 2
- 108091005672 ADAMTS15 Proteins 0.000 claims description 2
- 102100036622 ATP-binding cassette sub-family A member 10 Human genes 0.000 claims description 2
- 102100024321 Alkaline phosphatase, placental type Human genes 0.000 claims description 2
- 102000011899 Aquaporin 2 Human genes 0.000 claims description 2
- 108010036221 Aquaporin 2 Proteins 0.000 claims description 2
- 102100039848 Beta-1,3-galactosyl-O-glycosyl-glycoprotein beta-1,6-N-acetylglucosaminyltransferase 3 Human genes 0.000 claims description 2
- 102100035602 Calsequestrin-2 Human genes 0.000 claims description 2
- 102100038445 Claudin-2 Human genes 0.000 claims description 2
- 102100040993 Collagen alpha-1(XIII) chain Human genes 0.000 claims description 2
- 102100031250 Disks large-associated protein 1 Human genes 0.000 claims description 2
- 102100040513 Endothelin-converting enzyme-like 1 Human genes 0.000 claims description 2
- 102100032155 Ephexin-1 Human genes 0.000 claims description 2
- 102100035975 Exostosin-like 1 Human genes 0.000 claims description 2
- 102100030910 Eyes absent homolog 4 Human genes 0.000 claims description 2
- 102100031734 Fibroblast growth factor 19 Human genes 0.000 claims description 2
- 102100028043 Fibroblast growth factor 3 Human genes 0.000 claims description 2
- 102100030831 Fibrocystin-L Human genes 0.000 claims description 2
- 102000008412 GATA5 Transcription Factor Human genes 0.000 claims description 2
- 108010021779 GATA5 Transcription Factor Proteins 0.000 claims description 2
- 102100033425 GDNF family receptor alpha-2 Human genes 0.000 claims description 2
- 102100021792 Gamma-sarcoglycan Human genes 0.000 claims description 2
- 102100038367 Gremlin-1 Human genes 0.000 claims description 2
- 102100030687 Histone H2B type 1-B Human genes 0.000 claims description 2
- 102100030636 Homeobox protein OTX1 Human genes 0.000 claims description 2
- 101001126430 Homo sapiens 15-hydroxyprostaglandin dehydrogenase [NAD(+)] Proteins 0.000 claims description 2
- 101000929654 Homo sapiens ATP-binding cassette sub-family A member 10 Proteins 0.000 claims description 2
- 101000952934 Homo sapiens Atrial natriuretic peptide-converting enzyme Proteins 0.000 claims description 2
- 101000887635 Homo sapiens Beta-1,3-galactosyl-O-glycosyl-glycoprotein beta-1,6-N-acetylglucosaminyltransferase 3 Proteins 0.000 claims description 2
- 101000947118 Homo sapiens Calsequestrin-2 Proteins 0.000 claims description 2
- 101000882901 Homo sapiens Claudin-2 Proteins 0.000 claims description 2
- 101000749004 Homo sapiens Collagen alpha-1(XIII) chain Proteins 0.000 claims description 2
- 101000844784 Homo sapiens Disks large-associated protein 1 Proteins 0.000 claims description 2
- 101000967016 Homo sapiens Endothelin-converting enzyme-like 1 Proteins 0.000 claims description 2
- 101000637325 Homo sapiens Ephexin-1 Proteins 0.000 claims description 2
- 101000875550 Homo sapiens Exostosin-like 1 Proteins 0.000 claims description 2
- 101000938422 Homo sapiens Eyes absent homolog 4 Proteins 0.000 claims description 2
- 101000846394 Homo sapiens Fibroblast growth factor 19 Proteins 0.000 claims description 2
- 101001060280 Homo sapiens Fibroblast growth factor 3 Proteins 0.000 claims description 2
- 101000583237 Homo sapiens Fibrocystin-L Proteins 0.000 claims description 2
- 101000997967 Homo sapiens GDNF family receptor alpha-2 Proteins 0.000 claims description 2
- 101000616435 Homo sapiens Gamma-sarcoglycan Proteins 0.000 claims description 2
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 claims description 2
- 101001084691 Homo sapiens Histone H2B type 1-B Proteins 0.000 claims description 2
- 101000584392 Homo sapiens Homeobox protein OTX1 Proteins 0.000 claims description 2
- 101000985261 Homo sapiens Hornerin Proteins 0.000 claims description 2
- 101000998524 Homo sapiens Indolethylamine N-methyltransferase Proteins 0.000 claims description 2
- 101001043326 Homo sapiens Lipoxygenase homology domain-containing protein 1 Proteins 0.000 claims description 2
- 101001043598 Homo sapiens Low-density lipoprotein receptor-related protein 4 Proteins 0.000 claims description 2
- 101000956614 Homo sapiens Ly6/PLAUR domain-containing protein 5 Proteins 0.000 claims description 2
- 101000623897 Homo sapiens Mucin-12 Proteins 0.000 claims description 2
- 101001128427 Homo sapiens Myeloma-overexpressed gene protein Proteins 0.000 claims description 2
- 101001128505 Homo sapiens Myocardial zonula adherens protein Proteins 0.000 claims description 2
- 101000633511 Homo sapiens Photoreceptor-specific nuclear receptor Proteins 0.000 claims description 2
- 101000888117 Homo sapiens Polypeptide N-acetylgalactosaminyltransferase 18 Proteins 0.000 claims description 2
- 101001135402 Homo sapiens Prostaglandin-H2 D-isomerase Proteins 0.000 claims description 2
- 101000981737 Homo sapiens Protein lifeguard 2 Proteins 0.000 claims description 2
- 101000688348 Homo sapiens Protein phosphatase 1 regulatory subunit 14C Proteins 0.000 claims description 2
- 101000741892 Homo sapiens Putative POTE ankyrin domain family member M Proteins 0.000 claims description 2
- 101000825954 Homo sapiens R-spondin-1 Proteins 0.000 claims description 2
- 101000579952 Homo sapiens RANBP2-like and GRIP domain-containing protein 1 Proteins 0.000 claims description 2
- 101000755643 Homo sapiens RIMS-binding protein 2 Proteins 0.000 claims description 2
- 101000640882 Homo sapiens Retinoic acid receptor RXR-gamma Proteins 0.000 claims description 2
- 101000761576 Homo sapiens Serine/threonine-protein phosphatase 2A 55 kDa regulatory subunit B gamma isoform Proteins 0.000 claims description 2
- 101000711461 Homo sapiens Speedy protein E2 Proteins 0.000 claims description 2
- 101000584382 Homo sapiens Synaptic vesicle glycoprotein 2C Proteins 0.000 claims description 2
- 101000595738 Homo sapiens TBC1 domain family member 3H Proteins 0.000 claims description 2
- 101000687905 Homo sapiens Transcription factor SOX-2 Proteins 0.000 claims description 2
- 101000680037 Homo sapiens Transmembrane protein 61 Proteins 0.000 claims description 2
- 101000795353 Homo sapiens Tripartite motif-containing protein 55 Proteins 0.000 claims description 2
- 101000920026 Homo sapiens Tumor necrosis factor receptor superfamily member EDAR Proteins 0.000 claims description 2
- 101000803329 Homo sapiens WAP, Kazal, immunoglobulin, Kunitz and NTR domain-containing protein 2 Proteins 0.000 claims description 2
- 102100028627 Hornerin Human genes 0.000 claims description 2
- 102100033180 Indolethylamine N-methyltransferase Human genes 0.000 claims description 2
- 102100021959 Lipoxygenase homology domain-containing protein 1 Human genes 0.000 claims description 2
- 102100021918 Low-density lipoprotein receptor-related protein 4 Human genes 0.000 claims description 2
- 102100038486 Ly6/PLAUR domain-containing protein 5 Human genes 0.000 claims description 2
- 102100038354 Metabotropic glutamate receptor 4 Human genes 0.000 claims description 2
- 102100023143 Mucin-12 Human genes 0.000 claims description 2
- 102100031791 Myeloma-overexpressed gene protein Human genes 0.000 claims description 2
- 102100032160 Myocardial zonula adherens protein Human genes 0.000 claims description 2
- 102100029533 Photoreceptor-specific nuclear receptor Human genes 0.000 claims description 2
- 102100039225 Polypeptide N-acetylgalactosaminyltransferase 18 Human genes 0.000 claims description 2
- 102100033279 Prostaglandin-H2 D-isomerase Human genes 0.000 claims description 2
- 102100037314 Protein kinase C gamma type Human genes 0.000 claims description 2
- 102100024135 Protein lifeguard 2 Human genes 0.000 claims description 2
- 102100024145 Protein phosphatase 1 regulatory subunit 14C Human genes 0.000 claims description 2
- 108091000532 Protein-Arginine Deiminase Type 1 Proteins 0.000 claims description 2
- 102100023222 Protein-arginine deiminase type-1 Human genes 0.000 claims description 2
- 102100038764 Putative POTE ankyrin domain family member M Human genes 0.000 claims description 2
- 102100022762 R-spondin-1 Human genes 0.000 claims description 2
- 102100027505 RANBP2-like and GRIP domain-containing protein 1 Human genes 0.000 claims description 2
- 102100022371 RIMS-binding protein 2 Human genes 0.000 claims description 2
- 102100034262 Retinoic acid receptor RXR-gamma Human genes 0.000 claims description 2
- 102100024926 Serine/threonine-protein phosphatase 2A 55 kDa regulatory subunit B gamma isoform Human genes 0.000 claims description 2
- 102100034016 Speedy protein E2 Human genes 0.000 claims description 2
- 102100030637 Synaptic vesicle glycoprotein 2C Human genes 0.000 claims description 2
- 102100036059 TBC1 domain family member 3H Human genes 0.000 claims description 2
- 102100024270 Transcription factor SOX-2 Human genes 0.000 claims description 2
- 102100022178 Transmembrane protein 61 Human genes 0.000 claims description 2
- 102100029720 Tripartite motif-containing protein 55 Human genes 0.000 claims description 2
- 102100030810 Tumor necrosis factor receptor superfamily member EDAR Human genes 0.000 claims description 2
- 102100036021 WAP, Kazal, immunoglobulin, Kunitz and NTR domain-containing protein 2 Human genes 0.000 claims description 2
- 238000010195 expression analysis Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 108010038422 metabotropic glutamate receptor 4 Proteins 0.000 claims description 2
- 108010031345 placental alkaline phosphatase Proteins 0.000 claims description 2
- 108010062154 protein kinase C gamma Proteins 0.000 claims description 2
- 108700024394 Exon Proteins 0.000 claims 1
- 238000011223 gene expression profiling Methods 0.000 claims 1
- 239000000523 sample Substances 0.000 abstract description 24
- 108091007743 BRCA1/2 Proteins 0.000 abstract description 7
- 206010064571 Gene mutation Diseases 0.000 abstract description 6
- 238000003559 RNA-seq method Methods 0.000 abstract description 5
- 239000008280 blood Substances 0.000 abstract description 4
- 210000004369 blood Anatomy 0.000 abstract description 4
- 239000013068 control sample Substances 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 22
- 238000012360 testing method Methods 0.000 description 14
- 238000001228 spectrum Methods 0.000 description 13
- 238000012795 verification Methods 0.000 description 13
- 230000001717 pathogenic effect Effects 0.000 description 9
- 108020004414 DNA Proteins 0.000 description 8
- 238000002790 cross-validation Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 238000003780 insertion Methods 0.000 description 7
- 230000037431 insertion Effects 0.000 description 7
- 239000012634 fragment Substances 0.000 description 6
- 238000003908 quality control method Methods 0.000 description 6
- 210000001519 tissue Anatomy 0.000 description 6
- 230000037429 base substitution Effects 0.000 description 5
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 description 5
- 238000013210 evaluation model Methods 0.000 description 4
- 229920000776 Poly(Adenosine diphosphate-ribose) polymerase Polymers 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000006801 homologous recombination Effects 0.000 description 3
- 238000002744 homologous recombination Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 102000036365 BRCA1 Human genes 0.000 description 2
- 101150106864 HR gene Proteins 0.000 description 2
- 239000013614 RNA sample Substances 0.000 description 2
- 230000006819 RNA synthesis Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000011226 adjuvant chemotherapy Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 210000000481 breast Anatomy 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003205 genotyping method Methods 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 230000006780 non-homologous end joining Effects 0.000 description 2
- 230000000771 oncological effect Effects 0.000 description 2
- 230000002611 ovarian Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 231100000241 scar Toxicity 0.000 description 2
- 230000037390 scarring Effects 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 101150028074 2 gene Proteins 0.000 description 1
- 101150090724 3 gene Proteins 0.000 description 1
- 102000000872 ATM Human genes 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 108010004586 Ataxia Telangiectasia Mutated Proteins Proteins 0.000 description 1
- 108700020463 BRCA1 Proteins 0.000 description 1
- 108700040618 BRCA1 Genes Proteins 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 108700010154 BRCA2 Genes Proteins 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000032544 Cicatrix Diseases 0.000 description 1
- 208000036493 Contralateral breast cancer Diseases 0.000 description 1
- 230000005971 DNA damage repair Effects 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 102100039116 DNA repair protein RAD50 Human genes 0.000 description 1
- 102100033996 Double-strand break repair protein MRE11 Human genes 0.000 description 1
- 108010067741 Fanconi Anemia Complementation Group N protein Proteins 0.000 description 1
- 102000016627 Fanconi Anemia Complementation Group N protein Human genes 0.000 description 1
- 208000031448 Genomic Instability Diseases 0.000 description 1
- 101000785776 Homo sapiens Artemin Proteins 0.000 description 1
- 101000743929 Homo sapiens DNA repair protein RAD50 Proteins 0.000 description 1
- 101000591400 Homo sapiens Double-strand break repair protein MRE11 Proteins 0.000 description 1
- 101000981336 Homo sapiens Nibrin Proteins 0.000 description 1
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 1
- 102100024403 Nibrin Human genes 0.000 description 1
- 239000012661 PARP inhibitor Substances 0.000 description 1
- 229930012538 Paclitaxel Natural products 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 229940121906 Poly ADP ribose polymerase inhibitor Drugs 0.000 description 1
- 101710179684 Poly [ADP-ribose] polymerase Proteins 0.000 description 1
- 102100023712 Poly [ADP-ribose] polymerase 1 Human genes 0.000 description 1
- 102000012338 Poly(ADP-ribose) Polymerases Human genes 0.000 description 1
- 108010061844 Poly(ADP-ribose) Polymerases Proteins 0.000 description 1
- 108010068097 Rad51 Recombinase Proteins 0.000 description 1
- 102000002490 Rad51 Recombinase Human genes 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 190000008236 carboplatin Chemical compound 0.000 description 1
- 229960004562 carboplatin Drugs 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000009274 differential gene expression Effects 0.000 description 1
- 230000011559 double-strand break repair via nonhomologous end joining Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007608 epigenetic mechanism Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000001665 lethal effect Effects 0.000 description 1
- 238000009115 maintenance therapy Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 238000012009 microbiological test Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 238000011227 neoadjuvant chemotherapy Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229960001592 paclitaxel Drugs 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000037387 scars Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 208000004548 serous cystadenocarcinoma Diseases 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000011272 standard treatment Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- RCINICONZNJXQF-MZXODVADSA-N taxol Chemical compound O([C@@H]1[C@@]2(C[C@@H](C(C)=C(C2(C)C)[C@H](C([C@]2(C)[C@@H](O)C[C@H]3OC[C@]3([C@H]21)OC(C)=O)=O)OC(=O)C)OC(=O)[C@H](O)[C@@H](NC(=O)C=1C=CC=CC=1)C=1C=CC=CC=1)O)C(=O)C1=CC=CC=C1 RCINICONZNJXQF-MZXODVADSA-N 0.000 description 1
- 108091035539 telomere Proteins 0.000 description 1
- 102000055501 telomere Human genes 0.000 description 1
- 210000003411 telomere Anatomy 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型系统及方法。本发明的卵巢癌HRD分型系统包括全外显子测序(WES)数据预测模型、转录组测序(RNA‑seq)数据预测模型分析以及WES数据联合RNA‑seq数据预测模型,可通过输入肿瘤样本WES原始测序数据和/或RNA‑seq原始测序数据即可得到预测HRD状态的方法。本发明针对中国人群构建对照样本库,克服了对血液对照样本的依赖;克服了使用单一组学数据评估HRD状态的局限性,扩大了应用场景;克服使用单一数据类型来评估HRD状态的局限性;克服了之前判定HRD状态对BRCA1/2基因突变临床评级注释的依赖;针对中国人群优化分型系统参数;为判断卵巢癌患者的HRD状态,提供了更多的可选方法。
Description
技术领域
本发明涉及基因检测技术领域,具体地说,是关于基于基因组突变特征及基因集表达特征的卵巢癌HRD分型系统及方法。
背景技术
卵巢癌(ovarian cancer)是恶性程度极高的妇科肿瘤[1]。70%患者一经发现即为晚期。新诊断的晚期卵巢癌(IIIb-IV期)的标准治疗包括初次减瘤手术后进行紫杉醇和卡铂辅助化疗,或新辅助化疗后间歇性减瘤手术后进行辅助化疗[2-4]。尽管大多数患者通过任一方法获得完全缓解,但仍有60-75%的患者在2-3年内复发。晚期卵巢癌总体5年生存率仍然不足30%[5]。
同源重组修复(homologous recombination,HR)是DNA双链损伤修复的重要途径,如果异常会导致DNA双链损伤修复缺陷,即HRD,大约有53%的卵巢癌患者存在同源重组修复缺陷(homologous recombination deficiency,HRD)。多腺苷二磷酸核糖聚合酶(polyADP ribose polymerase,PARP)抑制剂维持治疗是近年卵巢癌治疗史上的一次革命[6],尤其针对BRCA基因致病突变和HRD的卵巢癌患者,通过抑制肿瘤细胞DNA的修复,通过合成致死作用促进肿瘤细胞凋亡,能够延长这类患者的复发时间,从而改善预后。HRD作为PARP抑制剂敏感的生物标志物已用于临床伴随诊断,成为临床精准用药的分子靶点。
目前,HRD评估主要有2个技术路线。第一个方法是检测HR通路中相关基因的突变。HR是一条涉及到多个步骤的复杂的信号转导通路,其中关键蛋白为BRCA1和BRCA2,携带BRCA1和(或)BRCA2基因的胚系有害突变的人群其一生中患乳腺癌、卵巢癌、前列腺癌、黑色素瘤和胰腺癌的风险增加[7],随着研究的深入,不断有新基因被发现参与HR作用,成DNA损伤修复的复杂系统,这些蛋白包括ATM、RAD51、PALB2、MRE11、RAD50、NBN和FA蛋白等[8]。利用二代测序技术,可以评估许多HRR基因是否存在胚系或体系突变,但对于基因突变的注释仍然是一大挑战;此外,由于表观遗传修饰等因素,单纯检测HR基因的突变不能完全反映患者的HRD状态。
第二个方法是通过检测HRD产生的结果,即检测基因组瘢痕(genomic scars)。HRD的功能学评估有助于弥补检测HR基因突变的不足,当HRD存在时,基因组变异累积,等位基因失衡可能导致“基因组瘢痕”,通过对“基因组瘢痕”所表示的HRD进行评估可以不考虑潜在的遗传或表观遗传机制[9]。可使用HRD相关基因的测序芯片或全基因组范围内的SNP算法。基因组瘢痕检测目前仅有2个FDA批准且经过临床验证的产品,即FoundationFocusTMCDxBRCA LOH和MyriadCDx。前者通过检测BRCA突变状态和基因组杂合性缺失(loss ofheterozygosity,LOH)而进行综合评估,后者通过检测基因组不稳定性状态的3项指标(LOH、端粒等位基因不平衡(telomeric allelic imbalance,TAI)、大片段迁移(large-scale transition,LST))从而进行评估。目前国内尚无HRD检测产品获得CFDA或伴随诊断批准。
在卵巢癌中若仅检测HRR基因(含BRCA1/2),受益人群比例约为25%,但若进行基因组HRD评分(含BRCA1/2检测),受益人群比例可提高至50%。目前,基因组HRD评分通常需要大量不相连的SNP位点组成panel,SNP位点数量常在3万至5万个点。例如,中国专利申请公布CN112226495A公开了一种DNA同源重组异常的检测方法,包括:(1)SNP位点筛选;(2)为筛选到的SNP位点设计捕获探针;(3)基因组DNA提取和文库构建;(4)文库靶向富集;(5)高通量测序并分析测序数据,判断HRD状态时使用Kolmogorov Smirnov检验或者scarHRD。
目前已有的HRD产品,主要使用HRD相关基因的测序芯片或全基因组范围内的SNP检测,基于靶向测序(target region sequencing),即利用探针杂交的方法对特定位点或区域进行捕获和富集,并进行高通量测序。但是,该方法中芯片或目标捕获区域设计目标范围太窄,只能检测固定位点,存在很大的局限性。同时这类方法的探针设计及确定后的性能验证,还是临床样本的检测,均存在成本高的问题,不能随其他产品而伴随应用。这类方法还只能对肿瘤组织DNA及配对的白细胞的DNA同时进行检测来进行HRD状态的评估,接受检测的样本类型单一。
综上,传统的检测同源重组修复缺陷的方法存在的不足之处在于:只能检测固定位点,不全面,存在较大局限性,并且检测成本高,需要设计特定的探针,且接受检测的样本类型单一。所以亟需一种能低成本、检测较为全面且准确度高的方法用于检测HRD状态。而目前关于如本发明的基于基因组突变特征及基因集表达特征的卵巢癌HRD分型系统及方法还未见报道。
发明内容
本发明的第一个目的是,针对现有技术中的不足,提供了基于基因组突变特征及基因集表达特征的卵巢癌HRD分型方法。
本发明的第二个目的是,提供了一种基于肿瘤组织基因组突变特征及基因集表达特征的卵巢癌HRD分型系统。
本发明的第三个目的是,提供了一种卵巢癌HRD分型方法的应用。
为实现上述第一个目的,本发明采取的技术方案是:
一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型方法,所述分型方法包括基于全外显子测序(WES)数据构建的WES模型,基于转录组测序(RNA-seq)数据构建的RNA模型,以及结合全外显子和转录组测序数据构建的WES+RNA综合模型。
作为一个优选例,上述WES模型的建立包括以下步骤:
A1:二代测序;
A2:数据质控;
A3:序列比对;
A4:突变检测、过滤和注释;
A5:突变特征分析;
A6:HRD状态评估。
作为一个优选例,上述步骤A1将肿瘤组织的DNA样本使用全外显子捕获后进行二代测序;所述步骤A2对原始测序数据(raw reads)中的测序接头、低质量碱基、模糊碱基和长度等进行过滤,得到高质量数据(clean reads)。其中,质控后的长度至少为75bp;所述步骤A3将clean reads与人类全外显子的参考序列进行比对,得到比对文件并去除比对文件中的重复reads;所述步骤A4中的突变过滤包括基于正常样本库(panel of normal)和gnomAD数据库(The Genome Aggregation Database)的胚系变异过滤以及基于测序深度、正负链比、变异支持序列数、突变频率、基因组黑名单区域(blacklist region)等的低质量变异过滤。其中,panel of normal基于38个血液样本,并将随着数据的收集定期更新。其中,测序深度需要≥30x。其中,正负链比介于10%-90%。对热点突变SNV、非热点点突变SNV、热点INDEL和非热点INDEL的支持序列数分别需要≥3、8、2、5。其中,热点突变SNV、非热点点突变SNV、热点INDEL和非热点INDEL的突变频率分别需要≥0.01、0.05、0.01、0.03;所述步骤A5中突变特征分析包括突变频谱计算和突变特征指数计算。其中,突变频谱包括单碱基替换(single base substitutions,SBS)突变频谱和小片段的插入和缺失(smallinsertions and deletions,ID)突变频谱。其中,突变特征指数基于COSMIC数据库收录的各突变特征(signature)对样本突变频谱的贡献率;其中,选定的用于后续HRD状态预测的突变特征包括与HRD及BRCA突变相关的单碱基替换突变特征3(SBS3)和小片段的插入和缺失突变特征6(ID6),以及与非同源性末端接合(non-homologous end joining,NHEJ)相关的突变特征ID8;所述步骤A6中的HRD评估模型包括基于SBS3突变特征指数的判断和基于以ID6和ID8为参数的逻辑回归模型两个部分。
更优选地,基于ID6和ID8突变特征指数的模型为:
η=-0.4261594+4.9839447×ID6特征指数+5.8571149×ID8特征指数
其中,
其中,符合下列条件之一的样本将被判定为HRD阳性:(1)SBS3突变特征指数>0.203;(2)WES score>0.832。
更优选地,上述RNA模型的建立包括以下步骤:
B1:二代测序;
B2:数据质控;
B3:序列比对;
B4:基因表达定量;
B5:特定基因集表达特征分析;
B6:HRD状态评估。
更优选地,上述步骤B1将肿瘤组织的RNA样本使用polyA捕获后进行二代测序;所述步骤B2对原始测序数据(raw reads)中的测序接头、低质量碱基、模糊碱基和长度等进行过滤,得到高质量数据(cleanreads)。其中,质控后的长度至少为75bp;所述步骤B4对原始表达数据(read counts)进行定量归一化,计算基因或者转录本的TPM(transcripts permillion)值;所述步骤B5的目的为筛选与HRD状态相关的基因集;所述步骤B6中的特定基因集表达特征分析包括基于样本在特定基因集的富集程度的表达特征指数计算;所述步骤B7中的HRD评估模型包括基于以特定基因集的表达特征指数为参数的逻辑回归模型。
更优选地,上述步骤B5中的基因表达特征分析为对特定基因集的表达特征指数计算;上述特征基因集包括上调基因集与下调基因集,
其中上调基因集包含以下基因:
ENSG00000031544(NR2E3),ENSG00000060709(RIMBP2),
ENSG00000074211(PPP2R2C),ENSG00000112936(C7),
ENSG00000118729(CASQ2),ENSG00000124491(F13A1),
ENSG00000124493(GRM4),ENSG00000126583(PRKCG),
ENSG00000134569(LRP4),ENSG00000135472(FAIM2),
ENSG00000135960(EDAR),ENSG00000140297(GCNT3),
ENSG00000142623(PADI1),ENSG00000143001(TMEM61),
ENSG00000143171(RXRG),ENSG00000143631(FLG),
ENSG00000154263(ABCA10),ENSG00000162344(FGF19),
ENSG00000163283(ALPP),ENSG00000165376(CLDN2),
ENSG00000167210(LOXHD1),ENSG00000167580(AQP2),
ENSG00000170579(DLGAP1),ENSG00000171551(ECEL1),
ENSG00000172927(MYEOV),ENSG00000173714(WFIKKN2),
ENSG00000181449(SOX2),ENSG00000186895(FGF3),
ENSG00000187537(POTEM),ENSG00000187627(RGPD1),
ENSG00000196226(HIST1H2BB),ENSG00000197915(HRNR),
ENSG00000205038(PKHD1L1),ENSG00000205238(SPDYE2),
ENSG00000205277(MUC12),ENSG00000242384(TBC1D3H);
其中下调基因集包括下列基因:
ENSG00000066248(NGEF),ENSG00000102683(SGCG),
ENSG00000107317(PTGDS),ENSG00000110328(GALNT18),
ENSG00000112319(EYA4),ENSG00000115507(OTX1),
ENSG00000122012(SV2C),ENSG00000130700(GATA5),
ENSG00000133937(GSC),ENSG00000137878(GCOM1),
ENSG00000147573(TRIM55),ENSG00000158008(EXTL1),
ENSG00000159871(LYPD5),ENSG00000164120(HPGD),
ENSG00000166106(ADAMTS15),ENSG00000166923(GREM1),
ENSG00000168546(GFRA2),ENSG00000169218(RSPO1),
ENSG00000197467(COL13A1),ENSG00000198729(PPP1R14C),
ENSG00000241644(INMT);
所述步骤B6中的HRD评估基于以特定基因集的表达特征指数为参数的逻辑回归模型:
其中,
η=11.90860+14.74870×上调基因集表达特征指数-20.03622×下调基因集表达特征指数
其中,符合条件RNA score>0.877的样本将被判定为HRD阳性。
更优选地,所述WES+RNA综合模型包括基于SBS3突变特征指数的判断和基于以WES和RNA模型分别计算得到的WES score和RNA score为参数的逻辑回归模型两个部分;分析流程包括以下步骤:
C1:权利要求2所述的步骤A1-A6;
C2:权利要求4所述的步骤B1-B6;
C3:HRD评估。
更优选地,上述步骤C3中的HRD评估包括基于SBS3突变特征指数的判断和基于以步骤C1和C2计算得到的WES score和RNA score为参数的逻辑回归模型两个部分,其中,基于WES score和RNA score的模型为:
其中,
η=-10.470683+9.637483×WES score+7.214411×RNA score
其中,符合下列条件之一的样本将被判定为HRD阳性:(1)SBS3突变特征指数>0.203;(2)HRD score>0.766。
更优选地,上述HRD分型方法基于输入数据类型,预测HRD状态,该模型的准确性估计均使用交叉验证的方法。
为实现上述第二个目的,本发明采取的技术方案是:一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型的系统,其特征在于,所述系统基于上述任一项所述的卵巢癌HRD分型方法;所述系统仅需输入肿瘤样本WES原始测序数据和/或RNA-seq原始测序数据;所述系统输出为该样本预测的HRD状态。
为实现本发明的第三个目的,本发明采用的技术方案是:上述任一所述的卵巢癌HRD分型系统在制备评估HRD状态的产品中的应用。
本发明优点在于:
1、本发明提供的一种基于WES测序和/或RNA测序评估HRD状态的方法,解决了单一组学数据的局限性和准确度、单一突变类型的局限性以及基于基因差异表达数据易受到批次效应影响的局限性和准确度性,从而扩大受益人群且降低成本,更适合于临床应用。
2、本发明基于中国人群构建对照样本库,克服了对血液对照样本的依赖;克服了使用单一组学数据评估HRD状态的局限性,扩大了应用场景;克服了之前判定HRD状态方法中对BRCA1/2基因突变临床评级注释的依赖;针对中国人群优化HRD分型系统参数;为判断卵巢癌患者的HRD状态,提供了更多的可选方法。
附图说明
附图1为本发明的流程示意图。
附图2为HRD状态与基因组突变特征的相关性。
附图3为SBS3预测HRD状态的ROC曲线。
附图4为交叉验证中WES模型的准确率。
附图5为WES score预测HRD状态的ROC曲线。
附图6为HRD状态与特定基因集表达特征的相关性。
附图7为交叉验证中RNA模型的准确率。
附图8为RNA score预测HRD状态的ROC曲线。
附图9为交叉验证中WES+RNA综合模型的准确率。
附图10为HRD score预测HRD状态的ROC曲线。
具体实施方式
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明记载的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。如未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段和市售的常用仪器、试剂,可参见《分子克隆实验指南(第3版)》(科学出版社)、《微生物学实验(第4版)》(高等教育出版社)以及相应仪器和试剂的厂商说明书等参考。
实施例1:本发明WES模型、RNA模型和WES+RNA综合模型的建立
收集了一组已知HRD状态的28例肿瘤样本,其中HRD阳性22例,HRD阴性6例,均同时有WES和RNA数据。
1.WES模型的建立
(1)二代测序。将肿瘤组织的DNA样本使用全外显子捕获后进行二代测序。
(2)数据质控。对原始测序数据(raw reads)中可能出现的测序接头进行剪切去除,同时去除原始数据中低质量碱基和模糊碱基比例较高的数据,同时要求质控后的长度至少为75bp,剩余的即为高质量数据(clean reads)。
(3)序列比对。将clean reads与人类全外显子的参考序列进行比对,得到比对文件。去除比对文件中的重复reads。
(4)突变检测、过滤和注释。对检测到的突变进行基于正常样本库(panel ofnormal)和gnomAD数据库(The Genome Aggregation Database)的胚系变异过滤以及基于测序深度、正负链比、变异支持序列数、突变频率,基因组黑名单区域(blacklist region)等的低质量变异过滤,并进行注释。具体的,panel of normal基于38个血液样本,并将随着数据的收集定期更新;测序深度需要≥30x;正负链比需介于10%-90%;对热点突变SNV、非热点点突变SNV、热点INDEL和非热点INDEL的支持序列数分别需要≥3、8、2、5;热点突变SNV、非热点点突变SNV、热点INDEL和非热点INDEL的突变频率分别需要≥0.01、0.05、0.01、0.03。
(5)突变特征分析。
A.计算突变频谱。包括单碱基替换突变频谱和小片段的插入和缺失突变频谱。具体的,单碱基替换突变频谱为COSMIC数据库收录的定义SBS突变特征(signature)的96突变频谱,基于突变位点及紧邻的上下游各1碱基;小片段的插入和缺失突变频谱为COSMIC数据库收录的定义ID突变特征的83突变频谱,基于插入或缺失的类型、长度以及重复碱基数量等等。
B.计算突变特征指数。即根据样本的突变频谱,计算COSMIC数据库收录的各突变特征(signature)的贡献率。
C.获得与HRD阳性卵巢癌患者相关的突变特征。根据与样本已知的HRD状态相关性,获得与HRD阳性卵巢癌患者相关的突变特征。单碱基突变特征SBS3,以及小片段的插入和缺失突变特征ID6和ID8均与HRD状态存在着明显的相关性(图2)。
(6)HRD评估模型构建。基于WES数据的HRD评估包括2个部分。首先,通过ROC分析评估已知与HRD密切相关的SBS3判定HRD状态的性能(图3)。结果表明,以SBS3的突变特征指数>0.203作为HRD阳性判定阈值最优。其次,构建基于ID6和ID8为参数的逻辑回归(logisticregression)模型。为了更好的评估模型的预测性能,模型的准确性估计使用交叉验证的方法。具体的,在每一次验证中,将数据集随机分成18例训练集和10例测试集两个部分,其中训练集至少包括HRD阴性2例,测试集至少包括HRD阴性1例。使用训练集训练模型,使用测试集评估模型预测性能,分别获得模型在训练集和测试集的准确率(正确预测/总预测数)(图4)。验证重复10次,10次结果的准确率的平均值作为对模型准确性的评估。结果显示,WES模型在10次验证中训练集和测试集的准确性均值分别达到0.75和0.72,且各次验证间的稳定性较好。最后,使用完整数据集作为训练集构建最终模型,最终模型为:
其中
η=-0.4261594+4.9839447×ID6特征指数+5.8571149×ID8特征指数
通过ROC分析获得WES score判定HRD状态的最优阈值(图5)。表1展示基于WES数据的HRD状态判定规则。具体的,如果样本的SBS3特征指数>0.203,则判定为HRD阳性;如果SBS3的特征指数≤0.203,但WES score>0.832,则判定为HRD阳性;否则,判定为HRD阴性。表2显示本发明的WES模型对28个卵巢癌患者HRD状态预测的准确性。
表1.本发明方法的WES模型的HRD状态判定规则
表2.本发明方法的WES模型对28个卵巢癌患者HRD状态预测的准确性
2.RNA模型的建立
(1)二代测序。将肿瘤组织的RNA样本使用polyA捕获后进行二代测序;
(2)数据质控。对原始测序数据(raw reads)中可能出现的测序接头进行剪切去除,同时去除原始数据中低质量碱基和模糊碱基比例较高的数据,同时要求质控后的长度至少为75bp,剩余的即为高质量数据(clean reads)。
(3)序列比对。将clean reads与人类基因组的参考序列进行比对,得到比对文件。
(4)基因表达定量。对原始表达数据(read counts)进行定量归一化,计算基因或者转录本的TPM(transcripts permillion)值。
(5)基因差异表达分析。通过差异表达分析,得到HRD阳性和阴性样本之间存在差异表达的基因,再进一步根据基因的生物学意义等条件进行筛选,获得2个与HRD阳性卵巢癌患者相关的基因集(表3),即在HRD阳性样本中,相较于HRD阴性样本,上调或者下调的“上调基因集”和“下调基因集”。
表3.与HRD阳性卵巢癌患者相关的基因集
上调基因集 | 下调基因集 |
ENSG00000031544_NR2E3 | ENSG00000066248_NGEF |
ENSG00000060709_RIMBP2 | ENSG00000102683_SGCG |
ENSG00000074211_PPP2R2C | ENSG00000107317_PTGDS |
ENSG00000112936_C7 | ENSG00000110328_GALNT18 |
ENSG00000118729_CASQ2 | ENSG00000112319_EYA4 |
ENSG00000124491_F13A1 | ENSG00000115507_OTX1 |
ENSG00000124493_GRM4 | ENSG00000122012_SV2C |
ENSG00000126583_PRKCG | ENSG00000130700_GATA5 |
ENSG00000134569_LRP4 | ENSG00000133937_GSC |
ENSG00000135472_FAIM2 | ENSG00000137878_GCOM1 |
ENSG00000135960_EDAR | ENSG00000147573_TRIM55 |
ENSG00000140297_GCNT3 | ENSG00000158008_EXTL1 |
ENSG00000142623_PADI1 | ENSG00000159871_LYPD5 |
ENSG00000143001_TMEM61 | ENSG00000164120_HPGD |
ENSG00000143171_RXRG | ENSG00000166106_ADAMTS15 |
ENSG00000143631_FLG | ENSG00000166923_GREM1 |
ENSG00000154263_ABCA10 | ENSG00000168546_GFRA2 |
ENSG00000162344_FGF19 | ENSG00000169218_RSPO1 |
ENSG00000163283_ALPP | ENSG00000197467_COL13A1 |
ENSG00000165376_CLDN2 | ENSG00000198729_PPP1R14C |
ENSG00000167210_LOXHD1 | ENSG00000241644_INMT |
ENSG00000167580_AQP2 | |
ENSG00000170579_DLGAP1 | |
ENSG00000171551_ECEL1 | |
ENSG00000172927_MYEOV | |
ENSG00000173714_WFIKKN2 | |
ENSG00000181449_SOX2 | |
ENSG00000186895_FGF3 | |
ENSG00000187537_POTEM | |
ENSG00000187627_RGPD1 | |
ENSG00000196226_HIST1H2BB | |
ENSG00000197915_HRNR | |
ENSG00000205038_PKHD1L1 | |
ENSG00000205238_SPDYE2 | |
ENSG00000205277_MUC12 | |
ENSG00000242384_TBC1D3H |
(6)基因表达特征分析。基于样本在特定基因集的富集程度,计算特定基因集的表达特征指数。如图6所示,HRD状态与特定基因集的表达特征指数存在着明显的相关性;
(7)HRD评估模型构建。基于RNA数据的HRD评估基于特定基因集的表达特征指数为参数的逻辑回归(logistic regression)模型。为了更好的评估模型的预测性能,模型的准确性估计使用交叉验证的方法。具体的,在每一次验证中,将数据集随机分成18例训练集和10例测试集两个部分,其中训练集至少包括HRD阴性2例,测试集至少包括HRD阴性1例。使用训练集训练模型,使用测试集评估模型预测性能,分别获得模型在训练集和测试集的准确率(正确预测/总预测数)(图7)。验证重复10次,10次结果的准确率的平均值作为对模型准确性的估计。结果显示,RNA模型在10次验证中训练集和测试集的准确性均值分别达到0.91和0.82,且各次验证间的稳定性较好。最后,使用完整数据集作为训练集构建最终模型,最终模型为:
其中
η=11.90860+14.74870×上调基因集表达特征指数-20.03622×下调基因集表达特征指数
通过ROC分析获得RNAscore判定HRD状态的最优阈值(图8)。表4展示基于RNA数据的HRD状态判定规则。具体的,如果样本的RNAscore>0.877,则判定为HRD阳性;否则,判定为HRD阴性。表5为本发明的RNA模型对28个卵巢癌患者HRD状态预测的准确性。
表4.HRD状态判定对照表
表5.本发明方法的RNA模型对28个卵巢癌患者HRD状态预测的准确性
3.WES+RNA综合模型的建立
综合WES+RNA数据的HRD评估系统包括2个部分,即基于SBS3突变特征指数的判定和基于以WES score和RNA score为参数的逻辑回归模型。为了更好的评估模型的预测性能,模型的准确性估计使用交叉验证的方法。具体的,在每一次验证中,将数据集随机分成18例训练集和10例测试集两个部分,其中训练集至少包括HRD阴性2例,测试集至少包括HRD阴性1例。使用训练集训练模型,使用测试集评估模型预测性能,分别获得模型在训练集和测试集的准确率(正确预测/总预测数)(图9)。验证重复10次,10次结果的准确率的平均值作为对模型准确性的估计。结果显示,WES+RNA模型在10次验证中训练集和测试集的准确性均值分别达到0.92和0.85,且各次验证间的稳定性较好。最后,使用完整数据集作为训练集构建最终模型,最终模型为:
其中
η=-10.470683+9.637483×WES score+7.214411×RNA score
通过ROC分析获得HRD score判定HRD状态的最优阈值(图10)。表6展示综合WES和RNA数据的HRD状态判定规则。具体的,如果样本的SBS3特征指数>0.203,则判定为HRD阳性;如果SBS3的特征指数≤0.203,但HRD score>0.766,则判定为HRD阳性;否则,判定为HRD阴性。表7展示本发明方法的WES+RNA综合模型对28个卵巢癌患者HRD状态预测的准确性。相较于仅使用WES或者RNA数据(表2和5),WES+RNA综合模型具有更高的准确率。
表6.HRD状态判定对照表
表7.本发明方法的WES+RNA模型对28个卵巢癌患者HRD状态预测的准确性
实施例2使用实施例1建立的方法对28例卵巢癌患者的HRD进行预测
收集了一组已知HRD状态的28例卵巢癌患者的肿瘤样本,其中,27例拥有WES数据,11例拥有RNA数据,其中的10例同时有WES和RNA数据,用于检验本发明的性能。
通过分析28例肿瘤样本的WES和/或RNAseq数据,获得BRCA1/2基因突变情况、基因组突变特征和/或特定基因集表达特征等。使用实施例1建立的模型,对28例受试者的HRD状态进行预测(表8-11)。结果显示,本发明方法的3个模型对独立于训练集的卵巢癌患者的HRD状态预测仍具有很高的准确性。特别的,本发明方法的WES+RNA综合模型和RNA模型均准确地预测带有BRCA1/2致病性变异的患者(编号10和14)为HRD阳性,且WES模型对BRCA1/2致病突变患者也有较高的正确预测率,说明本发明方法有效性,且能不受限于BRCA1/2基因变异数据库的注释信息。
表8.利用本发明方法对28例卵巢癌患者的HRD状态预测结果
编号 | BRCA1/2 | HRD参考状态 | WES模型 | RNA模型 | WES+RNA综合模型 |
1 | 阴性 | 阴性 | 阴性 | 阴性 | 阴性 |
2 | 阴性 | 阴性 | 阴性 | 阳性 | 阳性 |
3 | 阴性 | 阳性 | 阴性 | 阳性 | 阳性 |
4 | 阴性 | 阴性 | 阳性 | 阴性 | 阴性 |
5 | 阴性 | 阴性 | |||
6 | 致病性变异 | 阳性 | 阳性 | ||
7 | 阴性 | 阳性 | 阳性 | ||
8 | 意义未明变异 | 阴性 | 阴性 | 阴性 | 阴性 |
9 | 阴性 | 阴性 | 阴性 | 阴性 | 阴性 |
10 | 致病性变异 | 阳性 | 阴性 | 阳性 | 阳性 |
11 | 阴性 | 阳性 | 阴性 | 阳性 | 阳性 |
12 | 意义未明变异 | 阳性 | 阳性 | ||
13 | 阴性 | 阳性 | 阴性 | 阳性 | 阳性 |
14 | 致病性变异 | 阳性 | 阴性 | 阳性 | 阳性 |
15 | 致病性变异 | 阳性 | 阳性 | ||
16 | 阴性 | 阴性 | 阴性 | ||
17 | 致病性变异 | 阳性 | 阳性 | ||
18 | 阴性 | 阴性 | 阳性 | ||
19 | 阴性 | 阳性 | 阴性 | ||
20 | 致病性变异 | 阳性 | 阳性 | ||
21 | 阴性 | 阴性 | 阴性 | ||
22 | 阴性 | 阴性 | 阴性 | ||
23 | 意义未明变异 | 阳性 | 阳性 | ||
24 | 阴性 | 阴性 | 阴性 | ||
25 | 阴性 | 阴性 | 阴性 | ||
26 | 阴性 | 阴性 | 阴性 | ||
27 | 阴性 | 阴性 | 阴性 | ||
28 | 阴性 | 阴性 | 阴性 |
表9.利用本发明方法WES模型对27例卵巢癌患者HRD状态预测准确性
表10.利用本发明方法RNA模型对11例卵巢癌患者HRD状态预测准确性
表11.利用本发明方法WES+RNA模型对10例卵巢癌患者HRD状态预测准确性
参考文献
[1]Jayson,G.C.,et al.,Ovarian cancer.Lancet,2014.384(9951):p.1376-88.
[2]Walter,A.,et al.,Gemogenovatucel-T(Vigil)maintenanceimmunotherapy:3-year survival benefit in homologous recombination proficient(HRP)ovarian cancer.Gynecol Oncol,2021.163(3):p.459-464.
[3]Jelovac,D.and D.K.Armstrong,Recent progress in the diagnosis andtreatment of ovarian cancer.CA Cancer J Clin,2011.61(3):p.183-203.
[4]Gogineni,V.,et al.,Current Ovarian Cancer Maintenance Strategiesand Promising New Developments.J Cancer,2021.12(1):p.38-53.
[5]Siegel,R.L.,et al.,Cancer Statistics,2021.CA Cancer J Clin,2021.71(1):p.7-33.
[6]Farmer H,McCabe N,Lord C J,et al.Targeting the DNA repair defectin BRCA mutant cells as a therapeutic strategy[J].Nature,2005,434(7035):917-921.
[7]KUCHENBAECKER K B,HOPPER J L,BARNES D R,et al.Risks of breast,ovarian,and contralateral breast cancer forBRCA1 andBRCA2 mutation carriers[J].JAMA,2017,317(23):2402-2416.
[8]FRIMERM,LEVANO K S,RODRIGUEZ-GABIN A,et al.Germline mutationsofthe DNA repair pathways inuterine serous carcinoma[J].Gynecol Oncol,2016,141(1):101-107.
[9]ABKEVICH V,TIMMS K M,HENNESSY B T,et al.Patterns of genomic lossof heterozygosity predict homologous recombinationrepair defects inepithelial ovarian cancer[J].Br J Cancer,2012,107(10):1776-1782.
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
Claims (10)
1.一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型方法,其特征在于,所述分型方法包括基于全外显子测序(WES)数据构建的WES模型,基于转录组测序(RNA-seq)数据构建的RNA模型,以及结合全外显子和转录组测序数据构建的WES+RNA综合模型。
2.根据权利要求1所述的卵巢癌HRD分型方法,其特征在于,所述WES模型分析流程包括以下步骤:
A1:二代测序;
A2:数据质控;
A3:序列比对;
A4:突变检测、过滤和注释;
A5:突变特征分析;
A6:HRD状态评估。
3.根据权利要求2所述的卵巢癌HRD分型方法,其特征在于,所述步骤A4中的突变过滤条件包括基于正常样本库以及公共数据库gnomAD胚系变异过滤以及基于测序深度、正负链比、变异支持序列数、突变频率和基因组黑名单区域的低质量变异过滤;所述步骤A6中的HRD评估包括基于SBS3突变特征指数的判断和基于以ID6和ID8为参数的逻辑回归模型两个部分,其中,基于ID6和ID8突变特征指数的模型为:
其中,
η=-0.4261594+4.9839447×ID6特征指数+5.8571149×ID8特征指数
其中,符合下列条件之一的样本将被判定为HRD阳性:(1)SBS3突变特征指数>0.203;(2)WES score>0.832。
4.根据权利要求1所述的卵巢癌HRD分型方法,其特征在于,所述RNA模型分析流程包括以下步骤:
B1:二代测序;
B2:数据质控;
B3:序列比对;
B4:基因表达定量;
B5:特定基因集表达特征分析;
B6:HRD状态评估。
5.根据权利要求4所述的卵巢癌HRD分型方法,其特征在于,所述步骤B5中的基因表达特征分析为对特定基因集的表达特征指数计算;所述特征基因集包括上调基因集与下调基因集,
其中上调基因集包含以下基因:
ENSG00000031544(NR2E3),ENSG00000060709(RIMBP2),
ENSG00000074211(PPP2R2C),ENSG00000112936(C7),
ENSG00000118729(CASQ2),ENSG00000124491(F13A1),
ENSG00000124493(GRM4),ENSG00000126583(PRKCG),
ENSG00000134569(LRP4),ENSG00000135472(FAIM2),
ENSG00000135960(EDAR),ENSG00000140297(GCNT3),
ENSG00000142623(PADI1),ENSG00000143001(TMEM61),
ENSG00000143171(RXRG),ENSG00000143631(FLG),
ENSG00000154263(ABCA10),ENSG00000162344(FGF19),
ENSG00000163283(ALPP),ENSG00000165376(CLDN2),
ENSG00000167210(LOXHD1),ENSG00000167580(AQP2),
ENSG00000170579(DLGAP1),ENSG00000171551(ECEL1),
ENSG00000172927(MYEOV),ENSG00000173714(WFIKKN2),
ENSG00000181449(SOX2),ENSG00000186895(FGF3),
ENSG00000187537(POTEM),ENSG00000187627(RGPD1),
ENSG00000196226(HIST1H2BB),ENSG00000197915(HRNR),
ENSG00000205038(PKHD1L1),ENSG00000205238(SPDYE2),
ENSG00000205277(MUC12),ENSG00000242384(TBC1D3H);
其中下调基因集包括下列基因:
ENSG00000066248(NGEF),ENSG00000102683(SGCG),
ENSG00000107317(PTGDS),ENSG00000110328(GALNT18),
ENSG00000112319(EYA4),ENSG00000115507(OTX1),
ENSG00000122012(SV2C),ENSG00000130700(GATA5),
ENSG00000133937(GSC),ENSG00000137878(GCOM1),
ENSG00000147573(TRIM55),ENSG00000158008(EXTL1),
ENSG00000159871(LYPD5),ENSG00000164120(HPGD),
ENSG00000166106(ADAMTS15),ENSG00000166923(GREM1),
ENSG00000168546(GFRA2),ENSG00000169218(RSPO1),
ENSG00000197467(COL13A1),ENSG00000198729(PPP1R14C),
ENSG00000241644(INMT);
所述步骤B6中的HRD评估基于以特定基因集的表达特征指数为参数的逻辑回归模型:
其中,
η=11.90860+14.74870×上调基因集表达特征指数-20.03622×下调基因集表达特征指数
其中,符合条件RNA score>0.877的样本将被判定为HRD阳性。
6.根据权利要求1所述的卵巢癌HRD分型方法,其特征在于,所述WES+RNA综合模型的分析流程包括以下步骤:
C1:权利要求2所述的步骤A1-A6;
C2:权利要求4所述的步骤B1-B6;
C3:HRD评估。
7.根据权利要求6所述的卵巢癌HRD分型方法,其特征在于,所述步骤C3中的HRD评估包括基于SBS3突变特征指数的判断和基于以步骤C1和C2计算得到的WES score和RNA score为参数的逻辑回归模型两个部分,其中,基于WES score和RNA score的模型为:
其中,
η=-10.470683+9.637483×WES score+7.214411×RNA score
其中,符合下列条件之一的样本将被判定为HRD阳性:(1)SBS3突变特征指数>0.203;(2)HRD score>0.766。
8.根据权利要求1-7任一所述的卵巢癌HRD分型方法,其特征在于,基于输入数据类型,预测HRD状态。
9.一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型系统,其特征在于,所述系统基于权利要求1-7任一项所述的卵巢癌HRD分型方法;所述系统仅需输入肿瘤样本WES原始测序数据和/或RNA-seq原始测序数据;所述系统输出为该样本预测的HRD状态。
10.权利要求1-7任一所述的卵巢癌HRD分型方法在制备评估HRD状态的产品中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310741958.5A CN116741272A (zh) | 2023-06-21 | 2023-06-21 | 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310741958.5A CN116741272A (zh) | 2023-06-21 | 2023-06-21 | 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116741272A true CN116741272A (zh) | 2023-09-12 |
Family
ID=87902592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310741958.5A Pending CN116741272A (zh) | 2023-06-21 | 2023-06-21 | 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116741272A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117672502A (zh) * | 2024-01-31 | 2024-03-08 | 中国医学科学院北京协和医院 | 一种mrkh综合征的预测方法、系统和设备 |
-
2023
- 2023-06-21 CN CN202310741958.5A patent/CN116741272A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117672502A (zh) * | 2024-01-31 | 2024-03-08 | 中国医学科学院北京协和医院 | 一种mrkh综合征的预测方法、系统和设备 |
CN117672502B (zh) * | 2024-01-31 | 2024-05-03 | 中国医学科学院北京协和医院 | 一种mrkh综合征的预测方法、系统和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210025011A1 (en) | Methylation markers and targeted methylation probe panel | |
JP6931013B2 (ja) | 癌関連の遺伝子または分子異常の検出 | |
CN106947830B (zh) | 用于诊断、预测肝癌疗效和预后的基因甲基化面板 | |
AU2019351130A1 (en) | Methylation markers and targeted methylation probe panel | |
CN109897899B (zh) | 一种用于局部晚期食管鳞癌预后判断的标志物及其应用 | |
Sinha et al. | Higher prevalence of homologous recombination deficiency in tumors from African Americans versus European Americans | |
CN112735513B (zh) | 基于dna甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法 | |
WO2015171457A1 (en) | Methods of identifying biomarkers associated with or causative of the progression of disease, in particular for use in prognosticating primary open angle glaucoma | |
CN107586852B (zh) | 基于22个基因的胃癌腹膜转移预测模型及其应用 | |
CN112442540B (zh) | 微卫星不稳定性检测方法、标志物组合、试剂盒及应用 | |
CN114026254A (zh) | 侦测癌症、癌症来源组织及/或一癌症细胞类型 | |
CN115418401A (zh) | 用于膀胱癌的尿监测的诊断测定 | |
JP2024119880A (ja) | 合成トレーニングサンプルによるがん分類 | |
WO2020077095A1 (en) | tRNA-DERIVED FRAGMENTS AS BIOMARKERS FOR PARKINSON'S DISEASE | |
CN116741272A (zh) | 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 | |
CN114334147A (zh) | 组合的stat信号通路相关基因在结直肠癌预后模型中的应用 | |
CN117603982B (zh) | 肌萎缩侧索硬化症的SQSTM1的p.P374TfsTer18突变致病基因及其应用 | |
CN112037863B (zh) | 一种早期nsclc预后预测系统 | |
Zeng et al. | Comprehensive molecular characterization of Chinese patients with glioma by extensive next-generation sequencing panel analysis | |
CN113782087B (zh) | 一种慢性淋巴细胞白血病sscr风险模型及其建立方法和应用 | |
CN113736879B (zh) | 用于小细胞肺癌患者预后的系统及其应用 | |
WO2022231449A1 (en) | Circulating noncoding rnas as a signature of autism spectrum disorder symptomatology | |
CN114724631A (zh) | 染色体拷贝数变异程度评估模型、方法及应用 | |
CN108342483B (zh) | 一组用于非超突变型结直肠癌分子分型的基因及其应用 | |
EP4018003A1 (en) | Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |