JP2023511368A - 低分子rna疾患分類器 - Google Patents
低分子rna疾患分類器 Download PDFInfo
- Publication number
- JP2023511368A JP2023511368A JP2022544274A JP2022544274A JP2023511368A JP 2023511368 A JP2023511368 A JP 2023511368A JP 2022544274 A JP2022544274 A JP 2022544274A JP 2022544274 A JP2022544274 A JP 2022544274A JP 2023511368 A JP2023511368 A JP 2023511368A
- Authority
- JP
- Japan
- Prior art keywords
- disease
- srna
- biological
- samples
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 207
- 201000010099 disease Diseases 0.000 title claims abstract description 200
- 108091032955 Bacterial small RNA Proteins 0.000 title abstract description 341
- 238000000034 method Methods 0.000 claims abstract description 134
- 238000010801 machine learning Methods 0.000 claims abstract description 50
- 239000000523 sample Substances 0.000 claims description 122
- 108020004566 Transfer RNA Proteins 0.000 claims description 119
- 238000012549 training Methods 0.000 claims description 66
- 238000012163 sequencing technique Methods 0.000 claims description 48
- 201000009794 Idiopathic Pulmonary Fibrosis Diseases 0.000 claims description 37
- 208000036971 interstitial lung disease 2 Diseases 0.000 claims description 37
- 239000012472 biological sample Substances 0.000 claims description 29
- 210000001519 tissue Anatomy 0.000 claims description 23
- 238000012706 support-vector machine Methods 0.000 claims description 22
- 108090000623 proteins and genes Proteins 0.000 claims description 21
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 20
- 208000011231 Crohn disease Diseases 0.000 claims description 16
- 238000003753 real-time PCR Methods 0.000 claims description 15
- 206010028980 Neoplasm Diseases 0.000 claims description 14
- 238000003556 assay Methods 0.000 claims description 13
- 208000024891 symptom Diseases 0.000 claims description 13
- 238000009966 trimming Methods 0.000 claims description 13
- 206010009900 Colitis ulcerative Diseases 0.000 claims description 12
- 201000006704 Ulcerative Colitis Diseases 0.000 claims description 12
- 210000004369 blood Anatomy 0.000 claims description 12
- 239000008280 blood Substances 0.000 claims description 12
- 239000003814 drug Substances 0.000 claims description 12
- 201000006417 multiple sclerosis Diseases 0.000 claims description 12
- 230000035945 sensitivity Effects 0.000 claims description 12
- 206010013554 Diverticulum Diseases 0.000 claims description 11
- 229940079593 drug Drugs 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 238000001574 biopsy Methods 0.000 claims description 10
- 201000011510 cancer Diseases 0.000 claims description 10
- 210000004027 cell Anatomy 0.000 claims description 10
- 150000007523 nucleic acids Chemical class 0.000 claims description 10
- 238000000513 principal component analysis Methods 0.000 claims description 10
- 102000039446 nucleic acids Human genes 0.000 claims description 9
- 108020004707 nucleic acids Proteins 0.000 claims description 9
- 230000037361 pathway Effects 0.000 claims description 9
- 210000002381 plasma Anatomy 0.000 claims description 9
- 210000002966 serum Anatomy 0.000 claims description 9
- 239000007787 solid Substances 0.000 claims description 9
- 208000024827 Alzheimer disease Diseases 0.000 claims description 8
- 206010012289 Dementia Diseases 0.000 claims description 8
- 208000023105 Huntington disease Diseases 0.000 claims description 8
- 208000018737 Parkinson disease Diseases 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 8
- 208000029078 coronary artery disease Diseases 0.000 claims description 7
- 230000001225 therapeutic effect Effects 0.000 claims description 7
- 208000024172 Cardiovascular disease Diseases 0.000 claims description 6
- 239000013060 biological fluid Substances 0.000 claims description 6
- 210000001175 cerebrospinal fluid Anatomy 0.000 claims description 6
- 208000002320 spinal muscular atrophy Diseases 0.000 claims description 6
- 201000000596 systemic lupus erythematosus Diseases 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000004770 neurodegeneration Effects 0.000 claims description 5
- 206010007559 Cardiac failure congestive Diseases 0.000 claims description 4
- 208000016192 Demyelinating disease Diseases 0.000 claims description 4
- 206010061818 Disease progression Diseases 0.000 claims description 4
- 206010016654 Fibrosis Diseases 0.000 claims description 4
- 206010019280 Heart failures Diseases 0.000 claims description 4
- 201000002832 Lewy body dementia Diseases 0.000 claims description 4
- 230000001154 acute effect Effects 0.000 claims description 4
- 206010002026 amyotrophic lateral sclerosis Diseases 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 230000005750 disease progression Effects 0.000 claims description 4
- 210000001808 exosome Anatomy 0.000 claims description 4
- 230000004761 fibrosis Effects 0.000 claims description 4
- 208000026278 immune system disease Diseases 0.000 claims description 4
- 208000027866 inflammatory disease Diseases 0.000 claims description 4
- 230000002757 inflammatory effect Effects 0.000 claims description 4
- 208000015122 neurodegenerative disease Diseases 0.000 claims description 4
- 201000002212 progressive supranuclear palsy Diseases 0.000 claims description 4
- 208000026872 Addison Disease Diseases 0.000 claims description 3
- 208000023328 Basedow disease Diseases 0.000 claims description 3
- 208000031229 Cardiomyopathies Diseases 0.000 claims description 3
- 206010062746 Carditis Diseases 0.000 claims description 3
- 208000015943 Coeliac disease Diseases 0.000 claims description 3
- 208000002330 Congenital Heart Defects Diseases 0.000 claims description 3
- 206010067889 Dementia with Lewy bodies Diseases 0.000 claims description 3
- 208000001640 Fibromyalgia Diseases 0.000 claims description 3
- 201000011240 Frontotemporal dementia Diseases 0.000 claims description 3
- 208000015023 Graves' disease Diseases 0.000 claims description 3
- 208000009525 Myocarditis Diseases 0.000 claims description 3
- 208000003435 Optic Neuritis Diseases 0.000 claims description 3
- 201000004681 Psoriasis Diseases 0.000 claims description 3
- 206010039710 Scleroderma Diseases 0.000 claims description 3
- 208000021386 Sjogren Syndrome Diseases 0.000 claims description 3
- 208000006011 Stroke Diseases 0.000 claims description 3
- 201000004810 Vascular dementia Diseases 0.000 claims description 3
- 206010047249 Venous thrombosis Diseases 0.000 claims description 3
- 208000007474 aortic aneurysm Diseases 0.000 claims description 3
- 206010003119 arrhythmia Diseases 0.000 claims description 3
- 201000004988 autoimmune vasculitis Diseases 0.000 claims description 3
- 210000003169 central nervous system Anatomy 0.000 claims description 3
- 208000015114 central nervous system disease Diseases 0.000 claims description 3
- 208000025302 chronic primary adrenal insufficiency Diseases 0.000 claims description 3
- 208000010877 cognitive disease Diseases 0.000 claims description 3
- 208000028831 congenital heart disease Diseases 0.000 claims description 3
- 210000004748 cultured cell Anatomy 0.000 claims description 3
- 206010012601 diabetes mellitus Diseases 0.000 claims description 3
- 208000018578 heart valve disease Diseases 0.000 claims description 3
- 208000015210 hypertensive heart disease Diseases 0.000 claims description 3
- 208000021646 inflammation of heart layer Diseases 0.000 claims description 3
- 231100000875 loss of motor control Toxicity 0.000 claims description 3
- 208000027061 mild cognitive impairment Diseases 0.000 claims description 3
- 208000010125 myocardial infarction Diseases 0.000 claims description 3
- 208000008795 neuromyelitis optica Diseases 0.000 claims description 3
- 230000004043 responsiveness Effects 0.000 claims description 3
- 210000003296 saliva Anatomy 0.000 claims description 3
- 206010043778 thyroiditis Diseases 0.000 claims description 3
- 210000002700 urine Anatomy 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 206010059866 Drug resistance Diseases 0.000 claims description 2
- 206010003246 arthritis Diseases 0.000 claims description 2
- 201000010901 lateral sclerosis Diseases 0.000 claims description 2
- 208000005264 motor neuron disease Diseases 0.000 claims description 2
- 210000003205 muscle Anatomy 0.000 claims description 2
- 206010028417 myasthenia gravis Diseases 0.000 claims description 2
- 210000000056 organ Anatomy 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 238000007637 random forest analysis Methods 0.000 claims description 2
- 206010039073 rheumatoid arthritis Diseases 0.000 claims description 2
- 208000005764 Peripheral Arterial Disease Diseases 0.000 claims 2
- 208000030831 Peripheral arterial occlusive disease Diseases 0.000 claims 2
- 238000013517 stratification Methods 0.000 claims 2
- 208000009174 transverse myelitis Diseases 0.000 claims 2
- 208000009829 Lewy Body Disease Diseases 0.000 claims 1
- 208000025747 Rheumatic disease Diseases 0.000 claims 1
- 206010003549 asthenia Diseases 0.000 claims 1
- 208000016691 refractory malignant neoplasm Diseases 0.000 claims 1
- 230000000552 rheumatic effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 29
- 239000002773 nucleotide Substances 0.000 description 28
- 125000003729 nucleotide group Chemical group 0.000 description 28
- 239000002679 microRNA Substances 0.000 description 24
- 108091070501 miRNA Proteins 0.000 description 22
- 108700011259 MicroRNAs Proteins 0.000 description 21
- 238000012360 testing method Methods 0.000 description 20
- 238000001514 detection method Methods 0.000 description 18
- 238000013459 approach Methods 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 108010029485 Protein Isoforms Proteins 0.000 description 12
- 102000001708 Protein Isoforms Human genes 0.000 description 12
- 239000000090 biomarker Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 12
- 208000022559 Inflammatory bowel disease Diseases 0.000 description 11
- 108091027558 IsomiR Proteins 0.000 description 11
- 230000008236 biological pathway Effects 0.000 description 11
- 108020004414 DNA Proteins 0.000 description 10
- 238000013507 mapping Methods 0.000 description 10
- 238000002360 preparation method Methods 0.000 description 10
- 239000012634 fragment Substances 0.000 description 9
- 230000035772 mutation Effects 0.000 description 9
- 230000002085 persistent effect Effects 0.000 description 8
- 108091034117 Oligonucleotide Proteins 0.000 description 7
- 230000003321 amplification Effects 0.000 description 7
- 230000008436 biogenesis Effects 0.000 description 7
- 238000009396 hybridization Methods 0.000 description 7
- 238000007481 next generation sequencing Methods 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 238000007621 cluster analysis Methods 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 6
- 230000009266 disease activity Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 230000005257 nucleotidylation Effects 0.000 description 6
- 230000007170 pathology Effects 0.000 description 6
- JCLFHZLOKITRCE-UHFFFAOYSA-N 4-pentoxyphenol Chemical compound CCCCCOC1=CC=C(O)C=C1 JCLFHZLOKITRCE-UHFFFAOYSA-N 0.000 description 5
- 206010009944 Colon cancer Diseases 0.000 description 5
- 238000012167 Small RNA sequencing Methods 0.000 description 5
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 5
- 230000000112 colonic effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 208000035475 disorder Diseases 0.000 description 5
- 210000000981 epithelium Anatomy 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 210000004072 lung Anatomy 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 238000010839 reverse transcription Methods 0.000 description 5
- 108020004418 ribosomal RNA Proteins 0.000 description 5
- 238000002560 therapeutic procedure Methods 0.000 description 5
- 101150104383 ALOX5AP gene Proteins 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 4
- 101100236114 Mus musculus Lrrfip1 gene Proteins 0.000 description 4
- 238000003149 assay kit Methods 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 102000054765 polymorphisms of proteins Human genes 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000011285 therapeutic regimen Methods 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 238000011269 treatment regimen Methods 0.000 description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 3
- 206010061218 Inflammation Diseases 0.000 description 3
- 108091030146 MiRBase Proteins 0.000 description 3
- 238000012408 PCR amplification Methods 0.000 description 3
- 229910019142 PO4 Inorganic materials 0.000 description 3
- 108091007412 Piwi-interacting RNA Proteins 0.000 description 3
- 206010044565 Tremor Diseases 0.000 description 3
- 230000001594 aberrant effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 238000005054 agglomeration Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000002820 assay format Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 239000002299 complementary DNA Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000008482 dysregulation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001747 exhibiting effect Effects 0.000 description 3
- 206010016256 fatigue Diseases 0.000 description 3
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 3
- 230000004054 inflammatory process Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 235000021317 phosphate Nutrition 0.000 description 3
- 208000015768 polyposis Diseases 0.000 description 3
- 239000002243 precursor Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 108020003215 DNA Probes Proteins 0.000 description 2
- 239000003298 DNA probe Substances 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 2
- 108090000652 Flap endonucleases Proteins 0.000 description 2
- 102000004150 Flap endonucleases Human genes 0.000 description 2
- 208000016285 Movement disease Diseases 0.000 description 2
- 206010028289 Muscle atrophy Diseases 0.000 description 2
- 108020005187 Oligonucleotide Probes Proteins 0.000 description 2
- 108091034145 PolymiRTS Proteins 0.000 description 2
- 208000037062 Polyps Diseases 0.000 description 2
- 238000002123 RNA extraction Methods 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 2
- 208000015634 Rectal Neoplasms Diseases 0.000 description 2
- 108020003224 Small Nucleolar RNA Proteins 0.000 description 2
- 102000042773 Small Nucleolar RNA Human genes 0.000 description 2
- 108020004459 Small interfering RNA Proteins 0.000 description 2
- 208000025865 Ulcer Diseases 0.000 description 2
- 108091034135 Vault RNA Proteins 0.000 description 2
- 206010000269 abscess Diseases 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 108010041758 cleavase Proteins 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- BFMYDTVEBKDAKJ-UHFFFAOYSA-L disodium;(2',7'-dibromo-3',6'-dioxido-3-oxospiro[2-benzofuran-1,9'-xanthene]-4'-yl)mercury;hydrate Chemical compound O.[Na+].[Na+].O1C(=O)C2=CC=CC=C2C21C1=CC(Br)=C([O-])C([Hg])=C1OC1=C2C=C(Br)C([O-])=C1 BFMYDTVEBKDAKJ-UHFFFAOYSA-L 0.000 description 2
- 229940000406 drug candidate Drugs 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001839 endoscopy Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002866 fluorescence resonance energy transfer Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 238000005194 fractionation Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 208000002551 irritable bowel syndrome Diseases 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000036210 malignancy Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000010534 mechanism of action Effects 0.000 description 2
- 201000000585 muscular atrophy Diseases 0.000 description 2
- 208000004235 neutropenia Diseases 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 239000002751 oligonucleotide probe Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 239000013610 patient sample Substances 0.000 description 2
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 2
- 239000010452 phosphate Substances 0.000 description 2
- 238000007859 qualitative PCR Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 206010038038 rectal cancer Diseases 0.000 description 2
- 201000001275 rectum cancer Diseases 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 238000003757 reverse transcription PCR Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000002198 surface plasmon resonance spectroscopy Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 230000036269 ulceration Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 108091093088 Amplicon Proteins 0.000 description 1
- 102000013455 Amyloid beta-Peptides Human genes 0.000 description 1
- 108010090849 Amyloid beta-Peptides Proteins 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 208000006820 Arthralgia Diseases 0.000 description 1
- 208000020925 Bipolar disease Diseases 0.000 description 1
- 102000004506 Blood Proteins Human genes 0.000 description 1
- 108010017384 Blood Proteins Proteins 0.000 description 1
- 208000006386 Bone Resorption Diseases 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 206010010774 Constipation Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 206010012305 Demyelination Diseases 0.000 description 1
- 208000012239 Developmental disease Diseases 0.000 description 1
- 206010012735 Diarrhoea Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 108700039887 Essential Genes Proteins 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 108060002716 Exonuclease Proteins 0.000 description 1
- 102000010834 Extracellular Matrix Proteins Human genes 0.000 description 1
- 108010037362 Extracellular Matrix Proteins Proteins 0.000 description 1
- 208000004930 Fatty Liver Diseases 0.000 description 1
- 208000005577 Gastroenteritis Diseases 0.000 description 1
- 206010064147 Gastrointestinal inflammation Diseases 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 229920002527 Glycogen Polymers 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 206010019708 Hepatic steatosis Diseases 0.000 description 1
- 206010063629 Hippocampal sclerosis Diseases 0.000 description 1
- 208000035150 Hypercholesterolemia Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000001953 Hypotension Diseases 0.000 description 1
- 206010022489 Insulin Resistance Diseases 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 208000024556 Mendelian disease Diseases 0.000 description 1
- 108091033317 MiRTarBase Proteins 0.000 description 1
- 208000000112 Myalgia Diseases 0.000 description 1
- 206010028527 Myelitis transverse Diseases 0.000 description 1
- 206010028851 Necrosis Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 208000034038 Pathologic Neovascularization Diseases 0.000 description 1
- 238000010802 RNA extraction kit Methods 0.000 description 1
- 101710188535 RNA ligase 2 Proteins 0.000 description 1
- 101710204104 RNA-editing ligase 2, mitochondrial Proteins 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 102000039471 Small Nuclear RNA Human genes 0.000 description 1
- 108010006785 Taq Polymerase Proteins 0.000 description 1
- 108091093130 Toxic Small RNA Proteins 0.000 description 1
- 206010047115 Vasculitis Diseases 0.000 description 1
- 206010047139 Vasoconstriction Diseases 0.000 description 1
- 108091029474 Y RNA Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000003872 anastomosis Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005784 autoimmunity Effects 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 125000002619 bicyclic group Chemical group 0.000 description 1
- 230000010072 bone remodeling Effects 0.000 description 1
- 230000024279 bone resorption Effects 0.000 description 1
- 238000013276 bronchoscopy Methods 0.000 description 1
- 238000010804 cDNA synthesis Methods 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 230000009400 cancer invasion Effects 0.000 description 1
- 229910002091 carbon monoxide Inorganic materials 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000007211 cardiovascular event Effects 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000030570 cellular localization Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 208000020832 chronic kidney disease Diseases 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012321 colectomy Methods 0.000 description 1
- 238000002052 colonoscopy Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000007857 degradation product Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 208000016097 disease of metabolism Diseases 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 206010013663 drug dependence Diseases 0.000 description 1
- 230000009144 enzymatic modification Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 102000013165 exonuclease Human genes 0.000 description 1
- 210000002744 extracellular matrix Anatomy 0.000 description 1
- 208000010706 fatty liver disease Diseases 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 238000010363 gene targeting Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 239000003365 glass fiber Substances 0.000 description 1
- 229940096919 glycogen Drugs 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 238000007417 hierarchical cluster analysis Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000010562 histological examination Methods 0.000 description 1
- 230000007062 hydrolysis Effects 0.000 description 1
- 238000006460 hydrolysis reaction Methods 0.000 description 1
- 208000011953 hyperplastic polyposis syndrome Diseases 0.000 description 1
- 230000036543 hypotension Effects 0.000 description 1
- 208000009326 ileitis Diseases 0.000 description 1
- 238000007455 ileostomy Methods 0.000 description 1
- 210000003405 ileum Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000004199 lung function Effects 0.000 description 1
- 230000035168 lymphangiogenesis Effects 0.000 description 1
- 230000002132 lysosomal effect Effects 0.000 description 1
- ADKOXSOCTOWDOP-UHFFFAOYSA-L magnesium;aluminum;dihydroxide;trihydrate Chemical compound O.O.O.[OH-].[OH-].[Mg+2].[Al] ADKOXSOCTOWDOP-UHFFFAOYSA-L 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 238000012775 microarray technology Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000004001 molecular interaction Effects 0.000 description 1
- 208000013465 muscle pain Diseases 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 230000011164 ossification Effects 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 208000030613 peripheral artery disease Diseases 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 150000003013 phosphoric acid derivatives Chemical class 0.000 description 1
- 229920002401 polyacrylamide Polymers 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 208000014081 polyp of colon Diseases 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 239000004055 small Interfering RNA Substances 0.000 description 1
- 108091029842 small nuclear ribonucleic acid Proteins 0.000 description 1
- -1 small rRNAs (srRNAs) Proteins 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000012421 spiking Methods 0.000 description 1
- 108010068698 spleen exonuclease Proteins 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 231100000240 steatosis hepatitis Toxicity 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 208000011117 substance-related disease Diseases 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 238000011277 treatment modality Methods 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
- 230000008728 vascular permeability Effects 0.000 description 1
- 230000025033 vasoconstriction Effects 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/178—Oligonucleotides characterized by their use miRNA, siRNA or ncRNA
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Immunology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Hospice & Palliative Care (AREA)
- Data Mining & Analysis (AREA)
- Oncology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
Abstract
本開示は、1つ以上の異なる生物学的状態または1つ以上の疾患サブタイプについて対象を評価するための疾患分類器を構築するための方法を提供する。本発明は、発見試料セットの配列データから候補低分子RNA(sRNA)配列を特定することを含む。発見試料セットにわたる候補sRNA配列(各々個別に入手されたもの)の存在または存在量は、目的とする生物学的状態を予測し(例えば、他の異なる生物学的状態または非疾患対照に対して)、これらの候補sRNA配列が本開示の実施形態に従ってさらにフィルタリングまたは選択される。その後、機械学習技法が適用されて、複数疾患分類器を含む疾患分類器を構築及びトレーニングする。トレーニングされた分類器を使用して、新たな試料を分類する、例えば、疾患について患者を評価することができる。
Description
優先権
本出願は、参照により全体が本明細書に組み込まれる2020年1月22日に出願された特許仮出願第62/964,412号の利益を主張するものである。
本出願は、参照により全体が本明細書に組み込まれる2020年1月22日に出願された特許仮出願第62/964,412号の利益を主張するものである。
複雑な疾患における診断法及び治療法の進歩は、限られた成功しか収めていない。メンデル型遺伝病とは対照的に、複雑な疾患は、多くの場合、単一遺伝子変異によって引き起こされない表現型として定義される。複雑な疾患は、多数の遺伝的事象によって引き起こされる可能性があり、これは、罹患した個体によって異なる場合があり、環境要因からの多大な寄与を含み得る。複雑な疾患の研究に対する従来のアプローチは、類似した表現型を有する患者を特定し、関連研究を使用して表現型に関する共通の原因遺伝的事象を特定しようと試みている。これらのアプローチは、例えば、表現型に関連する一塩基多型(SNP)などの遺伝子変異を特定することによって、DNAレベルで機能する。この古典的なアプローチは、限られた成功しか収めておらず、多くの高価な治験が有効性を示すことができておらず、これは、部分的には、基礎疾患が十分に特徴付けされていないまたは理解されていないままであるか、または確立されたまたは認識された疾患特徴付けとは異質のままであるためである。Jameson LJ et al.,Precision Medicine - Personalized,Problematic and Promising,NEJM 372:2229-2234(2015)、Lyman GH,at al.,Biomarker Tests for Molecularly Targeted Therapies - Laying the Foundation and Fulfilling the Dream,J.Clin.Oncol.34(17):2061-2066(2016)を参照されたい。
複雑な疾患をサブタイプ化するためのアプローチを含む、疾患を分類するための新たなアプローチが必要とされている。複雑な疾患を分類またはサブタイプ化するための正確な分子アプローチは、診断及び療法における大きなブレークスルーにつながり、次世代の患者ケアにつながる可能性がある。本発明は、これら及び他の目的を満たす。
本開示は、1つ以上の異なる生物学的状態または1つ以上の疾患サブタイプについて対象を評価するための疾患分類器を構築するための方法を提供する。本発明は、発見試料セットの配列データから候補低分子RNA(sRNA)配列を特定することを含む。発見試料セットにわたる候補sRNA配列(各々個別に入手されたもの)の存在または存在量は、目的とする生物学的状態を予測する(例えば、他の異なる生物学的状態または非疾患対照に対して)か、または疾患進行もしくは治療に対する反応を予測し、これらの候補sRNA配列が本開示の実施形態に従ってさらにフィルタリングまたは選択される。その後、機械学習技法が適用されて、疾患分類器、マルチクラス疾患分類器、及び異なる病状または疾患状態の分類器を含む分類器を構築及びトレーニングする。トレーニングされた分類器を使用して、新たな試料を分類する、例えば、疾患について患者を評価する、または治療的治療法に応答する疾患患者群を予測することができる。
いくつかの実施形態では、疾患分類器は、マルチクラス予測器である。例えば、マルチクラス予測器は、類似の臨床症状(例えば、認知症、運動障害など)とともに現れる可能性のある状態、及び/または類似の病理学的注釈(例えば、疾患ステージ、線維症、炎症など)を有する状態などの目的とする生物学的状態を区別し得る。発見セットにわたる候補sRNA配列、具体的には、それらのバイナリプロファイル(存在もしくは不在)または存在量レベルプロファイルは、本明細書により完全に記載されるように、様々な機械学習モデルを使用して疾患分類器を構築するために使用される。疾患分類器は、分子検出アッセイを使用して、または他の実施形態では、sRNA配列決定を使用して、1つ以上の疾患状態の存在について対象をスクリーニングまたは評価するために使用することができる。
いくつかの実施形態では、発見セットにおける候補sRNA配列の存在もしくは不在または存在量は、疾患サブタイプを特定または分類するために使用される。疾患サブタイプには、表現型が類似しているが、生物学的経路の異種の調節不全または異種のsRNA生物発生に起因し得る疾患が含まれる。異種のサブタイプは、治療的介入に異なる応答を示し得る。さらに、予測sRNA配列を標的遺伝子及びそれらの生物学的経路にマッピングすることにより、疾患サブタイプの異なる創薬可能な標的及び治療レジメンを解明することができる。疾患サブタイプ分類器は、患者を適切な治療レジメンと一致させるために個別化された医療用途で使用される。疾患サブタイプ分類器はさらに、治験薬の作用機序に応じて患者募集を調整するために臨床試験設計で使用される。
様々な実施形態では、本発明は、1つ以上の生物学的状態について対象を評価するための分類器を生成するための方法を提供する。本方法は、発見試料セットにわたって存在する異なるsRNA配列の編集を含むsRNA配列データを提供することと、候補sRNA配列であって、それらの存在もしくは不在または存在量(例えば、発現レベル)が目的とする生物学的状態の存在、不在、ステージ、または他の特徴と相関する、候補sRNA配列を選択することとを含む。これらの異なるsRNA変種(例えば、isomiR)は、参照配列または遺伝子座に基づいて統合されず、それ故に、miRNAを分析するための従来のアプローチとは異なる。発見試料セットは、概して、目的とする1つ以上の生物学的状態の存在または不在を表す試料を含み、非疾患対照をさらに含み得る。その後、分類器は、臨床表現型または病理学的ラベルを含む試料メタデータとともに、様々な機械学習モデルを使用して、例えば、トレーニングセットにわたる候補sRNA配列の存在もしくは不在、またはいくつかの実施形態では存在量を使用してトレーニングされる。この態様による分類器は、生物学的状態の存在及び/または不在について対象の試料を評価するためのsRNA特徴を含む。
様々な実施形態では、発見セット試料は、目的とする1つ以上の生物学的状態に対して陽性または陰性であるとラベル付けされる。かかる実施形態では、本発明は、教師あり機械学習モデルを使用して試料を分類するためのsRNAパネル及び特徴を特定することを含む。これらの実施形態では、本発明は、疾患の初期段階を含む同様の症状または病理を呈し得る生物学的状態を正確に分類するための分類器を提供する。例としては、とりわけ、認知症または振戦を呈するCNS障害及び胃腸炎を呈する障害が挙げられる。いくつかの異なる疾患状態にわたって共有され得る他の疾患表現型が本明細書の他の場所で提供される。
さらに他の実施形態では、発見セット試料は、複雑な疾患及び非疾患対照の試料を表す。例えば、複雑な疾患は、発見セットでラベル付けされていない1つ以上の疾患サブタイプを含み得る。いくつかの実施形態では、本明細書に記載の方法は、かかる疾患サブタイプを潜在的に初めて特定する。これらの実施形態では、本発明は、教師なしまたは半教師あり機械学習を使用して、かかる疾患サブタイプの存在または不在について試料を分類するためのsRNA特徴を特定する。したがって、試料をラベル付けするために代理マーカーが利用できない場合、または病理医の評価が異なる疾患サブタイプを区別するのに不十分な場合であっても、本発明による候補sRNA配列の存在もしくは不在または相対的存在量は、試料を分類するための驚くほど効果的な手段を提供する。いくつかの実施形態では、本明細書に記載の本発明は、さもなければ病理学的に類似しているとみなされる発見試料セットからこれらの疾患サブタイプを特定及び分類するために使用される。
機械学習を改善するために、トレーニングセット内のおよそ1億個の異なる配列であり得る異なるsRNA配列が、事前選択基準を使用して、数千個の候補sRNAにフィルタリングされる。候補sRNA配列は、それらの存在、不在、または存在量が目的とする生物学的状態の存在または不在と相関する程度に基づいて選択することができる。いくつかの実施形態では、少なくとも1つの候補sRNA配列は、目的とする生物学的状態に対して陽性である発見試料(例えば、トレーニングセット)にのみ存在し、他のすべての発見試料には不在である。いくつかの実施形態では、少なくとも1つの候補sRNA配列は、目的とする生物学的状態(例えば、非疾患対照または他の生物学的状態クラス)に対して陰性である発見試料(例えば、トレーニングセット)にのみ存在し、目的とする生物学的状態に対して陽性としてラベル付けされたすべての試料には不在である。様々な実施形態では、候補sRNA配列であって、それらの存在または不在によってトレーニングセットにおける目的とする生物学的状態を個別に予測する、候補sRNA配列が選択される。すなわち、候補sRNAは、トレーニングセット及び/または非疾患対照で表される他の生物学的状態に対して少なくとも1つの生物学的状態の存在または不在を決定するそれらの予測力について個別に選択された配列を含む。いくつかの実施形態では、候補sRNA配列は、それらの存在量(例えば、過剰または不足)が目的とする生物学的状態の存在または不在と相関する程度に基づいて、配列データから選択される。
いくつかの実施形態では、発見試料セットは、目的とする1つ以上の生物学的状態のステージ、グレード、または他の特徴についてさらにラベル付けされる。これらの実施形態では、候補sRNAであって、それらのリードカウントが、例えば、疾患ステージまたはグレードなどの疾患活動性と相関する、候補sRNAが選択され得る。例えば、疾患ステージまたはグレードが進行すると、より高いまたはより低いリードカウントを示す候補sRNA配列が選択され得る。すなわち、平均リードカウントは、疾患の後期段階で、またはより高い疾患活動性とともに増加または減少する。あるいは、疾患ステージが低下すると(例えば、処理群において)、処理された対象においてより低いまたはより高いリードカウントを示す候補sRNA配列を選択することができる。
様々な実施形態では、生物学的状態において増加した配列多様性を有するsRNAファミリー(例えば、同じシード配列を有するmiRNA)が特定される。これらのsRNAファミリー内のsRNAアイソフォームは、分類のための候補sRNA配列として選択される。例えば、いくつかの実施形態では、配列変異が、疾患状態において増加する、及び/または疾患状態の重症度とともに増加する、及び/または変異が治療レジメンに応答して正規化するか、または改善され得るsRNAファミリーが特定され得る。いくつかの実施形態では、機械学習のためのsRNAの事前選択は、同じシード配列を有するisomiRの選択に重きが置かれているか、またはエクソソーム内での存在(例えば、3’非鋳型ヌクレオチドの存在)に関連する変異を有するisomiRなどの他のsRNA特性に重きが置かれている。
SRNA特徴が選択された後、1つ以上の機械学習アプローチを使用して、機械学習分類器をトレーニングすることができる。いくつかの実施形態では、分類器は、候補sRNAのパネルの存在もしくは不在または存在量に基づいて、試験セットの試料を分類するように構成されている。パネルのサイズは、関連するクラスの数に依存する。例えば、パネルは、1~約50,000個のsRNA配列を含み得る。いくつかの実施形態では、パネルは、約4~約200個のsRNA配列を含む。いくつかの実施形態では、パネルの最大サイズを選択することができる(例えば、約100のsRNA)。いくつかの実施形態では、分類器は、例えば、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、ロジスティック回帰アルゴリズム、混合モデル、隠れマルコフモデル、またはニューラルネットワークアルゴリズムに基づく。
トレーニングされた機械学習分類器は、対象由来の生体試料中のパネルにおけるsRNAマーカーの存在もしくは不在または存在量を検出し、かつ分類器を適用することによって、疾患状態または疾患サブタイプ(生物学的状態)についての独立した対象の評価に使用することができる。生体試料は、試験される各クラスに関して計算される対応する確率または別の尺度を有する2つ以上のクラスに割り当てることができる。いくつかの事例では、ある特定の閾値を超える関連付けられた確率値を有する割り当てのみが、分類器によって提供され得る。さらに、いくつかの実施形態では、治療推奨またはレジメンは、対象の生体試料の分類の結果に基づいて生成することができる。
他の態様では、本発明は、1つ以上の疾患状態または疾患サブタイプについて対象を評価するための方法を提供する。様々な実施形態では、本方法は、対象の生体試料を提供し、sRNAパネルにおけるsRNAの存在もしくは不在または存在量を決定することを含む。その後、このsRNAプロファイルが、本開示により調製された疾患分類器を使用して1つ以上の疾患状態または疾患サブタイプ間で対象の状態を分類するために使用される。患者の状態または疾患サブタイプが特定された場合、患者を、疾患状態に適切な治療レジメンとマッチング(すなわち、それを投与)することができる、及び/または臨床試験に組み入れるまたは除外することができる。例えば、いくつかの実施形態では、患者は、調節不全または異常経路を標的とし、かつクラスタ分析に使用されるパネルにおける1つ以上のsRNA(例えば、miRNA)によって標的とされる経路に対応する療法を投与される。
様々な実施形態では、対象の試料中のsRNAの存在もしくは不在または存在量は、定量的PCRアッセイなどの分子診断アッセイによって決定される。例えば、sRNA配列の検出は、定量的もしくは定性的PCR、例えば、リアルタイムPCRを含む、プローブの逆転写、増幅、及び/またはハイブリダイゼーションを用いることができる様々な検出プラットフォームのうちの1つに移行する。PCR検出フォーマットは、いくつかの実施形態では、かつ任意選択で、蛍光標識プローブに関連して、RT-PCR用のステムループプライマーを用いることができる。
さらに他の実施形態では、対象の試料に存在するsRNAは、本明細書の他の場所に記載のsRNA配列決定及びアダプタートリミングによって決定または定量化される。sRNA配列決定は、当該技術分野で既知の標的捕捉(標的濃縮配列決定)を含み得る。
本発明の他の態様及び実施形態は、以下の発明を実施するための形態から明白となるであろう。
本開示は、1つ以上の異なる生物学的状態または1つ以上の疾患サブタイプ(集合的に「生物学的状態」または「疾患状態」と称されることもある)について対象を評価するための疾患分類器を構築するための方法を提供する。本発明は、発見試料セットの配列データから候補低分子RNA(sRNA)配列を特定することを含む。発見試料セット(またはトレーニングセット)にわたる候補sRNA配列(各々個別に入手されたもの)の存在または存在量は、目的とする生物学的状態を予測し(例えば、他の異なる生物学的状態または非疾患対照に対して)、これらの候補sRNA配列が本開示の実施形態に従ってさらにフィルタリングまたは選択される。その後、機械学習技法が適用されて、複数疾患分類器及び疾患サブタイプ分類器を含む疾患分類器を構築及びトレーニングする。トレーニングされた分類器を使用して、新たな試料を分類する、例えば、疾患について患者を評価することができる。
いくつかの実施形態では、疾患分類器は、マルチクラス予測器である。例えば、マルチクラス予測器は、典型的には類似の臨床症状(例えば、認知症、運動障害など)とともに現れるか、またはそれを呈する状態などの目的とする生物学的状態を区別し得る。発見セットにわたる候補sRNA配列、具体的には、それらのバイナリプロファイル(存在もしくは不在)または発現レベルプロファイルは、本明細書により完全に記載されるように、様々な機械学習モデルを使用して疾患分類器を構築するために使用される。疾患分類器は、分子検出アッセイを使用して、または他の実施形態では、sRNA配列決定を使用して、1つ以上の疾患状態の存在について対象を評価するために使用することができる。
いくつかの実施形態では、sRNAパネルは、疾患サブタイプを特定または分類するために使用される。疾患サブタイプには、表現型が類似しているが、生物学的経路の異なる異常もしくは調節不全、または異種のsRNA生物発生に起因し得る疾患が含まれる。異種のサブタイプは、治療的介入に異なる応答を示し得る。さらに、予測sRNA配列を標的遺伝子及びそれらの生物学的経路にマッピングすることにより、疾患サブタイプの異なる創薬可能な標的及び治療レジメンを解明することができる。疾患サブタイプ分類器は、患者を適切な治療法または治療レジメンと一致させるために個別化された医療用途で使用される。疾患サブタイプ分類器はさらに、治験薬の作用機序に応じて患者募集を調整するために臨床試験設計で使用される。
様々な実施形態では、本発明は、1つ以上の生物学的状態について対象を評価するための分類器を生成するための方法を提供する。本方法は、発見試料セット(例えば、トレーニングセット)にわたって存在する異なるsRNA配列の編集を含むsRNA配列データを提供することと、候補sRNA配列であって、それらの存在もしくは不在または存在量が目的とする生物学的状態の存在、不在、ステージ、または他の特徴と相関する、候補sRNA配列を選択することとを含む。発見試料セットは、概して、目的とする1つ以上の生物学的状態の存在または不在を表す試料を含み、非疾患対照をさらに含み得る。本発明の実施形態による候補sRNA配列を減少させた後(以下に記載されるように)、分類器は、生物学的状態ラベルを含む試料メタデータとともに、様々な機械学習モデルを使用して、例えば、トレーニングセットにわたる候補sRNA配列の存在もしくは不在、またはいくつかの実施形態では存在量を使用してトレーニングされる。この態様による分類器は、生物学的状態の存在及び/または不在について対象の試料を評価するためのsRNA特徴を含む。
図1は、いくつかの実施形態による、分類器を生成する方法100を概略的に説明する。方法100は、少なくとも部分的に、いくつかの実施態様では1つ以上の中央処理装置CPU(プロセッサとも称される)、1つ以上のグラフィカル処理装置、1つ以上のネットワークインターフェース、ユーザインターフェース、非永続的メモリ、永続的メモリ、及びこれらの構成要素を相互接続するための1つ以上の通信バスを含む好適なシステムで実行することができる。1つ以上の通信バスは、任意選択で、システム構成要素間の通信を相互接続及び制御する回路(チップセットと呼ばれることもある)を含む。非永続的メモリは、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含み、永続的メモリは、典型的には、CD-ROM、デジタル多用途ディスク(DVD)もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリデバイス、または他の不揮発性ソリッドステート記憶装置を含む。
永続的メモリは、任意選択で、CPUから遠隔に位置する1つ以上の記憶装置を含む。永続的メモリ、及び非永続的メモリ内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を含む。いくつかの実施態様では、非永続的メモリまたはあるいは非一時的コンピュータ可読記憶媒体は、方法100を実装するために使用されるプログラム、モジュール、及びデータ構造を記憶する(場合によっては永続的メモリと併せて)。これらのプログラム、モジュール、及びデータ構造は、任意選択のオペレーティングシステム(様々な基本システムサービスを処理し、かつハードウェア依存タスクを実行するための手順を含む)、システムを他のデバイスまたは通信ネットワークに接続するための任意選択のネットワーク通信モジュール(または命令)、及び他のモジュールを含むことができる。例えば、1つ以上のトレーニングデータセットは、システムのメモリに記憶することができる。これらのモジュール、データ、またはプログラム(例えば、命令セット)は、別個のソフトウェアプログラム、手順、データセット、またはモジュールとして実装される必要はなく、それ故に、これらのモジュール及びデータの様々なサブセットは、様々な実装において組み合わせられるか、またはさもなければ再配置され得る。
図1のブロック102では、発見試料セットを取得することができる。発見試料セットは、患者試料に一致するsRNA配列データを提供する任意の1つ以上の研究を含む、任意の好適な供給源から得ることができる。発見試料セットは、概して、目的とする1つ以上の生物学的状態の存在または不在を表す試料を含み得、非疾患対照をさらに含み得る。
本明細書で使用される場合、「発見セット」または「発見試料セット」は、目的とする1つ以上の生物学的状態を表す試料セットを含み、様々な実施形態では、目的とする生物学的状態のうちのいずれかを表さない対照(非疾患対照)も含む。いくつかの実施形態では、発見試料は、共通の組織に由来し、目的とする生物学的状態は、共通の表現型または病理を有する。目的とする生物学的状態を定義し得る例示的な表現型または病理は、とりわけ、がん性悪性腫瘍、悪性腫瘍浸潤、認知症、認知試験スコア、β-アミロイドタンパク質堆積、タウタングル、運動制御または振戦、神経変性、脱髄、不安、抑うつ、または双極性障害、頭痛または疲労、不眠症、慢性組織炎症、血管炎、血管透過性、過敏性腸症候群(腹痛、下痢、便秘、疲労、及び/または体重減少を含み得る)、筋肉または関節痛または疲労、胃腸透過性、筋萎縮、自己免疫、組織線維症、身体、精神、または社会性発達障害、リソソーム蓄積異常、グリコーゲン蓄積、無制御細胞増殖、細胞または組織壊死またはアポトーシス、脂肪肝または肝炎、慢性腎疾患、好中球増加症または好中球減少症、骨再形成異常(異常な骨形成または骨吸収を含む)、インスリン抵抗性、高血圧または低血圧、血管収縮、病理学的血管新生またはリンパ管形成、高コレステロール血症、代謝性疾患または肥満、冠動脈疾患、うっ血性心不全、薬物反応または薬物中毒のうちの1つ以上を含み得るが、これらに限定されない。いくつかの実施形態では、発見セットは、本明細書にさらに記載されるように、候補sRNA及び機械学習を選択するためにトレーニングセット及び試験セットにランダムに分けられる。
いくつかの実施形態では、発見セットは、目的とする生物学的状態を表し、かつ異種の治療的介入を受けるか、または治療的介入に対する異種の応答を有する患者から得られた試料を含む。かかる実施形態では、試料は、特定の治療的介入、及び/または治療的介入の有効性もしくは毒性についてラベル付けされ得る。
様々な実施形態では、発見試料セットにおける試料は、少なくとも2つの生物学的状態、または少なくとも3つの生物学的状態、または少なくとも5つの生物学的状態の存在及び不在を表し(例えば、それらについてラベル付けされ)、これらは、共通の表現型または病理を共有する。いくつかの実施形態では、発見試料セットは、少なくとも4つ、少なくとも5つ、少なくとも7つ、または少なくとも10の生物学的状態の存在及び不在を表す。いくつかの実施形態では、発見試料は、共通の表現型または病理を共有する3~10または3~5の生物学的状態の存在及び不在を表す。
いくつかの実施形態では、発見試料セットは、2つ以上の異なる疾患サブタイプを有する疑いのある少なくとも1つの生物学的状態を表す。本明細書で使用される場合、「疾患サブタイプ」とは、類似の疾患症状とともに現れるが、異なるsRNA生物発生、異種のもしくは区別可能な生物学的経路異常もしくは調節不全の生物学的経路を含み得る、及び/または異なる治療様式を必要とし得る生物学的状態の集合を意味する。本開示によれば、理論に拘束されることを意図するものではないが、多くの複雑な疾患が実際にはsRNA生物発生の分析に基づいて有意義に区別することができる疾患の異質の集合であると考えられている。いくつかの実施形態では、本発明は、別の点で病理学的に類似しているとみなされる発見試料セットからこれらの疾患サブタイプを特定する。
様々な実施形態では、発見試料セットは、固体組織試料、生体液試料、または培養細胞を含む。例えば、生体液試料は、血液、血清、血漿、脳脊髄液、尿、または唾液であり得る。いくつかの実施形態では、発見試料セットは、固体組織生検(例えば、疾患組織のもの)または解剖試料である。いくつかの実施形態では、発見セットは、がん細胞培養物を含み、これらのがん細胞培養物は、いくつかの実施形態では、一次培養物または不死化細胞株であり得る。
様々な実施形態では、発見試料セット(またはトレーニングセット)は、目的とする生物学的状態の各々に対して陽性である少なくとも50個の試料、または少なくとも100個の試料、例えば、少なくとも10個の試料または少なくとも20個の試料または少なくとも50個の試料を含む。いくつかの実施形態では、発見試料セットは、少なくとも25個の非疾患または健常対照、または少なくとも50個の非疾患または健常対照、または少なくとも100個の非疾患または健常対照を含む。
発見セットは、単一の研究から供給される必要はなく、いくつかの実施形態では、分析前変数、例えば、核酸の抽出、sRNAライブラリの調製、及び次世代配列決定を制御するために、発見セットが別個の研究から調達されることが好ましい。「別個の研究」という用語は、異なる場所(例えば、別個の施設)での生体試料の収集、または異なる場所での核酸もしくはsRNAの抽出、及び任意選択で少なくとも1つの他の場所からの異なる核酸もしくはsRNA抽出プロトコルまたは試薬の使用、ならびに異なる場所でのsRNA配列決定ライブラリ調製及び/または配列決定、及び任意選択で少なくとも1つの他の場所からの異なるsRNA配列決定ライブラリ調製及び/または配列決定プロトコルの使用のうちの1つ以上を必要とする。いくつかの実施形態では、別個の研究は、異なる地理(例えば、少なくとも2つの異なる国または大陸)での組織の調達もしくは処理及び/または配列決定を含む。これらの実施形態では、別個の調達、処理、または配列決定は、研究プロトコルの追加の多様性を提供し、患者の遺伝的または民族的差異も提供し得る。いくつかの実施形態では、本明細書に記載されるように、特徴減少のために追加の発見試料が続いて用いられる。
様々な実施形態では、発見セット試料は、目的とする1つ以上の生物学的状態に対して陽性または陰性であるとラベル付けされる。かかる実施形態では、本発明は、本発明は、教師あり機械学習モデルを使用して試料を分類するためのsRNA特徴を特定することを含む。これらの実施形態では、本発明は、疾患の初期段階を含む同様の症状を呈し得る生物学的状態を正確に分類するための分類器を提供する。例としては、とりわけ、認知症または振戦を呈するCNS障害、胃腸炎症を呈する障害、臓器または組織の炎症または線維症(例えば、特発性肺線維症)を呈する障害、腫瘍形成または細胞悪性腫瘍を特徴とする障害が挙げられる。いくつかの異なる疾患状態にわたって共有され得る他の疾患表現型が本明細書の他の場所で提供される。
さらに他の実施形態では、発見セット試料は、少なくとも1つの複雑な疾患及び非疾患対照の試料を表す。例えば、複雑な疾患は、発見セットでラベル付けされていないか、または部分的にのみラベル付けされている1つ以上の疾患サブタイプを含み得る。いくつかの実施形態では、本明細書に記載の方法は、疾患サブタイプを潜在的に初めて特定する。これらの実施形態では、本発明は、教師なしまたは半教師あり機械学習を使用して、かかる疾患サブタイプの存在または不在について試料を分類するためのsRNA特徴を特定する。したがって、試料をラベル付けするために代理マーカーが利用できない場合、または病理医の評価が異なる疾患サブタイプを区別するのに不十分な場合であっても、本発明の実施形態による教師あり機械学習によって特定されるパネルにおけるsRNA配列の存在もしくは不在または相対的存在量は、複雑な疾患の試料をサブタイプ化するための驚くほど効果的な手段を提供する。いくつかの実施形態では、本明細書に記載の本発明は、さもなければ病理学的に類似しているとみなされる発見試料セットからこれらの疾患サブタイプを特定及び分類するために使用される。
図1に戻って参照すると、いくつかの実施形態では、ブロック104に示されるように、発見試料セットにおけるsRNA配列決定データが処理され、これはアダプタートリミングを伴う。いくつかの実施形態では、アダプタートリミングは、例えば、全内容が参照により本明細書に組み込まれるPCT/US2018/014856に記載されるように行うことができる。
本開示のいくつかの実施形態では、発見試料セットのsRNA配列データが提供される。sRNA配列データは、存在する5’及び3’変異を特定するために、sRNA配列リードから5’及び3’配列決定アダプターをトリミングすることによって処理される。これらの異なる変異は、miRNAを分析するための従来のアプローチである参照配列または遺伝子座に基づいて統合されない。したがって、発見セットからのsRNA配列データは、発見試料にわたる各試料における異なるsRNA配列(すなわち、アイソフォーム)の編集を伴う。
sRNAの5’末端及び3’末端での変異を特定するために、例えば、好適な計算モジュール(例えば、ソフトウェアプログラム)を使用して、ユーザ定義の配列決定アダプターを生のsRNA配列リードからトリミングしてもよい。アダプターは、配列決定プラットフォームに基づいて、ユーザによって定義される。アダプター配列を除去することにより、sRNAアイソフォームを特定し、試料中で定量化することができる。例えば、いくつかの実施形態では、ソフトウェアプログラムは、ユーザ定義の3’アダプターに対応する正規表現を検索し、それらを生のsRNA配列リードから削除する。
いくつかの実施形態では、ユーザ定義の3’アダプターの正規表現は、いくつかの「ワイルドカード」を含む。ワイルドカードは、以下の4つのデオキシリボ核酸:(A)アデニン、(T)チミン、(G)グアニン、または(C)シトシンのうちのいずれか1つであると定義される。しかしながら、ユーザ指定の3’アダプター配列の5’末端の第1のヌクレオチドは改変されておらず(例えば、挿入もしくは欠失とみなされないか、または別様にワイルドカード変化を受けやすいとみなされない)、それ故に、sRNAの3’末端ヌクレオチドが3’アダプターの5’末端ヌクレオチドにライゲーションされる接合部でsRNA配列を保持する。ユーザ指定の3’アダプターの5’末端ヌクレオチドが、ユーザが指定したものと一致しない場合、3’アダプター配列はトリミングされないが、必要に応じて、独立して検証することができる。いくつかの実施形態では、(トリミング後に)少なくとも17ヌクレオチド長を有するsRNAが分析に考慮される。いくつかの実施形態では、約75以下のヌクレオチド長以下、または約50以下のヌクレオチド、または約43以下のヌクレオチド長を有するsRNAが分析に考慮される。
いくつかの実施形態では、異なるsRNA配列の存在もしくは不在または存在量が決定される。かかる実施形態では、sRNA配列は、1つ以上の内因性sRNA対照または外因性(すなわち、「スパイクイン」)sRNA対照に対して正規化され得る。いくつかの実施形態では、スパイクインは、(1)合成オリゴヌクレオチド、(2)合成オリゴヌクレオチドの等モルプール、または(3)増加濃度で混合された合成オリゴヌクレオチドのプールであり得る。各実施形態では、スパイクインは、5’及び3’アダプターライゲーション前に試料に添加される。上記の事例の各々では、オリゴヌクレオチドが5’ホスフェート及び3’ヒドロキシルで合成されて、内因性sRNAを模倣する。
いくつかの実施形態では、実施例2(図5)により詳細に記載されるように、5’ホスフェート及び3’ヒドロキシルで合成されるある特定の数の外因性オリゴヌクレオチドのプールは、様々な濃度で組み合わされ、5’及び3’アダプターライゲーション前に各試料に添加され得る。
sRNA配列決定は、低分子RNA種、例えば、マイクロRNA(miRNA)、Piwi相互作用RNA(piRNA)、低分子干渉RNA(siRNA)、ヴォールトRNA(vtRNA)、核小体低分子RNA(snoRNA)、トランスファーRNA由来の低分子RNA(tsRNA)、リボソームRNA由来の低分子RNA断片(rsRNA)、低分子rRNA由来のRNA(srRNA)、及び核内低分子RNA(U-RNA)を濃縮し、配列決定する。例えば、sRNA配列決定データを提供する際に、入力材料が低分子RNAについて濃縮され得る。配列ライブラリ構築は、用いられるハイスループット配列決定プラットフォームに応じていくつかのプロセスまたは市販のキットのうちのいずれかを使用して、sRNA濃縮材料を用いて行われる。概して、sRNA配列決定ライブラリ調製は、試料からの全RNAの単離、サイズ分画、配列決定アダプターのライゲーション、逆転写及びPCR増幅、ならびにDNA配列決定を含む。
より具体的には、いくつかの実施形態では、所与の試料において、すべてのRNA(すなわち、全RNA)が抽出され、単離される。低分子RNAは、サイズ分画によって、例えば、変性ポリアクリルアミドゲル上に単離されたRNAを泳動させることによって、または様々な市販のキットのうちのいずれかを使用することによって単離される。その後、ライゲーションステップは、逆転写中及びPCR増幅中にプライマー結合部位として作用する低分子RNAの両端にアダプターを付加する。例えば、事前にアデニル化された一本鎖DNAの3’アダプター、続いて5’アダプターは、T4 RNAリガーゼ2切断(T4 Rnl2tr K227Q)などのライゲーション酵素を使用して、低分子RNAにライゲーションされる。これらのアダプターは、異なる5’及び3’末端化学を有するRNA分解産物ではなく、生物学的に処理された低分子RNA(例えば、マイクロRNA)の特徴である5’ホスフェート及び3’ヒドロキシル基を有する低分子RNAを捕捉するように設計されている。その後、sRNAライブラリが逆転写され、PCRによって増幅される。このステップは、アダプターライゲーションRNAを、配列決定反応の鋳型であるcDNAクローンに変換する。固有のヌクレオチドインデックス配列で設計されたプライマーをこのステップで使用して、IDタグ(すなわち、バーコード)を作成して、ライブラリプール及びマルチプレックス配列決定を容易にすることもできる。
とりわけ、パイロシーケンシング(例えば、454 Life Sciences)、ポリメラーゼベースの合成による配列(例えば、Illumina)、またはライゲーションによる配列決定(例えば、ABI Solid Sequencingプラットフォーム)などの任意の次世代配列決定プラットフォームを含む、任意のDNA配列決定プラットフォームを用いることができる。
図1に戻って参照すると、ブロック106では、候補sRNAがブロック104で処理されたsRNAから選択され得る。いくつかの実施形態では、候補sRNAは、miRNAアイソフォーム、トランスファーRNA由来の断片、及びリボソームRNA由来の断片のうちの1つ以上に限定される。いくつかの実施形態では、これらのmiRNA種、tRNA種、及びrRNA種は、sRNA配列からフィルタリングされ、候補選択のために使用される。いくつかの実施形態では、1つ以上のsRNAは、isomiRである。「isomiR」とは、参照miRNA配列(例えば、miRBaseによって使用される)に関して変異を有する配列を指す。miRBaseでは、各miRNAは、miRNA前駆体、及び1つまたは2つの成熟miRNA(-5p及び-3p)に関連する。ディープ配列決定は、miRNA生合成における大きな変異を検出し、これは、同じmiRNA前駆体から多くの異なる配列が検出され得ることを意味する。SRNAの6つの主な変異:(1)5’改変(5’末端ヌクレオチドが参照sRNA配列の上流または下流にある)、(2)3’改変(3’末端ヌクレオチドが参照sRNA配列の上流または下流にある)、(3)5’ヌクレオチド付加(ヌクレオチドが参照sRNAの5’末端に酵素的に付加される)、(4)3’ヌクレオチド付加(ヌクレオチドが参照sRNAの3’末端に酵素的に付加される)、(5)ヌクレオチド置換(ヌクレオチドがDNAバリアント(例えば、一塩基多型、挿入、または欠失)に起因して改変される)、(6)ヌクレオチド編集(ヌクレオチドがmiRNA前駆体または成熟miRNAまたは他のsRNA中の1つ以上のヌクレオチド塩基の酵素的改変に起因して改変される)が存在する。いくつかの実施形態では、isomiRの包含は、5’及び3’バリアントに限定されるが、置換または「スワップ」は限定されない。いくつかの実施形態では、遺伝子間マッピングmiRNAは、候補sRNA選択プロセスにおいて許可されない。
いくつかの実施形態では、1つ以上の候補sRNAバリアントは、スワップなしのトランスファーRNA由来の断片である。いくつかの実施形態では、1つ以上の候補sRNAバリアントは、スワップなしのリボソームRNA由来の断片である。
様々な実施形態によれば、図1のブロック106では、発見セットからのsRNA配列データを使用して、機械学習のための候補sRNA配列を選択する。機械学習を改善するために、発見セット内のおよそ1億個の異なる配列であり得る異なるsRNA配列を、事前選択基準を使用して、数千個の候補sRNAにフィルタリングする。例えば、いくつかの実施形態では、約100,000個以下のsRNA配列が機械学習分析のために選択されるか、または約50,000個以下のsRNA配列、もしくは約10,000個以下のsRNA配列、もしくは約5,000個以下のsRNA配列、もしくは約2,000個以下のsRNA配列が、機械学習モデルを使用して疾患分類器をトレーニングするために選択される。様々な実施形態では、少なくとも約1000個、または少なくとも約2000個、または少なくとも約5000個、または少なくとも約10,000個の候補sRNAが、教師あり機械学習のために事前選択される。いくつかの実施形態では、約2,500~約60,000個のsRNA配列が、疾患分類器をトレーニングするために事前選択される。
図1のブロック106では、いくつかの実施形態では、発見セットからのsRNA配列データが処理された後、候補sRNA配列がsRNA配列データから選択される。候補sRNA配列は、それらの存在、不在、または存在量が、例えば、発見セットに存在する他の状態または非疾患対照と比較して、目的とする生物学的状態の存在または不在と相関する程度に基づいて選択することができる。いくつかの実施形態では、少なくとも1つの候補sRNA配列は、目的とする生物学的状態に対して陽性であり、かつすべての他の発見試料に不在である発見試料(例えば、トレーニングセットの)にのみ存在する。いくつかの実施形態では、目的とする生物学的状態に対して陽性または陰性であり、かつすべての他の発見試料に不在である試料にのみ存在する少なくとも5つ、または少なくとも10個、または少なくとも20個の候補sRNA配列が選択される。いくつかの実施形態では、sRNAは、定義された頻度閾値で疾患試料に存在する(かつ少なくとも1つの他のクラス(例えば、健常対照または他の生物学的状態)のすべての他の試料に不在である)ものについてフィルタリングされる。例えば、sRNAは、目的とする生物学的状態に対して陽性である試料の少なくとも約5%、または少なくとも約10%、または少なくとも約15%、または少なくとも約20%、または少なくとも約25%に存在するものについてフィルタリングされ得る。加えて、sRNA配列は、定義された頻度閾値で対照試料に存在する(かつ少なくとも1つの生物学的状態クラスのすべての試料に不在である)ものについてフィルタリングすることができる。例えば、sRNAは、健常(非疾患)対照である試料の少なくとも約5%、または少なくとも約10%、または少なくとも約15%、または少なくとも約20%、または少なくとも約25%に存在するものについてフィルタリングされ得る。1つのクラスの試料に存在するが、少なくとも1つの他のクラスのすべての試料に不在であると特定されるsRNAマーカーは、本明細書では「バイナリ」マーカーと称されることがある。
様々な実施形態では、候補sRNA配列であって、それらの存在または不在によって発見セット、特にトレーニング群における試料セットにおける目的とする生物学的状態を個別に予測する、候補sRNA配列が選択される。例えば、候補sRNA配列であって、それらの存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも0.01のp値を有する、候補sRNA配列を選択することができる。いくつかの実施形態では、少なくとも1つの候補sRNA配列(例えば、少なくとも2、3、4、または5つの候補sRNA配列)であって、その存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも0.0001のp値を有する、少なくとも1つの候補sRNA配列が選択される。いくつかの実施形態では、少なくとも1つの候補sRNA配列(例えば、少なくとも2、3、4、または5つの候補sRNA配列)であって、その存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも0.000001のp値を有する、少なくとも1つの候補sRNA配列が選択される。いくつかの実施形態では、少なくとも1つの候補sRNA配列(例えば、少なくとも2、3、4、または5つの候補sRNA配列)であって、その存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも0.00000001のp値を有する、少なくとも1つの候補sRNA配列が選択される。いくつかの実施形態では、少なくとも1つの候補sRNA配列(例えば、少なくとも2、3、4、または5つの候補sRNA配列)であって、その存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも0.0000000001のp値を有する、少なくとも1つの候補sRNA配列が選択される。様々な実施形態では、かかる候補sRNA配列は、目的とする各生物学的状態に対して選択される。すなわち、候補sRNAは、発見セット及び/または非疾患対照で表される他の生物学的状態に対して少なくとも1つの生物学的状態の存在または不在を決定するそれらの予測力について個別に選択された配列を含む。
いくつかの実施形態では、事前選択は、少なくとも部分的に、トレーニング群における候補sRNAの頻度閾値を選択することによって実施される。すなわち、候補sRNAは、(トレーニング群において)特定のクラスでは最小頻度で存在しなければならないが、少なくとも1つの他のクラスでは指定された周波数閾値未満で存在しなければならない。例えば、候補sRNAは、(トレーニング群において)特定のクラスで試料の少なくとも約50%、または特定のクラスで試料の少なくとも約40%、または特定のクラスで試料の少なくとも約25%、または特定のクラスで試料の少なくとも約20%、または特定のクラスで試料の少なくとも約15%、または特定のクラスで試料の少なくとも約10%、または特定のクラスで試料の少なくとも約5%に存在し得る。いくつかの実施形態では、候補sRNAは、そのクラスで表される各々の独立した研究のためのこの閾値要件を満たす。かかる候補sRNAに関して、これらは、トレーニング群において少なくとも1つの他のクラスで閾値未満、例えば、少なくとも1つの他のクラスで試料の約15%未満、または少なくとも1つの他のクラスで試料の約10%未満、または少なくとも1つの他のクラスで試料の約5%未満で存在する。いくつかの実施形態では、候補sRNAは、トレーニング群において少なくとも1つの他のクラスのすべての試料に不在である。
いくつかの実施形態では、候補sRNA配列は、例えば、発見セットに存在する他の状態または非疾患対照と比較して、それらの存在量が目的とする生物学的状態の存在または不在と相関する程度に基づいて、配列データから選択される。いくつかの実施形態では、少なくとも1つの候補sRNA配列は、目的とする生物学的状態の存在または不在を示す存在量レベルを有する(例えば、存在量は、ある特定の閾値を上回るか、または下回る)。いくつかの実施形態では、疾患試料と非疾患試料との間の相対存在量の差は、少なくとも約5倍、または少なくとも約10倍、または少なくとも約100倍、または少なくとも約1000倍、または少なくとも約10,000倍である。少なくとも2つのクラス間の存在量の差に基づいて選択されるsRNAマーカーは、本明細書では「差次的に発現された」マーカーと称されることがある。
いくつかの実施形態では、候補sRNA配列であって、それらの存在量に基づいて目的とする生物学的状態の存在または不在を個別に予測する、候補sRNA配列が選択される。例えば、候補sRNA配列であって、それらの存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも0.01のp値を有する、候補sRNA配列を選択することができる。いくつかの実施形態では、少なくとも1つの候補sRNA配列(例えば、少なくとも2、3、4、または5つの候補sRNA配列)であって、その存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも0.0001のp値を有する、少なくとも1つの候補sRNA配列が選択される。いくつかの実施形態では、少なくとも1つの候補sRNA配列(例えば、少なくとも2、3、4、または5つの候補sRNA配列)であって、その存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも0.000001のp値を有する、少なくとも1つの候補sRNA配列が選択される。いくつかの実施形態では、少なくとも1つの候補sRNA配列(例えば、少なくとも2、3、4、または5つの候補sRNA配列)であって、その存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも0.00000001のp値を有する、少なくとも1つの候補sRNA配列が選択される。いくつかの実施形態では、少なくとも1つの候補sRNA配列(例えば、少なくとも2、3、4、または5つの候補sRNA配列)であって、その存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも0.0000000001のp値を有する、少なくとも1つの候補sRNA配列が選択される。様々な実施形態では、かかる候補sRNA配列は、目的とする各生物学的状態に対して選択される。すなわち、候補sRNAは、トレーニング群において発見セット及び/または非疾患対照で表される他の生物学的状態に対して少なくとも1つの生物学的状態の存在を決定するそれらの予測力について個別に選択された配列を含む。
いくつかの実施形態では、存在量が増加したsRNAの事前選択は、少なくとも部分的に、候補sRNAの頻度閾値を選択することによって実施される。すなわち、候補sRNAは、トレーニング群において少なくとも1つの他のクラスの試料で観察される相対的存在量レベル(例えば、平均または中央値)と比較して、特定のクラスでは最小頻度で存在量が有意に高いか、または低くなければならない。例えば、候補sRNAは、(少なくとも1つの他のクラスで観察されるsRNAの相対的存在量と比較して)トレーニング群において特定のクラスで試料の少なくとも約50%、または特定のクラスで試料の少なくとも約40%、または特定のクラスで試料の少なくとも約25%、または特定のクラスで試料の少なくとも約20%、または特定のクラスで試料の少なくとも約15%、または特定のクラスで試料の少なくとも約10%、または特定のクラスで試料の少なくとも5%で相対的存在量が有意に高い場合があるか、または低い場合がある。いくつかの実施形態では、候補sRNAは、トレーニング群においてそのクラスで表される各々の独立した研究のためのこの閾値要件を満たす。かかる候補sRNAに関して、相対存在量の変化は、トレーニング群において少なくとも1つの他のクラスで閾値未満、例えば、少なくとも1つの他のクラスで試料の約15%未満、または少なくとも1つの他のクラスで試料の約10%未満、または少なくとも1つの他のクラスで試料の約5%未満で観察される。いくつかの実施形態では、候補sRNAは、トレーニング群において少なくとも1つの他のクラスのいずれの試料でも観察されない特定のクラスの試料における相対的存在量の統計的に有意な変化を有する。
候補sRNAの数は、例えば、線形またはロジスティック回帰モデルを使用してさらに減少させることができる。
いくつかの実施形態では、発見試料セットは、目的とする生物学的状態のステージ、グレード、または他の特徴についてさらにラベル付けされる。これらの実施形態では、候補sRNAであって、それらのリードカウントが、例えば、疾患ステージまたはグレードなどの疾患活動性と(例えば、直接)相関する、候補sRNAが選択され得る。例えば、疾患ステージまたはグレードが進行すると、より高いリードカウントを示す候補sRNA配列が選択され得る。すなわち、平均リードカウントは、疾患の後期段階で、またはより高い疾患活動性とともに増加する。あるいは、疾患重症度が低下すると(例えば、処理群において)、処理された対象においてより低いリードカウントを示す候補sRNA配列を選択することができる。したがって、いくつかの実施形態では、少なくとも1、2、3、4、または5つの候補sRNA配列であって、その存在または存在量が発見セットにおける試料によって表される生物学的状態を予測し、かつその読み取り数がかかる試料における疾患ステージまたは疾患グレードと相関する、候補sRNA配列が選択される。候補sRNA配列を選択するために平均リードカウントが望ましい場合、sRNA配列は、例えば、以下の実施例2に記載されるように、内因性sRNA及び/またはスパイクイン正規化対照のうちの1つ以上を使用して決定することができる。
様々な実施形態では、目的とする生物学的状態において増加した配列多様性を有するsRNAファミリーが特定される。これらのsRNAファミリー内のsRNA配列が候補sRNA配列として選択される。例えば、いくつかの実施形態では、配列変異が、疾患状態において増加する、及び/または疾患状態の重症度とともに増加する、及び/または変異が治療レジメンに応答して正規化するか、または改善され得るsRNAファミリーが特定され得る。例えば、sRNA事前選択は、生物学的に関連する配列特徴に基づいてsRNAアイソフォーム(isomiRなど)を「ファミリー」にグループ化することを含むことができる。いくつかの実施形態では、配列特徴は、一般に注釈付きsRNAの5’末端から2~8のヌクレオチドを含むmiRNA「シード配列」である。いくつかの実施形態では、配列特徴は、一塩基多型またはインデルである。これらのsRNAファミリーは、5’末端及び3’末端での変異について評価される。例えば、変異は、テンプレート化及び/または非テンプレート化ヌクレオチド付加、または5’及び/または3’トリミングを含む5’及び/または3’変異を含み得、これは、疾患の存在または疾患活動と相関し得る。これらの全ファミリーまたはファミリー内の予測バリアントは、機械学習の候補として選択することができる。いくつかの実施形態では、これらのファミリーは、目的とする生物学的状態が固有である少なくとも1つのsRNA配列を含む。
いくつかの実施形態では、線形またはロジスティック回帰モデルは、共通のシード配列を有するsRNAアイソフォーム(isomiR)、またはエクソソーム内での存在に関連する特性を有するsRNA(3’非テンプレート化ヌクレオチド付加、例えば、U付加など)について重み付けされる。いくつかの実施形態では、共通のシード領域を有するmiRNAが候補sRNA減少中に(例えば、事前選択フィルタを使用して)凝集する。
他のパラメータを使用して、候補sRNA配列の選択を補助することができる。例えば、発見試料セットは、本明細書の他の場所に記載されるように、少なくとも2つの別個の研究から調達することができ、いくつかの実施形態では、少なくとも2つの異なる機関、国、または大陸からの調達を含む。これらの実施形態では、選択された候補sRNA配列は各々、各研究からの少なくとも1つの試料に存在し(または各研究における頻度閾値を上回り)、それにより、その配列が研究アーチファクトである可能性を低下させる。別個の研究は、異なる場所での生体試料の収集、または異なる場所での核酸もしくはsRNAの抽出、または異なる場所での配列決定ライブラリ調製及び/または配列決定を含み得る。いくつかの実施形態では、異なる研究は、異なる核酸もしくはsRNA抽出プロトコル、または異なる配列決定ライブラリ調製プロトコル及び/または配列決定プロトコルを用いる。
様々な実施形態では、sRNA配列は、発見セットにおける閾値平均リードカウントに基づいて事前選択される。例えば、選択されたsRNA配列は、100万リードあたり少なくとも0.1のトリミングされたリードの平均リードカウントを有し得る。いくつかの実施形態では、指定されたフロアを上回り、かつ指定されたシーリングを下回るリードカウントを有するsRNA配列が選択される。いくつかの実施形態では、配列決定深度は、生物学的マトリックスに基づくスライディングスケールである。例えば、固体組織試料は、1試料あたり50,000億~150,000億リードで配列決定され得、脳脊髄液、血清、及び血漿試料は、1試料あたり150,000億~350,000億リードで配列決定され得、PAXgene(全血)試料は、1試料あたり350,000億~550,000億リードで配列決定され得る。より高い深度で配列決定することにより、本方法は、sRNAが組織から出て末梢に入る際のsRNAの希釈を考慮する。
様々な実施形態では、候補sRNA配列は、ヒトゲノムにマッピングするそれらの能力に基づいて選択される。
図1に戻って参照すると、候補sRNAがトレーニングセットから選択されると(機械学習のための所望の数の候補sRNAへの減少を含む)、sRNA特徴が分類器をトレーニングするために特定され得る(ブロック108)。様々な特徴選択または抽出アプローチを使用して、機械学習分類器に適切な特徴を選択することができる。いくつかの実施形態では、特徴は、処理されたデータの形態、例えば、ブロック106で選択されたsRNAのポリヌクレオチド配列(これらは、例えば、アダプタートリミングによって以前に処理されたものである)であり得る。さらに、いくつかの実施形態では、多次元データポイントである特徴を生成することができる。計算負荷を減少させるために、かかる特徴の次元は、例えば、当該技術分野で既知の統計的特徴選択または特徴抽出手順、例えば、主成分分析、非負行列因数分解、特徴ランキングのためのROC曲線、カーネルPCA、グラフベースのカーネルPCA、UMAP、線形判別分析、一般化判別分析を使用して減少させることができる。同様に、いくつかの実施形態では、機械学習技法、例えば、ニューラルネットワーク、畳み込みニューラルネットワーク、オートエンコーダ、サポートベクトルマシン、ベイズネットワーク、または遺伝的アルゴリズムが、多次元データポイントの次元の数を減少させるために使用される。
いくつかの実施形態では、ブロック110を参照すると、sRNA特徴が選択された後、1つ以上の機械学習アプローチを使用して、機械学習分類器をトレーニングすることができる。いくつかの実施形態では、分類器は、(候補sRNAからの)sRNA配列のパネルの存在もしくは不在または存在量に基づいて、試料を分類するように構成されている。いくつかの実施形態では、所望のパネルサイズを選択することができる。一般に、パネルのサイズは、より多くの疾患クラスが存在する場合、より大きい可能性がある。例えば、いくつかの実施形態では、パネルは、約1~約50,000個のsRNA配列、例えば、1クラスあたり約1~約200個のsRNA配列、または1クラスあたり約4~約100個のsRNA配列、または1クラスあたり約4~約50個のsRNA配列を含む。いくつかの実施形態では、パネルは、1クラスあたり約10~約100個のsRNA配列、または1クラスあたり約10~約50個のsRNA配列、または1クラスあたり約10~約40個のsRNA配列、または1クラスあたり約10~約30個のsRNA配列を含む。いくつかの実施形態では、パネルは、1クラスあたり約50~約150個のsRNA配列、または約50~約100個のsRNA配列を含む。いくつかの実施形態では、総パネルが1~約500個のsRNA配列、または1~約200個のsRNA配列、または約4~約100個のsRNA配列、または約4~約50個のsRNA配列、または約10~約100個のsRNA配列、または約10~約50個のsRNA配列、または約10~約40個のsRNA配列、または約10~約30個のsRNA配列、または約50~約150個のsRNA配列、または約50~約100個のsRNA配列である最小パネルまたは減少パネルが選択される。いくつかの実施形態では、パネルは、約100個以下のsRNA配列、または96個以下のsRNA配列、または75個以下のsRNA配列、または50個以下のsRNA配列を含む。
いくつかの実施形態では、分類器は、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、ロジスティック回帰アルゴリズム、混合モデル、隠れマルコフモデル、またはニューラルネットワークアルゴリズムに基づく。
様々な実施形態では、分類器は、例えば、パラメトリック/ノンパラメトリック距離測定法、ロジスティック回帰、サポートベクトルマシン、決定木、ランダムフォレスト、ニューラルネットワーク、プロビット回帰、フィッシャー線形判別、単純ベイズ分類器、パーセプトロン、二次分類器、カーネル推定、k近傍法、学習ベクトル量子化、及びPCAなどの教師あり、教師なし、半教師あり機械学習モデルのうちの1つ以上を使用してトレーニングされる。例えば、いくつかの実施形態では、分類器は、少なくとも線形サポートベクトルマシンを使用してトレーニングされる。
いくつかの実施形態では、分類器は、教師なしクラスタリングモデルである。いくつかの実施形態では、分類器は、教師ありクラスタリングモデルである。クラスタリングは、参照により全体が本明細書に組み込まれる、Duda and Hart,Pattern Classification and Scene Analysis,1973,John Wiley & Sons,Inc.,New York(以下、「Duda 1973」)の211~256頁に記載されている。クラスタリング問題は、データセット内の自然なグループ化を見つけ出すことを含む。自然なグループ化を特定するために、2つの問題に対処する。第一に、2つの試料間の類似性(または相違性)を測定する方法が決定される。この測定基準(例えば、類似性尺度)は、あるクラスタ内の試料が、それらが他のクラスタ内の試料よりも互いに類似していることを確実にするために使用される。第二に、類似性尺度を使用してデータをクラスタに分割するための機構が決定される。クラスタリング調査を開始するために、距離関数を定義し、トレーニングセット内のすべての試料対間の距離の行列を計算することができる。距離が良好な類似性尺度である場合、同じクラスタ内の参照エンティティ間の距離は、異なるクラスタ内の参照エンティティ間の距離よりも有意に短くなる。しかしながら、クラスタリングは距離測定基準の使用を必要としない。例えば、非計量的類似性関数s(x,x’)を使用して、2つのベクトルx及びx’を比較することができる。従来、s(x,x’)は、xとx’がどことなく「類似」している場合に値が大きい対称関数である。
データセット内のポイント間の「類似性」または「相違性」を測定するための方法が選択されると、クラスタリングは、データの任意のパーティションのクラスタリング品質を測定する基準関数を必要とする。基準関数を極端化するデータセットのパーティションは、データをクラスタリングするために使用される。クラスタリング技術についてのさらなる情報は、各々参照により本明細書に組み込まれる、Kaufman and Rousseeuw,1990,Finding Groups in Data:An Introduction to Cluster Analysis,Wiley,New York,N.Y.、Everitt,1993,Cluster analysis(3d ed.),Wiley,New York,N.Y.、及びBacker,1995,Computer-Assisted Reasoning in Cluster Analysis,Prentice Hall,Upper Saddle River,New Jerseyで見つけることができる。本開示で使用することができる特定の例示的なクラスタリング技術には、階層的クラスタリング(最近傍アルゴリズム、最遠方(farthest-neighbor)アルゴリズム、平均連結アルゴリズム、重心アルゴリズム、または二乗和アルゴリズムを使用した凝集型クラスタリング)、k平均クラスタリング、ファジーk平均クラスタリングアルゴリズム、及びジャーヴィス・パトリッククラスタリングが含まれるが、これらに限定されない。いくつかの実施形態では、クラスタリングは、トレーニングセットがクラスタリングされるときにどのクラスタが形成されるべきであるかの先入観が課されていない教師なしクラスタリングを含む。いくつかの実施形態では、教師なしクラスタリングを使用して疾患サブタイプを特定することができ、これにより、有意義なパターンをsRNAデータ内で発見し、研究及び臨床用途で利用することができるようになる。
いくつかの実施形態では、分類器は、全体が参照により本明細書に組み込まれる、Agresti,An Introduction to Categorical Data Analysis,1996,John Wiley&Sons,Inc.,New York,Chapter 8に記載の多カテゴリロジットモデルなどの回帰モデルである。いくつかの実施形態では、分類器は、Hastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New Yorkに開示されている回帰モデルを使用する。
いくつかの実施形態では、分類器は、メタゲノムリードを扱うためにローゼンらによって開発されたツールなどのナイーブベイズアルゴリズムである(Bioinformatics 27(1):127-129,2011を参照されたい)。いくつかの実施形態では、分類器は、Kamvar et al.,Front Genetics 6:208 doi:10.3389/fgene.2015.00208,2015)に記載のノンパラメトリック法などの最近傍アルゴリズムである。いくつかの実施形態では、分類器は、McLachlan et al.,Bioinformatics 18(3):413-422,2002に記載のものなどの混合モデルである。いくつかの実施形態では、特に時間的成分を含む実施形態では、分類器は、Schliep et al.,2003,Bioinformatics 19(1):i255-i263に記載のものなどの隠れマルコフモデルである。
主成分分析(PCA)アルゴリズムは、参照により本明細書に組み込まれる、Jolliffe,1986,Principal Component Analysis,Springer,New Yorkに記載されている。PCAは、参照により本明細書に組み込まれる、Draghici,2003,Data Analysis Tools for DNA Microarrays,Chapman&Hall/CRCにも記載されている。主成分(PC)には相関関係がなく、k番目のPCがPCの中でk番目に大きい分散を有するように順序付けられる。k番目のPCは、1番目のk-1 PCに直交するようにデータポイントの投影の変動を最大化する方向として解釈することができる。最初のいくつかのPCは、トレーニングセットの変動のほとんどを捕捉する。対照的に、最後のいくつかのPCは、多くの場合、トレーニングセット内の残りの「ノイズ」のみを捕捉すると想定される。
SVMアルゴリズムは、各々参照により全体が本明細書に組み込まれる、Cristianini and Shawe-Taylor,2000,“An Introduction to Support Vector Machines,”Cambridge University Press Cambridge、Boser et al.,1992,“A training algorithm for optimal margin classifiers,”in Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory,ACM Press,Pittsburgh,Pa.,pp.142-152、Vapnik,1998,Statistical Learning Theory,Wiley,New York、Mount,2001,Bioinformatics:sequence and genome analysis,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.、Duda,Pattern Classification,Second Edition,2001,John Wiley & Sons,Inc.,pp.259,262-265、及びHastie,2001,The Elements of Statistical Learning,Springer,New York、及びFurey et al.,2000,Bioinformatics 16,906-914に記載されている。分類のために使用される場合、SVMは、ラベル付けされたデータから最大限に離れた超平面でバイナリラベル付けデータトレーニングセットの所与のセットを分離する。線形分離が不可能な場合、SVMは、特徴空間への非線形マッピングを自動的に実現する「カーネル」技法と組み合わせて機能することができる。特徴空間におけるSVMによって見つけられる超平面は、入力空間における非線形決定境界に対応する。
いくつかの実施形態では、特徴の選択及び機械学習分類器のトレーニング(それぞれ、図1のブロック108及び110)は、図1の矢印109によって概略的に示されるように、分類器が適切な特徴の相互検証及び選択のために使用されるように同じ処理の一部であり得る。トレーニングされた機械学習分類器を使用して、図1のブロック112に示されるように、sRNAパネルを選択することができる。機械学習分類器のトレーニング及びsRNAパネルの選択が同じプロセスの一部であり得ることを理解されたい。また、sRNAパネルに含まれるsRNAのリストは、図1の矢印113によって概略的に示されるように、反復的に調整することができる。
いくつかの実施形態では、再び図1のブロック110を参照して、機械学習分類器をトレーニングするために、試料の10%~90%がトレーニングセットにランダムに分けられる。事前選択を使用して、例えば、0.1~100の最小TRPM(100万あたりのトリミングされたリード)を有するトレーニングセットから2,400~60,000個の低分子RNA特徴を選択する。sRNA特徴セットは、回帰モデルを使用して、1クラスあたり1~1,000個のsRNA特徴に減少させることができる。最終sRNA特徴セットは、51%~100%信頼区間の閾値で線形回帰またはサポートベクトルマシンを使用して、試料の残りの10%~90%で試験して、試料を分類するために使用される。精度は、真陽性率、偽陽性率、真陰性率、及び偽陰性率、全精度、ならびに曲線下面積を計算するために標準の受信者操作特性を使用して計算される。「ROC」または「ROC曲線」という用語は、受信者動作特性曲線を指す。ROC曲線は、バイナリ分類器システムの性能のグラフィック表現であり得る。任意の所与の方法の場合、ROC曲線は、様々な閾値設定で特異度に対する感度をプロットすることによって生成され得る。さらに、3つのパラメータ(例えば、感度、特異度、及び閾値設定)のうちの少なくとも1つが提供されると、ROC曲線は、任意の未知パラメータの値または期待値を決定することができる。未知パラメータは、ROC曲線に適合した曲線を使用して決定することができる。例えば、試料中のsRNAのパネルの存在/不在または存在量が提供されると、試験の期待感度及び/または特異度を決定することができる。「AUC」または「ROC-AUC」という用語は、受信者動作特性曲線下の面積を指すことができる。この測定基準は、方法の感度及び特異度の両方を考慮して、方法の診断的有用性の尺度を提供することができる。ROC-AUCは、0.5~1.0の範囲であり得、0.5に近い値は、方法が限定された診断的有用性(例えば、より低い感度及び/または特異度)を有することを示すことができ、1.0に近い値は、方法がより高い診断的有用性(例えば、より高い感度及び/または特異度)を有することを示す。例えば、参照により全体が本明細書に組み込まれる、Pepe et al.,2004,“Limitations of the Odds Ratio in Gauging the Performance of a Diagnostic,Prognostic,or Screening Marker,”Am.J.Epidemiol 159(9):882-890を参照されたい。診断的有用性を特徴付けるための追加のアプローチには、尤度関数、オッズ比、情報理論、予測値、較正(適合度を含む)、及び再分類測定の使用が含まれる。アプローチの例は、例えば、参照により全体が本明細書に組み込まれる、Cook,“Use and Misuse of the Receiver Operating Characteristic Curve in Risk Prediction,”Circulation 2007,115:928-935に要約されている。本開示の実施形態では、分類器は、バイナリ分類器であり得る(すなわち、例えば、状態を表す2つのクラスを分類することができる)か、または3、4、5、もしくはそれ以上の生物学的状態を分類し得る。いくつかの実施形態では、分類器は、少なくとも3、少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、または少なくとも35の生物学的状態を分類することができる。
いくつかの実施形態では、図1のブロック114に示されるように、機械学習分類器をトレーニングした後、追加の発見試料を評価して、パネルにおける分類器特徴の数またはsRNAの数を減少させることができる(図1の矢印111を参照のこと)。例えば、追加の試料の分類に関する分類器特徴の値を使用して、個々の特徴を重み付けすることができるか、または特徴セットを減少させることができる。いくつかの実施形態では、少なくとも100個のsRNA配列が発見試料に基づいて元の特徴セットに含まれ、この特徴セットは、追加の試料からのsRNA配列データを使用して、75未満、または50未満、または20未満に減少される。様々な実施形態では、追加の発見試料を使用して、sRNAパネルが、いくつかの実施形態では、概して、少なくとも10%、または少なくとも25%、または少なくとも50%減少する。様々な実施形態では、追加の発見試料は、発見セットに関して、異なる収集基準を有する試料、例えば、異なる場所での生体試料の収集、または異なる場所での核酸もしくはsRNAの別個の抽出、または異なる場所での別個のsRNA配列決定ライブラリ調製及び/または配列決定を含む。いくつかの実施形態では、追加の試料は、異なる核酸もしくはsRNA抽出プロトコル、または異なる配列決定ライブラリ調製プロトコル及び/または配列決定プロトコルを用いる。sRNAパネルが選択される前にブロック114(図1)での処理が実行され得ることに留意されたい。
トレーニングされた機械学習分類器は、対象由来の生体試料中のパネルにおけるsRNAマーカーの存在もしくは不在または存在量を検出し、かつ分類器を適用することによって、疾患状態についての独立した対象の評価、または疾患サブタイプ(例えば、複雑な疾患のもの)についてのさらなる特定及び評価に使用することができる。図2は、いくつかの実施形態による、疾患もしくは状態または疾患サブタイプについて対象を評価(試験)する方法200の実施形態を説明する。ブロック202では、生体試料を対象(例えば、ヒト)から得ることができる。生体試料は、機械学習分類器をトレーニングするために使用されなかった試料とすることができ、これは、いくつかの実施形態では、試験試料と称することができる。ブロック204では、sRNAデータをsRNAパネル内で検出及び定量化することができ、1つ以上のsRNAパネルにおける生体試料由来のsRNAの存在、不在、または存在量の決定を伴い得る。sRNAは、分子検出アッセイ(定量的もしくは半定量的PCR、または本明細書に記載の他のアプローチなど)を使用して、試料中で検出及び/または定量化され得るか、またはsRNA配列決定及びリードからのアダプター配列のトリミングによって行われ得る。sRNA配列決定は、捕捉RNA配列決定(例えば、捕捉濃縮sRNA配列決定)を伴い得る。sRNAパネルの種類に応じて、いくつかの実施形態では、試料由来のsRNAの存在量が決定される。ブロック206では、トレーニングされた分類器が検出されたsRNAデータに適用されて、図2のブロック208を参照して、生体試料をクラスに割り当てることができる。いくつかの実施形態では、生体試料のクラスへの割り当ては、分類器が生体試料をそのクラスに割り当てた(すなわち、生体試料がそのクラスに属すると予測した)信頼性を示すスコアまたは別の尺度と関連付けられ得る。したがって、いくつかの実施態様では、生体試料は、各クラスに関して計算された対応する確率または別の尺度で2つ以上のクラスに割り当てられ得る。いくつかの事例では、ある特定の閾値を超える関連付けられた確率値を有する割り当てのみが、分類器によって提供され得る(例えば、ユーザインターフェース上に示される、ネットワークを介して通信する、及び/または別様にユーザに出力される)。閾値は、様々な方法で、例えば、ユーザ入力に基づいて選択することができる。
さらに、いくつかの実施形態では、図2(ブロック210)に示されるように、治療推奨またはレジメンは、対象の生体試料の分類の結果に基づいて生成することができる。
様々な生物学的状態に関する分類は、本開示の主題に従って行うことができる。いくつかの実施形態では、分類のための生物学的状態は、中枢神経系の状態である。例えば、いくつかの実施形態では、生物学的状態は、認知症の症状を伴う神経変性疾患である。いくつかの実施形態では、生物学的状態は、アルツハイマー病、パーキンソン病、ハンチントン病、軽度認知障害、進行性核上性麻痺、前頭側頭型認知症、レビー小体型認知症、及び血管性認知症から選択される。これらまたは他の実施形態では、分類のための少なくとも2つの生物学的状態は、運動制御喪失の症状を伴う神経変性疾患である。例えば、いくつかの実施形態では、少なくとも2つの生物学的状態は、アルツハイマー病、進行性核上麻痺、海馬硬化症、レビー小体型認知症、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症から選択される。いくつかの実施形態では、分類のための生物学的状態は、多発性硬化症、視神経炎、横断性脊髄炎、及び視神経脊髄炎を含み得る脱髄疾患である。
いくつかの実施形態では、発見セットは、疾患ステージ、疾患重症度、薬物応答性、または疾患進行の経過についてラベル付けされる。これらの実施形態は、特に、アルツハイマー病、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症などの生物学的状態を評価するために使用される。
さらに他の実施形態では、分類のための生物学的状態は、異なる組織または細胞起源のがんである。これらまたは他の実施形態では、発見セットは、薬物感受性または薬物抵抗性についてもラベル付けされえ、これらの特性が対象の試料中で評価されることを可能にする。いくつかの実施形態では、対象由来の生体試料は、腫瘍またはがん細胞生検である。さらに他の実施形態では、生体試料は、血液、血清、または血漿試料である。
いくつかの実施形態では、分類のための生物学的状態は、炎症性疾患または免疫疾患である。例示的な炎症性疾患または免疫疾患は、全身性エリテマトーデス(SLE)、強皮症、自己免疫性血管炎、糖尿病(1型または2型)、グレーブス病、アディソン病、シェーグレン症候群、甲状腺炎、リウマチ性関節炎、重症筋無力症、多発性硬化症、線維筋痛症、乾癬、クローン病、潰瘍性大腸炎、憩室症、及びセリアック病のうちの1つ以上を含む。いくつかの実施形態では、発見セットは、組織、血液、血清、血漿、または脳脊髄液などの生体液試料を含む。
いくつかの実施形態では、分類のための生物学的状態は、心血管疾患である。いくつかの実施形態では、発見セットは、急性心血管イベントのリスクについてラベル付けされる。かかる実施形態では、疾患分類器は、急性イベントのリスクに対する患者の層別化のための便利なツールを提供する。いくつかの実施形態では、心血管疾患は、冠動脈疾患(CAD)、心筋梗塞、脳卒中、うっ血性心不全、高血圧性心疾患、心筋症、心臓不整脈、先天性心疾患、心臓弁膜症、心臓炎、大動脈瘤、末梢動脈疾患、及び静脈血栓症のうちの1つ以上を含む。
様々な実施形態では、上述のように、分類器は、例えば、複雑な疾患の疾患サブタイプを特定する。かかる実施形態では、目的とする生物学的状態に関連する全発見試料セット(例えば、非疾患対照を除く)、または目的とする生物学的状態に関連する相当数の試料(例えば、約25%超、または約50%超、または約75%超)が疾患サブタイプについてラベル付けされない。かかる実施形態では、複雑な疾患を分類するために教師あり機械学習を使用して作成されたsRNAパネルが教師なしまたは半教師あり機械学習アプローチで用いられて、疾患サブタイプを特定することができる。これらの実施形態では、sRNAパネルは、クラスタ分析のための強力な手段を提供し、異なるsRNA生物発生パターンを伴う異なる疾患サブタイプを特定する。
サブタイプ分類器で使用されるsRNA(例えば、miRNA)のパネルを使用して、異なる疾患サブタイプの異なる創薬可能な標的または経路を特定することができる。sRNAをmRNA標的及び経路にマッピングする際に使用される生物学的データベースは、参照により全体が本明細書に組み込まれる、Zou D,et al.,Biological Databases for Human Research,Genomics Proteomics Bioinformatics,13(2015) 55-63に記載されている。例には、とりわけ、Database of Essential Genes(DEG)、Kyoto Encyclopedia of Genes and Genomes(KEGG)、KEGG Pathways、GeneCards、PolymiRTS(miRNA及びそれらの標的部位の多型)、ChIPBase、miRTarBase、miRWalk、piRNABank、Database of Interacting Protein(DIP)、及びMolecular Interaction Database(MINT)が挙げられる。
例えば、sRNAパネルにおける1つ以上のmiRNAバリアントによって標的とされる遺伝子を伴う生物学的経路を特定することができる。いくつかの実施形態では、生物学的経路は、対応する予測sRNAバリアントを標的遺伝子にマッピングすることによって、疾患サブタイプ毎に特定される。いくつかの実施形態では、予測isomiRが注釈付きmiRNAにマッピングされ、注釈付けされたmiRNAを使用して、異常なsRNA生物発生によって影響を及ぼされるまたは調節不全にされる潜在的な経路を特定する。Bhattacharya A,et al.,PolymiRTS Database 3.0:linking polymorphisms in microRNAs and their target sites with human diseases and biological pathways,Nucleic Acids Res.2014;42:D86-D91を参照されたい。
図6Aを参照すると、いくつかの実施形態では、本発明は、1つ以上の生物学的状態を分類するために、かつそれらの生物学的状態のうちの少なくとも1つをサブタイプ化するために1つ以上のsRNAパネルを生成する(例えば、複雑な疾患の場合)。特発性肺線維症(IPF)に関して、図6Aの実施形態が実施例3で説明される。
図6Aにおいて、プロセス(または方法)600は、複数の試料または対応するsRNA配列データ(本明細書に記載のアダプタートリミングされたもの)及び試料メタデータが取得されたときに開始することができる。複数のブートストラップセットが試料から作成され、分析されて、sRNAシグネチャを作成することができる。図6Aのブロック602を参照すると、プロセス600は、試料をトレーニング群と交差検証群または試験群に分けることによってブートストラップセットを作成する。試料は、ランダムに分けることによって、または別の方法で、トレーニング群と試験群に分けることができる。
モデルを作成するために、ブロック604で、バイナリまたは差次的に発現されたsRNAがトレーニング群で選択され(サブブロック601)、例えば、エラスティックネット(例えば、線形回帰とロジスティック回帰とリッジ回帰との組み合わせ)を使用して(かつ本明細書の他の場所に記載されるように)、候補sRNAの数を減少させる(サブブロック603)。サポートベクトルマシン(SVM)は、サブブロック605で、減少したsRNAセットを使用してトレーニングされる。図6Aのブロック606を参照すると、SVMが試験群(相互検証群)に対して試験される。図6Aのブロック608を参照して、受信者操作特性(特異度、感度、精度など)がモデル性能を評価するために計算される。
図6Aに示されるように、ブロック602~608での動作の処理は、ブロック611として集合的に描写される。決定ブロック610では、ブロック611でのステップがN回繰り返されるようにブロック611での処理の回数(繰り返し回数とも称される)がNに達したかが決定される。Nは、事前選択することができるか、ユーザ入力に基づいて設定することができるか、または他の方法で定義することができる。ブロック602~608での処理(ブロック611)がN回繰り返された(「はい」)とブロック610で決定された場合、プロセス600は、受信者動作特性がN回のブートストラップにわたって平均化されるブロック612に進む。
ブロック614を参照すると、N個のモデルのX%超で選択されたsRNAと係数が組み合わせられて、sRNAシグネチャを生成する。いくつかの実施形態では、N個のモデルの25%超で選択されたsRNAと係数が組み合わせられて、sRNAシグネチャを生成するが、Xが異なる値であり得ることが認識される。
ブロック616を参照すると、任意選択で、生物学的状態(複雑な疾患クラス)の試料に対するsRNAパネル(そのシグネチャにおけるsRNA)の教師なしまたは半教師ありクラスタリングを使用して、異なる疾患サブタイプを特定することができる。ブロック618を参照すると、任意選択で、疾患サブタイプに関与する生物学的経路は、miRNAシード領域及び標的mRNAの分析によって特定される。これらのステップは、図6Bにさらに図式的に示される。
ブロック602~608での処理(ブロック611)がN回繰り返されていない(「いいえ」)とブロック610で決定された場合、プロセス600はブロック602に戻り、そこで別のブートストラップセットが作成され、ブロック604、606、及び608での処理が繰り返される。
図6Bは、複雑な疾患の試料をサブタイプ化するための本開示の実施形態によるsRNAパネルを用いた教師なし学習のプロセス700を図示する。図6Bに示されるように、ブロック704で、プロセス700は、低分子RNA発現値を使用して試料間の距離を計算することを含む。ブロック706では、試料が凝集型または分裂型クラスタリングによってクラスタリングされる。ブロック708では、クラスタラベルが試料に割り当てられる。ブロック710では、任意選択で、クラスタが主成分分析によって検証される。ブロック712では、任意選択で、割り当てられたクラスタラベル上のモデルをトレーニングすることにより、クラスタが教師あり学習(上述のもの)によって検証される。ブロック714では、任意選択で、疾患サブタイプを分類するために使用されるパネルにおけるmiRNAのシード配列を使用して、標的メッセンジャーRNAが予測される。ブロック710、712、及び714での処理を他の順序で行うことができるため、それらのブロックでの処理の順序がほんの一例として示されていることを理解されたい。
他の態様では、本発明は、1つ以上の疾患状態または疾患サブタイプについて対象を評価するための方法を提供する。様々な実施形態では、本方法は、対象の生体試料を提供し、sRNAパネルにおけるsRNAの存在または不在を決定することを含む。その後、このsRNAプロファイルが、本開示により調製された疾患分類器を使用して1つ以上の疾患状態または疾患サブタイプ間で対象の状態を分類するために使用される。
患者の状態または疾患サブタイプが特定された場合、患者を、疾患状態に適切な治療レジメンとマッチング(すなわち、それを投与)することができる、及び/または臨床試験に組み入れるまたは除外することができる。例えば、いくつかの実施形態では、患者は、調節不全または異常経路を標的とし、かつクラスタ分析に使用されるパネルにおける1つ以上のsRNAによって標的とされる経路に対応する療法を投与される。
様々な実施形態では、対象の試料中のsRNAの存在もしくは不在またはレベルは、定量的PCRアッセイなどの分子診断アッセイによって決定される。例えば、sRNA配列の検出は、定量的もしくは定性的PCR、例えば、リアルタイムPCRを含む、プローブの逆転写、増幅、及び/またはハイブリダイゼーションを用いることができる様々な検出プラットフォームのうちの1つに移行する。PCR検出フォーマットは、いくつかの実施形態では、かつ任意選択で、蛍光標識されたプローブと関連して、RT-PCRのためのステムループプライマーを用いることができる。
一般に、リアルタイムポリメラーゼ連鎖反応(qPCR)は、PCR中、つまり、リアルタイムで、標的DNA分子の増幅をモニタリングする。リアルタイムPCRは、定量的かつ半定量的に使用され得る。リアルタイムPCRでPCR産物を検出するための2つの一般的な方法は、(1)任意の二本鎖DNAにインターカレートする非特異的蛍光色素(例えば、SYBR Green(IまたはII))、及び(2)オリゴヌクレオチドからなる配列特異的DNAプローブであって、オリゴヌクレオチドがその相補的配列(例えば、TAQMAN)とのプローブのハイブリダイゼーション後にのみ検出を可能にする蛍光レポーターで標識されている、配列特異的DNAプローブである。
いくつかの実施形態では、アッセイフォーマットは、TAQMANリアルタイムPCRである。TAQMANプローブは、定量的PCRの特異性を増加させるように設計された加水分解プローブである。TAQMANプローブの原理は、相補的標的配列へのハイブリダイゼーション中に、フルオロフォアベースの検出で二重標識プローブを切断するための、Taqポリメラーゼの5’から3’のエキソヌクレアーゼ活性に依存する。TAQMANプローブは、フルオロフォア及びクエンチャで二重標識されており、フルオロフォアがTaqエキソヌクレアーゼ活性によってオリゴヌクレオチドプローブから切断される際に、フルオロフォアシグナルが、検出される(例えば、もはやシグナルはラベルの近接によってクエンチされない)。他の定量的PCR法におけるように、得られた蛍光シグナルは、PCRの指数関数的ステージ中に産物の蓄積の定量的測定を可能にする。TAQMANプローブフォーマットは、検出の高い感度及び特異性を提供する。
いくつかの実施形態では、試料に存在するsRNAは、特異的プライマー、例えば、1つ以上のステムループプライマーを使用して、cDNAに変換される。次いで、cDNAの増幅は、例えば、蛍光レポーティング分子からのシグナルを検出することによってリアルタイムで定量化され得、シグナル強度は、各増幅サイクルでのDNAのレベルと相関する。
あるいは、パネルにおけるsRNA、またはそれらのアンプリコンは、ハイブリダイゼーションによって検出される。例示的なプラットフォームは、表面プラズモン共鳴(SPR)及びマイクロアレイ技術を含む。検出プラットフォームは、簡便な試料処理及びsRNA検出のために、いくつかの実施形態では、マイクロフルイディクスを使用できる。
一般に、試料中のsRNAの存在を決定するための任意の方法が、用いられ得る。かかる方法は、さらに、核酸配列ベースの増幅(NASBA)、フラップエンドヌクレアーゼベースのアッセイ、同様に、分岐DNAによる直接RNAキャプチャ(QuantiGene(商標))、Hybrid Capture(商標)(Digene)、またはnCounter(商標)miRNA検出(Nanostring)を含む。アッセイフォーマットは、miRNA及び他のsRNAの存在を決定することに加えて、とりわけ、固有のシグナル強度変動の制御も提供できる。かかる制御は、例えば、バックグラウンドシグナル強度及び/または試料処理、及び/またはハイブリダイゼーション効率のための制御、同様に、患者試料中のsRNAを検出するための他の望ましい制御(例えば、集合的に「正規化制御」と呼ばれる)を含み得る。
いくつかの実施形態では、アッセイフォーマットは、Invader(商標)アッセイ(Third Wave Technologies)などのフラップエンドヌクレアーゼベースのフォーマットである。インベーダー法を使用する場合、標的部位の3’領域に特異的な配列を含むインベーダープローブと、テンプレートの標的部位の5’領域に特異的な配列及び無関係のフラップ配列を含む一次プローブと、が調製される。次いで、クリベースは、これらのプローブ、標的分子、同様に、フラップ配列に相補的な配列と、蛍光色素及びクエンチャの両方で標識された自己相補的配列と、を含むFRETプローブの存在下で、作用することが可能である。一次プローブがテンプレートとハイブリダイズする際に、インベーダープローブの3’末端は標的部位を貫通し、この構造はクリベースによって切断され、フラップの解離をもたらす。フラップはFRETプローブに結合し、蛍光色素部分は、蛍光の発光をもたらすクリベースによって切断される。
いくつかの実施形態では、RNAは、検出のためのsRNA処理の前に試料から抽出される。RNAは、例えば、RNA Methodologies,A laboratory guide for isolation and characterization.2nd edition,1998,Robert E.Farrell,Jr.,Ed.,Academic Pressに記載の様々な標準手順を使用して精製され得る。加えて、mirVANA(商標) Paris miRNA単離キット(Ambion)、miRNeasy(商標)キット(Qiagen)、MagMAX(商標)キット(Life Technologies)、Pure Link(商標)キット(Life Technologies)を含む、低分子量RNAの単離のための市販の製品と同様に、様々なプロセスがある。例えば、低分子量のRNAは、グラスファイバーフィルタ上での精製が後に続く有機抽出によって単離され得る。miRNAを単離するための代替方法は、磁気ビーズへのハイブリダイゼーションを含む。代替的には、検出のためのmiRNA処理(例えば、cDNA合成)は、生体液試料において、すなわち、RNA抽出ステップを伴わずに実施され得る。
一般に、アッセイは、各アッセイが、注釈付き配列及び/または他の非予測iso-miRよりもsRNA(例えば、isomiR)に対して少なくとも80%、または少なくとも85%、または少なくとも90%、または少なくとも95%、または少なくとも98%特異的であるように構築され得る。注釈付き配列は、miRBaseを参照して決定され得る。例えば、sRNA予測因子特異的リアルタイムPCRアッセイを調製する際、PCRプライマー及び蛍光プローブは、調製され得、それらの特異性のレベルについて試験され得る。二環式ヌクレオチド(例えば、LNA、cET、及びMOE)または他のヌクレオチド修飾(塩基修飾を含む)は、検出の感度または特異度を増加させるためにプローブに用いられ得る。
さらに他の実施形態では、対象の試料に存在するsRNAは、本明細書の他の場所に記載されるように、sRNA配列決定及びアダプタートリミングによって決定または定量化される。sRNA配列決定は、捕捉オリゴヌクレオチドプローブを用いて増幅及び/または配列決定のためにsRNA標的を濃縮/捕捉することができる捕捉RNA配列決定を用いることができる。WO2011/06967を参照されたい。
本明細書で使用される場合、文脈上他の意味に解すべき場合を除き、「約」という用語は、関連する数値の±10%を意味する。
本発明の他の態様及び実施形態は、以下の実施例によって明らかになるであろう。
実施例1:炎症性腸疾患(IBD)のマルチクラス疾患分類器の構築。
特定のsRNA分子の存在または不在に基づいてIBD試料を分類する疾患分類器を構築するために、sRNAパネルを、クローン病、潰瘍性大腸炎、及び憩室症などの、目的の異なる疾患状態を表す様々なトレーニングセットにおける配列データから決定した。
特定のsRNA分子の存在または不在に基づいてIBD試料を分類する疾患分類器を構築するために、sRNAパネルを、クローン病、潰瘍性大腸炎、及び憩室症などの、目的の異なる疾患状態を表す様々なトレーニングセットにおける配列データから決定した。
試料
すべての試料は、それらのそれぞれの施設内審査委員会(IRB)の承認に従って収集され、無制限の使用について患者の同意を有する。データを、電子診療記録及びカルテ審査から収集した。臨床データは、年齢、性別、人種、民族性、体重、ボディマス指数、喫煙歴、アルコール使用歴、及び家族病歴などの情報を含む。疾患関連データは、診断、炎症性腸疾患(IBD)診断時の年齢、現在及び以前の薬物療法、併存症、大腸全摘及び回腸嚢肛門管吻合術(IPAA)時の年齢、同様に、パウチ年齢、イレオストミーの閉鎖からの、またはパウチ手術からの時間(これらの処置を受けている患者から該当する場合)などの情報を含む。
すべての試料は、それらのそれぞれの施設内審査委員会(IRB)の承認に従って収集され、無制限の使用について患者の同意を有する。データを、電子診療記録及びカルテ審査から収集した。臨床データは、年齢、性別、人種、民族性、体重、ボディマス指数、喫煙歴、アルコール使用歴、及び家族病歴などの情報を含む。疾患関連データは、診断、炎症性腸疾患(IBD)診断時の年齢、現在及び以前の薬物療法、併存症、大腸全摘及び回腸嚢肛門管吻合術(IPAA)時の年齢、同様に、パウチ年齢、イレオストミーの閉鎖からの、またはパウチ手術からの時間(これらの処置を受けている患者から該当する場合)などの情報を含む。
生検を、結腸上皮から採取した。手術不能の潰瘍性大腸炎(IUC)、手術可能な潰瘍性大腸炎(OUC)、クローン病(CD)、憩室症(DD)、ポリープ/ポリポーシス(PP)、鋸歯状ポリープ/ポリポーシス(SPP)、結腸癌(CC)、直腸癌(RC)を、臨床的、内視鏡的、組織学的、及び画像研究に従って定義した。さらなる組み入れ基準は、CD患者についての回腸炎の存在と、内視鏡検査によって見られ、IUC患者についての組織学によって確認された正常な回腸末端を有することであった。定期的なスクリーニングのために結腸内視鏡検査を必要とし、内視鏡検査及び/または組織学によって非疾患腸組織を有するとして検証された個体を、正常対照としてラベル付けした。
すべての生検を、最低2名の施設内のIBD訓練された病理医によって評価し、コンセンサススコア及び診断を、臨床及び業界標準の診断プロトコルに従って提供した。簡単に説明すると、活性炎症特性を、好中球浸潤(0~3)及び潰瘍形成の面積(0~3)に従ってスコアリングし、各試料を、非活性、陰窩炎、陰窩膿瘍、多数の陰窩膿瘍(3超/高倍率視野)、及び潰瘍形成に分類した。元のGeboesスコア(OGS)または簡略化Geboesスコア(SGS)を、UCを分類するために使用した。クローン病活性指数(CDAI)及びクローン病内視鏡的重症度指数(CDEIS)を、CDを分類するために使用した。ヒンチェイ分類を、DDを特徴付けるために使用した。大腸がん、ポリープ、及び鋸歯状ポリープを、Multi-Society Task Force on Colorectal Cancer(CRC)の最新の勧告に従って分類した。
IBDに関連する疾患クラスに対する低分子RNA予測因子を特定するために、低分子RNA配列決定データを、GEOデータベースからダウンロードし、ディスカバリーセットとして使用した。低分子RNA配列決定データを、クローン病(GSE66208)、潰瘍性大腸炎(GSE114591)、憩室症(GSE89667)、及び正常/対照(GSE118504)についてのジオデータベース研究からダウンロードした。
データファイルを、Centos用のSRAツールキットv2.8.0を使用して.sra形式から.fastq形式に変換し、.fastq形式のファイルを、参照によりその全体が本明細書に組み込まれる2018年1月23日に出願された米国特許第2018/0258486号及び国際出願第PCT/US2018/014856号に記載されるように処理した。具体的には、すべての.fastqデータファイルを、(Regex)正規表現ベースの検索及びトリムアルゴリズムを使用してアダプター配列をトリミングすることによって処理し、5’ TGGAATTCTCGGGTGCCAAGGAA 3’(配列番号1)(最大15ヌクレオチドの3’末端トランケーションを含有する)を、3’アダプター配列を特定するために入力し、Regex検索のための2のレーベンシュタイン距離または5.のハミング距離のパラメータは、ユーザ指定の検索語の1番目のヌクレオチドが、ヌクレオチド挿入、欠失、及び/または交換に関して未改変であるように要求する。
マルチクラス分類器を構築するために、試料の60%をトレーニングに使用し、試料の40%を試験に使用して、試料を24の独立したトレーニング群及び試験群にランダムに分けた。事前選択により、1つのクラスに存在し、かつ他の3つのクラスのうちの(少なくとも)1つのすべての試料に不在である最大20,000個のsRNAが選択された。事前選択されたsRNAは、その特定のクラスにおいて25%、及びそのクラス内の各研究において少なくとも25%の最小頻度で存在しなければならなかった。sRNAはまた、試験試料(例えば、すべての試料からトレーニングセットを差し引いたもの)に25%の最小頻度で存在しなければならなかった。エラスティックネットを使用した特徴減少により、sRNAファミリー用のフィルタ(シード配列または非テンプレート3’付加など)を使用せずに、sRNAの数を1クラスあたり126未満に減少させた。0.5の閾値でサポートベクトルマシンを使用して試験を実行した。
クラスあたりの評価指標
クラスあたりの評価指標を、疾患クラスを特定するために最も重要であるマーカーを特定するために、各クラスに対して決定した。sRNAパネルを、目的の異なる疾患状態を表す様々なトレーニングセットにおける配列データから決定した。疾患クラスの低分子RNA予測因子を含有する特異的バイオマーカーパネルを、以下のように特定した:
・対照(健常個体/「正常」個体):表2(炎症性腸疾患の対照(「正常」個体)に対する結腸上皮組織からのsRNAバイオマーカーのパネルを示す)、
・クローン病:表3(クローン病に対する結腸上皮組織からのsRNAバイオマーカーのパネルを示す)、
・潰瘍性大腸炎:表4(潰瘍性大腸炎に対する結腸上皮組織からのsRNAバイオマーカーのパネルを示す)、及び
・憩室症:表5(憩室症に対する結腸上皮組織からのsRNAバイオマーカーのパネルを示す)。
クラスあたりの評価指標を、疾患クラスを特定するために最も重要であるマーカーを特定するために、各クラスに対して決定した。sRNAパネルを、目的の異なる疾患状態を表す様々なトレーニングセットにおける配列データから決定した。疾患クラスの低分子RNA予測因子を含有する特異的バイオマーカーパネルを、以下のように特定した:
・対照(健常個体/「正常」個体):表2(炎症性腸疾患の対照(「正常」個体)に対する結腸上皮組織からのsRNAバイオマーカーのパネルを示す)、
・クローン病:表3(クローン病に対する結腸上皮組織からのsRNAバイオマーカーのパネルを示す)、
・潰瘍性大腸炎:表4(潰瘍性大腸炎に対する結腸上皮組織からのsRNAバイオマーカーのパネルを示す)、及び
・憩室症:表5(憩室症に対する結腸上皮組織からのsRNAバイオマーカーのパネルを示す)。
教師あり、ノンパラメトリック、ロジスティック回帰機械学習モデルを使用することによって、最終的な選択マーカー計数を、128から100に低減した。分類モデルの性能を評価するために、ROC/AUC曲線を、クラスあたりに特定されたマーカーの各セットについて取得したが、ここでROCは確率曲線であり、AUCは分離可能性の程度または尺度を表す。ROC曲線は、偽陽性率に対して真陽性率でプロットされる。ROC/AUC曲線を、上記のように、様々なIBDクラス及び対照について確立し、これらを図3A、図3B、図3C、及び図3Dに示す。
マルチクラス疾患分類
疾患分類器を、sRNAパネルの陽性または陰性マーカー、同様に、対照、クローン病、潰瘍性大腸炎、及び憩室症について上で特定されたパネルにおけるsRNAの存在または不在に基づいてトレーニングした。クラスメトリックがすべて組み合わされた際の計算モデルの精度を評価するために、試験を、各クラスの参照試料に対するモデルの特定予測力を評価するために実行した。モデルは98%の正解率を有することが見いだされた。図4は、真の参照同一性に対する疾患クラスの正確な予測の割合を示すヒートマップを示す。これらの結果は、以下のマトリックスにも示される。
疾患分類器を、sRNAパネルの陽性または陰性マーカー、同様に、対照、クローン病、潰瘍性大腸炎、及び憩室症について上で特定されたパネルにおけるsRNAの存在または不在に基づいてトレーニングした。クラスメトリックがすべて組み合わされた際の計算モデルの精度を評価するために、試験を、各クラスの参照試料に対するモデルの特定予測力を評価するために実行した。モデルは98%の正解率を有することが見いだされた。図4は、真の参照同一性に対する疾患クラスの正確な予測の割合を示すヒートマップを示す。これらの結果は、以下のマトリックスにも示される。
実施例2:スパイクインデータの使用
本実施例は、miRNeasy Serum/Plasma Advanced Kit(Qiagen)を使用して137個の0.5mL脳脊髄液試料から抽出したsRNAを使用して、全シーケンシングランから取得したスパイクインデータの使用を説明する。
本実施例は、miRNeasy Serum/Plasma Advanced Kit(Qiagen)を使用して137個の0.5mL脳脊髄液試料から抽出したsRNAを使用して、全シーケンシングランから取得したスパイクインデータの使用を説明する。
プールした5つのキャリブレータを含むRNAスパイクイン混合物を使用し、試料中の各スパイクの最終濃度が以下になるように、プールを各試料にスパイクした後にライブラリ調製した。
キャリブレータ1=0.0001amol/μL
キャリブレータ2=0.001amol/μL
キャリブレータ3=0.01amol/μL
キャリブレータ4=0.1amol/μL
キャリブレータ5=1.0amol/μL
キャリブレータ1=0.0001amol/μL
キャリブレータ2=0.001amol/μL
キャリブレータ3=0.01amol/μL
キャリブレータ4=0.1amol/μL
キャリブレータ5=1.0amol/μL
試料(スパイクイン混合物を含む)を、3’及び5’アダプターライゲーションを含むライブラリ調製、続いて、逆転写、その後、PCR増幅に供して、Sciclone iQ NGS Workstation(PerkinElmer)上でNextFlex Small RNA Library Preparation Kit v3.0(BIOO)を使用して、固有のバーコードを各試料に添加した。
試料を0.65nMの最終濃度までプールし、1方向あたり101bpでランするS2フローセルを使用してNovaSeq 6000 Sequencing System(Illumina)で配列決定した。このスキーマを使用して、各試料を12,000,000リード以上の深度で配列決定した。トリミングアルゴリズムを使用してデータをトリミングした。
スパイクイン参照ライブラリを使用してスパイクインをマッピングした。リードをTRPM(100万リードあたりのトリミングされたリード)に変換した。データをプロットし、R二乗を計算した。図5は、137個の試料の全ランのデータをプロットした結果を示す(R2=0.989)。
実施例3:特発性肺線維症のサブタイプ化
特発性肺線維症(IPF)は、不可逆的な致命的疾患である。IPFの発症率は、米国、ヨーロッパ、及びアジアで10万人あたり2.5~16.0である。これらの発症率に基づいて、世界中で毎年100万人以上がこの疾患と闘っていると推定することができる。IPFは、呼吸困難、咳、及び経時的な肺機能の低下を症候的に呈する。IPFの診断は、多くの場合1年以上かかり、かつ臨床試験、気管支鏡検査、肺生検、及び組織学的検査を行う呼吸器科医、胸部放射線科医、及び病理医からなる多くの専門分野にわたるチームを必要とする複雑な手順である。
特発性肺線維症(IPF)は、不可逆的な致命的疾患である。IPFの発症率は、米国、ヨーロッパ、及びアジアで10万人あたり2.5~16.0である。これらの発症率に基づいて、世界中で毎年100万人以上がこの疾患と闘っていると推定することができる。IPFは、呼吸困難、咳、及び経時的な肺機能の低下を症候的に呈する。IPFの診断は、多くの場合1年以上かかり、かつ臨床試験、気管支鏡検査、肺生検、及び組織学的検査を行う呼吸器科医、胸部放射線科医、及び病理医からなる多くの専門分野にわたるチームを必要とする複雑な手順である。
IPF患者は予後不良であり、診断時から5年未満で死亡率が50%超に達する。IPF肺組織の病理学は、線維芽細胞の無制御増殖及び細胞外マトリックス分子の過剰蓄積に起因する肺構造の歪みを示す。しかしながら、全生存率は絶対的なものではなく、患者の経緯は様々であり、一部の患者では進行の遅い疾患であり、他の患者では急速に悪化する。したがって、異質性は、疾患ドライバーに影響を及ぼす遺伝的及び環境的要因、ならびに十分に理解されていない疾患維持に必要な他の遺伝子に関係している可能性がある。
IPF患者における転帰を予測し、かつ疾患ドライバーをよりよく理解することができるバイオマーカーを特定するために、本明細書に記載の機械学習発見プラットフォームを使用して、血液ベースの低分子RNA(sRNA)バイオマーカーを発見することができると仮定した。この仮説を試験するために、観察的、多部位、前向き縦断プロファイル研究からのIPF試料を、本発明の実施形態に従って評価した。プロファイル研究は、123個の血清タンパク質の統計的相関を分析した。Maher TM,et al.,PROFILEing idiopathic pulmonary fibrosis:rethinking biomarker discovery.European Respiratory Review 22,148-152(2013)、Maher,TM,et al.,An epithelial biomarker signature for idiopathic pulmonary fibrosis:an analysis from the multicenter PROFILE cohort study.The Lancet Respiratory Medicine 5,946-955(2013)を参照されたい。本研究の目的は、IPFをさらに分類する(すなわち、サブタイプ化する)ことであった。結果は、sRNAシグネチャ(86個のsRNAのパネルに基づく)が、100%の精度で対照試料からIPFを分類することができ、IPF試料をいくつかの異なるクラスタにタイプ分けすることができることを示す。
50個のIPF疾患試料及び170個の健常ドナー試料を使用した(PAXgene生物検体)。具体的には、一酸化炭素(DLco)、努力呼気量、第1の呼吸(Fev1)、努力肺活量(Fvc)、及びFev1:Fvc比メタデータに対応する肺拡散能力を有する170名の年齢及び性別が一致した対照を選択した。
QIACube Connect(QIAGEN)自動液体ハンドラ上でPAXgene Blood RNA Extraction Kit(QIAGEN)を使用して血液RNAを抽出した。Qubit 4 Fluorometer(Thermo)上でRNA HS Assay Kit(Thermo)を使用してRNA量を評価した。LabChip GX Touch(PerkinElmer)上でLabChip RNA HS Assay Kit(PerkinElmer)を使用してRNA完全性スコア(RIN)を評価した。各試料から250ugの総RNAを96ウェルプレートにアリコートした。スパイクインキャリブレータのカクテルを各試料に添加して、分析中に品質管理を監視し、下流正規化を容易にした。各試料に固有のi7/i5デュアルインデックスを組み込んで多重配列決定を支援するSciclone iQ NGS Workstation(PerkinElmer)上でNextFlex Small RNA Library Prep Kit v3(BIOO)を使用して次世代配列決定(NGS)ライブラリを調製した。Qubit 4 Fluorometer(Thermo)上で1x dsDNA HS Assay Kit(Thermo)を使用してライブラリを定量化した。LabChip DNA 3K NGS Assay Kit(PerkinElmer)を使用してライブラリ断片化分析を評価した。ライブラリを1.0nMの濃度でプールした。NovaSeq 6000 Sequencing System(Illumina)上でS2 Flow Cell Kit(Illumina)を使用して、プールしたライブラリを1試料あたり4,000万の対合末端リードの標的深度で配列決定した。
低分子RNA配列決定データ品質を、FASTQCを使用して評価した。フィルタを通過したリード(Qスコア00%超)を処理し、低分子RNAに注釈を付けるように設計された一連のトリミング及びショートリードアライメントアルゴリズムを使用して注釈を付けた。このショートリードアラインメントアプローチは、低分子RNAの5’末端及び3’末端におけるテンプレート化及び非テンプレート化ヌクレオチド付加の注釈付けを可能にし、エクソソームへの遺伝子標的及び細胞局在に関する情報を提供する。このショートリードアラインメントアプローチは、マイクロRNAの注釈付きライブラリと比較して10,000倍超多くの固有の低分子RNA遺伝子のマッピングも可能にする。分析は、分析に使用した17~43塩基対長のマッピングされたリードにわたって一貫したプロファイルを示した。
IPF試料及びCTL試料を各々、モンテカルロ交差検証ランで使用するために、90:10の比率(トレーニング:試験)でトレーニングセット及び試験セットに無作為に分けた。モンテカルロラン後、教師あり及び教師なし機械学習(ML)を利用した一連の人工知能アルゴリズムを使用してデータを分析して、予測sRNAシグネチャを特定した。MLアルゴリズムは、トレーニング試料セットを使用してモデルを作成し、その後、試験試料セットを使用して精度を測定した。
具体的には、トレーニング試料中の最小クラス頻度が5%超であったsRNAを選択した。エラスティックネットアルゴリズムを使用して、sRNA遺伝子ファミリー及び3’非テンプレート化ヌクレオチド付加などの超特徴を使用してパネルを減少させた。サポートベクトルマシン(SVM)を使用して試験試料を分析し、その後、受信者動作特性(ROC)を使用して、曲線下面積、精度、感度、特異度、正の予測値、負の予測値、及びF1スコアを測定した。
96回のモンテカルロ交差検証ランでは、86個の低分子RNA遺伝子のsRNAシグネチャが特定され、IPF試料をCTL試料と区別する際に99.3%の精度(95%信頼区間98.5~100%、p<0.00001)を提供した。疾患予測モデルは、試料毎に0.0~1.0のSVMスコアももたらした。0.5超のスコアを疾患として分類した。CTL試料の疾患確率スコアのおよそ94%が0.0~0.1であった。試料の厳密なグループ化は、CTL試料が同種群であることを示した。対照的に、IPF試料は、異質性を示唆するいくつかの異なるピークを有する広い平坦な領域に広がる分布を示した。
IPF試料をCTL試料と区別した86個の低分子RNA遺伝子がsRNAシグネチャに存在した。このシグネチャでは、CTL試料と比較して、37個(43%)のsRNAが上方制御され、49個(57%)のsRNAが下方制御された。このシグネチャは、71個のmiRNAアイソフォーム、タンパク質コード遺伝子のイントロン及びエクソンにマッピングする9つの遺伝子間由来のsRNA、3つのrRNA由来のsRNA、2つのpiRNAアイソフォーム、及び1つのyRNA由来のsRNAから成った。CTLと比較して10倍超の過剰発現を有する4つのmiRNAアイソフォームがIPF試料に存在し、CTLと比較して10倍未満の下方制御を有する7つのmiRNAアイソフォーム及び3遺伝子間sRNAがIPF試料に存在した。
教師なし階層的クラスタリングの場合、予測sRNAシグネチャから86個のsRNA遺伝子を使用してユークリッド距離を計算した。完全結合凝集型クラスタリングを使用して試料をグループ化した。結果は、3つのIPFサブタイプを明らかにし、86個の予測低分子RNA遺伝子がすべてのIPF試料において均一に分布及び発現していないことを示した。
主成分(PC)分析は、教師なし階層的クラスタリング分析から割り当てられたサブタイプ群を使用してIPF試料を分離することを示した。単位分散スケーリングを適用し、補完を伴う特異値分解(SVD)を使用して主成分を計算した。PC1(29%)及びPC2(19%)を使用して試料をプロットした。予測楕円は、同じ群からの新たな観察結果が楕円内に入る確率0.95を示す。
目標予測アルゴリズムを使用して、sRNAシグネチャにおける86個の低分子RNA遺伝子の標的を特定した。目標予測プロセスは、99.3%の精度でIPFとCTLを分類し、かつIPF試料をサブグループに層別化したsRNAシグネチャからの86個の低分子RNA遺伝子の各々を分析することから開始した。これらの86個の遺伝子内で、40個の固有の「シード」が発見された。これらの40個のシードを使用して、目標予測アルゴリズムは、p<0.01及びFDR<0.05を有する14,280個の予測遺伝子をもたらした。3つの交差検証参照検索を使用して、重み付け予測を行った。生物学的方向性を適用して、機能的に関連する標的を解析した。「細胞成分」のための遺伝子オントロジー用語濃縮を使用して、低分子RNA遺伝子及び標的を解析した。
この研究の結果は、99.3%の精度でIPF試料をCTL試料と区別することができ、IPF試料を3つの主要なサブタイプに層別化することもできたsRNAシグネチャを特定した。SRNAシグネチャは、86個の低分子RNA遺伝子のパネルを含む。sRNAシグネチャの生物学的有意性を分析することにより、いくつかの生物学的経路の調節不全が予測された。
実施例4:候補sRNAの減少
特発性肺線維症(IPF)と診断された511名の患者及び221名の正常健常対照(CTL)対象のPAXgene Blood RNAから得られた低分子RNA配列決定データを、機械学習を使用して分析して、IPFまたはCTLを分類することができるバイオマーカーを特定した。3つの異なる分類ランを試験し、分類器が、(1)すべての低分子RNA特徴、(2)ヒトゲノムに完全にマッピングし、かつ低分子RNAの遺伝子間マッピングを許可しない低分子RNAのみ、及び(3)スワップなしのマイクロRNAアイソフォーム、トランスファーRNA由来の断片、リボソームRNA由来の断片のみを選択することを許可した。
特発性肺線維症(IPF)と診断された511名の患者及び221名の正常健常対照(CTL)対象のPAXgene Blood RNAから得られた低分子RNA配列決定データを、機械学習を使用して分析して、IPFまたはCTLを分類することができるバイオマーカーを特定した。3つの異なる分類ランを試験し、分類器が、(1)すべての低分子RNA特徴、(2)ヒトゲノムに完全にマッピングし、かつ低分子RNAの遺伝子間マッピングを許可しない低分子RNAのみ、及び(3)スワップなしのマイクロRNAアイソフォーム、トランスファーRNA由来の断片、リボソームRNA由来の断片のみを選択することを許可した。
いずれの場合にも、モデルを49個のIPF試料及び182個のCTL試料でトレーニングし、462個のCTL試料及び39個のCTL試料で試験した。いずれの場合にも、分類器が最小トレーニングセット頻度10%で1クラスあたり最大3,000個の低分子RNA特徴を選択することを許可した。いずれの場合にも、エラスティックネットは、最終バイオマーカーパネルを1モデルあたり最大96個の低分子RNAに減少させた。
結果は、スワップなしのマイクロRNAアイソフォーム、トランスファーRNA由来の断片、リボソームRNA由来の断片のみを許可するように事前選択フィルタを制限することにより、71.2のAUC及び92.6%の精度で最良の性能がもたらされたことを示す。事前選択フィルタにすべての低分子RNAを許可することにより、66.7%のAUC及び18.3%の精度がもたらされた。ヒトゲノムに完全にマッピングする低分子RNAのみを許可し、かつ低分子RNAの遺伝子間マッピングを許可しないように事前選択フィルタを制限することにより、69.3のAUC及び45.8%の精度がもたらされた。
加えて、事前選択は、miRNAシード配列に関する情報を用いることができる。低分子RNA配列決定データを、合計693個のがん性(LUAD)及び231個の正常隣接組織(CTL)肺生検試料を含む4つの研究(GSE110907、GSE62182、GSE83527、及びTCGA-LUAD)から集計した。これらの試料を、LUADまたはCTL組織を分類するように設計された交差検証を用いた機械学習を使用して分析した。
例示的な調査では、このシステムは、GSE62182、GSE83527、及びTCGA-LUADからの645個のLUAD試料及びCTL試料でトレーニングし、GSE110907からの48個のLUAD試料及びCTL試料で試験した。2回目の調査では、このシステムは、GSE110907及びTCGA-LUADからの563個のLUAD試料及び101個のCTL試料でトレーニングし、GSE2182及びGSE83527からの130個のLUAD試料及びCTL試料で試験した。いずれの場合にも、事前選択アルゴリズムが2,000個のsRNA特徴または6,000個のsRNA特徴のいずれかの選択を許可された50回のブートストラップ試験を行った。その後、一致するシード配列(低分子RNA特徴の5’末端からヌクレオチド2~8)に基づいて選択されたsRNAが凝集したか、または凝集しないままであった。シード凝集特徴セットまたは非凝集特徴セットを、最大96個の低分子RNAを許可するエラスティックネットアルゴリズムを使用して減少させた。減少した特徴セットを使用して、GSE110907またはGSE62182及びGSE83527からの試料を試験したサポートベクトルマシンをトレーニングした。
結果は、2,000個及び6,000個のsRNAの事前選択により、試験した試料に対して同等の精度がもたらされたことを示した。その一方で、シード凝集特徴セットからの値でトレーニングしたサポートベクトルマシンは、非シード凝集研究と比較して向上した分類性能をもたらした。図7を参照されたい。
引用文献及び代替実施形態
本明細書で引用されるすべての参考文献は、個々の刊行物または特許または特許出願が各々、すべての目的のために参照によりその全体が組み込まれると具体的かつ個別に示された場合と同じ程度に、すべての目的のために参照によりそれらの全体が本明細書に組み込まれる。
本明細書で引用されるすべての参考文献は、個々の刊行物または特許または特許出願が各々、すべての目的のために参照によりその全体が組み込まれると具体的かつ個別に示された場合と同じ程度に、すべての目的のために参照によりそれらの全体が本明細書に組み込まれる。
本発明は、非一時的なコンピュータ可読記憶媒体に組み込まれたコンピュータプログラム機構を備えるコンピュータプログラム製品として実装することができる。例えば、このコンピュータプログラム製品は、図1と図2の任意の組み合わせで示される及び/または説明されるプログラムモジュールを含み得る。これらのプログラムモジュールは、CD-ROM、DVD、磁気ディスク記憶装置製品、USBキー、または他の非一時的なコンピュータ可読データまたはプログラム記憶装置製品に記憶することができる。
Claims (74)
- 1つ以上の生物学的状態について対象を評価するための分類器を作製するための方法であって、
発見試料セットにわたるsRNA配列の存在もしくは不在または存在量を含むsRNA配列データを提供することであって、前記発見試料セットが1つ以上の生物学的状態の存在または不在を表す、前記提供することと、
候補sRNA配列であって、それらの存在もしくは不在または存在量が生物学的状態の存在または不在と相関している、前記候補sRNA配列を選択することと、
前記候補sRNA配列から、前記1つ以上の生物学的状態について試料を評価するための特徴を含む分類器をトレーニングすることと、を含む、前記方法。 - 前記発見試料が2つ以上の生物学的状態に対して陽性または陰性であるとラベル付けされる、請求項1に記載の方法。
- 前記sRNA配列データが、sRNA配列リードから5’及び3’配列決定アダプターをトリミングすることによって、かつ参照配列または遺伝子座に基づいてsRNA配列バリアントを統合することなく処理される、請求項1に記載の方法。
- 候補sRNA配列が、それらの存在もしくは不在または存在量が生物学的状態と相関する程度に基づいて選択される、請求項3に記載の方法。
- 少なくとも1つの候補sRNA配列が、生物学的状態に対して陽性である複数の発見試料に存在し、すべての非疾患試料または異なる生物学的状態でラベル付けされたすべての試料に不在である、請求項4に記載の方法。
- 候補sRNA配列であって、それらの存在または存在量によって生物学的状態の存在または不在を個別に予測する、前記候補sRNA配列が選択される、請求項4に記載の方法。
- 候補sRNA配列であって、それらの存在または存在量が生物学的状態の存在または不在を予測し、かつ少なくとも0.01のp値を有する、前記候補sRNA配列が選択される、請求項6に記載の方法。
- 少なくとも1つの候補sRNA配列であって、それらの存在または存在量が生物学的状態の不在の存在を予測し、少なくとも0.0001のp値を有する、前記少なくとも1つの候補sRNA配列が選択される、請求項7に記載の方法。
- 少なくとも1つの候補sRNA配列であって、それらの存在または存在量が生物学的状態の存在または不在を予測し、かつ少なくとも0.000001のp値を有する、前記少なくとも1つの候補sRNA配列が選択される、請求項7に記載の方法。
- 少なくとも1つの候補sRNA配列であって、それらの存在または存在量が生物学的状態の存在または不在を予測し、かつ少なくとも0.00000001のp値を有する、前記少なくとも1つの候補sRNA配列が選択される、請求項7に記載の方法。
- 少なくとも1つの候補sRNA配列であって、それらの存在または存在量が生物学的状態の存在または不在を予測し、かつ少なくとも0.0000000001のp値を有する、前記少なくとも1つの候補sRNA配列が選択される、請求項7に記載の方法。
- 少なくとも2つの生物学的状態の存在または不在を個別に予測する候補sRNA配列が選択される、請求項7に記載の方法。
- 前記発見試料セットが少なくとも2つの別個の研究から得られ、前記選択された候補sRNA配列の各々が各研究からの少なくとも1つの試料に存在した、請求項1に記載の方法。
- 前記別個の研究が異なる場所での生体試料の収集を含む、請求項13に記載の方法。
- 前記別個の研究が異なる場所での核酸またはsRNAの抽出をさらに含む、請求項14に記載の方法。
- 前記別個の研究が異なる場所でのsRNA配列決定をさらに含む、請求項15に記載の方法。
- 前記発見試料セットが生物学的状態のステージ、グレード、または重症度についてさらにラベル付けされ、リードカウントがかかるステージ、グレード、または重症度と相関する候補sRNA配列が選択される、請求項1~16のいずれか1項に記載の方法。
- 前記sRNA配列が、sRNA配列のレベルを内在性sRNA対照及び/またはスパイクイン対照に対して正規化するために、前記対照を使用してsRNA配列決定によって決定されたものである、請求項17に記載の方法。
- 複数の試料由来のRNAが配列決定のためにプールされ、異なる試料由来の配列が試料特定タグ配列を含む、請求項18に記載の方法。
- 候補sRNA配列が100万リードあたり少なくとも0.1のトリミングされたリードの平均リードカウントを有する、請求項19に記載の方法。
- 候補sRNA配列が、生物学的状態において増加した配列多様性を有するsRNAファミリーを特定し、かつ前記sRNAファミリー内のsRNA配列を候補sRNA配列として選択することによって選択される、及び/またはエクソソーム中での存在に関連する配列特徴を有する候補sRNA配列が選択される、請求項1に記載の方法。
- 前記発見試料セットが、少なくとも3つの生物学的状態または少なくとも5つの生物学的状態の存在及び不在を表す、請求項1~21のいずれか1項に記載の方法。
- 前記発見試料セットが、少なくとも10の生物学的状態の存在及び不在を表す、請求項22に記載の方法。
- 前記分類器が、sRNA配列のパネルの存在もしくは不在または存在量に基づいて試料を分類するようにトレーニングされ、前記パネルが、1クラスあたり約4~約200個のsRNA配列、または1クラスあたり約4~約100個のsRNA配列、または1クラスあたり約4~約50個のsRNA配列を含む、請求項1~23のいずれか1項に記載の方法。
- 前記発見試料セットが、固体組織試料、生体液試料、または培養細胞を含む、請求項1~24のいずれか1項に記載の方法。
- 前記発見試料セットが、血液、血清、血漿、脳脊髄液、尿、または唾液である、請求項25に記載の方法。
- 前記発見試料セットが固体組織生検である、請求項25に記載の方法。
- 前記発見試料セットが、前記少なくとも2つの生物学的状態に対して陽性である少なくとも10個の試料を含む少なくとも100個の試料を含む、請求項1~27のいずれか1項に記載の方法。
- 前記発見試料が、少なくとも25個の非疾患または健常対照を含む、請求項28に記載の方法。
- 前記分類器が、パラメトリック/ノンパラメトリック距離測定法、ロジスティック回帰、サポートベクトルマシン、決定木、ランダムフォレスト、ニューラルネットワーク、プロビット回帰、フィッシャー線形判別、単純ベイズ分類器、パーセプトロン、二次分類器、カーネル推定、k近傍法、学習ベクトル量子化、及び主成分分析などの教師あり、教師なし、半教師あり機械学習モデルのうちの1つ以上を使用してトレーニングされる、請求項1~29のいずれか1項に記載の方法。
- 前記分類器が、線形サポートベクトルマシンを使用してトレーニングされる、請求項30に記載の方法。
- 追加の発見試料からのsRNA配列データが、分類器特徴を減少させるために評価される、請求項31に記載の方法。
- 前記生物学的状態が、中枢神経系の状態である、請求項1~32のいずれか1項に記載の方法。
- 少なくとも2つの生物学的状態が、認知症の症状を伴う神経変性疾患である、請求項33に記載の方法。
- 少なくとも2つの生物学的状態が、アルツハイマー病、パーキンソン病、ハンチントン病、軽度認知障害、進行性核上性麻痺、前頭側頭型認知症、レビー小体型認知症、及び血管性認知症から選択される、請求項33に記載の方法。
- 少なくとも2つの生物学的状態が、運動制御喪失の症状を伴う神経変性疾患である、請求項33に記載の方法。
- 少なくとも2つの生物学的状態が、アルツハイマー病、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症から選択される、請求項36に記載の方法。
- 少なくとも2つの生物学的状態が、任意選択で多発性硬化症、視神経炎、横断性脊髄炎、及び視神経脊髄炎を含む、脱髄疾患である、請求項33に記載の方法。
- 1つ以上の生物学的状態が、アルツハイマー病、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症から選択され、トレーニング試料が、疾患ステージ、疾患重症度、薬物応答性、または疾患進行の経過についてラベル付けされる、請求項1~32のいずれか1項に記載の方法。
- 前記生物学的状態が、異なる組織または細胞起源のがんである、請求項1~32のいずれか1項に記載の方法。
- 前記生物学的状態が、薬物感受性及び薬物抵抗性のがんを含む、請求項40に記載の方法。
- 前記対象由来の前記生体試料が、腫瘍またはがん細胞生検である、請求項40または41に記載の方法。
- 前記生物学的状態が、任意選択で全身性エリテマトーデス(SLE)、強皮症、自己免疫性血管炎、糖尿病(1型または2型)、グレーブス病、アディソン病、シェーグレン症候群、甲状腺炎、リウマチ性関節炎、重症筋無力症、多発性硬化症、線維筋痛症、乾癬、クローン病、潰瘍性大腸炎、憩室症、セリアック病、及び臓器線維症疾患のうちの1つ以上を含む、炎症性疾患または免疫疾患である、請求項1~32のいずれか1項に記載の方法。
- 前記生体試料が、血液、血清、または血漿である、請求項43に記載の方法。
- 前記生物学的状態が、任意選択で急性事象のリスクに対する層別化を含む、心血管疾患である、請求項1~32のいずれか1項に記載の方法。
- 前記心血管疾患が、冠動脈疾患(CAD)、心筋梗塞、脳卒中、うっ血性心不全、高血圧性心疾患、心筋症、心臓不整脈、先天性心疾患、心臓弁膜症、心臓炎、大動脈瘤、末梢動脈疾患、及び静脈血栓症のうちの1つ以上を含む、請求項45に記載の方法。
- 少なくとも2つの生物学的状態が疾患サブタイプである、請求項1~32のいずれか1項に記載の方法。
- 前記試料セットが複雑な疾患の疾患サブタイプについてラベル付けされず、疾患サブタイプ分類器が教師なし機械学習モデルを使用してトレーニングされるか、または前記試料セットが複雑な疾患の疾患サブタイプについて部分的にのみラベル付けされ、疾患サブタイプ分類器が半教師あり機械学習モデルを使用してトレーニングされる、請求項47に記載の方法。
- 前記パネルにおけるsRNAが標的遺伝子または経路にマッピングされて、前記疾患サブタイプの創薬可能な標的または治療的介入を特定する、請求項48に記載の方法。
- 1つ以上の生物学的状態について対象を評価するための方法であって、
前記対象の生体試料を提供し、sRNAパネルにおけるsRNAの存在もしくは不在または存在量を決定することと、
請求項1~49のいずれか1項に従って調製された疾患分類器を使用して1つ以上の生物学的状態間で前記対象の状態を分類することと、を含む、前記方法。 - 前記試料中のsRNAの存在もしくは不在または存在量が、定量的PCRアッセイによって決定される、請求項50に記載の方法。
- 前記試料中のsRNAの存在もしくは不在または存在量が、任意選択でsRNA標的捕捉を用いるsRNA配列決定によって決定される、請求項50に記載の方法。
- 前記疾患分類器が、少なくとも3つの生物学的状態または少なくとも5つの生物学的状態間で試料を分類する、請求項50~52のいずれか1項に記載の方法。
- 前記疾患分類器が、少なくとも10の生物学的状態間で分類する、請求項53に記載の方法。
- 前記パネルが、約4~約200個のsRNA、または約4~約100個のsRNA、または約4~約50個のsRNAを含む、請求項50~54のいずれか1項に記載の方法。
- 前記生体試料が、固体組織試料、生体液試料、または培養細胞のうちの1つ以上を含む、請求項55に記載の方法。
- 前記生体試料が、血液、血清、血漿、脳脊髄液、尿、または唾液である、請求項56に記載の方法。
- 前記対象の生体試料が固体組織生検である、請求項56に記載の方法。
- 前記分類器が、中枢神経系の生物学的状態を表す発見セットを使用してトレーニングされる、請求項57に記載の方法。
- 前記対象が中枢神経系疾患と一致する症状を呈する、請求項59に記載の方法。
- 前記対象が認知症の症状を有する、請求項60に記載の方法。
- 前記対象が運動制御喪失の症状を有する、請求項60に記載の方法。
- 前記対象が、アルツハイマー病、パーキンソン病、ハンチントン病、軽度認知障害、進行性核上性麻痺、前頭側頭型認知症、レビー小体型認知症、血管性認知症、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症のうちの1つ以上を有するまたは有しないと分類される、請求項61または62に記載の方法。
- 前記対象が、任意選択で多発性硬化症、視神経炎、横断性脊髄炎、及び視神経脊髄炎のうちの1つ以上を含む、脱髄疾患を有するまたは有しないと分類される、請求項60に記載の方法。
- 前記対象が、アルツハイマー病、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症のうちの1つ以上を有すると診断または決定され、前記対象が、疾患ステージ、疾患重症度、薬物応答性、または疾患進行の経過について分類される、請求項60に記載の方法。
- 前記対象が、がんのリスクがあるか、がんを有する疑いがあるか、またはがんを有すると診断される、請求項50~58のいずれか1項に記載の方法。
- 前記対象ががんを有し、前記試料が、薬物感受性、薬物抵抗性、及び組織起源から選択される1つ以上について分類される、請求項66に記載の方法。
- 前記対象由来の前記生体試料が、腫瘍またはがん細胞生検である、請求項67に記載の方法。
- 前記対象が炎症性疾患または免疫疾患の症状を呈する、請求項50~58のいずれか1項に記載の方法。
- 前記対象の試料が、全身性エリテマトーデス(SLE)、強皮症、自己免疫性血管炎、糖尿病(1型または2型)、グレーブス病、アディソン病、シェーグレン症候群、甲状腺炎、リウマチ性関節炎、重症筋無力症、多発性硬化症、線維筋痛症、乾癬、特発性肺線維症、クローン病、潰瘍性大腸炎、憩室症、及びセリアック病のうちの1つ以上の存在または不在について分類される、請求項69に記載の方法。
- 前記生体試料が、血液、血清、または血漿である、請求項69または70に記載の方法。
- 前記疾患状態が、任意選択で急性事象のリスクに対する層別化を含む、心血管疾患である、請求項50~58のいずれか1項に記載の方法。
- 前記心血管疾患が、冠動脈疾患(CAD)、心筋梗塞、脳卒中、うっ血性心不全、高血圧性心疾患、心筋症、心臓不整脈、先天性心疾患、心臓弁膜症、心臓炎、大動脈瘤、末梢動脈疾患、及び静脈血栓症のうちの1つ以上を含む、請求項72に記載の方法。
- 前記対象が、複雑な疾患の疾患サブタイプについて分類される、請求項50~73のいずれか1項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062964412P | 2020-01-22 | 2020-01-22 | |
US62/964,412 | 2020-01-22 | ||
PCT/US2021/014755 WO2021150990A1 (en) | 2020-01-22 | 2021-01-22 | Small rna disease classifiers |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023511368A true JP2023511368A (ja) | 2023-03-17 |
Family
ID=76991711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022544274A Pending JP2023511368A (ja) | 2020-01-22 | 2021-01-22 | 低分子rna疾患分類器 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230063506A1 (ja) |
EP (1) | EP4093744A4 (ja) |
JP (1) | JP2023511368A (ja) |
CA (1) | CA3168874A1 (ja) |
IL (1) | IL294904A (ja) |
WO (1) | WO2021150990A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12027238B2 (en) * | 2020-10-01 | 2024-07-02 | Gsi Technology Inc. | Functional protein classification for pandemic research |
WO2022099365A1 (en) * | 2020-11-16 | 2022-05-19 | Genieus Genomics Pty Ltd | Machine learning for amyotrophic lateral sclerosis |
CN116622822A (zh) * | 2023-03-17 | 2023-08-22 | 四川大学 | 一种多重混样直接rna纳米孔测序方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130317083A1 (en) * | 2012-05-04 | 2013-11-28 | Thomas Jefferson University | Non-coding transcripts for determination of cellular states |
US11905563B2 (en) * | 2016-10-21 | 2024-02-20 | Thomas Jefferson University | Leveraging the presence or absence of miRNA isoforms for recommending therapy in cancer patients |
CA3062917A1 (en) * | 2017-01-23 | 2018-07-26 | Srnalytics, Inc. | Methods for identifying and using small rna predictors |
WO2019014375A1 (en) * | 2017-07-11 | 2019-01-17 | Srnalytics, Inc. | SMALL RNA PREDICTORS FOR HUNTINGTON'S DISEASE |
WO2019094780A2 (en) * | 2017-11-12 | 2019-05-16 | The Regents Of The University Of California | Non-coding rna for detection of cancer |
-
2021
- 2021-01-22 WO PCT/US2021/014755 patent/WO2021150990A1/en unknown
- 2021-01-22 US US17/794,047 patent/US20230063506A1/en active Pending
- 2021-01-22 JP JP2022544274A patent/JP2023511368A/ja active Pending
- 2021-01-22 IL IL294904A patent/IL294904A/en unknown
- 2021-01-22 CA CA3168874A patent/CA3168874A1/en active Pending
- 2021-01-22 EP EP21744008.0A patent/EP4093744A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4093744A1 (en) | 2022-11-30 |
CA3168874A1 (en) | 2021-07-29 |
WO2021150990A1 (en) | 2021-07-29 |
IL294904A (en) | 2022-09-01 |
US20230063506A1 (en) | 2023-03-02 |
EP4093744A4 (en) | 2024-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
US20210230684A1 (en) | Methods and systems for high-depth sequencing of methylated nucleic acid | |
EP4073805B1 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
JP2021521536A (ja) | 生体試料の多検体アッセイのための機械学習実装 | |
CN111742059B (zh) | 用于靶向测序的模型 | |
EP3785269A1 (en) | Methods and systems for analyzing microbiota | |
JP2023511368A (ja) | 低分子rna疾患分類器 | |
JP2023524627A (ja) | 核酸のメチル化分析による結腸直腸癌を検出するための方法およびシステム | |
WO2022150663A1 (en) | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics | |
WO2021061473A1 (en) | Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data | |
Simon | Analysis of DNA microarray expression data | |
JP2023524016A (ja) | 結腸細胞増殖性障害を特定するためのrnaマーカと方法 | |
EP2406729A1 (en) | A method for the systematic evaluation of the prognostic properties of gene pairs for medical conditions, and certain gene pairs identified | |
US20190108311A1 (en) | Site-specific noise model for targeted sequencing | |
WO2022159774A2 (en) | METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20221027 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20221027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240104 |