CN117425932A - 信息处理装置、信息处理方法以及程序 - Google Patents
信息处理装置、信息处理方法以及程序 Download PDFInfo
- Publication number
- CN117425932A CN117425932A CN202280040883.1A CN202280040883A CN117425932A CN 117425932 A CN117425932 A CN 117425932A CN 202280040883 A CN202280040883 A CN 202280040883A CN 117425932 A CN117425932 A CN 117425932A
- Authority
- CN
- China
- Prior art keywords
- gene
- disease
- sporadic
- als
- feature space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 44
- 238000003672 processing method Methods 0.000 title claims description 16
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 328
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 114
- 201000010099 disease Diseases 0.000 claims abstract description 113
- 238000012545 processing Methods 0.000 claims abstract description 63
- 206010002026 amyotrophic lateral sclerosis Diseases 0.000 claims description 166
- 230000014509 gene expression Effects 0.000 claims description 131
- 102100029846 Glutaminyl-peptide cyclotransferase Human genes 0.000 claims description 53
- 101000585315 Homo sapiens Glutaminyl-peptide cyclotransferase Proteins 0.000 claims description 53
- 101000648663 Homo sapiens Transmembrane protein 71 Proteins 0.000 claims description 53
- 101001026573 Homo sapiens cAMP-dependent protein kinase type I-alpha regulatory subunit Proteins 0.000 claims description 52
- 102100028869 Transmembrane protein 71 Human genes 0.000 claims description 50
- 102100037490 cAMP-dependent protein kinase type I-alpha regulatory subunit Human genes 0.000 claims description 49
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 11
- 238000012417 linear regression Methods 0.000 claims description 10
- 210000004027 cell Anatomy 0.000 description 34
- 230000001717 pathogenic effect Effects 0.000 description 29
- 210000002161 motor neuron Anatomy 0.000 description 23
- 230000002068 genetic effect Effects 0.000 description 19
- 239000000090 biomarker Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 101150108055 CHMP2B gene Proteins 0.000 description 9
- 102100038279 Charged multivesicular body protein 2b Human genes 0.000 description 9
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 9
- 210000001778 pluripotent stem cell Anatomy 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000003860 storage Methods 0.000 description 7
- 206010006542 Bulbar palsy Diseases 0.000 description 6
- 101000866326 Homo sapiens Cytoplasmic dynein 1 heavy chain 1 Proteins 0.000 description 6
- 101000823931 Homo sapiens Spatacsin Proteins 0.000 description 6
- 102100022077 Spatacsin Human genes 0.000 description 6
- 101710150875 TAR DNA-binding protein 43 Proteins 0.000 description 6
- 102100040347 TAR DNA-binding protein 43 Human genes 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 6
- 201000002241 progressive bulbar palsy Diseases 0.000 description 6
- 230000004083 survival effect Effects 0.000 description 6
- 230000009885 systemic effect Effects 0.000 description 6
- 102100023067 Casein kinase I isoform gamma-3 Human genes 0.000 description 5
- 102100031635 Cytoplasmic dynein 1 heavy chain 1 Human genes 0.000 description 5
- 101001049879 Homo sapiens Casein kinase I isoform gamma-3 Proteins 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000007170 pathology Effects 0.000 description 5
- 208000024827 Alzheimer disease Diseases 0.000 description 4
- 102000008130 Cyclic AMP-Dependent Protein Kinases Human genes 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 3
- 101710137943 Complement control protein C3 Proteins 0.000 description 3
- 101100046483 Homo sapiens TMEM71 gene Proteins 0.000 description 3
- 101150000326 Prkar1a gene Proteins 0.000 description 3
- 102100026145 Transitional endoplasmic reticulum ATPase Human genes 0.000 description 3
- 101710132062 Transitional endoplasmic reticulum ATPase Proteins 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 102000003642 glutaminyl-peptide cyclotransferase Human genes 0.000 description 3
- 108010081484 glutaminyl-peptide cyclotransferase Proteins 0.000 description 3
- 239000003446 ligand Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 101150052384 50 gene Proteins 0.000 description 2
- 102100037685 60S ribosomal protein L22 Human genes 0.000 description 2
- 102100027790 ATP synthase subunit e, mitochondrial Human genes 0.000 description 2
- 241001261858 Alsodes Species 0.000 description 2
- 102100025971 F-actin-capping protein subunit alpha-2 Human genes 0.000 description 2
- 101001097555 Homo sapiens 60S ribosomal protein L22 Proteins 0.000 description 2
- 101000936958 Homo sapiens ATP synthase subunit e, mitochondrial Proteins 0.000 description 2
- 101000933166 Homo sapiens F-actin-capping protein subunit alpha-2 Proteins 0.000 description 2
- 101001094700 Homo sapiens POU domain, class 5, transcription factor 1 Proteins 0.000 description 2
- 101000713275 Homo sapiens Solute carrier family 22 member 3 Proteins 0.000 description 2
- 101000653679 Homo sapiens Translationally-controlled tumor protein Proteins 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- ZBZXYUYUUDZCNB-UHFFFAOYSA-N N-cyclohexa-1,3-dien-1-yl-N-phenyl-4-[4-(N-[4-[4-(N-[4-[4-(N-phenylanilino)phenyl]phenyl]anilino)phenyl]phenyl]anilino)phenyl]aniline Chemical compound C1=CCCC(N(C=2C=CC=CC=2)C=2C=CC(=CC=2)C=2C=CC(=CC=2)N(C=2C=CC=CC=2)C=2C=CC(=CC=2)C=2C=CC(=CC=2)N(C=2C=CC=CC=2)C=2C=CC(=CC=2)C=2C=CC(=CC=2)N(C=2C=CC=CC=2)C=2C=CC=CC=2)=C1 ZBZXYUYUUDZCNB-UHFFFAOYSA-N 0.000 description 2
- 102100035423 POU domain, class 5, transcription factor 1 Human genes 0.000 description 2
- 208000018737 Parkinson disease Diseases 0.000 description 2
- 101150035356 Qpct gene Proteins 0.000 description 2
- 108020004459 Small interfering RNA Proteins 0.000 description 2
- 101150037203 Sox2 gene Proteins 0.000 description 2
- 108010021188 Superoxide Dismutase-1 Proteins 0.000 description 2
- 102100038836 Superoxide dismutase [Cu-Zn] Human genes 0.000 description 2
- 102100029887 Translationally-controlled tumor protein Human genes 0.000 description 2
- SHGAZHPCJJPHSC-YCNIQYBTSA-N all-trans-retinoic acid Chemical compound OC(=O)\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C SHGAZHPCJJPHSC-YCNIQYBTSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 210000001671 embryonic stem cell Anatomy 0.000 description 2
- 210000002257 embryonic structure Anatomy 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 208000003532 hypothyroidism Diseases 0.000 description 2
- 230000002989 hypothyroidism Effects 0.000 description 2
- 230000028993 immune response Effects 0.000 description 2
- 238000011813 knockout mouse model Methods 0.000 description 2
- 101150108076 lin28a gene Proteins 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004770 neurodegeneration Effects 0.000 description 2
- 208000015122 neurodegenerative disease Diseases 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 229930002330 retinoic acid Natural products 0.000 description 2
- 210000000130 stem cell Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 229960001727 tretinoin Drugs 0.000 description 2
- DGVVWUTYPXICAM-UHFFFAOYSA-N β‐Mercaptoethanol Chemical compound OCCS DGVVWUTYPXICAM-UHFFFAOYSA-N 0.000 description 2
- 101150094738 ALS3 gene Proteins 0.000 description 1
- 101150037123 APOE gene Proteins 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 102100029470 Apolipoprotein E Human genes 0.000 description 1
- 239000012583 B-27 Supplement Substances 0.000 description 1
- 102000008096 B7-H1 Antigen Human genes 0.000 description 1
- 108010074708 B7-H1 Antigen Proteins 0.000 description 1
- 102000004219 Brain-derived neurotrophic factor Human genes 0.000 description 1
- 108090000715 Brain-derived neurotrophic factor Proteins 0.000 description 1
- AQGNHMOJWBZFQQ-UHFFFAOYSA-N CT 99021 Chemical compound CC1=CNC(C=2C(=NC(NCCNC=3N=CC(=CC=3)C#N)=NC=2)C=2C(=CC(Cl)=CC=2)Cl)=N1 AQGNHMOJWBZFQQ-UHFFFAOYSA-N 0.000 description 1
- 108010049894 Cyclic AMP-Dependent Protein Kinases Proteins 0.000 description 1
- DWJXYEABWRJFSP-XOBRGWDASA-N DAPT Chemical compound N([C@@H](C)C(=O)N[C@H](C(=O)OC(C)(C)C)C=1C=CC=CC=1)C(=O)CC1=CC(F)=CC(F)=C1 DWJXYEABWRJFSP-XOBRGWDASA-N 0.000 description 1
- 102100037373 DNA-(apurinic or apyrimidinic site) endonuclease Human genes 0.000 description 1
- 102000018233 Fibroblast Growth Factor Human genes 0.000 description 1
- 108050007372 Fibroblast Growth Factor Proteins 0.000 description 1
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 1
- 102000034615 Glial cell line-derived neurotrophic factor Human genes 0.000 description 1
- 108091010837 Glial cell line-derived neurotrophic factor Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000776160 Homo sapiens Alsin Proteins 0.000 description 1
- 101000806846 Homo sapiens DNA-(apurinic or apyrimidinic site) endonuclease Proteins 0.000 description 1
- 101000836337 Homo sapiens Probable helicase senataxin Proteins 0.000 description 1
- 101001059454 Homo sapiens Serine/threonine-protein kinase MARK2 Proteins 0.000 description 1
- 208000023105 Huntington disease Diseases 0.000 description 1
- 101100086117 Ixodes scapularis Qptc gene Proteins 0.000 description 1
- 102100029874 Kappa-casein Human genes 0.000 description 1
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 1
- 229930182816 L-glutamine Natural products 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 102000004230 Neurotrophin 3 Human genes 0.000 description 1
- 108090000742 Neurotrophin 3 Proteins 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 229930182555 Penicillin Natural products 0.000 description 1
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 description 1
- 102100027178 Probable helicase senataxin Human genes 0.000 description 1
- 102000001253 Protein Kinase Human genes 0.000 description 1
- 101150018550 Qptc gene Proteins 0.000 description 1
- 102100028904 Serine/threonine-protein kinase MARK2 Human genes 0.000 description 1
- 108091027967 Small hairpin RNA Proteins 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000001464 adherent effect Effects 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 229940077737 brain-derived neurotrophic factor Drugs 0.000 description 1
- 230000011496 cAMP-mediated signaling Effects 0.000 description 1
- 230000021164 cell adhesion Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 101150051397 csn3 gene Proteins 0.000 description 1
- 210000004748 cultured cell Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012631 diagnostic technique Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000011977 dual antiplatelet therapy Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 229940126864 fibroblast growth factor Drugs 0.000 description 1
- 108091006104 gene-regulatory proteins Proteins 0.000 description 1
- 102000034356 gene-regulatory proteins Human genes 0.000 description 1
- 208000005017 glioblastoma Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000004263 induced pluripotent stem cell Anatomy 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 108010082117 matrigel Proteins 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 201000006417 multiple sclerosis Diseases 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000004112 neuroprotection Effects 0.000 description 1
- 229940032018 neurotrophin 3 Drugs 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000007310 pathophysiology Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- 229940049954 penicillin Drugs 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 108060006633 protein kinase Proteins 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000018406 regulation of metabolic process Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 238000003757 reverse transcription PCR Methods 0.000 description 1
- 201000000980 schizophrenia Diseases 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 239000004055 small Interfering RNA Substances 0.000 description 1
- 210000000278 spinal cord Anatomy 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 108091005703 transmembrane proteins Proteins 0.000 description 1
- 102000035160 transmembrane proteins Human genes 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种信息处理装置,包含处理单元,所述处理单元被配置为:对于基因数据集中包含的每个基因组合,计算其对多因素疾病或散发性疾病的致病基因以及多因素疾病或散发性疾病相关基因的依赖性的尺度,基于依赖性的尺度从数据集中选择预设数量的基因组合。
Description
技术领域
本发明涉及信息处理装置、信息处理方法以及程序。
本申请基于2021年6月9日提交的申请号为US 63/208,509的美国临时申请为优先权,其全部内容通过引用并入本文。
背景技术
肌萎缩侧索硬化症(ALS)是一种由运动神经元丧失引起的致命性神经退行性疾病,迫切需要开发ALS的诊断技术。
现有技术文献
专利文献
[专利文献1]公开专利申请号2017-29116。
发明内容
本发明要解决的问题
由于ALS的诊断是根据临床表现和临床症状进展后的电生理检查来进行的,因此需要用于ALS数字诊断的分子生物标志物。然而,在占ALS病例90%-95%的散发性ALS中,可作为分子生物标志物的基因仍然未知。此类问题不仅限于ALS,还适用于其他多因素或散发性疾病,例如阿尔茨海默病和帕金森病,其中大多数患者是散发的。
本说明书提供一种能够识别和诊断多因素疾病或散发疾病的基因的信息处理装置、信息处理方法和程序。
解决问题用到的手段
本说明书一些实施例提供对于基因数据集中包括的每个基因组合,确定对多因素疾病或散发性疾病的致病基因以及多因素疾病或散发性疾病的相关基因的依赖性。信息处理装置包括处理单元,其计算性别度量并基于该度量从数据集中选择预设数量的基因组合。
发明的效果
根据本说明书的一些实施例可以鉴定能够诊断多因素疾病或散发性疾病的基因。
附图说明
图1是根据本说明书一些实施例所示的用于说明实施方式的概要图;
图2是根据本说明书一些实施例所示的信息处理装置的配置示例图;
图3是根据本说明书一些实施例所示的与基因组合的识别有关的处理单元的一系列处理步骤的流程图;
图4是根据本说明书一些实施例所示的用于解释计算HSIC分数的方法图;
图5是根据本说明书一些实施例所示的处理单元的关于生成用于数字诊断的分子生物标记的一系列处理步骤的流程图;
图6是根据本说明书一些实施例所示的与ALS发病的确定有关的处理单元的一系列处理步骤的流程图;
图7是根据本说明书一些实施例所示的ALS的致病基因或相关基因的列表图;
图8是根据本说明书一些实施例所示的三个致病基因的组合的HSIC评分的计算结果图;
图9是根据本说明书一些实施例所示的关于致病基因的组合的ROC评价结果图;
图10是根据本说明书一些实施例所示的三个相关基因的组合的HSIC分数的计算结果图;
图11是根据本说明书一些实施例所示的关于相关基因的组合的ROC评价结果图;
图12是根据本说明书一些实施例所示的按HSIC得分降序排列的基因组合的列表图;
图13是根据本说明书一些实施例所示的通过逻辑回归确定的AUC降序排列的基因组合的列表图;
图14是根据本说明书一些实施例所示的出现频率最高的前50个基因图;
图15是根据本说明书一些实施例所示的当基因组合的数量增加到4时HSIC分数的计算结果图;
图16是根据本说明书一些实施例所示的健康者和ALS患者中PRKAR1A的表达水平图;
图17是根据本说明书一些实施例所示的健康者和ALS患者中QPCT的表达水平图;
图18是根据本说明书一些实施例所示的健康者和ALS患者中TMEM71的表达水平图;
图19A是根据本说明书一些实施例所示的特征空间图;
图19B是根据本说明书一些实施例所示的特征空间图;
图20是根据本说明书一些实施例所示的关于PRKAR1A、QPCT和TMEM71的组合的ROC评价结果图;
图21A是根据本说明书一些实施例所示的PRKAR1A表达量和存活期之间的相关性图;
图21B是根据本说明书一些实施例所示的QPCT表达量与生存期的相关性图;
图21C是根据本说明书一些实施例所示的TMEM71的表达量与生存期的相关性图;
图22A是根据本说明书一些实施例所示的PRKAR1A的表达量与发病年龄的相关性图;
图22B是根据本说明书一些实施例所示的QPCT的表达量与发病年龄的相关性图;
图22C是根据本说明书一些实施例所示的TMEM71的表达量与发病年龄的相关性图;
图23A是根据本说明书一些实施例所示的PRKAR1A的表达量与延髓麻痹类型和全身型之间的相关性图;
图23B是根据本说明书一些实施例所示的QPCT的表达量与延髓麻痹类型及全身型的相关性图;
图23C是根据本说明书一些实施例所示的TMEM71的表达量与延髓麻痹类型和全身型之间的相关性图;
图24A是根据本说明书一些实施例所示的比较健康个体中PRKAR1A的表达水平和ALS患者中PRKAR1A的表达水平图;
图24B是根据本说明书一些实施例所示的比较健康者中的QPCT的表达水平和ALS患者中的QPCT的表达水平图;
图24C是根据本说明书一些实施例所示的比较健康个体中的TMEM71的表达水平和ALS患者中的TMEM71的表达水平图;
图25是根据本说明书一些实施例所示的从少数例子中提取的PRKAR1A、QPCT和TMEM71的组合的ROC评价结果图;
图26是根据本说明书一些实施例所示的iPS细胞和从iPS细胞获得的运动神经元的图;
图27A是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间PRKAR1A的表达水平图;
图27B是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间的QPCT表达水平图;
图27C是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间的TMEM71基因表达水平图;
图28是根据本说明书一些实施例所示的关于从运动神经元提取的PRKAR1A、QPCT和TMEM71的组合的ROC评价结果图;
图29是根据本说明书一些实施例所示的PRKAR1A、QPCT和TMEM71各基因的TDP-43的相对表达水平图;
图30A是根据本说明书一些实施例所示的从健康者和ALS患者中提取的PRKAR1A的表达水平图;
图30B是根据本说明书一些实施例所示的从健康者和ALS患者提取的QPCT表达水平图;
图30C是根据本说明书一些实施例所示的从健康者和ALS患者提取的TMEM71的表达水平图;
图31A是根据本说明书一些实施例所示的从ALS引起基因和ALS相关基因提取的SPG11的表达水平图;
图31B是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的CHMP2B的表达水平图;
图31C是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的CSNK1G3的表达水平图;
图31D是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的DYNC1H1的表达水平图。
具体实施方式
在下文中,将参照附图对根据实施例的信息处理设备、信息处理方法和程序进行说明。
[概要]
图1是根据本说明书一些实施例所示的用于说明实施方式的概要图。如图1所示,在本实施例中,通过分析健康者和患有多因素疾病或散发性疾病的患者的外周血单核细胞(PBMC)中的基因表达量,利用高维的非线性模型,基于基因表达量,选择出用于对健康者和多因素疾病或散发性疾病患者进行分类的基因组合。多因素疾病或散发性疾病可以为,例如ALS,但不限于此,还可以是阿尔茨海默病、帕金森病等。优选以散发性ALS为例。在下文中,作为示例,把多因素疾病或散发性疾病看作“散发性ALS”进行说明。
注意,“多因素疾病”被定义为被认为是由于遗传倾向和环境因素之间的相互作用而发生的疾病,而“散发性疾病”被定义为没有公认的家族史的疾病。然而,同一种疾病同时属于“多因素疾病”和“散发性疾病”的情况很多,因此在这个领域,“多因素疾病”和“散发性疾病”几乎可以用作同义词。“散发性ALS”也是一种多因素疾病。
[信息处理装置的构成]
图2是根据本说明书一些实施例所示的信息处理装置的配置示例图。如图2所示,信息处理设备100包括,通信接口110、输入接口120、输出接口130、处理单元140和存储单元150。
通信接口110经由诸如WAN(Wide Area Network,广域网)或LAN(Local AreaNetwork,局域网)的网络与外部装置通信。例如,通信接口110包括NIC(Network InterfaceCard,网络接口卡)、无线通信模块等。外部装置可以是例如安装在进行研究或药物发现开发的设施(例如研究机构、大学或公司)中的个人计算机或服务器。
输入接口120接受用户的各种输入操作,并将与所接受的输入操作相对应的电信号输出到处理单元140。例如,输入接口120为鼠标、键盘、触摸屏、拖拽球、开关、按钮等。
输出接口130例如是显示器或扬声器。显示器可以是例如LCD(Liquid CrystalDisplay,液晶显示器)或有机EL(Electro Luminescence,电致发光)显示器。显示器可以是与输入接口120一体配置的触控面板。
处理单元140可以通过诸如CPU(Central Processing Unit,中央处理单元)或GPU(Graphics Processing Unit,图形处理单元)等程序处理器执行存储单元150中存储的程序而实现。处理单元140的部分或全部功能可以通过LSI(Large Scale Integration,大规模集成电路)、ASIC(Application Specific Integrated Circuit,专用集成电路)或FPGA(Field-Programmable Gate Array,现场可编程门阵列)等硬件来实现,也可以通过软件与硬件配合来实现。稍后将描述处理单元140的各个功能。
存储单元150由诸如HDD(Hard Disc Drive,硬盘驱动器)、闪存、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦除可编程只读存储器)、ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)等来实现。存储单元150存储各种程序,例如,固件和应用程序。
[基因组合的鉴定]
图3是根据本说明书一些实施例所示的与基因组合的识别有关的处理单元140的一系列处理步骤的流程图。
首先,处理单元140从ALS致病基因组中选择预设数量的基因组合(步骤S100)。例如,已知SOD1、ALS2、ALS3、SETX等33个基因是ALS的致病基因(详见下面的图7)。处理单元140从33个致病基因中选择预设数量的基因组合。预设数量优选为3个,但不限于此,例如,可以是2个或4个或更多。以下,作为示例,将假设预设数量为“3”来进行描述。例如,当从33个致病基因中选择任意三个基因时,处理单元140可以选择5456种组合。
接下来,处理单元140计算在S100中组合起来的致病基因之间的依赖性(或独立性)的尺度(步骤S102)。
对于基因表达分析,一般使用线性模型,例如线性逻辑回归和Hotelling's t2检验。然而,生物现象被认为是非线性科学,疾病的病理不能用单一因素来解释。因此,在本实施例中,利用非线性模型来分析基因表达。
例如,处理单元140使用HSIC(Hilbert-Schmidt Independence Criterion,希尔伯特-施密特独立准则)计算HSIC分数,作为致病基因的组合的依赖性的尺度,HSIC是机器学习的一种并且可以检测高维数据中的非线性结构。
图4是根据本说明书一些实施例所示的用于解释计算HSIC分数的方法图。如图4所示,处理单元140将ALS致病基因的组合(代表三个致病基因中的每一个的向量数据)分布在(再生核)希尔伯特空间(图中的特征空间)上,致病基因之间的HSIC得分为根据希尔伯特空间计算。例如,处理单元140计算所有5456个组合的HSIC分数。
接下来,处理单元140从ALS相关基因组中选择预设数量的基因组合(步骤S104)。除上述致病基因外,已知APEX1、APOE、AR、CCS等126个基因为ALS相关基因(详见下图7)。处理单元140从126个相关基因中选择预设数量的基因组合。如上所述,预设数量优选为3个,但不限于此,可以是例如2个或4个或更多。例如,当处理单元140从126个相关基因中选择任意三个基因时,可以选择325,500个组合。
接下来,处理单元140计算在S104中组合的相关基因之间的依赖性(或独立性)的尺度(步骤S106)。处理单元140利用与处理致病基因时一样的步骤,计算所有325,500个组合的HSIC分数。
接下来,处理单元140从已计算HSIC分数的基因组合中选择具有最高HSIC分数的基因组合(步骤S108)。
例如,为了消除多重共线性的影响,处理单元140进行诸如逻辑回归之类的线性回归分析,从计算了HSIC分数的多个组合的集合(以下称样本总体)中,选择或提取出包含出现频率(出现次数)高的基因的特定组合。例如,处理单元140可以选择或提取包括出现频率等于或高于阈值的基因的组合作为特定组合(换言之,要排除的组合)。阈值例如为10,但不限于此,可以是任何其他值。
处理单元140从样本总体中排除包括频繁出现的基因的特定组合。处理单元140从排除特定组合的组合群体中选择具有最高HSIC分数的基因组合。如下文实施例中所述,从ALS致病基因或相关基因的组合中,作为HSIC得分最高的基因组合,PRKAR1A、QPCT和TMEM71的组合被选出了。这样就完成了一系列与基因组合鉴定相关的过程。
[用于数字诊断的分子生物标志物的生成]
图5是根据本说明书一些实施例所示的处理单元140的关于生成用于数字诊断的分子生物标记的一系列处理步骤的流程图。
首先,处理单元140基于多个健康者(下文中也称为健康者组)中PRKAR1A、QPCT和TMEM71的表达量,将每个健康者的基因数据分布在以这三个基因的表达量作为维度的三维特征空间上(步骤S200)。例如,分布在特征空间上的健康者的基因数据,可以将PRKAR1A的表达量作为第一个元素e1,QPCT的表达量作为第二个元素e2,TMEM71的表达量作为第三个元素e3,通过三维向量(e1,e2,e3)表示。
接下来,处理单元140根据多个ALS患者(以下也称为ALS患者组)中PRKAR1A、QPCT和TMEM71的表达量,将每个ALS患者的基因数据分布在以这三个基因的表达量作为维度的三维特征空间上(步骤S202)。分布在特征空间上的ALS患者的基因数据也可以像健康者的基因数据一样表示为三维向量(e1,e2,e3)。
接下来,处理单元140在三维特征空间上将健康者的遗传数据和ALS患者的遗传数据进行聚类(步骤S204)。例如,如后述的实施例的图19A和图19B所示,在以RKAR1A的表达量、QPCT的表达量以及TMEM71的表达量为维度的三维特征空间上,处理单元140可以将健康者(图中的Health Control)的遗传数据和ALS患者(图中的ALS)的遗传数据分别聚类为簇。
接下来,处理单元140将在特征空间上形成的健康者的遗传数据簇和ALS患者的遗传数据簇存储在存储单元150中作为用于数字诊断的分子生物标记(步骤S206)。基于以上步骤,完成了与生成用于数字诊断的分子生物标志物相关的一系列过程。
[ALS发病的判定]
图6是根据本说明书一些实施例所示的与ALS发病的确定有关的处理单元140的一系列处理步骤的流程图。
首先,处理单元140获取待诊断患有ALS的受试者的遗传数据(步骤S300)。受试者的遗传数据可以以与上述相同的方式表达为三维向量(e1,e2,e3)。
接下来,处理单元140将受试者的基因数据,分布在形成了作为分子生物标记的簇(健康者簇和ALS患者簇)的特征空间上(步骤S302)。
接下来,处理单元140计算受试者的基因数据与健康者簇在特征空间上的距离D1,并计算受试者的基因数据与ALS患者簇之间的距离D2(步骤S304)。
接下来,处理单元140根据与两个簇之间的距离来判断受试者是否会在未来某个时间出现ALS病症,或者受试者目前是否已经患有ALS(步骤S306)。
例如,如果到ALS患者簇的距离D2比到健康者簇的距离D1短(D1>D2),即,受试者的基因数据距离患者簇比距离健康者簇更近,则处理单元140可以判定该受试者将在未来某个时间患上ALS,或者该受试者目前已经患上ALS。
在一些实施例中,如果到ALS患者簇的距离D2大于到健康者簇的距离D1(D1<D2),即,受试者的基因数据距离健康者簇比距离ALS患者簇更近。则处理单元140可以判定该受试者在未来的某个时间点不会患上ALS,并且该受试者目前没有患上ALS。
接下来,处理部140输出关于受试者是否患有ALS的判定结果(步骤S308)。
例如,处理单元140可以通过通信接口110将判定结果发送至外部设备,或者可以通过输出接口130(例如,显示器)输出判定结果。至此,完成了与判定ALS发病相关的一系列过程。
根据上述实施例,信息处理装置100针对ALS致病基因或相关基因的各个组合,计算该组合中所包括的基因之间的依赖性的尺度(例如,HSIC得分),从多个已经计算出尺度的组合中,(即从样本总体中),选择尺度最高的组合。通过这样做,使得鉴定可诊断ALS的基因成为可能。
此外,根据上述实施例,信息处理设备100基于源自健康者的基因(包含在具有上述尺度最高的组合中的基因)的表达量,将健康者的基因数据分布在特征空间上,基于源自ALS患者的基因(包含在上述尺度最高的组合中的基因)的表达量,将ALS患者的基因数据分布在相同的特征空间中。然后,信息处理装置100将健康者的遗传数据和ALS患者的遗传数据聚类在特征空间上。由此,可以在特征空间上生成用于数字诊断的分子生物标志物。
此外,根据上述实施例,信息处理装置100获取作为要诊断为ALS的受试者的遗传数据,并且将受试者的遗传数据分布在形成了健康者和ALS患者的簇的特征空间上。信息处理装置100计算特征空间上每个簇与受试者的遗传数据之间的距离,并且基于该距离,判定受试者是否会在未来的某个时间点患上ALS或者判定受试者目前是否已经患有ALS。这使得准确判断是否患有ALS成为可能。
以上,利用实施例对用于实施本发明的方式进行了说明,但本发明并不限定于这些实施例,在不脱离本发明的主旨的范围内可以进行各种变形、替换。
上述实施例可以表述如下(附录1)
一种信息处理装置,所述装置包含处理单元,所述处理单元被配置为:
对于基因数据集中包含的每个基因组合,计算其对多因素疾病或散发性疾病的致病基因以及所述多因素疾病或散发性疾病的相关基因的依赖性的尺度;基于所述依赖性的尺度,从所述数据集中选取预设数量的基因组合。
(附录2)
如附录1所述的信息处理装置,所述处理单元被配置为:
基于第一基因的表达量,将所述第一基因的数据分布在一个特征空间上,所述第一基因是源自健康者的基因;
基于第二基因的表达量,将所述第二基因的数据分布在所述特征空间上,所述第二基因是源自患有所述多因素疾病或散发性疾病的患者的基因;
基于所述第一基因的表达量,在所述特征空间上对所述第一基因的数据进行聚类;
基于所述第二基因的表达量,在所述特征空间上对所述第二基因的数据进行聚类。
(附录3)
如附录2所述的信息处理装置,所述处理单元被配置为:
将第三基因的数据分布在形成了健康者和患者的簇的所述特征空间上,所述第三基因是源自待诊断患有所述多因素疾病或散发性疾病的受试者的基因;
计算所述第三基因的数据与所述簇在所述特征空间上的距离;
基于所述距离判断受试者是否会患所述多因素疾病或散发性疾病,或者判断受试者是否患有所述多因素疾病或散发性疾病。
(附录4)
如附录1或2所述的信息处理装置,其中,
所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症;
所述预设数量为三;
所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。
(附录5)
如附录1或2所述的信息处理装置,所述处理单元被配置为:
通过线性回归分析,将包含出现频率等于或高于阈值的基因的特定组合,从已经计算了所述依赖性的尺度的基因组合的样本总体中排除;
从已排除所述特定组合的所述样本总体中选择所述依赖性的尺度最高的基因组合。
(附录6)
如附录1或2的信息处理装置,所述处理单元包括:
将数据集分布在希尔伯特空间上,
计算希尔伯特-施密特依赖性测度作为分布在希尔伯特空间上的数据集中包含的每个基因组合的测度,
已经计算了希尔伯特-施密特相关性度量的多个组合中选择具有最高希尔伯特-施密特相关性度量的组合。
(附录7)
一种使用计算机的信息处理方法,所述信息处理方法包括:
对于基因数据集中包含的每个基因组合,计算其对多因素疾病或散发性疾病的致病基因以及所述多因素疾病或散发性疾病的相关基因的依赖性的尺度;
基于所述依赖性的尺度,从所述数据集中选取预设数量的基因组合。
(附录8)
根据附录7所述的信息处理方法,还包括:
基于第一基因的表达量,将所述第一基因的数据分布在一个特征空间上,所述第一基因是源自健康者的基因;
基于第二基因的表达量,将所述第二基因的数据分布在所述特征空间上,所述第二基因是源自患有所述多因素疾病或散发性疾病的患者的基因;
基于所述第一基因的表达量,在所述特征空间上对所述第一基因的数据进行聚类;
基于所述第二基因的表达量,在所述特征空间上对所述第二基因的数据进行聚类。
(附录9)
根据附录8所述的信息处理方法,还包括:
将第三基因的数据分布在形成了健康者和患者的簇的所述特征空间上,所述第三基因是源自待诊断患有所述多因素疾病或散发性疾病的受试者的基因;
计算所述第三基因的数据与所述簇在所述特征空间上的距离;
基于所述距离判断受试者是否会患所述多因素疾病或散发性疾病,或者判断受试者是否患有所述多因素疾病或散发性疾病。
(附录10)
如附录7或8所述的信息处理方法,还包括:
所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症;
所述预设数量为三;
所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。
(附录11)
如附录7或8所述的信息处理方法,还包括:
通过线性回归分析,将包含出现频率等于或高于阈值的基因的特定组合,从已经计算了所述依赖性的尺度的基因组合的样本总体中排除;
从已排除所述特定组合的所述样本总体中选择所述依赖性的尺度最高的基因组合。
(附录12)
由计算机执行的程序,所述程序包含:
对于基因数据集中包含的每个基因组合,计算其对多因素疾病或散发性疾病的致病基因以及所述多因素疾病或散发性疾病的相关基因的依赖性的尺度;
基于所述依赖性的尺度,从所述数据集中选取预设数量的基因组合。
(附录13)
如补充说明12所述的程序,还包括:
基于第一基因的表达量,将所述第一基因的数据分布在一个特征空间上,所述第一基因是源自健康者的基因;
基于第二基因的表达量,将所述第二基因的数据分布在所述特征空间上,所述第二基因是源自患有所述多因素疾病或散发性疾病的患者的基因;
基于所述第一基因的表达量,在所述特征空间上对所述第一基因的数据进行聚类;
基于所述第二基因的表达量,在所述特征空间上对所述第二基因的数据进行聚类。
(附录14)
如补充说明13所述的程序,还包括:
将第三基因的数据分布在形成了健康者和患者的簇的所述特征空间上,所述第三基因是源自待诊断患有所述多因素疾病或散发性疾病的受试者的基因;
计算所述第三基因的数据与所述簇在所述特征空间上的距离;
基于所述距离判断受试者是否会患所述多因素疾病或散发性疾病,或者判断受试者是否患有所述多因素疾病或散发性疾病。
(附录15)
如补充说明12或13所述的程序,还包括:
多因素疾病或散发性疾病包括肌萎缩侧索硬化症;
预设数量为三,
预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。
(附录16)
如补充说明12或13所述的程序,还包括:通过线性回归分析,将包含出现频率等于或高于阈值的基因的特定组合,从已经计算了所述依赖性的尺度的基因组合的样本总体中排除;
从已排除所述特定组合的所述样本总体中选择所述依赖性的尺度最高的基因组合。
(附录17)
一种计算机可读存储介质,被配置为存储如补充说明12或13的程序。
实施例
[实验例1]
(微阵列数据和标准化)
基因表达数据(GSE112676、233ALS和508CTL)用于HSIC分析。通过下载原始表达强度和p值检验结果(GSE112676_HT12_V3_preQC_nonnormalized.txt),并使用R limma包(v3.32.10)函数(backgroundCorrect和normalizeBetweenArrays)来执行基因表达信号的标准化。在Rsva包(v3.35.2)中装有的ComBat算法用于消除批次效应。即使在批次效应校正后仍有一个具有异常值的样本(GSM3077426)被排除在进一步分析之外。对于上述图1中的HSIC预测,使用了来自ALS在线数据库(ALSoD,https://alsod.ac.uk/)的ALS相关基因。使用20%或更多样本的可检测的表达基因中的前1000个可变基因进行了无偏HSIC预测。
[实验例2]
(多能干细胞的制备)
制作多能干细胞。例如,多能干细胞包括胚胎干细胞(ES细胞)、诱导多能干细胞(iPS细胞)、源自通过核移植获得的克隆胚胎的自体胚胎干细胞(ntES)、精子干细胞(GS细胞)、胚胎生殖干细胞(EG细胞)等。优选的,多能干细胞是ES细胞、iPS细胞和ntES细胞。更优选的多能干细胞是人多能干细胞,特别优选的是人ES细胞和人iPS细胞。此外,可用于本发明的细胞不仅是多能干细胞,还可以是通过所谓的“直接重编程”诱导的细胞群,其可以被直接诱导分化成所期望的细胞而不用通过多能干细胞。本实验使用了人iPS细胞。下文中,除非另有说明,iPS细胞均假定为人iPS细胞。
分别使用OCT3/4、Sox2、Klf4、L-Myc、Lin28以及显性失活p53的游离性载体、或OCT3/4、Sox2、Klf4、L-Myc、Lin28以及shRNA for p53从健康者和散发性ALS患者的成纤维细胞或PBMC中制作iPS细胞。使用补充有青霉素/链霉素的StemFit(Ajinomoto)在无饲养层、无异种物质的培养系统中培养细胞。
[实验例3]
(从iPS细胞分化为运动神经元)
运动神经元由iPS细胞分化而来。具体来说,iPS细胞被解离成单细胞,并在低细胞粘附U形96孔板(Lipidule-Coated Plate A-U96、NOF Corporation,Tokyo,Japan)中快速重新聚集。
聚集体是使用5% KSR(Invitrogen,Waltham,MA)、最低必需培养基-非必需氨基酸(Invitrogen)、L-谷氨酰胺(Sigma-Aldrich,St.Louis,MO)、2-巯基乙醇(Wako,Osaka,Japan),2μM哆嗦吗啡(Sigma-Aldrich)、10μM SB431542(Cayman,Ann Arbor,MI)、3μMCHIR99021(Cayman)和12.5ng/mL成纤维细胞生长因子(Wako)经过了11天的神经诱导阶段制备。
第4天,添加100nM视黄酸(Sigma-Aldrich)和500nM Smoothened配体(Enzo LifeSciences,Farmingdale,NY)。在补充有B27补充剂(Thermo Fisher Scientific)、100nM视黄酸、500nM Smoothened配体、10μM DAPT(Selleck,Houston,TX)的Neurobase培养基中进行图案化后,第16天时,在Accumax(Innovative Cell Technologies,San Diego,CA)中将团块解离成单细胞,并粘附到基质胶(BD Biosciences,富兰克林湖,新泽西州)包被的培养皿上。
用10ng/mL脑源性神经营养因子(R&D Systems,明尼阿波利斯,明尼苏达州)、10ng/mL胶质细胞源性神经营养因子(R&D Systems)和10ng/mL神经营养蛋白-3(R&DSystems)处理贴壁细胞。将细胞在含有神经基质的培养基中培养8天。第21天,使用Accumax将细胞解离为单细胞,并以2×105个细胞/孔的密度接种到iMatrix包被的24孔板(Corning)中。
[实验例4]
(定量RT-PCR)
使用RNeasy Plus Mini试剂盒(QIAGEN)提取培养细胞的总RNA。使用ReverTraAce(TOYOBO,大阪,日本)对1μg的RNA进行逆转录。使用SYBR Premix Ex Taq II(TAKARA)通过利用StepOnePlus(Thermo Fisher Scientific)的逆转录反应进行定量PCR分析。
[实验例5]
(统计分析)
使用学生t检验分析结果以确定统计显着性。p<0.05的差异被认为是显着的。使用Windows版GraphPad Prism软件8.0版(GraphPad Software,圣地亚哥,加利福尼亚州)进行分析。
(结果)
[实验例6]
基于对外周血单核细胞(PBMC)的基因表达量的分析,选择用于对健康者和ALS患者进行分类的基因组合。如上述实施例中所述,使用非线性模型分析基因表达量,并使用HSIC进行分析。
健康者和ALS患者之间有差异的基因组合将具有较高的HSIC分数,相反,没有差异的基因组合具有接近0的HSIC分数。通过识别导致高HSIC评分的组合,本说明书提取了对健康者和ALS患者进行分类的基因。
首先,使用已知与ALS相关的基因组来验证本实施例中描述的方法的有效性。图7是根据本说明书一些实施例所示的ALS的致病基因或相关基因的列表图。例如,从图7所示的基因中选择被认为是ALS的致病基因的33个致病基因,并从这33个致病基因中进一步选择三个基因的组合。
计算HSIC评分作为根据这三个基因的表达量对健康者和ALS患者组进行分类的尺度。图8是根据本说明书一些实施例所示的三个致病基因的组合的HSIC评分的计算结果图。图8仅示出了具有最高HSIC分数的前15个组合。HSIC得分最高的致病基因组合是SPG11、CHMP2B和VCP(HSIC得分0.0988)。
在33个ALS致病基因的所有组合(5456个组合)中,HSIC得分最高的致病基因组合是SPG11、CHMP2B和VCP(HSIC得分0.0988)。使用ROC(Receiver OperatingCharacteristics,接受者操作特征)评估这三个致病基因的组合。图9是根据本说明书一些实施例所示的关于致病基因的组合的ROC评价结果图。如图9所示,具有最高HSIC分数的SPG11、CHMP2B和VCP的组合在ROC中具有0.75的AUC(曲线下面积)。因此,结果是AUC存在统计学上的显着差异。
接下来,从126个ALS相关基因中类似地选择三个基因的组合(参见图7)。在健康者组中,计算三个相关基因组合的HSIC评分,在ALS患者组中,计算三个相关基因组合的HSIC评分。图10与图8类似,是显示三个相关基因的组合的HSIC分数的计算结果的图,图10是根据本说明书一些实施例所示的具有最高HSIC分数的前15个组合。HSIC得分最高的相关基因组合是CSNK1G3、CHMP2B和DYNC1H1(HSIC得分0.11365)。
在126个相关基因的所有组合(325500个组合)中,HSIC得分最高的相关基因组合是CSNK1G3、CHMP2B和DYNC1H1(HSIC得分0.11365)。使用ROC评估这三个相关基因的组合。图11是根据本说明书一些实施例所示的关于相关基因的组合的ROC评价结果图。如图11所示,HSIC评分最高的CSNK1G3、CHMP2B和DYNC1H1的组合的ROC(健康者组和ALS患者组的分类用AUC)中的AUC为0.75。因此,结果是AUC存在统计学上的显着差异。
这些结果证明了本实施例的方法对于寻找能够对健康者组和ALS患者组进行分类的基因集的有效性。
[实验例7]
为了研究ALS的未知因素,计算了未知与ALS有关的基因(无关基因)中的基因组合的HSIC分数。为了避免多重回归模型的多重共线性问题,使用线性回归进行分析,并且将通过该分析提取的基因列表中重复出现的基因(频繁出现的基因)从ALS的致病基因或相关基因中被排除。
在一些实施例中,使用逻辑回归(一种线性回归模型)列出了区分健康者和ALS患者的基因组合列表。图12是根据本说明书一些实施例所示的按HSIC得分降序排列的基因组合的列表。
当使用逻辑回归检查频繁出现的基因时,本说明书发现基因出现的频率存在偏差。图13是根据本说明书一些实施例所示的按通过逻辑回归确定的AUC降序排列的基因组合的列表。图14是根据本说明书一些实施例所示的出现频率最高的前50个基因图。如图14所示,TPT1出现25次,ATP5I出现39次,CAPZA2出现17次,RPL22出现11次。
为了消除多重共线性的影响,从HSIC得分高的基因组合中,将线性回归中重复出现10次及以上的基因排除了。在图14所示的结果中,TPT1、ATP5I、CAPZA2和RPL22都出现了10次以上,因此当排除包含这四个基因中任何一个的组合时,HSIC得分最高的基因组合是PRKAR1A、QPCT和TMEM71(图12中从顶部数起的第9个组合)。
[实验例8]
此外,本说明书还研究了如果将基因组合的数量增加到四个(将预设数量从三个更改为四个),ALS的分类准确性是否会提高。图15是根据本说明书一些实施例所示的当基因组合的数量增加到4时HSIC得分的计算结果图。当基因组合为四个时,HSIC评分与三个基因组合时相比没有显着变化。因此,决定选择三个基因的组合。
[实验例9]
接下来,比较健康者和ALS患者的PBMC中PRKAR1A、QPCT和TMEM71的表达量。图16是根据本说明书一些实施例所示的健康者和ALS患者中PRKAR1A的表达水平图。图17是根据本说明书一些实施例所示的健康者和ALS患者中QPCT的表达水平图。图18是根据本说明书一些实施例所示的健康者和ALS患者中TMEM71的表达水平图。对三个基因中任意一个,ALS患者的表达水平均高于健康者。
此外,健康者的基因和ALS患者的基因分别分布在三维特征空间上,其维度为PRKAR1A、QPCT和TMEM71的表达量。图19A和图19B是根据本说明书一些实施例所示的表示特征空间图。如图19A和图19B所示,在三维特征空间上,健康者的基因被分类到同一簇,ALS患者的基因被分类到同一簇。
使用ROC评估PRKAR1A、QPCT和TMEM71的组合。图20是根据本说明书一些实施例所示的关于PRKAR1A、QPCT和TMEM71的组合的ROC评价结果图。如图20所示,PRKAR1A、QPCT和TMEM71的组合在ROC中的AUC(用于分类健康者组和ALS患者组的AUC)为0.83。因此,结果是AUC存在统计学上的显著差异。
[实验例10]
此外,本说明书还研究了PRKAR1A、QPCT和TMEM71基因的表达水平与从已发表数据获得的ALS临床信息之间的关系。图21A是根据本说明书一些实施例所示的PRKAR1A表达量和存活期之间的相关性图。图21B是根据本说明书一些实施例所示的QPCT表达量与存活期的相关性图。图21C是根据本说明书一些实施例所示的TMEM71的表达量与存活期的相关性图。图22A是根据本说明书一些实施例所示的PRKAR1A的表达量与发病年龄的相关性图。图22B是根据本说明书一些实施例所示的QPCT的表达量与发病年龄的相关性图。图22C是根据本说明书一些实施例所示的TMEM71的表达量与发病年龄的相关性图。图23A是根据本说明书一些实施例所示的PRKAR1A的表达量与延髓麻痹类型和全身型之间的相关性图。图23B是根据本说明书一些实施例所示的QPCT的表达量与延髓麻痹类型及全身型的相关性图。图23C是根据本说明书一些实施例所示的TMEM71的表达量与延髓麻痹类型和全身型之间的相关性图。
如图21A、21B和21C所示,PRKAR1A和TMEM71的基因表达量没有表现出与QPCT显著相关,但与存活期相关。如图22A、22B和22C所示,发病年龄和三个基因的表达量之间不存在相关性。如图23A、23B和23C所示,尽管QPCT没有差异,但全身性ALS患者中PRKAR1A和TMEM71的表达量显著高于延髓麻痹ALS患者。
[实验例11]
此外,本发明利用来自健康者和ALS患者的PBMC对PRKAR1A、QPCT和TMEM71这三个基因的表达水平进行确认。采集12名ALS患者和12名健康者的PBMC,并提取RNA。图24A是根据本说明书一些实施例所示的比较健康者中PRKAR1A的表达水平和ALS患者中PRKAR1A的表达水平图。图24B是根据本说明书一些实施例所示的比较健康者中的QPCT的表达水平和ALS患者中的QPCT的表达水平图。图24C是根据本说明书一些实施例所示的比较健康者中的TMEM71的表达水平和ALS患者中的TMEM71的表达水平图。如图24A、24B和24C所示,ALS患者中PRKAR1A和QPCT的表达水平显著高于健康者,并且ALS患者中TMEM71的表达水平也较高。
图25是根据本说明书一些实施例所示的关于从少数病例中提取的PRKAR1A、QPCT和TMEM71的基因组合的ROC评价结果图。如图25所示,通过组合PRKAR1A、QPCT和TMEM71这三个基因的表达量,即使在少量的12名ALS患者和12名健康者中,对健康者和ALS患者进行分类的AUC也达到0.85。这些结果证实,通过检查PBMC中这三个基因的表达水平可以区分ALS患者组和健康者组。
[实验例12]
研究人员对从26名健康者和18名ALS患者的iPS细胞中获得的运动神经元中三种基因的表达进行了研究。图26是根据本说明书一些实施例所示的iPS细胞和从iPS细胞获得的运动神经元的图像。图27A是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间PRKAR 1A的表达量图。图27B是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间的QPCT表达量图。图27C是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间的TMEM71的表达量的图。图28是根据本说明书一些实施例所示的关于从运动神经元提取的PRKAR1A、QPCT和TMEM71的组合的ROC评价结果的图。如图27A、27B和27C所示,健康者的运动神经元和ALS患者的运动神经元之间PRKAR1A、QPCT和TMEM71各基因的表达量没有差异。如图28所示,当将三个基因的表达量作为一组进行比较时,AUC为0.79,并且可以对健康者和ALS患者进行分类。
[实验例13]
此外,由于TDP-43的积累与ALS的病理学密切相关,因此本说明书研究了这三个基因与TDP-43之间的关系。图29是根据本说明书一些实施例所示的TDP-43相对于PRKAR1A、QPCT和TMEM71各基因的相对表达水平。如图29所示,当用siRNA敲除PRKAR1A、QPCT和TMEM71时,来自健康者和ALS患者的运动神经元中TDP-43的表达量显著增加。从这些结果来看,在本实施例的方法中使用HSIC鉴定的基因组尚未得知与ALS的病理学相关,但是本实验表明它可能是ALS的病理学中的新的参与者。
[实验例14]
将分别从健康者和ALS患者中提取的三个基因的表达量图示化。图30A是根据本说明书一些实施例所示的从健康者和ALS患者中提取的PRKAR1A的表达水平图。图30B是根据本说明书一些实施例所示的从健康者和ALS患者提取的QPCT表达水平图。图30C是根据本说明书一些实施例所示的从健康者和ALS患者提取的TMEM71的表达水平图。每幅图的纵轴代表基因表达量,横轴代表病例。
对于PRKAR1A、QPCT和TMEM71中的每一个,在ALS患者中相比在健康者中的表达量有更高的趋势,但样本之间存在很大差异,每个基因单独的表达量,无法对健康者和ALS患者进行分类。
在一些实施例中,如上述实施方式中说明的那样,可以通过组合PRKAR1A、QPCT、TMEM71这3种基因的表达量来对健康者和ALS患者进行分类。因此,证明了通过HSIC提取的三个基因的组合的有用性。
类似地,将从ALS致病基因和ALS相关基因中提取的基因的表达量图示化。图31A是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的SPG11的表达水平图。图31B是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的CHMP2B的表达水平图。图31C是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的CSNK1G3的表达水平图。图31D是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的DYNC1H1的表达水平图。每幅图的纵轴代表基因表达量,横轴代表病例。即使对于这些SPG11、CHMP2B、CSNK1G3和DYNC1H1基因,单独使用每个基因也不能对健康者和ALS患者进行分类,证明了利用RKAR1A,QPCT,TMEM71三个基因的组合将健康者与ALS患者分开的方法的有用性。
如上所述,本说明书使用称为HSIC(一种高维非线性统计模型)的机器学习算法,从实际数据中发现了ALS数字诊断所需的血液分子生物标志物。所鉴定的分子生物标志物此前在ALS中并未受到关注。然而,当用siRNA控制这些基因的表达时,发现ALS中重要的关键分子TDP-43的表达水平发生变化,表明这些标记物可能与ALS有关。
HSIC用于衡量两个随机向量之间的统计相关性,将两个随机向量变换为两个可再生核希尔伯特空间(RKHS),并利用两个RKHS的希尔伯特施密特(HS)算子,衡量两个随机向量统计相关性。ALS是一种表现出非线性生物学现象的异质性疾病,其病理生理学不能用单一因素来解释,因此,本说明书利用这个模型,利用血液样本数据探索用于对ALS患者和健康者进行分类的基因组合。通过利用非线性模型,成功发现了PRKAR1A、QPCT和TMEM71的新型基因组合。
PRKAR1A基因编码丝氨酸/苏氨酸激酶、cAMP依赖性蛋白激酶I-α型调控蛋白激酶,它是哺乳动物中cAMP信号的主要介质。细胞中的多种生理配体会通过cAMP/PKA信号通路诱导磷酸化,这种磷酸化在新陈代谢、细胞增殖、分化和凋亡的调节过程中起着至关重要的作用。该基因的一个或两个等位基因的缺失会导致人类多发性硬化症和小鼠胚胎致命缺陷。尽管PRKAR1A基因与ALS之间的关系尚不清楚,但有报告称,ALS患者和SOD1小鼠脊髓中的PKA活性增加,而且ALS中cAMP/PKA的突触修复促进了运动神经元的活动依赖性神经保护。基于以上内容,PRKAR1A基因表达的增加有望对ALS产生预防作用。PRKAR1A基因的Gene ID、NCBI参考序列的示例以及NCBI参考网站的地址如下。
PRKAR1A
Gene ID:5573
NM_001276289.2、NM_212472.1
https://www.ncbi.nlm.nih.gov/gene/5573
QPTC基因编码谷氨酰胺酰肽环转移酶。据报告,阿尔茨海默病患者外周血中谷氨酰胺酰环化酶的表达增加,谷氨酰胺酰环化酶抑制剂可能是治疗阿尔茨海默病的潜在药物。此外,QPCT已被确定为亨廷顿病的治疗靶点,并且有报告称QPCT基因的多态性与精神分裂症的易感性相关。尽管与ALS病理学的关系尚不清楚,但QPCT基因表达增加可能与神经退行性病变的共同途径有关。QPTC基因的GeneID、NCBI参考序列的示例以及NCBI参考网站的地址如下。
OPCT
Gene ID:25797
NM_012413.4、NM_012413.3
https://www.ncbi.nlm.nih.gov/gene/25797
TMEM71编码跨膜蛋白,但其功能尚未明确阐明。基因敲除小鼠除了轻微甲状腺功能减退症外没有表现出任何表型。TMEM71在胶质母细胞瘤中表达增加并与免疫反应相关,并且TMEM71与PD-1和PD-L1表现出高度正相关。基因敲除小鼠没有表现出任何表型,只有轻微的甲状腺功能减退症。TMEM71基因表达增加可能与ALS的免疫反应有关。TMEM71基因的Gene ID、NCBI参考序列的示例以及NCBI参考网站的地址如下。
TMEM71
Gene ID:137835
NM_001145153.2、NM_144649.1
https://www.ncbi.nlm.nih.gov/gene/137835
本说明书使用非线性模型HSIC和真实数据来寻找用于ALS分类的基因组合。该方法不仅有助于识别用于ALS数字诊断的分子生物标志物,而且有可能超越人类想法驱动的方法得出全新的ALS发病机制。此外,该方法不仅限于ALS,还可以应用于其他多因素疾病或散发性疾病。
符号说明
100…信息处理装置、110…通信接口、120…输入接口、130…输出接口、140…处理单元、150…存储单元。
Claims (15)
1.一种信息处理装置,其特征在于,所述装置包含处理单元,所述处理单元被配置为:
对于基因数据集中包含的每个基因组合,计算其对多因素疾病或散发性疾病的致病基因以及所述多因素疾病或散发性疾病的相关基因的依赖性的尺度;
基于所述依赖性的尺度,从所述数据集中选取预设数量的基因组合。
2.如权利要求1所述的信息处理装置,其特征在于,所述处理单元被配置为:
基于第一基因的表达量,将所述第一基因的数据分布在一个特征空间上,所述第一基因是源自健康者的基因;
基于第二基因的表达量,将所述第二基因的数据分布在所述特征空间上,所述第二基因是源自患有所述多因素疾病或散发性疾病的患者的基因;
基于所述第一基因的表达量,在所述特征空间上对所述第一基因的数据进行聚类;
基于所述第二基因的表达量,在所述特征空间上对所述第二基因的数据进行聚类。
3.如权利要求2所述的信息处理装置,其特征在于,所述处理单元被配置为:
将第三基因的数据分布在形成了健康者和患者的簇的所述特征空间上,所述第三基因是源自待诊断患有所述多因素疾病或散发性疾病的受试者的基因;
计算所述第三基因的数据与所述簇在所述特征空间上的距离;
基于所述距离判断受试者是否会患所述多因素疾病或散发性疾病,或者判断受试者是否患有所述多因素疾病或散发性疾病。
4.如权利要求1或2所述的信息处理装置,其特征在于,其中,
所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症;
所述预设数量为三;
所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。
5.如权利要求1或2所述的信息处理装置,其特征在于,所述处理单元被配置为:
通过线性回归分析,将包含出现频率等于或高于阈值的基因的特定组合,从已经计算了所述依赖性的尺度的基因组合的样本总体中排除;
从已排除所述特定组合的所述样本总体中选择所述依赖性的尺度最高的基因组合。
6.一种信息处理方法,其特征在于,所述方法由计算机执行,包括:
对于基因数据集中包含的每个基因组合,计算其对多因素疾病或散发性疾病的致病基因以及所述多因素疾病或散发性疾病的相关基因的依赖性的尺度;
基于所述依赖性的尺度,从所述数据集中选取预设数量的基因组合。
7.如权利要求6所述的信息处理方法,其特征在于,还包括:
基于第一基因的表达量,将所述第一基因的数据分布在一个特征空间上,所述第一基因是源自健康者的基因;
基于第二基因的表达量,将所述第二基因的数据分布在所述特征空间上,所述第二基因是源自患有所述多因素疾病或散发性疾病的患者的基因;
基于所述第一基因的表达量,在所述特征空间上对所述第一基因的数据进行聚类;
基于所述第二基因的表达量,在所述特征空间上对所述第二基因的数据进行聚类。
8.如权利要求7所述的信息处理方法,其特征在于,还包括:
将第三基因的数据分布在形成了健康者和患者的簇的所述特征空间上,所述第三基因是源自待诊断患有所述多因素疾病或散发性疾病的受试者的基因;
计算所述第三基因的数据与所述簇在所述特征空间上的距离;
基于所述距离判断受试者是否会患所述多因素疾病或散发性疾病,或者判断受试者是否患有所述多因素疾病或散发性疾病。
9.如权利要求7或8所述的信息处理方法,其特征在于,其中,
所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症;
所述预设数量为三;
所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。
10.如权利要求7或8所述的信息处理方法,其特征在于,还包括:
通过线性回归分析,将包含出现频率等于或高于阈值的基因的特定组合,从已经计算了所述依赖性的尺度的基因组合的样本总体中排除;
从已排除所述特定组合的所述样本总体中选择所述依赖性的尺度最高的基因组合。
11.一种由计算机执行的程序,其特征在于,包括:
对于基因数据集中包含的每个基因组合,计算其对多因素疾病或散发性疾病的致病基因以及所述多因素疾病或散发性疾病的相关基因的依赖性的尺度;
基于所述依赖性的尺度,从所述数据集中选取预设数量的基因组合。
12.如权利要求11所述的程序,其特征在于,还包括:
基于第一基因的表达量,将所述第一基因的数据分布在一个特征空间上,所述第一基因是源自健康者的基因;
基于第二基因的表达量,将所述第二基因的数据分布在所述特征空间上,所述第二基因是源自患有所述多因素疾病或散发性疾病的患者的基因;
基于所述第一基因的表达量,在所述特征空间上对所述第一基因的数据进行聚类;
基于所述第二基因的表达量,在所述特征空间上对所述第二基因的数据进行聚类。
13.如权利要求12所述的程序,其特征在于,还包括:
将第三基因的数据分布在形成了健康者和患者的簇的所述特征空间上,所述第三基因是源自待诊断患有所述多因素疾病或散发性疾病的受试者的基因;
计算所述第三基因的数据与所述簇在所述特征空间上的距离;
基于所述距离判断受试者是否会患所述多因素疾病或散发性疾病,或者判断受试者是否患有所述多因素疾病或散发性疾病。
14.如权利要求11或12所述的程序,其特征在于,其中,
所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症;
所述预设数量为三;
所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。
15.根据权利要求11或12所述的程序,其特征在于,还包括:
通过线性回归分析,将包含出现频率等于或高于阈值的基因的特定组合,从已经计算了所述依赖性的尺度的基因组合的样本总体中排除;
从已排除所述特定组合的所述样本总体中选择所述依赖性的尺度最高的基因组合。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163208509P | 2021-06-09 | 2021-06-09 | |
US63/208,509 | 2021-06-09 | ||
PCT/JP2022/023287 WO2022260129A1 (ja) | 2021-06-09 | 2022-06-09 | 情報処理装置、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117425932A true CN117425932A (zh) | 2024-01-19 |
Family
ID=84424586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280040883.1A Pending CN117425932A (zh) | 2021-06-09 | 2022-06-09 | 信息处理装置、信息处理方法以及程序 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4354446A1 (zh) |
JP (1) | JPWO2022260129A1 (zh) |
CN (1) | CN117425932A (zh) |
WO (1) | WO2022260129A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005218421A (ja) * | 2004-02-03 | 2005-08-18 | Masahiro Kasahara | 全ゲノムショットガン法によるdna断片配列データからコンティグを作成する方法及び記録媒体 |
EP2335174A1 (en) * | 2008-09-12 | 2011-06-22 | Navigenics INC. | Methods and systems for incorporating multiple environmental and genetic risk factors |
EP2499591A2 (en) * | 2009-11-13 | 2012-09-19 | Beckman Coulter, Inc. | Systems and methods for detecting the presence of a biological status using clustering |
JP6143233B2 (ja) | 2015-08-05 | 2017-06-07 | 国立大学法人京都大学 | 運動ニューロン疾患の検査方法及び治療剤のスクリーニング方法 |
-
2022
- 2022-06-09 JP JP2023527920A patent/JPWO2022260129A1/ja active Pending
- 2022-06-09 WO PCT/JP2022/023287 patent/WO2022260129A1/ja active Application Filing
- 2022-06-09 CN CN202280040883.1A patent/CN117425932A/zh active Pending
- 2022-06-09 EP EP22820308.9A patent/EP4354446A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JPWO2022260129A1 (zh) | 2022-12-15 |
WO2022260129A1 (ja) | 2022-12-15 |
EP4354446A1 (en) | 2024-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dapas et al. | Distinct subtypes of polycystic ovary syndrome with novel genetic associations: An unsupervised, phenotypic clustering analysis | |
Sebastian-Leon et al. | Asynchronous and pathological windows of implantation: two causes of recurrent implantation failure | |
Cusanovich et al. | The functional consequences of variation in transcription factor binding | |
Denny et al. | Systematic comparison of phenome-wide association study of electronic medical record data and genome-wide association study data | |
Helsmoortel et al. | A SWI/SNF-related autism syndrome caused by de novo mutations in ADNP | |
Cobben et al. | DNA methylation abundantly associates with fetal alcohol spectrum disorder and its subphenotypes | |
Park et al. | Exome-wide evaluation of rare coding variants using electronic health records identifies new gene–phenotype associations | |
Hori et al. | Blood-based gene expression signatures of medication-free outpatients with major depressive disorder: integrative genome-wide and candidate gene analyses | |
JP2012501181A (ja) | バイオマーカー・プロファイルを測定するためのシステムおよび方法 | |
Thibodeau et al. | A neural network based model effectively predicts enhancers from clinical ATAC-seq samples | |
Huang et al. | Association of single‐nucleotide polymorphism rs4236601 near caveolin 1 and 2 with primary open‐angle glaucoma: a meta‐analysis | |
Lam et al. | Comparative genetic architectures of schizophrenia in East Asian and European populations | |
Zhang et al. | Neuron-specific transcriptomic signatures indicate neuroinflammation and altered neuronal activity in ASD temporal cortex | |
Zollars et al. | Clinical application of a modular genomics technique in systemic lupus erythematosus: progress towards precision medicine | |
Dann et al. | Precise identification of cell states altered in disease using healthy single-cell references | |
Zhou et al. | Identification of 5 potential predictive biomarkers for Alzheimer’s disease by integrating the unified test for molecular signatures and weighted gene coexpression network analysis | |
Wang et al. | Integrated Analysis of DNA methylation and transcriptome profile to identify key features of age-related macular degeneration | |
Hu et al. | Integration of transcriptomics reveals ferroptosis-related signatures and immune cell infiltration in bronchopulmonary dysplasia | |
Jiang et al. | An updated meta-analysis of the signal transducer and activator of transcription 4 (STAT4) rs7574865 G/T polymorphism and rheumatoid arthritis risk in an Asian population | |
Franasiak et al. | Embryonic aneuploidy does not differ among genetic ancestry according to continental origin as determined by ancestry informative markers | |
Tardiveau et al. | A 9-mRNA signature measured from whole blood by a prototype PCR panel predicts 28-day mortality upon admission of critically ill COVID-19 patients | |
Jin et al. | The regulatory landscapes of human ovarian ageing | |
Han et al. | Infertility network and hub genes for nonobstructive azoospermia utilizing integrative analysis | |
CN117425932A (zh) | 信息处理装置、信息处理方法以及程序 | |
Natri et al. | Cell-type-specific and disease-associated expression quantitative trait loci in the human lung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |