CN111009290B - 高原适应性检测模型的训练方法、适应性识别方法和装置 - Google Patents
高原适应性检测模型的训练方法、适应性识别方法和装置 Download PDFInfo
- Publication number
- CN111009290B CN111009290B CN201911288949.5A CN201911288949A CN111009290B CN 111009290 B CN111009290 B CN 111009290B CN 201911288949 A CN201911288949 A CN 201911288949A CN 111009290 B CN111009290 B CN 111009290B
- Authority
- CN
- China
- Prior art keywords
- sample
- methylation
- sample set
- plateau
- differential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 title claims abstract description 54
- 239000000523 sample Substances 0.000 claims abstract description 283
- 230000011987 methylation Effects 0.000 claims abstract description 149
- 238000007069 methylation reaction Methods 0.000 claims abstract description 149
- 239000012472 biological sample Substances 0.000 claims abstract description 122
- 230000014509 gene expression Effects 0.000 claims abstract description 84
- 238000012163 sequencing technique Methods 0.000 claims abstract description 46
- 230000001973 epigenetic effect Effects 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 230000006978 adaptation Effects 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012165 high-throughput sequencing Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000007671 third-generation sequencing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 230000002902 bimodal effect Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 8
- 239000003550 marker Substances 0.000 abstract description 6
- 206010021143 Hypoxia Diseases 0.000 abstract description 5
- 230000001146 hypoxic effect Effects 0.000 abstract 1
- 230000003044 adaptive effect Effects 0.000 description 20
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 9
- 239000008280 blood Substances 0.000 description 7
- 210000004369 blood Anatomy 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 208000008445 altitude sickness Diseases 0.000 description 4
- 230000007954 hypoxia Effects 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 2
- 206010037423 Pulmonary oedema Diseases 0.000 description 2
- 230000009456 molecular mechanism Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 208000005333 pulmonary edema Diseases 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 1
- RGKBRPAAQSHTED-UHFFFAOYSA-N 8-oxoadenine Chemical compound NC1=NC=NC2=C1NC(=O)N2 RGKBRPAAQSHTED-UHFFFAOYSA-N 0.000 description 1
- 102000008873 Angiotensin II receptor Human genes 0.000 description 1
- 108050000824 Angiotensin II receptor Proteins 0.000 description 1
- 241000193830 Bacillus <bacterium> Species 0.000 description 1
- 206010048962 Brain oedema Diseases 0.000 description 1
- 208000037051 Chromosomal Instability Diseases 0.000 description 1
- 108091029430 CpG site Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 206010058314 Dysplasia Diseases 0.000 description 1
- 206010071602 Genetic polymorphism Diseases 0.000 description 1
- 102000018932 HSP70 Heat-Shock Proteins Human genes 0.000 description 1
- 108010027992 HSP70 Heat-Shock Proteins Proteins 0.000 description 1
- 101000839464 Leishmania braziliensis Heat shock 70 kDa protein Proteins 0.000 description 1
- 208000032818 Microsatellite Instability Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 208000008601 Polycythemia Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 238000001772 Wald test Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- DQEPMTIXHXSFOR-UHFFFAOYSA-N benzo[a]pyrene diol epoxide I Chemical compound C1=C2C(C3OC3C(C3O)O)=C3C=C(C=C3)C2=C2C3=CC=CC2=C1 DQEPMTIXHXSFOR-UHFFFAOYSA-N 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 208000006752 brain edema Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- -1 dihydroxyoxybenzopyrene Chemical compound 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 108010018033 endothelial PAS domain-containing protein 1 Proteins 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 125000004029 hydroxymethyl group Chemical group [H]OC([H])([H])* 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000003068 pathway analysis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 208000002815 pulmonary hypertension Diseases 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Ecology (AREA)
- Physiology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请涉及一种高原适应性检测模型的训练方法、适应性识别方法和装置,其中模型的训练方法包括:获取第一样本生物样品集,通过表观遗传学测序方法获取第一样本生物样品集中每一个样本生物样品的第一样本甲基化表达谱;基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。其通过第一样本生物样品集的表观遗传标记物训练深度神经网络,以得到高原适应性检测模型,进而利用该模型对待识别生物样品的甲基化表达谱进行识别,从而得到待识别生物样品的高原适应性识别结果,对预测和预防高原缺氧性疾病具有重大意义。
Description
技术领域
本申请涉及生物信息学技术领域,特别是涉及一种高原适应性检测模型的训练方法、适应性识别方法和装置。
背景技术
近年来随着高原地区经济水平的增长和国防建设的需要,大量人员快速从平原进入到高原地区。而进入高原早期习服不良者主要以急性高原病为主,包括急性高山病(AMS)、高原肺水肿和高原脑水肿;随着高原暴露时间的延长主要以慢性高原病为主,包括高原红细胞增多症(HAPC)和高原肺动脉高压。因此,从平原移居高原最需要解决的问题是高原低氧对人体生命活动的影响,因而高原医学的核心任务是:高原习服适应的机制及促习服措施、高原病的发病机制及防治措施以及高原劳动能力的提高等。
目前关于高原适应性的研究,多采用基因组、蛋白组等以序列改变为基础的测序技术,例如发现高原土著动物线粒体基因组的ND、APT基因、高原藏族人的缺氧转录因子EPAS1基因与高原适应相关。SNPs及其特定的组合可能是造成复杂性状疾病易感性的重要原因,研究发现Ⅰ型血管紧张素受体(AT1R)基因的G1517T多态性与高原肺水肿的易感性相关;热休克蛋白70(HSP70)中HSP70-2B/B基因型基与急性高原反应有关。
但是,无论是习服理论还是需要长期自然选择的基因多态性理论都不能解释这些在胚胎期和婴幼儿期出现的高原适应性改变。而表观遗传学这个学科主要研究基因型和表型的关系,其基础一定是建立在不改变基因序列的水平上,因此,如何将表观遗传标记物应用于高原适应性评价中是目前亟需解决的问题。
发明内容
基于此,有必要针对上述问题,提供一种能够将表观遗传标记物应用于高原适应性评价的高原适应性检测模型的训练方法、适应性识别方法和装置。
为了实现上述目的,第一方面,本申请实施例提供了一种高原适应性检测模型的训练方法,所述方法包括:
获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,而第一正样本集和第一负样本集中分别包括若干个样本生物样品;
通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
在其中一个实施例中,基于第一样本甲基化表达谱训练深度神经网络,包括:基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
在其中一个实施例中,差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种;表观遗传学测序方法包括二代测序方法和三代测序方法中的任一种。
在其中一个实施例中,基于第一样本甲基化表达谱训练深度神经网络之后,所述方法还包括:获取第二样本生物样品集,其中,第二样本生物样品集中包括第二正样本集和第二负样本集,则第二正样本集和第二负样本集中分别包括若干个样本生物样品;通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
在其中一个实施例中,第一正样本集为藏族适应高原人群的样本生物样品,第二正样本集为汉族适应高原人群的样本生物样品,第一负样本集和第二负样本集为汉族不适应高原人群的样本生物样品。
第二方面,本申请实施例提供了一种高原适应性识别方法,所述方法包括:
获取待识别生物样品;
通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
第三方面,本申请实施例提供了一种高原适应性检测模型的训练装置,所述装置包括:
第一获取模块,用于获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,第一正样本集和第一负样本集中分别包括若干个样本生物样品;
第一特征提取模块,用于通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
训练模块,用于基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
第四方面,本申请实施例提供了一种高原适应性识别装置,所述装置包括:
第二获取模块,用于获取待识别生物样品;
第二特征提取模块,用于通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
识别模块,用于利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
第五方面,本申请实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
上述高原适应性检测模型的训练方法、适应性识别方法和装置,通过第一样本生物样品集的表观遗传标记物训练深度神经网络,以得到高原适应性检测模型,进而利用该模型对待识别生物样品的甲基化表达谱进行识别,从而得到待识别生物样品的高原适应性识别结果,对预测和预防高原缺氧性疾病具有重大意义。
附图说明
图1为一个实施例中高原适应性检测模型的训练方法的流程示意图;
图2为一个实施例中训练步骤的流程示意图;
图3为另一个实施例中高原适应性检测模型的训练方法的流程示意图;
图4为一个实施例中高原适应性识别方法的流程示意图;
图5为一个实施例中高原适应性检测模型的训练装置的结构框图;
图6为一个实施例中高原适应性识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着表观遗传学对某些疾病机制的研究深入,一大批特异的标志物,例如染色体不稳定性、微卫星不稳定性以及甲基化修饰等被发现、鉴定,为多种疾病实现早期诊断提供了可能。且有研究发现缺失DNA(DeoxyriboNucleic Acid,脱氧核糖核酸)甲基化酶的一种结核杆菌比其他组死亡速度更快,即DNA甲基化酶在低氧适应过程中可能起到重要的作用,因此表观遗传学的新理论、新方法的出现为解释发育性适应提供了可能。基于此,本申请提供了一种能够将表观遗传标记物应用于高原适应性评价中的高原适应性检测模型的训练方法以及高原适应性识别方法,其通过第一样本生物样品集的表观遗传标记物训练深度神经网络,以得到高原适应性检测模型,进而利用该模型对待识别生物样品的甲基化表达谱进行识别,从而得到待识别生物样品的高原适应性识别结果,对预测和预防高原缺氧性疾病具有重大意义。
在一个实施例中,如图1所示,提供了一种高原适应性检测模型的训练方法,包括以下步骤:
步骤102,获取第一样本生物样品集。
其中,第一样本生物样品集用于训练模型,第一样本生物样品集中包括第一正样本集和第一负样本集,而第一正样本集和第一负样本集中则分别包括若干个样本生物样品。具体的,样本生物样品可以是对应客体的血样。例如,第一正样本集可以是藏族中适应高原人群的样本生物样品(即血样),而第一负样本集则可以是汉族中不适应高原人群的样本生物样品(即血样)。
步骤104,通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱。
其中,表观遗传学测序是以高通量测序平台为基础,研究在核酸序列不变的情况下,基因的表达、调控和性状发生可遗传的变化的技术。在本实施例中,通过表观遗传学测序方法对第一正样本集和第一负样本集中每一个样本生物样品进行甲基化测序,从而得到各样本生物样品对应的第一样本甲基化表达谱。
步骤106,基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
其中,深度神经网络(Deep Neural Networks,以下简称DNN)是深度学习的基础,而神经网络是基于感知机的扩展,DNN则可以理解为有很多隐藏层的神经网络。其第一层为input(输入)层,最后一层为output(输出)层,而在input和output中间的层则被称为hidden(隐藏)层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是从小的局部模型来说,还是和感知机一样,即一个线性关系加上一个激活函数。
在本实施例中,基于第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱对深度神经网络进行训练,使得网络可以学习到第一正样本集中藏族适应高原人群的甲基化特征,以及第一负样本集中汉族不适应高原人群的甲基化特征,从而得到高原适应性检测模型。
上述高原适应性检测模型的训练方法,通过第一样本生物样品集的表观遗传标记物训练深度神经网络,使得网络可以学习到藏族适应高原人群的甲基化特征,以及汉族不适应高原人群的甲基化特征,从而得到高原适应性检测模型,进而利用该模型对待识别生物样品的甲基化表达谱进行识别,从而得到待识别生物样品的高原适应性识别结果,对预测和预防高原缺氧性疾病具有重大意义。
在一个实施例中,表观遗传学测序方法包括二代测序方法和三代测序方法中的任一种。其中,二代测序方法为全基因组CpG位点甲基化捕获测序技术(Genome-CpGs-scalemethylC-capture sequencing,MCC-Seq),是基于二代测序平台的全新的DNA甲基化捕获检测技术,具有独特探针设计、能够双链捕获、起始样本量低、准确定量检测等优点,是一种准确、经济、高效的DNA甲基化检测方法。
三代测序方法采用PacBio,其是美国知名的高通量测序系统研发和生产厂商推出的单分子实时测序(Single Molecule,Real-Time,SMRT)技术及系统。其测序最大读长能达到70kb,平均读长12~15kb,能够完美跨越高重复区域和高复杂区域,并减少拼接成本,可以直接检测到甲基化信息,并同步进行表观遗传学性别识别。当碱基有额外修饰时,DNA聚合酶的合成速度会减慢,对应的信号会被检测出来。每种碱基修饰事件都会使聚合酶的“停顿模式”PacBio Sequel产生微小差异,最终反映到荧光脉冲信号的间隔上。除了甲基化修饰,还可以检测5-hC、5-hmU、5-hU、1-mA、6-mA、8-oxoA、BPDE(二羟环氧苯并芘)、6-mT、6-mG等碱基修饰,甚至可以鉴别传统亚硫酸氢盐测序法无法区分的甲基化修饰和羟甲基化修饰。PacBio Sequel平台可以在测序的同时即可检测表观遗传学修饰信息,只需对测序数据选择合适的软件即可分析碱基修饰信息。当然,对于三代测序方法还可以采用Nanopore纳米孔技术,本实施例中并不对此进行限定。
在一个实施例中,如图2所示,上述基于第一样本甲基化表达谱训练深度神经网络,具体可以包括如下步骤:
步骤202,基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征。
其中,差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种。具体的,基于高通量测序数据的差异分析(DispersionShrinkage for Sequencing data,简称DSS),其原理是对差异甲基化的检测基于β负二项分布的严格沃尔德检验,以计算不同组别(即第一正样本集和第一负样本集)的甲基化表达谱之间的差异甲基化位点(DML)。基于差异甲基化区域的差异分析eDMR,其原理是用“双峰正态模型”将邻近的一些CpG划分为一片甲基化区域,再处理和找寻差异甲基化位点和区域,以得到第一正样本集和第一负样本集之间的差异甲基化位点。
在本实施例中,利用GO(Gene Ontology,基因本体论)、KEGG(Kyoto Encyclopediaof Genes and Genomes,京都基因与基因组百科全书)等本体库对上述确定的差异甲基化位点进行筛选,即按基因功能进行分类,并对筛选出的差异甲基化位点所在的基因进行功能注释、通路注释以及通路分析等生物信息学分析,从而得到差异甲基化位点表达谱特征,以进一步揭示第一正样本集中藏族适应高原人群的分子机制。具体的,可使用超几何分布方法来对基因进行功能注释。超几何分布是统计学上一种离散概率分布,它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。之所以称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。
步骤204,利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
具体的,利用第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱,以及对应的差异甲基化位点表达谱特征对深度神经网络进行训练,使得网络可以学习到第一正样本集中藏族适应高原人群的甲基化特征和适应高原的分子机制,以及第一负样本集中汉族不适应高原人群的甲基化特征,从而得到高原适应性检测模型。
具体的,在本实施例中,在对网络进行训练时,具体基于python语言中的tensorflow包,则classifier的具体调用方法为tf.contrib.learn.DNNClassifier,classifier的具体参数设置为hidden_units,具体根据第一样本生物样品集中的数量而定,n_classes=2,dropout=0.1。classifier.fit的具体参数为batch_size=128,max_steps=2000。
在一个实施例中,如图3所示,在基于第一样本甲基化表达谱训练深度神经网络之后,上述方法还可以包括如下步骤:
步骤302,获取第二样本生物样品集。
其中,第二样本生物样品集用于验证模型,第二样本生物样品集中包括第二正样本集和第二负样本集,而第二正样本集和第二负样本集中分别包括若干个样本生物样品。具体的,样本生物样品可以是对应客体的血样。例如,第二正样本集可以是汉族中适应高原人群的样本生物样品(即血样),而第二负样本集则可以是汉族中不适应高原人群的样本生物样品(即血样)。
步骤304,通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱。
具体的,可以采用上述介绍的表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱,本实施例中不再对此进行赘述。
步骤306,采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
具体的,在采用第二样本甲基化表达谱对训练后的深度神经网络进行验证时,其验证具体调用方法为predict_classes,具体参数为as_iterable=False。验证评价的具体调用方法为predict_proba,具体参数为as_iterable=False。
在本实施例中,可以采用ROC(receiver operating characteristic curve,接受者操作特性曲线)曲线和AUC(Area Under Curve,ROC曲线下方的面积大小)值对模型的性能指标进行评价。其中,ROC曲线又称为感受性曲线,得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。ROC曲线就是以虚惊概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。ROC曲线有个很好的特性:当测试集(即第二样本生物样品集)中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化。其中模型采用ROC曲线和AUC值评价时,可以采用python语言中的tensorflow包和sklearn包。验证折数方法为sklearn.model_selection.StratifiedKFold,具体参数为n_splits=折数,shuffle=True,random_state=0。模型评价调用的方法为classifier.evaluate、classifier.predict_proba、roc_curve、classifier.predict_classes、sklearn.metrics.f1_score等。因此,可通过MeanROC(平均ROC)判断模型效果,当模型效果(也即验证结果)达到阈值时,则得到高原适应性检测模型,当模型效果未达到阈值时,则采用如图1所示的方法继续对模型进行训练。
进一步的,为了直观展示训练集和验证集的甲基化表达谱的聚类情况,可以采用t-SNE(t-distributed stochastic neighbor embedding,是用于降维的一种机器学习算法)方法对表达谱数据进行降维处理。t-SNE是由SNE衍生出的一种算法,SNE最早出现在2002年,它改变了MDS(multidimensional scaling,多维标度分析)和ISOMAP(IsometricFeature Mapping,用于非线性数据降维)中基于距离不变的思想,将高维映射到低维的同时,尽量保证相互之间的分布概率不变,SNE将高维和低维中的样本分布都看作高斯分布,而t-SNE将低维中的坐标当做T分布,这样做的好处是为了让距离大的簇之间距离拉大,从而解决了拥挤问题。从t-SNE到SNE之间,还有一个对称t-SNE,其对t-SNE有部分改进作用。其中表达谱数据降维可视化展示时,使用python语言中的matplotlib进行可视化展示,可查看表达谱降维后的散点图,从而直观判断训练集和验证集的分布情况。
本申请还提供了一种高原适应性识别方法,如图4所示,包括如下步骤:
步骤402,获取待识别生物样品。
其中,待识别生物样品是从待进行高原适应性识别的客体中提取的,其具体可以是待进行高原适应性识别的客体的血样。
步骤404,通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱。
具体的,可以采用上述介绍的表观遗传学测序方法获取待识别生物样品的甲基化表达谱,本实施例中不再对此进行赘述。
步骤406,利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
其中,高原适应性识别结果包括适应高原和不适应高原的识别结果。具体的,通过上述方法训练得到的高原适应性检测模型识别待识别生物样品的甲基化表达谱,从而得到该待识别生物样品的高原适应性识别结果,其不仅对预测和预防高原缺氧性疾病具有重大意义,且能促进高原地区社会和经济的发展。
应该理解的是,虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种高原适应性检测模型的训练装置,包括:第一获取模块501、第一特征提取模块502和训练模块503,其中:
第一获取模块501,用于获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,第一正样本集和第一负样本集中分别包括若干个样本生物样品;
第一特征提取模块502,用于通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
训练模块503,用于基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
在一个实施例中,训练模块503具体用于,基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
在一个实施例中,差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种,表观遗传学测序方法包括二代测序方法和三代测序方法中的任一种。
在一个实施例中,上述装置还包括验证模块,用于获取第二样本生物样品集,其中,第二样本生物样品集中包括第二正样本集和第二负样本集,则第二正样本集和第二负样本集中分别包括若干个样本生物样品;通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
在一个实施例中,第一正样本集为藏族适应高原人群的样本生物样品,第二正样本集为汉族适应高原人群的样本生物样品,第一负样本集和第二负样本集为汉族不适应高原人群的样本生物样品。
关于高原适应性检测模型的训练装置的具体限定可以参见上文中对于高原适应性检测模型的训练方法的限定,在此不再赘述。上述高原适应性检测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图6所示,提供了一种高原适应性识别装置,包括:第二获取模块601、第二特征提取模块602以及识别模块603,其中:
第二获取模块601,用于获取待识别生物样品;
第二特征提取模块602,用于通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
识别模块603,用于利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
关于高原适应性识别装置的具体限定可以参见上文中对于高原适应性识别方法的限定,在此不再赘述。上述高原适应性识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储甲基化表达谱数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种高原适应性检测模型的训练方法或一种高原适应性识别方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,而第一正样本集和第一负样本集中分别包括若干个样本生物样品;
通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在基于第一样本甲基化表达谱训练深度神经网络之后,获取第二样本生物样品集,其中,第二样本生物样品集中包括第二正样本集和第二负样本集,则第二正样本集和第二负样本集中分别包括若干个样本生物样品;通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待识别生物样品;
通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,而第一正样本集和第一负样本集中分别包括若干个样本生物样品;
通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在基于第一样本甲基化表达谱训练深度神经网络之后,获取第二样本生物样品集,其中,第二样本生物样品集中包括第二正样本集和第二负样本集,则第二正样本集和第二负样本集中分别包括若干个样本生物样品;通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待识别生物样品;
通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种高原适应性检测模型的训练方法,其特征在于,所述方法包括:
获取第一样本生物样品集,所述第一样本生物样品集中包括第一正样本集和第一负样本集,所述第一正样本集包括若干个藏族中适应高原人群的样本生物样品,所述第一负样本集中包括若干个汉族中不适应高原人群的样本生物样品;
通过表观遗传学测序方法获取所述第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
基于所述第一样本甲基化表达谱训练深度神经网络,以得到所述高原适应性检测模型;
所述基于所述第一样本甲基化表达谱训练深度神经网络,包括:基于所述第一样本甲基化表达谱进行差异甲基化分析,获取所述第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用所述第一样本甲基化表达谱以及所述差异甲基化位点表达谱特征训练深度神经网络;所述差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种,所述基于高通量测序数据的差异分析,其原理是对差异甲基化的检测基于β负二项分布的严格沃尔德检验,以计算第一正样本集和第一负样本集之间的差异甲基化位点;所述基于差异甲基化区域的差异分析,其原理是通过双峰正态模型将邻近的一些CpG划分为一片甲基化区域,再处理和找寻差异甲基化位点和区域,以得到第一正样本集和第一负样本集之间的差异甲基化位点。
2.根据权利要求1所述的方法,其特征在于,所述表观遗传学测序方法包括二代测序方法和三代测序方法中的任一种。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本甲基化表达谱训练深度神经网络之后,所述方法还包括:
获取第二样本生物样品集,所述第二样本生物样品集中包括第二正样本集和第二负样本集,所述第二正样本集和第二负样本集中分别包括若干个样本生物样品;
通过表观遗传学测序方法获取所述第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;
采用所述第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到所述高原适应性检测模型。
4.根据权利要求3所述的方法,其特征在于,所述第二正样本集为汉族适应高原人群的样本生物样品,所述第二负样本集为汉族不适应高原人群的样本生物样品。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
采用用于降维的机器学习算法t-SNE对所述第一样本甲基化表达谱和所述第二样本甲基化表达谱进行降维处理;
展示对所述第一样本甲基化表达谱和所述第二样本甲基化表达谱进行降维处理后的散点图。
6.一种高原适应性识别方法,其特征在于,所述方法包括:
获取待识别生物样品;
通过表观遗传学测序方法得到所述待识别生物样品的甲基化表达谱;
利用权利要求1至5任一项所述的方法训练得到的高原适应性检测模型识别所述甲基化表达谱,得到对应所述待识别生物样品的高原适应性识别结果。
7.一种高原适应性检测模型的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一样本生物样品集,所述第一样本生物样品集中包括第一正样本集和第一负样本集,所述第一正样本集包括若干个藏族中适应高原人群的样本生物样品,所述第一负样本集中包括若干个汉族中不适应高原人群的样本生物样品;
第一特征提取模块,用于通过表观遗传学测序方法获取所述第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
训练模块,用于基于所述第一样本甲基化表达谱训练深度神经网络,以得到所述高原适应性检测模型;
所述训练模块用于:基于所述第一样本甲基化表达谱进行差异甲基化分析,获取所述第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用所述第一样本甲基化表达谱以及所述差异甲基化位点表达谱特征训练深度神经网络;所述差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种,所述基于高通量测序数据的差异分析,其原理是对差异甲基化的检测基于β负二项分布的严格沃尔德检验,以计算第一正样本集和第一负样本集之间的差异甲基化位点;所述基于差异甲基化区域的差异分析,其原理是通过双峰正态模型将邻近的一些CpG划分为一片甲基化区域,再处理和找寻差异甲基化位点和区域,以得到第一正样本集和第一负样本集之间的差异甲基化位点。
8.一种高原适应性识别装置,其特征在于,所述装置包括:
第二获取模块,用于获取待识别生物样品;
第二特征提取模块,用于通过表观遗传学测序方法得到所述待识别生物样品的甲基化表达谱;
识别模块,用于利用权利要求1至5任一项所述的方法训练得到的高原适应性检测模型识别所述甲基化表达谱,得到对应所述待识别生物样品的高原适应性识别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911288949.5A CN111009290B (zh) | 2019-12-12 | 2019-12-12 | 高原适应性检测模型的训练方法、适应性识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911288949.5A CN111009290B (zh) | 2019-12-12 | 2019-12-12 | 高原适应性检测模型的训练方法、适应性识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111009290A CN111009290A (zh) | 2020-04-14 |
CN111009290B true CN111009290B (zh) | 2023-10-31 |
Family
ID=70114029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911288949.5A Active CN111009290B (zh) | 2019-12-12 | 2019-12-12 | 高原适应性检测模型的训练方法、适应性识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111009290B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508077B (zh) * | 2020-04-29 | 2021-01-15 | 中国人民解放军总医院 | 双三角模型智能评估心脏功能的方法、装置、设备及介质 |
CN112863595A (zh) * | 2021-03-08 | 2021-05-28 | 中国农业科学院兰州畜牧与兽药研究所 | 一种基于MeRIP-Seq技术挖掘藏绵羊高原低氧适应性相关基因的方法 |
CN115274123B (zh) * | 2022-07-15 | 2023-03-24 | 中国人民解放军总医院 | 体能水平预测方法、系统、设备、介质及程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019071161A1 (en) * | 2017-10-06 | 2019-04-11 | Youhealth Biotech, Limited | METHYLATION MARKERS FOR THE DIAGNOSIS OF CANCER |
WO2019191319A1 (en) * | 2018-03-30 | 2019-10-03 | Juno Diagnostics, Inc. | Deep learning-based methods, devices, and systems for prenatal testing |
CN110335678A (zh) * | 2019-05-30 | 2019-10-15 | 中国人民解放军总医院 | 一种高原适应性评估方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8150627B2 (en) * | 2003-05-15 | 2012-04-03 | Illumina, Inc. | Methods and compositions for diagnosing lung cancer with specific DNA methylation patterns |
US20190024184A1 (en) * | 2015-12-23 | 2019-01-24 | Fred Hutchinson Cancer Research Center | Distinguishing metastatic-lethal prostate cancer from indolent prostate cancer using methylation status of epigenetic markers |
-
2019
- 2019-12-12 CN CN201911288949.5A patent/CN111009290B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019071161A1 (en) * | 2017-10-06 | 2019-04-11 | Youhealth Biotech, Limited | METHYLATION MARKERS FOR THE DIAGNOSIS OF CANCER |
WO2019191319A1 (en) * | 2018-03-30 | 2019-10-03 | Juno Diagnostics, Inc. | Deep learning-based methods, devices, and systems for prenatal testing |
CN110335678A (zh) * | 2019-05-30 | 2019-10-15 | 中国人民解放军总医院 | 一种高原适应性评估方法及系统 |
Non-Patent Citations (1)
Title |
---|
生物学科技信息.《生物学教学》.2013,第38卷(第1期),第64-69页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111009290A (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111009290B (zh) | 高原适应性检测模型的训练方法、适应性识别方法和装置 | |
Valledor et al. | Back to the basics: maximizing the information obtained by quantitative two dimensional gel electrophoresis analyses by an appropriate experimental design and statistical analyses | |
Woerner et al. | Forensic human identification with targeted microbiome markers using nearest neighbor classification | |
CN108038352B (zh) | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 | |
Srivastava et al. | HOME: a histogram based machine learning approach for effective identification of differentially methylated regions | |
Arowolo et al. | Optimized hybrid investigative based dimensionality reduction methods for malaria vector using KNN classifier | |
CN113597645A (zh) | 用于重建药物应答和疾病网络的方法和系统以及其用途 | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
Chen et al. | Bioimaging for quantitative phenotype analysis | |
Ringrose | Epigenetics and Systems Biology | |
CN113160886A (zh) | 基于单细胞Hi-C数据的细胞类型预测系统 | |
CN112837743A (zh) | 一种基于机器学习的药物重定位方法 | |
EP2926289A1 (en) | Method and system for processing data for evaluating a quality level of a dataset | |
JP2004030093A (ja) | 遺伝子発現データ解析方法 | |
JP3936851B2 (ja) | クラスタリング結果評価方法及びクラスタリング結果表示方法 | |
CN114300036A (zh) | 遗传变异致病性预测方法、装置、存储介质及计算机设备 | |
Moskowitz et al. | Nonparametric analysis of contributions to variance in genomics and epigenomics data | |
Wainer-Katsir et al. | BIRD: identifying cell doublets via biallelic expression from single cells | |
US11984196B2 (en) | Community assignments in identity by descent networks and genetic variant origination | |
CN116168761B (zh) | 核酸序列特征区域确定方法、装置、电子设备及存储介质 | |
Josyula | Deep neural networks trained on DNA sequences to identify mutations that lead to Amyotrophic Lateral Sclerosis (ALS) | |
JP7129015B2 (ja) | 情報処理システム、変異検出システム、記憶媒体および情報処理方法 | |
Chaney et al. | Integration of Multiple, Diverse Methods to Identify Biologically Significant Marker Genes | |
Yan | Cluster validity for DNA microarray data using a geometrical index | |
Lai | Enhancements to the Microbial Source Tracking Process Through the Utilization of Clustering and k-Nearest Clusters Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |