CN111009290B - 高原适应性检测模型的训练方法、适应性识别方法和装置 - Google Patents

高原适应性检测模型的训练方法、适应性识别方法和装置 Download PDF

Info

Publication number
CN111009290B
CN111009290B CN201911288949.5A CN201911288949A CN111009290B CN 111009290 B CN111009290 B CN 111009290B CN 201911288949 A CN201911288949 A CN 201911288949A CN 111009290 B CN111009290 B CN 111009290B
Authority
CN
China
Prior art keywords
sample
methylation
sample set
plateau
differential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911288949.5A
Other languages
English (en)
Other versions
CN111009290A (zh
Inventor
石金龙
何昆仑
贾志龙
于康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese PLA General Hospital
Original Assignee
Chinese PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese PLA General Hospital filed Critical Chinese PLA General Hospital
Priority to CN201911288949.5A priority Critical patent/CN111009290B/zh
Publication of CN111009290A publication Critical patent/CN111009290A/zh
Application granted granted Critical
Publication of CN111009290B publication Critical patent/CN111009290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及一种高原适应性检测模型的训练方法、适应性识别方法和装置,其中模型的训练方法包括:获取第一样本生物样品集,通过表观遗传学测序方法获取第一样本生物样品集中每一个样本生物样品的第一样本甲基化表达谱;基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。其通过第一样本生物样品集的表观遗传标记物训练深度神经网络,以得到高原适应性检测模型,进而利用该模型对待识别生物样品的甲基化表达谱进行识别,从而得到待识别生物样品的高原适应性识别结果,对预测和预防高原缺氧性疾病具有重大意义。

Description

高原适应性检测模型的训练方法、适应性识别方法和装置
技术领域
本申请涉及生物信息学技术领域,特别是涉及一种高原适应性检测模型的训练方法、适应性识别方法和装置。
背景技术
近年来随着高原地区经济水平的增长和国防建设的需要,大量人员快速从平原进入到高原地区。而进入高原早期习服不良者主要以急性高原病为主,包括急性高山病(AMS)、高原肺水肿和高原脑水肿;随着高原暴露时间的延长主要以慢性高原病为主,包括高原红细胞增多症(HAPC)和高原肺动脉高压。因此,从平原移居高原最需要解决的问题是高原低氧对人体生命活动的影响,因而高原医学的核心任务是:高原习服适应的机制及促习服措施、高原病的发病机制及防治措施以及高原劳动能力的提高等。
目前关于高原适应性的研究,多采用基因组、蛋白组等以序列改变为基础的测序技术,例如发现高原土著动物线粒体基因组的ND、APT基因、高原藏族人的缺氧转录因子EPAS1基因与高原适应相关。SNPs及其特定的组合可能是造成复杂性状疾病易感性的重要原因,研究发现Ⅰ型血管紧张素受体(AT1R)基因的G1517T多态性与高原肺水肿的易感性相关;热休克蛋白70(HSP70)中HSP70-2B/B基因型基与急性高原反应有关。
但是,无论是习服理论还是需要长期自然选择的基因多态性理论都不能解释这些在胚胎期和婴幼儿期出现的高原适应性改变。而表观遗传学这个学科主要研究基因型和表型的关系,其基础一定是建立在不改变基因序列的水平上,因此,如何将表观遗传标记物应用于高原适应性评价中是目前亟需解决的问题。
发明内容
基于此,有必要针对上述问题,提供一种能够将表观遗传标记物应用于高原适应性评价的高原适应性检测模型的训练方法、适应性识别方法和装置。
为了实现上述目的,第一方面,本申请实施例提供了一种高原适应性检测模型的训练方法,所述方法包括:
获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,而第一正样本集和第一负样本集中分别包括若干个样本生物样品;
通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
在其中一个实施例中,基于第一样本甲基化表达谱训练深度神经网络,包括:基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
在其中一个实施例中,差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种;表观遗传学测序方法包括二代测序方法和三代测序方法中的任一种。
在其中一个实施例中,基于第一样本甲基化表达谱训练深度神经网络之后,所述方法还包括:获取第二样本生物样品集,其中,第二样本生物样品集中包括第二正样本集和第二负样本集,则第二正样本集和第二负样本集中分别包括若干个样本生物样品;通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
在其中一个实施例中,第一正样本集为藏族适应高原人群的样本生物样品,第二正样本集为汉族适应高原人群的样本生物样品,第一负样本集和第二负样本集为汉族不适应高原人群的样本生物样品。
第二方面,本申请实施例提供了一种高原适应性识别方法,所述方法包括:
获取待识别生物样品;
通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
第三方面,本申请实施例提供了一种高原适应性检测模型的训练装置,所述装置包括:
第一获取模块,用于获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,第一正样本集和第一负样本集中分别包括若干个样本生物样品;
第一特征提取模块,用于通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
训练模块,用于基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
第四方面,本申请实施例提供了一种高原适应性识别装置,所述装置包括:
第二获取模块,用于获取待识别生物样品;
第二特征提取模块,用于通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
识别模块,用于利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
第五方面,本申请实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
上述高原适应性检测模型的训练方法、适应性识别方法和装置,通过第一样本生物样品集的表观遗传标记物训练深度神经网络,以得到高原适应性检测模型,进而利用该模型对待识别生物样品的甲基化表达谱进行识别,从而得到待识别生物样品的高原适应性识别结果,对预测和预防高原缺氧性疾病具有重大意义。
附图说明
图1为一个实施例中高原适应性检测模型的训练方法的流程示意图;
图2为一个实施例中训练步骤的流程示意图;
图3为另一个实施例中高原适应性检测模型的训练方法的流程示意图;
图4为一个实施例中高原适应性识别方法的流程示意图;
图5为一个实施例中高原适应性检测模型的训练装置的结构框图;
图6为一个实施例中高原适应性识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着表观遗传学对某些疾病机制的研究深入,一大批特异的标志物,例如染色体不稳定性、微卫星不稳定性以及甲基化修饰等被发现、鉴定,为多种疾病实现早期诊断提供了可能。且有研究发现缺失DNA(DeoxyriboNucleic Acid,脱氧核糖核酸)甲基化酶的一种结核杆菌比其他组死亡速度更快,即DNA甲基化酶在低氧适应过程中可能起到重要的作用,因此表观遗传学的新理论、新方法的出现为解释发育性适应提供了可能。基于此,本申请提供了一种能够将表观遗传标记物应用于高原适应性评价中的高原适应性检测模型的训练方法以及高原适应性识别方法,其通过第一样本生物样品集的表观遗传标记物训练深度神经网络,以得到高原适应性检测模型,进而利用该模型对待识别生物样品的甲基化表达谱进行识别,从而得到待识别生物样品的高原适应性识别结果,对预测和预防高原缺氧性疾病具有重大意义。
在一个实施例中,如图1所示,提供了一种高原适应性检测模型的训练方法,包括以下步骤:
步骤102,获取第一样本生物样品集。
其中,第一样本生物样品集用于训练模型,第一样本生物样品集中包括第一正样本集和第一负样本集,而第一正样本集和第一负样本集中则分别包括若干个样本生物样品。具体的,样本生物样品可以是对应客体的血样。例如,第一正样本集可以是藏族中适应高原人群的样本生物样品(即血样),而第一负样本集则可以是汉族中不适应高原人群的样本生物样品(即血样)。
步骤104,通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱。
其中,表观遗传学测序是以高通量测序平台为基础,研究在核酸序列不变的情况下,基因的表达、调控和性状发生可遗传的变化的技术。在本实施例中,通过表观遗传学测序方法对第一正样本集和第一负样本集中每一个样本生物样品进行甲基化测序,从而得到各样本生物样品对应的第一样本甲基化表达谱。
步骤106,基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
其中,深度神经网络(Deep Neural Networks,以下简称DNN)是深度学习的基础,而神经网络是基于感知机的扩展,DNN则可以理解为有很多隐藏层的神经网络。其第一层为input(输入)层,最后一层为output(输出)层,而在input和output中间的层则被称为hidden(隐藏)层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是从小的局部模型来说,还是和感知机一样,即一个线性关系加上一个激活函数。
在本实施例中,基于第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱对深度神经网络进行训练,使得网络可以学习到第一正样本集中藏族适应高原人群的甲基化特征,以及第一负样本集中汉族不适应高原人群的甲基化特征,从而得到高原适应性检测模型。
上述高原适应性检测模型的训练方法,通过第一样本生物样品集的表观遗传标记物训练深度神经网络,使得网络可以学习到藏族适应高原人群的甲基化特征,以及汉族不适应高原人群的甲基化特征,从而得到高原适应性检测模型,进而利用该模型对待识别生物样品的甲基化表达谱进行识别,从而得到待识别生物样品的高原适应性识别结果,对预测和预防高原缺氧性疾病具有重大意义。
在一个实施例中,表观遗传学测序方法包括二代测序方法和三代测序方法中的任一种。其中,二代测序方法为全基因组CpG位点甲基化捕获测序技术(Genome-CpGs-scalemethylC-capture sequencing,MCC-Seq),是基于二代测序平台的全新的DNA甲基化捕获检测技术,具有独特探针设计、能够双链捕获、起始样本量低、准确定量检测等优点,是一种准确、经济、高效的DNA甲基化检测方法。
三代测序方法采用PacBio,其是美国知名的高通量测序系统研发和生产厂商推出的单分子实时测序(Single Molecule,Real-Time,SMRT)技术及系统。其测序最大读长能达到70kb,平均读长12~15kb,能够完美跨越高重复区域和高复杂区域,并减少拼接成本,可以直接检测到甲基化信息,并同步进行表观遗传学性别识别。当碱基有额外修饰时,DNA聚合酶的合成速度会减慢,对应的信号会被检测出来。每种碱基修饰事件都会使聚合酶的“停顿模式”PacBio Sequel产生微小差异,最终反映到荧光脉冲信号的间隔上。除了甲基化修饰,还可以检测5-hC、5-hmU、5-hU、1-mA、6-mA、8-oxoA、BPDE(二羟环氧苯并芘)、6-mT、6-mG等碱基修饰,甚至可以鉴别传统亚硫酸氢盐测序法无法区分的甲基化修饰和羟甲基化修饰。PacBio Sequel平台可以在测序的同时即可检测表观遗传学修饰信息,只需对测序数据选择合适的软件即可分析碱基修饰信息。当然,对于三代测序方法还可以采用Nanopore纳米孔技术,本实施例中并不对此进行限定。
在一个实施例中,如图2所示,上述基于第一样本甲基化表达谱训练深度神经网络,具体可以包括如下步骤:
步骤202,基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征。
其中,差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种。具体的,基于高通量测序数据的差异分析(DispersionShrinkage for Sequencing data,简称DSS),其原理是对差异甲基化的检测基于β负二项分布的严格沃尔德检验,以计算不同组别(即第一正样本集和第一负样本集)的甲基化表达谱之间的差异甲基化位点(DML)。基于差异甲基化区域的差异分析eDMR,其原理是用“双峰正态模型”将邻近的一些CpG划分为一片甲基化区域,再处理和找寻差异甲基化位点和区域,以得到第一正样本集和第一负样本集之间的差异甲基化位点。
在本实施例中,利用GO(Gene Ontology,基因本体论)、KEGG(Kyoto Encyclopediaof Genes and Genomes,京都基因与基因组百科全书)等本体库对上述确定的差异甲基化位点进行筛选,即按基因功能进行分类,并对筛选出的差异甲基化位点所在的基因进行功能注释、通路注释以及通路分析等生物信息学分析,从而得到差异甲基化位点表达谱特征,以进一步揭示第一正样本集中藏族适应高原人群的分子机制。具体的,可使用超几何分布方法来对基因进行功能注释。超几何分布是统计学上一种离散概率分布,它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。之所以称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。
步骤204,利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
具体的,利用第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱,以及对应的差异甲基化位点表达谱特征对深度神经网络进行训练,使得网络可以学习到第一正样本集中藏族适应高原人群的甲基化特征和适应高原的分子机制,以及第一负样本集中汉族不适应高原人群的甲基化特征,从而得到高原适应性检测模型。
具体的,在本实施例中,在对网络进行训练时,具体基于python语言中的tensorflow包,则classifier的具体调用方法为tf.contrib.learn.DNNClassifier,classifier的具体参数设置为hidden_units,具体根据第一样本生物样品集中的数量而定,n_classes=2,dropout=0.1。classifier.fit的具体参数为batch_size=128,max_steps=2000。
在一个实施例中,如图3所示,在基于第一样本甲基化表达谱训练深度神经网络之后,上述方法还可以包括如下步骤:
步骤302,获取第二样本生物样品集。
其中,第二样本生物样品集用于验证模型,第二样本生物样品集中包括第二正样本集和第二负样本集,而第二正样本集和第二负样本集中分别包括若干个样本生物样品。具体的,样本生物样品可以是对应客体的血样。例如,第二正样本集可以是汉族中适应高原人群的样本生物样品(即血样),而第二负样本集则可以是汉族中不适应高原人群的样本生物样品(即血样)。
步骤304,通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱。
具体的,可以采用上述介绍的表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱,本实施例中不再对此进行赘述。
步骤306,采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
具体的,在采用第二样本甲基化表达谱对训练后的深度神经网络进行验证时,其验证具体调用方法为predict_classes,具体参数为as_iterable=False。验证评价的具体调用方法为predict_proba,具体参数为as_iterable=False。
在本实施例中,可以采用ROC(receiver operating characteristic curve,接受者操作特性曲线)曲线和AUC(Area Under Curve,ROC曲线下方的面积大小)值对模型的性能指标进行评价。其中,ROC曲线又称为感受性曲线,得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。ROC曲线就是以虚惊概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。ROC曲线有个很好的特性:当测试集(即第二样本生物样品集)中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化。其中模型采用ROC曲线和AUC值评价时,可以采用python语言中的tensorflow包和sklearn包。验证折数方法为sklearn.model_selection.StratifiedKFold,具体参数为n_splits=折数,shuffle=True,random_state=0。模型评价调用的方法为classifier.evaluate、classifier.predict_proba、roc_curve、classifier.predict_classes、sklearn.metrics.f1_score等。因此,可通过MeanROC(平均ROC)判断模型效果,当模型效果(也即验证结果)达到阈值时,则得到高原适应性检测模型,当模型效果未达到阈值时,则采用如图1所示的方法继续对模型进行训练。
进一步的,为了直观展示训练集和验证集的甲基化表达谱的聚类情况,可以采用t-SNE(t-distributed stochastic neighbor embedding,是用于降维的一种机器学习算法)方法对表达谱数据进行降维处理。t-SNE是由SNE衍生出的一种算法,SNE最早出现在2002年,它改变了MDS(multidimensional scaling,多维标度分析)和ISOMAP(IsometricFeature Mapping,用于非线性数据降维)中基于距离不变的思想,将高维映射到低维的同时,尽量保证相互之间的分布概率不变,SNE将高维和低维中的样本分布都看作高斯分布,而t-SNE将低维中的坐标当做T分布,这样做的好处是为了让距离大的簇之间距离拉大,从而解决了拥挤问题。从t-SNE到SNE之间,还有一个对称t-SNE,其对t-SNE有部分改进作用。其中表达谱数据降维可视化展示时,使用python语言中的matplotlib进行可视化展示,可查看表达谱降维后的散点图,从而直观判断训练集和验证集的分布情况。
本申请还提供了一种高原适应性识别方法,如图4所示,包括如下步骤:
步骤402,获取待识别生物样品。
其中,待识别生物样品是从待进行高原适应性识别的客体中提取的,其具体可以是待进行高原适应性识别的客体的血样。
步骤404,通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱。
具体的,可以采用上述介绍的表观遗传学测序方法获取待识别生物样品的甲基化表达谱,本实施例中不再对此进行赘述。
步骤406,利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
其中,高原适应性识别结果包括适应高原和不适应高原的识别结果。具体的,通过上述方法训练得到的高原适应性检测模型识别待识别生物样品的甲基化表达谱,从而得到该待识别生物样品的高原适应性识别结果,其不仅对预测和预防高原缺氧性疾病具有重大意义,且能促进高原地区社会和经济的发展。
应该理解的是,虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种高原适应性检测模型的训练装置,包括:第一获取模块501、第一特征提取模块502和训练模块503,其中:
第一获取模块501,用于获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,第一正样本集和第一负样本集中分别包括若干个样本生物样品;
第一特征提取模块502,用于通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
训练模块503,用于基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
在一个实施例中,训练模块503具体用于,基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
在一个实施例中,差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种,表观遗传学测序方法包括二代测序方法和三代测序方法中的任一种。
在一个实施例中,上述装置还包括验证模块,用于获取第二样本生物样品集,其中,第二样本生物样品集中包括第二正样本集和第二负样本集,则第二正样本集和第二负样本集中分别包括若干个样本生物样品;通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
在一个实施例中,第一正样本集为藏族适应高原人群的样本生物样品,第二正样本集为汉族适应高原人群的样本生物样品,第一负样本集和第二负样本集为汉族不适应高原人群的样本生物样品。
关于高原适应性检测模型的训练装置的具体限定可以参见上文中对于高原适应性检测模型的训练方法的限定,在此不再赘述。上述高原适应性检测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图6所示,提供了一种高原适应性识别装置,包括:第二获取模块601、第二特征提取模块602以及识别模块603,其中:
第二获取模块601,用于获取待识别生物样品;
第二特征提取模块602,用于通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
识别模块603,用于利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
关于高原适应性识别装置的具体限定可以参见上文中对于高原适应性识别方法的限定,在此不再赘述。上述高原适应性识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储甲基化表达谱数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种高原适应性检测模型的训练方法或一种高原适应性识别方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,而第一正样本集和第一负样本集中分别包括若干个样本生物样品;
通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在基于第一样本甲基化表达谱训练深度神经网络之后,获取第二样本生物样品集,其中,第二样本生物样品集中包括第二正样本集和第二负样本集,则第二正样本集和第二负样本集中分别包括若干个样本生物样品;通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待识别生物样品;
通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一样本生物样品集,其中,第一样本生物样品集中包括第一正样本集和第一负样本集,而第一正样本集和第一负样本集中分别包括若干个样本生物样品;
通过表观遗传学测序方法获取第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
基于第一样本甲基化表达谱训练深度神经网络,以得到高原适应性检测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于第一样本甲基化表达谱进行差异甲基化分析,获取第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用第一样本甲基化表达谱以及差异甲基化位点表达谱特征训练深度神经网络。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在基于第一样本甲基化表达谱训练深度神经网络之后,获取第二样本生物样品集,其中,第二样本生物样品集中包括第二正样本集和第二负样本集,则第二正样本集和第二负样本集中分别包括若干个样本生物样品;通过表观遗传学测序方法获取第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;采用第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到高原适应性检测模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待识别生物样品;
通过表观遗传学测序方法得到待识别生物样品的甲基化表达谱;
利用上述方法训练得到的高原适应性检测模型识别甲基化表达谱,得到对应待识别生物样品的高原适应性识别结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种高原适应性检测模型的训练方法,其特征在于,所述方法包括:
获取第一样本生物样品集,所述第一样本生物样品集中包括第一正样本集和第一负样本集,所述第一正样本集包括若干个藏族中适应高原人群的样本生物样品,所述第一负样本集中包括若干个汉族中不适应高原人群的样本生物样品;
通过表观遗传学测序方法获取所述第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
基于所述第一样本甲基化表达谱训练深度神经网络,以得到所述高原适应性检测模型;
所述基于所述第一样本甲基化表达谱训练深度神经网络,包括:基于所述第一样本甲基化表达谱进行差异甲基化分析,获取所述第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用所述第一样本甲基化表达谱以及所述差异甲基化位点表达谱特征训练深度神经网络;所述差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种,所述基于高通量测序数据的差异分析,其原理是对差异甲基化的检测基于β负二项分布的严格沃尔德检验,以计算第一正样本集和第一负样本集之间的差异甲基化位点;所述基于差异甲基化区域的差异分析,其原理是通过双峰正态模型将邻近的一些CpG划分为一片甲基化区域,再处理和找寻差异甲基化位点和区域,以得到第一正样本集和第一负样本集之间的差异甲基化位点。
2.根据权利要求1所述的方法,其特征在于,所述表观遗传学测序方法包括二代测序方法和三代测序方法中的任一种。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本甲基化表达谱训练深度神经网络之后,所述方法还包括:
获取第二样本生物样品集,所述第二样本生物样品集中包括第二正样本集和第二负样本集,所述第二正样本集和第二负样本集中分别包括若干个样本生物样品;
通过表观遗传学测序方法获取所述第二正样本集和第二负样本集中每一个样本生物样品的第二样本甲基化表达谱;
采用所述第二样本甲基化表达谱对训练后的深度神经网络进行验证,当验证结果达到阈值时,得到所述高原适应性检测模型。
4.根据权利要求3所述的方法,其特征在于,所述第二正样本集为汉族适应高原人群的样本生物样品,所述第二负样本集为汉族不适应高原人群的样本生物样品。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
采用用于降维的机器学习算法t-SNE对所述第一样本甲基化表达谱和所述第二样本甲基化表达谱进行降维处理;
展示对所述第一样本甲基化表达谱和所述第二样本甲基化表达谱进行降维处理后的散点图。
6.一种高原适应性识别方法,其特征在于,所述方法包括:
获取待识别生物样品;
通过表观遗传学测序方法得到所述待识别生物样品的甲基化表达谱;
利用权利要求1至5任一项所述的方法训练得到的高原适应性检测模型识别所述甲基化表达谱,得到对应所述待识别生物样品的高原适应性识别结果。
7.一种高原适应性检测模型的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一样本生物样品集,所述第一样本生物样品集中包括第一正样本集和第一负样本集,所述第一正样本集包括若干个藏族中适应高原人群的样本生物样品,所述第一负样本集中包括若干个汉族中不适应高原人群的样本生物样品;
第一特征提取模块,用于通过表观遗传学测序方法获取所述第一正样本集和第一负样本集中每一个样本生物样品的第一样本甲基化表达谱;
训练模块,用于基于所述第一样本甲基化表达谱训练深度神经网络,以得到所述高原适应性检测模型;
所述训练模块用于:基于所述第一样本甲基化表达谱进行差异甲基化分析,获取所述第一正样本集和第一负样本集间的差异甲基化位点表达谱特征;利用所述第一样本甲基化表达谱以及所述差异甲基化位点表达谱特征训练深度神经网络;所述差异甲基化分析包括基于高通量测序数据的差异分析和基于差异甲基化区域的差异分析中的任一种,所述基于高通量测序数据的差异分析,其原理是对差异甲基化的检测基于β负二项分布的严格沃尔德检验,以计算第一正样本集和第一负样本集之间的差异甲基化位点;所述基于差异甲基化区域的差异分析,其原理是通过双峰正态模型将邻近的一些CpG划分为一片甲基化区域,再处理和找寻差异甲基化位点和区域,以得到第一正样本集和第一负样本集之间的差异甲基化位点。
8.一种高原适应性识别装置,其特征在于,所述装置包括:
第二获取模块,用于获取待识别生物样品;
第二特征提取模块,用于通过表观遗传学测序方法得到所述待识别生物样品的甲基化表达谱;
识别模块,用于利用权利要求1至5任一项所述的方法训练得到的高原适应性检测模型识别所述甲基化表达谱,得到对应所述待识别生物样品的高原适应性识别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN201911288949.5A 2019-12-12 2019-12-12 高原适应性检测模型的训练方法、适应性识别方法和装置 Active CN111009290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911288949.5A CN111009290B (zh) 2019-12-12 2019-12-12 高原适应性检测模型的训练方法、适应性识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911288949.5A CN111009290B (zh) 2019-12-12 2019-12-12 高原适应性检测模型的训练方法、适应性识别方法和装置

Publications (2)

Publication Number Publication Date
CN111009290A CN111009290A (zh) 2020-04-14
CN111009290B true CN111009290B (zh) 2023-10-31

Family

ID=70114029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911288949.5A Active CN111009290B (zh) 2019-12-12 2019-12-12 高原适应性检测模型的训练方法、适应性识别方法和装置

Country Status (1)

Country Link
CN (1) CN111009290B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508077B (zh) * 2020-04-29 2021-01-15 中国人民解放军总医院 双三角模型智能评估心脏功能的方法、装置、设备及介质
CN112863595A (zh) * 2021-03-08 2021-05-28 中国农业科学院兰州畜牧与兽药研究所 一种基于MeRIP-Seq技术挖掘藏绵羊高原低氧适应性相关基因的方法
CN115274123B (zh) * 2022-07-15 2023-03-24 中国人民解放军总医院 体能水平预测方法、系统、设备、介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071161A1 (en) * 2017-10-06 2019-04-11 Youhealth Biotech, Limited METHYLATION MARKERS FOR THE DIAGNOSIS OF CANCER
WO2019191319A1 (en) * 2018-03-30 2019-10-03 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
CN110335678A (zh) * 2019-05-30 2019-10-15 中国人民解放军总医院 一种高原适应性评估方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150627B2 (en) * 2003-05-15 2012-04-03 Illumina, Inc. Methods and compositions for diagnosing lung cancer with specific DNA methylation patterns
US20190024184A1 (en) * 2015-12-23 2019-01-24 Fred Hutchinson Cancer Research Center Distinguishing metastatic-lethal prostate cancer from indolent prostate cancer using methylation status of epigenetic markers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071161A1 (en) * 2017-10-06 2019-04-11 Youhealth Biotech, Limited METHYLATION MARKERS FOR THE DIAGNOSIS OF CANCER
WO2019191319A1 (en) * 2018-03-30 2019-10-03 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
CN110335678A (zh) * 2019-05-30 2019-10-15 中国人民解放军总医院 一种高原适应性评估方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
生物学科技信息.《生物学教学》.2013,第38卷(第1期),第64-69页. *

Also Published As

Publication number Publication date
CN111009290A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN111009290B (zh) 高原适应性检测模型的训练方法、适应性识别方法和装置
Valledor et al. Back to the basics: maximizing the information obtained by quantitative two dimensional gel electrophoresis analyses by an appropriate experimental design and statistical analyses
Woerner et al. Forensic human identification with targeted microbiome markers using nearest neighbor classification
CN108038352B (zh) 结合差异化分析和关联规则挖掘全基因组关键基因的方法
Srivastava et al. HOME: a histogram based machine learning approach for effective identification of differentially methylated regions
Arowolo et al. Optimized hybrid investigative based dimensionality reduction methods for malaria vector using KNN classifier
CN113597645A (zh) 用于重建药物应答和疾病网络的方法和系统以及其用途
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
Chen et al. Bioimaging for quantitative phenotype analysis
Ringrose Epigenetics and Systems Biology
CN113160886A (zh) 基于单细胞Hi-C数据的细胞类型预测系统
CN112837743A (zh) 一种基于机器学习的药物重定位方法
EP2926289A1 (en) Method and system for processing data for evaluating a quality level of a dataset
JP2004030093A (ja) 遺伝子発現データ解析方法
JP3936851B2 (ja) クラスタリング結果評価方法及びクラスタリング結果表示方法
CN114300036A (zh) 遗传变异致病性预测方法、装置、存储介质及计算机设备
Moskowitz et al. Nonparametric analysis of contributions to variance in genomics and epigenomics data
Wainer-Katsir et al. BIRD: identifying cell doublets via biallelic expression from single cells
US11984196B2 (en) Community assignments in identity by descent networks and genetic variant origination
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
Josyula Deep neural networks trained on DNA sequences to identify mutations that lead to Amyotrophic Lateral Sclerosis (ALS)
JP7129015B2 (ja) 情報処理システム、変異検出システム、記憶媒体および情報処理方法
Chaney et al. Integration of Multiple, Diverse Methods to Identify Biologically Significant Marker Genes
Yan Cluster validity for DNA microarray data using a geometrical index
Lai Enhancements to the Microbial Source Tracking Process Through the Utilization of Clustering and k-Nearest Clusters Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant