CN109887543B - 一种低甲基化水平的差异甲基化位点识别方法 - Google Patents

一种低甲基化水平的差异甲基化位点识别方法 Download PDF

Info

Publication number
CN109887543B
CN109887543B CN201910145275.7A CN201910145275A CN109887543B CN 109887543 B CN109887543 B CN 109887543B CN 201910145275 A CN201910145275 A CN 201910145275A CN 109887543 B CN109887543 B CN 109887543B
Authority
CN
China
Prior art keywords
chip data
methylation
methylated
data
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910145275.7A
Other languages
English (en)
Other versions
CN109887543A (zh
Inventor
李敏
胡昕昱
王林丛花
王建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910145275.7A priority Critical patent/CN109887543B/zh
Publication of CN109887543A publication Critical patent/CN109887543A/zh
Application granted granted Critical
Publication of CN109887543B publication Critical patent/CN109887543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种低甲基化水平的差异甲基化位点识别方法,包括以下步骤:S1、获取一种低甲基化水平疾病的多组甲基化芯片数据样本。S2、对多组甲基化芯片数据样本进行预处理,得到甲基化芯片数据集。S3、根据位点维度,将甲基化芯片数据集划分为多个甲基化芯片数据子集;将每一个甲基化芯片数据子集输入构建随机森林模型,迭代进行特征选择,输出甲基化芯片数据的疾病相关特征集。S4、对甲基化芯片数据的疾病相关特征集进行线性拟合处理,之后通过假设检验筛选出具有统计显著性的特征。能识别出传统方法不能筛选出的差异甲基化位点,并且找到的差异甲基化位点具有更好的类别判定性能和显著性意义。

Description

一种低甲基化水平的差异甲基化位点识别方法
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种低甲基化水平的差异甲基化位点识别方法。
背景技术
DNA甲基化是最广泛研究的和具有良好表征的表观遗传修饰之一,是调控基因表达最重要的表观遗传学方法。
通过DNA甲基化,在病人和对照组中识别出与疾病相关的差异甲基化CpG位点,可以帮助人们对疾病的生物理解。精神分裂症是一种由遗传和环境因素共同引起的异质性精神疾病,由于精神分裂症具有低甲基化特征,CpG位点的DNA甲基化水平的差异通常很小,对疾病的生物理解造成了很大困难。
目前,已存在一些方法用于识别差异甲基化位点,这些算法和工具大都使用统计学习方法,如t假设检验、Wilcoxon秩检验等等,在识别差异甲基化CpG位点方面已经取得了显著的效果,但是这些传统方法之前主要用于那些具有高甲基化特征的疾病(比如癌症),而对于这种具有低甲基化水平特征的疾病(如精神分裂症),这些方法都经不起多重校验,常出现找到的差异甲基化位点较少或者无差异甲基化位点的情况。
因此,亟需一种低甲基化水平的差异甲基化位点识别方法。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供一种低甲基化水平的差异甲基化位点识别方法。能识别出传统方法不能筛选出的差异甲基化位点,并且找到的差异甲基化位点具有更好的类别判定性能和显著性意义。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种低甲基化水平的差异甲基化位点识别方法,包括以下步骤:
步骤S1、获取一种低甲基化水平疾病的多组甲基化芯片数据样本。
步骤S2、对所述多组甲基化芯片数据样本进行预处理,得到甲基化芯片数据集。
步骤S3、根据位点维度,将所述甲基化芯片数据集划分为多个初始甲基化芯片数据子集;将每一个甲基化芯片数据子集输入构建随机森林模型,迭代进行特征选择,输出甲基化芯片数据的疾病相关特征集。
步骤S4、对甲基化芯片数据的疾病相关特征集进行线性拟合处理,之后通过假设检验筛选出具有统计显著性的特征,即认为该特征为差异甲基化位点。
作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进,步骤S2中,对所述多组甲基化芯片数据样本进行预处理,包括:
质量控制:使用minfi对多组甲基化芯片数据样本进行处理,移除探测p值较小的甲基化位点;过滤处理:过滤掉多组甲基化芯片数据样本中与X、Y染色体相关的探针、与SNP相关的探针以及cross-reactive的甲基化位点;使用SQN子集分位数标准化算法对经过质量控制和过滤处理后的多组甲基化芯片数据样本进行标准化处理,然后使用Combat算法对多组甲基化芯片数据样本进行批次效应校正,得到多组标准甲基化芯片数据样本;将所述多组标准甲基化芯片数据样本存入数据集,得到甲基化芯片数据集。
作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进,步骤S3中,将每一个初始甲基化芯片数据子集输入构建随机森林模型,迭代进行特征选择,输出甲基化芯片数据的疾病相关特征集,包括:
步骤S31、根据每一个初始数据子集构建每一个初始数据子集的随机森林模型,获得每一个初始数据子集的随机森林模型的袋外误差率;以及,根据每一个初始数据子集的随机森林模型的袋外误差率,计算获得初始数据子集随机森林模型的平均袋外误差率。
步骤S32、根据每一个当前数据子集的随机森林模型,获得每一个当前数据子集中每一特征的重要性度量值。
步骤S33、根据每一个当前数据子集中每一特征的重要性度量值,对每一个当前数据子集中的特征进行排序,将每一个当前数据子集中重要性度量值排名靠后的20%的特征作为剔除特征,合并每一个当前数据子集中剔除特征之外的特征,获得特征选择后的甲基化芯片数据样本。
步骤S34、根据特征选择后的甲基化芯片数据样本,获得甲基化芯片数据子集,根据每一个甲基化芯片数据子集构建每一个数据子集的随机森林模型,并获得每一数据子集的随机森林模型的袋外误差率和数据子集随机森林模型的平均袋外误差率。
步骤S35、若当前数据子集的随机森林模型的平均袋外误差率大于初始数据子集的随机森林模型的平均袋外误差率,或者当前数据子集的随机森林模型的平均袋外误差率大于前一次数据子集的随机森林模型的平均袋外误差率,合并每一个当前数据子集中剔除特征之外的特征,并输出作为甲基化芯片数据的疾病相关特征集;否则,重复步骤S32至S35。
作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进,步骤S34中,根据特征选择后的甲基化芯片数据样本,获得甲基化芯片数据子集,包括:若特征选择后的甲基化芯片数据样本中的特征数不小于10000,将特征选择后的甲基化芯片数据样本根据位点维度划分为多个甲基化芯片数据子集;若特征选择后的甲基化芯片数据样本中的特征数小于10000,直接将特征选择后的甲基化芯片数据样本作为甲基化芯片数据子集。
作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进,步骤S32中,每一个当前数据子集中每一特征的重要性度量值的计算公式为:
Figure BDA0001979703670000041
x(i)为数据子集中的特征,K为对每个数据子集做K次Bootstrap抽样产生K个自助样本集和袋外数据集OOBk,acck为第k棵树在训练时在相应OOBk上的准确率,acc′k为随机的改变OOBk数据集在变量特征x(i)的取值,即x(i)=x(i)+noise时OOBk的准确率。
作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进,步骤S4中,对甲基化芯片数据的疾病相关特征集进行线性拟合处理,具体为:使用经典芯片数据差异分析工具limma对甲基化芯片数据的疾病相关特征集进行线性拟合;
所述线性拟合的公式为:
E(yg)=xβg
其中,yg为甲基化位点g的甲基化水平值,X是实验设计矩阵,βg是回归系数。
作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进,步骤S4中,通过假设检验筛选出具有统计显著性的特征,具体为:
对线性拟合后的数据进行经验贝叶斯统计分析,筛选出调整p值(FDR)小于0.05的特征,即认为该特征为差异甲基化位点。
(三)有益效果
本发明的有益效果是:
本发明的方法适用于低甲基化水平疾病的差异甲基化位点识别的情况,运用了迭代随机森林的特征选择思想和线性模型的统计学思想,能识别出传统方法不能筛选出的差异甲基化位点,并且找到的差异甲基化位点具有更好的类别判定性能和显著性意义,这样对于低甲基化水平如精神分裂症等疾病的诊断、治疗和相应的药物研制都提供了准确有效的信息。
附图说明
本发明借助于以下附图进行描述:
图1为本发明实施方式中低甲基化水平的差异甲基化位点识别方法的流程图;
图2为本发明实施方式中数据子集中特征的重要性排序图;
图3为本发明方法与三种传统方法limma、samr、dmpFinder找到的差异甲基化位点韦恩图;
图4为本发明方法与三种传统方法limma、samr、dmpFinder的十折交叉验证结果图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
本发明提供了一种低甲基化水平的差异甲基化位点识别方法,如图1所示,具体包括以下步骤:
步骤S1、获取一种低甲基化水平疾病的多组甲基化芯片数据样本。
在本实施例中,从公共数据库GEO中获取序列号为GSE61107的精神分裂症的48组甲基化芯片数据样本。
步骤S2、对精神分裂症的48组甲基化芯片数据样本进行预处理,得到甲基化芯片数据集。
由于生物学家在测量甲基化芯片数据时,使用了两种不同类型探针(Type-I型和Type-II型)测量位点处的甲基化值,于是导致一个测量样本中有两种类型数据,进一步发现这两种类型数据分布有差异,这种情况会对后面差异甲基化位点分析有很大影响。另外,由于一次测试的样本是有限的,可能要相隔几天或几个月才能产生更多样品,于是系统“批量效应”或非生物差异,使得不同批次的样品不具有直接可比性。因此,需要先对甲基化芯片数据样本进行预处理。
具体地,对精神分裂症的48组甲基化芯片数据样本进行预处理,包括:使用minfi对精神分裂症的48组甲基化芯片数据样本进行质量控制,移除探测p值较小的甲基化位点;过滤掉多组甲基化芯片数据样本中与X、Y染色体相关的探针、与SNP相关的探针以及cross-reactive的甲基化位点;使用SQN子集分位数标准化算法对经过质量控制和过滤处理后的48组甲基化芯片数据样本进行标准化处理,消除样本的组内误差;然后使用Combat算法对48组甲基化芯片数据样本进行批次效应校正,消除样本的组间误差,得到48组标准甲基化芯片数据样本;将48组标准甲基化芯片数据样本存入数据集,得到甲基化芯片数据集,甲基化芯片数据集中包含408074个特征(甲基化位点)。
步骤S3、根据位点维度,将甲基化芯片数据集划分为41个初始甲基化芯片数据子集,每个初始甲基化芯片数据子集包含接近10000个特征;将每一个初始甲基化芯片数据子集输入构建随机森林模型,迭代进行特征选择,输出甲基化芯片数据的疾病相关特征集。
具体地,步骤S3中,将每一个初始甲基化芯片数据子集输入构建随机森林模型,迭代进行特征选择,输出甲基化芯片数据的疾病相关特征集,包括:
步骤S31、根据每一个初始数据子集构建每一个初始数据子集的初始随机森林模型,并获得每一个初始数据子集的初始随机森林模型的袋外误差率;以及,根据每一个初始数据子集的随机森林模型的袋外误差率,计算获得初始数据子集随机森林模型的平均袋外误差率。
步骤S32、根据每一个当前数据子集的随机森林模型,获得每一个当前数据子集中每一特征的重要性度量值。
步骤S33、根据每一个当前数据子集中每一特征的重要性度量值,对每一个当前数据子集中的特征进行排序,将每一个当前数据子集中重要性度量值排名靠后的20%的特征作为剔除特征,合并每一个当前数据子集中剔除特征之外的特征,获得特征选择后的甲基化芯片数据样本。
步骤S34、根据特征选择后的甲基化芯片数据样本,获得甲基化芯片数据子集,根据每一个甲基化芯片数据子集构建每一个数据子集的随机森林模型,并获得每一数据子集的随机森林模型的袋外误差率和数据子集随机森林模型的平均袋外误差率。
步骤S35、若当前数据子集的随机森林模型的平均袋外误差率大于初始数据子集的随机森林模型的平均袋外误差率,或者当前数据子集的随机森林模型的平均袋外误差率大于前一次数据子集的随机森林模型的平均袋外误差率,合并每一个当前数据子集中剔除特征之外的特征,并输出作为甲基化芯片数据的疾病相关特征集。否则,重复步骤S32至S35。
其中,每一个当前数据子集中每一特征的重要性度量值的计算公式为:
Figure BDA0001979703670000071
x(i)为数据子集中的特征,K为对每个数据子集做K次Bootstrap抽样产生K个自助样本集和袋外数据集OOBk,acck为第k棵树在训练时在相应OOBk上的准确率,acc′k为随机的改变OOBk数据集在变量特征x(i)的取值,即x(i)=x(i)+noise时OOBk的准确率,其中,noise为噪声。
进一步地,步骤S34中,根据特征选择后的甲基化芯片数据样本,获得甲基化芯片数据子集,包括:若特征选择后的甲基化芯片数据样本中的特征数不小于10000,将特征选择后的甲基化芯片数据样本根据位点维度划分为多个甲基化芯片数据子集;若特征选择后的甲基化芯片数据样本中的特征数小于10000,直接将特征选择后的甲基化芯片数据样本作为甲基化芯片数据子集。
根据上述迭代随机森林模型对精神分裂症的每一个初始甲基化芯片数据子集进行处理,当进行第17次迭代随机森林模型时,前一轮特征选择后的甲基化芯片数据样本中的特征数为9189,小于10000不再划分子集,直接构建随机森林模型且当前数据集随机森林模型的袋外误差率大于其前一次随机森林模型的平均袋外误差率,停止迭代。如图2所示,剔除前一轮特征选择后的甲基化芯片数据样本中的剔除特征1838个,得到该数据集中的剩余特征7351个,即该甲基化芯片数据的疾病相关特征有7351个,输出甲基化芯片数据的疾病相关特征集。
步骤S4、对甲基化芯片数据的疾病相关特征集进行线性拟合处理,之后通过假设检验筛选出具有统计显著性的特征,即认为该特征为差异甲基化位点。
具体地,使用经典芯片数据差异分析工具limma对上述精神分裂症的甲基化芯片数据集中7351个疾病相关特征集进行线性拟合处理。
线性拟合的公式为:
E(yg)=Xβg
其中,yg为甲基化位点g的甲基化水平值,X是实验设计矩阵,βg是回归系数。
对线性拟合后的疾病相关特征数据进行经验贝叶斯统计分析,筛选出经FDR校正后的调整p值小于0.05的特征5419个,即认为这5419个特征为差异甲基化位点。
实验验证
为了验证本方法的有效性,我们对从GEO(GENE EXPRESSION OMNIBUS)中获取的列号为GSE61107的精神分裂症的48组真实甲基化芯片数据样本进行了测试,并和三种传统差异甲基化位点分析方法limma、samr、dmpFinder进行了比较分析。GEO是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,GSE61107包含24名精神分裂症患者和24名未受影响的对照组全基因组DNA甲基化分析的450K芯片数据。
为了评价本方法筛选出的差异甲基化位点的有效性,比较了本发明方法与其他三种传统方法Limma、samr、dmpFinder找到的差异甲基化位点个数,从图3中可以看出,samr(2253),limma(4642)和dmpFinder(2259)三种传统方法对低甲基化特征的疾病如精神分裂症找的差异甲基化位点较少,本发明方法(5419)找到的差异甲基化位点数量是最多的,重合的部分是本发明方法和其他三种方法找到的共同的差异甲基化位点个数,由此证明了本方法识别低甲基化水平的差异甲基化位点的有效性,且能识别出传统方法不能筛选出的差异甲基化位点。
为了评价推断结果的准确性,我们采用的对比指标为平均正确率,即评估本发明方法和其他三种方法limma、samr、dmpFinder的分类性能。具体来说,将精神分裂症数据集从样本维度随机划分为10个子集进行十折交叉验证测试精度,一个单独的子样本被保留作为验证模型的数据,其余9个样本用来训练。交叉验证重复10次,每个子样本验证一次并计算每个子样本的正确率,10次的结果的均值作为对算法精度的估计。在图4中可以很容易看出,本章提出的方法获得的平均正确率是最高的。一般情况下,十折交叉验证中某种分类方法的平均正确率越高,这种分类方法的整体性能越好。因此,这个结果也说明本发明方法在精神分裂症这类低甲基化水平疾病分类上不仅具有一定的先进性,而且具有很强的鲁棒性。
需要理解的是,以上对本发明的具体实施例进行的描述只是为了说明本发明的技术路线和特点,其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施,但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰,都应涵盖在本发明的保护范围内。

Claims (7)

1.一种低甲基化水平的差异甲基化位点识别方法,其特征在于,包括以下步骤:
步骤S1、获取一种低甲基化水平疾病的多组甲基化芯片数据样本;
步骤S2、对所述多组甲基化芯片数据样本进行预处理,得到甲基化芯片数据集;
步骤S3、根据位点维度,将甲基化芯片数据集划分为多个初始甲基化芯片数据子集;
将每一个初始甲基化芯片数据子集输入构建随机森林模型,迭代进行特征选择,输出甲基化芯片数据的疾病相关特征集;
步骤S4、对特征选择后得到的甲基化芯片数据的疾病相关特征集进行线性拟合处理,之后通过假设检验筛选出具有统计显著性的特征,即认为该特征为差异甲基化位点。
2.根据权利要求1所述的一种低甲基化水平的差异甲基化位点识别方法,其特征在于,步骤S2中,对所述多组甲基化芯片数据样本进行预处理,包括:
质量控制:使用minfi对多组甲基化芯片数据样本进行处理,移除探测p值较小的甲基化位点;
过滤处理:过滤掉多组甲基化芯片数据样本中与X、Y染色体相关的探针、与SNP相关的探针以及cross-reactive的甲基化位点;
使用SQN子集分位数标准化算法对经过质量控制和过滤处理后的多组甲基化芯片数据样本进行标准化处理,然后使用Combat算法对多组甲基化芯片数据样本进行批次效应校正,得到多组标准甲基化芯片数据样本;
将所述多组标准甲基化芯片数据样本存入数据集,得到甲基化芯片数据集。
3.根据权利要求1所述的一种低甲基化水平的差异甲基化位点识别方法,其特征在于,步骤S3中,将每一个初始甲基化芯片数据子集输入构建随机森林模型,迭代进行特征选择,输出甲基化芯片数据的疾病相关特征集,包括:
步骤S31、根据每一个初始数据子集构建每一个初始数据子集的随机森林模型,获得每一个初始数据子集的随机森林模型的袋外误差率;以及,
根据每一个初始数据子集的随机森林模型的袋外误差率,计算获得初始数据子集随机森林模型的平均袋外误差率;
步骤S32、根据每一个当前数据子集的随机森林模型,获得每一个当前数据子集中每一特征的重要性度量值;
步骤S33、根据每一个当前数据子集中每一特征的重要性度量值,对每一个当前数据子集中的特征进行排序,将每一个当前数据子集中重要性度量值排名靠后的20%的特征作为剔除特征,合并每一个当前数据子集中剔除特征之外的特征,获得特征选择后的甲基化芯片数据样本;
步骤S34、根据特征选择后的甲基化芯片数据样本,获得甲基化芯片数据子集,根据每一个甲基化芯片数据子集构建每一个数据子集的随机森林模型,并获得每一数据子集的随机森林模型的袋外误差率和数据子集随机森林模型的平均袋外误差率;
步骤S35、若当前数据子集的随机森林模型的平均袋外误差率大于初始数据子集的随机森林模型的平均袋外误差率,或者
当前数据子集的随机森林模型的平均袋外误差率大于前一次数据子集的随机森林模型的平均袋外误差率,合并每一个当前数据子集中剔除特征之外的特征,并输出作为甲基化芯片数据的疾病相关特征集;
否则,重复步骤S32至S35。
4.根据权利要求3所述的一种低甲基化水平的差异甲基化位点识别方法,其特征在于,步骤S34中,根据特征选择后的甲基化芯片数据样本,获得甲基化芯片数据子集,包括:
若特征选择后的甲基化芯片数据样本中的特征数不小于10000,将特征选择后的甲基化芯片数据样本根据位点维度划分为多个甲基化芯片数据子集;
若特征选择后的甲基化芯片数据样本中的特征数小于10000,直接将特征选择后的甲基化芯片数据样本作为甲基化芯片数据子集。
5.根据权利要求3所述的一种低甲基化水平的差异甲基化位点识别方法,其特征在于,步骤S32中,每一个当前数据子集中每一特征的重要性度量值的计算公式为:
Figure FDA0001979703660000031
x(i)为数据子集中的特征,K为对每个数据子集做K次Bootstrap抽样产生K个自助样本集和袋外数据集OOBk,acck为第k棵树在训练时在相应OOBk上的准确率,acc′k为随机的改变OOBk数据集在变量特征x(i)的取值,即x(i)=x(i)+noise时OOBk的准确率,其中,noise为噪声。
6.根据权利要求1所述的一种低甲基化水平的差异甲基化位点识别方法,其特征在于,步骤S4中,对甲基化芯片数据的疾病相关特征集进行线性拟合处理,具体为:
使用经典芯片数据差异分析工具limma对甲基化芯片数据中的疾病相关特征集进行线性拟合;
所述线性拟合的公式为:
E(yg)=Xβg
其中,yg为甲基化位点g的甲基化水平值,X是实验设计矩阵,βg是回归系数。
7.根据权利要求1所述的一种低甲基化水平的差异甲基化位点识别方法,其特征在于,步骤S4中,通过假设检验筛选出具有统计显著性的特征,具体为:
对线性拟合后的数据进行经验贝叶斯统计分析,筛选出经FDR校正的调整p值小于0.05的特征,即认为该特征为差异甲基化位点。
CN201910145275.7A 2019-02-27 2019-02-27 一种低甲基化水平的差异甲基化位点识别方法 Active CN109887543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910145275.7A CN109887543B (zh) 2019-02-27 2019-02-27 一种低甲基化水平的差异甲基化位点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910145275.7A CN109887543B (zh) 2019-02-27 2019-02-27 一种低甲基化水平的差异甲基化位点识别方法

Publications (2)

Publication Number Publication Date
CN109887543A CN109887543A (zh) 2019-06-14
CN109887543B true CN109887543B (zh) 2022-12-09

Family

ID=66929695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910145275.7A Active CN109887543B (zh) 2019-02-27 2019-02-27 一种低甲基化水平的差异甲基化位点识别方法

Country Status (1)

Country Link
CN (1) CN109887543B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112877419A (zh) * 2021-01-20 2021-06-01 武汉大学 预测精神分裂症发生风险的dna甲基化标记物及筛选方法和应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2886659A1 (en) * 2013-12-20 2015-06-24 AIT Austrian Institute of Technology GmbH Gene methylation based colorectal cancer diagnosis
EP3067432A1 (en) * 2015-03-11 2016-09-14 Deutsches Krebsforschungszentrum Stiftung des Öffentlichen Rechts DNA-methylation based method for classifying tumor species of the brain
CN107247873A (zh) * 2017-03-29 2017-10-13 电子科技大学 一种差异甲基化位点识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2886659A1 (en) * 2013-12-20 2015-06-24 AIT Austrian Institute of Technology GmbH Gene methylation based colorectal cancer diagnosis
EP3067432A1 (en) * 2015-03-11 2016-09-14 Deutsches Krebsforschungszentrum Stiftung des Öffentlichen Rechts DNA-methylation based method for classifying tumor species of the brain
CN107247873A (zh) * 2017-03-29 2017-10-13 电子科技大学 一种差异甲基化位点识别方法

Also Published As

Publication number Publication date
CN109887543A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
EP3520006B1 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
Eldon et al. Can the site-frequency spectrum distinguish exponential population growth from multiple-merger coalescents?
US20030171878A1 (en) Methods for the identification of genetic features for complex genetics classifiers
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
CN107247873B (zh) 一种差异甲基化位点识别方法
CN101790731A (zh) 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法
JP2022512829A (ja) 疾患診断のための方法及び機械学習
Li et al. Estimation of quantitative trait locus effects with epistasis by variational Bayes algorithms
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
CN115274136A (zh) 整合多组学与必需基因的肿瘤细胞系药物响应预测方法
Qu et al. Quantitative trait associated microarray gene expression data analysis
Kontou et al. Methods of analysis and meta-analysis for identifying differentially expressed genes
Su et al. Cell-type-specific co-expression inference from single cell RNA-sequencing data
Jia et al. Clustering expressed genes on the basis of their association with a quantitative phenotype
Liu et al. A semiparametric model for between‐subject attributes: Applications to beta‐diversity of microbiome data
Pradhan et al. miRbiom: machine-learning on Bayesian causal nets of RBP-miRNA interactions successfully predicts miRNA profiles
CN109887543B (zh) 一种低甲基化水平的差异甲基化位点识别方法
May et al. ClearCNV: CNV calling from NGS panel data in the presence of ambiguity and noise
CN104598775A (zh) 一种rna编辑事件识别机制及其高效实现方案
Racedo et al. A new pipeline for structural characterization and classification of RNA-Seq microbiome data
Zhou et al. Data pre-processing for analyzing microbiome data–A mini review
Sun Application and Challenges of Statistical Methods in Biological Genetics
US20210193258A1 (en) Detection of changes in gene expression attributable to changes in cell morphology
CN106529208A (zh) 神经系统对应的基因的突变位点的获取方法及装置
Yang A comparative study of genotype imputation programs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant