CN107918725A - 一种基于机器学习选择最优特征的dna甲基化预测方法 - Google Patents

一种基于机器学习选择最优特征的dna甲基化预测方法 Download PDF

Info

Publication number
CN107918725A
CN107918725A CN201711465834.XA CN201711465834A CN107918725A CN 107918725 A CN107918725 A CN 107918725A CN 201711465834 A CN201711465834 A CN 201711465834A CN 107918725 A CN107918725 A CN 107918725A
Authority
CN
China
Prior art keywords
dna methylation
machine learning
value
matrix
cpg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711465834.XA
Other languages
English (en)
Other versions
CN107918725B (zh
Inventor
马宝山
矫翔田
孟凡宇
耿尧
董佳昕
陈宇航
王雯萱
马奕
张萌
徐丹
王巍
孙野青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN201711465834.XA priority Critical patent/CN107918725B/zh
Publication of CN107918725A publication Critical patent/CN107918725A/zh
Application granted granted Critical
Publication of CN107918725B publication Critical patent/CN107918725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Genetics & Genomics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)

Abstract

本发明公开了一种基于机器学习选择最优特征的DNA甲基化预测方法,本发明首先通过使用不同的机器学习算法一搜索不同个数的最强相关CpG位点,构建不同模型的最强相关CpG位点集合,然后利用不同的机器学习算法二对不同的模型的最强相关CpG位点集合进行测试,对测试结果与真实实验的结果进行比较,根据评价指标确定最优模型所使用的最强相关CpG位点个数和机器学习算法类型,从而完成了基于多个最强CpG位点的预测模型的建立。本发明提高了最强CpG位点的搜索效率,从而提高预测模型预测性能。

Description

一种基于机器学习选择最优特征的DNA甲基化预测方法
技术领域
本发明涉及DNA甲基化预测领域,更具体的,涉及基于机器学习选择最优特征的DNA甲基化预测方法。
背景技术
复杂疾病是由多基因、基因与基因相互作用、基因与环境相互作用共同引起的。这些基因与基因、基因与环境的相互作用形成一个多层次的复杂生物网络,正是这些复杂网络的变异引起了疾病的发生与发展。因此,生物数据分析的一个难点就是数据之间存在复杂的关联性。在基因组中,特定CpG位点的甲基化与邻近或其他区域的CpG位点相关联。例如在预测某一个CpG位点的数据时,多数其它位点的数据对建模和预测没有帮助,属于冗余信息,而某些特殊CpG位点的数据对于建模和预测精度非常重要,这些位点属于最强相关CpG位点。
DNA甲基化直接影响细胞分化和组织器官发育,与冠心病等复杂疾病密切相关,是表观遗传学研究的热点问题。获取人体器官的DNA甲基化表达数据对于研究该器官的病变具有重要理论研究意义和临床实用价值。但在多数情况下,很难直接对人体病变器官采样。能否用替代组织器官(例如外周血)中甲基化表达数据来预测目标组织器官(例如心脏)中的甲基化表达数据,仍是一个急需解决的问题。
科研人员对DNA甲基化的预测开展了很多研究,但多数只是粗略的估计CpG岛(CpGisland,基因组中长度为300~3000bp的富含CpG二核苷酸的一些区域,主要存在于基因的5′区域)片段的甲基化状态,分辨率较低,预测甲基化状态一般只分为甲基化(常用1表示)和非甲基化(常用0表示)。
DNA甲基化数据维度很高,一般上万甚至几十万,因此,如何高效搜索最强CpG位点成为迫切需要解决的问题。预测模型中包含最强相关CpG位点会进一步提高其预测性能。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种基于机器学习选择最优特征的DNA甲基化预测方法。本发明首先使用不同的机器学习算法一搜索不同个数的最强相关CpG位点,构建不同的模型的最强相关CpG位点集合,然后利用不同的机器学习算法二对不同的模型的最强相关CpG位点集合进行测试,并对测试结果与真实实验的结果进行比较,根据评价指标确定最优的最强相关CpG位点个数、机器学习算法一和机器学习算法二,最后建立基于多个最强CpG位点的预测模型。
为实现上述目的,本发明的技术方案如下:
一种基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,包含以下步骤:
S1:根据n个训练样本的m个CpG位点的数据和p个测试样本的m个CpG位点的数据,分别生成包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m),包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m),包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m),包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m);
其中n是训练数据集样本个数,p是测试集样本个数,m是CpG位点个数,元素xit(i=1~n,t=1~m)的含义是训练样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素yit(i=1~n,t=1~m)的含义是训练样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素wit(i=1~p,t=1~m)的含义是测试样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素zit(i=1~p,t=1~m)的含义是测试样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,xi是矩阵X(n×m)的第i行,x.j是矩阵X(n×m)的第j列,yi.是矩阵Y(n×m)的第i行,y.j是矩阵Y(n×m)的第j列,wi.是矩阵W(p×m)的第i行,w.j是矩阵W(p×m)的第j列,zi.是矩阵Z(p×m)的第i行,z.j是矩阵Z(p×m)的第j列;
S2:指定位点j,去掉包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)的第j列,形成替代器官训练矩阵Xtrain,提取包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)的第j列,形成替代器官训练向量Ytrain
S3:指定最强相关CpG位点的个数L,并使用机器学习算法一建立模型Xopt=F(Xtrain,Ytrain);
S4:从Xopt筛选出L-1个最强相关CpG位点{x.k}并与x.j合并为最强相关CpG位点集合X1(n×L);
S5:使用机器学习算法二对最强相关CpG位点集合X1(n×L)进行建模;
S6:使用S5中的生成模型对包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)进行预测,得到预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m);
S7:比较预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m)和包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m),进行评价指标计算;
S8:变更S3中的最强相关CpG位点的个数L和机器学习算法一的类型以及变更S5中机器学习算法二的类型,重复S3~S7,共生成Q个模型及其评价指标;
S9:对Q个模型的评价指标进行综合比较,确定机器学习算法一、机器学习算法二的类型以及最强相关CpG位点的个数L。
优选地,所述步骤S3中所述的机器学习算法一为随机森林或过滤式或包裹式或嵌入式特征选择算法。
优选地,所述步骤S5中所述的机器学习算法二为支持向量机或深度学习算法。
优选地,所述步骤S7中所述评价指标共有四个,分别是,样本间相关系数样本间绝对误差位点间相关系数和位点间绝对误差其中分别是预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m)的第i行和第j列,zi.和z.j分别是包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)的第i行和第j列;
优选地,所述步骤S8中所述的最强相关CpG位点的个数L变更的最小值为10。
从上述技术方案可以看出,本发明通过使用机器学习算法选择DNA甲基化数据的最优特征,建立替代器官和目标器官DNA甲基化数据的最优数学模型,完成了使用多个最强CpG位点预测目标组织中甲基化水平的方法。因此,本发明具有提高搜索最强CpG位点效率,减少计算代价,提高预测模型预测性能的显著特点。
附图说明
图1是本发明的流程示意图;
图2是本发明针对指定位点和最强相关CpG位点的个数建立预测模型的流程示意图;
图3是本发明使用预测模型进行测试并对预测模型进行评价的流程示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步的详细说明。
请参阅图1,图1是本发明的流程示意图,并参阅图2-3。
一种基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,包含以下步骤:
S1:根据n个训练样本的m个CpG位点的数据和p个测试样本的m个CpG位点的数据,分别生成包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m),包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m),包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m),包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m);其中n是训练数据集样本个数,p是测试集样本个数,m是CpG位点个数,元素xit(i=1~n,t=1~m)的含义是训练样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素yit(i=1~n,t=1~m)的含义是训练样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素wit(i=1~p,t=1~m)的含义是测试样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素zit(i=1~p,t=1~m)的含义是测试样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,xi.是矩阵X(n×m)的第i行,x.j是矩阵X(n×m)的第j列,yi.是矩阵Y(n×m)的第i行,y.j是矩阵Y(n×m)的第j列,wi.是矩阵W(p×m)的第i行,w.j是矩阵W(p×m)的第j列,zi.是矩阵Z(p×m)的第i行,z.j是矩阵Z(p×m)的第j列。
将训练数据集合和测试数据集均各自分成2个矩阵,分别是包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m),包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m),包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m),包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m),矩阵的行数分别为训练样本个数n和测试样本个数p,列数为CpG位点个数m。
S2:指定位点j,去掉包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)的第j列,形成替代器官训练矩阵Xtrain,提取包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)的第j列,形成替代器官训练向量Ytrain
由于x.j与y.j对应同一个CpG位点,通常默认它们是最相关的CpG位点,所以替代器官数据矩阵X中的第j列不作为训练集参与建模过程,故而将其从包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)中剔除,构建出针对指定位点j的替代器官训练矩阵Xtrain。提取包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)的第j列,形成替代器官训练向量Ytrain
S3:指定最强相关CpG位点的个数L,并使用机器学习算法一建立模型Xopt=F(Xtrain,Ytrain);
S4:从Xopt筛选出L-1个最强相关CpG位点{x.k}并与x.j合并为最强相关CpG位点集合X1(n×L);
指定最强相关CpG位点的个数,使用随机森林或过滤式或包裹式或嵌入式特征选择算法建立模型Xopt=F(Xtrain,Ytrain),筛选出L-1个最强相关CpG位点{x.k}并与x.j合并为最强相关CpG位点集合X1(n×L)。
S5:使用机器学习算法二对最强相关CpG位点集合X1(n×L)进行建模。
所使用机器学习算法二为支持向量机或深度学习算法,对S4中建立的最强相关CpG位点集合X1(n×L)进行建模。
S6:使用S5中的生成模型对包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)进行预测,得到预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m)。
S7:比较预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m)和包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m),进行评价指标计算。
评价指标共有四个,分别是,样本间相关系数样本间绝对误差位点间相关系数和位点间绝对误差其中分别是预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m)的第i行和第j列,zi.和z.j分别是包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)的第i行和第j列。
S8:变更S3中的最强相关CpG位点的个数L和机器学习算法一的类型以及变更S5中机器学习算法二的类型,重复S3~S7,共生成Q个模型及其评价指标。
变更S3中的最强相关CpG位点的个数L和机器学习算法一的类型,重复S3~S7,并在S5中变更机器学习算法二的类型,共生成Q个模型及其评价指标。
在变更最强相关CpG位点的个数L时,最小变更值为10个,即以10为间隔对L进行取值。
S9:对Q个模型的评价指标进行综合比较,确定机器学习算法一、机器学习算法二的类型以及最强相关CpG位点的个数L。
从构建的Q个模型中选取相关系数大、绝对误差小的模型,从而确定最优算法,该算法对应的机器学习算法一、机器学习算法二的类型以及最强相关CpG位点的个数L即为最优选的模型参数。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,包含以下步骤:
S1:根据n个训练样本的m个CpG位点的数据和p个测试样本的m个CpG位点的数据,分别生成包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m),包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m),包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m),包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m);
其中n是训练数据集样本个数,p是测试集样本个数,m是CpG位点个数,元素xit(i=1~n,t=1~m)的含义是训练样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素yit(i=1~n,t=1~m)的含义是训练样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素wit(i=1~p,t=1~m)的含义是测试样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素zit(i=1~p,t=1~m)的含义是测试样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,xi.是矩阵X(n×m)的第i行,x.j是矩阵X(n×m)的第j列,yi.是矩阵Y(n×m)的第i行,y.j是矩阵Y(n×m)的第j列,wi.是矩阵W(p×m)的第i行,w.j是矩阵W(p×m)的第j列,zi.是矩阵Z(p×m)的第i行,z.j是矩阵Z(p×m)的第j列;
S2:指定位点j,去掉包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)的第j列,形成替代器官训练矩阵Xtrain,提取包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)的第j列,形成替代器官训练向量Ytrain
S3:指定最强相关CpG位点的个数L,并使用机器学习算法一建立模型Xopt=F(Xtrain,Ytrain);
S4:从Xopt筛选出L-1个最强相关CpG位点{x.k}并与x.j合并为最强相关CpG位点集合X1(n×L);
S5:使用机器学习算法二对最强相关CpG位点集合X1(n×L)进行建模;
S6:使用S5中的生成模型对包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)进行预测,得到预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m);
S7:比较预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m)和包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m),进行评价指标计算;
S8:变更S3中的最强相关CpG位点的个数L和机器学习算法一的类型以及变更S5中机器学习算法二的类型,重复S3~S7,共生成Q个模型及其评价指标;
S9:对Q个模型的评价指标进行综合比较,确定机器学习算法一、机器学习算法二的类型以及最强相关CpG位点的个数L。
2.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,所述步骤S3中所述的机器学习算法一为随机森林或过滤式或包裹式或嵌入式特征选择算法。
3.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,所述步骤S5中所述的机器学习算法二为支持向量机或深度学习算法。
4.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,所述步骤S7中所述评价指标共有四个,分别是,样本间相关系数样本间绝对误差位点间相关系数和位点间绝对误差其中分别是预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m)的第i行和第j列,zi.和z.j分别是包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)的第i行和第j列。
5.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,所述步骤S8中所述的最强相关CpG位点的个数L变更的值为10。
CN201711465834.XA 2017-12-28 2017-12-28 一种基于机器学习选择最优特征的dna甲基化预测方法 Active CN107918725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711465834.XA CN107918725B (zh) 2017-12-28 2017-12-28 一种基于机器学习选择最优特征的dna甲基化预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711465834.XA CN107918725B (zh) 2017-12-28 2017-12-28 一种基于机器学习选择最优特征的dna甲基化预测方法

Publications (2)

Publication Number Publication Date
CN107918725A true CN107918725A (zh) 2018-04-17
CN107918725B CN107918725B (zh) 2021-09-07

Family

ID=61894423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711465834.XA Active CN107918725B (zh) 2017-12-28 2017-12-28 一种基于机器学习选择最优特征的dna甲基化预测方法

Country Status (1)

Country Link
CN (1) CN107918725B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060736A (zh) * 2019-04-11 2019-07-26 电子科技大学 Dna甲基化扩展方法
CN110648764A (zh) * 2019-08-20 2020-01-03 南京医渡云医学技术有限公司 一种获取临床数据预测模型的方法、装置、可读介质及电子设备
CN111524594A (zh) * 2020-06-12 2020-08-11 山东大学 目标人群血液系统恶性肿瘤筛查系统
CN113257363A (zh) * 2021-05-31 2021-08-13 福建傲农生物科技集团股份有限公司 一种系谱的校正方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020192686A1 (en) * 2001-03-26 2002-12-19 Peter Adorjan Method for epigenetic feature selection
US20030148290A1 (en) * 2002-02-06 2003-08-07 Susan Cottrell Quantitative methylation detection in DNA samples
US20140178348A1 (en) * 2011-05-25 2014-06-26 The Regents Of The University Of California Methods using DNA methylation for identifying a cell or a mixture of cells for prognosis and diagnosis of diseases, and for cell remediation therapies
CN104182656A (zh) * 2014-08-12 2014-12-03 大连海事大学 一种在染色体上定位并显示生物基因表达信息及环境敏感区域的方法
CN105695577A (zh) * 2016-03-02 2016-06-22 上海易毕恩基因科技有限公司 微量DNA 中甲基化CpG 岛高通量测序方法
CN105893787A (zh) * 2016-06-21 2016-08-24 南昌大学 一种蛋白质翻译后修饰甲基化位点的预测方法
CN106250718A (zh) * 2016-07-29 2016-12-21 於铉 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法
CN106650304A (zh) * 2016-12-15 2017-05-10 电子科技大学 一种dna甲基化芯片数据的扩展方法
CN106980774A (zh) * 2017-03-29 2017-07-25 电子科技大学 一种dna甲基化芯片数据的扩展方法
WO2017136482A1 (en) * 2016-02-01 2017-08-10 The Board Of Regents Of The University Of Nebraska Method of identifying important methylome features and use thereof
CN107451419A (zh) * 2017-07-14 2017-12-08 浙江大学 一种通过计算机程序模拟产生简化dna甲基化测序数据的方法
CN107447004A (zh) * 2017-08-11 2017-12-08 北京呈诺医学科技有限公司 Dna甲基化pcr检测引物或探针的特异性检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020192686A1 (en) * 2001-03-26 2002-12-19 Peter Adorjan Method for epigenetic feature selection
US20030148290A1 (en) * 2002-02-06 2003-08-07 Susan Cottrell Quantitative methylation detection in DNA samples
US20140178348A1 (en) * 2011-05-25 2014-06-26 The Regents Of The University Of California Methods using DNA methylation for identifying a cell or a mixture of cells for prognosis and diagnosis of diseases, and for cell remediation therapies
CN104182656A (zh) * 2014-08-12 2014-12-03 大连海事大学 一种在染色体上定位并显示生物基因表达信息及环境敏感区域的方法
WO2017136482A1 (en) * 2016-02-01 2017-08-10 The Board Of Regents Of The University Of Nebraska Method of identifying important methylome features and use thereof
CN105695577A (zh) * 2016-03-02 2016-06-22 上海易毕恩基因科技有限公司 微量DNA 中甲基化CpG 岛高通量测序方法
CN105893787A (zh) * 2016-06-21 2016-08-24 南昌大学 一种蛋白质翻译后修饰甲基化位点的预测方法
CN106250718A (zh) * 2016-07-29 2016-12-21 於铉 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法
CN106650304A (zh) * 2016-12-15 2017-05-10 电子科技大学 一种dna甲基化芯片数据的扩展方法
CN106980774A (zh) * 2017-03-29 2017-07-25 电子科技大学 一种dna甲基化芯片数据的扩展方法
CN107451419A (zh) * 2017-07-14 2017-12-08 浙江大学 一种通过计算机程序模拟产生简化dna甲基化测序数据的方法
CN107447004A (zh) * 2017-08-11 2017-12-08 北京呈诺医学科技有限公司 Dna甲基化pcr检测引物或探针的特异性检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BAOSHAN MA ET AL: "Predicting DNA methylation level across human tissues", 《NUCLEIC ACIDS RESEARCH》 *
FABIAN MODEL ET AL: "Feature selection for dna methylation based cancer classification", 《BIOINFORMATICS》 *
JOANNA ZHUANG ET AL: "A comparison of feature selection and classification methods in DNA methylation studies using the illumine infinium platform", 《BMC BIOINFORMATICS》 *
何建林: "等位基因特异DNA甲基化的描述与机器学习预测", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
张秋伊等: "高维 DNA 甲基化数据的随机森林降维分析", 《中华疾病控制杂志》 *
李广庆: "基于序列的RNA甲基化修饰位点预测研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060736A (zh) * 2019-04-11 2019-07-26 电子科技大学 Dna甲基化扩展方法
CN110060736B (zh) * 2019-04-11 2022-11-22 电子科技大学 Dna甲基化扩展方法
CN110648764A (zh) * 2019-08-20 2020-01-03 南京医渡云医学技术有限公司 一种获取临床数据预测模型的方法、装置、可读介质及电子设备
CN111524594A (zh) * 2020-06-12 2020-08-11 山东大学 目标人群血液系统恶性肿瘤筛查系统
CN113257363A (zh) * 2021-05-31 2021-08-13 福建傲农生物科技集团股份有限公司 一种系谱的校正方法及装置
CN113257363B (zh) * 2021-05-31 2023-12-08 福建傲农生物科技集团股份有限公司 一种系谱的校正方法及装置

Also Published As

Publication number Publication date
CN107918725B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN107918725A (zh) 一种基于机器学习选择最优特征的dna甲基化预测方法
O’Malley When integration fails: Prokaryote phylogeny and the tree of life
CN108595916B (zh) 基于生成对抗网络的基因表达全谱推断方法
Yang et al. The incidence and pattern of copollinator diversification in dioecious and monoecious figs
Yi et al. Advances in Bayesian multiple quantitative trait loci mapping in experimental crosses
Gustafsson et al. Comparison and validation of community structures in complex networks
CN108319984B (zh) 基于dna甲基化水平的木本植物叶片表型特征和光合特性预测模型的构建方法及预测方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
Akhand et al. Velocity Tentative PSO: An Optimal Velocity Implementation based Particle Swarm Optimization to Solve Traveling Salesman Problem.
CN106446597B (zh) 多物种特征选择及鉴定未知基因的方法
Lee‐Yaw et al. Environmental marginality and geographic range limits: a case study with Arabidopsis lyrata ssp. lyrata
Rossetto et al. Where did all the trees come from? A novel multispecies approach reveals the impacts of biogeographical history and functional diversity on rain forest assembly
Rehman et al. i6mA-Caps: A CapsuleNet-based framework for identifying DNA N6-methyladenine sites
CN102841985B (zh) 一种基于结构域特征的关键蛋白质识别方法
CN109492075A (zh) 一种基于循环生成对抗网络的迁移学习排序方法
CN106599610A (zh) 预测长链非编码rna和蛋白质联系的方法及系统
CN106485325A (zh) 基于复杂网络和深度学习的两相流多元信息融合法及应用
CN109543247A (zh) 基于nsga-ⅱ的模拟集成电路参数优化设计方法及装置
CN108197431A (zh) 染色质相互作用差异的分析方法和系统
CN116580773A (zh) 基于集成学习的育种跨代表型预测方法与系统、电子设备
CN105719006B (zh) 基于流特征的因果结构学习方法
CN106980774A (zh) 一种dna甲基化芯片数据的扩展方法
CN103294932A (zh) 用于碱基序列分析的参考序列处理系统及方法
Zou et al. Predicting RNA secondary structure based on the class information and Hopfield network
CN103310128B (zh) 考虑种子片段的长度的碱基序列处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant