CN113373236B - 一种获得中国人群个体年龄的方法 - Google Patents

一种获得中国人群个体年龄的方法 Download PDF

Info

Publication number
CN113373236B
CN113373236B CN202110191027.3A CN202110191027A CN113373236B CN 113373236 B CN113373236 B CN 113373236B CN 202110191027 A CN202110191027 A CN 202110191027A CN 113373236 B CN113373236 B CN 113373236B
Authority
CN
China
Prior art keywords
age
methylation
model
sites
sex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110191027.3A
Other languages
English (en)
Other versions
CN113373236A (zh
Inventor
刘凡
汪思佳
钱雨
彭倩倩
钱其溧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Genomics of CAS
Shanghai Institute of Nutrition and Health of CAS
Original Assignee
Beijing Institute of Genomics of CAS
Shanghai Institute of Nutrition and Health of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Genomics of CAS, Shanghai Institute of Nutrition and Health of CAS filed Critical Beijing Institute of Genomics of CAS
Priority to CN202110191027.3A priority Critical patent/CN113373236B/zh
Publication of CN113373236A publication Critical patent/CN113373236A/zh
Application granted granted Critical
Publication of CN113373236B publication Critical patent/CN113373236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种获得中国人群个体年龄的方法,涉及生物技术领域,具体包括以下步骤:(1)测定样本的甲基化水平,获得样本数据,将样本数据预处理后,将每个CpG位点的甲基化水平记录为β值,得到阵列甲基化数据;(2)条件表观基因组关联分析;(3)将步骤(2)得到的显著位点共同与年龄构建多元回归模型,去除对年龄影响不显著的甲基化位点,留下对年龄影响显著的甲基化位点;(4)根据BSR算法,在步骤(3)得到的显著位点中选择DNA甲基化标志物,构建预测年龄的MLR模型,即得中国人群个体年龄。本发明中的方法实现了利用血液或血痕对个体年龄的推断,精确度以及稳定性较高。

Description

一种获得中国人群个体年龄的方法
技术领域
本发明涉及生物技术领域,具体涉及一种获得中国人群个体年龄的方法。
背景技术
人类衰老与基因组特定位点的DNA甲基化变化有关。这些表观遗传修饰可用于跟踪供体年龄以进行法医分析或评估生物学年龄。相关研究表明,人类基因组中特定CpG位点的甲基化水平会随着年龄发生变化。对于某些CpG位点,其甲基化的程度与年龄几乎呈线性相关,这些CpG位点可以作为预测年龄的生物标志物。血液是犯罪现场中比较常见的生物痕迹,也是基于DNA甲基化进行年龄推断研究开展最多的生物检材。通过测定血液中特定CpG位点的甲基化水平来预测年龄在法医学上有着重要的应用价值。
1967年,Berdyshev GD等首次提出DNA的甲基化水平与衰老紧密相关,开辟了DNA甲基化与老化的相关性研究的先河。2013年,Steve Horvath在多组织中通过Illumina 27K和450K芯片测序技术筛选了353个年龄相关的甲基化位点,奠定了运用甲基化位点预测年龄的基础。2014年,Weidner等在151个血液样本中通过亚硫酸氢盐焦磷酸测序技术筛选得到了3个年龄相关的甲基化位点,用其进行年龄预测的MAD(Mean absolute deviation,平均绝对偏差)小于5年。2015年,ZbiecPiekarska等通过焦磷酸测序技术检测了303份血样的DNA甲基化水平,利用7个甲基化位点进行年龄的预测,表型解释方差为0.86,预测的MAD为5.03年。同年,中国学者Feng等人通过11个CpG位点对49名中国女性的年龄进行了预测,MAD为6岁左右。2016年,Park等通过对535例韩国人的血液样本进行3个CpG位点甲基化值的测定(ELOVL2,ZNF423,CCDC102B),并且建立了年龄预测的模型,结果显示MAD为3.16年。Mawlood等也通过比较年龄相关基因的启动子区域中CpG岛的甲基化水平,确定了4个年龄相关基因(NPTX2、KCNQ1DN、GRIA2和TRIM58),利用80例年龄分布在18至91岁之间的女性血液DNA样本进行年龄的预测,结果显示MAD为7.2年。2018年,Aliferi等利用大规模平行测序技术测定对110例全血样品的12个CpG位点的甲基化值进行测定,结果预测结果的MAD小于4年。同年,中国学者通过83个CpG作为预测因子,能准确预测89例中国儿童和青少年(年龄范围在6-17岁)的生理年龄,MAD为0.62年。2019年,Jung等通过测定150例韩国人血液样品中5个CpG位点的DNA甲基化水平,建立年龄预测模型,结果显示MAD为3.48年。同年,Feng等也通过测定390名中国北方汉族男性(15-75岁)的外周血样品的CpG位点的甲基化水平,建立了年龄预测的最优模型,MAD为2.89年。
但是,目前大多数研究都是以欧美人群为研究对象,并且多数采用的都是Illumina 27K或450K芯片数据,利用特定甲基化位点构建模型进行年龄的预测。由于亚欧遗传背景的差异,在欧美人群中构建的预测模型不一定准确适用于中国人群。目前,针对中国人群,只有小样本(49<N<390)的儿童和青少年,女性,或者男性的单一群体的年龄预测模型,并且利用的是Epityper系统,焦磷酸测序或者Illumina 450K芯片产生的数据。利用大样本(N=2664)的Illumina 850K芯片数据在全甲基化组水平上筛选年龄独立显著相关的甲基化位点,利用这些位点对年龄分布跨度大,不同性别,以及不同地区的中国人群年龄预测的研究几乎没有。因此,提供一种检测个体特定位点的甲基化水平来获得不同年龄层,不同性别和不同地区的中国人群年龄的方法称为亟待解决的问题。
发明内容
本发明针对现有技术存在的问题,提供了一种获得中国人群个体年龄的方法,通过获得个体的性别和DNA的10个CpG位点的甲基化水平,结合采用R软件,对性别和10个CpG位点与年龄进行多元线性回归分析,构建回归模型,以获得中国人群个体的年龄,实现了利用血液或血痕对个体年龄的推断。
为实现上述目的,本发明采用的技术方案如下:
一种获得中国人群个体年龄的方法,包括以下步骤:
(1)测定样本的甲基化水平,获得样本数据,将样本数据预处理后,将每个CpG位点的甲基化水平记录为β值,得到阵列甲基化数据;
(2)条件表观基因组关联分析:通过年龄、细胞组分、基因组主成分、甲基化组主成分、性别、种族、批次、样板和身体质量指数,构建多重线性回归模型,去除不显著的甲基化位点,得到显著位点;
(3)将步骤(2)得到的显著位点共同与年龄构建多元回归模型,去除对年龄影响不显著的甲基化位点,留下对年龄影响显著的甲基化位点;
(4)根据BSR算法,在步骤(3)得到的对年龄影响显著的甲基化位点中选择DNA甲基化标志物,构建预测年龄的MLR模型,即得中国人群个体年龄。
进一步地,本发明的样本总量为2664例,男性900例,女性1764例,年龄分布在18岁至83岁之间,年龄分布图如图2所示,其中南宁样本1053例,泰州样本800例,郑州样本811例,如表1所示。
表1.样本信息
样本 数量(个) 百分比(%)
男性 1764 66.22
女性 900 33.78
南宁 1053 39.53
泰州 800 30.03
郑州 811 30.44
男性年龄 平均值:50.02岁 标准差:12.88岁
女性年龄 平均值:50.14岁 标准差:12.81岁
针对这批来自各个年龄层,不同地区,男女混合的样本使用Illumina 850k DNA甲基化芯片测定样本的甲基化水平。
使用minfi包分批次对甲基化数据进行质量控制。使用minfi包的dropLociWithSnps函数去除含有SNP的探针。去除性染色体上的探针。通过CpG位点的beta值(甲基化信号与总信号比较)判断其甲基化程度,通过CpG位点的P值(总信号与背景信号比较)判断其甲基化质量。将P值大于0.01的beta值设置为NA,删去NA缺失率大于5%的探针。使用impute.knn函数(k=5)对缺失beta值进行填充。
使用BMIQ函数对Ⅱ型探针进行校正。合并三个批次。通过主成分分析确认slide,position,bacth effect这三个变量需要校正。使用ComBat函数对M值(beta值的对数)进行协变量校正,随后将M值转换回beta值。由于不同细胞之间甲基化水平表达存在异质性,因此进行了细胞异质性校正,涉及7个细胞组分(B:B细胞,NK:自然杀伤细胞,CD4T:T-cells,Mono:单核细胞,Neutro:中性粒细胞,Eosino:嗜酸性粒细胞)。
每个CpG位点的甲基化水平被记录为β值,范围从0到1。最后得到了2664×11876的阵列甲基化数据,甲基化数据经过标准化处理后进行后续分析。该标准化处理即对阵列甲基化数据进行正态标准化处理,使数据符合正态分布,去除数据中的极值,使得数据更可靠。
表观基因组关联分析通过多重线性回归模型实现,以年龄(Age)为因变量,校正了6个细胞组分(6cells),5个基因组主成分(5PCs),5个甲基化组主成分(5mePCs),性别(Sex),种族(Population),批次(Batch),样板(Slide),身体质量指数(BMI)的影响,使用模型如公式(1)所示:
Age~6cells+5PCs+5mePCs+Sex+Population+Batch+Slide+BMI (1)
然后校正全甲基化组最显著的甲基化位点(topCpG)对年龄的影响,继续下一轮的表观基因组关联分析,使用模型如公式(2)所示:
Age~6cells+5PCs+5mePCs+Sex+Population+Batch+Slide+BMI+topCpG (2)
一直循环校正,直到没有显著的甲基化位点出现,P值小于6.16×10-8认为全甲基化组显著(0.05/811876)。
全甲基化组条件筛选的曼哈顿图如图4所示。
本发明共找到了28个独立的年龄显著相关的甲基化位点,具体信息如表2所示。
表2. 28个甲基化位点信息
Figure BDA0002944077650000041
Figure BDA0002944077650000051
为了进一步保证预测模型的位点对年龄表型的影响是显著的,本发明利用这28个CpG位点单独与年龄做多元线性回归,去除不显著的甲基化位点(通过P是否小于0.05来确认是否显著),最后剩下了25个显著的位点,具体结果如表3所示。
表3. 25个甲基化位点信息
甲基化位点 效应值 标准误 P值
cg16867657 51.55 22.65 6.19E-104
cg08097417 35.34 13.40 1.11E-39
cg26079664 7.44 7.92 3.49E-15
cg06639320 18.91 10.49 2.89E-25
cg10501210 -11.86 -10.49 3.04E-25
cg13552692 -21.95 -14.10 1.45E-43
cg07850154 -8.11 -4.68 3.04E-06
cg11935615 -3.20 -2.77 5.61E-03
cg07553761 8.63 4.93 8.57E-07
cg09409865 10.30 5.35 9.44E-08
cg01949324 -14.12 -9.68 8.26E-22
cg18450254 -4.62 -3.34 8.43E-04
cg03254601 -19.03 -7.64 2.93E-14
cg25090514 20.39 6.07 1.43E-09
cg21531089 -17.29 -14.61 1.42E-46
cg06072257 10.74 5.85 5.40E-09
cg03607117 15.34 4.19 2.83E-05
cg25478614 9.92 4.60 4.33E-06
cg18537454 14.61 11.21 1.62E-28
cg20339868 -42.76 -7.00 3.32E-12
cg11298010 4.46 4.39 1.18E-05
cg12549908 -9.59 -6.19 6.80E-10
cg24639239 28.83 5.50 4.14E-08
cg13657083 11.16 5.25 1.65E-07
cg25105276 8.02 4.08 4.65E-05
在法医应用中,期望的标志物数量与模型性能之间相权衡的结果往往与理论最优值不同。因为要结合实际应用场景中的需求,例如标志物检测的便捷性与可行性等问题。因此,在保证结果准确性的前提下,保留的标志物越少越好,一定范围内的精度损失是可以接受的。
本发明通过组合优化前人开发的算法和思想,包括后向搜索算法,多迭代回归算法,和赤池信息量准则(Akaike Information Criterion,AIC),本发明开发了AIC收敛的后向搜索逐步线性回归算法(backward step-wise regression,BSR)。AIC可以评估模型的复杂度和拟合数据的效果。AIC值最小的时候,说明模型包含最少自由参数(数据复杂性低),可以最好地解释数据(拟合优良性)。利用BSR算法可以快速从众多候选DNA甲基化位点中选出最优的DNA甲基化位点组合,即AIC值最小的DNA甲基化位点组合。其中,AIC~2k+n ln(∑n(yi-E(yi))2i=1),k代表标志物数量,n代表样本数量,E(yi)是拟合值。该算法的具体执行过程是:首先利用全部‘n’个候选DNA甲基化位点构建预测模型,每一次的执行过程中,本发明分别计算利用‘n-1’个候选位点构建模型时对应的AIC值,共计算Cnn-1次,保留对应AIC值最小的一组‘n-1’个DNA甲基化位点,并进入下一轮迭代过程。
本发明也将引入表型解释方差来评估模型的准确性。R2的正常取值范围是[0,1],大于0.7说明模型拟合比较好,R2越接近1,说明由被选择的DNA甲基化标志物拟合的模型越能真实反映个体的年龄状态。另外,为了平衡预测模型的精度和实际场景中可便捷检测的DNA甲基化位点个数(≤10个),本发明通过比较当前迭代结果和前下一次迭代结果的预测精度的损失(ΔR2=0.2%),若当前DNA甲基化位点个数≤10且ΔR2>0.2%时就停止算法搜索,并以当前的DNA甲基化位点物组合作为最优组合,具体的R2筛选结果如图1所示。
最终,本发明根据BSR算法选择了10个DNA甲基化标志物构建了预测年龄的MLR模型,这10个位点对年龄的效应值如表4所示。
表4. 10个甲基化位点对年龄的影响
Figure BDA0002944077650000061
Figure BDA0002944077650000071
在本发明利用这10个位点对年龄进行预测的模型为:
模型1:
Y1=20.985+54.106×cg16867657+44.681×cg08097417+10.195×cg26079664+27.123×cg06639320-18.158×cg10501210-24.798×cg13552692-17.389×cg07850154-15.088×cg01949324-11.385×cg21531089+13.650×cg18537454;
本发明也可以加上性别来对年龄进行预测,因此,本发明的模型也可以是:
模型2:
Y2=20.736+0.176×Sex+54.195×cg16867657+45.047×cg08097417+10.604×cg26079664+26.868×cg06639320-18.118×cg10501210-24.755×cg13552692-17.149×cg07850154-15.227×cg01949324-11.249×cg21531089+13.179×cg18537454;
其中,Sex为性别。
在2664混合样本的预测结果散点图如图5所示,在此批样本中,运用留一法验证方法,运用模型1,2的MAD都为2.73年,R2都为0.93,说明两个模型预测结果准确性相近,具体结果见表5。然后采用模型2,对男女,不同地区及不同年龄段的个体分别进行了预测,在各个分类中的预测结果相近,这也进一步说明了本发明的模型鲁棒性强,适用性广,准确性高,具体结果见表6。在本发明的方案中,本领域技术人员可以根据需要从上述10个CpG位点和性别中选择一部分变量来构建其他的模型,只要能满足其对年龄推断准确性的要求即可。
表5.模型1、2在所有样本中的预测结果比较
样本集 MAD(年) R2
2664全部样本(模型1) 2.73 0.93
2664全部样本(模型2) 2.73 0.93
表6.模型2在不同性别、不同地区、各个年龄段的个体中的应用
Figure BDA0002944077650000072
Figure BDA0002944077650000081
综上所述,本发明针对两个回归模型的方案都能实现对不同性别,不同地区,不同年龄段的中国人群个体的年龄进行准确推断,推断的年龄的平均误差在2.73岁左右,具有良好的推断准确性。
本发明所取得的技术效果是:
目前,多数年龄预测模型主要是针对欧美人群建立的,仅有少量的模型是针对中国人群特定年龄段,以及男性或者女性的单一群体构建的,相比于以往模型应用群体的局限性。同时,由于甲基化水平变化与年龄高度相关,不做条件筛选的话,全甲基化组上有上万个与年龄相关的甲基化位点,且它们之间信息存在冗余,在实际操作中,无法运用这么多位点来对年龄进行预测。以往的预测模型没有采用条件表观基因组筛选的方法,几乎都是借鉴以往报道的年龄相关的甲基化位点,没有覆盖全甲基化组的位点信息,精确度以及稳定性不高。本发明首次提出了可以广泛适用于不同性别,不同地区,不同年龄段的中国人群个体年龄预测的模型,适用范围更广,鲁棒性更强,精确度更高,相比于已有的现有技术而言,精确度最高且最为稳定;之所以具有以上优点,原因如下:
①本发明的样本量大(2664),并且是男女混合,年龄分布较广,来自不同地区的混合样本,利用这批样本筛选出的甲基化位点更具普遍适用性。
②相比于以往研究采用的Illumina27K或450K数据,本发明采用的是更全面,位点更齐全的Illumina 850K芯片数据,共计811876个甲基化位点,后续挑选出的位点通过850K芯片数据基础上进行挑选,筛选的位点更加全面。
③本发明改进了传统的全表观组关联分析(Epigenome-wide associationstudy,EWAS)的方法,在混合型的大样本的基础上,将每次EWAS筛选的最显著的位点作为协变量,以去除此甲基化位点的冗余效应,确保下次筛选出的位点是独立对年龄表型有效应的位点,进一步保证了本发明的模型更简洁,没有冗余信息。又因为是基于混合型的大样本筛选的,从而保证了模型较强的鲁棒性,适用范围也更广,精确度也更高。
附图说明
图1为25个甲基化位点的表型解释方差;
图2为发现样本的年龄分布图;
图3为实施样本的年龄分布图;
图4为全甲基化组条件筛选的曼哈顿图;
图5为在2664混合样本的预测结果散点图;
图6为在648混合样本的预测结果散点图。
具体实施方式
收集中国人群中648名不同年龄,不同地区,男女混合的无关个体的血液样本,年龄跨度在19-71岁之间,年龄分布图如图3所示,样本具体信息见表7。采用本发明提供的方法获得中国人群个体年龄,以下以这648个样本为例来说明本发明方案的实施过程。通过Illumina芯片测序获取648人的模型中10个CpG位点的甲基化值,然后根据本发明中提供的年龄预测模型预测其生理年龄。
表7. 648样本信息介绍
样本分类 数量 百分比
女性 321个 49.54%
男性 327个 50.46%
女性年龄 平均值:50.15岁 标准差:12.81岁
男性年龄 平均值:50.00岁 标准差:12.89岁
模型1:
Y1=20.985+54.106×cg16867657+44.681×cg08097417+10.195×cg26079664+27.123×cg06639320-18.158×cg10501210-24.798×cg13552692-17.389×cg07850154-15.088×cg01949324-11.385×cg21531089+13.650×cg18537454
利用模型1预测的648人的实际年龄与预测年龄的平均误差为3.2岁
模型2:
Y2=20.736+0.176×Sex+54.195×cg16867657+45.047×cg08097417+10.604×cg26079664+26.868×cg06639320-18.118×cg10501210-24.755×cg13552692-17.149×cg07850154-15.227×cg01949324-11.249×cg21531089+13.179×cg18537454;
其中,Sex为性别。
在648混合样本的预测结果散点图如图6所示,利用模型2预测的648人的实际年龄与预测年龄的平均误差也为3.2岁,进一步说明了两个模型预测效能一样,且准确性高。利用模型2,对这648个样本进行不同性别,不同地区,不同年龄层的个体进行预测,预测结果均与实际年龄平均误差在3岁左右,具体见表8,结果显示预测模型具有较强的鲁棒性,适用范围广,在不同性别,不同年龄段,不同地区的个体中均可准确预测年龄,能为案件侦破提供数据支持。
表8. 648样本的年龄预测结果
样本集 样本量 MAD
男性 327 3.12
女性 321 3.26
南宁 284 3.43
泰州 166 2.97
郑州 198 3.08
青年(15-35岁) 16 2.95
中年(36-55岁) 282 2.66
老年(>56岁) 350 3.65
最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。

Claims (8)

1.一种获得中国人群个体年龄的方法,其特征在于:包括以下步骤:
(1)测定样本的甲基化水平,获得样本数据,将样本数据预处理后,将每个CpG位点的甲基化水平记录为β值,得到阵列甲基化数据;
(2)条件表观基因组关联分析:通过年龄、细胞组分、基因组主成分、甲基化组主成分、性别、种族、批次、样板和身体质量指数,构建多重线性回归模型,去除不显著的甲基化位点,得到显著位点;
(3)将步骤(2)得到的显著位点共同与年龄构建多元回归模型,去除对年龄影响不显著的甲基化位点,留下对年龄影响显著的甲基化位点;
(4)根据BSR算法,在步骤(3)得到的对年龄影响显著的甲基化位点中选择DNA甲基化标志物,构建预测年龄的MLR模型,即得中国人群个体年龄;
步骤(4)中所述MLR模型通过DNA甲基化标志物、年龄构建或通过DNA甲基化标志物、年龄、性别构建;当所述MLR模型通过DNA甲基化标志物和年龄进行构建时,所述MLR模型为:
Y1=20.985+54.106×cg16867657+44.681×cg08097417+10.195×cg26079664+27.123×cg06639320-18.158×cg10501210-24.798×cg13552692-17.389×cg07850154-15.088×cg01949324-11.385×cg21531089+13.650×cg18537454。
2.根据权利要求1所述的方法,其特征在于:步骤(1)中所述样本的甲基化水平使用Illumina 850k DNA甲基化芯片测定。
3.根据权利要求1所述的方法,其特征在于:步骤(1)中所述预处理具体包括以下步骤:
S1:使用minfi包分批次对样本数据进行质量控制;
S2:使用minfi包的dropLociWithSnps函数去除含有SNP的探针;
S3:去除性染色体上的探针;
S4:通过CpG位点的beta值判断CpG位点的甲基化程度,通过CpG位点的P值判断CpG位点的甲基化质量,将P值大于0.01的beta值设置为NA,删去NA缺失率大于5%的探针,使用impute.knn函数对缺失beta值进行填充;
S5:校正;
其中,beta值使用甲基化信号与总信号比较,P值使用总信号与背景信号比较。
4.根据权利要求3所述的方法,其特征在于:所述校正包括:Ⅱ型探针校正、M值校正以及异质性校正,其中M值为beta值的对数。
5.根据权利要求4所述的方法,其特征在于:所述Ⅱ型探针校正使用BMIQ函数进行,所述M值校正使用ComBat函数进行。
6.根据权利要求1所述的方法,其特征在于:步骤(2)中所述多重线性回归模型具体为:以年龄为因变量,校正6个细胞组分、5个基因组主成分、5个甲基化组主成分、性别、种族、批次、样板和身体质量指数的影响,使用模型如公式(1)所示:
Age~6cells+5PCs+5mePCs+Sex+Population+Batch+Slide+BMI (1)
然后校正全甲基化组最显著的甲基化位点对年龄的影响,继续下一轮的表观基因组关联分析,使用模型如公式(2)所示:
Age~6cells+5PCs+5mePCs+Sex+Population+Batch+Slide +BMI +topCpG (2)
循环校正直至没有显著的甲基化位点出现;
上述公式中,Age为年龄,cells为细胞组分,PCs为基因组主成分,mePCs为甲基化组主成分,Sex为性别,Population为种族,Batch为批次,Slide为样板,BMI为身体质量指数的影响。
7.根据权利要求6所述的方法,其特征在于:所述显著具体指P值小于6.16×10-8
8.根据权利要求1所述的方法,其特征在于:当所述MLR模型通过DNA甲基化标志物、年龄和性别进行构建时,所述MLR模型为:
Y2=20.736+0.176×Sex+54.195×cg16867657+45.047×cg08097417+10.604×cg26079664+26.868×cg06639320-18.118×cg10501210-24.755×cg13552692-17.149×cg07850154-15.227×cg01949324-11.249×cg21531089+13.179×cg18537454;
其中,Sex为性别。
CN202110191027.3A 2021-02-19 2021-02-19 一种获得中国人群个体年龄的方法 Active CN113373236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110191027.3A CN113373236B (zh) 2021-02-19 2021-02-19 一种获得中国人群个体年龄的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110191027.3A CN113373236B (zh) 2021-02-19 2021-02-19 一种获得中国人群个体年龄的方法

Publications (2)

Publication Number Publication Date
CN113373236A CN113373236A (zh) 2021-09-10
CN113373236B true CN113373236B (zh) 2021-12-31

Family

ID=77570592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110191027.3A Active CN113373236B (zh) 2021-02-19 2021-02-19 一种获得中国人群个体年龄的方法

Country Status (1)

Country Link
CN (1) CN113373236B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114045333B (zh) * 2021-10-20 2022-10-11 山西医科大学 利用焦磷酸测序和随机森林回归分析进行年龄预测的方法
CN114164281A (zh) * 2021-11-09 2022-03-11 北京中科华生基因医学科技有限公司 一种试剂盒、复合体系及其在获得个体年龄中的应用
CN114464255A (zh) * 2022-01-28 2022-05-10 北京果壳生物科技有限公司 一种基于dna甲基化水平数据的甲基化年龄评估方法
CN115992259B (zh) * 2022-11-23 2023-10-10 四川大学 一种基于13个y染色体甲基化遗传标记的引物组及试剂盒

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2540843B1 (en) * 2008-11-05 2014-07-02 Genentech, Inc. Genetic polymorphisms in age-related macular degeneration
WO2015048665A2 (en) * 2013-09-27 2015-04-02 The Regents Of The University Of California Method to estimate the age of tissues and cell types based on epigenetic markers
CN104357561B (zh) * 2014-10-31 2016-08-17 公安部物证鉴定中心 一种获得中国人群女性个体年龄的方法和系统
CN109593862B (zh) * 2017-09-28 2022-04-15 公安部物证鉴定中心 一种获得中国人群男性个体年龄的方法和系统
US20210207214A1 (en) * 2018-06-15 2021-07-08 Conopco, Inc.., d/b/a UNILEVER Epigenetic method to estimate the extrinsic age of skin
CN110257494B (zh) * 2019-07-19 2020-08-11 华中科技大学 一种获得中国人群个体年龄的方法、系统及扩增检测体系
CN110295234B (zh) * 2019-07-23 2023-04-25 东华大学 一种获取年龄、预测肿瘤疾病发生的实时荧光pcr试剂盒
CN111139292A (zh) * 2019-12-03 2020-05-12 河南远止生物技术有限公司 一种基于焦磷酸测序建立的生物学年龄推断的方法

Also Published As

Publication number Publication date
CN113373236A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113373236B (zh) 一种获得中国人群个体年龄的方法
Yousefi et al. DNA methylation-based predictors of health: applications and statistical considerations
Zhu et al. Statistical methods for SNP heritability estimation and partition: A review
Tang et al. The spike-and-slab lasso generalized linear models for prediction and associated genes detection
Dobbin et al. How large a training set is needed to develop a classifier for microarray data?
Sha et al. Bayesian variable selection for the analysis of microarray data with censored outcomes
Puniyani et al. Multi-population GWA mapping via multi-task regularized regression
Zablocki et al. Covariate-modulated local false discovery rate for genome-wide association studies
Holbrook et al. Is cellular heterogeneity merely a confounder to be removed from epigenome-wide association studies?
Yi et al. Penalized multimarker vs. single-marker regression methods for genome-wide association studies of quantitative traits
Dunkler et al. Statistical analysis principles for Omics data
De Hertogh et al. A benchmark for statistical microarray data analysis that preserves actual biological and technical variance
Townsend et al. Genomics, telomere length, epigenetics, and metabolomics in the nurses’ health studies
Vellame et al. Uncertainty quantification of reference-based cellular deconvolution algorithms
So et al. Estimating the total number of susceptibility variants underlying complex diseases from genome-wide association studies
Kuo et al. Novel rank-based approaches for discovery and replication in genome-wide association studies
Maity et al. Cell-attribute aware community detection improves differential abundance testing from single-cell RNA-Seq data
Schildcrout et al. Outcome-dependent sampling from existing cohorts with longitudinal binary response data: study planning and analysis
Aburatani et al. Deduction of a gene regulatory relationship framework from gene expression data by the application of graphical Gaussian modeling
Mountain et al. Impact of human population history on distributions of individual-level genetic distance
ElBakry et al. Identification of differentially expressed genes for time-course microarray data based on modified RM ANOVA
Hu et al. Meta-analyzing multiple omics data with robust variable selection
Ball Experimental designs for robust detection of effects in genome-wide case–control studies
Berger et al. The “Window t test”: a simple and powerful approach to detect differentially expressed genes in microarray datasets
Yin et al. SMIXnorm: fast and accurate RNA-Seq data normalization for formalin-fixed paraffin-embedded samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant