CN112553327A - 一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、snp位点组合及应用 - Google Patents

一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、snp位点组合及应用 Download PDF

Info

Publication number
CN112553327A
CN112553327A CN202011612965.8A CN202011612965A CN112553327A CN 112553327 A CN112553327 A CN 112553327A CN 202011612965 A CN202011612965 A CN 202011612965A CN 112553327 A CN112553327 A CN 112553327A
Authority
CN
China
Prior art keywords
snp
data
analysis
sites
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011612965.8A
Other languages
English (en)
Other versions
CN112553327B (zh
Inventor
翟振国
张竹
翁昊艺
王理中
庞文翼
唐森威
张萌
陈钢
王辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zaozhidao Technology Co ltd
China Japan Friendship Hospital
Original Assignee
Shenzhen Zaozhidao Technology Co ltd
China Japan Friendship Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zaozhidao Technology Co ltd, China Japan Friendship Hospital filed Critical Shenzhen Zaozhidao Technology Co ltd
Priority to CN202011612965.8A priority Critical patent/CN112553327B/zh
Publication of CN112553327A publication Critical patent/CN112553327A/zh
Application granted granted Critical
Publication of CN112553327B publication Critical patent/CN112553327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、SNP位点组合及应用,预测模型的构建方法包括如下具体步骤:S1、样本收集及基因检测;S2、数据质量控制及全基因组关联分析(GWAS);S3、结合外部人群的基因组数据进行荟萃分析(meta analysis);S4、筛选具有预测价值的SNP位点组合;S5、搭建回归模型,进行训练与测试;上述预测模型获得48个SNP位点组合,包括至少一种的SNP位点组合可以作为肺血栓栓塞症风险评估方面的应用或筛查产品中的应用,能够实现亚洲人群,特别是中国人群的肺血栓栓塞症风险预测,并且检测方法简便易行,方便临床使用。

Description

一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构 建方法、SNP位点组合及应用
技术领域
本发明涉及一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、SNP位点组合及应用,具体涉及肺血栓栓塞症相关的单核苷酸多态性位点及其在风险预测中的用途,属于疾病检测技术领域。
背景技术
肺血栓栓塞症(pulmonary thromboembolism,PTE)是一种由于产生静脉血栓,堵塞肺动脉或其分支,引起肺循环障碍的疾病,具有潜在的致死风险。PTE在住院病人中常见,且发病率及死亡率较高。导致PTE发生的危险因素主要包括感染、骨折/创伤、吸烟、恶性肿瘤、肥胖、妊娠等。PTE起病隐匿,大多数的PTE患者的临床表现(如胸闷、憋气、咳嗽、气促、下肢水肿等)缺乏特异性,常常由于原发病的缘故而忽略掉这些非特异性的表现,故在一些慢性病程者容易造成漏诊误诊,进而造成严重后果。临床研究显示,合理预防措施可使DVT相对风险降低50%-60%,PTE相对风险降低近2/3。有效的风险预测对预防PTE的发生、降低患者死亡率至关重要,改善风险评估和预测工具是减少PTE疾病发生的重要措施。因此,急需一种可靠、便捷的方法进行风险预测,以筛选可能发生PTE的高危患者,从而进行必要的预防干预措施,比如抗凝,以便最大程度降低PTE的发生率和死亡率。
目前,临床上PTE的预测暂缺乏较好的血清学标志物,尽管已有研究证实:D二聚体、C反应蛋白、组织因子、凝血因子VIII及血小板、白细胞、血小板等可以在一定程度上反映患者的高凝状态,提示患者PTE的发生,但其预测价值有限,实际临床工作中应用并不多。并且,我国对这类疾病认识及研究起步晚,在PTE风险评估模型方面上也大多是借用引进国外研制的,如Caprini血栓评估模型、Padua预测评分模型、Autar血栓评估模型和Kucher量表。但是由于存在人种、体质、文化及生活习惯等方面的差异,在使用上也有一定的局限性,如凝血因子V Leiden突变、凝血酶原G20210A突变在高加索人种中的发生率较高,但几乎不存在于中国人群中。而亚洲人群中蛋白C、蛋白S的缺失或抗凝血酶的缺乏发生率高于高加索人种,但并未在Caprini量表中有所体现。并且上述量表大多条目复杂,如Caprini包含有将近40项评估条目,实施过程耗时耗力,不便于临床工作者使用。
另外,肺血栓栓塞症的发生是遗传易感性和获得性危险因素相互作用的结果。家族性研究发现PTE的遗传度大约为50%-60%。也就是说,个体在遭受VET相关危险因素后,后续临床发展将很大程度上取决于个体的遗传易感性。单核苷酸多态性(SingleNucleotide Polymorphisms,SNP)是指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入而形成的遗传标记,其数量很多,多态性丰富,与很多人体表型、对药物或疾病的易感性等相关。因此,SNP是导致个体疾病发生发展差异的重要遗传基础。并且,一些基因多态性位点在不同种族中的分布不同,而之前的大部分相关研究是在高加索人群中完成的,因为两个种族的基因频率并不完全相同,其研究结果可能不适用于汉族患者。
综上,一个理想的PTE风险评估模型是经得起其他的临床实验进行验证的,可以准确识别出PTE的高危人群,从而提高血栓预防率和降低PTE的发生率。但它不会包含太多的条目,以便可广泛应用于在日常的临床实践中。目前亟需开发一种适于亚种人群,特别是中国人群的SNP位点及位点组合模式用于VET的早期风险筛查,且基于这些SNP位点,可以实现对个体PTE患病风险的预测。
发明内容
针对上述现存的技术问题,本发明提供一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、SNP位点组合及应用,开发有效科学、国人适用的PTE风险评估模型,将更加有效地降低PTE发生率和病死率,减少后遗症,提高PTE患者的生活质量,从而全面提升医疗质量与安全,减少卫生资源的消耗。
为实现上述目的,首先,本发明提供一种基于单核苷酸多态性的肺血栓栓塞症发生风险预测模型的构建方法,包括如下具体步骤:
S1、样本收集及基因检测:
(1-1)招募肺血栓栓塞症患者,以及作为对照的健康个体。
上述技术方案中,要求两组招募对象的年龄,性别和血统等结构信息相匹配,以排除混杂因素。并且招募对象均来自于中国汉族人群,使得分析得到的SNP位点可以准确的反应中国人群的PTE患病风险。
(1-2)收集招募对象的外周血液样本,使用高通量基因芯片技术进行基因检测,得到所有招募对象的基因组数据。
GWAS常用的高通量基因分型手段有基因芯片技术、全基因组重测序和全基因组外显子测序等。全基因组重测序对基因组遗传信息挖掘全面,但数据量大,成本较高。全基因组外显子测序极大降低了待测序列总量,但并未过多降低遗传信息。基因芯片可以实现对特定群体特定SNP位点的快速分型。较低的分型成本、时间成本、储存成本和分析成本是目前基因芯片技术的优势所在。上述技术方案中,基因检测使用的Illumina WeGene V2芯片是专门针对中国人群遗传背景设计,全面覆盖中国人群体中发现的常见变异,包含了策略性选择并优化的700,000多个标签SNP。
S2、数据质量控制及全基因组关联分析(GWAS):
(2-1)对步骤S1得到的基因组数据进行样本的质量控制,得到合格样本的基因组数据。
进一步,所述的样本质量控制包括:删除性别错误的个体,因为通过X染色体杂合率计算性别,性别错误的个体可能存在DNA污染的问题;
删除SNP缺失率过高的个体,阈值为0.05。因为SNP缺失率过高说明DNA质量及分型质量不好;
删除有亲缘关系的样本,亲缘关系可以用identity by state(IBS)来衡量,设置阈值为0.2。
(2-2)对步骤S1得到的合格样本的基因组数据进行位点的质量控制,得到合格的SNP位点。
进一步,所述的位点的质量控制:删除缺失率过高的SNP位点,剔除缺失率在20%以上的位点;
删除等位基因频率(MAF)较小的SNP位点,阈值为0.01;
删除偏离哈迪温伯格平衡的SNP位点(HWE)(P<1×10-5)。
(2-3)对步骤S2-2得到的合格的SNP位点进行基因型填充(imputation),首先采用Eagle软件构建单倍型,然后采用Minimac4软件进行填补,以1000Genomes计划Phase3的基因型数据作为参照,再针对填补后的位点进行质量控制。
进一步,所述的对填补后的位点进行质量控制包括:
删除填充质量(imputation quality)较小的位点,阈值为0.3;
删除等位基因频率(MAF)较小的SNP位点,阈值为0.01;
删除缺失率过高的SNP位点,剔除缺失率在20%以上的位点。
(2-4)基于合格样本的基因组数据,随机选取其中的80%作为GWAS分析和模型训练的数据,另外20%单纯作为测试数据,以将特征选择过程与模型测试过程相互独立。
上述技术方案将特征选择过程与测试过程相互独立,能够避免模型过拟合,提高泛化能力。
(2-5)基于选取的用于GWAS分析的基因组数据,采用逻辑回归模型,并对年龄,性别和群体结构分析中的前五个主成分进行协变量校正,通过GWAS分析来检测与PTE显著关联的位点,以P值来衡量关联标记的显著性。
进一步,所述的群体结构的主成分分析使用软件为GCTA v.1.91,关联分析采用PLINK1.9软件,P<5×10-8视为具有统计学意义。
上述技术方案中,GWAS研究的基本原理是:在一定人群中选出病例组与对照组,比较所有SNP位点的等位基因频率在两组之间的差异,如果某个位点的等位基因频率在对照组中明显高于或低于病例组,则该位点极有可能与疾病存在关联,然后即可根据其在基因组中的位置和连锁不平衡关系推测出可能的致病基因。
为了避免因群体分层现象而导致出现假阳性或假阴性结果,基于位于常染色体上的变异位点,运用GCTA v.1.91软件基于主成分分析估计人群分层情况,并将最显著的主成分特征向量作为协变量纳入模型。分析样本的群体结构可以有效的降低标记与目标性状的伪关联程度,提高关联分析的准确性。
S3、结合外部人群的基因组数据进行荟萃分析(meta analysis):
(3-1)从数据库中获取外部人群基因组数据的概括统计(summary statistic)数据,并对外部人群的基因组数据进行GWAS分析,方法如步骤S2中所述,得到显著相关的SNP位点。
(3-2)针对外部人群基因组数据和所有招募对象的基因组数据,采用混合效应模型方法进行荟萃分析,根据P值选取显著关联的SNP位点,以提高检验效能,有效检测相关联的SNP位点。
上述技术方案中,荟萃分析指将多个独立的研究数据集组合在一起最终提供一个总计结果的一种统计学分析方法,目的是通过增大样本含量来提高检验效能,增加结论的可信度,有效检测相关联的低频和罕见变异位点。
S4、筛选具有预测价值的SNP位点组合:
针对步骤S3-2荟萃分析得到的SNP位点,采用异质性检验(Cochran's Q test),剔除在外部人群和招募对象中异质性较高的SNP位点,得到具有预测价值的SNP位点组合。该SNP位点组合能够预测PTE,可以作为临床检测的panel。
S5、搭建回归模型,进行训练与测试:
(5-1)使用R语言bigstatsr包,建立惩罚线性回归模型,选择最佳超参数。
进一步,本发明最佳超参数的选择使用网格搜索结合交叉验证的方法,通过网格搜索使用每组超参数训练模型,挑选出验证集误差最小的超参数,作为最好的超参数。
上述技术方案中,超参数会影响算法运行的时间和存储成本,有些超参数会影响学习到的模型质量以及在新输入上推断正确结果的能力,因此超参数的选择至关重要。
(5-2)基于步骤S2中选取的训练数据,对模型进行训练,得到各特征相应的回归系数。
(5-3)基于步骤S2中选取的测试数据,对模型进行性能测试,绘制ROC曲线,计算曲线下面积。
其次,本发明又提供一种根据上述肺血栓栓塞症风险预测模型的构建方法得到的具有预测价值的SNP位点组合,包括如下表中的至少一种:
Figure BDA0002875383070000051
Figure BDA0002875383070000061
Figure BDA0002875383070000071
其中,RSID表示SNP位点编号;CHR代表所在染色质区;POS代表位点所在位置,基于hg19/GRCh37参考基因组;REF表示参考基因组的基因型;ALT代表风险等位基因。
上述技术方案中,基于中国人群的GWAS研究,筛选得到PTE相关的单核苷酸多态性位点组合,更适合亚洲人群,特别是在中国人群中进行肺血栓栓塞症的早期风险筛查。
再者,本发明再提供一种上述SNP位点组合作为肺血栓栓塞症风险评估方面的应用或筛查产品中的应用。
综上,本发明提供了肺血栓栓塞症相关联的单核苷酸多态性位点及基于SNP位点开发的肺血栓栓塞症风险预测模型,具体而言是以筛选的SNP位点为基础,采用惩罚回归模型,实现对个体发生肺血栓栓塞症的风险预测。本发明方法构建的肺血栓栓塞症风险预测模型,能够预测PTE患病风险,相比于血清标志物或其它评估模型具有更高的准确率,SNP位点组合更适合亚洲人群,特别是在中国人群中进行肺血栓栓塞症的早期风险筛查,可以辅助医务人员识别出临床上存在的高危患者,进行必要的预防与干预措施,降低肺血栓栓塞症的发生率和死亡率,提升医疗质量。
相比现有技术,本发明具有如下技术优势:
1、样本数据方面:一些基因多态性位点在不同种族中的分布不同,之前的研究均是在高加索人群中完成的,因为两个种族的基因频率不完全相同,因此其分析得到的SNP位点并不等同于是中国人群的风险位点,这些位点可能与中国人群患PTE并无相关性。然而,本发明研究收集到的病例均来自于中国汉族人群,分析得到的SNP位点准确的反应了中国人群的患病风险,并基于中国人群进行训练与测试,使得模型更加适合中国人群使用,测试结果更加贴近真实情况。
2、基因芯片方面:本发明使用的Illumina WeGene V2芯片,是专门针对中国人群遗传背景设计,使用超过十万中国人群数据作为芯片设计的参考数据,全面覆盖中国人群体中发现的常见变异,包含了策略性选择并优化的700,000多个标签SNP。芯片骨架采用全新骨架设计优化算法,显著提升中国人群Imputation效果。临床相关变异采用来自最新数据库的变异位点(包括ClinVar,ACMG 59,CPIC,PharmGKB和NHGRI-EBI GWAS catalog),适用于临床疾病风险的预测。
3、GWAS分析方面:本发明结合了外部人群的基因组数据进行荟萃分析,包含4620例PTE病例和356,574例健康对照。将外部数据与发明人收集的中国人群数据分别独立GWAS分析之后,再采用混合效应模型方法进行荟萃分析,目的是通过增大样本含量来提高检验效能,增加结论的可信度,可以有效检测相关联的低频和罕见变异位点。
4、模型构建方面:在构建线性回归模型时,本发明采用网格搜索的方法来寻找最佳惩罚项,以提高模型性能。另外,本发明基于训练集进行特征选择,测试集仅用于测试,将特征选择过程与测试过程相互独立,可以避免模型过拟合问题,使测试结果更加符合实际使用情况。
附图说明
图1为本发明肺血栓栓塞症风险预测模型的构建方法的步骤流程图;
图2为本发明实施例中测试模型得到的ROC曲线。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,而不是对本发明的限制。
实施例1:本发明肺血栓栓塞症风险预测模型的构建方法,如图1所示,包括如下具体步骤:
S1、样本收集及基因检测:
(1-1)从中国肺栓塞登记研究(China Pulmonary Thromboembolism RegistryStudy,CURES)中招募到1237例肺栓塞病例(cases),并获得所有研究参与者的知情同意和中日友好医院伦理委员会的批准。参照病例组的年龄,性别和血统等结构信息,从微基因公司数据库中随机选择3873例健康个体作为对照(controls)。具体实施时,要求两组招募对象的年龄,性别和血统等结构信息相匹配,且均来自于中国汉族人群。
(1-2)采集招募者的外周血液样本,提取DNA,将质检合格的DNA样本使用illumina高通量基因芯片技术进行基因分型检测,获得cases和controls的基因组数据。具体实施时,基因检测使用Illumina WeGene V2芯片,但本发明不受限于使用其它基因检测方法进行检测。
S2、数据质量控制及全基因组关联分析(GWAS):
(2-1)样本的质量控制:针对cases和controls的基因组数据,删除性别错误的个体;删除SNP缺失率过高的个体,设置阈值为0.05;删除有亲缘关系的样本,亲缘关系可以用identity by state(IBS)来衡量,设置阈值为0.2。
经过样本的质量控制后,得到1181例PTE病例和3749例健康对照的合格样本的基因组数据。
(2-2)位点的质量控制:针对步骤S2-1得到的合格样本的基因组数据,删除缺失率过高的SNP位点,剔除缺失率在20%以上的位点;删除等位基因频率(MAF)较小的SNP位点,设置阈值为0.01;删除偏离哈迪温伯格平衡的SNP位点(HWE)(P<1×10-5)。
(2-3)基因型填充:经过步骤S2-2对SNP位点初步的质量控制后,接着进行基因型填充(imputation)。首先采用Eagle软件构建单倍型,然后采用Minimac4软件进行填补,以1000Genomes计划Phase3的基因型数据作为参照,再针对填补后的SNP位点进行进一步的质量控制:删除填充质量(imputation quality)较小的位点,阈值为0.3;删除等位基因频率(MAF)较小的SNP位点,阈值为0.01;删除缺失率过高的SNP位点,剔除缺失率在20%以上的位点。
经过位点的质量控制后,共得到大约七百万个变异位点,可以用于后续的GWAS分析。
(2-4)数据选取;针对合格样本的基因组数据,随机选取其中的80%作为GWAS分析和模型训练的数据,另外20%单纯作为测试数据,从而将特征选择过程与模型测试过程相互独立。如此共有3945个合格样本的基因组数据可以作为训练集,以进行GWAS分析。
(2-5)GWAS分析:为了避免因群体分层现象而导致出现假阳性或假阴性结果,基于位于常染色体上的变异位点,GWAS采用逻辑回归模型,并对年龄,性别和群体结构分析中的前五个主成分进行协变量校正,通过全基因组关联分析来检测与PTE显著关联的位点,以P值来衡量关联标记的显著性。具体实施时,群体结构的主成分分析使用软件为GCTAv.1.91,关联分析采用PLINK 1.9软件,p<5×10-8视为具有统计学意义。
S3、结合外部人群的基因组数据进行荟萃分析(meta analysis):
(3-1)从英国生物样本库(UK biobank)等数据库中获取外部人群基因组数据的概括统计(summary statistic)数据,包含4620例PTE病例和356,574例健康对照。对外部人群的基因组数据进行GWAS分析,方法如步骤S2中所述,获得显著关联的SNP位点。
(3-2)将外部人群基因组数据与步骤S1收集的中国人群的基因组数据分别独立进行GWAS分析之后,再采用混合效应模型方法进行荟萃分析,并根据P值选取显著关联的SNP位点。目的是通过增大样本含量来提高检验效能,有效检测相关联的变异位点。
S4、筛选具有预测价值的SNP位点组合:
(4-1)针对步骤S3-2荟萃分析选取的具有显著性的SNP位点,使用异质性检验(Cochran's Q test),剔除在外部人群和招募对象中异质性较高的位点。
(4-2)经过异质性检验后,得到48个显著关联的SNP位点组合,该SNP位点组合具有PTE预测价值,可以作为临床检测的panel。
具体的,上述48个VET易感SNP位点组合的信息如下表1:
表1
Figure BDA0002875383070000101
Figure BDA0002875383070000111
Figure BDA0002875383070000121
注:RSID表示SNP位点编号;CHR代表所在染色质区;POS代表位点所在位置(基于hg19/GRCh37参考基因组);REF表示参考基因组的基因型;ALT代表风险等位基因;PRS beta表示该SNP位点在本实施例肺血栓栓塞症风险预测模型中的回归系数。
并且,包括上表中至少一种的SNP位点组合,均可以作为肺血栓栓塞症风险评估方面的应用或筛查产品中的应用。
S5、搭建回归模型,进行训练与测试:
(5-1)使用R语言bigstatsr包,建立惩罚线性回归模型,使用网格搜索结合交叉验证的方法,通过网格搜索使用每组超参数训练模型,挑选出验证集误差最小的超参数,作为最好的超参数。
(5-2)基于步骤S2中随机选取的训练数据,对模型进行训练,得到各特征相应的回归系数。
(5-3)基于步骤S2中随机选取的测试数据,对模型进行性能测试,绘制ROC曲线,得到曲线下面积AUC=0.666,如图2所示。
由上可知,本发明提供建模方法可以搭建肺血栓栓塞症风险预测模型,获得SNP位点组合,从而预测PTE患病风险,预判是否会产生肺血栓栓塞症,进而个性化有针对性的用药,实现精准医疗。
实施例2:关于本发明肺血栓栓塞症风险预测模型的构建方法和SNP位点组合的应用,例如要对某位临床患者进行PTE风险预测,将按照如下步骤进行实施:
(a)采集该患者的外周静脉血液,对血液进行抗凝操作。
(b)从采集的外周血中提取基因组DNA,并进行质检和浓度测定。
(c)质检合格后,进行遗传易感位点检测,检测方法可以使用基因芯片或二代测序,检测内容为表1所示的48个VET易感SNP位点组合,此步骤可以实现对易感位点进行基因分型。
(d)根据实施例1构建的回归模型,各项特征的回归系数,利用基因分型结果,计算风险分数,根据风险分数可以得知该患者的PTE易感风险,继而根据患病风险及时采取相应的预防措施。
由上可知,相比较于其他单分子标记物,本方法获得的肺血栓栓塞症风险预测模型具有更高的准确率和精度,相比于其它预测模型更适合亚洲人群,特别是中国人群,并且检测评估方法更简洁高效,更便于临床实践,从而降低肺血栓栓塞症的发生率和死亡率,提升医疗质量。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法,其特征在于,包括如下具体步骤:
S1、样本收集及基因检测:
(1-1)招募肺血栓栓塞症(PTE)患者,以及作为对照的健康个体;
(1-2)收集招募对象的外周血液样本,使用高通量基因芯片技术进行基因检测,得到所有招募对象的基因组数据;
S2、数据质量控制及全基因组关联分析(GWAS):
(2-1)对步骤S1得到的基因组数据进行样本的质量控制,得到合格样本的基因组数据;
(2-2)对步骤S2-1得到的合格样本的基因组数据进行位点的质量控制,得到合格的SNP位点;
(2-3)对步骤S2-2得到的合格的SNP位点进行基因型填充(imputation),首先采用Eagle软件构建单倍型,然后采用Minimac4软件进行填补,以1000Genomes计划Phase3的基因型数据作为参照,再针对填补后的位点进行质量控制;
(2-4)基于合格样本的基因组数据,随机选取其中的80%作为GWAS分析和模型训练的数据,另外20%单纯作为测试数据,以将特征选择过程与模型测试过程相互独立;
(2-5)基于选取的用于GWAS分析的基因组数据,采用逻辑回归模型,并对年龄,性别和群体结构分析中的前五个主成分进行协变量校正,通过GWAS分析来检测与PTE显著关联的位点,以P值来衡量关联标记的显著性。
S3、结合外部人群的基因组数据进行荟萃分析:
(3-1)从数据库中获取外部人群基因组数据的概括统计数据,并进行GWAS分析,方法如步骤S2中所述,得到显著关联的SNP位点;
(3-2)针对外部人群基因组数据和所有招募对象的基因组数据,采用混合效应模型方法进行荟萃分析,根据P值选取显著关联的SNP位点,以提高检验效能,有效检测相关联的SNP位点;
S4、筛选具有预测价值的SNP位点组合:
针对步骤S3-2荟萃分析得到的SNP位点,采用异质性检验(Cochran's Q test),剔除在外部人群和招募对象中异质性较高的SNP位点,得到具有预测价值的SNP位点组合;
S5、搭建回归模型,进行训练与测试:
(5-1)使用R语言bigstatsr包,建立惩罚线性回归模型,选择最佳超参数;
(5-2)基于步骤S2中选取的训练数据,对模型进行训练,得到各特征相应的回归系数;
(5-3)基于步骤S2中选取的测试数据,对模型进行性能测试,绘制ROC曲线,计算曲线下面积。
2.根据权利要求1所述的一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法,其特征在于,步骤S1中,招募对象均来自于中国汉族人群。
3.根据权利要求1所述的一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法,其特征在于,步骤S1中,基因检测使用的Illumina WeGene V2芯片。
4.根据权利要求1所述的一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法,其特征在于,步骤S2-1中,样本的质量控制包括:删除性别错误的个体;删除SNP缺失率过高的个体,设置阈值为0.05;删除有亲缘关系的样本,亲缘关系用identity bystate(IBS)来衡量,设置阈值为0.2。
5.根据权利要求1所述的一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法,其特征在于,步骤S2-2中,位点的质量控制包括:删除缺失率过高的SNP位点,剔除缺失率在20%以上的位点;删除等位基因频率(MAF)较小的SNP位点,设置阈值为0.01;删除偏离哈迪温伯格平衡的SNP位点(HWE)(P<1×10-5)。
6.根据权利要求1所述的一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法,其特征在于,步骤S2-3中,对填补后的位点进行质量控制包括:删除填充质量(imputation quality)较小的位点,阈值为0.3;删除等位基因频率(MAF)较小的SNP位点,阈值为0.01;删除缺失率过高的SNP位点,剔除缺失率在20%以上的位点。
7.根据权利要求1所述的一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法,其特征在于,步骤S2中,群体结构的主成分分析使用软件为GCTA v.1.91,关联分析采用PLINK 1.9软件,P<5×10-8视为具有统计学意义。
8.根据权利要求1所述的一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法,其特征在于,步骤S5中,最佳超参数的选择使用网格搜索结合交叉验证的方法,通过网格搜索使用每组超参数训练模型,挑选出验证集误差最小的超参数作为最佳超参数。
9.一种根据权利要求1-8任一项所述的肺血栓栓塞症风险预测模型的构建方法得到的具有预测价值的SNP位点组合,其特征在于,包括如下表中的至少一种:
Figure FDA0002875383060000031
Figure FDA0002875383060000041
其中,RSID表示SNP位点编号;CHR代表所在染色质区;POS代表位点所在位置,基于hg19/GRCh37参考基因组;REF表示参考基因组的基因型;ALT代表风险等位基因。
10.一种根据权利要求9所述的SNP位点组合作为肺血栓栓塞症风险评估方面的应用或筛查产品中的应用。
CN202011612965.8A 2020-12-30 2020-12-30 一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、snp位点组合及应用 Active CN112553327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011612965.8A CN112553327B (zh) 2020-12-30 2020-12-30 一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、snp位点组合及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011612965.8A CN112553327B (zh) 2020-12-30 2020-12-30 一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、snp位点组合及应用

Publications (2)

Publication Number Publication Date
CN112553327A true CN112553327A (zh) 2021-03-26
CN112553327B CN112553327B (zh) 2022-09-02

Family

ID=75034704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011612965.8A Active CN112553327B (zh) 2020-12-30 2020-12-30 一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、snp位点组合及应用

Country Status (1)

Country Link
CN (1) CN112553327B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066586A (zh) * 2021-04-01 2021-07-02 北京果壳生物科技有限公司 一种基于多基因风险打分构建疾病分类模型的方法
CN113393896A (zh) * 2021-06-11 2021-09-14 成都果壳医学科技有限公司 一种基于深度神经网络的i型糖尿病风险评估系统
CN113724878A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于机器学习的医疗风险信息推送方法及装置
CN114317724A (zh) * 2022-02-09 2022-04-12 湖南时代基因医学检验技术有限公司 一组用于中国汉族人群静脉血栓栓塞症遗传风险预测的生物标志物、试剂盒及其应用
CN114883007A (zh) * 2022-07-12 2022-08-09 南昌大学第一附属医院 基于大数据的数据模型构建方法、系统、介质及计算机
CN115029432A (zh) * 2022-06-21 2022-09-09 中国医学科学院阜外医院 Chip的遗传变异在预测肺栓塞患者复发风险中的应用
TWI807861B (zh) * 2022-06-15 2023-07-01 中國醫藥大學 鑑定台灣人族群親緣性的方法及其系統
CN117649948A (zh) * 2024-01-29 2024-03-05 深圳市早知道科技有限公司 一种基于基因检测的微生物感染风险预测方法及系统
CN117778565A (zh) * 2024-02-27 2024-03-29 中日友好医院(中日友好临床医学研究所) Vte风险评估的检测试剂盒及应用
CN117789819A (zh) * 2024-02-27 2024-03-29 北京携云启源科技有限公司 Vte风险评估模型的构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866732A (zh) * 2014-02-21 2015-08-26 北京协力润华科技有限责任公司 基于单核苷酸多态性和逻辑回归模型计算肺癌发病率的方法及其应用
US20150356243A1 (en) * 2013-01-11 2015-12-10 Oslo Universitetssykehus Hf Systems and methods for identifying polymorphisms
CN108103184A (zh) * 2018-02-23 2018-06-01 古洁若 一种用于检测强直性脊柱炎易感风险位点的试剂盒
US20180245155A1 (en) * 2015-09-03 2018-08-30 Stephen T. McGarvey Compositions and Methods for Identifying Genetic Predisposition to Obesity and for Enhancing Adipogenesis
CN111593108A (zh) * 2020-03-12 2020-08-28 中国人民解放军总医院第五医学中心 与噪声性听力下降发生相关的7q36.3区域的多态性的检测方法、试剂盒及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356243A1 (en) * 2013-01-11 2015-12-10 Oslo Universitetssykehus Hf Systems and methods for identifying polymorphisms
CN104866732A (zh) * 2014-02-21 2015-08-26 北京协力润华科技有限责任公司 基于单核苷酸多态性和逻辑回归模型计算肺癌发病率的方法及其应用
US20180245155A1 (en) * 2015-09-03 2018-08-30 Stephen T. McGarvey Compositions and Methods for Identifying Genetic Predisposition to Obesity and for Enhancing Adipogenesis
CN108103184A (zh) * 2018-02-23 2018-06-01 古洁若 一种用于检测强直性脊柱炎易感风险位点的试剂盒
CN111593108A (zh) * 2020-03-12 2020-08-28 中国人民解放军总医院第五医学中心 与噪声性听力下降发生相关的7q36.3区域的多态性的检测方法、试剂盒及其应用

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066586A (zh) * 2021-04-01 2021-07-02 北京果壳生物科技有限公司 一种基于多基因风险打分构建疾病分类模型的方法
CN113393896A (zh) * 2021-06-11 2021-09-14 成都果壳医学科技有限公司 一种基于深度神经网络的i型糖尿病风险评估系统
CN113724878A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于机器学习的医疗风险信息推送方法及装置
CN113724878B (zh) * 2021-08-31 2024-05-10 平安科技(深圳)有限公司 基于机器学习的医疗风险信息推送方法及装置
CN114317724A (zh) * 2022-02-09 2022-04-12 湖南时代基因医学检验技术有限公司 一组用于中国汉族人群静脉血栓栓塞症遗传风险预测的生物标志物、试剂盒及其应用
TWI807861B (zh) * 2022-06-15 2023-07-01 中國醫藥大學 鑑定台灣人族群親緣性的方法及其系統
CN115029432A (zh) * 2022-06-21 2022-09-09 中国医学科学院阜外医院 Chip的遗传变异在预测肺栓塞患者复发风险中的应用
CN114883007A (zh) * 2022-07-12 2022-08-09 南昌大学第一附属医院 基于大数据的数据模型构建方法、系统、介质及计算机
CN117649948A (zh) * 2024-01-29 2024-03-05 深圳市早知道科技有限公司 一种基于基因检测的微生物感染风险预测方法及系统
CN117649948B (zh) * 2024-01-29 2024-05-10 深圳市早知道科技有限公司 一种基于基因检测的微生物感染风险预测方法及系统
CN117778565A (zh) * 2024-02-27 2024-03-29 中日友好医院(中日友好临床医学研究所) Vte风险评估的检测试剂盒及应用
CN117789819A (zh) * 2024-02-27 2024-03-29 北京携云启源科技有限公司 Vte风险评估模型的构建方法
CN117778565B (zh) * 2024-02-27 2024-05-28 中日友好医院(中日友好临床医学研究所) Vte风险评估的检测试剂盒及应用
CN117789819B (zh) * 2024-02-27 2024-06-11 北京携云启源科技有限公司 Vte风险评估模型的构建方法

Also Published As

Publication number Publication date
CN112553327B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN112553327B (zh) 一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、snp位点组合及应用
KR101991007B1 (ko) Snp를 이용한 질병 관련 유전체 분석 시스템 및 장치
Porreco et al. Noninvasive prenatal screening for fetal trisomies 21, 18, 13 and the common sex chromosome aneuploidies from maternal blood using massively parallel genomic sequencing of DNA
Reeders et al. A study of genetic linkage heterogeneity in adult polycystic kidney disease
WO2018149264A1 (zh) 荧光定量pcr检测试剂盒及检测方法
KR20150110477A (ko) 공격적인 전립선 암의 존재 또는 부존재를 나타내는 방법
CN101845501A (zh) 一种复杂疾病易感性综合遗传分析方法
CN114317724B (zh) 一组用于中国汉族人群静脉血栓栓塞症遗传风险预测的生物标志物、试剂盒及其应用
CN116287204A (zh) 检测特征基因的突变情况在制备静脉血栓栓塞症风险检测产品中的应用
CN106029899A (zh) 确定染色体预定区域中snp信息的方法、系统和计算机可读介质
CN114891876A (zh) 一种诊断高度近视的功能基因组区生物标志物组合
CN113963801A (zh) 泌尿系统结石术后复发风险预测模型、评估系统及方法
CN114220487A (zh) 一种新型9基因risk急性髓系白血病预后模型的构建方法
WO2017204482A2 (ko) Snp를 이용한 질병 관련 유전체 분석 시스템 및 장치
CN108034712A (zh) 川崎病冠状动脉病变风险诊断与检测试剂盒
CN109182490B (zh) Lrsam1基因snp突变位点分型引物及其在冠心病预测中的应用
Liu et al. Association of IL-10-1082A/G polymorphism with ischemic stroke: evidence from a case-control study to an updated meta-analysis
CN110373458A (zh) 一种地中海贫血检测的试剂盒及分析系统
CN113782087B (zh) 一种慢性淋巴细胞白血病sscr风险模型及其建立方法和应用
CN115961020A (zh) 一种用于高原肺水肿发病风险预测的SNPs位点组合、模型及系统
Lee et al. Monocyte chemoattractant protein-1 promoter-2518 polymorphism and susceptibility to vasculitis, rheumatoid arthritis, and multiple sclerosis: A meta-analysis
CN115148364A (zh) 基于外周血ctDNA水平预测DLBCL初治患者预后的装置及计算机可读存储介质
CN106119406B (zh) 多发性肉芽肿血管炎及微小动脉炎的基因分型诊断试剂盒及使用方法
CN110459312A (zh) 类风湿性关节炎易感位点及其应用
CN113621696A (zh) 一种用于检测高原适应性的snp标志物及试剂盒

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant