CN108913760B - 一种对单核苷酸多态性与特定性状关联性评估和量化的方法 - Google Patents

一种对单核苷酸多态性与特定性状关联性评估和量化的方法 Download PDF

Info

Publication number
CN108913760B
CN108913760B CN201810832461.3A CN201810832461A CN108913760B CN 108913760 B CN108913760 B CN 108913760B CN 201810832461 A CN201810832461 A CN 201810832461A CN 108913760 B CN108913760 B CN 108913760B
Authority
CN
China
Prior art keywords
snps
score
traits
association
complex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810832461.3A
Other languages
English (en)
Other versions
CN108913760A (zh
Inventor
张翼
周志鹏
张玉红
程超
王启
魏亚勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN SHENGMINGZHIMEI TECHNOLOGY CO LTD
Original Assignee
WUHAN SHENGMINGZHIMEI TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN SHENGMINGZHIMEI TECHNOLOGY CO LTD filed Critical WUHAN SHENGMINGZHIMEI TECHNOLOGY CO LTD
Priority to CN201810832461.3A priority Critical patent/CN108913760B/zh
Publication of CN108913760A publication Critical patent/CN108913760A/zh
Application granted granted Critical
Publication of CN108913760B publication Critical patent/CN108913760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种对单核苷酸多态性与特定性状关联性评估和量化的方法。涉及基因检测技术领域,具体是根据illumina二代测序平台获取大量人群的全外显子组数据建立的SNPs数据库,并检索已发表文献中与特定性状关联的SNPs及其相关参数,然后对多个SNPs关联到单一特定性状的关联程度建立评分体系,进一步对所得分值进行均一化和等级评价,得到该性状在人群中的评价等级和分值;应用相同的逻辑和方法,可以对与多个性状关联的复杂性状也进行评分和等级评价。本发明科学统一的评估方法和量化体系,为基因检测技术在不局限于疾病检测的更多领域(如健康领域)的应用提供科学基础,合理开展相关应用。

Description

一种对单核苷酸多态性与特定性状关联性评估和量化的方法
技术领域
本发明涉及基因检测技术领域,具体是一种基于已发表文献报道的用高通量外显子测序技术获得的单核苷酸多态性(SNP)与特定性状关联性评估与量化的方法。
背景技术
随着高通量测序技术的飞速发展以及测序成本的大幅下降,基因检测越来越多的被应用在包括产前检测、疾病早诊以及精准医疗等领域当中,其基本流程是通过芯片技术、全外显子测序或者全基因组测序获取受检个体的全部或部分基因上的单核苷酸多态性(single nucleotide ploymorphism,SNPs)信息,并根据已有研究报道发现个体基因信息中的SNPs与相关性状表型的关联性,从而将个体检测结果和相关性状(如疾病等)联系起来。
然而目前基因检测技术的实际应用还面临着相当多的困难和挑战,如除疾病研究以外,还有众多的性状难以准确的进行人群组别划分(类似健康组和患者组);一些复杂的性状(包括但不局限于复杂疾病)与众多已知和未知的SNPs关联,每个SNP对于性状的影响程度各不相同;缺乏科学而有逻辑的评估体系将复杂性状相关联的每个SNP的影响量化出来等。这些局限性极大的限制了基因检测技术的实际应用以及应用范围和领域,并且由于缺乏清晰的科学和逻辑体系,目前的一些应用也受到很多的质疑和指责。
发明内容
为了克服现有技术中存在的问题与不足,本发明的目的是提供一种基于已发表文献报道的用高通量外显子测序技术获得的单核苷酸多态性(SNP)与特定性状关联性评估与量化的方法。可以对任意复杂性状进行分级评分和等级评价,从而给出受检者任意性状在受检人群中所处位置和等级。为基因检测技术在不局限于疾病检测的更多领域(如健康领域)的应用提供科学基础,以便合理开展相关应用。
为了实现上述目的本发明采用如下技术方案:
一种基于已发表文献报道的用高通量外显子测序技术获得的单核苷酸多态性(SNP)与特定性状关联性评估与量化的方法,包括如下步骤:
1)通过illumina二代测序平台获取大量人群的全外显子组数据,并进行标准化的数据处理和SNPs信息获取,从而建立中国人群SNPs的数据库;
2)确定表型性状的级别和相互关系,对需要评估和量化的复杂性状指标设定为一级性状Ai(i=1,2,…,j);在每个复杂性状中包含下级性状,设定为二级性状Bi(i=1,2,…,k);……最底层的性状直接与已有报道的SNPs对应关联,设定已有报道的SNPs指标为Ci(i=1,2,…,l),性状A,B,C之间为包含关系,但并非一一对应关系,即特定性状Ai可以包含n个性状B(n≤k),特定性状B可以包含n个性状C(n≤l);
3)对步骤2)中的相关性状进行已发表文献的全面调研,筛选出所有与之相关联的SNPs;对上述筛选得到的SNPs进行进一步的筛选,剔除不符合要求的SNPs,获取每个SNP与相关性状的关联性的指标参数,主要获取指标有:
(1)优势比(odd ratio,OR):在变异组和对照组中,效应等位基因或基因型频率的比值;
(2)分数差异(Score difference,SD):效应等位基因或基因型携带者和非携带者之间的表现测量分数(performance measure scores)的变化;
(3)P值(P-value):显著差异系数;
效应等位基因(effective allele):导致产生靶向性状的等位基因;
4)根据步骤3)中的SNP指标参数以及样本的基因型类别确定关联分值(Correlation score,CS),如下表所示,量值范围为从0~5,不设负值,
Figure BDA0001743818450000021
Figure BDA0001743818450000031
注:本表格以A>G(G为效应等位基因)为例进行说明;
5)对于与多个SNPs关联的复杂性状,如步骤2)中的二级性状Bi,采取按单个SNP的CS值加和的方式得到总分值(Total score,TS);在人群中,相同的复杂性状Bi,按以下步骤对TS进行均一化并且划分为四个评分等级:
(1)取囊括90%的人群的总分值,将其定义为高分值(hiscore,HS);取囊括60%的人群的总分值,将其定义为平均值(avgscore,VS);将平均值与高分值的比值百分数定义为个体平均值(normal_avgscore,NVS),即:
NVS=VS/HS*100%
(2)将每个个体的总分值进行均一化后定义为个体分值(normal_score,NS),其计算方式为个体总分值与高分值比值的百分数,即:
NS=TS/HS*100%
(3)通过NS的分值以及与NVS的关系判定受测个体在人群中的评分等级,最多划分为四个等级:A——显著关联,B——高度关联,C——一般关联,D——低度关联,以上等级评价会根据具体实施对象进行同等级替换(如实施例2,A——卓越,B——优秀,C——良好,D——一般)。
6)运用步骤5)中的均一化和评分原则对再上一级复杂性状进行关联和等级评判,直到最高一级复杂性状关联评估完成;如步骤2)中的Ai与多个Bi相关联,其均一化和评分原则与步骤5)一致;
7)通过可视化报告将相关数据和评判结果清晰合理的进行展示。
优选地,上述步骤3)按以下原则对筛选出的SNPs进行剔除:(1)剔除SNPs与相关性状的关联不够清晰或者不够可靠的,包括缺少可供评估的指标参数(优势比,分数差异和P值均无法获得)或者出现相反结论的SNPs;(2)剔除成单倍型(haplotype)与性状关联的SNPs,因为这会使得数据处理以及评估体系变得复杂且难以操作;(3)剔除不在目标全外显子检测区域的SNPs。
优选地,上述步骤5)中的个体总分值进行均一化后的个体分值NS通过与个体平均值NVS以及0和100的分值关系,按下列表格进行等级划分:
个体性状评分等级对照表
Figure BDA0001743818450000041
本发明的技术原理如下:
1、SNP和性状有关联;2、复杂性状与多个SNP同时关联;3、每个SNP由于参数的差异(P,OR,SD),与性状的关联度各有不同;4、将各个参数转换为统一的分值后,可以进行同一性状关联SNPs的分值加和;5、对加和的分值进行均一化以后,可以建立统一的等级评价体系。
本发明的技术效果如下:
根据illumina二代测序平台获取大量人群的全外显子组数据建立的SNPs数据库,并通过从已发表文献报道中检索与特定复杂性状关联的SNPs及其相关参数(显著性、优势比和分数差异),进一步筛选排除不符合数据库要求以及科学性不足的SNPs,然后对多个SNPs关联到单一特定性状的关联程度建立评分体系,进一步对所得分值进行均一化和等级评价,得到该性状在人群中的评价等级和分值;应用相同的逻辑和方法,可以对与多个性状关联的复杂性状也进行评分和等级评价(即构建了灵活的分级评价体系),可以对任意复杂性状进行分级评分和等级评价,从而给出受检者任意性状在受检人群中所处位置和等级。本发明提供一种科学统一的将高通量基因测序(包括多种高通量数据获取方式,如芯片、全外显子测序、全基因组测序等)SNP结果与受检人群特定性状关联的评估方法和量化体系,为基因检测技术在不局限于疾病检测的更多领域(如健康领域)的应用提供科学基础,合理开展相关应用。
附图说明
图1为本发明基于已有文献报道对高通量外显子测序技术检测单核苷酸多态性(SNP)与特定性状关联性的评估方法与量化体系的实施流程图。
图2为用户甲的数学逻辑天赋性状部分可视化报告展示。
图3为用户乙的数学逻辑天赋性状部分可视化报告展示。
具体实施方式
为了更好的理解本发明,下面结合附图和具体实施例对本发明作进一步说明。
【实施例1】SNPs与人的天赋相关复杂性状关联关系
通过illumina二代测序平台获取大量人群的全外显子组数据,并进行标准化的数据处理和SNPs信息获取,从而建立中国人群SNPs的数据库;
将天赋性状分为2个等级,其中一级性状Ai的指标数量j=12;二级性状Bi的指标数量k=53;相关SNPs筛查是经过大范围的、严格和全面的文献调研,筛选出65项不重复的与天赋性状相关的研究报道,并从中找到143个相关的SNPs;然后按以下原则对筛选出的SNPs进行剔除:(1)剔除SNPs与相关性状的关联不够清晰或者不够可靠的。包括缺少可供评估的指标参数(优势比,分数差异和P值均无法获得)或者出现相反结论的SNPs,此类SNPs数目为12个;(2)剔除成单倍型(haplotype)与性状关联的SNPs,因为这会使得数据处理以及评估体系变得复杂且难以操作,此类SNPs数目为4个;(3)剔除不在全外显子检测区域的SNPs,筛选得到的143个SNPs大部分在基因组上的定位都没有位于外显子区域(100个),但是大多数位于外显子附近区域,只有14个SNPs未被包含在检测的数据当中。因此最终筛选得到表1中的113个符合要求的SNPs。三者关系如下表1所示:
表1 SNPs与相关复杂性状关联关系表格
Figure BDA0001743818450000061
Figure BDA0001743818450000071
Figure BDA0001743818450000081
Figure BDA0001743818450000091
【实施例2】应用本发明复杂性状关联SNPs的量化评估体系,评价用户某些复杂性状在人群中的优秀等级
收集了530个中国人群的外周血样,包括256位男性和274位女性,134位未成年人(18岁以下)和364位成年人(还有32位年龄不详)。对所有采集样本均进行了全外显子测序,获取了全部位于外显子区域以及部分内含子和基因间区区域的SNPs信息,构建了完善的数据库可供后续分析。
以甲乙两位受检人群的数学逻辑天赋为例,表2为两位受检者的相关基础信息:
表2用户信息表
Figure BDA0001743818450000101
Figure BDA0001743818450000111
在表2中,我们运用本发明方法中的步骤(4)和步骤(5)中的计算方式和评价体系分别对每个SNP的基因型进行了评分以及均一化,获得了两位用户在一级性状数学逻辑天赋(A2)包含的所有二级性状(B9~B13)的评分和等级,并以可视化的形式进行输出,图2、3为可视化输出的部分代表。
本发明不局限于以上所述的具体实施方式,以上所述仅为本发明的标准实施案例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于已发表文献报道的用高通量外显子测序技术获得的单核苷酸多态性SNP与特定性状关联性评估与量化的方法,其特征在于,包括如下步骤:
1)通过illumina二代测序平台获取大量人群的全外显子组数据,并进行标准化的数据处理和SNPs信息获取,从而建立中国人群SNPs的数据库;
2)确定表型性状的级别和相互关系,对需要评估和量化的复杂性状指标设定为一级性状Ai,i=1,2,…,j;在每个复杂性状中包含下级性状,设定为二级性状Bi,i=1,2,…,k;……最底层的性状直接与已有报道的SNPs对应关联,设定已有报道的SNPs指标为Ci,i=1,2,…,l,性状A,B,C之间为包含关系,但并非一一对应关系,即特定性状Ai可以包含n个性状B,n≤k,特定性状B可以包含n个性状C,n≤l;
3)对步骤2)中的相关性状进行已发表文献的全面调研,筛选出所有与之相关联的SNPs;对上述筛选得到的SNPs进行进一步的筛选,剔除不符合要求的SNPs,获取每个SNP与相关性状的关联性的指标参数,主要获取指标有:
(1)优势比OR:在变异组和对照组中,效应等位基因或基因型频率的比值;
(2)分数差异SD:效应等位基因或基因型携带者和非携带者之间的表现测量分数的变化;
(3)P值:显著差异系数;
4)根据步骤3)中的SNP指标参数以及样本的基因型类别确定关联分值CS,如下表所示,量值范围为从0~5,不设负值,
Figure FDA0003405055870000011
Figure FDA0003405055870000021
注:本表格以A>G,G为效应等位基因,为例进行说明;
5)对于与多个SNPs关联的复杂性状,如步骤2)中的二级性状Bi,采取按单个SNP的CS值加和的方式得到总分值TS;在人群中,相同的复杂性状Bi,按以下步骤对TS进行均一化并且划分为四个评分等级:
(1)取囊括90%的人群的总分值,将其定义为高分值HS;取囊括60%的人群的总分值,将其定义为平均值VS;将平均值与高分值的比值百分数定义为个体平均值NVS,即:
NVS=VS/HS*100%
(2)将每个个体的总分值进行均一化后定义为个体分值NS,其计算方式为个体总分值与高分值比值的百分数,即:
NS=TS/HS*100%
(3)通过NS的分值以及与NVS的关系判定受测个体在人群中的评分等级,最多划分为四个等级:A——显著关联;B——高度关联;C——一般关联;D——低度关联,按下列表格进行等级划分:
个体性状评分等级对照表
Figure FDA0003405055870000031
以上等级评价会根据具体实施对象进行同等级替换;
6)运用步骤5)中的均一化和评分原则对再上一级复杂性状进行关联和等级评判,直到最高一级复杂性状关联评估完成;如步骤2)中的Ai与多个Bi相关联,其均一化和评分原则与步骤5)一致;
7)通过可视化报告将相关数据和评判结果清晰合理的进行展示。
2.根据权利要求1所述的基于已发表文献报道的用高通量外显子测序技术获得的单核苷酸多态性SNP与特定性状关联性评估与量化的方法,其特征在于,步骤3)按以下原则对筛选出的SNPs进行剔除:(1)剔除SNPs与相关性状的关联不够清晰或者不够可靠的,包括缺少可供评估的优势比、分数差异和P值或者出现相反结论的SNPs;(2)剔除成单倍型与性状关联的SNPs,因为这会使得数据处理以及评估体系变得复杂且难以操作;(3)剔除不在目标全外显子检测区域的SNPs。
CN201810832461.3A 2018-07-26 2018-07-26 一种对单核苷酸多态性与特定性状关联性评估和量化的方法 Active CN108913760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810832461.3A CN108913760B (zh) 2018-07-26 2018-07-26 一种对单核苷酸多态性与特定性状关联性评估和量化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810832461.3A CN108913760B (zh) 2018-07-26 2018-07-26 一种对单核苷酸多态性与特定性状关联性评估和量化的方法

Publications (2)

Publication Number Publication Date
CN108913760A CN108913760A (zh) 2018-11-30
CN108913760B true CN108913760B (zh) 2022-06-07

Family

ID=64416149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810832461.3A Active CN108913760B (zh) 2018-07-26 2018-07-26 一种对单核苷酸多态性与特定性状关联性评估和量化的方法

Country Status (1)

Country Link
CN (1) CN108913760B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106011273A (zh) * 2016-07-13 2016-10-12 甘肃省畜牧兽医研究所 一种检测早胜牛gh基因单核苷酸多态性的方法
CN106086179A (zh) * 2016-06-16 2016-11-09 北京东方亚美基因科技研究院有限公司 一种评估儿童禀赋能力的基因检测方法
CN107217091A (zh) * 2017-03-07 2017-09-29 青岛农业大学 一种奶山羊产羔性状相关基因单核苷酸多态性的检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100707196B1 (ko) * 2005-06-16 2007-04-13 삼성전자주식회사 특정 질병 또는 약물 감수성 관련 다중 단일염기다형의스크리닝 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106086179A (zh) * 2016-06-16 2016-11-09 北京东方亚美基因科技研究院有限公司 一种评估儿童禀赋能力的基因检测方法
CN106011273A (zh) * 2016-07-13 2016-10-12 甘肃省畜牧兽医研究所 一种检测早胜牛gh基因单核苷酸多态性的方法
CN107217091A (zh) * 2017-03-07 2017-09-29 青岛农业大学 一种奶山羊产羔性状相关基因单核苷酸多态性的检测方法

Also Published As

Publication number Publication date
CN108913760A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
Chiang et al. Genomic history of the Sardinian population
CN107679052B (zh) 大数据分析方法以及利用了该分析方法的质谱分析系统
Kumar et al. Admixture analysis of South Asian cattle
Deppe et al. Candidate genes and voter turnout: Further evidence on the role of 5-HTTLPR
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
CN105825076B (zh) 消除常染色体内和染色体间gc偏好的方法及检测系统
CN112766428B (zh) 肿瘤分子分型方法及装置、终端设备及可读存储介质
CN108345768B (zh) 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
Mendoza-Revilla et al. Disentangling signatures of selection before and after European colonization in Latin Americans
CN105069322A (zh) 疾病易感风险预测方法及装置
CN110364226A (zh) 一种用于辅助生殖供精策略的遗传风险预警方法和系统
CN107247890A (zh) 一种用于临床诊断和预测的基因数据系统
EP4042426A1 (en) Using machine learning-based trait predictions for genetic association discovery
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
CN116287204A (zh) 检测特征基因的突变情况在制备静脉血栓栓塞症风险检测产品中的应用
Wang et al. Evolution of Human Brain Left–Right Asymmetry: Old Genes with New Functions
CN110246543A (zh) 基于二代测序技术利用单样本检测拷贝数变异的方法和计算机系统
Guo et al. Strong positive selection biases identity-by-descent-based inferences of recent demography and population structure in Plasmodium falciparum
CN107169264A (zh) 一种复杂疾病诊断方法及系统
CN108913760B (zh) 一种对单核苷酸多态性与特定性状关联性评估和量化的方法
Sun et al. Multi-view biclustering for genotype-phenotype association studies of complex diseases
Mandiwana-Neudani et al. The importance of adopting an integrative taxonomy framework in species delimitation: Response to Hunter et al.(2021)
CN105052729A (zh) 一种基于受选择位点指数评估动植物品种育种潜力的方法及其应用
Spanoghe et al. Genetic patterns recognition in crop species using self-organizing map: The example of the highly heterozygous autotetraploid potato (Solanum tuberosum L.)
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant