CN110459312B

CN110459312B - 类风湿性关节炎易感位点及其应用

Info

Publication number: CN110459312B
Application number: CN201810427418.9A
Authority: CN
Inventors: 李小苇; 郭健萍; 张涛; 栗占国; 贾慧珏
Original assignee: Peking University Peoples Hospital; BGI Shenzhen Co Ltd
Current assignee: Peking University Peoples Hospital; BGI Shenzhen Co Ltd
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2024-01-12
Anticipated expiration: 2038-05-07
Also published as: CN110459312A

Abstract

本发明涉及医学诊断领域，具体涉及一种类风湿关节炎易感位点及其应用。本发明发现的类风湿性关节炎易感位点，包括选自下列的至少之一：位于6号染色体上32609965位置的C突变为A；和/或位于6号染色体上32551894位置的C突变为T。利用本发明发现的SNP位点，可以实现对于类风湿性关节炎的快速预测，而且在未表现出类风湿性关节炎的症状时，或者在刚出生时即可进行患病风险的预测，准确又高效。

Description

类风湿性关节炎易感位点及其应用

技术领域

本发明涉及医学诊断领域，具体涉及一种类风湿关节炎易感位点及其应用。

背景技术

类风湿性关节炎(Rheumatoid Arthritis，RA)是一种主要影响外周关节的慢性、系统性免疫疾病，患者主要表现为慢性，炎性的滑膜炎，且以手足小关节出现对称性，多关节性以及侵袭性的炎症为特征。倘若不及时进行治疗，患者很可能出现关节畸形，严重者甚至导致关节功能丧失，严重影响患者的日常生活。目前，临床上主要根据患者的主要表现，特征以及X线检查结果，类风湿因子等指标对类风湿性关节炎进行诊断。但是这些方式很容易发生误诊，导致不能及时诊断，易耽误最佳治疗时机。另外，进行抗瓜氨酸肽抗体检测虽然能提高诊断准确性，但是成本较高。而且这些方法都是当患者已经表现出了类风湿性关节炎的症状时，才能进行进一步的确诊。

对于RA的发生的检测还需要进行进一步改进。

发明内容

本发明的发明人在研究过程中发现：现有针对类风湿性关节炎的诊断存在诸多问题，表现在：目前对类风湿性关节炎的诊断，都是在患者出现了相应症状，采用传统的方法，即通过美国风湿学学会的标准或者利用血清学实验的方法进行诊断，随访时间长，成本较高，易耽误最佳治疗时间。类风湿因子虽然不需要随访，但是正常人尤其是高龄者可有5％呈阳性，故类风湿因子(RF)阳性，不一定就是类风湿性关节炎。因此检测指标需要四个或者四个以上，才能对病人进行较为准确诊断，比较复杂。虽然检测环瓜氨酸酶多肽的抗体的方法，准确性较高，但是成本高。而且都是在病人已经出现相应症状才可以进行的检测。本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

另外，目前已经有针对欧洲人群的基因型风险预测模型，利用他们构建的风险模型能够得到0.77的准确度，但是采用的位点数量太多，该模型所需表型数据也比较多，会增加信息采集的工作量。

为了解决如上问题，能够实现对类风湿性关节炎的快速诊断和预测，本发明提供了一种类风湿性关节炎易感位点，能够在检测对象未表现出类风湿性关节炎的症状时，或者在刚出生时即可进行患病风险检测。而且根据本发明提供的易感位点数量很少，且所需要的的表型数据容易获得，大大降低了成本，并且本发明所涉及的预测模型综合考虑了各个维度的信息(如表型：性别，年龄以及吸烟状况)，提高了预测结果的准确性。

根据本发明的一个方面，本发明提供了一种确定疾病相关显著性位点的方法，包括：

(1)基于多个所述疾病的阳性个体和多个所述疾病的阴性个体的基因组序列信息的至少一部分，构建第一突变位点集合，所述第一突变位点集合包含多个所述阳性个体的特异性突变位点；(2)基于最少等位基因频率、哈迪温伯格平衡点和缺失率，对所述第一突变位点集合进行过滤处理，以便获得第二突变位点集合；(3)针对所述第二突变位点集合中的每一个所述特异性突变位点，确定所述特异性突变位点的相关危险度和显著性；(4)选择所述显著性数值小于临界值的所述特异性突变位点作为所述疾病的相关显著性位点。

根据本发明的实施例，以上确定疾病相关显著性位点的方法可以进一步附加如下技术特征：

根据本发明的实施例，所述疾病是类风湿性关节炎，所述阳性个体为抗瓜氨酸肽抗体阳性个体。临床诊断中发现几乎所有的RA患者血清中均含有抗瓜氨酸肽抗体(Anti-Citrullinated Peptide Antibody，ACPA)，将其应用在临床诊断上，具有很高的特异性以及敏感性。因此，ACPA可以作为RA早期诊断、鉴别诊断以及预后评估的有效血清学标记。利用检测有抗瓜氨酸肽抗体阳性的个体作为本发明的阳性个体来指示类风湿关节炎患者，通过与正常个体(即阴性个体)的基因组序列信息进行比较，从而可以确定与类风湿性关节炎相关的突变位点。

根据本发明的实施例，所述基因组序列信息的至少一部分包括主要组织相容性复合体，优选包括人类白细胞抗原基因。主要组织相容性复合体(major histocompatibilitycomplex，MHC)是一组编码主要组织相容性抗原的具有高度多态性、紧密连锁的基因群，其可以控制移植排斥、免疫应答以及免疫调节等等。这些基因群的表达同疾病的产生关联很大，而且在不同的个体中具有高度的特异性，通过对主要组织相容性复合体的序列进行分析，可以实现疾病相关显著性位点的判断，从而可以进一步用来确定疾病的状态，而且对主要组织相容性复合体的基因组信息进行分析，可以实现快速准确鉴定疾病相关显著性位点。在人体中，主要是指的人类白细胞抗原基因，人类白细胞抗原基因(HLA)位于第6号染色体短臂6P21.3区，是已知的人类基因组中基因最丰富的一个区域，至少包括239个基因。HLA基因表达的人类白细胞抗原作为人体细胞表面的重要标志之一，在免疫应答及免疫调节中具有重要作用，其具有复杂的多态性，一些遗传性状与疾病密切关联，是人类群体遗传特征的最佳遗传标记，可以用于疾病易感性群体分布调查和疾病相关研究。通过目标区域基因捕获的方式，对于不同样本来源(包括多个患病的阳性个体以及多个不患病的阴性样本)的HLA基因进行捕获，然后对比分析，进行变异检测，并进行HLA分型，从而可以用来确定与疾病相关的显著性位点，应用这些相关的显著性位点，可以实现对于疾病的预测和评估，从而可以将其进一步应用到组织配型、器官移植、疾病相关性研究、人类学和法医学等领域。

根据本发明的实施例，在步骤(2)中，所述过滤处理包括从所述第一突变位点集合中去除一些特异性突变位点，仅保留满足下列条件的所述特异性突变位点：

(a)最小等位基因频率大于等于0.01；

(b)哈迪温伯格平衡值大于等于1*10^-6；

(c)缺失率小于等于0.1。

最小等位基因频率(minor allele frequency，MAF)通常是指在给定人群中的不常见的等位基因发生的频率，可以用来表征一个突变位点的最小突变频率。本发明选择最小等位基因频率在0.01以上的突变位点，可以尽量保证能够对所有可能的突变位点检测到。哈迪温伯格平衡定律是群体有性繁殖上下代之间基因频率与基因型频率是否保持平衡的检测尺度，反映的是在没有进化影响的情况下，当基因一代一代传递时，群体的基因频率和基因型频率将保持不变，当存在近亲婚配、遗传漂变或者严重突变时，将会出现哈迪温伯格不平衡。本发明选择哈迪温伯格平衡值在1*10^-6以上的突变位点，可以用来筛选得到稳定的突变位点。缺失率是指对于某个位点，群体中该位点变异的个体所占到的比例，其反映的是群体中该位点变异检测到准确度，当群体中比较多的个体都缺失这个SNP时，则将这个SNP去掉。

根据本发明的实施例，利用plink软件计算所述特异性突变位点等位基因的相关危险度和所述显著性。其中，本发明中“特异性位点等位基因的相关危险度”指的是病例组(即所述疾病的阳性个体)中携带特异性等位基因的个体数与非携带特异性等位基因的个体数的比值，除以对照组(即所述疾病的阴性个体)中携带特异性等位基因的个体数与非携带特异性等位基因的个体数的比值。参照文献White C C,Yang H S,Yu L,etal.Identification of genes associated with dissociation of cognitiveperformance and neuropathological burden:Multistep analysis of genetic,epigenetic,and transcriptional data[J].PLoS medicine,2017,14(4):e1002287.中计算所述显著性，以显著性数值在10^-5以下作为相关性显著的位点。该数值越小，相关性越显著，该数值代表有用来分析的变量中有相应大小可能是由于偶然性所造成的。例如该数值为0.05，则提示用来分析的变量中有5％的变量可能是由于偶然性所造成的。该显著性数值也可以称为显著性相关系数。

根据本发明的实施例，所述方法进一步包括：步骤(4)中以显著性数值最小且小于临界值的特异性突变位点作为协变量进行回归分析，知道找到所有显著性数值小于临界值的特异性突变位点作为所述疾病的相关显著性位点。

根据本发明的实施例，所述临界值10^-8～10^-5。在本发明中，所述临界值代表的是特异性突变位点与疾病的相关性。本领域技术人员可以根据疾病的特点以及步骤(3)中所确定出来的与特异性突变位点的显著性数值的大小，来选择相应的临界值。根据本发明的实施例，所述临界值可以为10^-8～10^-5，通过选择显著性数值小于临界值的特异性突变位点，从而可以找到所述疾病的相关显著性位点。

根据本发明的实施例，进一步包括基于如下公式确定个体的遗传风险得分，

其中，i表示相关显著性位点的编号；

Ni表示第i个相关显著性位点在所述个体中的出现次数，其中，该显著性位点在该个体中纯合计为2，该显著性位点在该个体中杂合计为1，该显著性位点在该个体中不存在计为0；βi表示第i个相关显著性位点的相关危险度的对数值。

根据本发明的另一方面，本发明提供了一种SNP标记，包括选自下列的至少之一：

(A)位于6号染色体上32609965位置的C突变为A；以及

(B)位于6号染色体上32551894位置的C突变为T。

本发明中发现了以上两个SNP标记位点与类风湿关节炎显著相关，并通过将其与hg19基因组进行比对，将SNP位点定位到染色体的相应位置上。能够利用这两个SNP标记位点中的任何一个，对于类风湿关节炎进行预测，可以实现类风湿关节炎的快速诊断和预测，而且可以在未表现出类风湿关节炎症状时，或者在刚出生时就可以进行患病风险的预测，从而可以实现及早进行防范和预防。其中，位于6号染色体上32609965位置的C突变为A即位于6号染色体的HLA-DQA1基因上的160号氨基酸由丙氨酸突变为天冬氨酸，位于6号染色体上32551894位置的C突变为T即位于6号染色体的HLA-DRB1基因上的57号位置丝氨酸突变为天冬酰胺。

根据本发明的实施例，以上所述的SNP标记，进一步包括选自下列的至少之一：

rs2476601，rs3761847，rs7574865，rs17066662，rs6920220，rs4810485，rs2812378，rs3087243，rs2240340，rs42041，rs3890745，rs4750316，rs1678542，rs6822844，rs10919563，rs11586238，rs1980422，rs394581，rs540386，rs548234，rs7552317，rs934734，rs6859219，rs26232，rs13315591，rs874040，rs3093023，rs10488631，rs11676922，rs951005，rs706778。由此，通过对SNP标记进行组合鉴定，可以更精确的对类风湿关节炎进行诊断。

根据本发明的又一方面，本发明提供了一种检测以上实施例所述的SNP标记在制备试剂盒中的用途，所述试剂盒用于诊断类风湿性关节炎。

根据本发明的另一方面，本发明提供了一种试剂盒，所述试剂盒包括检测以上实施例所述的SNP标记的试剂，所述试剂盒用于诊断类风湿性关节炎。根据本发明的实施例，所述试剂盒可以用来对待测样本或者待测个体的SNP标记位点进行扩增或者检测。在本发明的一些实施例中，所述试剂盒包括容器，所述容器中具有用来扩增一个或者更多个SNP位点的特异性引物。所述试剂盒还可任选地包含使用说明书。所述试剂盒还可以包含其它任选的试剂盒成分，例如包括以下中的一种或者两种或者多种：用于扩增的足量的酶、促进扩增的缓冲液、促进酶活性的盐溶液、在扩增期间用于链延伸的核苷酸(dNTP)、作为模板对照的基因组DNA、以及教导用户以及减少使用中的误差的方案和手册。本发明的试剂盒包括任何其他形式的例如用于手工使用的测试试剂盒或使用自动化检测仪或分析仪的测试试剂盒等，这些均包含在本发明所述的试剂盒的范围之内。其中，盐和缓冲液例如，可以包括氯化镁以及Tris-HCl和KCl。缓冲液中可以含有添加剂，如表面活性剂、二甲基亚砜(DMSO)、甘油、牛血清白蛋白(BSA)和聚乙二醇(PEG)，以及本领域技术人员熟知的其他添加剂。核苷酸通常是脱氧核糖核苷三磷酸，例如脱氧腺苷三磷酸(dATP)、脱氧胞苷三磷酸(dCTP)、脱氧鸟苷三磷酸(dGTP)和脱氧胸苷三磷酸(dTTP)。

根据本发明的再一方面，本发明提供了一种HLA分型方法，包括：

确定个体的全基因组的至少一部分序列信息；

基于所述至少一部分序列信息，确定所述个体中是否存在以上实施例所述的SNP标记。

根据本发明的又一方面，本发明提供了一种确定疾病相关显著性位点的系统，包括：

突变位点筛选单元，所述突变位点筛选单元基于多个所述疾病的阳性个体和多个所述疾病的阴性个体的基因组序列信息的至少一部分，构建第一突变位点集合，所述第一突变位点集合包含多个所述阳性个体的特异性突变位点；突变位点过滤单元，所述突变位点过滤单元与所述突变位点筛选单元相连，所述突变位点过滤单元基于最少等位基因频率、哈迪温伯格平衡点和缺失率，对所述第一突变位点集合进行过滤处理，以便获得第二突变位点集合；突变位点评估单元，所述突变位点评估单元与所述突变位点过滤单元相连，突变位点评估单元用于针对所述第二突变位点集合中的每一个所述特异性突变位点，确定所述特异性突变位点的相关危险度和显著性；显著性位点确定单元，所述显著性位点确定单元与所述突变位点评估单元相连，所述显著性位点确定单元用于选择所述显著性数值小于临界值的所述特异性突变位点作为所述疾病的相关显著性位点。

根据本发明的实施例，所述确定疾病相关显著性位点的系统可以进一步附加如下技术特征：

根据本发明的实施例，所述疾病是类风湿性关节炎，所述阳性个体为抗瓜氨酸化蛋白质抗体阳性个体。

根据本发明的实施例，所述基因组序列信息的至少一部分包括主要组织相容性复合体，优选包括人类白细胞抗原基因。

根据本发明的实施例，所述突变位点过滤单元中，所述过滤处理包括从所述第一突变位点集合中去除一些特异性突变位点，仅满足下列条件的所述特异性突变位点：

(a)最小等位基因频率大于等于0.01；

(b)哈迪温伯格平衡值大于等于1*10^-6；

(c)缺失率小于等于0.1。

根据本发明的实施例，所述系统中，利用plink软件计算所述位点等位基因的相关危险度和所述显著性。

根据本发明的实施例，所述显著性位点确定单元以显著性数值最小且小于临界值的特异性突变位点作为协变量进行回归分析，直到找到所有显著性数值小于临界值的特异性突变位点作为所述疾病的相关显著性位点。

根据本发明的实施例，所述临界值为10^-8～10^-5。

根据本发明的实施例，所述系统中，进一步包括基于如下公式确定个体的遗传风险得分，

其中，i表示相关显著性位点的编号；Ni表示第i个相关显著性位点在所述个体中的出现次数，其中，该显著性位点在该给个体中纯合计为2，该显著性位点在该个体中杂合计为1，该显著性位点在该个体中不存在计为0；βi表示第i个相关显著性位点的相关危险度的对数值。

本发明所取得的有益效果为：本发明旨在从遗传学角度，进行HLA-DQA1:160D或者HLA-DRB1:37N位点的检测，并结合病人的年龄，性别，吸烟状况来对类风湿性关节炎进行快速的预测，而且在未表现出类风湿性关节炎的症状时，或者在刚出生时即可进行患病风险预测。与欧洲人群的预测方法比较，我们的方法用到的位点少，表型数据更易获得，且预测准确度高。因此，利用我们提出的RA风险预测模型能够起到早期筛查，对于有患病风险的个体，可以从生活习惯等方面进行疾病的预防，从而延迟发病时间甚至降低疾病的发生率。

附图说明

图1是根据本发明的一个实施例提供的确定疾病相关显著性位点的系统的示意图。

图2是根据本发明的一个实施例提供的ROC曲线图。

图3是根据本发明的一个实施例提供的ROC曲线图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

RA的发生主要是由于遗传和环境因素共同决定，其中，遗传因素占的比例约为60％。在目前报道的遗传易感位点中，人类白细胞抗原(HLA)是与RA最相关的遗传因素，目前报道的主要集中在HLA-DRB1，HLA-B，HLA-DPB1基因上。随着全基因组关联分析(GWAS)的普及，RA等复杂疾病的遗传学研究获得了突破性进展，从而为从遗传学水平对疾病进行预测奠定了基础。针对欧洲人群的类风湿性关节炎的风险预测模型(JA Sparks,CY Chen,XJiang,J Askling et al.Improved performance of epidemiologic and genetic riskmodels for rheumatoid arthritis serologic phenotypes using family history.AnnRheum Dis.2015；74(8):1522-1529.)，需要采用39个位点来预测类风湿性关节炎。

本发明首次基于中国人群的类风湿性关节炎的遗传学研究中找到的与类风湿性关节炎相关的位点(HLA-DQA1:160D，HLA-DRB1:37N)，分别结合遗传风险得分(geneticrisk score)和吸烟状况构建RA的风险模型，并利用性别，年龄信息对模型进行矫正，对类风湿性关节炎的风险进行预测。预测结果表明，通过对病人的这两个位点进行genotyping并结合其表型(性别，年龄以及吸烟状况)，即可以有效对病人的类风湿性关节炎的风险进行预测，起到一个快速筛查和提前预防的作用；或者可以将这两个位点加入到类风湿性关节炎基因检测范围内。

根据本发明的一个方面，本发明提供了一种确定疾病相关显著性位点的系统，如图1所示。该确定疾病相关显著性位点的系统包括：突变位点筛选单元，突变位点过滤单元，突变位点评估单元和显著性位点确定单元。其中，所述突变位点筛选单元基于多个所述疾病的阳性个体和多个所述疾病的阴性个体的基因组序列信息的至少一部分，构建第一突变位点集合，所述第一突变位点集合包含多个所述阳性个体的特异性突变位点；所述突变位点过滤单元与所述突变位点筛选单元相连，所述突变位点过滤单元基于最少等位基因频率、哈迪温伯格平衡点和缺失率，对所述第一突变位点集合进行过滤处理，以便获得第二突变位点集合；所述突变位点评估单元与所述突变位点过滤单元相连，突变位点评估单元用于针对所述第二突变位点集合中的每一个所述特异性突变位点，确定所述特异性突变位点的相关危险度和显著性；所述显著性位点确定单元与所述突变位点评估单元相连，所述显著性位点确定单元用于选择所述显著性数值小于临界值的所述特异性突变位点作为所述疾病的相关显著性位点。

其中，在本发明的一种优选实施方式中，所述临界值为10^-5。

其中，根据本发明的一种优选实施方式，基于多个所述疾病的阳性个体和多个所述疾病的阴性个体的基因组序列信息的至少一部分，利用Burrow-wheeler Aligner软件和Genome Analysis Tool Kit软件构建所述第一突变位点集合。

根据本发明的又一种优选实施方式，基于最少等位基因频率、哈迪温伯格平衡点和缺失率作为筛选标准，筛选得到同时满足如下要求的突变位点，从而得到第二突变位点集合：(a)最小等位基因频率大于等于0.01；和(b)哈迪温伯格平衡值大于等于1*10^-6；和(c)缺失率小于等于0.1。

根据本发明的另一种优选实施方式，针对所述第二突变集合中的每一个所述特异性突变位点，利用plink软件计算所述特异性突变位点的相关危险度和显著性。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例一

本实施例创造性的发现了两个与类风湿性关节炎相关的SNP位点。然后针对这两个SNP位点，结合遗传风险得分和吸烟状况，参考已有文献的记载，构建类风湿性关节炎的风险模型，并利用性别，年龄信息对模型进行矫正，对类风湿性关节炎的风险进行预测。预测结果表明，利用这两个位点中的任何一个均可以实现对于类风湿性关节炎的准确预测。包括如下步骤：

(1)参照文献Cao,H.et al.An integrated tool to study MHC region:accurate SNV detection and HLA genes typing in human MHC region usingtargeted high-throughput sequencing.PLoS One 8,e69388(2013)，利用MHC目标区域捕获测序的方法，对370例有抗瓜氨酸化蛋白质抗体(anti-citrullinated proteinantibody，ACPA)阳性的RA样本和1050例正常的样本进行测序(第一阶段)，利用Burrows-Wheeler Aligner软件(BWA,version 0.5.9，http://bio-bwa.sourceforge.net)和GenomeAnalysis Tool Kit(GATK,version 1.4,https://software.broadinstitute.org/gatk/)软件进行变异检测。

同时通过SOAP-HLA软件(version 1.0，http://soap.genomics.org.cn/SOAP-HLA.html)进行HLA分型，再利用IMGT/HLA database中每一种型别对应的氨基酸序列，得到每个个体中的氨基酸信息。

例如A*01:01:03对应的氨基酸为GSHSMRYFFTSVSRPGRGEPRFIAVGYVDDTQFVRFDSDAASQKMEPRAPWIEQEGPEYWDQETRNMKAHSQTDRANLGTLRGYYNQSEDGSHTIQIMYGCDVGPDGRFLRGYRQDAYDGKDYIALNEDLRSWTAADMAAQITKRKWEAVHAAEQRRVYLEGRCVDGLRRYLENGKETLQRTDPPKTHMTHHPISDHEATLRCWALGFYPAEITLTWQRDGEDQTQDTELVETRPAGDGTFQKWAAVVVPSGEEQRYTCHVQHEGLPKPLTLRW*******************************************************************，即A*01:01:03可转化为HLA-DQA1:1G，HLA-DQA1:2S，HLA-DQA1:3H等，依次类推。

(2)利用变异检测后的snp，indel，HLA type和氨基酸构建plink(version1.07,http://zzz.bwh.harvard.edu/plink/)软件所需要的文件格式，并保留最少等位基因频率(MAF)大于等于0.01，哈迪温伯格平衡值(Hardy-Weinberg equilibrium,HWE)大于等于1*10^-6以及缺失率小于等于0.1的位点。

(3)利用剩下的位点(即步骤(2)中保留的位点)评价基因型和表型之间的关联，并通过性别和主成分分析(Principal components analysis，PCA)进行矫正，评估每个位点与类风湿性关节炎的关系，然后利用plink软件计算位点等位基因的相关危险度(Oddsratio，OR)和95％的可信区间，并计算具有统计学意义的P值作为显著相关性数值。以10^-5作为cut-off(临界点)，首先找到与类风湿性关节炎显著性数值最小的位点，该位点同时满足小于10-5，然后以该位点作为协变量进行回归分析直到找到所有显著性数值小于10^-5的位点作为与类风湿性关节炎相关的显著性位点。

结果发现：在这1420例样本找到HLA-DQA1：160D位点(即在染色体6号位置32609965(HG19)位置C突变为A)以及HLA-DRB1:37N(即在染色体6号位置32551894(HG19)位点均与RA相关，其与类风湿性关节炎的关联结果如表1。

(4)利用桑格测序和第二代测序的方法对另一批610例抗瓜氨酸化蛋白质抗体(ACPA)阳性的RA样本和850例正常的样本(第二阶段)进行HLA-A，HLA-B，HLA-DRB1，HLA-DQA1，HLA-DPB1进行HLA分型，并根据IMGT/HLA database进行氨基酸转化。按照步骤(2)、(3)进行分析，发现HLA-DQA1:160D或者HLA-DRB1:37N，与类风湿性关节炎均显著相关，而且p值达到了全基因组显著性水平(genome wide significant)(5*10^-8)，其关联结果如表1，该p值为5*10^-8代表找到的位点与类风湿关节炎非常显著相关。从而验证了HLA-DQA1:160D和HLA-DRB1:37N这两个位点确实与类风湿性关节炎显著相关。

表1：不同位点在第一阶段和第二阶段的与类风湿性关节炎的关联结果

其中，OR(odds ratio)指的是风险比；CI(confidence interval)，置信区间。

(5)将第一阶段样本和第二阶段样本合并在一起，分别统计每个与类风湿性关节炎显著相关位点的致病风险位点，在每个个体中出现的个数，即该位点存在并且纯合，则计为2，位点存在并且杂合，则计为1，该位点不存在，则计为0。

(6)利用显著性位点在(3)中获得的OR取自然对数进行转化为β，其值见表2。

表2位点对应的β值

然后利用下述公式(I)计算每个个体的遗传风险得分(genetic risk score，GRS)，即每个个体中显著性位点的β值与位点的个数乘积之和，来作为每个个体的遗传风险得分(genetic risk score,GRS)，即每个个体中显著性位点的β值与位点的个数乘积之和。

其中，i指的是与类风湿性关节炎相关的显著性位点的编号，j代表的是某个个体，Nij代表个体j中第i个相关显著性在该个体中出现的次数。βij表示个体j中第i个相关显著性位点的相关危险度的对数值。

(7)对各样本的遗传信息和表型信息进行编码，性别(1代表男性，2代表女性)，年龄(按照实际年龄)，吸烟状况(按照实际吸烟时间)，GRS(由(7)计算获得)。其中，年龄和吸烟时间是连续型变量，性别作为分类变量。

(8)将编码好的数据，下载R里面的PredictABEL(http://www.genabel.org/packages/PredictABEL)包及其依赖包，将每个个体吸烟情况作为临床因素(epidemiologic factors(E)，GRS作为遗传因素(G))，通过这些因素构成模型的组分，来构建逻辑回归模型(G，E+G)，并将性别和年龄加入到逻辑回归模型中作为协变量进行矫正，以便排除性别和年龄对于模型的影响。

其中，G模型为：

其中，P_G表示预测为病人的概率。β₀指当所有预测变量都为0时预测值的log值。β_1,j表示第j个遗传因素造成的预测值得log值的变化。X_j,G表示第j个环境因素。β₂表示性别因素造成的预测值的log值的变化。β₃表示年龄因素造成的预测值的log值的变化。

E+G模型为：

其中，P_E+G表示预测为病人的概率。β₀指当所有预测变量都为0时预测值的log值。β_1,j表示第j个环境因素造成的预测值得log值的变化。X_j.E表示第j个环境因素。β_2,m表示第m个遗传因素造成的预测值得log值的变化。X_m,G表示第m个遗传因素。β₃表示性别因素造成的预测值的log值的变化。β₄表示年龄因素造成的预测值的log值的变化。

(9)针对不同位点，采用C统计的方法对各个模型进行评价，并获得类风湿性关节炎的预测准确度。接收器特征(the receiver operating characteristic，ROC)曲线下的面积(AUC)是一个非常重要的评价指标，AUC主要反应了风险评分模型对类风湿性关节炎的预测能力，也被叫做一致性统计量(Concordance statistics,C-statistic)(参考文献Harrell FE Jr.Regression Modeling Strategies.New York:Springer；2001.)，利用AUC能够很好的对模型进行评价。AUC或者C值越大，模型的预测作用越强。我们采用的是C统计的方法评价，并获得类风湿性关节炎的预测准确度。

针对位点HLA-DQA1:160D，评价结果如图2所示，图2中y轴代表敏感性，或者是真阳性分数(指的是(真阳性测试结果的数量)/(真阳性的数量+错误阳性测试结果的数量))；x轴是假阳性分数，或特异性(指的是(假阳性结果的数量)/(正确的阴性的数量+假阳性结果的数量))。ROC曲线与样品中疾病的发病率无关。在ROC曲线上的每个点代表相应于特定判定阈值的敏感性/特异性配对。具有理想辨别力的测试，其中真阳性分数是100％(理想的敏感性)，假阳性分数是0(理想的特异性)。没有辨别力的测试的理论曲线(两个组的相同的结果分布)是从左下角到右上角的45度对角线。大多数曲线落入这两个极端之间。定性地，曲线越靠近左上角，试验的总精度越高。最常见的全局测量是在ROC曲线之下的面积。按照惯例，这个面积总是>0.5(如果不是，人们可以反转判定规则来使它〉0.5)。数值处在1.0(两个组的测试值的理想的分离)和0.5(在两组测试值之间没有明显的分布差异)之间。在本发明中，仅用遗传因素构建的模型(G model)ROC曲线之下的面积AUC为0.73，利用遗传因素和临床因素共同构建的模型(E+G model)ROC曲线之下的面积AUC为0.78，即基于HLA-DQA1:160D的遗传信息，并结合吸烟的流行病学因素构建风险模型，并采用年龄和性别进行矫正，对类风湿性关节炎风险预测的准确度为0.78。

针对位点HLA-DRB1:37N，评价结果图3所示，图3中y轴是敏感性，或真阳性分数[定义为(真阳性测试结果的数量)/(真阳性的数量+错误阴性测试结果的数量]。x轴是假阳性分数，或特异性[定义为(假阳性结果的数量)/(正确的阴性的数量+假阳性结果的数量))。ROC曲线与样品中疾病的发病率无关。在ROC曲线上的每个点代表相应于特定判定阈值的敏感性/特异性配对。具有理想辨别力的测试，其中真阳性分数是100％(理想的敏感性)，假阳性分数是0(理想的特异性)。没有辨别力的测试的理论曲线(两个组的相同的结果分布)是从左下角到右上角的45度对角线。大多数曲线落入这两个极端之间。定性地，曲线越靠近左上角，试验的总精度越高。最常见的全局测量是在ROC曲线之下的面积。按照惯例，这个面积总是>0.5(如果不是，人们可以反转判定规则来使它〉0.5)。数值处在1.0(两个组的测试值的理想的分离)和0.5(在两组测试值之间没有明显的分布差异)之间。在本发明中，仅用遗传因素构建的模型(G model)ROC曲线之下的面积AUC为0.67，利用遗传因素和临床因素共同构建的模型(E+G model)ROC曲线之下的面积AUC为0.74，即基于HLA-DRB1:37N的遗传信息，并结合吸烟的流行病学因素构建风险模型，并采用年龄和性别进行矫正，对类风湿性关节炎风险预测的准确度为0.74。

(10)同时，为了更全面的对模型进行评价，我们还比较了模型的区分度，即该模型区别患病和不患病的准确性，结果如表3所示。分别采用了净重分类指数(netreclassification index or improvement，NRI)和整体判别改善指数(integrateddiscrimination improvement，IDI)这两个指标进行评价模型的优劣(参考文献PencinaMJ,D’Agostino RB Sr.Steyerberg EW.Extensions of net reclassificationimprovement calculations to measure usefulness of new biomarkers.StatMed.2011；30(1):11–21.记载的方法)。其中IDI为病人中预测概率提高的量与非病人中预测概率降低的量之和，即

表示新模型中真实病人预测为病人的平均概率；

表示新模型中真实非病人预测为病人的平均概率；

表示原模型中真实病人预测病人的平均概率；

表示原模型中真实非病人预测为病人的平均概率。

通常IDI在0.08-0.20之间，表示新模型的区分度好。NRI表示的是两个模型在正确分类研究对象个数上差距的量化，对于病人，预测概率提高的净量，对于对照，预测概率降低的净量，即

cNRI＝cNRI(event)+cNRI(nonevents) (VI)

相对原模型，新模型患者分类上移的比例

相对原模型，新模型患者分类下移的比例

相对原模型，新模型非患者分类上移的比例

相对原模型，新模型非患者分类下移的比例

表3针对HLA-DQA1:160:D，新模型包含临床因素和遗传因素(E+G)与只包含遗传信息因素的模型(G)的比较

AUC(accuracy under the curve)：曲线下面积的准确度，NRI：净重分类指数，IDI：整体判别改善指数

从表3可以看出，针对HLA-DQA1:160:D位点，E+G模型的AUC最高为0.78，G模型的准确度为0.73。文献JA Sparks,CY Chen,X Jiang,J Askling et al.Improved performanceof epidemiologic and genetic risk models for rheumatoid arthritis serologicphenotypes using family history.Ann Rheum Dis.2015；74(8):1522-1529.中报道的结果来看，针对欧洲人群，采用39个位点构建的G模型对RA的预测准确度在0.62-0.73之间。而我们采用较少的遗传位点就可以达到与他们相当甚至还好的预测准确度。将E+G模型与G模型的IDI进行比较，可以看到IDI的区分度为0.11，表明加入临床因素即吸烟情况对预测结果都有较大改善。同时，与G模型相比，新模型能够提高病例样本的分类准确度(cNRI＝0.23)，表明加入吸烟情况，能够提高病例样本的分类准确度。以上结果表明，G模型本身有较好的预测效果，同时进入吸烟情况，新模型即E+G模型优于G模型。因此，我们利用HLA-DQA1:160D的信息，结合吸烟情况能够很好的对病人的类风湿性关节炎的风险进行预测。

表4针对HLA-DRB1:37N，新模型包含临床因素和遗传因素(E+G)与只包含遗传信息因素的模型(G)的比较

从表4可以看出，针对HLA-DRB1:37N位点，E+G模型的AUC最高为0.74，G模型的准确度为0.67。文献JA Sparks,CY Chen,X Jiang,J Askling et al.Improved performanceof epidemiologic and genetic risk models for rheumatoid arthritis serologicphenotypes using family history.Ann Rheum Dis.2015；74(8):1522-1529.中报道的结果来看，针对欧洲人群，采用39个位点构建的G模型对RA的预测准确度在0.62-0.73之间。我们采用较少的遗传位点就可以达到与他们相当甚至还好的预测准确度。将E+G模型与G模型的IDI进行比较，可以看到IDI的区分度为0.11，表明加入临床因素即吸烟情况对预测结果都有较大改善。同时，与G模型相比，新模型能够提高病例样本的分类准确度(cNRI＝0.28)，表明加入吸烟情况，能够提高病例样本的分类准确度。以上结果表明，G模型本身有较好的预测效果，同时进入吸烟情况，新模型即E+G模型优于G模型。因此，我们利用HLA-DRB1:37N的信息，结合吸烟情况能够很好的对病人的类风湿性关节炎的风险进行预测。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种确定疾病相关显著性位点的方法，其特征在于，包括：

（1）基于多个所述疾病的阳性个体和多个所述疾病的阴性个体的基因组序列信息的至少一部分，构建第一突变位点集合，所述第一突变位点集合包含多个所述阳性个体的特异性突变位点；

（2）基于最少等位基因频率、哈迪温伯格平衡点和缺失率，对所述第一突变位点集合进行过滤处理，以便获得第二突变位点集合；

（3）针对所述第二突变位点集合中的每一个所述特异性突变位点，确定所述特异性突变位点的相关危险度和显著性，所述特异性突变位点的相关危险度指的是所述疾病的阳性个体中携带特异性等位基因的个体数与非携带特异性等位基因的个体数的比值，除以所述疾病的阴性个体中携带特异性等位基因的个体数与非携带特异性等位基因的个体数的比值；

（4）选择所述显著性数值小于临界值的所述特异性突变位点作为所述疾病的相关显著性位点；

所述疾病是类风湿性关节炎，所述疾病相关显著性位点选自下列的至少之一：

（A）位于6号染色体上32609965位置的C突变为A；以及

（B）位于6号染色体上32551894位置的C突变为T。

2.根据权利要求1所述的方法，其特征在于，所述阳性个体为抗瓜氨酸肽抗体阳性个体。

3.根据权利要求1所述的方法，其特征在于，所述基因组序列信息的至少一部分包括主要组织相容性复合体。

4.根据权利要求1所述的方法，其特征在于，在步骤（2）中，所述过滤处理包括从所述第一突变位点集合中去除一些特异性突变位点，仅保留满足下列条件的所述特异性突变位点：

（a）最小等位基因频率大于等于0.01；

（b）哈迪温伯格平衡值大于等于1*10^-6；

（c）缺失率小于等于0.1。

5.根据权利要求1所述的方法，其特征在于，所述基因组序列信息的至少一部分包括人类白细胞抗原基因。

6.根据权利要求1所述的方法，其特征在于，利用plink软件计算所述特异性突变位点的相关危险度和显著性。

7.根据权利要求1所述的方法，其特征在于，步骤（4）中以显著性数值最小且小于临界值的特异性突变位点作为协变量进行回归分析，直到找到所有显著性数值小于临界值的特异性突变位点作为所述疾病的相关显著性位点。

8.根据权利要求1所述的方法，其特征在于，所述临界值为10^-8~10^-5。

9.根据权利要求1所述的方法，其特征在于，所述方法进一步包括基于下述公式确定个体的遗传风险得分，

其中，i表示相关显著性位点的编号；

N_i表示第i个相关显著性位点在所述个体中的出现次数，其中，该显著性位点在该个体中纯合计为2，该显著性位点在该个体中杂合计为1，该显著性位点在该个体中不存在计为0；

β_i表示第i个相关显著性位点的相关危险度的对数值。

10.一种确定疾病相关显著性位点的系统，其特征在于，包括：

突变位点筛选单元，所述突变位点筛选单元基于多个所述疾病的阳性个体和多个所述疾病的阴性个体的基因组序列信息的至少一部分，构建第一突变位点集合，所述第一突变位点集合包含多个所述阳性个体的特异性突变位点；

突变位点过滤单元，所述突变位点过滤单元与所述突变位点筛选单元相连，所述突变位点过滤单元基于最少等位基因频率、哈迪温伯格平衡点和缺失率，对所述第一突变位点集合进行过滤处理，以便获得第二突变位点集合；

突变位点评估单元，所述突变位点评估单元与所述突变位点过滤单元相连，突变位点评估单元用于针对所述第二突变位点集合中的每一个所述特异性突变位点，确定所述特异性突变位点的相关危险度和显著性，所述特异性突变位点的相关危险度指的是所述疾病的阳性个体中携带特异性等位基因的个体数与非携带特异性等位基因的个体数的比值，除以所述疾病的阴性个体中携带特异性等位基因的个体数与非携带特异性等位基因的个体数的比值；

显著性位点确定单元，所述显著性位点确定单元与所述突变位点评估单元相连，所述显著性位点确定单元用于选择所述显著性数值小于临界值的所述特异性突变位点作为所述疾病的相关显著性位点；

（A）位于6号染色体上32609965位置的C突变为A；以及

（B）位于6号染色体上32551894位置的C突变为T。

11.根据权利要求10所述的系统，其特征在于，所述阳性个体为抗瓜氨酸肽阳性个体。

12.根据权利要求10所述的系统，其特征在于，所述基因组序列信息的至少一部分包括主要组织相容性复合体。

13.根据权利要求10所述的系统，其特征在于，所述突变位点过滤单元中，所述过滤处理包括从所述第一突变位点集合中去除一些特异性突变位点，仅保留满足下列条件的所述特异性突变位点：

（a）最小等位基因频率大于等于0.01；

（b）哈迪温伯格平衡值大于等于1*10^-6；

（c）缺失率小于等于0.1。

14.根据权利要求10所述的系统，其特征在于，所述基因组序列信息的至少一部分包括人类白细胞抗原基因。

15.根据权利要求10所述的系统，其特征在于，利用plink软件计算特异性突变位点的相关危险度和显著性。

16.根据权利要求10所述的系统，其特征在于，所述显著性位点确定单元以显著性数值最小且小于临界值的特异性突变位点作为协变量进行回归分析，直到找到所有显著性数值小于临界值的特异性突变位点作为所述疾病的相关显著性位点。

17.根据权利要求10所述的系统，其特征在于，所述临界值为10^-8~10^-5。

18.根据权利要求10所述的系统，其特征在于，所述系统进一步包括基于公式

确定个体的遗传风险得分，其中

i表示相关显著性位点的编号，

Ni表示第i个相关显著性位点在所述个体中的出现次数，其中，纯合体为2，杂合体为1，不存在为0；

βi表示第i个相关显著性位点的相关危险度的对数值。