CN112735594A

CN112735594A - 一种筛选疾病表型相关突变位点的方法及其应用

Info

Publication number: CN112735594A
Application number: CN202011599663.1A
Authority: CN
Inventors: 张静波; 姬晓勇; 徐冰; 单光宇; 伍启熹; 王建伟; 刘倩; 唐宇
Original assignee: Beijing Youxun Medical Devices Co ltd
Current assignee: Beijing Youxun Medical Devices Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-30
Anticipated expiration: 2040-12-29
Also published as: CN112735594B

Abstract

本发明涉及生物信息学技术领域，尤其涉及一种筛选疾病表型相关突变位点的方法及其应用。所述方法包括获得多个疾病样本和正常样本的测序数据，进行变异检出；以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘，获得和疾病样本的表型具有强关联关系的突变位点；针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和疾病表型相关的突变位点。本发明通过将等位基因转换为分类变量进行关联规则挖掘，后针对和疾病表型强关联的位点进行建模分析，可以有效降低分析的样本总量，并且避免等位基因频率对分析结果的影响，只需获得突变基因型信息即可完成疾病表型相关位点的筛选和分析。

Description

一种筛选疾病表型相关突变位点的方法及其应用

技术领域

本发明涉及生物信息学技术领域，尤其涉及一种筛选疾病表型相关突变位点的方法及其应用。

背景技术

人类遗传学的中心目标是识别常见复杂疾病(如精神分裂症和Ⅱ型糖尿病)和罕见孟德尔疾病(如囊性纤维化和镰状细胞性贫血)的遗传风险因素。虽然了解人类健康和疾病的复杂性是目前研究的关键之一，但不是人类遗传学研究的唯一焦点，药理学领域也是同样重要的领域。药物基因学的目的是识别与药物代谢、疗效以及副作用相关的DNA序列变异。例如，法华林是一种稀释血液的药物，有助于防止患者生成的血凝块。在使用法华林的同时，需要严格把控为每个病人制定的药物剂量，并且现有技术普遍认为剂量的多少受到基因所调控。最近的全基因组关联性分析(Genome-wide association studies,GWAS)表明，几个基因的DNA序列变异对华法林剂量有很大影响。这些结果，以及验证性研究，主导了可以用于临床的华法林剂量的基因测试。这种类型的基因检测催生了名为“个性化医疗”的新领域，该领域旨在根据患者的遗传背景和其他生物特征，为其量身定制医疗服务。

GWAS分析应用基因组中数百万计的单核苷酸多态(single nucleotidepolymorphism，SNP)，进行全基因组水平上的对照分析或相关性分析，是通过比较发现影响复杂性状的基因变异的一种新策略。GWAS分析在全基因组范围内选择遗传变异进行基因分析，基于病例-对照样本，比较两组之间每个遗传变异及其频率的差异，统计分析每个变异与目标性状之间的关联性大小，选出最相关的遗传变异进行验证，并根据验证结果最终确认其与目标性状之间的相关性。GWAS预测性状与基因的关联，其分析结果受多种因素的影响：1)性状受多少个位点的影响；2)这些位点的等位基因频率和它们效应量的联合分布情况；3)实验的样本量；4)用于GWAS分析的全基因组变异平台；5)研究的性状或疾病的异质性。GWAS的分析结果需要大量样本来支撑，以便有足够大的统计学功效，因此，进行GWAS分析的成本往往较高。

Logistic回归模型是一个分析二分类(如病例-对照等)反应变量的基本工具，也可以分析基因-基因间交互作用。但是Logistic回归模型在用小样本量来估计较多参数(如单核苷酸多态性)时存在一定的局限性，每增加一个SNP位点，所需的样本量将呈指数倍增加，考虑到基因型频率，即使样本量较大，数据分布在高维空间仍显得相对稀疏，很可能出现某系基因组组合没有观察值的情况，这种情况称为“维度困扰”。

关联规则挖掘被认为是可以从大量数据中筛选新颖、潜在未知的知识和信息的一种有效工具，可以为发现各种属性包括属性组合之间的复杂关联提供许多有益的信息，并且对于处理稀疏和弱相关的数据，效率较高。

发明内容

为了解决现有技术存在的问题，本发明提供一种筛选疾病表型相关突变位点的方法及其应用。本发明通过将等位基因转换为分类变量进行关联规则挖掘，后针对和疾病表型强关联的位点进行建模分析，可以有效降低分析的样本总量，并且避免等位基因频率对分析结果的影响。

第一方面，本发明提供一种筛选疾病表型相关突变位点的方法，包括：

获得多个疾病样本和正常样本的测序数据，进行变异检出；

以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘，获得和疾病样本的表型具有强关联关系的突变位点；

针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和疾病表型相关的突变位点。

进一步地，所述以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘，具体为：

将样本的表型依据患病与否、检出的突变位点的突变类型依据其基因型转换为二分类变量，后作为项目总集进行关联规则挖掘。

进一步地，所述关联规则挖掘包括：

通过多次迭代在所述项目总集中得到频繁项集；

针对所有频繁项集生成多个关联规则，获取置信度大于最小置信度的关联规则作为强关联规则；

选择提升度lift>1的强关联规则作为有效强关联规则。

进一步地，所述关联规则挖掘中最小支持度为0.1-0.3，最小置信度为0.7-0.9。

进一步地，所述通过多次迭代在所述项目总集中得到频繁项集，具体为：

采用FP-Growth算法通过多次迭代在所述项目总集中得到频繁项集。

进一步地，在所述获得多个疾病样本和正常样本的测序数据，进行变异检出后，还包括：

在检出的突变位点中去除不符合如下任一要求的位点：

(1)不符合温迪哈伯格平衡的位点；

(2)基因型缺失率大于1％的位点；

(3)最小等位基因频率低于1％的位点。

进一步地，在所述进行建模分析前，还包括：通过χ²检验或Fisher确切概率法对所述经过关联规则挖掘筛选得到的突变位点进行检验，选择具有统计学意义的突变位点进行后续的建模分析。

进一步地，针对关联规则挖掘得到的转换为二分类变量的突变位点，能处理因变量为二分类变量的模型都可以进行分析，本发明优选采用Logistic回归模型。

本发明进一步提供所述方法在疾病表型相关突变位点的开发中的应用。

本发明提供的方法可以适用于任何疾病表型相关突变位点的开发，只需同时提供患病样本和正常样本即可。例如针对二型糖尿病、高血压、肥胖、乳腺癌或结直肠癌相关突变位点的开发。

本发明具备如下有益效果：

GWAS分析需要大量样本来保证一定的统计学功效，本发明根据突变位点的基因分型，将突变数据及样本表型数据转换成二分类变量进行关联规则挖掘，可以有效降低分析的样本总量，并且避免了等位基因频率的影响，在分析较少样本、大量SNP位点的稀疏数据时，具有较高的效率。并且FPGrowth算法只需扫描两遍数据，通过FP-tree数据结构压缩原始数据，通过两个数据扫描，将原始数据中的事务压缩到一个FP-tree，相同前缀的路径可以共用，从而达到压缩数据的目的，效率较高。实验验证，采用本发明提供的方法可以采用更少的样本数量取得高于全基因组关联分析的技术效果。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明提供一种筛选疾病表型相关突变位点的方法，包括：

S1获得多个疾病样本和正常样本的测序数据，进行变异检出

本发明提供的方法可以针对多种疾病进行相关位点的筛选，例如糖尿病、阿尔茨海默病、精神分裂症、高血压、肥胖、乳腺癌或结直肠癌等疾病，首先取得目的疾病的多个疾病样本(例如血液样本)和正常样本进行基因测序，检出多个突变位点。

进一步地，对于测序得到的多个突变位点先进行位点过滤，去除不符合如下任一条件的位点：1)不符合温迪哈伯格平衡的位点；2)基因型缺失率大于1％的位点；3)最小等位基因频率低于1％的位点。将过滤后的位点用于下一步骤的关联规则分析。

S2以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘，获得和疾病样本的表型具有强关联关系的突变位点

本发明在测序并进行位点过滤后得到多个突变位点后，将这些突变位点和疾病的样本作为关联规则挖掘的项目集合，每个样本作为一个事务。先通过多次迭代从项目集合中得到频繁项集，例如通过Apriori算法或FP-Growth算法通过多次迭代在所述项目总集中得到频繁项集。

得到频繁项集后，遍历所有频繁项集，然后从每个项集中依次取1,2,3，…,k个元素作为后继，项目集中其他元素作为前导，计算该规则的置信度进行筛选，该条规则的置信度如果小于设定的最小置信度值min_confidence，则剔除该条规则，大于最小置信度min_confidence的规则为强关联规则，从强关联规则中将提升度lift>1的有效强关联规则筛选出来。

有效强关联规则的筛选流程如下：

利用最小支持度min_support和最小置信度min_confidence，针对每个频繁项集，根据先导A和后继B在各个事件中出现的频数进行统计和整理，得到四格表：

表1 先导A和后继B的频数统计

根据此表格，则有：

support(A＝>B)＝P(AB)＝a/n

confidence(A＝>B)＝P(B|A)＝a/(a+b)

其中，若支持度lift＝1，说明该突变位点与疾病表型相互独立，即使支持度support和置信度confidence都高，但它们之间没有必然的关联联系；满足最小支持度min_support和最小置信度min_confidence的关联关系叫做强关联关系，其中当支持度lift>1时，为有效的强关联关系，当支持度lift<＝1，为无效的强关联关系。

进一步地，所述以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘，具体为：将样本的表型依据患病与否、检出的突变位点的突变类型依据其基因型转换为二分类变量，后作为项目总集进行关联规则挖掘。

例如在生成关联规则挖掘的项目集合时，将样本的表型和突变位点均进行编码，依据布尔关联规则输入为二分类变量，例如针对突变位点，将野生型(AA)编码为0，杂合型(Aa)和纯合型(AA)编码为1，则对于任一突变位点，其对应在项目集合中为“突变位点＝‘0’或突变位点＝‘1’”，针对样本表型时进行相同处理，例如将患病样本编码为1，未患病样本编码为0，其对应在项目集合中为“表型＝‘0’或表型＝‘1’”。

进一步地，对于经过关联规则挖掘后得到和疾病表型相关的突变位点，进行χ²检验或Fisher确切概率法检验，筛选得到有统计学意义的位点进行后续的建模分析流程。

S3针对经过关联规则挖掘筛选得到的突变位点进行建模分析得到和所述疾病样本的表型相关的突变位点。

本发明针对上一步骤筛选得到的突变位点进行建模分析，例如采用Logistic回归分析进行分析，将这些突变位点作为Logistic回归模型的输入，采用逐步选择法，同时进行前向选择和后向剔除，得到确认性质的病例表型相关的位点。

实施例1

本实施例采用本发明提供的筛选疾病表型相关突变位点的方法进行二型糖尿病相关SNP位点的挖掘，具体如下：

1、选择200例二型糖尿病患者，200例正常人作为对照，进行芯片测序，位点总计743722个。

2、关联规则分析：根据突变位点的基因分型，将突变数据及样本表型数据转换成二分类变量，设置关联规则分析参数，最小支持度min_sup＝20％，最小置信度min_conf＝80％。

3、应用FP-Growth算法产生频繁项集。

4、得到频繁项集后，从中找出置信度大于min_conf的关联规则为强关联规则

5、从强关联规则中筛选出有效的强关联规则，即选取作用度lift>1.00的所有规则，表2为部分结果：

表2 糖尿病相关突变位点部分关联规则挖掘结果

5、为解决多位点存在的共线性问题，本实施例将步骤4筛选的位点采用逐步回归方法纳入Logistic回归中，确保回归方程中只包含显著性变量。

经以上计算分析，得到数个和糖尿病相关的突变位点，本实施例进一步将得到的突变位点和GWAS分析结果(基于相同样本)进行对比，其中选取GWAS结果中p-value<10-e7的前20个位点，及应用关联规则分析结果中p-value<0.005的前20个位点，得到如表3-表4的对比结果，GWAS的结果中有5个位点(第7、8、9、18和19个位点)是在GWAS Catalog数据库中记录的与糖尿病相关的位点，关联规则分析结果中有10个位点(第4、5、6、12、13、16、17、18、19和20个位点)是在GWAS Catalog数据库中记录的与糖尿病相关的位点。

表3 糖尿病相关突变位点分析结果-GWAS分析结果

表4 糖尿病相关突变位点分析结果-关联规则挖掘结果

实施例2

本实施例选取100例高血压、126例肥胖、410例肺癌、360例乳腺癌、134例结直肠癌及200例正常样本，分别进行GWAS分析及关联规则分析，选取GWAS分析结果中p-value<10-e7的前20个位点及关联规则分析中p-value<0.005的前20个位点，比较两者检出的位点在GWAS Catalog数据库中记录的与表型相关位点的占比，结果如表5：

表5

由此可见各个表型使用关联规则分析得到的SNP位点数在GWAS Catalog数据库中记录的与表型相关的位点的占比均高于GWAS的分析结果。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种筛选疾病表型相关突变位点的方法，其特征在于，包括：

获得多个疾病样本和正常样本的测序数据，进行变异检出；

2.根据权利要求1所述的方法，其特征在于，所述以样本的表型、检出的突变位点的突变类型作为项目总集进行关联规则挖掘，具体为：

3.根据权利要求1或2所述的方法，其特征在于，所述关联规则挖掘包括：

通过多次迭代在所述项目总集中得到频繁项集；

选择提升度lift>1的强关联规则作为有效强关联规则。

4.根据权利要求3所述的方法，其特征在于，所述关联规则挖掘中最小支持度为0.1-0.3，最小置信度为0.7-0.9。

5.根据权利要求3所述的方法，其特征在于，所述通过多次迭代在所述项目总集中得到频繁项集，具体为：

6.根据权利要求1所述的方法，其特征在于，在所述获得多个疾病样本和正常样本的测序数据，进行变异检出后，还包括：

在检出的突变位点中去除不符合如下任一要求的位点：

(1)不符合温迪哈伯格平衡的位点；

(2)基因型缺失率大于1％的位点；

(3)最小等位基因频率低于1％的位点。

7.根据权利要求1所述的方法，其特征在于，在所述进行建模分析前，还包括：通过χ²检验或Fisher确切概率法对所述经过关联规则挖掘筛选得到的突变位点进行检验，选择具有统计学意义的突变位点进行后续的建模分析。

8.根据权利要求1或2所述的方法，其特征在于，所述建模分析采用Logistic回归模型。

9.权利要求1-8任一项所述方法在疾病表型相关突变位点的开发中的应用。

10.根据权利要求9所述的应用，其特征在于，所述疾病为二型糖尿病、高血压、肥胖、乳腺癌或结直肠癌中的一种或多种。