CN110592185A

CN110592185A - 一种高胆固醇血症致病基因筛查探针设计方法及其基因芯片

Info

Publication number: CN110592185A
Application number: CN201811620992.2A
Authority: CN
Inventors: 王绿娅; 江龙; 张峰
Original assignee: Beijing Anzhen Hospital
Current assignee: Beijing Anzhen Hospital
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-12-20

Abstract

本发明公开了一种高胆固醇血症致病基因筛查探针设计方法及其基因芯片，该方法分为3个步骤，分别是步骤1探针设计，步骤2捕获建库和测序以及步骤3生物信息分析，其中探针组的数量为7，其中探针组1为JL3_1、探针组2为JL_1、探针组3为JL4_1、探针组5为JL1_1、探针组6为JL2_1、探针组7为JL‑UTR_1，探针总数量为12944，探针包大小为1.012Mbp，每个样品的推荐最小排序为202.577Mbp。所述基因芯片包括固相载体和固定于所述固相载体上的探针。本发明对所有的致病基因和SNPs进行系统性归纳和汇总，最终绘制一幅完整的筛选目标区域，能够显著提高我国家族性高胆固醇血症患者的检出率。

Description

一种高胆固醇血症致病基因筛查探针设计方法及其基因芯片

技术领域

本发明属于基因诊断领域，涉及一种基因芯片，具体涉及一种用于高胆固醇血症致病基因筛查探针设计方法及其基因芯片。

背景技术

家族性高胆固醇血症(familial hypercholesterlolemia，FH，MIM#143890)，也称遗传性高胆固醇血症，是常见且严重的显性遗传性疾病，是国际公认的全球性疾病。临床分为纯合和杂合，纯合FH患者罕见但常表现出极端的临床特征，血浆胆固醇为正常人的6～8倍、皮肤多部位黄色瘤，儿童期即可出现全身性As直至心梗死亡。杂合FH患者动脉粥样硬化(artherosclerosis，As)病程进展迅速，未经治疗20岁至29岁间冠心病死亡风险增大约80倍，而早期降脂干预能有效防止As进展，但目前大多数患者因未被早期发现而丧失了早期干预的时机。以往认为，在人群中FH发病率为1/500，但新近报道在法国、加拿大、黎巴嫩和芬兰其发病率为1/200，丹麦高达1/137。而国内报道的FH纯合及杂合患者总和不足百例，不及香港，并非由于我国FH发病率低，而是由于对FH的危害认识不足。中国作为世界上人口最多的国家，承受FH的遗传负担可能比其它国家更为严重，但我国FH患者的遗传背景尚不清楚，因此，在深入研究FH的病因及分子机制，对于FH患者早期诊断、早期干预有重要意义。

FH是单基因遗传性疾病，是受一对等位基因控制的遗传病。迄今为止共发现3种FH致病基因：(1)低密度脂蛋白受体(low density lipoprotein-receptor，LDL-R)可介导大约70％的LDL进入细胞；该突变最为常见，约占已知突变的70％；(2)载脂蛋白B100(apolipoprotein B100，apoB100)是LDL与其受体结合所需的配体，突变占15％；(3)蛋白转化酶-枯草溶菌素9(proprotein convertase subtilisin/kexin type 9，PCSK9)能水解LDL-R蛋白，突变少见。上述3个致病基因围绕LDL-R发挥重要的生理功能，是胆固醇代谢的关键基因，其中一个基因发生突变则使编码蛋白发生结构和功能变化以至胆固醇代谢发生根本性改变而引发FH。

虽然目前有全基因组测序、全外显子组测序等方法可以检测到致病突变，然而由于花费大，耗时长，不宜在广大人群中使用。随着高通量二代测序技术在科研及临床领域的广泛应用，使得大规模样品的基因组目标区域及候选基因区域的测序方案成为可能，研究者可以针对自已感兴趣的染色体区域或者大量的候选基因区域进行数百个甚至上千个样品的序列测定。目标区域测序(target region sequeneing，TRS)作为二代测序的一种技术方法，其可针对疾病已知致病位点、基因或疾病相关基因组区段进行针对性的捕获测序分析，逐渐被广泛应用于疾病研究和疾病的临床诊断、基因筛查中，其具有以下特点：

(1)针对性强：比起全基因组水平的研究，目标区域测序更具有针对性，可以依赖大量的前期研究成果，获得候选染色体区域或者基于生物通路的大量候选基因；

(2)费用低：比起外显子组测序，目标区域测序区域较小，同时可对数百个样品进行快速测序，大大降低了研究成本；

(3)信息量大：比起目标区域或者候选基因单倍型标签SNP分型的研究策略，目标区域测序可以完整覆盖整个基因区域，不仅可以获得高频SNP的分型数据，而且还可以发现低频的和个体特有的变异；

(4)效率高：比起使用Sanger法的候选基因测序方法，基于二代测序技术的目标区域测序更加快速、高效。

然而由于各个疾病的致病基因不同，构建靶向捕获二代测序芯片需要因不同疾病而特殊制定。目前为止，没有专门为中国家族性高胆固醇血症的患者设计的特殊靶向捕获二代测序芯片，这已成为了急需解决的问题。

发明内容

本发明的目的在于提供了一种高胆固醇血症致病基因筛查探针设计方法及其基因芯片，由于高冠心病风险，中国作为世界上人口最多的国家，承受FH的遗传负担可能比其它国家更为严重，需要采用一种有效的方法筛选可能的FH患者，而靶向捕获二代测序技术通常需要个体化针对不同的疾病定制不同的捕获芯片。因此，我们通过系统性的回顾了所有与家族性高胆固醇血症相关的致病突变基因及SNPs，并且筛选与脂代谢相关的所有基因和SNPs。同时，还筛选了早发冠心病的致病基因和SNPs。对所有的致病基因和SNPs进行系统性归纳和汇总，最终绘制一幅完整的筛选目标区域。本发明的基因芯片操作步骤简单，检测特异性高，稳定性好，时间短，成本低。

本发明所采用的技术方案如下：

一种高胆固醇血症致病基因筛查探针设计方法，包括：

步骤1探针设计，探针组的数量为7，其中探针组1为JL3_1、探针组2为JL_1、探针组3为JL4_1、探针组5为JL1_1、探针组6为JL2_1、探针组7为JL-UTR_1，探针总数量为12944，探针包大小为1.012Mbp，每个样品的推荐最小排序为202.577Mbp；

步骤2捕获建库和测序，首先对DNA进行高效富集，然后在Illumina平台上进行高通量、高深度测序，所述建库实验采用Agilent SureSelect XT Custom试剂盒；

步骤3生物信息分析，首先对测序得到的原始测序序列进行原始数据质控，然后进行序列比对，在进行完变异检测与注释后展开共有突变分析、基于位点显著性分析以及基于基因显著性分析。

所述步骤2捕获建库和测序进一步包括：

步骤201，DNA样品检测。对DNA样品的检测主要包括2种方法：1)琼脂糖凝胶电泳分析DNA降解程度以及是否有RNA、蛋白质污染；2)Qubit对DNA浓度进行精确定量，其中含量在0.5μg以上的DNA样品被用来建库；

步骤202，捕获建库。将基因组DNA经Covaris破碎仪随机打断成长度为180-280bp的片段，经末端修复和加A尾后在片段两端分别连接上接头制备DNA文库，将带有特异index的文库pooling后与生物素标记的探针进行液相杂交，再使用带链霉素的磁珠将基因组上的特定目标区域捕获下来，经PCR线性扩增后进行文库质检，待质检合格后即可进行测序；

步骤203，库检。文库构建完成后，先使用Qubit 2.0进行初步定量，随后使用Agilent2100对文库的insert size进行检测，insert size符合预期后，使用qPCR方法对文库的有效浓度(3nM)进行准确定量，以保证文库质量；

步骤204，上机测序。依据合格文库的有效浓度及数据产出需求，进行IlluminaHiSeq4000 PE150测序。

所述步骤3中的原始数据质控进一步包括：测序得到的原始测序序列，里面含有带接头的、低质量的reads。为了保证信息分析质量，需要对raw reads进行精细过滤，得到clean reads，后续分析都基于clean reads进行，具体包括如下步骤：

1)去除带接头(adapter)的reads对；

2)当单端测序read中N(N表示无法确定碱基信息)的比例大于10％时，需要去除此对reads；

3)当单端测序read中含有的低质量(低于5)碱基数超过该条read长度比例的50％时，需要去除此对reads。

所述步骤3中的序列比对进一步包括：有效测序数据通过BWA比对到参考基因组，得到BAM格式的最初的比对结果，然后，用SAMtools对比对结果进行排序；再用Picard标记重复reads(mark duplicate reads)，再利用重复标记后的比对结果进行覆盖度、深度的统计。

所述步骤3中的变异检测与注释进一步包括：在比对结果的基础上，利用SAMtools识别SNP位点和InDel，并采用预设的过滤标准对SNP位点和InDel进行过滤，所述过滤标准如下：

a)过滤千人基因组数据库变异位点，去除个体间多样性位点，得到真正可能致病的罕见突变(rare)：保留1000G中频率低于0.01的变异位点；

b)保留外显子区(exonic)或剪接位点区(splicing，上下10bp)的变异；

c)去除同义突变，得到对基因表达产物有影响的突变；

d)依据SIFT、Polyphen、Mutation Taster，CADD这4个软件，要求这4个软件中，至少有一半支持该位点可能有害，该位点才被保留，变异筛选和统计之后，对筛选出的SNV、InDel两种类型变异分别进行变异信息的注释，其中SNV和InDel的注释包括千人基因组计划、ExAC、Novo-Zhonghua和其他已有的数据库的注释信息，注释内容包含6个部分，分别为优先级信息、基因及区域注释、数据库频率注释、保守有害性预测、变异位点信息、基因功能及通路注释。

所述步骤3中的共有突变分析进一步包括：在位点过滤的基础上，筛选样本间共有的突变基因，筛选的比例为10％的患者中共有，如果计算患者中10％的比例所包括的共有样本数时，得到的结果中带有小数，则需要向上取整，比如，经计算得到10％的样本数是19.2，则需要筛选至少20个样本共有的突变基因，根据实际情况可调参。

所述步骤3中的基于位点显著性分析进一步包括：利用PLINK对变异位点进行关联分析，利用Fisher检验计算患者与正常人之间具有显著性差异的位点：计算每个SNP位点的p值和OR值，通过关联的显著度P-value，筛选显著性关联的变异位点，这部分变异位点即为与家族性高胆固醇血症相关的变异位点。

所述步骤3中的基于基因显著性分析进一步包括：在位点过滤的基础上，利用SKAT算法在基因层面对突变进行Burden analysis，从基因层面挖掘与疾病相关的变异，有利于发现与疾病相关的罕见变异。

一种高胆固醇血症致病基因筛查的基因芯片，其特征在于，所述基因芯片包括固相载体和固定于所述固相载体上的探针，所述探针序列如序列表1-158所示。

所述固相载体选自载玻片、硅片、膜或高分子材料中的任意一种，所述膜选自硝酸纤维素膜、尼龙膜、聚苯乙烯膜中的任意一种。

通过本发明的技术方案可以显著提高我国家族性高胆固醇血症患者的检出率。

附图说明

图1为该高胆固醇血症致病基因筛查探针设计方法的流程示意图；

图2为探针报告部分示例的示意图；

图3为捕获建库流程示意图。

具体实施方式

为了更好的说明本发明，现结合具体实施例以及说明书附图对技术方案作进一步的说明。虽然实施例中记载了这些具体的实施方式，然其并非用以限定本发明，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视权利要求书所界定者为准。

一种高胆固醇血症致病基因筛查探针设计方法的流程示意图如图1所示。该基因筛查方法分为3个步骤，分别是步骤1探针设计，步骤2捕获建库和测序以及步骤3生物信息分析。

以基因列表中的基因和位点为捕获对象，依据安捷伦探针设计方法，进行捕获探针的设计，探针报告部分示例如图2所示。该探针组的数量为7，其中探针组1为JL3_1、探针组2为JL_1、探针组3为JL4_1、探针组5为JL1_1、探针组6为JL2_1、探针组7为JL-UTR_1，探针总数量为12944，探针包大小为1.012Mbp，每个样品的推荐最小排序为202.577Mbp。

图3为步骤2中捕获建库的流程示意图。首先对DNA进行高效富集，然后在Illumina平台上进行高通量、高深度测序。建库和捕获实验采用Agilent SureSelect XT Custom试剂盒，并严格使用该试剂盒说明书推荐的试剂和耗材，并参照最新的经过优化的实验流程进行操作。

步骤201，DNA样品检测。对DNA样品的检测主要包括2种方法：1)琼脂糖凝胶电泳分析DNA降解程度以及是否有RNA、蛋白质污染；2)Qubit对DNA浓度进行精确定量，其中含量在0.5μg以上的DNA样品被用来建库。

步骤202，捕获建库。将基因组DNA经Covaris破碎仪随机打断成长度为180-280bp的片段，经末端修复和加A尾后在片段两端分别连接上接头制备DNA文库，将带有特异index的文库pooling后与生物素标记的探针进行液相杂交，再使用带链霉素的磁珠将基因组上的特定目标区域捕获下来，经PCR线性扩增后进行文库质检，待质检合格后即可进行测序。

步骤203，库检。文库构建完成后，先使用Qubit 2.0进行初步定量，随后使用Agilent 2100对文库的insert size进行检测，insert size符合预期后，使用qPCR方法对文库的有效浓度(3nM)进行准确定量，以保证文库质量。

步骤204，上机测序。依据合格文库的有效浓度及数据产出需求，进行IlluminaHiSeq 4000 PE150测序。

接下来进行步骤3生物信息分析。生物信息分析包括以下几个步骤：

步骤301，原始数据质控。测序得到的原始测序序列，里面含有带接头的、低质量的reads。为了保证信息分析质量，需要对raw reads进行精细过滤，得到clean reads，后续分析都基于clean reads进行，具体包括如下步骤：

1)去除带接头(adapter)的reads对；

步骤302，序列比对。有效测序数据通过BWA比对到参考基因组，得到BAM格式的最初的比对结果。然后，用SAMtools对比对结果进行排序；再用Picard标记重复reads(markduplicate reads)，再利用重复标记后的比对结果进行覆盖度、深度的统计。

步骤303，变异检测与注释。在比对结果的基础上，利用SAMtools识别SNP位点和InDel，并采用国际惯用的过滤标准对SNP位点和InDel进行过滤，具体过滤标准如下：

a)过滤千人基因组数据库(人群中频率大于0.01)变异位点，去除个体间多样性位点，得到真正可能致病的罕见突变(rare)：保留1000G中频率低于0.01的变异位点；

c)去除同义突变(不导致氨基酸编码改变的突变)，得到对基因表达产物有影响的突变；

d)依据SIFT、Polyphen、Mutation Taster，CADD这4个软件，要求这4个软件中，至少有一半支持该位点可能有害，该位点才被保留(举例：一个位点的预测结果′SIFT＝0.07，T′，′Polyphen2-HVAR＝0.923，D，Polyphen2-HDIV＝0.999，D′，′Mutation Taster＝1.000，N′，′CADD＝.′，那么该位点处支持有害的软件比例为1/3，不到一半，该位点会被丢弃)。变异筛选和统计之后，对筛选出的SNV、InDel两种类型变异分别进行变异信息的注释。其中SNV和InDel的注释包括千人基因组计划、ExAC、Novo-Zhonghua和其他已有的数据库的注释信息，注释内容包含6个部分，分别为优先级信息、基因及区域注释、数据库(频率)注释、保守(有害)性预测、变异位点信息、基因功能及通路注释。

步骤304，共有突变分析。在位点过滤的基础上，筛选样本间共有的突变基因，筛选的比例为10％的患者中共有(如果有control样本，需要同时满足90％的control样本不携带此基因的有害性突变)，如果计算患者中10％的比例所包括的共有样本数时，得到的结果中带有小数，则需要向上取整，比如，经计算得到10％的样本数是19.2，则需要筛选至少20个样本共有的突变基因，根据实际情况可调参。

步骤305，基于位点显著性分析。利用PLINK对变异位点进行关联分析，利用Fisher检验计算患者与正常人之间具有显著性差异的位点：计算每个SNP位点的p值和OR值，通过关联的显著度(P-value)，筛选显著性关联的变异位点，这部分变异位点即为与家族性高胆固醇血症相关的变异位点。

步骤306，基于基因显著性分析。在位点过滤的基础上，利用SKAT算法在基因层面对突变进行Burden analysis，从基因层面挖掘与疾病相关的变异，有利于发现与疾病相关的罕见变异。

本发明提供了一种高胆固醇血症致病基因筛查的基因芯片，所述基因芯片包括固相载体和固定于所述固相载体上的探针，所述探针序列如序列表1-158所示。

所述探针可以被修饰，修饰方法可以是5’-NH2修饰、5’-SH修饰、5’-PolyT(A、C或G)修饰、5’-生物素修饰、3’-NH2修饰、3’-SH修饰、3’-PolyT(A、C或G)修饰和3’-生物素修饰等。

本发明中所述固相载体可选用领域周知的载体，只要所述载体与反应物相容，不会影响检测结果就可以。优选地，所述固相载体选自载玻片、硅片、膜或高分子材料中的任意一种。优选地，所述膜选自硝酸纤维素膜、尼龙膜、聚苯乙烯膜中的任意一种。

芯片制备方法主要包括两种类型：

1)点样法：首先是探针库的制备，根据基因芯片的分析目标从相关的基因数据库中选取特异的序列进行PCR扩增或直接人工合成寡核苷酸序列，然后通过计算机控制的三坐标工作平台用特殊的针头和微喷头分别把不同的探针溶液逐点分配在玻璃、尼龙以及其它固相基片表面的不同位点上，通过物理和化学的方法使之固定，该方法各技术环节均较成熟，且灵活性大，适合于研究单位根据需要自行制备点阵规模适中的基因芯片；

2)原位合成法：该法是在玻璃等硬质表面上直接合成寡核苷酸探针阵列，目前应用的主要有光去保护并行合成法，压电打印合成法等，其关键所述探针可通过连接臂固定于固相载体上。连接臂可以为探针形成双链的部分提供一个自由的空间以减少空间位阻，有助于杂交反应的进行。连接臂越长，杂交效率越高。典型的连接臂包括15-30个功能基团长度。连接臂可以选用适当形式的功能基团，如PolyT(A、C或G)、C原子或聚乙烯乙二醇与PolyT(A、C或G)的嵌合体、聚乙醇、聚酷、聚氨、聚硫酸酷和其组合物。是高空间分辨率的模板定位技术和高合成产率的DNA化学合成技术，适合制作大规模DNA探针芯片，实现探针芯片的标准化和规模化生产。

本发明还提供了上述基因芯片的使用方法，包括以下步骤：

(a)制备样品DNA片段；

(b)荧光标记上述DNA片段；

(c)洗脱上述标记产物；

(d)将标记产物与所述基因芯片杂交；

(e)扫描检测基因芯片的杂交信号，获得结果。

所述样品DNA片段制备可包括扩增的步骤，用分离的靶样本中含核酸的细胞直接扩增，也可用抽提的靶核酸直接扩增。如用磁珠从全血中分离白细胞，直接用分离的白细胞或用全血抽提的核酸作模板，扩增目的核酸序列。扩增得到的DNA可含有荧光或生物素标记，标记的DNA可不经纯化直接用于杂交。

样品DNA片段可使用任何适当的扩增方法进行富集，如：聚合酶链反应(polymerasechainreaction，PCR)，多重PCR，连接酶链反应(ligasechainreaction，LCR)，滚环扩增(rollingcycleamplification，RCA)，基于核酸序列的扩增(nucleicacidsequence-basedamplification，NASBA)，链置换扩增(stranddisplacementamplification，SDA)和转录介导的扩增(transcriptionmedicatedamplification，TMA)等。

所述探针或样本DNA都适合用于标记。探针在合成引入标记，样本DNA可以在扩增中引入标记，或者扩增后用合适的方法引入标记。

合适的标记包括荧光标记、放射性同位素标记、发色团、发光体、FRET、酶、生物素或有特殊结合配体的配基。

进一步，本发明的基因芯片的制备使用原位合成法。本领域技术人员熟知利用原位合成法制备基因芯片的步骤，可以利用常规的技术手段完成本发明的基因芯片的制备。

本发明的保护范围并不限于上述的实施例，显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围内，则本发明的意图也包含这些改动和变形在内。

Claims

1.一种高胆固醇血症致病基因筛查探针设计方法，包括：

2.根据权利要求1所述的一种高胆固醇血症致病基因筛查探针设计方法，其特征在于，所述步骤2捕获建库和测序进一步包括：

步骤204，上机测序。依据合格文库的有效浓度及数据产出需求，进行Illumina HiSeq4000 PE150测序。

3.根据权利要求1所述的一种高胆固醇血症致病基因筛查探针设计方法，其特征在于，所述步骤3中的原始数据质控进一步包括：

测序得到的原始测序序列，里面含有带接头的、低质量的reads。为了保证信息分析质量，需要对raw reads进行精细过滤，得到clean reads，后续分析都基于clean reads进行，具体包括如下步骤：

1)去除带接头(adapter)的reads对；

4.根据权利要求1所述的一种高胆固醇血症致病基因筛查探针设计方法，其特征在于，所述步骤3中的序列比对进一步包括：有效测序数据通过BWA比对到参考基因组，得到BAM格式的最初的比对结果，然后，用SAMtools对比对结果进行排序；再用Picard标记重复reads(mark duplicate reads)，再利用重复标记后的比对结果进行覆盖度、深度的统计。

5.根据权利要求1所述的一种高胆固醇血症致病基因筛查探针设计方法，其特征在于，所述步骤3中的变异检测与注释进一步包括：

在比对结果的基础上，利用SAMtools识别SNP位点和InDel，并采用预设的过滤标准对SNP位点和InDel进行过滤，所述过滤标准如下：

c)去除同义突变，得到对基因表达产物有影响的突变；

6.根据权利要求1所述的一种高胆固醇血症致病基因筛查探针设计方法，其特征在于，所述步骤3中的共有突变分析进一步包括：在位点过滤的基础上，筛选样本间共有的突变基因，筛选的比例为10％的患者中共有，如果计算患者中10％的比例所包括的共有样本数时，得到的结果中带有小数，则需要向上取整，比如，经计算得到10％的样本数是19.2，则需要筛选至少20个样本共有的突变基因，根据实际情况可调参。

7.根据权利要求1所述的一种高胆固醇血症致病基因筛查探针设计方法，其特征在于，所述步骤3中的基于位点显著性分析进一步包括：利用PLINK对变异位点进行关联分析，利用Fisher检验计算患者与正常人之间具有显著性差异的位点：计算每个SNP位点的p值和OR值，通过关联的显著度P-value，筛选显著性关联的变异位点，这部分变异位点即为与家族性高胆固醇血症相关的变异位点。

8.根据权利要求1所述的一种高胆固醇血症致病基因筛查探针设计方法，其特征在于，所述步骤3中的基于基因显著性分析进一步包括：在位点过滤的基础上，利用SKAT算法在基因层面对突变进行Burden analysis，从基因层面挖掘与疾病相关的变异，有利于发现与疾病相关的罕见变异。

9.一种高胆固醇血症致病基因筛查的基因芯片，其特征在于，所述基因芯片包括固相载体和固定于所述固相载体上的探针，所述探针序列如序列表1-158所示。

10.根据权利要求9所述的基因芯片，其特征在于，所述固相载体选自载玻片、硅片、膜或高分子材料中的任意一种，所述膜选自硝酸纤维素膜、尼龙膜、聚苯乙烯膜中的任意一种。