CN116790740A

CN116790740A - 一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法

Info

Publication number: CN116790740A
Application number: CN202310468342.5A
Authority: CN
Inventors: 王秋权; 郑露; 赵超越; 戴朴; 黄莎莎; 袁永一; 康东洋; 张倩
Original assignee: Beijing Ruisheng Taihe Technology Co ltd; First Medical Center of PLA General Hospital
Current assignee: Beijing Ruisheng Taihe Technology Co ltd; First Medical Center of PLA General Hospital
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-09-22

Abstract

本发明公开了一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，涉及生物医学技术领域，其技术要点为：首先准备Illumina平台测序所需的文库，设计108bp标记生物素的探针结合到目标区域基因全序列，利用液相捕获试剂盒将已知听觉前庭基因全序列捕获出来，用二代测序仪IlluminaNextSeq500进行二代测序，并进行生物信息分析；具体包括以下步骤：S1、文库构建；S2、目标基因的捕获；S3、高通量测序；S4、CNVs生物信息分析。本发明能够在听觉前庭基因组范围内直接检出CNVs，便于实现大规模样本的听觉前庭基因组CNVs检测；并且其检测敏感性高，操作简单，重复性好，还可兼顾SNPs检查；与现有的检测相比，本发明大大降低了检测成本。

Description

一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法

技术领域

本发明涉及生物医学技术领域，具体涉及一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法。

背景技术

拷贝数变异(CNVs)是听觉前庭功能异常发病机制中的重要一环，对目前不能确诊的听觉前庭功能异常患者群进行CNVs研究兼具必要性和重要性，系统研究听觉前庭基因组CNVs有望突破现有基因诊断的瓶颈。

传统用于CNVs的检测手段中，例如以实时荧光定量PCR技术和多重连接探针扩增技术为代表的PCR技术和比较基因组杂交技术，均存在以下缺陷：

①特殊的实验条件设计、操作繁琐；

②检测通量小，需对检测目标逐一比对；

③检测精确度低，分辨率为10Mb以上等。

由于上述缺陷，使得上述技术不能成为CNVs的高效检测手段。

近年来发展的染色体微阵列分析技术(Chromosomal Microarray Analysis,CMA)包括微阵列比较基因组杂交芯片(Array-CGH)和单核苷酸多态性芯片两项技术，因其高分辨率、高通量及规范化的技术流程被用于基因组CNVs的检测，但无法检测染色体平衡易位、倒位、低水平的嵌合体。同时因为用于CMA的芯片均是商业产品，主要用于重大出生缺陷和发育性疾病CNVs检测，芯片与配套检测设备价格较昂贵，不能根据检测目的调整芯片设计，难以广泛应用于临床。第三代测序技术(Tird Gneration Squencing；TGS)仍面临着价格高等问题，因此，亟需一种简易、高效的基因全序列捕获芯片来解决上述常见耳聋基因拷贝数变异检测问题。

为此，本发明旨在提供一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，以解决上述问题。

发明内容

本发明的目的是为了解决上述问题，提供一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法。

为了达到上述目的，本发明的技术方案如下：一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，首先准备Illumina平台测序所需的文库，设计108bp标记生物素的探针结合到目标区域基因全序列，利用液相捕获试剂盒将已知听觉前庭基因全序列捕获出来，用二代测序仪Illumina NextSeq 500进行二代测序，并进行生物信息分析；具体包括以下步骤：

S1、文库构建：

使用建库试剂盒按照Illumina平台的要求构建文库；取1～5μgDNA样本用酶切的方法进行片段化，末端修复，3′末端加‘A’，再加接头得到大约350-400bp的片段，进行PCR富集，最后采用安捷伦2100生物分析仪进行文库构建分析；

S2、目标基因的捕获：

经过生物素标记的探针与文库DNA在一定条件下进行杂交，采用链霉亲和素修饰的磁珠共价结合生物素标记的探针，抓取目的基因全序列，目的基因全序列包括外显子和内含子；最后采用磁力架吸附携带目的基因的磁珠，洗脱纯化，富集目的基因；构建听觉前庭基因组的全序列捕获芯片，对选择的已知基因均进行全序列捕获；

S3、高通量测序：

采用独特的“桥式”扩增反应,文库加载到测序芯片Flowcell上，通过NextSeq 500自动循环和成像；测序采用可逆性末端边合成边测序反应，对2种荧光标记的可逆的核苷酸进行测序；每个循环反应只延伸一个正确互补的碱基，根据四种不同的荧光信号确认碱基种类，保证最终的核酸序列质量，经过多个循环后，完整读取核酸序列；

听觉前庭功能基因的全序列捕获芯片，测序总容量100G，平均测序深度大于200X，每次实现25个不同个体样本的同时测序，覆盖度达98.52％；

S4、CNVs生物信息分析：

将测序所得数据进行过滤、拆分、与参考序列比对、注释操作，得到基因突变信息和其生物学意义。

进一步地，步骤S4中具体包括以下步骤：

A、数据过滤和比对；

B、拷贝数变异计算；

C、数据库比对；

D、断裂点分析。

进一步地，步骤A具体为：

首先，采用cutadapt去除adaptor、低质量和短reads(<40bp)得到cleanreads；

然后，采用BWA软件将cleanreads与人基因组参考序列(hg19)进行比对，得到比对结果sam文件；采用samtools将sam文件转为bam文件并排序；

利用picard/MarkDuplicates.jar工具去除PCR扩增产生的冗余reads，消除由于文库扩增而导入的突变，降低假阳性。

进一步地，步骤B中通过拷贝数系数能够分析CNVs状态，具体为：

统计覆盖到基因的每个外显子的reads数，然后根据外显子位置为横坐标，外显子对应覆盖度为纵坐标作图，得出重复扩增和缺失分析图；外显子大片段缺失/扩增突变由外显子拷贝数系数来确定，拷贝数系数为分析样本外显子read数/对照样本read数；拷贝数系数＜0.2为纯合缺失突变，0.4＜拷贝数系数＜0.6为携带者杂合缺失突变；1.4＜拷贝数系数＜1.6为杂合重复突变，拷贝数系数每增加0.5，增加一个重复拷贝。

进一步地，步骤C具体为：

将所有获得的疑似缺失重复区域与OMIM、GeneReviews、Decipher、ClinVar、DGV数据库进行比对，获得染色体区域相关表型信息。

进一步地，步骤D具体为：

利用bwa软件将测序reads与参考基因组进行比对，采用crest软件检测比对结果中的soft-clipped reads(当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads叫做soft-clipped reads)，根据soft-clipped reads对应断裂点的支持reads和局部组装结果，即分析出断裂点。

与现有技术相比，本方案的有益效果：

1、本发明的方案通过已知的内耳基因表达谱、综合征型耳聋基因谱、前庭功能异常基因谱相关生物信息学数据，及前期研究数据，选择的178个已知基因均进行全序列捕获，估算其总长13M，去掉重复序列后捕获长度约8M，覆盖度达98.52％；

2、通过本发明方法构建的常见耳聋基因拷贝数检测诊断芯片，能够在听觉前庭基因组范围内直接检出CNVs，便于实现大规模样本的听觉前庭基因组CNVs检测；

3、通过本发明构建的常见耳聋基因拷贝数检测诊断芯片，其检测敏感性高，操作简单，重复性好，还可兼顾SNPs检查；并且，与现有的检测相比，本发明大大降低了检测成本。

附图说明

图1是本发明实施例中方法流程图；

图2是本发明实施例中基因组测序CNVs分析流程图；

图3是本发明实施例中样本OTOA基因1-4号外显子纯合缺失。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明的实施例及附图，对本发明的技术方案进行进一步详细地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

实施例：

本发明实施例提供的方案为：一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，如图1及上述发明内容描述所示。

以下为本发明实施例方案中的基因全序列捕获芯片制备和二代测序的总体流程：

首先准备Illumina平台测序所需的文库，设计108bp标记生物素的探针结合到目标区域基因全序列，利用液相捕获试剂盒将已知听觉前庭基因全序列捕获出来，用二代测序仪Illumina NextSeq 500进行二代测序，并进行生物信息分析。

1.外周血采集

经患者本人或其监护人同意后，抽取患者及其父母等相关亲属外周血各1-2mL装入EDTA抗凝管中，静置分层后及时进行基因组DNA提取。

2.基因组DNA的提取

应用QIAam全血DNA提取试剂盒(Qiagen公司,德国)，根据说明书指导进行提取基因组DNA。通过使用Nanodrop2000t检测样本DNA OD260/280比值对样本DNA质检，确定样本质检合格后进行文库构建等后续流程。

3.DNA全基因组文库制备

文库的制备是通过Illumina标准试剂盒流程完成。简而言之，取起始量3mg研究对象DNA，采用CovarisS2超声仪(Covaris公司,美国)进行基因组DNA超声片段化，按照制造商的规程进行DNA片段的末端修复，添加3'腺嘌呤(A)，衔接子连接和反应纯化，随后通过PCR扩增富集，最终的文库片段通过Nanodrop2000样本定量检测仪(Thermo公司,美国)和Agilenl2100生物分析仪(安捷伦科技公司,美国)进行质控。

4.全外显子组捕获及高通量测序

对样本178个遗传性耳聋基因进行听觉前庭基因组的全序列捕获芯片全序列捕获，在Nextseq500测序仪(Illumina公司,美国)上进行双端测序(paired-end)。具体为；经过生物素标记的探针与文库DNA在一定条件下进行杂交，用链霉亲和素修饰的磁珠共价结合生物素标记的探针，从而抓取目的基因全序列(包括外显子和内含子)，最后用磁力架吸附携带目的基因的磁珠，洗脱纯化，富集目的基因。构建听觉前庭基因组的全序列捕获芯片，对选择的已知基因均进行全序列捕获。

二代测序：Illumina公司采用独特的“桥式”扩增反应,文库加载到测序芯片Flowcell上，采用NextSeq 500自动循环和成像。

Illumina的测序采用可逆性末端边合成边测序反应，对2种荧光标记的可逆的核苷酸进行测序。每个循环反应只能延伸一个正确互补的碱基，根据四种不同的荧光信号确认碱基种类，保证最终的核酸序列质量，经过多个循环后，完整读取核酸序列。

听觉前庭功能基因的全序列捕获芯片，测序总容量100G，平均测序深度可大于200X，每次可实现25个不同个体样本的同时测序，覆盖度达98.52％。

5.生物信息分析

将测序所得数据进行经过滤、拆分、与参考序列比对、注释等后，对所得到基因突变信息和其生物学意义进行分析，其流程如图2所示。

A.数据过滤和比对：

首先运用cutadapt去除adaptor、低质量和短reads(<40bp)得到cleanreads；然后用BWA软件将cleanreads与人基因组参考序列(hg19)进行比对，得到比对结果sam文件；samtools将sam文件转为bam文件并排序；采用picard/MarkDuplicates.jar工具去除PCR扩增产生的冗余reads，消除由于文库扩增而导入的突变，降低假阳性。

B.拷贝数变异计算：

原理：探针捕获技术重复性好，捕获效率稳定，捕获区域reads数大致相同，通过拷贝数系数可以分析可能的CNVs状态。

分析方法：统计覆盖到基因的每个外显子的reads数，然后根据外显子位置为横坐标，外显子对应覆盖度为纵坐标作图，得出重复扩增和缺失分析图。外显子大片段缺失/扩增突变由外显子拷贝数系数来确定，拷贝数系数为分析样本外显子read数/对照样本read数。拷贝数系数＜0.2为纯合缺失突变，0.4＜拷贝数系数＜0.6为携带者杂合缺失突变。1.4＜拷贝数系数＜1.6为杂合重复突变，拷贝数系数每增加0.5，增加一个重复拷贝。

C.数据库比对：

所有获得的疑似缺失重复区域与OMIM、GeneReviews、Decipher、ClinVar、DGV等数据库进行比对。获得染色体区域相关表型信息。

D.断裂点分析：

将测序reads与参考基因组利用bwa软件进行比对，用crest软件检测比对结果中的soft-clipped reads(当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads叫做soft-clipped reads)，根据soft-clipped reads对应断裂点的支持reads和局部组装结果即可分析出断裂点。

6.结果

该样本OTOA基因1-4号外显子纯合缺失，如图3所示。

通过对数据库中1983例耳聋患者的178个已知听觉前庭基因组的全序列捕获，1086例明确分子病因(54.77％)，其中57例耳聋患者检出致病性CNVs(5.25％)。

检出的57个CNVs涉及15个基因发生CNVs(显性遗传基因8个，隐性遗传基因7个)及7个覆盖有多个基因的大片段变异。覆盖有多个基因的大片段变异，从其覆盖的候选基因中可明确其致病基因的有4个。共发现涉及19个耳聋相关基因发生CNVs，并分布于人类基因16条染色体上。对非SLC26A4基因的41个CNVs进一步分析，发现涉及的CNVs主要可分为以下几类：杂合型CNVs(31例)，纯合子CNVs(5例，其中4例缺失，1例重复)，不规则型CNVs(3例)，以及半合子CNVs(2例)。同时在隐性基因杂合CNVs的等位基因上同时也发现了14个SNVs。在这41个CNVs中，由于多发CNVs的存在(即在相同编码区域的同种类别的变异在不同个体中多次发生)，又可归纳为33种拷贝数事件，在这32种CNVs事件中，有3种为重复变异，占9.09％(3/33)，缺失变异为30种，占90.91％，在这30种缺失型CNVs中，有4种为纯合缺失。同时，对102例听力正常个体行168个耳聋基因芯片检测，其中2例检出明确致病突变，检出率1.96％，均为STRC基因杂合缺失。

综上所述，本发明所利用基因全序列捕获技术在不同样本间捕获效率一致，覆盖到基因的每个外显子和内含子的reads数大致相同，重复性好。采用的统计方法合理，通过统计拷贝数系数(外显子reads数/对照样本reads数)确定片段缺失或扩增。拷贝数系数＜0.2为纯合缺失突变，0.4＜拷贝数系数＜0.6为携带者杂合缺失突变；1.4＜拷贝数系数＜1.6为杂合重复突变，拷贝数系数每增加0.5，增加一个重复拷贝。此外，断裂点分析：因断点的确切位置能够反映出CNVs的长度以及其边界处的基因，对阐释CNVs的致病机制很重要，同时断点处的序列特征也能够反映出CNVs的发生机制。将测序reads与参考基因组利用bwa软件进行比对，用crest软件检测比对结果中的soft-clipped reads，根据soft-clippedreads对应断裂点的支持reads和局部组装结果即可分析出断裂点。

通过本发明的上述实施例，本发明的方法通过已知的内耳基因表达谱、综合征型耳聋基因谱、前庭功能异常基因谱相关生物信息学数据，及前期研究数据，选择的178个已知基因均进行全序列捕获，估算其总长13M，去掉重复序列后捕获长度约8M，覆盖度达98.52％；并且，本发明能够在听觉前庭基因组范围内直接检出CNVs，便于实现大规模样本的听觉前庭基因组CNVs检测；此外，通过本发明的检测敏感性高，操作简单，重复性好，还可兼顾SNPs检查；与现有的检测相比，本发明大大降低了检测成本(如现有技术需进行QPCR(1500),MLPA(1500-3000),单基因二代靶向测序(2000元)+全外显子测序(3000元)。本发明方法构建的多基因捕获芯片预计每个检测样本1000元左右。

以上具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，其特征是：首先准备Illumina平台测序所需的文库，设计108bp标记生物素的探针结合到目标区域基因全序列，利用液相捕获试剂盒将已知听觉前庭基因全序列捕获出来，用二代测序仪IlluminaNextSeq 500进行二代测序，并进行生物信息分析；具体包括以下步骤：

S1、文库构建：

S2、目标基因的捕获：

S3、高通量测序：

S4、CNVs生物信息分析：

2.如权利要求1所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，其特征是：步骤S4中具体包括以下步骤：

A、数据过滤和比对；

B、拷贝数变异计算；

C、数据库比对；

D、断裂点分析。

3.如权利要求2所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，其特征是：步骤A具体为：

首先，采用cutadapt去除adaptor、低质量和短reads(<40bp)得到clean reads；

然后，采用BWA软件将clean reads与人基因组参考序列(hg19)进行比对，得到比对结果sam文件；采用samtools将sam文件转为bam文件并排序；

利用picard/Mark Duplicates.jar工具去除PCR扩增产生的冗余reads，消除由于文库扩增而导入的突变，降低假阳性。

4.如权利要求2所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，其特征是：步骤B中通过拷贝数系数能够分析CNVs状态，具体为：

5.如权利要求2所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，其特征是：步骤C具体为：

6.如权利要求2所述的一种新型的常见耳聋基因拷贝数检测诊断芯片构建方法，其特征是：步骤D具体为：

利用bwa软件将测序reads与参考基因组进行比对，采用crest软件检测比对结果中的soft-clipped reads，根据soft-cl ipped reads对应断裂点的支持reads和局部组装结果，即分析出断裂点。