CN115637288B - 一种检测smn1和smn2基因拷贝数变化的方法及其应用 - Google Patents
一种检测smn1和smn2基因拷贝数变化的方法及其应用 Download PDFInfo
- Publication number
- CN115637288B CN115637288B CN202211660299.4A CN202211660299A CN115637288B CN 115637288 B CN115637288 B CN 115637288B CN 202211660299 A CN202211660299 A CN 202211660299A CN 115637288 B CN115637288 B CN 115637288B
- Authority
- CN
- China
- Prior art keywords
- depth
- sample
- smn1
- sequencing
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种检测SMN1和SMN2基因拷贝数变化的方法及其应用,所述方法包括:基于多重PCR扩增对SMN1和SMN2基因进行建库,高通量测序后进行数据质控和比对;计算样本测序数据中的每个扩增子的测序序列数目,生成其他基因基础部分深度矩阵、差异位点深度矩阵和同源区域深度矩阵,将相应深度矩阵合并到一起生成最终样本的深度矩阵文件;对所述深度矩阵文件进行数据校正,得到校正后的矩阵文件,将矩阵文件每行取平均数或中位数,用测试样本的某个扩增子所在行的平均数或中位数,除以对照样本对应于测试样本的某个扩增子所在行的平均数或中位数,得到比值,根据比值结果判断SMN1和SMN2的拷贝数变异结果。
Description
技术领域
本发明属于基因诊断领域,具体涉及一种检测SMN1和SMN2基因拷贝数变化的方法及其应用。
背景技术
脊髓性肌萎缩症(SMA),是一类由脊髓前角运动神经元变性导致肌无力、肌萎缩的疾病。SMA在人群中的携带频率约为1/40-1/50,发病率约1/(8000-10000),是第二常见的致死性常染色体隐性遗传病。SMA患者的主要致病基因是运动神经元存活基因(survivalmotor neuron,SMN)。SMN基因位于5号染色体长臂1区3带(5q13)上,具有9个外显子(外显子1,2a,2b,3-8),全长约27 kb,编码294个氨基酸的RNA结合蛋白SMN,这是高效组装小核内核糖核蛋白(snRNP)复合物所必需的。有2个高度同源拷贝SMN1(OMIM 600354)和SMN2(OMIM601627),端粒侧称SMN[T]或SMN1,着丝粒侧称SMN[C]或SMN2。两者仅在各自的3’端有5个碱基的差别,其中2个碱基位于外显子7、8,另3个碱基在内含子6、7中。其中,在外显子7的c.840C>T突变最为关键,导致SMN2的外显子剪接增强器功能受到抑制和SMN2外显子7跳跃。第8号外显子中的碱基变化对功能没有明显影响。
SMA患者中,约95%为SMN1基因第7和第8外显子纯合缺失或第7外显子纯合缺失所致,5%为SMN1杂合缺失、点突变或SMN1基因转化为SMN2基因所致。SMN1变异会减少SMN蛋白的产生,从而导致脊髓中前角细胞的丧失。虽然SMN1的缺失可以由SMN2来弥补,SMN2可以产生足够的SMN蛋白以允许除运动神经元之外的细胞类型的相对正常的发育。然而,SMN2并不能完全弥补SMN1的缺失,因为虽然SMN2的转录水平与SMN1相当,但大部分SMN2转录本缺乏外显子7,导致产生截短的不太稳定的SMN蛋白。SMN1/SMN2拷贝数检测是SMA携带者筛查与临床确诊的重要手段。
随着高通量测序技术的发展,基因检测可以在一个较快的时间内完成多个基因甚至全外显子组或全基因组测序分析。对于临床关注的特定基因,靶向测序技术可以将感兴趣的基因组区域富集出来测序,单个样本测序数据产出少且分析速度较快,因此更能经济高效地发挥NGS技术的优势,广泛应用到临床检测、健康筛查等众多领域。另外,靶向测序可以对目标区域进行深度测序,增加了目标区域内遗传变异的检测灵敏度和准确性。靶向测序的方法主要分为两种:杂交捕获测序和多重扩增子测序。多重PCR(multiplex PCR),又称多重引物PCR或复合PCR,多重扩增子测序即针对感兴趣的目标区域,设计多重PCR引物进行扩增富集并进行测序的技术。通常适用于检测几十到几千个位点,或几十kb以下的区域。杂交捕获测序,目前应用的主要是液相杂交捕获测序,即基于碱基互补配对原理,设计合成核酸探针,对DNA文库进行基于液相环境的目标区域杂交富集,并进行测序。但液相杂交捕获操作难度较高、操作时间较长、且容易受到探针捕获效率的影响,因此扩增子测序相比来说,更适合非专业技术人员操作。多重PCR作为一种快速构建靶向测序文库的方法,由于其高效性、系统性、和经济简便性在目前的临床基因检测及研究领域中发挥越来越大的作用。多重PCR应用在SMA上,可针对性地将SMN1与SMN2差异位点和完全同源区域均进行扩增,还可以达到快速筛查的效果。
因此,开发一种稳定以及准确的对SMN1和SMN2基因进行变异分析的方法对SMA携带者筛查与临床确诊具有重要作用。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种检测SMN1和SMN2基因拷贝数变化的方法及其应用。本发明基于多重PCR高通量测序的panel数据,开发了一种分析SMN1和SMN2拷贝数变异的分析方法,可在CNV(Copy number variations,拷贝数目变异)检测流程中增加对同源区域的检测,辅助对SMN1和SMN2基因拷贝数检测结果的判读,可稳定以及准确的检测SMN1和SMN2基因上拷贝数变化。
为达到此发明目的,本发明采用以下技术方案:
第一方面,本发明提供一种检测SMN1和SMN2基因拷贝数变化的方法,所述方法包括如下步骤:
(1)基于多重PCR扩增对SMN1和SMN2基因进行建库,高通量测序后进行数据质量控制和比对;
(2)计算样本测序数据中的每个扩增子的测序序列数目;生成其他基因基础部分深度矩阵、差异位点深度矩阵和同源区域深度矩阵,将相应深度矩阵合并到一起生成最终样本的深度矩阵文件;
(3)对所述深度矩阵文件进行数据校正,得到校正后的矩阵文件,将矩阵文件每行取平均数或中位数,用测试样本的某个扩增子所在行的平均数或中位数,除以对照样本对应于测试样本的某个扩增子所在行的平均数或中位数,得到比值,根据比值结果判断SMN1和SMN2的拷贝数变异结果。
常规CNV的检测流程会对序列的比对质量值进行限制,避免一些低复杂区域对数据的影响。针对同源区域,序列比对的比对质量值一般为0,根据比对质量值的阈值设定,同源区域在CNV检测生成样本的深度矩阵计算时会排除同源区域。因此本发明基于多重PCR的高通量测序的数据开发了一种对SMN1和SMN2基因进行变异分析的方法,可在CNV检测流程中增加对同源区域的检测,辅助对SMN1和SMN2基因拷贝数检测结果的判读。
优选地,步骤(1)中,所述建库和测序采用如下步骤进行:提取样本DNA,扩增基因组目的片段,特异性PCR引物酶解,PCR产物纯化,进行文库扩增,文库纯化以及环化,再进行上机测序。
本发明采用多重扩增体系检测SMN1和SMN2基因拷贝数,通过序列位置匹配引物位置进行深度计算,可在临床应用上达到快速检测的效果以及减少多重PCR中的错误序列引入的噪音。
优选地,步骤(1)中,所述数据质控和比对采用如下步骤进行:对测试样本和对照样本的测序原始数据进行质控,质控后的数据使用比对软件得到比对后未排序的文件,再根据基因组坐标排序,得到最终的比对数据。
优选地,所述质控的内容包括数据量在1.5 G以上;平均测序深度3000X;数据质量Q20>90%,Q30>85%。
优选地,步骤(2)中,所述测序序列数目采用如下步骤进行计算:
根据引物设计文件,统计每对扩增子的起始坐标与终止坐标。
优选地,所述引物设计文件中包括正向引物的起始坐标和终止坐标,反向引物的起始坐标和终止坐标;以正向引物的起始坐标和反向引物的终止坐标构建得到引物扩增区域文件。
本发明中所述引物扩增区域文件包含3列信息:1)染色体编号;2)正向引物的起始坐标;3)反向引物的终止坐标。
优选地,步骤(2)中,所述深度矩阵采用如下步骤获得:
其他基因基础部分深度矩阵:将扩增同一基因外显子的扩增子序列数目进行叠加,得到样本的其他基因基础部分深度矩阵;
差异位点深度矩阵:将SMN1和SMN2基因差异位点的扩增子序列数目进行计数分析,得到差异位点深度矩阵;
同源区域深度矩阵:将SMN1和SMN2基因同源区域的扩增子序列数目进行计数分析,得到同源区域深度矩阵。
本发明将差异位点的碱基计数方式加入到分析CNV的矩阵中,使用整个体系数据来校正,避免了多重体系可能存在部分区域扩增效率以及样本间的差异导致校正效果偏差。
本发明中其他基因基础部分深度矩阵,矩阵文件中每行代表一个扩增区域,每列代表样本在目标扩增区域内的深度。
本发明中差异位点深度矩阵,矩阵文件中每行代表每个差异位点,每列代表样本在目标位点的深度。
本发明中同源区域深度矩阵,矩阵文件中每行代表每个目标同源区域,每列代表样本在目标同源区域的累积深度。
本发明将同源区域的序列数目进行叠加,达到对同源区域的拷贝数的检测。叠加即将SMN2基因与SMN1同源的区域的深度和SMN1基因的区域深度进行累积。
优选地,步骤(3)中,所述对所述深度矩阵文件进行校正的方法如下:
M为校正前矩阵文件,矩阵文件中每列代表一个样本,每行代表一个扩增子的测序序列数目文件,a代表每个样本在每个引物扩增区间计算得到的测序深度,g代表每个引物扩增区间所有样本取几何平均数;
先按行进行几何平均:
得到如下矩阵:
再计算列的中位数Corr:
校正:
得到的M*为校正后矩阵文件,Test为待测样本,Ctrl为对照样本,b代表每个样本在每个引物扩增区间的测序深度校正后的数值,med为每列取中位数即每个样本所有引物扩增区间的深度取中位数,mean为取平均数,mean为对所有对照样本校正后的深度按行计算平均数;
。
优选地,步骤(3)中,根据比值结果判断SMN1和SMN2的拷贝数变异结果,所述判断的标准如下所示:
对于差异位点的比值结果:正常拷贝数的比值为0.8-1.1;比值0.35-0.75则表示杂合缺失;比值0-0.1为纯合缺失;
对于同源区域的比值结果:正常拷贝数的比值为0.85-1.1,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为4;比值为0.65-0.85,则表示SMN1或SMN2基因的1-6号外显子存在杂合缺失,SMN1和SMN2基因的1-6号外显子的总拷贝数为3;比值为0.4-0.6,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为2;比值为0.15-0.35,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为1;比值为0-0.1,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为0。
第二方面,本发明提供一种检测SMN1和SMN2基因拷贝数变化的检测装置,所述检测装置包括:
序列获取模块:用于获取待测样品的基因测序序列;
序列比对模块:对样本的测序原始数据进行质控和比对;
数据整合模块:计算样本测序数据中的每个扩增子的测序序列数目,生成相应深度矩阵,将深度矩阵文件合并到一起生成最终样本的深度矩阵文件;
数据校正模块:对所述深度矩阵文件进行数据校正;
拷贝数计算模块:将校正后的矩阵文件每行取平均数或中位数,用测试样本的某个扩增子所在行的平均数或中位数,除以对照样本对应于测试样本的某个扩增子所在行的平均数或中位数,得到比值;
检测结果输出模块:根据比值结果判断SMN1和SMN2的拷贝数变异结果,并输出拷贝数变异检测结果。
优选地,所述序列获取模块中,采用多重PCR扩增对SMN1和SMN2基因进行建库,进行高通量测序,获取待测样品的基因测序序列。
优选地,所述序列比对模块中,对样本的测序原始数据进行质控和比对,再与参考基因组进行比对,获得比对数据,所述样本包括测试样本和对照样本。
优选地,所述数据整合模块中,根据比对数据和引物坐标信息,计算样本测序数据中的每个扩增子的测序序列数目,得到其他基因基础部分深度矩阵、差异位点深度矩阵和同源区域深度矩阵,将相应深度矩阵合并到一起生成最终样本的深度矩阵文件。
优选地,所述检测结果输出模块中,根据比值结果判断SMN1和SMN2的拷贝数变异结果,所述判断的标准如下所示:
对于差异位点的比值结果:正常拷贝数的比值为0.8-1.1;比值0.35-0.75则表示杂合缺失;比值0-0.1为纯合缺失;
对于同源区域的比值结果:正常拷贝数的比值为0.85-1.1,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为4;比值为0.65-0.85,则表示SMN1或SMN2基因的1-6号外显子存在杂合缺失,SMN1和SMN2基因的1-6号外显子的总拷贝数为3;比值为0.4-0.6,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为2;比值为0.15-0.35,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为1;比值为0-0.1,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为0。
第三方面,本发明提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现第一方面所述的检测SMN1和SMN2基因拷贝数变化的方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的检测SMN1和SMN2基因拷贝数变化的方法的步骤。
本发明所述的数值范围不仅包括上述列举的点值,还包括没有列举出的上述数值范围之间的任意的点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。
相对于现有技术,本发明具有以下有益效果:
(1)本发明提出了一种基于多重扩增体系检测SMN1和SMN2基因拷贝数方法,通过序列位置匹配引物位置进行深度计算,可在临床应用上达到快速检测的效果以及减少多重PCR中的错误序列引入的噪音。相比于探针捕获等方法,多重PCR的方法可缩短建库时间,在临床使用中能够实现快速检测。
(2)本发明提出一种使用多重PCR引物设计位置与样本测序序列位置进行匹配计算区域的深度值,避免了多重PCR扩增引入的错误扩增序列或引物二聚体等造成的数据波动影响后续分析。其他panel分析过程中深度计算步骤是根据序列与目标区域的交集进行计算,但在多重PCR中,由于体系原因会有引物二聚体的生成或错误扩增,并不能反应样本实际序列。但根据常规交集计算方法,引物二聚体以及错误扩增的序列数目则会计算到目标区域的深度中,进而造成一定程度的误差。
(3)本发明通过将SMN1与SMN2同源基因差异位点的碱基计数方式添加到体系数据中,使用整个体系数据来校正,可有效减少多重体系在某些区域扩增效率不稳定而可能导致错误结果本发明将同源区域的序列数目进行叠加,达到对同源区域的拷贝数的检测。
(4)本发明增加了对SMN1和SMN2基因同源区域的拷贝数检测,通过将同源区域的深度叠加,可辅助判断SMN1和SMN2具体拷贝数变化的形式。
附图说明
图1是数据基本分析方法的流程图;
图2是构建样本待测区域深度文件的流程图;
图3是数据校正以及计算的流程图。
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了,所述实施例仅仅是帮助理解本发明,不应视为对本发明的具体限制。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1
本实施例提供基于多重PCR扩增测序数据进行SMN1和SMN2变异的检测方法,具体步骤如下所示。
1、建库测序
多重PCR的建库流程分为扩增基因组目的片段、特异性PCR引物酶解、PCR产物纯化、文库扩增、文库纯化以及环化,完成后进行上机测序操作。
采用Primer3软件对表1中涉及基因所在位置进行引物设计,表1中的基因编号以及基因组坐标可在NCBI中进行查询。
使用DNA提取试剂盒提取样本DNA,并使用Qubit对DNA浓度进行测定,建议DNA输入量为20-60 ng。然后使用设计好的引物配制溶液对基因组目的片段进行扩增,并进行酶解反应、产物纯化、文库扩增以及文库纯化。构建好的文库进行环化和index添加后即可进行上机测序,上机测序得到的FASTQ原始数据进行后续的生信分析。
2、数据基本分析:
首先对样本测序数据FASTQ进行基本质控,数据质控包括数据量1.5 G以上、平均测序深度3000X、数据质量Q20>90%,Q30>85%。
数据基本分析的步骤如下所示:
(1)原始数据的质控统计。原始FASTQ(Raw FASTQ)数据可使用fastqc软件对Q20、Q30、GC分布等基本指标进行统计,并判断是否满足质控要求;
(2)去除接头、低质量等。去除接头、低质量碱基等操作使用cutadapt软件,设置接头序列以及过滤低质量碱基等参数后对FASTQ数据进行处理得到Clean FASTQ文件;
(3)Clean FASTQ的质控统计。使用fastqc软件对Clean FASTQ文件分析得到与第一步相同的指标,并判断是否满足质控要求。
说明:Q20和Q30:测序数据中每个碱基都有对应的质量值,质量值是Q20,则错误识别的概率是1%,即错误率1%,或者正确率是99%;质量值是Q30,则错误识别的概率是0.1%,即错误率0.1%,或者正确率是99.9%。
质控后的Clean FASTQ数据进行基因组比对,比对步骤如下所示:
(1)构建参考基因组文件;可使用NCBI等网站提供的人类参考基因组文件(FASTA),并对该文件建立索引;
(2)运行软件;使用sentieon软件(NGS基因数据分析加速软件)中的bwa mem模块,输入是样本Clean FASTQ和参考基因组文件后可运行得到比对后未排序的BAM文件;
(3)排序处理;根据后续分析要求,对未排序的BAM文件使用sentieon软件中的sort模块进行排序分析得到最终的sorted bam文件。
数据基本分析方法的流程图如图1所示。样本测序后得到的原始测序数据文件经过质控后得到质控后FASTQ文件,并根据bwa mem模块将FASTQ中序列进行映射,并进行排序得到最终的sorted bam文件。
FASTQ:样本进行DNA提取并进行高通量测试后所得到的测序结果文件,文件格式为FASTQ。
BWA:序列比对软件。
BAM:存储reads到参考序列的比对信息的二进制文件。
3、构建样本待测区域深度文件
(1)构建扩增子坐标文件。根据引物设计文件,统计每对扩增子的起始坐标与终止坐标。引物设计文件中一般会包括正向引物的起始坐标和终止坐标,反向引物的起始坐标和终止坐标。以正向引物的起始坐标和反向引物的终止坐标构建可得到扩增子的坐标文件。
(2)构建样本的扩增深度矩阵文件。输入文件包括扩增子的坐标文件以及第一部分得到的样本bam文件,扩增子的坐标去计算每对引物扩增出的扩增子测序序列数目,将测序序列比对的坐标(该测序序列read所对应的扩增子在参考基因组中的位置信息)与引物坐标进行比较,满足坐标一致的序列则被认为此条序列属于目标扩增子。计算比对到所有扩增子的测序序列数目。某些区域可能存在多个扩增子,将扩增同一基因外显子的扩增子序列数目进行叠加,得到样本的部分深度文件。此步处理是由于多重PCR测序可能引入错误扩增或引物二聚体等不属于目标扩增子的序列,因此对序列进行匹配处理后进行计算相比于直接计算与目标区域有重叠的序列,会减少错误序列的计数,同时减少数据噪音。
SMN1和SMN2基因在碱基序列上共有5个差异的位点,计算引物扩增区域内每个差异位点支持参考碱基的碱基数目,如表2所示:
另外,SMN1和SMN2除五个差异位点外,其他外显子是完全同源的,针对完全同源区域的拷贝数检测,我们针对性开发了一种计算方法:将比对到两个同源区域的序列数目进行叠加,例如将比对到SMN2的一号外显子的序列数目与比对到SMN1的一号外显子的序列数目叠加。
将上述差异位点的矩阵结果以及同源区域叠加的矩阵结果与其他扩增区域的矩阵结果合并到一起生成最终样本的深度矩阵文件。
构建样本待测区域深度文件的流程图如图2所示,图2中样本的bam文件:
1)根据引物扩增区域计算其他基因或对照区域的扩增深度;
2)根据SMN1&SMN2差异的位点进行数目计算;
3)根据SMN1&SMN2同源区域计算同源区域的深度并进行叠加。将三种深度结果进行合并得到样本的最终矩阵结果文件。
4、数据校正以及计算
(1)将测试样本的测序序列数目文件与对照样本的文件按照相同位置进行合并,可得到一个矩阵文件。矩阵文件中每列代表一个样本,每行代表一个扩增子的测序序列数目文件。对最终得到的包含测试样本和对照样本的深度统计文件(即矩阵文件)进行数据校正,具体校正公式如下:
先按行(基因)几何平均:
得到如下矩阵:
然后计算列的中位数:
校正:
得到的M*为校正后矩阵文件,Test为待测样本,Ctrl为对照样本。
上述公式中:
a代表每个样本在每个引物扩增区间计算得到的测序深度;
g代表每行即每个引物扩增区间所有样本取几何平均数,Test为待测样本,Ctrl为对照样本;
b代表每个样本在每个引物扩增区间的测序深度校正后的数值;
med为每列取中位数即每个样本所有引物扩增区间的深度取中位数;
mean为取平均数,即对所有对照样本校正后的深度按行(每个引物扩增区间)计算平均数。
(2)根据校正后的矩阵文件,将对照样本的矩阵每行取平均数(或中位数),将测试样本的数值除以对照样本的中位数或平均数(如果对照样本取平均数,则测试样本的数值除以对照样本的平均数,如果对照样本取中位数,则测试样本的数值除以对照样本的中位数),可得到对照样本的比值情况。
(3)基于扩增子检出结果对SMN1和SMN2基因拷贝数变化进行检测,根据上步得到的比值情况,可得到待测样本与对照样本在SMN1和SMN2基因差异位点以及同源区域的比值情况。通过比值结果可判断SMN1以及SMN2的拷贝数变异结果。
对于差异位点的比值结果:正常拷贝数的比值为0.8-1.1;比值0.35-0.75则表示杂合缺失;比值0-0.1为纯合缺失;
对于同源区域的比值结果:正常拷贝数的比值为0.85-1.1,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为4;比值为0.65-0.85,则表示SMN1或SMN2基因的1-6号外显子存在杂合缺失,SMN1和SMN2基因的1-6号外显子的总拷贝数为3;比值为0.4-0.6,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为2;比值为0.15-0.35,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为1;比值为0-0.1,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为0。
其中c.840位点结果可用来判断SMN1和SMN2两个基因的7号外显子的拷贝数结果,8号外显子上的差异位点可判断8号外显子的拷贝数结果;其余三个差异位点以及同源区域的拷贝数结果可辅助判断SMN1的拷贝数变化范围是发生在整个基因上,或仅发生在7号外显子,或7-8号外显子。
数据校正以及计算的流程图如图3所示,图3中待测样本与其他多个对照样本的深度矩阵进行合并,合并后进行数据校正。校正后的矩阵即可进行比值计算,得到SMN1&SMN2差异位点以及同源区域的拷贝数结果。
实施例2
本实施例测试了两例阳性样本以及三例阴性样本,检测结果如表3所示:
上表中样本1为SMN1外显子7-8杂合缺失,其他区域正常,本次检测结果符合MLPA检测结果;样本2为SMN1 exon1-8纯合缺失,SMN2外显子1-8为3拷贝,五个差异位点均正常检出,同源外显子1-6显示整体拷贝数为4,符合MLPA检测结果;样本3-5均为阴性样本,也符合结果。
相比于探针捕获试剂盒,本发明使用多重PCR扩增技术,DNA投入量更低,操作性简便。一般地探针捕获技术需要DNA起始量在100 ng以上,而多重PCR技术1-10 ng即可完成。并且探针捕获技术杂交时间长,至少需要一天才能完成文库构建,而多重PCR技术4小时左右即可完成建库。本发明通过扩增SMN1和SMN2两个基因所有外显子区域以及SMN1与SMN2差异的5个位点,可检测整个基因的拷贝数变化。本发明针对性的开发对同源区域的拷贝数检测方法,可辅助判断SMN1与SMN2发生的变异形式。本发明针对多重PCR扩增测序,采用坐标匹配的方式计算扩增区域深度,可避免类似引物二聚体错误计数造成数据波动。
对比例1
选取3例阳性样本,其中sample1为SMN1杂合缺失样本,sample2和sample3为SMN1纯合缺失样本(3例样本SMN2基因拷贝数未知,因此仅比较SMN1的分析结果)。3例样本按照已设计好的引物进行扩增实验以及上机测序,每例样本均重复三次,得到9份数据。使用上述得到的数据按照本专利分析方法以及其他专利中提到z-score分析方法进行比较,表4为两种分析方法的结果。
Z-score分析方法:
1)覆盖深度标准化,将SMN1和SMN2每个区间和其他区间除以所有区间深度的中位数;
2)GC校正,去除由于GC含量差异造成的测序结果偏差;
3)计算Z-score, 根据待测样本区间校正后的深度减去批次所有样本区间深度的平均值再除以所有样本区间深度的标准差,得到Z-score。
根据上表结果,本专利分析结果均与阳性结果相符,且结果均在可信范围内。使用Z-score分析方法,杂合缺失样本中有两个区间信号例如-1.89,依据专利提供判读形式,可判读为拷贝数正常,低可信度,另外两例纯合样本的分析数值判读为杂合性缺失,高可信度,与阳性结果完全不符。Z-score方法在多重PCR的测序数据中的分析结果偏差较大,并且容易产生灰区结果。
综上,本发明基于多重PCR高通量测序的panel数据,开发了一种分析SMN1和SMN2拷贝数变异的分析方法,可在CNV检测流程中增加对同源区域的检测,辅助对SMN1和SMN2基因拷贝数检测结果的判读,可稳定以及准确的检测SMN1和SMN2基因上拷贝数变化。本发明所提供的检测方法具有可缩短建库时间,在临床能够实现快速准确检测。
申请人声明,以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,所属技术领域的技术人员应该明了,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,均落在本发明的保护范围和公开范围之内。
Claims (4)
1.一种检测SMN1和SMN2基因拷贝数变化的装置,其特征在于,所述装置包括:
(1)序列获取模块:用于获取待测样品的基因测序序列;采用多重PCR扩增对SMN1和SMN2基因进行建库,进行高通量测序,获取待测样品的基因测序序列;
(2)序列比对模块:对样本的测序原始数据进行质控和比对,再与参考基因组进行比对,获得比对数据,所述样本包括测试样本和对照样本;
(3)数据整合模块:计算样本测序数据中的每个扩增子的测序序列数目,生成相应深度矩阵,将深度矩阵文件合并到一起生成最终样本的深度矩阵文件;所述数据整合模块中,根据比对数据和引物坐标信息,计算样本测序数据中的每个扩增子的测序序列数目,得到其他基因基础部分深度矩阵、差异位点深度矩阵和同源区域深度矩阵,将相应深度矩阵合并到一起生成最终样本的深度矩阵文件;
所述其他基因基础部分深度矩阵,矩阵文件中每行代表一个扩增区域,每列代表样本在目标扩增区域内的深度;
所述差异位点深度矩阵,矩阵文件中每行代表每个差异位点,每列代表样本在目标位点的深度;
所述同源区域深度矩阵,矩阵文件中每行代表每个目标同源区域,每列代表样本在目标同源区域的累积深度;
所述测序序列数目采用如下步骤进行计算:根据引物设计文件,统计每对扩增子的起始坐标与终止坐标;所述引物设计文件中包括正向引物的起始坐标和终止坐标,反向引物的起始坐标和终止坐标;以正向引物的起始坐标和反向引物的终止坐标构建得到引物扩增区域文件;
所述深度矩阵采用如下步骤获得:
其他基因基础部分深度矩阵:将扩增同一基因外显子的扩增子序列数目进行叠加,得到样本的其他基因基础部分深度矩阵;
差异位点深度矩阵:将SMN1和SMN2基因差异位点的扩增子序列数目进行计数分析,得到差异位点深度矩阵;
同源区域深度矩阵:将SMN1和SMN2基因同源区域的扩增子序列数目进行计数分析,得到同源区域深度矩阵;
(4)数据校正模块:对所述深度矩阵文件进行数据校正,校正的方法如下:
M为校正前矩阵文件,矩阵文件中每列代表一个样本,每行代表一个扩增子的测序序列数目文件,a代表每个样本在每个引物扩增区间计算得到的测序深度,g代表每个引物扩增区间所有样本取几何平均数;
先按行进行几何平均:
得到如下矩阵:再计算列的中位数Corr:校正: 得到的M*为校正后矩阵文件,Test为待测样本,Ctrl为对照样本,b代表每个样本在每个引物扩增区间的测序深度校正后的数值,med为每列取中位数即每个样本所有引物扩增区间的深度取中位数,mean为取平均数,mean为对所有对照样本校正后的深度按行计算平均数;
(5)
拷贝数计算模块:将校正后的矩阵文件每行取平均数或中位数,用测试样本的某个扩增子所在行的平均数或中位数,除以对照样本对应于测试样本的某个扩增子所在行的平均数或中位数,得到比值;
(6)检测结果输出模块:根据比值结果判断SMN1和SMN2的拷贝数变异结果,并输出拷贝数变异检测结果;所述判断的标准如下所示:
对于差异位点的比值结果:正常拷贝数的比值为1;比值0.5则表示杂合缺失;比值0为纯合缺失;
对于同源区域的比值结果:正常拷贝数的比值为1,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为4;比值为0.75,则表示SMN1或SMN2基因的1-6号外显子存在杂合缺失,SMN1和SMN2基因的1-6号外显子的总拷贝数为3;比值为0.5,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为2;比值为0.25,则表示SMN1和SMN2基因的1-6号外显子的总拷贝数为1。
2.根据权利要求1所述的检测SMN1和SMN2基因拷贝数变化的装置,其特征在于,所述序列比对模块中,所述数据质控和比对采用如下步骤进行:
对测试样本和对照样本的测序原始数据进行质控,质控后的数据使用比对软件得到比对后未排序的文件,再根据基因组坐标排序,得到最终的比对数据;
所述质控的内容包括数据量在1.5 G以上;平均测序深度3000X;数据质量Q20>90%,Q30>85%。
3.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时实现权利要求1或2所述的检测SMN1和SMN2基因拷贝数变化的装置对应的检测步骤。
4.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1或2所述的检测SMN1和SMN2基因拷贝数变化的装置对应的检测步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211660299.4A CN115637288B (zh) | 2022-12-23 | 2022-12-23 | 一种检测smn1和smn2基因拷贝数变化的方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211660299.4A CN115637288B (zh) | 2022-12-23 | 2022-12-23 | 一种检测smn1和smn2基因拷贝数变化的方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115637288A CN115637288A (zh) | 2023-01-24 |
CN115637288B true CN115637288B (zh) | 2023-04-28 |
Family
ID=84949861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211660299.4A Active CN115637288B (zh) | 2022-12-23 | 2022-12-23 | 一种检测smn1和smn2基因拷贝数变化的方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115637288B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153249B (zh) * | 2023-10-26 | 2024-02-02 | 北京华宇亿康生物工程技术有限公司 | 用于检测smn基因拷贝数变异的方法、设备和介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210110885A1 (en) * | 2017-03-20 | 2021-04-15 | Celula China Med-Technology Co., Ltd. | Method of correcting amplification bias in amplicon sequencing |
CN113192555A (zh) * | 2021-04-21 | 2021-07-30 | 杭州博圣医学检验实验室有限公司 | 一种通过计算差异等位基因测序深度检测二代测序数据smn基因拷贝数的方法 |
CN113249453B (zh) * | 2021-07-08 | 2021-09-24 | 苏州赛美科基因科技有限公司 | 一种检测拷贝数变化的方法 |
-
2022
- 2022-12-23 CN CN202211660299.4A patent/CN115637288B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115637288A (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amarasinghe et al. | Opportunities and challenges in long-read sequencing data analysis | |
JP2021509583A (ja) | シーケンシングベースのアッセイの妥当性を確保するための品質管理鋳型 | |
CN106834502A (zh) | 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法 | |
KR20220047895A (ko) | 페이징 보정 | |
EP3718113A1 (en) | Validation methods and systems for sequence variant calls | |
CN113249453B (zh) | 一种检测拷贝数变化的方法 | |
CN110021351B (zh) | 分析碱基连锁强度以及基因分型方法和系统 | |
CN115637288B (zh) | 一种检测smn1和smn2基因拷贝数变化的方法及其应用 | |
IL258999A (en) | Methods for detecting copy-number variations in next-generation sequencing | |
KR20200058457A (ko) | 압축된 분자 태깅된 핵산 서열 데이터를 사용하여 융합을 검출하는 방법 | |
WO2014023076A1 (zh) | 一种地中海贫血的分型方法及其应用 | |
CN116386718B (zh) | 检测拷贝数变异的方法、设备和介质 | |
US20170109471A1 (en) | Variant analysis in high-throughput sequencing applications | |
AU2003226109A1 (en) | Mutation detection and identification | |
US20220364080A1 (en) | Methods for dna library generation to facilitate the detection and reporting of low frequency variants | |
US20200216888A1 (en) | Method for increasing accuracy of analysis by removing primer sequence in amplicon-based next-generation sequencing | |
Chen et al. | DeBreak: Deciphering the exact breakpoints of structural variations using long sequencing reads | |
Rhie et al. | Chasing perfection: validation and polishing strategies for telomere-to-telomere genome assemblies | |
WO2020243678A1 (en) | Compositions and methods related to quantitative reduced representation sequencing | |
US20230207059A1 (en) | Genome sequencing and detection techniques | |
WO2017136606A1 (en) | Apparatus, systems, and methods for dna amplification with post-sequencing data filtering and cell isolation | |
US20230332205A1 (en) | Linked dual barcode insertion constructs | |
Yang et al. | Combinatorial Detection Algorithm for Copy Number Variations Using High-throughput Sequencing Reads | |
Lähdesmäki | CS-E5875 High-Throughput Bioinformatics Variant calling and de novo assembly | |
WO2022071953A1 (en) | Random insertion genome reconstruction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |