CN113192555A - 一种通过计算差异等位基因测序深度检测二代测序数据smn基因拷贝数的方法 - Google Patents

一种通过计算差异等位基因测序深度检测二代测序数据smn基因拷贝数的方法 Download PDF

Info

Publication number
CN113192555A
CN113192555A CN202110433911.3A CN202110433911A CN113192555A CN 113192555 A CN113192555 A CN 113192555A CN 202110433911 A CN202110433911 A CN 202110433911A CN 113192555 A CN113192555 A CN 113192555A
Authority
CN
China
Prior art keywords
copy number
smn2
smn1
calculating
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110433911.3A
Other languages
English (en)
Inventor
梁媛媛
许雄
肖锐
侯敏
陈梦婷
李海波
施丹华
田丽蕴
徐军
邱海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Bosheng Medical Laboratory Co ltd
Ningbo Women and Children Hospital
Original Assignee
Hangzhou Bosheng Medical Laboratory Co ltd
Ningbo Women and Children Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Bosheng Medical Laboratory Co ltd, Ningbo Women and Children Hospital filed Critical Hangzhou Bosheng Medical Laboratory Co ltd
Priority to CN202110433911.3A priority Critical patent/CN113192555A/zh
Publication of CN113192555A publication Critical patent/CN113192555A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,通过屏蔽参考基因组SMN2基因第7、8外显子,使所有SMN基因第7、8外显子的测序序列都比对到SMN1上,在SMN1和SMN2基因第7、8外显子差异碱基位置可以计算AD,本发明的技术方案可以消除随机测序错误等因素的影响;另外,本发明的技术方案兼容各种探针捕获测序样本,兼容单样本以及各种数量级样本的SMN拷贝数计算,可用于计算SMN1和SMN2第7、8外显子的各种拷贝数。

Description

一种通过计算差异等位基因测序深度检测二代测序数据SMN 基因拷贝数的方法
技术领域
本发明涉及生物医疗变异检测领域,具体为一种通过计算等位基因测序深度(Allelic depth,以下简称AD)来检测探针捕获二代测序数据的SMN基因拷贝数的方法。
背景技术
运动神经元存活基因1(survival motor neuron,SMN1)位于5q11.2-q13.3,编码SMN蛋白,SMN1基因有个高度同源的基因SMN2,仅能表达少量有正常功能的SMN蛋白。人细胞为二倍体细胞,大多数人在2条5号染色体上各有一个正常的SMN1基因和SMN2基因,即SMN1和SMN2基因的拷贝数都是2, SMN1和SMN2基因的拷贝数影响SMN蛋白的表达量,进而影响人体进行呼吸、爬、走、头颈控制以及吞咽等肌肉活动,因此检测SMN基因的拷贝数具有重要意义。
现有基因检测技术方案主要包括以下几种:(1)多重连接依赖探针扩增法(MLPA),这种方法有成熟的试剂盒,原理是分别针对SMN1和SMN2基因的第7、8外显子以及正常参照设计探针,对提取的DNA进行探针杂交和PCR扩增,然后进行扩增片段分离、峰高、峰面积的检测,以含2拷贝SMN1和SMN2 的正常样本作为参照,推算SMN1和SMN2的第7、8外显子的拷贝数,分辨率为1~3拷贝;(2)实时荧光定量PCR(qPCR),上海五色石医学研究股份有限公司的试剂盒(专利申请公布号:CN 104630368 A)采用DNA小沟结合探针qPCR 的方法,使用人RPP40基因作为内标基因,分别对SMN1基因的第7、8外显子进行扩增,并对拷贝数进行相对定量检测,同时采用化学阻断的方法控制SMN2 对定量结果的影响;(3)PCR限制性酶切分析法(PCR-RFLP),对样本进行SMN 基因第7、8外显子的PCR扩增及限制性内切酶(Dra I)酶切,用电泳跑开条带,分析产物,2拷贝样本第7外显子有2条带,分别是188bp(SMN1)和164bp (SMN2),0拷贝样本只有164bp条带,2拷贝样本第8外显子有188、120、68bp3 条带,相应的0拷贝样本没有188bp的条带,以此检测SMN1的纯合缺失;(4) 二代测序技术,Feng等人2017年在Genetics in Medicine杂志上发表了一篇文章 (PMID:28125085),其基本原理是将二代测序数据比对到人类参考基因组,目标捕获区域平均深度>300X,计算比对到SMN1和SMN2各个外显子的平均覆盖深度,使用大量对照样本的中位数进行标准化,以确定SMN1和SMN2的总拷贝数;之后基于区分两个基因的单核苷酸差异计算SMN1与SMN2的比例,根据比例分配总拷贝数。
发明内容
本发明的目的是克服现有技术的不足,提供一种通过计算AD来检测探针捕获二代测序数据的SMN基因拷贝数的方法。
本发明的技术方案如下:
一种通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,其特征在于包括如下步骤:
1)屏蔽参考基因组的SMN2第7外显子第一个碱基到第8外显子最后一个碱基,即chr5:69372348-69373422,之后建立参考基因组的索引;
2)探针捕获二代测序数据,随机挑选五十个样本,使用相同实验方案、相同二代测序方案取得原始fastq数据,对测得的原始数据进行序列质量过滤,然后比对到上述参考基因组上,所有SMN1和SMN2的第7、8外显子测序序列全部比对到SMN1相应位置,且在两个基因的单核苷酸差异处有SNP,将比对结果排序,去除重复序列(duplicate);
3)计算每个样本(以SAMPLE1为例)在bed文件每个区间的绝对平均深度,计算各区间绝对平均深度的平均值并记录,如:AVG_SampleName,利用AVG_ SampleName对每个区间进行样本内覆盖深度的标准化,计算各样本各区间的相对平均深度,使区间的覆盖深度不受测序数据量的影响;
4)利用所述区间的相对平均深度分布数据计算两两样本相关系数,利用相关系数矩阵画热图,剔除质控失败样本;
5)检测chr5:70220000-70250000范围内的变异,输出每个变异的DP和AD;
6)根据AD筛选对照样本,计算对照样本相对深度中位数;
7)样本量小于五十时,使用以上对照样本作为固定参考集,单个样本与参考集计算相关系数,单独计算相对于固定参考集的SMN拷贝数;样本量大于五十时,批次内挑选对照样本建立参考集,再分别计算批次内每个样本相对于参考集中位数的总拷贝数,计算AD,分配总拷贝数。
优选的,步骤2)中所述的探针捕获二代测序数据具体为,使用相同的探针捕获试剂,试剂需要至少覆盖SMN基因的第7、8外显子,探针区间个数的数量级可以是百、千、万。
优选的,步骤4)剔除质控失败样本为剔除与其他样本相关性<0.9的异常样本。进一步的,计算相关性时需剔除性染色体上的区间,从而消除样本性别的影响。
优选的,所述步骤5)中,对于第7外显子,若结果中有chr5-70247773-C-T变异,则此变异的AD即第7外显子SMN1/SMN2单核苷酸差异的AD,即AD_E7_Sa mpleName,若结果中无此变异,则SMN2第7外显子拷贝数为0;对于第8外显子,若结果中有chr5-70248501-G-A变异,则此变异的AD即第8外显子SMN1/SMN2单核苷酸差异的AD,即AD_E8_SampleName,若结果中无此变异,则SMN2第8外显子拷贝数为0。
进一步的,所述步骤6)为,第7外显子简称E7,第8外显子简称E8,挑选方案的原理是人群中SMN1_E7:SMN1_E8:SMN2_E7:SMN2_E8为2:2:2:2的概率远大于其他情况;从通过上述质控的样本中,挑选AD_E7_SampleName和AD_E8_ SampleName都介于0.9~1.1的样本作为对照样本,为消除试剂捕获区间与实际外显子区间的偏差,重新计算这些样本的E7绝对深度DP_E7_SampleName(染色体位置为chr5:70247768-70247821)、E8绝对深度DP_E8_SampleName(染色体位置为chr5:70248266-70248839),并用AVG_SampleName进行校正,DPnorm_E7 _SampleName和DPnorm_E8_SampleName分别是标准化后的第7、8外显子相对深度,公式为:
DPnorm_E7_SampleName=DP_E7_SampleName/AVG_SampleName;
DPnorm_E8_SampleName=DP_E8_SampleName/AVG_SampleName;
获取所有对照样本标准化后第7、8外显子相对深度的中位数,分别为Median _E7、Median_E8。
优选的,步骤7)中,单个待测样本拷贝数计算,具体为:以上对照样本作为固定参考集,保留其相对深度分布数据、Median_E7和Median_E8数据;与对照样本同样的实验方案和测序方案取得原始fastq数据,同样方法计算待测样本与对照样本的相关系数,如果质控通过,则同样的方法计算得待测样本的AD_E7、 AD_E8、DPnorm_E7和DPnorm_E8,AD_E7两个数值依次为DP_SMN1_E7和DP _SMN2_E7,AD_E8两个数值依次为DP_SMN1_E8和DP_SMN2_E8。
一般使用如下公式计算SMN1_E7、SMN1_E8、SMN2_E7、SMN2_E8的拷贝数:
TOTAL_E7=4*DPnorm_E7/Median_E7;
TOTAL_E8=4*DPnorm_E8/Median_E8;
SMN1_E7拷贝数=DP_SMN1_E7/(DP_SMN1_E7+DP_SMN2_E7)*TOTAL_E 7;
SMN1_E8拷贝数=DP_SMN1_E8/(DP_SMN1_E8+DP_SMN2_E8)*TOTAL_E 8;
SMN2_E7拷贝数=DP_SMN2_E7/(DP_SMN1_E7+DP_SMN2_E7)*TOTAL_E 7;
SMN2_E8拷贝数=DP_SMN2_E8/(DP_SMN1_E8+DP_SMN2_E8)*TOTAL_E 8;
若无chr5-70247773-C-T变异,则计算公式为:
SMN1_E7拷贝数=TOTAL_E7=4*DPnorm_E7/Median_E7;
SMN2_E7拷贝数=0;
若无chr5-70248501-G-A变异,则计算公式为:
SMN1_E8拷贝数=TOTAL_E8=4*DPnorm_E8/Median_E8;
SMN2_E8拷贝数=0。
与现有技术相比,本发明对二代测序技术计算SMN拷贝数的方法进行了改进,屏蔽参考基因组SMN2基因第7、8外显子,使所有SMN基因第7、8外显子的测序序列都比对到SMN1上,在SMN1和SMN2基因第7、8外显子差异碱基位置可以计算AD,本发明的技术方案可以消除随机测序错误等因素的影响;另外,本发明的技术方案兼容各种探针捕获测序样本,兼容单样本以及各种数量级样本的SMN拷贝数计算,可用于计算SMN1和SMN2第7、8外显子的各种拷贝数。
大多数人SMN基因第7外显子总拷贝数和第8外显子总拷贝数都是4,且S MN1与SMN2拷贝数比例为1:1,根据此原理可以挑选阴性对照样本作为参考集,将校正后的待测样本深度与参考集样本深度中位数进行比较,算出待测样本第7 外显子总拷贝数和第8外显子总拷贝数;屏蔽参考基因组SMN2第7、8外显子后,SMN1和SMN2差异单核苷酸处就可以计算AD值,并根据AD值分配总拷贝数。
附图说明
本发明中通过计算AD来检测探针捕获二代测序数据的SMN基因拷贝数的流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
SMN1和SMN2是高度同源的基因,我们使用swalign软件比对了两个基因第7外显子第一个碱基到第8外显子最后一个碱基,只有4bp的差异,其中第7、 8外显子分别有1bp的碱基差异,序列比对结果具体如下,SEQ ID NO.1和SEQ ID NO.2分别是SMN1和SMN2基因第7外显子第一个碱基到第8外显子最后一个碱基的序列:
SEQ ID NO.1:
ggtttcagacaaaatcaaaaagaaggaaggtgctcacattccttaaattaaggagtaagtctgccagcattatgaaagtgaatctt acttttgtaaaactttatggtttgtggaaaacaaatgtttttgaacatttaaaaagttcagatgttaaaaagttgaaaggttaatgtaaaacaat caatattaaagaattttgatgccaaaactattagataaaaggttaatctacatccctactagaattctcatacttaactggttggttatgtggaa gaaacatactttcacaataaagagctttaggatatgatgccattttatatcactagtaggcagaccagcagacttttttttattgtgatatgggataacctaggcatactgcactgtacactctgacatatgaagtgctctagtcaagtttaactggtgtccacagaggacatggtttaactgga attcgtcaagcctctggttctaatttctcatttgcaggaaatgctggcatagagcagcactaaatgacaccactaaagaaacgatcagaca gatctggaatgtgaagcgttatagaagataactggcctcatttcttcaaaatatcaagtgttgggaaagaaaaaaggaagtggaatgggt aactcttcttgattaaaagttatgtaataaccaaatgcaatgtgaaatattttactggactctattttgaaaaaccatctgtaaaagactggggt gggggtgggaggccagcacggtggtgaggcagttgagaaaatttgaatgtggattagattttgaatgatattggataattattggtaatttt atgagctgtgagaagggtgttgtagtttataaaagactgtcttaatttgcatacttaagcatttaggaatgaagtgttagagtgtcttaaaatg tttcaaatggtttaacaaaatgtatgtgaggcgtatgtggcaaaatgttacagaatctaactggtggacatggctgttcattgtactgttttttt ctatcttctatatgtttaaaagtatataataaaaatatttaatttttttttaaa.
SEQ ID NO.2:
ggttttagacaaaatcaaaaagaaggaaggtgctcacattccttaaattaaggagtaagtctgccagcattatgaaagtgaatctt acttttgtaaaactttatggtttgtggaaaacaaatgtttttgaacatttaaaaagttcagatgttagaaagttgaaaggttaatgtaaaacaat caatattaaagaattttgatgccaaaactattagataaaaggttaatctacatccctactagaattctcatacttaactggttggttgtgtggaa gaaacatactttcacaataaagagctttaggatatgatgccattttatatcactagtaggcagaccagcagacttttttttattgtgatatgggataacctaggcatactgcactgtacactctgacatatgaagtgctctagtcaagtttaactggtgtccacagaggacatggtttaactgga attcgtcaagcctctggttctaatttctcatttgcaggaaatgctggcatagagcagcactaaatgacaccactaaagaaacgatcagaca gatctggaatgtgaagcgttatagaagataactggcctcatttcttcaaaatatcaagtgttgggaaagaaaaaaggaagtggaatgggt aactcttcttgattaaaagttatgtaataaccaaatgcaatgtgaaatattttactggactctattttgaaaaaccatctgtaaaagactgaggt gggggtgggaggccagcacggtggtgaggcagttgagaaaatttgaatgtggattagattttgaatgatattggataattattggtaatttt atgagctgtgagaagggtgttgtagtttataaaagactgtcttaatttgcatacttaagcatttaggaatgaagtgttagagtgtcttaaaatg tttcaaatggtttaacaaaatgtatgtgaggcgtatgtggcaaaatgttacagaatctaactggtggacatggctgttcattgtactgttttttt ctatcttctatatgtttaaaagtatataataaaaatatttaatttttttttaaa.
由于SMN1和SMN2具有高度同源性,两个基因第7外显子第一个碱基到第8外显子最后一个碱基序列只有4bp的差异,其中7、8外显子各1bp差异,屏蔽参考基因组SMN2第7、8外显子,可以使所有相关序列都比对到SMN1的 7、8外显子上,从而可以直接计算AD值。
下面将结合附图1对本发明具体实施例的通过计算AD来检测定制探针捕获二代测序数据的SMN基因拷贝数做进一步详细描述。
屏蔽hg19参考基因组的SMN2基因第7、8外显子,具体位置为5号染色体第69372348碱基到第69373422碱基用N代替,并建立索引;
24个已知MLPA结果的样本,加上20个未知MLPA结果的样本一起做定制探针杂交捕获实验并进行二代测序,定制探针覆盖151个基因,包含3180个捕获区间;
二代测序下机的原始fastq数据,使用原始数据质控软件(fastp,版本0.12.0) 进行原始数据过滤和Q30等基本信息质控;将过滤后的序列使用比对软件(BWA,版本0.7.17)比对到屏蔽了SMN2同源序列的参考基因组上,然后进行排序和去除重复序列,获得bam文件;
使用HaplotypeCaller算法计算在SMN1第7、8外显子的差异碱基的AD值,位置分别为5号染色体70247773和70248501;
使用bam文件统计软件(bamdst,版本1.0.7)统计每个样本每个捕获区间的平均覆盖深度,然后做样本内深度分布矫正,即用样本内所有区间的深度平均值来矫正该样本所有区间的覆盖深度,得到相对深度,该步骤消除了样本间数据量波动的影响,得到区间相对深度分布数据,格式示例如下:
Figure BDA0003030509250000071
使用使用Python的corr()函数计算样本两两之间的相关性,得到相关系数分布矩阵,与其他样本相关性<0.9的样本认为没有通过质控,需要剔除;
从样本间相关性>0.9的样本中根据AD值(0.9~1.1)挑选对照样本,即SMN1 和SMN2基因第7、8外显子拷贝数均为2的样本,参照技术方案分别计算这些样本校正染色体位置后的E7、E8的相对深度,并计算中位数,作为阴性参考集第7、 8外显子的相对深度;
参照技术方案依次计算已知MLPA结果的24个样本,相对于阴性参考集的总拷贝数,并分别根据E7和E8的AD值分配总拷贝数,拷贝数计算结果见下表“通过计算AD检测SMN拷贝数”列。
另外,使用未屏蔽任何序列的参考基因组,并且使用直接计算单核苷酸差异处覆盖深度的比值来分配拷贝数的方法,拷贝数计算结果见下表“通过计算Depth 检测SMN拷贝数”列。
从下表中可以比较两种方法与MLPA结果的差异,需要注意,由于MLPA分辨率不够高,大于等于3拷贝的全部为3,MLPA结果的4个数值依次是SMN1_E7、 SMN1_E8、SMN2_E7、SMN2_E8的拷贝数。可以看出,通过屏蔽参考基因组SMN2 第7、8外显子使所有第7、8外显子序列都比对到SMN1相应位置进而计算AD值来检测SMN拷贝数的方法检测结果相对更准确,更接近MLPA结果,如Sample3、 Sample5、Sample8、Sample11等。
Figure BDA0003030509250000072
Figure BDA0003030509250000081
本发明挑选了24个MLPA已知拷贝数的样本做了探针捕获测序(151个基因, 3180个捕获区间),样本包括4个0拷贝样本、14个1拷贝样本、6个2拷贝样本,使用本发明技术方案,二代测序数据计算的SMN基因拷贝数均与MLPA结果一致;我们还使用本发明技术方案计算了本实验室近一年半使用相同实验方案获得的1550个特殊定制探针(大于3000个基因,大于4万个捕获区间)捕获二代测序数据的SMN基因拷贝数,检测到2个0拷贝样本,经MLPA验证,结果准确,检测到79个1拷贝样本,由于这些样本包含家系样本,且实验室收样有主诉偏向性,非随机采样,此比例偏高。
序列表
<110> 杭州博圣医学检验实验室有限公司
宁波市妇女儿童医院
<120> 一种通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法
<160> 2
<170> SIPOSequenceListing 1.0
<210> 1
<211> 1072
<212> DNA
<213> 人(Homo sapiens)
<400> 1
ggtttcagac aaaatcaaaa agaaggaagg tgctcacatt ccttaaatta aggagtaagt 60
ctgccagcat tatgaaagtg aatcttactt ttgtaaaact ttatggtttg tggaaaacaa 120
atgtttttga acatttaaaa agttcagatg ttaaaaagtt gaaaggttaa tgtaaaacaa 180
tcaatattaa agaattttga tgccaaaact attagataaa aggttaatct acatccctac 240
tagaattctc atacttaact ggttggttat gtggaagaaa catactttca caataaagag 300
ctttaggata tgatgccatt ttatatcact agtaggcaga ccagcagact tttttttatt 360
gtgatatggg ataacctagg catactgcac tgtacactct gacatatgaa gtgctctagt 420
caagtttaac tggtgtccac agaggacatg gtttaactgg aattcgtcaa gcctctggtt 480
ctaatttctc atttgcagga aatgctggca tagagcagca ctaaatgaca ccactaaaga 540
aacgatcaga cagatctgga atgtgaagcg ttatagaaga taactggcct catttcttca 600
aaatatcaag tgttgggaaa gaaaaaagga agtggaatgg gtaactcttc ttgattaaaa 660
gttatgtaat aaccaaatgc aatgtgaaat attttactgg actctatttt gaaaaaccat 720
ctgtaaaaga ctggggtggg ggtgggaggc cagcacggtg gtgaggcagt tgagaaaatt 780
tgaatgtgga ttagattttg aatgatattg gataattatt ggtaatttta tgagctgtga 840
gaagggtgtt gtagtttata aaagactgtc ttaatttgca tacttaagca tttaggaatg 900
aagtgttaga gtgtcttaaa atgtttcaaa tggtttaaca aaatgtatgt gaggcgtatg 960
tggcaaaatg ttacagaatc taactggtgg acatggctgt tcattgtact gtttttttct 1020
atcttctata tgtttaaaag tatataataa aaatatttaa ttttttttta aa 1072
<210> 2
<211> 1072
<212> DNA
<213> 人(Homo sapiens)
<400> 2
ggttttagac aaaatcaaaa agaaggaagg tgctcacatt ccttaaatta aggagtaagt 60
ctgccagcat tatgaaagtg aatcttactt ttgtaaaact ttatggtttg tggaaaacaa 120
atgtttttga acatttaaaa agttcagatg ttagaaagtt gaaaggttaa tgtaaaacaa 180
tcaatattaa agaattttga tgccaaaact attagataaa aggttaatct acatccctac 240
tagaattctc atacttaact ggttggttgt gtggaagaaa catactttca caataaagag 300
ctttaggata tgatgccatt ttatatcact agtaggcaga ccagcagact tttttttatt 360
gtgatatggg ataacctagg catactgcac tgtacactct gacatatgaa gtgctctagt 420
caagtttaac tggtgtccac agaggacatg gtttaactgg aattcgtcaa gcctctggtt 480
ctaatttctc atttgcagga aatgctggca tagagcagca ctaaatgaca ccactaaaga 540
aacgatcaga cagatctgga atgtgaagcg ttatagaaga taactggcct catttcttca 600
aaatatcaag tgttgggaaa gaaaaaagga agtggaatgg gtaactcttc ttgattaaaa 660
gttatgtaat aaccaaatgc aatgtgaaat attttactgg actctatttt gaaaaaccat 720
ctgtaaaaga ctgaggtggg ggtgggaggc cagcacggtg gtgaggcagt tgagaaaatt 780
tgaatgtgga ttagattttg aatgatattg gataattatt ggtaatttta tgagctgtga 840
gaagggtgtt gtagtttata aaagactgtc ttaatttgca tacttaagca tttaggaatg 900
aagtgttaga gtgtcttaaa atgtttcaaa tggtttaaca aaatgtatgt gaggcgtatg 960
tggcaaaatg ttacagaatc taactggtgg acatggctgt tcattgtact gtttttttct 1020
atcttctata tgtttaaaag tatataataa aaatatttaa ttttttttta aa 1072

Claims (8)

1.一种通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,其特征在于包括如下步骤:
1)屏蔽参考基因组的SMN2第7外显子第一个碱基到第8外显子最后一个碱基,即chr5:69372348-69373422,之后建立参考基因组的索引;
2)探针捕获二代测序数据,对测得的原始数据进行序列质量过滤,然后比对到上述参考基因组上,所有SMN1和SMN2的第7、8外显子测序序列全部比对到SMN1相应位置,且在两个基因的单核苷酸差异处有SNP,将比对结果排序,去除重复序列;
3)计算每个样本在bed文件每个区间的绝对平均深度,计算各区间绝对平均深度的平均值并记录;利用此平均值对每个区间进行样本内覆盖深度的标准化,计算各样本各区间的相对平均深度,使区间的覆盖深度不受测序数据量的影响;
4)利用所述区间的相对平均深度分布数据计算两两样本相关系数,利用相关系数矩阵画热图,剔除质控失败样本;
5)检测chr5:70220000-70250000范围内的变异,输出每个变异的DP和AD;
6)根据AD筛选对照样本,计算对照样本相对深度中位数;
7)样本量小于五十时,使用以上对照样本作为固定参考集,单个样本与参考集计算相关系数,单独计算相对于固定参考集的SMN拷贝数;样本量大于五十时,批次内挑选对照样本建立参考集,再分别计算批次内每个样本相对于参考集中位数的总拷贝数,计算AD,分配总拷贝数。
2.根据权利要求1所述的通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,其特征在于,步骤2)中所述的探针捕获二代测序数据具体为,使用相同的探针捕获试剂,试剂需要至少覆盖SMN基因的第7、8外显子,探针区间个数的数量级可以是百、千、万。
3.根据权利要求1所述的通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,其特征在于,步骤4)剔除质控失败样本为剔除与其他样本相关性<0.9的异常样本。
4.根据权利要求1所述的通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,其特征在于,步骤4)中计算两两样本相关系数时,剔除性染色体上的区间,从而消除样本性别的影响。
5.根据权利要求1所述的通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,其特征在于,所述步骤5)中,对于第7外显子,若结果中有chr5-70247773-C-T变异,则此变异的AD即第7外显子SMN1/SMN2单核苷酸差异的AD,即AD_E7_SampleName,若结果中无此变异,则SMN2第7外显子拷贝数为0;对于第8外显子,若结果中有chr5-70248501-G-A变异,则此变异的AD即第8外显子SMN1/SMN2单核苷酸差异的AD,即AD_E8_SampleName,若结果中无此变异,则SMN2第8外显子拷贝数为0。
6.根据权利要求1所述的通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,其特征在于,所述步骤6)为,挑选AD_E7_SampleName和AD_E8_SampleName都介于0.9~1.1的样本作为对照样本,为消除试剂捕获区间与实际外显子区间的偏差,重新计算这些样本的第7外显子E7绝对深度DP_E7_SampleName(染色体位置为chr5:70247768-70247821)、第8外显子E8绝对深度DP_E8_SampleName(染色体位置为chr5:70248266-70248839);并用AVG_SampleName进行校正,DPnorm_E7_SampleName和DPnorm_E8_SampleName分别是标准化后的第7、8外显子相对深度,公式为:
DPnorm_E7_SampleName=DP_E7_SampleName/AVG_SampleName;
DPnorm_E8_SampleName=DP_E8_SampleName/AVG_SampleName;
获取所有对照样本标准化后第7、8外显子相对深度的中位数,分别为Median_E7、Median_E8。
7.根据权利要求6所述的通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,其特征在于,步骤7)中,单个待测样本拷贝数计算,具体为:对照样本作为固定参考集,保留其相对深度分布数据、Median_E7和Median_E8数据;与对照样本同样的实验方案和测序方案取得原始fastq数据,同样方法计算待测样本与对照样本的相关系数,如果质控通过,则同样的方法计算得待测样本的AD_E7、AD_E8、DPnorm_E7和DPnorm_E8,其中,AD_E7两个数值依次为DP_SMN1_E7和DP_SMN2_E7,AD_E8两个数值依次为DP_SMN1_E8和DP_SMN2_E8。
8.根据权利要求7所述的通过计算差异等位基因测序深度检测二代测序数据SMN基因拷贝数的方法,其特征在于,
a.若存在chr5-70247773-C-T变异和chr5-70248501-G-A变异,则使用如下公式计算SMN1_E7、SMN1_E8、SMN2_E7、SMN2_E8的拷贝数:
TOTAL_E7=4*DPnorm_E7/Median_E7;
TOTAL_E8=4*DPnorm_E8/Median_E8;
SMN1_E7拷贝数=DP_SMN1_E7/(DP_SMN1_E7+DP_SMN2_E7)*TOTAL_E7;
SMN1_E8拷贝数=DP_SMN1_E8/(DP_SMN1_E8+DP_SMN2_E8)*TOTAL_E8;
SMN2_E7拷贝数=DP_SMN2_E7/(DP_SMN1_E7+DP_SMN2_E7)*TOTAL_E7;
SMN2_E8拷贝数=DP_SMN2_E8/(DP_SMN1_E8+DP_SMN2_E8)*TOTAL_E8。
b.若无chr5-70247773-C-T变异,则E7拷贝数计算公式为:
SMN1_E7拷贝数=TOTAL_E7=4*DPnorm_E7/Median_E7;
SMN2_E7拷贝数=0;
c.若无chr5-70248501-G-A变异,则E8拷贝数计算公式为:
SMN1_E8拷贝数=TOTAL_E8=4*DPnorm_E8/Median_E8;
SMN2_E8拷贝数=0。
CN202110433911.3A 2021-04-21 2021-04-21 一种通过计算差异等位基因测序深度检测二代测序数据smn基因拷贝数的方法 Pending CN113192555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110433911.3A CN113192555A (zh) 2021-04-21 2021-04-21 一种通过计算差异等位基因测序深度检测二代测序数据smn基因拷贝数的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110433911.3A CN113192555A (zh) 2021-04-21 2021-04-21 一种通过计算差异等位基因测序深度检测二代测序数据smn基因拷贝数的方法

Publications (1)

Publication Number Publication Date
CN113192555A true CN113192555A (zh) 2021-07-30

Family

ID=76978043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110433911.3A Pending CN113192555A (zh) 2021-04-21 2021-04-21 一种通过计算差异等位基因测序深度检测二代测序数据smn基因拷贝数的方法

Country Status (1)

Country Link
CN (1) CN113192555A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793641A (zh) * 2021-09-29 2021-12-14 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法
CN115394359A (zh) * 2022-10-27 2022-11-25 北京大学第三医院(北京大学第三临床医学院) 一种鉴定人类胚胎细胞染色体变异的方法及应用
CN115637288A (zh) * 2022-12-23 2023-01-24 苏州赛福医学检验有限公司 一种检测smn1和smn2基因拷贝数变化的方法及其应用
CN117153249A (zh) * 2023-10-26 2023-12-01 北京华宇亿康生物工程技术有限公司 用于检测smn基因拷贝数变异的方法、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160251719A1 (en) * 2013-10-18 2016-09-01 Good Start Genetics, Inc. Methods for copy number determination
CN106834502A (zh) * 2017-03-06 2017-06-13 明码(上海)生物科技有限公司 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
WO2018112249A1 (en) * 2016-12-15 2018-06-21 Illumina, Inc. Methods and systems for determining paralogs
CN108256289A (zh) * 2018-01-17 2018-07-06 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN108920899A (zh) * 2018-06-10 2018-11-30 杭州迈迪科生物科技有限公司 一种基于目标区域测序的单个外显子拷贝数变异预测方法
US20190066842A1 (en) * 2016-03-09 2019-02-28 Baylor College Of Medicine A novel algorithm for smn1 and smn2 copy number analysis using coverage depth data from next generation sequencing
CN110024035A (zh) * 2016-09-22 2019-07-16 Illumina公司 体细胞拷贝数变化检测
US20200392569A1 (en) * 2017-12-31 2020-12-17 Myriad Women's Health, Inc. Methods for identifying carrier status and assessing risk for spinal muscular atrophy

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160251719A1 (en) * 2013-10-18 2016-09-01 Good Start Genetics, Inc. Methods for copy number determination
US20190066842A1 (en) * 2016-03-09 2019-02-28 Baylor College Of Medicine A novel algorithm for smn1 and smn2 copy number analysis using coverage depth data from next generation sequencing
CN110024035A (zh) * 2016-09-22 2019-07-16 Illumina公司 体细胞拷贝数变化检测
WO2018112249A1 (en) * 2016-12-15 2018-06-21 Illumina, Inc. Methods and systems for determining paralogs
CN106834502A (zh) * 2017-03-06 2017-06-13 明码(上海)生物科技有限公司 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
US20200392569A1 (en) * 2017-12-31 2020-12-17 Myriad Women's Health, Inc. Methods for identifying carrier status and assessing risk for spinal muscular atrophy
CN108256289A (zh) * 2018-01-17 2018-07-06 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN108920899A (zh) * 2018-06-10 2018-11-30 杭州迈迪科生物科技有限公司 一种基于目标区域测序的单个外显子拷贝数变异预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANMINGFENG,XIAOYANGE,ET,AL: "The next generation of population-based spinal muscular atrophy carrier screening: comprehensive pan-ethnic SMN1 copy-number and sequence variant analysis by massively parallel sequencing", 《GENETICS IN MEDICINE》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793641A (zh) * 2021-09-29 2021-12-14 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法
CN113793641B (zh) * 2021-09-29 2023-11-28 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法
CN115394359A (zh) * 2022-10-27 2022-11-25 北京大学第三医院(北京大学第三临床医学院) 一种鉴定人类胚胎细胞染色体变异的方法及应用
CN115637288A (zh) * 2022-12-23 2023-01-24 苏州赛福医学检验有限公司 一种检测smn1和smn2基因拷贝数变化的方法及其应用
CN117153249A (zh) * 2023-10-26 2023-12-01 北京华宇亿康生物工程技术有限公司 用于检测smn基因拷贝数变异的方法、设备和介质
CN117153249B (zh) * 2023-10-26 2024-02-02 北京华宇亿康生物工程技术有限公司 用于检测smn基因拷贝数变异的方法、设备和介质

Similar Documents

Publication Publication Date Title
CN113192555A (zh) 一种通过计算差异等位基因测序深度检测二代测序数据smn基因拷贝数的方法
Gambin et al. Homozygous and hemizygous CNV detection from exome sequencing data in a Mendelian disease cohort
De Roeck et al. NanoSatellite: accurate characterization of expanded tandem repeat length and sequence through whole genome long-read sequencing on PromethION
CN108319813B (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
US20190206510A1 (en) Validation methods and systems for sequence variant calls
CN102618549B (zh) Ncstn突变型基因、其鉴定方法和工具
CN112768000B (zh) 一种预测met基因拷贝数变化类型的方法及装置
TW201814290A (zh) 一種鑑定樣本中腫瘤負荷的方法和系統
CN114999568B (zh) 一种端粒等位基因不平衡tai的计算方法
WO2014023076A1 (zh) 一种地中海贫血的分型方法及其应用
WO2006028152A1 (ja) 遺伝子コピーの解析方法及び装置
KR102405245B1 (ko) 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도
Yu et al. Detecting natural selection by empirical comparison to random regions of the genome
KR101896147B1 (ko) 샤르코-마리-투스 질환 진단용 키트
CN111292804A (zh) 一种借助高通量测序检测smn1基因突变的方法和系统
CN113257353B (zh) 基于reads深度进行目的基因外显子水平缺失检测的方法及装置
CA2481905A1 (en) Mutation detection and identification
CN111172248B (zh) 一种基于片段分析技术验证拷贝数变异的通用试剂盒
Chen et al. A pipeline for copy number variation detection based on principal component analysis
CN113284557A (zh) 基于reads深度进行目的基因外显子水平重排检测的方法及装置
EP3988672B1 (en) Use of off-target sequences for dna analysis
CN112435710A (zh) 一种在wes数据中检测单样本smn基因拷贝数的方法
CN111383713A (zh) ctDNA检测分析装置及方法
CN111334513A (zh) 一种非综合征型唇裂相关的低频/罕见突变及其检测方法
WO2018025521A1 (ja) 落屑症候群又は落屑緑内障の発症リスクの判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210730

WD01 Invention patent application deemed withdrawn after publication