CN108920899B - 一种基于目标区域测序的单个外显子拷贝数变异预测方法 - Google Patents

一种基于目标区域测序的单个外显子拷贝数变异预测方法 Download PDF

Info

Publication number
CN108920899B
CN108920899B CN201810591504.3A CN201810591504A CN108920899B CN 108920899 B CN108920899 B CN 108920899B CN 201810591504 A CN201810591504 A CN 201810591504A CN 108920899 B CN108920899 B CN 108920899B
Authority
CN
China
Prior art keywords
exon
region
analyzed
sample
coverage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810591504.3A
Other languages
English (en)
Other versions
CN108920899A (zh
Inventor
朱忠旭
周文莉
杨克勤
吕远栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Medical Biotechnology Ltd
Original Assignee
Hangzhou Medical Biotechnology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Medical Biotechnology Ltd filed Critical Hangzhou Medical Biotechnology Ltd
Priority to CN201810591504.3A priority Critical patent/CN108920899B/zh
Publication of CN108920899A publication Critical patent/CN108920899A/zh
Application granted granted Critical
Publication of CN108920899B publication Critical patent/CN108920899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于目标区域测序的单个外显子拷贝数变异预测方法,包括和测序数据处理和拷贝数变异预测2个步骤,其中拷贝数变异预测步骤包括统计覆盖到目标区域的测序序列总数目和碱基总数目,确定对照外显子区域,标准化每个对照样本和实验样本的待分析外显子区域覆盖度,计算对照样本中待分析外显子区域标准化后的覆盖度的平均值、标准差和变异系数,预测待分析外显子区域拷贝数变化步骤。本发明不用基于全基因组测序,直接利用外显子水平的覆盖度信息进行分析外显子水平的拷贝数变异,分析方法简单,不经过复杂的GC校正和建模。

Description

一种基于目标区域测序的单个外显子拷贝数变异预测方法
技术领域
本发明涉及生物医学领域,具体涉及一种基于目标区域测序的单个外显子拷贝数变异预测方法。
背景技术
从2003年人类基因组计划结束起,基因组测序技术突飞猛进,基于高通量测序技术的单核苷酸多态性(SNP)检测技术,已经成熟和普及。高通量测序技术可以实现数以万计的DNA分子同时进行边合成边测序反应,极大的提高的测序通量。基因检测的测序成本下降速度甚至快于计算机领域的摩尔定律。基于测序技术的应用,生物学的研究从传统的单基因、单位点的研究进入了组学研究时代,由此产生了一系列的研究成果和和具有社会价值的临床应用。
拷贝数变异是结构变异的一种,研究已经证实拷贝数变异与人类疾病的发生相关,例如智力缺陷、自闭症、精神分裂、癌症发生等。不同于基因的单碱基变异,外显子水平的拷贝数变异(Exon Copy Number Variant)是一类不常见但非常重要的突变类型,约10%的BRCA1癌症是由外显子拷贝数变异引起的。典型的外显子拷贝数变异可能导致蛋白紊乱甚至丧失功能。过往检测拷贝数变异的方法是利用多重连接探针扩增技术(multiplexligation-dependent probe amplification,MLPA),染色体芯片(CMA)或荧光PCR。随着测序技术的发展,利用NGS的数据分析基因拷贝数变化是越来越受到关注和有效的确定基因拷贝数的方法。
拷贝数变异分析一般基于全基因组测序,但成本较目标区域测序高,并且分辨率较低,只能得到大片段的拷贝数变异(通常大于1Mbp),不能用于检测外显子水平的拷贝数变异(外显子拷贝数变异的序列长度在100bp左右)。
利用目标区域测序数据进行分析是一种目的性强(有明确的分析目标基因)、成本节约的方法。但目标区域测序存在各区域捕获效率不一致等问题,覆盖度均一性较全基因组差。随着技术的发展,针对外显子水平的分析工具开始出现,多数软件都利用了外显子区域的覆盖度信息,用参考基因组GC含量校正,然后根据不同算法来识别拷贝数变异。这些工具存在这分析流程复杂,需要的对照样本总量在30个以上或者需要配对的对照样本。
发明内容
本发明所要解决的技术问题在于提供一种基于目标区域测序的单个外显子拷贝数变异预测方法,不用基于全基因组测序,直接利用外显子水平的覆盖度信息进行分析外显子水平的拷贝数变异,分析方法简单,不经过复杂的GC校正和建模。
为解决上述技术问题,本发明提供的一种基于目标区域测序的单个外显子拷贝数变异预测方法,包括以下步骤:
(1)测序数据处理:
a.对样本的目标区域进行捕获建库,然后在二代测序仪中进行高通量测序,得到测序原始数据;
b.通过开源比对工具,对测序得到的序列与参考基因组进行比对,得到测序序列在参考基因组上的位置和序列比对质量;
c.根据序列在染色体上的位置,对位于相同起始位置和相同终止位置的序列只保留一条,并对序列按照染色体顺序和起始位置顺序进行排序;
(2)拷贝数变异预测:
a.统计覆盖到目标区域的测序序列总数目和碱基总数目:
以目标区域为基础,以每个区域为单位,统计每个覆盖到该区域的测序序列总数目和碱基总数目;
b.确定对照外显子区域:
每个样本选取至少30个以上的包含在目标区域中且为不容易发生拷贝数变化的区域作为对照外显子区域,每个样本的对照外显子区域与待分析外显子区域一致;
c.标准化每个对照样本和实验样本的待分析外显子区域覆盖度;
d.计算对照样本中待分析外显子区域标准化后的覆盖度的平均值、标准差和变异系数;
e.根据变异系数、实验样本待分析外显子区域标准化后的覆盖度偏离对照样本标准化后的覆盖度平均值与标准差的关系,预测待分析外显子区域拷贝数变化。
优选地,所述步骤(2)c步骤中标准化单个样本的待分析外显子区域的覆盖度的具体方法如下:
对于特定样本,其对照外显子区域为m个,待分析外显子区域为n个,第j个对照外显子区域定义为ControlRegionj,j∈{1,2,3…m},其覆盖的reads数目定义为region_readsj;第i个待分析外显子区域定义为TestRegioni,i∈{1,2,3…n},其覆盖的reads数目定义为region_readsi
该样本覆盖到对照外显子区域中的总reads数为:Total_readscontrol=∑region_readsj,j∈{1,2,3...m},该样本待分析外显子区域的覆盖度标准化基数数值avr等于对照外显子区域的总reads数Total_readscontrol除以对照区域总个数m:
Figure GDA0003091418970000031
该样本的待分析外显子区域TestRegioni的标准化之后的覆盖度为:
Figure GDA0003091418970000032
对照样本数量为p个,第c个实验样本定义为smpc,t∈{1,2,3,…p},根据上述方法标准化其每个待分析外显子区域的覆盖度,记为smpc_i
实验样本数量为q个,第t个实验样本定义为smpt,t∈{1,2,3,…q},根据上述方法标准化其每个待分析外显子区域的覆盖度,记为smpt_i
所述步骤(2)d步骤中计算对照样本中待分析外显子区域标准化后的覆盖度的平均值、标准差和变异系数的具体方法如下:
对于p个对照样本,待分析外显子区域TestRegioni,i∈{1,2,3...n}的标准化之后的覆盖度的平均值为:
Figure GDA0003091418970000041
标准差为:
Figure GDA0003091418970000042
变异系数为:
Figure GDA0003091418970000043
所述步骤(2)e步骤中根据变异系数、实验样本待分析外显子区域标准化后的覆盖度偏离对照样本标准化后的覆盖度平均值与标准差的关系,预测待分析外显子区域拷贝数变化的具体方法如下:
如果CVi>0.2,这提示该区域变异较大,预测不可靠;如果CVi≤0.2,假设外显子区域的覆盖度在样本之间的符合正态分布,则正态分布的均值为
Figure GDA0003091418970000044
标准差为σi;则对于特定实验样本smpt,t∈{1,2,3,...q},其待分析外显子区域数值偏离对照样本覆盖度平均值为:
Figure GDA0003091418970000045
如果
Figure GDA0003091418970000046
则认为没有发生拷贝数变化;如果
Figure GDA0003091418970000047
Figure GDA0003091418970000051
分大于0和小于0两种情况:
第一种情况
Figure GDA0003091418970000054
可能为拷贝数增加情况,则预测为重复变异,并根据正态分布的密度函数计算样本落入smpt_i至+∞区间内的概率;第二种情况
Figure GDA0003091418970000053
可能为拷贝数减少情况,则预测为缺失变异,并根据正态分布的密度函数计算样本落入-∞至区smpt_i间内的概率。
优选地,所述测序原始数据默认为通用的FASTQ格式,FASTQ文件中的原始序列经过去接头、去除低质量碱基的质控方法,得到用于比对的高质量序列数据。
优选地,所述目标区域为BED文件格式,至少记录目标区域所在的染色体、所在染色体的目标区域起始位置和目标区域染色体终止位置、单个区域的长度及区域编号或者所在基因等信息。
优选地,所述开源比对工具为BWA,bowtie2。
本发明的有益效果为:
1、利用目标区域测序数据分析外显子水平的拷贝数变异,而非基于全基因组测序,成本低。
2、直接利用外显子水平的覆盖度信息进行分析,而非大片段拷贝数变异,不经过复杂的GC校正和建模,减少外显子水平的拷贝数变异分析复杂性。
3、不需要配对样本,仅需要较少的对照样本,分析实验样本的外显子拷贝数变异。
4、利用分析脚本而非软件进行分析,方式简单,没有很复杂的分析流程。
5、利用已有数据,不需要经过专门的拷贝数变异检测实验,成本低。
附图说明
下面结合附图和实施方式对本发明作进一步详细的说明。
图1为本发明的拷贝数变异预测流程图。
图2为本发明测序数据处理的流程图。
具体实施方式
基于目标区域测序的单个外显子拷贝数变异预测方法,包括以下步骤:
(1)测序数据处理(其流程如图2所示):
a.对样本的目标区域进行捕获建库,然后在二代测序仪中进行高通量测序,得到测序原始数据。测序原始数据默认为通用的FASTQ格式,FASTQ文件中的原始序列经过去接头、去除低质量碱基的质控方法,得到用于比对的高质量序列数据。捕获目标区域的探针可以自行设计或者用现成的试剂盒。质控软件可以使用FASTQC或trimmomatic。以trimmomatic为例:
java-jar$trimmonmatic PE-threads 8\
$fq1$fq2\
$out/$smp.clean.R1.fastq.gz$out/$smp.unpaired_R1.fastq.gz\
$out/$smp.clean.R2.fastq.gz$out/$smp.unpaired_R2.fastq.gz\
ILLUMINACLIP:$adapter:2:30:10LEADING:3TRAILING:3SLIDINGWINDOW:4:15MINLEN:36
b.通过开源比对工具,对测序得到的序列与参考基因组进行比对,得到测序序列在参考基因组上的位置和序列比对质量。比对工具可以使用BWA,bowtie2。以BWA为例:
$bwa mem-M-t 8-R"@RG\tID:$smp\tSM:$smp\tLB:$smp\tPL:ILLUMINA"$reffa$fq1$fq2>${dir}/${smp}.sam
c.为了保证结果的准确性,根据序列在染色体上的位置,对位于相同起始位置和相同终止位置的序列只保留一条,为了便于文件的快速检索,对序列按照染色体顺序和起始位置顺序进行排序。可以使用Picard软件进行序列去重和排序:
java-jar-Djava.io.tmpdir=$HOME/tmp$picard SortSam\
INPUT=${dir}/${smp}.sam\
OUTPUT=${dir}/${smp}.sorted_reads.bam\
SORT_ORDER=coordinate
java-jar-Djava.io.tmpdir=$HOME/tmp$picard MarkDuplicates\
INPUT=${dir}/${smp}.sorted_reads.bam\
OUTPUT=${dir}/${smp}.dedup_reads.bam\
METRICS_FILE=${dir}/${smp}.dedup_reads.bam.metrics.txt
java-jar$picard BuildBamIndex INPUT=${dir}/${smp}.dedup_reads.bam
(2)拷贝数变异预测(其流程如图1所示):
a.统计覆盖到目标区域的测序序列总数目和碱基总数目:
以目标区域为基础,以每个区域为单位,统计每个覆盖到该区域的测序序列总数目和碱基总数目。目标区域,为BED文件格式,至少记录目标区域所在的染色体,所在染色体的目标区域起始位置和目标区域染色体终止位置,单个区域的长度、区域编号或者所在基因等信息。该步骤利用软件为Bedtools。
bedtools coverage-b sample.dedup_reads.bam-a target.bed
其输出的格式为八列,如:
chr 31190464 31190530 NAME 52 66 66 1.000
第一列表示染色体编号
第二列表示区域的起始位置
第三列表示区域的终止位置
第四列为该区域的名称
第五列表示覆盖到该区域的测序序列数目
第六列表示该区域被测序序列覆盖的碱基数目,
第七列表示该区域的长度,
第八列表示该区域被测序序列覆盖的碱基占区域总碱基的比例。
b.确定对照外显子区域:
每个样本选取至少30个以上的包含在目标区域中且为不容易发生拷贝数变化的区域作为对照外显子区域,不论对照样本还是待分析样本,每个样本的对照外显子区域与待分析外显子区域一致;
c.标准化每个对照样本和实验样本的待分析外显子区域覆盖度:
对于特定样本,其对照外显子区域为m个,待分析外显子区域为n个,第j个对照外显子区域定义为ControlRegionj,j∈{1,2,3…m},其覆盖的reads数目定义为region_readsj;第i个待分析外显子区域定义为TestRegioni,i∈{1,2,3…n},其覆盖的reads数目定义为region_readsi
该样本覆盖到对照外显子区域中的总reads数为:Total_readscontrol=∑region_readsj,j∈{1,2,3...m},该样本待分析外显子区域的覆盖度标准化基数数值avr等于对照外显子区域的总reads数Total_readscontrol除以对照区域总个数m:
Figure GDA0003091418970000081
该样本的待分析外显子区域TestRegioni的标准化之后的覆盖度为:
Figure GDA0003091418970000082
对照样本数量为p个,第c个实验样本定义为smpc,t∈{1,2,3,…p},根据上述方法标准化其每个待分析外显子区域的覆盖度,记为smpc_i
实验样本数量为q个,第t个实验样本定义为smpt,t∈{1,2,3,…q},根据上述方法标准化其每个待分析外显子区域的覆盖度,记为smpt_i
d.计算对照样本中待分析外显子区域标准化后的覆盖度的平均值、标准差和变异系数;
对于p个对照样本,待分析外显子区域regioni的标准化之后的覆盖度的平均值为:
Figure GDA0003091418970000083
标准差为:
Figure GDA0003091418970000091
变异系数为:
Figure GDA0003091418970000092
e.根据变异系数、实验样本待分析外显子区域标准化后的覆盖度偏离对照样本标准化后的覆盖度平均值与标准差的关系,预测待分析外显子区域拷贝数变化:
如果CVi>0.2,这提示该区域变异较大,预测不可靠;
如果CVi≤0.2,假设外显子区域的覆盖度在样本之间的符合正态分布,则正态分布的均值为
Figure GDA0003091418970000093
标准差为σi;则对于特定实验样本smpt,t∈{1,2,3,...q},其待分析外显子区域数值偏离对照样本覆盖度平均值为:
Figure GDA0003091418970000094
如果
Figure GDA0003091418970000096
则认为没有发生拷贝数变化;
如果
Figure GDA0003091418970000097
分大于0和小于0两种情况:
第一种情况
Figure GDA0003091418970000098
可能为拷贝数增加情况,则预测为重复变异,标为DUP,并根据正态分布的密度函数计算样本落入smpt_i至+∞区间内的概率;第二种情况
Figure GDA0003091418970000099
可能为拷贝数减少情况,则预测为缺失变异,标为DEL,并根据正态分布的密度函数计算样本落入-∞至区smpt_i间内的概率。
具体实施例1
对已知有外显子水平拷贝数变异的三个阳性样本进行分析,三个阳性样本的外显子拷贝数变异信息如下。
Figure GDA0003091418970000095
Figure GDA0003091418970000101
将三个阳性样本和五个阴性对照样本进行外显子组测序,得到测序数据。对测序数据进行质控,比对到hg19参考基因组上,用picard对比对后的reads进行去重和排序。用到的软件为trommomatic、bwa、picard。各样本的统计信息如下:
样本 Raw Bases Duplication Q20 Q30
NA05123 18389070300 27.87% 97.58% 93.50%
NA09981 17933438100 27.00% 97.52% 93.42%
NA23159 18144067200 26.40% 97.47% 93.30%
NA05169 23433262500 33.61% 98.22% 95.06%
Control1 18983356500 19.88% 98.7% 97.8%
Control2 10140261600 19.15% 95.87% 93.52%
Control3 23808953400 24.85% 98.53% 96.17%
Control4 53167072800 34.17% 98.39% 95.80%
Control5 24256914900 24.89% 98.54% 96.18%
使用软件bedtools统计每个外显子的覆盖度,然后标准化每个样本的待分析外显子的覆盖度。将五个对照样本的覆盖度信息组成对照样本组,逐个分析阳性样本。检测结果如下:
样本 阳性外显子拷贝数变异数目 检测结果
NA05123 18个外显子拷贝数变异 16
NA09981 3个外显子拷贝数变异 1
NA23159 1个外显子拷贝数变异 1
NA05169 40个外显子拷贝数变异 40
检测的总灵敏度为(16+1+1)/(18+3+1)=81.82%。对于没有检测出的外显子拷贝数变异,通过查看了该外显子的测序覆盖度发现该区域在目标区域捕获测序技术下,覆盖度较差,所以没有检测出来。
以样本NA23159为例,该样本的第7号外显子发生了重复变异。该区域在NA23159和质控样本的覆盖度为:
Figure GDA0003091418970000111
基于正态分布,预测拷贝数变异的统计数值:
项目 数值 备注
NA23159在7号外显子上的覆盖度 0.958
质控样本在7号外显子上的覆盖度平均值 0.724
质控样本在7号外显子上的覆盖度方差 0.077
质控样本在7号外显子上的覆盖度变异系数 0.106 小于20%
NA23159在7号外显子上的覆盖度偏离值 0.234 大于三倍方差
NA23159在7号外显子上为该覆盖度的概率 0.001
该外显子拷贝数变异预测结果 DUP 发生重复(Duplication)突变
结果表明,NA23159在该外显子区域的覆盖度值偏离对照样本均值较大,算法预测为拷贝数增加即重复变异。
具体实施例2
对于缺失变异的预测,我们同样取得了很好的结果,因为发生缺失的样本,在其外显子上的测序序列覆盖度近乎为0。以NA05169样本为例,该样本有40个外显子发生了拷贝数缺失变异,预测结果如下:
Figure GDA0003091418970000112
Figure GDA0003091418970000121
本方法将NA05169样本的40个缺失变异全部检测出。
综上所述,本方法对拷贝数重复和缺失变异的预测,没有用GC含量进行校正,也没有像其它软件一样进行复杂的建模进行预测,仅利用了5个对照样本,即将该重复和缺失变异预测出,显示了算法良好的应用性能。数据来源为已有的目标区域测序得到的数据,不需要增加额外的实验成本。
上述说明是示例性的而非限制性的。通过上述说明本领域技术人员可以意识到本发明的许多种改变和变形,其也将落在本发明的实质和范围之内。

Claims (5)

1.一种基于目标区域测序的单个外显子拷贝数变异预测方法,其特征在于:包括以下步骤:
(1)测序数据处理:
a.对样本的目标区域进行捕获建库,然后在二代测序仪中进行高通量测序,得到测序原始数据;
b.通过开源比对工具,对测序得到的序列与参考基因组进行比对,得到测序序列在参考基因组上的位置和序列比对质量;
c.根据序列在染色体上的位置,对位于相同起始位置和相同终止位置的序列只保留一条,并对序列按照染色体顺序和起始位置顺序进行排序;
(2)拷贝数变异预测:
a.统计覆盖到目标区域的测序序列总数目和碱基总数目:
以目标区域为基础,以每个区域为单位,统计每个覆盖到该区域的测序序列总数目和碱基总数目;
b.确定对照外显子区域:
每个样本选取至少30个以上的包含在目标区域中且为不容易发生拷贝数变化的区域作为对照外显子区域,每个样本的对照外显子区域与待分析外显子区域一致;
c.标准化每个对照样本和实验样本的待分析外显子区域覆盖度;
d.计算对照样本中待分析外显子区域标准化后的覆盖度的平均值、标准差和变异系数;
e.根据变异系数、实验样本待分析外显子区域标准化后的覆盖度偏离对照样本标准化后的覆盖度平均值与标准差的关系,预测待分析外显子区域拷贝数变化。
2.根据权利要求1所述的基于目标区域测序的单个外显子拷贝数变异预测方法,其特征在于:
所述步骤(2)c步骤中标准化单个样本的待分析外显子区域的覆盖度的具体方法如下:
对于特定样本,其对照外显子区域为m个,待分析外显子区域为n个,第j个对照外显子区域定义为ControlRegionj,j∈{1,2,3…m},其覆盖的reads数目定义为region_readsj;第i个待分析外显子区域定义为TestRegioni,i∈{1,2,3…n},其覆盖的reads数目定义为region_readsi
该样本覆盖到对照外显子区域中的总reads数为:Total_readscontrol=∑region_readsj,j∈{1,2,3...m},该样本待分析外显子区域的覆盖度标准化基数数值avr等于对照外显子区域的总reads数Total_readscontrol除以对照区域总个数m:
Figure FDA0003304695290000011
该样本的待分析外显子区域TestRegioni的标准化之后的覆盖度为:
Figure FDA0003304695290000012
对照样本数量为p个,第c个实验样本定义smpc,c∈{1,2,3,…p},根据上述方法标准化其每个待分析外显子区域的覆盖度,记为smpc_i
实验样本数量为q个,第t个实验样本定义为smpt,t∈{1,2,3,…q},根据上述方法标准化其每个待分析外显子区域的覆盖度,记为smpt_i
所述步骤(2)d步骤中计算对照样本中待分析外显子区域标准化后的覆盖度的平均值、标准差和变异系数的具体方法如下:
对于p个对照样本,待分析外显子区域TestRegioni,i∈{1,2,3...n}的标准化之后的覆盖度的平均值为:
Figure FDA0003304695290000021
标准差为:
Figure FDA0003304695290000022
变异系数为:
Figure FDA0003304695290000023
所述步骤(2)e步骤中根据变异系数、实验样本待分析外显子区域标准化后的覆盖度偏离对照样本标准化后的覆盖度平均值与标准差的关系,预测待分析外显子区域拷贝数变化的具体方法如下:
如果CVi>0.2,这提示该区域变异较大,预测不可靠;如果CVi≤0.2,假设外显子区域的覆盖度在样本之间的符合正态分布,则正态分布的均值为
Figure FDA0003304695290000024
标准差为σi;则对于特定实验样本smpt,t∈{1,2,3,...q},其待分析外显子区域数值偏离对照样本覆盖度平均值为:
Figure FDA0003304695290000025
如果|diffsmpt_i|≤2σi,则认为没有发生拷贝数变化;
如果|diffsmpt_i|>2σi,diffsmpt_i分大于0和小于0两种情况:
第一种情况diffsmpt_i>0,可能为拷贝数增加情况,则预测为重复变异,并根据正态分布的密度函数计算样本落入smpt_i至+∞区间内的概率;第二种情况diffsmpt_i<0,可能为拷贝数减少情况,则预测为缺失变异,并根据正态分布的密度函数计算样本落入-∞至区smpt_i间内的概率。
3.根据权利要求1所述的基于目标区域测序的单个外显子拷贝数变异预测方法,其特征在于:所述测序原始数据默认为通用的FASTQ格式,FASTQ文件中的原始序列经过去接头、去除低质量碱基的质控方法,得到用于比对的高质量序列数据。
4.根据权利要求1所述的基于目标区域测序的单个外显子拷贝数变异预测方法,其特征在于:所述目标区域为BED文件格式,至少记录以下信息:目标区域所在的染色体、所在染色体的目标区域起始位置和目标区域染色体终止位置、单个区域的长度及区域编号或者所在基因。
5.根据权利要求1所述的基于目标区域测序的单个外显子拷贝数变异预测方法,其特征在于:所述开源比对工具为BWA,bowtie2。
CN201810591504.3A 2018-06-10 2018-06-10 一种基于目标区域测序的单个外显子拷贝数变异预测方法 Active CN108920899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810591504.3A CN108920899B (zh) 2018-06-10 2018-06-10 一种基于目标区域测序的单个外显子拷贝数变异预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810591504.3A CN108920899B (zh) 2018-06-10 2018-06-10 一种基于目标区域测序的单个外显子拷贝数变异预测方法

Publications (2)

Publication Number Publication Date
CN108920899A CN108920899A (zh) 2018-11-30
CN108920899B true CN108920899B (zh) 2022-02-08

Family

ID=64418714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810591504.3A Active CN108920899B (zh) 2018-06-10 2018-06-10 一种基于目标区域测序的单个外显子拷贝数变异预测方法

Country Status (1)

Country Link
CN (1) CN108920899B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755066B (zh) * 2019-03-27 2022-10-18 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN110246543B (zh) * 2019-06-21 2021-02-26 元码基因科技(北京)股份有限公司 基于二代测序技术利用单样本检测拷贝数变异的方法和计算机系统
CN110349625B (zh) * 2019-07-23 2022-02-08 中国科学院心理研究所 一种人类大脑基因表达时空常模的建立方法
CN111028890B (zh) * 2019-12-31 2020-09-11 东莞博奥木华基因科技有限公司 一种基于run间矫正的CNV检测方法
CN111210873B (zh) * 2020-01-14 2023-03-28 西安交通大学 基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质
CN111508559B (zh) * 2020-04-21 2021-08-13 北京橡鑫生物科技有限公司 检测目标区域cnv的方法及装置
CN113035276B (zh) * 2021-03-11 2021-12-03 深圳荻硕贝肯精准医学有限公司 人类hla染色体区域杂合性缺失的分析方法和系统
CN113192555A (zh) * 2021-04-21 2021-07-30 杭州博圣医学检验实验室有限公司 一种通过计算差异等位基因测序深度检测二代测序数据smn基因拷贝数的方法
CN113284557B (zh) * 2021-06-24 2021-10-15 北京橡鑫生物科技有限公司 基于reads深度进行目的基因外显子水平重排检测的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021993A (zh) * 2016-05-12 2016-10-12 北京百迈客云科技有限公司 肿瘤外显子组测序分析系统及方法
CN107408163A (zh) * 2015-06-24 2017-11-28 社会福祉法人三星生命公益财团 用于分析基因的方法及装置
CN107633158A (zh) * 2016-07-18 2018-01-26 三星(中国)半导体有限公司 对基因序列进行压缩和解压缩的方法和设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104178572B (zh) * 2010-04-23 2017-01-18 深圳华大基因股份有限公司 测序数据的处理方法及装置
CN106055923A (zh) * 2016-05-13 2016-10-26 万康源(天津)基因科技有限公司 一种基因拷贝数变异分析方法
CN106372459B (zh) * 2016-08-30 2019-03-15 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序拷贝数变异检测的方法及装置
WO2018085779A1 (en) * 2016-11-07 2018-05-11 Counsyl, Inc. Methods for assessing genetic variant screen performance
CN107368708B (zh) * 2017-08-14 2018-03-16 东莞博奥木华基因科技有限公司 一种精准分析dmd基因结构变异断点的方法及系统
CN107391965A (zh) * 2017-08-15 2017-11-24 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的肺癌体细胞突变检测分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408163A (zh) * 2015-06-24 2017-11-28 社会福祉法人三星生命公益财团 用于分析基因的方法及装置
CN106021993A (zh) * 2016-05-12 2016-10-12 北京百迈客云科技有限公司 肿瘤外显子组测序分析系统及方法
CN107633158A (zh) * 2016-07-18 2018-01-26 三星(中国)半导体有限公司 对基因序列进行压缩和解压缩的方法和设备

Also Published As

Publication number Publication date
CN108920899A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108920899B (zh) 一种基于目标区域测序的单个外显子拷贝数变异预测方法
CN108573125B (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
Garvin et al. Interactive analysis and assessment of single-cell copy-number variations
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
Hung et al. Analysis of microarray and RNA-seq expression profiling data
CN106778073B (zh) 一种评估肿瘤负荷变化的方法和系统
CN108664766B (zh) 拷贝数变异的分析方法、分析装置、设备及存储介质
CN108256289B (zh) 一种基于目标区域捕获测序基因组拷贝数变异的方法
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
US20240105282A1 (en) Methods for detecting bialllic loss of function in next-generation sequencing genomic data
KR20240014606A (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
US20230287487A1 (en) Systems and methods for genetic identification and analysis
WO2021232388A1 (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
KR20170059069A (ko) 대사 이상 질환 진단 장치 및 그 방법
Smith et al. Benchmarking splice variant prediction algorithms using massively parallel splicing assays
US20030194724A1 (en) Mutation detection and identification
WO2023184330A1 (zh) 基因组甲基化测序数据的处理方法、装置、设备和介质
CN110942806A (zh) 一种血型基因分型方法和装置及存储介质
TW202300656A (zh) 基因組序列上之拷貝數變異之候選斷點之機械性檢測
EP3552127B1 (en) Methods for detecting variants in next-generation sequencing genomic data
EP3988672B1 (en) Use of off-target sequences for dna analysis
CN111755066B (zh) 一种拷贝数变异的检测方法和实施该方法的设备
Coussement et al. Quantitative transcriptomic and epigenomic data analysis: a primer
CN113793641B (zh) 一种从fastq文件中快速判断样本性别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant