发明内容
本发明要解决的一个技术问题是提供一种检测基因组目标区域多态性位点的方法及系统,通过对实验样品进行深度、覆盖度分析、捕获效率分析、性别检验、SNP位点杂合度一致性等检验,解决了基因组外显子区域生物信息学分析方法和工具不完善的问题,大大提高了对基因组外显子数据分析的准确性和可靠性。
本发明的一个方面提供了一种检测基因组目标区域多态性位点的方法,该方法包括:获取外显子测序结果步骤:对人类基因组DNA样品进行测序和纯化处理,得到外显子区域测序结果;将外显子区域测序结果与参考基因序列进行比对得到精确的比对结果;去冗余与排序步骤:对比对后获得的比对结果进行去除重复信息和排序处理;统计分析步骤I:对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染;探测SNP位点步骤:从排序处理后的结果中找到SNP位点;SNP位点过滤步骤:以质量值为指标对探测得到的SNP位点进行筛选;统计分析步骤II:对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染;SNP注释步骤:用过滤后的SNP位点与dbSNP数据库中的信息进行比较,并结合ccds、refseq、ensembl数据库中至少一个中的数据对比对吻合的SNP位点进行注释与分类。
本发明提供的检测基因组目标区域多态性位点的方法的一个实施例中,在获取外显子测序结果步骤中,通过将测序结果中含有的、由测序过程引入的linker序列和adapter序列去除以实现纯化处理;以及利用Soap工具将外显子区域测序结果与参考基因序列进行比对,得到精确的比对结果。
本发明提供的检测基因组目标区域多态性位点的方法的一个实施例中,在去冗余与排序步骤中,将比对结果去除重复信息后按照染色体和坐标排序,排序处理后的结果作为探测SNP位点步骤待处理的对象。
本发明提供的检测基因组目标区域多态性位点的方法的一个实施例中,在统计分析步骤I中,采用工具soap.coverage对全局的目标区域进行深度和覆盖度统计,并绘制具体分布图,用以反映样品目标区域被覆盖的均一性、大于预定值的碱基所占比例;以及用X,Y染色体的目标区域的测序深度,根据支持向量机的分析原理对样本的性别进行检验;判断样品是否被污染;如果样品在实验阶段被污染,则给出具体的污染信息。
本发明提供的检测基因组目标区域多态性位点的方法的一个实施例中,在统计分析步骤II中,如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,则判断样品被污染。
本发明的另一个方面提供了一种检测基因组目标区域多态性位点的系统,该装置包括:外显子测序结果获取模块,用于对人类基因组DNA样品进行测序和纯化处理,得到外显子区域测序结果;将外显子区域测序结果与参考基因序列进行比对得到精确的比对结果;去冗余与排序模块,用于对比对后获得的比对结果进行去除重复信息和排序处理;统计分析模块,用于对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染;对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染;SNP位点探测模块,用于从排序处理后的结果中找到SNP位点;SNP位点过滤模块,用于以质量值为指标对探测得到的SNP位点进行筛选;SNP注释模块,用于将过滤后的SNP位点与dbSNP数据库中的信息进行比较,并结合ccds、refseq、ensembl数据库中至少一个中的数据对比对吻合的SNP位点进行注释与分类。
本发明提供的检测基因组目标区域多态性位点的系统的一个实施例中,外显子测序结果获取模块进一步包括:纯化处理子模块,用于将测序结果中含有的、由测序过程引入的linker序列和adapter序列去除;比对子模块,用于利用Soap工具将外显子区域测序结果与参考基因序列进行比对,得到精确的比对结果。
本发明提供的检测基因组目标区域多态性位点的系统的一个实施例中,去冗余与排序模块进一步包括:去冗余子模块,用于对比对后获得的比对结果进行去除重复信息处理;排序子模块,用于将去除重复信息后的比对结果按照染色体和坐标进行排序,排序处理后的结果作为SNP位点探测模块待处理的对象。
本发明提供的检测基因组目标区域多态性位点的系统的一个实施例中,统计分析模块进一步包括:第一统计分析子模块,用于对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染;第二统计分析子模块,用于对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染。
本发明提供的检测基因组目标区域多态性位点的系统的一个实施例中,第一统计分析子模块采用工具soap.coverage对全局的目标区域进行深度和覆盖度统计,并绘制具体分布图,用以反映样品目标区域被覆盖的均一性、大于预定值的碱基所占比例;以及用X,Y染色体的目标区域的测序深度,根据支持向量机的分析原理对样本的性别进行检验;判断样品是否被污染;如果样品在实验阶段被污染,则给出具体的污染信息;第二统计分析子模块对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析;如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,则判断样品被污染。
本发明提供了一种关于检测基因组目标区域多态性位点的方法及系统,通过对基因组特定区域测序进行比对、SNP位点注释与分类等操作,高效、快速地获取高准确度的SNP注释结果,为解码个人基因组和实现个体化医疗提供保障,解决了基因组外显子区域生物信息学分析方法和工具不完善的问题。
具体实施方式
下面参照附图用本发明的示例性实施例对本发明进行更全面的描述及说明。
图1示出本发明实施例提供的一种检测基因组目标区域多态性位点的方法的流程图。
如图1所示,检测基因组目标区域多态性位点的方法100包括步骤102,获取外显子测序结果步骤:对人类基因组DNA样品进行测序和纯化处理,得到外显子区域测序结果;将外显子区域测序结果与参考基因序列进行比对得到精确的比对结果。本发明实施例中,测序方法可以采用高通量测序技术,例如采用Illumina GA Solexa测序技术;Solexa是一种基于边合成边测序技术(SBS,Sequencing-By-Synthesis)的新型测序方法,通过利用单分子阵列实现在小型芯片(Flow Cell)上进行桥式PCR反应。新的可逆阻断技术可实现每次只合成一个碱基,不需要标记荧光基团,再利用相应的激光激发荧光基团捕获激发光,从而读取碱基信息。
本发明的一个实施例中,可以采用本申请人(深圳华大基因科技有限公司)自主研发的soap工具(该软件可以免费获得,下载网址是http://soap.genomics.org.cn/)将纯化处理后的外显子区域测序结果比对到参考基因组(参考基因组可以来自标准化组织公开发布的基因组信息)上,得到精确的比对结果;其中对soap工具所涉及的具体方法可以参见文献:SOAP:short oligonucleotide alignment program;Ruiqiang Li,Yingrui Li,Karsten Kristiansen and Jun Wang;Bioinformatics;200824(5):713-714;doi:10.1093。
步骤104,去冗余与排序步骤:对比对后获得的比对结果进行去除重复信息和排序处理。本发明提供的一个实施例中,通过将比对结果去除重复信息后按照“染色体和坐标”排序,排序处理后的结果作为探测SNP位点步骤待处理的对象。
步骤106,统计分析步骤I:对全局的目标区域(target region)进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染,从而排除潜在的样品污染。本发明中目标区域可以是预先设定或已知的一系列参考坐标,来标示所关注的区域。本发明的一个实施例中,可以采用本申请人自主研发的工具soap.coverage(Soap.coverage是一个完备的统计工具,该软件可以免费获得,下载网址是http://soap.genomics.org.cn/)对target区域进行深度和覆盖度统计。在分析报告中可以具体给出Pure或Polluted的定性分析结论。
步骤108,探测SNP位点步骤:从排序处理后的结果中找到SNP位点。单核苷酸多态性(SNP)是指在基因组上单个核苷酸的变异,形成的遗传标记数量很多,多态性丰富。这种发生在基因组序列上的变异,会影响遗传疾病的发生,生物体对于各种病原体,化学品,药物以及疫苗等的反应。人体许多表型差异、对疾病的易感性等等都可能与SNP有关。因此,SNP被普遍认为是实现个体化医疗的关键,对于SNP的分析检测具有重大价值。本发明的一个实施例中,可以采用本申请人自主开发的SNP探测工具soapSNP(该软件可以免费获得,下载网址是http://soap.genomics.org.cn/)找到我们所关心的SNP位点,其中有关SoapSNP工具的原理可以参见文献:SNP detection for massively parallel whole genome resequencing;Ruiqiang Li,Yingrui Li,Xiaodong Fang,Huanming Yang,Jian Wang,Karsten Kristiansen and Junn Wang Genome Res.;2009.19:1124-1132。
步骤110,SNP位点过滤步骤:以质量值为指标对探测得到的SNP位点进行筛选。本发明的一个实施例中,可以预先规定质量值的阈值为20(阈值20代表错误率是0.01,低于这个值可视为“不可信”),以此阈值作为筛选SNP位点的指标;本领域技术人员根据本发明的教导可以清楚的知晓,根据具体的样品进行SNP位点筛选的标准是可以不同的,本领域技术人员可以根据实际情况选取合适的阈值,前述所举例说明的阈值并不用来限制本发明的。
步骤112,统计分析步骤II:对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因(allele)支持深度和次优等位基因支持深度进行分析,判断样品是否被污染。其中最优等位基因“支持深度”,即有多少条基因序列在当前坐标的基因型与最优基因型一致;如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,例如散点呈现出线性关系,相关系数r的平方趋近于1时,斜率是否偏离0.5(0.5是正常值);据此判断样品被污染。
步骤114,SNP注释步骤:用过滤后的SNP位点与dbSNP数据库中的信息进行比较,并结合ccds(Consensus CDS的简称)、refseq、ensembl数据库中至少一个中的数据对比对吻合的SNP位点进行注释与分类。其中,dbSNP数据库(单核苷酸多态性数据库,Single Nucleotide Polymorphism Database)是美国国家生物技术信息中心(NCBI,National Center for Biotechnology Information)与国家人类基因组研究所(NHGRI,National Human Genome Research Institute)合作主办,向公众免费提供在不同的物种内的遗传变异的权威基因档案。通过把当前样本中出现的SNP位点与数据库中已知的SNP位点信息进行比较,确定基因突变的SNP位点,从而寻找可能受到影响的基因,并对其进行标注分类。
本发明一个实施例提供的检测基因组目标区域多态性位点的方法,对基因组特定区域测序进行SNP分析,而且本发明检测SNP结果准确度高,速度快,成本低,全过程均可以实现自动化,即以原始测序数据为数据源,自动生成高质量SNP位点,并对SNP位点进行注释与分类。
图2示出本发明提供的检测基因组目标区域多态性位点的方法的另一个实施例的流程图。
如图2所示,检测基因组目标区域多态性位点的方法200包括:步骤202、203、204-214,其中步骤204-214可以分别执行与图1所示的步骤104-114相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图2所示,步骤202,对人类基因组DNA样品进行测序,通过将测序结果中含有的、由测序过程引入的linker序列和adapter序列去除以实现对外显子区域测序结果的纯化处理。
步骤203,利用Soap工具将外显子区域测序结果与参考基因序列进行比对,得到精确的比对结果。
图3示出本发明提供的检测基因组目标区域多态性位点的方法的另一个实施例的流程图。
如图3所示,检测基因组目标区域多态性位点的方法300包括:步骤302、304、306-310、312、314,其中步骤302、304、308、310、312和314可以分别执行与图1所示的步骤102、104、108、110、112和114相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图3所示,在步骤304后,执行步骤306,采用工具soap.coverage对全局的目标区域进行深度和覆盖度统计,并绘制具体分布图,用以反映样品目标区域被覆盖的均一性、大于预定值的碱基所占比例。例如,根据对目标区域的深度和覆盖度统计可以绘制目标区域深度分布直方图,通过判断该直方图与泊松分布(Poisson distribution)的吻合程度来反映样品被测目标区域被覆盖的均一性;绘制目标区域深度累积分布图,反映某一深度值的碱基占总长度的比率;此外,还可以绘制测序深度饱和度曲线图,用来反映测序深度与目标区域覆盖度的相关性。
步骤307,用X,Y染色体的目标区域的测序深度,根据SVM(支持向量机,Support Vector Machine,一种广泛使用的数理统计学习方法)的分析原理对样本的性别进行检验;判断样品是否被污染;如果是,执行步骤309;否则执行步骤310。即通过用XY染色体深度进行性别检验,以排除潜在的样品被污染的情形。
步骤309,如果样品在实验阶段被污染,则给出具体的污染信息;实验失败,可以终止检测基因组目标区域多态性位点的流程。
步骤312,判断样品是否被污染;如果是,执行步骤309;否则执行步骤314。
图4示出本发明提供的检测基因组目标区域多态性位点的方法的一个具体实施方式的流程图。
本发明中,检测基因组目标区域多态性位点的方法的各步流程都可以整合到软件ECP(Exome Capture processor)中,本软件的运行环境为Unix/Linux操作系统,通过Unix/Linux命令行运行。具体操作步骤如下:
在Linux操作系统计算机终端中输入以下命令:ECP-lsample.list-o outdir-r hg18.fa-t capture_regions/-i hs.fa.index-p-fref.fa.stat-x-q 20-S
ECP命令行参数包括:
-r参考序列路径;
-l样品列表路径(列表格式见下文)
-O输出文件夹路径
-t目标区域文件夹路径
-i参考序列soap建库文件路径
-f参考序列stat文件路径
-x是否生成SNP文件
-p是否为pair-end
-S生成CNS文件
-e外显子区域文件加路径
-a是否去adapter
-L是否去linker
-h帮助
-v当前版本
待分析数据包括:
(1)、测序数据:PE_1.fq PE_2.fq(外显子区域测序结果)
(2)、参考序列:hg18.fa(物种参考序列)
(3)、外显子坐标信息:Exome.target(外显子在基因组中绝对坐标)
(4)、样品初始信息sample.list:
1)样品名:FC61K8AAAXX(该处使用的本样品需经本发明的发明人罗锐邦许可,本领域技术人员应该知晓,此处仅仅是选取一种样品作为检测对象,本发明具体方案的实现不依赖于该特定的样品,该处所使用的样品不对本发明构成任何限制);
2)lane号:
100509_I82_FC61K8AAAXX_L2_HUMlrbXAADCAAPEI-6
3)性别:Male
4)测序数据(该样品对应的测序数据,仅作举例说明,不对本发明技术方案的实现构成任何限制):
100509_I82_FC61K8AAAXX_L2_HUMlrbXAADCAAPEI-6_1.fq
100509_I82_FC61K8AAAXX_L2_HUMlrbXAADCAAPEI-6_2.fq
5)插入片段大小:100-200bp
表一示出针对样品(FC61K8AAAXX)进行检测的结果,涉及数据产量&捕获效率的分析结果等。
SampleName |
lrb_male |
Total reads |
29274700 |
Yeild(Mb) |
2919.29 |
Total reads mapped to genome |
24493992(83.6695%) |
Total reads uniquely mapped to genome |
18870215(64.4591%) |
Total reads uniquely hit target |
13128654(44.8464%) |
The duplication rate:22.9598% |
|
Target region size(bp):34125381 |
|
Total number of targeted regions: |
176160 |
Target covered by at least 1 read: |
175693(99.7349%) |
Target covered by at least 5 read: |
174100(98.8306%) |
Target covered by at least 10 read: |
171718(97.4784%) |
Target covered by at least 20 read: |
165529(93.9651%) |
Target covered by at least 40 read: |
146268(83.0313%) |
sample.avrg_rd_len: |
99.7205 |
sample.coverage: |
0.992245 |
sample.coverage_flank: |
0.794276 |
sample.flan_fraction_20: |
1.09125e+07(5.18936%) |
sample.flan_fraction_10: |
8.95834e+07(42.6009%) |
sample.flan_fraction_4: |
1.24376e+08(59.1463%) |
sample.fraction_20: |
8.05268e+06(23.5973%) |
sample.fraction_10: |
3.1194e+07(91.41%) |
sample.fraction_4: |
3.31334e+07(97.0931%) |
Total unique reads(M): |
18.8702 |
Total unique read base(Mb): |
1880.16 |
Unique reads mapped to Exome regions: |
N/A |
sample.base_tgt: |
994303431(52.8841%) |
number of total mismatch: |
7433546 |
MisMatchRate in target data: |
0.40% |
MisMatchRate in exome data: |
N/A |
sample.read_hit: |
13128654 |
sample.read_500_hit: |
1.97E+07 |
sample.read_200_hit: |
1.79E+07 |
sample._500_depth: |
11.8844 |
sample._200_depth: |
17.7108 |
sample.depth: |
29.1368 |
sample.dep_median: |
29.8175 |
sample.dep_chrX: |
19.0601 |
sample.dep_chrY: |
26.2771 |
sample input gender:Male |
|
Accuracy=100%(1/1)(classification) |
|
Gender test result: |
pure |
如图4所示,在该具体实施方式中选择一名男性的基因组序列(样品名:FC61K8AAAXX),经过测序得到外显子区域测序结果(reads file(*.fq)),经过去除linker和adapter的纯化处理,得到高通量测序结果(solexa reads);随后利用Soap工具将该处理后的该高通量测序结果与参考基因组序列(*.fa)进行比对,对结果中的重复信息进行去冗余和排序处理,从而得到具有唯一性的reads;接下来进行统计分析与质量控制检测,具体来说,涉及采用soap.coverage对target区域进行深度和覆盖度统计,给出具体分布图。图5示出图4所示的具体实施方式采用soap.coverage对目标区域进行深度和覆盖度统计后绘制的目标区域深度分布直方图。如图5所示,通过判断该直方图与泊松分布(Poisson distribution)的吻合程度来反映样品被测目标区域被覆盖的均一性;具体来说,主要涉及样品目标区域是否被测到,测到的区域分布是否均一。图6示出图4所示的具体实施方式采用soap.coverage对目标区域进行深度和覆盖度统计后绘制的目标区域深度积累分布图。如图6所示,绘制目标区域深度累积分布图,反映某一深度值的碱基占总长度的比率;具体来说,主要涉及至少有多少百分比的碱基深度在多少层以上。图7示出图4所示的具体实施方式采用soap.coverage对目标区域进行深度和覆盖度统计后绘制的测序深度饱和度曲线图。如图7所示,测序深度饱和度曲线图,用来反映测序深度与目标区域覆盖度的相关性,如多少层深度就能基本覆盖全部区域,避免深度不够导致覆盖度的减少,也避免深度太大造成数据冗余。
以及针对前述排序处理后的结果,用SNP探测工具soapSNP找到我们所关心的SNP位点,如表二所示。
chr1 |
856182 |
G |
A |
24 |
A |
30 |
14 |
14 |
G |
2 |
1 |
1 |
15 |
1 |
1 |
0 |
4827 |
chr1 |
861009 |
C |
Y |
99 |
T |
32 |
11 |
11 |
C |
25 |
12 |
12 |
23 |
0.673676 |
1 |
0 |
3168 |
chr1 |
864177 |
G |
R |
72 |
A |
32 |
11 |
11 |
G |
33 |
4 |
4 |
15 |
0.642857 |
1 |
0 |
2185 |
chr1 |
868034 |
C |
Y |
32 |
T |
33 |
3 |
3 |
C |
34 |
2 |
2 |
5 |
0.2 |
1 |
0 |
1672 |
chr1 |
871490 |
G |
A |
38 |
A |
27 |
18 |
18 |
G |
0 |
0 |
0 |
18 |
1 |
1 |
0 |
1473 |
chr1 |
877664 |
A |
G |
70 |
G |
28 |
32 |
32 |
A |
0 |
0 |
0 |
32 |
1 |
1 |
0 |
838 |
chr1 |
878502 |
T |
C |
59 |
C |
31 |
28 |
29 |
T |
0 |
0 |
0 |
29 |
1 |
1.03448 |
0 |
20 |
chr1 |
878522 |
T |
C |
51 |
C |
32 |
20 |
21 |
T |
0 |
0 |
0 |
21 |
1 |
1.04762 |
0 |
20 |
chr1 |
884436 |
G |
A |
34 |
A |
28 |
16 |
16 |
G |
0 |
0 |
0 |
16 |
1 |
1 |
0 |
2752 |
chr1 |
887188 |
G |
C |
45 |
C |
32 |
18 |
18 |
G |
0 |
0 |
0 |
18 |
1 |
1 |
0 |
2752 |
表二SNP位点探测结果的节选
根据所探测的SNP位点,以质量值为指标进行筛选过滤,并对外显子区域的SNP位点的覆盖度进行统计,并且以每个SNP位点的最优allele支持深度和次优allele支持深度进行分析。图8示出图4所示的具体实施方式对每个SNP位点的最优allele支持深度和次优allele支持深度进行分析后绘制的SNP位点杂合度散点图。如图8所示,通过显示全局的SNP的杂合率是否有一定的集中趋势来判断样品是否被污染,例如,若杂合位点深度散点图有高度集中的趋势,即相关系数趋近1,且斜率偏离0.5则说明有污染的可能。最后可以将筛选过滤后获得SNP位点结果,与dbSNP数据库中的信息进行比较,结合ccds、refseq和ensembl等数据库中至少一个数据库中的数据对其进行注释(如表三所示)与分类。
表三SNP位点注释结果的节选
本发明具体实施方式提供的检测基因组目标区域多态性位点的方法已整合成软件ECP,其检测全过程都能够通过自动化的方式实现,对计算机I/O资源,内存资源有很好控制。以管道技术代替以往以文件作为信息交换的方式,以二进制内存压缩和二进制文件临时存储作为大内存数据的解决方案,在理论上可以使本系统适应任何能够运行SOAP的硬件环境。
图9示出本发明实施例提供的一种检测基因组目标区域多态性位点的系统的结构示意图。
如图9所示,一种检测基因组目标区域多态性位点的系统900包括:外显子测序结果获取模块902、去冗余与排序模块904、统计分析模块906、SNP位点探测模块908、SNP位点过滤模块910和SNP注释模块912。
其中,外显子测序结果获取模块902,用于对人类基因组DNA样品进行测序和纯化处理,得到外显子区域测序结果;将外显子区域测序结果与参考基因序列进行比对得到精确的比对结果。本发明实施例中,测序方法可以采用高通量测序技术,例如Illumina GA Solexa测序技术;本发明的一个实施例中,可以采用本申请人(深圳华大基因科技有限公司)自主研发的soap工具将纯化处理后的外显子区域测序结果比对到参考基因组(参考基因组可以来自标准化组织公开发布的基因组信息)上,得到精确的比对结果;其中对soap工具所涉及的具体方法可以参见文献:SOAP:short oligonucleotide alignment program;Ruiqiang Li,Yingrui Li,Karsten Kristiansen and Jun Wang;Bioinformatics;200824(5):713-714;doi:10.1093。
去冗余与排序模块904,用于对比对后获得的比对结果进行去除重复信息和排序处理。本发明提供的一个实施例中,通过将比对结果去除重复信息后按照“染色体和坐标”排序,排序处理后的结果作为探测SNP位点步骤待处理的对象。
统计分析模块906,用于对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染;对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染。本发明中目标区域可以是预先设定或已知的一系列参考坐标,来标示所关注的区域。本发明的一个实施例中,可以采用本申请人自主研发的工具soap.coverage对target区域进行深度和覆盖度统计。其中,最优等位基因“支持深度”,即有多少条基因序列在当前坐标的基因型与最优基因型一致;如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,则判断样品被污染。
SNP位点探测模块908,用于从排序处理后的结果中找到SNP位点。本发明的一个实施例中,可以采用本申请人自主开发的SNP探测工具soapSNP找到我们所关心的SNP位点,其中有关SoapSNP工具的原理可以参见文献:SNP detection for massively parallel whole genome resequencing;Ruiqiang Li,Yingrui Li,Xiaodong Fang,Huanming Yang,Jian Wang,Karsten Kristiansen and Junn Wang Genome Res.;2009.19:1124-1132。
SNP位点过滤模块910,用于以质量值为指标对探测得到的SNP位点进行筛选。本发明的一个实施例中,可以预先规定质量值的阈值为20,以此阈值作为筛选SNP位点的指标;本领域技术人员根据本发明的教导可以清楚的知晓,根据具体的样品进行SNP位点筛选的标准是可以不同的,本领域技术人员可以根据实际情况选取合适的阈值,前述所举例说明的阈值并不用来限制本发明的。
SNP注释模块912,用于将过滤后的SNP位点与dbSNP数据库中的信息进行比较,并结合ccds、refseq、ensembl数据库中至少一个中的数据对比对吻合的SNP位点进行注释与分类。通过把当前样本中出现的SNP位点与数据库中已知的SNP位点信息进行比较,确定基因突变的SNP位点,从而寻找可能受到影响的基因,并对其进行标注分类。
本发明一个实施例提供的检测基因组目标区域多态性位点的系统,对基因组特定区域测序进行SNP分析,而且本发明检测SNP结果准确度高,速度快,成本低,全过程均可以实现自动化,即以原始测序数据为数据源,自动生成高质量SNP位点,并对SNP位点进行注释与分类。
图10示出本发明提供的检测基因组目标区域多态性位点的系统的另一个实施例的结构示意图。
如图10所示,一种检测基因组目标区域多态性位点的系统1000包括:外显子测序结果获取模块1002、去冗余与排序模块1004、统计分析模块1006、SNP位点探测模块1008、SNP位点过滤模块1010和SNP注释模块1012,其中去冗余与排序模块1004、统计分析模块1006、SNP位点探测模块1008、SNP位点过滤模块1010和SNP注释模块1012可以是与图9所示去冗余与排序模块904、统计分析模块906、SNP位点探测模块908、SNP位点过滤模块910和SNP注释模块912相同或相似的功能模块。为简洁起见,这里不再赘述。
如图10所示,外显子测序结果获取模块1002进一步包括:纯化处理子模块10021和比对子模块10022;其中
纯化处理子模块10021,用于通过将测序结果中含有的、由测序过程引入的linker序列和adapter序列。
比对子模块10022,用于利用Soap工具将外显子区域测序结果与参考基因序列进行比对,得到精确的比对结果。
图11示出本发明提供的检测基因组目标区域多态性位点的系统的另一个实施例的结构示意图。
如图11所示,一种检测基因组目标区域多态性位点的系统1100包括:外显子测序结果获取模块1102、去冗余与排序模块1104、统计分析模块1106、SNP位点探测模块1108、SNP位点过滤模块1110和SNP注释模块1112,其中外显子测序结果获取模块1102、统计分析模块1106、SNP位点探测模块1108、SNP位点过滤模块1110和SNP注释模块1112可以是与图9所示外显子测序结果获取模块902、统计分析模块906、SNP位点探测模块908、SNP位点过滤模块910和SNP注释模块912相同或相似的功能模块。为简洁起见,这里不再赘述。
如图11所示,去冗余与排序模块1104进一步包括:去冗余子模块11041和排序子模块11042,其中
去冗余子模块11041,用于对比对后获得的比对结果进行去除重复信息处理。
排序子模块11042,用于将去除重复信息后的比对结果按照染色体和坐标进行排序,排序处理后的结果作为SNP位点探测模块待处理的对象。
图12示出本发明提供的检测基因组目标区域多态性位点的系统的另一个实施例的结构示意图。
如图12所示,一种检测基因组目标区域多态性位点的系统1200包括:外显子测序结果获取模块1202、去冗余与排序模块1204、统计分析模块1206、SNP位点探测模块1208、SNP位点过滤模块1010和SNP注释模块1012,其中外显子测序结果获取模块1202、去冗余与排序模块1204、SNP位点探测模块1208、SNP位点过滤模块1010和SNP注释模块1012可以是与图9所示外显子测序结果获取模块902、去冗余与排序模块904、SNP位点探测模块908、SNP位点过滤模块910和SNP注释模块912相同或相似的功能模块。为简洁起见,这里不再赘述。
如图12所示,统计分析模块1206进一步包括:第一统计分析子模块12061和第二统计分析子模块12062,其中
第一统计分析子模块12061,用于对全局的目标区域进行深度和覆盖度统计,以及用X,Y染色体的目标区域的测序深度,对样本的性别进行检验;判断样品是否被污染。本发明提供的一个实施例中,第一统计分析子模块采用工具soap.coverage对全局的目标区域进行深度和覆盖度统计,并绘制具体分布图,用以反映样品目标区域被覆盖的均一性、大于预定值的碱基所占比例;以及用X,Y染色体的目标区域的测序深度,根据支持向量机的分析原理对样本的性别进行检验;判断样品是否被污染;如果样品在实验阶段被污染,则给出具体的污染信息。
第二统计分析子模块12062,用于对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析,判断样品是否被污染。本发明提供的一个实施例中,第二统计分析子模块对过滤后的SNP位点的覆盖度进行统计,并以每个SNP位点的最优等位基因支持深度和次优等位基因支持深度进行分析;如果SNP位点的最优等位基因支持深度和次优等位基因支持深度分析显示全局的SNP杂合率呈现集中趋势,则判断样品被污染。
本发明提供的检测基因组目标区域多态性位点的系统,对实验样品进行详尽统计分析与质量控制,涉及深度、覆盖度分析、捕获效率分析、性别检验、SNP位点杂合度一致性等检验。通过前述分析流程大大提高了了对基因组外显子数据分析的准确性和可靠性,同时还能够对相应错误信息进行适当修正。
参考前述本发明示例性的描述,本领域技术人员可以清楚的知晓本发明提供的检测基因组目标区域多态性位点的方法及系统所具有的前述优点;具体如下:
1、本发明一个实施例提供的检测基因组目标区域多态性位点的方法及系统,对基因组特定区域测序进行SNP分析,而且本发明检测SNP结果准确度高,速度快,成本低,全过程均可以实现自动化,即以原始测序数据为数据源,自动生成高质量SNP位点,并对SNP位点进行注释与分类。
2、本发明一个实施例提供的检测基因组目标区域多态性位点的方法及系统,已整合成软件ECP,其检测全过程都能够通过自动化的方式实现,对计算机I/O资源,内存资源有很好控制。以管道技术代替以往以文件作为信息交换的方式,以二进制内存压缩和二进制文件临时存储作为大内存数据的解决方案,在理论上可以使本系统适应任何能够运行SOAP的硬件环境。
3、本发明一个实施例提供的检测基因组目标区域多态性位点的方法及系统,对实验样品进行详尽统计分析,涉及深度、覆盖度分析、捕获效率分析、性别检验、SNP位点杂合度一致性等检验。通过前述分析流程大大提高了了对基因组外显子数据分析的准确性和可靠性,同时还能够对相应错误信息进行适当修正。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。本发明中描述的功能模块以及功能模块的划分方式仅为说明本发明的思想,本领域技术人员根据本发明的教导以及实际应用的需要可以自由改变功能模块的划分方式及其模块构造以实现相同的功能;选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。