CN106055926A - 一种基因拷贝数变异分析系统 - Google Patents

一种基因拷贝数变异分析系统 Download PDF

Info

Publication number
CN106055926A
CN106055926A CN201610319438.5A CN201610319438A CN106055926A CN 106055926 A CN106055926 A CN 106055926A CN 201610319438 A CN201610319438 A CN 201610319438A CN 106055926 A CN106055926 A CN 106055926A
Authority
CN
China
Prior art keywords
module
copy number
genome
number variation
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610319438.5A
Other languages
English (en)
Inventor
薛成海
马飞
张广发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wankangyuan (tianjin) Gene Technology Co Ltd
Original Assignee
Wankangyuan (tianjin) Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wankangyuan (tianjin) Gene Technology Co Ltd filed Critical Wankangyuan (tianjin) Gene Technology Co Ltd
Priority to CN201610319438.5A priority Critical patent/CN106055926A/zh
Publication of CN106055926A publication Critical patent/CN106055926A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本发明提供了一种基因拷贝数变异分析系统,包括分析模块,用于读入数据的索引文件和参考基因组并进行比对;分割模块,用于将整个基因组的比对结果的sam文件按照染色体分割开;统计模块,对比对测序数据的比对结果进行统计;窗口计算模块,用于以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;图形模块,用于根据计算结果画出染色体覆盖深度图形;所述分析模块为主模块,依次调用其它各模块,完成各部分的分析工作。本发明能够利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时对数据比对信息进行统计,便于数据评估。

Description

一种基因拷贝数变异分析系统
技术领域
本发明属于基因信息数据处理领域,特别是涉及到一种基因拷贝数变异分析系统。
背景技术
人类基因拷贝数变异是多种疾病,特别是肿瘤发生、发展中最重要的原因之一。近年来随着高通量测序技术的迅猛发展,测序成本有了大幅度降低,基于全基因组测序分析基因拷贝数变异越来越成为临床检测和科学研究的常规手段。对于基因拷贝数变异的准确检测和分析也成为生物信息工作者们面对的共同的问题之一。
高通量测序技术通过对基因组上长度为200-500bp的随机区域进行扩增、测序,用测序得到的读长(reads)表征该区域的拷贝数。这样可将基因组上的拷贝数变异信号放大到可检测水平,然后对测序数据进行分析,达到检测基因拷贝数变异的目的。然而,一方面,目前基于高通量测序技术(也称新一代测序技术)的全基因组测序数据由于实验处理技术的局限和人为操作偏差等因素,使得测序数据在整个人类基因组上的分布不均一,有的区域覆盖很高,而有的区域甚至无法覆盖。这种覆盖的不均一性会对基因拷贝数变异检测产生较大的干扰。因此,判断一个区域的reads数的变化是由于测序误差造成的还是源于真正的基因组拷贝数变异,需要连续包含在一定长度的区域(如3MB)的多个小窗口(如100kb)的reads覆盖的平均深度来消除误差影响,然后通过精细的图形化展示,直观的识别出拷贝数变异。然而目前的拷贝数分析软件图形展示不够精细,能识别的拷贝数变异区域大,分辨率低。另一方面,人类基因组着丝粒附近存在的大量重复序列和不易扩增的致密区域,以及参考基因组上存在的未知的 gap区域都会对拷贝数变异的检测产生较大干扰,在数据分析过程中需要排除。然而目前的拷贝数变异分析软件大多都没有排除基因组着丝粒附近高复杂区域和参考基因组的gap区域,导致检测到的拷贝数变异假阳性高,准确性低。
发明内容
有鉴于此,本发明提出一种基因拷贝数变异分析系统,能够利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时对数据比对信息进行统计,便于数据评估。
为达到上述目的,本发明的技术方案是这样实现的:一种基因拷贝数变异分析系统,包括:
分析模块,用于读入数据的索引文件和参考基因组并进行比对;
分割模块,用于将整个基因组的比对结果的sam文件按照染色体分割开;
统计模块,对比对测序数据的比对结果进行统计;
窗口计算模块,用于以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;
图形模块,用于根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;
所述分析模块为主模块,依次调用其它各模块,完成各部分的分析工作。
进一步的,本系统还包括SGE批量提交模块,用于实现多样本分析任务批量提交给SGE集群管理系统。
更进一步的,所述SGE批量提交模块根据实际需求指定队组、内存大小 及每次提交的作业数目。
进一步的,本系统还包括多任务提交模块,用于没有SGE管理系统的集群进行批量提交分析任务。
进一步的,所述窗口计算模块包括特殊区域处理单元,用于遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域,自动跳过,不进行计算。
相对于现有技术,本发明所述的一种基因拷贝数变异分析系统具有以下优势:
(1)本发明将全基因组覆盖深度按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列,而非整个基因组用一条覆盖深度图形展示,这样可以将拷贝数变异检测的分辨率提高10倍以上,进而提升识别拷贝数变异的准确性和灵敏度。
(2)本发明将基因组中的着丝粒高复杂区域和参考基因组的gap区域进行了去除,降低了检测拷贝数变异的假阳性,提高了准确性。
(3)本发明以测序的原始clean reads作为输入文件,经比对,排序,按染色体分割bam文件,统计比对信息,按窗口计算覆盖深度,最后画出展示图,利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时,对数据比对信息进行统计,便于数据评估。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的流程示意图。
图2为本发明实施例的HCC样本基因组覆盖图。
图3为本发明实施例的和HCC配对的正常肝组织基因组覆盖图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
如图1所示为本发明软件系统的运算流程。
本发明的系统架构为:
运行平台:Windows,Linux
编程语言:Perl
软件依赖:BWA,Samtools,SVG画图包。
1、分析模块设有CNVAnalyzer.pl主程序,读入数据的索引文件和参考基因组(两个必须的参数),调用各个辅助程序,依次完成各部分分析工作。
2、分割模块设有cut_sam_bychr.pl程序,将整个基因组的比对结果的sam文件按照染色体分割开,提高运算速度,便于进行统计分析。
3、统计模块设有sam_mapping_stat.pl程序,对比对测序数据的比对结果进行统计。包括原始数据量,mapping rate,unique mapping rate,基因组覆盖率,平均覆盖深度,建库时插入序列的平均长度以及样品的性染色体表型。
4、窗口计算模块设有calcu_window_depth.pl程序,计算基因组上每个窗口(窗口大小为1kb)平均覆盖深度,结果以列表形式给出;
本模块设有特殊区域处理单元,当遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域,则可自动跳过。
同时本程序还将计算每个窗口的覆盖区域大小,覆盖比例以及总的测序碱基数目。
5、SGE批量提交模块,设有qsub-sge.pl程序,可实现多样本分析任务批量提交给SGE集群管理系统。用户可根据实际需求指定队组、内存大小 及每次提交的作业数目。
6、多任务提交模块,设有multi-process.pl程序,用于没有SGE管理系统的集群进行批量提交分析任务。
7、图形模块,设有draw_coverage_depth_chrs.pl程序,可以根据前面的计算结果画出染色体覆盖深度图形。该程序将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列,而非整个基因组用一条覆盖深度图形展示,这样可以最大限度的提高图形展示的分辨率,进而提升识别拷贝数变异的准确性和灵敏性。程序生成SVG格式的矢量图,同时支持按所需ppi大小将SVG转化成pdf,png,jpeg等图片格式。
下面通过一组肝癌肿瘤和正常配对组织样本的低深度全基因组pair-end测序数据为应用实例,展示本发明的软件系统运行实施结果。基因组的拷贝数变异是结直肠癌中常见的基因组变异,也是该癌种主要的引发机制之一。
以样本测序数据为输入数据,得到如下结果
(1)数据信息统计
表3.1测序数据统计信息
(2)根据统计信息和计算的每个窗口的测序覆盖深度,画出覆盖深度图(每条染色体下面小标尺的刻度范围为0-4倍体)
从图2可明显看出在HCC样本基因组上有包括chr1短臂和长臂,chr8短臂等大片段的拷贝数变异发生。
图3表示和HCC配对的正常肝组织基因组拷贝数分布图,从图中可以看出正常组织中没有可靠的拷贝数变异发生。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基因拷贝数变异分析系统,其特征在于,包括:
分析模块,用于读入数据的索引文件和参考基因组并进行比对;
分割模块,用于将整个基因组的比对结果的sam文件按照染色体分割开;
统计模块,对比对测序数据的比对结果进行统计;
窗口计算模块,用于以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;
图形模块,用于根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;
所述分析模块为主模块,依次调用其它各模块,完成各部分的分析工作。
2.根据权利要求1所述的一种基因拷贝数变异分析系统,其特征在于,本系统还包括SGE批量提交模块,用于实现多样本分析任务批量提交给SGE集群管理系统。
3.根据权利要求2所述的一种基因拷贝数变异分析系统,其特征在于,所述SGE批量提交模块根据实际需求指定队组、内存大小及每次提交的作业数目。
4.根据权利要求1所述的一种基因拷贝数变异分析系统,其特征在于,本系统还包括多任务提交模块,用于没有SGE管理系统的集群进行批量提交分析任务。
5.根据权利要求1所述的一种基因拷贝数变异分析系统,其特征在于,所述窗口计算模块包括特殊区域处理单元,用于遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域,自动跳过,不进行计算。
CN201610319438.5A 2016-05-13 2016-05-13 一种基因拷贝数变异分析系统 Pending CN106055926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610319438.5A CN106055926A (zh) 2016-05-13 2016-05-13 一种基因拷贝数变异分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610319438.5A CN106055926A (zh) 2016-05-13 2016-05-13 一种基因拷贝数变异分析系统

Publications (1)

Publication Number Publication Date
CN106055926A true CN106055926A (zh) 2016-10-26

Family

ID=57176936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610319438.5A Pending CN106055926A (zh) 2016-05-13 2016-05-13 一种基因拷贝数变异分析系统

Country Status (1)

Country Link
CN (1) CN106055926A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247890A (zh) * 2017-06-30 2017-10-13 张巍 一种用于临床诊断和预测的基因数据系统
CN107480468A (zh) * 2017-07-06 2017-12-15 北京荣之联科技股份有限公司 基因样本分析方法及电子设备
CN108073790A (zh) * 2016-11-10 2018-05-25 安诺优达基因科技(北京)有限公司 一种染色体变异检测装置
CN108664766A (zh) * 2018-05-18 2018-10-16 广州金域医学检验中心有限公司 拷贝数变异的分析方法、分析装置、设备及存储介质
CN108875302A (zh) * 2018-06-22 2018-11-23 广州漫瑞生物信息技术有限公司 一种检测细胞游离肿瘤基因拷贝数变异的系统和方法
CN111696622A (zh) * 2020-05-26 2020-09-22 北京吉因加医学检验实验室有限公司 一种校正和评估变异检测软件检测结果的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073790A (zh) * 2016-11-10 2018-05-25 安诺优达基因科技(北京)有限公司 一种染色体变异检测装置
CN108073790B (zh) * 2016-11-10 2022-03-01 安诺优达基因科技(北京)有限公司 一种染色体变异检测装置
CN107247890A (zh) * 2017-06-30 2017-10-13 张巍 一种用于临床诊断和预测的基因数据系统
CN107480468A (zh) * 2017-07-06 2017-12-15 北京荣之联科技股份有限公司 基因样本分析方法及电子设备
CN107480468B (zh) * 2017-07-06 2020-10-02 荣联科技集团股份有限公司 基因样本分析方法及电子设备
CN108664766A (zh) * 2018-05-18 2018-10-16 广州金域医学检验中心有限公司 拷贝数变异的分析方法、分析装置、设备及存储介质
CN108664766B (zh) * 2018-05-18 2020-01-31 广州金域医学检验中心有限公司 拷贝数变异的分析方法、分析装置、设备及存储介质
CN108875302A (zh) * 2018-06-22 2018-11-23 广州漫瑞生物信息技术有限公司 一种检测细胞游离肿瘤基因拷贝数变异的系统和方法
CN108875302B (zh) * 2018-06-22 2022-02-22 广州漫瑞生物信息技术有限公司 一种检测细胞游离肿瘤基因拷贝数变异的系统和方法
CN111696622A (zh) * 2020-05-26 2020-09-22 北京吉因加医学检验实验室有限公司 一种校正和评估变异检测软件检测结果的方法
CN111696622B (zh) * 2020-05-26 2023-11-21 北京吉因加医学检验实验室有限公司 一种校正和评估变异检测软件检测结果的方法

Similar Documents

Publication Publication Date Title
CN106055926A (zh) 一种基因拷贝数变异分析系统
CN106055923A (zh) 一种基因拷贝数变异分析方法
US20220156930A1 (en) Cancer risk stratification based on histopathological tissue slide analysis
Binder et al. Morphological and molecular breast cancer profiling through explainable machine learning
US8340389B2 (en) Cellular- or sub-cellular-based visualization information using virtual stains
Angelo et al. Multiplexed ion beam imaging of human breast tumors
Berth et al. The state of the art in the analysis of two-dimensional gel electrophoresis images
US20170091527A1 (en) Quantitative in situ characterization of heterogeneity in biological samples
US9552529B2 (en) Analysis of electrophoretic bands in a substrate
Zhong et al. Image-based computational quantification and visualization of genetic alterations and tumour heterogeneity
Failmezger et al. Semi-automated 3D leaf reconstruction and analysis of trichome patterning from light microscopic images
Rexhepaj et al. A texture based pattern recognition approach to distinguish melanoma from non-melanoma cells in histopathological tissue microarray sections
Laurinavicius et al. Comprehensive immunohistochemistry: digital, analytical and integrated
CN111656393A (zh) 组织学图像分析
Thirumal et al. TITAN: An end‐to‐end data analysis environment for the Hyperion™ imaging system
Chervoneva et al. Quantification of spatial tumor heterogeneity in immunohistochemistry staining images
Garrison et al. Visualization and analysis of microtubule dynamics using dual color-coded display of plus-end labels
CN115115939B (zh) 基于特征注意力机制的遥感图像目标细粒度识别方法
Razavi et al. An automated and accurate methodology to assess ki-67 labeling index of immunohistochemical staining images of breast cancer tissues
Yang et al. SMART-Q: An integrative pipeline quantifying cell type-specific RNA transcription
Zhurikhina et al. EdgeProps: a computational platform for correlative analysis of cell dynamics and Near-Edge protein activity
Trinh et al. GoIFISH: a system for the quantification of single cell heterogeneity from IFISH images
Nielsen et al. Computer-assisted annotation of digital H&E/SOX10 dual stains generates high-performing convolutional neural network for calculating tumor burden in H&E-Stained cutaneous melanoma
Lee et al. Classification of mouse lung metastatic tumor with deep learning
US20200242756A1 (en) Predicting outcome in invasive breast cancer from collagen fiber orientation disorder features in tumor associated stroma

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026

RJ01 Rejection of invention patent application after publication