CN106055923A - 一种基因拷贝数变异分析方法 - Google Patents

一种基因拷贝数变异分析方法 Download PDF

Info

Publication number
CN106055923A
CN106055923A CN201610319474.1A CN201610319474A CN106055923A CN 106055923 A CN106055923 A CN 106055923A CN 201610319474 A CN201610319474 A CN 201610319474A CN 106055923 A CN106055923 A CN 106055923A
Authority
CN
China
Prior art keywords
genome
copy number
number variation
chromosome
gene copy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610319474.1A
Other languages
English (en)
Inventor
薛成海
雷文婕
张广发
李柏良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wankangyuan (tianjin) Gene Technology Co Ltd
Original Assignee
Wankangyuan (tianjin) Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wankangyuan (tianjin) Gene Technology Co Ltd filed Critical Wankangyuan (tianjin) Gene Technology Co Ltd
Priority to CN201610319474.1A priority Critical patent/CN106055923A/zh
Publication of CN106055923A publication Critical patent/CN106055923A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基因拷贝数变异分析方法,包括以下步骤:1)读入数据的索引文件和参考基因组;2)将整个基因组的比对结果的sam文件按照染色体分割开;3)对比对测序数据的比对结果进行统计;4)以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;5)根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;6)从图形中直接识别拷贝数变异。本发明能够利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时对数据比对信息进行统计,便于数据评估。

Description

一种基因拷贝数变异分析方法
技术领域
本发明属于基因信息数据处理领域,特别是涉及到一种基因拷贝数变异分析方法。
背景技术
人类基因拷贝数变异是多种疾病,特别是肿瘤发生、发展中最重要的原因之一。近年来随着高通量测序技术的迅猛发展,测序成本有了大幅度降低,基于全基因组测序分析基因拷贝数变异越来越成为临床检测和科学研究的常规手段。对于基因拷贝数变异的准确检测和分析也成为生物信息工作者们面对的共同的问题之一。
高通量测序技术通过对基因组上长度为200-500bp的随机区域进行扩增、测序,用测序得到的读长(reads)表征该区域的拷贝数。这样可将基因组上的拷贝数变异信号放大到可检测水平,然后对测序数据进行分析,达到检测基因拷贝数变异的目的。然而,一方面,目前基于高通量测序技术(也称新一代测序技术)的全基因组测序数据由于实验处理技术的局限和人为操作偏差等因素,使得测序数据在整个人类基因组上的分布不均一,有的区域覆盖很高,而有的区域甚至无法覆盖。这种覆盖的不均一性会对基因拷贝数变异检测产生较大的干扰。因此,判断一个区域的reads数的变化是由于测序误差造成的还是源于真正的基因组拷贝数变异,需要连续包含在一定长度的区域(如3MB)的多个小窗口(如100kb)的reads覆盖的平均深度来消除误差影响,然后通过精细的图形化展示,直观的识别出拷贝数变异。然而目前的拷贝数分析软件图形展示不够精细,能识别的拷贝数变异区域大,分辨率低。另一方面,人类基因组着丝粒附近存在的大量重复序列和不易扩增的致密区域,以及参考基因组上存在的未知的 gap区域都会对拷贝数变异的检测产生较大干扰,在数据分析过程中需要排除。然而目前的拷贝数变异分析软件大多都没有排除基因组着丝粒附近高复杂区域和参考基因组的gap区域,导致检测到的拷贝数变异假阳性高,准确性低。
发明内容
有鉴于此,本发明提出一种基因拷贝数变异分析方法,能够利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时对数据比对信息进行统计,便于数据评估。
为达到上述目的,本发明的技术方案是这样实现的:一种基因拷贝数变异分析方法,包括以下步骤:
1)读入数据的索引文件和参考基因组;
2)将整个基因组的比对结果的sam文件按照染色体分割开;
3)对比对测序数据的比对结果进行统计;
4)以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;
5)根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;
6)从图形中直接识别拷贝数变异。
进一步的,步骤3)所述统计的比对结果包括原始数据量,mapping rate,uniquemapping rate,基因组覆盖率,平均覆盖深度,建库时插入序列的平均长度以及样品的性染色体表型。
进一步的,步骤4)计算过程中遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域,自动跳过。
更进一步的,步骤4)还计算每个窗口的覆盖区域大小,覆盖比例以及总的测序碱基数目。
进一步的,步骤5)所述画出染色体覆盖深度图形,是以100K为一个点。
相对于现有技术,本发明所述的一种基因拷贝数变异分析方法具有以下优势:
(1)本发明将全基因组覆盖深度按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列,而非整个基因组用一条覆盖深度图形展示,这样可以将拷贝数变异检测的分辨率提高10倍以上,进而提升识别拷贝数变异的准确性和灵敏度。
(2)本发明将基因组中的着丝粒高复杂区域和参考基因组的gap区域进行了去除,降低了检测拷贝数变异的假阳性,提高了准确性。
(3)本发明以测序的原始clean reads作为输入文件,经比对,排序,按染色体分割bam文件,统计比对信息,按窗口计算覆盖深度,最后画出展示图,利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时,对数据比对信息进行统计,便于数据评估。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的流程示意图。
图2为本发明实施例的HCC样本基因组覆盖图。
图3为本发明实施例的和HCC配对的正常肝组织基因组覆盖图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
如图1所示,本发明的实施步骤为:
(1)读入数据的索引文件和参考基因组(两个必须的参数),依次完成各部分分析工作。
(2)将整个基因组的比对结果的sam文件按照染色体分割开,可以提高运算速度,便于进行统计分析。
(3)对比对测序数据的比对结果进行统计。包括原始数据量,mapping rate,unique mapping rate,基因组覆盖率,平均覆盖深度,建库时插入序列的平均长度以及样品的性染色体表型。
(4)计算基因组上每个窗口(窗口大小为1kb)平均覆盖深度,结果以列表形式给出。当遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域,则可自动跳过。同时还计算每个窗口的覆盖区域大小,覆盖比例以及总的测序碱基数目。
(5)根据前面的计算结果画出染色体覆盖深度图形。将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列,而非整个基因组用一条覆盖深度图形展示,这样可以最大限度的提高图形展示的分辨率,进而提升识别拷贝数变异的准确性和灵敏性。可以生成SVG格式的矢量图,同时支持按所需ppi大小将SVG转化成pdf,png,jpeg等图片格式。
(6)从图形中直接识别拷贝数变异。
下面通过一组肝癌肿瘤和正常配对组织样本的低深度全基因组pair-end测序数据为应用实例,展示本发明的实施结果。基因组的拷贝数变异是结直肠癌中常见的基因组变异,也是该癌种主要的引发机制之一。
以样本测序数据为输入数据,得到如下结果
(1)数据信息统计
表3.1测序数据统计信息
(2)根据统计信息和计算的每个窗口的测序覆盖深度,画出覆盖深度图(每条染色体下面小标尺的刻度范围为0-4倍体)
从图2可明显看出在HCC样本基因组上有包括chr1短臂和长臂,chr8短臂等大片段的拷贝数变异发生。
图3表示和HCC配对的正常肝组织基因组拷贝数分布图,从图中可以看出正常组织中没有可靠的拷贝数变异发生。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基因拷贝数变异分析方法,其特征在于,包括以下步骤:
1)读入数据的索引文件和参考基因组;
2)将整个基因组的比对结果的sam文件按照染色体分割开;
3)对比对测序数据的比对结果进行统计;
4)以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;
5)根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;
6)从图形中直接识别拷贝数变异。
2.根据权利要求1所述的一种基因拷贝数变异分析方法,其特征在于,步骤3)所述统计的比对结果包括原始数据量,mapping rate,unique mapping rate,基因组覆盖率,平均覆盖深度,建库时插入序列的平均长度以及样品的性染色体表型。
3.根据权利要求1所述的一种基因拷贝数变异分析方法,其特征在于,步骤4)计算过程中遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域,自动跳过。
4.根据权利要求1或3所述的一种基因拷贝数变异分析方法,其特征在于,步骤4)还计算每个窗口的覆盖区域大小,覆盖比例以及总的测序碱基数目。
5.根据权利要求1所述的一种基因拷贝数变异分析方法,其特征在于,步骤5)所述画出染色体覆盖深度图形,是以100K为一个点。
CN201610319474.1A 2016-05-13 2016-05-13 一种基因拷贝数变异分析方法 Pending CN106055923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610319474.1A CN106055923A (zh) 2016-05-13 2016-05-13 一种基因拷贝数变异分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610319474.1A CN106055923A (zh) 2016-05-13 2016-05-13 一种基因拷贝数变异分析方法

Publications (1)

Publication Number Publication Date
CN106055923A true CN106055923A (zh) 2016-10-26

Family

ID=57177545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610319474.1A Pending CN106055923A (zh) 2016-05-13 2016-05-13 一种基因拷贝数变异分析方法

Country Status (1)

Country Link
CN (1) CN106055923A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682450A (zh) * 2016-11-24 2017-05-17 西安电子科技大学 一种基于状态转移模型的新一代测序拷贝数变异仿真方法
CN106676178A (zh) * 2017-01-19 2017-05-17 北京吉因加科技有限公司 一种评估肿瘤异质性的方法及系统
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN108256289A (zh) * 2018-01-17 2018-07-06 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN108664766A (zh) * 2018-05-18 2018-10-16 广州金域医学检验中心有限公司 拷贝数变异的分析方法、分析装置、设备及存储介质
CN108920899A (zh) * 2018-06-10 2018-11-30 杭州迈迪科生物科技有限公司 一种基于目标区域测序的单个外显子拷贝数变异预测方法
CN110648721A (zh) * 2019-09-19 2020-01-03 北京市儿科研究所 针对外显子捕获技术检测拷贝数变异的方法及装置
CN111696622A (zh) * 2020-05-26 2020-09-22 北京吉因加医学检验实验室有限公司 一种校正和评估变异检测软件检测结果的方法
CN111755069A (zh) * 2020-07-10 2020-10-09 苏州科贝生物技术有限公司 基于高通量测序分析拷贝数变异的方法
CN112365927A (zh) * 2017-12-28 2021-02-12 安诺优达基因科技(北京)有限公司 Cnv检测装置
CN113409885A (zh) * 2021-06-21 2021-09-17 天津金域医学检验实验室有限公司 一种自动化数据处理以及作图方法及系统
CN117524301A (zh) * 2024-01-04 2024-02-06 北京泛生子基因科技有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145893A1 (en) * 2008-10-31 2010-06-10 Abbott Laboratories Genomic classification of non-small cell lung carcinoma based on patterns of gene copy number alterations
WO2014040206A1 (zh) * 2012-09-12 2014-03-20 深圳华大基因研究院 利用基因组测序片段检测拷贝数变异的方法
CN105349678A (zh) * 2015-12-03 2016-02-24 上海美吉生物医药科技有限公司 一种染色体拷贝数变异的检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145893A1 (en) * 2008-10-31 2010-06-10 Abbott Laboratories Genomic classification of non-small cell lung carcinoma based on patterns of gene copy number alterations
WO2014040206A1 (zh) * 2012-09-12 2014-03-20 深圳华大基因研究院 利用基因组测序片段检测拷贝数变异的方法
CN105349678A (zh) * 2015-12-03 2016-02-24 上海美吉生物医药科技有限公司 一种染色体拷贝数变异的检测方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682450A (zh) * 2016-11-24 2017-05-17 西安电子科技大学 一种基于状态转移模型的新一代测序拷贝数变异仿真方法
CN106682450B (zh) * 2016-11-24 2019-05-07 西安电子科技大学 一种基于状态转移模型的新一代测序拷贝数变异仿真方法
CN106676178B (zh) * 2017-01-19 2020-03-24 北京吉因加科技有限公司 一种评估肿瘤异质性的方法及系统
CN106676178A (zh) * 2017-01-19 2017-05-17 北京吉因加科技有限公司 一种评估肿瘤异质性的方法及系统
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN112365927B (zh) * 2017-12-28 2023-08-25 安诺优达基因科技(北京)有限公司 Cnv检测装置
CN112365927A (zh) * 2017-12-28 2021-02-12 安诺优达基因科技(北京)有限公司 Cnv检测装置
CN108256289A (zh) * 2018-01-17 2018-07-06 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN108664766A (zh) * 2018-05-18 2018-10-16 广州金域医学检验中心有限公司 拷贝数变异的分析方法、分析装置、设备及存储介质
CN108920899A (zh) * 2018-06-10 2018-11-30 杭州迈迪科生物科技有限公司 一种基于目标区域测序的单个外显子拷贝数变异预测方法
CN110648721A (zh) * 2019-09-19 2020-01-03 北京市儿科研究所 针对外显子捕获技术检测拷贝数变异的方法及装置
CN110648721B (zh) * 2019-09-19 2022-04-12 首都医科大学附属北京儿童医院 针对外显子捕获技术检测拷贝数变异的方法及装置
CN111696622A (zh) * 2020-05-26 2020-09-22 北京吉因加医学检验实验室有限公司 一种校正和评估变异检测软件检测结果的方法
CN111696622B (zh) * 2020-05-26 2023-11-21 北京吉因加医学检验实验室有限公司 一种校正和评估变异检测软件检测结果的方法
CN111755069A (zh) * 2020-07-10 2020-10-09 苏州科贝生物技术有限公司 基于高通量测序分析拷贝数变异的方法
CN113409885A (zh) * 2021-06-21 2021-09-17 天津金域医学检验实验室有限公司 一种自动化数据处理以及作图方法及系统
CN117524301A (zh) * 2024-01-04 2024-02-06 北京泛生子基因科技有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN117524301B (zh) * 2024-01-04 2024-04-09 北京泛生子基因科技有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质

Similar Documents

Publication Publication Date Title
CN106055923A (zh) 一种基因拷贝数变异分析方法
JP7241723B2 (ja) 免疫スコアを計算するためのシステム及び方法
JP6970234B2 (ja) 細胞分泌プロファイルの分析およびスクリーニング
Wu et al. Automatic classification of ovarian cancer types from cytological images using deep convolutional neural networks
US11257209B2 (en) Cancer risk stratification based on histopathological tissue slide analysis
CN106055926A (zh) 一种基因拷贝数变异分析系统
US8340389B2 (en) Cellular- or sub-cellular-based visualization information using virtual stains
Angelo et al. Multiplexed ion beam imaging of human breast tumors
US9613254B1 (en) Quantitative in situ characterization of heterogeneity in biological samples
US9697582B2 (en) Methods for obtaining and analyzing images
Kumar et al. Automated analysis of immunohistochemistry images identifies candidate location biomarkers for cancers
US20050265588A1 (en) Method and system for digital image based flourescent in situ hybridization (FISH) analysis
CA2496174A1 (en) A method and a system for detection of malignancy-associated changes
US9552529B2 (en) Analysis of electrophoretic bands in a substrate
EP2327040B1 (en) A method and a system for determining a target in a biological sample by image analysis
Puri et al. Automated computational detection, quantitation, and mapping of mitosis in whole-slide images for clinically actionable surgical pathology decision support
Rexhepaj et al. A texture based pattern recognition approach to distinguish melanoma from non-melanoma cells in histopathological tissue microarray sections
Milosevic Different approaches to Imaging Mass Cytometry data analysis
Turkki et al. Assessment of tumour viability in human lung cancer xenografts with texture-based image analysis
Chervoneva et al. Quantification of spatial tumor heterogeneity in immunohistochemistry staining images
Viitanen et al. An image analysis method for regionally defined cellular phenotyping of the Drosophila midgut
Paliouras et al. Accurate characterization of bladder cancer cells with intraoperative flow cytometry
WO2005076216A2 (en) Method and system for automaticed digital image based flourescent in situ hybridization (fish) analysis
Patil et al. The promise and challenges of deep learning models for automated histopathologic classification and mutation prediction in lung cancer
Jamalzadeh et al. QuantISH: RNA in situ hybridization image analysis framework for quantifying cell type-specific target RNA expression and variability

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026