CN112735517A - 一种检测染色体联合缺失的方法、装置和存储介质 - Google Patents

一种检测染色体联合缺失的方法、装置和存储介质 Download PDF

Info

Publication number
CN112735517A
CN112735517A CN202011606170.6A CN202011606170A CN112735517A CN 112735517 A CN112735517 A CN 112735517A CN 202011606170 A CN202011606170 A CN 202011606170A CN 112735517 A CN112735517 A CN 112735517A
Authority
CN
China
Prior art keywords
chromosome
mutation
frequency
copy number
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011606170.6A
Other languages
English (en)
Inventor
许明炎
陈亚如
周衍庆
陈实富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haplox Biotechnology Shenzhen Co ltd
Original Assignee
Haplox Biotechnology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haplox Biotechnology Shenzhen Co ltd filed Critical Haplox Biotechnology Shenzhen Co ltd
Priority to CN202011606170.6A priority Critical patent/CN112735517A/zh
Publication of CN112735517A publication Critical patent/CN112735517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种检测染色体联合缺失的方法、装置和存储介质。本申请方法包括,采用变异检测软件对去重后数据进行SNP分析,获得变异信息;读取1p、19q捕获区域内千人基因组数据库中人群频率高于0.01的dbSNP位点信息;采用拷贝数变异检测软件获取1p、19q区域内拷贝数变异信息;获取正常对照样本突变频率信息和肿瘤组织样本突变频率;基于点突变频率和拷贝数变化分析1p/19q联合缺失。本申请方法通过高通量测序数据的点突变频率和拷贝数变化分析1p/19q染色体联合缺失;填补了高通量测序数据分析检测1p/19q染色体联合缺失的空白;还能进行点突变、插入缺失、融合等变异检测;提高了测序数据使用效率。

Description

一种检测染色体联合缺失的方法、装置和存储介质
技术领域
本申请涉及染色体检测领域,特别是涉及一种检测染色体联合缺失的方法、装置和存储介质。
背景技术
胶质细胞瘤根据其组织形态差异主要分为星形细胞肿瘤、少突胶质瘤细胞瘤、少突星形细胞肿瘤、室管膜肿瘤、脉络丛肿瘤等。其中,星形细胞肿瘤、少突胶质瘤细胞瘤和少突星形细胞肿瘤中都存在1p/19q的联合缺失,即1号染色体短臂和19号染色体长臂的染色体联合缺失,或称染色体杂合性缺失。研究显示,少突胶质瘤细胞瘤中的1p/19q染色体联合缺失率最高,其发生率可达50%-80%;其次是少突星形细胞肿瘤,其1p/19q染色体联合缺失率约为36%;星形细胞肿瘤的1p/19q染色体联合缺失率约为11%。
因此,1p/19q染色体联合缺失检测,是胶质细胞瘤诊断、个体化治疗以及手术后放疗或化疗选择的重要参考数据和理论依据。目前检测染色体联合缺失的方式主要有两种:一种是基于扩增子测序检测染色体杂合性缺失的试剂盒与方法;另一种是在PCR体系内采用单荧光标记多个位点来检测1p/19q联合缺失。而这两种技术都只能检测1p/19q联合缺失情况,不能获取肿瘤组织样本的其他变异信息。
高通量测序可以同时对数百万个短序列进行测序,并且随着高通量测序技术的发展,基于高通量测序数据可以对样本的点突变、插入缺失、融合等多种变异进行分析检测。因此,基于高通量测序的变异检测具有高效、快速、准确等优点。但是,目前尚未有针对高通量测序数据进行1p/19q染色体联合缺失的分析方法。
发明内容
本申请的目的是提供一种新的检测染色体联合缺失的方法、装置和存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种检测染色体联合缺失的方法,包括以下步骤:
数据获取和比对步骤,包括分别获取肿瘤组织样本和相应的正常对照样本的1号染色体短臂和19号染色体长臂的捕获测序结果,将肿瘤组织样本和正常对照样本的捕获测序结果比对到参考基因组并去重,获得去重后的数据;
变异检测步骤,包括采用变异检测软件对去重后的数据进行SNP分析,获得变异信息;其中,变异信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型以及突变频率信息;
高频dbSNP获取步骤,包括读取1号染色体短臂和19号染色体长臂捕获区域内1000genomes数据库中人群频率高于0.01的dbSNP位点信息;
拷贝数变异检测步骤,包括采用拷贝数变异检测软件对去重后的数据进行拷贝数分析,获取1号染色体短臂和19号染色体长臂区域内的拷贝数变异信息;
突变频率分析步骤,包括基于高频dbSNP获取步骤的信息过滤出变异检测步骤获得的变异信息中存在的高频dbSNP位点突变信息,获取正常对照样本的突变频率信息和肿瘤组织样本的突变频率;
染色体联合缺失分析步骤,包括基于拷贝数变异检测步骤的结果和突变频率分析步骤的结果,分析1号染色体短臂(1p)和19号染色体长臂(19q)的拷贝数情况,从而获得两者的染色体联合缺失分析结果。
需要说明的是,本申请的染色体联合缺失检测方法,基于高通量捕获测序分析检测染色体杂合性缺失,结合了点突变频率与拷贝数变化两个因素来分析染色体杂合性缺失,填补了高通量测序数据进行1p/19q染色体联合缺失分析的空白。可以理解,本申请的检测方法,不仅能够进行1p/19q染色体联合缺失分析,基于高通量测序数据本申请还能够进行其它变异检测,例如点突变、插入缺失、融合等多种变异的检测,在此不作具体限定。
本申请的一种实现方式中,正常对照样本为白细胞DNA。
本申请的一种实现方式中,参考基因组为参考基因组hg19。
本申请的一种实现方式中,变异检测软件采用VarScan2。
本申请的一种实现方式中,拷贝数变异检测软件采用CNVkit。
本申请的第二方面公开了一种检测染色体联合缺失的装置,包括数据获取和比对模块、变异检测模块、高频dbSNP获取模块、拷贝数变异检测模块、突变频率分析模块和染色体联合缺失分析模块;
数据获取和比对模块,包括用于分别获取肿瘤组织样本和相应的正常对照样本的1号染色体短臂和19号染色体长臂的捕获测序结果,将肿瘤组织样本和正常对照样本的捕获测序结果比对到参考基因组并去重,获得去重后的数据;
变异检测模块,包括用于采用变异检测软件对去重后的数据进行SNP分析,获得变异信息,变异信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型以及突变频率信息;
高频dbSNP获取模块,包括用于读取1号染色体短臂和19号染色体长臂捕获区域内1000genomes数据库中人群频率高于0.01的dbSNP位点信息;
拷贝数变异检测模块,包括用于采用拷贝数变异检测软件对去重后的数据进行拷贝数分析,获取1号染色体短臂和19号染色体长臂区域内的拷贝数变异信息;
突变频率分析模块,包括用于基于高频dbSNP获取模块的信息过滤出变异检测模块获得的变异信息中存在的高频dbSNP位点突变信息,获取正常对照样本的突变频率信息和肿瘤组织样本的突变频率;
染色体联合缺失分析模块,包括用于基于拷贝数变异检测模块的结果和突变频率分析模块的结果,分析1号染色体短臂和19号染色体长臂的拷贝数情况,从而获得两者的染色体联合缺失分析结果。
需要说明的是,本申请检测染色体联合缺失的装置,实际上就是通过各模块分别实现本申请检测染色体联合缺失的方法中的各步骤;因此,各模块的具体限定可以参考本申请检测染色体联合缺失的方法,在此不累述。
本申请的第三方面公开了一种检测染色体联合缺失的装置,该装置包括存储器和处理器;其中,存储器,包括用于存储程序;处理器,包括用于通过执行该存储器存储的程序以实现本申请的检测染色体联合缺失的方法。
本申请的第四方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请的检测染色体联合缺失的方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请检测染色体联合缺失的方法和装置,通过高通量测序数据进行点突变频率和拷贝数变化分析,并基于点突变频率和拷贝数变化分析1p/19q染色体联合缺失;不仅填补了高通量测序数据分析检测1p/19q染色体联合缺失的空白;而且还能够进一步的对点突变、插入缺失、融合等多种变异进行分析检测;提高了高通量测序数据的使用效率。
附图说明
图1是本申请实施例中染色体联合缺失检测方法的流程框图;
图2是本申请实施例中染色体联合缺失检测装置的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
本申请的检测染色体联合缺失的方法,如图1所示,包括数据获取和比对步骤11、变异检测步骤12、高频dbSNP获取步骤13、拷贝数变异检测步骤14、突变频率分析步骤15和染色体联合缺失分析步骤16。
其中,数据获取和比对步骤11,包括分别获取肿瘤组织样本和正常对照样本的1号染色体短臂和19号染色体长臂的捕获测序结果,将肿瘤组织样本和正常对照样本的捕获测序结果比对到参考基因组并去重,获得去重后的数据。
本申请的一种实现方式中,以肿瘤组织和血液为样本,提取肿瘤组织中的DNA作为tumor DNA,然后提取血液中的白细胞DNA作为normal DNA,采用1号染色体短臂和19号染色体长臂的探针进行捕获,建立好捕获之后的文库使用Novaseq6000测序仪进行PE150高通量测序,下机后得到R1.fastq.gz R2.fastq.gz文件。PE150为双端测序,读长150bp,生成两份文件,即R1和R2,用于后续分析。本申请的一种实现方式中,参考基因组采用参考基因组hg19,比对后的去重采用常规方法,在此不累述。
变异检测步骤12,包括采用变异检测软件对去重后的数据进行SNP分析,获得变异信息;其中,变异信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型以及突变频率信息。
本申请的一种实现方式中,具体采用变异检测软件VarScan2,以比对去重后的mpileup数据进行的SNP分析。
高频dbSNP获取步骤13,包括读取1号染色体短臂和19号染色体长臂捕获区域内1000genomes数据库中人群频率高于0.01的dbSNP位点信息。
本申请的一种实现方式中,具体使用perl语言编写的程序进行读取,获得高频dbSNP位点信息。
拷贝数变异检测步骤14,包括采用拷贝数变异检测软件对去重后数据进行拷贝数分析,获取1号染色体短臂和19号染色体长臂区域内的拷贝数变异信息。
本申请的一种实现方式中,具体采用拷贝数变异检测软件CNVkit,以比对到参考基因组hg19并去重之后的bam数据进行的分析。命令行参数“cnvkit.py batch tumor.bam-n normal.bam-t HapOnco605panel.bed-f hg19.fa--access access-5k-mappable.hg19.bed-d result_cnv”。其中,cnvkit.py是一个python软件,所以后缀是py.batch是用于分析cnv的一个参数,cnvkit.py有很多参数,对应不同功能。tumor.bam是肿瘤组织样本比对到hg19且去重之后的bam文件,-n输入白细胞正常对照样本比对到hg19且去重之后的bam,-t捕获区域的bed文件,-f参考基因组fa文件,--access是cnvkit生成的一个文件,-d输出结果路径,最终的结果会生成在这个文件夹下。
这个文件access-5k-mappable.hg19.bed的生成命令行是“cnvkit.py accesshg19.fa-o access-5k-mappable.hg19.bed”,access是生成参考基因组中非N区域的bed文件,参考基因组除了ATCG还有N。Bed文件重要信息为3列chr start end染色体起始位点坐标、结束位点坐标,HapOnco605.bed文件格式也是如此。
突变频率分析步骤15,包括基于高频dbSNP获取步骤13的信息过滤出变异检测步骤12获得的变异信息中存在的高频dbSNP位点突变信息,获取正常对照样本的突变频率信息和肿瘤组织样本的突变频率。
本申请的一种实现方式中,具体使用perl语言编写的程序进行读取,获得正常对照样本的突变频率信息和肿瘤组织样本的突变频率。
染色体联合缺失分析步骤16,包括基于拷贝数变异检测步骤14的结果和突变频率分析步骤15的结果,分析1号染色体短臂(1p)和19号染色体长臂(19q)的拷贝数情况,从而获得两者的染色体联合缺失分析结果。
本申请的一种实现方式中,具体使用perl语言编写的程序进行分析,获得1p/19q染色体联合缺失分析结果。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的检测染色体联合缺失的方法,本申请提出了一种检测染色体联合缺失的装置,如图2所示,包括数据获取和比对模块21、变异检测模块22、高频dbSNP获取模块23、拷贝数变异检测模块24、突变频率分析模块25和染色体联合缺失分析模块26。
其中,数据获取和比对模块21,包括用于分别获取肿瘤组织样本和相应的正常对照样本的1号染色体短臂和19号染色体长臂的捕获测序结果,将肿瘤组织样本和正常对照样本的捕获测序结果比对到参考基因组并去重,获得去重后的数据。
变异检测模块22,包括用于采用变异检测软件对去重后的数据进行SNP分析,获得变异信息,变异信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型以及突变频率信息。
高频dbSNP获取模块23,包括用于读取1号染色体短臂和19号染色体长臂捕获区域内1000genomes数据库中人群频率高于0.01的dbSNP位点信息。
拷贝数变异检测模块24,包括用于采用拷贝数变异检测软件对去重后的数据进行拷贝数分析,获取1号染色体短臂和19号染色体长臂区域内的拷贝数变异信息。
突变频率分析模块25,包括用于基于高频dbSNP获取模块23的信息过滤出变异检测模块22获得的变异信息中存在的高频dbSNP位点突变信息,获取正常对照样本的突变频率信息和肿瘤组织样本的突变频率。
染色体联合缺失分析模块26,包括用于基于拷贝数变异检测模块24的结果和突变频率分析模块25的结果,分析1号染色体短臂和19号染色体长臂的拷贝数情况,从而获得两者的染色体联合缺失分析结果。
本申请的装置,利用各模块相互协调作用,能够实现本申请的检测染色体联合缺失的方法,特别是通过本申请装置的各模块能够实现本申请方法中的相应的各个步骤,从而实现自动化的染色体联合缺失检测。
本申请的另一实现方式中还提供了一种检测染色体联合缺失的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:数据获取和比对步骤,包括分别获取肿瘤组织样本和相应的正常对照样本的1号染色体短臂和19号染色体长臂的捕获测序结果,将肿瘤组织样本和正常对照样本的捕获测序结果比对到参考基因组并去重,获得去重后的数据;变异检测步骤,包括采用变异检测软件对去重后的数据进行SNP分析,获得变异信息;其中,变异信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型以及突变频率信息;高频dbSNP获取步骤,包括读取1号染色体短臂和19号染色体长臂捕获区域内1000genomes数据库中人群频率高于0.01的dbSNP位点信息;拷贝数变异检测步骤,包括采用拷贝数变异检测软件对去重后的数据进行拷贝数分析,获取1号染色体短臂和19号染色体长臂区域内的拷贝数变异信息;突变频率分析步骤,包括基于高频dbSNP获取步骤的信息过滤出变异检测步骤获得的变异信息中存在的高频dbSNP位点突变信息,获取正常对照样本的突变频率信息和肿瘤组织样本的突变频率;染色体联合缺失分析步骤,包括基于拷贝数变异检测步骤的结果和突变频率分析步骤的结果,分析1号染色体短臂和19号染色体长臂的拷贝数情况,从而获得两者的染色体联合缺失分析结果。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现如下方法:数据获取和比对步骤,包括分别获取肿瘤组织样本和相应的正常对照样本的1号染色体短臂和19号染色体长臂的捕获测序结果,将肿瘤组织样本和正常对照样本的捕获测序结果比对到参考基因组并去重,获得去重后的数据;变异检测步骤,包括采用变异检测软件对去重后的数据进行SNP分析,获得变异信息;其中,变异信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型以及突变频率信息;高频dbSNP获取步骤,包括读取1号染色体短臂和19号染色体长臂捕获区域内1000genomes数据库中人群频率高于0.01的dbSNP位点信息;拷贝数变异检测步骤,包括采用拷贝数变异检测软件对去重后的数据进行拷贝数分析,获取1号染色体短臂和19号染色体长臂区域内的拷贝数变异信息;突变频率分析步骤,包括基于高频dbSNP获取步骤的信息过滤出变异检测步骤获得的变异信息中存在的高频dbSNP位点突变信息,获取正常对照样本的突变频率信息和肿瘤组织样本的突变频率;染色体联合缺失分析步骤,包括基于拷贝数变异检测步骤的结果和突变频率分析步骤的结果,分析1号染色体短臂和19号染色体长臂的拷贝数情况,从而获得两者的染色体联合缺失分析结果。
本申请涉及的专业术语名称解释如下:
高通量测序:又称为第二代测序,相比于第一代以Sanger为代表的测序技术,具有通量高、产量高、准确度高、分析自动化等特点。
高通量捕获测序:高通量捕获测序是采用高密度合成的探针,将基因组上感兴趣的部分通过碱基互补加以富集后使用高通量测序技术进行测序。
BAM文件:使用BWA比对软件将下机序列比对到人类参考基因上生成的文件,该文件含有序列在在参考基因上的位置、比对质量等详细信息。
dbSNP:单核苷酸多态性数据库dbSNP是由NCBI与人类基因组研究所合作建立的,收录了SNP、短插入缺失多态性等数据,以及其来源、检测和验证方法、基因型信息、人群频率等信息。本申请主要使用位于1p和19q上的人群频率较高的且位于捕获区域内的dbSNP位点用于分析。
SNP:单核苷酸位点变异。和参考基因组该位置的碱基不同,样本基因组上该位置的碱基可能被替换为其他类型的碱基。
VarScan:用于检测样本数据中基因变异检测软件,本申请主要使用分析后的SNP结果文件,该文件通常为VCF格式。
CNV:拷贝数变异。基因组上大片段序列拷贝数的增加或者减少,可分为缺失(deletion)和重复(duplication)两种类型,是一种重要的分子机制。
CNVkit:用于检测样本数据中拷贝数变异的检测软件,本申请主要使用分析后的CNS结果文件。
CNS文件:使用CNVkit软件检测样本数据中拷贝数变异时生成的结果文件,该文件含有参考基因上的大片段起始终止的位置信息、log2ratio等详细信息。
实施例
本例用针对1p和19q区域的捕获探针,对基因组DNA进行杂交捕获,然后进行高通量测序;本例基于高通量捕获测序进行染色体杂合性缺失的分析检测,具体的,本例结合了点突变频率与拷贝数变化两个因素来分析1p和19q染色体杂合性缺失。具体步骤包括:
分别获取肿瘤组织样本和相应的正常对照样本的1号染色体短臂和19号染色体长臂的捕获测序结果,将肿瘤组织样本和正常对照样本的捕获测序结果比对到参考基因组并去重,获得去重后的数据,然后进行如下操作:
a,读取VarScan2生成的SNP结果文件,获得变异信息,主要包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型以及突变频率信息。
本例采用的变异检测软件VarScan2是以比对去重后的mpileup数据进行的SNP分析;检测流程包括:以肿瘤组织和血液为样本,提取肿瘤组织中的dna作为tumor dna,然后提取血液中的白细胞dna作为normal dna,采用海普洛斯HapOnco605探针进行捕获,建立好捕获之后的文库使用Novaseq6000测序仪进行PE150高通量测序,下机后得到R1.fastq.gzR2.fastq.gz文件。其中,PE150为双端测序,读长150bp,所以生成俩文件,分别是R1和R2。
b,读取1号染色体短臂和19号染色体长臂捕获区域内1000genomes数据库中人群频率高于0.01的dbSNP位点信息。
本例使用perl语言编写的程序进行读取捕获区域1号染色体短臂和19号染色体长臂的高通量测序。
c,读取CNVkit生成的CNS结果文件。主要获取1p和19q区域内的拷贝数变异信息。
本例的CNVkit是以比对到参考基因组hg19并去重之后的bam数据进行的分析。命令行参数“cnvkit.py batch tumor.bam-n normal.bam-t HapOnco605panel.bed-fhg19.fa--access access-5k-mappable.hg19.bed-d result_cnv”;cnvkit.py是一个python软件,所以后缀是py.batch是用于分析cnv的一个参数,cnvkit.py有很多参数,对应不同功能。tumor.bam是组织样本比对到hg19且去重之后的bam文件,-n输入白细胞对照比对到hg19且去重之后的bam,-t捕获区域的bed文件,-f参考基因组fa文件,--access是cnvkit生成的一个文件,-d输出结果路径,最终的结果会生成在这个文件夹下。
这个文件access-5k-mappable.hg19.bed的生成命令行是“cnvkit.py accesshg19.fa-o access-5k-mappable.hg19.bed”;access是生成参考基因组中非N区域的bed文件,参考基因组除了ATCG还有N。
Bed文件重要信息为3列chr start end染色体起始位点坐标结束位点坐标,HapOnco605.bed文件格式也是如此。
d,基于步骤b中的信息过滤出步骤a中存在的高频dbSNP位点突变信息,主要是获取正常对照样本的突变频率信息与肿瘤组织样本中的突变频率。本例也是使用perl语言编写的程序进行读取。
本例从数据下机之后肿瘤组织样本与正常对照样本会经过相同分析,共有的分析流程如下,以tumor举例:(1)数据质控,使用fastp软件分析tumor.raw.R1.fastq.gztumor.raw.R2.fastq.gz,主要过滤掉一些低质量数据得到tumor.clean.R1.fastq.gztumor.clean.R2.fastq.gz命令行参数:fastp-i tumor.raw.R1.fastq.gz-Itumor.raw.R2.fastq.gz-o tumor.clean.R1.fastq.gz-O tumor.clean.R2.fastq.gz;(2)数据比对,使用过滤后的clean.R1.fastq.gz clean.R2.fastq.gz比对到参考基因组hg19上,生成sam文件后经samtools软件转换成bam文件,然后用samtools软件对bam文件进行排序比对命令行分为三个分别是bwa mem-R"@RG\\tID:tumor\\tLB:tumor\\tSM:tumor\\tPL:ILLUMINA"-M hg19.fa tumor.clean.R1.fastq.gz tumor.clean.R2.fastq.gz>tumor.sam;samtools view-bS tumor.sam-o tumor.bam;samtools sort tumor.bam-otumor.sort.bam;(3)去除重复,使用gencore软件对tumor.sort.bam进行去重处理,去除PCR等重复,命令行:gencore-i tumor.sort.bam-o tumor.dedup.bam-r hg19.fa&);(4)生成mpileup文件,varscan软件需要输入的是mpileup文件,使用samtools软件对tumor.dedup.bam进行处理生成tumor.dedup.mpileup文件,命令行参数如下:samtoolsmpileup-AB-Q 25-q 30-d 10000-f hg19.fa-l HapOnco.bed tumor.dedup.bam>tumor.dedup.mpileup。
e,基于c,d两步的结果分析1p/19q拷贝数情况。本例也是使用perl语言编写的程序进行分析。
本例采用以上方法,对14例胶质瘤组织样本进行1p/19q染色体联合缺失检测;并采用常规的FISH技术对相同的胶质瘤组织样本进行染色体联合缺失检测,用于验证本例的1p/19q染色体联合缺失检测结果。14例胶质瘤组织样本的检测结果如表1所示。
表1胶质瘤组织样本1p/19q染色体联合缺失检测结果
样本编号 肿瘤类型 1p19q分析结果 FISH技术结果 对比分析
S001 胶质瘤 1p19q共缺失 1p19q共缺失 一致
S002 胶质瘤 1p19q共缺失 1p19q共缺失 一致
S003 胶质瘤 1p19q共缺失 1p19q共缺失 一致
S004 胶质瘤 1p19q拷贝正常 1p19q拷贝正常 一致
S005 胶质瘤 1p19q共缺失 1p19q共缺失 一致
S006 胶质瘤 1p19q拷贝正常 1p19q拷贝正常 一致
S007 胶质瘤 1p19q拷贝正常 1p19q拷贝正常 一致
S008 胶质瘤 1p19q共缺失 1p19q共缺失 一致
S009 胶质瘤 1p19q共缺失 1p19q共缺失 一致
S010 胶质瘤 1p19q拷贝正常 1p19q拷贝正常 一致
S011 胶质瘤 19q缺失1p正常 19q缺失1p正常 一致
S012 胶质瘤 1p19q共缺失 1p19q共缺失 一致
S013 胶质瘤 1p19q拷贝正常 1p19q拷贝正常 一致
S014 胶质瘤 1p19q拷贝正常 1p19q拷贝正常 一致
表1的结果显示,本例的染色体联合缺失检测方法,能够准确的检测1p/19q染色体联合缺失,其检测结果与FISH技术的验证结果高度一致。另外,本例在高通量测序结果的基础上进行1p/19q染色体联合缺失检测;采用相同的测序数据还能够进行点突变、插入缺失、融合等多种变异的分析和检测,提高了高通量测序数据的使用效率。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (10)

1.一种检测染色体联合缺失的方法,其特征在于:包括以下步骤,
数据获取和比对步骤,包括分别获取肿瘤组织样本和相应的正常对照样本的1号染色体短臂和19号染色体长臂的捕获测序结果,将肿瘤组织样本和正常对照样本的捕获测序结果比对到参考基因组并去重,获得去重后的数据;
变异检测步骤,包括采用变异检测软件对去重后的数据进行SNP分析,获得变异信息,所述变异信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型以及突变频率信息;
高频dbSNP获取步骤,包括读取1号染色体短臂和19号染色体长臂捕获区域内1000genomes数据库中人群频率高于0.01的dbSNP位点信息;
拷贝数变异检测步骤,包括采用拷贝数变异检测软件对去重后的数据进行拷贝数分析,获取1号染色体短臂和19号染色体长臂区域内的拷贝数变异信息;
突变频率分析步骤,包括基于所述高频dbSNP获取步骤的信息过滤出所述变异检测步骤获得的变异信息中存在的高频dbSNP位点突变信息,获取正常对照样本的突变频率信息和肿瘤组织样本的突变频率;
染色体联合缺失分析步骤,包括基于所述拷贝数变异检测步骤的结果和所述突变频率分析步骤的结果,分析1号染色体短臂和19号染色体长臂的拷贝数情况,从而获得两者的染色体联合缺失分析结果。
2.根据权利要求1所述的检测染色体联合缺失的方法,其特征在于:所述正常对照样本为白细胞DNA;
优选的,所述参考基因组为参考基因组hg19。
3.根据权利要求1所述的检测染色体联合缺失的方法,其特征在于:所述变异检测软件为VarScan2。
4.根据权利要求1-3任一项所述的检测染色体联合缺失的方法,其特征在于:所述拷贝数变异检测软件为CNVkit。
5.一种检测染色体联合缺失的装置,其特征在于:包括数据获取和比对模块、变异检测模块、高频dbSNP获取模块、拷贝数变异检测模块、突变频率分析模块和染色体联合缺失分析模块;
所述数据获取和比对模块,包括用于分别获取肿瘤组织样本和相应的正常对照样本的1号染色体短臂和19号染色体长臂的捕获测序结果,将肿瘤组织样本和正常对照样本的捕获测序结果比对到参考基因组并去重,获得去重后的数据;
所述变异检测模块,包括用于采用变异检测软件对去重后的数据进行SNP分析,获得变异信息,所述变异信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型以及突变频率信息;
所述高频dbSNP获取模块,包括用于读取1号染色体短臂和19号染色体长臂捕获区域内1000genomes数据库中人群频率高于0.01的dbSNP位点信息;
所述拷贝数变异检测模块,包括用于采用拷贝数变异检测软件对去重后的数据进行拷贝数分析,获取1号染色体短臂和19号染色体长臂区域内的拷贝数变异信息;
所述突变频率分析模块,包括用于基于所述高频dbSNP获取模块的信息过滤出所述变异检测模块获得的变异信息中存在的高频dbSNP位点突变信息,获取正常对照样本的突变频率信息和肿瘤组织样本的突变频率;
所述染色体联合缺失分析模块,包括用于基于所述拷贝数变异检测模块的结果和所述突变频率分析模块的结果,分析1号染色体短臂和19号染色体长臂的拷贝数情况,从而获得两者的染色体联合缺失分析结果。
6.根据权利要求5所述的检测染色体联合缺失的装置,其特征在于:所述正常对照样本为白细胞DNA;
优选的,所述参考基因组为参考基因组hg19。
7.根据权利要求5所述的检测染色体联合缺失的装置,其特征在于:所述变异检测软件为VarScan2。
8.根据权利要求5-7任一项所述的检测染色体联合缺失的装置,其特征在于:所述拷贝数变异检测软件为CNVkit。
9.一种检测染色体联合缺失的装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;
所述处理器,包括用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的检测染色体联合缺失的方法。
10.一种计算机可读存储介质,其特征在于:所述介质中存储有程序,所述程序能够被处理器执行以实现权利要求1-4任一项所述的检测染色体联合缺失的方法。
CN202011606170.6A 2020-12-30 2020-12-30 一种检测染色体联合缺失的方法、装置和存储介质 Pending CN112735517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011606170.6A CN112735517A (zh) 2020-12-30 2020-12-30 一种检测染色体联合缺失的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011606170.6A CN112735517A (zh) 2020-12-30 2020-12-30 一种检测染色体联合缺失的方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN112735517A true CN112735517A (zh) 2021-04-30

Family

ID=75610665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011606170.6A Pending CN112735517A (zh) 2020-12-30 2020-12-30 一种检测染色体联合缺失的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112735517A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113355401A (zh) * 2021-05-24 2021-09-07 阔然生物医药科技(上海)有限公司 一种基于ngs的cnv分析检测脑胶质瘤染色体的方法
CN114566214A (zh) * 2022-04-26 2022-05-31 北京泛生子基因科技有限公司 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用
CN116994651A (zh) * 2023-07-12 2023-11-03 深圳安吉康尔医学检验实验室 一种关于染色体拷贝数缺失的来源确定方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944228A (zh) * 2017-12-08 2018-04-20 广州漫瑞生物信息技术有限公司 一种基因测序变异位点的可视化方法
US20180119230A1 (en) * 2015-03-16 2018-05-03 Personal Genome Diagnostics, Inc. Systems and methods for analyzing nucleic acid
CN109280702A (zh) * 2017-07-21 2019-01-29 深圳华大基因研究院 确定个体染色体结构异常的方法和系统
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN109887548A (zh) * 2019-01-18 2019-06-14 臻悦生物科技江苏有限公司 基于捕获测序的ctDNA占比的检测方法及检测装置
CN110129441A (zh) * 2019-05-06 2019-08-16 臻和精准医学检验实验室无锡有限公司 基于二代测序用于脑胶质瘤的检测panel、检测试剂盒及其应用
CN110570904A (zh) * 2019-08-27 2019-12-13 深圳百诺精准医疗科技有限公司 一种肿瘤突变分析方法、系统、终端及可读存储介质
CN111180010A (zh) * 2019-12-27 2020-05-19 北京优迅医学检验实验室有限公司 肿瘤体细胞突变位点检测方法及其装置
CN112102944A (zh) * 2020-10-09 2020-12-18 阔然生物医药科技(上海)有限公司 一种基于ngs的脑肿瘤分子诊断的分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180119230A1 (en) * 2015-03-16 2018-05-03 Personal Genome Diagnostics, Inc. Systems and methods for analyzing nucleic acid
CN109280702A (zh) * 2017-07-21 2019-01-29 深圳华大基因研究院 确定个体染色体结构异常的方法和系统
CN107944228A (zh) * 2017-12-08 2018-04-20 广州漫瑞生物信息技术有限公司 一种基因测序变异位点的可视化方法
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN109887548A (zh) * 2019-01-18 2019-06-14 臻悦生物科技江苏有限公司 基于捕获测序的ctDNA占比的检测方法及检测装置
CN110129441A (zh) * 2019-05-06 2019-08-16 臻和精准医学检验实验室无锡有限公司 基于二代测序用于脑胶质瘤的检测panel、检测试剂盒及其应用
CN110570904A (zh) * 2019-08-27 2019-12-13 深圳百诺精准医疗科技有限公司 一种肿瘤突变分析方法、系统、终端及可读存储介质
CN111180010A (zh) * 2019-12-27 2020-05-19 北京优迅医学检验实验室有限公司 肿瘤体细胞突变位点检测方法及其装置
CN112102944A (zh) * 2020-10-09 2020-12-18 阔然生物医药科技(上海)有限公司 一种基于ngs的脑肿瘤分子诊断的分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113355401A (zh) * 2021-05-24 2021-09-07 阔然生物医药科技(上海)有限公司 一种基于ngs的cnv分析检测脑胶质瘤染色体的方法
CN114566214A (zh) * 2022-04-26 2022-05-31 北京泛生子基因科技有限公司 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用
CN114566214B (zh) * 2022-04-26 2022-07-05 北京泛生子基因科技有限公司 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用
CN116994651A (zh) * 2023-07-12 2023-11-03 深圳安吉康尔医学检验实验室 一种关于染色体拷贝数缺失的来源确定方法及装置

Similar Documents

Publication Publication Date Title
CN112735517A (zh) 一种检测染色体联合缺失的方法、装置和存储介质
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN111718982A (zh) 一种肿瘤组织单样本体细胞突变检测方法及装置
CN107480470B (zh) 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
CN111081315A (zh) 一种同源假基因变异检测的方法
CN113035272A (zh) 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置
CN112746097A (zh) 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN111180013B (zh) 检测血液病融合基因的装置
JP2016518822A (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN113488106A (zh) 一种快速获取目标基因组区域比对结果数据的方法
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
CN105528532B (zh) 一种rna编辑位点的特征分析方法
KR20210040714A (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
CN110942806A (zh) 一种血型基因分型方法和装置及存储介质
JP7286872B2 (ja) 遺伝子アライメント技術
KR20200125549A (ko) 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법
CN110684830A (zh) 一种石蜡切片组织rna分析方法
Isakov et al. Deep sequencing data analysis: challenges and solutions
CN112041933A (zh) 使用局部独特特征来解释rna测序数据的转录本表达水平的系统和方法
US20190172553A1 (en) Using k-mers for rapid quality control of sequencing data without alignment
CN114400046B (zh) 一种基于探针叠加检测基因拷贝数变异的方法及装置
AlEisa et al. K‐Mer Spectrum‐Based Error Correction Algorithm for Next‐Generation Sequencing Data
CN114464252B (zh) 一种检测结构变异的方法及装置
KR20190017161A (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210430

RJ01 Rejection of invention patent application after publication