CN111653312A - 一种利用基因组数据探究疾病亚型亲缘性的方法 - Google Patents

一种利用基因组数据探究疾病亚型亲缘性的方法 Download PDF

Info

Publication number
CN111653312A
CN111653312A CN202010469680.7A CN202010469680A CN111653312A CN 111653312 A CN111653312 A CN 111653312A CN 202010469680 A CN202010469680 A CN 202010469680A CN 111653312 A CN111653312 A CN 111653312A
Authority
CN
China
Prior art keywords
mutation
data
gene
silent
silent mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010469680.7A
Other languages
English (en)
Other versions
CN111653312B (zh
Inventor
侯群星
袁卫兰
高军晖
林灵
吴昊天
蒋丽莎
李无霜
王瑶瑶
吴守信
许骋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Biotecan Biology Medicine Technology Co ltd
Shanghai Biotecan Medical Diagnostics Co ltd
Original Assignee
Shanghai Biotecan Medical Diagnostics Co ltd
Shanghai Zhangjiang Medical Innovation Research Institute
Shanghai Biotecan Biology Medicine Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Biotecan Medical Diagnostics Co ltd, Shanghai Zhangjiang Medical Innovation Research Institute, Shanghai Biotecan Biology Medicine Technology Co ltd filed Critical Shanghai Biotecan Medical Diagnostics Co ltd
Priority to CN202010469680.7A priority Critical patent/CN111653312B/zh
Publication of CN111653312A publication Critical patent/CN111653312A/zh
Application granted granted Critical
Publication of CN111653312B publication Critical patent/CN111653312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种利用基因组数据探究疾病亚型亲缘性的方法,所述方法包括采用超几何分布检验计算基因非沉默突变富集值的步骤;所述基因非沉默突变富集值的计算公式为:
Figure DDA0002513874290000011
其中,nf为基因在疾病亚型中发生非沉默突变的样本数,Nf为基因在所有样本中发生非沉默突变的样本数,n为疾病亚型样本数,N为样本总数;所述疾病亚型的分组数量不小于3。本发明在进行疾病亚型亲缘性分析之前,首先利用超几何分布检验计算基因在各肿瘤亚型中的非沉默突变富集分数,再利用此富集分数进行亲缘性分析,减小了样本总数、疾病亚型样本数等背景因素对分析结果造成的影响,提高了方法的准确性。

Description

一种利用基因组数据探究疾病亚型亲缘性的方法
技术领域
本发明属于生物信息分析技术领域,涉及一种利用基因组数据探究疾病亚型亲缘性的方法。
背景技术
癌症是一类由于细胞分类和调往机制失常而导致的疾病,通常表现为恶性肿瘤。由于癌症的早期诊断准确性差,复发率和死亡率高,已经成为严重威胁人类健康的疾病之一。近年来人们已经认识到肿瘤的发生和转移是多基因、多步骤相互作用连续发展的结果,对肿瘤进行整体、全面、动态的研究是防治肿瘤的根本途径。不同的肿瘤存在不同的亚型,由于肿瘤的临床异质性,在临床上对于不同的肿瘤亚型需要采用不同的治疗策略。尽管如此,探究肿瘤亚型亲缘性对于肿瘤的临床治疗和预后同样具有重要的意义。
目前,研究肿瘤亚型亲缘性的方法的主要步骤为:1)根据病人样本获取WES测序数据;2)根据测序数据分析病人的体细胞突变情况;3)对突变位点进行注释;4)对注释结果进行格式转换并对突变类型进行注释;5)突变类型筛选;6)统计各基因在各样本中是否存在非沉默突变;7)根据样本的非沉默突变统计结果,使用层次聚类方法计算各疾病亚型之间的亲缘性。
但是现有技术只统计了样本中非沉默突变情况的有或无,并直接根据此统计结果聚类分析疾病亚型的亲缘性,并未考虑样本数量等背景因素对结果造成的影响。因此,现有方法得出的结果可能存在准确性差的问题。
因此,提供一种更加精准的疾病亚型亲缘性的分析方法,在肿瘤的临床治疗和预后监测领域具有重要意义。
发明内容
针对现有技术的不足和实际需求,本发明提供了一种利用基因组数据探究疾病亚型亲缘性的方法,所述方法在进行疾病亚型亲缘性分析之前,首先利用超几何分布检验计算基因在各肿瘤亚型中的非沉默突变富集分数,再利用此富集分数进行亲缘性分析,减小了样本总数、疾病亚型样本数等因素对分析结果造成的影响。
为达此目的,本发明采用以下技术方案:
第一方面,本发明提供了一种疾病亚型亲缘性的分析方法,所述方法包括采用超几何分布检验计算基因非沉默突变富集值的步骤;
所述基因非沉默突变富集值的计算公式为:
Figure BDA0002513874270000021
其中,nf为基因在疾病亚型中发生非沉默突变的样本数,Nf为基因在所有样本中发生非沉默突变的样本数,n为疾病亚型样本数,N为样本总数;
所述疾病亚型的分组数量不小于3。
本发明中,在进行疾病亚型亲缘性分析之前,首先利用超几何分布检验计算基因在各肿瘤亚型中的非沉默突变富集分数,再利用此富集分数进行亲缘性分析,减小了样本总数、疾病亚型样本数等因素对分析结果造成的影响,提高了方法的准确性。
优选地,所述方法包括以下步骤:
(1)对肿瘤和正常样本进行测序,获取全外显子测序数据;
(2)根据测序数据分析样本的体细胞突变情况;
(3)对突变位点进行注释;
(4)将注释结果进行格式转换,并对突变类型进行注释;
(5)根据注释后的突变类型,筛选出非沉默突变类型;
(6)计算基因非沉默突变富集值;
(7)根据基因的非沉默突变富集值,使用层次聚类方法计算疾病亚型间的亲缘性。
优选地,步骤(2)所述分析的步骤为:
1)对获得的全外显子测序数据进行过滤,筛选Q20≥90%、Q30≥80%的测序数据;
2)对参考基因组构建比对索引,并将步骤1)筛选后的测序数据比对到参考基因组,得到比对后的数据;
3)统计测序数据中比对到参考基因组的测序序列的比例;
4)计算步骤2)获得的比对后的数据的深度、平均比对质量和覆盖度;
5)统计步骤2)获得的比对后的数据在参考基因组的目标区域的比例、平均覆盖深度和覆盖度;
6)标记步骤2)获得的比对后的数据中的PCR重复序列,并对PCR重复序列进行去重;
7)对步骤6)获得的去重后的数据进行位点矫正;
8)对步骤7)矫正后的数据进行分组;
9)对步骤8)分组后的数据进行过滤,得到变异频率大于5%的初始体细胞突变。
优选地,步骤(3)包括:对步骤(2)获得的变异频率大于5%的初始体细胞突变进行筛选,并对筛选后的体细胞突变进行注释的步骤。
优选地,步骤(5)所述非沉默突变类型包括移码缺失突变(Frame_Shift_Del)、移码插入突变(Frame_Shift_Ins)、框内缺失(In_Frame_Del)、框内插入(In_Frame_Ins)、错义突变(Missense_Mutation)、无义突变(Nonsense_Mutation)、终止密码子突变(Nonstop_Mutation)或剪接位点(Splice_Site)中的任意一种或至少两种的组合。
优选地,在步骤(6)之前还包括:根据筛选出的非沉默突变类型数据,统计基因在样本中的非沉默突变情况,得到基因非沉默突变情况与样本的矩阵数据。
第二方面,本发明提供了一种疾病亚型亲缘性的分析装置,所述装置包括基因非沉默突变富集值计算模块,用于统计基因在样本中的非沉默突变情况,并根据基因非沉默突变富集值的计算公式
Figure BDA0002513874270000041
计算基因在样本中的基因非沉默突变富集值;
其中,nf为基因在疾病亚型中发生非沉默突变的样本数,Nf为基因在所有样本中发生非沉默突变的样本数,n为疾病亚型样本数,N为样本总数;
所述疾病亚型的分组数量不小于3。
优选地,所述装置还包括:
测序模块,用于获取肿瘤和正常样本的全外显子测序数据;
样本体细胞突变情况分析模块;
突变位点注释模块,用于对初始体细胞突变结果进行筛选,并对筛选后的体细胞突变位点进行注释;
格式转换和突变类型注释模块;
非沉默突变类型筛选模块,用于筛选突变类型为移码缺失突变(Frame_Shift_Del)、移码插入突变(Frame_Shift_Ins)、框内缺失(In_Frame_Del)、框内插入(In_Frame_Ins)、错义突变(Missense_Mutation)、无义突变(Nonsense_Mutation)、终止密码子突变(Nonstop_Mutation)或剪接位点(Splice_Site)中的任意一种或至少两种的组合;
疾病亚型间的亲缘性计算模块,用于根据基因非沉默突变富集值,使用层次聚类方法计算疾病亚型间的亲缘性。
优选地,所述样本的基因突变情况分析模块包括:
测序数据质控单元,用于对获得的全外显子组测序数据进行过滤,并筛选Q20≥90%、Q30≥80%的测序数据;
序列比对单元,用于构建参考基因组比对索引,将质控后的数据比对到参考基因组,并获得比对后的数据;
比对数据分析单元,用于统计测序数据中比对到参考基因组的测序序列的比例,计算比对后的数据的深度、平均比对质量和覆盖度,统计比对后的数据在参考基因组的目标区域的比例、平均覆盖深度和覆盖度;
比对数据处理单元,用于获得比对后的数据中的PCR重复序列,并对PCR重复序列进行去重,对去重后的数据进行位点矫正,对矫正后的数据进行分组;
初始体细胞突变位点获取单元,用于对分组后的数据进行过滤,得到变异频率大于5%的初始体细胞突变。
第三方面,本发明提供了一种如第二方面所述的装置在分析疾病亚型亲缘性中的应用。
与现有技术相比,本发明具有如下有益效果:
本发明在进行疾病亚型亲缘性分析之前,首先利用超几何分布检验计算基因在各肿瘤亚型中的非沉默突变富集分数,再利用此富集分数进行亲缘性分析,减小了样本总数、疾病亚型样本数等因素对分析结果造成的影响,提高了方法的准确性。
附图说明
图1为一种疾病亚型亲缘性的分析方法的流程图;
图2为一种疾病亚型亲缘性的分析装置的结构图;
图3A为仅根据统计的各基因在疾病亚型中的样本突变个数进行聚类分析的结果,图3B为根据本发明所述方法计算的各基因突变富集分数进行聚类分析的结果。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1
图1为一种疾病亚型亲缘性的分析方法的流程图,本实施例的方法可以由疾病亚型亲缘性的分析装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于实现疾病亚型亲缘性分析功能的服务器中,本实施例的方法具体包括:
110、对样本进行测序,获取全外显子测序数据(WES)
将Illumina测序仪测序得到的原始图像数据进行碱基识别(Base Calling),转化为原始序列数据,即一条条的读长(reads),称为raw data,结果以fastq文件格式储存(文件名:*.fq),其中每条reads的分子标签以fastq文件格式储存;
120、根据测序数据分析样本的体细胞突变情况
利用fastqc软件统计raw data的碱基质量得分(Q20和Q30)、序列长度、N字符数量、数据量、GC含量和PCR重复率,筛选Q20≥90%、Q30≥80%的测序数据;
利用bwasw算法对参考基因组构建比对索引,使用bwa软件的BWA-MEM算法将测序数据中的目标序列比对到参考基因组(hg19/hg38),得到比对后的数据(格式为bam文件);
利用samtools软件的flagstat模块统计测序数据中比对到参考基因组的测序序列的比例;
利用qulimap软件计算bam文件(即比对后的数据)的深度、平均比对质量和覆盖度;
利用GATK CollectHsmetrics模块统计bam文件在参考基因组的目标区域的数据量比例、平均覆盖深度和1×、20×、50×和100×覆盖度百分比;
使用GATK4 MarkDuplicates模块标记bam文件中的PCR重复序列,并对PCR重复序列进行去重;
使用GATK4 BaseRecalibrator模块、外部公共位点数据库和GATK4ApplyBQSR模块对去重后的数据进行位点矫正,得到BQSR矫正后数据;
使用GATK4 AddOrReplaceReadGroups模块对比对后的数据进行分组,即增加bam文件的分组信息;
使用GATK4 mutect2模块和GATK4 FilterMutectCalls模块检测过滤,得到变异频率大于5%的初始体细胞突变;
130、对突变位点进行注释
筛选初始体细胞突变结果文件(vcf格式)中FILTER为“PASS”的结果;
利用ANNOVAR软件以及相应的数据库(refGene、avsnp138、clinvar_20170130、cosmic70、1000g2015aug_all、ljb26_all)对筛选后的体细胞突变结果进行注释;
140、将注释结果进行格式转换,并对突变类型进行注释
利用R语言(v3.5.2)及相关程序将所有肿瘤样本注释后的体细胞突变结果的vcf文件转换为maf文件,并合并为一个文件;
注释体细胞变异类型,类型注释标准如下:
1)如果在Func.refGene列中匹配到表1指定的几种类型,将ExonicFunc.refGene列的内容更改为相对应的类型;若Func.refGene列中的类型未在表1中指定,则ExonicFunc.refGene列原有类型保持不变;
2)根据表2ExonicFunc.refGene列的类型对相应的变异信息进行注释;
表1
Figure BDA0002513874270000081
Figure BDA0002513874270000091
表2
Figure BDA0002513874270000092
Figure BDA0002513874270000101
150、根据注释后的突变类型,筛选出非沉默突变类型
根据注释后的突变类型结果,筛选出非沉默突变类型,包括移码缺失突变(Frame_Shift_Del)、移码插入突变(Frame_Shift_Ins)、框内缺失(In_Frame_Del)、框内插入(In_Frame_Ins)、错义突变(Missense_Mutation)、无义突变(Nonsense_Mutation)、终止密码子突变(Nonstop_Mutation)和剪接位点(Splice_Site)中的任意一种或至少两种的组合;
160、计算基因非沉默突变富集值
根据筛选出的非沉默突变类型数据maf文件,统计基因在样本中的非沉默突变情况,得到基因非沉默突变情况与样本的矩阵数据;
根据样本的疾病亚型分组(组数不小于3组)、样本数量等信息,使用超几何分布检验,计算基因非沉默突变富集值,以此将基因与样本非沉默突变情况的矩阵数据转化为基因与疾病亚型的非沉默突变富集矩阵数据;
基因突变富集值的计算公式如下:
Figure BDA0002513874270000102
其中,nf为基因在疾病亚型中发生非沉默突变的样本数,Nf为基因在所有样本中发生非沉默突变的样本数,n为疾病亚型样本数,N为样本总数;
所述疾病亚型的分组数量不小于3。
170、疾病亚型间的亲缘性分析
根据基因在各疾病亚型中的基因突变富集值,使用层次聚类的方法对样本的亲缘性进行计算,得到疾病亚型间的亲缘关系,利用R语言的pheatmap数据包进行可视化展示。
实施例2
图2为一种疾病亚型亲缘性的分析装置的结构图,所述装置包括:
测序模块210、样本的体细胞突变情况分析模块220、突变位点注释模块230、格式转换和突变类型注释模块240、非沉默突变类型筛选模块250、基因非沉默突变富集值计算模块260和疾病亚型间的亲缘性计算模块270;
测序模块210,用于获取样本的全外显子测序数据;
样本的体细胞突变情况分析模块220,包括:
测序数据质控单元,用于对获得的测序数据进行过滤,并筛选Q20≥90%、Q30≥80%的测序数据;
序列比对单元,用于构建参考基因组比对索引,将质控后的数据比对到参考基因组,并获得比对后的数据;
比对数据分析单元,用于统计测序数据中比对到参考基因组的测序序列的比例,计算比对后的数据的深度、平均比对质量和覆盖度,统计比对后的数据在参考基因组的目标区域的比例、平均覆盖深度和覆盖度;
比对数据处理单元,用于获得比对后的数据中的PCR重复序列,并对PCR重复序列进行去重,对去重后的数据进行位点矫正,对矫正后的数据进行分组;
初始体细胞突变位点获取单元,用于对分组后的数据进行过滤,得到变异频率大于5%的初始体细胞突变;
突变位点注释模块230,用于对初始体细胞突变结果进行筛选,并对筛选后的体细胞突变位点进行注释;
格式转换和突变类型注释模块240,用于对突变类型进行注释;
非沉默突变类型筛选模块250,用于筛选突变类型为移码缺失突变、移码插入突变、框内缺失、框内插入、错义突变、无义突变、终止密码子突变或剪接位点中的任意一种或至少两种的组合;
基因突变富集值计算模块260,用于统计基因在样本中的非沉默突变情况,并根据基因非沉默突变富集值的计算公式
Figure BDA0002513874270000121
计算基因在样本中的基因非沉默突变富集值;
其中,nf为基因在疾病亚型中发生非沉默突变的样本数,Nf为基因在所有样本中发生非沉默突变的样本数,n为疾病亚型样本数,N为样本总数;所述疾病亚型的分组数量不小于3。
疾病亚型间的亲缘性计算模块270,用于根据基因非沉默突变富集值,使用层次聚类方法计算疾病亚型间的亲缘性。
实施例3
本实施例采用临床数据验证方法的可行性,下载TCGA数据库乳腺癌基因层面数据及临床数据,并对其进行整理;
根据临床对乳腺癌亚型的划分标准,即Luminal A型(ER+/PR+,HER-2-)、LuminalB型(ER+/PR+,HER-2+)、HER-2+型(ER-,PR-,HER-2+)和Basal-like型(ER-,PR-,HER-2-),对整理好的样本数据进行亚型分组;
根据亚型分组情况统计各基因在疾病亚型中的样本突变个数,并仅根据统计的突变样本数进行聚类分析,结果如图3A所示;
根据亚型分组情况使用本文所述方法统计各基因在各亚型中的样本突变富集分数,并根据此突变富集分数进行聚类分析,结果如图3B所示。
在临床上,由于Luminal A型与Luminal B型关系更接近,通过对比图3A与图3B可以看出,利用富集分数进行亲缘性分析,明显提高了方法的准确性。
综上所述,本发明在进行疾病亚型亲缘性分析之前,首先利用超几何分布检验计算基因在各肿瘤亚型中的非沉默突变富集分数,再利用此富集分数进行亲缘性分析,减小了样本总数、疾病亚型样本数等因素对分析结果造成的影响,提高了方法的准确性。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。

Claims (10)

1.一种疾病亚型亲缘性的分析方法,其特征在于,所述方法包括采用超几何分布检验获取基因非沉默突变富集值的步骤;
所述基因非沉默突变富集值为基因在疾病亚型中发生非沉默突变的比例与基因在所有样本中发生非沉默突变的比例的比值;
所述疾病亚型的分组数量不小于3。
2.根据权利要求1所述的方法,其特征在于,所述方法包括以下步骤:
(1)对肿瘤和正常样本进行测序,获取全外显子测序数据;
(2)根据测序数据分析样本的体细胞突变情况;
(3)对突变位点进行注释;
(4)将注释结果进行格式转换,并对突变类型进行注释;
(5)根据注释后的突变类型,筛选出非沉默突变类型;
(6)计算样本中基因非沉默突变富集值;
(7)根据基因非沉默突变富集值,使用层次聚类方法计算疾病亚型间的亲缘性。
3.根据权利要求2所述的方法,其特征在于,步骤(2)所述分析的步骤为:
1)对获得的全外显子测序数据进行过滤,筛选Q20≥90%、Q30≥80%的测序数据;
2)对参考基因组构建比对索引,并将步骤1)筛选后的测序数据比对到参考基因组,得到比对后的数据;
3)统计测序数据中比对到参考基因组的测序序列的比例;
4)计算步骤2)获得的比对后的数据的深度、平均比对质量和覆盖度;
5)统计步骤2)获得的比对后的数据在参考基因组的目标区域的比例、平均覆盖深度和覆盖度;
6)标记步骤2)获得的比对后的数据中的PCR重复序列,并对PCR重复序列进行去重;
7)对步骤6)获得的去重后的数据进行位点矫正;
8)对步骤7)矫正后的数据进行分组;
9)对步骤8)分组后的数据进行过滤,得到变异频率大于5%的初始体细胞突变。
4.根据权利要求2所述的方法,其特征在于,步骤(3)包括:对步骤(2)获得的变异频率大于5%的初始体细胞突变进行筛选,并对筛选后的体细胞突变进行注释的步骤。
5.根据权利要求2所述的方法,其特征在于,步骤(5)所述非沉默突变类型包括移码缺失突变、移码插入突变、框内缺失、框内插入、错义突变、无义突变、终止密码子突变或剪接位点中的任意一种或至少两种的组合。
6.根据权利要求2所述的方法,其特征在于,在步骤(6)之前还包括:根据筛选出的非沉默突变类型数据,统计基因在样本中的非沉默突变情况,得到基因非沉默突变情况与样本的矩阵数据。
7.一种疾病亚型亲缘性的分析装置,其特征在于,所述装置包括基因非沉默突变富集值计算模块,用于统计基因在样本中的非沉默突变情况,所述基因非沉默突变富集值为基因在疾病亚型中发生非沉默突变的比例与基因在所有样本中发生非沉默突变的比例的比值;
所述疾病亚型的分组数量不小于3。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
测序模块,用于获取肿瘤和正常样本的全外显子测序数据;
样本体细胞突变情况分析模块;
突变位点注释模块,用于对初始体细胞突变结果进行筛选,并对筛选后的体细胞突变位点进行注释;
格式转换和突变类型注释模块,用于对突变类型进行注释;
非沉默突变类型筛选模块,用于筛选突变类型为移码缺失突变、移码插入突变、框内缺失、框内插入、错义突变、无义突变、终止密码子突变或剪接位点中的任意一种或至少两种的组合;
疾病亚型间的亲缘性计算模块,用于根据基因非沉默突变富集值,使用层次聚类方法计算疾病亚型间的亲缘性。
9.根据权利要求8所述的装置,其特征在于,所述样本的基因突变情况分析模块包括:
测序数据质控单元,用于对获得的全外显子组测序数据进行过滤,并筛选Q20≥90%、Q30≥80%的测序数据;
序列比对单元,用于构建参考基因组比对索引,将质控后的数据比对到参考基因组,并获得比对后的数据;
比对数据分析单元,用于统计测序数据中比对到参考基因组的测序序列的比例,计算比对后的数据的深度、平均比对质量和覆盖度,统计比对后的数据在参考基因组的目标区域的比例、平均覆盖深度和覆盖度;
比对数据处理单元,用于获得比对后的数据中的PCR重复序列,并对PCR重复序列进行去重,对去重后的数据进行位点矫正,对矫正后的数据进行分组;
初始体细胞突变位点获取单元,用于对分组后的数据进行过滤,得到变异频率大于5%的初始体细胞突变。
10.一种如权利要求7-9任一项所述的装置在分析疾病亚型亲缘性中的应用。
CN202010469680.7A 2020-05-28 2020-05-28 一种利用基因组数据探究疾病亚型亲缘性的方法 Active CN111653312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010469680.7A CN111653312B (zh) 2020-05-28 2020-05-28 一种利用基因组数据探究疾病亚型亲缘性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010469680.7A CN111653312B (zh) 2020-05-28 2020-05-28 一种利用基因组数据探究疾病亚型亲缘性的方法

Publications (2)

Publication Number Publication Date
CN111653312A true CN111653312A (zh) 2020-09-11
CN111653312B CN111653312B (zh) 2021-04-16

Family

ID=72349771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010469680.7A Active CN111653312B (zh) 2020-05-28 2020-05-28 一种利用基因组数据探究疾病亚型亲缘性的方法

Country Status (1)

Country Link
CN (1) CN111653312B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102994508A (zh) * 2011-09-14 2013-03-27 深圳华大基因科技有限公司 Olmsted综合征相关基因的鉴别以及与其相关的产品、方法及用途
CN103571848A (zh) * 2012-08-10 2014-02-12 安徽医科大学第一附属医院 点状掌跖角化病的致病基因及其用途
CN106414768A (zh) * 2014-03-27 2017-02-15 生命技术公司 与癌症相关的基因融合体和基因变异体
CN108265060A (zh) * 2018-01-23 2018-07-10 中山大学附属第医院 远端关节弯曲病的致病基因及其用途
CN108351915A (zh) * 2015-08-28 2018-07-31 纽约市哥伦比亚大学信托人 通过调节子富集测定进行的蛋白质活性的虚拟推断
US20180330049A1 (en) * 2016-01-22 2018-11-15 The Trustees Of Columbia University In The City Of New York Methods for classification of glioma
US20190338366A1 (en) * 2016-05-17 2019-11-07 Genecentric Therapeutics, Inc. Methods for subtyping of lung squamous cell carcinoma
CN111108220A (zh) * 2017-03-15 2020-05-05 博德研究所 用于病毒检测的基于crispr效应系统的诊断
CN111133115A (zh) * 2017-09-20 2020-05-08 瑞泽恩制药公司 用于其肿瘤携带高过客基因突变负荷的患者的免疫治疗方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102994508A (zh) * 2011-09-14 2013-03-27 深圳华大基因科技有限公司 Olmsted综合征相关基因的鉴别以及与其相关的产品、方法及用途
CN103571848A (zh) * 2012-08-10 2014-02-12 安徽医科大学第一附属医院 点状掌跖角化病的致病基因及其用途
CN106414768A (zh) * 2014-03-27 2017-02-15 生命技术公司 与癌症相关的基因融合体和基因变异体
CN108351915A (zh) * 2015-08-28 2018-07-31 纽约市哥伦比亚大学信托人 通过调节子富集测定进行的蛋白质活性的虚拟推断
US20180330049A1 (en) * 2016-01-22 2018-11-15 The Trustees Of Columbia University In The City Of New York Methods for classification of glioma
US20190338366A1 (en) * 2016-05-17 2019-11-07 Genecentric Therapeutics, Inc. Methods for subtyping of lung squamous cell carcinoma
CN111108220A (zh) * 2017-03-15 2020-05-05 博德研究所 用于病毒检测的基于crispr效应系统的诊断
CN111133115A (zh) * 2017-09-20 2020-05-08 瑞泽恩制药公司 用于其肿瘤携带高过客基因突变负荷的患者的免疫治疗方法
CN108265060A (zh) * 2018-01-23 2018-07-10 中山大学附属第医院 远端关节弯曲病的致病基因及其用途

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
聂爱芹等: "葡萄膜黑色素瘤高转移相关基因的筛选和分析", 《山西医药杂志》 *

Also Published As

Publication number Publication date
CN111653312B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN109033749B (zh) 一种肿瘤突变负荷检测方法、装置和存储介质
CN109022553B (zh) 用于肿瘤突变负荷检测的基因芯片及其制备方法和装置
CN107423578B (zh) 检测体细胞突变的装置
EP3837690A1 (en) Systems and methods for using neural networks for germline and somatic variant calling
CN104462869A (zh) 检测体细胞单核苷酸突变的方法和装置
CN108256292A (zh) 一种拷贝数变异检测装置
CN111718982A (zh) 一种肿瘤组织单样本体细胞突变检测方法及装置
CN111341383A (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN111180010A (zh) 肿瘤体细胞突变位点检测方法及其装置
CN111326212A (zh) 一种结构变异的检测方法
CN109712671B (zh) 基于ctDNA的基因检测装置、存储介质及计算机系统
CN116356001A (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
CN114078567A (zh) 一种基于cfDNA的肿瘤负荷检测装置及检测方法
CN111653312B (zh) 一种利用基因组数据探究疾病亚型亲缘性的方法
Raje et al. Interoperability of disease concepts in clinical and research ontologies: contrasting coverage and structure in the Disease Ontology and SNOMED CT
CN113724781A (zh) 检测纯合缺失的方法和装置
CN110164504B (zh) 二代测序数据的处理方法、装置及电子设备
CN112786103A (zh) 一种分析靶向测序Panel估算肿瘤突变负荷可行性的方法和装置
CN117316271A (zh) 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统
CN116469462B (zh) 一种基于双重测序的超低频dna突变识别方法和装置
EP3635138B1 (en) Method for analysing cell-free nucleic acids
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
CN113793641B (zh) 一种从fastq文件中快速判断样本性别的方法
CN110504006A (zh) 一种处理扩增子数据的方法、系统、平台及存储介质
CN110570902A (zh) 一种拷贝数变异分析方法、系统及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230414

Address after: 201203 5th Floor, No. 3 Building, 180 Lane, Zhangheng Road, China (Shanghai) Free Trade Pilot Area, Pudong New Area, Shanghai

Patentee after: SHANGHAI BIOTECAN BIOLOGY MEDICINE TECHNOLOGY Co.,Ltd.

Patentee after: SHANGHAI BIOTECAN MEDICAL DIAGNOSTICS Co.,Ltd.

Address before: 201203 5th Floor, No. 3 Building, 180 Lane, Zhangheng Road, China (Shanghai) Free Trade Pilot Area, Pudong New Area, Shanghai

Patentee before: SHANGHAI BIOTECAN BIOLOGY MEDICINE TECHNOLOGY Co.,Ltd.

Patentee before: SHANGHAI BIOTECAN MEDICAL DIAGNOSTICS Co.,Ltd.

Patentee before: Shanghai Zhangjiang Medical Innovation Research Institute

TR01 Transfer of patent right