CN113724785B - 基于二代测序的肿瘤分型方法、装置、存储介质及设备 - Google Patents

基于二代测序的肿瘤分型方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN113724785B
CN113724785B CN202111280404.7A CN202111280404A CN113724785B CN 113724785 B CN113724785 B CN 113724785B CN 202111280404 A CN202111280404 A CN 202111280404A CN 113724785 B CN113724785 B CN 113724785B
Authority
CN
China
Prior art keywords
variation
entropy
allele frequency
information
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111280404.7A
Other languages
English (en)
Other versions
CN113724785A (zh
Inventor
周杨
孙怀博
郝沛
杜波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhenhe Beijing Biotechnology Co ltd
Original Assignee
Zhenhe Beijing Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhenhe Beijing Biotechnology Co ltd filed Critical Zhenhe Beijing Biotechnology Co ltd
Priority to CN202111280404.7A priority Critical patent/CN113724785B/zh
Publication of CN113724785A publication Critical patent/CN113724785A/zh
Application granted granted Critical
Publication of CN113724785B publication Critical patent/CN113724785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于二代测序的肿瘤分型装置、方法、存储介质及设备,属于生物检测技术领域。包括获取基因测序数据;对测序数据进行预处理;根据测序深度,计算每个变异在不同样本中的等位基因频率;根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率;根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵;基于变异种类及其在混合样本中的等位基因频率,计算混合样本的信息熵;基于同一患者单个样本和混合样本的信息熵计算熵差;根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型。所述装置、存储介质和设备,基于所述方法实现。本发明能够对肿瘤进行准确分型,具有较强的临床适用性。

Description

基于二代测序的肿瘤分型方法、装置、存储介质及设备
技术领域
本发明属于生物检测技术领域,具体涉及一种基于二代测序的肿瘤分型方法、装置、存储介质及设备。
背景技术
多原发型肿瘤(multiple primary malignant tumors,MPMT),是指同一患者的同一器官或多个器官、组织同时或先后发生2个及以上的原发性恶性肿瘤。原发-转移型肿瘤是指肿瘤细胞从原发部位侵入淋巴管、血管或经其他途经被带到它处继续生长,形成与原发部位肿瘤相同类型的肿瘤。多原发型肿瘤与原发-转移型肿瘤在影像学上均表现为多发结节,但二者的治疗方式及预后截然不同,故而开发准确便捷的鉴别方法对肿瘤分期及治疗有重要意义,具有极高的临床价值。
目前临床上鉴别多原发还是原发-转移多依赖于分辨率低、分型精准性差的组织病理学和影像学技术,但现有技术存在着临床适用性相对较弱,准确度相对较低的问题,因此多原发型肿瘤与原发-转移型肿瘤的鉴别诊断一直是临床及病理学诊断的难点。
发明内容
技术问题:本发明旨在提供一种利用信息熵的基于二代测序的肿瘤分型方法、装置、存储介质及设备,以提高肿瘤分型的准确性,具有更强的适用性。
技术方案:本发明第一方面,提供基于二代测序的肿瘤分型方法,所述肿瘤分为多原发型和原发-转移型,包括:
对肿瘤组织及正常对照组织DNA样本进行测序,获取测序数据;
将所述测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤;
根据测序深度,计算每个变异在不同样本中的等位基因频率;根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率;
根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵;基于变异种类及其在混合样本中的等位基因频率,计算混合样本的信息熵;基于同一患者单个样本和混合样本的信息熵计算熵差;
根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型。
进一步地,所述将测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤包括:
将肿瘤组织及正常对照组织DNA样本的测序数据进行过滤,包括剪除测序接头序列以及低质量碱基;
将过滤后的测序数据比对到人类基因组上;
对比对结果进行处理,包括依赖基因组坐标对比对结果进行排序以及对比对结果中的重叠区域进行标记;
根据处理后的比对结果进行somatic SNV/InDel变异的鉴定;
对somatic SNV/InDel变异进行注释;
根据注释信息对somatic SNV/InDel变异进行过滤,仅保留外显子区非同义突变和剪切区突变,得到第一过滤结果;过滤掉第一过滤结果中测序深度小于30×或者正常人数据库中频率大于2‰的变异,形成somatic SNV/InDel变异集合。
进一步地,所述根据测序深度,计算每个变异在不同样本中的等位基因频率,公式如下:
Figure 955698DEST_PATH_IMAGE001
其中,VAF表示等位基因频率,Allele depth表示该变异位点支持突变allele的reads覆盖深度,Total depth表示该变异位点总的reads覆盖深度。
进一步地,所述根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率的计算公式如下:
Figure 834792DEST_PATH_IMAGE002
其中,VAFmixture表示该变异在混合样本中的等位基因频率值,VAFs1和VAFs2表示该变异在组成该混合样本的两个样本中的等位基因频率值。
进一步地,所述根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵包括:利用变异在同一患者的不同样本中的等位基因频率值来计算单个样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure DEST_PATH_IMAGE003
其中,H表示信息熵,n i 表示第i个变异的等位基因频率值,N表示样本中所有变异的等位基因频率值的总和;
进一步地,所述基于变异种类及其在混合样本中的基因频率,计算混合样本的信息熵包括:利用变异在混合样本中的等位基因频率值来计算混合样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 479400DEST_PATH_IMAGE004
其中,H mixture 表示混合样本的信息熵,m i 表示第i个变异的在混合样中的等位基因频率值,M表示混合样本中所有变异的等位基因频率值的总和;
进一步地,所述基于同一患者单个样本和混合样本的信息熵计算熵差包括:计算每组混合样本的信息熵差的公式如下:
Figure DEST_PATH_IMAGE005
其中,H delta 表示信息熵差,H mixture 表示混合样本的信息熵,Hs1和Hs2分别表示组成该混合样本的两个样本的信息熵,max表示取最大值。
进一步地,所述根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型包括:
以同一患者多组混合样本信息熵差的最小值作为患者的特征值,该特征值大于特征值阈值的肿瘤为多原发型,该特征值小于或等于特征值阈值的肿瘤为原发-转移型。
本发明第二方面,提供一种基于二代测序的肿瘤分型装置,所述肿瘤分为多原发型和原发-转移型,所述分型装置用于根据所述的基于二代测序的肿瘤分型方法对肿瘤进行分型,包括:
数据获取单元,对肿瘤组织及正常对照组织DNA样本进行测序,获取测序数据;
数据处理单元,其配置成将所述测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤;
等位基因频率计算单元,其包括:
第一计算单元,其配置成根据测序深度,计算每个变异在不同样本中的等位基因频率;
第二计算单元,其配置成根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率;
信息熵计算单元,其包括:
第一熵计算单元,其配置成根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵;
第二熵计算单元,其配置成基于变异种类及其在混合样本中的等位基因频率,计算混合样本的信息熵;
第三熵计算单元,其配置成基于同一患者单个样本和混合样本的信息熵计算熵差;
判断单元,其配置成根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型。
进一步地,所述数据处理单元包括:
第一预处理单元,其配置成将肿瘤组织及正常对照组织DNA样本的测序数据进行过滤,包括剪除测序接头序列以及低质量碱基;
第二预处理处单元,其配置成将过滤后的测序数据比对到人类基因组上;
第三预处理单元,其配置成对比对结果进行处理,包括依赖基因组坐标对比对结果进行排序以及对比对结果中的重叠区域进行标记;
变异鉴定单元,其配置成根据处理后的比对结果进行somatic SNV/InDel变异的鉴定;
变异注释单元,其配置成对somatic SNV/InDel变异进行注释;
变异过滤单元,其包括:
第一过滤单元,其配置成根据注释信息对somatic SNV/InDel变异进行过滤,仅保留外显子区非同义突变和剪切区突变,得到第一过滤结果;
第二过滤单元,其配置成过滤掉第一过滤结果中测序深度小于30×或者正常人数据库中频率大于2‰的变异,形成somatic SNV/InDel变异集合。
进一步地,所述第一计算单元中根据测序深度计算每个somatic SNV/InDel变异在不同样本中的等位基因频率的公式如下:
Figure 326002DEST_PATH_IMAGE006
其中,VAF表示等位基因频率,Allele depth表示该变异位点支持突变allele的reads覆盖深度,Total depth表示该变异位点总的reads覆盖深度。
进一步地,所述第二计算单元中,将同一患者的不同病灶的样本两两组合,形成混合样本,按如下公式计算每个somatic SNV/InDel在混合样本中的等位基因频率:
Figure DEST_PATH_IMAGE007
其中,VAFmixture表示该变异在混合样本中的等位基因频率值,VAFs1和VAFs2表示该变异在组成该混合样本的两个样本中的等位基因频率值。
进一步地,所述第一熵计算单元中,利用变异在同一患者的不同样本中的等位基因频率值来计算单个样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 81469DEST_PATH_IMAGE008
其中,H表示信息熵,n i 表示第i个变异的等位基因频率值,N表示样本中所有变异的等位基因频率值的总和。
进一步地,所述第二熵计算单元中,利用变异在混合样本中的等位基因频率值来计算混合样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 283911DEST_PATH_IMAGE004
其中,H mixture 表示混合样本的信息熵,m i 表示第i个变异的在混合样中的等位基因频率值,M表示混合样本中所有变异的等位基因频率值的总和。
进一步地,所述第三熵计算单元中,计算每组混合样本的信息熵差的公式如下:
Figure DEST_PATH_IMAGE009
其中,H delta 表示信息熵差,H mixture 表示混合样本的信息熵,Hs1和Hs2分别表示组成该混合样本的两个样本的信息熵,max表示取最大值。
进一步地,所述判断单元中,患者的特征值为同一患者多组混合样本信息熵差的最小值,该特征值大于特征值阈值的肿瘤为多原发型,该特征值小于或等于特征值阈值的肿瘤为原发-转移型。
本发明第三方面,提供一种计算机可读存储介质,包括:计算机可读存储介质中存储有指令,当所述指令由处理器执行时,使得所述处理器执行如下方法:
对肿瘤组织及正常对照组织DNA样本进行测序,获取测序数据;
将所述测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤;
根据测序深度,计算每个变异在不同样本中的等位基因频率;根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率;
根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵;基于变异种类及其在混合样本中的等位基因频率,计算混合样本的信息熵;基于同一患者单个样本和混合样本的信息熵计算熵差;
根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型。
本发明第四方面,提供一种电子设备,包括:所述的计算机可读存储介质;以及处理器,其配置成执行所述计算机可读存储介质中存储的指令。
本发明与现有技术相比,利用基因族大数据,基于二代测序,利用信息熵对肿瘤进行分型,相对于目前应用的组织病理学和影像学技术对肿瘤进行分型的方式,准确率高,具有更强的适用性。
附图说明
图1为本发明的实施例中基于二代测序的肿瘤分型方法的流程图;
图2为本发明的实施例中进行数据处理的流程图;
图3为本发明的实施例中基于二代测序的肿瘤分型装置的框图;
图4为本发明的实施例中数据处理单元的框图;
图5为本发明的实施例中等位基因频率计算单元的框图;
图6为本发明的实施例中信息熵计算单元的框图;
图7为本发明的实施例中电子设备框图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
本发明的第一方面,提供一种基于二代测序的肿瘤分型方法。如图1所示,该方法包括步骤S110~S150。
步骤S110:对肿瘤组织及正常对照组织DNA样本进行测序,获取测序数据;例如可以采用探针捕获方法或扩增子法对肿瘤组织及正常对照组织DNA样本进行测序,以获取测序数据。
步骤S120:将所述测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤。在该步骤中,如图2所示,包括如下步骤S121~S126:
步骤S121:将肿瘤组织及正常对照组织DNA样本的测序数据进行过滤,包括剪除测序接头序列以及低质量碱基,该步骤可以采用Trimmomatic软件进行。
步骤S122:将过滤后的测序数据比对到人类基因组上;该步骤可以采用BWA进行,在一个示例中,将过滤后的测序数据比对到hg19版本的人类基因组上。
步骤S123:对比对结果进行处理,包括依赖基因组坐标对比对结果进行排序以及对比对结果中的重叠区域进行标记;该步骤可以采用软件Picard,在进行该步骤时,参数保持默认。
步骤S124:根据处理后的比对结果进行somatic SNV/InDel变异的鉴定。该步骤可以采用软件GATK,在进行该步骤时,参数保持默认,鉴定工具选择“Mutect2”,鉴定模式选择“tumor-normal mode”。Somatic SNV/InDel变异的初步筛选采用GATK官网提供的“SomaticShort Mutation calling Best Practice Workflow”,仅保留高质量的变异。
步骤S125:对somatic SNV/InDel变异进行注释。该步骤可以采用软件ANNOVAR。
步骤S126:根据注释信息对somatic SNV/InDel变异进行过滤,仅保留外显子区非同义突变和剪切区突变,得到第一过滤结果;过滤掉第一过滤结果中测序深度小于30×或者正常人数据库(ExAC、gnomAD)中人群频率大于2‰的变异,形成somatic SNV/InDel变异集合。
步骤130:根据测序深度,计算每个变异在不同样本中的等位基因频率;根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率。该步骤中,根据测序深度,计算每个somatic SNV/InDel变异在不同样本中的等位基因频率,公式如下:
Figure 364999DEST_PATH_IMAGE010
其中,VAF表示等位基因频率,Allele depth表示该变异位点支持突变allele的reads覆盖深度,Total depth表示该变异位点总的reads覆盖深度。
将同一患者的不同病灶的样本两两组合,形成混合样本,根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率的计算公式如下:
Figure DEST_PATH_IMAGE011
其中,VAFmixture表示该变异在混合样本中的等位基因频率值,VAFs1和VAFs2表示该变异在组成该混合样本的两个样本中的等位基因频率值。
步骤S140:根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵;基于变异种类及其在混合样本中的等位基因频率,计算混合样本的信息熵;基于同一患者单个样本和混合样本的信息熵计算熵差。首先,利用变异在同一患者的不同样本中的等位基因频率值来计算单个样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 433318DEST_PATH_IMAGE012
其中,H表示信息熵,n i 表示第i个变异的等位基因频率值,N表示样本中所有变异的等位基因频率值的总和;
然后,利用变异在混合样本中的等位基因频率值来计算混合样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 992476DEST_PATH_IMAGE013
其中,H mixture 表示混合样本的信息熵,m i 表示第i个变异的在混合样中的等位基因频率值,M表示混合样本中所有变异的等位基因频率值的总和;
最后,计算每组混合样本的信息熵差的公式如下:
Figure 315004DEST_PATH_IMAGE014
其中,H delta 表示信息熵差,Hmixture表示混合样本的信息熵,Hs1和Hs2分别表示组成该混合样本的两个样本的信息熵,max表示取最大值。
步骤S150:根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型。该步骤中,以同一患者多组混合样本信息熵差的最小值作为患者的特征值,该特征值大于特征值阈值的肿瘤为多原发型,该特征值小于或等于特征值阈值的肿瘤为原发-转移型。
对于不同的癌细胞,特征值阈值不同,且需要通过实际情况确定。在一个示例中,在基于154个中国肺癌患者队列的实际应用中,用中位数0.65作为特征值阈值可将患者分为多原发(>0.65)和原发转移(≤0.65)两类。该分类结果与影像学分类基本一致,且两类分子分型之间预后差异显著。
本发明的第二方面,提供一种基于二代测序的肿瘤分型装置200,主要用于将肿瘤划分为多原发型和原发-转移型,该装置可以根据本发明的第一方面所提供的基于二代测序的肿瘤分型方法对肿瘤进行分型。如图3所示,该分型装置包括:数据获取单元210、数据处理单元220、等位基因频率计算单元230、信息熵计算单元240和判断单元250。其中,数据获取单元210被配置成对肿瘤组织及正常对照组织DNA样本进行测序,获取测序数据。例如在该单元中,例如可以采用探针捕获方法或扩增子法对肿瘤组织及正常对照组织DNA样本进行测序,以获取测序数据。
该装置的数据处理单元220被配置成将所述测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤。更具体的,如图4所示,在本发明的一个实施例中,数据处理单元220可以包括第一预处理单元221、第二预处理处单元222、第三预处理单元223、变异鉴定单元224、变异注释单元225和变异过滤单元226,其中变异过滤单元226可以包括第一过滤单元和第二过滤单元。其中,第一预处理单元221被配置成将肿瘤组织及正常对照组织DNA样本的测序数据进行过滤,包括剪除测序接头序列以及低质量碱基。在本发明的一个示例中,第一预处理单元221可以是Trimmomatic软件。
第一预处理单元221将处理后的数据传递给第二预处理单元,第二预处理单元222被配置成将过滤后的测序数据比对到人类基因组上。在本发明的一个示例中,第二预处理单元可以是BWA软件,在第二预处理单元中,将过滤后的测序数据比对到h19版本人类基因组上。
第二预处理单元222将处理后的数据传递给第三预处理单元223,第三预处理单元223被配置成对比对结果进行处理,包括依赖基因组坐标对比对结果进行排序以及对比对结果中的重叠区域进行标记。在本发明的一个示例中,第三预处理单元223可以Picard软件。
第三预处理单元223将处理后的数据传递给变异鉴定单元224,变异鉴定单元224被配置成根据处理后的比对结果进行somatic SNV/InDel变异的鉴定。在本发明的一个示例中,变异鉴定单元224可以是GATK软件,利用GATK软件时,参数保持默认,鉴定工具选择“Mutect2”,鉴定模式选择“tumor-normal mode”。Somatic SNV/InDel变异的初步筛选采用GATK官网提供的“Somatic Short Mutation calling Best Practice Workflow”,仅保留高质量的变异。
变异鉴定单元224将处理后的数据传递给变异注释单元225,变异注释单元225被配置成对somatic SNV/InDel变异进行注释。在本发明的一个示例中,变异注释单元225可以是ANNOVAR软件。
变异注释单元225将处理后的数据传递给变异过滤单元226的第一过滤单元,第一过滤单元被配置成根据注释信息对somatic SNV/InDel变异进行过滤,仅保留外显子区非同义突变和剪切区突变,得到第一过滤结果;然后将第一过滤结果传递给第二过滤单元,第二过滤单元被配置成过滤掉第一过滤结果中测序深度小于30×或者正常人数据库(ExAC、gnomAD)中人群频率大于2‰的变异,形成somatic SNV/InDel变异集合。
数据处理单元220将处理好的数据传递给等位基因频率计算单元230,如图5所示,等位基因频率计算单元230可以包括第一计算单元231和第二计算单元232。其中,第一计算单元231被配置成根据测序深度,计算每个变异在不同样本中的等位基因频率。在第一计算单元231中,根据测序深度计算每个somatic SNV/InDel变异在不同样本中的等位基因频率的公式如下:
Figure 770256DEST_PATH_IMAGE015
其中,VAF表示等位基因频率,Allele depth表示该变异位点支持突变allele的reads覆盖深度,Total depth表示该变异位点总的reads覆盖深度。
等位基因频率计算单元230的第二计算单元232被配置成根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率。在第二计算单元232中,将同一患者的不同病灶的样本两两组合,形成混合样本,按如下公式计算每个somaticSNV/InDel在混合样本中的等位基因频率:
Figure 935658DEST_PATH_IMAGE016
其中,VAFmixture表示该变异在混合样本中的等位基因频率值,VAFs1和VAFs2表示该变异在组成该混合样本的两个样本中的等位基因频率值。
等位基因频率计算单元230的计算结果传递给信息熵计算单元240,如图6所示,信息熵计算单元240可以包括第一熵计算单元241、第二熵计算单元242和第三熵计算单元243。其中,第一熵计算单元241被配置成根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵。在第一熵计算单元241中,利用变异在同一患者的不同样本中的等位基因频率值来计算单个样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 767348DEST_PATH_IMAGE017
其中,H表示信息熵,n i 表示第i个变异的等位基因频率值,N表示样本中所有变异的等位基因频率值的总和。
信息熵计算单元240的第二熵计算单元242被配置成基于变异种类及其在混合样本中的等位基因频率,计算混合样本的信息熵。第二熵计算单元242中,利用变异在混合样本中的等位基因频率值来计算混合样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 724808DEST_PATH_IMAGE013
其中,H mixture 表示混合样本的信息熵,m i 表示第i个变异的在混合样中的等位基因频率值,N表示混合样本中所有变异的等位基因频率值的总和。
信息熵计算单元240的第三熵计算单元243被配置成基于同一患者单个样本和混合样本的信息熵计算熵差。在第三熵计算单元243中,计算每组混合样本的信息熵差的公式如下:
Figure 85383DEST_PATH_IMAGE018
其中,H delta 表示信息熵差,Hmixture表示混合样本的信息熵,Hs1和Hs2分别表示组成该混合样本的两个样本的信息熵,max表示取最大值。
信息熵计算单元240将就算结果传递给判断单元250,判断单元250被配置成根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型。在判断单元250中,患者的特征值为同一患者多组混合样本信息熵差的最小值,该特征值大于特征值阈值的肿瘤为多原发型,该特征值小于或等于特征值阈值的肿瘤为原发-转移型。
根据本发明的第三方面,提供一种计算机可读存储介质300,其中存储有指令,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种肿瘤分型方法。其中至少需要执行如下方法步骤:对肿瘤组织及正常对照组织DNA样本进行测序,获取测序数据;将所述测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤;根据测序深度,计算每个变异在不同样本中的等位基因频率;根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率;根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵;基于变异种类及其在混合样本中的等位基因频率,计算混合样本的信息熵;基于同一患者单个样本和混合样本的信息熵计算熵差;根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型。
本发明中所称的计算机可读介质包括各种类型的计算机存储介质,可以是通用或专用计算机能够存取的任何可用介质。举例而言,计算机可读介质可以包括RAM、ROM、EPROM、E2PROM、寄存器、硬盘、可移动盘、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码单元并能够由通用或特定用途计算机、或者通用或特定用途处理器进行存取的任何其他临时性或者非临时性介质。如本文所使用的,盘(disk)和碟(disc)包括紧致碟(CD)、激光碟、光碟、数字多用途光碟(DVD)、软盘和蓝光碟,其中盘通常磁性地复制数据,而碟则用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的保护范围之内。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中
本发明的第四方面,提供一种电子设备。如图7所示,电子设备包括如上文所述的任意一种计算机可读存储介质300和处理器400。其中,处理器被配置成执行计算机可读存储介质中存储的指令。需要说明的是,电子设备还可以包括其他部件,例如输入设备、显示设备等,出于清楚说明本发明的原理角度考虑,这些部件并未示出。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (9)

1.一种基于二代测序的肿瘤分型方法,所述肿瘤分为多原发型和原发-转移型,其特征在于,包括:
对肿瘤组织及正常对照组织DNA样本进行测序,获取测序数据;
将所述测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤;
根据测序深度,计算每个变异在不同样本中的等位基因频率;根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵,包括:利用变异在同一患者的不同样本中的等位基因频率值来计算单个样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 687312DEST_PATH_IMAGE001
其中,H表示信息熵,n i 表示第i个变异的等位基因频率值,N表示样本中所有变异的等位基因频率值的总和;
基于变异种类及其在混合样本中的等位基因频率,计算混合样本的信息熵,包括:利用变异在混合样本中的等位基因频率值来计算混合样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 620633DEST_PATH_IMAGE002
其中,H mixture 表示混合样本的信息熵,m i 表示第i个变异的在混合样中的等位基因频率值,M表示混合样本中所有变异的等位基因频率值的总和;
基于同一患者单个样本和混合样本的信息熵计算熵差,包括:计算每组混合样本的信息熵差的公式如下:
Figure 23932DEST_PATH_IMAGE003
其中,H delta 表示信息熵差,H mixture 表示混合样本的信息熵,Hs1和Hs2分别表示组成该混合样本的两个样本的信息熵,max表示取最大值;
根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型,包括:以同一患者多组混合样本信息熵差的最小值作为患者的特征值,该特征值大于特征值阈值的肿瘤为多原发型,该特征值小于或等于特征值阈值的肿瘤为原发-转移型。
2.根据权利要求1所述的分型方法,其特征在于,所述将测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤包括:
将肿瘤组织及正常对照组织DNA样本的基因测序数据进行过滤,包括剪除测序接头序列以及低质量碱基;
将过滤后的测序数据比对到人类基因组上;
对比对结果进行处理,包括依赖基因组坐标对比对结果进行排序以及对比对结果中的重叠区域进行标记;
根据处理后的比对结果进行somatic SNV/InDel变异的鉴定;
对somatic SNV/InDel变异进行注释;
根据注释信息对somatic SNV/InDel变异进行过滤,仅保留外显子区非同义突变和剪切区突变,得到第一过滤结果;过滤掉第一过滤结果中测序深度小于30×或者正常人数据库中频率大于2‰的变异,形成somatic SNV/InDel变异集合。
3.根据权利要求2所述的分型方法,其特征在于,所述根据测序深度,计算每个变异在不同样本中的等位基因频率,公式如下:
Figure 610771DEST_PATH_IMAGE004
其中,VAF表示等位基因频率,Allele depth表示该变异位点支持突变allele的reads覆盖深度,Total depth表示该变异位点总的reads覆盖深度。
4.根据权利要求3所述的分型方法,其特征在于,所述根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率的计算公式如下:
Figure 99521DEST_PATH_IMAGE005
其中,VAFmixture表示该变异在混合样本中的等位基因频率值,VAFs1和VAFs2表示该变异在组成该混合样本的两个样本中的等位基因频率值。
5.一种基于二代测序的肿瘤分型装置,所述肿瘤分为多原发型和原发-转移型,其特征在于,所述分型装置用于根据权利要求1-4任一项所述的基于二代测序的肿瘤分型方法对肿瘤进行分型,包括:
数据获取单元,其配置成对肿瘤组织及正常对照组织DNA样本进行测序,获取测序数据;
数据处理单元,其配置成将所述测序数据进行预处理,并对预处理后的结果进行somatic SNV/InDel变异的鉴定、注释和过滤;
等位基因频率计算单元,其包括:
第一计算单元,其配置成根据测序深度,计算每个变异在不同样本中的等位基因频率;
第二计算单元,其配置成根据每个变异在不同样本中的等位基因频率,计算每个变异在混合样本中的等位基因频率;
信息熵计算单元,其包括:
第一熵计算单元,其配置成根据变异种类及其在单个样本中的等位基因频率,计算单个样本的信息熵,利用变异在同一患者的不同样本中的等位基因频率值来计算单个样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 570954DEST_PATH_IMAGE001
其中,H表示信息熵,n i 表示第i个变异的等位基因频率值,N表示样本中所有变异的等位基因频率值的总和;
第二熵计算单元,其配置成基于变异种类及其在混合样本中的等位基因频率,计算混合样本的信息熵,利用变异在混合样本中的等位基因频率值来计算混合样本的信息熵,信息熵通过计算Shannon-Weiner指数来衡量,计算公式如下:
Figure 687815DEST_PATH_IMAGE006
其中,H mixture 表示混合样本的信息熵,m i 表示第i个变异的在混合样中的等位基因频率值,M表示混合样本中所有变异的等位基因频率值的总和;
第三熵计算单元,其配置成基于同一患者单个样本和混合样本的信息熵计算熵差,计算公式为:
Figure 852080DEST_PATH_IMAGE007
其中,H delta 表示信息熵差,H mixture 表示混合样本的信息熵,Hs1和Hs2分别表示组成该混合样本的两个样本的信息熵,max表示取最大值;
判断单元,其配置成根据混合样本信息熵差计算患者的特征值,并根据特征值阈值进行肿瘤分型,判断方法为:以同一患者多组混合样本信息熵差的最小值作为患者的特征值,该特征值大于特征值阈值的肿瘤为多原发型,该特征值小于或等于特征值阈值的肿瘤为原发-转移型。
6.根据权利要求5所述的分型装置,其特征在于,所述数据处理单元包括:
第一预处理单元,其配置成将肿瘤组织及正常对照组织DNA样本的测序数据进行过滤,包括剪除测序接头序列以及低质量碱基;
第二预处理单元,其配置成将过滤后的测序数据比对到人类基因组上;
第三预处理单元,其配置成对比对结果进行处理,包括依赖基因组坐标对比对结果进行排序以及对比对结果中的重复区域进行标记;
变异鉴定单元,其配置成根据处理后的比对结果进行somatic SNV/InDel变异的鉴定;
变异注释单元,其配置成对somatic SNV/InDel变异进行注释;
变异过滤单元,其包括:
第一过滤单元,其配置成根据注释信息对somatic SNV/InDel变异进行过滤,仅保留外显子区非同义突变和剪切区突变,得到第一过滤结果;
第二过滤单元,其配置成过滤掉第一过滤结果中测序深度小于30×或者正常人数据库中频率大于2‰的变异,形成somatic SNV/InDel变异集合。
7.根据权利要求6所述的分型装置,其特征在于,所述第一计算单元中根据测序深度计算每个somatic SNV/InDel变异在不同样本中的等位基因频率的公式如下:
Figure 828126DEST_PATH_IMAGE008
其中,VAF表示等位基因频率,Allele depth表示该变异位点支持突变allele的reads覆盖深度,Total depth表示该变异位点总的reads覆盖深度;
所述第二计算单元中,将同一患者的不同病灶的样本两两组合,形成混合样本,按如下公式计算每个somatic SNV/InDel在混合样本中的等位基因频率:
Figure 965234DEST_PATH_IMAGE009
其中,VAFmixture表示该变异在混合样本中的等位基因频率值,VAFs1和VAFs2表示该变异在组成该混合样本的两个样本中的等位基因频率值。
8.一种计算机可读存储介质,其特征在于,包括:计算机可读存储介质中存储有指令,当所述指令由处理器执行时,使得所述处理器执行权利要求1-4任一项所述的基于二代测序的肿瘤分型方法。
9.一种电子设备,其特征在于,包括:如权利要求8所述的计算机可读存储介质;以及处理器,其配置成执行所述计算机可读存储介质中存储的指令。
CN202111280404.7A 2021-11-01 2021-11-01 基于二代测序的肿瘤分型方法、装置、存储介质及设备 Active CN113724785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111280404.7A CN113724785B (zh) 2021-11-01 2021-11-01 基于二代测序的肿瘤分型方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111280404.7A CN113724785B (zh) 2021-11-01 2021-11-01 基于二代测序的肿瘤分型方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN113724785A CN113724785A (zh) 2021-11-30
CN113724785B true CN113724785B (zh) 2022-02-08

Family

ID=78686296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111280404.7A Active CN113724785B (zh) 2021-11-01 2021-11-01 基于二代测序的肿瘤分型方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN113724785B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114530200B (zh) * 2022-03-18 2022-09-23 北京阅微基因技术股份有限公司 基于计算snp熵值的混合样本鉴定方法
CN116564405B (zh) * 2023-04-19 2023-12-15 江苏先声医学诊断有限公司 一种基于平均无序度的基因组测序突变位点过滤方法
CN116864000A (zh) * 2023-07-21 2023-10-10 上海信诺佰世医学检验有限公司 一种基于高通量靶向测序分析的肿瘤化疗分型系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
WO2015077717A1 (en) * 2013-11-25 2015-05-28 The Broad Institute Inc. Compositions and methods for diagnosing, evaluating and treating cancer by means of the dna methylation status
CN108733975A (zh) * 2018-03-29 2018-11-02 深圳裕策生物科技有限公司 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
CN109801681A (zh) * 2018-12-11 2019-05-24 江苏大学 一种基于改进的模糊聚类算法的snp选择方法
CN110706742A (zh) * 2019-09-30 2020-01-17 中生康元生物科技(北京)有限公司 泛癌种肿瘤新生抗原高通量预测方法及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015077717A1 (en) * 2013-11-25 2015-05-28 The Broad Institute Inc. Compositions and methods for diagnosing, evaluating and treating cancer by means of the dna methylation status
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN108733975A (zh) * 2018-03-29 2018-11-02 深圳裕策生物科技有限公司 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
CN109801681A (zh) * 2018-12-11 2019-05-24 江苏大学 一种基于改进的模糊聚类算法的snp选择方法
CN110706742A (zh) * 2019-09-30 2020-01-17 中生康元生物科技(北京)有限公司 泛癌种肿瘤新生抗原高通量预测方法及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于定量影像组学的乳腺肿瘤良恶性诊断》;赵爽 等;《中国生物医学工程学报》;20191031;第38卷(第05期);全文 *

Also Published As

Publication number Publication date
CN113724785A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN113724785B (zh) 基于二代测序的肿瘤分型方法、装置、存储介质及设备
CA2473325C (en) Method and/or system for analyzing biological samples using a computer system
Lih et al. Analytical validation of the next-generation sequencing assay for a nationwide signal-finding clinical trial: molecular analysis for therapy choice clinical trial
CN110993023B (zh) 复杂突变的检测方法及检测装置
CN112687333A (zh) 一种泛癌种的单样本微卫星不稳定性的分析方法和装置
CN113257360B (zh) 癌症筛查模型、癌症筛查模型的构建方法及构建装置
CN110838110A (zh) 一种基于超声成像的良恶性肿块的识别系统
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
CN115083521A (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN114023381B (zh) 一种肺癌mrd融合基因判定方法、装置、存储介质及设备
CN112111577B (zh) 基于数字pcr技术的atrx和kdm5a突变检测的试剂盒、装置及应用
KR102397822B1 (ko) 염색체 구조의 상태 정보를 이용한 세포 분석 장치 및 방법
CN114093421B (zh) 一种判别淋巴瘤分子亚型的方法、装置和存储介质
KR20170125278A (ko) 변이 검출 표지의 신뢰도 결정 방법 및 장치
CN113450877B (zh) 一种基于多重免疫组化技术的生物标志物分析方法及其应用
CN110607370B (zh) 一种用于人体肿瘤分子分型的基因组合及其应用
Savriama et al. Testing the accuracy of 3D automatic landmarking via genome-wide association studies
CN114093417B (zh) 一种鉴定染色体臂杂合性缺失的方法和装置
CN113355438B (zh) 一种血浆微生物物种多样性评估方法、装置和存储介质
CN117423388B (zh) 一种基于甲基化水平的多癌种检测系统及电子设备
CN109504772A (zh) 一种基于数字pcr平台pole基因突变的检测方法
CN114242158B (zh) ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备
CN114242164B (zh) 一种全基因组复制的分析方法、装置和存储介质
Ortiz-de-Solorzano et al. Computer assisted detection of cancer cells in minimal samples of lung cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant