CN113990389A - 推断肿瘤纯度和倍性的方法和装置 - Google Patents
推断肿瘤纯度和倍性的方法和装置 Download PDFInfo
- Publication number
- CN113990389A CN113990389A CN202111608122.5A CN202111608122A CN113990389A CN 113990389 A CN113990389 A CN 113990389A CN 202111608122 A CN202111608122 A CN 202111608122A CN 113990389 A CN113990389 A CN 113990389A
- Authority
- CN
- China
- Prior art keywords
- tumor
- coverage
- sample
- tumor sample
- purity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Abstract
本发明提供一种推断肿瘤纯度和倍性的方法和装置,方法通过对肿瘤样本和配对样本的基因组测序数据进行预处理,对预处理后的结果进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;根据前述结果校正第一覆盖度;根据预处理后的肿瘤样本基因组测序数据确定杂合胚系变异位点对应的变异频率最高的等位基因频率;根据校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据上述结果确定肿瘤样本的纯度和肿瘤细胞的倍性。本发明提供一种鲁棒性的肿瘤浓度及倍性的检测方法,并且检测的准确性更高。
Description
技术领域
本发明涉及肿瘤检测技术领域,尤其涉及一种推断肿瘤纯度和倍性的方法和装置。
背景技术
癌症是一组异质性疾病,每一种都有自己的生物学特征。发现这些生物学特征可能为癌症治疗提供高信息量的标记和靶点。最近,二代测序是研究者能够在全基因组范围内寻找这些癌症特征。然而,由于肿瘤组织中正常细胞的污染,从肿瘤样本中获得的高通量数据是癌症细胞和正常细胞的混合信号。肿瘤纯度及肿瘤细胞的倍性对肿瘤样本的二代测序数据分析有重大影响,并可能发生改变生物学和临床解释的结果。因此,在样本染色体拷贝数分析、差异表达/甲基化等各种数据分析中,必须考虑肿瘤纯度及肿瘤倍性效应。
目前为止,用于肿瘤纯度评估的方法主要来自两种类型的遗传变异信息,一种类型是体细胞拷贝数改变(SCNAs),比较肿瘤样本的SCNA位点的测序覆盖度与匹配的正常样本构成的统计学差异。第二种是单核苷酸变异(SNVs),比较肿瘤样本的SNV位点的等位基因测序覆盖度与其匹配的正常样本构成的第二个统计学差异。根据这两类的覆盖信息差异数据用于估计肿瘤纯度和倍性,现有的计算方法可以大致分为三类。第一类只使用了SCNA的覆盖信息;第二类只利用等位基因的覆盖差异信息;第三类利用了这两种信息。第一类和第二类方法的问题是利用单一的信息导致检测结果不准确,如PurityEst仅利用等位基因的覆盖度差异信息估计肿瘤纯度,但是前提假设是肿瘤细胞的倍性为2。ABSOLUTE利用拷贝数信息估计肿瘤纯度,但是它需要人工校对结果。第三类方法结合拷贝数及等位基因的覆盖差异可以解决以上的问题。如Sclust是一种完全非参数突变聚类方法,利用平滑样条推断出计算负担较低的拷贝数和等位基因特异性拷贝数。尽管结果令人满意,但分析的所有样本需至少有30倍的覆盖率。
因此,亟需开发一种能够有效、准确地通过低深度NGS数据计算出肿瘤样本的纯度和倍性的算法。使科研及临床检测结果更有意义。
发明内容
本发明提供一种推断肿瘤纯度和倍性的方法和装置,用以解决现有技术中计算肿瘤样本的纯度和倍性的算法的条件苛刻或者不准确的缺陷,实现通过低深度NGS数据计算出肿瘤样本的纯度和倍性的算法。
第一方面,本发明提供一种推断肿瘤纯度和倍性的方法,包括:
对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据,具体包括:
对肿瘤样本和配对样本分别进行全基因组测序,得到第一基因组序列和第二基因组序列;
对所述第一基因组序列和所述第二基因组序列进行过滤,得到过滤后的第一基因组序列和过滤后的第二基因组序列;
对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行重复序列删除和假阳去除,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度,具体包括:
根据所述第二覆盖度对所述第一覆盖度进行标准化处理,得到标准覆盖度;
根据所述每个染色体分窗的GC含量对所述标准覆盖度进行校正,得到校正后的第一覆盖度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性,具体包括:
根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,并确定所述纯度对应的各个分段对应的拷贝数;
根据所述分段数、所述每个分段对应的拷贝数和所述每个分段对应的长度确定所述肿瘤细胞的倍性。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,具体包括:
获取染色体重新分段后的每段染色体片段的等位基因频率的均值;
根据所述等位基因频率的均值和对应的所述分段的观测拷贝数进行聚类处理,得到具有相同基因型的染色体片段类;
根据所述染色体片段类的所述等位基因频率的均值和对应的所述分段的观测拷贝数确定肿瘤样本的纯度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除,具体包括:
采用隐马尔科夫模型对预设的中国人群基因组序列与预设的人类基因组参考序列进行比较确定对应的假阳变异;
根据所述假阳变异对过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述每个染色体分窗的GC含量和所述标准覆盖度进行校正,得到校正后的第一覆盖度,具体包括:
根据所述每个染色体分窗的GC含量采用局部加权回归方法对标准覆盖度进行校正,得到校正后的第一覆盖度。
第二方面,本发明提供一种推断肿瘤纯度和倍性的装置,包括:
预处理模块,用于对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
分窗统计模块,用于对所述预处理后的肿瘤样本和所述预处理后的配对样本进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
矫正模块,用于根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
等位基因频率确定模块,用于根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
重新分段模块,用于根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
分析模块,用于根据所述分段数、所述每个分段对应的观测拷贝数、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述推断肿瘤纯度和倍性的方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述推断肿瘤纯度和倍性的方法的步骤。
本发明提供的一种推断肿瘤纯度和倍性的方法和装置,通过对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中变异位点在人群数据库中的频率,确定杂合胚系变异位点对应的变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。本发明通过上述步骤提供了一种鲁棒性的肿瘤浓度及倍性的检测方法,能够通过低深度NGS数据计算出肿瘤样本的纯度和倍性的算法,并且检测的准确性更高。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的推断肿瘤纯度和倍性的方法的流程示意图;
图2是本发明提供的推断肿瘤纯度和倍性的装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1说明本发明提供一种推断肿瘤纯度和倍性的方法,包括:
步骤100:对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
具体地,本发明实施例中,采用MGI2000平台测序得到肿瘤样本及配对样本的全基因组测序数据。在获取肿瘤样本的基因组测序数据和配对样本基因组测序数据之后,对相应的数据在测序过程中产生的不准确以及不符合特定人群的真实状况的测试数据进行过滤和筛选,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。并且在预处理后的基因组测序数据中获取肿瘤样本包含的变异位点数和变异位点的位置。
步骤200:对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量以及第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;
具体地,由于NGS测序覆盖度较低,因此,在进行后续分析之前,首先将预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据的整个染色体的reads分窗(bin)统计,按照一定长度划分的基因组片段,该长度代表window大小。本方法中window大小可由使用者自由设置,通常设置为几百碱基。一个大基因组片段s可以包含大量window。read:高通量测序平台产生的测序序列。本专利选了500bp的窗宽以来匹配通常的片段长度,计算每个bin的GC含量及覆盖度。
步骤300:根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
具体地,由于对肿瘤样本的基因组测序数据的分窗的覆盖度呈现随机分布的状态,因此需要对肿瘤样本的基因测序数据的第一覆盖度进行校正,得到校正后的第一覆盖度。
步骤400:根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
具体地,对预处理后的肿瘤样本基因组测序数据中的变异位点进行检测,将检测出来的变异位点与人群数据库进行比对,对得到的变异位点进行注释。人群数据库包括ESP6500数据库、千人基因组计划数据库。其中。ESP全称是NHLBI GO Exome SequencingProject(国家心肺和血液研究所外显子组测序计划),包含了SNP和InDel变异。通过注释可以找到突变在ESP6500中的变异频率。主要目的是通过NGS技术对不同人群进行SNP分型,来辅助心脏,肺,血液相关疾病的研究。国际千人基因组计划,由中英美德等国科学家共同承担研究任务,旨在绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱。2012年11月大型国际科研合作项目"千人基因组计划"的研究人员在新一期英国期刊《自然》上发布了1092人的基因数据,这一成果将有助于更广泛地分析与疾病有关的基因变异。其中,在本发明实施例中具体操作方式为去除人群频率小于5%的变异位点。并对位点进行过滤,过滤测序深度低于3X的位点,及频率低于5%和高于95%的位点,从而得到杂合胚系变异位点,计算杂合位点的B-等位基因频率BAF,即杂合胚系变异位点对应的最高变异情形的变异频率。
步骤500:根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
具体地,根据校正后的覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,即使用CBS将癌症基因组的22个常染色体按照校正后的覆盖度数据划分为多个片段,并计算每个片段的观测拷贝数CN。另外,还需要获取每个分段的长度以及分段的总数量。
步骤600:根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
本发明提供的一种推断肿瘤纯度和倍性的方法,通过对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中变异位点在人群数据库中的频率,确定杂合胚系变异位点对应的变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。本发明通过上述步骤提供了一种鲁棒性的肿瘤浓度及倍性的检测方法,并且检测的准确性更高。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据,具体包括:
对肿瘤样本和配对样本分别进行全基因组测序,得到第一基因组序列和第二基因组序列;
对所述第一基因组序列和所述第二基因组序列进行过滤,得到过滤后的第一基因组序列和过滤后的第二基因组序列;
对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行重复序列删除和假阳去除,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
具体地,MGI2000平台测序得到肿瘤样本及配对样本的全基因组测序数据。为了确保测序数据的质量,避免接头序列污染,首先对原始数据去除接头,过滤含有N碱基过多的reads,质量值较低的碱基的比例过大的reads,可利用fastq软件进行过滤。利用BWA比对软件将过滤后DNA序列比对到人类基因组参考序列上,然后用Picard软件去除PCR过程引入的重复序列。其中,PCR(聚合酶链式反应)是利用DNA在体外摄氏95°高温时变性会变成单链,低温(经常是60°C左右)时引物与单链按碱基互补配对的原则结合,再调温度至DNA聚合酶最适反应温度(72°C左右),DNA聚合酶沿着磷酸到五碳糖(5'-3')的方向合成互补链。是一种用于放大扩增特定的DNA片段的分子生物学技术,它可看作是生物体外的特殊DNA复制。
另外,由于采用的样本是中国人群,而参考基因组hg19是欧洲人,会存在一些种群水平上的假定CNV,因此,对因为人种的差异导致的比对上存在的变异误差进行去除。经过上述处理之后,可以得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除,具体包括:
采用隐马尔科夫模型对预设的中国人群基因组序列与预设的人类基因组参考序列进行比较确定对应的假阳变异;
根据所述假阳变异对过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度,具体包括:
根据所述第二覆盖度对所述第一覆盖度进行标准化处理,得到标准覆盖度;
根据所述每个染色体分窗的GC含量对所述标准覆盖度进行校正,得到校正后的第一覆盖度。
具体地,标准化的处理就是对相同的read分窗的肿瘤样本的染色体序列分窗的覆盖度除以配对样本的染色体序列分窗的覆盖度得到标准覆盖度。
然后,采用局部加权回归方法对标准覆盖度进行GC校正,得到校正后的覆盖度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性,具体包括:
根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,并确定所述纯度对应的各个分段对应的拷贝数;
根据所述分段数、所述每个分段对应的拷贝数和所述每个分段对应的长度确定所述肿瘤细胞的倍性。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,具体包括:
获取染色体重新分段后的每段染色体片段的等位基因频率的均值;
根据所述等位基因频率的均值和对应的所述分段的观测拷贝数进行聚类处理,得到具有相同基因型的染色体片段类;
根据所述染色体片段类的所述等位基因频率的均值和对应的所述分段的观测拷贝数确定肿瘤样本的纯度。
利用肿瘤样本的染色体片段拷贝数表示为:
由(2)式,可得
根据所述的重新分段后的染色体片段,计算片段中所有杂合位点的B-等位基因频
率的均值,及对应所述染色体片段的拷贝数。采用DBSCAN算法对所述染色体片段拷贝
数与对应杂合位点的B-等位基因频率值进行聚类,将相同基因型的染色体片段
聚集成一类。由于肿瘤纯度的范围为[0,1],预设值,取步长为0.01,依次
将第个肿瘤纯度带入公式(4),可得理论的值,其中为第种基因型类,并将和代入式(3),可得理论的值,由于为整数,将近似为整数,根据值,可
计算。将分类所得的全部类型的基因型代入计算获得全部基因型的理论计算与全部基因型观测值的偏差之和。从而,通过依次肿瘤纯度,将与进
行最佳拟合,偏差最小的肿瘤纯度即为预测的肿瘤纯度。
最后,肿瘤细胞的倍性,其中,为所述重新分段后染色体片
段的长度,为所述重新分段后染色体片段的理论拷贝数。另外,根据肿瘤浓度、片段的拷
贝数及B-等位基因频率计算杂合性缺失、等位基因失衡、大片段状态转移等。
结合图2所示,本发明提供一种推断肿瘤纯度和倍性的装置,包括:
预处理模块21,用于对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
分窗统计模块22,用于对所述预处理后的肿瘤样本和所述预处理后的配对样本进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
矫正模块23,用于根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
等位基因频率确定模块24,用于根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
重新分段模块25,用于根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
分析模块26,用于根据所述分段数、所述每个分段对应的观测拷贝数、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
由于本发明实施例提供的装置,可以用于执行上述实施例所述的方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
本发明提供的一种推断肿瘤纯度和倍性的装置,通过对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中变异位点在人群数据库中的频率,确定杂合胚系变异位点对应的变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。本发明通过上述步骤提供了一种鲁棒性的肿瘤浓度及倍性的检测方法,并且检测的准确性更高。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述预处理模块21,具体用于:
对肿瘤样本和配对样本分别进行全基因组测序,得到第一基因组序列和第二基因组序列;
对所述第一基因组序列和所述第二基因组序列进行过滤,得到过滤后的第一基因组序列和过滤后的第二基因组序列;
对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行重复序列删除和假阳去除,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述矫正模块23,具体用于:
根据所述第二覆盖度对所述第一覆盖度进行标准化处理,得到标准覆盖度;
根据所述每个染色体分窗的GC含量对所述标准覆盖度进行校正,得到校正后的第一覆盖度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述分析模块26,具体用于:
根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,并确定所述纯度对应的各个分段对应的拷贝数;
根据所述分段数、所述每个分段对应的拷贝数和所述每个分段对应的长度确定所述肿瘤细胞的倍性。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述分析模块26,还具体用于:
获取染色体重新分段后的每段染色体片段的等位基因频率的均值;
根据所述等位基因频率的均值和对应的所述分段的观测拷贝数进行聚类处理,得到具有相同基因型的染色体片段类;
根据所述染色体片段类的所述等位基因频率的均值和对应的所述分段的观测拷贝数确定肿瘤样本的纯度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述预处理模块21,还具体用于:
采用隐马尔科夫模型对预设的中国人群基因组序列与预设的人类基因组参考序列进行比较确定对应的假阳变异;
根据所述假阳变异对过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述矫正模块23,还具体用于:
根据所述每个染色体分窗的GC含量采用局部加权回归方法对标准覆盖度进行校正,得到校正后的第一覆盖度。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行一种推断肿瘤纯度和倍性的方法,该方法包括:对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的一种推断肿瘤纯度和倍性的方法,该方法包括:对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的一种推断肿瘤纯度和倍性的方法,该方法包括:对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种推断肿瘤纯度和倍性的方法,其特征在于,包括:
对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
2.根据权利要求1所述的推断肿瘤纯度和倍性的方法,其特征在于,所述对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据,具体包括:
对肿瘤样本和配对样本分别进行全基因组测序,得到第一基因组序列和第二基因组序列;
对所述第一基因组序列和所述第二基因组序列进行过滤,得到过滤后的第一基因组序列和过滤后的第二基因组序列;
对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行重复序列删除和假阳去除,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
3.根据权利要求1所述的推断肿瘤纯度和倍性的方法,其特征在于,所述根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度,具体包括:
根据所述第二覆盖度对所述第一覆盖度进行标准化处理,得到标准覆盖度;
根据所述每个染色体分窗的GC含量对所述标准覆盖度进行校正,得到校正后的第一覆盖度。
4.根据权利要求1所述的推断肿瘤纯度和倍性的方法,其特征在于,所述根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性,具体包括:
根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,并确定所述纯度对应的各个分段对应的拷贝数;
根据所述分段数、所述每个分段对应的拷贝数和所述每个分段对应的长度确定所述肿瘤细胞的倍性。
5.根据权利要求4所述的推断肿瘤纯度和倍性的方法,其特征在于,所述根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,具体包括:
获取染色体重新分段后的每段染色体片段的等位基因频率的均值;
根据所述等位基因频率的均值和对应的所述分段的观测拷贝数进行聚类处理,得到具有相同基因型的染色体片段类;
根据所述染色体片段类的所述等位基因频率的均值和对应的所述分段的观测拷贝数确定肿瘤样本的纯度。
6.根据权利要求2所述的推断肿瘤纯度和倍性的方法,其特征在于,对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除,具体包括:
采用隐马尔科夫模型对预设的中国人群基因组序列与预设的人类基因组参考序列进行比较确定对应的假阳变异;
根据所述假阳变异对过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除。
7.根据权利要求3所述的推断肿瘤纯度和倍性的方法,其特征在于,所述根据所述每个染色体分窗的GC含量和所述标准覆盖度进行校正,得到校正后的第一覆盖度,具体包括:
根据所述每个染色体分窗的GC含量采用局部加权回归方法对标准覆盖度进行校正,得到校正后的第一覆盖度。
8.一种推断肿瘤纯度和倍性的装置,其特征在于,包括:
预处理模块,用于对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
分窗统计模块,用于对所述预处理后的肿瘤样本和所述预处理后的配对样本进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
矫正模块,用于根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
等位基因频率确定模块,用于根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
重新分段模块,用于根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
分析模块,用于根据所述分段数、所述每个分段对应的观测拷贝数、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述推断肿瘤纯度和倍性的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述推断肿瘤纯度和倍性的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111608122.5A CN113990389B (zh) | 2021-12-27 | 2021-12-27 | 推断肿瘤纯度和倍性的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111608122.5A CN113990389B (zh) | 2021-12-27 | 2021-12-27 | 推断肿瘤纯度和倍性的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113990389A true CN113990389A (zh) | 2022-01-28 |
CN113990389B CN113990389B (zh) | 2022-04-22 |
Family
ID=79734442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111608122.5A Active CN113990389B (zh) | 2021-12-27 | 2021-12-27 | 推断肿瘤纯度和倍性的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113990389B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103201744A (zh) * | 2010-10-13 | 2013-07-10 | 考利达基因组股份有限公司 | 用于估算全基因组拷贝数变异的方法 |
CN104428425A (zh) * | 2012-05-04 | 2015-03-18 | 考利达基因组股份有限公司 | 测定复杂肿瘤全基因组绝对拷贝数变异的方法 |
US20190042826A1 (en) * | 2017-08-04 | 2019-02-07 | Oregon Health & Science University | Automatic nuclei segmentation in histopathology images |
CN110016497A (zh) * | 2018-01-09 | 2019-07-16 | 北京大学 | 一种检测肿瘤单细胞基因组拷贝数变异的方法 |
CN110029157A (zh) * | 2018-01-11 | 2019-07-19 | 北京大学 | 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法 |
CN110289047A (zh) * | 2019-05-15 | 2019-09-27 | 西安电子科技大学 | 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统 |
CN110808081A (zh) * | 2019-09-29 | 2020-02-18 | 深圳吉因加医学检验实验室 | 一种鉴定肿瘤纯度样本的模型构建方法及应用 |
CN111676277A (zh) * | 2020-08-12 | 2020-09-18 | 臻和(北京)生物科技有限公司 | 一种基于二代测序技术测定基因组不稳定的方法及试剂盒 |
US20210043274A1 (en) * | 2013-05-10 | 2021-02-11 | Foundation Medicine, Inc. | Analysis of genetic variants |
CN112662767A (zh) * | 2020-11-25 | 2021-04-16 | 深圳华大基因股份有限公司 | 用于衡量基因组不稳定性的试剂盒、探针及其应用 |
CN112735594A (zh) * | 2020-12-29 | 2021-04-30 | 北京优迅医疗器械有限公司 | 一种筛选疾病表型相关突变位点的方法及其应用 |
CN112863594A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 肿瘤纯度估计方法及装置 |
CN113195733A (zh) * | 2018-10-18 | 2021-07-30 | 新加坡科技研究局 | 用于定量人类肿瘤癌细胞中分子活性的方法 |
-
2021
- 2021-12-27 CN CN202111608122.5A patent/CN113990389B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103201744A (zh) * | 2010-10-13 | 2013-07-10 | 考利达基因组股份有限公司 | 用于估算全基因组拷贝数变异的方法 |
CN104428425A (zh) * | 2012-05-04 | 2015-03-18 | 考利达基因组股份有限公司 | 测定复杂肿瘤全基因组绝对拷贝数变异的方法 |
US20210043274A1 (en) * | 2013-05-10 | 2021-02-11 | Foundation Medicine, Inc. | Analysis of genetic variants |
US20190042826A1 (en) * | 2017-08-04 | 2019-02-07 | Oregon Health & Science University | Automatic nuclei segmentation in histopathology images |
CN110016497A (zh) * | 2018-01-09 | 2019-07-16 | 北京大学 | 一种检测肿瘤单细胞基因组拷贝数变异的方法 |
CN110029157A (zh) * | 2018-01-11 | 2019-07-19 | 北京大学 | 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法 |
CN113195733A (zh) * | 2018-10-18 | 2021-07-30 | 新加坡科技研究局 | 用于定量人类肿瘤癌细胞中分子活性的方法 |
CN110289047A (zh) * | 2019-05-15 | 2019-09-27 | 西安电子科技大学 | 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统 |
CN110808081A (zh) * | 2019-09-29 | 2020-02-18 | 深圳吉因加医学检验实验室 | 一种鉴定肿瘤纯度样本的模型构建方法及应用 |
CN111676277A (zh) * | 2020-08-12 | 2020-09-18 | 臻和(北京)生物科技有限公司 | 一种基于二代测序技术测定基因组不稳定的方法及试剂盒 |
CN112662767A (zh) * | 2020-11-25 | 2021-04-16 | 深圳华大基因股份有限公司 | 用于衡量基因组不稳定性的试剂盒、探针及其应用 |
CN112735594A (zh) * | 2020-12-29 | 2021-04-30 | 北京优迅医疗器械有限公司 | 一种筛选疾病表型相关突变位点的方法及其应用 |
CN112863594A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 肿瘤纯度估计方法及装置 |
Non-Patent Citations (2)
Title |
---|
ZHIHUI LUO ET AL: "ccurity: accurate tumor purity and ploidy inference from tumor-normal WGS data by jointly modelling somatic copy number alterations and heterozygous germline single-nucleotide-variants", 《BIOINFORMATICS》 * |
李喆: "基于高通量测序数据的肿瘤纯度及绝对拷贝数预测方法", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113990389B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021200008B2 (en) | Chromosome representation determinations | |
JP6854272B2 (ja) | 遺伝子の変異の非侵襲的な評価のための方法および処理 | |
US11560586B2 (en) | Methods and processes for non-invasive assessment of genetic variations | |
US20230112134A1 (en) | Methods and processes for non-invasive assessment of genetic variations | |
DePristo et al. | A framework for variation discovery and genotyping using next-generation DNA sequencing data | |
AU2013277997B2 (en) | Methods and processes for non-invasive assessment of genetic variations | |
Haimovich | Methods, challenges, and promise of next-generation sequencing in cancer biology | |
Ahsan et al. | A survey of algorithms for the detection of genomic structural variants from long-read sequencing data | |
CN113990389B (zh) | 推断肿瘤纯度和倍性的方法和装置 | |
Gao et al. | Haplotype-enhanced inference of somatic copy number profiles from single-cell transcriptomes | |
Xiang‐Yu et al. | Revisiting the false positive rate in detecting recent positive selection | |
Weiner et al. | Single-cell DNA replication dynamics in genomically unstable cancers | |
US20190139627A1 (en) | System for Increasing the Accuracy of Non Invasive Prenatal Diagnostics and Liquid Biopsy by Observed Loci Bias Correction at Single Base Resolution | |
US20240141422A1 (en) | Methods and systems for variant calling using unique k-mers | |
Presson et al. | Merging microsatellite data: enhanced methodology and software to combine genotype data for linkage and association analysis | |
Veeramachaneni | Data analysis in rare disease diagnostics | |
CN115910200A (zh) | 基于全外显子测序的非靶向区域基因型填充方法 | |
Papenfuss et al. | Bioinformatics Analysis of Sequence Data | |
WO2019156591A1 (en) | Methods and systems for prediction of frailty background |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |