CN113990389A - 推断肿瘤纯度和倍性的方法和装置 - Google Patents

推断肿瘤纯度和倍性的方法和装置 Download PDF

Info

Publication number
CN113990389A
CN113990389A CN202111608122.5A CN202111608122A CN113990389A CN 113990389 A CN113990389 A CN 113990389A CN 202111608122 A CN202111608122 A CN 202111608122A CN 113990389 A CN113990389 A CN 113990389A
Authority
CN
China
Prior art keywords
tumor
coverage
sample
tumor sample
purity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111608122.5A
Other languages
English (en)
Other versions
CN113990389B (zh
Inventor
单光宇
王伟伟
姬晓勇
伍启熹
王建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youxun Medical Devices Co ltd
Original Assignee
Beijing Youxun Medical Devices Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youxun Medical Devices Co ltd filed Critical Beijing Youxun Medical Devices Co ltd
Priority to CN202111608122.5A priority Critical patent/CN113990389B/zh
Publication of CN113990389A publication Critical patent/CN113990389A/zh
Application granted granted Critical
Publication of CN113990389B publication Critical patent/CN113990389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

本发明提供一种推断肿瘤纯度和倍性的方法和装置,方法通过对肿瘤样本和配对样本的基因组测序数据进行预处理,对预处理后的结果进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;根据前述结果校正第一覆盖度;根据预处理后的肿瘤样本基因组测序数据确定杂合胚系变异位点对应的变异频率最高的等位基因频率;根据校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据上述结果确定肿瘤样本的纯度和肿瘤细胞的倍性。本发明提供一种鲁棒性的肿瘤浓度及倍性的检测方法,并且检测的准确性更高。

Description

推断肿瘤纯度和倍性的方法和装置
技术领域
本发明涉及肿瘤检测技术领域,尤其涉及一种推断肿瘤纯度和倍性的方法和装置。
背景技术
癌症是一组异质性疾病,每一种都有自己的生物学特征。发现这些生物学特征可能为癌症治疗提供高信息量的标记和靶点。最近,二代测序是研究者能够在全基因组范围内寻找这些癌症特征。然而,由于肿瘤组织中正常细胞的污染,从肿瘤样本中获得的高通量数据是癌症细胞和正常细胞的混合信号。肿瘤纯度及肿瘤细胞的倍性对肿瘤样本的二代测序数据分析有重大影响,并可能发生改变生物学和临床解释的结果。因此,在样本染色体拷贝数分析、差异表达/甲基化等各种数据分析中,必须考虑肿瘤纯度及肿瘤倍性效应。
目前为止,用于肿瘤纯度评估的方法主要来自两种类型的遗传变异信息,一种类型是体细胞拷贝数改变(SCNAs),比较肿瘤样本的SCNA位点的测序覆盖度与匹配的正常样本构成的统计学差异。第二种是单核苷酸变异(SNVs),比较肿瘤样本的SNV位点的等位基因测序覆盖度与其匹配的正常样本构成的第二个统计学差异。根据这两类的覆盖信息差异数据用于估计肿瘤纯度和倍性,现有的计算方法可以大致分为三类。第一类只使用了SCNA的覆盖信息;第二类只利用等位基因的覆盖差异信息;第三类利用了这两种信息。第一类和第二类方法的问题是利用单一的信息导致检测结果不准确,如PurityEst仅利用等位基因的覆盖度差异信息估计肿瘤纯度,但是前提假设是肿瘤细胞的倍性为2。ABSOLUTE利用拷贝数信息估计肿瘤纯度,但是它需要人工校对结果。第三类方法结合拷贝数及等位基因的覆盖差异可以解决以上的问题。如Sclust是一种完全非参数突变聚类方法,利用平滑样条推断出计算负担较低的拷贝数和等位基因特异性拷贝数。尽管结果令人满意,但分析的所有样本需至少有30倍的覆盖率。
因此,亟需开发一种能够有效、准确地通过低深度NGS数据计算出肿瘤样本的纯度和倍性的算法。使科研及临床检测结果更有意义。
发明内容
本发明提供一种推断肿瘤纯度和倍性的方法和装置,用以解决现有技术中计算肿瘤样本的纯度和倍性的算法的条件苛刻或者不准确的缺陷,实现通过低深度NGS数据计算出肿瘤样本的纯度和倍性的算法。
第一方面,本发明提供一种推断肿瘤纯度和倍性的方法,包括:
对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据,具体包括:
对肿瘤样本和配对样本分别进行全基因组测序,得到第一基因组序列和第二基因组序列;
对所述第一基因组序列和所述第二基因组序列进行过滤,得到过滤后的第一基因组序列和过滤后的第二基因组序列;
对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行重复序列删除和假阳去除,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度,具体包括:
根据所述第二覆盖度对所述第一覆盖度进行标准化处理,得到标准覆盖度;
根据所述每个染色体分窗的GC含量对所述标准覆盖度进行校正,得到校正后的第一覆盖度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性,具体包括:
根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,并确定所述纯度对应的各个分段对应的拷贝数;
根据所述分段数、所述每个分段对应的拷贝数和所述每个分段对应的长度确定所述肿瘤细胞的倍性。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,具体包括:
获取染色体重新分段后的每段染色体片段的等位基因频率的均值;
根据所述等位基因频率的均值和对应的所述分段的观测拷贝数进行聚类处理,得到具有相同基因型的染色体片段类;
根据所述染色体片段类的所述等位基因频率的均值和对应的所述分段的观测拷贝数确定肿瘤样本的纯度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除,具体包括:
采用隐马尔科夫模型对预设的中国人群基因组序列与预设的人类基因组参考序列进行比较确定对应的假阳变异;
根据所述假阳变异对过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述每个染色体分窗的GC含量和所述标准覆盖度进行校正,得到校正后的第一覆盖度,具体包括:
根据所述每个染色体分窗的GC含量采用局部加权回归方法对标准覆盖度进行校正,得到校正后的第一覆盖度。
第二方面,本发明提供一种推断肿瘤纯度和倍性的装置,包括:
预处理模块,用于对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
分窗统计模块,用于对所述预处理后的肿瘤样本和所述预处理后的配对样本进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
矫正模块,用于根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
等位基因频率确定模块,用于根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
重新分段模块,用于根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
分析模块,用于根据所述分段数、所述每个分段对应的观测拷贝数、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述推断肿瘤纯度和倍性的方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述推断肿瘤纯度和倍性的方法的步骤。
本发明提供的一种推断肿瘤纯度和倍性的方法和装置,通过对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中变异位点在人群数据库中的频率,确定杂合胚系变异位点对应的变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。本发明通过上述步骤提供了一种鲁棒性的肿瘤浓度及倍性的检测方法,能够通过低深度NGS数据计算出肿瘤样本的纯度和倍性的算法,并且检测的准确性更高。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的推断肿瘤纯度和倍性的方法的流程示意图;
图2是本发明提供的推断肿瘤纯度和倍性的装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1说明本发明提供一种推断肿瘤纯度和倍性的方法,包括:
步骤100:对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
具体地,本发明实施例中,采用MGI2000平台测序得到肿瘤样本及配对样本的全基因组测序数据。在获取肿瘤样本的基因组测序数据和配对样本基因组测序数据之后,对相应的数据在测序过程中产生的不准确以及不符合特定人群的真实状况的测试数据进行过滤和筛选,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。并且在预处理后的基因组测序数据中获取肿瘤样本包含的变异位点数和变异位点的位置。
步骤200:对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量以及第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;
具体地,由于NGS测序覆盖度较低,因此,在进行后续分析之前,首先将预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据的整个染色体的reads分窗(bin)统计,按照一定长度划分的基因组片段,该长度代表window大小。本方法中window大小可由使用者自由设置,通常设置为几百碱基。一个大基因组片段s可以包含大量window。read:高通量测序平台产生的测序序列。本专利选了500bp的窗宽以来匹配通常的片段长度,计算每个bin的GC含量及覆盖度。
步骤300:根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
具体地,由于对肿瘤样本的基因组测序数据的分窗的覆盖度呈现随机分布的状态,因此需要对肿瘤样本的基因测序数据的第一覆盖度进行校正,得到校正后的第一覆盖度。
步骤400:根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
具体地,对预处理后的肿瘤样本基因组测序数据中的变异位点进行检测,将检测出来的变异位点与人群数据库进行比对,对得到的变异位点进行注释。人群数据库包括ESP6500数据库、千人基因组计划数据库。其中。ESP全称是NHLBI GO Exome SequencingProject(国家心肺和血液研究所外显子组测序计划),包含了SNP和InDel变异。通过注释可以找到突变在ESP6500中的变异频率。主要目的是通过NGS技术对不同人群进行SNP分型,来辅助心脏,肺,血液相关疾病的研究。国际千人基因组计划,由中英美德等国科学家共同承担研究任务,旨在绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱。2012年11月大型国际科研合作项目"千人基因组计划"的研究人员在新一期英国期刊《自然》上发布了1092人的基因数据,这一成果将有助于更广泛地分析与疾病有关的基因变异。其中,在本发明实施例中具体操作方式为去除人群频率小于5%的变异位点。并对位点进行过滤,过滤测序深度低于3X的位点,及频率低于5%和高于95%的位点,从而得到杂合胚系变异位点,计算杂合位点的B-等位基因频率BAF,即杂合胚系变异位点对应的最高变异情形的变异频率。
步骤500:根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
具体地,根据校正后的覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,即使用CBS将癌症基因组的22个常染色体按照校正后的覆盖度数据划分为多个片段,并计算每个片段的观测拷贝数CN。另外,还需要获取每个分段的长度以及分段的总数量。
步骤600:根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
本发明提供的一种推断肿瘤纯度和倍性的方法,通过对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中变异位点在人群数据库中的频率,确定杂合胚系变异位点对应的变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。本发明通过上述步骤提供了一种鲁棒性的肿瘤浓度及倍性的检测方法,并且检测的准确性更高。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据,具体包括:
对肿瘤样本和配对样本分别进行全基因组测序,得到第一基因组序列和第二基因组序列;
对所述第一基因组序列和所述第二基因组序列进行过滤,得到过滤后的第一基因组序列和过滤后的第二基因组序列;
对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行重复序列删除和假阳去除,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
具体地,MGI2000平台测序得到肿瘤样本及配对样本的全基因组测序数据。为了确保测序数据的质量,避免接头序列污染,首先对原始数据去除接头,过滤含有N碱基过多的reads,质量值较低的碱基的比例过大的reads,可利用fastq软件进行过滤。利用BWA比对软件将过滤后DNA序列比对到人类基因组参考序列上,然后用Picard软件去除PCR过程引入的重复序列。其中,PCR(聚合酶链式反应)是利用DNA在体外摄氏95°高温时变性会变成单链,低温(经常是60°C左右)时引物与单链按碱基互补配对的原则结合,再调温度至DNA聚合酶最适反应温度(72°C左右),DNA聚合酶沿着磷酸到五碳糖(5'-3')的方向合成互补链。是一种用于放大扩增特定的DNA片段的分子生物学技术,它可看作是生物体外的特殊DNA复制。
另外,由于采用的样本是中国人群,而参考基因组hg19是欧洲人,会存在一些种群水平上的假定CNV,因此,对因为人种的差异导致的比对上存在的变异误差进行去除。经过上述处理之后,可以得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除,具体包括:
采用隐马尔科夫模型对预设的中国人群基因组序列与预设的人类基因组参考序列进行比较确定对应的假阳变异;
根据所述假阳变异对过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度,具体包括:
根据所述第二覆盖度对所述第一覆盖度进行标准化处理,得到标准覆盖度;
根据所述每个染色体分窗的GC含量对所述标准覆盖度进行校正,得到校正后的第一覆盖度。
具体地,标准化的处理就是对相同的read分窗的肿瘤样本的染色体序列分窗的覆盖度除以配对样本的染色体序列分窗的覆盖度得到标准覆盖度。
然后,采用局部加权回归方法对标准覆盖度进行GC校正,得到校正后的覆盖度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性,具体包括:
根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,并确定所述纯度对应的各个分段对应的拷贝数;
根据所述分段数、所述每个分段对应的拷贝数和所述每个分段对应的长度确定所述肿瘤细胞的倍性。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,具体包括:
获取染色体重新分段后的每段染色体片段的等位基因频率的均值;
根据所述等位基因频率的均值和对应的所述分段的观测拷贝数进行聚类处理,得到具有相同基因型的染色体片段类;
根据所述染色体片段类的所述等位基因频率的均值和对应的所述分段的观测拷贝数确定肿瘤样本的纯度。
具体地,假设肿瘤细胞的拷贝数为
Figure 811217DEST_PATH_IMAGE001
,肿瘤样本的倍性为
Figure 552033DEST_PATH_IMAGE002
,肿瘤纯度为
Figure 584711DEST_PATH_IMAGE003
,则
Figure 643934DEST_PATH_IMAGE002
为正常细胞及肿瘤细胞的加权平均值:
Figure 810473DEST_PATH_IMAGE004
(1)
利用肿瘤样本的染色体片段拷贝数表示为:
Figure 638752DEST_PATH_IMAGE005
(2)
Figure 606446DEST_PATH_IMAGE006
为肿瘤样本的拷贝数,
Figure 887385DEST_PATH_IMAGE007
为肿瘤细胞的拷贝数,
Figure 732982DEST_PATH_IMAGE008
为肿瘤样本拷贝数的观 测值
Figure 681346DEST_PATH_IMAGE009
(3)
Figure 446040DEST_PATH_IMAGE010
为肿瘤样本杂合位点的B-等位基因频率
Figure 715741DEST_PATH_IMAGE011
的观测值
由(2)式,可得
Figure 99448DEST_PATH_IMAGE012
(4)
根据所述的重新分段后的染色体片段,计算片段中所有杂合位点的B-等位基因频 率
Figure 902319DEST_PATH_IMAGE011
的均值,及对应所述染色体片段的拷贝数。采用DBSCAN算法对所述染色体片段拷贝 数
Figure 713281DEST_PATH_IMAGE008
与对应杂合位点的B-等位基因频率
Figure 93446DEST_PATH_IMAGE010
值进行聚类,将相同基因型的染色体片段 聚集成一类。由于肿瘤纯度
Figure 513801DEST_PATH_IMAGE013
的范围为[0,1],预设
Figure 436758DEST_PATH_IMAGE013
Figure 418620DEST_PATH_IMAGE014
,取步长为0.01,依次 将第
Figure 427028DEST_PATH_IMAGE015
个肿瘤纯度
Figure 654003DEST_PATH_IMAGE016
带入公式(4),可得理论的
Figure 290521DEST_PATH_IMAGE017
值,其中
Figure 708864DEST_PATH_IMAGE018
为第
Figure 673409DEST_PATH_IMAGE018
种基因型类,并将
Figure 202610DEST_PATH_IMAGE016
Figure 67536DEST_PATH_IMAGE017
代入式(3),可得理论的
Figure 515834DEST_PATH_IMAGE019
值,由于
Figure 498834DEST_PATH_IMAGE017
为整数,将
Figure 566147DEST_PATH_IMAGE017
近似为整数,根据
Figure 52623DEST_PATH_IMAGE017
值,可 计算
Figure 302515DEST_PATH_IMAGE019
。将分类所得的全部类型的基因型代入计算获得全部基因型的理论
Figure 241652DEST_PATH_IMAGE020
计算
Figure 237290DEST_PATH_IMAGE020
与全部基因型观测值
Figure 578273DEST_PATH_IMAGE010
的偏差之和。从而,通过依次肿瘤纯度,将
Figure 509319DEST_PATH_IMAGE008
Figure 434288DEST_PATH_IMAGE010
进 行最佳拟合,偏差最小的肿瘤纯度即为预测的肿瘤纯度。
最后,肿瘤细胞的倍性
Figure 843404DEST_PATH_IMAGE021
,其中,
Figure 304472DEST_PATH_IMAGE022
为所述重新分段后染色体片 段的长度,
Figure 531054DEST_PATH_IMAGE007
为所述重新分段后染色体片段的理论拷贝数。另外,根据肿瘤浓度、片段的拷 贝数及B-等位基因频率计算杂合性缺失、等位基因失衡、大片段状态转移等。
结合图2所示,本发明提供一种推断肿瘤纯度和倍性的装置,包括:
预处理模块21,用于对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
分窗统计模块22,用于对所述预处理后的肿瘤样本和所述预处理后的配对样本进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
矫正模块23,用于根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
等位基因频率确定模块24,用于根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
重新分段模块25,用于根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
分析模块26,用于根据所述分段数、所述每个分段对应的观测拷贝数、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
由于本发明实施例提供的装置,可以用于执行上述实施例所述的方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
本发明提供的一种推断肿瘤纯度和倍性的装置,通过对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中变异位点在人群数据库中的频率,确定杂合胚系变异位点对应的变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。本发明通过上述步骤提供了一种鲁棒性的肿瘤浓度及倍性的检测方法,并且检测的准确性更高。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述预处理模块21,具体用于:
对肿瘤样本和配对样本分别进行全基因组测序,得到第一基因组序列和第二基因组序列;
对所述第一基因组序列和所述第二基因组序列进行过滤,得到过滤后的第一基因组序列和过滤后的第二基因组序列;
对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行重复序列删除和假阳去除,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述矫正模块23,具体用于:
根据所述第二覆盖度对所述第一覆盖度进行标准化处理,得到标准覆盖度;
根据所述每个染色体分窗的GC含量对所述标准覆盖度进行校正,得到校正后的第一覆盖度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述分析模块26,具体用于:
根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,并确定所述纯度对应的各个分段对应的拷贝数;
根据所述分段数、所述每个分段对应的拷贝数和所述每个分段对应的长度确定所述肿瘤细胞的倍性。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述分析模块26,还具体用于:
获取染色体重新分段后的每段染色体片段的等位基因频率的均值;
根据所述等位基因频率的均值和对应的所述分段的观测拷贝数进行聚类处理,得到具有相同基因型的染色体片段类;
根据所述染色体片段类的所述等位基因频率的均值和对应的所述分段的观测拷贝数确定肿瘤样本的纯度。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述预处理模块21,还具体用于:
采用隐马尔科夫模型对预设的中国人群基因组序列与预设的人类基因组参考序列进行比较确定对应的假阳变异;
根据所述假阳变异对过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除。
进一步,根据本发明提供的推断肿瘤纯度和倍性的方法,其中,所述矫正模块23,还具体用于:
根据所述每个染色体分窗的GC含量采用局部加权回归方法对标准覆盖度进行校正,得到校正后的第一覆盖度。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行一种推断肿瘤纯度和倍性的方法,该方法包括:对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的一种推断肿瘤纯度和倍性的方法,该方法包括:对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的一种推断肿瘤纯度和倍性的方法,该方法包括:对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种推断肿瘤纯度和倍性的方法,其特征在于,包括:
对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
2.根据权利要求1所述的推断肿瘤纯度和倍性的方法,其特征在于,所述对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据,具体包括:
对肿瘤样本和配对样本分别进行全基因组测序,得到第一基因组序列和第二基因组序列;
对所述第一基因组序列和所述第二基因组序列进行过滤,得到过滤后的第一基因组序列和过滤后的第二基因组序列;
对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行重复序列删除和假阳去除,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。
3.根据权利要求1所述的推断肿瘤纯度和倍性的方法,其特征在于,所述根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度,具体包括:
根据所述第二覆盖度对所述第一覆盖度进行标准化处理,得到标准覆盖度;
根据所述每个染色体分窗的GC含量对所述标准覆盖度进行校正,得到校正后的第一覆盖度。
4.根据权利要求1所述的推断肿瘤纯度和倍性的方法,其特征在于,所述根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性,具体包括:
根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,并确定所述纯度对应的各个分段对应的拷贝数;
根据所述分段数、所述每个分段对应的拷贝数和所述每个分段对应的长度确定所述肿瘤细胞的倍性。
5.根据权利要求4所述的推断肿瘤纯度和倍性的方法,其特征在于,所述根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度,具体包括:
获取染色体重新分段后的每段染色体片段的等位基因频率的均值;
根据所述等位基因频率的均值和对应的所述分段的观测拷贝数进行聚类处理,得到具有相同基因型的染色体片段类;
根据所述染色体片段类的所述等位基因频率的均值和对应的所述分段的观测拷贝数确定肿瘤样本的纯度。
6.根据权利要求2所述的推断肿瘤纯度和倍性的方法,其特征在于,对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除,具体包括:
采用隐马尔科夫模型对预设的中国人群基因组序列与预设的人类基因组参考序列进行比较确定对应的假阳变异;
根据所述假阳变异对过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除。
7.根据权利要求3所述的推断肿瘤纯度和倍性的方法,其特征在于,所述根据所述每个染色体分窗的GC含量和所述标准覆盖度进行校正,得到校正后的第一覆盖度,具体包括:
根据所述每个染色体分窗的GC含量采用局部加权回归方法对标准覆盖度进行校正,得到校正后的第一覆盖度。
8.一种推断肿瘤纯度和倍性的装置,其特征在于,包括:
预处理模块,用于对肿瘤样本和配对样本进行预处理,得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据;其中,所述预处理后的肿瘤样本基因组测序数据包括变异位点;
分窗统计模块,用于对所述预处理后的肿瘤样本和所述预处理后的配对样本进行染色体分窗统计,得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度;
矫正模块,用于根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度;
等位基因频率确定模块,用于根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率,确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率;
重新分段模块,用于根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段,并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数;
分析模块,用于根据所述分段数、所述每个分段对应的观测拷贝数、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述推断肿瘤纯度和倍性的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述推断肿瘤纯度和倍性的方法的步骤。
CN202111608122.5A 2021-12-27 2021-12-27 推断肿瘤纯度和倍性的方法和装置 Active CN113990389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111608122.5A CN113990389B (zh) 2021-12-27 2021-12-27 推断肿瘤纯度和倍性的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111608122.5A CN113990389B (zh) 2021-12-27 2021-12-27 推断肿瘤纯度和倍性的方法和装置

Publications (2)

Publication Number Publication Date
CN113990389A true CN113990389A (zh) 2022-01-28
CN113990389B CN113990389B (zh) 2022-04-22

Family

ID=79734442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111608122.5A Active CN113990389B (zh) 2021-12-27 2021-12-27 推断肿瘤纯度和倍性的方法和装置

Country Status (1)

Country Link
CN (1) CN113990389B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103201744A (zh) * 2010-10-13 2013-07-10 考利达基因组股份有限公司 用于估算全基因组拷贝数变异的方法
CN104428425A (zh) * 2012-05-04 2015-03-18 考利达基因组股份有限公司 测定复杂肿瘤全基因组绝对拷贝数变异的方法
US20190042826A1 (en) * 2017-08-04 2019-02-07 Oregon Health & Science University Automatic nuclei segmentation in histopathology images
CN110016497A (zh) * 2018-01-09 2019-07-16 北京大学 一种检测肿瘤单细胞基因组拷贝数变异的方法
CN110029157A (zh) * 2018-01-11 2019-07-19 北京大学 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法
CN110289047A (zh) * 2019-05-15 2019-09-27 西安电子科技大学 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
CN110808081A (zh) * 2019-09-29 2020-02-18 深圳吉因加医学检验实验室 一种鉴定肿瘤纯度样本的模型构建方法及应用
CN111676277A (zh) * 2020-08-12 2020-09-18 臻和(北京)生物科技有限公司 一种基于二代测序技术测定基因组不稳定的方法及试剂盒
US20210043274A1 (en) * 2013-05-10 2021-02-11 Foundation Medicine, Inc. Analysis of genetic variants
CN112662767A (zh) * 2020-11-25 2021-04-16 深圳华大基因股份有限公司 用于衡量基因组不稳定性的试剂盒、探针及其应用
CN112735594A (zh) * 2020-12-29 2021-04-30 北京优迅医疗器械有限公司 一种筛选疾病表型相关突变位点的方法及其应用
CN112863594A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 肿瘤纯度估计方法及装置
CN113195733A (zh) * 2018-10-18 2021-07-30 新加坡科技研究局 用于定量人类肿瘤癌细胞中分子活性的方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103201744A (zh) * 2010-10-13 2013-07-10 考利达基因组股份有限公司 用于估算全基因组拷贝数变异的方法
CN104428425A (zh) * 2012-05-04 2015-03-18 考利达基因组股份有限公司 测定复杂肿瘤全基因组绝对拷贝数变异的方法
US20210043274A1 (en) * 2013-05-10 2021-02-11 Foundation Medicine, Inc. Analysis of genetic variants
US20190042826A1 (en) * 2017-08-04 2019-02-07 Oregon Health & Science University Automatic nuclei segmentation in histopathology images
CN110016497A (zh) * 2018-01-09 2019-07-16 北京大学 一种检测肿瘤单细胞基因组拷贝数变异的方法
CN110029157A (zh) * 2018-01-11 2019-07-19 北京大学 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法
CN113195733A (zh) * 2018-10-18 2021-07-30 新加坡科技研究局 用于定量人类肿瘤癌细胞中分子活性的方法
CN110289047A (zh) * 2019-05-15 2019-09-27 西安电子科技大学 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
CN110808081A (zh) * 2019-09-29 2020-02-18 深圳吉因加医学检验实验室 一种鉴定肿瘤纯度样本的模型构建方法及应用
CN111676277A (zh) * 2020-08-12 2020-09-18 臻和(北京)生物科技有限公司 一种基于二代测序技术测定基因组不稳定的方法及试剂盒
CN112662767A (zh) * 2020-11-25 2021-04-16 深圳华大基因股份有限公司 用于衡量基因组不稳定性的试剂盒、探针及其应用
CN112735594A (zh) * 2020-12-29 2021-04-30 北京优迅医疗器械有限公司 一种筛选疾病表型相关突变位点的方法及其应用
CN112863594A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 肿瘤纯度估计方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIHUI LUO ET AL: "ccurity: accurate tumor purity and ploidy inference from tumor-normal WGS data by jointly modelling somatic copy number alterations and heterozygous germline single-nucleotide-variants", 《BIOINFORMATICS》 *
李喆: "基于高通量测序数据的肿瘤纯度及绝对拷贝数预测方法", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *

Also Published As

Publication number Publication date
CN113990389B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
AU2021200008B2 (en) Chromosome representation determinations
JP6854272B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
US11560586B2 (en) Methods and processes for non-invasive assessment of genetic variations
US20230112134A1 (en) Methods and processes for non-invasive assessment of genetic variations
DePristo et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data
AU2013277997B2 (en) Methods and processes for non-invasive assessment of genetic variations
Haimovich Methods, challenges, and promise of next-generation sequencing in cancer biology
Ahsan et al. A survey of algorithms for the detection of genomic structural variants from long-read sequencing data
CN113990389B (zh) 推断肿瘤纯度和倍性的方法和装置
Gao et al. Haplotype-enhanced inference of somatic copy number profiles from single-cell transcriptomes
Xiang‐Yu et al. Revisiting the false positive rate in detecting recent positive selection
Weiner et al. Single-cell DNA replication dynamics in genomically unstable cancers
US20190139627A1 (en) System for Increasing the Accuracy of Non Invasive Prenatal Diagnostics and Liquid Biopsy by Observed Loci Bias Correction at Single Base Resolution
US20240141422A1 (en) Methods and systems for variant calling using unique k-mers
Presson et al. Merging microsatellite data: enhanced methodology and software to combine genotype data for linkage and association analysis
Veeramachaneni Data analysis in rare disease diagnostics
CN115910200A (zh) 基于全外显子测序的非靶向区域基因型填充方法
Papenfuss et al. Bioinformatics Analysis of Sequence Data
WO2019156591A1 (en) Methods and systems for prediction of frailty background

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant