CN113990389A

CN113990389A - 推断肿瘤纯度和倍性的方法和装置

Info

Publication number: CN113990389A
Application number: CN202111608122.5A
Authority: CN
Inventors: 单光宇; 王伟伟; 姬晓勇; 伍启熹; 王建伟
Original assignee: Beijing Youxun Medical Devices Co ltd
Current assignee: Beijing Youxun Medical Devices Co ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-01-28
Anticipated expiration: 2041-12-27
Also published as: CN113990389B

Abstract

本发明提供一种推断肿瘤纯度和倍性的方法和装置，方法通过对肿瘤样本和配对样本的基因组测序数据进行预处理，对预处理后的结果进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度；根据前述结果校正第一覆盖度；根据预处理后的肿瘤样本基因组测序数据确定杂合胚系变异位点对应的变异频率最高的等位基因频率；根据校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；根据上述结果确定肿瘤样本的纯度和肿瘤细胞的倍性。本发明提供一种鲁棒性的肿瘤浓度及倍性的检测方法，并且检测的准确性更高。

Description

推断肿瘤纯度和倍性的方法和装置

技术领域

本发明涉及肿瘤检测技术领域，尤其涉及一种推断肿瘤纯度和倍性的方法和装置。

背景技术

癌症是一组异质性疾病，每一种都有自己的生物学特征。发现这些生物学特征可能为癌症治疗提供高信息量的标记和靶点。最近，二代测序是研究者能够在全基因组范围内寻找这些癌症特征。然而，由于肿瘤组织中正常细胞的污染，从肿瘤样本中获得的高通量数据是癌症细胞和正常细胞的混合信号。肿瘤纯度及肿瘤细胞的倍性对肿瘤样本的二代测序数据分析有重大影响，并可能发生改变生物学和临床解释的结果。因此，在样本染色体拷贝数分析、差异表达/甲基化等各种数据分析中，必须考虑肿瘤纯度及肿瘤倍性效应。

目前为止，用于肿瘤纯度评估的方法主要来自两种类型的遗传变异信息，一种类型是体细胞拷贝数改变（SCNAs），比较肿瘤样本的SCNA位点的测序覆盖度与匹配的正常样本构成的统计学差异。第二种是单核苷酸变异（SNVs），比较肿瘤样本的SNV位点的等位基因测序覆盖度与其匹配的正常样本构成的第二个统计学差异。根据这两类的覆盖信息差异数据用于估计肿瘤纯度和倍性，现有的计算方法可以大致分为三类。第一类只使用了SCNA的覆盖信息；第二类只利用等位基因的覆盖差异信息；第三类利用了这两种信息。第一类和第二类方法的问题是利用单一的信息导致检测结果不准确，如PurityEst仅利用等位基因的覆盖度差异信息估计肿瘤纯度，但是前提假设是肿瘤细胞的倍性为2。ABSOLUTE利用拷贝数信息估计肿瘤纯度，但是它需要人工校对结果。第三类方法结合拷贝数及等位基因的覆盖差异可以解决以上的问题。如Sclust是一种完全非参数突变聚类方法，利用平滑样条推断出计算负担较低的拷贝数和等位基因特异性拷贝数。尽管结果令人满意，但分析的所有样本需至少有30倍的覆盖率。

因此，亟需开发一种能够有效、准确地通过低深度NGS数据计算出肿瘤样本的纯度和倍性的算法。使科研及临床检测结果更有意义。

发明内容

本发明提供一种推断肿瘤纯度和倍性的方法和装置，用以解决现有技术中计算肿瘤样本的纯度和倍性的算法的条件苛刻或者不准确的缺陷，实现通过低深度NGS数据计算出肿瘤样本的纯度和倍性的算法。

第一方面，本发明提供一种推断肿瘤纯度和倍性的方法，包括：

对肿瘤样本和配对样本进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；其中，所述预处理后的肿瘤样本基因组测序数据包括变异位点；

对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度；

根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；

根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率，确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率；

根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；

根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述对肿瘤样本和配对样本进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据，具体包括：

对肿瘤样本和配对样本分别进行全基因组测序，得到第一基因组序列和第二基因组序列；

对所述第一基因组序列和所述第二基因组序列进行过滤，得到过滤后的第一基因组序列和过滤后的第二基因组序列；

对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行重复序列删除和假阳去除，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度，具体包括：

根据所述第二覆盖度对所述第一覆盖度进行标准化处理，得到标准覆盖度；

根据所述每个染色体分窗的GC含量对所述标准覆盖度进行校正，得到校正后的第一覆盖度。

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性，具体包括：

根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度，并确定所述纯度对应的各个分段对应的拷贝数；

根据所述分段数、所述每个分段对应的拷贝数和所述每个分段对应的长度确定所述肿瘤细胞的倍性。

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度，具体包括：

获取染色体重新分段后的每段染色体片段的等位基因频率的均值；

根据所述等位基因频率的均值和对应的所述分段的观测拷贝数进行聚类处理，得到具有相同基因型的染色体片段类；

根据所述染色体片段类的所述等位基因频率的均值和对应的所述分段的观测拷贝数确定肿瘤样本的纯度。

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除，具体包括：

采用隐马尔科夫模型对预设的中国人群基因组序列与预设的人类基因组参考序列进行比较确定对应的假阳变异；

根据所述假阳变异对过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除。

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述根据所述每个染色体分窗的GC含量和所述标准覆盖度进行校正，得到校正后的第一覆盖度，具体包括：

根据所述每个染色体分窗的GC含量采用局部加权回归方法对标准覆盖度进行校正，得到校正后的第一覆盖度。

第二方面，本发明提供一种推断肿瘤纯度和倍性的装置，包括：

预处理模块，用于对肿瘤样本和配对样本进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；其中，所述预处理后的肿瘤样本基因组测序数据包括变异位点；

分窗统计模块，用于对所述预处理后的肿瘤样本和所述预处理后的配对样本进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度；

矫正模块，用于根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；

等位基因频率确定模块，用于根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率，确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率；

重新分段模块，用于根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；

分析模块，用于根据所述分段数、所述每个分段对应的观测拷贝数、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述推断肿瘤纯度和倍性的方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述推断肿瘤纯度和倍性的方法的步骤。

本发明提供的一种推断肿瘤纯度和倍性的方法和装置，通过对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度；根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；根据所述预处理后的肿瘤样本基因组测序数据中变异位点在人群数据库中的频率，确定杂合胚系变异位点对应的变异频率最高的等位基因频率；根据所述校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。本发明通过上述步骤提供了一种鲁棒性的肿瘤浓度及倍性的检测方法，能够通过低深度NGS数据计算出肿瘤样本的纯度和倍性的算法，并且检测的准确性更高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的推断肿瘤纯度和倍性的方法的流程示意图；

图2是本发明提供的推断肿瘤纯度和倍性的装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1说明本发明提供一种推断肿瘤纯度和倍性的方法，包括：

步骤100：对肿瘤样本和配对样本进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；其中，所述预处理后的肿瘤样本基因组测序数据包括变异位点；

具体地，本发明实施例中，采用MGI2000平台测序得到肿瘤样本及配对样本的全基因组测序数据。在获取肿瘤样本的基因组测序数据和配对样本基因组测序数据之后，对相应的数据在测序过程中产生的不准确以及不符合特定人群的真实状况的测试数据进行过滤和筛选，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。并且在预处理后的基因组测序数据中获取肿瘤样本包含的变异位点数和变异位点的位置。

步骤200：对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量以及第一覆盖度和配对样本的每个染色体分窗的第二覆盖度；

具体地，由于NGS测序覆盖度较低，因此，在进行后续分析之前，首先将预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据的整个染色体的reads分窗（bin）统计，按照一定长度划分的基因组片段，该长度代表window大小。本方法中window大小可由使用者自由设置，通常设置为几百碱基。一个大基因组片段s可以包含大量window。read：高通量测序平台产生的测序序列。本专利选了500bp的窗宽以来匹配通常的片段长度，计算每个bin的GC含量及覆盖度。

步骤300：根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；

具体地，由于对肿瘤样本的基因组测序数据的分窗的覆盖度呈现随机分布的状态，因此需要对肿瘤样本的基因测序数据的第一覆盖度进行校正，得到校正后的第一覆盖度。

步骤400：根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率，确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率；

具体地，对预处理后的肿瘤样本基因组测序数据中的变异位点进行检测，将检测出来的变异位点与人群数据库进行比对，对得到的变异位点进行注释。人群数据库包括ESP6500数据库、千人基因组计划数据库。其中。ESP全称是NHLBI GO Exome SequencingProject（国家心肺和血液研究所外显子组测序计划），包含了SNP和InDel变异。通过注释可以找到突变在ESP6500中的变异频率。主要目的是通过NGS技术对不同人群进行SNP分型，来辅助心脏，肺，血液相关疾病的研究。国际千人基因组计划，由中英美德等国科学家共同承担研究任务，旨在绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱。2012年11月大型国际科研合作项目"千人基因组计划"的研究人员在新一期英国期刊《自然》上发布了1092人的基因数据，这一成果将有助于更广泛地分析与疾病有关的基因变异。其中，在本发明实施例中具体操作方式为去除人群频率小于5%的变异位点。并对位点进行过滤，过滤测序深度低于3X的位点，及频率低于5%和高于95%的位点，从而得到杂合胚系变异位点，计算杂合位点的B-等位基因频率BAF，即杂合胚系变异位点对应的最高变异情形的变异频率。

步骤500：根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；

具体地，根据校正后的覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段，即使用CBS将癌症基因组的22个常染色体按照校正后的覆盖度数据划分为多个片段，并计算每个片段的观测拷贝数CN。另外，还需要获取每个分段的长度以及分段的总数量。

步骤600：根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。

本发明提供的一种推断肿瘤纯度和倍性的方法，通过对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度；根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；根据所述预处理后的肿瘤样本基因组测序数据中变异位点在人群数据库中的频率，确定杂合胚系变异位点对应的变异频率最高的等位基因频率；根据所述校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。本发明通过上述步骤提供了一种鲁棒性的肿瘤浓度及倍性的检测方法，并且检测的准确性更高。

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据，具体包括：

具体地，MGI2000平台测序得到肿瘤样本及配对样本的全基因组测序数据。为了确保测序数据的质量，避免接头序列污染，首先对原始数据去除接头，过滤含有N碱基过多的reads，质量值较低的碱基的比例过大的reads，可利用fastq软件进行过滤。利用BWA比对软件将过滤后DNA序列比对到人类基因组参考序列上，然后用Picard软件去除PCR过程引入的重复序列。其中，PCR(聚合酶链式反应)是利用DNA在体外摄氏95°高温时变性会变成单链，低温(经常是60°C左右)时引物与单链按碱基互补配对的原则结合，再调温度至DNA聚合酶最适反应温度(72°C左右)，DNA聚合酶沿着磷酸到五碳糖(5'-3')的方向合成互补链。是一种用于放大扩增特定的DNA片段的分子生物学技术，它可看作是生物体外的特殊DNA复制。

另外，由于采用的样本是中国人群，而参考基因组hg19是欧洲人，会存在一些种群水平上的假定CNV，因此，对因为人种的差异导致的比对上存在的变异误差进行去除。经过上述处理之后，可以得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据。

具体地，标准化的处理就是对相同的read分窗的肿瘤样本的染色体序列分窗的覆盖度除以配对样本的染色体序列分窗的覆盖度得到标准覆盖度。

然后，采用局部加权回归方法对标准覆盖度进行GC校正，得到校正后的覆盖度。

具体地，假设肿瘤细胞的拷贝数为

，肿瘤样本的倍性为

，肿瘤纯度为

，则

为正常细胞及肿瘤细胞的加权平均值:

(1)

利用肿瘤样本的染色体片段拷贝数表示为：

(2)

为肿瘤样本的拷贝数，

为肿瘤细胞的拷贝数，

为肿瘤样本拷贝数的观测值

(3)

为肿瘤样本杂合位点的B-等位基因频率

的观测值

由(2)式，可得

(4)

根据所述的重新分段后的染色体片段，计算片段中所有杂合位点的B-等位基因频率

的均值，及对应所述染色体片段的拷贝数。采用DBSCAN算法对所述染色体片段拷贝数

与对应杂合位点的B-等位基因频率

值进行聚类，将相同基因型的染色体片段聚集成一类。由于肿瘤纯度

的范围为[0,1]，预设

值

，取步长为0.01，依次将第

个肿瘤纯度

带入公式(4)，可得理论的

值，其中

为第

种基因型类，并将

和

代入式(3)，可得理论的

值，由于

为整数，将

近似为整数，根据

值，可计算

。将分类所得的全部类型的基因型代入计算获得全部基因型的理论

计算

与全部基因型观测值

的偏差之和。从而，通过依次肿瘤纯度，将

与

进行最佳拟合，偏差最小的肿瘤纯度即为预测的肿瘤纯度。

最后，肿瘤细胞的倍性

，其中，

为所述重新分段后染色体片段的长度，

为所述重新分段后染色体片段的理论拷贝数。另外，根据肿瘤浓度、片段的拷贝数及B-等位基因频率计算杂合性缺失、等位基因失衡、大片段状态转移等。

结合图2所示，本发明提供一种推断肿瘤纯度和倍性的装置，包括：

预处理模块21，用于对肿瘤样本和配对样本进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；其中，所述预处理后的肿瘤样本基因组测序数据包括变异位点；

分窗统计模块22，用于对所述预处理后的肿瘤样本和所述预处理后的配对样本进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度；

矫正模块23，用于根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；

等位基因频率确定模块24，用于根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率，确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率；

重新分段模块25，用于根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；

分析模块26，用于根据所述分段数、所述每个分段对应的观测拷贝数、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。

由于本发明实施例提供的装置，可以用于执行上述实施例所述的方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述实施例的介绍。

本发明提供的一种推断肿瘤纯度和倍性的装置，通过对肿瘤样本基因组测序数据和配对样本基因组测序数据进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度和配对样本的每个染色体分窗的第二覆盖度；根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；根据所述预处理后的肿瘤样本基因组测序数据中变异位点在人群数据库中的频率，确定杂合胚系变异位点对应的变异频率最高的等位基因频率；根据所述校正后的第一覆盖度对肿瘤样本的癌症基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。本发明通过上述步骤提供了一种鲁棒性的肿瘤浓度及倍性的检测方法，并且检测的准确性更高。

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述预处理模块21，具体用于：

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述矫正模块23，具体用于：

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述分析模块26，具体用于：

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述分析模块26，还具体用于：

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述预处理模块21，还具体用于：

进一步，根据本发明提供的推断肿瘤纯度和倍性的方法，其中，所述矫正模块23，还具体用于：

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行一种推断肿瘤纯度和倍性的方法，该方法包括：对肿瘤样本和配对样本进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；其中，所述预处理后的肿瘤样本基因组测序数据包括变异位点；对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度；根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率，确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率；根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的一种推断肿瘤纯度和倍性的方法，该方法包括：对肿瘤样本和配对样本进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；其中，所述预处理后的肿瘤样本基因组测序数据包括变异位点；对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度；根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率，确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率；根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的一种推断肿瘤纯度和倍性的方法，该方法包括：对肿瘤样本和配对样本进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据；其中，所述预处理后的肿瘤样本基因组测序数据包括变异位点；对所述预处理后的肿瘤样本基因组测序数据和所述预处理后的配对样本基因组测序数据进行染色体分窗统计，得到肿瘤样本每个染色体分窗的GC含量和第一覆盖度以及配对样本的每个染色体分窗的第二覆盖度；根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度；根据所述预处理后的肿瘤样本基因组测序数据中所述变异位点在预设的人群数据库中的变异频率，确定所述变异位点为杂合胚系变异位点时对应的所述变异频率最高的等位基因频率；根据所述校正后的第一覆盖度对肿瘤样本基因组的常染色体进行重新分段，并确定分段数、每个分段对应的长度和每个分段对应的观测拷贝数；根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种推断肿瘤纯度和倍性的方法，其特征在于，包括：

2.根据权利要求1所述的推断肿瘤纯度和倍性的方法，其特征在于，所述对肿瘤样本和配对样本进行预处理，得到预处理后的肿瘤样本基因组测序数据和预处理后的配对样本基因组测序数据，具体包括：

3.根据权利要求1所述的推断肿瘤纯度和倍性的方法，其特征在于，所述根据所述GC含量、所述第一覆盖度和所述第二覆盖度得到校正后的第一覆盖度，具体包括：

4.根据权利要求1所述的推断肿瘤纯度和倍性的方法，其特征在于，所述根据所述分段数、所述每个分段对应的长度、所述每个分段对应的观测拷贝数、所述等位基因频率确定肿瘤样本的纯度和肿瘤样本中肿瘤细胞的倍性，具体包括：

5.根据权利要求4所述的推断肿瘤纯度和倍性的方法，其特征在于，所述根据所述每个分段对应的观测拷贝数和所述等位基因频率确定所述肿瘤样本的纯度，具体包括：

6.根据权利要求2所述的推断肿瘤纯度和倍性的方法，其特征在于，对所述过滤后的第一基因组序列和所述过滤后的第二基因组序列进行假阳去除，具体包括：

7.根据权利要求3所述的推断肿瘤纯度和倍性的方法，其特征在于，所述根据所述每个染色体分窗的GC含量和所述标准覆盖度进行校正，得到校正后的第一覆盖度，具体包括：

8.一种推断肿瘤纯度和倍性的装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述推断肿瘤纯度和倍性的方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述推断肿瘤纯度和倍性的方法的步骤。