CN111199776B

CN111199776B - 评估肿瘤基因组测序数据分析质量的方法、装置及应用

Info

Publication number: CN111199776B
Application number: CN201811366868.8A
Authority: CN
Inventors: 李甫强; 周鑫兰; 乔斯坦
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2023-03-28
Anticipated expiration: 2038-11-16
Also published as: CN111199776A

Abstract

本申请公开了一种评估肿瘤基因组测序数据分析质量的方法、装置及应用。本申请的方法包括采用至少两种细胞系的下机测序数据进行特异性和/或敏感性评估，每细胞系至少两平行样本，同一细胞系的平行样本检出的突变交集作为真实突变集；将下机测序数据拆分成多份读段数目相等的数据；特异性评估包括，在同一细胞系中，随机选取若干份数据作正常对照样本数据，随机取若干份数据作肿瘤样本数据，进行体细胞突变检测，检测出的突变位点都是假阳性位点，以此评估特异性。本申请方法，可评估各个步骤、试剂、设备、处理条件、数据分析方法、分析参数等因素对特异性和/或敏感性的影响，依据评估结果可以对各因素进行优化升级。

Description

评估肿瘤基因组测序数据分析质量的方法、装置及应用

技术领域

本申请涉及肿瘤基因组测序数据分析质量评估领域，特别是涉及一种评估肿瘤基因组测序数据分析结果的质量的方法、装置及应用。

背景技术

癌症是一种严重威胁人类健康的基因病，其发生、发展和复发均与基因的变异、缺失、畸形相关。从基因组层面比较正常组织和肿瘤组织基因的突变、扩增、缺失、易位和甲基化水平，对于阐明肿瘤发生发展的分子机制具有重要意义。近年来，随着二代测序技术(next generation sequencing，NGS)的不断发展和肿瘤相关研究的不断深入，产生了大量的肿瘤基因组数据。基于肿瘤基因组数据和生物信息分析工具，目前已建立多种肿瘤的基因组突变图谱，有助于阐明各类肿瘤基因组的变异规律。

肿瘤基因组数据类型包括全基因组数据(whole genome sequencing，WGS)、全外显子数据(Whole-exome sequencing，WES)、靶向深度测序数据(Target deep sequencing，TDS)。不同类型的肿瘤基因组数据分析结果受到很多因素的影响，其中主要包括：样本制备方式、文库构建方式、芯片捕获技术、测序平台差异、测序试剂差异、生物信息分析软件和流程差异等。例如，国际癌症基因组联盟(ICGC)的试验结果显示，不同文库构建方式对样本的平均覆盖度和均一性都有显著影响。具体的，ICGC的8个实验室对同样的髓母细胞瘤样品采用不同的方式构建WGS文库，然后采用相同的测序平台HiSeq进行测序分析；其中，不同的WGS建库方式包括使用或者不使用PCR扩增、使用不同品牌的试剂等；结果显示，不同文库构建的方式对样本的平均覆盖度和均一性均产生显著影响，其中有2个实验室的数据未满足平均覆盖深度至少为30×的最低要求。

另外，也有研究对来源相同的肿瘤样本经过相同方式的样本制备后，分别基于HiSeq X Ten平台和BGISEQ-500平台构建WGS文库并进行测序，测序数据采用相同的生物信息分析软件和流程进行胚系点突变、胚系插入/缺失、体细胞点突变和体细胞插入/缺失，四种突变类型的检测分析。分析结果表明，两个测序平台间四种类型突变检出的一致性分别为86％、81.5％、72％和38％。此外，对于同一份金标准的数据集，不同实验室采用不同的数据分析方案，最终检出的突变也相距甚远，ICGC的18个实验室得到体细胞单碱基突变的分析结果，而16个实验室得出体细胞插入/缺失突变的分析结果，更让人惊讶的是只有不到四分之一的单碱基突变和1个插入缺失突变被所有实验室检出，而插入缺失突变的总数是347个；可见，即便是同样的金标准数据库，不同实验室之间的检出结果差距也是很大的。

现有的研究显示，影响肿瘤基因组数据分析结果的因素甚多，导致来源相同的样本或者同一批数据的分析结果大相径庭；而目前缺乏标准化的测序和数据分析工具或方法，也没有统一的金标准用于评估肿瘤基因组数据测序分析的结果，因而无法真正评估肿瘤样本变异检出结果。因此，亟需开发一套系统评估肿瘤基因组测序分析效果或分析结果质量的方案。

发明内容

本申请的目的是提供一种新的评估肿瘤基因组测序数据分析结果的质量的方法、装置，以及该方法和装置的应用。

本申请具体采用了以下技术方案：

本申请的第一方面公开了一种评估肿瘤基因组测序数据分析结果质量的方法，包括采用至少两种细胞系的下机测序数据进行特异性评估，每种细胞系至少设置两个平行样本，同一细胞系的所有平行样本检出的突变交集作为真实突变集；将下机测序数据拆分成多份读段数目相等的数据，如一个样本包含多个序列条形码或者在多条lane上进行测序，则将一个样本的所有数据合并后再进行拆分；特异性评估包括，在同一细胞系的同一样本中，随机选取若干份数据作为正常对照样本数据，再随机取若干份数据作为肿瘤样本数据，进行体细胞突变的检测，所有被检测出的突变位点都是假阳性位点，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性。其中，本申请的一种实现方式中，具体选取10份数据作为正常对照样本数据，选取10至20份数据作为肿瘤样本数据，可以理解，选取的数据份数越多，处理数据量和工作量越大，相应的结果也会较为准确或真实；反之数据份数越少，相应的处理数据量和工作量也会降低，检测结果的准确性或真实性就越差。因此，具体选取多少份数的正常对照样本数据或肿瘤样本数据，可以根据实际情况调整，在此不做具体限定。总的来说，肿瘤样本数据的份数最好是大于或等于正常对照样本数据的份数；因为，如果肿瘤样本数据的数量太少，可能被检出的假阳性位点就更少，难以起到特异性评估的作用或效果。

需要说明的是，本申请的评估方法，创造性的采用同一细胞系中检出的假阳性位点，作为特异性评估的准绳；原则上，对于选自同一样本的正常对照样本数据和肿瘤样本数据，是不应该有假阳性位点检出的；而实际情况下之所以会检出假阳性位点，就是因为从样本处理到获得体细胞突变位点的过程中存在各种不可避免的误差；因此，采用本申请的评估方法，可以分别改变各个步骤、试剂、设备、处理条件、数据分析方法、分析参数等因素，以此评估各个因素对特异性的影响，从而实现对各步骤的优化、升级或改进。

优选的，本申请评估肿瘤基因组测序数据分析结果质量的方法还包括采用至少两种细胞系的下机测序数据进行敏感性评估，其中至少两种细胞系包括至少一种非肿瘤细胞系和至少一种肿瘤细胞系；从真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点，和/或非肿瘤细胞系中的纯合非突变位点，作为金标准突变集；敏感性评估包括，从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据，从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据，将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本，对混合样本进行体细胞突变检测，将检测结果与金标准突变集进行对比，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性。其中，本申请的一种实现方式中，具体选取10份非肿瘤细胞系的数据作为正常对照样本数据，选取10至20份肿瘤细胞系的数据作为肿瘤样本数据。可以理解，本申请的敏感性评估中，其关键在于将正常对照样本数据和肿瘤样本数据按照不同的比例混合，然后对混合样本进行检测；其中，所取的正常对照样本数据份数和肿瘤样本数据份数越多，敏感性评估的结果也越准确、代表性越强，当然相应的数据处理量也越多，工作量越大；例如，1份正常对照样本数据与1份肿瘤样本数据混合，跟10份正常对照样本数据与10份肿瘤样本数据混合，同样是50％比例混合的混合样本，10份正常对照样本数据与10份肿瘤样本数据的混合样本的代表性更强，获得的敏感性评估结果也更准确，相应的处理数据量和工作量也更大。因此，具体选取多少份数的正常对照样本数据或肿瘤样本数据，可以根据实际情况调整，在此不做具体限定。

需要说明的是，本申请的评估方法中，特异性评估和敏感性评估可以单独使用，也可以组合一起使用，具体的根据不同的使用需求而定。本申请的评估方法中，敏感性评估的关键在于将正常对照样本数据和肿瘤样本数据按比例混合，然后通过检测混合样本的体细胞突变情况，与金标准突变集对比，从而判断从样本处理到获得体细胞突变位点的过程中各个步骤的各种参数、条件等因素对敏感性的影响，并基于此对各个步骤、试剂、设备、处理条件、数据分析方法、分析参数等因素进行优化。

优选的，下机测序数据为全基因组文库、全外显子文库或靶向深度文库的测序数据。

需要说明的是，肿瘤基因组数据类型包括全基因组数据(whole genomesequencing，WGS)、全外显子数据(Whole-exome sequencing，WES)、靶向深度测序数据(Target deep sequencing，TDS)；因此，本申请的下机测序数据来自于全基因组文库、全外显子文库或靶向深度文库；从而实现对不同数据类型的分析和评估。可以理解，本申请的评估方法可以仅采用全基因组文库、全外显子文库或靶向深度文库的测序数据进行评估，也可以同时对其中两个或三个文库分别进行评估，在此不做具体限定。

优选的，对于全基因组文库的下机测序数据，在拆分成多份读段数目相等的数据时，每份数据的读段数目为50M；对于全外显子文库的下机测序数据，在拆分成多份读段数目相等的数据时，每份数据的读段数目为10M；对于靶向深度文库的下机测序数据，在拆分成多份读段数目相等的数据时，每份数据的读段数目为10M。

需要说明的是，将下机测序数据拆分成多份读段数目相等的数据是为了方便后续的特异性评估或敏感性评估，至于每份数据的大小，一方面可以根据后续评估的使用需求而定，例如每份数据的读段数目越大，每份数据的处理量和工作量也会更大，相应的每份数据包含的信息也越多；另一方面，也可以根据下机测序数据的总量而定，例如下机测试数据的量越大，则每份数据的读段数目可以更大一些。全基因组文库下机测序数据拆分的每份数据的读段数目为50M，全外显子文库下机测序数据和靶向深度文库下机测序数据，两者的每份数据分别为10M，这些数据只是本申请的一种实现方式中具体采用的数据，可以根据实际情况进行调整，在此不做具体限定。

优选的，本申请采用的细胞系中，各细胞系的所有样本都是培养至同代的细胞，即每种细胞系中的该细胞系的所有样本细胞的培养代数相同。

需要说明的是，本申请中每种细胞系中所有样本细胞的培养代数相同，这主要是为了避免在同一细胞系中，不同代数的细胞的代系差异可能引入的变异偏差对评估效果造成的影响；因此，对于同一个细胞系而言，要求其所有细胞的培养代数相同，以保障评估质量和效果。

本申请的第二方面公开了一种评估肿瘤基因组测序数据分析结果质量的装置，包括下机数据分析模块、下机数据拆分模块、金标准突变集提取模块、特异性评估模块和敏感性评估模块；

下机数据分析模块，包括用于对至少两种细胞系的下机测序数据进行突变检测分析，每种细胞系至少设置两个平行样本；其中，突变检测分析包括分析每个细胞系各平行样本的点突变、插入/缺失突变、染色体结构变异和拷贝数变异；然后，将同一细胞系的所有平行样本检出的突变交集作为真实突变集；

下机数据拆分模块，包括用于将下机测序数据拆分成多份读段数目相等的数据，如一个样本包含多个序列条形码或者在多条lane上进行测序，则将一个样本的所有数据合并后再进行拆分；

金标准突变集提取模块，包括用于从真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点，和/或非肿瘤细胞系中的纯合非突变位点，作为金标准突变集；

特异性评估模块，包括用于在同一细胞系的同一样本中，随机选取若干份数据作为正常对照样本数据，再随机取若干份数据作为肿瘤样本数据，进行体细胞突变的检测，所有被检测出的突变位点都是假阳性位点，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性；本申请的一种实现方式中，具体选取10份数据作为正常对照样本数据，选取10至20份数据作为肿瘤样本数据；

敏感性评估模块，包括用于从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据，从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据，将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本，对混合样本进行体细胞突变检测，将检测结果与金标准突变集进行对比，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性；本申请的一种实现方式中，具体选取10份非肿瘤细胞系的数据作为正常对照样本数据，选取10至20份肿瘤细胞系的数据作为肿瘤样本数据。

优选的，下机数据拆分模块中，将全基因组文库的下机测序数据拆分成50M读段每份数据；将全外显子文库的下机测序数据拆分成10M读段每份数据；将靶向深度文库的下机测序数据拆分成10M读段每份数据。

优选的，至少两种细胞系的所有样本都是培养至同代的细胞系细胞，即每种细胞系的培养代数相同。

本申请的第三方面公开了一种评估肿瘤基因组测序数据分析结果质量的装置，该装置包括存储器和处理器；存储器，包括用于存储程序；处理器，包括用于通过执行存储器存储的程序以实现本申请的评估肿瘤基因组测序数据分析结果质量的方法。

本申请的第四方面公开了本申请评估肿瘤基因组测序数据分析结果质量的方法或装置在样本制备优化、文库构建优化、捕获技术优化、测序试剂升级、测序平台升级、分析软件优化或分析流程搭建中的应用。

可以理解，本申请的评估方法或装置，能够对从样本处理到获得体细胞突变位点的过程中各个步骤的各种参数、条件等因素进行特异性和/或敏感性评估，基于这些试剂、设备、参数、条件的评估，完全可以实现样本制备优化、文库构建优化、捕获技术优化、测序试剂升级、测序平台升级或分析软件优化，也可以用于分析流程搭建。

需要说明的是，本申请评估肿瘤基因组测序数据分析结果质量的方法或装置，不仅仅可以用于肿瘤基因组数据分析效果的评估，也可以应用于其他动植物基因组数据分析效果的评估，在此不做具体限定。

本申请的再一面公开了一种计算机可读存储介质，其包括程序，该程序能够被处理器执行以实现本申请的评估肿瘤基因组测序数据分析结果质量的方法。

本申请的有益效果在于：

本申请评估肿瘤基因组测序数据分析结果质量的方法，创造性的采用同一细胞系中检出的假阳性位点进行特异性评估；可以分别改变各个步骤、试剂、设备、处理条件、数据分析方法、分析参数等因素，以此评估各个因素对特异性的影响，从而实现对各因素的优化升级。本申请进一步的方案中，还进一步通过将正常对照样本数据和肿瘤样本数据按比例混合，然后通过检测混合样本的体细胞突变情况，并与金标准突变集对比，进行各因素的敏感性评估；并基于此进一步对各因素进行优化升级。本申请的方法为肿瘤基因组测序数据分析结果质量评估提供了一种统一有效的方法。

附图说明

图1是本申请实施例中评估肿瘤基因组测序数据分析结果质量方法的流程示意图；

图2是本申请实施例中评估肿瘤基因组测序数据分析结果质量装置的结构示意图；

图3是本申请实施例中炎黄细胞系基因组DNA的电泳检测结果图；

图4是本申请实施例中慢性髓性白血病细胞系K562基因组DNA的电泳检测结果图。

具体实施方式

影响肿瘤基因组数据分析结果的因素很多，而目前缺乏标准化的能够对肿瘤基因组数据分析结果进行评估的方案。因此，本申请创造性的提出了一种新的评估肿瘤基因组测序数据分析结果质量的方法，包括采用至少两种细胞系的下机测序数据进行特异性评估和/或敏感性评估；并提出了一种新的特异性评估方案和敏感性评估方案。

本领域技术人员可以理解，本申请的评估肿瘤基因组测序数据分析结果质量的方法或装置，其中部分特征在不同情况下可以省略或替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者详细描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，根据说明书中的描述和本领域的一般技术知识即可完整了解相关操作。

本申请评估肿瘤基因组测序数据分析结果质量的方法，包括采用至少两种细胞系的下机测序数据进行特异性评估，每种细胞系至少设置两个平行样本，同一细胞系的所有平行样本检出的突变交集作为真实突变集；将下机测序数据拆分成多份读段数目相等的数据，如一个样本包含多个序列条形码或者在多条lane上进行测序，则将一个样本的所有数据合并后再进行拆分；特异性评估包括，在同一细胞系的同一样本中，随机选取若干份数据作为正常对照样本数据，再随机取若干份数据作为肿瘤样本数据，进行体细胞突变的检测，所有被检测出的突变位点都是假阳性位点，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性。进一步的，还包括采用至少两种细胞系的下机测序数据进行敏感性评估，其中至少两种细胞系包括至少一种非肿瘤细胞系和至少一种肿瘤细胞系；从真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点，和/或非肿瘤细胞系中的纯合非突变位点，作为金标准突变集；敏感性评估包括，从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据，从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据，将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本，对混合样本进行体细胞突变检测，将检测结果与金标准突变集进行对比，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性。

本申请评估肿瘤基因组测序数据分析结果质量的方法，具体如图1所示，包括细胞系样本准备步骤11、细胞系基因组DNA的提取和检测步骤12、文库的制备与测序步骤13、下机数据分析步骤14、下机数据拆分步骤15、金标准突变集提取步骤16、特异性评估步骤17和敏感性评估步骤18；其中，细胞系样本准备步骤11、细胞系基因组DNA的提取和检测步骤12、文库的制备与测序步骤13可以视情况省略或者沿用已经准备好的备用下机测序数据。

细胞系样本准备步骤11，包括分别培养两种细胞系至活性状态较好的任意一代，以得到足量的同代细胞系细胞。

本申请的一种实现方式中每个细胞系约传代培养至10⁸个细胞，该量能够确保基因组DNA的量能够满足后续使用需求。

细胞系基因组DNA的提取和检测步骤12，包括将两种细胞系同代的10⁸个细胞全部抽提基因组DNA，并进行定量和电泳检测，保证足量的完整性较好的同代细胞系DNA用于后续对持续的技术优化进行测试评估，而不引进细胞系代系的变异偏差。

文库的制备与测序步骤13，包括基于不同的测序平台，分别构建以下三种类型的文库并进行测序：

1)全基因组文库和测序(whole genome sequencing，WGS)：两个细胞系基因组分别平行构建2个WGS文库，测序PE100+10；

2)全外显子文库和测序(Whole-exome sequencing，WES)：两个细胞系基因组分别平行构建2个WES文库，测序PE100+10；

3)靶向深度文库测序(Target deep sequencing，TDS)：两个细胞系基因组分别平行构建2个TDS文库，测序PE100+10。

下机数据分析步骤14，包括用于对至少两种细胞系的下机测序数据进行突变检测分析，每种细胞系至少设置两个平行样本；其中，突变检测分析包括分析每个细胞系各平行样本的点突变、插入/缺失突变、染色体结构变异和拷贝数变异；然后，将同一细胞系的所有平行样本检出的突变交集作为真实突变集。

下机数据拆分步骤15，包括用于将所述下机测序数据拆分成多份读段数目相等的数据，如一个样本包含多个序列条形码或者在多条lane上进行测序，则将一个样本的所有数据合并后再进行拆分。

本申请的一种实现方式中，建议的拆分方式：WGS每份50M读段(深度约3.33×)，WES每份10M读段(深度约20×)，TDS每份10M读段(深度约200×)。

金标准突变集提取步骤16，包括用于从真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点，和/或非肿瘤细胞系中的纯合非突变位点，作为金标准突变集。

特异性评估步骤17，包括用于在同一细胞系的同一样本中，随机选取若干份数据作为正常对照样本数据，再随机取若干份数据作为肿瘤样本数据，进行体细胞突变的检测，所有被检测出的突变位点都是假阳性位点，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性。

本申请的一种实现方式中，具体选取10份数据作为正常对照样本数据，选取10至20份数据作为肿瘤样本数据；基于特异性评估结果可评估从样本处理至得到体细胞突变位点过程中每一步处理对特异性的影响；整个过程包括文库制备、测序、下机数据处理以及突变位点检测。其中下机数据处理又包括测序数据过滤、数据比对、重复读段标记、碱基质量分数重校准等；可评估的条件包括文库制备方法、测序平台、数据处理和突变检测过程中使用的软件及参数等。

敏感性评估步骤18，包括用于从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据，从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据，将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本，对混合样本进行体细胞突变检测，将检测结果与金标准突变集进行对比，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性。

本申请的一种实现方式中，具体选取10份非肿瘤细胞系的数据作为正常对照样本数据，选取10至20份肿瘤细胞系的数据作为肿瘤样本数据；基于敏感性评估结果可评估从样本处理至得到体细胞突变位点过程中每一步处理对敏感性的影响；整个过程包括文库制备、测序、下机数据处理以及突变位点检测。其中下机数据处理又包括测序数据过滤、数据比对、重复读段标记、碱基质量分数重校准等；可评估的条件包括文库制备方法、测序平台、数据处理和突变检测过程中使用的软件及参数等。

本领域技术人员可以理解，本申请评估肿瘤基因组测序数据分析结果质量的方法，其全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当本申请评估肿瘤基因组测序数据分析结果质量的方法的全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现本申请的方法。例如，将程序存储在设备的存储器中，通过处理器执行存储器中的程序，即可实现本申请评估方法的全部或部分功能。另外，当本申请评估肿瘤基因组测序数据分析结果质量的方法的全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，然后再通过处理器执行存储器中的程序，实现本申请评估方法的全部或部分功能。

因此，本申请提供了一种评估肿瘤基因组测序数据分析结果质量的装置，如图2所示，包括下机数据分析模块21、下机数据拆分模块22、金标准突变集提取模块23、特异性评估模块24和敏感性评估模块25。

需要说明的是，本申请的装置中，各模块主要是用于执行本申请评估肿瘤基因组测序数据分析结果质量的方法的下机数据分析步骤14、下机数据拆分步骤15、金标准突变集提取步骤16、特异性评估步骤17和敏感性评估步骤18；因为，细胞系样本准备步骤11、细胞系基因组DNA的提取和检测步骤12、文库的制备与测序步骤13都可以是预先准备或完成的，直接将最终获得的下机测序数据输送到本申请的装置中即可；因此，本申请的装置不对细胞系样本准备步骤11、细胞系基因组DNA的提取和检测步骤12和文库的制备与测序步骤13这三个步骤进行限定。

下机数据分析模块21，包括用于对至少两种细胞系的下机测序数据进行突变检测分析，每种细胞系至少设置两个平行样本；其中，突变检测分析包括分析每个细胞系各平行样本的点突变、插入/缺失突变、染色体结构变异和拷贝数变异；然后，将同一细胞系的所有平行样本检出的突变交集作为真实突变集。

下机数据拆分模块22，包括用于将下机测序数据拆分成多份读段数目相等的数据，如一个样本包含多个序列条形码或者在多条lane上进行测序，则将一个样本的所有数据合并后再进行拆分。

金标准突变集提取模块23，包括用于从真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点，和/或非肿瘤细胞系中的纯合非突变位点，作为金标准突变集。

特异性评估模块24，包括用于在同一细胞系的同一样本中，随机选取若干份数据作为正常对照样本数据，再随机取若干份数据作为肿瘤样本数据，进行体细胞突变的检测，所有被检测出的突变位点都是假阳性位点，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性。

敏感性评估模块25，包括用于从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据，从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据，将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本，对混合样本进行体细胞突变检测，将检测结果与金标准突变集进行对比，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性。

本申请评估肿瘤基因组测序数据分析结果质量的方法，其全部或部分功能可以通过计算机程序的方式实现，因此，本申请的一种实现方式中，提供了一种评估肿瘤基因组测序数据分析结果质量的装置，该装置包括存储器和处理器；存储器用于存储程序；处理器，包括用于通过执行存储器存储的程序实现以下方法：下机数据分析步骤，包括对至少两种细胞系的下机测序数据进行突变检测分析，每种细胞系至少设置两个平行样本；其中，突变检测分析包括分析每个细胞系各平行样本的点突变、插入/缺失突变、染色体结构变异和拷贝数变异；然后，将同一细胞系的所有平行样本检出的突变交集作为真实突变集；下机数据拆分步骤，包括将下机测序数据拆分成多份读段数目相等的数据，如一个样本包含多个序列条形码或者在多条lane上进行测序，则将一个样本的所有数据合并后再进行拆分；金标准突变集提取步骤，包括从真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点，和/或非肿瘤细胞系中的纯合非突变位点，作为金标准突变集；特异性评估步骤，包括在同一细胞系的同一样本中，随机选取若干份数据作为正常对照样本数据，再随机取若干份数据作为肿瘤样本数据，进行体细胞突变的检测，所有被检测出的突变位点都是假阳性位点，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性；以及敏感性评估步骤，包括从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据，从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据，将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本，对混合样本进行体细胞突变检测，将检测结果与金标准突变集进行对比，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性。

此外，本申请还提供了一种计算机可读存储介质，包括程序，该程序能够被处理器执行实现以下方法：下机数据分析步骤，包括对至少两种细胞系的下机测序数据进行突变检测分析，每种细胞系至少设置两个平行样本；其中，突变检测分析包括分析每个细胞系各平行样本的点突变、插入/缺失突变、染色体结构变异和拷贝数变异；然后，将同一细胞系的所有平行样本检出的突变交集作为真实突变集；下机数据拆分步骤，包括将下机测序数据拆分成多份读段数目相等的数据，如一个样本包含多个序列条形码或者在多条lane上进行测序，则将一个样本的所有数据合并后再进行拆分；金标准突变集提取步骤，包括从真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点，和/或非肿瘤细胞系中的纯合非突变位点，作为金标准突变集；特异性评估步骤，包括在同一细胞系的同一样本中，随机选取若干份数据作为正常对照样本数据，再随机取若干份数据作为肿瘤样本数据，进行体细胞突变的检测，所有被检测出的突变位点都是假阳性位点，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性；以及敏感性评估步骤，包括从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据，从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据，将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本，对混合样本进行体细胞突变检测，将检测结果与金标准突变集进行对比，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性。

下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例

本例采用足量的炎黄细胞系和慢性髓性白血病细胞系K562构建的数据集，对肿瘤基因组数据分析进行评估，具体如下：

1、细胞系样本的准备和细胞系基因组DNA的提取

1)炎黄细胞系：深圳大鹏国家基因库细胞资源库提供培养至活性状态较好的第41代炎黄细胞系(缩写YH-P41)约10⁸个细胞，该细胞系采用QIAGEN DNA MiNi kit提取基因组DNA并进行琼脂糖凝胶电泳检测和定量，共得到23管完整性较好的炎黄细胞系基因组DNA(缩写YH-P41-gDNA)，总量约147μg。

2)慢性髓性白血病细胞系K562：深圳大鹏国家基因库细胞与发育实验室提供的细胞系，经深圳大鹏国家基因库细胞资源库培养至活性较好的第六代约10⁸个细胞(缩写K562-P6)，该细胞系采用QIAGEN DNA MiNi kit提取基因组DNA并进行琼脂糖凝胶电泳检测和定量，共得到20管完整性较好慢性髓性白血病细胞系K562基因组DNA(缩写K562-P6-gDNA)，总量约198μg。

炎黄细胞系提取的基因组DNA的电泳结果如图3所示，图中，第一泳道和最后一个泳道为DNA marker，由上到下的条带依序代表10000bp、8000bp、7000bp、6000bp、5000bp、4000bp、3000bp、2000bp、1000bp，编号为1至23的泳道依序为炎黄细胞系的23管基因组DNA，结果显示，23管基因组DNA的完整性都较好。各管基因组DNA的具体浓度和DNA量如表1所示。

慢性髓性白血病细胞系提取的基因组DNA的电泳结果如图4所示，图中，第一泳道为DNA marker，由上到下的条带依序代表10000bp、8000bp、7000bp、6000bp、5000bp、4000bp、3000bp、2000bp、1000bp，编号为1至20的泳道依序为慢性髓性白血病细胞系的20管基因组DNA，结果显示，20管基因组DNA的完整性都较好。各管基因组DNA的具体浓度和DNA量如表2所示。

表1炎黄细胞系提取的基因组DNA浓度测定结果

表2慢性髓性白血病细胞系提取的基因组DNA浓度测定结果

2、文库的制备与测序

1)炎黄细胞系和慢性髓性白血病细胞系K562的WGS文库的构建和测序：YH-P41-gDNA和K562-P6-gDNA均采用1μg起始，物理打断法、Ad153接头以及新的barcode分别平行构建2个WGS文库，共得到4个WGS文库，每个文库基于BGISEQ-500平台，采用V3测序试剂，测序PE100+10，1条lane，共计4条lane，每个样本测序深度约40×。

2)炎黄细胞系和慢性髓性白血病细胞系K562的WES文库的构建和测序：YH-P41-gDNA和K562-P6-gDNA均采用1μg起始，物理打断法、Ad153接头以及新的barcode分别平行构建2份WES杂交前的prePCR产物，共得到4份prePCR产物。该4份prePCR产物pooling杂交一张BGI全外显子芯片(即V4)，共得到1个WES文库，该WES文库基于BGISEQ-500平台，采用V3测序试剂，测序PE100+10，1条lane，每个样本的测序深度约200×。

3)炎黄细胞系和慢性髓性白血病细胞系K562的TDS文库的构建和测序：YH-P41-gDNA和K562-P6-gDNA均采用1μg起始，物理打断法、Ad153接头以及新的barcode分别平行构建2份panel杂交前的prePCR产物，共得到4份prePCR产物。该4份prePCR产物pooling杂交一张panel芯片，共得到1个TDS文库，该TDS文库基于BGISEQ-500平台，采用V3测序试剂，测序PE100+10，1条lane，每个样本的测序深度约3000×。

3、数据分析

1)检测每个炎黄细胞系和慢性髓性白血病细胞系样本的点突变、插入/缺失、染色体结构变异、拷贝数变异，同一细胞系样本两个平行文库检出的突变交集作为true set，即真实突变集。

4、评估方案

本例以WES测序数据为例进行说明，其它文库的下机测序数据评估方案类同，具体如下：

1)将下机数据拆成多份读段数目相等的数据，如一个样本包含多个序列条形码或者在多条lane上进行了测序，将一个样本的所有数据合并后再进行拆分。拆分方式：WES每份10M读段(深度约20×)。最终获得YH-P41的WES测序数据33份，以及K562-P6的WES测序数据36份。

2)利用细胞系数据模拟配对的正常-肿瘤样本数据进行特异性评估：随机取YH-P41的10份数据作为正常对照样本数据，以及20份数据作为肿瘤样本数据。分别用Mutect、GATK4-Mutect2(G4M2)和加速版GATK4-Mutect2(ACC_G4M2)进行体细胞突变的检测，所有检测出来的突变位点都是假阳性位点，基于该结果评估三种检测工具的特异性。

检测结果显示，Mutect、G4M2和ACC_G4M2分别检出86、43和43个假阳性位点，说明Mutect特异性最低，G4M2和ACC_G4M2特异性相当。

3)通过不同比例混合不同细胞系数据进行敏感性评估：

a)指定金标准突变集：YH-P41中为纯和非突变位点，在K562-P6中为纯和或杂合突变的位点作为金标准突变集，最终共包含12902个突变位点。

b)随机取若干份YH-P41数据作为正常对照样本数据，随机取若干份K562-P6数据作为肿瘤样本数据，将正常对照样本数据和K562-P6数据按照50％、35％和20％的比例分别进行混样；具体的，10份YH-P41随机数据与10份K562-P6随机数据混合得到百分比为50％的混合样本；13份YH-P41随机数据与7份K562-P6随机数据混合得到百分比为35％的混合样本；16份YH-P41随机数据与4份K562-P6随机数据混合得到百分比为20％的混合样本。利用Mutect、G4M2和ACC_G4M2对三种混合样本进行体细胞突变的检测，将检测结果和金标准突变集进行对比，从而评估三种检测工具的敏感性，检测结果如表3所示。

表3三种检测工具的敏感性检测结果

表3中，敏感性是混合样本中检出的真阳性位点数与步骤“a)指定金标准突变集”中金标准突变集的位点数的比值，其中金标准突变集的位点数即12902。表3的结果显示，Mutect对于不同突变频率的突变位点检测的敏感性都最高。

以上试验说明，本例的方法能够对肿瘤基因组测序数据分析结果质量进行评估，并且根据特异性和敏感性的评估结果，可以对相应的分析软件进行筛选或优化。当然，可以理解，在本例的基础上，还可以进一步对其他因素进行评估，进而对其进行筛选或优化；这些其他因素包括从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置等。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种评估肿瘤基因组测序数据分析结果质量的方法，其特征在于：包括以下步骤，

下机数据分析步骤，包括采用至少两种细胞系的下机测序数据进行突变检测分析，每种细胞系至少设置两个平行样本；其中，突变检测分析包括分析每个细胞系各平行样本的点突变、插入/缺失突变、染色体结构变异和拷贝数变异；然后，将同一细胞系的所有平行样本检出的突变交集作为真实突变集；

下机数据拆分步骤，包括将所述下机测序数据拆分成多份读段数目相等的数据，如果一个样本包含多个序列条形码或者在多条lane上进行测序，则将一个样本的所有数据合并后再进行拆分；

金标准突变集提取步骤，包括从真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点，和/或非肿瘤细胞系中的纯合非突变位点，作为金标准突变集；

特异性评估步骤，包括在同一细胞系的同一样本中，随机选取若干份数据作为正常对照样本数据，再随机取若干份数据作为肿瘤样本数据，进行体细胞突变的检测，所有被检测出的突变位点都是假阳性位点，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性；

敏感性评估步骤，包括从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据，从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据，将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本，对混合样本进行体细胞突变检测，将检测结果与金标准突变集进行对比，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性。

2.根据权利要求1所述的方法，其特征在于：所述下机测序数据为全基因组文库、全外显子文库或靶向深度文库的测序数据。

3.根据权利要求2所述的方法，其特征在于：对于全基因组文库的下机测序数据，在拆分成多份读段数目相等的数据时，每份数据的读段数目为50M；

对于全外显子文库的下机测序数据，在拆分成多份读段数目相等的数据时，每份数据的读段数目为10M；

对于靶向深度文库的下机测序数据，在拆分成多份读段数目相等的数据时，每份数据的读段数目为10M。

4.根据权利要求1所述的方法，其特征在于：所述至少两种细胞系中，各细胞系的所有样本都是培养至同代的细胞，即每种细胞系中的该细胞系的所有样本细胞的培养代数相同。

5.一种评估肿瘤基因组测序数据分析结果质量的装置，其特征在于：包括下机数据分析模块、下机数据拆分模块、金标准突变集提取模块、特异性评估模块和敏感性评估模块；

所述下机数据分析模块，包括用于对至少两种细胞系的下机测序数据进行突变检测分析，每种细胞系至少设置两个平行样本；其中，突变检测分析包括分析每个细胞系各平行样本的点突变、插入/缺失突变、染色体结构变异和拷贝数变异；然后，将同一细胞系的所有平行样本检出的突变交集作为真实突变集；

所述下机数据拆分模块，包括用于将所述下机测序数据拆分成多份读段数目相等的数据，如一个样本包含多个序列条形码或者在多条lane上进行测序，则将一个样本的所有数据合并后再进行拆分；

所述金标准突变集提取模块，包括用于从所述真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点，和/或非肿瘤细胞系中的纯合非突变位点，作为金标准突变集；

所述特异性评估模块，包括用于在同一细胞系的同一样本中，随机选取若干份数据作为正常对照样本数据，再随机取若干份数据作为肿瘤样本数据，进行体细胞突变的检测，所有被检测出的突变位点都是假阳性位点，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性；

所述敏感性评估模块，包括用于从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据，从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据，将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本，对混合样本进行体细胞突变检测，将检测结果与金标准突变集进行对比，以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性。

6.根据权利要求5所述的装置，其特征在于：所述下机测序数据为全基因组文库、全外显子文库或靶向深度文库的测序数据。

7.根据权利要求5所述的装置，其特征在于：所述下机数据拆分模块中，将全基因组文库的下机测序数据拆分成50M读段每份数据；将全外显子文库的下机测序数据拆分成10M读段每份数据；将靶向深度文库的下机测序数据拆分成10M读段每份数据。

8.根据权利要求5所述的装置，其特征在于：所述至少两种细胞系的所有样本都是培养至同代的细胞系细胞，即每种细胞系的培养代数相同。

9.一种评估肿瘤基因组测序数据分析结果质量的装置，其特征在于：所述装置包括存储器和处理器；

所述存储器，包括用于存储程序；

所述处理器，包括用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于：包括程序，所述程序能够被处理器执行以实现权利要求1-4任一项所述的方法。