CN104106072A

CN104106072A - 使用全基因组序列的生物细胞评估以及使用所述全基因组序列的肿瘤学治疗规划

Info

Publication number: CN104106072A
Application number: CN201280069231.7A
Authority: CN
Inventors: B·查克拉巴蒂; R·辛格; S·库马尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-12-08
Filing date: 2012-11-29
Publication date: 2014-10-15
Also published as: EP2602733A2; JP2015506024A; WO2013084117A1; EP2602733A3; RU2014127715A; JP6122865B2; US20140330162A1; EP2836948A1; BR112014013444A2

Abstract

一种癌症测试，包括：处理从对象(6)采集的可疑组织样本(10)，以生成可疑全基因组序列(WGS)(20)；处理从所述对象采集的正常组织样本(12)，以生成正常WGS(22)；计算将所述可疑WGS与所述正常WGS进行比较的WGS比较度量；以及基于计算出的所述WGS比较度量来识别所述可疑组织样本是否包括癌症组织。一种肿瘤勾勒方法，包括：在肿瘤(100)中或肿瘤附近采集来自对象(6)的多个检验组织样本(104)；记录所述检验组织样本的采样位置；基于所述检验组织样本的基因测试将对应于癌症的每个检验组织样本进行分类；以及，基于所述检验组织样本的所述分类和所记录的采样位置来勾勒所述肿瘤的边界(110)。

Description

使用全基因组序列的生物细胞评估以及使用所述全基因组序列的肿瘤学治疗规划

技术领域

以下涉及医疗领域、肿瘤学领域、基因组领域以及有关领域。具体参考肿瘤学的肿瘤勾勒应用描述了本发明；然而，以下更普遍地可应用于医学或兽医的研究和开发、筛选、诊断、转移的临床监测或其他状况、介入规划以及针对肿瘤学状况和其他不利状况的其他医学或兽医的应用。

背景技术

当正常的身体细胞突变或以其他方式转变成以不受控制的方式分裂并且繁殖的癌细胞时，出现癌症。在一些癌症中，癌细胞至少初始时保持受位置限制，以便形成恶性肿瘤，其常常利用微渗透侵入周围的组织。此时，有时能够通过移除肿瘤来处置癌症；然而，这样的移除应当是完全的，否则剩余的癌细胞能够继续繁殖并且导致癌症的复发。除了手术移除之外，还可以应用辅助治疗和/或新辅助治疗，诸如，辐射治疗、化学治疗等，这可以解决恶性组织移除的任何不完全性。当癌症变得不受位置限制并且通过血流或通过淋巴系统扩散到身体的大部分时，它就发生了转移。通常通过给予药物(化学治疗)或以辐射性植入物形式的辐射(近距离放射治疗)或者直接施加电离辐射(辐射治疗)来处置转移癌症。也可以在转移之前使用这些技术，在手术移除恶性肿瘤禁忌的情况下替代手术肿瘤移除，或者作为手术肿瘤移除的补充，以剔除肿瘤移除之后剩余的任何癌细胞。

用于癌症识别的已知工具是基因分析。通常，这必需执行基因分型，以识别可疑细胞是否包括临床研究中已表明与癌症的类型相关的具体基因变异体或变异体的组合。正在进行的肿瘤学研究在持续扩展这样的基因签名的数据库，以识别癌症的各种类型。

这些基因途径的有效性根据如下条件而定：对于调查中的对象(例如，人类肿瘤学患者或兽医肿瘤学对象)的具体癌症状况，存在已知的基因签名。可能并非始终都是这种情况。实际与癌症有关的一些变异体可以是新的(例如，对具体对象具有特异性，并且在患有该癌症的患者池中通常不被观察到)，或者可以具有群体特异性(例如，对具体种族、性别、地理区域等具有特异性)。

尽管在肿瘤学文献中识别的变异体-癌症相关性的数量一直在扩展，在原则上，这应当会提高用于癌症诊断的基因分析的有效性，但是在实践上有局限性。采用新公布的变异体以进行临床诊断和监测能够由于验证的忧虑和/或由于政府监管滞后而被推迟。此外，由于必须采集和测试越来越多的变异体，越大的变异体数据库转化为越长的处理时间。使用先进的测序技术通过采集全基因组序列(WGS)能够减少采集延迟。然而，通过WGS采集没有减少下游处理延迟。

此外，变异体数据库不能够涵盖发生在癌症池中太小以至于在临床研究中统计上不可检测的部分中的唯一(或接近唯一)的变异体。较大的变异体数据库还增大了引起歧义或不可调和的数据的可能性，诸如研究对具体变异体与具体癌症之间的相关性(或缺乏相关性)得出矛盾的结论。在这种情况下，现有的基因分析不太可能得出临床上有用的结果。

下文预期了克服前述局限性和其他局限性的改进的装置和方法。

发明内容

根据一个方面，一种方法包括：处理从对象采集的可疑组织样本，以生成可疑全基因组序列；处理从对象采集的正常组织样本，以生成正常全基因组序列；计算对可疑全基因组序列与正常全基因组序列进行比较的全基因组序列比较度量(comparison metric)；以及，基于计算出的全基因组序列比较度量来识别可疑组织样本是否包括癌症组织。

根据另一方面，一种存储指令的非暂态存储介质，所述指令可由电子数据处理设备执行，以执行在前一段中阐述的方法。根据另一方面，一种装置包括电子数据处理设备，所述电子数据处理设备被配置为执行在前一段中阐述的方法。根据另一方面，前一段中阐述的方法还包括：在肿瘤中或肿瘤附近的多个采样位置处采集来自对象的组织样本；记录采样位置；针对每个组织样本执行处理、计算和识别；以及，基于所述识别和所记录的采样位置来勾勒肿瘤的边界。

根据另一方面，一种方法包括：基于组织样本的基因测试对在对应于癌症的肿瘤中或肿瘤附近的采样位置处从对象采集的组织样本进行分类；以及，基于分类和对样本被采集的采样位置的了解来勾勒肿瘤的边界。

根据另一方面，一种方法包括：在肿瘤中或肿瘤附近从对象采集多个检验组织样本；记录检验组织样本的采样位置；基于检验组织样本的基因测试将对应于癌症的每个检验组织样本进行分类；以及，基于检验组织样本的分类和所记录的采样位置来勾勒肿瘤的边界。

一个优点在于提供了基于具有足够快的用于时间要求苛刻的临床应用(诸如，为介入肿瘤学过程做准备的肿瘤勾勒)的WGS数据的癌细胞识别。

另一优点在于提供了基于不依赖于调用特异性癌症相关变异体的WGS的癌细胞识别。

另一优点在于提供了不限于具有已识别的相关基因变异体的特异性已知癌症类型的广泛基础的癌细胞识别。

另一优点在于提供了不依靠表现出有区别的形态或染色特征的癌细胞的肿瘤勾勒。

在阅读以下的详细描述之后，对于本领域的普通技术人员而言，众多额外的优点和益处将变得显而易见。

附图说明

本发明可以采用各种部件和部件的布置，以及各种处理操作和处理操作的布置的形式。附图仅仅用于图示优选实施例的目的，并且不应被解读为对本发明的限制。

图1图解地示出了样本提取实验室和基因组实验室，其被适当地配置为如本文公开的基于全基因组序列(WGS)信息来执行癌细胞识别。

图2-图5图解地示出了WGS比较度量计算和使用所述WGS比较度量计算的癌细胞识别方法学的各种实施例。

图6图解地示出了如本文公开的用于介入过程规划的在肿瘤中或肿瘤附近的采样位置处的来自对象的检验组织样本的采集。

具体实施方式

现有的基因分析将可观察到的基因变异体与癌症的特异性类型相关联。这种途径假设癌症落在明确定义的类型中，并且给定类型的癌症能够通过患有该类型癌症的患者(或在兽医背景中的兽医对象)共有的相关基因变异体来表征。

然而，本文认识到，在很多情况下可能不会满足这些假设。例如，在雌激素受体-阳性乳腺癌和雌激素受体-阴性乳腺癌二者的报道研究已经表明，在来自具有相同乳腺癌组织病理学表型(肿瘤间异质性)的不同患者的癌症基因组之间实际观察到了实质的复杂性和异质性。参见Shah等人的“Mutational evolution in a lobular breast tumour profiled at single nucleotideresolution”，Nature vol.461，第809-813页(2009)；Stephens等人的“Complexlandscapes of somatic rearrangement in human breast cancer genomes”，Naturevol.462，第1005-1010页(2009)；以及Ding等人的“Genome remodelling ina basal-like breast cancer metastasis and xenograft”，Nature vol.464，第999-1005页(2010)。例如，由Stephens等人识别的新融合基因没有超过一次地存在于被研究的二十四种癌症中的任一种中，并且选择用于追踪的三个被表达的框内融合基因不存在于如Shah等人报道研究的额外的288例乳腺癌中。另一研究已经描述了在个体乳腺肿瘤之内的实质的异质性(肿瘤内异质性)，其中已经识别了多个肿瘤亚群，每个肿瘤亚群都具有有区别的基因组谱(genomic profile)。参见Navin等人的“Inferring tumor progressionfrom genomic heterogeneity”，Genome Res.Vol.20，第68-80页(2010)。

此外，已知在群体之间能够发生变异体-癌症相关性的差异，使得文献中针对具体群体报道的基因组签名(例如突变、单核甘酸多态性(即，SNP)、插入或缺失(即，indels)等)可能不适于用在另一群体中。例如，在被标记为疾病突变的序列变异体的一项研究中，发现74％的被研究的变异体是多态性的。再进一步，即使在文献中引用突变为与某种类型的癌症相关，但这并不保证其的确是致病突变。实际上，发现27％被引用的疾病突变可能是多态性的或者在相同的研究中被错误注释。

实际上，针对致癌作用的常规模型(即，个体的相对离散的基因突变逐渐积累，使正常细胞转变成癌细胞)已经受到挑战。例如，近来针对致癌作用的一些实例而开发的模型是染色体碎裂(chromothripsis)。在该模型中，染色体经历大规模的碎裂，接着是不准确的重新组装。Stephens等人的“Massive Genomic Rearrangement Acquired in a Single Catastrophic Eventduring Cancer Development”，Cell vol.144，no.1，第27-40页(2011年1月)。染色体碎裂模型不预测具体类型的癌症可能与相关离散基因变异体相关联。另一变得普及的模型假定司机和乘客突变。该模型基于如下观察发现：很多癌症基因组充斥着突变。在该模型中，这些突变的绝大多数可能是乘客，亦即，对癌症的发展没有贡献，而是在癌症生长期间已经发生的突变。参见http://www.news-medical.net/news/20100219/Cancer-genomes-Distinguishing-between-driver-and-passenger-mutations.aspx(最后访问于2011年10月27日)。根据该模型，生物学数据库中的大多数突变将是乘客突变。

本文公开的癌症识别技术减少或消除了对基于文献的癌症相关的基因变异体的依赖。公开的技术不依赖于不论致癌作用机制如何而预计对所有癌症都有效的首要原则考虑。公开的技术还利用了由一些现有的市售可用的基因组测序仪或测序服务提供的全基因组序列(WGS)的可用性(例如，合适的测序仪或测序服务是从San Diego，CA，USA；Cambridge，MA，USA；Roche 454(从Roche，Basel，Switzerland可获得)；以及Ion Torrent，Guilford，Connecticut，USA可获得的)。

本文公开的技术的前提为以下观察发现：所有的癌症都与基因组的异常变化相关联。不论致癌作用的具体机制如何，并且不论癌症的具体类型如何，这都是正确的。基于该观察发现，公开的技术依赖于来自相同个体的可疑细胞的WGS与正常细胞的WGS的比较。如果可疑细胞确实是癌细胞，则其WGS与来自相同个体的正常细胞的WGS之间的差异预计大于来自相同个体的两个不同正常细胞的WGS之间的差异。于是，通过将从对象(例如，人类医学对象，或兽医对象)获取的可疑组织样本的WGS与从相同对象获取的正常组织样本的WGS进行比较，易于评估可疑组织样本实际包括癌症组织的可能性。采用正常组织的WGS作为过滤器，以移除基因组与癌症无关的部分，仅留下能够检验可疑组织是否实际是癌症组织的特定变异体。

这种途径具有明显的优点。它大量减少了将良性(即，不是癌症有关的)变异体误解为癌症签名的可能性，因为通过与相同对象的正常WGS比较，将会过滤掉这样的良性变异体。另一方面，使用公开的途径易于检测出通过与来自文献的变异体-癌症相关性的比较不会检测出的特定的癌症有关的变异体。

公开的途径确定可疑组织样本是否包括癌症；然而，它并不识别是哪种类型的癌症。技术人员可以将此视为针对癌症诊断和监测的明显的缺点。然而，本文认识到，该潜在觉察到的缺点不像一开始可能想得那样明显。首先，由于公开的途径不依赖于基因材料与变异体的参考数据库的详尽的比较，因此它们比常规的基于变异体的癌症识别明显更快。于是，它们能够用于初始癌症筛选(在公开的途径指示有癌症可能的情况下，以常规的基于变异体的癌症识别的形式进行追踪)。公开的途径在癌症监测中也是有用的，因为在那种情况下，癌症的类型(通常)是已经知道的，并且正在寻找的信息是癌症的进展。如本文进一步公开的，公开的途径的速度甚至使它们成为用于在规划介入流程(诸如，手术移除或辐射治疗)期间勾勒肿瘤的切实可行的技术。

参考图1，由基因组实验室4适当地执行公开的癌症测试技术，所述实验室4在从样本提取实验室8中患者6提取的一个或多个组织样本上执行公开的癌症测试。应当认识到，实验室4、8可以具有各种关系。例如，在一些实施例中，两个实验室4、8是相同的实验室，例如，也执行其自己的组织采样的内部基因组实验室。在其他实施例中，两个实验室4、8可以是位于相同的医院或其他公共医疗设施处的不同的内部实验室。在其他实施例中，两个实验室4、8可以在组织上和/或地理上是不同的。例如，采样实验室8可以是位于医院的内部实验室，而基因组实验室4可以是商业服务提供者，所述商业服务提供者经由邮件或其他递送路径来接收经提取的组织样本，并且经由互联网或另一电子通信路径向医院传送回测试结果。

在这些实施例中的任一实施例中，采样实验室8提取来自对象6的至少两个组织样本，即，“可疑”组织样本10和“正常”组织样本12。可疑组织样本10是从对象6被怀疑包括癌症组织的位置或区域采集的组织样本。例如，可以从怀疑或已知是恶性的肿瘤(应当理解，本文使用的“怀疑”涵盖“已知”)，或从怀疑患有肺癌的肺，或从已知或怀疑是恶性的乳腺癌病灶等等采集可疑组织样本10。正常组织样本12是从相同的对象6采集的，但是从对象6的有效确保正常组织样本12不包括癌症组织的区域或位置采集。可以基于各种类型的信息，识别可以提取正常组织样本12的这种“正常”区域。例如，对还没有(尚未)转移的恶性肿瘤而言，能够从足够远离肿瘤的相同类型的组织的位置处安全地取出正常组织样本12，所述肿瘤不太可能包含不可忽略的数量的癌细胞。对转移性癌症而言，可以从不太可能包含不可忽略的数量的转移的癌细胞的类型的组织中取出正常组织样本12。例如，如果癌症不太可能已经扩散到口腔组织，则正常组织样本12可以是口腔样本。通常，可疑组织样本10和正常组织样本12可以是或不是相同的组织类型。

应当注意，在图示的图1中，由小瓶表示样本10、12；然而，应当理解，样本10、12通常可以采用适合用于已经被采样的组织类型的任何形式，并且可以由针对该组织类型的任何适当的容器或支持器来包含或支持。例如，样本10、12可以是使用皮下注射针或其他液体收集装置采集的液体样本(例如，血液)、表面样本(例如，通过口腔棉签获得并且被设置在无菌玻片或其他适当表面上)、使用活检针或其他介入器械采集的活检样本，等等。(如附图中旁边所示，为了实现视觉增强，使用虚线绘制正常组织样本12和仅利用该正常组织样本12的处理。)再进一步，尽管图示的可疑组织样本10被表示为单个样本，并且图示的正常组织样本12被表示为单个样本，应当理解，两个样本之一或两者实际上可以包括两个或更多样本的集合，对其结果取平均值被或以其他方式组合。

组织样本10、12被从采样实验室8运送到基因组实验室4(除非实验室4、8是相同的物理机构)。在基因组实验室4处，使用基因测序设备14适当地制备并且处理每个样本10、12，以生成分别对应于可疑组织样本10和正常组织样本12的可疑全基因组序列(可疑WGS)20和正常全基因组序列(正常WGS)22。基因测序装置14基本上能够采用能够生成全基因组序列(WGS)的任何测序仪。从San Diego，CA，USA；Cambridge，MA，USA；Roche 454(从Roche，Basel，Switzerland可获得)；以及，Ion Torrent，Guilford，Connecticut，USA可获得一些适当的测序装置。

如本文使用的，“全基因组序列”或WGS(在本领域中也被称为“完整”、“全部”或“整个”基因组序列)，或类似的措辞要被理解为涵盖对象的基本的但未必全部的基因组。在本领域中，使用术语“全基因组序列”或WGS用于指代对象的接近全部的基因组，诸如在一些用法中至少95％的全部。本文使用的术语“全基因组序列”或WGS不涵盖针对基因特异性技术(诸如单核苷酸多态性(SNP)基因分型)采用的“序列”，对于所述单核苷酸多态性(SNP)基因分型，通常不到0.1％的基因组被覆盖。本文使用的术语“全基因组序列”或WGS不要求基因组与任何参考序列比对，并且不要求对变异体或其他特征进行注释。

WGS 10、12由电子数据处理设备24处理，在图示的图1中，所述电子数据处理设备24被示为代表性的计算机24。更一般地，电子数据处理设备24可以是台式计算机、笔记本计算机、电子平板电脑、网络服务器等。此外，尽管图示的计算机24被示为驻留在基因组实验室4的内部，也预期电子数据处理设备位于基因组实验室4的外部，并经由有线或无线局域网和/或经由因特网等与实验室4通信。例如，电子数据处理设备24可以是实验室4经由电子医院网络进行访问的网络服务器。由电子数据处理设备24执行的对WGS 10、12的处理有时被称为计算机处理(in silico processing)。应当认识到，本文公开的各种实施例可以被物理地实施为被编程为或以其他方式被配置为执行公开的计算机处理的电子数据处理设备24。而且，本文公开的各种实施例可以被物理地实施为非暂态存储介质(未示出)，所述非暂态存储介质存储由电子数据处理设备24可执行的指令，以执行公开的计算机处理。例如，这样的非暂态存储介质可以包括硬盘或其他磁存储介质、或光盘或其他光存储介质、或闪速存储器、随机存取存储器(RAM)、只读存储器(ROM)或其他电子存储介质等。

公开的癌症识别测试是基于可疑全基因组序列20与正常全基因组序列22的比较，总的前提是这些WGS 20、22之间的差异越大，可疑WGS 20越可能是癌症组织。对癌细胞而言，基因组的变化变得更加显著，具有大的indels(插入/缺失)、宽的复制数变异体(CNV’s)、染色体畸变和重排以及高度恶性和未分化肿瘤的极端情况下的非整倍体性。同样地，不论致癌作用的机制如何，这都是正确的。这些基因组变化诱发全基因组中显著的更改或误差，导致癌细胞的WGS明显偏离正常细胞的WGS。通常，这是程度的问题。甚至正常细胞的WGS也被预计存在彼此偏离。预计这些偏离基本上对于癌细胞会更大。该前提也能够应用于监测从一个癌症阶段到下一个癌症阶段的癌症进展，因为预计较晚的癌症阶段会表现出对应于正常细胞WGS的更大分化(与较早阶段的癌细胞相比)。实际上，与较早阶段癌细胞的WGS比较，预计较晚阶段癌细胞的WGS在分化方面表现出可量化的增加。有益地，甚至在使可疑组织样本的WGS经历详细分析流水线(例如，包括完全比对/组装、变异体调用和注释以及与文献的变异体-癌症相关性数据库比较)之前能够确定这些变化。

为此目的，操作30计算WGS比较度量，所述WGS比较度量提供可疑全基因组序列20与正常全基因组序列22之间的定量比较。判定操作32确定定量WGS比较度量是否满足癌症标准。根据在判定操作32处做出的判定，可疑组织样本10被分类成正常组织(操作34)或被分类成癌症组织(操作36)。在这点上，判定操作32也能够被视为分类器或分类操作。

应当注意，尽管在图1的图示的分类器32中采用了二元(即，癌症或正常)分类，但更一般地，分类能够采用软分类或随机分类(例如，存在70％的样本10是癌症的可能性)。在该情况下，可以将百分比多方面地解读为样本10包含癌症的概率或样本中包含的癌症的“量”。例如，可疑样本10实际上可以包含一些癌细胞和一些正常细胞。在这种情况下，由分类器32输出的低概率可以指示细胞为癌细胞的低份额。

分类器32不对癌症的类型发表意见，而是仅对可疑样本10是否包括癌症发表意见。可以以各种方式解读和/或利用输出34、36。在图1的图示范例中，由操作30、32、34、36实施的癌症测试用作癌症筛选试验。在本申请中，如果获得了指示可疑组织样本10是正常组织的输出34，则通常不采取进一步动作。另一方面，如果获得指示可能有癌症的输出36，则通常在医生的指导下执行额外的诊断。

在图1的图示范例中，额外的诊断包括执行常规的基因变异体-癌症相关性分析。有益地，该分析能够“重复使用”可疑WGS 20。为此目的，输出36充当调取操作38，所述调取操作38基于操作40、42、44调取基因组比对/组装40、变异体调用42和注释/识别44以及癌症类型的输出46的操作，所述操作40、42、44识别临床研究中已经表明与该类型的癌症相关的基因变异体。在该实施例中，额外的基因测试40、42、44、46既充当癌症测试30、32、34、36的验证，还通过识别癌症的类型来提供额外的信息。

参考图1，已经提供了本文公开的癌症测试技术的概要，参考图2-图5描述了WGS比较度量计算操作30和分类器操作32的一些具体实施例。

参考图2，描述了WGS比较度量计算操作30的第一实施例30₁和分类器操作32的第一实施例32₁。通过单独对所有样本(如果超过一个)进行测序，将可疑WGS 20创建为用于基础质量的相同的覆盖度和相同的阈值，所述基础质量应用于选择针对相等数量的组织样本的读数。每个组织样本的读数被存储在概率数据结构中，如布隆过滤器(Bloom filters)。在操作50中，从可疑WGS 20中移除重复的读数，并且在相似的操作52中，从正常WGS 22移除中重复的读数。预计来自正常细胞的读数不像来自癌细胞的读数那样多的重复，这反映出与正常细胞相比，预计癌细胞有更高数量的插入。因此，在重复读数移除操作50、52中，由适当的度量量化被移除的重复读数的量，诸如，在可疑WGS 20情况下重复的读数的百分比54，以及在正常WGS 22情况下重复的读数的百分比56。基于针对正常样本的百分比56(这里假设存在多个正常组织样本，其中每个正常组织样本均已经被独立测序)，为正常细胞找到阈值。在一些实施例中，尽管基于经测量的重复值56预期更高或更低的值，但是针对正常细胞预计阈值为重复读数的10-15％。在操作58处，计算百分比54、56的比率。可以将高于(比如，超过20％，对应于主要包括重复插入的致癌作用)或低于(比如，小于10％，对应于主要包括缺失的致癌作用)“正常”百分比56的任何截止点与癌症相关联。分类器32₁然后确定操作58中计算的比率是否满足定义的癌症标准，所述癌症标准在本文中由前述的截止值勾勒。

参考图2描述的WGS比较度量计算操作30₁能够充当针对不要求事先比对基因组的癌症的快速计算机筛选测试。有效地实施重复读数检测的一种方式是通过使用布隆过滤器。布隆过滤器包括被初始化为0的位的阵列，以及将测序读数映射到阵列位中的一个的散列函数的集合。为了向布隆过滤器添加读数，由所有的散列函数对读数进行散列化并且设置输出位。为了检查是否已经向布隆过滤器添加了给定读数(亦即，执行查询)，使用相同的处理，除了检查每个输出位，以看其是否是1或0，如果任何被检查的位被设置为0，则已知读数还未(尚未)被添加到布隆过滤器，并且在检查之后合适地添加操作，以向滤波器添加读数。参见“Bloom Filter”,http://en.wikipedia.org/wiki/Bloom_filter(最后访问于2011年9月23日)。

布隆过滤器的属性是其绝不会在读数实际上在布隆过滤器中时错误地指示读数不在布隆过滤器中；然而，当布隆过滤器中没有读数时，存在布隆过滤器指示读数在滤波器中的可能性。Id。如果其他添加操作已经设置应当已经通过添加查询的读数而被设置的所有位，使得即使查询的读数实际未被添加到布隆过滤器，查询返回全部1，会发生这种情况。然而，对于本申请而言，这样的误差不是特别显著，这是因为这将仅仅导致重复读数的数目被高估(由于在第一次检查读数时，在读数不重复时将显示为重复；其后，该读数检查的任何重复将实际是重复，并且将这样被正确地认出)。此外，通过调节阵列中的位的数目和散列函数的数目，能够对布隆过滤器进行精细调谐，以获得需要的准确度和报告花费的时间。

图2的WGS比较度量30₁计算快速，但是不使用来自WGS 20、22的很多信息。

参考图3，描述了WGS比较度量计算操作30的第二实施例30₂和分类器操作32的第二实施例32₂，它们更多地使用了可获得的信息。如在图2的实施例中那样执行操作50，以便从可疑WGS中移除重复读数。在正常WGS侧，在操作60中，读数被键入到布隆过滤器中，以创建表示正常WGS22的读数的布隆过滤器62。如前所述，这具有从正常WGS中移除所有重复的效果。在操作64中，对照布隆过滤器62查询可疑WGS的每个读数，以便确定读数是否是正常WGS 22的一部分。累积特定读数，亦即，对可疑WGS 20而言是特定的并且不包括在正常WGS 22中的读数，作为对可疑WGS而言是特定的读数66的集合。

在执行操作64时，布隆过滤器绝不会在读数实际上在滤波器中时错误地指示读数不在滤波器中的性质确保了，特定读数66的集合不包括作为正常WGS的一部分的任何读数。然而，有可能由于布隆过滤器62能够在读数不在滤波器中时错误地指出读数在滤波器中，通过操作64会错误地过滤掉一些特定读数。由此，能够确信，读数66全部对可疑WGS 20而言是特定的，尽管可能已经丢失了一些特定读数。

特定读数66的集合能够被看作WGS比较度量，或者备选地，能够从集合66导出WGS比较度量。在图3的图示实施例中，从集合66导出WGS比较度量，作为充当分类器32₂的输入的特定读数的量(优选地，由可疑WGS 20中的读数的总数或由经由操作50在移除重复之后的可疑WGS 20中的读数的总数对特定读数的量进行归一化)。另一适当的WGS比较度量是对可疑WGS 20而言特定的读数66的总比对长度与可疑WGS 20的总基因组长度的比率(任选地，在按照操作50移除重复之后)。该WGS比较度量是癌症基因组中经受的总变化的有效度量(假设可疑组织确实是癌症)，并且能够由分类器32₂应用，以取代特定读数量。

备选地，还是如图3所示，作为备选的决策操作32₂₂，能够将特定读数66进行比对并且与已知的癌症变异体比较。在该途径中，在布隆过滤器62中收集正常WGS 22的特定读数(重复已被移除)。如果存在多个正常组织样本，能够按照操作60通过将来自所有样本的所有正常WGS读数键入布隆过滤器62中，在布隆过滤器62中蓄存它们。由此，布隆过滤器62表示读数的“正常集合”。将该“正常集合”与作为可疑WGS 20的特定读数(按照操作50)获得的读数的“癌症集合”进行比较。同样地，如果对多个可疑组织样本进行测序，则能够蓄存来自这些多个样本的读数。(这里，布隆过滤器是不合适的，这是因为不存在从布隆过滤器重新调用读数的方式——仅可能查询给定的读数是否在布隆过滤器中)。也发生在“正常集合”中的“癌症集合”的读数(亦即，与来自多个可疑组织样本(如果提供的话)的读数的蓄存一起的操作50的输出)被丢弃(再次地，这是在操作64中通过对照布隆过滤器62进行查询来实施的)。预计剩余的特定读数66是“原因集合”，这是因为它们包含与癌症特异性关联的变异体。在备选分类器32₂₂中，使这些特定读数66经受重新比对，以便识别单核甘酸多态性(SNP)、Indels(插入或缺失)或其他基因变异体，并且将经识别的变异体与文献中已知的癌症相关的变异体进行比较。在该实施例中，使用WGS比较度量(在该实施例中是特定读数66的实际集合)能够实现显著更快地处理，这是因为大多数基因组没有被比对并搜索检验变异体。相反地，仅有那些不是标准参考序列的部分并且不是经历试验的特异性对象6的正常基因组的变异体的读数66被比对并搜索。

在图3的途径中，仅对特定读数66的集合执行比对。然而，即使执行可疑WGS 20和正常WGS 22的比对，通过采用WGS比较度量也能够实现相当大的效益增益，所述WGS比较度量包括对可疑WGS 20来说特定的变异体集合或是从其计算得到的。

参考图4，在操作70中，将可疑WGS 20与标准参考序列进行比对，以产生具有被标记的变异体的比对可疑WGS 72。类似地，在操作74中，将正常WGS 22与标准参考序列进行比对，以产生具有被标记的变异体的经比对的正常WGS 76。比对70优选是“松散”比对，亦即，以较不严格的方式执行比对，以免拒绝新的变异体作为误差，如果可疑组织样本10实际上是癌症样本，则预计会存在新的变异体。在操作78中，对照经比对的正常WGS 76的变异体过滤经比对的可疑WGS 72的变异体，以识别对可疑WGS 20来说特定的变异体的集合。WGS比较度量包括特定变异体的该集合或是基于特定变异体的该集合来计算的。

在一种途径中，WGS比较度量包括仅在可疑WGS中发现的特定变异体的量(同样地，任选地由经比对的可疑WGS 72中的变异体的总数或由另一归一化因子进行归一化)。在图示的范例中，该WGS比较度量充当到分类器32₃的输入，所述分类器32₃将仅在可疑WGS中发现的特定变异体的量与适当的癌症标准进行比较。通常，可疑WGS 20中的更大数量的特定变异体趋向于暗示癌症，并且因此分类器32₃采用的癌症标准合适地是阈值，超过该阈值，则可疑组织样本20被标记为癌症。

在也被描绘为图4中备选的分类器32₃₃的另一途径中，根据基于文献评估的影响水平对仅在可疑WGS 20中发现的特定变异体进行排序。例如，将致癌基因和肿瘤抑制基因处或附近的畸变评估为具有高度影响，它们增加了端粒的长度。对三等位基因和四等位基因的单核甘酸变异体(SNV)进行适当地制表，以识别暗示局部多个肿瘤细胞群体的模式。

参考图5，描述了WGS比较度量计算操作30的第四实施例30₄。该实施例同样采用比对操作70、74，以生成经比对的可疑WGS和正常WGS 72、76。在该实施例中，在操作80中，将通过比对操作70、74生成的比对统计数据用公式表示为WGS比较度量。预计各种比对统计数据会有效地区分癌症WGS与正常WGS。发明人已经观察到，与正常WGS相比，表1的四个特征在癌症WGS中通常是显著不同的。预期的有效用于辨别这些细胞类型的其他参数包括断开的对末端、未发现的对、对取向等。

继续参考图4和图5并且进一步返回参考图1，值得注意的是，具有被标记的变异体(相对应标准参考基因组)的经比对的可疑WGS 72对应于图1中示出的操作40的输出。因此，如果有条件地根据输出癌症36的结果的测试30、32执行基于变异体的分析40、42、44、46，则能够省略操作40，并且经比对的可疑WGS 72能够被直接输入到操作42。

表1：正常读数和癌症读数中观察到的读数参数

基于WGS数据的公开的癌症测试提供了用于预筛选大规模的WGS的快速评估，所述预筛选是针对可归因于癌症的可能的基因组变化，由此为计算和时间量大的分析流水线提供指导。还预计公开的癌症测试对于癌症进展的量化是有用的。公开的癌症测试实施例有效地测量了由于整个WGS范围上的癌症导致的基因组损伤。这些结果可以快速获得，无需等待详细的特异性基于变异体的基因组分析。能够使用公开的癌症测试选择与正常基因组分析不同的针对癌症的被定义的分析流水线，并且采用有限的计算基础结构。WGS比较度量是对癌症的去分化/恶性水平的适当测量，并且由此是对预测值的适当测量。

在一些实际的癌症诊断应用中，以相同的覆盖度对可疑组织样本和正常组织样本10、12测序，并且使用原始的测序读数来测量癌症基因组的随机性。通过对正常组织样本12执行全基因组测序，从对象6制备用于正常细胞的基线(即，正常)WGS 22，所述正常组织样本12例如可以是白细胞(WBC)、来自口腔的细胞等。从癌细胞测序获得可疑WGS 20。直接比较原始读数并且获得WGS差异度量。

为了检测癌症的进展，从癌症组织和边界的不同区域，并且在疾病的淋巴结进展(可能的情况下)的情况下从牵涉的淋巴结，收集可疑组织样本10。还可以从迁徙的病灶(在可能和适用的情况下)收集可疑组织样本10。从适当的正常组织收集正常组织样本12，诸如，在小细胞肺癌的情况下，正常组织是正常的肺组织，或者在皮肤基底细胞癌/皮肤鳞状细胞癌的情况下，来自皮肤活体组织检查。正常组织样本12充当对照或基线。

本文公开的癌细胞识别途径的另一应用涉及肿瘤勾勒。作为手术肿瘤移除、γ刀手术或辐射治疗的规划处理的一部分，应当准确地勾勒出肿瘤。然而，由于癌细胞与正常体细胞非常接近，并且因此难以区分，因此这种勾勒是困难的。成像技术(诸如计算机断层摄影(CT)或磁共振成像(MRI))无法提供肿瘤与周围的健康组织之间的曲折勾勒，并且由于微渗透等原因，被成像的边界(即使在图像中是良好定义的)不会精确匹配癌细胞的物理分布。也可以采用组织病理学。这里，利用显微镜，可能结合检验染色，提取并检查可疑组织，以便区分和识别癌细胞。组织病理学依赖于癌细胞在适当的染色条件下具有形态上有区别的特性和/或可识别的着色。令人遗憾的是，情况不总是这样。在与正常细胞的区别很细微时，准确的组织病理学评估依赖于技术人员的技能，并且因此易于出现人为误差。实际上，在一些情况下，癌细胞与正常细胞在形态学上会是相同的，这使得组织病理学不起作用。

由公开的癌细胞识别技术提供的快速处理量便于在肿瘤边界勾勒中使用这些技术。

参考图6，使用图像引导的样本收集在肿瘤100中和附近的位置处从对象6收集组织样本，其中介入器械102(诸如活检针等)在成像系统106(图表地示出了其扫描器膛的一部分)的引导下采集组织样本104。为了对基因组DNA/mRNA进行测序，介入器械102适当地为吸气针(对于某些类型的组织病理学这是不够的)。采样能够采用任何适当的采集技术，诸如精细针抽吸活检(对于可到达的肿瘤)、神经系统肿瘤的立体定向活检，等等。成像系统106能够是能够对诸如肿瘤100以及相邻器官或其他关键结构(图6中未示出)的突出特征进行成像的任何模态，诸如计算断层摄影(CT)或磁共振(MR)。在一些实施例中，成像系统106是Brilliance^TM Big Bore^TMCT(从荷兰Eindhoven的Koninklijke Philips Electronics N.V.可获得)，其具有大的膛径，便于执行介入样本采集过程。为了采用本文公开的癌细胞识别技术，还从对象6采集至少一个正常组织样本108。在一些实施例中，可以通过除介入器械102之外的机构(诸如对口腔样本而言是口腔棉签)采集正常组织样本108。出于图示的目的，包括癌症组织的那些样本104被示为实心点，而包括正常组织的那些样本104、108被示为空心点。(当然，这要通过癌细胞测试来确定，除了参考正常样本108的情况之外)。图6中还示出了肿瘤100的实际边界110，其中边界110将正常组织从癌症组织分开。(同样地，要通过对经采集的组织样本104进行癌细胞测试来确定该边界110)。

一旦收集了组织样本，就如本文参考图1-图5公开的那样处理它们(其中，每个样本104对应于可疑组织样本10，并且独立地处理组织样本104，并且一个或多个组织样本108用作正常组织样本12)，以便将每个样本104分类为癌症组织或正常组织。基于这些分类和采集组织样本104的样本位置(这些位置是在组织样本采集期间记录的，例如，使用由成像系统106提供的空间坐标)，在空间上绘制肿瘤100的范围并且确定癌症组织与正常组织之间的边界110。在生成WGS时，在一些实施例中，使用适当技术(诸如外显子组捕获)生成RNA基因组测序(替代或补充DNA测序)。

在一种途径中，如图6所示，从中心到通过成像指示的边界外部沿径向向外，从肿瘤的不同深度收集组织样本104。为了提供多维(例如2D或3D)映射，适当地沿着一对或多对正交的直径(图6中未指示这种多维性)重复这一操作。对来自这些样本的DNA和/或RNA进行提取和测序，以生成针对每个样本104的可疑WGS。

在一些实施例中，使用常规的基因分析提取基因变异体，诸如单核甘酸多态性(SNP)、indels、结构变异体(SV)、复制数变异体(CNV)等，提取表达模式并且对照报告具有对应于肿瘤100的癌症类型的关联性的签名的数据库进行比较。在观察到正常序列模式的点之间画出切除边界110。

然而，通常没有必要识别癌症的类型，这是因为在安排辐射治疗、γ刀手术、手术肿瘤移除等之前通常已知肿瘤100的性质。因此，适当地采用例如如本文参考图1的操作30、32所述的公开的途径，并且所述公开的途径具有比常规变异体分析明显更快的优点。

在变异体途径中，如参考图6描述的，收集组织样本104，并且对于沿径向线(从肿瘤100的中心向外工作)的每个径向相邻对的样本，将两个WGS彼此比较，以识别外部样本的不匹配读数。选择这些外部样本的不匹配读数并且对照参考序列进行比对。预计在向外进展到达一对的外部样本为正常组织样本的点之前比对欠佳，在该点处，比对应当是好的(例如，量化为高于停止阈值的比对百分比)。

在另一变异体途径中，样本收集如参考图6描述的。然而，不是直接DNA测序，而是执行外显子组捕获测序，以生成RNA WGS。预计正常样本的转录组与癌症样本不同，由此能够检测边界110。

在另一变异体途径中，样本收集如图6所示，并且采用了使用成像系统106的图像引导。在该变异体途径中，通过诸如纳米通道测序的测序方法执行转录组的近实时测序，参见http://www.nanoporetech.com/，最后访问于2011年10月27日。任选地，通过参考表达签名的数据库来验证转录组分析。

在另一变异体途径中，如参考图6描述的，在肿瘤100的边界附近执行图像引导的组织样本收集，所述边界通过在肿瘤的已知(平均)微渗透长度的范围之内进行成像来指示，并且超过所述边界明显是正常组织。根据参考图1-图5描述的技术之一，针对包括边界110外部的被识别的第一正常样本的所有样本104，执行快速WGS分析。然后对边界110外部的被识别的第一正常样本执行更加详细或彻底的测序(即“深度测序”)，以验证其确实是正常组织。如果该深度测序指示仍然存在来自恶性组织的一些不可忽略的成分，则该样本被包括在可切除区域中(即，向外扩展边界110以涵盖该样本)。在后一种情况下，任选地利用使用快速WGS分析测试正常的下一个向外样本重复该处理，即使用深度测序检查所述下一个向外样本。

在另一变异体途径中，将来自不同组织样本104的测序读数彼此相减。确定正常组织之内的变化的百分比(例如，使用正常组织样本108)。对于正常组织，一般预计变化大约为1.5-2.5％。预计癌症组织样本会展示出比正常样本更大的变化，由此能够检测到边界110。例如，在一些这样的实施例中，如果在两个组织样本之间读数相似性低于97.5％，则可以将此视为细胞类型的差异，并且可以由此定义边界110。

已经参考优选实施例描述了本发明。显然地，在阅读和理解以上具体实施方式的情况下对于其他人可能想到修改或替代变型。本文意图将本发明解释为包括所有这种修改和替代变型，只要它们落入权利要求及其等价方案的范围之内。

Claims

1.一种方法，包括：

处理从对象(6)采集的可疑组织样本(10)，以生成可疑全基因组序列(20)；

处理从所述对象采集的正常组织样本(12)，以生成正常全基因组序列(22)；

计算(30)将所述可疑全基因组序列与所述正常全基因组序列进行比较的全基因组序列比较度量；以及

基于经计算的全基因组序列比较度量来识别(32)所述可疑组织样本是否包括癌症组织。

2.如权利要求1所述的方法，其中，所述识别(32)不包括识别所述组织样本是否包括任何具体类型的癌症组织。

3.如权利要求1所述的方法，其中，所述识别(32)不包括识别所述可疑全基因组序列中的任何特异性基因变异体。

4.如权利要求1-3中的任一项所述的方法，其中，所述识别(32)包括：

基于所述经计算的全基因组序列比较度量将所述组织样本标记为癌症组织或正常组织。

5.如权利要求1-4中的任一项所述的方法，其中，所述计算(30₁)包括：

计算所述可疑全基因组序列(20)中的重复读数的度量(54)；

计算所述正常全基因组序列(22)中的重复读数的度量(56)；以及

基于所述可疑全基因组序列中的重复读数的所述度量和所述正常全基因组序列中的重复读数的所述度量来计算所述全基因组序列比较度量。

6.如权利要求1-4中的任一项所述的方法，其中，所述计算(30₂)包括：

确定可疑基因组特异性读数的集合(66)，所述可疑基因组特异性读数(i)被包含在所述可疑全基因组序列(20)中，并且(ii)不被包含在所述正常全基因组序列(22)中；

其中，所述全基因组序列比较度量包括可疑基因组特异性读数的所述集合(66)，或基于可疑基因组特异性读数的所述集合(66)来计算所述全基因组序列比较度量。

7.如权利要求1-4中的任一项所述的方法，其中，所述计算(30₃)包括：

通过将所述可疑全基因组序列(20)与参考序列进行比对(70)来识别可疑基因组变异体的集合；

通过将所述正常全基因组序列(22)与所述参考序列进行比对(74)来识别正常基因组变异体的集合；以及

识别(78)变异体的集合，所述变异体(i)被包含在可疑基因组变异体的所述集合中，并且(ii)不被包含在正常基因组变异体的所述集合中。

8.如权利要求1-4中的任一项所述的方法，其中，所述计算(30₄)包括：

将所述可疑全基因组序列(20)与参考序列进行比对(70)；

将所述正常全基因组序列(22)与所述参考序列进行比对(74)；以及

基于用于比对所述可疑全基因组序列的比对统计数据与用于比对所述全基因组序列的比对统计数据的比较来计算所述全基因组序列比较度量(80)。

9.一种存储指令的非暂态存储介质，所述指令可由电子数据处理设备(24)执行以执行如权利要求1-8中的任一项所述的方法。

10.一种装置，包括：

电子数据处理设备(24)，其被配置为执行如权利要求1-8中的任一项所述的方法。

11.如权利要求1-8中的任一项所述的方法，还包括：

在肿瘤(100)中或肿瘤(100)附近的多个采样位置处采集来自所述对象(6)的组织样本(104)；

记录所述采样位置；

针对每个组织样本执行所述处理、计算和识别；以及

基于所述识别和所记录的采样位置来勾勒所述肿瘤的边界(110)。

12.一种方法，包括：

基于所述组织样本的基因测试，将在对应于癌症的肿瘤(100)中或肿瘤(100)附近的采样位置处从对象(6)采集的组织样本(104)进行分类；以及

基于所述分类和对采集所述样本的所述采样位置的了解，勾勒所述肿瘤的边界(110)。

13.如权利要求12所述的方法，其中，所述分类包括：

将所述组织样本(104)的基因内容与所述对象的正常组织(108)的基因内容进行比较，其中，所述分类不包括将所述组织样本(104)的基因内容与临床研究中已经表明与癌症的类型相关的基因变异体进行比较。

14.一种方法，包括：

在肿瘤(100)中或肿瘤(100)附近采集来自对象(6)的多个检验组织样本(104)；

记录所述检验组织样本的所述采样位置；

基于所述检验组织样本的基因测试，将对应于癌症的每个检验组织样本进行分类；以及

基于所述检验组织样本的分类和所记录的采样位置，勾勒所述肿瘤的边界(110)。

15.如权利要求14所述的方法，还包括：

在有效确保所述正常组织样本不包括癌症组织的位置处采集来自所述对象(6)的正常组织样本(108)；

其中，每个检验组织样本(104)的所述分类包括将所述检验组织样本的基因内容与所述正常组织样本的基因内容进行比较。