CN111192634A

CN111192634A - 用于处理基因组数据的方法

Info

Publication number: CN111192634A
Application number: CN202010098891.4A
Authority: CN
Inventors: V·V·马卡帕蒂; N·迪米特罗娃; R·辛格; S·K·亚格兰
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-01-19
Filing date: 2012-01-19
Publication date: 2020-05-22
Also published as: CN103329138A; BR112013018139A2; JP2014508994A; RU2013138422A; BR112013018139A8; WO2012098515A1; EP2666115A1; US20140229495A1; JP6420543B2

Abstract

本发明涉及一种用于处理受试者基因组数据的方法，包括：(a)获得受试者的基因组序列；(b)减小基因组序列信息的复杂性和/或量；以及(c)以可以迅速检索的形式存储步骤(b)的基因组序列信息。本发明还涉及一种方法，其中，通过剪切除与疾病或失调相关的特征数据之外的所述基因组序列信息，或者通过将受试者的基因组序列与包括与疾病或失调相关的特征数据的参考序列比对，来执行降低基因组序列信息的复杂性和/或量的步骤。此外，本发明涉及还涉及这样的方法，其中，包括使用受试者的功能遗传信息，尤其是基因表达数据；以及这样的方法，其中，将信息编码为矩阵并基于马尔可夫链过程对其进行解码和表示。也可以将获得的信息用于诊断、检测、监测或预后疾病和/或用于制备受试者的分子历史。此外，提供了相应的临床决策支持和存储系统，优选形式为电子图片/数据存档及通信系统。

Description

用于处理基因组数据的方法

本申请是2012年1月19日提交的题为“用于处理基因组数据的方法”的中国专利申请201280005927.3的分案申请。

技术领域

本发明涉及一种处理受试者的基因组数据的方法，包括(a)获得受试者的基因组序列；(b)降低基因组序列信息的复杂性和/或量；以及(c)以能够快速检索的形式存储步骤(b)的基因组序列信息。本发明还涉及一种方法，其中，通过剪切除与疾病或失调相关的特征数据之外的基因组序列信息，或通过将受试者的基因组序列与包括与疾病或失调相关的特征数据的参考序列比对，来执行降低基因组序列信息的复杂性和/或量的步骤。此外，本发明涉及还涉及这样的方法，其中，包括利用受试者的功能遗传信息，尤其是基因表达数据；以及涉及这样的方法，其中，基于马尔可夫链过程将信息编码为矩阵并对其进行解码和表达。也可以将获得的信息用于诊断、检测、监测或预后疾病和/或用于制备受试者的分子历史。此外，提供了相应的临床决策支持和存储系统，优选形式为电子图片/数据存档及通信系统。

背景技术

随着新的或者下一代测序技术的引入，获得序列信息的成本以及提供这一信息所需的时间已经急剧下降，并且未来将进一步降低。因而，全基因组测序正在逐渐变为现有的生物化学和遗传测试及化验的经济有效的替代。此外，可以将患者的全基因组序列用于不只一种机能紊乱的分析，还可以将其用于整个疾病基因型组的评估，此外其还允许推断处置前景，因为其同时阐明了所有可能的次级标记(secondary marker)。然而，基因组序列数据极为庞大，需要巨大的存储容量，并且需要高端计算设备对其进行分析。例如，Schuster等人在2010，Nature 463(18)，943-947页，以及Fujimoto等人在2010，Nature Genetics，42，931-936页提供了分别来自非洲和日本个体的猎人-采集人的完整基因组的信息。这些分析提供了关于单核甘酸变异、人类种群之间的种群差异以及等位基因频率的存在的过量的新信息。遇到的基因组差异和相似性对于基因组领域中的基础研究而言可能极为重要。不过，专业人员对它们仅有较小兴趣，专业人员关注的是具体临床问题，并希望能有关于所识别的症状或疑似疾病的集中的信息。在这种背景下，在整个基因组测序轮次期间获得的大多数基因组序列数据将会妨碍专业人员的诊断可能，而不是改善其诊断可能。

于是，需要一种方法，其允许对患者的基因组数据进行节省时间和资源的处理。

发明内容

本发明解决了这种需求并提供了若干手段和方法，其允许减小受试者基因组序列的复杂性和/或量并且以能够快速检索的形式存储它。

以上目标尤其是通过用于处理受试者基因组数据的方法实现的，该方法包括如下步骤：

(a)获得受试者的基因组序列；

(b)减小基因组序列信息的复杂性和/或量；以及

(c)以能够快速检索的形式存储步骤(b)的基因组序列信息。

这种方法提供了如下优点，即基因组信息变得容易并以集中和已处理方式被专业人员或医生访问，即基因组信息可以管理并限于必要的事实，因此允许以节省时间和资源的方式处理极大量的原始序列数据。以能够快速检索的形式存储进一步允许迅速、即时和局部不受限和独立的使用，例如在问题临床环境中、在流动医院中或在患者的床边等。

在本发明的优选实施例中，基因组序列是从受试者的样本获得的。

在另一优选实施例中，要分析的样本是组织、器官、细胞的混合物。样本还可以，或者者可选地，包括组织、器官或细胞的碎片。在另一实施例中，样本可以是组织或器官特异性的样本。特别优选的是来自阴道组织、舌头、胰腺、肝脏、脾脏、卵巢、肌肉、关节组织、神经组织、胃肠组织、肿瘤组织、体液、血液、血清、唾液或尿液的组织活检样本。

在本发明的另一特别优选的实施例中，可以重复获得受试者基因组序列的步骤，例如，在一定时间之后。

在本发明的另一优选实施例中，重复获得受试者的基因组序列可能导致数据增加或变化，其中，优选以能够快速检索的形式存储与先前获得的基因组序列信息相比的增量数据。

在本发明的另一特别优选的实施例中，可以通过剪切所述基因组序列信息来进行减小基因组序列信息复杂性和/或量的步骤。优选对除与疾病或失调相关的特征数据(signature data)之外的基因组序列的所有部分进行这样的剪切或减小步骤。

在本发明的又一特别优选的实施例中，可以通过将受试者的基因组序列与包括与疾病或失调相关的特征数据的参考序列(疾病参考序列)比对来进行减小基因组序列信息复杂性和/或量的步骤。

在本发明的另一特别优选实施例中，所述特征数据是从包括如下项的组中选择的对疾病或失调特异的至少一种变化：错义突变(missense mutation)、无义突变(nonsensemutation)、单核甘酸多态性(single nucleotide polymorphism)(SNP)、拷贝数变化(copynumber variation)(CNV)、剪接变化(splicing variation)、调控序列的变化(variationof regulatory sequence)、小缺失(small deletion)、小插入(small insertion)、小插入缺失(small indel)、总缺失(gross deletion)、总插入(gross insertion)、复杂遗传重排(complex genetic rearrangement)、染色体间重排(inter chromosomalrearrangement)、染色体内重排(intra chromosomal rearrangement)、杂合性缺失(lossof heterozygosity)、重复序列插入(insertion of repeats)和重复序列缺失(deletionof repeats)。

在本发明的又一特别优选实施例中，用于处理受试者基因组数据的方法还包括如下步骤(d)获得受治疗者的功能遗传信息，(e)减小这种信息的复杂性和/或量；以及(f)以能够快速检索的形式存储功能遗传信息。

在本发明的另一特别优选实施例中，所述功能遗传信息包括(i)关于基因表达的信息，优选地是关于一种或多种RNA种类、一种或多种蛋白质种类、受试者的转录组或其部分、受试者的蛋白质组或其部分、或它们的混合物的存在的信息；和/或(ii)甲基化测序信息，优选地是针对每个个体核甘酸(C或A)的甲基化测序信息；和/或(iii)指示活性基因和/或沉默基因的组蛋白标记物的信息，所述信息优选地是H3K4甲基化和/或H3K27甲基化的信息。

在另一优选的实施例中，可以通过剪切所述功能遗传信息来进行减小该信息复杂性和/或量的步骤。优选地对除与疾病或失调相关的特征数据(疾病参考序列)之外的功能遗传信息的所有部分进行这样的剪切或减小步骤。

在本发明的另一优选的实施例中，将基因组信息和/或功能遗传信息的变化编码为矩阵。在另一优的选实施例中，基于马尔可夫链过程对与基因、基因组区域、调控区、启动子、外显子或通路的状态相关的信息进行解码和表示，优选地，所述状态时在疾病或失调的背景下的状态。在特别优选的实施例中，所述表示是视觉表示。

在另一方面中，本发明涉及使用基因组序列信息制备受试者的分子历史。在本发明的优选实施例中，可以使用根据本文上面定义的方法获得和/或存储的功能遗传信息与基因组序列信息的组合来制备受试者的分子历史。

在特别优选的实施例中，通过在定义的时间段内捕获完整基因组的功能方面，调控物组的功能方面，或以下项的调控状态的功能方面：基因组、基因组区域、基因、启动子、内含子、外显子、通路、通路成员或甲基化状态，来生成所述分子历史。

在另一方面中，本发明涉及使用根据本文上面定义的方法获得和/或存储的基因组序列信息对疾病进行诊断、检测、监测或预后。在本发明的优选实施例中，可以使用根据本文上面定义的方法获得和/或存储的功能遗传信息与基因组序列信息的组合来诊断、检测、监测或预后疾病。

在本发明的特别优选的实施例中，在根据本文上面所述的各方法或使用的背景下提到的疾病或失调可以是癌症疾病、肿瘤疾病或赘生物。在本发明的另一特别优选实施例中，所述癌症疾病可以为乳腺癌、卵巢癌或前列腺癌。

在另一方面中，本发明涉及一种临床决策支持和存储系统，包括：输入设备，其用于提供受试者的基因组序列信息；计算机程序产品，其用于使得处理器能够执行本文上面定义的减小基因组序列信息复杂性和/或量的步骤，输出设备，其用于输出受试者的基因组变化、增量基因组改变或基因表达变化模式；以及用于存储所输出的信息的介质。在特定实施例中，该临床决策支持和存储系统可以包括输入设备，其用于提供受试者的基因组序列信息，与受试者的功能遗传信息，优选地是基因表达信息组合；计算机程序产品，其用于使得处理器能够执行本文上面定义的减小基因组序列信息复杂性和/或量的步骤以及减小功能遗传信息(优选地是如本文中上面定义的基因表达信息)的复杂性和/或量的步骤；输出设备，用于输出受试者的基因组变化、增量基因组改变或功能遗传变异模式，优选地是基因表达变化模式；以及用于存储所输出信息的介质。

在本发明的优选实施例中，所述系统可以是电子图片/数据存档及通信系统。

附图说明

图1提供了传统全基因组测序(WGS)管道图的整个管道。

图2提供了为降低受试者的基因组序列的复杂性和量而采取的比较和比对步骤的概览。

图3示出了根据本发明在参考序列和疾病参考序列进行的比较，其中，在染色体1中突出显示了疾病参考序列的相关核苷酸。

图4示出了突变紧密相邻的情况。在这样的情况下，制备覆盖所有的突变的较长的序列延伸。

图5示出了针对受试者随时间发展的监测方法的典型步骤。

图6示出了疾病发作之后以及治疗之后基因拷贝数(GCN)多态性的变化。在基于有限马尔可夫链过程的图形模型中表示特定基因(向上调控或向下调控的)状态。由于马尔可夫链是以相继方式移动通过一组状态的过程，所以从状态A移动到状态B将以特定概率发生。以变换矩阵的形式表示这些概率。在该变换矩阵中，斜体字数值表示在疾病进展期间变化的状态，黑体字母数值表示未完全恢复的状态。

图7示出了疾病进展期间基因拷贝数(GCN)多态性的变化。这幅图示出了利用测序获得的样本中间数据，其中在疾病进展期间图6的原始基因拷贝数已经被修改(即图6的矩阵1到矩阵2)。这些递增的变化成为研究疾病进展以及在给定遗传种群内确定疾病进展模式的关键。于是，每个矩阵代表疾病的不同状态。

具体实施方式

本发明的发明人开发出了允许降低治疗对象的基因组序列的复杂性和/或量并且允许以能够快速检索的形式对其进行存储的机构和方法。

尽管将针对特定实施例描述本发明，但是不应将这一描述推断为具有限制性意义。

在详细描述本发明的示范性实施例之前，将给出对于理解本发明很重要的定义。

除非上下文中明确地另行指出，否则本说明书和所附权利要求中采用的单数形式的冠词“一”还包括相应的复数。

在本发明的背景下，词语“大约”和“大概”表示本领域技术人员将理解的仍然能够确保所讨论的特征的技术效果的准确度区间。所述词语通常指示与所指示的数值具有±20％的偏差，其优选为±15％、更优选为±10％，更优选为±5％。

应该理解，“包括”一词不具有限制性。出于本发明的目的，应该认为“由......构成”这一短语是“包括......”的优选实施例。如果在下文中将一个组定义为包括至少特定数量的实施例，这意味着还涵盖优选仅由这些实施例构成的组。

此外，说明书和权利要求中的术语“第一”、“第二”、“第三”或“(a)”、“(b)”、“(c)”、“(d)”等用于在类似元件之间进行区分，未必用于描述相继或时间次序。要理解的是，这样使用的术语在适当环境下是可以互换的，本文中描述的本发明实施例能够按照本文中所述或例示的之外的其他顺序工作。

在术语“第一”、“第二”、“第三”或“(a)”、“(b)”、“(c)”、“(d)”等涉及方法或用法的步骤时，在步骤之间没有时间或时间间隔的相干性，即可以同时执行这些步骤，或者在这种步骤之间可以有几秒、几分钟、几小时、几天、几星期、几个月甚至几年的时间间隔，除非如本文上面或下面所述地另有说明。

要理解的是，本发明不限于本文中所述的特定方法、协议、试剂等，因为它们可以变化。还要理解，本文中使用的术语仅用于描述特定实施例的目的，并非要限制本发明的范围，本发明的范围仅由所附权利要求限定。除非另行说明，本文中使用的所有技术和科学术语都与本领域普通技术人员通常理解的具有相同含义。

如上文所述，本发明在一个方面中涉及一种用于处理受试者基因组序列的方法，包括：

(a)获得受试者的基因组序列；

(b)减小基因组序列信息的复杂性和/或量；以及

(c)以能够快速检索的形式存储步骤(b)的基因组序列信息。

在该方法的第一步中，可以获得受试者的基因组序列。本文中使用的“受试者”可以是包括基因组的任何生物体。优选地，受试者是人。可选地，可以获得动物的基因组序列或植物的基因组序列，动物例如是对照动物，如狗、猫、牛、马、猪等。不过，本发明的方法不限于这些生物组，而是可以一般地用于包括基因，尤其是基因组信息的任何受试者或生物体。

本文中使用的术语“获得受试者的基因组序列”是指确定受试者的基因组序列。测序的方法是本领域的技术人员公知的。优选下一代测序方法或高通量测序方法。例如，可以利用大规模并行特征测序(MPSS)获得受试者的基因组序列。考虑的序列方法范例是焦磷酸测序，尤其是454焦磷酸测序，例如基于Roche 454基因组测序机。这种方法扩增油溶液中小水滴内部的DNA，每个水滴都包含附着于包被有单引物的珠的单一DNA模板，其然后会形成克隆集落。焦磷酸测序使用荧光素酶来生成光，以检测添加到新生DNA的个体核苷酸，并使用组合的数据来生成序列读出。设想的又一个范例是Illumina或Solexa测序，例如，使用Illumina基因组分析器技术，该技术基于可逆的染料终止子。DNA分子典型地附着于载物片上的引物，并被扩增，从而形成局部克隆集落。接下来，可以每次增加一种核甘酸，将未结合的核苷酸洗掉。接下来，可以获取带荧光标签的核苷酸的图像，并从DNA通过化学方式移除染料，允许进行下一个周期。获得受试者基因组序列的又一种可能想到的方法是使用Applied Biosystems的SOLiD技术，该技术采用的是通过连接来测序。这种方法基于使用固定长度的所有可能寡核苷酸的池，根据测序位置对其进行标记。对这样的寡核苷酸进行退火和连接。接下来，为了匹配序列而由DNA连接酶进行的优先连接通常会获得该位置核甘酸的信息的信号。由于通常通过乳液PCR进行DNA的扩增，因而可以将所得的珠(每个都仅包含相同DNA分子的副本)沉积在玻璃载物片上，获得在量和长度上可以与Illumina测序相当的序列。设想的另一种方法基于Helicos的Heliscope技术，其中，由束缚到阵列的polyT低聚物捕获片段。在每个测序周期，都添加聚合酶和单个荧光标记的核苷酸，并对阵列成像。接下来去掉荧光标签并重复周期。本发明方法之内涵盖的测序技术的更多范例是通过杂交测序、使用纳米孔测序、基于显微镜检查的测序技术、微流体Sanger测序或基于微芯片的测序方法。本发明还设想这些技术的进一步发展，例如，测序精确度的进一步发展，或确定生物体基因组序列所需的时间的进一步发展等。

可以以任何适当的质量、精确度和/或覆盖获得基因组序列。基因组序列的采集还包括采用例如从数据库、数据仓库、测序工程等先前或独立获得的序列信息。

优选地，获得的基因组序列可以在每10000个碱基不超过一个错误、每50000个碱基不超过一个错误、每75000个碱基不超过一个错误、每100000个碱基中不超过一个错误。更优选地，获得的基因组序列可以每150000个碱基不超过一个错误、200000个碱基或250000个碱基中不超过一个错误。

在另一特定实施例中，获得的基因组序列可以具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％、99.9％、99.99％、99.999％或100％的覆盖。在另一特定实施例中，获得的基因组序列可以具有每单倍体基因组的平均读取深度至少约15x、20x、25x、30x、35x、40x或更大，或介于15x和50x之间的任何其他平均深度或更大。本发明还考虑，由于测序技术的改进，制备或使用更高覆盖的序列。本发明因此不受任何误差容限或覆盖极限的限制，相反集中于根据适当的当代测序技术的可用的、制备的和获得的序列信息的实现。

在本发明的优选实施例中，获得的基因组序列的平均读取深度至少约为每个单倍体基因组15x、20x、25x、30x、35x、40x或更大，或介于15x和50x之间的任何其他平均深度可以被限制到基因组的一个或多个子部分，例如一个或多个或全部调控区、开放阅读框(openreading frame)、通路成员(pathway member)的开放阅读框、所有开放阅读框、一个或多个启动子区域、一个或多个增强子元件、调控网络成员或任何其他适当的基因组区域子集，例如由与疾病或失调相关的特征数据定义。在本发明的特别优选实施例中，在调控区中，或在由涉及疾病或失调的特征数据定义的区域中，每个碱基可以被至少约15、20、25、30、35、40或更多测序读取覆盖，或被介于15和50之间任何其他数量的读取覆盖。本发明还考虑，由于测序技术的改进，制备或使用具有更高读取深度的序列。本发明因此不受任何误差容限或读取深度极限的限制，相反集中于根据适当的同时测序技术的可用的、制备的和获得的序列信息的实现。

可以通过任何适当的活体外和/或活体内方法获得受试者的基因组序列。特别优选的是从受试者获得的样本，例如本文后面定义的样本，获得基因组序列。在本发明的特定实施例中，用于处理受试者基因组数据的方法还包括获得样本或执行活检的步骤。

在另一实施例中，也可以从数据仓库，例如从一个或多个包含受试者基因组序列的数据库，或通过重建受试者的基因组序列从一个或多个数据库条目，获得受治疗者的基因组序列。

获得的基因组序列可以按本领域的技术人员已知的任何适当格式存在。例如，可以将序列呈现为原始数据、FASTA格式、纯文本格式、Unicode文本、xml格式、html格式。优选地，获得的基因组序列可以通过Variant Call格式(VCF)、General Feature格式(GFF)、BED格式、AVLIST或Annovar格式呈现。

在该方法的第二步中，减小基因组序列信息的复杂性和/或量。本文中使用的术语“复杂性”是指基因组序列中存在的信息变化性、基因组序列中存在的序列信息的冗余性、已知突变可能增加的染色体区域、基因或点的覆盖，以及本领域的技术人员已知的遗传变异性的其他参数。本文中使用的“基因组序列的量”是指序列信息的覆盖，例如染色体、染色体区域、基因、遗传因子、内含子、外显子、与疾病相关的区域或基因等的覆盖。通过减小基因组序列的复杂性和/或量，于是优选地根据不同的适当参数过滤在第一步中获得的总体序列数据，所述适当参数例如是存在基因间区、存在内含子或外显子、存在转座元件、存在重复序列、存在已知突变的点或区域。例如，可以仅获得外显子的序列，或者外显子(外显子组)的特定子组。类似地，可以仅获得内含子的序列，或者内含子的特定子组或内含子-外显子边界等。另一个过滤器参数可以是染色体上的位置。例如，根据染色方案或表达模式等，可以将数据简化为一个、两个、三个等染色体，或染色体臂或染色体区域。另一考虑的过滤器参数可以是已知的表达模式，例如从生化通路、转录因子通路、由于生长因子或配体活性导致的表达模式、由于特定营养状况导致的表达模式等导出。又一组过滤器参数可以是整个基因组内的已知多态性、关于特定染色体的已知多态性、基因中的已知多态性、基因间区中的已知多态性、启动子区域中的已知多态性等。可以将其他过滤器参数与关于疾病、疾病组、疾病倾向的已知数据相关，例如，过滤器参数可以包括关于与特定疾病、疾病组或疾病倾向相关联的基因组修改的全部信息。

在本发明的特定实施例中，可以将基因组序列信息简化为基因组区域、整个基因、外显子(外显子组序列)、转录因子结合位点、DNA甲基化结合蛋白质结合位点、可能包括短的或长的非编码RNA的基因间区等，这些是已知或疑似临床相关或重要的，在人和人之间、不同人种之间、或种群之间、人或动物性别之间、人的不同年龄组之间(例如新生儿和成年人之间)、人和其他生物体等之间、同种动物之间、不同种族、种、属或纲的动物之间、植物品种、植物种等之间可能变化或高度变化，或者它们是已知或疑似在疾病或失调之间变化或高度变化。这样的基因组区域、基因、外显子、结合位点等会是本领域的技术人员已知的，或者可以从适当的教科书或信息仓库，例如从UCSC基因组浏览器或从NCBI得知。

可以在一个或多个步骤中，例如基于比较法或算法、主题发现方法或算法、迭代过程等，进行基因组序列复杂性和/或量的减小，这对本领域技术人员是己知的。例如，可以基于适当教科书或科学文献中描述的方法进行减小，例如S.Kurtz、A.Phillippy、A.L.Delcher、M.Smoot、M.Shumway、C.Antonescu和S.L.Salzberg(2004)“Versatile andopen software for comparing large genomes”，Genome Biology，5：R12；Schuster等人，2010，Nature 463(18)，943-947；或Fujimoto等人，2010，Nature Genetics，42，931-936，在此通过引用将其全文并入。

设想的用于减小基因组序列复杂性和/或量的其他方法可以从如下文献得知：Ashley等人，2010，Lancet，375，1525-1535，在此也通过引用将其全文并入。具体而言，本发明设想基于所述文章的图1中提供的关于基因组变化的分子信息减小复杂性。

在另一特定实施例中，设想基于制药基因知识库(PharmGKB)关于药物响应表现型、基因座特异性的突变数据库(LSMD)或人线粒体基因组多态性数据库(mtSNP)提供的信息来减小基因组序列的复杂性和/或量。

特别优选的是为获得的基因组信息采用基于种群的过滤器。例如，可以进一步将本文中以上定义的比较方法检测的基因组序列变化，尤其是SNP，在患者的种群、种族或祖先背景下比较或在这种背景下分析。于是，例如，如果特定种群、种族、年龄组等有已知的变化的SNP，出于本发明的目的，可以不将这种变化报告为或识别为相关的或者将其过滤掉。在特定实施例中，这样的变化——尽管对于种群、种族、年龄组等是特异性的或典型的——可以被视为或者被识别为对于本发明而言是相关的，如果该变化表现出重要/临床功能暗示的话。重要的SNP类别的一个范例——其可能出现在整个种群中的在功能上——处于有助于新陈代谢和排泄药物的CYP相关基因中。由于已知特定的药物在不同种群(例如在非高加索人中)中在不同的，例如更低剂量下可被耐受，所以可以根据患者的所属种群、或患者的种族对CYP-相关基因的变化进行过滤、排序、分类和/或评估。例如，可以基于PharmGKB数据库中提供的信息执行这样的过滤。

经过滤的或减少的基因组序列可以以任何适当的格式或形式呈现。优选地，该序列可以呈现为FASTA格式、纯文本格式、Unicode文本、xml格式、html格式、Variant Call格式(VCF)、General Feature格式(GFF)、BED格式、AVLIST格式或Annovar格式。此外，基因组序列可以呈现为衍生格式，例如作为数据库项、注释的数据库项、基因组/遗传修改点列表，优选地通过相关性或发生次数(例如在种群等中发生的次数)排序。

在第三步骤中，以能够快速检索的形式存储在第二步骤中获得的基因组序列信息。要存储的信息可以具有任何适当的形式或格式，例如本文上面提到的形式或格式。基因组信息的存储应当优选限于适当存储介质上的可用空间，存储介质例如是计算机硬盘驱动器、移动存储设备等。特别优选的是这样的存储器结构，它是1)分层的，和/或2)用时间信息编码和/或，此外3)包括指向患者数据、图像、报告等的链接。更优选的是诸如差分DNA存储器结构(DDSS)的存储器结构。

本文中使用的术语“能够快速检索的”表示以允许容易访问信息和/或允许不复杂地提取所存储信息的形式提供基因组信息。本发明设想的存储形式是适当的数据库存储、列表形式的存储、编号的文件和/或图表形式的存储，例如存储为像形图、图形比对、比较方案等。在本发明的特定实施例中，可以从存储介质检索信息并接下来例如在任何适当的监视器、手持设备、计算机设备等上显示。

在本发明的特定实施例中，用于处理受试者基因组序列的方法包括步骤(a)减小本文上面所定义的基因组序列信息的复杂性和/或量；(b)以本文上面所定义的能够快速检索的形式存储步骤(a)中的基因组序列信息。

在本发明的优选实施例中，可以从受试者身体或生物体的任何适当部分导出为了获得受试者的基因组序列而要分析的样本。在一个实施例中，可以从纯组织或器官或细胞类型，或从非常特定的位置，例如仅包括一种组织、细胞或器官，导出该样本。在其他实施例中，可以从组织、器官、细胞的混合物，或从其碎片中导出样本。优选地可以从器官或组织，例如胃肠道、阴道、胃、心脏、舌头、胰腺、肝脏、肺、肾、皮肤、脾、卵巢、肌肉、关节、脑、前列腺、淋巴系统或本领域的技术人员已知的器官或组织，获得样本。在本发明的其他实施例中，可以从体液导出样本，体液例如是血液、血清、唾液、尿、粪便、精液、淋巴液等。

特别优选的是采用肿瘤组织或使用从已知患癌的器官导出的样本。还设想使用从与疾病、传染、失调等相关联或被诊断成受疾病、传染、失调等影响的任何其他器官或组织或细胞或细胞类型导出的样本。在本发明的特定实施例中，样本可以包含从实性肿瘤、疑似肿瘤或患癌的组织切除物、患病器官或组织的活检，例如受影响的或患癌器官或组织等获得的细胞。传染例如可以是细菌性的或病毒性传染。

样本可以包括一个或超过一个细胞，例如一组组织学或形态学上相同的细胞，或组织学或形态学上不同细胞的混合物。优选使用组织学相同或相似的细胞，例如源于身体的一个限制区域。

还设想使用在不同时间点从同一受试者获得的，从同一受试者的不同器官或组织获得的，或在不同时间点从同一受试者的不同器官或组织获得的样本。例如，可以获取肿瘤组织的样本以及同一组织或器官的相邻非癌区域的一个或多个样本并用于获得受试者的基因组序列。

在可以从其他组织类型导出非人类或非动物受试者样本的情况下，例如，要使用的特定植物组织可以包括例如叶、根组织、分生组织、荧光组织、源自植物种子的组织等。

于是，受试者的基因组序列可以取决于所取的样本，包括基因组序列信息的混合物，例如从受试者不同组织、器官和/或细胞导出的信息；或者其可以包括从受试者具体的单一源，例如一个器官或器官类型、一种组织或组织类型、一种细胞或细胞类型，相应地代表对应器官、组织或细胞的基因组状况。对于患癌的器官或组织，本发明还设想采用特别选择的样本以及组织学方法和方式对活检的支持。

在本发明的另一实施例中，一开始可以获得受试者的基因组序列，然后继续重复获得步骤。优选地，可以将受试者基因组序列的采集重复一次、两次、3次、4次、5次、6次或更多次。第二采集或另一采集可以在一段时间之后执行，例如在1周之后、2周之后、3周之后、4周之后、2、3、4、5、6、7、8、9、10、11、12个月之后、1.5年、2年、3年、4年、5年、6年等之后或在更长一段时间之后或者在这些时间点之间的任何适当时间点。第一次和第二次以及第二次和后续采集受试者的基因组序列之间的时间可以相同、基本相同或可以不同，例如增加或减少。例如，在处置监测期间，可以通过相等或递增或递减的间隔获得受试者的基因组序列。

典型地，在初始采集之后的另一时刻获得受试者的基因组序列时，可以使用与初始采集中相同的器官、组织、细胞、器官类型、组织类型、细胞类型或相同的样本类型，例如尿液、血液、血清、唾液样本等。或者，可以为受试者基因组序列的后续采集瞄准不同的器官、组织、细胞、器官类型、组织类型、细胞类型或样本类型等。进一步设想的是一开始从组织、器官、细胞等的混合物采集受试者的基因组序列，继之从定义的特定源，例如上文定义的特定器官、组织、细胞、器官类型、组织类型或细胞类型，采集受试者的基因组序列。可选地，一开始从定义的特定源，例如定义的特定器官、组织、细胞、器官类型、组织类型或细胞类型采集受试者的基因组序列，继之从组织、器官、细胞等的混合物采集受试者的基因组序列。例如，在治疗疾病(例如癌症)期间，可以采取后一种方法，以便覆盖变化的或异常的细胞、细胞类型或组织部分的残余存在。

在本发明的另一实施例中，可以从两个或更多不同位置、器官、组织、细胞、组织类型、细胞类型等同时或并行获得受试者的基因组序列，也可以如上文或下文所述地处理相应获得的基因组序列信息。

用于一开始或接下来，或在执行并行顺序采集时获得受试者基因组序列的方法可以相同或可以不同。优选测序技术和/或所得的数据格式等实质上相同。

在初始采集之后第二次或更多次获得受试者的基因组序列之后，或者在一次获得超过一个基因组序列的情况下，在例如在初始采集中获得的基因组序列信息和第二次或更多次采集中获得的基因组序列信息之间进行比较。优选地，进行这种比较以揭示一开始获得的基因组序列和接下来获得的基因组序列之间，或在不同位置、器官、组织、细胞等中获得的基因组序列之间的变化、修改或差异。本文中使用的术语“比较”涉及将两个基因组序列进行匹配的任何适当方法或技术。典型地，可以采用本领域技术人员已知的比对算法以便检测两个基因组序列之间的差异。这种算法的范例包括从S.Kurtz、A.Phillippy、A.L.Delcher、M.Smoot、M.Shumway、C.Antonescu和S.L.Salzberg(2004)“Versatile andopen software for comparing large genomes”，Genome Biology，5：R12得知的方法。设想的适当算法的更多范例包括用于碱基读出(base calling)的UMKA算法(Pushkarev等人，Nat Biotechnology，2009，27：847-52，在此通过引用将其全文并入)和Ashley等人在2010，the Lancet，375，1525-1535中提供的算法。

在本发明的一个实施例中，在初始采集和第二或后续采集过程中获得的整个基因组序列之间，或在同时获得的基因组序列之间进行比较。这样提供了对整个基因组序列内的所有修改、变化和差异的完全概览。

在本发明的另一实施例中，如本文上面所述，在经过滤的或减少的基因组序列或基因组序列信息之间进行比较。优选地，可以使用一开始获得的基因组序列或同时获得的基因组序列与第二或接下来获得的基因组序列比较，所述基因组序列信息被简化为基因组区域、整个基因、外显子(外显子组序列)、转录因子结合位点、DNA甲基化结合蛋白质结合位点、可能包括短的或长的非编码RNA的基因间区域等，这些是已知或疑似临床相关或重要的，在人和人之间、不同人种之间、或种群之间、人或动物性别之间、人的不同年龄组之间(例如新生儿和成年人之间)、人和其他生物体等之间、同种动物之间、不同种族、种、属或纲的动物之间、植物品种、植物品种等之间可能变化或高度变化，或者它们是已知或疑似在疾病或失调之间变化或高度变化。

在又一实施例中，比较可以包括更多测试，例如基于基因数据解释、数据规范化、数据聚类、k平均数聚类、分级聚类、主分量分析、监督方法等方法的测试。这样的额外测试对本领域的技术人员是已知的，或者可以得自适当的来源，例如从Tjaden等人，2006，Applied Mycology and Biotechnology：Bioinformatics，6的文章得知，在此通过引用将其全文并入。

在另一实施例中，如果比较在初始采集之后的第三、第四、第五或后续时间获得的受试者基因组序列，则可以利用初始获得的基因组序列和/或利用接下来获得的基因组序列进行这种比较。如本文上面所述，可以在整个基因组序列之间或在其减小或经过滤的子集之间进行这种比较。

在优选实施例中，在基因组序列信息的相继集合之间，例如，在一开始获得的基因组序列信息和基因组序列采集的第一次重复中获得的基因组序列信息之间；在第一次重复基因组序列采集获得的基因组序列信息以及在第二次重复基因组序列采集获得的基因组序列信息之间；在第二次重复基因组序列采集中获得的基因组序列信息和第三次重复基因组序列采集中获得的基因组序列信息之间，等等，进行比较。

可选地，可以如下地进行比较：例如，在一开始获得的基因组序列信息和第二次重复基因组序列采集中获得的基因组序列信息之间；在一开始获得的基因组序列信息和第三次重复基因组序列采集中获得的基因组序列信息之间。在其他实施例中，例如，在更频繁地获得报告的基因组序列的情况下，可以在每组基因组序列信息之间进行所有类型的比较。

在特别优选的实施例中，在第二次或后续次获得受试者的基因组序列时，存储与先前存储的基因组序列信息的基因组序列信息相比的增量数据。本文中使用的术语“增量数据”是指在给定的两组基因组序列信息之间有变化或不同的信息。

例如，要存储的数据可以包括变化的位置和性质。此外，可以存储更多参数，例如序列段(sequence stretch)、采集时间、采集之间的间隔等。可以通过任何适当的格式或形式进行这样的存储，例如，数据库项的形式，作为图形信息，文本或便携式文档的形式，或者可以保存为音频或语音格式以可以为专业人员检索为音频实体。特别优选的是这样的存储器结构，它是1)分层的，和/或2)用时间信息编码和/或3)包含指向患者数据、图像、报告等的链接。更优选的是诸如差分DNA存储器结构(DDSS)的存储器结构。

在特定的实施例中，例如，在超过两次获得受试者的基因组序列时，在第二次呈现数据时，可以识别遗传数据的变化(即，G²和G¹之间的差异)并将仅存储变化的片段(δG²)。在遗传数据被呈现第n次时(Gⁿ)，可以将先前的遗传数据(G^n-1)重建为

Gⁿ和G^n-1之间如果有任何变化，可以被检测到并存储为δGⁿ。这种过程的优点是可以极大地减小存储遗传信息所需的存储器和存储空间。

在本发明的优选实施例中，Gⁿ和G^n-1之间如果有变化的话，该变化可能对应于疾病状态，优选在矩阵中编码或描述它(例如，如图6中所示)。例如，可以对特定基因的状态(例如，被扩增或缺失，这可能分别导致基因被上调或下调)解码。

本发明相应地设想了一种方法，其中，将基因组和/或功能遗传信息的变化编码为矩阵，并且其中通过适当的过程解码和表示与基因、基因组区域、调控区、启动子、外显子或通路的状态(优选地在疾病或失调的背景下的状态)相关的信息。

在优选实施例中，可以从这样的矩阵或密集表示对基因、基因组区域、调控区、启动子、外显子或通路等的状态(优选地在疾病或失调的背景下的状态)进行解码，并在适当的图形模型中可视地表示。

优选地，这样的图形模型基于有限马尔可夫链过程。由于马尔可夫链是以相继方式移动通过一组状态的过程，所以从状态A移动到状态B将以特定概率发生。可以将这些概率表示为矩阵，优选以变换矩阵的形式表示。图7以相继方式示出了一组状态，如图7所示，匹配患者的概况以及做出患者的理性决断可以以特定概率中状态A过渡到状态B。这种过程的优点是(i)可以极大地减少存储遗传信息所需的存储器和存储空间，以及(ii)该表示有助于与表示疾病进展(或逆转)中的状态的矩阵。通过这种方式，存储的表示可以容易地符合匹配过渡状态的临床决策支持软件并可以帮助做出诊断决策。

在本发明的特定实施例中，可以执行如上所述的基因组序列和/或功能遗传信息复杂性和/或量的减小，和/或基因组和/或功能遗传信息的变化的编码或分析，或者它们可以基于随机布尔网络(PBN)的使用。可以将这样的PBN用作用于建模方法的基于规则的范式，例如，用于对调控网络的建模，或用于过滤或链接数据或信息，例如，如本文所述。于是，本发明还设想采用这样的网络作为马尔可夫过程的遗传调控网络的子类，例如，在这里所述的马尔可夫链过程的背景下。在一个实施例中，可以使用PBN来表示不同基因、通路、疾病状态、疾病因子、分子疾病症状之间的相互作用，或者本领域的技术人员已知的任何其他适当信息。PBN的适当实现方式和形式体系是技术人员已知的，或可以从合格的科学文献得知，例如从Hamid Bolouri，Computational Modelling of Gene Regulatory Networks，2008，Imperial College Press得知。

于是，本发明还设想这样的表示以及临床决策支持软件形式的对应实现方式。

在本发明的另一实施例中，本文上面所定义的方法还可以包括随时间监测变化或差异的步骤。额外地或可选地，该方法可以包括预测趋势的步骤，例如处置过程期间或疾病进展期间改善或恶化的趋势。

在又一实施例中，该方法还可以包括计算相关联的风险系数，例如基于(δGⁿ)。如果遗传数据的变化(δGⁿ)未表明或未直接表明个人易于发生的风险，可以使用(δGⁿ)与(δG²，δG³，……，δG^n-1)的一个或多个的组合来计算风险系数。本文中使用的术语“风险系数”或“风险”是指疾病进展的可能和/或疾病恶化或进入下一阶段或水平或疾病倾向转为疾病的可能。

在特别优选的实施例中，可以分析增量数据的所有可能组合以导出风险。因此，可以显著减小针对风险分析遗传数据的复杂性，因为它不会处理巨量的数据(G¹，G²，……，Gⁿ)。在特定实施例中，可以使用存储的表示做出疾病预防步骤。在其他实施例中，可以使用存储的表示执行更频繁的筛选，优选使用成像或其他诊断器械。

在另一特定实施例中，可以为存储的基因组序列数据提供仅许可访问增量数据——即(δG²，δG³，……，δGⁿ)——的选项，因为这些数据足以供专业人员使用。这种可能性提供了额外的好处，即受试者能够保持其遗传或基因组数据私密而不会将其泄露。

在本发明的另一特别优选实施例中，可以通过剪切除与疾病或失调有关的特征数据之外的基因组序列信息来进行减小基因组序列信息复杂性和/或量的步骤。本文中使用的术语“剪切基因组序列信息”是指要在基因组序列采集的初始或后续轮次中获得的基因组序列集上执行的关注或删除过程。因此，可以从基因组信息的开始组删除或移除不相关的和/或冗余的基因组序列信息。这样的关注或剪切步骤通常基于针对遗传状况、失调、疾病、失调或疾病倾向、疾病进展的风险系数等的特征数据。

本文中使用的术语“特征数据”是指关于遗传或基因组变化的信息。优选地，这样的特征数据可以是对失调、疾病、失调或疾病倾向、疾病进展风险系数等特异的遗传或基因组变化的信息。可选地，特征数据还可以包括本身不与疾病或失调相关，但提供关于受试者健康性、强壮性、对特定状况的适应、适应潜力、修改历史的信息，或者识别受试者或受试者的后代所需的信息的数据，例如在刑事侦查、指纹分析方法、亲权认定等中。

在优选的实施例中，特征数据可以是或者提供关于对失调、疾病、失调或疾病倾向、疾病进展的风险系数等特异的至少一种变化的信息，从错义突变、无义突变、单核甘酸多态性(SNP)、拷贝数变化(CNV)、剪接变化、调控序列变化、小缺失、小插入、小插入缺失、总缺失、总插入、复杂遗传重排、染色体间重排、染色体内重排、杂合性缺失、重复序列插入和/或重复序列缺失和/或这些特征的任意组合。本领域的技术人员已知的其他适当的遗传变异和基因组或受试者的基因序列或状态或特征数据的变化和修改也涵盖在本发明之内。

在本发明的其他实施例中，特征数据可以关联到与特定疾病相关联的特定基因或基因座，例如HER2、EFGR、KRAS、BRAF、Bcr-abl、PTEN、PI3K、BRCA1、BRCA2、GATA4、CDKN2A、PARP、p53等。当然，这样的标记特征也可以与额外的参数或额外的遗传信息(例如SNP、拷贝数变化等)组合。

在特别优选的实施例中，特征数据可以是或提供关于单核甘酸多态性(SNP)和/或拷贝数变化(CNV)或基因拷贝数(GCN)多态性，即受试者基因型中特定基因拷贝量的变化的信息。例如，在癌细胞中，GCN可能是完全改变的。在特定实施例中可以额外获得对应的基因表达信息。

相应的遗传或基因组变化，以及它们与例如疾病或失调的关联，是本领域的技术人员已知的，和/或可以从适当的数据仓库得知，例如，美国NIH的National Center forBiotechnology Information(NCBI)的数据仓库，可以通过www.ncbi.nlm.nih.gov访问，EMBL的European Bioinformatics Institute(EBI)，可以通过www.ebi.ac.uk访问，尤其是特定的数据集，例如SNP数据库、OMIM、RefSeq或人类基因组突变数据库提供的特征仓库等。

在特别优选的实施例中，特征数据可以基于在至少两组受试者或状况之间区分的基因或基因组区域的系列，所述至少两组受试者或状况之间例如是肿瘤状态和正常/健康状态之间；或恶性肿瘤状态和良性状态之间；或对药品成分(例如癌症药物)的化学敏感性状态和对药品成分(例如癌症药物)的化学抵抗性状态之间。在本发明的特定实施例中，本文中定义的处理受试者基因组数据的方法也可以覆盖遗传数据修改可能导致其进一步后续变化的状况。因此，可以利用已知遗传疾病的特征数据从(δG²，δG³，……δG^n-1)预测基因数据(δG^n’)的变化。例如，如果预测的变化δG^n'等于实际变化δGⁿ，可以认为受试者易患该疾病。在另一实施例中，可以利用先前的遗传变化计算δGⁿ，因此，可以不存储它。或者，可以存储或临时存储获得的数据。

在本发明的另一特别优选实施例中，可以通过将受试者的基因组序列与包括特征数据的参考序列比对来执行用于处理受试者基因组数据的方法的减小基因组序列信息复杂性和/或量的步骤。优选地，这种参考序列(RefSeq)可以包括与疾病或失调相关的特征数据，例如关于对失调、疾病、失调或疾病倾向、疾病进展的风险系数等特异的至少一种变化的信息，从错义突变、无义突变、单核甘酸多态性(SNP)、拷贝数变化(CNV)、剪接变化、调控序列变化、小缺失、小插入、小插入缺失、总缺失、总插入、复杂遗传重排、染色体间重排、染色体内重排、杂合性缺失、重复序列插入和/或重复序列缺失和/或这些特征的任意组合。特别优选的是提供基于特征的参考序列，其中存在着针对一个、超过一个或每个基因组特征的所有可能序列。在另一实施例中，可以将这些特征与指定长度的侧翼序列的信息相组合，指定长度例如是100bp、200bp、500bp、1kbp、2kbp、5kbp、10kbp，无论是基因组变化的上游或下游，或是染色体组变化的上游和下游。

可以通过任何适当格式或形式生成或提供根据本发明的这些特征参考序列。优选的是FASTA或FASTQ格式。更优选的是比对器接受的，优选多种比对器接受的任何可识别格式。

在特定实施例中，可以从传统的参考序列(例如从诸如NCBI的数据仓库得知的基因组序列信息)，与基因组特征相组合，导出根据本发明的特征参考序列，基因组特征包括，例如关于疾病的数据、关于遗传元件位置和/或取向的信息、关于所涉及基因的信息、关于变异类型和/或变异大小的信息；和/或关于变异频率的信息。可以进一步将这些数据与可从注释数据库得知的数据相组合，所述数据例如与遗传元件的位置和/或取向相关，和/或与这些元件的类型和大小相关。图2中提供了示范性工作流程。

在另一实施例中，可以针对要检测的基因组变化的类型和/或获得的或可获得的基因组序列信息类型调整根据本发明的特征参考序列。这些参数可以组合或可以互相排斥。

例如，可以提供特征参考序列以与作为单端和/或成对末端数据而存在的基因组序列比较。这样的特征参考序列可以包括关于取代、插入缺失、SNP、CNV、调控修饰、错义或无义修饰等的信息。基于这种特征参考序列，可以检测从受试者获得的基因组序列中存在的已知取代、插入缺失、SNP、CNV、调控修饰、错义或无义修饰。可以将特征参考序列提供为FASTA文件，例如sRefSeqI。

在另一范例中，可以提供特征参考序列以与作为成对末端数据而存在的基因组序列比较。这样的特征参考序列可以包括关于总插入、总缺失、染色体畸变、染色体间或染色体内变异等的信息。基于这种特征参考序列，可以检测从受试者获得的基因组序列中存在的已知总插入、总缺失、染色体畸变、染色体间或染色体内变异等。可以将特征参考序列提供为FASTA文件，例如sRefSeqII。

在另一范例中，可以提供特征参考序列以与作为单端数据而存在的基因组序列比较。这样的特征参考序列可以包括关于感兴趣基因组区域，例如已知在特定疾病或失调、热点或修饰等的背景下要变异或被修饰的区域的信息。基于这种特征参考序列，可以检测从受试者获得的基因组序列中存在的已知在特定疾病或失调、热点或修改等的背景下要变异或被修饰的区域。可以将特征参考序列提供为FASTA文件，例如sRefSeqIII。

在本发明的又一实施例中，也可以将上文定义的从受试者获得的基因组序列用作参考序列。在这样的参考序列中，可以搜索已知的变异，例如SNP或取代。

在典型实施例中，可以通过执行以下方法步骤来制备如上所述的用于检测取代、插入缺失、SNP、CNV、调控修饰、错义或无义修饰等(sRefSeqI)的特征参考序列：

(1)可以制备对应于取代、插入缺失、SNP、CNV、调控修改、错义或无义修饰等的特征列表。

(2)可以根据染色体、坐标和方向对特征列表进行分类。还包括的是标识码、关于正常序列的信息和关于突变序列的信息。

(3)可以基于正常序列和突变序列都有的序列信息扩展该序列。例如，可以将突变的任一侧50、100、200、300、400、500、600、700、800、900、1000个碱基包括在内。典型地，可以将序列从突变侧的扩展取为序列读取(read)的倍数(对于100个碱基的读取为500个碱基)。

(4)可以生成正常和突变序列两者的反向互补序列。

(5)在突变彼此接近时，可以从位于末端的突变位点扩展序列。可以制备正常和突变序列两者的对应反向互补序列。

在另一实施例中，可以通过执行以下方法步骤来制备如上所述的用于检测总插入、总缺失、染色体畸变、染色体间或染色体内变异等(sRefSeqII)的特征参考序列。

(1)可以制备对应于总插入、总缺失、染色体畸变、染色体间或染色体内变异等的特征列表。

(2)可以根据关于染色体变异的信息提供突变的序列。此外，可以提供关于染色体的信息、对变异的描述和/或识别码。

(3)可以生成突变序列的反向互补序列。

可以根据任何适当的比对方法或技术来执行特征参考序列和从受试者获得的基因组序列之间的比对。可以从适当的出版物，尤其是如下出版物得知这种方法的范例：LiH.和Durbin R.(2009)“Fast and accurate short read alignment with Burrows-Wheeler transform”，Bioinformatics，25，1754-60[PMID：19451168]；或Li和Durbin R.(2010)“Fast and accurate long-read alignment with Burrows-Wheeler transform”；Bioinformatics，26；589-95[PMID：20080505]，在此通过引用将其全文并入。

优选地，利用反向互补序列进行比对。这些序列可能如上所述已经存在于特征参考序列中或根据如本文所述的方法被提供。因此特别优选使用包括反向互补序列的特征参考序列。通过绕过任何反向互补计算，可以显著减少分析时间，这构成了本发明的另一优点。

在本发明的其他实施例中，根据如上所述的方法减少基因组序列信息，例如通过将序列与上文定义的特征参考序列进行比对或比较，所述基因组序列信息接下来可以以能够快速检索的形式存储，例如以数据库项的形式，优选以差分DNA存储结构(DDSS)格式或其衍生的格式存储。

在本发明的另一特别优选实施例中，用于处理受试者基因组数据的方法额外地包括分析受试者的功能遗传信息的步骤。优选地，该方法可以包括获得受试者功能遗传信息的步骤、减小这种信息的复杂性或量的步骤以及以能够快速检索的形式存储功能遗传信息的步骤。本文中使用的术语“功能遗传信息”包括涉及或暗示一级序列或基因组序列的生物学/生物化学功能的任何类型的分子数据。于是功能遗传信息尤其包括(i)关于基因表达的信息和/或(ii)甲基化测序信息，优选是针对每个个体核甘酸(C或A)的甲基化测序信息；和/或(iii)指示活性基因和/或沉默基因的组蛋白标记物的信息，所述信息优选地是H3K4甲基化和/或H3K27甲基化的信息。额外的功能信息可以与突变相关联，例如，改变蛋白质功能和/或作为非编码RNA影响调控的单核甘酸多态性，或与拷贝数变化相关联，如在扩增或缺失的基因或非编码RNA中那样，其与蛋白质的功能相关联和/或作为非编码RNA的部分影响调控。

在本发明的特别优选实施例中，用于处理受试者基因组数据的方法额外地包括分析受试者基因表达的步骤。例如，该方法可以包括获得受试者基因表达的信息的步骤、减小这种信息的复杂性或量的步骤以及以能够快速检索的形式存储基因表达信息的步骤。本文中使用的术语“基因表达”涉及关于基因或遗传元件的转录、翻译和/或翻译后修饰的任何类型信息。优选地，关于基因表达的信息涵盖关于一个或多个RNA种类存在与否、一个或多个蛋白质种类存在与否、受试者的转录组、受试者的蛋白质组的信息或关于受试者转录组或蛋白质组的部分的信息。可以根据本领域的技术人员已知的任何适当方法，例如通过执行微阵列分析、通过执行PCR，尤其是定量PCR分析，通过执行蛋白质检测测定、2D凝胶电泳、3D凝胶电泳等，获得基因表达数据。其他适当技术会是本领域的技术人员已知的，或者可以从合格的教科书得知。可以利用来自受试者的样本，例如上文定义的样本，执行对应的测试。优选地，可以使用用于采集基因组序列的同一样本或在相同时间和/或在相同部位或位置、在同一器官、组织或组织类型中获取的样本来分析受试者的基因表达。可选地，也可以在对于受试者状况而言相关的特定条件下，例如对于疾病类型、性别、年龄组等而言相关的特定条件下，从信息仓库，例如从提供基因表达模式信息的数据库导出基因表达数据。此外，可以参考可从信息仓库或适当数据库获得的信息对针对受试者获得的基因表达数据进行比较、归一化、标准化和/或校正。

在另一特别优选的实施例中，可以减小功能遗传信息，例如基因表达信息的复杂性和/或量。优选通过剪切功能遗传信息，例如基因表达信息执行这种简化过程。本文中使用的术语“剪切功能遗传信息”和“剪切基因表达信息”是指专注于可用功能遗传信息或基因表达信息的特定参数、细节或特征的过程。例如，可以将功能遗传信息简化为关于特定基因、遗传元件、生化通路成员、特定区域的甲基化、特定调控元件、特定区域中的特定碱基等的信息。类似地，可以将基因表达信息简化为关于特定基因的表达信息、特定遗传元件或区域的表达信息、生化通路成员的表达信息、转录因子、生长因子等激活通路的反应中的表达信息。优选地，可以将功能遗传信息，尤其是基因表达信息简化为与疾病或失调相关的特征数据。例如，可以剪切除已知与特定癌症疾病相关的信息之外的功能遗传信息，例如基因表达信息。于是，基于现有技术已知的关于例如甲基化模式或与这种疾病相关联的表达模式的信息，就此而言，仅确定甲基化模式或表达，例如存在或没有相关标记物的RNA种类、蛋白质种类等。

此外，可以确定受试者的状况的其他参数，例如组织学参数、与细胞大小相关的参数、疾病的已知蛋白质评分等。

在本发明的另一优选实施例中，可以一开始获得关于受试者基因表达的信息，接着后续重复获得步骤。优选地，可以将受试者基因表达信息的采集重复一次、两次、3次、4次、5次、6次或更多次。可以在一段时间之间执行第二或另一采集，例如在1周之后、2周之后、3周之后、4周之后、2、3、4、5、6、7、8、9、10、11、12个月之后、1.5年、2年、3年、4年、5年、6年等之后或在更长一段时间之后或在这些时间点之间的任何适当时间点。第一次和第二次以及第二次和后续采集受试者的基因组序列之间的时间可以相同、基本相同或可以不同，例如增加或减少。例如，在处理监测期间，可以通过相等或越来越多或越来越少的间隔获得受试者的基因表达信息。优选地，可以调整受试者基因表达信息的采集或与受试者基因组序列的采集协调。优选的是在基本相同时间获得受试者的基因组序列和受试者的基因表达信息。

在初始采集之后第二次或更多次获得受试者的基因表达信息之后，或者如果一次提供，例如从不同组织或组织类型导出超过一组基因表达信息，则进行例如在初始采集中获得的基因表达信息和第二或更多次采集中获得的基因表达信息之间的比较。优选地，进行这种比较以揭示一开始获得的基因表达信息和接下来获得的基因表达信息之间，或在不同位置、器官、组织、细胞等中获得的基因表达信息之间的变化、修饰或差异。本文中使用的术语“比较”涉及匹配表达数据的任何适当方法或技术。典型地，可以采用本领域的技术人员已知的聚类算法。这种算法的范例包括分级聚类或k平均数聚类。可以从适当的出版物，尤其是从A.K.Jain和R.C.Dubes的“Algorithms for Clustering Data”，Prentice Hall，1988，得知其他范例，在此通过引用将其全文并入本文。

在优选的实施例中，在功能遗传信息——尤其是基因表达信息——的相继集合之间，例如，在一开始获得的功能遗传信息——例如基因表达信息——和所述信息采集的第一次重复中获得的信息之间进行比较。

在特别优选的实施例中，在第二次或后续次获得受试者的功能遗传信息(例如受试者的基因表达信息)时，存储与先前存储的功能遗传信息(例如先前存储的基因表达信息)的信息相比的增量数据。于是，可以存储在两组功能遗传信息(例如两组基因表达信息)之间有变化或不同的信息。

在特定实施例中，例如，在超过两次获得受试者的基因表达信息时，在第二次呈现数据时，可以识别基因表达数据的变化(即E²和E¹之间的差异)并将仅存储变化的片段(δE²)。在第n次呈现基因表达数据(Eⁿ)时，可以将先前的遗传数据(E^n-1)重建为：

Eⁿ和E^n-1之间如果有任何变化，可以检测到该变化并存储为δEⁿ。这种过程的优点是可以极大地减小存储功能遗传信息，尤其是基因表达信息，所需的存储器和存储空间。

在本发明的另一实施例中，关于受试者的功能遗传信息，例如本文所述的受试者的基因表达的信息，可以(i)与关于基因组序列的信息一起被存储和/或(ii)与基因组序列的信息链接。特别优选的是组合两种信息集的步骤，两种信息集即基因组序列信息和功能遗传信息，功能遗传信息例如是关注特定疾病或失调的基因表达信息，允许通过数据的相互影响的解释来解释受试者的健康状况。

此外，由于随时间采集增量数据，因而可以在例如疾病处置期间，患病进展期间等，观察到依赖于基因组序列状况的功能遗传变异过程，尤其是基因表达的过程。信息的这种组合有利地提供了一种可能性：允许更详细地解释受试者对处置、疾病进展、受试者前景等的响应。

本发明的另一方面涉及使用根据本文所述方法获得、处理和/或存储的基因组序列信息对疾病进行诊断、检测、监测或预测。在特定实施例中可以使用根据本文所述的方法获得、处理和/或存储的基因组序列信息与根据本文所述方法获得、处理和/或存储的功能遗传信息(尤其是基因表达信息)相组合，对疾病进行诊断、检测、监测或预测。

本文中使用的术语“诊断疾病”表示，在一开始获得的基因组序列信息与对于受试者的遗传学状况而言典型的预定义的状态不同时，可以认为受试者正在患病。本文中使用的术语“对于受试者的遗传学状况而言典型的预定义状态”表示，基于现有技术知识或检查，假设一个或多个特定基因和/或功能遗传状况(例如基因表达状况)是健康的，则假设偏离所述状况与疾病相关联。术语“诊断”还指通过该比较过程得到的结论。

本文中使用的术语“检测疾病”表示可以在所述生物体中识别出受试者体内存在疾病或失调。可以通过阐明基因组序列的变化来实现疾病或失调的确定或识别。更优选地，可以通过阐明基因组序列变化和功能遗传改变，例如这里所述的基因表达改变，来完成疾病或失调的所述确定或识别。

本文中使用的术语“监测疾病”涉及被诊断或检测疾病或失调的伴随状态(accompaniment)，例如，在治疗程序期间或一定时间期间，典型地，在1天、2天、5天、1周、2周、4周、2个月、3个月、4个月、5个月、6个月、1年、2年、3年、5年、10年或任何其他时间期间。术语“伴随状态”表示，基于根据本发明的方法获得的增量信息，或基于任何类型的周期性时间段中或在任何时间期间内相应的数据库值，可以检测到疾病的状态，尤其是这些状态的变化，所述时间段例如是每周、每2周、每个月、每2、3、4、5、6、7、8、9、10、11或12个月、每1.5年、每2、3、4、5、6、7、8、9或10年，所述时间期间例如分别是2周、3周、1、2、3、4、5、6、7、8、9、10、11、12个月、1.5、2、3、4、5、6、7、8、9、10、15或20年期间。

本文中使用的术语“预后疾病”是指，例如在特定一段时间期间、在治疗期间或治疗之后，预测所诊断或检测疾病的过程或结果。该术语还指确定从疾病中幸存或恢复的机会，以及预测受试者的预期存活时间。具体而言，预后可以涉及到确定将来一段时间期间受试者存活的可能，所述一段时间例如是6个月、1年、2年、3年、5年、10年或任何其他时间段。

优选地，可以通过能够快速检索的形式存储关于疾病的信息，例如诊断信息或预后信息。

本发明的另一实施例设想使用本文定义的方法制备受试者的分子历史或制作所述分子历史的文件。本文中使用的术语“分子历史”是指在定义的一段时间之内捕获完整基因组的或本文上面定义的它的子部分的功能方面，或调控物组的功能方面，或者以下项的调控状态的功能方面：基因组、基因组区域、基因、启动子、内含子、外显子、通路、通路成员、甲基化状态等。在一个实施例中，历史还可以包括各种分子分析模态。在优选的实施例中，可以在几天、1到7天，几周，例如1、2、3、4、5、6、7、8、9、10周，几个月，例如1、2、3、4、5、6、7、8、9、10、11、12个月，或几年，例如1、2、3、4、5、6、7、8、9、10、15、20、25或更多年的期间内，生成分子历史。可以以任何适当间隔，例如周期性地，每1到7天、1、2、3、4、5、6、7、8、9、10周、1、2、3、4、5、6、7、8、9、10、11、12个月、1、2、3、4、5、6、7、8、9、10年等，捕获完整基因组的或本文上面定义的它的子部分的功能方面，调控物组的功能方面，或以下项的调控状态的功能方面：基因组、基因组区域、基因、启动子、内含子、外显子、通路、通路成员、甲基化状态等。也可以非周期性地，例如在患者看病或拜访基因组专业人员时，执行捕获。可以以能够快速检索、容易访问的形式有利地提供分子历史。优选的是关注与一种疾病或疾病的限制组相关联的特定分子特征。在另一实施例中，也可以将这种信息与其他不直接与疾病相关联但提供关于受试者健康状况信息的临床指标链接。

要根据本发明确定、检测、诊断、监测或预后的疾病或失调可以是任何本领域技术人员已知的可检测疾病。在优选实施例中，所述疾病可以是遗传疾病或失调，特别是可以基于基因组序列信息检测到的失调。这样的失调包括，但不限于例如在适当科学文献、临床或医疗出版物、合格的教科书、公共信息仓库、因特网资源或数据库，尤其是在http:∥en.wikipedia.org/wiki/List_of_genetic_disorders中提高的那些中的一个或多个中提到的失调。

在本发明的特别优选实施例中，所述疾病是癌症疾病，例如本领域的技术人员已知的任何癌症疾病或肿瘤。更优选地，疾病为乳腺癌、卵巢癌或前列腺癌。

本发明的另一方面涉及一种临床决策支持和存储系统，包括输入，用于提供受试者的基因组序列信息及其功能性读出，例如基因或非编码RNA表达或蛋白水平；计算机程序产品，用于使得处理器能够执行本文中定义的减小基因组序列信息复杂性和/或量的步骤；输出设备，用于输出受试者的基因组变化、增量基因组改变或基因表达变化模式；以及用于存储所输出信息的介质。在特定实施例中，该临床决策支持和存储系统可以包括输入设备，用于提供与受试者的基因表达信息相组合的受试者的基因组序列信息；计算机程序产品，用于使处理器能够执行本文中定义的减小基因组序列信息复杂性和/或量的步骤以及减小基因表达信息复杂性和/或量的步骤；输出设备，用于输出受试者的基因组变化、增量基因组改变或基因表达变化模式；以及用于存储所输出信息的介质。

在特定实施例中，所述临床决策支持和存储系统可以是分子肿瘤学决策工作站，优选地具有捕获人或患者的分子历史的纵向数据。可以将决策工作站优选地用于确定受试者癌症治疗的开始和/或继续。更优选地，可以将决策工作站用于决定对治疗的响应性的概率和可能。还设想了针对不同疾病类型，例如本文上面提到的任何疾病，的类似决策工作站。

在另一实施例中，本发明还设想一种在本文所述的决策工作站上使用的软件或计算机程序。在一个实施例中，该软件可以基于本文所述的基因组序列信息的分析。例如，该软件可以实现本文中所述的用于减小基因组序列信息复杂性和/或量的方法步骤。在另一实施例中，该软件可以额外地实现本文中所述的用于减小基因表达信息复杂性和/或量的方法步骤。在又一特定实施例中,该软件可以实现本文中上面所述的基于特征参考序列的比较步骤。在另一实施例中，该软件可以实现受试者历史的分子历史的文件制作。

可以通过任何适当方式或格式，优选以如下存储结构相应地存储输出的所获数据，所述存储结构1)是分层的，和/或2)用时间信息编码和/或额外地，3)包括指向患者数据、图像、报告等的链接。更优选的是诸如差分DNA存储器结构(DDSS)的存储器结构。

在本发明的又一特别优选实施例中，临床决策支持和存储系统可以是电子图片/数据存档及通信系统。这种电子图片/数据存档及通信系统的范例是PACS系统。特别优选的是Philips提供的iSite PACS系统。可以调节或修改这些系统，以便符合本发明的方法要求和/或以便能够执行本文所述的计算机程序或算法和/或以便如本文定义的那样存储基因组序列信息和/或功能遗传信息。

提供以下范例和附图是为了例示的目的。因而应该理解范例和附图不应被解释为限制。本领域的技术人员将明确地能够设想对本文所示原理的其他修改。

范例

范例1–比较比对参数

比对算法设置的当前极限通常在最多5个错配(例如取代、缺口)和最多3个插入和缺失。通常，使用2bp错配作为默认输入参数，用于优化存储器/处理器的使用和运行时间。否则，参数超过那些值，靶的数目会暴增。不过，这远少于要执行对更大插入和缺失搜索时所需的数量。从RefSeq调用多少读取匹配和变化与输入参数成正比，如表1所示。表1示出了分别使用2bp和3bp错配定位的对鼠chr19的11MRNA-Seq读取。因此可以看出，3bp定位给出了18.5％的更加唯一地定位的读取，它们中的42％落在传统RefSeq基因注释的转录区域中，这仅占基因组的2～3％。

表1：允许不同错配的条件下，读取与RefSeq的比对。

定位参数	唯一定位的读取	定位到转录区域的读取
			2bp错配	308,095	195,986
3bp错配	365,172	220,050

基于本发明中所述的较小的疾病/应用特别关注的参考序列(例如sRefSeqI、sRefSeqII、sRefSeqIII)，可以增加错配和插入缺失的数量，由此能够检测到具有高临床意义的更大基因组变异。

范例2–监测患者随时间对治疗的响应

可以使用根据本发明的方法获得的增量信息监测患者随时间如何对治疗响应(参见图5)。可以检查开始对患者治疗之后计算的δG，以查看他/她对治疗响应有多快。如果变化极小，或者患者完全恢复(如果Gⁿ等于G¹)，亦或对治疗响应不好，在对治疗响应不好的情况下，应当采用替代治疗。

范例3–预测疾病趋势

也可以使用增量信息跟踪并预测疾病趋势，接着可以使用疾病趋势对疾病(例如，癌症)进行诊断和分期。例如，如果可获得患有特定疾病的患者(在诊断阶段期间)的δG，则可以使用它们检测疾病进展期间的关键基因变化。可以使用这种信息检测其他患者的疾病早期发作。而且，可以使用它们识别人的基因组成对疾病进展的影响。例如，在具有正常概况的癌症患者中(参见图6)，可以检测到诊断患者患有结肠直肠癌的变化。经过化学治疗和辐射治疗可能实现非常接近诊断出疾病之前的正常概况。矩阵中的值可以代表RNA信号的水平(基因表达数据-或基因拷贝数多态性的值)。

在疾病进展期间，超过图6中提供的数据的更多的分子数据，可能是相关的。例如，在每次化学治疗治疗期之后三天，可以有一次测序试验，以便查看对治疗的总体响应。在每个时间点，通常还可以随时间拍摄诊断图像(例如MRI)并可以存储差异数据。

在图6中，在疾病进展阶段中，6个值发生了显著变化，然后在治疗之后，这些值中的3个返回正常，3个值变得接近初始值。因此，在分子历史存储器中，δG²将具有6个值，δG³将具有3个值。δG²将代表对于疾病的这个阶段而言与已知概况匹配的概况。在现实生活的范例中，值的数量可以是，例如31.647亿个化学核苷酸碱基(A、C、T和G)。

范例4–疾病进展的速率

患者在疾病进展期间可能会经历几个基因测试。以较小时间间隔执行的两次相继测试之间的变化可以是极小的，但仍然可以提供关于疾病进展速率的关键信息。图7针对图6中给出的范例示出了疾病进展期间基因拷贝数(GCN)的变化。对于图示的各个阶段，δG的数量分别是三个、两个和一个。例如，在Tjaden等人，2006，Applied Mycology andBiotechnology：Bioinformatics，6中论述的技术可用于分析增量数据。例如，在患有相同疾病的多位患者从疾病发作开始的相等时刻可获得增量数据，可以基于疾病进展速率利用k平均值方法将它们聚类到各个类别中。在有新患者的增量数据时，可以将其与k平均值(或质心)比较，并且可以估计发展速率。这样可以帮助为患者选择适当的治疗。对于每个聚类而言，可以关联患者的类别，例如：“对化学治疗有正面响应”，即这个聚类与初始聚类(健康状态)更接近，较之于表示“对化学治疗没有响应”的聚类，即δG的值变得更高，比“健康”聚类中的矩阵更远。

Claims

1.一种用于处理受试者的基因组数据的方法，包括：

(a)使用下一代测序方法获得受试者的基因组序列信息，其中所述基因组序列信息具有至少90％的覆盖；

(b)减小所述基因组序列信息的复杂性和量，其包括剪切除特异于疾病或失调的遗传或基因组变化的特征数据之外的所述基因组序列信息；并且

(c)以能够快速检索的形式存储步骤(b)的所述基因组序列信息；

其中所述特征数据包括从如下项的组中选择的两种或更多种：错义突变、无义突变、单核甘酸多态性(SNP)、拷贝数变化(CNV)、剪接变化、调控序列的变化、小缺失、小插入、小插入缺失、总缺失、总插入、复杂遗传重排、染色体间重排、染色体内重排、杂合性缺失、重复序列插入和重复序列缺失。

2.根据权利要求1所述的方法，其中，所述基因组序列获得自受试者的样品，优选地获得自组织、器官、细胞和/或它们的碎片的混合物，或者获得自组织或器官特异性的样品，例如获得自阴道组织、舌头、胰腺、肝脏、脾脏、卵巢、肌肉、关节组织、神经组织、胃肠组织、肿瘤组织、体液、血液、血清、唾液或尿液的组织活检。

3.根据权利要求1或2所述的方法，其中，步骤(a)包括受试者的基因组序列的重复采集，并且其中，执行初始采集中获得的基因组序列信息和第二次或进一步采集中获得的基因组序列信息之间的比较。

4.根据权利要求3所述的方法，其中，在额外的步骤中，以能够快速检索的形式存储增量数据，所述增量数据包括在初始获得的基因组序列信息和第二次或进一步采集中获得的基因组序列信息之间不同的信息。

5.根据权利要求1或2所述的方法，其中，通过将受试者的基因组序列与参考序列比对来执行步骤(b)，其中所述参考序列包括特异于疾病或失调的遗传或基因组变化的特征数据，并且其中，所述比对通过使用反向互补序列来执行。

6.根据权利要求1至5中任一项所述的方法，其中，所述方法还包括步骤：(d)获得所述受试者的功能遗传信息，(e)减小这种信息的复杂性和/或量，以及(f)以能够快速检索的形式存储所述功能遗传信息，其中，减小所述功能基因信息的复杂性和/或量的所述步骤通过剪切除特异于疾病或失调的遗传或基因组变化的特征数据之外的所述功能遗传信息来执行。

7.根据权利要求6所述的方法，其中，所述功能遗传信息包括(i)关于基因表达的信息，优选地是关于一种或多种RNA种类、一种或多种蛋白质种类、所述受试者的转录组或其部分、所述受试者的蛋白质组或其部分、或它们的混合物的存在的信息；和/或(ii)甲基化测序信息，优选地是针对每个个体核甘酸(C或A)的甲基化测序信息；和/或(iii)指示活性基因和/或沉默基因的组蛋白标记的信息，所述信息优选地是H3K4甲基化和/或H3K27甲基化的信息。

8.根据权利要求1或7所述的方法，其中，将基因组信息和/或功能遗传信息的变化编码为矩阵，并且其中，基于马尔可夫链过程对与基因、基因组区域、调控区、启动子、外显子或通路的状态相关的信息进行解码和表示，优选地，所述状态是在疾病或失调背景下的状态。

9.根据权利要求1至8获得和/或存储的基因组序列信息的用途，所述基因组序列信息任选地与基因表达信息组合，所述用途为制备受试者的分子历史，优选地通过在定义的一段时间内捕获完整基因组的功能方面，调控物组的功能方面，或以下项的调控状态的功能方面：基因组、基因组区域、基因、启动子、内含子、外显子、通路、通路成员或甲基化状态。

10.根据权利要求5至8中任一项所述的方法，或根据权利要求9所述的用途，其中，所述疾病是癌症疾病，优选地是乳腺癌、卵巢癌或前列腺癌。

11.一种临床决策支持和存储系统，包括：

输入设备，其用于提供受试者的基因组序列信息，任选地提供受试者的基因组序列信息与受试者的功能遗传信息的组合；

计算机程序产品，其用于使得处理器能够执行根据权利要求1至8或权利要求10中任一项所述的方法的步骤(b)以及任选地步骤(e)，

输出设备，其用于输出受试者的基因组改变、增量基因组变化或基因表达变化模式，以及

用于存储所输出的信息的介质。

12.根据权利要求11所述的系统，其中，所述系统是电子图片/数据存档及通信系统。