CN104541276A

CN104541276A - 使用基于树的空间数据结构对基因数据集的群体分类

Info

Publication number: CN104541276A
Application number: CN201380041817.7A
Authority: CN
Inventors: B·查克拉巴蒂; P·穆尼亚帕; S·库马尔; R·辛格; A·马特胡尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2012-08-07
Filing date: 2013-08-07
Publication date: 2015-04-22
Also published as: EP2883179A2; BR112015002556A2; CN111667885A; WO2014024142A3; RU2015108003A; JP6310456B2; WO2014024142A2; JP2015526816A; US20150186596A1

Abstract

构建表示参考群体的参考基因数据集的参考特征向量。使用线性变换来对所述参考特征向量进行变换以生成所述参考群体的所述参考基因数据集的降低的维度的向量表示。构建基于树的空间数据结构以将所述参考基因数据集索引为数据点，所述数据点由所述参考群体的所述参考基因数据集的所述降低的维度的向量表示的至少一些维定义。可以通过对所述参考特征向量执行特征约简来生成所述线性变换。使用所述线性变换对表示先证者基因数据集的特征向量进行变换以生成降低的维度的向量表示，所述降低的维度的向量表示被定位在所述基于树的空间数据结构中以执行针对所述先证者基因数据集的群体分配。

Description

使用基于树的空间数据结构对基因数据集的群体分类

技术领域

下文总体上涉及基因分析领域、医学领域，并且涉及基因分析领域、医学领域的应用，例如包括肿瘤学领域、兽医学领域等的医学领域的应用。

背景技术

能够使用诸如微阵列和“下一代”测序系统的技术来采集针对个体的大的基因数据集，其中，微阵列能够生成数万到数十万的基因数据点，例如，每个对应于目标蛋白等的表达水平，“下一代”测序系统能够输出构成数百万或更大基数的大的序列以及甚至整个基因组序列。根据这样的数据集，能够识别诸如单核苷酸多态性(SNP)、拷贝数变异(CNV)等的各种基因标记物，该基因标记物是医学检验的，例如指示特定类型的癌症。

已知，对这样的基因标记物的解读通过按种族、性别或其他群体分组对个体的分类的知识得到促进或者在一些情况下需要按种族、性别或其他群体分组对个体的分类的知识。例如，基于群体，一些基因组变异体(注意，如本文中所使用的，“基因”和“基因组”被认为是可互换的)已经与超过一个不同的基因失调相关联。在一些情况下，等位基因在一个群体中是主要等位基因，而在另一个群体中是次要(以及疾病指示性)等位基因。因此，对于对基因变异体的适当解读而言，获知适当的群体是有用的或者甚至是必须的。

在一些情况下，能够基于现有的知识和/或观测到的表现型来对基因数据集进行分类。例如，患者的性别或种族可以是已知的或自报告的。然而，该方法能够易于出错。一些分类对于对象和处置医学人员而言也可以是未知的。例如，患者可以未知地属于由未确诊的医学状况或由指示对特定疾病的倾向的基因标识定义的群体组。当一些处置的效力在群体之间可以不同时，对群体的适当识别在疾病管理中也是重要的。此外，由于笔误或遗漏、或者个人隐私或文化敏感性考虑，基因数据集可能没有标记有可用的分类信息。

能够备选地基于诸如基因型、表达/甲基化状态等的群体特异性基因标记物来将基因数据集分配给群体。该方法有利地从基因数据集自身导出群体分组信息。

当对新个体执行基因分析时，所采集的基因数据集经受该群体分类。类似地，当执行对在个体的群体内的子群体的基因分析时，这样的分类同样是初步操作。对基因数据集的群体分类通常是耗费时间的过程，并且必须针对分析下的(例如，每个新患者)每个新的基因数据集被执行。

此外，依赖于观测基因数据集中的离散基因标记物(例如，特异性群体指示性等位基因)的群体分类方法在群体分类过程中不利用完整基因数据集。

下文预见克服上述限制和其他限制的改进的装置和方法。

发明内容

根据一个方面，一种非暂态存储介质存储能由电子数据处理设备运行以执行包括以下的方法的指令：对表示参考群体的基因数据集的特征向量执行特征约简以生成将所述特征向量映射到与所述特征向量的维度相比降低的维度的向量空间的映射；使用所述映射来生成所述参考群体的所述基因数据集的降低的维度的向量表示；并且将所述参考群体的所述基因数据集的所述降低的维度的向量表示存储为基于树的空间数据结构中的数据点。所述映射是适当的线性变换，并且可以是Y＝M(X)，其中，X是表示基因数据集的特征向量，Y是所述基因数据集的所述降低的维度的向量表示，并且M是变换矩阵。所述特征约简可以采用主成分分析(PCA)。所述方法还可以包括：利用与从其采集所述参考群体的所述基因数据集的对象有关的信息来标注所述基于树的空间数据结构中的所述数据点；并且基于数据点的分布和所述数据点的标注来将所述基于树的空间数据结构的空间区域与在所述参考群体内的群体相关联，例如，通过执行对由所述基于树的空间数据结构索引的所述空间中的所述标注的数据点的聚类。所述方法还包括：使用所述映射来生成先证者基因数据集的先证者降低的维度的向量表示；将所述先证者降低的维度的向量表示定位在所述基于树的空间数据结构中；并且基于所述先证者基因数据集在所述基于树的空间数据结构中的位置来对所述先证者基因数据集进行分类。

根据另一方面，一种装置包括如前一段所述的非暂态存储介质，以及电子数据处理设备，所述电子数据处理设备被配置为读取并运行在所述非暂态存储介质上存储的指令。

根据另一方面，一种方法包括：构建表示基因数据集的特征向量；使用线性变换来降低所述特征向量的维度以生成所述基因数据集的降低的维度的向量表示；将所述基因数据集的所述降低的维度的向量表示定位在基于树的空间数据结构中；并且基于所述基因数据集的降低的维度的向量表示在所述基于树的空间数据结构中的位置来将所述基因数据集分配给一个或多个群体。至少所述构建、所述生成和所述定位适当地是由电子数据处理设备执行的。

根据另一方面，一种装置包括电子数据处理设备，所述电子数据处理设备被编程为：构建表示参考群体的参考基因数据集的参考特征向量；使用线性变换来对所述特参考征向量进行变换以生成所述参考群体的所述参考基因数据集的降低的维度的向量表示；并且构建基于树的空间数据结构以将所述参考基因数据集索引为数据点，所述数据点由所述参考群体的所述参考基因数据集的所述降低的维度的向量表示的至少一些维定义。可以通过对所述参考特征向量执行特征约简来生成所述线性变换。

一个优点在于对基因数据集的更有效的群体分类或分组。

另一优点在于对基因数据集的更准确的群体分类或分组。

另一优点在于提供了可容易扩展的以更精细分辨的群体分组(即，可扩展以定义子群体)的群体分类架构。

另一优点在于基于聚集的基因数据集而不是基于预先定义的离散基因标记物来执行对基因数据集的群体分类或分组。

另一优点在于以降低的计算复杂性例如使用预先计算的线性变换而不对要分类的每个样本重新执行特征约简来执行群体分组。

对本领域的普通技术人员而言，在阅读下文详细描述后，许多额外的优点和益处将变得显而易见。

附图说明

本发明可以采取各种部件和部件的布置，以及各种过程操作和过程操作的安排的形式。附图仅出于图示优选实施例的目的，并且不得被解释为对本发明的限制。

图1以图解的方式示出用于生成采用基于树的空间数据结构(SDS)的群体分类器的系统。

图2以图解的方式示出当使用二维数据点时由图1的系统适当地生成的说明性四叉树结构。

图3以图解的方式示出当使用三维数据点时由图1的系统适当地生成的说明性八叉树SDS。

图4以图解的方式示出由图1的系统生成的群体分类器的操作。

具体实施方式

参考图1，以图解的方式示出了用于生成用于对基因数据集进行分类的群体分类器的系统。该系统适当地由被编程为执行所公开的处理操作的计算机或其他电子数据处理设备10来实施，并且该系统接收针对参考群体的成员的多个基因数据集12作为输入。基因数据集能够例如包括使用微阵列或其他实验室处理生成的基因测序数据(核DNA数据、线粒体DNA数据、RNA数据、甲基化数据等)、蛋白质表达数据。在一些实施例中，基因数据集12包括全基因组序列WGS数据集或由下一代测序装置生成的其他大量基因序列。基因数据集12任选地可以包括超过一种类型的基因数据，例如，测序数据和微阵列数据两者。基因数据集12基本上是重叠的(即，包括相同的基因区域、产生自相同的标准微阵列等)并且经历标准化过滤和/或处理14。通过“标准化”，其意味着基因数据集12全部经历相同的过滤和/或处理14，该过滤和/或处理可以通过说明性举例的方式包括对单核苷酸多态性(SNP)或诸如拷贝数变异(CNV)等的其他基因变异体的识别、对基因表达数量的归一化、对数据的二值化(或更一般地，离散化)、对异常值的去除等。在操作16中，针对每个经过滤/经处理的参考基因数据集生成标准化特征向量X。通过“标准化”，其意味着每个特征向量X具有与对应的向量元素相同的维数(即，相同的维度)，例如，如果向量元素x₃将特定的SNP表示在一个特征向量中，则向量元素x₃还将相同的SNP表示在所有其他特征向量中。操作14、16的输出是对应于并且表示参考基因数据集12的集的特征向量X的集。因此，如果在参考基因数据集12的集中存在m个个体，则存在m个对应的特征向量。

总体而言，特征向量X可以是高维度的，例如，每个特征向量X包含数百、数千、数万或更多的特征(即，向量元素)。根据基因组学文献，各种特征可以被识别为是与特定群体相关或反相关的，其中，如本文中所使用的群体广泛地涵盖个体的任何检验的分组。群体的一些范例包括种族群体、性别群体、后生群体、疾病群体(例如，具有糖尿病的人)、疾病倾向群体(即，其基因组成使其易于感染特定疾病的人)等。能够通过对群体的交集来定义感兴趣群体，例如，感兴趣群体可以是中欧种族群体与女性性别群体的交集(即，中欧种族的女性群体)。感兴趣群体能够是较大的涵盖性群体的子群体，例如，印度人群体能够被分为各种种族群体，例如，旁遮普人、孟加拉人等。

本文认识到，然而，依赖于预先确定的离散基因标记物来将对象分配给群体具有许多不足。当新的基因研究改善或校正先前确定的基因标记物关联性时，得到的分类可能变得过时。基于预先确定的离散基因标记物的分类也不可容易扩展到可能随着时间变成感兴趣的新的且不同的群体分组。离散标记物与各个群体之间的相关性的强度在一些情况下也可能是弱的，或者给定的对象可能具有相互矛盾的基因标记物(例如，标记物A可以指示对象属于群体P，然而标记物B可以指示该对象不属于群体P，从而使分配不明确)。

所公开的群体分类技术不依赖于预先确定的离散基因标记物，而是相反地基于聚集的基因数据集。为此目的，基因数据集被表示为降低的维度的向量表示，使用基于树的空间数据结构(SDS)对该降低的维度的向量表示进行索引。能够使用大量并且降低特征的算法来实现降低的维度，该算法例如是主成分分析(PCA)、探索性因子分析(EFA)、多维尺度分析(MDS)、核主成分分析(KPCA)等。得到的降低的维度的向量表示具有其值“融合在一起”或“混合”特征向量X的特征的向量元素或成分。得到的降低的维度的向量表示被索引在基于树的空间数据结构(SDS)中，该基于树的空间数据结构提供用于对基因相似的对象进行识别和分组的有效机制。因此预期基因相关的个体的群体(例如，种族群体)被空间定位在基于树的SDS中。

继续参考图1，使用Y＝M(X)形式的映射或线性变换适当地执行维度降低，其中，X是表示(例如，由操作16输出的)基因数据集的特征向量，Y是基因数据集的降低的维度的向量表示，并且M是变换矩阵。为此目的，应用特征约简操作18，例如，主成分分析(PCA)、探索性因子分析(EFA)、多维尺度分析(MDS)、核主成分分析(KPCA)等。

通过说明性举例的方式，在说明性特征约简操作18中采用PCA。当与均值减(即，均值中心化)结合应用PCA时，PCA成分对应于输入数据集中的大变化的方向。PCA成分是被称为主成分的不相关的变量。通过对矩阵的维度的适当选择，能够选择PCA来生成任何数量的主成分。因此，PCA操作18(在均值中心化的情况下)生成线性变换矩阵M，该线性变换矩阵在特征向量X(或被布置为矩阵的行的这样的向量集)上操作并且输出降低的维度的向量表示Y(或者在输入X是特征向量的矩阵时输出被布置为矩阵的行的降低的维度的向量表示的集)。原则上，能够人工地构建线性变换矩阵M；然而，使用PCA或其他特征约简技术来提供用于构建线性变换矩阵M的自动化方法，使得(一个或多个)输出的降低的维度的向量表示的元素具有对区分不同基因群体有高度鉴别力的向量元素。(例如，在PCA中，该鉴别力来自使变化最大化的主成分)。

对于大部分特征约简算法(包括PCA)而言，能够选择特征约简操作18来输出具有任何选定维数的降低的维度的向量表示Y。为了实现对存储在特征向量X中的基因特征的期望融合或混合，并且为了提供计算效率，优选地，与特征向量X的维度相比较降低(一个或多个)降低的维度的向量表示Y的维度。换句话说，特征约简18在表示参考群体的基因数据集12的特征向量X上操作以生成映射20，该映射将特征向量X映射到与特征向量X的维度相比降低的维度的向量空间。当特征约简的量被增大(对应于进一步降低的维度，即，降低的维度的向量表示Y具有更少的维)时，对特征的融合或混合和计算效率两者都得到改进。在一些实施例中，降低的维度的向量表示Y具有两个维或三个维，但是预见针对降低的维度的向量表示Y的更高维度。

特征约简操作18适当地生成Y＝M(X)形式的映射或线性变换20，其中，X是表示基因数据集的特征向量，Y是基因数据集的降低的维度的向量表示，并且M是变换矩阵。实际上，特征约简操作18用来优化变换矩阵M，以最大化对针对特征向量X的集的降低的维度的向量表示Y的元素的鉴别力，特征向量X的集表示参考群体的基因数据集12。通常针对降低的维度的向量表示Y的选定维度进行该优化(但是预见到采用优化降低的维度的向量表示Y的维度的特征约简算法)。此后，能够将映射20应用到参考群体的每个特征向量X，以生成对应的降低的维度的向量表示Y。(为了计算效率，能够在单个矩阵操作中进行该变换，在单个矩阵操作中，线性变换M在其行是参考群体的特征向量的矩阵上操作)。此外，如果参考群体包括m个个体，这些由通过操作14、16生成的m个特征向量X表示，并且这些m个特征向量X被用于特征约简操作18中以优化映射20，并且最终由映射20(单独地或者通过在其行是m个特征向量X的矩阵上操作)对这m个特征向量X进行变换，以生成对应的m个降低的维度的向量表示Y。

继续参考图1并且简要地进一步参考图2和图3，在操作22中，构建基于树的空间数据结构(SDS)，基于树的空间数据结构索引m个降低的维度的向量表示Y。使用划分向量空间的递归空间划分算法来构建基于树的SDS。一些已知的基于树的SDS包括四叉树结构(参见图2；可应用于二维向量空间并且递归地将每个空间区域划分为四个部分)、八叉树结构(参见图3；可应用于三维向量空间并且递归地将每个空间区域划分为八个部分)、超树结构(即，对高于三维的推广)、k-d树结构、UB树结构等。基于树的SDS众所周知被用于地理信息系统(GIS)应用中(例如，使得能够放大和缩小的计算机化地理绘图应用)，因为基于树的SDS使得能够高效地从粗糙的空间分辨率“向下钻取”到精细位置分辨率。有利地(并且如在各自的图2和图3的四叉树结构和八叉树结构中以图解的方式图示的)，在一些SDS索引中，递归划分的层的数量能够局部性地变化。在GIS应用中，例如，递归划分在群体密集城市可以被执行更高数量的层(给出更精细的空间分辨率)，然而递归划分在具有少的感兴趣特征的群体稀疏区域或无群体区域可以被执行更少的层(给出较粗糙的空间分辨率并且需要较少的存储器或存储设备)。

在GIS应用中，基于树的SDS的另一优点是其容易被调整以增大群体增长的区域中的空间分辨率。这能够通过将额外的递归划分(即，增加更多层)应用到表示高群体增长的地理区域的一个或多个区域来完成。反之，如果存储器或存储设备是稀缺的，则能够通过合并SDS的“叶子”区域来修改群体下降的区域，以“取消”递归空间划分的后面的递归。

操作22构建基于树的SDS以索引参考群体的m个个体的m个降低的维度的向量表示Y。基于树的SDS自动地操作以对在相同的空间划分或区域中，或在相邻的空间划分或区域中具有(如由其降低的维度的向量表示Y所表示的)相似基因组成的个体进行分组。

在一些实施例中，基于树的SDS构建操作22构建具有与降低的维度的向量表示Y的维度相同的维数的基于树的SDS。例如，如果降低的维度的向量表示Y具有三个维，则在这些实施例中，所构建的基于树的SDS也具有三个维(并且可以例如是八叉树)。

备选地，基于树的SDS构建操作22可以构建比降低的维度的向量表示Y的维度具有更少的维的基于树的SDS。例如，如果降低的维度的向量表示Y具有三个维，则在这些实施例中，构建的基于树的SDS可以仅具有两个维(并且可以例如是四叉树)。在PCA的情况下，第一主成分通常具有最大的变化(针对训练群体，在该情况下，针对参考群体)，第二主成分具有第二最大的变化等。因此，如果PCA生成的降低的维度的向量表示Y的少于全部的维被用于构建基于树的SDS中，则一般有利的是，使用“前N个”主成分。

操作22因此将参考群体的基因数据集12的降低的维度的向量表示存储为基于树的空间数据结构中的(参考)数据点。这些数据点可以与降低的维度的向量表示具有相同的维数(在降低的维度的向量表示实质上“是”数据点的情况下)。备选地，数据点可以比降低的维度的向量表示具有更少的维，例如，在由三(或更多)维PCA生成的降低的维度的向量表示的前两个主成分表示每个数据点的情况下。构建的基于树的SDS可以是与数据点的维度相称的任何结构，例如，四叉树结构(用于索引二维数据点)、八叉树结构(用于索引三维数据点)、k-d树结构、UB树结构等。

在操作24中，对由基于树的SDS索引的(参考)数据点进行标注、分组或以其他方式标记，以定义种族群体、表现型群体或其他感兴趣群体。通常，操作24涉及：利用与从其采集参考群体的基因数据集的对象有关的信息来标注基于树的SDS中的数据点；并且基于数据点的分布及数据点的标注来将基于树的SDS的空间区域与参考群体内的群体相关联。关联能够需要执行对由基于树的SDS索引的空间中的标注的数据点的聚类。通过说明性举例的方式，适当的聚类算法包括k均值聚类、k中心点聚类等。k中心点聚类技术通常比k均值聚类更容忍异常值。

参考说明性图3的八叉树结构，基于树的SDS的空间性质意味着基因相似数据点的聚簇在向量空间中形成相邻的区域。在说明性图3中，由虚线圆圈以图解的方式指示五个说明性聚类。(注意，由于八叉树结构是三维的，所以这些聚簇实际上是三维的，例如，球形、椭球形、一些不规则形状等)。在基于树的SDS中执行聚类能够是有利的，因为例如能够通过对包含数据点的基于树的SDS的叶子节点中的点进行计数，并且之后向外扩展到更高层直到识别到N个邻居(其由于基于树的SDS的空间性质而是最近的邻居)，来完成对该数据点的N个最近的邻居的识别。

图1的系统的输出是群体分类器，该群体分类器包括映射20和基于树的SDS以及基于树的SDS的由操作22、24生成的索引的参考点。映射20可以有利地例如使用基于矩阵的映射公式Y＝M(X)被实施为线性变换，其中，M是变换矩阵。

参考图4，描述了由图1的系统生成的群体分类器30的操作。群体分类器30适当地由计算机10实施，该计算机可以是与在其上实施图1的系统的计算机相同的计算机，或不同的计算机。对群体分类器30的输入是从通常(尽管并不必须)不是参考群体的成员的“新”个体33提取的新的基因数据集32。(应当注意，如本文中所使用的个体或对象通常是人类个体或对象，如是用于基因医学测试、人类群体研究等的情况；然而更一般地，如本文中所使用的个体或对象可以是个体动物或动物对象，如适当地是临床前测试或兽医实践中的情况，或者可以是木乃伊或其他死亡的人类或动物对象，如适当地是死后法医基因测试、考古木乃伊测试等中的情况)。

总体而言，新对象33可以是先证者对象，即，研究下的特定个体或对象，或者是基因分析报告的对象。

备选地，新对象33可以是被增加以更新群体分类器的额外参考对象。有利地，利用新的对象或个体容易地更新所公开的群体分类器技术，同时基于树的SDS划分分辨率(即，层的数量)根据需要增大以在基于树的SDS的各个区域中容纳更高的群体密度，并且对群体区域的任何更新任选地被局限于其中增加新的个体的区域。如果新的医学研究指示更精细的分辨率的群体定义(例如，定义子群体)对于特定基因分析而言是有用的，则还可以通过进一步划分增大分辨率。

由过滤/处理操作14和特征向量生成操作16处理新的基因数据集32，以生成表示新的基因数据集32的特征向量X。这些是与被应用到图1的系统中的参考基因数据集12的相同的操作14、16，使得表示新的基因数据集32的特征向量可与表示参考群体的特征向量相比较。即，表示新的基因数据集32的特征向量是与表示参考群体的特征向量相比具有相同的维数(即，相同的维度)以及对应的向量元素的标准化特征向量。

继续参考图4，之后使用由通过图1的系统执行的特征约简操作18优化的映射20对表示新的基因数据集32的该标准化的特征向量进行变换。该变换生成新的基因数据集32的降低的维度的向量表示Y，该新的基因数据集32的降低的维度的向量表示借助由标准映射20生成而与参考群体的参考基因数据集12的降低的维度的向量表示相比较具有相同的维度和对应的向量元素。因此，能够使用“向下钻取”过程34、36，将新的基因数据集32的降低的维度的向量表示Y定位在基于树的SDS中。在操作34中，将新的基因数据集32的降低的维度的向量表示Y分配给(即，被定位在)基于树的SDS的顶层区域。在操作36中，将新的基因数据集32的降低的维度的向量表示Y递归地分配给基于树的SDS的每个下一更低层，直到满足停止标准，例如到达基于树的SDS的叶子节点或到达期望的空间分辨率。由于用于生成基于树的SDS的递归划分，操作36计算有效。在任何给定层处，Y在下一更低层中的位置在包含Y的当前层的区域的划分(即，“子”区域)中的一个中是必需的。对于四叉树结构而言，仅存在四个要搜索的(子)区域；对于八叉树结构而言，存在八个要搜索的区域；等。

继续参考图4，如果新对象33是先证者对象，则在操作38中，基于新的基因数据集32的降低的维度的向量表示Y在基于树的SDS中的位置，将先证者对象分配给一个或多个群体。由于基于树的SDS的空间性质，群体通常对应于空间区域，即对应于基于树的SDS的一个或多个相邻的区域。因此，如果新的基因数据集32的降低的维度的向量表示Y位于该空间区域或相邻的区域的组中，则将新对象33分配给该群体。(应当注意，给定的区域可以属于超过一个群体，例如，给定的区域可以属于印度人种族群体、孟加拉人(子)群体、女性性别群体等。

降低的维度的向量表示Y(与特征向量X相比)的维降低意味着降低的维度的向量表示Y不包含全部原始基因信息。因此，降低的维度的向量表示Y不是用于执行诸如识别特异性SNP或其他特异性基因标记物的基因分析的适当的数据集。相反地，降低的维度的向量表示Y被用于群体分配。通常执行随后的基因分析40来识别SNP、基因表达水平或指示针对先证者对象被分配给的群体的疾病或其他表现型特性的其他基因标记物。基因分析40可以在特征向量X上操作，在这种情况下处理操作14、16被利用在随后的基因分析40中。额外地或备选地，可以利用原始基因数据集32(如在例如过滤14可以具有丢弃的感兴趣SNP时可以是合适的)。

如果新对象33是先证者对象，则执行基因分析40。另一方面，如果新对象33是用于更新群体分类器的新的参考对象，则群体分类器更新操作适当地跟在位置操作34、36之后。例如，对应于(或者，在一些实施例中，相同于)新的基因数据集32的降低的维度的向量表示Y的数据点可以在其适合的位置处被增加到基于树的SDS，并且利用已知的与新的参考对象33有关的信息对该数据点进行标注。新的参考对象33属于的群体可以被重新聚类或以其他方式被重新定义或者被调整，以说明由新的基因数据集32的降低的维度的向量表示Y及其标注表示的新的信息。

在前面的描述中，已经总体上假设每个基因数据集对应于个体对象。然而，应认识到，在一些情况下，单个个体可以是两个或更多个不同基因数据集的源。例如，癌症患者可以具有从健康组织采集的基因样本以生成健康组织基因数据集，以及从恶性肿瘤采集的基因样本以生成疾病基因数据集。在这样的情况下，健康基因数据集和疾病基因数据集单独地被处理，并且定义每个能够被定位在基于树的SDS中的单独的数据点，其中，它们之间的距离指示健康组织与疾病组织之间的基因差异。

在说明性图1和图4中，由计算机或其他电子数据处理设备10实施所描述的系统。还应当理解，能够由非暂态存储介质来实施这些系统和所公开的群体分配技术，所述非暂态存储介质存储能由电子数据处理设备运行以执行所公开的操作的指令。例如，所述非暂态存储介质可以是硬盘驱动器或其他磁性存储介质、或光盘或其他光学存储介质、或随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器或其他电子存储介质；其各种组合等。

所公开的群体分配技术提供用于存储群体聚簇数据的有效机制，即基于树的SDS，并且借助于该存储机制，提供对新的测序的、基因型的或以其他方式采集的基因数据集进行快速分类的鲁棒方法。在其中可以有利地获知哪些个体在群体来源方面与先证者个体基因相似的研究或临床应用的情况下，所公开的方法提供呈现这样的信息而不泄露参考个体的实际基因序列或标识的方式，这对于基因数据的隐私是期望的。

当所公开的方法被采用于将来自相同的组织来源的疾病样本与正常样本进行比较时，对基于树的SDS中的邻居样本的基因分析可以阐述在先证者样本中的发病机理的可能模式。例如，如果相同通路的不同基因被包含在邻居样本中，则相同通路可以被包含在先证者样本中。

在所公开的方法中，不需要为了对样本进行分类而重新运行整个工艺过程，从而节省时间和计算资源。具体而言，仅执行一次计算密集的特征约简操作18；此后，应用计算有效的线性变换M。鉴于该计算效率，所公开的方法容易被应用为用于确定样本是否属于与群体信息相耦合的疾病类别的快速筛选方法。

在下文中，描述了一些另外的说明性范例。

在一个范例中，收集来自多种全局群体的多个个体的基因组序列信息，并且在在公认的规则下提取的选择位置处进行SNP访问。例如，在每个群体中这样的SNP的次要等位基因频率(MAF)应当在阈值以上，不应当存在许多遗漏的访问，SNP应当是充分分开的，从而没有在它们自身之间的连锁不平衡等。使用公认的规则在数值上记录基因数据以生成特征向量X。之后使该全局数据集经受PCA或诸如多维尺度分析(MDS)、核PCA(KPCA)等的其他维度降低(例如，因子分析)流程，以生成映射M，该映射M之后被应用到特征向量X以生成降低的维度的向量表示Y。Y贡献于数据集中的最大变化的前几维(或者Y的所有维，如果维降低是激进的)被选择(在一些实施例中预见三到四个维)并且被存储在基于树的空间数据结构(SDS)中，基于树的空间数据结构(SDS)例如k-d树结构、八叉树结构、UB树结构等中。该处理生成群体分类器。

对于新的测序的样本而言，使用从高维数据到较低维度变换的数据集的相同映射M(已经针对参考数据集对其进行了计算)。在参考数据集是适当的综合数据集(即，“全局”数据集)的假设下，新的样本将属于原始群体聚簇中的一个，并且将不在数据集中引入太多额外的变化，并且映射将近似正确地将新的样本放置在所变换的空间中，因此避免了重新进行维度降低流程的复杂计算。使用新的样本的降低的维度的向量表示，原始(即，参考)数据集被查询并且诸如该样本的群体成员关系、其最近的邻居个体等的信息被检索。

样本基因型的群体通常被预期为非均匀地被分布在降低的维度的向量空间中。这样的非均匀分布容易由基于树的SDS容纳，因为能够定制递归划分以容纳空间分布。适当的基于树的SDS包括用于三个主成分选择的八叉树或用于>3个主成分选择的超树。

在下文中，描述了处理工作流程范例。

第一，收集来自不同全局群体的多个不相关个体，从而不排除稍后要测试的潜在新来者可以源自于其的任何显著群体。这些个体形成参考数据。

第二，针对全基因组SNP，采集这些个体的测序或基因型信息。

第三，过滤SNP使得在每个子群体中每个SNP：(a)具有≥0.05的MAF(次要/最小等位基因频率)(不包括实际上是异常并且扭曲分析的罕见SNP)；(b)具有<10％的遗漏的基因型(在信息来自测序时是冗余的：理想地，在该情况下不应当存在遗漏信息)；并且(c)是在哈迪-温伯格平衡(HWE)中的(以仅包括在群体中稳定的SNP，即，没有显著选择压力并且与明显生存性状不相关联)。

第四，使用下面的转换在数值上记录SNP：[AA，AD，DD]→[2，1，0]；其中，‘A’是针对SNP的考虑到全部参考个体的主要等位基因，并且‘D’是次要等位基因。在诸如具有超过三个可能的二倍体基因型的CNV的变异体的情况下，这些变异体类似地被离散化；例如，[拷贝数状态0，1，2，3，4，5]->[0，1，2，3，4，5]

第五，如果存在m个个体以及n个SNP基因型，则数据能够被表示为m×n矩阵X，其中，沿X的一行表示一个个体基因型。

第六，针对每个数字编码的SNP，计算均值并且利用关系X-X_M＝X'(其中，X_M是均值)将X均值中心化为X'。

第七，执行主成分分析(PCA)以获得m×l矩阵Y，其中，1≤l≤n。选择在数据中贡献于最大变化的前几个主成分(常用标准例如特征值>1或通过筛选分析)以用于存储，例如，存储为Y'，如果仅存储前三个主成分，则Y'是m×3矩阵。

或者，当M是从X到Y'的映射时，第五到第七操作被表示为Y’＝M(X)。(这适用于其他维度降低流程，例如，EFA/MDS、KPCA等)。

第九，矩阵Y'被用于存储针对个体的标注信息，例如，诸如群体来源、地理来源等的人口统计信息，使用来自Y'的三个主成分值作为在三维的基于树的空间数据结构(SDS)中的坐标。八叉树结构适用于三个主成分值。这之后被用作参考数据库，新的数据与参考数据库相比较。在具有m个聚簇表示的集(质心/中心)的基于树的SDS中的数据点上计算或确定聚簇{C₁，C₂，…,C_m}。

第十，当新来者个体基因型G可用时，利用如G'＝M(G)的映射M将该新来者个体基因型G变换到主成分空间，其中，M与在Y'＝M(Y)中的M完全相同。因为避免了PCA(或其他特征约简)，并且仅涉及具有预先计算的值的矩阵代数，所以该变换是计算有效的并且耗费近似恒定的时间。

第十一，根据在G'中获得的坐标，有效地查询在基于树的SDS中存储的数据以提供各种信息，例如：(a)如果有的话，则聚簇G属于哪个群体(此处，查询基于树的SDS以确定G是否属于聚簇{C₁，C₂，…,C_m}中的一个)和/或(b)哪些个体离G最近(此处，使用在基于树的SDS上执行的K-NN搜索算法来确定离G的k个最近个体)和/或邻居个体的人口统计标注信息和/或等等。

第十二，在个体来自不同群体的情况下，我们具有来自相同的组织来源的正常样本和不同癌症样本或其他疾病(例如，退行性疾病)样本的基因型信息，可以采用类似的方法。

第十三，如果新来者个体来自新的群体，则可以再次执行PCA并且计算误差矩阵(参见S.Narasimhan和S.L.Shah的文章“Modelidentification and error covariance matrix estimation from noisy data usingPCA”(Control Engineering Practice，第16卷，第1号，第146至155页，2008年1月))。如果需要，在新的参考数据中可以包括更多主成分。

已经参考优选实施例描述了本发明。明显地，其他人在阅读并理解前述详细描述后可以进行修改和变化。本发明旨在被解释为包括所有这样的修改和变化，只要他们落入权利要求书或其等价要件的范围内。

Claims

1.一种非暂态存储介质，其存储能由电子数据处理设备(10)运行以执行包括以下的方法的指令：

对表示参考群体的基因数据集的特征向量执行特征约简以生成将所述特征向量映射到与所述特征向量的维度相比降低的维度的向量空间的映射；

使用所述映射来生成所述参考群体的所述基因数据集的降低的维度的向量表示；并且

将所述参考群体的所述基因数据集的所述降低的维度的向量表示存储为基于树的空间数据结构中的数据点。

2.根据权利要求1所述的非暂态存储介质，其中，所述映射是线性变换。

3.根据权利要求1-2中的任一项所述的非暂态存储介质，其中，所述映射是Y＝M(X)，其中，X是表示基因数据集的特征向量，Y是所述基因数据集的所述降低的维度的向量表示，并且M是变换矩阵。

4.根据权利要求1-3中的任一项所述的非暂态存储介质，其中，所述执行包括：

对表示所述参考群体的所述基因数据集的所述特征向量执行主成分分析(PCA)以生成所述映射。

5.根据权利要求1-4中的任一项所述的非暂态存储介质，其中，所述基于树的空间数据结构具有与所述参考群体的所述基因数据集的所述降低的维度的向量表示的维度相等的维度。

6.根据权利要求1-4中的任一项所述的非暂态存储介质，其中，所述基于树的空间数据结构具有低于所述参考群体的所述基因数据集的所述降低的维度的向量表示的维度的维度，并且所述存储包括：

将所述参考群体的所述基因数据集的所述降低的维度的向量表示存储为数据点，所述数据点具有少于由所述参考群体的所述基因数据集的所述降低的维度的向量表示的维的全部的维定义的坐标。

7.根据权利要求1-6中的任一项所述的非暂态存储介质，其中，所述基于树的空间数据结构是四叉树结构、八叉树结构、k-d树结构或UB树结构。

8.根据权利要求1-7中的任一项所述的非暂态存储介质，其中，所述方法还包括：

使用所述映射来生成不是所述参考群体的部分的新的基因数据集的新的降低的维度的向量表示；并且

将所述新的降低的维度的向量表示存储为所述基于树的空间数据结构中的新的数据点。

9.根据权利要求1-8中的任一项所述的非暂态存储介质，其中，所述方法还包括：

利用与从其采集所述参考群体的所述基因数据集的对象有关的信息来标注所述基于树的空间数据结构中的所述数据点；并且

基于数据点的分布和所述数据点的标注将所述基于树的空间数据结构的空间区域与在所述参考群体内的群体相关联。

10.根据权利要求9所述的非暂态存储介质，其中，所述关联包括：

执行对由所述基于树的空间数据结构索引的所述空间中的所标注的数据点的聚类。

11.根据权利要求10所述的非暂态存储介质，其中，所述聚类是k中心点聚类。

12.根据权利要求1-11中的任一项所述的非暂态存储介质，其中，所述方法还包括：

使用所述映射来生成先证者基因数据集的先证者降低的维度的向量表示；

将所述先证者降低的维度的向量表示定位在所述基于树的空间数据结构中；并且

基于所述先证者基因数据集在所述基于树的空间数据结构中的位置来对所述先证者基因数据集进行分类。

13.一种装置，包括：

如权利要求1-12中的任一项所述的非暂态存储介质；以及

电子数据处理设备(10)，其被配置为读取并执行在所述非暂态存储介质上存储的指令。

14.一种方法，包括：

构建表示基因数据集的特征向量；

使用线性变换来降低所述特征向量的维度以生成所述基因数据集的降低的维度的向量表示；

将所述基因数据集的所述降低的维度的向量表示定位在基于树的空间数据结构中；并且

基于所述基因数据集的降低的维度的向量表示在所述基于树的空间数据结构中的位置将所述基因数据集分配给一个或多个群体；

其中，至少所述构建、所述生成和所述定位是由电子数据处理设备(10)执行的。

15.根据权利要求14所述的方法，还包括：

基于被分配以所述基因数据集的所述一个或多个群体来识别在所述基因数据集中作为临床标志的一个或多个基因标记物。

16.根据权利要求14-15中的任一项所述的方法，还包括：

(i)构建表示参考群体的参考基因数据集的参考特征向量；

(ii)使用所述线性变换来降低所述参考特征向量的维度以生成所述参考群体的所述参考基因数据集的降低的维度的向量表示；并且

(iii)构建所述基于树的空间数据结构以将所述参考基因数据集索引为数据点，所述数据点由所述参考群体的所述参考基因数据集的所述降低的维度的向量表示的至少一些维定义；

其中，操作(i)、(ii)和(iii)是由所述电子数据处理设备(10)执行的。

17.根据权利要求16所述的方法，还包括：

对所述参考特征向量执行特征约简以生成所述线性变换，所述特征约简由所述电子数据处理设备(10)执行。

18.根据权利要求17所述的方法，其中，所述特征约简是主成分分析(PCA)、探索性因子分析(EFA)、多维尺度分析(MDS)以及核主成分分析(KPCA)中的一个。

19.一种装置，包括：

电子数据处理设备(10)，其被编程为：

构建表示参考群体的参考基因数据集的参考特征向量，

使用线性变换来对所述特参考征向量进行变换以生成所述参考群体的所述参考基因数据集的降低的维度的向量表示，并且

构建基于树的空间数据结构以将所述参考基因数据集索引为数据点，所述数据点由所述参考群体的所述参考基因数据集的所述降低的维度的向量表示的至少一些维定义。

20.根据权利要求19所述的装置，其中，所述电子数据处理设备(10)还被编程为对所述参考特征向量执行特征约简以生成所述线性变换。

21.根据权利要求19-20中的任一项所述的装置，其中，所述电子数据处理设备(10)还被编程为：

使用所述线性变换对表示先证者基因数据集的特征向量进行变换以生成所述先证者基因数据集的降低的维度的向量表示，

将所述先证者基因数据集的所述降低的维度的向量表示定位在所述基于树的空间数据结构中，并且

基于所述先证者基因数据集的降低的维度的向量表示在所述基于树的空间数据结构中的位置来将所述先证者基因数据集分配给一个或多个群体。