CN110326051A

CN110326051A - 用于识别生物样本中的表达区别要素的方法

Info

Publication number: CN110326051A
Application number: CN201880015369.6A
Authority: CN
Inventors: L.A.纽伯格; M.扎沃德斯基; C.D.科迪拉
Original assignee: General Electric Co
Current assignee: GE Healthcare UK Ltd; Global Life Sciences Solutions Operations UK Ltd
Priority date: 2017-03-03
Filing date: 2018-03-02
Publication date: 2019-10-11
Anticipated expiration: 2038-03-02
Also published as: EP3590059B1; US20180251849A1; CN110326051B; EP3590059A1; WO2018158412A1

Abstract

本技术提供了用于使用包括具有对目标分子的粘合特异性的信号发生器的信号强度的表达数据来确定生物样本的基因表达区别要素的技术。可以分析多个样本以确定可用于识别细胞类型或理解疾病进展机理的基因表达区别要素。

Description

用于识别生物样本中的表达区别要素的方法

相关申请的交叉引用

本申请要求2017年3月3日提交的题为“COMPUTATIONAL DE NOVO DISCOVERY OFDISTINGUISHING GENES FOR BIOLOGICAL PROCESSES AND CELL TYPES IN COMPLEXTISSUES”的美国临时申请No.62/466,807的优先权，该申请以其整体通过引用结合于本文中以用于所有目的。

技术领域

本技术一般涉及用来从生物样本中的多个细胞中识别表达区别要素（distinguisher）和/或表征细胞组成的生物样本处理和分析。更特别地，本技术涉及用来从生物样本的表达数据中识别表达区别要素或细胞类型的表达分析。

背景技术

了解样本中生物过程的进行程度是阐明疾病机理和区分正常与患病组织的基础。生物过程通常经由关键区别要素基因（经常称为生物标志物）的表达测量来量化。

从患者处获得组织样本并对组织样本进行表达测量分析以用于诊断目的，已成为一种常见做法。然而，这些样本最经常是异质的，包含多种细胞类型、由不同生物过程支配的细胞或来自邻近组织的细胞。这结果是大量的背景噪声和潜在的重叠数据，这阻碍了准确的分析。对细胞亚型的表达级别和组织组成的准确估计能在鉴别诊断、疾病分期以及阐明疾病进展机理方面具有诊断价值。

发明内容

下面概述了在范围上与最初要求保护的主题相称的某些实施例。这些实施例不旨在限制所要求保护的主题的范围，而是这些实施例仅旨在提供可能实施例的简要概述。实际上，本公开可以包含可以与下面阐述的实施例相似或不同的各种形式。

本发明公开了一种用于不依赖于有关生物过程的先验知识来识别生物样本中的表达区别要素的系统和方法。基因表达区别要素经常被细胞类型的混合和生物过程的存在所掩盖，这种混合由从邻近组织中获得包含细胞的组织样本造成。一般而言，所公开的系统和方法包括获得n个基因和s个样本的生物样本的表达数据，其能被表示为n×s矩阵。从该矩阵中，联合表达矩阵被生成有对应于每对基因的联合概率的值。归一化联合表达矩阵的每行以生成条件表达矩阵。基因表达区别要素被选择为具有最高量值的行。然后，矩阵关于第一基因表达区别要素而被重新中心化，并且第二基因表达区别要素被选择为具有最高量值的重新中心化矩阵的行。第三基因表达区别要素被选择为其正交投影的具有最大量值的重新中心化矩阵的行，并且基于它们在先前选择的基因表达区别要素上的正交投影对于所有后续的基因表达区别要素迭代该过程。这得到暂定基因区别要素的列表，并且对每个基因区别要素根据它们与其他暂定基因区别要素的距离进行排名。

本文提供了一种方法，包括以下步骤：访问两个或更多生物样本的相应表达数据，所述表达数据包括对应于相应两个或更多基因的信号强度值；生成两个或更多生物样本的表达矩阵,表达矩阵从每个个体生物样本的表达数据的信号强度值导出，并且具有代表两个或更多基因和两个或更多生物样本的维度；从表达矩阵生成联合表达矩阵，联合表达矩阵在两个或更多生物样本的两个或更多基因中的每两个基因之间具有共表达概率元素；归一化联合表达矩阵的行以生成条件表达矩阵；基于区别行中的行向量的最高量值来识别条件表达矩阵的区别行；以及提供与区别行关联的两个或更多基因中的个体基因是用于两个或更多生物样本的表达区别要素的指示。

本文提供了一种方法，包括以下步骤：访问两个或更多生物样本的表达数据，所述表达数据包括对应于相应两个或更多基因的信号强度值；从所述表达数据的所述信号强度生成表达矩阵，并且具有代表每个基因和每个个体生物样本的维度；消除表达矩阵中所述两个或更多基因的子集，其中所述子集包括在个体生物样本的所述相应表达数据中具有离群信号强度的个体基因，所述离群信号强度偏离相对于所述两个或更多生物样本中的其他生物样本的信号强度，以生成调整的表达矩阵；从所述表达矩阵生成大小为ɡ x ɡ的条件表达矩阵，其中基因-基因条件表达矩阵的元素是：

其中i和j标示两个基因f₁和f₂的基因；归一化所述联合表达矩阵的所有行以生成条件表达矩阵；基于所述条件表达矩阵的所述最高量值行确定第一基因表达区别要素；将所述条件表达矩阵重新中心化以生成重新中心化的条件表达矩阵；基于所述重新中心化的条件表达矩阵的所述最高量值行确定第二基因表达区别要素；基于所述重新中心化的条件表达矩阵的每行与所述重新中心化的条件表达矩阵的另一行的相应最高量值正交投影，确定两个或更多后续基因表达区别要素。

本文提供了一种系统，其包括存储器，存储器存储指令用以：接收两个或更多生物样本的表达数据，所述表达数据包括对应于相应两个或更多基因的信号强度值；生成两个或更多生物样本的表达矩阵,表达矩阵从每个个体生物样本的表达数据的信号强度导出，并且具有代表两个或更多基因和两个或更多生物样本的维度；从表达矩阵生成条件表达矩阵，条件表达矩阵在两个或更多生物样本的两个或更多基因中的每两个基因之间具有共表达概率元素；基于所述条件表达矩阵的相应最高量值行和所述条件表达矩阵的行与所述条件表达矩阵的每个其它行的所述正交投影的相应最高量值中的一个或二者，识别两个或更多基因表达区别要素；基于所述两个或更多基因表达区别要素来识别所述生物样本中存在的基因表达特征；以及提供生物样本中存在的所述基因表达特征的指示。该系统还包括：处理器，其被配置为执行指令；以及显示器，其被配置为显示该指示。

附图说明

当参考附图阅读以下详细描述时，将变得更好地理解本发明的这些和其他特征、方面和优点，附图中相似的字符在附图通篇表示相似的部分，其中：

图1是根据本技术各方面的供表达分析使用的示例性系统的示意图；

图2是描绘根据本技术的用于表达分析的过程的流程图；

图3是描绘根据本技术的用于表达分析的过程的流程图；

图4是混合样本组成的视觉表示；

图5是测试中包括的组织的无噪声基因表达特征之间的相关性；

图6A在变化噪声级别在热图中示出了对于每种组织/细胞类型的区别要素基因的基因表达值；图6B在变化噪声级别在热图中示出了对于每种组织/细胞类型的区别要素基因的基因表达值；图6C在变化噪声级别在热图中示出了对于每种组织/细胞类型的区别要素基因的基因表达值；图6D在变化噪声级别在热图中示出了对于每种组织/细胞类型的区别要素基因的基因表达值；

图7A是根据添加到表达数据的噪声量变化的混合样本中预期和预测细胞类型分数（fraction）之间的均方根误差（RMSE）；

图7B是根据对于测试的两种完全去卷积方法的噪声量变化的预期和预测细胞类型特征之间的相关性；

图8示出了在B细胞的五个发展阶段中表达区别要素的基因表达分布；以及

图9示出了根据本技术在有丝分裂细胞周期期间在不同时间酵母基因达到最大表达级别；图9B示出了根据本技术在有丝分裂细胞周期期间在不同时间酵母基因达到最大表达级别。

具体实施方式

下面将描述一个或多个特定实施例。为了提供这些实施例的简明描述，在说明书中可以不描述实际实现的所有特征。应当理解，在任何这样的实际实现的开发中，如在任何工程或设计项目中一样，必须做出许多实现特定的决策以实现开发者的特定目标，诸如遵守系统相关的和商务相关的约束，这些约束可能因不同的实现而异。而且，应当理解，这种开发努力可能是复杂且耗时的，但是对于受益于本公开的普通技术人员仍然将是设计、制作和制造的例行任务。

当介绍各种实施例的元件时，冠词“一（a/an）”、“该”和“所述”旨在意味着存在元件中的一个或多个。术语“包括”、“包含”和“具有”旨在是包含性的，并且意味着除了列出的元件之外，还可以存在其他元件。更进一步，以下讨论中的任何数值示例都旨在是非限制性的，并且因此附加的数值、范围和百分比都在所公开实施例的范围内。

生物样本的基因表达的分析可以提供在收集到生物样本的时候的有关细胞特性和行为的信息。表达分析可以涉及获取生物样本和评估基因表达的产物（例如信使RNA分子、表达的蛋白质）。虽然生物样本可以仅包括一种类型的细胞（例如，纯培养细胞），但是分析包括细胞类型的混合的生物样本也是常见的。因而，只要混合生物样本的基因表达的产物在分析之前被汇集，基因表达的汇集产物可以包括来自多种细胞类型的表达基因。多种细胞类型的存在可能掩盖与原始生物样本中的个体细胞类型关联的个体表达分布或特征。

然而，分离具有细胞类型的混合的样本中的各种细胞并通过实验分析有差别地表达的表达产物在技术上是具有挑战性、耗时且成本高的。用于识别基因表达区别要素的某些技术需要事后选择表达区别要素（即，在不同细胞类型中有差别地表达的表达产物），通常依赖于对每个良好研究的感兴趣的生物过程的多年积累的研究的策展（curation）。

部分去卷积算法采用纯细胞类型的基因特征作为输入，以确定混合样本中的不同细胞类型的分数，并且需要关于样本组成或高质量纯细胞类型特征的难以获得的信息。其中除了多个异质组织样本中的表达值之外没有其他信息可用的完全去卷积和个体细胞类型的数量的估计也是有挑战性。另外，这种技术即使在无噪声数据上也具有有限的性能，并且当存在噪声量的增加时，性能进一步恶化。如果以标志物基因集的形式包含先验知识，则无监督的、完全去卷积方法工作更好。更一般地说，区别要素（标志物）基因的表达突出了在异质样本中表现出的已知和新颖的生物过程的程度。不幸的是，这种数据不一定对于感兴趣的细胞类型和条件可用。

通过分析跨多个生物样本的基因表达数据中的趋势，本技术辨别指示细胞类型的关键表达特征，而不需要用户输入来人工识别表达区别要素。本技术通过从大量异质测量中在计算上识别细胞类型特定模式，补偿了实验上从混合组织中分离同质细胞群的局限性。本技术促进分析混合样本的基因表达数据，并识别最佳区别生物过程和细胞类型的基因。结合去卷积算法，本技术可以预测个体生物样本中的细胞类型组成，而不需要生物样本是否具有细胞类型的混合或者细胞类型特征的先验知识。每个生物样本通常由表现出许多生物过程的多种不同细胞类型组成。每个生物过程都以基因子集的特定表达级别为典型。备选地，根据期望粒度，生物过程能通过在外显子、微阵列探针或子基因级别的其他结构的表达值来表征。如果基因对该生物过程和/或细胞类型基本上是排他性的，则认为该基因是可区别的（即，表达区别要素）。

所公开的技术可用于识别细胞类型特征，细胞类型特征可用于区别一个或多个生物样本中的细胞类型。例如，所公开的技术可用于区别生物样本中的患病细胞（例如肿瘤）和正常细胞。在另一个示例中，所公开的技术可用于检测环境样本或培养/工程细胞中的杂质。在另一个示例中，所公开的技术可以用于检测生物样本中的发育进展。在这样的示例中，混合细胞类型可以是处于不同发育或生理阶段的细胞（例如，细胞分化、疾病进展）。在另一个示例中，所公开的技术可用于表征受试者的微生物群。也就是说，通过检测若干不同的细胞类型特征或GI样本的组成，可以评估受试者的微生物群的组成。在另一个示例中，所公开的技术可以用于表征和量化元基因组样本中的物种种群。另外，所公开的技术可用于随着时间跟踪受试者，同时还补偿样本收集中的变化。也就是说，观察到的受试者的表达产物的改变可以将样本的细胞类型组成考虑进去。如果技术人员无意中在样本中包括了相对于基线的新的细胞类型，则新的细胞类型可以被表征，并且其表达特征与先前获取的基线数据集分离。

本技术可被用在细胞治疗和生物处理中，以识别表示将工程化的细胞与非生产性细胞成功区分开的生物过程的基因。这些区别基因的表达的测量能用于质量保证和控制。类似地，本技术可用于确定癌症中肿瘤基质细胞和免疫细胞类型的相对比率。

为此，在图1中描绘了能够根据本技术操作的示例性表达分析系统10。在所描绘的实施例中，表达分析系统10可以包括图像获取系统12（例如微阵列读取器），该系统12检测信号并将信号转换成可以由下游处理器处理的图像数据。图像获取系统12可以根据用于创建图像数据的各种物理原理进行操作，并且可以包括荧光显微镜、明场显微镜或适用于适合的成像形态的装置。然而，一般而言，图像获取系统12可以用于从生物样本获取表达数据14。

如本文所用，术语生物材料或生物样本可以指从生物受试者获得的或位于生物受试者中的材料，其包括从受试者获得的生物组织或液体。这种样本能是但不限于从任何生物系统（诸如哺乳动物）中分离的或位于其中的体液（例如，血液、血浆、血清或尿液）、器官、组织、碎片和细胞。生物样本和/或生物材料也可以包括生物样本（其包括组织）的区段（例如，器官或组织的区段部分）。生物样本也可以包括来自生物样本的提取物，例如来自生物液体（例如血液或尿液）的抗原。

在一个实施例中，通过对从受试者细胞中提取的基因材料进行样本制备并将制备的样本与预先组装在微阵列芯片中的一组探针接触来获取表达数据14。在一个实施例中，基因表达数据14在步骤12通过杂交技术获取，诸如可被采用于微阵列。在实施例中，表达数据14包括荧光强度的测量。数据涉及与附接到微阵列的探针杂交的生物样本中的基因材料片段的浓度。在某些实施方案中，探针是单链核酸。

因此，表达数据14可以包括放置到图像获取系统中，该图像获取系统可以被实现为读取器或扫描仪，其可以包括激光器、显微镜和/或相机。激光器、显微镜和相机一起工作以创建阵列的数字图像，其包含用于每个探针位置的强度值。表达数据14可以被提供给和/或存储在分析系统20中，以用于后续分析。虽然图1中的实施例包括图像获取系统12，但是应当理解，在其他实施例中，表达数据14可以是由分析系统20接收的如下数据：回顾性数据或通过远程系统获取的数据。因而，在表达分析系统10的某些实施例中，不存在图像获取系统12。

图像获取系统12在系统控制电路的控制下操作。系统控制电路可以包括广泛的电路，诸如照明源控制电路、定时电路、用于结合样本移动协调数据获取的电路、用于控制光源和检测器位置的电路等等。在本上下文中，系统控制电路还可以包括计算机可读存储元件，诸如磁、电或光存储介质，所述计算机可读存储元件用于存储由系统控制电路或由系统10的关联组件执行的程序和例程。存储的程序或例程可以包括用于执行全部或部分的本技术的程序或例程。

为了各种目的，由图像获取系统12获取的图像数据可以由系统10处理，例如以将获取的数据或信号转换成数字值，并提供给分析系统20。分析系统20可以执行图像数据的实质性分析，包括排序（ordering）、锐化、平滑、特征识别等等。此外，分析系统20可以接收一个或多个样本源（例如，多孔板的多个孔）的数据。处理的图像数据可以被存储在短期或长期存储装置中，诸如图片存档通信系统，它们可以位于表达分析系统10内或远离表达分析系统10和/或为操作者重新构建和显示。

分析系统20可以典型地经由一个或多个处理器24来控制表达分析系统10的上述操作和功能。计算机24可以包括各种存储器26和/或存储组件，包括磁和光大容量存储装置、内部存储器，诸如RAM芯片。存储器26和/或存储组件可用于存储用于执行本文描述的技术的程序和例程，这些程序和例程由分析系统20或由系统10的关联组件执行。备选地，程序和例程可以被存储在计算机可访问存储装置和/或存储器上，计算机可访问存储装置和/或存储器远离分析系统20但由计算机24上存在的通信电路28和/或网络可访问。

分析系统20还可以包括各种输入/输出（I/O）接口30和显示器32，它们可以用于查看和输入配置信息和/或用于操作表达分析系统10。各种网络和通信接口可以允许连接到局域和广域内联网和存储网络以及因特网。根据需要或期望，各种I/O和通信接口可以利用有线、线路或合适的无线接口。

虽然已经在微阵列数据的上下文中讨论了表达数据14，但是表达分析系统10可以获取其他类型的表达数据14。生物样本可以用信号发生器处置，该信号发生器包括对目标分子具有特定粘合的粘合成分或目标标志物。如本文所用，当目标分子存在于生物样本中时，可以对其进行检测。目标或目标分子可以是对于其存在有天然存在的特定粘合剂（binder）（例如抗体）的或者可以为其制备包括适当粘合剂或目标标志物的特定信号发生器（例如小分子粘合剂或适配体）的任何物质。一般，粘合剂或目标标志物可以通过目标的一个或多个分立化学部分或目标的三维结构成分（例如，由肽折叠产生的3D结构）粘合到目标。目标可以包括天然或修改的肽、蛋白质（例如抗体、亲合体或适配体）、核酸（例如多核苷酸、DNA、RAN或适配体）；多糖（例如凝集素或糖）、脂类、酶、酶底物、配体、受体、抗原或半抗原中的一个或多个。在一些实施例中，目标可以包括蛋白质或核酸。

信号发生器能够使用一种或多种检测技术（例如光谱测定法、量热法、光谱学或目视检查）提供可检测信号。可检测信号的合适示例可以包括光信号和电信号或放射性信号。信号发生器的示例包括发色团、荧光团、拉曼活性标签或放射性标签中的一种或多种。在一个实施例中，信号发生器可以包括探针。在一些实施例中，粘合剂和信号发生器被体现在单个实体中。粘合剂和信号发生器可以在单个步骤中直接（例如，经由结合到粘合剂中的荧光分子）或间接（例如，通过可以包括切割位点的链接器）附接和施加到生物样本。在备选实施例中，粘合剂和信号发生器被体现在分立实体中（例如，能够粘合目标的一抗（primaryantibody）和能够粘合一抗的信号发生器标记的二抗（second antibody））。当粘合剂和信号发生器是分开的实体时，它们可以在单个步骤或多个步骤中施加到生物样本。

图2显示了根据所公开技术的用于表达分析的方法40的流程图。该方法开始于从两个或更多生物样本访问（例如，接收或获取）表达数据14（框42）。可以从表达数据14中生成表达矩阵（框44），其中表达矩阵的元素可以表示来自代表样本粘合到相应探针（例如，基因或基因片段）的信号发生器的强度值。在一些实施例中，可以移除离群行（框46）。

从表达矩阵生成条件表达矩阵（框48）。包含多个生物过程的混合物的生物样本将具有足够类似于生物过程典型的表达特征的对应混合物的基因表达特征。存在关于条件表达矩阵的元素的对应的语句（statement），其中第（i，j）个矩阵条目是：

其是如果从该生物样本中随机取得的第一序列片段属于基因i，则从随机选择的生物样本中随机取得的第二序列片段将属于基因j的概率。这样，每个基因i与条件表达数的向量关联，该向量具有与具有表达测量的基因一样多的条目。用于任意基因的条件表达信息的向量将足够类似于用于区别基因的条件表达信息的线性组合，因为给定任意基因，多个生物学过程有助于条件表达，但是每个区别基因实际上对其生物学过程是独特的。从而，发现区别基因的计算任务是将最极端的基因-基因条件表达向量定位在其中向量数量和维度数量都等于基因（或探针）数量的空间中（例如ɡ = 20000或50000）的任务。该矩阵的计算可以首先涉及取线性（非对数）基因表达值的ɡ × s矩阵X，其中ɡ是基因的数量，而s是样本的数量，并将X乘以其矩阵转置X^T:

然而，这是计算密集型的，因为ɡ通常是20000到50000个基因或分子目标，并且对的典型矩阵运算的运算次数与ɡ ³成比例。在一个实施例中，条件表达矩阵计算可以经由时间比例ɡsb中的矩阵链乘法被绕过，其中b是所寻找的区别要素的数量。在已经计算之后，通过重新缩放的每一行使得其条目总和为1来计算，从而生成条件表达矩阵（框50）。从条件表达矩阵中，可以识别一个或多个区别行（框52）。使用与区别行关联的基因（目标或探针）的身份，可以例如经由显示器32向用户提供一个或多个表达区别要素的指示以及每个表达区别要素与每个其它区别要素的距离（框50）。

图2的某些特征在图3中示意性地示出。基于与表达数据14中的各个探针或粘合剂60关联的强度，可以生成表达矩阵62并移除离群基因（步骤64），以生成调整后的表达矩阵66。这又用于生成条件表达矩阵68。执行第一遍以识别用户定义数量的基因表达区别要素。在某些实施例中，表达区别要素的识别是经由识别被选择为具有最高量值的行的第一暂定基因表达区别要素70来实现的。在一般步骤中，然后矩阵经由重新中心化或矩阵投影而被调整以被暂时描述，以便将用于最近期选择的暂定区别要素的行向量映射到原点。在重新中心化时，从条件表达矩阵66行中的每一行中减去对应于暂定基因表达区别要素的行，从而重新中心化条件表达矩阵，以便生成重新中心化的条件表达矩阵74，其中暂定基因表达区别要素被映射到原点。后续的暂定基因表达区别要素被确定为重新中心化的条件表达矩阵74的距重新中心化的条件矩阵中的原点更远或者具有最高量值的行。经由运算76，选择第三暂定基因表达区别要素作为重新中心化的条件表达矩阵的具有其在第二暂定基因表达区别要素上的正交投影的最高量值的行：

其中是第三暂定基因表达区别要素，是第二暂定区别要素，而是与正交的的分量的量值。这个过程可以迭代，其中每个后续暂定区别要素被选择为具有其在先前确定的暂定基因表达区别要素上的正交投影的最高量值的行。在贪婪法第一遍之后，该算法具有基因表达区别要素的暂定输出84，以识别截然不同的生物过程。然后，该列表中每个基因表达区别要素的质量通过其条件表达向量距由其它基因表达区别要素的条件表达向量所跨越的超平面的距离来测定，其中越大的距离指示生物过程的越强的区别性。

然而，在暂定地识别的基因表达区别要素的方向上，可能存在远离超平面的其他基因表达区别要素。这些基因表达区别要素可以优于暂定地识别的基因表达区别要素86或可能排在暂定地识别的基因表达区别要素86之后。在已经从第一遍确定了用户定义数量的暂定基因表达区别要素之后，执行第二遍80，其确定来自暂定输出84的每个暂定基因表达区别要素与每个其他基因表达区别要素之间的正交距离。按距超平面的距离排名，返回用户请求数量的最远基因88。要注意，暂定地识别的基因表达区别要素将不一定距其对应的超平面最远，即使它是在来自用于测定距离的超平面的暂定地识别的基因表达区别要素的方向上。

相对于其他技术，本技术操作得更快且更有效，并且因此起到改进执行分析的处理器的操作和效率的作用。在一个实施例中，通过对于区别要素在算法的第二遍中重新使用子基向量空间投影来减少计算时间。代替执行b次截然不同的计算，其各投影出大小为ɡ的b-1个向量，并且其将总共需要与ɡsb × b（b-1）成比例的时间，我们采用以与ɡsb ×blog₂（b-1）成比例的时间完成任务的方式重新使用子计算。来自这部分的增益通常是大约一个数量级。

本技术允许通过采用可调滤波器消除离群表达来考虑更多的基因，如果一个基因在一个样本中的表达支配所有其他样本，则认为该基因是离群的。可调滤波器使用户能够基于对要分析的生物数据类型的熟悉程度来修改构成离群值的内容。本技术采用表达尖峰来淡化具有低表达的基因的区别质量，而没有明确消除它们。这个特征也是可调的，因为不同数据类型的动态范围能是不同的。本技术没有在样本空间（经由主成分分析）或在基因空间（经由聚类方法的结果）中采用降维的近似。区别要素的识别不需要详尽列举大小为b的集合。本技术并不尝试确定生物过程b的适当数量，尽管其输出中的某一输出在人工确定中是有用的。

如本文所讨论的，作为识别表达区别要素（例如，基因）的附加或备选方案，本技术还可用于基于表达数据评估生物样本中的细胞组成。例如，应用于条件表达矩阵的本技术可以生成表达区别要素输出，该输出是在给定个体样本中存在的一种或多种细胞类型的特性。基于特性细胞类型，可以触发某些下游动作。在一个实施例中，生物反应器可以在细胞培养期间随着时间被跟踪以生成不同的样本，这些样本可以在条件表达矩阵中相对彼此被比较（或相对纯细胞样本被比较），以跟踪如下细胞的存在或缺乏：a）感染细胞或b）非生产性细胞。如果通过本技术评估的非生产性细胞的浓度高于阈值级别，则可触发生物反应器培养条件改变。例如，培养温度可以被改变，培养基可以被调整，等等。本技术也可用于评估在分化中在不同阶段的细胞之间的特性表达差异。以这种方式，对于不期望的分化细胞的存在，可以跟踪干细胞生长。

虑及上述内容，以下示例提供了其中已经应用本技术的特定实施例。下面的应用是其中可以使用本技术的示例。例如，本方法可被采用以确定细胞类型，将成功工程化的细胞与非生产性细胞区分开来，或者使用表达区别要素监控疾病进展的机理。

在一些实施例中，我们可以从假定包含多种细胞类型的组织样本中获得基因表达数据。例如，可采用本文呈现的方法来研究从正常组织汇集的基因表达数据，正常组织是通过下一代序列测定（next-generation sequencing）从用于在正常组织中进行基因表达剖析（profiling）的RNA-Seq Atlas参考数据库中获得的。低基因表达值相对有噪声，并且强表达的基因被认为比弱表达的基因作为区别要素更有用，并且具有多个基因（非第一名）来区别每个生物过程是有价值的。为了模拟具有低表达的基因是不良的区别基因，生物样本在数学上对于每个基因用低级别表达加尖峰。对于具有一般高表达的基因，这对后续分析具有可以忽略不计的影响，但是对于具有一般低表达的基因，它充分隐藏了基因仅在一个生物过程中被表达的可能性。具有低至中等表达的基因受到阻碍，但不会被排除在考虑范围之外。默认情况下，表达峰值的量可以被设置为所有正表达值当中的75%，但是这可以被调整为任何值。

图4示出了通过使用细胞类型分数的各种组合来组合来自五个组织（脂肪、结肠、心脏、下丘脑和肾）的已知基因的表达值而生成10个混合样本的可视化。根据该数据，生成相关矩阵（图5）。在总数21399个基因当中，2240个基因在五种选定的组织类型中的每一种中都具有0表达值，并且被排除在计算之外，使得它们不会混淆本方法的算法。

在图6A-D中，分别在图6A、6B、6C和6D中在0%、20%、40%和60%相对标准差的噪声级别在热图中示出了用于每种组织/细胞类型的前20个区别要素基因的基因表达值。对于跨五种组织/细胞类型（ADI=脂肪，COL =结肠，HEA =心脏，HYP =下丘脑，KID =肾）中的每个基因，表达值归一化成从0到1（颜色从灰到红）。从这些热图中，用户可以定义他们想要使用的数字表达区别要素。

图7A示出了根据添加到表达数据的噪声量变化的混合样本中预期和预测细胞类型分数之间的均方根误差（RMSE）。计算跨10个混合样本的预期和预测细胞类型分数之间的RMSE，以量化样本组成预测的准确性。为了评估纯细胞类型特征预测的准确性，还计算了已知和预测特征之间的Pearson相关系数（图7B）。

图8示出了在B细胞的五个发育阶段中区别要素的基因表达分布。对于跨样本的每个基因，表达值被归一化成从0到1（从蓝色到红色）。右边的彩色条指示被指定为不同阶段的区别要素的基因组。从该数据集中，从人类的B细胞发育的5个不同阶段中测量提取的基因表达的6个复制，从而得到总共30个基因表达分布。该算法被设置为对于5个类别发现多达20个区别要素。

图9A和9B示出了酵母基因在从Cho数据集推断的有丝分裂细胞周期期间在不同时间点达到最大表达级别，其中本技术在图9A和9B中分别被分组成4个和5个基因类别。每个类别包含多达20个排名靠前的基因。对于每个基因，单独跨样本对表达值进行归一化。由于样本主要在它们所处的细胞周期的阶段中彼此不同，因此该算法识别了具有沿周期在不同时间点达到峰值的表达值的基因组。在4个组可能观察到干净的分离模式。

虽然本文已经图示和描述了本发明的仅某些特征，但是本领域技术人员将想到许多修改和改变。因此，要理解到，在落入本发明的真实精神内时，所附的权利要求书意图涵盖所有此类修改和改变。

Claims

1.一种用于识别表达区别要素的方法，包括：

访问生物样本中的两个或更多生物样本的相应表达数据（14），所述表达数据包括对应于相应两个或更多基因的信号强度值；

生成所述两个或更多生物样本的表达矩阵（62），所述表达矩阵从每个个体生物样本的所述表达数据（14）的所述信号强度值导出，并且具有代表所述两个或更多基因和生物样本中的所述两个或更多生物样本的维度；

从所述表达矩阵生成联合表达矩阵（66），所述联合表达矩阵在所述两个或更多生物样本的所述两个或更多基因中的每两个基因之间具有共表达概率元素；

归一化所述联合表达矩阵（66）的行以生成条件表达矩阵（68）；

基于所述条件表达矩阵（68）的区别行（70）中的行向量的最高量值来识别所述区别行（70）；以及

提供与所述区别行（70）关联的所述两个或更多基因中的个体基因是用于所述两个或更多生物样本的表达区别要素的指示（步骤56）。

2.如权利要求1所述的方法，包括接收定义离群信号强度的偏差的阈值的用户输入（64）。

3.如权利要求1或2所述的方法，其中所述表达矩阵用常数加尖峰。

4.如权利要求1、2或3所述的方法，其中所述表达区别要素在所述条件表达矩阵（68）中具有1的归一化信号强度（步骤50）。

5.如前述权利要求中任一项所述的方法，其中所述条件表达矩阵计算（68）经由矩阵链乘法被绕过。

6.如前述权利要求中任一项所述的方法，进一步包括基于所述区别行（70）将所述条件表达矩阵（68）重新中心化，以生成重新中心化的条件表达矩阵（74）。

7.如权利要求6所述的方法，包括基于来自所述重新中心化的条件表达矩阵（74）的行向量的最高量值来识别第二区别行。

8.如权利要求7所述的方法，其中附加区别行基于具有与所述重新中心化的条件表达矩阵（68）的另一行的正交投影（76）的最高量值而被识别，并且经由下式而被确定：

其中是潜在表达区别要素，而是先前的潜在表达区别要素。

9.如权利要求8所述的方法，包括对所有区别行基于它们距每个其它区别行的距离来进行排名（88）。

10.一种分析系统，包括：

存储器，所述存储器存储指令用以：

接收（步骤42）两个或更多生物样本的表达数据，所述表达数据包括对应于相应两个或更多基因的信号强度值；

生成（步骤44）所述两个或更多生物样本的表达矩阵，所述表达矩阵从每个个体生物样本的所述表达数据的所述信号强度导出，并且具有代表所述两个或更多基因和所述两个或更多生物样本的维度；

从所述表达矩阵生成（步骤48）条件表达矩阵，所述条件表达矩阵具有在所述两个或更多生物样本的所述两个或更多基因中的每两个基因之间的共表达概率元素；

基于所述条件表达矩阵的相应最高量值行和所述条件表达矩阵的行与所述条件表达矩阵的每个其它行的正交投影的相应最高量值中的一个或多个或二者，识别（步骤52）两个或更多基因表达区别要素；

基于所述两个或更多基因表达区别要素来识别所述生物样本中存在的基因表达特征；以及

提供（步骤56）所述生物样本中存在的所述基因表达特征的指示；以及

被配置为执行所述指令的处理器；以及

被配置为显示所述指示的显示器。

11.如权利要求10所述的系统，包括：通信电路，所述通信电路被配置为将所述指示传递给细胞处理系统，其中所述指示是与生物处理反应器中非生产性细胞的存在关联的基因表达特征的指示。

12.如权利要求10或11所述的系统，其中所述指示致使所述生物处理反应器改变培养参数。

13.如权利要求12所述的系统，其中所述指示是所述两个或更多生物样本中肿瘤和正常细胞的相对比率。

14.一种用于识别表达区别要素的方法，包括：

访问两个或更多生物样本的表达数据，所述表达数据包括对应于相应两个或更多基因的信号强度值；

从所述表达数据的所述信号强度生成表达矩阵，并且具有代表每个基因和每个个体生物样本的维度；

消除所述强度矩阵中所述两个或更多基因的子集，其中所述子集包括在个体生物样本的相应表达数据中具有离群信号强度的个体基因，所述离群信号强度偏离相对于所述两个或更多生物样本中的其他生物样本的信号强度，以生成调整的表达矩阵；

从所述表达矩阵生成大小为ɡ×ɡ的条件表达矩阵，其中基因-基因条件表达矩阵的元素是：

其中i和j标示两个基因f₁和f₂的基因；

归一化所述联合表达矩阵的所有行以生成条件表达矩阵；

基于所述条件表达矩阵的所述最高量值行确定第一基因表达区别要素；

将所述条件表达矩阵重新中心化以生成重新中心化的条件表达矩阵；

基于所述重新中心化的条件表达矩阵的所述最高量值行确定第二基因表达区别要素；

基于所述重新中心化的条件表达矩阵的每行与所述重新中心化的条件表达矩阵的另一行的相应最高量值正交投影，确定两个或更多后续的基因表达区别要素；以及

生成与所述最高量值行关联的基因是所述基因表达区别要素的输出。

15.如权利要求14所述的方法，包括接收定义阈值的用户输入，所述阈值定义所述离群信号强度。