CN106104540A

CN106104540A - 用于评估治疗对生物过程和途径的效果的方法

Info

Publication number: CN106104540A
Application number: CN201580014758.3A
Authority: CN
Inventors: 田村牧生
Original assignee: Procter and Gamble Ltd
Current assignee: Procter and Gamble Ltd
Priority date: 2014-03-27
Filing date: 2015-03-19
Publication date: 2016-11-09
Also published as: EP3123379A4; EP3123379A1; WO2015148236A1; US20150278436A1; SG11201606292WA

Abstract

本发明提供了用于鉴定具有期望生物活性的药剂的作用机制的方法、系统和装置。具体地，所述方法、系统和装置鉴定感兴趣的成分或化合物借以实现有益治疗效果的目标生物过程和途径。对于目标生物过程和途径集中的每一个而言，代表当用感兴趣的成分或化合物治疗时所述生物过程或途径中的基因表达差异的治疗向量与代表在存在或不存在临床状况时基因表达差异的临床向量作比较。所述两个向量之间的向量距离与其它化合物和/或生物过程和途径的向量距离相比较，以确定感兴趣的成分或化合物对所述特定生物过程或途径的效果。

Description

用于评估治疗对生物过程和途径的效果的方法

背景技术

研究用于治疗特定病症的成分或化合物的效果为人们所熟知。存在许多用于鉴定用于递送各种益处的活性成分的方法。例如，连接映射是一种熟知的假说产生和测试工具，在运筹学、计算机联网和电信领域具有成功的应用。人类基因组计划(Human GenomeProject)的进展和完成与平行发展的极高通量的高密度DNA微阵列技术导致多个基因数据库的产生。同时，经由计算机方法诸如分子建模和对接研究对于新药物活性物质的探索刺激了潜在的小分子活性物质大文库的产生。关联疾病与遗传特征图、遗传特征图与药物、和疾病与药物的信息量以指数增加，并且应用连接映射作为假说测试工具在药物科学中成熟了。

2000年首先提出了可以准确地确定先前未表征基因的功能，并且可以通过药物处理细胞的基因表达谱数据库的映射关系鉴定药剂的潜在目标的一般概念，并由T.R.Hughes等人发表原创性论文(“Functional discovery via a compendium of expressionprofiles”Cell 102,109-126(2000))，紧接着由Justin Lamb和MIT的研究人员启动了连接映射计划(The Connectivity Map Project)(“Connectivity Map:Gene ExpressionSignatures to Connect Small Molecules,Genes,and Disease,”Science，第313卷(2006)。在2006年，Lamb的团队开始公布“C-Map”构造的结构、用于创建第一代C-Map的基因表达谱的参考集合的形成、和持续大规模C-Map项目的启动的详细摘要，其可用的支持材料超链接为http://www.sciencemag.org/content/313/5795/1929/suppl/DC1。

现代连接映射具有严密的数学支持并且受到现代计算机技术的辅助，已经产生了得到证实的医学成就，鉴定了用于治疗多种疾病(包括癌症)的新剂。然而，尽管作为几种成功用于鉴定传递特定治疗益处的活性成分的方法中的一种，但连接映射和其它此类方法无法鉴定成分和化合物借以起到传递相应治疗益处的详细作用机制。

发明内容

本发明提供可用于鉴定治疗剂对具体生物过程和/或途径的效果，用于探索治疗的治疗的不同作用机制的相对优势，和用于将那些效果和优势映射到消费者相关益处的新型方法、装置和系统。具体地，本公开描述一种可用于比较特定治疗的多种作用机制，以确定哪种(如果有的话)是主要、尤其令人感兴趣等的工具。本发明方法、装置和系统适用于例如鉴定有效治疗各种病症的药剂，并且具体地，鉴定所述药剂是以什么样的方式(也就是经由哪种生物途径和/或过程)在此类治疗中发挥效果。

本说明书描述实施方式，其大体上包括用于确定治疗与所述治疗对生物途径和/或过程的效果间的关系的方法、装置和系统。所述方法可以用于确定治疗效果、所述治疗的作用方法、和所述治疗的作用方法的表现形式。

用于评估治疗效果的计算机实现的方法包括利用计算机处理器对一个或多个生物过程和途径中的每一个进行分析。所述分析包括计算治疗向量、临床向量、和参考向量集。所述分析还包括计算治疗向量与临床向量之间的向量距离，和计算临床向量与参考向量集中的每一个之间的向量距离集。向量距离可以是两个向量之间的任何距离测量值，所述向量包括例如但不限于欧几里得(Euclidian)距离、马哈拉诺比斯(Mahalanobis)距离、曼哈坦(Manhattan)距离、切比雪夫(Chebyshev)距离、闵可夫斯基(Minkowski)距离等等。向量距离集的分布是作为分析的一部分测定，并计算所述向量距离在所述向量距离集中的百分位数。在实施方案中，所述一个或多个生物过程或途径包括多个生物过程或途径，并且所述方法还包括以升序将所述百分位数排序，并任选地选择具有较低百分位数的生物过程或途径作为治疗效果的目标。所述方法也可以包括根据所选生物过程或途径鉴定作用机制、技术产品历史、或治疗能力要求。在实施方案中，计算治疗向量包括计算生物过程或途径中的基因由于治疗而引起的表达差异，诸如log2倍数变化、标准化值(z评分)、或p值的t统计量或正态分位数，并且计算临床向量包括计算所述生物过程或途径中的基因由于非治疗变量如临床状况引起的表达差异。在一些实施方案中，所述方法评估成分或化合物对皮肤细胞的抗衰老效果。

一种用于评估治疗效果的系统包括计算机处理器和一个或多个联接到所述处理器的存储器装置。所述存储器装置存储与目标过程或途径相关的基因列表、展示所述治疗对基因集的效果的治疗基因组数据集(所述基因集至少包括与所述目标过程或途径相关的所述基因)、展示目标特征对基因集的效果的临床基因组数据集(所述基因集至少包括与所述目标过程或途径相关的所述基因)和代表各种材料和/或状况对基因集的效果的参考基因组数据集(所述基因集至少包括与所述目标过程或途径相关的所述基因)。所述储存期装置还存储在被执行时导致所述处理器利用治疗数据计算治疗向量，利用临床数据计算临床向量，以及计算参考向量集的机器可读指令集。所述指令还导致所述处理器计算所述治疗向量与所述临床向量之间的向量距离，以及计算所述临床向量与所述参考向量集中的每一个之间的向量距离集。所述指令还导致所述处理器确定所述向量距离集的分布，以及计算所述向量距离相对于向量距离集的百分位数。

这些以及本发明的附加对象、实施方案和方面参见下面的附图说明和具体实施方式将变得显而易见。

附图说明

虽然本说明书通过特别指示并清楚地要求被视为本发明的主题作出结论，但据信由下列说明和附图可充分地理解本发明。为了更清晰地示出其它元件，可能已通过省略所选元件简化了这些图形中的一些。在某些图形中对元件的此类省略未必指示在任一示例性实施方案中存在或不存在特定元件，除非在相应的文字说明中可明确地描述确实如此。附图均未按比例绘制。

图1是适用于本发明的计算机系统的示意图；

图2是根据本具体实施方式适用的可编程计算机的示意图；

图3描绘了示出评估了对两个生物途径的抗衰老效果的成分的log2倍数变化数据的示例热图；

图4描绘了代表作为由参考基因组数据生成的向量距离的余弦距离集的示例分布；

图5描绘了描绘参考基因组数据的示例数据库中的所有生物过程/途径的标准化抗衰老效果的示例热图；

图6示出了第一生物过程和途径集的抗衰老治疗的示例数据；

图7示出了第二生物过程和途径集的抗衰老治疗的示例数据；

图8示出了第三生物过程和途径集的抗衰老治疗的示例数据；

图9是汇总图6、7和8中所描绘的示例结果的图表；

图10是描绘用于评估治疗对根据本说明书的生物过程和途径的效果的示例方法的一部分的流程图；

图11是描绘图10中所示示例方法的另一部分的流程图。

具体实施方式

现在将偶尔参照本发明的具体实施方案来描述本发明。然而，这个发明可按不同的形式来实施并且不应当被理解为只限于本文所示的实施方案。相反，提供这些实施方案使得本公开成为彻底和完全的，因而向本领域的技术人员充分传达本发明的范围。

贯穿本说明书描述的计算方案定量且系统地评估成分对具体生物过程和/或途径的效果强度。例如，在一个实施方案中，体现为储存在有形计算机可读介质上的计算机可读指令并由处理器执行的计算方案定量分析多种用于皮肤治疗和化妆品中的成分的抗衰老效果。该评估是通过利用关键基因的表达谱的向量表示与根据专有和/或公共和/或授权基因组研究数据所得向量的相似度计算实现。

计算方案和方法的结果有利于鉴定过去研究中所用成分的益处与新型成分的有益作用机制间的联系。例如，当用于评估皮肤治疗的抗衰老效果时，所述方法建立先前使用并研究的成分的抗衰老益处或未来可以使用的成分的抗衰老益处的联系。在所述方法的益处中的是：可以将已证实在治疗病症中有益的先前产品和成分与提供益处的特定作用方法和生物过程和/或途径相联系(例如，解释哪些生物途径和/或方法使得特定治疗产生较少皱纹)；可以基于特定作用方法和靶向的生物过程和/或途径鉴定其它成分(例如，鉴定靶向影响皱纹产生的生物途径和/或过程的成分)；且可以向消费者解释特定治疗益处(例如，向消费者解释特定成分导致皱纹更少、紧致性、质感、光泽等更好)。

公开的方法量化且涉及(1)成分的基因组数据(可包括临床研究数据和/或体外研究数据)；(2)比较受影响和未受影响的细胞的临床基因组研究数据(例如，对于皮肤老化研究，是比较来自年轻个体和年老个体的细胞的数据)；(3)连接映射研究中的中各种化学品的基因组数据；和(4)各种生物过程/途径的可公开获得的、授权的和/或专有基因集。

除非另外限定，本文所用的所有科技术语同本发明所属领域的普通技术人员一般理解的术语具有相同的含义。本发明说明书中所用的术语仅用于描述具体实施方案并不旨在限制本发明。如本发明的说明书和所附权利要求中所用，除非上下文另外清楚地指明，单数形式“一个”、“一种”和“所述”旨在也包括复数形式。除非另外指明，否则所有数值都应理解为在所有情况下经过术语“约”修饰。另外，所公开的任何范围均旨在被理解为包括该范围自身并且也包括涵括在其中的任何值、以及端值。所有数值范围是包括端值在内的较窄范围；所述的范围上限和下限是可互换的，以形成未明确描述的其它范围。

如本文所用，术语“基因表达谱”和“基因表达谱实验”是指使用任何合适的表达谱技术在生物样本中测量多个基因的表达。示例性的基因表达生物分子代表(即，“生物标记”)包括蛋白、核酸(例如mRNA或cDNA)、蛋白片段或代谢物、和/或由基因转录物编码的蛋白编码的酶活性产物，并且本文所述的任何生物标记的检测和/或测量适用于本发明的情况。

如本文所用，术语“干扰原”是指在基因表达谱实验用作挑战以产生基因表达数据的刺激物。示例性干扰原包括(但不限于)天然产物，诸如植物或哺乳动物提取物；合成化学品；小分子；肽；蛋白(诸如抗体或它的片段)；拟肽物；多核苷酸(DNA或RNA)；药物(例如Sigma-Aldrich LOPAC(药理活性化合物库)系列)；以及它们的组合。干扰原的其它非限制性示例包括植物物质(其可来源于植物的根、树皮、叶、种子或果实中的一种或多种)。一些植物物质可使用一种或多种溶剂从植物生物质(例如根、茎、树皮、叶等)中提取。干扰原组合物(例如植物组合物)可包含化合物的复杂混合物并且不含不同的活性成分。

以举例的非限制性方式，干扰原在本发明的多个方面是由美国食品和药物管理局(Food and Drug Administration)一般认为是安全(Generally Recognized as Safe，GRAS)的物质、食品添加剂、或在包括非处方药在内的消费品中使用的物质。一些适合用作干扰原的剂的示例可以在以下来源找到：与美国国立卫生研究院相关的PubChem数据库(http://pubchem.ncbi.nlm.nih.gov)；个人护理产品理事会的成分数据库(http://online.personalcarecouncil.org/jsp/Home.jsp)；和由个人护理产品委员会出版的2010年国际化妆品成分词典和手册第13版；欧盟化妆品成分和物质清单；日本化妆品成分表；个人护理产品委员会SkinDeep数据库(URL:http://www.cosmeticsdatabase.com)；FDA批准的辅料清单；FDA OTC清单；日本准药品清单；US FDA一切添加到食品的数据库；EU食品添加剂清单；日本现有食品添加剂，Flavor GRAS清单；US FDA针对GRAS物质的特别委员会；US家用产品数据库；全球新产品数据库(GNPD)个人护理、卫生保健、食品/饮料/宠物和家庭数据库(URL:http://www.gnpd.com)；和化妆品和植物物质的供应商。在各种实施方案中，干扰原是病原体(如微生物或病毒)、辐射、加热、pH、渗透压等等。

如本文所用，术语“实例”和“基因表达谱记录”是指涉及基因表达谱实验的数据。例如，在一些实施方案中，将干扰原(在本文中又称为“成分”或“化合物”)施用于细胞，检测和/或定量基因表达，并且将所得基因表达数据存储为数据架构中的实例。所述实例可以是“测试实例”，其包括来自施用干扰原的细胞的基因表达数据；“状况实例”，其包括具有在检特定表型或生物状况的细胞的基因表达数据(例如，与医疗疾病相关的细胞(诸如癌细胞)、人类中受鼻病毒感染影响的细胞、或受病毒或细菌感染的细胞)；或“对照实例”，其包括来自未暴露至干扰原且未表现出感兴趣的状况的细胞的基因表达数据(即，来自对照细胞的数据)。在一些实施方案中，基因表达数据包括代表作为基因表达谱实验一部分的基因的标识符列表。标识符可包括基因名称、基因符号、微阵列探针ID、或任何其它标识符。在一些实施方案中，基因表达数据包括测量使用一个或多个探针(例如寡核苷酸探针)检测的两个或更多个基因的基因表达。在一些实施方案中，一个实例包括来自微阵列实验的数据并且包括按探针靶基因相对于在对照条件下基因表达的不同表达程度排序的微阵列探针ID列表。基因表达数据也可包括元数据，包括但不限于与一种或多种干扰原、基因表达谱测试条件、细胞、和微阵列有关的数据。

如本文所用，术语“计算机可读介质”是指任何有形非瞬态电子存储介质并包括但不限于在任何方法或技术中用于存储信息(诸如计算机可读的指令、数据和数据结构、数字文件、软件程序和应用程序、或其它数字信息)的任何易失性的、非易失性的、可移除的、和不可移除的存储介质。计算机可读介质包括但不限于专用集成电路(ASIC)、光盘(CD)、数字多功能光盘(DVD)、随机存取存储器(RAM)、同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、直接RAM总线RAM(DRRAM)、只读存储器(ROM)、可编程只读存储器(PROM)、电可擦可编程只读存储器(EEPROM)、盘、载波、和记忆棒。易失性存储器的示例包括但不限于随机存取存储器(RAM)、同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、和直接RAM总线RAM(DRRAM)。非易失性存储器的示例包括但不限于只读存储器(ROM)、可编程只读存储器(PROM)、可擦可编程只读存储器(EPROM)、和电可擦可编程只读存储器(EEPROM)。存储器能够存储过程和/或数据。其它计算机可读介质包括任何合适的盘介质，包括但不限于磁盘驱动器、软盘驱动器、磁带驱动器、极碟驱动器、闪存存储卡、记忆棒、光盘ROM(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可复写驱动器(CD-RW驱动器)、和数字多功能ROM驱动器(DVD ROM)。如本文所用、术语“计算机可读存储介质”是指除载波和其它瞬态信号之外的任何计算机可读存储介质。

如本文所用，术语“软件”和“软件应用程序”是指一个或多个计算机可读和/或可执行指令，所述指令导致计算装置或其它电子装置执行功能、动作、和/或以所需方式运转。指令可以一种或多种不同形式体现，例如例程、算法、模块、库、方法、和/或程序。软件可以多种可执行的和/或可装载的形式实现并且可位于一个计算机组件中和/或分布在两个或更多个连通的、协作的、和/或并行处理的计算机组件之间，并且因此可以串行、并行、和其它方式被载入和/或执行。可将软件存储在一个或多个计算机可读介质上，并且可全部或部分地实现本发明的方法和功能。

如本文所用，术语“数据架构”一般是指一种或多种数字数据结构，其包括有组织的数据集合。在一些实施方案中，可将数字数据结构在计算机可读介质上存储为数字文件(例如电子表格文件、文本文件、文字处理文件、数据库文件等)。在一些实施方案中，数据架构以数据库形式提供，其可通过数据库管理系统(DBMS)进行管理，该系统用于访问、组织和选择存储在数据库中的数据(例如基因表达谱数据)。在一些实施方案中，可将数据库存储在单独的计算机可读介质上，然而在其它实施方案中，可将数据库存储在不止一个计算机可读介质上和/或跨它们存储。

I.系统和装置

参见图1和2，现在将描述根据本发明用于识别干扰原与生物过程和/或途径之间的关系的系统和装置的一些示例。系统10包括一个或多个计算装置12,4、与计算装置12相关联的计算机可读介质16、和通信网络18。

可以硬盘驱动器形式提供的计算机可读介质16包括诸如数据库文件的多种数字文件20，其包括基因集22、24和26，基因集22、24和26各自识别特定目标生物过程或途径中的基因，并储存为与数字文件20相关联的数据结构。多个基因集可存储在关系表和索引或其它类型的计算机可读介质中。虽然基因集数据22、24和26可以分布到多个数字文件，但本文为了简便起见只举例说明单个数字文件20。另外，虽然基因集数据22、24和26只针对三个目标生物过程/途径进行描述，但数字文件20可以包括指示对应任何数量的目标生物过程/途径的基因集的数据。

数字文件20可以广泛多种格式提供，包括但不限于文字处理文件格式(例如Microsoft Word)、电子表格文件格式(例如Microsoft Excel)、和数据库文件格式(例如GIF、PNG)。合适文件格式的一些常见示例包括但不限于与文件扩展名如*.xls、*.xld、*.xlk、*.xll、*.xlt、*.xlxs、*.dif、*.db、*.dbf、*.accdb、*.mdb、*.mdf、*.cdb、*.fdb、*.csv、*sql、*.xml、*.doc、*.txt、*.rtf、*.log、*.docx、*.ans、*.pages、和*.wps相关联的那些。

再次参见图1和2，计算机可读介质16也可具有存储在其上的第二数字文件(或文件集)30。第二数字文件30包括一个或多个与一个或多个状况相关的治疗基因组数据集32。治疗基因组数据集32各自包括暴露至治疗的细胞的基因表达数据集。也就是说，对于给定状况，治疗基因组数据集32包括所述状况在特定治疗存在下的基因表达。数字文件30可以包括对应单个治疗(例如，第一成分或化合物)或多个治疗的治疗基因组数据集32，而且可以包括对应单个状况或多个状况的治疗基因组数据集32。例如，治疗基因组数据集32的第一集可以反映经过用于衰老或年龄相关性状况的第一治疗的皮肤细胞的基因表达数据，而治疗基因组数据集32的第二集可以反映经过用于衰老或年龄相关性状况的第二治疗的皮肤细胞的基因表达数据，并且治疗基因组数据集32的其它集可以反映经过用于非年龄相关性皮肤状况(例如，头皮屑、毛发生长等)或与皮肤完全无关的状况的一个或多个治疗的皮肤细胞的基因表达数据。

每个数据集32包括基因列表和代表被选为代表感兴趣的状况(例如，衰老影响、头皮屑、毛发生长、皮肤水分等)的被上调和/或下调基因的相应表达值。在一些实施方案中，第一列表可以代表由于特定治疗引起上调的基因，并且第二列表可以代表由于特定治疗引起下调的基因。基因名称和/或基因符号(或另一种命名法)和/或探针集ID可以用来代表个别基因，包括其在数据32中的数据。附加的数据可用数字文件30存储，并且这常称为元数据，其可包括任何相关联的信息，例如细胞系或样本源、以及微阵列标识。在一些实施方案中，可将一个或多个基因表达谱存储在多个数字文件中和/或存储在多个计算机可读介质上。在其它实施方案中，可将多个基因表达谱存储在相同数字文件(例如30)中或存储在包括实例22、24、和26的相同数字文件或数据库中。

第二数字文件30还包括一个或多个对照基因组数据集33和一个或多个状况基因组数据集34。对照基因组数据集33各自包括正常细胞(即，未受到治疗或状况影响的细胞)的基因表达数据集。类似地，状况基因组数据集34各自包括具有所述治疗所靶向的状况的细胞的基因表达数据集。数字文件30可以包括对应一类细胞或多类细胞和/或对应一个状况或多个状况的对照基因组数据集33和状况基因组数据集34。例如，参考衰老对皮肤的影响的治疗，数字文件30可以包括暴露至紫外(UV)辐射的年轻皮肤细胞(例如，手臂上的皮肤细胞)的对照基因组数据集33，并且还可以包括未暴露至UV辐射的年轻皮肤细胞(例如，臀部上的皮肤细胞)的对照基因组数据集33。类似地，数字文件30可以包括暴露至UV辐射的年老皮肤细胞的状况基因组数据集34，并且还可以包括未暴露至UV辐射的年老皮肤细胞的状况基因组数据集34。基因名称和/或基因符号(或另一种命名法)和/或探针集ID可以用来代表个别基因，包括其在数据集33、34中的数据。附加的数据可用数字文件30存储，并且这常称为元数据，其可包括任何相关联的信息，例如细胞系或样本源、以及微阵列标识。在一些实施方案中，可将一个或多个基因表达谱存储在多个数字文件中和/或存储在多个计算机可读介质上。在其它实施方案中，可将多个基因表达谱存储在相同数字文件(例如30)中或存储在包括实例22、24、和26的相同数字文件或数据库中。

如将在下文中所描述，对照基因组数据33和状况基因组数据34可以用于产生代表状况的效果的临床向量，其通过相对于对照基因组数据33的状况基因组数据34表示。然而，在一些实施方案中，对照基因组数据33和状况基因组数据34可以替换为单个数据集，所述集代表已经经过分析以确定效果的数据。例如，数字文件30可以包括代表表达变化的数据集，诸如(但不限于)对照基因组数据与状况基因组数据间的log2倍数变化、标准化值(z评分)、t统计值或正态分位数。

数字文件30也可以包括一个或多个参考基因组数据集35。参考基因组数据可以包括基因组研究数据的任何数据库，其包括多个材料和状况的数据。例如，在一个实施方案中，参考基因组数据包括来自对超过2,000个材料和状况的研究的基因表达谱数据。如下文将详细描述，利用参考基因组数据提供材料和状况的效果的背景分布，所述背景分布容许向通过所述方法测定的多个向量距离分配统计显著性。

存储在第一数字文件20和第二数字文件30中的数据可以广泛多种数据结构和/或格式存储，例如本文所述的数据结构和/或格式。在一些实施方案中，将数据存储在一个或多个可搜索数据库中，例如免费数据库、商业数据库、或公司的内部专有数据库。可根据任何模型提供或结构化数据库，例如并且非限制地包括平面模型、分层模型、网络模型、关系模型、维度模型、或面向对象的模型。在一些实施方案中，至少一个可搜索数据库是专有数据库。系统10的使用者可使用与数据库管理系统相关联的图形用户界面访问以通信方式联接至系统的一个或多个数据库或其它数据来源并从中检索数据。在一些实施方案中，以第一数据库形式提供第一数字文件20并且以第二数据库形式提供第二数字文件30。在其它实施方案中，可合并第一和第二数字文件并以单个文件形式提供。

在一些实施方案中，第一数字文件20可包括通过通信网络18从存储在计算机可读介质38上的数字文件36中传输的数据。在一个实施方案中，第一数字文件20可包括获取自细胞系(例如鼻上皮细胞系、癌细胞系等等)的基因表达数据以及来自数字文件36的数据，诸如来自其它细胞系或细胞类型的基因表达数据、干扰原信息、临床实验数据、科学文献、化学数据库、药物数据库、和其它数据与元数据。数字文件36可以以数据库形式提供。

计算机可读介质16(或另一种计算机可读介质)也可具有存储在其上的一个或多个数字文件28，其包括计算机可读的指令或软件用于读取、编写、或换句话讲管理和/或访问数字文件20,30。计算机可读介质16也可以包括存储在一个或多个数字文件28中的软件或计算机可读和/或可执行指令，其导致计算装置12执行一种或多种本文所述方法，包括例如但不限于与根据对应不同目标生物过程和途径并存储在数字文件20中的基因集22、24和26比较储存在数字文件30中的基因表达谱数据(例如，治疗和对照基因表达数据)相关的方法(或方法的一部分)，用于计算log倍数变化的方法(或方法的一部分)，用于产生和/或汇编变化向量的方法，用于计算向量间向量距离的方法，用于汇编和分析分布的方法等。在一些实施方案中，一个或多个数字文件28形成用于管理数字文件20,30的数据库管理系统的一部分。

计算机可读介质16可形成部分或换句话讲连接至计算装置12。计算装置12可以广泛多种形式提供，包括但不限于任何通用或专用计算机如服务器、台式计算机、膝上型计算机、塔式计算机、微型计算机、迷你计算机、平板电脑、智能电话、和大型计算机。虽然多种计算装置可适用于本发明，一种计算装置12在图2中示出。计算装置12可包括一个或多个组件，其选自处理器40、系统存储器42、和系统总线44。系统总线44提供用于系统组件的界面，系统组件包括但不限于系统存储器42和处理器40。系统总线44可为几种类型总线结构中的任何一种，总线结构还可互连至存储器总线(具有或不具有存储器控制器)、外围总线、和使用多种可商购获得的总线架构中的任何一种的局部总线。局部总线的示例包括工业标准架构(ISA)总线、微通道结构(MCA)总线、扩展ISA(EISA)总线、外围元件互连(PCI)总线、通用串行(USB)总线、和小型计算机系统界面(SCSI)总线。处理器40可以选自任何合适的处理器，包括但不限于双微处理器和其它多处理器架构。处理器执行与一个或多个应用程序或软件相关联的一组存储的指令。

系统存储器42可包括非易失性存储器46(例如只读存储器(ROM)、可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)等等)和/或易失性存储器48(例如随机存取存储器(RAM))。基本输入/输出系统(BIOS)可存储在非易失性存储器38中，并且可包括基本例程，其有助于在计算装置12内的元件之间传递信息。易失性存储器48也可包括高速RAM，如用于高速缓存数据的静态RAM。

计算装置12还可包括存储器44，其可包括例如内部硬盘驱动器(HDD)(例如增强型电子集成驱动器(EIDE)或串行高级技术附件(SATA))用于储存。计算装置12还可包括一个光盘驱动器46(例如用于读取CD-ROM或DVD-ROM 48)。驱动器和相关联的计算机可读介质提供数据、本发明的数据结构和数据架构、计算机可执行指令等等的非易失性存储装置。对于计算装置12，驱动器和介质适于储存合适数字格式的任何数据。虽然上述计算机可读介质是指HDD和光学介质如CD-ROM或DVD-ROM，本领域的技术人员应当理解也可使用计算机可读的其它类型介质如极碟、磁带盒、闪存存储卡、存储盒等等，并且此外任何此类介质可含有用于执行本发明方法的计算机可执行指令。当然，包含数字文件20、28和30的计算机可读介质16可以与系统存储器42和/或存储器44相同。

多个软件应用程序可存储在驱动器44和易失性存储器48上，包括操作系统和一个或多个软件应用程序，它们全部或部分地实现本文所述的功能和/或方法。应当理解实施方案可利用多个可商购获得的操作系统或操作系统组合实现。中央处理单元40结合在易失性存储器48中的软件应用程序可用作计算装置12的控制系统，其被构造用于或适用于实现本文所述的功能。

使用者能够通过一个或多个有线或无线输入设备50例如键盘、指向设备如鼠标(未示出)、或触摸屏来输入命令和信息到计算装置12中。这些和其它输入设备常常通过联接到系统总线44上的输入装置接口52被连接到中央处理单元40上，但是也可通过其它接口连接，例如平行端口、IEEE1394串行端口、游戏端口、通用串行总线(USB)端口、IR接口等等。计算装置12可驱动单独的或集成的显示装置54，其也可经由接口如视频端口56连接至系统总线44。

计算装置12、14可在网络18的网络环境中利用有线和/或无线网络通信接口58工作。网络接口端口58可有利于有线和/或无线通信。网络接口端口可为网络接口卡、网络接口控制器(NIC)、网络适配器、或LAN适配器的一部分。通信网络18可为广域网(WAN)如互联网，或者可为局域网(LAN)。通信网络18可包括光纤网络、双绞线网络、基于Tl/El线的网络或T载体/E载体协议的其它链路，或者无线局域网或广域网(通过多个协议如超移动宽带(UMB)、长期演进(LTE)等等)。另外，通信网络18可包括用于无线通信的基站，其包括收发器、用于调制/解调的相关电子设备、和开关以及用于连接回程通信(例如分组交换通信的情况)主干网络的端口。

II.用于评估治疗效果的方法

虽然本文主要针对与皮肤护理相关的治疗与此类治疗的效果(例如，抗衰老效果)进行描述，但本文所列方法适用于各种治疗领域，包括但不限于与毛发护理、口腔护理、梳洗等有关的治疗。一般来讲，所述方法可以用于针对给定目的识别任何成分或化合物示出有益效果的生物过程和/或途径。为了便于讨论，以下公开内容是指具体治疗、生物过程和途径、有益效果和产品领域。然而，本领域的普通技术人员将理解，这个讨论是示例性的，并且不具限制性。此外，虽然针对“生物过程”描述方法和系统，但本领域的一般技术人员将理解，一般来讲，该短语应当理解为包括生物途径，即使并不总是明确说明。反过来也是如此，使用短语“生物途径”一般将理解为包括生物过程。

一般来讲，所述方法计算两个向量之间的距离(即，向量距离)，并且测定所述向量距离的统计显著性，以评估治疗对特定生物途径的效果。两个向量中的第一个是代表成分对所述生物途径中的基因的治疗效果的表达变化集，并且包括对应所述生物途径中的基因中的每一个的一个值。所述向量中的第二个是代表状况对所述生物途径的基因的效果的表达变化集。通过将两个向量之间的向量距离与向量距离的经验分布作比较，可以确定所述治疗对所述生物途径的效果的显著性。对应于每个生物途径/过程且在所述向量中的每一个中体现的基因由基因本体论、KEGG途径、Wiki途径和/或任何其它已知来源指定。

虽然本文主要描述为余弦距离，并且参考用于计算余弦距离的公式，并在所述方法的剩余部分使用余弦距离，但向量距离可以是两个向量之间的任何距离测量值，包括例如但不限于欧几里得距离、马哈拉诺比斯距离、曼哈坦距离、切比雪夫距离、闵可夫斯基距离等等。因此，本文描述为实现余弦距离的任何实施方案都可以另选地实现任何其它向量距离，并且在示例中使用余弦距离不应当理解被视为限制。

例如，在研究特定剂Pal-KTTKS(例如，浓度为3ppm)对皮肤细胞衰老的效果的情况下，可以靶向特定生物过程。对于目标生物过程中的每一个基因，可以针对暴露至紫外(UV)辐射的细胞(例如，取自手臂的细胞)、针对未暴露至UV辐射的细胞(例如，取自臀部的细胞)或者针对两种计算年老和年轻细胞间的表达变化(例如，log2倍数变化)。也就是说，状况基因组数据34可与对照基因组数据33比较，以确定目标生物过程中每个基因的表达变化。也可以针对目标生物过程中的每一个基因计算经治疗的与未经治疗的细胞间的表达变化，在一些具体实施中，其可以包括比较对照基因组数据33与治疗基因组数据32。每个表达变化集(其中每个集包括目标生物过程中每个基因的表达变化)形成对应向量，并且治疗效果的向量(后文又称作“治疗向量”)与参考效果的向量(例如，年老/年轻细胞的向量)(本文又将它称作“临床向量”)作比较，方式是获取所述向量间的距离(例如，余弦距离)。

图3针对两个不同目标生物途径中的每一个描绘了代表Pal-KTTKS(3ppm)相对于UV和非UV暴露细胞的示例性表达变化数据(在这个示例中，为log2倍数变化数据)的热图70、80。具体地，热图70描绘了胆固醇生物合成途径的数据，并且热图80描绘了ATP酶调节途径的数据。在热图70、80中的每一个中，72a-n、82a-n每行描绘对应目标生物途径中的一个基因，其中n是目标生物途径中基因的数量。热图70、80各自包括三纵列74a-c、84a-c，所述纵列分别代表暴露至治疗成分或化合物的细胞、UV暴露皮肤细胞和非UV暴露皮肤细胞的的log2倍数变化。因此，纵列74a代表体现在热图70中的目标生物途径(例如，胆固醇合成途径)的治疗向量，并且纵列74b和74c各自代表体现在热图70中的目标生物途径的临床向量。类似地，纵列84a代表体现在热图80中的目标生物途径(例如，ATP酶调节途径)的治疗向量，并且纵列84b和84c各自代表体现在热图80中的目标生物途径的临床向量。

现将利用以上示例描述具体方法和计算，其中目标治疗是Pal-KTTKS(和其它)，并且目标状况是皮肤细胞衰老。自始至终，UV介导的老化也可以称作“光老化”，并且经历光老化的细胞可以称作“UV暴露皮肤细胞”或“暴露至UV辐射的皮肤细胞”。类似地，非UV介导的老化也可以称作“自然老化”，并且经历自然老化的细胞可以称作“非UV暴露皮肤细胞。指定成分(例如，Pal-KTTKS)的治疗效果，在这种情况下为抗衰老效果，是通过目标生物过程中的基因的表达变化(例如，log2倍数表达变化)的两个向量之间的向量距离(例如，余弦距离)衡量。所述向量中的一个比较所述基因的治疗基因组数据与所述基因的对照基因组数据，以代表对所述基因的治疗效果(即，所述成分的“治疗效果向量”或“治疗向量”)。另一个向量(本文称作“状况效果向量”、“状况向量”或“临床向量”)比较所述基因的状况基因组数据与所述基因的对照基因组数据，以代表所述状况对所述目标生物过程中的基因的效果。就本示例而言，临床向量将比较年老与年轻皮肤的皮肤样本间的基因表达。

本文描述了每个向量的值并描绘为目标生物过程中每个基因的log2倍数变化值。在实施方案中，针对多次平行测定求取log2倍数变化的平均值。然而，也可以使用(代替log2倍数变化)p值的标准正态分位数(两尾)或t统计量或者专用基因组研究的标准化值(z评分)、或表达变化的其它定量量度作为向量的值。

在任何情况下，针对目标生物过程i，根据下式等式计算治疗向量与临床向量之间的向量距离dist_i，举例来说计算为余弦距离

其中对于第i个目标生物过程，cos_i代表余弦距离，并且v_tret_i和v_ref_i分别为治疗效果向量和临床向量。v_tret_i和v_ref_i各自由k个基因的与第i个目标生物过程相关的值{c_tret_i1,c_tret_i2,...,c_tret_ik}和{c_ref_i1,c_ref_i2,…,c_ref_ik}组成(根据例如文件20的基因集22、24、26中的一个)，并且具体地，是分别代表每个基因在存在或不存在所述治疗和在存在或不存在所述状况时的表达差异的值。因此，每个向量可以表示为：

对于给定的目标生物过程i，向量距离cos_i代表所述治疗(即，成分或化合物)相对于所述状况的效果。例如，当使用余弦距离时，余弦距离的值从负一跨度到正一[-1,1]，并与所述治疗效果成比例。正余弦值意味着治疗效果向量在相同方向上透射到临床向量上，并且因此所述治疗增加所述状况的效果。负余弦值意味着治疗效果向量在相反方向上透射到临床向量上，并且因此指示了与所述状况相反的治疗效果。也就是说，对于目标生物途径，余弦值为负一表明所述治疗成分或化合物导致正好与所述状况相反的表达。然而，两个向量之间的任何其它定量向量距离如欧几里得距离、马哈拉诺比斯距离、曼哈坦距离、切比雪夫距离、闵可夫斯基距离或任何其它类似量度都可以另选地以与余弦距离相同的方式用作治疗的效果量度，以处理与临床状况相比的治疗效果。

虽然治疗和目标生物途径的向量距离指示所述治疗对所述目标生物途径的效果，但向量距离本身并不指示所述效果相对于对其它生物途径的其它效果的显著性。特定向量距离的统计显著性可以由利用参考基因组数据如连接映射(CMap)基因组数据计算出向量距离的经验分布外推得出。例如，特定基因组数据集(例如，Affy U133A 2.0平台)可以包括角化细胞细胞系的约3,000个实例和成纤维细胞细胞系的约1,500个实例。前者可以由1,400种独特治疗成分/化合物和状况组成，而后者可以由650种独特治疗成分/化合物和状况组成。向量距离的经验分布可以由这个大型参考基因组数据集生成，从所述经验分布，治疗向量与临床向量之间的向量距离的显著性可以从所述向量距离在那些所述分布中的向量距离中的百分位数估算出。

所述经验分布是由第i个目标生物过程的向量距离(例如，余弦距离)集DIST_i构建得到。根据下式计算向量距离集

DIST_i＝{dist_i,1,dist_i,2,...,dist_i,s} (等式4)

其中dist_i,j是第j个实例/材料的参考治疗向量与第i个目标生物途径的临床向量之间的向量距离，当采用余弦距离时，根据下式计算

并且v_back是参考实例与临床实例间的表达变化向量(如果v_tret和v_ref是表达变化向量)。另选地，但不一定地，v_back可以是相同批次内所有实例的标准化值(z评分)或者p值的标准正态分位数或t统计量的向量。

图4描绘示例分布90、92，对于胆固醇生物合成途径，所述分布分别代表由非UV暴露皮肤细胞和UV暴露皮肤细胞的参考基因组数据生成的向量距离(在这种情况下为余弦距离)的频率。也就是说，对于胆固醇生物合成途径，分布90指示一个成分的向量在参考基因组数据中与非UV暴露皮肤的临床向量具有特定余弦距离所具有的频率。类似地，对于胆固醇生物合成途径，分布92指示一个成分的向量在参考基因组中与UV暴露皮肤的临床向量具有特定余弦距离所具有的频率。换句话讲，分布90、92分别代表对于非UV暴露皮肤细胞和UV暴露皮肤细胞，一组成分将强烈影响胆固醇生物合成途径的频率。

利用所述分布，可以计算临床向量与治疗向量之间的向量距离的百分位数。具体地，在第i个目标生物过程的分布的极值区域内的百分位数是根据下式计算：

其中size(DIST_i≤dist_i)指示小于或等于所述DIST_i集中dist_i的元素的数量，并且size(DIST_i)指示该集中的总数量。将第i个生物过程的百分位数n_per_i用作对第i个生物过程的治疗效果的显著性的量度。根据临床和状况研究，具有较高百分位数的极值区域也可能受到关注。

再次参见图4，针对自然老化(即，对于非UV暴露细胞)和UV介导的老化(即，对于UV暴露细胞)的Pal-KTTKS治疗(3ppm，对于成纤维细胞)显示从成纤维细胞参考基因组数据计算的经验分布中的向量(余弦)距离93、94和对应百分位数95、96。从图4中明显可见，Pal-KTTKS治疗示出极强负余弦距离值，自然老化向量(-0.720)和光老化向量(-0.640)。视为在由参考基因组数据计算的分布中的向量距离分别得到0.22和0.36的百分位数计算值，确定Pal-KTTKS针对自然老化和UV介导的老化对胆固醇合成途径提供强抗老化益处。

当然，对此，本说明书已经描述将所述方法运用到单一治疗和单一目标生物途径，其在运用时有利于评估特定治疗对目标生物途径的有效性。然而，为了识别可以建立有益治疗效果的任何生物过程，可以将到目前为止描述的方法运用到任何能找到的生物过程。例如，可以将所述方法运用到基因本体论、KEGG、Wiki途径数据库中的每一个中具有至少5个基因的生物过程/途径中的每一个(产生总共约4,500个生物过程/途径)。因此，将针对所评估的目标生物途径中的每一个计算出一个百分位数，从而得到百分位数值集N_Per，表示为

N_Per＝{n_per₁,n_per₂,...,n_per_n} (等式7)

其中n是所检查的全部生物过程/途径的数量。针对具有最小显著性的生物过程/特征图，可以选择阈值百分位数(例如，5％)作为选择标准。具有有益作用方法的生物过程集BP_MOA是百分位数小于阈值百分位数的生物过程集：

BP_MOA＝{bp_i|n_per_i≤阈值，i＝1，2，...，n} (等式8)

其中bp_i是第i个生物过程。根据临床和状况研究，在一些实施方案中，具有较高百分位数的极值区域可能受到关注。在一些具体实施中，检查所有生物过程的百分位数的分布，以确定所述分布是否是从均匀分布扭曲而来，其根本不会暗示强治疗效果。

在一些具体实施中，治疗集(也就是成分和/或化合物)对生物过程集的显著性显示(例如，在显示器或打印页面上)为图形表示，其可以有助于理解可能从结果中产生的复杂图案。图形表示可以包括例如热图。在一个实施方案中，热图是由标准化值而非百分位数构建而来。标准化值可以例如根据下式，由向量距离计算

其中std_effect_i是标准化值，并且mean(平均)和sd分别是计算第i个生物过程的向量距离集(DIST_i)的平均值和标准偏差的函数。根据上下文，正标准化值指示有益效果(例如，有益抗衰老效果)，并且负标准化值指示没有有益效果。当然，在一些情况下，正标准化值可以指示不利或可忽视的效果，而负标准化值可以指示有益效果。图5示出针对24种不同成分和/或化合物描绘由基因本体论数据库定义的所有生物过程的标准化抗衰老效果的示例热图98。

图6、7和8示出来自基因本体论数据库的三个生物过程/途径集的示例性数据，包括一个胆固醇代谢过程/途径集100(图6)、一个ATP酶调节过程/途径集120(图7)和一个先天性和适应性免疫过程/途径集140(图8)。对于每个过程和途径集，多种单一过程和途径100a-h、120a-j、140a-h形成图表的行，并且对于每个过程或途径，五种治疗成分/制剂形成所述图表的纵列。对于每个制剂A-E，针对每个生物过程和途径列出百分位数。

特别看看图6，可以看到，Pal-KTTKS 3ppm针对生物过程/途径100a-h中的每一个具有极低百分位数值，表明Pal-KTTKS 3ppm对与成纤维细胞相关的胆固醇代谢过程/途径具有极强效果。至少对于纵列C中的制剂，类似分析适用于Olivem 460。对于烟酰胺(纵列D和E)，只有一个生物过程(即，100b，类固醇代谢过程)具有低于示例性5％阈值的百分位数，表明烟酰胺有可能对胆固醇代谢途径和过程不具有强效果。看看图7，很明显Pal-KTTKS和烟酰胺对任何ATP酶调节过程/途径都几乎没有效果，而Olivem 460(纵列C)对某些ATP酶调节过程/途径具有效果(例如，ATP水解耦合质子转运120b和烟酰胺核苷酸代谢过程120g)，但对全部ATP酶调节过程/途径都只有微弱效果。同时，在包括在图8中的先天性和适应性免疫过程/途径中，烟酰胺化合物的许多百分位数值都低于示例5％阈值，表明烟酰胺对途径集140具有强效果。将对图6、7和8中的数据的分析汇总到图9中。

在实施方案中，经由所述方法和系统识别为受到治疗成分或化合物有益影响最大的生物过程和途径可以与特定益处相关联和/或映射到消费者术语，并且可以用那些益处和/或消费者术语引起感兴趣的人的注意(例如，营销专家、临床医生、零售消费者、研究人员等)。例如，并且再次参见抗老化研究，可以将生物过程或途径映射到消费者相关术语，诸如，例如但不限于：皱纹、皮肤屏障、机械紧致度、质感、水合作用、光泽、弹性等。通过帮助识别受到治疗成分或化合物有益影响最大的生物过程和途径，所述方法和系统有助于向消费者和临床医生推广，并提供科学认证，例如，包含所述治疗成分或化合物的产品的益处。

现在转向图10，流程图描绘用于识别具有有益作用机制的治疗的示例方法200。方法200一般将理解为对应上述方法，方法200中所述集合运算的确切顺序和集合旨在说明而非限制。方法200是由计算机处理器如针对图2描述的处理器40，根据储存在有形(也就是非瞬态)装置上的计算机可读指令执行。输入和输出数据也是储存在有形装置上。

处理器从存储器装置检索数据，所述数据包括更多临床基因组研究数据(框202)、治疗基因组数据(框204)、一个或多个目标过程/途径中的基因(框206)、和一个或多个参考基因组研究集(框208)。对于第一目标过程或途径中的基因，处理器计算临床基因组研究数据中的那些基因的表达变化(框210)以测定临床向量(框212)，并计算治疗基因组研究数据中的那些基因的表达变化(或标准化值)以测定治疗向量(框214)。所述处理器然后计算所述治疗向量与所述临床向量间的感兴趣的向量距离(框218)(框216)。

所述处理器还计算每个参考基因组研究的第一目标过程或途径中的基因的表达变化(框220)以测定参考向量集(框222)。所述处理器计算所述临床向量与参考向量集中的每一个之间的向量距离(框224)，以产生向量距离的分布(框226)。所述处理器计算感兴趣的向量距离相对于向量距离分布的百分位数值(框228)。

如果要评估其它目标过程和/或途径(框230)，所述处理器针对每个目标过程和/或途径重复所述方法(框202-228)。参考图11，当没有其它目标过程和/或途径时，所述处理器将经由所述方法生成百分位数值集(框232)。在实施方案中，将所述百分位数集排序(框234)，并根据最低百分位数，例如通过选择百分位数为或低于预定阈值的过程或途径选择目标过程和/或途径(框236)。可以根据所选目标过程和/或途径识别有益作用机制(框238)。

除非另外指明，否则术语“运算”、“计算”、“测定”和“处理”可互换地用于指示通过计算机处理器操纵和/或分析数据，以产生结果。

本文所公开的值不应被理解为严格限于所引用的精确值。相反，除非另外指明，每个这样的值均旨在表示所引用的值和围绕该值的功能上等同的范围。

本发明不应认为受限于本文所述的特定示例，而是应理解为包括本发明的所有方面。本发明可适用的各种修改形式、等同方法、以及多种结构和装置对于本领域的技术人员将是显而易见的。本领域的技术人员将理解可在不脱离本发明范围的情况下进行多个改变，其不被认为是受限于本说明书的描述。

Claims

1.一种用于评估治疗效果的系统，所述系统包括：

计算机处理器；

一个或多个存储器装置，所述一个或多个存储器装置联接到所述计算机处理器并存储：

与目标过程或途径相关的基因列表；

展示所述治疗对基因集的效果的治疗基因组数据集，所述基因集至少包括与所述目标过程或途径相关的所述基因；

展示目标特征对基因集的效果的临床基因组数据集，所述基因集至少包括与所述目标过程或途径相关的所述基因；

代表各种材料和/或状况对基因集的效果的参考基因组数据集，所述基因集至少包括与所述目标过程或途径相关的所述基因；和

机器可读指令集，所述机器可读指令集能够操作以导致所述处理器执行以下操作：

利用所述治疗数据计算治疗向量；

利用所述临床数据计算临床向量；

计算所述治疗向量与所述临床向量之间的向量距离；

计算参考向量集；

计算所述临床向量与所述参考向量集中的每一个之间的向量距离集；

确定所述向量距离集的分布；以及

计算所述向量距离在所述向量距离集内的百分位数。

2.根据权利要求1所述的系统，其中计算所述临床向量、治疗向量和参考向量中的每一个包括计算生物过程或途径中的基因由于所述治疗而引起的表达变化。

3.根据权利要求1所述的系统，其中计算所述临床向量、治疗向量和参考向量中的每一个包括计算生物过程或途径中的基因由于非治疗变量而引起的表达变化。

4.根据权利要求1所述的系统，其中计算所述临床向量、治疗向量和参考向量中的每一个包括计算p值的标准正态分位数或t统计量。

5.根据权利要求1所述的系统，其中计算所述临床向量、治疗向量和参考向量中的每一个包括计算标准化值。

6.根据权利要求1所述的系统，其中计算所述治疗向量与临床向量之间的向量距离包括根据下式计算余弦距离：

\cos_{i} = \frac{v_{treat}_{i} \cdot v_{ref}_{i}}{| v_{treat}_{i} | | v_{ref}_{i} |}

其中v_treat_i和v_ref_i是向量，i是所述第i个生物过程或途径，并且

v_treat_i＝{c_treat_i1,c_treat_i2,...,c_treat_ik}

v_ref_i＝{c_ref_i1,c_ref_i2,...,c_ref_ik}

代表所述生物过程或途径中k个基因的基因表达变化。

7.根据权利要求1所述的系统，其中确定所述向量距离集的分布包括根据下式确定所述分布：

DIST_i＝{dist_i,1,dist_i,2,...,dist_i,s}

{dist}_{i, j} = \frac{v_{back}_{i, j} \cdot v_{ref}_{i}}{| v_{back}_{i, j} | | v_{ref}_{i} |}

其中

DIST_i是所述第i个生物过程的向量距离值集，

dist_i,j是第j个基因组向量与所述第i个生物过程的所述临床向量之间的向量距离，

s是所述参考向量集的大小，并且

v_back_i,j是所述第j个基因组向量与所述第i个生物过程的所述临床向量之间的变化向量。

8.根据权利要求1所述的系统，其中计算所述向量距离在所述向量距离集的分布中的百分位数包括根据下式计算所述百分位数：

n_{per}_{i} = \frac{s i z e ({DIST}_{i} \leq {dist}_{i})}{s i z e ({DIST}_{i})} \times 100

其中size(DIST_i…)指示小于或等于所述DIST_i集中dist_i的元素的数量，

dist_i是所述第i个元素的向量距离，并且

size(DIST_i)指示所述集的总数量。

9.根据权利要求1所述的系统，其中计算所述临床向量、治疗向量和参考向量中的每一个包括计算log2倍数变化。

10.根据权利要求1所述的系统，其中计算所述向量距离包括计算余弦距离。

11.根据权利要求1所述的方法，其中计算所述向量距离包括计算欧几里得距离。

12.根据权利要求1所述的方法，其中计算所述向量距离包括计算马哈拉诺比斯距离。

13.根据权利要求1所述的方法，其中计算所述向量距离包括计算曼哈坦距离。

14.根据权利要求1所述的方法，其中计算所述向量距离包括计算切比雪夫距离。

15.根据权利要求1所述的方法，其中计算所述向量距离包括计算闵可夫斯基距离。