CN101173918A

CN101173918A - 物质的生物学、生物化学、生物物理或药理学特性的预测方法

Info

Publication number: CN101173918A
Application number: CNA2007101460731A
Authority: CN
Inventors: 恩德雷·拉茨科
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2006-09-08
Filing date: 2007-09-07
Publication date: 2008-05-07
Also published as: JP2008089586A; SG141319A1; US20080077374A1; CA2600772A1

Abstract

一种用于预测物质的生物学、生物化学、生物物理或药理学的特性的方法包括下列步骤：提供样本数据，通过编码所述样本数据对所述样本数据定标度，分类所述编码的数据，以及提供基于分类结果的预测输出。

Description

物质的生物学、生物化学、生物物理或药理学特性的预测方法

技术领域

本发明提供一种预测物质的生物学、生物化学、生物物理或药理学的特性的方法。具体而言，本发明提供预测物质毒性的方法。

背景技术

在当今的生物学研究中，“组学”技术(例如：代谢组学、毒理基因组学)被广泛应用于研究与实验干扰相关联的分子和生物化学水平的变化。为了能够对这些干扰相关的变化进行检测和数值分析(NA)，通常利用各种预处理或编码程序将初始的“组学”数据转变为等标度谱。然而，现有技术的编码程序只应用于特定的实验设计，并且只应用于一种“组学”技术。如果考虑到当前新的组合应用，则也需要新的适合的编码程序。与药物开发相关的“组学”应用涉及两个重要问题：(i)从应用前景看，对于具有有限的样本和平行样本的真实干扰实验尚没有优化的编码，以及(ii)更加普遍的是，需要一种使“组学”谱和其它数据类型能够组合数字编码的编码程序。

发明内容

本发明涉及数据编码和整合，例如对“组学”谱的数值分析。本发明提供了一种预测物质的生物学、生物化学、生物物理或药理学特性的方法，例如物质的毒性。所述方法优选包括以下步骤：(a)提供样本数据；(b)通过编码样本数据来对样本数据定标度(scaling)；(c)将编码的数据分类；以及(d)提供基于分类结果的预测输出。

提供样本数据的步骤优选在将所提供的数据分区段的步骤(a1)之前。

所述数据优选是相对于单位整数(wise to unit integral)的归一化样本以便将数据转换成样本谱。所述样本谱是例如核磁共振(NMR)波谱图，并且该波谱图优选为NMR波谱数据的形式。

根据本发明的方法，波谱数据优选排列形成矩阵。所述数据优选排列在矩阵中，使得对于给定波谱的所有区段值都位于一行，对于给定区段或波谱区域的所有数值都位于一列。

根据优选的实施方案，该方法还包括以下步骤：在一个或多个与数据矩阵的列向量具有相同长度和顺序的辅助列向量中排列一个或多个样本描述符。所述的一个或多个样本描述符例如选自包括研究编号、动物编号、取样时间、剂量组、毒性分类和毒理学变量的组。

在更优选的步骤中，矩阵中缺失的数据值被替换。所述缺失的数据例如由参考值的中值形成。更详细地，所述缺失的数据由相应取样时间的相应对照组的中值形成。

编码数据的步骤(c)优选包括依据给定的规则替换矩阵的所有数值。更优选地，矩阵的数值用指示与参考区域偏离的顺序的顺序数值所替换。所述替换形成例如n-级顺序标度(ordinal scaling)。更优选地，使用3-级顺序标度，且矩阵的数值被替换成0、1或2，其根据所述数值是否低于、等于或高于相应对照组的第x和第y分位数间距(inter-quantile range)所限定的范围。在此，x例如是10，y例如是90。或者，使用二进制标度。

步骤(c)优选包括将单独的编码数据划归成组。所述组优选与特定化合物的特定剂量给药水平相对应。在步骤(d)中，得到至少一个组的预测输出。

所述方法及其优选步骤将不再详细描述。

数据和毒性分类

下表1列出了22项COMET1研究(COMET1项目在Lindon，J.C.etal.Contemporary issues in toxicology-The role of metabonomics intoxicology and its evaluation by the COMET project.Toxicology andApplied Pharmacology 187，137-146(2003)中有所描述)，其以所讨论的实施例中使用的NMR波谱为参考。将正常谱(所有的谱数值编码为1，意味着与参考没有偏离)的模拟集合加入到21项COMET1研究中，因此测试集合包括总共22项明确限定的谱组合。简述假定的器官毒性分类和主要的毒性靶。以下的数字代码用于器官毒性分类(Tox分类)：0＝无毒性，1＝其它(胰腺、淋巴、免疫毒素、睾丸、过氧化物酶体增生物)，2＝肝脏，3＝肾脏，7＝肝脏和肼类，9＝肝脏和过氧化物酶体增殖激活因子。加入了对主要毒性以及与预期靶标和机理相关的诊断的改进。R12是使用HanWistar大鼠进行的唯一研究，所有其它研究都使用SpragueDawley大鼠(Crl：CD(SD)IGS BR)进行。另外，使用了以下缩略语：(cc＝临床化学，“-”无毒性的标识，“+”＝观察到毒性的标识，histo＝组织病理学，prolif.＝增生，reg＝再生，rco＝肾脏代偿作用，sub＝亚毒的，只有最小至轻微的不可逆变化，bil＝胆的，r.反应)

表1

研究编号	处理	毒性分类	表征	主要靶标	亚分类/次级毒性	诊断
						诊断		histo	cc
						CTRLD05D06D07L01L05L07L12L13L14L16N02N09N14R01R09R12S01S04S06S08S11	模拟的正常谱部分肝切除一侧肾切除庆大霉素肼降固醇酸氯化汞剥夺食物剥夺水万古霉素马来酸ANITN-甲基甲酰胺双-甲基亚硝胺肼乙酰唑胺肼肼氯化铵丝裂霉素甲氨蝶呤碳酸氢钠	histo	cc	ntxntxntxklokntxntxkkllllkllntxoontx	无毒性无毒性无毒性毒素毒物毒物毒物无毒性无毒性毒物毒物毒物毒物毒物毒物毒物毒物毒物无毒毒素毒物无毒性	正常组织肝脏肾脏肾毒性肝毒性肝毒性肾毒性饥饿脱水肾毒性肾毒性肝毒性肝毒性肝毒性肝毒性肾毒性肝毒性肝毒性肾肾毒性血毒素肾	无再生代偿近端小管脂肪变性过氧化物酶体增生近端小管胸腺、肝肾近端小管近端小管直接的反应和胆直接的反应直接的反应脂肪变性乳突脂肪变性脂肪变性代谢性酸中毒小管，血液肝和肾碱中毒	02reg0rco3sub79sub3003reg32bil2273sub7701hae31hea0	-++++++++++++++-++++-+

简言之，在这些研究中，收集来自雄性Sprague Dawley大鼠的给药前24小时和给药后168小时之间的尿样，并以8、16或24小时为时间间隔。在每组实验中，各个处理水平上，使用10个重复动物样本作为对照组。在本文以下所描述的例子中，仅使用了从对照组和最高剂量水平组24小时至48小时尿液收集的尿代谢组学谱。根据给药48小时后观察到的病理特征，对来自22个研究的波谱进行选择和分组。通过根据毒性分类将上述研究和谱分组而得到平衡的数据集，所述毒性分类包括无毒(分类编码ntx)、肝(分类编码l)、肾(分类编码k)以及其它(分类编码o)，其中所述其它包括肝过氧化物酶体增生物、睾丸、胸腺、血液和胰腺。如果适当的话，在这些分类中区分出观察到的组织再生(亚分类编码r)、微弱至轻微的组织损伤(亚分类编码s)以及明显的组织损伤(没有亚分类编码)的情况。

应该理解，使用这些特殊数据仅作为实施例以帮助理解本发明，不应认为其以任何方式限制本发明。

排除的波谱区域(bins)

所述COMET1 NMR谱最初优选的形式为排除水区域的、分区段且归一化(即缩放到单位整数)的NMR波谱，其具有覆盖从9.96ppm至0.24ppm的波谱范围的205个0.04ppm宽的区段(bin)。而且，涉及分泌的天然药物或其代谢物(药物相关化合物或DRCs)的波谱区域也优选从这些波谱中排除(参见Ebbels，T.M.，H.Keun，et al.(2003).“Toxicitiy classificationfrom metabonomic data using a density superposition approach：“CLOUDS”.”Analytica Chimica Acta 490：109-122)。然而，这些谱仍包括已知的受肠道微生物的活性或成分变化影响的区段。这些区段使处理相关的效果的解释出现混乱，并且在任何数据分析或预测程序中不予考虑。另外，优选从分析和预测中排除存储的波谱图末端的区段，因为在先前探索性的数据分析中发现它们具有可变性。

用于分析和预测的数据矩阵和向量的定义

第一步，优选将目标波谱数据重排形成矩阵X，其中对于给定波谱的所有区段值位于一行，并且对于给定的区段或波谱区域的所有数值位于一列：

因此，行向量→r代表一个分区段的波谱，其表征一个样本，如

分区段的波谱(样本1)→r₁＝(x_1，1，x_1，2，...，x_1，p)

分区段的波谱(样本2)→r₂＝(x_2，1，x_2，2，...，x_2，p)

：

分区段的波谱(样本n)→r_n＝(x_n，1，x_n，2，...，x_n，p)，

并且列向量↓c代表矩阵中所包括的样本中的固定波谱区域或区段的可变性，如

区段1(样本1至n)↓c₁＝(x_1，1，x_2，1，...，x_n，1)

区段2(样本1至n)↓c₂＝(x_1，2，x_2，2，...，x_n，2)

区段p(样本1至n)↓c_p＝(x_1，p，x_2，p，...，x_n，p)

样本描述符，尤其是研究编号、动物编号、取样时间、剂量组、毒性分类和毒理学变量优选排列成与向量↓c具有相同长度和顺序的辅助向量↓ac。

研究序号(样本1至n)↓ac_sno＝(sno₁，...，sno_n)

动物序号(样本1至n)↓ac_ano＝(ano₁，...，ano_n)

取样时间(样本1至n)↓ac_stime＝(stime₁，...，stime_n)

剂量组合(样本1至n)↓ac_dgr＝(dgr₁，...，dgr_n)

毒性分类(样本1至n)↓ac_class＝(y₁，...，y_n)

毒理学变量1(样本1至n)↓ac_class＝(v1₁，...，v1_n)

这些辅助向量用于波谱分类，或者如果适当的话，根据预测或估计，作为依赖性变量y或由矩阵X建模的矩阵Y。

缺失数值的替换

矩阵X的波谱数据优选额外进行预处理。例如，第一步，检查所有区段(列向量)的缺失数值。在矩阵X以及如果适当的话在矩阵Y中检测到的缺失数值优选替换成相应取样时间的相应对照组的中值。更具体而言，这等于查找分配给数值分析(NA)的研究编号和取样时间，然后得到具有分配给相同的研究和取样时间的对照组中的动物的相同区段的数值的子表，最后在该子表中确定中值并替换NA。这种替换程序可以更加正式地写成

区段_a中的NA sno＝sno_i，stime＝stime₁，ano＝ano_k<-被替换为

区段_a的子表的中值sno＝sno_i，stime＝stime₁，dgr＝CTRL

优选该替换是因为它对于以下预处理步骤是中性的，也就是说增加的信息(替换缺失数值的数值)不会造成与对照组的人为的偏离。利用IQRHILO编码对数据矩阵X进行再编码(IQRHILO＝分位数间距高低)

第二步，数据矩阵X的所有数值根据所述数值是否低于、等于或高于相应对照组的第10和第90分位数(分位数间距或者IQR)限定的范围被替换成0、1或2。因此，

区段_a中的x为sno＝sno_i，stime＝stime₁，

其中

q(..)_CTRL＝区段_a中子表的第(..)分位数为sno＝sno_i，stime＝stime₁，dgr＝CTRL

例如，与分段线性编码(模糊编码)不同，根据本发明的IQRHILO编码方案抵消了分位数间距(IQR)中的可变性，并强调IQR以外的可变性。这更好地对应了与毒性检测和预测相关的数据分析的目的。IQRHILO编码通过时间和条件匹配的参考范围将过滤和定标进行整合，由此可以自由定义所述参考范围和标度。本发明的IQRHILO编码因此相当于偏离等级。这为波谱数据矩阵X的所有数值保留了信息，即与参考范围的偏离存在(如果x_替换≠1)或不存在(如果x_替换＝1)以及偏离的方向(如果x_替换＝2则增加，如果x_替换＝0则减少)。这相当于所有的波谱区段具有相同的权重，因此代表波谱的偏离只依赖于波谱中偏离区段的编号和方向，而不依赖于单个区段偏离的大小。根据本发明的IQRHILO编码被认为提高了小的和“短时间”的总体波谱偏离的灵敏性，同时也将波谱干扰或离群值转化成令人误解的的偏离指示符的风险保持在最小(特异性和变化稳定性的丧失)，因此增强基于波谱的分组、分类以及预测，最后使得基于单个尿液样本的预测成为可能。另外，再编码的矩阵X_IQRHILO可用于描绘通过辅助列向量和区段分选出的波谱变化的热图(heat map)。

CLOUDS分类器

最后，本发明优选使用如COMET1项目(参见Lindon，J.C.etal.)中开发的CLOUDS分类器(参见Ebbel，T.M.，H.Keum，et al.)。使用CLOUDS分类器需要将单独的波谱划归到组。预测输出只针对组产生，通常针对特定的化合物和剂量水平，而不针对单独的复制波谱。更精确的是，每组的预测输出是指示检测组与用于标定分类器的训练集(training set)的n个参考组中每一个之间的相似性的n个数值的列表。该列表允许以相似性升序对参考组进行分级，所述参考组代表特定的化合物和剂量水平以及最终代表相关的毒性分类。最后，检测组必须根据确定的规则分类到与其最相似的参考组所代表的毒性类别。优选的预测规则为：

如果符合下列语句之一，则将检测组归入到最相似的研究类别或分类为无毒性类：

第一命中(first hit)相似性＜0.5

第一命中对应于类别0

第一命中对应于具有亚毒性结果的研究

第一命中对应于具有仅其自身分类为类别0的再生的研究，

考虑下列命中用于解释，包括预测质量的评估。

附图说明

以下参照附图对本发明进行更加详细的描述，其中

图1 提供本发明的方法的整体示意图及其如何嵌入预处理步骤；和

图2 显示分区段-归一化波谱和分区段-归一化-IQRHILO编码谱的对应分析。

具体实施方式

本发明介绍了分位数间距(IQR)编码，一种新的数据编码方法，用以克服以上背景部分概述的已知方法的不足。本发明人首先利用尿的代谢组学谱和其它来自于COMET1项目(参见Lindon，J.C.)的毒理学数据来检验IQR编码。然后，IQR编码被应用于来自其它初步的大鼠的临床前毒性研究的数据。典型地，在后者的研究中，尿液、血清和组织样本在单次给药后48小时内从每个剂量水平的5至10个个体中收集，包括对照动物。所得数据包括基于尿的1H NMR波谱、临床化学和组织病理学评估的代谢组学谱。IQR编码可以在多变量分析和基于代谢组学的毒性分类之前使用。

图1示出根据本发明的优选实施方案利用IQR编码进行数据预处理的概要和配置。在顶部指出从数据的获取到解释的主要步骤。在中间部分，详细描述典型的预处理步骤流程，包括本发明的IQR编码。在底部给出各个步骤的目的。所注释的流程反映出一般的“组学”数据分析方案的主要步骤和目的。该方案以IQR编码对于代谢组学谱的一个可能应用为例。值得注意的是，在该优选实施方案中，IQR编码与其它普遍实施的数据预处理步骤组合，即在图示的案例中，通过分区段(成组)及归一化为单位总和而缩减数据。所示的组合并不意味着是唯一的，而是可以改变、减少或增加的，例如在初始数据在其它技术平台上产生并表征其它实体时。可见数据预处理在样本分析和基本的测量值转换成原始数据之后进行。这是原始数据的多步处理以针对特定问题能够进行适当的数据解释，而且这也是数据分析的一部分。通过根据本发明的IQRHILO编码进行的数据预处理以及“NA到中间值”的替换可以应用于原始数据或与任意(可能是先前的)质量的测量值(例如峰匹配、分区段)和整体数据标度(例如定标为单位整数)相结合。IQRHILO编码是一步程序，其通过将数据再编码为偏离谱而区别目标组(样本)之间明显的与处理相关的差异，并且在毒理学实验或测量的框架中是有效的。二者支持毒理学或药理学目的，并且不只是“组学”，而是所有类型的数据。

如图1所示，IQR编码将初始数据或谱(即在所示实施例中缩减并归一化的波谱)转变为偏离谱，其参照适当的对照数值给每个变量中的每个样本一个顺序偏离值(即顺序倍数变化)或一个二进制偏离指示符(即观察到或未观察到偏离)。只有IQR编码的概念是用以识别和估计偏离的程序，并且隐含相关的是适当参考的定义。如“IQR编码”这个术语所揭示的，偏离被定义为参考分位数间距之外的数值。优选适当对照范围的第10和第90的百分位数来确定参考IQR。属于精确相同的实验条件，即研究、处理方式、取样时间(年龄、暴露于实验因素)、世代和遗传谱系的对照数值被定义为适当的对照数值或参考。这意味着在具有重复样本和10个对照组的平行样本的典型数据集合的框架中，对于每个取样事件而言，计算其匹配参考IQR的时间，由此不使用最高和最低的对照数值。该IQR的规范可以通过选择不同的限制百分位数以及不同的适当参考条件的定义而容易地适用于其它数据集合或目的。最后，所有的数值用指示偏离于参考IQR的顺序的顺序数值所替换。例如，数据中的所有数值用0、1或2来替换，从而编码异常降低(0)、偏离在正常范围内(1)或异常增加(2)。该具有3级顺序标度的变量视为根据本发明的IQRHILO编码。优选地，可以容易地选择更精细的或更粗糙的顺序标度间隔尺寸。例如，包括二进制的标度，其对分组精简数据和逐个变量计算发生率和发生统计尤其有用。

根据本发明的IQR编码较之其它数据预处理程序更加适合毒理学研究，因为其过滤掉涉及正常个体间可变性(即在世代或遗传谱系内和跨越世代或遗传谱系的可变性)、发展和继续适应的易造成混乱的变化。值得注意的是，IQR编码不需要排除对照中的极值或偏离响应，而是可将它们作为潜在可解释的特征处理。这是因为其将与正常分位数间距的偏离编码为二进制或顺序数值，强调性质而不是精确的偏离大小。由此，IQR编码还展示出用于来自不同来源和技术的数值积分数据(作为顺序偏离或发生率)的易懂策略，以及数值协调不同性质的数据使之具有最高的共享精度(共享顺序标度的最小间隔尺寸)或有用精度的可能性。因为显著增加和降低的变量的识别和数值化最经常只构成NAA的生物学可解释部分，所以IQRHILO编码最经常与最高有用精确度一致。

从统计学的观点看，IQR编码可以看作是最优稳健显著性过滤器，其可用于替代其它最近提出的、不够稳健或不够灵敏的方法。而且，IQR编码是避免如归一化的“组学”谱通常与多变量组分数据分析相关的困难(例如错误的相关性、可解释的协方差结构的缺失)的可选方法。最后，IQR编码对所有的变量变化是同等衡量的。整体的效果是，在IQR编码后，在相似的变量子组(即数字和变化变量识别的高度重叠)中具有变化的谱被认为是相关的，或换句话说，是相同组的成员。这些特性导致我们产生争论，即如果应用于任何干扰实验框架中，则IQR编码提取干扰相关信息并有助于数值分析(NA)，也就是无监督和有监督的多变量数据分析。这得到两个基于代谢组学的毒性模型实例的支持，其建立施用待测化合物以造成代谢干扰的实验。

实施例1

第一实施例对比了分区段-归一化与分区段-归一化-IQRHILO编码的波谱图的无监督对应分析(CA)(参见图2)。对应分析(CA)的目的是使对应于已知样本组或类别的数据集合中的隐藏特征的差异程度可视化。选择对应分析是因为它能够基于“x²-度量”用于对样本的相似性以及样本-变量相关性绘图，其中“x²-度量”对于分区段-归一化与分区段-归一化-IQRHILO编码的数据是同等适用的。这使得在相同标度的两种不同预处理之后对于数据集合的结构(样本的近似度)的适当比较成为可能。前两个对应分析(CA)轴的平面中所得到的图示于图2。结论是IQRHILO编码强调与对照的小偏离。而且，值得注意的是，在IQRHILO编码后大多数代谢组学参数与对照的距离与观察到的组织学损伤的严重性是一致的。因此，与对照的几何距离具有毒理学意义。这支持了IQRHILO编码具有毒物学相关性的主张。概括来说，IQRHILO编码似乎提高了对代表不同毒性(或干扰)以及不同级别的毒性(或干扰)的样本组的辨别和识别。

图2示出分区段-归一化的波谱(图2中的左图，F1-F2显示总变化的62.1％)以及分区段-归一化-IQRHILO编码的谱(图2中的左图，F1-F2显示总变化的30.5％)的对应分析。上述的图仅根据横向数值绘制。分析谱代表在使用公知化合物的22个毒性研究中，从给药后24小时至48小时的10只Sprague Dawley大鼠中收集的215份尿液样本的1H NMR波谱。绿圈和字母CTRL指示位置和对照。彩色编码毒性类别：绿色＝对照和无毒性，黑色＝肾脏，红色＝肝脏，黄色＝肾亚毒性，灰色＝肝亚毒性，洋红色＝再生，青蓝色＝肾代偿，深蓝色＝其它(胰腺、胸腺、血液)，桔红色＝其它亚毒性。标签指示COMET1研究的编号。

为了有助于可视化比较，跨越对照坐标的两个任意轴被加到图中。IQRHILO编码将对照分离，并增加了样本数值的整体分布。在样本组中，可以看到相反的情况，即更好的圆形化(例如L07、L05、S01、R01)。除了一些例外(如N15、L05)，样本的相对位置(接近度)保持不变(如S01、R01、L01、R12、L07、S11、S04)。IQRHILO编码强调与对照的小的偏离，同时维持和稳定整体的离散度。最重要地是，在IQRHILO编码后，大多数样本和对照的距离与观察到的组织学损伤严重性一致(例如L05和N02与对照接近，没有或仅有轻微肝损伤，N14与对照距离更远，具有显著的肝损伤)。因此，在IQRHILO编码后，与对照的几何距离具有毒理学的意义：距离越大，干扰越大；或者毒性是代表性的结果。

实施例2

第二实施例显示上述优点是如何提高预测效果的。例如，利用第一实施例(前面的段落)中使用的样本集合对如在统计软件环境R(Venables，W.N.&Ripley，B.D.Modern Applied Statistics with S，Edn.FourthEdition.(Springer，New York；2002))下执行的线性判别法(LD)、k近邻法(KNN)和支持向量机(SVM)分类器以及CLOUDS分类器(即改造过的模糊神经网络分类器)进行了检测。首先，对比了使用分区段-归一化或分区段-归一化-IQRHILO编码的波谱的LD、KNN和SVM分类器对于“4-类模型”和优化的“9-类模型”的预测结果，如下表所示：

分类器	4-类模型		9-类模型
分类器	4-类模型		9-类模型			b-n谱	IQRHILO谱	b-n谱	QRHILO谱
LD	13.0	23.3	14.4	28.8		b-n谱	IQRHILO谱	b-n谱	QRHILO谱
LD	13.0	23.3	14.4	28.8	KNN	10.2	6.1	14.9	8.8
SVM	8.8	4.2	18.1	9.8	KNN	10.2	6.1	14.9	8.8

表2

表2示出对于4-和9-类毒性模型的预测出错率(％)，表明在9倍交叉验证计算后，线性判别法(LD)、k近邻法(KNN)和支持向量机(SVM)分类器的波谱错误分类(假阳性+假阴性)百分比。所述的“4-类模型”区分无毒性、肝毒性、肾毒性和其它毒性，而“9-类模型”还区分子类：再生肝、再生肾、肾亚毒性变化和其它组织亚毒性变化。使用相同样本集合的分区段-归一化(b-n)或分区段-归一化-IQRHILO编码(IQRHILO)的波谱图。所有情况下，上述谱代表了215份尿液样本的1H NMR波谱，所述样本从使用熟知的化合物的22项毒性研究中的10只雄性SpragueDawley大鼠中在给药后24小时至48小时收集。

因此，IQRHILO编码提高了40％的KNN分类器效果和52％的SVM分类器效果，但是降低了LD分类器的效果。使用IQRHILO编码的数据和SVM分类器得到最低的出错率(4.2％)。可以预期地是，IQRHILO编码的数据对LD分类器是不够的。原则上，从4-类模型得到的结论也适用于9-类模型。然而，增加了分类数目降低了预测的效果。这种降低在KNN分类器中较不明显，并得到相反的效果排名，即KNN分类器为8.8％，而SVM分类器为9.8％。对于向更扩展和更复杂的数据集合转换以及对于向11-类模型(表1的9-类模型加上肝和肾毒性以及亚毒肝和肾)转换也有相同的趋势(未出示)。在第二独立评估中，本发明人使用以上详述的4-类模型的分区段-归一化或分区段-归一化-IQRHILO编码的波谱对CLOUDS分类器的效果进行了对比。在组中留出一个交叉验证后，计算出指示错误分类组百分比的出错率(假阳性+假阴性)，由此，通过单独的研究和条件(即相同的化合物、相同的剂量水平、只取给药后48小时的样本的波谱)的10个相同样本来定义一个组。用分区段-归一化波谱得到27％的出错率，用附加的IQRHILO编码得到14％的出错率。概括地说，使用非线性和非参量分类器如KNN、SVM和CLOUDS，IQRHILO编码可以使预测5个器官毒性分类以及两个严重等级的出错率低至9～14％，甚至在单一样本场合的约束下也是如此。就本发明人所知，没有报道过其它的数据预处理在药物临床前毒性检测中具有类似的有效性和可信度。在毒理学中，类似的效果只在基于更少限制的数据集合并具有更加密集的取样时间系列的分类器或基于2类模型的分类器中有所报道。

如上所述，IQR编码还是一种整合不同来源和技术的数据的方法。值得注意且没有举例的是，本发明人也对用于组合数值分析(NA)的组织病理学、血清化学、芯片和蛋白质组数据进行了IQR编码，并且检测了利用CCA、CVA和CDA得到的组织病理学分级和血清化学、差异表达的基因、尿液蛋白和代谢物的统计学对应性。换言之，IQR编码用于多表分析的数据准备，所述多表分析非常适用于将涉及相同目标的假设解释和应答变量之间的相关性量化。

IQR或IQRHILO编码适用于无论生物系统的干扰状态通过不同数据收集参考对照如何区分和解释的情况，其区分来自正常(例如个体间)的可变性、发展和适应(生长、变化环境条件、周期性)的干扰应答。

Claims

1.一种用于预测物质的生物学、生物化学、生物物理或药理学的特性的方法，包括如下步骤：

a)提供样本数据；

b)通过编码所述样本数据对所述样本数据定标度；

c)分类所述编码的数据；和

d)提供基于分类结果的预测输出。

2.如权利要求1所述的方法，还包括在步骤a)之后，将所提供的数据分区段的步骤a1)。

3.如权利要求1或2所述的方法，还包括在步骤a)或步骤a1)之后，归一化所述数据的步骤。

4.如权利要求3所述的方法，其中所述数据是相对于单位整数的归一化样本，以将所述数据转化成样本谱。

5.如权利要求4所述的方法，其中所述样本谱是核磁共振(NMR)谱。

6.如权利要求5所述的方法，其中所述NMR谱是NMR波谱数据的形式。

7.如权利要求6所述的方法，其中排列所述波谱数据以形成矩阵。

8.如权利要求7所述的方法，其中所述数据排列成矩阵，使得对于给定波谱的所有区段数值位于一行，而对于给定区段或波谱区域的所有数值位于一列。

9.如权利要求8所述的方法，还包括在一个或多个长度和顺序与所述数据矩阵的列向量相同的辅助列向量中排列一个或多个样本描述符的步骤。

10.如权利要求9所述的方法，其中所述一个或多个样本描述符选自包括研究编号、动物编号、取样时间、剂量组、毒性分类、毒理学变量的集合。

11.如权利要求7至10中任一项所述的方法，还包括替换所述矩阵中的缺失数据数值的步骤。

12.如权利要求11所述的方法，其中所述缺失的数据由参考数值的中值形成。

13.如权利要求12所述的方法，其中所述缺失的数据由相应取样时间的相应对照组的中值形成。

14.如权利要求7至13中任一项所述的方法，其中所述编码数据的步骤c)包括根据给定的规则替换所述矩阵的所有数值。

15.如权利要求14所述的方法，其中所述矩阵的数值用指示与参考区域偏离顺序的顺序数值来替换。

16.如权利要求15所述的方法，其中所述替换形成为n-级顺序标度。

17.如权利要求16所述的方法，其中使用3-级顺序标度，并且所述矩阵的数值根据所述数值是否低于、等于或高于由相应对照组的第x和第y分位数间距所限定的范围而用0、1或2替换。

18.如权利要求17所述的方法，其中x为10，y为90。

19.如权利要求16所述的方法，其中使用二进制标度。

20.如前述权利要求中任一项所述的方法，其中步骤c)包括将单独的编码数据分成组。

21.如权利要求20所述的方法，其中所述组对应于特定化合物的特定剂量水平。

22.如权利要求20或21所述的方法，其中在步骤d)中，对至少一个组产生预测输出。

23.如前述权利要求中任一项所述的方法，其中所述物质的生物学特性是其毒性。