具体实施方式
在一实施例中,本发明的教导包括一组方法和算法,帮助大规模数据集的高可信度使用,也就是(a)研究每个参数的多次测量表示的数据集(特别是使用同样参数的独立方面)并辅助上述测量技术和方案的设计的响应面辅助策略,(b)用于确定数据特定阈值的方法,(c)测试数据分析方案中的选择策略(统计的和/或数学的)的效果,以及(d)新的使数据集可比的规范化方案。
下面将公开讨论的数据类型的附加信息和用于说明上述教导的术语。
尝试说明基因情景分析的教导时,为方便起见,通常将
技术用作实例。该技术的一些设计方面用于强调此处讨论的多个测量类型的数据集,但不限于此。在基因芯片
系统中,每个转录都由11个或多至25个、与mRNA互补的核苷酸长探针表示,用以探测待研究系统的转录状态。芯片中包括相应的错配探针以表示交叉杂交信号(会被认为是特异性探针噪音)。很高的特征密度已达到并公知,预定的转录在用于人类和其他生物体的一个到几个芯片上排列。包括错配探针在内,用以表示交叉杂交或特异性探针的噪声信号,当错配探针以上述功效在此处说明的实例中使用时,如果任意一部分直接在结果中翻译,其他不包括上述MM探针(例如
www.dchip.org和Irizarry等在2003年中建议的dCHIP)的变化(和应用)可以通过说明的该教导组的一部分方法和优点良好使用。
由于探针的理化性质和杂交性,尽管表示单一的转录(也就是在具体量子水平表达的转录),每个探针都具有不同的杂交强度水平。这导致信号电平的直接利用有难度。一个已被广泛研究并一直在发展的普遍方法是利用基于模型的方法将多个探针表示的数据归纳到用于每个转录的单一综合测量中(参见此处一并作为参考的6571005号美国专利)。该方法的优点在于数据的用户友好表示,使得高级的统计和数学应用在正在研究的系统/过程的知识进步中数据的使用变得容易(采用图案辨别,用于诊断的分类,路径和新过程的识别和研究,有望用于成果发展等)。
以下说明用于本说明书的一些约定。
在本说明书和附图中,术语“参数”用于两种上下文特殊方式:(i)描述数据集(转录、蛋白质等)中的每个实验特征,以及(ii)统计学和数学意义上的利用本发明的过程中使用的阈值和其他计算值。此外,计算值和一组计算/估计或指定阈值之间的差异由上标的单引号区分(例如设定的距离d用作阈值时为d’)。
术语“独立测量”的使用仅仅意味着采用完全不同的测量标准(例如作为探针的转录的不同区域,蛋白-肽片断的不同区域,用于测量蛋白的一个以上抗体等)对一个参数(转录等)的测量,其中不同的区域可以具有物理重叠,其可以在相同的条件下具有不同的信号特性。这明显不同于统计独立性的观念。事实上因为该差异才产生了此处研究、提议和改进的一些特征。此处说明的实施例不限于这种类型的统计独立性。
对上述教导的方法的一个实施例、用于数据集研究的响应面辅助策略(也称作ReSurfx)说明如下,其中利用多次独立测量对每个参数进行测量。
图1表示处理数据的初期阶段的工作流的一个代表性实施例。通常,从测量系统步骤1002和预处理步骤1004和1008采集数据。该预处理将依赖于数据-采集技术-特性,并被假定为将要执行,(如果需要,则在实施此处说明的教导的实施例之前)除非另外提及。这种预处理数据集被表示为起始数据集,并在本文的其余部分和附图中用字母D步骤1006表示。在图1表述的概括图中标示出了一些其他的附图(图2a-图4步骤1010,图8步骤1012和图9步骤1014)。图2a至图4部分标示了响应面方法,其被提出研究给定数据设计的特性,给定的数据设计将(i)辅助高可信度的数据分析,以及(ii)反之,利用实验和技术方面的一些原始特性辅助给定系统的设计原则的发展。图14表示由生物不变原理激发的新的规范化方案。图9表示了上述两个实施例的联合应用,或仅利用第一方面结合用在新的综合方案中的参数的数据特定阈值的方法以及在表示实验过程或自然过程的不同观测结果的数据集之间的高可信度差异区分。一些个别步骤的变化与细节在上述附图和其他带有适当图号的附图中被提及。尽管此处表示的许多教导都与大规模数据集相关,该数据集具有每个观察集中的每个参数的多次测量,许多独立的步骤,例如正常化方案、用在比较评价中真假阳性的最优化选择的等式,确定数据特定阈值和评价用于区分差异的统计或数学标准的方法,都可以用于许多不需要包含每个参数的多次测量的其它类型的数据集。
图2a、2b表示上述教导的方法的实施例。一个实例中具有一个内置真假阳性的测试系统,步骤1016,或者如下所示,混合适当地模拟真假阳性的步骤1020(例如使用在提到的DaST和SCALEIT中描述的发展方法和算法的技术)。在一实施例中,本发明教导的方法包括优化在最大化真阳性的鉴别的数据集与最小化假阳性的鉴别的数据集之间差异的鉴别。在一实施例中,利用了度量术语Neff(用于差异的有效数目)。在一实例中,利用了下列的方程式(图2b的步骤1022中同样使用到)-适合于具体应用的交替形式能用来满足该目的。
Neff=TP*TP/(TP+FP)*(1-FP/TP)
在一实例中,包含在参数的不同N值(独立采样的数目)和对置信度(即对噪声的差异)的任何适当的统计的/数学的度量的测定F的数据集Neff的响应面-例如,对学生的t检验数据集(具有重复)的成对比较的或者用于比较多组数据的Fishers检验-是其表面具有多个极大点和极小点的表面面。本发明的教导不仅限于如下实例,如图16所示的实例,具有基因芯片数据集和在数据集之间比较2倍变化的公知的真阳性(TPs)和大量不变量(假阳性-FPs)的成对比较。在图16中,使用的数据集是具有三个重复的Affymetrix Latin Square实验(2到7),每个重复使用U133A-TAG芯片(见http://www.affymetrix.com/support/technical/sample_data/datasets.affx)。在图16的结果中使用的规范是在46,000(饱和状态)和将所有芯片背景(28)调至500的所有的PM和MM强度值的标度的转换平均值。在图16中所示结果中的强度测量为各自探针对的PM-MM。图16所示结果中的参数为:d′=B′=28;r′=1.1(估算出的作为响应面策略原理的证据)。图16中所示用于结果中的统计量为学生的t检查(t代替文中的缩写F′)。AvgA和AvgB代替图3a中的最大和最小值。图16中所示用于结果中的范围为:N(信息化探针对的最小数)=3-11,递增量为1,在统计范围为3-10时,递增量为0.5;在这里称为F和F′。
在图16中,步骤1022的Neff的响应面,指出统计的宽阔范围并且给出Neff的近最大值的N的范围(包括独立测量)。在一实施例中,定义了包括N和F的成本因素(符号F用作贯穿于本文所使用的任和统计的/数学的测量置信度的量度标准)。给出真假阳性的充分优化组合的F和N越低,能检测到小的变化的灵敏度就越高。在图示分析中利用多个在其完全形式上(即,没有归纳成单一值)的独立测量将导致特异性增加。在这个阶段还应该注意的是:比起真阳性的某些损失(在一些实例中,通过实验本身的可变性和小部分的重复,其甚至会是很理想的),假阳性更加猖獗以及更不理想,尤其是在大范围的数据集的分析中。然而,应该注意这些教导不仅限于上述的典型实例。下面的方程式(也用在图2b的步骤1026中)以统计的附加因素和包含独立测量的数量的形式提出了成本形式的实例,名称CANeff为成本调整的Neff。
CANeff=Neff/(F′+N′)
如图2a中所表示的(步骤1028),其它的成本的有效形式是可能的并且在一些实例中可以很理想。图3描述了F′(统计的或者数学的置信阈值)和N′的计算以及其中所引用的数字。下面将描述用于所有涉及数据集或者来自同一应用程序的数据的研究中为每个参数测量的一组常用N′使用。典型地,本发明的教导并不仅限于典型的实施例,可以观察到,一旦用于一个技术平台的参数用良好设计的真假阳性被计算出来,同一组参数似乎也适用于此技术的其它数据集(如图3,步骤1030)。图6和图7描述了交替策略,其消除了如上所述对F′反复确定的需要但确定了一个数据特定的阈值。在图6和图7所示的实施例中,仍需要基于对利用图3a、3b的起始步骤1032及图2a、2b的步骤1026和1028进行的测试案例的认识,确定对F′和N′的充分优化的参数。
上述教导的相反应用是为每个参数进行多次测量(尤其要多于估计所需的)来收集/拟合初步测量,在一个或多个类似使用那个技术平台或者数据收集策略的情景中,并基于d′、r′和F′的计算值,以及又使用那个应用所需的置信度,N的最优数目(多个独立测量)在本技术或者数据收集策略中被设计。用于设计测量的方法的实施例包括:,获得用于数据集测量的一个或多个预选参数以及一个或多个性能指标之间的相关性,基于至少一个性能指标选择度量,应用最优化技术,并且从最优化技术结果中获得上述一个或多个参数的一个或多个充分优化的数值。上述一个或多个参数的一个或多个充分优化的数值用于设计数据集的测量/收集策略。
图3a和图3b表示研究这些行为以及遍历参数以确定充分优化的阈值的一种算法。图3a和图3b描述的方法包括遍历N的可能值(包括独立测量的数目,步骤1032和1032b)和遍历为用户确定的F的置信阈值范围(当有大于一个重复组时,图3b-步骤1032b)。在一实施例中,数据集可以由两个或者多个观测结果组成,或者表示不同过程状态性质的重复数据集组。遍历N(Ninc)的增量可为1(当其表示测量的数目时),以及基于计算的和其它资源以及数据分析的目的,图3a和图3b的步骤1032和1032b F(Finc)的增量可由用户分别确定。如下所述,在比较分析的基础上(即在两个观测值之间或者在重复观测值分类成各组的集之间),每个参数(i)被评估以满足噪声阈值标准组和置信的测量。在一实施例中,只使用满足下面提到的噪声控制标准和图3a的步骤1036及图3b的步骤1036和步骤1046的测量。
(应该注意其它预先确定的标准也在本教导的范围内。)其中上面提到的参数的测量信号XJA和XJB,在两个指定条件A和B之间评估(x),并且j在参数i的测量M上执行。数据集中F应用于数据集中重复组的例子(步骤1046)。在图3a和图3b中,用在步骤1036的符号max和min表示一般情形,比较单一值时max是指最大值(maximum),min是指最小值(minimum),两个平均值或者中间值的最大值/最小值或者有较低平均值或中间值的组的最大值/最小值。在说明本文教导的用处的所有实例中,当比较组时用到平均值。可选择的,当被评估差异的参数测量j的所有数据点低于总体背景噪声计算值或者估计值时(B′-尤其确定的低于大多数收集的数据表示的参数低于在使用条件下测量系统的可靠检测阈值)。从步分析骤1048中将他们排除。这些阈值(d′,r′和B′)避免了在噪声区中的差别-这方面将在以后的部分详细的讨论。计算数据集专用阈值的距离(d′)和比值(r′)的算法在图5中描述。当测量的评估满足这些标准时,其被用在分析(步骤1050)的测量中,并且下一个测量被评估。参数的所有测量值都这样重复(步骤1034)。当通过上面标准的测量数目超过重复的测量的阈值数目时(步骤1052),在被比较的观测值(或者组)之间,其参数被认为是有差异的。当所有的参数被评估时,记录下在重复中使用的阈值集的结果(步骤1054),并增加了参数的阈值,用于下一次重复(步骤1058)。一旦重复的范围被指定增量覆盖时,如图3b-(步骤1056)、图2中描述的一实施例中多个重复组的情形,所有保存的数据被用来使用已知的或拟合的区别来选择N′-和F′的最佳化组合。
图3b为图3a的扩充,处理两个参数的多重复组优化的情形,参数的测量数目(N′)和置信测量(F′)。基于重复观测结合多次测量的置信测量的使用充分改进了数据的对比分析。在这种情况下,类似于图3a完成了重复,但是对于在选择范围内的F的每个增量(即,F′为其重复),如上述图3a所述的值为通过替换N′的迭代循环(步骤1032b和1058b)的N的全部范围计算出。策略的细节几乎是同样的,除了对于每个测量和每个评价循环,在两个重复之间的比较的基础上计算的置信测量F(步骤1044),同样应该超出阈值F′(步骤1046)。
图4(图3b中可选步骤1040)描述了这样的策略,其基于这些阈值策略消除了若干组(在多组比较中),以及基于为待评估的每个测量区分鉴别允许变化组数目。这种情形下,噪声阈值是基于遍及G组的平均值的比较(步骤1060的符号AvgT)到每个参数i的个别组。同前面的情形,平均值可以被图3中描述的组或全部组的中间值或者最大值和最小值取代。
图17描述了CANeff行为的实例,具有与图16所示的测量包含的值(N)和统计同一比较的值(这里是t-统计)不同的值。从图16和表1可以看出,(i)图16中的几乎平坦表面的响应面目前可以减少到几个明显的峰,以及(ii)统计的阈值大幅低于常用到P值为0.05的数据分析阈值。
表1-在真假阳性(两倍变化的)鉴别中不同的统计阈值(F′)
和使用的独立测量的数目(N′)的效果的实例
表1中表示的是,在每个阈值(9个比较中的3个,用于三个各自的比较)处鉴别的两倍差异的插入数目。每一例中,最左列表示插入(用pM表示)的浓度,在其它数据集中插入的浓度为该值的两倍(除了下面表示的)。阈值常用统计(F′)和有效探针对的数目(N′)在第一行中,表示为(F5N′)。FP是假阳性的数目,PPV是阳性预测值[TP/(TP+FP)],灵敏度是[TP/(TP+FN)]。*0pM插入与0.125pM插入比较,以及512pM插入与0pM插入比较,f CR表示插入具有同源性的交叉反应的转录/探针集(9个比较中的3,用于三个各自的比较)。图16和图17表示得实例用的数据集是同样(注意,在图17中,用t代替上面的F′,以及N′等于探针对的数目)。
表2中所示的实例表明本发现的重大优势,即,能够选择真阳性而对甚至在较低置信阈值的假阳性的数目没有太多影响。此外排除了推测阈值的需要。随后描述评估数据特定阈值的策略(图5、图6和图7)。本发明的某些应用方面,文中关于用基因芯片
技术进行基因表达测量的方面在杂志《Genome Biology》,作者为Gopalan,2004年第5期第14页有所描述,这里用作参考。
表2-数据转换策略鉴别响应面辅助策略实用性(SCALEIT)的应用
表2表示在给定的通常阈值,统计定点处(F’),探测(在可能的22,301之外)的探针集的数目(三个独立比较的平均值)以及满足F′的探针对(N′)的最小数目,如第1列中所表示的(F′,N′)。为了达到评估的目的,三次重复与另外本质上在同一个样本中的三次独立重复做比较缩放到给定的差异下(在第一行中表示),表示这样三次评估的平均值。再次地,图16及图17所示实例中用到的数据集是相同的。
本教导的方法的事实例,使用(被使用在)上述响应面辅助阈值策略(ReSurfX),利用数据特定阈值差异的鉴别的实施例在下面描述。
上述描述的某些实施例利用为此目的特别设计的数据集。许多现有的数据集很少用内置真假阳性的设计,或者不具备足够的数目和种类。一实施例,没有足够的象上面所述的利用测试装置数据集的真假阳性种类的数目,以确定该生成技术数据类型能使用的阈值。在一些常规分析方案中已经示范了距离和比值阈值的使用,但是,本教导中,披露了确定这些参数的数据专用阈值的算法。
这里,下面将介绍确定距离、比值和统计的数据专用阈值(DaST)以避免噪声区的差异的实施例。
不同的数据采集平台、预处理方案(背景校正、规范化等)以及实验系统基于噪声/可变性(尤其在比较重复之间的数据时观测),有不同的固有的和其它的处理水平。
图5表示确定距离(d)(即,在两个值或两组间的数值差异)和典型地位于在数据噪声水平内的比值(r)的数据特定阈值的方案。在一实施例中,为能探测测试装置数据集的真假阳性的充分优化结合,百分位数被确定于这些最佳的情形下的d和r值,例如,用Nest步骤1022。为了此目的,收集大量充足的随机取样的数据-步骤1062(或者步骤1064的全部的数据),并为每个挑选出的测量样例在重复内的最大值和最小值之间确定距离和比值(由此捕获数据的噪声组成,步骤1066)。计算出的距离和比值(各自)以(d和r的)数值升序排列,并且根据数值的有序集,在不同百分位数的d和r值被选出作为阈值(d′和r′)-步骤1072-以及如在前面部分描述的应用中或者为许多数据分析方案(亦或是选择或消除以避免刚好在噪声区处理数据)确定阈值中。训练集试验不同的阈值,并且选出最佳值(例如通过使用关于的方程式)。百分位数值用来确定步骤1074的d′和r′(选择出的阈值-DaSTd′and DaSTr′)。当附加特点或者保障保证放大d′和r′的确定值的放大版本,或者其利用图5的算法确定的高于最佳值的百分位数阈值能用来增加置信水平。沿着其分布在不同点的测量值排列的数据,通过使用相似的策略和假设分段线性可以确定动态的阈值。
图6和图7描述了相似的实施例,但是为了在确定F(使用的置信测量)的数据特定阈值以避免主要在噪声区内(因此在该区几乎没有真阳性)的差异,带来了额外的复杂。在这种情况下,步骤1080中,使用大量充足的参数样本和所有的重复,并且模拟在由重复表示的数值范围内的附加值。步骤1082中,被保证其放大质量的,这个范围能由系数放大,称为振动系数-v(例如,v=r′时,就意味着找到了在r′倍最大值和(1/r′)倍最小值之间足够数量的随机数的值)。仅使用最大值和最小值作为范围等效于使用1.0的振动系数。步骤1084中,包含的参数值和随机值(包含终点)被排列形成含有适当数目的重复和步骤1090中计算的置信的测量值的足够的组。步骤1092中,参数的多次独立测量情况下,如本部分的主题,这个过程重复N′(测量的阈值数)次并将保存最小值作为数据集的一个值用来确定充分优化的阈值。在步骤1094中,收集到的最小值被降序排列,并且在用户确定的置信阈值处选择F值,即DaSTF′(例如,95%的置信水平就是第95百分位数的值)。步骤1096中,可以在用户确定的置信水平上选择该值或者使用训练集重复该值。在之前描述的步骤1036和步骤1048中(本算法中为步骤1086和1088)的噪声区消除策略可以选择性的包括在DaSTd′、DaSTr′和DaSTF′的计算中。步骤1092的交替表现可以包括每个参数N′测量的计算值的中间数或任何其它百分位数,而不是F的N′值中的最小值。
当信息化的N大于N′时,使用独立的基本统计原理(即,pN′=piN),可以缓和统计的阈值(对于更加灵敏的差异的鉴别)。如之前提到的,数据类型没有严格满足统计的独立原理,但是在测试例中通过这种调整获得的优点似乎并不能以可认知的代价计算。
上述实施例已经应用于已公布的指定数据集,其具有大量差异和不变参数而没有如例1中所示的在N和F值范围中的重复(比如,实施例并不仅限于本例中所使用类型的应用和数据集),,通过使用图5、图6和图7描述的策略以及应用图4的结果,得以很好的成功(图16)。为了达到该目的,基于在先实验表1和表2所示的实例结果中应用的数据(表3),N′值被设置为所有可用探针集的50%(独立测量)。
表3-数据特定阈值策略的应用(图5-图7),在大量真假阳性
检验数据集上的BINorm方案(图14)和ReSurfX(图3)。
这里使用的数据集结合参考“Choe等,[Genome Biology(2005)6:R16]”,使用的参数为:
B′=107(计算出的,数据没有表示出来)
d′=57(图5,第50百分位数)
r′=1.162(图5,在第50百分位数)
N′=7(估计出的-已知技术)
F′=1.65(t-统计-图6)
对于每个探针对,用到的强度测量为PM-MM。在每个子集中使用已知插入式不变集的内置数据,用到的规范为BINorm在25%的中间值。AvgA和AvgB用来替换图3中的max和min。
用这两个应用描述多个独立测量时具有广泛的用途,甚至在每个参数用单个值表示的数据集中。这可以通过在这两个例子中设置N′=1简单地获得。
本教导总结参数值的方法的实施例包括:将数据集中的测量结果分组为许多对测量结果,为每一对测量结果确定,对一对测量结果预先确定的测量是否满足阈值标准,如果预先确定的测量不满足阈值标准,从测量结果对中将一对测量结果对分类为为是不变的;如果预先确定的测量满足阈值标准,对每对测量结果中的其中一个测量结果与每对测量结果中的另一个测量结果进行比较,比较后,根据比较结果分类每一对测量结果。对于重复数据集,实施例包括对重复的测量结果取平均值以及将平均后的测量结果分组为许多对平均的测量结果的步骤。本方法的过程类似于前述的实施例,利用平均测量结果对代替结果对。下面阐述本发明教导的这种方法的实施例,当用多个独立测量表示时,总结参数值。EMINE(Explicit ModelINdependent Expression):显式模型独立表达测量。
如上所述,对于多个独立测量的常规总结值是基于模型的。虽然这种基于常规使用模型的方法有显著的进步,但可能不是对所有数据集都很理想的。如上所述,当鉴别数据集间的差异时,所有独立测量的直接使用带来特异性的显著优势。但是用于模式识别时等,这种方法学必须适合于与其它的已建立好的先进的统计和数学的分析方法一起使用,尤其当分类数据集中的利观测和相互作用的维数变高时。下面阐述显式模型独立表达总结方法的实施例,其中,使用每个参数的多次测量的计算成本和适应成本没有超过其缺点。
图9和图10描述了本发明教导的使用数据组(尤其是数据集中观测的重复)总结测量的方法的实施例,而图8和图10描述了相似的算法,但是将每个观测作为单个个体处理(尤其是不重复的观测)。参数的每个满足噪声阈值标准即步骤1100、1102、1110、1112和1114(如步骤1036和1048中)的独立测量被分类为不变(NC)、增加(I)或降低(D),即,基于步骤1098的成对比较的步骤1104、1106、1108、1116、1118、1120。基于可能一样多的比较(或者当大量组合可用时,比较的最小数目),在每个参数步骤1122中选择出、在数据集的特殊的阈值之上满足特定标准的独立测量与具有为参数统一分类的独立测量一样多的参数。步骤1128中,当为每个参数选出的独立测量数目大于N′值时,基于一个参考芯片或者一组芯片被排序,并且中间的N′测量用作所有数据集总结的表达的计算。基于目的特殊的标准,一些交替的目的/技术特例包括排序可利用的参数N(例如,沿着预测转录并使用在可选拼接形式中最大化检测各种感兴趣的转录机会的集合)。当选出的测量数目低于N′并且在成对比较数目上,阈值没有质量的退化不能被放宽时步骤1124),所有满足最小值标准的N测量值被使用(步骤1126)、分类以及表示中间N′值的测量被选出。步骤1130中,表达总结可以是简单测量比如具有异常校正的加权平均或者任何其它已建立或修改的总结测量。当一些测量是有效的这种N′测量在许多比较中有统一特点(通常可以被设置为比较的阈值百分数可以确定该特点),一个可以大多数很有效的使用或者用于这个步骤的普通的组可以被选择出并被分类为将来使用。这种用于所有数据集的用于每个参数的统一的测量组的使用,在步骤1122中称为选择集(chosenset),与使用所有的或者变化的信息化测量数相比,总结值确实具有更好的质量。在显式模型独立表达测量(EMINE)后,附加的合适的规范在一些实例中可能是有利的。EMINE的一个优点是最小使用数字化校正标准。
在本文的生物应用中,随着大规模数据集的发展,可以设计和使用用于EMINE的统一测量的通用集。上述的设计策略可以认为是直接达到这种目的的一种方法。
这里,下面将披露本发明教导的方法的实施例,即基于为响应面估计倍数变化置信的差异的估计值的数据分析。
图11和图12描述了当使用响应面辅助策略时,确定差异的比值的估计值(成对比较)和估计差异置信度相应的实施例。在最简单的方式中,似于步骤1036和1048,通过为每个选出的测量(选择也是基于噪声阈值消除策略,步骤1132)取成对比值获得比值的估计,使用所有N通过阈值消除,选择集策略(步骤1134),或者最接近中间值的N′值(步骤1136),如下所述,以及在步骤1042)的参数接下来是总结的度量-步骤1138-(例如,步骤1130中的具有异常校正的权重平均)。当不通过噪声阈值消除策略的N大于N′时(步骤1140),不通过的部分可以用于总结测量。当需要时,步骤1136中的N′中间比值也可以使用。在使用的测量数目中,为每一个参数估计的比值的扩展用于确定和报告比值的估计。置信的测量使用相似的技术(步骤1114和1116),除了最小值用于给出置信的最保守测量,其它的变量也可以被用到,这些变量是基于出自比较中参数的信息化测量的所有置信测量的百分位数。当信息化的N大于阈值N′时,可以选择使用F值的有序排列(降序)的中间N′值-步骤1148。然后,置信测量可以与N′和F′的可加测量被用在成本因素上一样使用(步骤1026),或者从标准的统计法或基于统计学的自助法(bootstrap)被转换为p值并且以恰当的格式表示(图12的步骤1150提出了一些可用的格式)。在使用EMINE总结值的情况下,可以应用标准的数学和/或统计学-步骤1142和1152。
以下将介绍用于检验数据集的分析中差异选择方案效果的数据转换方法(表示为SCALEIT)的实施例。
如在以上部分中已经广泛使用的,设计良好的检验数据集在发展过程中将是极值并且是用在工作流不同步骤的算法的验证。但是,这样设计良好的适合于实验的情景的检验集很少有,或者有时是由于资源的限制。众多的数据分析方案用于拾取来自数据集的有用信息。不同的方案不同程度上取得成功(鉴别真的和假的的变化和参数间的关系和/或被研究的不同观测值/条件)。下面构思、检验和描述了使用存在于整个数据集的变化的结构以评价应用在特定实验条件中的数据分析方案的效果的模拟方法。
图13描述了上述教导的使用数据转换方法(SCALEIT)的实施例,以及提供的实用的例子。
简要来说,该实施例,SCALEIT,包括将全部的数据集及其重复转换到不同程度上(例如,1.2、1.5、2倍等)-步骤1154-以及对数据分析/差异鉴别方案的应用-步骤-1156。本方法的优点在于对固有到系统中的所有可能变化的结构的使用。在不同的阈值处响应面辅助方法鉴别差异的内容中,本方法的例子见表2-步骤1158。一些数据分析方案的形式将由单向转换策略的改进更好的检验,例如双向的变化或者这种变化的混合与原始数据集恰当的组合在一起。
本教导的规范化数据集数据的方法的实施例包括步骤:根据测量值排列数据集的数据,根据预先确定的标准,参考子集,参考子集至少有一个参考测量值,从排列数据中选择数据元素,数据元素具有与一个或多个参考测量值充分等同的测量值,排列具有充分等同测量值的数据元素,排列的数据元素包含充分等同排列的子集,并利用一个或多个参考测量值和充分等同排列的子集规范化数据集。。这里,下面将阐述由生物的不变原理规范化数据,以下简称为BINorm,激发的本教导的实施例。
同时基于阵列的和许多其他的技术很大地依赖在平台内部或者交叉平台的数据集间的规范化或者数据的数值等效的一些形式)。大多数用于数据的规范化以强度依赖方式依赖于数据集的排序和校正系统的变化,此强度依赖方式使用基于全部数据的分布,也使用空间分离组作为点样(print-tip)规范化(如lowess)。常常地,基于秩的假设被建在系统内包括:几乎精确的数据集分布,或者排序全部数据集并在参考和目标数据集间选择基于秩的不变集(如美国专利No.6571005,在这里联合参考),或者更近期提出的后一种方法的变异,其中数据集被划分成表达值的范围以及被秩等价选出的不变集(美国专利公布号2005/0038839A1,这里联合参考)。其它常用方法的例子包括方差分布原理的广泛应用以及利用转换或者建模尝试减少系统的组件)。规范化方案的不正确使用有时能引起数据集中的人为偏差和错误。如图14所示,下面阐述由生物系统的基本行激发的上述教导的方法的实施例。
通常,在生物系统中研究在一个或多个实验条件下所有参数的变化,在任一给定的数据集样本中,经常有随机分布的不变值。另外,在许多系统中,实验条件和技术的变化之间的变化是随机的、双向的并随机分布的。这种具有很少实际差异的系统经得起此规范化方案的检验,表示为BINorm-表示生物的不变性激发的规范化。该方案需要设计一个观测作为参考-步骤1160-以及所有的其它观测参考此数据集进行规范化。循环的规范化,即,在一些实例中会将全部规范为与全部成对方式相逆。
步骤1162中,由测量值排序参考数据,并且在步骤1164中,沿着数据的全部分布选择子集,称为Iref。步骤1166中,从目标数据中选出等效于每个子集(即,使用子集中数据点的索引)的测量并排列子集,称为Iraeget。步骤1168中,在其最简单的形式中,上述状态的假设不能明显违背目标子集中应该含有的与参考序列中子集的值等效的值的中间x%,-步骤1168的简化版本-(例如,Iref和Itarget的100点子集的中间10%)。这样,Itarget中x值的平均值(或中间值)将等于Iref。利用分段线形功能,这种沿着全部数据的方式确定的等值将用于规范化。在步骤1176中,上述步骤后,或者如下所示的另一个实施例在Itarger的地域等值重复之后,x值将随着不变量的百分值变化并进行重复。只要数据集间的不变量的百分值大于x,就应该没有质的降低,甚至数据中比真实的不变量更低的百分数被使用时。当数据集间出现差异的单向偏态时,需要不变量的区域选择中的变量。步骤1168和步骤1170中表示处理这种情形的一个实施例,通过在排序的数据上的不同百分位数处转换Itarget的有序测量的x%(例如,x%以第十百分位数而不是中间值开始),重复于等效区域,并将此值转换为Iref的中间x%值。内置的训练集,大量推定的不变集(见下面的描述)可以用于检验规范化的质量致特殊的数据集-步骤1172-或者使用合适的检验等效的方案。这样,重复于有序的Itarget的百分位数的范围后,被选出用于转换所有数据的等效范围将是这样的一个,即在两个作为确定的数据集间,使用已知的/模拟的不变量或者其它的等效检验方案进行检验-步骤1174能给出最好的一致性。当保留实验设计中的固有变化时,BINorm方案具有系统变化的简单校正的优点,这样改进了分析后结果推论的使用中的特异性和置信度。具有完全不变集的使用的例子见表3,虽然上述教导并不仅限于这种例子。
当使用来自多个测量平台的数据或者同样平台的测量系统中的变量时,存在足够多的用于参数标识的常见连接术语足以使在数据集间的测量值为等效的和可比较的。
如上所提到的,用于每个有机体和平台的大规模数据集的可用性,可以选择和使用足够大量的推定的不变参数用于多种类型的一般目的分析。然而不是所有的参数在所有被检验的条件下都是真的不变,大部分是可用的。当多数不可用时,要么规范化方案不能应用于那些数据集,要么那种系统是独特不同的。
还应该注意的是,尽管在生物系统中这种类型的不变量很普遍,但任何具有这种性质的试验系统或者数据集经得起规范化方案的检验。
下面将描述集成上述教导于目前使用的数据集和其他软件的系统和计算机程序产品。
如图中及上面的描述中所看到的,以上提出的教导和概念以运算法则形式直接呈现,是经得起计算机软件发展的考验的-步骤-1182-(在任何计算机语言和用户界面工具中)可以与数据集和数据仓库一起集成-步骤1178和1180-在结合本发明教导的其他软件包中,也能利用其他软件为其他的应用作为有效的输出或者输入方法/算法使用-步骤1184、1186、1188和1190。计算机可应用介质1179内部体现为计算机可读编码,其中,计算机可读编码能够使计算机系统1175执行本教导的方法。事实上,上述的一些教导被嵌入C++语言的软件编码检验过。(然而,本教导的方法和系统不仅限于任何一种计算机语言。)另外,上述概念也可个别地用作集成在其他的程序包内的功能。图15表示本教导的系统的实施例的简单图示。
这里呈现的教导具有在大多数情形下有最小的假设和数值处理的优点,因此增加了趋于大规模的和许多高通量数据的高置信使用的目标-步骤1192。适用于参数的多个独立测量的概念和算法也会应用于许多其他的情景(如,某种类型的时间进程数据的分析,收集元数据作为每个参数)。在本发明内容中,讨论了生物环境中高通量和大规模生物体(或基因范围)的数据的应用,还应可以使用到其他各种存在应用概念和算法的可能的环境。
为了更好的描述本教导,下面给出示范性的实施例,本教导不仅限于此实施例。上述分析中使用的基因芯片表达数据集是来自Affymetrix数据集,以发展算法为目的和基于HG-U1 33A-Tag阵列试验2到5,重复R1到R3(http://www.affymetrix.com/support/technical/sample_data/datasets,affx)。通过Affymetrix,使用由已知浓度的特定RNA溶液与来自HeLa细胞系的全部cRNA混合组成的杂交混合物,产生该数据集。为了计算包含在溶液的真假阳性,所有非已知浓度的溶液部分以AFFX开始的探针集被排除掉,因为他们中的一些具有明显可辨别的差别。据报告,,,三个探针集具有5个或更多探针对的完全同源性,这样在数据集中为每个比较剩下45个真阳性和22,185个假阳性。除非另外提到,表示的值是基于,其区别在与具有两倍浓度差异的溶液试验之间的三组比较的平均值,即试验2与3,3与4以及4与5。从细胞档案中抽取的探针水平数据(使用平铺坐标定义,由探针序列信息提供给芯片类型-U133A-Tag by Affymetrix)以及所有信号值的平均值在值28(在所使用的芯片中的最低背景值)和46,000的饱和值之间的完全匹配和错配的)被转换为目标值500。
b是芯片的背景(例如通过Microarray Suite 5.0确定的)。当多于11个探针对表明时,仅数据集的前11个探针组被抽取和使用(Affymetrix探针序列档案中按顺序所列的)。每一探针对的完全匹配和错配间的差异被用于所有进一步的估计。0或者负的差异被设置到背景中。
利用Microarray Suite 5.0(Affymetrix,CA)用截尾均值法为每个阵列抽取具有(顶部和底部的2%信号值被截掉)的信号值转换为目标强度500,如图3所示。用到灵敏度的标准定义和阳性预测值(positive predictionvalue,PPT)。灵敏度的计算为sn=TP/(TP+FN);PPV的计算为:PPV=TP/(TP+FP),其中,TP是真阳性,FP是假阳性,以及FN是假阴性。特别地,如提到过的,用到方差的加权平均值。
对于生物学的重复的初级评估,来自主动脉瓣狭窄的人类病人的数据(杂交到U75-Av2芯片上的样本JB-as_0806、JB-as_1504和JB-as_1805与JB-as_2111、JB-as_2604和JB-as_2708进行比较),来自心血管发育、适应和重建部位的基因组学网站NHLBI程序在基因学的应用,哈佛医学院(NHLBI Program for Genomic Applications,Harvard Medical School.)。引自:http://www.cardiogenomics.org[访问于2004年5月28日],这种芯片由16个探针对组成并且平均背景被用作60。在Windows XP背景中,用MS-Developer环境下由C++完成计算。
用于鉴别数据集间的差异的基因芯片数据的典型分析涉及:探针水平数据的抽取,利用统一的表达索引表明转录表达的估计水平,总结在11个或者更多探针对的信息,接下来规范化或转换。用于此目的的一些常用方法是dCHIP、RMA and MAS(Microarray Suite,目前版本为5.0,Affymetrix,CA)。就对高维数据集的计算的简单性和统计方法的易适应性来说,统一表达指数的利用是先进的。但是,由于代表转录的每个探针内部的极其可变的行为,统一表达索引经常不令人满意。因此,基于有序的统计或其它贝叶斯(Bayesian)方法以降低假阳性的统计方法不能满意地解决假阳性问题。这方面已经被一些检验数据集评估过,比如这里用到的一个。当不断改进上述方面时,直接应用到探针水平数据的统计是有明显变化的。如前面讨论的,当使用学生t-检验(Student′s t-test)时,一些生物的和片断相关的问题使统计阈值比如p值的简单选择复杂化。下面的方法是由这样的事实启发的,即表示转录的表达水平的测量的多个独立特征原则上应该允许选择在适合特定数据集中噪声的阈值。在许多表现好的数据集中,其阈值应该低于普遍可接受的阈值,例如,t代表p<=0.05。
为了研究在探针水平测量的不同表达的性能,灵敏度的响应面、阳性预测值、真阳性的数目以及假阳性的数目用有效的探针对数目和t值范围(学生t统计)的函数进行了评价。上述是用在两数据集间浓度范围(0-512pM)与不同的探针集有两倍差异的溶液的三个数据集完成的。有效的探针对被定义为一个其具有背景上平均信号值的最小差异(完全匹配和错配信号间的差异),以及平均比值为至少1.1(直观选择,但是对于不同的数据集,可以被实证确定)并且大于阈值t,以避免在很靠近范围的数值。另外,有不多于十五分之一的有相反方向变化的探针集的条件是强制的。总的来说,后面的条件在数据集中从来不是差异选择中的确定因素。选择标准可以表达为:
其中,n是满足条件的探针对的数目,t′是t统计的阈值,np是有效探针对数目的阈值,xie和xib是在实验和原始芯片中各自探针对i的信号值。上述方程表示探针集的选择,其中,设计实验芯片的芯片比设计原始芯片的芯片含有更高的值,通过交换xie和xib,用于探针集的方程可以获得芯片的高值。例如,对于满足阈值为6的有效探针对并且t值为7.0的探针集,至少6个探针对表示探针集各自具有t统计为7.0或者以上-所有的探针对具有相同的变化方向。如从图18A所能看到的和期望的,随着通常阈值和探针对阈值的增加,阳性预测值(PPV)增加,即,越少数的真阳性被作为差异鉴定。图18B表示随着通常阈值和np的增加真假阳性的降低。
上述问题原则上可被看作在受试者工作特性(Receiver operatingcharacteristic,ROC)曲线下的二维面积问题,t阈值作为一维以及有效的探针对数目为其它维。这种情形中,一种可以预期涉及二维的多个阈值,其在ROC曲线下将有最佳的面积。可选择地,上述可以被看作是最优化的问题,具有作为许多具有最优化组合灵敏度的真阳性和阳性预测值的检测目标。换句话说,上述可以用数学上的书写,即术语阳性鉴别的有效数目(Neff):
Neff=TP*TP/(TP+FP)*(1-FP/TP) [4]
图16表示阳性有效数目的响应面作为通常函数以及有效的探针对数(np)。从图中可以看出,通常范围和np可导致可比较的Neff,顶部的两个Neff在(t′,np)的(7,5)和(6,6),与(真阳性,假阳性)的(91,1)、(89,1)和(87,0),分别的进行比较。真阳性和假阳性总的可能的数目分别为135和66,555。应该注意到,被使用的来自数据集的最低差异(两倍),更高的差异将导致更高数目真阳性的鉴别。在图16中,跨越通常范围和np的大部分表面存在有相似的Neff,由此可以想到对个np和t值有可能达到良好的灵敏度和选择性,这样潜在地提高了小差异的检测灵敏度,并且转录中的差异表达在低水平。原则上,上述可以通过定义包括两个被检验参数的成本因素来达到。一种定义这种成本调节的采集阳性的有效数目(CANeff)的形式可以是:
CANeff=Neff/(t′+np) [5]
图17表示作为oft′和np的方程用于CANeff的响应面。从CANeff的响应面可以看出(图17),在Neff的接近峰值处的大量平坦的面积(图16)现在可以降到几个明显的窄的峰。(t′,np)值产生顶部的三个CANeff分别是(3,7)、(4,6)和(4,7)与(真阳性,假阳性)的(86,2)、(91,5)和(85,0)相对应。应该突出的是,在上述阈值处选择出的真假阳性值与之前提到的Neff最大值具有可比性。在t表示p<=0.05并且六个有效探针对的阈值(真阳性,假阳性)是(85,0)时,进行比较。表1中总结了鉴别的真假阳性的数目和用于选择集通常的溶液阳性的浓度范围和np值。选择较低的阈值并且仍然能够保持高选择性的可能性将特别是令人感兴趣的(i)具有一定数据集,其中,阳性大幅度增加而阈值少量降低,其中,实验中指示变化的训练集提示这将导致假阳性的选择有很少数目的增加,并且(ii)用于小差异的灵敏的鉴别而没有明显丧失选择性(下面的部分用一些测试用例说明)。
为了响应面辅助的参数化检验,以上概述的方法论称为ResurfP。应该注意的是,给出良好选择性的阈值越低,越能更好的选择小差异并且在转录上具有低表达水平的差异,这样,通过将用于上述比较中的两个数据集(即,如此处概述的萃取的探针水平数据)的一个数据集转换为变化程度(1.5、2、3和4倍)并且与其它的数据集比较,评估低的阈值的优点。相对于溶液所表示的变量的变化,这种方法可以使数据级的比较具有更的变量的变化。进一步来讲,这可以揭示在工业化重复行为中该方法论的灵敏度,从而揭示了最大可能达到的灵敏度。在阈值处评价的结果产生了顶部的两个CANeff,t表示p<=0.05,在表2中表示了详细说明顶部Neff的阈值。像预期的一样,低阈值使在任何给定水平的检测有较高的灵敏度。应该注意的是,甚至在(t’,np)取(3,6)这样较低的阈值时,检测的差异(三个比较的平均值与下面定义的鉴别的差异比较)1.5、2、3和4倍仅分别42%、61%、81%和86%,更进一步强调了所提方法的必要性和重要性。当阈值为(7.71,6)时,上述数值则显著减低,即,分别为30%、47%、63%和70%。为了鉴别计算差异的百分比,最大可鉴别的差异设置在21,485,该值是具有转换因子为10的在阈值为(f=4,np=5)处鉴别的差异(三组比较平均)。图17中增加探针造成阈值急剧下降的曲线(右侧的)结合表2中展示的结果表明增加探针对的阈值比增加t统计学的阈值的损失要大。而且这些数据同样表明适当地选择一个低的探针对的阈值可以在不增加假阳性结果的同时显著提高真实差别的数字结果。为了初步评价此次研究中被选择或者放弃的探针组/转录的状态,这些探针组中的一个在阈值(t′,np)分别为(3,7)时的表达因子的分布展示在图19中。如从图19中也可以看到,就像预期的那样,探针组的表达因子的分布中,低表达因子在高差异比率下可以探测到到较好结果。反之,几乎所有的在较高差异比率下未检测到的探针组都是低表达因子,这与观察的一致,即低的检测范围内具有高的可变性。
ResurfP在不同特性的生物学样本中最佳应用还需要更多的检测,使用其他技术进行独立地确定。然而,对初步评估的结果进行检测是否生物重复中较低的ResurfP阈值可以导致高的假阳性,将是鼓舞人心的。为了这个目的,从cardiogenomics website(see methods)得到的一组生物学重复样本在(t′,np)阈值分别为(3,6)and(3,8)的情况下检测。为了这个目的,六个主动脉瓣狭窄病人的数据被分成2组(3个重复),对方法进行评估。虽然这个芯片包括了16个最常见的探针组/转录,但检测得到的结果是仅在(3,6)and(3,8)上从12624个探针组中识别出了52和21。
需要注意的是以上示例表现为这些教导中的部分现象提供了更好地解释,既没有限制这些教导也没有为所有以上描述的现象提供解释。
以上描述的技术可以通过在一台包括处理器,一个可以被处理器读取(包括,比如,挥发和非挥发记忆和/或存储部件)的储存媒体,在一些实体中可能还包括至少一个输入设备,和/或至少一个输出设备的可编程计算机上的一个或者多个计算机程序中实现,程序源码可以用来通过输入设备(或者用户界面)输入数据,从而实现预定的功能并且产生输出信息。输出信息可以应用到一个或者多个输出设备中。
这里提到的成分和部件可以被进一步分成更多的部件或者整合到一起成为更少的部件但可以实现同样的功能。
每个计算机程序可以被任何程序语言实现,比如汇编语言,机器语言,高级过程编程语言,面对对象的程序设计语言,或者它们的组合。编程语言可以是编制或者解释的编程语言。
每个计算机程序可以在一个计算机程序产品中实现,有形地包含在可以被计算机处理器执行的计算机可读存贮设备中。发明的方法步骤可以通过计算机处理器执行一个储存在计算机可读的媒介中的一个有形的程序来履行,从而通过操作输入设备和输出设备的显示完成该发明的功能。其他方法和/或计算机码可以在基于这里提到的组合部件的基础上提供对这些程序的输入,或者从这些部件上的输出作为输入来进行,输入和输出的组合,就是交互和综合使用这里提到的部件和其他方法或计算机码也可以实现。
通常形式的计算机可读(计算机可用)媒体包括,比如:软盘,移动硬盘,硬盘,磁带或其他磁性媒体,CDROM和其他光学媒体,打孔卡,纸带,其他带孔或其他模式的物理性媒介,RAM,,PROM,和EPROM,FLASH-EPROM,任何其他存储芯片或盒式磁带,载波,比如电磁射线或者电信号,或者其他形式的计算机可以读取的媒介。
虽然对于该发明已经列举了多个的实施例,应该意识到,还将可能有多种进一步和其他实施例包含在本发明附加的权利要求的精神和范围内,这将落入本发明的保护范围。