CN103493057B

CN103493057B - 学习预测复合物对标靶的影响

Info

Publication number: CN103493057B
Application number: CN201280013276.2A
Authority: CN
Inventors: 阿马格汗·W·奈克; 乔舒亚·D·坎加斯; 克里斯托弗·J·兰米德; 罗伯特·F·墨菲
Original assignee: Carnegie Mellon University
Current assignee: Carnegie Mellon University
Priority date: 2011-02-14
Filing date: 2012-02-14
Publication date: 2016-06-01
Anticipated expiration: 2032-02-14
Also published as: WO2012112534A3; CA2826894A1; HK1193197A1; US20140052428A1; CN103493057A; US20200043575A1; WO2012112534A2; JP6133789B2; EP2676215A4; EP2676215A2; JP2014511148A

Abstract

一种由一个或多个处理装置执行的方法包括：获得指示与标靶和复合物的组合相关联的实验的信息；使用实验中的至少一个实验的结果来初始化信息；基于初始化，生成模型以预测复合物对标靶的影响；基于获得的实验和模型，生成关于待执行的实验的预测；基于预测，从待执行的实验中选择一个或多个实验；执行一个或多个实验；以及使用一个或多个实验的执行的一个或多个结果来更新模型。

Description

学习预测复合物对标靶的影响

优先权要求

本申请要求2011年2月14日申请的临时美国专利申请61/463,206、2011年2月18日申请的临时美国专利申请61/463,589以及2011年2月18日申请的临时美国专利申请61/463,593的优先权，每个申请的全部内容通过引用合并于此。

政府权利

在此公开的技术在国家卫生研究院之下由政府支持完成，项目编号为3R01GM075205-03S2。政府可以在公开于此的技术中具有一定的权利。

背景技术

药物开发是以疾病中涉及的蛋白质的识别开始并且在临床试验中测试之后结束的漫长过程。对蛋白质而言，对药物进行识别，所述药物增加或者降低与疾病相联系的蛋白质的活性。

在例子中，高通量筛选（HTS）是测试很多药物对蛋白质的影响的常用方法。在HTS中，化验用于检测药物对蛋白质的影响。通常，化验包括用于确定另一材料的特性的材料。

发明内容

在本公开的一方面，由一个或多个处理装置执行的方法包括：获得指示与标靶和复合物的组合相关联的实验的信息；使用实验中的至少一个实验的结果来初始化信息；基于初始化，生成模型以预测复合物对标靶的影响；基于获得的实验和模型，生成对于待执行的实验的预测；基于预测，从待执行的实验中选择一个或多个实验；执行一个或多个实验；以及使用一个或多个实验的执行的一个或多个结果来更新模型。

本公开的实施可以包括以下特征中的一个或多个。在一些实施中，预测包括指示复合物被预测是否对标靶有影响的值。在其它实施中，影响包括积极影响或者消极影响。在还有的其它实施中，选择包括：从待执行的实验中选择相对于待执行的实验中的其它实验的其它影响的其它预测而言与增加的影响的预测相关联的实验。

在一些实施中，该方法包括：重复生成预测、选择、执行和更新的行为，直到检测到预定义的条件为止。在其它实施中，该方法包括检索指示标靶和复合物的信息；其中获得包括：根据获得的信息生成实验空间，其中实验空间包括指示与标靶和复合物的组合相关联的实验的信息的视觉表示；并且其中更新包括更新实验空间。

在一些实施中，该方法包括检索指示复合物和标靶中的一个或多个的特征的信息；其中生成模型包括：基于特征生成模型。在其它实施中，特征包括分子量特征、理论等电位点特征、氨基酸组成特征、原子组成特征、消光系数特征、不稳定指数特征、脂肪指数特征和亲水性总平均值特征中的至少一个。

在一些实施中，模型包括：不依赖于复合物和标靶的特征生成模型。在其它实施中，复合物包括药物、药物的组合、核酸和聚合物中的一个或多个；并且标靶包括蛋白质、酶和核酸中的一个或多个。

在本公开的再一方面，由一个或多个处理装置执行的方法包括：获得指示与标靶和复合物的组合相关联的实验的信息；使用实验中的至少一个实验的结果来初始化信息；基于初始化，生成模型以预测复合物对标靶的影响；基于标靶和复合物中的一个或多个的特征，并且根据获得的实验，选择一个或多个实验用于执行；执行选择的一个或多个实验；以及使用一个或多个实验的执行的一个或多个结果来更新模型。

在本公开的再一方面，一个或多个机器可读介质被配置成存储指令，所述指令可由一个或多个处理装置执行，以执行前述特征中的一个或多个。

在本公开的又一方面，电子系统包括：一个或多个处理装置；以及一个或多个机器可读介质，其配置成存储指令，所述指令可由一个或多个处理装置执行，以执行前述特征中的一个或多个。

前述内容中的全部或部分可以实施为包括指令的计算机程序产品，所述指令存储在一个或多个非暂态机器可读存储介质上，并且可在一个或多个处理装置上执行。前述内容中的全部或部分可以实施为设备、方法或电子系统，其可以包括一个或多个处理装置和存储器，以便存储可执行的指令以实施所述功能。

在下面的附图和描述中阐述一个或多个实施的细节。从描述和附图中，并且从权利要求中，其它特征、目标和优点将是明显的。

附图说明

图1是用于生成复合物对标靶的影响的预测的网络环境的例子的示图。

图2是示出用于生成复合物对标靶的影响的预测的网络环境的部件的例子的框图。

图3是示出用于生成复合物对标靶的影响的预测的示例过程的流程图。

图4示出了可以用于实现在此描述的技术的计算机装置和移动计算机装置的例子。

各个附图中的相同的附图标记和名称指示相同的元件。

具体实施方式

符合本公开的系统测量和/或生成复合物对标靶的影响的预测。通常，标靶包括可以对其测量影响的项目。标靶的类型包括蛋白质、酶、核酸等。通常，复合物包括材料。复合物的类型包括药物、药物的组合（例如药物鸡尾酒）、化学制品、聚合物、核酸等。

在例子中，系统包括数千个标靶和数百万个复合物。使用主动学习技术，系统被配置成生成所有复合物对所有标靶的影响的测量或预测。

图1是用于生成复合物对标靶的影响的预测的网络环境100的例子的示图。网络环境100包括网络102、数据储存库105和服务器110。

数据储存库105可以通过网络102与服务器110通信。网络环境100可以包括成千上万的数据储存库和服务器，未示出这些数据储存库和服务器。服务器110可以包括各种数据引擎，例如包括数据引擎111。尽管数据引擎111在图1中被示为单个部件，但数据引擎111可以存在于一个或多个部件中，这些部件可以由网络102分布和耦接。

在图1的例子中，数据引擎111从数据储存库105中检索指示标靶124a...124n以及复合物122a...122n的信息。在这个例子中，数据引擎111被配置成执行实验以预测复合物122a...122n中的一个或多个对标靶124a...124n中的一个或多个的影响。数据引擎111使用标靶124a...124n和复合物122a...122n生成实验空间118。通常，实验空间118包括涉及标靶124a...124n和复合物122a...122n的实验组126的视觉表示。在这个例子中，实验126被视觉上表示为具有黑色边界线的白色圆圈。

在例子中，实验126包括已执行的实验和未执行的实验。通常，已执行的实验包括已经由数据引擎111执行的实验。未执行的实验包括还未由数据引擎111执行的实验。

当实验126被执行时，数据引擎111可以将实验与观测数据相关联。通常，观测数据包括指示复合物对标靶的影响的信息。例如，观测数据可以包括指示复合物增加还是减少标靶中的活性的信息。

基于来自实验的观测数据，数据引擎111可以注释实验。如下面进一步详细地描述的那样，可以通过将圆圈的颜色改变为黑色和/或通过将边界线改变为虚线来注释实验。

在例子中，数据引擎111从数据储存库105中检索实验结果104。在这个例子中，实验结果104包括指示先前已经由实体执行的实验的结果的信息。例如，实验结果104可以包括PubChem化验数据，例如包括关于针对标靶使用化验所测试的复合物的信息。

在这个例子中，实验结果104包括指示复合物122b对标靶124d的结果、复合物122d对标靶124a-124b的结果、复合物122e对标靶124c的结果以及复合物122g对标靶124d的结果的信息。结果包括积极的结果、消极的结果等。通常，积极的结果指示在标靶中增加活性的复合物。通常，消极的结果指示在标靶中降低活性的复合物。

在这个例子中，数据引擎111使用实验结果104初始化实验空间118。数字引擎111通过使用观测数据例如指示积极的结果的信息和/或使用指示消极的结果的信息注释实验126中的一个或多个来初始化实验空间118。在这个例子中，对于积极的实验结果使用黑色实心圆圈注释实验。在这个例子中，对于消极的结果使用虚线注释实验。

在这个例子中，例如，如与复合物122d和标靶124a相关联的实验的虚线所指示的那样，复合物122d对标靶124a具有消极的结果。如图1所示，复合物122b对标靶124d具有积极的结果。复合物122d对标靶124b具有积极的结果。复合物122e对标靶124c具有积极的结果。复合物122g对标靶124d具有积极的结果。

在另一个例子中，数据引擎111可以生成实验结果104。在这个例子中，数据引擎111通过随机地选择标靶124a...124n的子集和复合物122a...122n的子集生成实验结果104。数据引擎111对于可以从子集中生成的标靶和复合物的每个组合执行实验。在这个例子中，数据引擎111通过以下来执行实验：在微量滴定板中对标靶施加复合物，并且测量结果，例如包括测量吸光率、荧光性或发光，作为标靶活性的反映。使用观测数据（例如实验的结果），数据引擎111使用指示结果的数据（例如包括虚线和/或黑色实心圆圈）注释实验126中的一个或多个。

在初始化实验空间118之后，数据引擎111生成模型以表示实验空间1118中的可用数据。使用该模型，数据引擎111选择附加的实验（例如附加的复合物-标靶对）以相对于例如在附加实验的执行之前的模型的精确度提高模型的精确度。数据引擎111执行附加的实验。

数据引擎111收集由执行附加实验产生的数据。使用所收集的数据，数据引擎111使用指示实验的观测结果的数据来更新实验空间118。如先前所描述的，数据引擎111基于复合物增加还是降低标靶中的活性来注释实验126中的一个或多个。

在例子中，数据引擎111继续上面所描述的行为，直到模型实现所期望的精确度水平，直到已经耗尽所指定的预算，直到所有实验126已经被注释等。通常，预算指的是资源量，例如包括计算能力、带宽、时间等。

在例子中，由数据引擎111生成的模型包括主动学习模型。通常，主动学习模型包括交互地查询信息源以在新数据点获得所期望的输出的机器学习模型。

在这个例子中，数据引擎111被配置成生成多种类型的模型，例如不依赖于复合物122a...122n和标靶124a...124n的特征的模型、依赖于复合物122a...122n和标靶124a...124n的特征的模型等。通常，特征包括项目的特性，包括标靶和/或复合物的特性。

不依赖于标靶和复合物的特征的模型

在例子中，数据引擎111被配置成使用初始化的实验空间118以及在初始化实验空间118之后执行的附加实验的结果来生成模型。在这个例子中，模型包括生成复合物对标靶的影响的预测的预测模型。使用模型的预测，数据引擎111还被配置成选择一批实验以相对于例如该批实验的执行之前的模型的精确度进一步增加模型的精确度。

不依赖于特征的模型的生成

在例子中，数据引擎111被配置成生成模型以预测复合物122a...122n对标靶124a...124n的影响。在这个例子中，模型包括定义复合物122a...122n与标靶124a...124n之间的关系的信息。在这个例子中，数据引擎111通过生成复合物122a...122n和标靶124a...124n的聚类来生成模型。

数据引擎111执行聚类技术以将复合物122a...122n和标靶124a...124n一起分组成一个或多个聚类。在这个例子中，数据引擎111基于实验空间118的初始化的结果生成聚类。例如，与消极的结果相关联的复合物-标靶对可以被分组成一个聚类。与积极的结果相关联的复合物-标靶对可以被分组成另一聚类。根据聚类，数据引擎111通过学习各种聚类中的复合物与标靶之间的关联来生成模型。

在例子中，数据引擎111执行探索阶段，在探索阶段中，数据引擎111学习关于复合物122a...122n和标靶124a...124n中的每一个的信息。在这个例子中，数据引擎111可以实现包括其信息未知的复合物122a...122n和/或标靶124a...124n的实验。例如，所学习的信息可以包括表型。通常，表型包括有机体的可观测的物理和/或生物化学特性。在这个例子中，数据引擎111例如基于复合物122a...122n和标靶124a...124n的表型生成复合物122a...122n和标靶124a...124n的聚类。

在例子中，数据引擎111可以确定特定的复合物（例如复合物122a）如何扰动各个标靶124a...124n。被以相似的方式扰动的标靶124a...124n可能是相关的。基于扰动的结果，数据引擎111识别标靶124a...124n的表型。在这个例子中，表型包括指示由标靶124a...124n对由复合物122a引起的扰动的反应的信息。数据引擎111使用标靶124a...124n的表型生成标靶124a...124n的具有相似表型的聚类。

数据引擎111使用聚类生成预测模型。例如，预测模型可以包括线性回归模型。线性回归模型可以根据下面的表1中示出的公式来训练：

表1

如上面的表1中所示，Y_obs(*,p)和X_obs(*,p)包括分别来自对标靶p执行的所有实验的所测量的活性水平的矩阵和表型的矩阵。Y_obs(d,*)和X_obs(d,*)包括分别来自对复合物d执行的所有实验的活性得分的矩阵或表型的矩阵。

数据引擎111选择一组符合|β|＜s的表型。使用线性回归模型的交叉验证选择罚因子s。一旦模型已经被训练，数据引擎111就使用下面的表2中示出的公式生成对实验的预测。

表2

在例子中，数据引擎111通过取上面的表2中所示出的预测的平均值来生成对Y_(d,p)的预测。在下面的表3中示出了用于生成预测的平均值的公式：

表3

如上面的表3所示，Y_(d,p)P包括复合物对标靶的影响的预测。在例子中，预测包括活性得分。通常，活性得分包括指示复合物对标靶的影响的量值的信息。在这个例子中，活性得分从值-100变化到值100。值-100指示抑制影响。在这个例子中，抑制影响包括消极影响的类型。值100指示活化影响，例如增加标靶活性水平的复合物。值0指示复合物对标靶的中性影响。

在这个例子中，实验结果104包括活性得分。在这个例子中，例如通过使用活性得分填充实验126中的一个或多个，使用实验结果104中包括的活性得分来初始化实验空间118。例如，实验结果104包括指示复合物122d对标靶124a的活性得分的信息。在这个例子中，数据引擎111执行模型，以生成不与实验结果104中包括的结果相关联的复合物-标靶对的活性得分。

不依赖于特征的模型的批量选择

数据引擎111使用模型选择用于执行的附加实验（例如没有观察结果的复合物-标靶对）。数据引擎111在选择复合物-标靶对时实施各种技术。

在例子中，数据引擎111在选择一批实验时使用通过模型生成的预测（例如活性得分或表型向量）。在这个例子中，数据引擎111执行贪婪算法，该贪婪算法选择在模型的执行中对测量具有最大预测影响（例如抑制或活化）的未执行的实验。通常，贪婪算法包括采用在执行算法的不同阶段作出局部最佳选择的启发式问题求解的算法。

在另一个例子中，数据引擎111在选择实验中执行聚类算法。在这个例子中，数据引擎111例如基于与实验相关联的预测选择实验的聚类。对于聚类，数据引擎111可以被配置成选择预定数量的实验，例如相对于聚类中的其它实验的接近度，所述预定数量的实验以增加的接近度朝向聚类的中心定位。

依赖于复合物和标靶的特征的模型

在另一个例子中，数据引擎111从数据储存库105中检索指示例如包括氨基酸序列的标靶124a...124n的结构的信息。使用所述结构，数据引擎111计算标靶124a...124n的特征，例如包括分子量、理论等电位点、氨基酸组成、原子组成、消光系数、不稳定指数、脂肪指数、亲水性总平均值等。

在另一个例子中，数据引擎111从数据储存库105和/或从另一个系统（例如被配置成运行ProteinRecon软件的系统）中检索标靶124a...124n的附加特征。这些特征包括根据预计算的片段的库生成的基于密度的标靶124a...124n的电子特性的估计。在再一个例子中，数据引擎111从数据储存库105中检索指示标靶124a...124中模序(motif)存在与否的特征。在再一个例子中，数据引擎111计算复合物122a...122n的特征，例如包括指纹。通常，指纹包括指示特定结构图案存在与否的信息。

在例子中，特征的影响在本质上是附加的。在这个例子中，数据引擎111被配置成例如基于实验空间118生成线性回归模型。在例子中，每个复合物-标靶对已经将其与唯一的特征组相关联。在这个例子中，为了生成针对复合物-标靶对的预测，数据引擎111通过对于复合物和对于标靶训练分开的模型（例如线性回归模型）来生成两个独立的预测。标靶的模型使用对于该标靶所观测的所有复合物的特征和活性得分来训练。复合物的模型被训练，以使用标靶的特征来预测复合物会影响哪些标靶。

在这个例子中，数据引擎111根据上面的表1-3中示出的公式生成并且训练模型。在这个例子中，Y_obs(*,p)P和X_obs(*,p)包括分别来自对标靶p已执行的所有实验的活性得分和复合物特征的矩阵。此外，Y_obs(d,*)D和X_obs(d,*)包括分别来自对复合物d已执行的所有实验的活性得分和标靶特征的矩阵。

依赖于特征的模型的批量选择

如先前所述，例如在模型的另一实现中，数据引擎111使用在选择用于执行的实验中的预测。数据引擎111被配置成在选择实验时使用众多技术，例如包括贪婪算法、基于密度的算法、不确定性采样选择算法、多样性选择算法、混合选择算法等，上述算法中的每一个将在下面进一步详细描述。

在例子中，数据引擎111在选择实验时执行贪婪算法。在这个例子中，数据引擎111选择具有预测的活性得分的最大绝对值的实验。在一些例子中，没有信息可用于对实验做出预测。如果根据实验的可用数据没有做出预测，则该实验被预测为具有活性得分0。在这个例子中，具有相等的活性得分的所有实验以随机的顺序被处理。

在另一个例子中，数据引擎111执行基于密度的选择算法。在这个例子中，实验由通过将该实验的标靶特征和复合物特征联系起来所形成的单个向量来表示。在例子中，为了提高计算效率，使用最多为2000个已执行的实验和2000个未执行的实验。在2000个未执行的实验中，数据引擎111使用基于密度的采样方法作出选择。

在再一个例子中，数据引擎111执行不确定性采样选择算法。对于未执行的实验，数据引擎111使用每个模型的5倍交叉验证生成预测。在这个例子中，数据引擎111例如通过计算每个复合物预测与每个复合物预测的平均值来计算每个实验的25个预测。如果模型的计算不可能，例如因为缺乏共同的观测结果，则使用5个预测。选择具有预测的最大标准差的实验。

在又一个例子中，数据引擎111执行多样性选择算法。在这个例子中，实验由通过将该实验的标靶特征和复合物特征联系起来所形成的单个向量来表示。一组随机的实验（例如4000个实验）使用k均值算法（其中k为所期望的批的大小）被聚类。最接近聚类的质心的实验被选择用于执行。

在再一个例子中，数据引擎111执行混合选择算法。在混合选择算法中，数据引擎111使用上述方法中的每一个来选择实验的指定部分。

命中的检测

在另一个例子中，数据引擎111被配置成检测实验空间118中的命中。通常，命中包括预定义的事件的出现。在这个例子中，将复合物122a...122n和标靶124a...124n中的每一个与特征的向量相关联。在这个例子中，命中可以包括与具体特征相关联并且对具体标靶具有具体影响（例如由活性得分所指示的）的复合物。在这个例子中，数据引擎111可以被配置成使用模型以生成复合物对标靶的影响的预测。然后，数据引擎111可以对于适当的复合物和标靶将预测与特征的向量相互关联。数据引擎111可以将相互关联的预测和特征与各种预定义的事件相比较。基于比较，例如当相互关联的预测和特征与预定义的事件中的一个匹配时，数据引擎111可以检测到命中。

不依赖于模型的批量选择

在另一个例子中，数据引擎111被配置成选择不依赖于模型的动态生成的实验。在这个例子中，数据引擎111基于复合物122a...122n和标靶124a...124n的特征选择实验。

在这个例子中，数据引擎111检索指示实验的不同批的标准的信息。标准例如可以由网络环境100的管理员上载到数据引擎111。在另一个例子中，数据引擎111可以从另一个系统例如网络环境100外部的系统访问该标准。

标准可以指定批包括不同类型的复合物的均等采样。在例子中，数据引擎111使用复合物122a...122n的特征将具有相似特征的复合物122a...122n分组在一起。在这个例子中，被分组在一起的复合物122a...122n的一部分被确定具有特定的类型。在这个例子中，标准可以指定每批实验包括针对每种类型复合物的预定数量的实验。例如，如果存在五种不同类型的复合物。标准可以指定每批包括针对每种类型复合物的两个实验。在这个例子中，批量实验包括十个实验。

在另一个例子中，数据引擎111基于执行采样技术来选择实验。在这个例子中，采样技术基于超图的近似。通常，超图包括图的概括，其中边可以连接任何数量的顶点。在例子中，超图H包括对H=(X,E)，其中X是一组称为节点或顶点的元素，并且E是X的一组称为超边或链接的非空子集。在这个例子中，E包括的子集，其中是X的幂集。

在再一个例子中，采样技术包括上述的主动学习模型的下确界。通常，下确界包括（子集S的）偏序集T，在偏序集T中，T的最大元素小于或者等于S的所有元素。在这个例子中，采样技术增加实验的发现而降低在发现实验中所消耗的资源量。

在例子中，采样技术使用统计假设测试保证，例如包括停止规则。通常，停止规则包括用于基于当前位置和过去的事件判定是继续还是停止过程的机制。

在例子中，采样技术确定产生影响（例如积极影响和/或消极影响）的实验的概率分布（例如离散概率分布）。数据引擎111根据该分布选择预定数量的实验，例如相对于其它实验的其它概率，所述预定数量的实验与对标靶有影响的增加的概率相关联。

在这个例子中，分布包括泊松分布。通常，泊松分布包括如下分布：如果这些事件以已知的平均率并且不依赖于自从上一事件以来的时间发生，则表达在固定时间和/或空间间隔中发生的给定数量的事件的概率。

在另一个例子中，数据引擎111例如基于复合物122a...122n和标靶124a...124n的特征生成实验的分布。在这个例子中，数据引擎111根据分布选择实验以促进不同类型的实验的均衡分布。在这个例子中，分布包括各个组的实验，例如基于复合物122a...122n和标靶124a...124n的特征被分组在一起的实验。在这个例子中，数据引擎111被配置成从每个组中选择预定数量的实验。

在又一个例子中，数据引擎111使用下面的技术来选择实验。在例子中，数据引擎111为复合物C和标靶T的集合选择实验。在这个例子中，实验空间118包括组合(t，c)∈T×C的观测结果。关于实验空间118的采样路径的集合是置换群S|T×C|。有效的采样策略包括可计算的函数f，例如根据下面的表4中的公式的函数f_n→f的一致收敛序列。

表4

在例子中，b指示一批实验。给定可以承受的最大数量的处理(K＜＜|T×C|)，数据引擎111被配置成根据实验空间118来采样，以提高由数据构造的合理预测的质量。

在例子中，实验空间118包括经由C、T引导的特征空间的自然几何学。在例子中，上述特征中的一个或多个用于描述C中的变化。在这个例子中，T包括上述特征中的一个或多个。

在例子中，数据引擎111被配置成使用某种均衡手段例如Freedman-Diaconis选择来将C(T)的每个特征F_i离散化，生成二进制F_i，j。数据引擎111还被配置成对于每个二进制F_i，j将c(t)与二进制中的特征F_ith相关联。这种离散化产生有限的（超图）集合系统(V，S)，其中在通过c或t的投影之下针对每个二进制F_i，j有V=C×T以及。根据有限集合系统：根据下面的表5中示出的公式，对于每个k≤K，集合A(|A|=k)是针对S_j∈S的(V，S)的∈近似。

表5

对于最小的∈，∈近似A包括在比例采样的意义下根据下面的表6中示出的公式对每个S_j的平均采样。

表6

至于常数因子，可以估计任何等级交集的大小。另外，对于每个∈，存在大小为O(∈^-2log|S|)|4|.的∈近似A。使用关于秩等级集合的统计的假设（例如泊松分布），这通过delta方法产生假设测试。

在例子中，数据引擎111使用上述的技术来构造(V，S)。使用固定的批大小B平均地划分|V|，如下面的表7中所示的，数据引擎111对于n∈{0..K}（例如K=|V|/B)）构造随后的∈近似A_n。

表7

如上面的表7所示，序列(A_n)_n∈Σ描述了采样路径，所述采样路径：(i)是远离关于所有Σ的期望值的潜在秩等级集合的有界变差，以及(ii)是依赖于数据的。另外，使用平滑的F_i，j交集和回归函数，同时选择的采样路径实现了密度和不确定性采样策略，而不需要计算关于在采样过程中观测的秩的函数。

图2是示出用于生成复合物122a...122n对标靶124a...124n的影响的预测的网络环境100的部件的例子的框图。在图2的例子中，未示出实验空间118。

网络102可以包括连接多个移动计算装置、固定计算机装置以及服务器系统的大型计算机网络，例如包括局域网（LAN）、广域网（WAN）、因特网、蜂窝网络或其组合。（一个或多个）网络可以在各种模式或协议下提供通信，例如包括传输控制协议/互联网协议（TCP/IP）、全球移动通信系统（GSM）语音呼叫、短消息服务（SMS）、增强型消息收发服务（EMS）或多媒体消息收发服务（MMS）消息收发、码分多址（CDMA）、时分多址（TDMA）、个人数字蜂窝（PDC）、宽带码分多址（WCDMA）、CDMA2000或通用分组无线系统（GPRS）等等。通信可以通过射频收发器发生。另外，短距离通信可以使用例如包括蓝牙、WiFi或其它这样的收发器发生。

服务器110可以是多种能够接收数据以及运行一个或多个服务的计算装置，其可以由数据储存库105访问。在例子中，服务器110可以包括服务器、分布式计算系统、台式计算机、膝上型计算机、蜂窝电话、机架式服务器等。服务器110可以是单个服务器，或者是处于同一位置或不同位置的服务器组。数据储存库105和服务器110可以运行彼此具有客户端-服务器关系的程序。虽然在图中示出了不同的模块，但在一些例子中，客户端和服务器程序可以在同一装置上运行。

服务器110可以通过输入/输出（I/O）接口200从数据储存库105接收数据。I/O接口200可以是一种能够通过网络接收数据的接口，例如包括以太网接口、无线网络接口、光纤网络接口、调制解调器等。服务器110也包括处理装置202和存储器204。例如包括数据总线和母板的总线系统206可以用于建立和控制服务器110的部件之间的数据通信。

处理装置202可以包括一个或多个微处理器。通常，处理装置202可以包括适当的处理器和/或逻辑器件，其能够接收和存储数据，并且能够通过网络（未示出）进行通信。存储器204可以包括硬盘驱动器和随机存取存储器存储装置，例如包括动态随机存取存储器或其它类型的非暂态机器可读存储装置。如图2所示，存储器204存储可由处理装置202执行的计算机程序。这些计算机程序包括数据引擎111。数据引擎111可以以在计算机装置（例如服务器110）上运行的软件、硬件或软件和硬件的组合来实现。

图3是示出用于生成复合物122a...122n对标靶124a...124n的影响的预测的示例过程300的流程图。在图3中，在服务器110上（和/或由服务器110上的数据引擎111）执行过程300。

在操作中，数据引擎111初始化（310）实验空间118。在例子中，数据引擎111使用实验结果104初始化实验空间118。在这个例子中，数据引擎111通过确定实验126的子集来初始化实验空间118，对于实验126来说实验结果104包括观测结果。对于所确定的子集，数据引擎111使用观测结果（例如指定复合物对标靶具有积极还是消极影响的信息）来注释实验。如上所述，对于消极影响，数据引擎111使用虚线注释实验。对于积极影响，数据引擎111使用黑色实心圆圈注释实验。

在另一个例子中，数据引擎111通过使用活性得分（在图1中未示出）填充实验126中的一个或多个来初始化实验空间118。在这个例子中，实验结果104包括对各种复合物-标靶对执行的实验的活性得分，复合物-标靶对包括例如包括复合物122b和标靶124d的对。

在又一个例子中，数据引擎111通过注释实验126中的一个或多个以及还通过使用实验结果104中包括的活性得分填充实验126中的一个或多个来初始化实验空间118。在这个例子中，数据引擎111访问活性得分的阈值。例如，阈值可以为0。在这个例子中，超过阈值的活性得分指示积极影响。低于阈值的活性得分指示消极影响。

在图3的例子中，数据引擎111生成（312）模型以预测复合物对标靶的影响。在这个例子中，模型生成对未执行的实验的预测，例如包括对其尚未执行实验的复合物-标靶对。例如，模型可以生成针对未执行实验的预测活性得分。

如上所述，数据引擎111可以被配置成生成例如如上面的表2所示的不依赖于复合物122a...122n和/或标靶124a...124n的特征的模型。在另一个例子中，数据引擎111可以被配置成生成基于复合物122a...122n和/或标靶124a...124n的特征的模型。

数据引擎111例如基于模型来选择（314）一个或多个未执行的实验用于执行。例如，数据引擎111可以被配置成：例如基于贪婪算法或其它上述技术中的一个的应用，在选择实验时使用通过模型生成的预测的活性得分。例如，数据引擎111可以在选择实验中使用模型用于如下复合物-标靶对：复合物122b和标靶124b、复合物122d和标靶124f、复合物122i和标靶124e等。

数据引擎111执行（316）所选择的实验。在所选择的实验的执行期间，数据引擎111测量复合物对标靶（例如实验中包括的复合物和标靶）的影响。在这个例子中，数据引擎111通过执行实验来测量复合物-标靶对的活性得分。例如通过将所测量的数量转换成控制条件的百分比，实验的结果被转换成活性。在另一个例子中，实验的结果可以被转换成表型向量，其包含在图像中出现的多个图案或分量中的每一个的片断。

数据引擎111使用实验的执行的结果（例如活性得分或表型向量）来更新（318）实验空间118。在例子中，数据引擎111通过使用在实验期间测量的结果填充实验126中的一个或多个来更新实验空间118。在这个例子中，例如通过根据实验的执行的结果来更新模型，对实验空间118的更新被用来提高模型的精确度。

数据引擎111检测（320）是否已经满足停止条件。通常，停止条件包括指示停止主动学习的情况的信息。如前面所述，数据引擎111可以被配置成检测众多停止条件的出现，例如包括指示已经达到期望精确度水平的模型的条件、指示已经耗尽所指定的预算的条件、指示实验空间118不再包括未执行的实验（例如实验空间118中的所有实验已经被执行）的条件等。

在例子中，数据引擎111检测停止条件的不出现。在这个例子中，数据引擎111周期性地重复行为312、314、316、318，例如直到数据引擎111检测到停止条件的出现。在这个例子中，主动学习技术包括行为312、314、316、318的组合。在另一个例子中，数据引擎检测停止条件的出现。在这个例子中，数据引擎111被配置成停止（322）主动学习技术的实施。

在图3的变形中，数据引擎111实施上述的技术用于不依赖于模型的批量选择。在这个例子中，数据引擎111不是基于对未执行的实验的预测来选择实验，而是基于复合物122a...122n和标靶124a...124n的特征来选择实验。在这个例子中，可以在生成模型之前选择实验。

使用在此描述的技术，系统生成复合物对标靶的影响的预测。系统生成用于预测的模型。系统在生成模型时实施众多技术，例如包括生成不依赖于复合物122a...122n和标靶124a...124n的特征的模型的技术，生成基于复合物122a...122n和标靶124a...124n的特征的模型的技术等。另外，系统基于通过模型生成的预测来选择实验以增加模型的精确度。

图4示出了计算机装置400和移动计算机装置450的例子，计算机装置400和移动计算机装置450可以结合在此所描述的技术使用。计算装置400旨在表示各种形式的数字计算机如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、主机以及其它适当的计算机。计算装置450旨在表示各种形式的移动装置如个人数字助理、蜂窝电话、智能电话以及其它类似的计算装置。在此示出的部件、它们的连接和关系以及它们的功能仅仅意味着是例子，而不意味着限制在本文件中所描述的和/或所要求保护的技术的实施。

计算装置400包括处理器402、存储器404、存储装置406、连接至存储器404和高速扩展端口410的高速接口408以及连接至低速总线414和存储装置406的低速接口412。部件402、404、406、408、410和412中的每一个使用各种总线互相连接，并且可以安装在公共的母板上或以其它适当的方式安装。处理器402可以处理用于在计算装置400内执行的指令，包括存储在存储器404中或存储装置406上的指令，以在诸如耦接至高速接口408的显示器416之类的外部输入/输出装置上显示用于GUI的图形数据。在其它实施中，可以适当地使用多个处理器和/或多个总线连同多个存储器以及多种类型的存储器。同样，可以连接多个计算装置400，其中每个装置提供部分的必要操作（例如诸如服务器组、刀片服务器组或多处理器系统）。

存储器404存储计算装置400之内的数据。在一种实施中，存储器404是一个或多个易失性存储器单元。在另一种实施中，存储器404是一个或多个非易失性存储器单元。存储器404还可以是另一种形式的计算机可读介质如磁盘或光盘。

存储装置406能够为计算装置400提供大容量存储。在一种实施中，存储装置406可以是或包括计算机可读介质如软盘装置、硬盘装置、光盘装置或磁带装置、快闪存储器或其它类似的固态存储装置或装置的阵列，包括存储区域网或其它配置中的装置。计算机程序产品可以有形地包含在数据载体中。计算机程序产品还可以包含指令，当指令被执行时，执行一种或多种方法，如上面所描述的那些方法。数据载体是计算机可读或机器可读介质如存储器404、存储装置406、处理器402上的存储器等。

高速控制器408为计算装置400管理带宽密集型操作，同时低速控制器412管理较低带宽密集型操作。这样的功能分配只是例子。在一种实施中，高速控制器408耦接至存储器404、显示器416（例如通过图形处理器或图形加速器），并且耦接至高速扩展端口410，该高速扩展端口410可以接受各种扩展卡（未示出）。在该实施中，低速控制器412耦接至存储装置406和低速扩展端口414。可以包括各种通信端口（例如USB、蓝牙、以太网、无线以太网）的低速扩展端口例如可以通过网络适配器耦接至一个或多个输入/输出装置如键盘、指示装置、扫描仪或网络设备如交换机或路由器。

如图所示，可以以若干不同的形式来实施计算装置400。例如，计算装置400可以被实施为标准服务器420，或在一组这样的服务器中多次实施。它还可以被实施为机架服务器系统424的一部分。另外或作为替选，它可以在个人计算机如膝上型计算机422中实施。在一些例子中，来自计算装置400的部件可以与移动装置如装置450中的其它部件（未示出）组合。这样的装置中的每一个可以包括计算装置400、450中的一个或多个，并且整个系统可以由彼此通信的多个计算装置400、450组成。

除了其它部件，计算装置450还包括处理器452、存储器464、输入/输出装置如显示器454、通信接口466以及收发器468。装置450还可以设置有存储装置如微型驱动器或其它装置，以提供附加的存储。部件450、452、464、454、466和468中的每一个使用各种总线互相连接，并且部件中的几个可以安装在公共的母板上或以其它适当的方式安装。

处理器452可以执行计算装置450之内的指令，包括存储在存储器464中的指令。处理器可以被实施为芯片的芯片集，所述芯片包括分离的并且多个的模拟和数字处理器。处理器例如可以提供装置450的其它部件的协调，如用户接口的控制、由装置450运行的应用程序以及通过装置450进行的无线通信。

处理器452可以通过控制接口458和耦接至显示器454的显示接口456与用户通信。显示器454例如可以是TFTLCD（薄膜晶体管液晶显示器）或OLED（有机发光二极管）显示器或其它适当的显示技术。显示器接口456可以包括用于驱动显示器454以向用户呈现图形和其它数据的适当电路。控制接口458可以从用户接收命令并且对命令进行转换以便提交至处理器452。另外，外部接口462可以与处理器442通信，以启用装置450与其它装置的附近区域通信。外部接口462例如可以在一些实施中提供有线通信或在其它实施中提供无线通信，并且还可以使用多个接口。

存储器464存储计算装置450之内的数据。存储器464可以实施为一个或多个计算机可读介质、一个或多个易失性存储器单元或者一个或多个非易失性存储器单元中的一个或多个。扩展存储器474也可以被提供并且通过扩展接口472连接至装置450，所述扩展接口472例如可以包括SIMM（单列存储模块）卡接口。这样的扩展存储器474可以为装置450提供额外的存储空间，或者还可以为装置450存储应用程序或其它数据。具体地，扩展存储器474可以包括执行或补充上述过程的指令，并且还可以包括安全数据。因而，例如，扩展存储器474可以作为安全模块被提供给装置450，并且可以用允许装置450安全使用的指令来编程。另外，安全应用程序可以连同附加数据经由SIMM卡提供，例如以不可破解的方式在SIMM卡上放置识别数据。

存储器例如可以包括如下面讨论的快闪存储器和/或NVRAM存储器。在一种实施中，计算机程序产品有形地包含在数据载体中。计算机程序产品包括指令，当指令被执行时，执行一种或多种方法，如上面所描述的那些方法。数据载体是例如可以经由收发器468或外部接口462接收的计算机可读或机器可读介质，如存储器464、扩展存储器474和/或处理器452上的存储器。

装置450可以通过通信接口466进行无线通信，通信接口466在必要的情况下可以包括数字信号处理电路。通信接口466可以在各种模式或协议下提供通信，如GSM语音呼叫、SMS、EMS或MMS消息收发、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。这样的通信例如可以通过射频收发器468发生。另外，例如使用蓝牙、WiFi、或其它这样的收发器（未示出），近距离通信可以发生。另外，GPS（全球定位系统）接收模块470可以向装置450提供额外的导航相关和位置相关的无线数据，所述数据可以由装置450上运行的应用程序适当地使用。

装置450也可以使用音频编解码器460进行语音通信，音频编解码器460可以从用户接收语音数据并且将语音数据转换成可用的数字数据。诸如通过例如装置450的听筒中的扬声器，音频编解码器460可以同样地为用户生成可听见的声音。这样的声音可以包括来自语音电话呼叫的声音，可以包括所记录的声音（例如语音消息、音乐文件等），并且还可以包括装置450上操作的应用程序生成的声音。

如图所示，计算装置450可以用若干不同的形式来实施。例如，它可以实施为蜂窝电话480。它也可以实施为智能电话482、个人数字助理或其它类似的移动装置的一部分。

在此所描述的系统和技术的各种实施都可以用数字电子电路、集成电路、特别设计的ASIC（专用集成电路）、计算机硬件、固件、软件和/或其组合来实现。这些各种实施可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施，所述可编程系统包括：至少一个可编程处理器，其可以是专用的或通用的，被耦接以从存储系统接收数据和指令并向存储系统传送数据和指令；至少一个输入装置；以及至少一个输出装置。

这些计算机程序（也已知为程序、软件、软件应用或代码）包括可编程处理器的机器指令，并且可以以高级程序和/或面向对象的编程语言和/或以汇编/机器语言来实施。如在此使用的那样，术语机器可读介质和计算机可读介质指代用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、设备和/或装置（例如磁盘、光盘、存储器、可编程逻辑器件（PLD）），包括接收机器指令的机器可读介质。

为了提供与用户的交互，在此所描述的系统和技术可以在计算机上实施，所述计算机具有：显示装置（例如CRT（阴极射线管）或LCD（液晶显示）监视器），用于向用户显示数据；以及键盘和指示装置（例如鼠标或跟踪球），用户可以通过它们向计算机提供输入。其它类型的装置也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈（例如视觉反馈、听觉反馈或触觉反馈）；并且来自用户的输入可以以任何形式接收，包括声音的、语音的或触觉的输入。

在此所描述的系统和技术可以在计算系统中实施，所述计算系统包括后端部件（例如像数据服务器），或包括中间件部件（例如应用服务器），或包括前端部件（例如具有用户接口或网页浏览器的客户端计算机，通过所述用户接口或网页浏览器，用户可以与在此所描述的系统或技术的实施进行交互），或包括这样的后端部件、中间件部件或前端部件的任意组合。系统的部件可以通过数字数据通信的介质或任何形式（例如通信网络）相互连接。通信网络的例子包括局域网（LAN）、广域网（WAN）和因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系借助于在各自的计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。

在一些实施中，在此描述的引擎可以是单独的、组合的或合并到单个引擎或组合引擎中。附图中所描绘的引擎并不旨在将在此所描述的系统限制于附图中所示出的软件体系结构。

已经描述了若干实施例。然而，可以理解的是，在不偏离在此描述的过程和技术的精神和范围的情况下可以做出各种修改。另外，附图中所描绘的逻辑流程不要求所示出的特定次序或连续的次序以实现所期望的结果。另外，可以提供其它步骤，或可以从所描述的流程中去除步骤，并且其它部件可以被添加至所述系统，或从系统中移除。因此，其它实施例处在所附权利要求的范围内。

Claims

1.一种由一个或多个处理装置执行的方法，包括：

获得指示与标靶和复合物的组合相关联的实验的信息，实验包括使用从多个标靶选择的用于实验的标靶和使用从多个复合物选择的用于实验的复合物的标靶和复合物的组合；

使用所述实验中的至少一个实验结果来初始化所述信息；

基于初始化，生成模型以预测所述复合物对所述标靶的影响；

另外未执行的实验包括特定一种复合物和特定一种标靶，

基于获得的实验和所述模型，生成包括在所述另外未执行的实验中的复合物对包括在所述另外未执行的实验中的标靶的影响的量或对使用所述另外未执行的实验的结果更新所述模型的模型的精确度的影响的预测；

基于所生成的预测，选择所述另外未执行的实验中的一个或多个用于执行；

执行所述另外未执行的实验中的一个或多个；以及

使用所述另外未执行的实验中的一个或多个的执行的一个或多个结果来更新所述模型。

2.根据权利要求1所述的方法，其中，预测包括指示复合物被预测是否对标靶具有影响的值。

3.根据权利要求2所述的方法，其中，影响包括积极影响或消极影响。

4.根据权利要求3所述的方法，其中，选择包括：

从所述另外未执行的实验中选择相对于所述另外未执行的实验中的其它实验的影响的预测而言与所述积极影响的预测相关联的实验。

5.根据权利要求1所述的方法，进一步包括：

重复生成预测、选择、执行和更新的行为，直到检测到预先定义的条件为止。

6.根据权利要求1所述的方法，进一步包括：

检索指示所述标靶和所述复合物的信息，

其中，获得包括：

根据获得的信息生成实验空间，其中，所述实验空间包括指示与所述标靶和所述复合物的组合相关联的实验的信息的视觉表示，并且

其中，更新包括更新所述实验空间。

7.根据权利要求1所述的方法，进一步包括：

检索指示所述复合物和所述标靶中的一个或多个的特征的信息，

其中，生成所述模型包括：

基于所述特征生成所述模型。

8.根据权利要求7所述的方法，其中，特征包括分子量特征、理论等电位点特征、氨基酸组成特征、原子组成特征、消光系数特征、不稳定指数特征、脂肪指数特征和亲水性总平均值特征中的至少一个。

9.根据权利要求1所述的方法，其中，生成所述模型包括：

不依赖于所述复合物和所述标靶的特征生成所述模型。

10.根据权利要求1所述的方法，

其中，复合物包括药物、药物的组合、核酸和聚合物中的一个或多个；并且

其中，标靶包括蛋白质、酶和核酸中的一个或多个。

11.根据权利要求1所述的方法，其中，所述与标靶和复合物的组合相关联的实验包括与所述另外未执行的实验不同的标靶和化合物的组合。

12.一种由一个或多个处理装置执行的方法，包括：

使用所述实验中的至少一个实验结果来初始化所述信息；

基于a)所述标靶和所述复合物中的一个或多个的特征，并且b)根据获得的实验，选择一个或多个另外的实验用于执行；

执行所述一个或多个另外的实验；以及

使用所述一个或多个另外的实验的执行的一个或多个结果来更新所述模型。

13.一种电子系统，包括：

一个或多个处理装置；以及

一种或多种机器可读介质，其配置成存储指令，所述指令可由所述一个或多个处理装置执行，以执行包括以下步骤的操作：

使用所述实验中的至少一个实验结果来初始化所述信息；

另外未执行的实验包括特定一种复合物和特定一种标靶，

基于所述预测，选择所述另外未执行的实验中的一个或多个用于执行；

执行所述另外未执行的实验中的一个或多个；以及

14.根据权利要求13所述的电子系统，其中，预测包括指示复合物被预测是否对标靶具有影响的值。

15.根据权利要求14所述的电子系统，其中，影响包括积极影响或消极影响。

16.根据权利要求15所述的电子系统，其中，选择包括：

从一个或多个另外未执行的实验中选择相对于所述另外未执行的实验中的其它实验的影响的预测而言与所述积极影响的预测相关联的实验。

17.根据权利要求13所述的电子系统，其中，所述操作进一步包括：

18.根据权利要求13所述的电子系统，其中，所述操作进一步包括：

检索指示所述标靶和所述复合物的信息，

其中，获得包括：

其中，更新包括更新所述实验空间。

19.根据权利要求13所述的电子系统，其中，所述操作进一步包括：

其中，生成所述模型包括：

基于所述特征生成所述模型。

20.根据权利要求19所述的电子系统，其中，特征包括分子量特征、理论等电位点特征、氨基酸组成特征、原子组成特征、消光系数特征、不稳定指数特征、脂肪指数特征和亲水性总平均值特征中的至少一个。

21.根据权利要求13所述的电子系统，其中，生成所述模型包括：

不依赖于所述复合物和所述标靶的特征生成所述模型。

22.根据权利要求13所述的电子系统，

其中，复合物包括药物、药物的组合、核酸和聚合物中的一个或多个，并且

其中，标靶包括蛋白质、酶和核酸中的一个或多个。

23.一种电子系统，包括：

一个或多个处理装置；以及

使用所述实验中的至少一个实验结果来初始化所述信息；

执行所述一个或多个另外的实验；以及