CN106575320B

CN106575320B - 结合亲和力预测系统和方法

Info

Publication number: CN106575320B
Application number: CN201580036059.9A
Authority: CN
Inventors: A·S·海菲兹; I·瓦拉赫; M·迪萨巴
Original assignee: James Wise Ltd By Share Ltd
Current assignee: James Wise Ltd By Share Ltd
Priority date: 2014-05-05
Filing date: 2015-05-05
Publication date: 2019-03-26
Anticipated expiration: 2035-05-05
Also published as: EP3140763B1; JP6671348B2; SG11201609238VA; JP2017520868A; EP3140763A1; CN106575320A; EP3140763A4; WO2015168774A1

Abstract

公开了用于预测结合亲和力的系统、装置和方法。存储反映输入数据的记录。构建提供对结合输入特征的几何表示的数据结构。所述数据结构通过编码与至少一种分子和至少一种靶蛋白相关的数据来填充，用于编码的所述数据选自所述存储的输入数据。将预测模型应用于所述数据结构以产生至少一种分子对至少一种靶蛋白的结合亲和力的指示符。

Description

结合亲和力预测系统和方法

发明领域

本公开总体上涉及生物信息学系统，并且更具体地说涉及用于预测一种或多种分子的结合亲和力的系统和方法。

背景技术

准确地预测分子对蛋白质的结合亲和力的能力是发现新药以及阐明天然和工程化生物过程的基本工具。遗憾的是，在结合亲和力预测过程中，制约结合的因素的数目相当广泛并且对它们的相互作用知之甚少。

预测的准确性取决于预测模型考虑到的特征。一些结合亲和力预测解决方案是已知的，包括结合机器学习特征的那些。一些现有技术解决方案使用相对简单的预测模型，所述预测模型可能并未反映化学结构和蛋白质结构的复杂性。另外，所述预测模型可能未反映分子与蛋白质之间影响结合亲和力的相互作用的许多变量。例如，分子与蛋白质之间的给定相互作用可能会受到以下各项的影响：距离、角度、原子类型、电荷和极化以及周围环境稳定或使其失去稳定性的涉及的环境因素。

现有技术解决方案使用简单的特征，例如像基于知识的评分函数，所述评分函数使用原子对/原子组，例如，一个原子来自分子(诸如药物靶标)，并且一个原子来自蛋白质。之后例如通过评价这些对之间的距离以推导出可能的分子/蛋白质结合原子对来分析这些对。可以将评分聚集起来，并且可以分析这些聚集的评分，以便于确定分子/蛋白质结合亲和力或“配合度”。结合亲和力预测解决方案的性能取决于所使用的模型，并且这些模型通常都是手动构建和训练的，这是费时的。

现有技术结合亲和力解决方案通常包括(i)基于知识的，(ii)经验的，或(iii)包括基于力场的评分函数的解决方案。基于知识的特征典型地由对在生物复合物中隔开给定距离的原子或者官能团的配对次数的计数组成。由于这些特征是简单的(两个点隔开一定距离)，所以它们无法捕获复杂的上述影响因素组。经验评分函数将一组相对重要性权重拟合到少数(数十个)人工工程化特征，诸如所述数目的可旋转键、氢键供体-受体对、芳香族堆栈、静电、立体互补或应变、或者溶剂可接近疏水区域。这些特征的开发需要专业知识和大量手动调节，然而任何这种特征都将必然是有限近似，因为如上所述，即使是专业化学工作者都无法一致地解决制约分子相互作用的力。基于力场的评分函数被设计成具有高计算效率，这要求近似来自气相预测的理论结果。例如，这类系统忽略或粗略近似溶剂分子对场强度的重要介导。

出于所述原因，现有技术结合亲和力预测解决方案可能并不像所希望的一样准确。

需要提供更准确和/或更高效的结合亲和力预测，或至少提供替代方法来提供结合亲和力预测的解决方案。

发明概要

根据一方面，提供了一种用于预测结合亲和力的系统。所述系统包括：至少一个电子数据存储体，其被配置来存储反映输入数据的记录；编码器模块，其被配置来：构建提供对结合输入特征的几何表示的数据结构；通过编码与至少一种分子和至少一种靶蛋白相关的数据来填充数据结构，用于编码的数据选自存储的输入数据；以及预测模块，其被配置来：将预测模型应用于数据结构以产生至少一种分子对至少一种靶蛋白的结合亲和力的指示符。

根据另一方面，提供了一种用于预测结合亲和力的计算机实施方法。所述方法包括：将反映输入数据的记录存储在至少一个电子数据存储体中；在至少一个处理器处构建提供对结合输入特征的几何表示的数据结构；在至少一个处理器处通过编码与至少一种分子和至少一种靶蛋白相关的数据来填充数据结构，用于编码的所述数据选自存储的输入数据；并且在至少一个处理器处将预测模型应用于数据结构以产生至少一种分子对至少一种靶蛋白的结合亲和力的指示符。

在此方面，在详细解释本发明的至少一个实施方案之前，应理解本发明在其应用方面并不限于构造的细节和以下描述中所阐述或在附图中所示的部件的布置。本发明能具有其他实施方案并且能以各种方式来实践和实施。此外，应理解，本文所采用的措辞和术语是出于描述的目的并且不应视为具有限制性。

附图简述

在附图中，以举例的方式示出本发明的实施方案。应明确理解，描述和附图是仅出于说明的目的且是为了帮助理解，并且不意图限定本发明的限制。

图1是示出根据实施方案的用于预测结合亲和力的示例系统的方框图。

图2是示出根据实施方案的用于预测结合亲和力的高级别步骤的工作流程图。

图3是根据实施方案的呈三维体素网格形式的输入特征的几何表示的示意图。

图4是根据实施方案的呈两个不同取向的示例分子的示意图。

图5和图6是根据实施方案的根据体素的二维网格可视化编码的两个分子的视图。

图7是根据实施方案的图6的可视化的视图，其中已对体素编号。

图8是根据实施方案的呈原子中心的坐标位置形式的输入特征的几何表示的示意图。

图9是根据实施方案的图8中具有一系列位置的坐标位置的示意图。

图10是根据实施方案将多个函数计算元素(g1，g2，...)应用于体素输入(×1，×2，...×100)并使用g()来一起合成函数计算元素输出的图。

图11是根据实施方案的图1的系统的硬件部件的示意图。

具体的实施方案

一方面，本公开提供一种包括新型的和创新的结合亲和力预测系统的计算机系统。结合亲和力预测系统可以就一种或多种分子与一种或多种蛋白质的结合亲和力产生准确的预测。

在一个实施方案中，结合亲和力预测系统可以被配置来分析大量生物数据。例如，计算机系统可以包括或链接至数据库，所述数据库包括例如数千万个数据点。取决于各种因素，诸如数据源、应用等等，数据点的数目可以变化。

为了促进对来自生物数据的这些几何特征的表示，所述系统可以被配置来产生数据表示，例如，使自然空间虚拟化的数据结构。

在一个实施方案中，提供了充当生物数据的“容器”的独特的和创新的数据表示，所述数据表示具有固定的输入大小，以便于使得能够应用深度学习技术来发现一种或多种分子与一种或多种蛋白质之间的结合亲和力(包括基于一组广泛的结合参数)。

图像分类系统可以是基于例如色片的相对位置和大小，与图像分类系统相对比，本文公开的结合亲和力预测系统可以被配置来辨别各种原子组当中的位置和距离。

作为一个实例，针对生物数据，在一个实施方案中，所述系统可以被配置来将给定体素中每个原子的存在度表示为所述条目的不同数字，例如，如果碳处在体素中，将值6指定给所述体素，因为碳的原子序数是6。然而，这种编码可以意味着具有相近原子序数的原子将具有类似的表现，这根据应用而言可能不是特别有用。另外，同组(元素周期表同一列)内的元素行为可能更为相似，并且因此这种编码给深度学习系统带来了额外的解码工作。

在另一个实施方案中，所述系统可以被配置来将本文可能提及的内容当中的类型编码为“独热”编码：每个原子类型具有单独的通道。虽然存在超过100个元素，但是大多数在生物学中都未曾遇到。然而，针对受体领域，即使表示最常见的生物元素(即，H、C、N、O、F、P、S、Cl、Br、I、Li、Na、Mg、K、Ca、Mn、Fe、Co、Zn)就可以产生18个通道或10，483*18＝188，694次输入。当另外存在原子的其他特征(例如，部分电荷、配体对蛋白质靶标的存在度、电负性、或SYBYL原子类型)时，可能的输入的数目可能甚至会更高，从而需要在另外的等同原子之间区分更多输入通道。

例如，可以按使得能够表达与分子/蛋白质相关联的各种结构关系的方式利用生物数据来编码数据表示。深度学习方法之后可以将编码的数据应用于数据表示，从而有可能使得能够产生反映出分子/蛋白质的结构特征的分析结果。这种方法可以产生比现有技术结合预测技术所使用的特征更为复杂的特征。

方便的是，本文公开的实施方案并不要求产生通常必须手动构建和/或调节的复杂的结构特征。

相反，一方面，结合亲和力预测系统实施“深度学习”方法来(例如，自动地)提取一组特征，从结合数据提取。

更具体来说，本文公开的实施方案适应各种技术，诸如计算音频和视频处理中使用的那些，其中深度学习方法可以用于结合较大的生物数据组来预测结合亲和力，从而提供比现有技术中的那些可能更为有用和/或准确的更多结果。

在一个实施方案中，结合亲和力预测系统可以被配置来使得能够分析大量数据，从而确定执行准确的分子/蛋白质结合亲和力预测中所涉及的变化的和复杂的化学结构和蛋白质结构。

另外，结合亲和力预测系统可以提供高效的和可调整的机制，以便使得能够部分关于相关联的分子/蛋白质的结构特征分析生物数据。

计算机系统可以被实施来提供许多不同的系统或与之一体成型，所述不同的系统包括(a)生物信息学系统，或(b)药物发现系统。其他系统也可以结合本文公开的特征，所述其他系统包括例如(a)个体化用药系统或(b)结合了结合亲和力预测的医疗记录系统。

在一个实施方案中，计算机系统包括：一个或多个计算机，所述一个或多个计算机链接了结合亲和力预测工具，所述结合亲和力预测工具在执行时应用于数据集，即结合亲和力预测功能以便于产生一种或多种结合亲和力预测，所述数据集包括从含信息(诸如生物信息)的一个或多个数据库接收或从其推导出来的那些。

参考图1，提供了示出根据实施方案的系统的示例实施方式的示意性方框图。

如所描画，系统包括分析器10。分析器10可以链接至一个或多个数据库12，所述一个或多个数据库12存储反映输入数据(例如，生物数据)的记录。这些数据库可以包括数据库诸如分子数据库12a、蛋白质数据库12b、亲和力数据库12c、转换数据库12d。各种数据库被统称为数据库12。可替代地或相结合地，所述系统可以从同样可能具有附加生物数据的一个或多个远程系统13获得生物数据。

分子数据库12a和蛋白质数据库12b含有各种生物、物理和/或化学数据，所述数据描述了各种原子、配体分子、有机和无机辅因子以及蛋白质的相对位置。为方便起见，术语“生物数据”在本文中可以广泛地用于指代所有这类数据。亲和力数据库12c可以包括可以为数值型结合亲和力的结合信息。转换数据库12d可以包括用于几何结构的旋转、平移和镜像的各种操作数。

来自数据库12和/或远程系统13的数据可以包括从多种来源接收作为输入数据的数据，例如像，通过溶液NMR产生的结构集合体、如根据X射线晶体学解释的共复合物、来自计算模拟的采样、近似姿态产生技术诸如同源性建模或旋转异构体库采样以及这些技术的组合。输入数据可以包括训练实例和标签两者。

分析器10可以包括数据编码器模块14和预测模型模块18。分析器10还链接至一个或多个算法库16，所述一个或多个算法库16包括用于发现或预测可能的结合亲和力的一种或多种学习算法。分析器10从各种数据库12和/或远程系统13接收输入并且将所述输入提供至数据编码器模块14，所述数据编码器模块14将选择的或限定的生物数据编码为一个或多个几何数据表示。之后将一个或多个几何数据表示提供至预测模型模块18，所述预测模型模块18应用来自一个或多个算法库的一种或多种算法以确定对可能的结合亲和力的预测。

预测模型模块18可以被配置来利用各种深度学习技术和/或机器学习技术，所述学习技术用于预测。

预测模型模块18可以进一步被配置来在处理更多输入时随时间的推移而进行训练。在一个实施方案中，预测模型模块18被配置来利用具有加权连接的神经网络，并且可以进一步被配置来基于各种训练事件和/或条件来调整权重。算法库16可以被配置来通过存储和/或处理与预测模型模块18的先前操作相关的信息来支持训练，所述信息可以包括诸如连接加权等的信息。

参考图2，提供了根据实施方案的指示用于预测结合亲和力的高级别步骤的工作流程。

工作流程含有以下步骤：接收输入数据并将其转换为几何表示22、开发预测模型24、将预测模型应用于结合亲和力预测26以及训练预测模型28。将理解，所述步骤仅出于说明性目的而提供，并且根据实施方案，可能存在更多或更少的步骤，并且所述步骤可以变化，或者可以以其他次序。

下文更详细地描述这些步骤。

接收输入数据并将其编码为几何表示

在接收输入数据并将其编码为几何表示的步骤22的过程中，分析器10可以从数据库12和/或远程系统13接收许多输入并且使用数据编码器模块14形成产生几何表示的数据表示(例如，数据结构)，所述数据表示在一个实施方案中是虚拟化的真实空间。

来自数据库12和/或远程系统13的数据可以描述各种生物、物理和/或化学数据，所述数据描述了各种原子、配体分子、有机和无机辅因子以及蛋白质的相对位置。所述数据被统称为“输入数据”。

例如，数据编码器模块14可以被配置来构建提供对结合输入特征的几何表示的数据结构，并且通过编码与一种或多种分子和一种或多种靶蛋白相关的数据来填充数据结构。用于编码的数据可以选自上述输入数据。

输入几何数据可以分组为训练实例。例如，经常会出现这样的情况：单组分子、辅因子和蛋白质具有多个几何测量，其中每个“快照(snapshot)”描述蛋白质和分子可能采纳的替代构象和姿态。类似地，还可以对蛋白质侧链、辅因子和配体的不同的互变异构体采样。由于这些状态都归因于生物系统的行为，根据玻尔兹曼分布，用于预测结合亲和力的系统可以被配置来一起考虑这些状态。

任选地，这些训练实例可以标记有结合信息。如果定量结合信息可用，那么标签可以是数值型结合亲和力。可替代地，可以从一组两个或更多个有序分类为训练实例指定标签(例如，两个分类：结合物和非结合物，或者若干可能的重叠分类，所述重叠分类将配体描述为效力＜1摩尔、＜1毫摩尔、＜100微摩尔、＜10微摩尔、＜1微摩尔、＜100纳摩尔、＜10纳摩尔、＜1纳摩尔的结合物)。结合信息可以来源于或接收自多种来源，诸如实验测量、计算估计、专业洞察力或假设(例如，随机分子和蛋白质对极不可能结合)。

处理输入数据。例如，在一个实施方案中，数据编码器模块14可以进一步被配置来通过经由应用一个或多个预先限定的变换产生附加例子来扩充输入数据，所述预限定的变换例如包括X、Y和Z三个平面的任何组合的旋转、平移和镜像算子的某一组合。可以随机地(在某一范围内，例如，在原点上加上或减去)选择或者以某一预先规定的增量(例如，全部以5度增量围绕圆)一致地产生，或者反向地(例如，从给定预测系统产生不正确的预测)选择几何数据的旋转和平移。数据的这种扩充可以通过来自转换数据库12d的输入来配置，所述转换数据库12d可以包含一个或多个数据扩充算子。图4提供了呈两个不同取向的示例分子40的示意图。

在应用数据扩充算子(如果有的话)之后，数据编码器模块14可以被配置来截取所得几何数据。由于神经网络要求固定的输入大小，所述系统可以修剪几何数据以处在适当的包围盒内。例如，可以使用距离一侧为的立方体。还可以将输入数据平移(例如，映射)到固定大小网格。

根据各个实施方案，可以按多种方式和拓扑结构实施几何表示。几何表示用于数据的可视化和分析。例如，在一个实施方案中，几何结构可以使用以各种拓扑结构布置的体素来表示，所述拓扑结构诸如2-D、3-D笛卡尔/欧几里得空间、3-D非欧几里得空间、流形等。例如，图3提供了包括三维体素网格的示例表示，并且图5提供了包括二维体素网格的示例表示。

在另一个实施方案中，几何性质可以由3-D空间内具有相关联的成对的距离注记的一组点表示，例如由图8所示。

体素可以具有与之相关联的特定值，所述特定值可以例如通过应用标签和/或确定它们的定位等等来表示。

数据编码器模块14可以被配置来使用多种形状中的任一个形状将空间划分成体素网格。在一些实施方案中，多面体诸如矩形、多边形等可以用于划分空间。

在一个实施方案中，网格结构可以被配置成类似于体素的布置。例如，每个子结构可以与被分析的每个原子的通道相关联。另外，可以提供编码方法来以数值表示每个原子。

在一个实施方案中，数据编码器模块14可以被配置来将几何数据转换成一组离散的规律隔开的欧几里得网格式的立方体体素。数据编码器模块14可以被配置来以各种不同的分辨率设定几何形状。例如，可以选择分辨率，但是所述系统还可以被配置来选择更细的(例如，或甚至)或者更粗的分辨率(例如，或)，其中间隔产生整数个立方体来覆盖输入数据。

作为说明，针对输入立方体，在分辨率的情况下，这种布置将产生40*40*40＝64,000个输入体素。

在一些实施方案中，将时间因素考虑在内，产生几何表示，并且所述几何表示因此可以呈四维形式(X、Y、Z以及时间)。

在一些实施方案中，其他实施方式诸如像素、点、多边形、多面体或呈多维形式的任何其他类型形状(例如，3-D、4-D形状等等)可以用来取代体素。

在一个实施方案中，几何信息可以由原子(包括配体、辅因子和蛋白质)的中心的X、Y、Z坐标来表示。一个替代性表示是例如在X射线晶体学中测量的电子密度。

在一个实施方案中，每个体素具有一个或多个输入通道，所述一个或多个输入通道可以具有与之相关联的各种值，所述值在简单的实施方式中可以是开/关；并且可以被配置来针对原子类型进行编码。原子类型可以指示原子的元素，或者原子类型可以进一步被精化来区分其他原子特征。

在一个实施方案中，所述系统可以被配置来通过以下方式来使几何数据归一化：将具有X、Y、Z坐标的原点选择为是如由空腔泛洪算法所确定的结合位点的质量中心。可替代地，所述系统可以被配置来使原点的中心居于整个共复合物、仅蛋白质或者仅配体的质量中心。基底向量可以任选地选择为是整个共复合物、或仅蛋白质或者仅配体的主惯性矩。

之后可以将存在的原子编码在每个体素中。可以使用各种技术和/或方法来利用各种类型编码。作为示例编码方法，可以利用原子的原子序数，每个体素产生一个值，范围是从氢1到Uuo(ununoctium)118(或任何其他元素)。

然而，可以利用其他编码方法，诸如上述“独热编码”，其中每个体素具有许多并行输入通道，每个所述输入通道是开或关并且针对原子类型进行编码，如图5、图6和图7所示。原子类型可以指示原子的元素，或者原子类型可以进一步被精化来区分其他原子特征。例如，Sybyl原子类型将单键碳与双键、三键或芳香族碳中区分开来。

在一个实施方案中，数据编码器模块14进一步区分为蛋白质或辅因子的部分对配体的部分的原子。

其他通道可以另外(或可替代地)规定另外的信息，诸如部分电荷、极化性、电负性、溶剂可接近空间以及电子密度。

在一些实施方案中，数据编码器模块14还可以被配置用于其他附加的任选的编码精化。以下被提供作为实例。

大多数元素很少出现在生物系统中。在第一编码精化中，所要求的存储器可以通过减少由系统表示的原子组来减少。原子可以通过以下方式映射以共享同一通道：将稀有原子组合(这因此可能很少影响系统的性能)或者将具有相似特性的原子组合(这因此可以最小化组合的不准确性)。

第二编码精化可以是配置系统以通过部分激活相邻体素来表示原子位置。相邻神经元的部分激活从独热编码移动到“若干热”编码。例如，可以考虑氯原子来说明，所述氯原子在放置网格时具有的范德华力直径以及因此的体积，氯原子内的体素将被完全填充，而原子边缘上的体素将仅被部分填充。所述系统可以被配置来以与位于氯原子内的体素的体积成比例的方式部分地打开部分填充的体素。这可能会导致相对于离散的独热编码来说“平滑的”且更为准确的表示。

数据编码器模块14的输出是已经基于应用于输入数据的各种规则而编码的一组几何数据。

图3示出了根据实施方案的包括一系列子容器32的示例三维网格结构30。每个子容器32可以对应于一个体素。可以针对网格限定坐标系，以使得每个子容器都具有标识符。在所描画的实施方案中，坐标系是3-D空间内的笛卡尔坐标系。然而，在其他实施方案中，坐标系可以是任何其他类型的坐标系，诸如扁球面、柱面或球面坐标系、极坐标系、针对各种流形和向量空间设计的其他坐标系等等。

图5和图6各自提供了根据实施方案的编码到体素的二维网格50中的两个分子的视图。图5提供了叠加在二维网格50上的两个分子52。如图所示，网格中的每个位置都用一个标识符编码，例如，标识氧、氮、碳以及空白空间的存在。如上所述，这种编码可以被称为“独热”编码。图6示出了省略了分子52的图5的网格50。图7提供了其中每个体素已被编号的网格50的视图。

如所提及，特征几何性质可以按除了体素之外的形式来表示。图8提供了各种表示的视图，其中特征(例如，原子中心)表示为0-D点(表示80)、1-D点(表示82)、2-D点(表示86)或3-D点(表示84)。最初，可以随机地选择点之间的间隔。然而，在训练预测模型时，所述点可以移动得更加靠近在一起或者更远。图9示出了每个点的一系列可能位置。

图10提供了根据一些实施方案将多个函数计算元素(g1，g2，...)应用于体素输入(×1，×2，...×100)并使用g()来一起合成函数计算元素输出的图。例如，每个体素输入可以是40个相异原子类型的独热编码向量。

开发预测模型

预测模型模块18可以被配置来利用深度学习方法以使用数据编码器模块14的几何数据输出来在步骤24中开发预测模型。根据各个实施方案，深度学习方法可以是监督的或无监督的方法。

预测模型模块18可以被配置来利用各种深度学习方法，所述深度学习方法作为说明性的非限制性实例可以包括深度神经网络、卷积神经网络、深度信念网络、栈式玻尔兹曼机、自编码器、稀疏编码以及拓扑主成分分析等等。

在一个实施方案中，预测模型模块18可以被配置来基于用户定义参数19而从一个或多个算法库16选择和应用一种或多种深度学习方法。这些用户定义参数19可以进一步配置预测模型模块18以在各种设定下应用一种或多种深度学习方法。这些设定可以允许预测模型模块18在多种设定下运行，每种设定给出不同的安全性、速度和灵活性的折衷。

可以将训练数据提供至预测模型模块18以在一段时间内建立和训练预测模型。

为了应用深度学习方法，可能要求结合亲和力预测系统具有固定的输入大小。另外，对结合亲和力的准确发现预测可以取决于分子/蛋白质的几何特征。

深度学习方法可以用于提取可能对于结合亲和力的分析而言重要的一个或多个特征。利用深度学习方法的潜在优点是可以识别和使用可能不是显而易见的或人不可操作的关系。

这些特征可以由预测模型模块18合成到通用鉴别滤波器中。在一个实施方案中，深度学习技术可以适于应用于数据以描述例如配体与蛋白质之间的几何关系。

因此，预测模型模块18的操作可以产生比历史上用于进行结合亲和力预测的特征更为复杂的特征。例如，用作氢键检测器的特征可能不仅能够辨别氢键供体和受体处于给定距离和给定角度，而且能够辨别供体和受体周围的生化环境是强化键还是弱化键。另外，系统衍生出来的检测器可以是在基础数据中就能有效地区分结合物与非结合物的那些。

在一个实施方案中，预测模型模块18可以被配置来适应动态生物系统，诸如，蛋白质和配体两者移动时都可能碰到的替代位置。在这种蛋白质-配体复合物中，可以采纳多种不同的构型，其中相对比例是基于每个形状的自由能的玻尔兹曼分布。蛋白质-配体复合物的自由能的焓和熵分量可以取决于分子所采纳的姿态(ΔG＝ΔH-TΔS)。可以发现最终结合亲和力是复合物可用的姿态组的能量的加权平均的函数。为了对这种物理现象建模，预测模型模块18可以被配置来对因配体和蛋白质运动所致的大量替代位置采样，并且使得其结合亲和力预测是基于复合物的这组采样的构型。

在一个实施方案中，在实施深度神经网络的情况下，预测模型模块18可以被配置来训练深度神经网络以接收几何数据输入并且输出对给定配体是否结合至蛋白质靶标的预测(概率)。深度神经网络可以包含一组函数计算元素。这些函数计算元素可以是特征检测器。在一个实施方案中，所述系统可以被配置来利用函数计算元素，所述函数计算元素通过权重参数来调整它们的每一个输入，对结果求和，添加偏差并且将激活函数应用于结果。

用于神经网络的激活函数的实例可以包括但不限于对数(或双弯曲)、softmax、高斯、玻尔兹曼加权平均、绝对值、线性、修正线性、有界修正线性、软修正线性、参数化修正线性、平均、最大、最小、某种向量范数LP(其中p＝1，2，3，...，∞)、符号、平方、平方根、多元二次、逆二次、逆多元二次、多谐曲线以及薄板样条。

函数计算元素的输入可以是对感受野的体素通道的激活。

函数还可以是级联的，其中一些函数计算元素的输出用作其他函数计算元素的输入。采用相同输入的函数计算元素的子集可以被称为“层”。

零个或更多个层可以组成卷积滤波器。卷积滤波器层(或“特征图”)是一组函数计算元素，所述函数计算元素中的每一个将空间上连续的体素的区域或卷积函数作为输入。

可以选择所述组来覆盖感受野。给定卷积层中的每个函数的参数权重(以及任选地偏差)可以绑定在一起，即限制成是相同的。由于函数在感受野的不同位置处计算相同输出，因此甚至是在X、Y和Z坐标平移之后，卷积层都可能能够检测局部输入图案。

在一个实施方案中，预测模型模块18可以被配置来开发三维卷积层。最低层卷积层的输入区域可以是来自感受野的体素通道的立方体(或其他连续区域)。较高卷积层还可以考虑来自较低卷积层的输出，同时仍然使它们的输出成为靠近(在3-D欧几里得距离方面)的体素的有界区域的函数。

生物活性在旋转以及平移下可能是不变的，因此预测模型模块18可以任选地被配置来产生利用空间划分的旋转对称性的旋转特征图。例如，如果系统被配置来使用立方体来划分输入数据，所述系统可以被配置来通过在90度旋转之后将函数计算的权重绑定在一起来产生旋转特征图。

可以考虑顺时针旋转的立方体来说明：一个滤波器上面的权重变得绑定至不同的滤波器的右面的权重；换言之，可以将权重限制成是相同的。旋转可以通过针对XY/XZ/YZ三个平面中的每一个顺时针旋转90度、180度、270度来产生24个特征图。这种布置将参数的数目减少至无旋转权重绑定情况的1/24，因为在不存在权重绑定的情况下，每个滤波器都具有其自身的权重。

作为一个替代性实例，如果所述系统被配置来使用其他多面体来划分输入数据，所述系统可以被配置来使用其他旋转来取得对于它们的对称性群而言适当的等距同构。例如，在空间已经使用平截八面体划分的情况下，将存在3条90度旋转对称的轴、4条120度旋转对称的轴和6条180度对称的轴。

在一个实施方案中，预测模型模块18可以被配置来应用正则化技术以从模型去除伪影，这可以降低复杂性以及减少取向对模型分析的影响所要求的处理负载，从而降低处于特定位置的元素的重要性。

零个或更多个神经网络层可以组成池化层(pooling layer)。如同在卷积层中一样，池化层是一组函数计算，所述函数计算针对不同的空间局部输入补丁应用相同的函数。对于池化层，在若干体素上，输出由池化算子给出，例如，某种向量范数LP，其中p＝1，2，3，...，∞。池化典型地是在每个通道上，而不是在多个通道上进行。

零个或更多个层可以组成归一化层，诸如局部响应归一化或局部对比度归一化，所述归一化层可以在多个通道上在相同位置处应用或者在特定通道上在若干位置处应用。这些归一化层可以鼓励若干函数计算对相同输入的响应的多样性。

在一个实施方案中，预测模型模块18可以被配置成使得函数计算的子集的输出可以被提供到分类系统中。可以应用完全连接的单层或多层感知器，但是也可以应用其他分类器诸如支持向量机、随机森林、最近邻等。优选地，分类器指定指示将输入分类为各种输出分类的强度(或置信度或概率)的数值评分。在一些情况下，分类是结合物和非结合物，或者可替代地，效力水平(效力＜1摩尔、＜1毫摩尔、＜100微摩尔、＜10微摩尔、＜1微摩尔、＜100纳摩尔、＜10纳摩尔、＜1纳摩尔)。

可能已经将几何数据姿态分组为训练实例。为了将所有例子立刻呈现在一个实例中可能要求过高的输入字段(即，输入字段的大小等于体素数目*通道数目*姿态数目)。

作为潜在解决方案，可以向神经网络单独呈现实例中的每个例子，并且每个例子的分类评分可以组合在一起以产生对整个实例的最终评分。

在一个实施方案中，在分类器输出是数值的情况下，可以使用上述任何激活函数来组合输出。

在一个实施方案中，在分类器输出不是数值的情况下，预测模型模块18可以被配置来使用各种集成投票策略来组合输出，所述投票策略作为说明性的非限制性实例可以包括多数投票法、加权平均法、孔多赛法、Borda计数法等等。

在一个实施方案中，所述系统可以被配置来应用预测模型的集合体，例如以产生结合亲和力的指示符。

将预测模型应用于结合亲和力预测

在预测模型模块18内开发预测模型之后，分析器10之后可以从一个或多个数据库12和/或一个或多个远程系统13接收输入，即描述选择来利用预测模型进行分析的蛋白质靶标的一个或多个数据集。来自数据库12的输入可以包括有待分析的一组分子。

分析器10之后可以将预测模型应用于所接收的信息，并且分析器10可以返回一个或多个输出。从系统提供的输出可以变化，并且范围可以是从数值评分到选自有待分析的分子组的分子列表，所述分子组具有大于预定阈值的评分。输出可以是一种或多种分子对一种或多种靶蛋白(或蛋白质类型)的结合亲和力的指示符，例如，在给出特定蛋白质或蛋白质类型时，分子为活性的或非活性的评分和/或概率。

在一个实施方案中，评分的最终解释可以是基于单独数值评分，或分子评分相对于预定活性和非活性分子的评分在排名列表中的位置。

训练预测模型

深度学习技术可以具有训练步骤28来随时间提高预测的准确性。

在一个实施方案中，在深度学习技术利用如上所述的神经网络的情况下，预测模型模块18可以被配置来训练预测模型以通过修改函数计算中的权重和偏差来提高其预测的准确性。可以将历史权重和预测准确性存储在算法库16中和/或从其存取。可以进一步利用正则化诸如L1、L2、权重衰减以及丢弃法(dropout)的各种形式来限制参数。

在一个实施方案中，预测模型模块18可以被配置来调节权重以使用对比散度算法通过蚕食、分层、生成性预训练来对训练数据的输入分布进行建模。

在一个实施方案中，预测模型模块18在训练数据被标记的情况下可以调节权重以潜在地最小化模型的预测结合亲和力和/或分类与训练数据的记录结合亲和力和/或分类之间的误差。各种方法可以用于最小化误差函数，诸如梯度下降法，所述方法可以包括但不限于对数损失、平方和误差、铰链损失方法。这些方法可以包括二阶法或近似法诸如动量近似法、Hessian-free估计法、Nesterov加速梯度法、adagrad等。还可以将未标记生成性预训练和标记判别训练组合。

本发明系统和方法可以在各个实施方案中实践。合适配置的计算机装置和相关联的通信网络、装置、软件以及固件可以为实现如上所述的一个或多个实施方案提供平台。举例来说，图11示出了示例性计算机装置1100，所述示例计算机装置1100可以包括中央处理单元(“CPU”)1102，所述中央处理单元1102连接至存储单元1104和随机存取存储器1106。CPU 1102可以处理操作系统1101、应用程序1103和数据1123。如可能要求的，操作系统1101、应用程序1103和数据1123可以存储在存储单元1104并且加载到存储器1106中。计算机装置1100还可以包括图形处理单元(GPU)1122，所述图形处理单元1122操作性地连接至CPU 1102和存储器1106以分担CPU 1102的密集型数据处理计算并且与CPU 1102并行地运行这些计算。操作者1107可以使用以下各项来与计算机装置1100交互：通过视频接口1105连接的视频显示器1108、以及通过I/O接口1109连接的各种输入/输出装置，诸如键盘1115、鼠标1112和磁盘驱动器或固态驱动器1114。以已知的方式，鼠标1112可以被配置来控制光标在视频显示器1108中的移动，并且利用鼠标按钮来操作视频显示器1108中出现的各种图形用户界面(GUI)控件。磁盘驱动器或固态驱动器1114可以被配置来接受计算机可读介质1116。计算机装置1100可以通过网络接口1111来形成网络的一部分，从而允许计算机装置1100与其他适当配置的数据处理系统(未示出)通信。一个或多个不同类型的传感器1135可以用于从各种来源接收输入。

本发明系统和方法可以在几乎任何形式的计算机装置上实践，所述计算机装置包括台式计算机、膝上型计算机、平板计算机或无线手持装置。本发明系统和方法还可以被实施为计算机可读/可用介质，所述介质包括计算机程序代码以使得一个或多个计算机装置能够实施本文公开的各种处理步骤中的每一个。在超过一个计算机装置执行整体操作的情况下，将计算机装置联网以分配操作的各个步骤。应理解，术语计算机可读介质或计算机可用介质包括程序代码的任何类型物理实施方案的一个或多个。具体而言，计算机可读/可用介质可以包括体现于以下各项的程序代码：一种或多种便携式存储制品(例如，光盘、磁盘、磁带等)；为计算装置的一部分的一种或多种数据存储体，诸如与计算机和/或存储系统相关联的存储器。

可以针对任何移动平台，包括iOS^TM平台、ANDROID^TM、WINDOWS^TM或BLACKBERRY^TM实施所描述的功能性。

示例性使用情况

以下是仅出于说明性目的而提供的描述一些实施方案的一些应用的示例性使用情况。可以考虑其他用途，并且以下提供的实例是非限制性的且可能会有变化、省略或可以含有附加元素。

虽然以下每个实例说明了结合亲和力预测，但是可以发现所述实例在以下各个方面存在差异：预测是针对单一分子、一组分子还是针对一系列重复修饰的分子进行；预测是针对单一靶标还是针对许多靶标进行；对靶标的活性是需要的还是要避免的；以及重要量是绝对活性还是相对活性；或者分子或靶标组是否是特异选择的(例如，对于分子，选择为是现有药物或农药；对于蛋白质，选择具有已知的毒性或副作用)。

命中发现：为了发现新的有前景的药物前导物，制药公司花费数百万美元来筛选化合物。对大的化合物集合进行测试以找出少量与所关注的疾病靶标具有任何相互作用的化合物。不幸的是，湿实验室筛选存在实验误差，并且除了用于执行测定实验的成本和时间之外，较大筛选集合的收集因存储限制、储存稳定性或化学成本而带来了重大挑战。即使是最大的制药公司也仅具有数十万到数百万种化合物对数千万可商购的分子和数亿可模拟的分子。

物理实验的潜在地更为有效的替代方案是虚拟高通量筛选。如同物理学模拟可以帮助航空航天工程师在物理测试模型之前评价可能的机翼设计一样，分子的计算筛选可以将实验测试聚焦于小的高可能性分子的子集。这可以降低筛选成本和时间，减少假阴性，提高成功率和/或覆盖更广泛范围的化学空间。

在这个应用中，蛋白质靶标可以被提供为系统的输入。还可以提供一大组分子。预测每种分子对蛋白质靶标的结合亲和力。所得评分可以用于对分子排名，其中最佳评分分子最有可能结合靶标蛋白质。任选地，可以分析分子排名列表中的类似分子簇；大簇可以用作对分子结合的更强预测，或者可以选择簇中的分子以确保证实性实验的多样性。

脱靶副作用预测：可以发现许多药物具有副作用。这些副作用往往归因于与除了负责药物的治疗作用的生物途径之外的生物途径发生相互作用。这些脱靶副作用可能是不适的或危险的，并且限制了其中药物使用是安全的患者群体。脱靶副作用因此是评价要进一步开发哪种候选药物所依据的重要标准。虽然对于表征药物与许多替代生物靶标的相互作用而言是非常重要的，但是这类测试的开发和运行可能会既费钱又费时。计算预测可以使这个过程更为有效。

在应用一个实施方案的过程中，可以构建与重要的生物反应和/或副作用相关联的一组生物靶标。所述系统之后可以被配置来依次预测针对组内每种蛋白质的结合。对特定靶标的强活性(即，活性与已知活化脱靶蛋白质的化合物一样有效)可以暗示分子会因脱靶效应而产生副作用。

毒性预测：毒性预测是脱靶副作用预测中特别重要的特殊情况。大约一半的候选药物在后期临床试验中都会因不可接受的毒性而宣告失败。作为新药批准过程的一部分(以及在可以在人体内测试候选药物之前)，FDA要求针对包括以下各项的一组靶标的毒性测试数据：细胞色素P450肝酶(抑制其可能会因药物-药物相互作用而产生毒性)或hERG通道(结合其可能会导致QT延长，从而导致室性心律失常和其他心脏副作用)。

在毒性预测中，所述系统可以被配置来将脱靶蛋白限制于关键抗靶标(例如，CYP450、hERG或5-HT_2B受体)。之后可以预测候选药物对这些蛋白质的结合亲和力。任选地，可以分析分子以预测一组代谢物(身体在原始分子的代谢/降解过程中产生的后续分子)，也可以分析所述代谢物对抗靶标的结合。可以识别和修饰有问题的分子以避免毒性或者可以停止关于分子系列的开发，以避免浪费额外的资源。

效力优化：候选药物的关键要求之一是对其疾病靶标的强结合。筛选当中很少会发现结合强到足以变为临床有效的化合物。因此，初始化合物成熟需要很长的优化过程，在此过程中，药物化学工作者重复地修饰分子结构以提出靶标结合强度增加的新分子。合成和测试每一种新分子以确定改变是否成功改善了结合。所述系统可以被配置来通过利用计算预测替换物理测试来促进这个过程。

在这个应用中，可以将疾病靶标和一组前导分子输入到系统中。所述系统可以被配置来针对前导物组产生结合亲和力预测。任选地，所述系统可以突出可以帮助解释预测的结合亲和力存在差异的原因的候选分子之间的差异。医药化学工作者用户可以使用这个信息来提出针对靶标有可能具有提高的活性的一组新分子。可以按相同的方式分析这些新的替代分子。

选择性优化：如上所述，分子倾向于以多种强度结合大量蛋白质。例如，蛋白激酶(其为比较普及的化疗靶标)的结合口袋是非常类似的，并且大多数激酶抑制剂会影响许多不同的激酶。这意味着各种生物途径被同时修改，从而产生“污染的”药物特征和许多副作用。许多药物设计的关键挑战因此不是活性本身而是特异性：选择性地靶向一组可能接近的相关蛋白质当中的一种蛋白质(或蛋白质的子集)的能力。

我们的系统可以减少优化候选药物的选择性的时间和成本。在这个应用中，用户可以输入两组蛋白质。一组描述化合物针对其应该有活性的蛋白质，而另一组化合物针对其应该物活性的蛋白质。所述系统可以被配置来对分子针对两组中的所有蛋白质的结合亲和力进行预测，从而建立相互作用强度的分布图。任选地，可以分析这些分布图以提出解释性的蛋白质的模式。用户可以使用系统产生的信息来考虑对分子的结构修饰，所述结构修饰会提高与不同蛋白质组的相对结合；并且设计具有更好的特异性的新的候选分子。任选地，所述系统可以被配置来突出可以帮助解释预测的选择性存在差异的原因的候选分子之间的差异。可以重复地分析所提出的候选物，以进一步精化其活性特征中的特异性。

用于自动化分子设计的拟合函数：用于执行先前优化的自动化工具是昂贵的。成功的分子要求优化以及效力、选择性与毒性之间的平衡。“骨架迁越”(在保留前导化合物的活性，但是显著改变化学结构的情况下)可以产生改进的药物代谢动力学、药效学、毒性或知识产权特征。存在用于重复提出新分子的算法，诸如随机产生分子、用于填充给定结合位点的分子片段生长、用于使分子群体“突变”和“杂交”的遗传算法以及利用生物等排替换来交换分子片段。通过这些方法中的每一种产生的候选药物必须针对上述多个目的(效力、选择性、毒性)进行评价，并且如同技术可以具有关于先前手动设定(结合预测、选择性、副作用以及毒性预测)中的每一种的信息一样，这可以结合在自动化分子设计系统中。

药物再利用：所有药物都具有副作用，并且这些副作用有时是有益的。最为人熟知的实例可能是阿司匹林，它通常用作头痛治疗，但是也能出于心血管健康目的来服用。药物重定位可以显著降低成本、时间和药物发现风险，因为已经显示药物在人体内是安全的，并且已经针对患者体内的快速吸收和良好稳定性优化了药物。不幸的是，药物重定位在很大程度上是偶发性的。例如，西地那非(Viagra)被开发作为高血压药物，却意外地发现它能有效治疗勃起机能障碍。脱靶效应的计算预测可以在药物重定位的背景下使用来识别可以用于治疗替代疾病的化合物。

在这个应用中，如同在脱靶副作用预测中一样，用户可以组装一组可能的靶蛋白，其中将每一种蛋白质与一种疾病相联系。也就是说，抑制每一种蛋白质将治疗一种(可能不同的)疾病；例如，环加氧酶-2的抑制剂可以缓解炎症，而凝血因子Xa的抑制剂可以用作抗凝血药。这些蛋白质注释具有批准药物的结合亲和力，如果存在的话。我们之后组装一组分子，从而将所述分子组限制于已经批准或研究用于在人体内使用的分子。最终，针对每对蛋白质和分子，用户可以使用系统来预测结合亲和力。如果预测的分子的结合亲和力接近有效药物对蛋白质的结合亲和力，可以识别用于药物重定位的候选物。

药物抗性预测：药物抗性是药物使用的不可避免的结果，这会给快速分裂和突变的病原体群体带来选择压力。药物抗性在这类不同疾病试剂中被视作是病毒(HIV)、外来微生物(MRSA)和失调宿主细胞(癌症)。随时间的推移，给定药品将会失效，而不管药品是抗生素还是化疗。到那时，介入可以改为不同的可能仍然有效力的药品。在HIV中，在患者接受治疗时，存在熟知的通过病毒因突变而累积来定义的疾病发展途径。

对预测疾病物质如何适应于医疗介入存在相当大的兴趣。一种方法是表征在接受治疗时疾病物质中会发生哪种突变。确切地说，药品的蛋白质靶标需要发生突变以便于避免结合药物，与此同时继续结合其天然底物。

在这个应用中，可以提出靶蛋白中一组可能的突变。对于每种突变，可以预测所得蛋白质形状。针对这些突变蛋白形式中的每一种，所述系统可以被配置来预测它们对天然底物和药物两者的结合亲和力。使得蛋白质不再结合药物而是继续结合天然底物的突变是赋予药物抗性的候选物。这些突变蛋白可以用作设计药物所依据的靶标，例如通过将这些蛋白质用作这些其他预测使用情况之一的输入。

个体化药品：不应该施用无效的药品。除了成本和麻烦之外，所有药品都还具有副作用。只有在益处超过这些伤害的情况下，道德和经济考虑才会让给予药品变得势在必行。能够在药品将会有用时进行预测可能是重要的。人与人之间由于少数突变而存在差异。然而，较少的突变可能会具有深远的影响。当这些突变出现在疾病靶标的活性(正立体)位点或调节(变构)位点时，它们会阻止药物结合，并且因此阻断药品的活性。当已知(或预测出)特定的人的蛋白质结构时，所述系统可以被配置来预测药物是否将是有效的，或者所述系统可以被配置来预测药物将何时不起作用。

对于这种应用，所述系统可以被配置来将药物的化学结构和特定患者的特定表达蛋白接收作为输入。所述系统可以被配置来预测药物与蛋白质之间的结合，并且如果药物对特定患者的蛋白质结构的预测的结合亲和力太弱以至于无法在临床上有效，临床医生或从业者可以阻止所述药物被无益地开为患者处方。

药物试验设计：本申请将以上个体化药品使用情况推广到患者群体情况。在所述系统可以预测药物是否将有效用于特定患者表型时，这个信息可以用于帮助设计临床试验。通过排除其特定疾病靶标不会受到药物充分影响的患者，临床试验可以使用少数患者来实现统计功效。少数患者直接降低了临床试验的成本和复杂性。

对于这种应用，用户可以将可能的患者群体分割为通过不同蛋白质(归因于例如突变或同工型)的表达来表征的子群体。所述系统可以被配置来预测候选药物对不同蛋白质类型的结合强度。如果对特定蛋白质类型预测的结合强度指示下降到临床可实现患者体内浓度以下的必要药物浓度(如基于例如测试管的物理表征、动物模型或健康志愿者)，那么针对所述蛋白质子群体，预测候选药物会失效。之后可以将具有所述蛋白质的患者从药物试验中排除。

农业化学设计：除了药物应用之外，农业化学工业还将结合预测用在新农药的设计当中。例如，有关农药的一个迫切愿望是它们能在不会不利地影响任何其他物种的情况下杀死所关注的单一物种。对于生态安全，人们可能会希望杀死象鼻虫而不是杀死大黄蜂。

对于这种应用，用户可以将来自考虑当中的不同物种的一组蛋白质结构输入到系统中。蛋白质的子集可以规定为是分子对其应具有活性的蛋白质，而其余部分将规定为是分子对其应不具有活性的蛋白质。正如前文使用情况一样，针对每个靶标，将考虑某一组分子(无论是处于现存数据库中还是重新产生)，并且所述系统将返回对第一组蛋白质具有最大效用而避让第二组蛋白质的分子。

材料科学：为了预测新材料的行为和特性，分析分子相互作用可能是有用的。例如，为了研究溶剂化，用户可以输入给定小分子的重复晶体结构，并且评定小分子的另一个例子在晶体表面上的结合亲和力。为了研究聚合物强度，可以按与蛋白质靶标结构相似的方式输入一组聚合物链，并且可以将聚合物的低聚物输入作为小分子。聚合物链之间的结合亲和力因此可以通过所述系统来预测。

在一个特定实例中，所述系统可以用于通过例如预测氢键和pi键堆栈的强度来预测材料诸如Kevlar的强度。因此，如本文公开的结合亲和力预测可以用于促进改良型材料诸如Kevlar的开发。

模拟：模拟器经常测量分子对蛋白质的结合亲和力，因为分子待在蛋白质区域中的倾向与其在彼处的结合亲和力相关。对制约结合的特征的准确描述可以用于识别具有特别高或低结合能的区域和姿态。可以将能描述调入到蒙特卡罗模拟中以描述分子运动和蛋白质结合区域的占用率。类似地，用于研究系统生物学和对其建模的随机模拟器可以受益于对分子浓度的较小变化如何影响生物网络的准确预测。

总则

如本领域技术人员将了解，在不脱离本发明的范围的情况下，还可以实践本文描述的实施方案的其他变型。其他修饰因此是可能的。

在另外的方面，本公开提供系统、装置、方法和用于实施这类方法并实现前文描述的功能性的计算机编程产品，所述计算机编程产品包括非暂态机器可读指令集。

虽然已经用一定程度的具体性以示例性形式描述和说明了本公开，但是应注意到，描述和说明仅通过举例来进行。可以作出结构细节以及部件和步骤的组合和布置方面的许多变化。因此，这类变化被包括在本发明中，本发明的范围由权利要求书限定。

除非达到明确陈述或所描述的过程(包括其任何任选步骤或部件)本身固有的程度，否则并不意味着或暗示需要次序、顺序或组合。如相关领域技术人员将理解，关于本文描述的过程和任何系统、装置等，广泛范围的变化是可能的，并且在不同情况下甚至是有利的，而不会脱离本发明的将仅由权利要求书限制的范围。

Claims

1.一种用于预测一个分子对一个蛋白质的结合亲和力的系统，所述系统包括：

至少一个电子数据存储体(12)，其被配置来存储反映输入数据的记录；

数据编码器模块(14)，其配置来执行包括以下的方法：

从至少一个电子数据存储体(12)中存储的输入数据构建数据结构，所述数据结构提供对结合输入特征的几何表示，其中所述构建包括：

通过经由应用一个或多个预先限定的存储的输入数据的变换产生附加的存储的输入数据的例子来扩充存储的输入数据，其中所述一个或多个预先限定的存储的输入数据的变换包括所述存储的输入数据的X、Y和Z三个平面的任何组合的旋转、平移和镜像算子的某一组合，因此产生几何数据，以及

修剪几何数据中的所述存储的输入数据的实例以处在包围盒内，以及

通过编码与所述一种分子和所述一种在几何数据中的靶蛋白相关的数据来填充所述数据结构，以使用于编码的所述数据的实例处在包围盒内：

划分存储的输入数据的实例成体素网格以处在几何数据的包围盒内，通过使用产生整数个体素的间隔将处在包围盒内的存储的输入数据的实例转换成一组离散规律的立方体体素中，其中，在每个体素网格中的每个体素包括一个或多个输入通道，其编码由每个体素网格中的每个体素表示的原子种类；以及

预测模型模块(18)，其被配置来：

将预测模型应用于所述数据结构以产生所述一种分子对由所述数据表示的所述一种靶蛋白的结合亲和力的指示符，其中

所述预测模型为深度神经网络或卷积神经网络，其包括卷积滤波器，所述卷积滤波器包括一组函数计算元素，所述函数计算元素中的每一个将空间上连续的体素的区域作为输入，所述连续的体素的区域来自于在所述数据结构或卷积函数中的各自体素网格，以及

所述结合亲和力的指示符为预测模型的输出。

2.如权利要求1所述的系统，其中所述几何表示包括原子中心的多个坐标。

3.如权利要求2所述的系统，其中所述几何表示具有介于与之间的分辨率。

4.如权利要求3所述的系统，其中所述几何表示具有的分辨率。

5.如权利要求1至4中任一项所述的系统，其中所述预测模型模块(18)被配置来在一段时间内训练(28)所述预测模型模块。

6.如权利要求1至4中任一项所述的系统，其中反映所述输入数据的记录包括反映与以下各项中的至少一项相关的输入数据的记录：原子、配体分子、有机辅因子、无机辅因子、和蛋白质。

7.如权利要求1至4中任一项所述的系统，其中所述一个或多个输入通道为多个输入通道，并且其中所述多个输入通道进一步包括部分电荷、极化性、电负性、溶剂可接近空间以及由在每个体素网格中的每个体素所表示的电子密度的输入通道。

8.如权利要求1至4中任一项所述的系统，其中由在每个体素网格中的每个体素所表示的所述原子只部分地填充所述每个体素，并且所述在一个或多个输入通道中编码由每个体素表示的原子类型的输入通道与所述原子的量成比例地部分打开，所述原子由每个体素代表并占据每个体素。

9.如权利要求1至4中任一项所述的系统，其中多于一种类型的原子在一个或多个通道中共享同一通道。

10.一种用于预测结合一种分子对一种靶蛋白的亲和力的计算机实施方法，所述方法包括：

将反映输入数据的记录存储在至少一个电子数据存储体(12)中；

在数据编码器模块(14)中构建来自于在至少一个电子数据存储体(12)中存储的输入数据的数据结构，所述数据结构提供对结合输入特征的几何表示的数据结构，其中所述构建包括：

通过在至少一个处理器中编码与所述一种分子和所述一种在几何数据中的靶蛋白相关的数据来填充所述数据结构，以使用于编码的所述数据的实例处在包围盒内：

至少一个处理器中将预测模型应用于所述数据结构以产生所述一种分子对由所述数据表示的所述一种靶蛋白的结合亲和力的指示符，其中

所述结合亲和力的指示符为预测模型的输出。

11.如权利要求10所述的方法，其中所述几何表示包括原子中心的多个坐标。

12.如权利要求10或11所述的方法，其中所述几何表示具有介于与之间的分辨率。

13.如权利要求10所述的方法，其中所述几何表示具有的分辨率。

14.如权利要求10或11所述的方法，其还包括在一段时间内训练(28)所述预测模型。

15.如权利要求10或11所述的方法，其中所述输入数据记录包括反映与以下各项中的至少一项相关的输入数据的记录：原子、配体分子、有机辅因子、无机辅因子、蛋白质。