CN108140131B - 用于将卷积网络应用于空间数据的系统和方法 - Google Patents

用于将卷积网络应用于空间数据的系统和方法 Download PDF

Info

Publication number
CN108140131B
CN108140131B CN201680057614.0A CN201680057614A CN108140131B CN 108140131 B CN108140131 B CN 108140131B CN 201680057614 A CN201680057614 A CN 201680057614A CN 108140131 B CN108140131 B CN 108140131B
Authority
CN
China
Prior art keywords
computer system
target
test object
binding
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680057614.0A
Other languages
English (en)
Other versions
CN108140131A (zh
Inventor
A·S·海菲兹
I·瓦拉赫
M·迪萨巴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Atomwise Inc
Original Assignee
Atomwise Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/050,983 external-priority patent/US9373059B1/en
Application filed by Atomwise Inc filed Critical Atomwise Inc
Publication of CN108140131A publication Critical patent/CN108140131A/zh
Application granted granted Critical
Publication of CN108140131B publication Critical patent/CN108140131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Physiology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

提供了用于测试对象归类的系统和方法,其中所述测试对象以多个不同姿势与靶标对象对接以形成体素图。所述图被向量化并馈送到卷积神经网络中,所述卷积神经网络包括输入层、多个单独加权的卷积层以及输出评分器。所述卷积层包括初始层和最终层。响应于向量化输入,所述输入层将值馈送到所述初始卷积层中。除了所述最终卷积层之外的每个相应卷积层都将作为所权重和所述相应卷积层的所述输入值的函数的中间值馈送到所述卷积层中的另一个中。所述最终卷积层将值馈送到一个或多个完全连接层中作为所述最终层权重和输入值的函数。所述一个或多个完全连接层将值馈送到所述评分器中,所述评分器对每个输入向量进行评分,从而对所述测试对象进行归类。

Description

用于将卷积网络应用于空间数据的系统和方法
相关申请的交叉引用
本申请要求于2016年6月20日提交的题为“Systems and Methods for Applyinga Convolutional Network to Spatial Data”的美国申请第15/187,018号的优先权,所述申请是于2016年2月23日提交的题为“Systems and Methods for Applying aConvolutional Network to Spatial Data”的美国专利第9,373,059号的继续申请,它们中的每一个特此通过引用并入。本申请还要求于2015年10月4日提交的题为“DeepConvolutional Neural Network for Bioactivity Prediction in Structure-BasedDiscovery”的美国临时专利申请第62/236,962号的优先权,所述申请特此通过引用并入。
技术领域
以下总体涉及将卷积神经网络应用于空间数据。
背景技术
检测测试对象对接到靶标对象上(复合物)的三维空间数据内影响这种对接的结构基序是重要的模式识别任务,并且具有广泛的应用,包括但不限于预测测试对象对靶标对象的亲和力。同时,三维空间数据的准确性的不确定性以及测试对象结合到靶标对象的方式的不确定性阻碍了对这类结构基序的检测。例如,测试对象与靶标对象之间的给定相互作用可能受所涉及的距离、角度、原子类型、电荷和极化以及周围的稳定或去稳定环境因素影响。
现有技术包括(i)基于知识的、(ii)经验性的、或(iii)包括基于力场的评分函数的系统和方法。基于知识的特征通常由对复合物中原子或官能团对分离给定距离的次数的计数组成。由于这些特征很简单(分离一定距离的两个点),所以它们不能捕获上述影响因素的复杂集合。经验性评分函数使一组相对重要性权重适合小数量(数十个)手工设计的特征,诸如可旋转键的数目、氢键供体-受体对、芳香堆栈、静电、空间互补性或应变、或溶剂可及的疏水区域。这些特征的开发需要专业知识和大量的手动调整,但是任何这样的特征都必然是一个有限的逼近,因为如以上所讨论,不能始终如一地解开控制测试对象和靶标对象之间的相互作用的力。基于力场的评分函数被设计成是在计算上有效的,这需要对来自气相预测的理论结果的逼近。例如,这类系统忽略或粗略地逼近溶剂对场强的重要调节。
鉴于以上背景,需要一种解决方案,其能够提供对复合物的三维空间数据内影响测试对象到靶标对象上的对接的结构基序的更精确和/或更有效的检测。
发明内容
提供用于测试对象归类的系统和方法,其中用靶标对象以多个不同姿势对测试对象进行建模以形成体素图。所述体素图被向量化并且顺序地馈送到卷积神经网络中。所述卷积神经网络包括输入层、多个单独加权的顺序连接的卷积层以及输出评分器。所述卷积层包括初始层和最终层。响应于向量化输入,所述输入层将值馈送到所述初始卷积层中。除了所述最终卷积层之外的每个相应卷积层都将作为所述相应卷积层的权重和所述相应卷积层的所述输入值的函数的中间值馈送到所述卷积层中的另一个中。所述最终卷积层将值输入到所述评分器中作为所述最终层权重和输入值的函数。通过这种方式,所述评分器对每个输入向量进行评分,并且这些评分集体地用于表征所述测试对象。
本公开的一个方面提供一种用于使用空间数据表征测试对象的计算机系统。所述计算机系统包括至少一个通用处理器和可由所述至少一个通用处理器寻址的通用存储器。所述通用存储器存储用于由所述至少一个通用处理器执行的至少一个程序。所述至少一个程序包括用于获得靶标对象的空间坐标的指令。所述至少一个程序还包括用于以多个不同姿势的每个姿势用所述靶标对象对所述测试对象进行建模、从而创建多个体素图的指令。所述多个体素图中的每个相应体素图包括处于所述多个不同姿势中的相应姿势的所述测试对象。
所述至少一个程序还包括用于将所述多个体素图中的每个体素图展开成对应向量、从而创建多个向量的指令。在一些实施方案中,所述多个向量中的每个向量具有相同的大小。
在一些实施方案中,所述多个向量中的每个相应向量被输入到网络架构中,所述网络架构包括(i)用于顺序地接收所述多个向量的输入层、(ii)多个卷积层以及(iii)评分器。所述多个卷积层包括初始卷积层和最终卷积层。所述多个卷积层中的每个层都与不同的一组权重相关联。响应于所述多个向量中的相应向量的输入,所述输入层将第一多个值馈送到所述初始卷积层中作为所述相应向量中的值的第一函数。除了所述最终卷积层之外的每个相应卷积层都将作为(i)与所述相应卷积层相关联的所述不同的一组权重以及(ii)由所述相应卷积层接收的输入值的相应第二函数的中间值馈送到所述多个卷积层中的另一个卷积层中。所述最终卷积层将作为(i)与所述最终卷积层相关联的所述不同的一组权重和(ii)由所述最终卷积层接收的输入值的第三函数的最终值馈送到所述评分器中。
所述至少一个程序还包括用于从所述评分器获得多个评分的指令,其中所述多个评分中的每个评分对应于所述多个向量中的向量到所述输入层中的所述输入。所述至少一个程序还包括用于使用所述多个评分来提供所述测试对象的表征的指令。
在一些实施方案中,所述评分器包括多个完全连接层和评估层。此外,所述多个完全连接层中的完全连接层馈送到所述评估层中。
在一些实施方案中,所述评分器包括决策树、多重累加回归树、聚类算法、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、进化法、投影寻踪以及其集合。
在一些实施方案中,所述多个向量中的每个向量是一维向量。
在一些实施方案中,所述多个不同姿势包括2个或更多个姿势、10个或更多个姿势、100个或更多个姿势或者1000个或更多个姿势。
在一些实施方案中,所述多个不同姿势在markup链Monte Carlo取样、模拟退火、Lamarckian遗传算法或遗传算法之一中使用对接评分函数来获得。
在一些实施方案中,所述多个不同姿势使用贪婪算法通过增量搜索来获得。
在一些实施方案中,所述靶标对象是聚合物(例如,蛋白质、多肽、多核酸、多核糖核酸、多糖或其任何组合的组合体)。
在一些实施方案中,所述靶标对象是聚合物,并且所述空间坐标是聚合物在
Figure GDA0003080192140000031
或更好的分辨率或
Figure GDA0003080192140000032
或更好的分辨率下分辨的晶体结构的一组三维坐标{x1,…,x N}。
在一些实施方案中,所述靶标对象是聚合物,并且所述空间坐标是所述聚合物的通过核磁共振、中子衍射或低温电子显微镜法确定的三维坐标的集合。
在一些实施方案中,所述测试对象是化学化合物,并且使用所述多个评分来表征所述测试对象包括取所述多个评分的集中趋势的量度。在一些这样的实施方案中:当所述集中趋势的所述量度满足预定阈值或预定阈值范围时,所述表征包括认为所述测试对象具有第一归类,并且当所述集中趋势的所述量度不满足所述预定阈值或所述预定阈值范围时,所述表征包括认为所述测试对象具有第二归类。在一些这样的实施方案中,所述第一归类是所述测试对象对宿主生物体无毒的确定,并且所述第二归类是所述测试对象对所述宿主生物体有毒的确定。在一些这样的实施方案中,所述第一归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到分子疾病靶标的预测,并且所述第二归类是所述测试对象以高于所述第一结合值的IC50、EC50、Kd或KI结合到所述分子疾病靶标的预测。在一些这样的实施方案中,所述第一归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到第一分子疾病靶标并且所述测试对象以高于所述第一结合值的IC50、EC50、Kd或KI结合到第二分子疾病靶标的预测,并且所述第二归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到第一分子疾病靶标并且所述测试对象以低于所述第一个结合值的IC50、EC50、Kd或KI结合到第二分子疾病靶标的预测。在一些这样的实施方案中,所述第一结合值是一微摩尔。在一些这样的实施方案中,所述第一结合值是十微摩尔。
在一些实施方案中,所述使用所述多个评分来表征所述测试对象包括取所述多个评分的加权平均值,其中当所述加权平均值满足预定阈值或预定阈值范围时,所述测试对象被认为具有第一归类,并且当所述加权平均值不满足所述预定阈值或所述预定阈值范围时,所述测试对象被认为具有第二归类。在一些这样的实施方案中,所述加权平均值是所述多个评分的玻尔兹曼平均值(Boltzman)。在一些这样的实施方案中,所述第一归类是所述测试对象相对于所述靶标对象的高于第一结合值的IC50、EC50、Kd或KI,并且所述第二归类是所述测试对象相对于所述靶标对象的低于所述第一结合值的IC50、EC50、Kd或KI。在一些这样的实施方案中,所述第一结合值是一微摩尔。在一些这样的实施方案中,所述第一结合值是十微摩尔。在一些这样的实施方案中,所述第一结合值是不同测试对象相对于所述靶标对象的预测IC50、EC50、Kd或KI。在一些这样的实施方案中,所述第一归类是所述测试对象对宿主生物体无毒的确定,并且所述第二归类是所述测试对象对所述宿主生物体有毒的确定。在一些这样的实施方案中,所述第一归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到第一分子疾病靶标并且所述测试对象以高于所述第一结合值的IC50、EC50、Kd或KI结合到第二分子疾病靶标的预测,并且所述第二归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到第一分子疾病靶标并且所述测试对象以低于所述第一个结合值的IC50、EC50、Kd或KI结合到第二分子疾病靶标的预测(例如,所述第一结合值是一微摩尔或十微摩尔等)。
在一些实施方案中,所述使用所述多个评分来表征所述测试对象包括取所述多个评分的加权平均值,其中当所述加权平均值满足多个阈值范围中的相应阈值范围时,所述测试对象被认为具有多个相应归类中的唯一地对应于所述相应阈值范围的相应归类。在一些这样的实施方案中,所述多个归类中的每个相应归类是所述测试对象相对于所述靶标对象的IC50、EC50、Kd或KI范围。在一些这样的实施方案中,所述多个归类中的第一归类介于一微摩尔与十微摩尔之间。在一些这样的实施方案中,所述多个归类中的第一归类介于一纳摩尔与一百纳摩尔之间。
在一些实施方案中,所述靶标对象是具有活性位点的聚合物,所述测试对象是化学组合物,并且所述建模包括将所述测试对象对接到所述聚合物的所述活性位点中。
在一些实施方案中,所述多个卷积层中的卷积层具有多个滤波器,并且其中所述多个滤波器中的每个滤波器以步幅Y对N3的立方体输入空间进行卷积,其中N是2或更大的整数并且Y是正整数。在一些这样的实施方案中,与所述卷积层相关联的所述不同的一组权重与所述多个滤波器中的相应滤波器相关联。
在一些实施方案中,所述评分器包括多个完全连接层和逻辑回归代价层,其中所述多个完全连接层中的完全连接层馈送到所述逻辑回归代价层中。
在一些实施方案中,所述靶标对象是具有活性位点的聚合物,所述测试对象是化学组合物,所述建模包括执行所述靶标对象和所述测试对象的分子动力学运行,从而形成所述靶标对象和所述测试对象一起随时间推移的轨迹,并且所述多个不同姿势的子集通过在一段时间内拍摄所述轨迹的快照来获得。
在一些实施方案中,所述计算机系统还包括具有图形处理存储器的图形处理单元,其中所述图形处理存储器包括所述网络架构并且执行所述提供(D),并且所述至少一个通用处理器执行所述使用(F)。
在一些实施方案中,所述测试对象的所述表征是所述测试对象的毒性预测。
在一些实施方案中,所述测试对象的所述表征是所述测试对象针对分子疾病靶标的效力的预测。例如,在一些这样的实施方案中,所述效力是所述测试对象针对所述分子疾病靶标的结合亲和力预测。
在一些实施方案中,所述测试对象的所述表征是所述测试对象针对第一分子靶标相对于第二分子靶标的选择性的预测,其中所述第一分子靶标与疾病相关。
在一些实施方案中,所述靶标对象与疾病相关,并且预测通过所述测试对象到所述靶标对象的结合对所述靶标对象的抑制减轻所述疾病。
附图说明
在附图中,通过举例的方式示出本公开的系统和方法的实施方案。应明确理解,描述和附图仅用于说明的目的并且作为对理解的帮助,而不意图作为对本公开的系统和方法的限制的定义。
图1示出根据一些实施方案的将卷积神经网络应用于空间数据的计算机系统。
图2A、2B、2C、2D、2E和2F示出根据一些实施方案的用于将卷积神经网络应用于空间数据的计算机系统和方法。
图3是根据一个实施方案的相对于靶标对象处于两个不同姿势的示例性测试对象的示意图。
图4是根据一个实施方案的呈三维体素网格形式的输入特征的几何表示的示意图。
图5和图6是根据一个实施方案的编码到二维体素网格上的两个对象的视图。
图7是根据一个实施方案的其中体素已经被编号的图6的可视化的视图。
图8是根据一个实施方案的呈原子中心的坐标位置的形式的输入特征的几何表示的示意图。
图9是根据一个实施方案的具有一系列位置的图8的坐标位置的示意图。
图10示出根据一个实施方案的针对AtomNet和Smina的50个ChEMBL-20-PMD靶标的AUC和logAUC值的分布。
图11示出根据一个实施方案的针对AtomNet和Smina的102个DUDE靶标的AUC和logAUC值的分布。
图12示出根据一个实施方案的针对Atom-Net和Smina的149个ChEMBL-20-非活性靶标的AUC和logAUC值的分布。
图13A和13B示出根据一个实施方案的AUC和logAUC测量结果之间相对于早期富集的差异。
图14是根据一个实施方案的将多个函数计算元素(g1,g2,…)应用于体素输入(x1,x2,…,x100)并使用g()将函数计算元素输出组合在一起的描绘。
图15A和15B示出根据一些实施方案的来自第一卷积层的特定滤波器所射击的靶标对象上的三维位置。
贯穿附图的若干视图,相同的附图标号指代对应的部分。
具体实施方式
现在将详细参考实施方案,其实例在附图中示出。在以下详细描述中,阐述许多具体细节以便提供对本公开的充分理解。然而,本领域的普通技术人员将显而易见的是在没有这些具体细节的前体下也可以实施本公开。在其他情况下,众所周知的方法、规程、组件、电路以及网络并未进行详细描述,以便不会不必要地混淆实施方案的方面。
还应了解,尽管在本文中可能使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,在不背离本公开的范围的情况下,第一主题可称为第二主题,并且相似地,第二主题可称为第一主题。第一主题和第二主题均为主题,但是它们不是相同的主题。
本公开中所使用的术语仅用于描述具体实施方案的目的,而不意图限制本发明。除非上下文另外明确指示,否则如本发明的说明书和所附权利要求书中使用的单数形式“一个”、“一种”和“所述”还意图包括复数形式。还将理解,如本文所使用的术语“和/或”指代并且涵盖一个或多个相关联列出项目的任何和所有可能组合。将进一步理解,当在本说明书中使用时,术语“包括(comprises)”和/或“包括(comprising)”规定存在所陈述的特征、整数、步骤、操作、元件和/或组件,但是不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其群组。
如本文所使用的术语“如果”可解释为表示“当……时”或“在……时”或“响应于确定”或“响应于检测到”,这取决于上下文。相似地,短语“如果确定”或“如果检测到[所陈述的条件或事件]”可解释为意指“在确定时”或“响应于确定”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”,这取决于上下文。
本公开提供用于测试对象归类的系统和方法。测试对象以多个不同的能量上可接受的结合模式(称为姿势)与靶标对象对接,以形成相应的多个体素图。靶标对象的实例是具有活性位点的聚合物,并且测试对象的实例是可以或可以不以可观的亲和力与活性位点结合的化合物。在一些实施方案中,体素图被向量化并顺序地馈送到卷积神经网络中。在一些实施方案中,体素图在未进行向量化的情况下被直接顺序地馈送到卷积神经网络中。在一些实施方案中,每个这样的体素图表示测试对象相对于靶标对象的姿势。例如,在一些实施方案中,每个体素图表示在聚合物的活性位点中以不同取向结合的化合物。卷积神经网络包括输入层、多个单独加权的卷积层以及输出评分器。卷积层包括初始层和最终层。响应于输入,输入层将值馈送到初始卷积层。除了所述最终卷积层之外的每个相应卷积层都将作为所述相应卷积层的权重和所述相应卷积层的所述输入值的函数的中间值馈送到所述卷积层中的另一个中。所述最终卷积层将值输入到所述评分器中作为所述最终层的权重和输入值的函数。通过这种方式,评分器对每个输入向量(输入体素)进行评分,并且这些评分集体地用于对测试对象进行归类。在一些实施方案中,评分器针对每个输入向量(或输入体素图)提供单个评分,并且这些评分的加权平均值用于对测试对象进行归类。
图1示出将上述卷积神经网络应用于空间数据的计算机系统100。例如,它可以用作结合亲和力预测系统来生成关于一个或多个测试对象(例如,化合物)与一组一个或多个靶标对象(例如,聚合物)的结合亲和力的精确预测。
参考图1,在典型实施方案中,分析计算机系统100包括一个或多个计算机。为了在图1中示出的目的,分析计算机系统100被表示为包括所公开分析计算机系统100的所有功能性的单个计算机。然而,本公开不限于此。分析计算机系统100的功能性可以跨任何数量的联网计算机散布和/或驻留在若干联网计算机中的每一个上。本领域的技术人员将理解,对于分析计算机系统100来说,许多不同的计算机拓扑结构是可能的,并且所有此类拓扑结构都在本公开的范围内。
考虑到上述情况转向图1,分析计算机系统100包括一个或多个处理单元(CPU)74、网络或其他通信接口84、用户界面(例如,包括显示器82和键盘80或其他形式的输入设备)、存储器92(例如,随机存取存储器)、任选地由一个或多个控制器88访问的一个或多个磁盘存储装置和/或持久性设备、用于互连上述组件的一个或多个通信总线12以及用于为上述组件供电的电源76。存储器92中的数据可以使用已知的计算技术(诸如高速缓存)与非易失性存储器90无缝地共享。存储器92和/或非易失性存储器90可包括相对于中央处理单元74远程定位的大容量存储装置。换句话说,存储在存储器92和/或非易失性存储器90中的一些数据实际上可以托管在计算机上,所述计算机在分析计算机系统100的外部,但是可以由分析计算机系统使用网络接口84通过互联网、内联网或其他形式的网络或电子电缆电子地访问。在一些实施方案中,分析计算机系统100利用从与一个或多个图形处理单元50相关联的图形处理存储器52运行的卷积神经网络以便提高系统的速度和性能。在一些替代实施方案中,分析计算机系统100利用从存储器92而不是与图形处理单元50相关联的存储器运行的卷积神经网络。
分析计算机系统100的存储器92存储:
·操作系统54,其包括用于处置各种基本系统服务的规程;
·空间数据评估模块56,其用于评估空间数据,例如测试对象(或训练对象)与靶标对象的结合;
·一个或多个靶标对象58的数据,其包括结构数据60和任选的活性位点信息62;
·对象训练库64,其包括多个训练对象66中的每一个针对靶标对象58的结合数据68;
·测试对象评估库70,其包括多个测试对象72的信息;以及
·多个体素图40,每个体素图表示训练对象66或测试对象72相对于靶标对象58的姿势;
分析计算机系统100的图形处理存储器52或任选的存储器92存储:
·卷积评定模块20,其用于将卷积神经网络应用于空间数据(例如,用于将卷积神经网络应用于对接到靶标对象上的测试或训练对象);
·体素图40的一个或多个(任选地)向量化22表示;以及
·卷积神经网络24,其包括输入层26、一个或多个卷积层28和终端评分器30。
在一些实施方式中,以上标识的分析计算机系统100的数据元素或模块中的一个或多个存储在先前所提及存储器设备中的一个或多个中,并且对应于用于执行上述功能的指令集。以上标识的数据、模块或程序(例如,指令集)不需要实施为单独的软件程序、规程或模块,并且因此这些模块的各种子集可以各种实施方式组合或以其他方式重新布置。在一些实施方式中,存储器92和/或非易失性存储器90(以及任选的图形处理存储器52)任选地存储以上标识的模块和数据结构的子集。此外,在一些实施方案中,存储器92和/或非易失性存储器90(以及任选的图形处理存储器52)存储以上未描述的另外模块和数据结构。
现在已经公开一种用于使用空间数据评估测试或训练对象到靶标对象上的对接的系统,参考图2A-2F详细描述用于执行这种评估的方法,并在下面进行讨论。
获得靶标对象的空间坐标202。根据图2A,在用于使用空间数据对测试对象72(或训练对象)进行归类的计算机系统100处或利用计算机系统100执行方法。计算机系统100任选地包括具有图形处理存储器52的图形处理单元50。计算机系统100包括通用处理器74和可由通用处理单元寻址的存储器92和/或非易失性存储器90。通用存储器存储用于由至少一个通用处理器执行的至少一个程序56。所述至少一个程序获得靶标对象58的空间坐标60。
在一些实施方案中,靶标对象58是聚合物(204)。聚合物的实例包括但不限于蛋白质、多肽、多核酸、多核糖核酸、多糖或其任何组合的组合体(206)。聚合物(诸如使用所公开的系统和方法的一些实施方案研究的那些)是由重复残基组成的大分子。在一些实施方案中,聚合物是天然材料。在一些实施方案中,聚合物是合成材料。在一些实施方案中,聚合物是弹性体、虫胶、琥珀、天然或合成橡胶、纤维素、酚醛塑料(Bakelite)、尼龙、聚苯乙烯、聚乙烯、聚丙烯、聚丙烯腈、聚乙二醇或多糖。
在一些实施方案中,靶标对象58是杂聚物(共聚物)。共聚物是衍生自两种(或更多种)单体物质的聚合物,与仅使用一种单体的均聚物不同。共聚是指用于化学合成共聚物的方法。共聚物的实例包括但不限于ABS塑料、SBR、丁腈橡胶、苯乙烯-丙烯腈、苯乙烯-异戊二烯-苯乙烯(SIS)和乙烯-乙酸乙烯酯。由于共聚物由至少两种类型的组成单元(也是结构单元或颗粒)组成,所以可以基于这些单元如何沿着链布置来对共聚物进行归类。这些包括具有规则交替的A和B单元的交替共聚物。参见例如,Jenkins,1996,“Glossary of BasicTerms in Polymer Science”,Pure Appl.Chem.68(12):2287-2311,其全部内容特此通过引用并入本文。共聚物的另外的实例是具有以重复序列(例如,(A-B-A-B-B-A-A-A-A-B-B-B)n)布置的A和B单元的周期共聚物。共聚物的另外的实例是统计共聚物,其中共聚物中单体残基的顺序遵循统计规则。|参见例如,Painter,1997,Fundamentals of PolymerScience,CRC Press,1997,第14页,其全部内容特此通过引用并入本文。可以使用所公开的系统和方法评估的共聚物的又其他实例是包含通过共价键连接的两个或更多个均聚物亚基的嵌段共聚物。均聚物亚基的联合可能需要中间的非重复亚基,其称为连接嵌段。具有两个或三个不同嵌段的嵌段共聚物分别称为二嵌段共聚物和三嵌段共聚物。
在一些实施方案中,靶标对象58实际上是多种聚合物,其中所述多种聚合物中的相应聚合物并不都具有相同的分子量。在一些这样的实施方案中,所述多种聚合物中的聚合物落入具有相应链长分布的重量范围内。在一些实施方案中,聚合物是包含具有一个或多个取代基侧链或支链的主链的支化聚合物分子。支化聚合物的类型包括但不限于星状聚合物、梳状聚合物、刷状聚合物、树枝状聚合物、梯状体以及树状体。参见例如,Rubinstein等人,2003,Polymer physics,Oxford;New York:Oxford University Press,第6页,其全部内容特此通过引用并入本文。
在一些实施方案中,靶标对象58是多肽。如本文所使用的术语“多肽”是指通过肽键连接的两个或更多个氨基酸或残基。术语“多肽”和“蛋白质”在本文中可互换使用并且包括低聚肽和肽。“氨基酸”、“残基”或“肽”是指本领域已知的蛋白质的二十种标准结构单元中的任一种,包括亚氨酸,诸如脯氨酸和羟脯氨酸。氨基酸异构体的命名可以包括D、L、R和S。氨基酸的定义包括非天然氨基酸。因此,硒代半胱氨酸、吡咯赖氨酸、羊毛硫氨酸、2-氨基异丁酸、γ-氨基丁酸、脱氢丙氨酸、鸟氨酸、瓜氨酸和高半胱氨酸都被认为是氨基酸。氨基酸的其他变体或类似物是本领域已知的。因此,多肽可以包括合成的拟肽结构,诸如类肽。参见,Simon等人,1992,Proceedings of the National Academy of Sciences USA,89,9367,其全部内容特此通过引用并入本文。另见,Chin等人,2003,Science 301,964;和Chin等人,2003,Chemistry&Biology 10,511,它们各自的全部内容通过引用并入本文。
根据所公开的系统和方法的一些实施方案评估的靶标对象58也可以具有任何数量的翻译后修饰。因此,靶标对象包括通过以下各项修饰的那些聚合物:酰化、烷基化、酰胺化、生物素化、甲酰化、γ-羧化、谷氨酰化、糖基化、甘氨酰化、羟基化、碘化、异戊二烯化、脂质化、辅因子添加(例如,血红素、黄素、金属等的辅因子添加)、添加核苷及其衍生物、氧化、还原、聚乙二醇化、磷脂酰肌醇加成、磷酸泛酰巯基乙胺基化、磷酸化、焦谷氨酸形成、外消旋化、通过tRNA添加氨基酸(例如,精氨酰化)、硫酸化、硒化、ISG化、SUMO化、泛素化、化学修饰(例如,瓜氨酸化和脱酰胺化)以及用其他酶(例如,蛋白酶、磷酸酶和激酶)处理。其他类型的翻译后修饰是本领域已知的并且也包括在内。
在一些实施方案中,靶标对象58是有机金属络合物。有机金属络合物是在碳与金属之间含有键的化学化合物。在一些情况下,有机金属化合物通过前缀“有机-”来区分,例如有机钯化合物。
在一些实施方案中,靶标对象58是表面活性剂。表面活性是降低液体的表面张力、两种液体之间的界面张力、或液体与固体之间的界面张力的化合物。表面活性剂可作为洗涤剂、润湿剂、乳化剂、发泡剂和分散剂。表面活性剂通常是两亲性的有机化合物,这意味着它们同时含有疏水基团(它们的尾部)和亲水基团(它们的头部)。因此,表面活性剂分子含有水不溶性(或油溶性)组分和水溶性组分。在水与油混合的情况下,表面活性剂分子将在水中扩散并吸附在空气与水之间的界面或油与水之间的界面处。不溶性的疏水基团可以延伸出本体水相,进入空气或油相中,而水溶性头部基团保持在水相中。表面活性剂分子在表面处的这种排列改变水/空气或水/油界面处的水的表面性质。
离子型表面活性剂的实例包括离子型表面活性剂,诸如阴离子型、阳离子型或两性离子型(两性)表面活性剂。在一些实施方案中,靶标对象58是反胶束或脂质体。
在一些实施方案中,靶标对象58是富勒烯。富勒烯是完全由碳组成的、呈中空的球形、椭圆形或管状的任何分子。球形富勒烯也称为巴基球,并且它们与英式足球中使用的球类似。圆柱形富勒烯称为碳纳米管或巴基管。富勒烯在结构上与石墨相似,石墨由连接六角环形的堆叠石墨烯片组成;但是它们也可以包含五边形(或者有时是七边形)的环。
在一些实施方案中,靶标对象是聚合物,并且空间坐标是所述聚合物在
Figure GDA0003080192140000111
或更好的分辨率下分辨的晶体结构的一组三维坐标{x1,…,xN}(208)。在一些实施方案中,靶标对象是聚合物,并且空间坐标是所述聚合物在
Figure GDA0003080192140000112
或更好的分辨率下分辨的晶体结构的一组三维坐标{x1,…,xN}(210)。在一些实施方案中,靶标对象是聚合物,并且空间坐标是聚合物在
Figure GDA0003080192140000113
或更好、
Figure GDA0003080192140000114
或更好、
Figure GDA0003080192140000115
或更好、
Figure GDA0003080192140000116
或更好、
Figure GDA0003080192140000117
或更好、
Figure GDA0003080192140000118
或更好、
Figure GDA0003080192140000119
或更好、
Figure GDA00030801921400001110
或更好、
Figure GDA00030801921400001111
或更好、
Figure GDA00030801921400001112
或更好、
Figure GDA00030801921400001113
或更好、或
Figure GDA00030801921400001114
或更好的分辨率(例如,通过X射线晶体学技术)下分辨的晶体结构的一组三维坐标{x1,…,xN}。
在一些实施方案中,靶标对象58是聚合物,并且空间坐标是通过核磁共振确定的聚合物的十个或更多个、二十个或更多个或三十个或更多个三维坐标的集合,其中所述集合具有
Figure GDA00030801921400001115
或更好、
Figure GDA00030801921400001116
或更好、
Figure GDA00030801921400001117
或更好、
Figure GDA00030801921400001118
或更好、
Figure GDA00030801921400001119
或更好、
Figure GDA00030801921400001120
或更好、
Figure GDA00030801921400001121
或更好、
Figure GDA00030801921400001122
或更好、或
Figure GDA00030801921400001123
或更好的主链RMSD。在一些实施方案中,空间坐标由中子衍射或低温电子显微镜法确定(212)。
在一些实施方案中,靶标对象58包括两种不同类型的聚合物,诸如结合到多肽的核酸。在一些实施方案中,天然聚合物包括彼此结合的两种多肽。在一些实施方案中,研究中的天然聚合物包含一种或多种金属离子(例如,具有一个或多个锌原子的金属蛋白酶)。在这种情况下,金属离子和或有机小分子可以包括在靶标对象58的空间坐标60中。
在一些实施方案中,靶标对象是聚合物,并且在聚合物中存在十个或更多个、二十个或更多个、三十个或更多个、五十个或更多个、一百个或更多个、一百个与一千个之间或少于五百个残基。
在一些实施方案中,使用建模方法来确定靶标对象58的空间坐标,所述建模方法诸如从头算起方法、密度函数方法、半经验和经验方法、分子力学、化学动力学或分子动力学。
在一个实施方案中,空间坐标由构成靶标对象的原子的中心的笛卡尔坐标(Cartesian coordinate)表示。在一些替代实施方案中,靶标对象58的空间坐标60由例如通过X射线晶体照相术测量的靶标对象的电子密度表示。例如,在一些实施方案中,空间坐标60包括使用靶标对象58的计算原子坐标计算的2F观察-F计算电子密度图,其中F观察是靶标对象的所观察到的结构因子振幅,并且Fc是根据靶标对象58的计算原子坐标计算的结构因子振幅。
因此,靶标对象的空间坐标60可以作为输入数据从多种源接收,这些源例如但不限于通过溶液NMR生成的结构集合,如从X射线晶体照相术、中子衍射或低温电子显微镜法、从计算模拟取样、同源建模或旋转异构体库取样以及这些技术的组合来解释的共复合物。
用靶标对象对测试对象建模(214)。在步骤214中,以多个不同姿势中的每一个用靶标对象58对测试对象72(或训练对象)进行建模。这里,首先描述根据本公开的代表性测试对象72(和训练对象66)。然后,描述建模和代表性建模技术。
代表性测试对象72(和训练对象66)。测试对象72与训练对象66之间的显著差异在于:训练对象66被标记(例如,利用从湿实验室结合测定获得的互补结合数据等)并且这种标记用于训练卷积神经网络,而测试对象72未被标记并且卷积神经网络用于对测试对象72进行归类。换句话说,训练对象已经通过标签进行归类,并且这种归类用于训练卷积神经网络,使得卷积神经网络然后可以对测试对象进行归类。测试对象通常在应用卷积神经网络之前未被归类。在典型实施方案中,与训练对象66相关联的归类是针对通过湿实验室结合测定获得的靶标对象58中的每一个的结合数据。如此,在一些实施方案中,每个训练对象58可能针对若干不同靶标对象58被标记。例如,考虑到有两个靶标对象58:第一种酶A(针对其寻求抑制剂)和第二种酶B(并不针对其寻求抑制剂,并且不希望针对其进行抑制以便使有害的副作用最小化)的情况。每个训练对象58将接收针对酶A的第一标签和针对酶B的第二标签。这第一标签和第二标签可以相同或不同,例如,如果对于酶A与对于酶B相比,训练对象58是更好的抑制剂,则它们将是不同的。
在一些实施方案中,测试对象72和训练对象66是满足Lipinski五规则的两个或更多个规则、三个或更多个规则或全部四个规则的有机化合物:(i)不多于五个氢键供体(例如,OH和NH基团)、(ii)不多于十个氢键受体(例如,N和O)、(iii)低于500道尔顿的分子量以及(iv)低于5的LogP。“五规则”之所以这样称呼是因为四个标准中有三个涉及到数字五。参见Lipinski,1997,Adv.Drug Del.Rev.23,3,其全部内容特此通过引用并入本文。
在一些实施方案中,除了Lipinski五规则以外,测试对象72或训练对象66还满足一个或多个标准。例如,在一些实施方案中,测试对象72或训练对象66具有五个或更少的芳环、四个或更少的芳环、三个或更少的芳环或者两个或更少的芳环。在一些实施方案中,测试对象72或训练对象66是分子量小于2000道尔顿、小于4000道尔顿、小于6000道尔顿、小于8000道尔顿、小于10000道尔顿或小于20000道尔顿的任何有机化合物。
然而,本公开的系统和方法对测试对象72或训练对象66的大小没有限制。例如,在一些实施方案中,这类对象是大聚合物,诸如抗体。
建模。转到图2A的元素214,以多个不同姿势中的每个姿势用靶标对象58对测试对象72和/或训练对象66进行建模。在一些实施方案中,靶标对象58是具有活性位点的聚合物,测试对象(或训练对象)是化学化合物,并且建模包括将测试对象对接到聚合物的活性位点中(216)。在一些实施方案中,将测试对象72或训练对象66对接到靶标对象58上多次以形成多个姿势。在一些实施方案中,将测试对象72或训练对象66对接到靶标对象58上两次、三次、四次、五次或更多次、十次或更多次、五十次或更多次、一百次或更多次或一千次或更多次(218)。每次这样的对接表示对接到靶标对象58上的测试对象72或训练对象66的不同姿势。在一些实施方案中,靶标对象58是具有活性位点的聚合物,并且测试对象72或训练对象66以多种不同方式中的每一种对接到活性位点中,每种这样的方式表示不同的姿势。预期这些姿势中的许多姿势是不正确的,这意味着这类姿势不代表自然界中出现的测试对象72(或训练对象66)与靶标对象58之间的真实相互作用。有利的是,在用训练对象66进行训练期间,卷积神经网络将能够滤除(减权)不正确的姿势,因为在不正确的姿势与训练对象标签之间不会出现一致的模式。不意图受到任何特定理论的限制,预期在不正确姿势之中观察到的对象间(例如,分子间)相互作用将像白噪声一样相互抵消,而由训练对象66所形成的正确姿势形成的对象间相互作用将相互加强,并因此随着时间的推移训练网络的权重。因此,在关于不正确姿势的训练模式期间,神经网将无法找到解释活性训练对象66与非活性训练对象66之间的差异的模式(例如,以在训练对象的标记数据之间进行判别)。关于不正确姿势,网络将学习训练对象66的权重、其大小以及相似的全局概要描述符,而不是在自然中在训练对象与测试对象之间形成的真实的分子间相互作用。因此,有利地,所公开的系统和方法对不正确姿势不敏感,特别是当每训练对象66超过十个个姿势、每训练对象66超过一百个姿势或者每训练对象66超过一千个姿势时。同样地,当对测试对象72进行取样时,也采取多个姿势。因此,即使在一个测试或训练对象内,也预期错误姿势将相互抵消,并且当姿势足够接近以暗示与在自然中出现的种类的对象间相互作用(例如,分子间键合)接近的相互作用时,预期这类姿势将是对由单个测试或训练对象的多个姿势生成的最终信号作出贡献的姿势。
在一些实施方案中,训练对象66和测试对象72通过随机姿势生成技术或偏倚姿势生成来对接。在一些实施方案中,训练对象66和/或测试对象72通过Markov链Monte Carlo取样对接。在一些实施方案中,这样的取样允许对接计算和评分函数中的训练对象和/或测试对象的完全灵活性,所述评分函数是训练(或测试)对象与靶标对象58之间的相互作用能量以及训练(或测试)对象的构象能量的总和。参见例如,Liu和Wang,1999,“MCDOCK:AMonte Carlo simulation approach to the molecular docking problem”,Computer-Aided Molecular Design 13,435-451,其特此通过引用并入。
在一些实施方案中,使用诸如DOCK(Shoichet、Bodian和Kuntz,1992,“Moleculardocking using shape descriptors”,Journal of Computational Chemistry 13(3),第380-397页;以及Knegtel、Kuntz和Oshiro,1997,“Molecular docking to ensembles ofprotein structures”,Journal of Molecular Biology 266,第424-440页,它们中的每一个都特此通过引用并入)的算法来找出每个测试对象72和/或训练对象66针对每个靶标对象58的多个姿势。这类算法将靶标对象和测试(或训练)对象建模为刚体。使用互补的表面搜索对接的构象以找到姿势。
在一些实施方案中,使用诸如AutoDOCK(Morris等人,2009,“AutoDock4 andAutoDockTools4:Automated Docking with Selective Receptor Flexibility”,J.Comput.Chem.30(16),第2785-2791页;Sotriffer等人,2000,“Automated docking ofligands to antibodies:methods and applications”,Methods:A Companion toMethods in Enzymology 20,第280-291页;以及“Morris等人,1998,“Automated DockingUsing a Lamarckian Genetic Algorithm and Empirical Binding Free EnergyFunction”,Journal of Computational Chemistry 19:第1639-1662页,它们中的每一个都特此通过引用并入)的算法来找出每个测试对象72和/或训练对象66针对每个靶标对象58的姿势。AutoDOCK使用配体的运动学模型并支持Monte Carlo、模拟退火、Lamarckian遗传算法以及遗传算法。因此,在一些实施方案中,使用对接评分函数通过Markov链MonteCarlo取样、模拟退火、Lamarckian遗传算法或遗传算法来获得多个不同姿势(针对给定的测试对象-靶标对象对或给定的训练对象-测试对象对)(220)。
在一些实施方案中,使用诸如FlexX(Rarey等人,1996,“A Fast FlexibleDocking Method Using an Incremental Construction Algorithm”,Journal ofMolecular Biology261,第470-489页,其特此通过引用并入)的算法来找出每个测试对象72和/或训练对象66针对每个靶标对象58的多个姿势。FlexX使用贪婪算法在靶标对象58的活性位点处执行测试对象72和/或训练对象66的增量构建。因此,在一些实施方案中,通过贪婪算法获得多个不同姿势(针对给定的测试对象-靶标对象对或给定的训练对象-测试对象对)(222)。
在一些实施方案中,使用诸如GOLD(Jones等人,1997,“Development andValidation of a Genetic Algorithm for flexible Docking”,Journal MolecularBiology 267,第727-748页,其特此通过引用并入)的算法来找出每个测试对象72和/或训练对象66针对每个靶标对象58的多个姿势。GOLD代表配体对接的遗传优化。GOLD在测试对象72和/或训练对象66与靶标对象58之间建立基因优化的氢键网络。
在一些实施方案中,建模包括执行靶标对象和测试对象的分子动力学运行。在分子动力学运行过程中,靶标对象和测试对象的原子被允许相互作用一段固定的时间,从而给出系统的动态演化的视图。通过数值求解相互作用粒子系统的牛顿运动方程来确定靶标对象和测试对象(或训练对象)中的原子的轨迹,其中使用原子间势或分子力学力场计算粒子与其势能之间的力。参见Alder和Wainwright,1959,“Studies in MolecularDynamics.I.General Method”,J.Chem.Phys.31(2):459;以及Bibcode,1959,J.Ch.Ph.31,459A,doi:10.1063/1.1730376,它们中的每一个特此通过引用并入。因此,以这种方式,分子动力学运行随着时间的推移产生靶标对象和测试对象的轨迹。这个轨迹包括靶标对象和测试对象中的原子的轨迹。在一些实施方案中,所述多个不同姿势的子集通过在一段时间内拍摄这个轨迹的快照而获得。在一些实施方案中,姿势是若干不同轨迹的快照获得,其中每个轨迹包括与测试对象相互作用的靶标对象的不同分子动力学运行。在一些实施方案中,在分子动力学运行之前,首先使用对接技术将测试对象(或训练对象)对接到靶标对象的活性位点中。
不管使用何种建模方法,针对任何给定的测试对象72/训练对象66-靶标对象58对实现的是测试/训练对象与靶标对象的多样姿势,其中期望所述姿势中的一个或多个足够接近自然发生的姿势以展示给定的测试对象72/训练对象66-靶标对象58对之间的一些相关的分子间相互作用。
在一些实施方案中,使用任何上述技术来生成测试对象或训练对象在靶标对象58的活性位点中的初始姿势,并且通过在X、Y和Z三个平面的任何组合中应用旋转、平移和镜像算子的某种组合来生成另外的姿势。测试或训练对象的旋转和平移可以随机地选择(在某个范围内,例如,
Figure GDA0003080192140000161
),或以某个预先指定的增量(例如,围绕圆的所有5度增量)均一地生成。图3提供在靶标对象58的活性位点中处于两个不同姿势302的测试对象72的样本图示。
创建体素图。参考图2B的元素224,在针对每个靶标和/或测试对象生成每个姿势之后,创建每个姿势的体素图40。在一些实施方案中,通过包括以下各项的方法来创建所述多个体素地图中的每个相应体素图40:(i)在三维网格基础上对处于所述多个不同姿势中的相应姿势的测试对象72(或训练对象68)以及靶标对象58进行取样,从而形成包括对应多个空间填充(三维)多面体单元的对应三维均一空间填充蜂窝;以及(ii)针对对应多个三维单元中的每个相应三维多面体单元,基于相应三维多面体单元的性质(例如,化学性质),充填相应体素图40中的体素(一组离散的规则间隔的多面体单元)(226)。因此,如果特定的测试对象相对于靶标对象具有十个姿势,则创建十个对应体素图;如果特定的测试对象相对于靶标对象具有一百个姿势,则创建一百个对应体素图,依此类推。空间填充蜂窝的实例包括具有平行六面体单元的立方体蜂窝、具有六角棱柱单元的六棱柱蜂窝、具有菱形十二面体单元的菱形十二面体、具有伸长十二面体单元的伸长十二面体以及具有截顶八面体单元的截顶八面体。
在一些实施方案中,空间填充蜂窝是具有立方体单元的立方体蜂窝,并且这类体素的尺寸决定其分辨率。例如,可以选择
Figure GDA0003080192140000162
的分辨率,这意味着在这样的实施方案中,每个体素表示具有
Figure GDA0003080192140000163
尺寸(例如,在相应单元的相应的高度、宽度和深度上为
Figure GDA0003080192140000164
)的几何数据的对应立方体。然而,在一些实施方案中,使用更精细的网格间隔(例如,
Figure GDA0003080192140000165
或甚至
Figure GDA0003080192140000166
)或更粗的网格间隔(例如,
Figure GDA0003080192140000167
),其中间隔产生整数数量的体素以覆盖输入几何数据。在一些实施方案中,取样以介于
Figure GDA0003080192140000168
Figure GDA0003080192140000169
Figure GDA0003080192140000171
之间的分辨率进行(227)。作为例示,对于具有
Figure GDA0003080192140000172
分辨率的
Figure GDA0003080192140000173
输入立方体,这种布置会产生40*40*40=64,000个输入体素。
在一些实施方案中,测试对象72(或训练对象66)是第一化合物并且靶标对象58是第二化合物,在取样(i)中产生的原子的特性通过充填(ii)来放置于相应体素图中的单个体素中,并且所述多个体素中的每个体素表示最多一个原子的特性(228)。在一些实施方案中,原子的特性由原子类型的枚举组成(230)。作为一个实例,对于生物数据,所公开的系统和方法的一些实施方案被配置来将每个原子在体素图40的给定体素中的存在表示为那个条目的不同序号,例如,如果碳在体素中,那么因为碳的原子序数是6,所以将为6的值分配给那个体素。然而,这种编码可能意味着具有接近原子序数的原子的行为将相似,取决于应用,这可能不是特别有用。此外,元素行为在组(周期表上的列)内可能更相似,因此这种编码给卷积神经网络24进行解码带来另外的工作。
在一些实施方案中,将原子的特性以二进制类别变量编码在体素中(232)。在这类实施方案中,原子类型以所谓的“独热”编码进行编码:每个原子类型具有单独的通道。因此,在这类实施方案中,每个体素具有多个通道,并且所述多个通道的至少一个子集表示原子类型。例如,每个体素内的一个通道可以表示碳,而每个体素内的另一个通道可以表示氧。当在对应于给定体素的三维网格元素中找到给定原子类型时,给定体素内对于那个原子类型的通道被分配二进制类别变量第一值,诸如“1”,并且当在对应于给定体素的三维网格元素中未找到原子类型时,对于那个原子类型的通道在给定体素内被分配二进制类别变量第二值,诸如“0”。
虽然有100多种元素,但大多数在生物学中没有遇到。然而,即使表示最常见的生物元素(即H、C、N、O、F、P、S、Cl、Br、I、Li、Na、Mg、K、Ca、Mn、Fe、Co、Zn)也可产生每体素18个通道或到感受野的10,483*18=188,694个输入。这样,在一些实施方案中,多个体素图中的体素图40中的每个相应体素包括多个通道,并且多个通道中的每个通道表示在对应于相应体素的三维空间填充多面体单元中可能出现的不同性质(233)。给定体素的可能通道的数量在其中原子的另外特性(例如,部分电荷、在配体对比蛋白质靶标中的存在、电负性或SYBYL原子类型)另外作为每个体素的独立通道呈现的那些实施方案中甚至更高,从而需要更多的输入通道来在否则等价的原子之间进行区分。
在一些实施方案中,每个体素具有五个或更多个输入通道(234)。在一些实施方案中,每个体素具有十五个或更多个输入通道(236)。在一些实施方案中,每个体素具有二十个或更多个输入通道、二十五个或更多个输入通道、三十个或更多个输入通道、五十个或更多个输入通道或者一百个或更多个输入通道。在一些实施方案中,每个体素具有选自在下表1中找到的描述符的五个或更多个输入通道(240)。例如,在一些实施方案中,每个体素具有五个或更多个通道,每个通道被编码为二进制类别变量,其中每个这样的通道表示选自下表1的SYBYL原子类型。例如,在一些实施方案中,体素图40中的每个相应体素包括对于C.3(sp3碳)原子类型的通道,这意味着如果由相应体素表示的给定测试对象-靶标对象(或训练对象-靶标对象)复合物的空间中网格包含sp3碳,那么通道采用第一值(例如“1”),否则是第二值(例如“0”)。
表1-SYBYL原子类型
Figure GDA0003080192140000181
Figure GDA0003080192140000191
Figure GDA0003080192140000201
在一些实施方案中,每个体素包括选自在上表1中找到的描述符的十个或更多个输入通道、十五个或更多个输入通道或者二十个或更多个输入通道。在一些实施方案中,每个体素包括卤素的通道。
在一些实施方案中,针对给定测试对象(或训练对象)对于靶标对象的每个姿势生成结构蛋白质-配体相互作用指纹(SPLIF)评分,并且此SPLIF评分被用作到底层神经网络中的另外输入,或者单独地被编码在体素图中。关于对SPLIF的描述,请参见Da和Kireev,2014,J.Chem.Inf.Model.54,第2555-2561页,“Structural Protein-Ligand InteractionFingerprints(SPLIF)for Structure-Based Virtual Screening:Method and BenchmarkStudy”,其特此通过引用并入。SPLIF隐式地编码测试(或训练)对象与靶标对象(例如,π-π、CH-π等)的相互作用节段之间可能出现的所有可能相互作用类型。在第一步中,针对分子间接触检查测试(或训练)对象-靶标对象复合物(姿势)。如果两个原子之间的距离在指定阈值内(例如在
Figure GDA0003080192140000202
内),则认为两个原子相接触。对于每个这样的分子间原子对,相应的测试(或训练)原子和靶标对象原子被扩展为圆形节段,例如,包括所讨论的原子以及它们的达到一定距离的连续邻域的节段。每种类型的圆形节段都被分配标识符。在一些实施方案中,这类标识符被编码在相应体素中的单独通道中。在一些实施方案中,可以使用如Pipeline Pilot软件中定义的一直到第一最近邻的扩展连通指纹(ECFP2)。参见PipelinePilot,ver.8.5,Accelrys Software有限公司,2009,其特此通过引用并入。ECFP保留关于所有原子/键类型的信息,并使用一个唯一的整数标识符来表示一个子结构(即,圆形节段)。SPLIF指纹编码所有找到的圆形节段标识符。在一些实施方案中,SPLIF指纹不是编码的单独体素,而是用作下面讨论的卷积神经网络24中的单独的独立输入。
在一些实施方案中,不是SPLIF或除了SPLIF,针对给定测试对象(或训练对象)对于靶标对象的每个姿势计算结构相互作用指纹(SIFt),并且将其作为输入独立地提供到下面讨论的卷积神经网络24中或者将其编码在体素图中。关于SIFt的计算,请参见Deng等人,2003,“Structural Interaction Fingerprint(SIFt):A Novel Method for AnalyzingThree-Dimensional Protein-Ligand Binding Interactions”,J.Med.Chem.47(2),第337-344页,其特此通过引用并入。
在一些实施方案中,不是SPLIF和SIFT或除了SPLIF和SIFT,针对给定测试对象(或训练对象)对于靶标对象的每个姿势计算基于原子对的相互作用节段(APIF),并且将其作为输入独立地提供到下面讨论的卷积神经网络24中或者将其单独地编码在体素图中。有关APIF的计算,请参见Perez-Nueno等人,2009,“APIF:a new interaction fingerprintbased on atom pairs and its application to virtual screening”,J.Chem.Inf.Model.49(5),第1245-1260页,其特此通过引用并入。
数据表示可以用生物数据以例如能够表达与分子/蛋白质相关联的各种结构关系的方式来编码。根据各种实施方案,可以各种方式和形貌来实施几何表示。几何表示用于数据的可视化和分析。例如,在一个实施方案中,可以使用在各种拓扑图上布局的体素(诸如,2-D、3-D笛卡儿/欧几里得空间、3-D非欧几里德空间、流形等)来表示几何形状。例如,图4示出根据一个实施方案的包括一系列子容器的样本三维网格结构400。每个子容器402可以对应于体素。可以针对网格定义坐标系,使得每个子容器具有标识符。在所公开的系统和方法的一些实施方案中,坐标系是3-D空间中的笛卡尔坐标系,但在所述系统的其他实施方案中,坐标系可以是任何其他类型的坐标系,诸如扁球体、圆柱体或球坐标系、极坐标系、针对各种流形和向量空间设计的其他坐标系等等。在一些实施方案中,体素可以具有与它们相关联的特定值,所述特定值可以例如通过应用标签和/或确定体素的定位等来表示。
因为神经网络需要固定的输入大小,所公开的系统和方法的一些实施方案裁剪几何数据(靶标-测试或靶标-训练对象复合物)以配合在适当的边界框内。例如,可以使用到一边为
Figure GDA0003080192140000211
的立方体。在靶标和/或测试对象已经对接到靶标对象58的活性位点中的一些实施方案中,活性位点的中心用作立方体的中心。
虽然在一些实施方案中使用定中心在靶标对象的活性位点上的固定尺寸的正方形立方体来将空间划分成体素网格,但是所公开的系统不限于此。在一些实施方案中,使用各种形状中的任何形状来将空间划分成体素网格。在一些实施方案中,使用多面体(诸如,直角棱柱、多面体形状等)来划分空间。
在一个实施方案中,网格结构可以被配置成相似于体素的布置。例如,每个子结构可以与正在分析的每个原子的通道相关联。此外,可以提供用于数值表示每个原子的编码方法。
在一些实施方案中,体素图考虑到时间因素并且因此可以在四维(X、Y、Z和时间)中。
在一些实施方案中,可以使用诸如像素、点、多边形形状、多面体或多维中的任何其他类型的形状(例如,3D、4D等中的形状)的其他实施方式来代替体素。
在一些实施方案中,通过将X、Y和Z坐标的原点选择为如由腔满溢算法(cavityflooding algorithm)(256)。关于这类算法的代表性细节,请参见Ho和Marshall,1990,“Cavity search:An algorithm for the isolation and display of cavity-likebinding regions”,Journal of Computer-Aided Molecular Design 4,第337-354页;以及Hendlich等人,1997,“Ligsite:automatic and efficient detection of potentialsmall molecule-binding sites in proteins”,J.Mol.Graph.Model 15,第6期,它们中的每一个特此通过引用并入。可替代地,在一些实施方案中,体素图的原点定中心在整个共复合物(结合到靶标对象的测试对象,或结合到靶标对象的训练对象,或仅仅靶标对象,或仅仅测试对象或训练对象)的质心处。可以任选地将基向量选择为整个共复合物、仅仅靶标、或仅仅测试对象/训练对象的惯性主矩。在一些实施方案中,靶标对象58是具有活性位点的聚合物,并且取样在三维网格基础上对处于测试对象72(或训练对象66)的多个不同姿势中的相应姿势的每个姿势中的测试对象72(或训练对象66)以及活性位点进行取样,其中活性位点的质心被视为原点,并且用于取样的对应三维均一蜂窝表示聚合物和测试对象72(或训练对象66)的定中心在质心上的部分(248)。在一些实施方案中,均匀蜂窝是规则的立方体蜂窝,并且聚合物和测试对象的部分是预定的固定尺寸的立方体。在这类实施方案中,使用预定的固定尺寸的立方体确保使用几何数据的相关部分,并且确保每个体素图是相同的大小。在一些实施方案中,立方体的预定的固定尺寸是
Figure GDA0003080192140000221
其中N是介于5与100之间的整数或实值、介于8与50之间的整数或介于15与40之间的整数(250、252)。在一些实施方案中,均匀蜂窝是矩形棱柱蜂窝,并且聚合物和测试对象的部分是预定的固定尺寸
Figure GDA0003080192140000222
Figure GDA0003080192140000223
的矩形棱柱,其中Q是介于5与100之间的第一整数,R是介于5与100之间的第二整数,S是介于5与100之间的第三整数或实值,并且集合{Q,R,S}中的至少一个数字不等于集合{Q,R,S}中的另一个值。
在一个实施方案中,每个体素具有一个或多个输入通道,所述输入通道可以具有与它们相关联的各种值,在简单的实施方式中,所述输入通道可以打开/关闭,并且可以被配置来针对原子类型进行编码。原子类型可以指示原子的元素,或者原子类型可以进一步细化来在其他原子特性之间进行区分。然后可将存在的原子编码在每个体素中。可以使用各种技术和/或方法来利用各种类型的编码。作为示例性编码方法,可以利用原子的原子序数,从而产生每体素一个值,其范围是从对于氢的1到对应于ununoctium的118(或任何其他元素)。
然而,如以上所讨论,可以利用其他编码方法,诸如“独热编码”,其中每个体素具有许多并行输入通道,这些通道中的每一个打开或关闭并且针对原子类型进行编码。原子类型可以指示原子的元素,或者原子类型可以进一步细化来在其他原子特性之间进行区分。例如,SYBYL原子类型将单键碳与双键碳、三键碳或芳香碳区分开来。关于SYBYL原子类型,请参见Clark等人,1989,“Validation of the General Purpose Tripos ForceField,1989,J.Comput.Chem.10,第982-1012页,其特此通过引用并入。
在一些实施方案中,每个体素还包括一个或多个通道,以在是靶标对象58或辅因子的一部分的原子与测试对象72或训练对象66的一部分之间进行区分。例如,在一个实施方案中,每个体素还包括靶标对象58的第一通道和测试对象72或训练对象66的第二通道(238)。当由体素表示的空间的部分中的原子来自靶标对象58时,第一通道被设置为诸如“1”的值,否则为零(例如,因为由体素表示的空间的部分不包括原子或包括来自测试对象72或训练对象66的一个或多个原子)。此外,当由体素表示的空间的部分中的原子来自测试对象72或训练对象66时,第二通道被设置为诸如“1”的值,否则为零(例如,因为由体素表示的空间的部分不包括原子或包括来自靶标对象58的一个或多个原子)。同样地,其他通道可以另外地(或任选地)指定更多信息,诸如部分电荷、极化性、电负性、溶剂可及空间和电子密度。例如,在一些实施方案中,靶标对象的电子密度图覆盖这组三维坐标,并且体素图的创建进一步对电子密度图进行取样(258)。合适的电子密度图的实例包括但不限于多重同晶置换图、单重同晶置换与反常信号图、单波长反常色散图、多波长反常色散图以及2Fo-Fc图(260)。参见McRee,1993,Practical Protein Crystallography,Academic Press,其特此通过引用并入。
在一些实施方案中,根据所公开的系统和方法的体素编码可以包括另外的任选编码改进。提供以下两个作为实例。
在第一编码改进中,基于大部分元素很少出现在生物系统中,可以通过减小由体素表示的原子集合(例如,通过减少由体素表示的通道的数量)来减少所需的存储器。通过组合稀有原子(因此可能很少影响所述系统的性能)或通过组合具有相似性质的原子(因此可以最小化来自组合的不准确性),原子可被绘图来共享体素中的相同通道。
编码改进是使体素通过部分激活相邻体素来表示原子位置。这导致后续神经网络中的相邻神经元的部分激活,并从独热编码移到“多温”编码。例如,可例示性地考虑范德华直径为
Figure GDA0003080192140000231
并且因此体积为
Figure GDA0003080192140000232
的氯原子,当放置
Figure GDA0003080192140000233
网格时,氯原子内的体素将被完全填充,并且原子边缘上的体素将仅被部分填充。因此,部分填充的体素中表示氯的通道将与这类体素落入氯原子内的量成比例地开启。例如,如果体素体积的百分之五十落入氯原子内,则体素中表示氯的通道将被激活百分之五十。这相对于离散独热编码可导致“平滑”且更准确的表示。因此,在一些实施方案中,测试对象是第一化合物,并且靶标对象是第二化合物,在取样中产生的原子的特性跨相应体素图40中的体素的子集散布,并且这个体素子集包括两个或更多个体素、三个或更多个体素、五个或更多个体素、十个或更多个体素或者二十五个或更多个体素(242)。在一些实施方案中,原子的特性由原子类型的枚举组成(244)(例如,SYBYL原子类型之一)。
因此,已经编码的几何数据(测试或训练对象到靶标对象上的对接)的体素化(光栅化)基于应用于输入数据的各种规则。
图5和图6提供根据一些实施方案的编码到体素的二维网格500上的两个分子502的视图。图5提供叠加在二维网格上的两个分子。图6提供独热编码方式,即使用不同的阴影模式来分别编码氧、氮、碳的存在以及空白空间。如以上所指出,这种编码可以称为“独热”编码。图6示出图5的网格500,其中省略了分子502。图7提供图6的体素的二维网格的视图,其中体素已被编号。
在一些实施方案中,以不同于体素的形式来表示特征几何体。图8提供各种表示的视图,其中特征(例如,原子中心)被表示为0-D点(表示802)、1-D点(表示804)、2-D点(表示806)或3-D点(表示808)。最初,点之间的间隔可以随机选择。然而,随着预测模型的训练,这些点可能会彼此靠拢或彼此分开。图9示出每个点的可能位置的范围。
将体素图展开成相应向量。参考元素262,每个体素图40任选地展开成对应向量,从而创建多个向量,其中所述多个向量中的每个向量具有相同的大小。在一些实施方案中,所述多个向量中的每个向量是一维向量(264)。例如,在一些实施方案中,每边上为
Figure GDA0003080192140000241
的立方体定中心在靶标对象58的活性位点上并且以为
Figure GDA0003080192140000242
的三维固定网格间隔进行取样以形成体素图的对应体素,所述对应体素在相应通道中保持基本的体素结构特征(诸如,原子类型)以及任选地更复杂的测试对象-靶标对象描述符,如以上所讨论。在一些实施方案中,这个三维体素图的体素被展开成一维浮点向量。
使向量22经受卷积神经网络。参考图2D的元素266,使体素图的向量化表示22经受卷积网络24。在一些实施方案中,如图2D所示,将体素图的向量化表示22连同卷积评定模块20和卷积神经网络24存储在图形处理存储器52中。这提供了以更快的速度通过卷积神经网络24处理体素图的向量化表示22的优点。然而,在其他实施方案中,体素图的向量化表示22、卷积评定模块20和卷积神经网络24中的任一个或全部在系统100的存储器92中,或者简单地可跨网络由系统100寻址。在一些实施方案中,体素图的向量化表示22、卷积评定模块20和卷积神经网络24的中任一个或全部处于云计算环境中。
在一些实施方案中,多个向量22被提供给图形处理存储器52,其中图形处理单元存储器包括网络架构,所述网络架构包括卷积神经网络24,所述卷积神经网络24包括用于顺序地接收多个向量的输入层26、多个卷积层28和评分器30。所述多个卷积层包括初始卷积层和最终卷积层。在一些实施方案中,卷积神经网络24不在GPU存储器中,而是在系统100的通用存储器中。在一些实施方案中,体素图在被输入到网络24中之前未被向量化。
在一些实施方案中,所述多个卷积层中的卷积层28包括一组可学习滤波器(也称为内核)。每个滤波器具有固定三维大小,所述固定三维大小跨卷积层的输入体积的深度、高度和宽度进行卷积(以预定的步进速率步进),从而计算滤波器的条目(权重)与输入之间的点积(或其他函数),由此创建那个滤波器的多维激活图。在一些实施方案中,滤波器步进速率是输入空间的一个元素、两个元素、三个元素、四个元素、五个元素、六个元素、七个元素、八个元素、九个元素、十个元素或多于十个元素。因此,考虑滤波器具有53的大小的情况。在一些实施方案中,针对每体素通道总数为125的输入空间的值,这个滤波器将计算具有五个元素的深度、五个元素的宽度和五个元素的高度的输入空间的连续立方体之间的点积(或其他数学函数)。
到初始卷积层的输入空间(例如,来自输入层26的输出)由体素图40或体素图的向量化表示22形成。在一些实施方案中,体素图的向量化表示是用作到初始卷积层的输入空间的体素图的一维向量化表示。然而,当滤波器将其输入空间进行卷积并且输入空间是体素图的一维向量化表示时,滤波器仍然从一维向量化表示获得表示靶标对象-测试(或训练)对象复合物中的固定空间的对应连续立方体的那些元素。在一些实施方案中,滤波器使用标准薄记(bookeeping)技术来从一维向量化表示内选择形成靶标对象-测试(或训练)对象复合物中的固定空间的对应连续立方体的那些元素。因此,在一些情况下,这必然涉及取得一维向量化表示中的非连续元素子集,以便获得靶标对象-测试(或训练)对象复合物中的固定空间的对应连续立方体的元素值。
在一些实施方案中,滤波器被初始化(例如,根据高斯噪声)或被训练成具有125个对应权重(每输入通道),其中将要取所述对应权重与125个输入空间值的点积(或者某种其他形式的数学运算,诸如图14中公开的函数),以便计算对应于滤波器的激活层的第一单个值(或一组值)。在一些实施方案中,由滤波器计算的值被相加、加权和/或偏倚。为了计算对应于滤波器的激活层的另外值,然后使滤波器以与滤波器相关联的步进速率(步幅)在输入体积的三维之一中进行步进(卷积),此时,在输入体积中的新位置处取得滤波器权重与125个输入空间值(每通道)之间的点积(某种其他形式的数学运算,诸如图14中公开的数学函数)。根据步进速率重复此步进(卷积),直到滤波器已经对整个输入空间进行取样为止。在一些实施方案中,输入空间的边界被零填补以控制由卷积层产生的输出空间的空间体积。在典型实施方案中,卷积层的每个滤波器以这种方式细查整个三维输入体积,由此形成对应激活图。来自卷积层的滤波器的激活图的集合集体地形成一个卷积层的三维输出体积,从而用作后续卷积层的三维(三个空间维度)输入。输出体积中的每个条目因此也可以被解释为单个神经元(或一组神经元)的输出,所述神经元着眼于卷积层的输入空间中的小区域并与同一激活图中的神经元共享参数。因此,在一些实施方案中,所述多个卷积层中的卷积层具有多个滤波器,并且所述多个滤波器中的每个滤波器(在三个空间维度中)以步幅Y对N3的立方输入空间进行卷积,其中N是2或更大的整数(例如,2、3、4、5、6、7、8、9、10或大于10),并且Y是正整数(例如1、2、3、4、5、6、7、8、9、10或大于10)(268)。
所述多个卷积层中的每个层都与不同的一组权重相关联。更具体地,所述多个卷积层中的每个层包括多个滤波器,并且每个滤波器包括独立多个权重(270)。在一些实施方案中,卷积层具有尺寸为53的128个滤波器,并且因此卷积层具有每体素图中的通道128x5x 5x 5或16,000个权重。因此,如果体素图中有五个通道,则卷积层将具有16,000x 5个权重或80,000个权重。在一些实施方案中,给定卷积层中的每个滤波器的一些或全部这样的权重(以及任选地偏倚)可捆绑在一起,即被约束成是完全相同的。
响应于所述多个向量中的相应向量22的输入,输入层26将第一多个值馈送到初始卷积层中作为相应向量中的值的第一函数,其中第一函数任选地使用图形处理单元50来计算。
除了最终卷积层之外的每个相应卷积层28都将作为(i)与所述相应卷积层相关联的所述不同的一组权重以及(ii)由所述相应卷积层接收的输入值的相应第二函数的中间值馈送到所述多个卷积层中的另一个卷积层中,其中第二函数使用图形处理单元50来计算。例如,相应卷积层28的每个相应滤波器根据卷积层的特征三维步幅细查到卷积层的输入体积(在三个空间维度中),并且在每个相应滤波器位置处,取得相应滤波器的滤波器权重和相应滤波器位置处的输入体积(连续立方体,它是总输入空间的子集)的值的点积(或某种其他数学函数),从而产生对应于相应滤波器位置的激活层上的计算点(或一组点)。相应卷积层的滤波器的激活层集体地表示相应卷积层的中间值。
最终卷积层将作为(i)与所述最终卷积层相关联的所述不同的一组权重和(ii)由所述最终卷积层接收的输入值的第三函数的最终值馈送到所述评分器中,第三函数任选地使用图形处理单元50来计算。例如,最终卷积层28的每个相应滤波器根据卷积层的特征三维步幅细查到最终卷积层的输入体积(在三个空间维度中),并且在每个相应滤波器位置处,取得滤波器的滤波器权重和相应滤波器位置处的输入体积的值的点积(或某种其他数学函数),从而计算对应于相应滤波器位置的激活层上的点(或一组点)。最终卷积层的滤波器的激活层集体地表示馈送到评分器30的最终值。
在一些实施方案中,卷积神经网络具有一个或多个激活层。在一些实施方案中,激活层是应用非饱和激活函数f(x)=max(0,x)的神经元层。它增加了决策函数和整个网络的非线性特性,而不影响卷积层的感受野。在其他实施方案中,激活层具有增加非线性的其他函数,例如饱和双曲正切函数f(x)=tanh,f(x)=│tanh(x)│和S形函数f(x)=(1+e-x)-1。在神经网络的一些实施方案中的其他激活层中发现的其他激活函数的非限制性实例可包括但不限于:逻辑(或S形)、softmax、高斯、玻尔兹曼加权平均、绝对值、线性、整流线性、有限整形线性、软整流线性、参数化整流线性、平均、最大、最小、某一向量范数LP(对于p=1,2,3,...,∞)、符号、平方、平方根、多元二次、逆二次、逆多元二次、多谐调样条曲线和薄板样条曲线。
网络24学习卷积层28内的滤波器,所述滤波器在它们在输入中的某个空间位置处看到某种特定类型的特征时激活。如以下网络训练部分中所讨论的,在一些实施方案中,卷积层中的每个滤波器的初始权重是通过针对对象训练库64训练卷积神经网络而获得的,如以下所讨论。因此,卷积神经网络24的操作可能产生比历史上用于进行结合亲和力预测的特征更复杂的特征。例如,网络24的给定卷积层中用作氢键检测器的滤波器可不仅能够识别氢键供体和受体处于给定的距离和角度,而且还能识别供体和受体周围的生物化学环境加强还是削弱所述键。另外,可以训练网络24内的滤波器,以有效地判别底层数据中的结合体和非结合体。
在一些实施方案中,卷积神经网络24被配置来适应动态系统,诸如当靶标对象和测试对象两者都移动时可能遇到的替代位置。在这种靶标对象-测试靶标复合物中,可以采用多种不同的配置,其中相对比例是基于每种形状的自由能的波尔兹曼分布。靶标对象-测试对象复合物的自由能的焓和熵分量两者可以取决于对象所采用的姿势(ΔG=ΔH-TΔS)。可以发现最终的结合亲和力是靶标对象-测试对象复合物可用的一组姿势的能量的加权平均值的函数。为了模拟这种物理现象,卷积神经网络24可以被配置来对由于靶标对象和测试对象运动造成的大量替代位置进行取样,并且将其结合亲和力预测建立在复合物的这组取样的配置上(例如,通过取这些不同替代位置的所有网络24评分的加权平均值)。
如上所述,在一些实施方案中,神经网络24被配置来开发三维卷积层。到最低级卷积层28的输入区域可以是来自感受野的体素通道的立方体(或其他连续区域)。较高卷积层28评估来自较低卷积层的输出,同时仍然使其输出是靠近在一起(在3-D欧几里得距离内)的体素的有界区域的函数。
生物活性在旋转以及平移下可以是不变的,所以网络24可以任选地被配置来生成利用空间分割的旋转对称性的旋转特征图。例如,如果所述系统被配置来使用立方体来分割输入数据,那么所述系统可以被配置来通过在90度旋转之后将函数计算的权重结合在一起来生成旋转特征图。
可例示性地考虑顺时针旋转的立方体:一个滤波器的上面中的权重捆绑到另一个滤波器的右面中的权重;换句话说,权重可以被约束成是完全相同的。旋转可以通过针对三个XY/XZ/YZ平面中的每一个顺时针旋转90度、180度、270度来生成24个特征图。这种布置将参数的数量减少到未进行旋转权重捆绑的情况的1/24,因为在未进行权重捆绑的情况下,每个滤波器都有其自己的权重。
作为替代实例,如果所述系统被配置来使用其他多面体来分割输入数据,那么所述系统可以被配置来使用其他旋转来访问适合于它们的对称群的等轴测图。例如,在已经使用截顶八面体分割空间的情况下,将有3条90度旋转对称轴、4条120度旋转对称轴和6条180度对称轴。
在一个实施方案中,网络24被配置来应用正则化技术来降低模型过度拟合训练对象66和训练结合数据68的趋势。
网络24中的零个或更多个网络层可以由池化层(pooling layer)组成。如同在卷积层中,池化层是一组函数计算,它们在不同的空间局部输入块上应用相同的函数。对于池化层,输出由在若干体素上的池化算子(例如,某一向量范数LP,对于p=1,2,3,...,∞)给出。池化通常按通道而不是跨通道进行。池化将输入空间分割成一组三维框,并且针对每个这样的子区域输出最大值。池化操作提供一种形式的平移不变性。池化层的功能是渐进地减小表示的空间大小以减少网络中的参数和计算量,并且因此也控制过拟合。在一些实施方案中,池化层被插入在网络24中的连续的卷积层28之间。这种池化层独立地对输入的每个深度切片进行操作,并且在空间上调整其大小。除了最大池化之外,池化单元还可以执行其他功能,诸如平均池化或甚至L2范数池化。
网络24中的零个或更多个层可以由归一化层组成,诸如局部响应归一化或局部对比度归一化,其可以跨相同位置处的通道应用,或者针对跨多个位置的特定通道应用。这些归一化层可能促使若干函数计算对相同输入的响应有所不同。
在一些实施方案中,评分器30包括多个完全连接层和评估层,其中所述多个完全连接层中的完全连接层馈送到评估层中(272)。完全连接层中的神经元与前一层中的所有激活都有完全连接,正如在规则神经网络中所见。因此它们的激活可以通过矩阵乘法加上偏倚补偿来计算。在一些实施方案中,每个完全连接层具有512个隐藏单元、1024个隐藏单元或2048个隐藏单元。在一些实施方案中,评分器中不存在完全连接层,存在一个完全连接层、两个完全连接层、三个完全连接层、四个完全连接层、五个完全连接层、六个或更多个完全连接层或者十个或更多个完全连接层。
在一些实施方案中,评估层在多个活性分类之间进行判别。在一些实施方案中,评估层包括在两个活性分类、三个活性分类、四个活性分类、五个活性分类或六个或更多个活性分类上的逻辑回归代价层。
在一些实施方案中,评估层包括多个活性分类上的逻辑回归代价层。在一些实施方案中,评估层包括在两个活性分类、三个活性分类、四个活性分类、五个活性分类或六个或更多个活性分类上的逻辑回归代价层。
在一些实施方案中,评估层在两个活性分类之间进行判别,并且第一活性分类(第一归类)表示测试对象(或训练对象)相对于靶标对象的高于第一结合值的IC50、EC50或KI,并且第二活性分类(第二归类)是测试对象(或训练对象)相对于靶标对象的低于第一结合值的IC50、EC50或KI。在一些实施方案中,第一结合值是一纳摩尔、十纳摩尔、一百纳摩尔、一微摩尔、十微摩尔、一百微摩尔或一毫摩尔。
在一些实施方案中,评估层包括在两个活性分类上的逻辑回归代价层,并且第一活性分类(第一归类)表示测试对象(或训练对象)相对于靶标对象的高于第一结合值的IC50、EC50或KI,并且第二活性分类(第二归类)是测试对象(或训练对象)相对于靶标对象的低于第一结合值的IC50、EC50或KI。在一些实施方案中,第一结合值是一纳摩尔、十纳摩尔、一百纳摩尔、一微摩尔、十微摩尔、一百微摩尔或毫摩尔。
在一些实施方案中,评估层在三个活性分类之间进行判别,并且第一活性分类(第一归类)表示测试对象(或训练对象)相对于靶标对象的高于第一结合值的IC50、EC50或KI,第二活性分类(第二归类)是测试对象(或训练对象)相对于靶标对象的在第一结合值与第二结合值之间的IC50、EC50或KI,并且第三活性分类(第三归类)是测试对象(或训练对象)相对于靶标对象的低于第二结合值的IC50、EC50或KI,其中第一结合值不同于第二结合值。
在一些实施方案中,评估层包括在三个活性分类上的逻辑回归代价层,并且第一活性分类(第一归类)表示测试对象(或训练对象)相对于靶标对象的高于第一结合值的IC50、EC50或KI,第二活性分类(第二归类)是测试对象(或训练对象)相对于靶标对象的在第一结合值与第二结合值之间的IC50、EC50或KI,并且第三活性分类(第三归类)是测试对象(或训练对象)相对于靶标对象的低于第二结合值的IC50、EC50或KI,其中第一结合值不同于第二结合值。
在一些实施方案中,评分器30包括完全连接的单层或多层感知器。在一些实施方案中,评分器包括支持向量机、随机森林、最近邻。在一些实施方案中,评分器30分配指示将输入归类到各种输出类别的强度(或置信度或概率)的数值评分。在某些情况下,这些类别是结合体和非结合体,或者可替代地,是效力水平(例如<1摩尔、<1毫摩尔、<100微摩尔、<10微摩尔、<1微摩尔、<100纳摩尔、<10纳摩尔、<1纳摩尔的IC50、EC50或KI效力)。
从评分器获得多个评分(276)并且使用来自卷积神经网络的评分来表征测试对象(278)。以上已经描述了从神经网络24获得测试对象72(或训练对象66)与靶标对象58之间的复合物的评分器评分的细节。如以上所讨论,每个测试对象72(或训练对象66)相对于靶标对象被对接到多个姿势中。为了一次向卷积神经网络24呈现所有这样的姿势,可能需要非常大的输入字段(例如,大小等于体素数*通道数*姿势数的输入字段)。虽然在一些实施方案中,所有姿势被同时呈现给网络24,但是在优选实施方案中,每个这样的姿势被处理成向量化的体素图,并且用作到卷积神经网络24中的顺序输入。参考图2E,以这种方式,从评分器30获得多个评分,其中所述多个评分中的每个评分对应于所述多个向量中的向量到评分器30的输入层26中的输入(276)。在一些实施方案中,将给定测试对象72(或训练对象66)与给定靶标对象58的每个姿势的评分组合在一起,以产生整个测试对象72(或训练对象66)的最终评分。
在评分器输出是数值的实施方案中,可以使用已知的或开发的本文所述的任何激活函数来组合输出。实例包括但不限于非饱和激活函数f(x)=max(0,x)、饱和双曲正切函数f(x)=tanh、f(x)=│tanh(x)│、S形函数f(x)=(1+e-x)-1、逻辑(或S形)、softmax、高斯、玻尔兹曼加权平均、绝对值、线性、整流线性、有限整形线性、软整流线性、参数化整流线性、平均、最大、最小、某一向量范数LP(对于p=1,2,3,...,∞)、符号、平方、平方根、多元二次、逆二次、逆多元二次、多谐调样条曲线和薄板样条曲线。
在本公开的一些实施方案中,所述系统可以被配置来利用玻尔兹曼分布组合输出,因为如果输出被解释为指示结合能,则这与姿势的物理概率匹配。在本发明的其他实施方案中,max()函数也可以提供对玻尔兹曼的合理逼近,并且在计算上是有效的。
在评分器输出不是数值的实施方案中,评分器30可以被配置来使用各种集合投票方案组合输出,作为说明性的非限制性实例,所述集合投票方案可以包括多数、加权平均、孔多塞法、波达计数等等。
在一个实施方案中,所述系统可以被配置来应用评分器30的集合,例如以生成结合亲和力的指标。
参考图2E的元素280,在一些实施方案中,测试对象72(或训练对象66)是化学化合物,并且使用多个评分(来自测试或训练对象的多个姿势)来表征测试(或训练)对象的(例如,确定其归类)包括取所述多个评分的集中趋势的量度。当集中趋势的量度满足预定阈值或预定阈值范围时,测试对象被认为具有第一归类。当集中趋势的量度不能满足预定阈值或预定阈值范围时,测试对象被认为具有第二归类(280)。
参考图2E的元素282,在一些实施方案中,使用所述多个评分来表征测试对象72(或训练对象66)包括取所述多个评分(来自测试或训练对象的多个姿势)的加权平均值。当加权平均值满足预定阈值或预定阈值范围时,测试对象被认为具有第一归类。当加权平均值不满足预定阈值或预定阈值范围时,测试对象被认为具有第二归类。在一些实施方案中,加权平均值是所述多个评分的波尔兹曼平均值(Boltzman average)(284)。在一些实施方案中,第一归类是测试对象(或训练对象)相对于靶标对象的高于第一结合值(例如,一纳摩尔、十纳摩尔、一百纳摩、一微摩尔、十微摩尔、一百微摩尔或一毫摩尔)的IC50、EC50或KI,并且第二归类是测试对象相对于靶标对象的低于第一结合值的IC50、EC50、Kd或KI(286)。
参考图2F的元素288,在一些实施方案中,使用所述多个评分来表征测试对象72(或训练对象66)包括取所述多个评分(来自测试或训练对象的多个姿势)的加权平均值。当所述加权平均值满足多个阈值范围中的相应阈值范围时,所述测试(或训练)对象被认为具有多个相应归类中唯一地对应于所述相应阈值范围的相应归类。在一些实施方案中,所述多个归类中的每个相应归类是测试对象相对于靶标对象的IC50、EC50、Kd或KI范围(例如,介于一微摩尔与十微摩尔之间、介于一纳摩尔与一百纳摩尔之间)(290)。
在一些实施方案中,使每个相应测试对象针对给定靶标对象的单个姿势运行通过神经网络24,并且使用在此基础上由神经网络24针对相应测试对象中的每一个分配的相应评分来对测试对象进行归类。
在一些实施方案中,使用由神经网络24使用本文公开的技术评估的测试对象针对多个靶标对象58中的每一个的一个或多个姿势的网络24评分的加权平均值来对测试对象进行归类。例如,在一些实施方案中,所述多个靶标对象58取自分子动力学运行,其中所述多个靶标对象中的每个靶标对象表示在分子动力学运行期间的不同时间步长处的同一聚合物。相对于网络24对测试对象针对这些靶标对象中的每一个的一个或多个姿势的每一个的体素图进行评估,以获得每个独立姿势-靶标对象对的评分,并且使用这些评分的加权平均值来对靶标对象进行归类。
训练预测模型。在实施深度神经网络(例如,卷积神经网络24)的一些实施方案中,卷积评定模块20被配置来训练网络24以接收几何数据输入并且输出给定测试对象是否结合到靶标对象的预测(概率)。例如,在一些实施方案中,使用以上关于图2A-2F所讨论的技术使训练对象66(针对靶标对象具有已知的结合数据(由于其相关联的结合数据68))顺序地运行通过神经网络24,并且神经网络针对每个相应训练对象提供单个值。
在一些这样的实施方案中,神经网络输出每个训练对象针对给定靶标对象的两个可能活性分类中的一个。例如,神经网络24针对每个相应训练对象提供的单个值,当它低于预定阈值时在第一活性分类中(例如,结合体),并且当数字高于预定阈值时在第二活性分类中(例如,非结合体)。将由神经网络24分配的活性分类与如训练对象结合数据68所表示的实际活性分类进行比较。在典型的非限制性实施方案中,这样的训练对象结合数据68是来自独立网络实验室结合测定(web lab binding assay)。然后通过神经网络的权重反向传播由神经网络进行的活性分类分配中的误差(如针对结合数据68所验证的),以便训练神经网络24。例如,在这种反向传播中调整网络的卷积层28中的相应滤波器的滤波器权重。在示例性实施方案中,针对由网络24进行的活性分类分配中的误差,鉴于结合数据68,通过以下各项来训练神经网络24:随机梯度下降与AdaDelta自适应学习法(Zeiler,2012“ADADELTA:an adaptive learning rate method”,CoRR,vol.abs/1212.5701,其特此通过引用并入);以及反向传播算法,提供于Rumelhart等人,1988,“Neurocomputing:Foundations of research,”ch.Learning Representations by Back-propagatingErrors,第696-699页,Cambridge,MA,USA:MIT Press中,其特此通过引用并入。在一些这样的实施方案中,两个可能活性分类分别是大于给定阈值量的结合常数(例如,训练对象相对于靶标对象的大于一纳摩尔、十纳摩尔、一百微摩尔、一微摩尔、十微摩尔、一百微摩尔或一毫摩尔的IC50、EC50或KI)和低于给定阈值量的结合常数(例如,训练对象相对于靶标对象的小于一纳摩尔、十纳摩尔、一百微摩尔、一微摩尔、十微摩尔、一百微摩尔或一毫摩尔的IC50、EC50或KI)。在一些这样的实施方案中,使每个训练对象针对给定靶标对象的多个姿势顺序地运行通过神经网络,并且将由神经网络24计算的这些姿势的评分的加权平均值与通过湿实验室结合测定获取的结合数据68进行比较。
在一些这样的实施方案中,神经网络输出每个训练对象针对给定靶标对象的多个可能活性分类(例如,三个或更多个活性分类、四个或更多个活性分类、五个或更多个活性分类)中的一个。例如,由神经网络24针对每个相应训练对象提供的单个值(例如,来自单个姿势的多个姿势的加权平均值或单个值),当数字落入第一范围时在第一活性分类中;当数字落入第二范围时在第二活性分类中;当数字落入第三范围时在第三活性分类中;等等。将由神经网络24分配的活性分类与如训练对象结合数据68所表示的实际活性分类进行比较。然后使用以上所讨论的技术,使用由神经网络进行的活性分类分配中的误差(如针对结合数据68所验证的)来训练神经网络24。在一些实施方案中,所述多个归类中的每个相应归类是所述训练对象相对于所述靶标对象的IC50、EC50或KI范围。
在一些实施方案中,使每个相应训练对象针对给定靶标对象的单个姿势运行通过神经网络,并且将由神经网络24针对每个相应训练对象分配的所得相应评分与已经通过一种或多种湿实验室结合测定技术单独获取的相应训练对象的结合数据68进行比较。然后,使用以上所讨论的技术,使用由神经网络24针对训练对象进行的活性分类分配中的误差(如针对训练对象的结合数据68所验证的)来训练神经网络24。
在一些实施方案中,将由神经网络24使用本文公开的技术评估的训练对象针对多个靶标对象58中的每一个的一个或多个姿势的加权平均值与单独地通过一种或多种湿实验室结合测定技术获取的相应训练对象的结合数据68进行比较。例如,在一些实施方案中,所述多个靶标对象58取自分子动力学运行,其中所述多个靶标对象中的每个靶标对象表示在分子动力学运行期间的不同时间步长处的同一聚合物。然后,使用以上所讨论的技术,使用由神经网络24进行的靶标对象归类与通过湿实验室结合测定进行的对象归类之间的差异来训练神经网络24。
在一些实施方案中,使用非参数技术来将多个训练对象的神经网络24归类与结合数据68进行比较。例如,使用神经网络24来相对于给定性质(例如,针对给定靶标对象的结合)对多个训练对象进行排序,并且将此排序与由通过对多个训练对象进行的湿实验室结合测定获取的结合数据68提供的排序进行比较。这产生了使用以上所讨论的网络24纠错技术按所计算排序基于误差来训练网络24的能力。在一些实施方案中,使用Wilcoxon MannWhitney函数(Wilcoxon符号秩检验)或其他非参数检验来计算由神经网络24对训练对象进行的排序与如由结合数据68确定的训练对象的排序之间的误差(差异),并且将这个误差反向传播通过神经网络24,以便使用以上所讨论的神经网络24纠错技术来进一步训练网络。
在深度学习技术如上所述利用神经网络24的实施方案中,卷积评定模块20可以被配置来训练网络24以便通过修改卷积层28中的滤波器中的权重以及网络层的偏倚来改进其预测的准确性。权重和偏倚可进一步受到各种形式的规则化(诸如,L1、L2、权重衰减和遗失误差)约束。
在一个实施方案中,神经网络24可以任选地被配置来微调网络的权重,以便通过使用对比散度算法针对训练对象进行的贪婪的、分层的、生成式预训练来对训练数据的输入分布进行建模。
在一个实施方案中,在训练数据被标记(例如,利用结合数据68)的情况下,神经网络24可以任选地微调网络24内的权重,以便潜在地使神经网络的预测结合亲和力和/或归类与训练数据的报告亲和力和/或归类之间的误差最小化。可以使用各种方法来使误差函数最小化,所述方法诸如梯度下降法,可以包括但不限于对数损失、平方和误差、铰链损失方法。这些方法可包括二阶方法或逼近,诸如动量、Hessian-free估计、Nesterov加速梯度、adagrad等。未标记的生成式预训练和标记的判别式训练也可以结合使用。
输入几何数据可以分组成训练实例。例如,单组分子、辅因子和蛋白质通过具有多个几何测量结果,其中每个“快照”描述了靶标对象和训练对象(或测试对象)可以采用的替代的构象和姿势。相似地,在靶标对象是蛋白质的情况下,还可以对蛋白质侧链、辅因子和训练(或测试)对象的不同互变异构体进行取样。因为这些状态都对生物系统的行为有贡献,所以按照玻尔兹曼分布,用于预测结合亲和力的系统可以被配置来一起考虑这些状态(例如,通过取这些取样的加权平均值)。任选地,这些训练实例可以用结合信息来标记。如果定量结合信息可用(例如,结合数据68),则标签可以是数值结合亲和力。可替代地,训练实例可以被指定来自一组两个或更多个有序类别(例如,结合体和非结合体的两个类别,或将配体描述为效力<1摩尔、<1毫摩尔、<100微摩尔、<10微摩尔、<1微摩尔、<100纳摩尔、<10纳摩尔、<1纳摩尔的结合体的若干可能重叠的类别)的标签。结合数据68可以从各种源(诸如,实验测量结果、所计算估计值、专家洞察或假定(例如,随机的分子和蛋白质对极不可能结合))得到或接收。
实施例1-实验基准的构建。
所公开的系统和方法的应用在三个基准上得到证明:增强型有用诱饵一览表(Directory of Useful Decoys Enhanced(DUDE))基准(参见Mysinger等人,2012,“Directory of useful decoys,enhanced(dud-e):Better ligands and decoys forbetter benchmarking”,Journal of Medicinal Chemistry 55,第14期,第6582-6594页,PMID:22716043,其特此通过引用并入);内部类DUDE基准;以及通过实验验证的非活性分子的基准。这些基准中的每一个都提供了对所公开的系统和方法的性能的不同且互补的评定。作为标准基准,DUDE允许与其他基于结构的结合亲和力预测系统进行直接比较。不幸的是,DUDE只是指定测试集,而没有指定单独的训练集。通过构建我们自己的类DUDE基准,我们确保训练分子与测试分子之间无重叠。正确地对实验验证的活性和非活性分子进行归类是具有挑战性的测试,因为结构相似的分子可具有不同的标签。参见Hu等人,“Systematicidentification and classification of three-dimensional activity cliffs”,Journal of Chemical Information and Modeling 52,第6期,第1490-1498页,其特此通过引用并入。这类情况因为相异性要求而被排除在使用性质匹配诱饵的基准之外,以便假定诱饵是非活性的。
Mysinger等人,2012,“Directory of useful decoys,enhanced(dud-e):Betterligands and decoys for better benchmarking”,Journal of Medicinal Chemistry55,第14期,第6582-6594页,PMID:22716043(其特此通过引用并入)全面描述DUDE基准的方法。与这个实例相似地构建内部基准。简而言之,两个基准都是通过首先收集一组靶标蛋白质的不同组的活性分子来构建。通过消除相似的活性物来减轻模拟偏倚;通过首先基于支架相似性对活性物进行聚类、然后从每个聚类中选择示例性活性物来消除相似的活性物。然后,将每个活性分子与一组性质匹配诱饵(PMD)配对。参见Wallach和Lilien,2011,“Virtual Decoy Sets for Molecular Docking Benchmarks”,J Chem.Inf.and Model.,51,第2期,第196-202页;以及Wallach等人,2011,“Normalizing molecular clockingrankings using virtually generated decoys”,J.Chem.Inf.and Model.,51,第8期,第1817-1830页,它们中的每一个都特此通过引用并入。基于一些2D指纹(例如,ECFP,描述于“Extended-connectivity fingerprints”,2010,Journal of Chemical Information andModeling 50,第5期,第742-754页,其特此通过引用整体并入),将PMD选择成相对于一些一维物理化学描述符(例如,分子量)与彼此以及已知活性物相似,而在拓扑上是不相似的。拓扑不相似性的强制实施支持以下假设:诱饵很可能是非活性的,因为它们与任何已知活性物在化学上不同。
DUDE。DUDE是来自UCSF的Shoichet实验室的基于结构的虚拟筛选方法的熟知基准。参见Mysinger等人,2012,“Directory of useful decoys,enhanced(dud-e):Betterligands and decoys for better benchmarking”,Journal of Medicinal Chemistry55,第14期,第6582-6594页,PMID:22716043,其特此通过引用并入。它由102个靶标、22,886个活性物(每靶标平均224个活性物)和每个活性物50个PMD组成。随机选择30个靶标作为测试集,并且将其余72个靶标指定为训练集。
ChEMBL-20PMD。构建从ChEMBL版本20(Bento等人,2014,“The chemblbioactivity database:an update”,Nucleic Acids Research 42,第D1期,第D1083-D1090页,其特此通过引用并入)得到的类DUDE数据集。考虑通过以下滤波器的所有活性测量结果:(i)以IC50或Ki进行测量并且低于1μM的亲和力单位;(ii)大于或等于6的靶标置信度;(iii)靶标在scPDB数据库中具有注释的结合位点(Desaphy等人,2014,“sc-pclb:a 3d-database of ligandable binding sites 10years on”,Nucleic Acids Research D399-404,其特此通过引用并入)和
Figure GDA0003080192140000361
的分辨率;以及(iv)通过PAINS滤波器(Baell andHolloway,2010,“New substructure filters for removal of pan assay interferencecompounds(pains)from screening libraries and for their exclusion inbioassays”,Journal of Medicinal Chemistry 53,第7期,第2719-2740页,其特此通过引用并入)和乱交规则(Bruns和Watson,2012,“Rules for identifying potentiallyreactive or promiscuous compounds”,Journal of Medicinal Chemistry 55,第22期,第9763-9772页)的配体。遵循Mysinger等人,将靶标亲和力按其UniProt基因名称前缀进行分组(Bruns和Watson,2012,“Rules for identifying potentially reactive orpromiscuous compounds”,Journal of Medicinal Chemistry 55,第22期,第9763-9772页,其特此通过引用并入),并且除去存在少于10个活性配体的靶标。这个过滤过程产生了一组123,102个活性物和348个靶标。第二,将每个活性物与从ZINC数据库(Irwin和Shoichet,2005,“ZINC-a free database of commercially available compounds forvirtual screening”,J.Chem.Inf.Model.45,第1期,第177-182页,其特此通过引用并入)选择的一组30个PMD配对,相似于Mysinger等人,2012,“Directory of useful decoys,enhanced(dud-e):Better ligands and decoys for better benchmarking”,Journal ofMedicinal Chemistry 55,第14期,第6582-6594页,PMID:22716043,其特此通过引用并入。第三,通过首先将每个靶标的活性配体根据其Bemis-Murcko支架(Bemis和Murcko,1996,“The properties of known drugs.I.molecular frameworks”,Journal of MedicinalChemistry39,第15期,第2887-2893页)进行聚类,并选择至少3μM的配体分开地作为集群代表点(exemplar),来将数据分割成训练组、验证组和测试组。抛弃代表点少于10个的集群。第四,通过随机选择50个靶标及其对应的活性物和诱饵来限定测试集。最后,在所述集群上将训练集进一步分割成5倍交叉验证集。最终的数据集包括78,904个活性物、2,367,120个诱饵和290个靶标。
通过实验验证的非活性物。基于PMD的基准的限制在于它们排除了与活性分子相似的诱饵。制定这个设计决策是为了支持以下假设:在不进行实验验证的情况下,选定的诱饵很可能是非活性的。活性物与诱饵之间的这种强制实施的不相似性意味着PMD基准缺少一些具有挑战性的情况,其中活性分子和非活性分子高度相似(Hu等人,2012,“Systematicidentification and classification of three-dimensional activity cliffs”,Journal of Chemical Information and Modeling 52,第6期,第1490-1498页,其特此通过引用并入)。通过用已经被实验验证为非活性物的分子取代诱饵来包括这种具有挑战性的情况。构建与ChEMBL-20PMD相似的基准,但是用非活性分子替代PMD。如果分子的测量活性高于30μM,则这里将所述分子定义为非活性的。这产生了一组78,904个活性物、363,187个非活性物和290个靶标,在Bemis-Murcko聚类上将所述组分割成3倍交叉验证集。靶标小于,那么集群从未被分配到验证集中。因此,验证集中的靶标数量是149。
基于结构的深度卷积神经网络。在这个实验(AtomNet)中,卷积神经网络24的网络拓扑由以下各项组成:输入层26,接着是多个3D卷积28以及评分器30(所述评分器30由完全连接层组成),顶部是在活性和非活性分类上分配概率的逻辑代价层。隐藏层中的所有单元都使用ReLU激活函数来实施(Nair和Hinton,2010,2010年6月21-24日在Israel的Haifa进行的第27届国际机器学习会议(ICML-10)会议记录中的“′Rectified linear unitsimprove restricted Boltzmann machines”′,第807-814页,其特此通过引用并入)。
输入表示。输入层26接收放置于在靶标结合位点内取样的靶标蛋白质(靶标对象58)和小分子(训练对象/测试对象)的共复合物上的
Figure GDA0003080192140000371
3D网格的向量化版本。首先,使用泛洪算法来限定结合位点(参见Hendlich等人,1997,“Ligsite:automatic and efficientdetection of potential small molecule-binding sites in proteins.”,J.Mol.Graph.Model 15,第6期,其特此通过引用并入),所述结合位点由在scPDB数据库中注释的结合配体(参见Desaphy等人2014,“sc-pdb:a 3d-database of ligandablebinding sites 10years on”,Nucleic Acids Research D399-404,其特此通过引用并入)接种。第二,将共复合物的坐标转移到起源于结合位点的质心的三维笛卡尔坐标系。第三,对结合位点腔内的多个姿势进行取样。第四,对几何数据进行裁剪以配合在适当的边界框内。在这项研究中,使用定中心在原点处的
Figure GDA0003080192140000372
的立方体。第五,将输入数据平移到间隔为
Figure GDA0003080192140000373
的固定大小的网格。每个网格单元格保存表示那个位置中存在一些基本结构特征的值。基本结构特征可以从简单枚举的原子类型变化到更复杂的蛋白质-配体描述符,诸如SPLIF(Da和Kireev,“Structural protein ligand interaction fingerprints(splif)forstructure-based virtual screening:Method and benchmark study”,2014,Journal ofChemical Information and Modeling 54,第9期,第2555-2561页)、SIFt(Deng等人,2004,“Structural interaction fingerprint(SIFt):a novel method for analyzing three-dimensional protein-ligand binding interactions”,J.Med.Chem.47,第2期,第337-344页)或APIF(Prez-Nueno,2009,“Apif:A new interaction fingerprint based onatom pairs and its application to virtual screening”,Journal of ChemicalInformation and Modeling 49,第5期,第1245-1260页)。最后,将3D网格展开成1D浮点向量。
网络架构。3D卷积层28被实施来支持诸如滤波器大小、步幅和填补等参数,其方式相似于以下实施方式:Advances in Neural Information Processing Systems 2,编辑:Pereira,Burges,Bottou,Weinberger,第1097-1105页,Curran Associates有限公司中的Krizhevsky等人,2012,“Imagenet classification with deep convolutional neuralnetworks”,其特此通过引用并入。卷积神经网络24的网络结构由以下各项组成:如上所述的输入层26,随后是为128x 53、256x 33、256x 33、256x 33(滤波器的数量x滤波器维度)的四个卷积层28,以及各自具有1024个隐藏单元的两个完全连接层,顶部是在两个活性分类上的逻辑回归代价层。
卷积神经网络24训练。使用随机梯度下降与AdaDelta自适应学习法(Zeiler,2012“ADADELTA:an adaptive learning rate method”,CoRR,vol.abs/1212.5701,其特此通过引用并入);反向传播算法(Rumelhart等人,1988,“Neurocomputing:Foundations ofresearch,”ch.Learning Representations by Back-propagating Errors,第696-699页,Cambridge,MA,USA:MIT Press,其特此通过引用并入);以及每梯度步长极小批量的768个实例来训练卷积神经网络24。除了将模型配合到GPU存储器中的限制之外,没有尝试优化元参数。在六个Nvidia-K10 GPU上的训练时间大约为一周。
用于比较的基线方法。使用Smina(参见Koes等人,2013,“Lessons learned inempirical scoring with smina from the csar2011 benchmarking exercise”,Journalof Chemical Information and Modeling 53,第8期,第1893-1904页,2013,其特此通过引用并入),即AutoDock Vina(Trott和Olson,2010,“Autodock vina:Improving the speedand accuracy of docking with a new scoring function,efficient optimization,and multithreading”,Journal of Computational Chemistry 31,第2期,第455-461页,其特此通过引用并入)的分支,作为基于结构的评估的基线。Smina相对于其前身实施改进的经验评分函数和最小化例程,并且可以在GPLv2许可下免费获得。
结果。使用接收器操作特性(AUC)和logAUC下的面积来报告三个基准上的结果。AUC通过测量真阳性率与假阳性率曲线下的面积来表示归类(或排序)性能。1.0的AUC值意味着完美的分离,而0.5的值意味着随机分离。LogAUC是相似于AUC的测量结果,它通过将更大权重放在曲线的开始处来强调早期富集性能,因此正确地归类在排序列表的顶部处的情况对评分的贡献大于后者的贡献。这里,使用为10的对数底,这意味着排序结果的前1%的权重等于下10%的权重。由于logAUC值的非线性使得难以进行解释,从logAUC中减去log标度的随机曲线下的面积(0.14462)以得到经调整logAUC(参见Mysinger和Shoichet,2010,“Rapid context-dependent ligand desolvation in molecular docking”,Journal ofChemical Information and Modeling 50,第9期,第1561-1573页,其特此通过引用并入)。因此,正的经调整logAUC值暗示着好于随机执行,而负的经调整logAUC值则暗示着差于随机执行。为简洁起见,经调整logAUC和logAUC在本文中可互换使用。
表2和图10至13总结了跨三个不同基准的结果。本公开的示例性系统和方法在ChEMBL-20-PMD和DUDE基准上相似地执行。本公开的示例性系统和方法关于ChEMBL-20-PMD实现0.78的平均AUC和0.32的平均logAUC并且关于DUDE实现分别为0.8和0.33的平均AUC和平均logAUC。这种相似的性能并不令人惊讶,因为这两个基准以相似的方式构建。
图10提供针对AtomNet和Smina的50个ChEMBL-20-PMD靶标的AUC和logAUC值的分布。图11提供针对AtomNet和Smina的102个DUDE靶标的AUC和logAUC值的分布。图12提供针对AtomNet和Smina的149个ChEMBL-20-非活性靶标的AUC和logAUC值的分布。图13A和13B提供AUC和logAUC测量结果之间相对于早期富集的差异的图示。
表2
Figure GDA0003080192140000391
Figure GDA0003080192140000401
表2:AtomNet和Smina关于DUDE、ChEMBL-20-PMD和ChEMBL-20-非活性物基准的比较。DUDE-30是指显示的一组30个靶标,而DUDE-102是指完整的数据集。
表3
Figure GDA0003080192140000402
Figure GDA0003080192140000411
表3:AtomNet和Smina超过给定AUC阈值的靶标数量。例如,在CHEMBL-20PMD集上,AtomNet对于(50个可能靶标中的)24个靶标达到0.8或更好的AUC。ChEMBL-20PMD包含50个靶标,DUDE-30包含30个靶标,DUDE-102包含102个靶标,ChEMBL-20非活性物包含149个靶标。
表4
Figure GDA0003080192140000412
表4:AtomNet和Smina超过给定经调整logAUC阈值的靶标数量。例如,在CHEMBL-20PMD集上,AtomNet对于(50个可能靶标中的)27个靶标达到0.3或更好的经调整的logAUC。ChEMBL-20PMD包含50个靶标,DUDE-30包含30个靶标,DUDE-102包含102个靶标,ChEMBL-20非活性物包含149个靶标。
在我们的四个评估数据集中的每一个上,所公开的系统和方法(AtomNet)在对药物发现有用的准确度水平上相对于Smina实现数量级改进。在完整的DUDE集上,AtomNet在59个靶标(或57.8%)上达到或超过0.9AUC。Smina仅针对单个靶标(wee1)(约为基准的百分之一)达到0.9AUC。AtomNet针为88个靶标(86.3%)达到0.8或更好的AUC,而Smina针对17个靶标(16.7%)达到所述AUC。当评估被限制到DUDE的显示的30个靶标子集时,AtomNet针对14个靶标(46.7%)和22个靶标(73.3%)分别超过为0.9和0.8的AUC。Smina分别针对1个靶标(3.3%)和5个靶标(16.7%)达到相同精确度。相较于Smina所达到的0.7和0.694,AtomNet在显示集上实现为0.855和0.875的平均和中值AUC,使可获得的平均误差减少51.6%。正如预期的,AtomNet的性能针对其显示实例略有下降,而Smina的性能却没有。
在PMD数据集上,AtomNet针对10个显示靶标(集合的20%)达到0.9或更高的AUC,而Smina在靶标上未达到所述AUC。当准确度标准降低到0.8或更好的AUC时,AtomNet在25个靶标(50%)上获得成功,而Smina只在1个靶标(2%)上获得成功。
使用非活性物而不是性质匹配诱饵的第三基准似乎比其他两个更具挑战性。AtomNet针对10个靶标(6.7%)预测具有等于或高于0.9的AUC,而Smina的成功率为零。对于达到或超过0.8AUC,AtomNet针对45个靶标(30.2%)获得成功,而Smina针对4个(2.70%)获得成功。尽管Atomnet和Smina的性能都比之前的基准要差,但AtomNet关于整体和早期富集性能仍然明显胜过Smina。由于这个基准使用非活性物,它包括具有不同标签的结构相似的分子的具有挑战性的归类情况(Hu等人,“Systematic identification andclassification of three-dimensional activity cliffs”,2012,Journal of ChemicalInformation and Modeling 52,第6期,第1490-1498页)。这些情况排除在使用PMD的基准之外,因为诱饵在结构上必须是不相似的,以便假定它们可以被标记为非活性的。
此外,AtomNet显示出良好的早期富集性能,如由高的正logAUC值所指示。AtomNet关于其早期富集胜过Smina,相较于Smina的0.153,达到0.321的平均logAUC。使ROC曲线可视化示出AUC与logAUC测量结果之间关于早期富集的差异。例如,图13A显示针对靶标1m9m的AUC值是0.66,这可暗示着平庸的性能。然而,针对那个靶标由logAUC指示的早期富集是0.25,这表明:许多活性物集中在排序结果的最顶部。同样,靶标lqzy具有0.76的AUC值,但log-BL标度曲线图表明:其其活性物的35%集中在排序列表的最顶部,其中logAUC为0.44。
讨论-滤波器可视化。卷积层28由多个不同的滤波器组成,这些滤波器通过跨感受野上重复应用这些滤波器来学习鉴定特定的与局部相关的特征。在处理图像时,可以使这些滤波器可视化,以便验证模型是否能够学习相关的特征。例如,Advances in NeuralInformation Processing Systems 2,编辑:Pereira,Burges,Bottou,Weinberger,第1097-1105页,Curran Associates有限公司中的Krizhevsky等人,2012,“Imagenetclassification with deep convolutional neural networks”,其特此通过引用并入,证明其模型的第一卷积层中的滤波器可以检测线、边缘和颜色梯度。然而,在我们的情况下,滤波器不易被可视化,因为:(i)滤波器是三维的,并且(ii)输入通道是离散的。例如,两个接近的RGB值将产生两种相似的颜色,但是碳离氮并不比离氧更近。也就是说,相似值并不暗示着相似的功能。为了克服这些限制,采取间接方法。替代直接使滤波器可视化以便了解它们的专门化,将滤波器应用于输入数据,并且检查它们最大限度地射击的位置。使用这种技术,滤波器被映射到化学功能。例如,对来自第一卷积层28的特定滤波器所射击的靶标对象上的三维位置的视觉检查揭示:这个滤波器专门用作磺酰基/磺酰胺检测器。参见例如图15A和15B,其说明了这种相互作用。这证明了所述模型能够从简单的化学特征学习更复杂的化学特征。在这种情况下,滤波器已经在没有任何化学先验知识的情况下推断出输入原子类型的有意义的空间布置。
与其他基于结构的方法的比较。这个实例提供用于将深度卷积神经网络24应用于生物活性预测而不是报告与其他基于结构的方法的针锋相对的比较的所公开系统和方法的实施方案。为了把结果放在背景中,使用流行程序Smina作为参考的基线点。Smina具有实际的优点:它快速、免费、并且处于积极的开发之中,所以适合以及时且成本有效的方式分析大基准。尽管如此,使用出版作品,通过将AtomNet与文献中报道的其他商业对接算法进行比较,提供了更广泛的背景。像Smina一样,DUDE是公众可获得的并且是并被广泛使用的。DUDE具有一定的限制:例如,因为使用用于强化活性物与诱饵之间的差异性的相同描述符来训练基于配体的评分器,所以DUDE和其他PMD基准不适于对基于配体的模型进行评估(参见Irwin,“Community benchmarks for virtual screening”,2008,J.Comput.-AidedMol.Des.22,第3-4期,第193-199页,其特此通过引用并入)。此外,如早先所讨论,在对DUDE进行评估时,不能保证训练与测试之间没有污染,这是构建所公开的ChEMBL-20-PMD基准的主要动机。然而,关于这两个基准的相似性能表明结果是稳健的。因此提出以下与先前描述的结果的比较:Gabel等人(参见Gabel等人,2014,“Beware of machine learning-basedscoring functions on the danger of developing black boxes”,Journal ofChemical Information and Modeling 54,第10期,第2807-2815页,其特此通过引用并入)评估了来自DUDE的代表性的一组10个靶标上的Surflex-Dock(参见Spitzer和Jain,2012,“Surftex-dock:Docking benchmarks and real-world application”,Journal ofComputer-Aided Molecular Design 26,第6期,第687-699页,其特此通过引用并入)。相较于AtomNet所达到的0.83,Surfiex-Dock的中值AUC为0.76。Coleman等人(参见Coleman等人,2014,“Samp14&dock3.7:lessons for automated docking procedures”,Journal ofComputer-Aided Molecular Design 28,第3期,第201-209页,其特此通过引用并入)以完全自动的方式在整个DUDE基准上评估了DOCK-3.7(Coleman等人,“Ligand pose andorientational sampling in molecular docking”PLoS ONE8,p.e75992,其特此通过引用并入)。相较于我们的0.792的AUC和0.306的logAUC,他们达到了0.674的平均AUC和0.164的logAUC。
结论。这个实例(AtomNet)中提供的所公开的系统和方法是第一基于结构的深度卷积神经网络,其被设计来预测用于药物发现应用的小分子的生物活性。局部约束的深度卷积体系结构允许所述系统通过分层次地将最接近的基本化学特征组成错综复杂的特征来对分子结合的复杂非线性现象进行建模。通过合并结构靶标信息,AtomNet可以预测新的活性分子,即使对于没有先前已知的调制剂的靶标。AtomNet在广泛使用的基于结构的基准上显示了出色的结果,在所述靶标的57.8%(这是广泛使用的对接方法的靶标量的59倍)上达到大于0.9的AUC。
实施例2-用例。
以下是仅为了说明性目的而提供的示例性用例,其描述了本发明的一些实施方案的一些应用。可以考虑其他用途,并且下面提供的实例是非限制性的,并且可以经受变化、省略或者可以包含另外的元素。
尽管下面的每个实例都说明了结合亲和力预测,但是可以发现这些实例因以下方面而有所不同:是在单个分子、一组还是一系列迭代修饰的分子上进行预测;是针对单个靶标还是多个靶标进行预测;是需要还是避免针对靶标的活性;以及重要数量是绝对活性还是相对活性;或者,如果分子或靶标组被特别地选择(例如对于分子,被选择成是现有的药物或杀虫剂;对于蛋白质,被选择成具有已知的毒性或副作用)。
击中发现。制药公司花费数百万美元筛选化合物,以发现新的前瞻性药物导向。测试大型化合物集合以发现与感兴趣的疾病靶标有任何相互作用的少量化合物。不幸的是,湿实验室筛选存在实验误差,并且除了进行测定实验的成本和时间之外,收集大量筛选集合通过存储约束、贮存稳定性或化学成本而带来重大挑战。即使是最大的制药公司也只有数十万到数百万种化合物,对比数千万的可商业获得的分子和数亿可模拟的分子。
虚拟高通量筛选是物理实验的潜在更有效的替代方案。以同样的方式,物理模拟可以帮助航空航天工程师在对模型进行物理测试之前评估可能的机翼设计,分子的计算筛选可以将实验测试集中在一小组高似然分子上。这可以减少筛选成本和时间,减少假阴性,提高成功率,和/或覆盖更广泛的化学空间。
在此应用中,可以将蛋白质靶标作为输入提供给所述系统。还可以提供大量的分子。针对每个分子,预测针对蛋白质靶标的结合亲和力。可以使用所得评分来对分子进行排序,评分最好的分子最可能与靶蛋白结合。任选地,可以针对相似分子的群集分析排序的分子列表;可以使用大群集作为对分子结合的更强预测;或者可以跨群集选择分子以确保证实实验中的多样性。
脱靶副作用预测。许多药物可能会被发现有副作用。通常,这些副作用是由于与负责药物治疗效果之外的生物途径的相互作用。这些脱靶副作用可能是不舒服或危险的,并且限制了药物使用安全的患者人群。因此,脱靶副作用是评估进一步开发哪些候选药物的重要标准。虽然表征药物与多种替代生物靶标的相互作用是重要的,但是这类测试的开发和运行可能是昂贵且耗时的。计算预测可以使这个过程更有效。
在应用本发明的实施方案时,可以构建与显著的生物反应和/或副作用相关联的一组生物靶标。所述系统然后可以被配置来依次预测针对这组中的每种蛋白质的结合。针对特定靶标的强活性(即,与已知激活脱靶蛋白的化合物一样有效力的活性)可能暗指由于脱靶效应而具有副作用的分子。
毒性预测。毒性预测是脱靶副作用预测的特别重要的特例。晚期临床试验中大约一半的候选药物由于不可接受的毒性而失败。作为新药批准程序的一部分(并且在候选药物可以在人体内进行检测之前),FDA要求针对包括细胞色素P450肝酶(抑制这些肝酶可导致来自药物间相互作用的毒性)或hERG通道(其结合可导致QT延长,导致室性心律失常和其他不良心脏作用)在内的一组靶标的毒性测试数据。
在毒性预测中,所述系统可以被配置来将脱靶蛋白约束为关键抗靶标剂(例如,CYP450、hERG或5-HT2B受体)。然后可以预测候选药物针对这些蛋白质的结合亲和力。任选地,可以分析分子以预测的一组代谢物(在原始分子的代谢/降解过程中由身体产生的随后的分子),也可以针对与抗靶标剂的结合对所述代谢物进行分析。可标识并修改有问题的分子以避免毒性,或者可停止分子系列的发展以避免浪费另外的资源。
效力优化。候选药物的关键要求之一是针对其疾病靶标的强结合。筛选很少会找到结合强度足以在临床上有效的化合物。因此,最初的化合物促进长期的优化过程,其中药物化学家反复修改分子结构以提出标靶结合强度增大的新分子。对每个新分子进行合成和测试,以确定这些改变是否成功地改进了结合。所述系统可以被配置来通过用计算预测替代物理测试来促进这个过程。
在此应用中,可以将疾病靶标和一组先导分子输入到所述系统中。所述系统可以被配置来针对所述一组先导分子产生结合亲和力预测。任选地,所述系统可以突出显示候选分子之间的差异,这可有助于通知结合亲和力的预测差异的原因。药物化学家用户可以使用此信息来提出有希望改进针对靶标的活性的一组新分子。这些新的替代分子可以按相同的方式进行分析。
选择性优化。如以上所讨论,分子倾向于以各种强度结合众多蛋白质。例如,蛋白激酶(它是流行的化学治疗靶标)的结合口袋非常相似,并且大多数激酶抑制剂影响许多不同的激酶。这意味着各种生物学途径被同时修改,这产生“脏”的医药概况和许多副作用。因此,设计许多药物的关键挑战并不是活性本身而是特异性:从一组可能的密切相关的蛋白质中选择性地靶向一种蛋白质(或蛋白质子集)的能力。
我们的系统可以减少优化候选药物选择性的时间和成本。在此应用中,用户可以输入两组蛋白质。一组描述了化合物应该对其有活性的蛋白质,而另一组描述了化合物应该对其无活性的蛋白质。所述系统可以被配置来将分子针对两个组中的所有蛋白质进行预测,从而建立相互作用的分布强度。任选地,可以分析这些概况以建议蛋白质中的解模式。用户可以使用由所述系统生成的信息来考虑对分子的将改进与不同蛋白质组的相对结合的结构修饰,并且设计具有更好特异性的新候选分子。任选地,所述系统可以被配置来突出显示候选分子之间的差异,这可有助于通知选择性的预测差异的原因。可以反复分析所提出的候选者,以进一步细化它们的活性概况的特异性。
用于自动分子设计的适应度函数:执行上述优化的自动化工具很有价值。成功的分子需要在效力、选择性和毒性之间进行优化和平衡。“支架迁越(Scaffold hopping)”(当保留先导化合物的活性但显著改变化学结构时)可以产生改进的药代动力学、药效学、毒性或知识产权概况。存在迭代地建议新分子的算法,诸如分子的随机生成、填充给定结合位点的分子节段的生长,使一群分子“突变”和“杂交”的遗传算法,以及分子节段与生物等排替代物的交换。必须针对上述多个目的(效力、选择性、毒性)评估由这些方法中的每一种生成的候选药物,并且可以按与所述技术可以关于先前的每种手动设置提供信息(结合预测、选择性、副作用和毒性预测)相同的方式来将其合并到自动化分子设计系统中。
药物新用。所有药物都有副作用,并且有时这些副作用是有益的。最熟知的实例可能是阿司匹林,它通常用来治疗头痛,但也被服用用于心血管健康。药物重新定位可以显著减少药物发现的成本、时间和风险,因为这些药物已经被证明对人类是安全的,并且已经针对在患者内的快速吸收和有利稳定性被优化。不幸的是,药物重新定位在很大程度上是偶然的。例如,西地那非(Viagra)作为高血压药物被开发,并且出乎意料地被观察到能有效治疗勃起功能障碍。在药物新用的背景中可以使用脱靶效应的计算预测来鉴定可用于治疗替代性疾病的化合物。
在此应用中,如在脱靶副作用预测中,用户可以组装一组可能的靶蛋白,其中每种蛋白与疾病相关。也就是说,抑制每种蛋白将治疗(可能不同的)疾病;例如环加氧酶-2的抑制剂可以缓解炎症,而因子Xa的抑制剂可以用作抗凝血剂。如果存在的话,用批准药物的结合亲和力注释这些蛋白。然后,我们组装一组分子,将这组分子限制到已针对在人类中使用获得批准或对其进行调查的分子。最后,对于每对蛋白质和分子,用户可以使用所述系统来预测结合亲和力。如果分子的预测结合亲和力接近有效药物对蛋白质的结合亲和力,则可以鉴定用于药物新用的候选物。
耐药性预测。耐药性是药物使用的必然结果,这给迅速分裂和突变的病原群体施加选择压力。在诸如病毒(HIV)、外源微生物(MRSA)和失调宿主细胞(癌症)这样多样化的病原体中看到耐药性。随着时间的推移,给定药品将变得无效,不管所述药品是抗生素还是化学治疗剂。在那一点上,干预可以转向有希望仍然有效力的不同药品。在HIV中,有众所周知的疾病恶化途径,这些途径由在患者接受治疗时病毒将积聚的那些突变来限定。
预测病原体适应医疗干预的方式相当令人感兴趣。一种方法是表征在治疗时病原体中将发生哪些突变。确切地,药品的蛋白质靶标需要突变以便避免与药物结合,同时继续与其天然底物结合。
在此应用中,可提出一组可能的靶蛋白突变。针对每种突变,可以预测所得蛋白质形状。针对这些突变蛋白质形式中的每一种,所述系统可以被配置来预测针对天然底物和药物两者的结合亲和力。导致蛋白质不再与药物结合但是还继续与天然底物结合的突变是赋予抗药性的候选者。这些突变的蛋白质可以用作针对其设计药物的靶标,例如通过使用这些蛋白质作为这些其他预测用例之一的输入。
个体化药品。不应施用无效的药品。除了成本和困扰之外,所有药品都有副作用。道德和经济方面的考虑使得仅在益处超过这些危害时才必须给药。能够预测何时药品将有用可能是重要的。人们因少量突变而彼此不同。但是,小的突变可能具有深远的影响。当这些突变发生在疾病靶标的活性(正位)或调节(变构)位点时,它们可防止药物结合,从而阻断药品的活性。当已知(或预测)到特定的人的蛋白质结构时,所述系统可以被配置来预测药物是否有效,或者所述系统可以被配置来预测药物何时将不起作用。
对于此应用,所述系统可以被配置来作为输入接收药物的化学结构和特定患者的特定表达的蛋白质。所述系统可以被配置来预测药物与蛋白质之间的结合,并且如果药物对特定患者的那种蛋白质结构的预测结合亲和力太弱以致于不具有临床有效性,则临床医生或从业者可阻止徒劳地为患者开出那种药物。
药物试验设计。本申请将上述个体化药品用例推广到患者群体的情况。当所述系统可以预测药物是否对特定患者表型有效时,可以使用此信息来帮助设计临床试验。通过排除特定疾病靶标将不受药物充分影响的患者,临床试验可以使用较少的患者来达到统计强度。较少的患者直接降低了临床试验的成本和复杂性。
对于此应用,用户可以将可能的患者群体分成由不同蛋白质(由于例如突变或同种型)的表达来表征的亚群。所述系统可以被配置来预测候选药物针对不同蛋白质类型的结合强度。如果针对特定蛋白质类型的预测结合强度指示下降到低于临床可达到的患者体内浓度(如基于例如试管、动物模型或健康志愿者中的物理表征)的必需药物浓度,则预测候选药物对于那个蛋白质亚群无效。然后可以将具有那种蛋白质的患者排除在药物试验之外。
农药设计。除了制药应用之外,农药行业使用结合预测来设计新杀虫剂。例如,对杀虫剂的一个迫切要求就是它们断绝所感兴趣的单一物种,而不会不利地影响任何其他物种。为了生态安全,人们可能希望杀死一个象鼻虫而不杀死大黄蜂。
对于此应用,用户可以将来自所考虑的不同物种的一组蛋白质结构输入到所述系统中。可将蛋白质子集指定为针对其有活性的蛋白质,而将其余蛋白质指定为分子针对其应无活性的蛋白质。如同先前的用例,将针对每个靶标考虑一些分子(无论是在现有的数据库中的还是重新生成的),并且所述系统将返回针对第一组蛋白质同时避免针对第二组具有最大有效性的分子。
材料科学。为了预测新材料的行为和性质,分析分子相互作用可以是有用的。例如,为了研究溶剂化,用户可以输入给定小分子的重复晶体结构,并且评估小分子的另一个实例在晶体表面上的结合亲和力。为了研究聚合物强度,可以相似于蛋白质靶标结构输入一组聚合物链,并且可以输入聚合物的低聚物作为小分子。因此所述系统可以预测聚合物链之间的结合亲和力。
在一个具体实例中,所述系统可以用于通过例如预测氢键和π键堆栈的强度来预测诸如Kevlar的材料的强度。因此,如本文所公开的结合亲和力预测可用于促进开发改进的材料,诸如KEVLAR。
模拟。模拟器通常测量分子与蛋白质的结合亲和力,因为分子停留在蛋白质的区域中的倾向与其在那里的结合亲和力相关。可使用对控制结合的特征的精确描述来鉴定具有特别高或低的结合能的区域和姿势。可以将能量描述折叠成Monte Carlo模拟来描述分子的运动和蛋白质结合区域的占据。相似地,用于研究和建模系统生物学的随机模拟器可以从对分子浓度的微小变化如何影响生物网络的准确预测中受益。
结论
已经参考具体实施方式描述了对于解释目的的上述描述。然而,以上的说明性讨论并不意图是穷尽的或将实施方式限制到所公开的精确形式。鉴于以上教导,许多修改和变动是可能的。选择和描述实施方式是为了最佳地说明原理及其实际应用,由此使本领域的其他技术人员能够最佳地利用所述实施方式以及具有如适于所涵盖的特定用途的各种修改的各种实施方式。

Claims (36)

1.一种用于使用空间数据表征测试对象的计算机系统,所述计算机系统包括:
至少一个通用处理器;以及
可由所述至少一个通用处理器寻址的通用存储器,所述通用存储器存储用于由所述至少一个通用处理器执行的至少一个程序,所述至少一个程序包括用于以下各项的指令:
(A)获得靶标对象的空间坐标;
(B)以多个不同姿势的每个姿势用所述靶标对象对所述测试对象进行建模,从而创建多个体素图,其中所述多个体素图中的每个相应体素图包括处于所述多个不同姿势中的相应姿势的所述测试对象;
(C)将所述多个体素图中的每个体素图展开成对应向量,从而创建多个向量,其中所述多个向量中的每个向量具有相同的大小;
(D)将所述多个向量中的每个相应向量输入到网络架构,所述网络架构包括(i)用于顺序地接收所述多个向量的输入层、(ii)多个卷积层、以及(iii)评分器,其中
所述多个卷积层包括初始卷积层和最终卷积层,
所述多个卷积层中的每个层都与不同的一组权重相关联,
响应于所述多个向量中的相应向量的输入,所述输入层将第一多个值馈送到所述初始卷积层中作为所述相应向量中的值的第一函数,
除了所述最终卷积层之外的每个相应卷积层都将作为(i)与所述相应卷积层相关联的所述不同的一组权重以及(ii)由所述相应卷积层接收的输入值的相应第二函数的中间值馈送到所述多个卷积层中的另一个卷积层中,以及
所述最终卷积层将作为(i)与所述最终卷积层相关联的所述不同的一组权重和(ii)由所述最终卷积层接收的输入值的第三函数的最终值馈送到所述评分器中;
(E)从所述评分器获得多个评分,所述多个评分中的每个评分对应于所述多个向量中的向量到所述输入层中的所述输入;以及
(F)使用所述多个评分来提供所述测试对象的表征。
2.如权利要求1所述的计算机系统,其中所述评分器包括多个完全连接层和评估层,其中所述多个完全连接层中的完全连接层馈送到所述评估层中。
3.如权利要求1所述的计算机系统,其中所述评分器包括决策树、多重累加回归树、聚类算法、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、进化法、投影寻踪以及其集合。
4.如权利要求1所述的计算机系统,其中所述多个向量中的每个向量是一维向量。
5.如权利要求1所述的计算机系统,其中所述多个不同姿势包括2个或更多个姿势。
6.如权利要求1所述的计算机系统,其中所述多个不同姿势在markup链Monte Carlo取样、模拟退火、Lamarckian遗传算法或遗传算法之一中使用对接评分函数来获得。
7.如权利要求1所述的计算机系统,其中所述多个不同姿势使用贪婪算法通过增量搜索来获得。
8.如权利要求1所述的计算机系统,其中所述靶标对象是聚合物。
9.如权利要求8所述的计算机系统,其中所述聚合物是蛋白质、多肽、多核酸、多核糖核酸、多糖或其任何组合的组合体。
10.如权利要求1所述的计算机系统,其中所述靶标对象是聚合物,并且所述空间坐标是所述聚合物在
Figure FDA0003036994900000021
或更好的分辨率或在
Figure FDA0003036994900000022
或更好的分辨率下分辨的晶体结构的一组三维坐标{x1,…,xN}。
11.如权利要求1所述的计算机系统,其中所述靶标对象是聚合物,并且所述空间坐标是所述聚合物的通过核磁共振、中子衍射或低温电子显微镜法确定的三维坐标的集合。
12.如权利要求1所述的计算机系统,其中所述测试对象是化学化合物,并且使用所述多个评分来表征所述测试对象包括取所述多个评分的集中趋势的量度,其中
当所述集中趋势的量度满足预定阈值或预定阈值范围时,所述表征包括认为所述测试对象具有第一归类,并且
当所述集中趋势的量度不能满足所述预定阈值或所述预定阈值范围时,所述表征包括认为所述测试对象具有第二归类。
13.如权利要求1所述的计算机系统,其中所述使用所述多个评分来表征所述测试对象包括取所述多个评分的加权平均值,其中
当所述加权平均值满足预定阈值或预定阈值范围时,所述测试对象被认为具有第一归类,并且
当所述加权平均值不满足所述预定阈值或所述预定阈值范围时,所述测试对象被认为具有第二归类。
14.如权利要求13所述的计算机系统,其中所述加权平均值是所述多个评分的波尔兹曼平均值。
15.如权利要求13所述的计算机系统,其中
所述第一归类是所述测试对象相对于所述靶标对象的高于第一结合值的IC50、EC50、Kd或KI,并且
所述第二归类是所述测试对象相对于所述靶标对象的低于所述第一结合值的IC50、EC50、Kd或KI。
16.如权利要求15所述的计算机系统,其中所述第一结合值是一微摩尔或十微摩尔。
17.如权利要求15所述的计算机系统,其中所述第一结合值是不同测试对象相对于所述靶标对象的预测IC50、EC50、Kd或KI。
18.如权利要求1所述的计算机系统,其中所述使用所述多个评分来表征所述测试对象包括取所述多个评分的加权平均值,其中当所述加权平均值满足多个阈值范围中的相应阈值范围时,所述(F)包括认为所述测试对象具有多个相应归类中的唯一地对应于所述相应阈值范围的相应归类。
19.如权利要求18所述的计算机系统,其中所述多个相应归类中的每个相应归类是所述测试对象相对于所述靶标对象的IC50、EC50、Kd或KI范围。
20.如权利要求19所述的计算机系统,其中所述多个相应归类中的第一归类介于一微摩尔与十微摩尔之间或介于1纳摩尔与100纳摩尔之间。
21.如权利要求1所述的计算机系统,其中所述靶标对象是具有活性位点的聚合物,所述测试对象是化学组合物,并且所述建模包括将所述测试对象对接到所述聚合物的所述活性位点中。
22.如权利要求1所述的计算机系统,其中所述多个卷积层中的卷积层具有多个滤波器,并且其中所述多个滤波器中的每个滤波器以步幅Y对N3的立方体输入空间进行卷积,其中N是2或更大的整数并且Y是正整数。
23.如权利要求22所述的计算机系统,其中与所述卷积层相关联的所述不同的一组权重与所述多个滤波器中的相应滤波器相关联。
24.如权利要求1所述的计算机系统,其中所述评分器包括多个完全连接层和逻辑回归代价层,其中所述多个完全连接层中的完全连接层馈送到所述逻辑回归代价层中。
25.如权利要求1所述的计算机系统,其中
所述靶标对象是具有活性位点的聚合物,
所述测试对象是化学组合物,
所述建模包括执行所述靶标对象和所述测试对象的分子动力学运行,从而形成所述靶标对象和所述测试对象一起随时间推移的轨迹,并且
所述多个不同姿势的子集通过在一段时间内拍摄所述轨迹的快照来获得。
26.如权利要求1所述的计算机系统,其中所述计算机系统还包括具有图形处理存储器的图形处理单元,其中所述图形处理存储器包括所述网络架构并且执行所述(D),并且所述至少一个通用处理器执行所述(F)。
27.如权利要求1所述的计算机系统,其中所述测试对象的所述表征是所述测试对象的毒性预测或所述测试对象针对分子疾病靶标的效力的预测,其中所述效力是所述测试对象针对所述分子疾病靶标的结合亲和力预测。
28.如权利要求1所述的计算机系统,其中所述测试对象的所述表征是所述测试对象针对第一分子靶标相对于第二分子靶标的选择性的预测,其中所述第一分子靶标与疾病相关。
29.如权利要求12所述的计算机系统,其中
所述第一归类是所述测试对象对宿主生物体无毒的确定,并且
所述第二归类是所述测试对象对所述宿主生物体有毒的确定。
30.如权利要求12所述的计算机系统,其中
所述第一归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到分子疾病靶标的预测,并且
所述第二归类是所述测试对象以高于所述第一结合值的IC50、EC50、Kd或KI结合到分子疾病靶标的预测。
31.如权利要求12所述的计算机系统,其中
所述第一归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到第一分子疾病靶标并且所述测试对象以高于所述第一结合值的IC50、EC50、Kd或KI结合到第二分子疾病靶标的预测,并且
所述第二归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到第一分子疾病靶标并且所述测试对象以低于所述第一结合值的IC50、EC50、Kd或KI结合到第二分子疾病靶标的预测。
32.如权利要求30或31所述的计算机系统,其中所述第一结合值是一微摩尔或十微摩尔。
33.如权利要求13或14所述的计算机系统,其中
所述第一归类是所述测试对象对宿主生物体无毒的确定,并且
所述第二归类是所述测试对象对所述宿主生物体有毒的确定。
34.如权利要求13或14所述的计算机系统,其中
所述第一归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到第一分子疾病靶标并且所述测试对象以高于所述第一结合值的IC50、EC50、Kd或KI结合到第二分子疾病靶标的预测,并且
所述第二归类是所述测试对象以低于第一结合值的IC50、EC50、Kd或KI结合到第一分子疾病靶标并且所述测试对象以低于所述第一结合值的IC50、EC50、Kd或KI结合到第二分子疾病靶标的预测。
35.如权利要求34所述的计算机系统,其中所述第一结合值是一微摩尔或十微摩尔。
36.如权利要求19或20所述的计算机系统,其中所述靶标对象与疾病相关,并且预测通过所述测试对象到所述靶标对象的结合对所述靶标对象的抑制减轻所述疾病。
CN201680057614.0A 2015-10-04 2016-10-04 用于将卷积网络应用于空间数据的系统和方法 Active CN108140131B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201562236962P 2015-10-04 2015-10-04
US62/236,962 2015-10-04
US15/050,983 US9373059B1 (en) 2014-05-05 2016-02-23 Systems and methods for applying a convolutional network to spatial data
US15/050,983 2016-02-23
US15/187,018 US10002312B2 (en) 2014-05-05 2016-06-20 Systems and methods for applying a convolutional network to spatial data
US15/187,018 2016-06-20
PCT/US2016/055369 WO2017062382A1 (en) 2015-10-04 2016-10-04 Systems and methods for applying a convolutional network to spatial data

Publications (2)

Publication Number Publication Date
CN108140131A CN108140131A (zh) 2018-06-08
CN108140131B true CN108140131B (zh) 2021-09-14

Family

ID=58488391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680057614.0A Active CN108140131B (zh) 2015-10-04 2016-10-04 用于将卷积网络应用于空间数据的系统和方法

Country Status (8)

Country Link
EP (2) EP3356999B1 (zh)
JP (1) JP6975140B2 (zh)
CN (1) CN108140131B (zh)
DK (1) DK3356999T3 (zh)
ES (1) ES2772687T3 (zh)
HU (1) HUE047807T2 (zh)
SG (1) SG11201802759YA (zh)
WO (1) WO2017062382A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10795836B2 (en) 2017-04-17 2020-10-06 Microsoft Technology Licensing, Llc Data processing performance enhancement for neural networks using a virtualized data iterator
US11521712B2 (en) 2017-05-19 2022-12-06 Accutar Biotechnology Inc. Computational method for classifying and predicting ligand docking conformations
KR102601604B1 (ko) * 2017-08-04 2023-11-13 삼성전자주식회사 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치
EP3801623A4 (en) * 2018-06-01 2022-03-23 Grail, LLC NEURAL CONVOLUTIONAL NETWORK SYSTEMS AND DATA CLASSIFICATION METHODS
CN109033505A (zh) * 2018-06-06 2018-12-18 东北大学 一种基于深度学习的超快冷温度控制方法
CN108880568A (zh) * 2018-07-06 2018-11-23 中国石油大学(华东) 一种基于卷积神经网络的串行抵消列表译码参数优化方法
US20210304847A1 (en) * 2018-09-21 2021-09-30 Deepmind Technologies Limited Machine learning for determining protein structures
US11455439B2 (en) * 2018-11-28 2022-09-27 Robert Bosch Gmbh Neural network force field computational algorithms for molecular dynamics computer simulations
CN109800231B (zh) * 2019-01-17 2020-12-08 浙江大学 一种基于Flink的实时轨迹co-movement运动模式检测方法
WO2020170101A1 (en) * 2019-02-19 2020-08-27 King Abdullah University Of Science And Technology Reduced feature generation for signal classification based on a position weight matrix
CN109959911A (zh) * 2019-03-25 2019-07-02 清华大学 基于激光雷达的多目标自主定位方法及装置
EP3962932A4 (en) * 2019-05-02 2023-05-10 Board of Regents, The University of Texas System SYSTEM AND METHODS FOR INCREASING THE STABILITY OF SYNTHETIC PROTEINS
CN110265092B (zh) * 2019-05-10 2021-08-24 江苏理工学院 基于人工智能的抗体-抗原分子对接评价方法和系统
CN110163369B (zh) * 2019-05-21 2021-05-11 北京迈格威科技有限公司 图像识别与神经网络模型的训练方法、装置和系统
CN110600125B (zh) * 2019-09-18 2022-05-24 山东浪潮科学研究院有限公司 一种基于人工智能的体态分析助手系统及传输方法
CN110675488B (zh) * 2019-09-24 2023-02-28 电子科技大学 基于深度学习的创意三维体素模型的建模系统的构建方法
CN110995277B (zh) * 2019-12-06 2021-06-01 浙江大学 一种多层神经网络辅助的罚对偶分解信道译码方法
CN112086145B (zh) * 2020-09-02 2024-04-16 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质
CN112488309B (zh) * 2020-12-21 2023-10-20 清华大学深圳国际研究生院 基于临界阻尼动量的深度神经网络的训练方法及系统
CN112668536B (zh) * 2021-01-06 2023-08-25 北京理工大学 一种基于机载光电视频的轻量化旋转目标检测识别方法
CN114822717A (zh) * 2021-01-28 2022-07-29 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置、设备及存储介质
CN115083537A (zh) * 2021-03-10 2022-09-20 腾讯科技(深圳)有限公司 分子骨架跃迁的处理方法、装置、介质及电子设备
CN113066539A (zh) * 2021-03-22 2021-07-02 上海商汤智能科技有限公司 预测方法及相关装置、设备
CN113721293B (zh) * 2021-08-30 2022-07-01 电子科技大学 一种基于深度学习的多波地震信号人工智能匹配方法
WO2023055949A1 (en) * 2021-10-01 2023-04-06 Atomwise Inc. Characterization of interactions between compounds and polymers using negative pose data and model conditioning
CN114708931B (zh) * 2022-04-22 2023-01-24 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081766A (en) * 1993-05-21 2000-06-27 Axys Pharmaceuticals, Inc. Machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
CN102222178A (zh) * 2011-03-31 2011-10-19 清华大学深圳研究生院 一种筛选和/或设计针对多靶标的药物的方法
CN102663214A (zh) * 2012-05-09 2012-09-12 四川大学 一种集成药物靶标预测系统的构建和预测方法
CN102930152A (zh) * 2012-10-26 2013-02-13 中国科学院上海药物研究所 一种模拟配体分子与靶标受体反应并计算预测该反应的热力学与动力学参数的方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7236615B2 (en) * 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
EP2031528A4 (en) * 2006-05-26 2009-06-17 Univ Kyoto ESTIMATING A PROTEIN-COMPOUND INTERACTION AND RATIONAL DESIGN OF A LIBRARY OF COMPOUNDS BASED ON CHEMICAL GENOMIC INFORMATION
JP5905781B2 (ja) * 2012-06-13 2016-04-20 学校法人沖縄科学技術大学院大学学園 相互作用予測装置、相互作用予測方法、および、プログラム
CN102930181B (zh) * 2012-11-07 2015-05-27 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US20150278441A1 (en) * 2014-03-25 2015-10-01 Nec Laboratories America, Inc. High-order semi-Restricted Boltzmann Machines and Deep Models for accurate peptide-MHC binding prediction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081766A (en) * 1993-05-21 2000-06-27 Axys Pharmaceuticals, Inc. Machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
CN102222178A (zh) * 2011-03-31 2011-10-19 清华大学深圳研究生院 一种筛选和/或设计针对多靶标的药物的方法
CN102663214A (zh) * 2012-05-09 2012-09-12 四川大学 一种集成药物靶标预测系统的构建和预测方法
CN102930152A (zh) * 2012-10-26 2013-02-13 中国科学院上海药物研究所 一种模拟配体分子与靶标受体反应并计算预测该反应的热力学与动力学参数的方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Computational methods for constructing protein structure models from 3D electron microscopy maps;Juan Esquivel-Rodriguez;《Journal of Structural Biology》;20131031;第93-102页 *
Johannes Aßfalg.3dstring:a feature string kernel for 3d object classification on voxelized data.《CIKM "06: Proceedings of the 15th ACM international conference on Information and knowledge》.2006, *
蛋白质二级结构预测的多核学习方法;连云涓;《中国优秀硕士学位论文全文数据库 基础科学辑》;20131015;正文第1-81页 *

Also Published As

Publication number Publication date
WO2017062382A1 (en) 2017-04-13
EP3356999A1 (en) 2018-08-08
EP3680820B1 (en) 2021-12-01
ES2772687T3 (es) 2020-07-08
JP2019501433A (ja) 2019-01-17
DK3356999T3 (da) 2020-02-03
JP6975140B2 (ja) 2021-12-01
HUE047807T2 (hu) 2020-05-28
EP3680820A1 (en) 2020-07-15
SG11201802759YA (en) 2018-05-30
CN108140131A (zh) 2018-06-08
EP3356999B1 (en) 2019-11-27
EP3356999A4 (en) 2019-07-03

Similar Documents

Publication Publication Date Title
CN108140131B (zh) 用于将卷积网络应用于空间数据的系统和方法
US11080570B2 (en) Systems and methods for applying a convolutional network to spatial data
US12056607B2 (en) Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
CN106575320B (zh) 结合亲和力预测系统和方法
Schneider et al. Artificial neural networks for computer-based molecular design
KR101239466B1 (ko) 분자 분해를 위한 방법 및 장치
US20210104331A1 (en) Systems and methods for screening compounds in silico
Scott et al. Classification of protein-binding sites using a spherical convolutional neural network
WO2023212463A1 (en) Characterization of interactions between compounds and polymers using pose ensembles
JP2024537793A (ja) 負のポーズデータ及びモデルコンディショニングを使用した化合物とポリマーとの間の相互作用の特徴付け
Bouvier Protein–Protein Interface Topology as a Predictor of Secondary Structure and Molecular Function Using Convolutional Deep Learning
Fossépré et al. Understanding the Structure and Dynamics of Peptides and Proteins Through the Lens of Network Science
CA2915953C (en) Systems and methods for physical parameter fitting on the basis of manual review
Lumipuu Computer-aided identification of the binding sites of protein-ligand complexes
Cazals et al. Modeling Macromolecular Complexes: A Journey Across Scales

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1256353

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant