CN114730397A - 用于通过计算机模拟筛选化合物的系统和方法 - Google Patents
用于通过计算机模拟筛选化合物的系统和方法 Download PDFInfo
- Publication number
- CN114730397A CN114730397A CN202080078963.7A CN202080078963A CN114730397A CN 114730397 A CN114730397 A CN 114730397A CN 202080078963 A CN202080078963 A CN 202080078963A CN 114730397 A CN114730397 A CN 114730397A
- Authority
- CN
- China
- Prior art keywords
- test objects
- test
- target
- subset
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/62—Design of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Physics & Mathematics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Pathology (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Toxicology (AREA)
- Probability & Statistics with Applications (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Bioethics (AREA)
Abstract
本发明提供了用于减少测试对象数据集中的测试对象的数量的系统和方法。将具有第一计算复杂度的目标模型应用于来自所述测试对象数据集的测试对象子集和目标对象,从而获得目标结果子集。使用所述测试对象子集和所述目标结果子集来训练具有第二计算复杂度的预测模型。将所述预测模型应用于多个测试对象,从而获得多个预测结果。至少部分地基于所述多个预测结果从所述多个测试对象中消除所述测试对象中的一部分测试对象。所述方法确定是否满足一个或多个预定义减少标准。当不满足所述预定义减少标准时,获得另外的测试对象子集和另外的目标结果子集,并且重复所述方法。
Description
相关申请的交叉引用
本申请要求于2019年10月3日提交的题为“用于通过计算机模拟筛选化合物的系统和方法(Systems and Methods for Screening Compounds In Silico)”的美国临时专利申请第62/910,068号的优先权,所述美国临时专利申请特此通过引用并入。
技术领域
本说明书总体上涉及用于通过使用具有不同计算复杂性的多个计算模型来精简数据集的技术。
背景技术
为提高药物发现的成功机会而使分子支架多样化的需要被称为逃离“平坦地带”——对构建平坦分子的合成方法的依赖。另一种研究分子宇宙中未开发潜力的方法是找到一种方法来揭示隐藏在阴影中的东西。一些估计表明,至少有1060种不同的类药物分子:十的六十次方种可能性。打开这个隐秘的化学空间的一种方法是研究超大型虚拟库,即不需要已经被合成,但其分子性质可以从其所计算的分子结构中推断出来的化合物的库。
如深度学习神经网络等分类器的应用可以用于从如这些虚拟库等大量数据中产生新颖的见解。事实上,药物发现中的先导鉴定和优化、临床试验的患者招募支持、医学图像分析、生物标志物鉴定、药物功效分析、药物依从性评估、测序数据分析、虚拟筛选、分子谱、代谢组学数据分析、电子医疗记录分析和医疗装置数据评估、脱靶副作用预测、毒性预测、效力优化、药物再利用、耐药性预测、个性化医疗、药物试验设计、农用化学品设计、材料科学和模拟都是探究如基于深度学习的解决方案等分类器的使用的应用实例。具体而言,在医疗保健方面,2009年的《美国复苏和再投资法案(American Recovery andReinvestment Act)》和2015年的“精准医学倡议(Precision Medicine Initiative)”已广泛认可医疗数据在医疗保健中的价值。由于多项此类倡议,预计到2020年,医疗大数据量将增长大约50倍,达到25,000拍字节。参见例如可在互联网上的rootsanalysis.com中获得的《根源分析(Roots Analysis)》,2017年2月22日,“药物发现与诊断中的深度学习2017-2035年(Deep Learning in Drug Discovery and Diagnostics,2017-2035)”。
随着药物再利用和临床前研究的进步,将分类器应用于药物发现有机会大大改善药物发现过程,并且因此改善整个医疗保健系统的患者结局。参见例如Rifaioglu等人,2018,“深度学习和机器智能在计算机模拟药物发现中的最新应用:方法、工具和数据库(Recent applications of deep learning and machine intelligence on in silicodrug discovery:methods,tools and databases)”,《生物信息学简报(Briefings inBioinform)》1-35;和Lavecchia,2015,“药物发现中的机器学习方法:方法和应用(Machine-learning approaches in drug discovery:methods and applications)”,《今日药物发现(Drug Discovery Today)》20(3),318-331。计算机模拟药物发现的方法是分类器特别有价值的应用,因为这些方法有可能减少药物开发的时间和费用。目前,据估计,开发一种用于人类的新型药物的平均成本远远超过20亿美元。参见例如DiMasi等人,2016,《健康经济学杂志(J Health Econ)》47,20-33。另外,美国联邦政府主要通过NIH资金,在主要基础研究上花费了超过1000亿美元,这些研究为FDA从2010-2016年批准的所有210种新型药物做出了贡献。参见Cleary等人,2018,“NIH资金对2010-2016年新型药物批准的贡献(Contributions of NIH funding to new drug approvals 2010-2016)”,《美国国家科学院院刊(PNAS)》115(10),2329-2334。因此,用于发现或至少筛选(例如,在已知和/或FDA批准的化学品的数据库中)先导化合物的计算方法有可能彻底改变药物发现和开发。
有许多帮助药物发现的计算方法的实例。多重药理学的发现(例如,了解许多药物可以并且确实与多于一个分子靶标结合)开辟了将已经批准的药物再用于缺乏治疗的疾病的领域。参见例如Hopkins,2009,“预测混杂性(Predicting promiscuity)”,《自然(Nature)》462,167-168和Keizer等人,2007,“通过配体化学关联蛋白质药理学(Relatingprotein druglogy by ligand chemistry)”,《自然生物技术(Nat Biotechnol)》25(2),197-206。计算机模拟药物发现已经为从寨卡病毒病(Zika disease)到南美锥虫病(Chagasdisease)等疾病提供了潜在的治疗。参见例如Ramarack等人,2017,“寨卡病毒NS5蛋白潜在抑制剂:药物发现中增强的计算机模拟方法(Zika virus NS5 protein potentialinhibitors:an enhanced in silico approach in drug discovery)”,《生物分子结构与动力学杂志(J Biomol Structure and Dynamics)》36(5),1118-1133;Castillo-Garit等人,2012,“新型杀锥虫类药物化合物的计算机模拟和体外鉴定(Identification insilico and in vitro of Novel Trypanosomicidal Drug-Like Compounds)”,《化学生物学与药物设计(Chem Biol and Drug Des)》80,38-45;和Raj等人,2015“类黄酮作为与埃博拉病毒相关联的蛋白质的多靶标抑制剂(Flavonoids as Multi-target Inhibitors forProteins associated with Ebola Virus)”,《交叉科学-计算生命科学(Interdisip SciComput Life Sci)》7,1-10。然而,目前用于包含虚拟库的评估在内的药物发现的许多方法的一个缺点是它们的计算复杂度。
具体地,许多计算机模拟药物发现方法主要适用于预过滤和大小限定的分子数据库。参见Macalino等人,2018,“用于蛋白质-蛋白质相互作用药物发现的计算机模拟策略的演变(Evolution of in Silico Strategies for Protein-Protein Interaction DrugDiscovery)”,《分子(Molecules)》23,1963和Lionata等人,2014,“用于药物发现的基于结构的虚拟筛选:原理、应用和最新进展(Structure-Based Virtual Screening for DrugDiscovery:Principles,Applications and Recent Advances)”,《医药化学当前论题(Curr Top Med Chem)》14(16):1923-1938。具体地,通常将数据集限定到至少数百万种化合物。参见Ramsundar等人,2015,“用于药物发现的大规模多任务网络(MassivelyMultitask Networks for Drug Discovery)”,arXiv:1502.02072。对数据库大小的限制对发现或筛选具有治疗新疾病潜力的药物的能力施加了对应的限制。
鉴于鉴定有前景的先导化合物的重要性,本领域需要允许评估大型化合物库的改进的药物发现计算方法。
发明内容
本公开通过提供用于评估大型化合物数据库的方法解决了在背景技术中鉴定的缺点。
在本公开的一方面,提供了一种用于减少测试对象数据集中的多个测试对象中的测试对象数量的方法。所述方法包括以电子格式获得所述测试对象数据集。
所述方法进一步包括针对来自所述多个测试对象的测试对象子集中的每个相应的测试对象,将目标模型应用于所述相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得对应的目标结果子集。
所述方法进一步使用至少i)作为预测模型的自变量的所述测试对象子集和ii)作为所述预测模型的因变量的所述对应的目标结果子集来训练处于初始训练状态的所述预测模型,从而将所述预测模型更新到更新的训练状态。
所述方法进一步将处于更新的训练状态的所述预测模型应用于所述多个测试对象,从而获得多个预测结果的实例。
所述方法进一步至少部分地基于所述多个预测结果的所述实例从所述多个测试对象中消除所述测试对象中的一部分测试对象。
所述方法进一步包括确定是否满足一个或多个预定义减少标准。当不满足所述一个或多个预定义减少标准时,所述方法进一步包括(i)针对来自所述多个测试对象的另外的测试对象子集中的每个相应的测试对象,将所述目标模型应用于所述相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得另外的目标结果子集。所述另外的测试对象子集是至少部分地基于所述多个预测结果的所述实例来选择的。所述方法进一步包括:(ii)通过将所述另外的测试对象子集并入所述测试对象子集中来更新所述测试对象子集;(iii)通过将所述另外的目标结果子集并入所述目标结果子集中来更新所述目标结果子集;以及(iv)在所述更新(ii)和(iii)之后,通过将所述预测模型应用于至少1)作为自变量的所述测试对象子集和2)作为对应的因变量的所述对应的目标结果子集来修改所述预测模型,从而提供处于更新的训练状态的所述预测模型。然后,所述方法重复所述将处于更新的训练状态的所述预测模型应用于所述多个测试对象,从而获得多个预测结果的实例。所述方法进一步至少部分地基于所述多个预测结果的所述实例从所述多个测试对象中消除所述测试对象中的一部分测试对象,直到满足所述一个或多个预定义减少标准。
在一些实施例中,所述目标模型在评估测试对象方面表现出第一计算复杂度,所述预测模型在评估测试对象方面表现出第二计算复杂度,并且所述第二计算复杂度小于所述第一计算复杂度。在一些实施例中,所述目标模型的计算复杂度是所述预测模型的至少三倍、至少五倍或至少100倍。
在一些实施例中,所述测试对象数据集包含多个特征向量(例如,蛋白质指纹、计算性质和/或图形描述符)。在一些实施例中,每个特征向量用于所述多个测试对象中的相应测试对象,并且所述多个特征向量中的每个特征向量的大小相同。在一些实施例中,所述多个特征向量中的每个特征向量是一维向量。
在一些实施例中,所述针对来自所述多个测试对象的测试对象子集中的每个相应的测试对象,将目标模型应用于所述相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得对应的目标结果子集进一步包括从所述多个测试对象中随机选择一个或多个测试对象以形成所述测试对象子集。
在一些实施例中,针对来自所述多个测试对象的测试对象子集中的每个相应的测试对象,将目标模型应用于所述相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得对应的目标结果子集进一步包括基于对选自所述多个特征向量的一个或多个特征的评估来为所述测试对象子集从所述多个测试对象中选择一个或多个测试对象。在一些实施例中,所述选择是基于(例如,所述多个测试对象的)聚类来进行的。
在一些实施例中,所述一个或多个预定义减少标准的满足包括将所述多个预测结果中的每个预测结果与来自所述目标结果子集的对应目标结果进行比较。在一些实施例中,当训练结果与目标结果之间的差异下降到低于预定阈值时,满足所述一个或多个预定义减少标准。
在一些实施例中,所述一个或多个预定义减少标准的满足包括确定所述多个测试对象中的所述测试对象数量已经下降到低于对象的阈值数量。
在一些实施例中,所述目标模型是卷积神经网络。
在一些实施例中,所述预测模型包括随机森林树、包括多个多重加性决策树的随机森林、神经网络、图神经网络、密集神经网络、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、进化方法、投影寻踪、线性回归、朴素贝叶斯算法(Bayesalgorithm)、多类别逻辑回归算法或其集合。
在一些实施例中,所述至少一个目标对象是单个对象,并且所述单个对象是聚合物。在一些实施例中,所述聚合物包括活性位点。在一些实施例中,所述聚合物是蛋白质、多肽、多核酸、多核糖核酸、多糖或其任何组合的组装。
在一些实施例中,在应用所述从所述多个测试对象中消除所述测试对象中的一部分测试对象的实例之前,所述多个测试对象包括至少1亿个测试对象、至少5亿个测试对象、至少10亿个测试对象、至少20亿个测试对象、至少30亿个测试对象、至少40亿个测试对象、至少50亿个测试对象、至少60亿个测试对象、至少70亿个测试对象、至少80亿个测试对象、至少90亿个测试对象、至少100亿个测试对象、至少110亿个测试对象、至少150亿个测试对象、至少200亿个测试对象、至少300亿个测试对象、至少400亿个测试对象、至少500亿个测试对象、至少600亿个测试对象、至少700亿个测试对象、至少800亿个测试对象、至少900亿个测试对象、至少1000亿个测试对象或至少1100亿个测试对象。
在一些实施例中,所述一个或多个预定义减少标准要求所述多个测试对象(例如,在所述从所述多个测试对象中消除所述测试对象中的一部分测试对象的一个或多个实例之后)具有不超过30个测试对象、不超过40个测试对象、不超过50个测试对象、不超过60个测试对象、不超过70个测试对象、不超过90个测试对象、不超过100个测试对象、不超过200个测试对象、不超过300个测试对象、不超过400个测试对象、不超过500个测试对象、不超过600个测试对象、不超过700个测试对象、不超过800个测试对象、不超过900个测试对象或不超过1000个测试对象。
在一些实施例中,所述多个测试对象中的每个测试对象是化合物。
在一些实施例中,处于所述初始训练状态的所述预测模型包括未训练或部分训练的分类器。在一些实施例中,处于所述更新的训练状态的所述预测模型包括与处于所述初始训练状态的所述预测模型不同的未训练或部分训练的分类器。
在一些实施例中,所述测试对象子集和/或所述另外的测试对象子集包括至少1,000个测试对象、至少5,000个测试对象、至少10,000个测试对象、至少25,000个测试对象、至少50,000个测试对象、至少75,000个测试对象、至少100,000个测试对象、至少250,000个测试对象、至少500,000个测试对象、至少750,000个测试对象、至少100万个测试对象、至少200万个测试对象、至少300万个测试对象、至少400万个测试对象、至少500万个测试对象、至少600万个测试对象、至少700万个测试对象、至少800万个测试对象、至少900万个测试对象或至少1000万个测试对象。在一些实施例中,所述另外的测试对象子集不同于所述测试对象子集。
在一些实施例中,所述使用至少i)作为(预测模型的)多个自变量的所述测试对象子集和ii)作为(所述预测模型的)多个因变量的所述对应的目标结果子集来训练处于初始训练状态的预测模型进一步包括使用iii)作为所述预测模型的自变量的所述至少一个目标对象。
在一些实施例中,所述至少一个目标对象包括至少两个目标对象、至少三个目标对象、至少四个目标对象、至少五个目标对象或至少六个目标对象。
在一些实施例中,所述在所述更新(ii)和所述更新(iii)之后,通过应用所述预测模型来修改所述预测模型(iv)进一步包括除了使用至少1)作为自变量的所述测试对象子集和2)作为对应的因变量的所述对应的目标结果子集以外,还使用3)作为自变量的所述至少一个目标对象。
在一些实施例中,当满足所述一个或多个预定义减少标准时,所述方法进一步包括:对所述多个测试对象进行聚类,从而将所述多个测试对象中的每个测试对象分配给多个簇中的一个簇;以及至少部分地基于所述多个簇中的各个簇中的测试对象的冗余从所述多个测试对象中消除一个或多个测试对象。
在一些实施例中,所述方法进一步包括通过以下来从所述多个测试对象中选择所述测试对象子集:对所述多个测试对象进行聚类,从而将所述多个测试对象中的每个测试对象分配给多个簇中的相应簇,并且至少部分地基于所述多个簇中的各个簇中的测试对象的冗余从所述多个测试对象中选择所述测试对象子集。
在一些实施例中,当满足所述一个或多个预定义减少标准时,所述方法进一步包括将所述多个测试对象和所述至少一个目标对象应用于所述预测模型,从而使所述预测模型为所述多个测试对象中的每个测试提供相应的预测结果。在一些实施例中,每个相应的预测结果对应于对相应的测试对象与所述至少一个目标对象之间的相互作用(例如,IC50、EC50、Kd或KI)的预测。在一些实施例中,每个相应的预测评分用于表征所述至少一个目标对象。
在一些实施例中,所述至少部分地基于所述多个预测结果的所述实例从所述多个测试对象中消除所述测试对象中的一部分测试对象包括:i)对所述多个测试对象进行聚类,从而将所述多个测试对象中的每个测试对象分配给多个簇中的相应簇;以及ii)至少部分地基于所述多个簇中的各个簇中的测试对象的冗余从所述多个测试对象中消除测试对象子集。
在一些实施例中,所述多个测试对象的所述聚类是使用基于密度的空间聚类算法、分裂聚类算法、聚集聚类算法、k均值聚类算法、监督聚类算法或其集合来执行的。
在一些实施例中,所述至少部分地基于所述多个预测结果的所述实例从所述多个测试对象中消除所述测试对象中的一部分测试对象包括:i)基于所述多个预测结果的所述实例对所述多个测试对象进行排序;以及ii)从所述多个测试对象中去除所述多个测试对象中未能具有满足阈值截止值的对应相互作用评分的那些测试对象。
在一些实施例中,所述阈值截止值是前阈值百分比。在一些实施例中,所述前阈值百分比是所述多个预测结果的前90%、前80%、前75%、前60%或前50%。
在一些实施例中,所述至少部分地基于所述多个预测结果的所述实例从所述多个测试对象中消除所述测试对象中的一部分测试对象的每个实例消除所述多个测试对象中十分之一到十分之九的所述测试对象。在一些实施例中,所述消除的每个实例消除所述多个测试对象中四分之一到四分之三的所述测试对象。
本公开的另一方面提供了一种计算系统,所述计算系统包括至少一个处理器和存储将由所述至少一个处理器执行的至少一个程序的存储器,所述至少一个程序包括用于通过上文公开的方法中的任何方法减少测试对象数据集中的多个测试对象中的测试对象数量的指令。
本公开的仍另一方面提供了一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储用于减少测试对象数据集中的多个测试对象中的测试对象数量的至少一个程序。所述至少一个程序配置成由计算机执行。所述至少一个程序包括用于执行上文公开的方法中的任何方法的指令。
如本文所公开的,本文所公开的任何实施例在适用时可以应用于任何其它方面。对于本领域技术人员而言,根据以下具体实施方式,本公开的另外的方面和优点将变得显而易见,其中仅示出和描述了本公开的说明性实施例。如将认识到的,本公开能够具有其它且不同的实施例,并且其若干细节能够在各种明显的方面进行修改,而所有这些都不脱离本公开。因此,附图和说明书将在本质上被视为是说明性的而非限制性的。
通过引用并入
本说明书中所提到的所有出版物、专利和专利申请均通过引用以其整体并入本文,其程度就如同明确且单独地指明了每个单独出版物、专利或专利申请通过引用并入。如果本文中的术语与并入参考文献中的术语发生冲突,则以本文中的术语为准。
附图说明
在附图中,通过实例而非限制的方式展示了本文公开的实施方案。描述和附图仅用于说明的目的且作为对理解的帮助,并不旨在作为对本公开的系统和方法的限制的定义。贯穿附图,相似的附图标记指代对应的部分。
图1是展示根据本公开的一些实施例的计算系统的实例的框图。
图2A、2B和2C共同展示了根据本公开的一些实施例的减少测试对象数据集中的多个测试对象中的测试对象数量的方法的流程图的实例。
图3展示了根据本公开的一些实施例的评估化合物库的实例。
图4是根据本公开的实施例的相对于目标对象呈两种不同位姿的示例测试对象的示意图。
图5是根据本公开的实施例的以体素的三维素网格的形式对输入特征的几何表示的示意图。
图6和7是根据本公开的实施例的编码到体素的二维网格上的两个测试对象的视图。
图8是根据本公开的实施例的图7的可视化视图,其中体素已被编号。
图9是根据本公开的实施例的以原子中心的坐标位置的形式对输入特征的几何表示的示意图。
图10是根据本公开的实施例的具有位置范围的图9的坐标位置的示意图。
具体实施方式
药物发现所需的计算工作随着药物数据集的大小和复杂度的增加而增加。具体地,目标分子的高准确度模型使得能够检测使用传统药物发现方法可能未考虑过的另外的测试化合物(例如,潜在的先导化合物)。使用计算化合物发现可甄别潜在的药物数据库的探索空间(例如,通过确定在给定特定目标分子的情况下哪些测试化合物最有可能产生期望效果)并进一步简化执行临床测试以验证良好测试化合物的高劳动强度和时间密集型的下游过程。
现将详细参考实施例,在附图中展示所述实施例的实例。在以下具体实施方式中,阐述了许多具体细节以便提供对本公开的彻底理解。然而,对本领域普通技术人员而言将显而易见的是,本公开可以在没有这些具体细节的情况下实践。在其它实例中,并未详细描述熟知的方法、程序、组件、电路以及网络以免不必要地模糊实施例的各方面。
本文所描述的实施方案提供了用于训练参考模型以确定受试者的肿瘤分数的各种技术解决方案。
定义.
如本文所使用的,术语“聚类”是指对将数据点分组成一个或多个集合(例如,簇)进行优化的各种方法,其中相应集合中的每个数据点与所述相应集合中的每个其它数据点的相似度比与不在所述相应集合中的数据点的相似度高。有各种聚类算法适用于评估不同类型的数据。这些算法包含层次模型、重心模型、分布模型、基于密度的模型、子空间模型、基于图的模型和神经模型。这些不同的模型各自具有不同的计算要求(例如,复杂度)并且适用于不同的数据类型。将两个单独的聚类模型应用于同一数据集通常会产生两个不同的数据分组。在一些实施例中,每次将聚类模型重复应用于数据集会产生不同的数据分组。
如本文所使用的,术语“特征向量”或“向量”是元素的枚举列表,如元素数组,其中每个元素具有所分配的含义。如此,本公开中使用的术语“特征向量”可与术语“张量”互换。为了便于呈现,在一些情况下,向量可以被描述为是一维的。然而,本公开不限于此。在本公开中可以使用任意维度的特征向量,只要定义了向量中的每个元素表示什么的描述即可。
如本文所使用的,术语“多肽”意指通过肽键连接的两个或更多个氨基酸或残基。术语“多肽”和“蛋白质”在本文中可互换使用并且包含寡肽和肽。“氨基酸”、“残基”或“肽”是指本领域已知的二十种蛋白质标准结构单元中的任何一种,包含亚氨基酸,如脯氨酸和羟脯氨酸。氨基酸异构体的名称可以包含D、L、R和S。氨基酸的定义包含非天然氨基酸。因此,硒代半胱氨酸、吡咯赖氨酸、羊毛硫氨酸、2-氨基异丁酸、γ-氨基丁酸、脱氢丙氨酸、鸟氨酸、瓜氨酸和高半胱氨酸都被认为是氨基酸。氨基酸的其它变体或类似物是本领域已知的。因此,多肽可以包含合成的拟肽结构,如类肽。参见Simon等人,1992,《美国国家科学院院刊(Proceedings of the National Academy of Sciences USA)》,89,9367,所述文献特此通过引用整体并入本文。还参见Chin等人,2003,《科学(Science)》301,964;以及Chin等人,2003,《化学与生物学(Chemistry&Biology)》10,511,所述文献中的每个文献通过引用整体并入本文。
在本公开中使用的术语仅用于描述特定实施例的目的,并且不旨在限制本发明。如在本发明的具体实施方式和所附权利要求书中所使用的,除非上下文另外清楚地指示,否则单数形式“一个”、“一种”和“所述”旨在同样包含复数形式。还应理解,如本文所使用的术语“和/或”指代并且涵盖一个或多个相关的列举项的任何和所有可能组合。应进一步理解,当在本说明书中使用时,术语“包括(comprises)”和/或“包括(comprising)”指定所陈述特征、整数、步骤、操作、元件和/或组件的存在,但不排除存在或者添加一个或多个其它特征、整数、步骤、操作、元件、组件和/或其组。此外,在具体实施方式和/或权利要求书中使用了术语“包含(including/include)”、“具有(having/has/with)”或其变体的情况下,此类术语旨在以类似于术语“包括(comprising)”的方式是包含性的。
下文参考用于说明的示例应用说明了若干方面。应当理解,阐述许多具体细节、关系和方法以提供对本文中所描述的特征的完整理解。然而,相关领域普通技术人员将很容易认识到,可以在没有所述具体细节中的一个或多个具体细节的情况下或者用其它方法来实践本文中所描述的特征。本文中所描述的特征不限于动作或事件的所说明排序,因为一些动作可以按不同次序和/或与其它动作或事件同时发生。此外,实施根据本文描述的特征的方法不需要所有说明的动作或事件。
示例性系统实施例
现在结合图1描述示例性系统的细节。图1是展示根据一些实施方案的系统100的框图。在一些实施方案中,系统100包含至少一个或多个处理单元CPU 102(也被称为处理器)、一个或多个网络接口104、任选的用户接口108(例如,具有显示器106、输入装置110等)、存储器111以及一个或多个用于互连这些组件的通信总线114。一个或多个通信总线114任选地包含互连并控制系统组件之间的通信的电路系统(有时称为芯片组)。
在一些实施例中,一个或多个处理单元102中的每个处理单元是单核处理器或多核处理器。在一些实施例中,一个或多个处理单元102是能够进行并行处理的多核处理器。在一些实施例中,一个或多个处理单元102是能够进行并行处理的多个处理器(单核或多核)。在一些实施例中,一个或多个处理单元102中的每个处理单元被配置成执行可以以程序或软件体现的机器可读指令序列。指令可以存储在某一存储器位置,如存储器111中。指令可以涉及一个或多个处理单元102,所述指令可以随后对一个或多个处理单元102进行编程或以其它方式对其进行配置以实施本公开的方法。由一个或多个处理单元102执行的操作的实例可以包含提取、解码、执行和写回。一个或多个处理单元102可以是如集成电路等电路的一部分。系统100的一个或多个其它组件可以包含在所述电路中。在一些实施例中,所述电路是专用集成电路(ASIC)或现场可编程门阵列(FPGA)架构。
在一些实施例中,显示器106是触敏显示器,如触敏表面。在一些实施例中,用户接口106包含一个或多个软键盘实施例。在一些实施方案中,所述软键盘实施例包含所显示图标上的标准(QWERTY)和/或非标准符号配置。用户接口106可以被配置成向用户提供例如减少测试对象数据集中的多个测试对象中的测试对象数量的结果、相互作用评分或预测结果的图形显示。用户接口可以使用户能够与特定任务(例如,查看和调整预定义减少标准)进行相互作用。
存储器111可以是非永久性存储器、永久性存储器或其任何组合。非永久性存储器通常包含高速随机存取存储器,如DRAM、SRAM、DDR RAM、ROM、EEPROM、闪速存储器,而永久性存储器通常包含CD-ROM、数字多功能盘(DVD)或其它光学存储设备、磁带盒、磁带、磁盘存储设备或其它磁性存储装置、磁盘存储装置、光盘存储装置、闪速存储器装置或其它非易失性固态存储装置。存储器111任选地包含远离CPU 102定位的一个或多个存储装置。存储器111和存储器111内的非易失性存储器装置包括非暂时性计算机可读存储介质。在一些实施例中,存储器111包括至少一个非暂时性计算机可读存储介质,并且其上存储有计算机可执行的可执行指令,所述计算机可执行的可执行指令可以是程序、模块和数据结构的形式。
在一些实施例中,如图1所示,存储器111存储以下程序、模块和数据结构或其子集:
●与操作系统116(例如,iOS、ANDROID、DARWIN、RTXC、LINUX、UNIX、OS X、WINDOWS或如VxWorks等嵌入式操作系统)相关联的指令、程序、数据或信息,所述操作系统包含用于控制和管理一般系统任务(例如,存储器管理、存储装置控制、电源管理)的各种软件组件和/或驱动器并且促进各种硬件与软件组件之间的通信;
●与任选的网络通信模块(或指令)118相关联的指令、程序、数据或信息,所述任选的网络通信模块(或指令)用于将系统100与其它装置连接和/或与通信网络连接;
●至少一个目标对象122,其中在一些实施例中,目标对象包括聚合物;
●测试对象数据库122,所述测试对象数据库包括多个测试对象124(例如,测试对象124-1、…、124-X),从所述多个测试对象中选择测试对象子集130(例如,测试对象124-A、…、124-B)以供目标模型150分析,并且任选地从所述多个测试对象中选择一个或多个另外的测试对象子集(例如,140-1、…、140-Y)并随后将所述一个或多个另外的测试对象子集添加到子集130中,其中子集130中的每个测试对象124具有对应的目标结果132和对应的预测结果134;
●具有第一计算复杂度152的目标模型150,其中将目标模型应用于测试对象子集130为测试对象子集130中的每个测试对象124产生相应的目标结果132;以及
●具有第二计算复杂度162的预测模型160,其中将处于初始164或更新的166未训练状态的预测模型应用于测试对象子集130以获得测试对象子集130中每个测试对象132的相应预测结果136。
在各种实施方案中,一个或多个上述元件存储在一个或多个先前提及的存储器装置中,并且对应于用于执行上述功能的指令集。上述模块、数据或程序(例如,指令集)不需实施为单独的软件程序、过程、数据集或模块,并且因此这些模块和数据的各个子集可以在各种实施方案中被组合或以其它方式重新布置。在一些实施方案中,存储器111任选地存储上述模块和数据结构的子集。此外,在一些实施例中,所述存储器存储以上未描述的另外的模块和数据结构。在一些实施例中,上述元件中的一个或多个元件存储在系统100的计算机系统之外的计算机系统中,所述计算机系统可由系统100寻址,使得系统100可以在需要时检索所有或部分此类数据。
尽管图1描绘了“系统100”,但是所述图更多地旨在作为可能存在于计算机系统中的各种特征的功能描述,而不是作为本文所描述的实施方案的结构示意图。在实践中,并且如本领域普通技术人员所认识的,可以将单独示出的项目组合,并且可以将一些项目分离。此外,尽管图1描绘了存储器111(其可以是非永久性或永久性存储器)中的某些数据和模块,但应当理解,这些数据和模块或其部分可以存储在多于一个存储器中。例如,在一些实施例中,至少第一数据集122、第二数据集124、参考模块120和参考模型140存储在远程存储装置中,所述远程存储装置可以是基于云的基础设施的一部分。在一些实施例中,至少第一数据集122和第二数据集124存储在基于云的基础设施上。在一些实施例中,参考模型120和参考模型140也可以存储在远程存储装置中。
虽然已经参考图1公开了根据本公开的用于训练预测模型的系统,但现在参考下面的图2详细描述根据本公开的用于执行此类训练的方法。
框202.参考图2A的框202,提供了一种用于减少测试对象数据集中的多个测试对象中的测试对象数量的方法。
框204-206.参考图2A的框204,所述方法通过以电子形式获得测试对象数据集而继续进行。此类测试对象数据集的实例是ZINC15。参见Sterling和Irwin,2005,《化学信息模型杂志(J.Chem.Inf.Model)》45(1),第177-182页。Zinc 15是用于虚拟筛选的可商购获得的化合物的数据库。ZINC 15含有超过2.3亿种可购买的即用型3D格式的化合物。ZINC 15还含有超过7.5亿种可购买的化合物。测试对象数据集的其它实例包含但不限于MASSIV、AZSpace with Enamine BBs、EVOspace、PGVL、BICLAIM、Lilly、GDB-17、SAVI、CHIPMUNK、REAL‘Space’、SCUBIDOO 2.1、REAL‘Database’、WuXi Virtual、PubChem Compounds、SigmaAldrich‘in-stock’、eMolecules Plus和WuXi Chemistry Services,上述数据集在以下中进行了总结:Hoffmann和Gastreich,2019,“化学空间导航的下一个层次:超越可枚举的化合物库(The next level in chemical space navigation:going far beyondenumerable compound libraries)”,《今日药物发现(Drug Discovery Today)》24(5),第1148页,所述文献特此通过引用并入。
在一些实施例中,所述多个测试对象(例如,在如下面关于框232-234所描述的那样应用从所述多个测试对象中消除所述测试对象中的一部分测试对象的实例之前)包括至少1亿个测试对象、至少5亿个测试对象、至少10亿个测试对象、至少20亿个测试对象、至少30亿个测试对象、至少40亿个测试对象、至少50亿个测试对象、至少60亿个测试对象、至少70亿个测试对象、至少80亿个测试对象、至少90亿个测试对象、至少100亿个测试对象、至少110亿个测试对象、至少150亿个测试对象、至少200亿个测试对象、至少300亿个测试对象、至少400亿个测试对象、至少500亿个测试对象、至少600亿个测试对象、至少700亿个测试对象、至少800亿个测试对象、至少900亿个测试对象、至少1000亿个测试对象或至少1100亿个测试对象。在一些实施例中,所述多个测试对象包括1亿到5亿个测试对象、1亿到10亿个测试对象、10亿到20亿个测试对象、10亿到50亿个测试对象、10亿到100亿个测试对象、10亿到150亿个测试对象、50亿到100亿个测试对象、50亿到150亿个测试对象或100亿到150亿个测试对象。在一些实施例中,所述多个测试对象为大约106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019、1020、1021、1022、1023、1024、1025、1026、1027、1028、1029、1030、1031、1032、1033、1034、1035、1036、1037、1038、1039、1040、1041、1042、1043、1044、1045、1046、1047、1048、1049、1050、1051、1052、1053、1054、1055、1056、1057、1058、1059或1060种化合物。
在一些实施例中,测试对象数据集的大小为至少100千字节、至少1兆字节、至少2兆字节、至少3兆字节、至少4兆字节、至少10兆字节、至少20兆字节、至少100兆字节、至少1千兆字节、至少10千兆字节或至少1万亿字节大小。在一些实施例中,测试对象数据集是文件或数据集(例如,2个或更多个、3个或更多个、4个或更多个、100个或更多个、1000个或更多个或一百万个或更多个)的集合,其共同文件大小为至少100千字节、至少1兆字节、至少2兆字节、至少3兆字节、至少4兆字节、至少10兆字节、至少20兆字节、至少100兆字节、至少1千兆字节、至少10千兆字节或至少1万亿字节。
关于框206,在一些实施例中,所述多个测试对象中的每个测试对象表示相应的化合物。在一些实施例中,每个测试对象表示满足Lipinski五倍率法则(Lipinski rule offive)标准的化合物。在一些实施例中,每个测试对象是满足以下Lipinski五倍率法则中的两条或更多条法则、三条或更多条法则或所有四条法则的有机化合物:(i)不超过五个氢键供体(例如,OH和NH基团),(ii)不超过十个氢键受体(例如,N和O),(iii)分子量低于500道尔顿,以及(iv)LogP低于5。之所以称为“五倍率法则”,是因为四项标准中的三项都涉及数字五。参见Lipinski,1997,《先进药物递送综述(Adv.Drug Del.Rev.)》23,3,所述文献特此通过引用以其整体并入本文。在一些实施例中,除了Lipinski五倍率法则外,每个测试对象还满足一个或多个标准。例如,在一些实施例中,每个测试对象具有五个或更少的芳香族环、四个或更少的芳香族环、三个或更少的芳香族环,或两个或更少的芳香族环。在一些实施例中,每个测试对象描述一种化合物,并且所述化合物的描述包括所述化合物的建模原子坐标。在一些实施例中,所述多个测试对象中的每个测试对象表示不同的化合物。
在一些实施例中,每个测试对象表示分子量小于2000道尔顿、小于4000道尔顿、小于6000道尔顿、小于8000道尔顿、小于10000道尔顿或小于20000道尔顿的有机化合物。
在一些实施例中,所述多个测试对象中的至少一个测试对象表示对应的药物化合物。在一些实施例中,所述多个测试对象中的至少一个测试对象表示对应的生物活性化合物。如本文所使用的,术语“生物活性化合物”是指对人类具有生理作用的化合物(例如,通过与蛋白质相互作用)。生物活性化合物的子集可以开发成药物。参见例如Gu等人,2013“使用天然产物作为药物发现和网络药理学的化学库(Use of Natural Products asChemical Library for Drug Discovery and Network Pharmacology)”《公共科学图书馆·综合(PLoS One)》8(4),e62839。生物活性化合物可以是天然存在的或合成的。已经提出了生物活性的各种定义。参见例如Lagunin等人,2000“PASS:生物活性物质的活性光谱的预测(PASS:Prediction of activity spectra for biologically active substances)”《生物信息学(Bioinform)》16,747-748。
在一些实施例中,测试对象数据集中的测试对象表示具有“烷基”基团的化合物。除非另外说明,否则术语“烷基”本身或作为化合物的另一个取代基的一部分是指直链或支链或环状烃基或其组合,其可以是完全饱和的、单不饱和或多不饱和的,并且可以包含具有指定碳原子数的二价、三价和多价基团(即,C1-C10意指一到十个碳)。饱和烃基的实例包含但不限于:如甲基、乙基、正丙基、异丙基、正丁基、叔丁基、异丁基、仲丁基、环己基、(环己基)甲基、环丙基甲基等基团;例如正戊基、正己基、正庚基、正辛基等的同系物和异构体。不饱和烷基是具有一个或多个双键或三键的烷基。不饱和烷基的实例包含但不限于乙烯基、2-丙烯基、巴豆基、2-异戊烯基、2-(丁二烯基)、2,4-戊二烯基、3-(1,4-戊二烯基)、乙炔基、1-和3-丙炔基、3-丁炔基以及更高的同系物和异构体。除非另外说明,否则术语“烷基”还意在任选地包含下文更详细定义的那些烷基衍生物,如“杂烷基”。限于烃基的烷基称为“同烷基(homoalkyl)”。示例性烷基包含单不饱和C9-10油酰基链或二不饱和C9-10、12-13亚油酰基链。术语“亚烷基”其本身或作为另一个取代基的一部分,意指衍生自烷烃的二价基团,如但不限于–CH2CH2CH2CH2-所例示的,并且进一步包含下文描述为“杂亚烷基”的那些基团。通常,烷基(或亚烷基)将具有1到24个碳原子,其中具有10个或更少碳原子的那些基团在本发明中是优选的。“低级烷基”或“低级亚烷基”是通常具有八个或更少碳原子的短链烷基或亚烷基。
在一些实施例中,测试对象数据集中的测试对象表示具有“烷氧基”、“烷基氨基”和“烷硫基”基团的化合物。术语“烷氧基”、“烷基氨基”和“烷硫基”(或硫代烷氧基)以其常规含义使用,并且是指分别通过氧原子、氨基或硫原子连接到分子其余部分的那些烷基。
在一些实施例中,测试对象数据集中的测试对象表示具有“芳氧基”和“杂芳氧基”基团的化合物。术语“芳氧基”和“杂芳氧基”以其常规含义使用,并且是指通过氧原子连接到分子其余部分的那些芳基或杂芳基。
在一些实施例中,测试对象数据集中的测试对象表示具有“杂烷基”基团的化合物。除非另外说明,否则术语“杂烷基”本身或与另一个术语组合,意指由所陈述数量的碳原子和至少一个选自由O、N、Si和S组成的组的杂原子组成的稳定直链或支链或环状烃基或其组合,并且其中氮和硫原子可以任选地被氧化,并且氮杂原子可以任选地被季铵化。杂原子O、N和S以及Si可以置于杂烷基的任何内部位置或烷基连接到分子其余部分的位置。实例包含但不限于-CH2-CH2-O-CH3、-CH2-CH2-NH-CH3、-CH2-CH2-N(CH3)-CH3、-CH2-S-CH2-CH3、-CH2-CH2、-S(O)-CH3、-CH2-CH2-S(O)2-CH3、-CH=CH-O-CH3、-Si(CH3)3、-CH2-CH=N-OCH3和–CH=CH-N(CH3)-CH3。至多两个杂原子可以是连续的,例如-CH2-NH-OCH3和–CH2-O-Si(CH3)3。类似地,术语“杂亚烷基”其本身或作为另一个取代基的一部分,意指衍生自杂烷基的二价基团,如但不限于通过-CH2-CH2-S-CH2-CH2-和–CH2-S-CH2-CH2-NH-CH2-所例示的。对于杂亚烷基,杂原子还可以占据链末端中的任一个或两个(例如,亚烷基氧基、亚烷基二氧基、亚烷基氨基、亚烷基二氨基等)。仍进一步地,对于亚烷基和杂亚烷基连接基团,连接基团的式书写的方向并不暗示连接基团的朝向。例如,式–CO2R'-表示–C(O)OR'和–OC(O)R'-两者。
在一些实施例中,测试对象数据集中的测试对象表示具有“环烷基”和“杂环烷基”基团的化合物。除非另外说明,否则术语“环烷基”和“杂环烷基”本身或与其它术语组合,分别表示“烷基”和“杂烷基”的环状型式。另外,对于杂环烷基,杂原子可以占据杂环与分子的其余部分连接的位置。环烷基的实例包含但不限于环戊基、环己基、1-环己烯基、3-环己烯基、环庚基等。另外的示例性环烷基包含类固醇,例如胆固醇及其衍生物。杂环烷基的实例包含但不限于1-(1,2,5,6-四氢吡啶基)、1-哌啶基、2-哌啶基、3-哌啶基、4-吗啉基、3-吗啉基、四氢呋喃-2-基、四氢呋喃-3-基、四氢噻吩-2-基、四氢噻吩-3-基、1-哌嗪基、2-哌嗪基等。
在一些实施例中,测试对象数据集中的测试对象表示具有“卤基”或“卤素”的化合物。除非另外说明,否则术语“卤基”或“卤素”本身或作为另一个取代基的一部分,意指氟、氯、溴或碘原子。另外,如“卤代烷基”等术语意指包含单卤代烷基和多卤代烷基。例如,术语“卤代(C1-C4)烷基”意指包含但不限于三氟甲基、2,2,2-三氟乙基、4-氯丁基、3-溴丙基等。
在一些实施例中,测试对象数据集中的测试对象表示具有“芳基”基团的化合物。除非另外说明,否则术语“芳基”意指多不饱和的芳香族取代基,其可以是单环或稠合在一起或共价连接的多个环(优选地,1个到3个环)。
在一些实施例中,测试对象数据集中的测试对象表示具有“杂芳基”基团的化合物。术语“杂芳基”是指含有一到四个选自N、O、S、Si和B的杂原子的芳基取代基(或环),其中氮原子和硫原子任选地被氧化,并且氮原子任选地被季铵化。示例性杂芳基是六元吖嗪,例如吡啶基、二嗪基和三嗪基。杂芳基可以通过杂原子与分子的其余部分连接。芳基和杂芳基的非限制性实例包含:苯基、1-萘基、2-萘基、4-联苯基、1-吡咯基、2-吡咯基、3-吡咯基、3-吡唑基、2-咪唑基、4-咪唑基、吡嗪基、2-噁唑基、4-噁唑基、2-苯基-4-噁唑基、5-噁唑基、3-异噁唑基、4-异噁唑基、5-异噁唑基、2-噻唑基、4-噻唑基、5-噻唑基、2-呋喃基、3-呋喃基、2-噻吩基、3-噻吩基、2-吡啶基、3-吡啶基、4-吡啶基、2-嘧啶基、4-嘧啶基、5-苯并噻唑基、嘌呤基、2-苯并咪唑基、5-吲哚基、1-异喹啉基、5-异喹啉基、2-喹喏啉基、5-喹喏啉基、3-喹啉基和6-喹啉基。以上所指出的芳基和杂芳基环系中的每一个的取代基选自下文所描述的可接受取代基的基团。
为简洁起见,术语“芳基”在与其它术语组合使用时(例如,芳氧基、芳基硫氧基、芳基烷基)包含如上文所定义的芳基、杂芳基和杂芳烃环。因此,术语“芳基烷基”意指包含其中芳基连接到烷基的那些基团(例如,苄基、苯乙基、吡啶基甲基等),所述烷基包含其中碳原子(例如,亚甲基)已经被例如氧原子替代的那些烷基(例如,苯氧基甲基、2-吡啶基氧基甲基、3-(1-萘氧基)丙基等)。
上述术语中的每一个术语(例如,“烷基”、“杂烷基”、“芳基”和“杂芳基”)意指任选地包含所示物质的经取代的和未经取代的形式两者。下文提供了这些物质的示例性取代基。
由测试对象数据集表示的化合物的烷基和杂烷基基团(包含通常称为亚烷基、烯基、杂亚烷基、杂烯基、炔基、环烷基、杂环烷基、环烯基和杂环烯基的那些基团)的取代基统称为“烷基取代基”,并且它们可以是选自但不限于以下的各种基团中的一个或多个基团:H、经取代或未经取代的芳基、经取代或未经取代的杂芳基、经取代或未经取代的杂环烷基、-OR'、=O、=NR'、=N-OR'、-NR'R"、SR'、卤素、SiR'R"R"'、OC(O)R'、C(O)R'、CO2R'、CONR'R"、OC(O)NR'R"、NR"C(O)R'、NR'C(O)NR"R"'、NR"C(O)2R'、NR C(NR'R"R"')=NR""、NRC(NR'R")=NR"'、-S(O)R'、-S(O)2R'、-S(O)2NR'R"、NRSO2R'、-CN和–NO2,其数量的范围为零到(2m'+1),其中m'为此类基团中碳原子的总数。R'、R"、R"'和R""各自优选地独立地指氢、经取代或未经取代的杂烷基、经取代或未取代的芳基(例如,被1-3个卤素取代的芳基)、经取代或未经取代的烷基、烷氧基或硫代烷氧基或芳烷基。当本发明的化合物包含多于一个R基团时,例如,独立地选择R基团中的每个R基团,如同当R'、R"、R"'和R""中的多于一个基团存在时各自独立地进行选择一样。当R'和R"与同一氮原子连接时,二者可以与所述氮原子组合以形成5元、6元或7元环。例如,-NR'R"意在包含但不限于1-吡咯烷基和4-吗啉基。根据以上对取代基的讨论,本领域技术人员将理解术语“烷基”意在包含含有与除氢基团以外的基团结合的碳原子的基团,如卤代烷基(例如,-CF3和-CH2CF3)和酰基(例如,-C(O)CH3、-C(O)CF3、-C(O)CH2OCH3等)。这些术语涵盖被认为是示例性“烷基取代基”的基团,它们是示例性“经取代的烷基”和“经取代的杂烷基”部分的组分。
类似于针对烷基所描述的取代基,芳基杂芳基和杂芳烃基团的取代基统称为“芳基取代基”。所述取代基选自例如:通过碳或杂原子(例如,P、N、O、S、Si或B)与杂芳基或杂芳烃核连接的基团,包含但不限于经取代或未经取代的烷基、经取代或未经取代的芳基、经取代或未经取代的杂芳基、经取代或未经取代的杂环烷基、-OR'、=O、=NR'、=N-OR'、-NR'R"、-SR'、-卤素、-SiR'R"R"'、-OC(O)R'、-C(O)R'、-CO2R'、-CONR'R"、-OC(O)NR'R"、-NR"C(O)R'、-NR'-C(O)NR"R"'、-NR"C(O)2R'、-NR-C(NR'R"R'")=NR""、-NR-C(NR'R")=NR"'、-S(O)R'、-S(O)2R'、-S(O)2NR'R"、-NRSO2R'、-CN和–NO2、-R'、-N3、-CH(Ph)2、氟(C1-C4)烷氧基和氟(C1-C4)烷基,其数量的范围为零到芳香族环系上的开放价总数。上述基团中的每个基团直接或通过杂原子(例如,P、N、O、S、Si或B)连接到杂芳烃或杂芳基核;并且其中R'、R"、R"'和R""优选地独立地选自氢、经取代或未经取代的烷基、经取代或未经取代的杂烷基、经取代或未经取代的芳基和经取代或未经取代的杂芳基。当本发明的化合物包含多于一个R基团时,例如,独立地选择R基团中的每个R基团,如同当R'、R"、R"'和R""中的多于一个基团存在时各自独立地进行选择一样。
芳基、杂芳烃或杂芳基环的相邻原子上的取代基中的两个取代基可以任选地被式–T-C(O)-(CRR')q-U-的取代基替代,其中T和U独立地为-NR-、-O-、-CRR'-或单键,并且q为0到3的整数。可替代地,芳基或杂芳基环的相邻原子上的取代基中的两个取代基可以任选地用式–A-(CH2)r-B-的取代基替代,其中A和B独立地为–CRR'-、-O-、-NR-、-S-、-S(O)-、-S(O)2-、-S(O)2NR'-或单键,并且r为1到4的整数。如此形成的新环的单键之一可以任选地被双键替代。可替代地,芳基、杂芳烃或杂芳基环的相邻原子上的取代基中的两个取代基可以任选地用式–(CRR')s-X-(CR"R'")d-的取代基替代,其中s和d独立地为0到3的整数,并且X为–O-、-NR'-、-S-、-S(O)-、-S(O)2-或–S(O)2NR'-。取代基R、R'、R"和R'"优选地独立地选自氢或经取代或未经取代的(C1-C6)烷基。这些术语涵盖被认为是示例性“芳基取代基”的基团,它们是示例性“经取代的芳基”、“经取代的杂芳烃”和“经取代的杂芳基”部分的组分。
在一些实施例中,测试对象数据集中的测试对象表示具有“酰基”基团的化合物。如本文所使用的,术语“酰基”描述了含有羰基残基C(O)R的取代基。R的示例性物质包含H、卤素、经取代或未经取代的烷基、经取代或未经取代的芳基、经取代或未经取代的杂芳基和经取代或未经取代的杂环烷基。
在一些实施例中,测试对象数据集中的测试对象表示具有“稠环系统”的化合物。如本文所使用的,术语“稠环系统”意指至少两个环,其中每个环具有至少2个与另一个环共用的原子。“稠环系统”可以包含芳香族环和非芳香族环。“稠环系统”的实例是萘、吲哚、喹啉、色烯等。
如本文所使用的,术语“杂原子”包含氧(O)、氮(N)、硫(S)和硅(Si)、硼(B)以及磷(P)。
符号“R”是表示选自H、经取代或未经取代的烷基、经取代或未经取代的杂烷基、经取代或未经取代的芳基、经取代或未经取代的杂芳基和经取代或未经取代的杂环烷基的取代基的通用缩写。
框208.参考图2A的框208,在一些实施例中,测试对象数据集包含多个特征向量(例如,其中每个特征向量对应于测试对象数据集中的单个测试对象并且包含一个或多个特征)。在一些实施例中,所述多个特征向量中的每个相应的特征向量包括由对应的测试对象表示的相应化合物的化学指纹、分子指纹、一个或多个计算性质和/或图形描述符。实例分子指纹包含但不限于日光指纹、BCI指纹、ECFP指纹、ECFC指纹、MDL指纹、APFP指纹、TTFP指纹、UNITY 2D指纹等。
在一些实施例中,向量中的特征中的一些特征包括对应的测试对象的分子性质,如分子量、可旋转键的数量、计算的LogP(例如,计算的辛醇-水分配系数或其它方法)、氢键供体的数量、氢键受体的数量、手性中心的数量、手性双键的数量(E/Z异构)、极性和非极性去溶剂化能(以kcal/mol为单位)、净电荷和刚性片段的数量的任何组合。在一些实施例中,测试对象数据集中的一个或多个测试对象用功能或活性来加以注释。在一些此类实施例中,向量中的特征包括此类功能或活性。
在一些实施例中,测试对象数据集包含每个测试对象的化学结构。例如,在一些实施例中,所述化学结构是SMILES串。在一些实施例中,为了表示测试对象的化学结构,计算测试对象的正则表示(例如,OpenEye的OEchem库,参见互联网上的OpenyEye.com)。在一些实施例中,初始3D模型是从测试对象的明确异构SMILES生成的(例如,使用OpenEye的Omega程序)。在一些实施例中,然后创建了介于pH 5与9.5之间的测试对象的相关、正确质子化的形式(例如,使用通过互联网上的schrodinger.com从公司(Inc.)获得的的ligprep程序)。例如,这包含对羧酸和四唑进行去质子化以及对大多数脂肪胺进行质子化。在一些实施例中,计算每个质子化状态、立体异构体和互变异构体的单个3D构象的部分原子电荷和原子去溶剂化罚分(例如,使用半经验量子力学程序AMSOL16)。在一些实施例中,OpenEye的程序Omega用于生成3D构象。参见例如Sterling和Irwin,2005,《化学信息模型杂志(J.Chem.Inf.Model)》45(1),第177-182页。在一些实施例中,测试对象数据集中的测试对象由至少部分地具有SMILES、mol2、3D SDF、DOCKflexibase或等效格式的数据结构的测试对象数据集表示。
在测试对象由特征向量表示的测试对象数据集的实施例中,每个特征向量用于所述多个测试对象中的相应的测试对象。在一些实施例中,所述多个特征向量中的每个特征向量的大小(例如,特征的数量)是相同的。在一些实施例中,所述多个特征向量中的每个特征向量的大小(例如,特征的数量)是不同的。即,在一些实施例中,所述多个特征向量中的至少一个特征向量的大小是不同的。在一些实施例中,每个特征向量是任意长度(例如,每个特征向量可以是任何大小)。在一些实施例中,所述多个特征向量中的每个特征向量的维数可以变化(例如,特征向量可以具有任何维数)。在一些实施例中,所述多个特征向量中的每个特征向量是一维向量。在一些实施例中,所述多个特征向量中的一个或多个特征向量是二维向量。在一些实施例中,所述多个特征向量中的一个或多个特征向量是三维向量。在一些实施例中,所述多个特征向量中的每个特征向量的维数相同(例如,每个特征向量具有相同的维数)。在一些实施例中,所述多个特征向量中的每个特征向量至少是二维向量。在一些实施例中,所述多个特征向量中的每个特征向量至少为N维向量,其中N为二或更大的正整数(例如,2、3、4、5、6、7、8、9、10或大于10)。
在一些实施例中,所述多个测试对象中的每个相应的测试对象包含由相应的测试对象表示的化合物的对应的化学指纹。在一些实施例中,测试对象的化学指纹由测试对象的对应的特征向量表示。如本文所使用的,术语“化学指纹”是指对应于特定分子的独特模式(例如,独特的向量或矩阵)。在一些实施例中,每个化学指纹具有固定大小。在一些实施例中,一个或多个化学指纹的大小是可变的。在一些实施例中,可以直接确定所述多个测试对象中的相应的测试对象的化学指纹(例如,通过如MALDI-TOF等质谱方法)。在一些实施例中,所述多个测试对象中的相应的测试对象的化学指纹可以通过计算方法获得。参见例如Daina等人(2017)“SwissADME:一个用于评估小分子的药代动力学、药物相似性和药物化学友好性的免费网络工具(SwissADME:a free web tool to evaluate pharmacokinetics,drug-likeness and medicinal chemistry friendliness of small molecules)”《科学报告(Sci Reports)》7,42717;O'Boyle等人2011“Open Babel:一个开放的化学工具箱(Open Babel:An open chemical toolbox)”《化学信息杂志(J Cheminforma)》3,33;Cereto-Massagué等人2015“虚拟筛选中的分子指纹相似性搜索(Molecular fingerprintsimilarity search in virtual screening)”《方法(Methods)》71,58–63;以及Mitchell2014“化学信息学中的机器学习方法(Machine learning methods in cheminformatics)”《威利跨学科评论:计算分子科学(WIREs Comput Mol Sci.)》4:468–481,所述文献中的每个文献特此通过引用并入。
在计算空间中表示化合物的许多不同方法在本领域中是已知的。
在一些实施例中,每个化学指纹包含关于相应的化合物与一种或多种另外的化合物和/或生物大分子之间的相互作用的信息。在一些实施例中,化学指纹包括关于蛋白质-配体结合无限的信息。参见Wójcikowski等人2018“蛋白质-配体扩展连接(PLEC)指纹的开发及其在结合亲和力预测中的应用(Development of a protein-ligand extendedconnectivity(PLEC)fingerprint and its application for binding affinitypredictions)”《生物信息学(Bioinformatics)》35(8),1334-1341,所述文献特此通过引用并入。在一些实施例中,神经网络用于确定测试对象数据库中的至少一个测试对象的一种或多种化学性质(和/或化学指纹)。
在一些实施例中,测试对象数据库中的每个测试对象对应于具有一种或多种已知化学性质的已知化合物。在一些实施例中,为测试对象数据集中的所述多个测试对象中的每个测试对象提供相同数量的化学性质。在一些实施例中,为测试对象数据集中的一个或多个测试对象提供不同数量的化学性质。在一些实施例中,测试对象数据集中的一个或多个测试对象是合成的(例如,尽管测试对象尚未在实验室中分析过,但仍可以确定所述测试对象的化学结构)。参见例如Gómez-Bombarelli等人2017“使用数据驱动的分子连续表示的自动化学设计(Automatic Chemical Design Using a Data-Driven ContinuousRepresentation of Molecules)”arXiv:1610.02415v3,所述文献特此通过引用并入。
在一些实施例中,图形比较用于比较由测试对象数据集表示的分子的三维结构(例如,以确定相似分子的簇或集合)。图形比较的概念依赖于比较图形描述符并产生相异度或相似度测量结果,所述相异度或相似度测量结果可以用于模式识别。参见例如Czech2011“图形描述符形式B-矩阵表示(Graph Descriptors form B–MatrixRepresentation)”《模式识别中基于图形的表示(Graph-Based Representations inPatter Recognition)》,LNCS 6658,12-21,所述文献特此通过引用并入。在一些实施例中,为了捕捉图表(例如,测试对象的集合)内的相关结构性质,可以使用如聚类系数、效率或中介中心性等度量。参见例如Costa等人2007“复杂网络的表征:测量的调查(Characterization of complex networks:A survey of measurements)”《物理学进展(Advances Phys)》56(1),198-200,所述文献特此通过引用并入。
框210.参考图2A的框210,针对来自所述多个测试对象的测试对象子集中的每个相应的测试对象,将目标模型应用于相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得对应的目标结果子集。在典型的实施例中,将相应的测试对象对接到所述至少一个目标对象的每个目标对象。在一些实施例中,仅存在单个目标对象。
在一些实施例中,目标对象是聚合物。聚合物的实例包含但不限于蛋白质、多肽、多核酸、多核糖核酸、多糖或其任何组合的集合。聚合物,如使用所公开系统和方法的一些实施例研究的那些聚合物,是由重复残基构成的大分子。在一些实施例中,所述聚合物是天然材料。在一些实施例中,所述聚合物是合成材料。在一些实施例中,所述聚合物是弹性体、紫胶、琥珀、天然或合成橡胶、纤维素、胶木、尼龙、聚苯乙烯、聚乙烯、聚丙烯、聚丙烯腈、聚乙二醇或多糖。
在一些实施例中,目标对象是杂聚物(共聚物)。共聚物是由两种(或更多种)单体种类衍生的聚合物,所述聚合物与仅使用一种单体的均聚物相反。共聚是指用于化学合成共聚物的方法。共聚物的实例包含但不限于ABS塑料、SBR、丁腈橡胶、苯乙烯-丙烯腈、苯乙烯-异戊二烯-苯乙烯(SIS)和乙烯-乙酸乙烯酯。由于共聚物由至少两种类型的构成单元(也称为结构单元或颗粒)组成,因此可以基于这些单元沿链的排列方式对共聚物进行分类。这些包含具有规则交替A和B单元的交替共聚物。例如,参见Jenkins,1996,“聚合物科学基本术语表(Glossary of Basic Terms in Polymer Science)”,《纯粹与应用化学(PureAppl.Chem.)》68(12):2287-2311,所述文献特此通过引用以其整体并入本文。共聚物的另外的实例是具有以重复序列排列的A和B单元的周期共聚物(例如,(A-B-A-B-B-A-A-A-A-B-B-B)n)。共聚物的另外的实例是统计共聚物,其中共聚物中单体残基的序列遵循统计规则。参见例如Painter,1997,《聚合物科学基础(Fundamentals of Polymer Science)》,CRC出版社(CRC Press),1997,第14页,所述文献特此通过引用整体并入本文。可以使用所公开的系统和方法评估的共聚物的仍其它实例是嵌段共聚物,所述嵌段共聚物包括通过共价键连接的两个或更多个均聚物亚单元。均聚物亚单元的结合可能需要称为连接嵌段的中间的非重复亚单元。具有两个或三个不同嵌段的嵌段共聚物分别称为二嵌段共聚物和三嵌段共聚物。
在一些实施例中,目标对象实际上是多种聚合物,其中所述多种聚合物中的相应的聚合物不都具有相同的分子量。在一些此类实施例中,所述多种聚合物中的聚合物处于具有对应的链长分布的重量范围内。在一些实施例中,聚合物是支化聚合物分子,其包括具有一个或多个取代基侧链或支链的主链。支化聚合物的类型包含但不限于星形聚合物、梳形聚合物、刷形聚合物、树枝化聚合物、梯形物和树状物。参见例如Rubinstein等人,2003,《聚合物物理(Polymer physics)》,牛津;纽约:牛津大学出版社(Oxford UniversityPress).第6页,所述文献特此通过引用整体并入本文。
在一些实施例中,目标对象是多肽。如本文所使用的,术语“多肽”意指通过肽键连接的两个或更多个氨基酸或残基。术语“多肽”和“蛋白质”在本文中可互换使用并且包含寡肽和肽。“氨基酸”、“残基”或“肽”是指本领域已知的二十种蛋白质标准结构单元中的任何一种,包含亚氨基酸,如脯氨酸和羟脯氨酸。氨基酸异构体的名称可以包含D、L、R和S。氨基酸的定义包含非天然氨基酸。因此,硒代半胱氨酸、吡咯赖氨酸、羊毛硫氨酸、2-氨基异丁酸、γ-氨基丁酸、脱氢丙氨酸、鸟氨酸、瓜氨酸和高半胱氨酸都被认为是氨基酸。氨基酸的其它变体或类似物是本领域已知的。因此,多肽可以包含合成的拟肽结构,如类肽。参见Simon等人,1992,《美国国家科学院院刊(Proceedings of the National Academy ofSciences USA)》,89,9367,所述文献特此通过引用整体并入本文。还参见Chin等人,2003,《科学(Science)》301,964;以及Chin等人,2003,《化学与生物学(Chemistry&Biology)》10,511,所述文献中的每个文献通过引用整体并入本文。
在一些实施例中,根据所公开的系统和方法的一些实施例评估的目标对象也可以具有任何数量的翻译后修饰。因此,目标对象可以包含通过酰基化、烷基化、酰胺化、生物素化、甲酰化、γ-羧化、谷氨酰化、糖基化、甘氨酰化、羟基化、碘化、异戊二烯化、脂酰化、辅因子添加(例如,血红素、黄素、金属等)、核苷及其衍生物的添加、氧化、还原、聚乙二醇化、磷脂酰肌醇添加、磷酸泛酰巯基乙胺化(phosphopantetheinylation)、磷酸化、焦谷氨酸盐形成、外消旋化、通过tRNA添加氨基酸(例如,精氨酰化)、硫酸化、硒化(selenoylation)、ISG化(ISGylation)、SUMO化(SUMOylation)、泛素化、化学修饰(例如,瓜氨酸化和脱酰胺化)以及用其它酶(例如,蛋白酶、磷酸酶和激酶)处理来修饰的那些聚合物。其它类型的翻译后修饰是本领域已知的并且也包含在内。
在一些实施例中,目标对象是有机金属配合物。有机金属配合物是在碳与金属之间含有键的化合物。在一些情况下,有机金属化合物通过前缀“有机-”来区分,例如,有机钯化合物。
在一些实施例中,目标对象是表面活性剂。表面活性剂是降低液体的表面张力、两种液体之间或液体与固体之间的界面张力的化合物。表面活性剂可以充当洗涤剂、润湿剂、乳化剂、发泡剂和分散剂。表面活性剂通常是两亲性的有机化合物,这意味着它们同时含有疏水基团(它们的尾部)和亲水基团(它们的头部)。因此,表面活性剂分子含有水不溶性(或油溶性)组分和水溶性组分。在水与油混合的情况下,表面活性剂分子将在水中扩散并吸附在空气与水之间的界面或油与水之间的界面处。不溶性疏水基团可以延伸出本体水相、进入空气或进入油相中,而水溶性头部基团保留在水相中。表面活性剂分子在表面处的这种排列改变了水在水/空气或水/油界面处的表面性质。
离子表面活性剂的实例包含如阴离子、阳离子或两性离子(两性)表面活性剂等离子表面活性剂。在一些实施例中,目标对象是反胶束或脂质体。
在一些实施例中,目标对象是富勒烯。富勒烯是任何完全由碳构成的呈空心球、椭圆体或管形式的分子。球形富勒烯也称为巴基球,并且它们类似于英式足球中使用的球。圆柱形富勒烯称为碳纳米管或巴基管。富勒烯在结构上与由连接的六边形环的堆叠石墨烯片构成的石墨相似;但它们也可以含有五边形(或有时是七边形)环。
在一些实施例中,目标对象是聚合物,并且空间坐标是以或更佳的分辨率解析的聚合物的晶体结构的三维坐标集合{x1,…,xN}(208),其中N是二或更大的整数(例如,10或更大、20或更大等)。在一些实施例中,目标对象是聚合物,并且空间坐标是以或更佳的分辨率解析的聚合物的晶体结构三维坐标集合{x1,…,xN}(210)。在一些实施例中,目标对象是聚合物,并且空间坐标是以或更佳、或更佳、或更佳、或更佳、或更佳、或更佳、或更佳、或更佳、或更佳、或更佳、或更佳或或更佳的分辨率解析(例如,通过X射线晶体学技术)的聚合物的晶体结构的三维坐标集合{x1,…,xN}。
在一些实施例中,目标对象是聚合物,并且空间坐标是通过核磁共振确定的聚合物的十个或更多个、二十个或更多个或三十个或更多个三维坐标的集合,其中所述集合具有或更佳、或更佳、或更佳、或更佳、或更佳、或更佳、或更佳、或更佳,或或更佳的主链RMSD。在一些实施例中,空间坐标由中子衍射或低温电子显微术确定。
在一些实施例中,目标对象包含两种不同类型的聚合物,如与多肽结合的核酸。在一些实施例中,天然聚合物包含彼此结合的两个多肽。在一些实施例中,研究中的天然聚合物包含一个或多个金属离子(例如,具有一个或多个锌原子的金属蛋白酶)。在此类情况下,金属离子和/或有机小分子可以包含在目标对象的空间坐标中。
在一些实施例中,目标对象是聚合物,并且在所述聚合物中有十个或更多、二十个或更多、三十个或更多、五十个或更多、一百个或更多、一百到一千个或少于500个残基。
在一些实施例中,目标对象的空间坐标是使用建模方法确定的,所述建模方法如从头算方法、密度函数方法、半经验和经验方法、分子力学、化学动力学或分子动力学。
在一实施例中,空间坐标由构成目标对象的原子的中心的笛卡尔坐标(Cartesiancoordinates)表示。在一些替代性实施例中,目标对象的空间坐标由例如通过X射线晶体学测量的目标对象的电子密度表示。例如,在一些实施例中,空间坐标包括使用计算的目标对象的原子坐标计算的2Fobserved-Fcalculated电子密度图,其中Fobserved是目标对象的观察到的结构因子振幅,并且Fc是根据目标对象的计算的原子坐标计算的结构因子振幅。
因此,目标对象的空间坐标可以作为来自各种来源的输入数据而被接收,所述各种来源如但不限于由溶液NMR生成的结构集合、根据X射线晶体学、中子衍射或低温电子显微术解释的共复合物、从计算模拟中采样、同源建模或旋转异构体库采样以及这些技术的组合。
在一些实施例中,框210涵盖获得目标对象的空间坐标。进一步地,框210涵盖对处于多个不同的位姿中的每个位姿下的相应的测试对象与目标对象进行建模,从而创建多个体素图,其中所述多个体素图中的每个相应的体素图包括处于所述多个不同的位姿中的相应位姿下的相应的测试对象。
在一些实施例中,目标对象是具有活性位点的聚合物,相应的测试对象是化合物,并且对处于多个不同的位姿中的每个位姿下的相应的测试对象与目标对象进行建模包括将测试对象对接到目标对象的活性位点中。在一些实施例中,将相应的测试对象多次对接到目标对象上以形成多个位姿(例如,每个对接表示不同的位姿)。在一些实施例中,将测试对象对接到目标对象上两次、三次、四次、五次或更多次、十次或更多次、五十次或更多次、100次或更多次,或1000次或更多次。每个此类对接表示对接到目标对象上的相应的测试对象的不同位姿。在一些实施例中,相应的目标对象是具有活性位点的聚合物,并且测试对象以多种不同方式中的每一种方式对接到活性位点中,每种此类方式表示不同的位姿。预期这些位姿中的许多位姿是不正确的,这意味着此类位姿并不表示相应的测试对象与目标对象之间实际上发生的真实相互作用。在不旨在受限于任何特定理论的情况下,预期在不正确位姿之间观察到的对象间(例如,分子间)相互作用将像白噪声一样相互抵消,而由测试对象形成的正确位姿形成的对象间相互作用将互相加强。在一些实施例中,测试对象通过随机位姿生成技术或通过偏置位姿生成来对接。在一些实施例中,测试对象通过马尔可夫链蒙特卡罗采样(Markov chain Monte Carlo sampling)对接。在一些实施例中,此类采样允许测试对象在对接计算和评分函数中的完全灵活性,所述评分函数是测试对象与目标对象之间的相互作用能量以及测试对象的构象能量的总和。参见例如Liu和Wang,1999,“MCDOCK:分子对接问题的蒙特卡罗模拟方法(MCDOCK:A Monte Carlo simulationapproach to the molecular docking problem)”,《计算机辅助分子设计杂志(Journalof Computer-Aided Molecular Design)》13,435-451,所述文献特此通过引用并入。
在一些实施例中,如DOCK(hoichet,Bodian和Kuntz,1992,“使用形状描述符的分子对接(Molecular docking using shape descriptors)”,《计算化学杂志(Journal ofComputational Chemistry)》13(3),第380-397页;以及Knegtel,Kuntz和Oshiro,1997“与蛋白质结构集合的分子对接(Molecular docking to ensembles of proteinstructure)”,《分子生物学杂志(Journal of Molecular Biology)》266,第424-440页,所述文献中的每个文献特此通过引用并入)等算法用于寻找每个相应的测试对象相对于目标对象中的每个目标对象的多个位姿。此类算法将目标对象和测试对象建模为刚体。使用表面互补搜索对接的构象以寻找位姿。
在一些实施例中,如AutoDOCK(Morris等人,2009,“AutoDock4和AutoDockTools4:具有选择性受体灵活性的自动对接(AutoDock4 and AutoDockTools4:Automated Dockingwith Selective Receptor Flexibility)”,《计算化学杂志(J.Comput.Chem.)》30(16),第2785-2791页;Sotriffer等人,2000,“配体与抗体的自动对接:方法和应用(Automateddocking of ligands to antibodies:methods and applications)”,《方法:酶学方法的伴侣(Methods:A Companion to Methods in Enzymology)》20,第280-291页;以及Morris等人,1998,“使用拉马克遗传算法和经验结合自由能函数的自动对接(Automated DockingUsing a Lamarckian Genetic Algorithm and Empirical Binding Free EnergyFunction)”,《计算化学杂志(Journal of Computational Chemistry)》19:第1639-1662页,所述文献中的每个文献特此通过引用并入)等算法用于寻找每个相应的测试对象相对于目标对象中的每个目标对象的多个位姿。AutoDOCK使用配体的运动学模型并支持蒙特卡罗、模拟退火、拉马克遗传算法和遗传算法。因此,在一些实施例中,通过马尔可夫链蒙特卡罗采样、模拟退火、拉马克遗传算法或遗传算法,使用对接评分函数来获得所述多个不同的位姿(对于给定的测试对象-目标对象对)。
在一些实施例中,使用如FlexX(Rarey等人,1996,“一种使用增量构建算法的快速灵活对接方法(A Fast Flexible Docking Method Using an Incremental ConstructionAlgorithm)”,《分子生物学杂志(Journal of Molecular Biology)》261,第470-489页,所述文献特此通过引用并入)等算法用于寻找测试对象子集中的每个相应的测试对象相对于目标对象中的每个目标对象的多个位姿。FlexX使用贪婪算法在目标对象的活性位点处进行测试对象的增量构建。因此,在一些实施例中,所述多个不同的位姿(对于给定的测试对象-目标对象对)是通过贪婪算法来获得的。
在一些实施例中,如GOLD(Jones等人,1997,“用于灵活对接的遗传算法的开发和验证(Development and Validation of a Genetic Algorithm for flexibleDocking)”,《分子生物学杂志(Journal Molecular Biology)》267,第727–748页,所述文献特此通过引用并入)等算法用于寻找测试对象子集中的测试对象中的每个测试对象相对于目标对象中的每个目标对象的多个位姿。GOLD代表配体对接的遗传优化。GOLD在测试对象与目标对象之间建立遗传优化的氢键网络。
在一些实施例中,建模包括执行目标对象与测试对象的分子动力学运行。在分子动力学运行期间,使目标对象和测试对象的原子在固定的时间段内相互作用,从而给出系统的动力学演化的视图。目标对象和测试对象中的原子的轨迹是通过数值求解相互作用粒子系统的牛顿运动方程来确定的,其中粒子之间的力及其势能是使用原子间相互作用势或分子力学力场计算的。参见Alder和Wainwright,1959,“分子动力学研究.I.通用方法(Studies in Molecular Dynamics.I.General Method)”.《化学物理杂志(J.Chem.Phys.)》31(2):459;和Bibcode,1959,《化学物理杂志(J.Ch.Ph.)》31,459A,doi:10.1063/1.1730376,所述文献中的每个文献特此通过引用并入。因此,以这种方式,分子动力学运行产生了目标对象和测试对象一起随时间推移的轨迹。此轨迹包括目标对象和测试对象中原子的轨迹。在一些实施例中,通过在一定时间段内拍摄此轨迹的快照来获得所述多个不同的位姿的子集。在一些实施例中,位姿是从几个不同轨迹的快照获得的,其中每个轨迹包括与测试对象相互作用的目标对象的不同分子动力学运行。在一些实施例中,在分子动力学运行之前,首先使用对接技术将测试对象对接到目标对象的活性位点中。
无论使用何种建模方法,针对任何给定的测试对象-目标对象对所实现的都是测试对象与目标对象的一组不同位姿,预期所述位姿中的一个或多个位姿足够接近天然存在的位姿,以展示给定测试对象/目标对象对之间的一些相关分子间相互作用。
在一些实施例中,使用任何上述技术生成测试对象在目标对象的活性位点中的初始位姿,并且通过应用旋转、平移和三个X、Y和Z平面中的任何组合中的镜像操作符的某种组合来生成另外的位姿。测试的旋转和平移可以随机选择(在某个范围内,例如从原点加或减)或以某个预先指定的增量均匀地生成(例如,围绕圆的所有5度增量)。图4提供了测试对象122在目标对象124的活性位点中的两个不同位姿(402-1和402-2)的示例图示。
在为目标对象和/或测试对象中的每个生成每个位姿之后,在一些实施例中,创建每个位姿的体素图,从而创建给定的相应目标对象相对于目标对象的多个体素图。在一些实施例中,所述多个体素图中的每个相应的体素图是通过一种方法来创建的,所述方法包括:(i)在三维网格的基础上对处于所述多个不同的位姿中的相应的位姿下的测试对象和目标对象进行采样,从而形成对应的三维均匀空间填充蜂窝,所述对应的三维均匀空间填充蜂窝包括对应的多个空间填充(三维的)多面体单元;和(ii)针对对应的多个三维单元中的每个相应的三维多面体单元,基于相应的三维多面体单元的性质(例如,化学性质)将体素(规则间隔的多面体单元的离散集合)填充在相应的体素图中。因此,在此类实施例中,如果特定测试对象相对于目标对象具有十个位姿,则创建十个对应的体素图,如果特定测试对象相对于目标对象具有一百个位姿,则创建一百个对应的体素图,并且依此类推。空间填充蜂窝的实例包含具有平行六面体单元的立方蜂窝、具有六棱柱单元的六棱柱形蜂窝、具有菱形十二面体单元的菱形十二面体、具有细长十二面体单元的细长十二面体和具有截短八面体单元的截短八面体。
在一些实施例中,空间填充蜂窝是具有立方体单元的立方体蜂窝,并且此类体素的尺寸决定了它们的分辨率。例如,可以选择的分辨率,这意味着在此类实施例中,每个体素表示具有尺寸的几何数据的对应的立方体(例如,相应的单元的相应的高度、宽度和深度为)。然而,在一些实施例中,使用更精细的网格间距(例如,或甚至)或更粗糙的网格间距(例如),其中间距产生整数个体素以覆盖输入几何数据。在一些实施例中,采样以介于与之间的分辨率进行。作为说明,对于分辨率为的输入立方体,此类排列将产生40*40*40=64,000个输入体素。
在一些实施例中,相应的测试对象是第一化合物并且目标对象是第二化合物,在采样(i)中产生的原子的特性通过填充(ii)放置在相应的体素图中的单个体素中,并且所述多个体素中的每个体素表示最大一个原子的特性。在一些实施例中,原子的特性由原子类型的枚举组成。作为一个实例,对于生物数据,所公开的系统和方法的一些实施例被配置成将体素图的给定体素中每个原子的存在表示为所述条目的不同数字,例如,如果碳在体素中,则因为碳的原子序数是6,所以将值6分配给所述体素。然而,此类编码可能意味着具有接近的原子序数的原子将表现得相似,这可能不是特别有用,具体取决于应用。进一步地,元素行为在族(元素周期表上的列)内可能更相似,并且因此此类编码为卷积神经网络解码带来了额外的工作。
在一些实施例中,原子的特性在体素中编码为二进制分类变量。在此类实施例中,原子类型以所谓的“独热”编码进行编码:每个原子类型具有单独的通道。因此,在此类实施例中,每个体素具有多个通道,并且所述多个通道的至少一个子集表示原子类型。例如,每个体素内的一个通道可以表示碳,而每个体素内的另一个通道可以表示氧。当在与给定体素对应的三维网格元素中找到给定原子类型时,向给定体素内的所述原子类型的通道分配二进制分类变量的第一值,如“1”,并且当在与给定体素相对应的三维网格元素中未找到原子类型时,向所述原子类型的通道分配二进制分类变量的第二值,如给定体素内的“0”。
虽然有超过100种元素,但其大多数在生物学中都没有遇到。然而,即使表示最常见的生物元素(例如,H、C、N、O、F、P、S、Cl、Br、I、Li、Na、Mg、K、Ca、Mn、Fe、Co、Zn),每个体素也可能产生18个通道或到受体场的10,483*18=188,694个输入。如此,在一些实施例中,所述多个体素图中的体素图中的每个相应的体素包括多个通道,并且所述多个通道中的每个通道表示可能出现在与相应的体素相对应的三维空间填充多面体单元中的不同性质。在其中原子的另外的特性(例如,部分电荷、配体中的存在与蛋白质靶标、电负性或SYBYL原子类型)另外呈现为每个体素的独立通道的那些实施例中,给定体素的可能通道的数量甚至更高,从而需要更多的输入通道来区分其它等效原子。
在一些实施例中,每个体素具有五个或更多个输入通道。在一些实施例中,每个体素具有十五个或更多个输入通道。在一些实施例中,每个体素具有二十个或更多个输入通道、二十五个或更多个输入通道、三十个或更多个输入通道、五十个或更多个输入通道,或者一百个或更多个输入通道。在一些实施例中,每个体素具有从下表1中找到的描述符中选择的五个或更多个输入通道。例如,在一些实施例中,每个体素具有五个或更多个通道,每个所述通道被编码为二进制分类变量,其中每个此类通道表示选自下表1的SYBYL原子类型。例如,在一些实施例中,体素图中的每个相应的体素包含用于C.3(sp3碳)原子类型的通道,这意味着如果由相应的体素表示的给定测试对象-目标对象复合物的空间中的网格涵盖sp3碳,则通道采用第一值(例如,“1”),否则为第二值(例如,“0”)。
表1–SYBYL原子类型
在一些实施例中,每个体素包括从上表1中找到的描述符中选择的十个或更多个输入通道、十五个或更多个输入通道,或二十个或更多个输入通道。在一些实施例中,每个体素包含用于卤素的通道。
在一些实施例中,为相应的测试对象相对于目标对象的每个位姿生成结构蛋白-配体相互作用指纹(SPLIF)评分,并且此SPLIF评分用作进入目标模型中的另外的输入或在体素图中单独编码。关于SPLIF的描述,参见Da和Kireev,2014,《化学信息模型杂志(J.Chem.Inf.Model.)》54,第2555-2561页,“用于基于结构的虚拟筛选的结构蛋白-配体相互作用指纹(SPLIF):方法和基准研究(Structural Protein-Ligand InteractionFingerprints(SPLIF)for Structure-Based Virtual Screening:Method and BenchmarkStudy)”,所述文献特此通过引用并入。SPLIF隐式编码测试对象和目标对象的相互作用片段之间可能发生的所有可能的相互作用类型(例如,π-π、CH-π等)。在第一步骤中,检查测试对象-目标对象复合物(位姿)的分子间接触。如果两个原子之间的距离在指定阈值内(例如,在内),则认为它们处于接触状态。对于每个此类分子间原子对,相应的测试原子和目标对象原子被扩展为圆形片段,例如,包含所讨论的原子及其直至一定距离的连续邻域的片段。每种类型的圆形片段都分配有标识符。在一些实施例中,此类标识符被编码在相应的体素中的单独的通道中。在一些实施例中,可以使用在Pipeline Pilot软件中定义的直到第一个最近邻居的扩展连接指纹(ECFP2)。参见Pipeline Pilot,8.5版,Accelrys软件公司(Accelrys Software Inc.),2009,所述软件特此通过引用并入。ECFP保留有关所有原子/键类型的信息,并使用一个唯一的整数标识符来表示一个子结构(例如,圆形片段)。SPLIF指纹编码找到的所有圆形片段标识符。在一些实施例中,SPLIF指纹不是编码的单个体素,而是用作目标模型中的单独的独立输入。
在一些实施例中,与SPLIF不同或除了SPLIF之外,结构相互作用指纹(SIFt)是针对给定测试对象相对于目标对象的每个位姿计算的,并且独立地作为输入提供到目标模型中或编码在体素图中。关于SIFt的计算,参见Deng等人,2003,“结构相互作用指纹(SIFt):一种用于分析三维蛋白质-配体结合相互作用的新方法(Structural InteractionFingerprint(SIFt):A Novel Method for Analyzing Three-Dimensional Protein-Ligand Binding Interactions)”,《医学化学杂志(J.Med.Chem.)》47(2),第337-344页,所述文献特此通过引用并入。
在一些实施例中,与SPLIF和SIFT不同或除了SPLIF和SIFT之外,基于原子对的相互作用片段(APIF)是针对给定测试对象相对于目标对象的每个位姿计算的,并且独立地作为输入提供到目标模型中或单独地编码在体素图中。有关APIF的计算,参见Perez-Nueno等人,2009,“APIF:一种基于原子对的新型相互作用指纹及其在虚拟筛选中的应用(APIF:anew interaction fingerprint based on atom pairs and its application tovirtual screening)”,《化学信息模型杂志(J.Chem.Inf.Model.)》49(5),第1245-1260页,所述文献特此通过引用并入。
数据表示可以与生物数据一起以使得能够表达例如与分子/蛋白质相关联的各种结构关系的方式编码。根据各个实施例,可以以各种方式和拓扑来实施几何表示。几何表示用于数据的可视化和分析。例如,在一实施例中,可以使用布置在如2-D、3-D笛卡尔/欧几里得空间、3-D非欧几里得空间、流形等各种拓扑上的体素来表示几何形状。例如,图5展示了根据一实施例的包含一系列子容器的示例三维网格结构500。每个子容器502可以对应于一个体素。可以为网格定义坐标系,使得每个子容器具有标识符。在所公开的系统和方法的一些实施例中,坐标系是3-D空间中的笛卡尔坐标系,但是在所述系统的其它实施例中,坐标系可以是任何其它类型的坐标系,如扁球、柱面或球坐标系、极坐标系、为各种流形和向量空间设计的其它坐标系等。在一些实施例中,体素可以具有与它们相关联的特定值,例如,所述值可以通过应用标签和/或确定它们的定位等来表示。
在一些实施例中,框210进一步包括将所述多个体素图中的每个体素图展开成对应的向量,从而创建多个向量,其中所述多个向量中的每个向量具有相同的大小。在一些实施例中,将所述多个向量中的每个相应的向量输入到目标模型中。在一些实施例中,目标模型包含(i)用于顺序地接收所述多个向量的输入层,(ii)多个卷积层,以及(iii)评分器,其中所述多个卷积层包含初始卷积层和最终卷积层,并且所述多个卷积层中的每一层与不同的权重集合相关联。在此类实施例中,响应于所述多个向量中的相应的向量的输入,输入层将第一多个值作为相应的向量中的值的第一函数馈送到初始卷积层,除最终卷积层之外的每个相应的卷积层将中间值作为(i)与相应的卷积层相关联的不同的权重集合和(ii)由相应的卷积层接收到的输入值的相应的第二函数馈送到所述多个卷积层中的另一个卷积层中,并且最终卷积层将最终值作为(i)与最终卷积层相关联的不同的权重集合和(ii)由最终卷积层接收到的输入值的第三函数馈送到评分器中。以这种方式,从评分器中获得多个评分,其中所述多个评分中的每个评分对应于进入输入层中的所述多个向量中的向量的输入。然后使用所述多个评分来为相应的测试对象提供对应的目标结果。在一些实施例中,目标结果是所述多个评分的加权平均值。在一些实施例中,目标结果是所述多个评分的集中趋势的度量。集中趋势的度量的实例包含所述多个评分的算术平均值、加权平均值、中列数、中轴数、三均值、温塞平均值(Winsorized mean)、中值或众数。
在一些实施例中,评分器包括多个全连接层和评估层,其中所述多个全连接层中的全连接层馈送到评估层。在一些实施例中,评分器包括决策树、多重加性回归树、聚类算法、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、进化方法、投影寻踪和其集合。在一些实施例中,所述多个向量中的每个向量是一维向量。在一些实施例中,所述多个不同的位姿包括2个或更多个位姿、10个或更多个位姿、100个或更多个位姿,或1000个或更多个位姿。在一些实施例中,所述多个不同的位姿是以标记链蒙特卡罗采样、模拟退火、拉马克遗传算法或遗传算法之一而使用对接评分函数来获得的。在一些实施例中,所述多个不同的位姿是通过使用贪婪算法进行的增量搜索来获得的。
框212和214.在一些实施例中,目标模型具有比预测模型更高的计算复杂度。在一些此类实施例中,将目标模型应用于测试对象数据集中的每个测试对象在计算上是难以承受的。出于这个原因,目标模型通常应用于测试对象子集,而不是测试对象数据集中的每个测试对象。在一些实施例中,期望测试对象子集(例如,包括具有一定范围的结构或功能质量的测试对象的测试对象子集)中的某种程度的多样性。在一些实施例中,测试对象子集包括至少1,000个测试对象、至少5,000个测试对象、至少10,000个测试对象、至少25,000个测试对象、至少50,000个测试对象、至少75,000个测试对象、至少100,000个测试对象、至少250,000个测试对象、至少500,000个测试对象、至少750,000个测试对象、至少100万个测试对象、至少200万个测试对象、至少300万个测试对象、至少400万个测试对象、至少500万个测试对象、至少600万个测试对象、至少700万个测试对象、至少800万个测试对象、至少900万个测试对象或至少1000万个测试对象。
为了确保这一点,参考图2A的框212,在一些实施例中,测试对象子集是从测试对象数据集中随机选择的(例如,测试对象子集是使用本领域已知的任何随机方法从测试对象数据集中选择的)。
参考图2A的框214,在其它实施例中,基于对测试对象的特征向量的一个或多个特征的评估从测试对象数据集中选择测试对象子集。在一些此类实施例中,对特征的评估包括基于聚类从所述多个测试对象中选择测试对象(例如,当形成每个测试对象子集时从多个簇中选择测试对象)。然后,至少部分地基于所述多个簇中的各个簇中的测试对象的冗余来选择测试对象子集(例如,以获得表示不同类型的化合物的测试对象子集)。例如,考虑测试对象数据集中的测试对象基于其特征向量被聚类到100个不同的簇的情况。一种用于选择测试对象子集的方法是从不同的簇中的每个簇中选择固定数量的测试对象(例如,10、100、1000等)以形成测试对象子集。在每个簇内,测试对象的选择可以是随机的。可替代地,在每个簇内,最接近每个簇中心的那些测试对象是基于此类测试对象最能代表其相应簇的性质来选择的。在一些实施例中,所使用的聚类形式是无监督聚类。对来自测试对象数据集的所述多个测试对象进行聚类的益处在于,这提供了对预测模型的更准确的训练。例如,如果测试对象子集中的所有或大部分测试对象是相似的化合物(例如,包含相同的化学基团、具有相似的结构等),则预测模型存在被偏置或过度拟合到所述特定类型的化合物的风险。在一些情况下,这可能会对下游训练产生负面影响(例如,可能难以有效地重新训练预测模型以准确分析来自不同类型的化合物的测试对象)。
为了说明如何在聚类中使用测试对象的特征向量,考虑将每个特征向量内共同的由十个特征(相同的十个特征)构成的集合用于聚类的情况。在一些实施例中,测试对象数据集中的每个测试对象可以具有十个特征中的每一个特征的值。在一些实施例中,测试对象数据集的每个测试对象具有一些特征的测量值,并且使用填补技术填充缺失值或将其忽略(边缘化)。在一些实施例中,测试对象数据集的每个测试对象具有一些特征的值,并且使用约束条件填充缺失值。来自测试对象数据集中的测试对象的特征向量的值定义了向量:X1、X2、X3、X4、X5、X6、X7、X8、X9、X10,其中Xi是特定测试对象的特征向量中的第i个特征的值。如果测试对象数据集中有Q个测试对象,则选择10个特征可以定义Q个向量。在聚类中,测试对象数据集的跨其相应的特征向量表现出相似的测量模式的那些成员倾向于聚类在一起。
可以使用的特定示例性聚类技术包含但不限于层次聚类(使用最近邻算法、最远邻算法、平均关联算法、重心算法或平方和算法的聚集聚类)、k均值聚类、模糊k均值聚类算法、贾维斯帕特里克聚类(Jarvis-Patrick clustering)、基于密度的空间聚类算法、分裂聚类算法、监督聚类算法或其集合。此类聚类可以在相应的测试对象的特征向量内的特征或从它们衍生的主成分(或其它形式的归约成分)上进行。在一些实施例中,聚类包括无监督聚类,其中未施加当对测试对象数据集进行聚类时可以形成什么簇的预设概念。
数据聚类是需要优化才能有效的无监督过程;例如,使用太少或太多的簇来描述数据集可能会导致信息丢失。参见例如Jain等人,1999“数据聚类:综述(Data Clustering:A review)”《AMC计算调查(AMC Computing Surveys)》31(3),264-323;和Berkhin 2002“聚类数据挖掘技术调查(Survey of clustering datamining techniques)”,《技术报告(Tech Report)》,加利福尼亚州圣何塞Accrue软件公司(Accrue Software,San Jose,CA),所述文献中的每个文献特此通过引用并入。在一些实施例中,为了改进聚类过程,在聚类之前对多个测试对象进行归一化(例如,对多个特征向量中的每个特征向量中的一个或多个维度进行归一化(例如,相对于根据多个特征向量确定的对应的维度的相应平均值归一化))。
在一些实施例中,基于重心的聚类算法用于执行所述多个测试对象的聚类。基于重心的聚类将数据组织成非层次簇,并根据中心向量表示所有对象(其中向量本身可能不是数据集的一部分)。然后算法计算每个对象与中心向量之间的距离度量,并基于与中心向量之一的接近度对对象进行聚类。在一些实施例中,欧几里得、曼哈顿(Manhattan)或闵可夫斯基(Minkowski)距离测量用于计算每个测试对象与中心向量之间的距离度量。在一些实施例中,k均值、k中心点、CLARA或CLARANS聚类算法用于对所述多个测试对象进行聚类。以下中描述了k均值算法的实例:Uppada 2014“基于重心的聚类算法——Clarion研究(Centroid Based Clustering Algorithms–A Clarion Study)”《计算科学和信息技术国际杂志(Int J Comp Sci and Inform Technol)》5(6),7309-7313,所述文献特此通过引用并入。
在一些实施例中,基于密度的聚类算法用于执行所述多个测试对象的聚类。基于密度的空间聚类算法将簇标识为数据集(例如,多个特征向量)中具有较高浓度的区域(例如,具有高密度测试对象的区域)。在一些实施例中,可以如以下中所描述的那样执行基于密度的空间聚类:Ester等人,1996“一种用于在具有噪声的大型空间数据库中发现簇的基于密度的算法(A Density-Based Algorithm for Discovering Clusters in LargeSpatial Databases with Noise)”《KDD'96:第二届知识发现和数据挖掘国际会议论文集(KDD'96:Proceedings of the Second International Conference on KnowledgeDiscovery and Data Mining)》,226-231,所述文献特此通过引用并入。在此类实施例中,算法允许任意形状的分布并且不将异常值(例如,在其它测试对象的浓度之外的测试对象)分配给簇。
在一些实施例中,层次聚类(例如,基于连通性的聚类)算法用于执行所述多个测试对象的聚类。通常,层次聚类用于构建一系列簇,并且可以是聚集的或分裂的,如下文进一步描述的(例如,层次聚类方法存在聚集或分裂子集)。例如特此通过引用并入的Rokach等人描述了聚集聚类方法的各种版本(“聚类方法(Clustering Methods)”2005《数据挖掘和知识发现手册(Data Mining and Knowledge Discovery Handbook)》,321-352)。
在一些实施例中,层次聚类包括分裂聚类。分裂聚类最初将所述多个测试对象分组在一个簇中,然后将所述多个测试对象划分为越来越多的簇(例如,其是递归过程),直到达到某个阈值(例如,簇的数量)。例如在以下中描述了分裂聚类的不同方法的实例:Chavent等人,2007“DIVCLUS-T:一元分裂层次聚类方法(DIVCLUS-T:a monotheticdivisive hierarchical clustering method)”《计算统计数据分析(Comp Stats DataAnal)》52(2),687-701;Sharma等人,2017“分裂层次最大似然聚类(Divisivehierarchical maximum likelihood clustering)”《BMC生物信息学(BMC Bioinform)》18(增刊16):546;和Xiong等人,2011“DHCC:分类数据的分裂层次聚类(DHCC:Divisivehierarchical clustering of categorical data”《数据挖掘知识发现(Data Min KnowlDisc)》doi10.1007/s10618-011-0221-2,所述文献中的每个文献特此通过引用并入。
在一些实施例中,层次聚类包括聚集聚类。聚集聚类通常包含最初将所述多个测试对象分离成多个单独的簇(例如,在一些情况下,从定义簇的单个测试对象开始)并在连续迭代中合并簇对。沃德方法(Ward's method)是聚集聚类的实例,所述方法使用平方和来减少每个簇的成员之间的方差(例如,其是最小方差聚集聚类技术)。参见Murtagh和Legendre 2014“沃德的层次聚集聚类方法(Ward's Hierarchical AgglomerativeClustering Method)”《分类杂志(J.Class)》31,274-295,所述文献特此通过引用并入。许多聚集聚类方法的缺点是其高计算要求。在一些实施例中,聚集聚类算法可以与k均值聚类算法相组合。以下中描述了聚集和k均值聚类的非限制性实例:Karthikeyan等人,2020“k均值聚类和聚集层次聚类的比较研究(A comparative study of k-means clustering andagglomerative hierarchical clustering)”《国际工程研究新趋势杂志(Int J EmerTrends Eng Res)》8(5),1600-1604,所述文献特此通过引用并入。作为实例,k均值聚类算法将所述多个测试对象划分为数据空间中的k个簇的离散集合(例如,初始k个分区)。在一些实施例中,将k均值聚类迭代地应用于所述多个测试对象(例如,将k均值聚类多次——例如连续地——应用于所述多个测试对象)。在一些实施例中,组合使用聚集和k均值聚类的计算要求低于单独使用聚集或k均值聚类。
框216.参考框216,在一些实施例中,目标模型是卷积神经网络。
在一些实施例中(例如,当至少一个目标对象是具有活性位点的聚合物并且测试对象是化学成分时),通过将测试对象的原子表示对接到聚合物的活性位点的原子表示中来获得针对相应的目标对象摆出位姿的测试对象的描述。以下中公开了此类对接的非限制性实例:Liu和Wang,1999,“MCDOCK:分子对接问题的蒙特卡罗模拟方法(MCDOCK:A MonteCarlo simulation approach to the molecular docking problem)”,《计算机辅助分子设计杂志(Journal of Computer-Aided Molecular Design)》13,435-451;Shoichet等人,1992,“使用形状描述符的分子对接(Molecular docking using shape descriptors)”,《计算化学杂志(Journal of Computational Chemistry)》13(3),380-397;Knegtel等人,1997“与蛋白质结构集合的分子对接(Molecular docking to ensembles of proteinstructure)”,《分子生物学杂志(Journal of Molecular Biology)》266,424-440;Morris等人,2009,“AutoDock4和AutoDockTools4:具有选择性受体灵活性的自动对接(AutoDock4and AutoDockTools4:Automated Docking with Selective Receptor Flexibility)”,《计算化学杂志(J Comput Chem)》30(16),2785-2791;Sotriffer等人,2000,“配体与抗体的自动对接:方法和应用(Automated docking of ligands to antibodies:methods andapplications)”,《方法:酶学方法的伴侣(Methods:A Companion to Methods inEnzymology)》20,280-291;Morris等人,1998,“拉马克遗传算法和经验结合自由能函数的自动对接(Automated Docking Using a Lamarckian Genetic Algorithm and EmpiricalBinding Free Energy Function)”,《计算化学杂志》19:1639-1662;以及Rarey等人,1996,“一种使用增量构建算法的快速灵活对接方法(A Fast Flexible Docking Method Usingan Incremental Construction Algorithm)”,《分子生物学杂志(Journal of MolecularBiology)》261,470-489,所述文献中的每个文献特此通过引用并入。然后将此相应的测试对象相对于至少一个目标对象的此位姿的描述应用于目标模型。在一些此类实施例中,测试对象是化合物,相应的目标对象包括具有结合袋的聚合物,并且将所描述的测试对象相对于相应的目标对象摆出位姿包括将化合物的所建模的原子坐标对接到结合袋的原子坐标中。
在一些实施例中,每个测试对象是相对于一个或多个目标对象摆出位姿并使用以下中公开的任何技术呈现给目标模型的化合物:美国专利第10,546,237号;第10,482,355号;第10,002,312号和第9,373,059号,所述美国专利中的每个美国专利特此通过引用并入。
在一些实施例中,卷积神经网络包括输入层、多个单独加权的卷积层和输出评分器,如2018年6月19日发布的题为“用于将卷积网络应用于空间数据的系统和方法(Systemsand Methods for Applying a Convolutional Network to Spatial Data)”的美国专利第10,002,312号中所描述的,所述美国专利特此通过引用整体并入。例如,在一些此类实施例中,目标模型的卷积层包含初始层和最终层。在一些实施例中,最终层可以包含使用阈值或激活函数f的门控,所述激活函数f可以是线性或非线性函数。激活函数可以是例如修正线性单元(ReLU)激活函数、泄露型ReLu激活函数或其它函数,如饱和双曲正切函数、恒等函数、二进制阶跃函数、逻辑函数、arcTan函数、softsign函数、参数修正线性单元函数、指数线性单元函数、softPlus函数、弯曲恒等函数、softExponential函数、Sinusoid函数、Sine函数、高斯函数(Gaussian function)或sigmoid函数,或其任何组合。
在一些实施例中,响应于输入,输入层将值馈送到初始卷积层中。在一些实施例中,除了最终卷积层之外的每个相应的卷积层将中间值作为相应的卷积层的权重和相应的卷积层的输入值的函数馈送到另一个卷积层中。在一些实施例中,最终卷积层将值作为最终层权重和输入值的函数馈送到评分器中。以这种方式,评分器可以对描述相应的测试对象的每个特征向量(例如,如美国专利第10,002,312号中所描述的输入向量)进行评分,并且这些评分共同用于为每个相应的测试对象提供对应的目标结果(例如,美国专利第10,002,312号中所描述的分类)。在一些实施例中,评分器为每个特征向量提供相应的单个评分,并且这些评分的加权平均值用于为每个相应的测试对象提供对应的目标结果。
在一些实施例中,卷积神经网络中使用的总层数(包含输入和输出层)的范围为约3个到约200个。在一些实施例中,总层数是至少3个、至少4个、至少5个、至少10个、至少15个或至少20个。在一些实施例中,总层数是至多20个、至多15个、至多10个、至多5个、至多4个或至多3个。本领域技术人员将认识到,卷积神经网络中使用的总层数可以具有此范围内的任何值,例如8层。
在一些实施例中,卷积神经网络中使用的可学习或可训练参数(例如,加权因子、偏差或阈值)的总数的范围为约1个到约10,000个。在一些实施例中,可学习参数的总数是至少1个、至少10个、至少100个、至少500个、至少1,000个、至少2,000个、至少3,000个、至少4,000个、至少5,000个、至少6,000个、至少7,000个、至少8,000个、至少9,000个或至少10,000个。可替代地,可学习参数的总数是小于100的任何数字、介于100与10,000之间的任何数字或大于10,000的数字。在一些实施例中,可学习参数的总数是至多10,000个、至多9,000个、至多8,000个、至多7,000个、至多6,000个、至多5,000个、至多4,000个、至多3,000个、至多2,000个、至多1,000个、至多500个、至多100个、至多10个或至多1个。本领域技术人员将认识到所使用的可学习参数的总数可以具有此范围内的任何值。
因为卷积神经网络需要固定的输入大小,所以将卷积神经网络用于目标模型的所公开的系统和方法的一些实施例裁剪几何数据(目标对象-测试对象复合物)以适配在合适的边界框内。例如,可以使用边长为的立方体。在目标和/或测试对象已被附加到目标对象的活性位点中的一些实施例中,活性位点的中心用作立方体的中心。
虽然在一些实施例中,以目标对象的活性位点为中心的固定尺寸的方形立方体用于将空间划分为体素网格,但所公开的系统不限于此。在一些实施例中,使用多种形状中的任何一种来将空间划分为体素网格。在一些实施例中,使用如矩形棱柱、多面体形状等多面体来划分空间。
在一实施例中,网格结构可以被配置成类似于体素的排列。例如,每个子结构可以与每个被分析的原子的通道相关联。此外,可以提供一种编码方法来以数字方式表示每个原子。
在一些实施例中,描述测试对象与目标对象之间的界面的体素图考虑了时间因素,并且因此可以呈四个维度(X、Y、Z和时间)。
在一些实施例中,可以使用如像素、点、多边形形状、多面体或多个维度中的任何其它类型的形状(例如,3D、4D等中的形状)等其它实施方案来代替体素。
在一些实施例中,几何数据通过选择X、Y和Z坐标的原点作为由腔泛洪算法(cavity flooding algorithm)确定的目标对象的结合位点的质心来归一化。关于此类算法的代表性细节,参见Ho和Marshall,1990,“腔搜索:一种用于分离和显示腔状结合区域的算法(Cavity search:An algorithm for the isolation and display of cavity-likebinding regions)”,《计算机辅助分子设计杂志(Journal of Computer-Aided MolecularDesign)》4,第337-354页;和Hendlich等人,1997,“Ligsite:自动高效检测蛋白质中潜在的小分子结合位点(Ligsite:automatic and efficient detection of potential smallmolecule-binding sites in proteins)”,《分子图形与建模杂志(J.Mol.Graph.Model)》15,第6期,所述文献中的每个文献特此通过引用并入。可替代地,在一些实施例中,体素图的原点以整个共复合物的(结合到目标对象的测试对象的、仅目标对象的或仅测试对象的)质心为中心。基向量可以任选地选择为整个共复合物、仅目标对象或仅测试对象的主惯性矩。在一些实施例中,目标对象是具有活性位点的聚合物,并且在三维网格的基础上,所述采样针对测试对象和活性位点对处于上述多个不同的位姿中的每个相应的位姿下的测试对象进行采样,其中以活性位点的质心为原点,并且采样的对应的三维均匀蜂窝表示聚合物的一部分,并且测试对象以质心为中心。在一些实施例中,均匀蜂窝是规则立方蜂窝并且聚合物的所述部分和测试对象是预定固定尺寸的立方体。在此类实施例中,使用预定固定尺寸的立方体确保使用几何数据的相关部分并且每个体素图的大小相同。在一些实施例中,立方体的预定固定尺寸是其中N是介于5与100之间的整数或实数值、介于8与50之间的整数或介于15与40之间的整数。在一些实施例中,均匀蜂窝是矩形棱柱蜂窝并且聚合物的所述部分和测试对象是矩形棱柱,预定的固定尺寸是 其中Q是介于5与100之间的第一整数,R是介于5与100之间的第二整数,S是介于5与100之间的第三整数或实数值,并且集合{Q,R,S}中的至少一个数不等于集合{Q,R,S}中的另一个值。
在一些实施例中,每个体素具有一个或多个输入通道,所述输入通道可以具有与其相关联的各个值,所述值在一个实施方案中可以是开/关并且可以被配置成对一种原子类型进行编码。原子类型可以表示原子的元素,或者原子类型可以进一步细化以区分其它原子特性。然后可以在每个体素中编码存在的原子。可以使用各种技术和/或方法来利用各种类型的编码。作为示例编码方法,可以利用原子的原子序数,每个体素产生一个值,范围为从氢的一到气奥(ununoctium)的118(或任何其它元素)。
然而,如上文所讨论的,可以使用其它编码方法,如“独热编码”,其中每个体素具有许多并行输入通道,每个通道为开或关并且编码一种类型的原子。原子类型可以表示原子的元素,或者原子类型可以进一步细化以区分其它原子特性。例如,SYBYL原子类型将单键碳与双键、三键或芳香族碳区分开来。关于SYBYL原子类型,参见Clark等人,1989,“通用Tripos力场的验证(Validation of the General Purpose Tripos Force Field)”,1989,《计算化学杂志(J.Comput.Chem.)》10,第982-1012页,所述文献特此通过引用并入。
在一些实施例中,每个体素进一步包含一个或多个通道以区分作为目标对象或辅因子的一部分的原子与测试对象的一部分。例如,在一个实施例中,每个体素进一步包含用于目标对象的第一通道与用于测试对象的第二通道。当由体素表示的空间部分中的原子来自目标对象时,第一通道设置为一个值,如“1”,否则为零(例如,因为由体素表示的空间部分不包含原子或包含来自测试对象的一个或多个原子)。进一步地,当由体素表示的空间部分中的原子来自测试对象时,第二通道设置为一个值,如“1”,否则为零(例如,因为由体素表示的空间部分不包含原子或包含来自目标对象的一个或多个原子)。同样,其它通道可以另外地(或可替代地)指定另外的信息,如部分电荷、极化率、电负性、溶剂可及空间和电子密度。例如,在一些实施例中,目标对象的电子密度图覆盖三维坐标集合,并且体素图的创建进一步对电子密度图进行采样。合适的电子密度图的实例包含但不限于多重同晶置换图、具有异常信号图的单重同晶置换、单波长异常色散图、多波长异常色散图和2Fobservable-Fcalculated图。参见McRee,1993,《实用蛋白质晶体学(Practical ProteinCrystallography)》,学术出版社(Academic Press),所述文献特此通过引用并入。
在一些实施例中,根据所公开的系统和方法的体素编码可以包含另外的任选编码细化。以下提供了两个实例。
在第一编码细化中,基于大多数元素很少出现在生物系统中,可以通过减少由体素表示的原子集合(例如,通过减少由体素表示的通道的数量)来减少所需的存储器。可以通过组合稀有原子(因此其可能很少影响系统的性能)或通过组合具有相似性质的原子(因此其可以最小化组合的不准确性)来映射原子以共享体素中的相同通道。
另一个编码细化是通过部分激活相邻的体素来使体素表示原子位置。这会导致后续神经网络中相邻神经元的部分激活,并从独热编码转变为“多热”编码。例如,为进行说明,考虑氯原子,其范德华直径为因此体积为当放置网格时,氯原子内部的体素将被完全填充,而原子的边缘上的体素将仅被部分填充。因此,在部分填充的体素中表示氯的通道将与落入氯原子内的此类体素的量成比例地打开。例如,如果百分之五十的体素体积落在氯原子内,则表示氯的体素中的通道将被激活百分之五十。相对于离散的独热编码,这可以产生“平滑的”和更准确的表示。因此,在一些实施例中,测试对象是第一化合物并且目标对象是第二化合物,在采样中产生的原子的特性跨相应的体素图中的体素子集分布,并且此体素子集包括两个或更多个体素、三个或更多个体素、五个或更多个体素、十个或更多个体素,或二十五个或更多个体素。在一些实施例中,原子的特性由原子类型(例如,SYBYL原子类型之一)的枚举组成。
因此,已编码的几何数据(测试对象对接到目标对象上)的体素化(光栅化)是基于应用于输入数据的各种规则来进行的。
根据一些实施例,图6和7提供了编码到体素的二维网格600上的两个测试对象602的视图。图6提供了叠加在二维网格上的两个测试对象。图7提供了使用不同的阴影图案来分别编码氧、氮、碳的存在和空的空间的独热编码。如上所述,此类编码可以被称为“独热”编码。图7示出了图6的网格500,其中省略了测试对象502。图8提供了图7的体素的二维网格的视图,其中体素已被编号。
在一些实施例中,特征几何形状以体素以外的形式表示。图9提供了各种表示的视图,其中特征(例如,原子中心)被表示为0-D点(表示902)、1-D点(表示904)、2-D点(表示906)或3-D点(表示908)。最初,可以随机选择点之间的间距。然而,在训练目标模型时,这些点可能会靠得更近或更加分散。图10展示了每个点的一系列可能位置。
在测试对象与目标对象之间的相互作用被编码为体素图的实施例中,将每个体素图任选地展开成对应的向量,从而创建多个向量,其中所述多个向量中的每个向量的大小相同。在一些实施例中,所述多个向量中的每个向量是一维向量。例如,在一些实施例中,每侧的立方体以目标对象的活性位点为中心,并以的三维固定网格间距进行采样,以形成体素图的对应的体素,所述体素图保持在作为体素结构特征(如原子类型以及任选地,更复杂的测试对象-目标对象描述符,如上文所讨论的)的基础的相应通道中。在一些实施例中,此三维体素图的体素被展开成一维浮点向量。在目标模型是卷积神经网络的一些实施例中,体素图的向量化表示受到卷积网络的影响。
在一些实施例中,所述多个卷积层中的卷积层包括过滤器集合(也称为核)。每个过滤器具有固定的三维大小,所述固定的三维大小跨卷积层的输入体积的深度、高度和宽度进行卷积(以预定步进率步进),计算过滤器的条目(权重)与输入之间的点积(或其它函数),从而创建所述过滤器的多维激活图。在一些实施例中,过滤器步进率是输入空间的一个元素、两个元素、三个元素、四个元素、五个元素、六个元素、七个元素、八个元素、九个元素、十个元素或多于十个元素。因此,考虑过滤器大小为53的情况。在一些实施例中,对于每个体素通道125个输入空间值的总数,此过滤器将计算深度为五个元素、宽度为五个元素并且高度为五个元素的输入空间的连续立方体之间的点积(或其它数学函数)。
初始卷积层的输入空间(例如,来自输入层的输出)由体素图或体素图的向量化表示形成。在一些实施例中,体素图的向量化表示是用作初始卷积层的输入空间的体素图的一维向量化表示。然而,当过滤器对其输入空间进行卷积并且输入空间是体素图的一维向量化表示时,过滤器仍然从一维向量化表示中获得表示目标对象-测试对象复合物中固定空间的对应的连续立方体的那些元素。在一些实施例中,过滤器使用标准簿记技术从一维向量化表示中选择形成目标对象-测试对象复合物中固定空间的对应的连续立方体的那些元素。因此,在一些情况下,这必然涉及在一维向量化表示中获取元素的非连续子集,以便获得目标对象-测试对象复合物中固定空间的对应的连续立方体的元素值。
在一些实施例中,将过滤器初始化(例如,针对高斯噪声(Gaussian noise))或训练以具有125个对应的权重(每个输入通道),在其中计算点积(或某一其它形式的数学运算,如125个输入空间值的函数)以便计算与过滤器相对应的激活层的第一单个值(或值集合)。在一些实施例中,将由过滤器计算的值求和、加权和/或偏置。为了计算与过滤器相对应的激活层的另外的值,然后使过滤器在输入体积的三个维度之一中按与过滤器相关联的步进率(步幅)步进(卷积),此时过滤器权重与125个输入空间值(每个通道)之间的点积或某一其它形式的数学运算在输入体积中的新位置处进行。重复此步进(卷积),直到过滤器按照步进率对整个输入空间进行采样。在一些实施例中,输入空间的边界被零填充以控制由卷积层产生的输出空间的空间体积。在典型实施例中,卷积层的过滤器中的每个过滤器以这种方式覆盖整个三维输入体积,从而形成对应的激活图。来自卷积层的过滤器的激活图的集合共同形成一个卷积层的三维输出体积,并且从而用作后续卷积层的三维(三个空间维度)输入。因此,输出体积中的每个条目也可以解释为单个神经元(或神经元集合)的输出,所述神经元查看卷积层的输入空间中的小区域并与同一激活图中的神经元共享参数。因此,在一些实施例中,所述多个卷积层中的卷积层具有多个过滤器,并且所述多个过滤器中的每个过滤器将N3的立方输入空间与步幅Y卷积(在三个空间维度上),其中N是二或更大的整数(例如,2、3、4、5、6、7、8、9、10或大于10),并且Y是正整数(例如,1、2、3、4、5、6、7、8、9、10或大于10)。
所述多个卷积层中的每一层与不同的权重集合相关联。更具体地,所述多个卷积层中的每一层包含多个过滤器,并且每个过滤器包括独立的多个权重。在一些实施例中,卷积层具有128个尺寸为53的过滤器,因此卷积层在体素图中的每个通道具有128×5×5×5或16,000个权重。因此,如果体素图中有五个通道,则卷积层将具有16,000×5个权重或80,000个权重。在一些实施例中,给定卷积层中的每个过滤器的一些或所有此类权重(以及任选地,偏置)可以绑定在一起,例如约束为相同。
响应于所述多个向量中的相应的向量的输入,输入层将第一多个值作为相应的向量中的值的第一函数馈送到初始卷积层中。
除了最终卷积层之外,每个相应的卷积层将中间值作为(i)与相应的卷积层相关联的不同的权重集合和(b)由相应的卷积层接收到的输入值的相应的第二函数馈送到所述多个卷积层中的另一个卷积层中。例如,相应的卷积层的每个相应的过滤器根据卷积层的特性三维步幅将输入体积(在三个空间维度上)覆盖到卷积层,并且在每个相应的过滤器位置处,计算相应的过滤器的过滤器权重的点积(或某一其它数学函数)和相应的过滤器位置处的输入体积(作为总输入空间的子集的连续立方体)的值,从而产生与相应的过滤器位置相对应的激活层上的计算点(或点集合)。相应的卷积层的过滤器的激活层共同表示相应的卷积层的中间值。
最终卷积层将最终值作为(i)与最终卷积层相关联的不同的权重集合和(ii)由最终卷积层接收到的输入值的第三函数馈送到评分器中。例如,最终卷积层的每个相应的过滤器根据卷积层的特性三维步幅将输入体积(在三个空间维度上)覆盖到最终卷积层,并且在每个相应的过滤器位置处,计算过滤器的过滤器权重的点积(或某一其它数学函数)和相应的过滤器位置处的输入体积的值,从而计算与相应的过滤器位置相对应的激活层上的点(或点集合)。最终卷积层的过滤器的激活层共同表示馈送到评分器的最终值。
在一些实施例中,卷积神经网络具有一个或多个激活层。在一些实施例中,激活层是应用非饱和激活函数f(x)=max(0,x)的神经元层。其增加了决策函数和整个网络的非线性性质,而不影响卷积层的感受野。在其它实施例中,激活层具有其它增加非线性的函数,例如,饱和双曲正切函数f(x)=tanh,f(x)=│tanh(x)│和sigmoid函数f(x)=(1+e-x)-1。在神经网络的一些实施例中的其它激活层中发现的其它激活函数的非限制性实例可以包含但不限于逻辑(或sigmoid)函数、softmax函数、高斯函数、玻尔兹曼加权平均函数、绝对值函数、线性函数、修正线性函数、有界修正线性函数、软修正线性函数、参数化修正线性函数、平均函数、max函数、min函数、某一向量范数LP(对于p=1、2、3、...、∞)函数、符号函数、平方函数、平方根函数、多元二次函数、逆二次函数、逆多元二次函数、多重调和样条函数和薄板样条函数。
在一些实施例中,目标模型的零个或多个层(在目标模型是卷积神经网络的实施例中)可以由池化层组成。与卷积层一样,池化层是函数计算的集合,其将相同的函数应用于不同的空间局部输入块。对于池化层,输出由池化运算符给出,例如在若干体素上的某一向量范数LP(对于p=1、2、3、...、∞)。池化通常按通道完成,而不是跨通道完成。池化将输入空间划分为三维框集合,并针对每个此类子区域输出最大值。池化操作提供了一种形式的平移不变性。池化层的功能是逐渐减小表示的空间大小,以减少网络中的参数和计算的量,并且因此还控制过度拟合。在一些实施例中,池化层插入在目标模型中的连续卷积层之间,所述目标模型呈卷积神经网络的形式。此类池化层在输入的每个深度切片上独立地操作并在空间上调整其大小。除了最大池化之外,池化单元还可以执行其它功能,如平均池化或甚至L2标准池化。
在一些实施例中,目标模型(在目标模型是卷积神经网络的实施例中)中的零个或多个层可以由归一化层组成,如可以在同一位置跨通道应用或在跨若干位置针对特定通道应用的局部响应归一化或局部对比度归一化。这些归一化层可以促进若干函数计算对相同输入的响应的多样性。
在一些实施例中,评分器(在目标模型是卷积神经网络的实施例中)包括多个全连接层和评估层,其中所述多个全连接层中的全连接层馈送到评估层中。如在常规神经网络中所见,全连接层中的神经元与前一层中的所有激活具有全连接。它们的激活因此可以用矩阵乘法后跟偏置补偿来计算。在一些实施例中,每个全连接层具有512个隐藏单元、1024个隐藏单元或2048个隐藏单元。在一些实施例中,评分器中无全连接层、有一个全连接层、有两个全连接层、有三个全连接层、有四个全连接层、有五个全连接层、有六个或更多个全连接层或有十个或更多个全连接层。
在一些实施例中,评估层区分多个活性类别。在一些实施例中,评估层包括两个活性类别、三个活性类别、四个活性类别、五个活性类别或六个或更多个活性类别上的逻辑回归成本层。
在一些实施例中,评估层包括多个活性类别上的逻辑回归成本层。在一些实施例中,评估层包括两个活性类别、三个活性类别、四个活性类别、五个活性类别或六个或更多个活性类别上的逻辑回归成本层。
在一些实施例中,评估层区分两个活性类别,并且第一活性类别(第一分类)表示测试对象相对于目标对象的高于第一结合值的IC50、EC50、Kd或KI,并且第二活性类别(第二分类)是测试对象相对于目标对象的低于第一结合值的IC50、EC50、Kd或KI。在一些此类实施例中,目标结果是测试对象具有第一活性或第二活性的指示。在一些实施例中,第一结合值是一纳摩尔、十纳摩尔、一百纳摩尔、一微摩尔、十微摩尔、一百微摩尔或一毫摩尔。
在一些实施例中,评估层包括两个活性类别上的逻辑回归成本层,并且第一活性类别(第一分类)表示测试对象相对于目标对象的高于第一结合值的IC50、EC50、Kd或KI,并且第二活性类别(第二分类)是测试对象相对于目标对象的低于第一结合值的IC50、EC50、Kd或KI。在一些此类实施例中,目标结果是测试对象具有第一活性或第二活性的指示。在一些实施例中,第一结合值是一纳摩尔、十纳摩尔、一百纳摩尔、一微摩尔、十微摩尔、一百微摩尔或毫摩尔。
在一些实施例中,评估层区分三个活性类别,并且第一活性类别(第一分类)表示测试对象相对于目标对象的高于第一结合值的IC50、EC50、Kd或KI值,第二活性类别(第二分类)是测试对象相对于目标对象的介于第一结合值与第二结合值之间的IC50、EC50、Kd或KI,并且第三活性类别(第三分类)是测试对象相对于目标对象的低于第二结合值的IC50、EC50、Kd或KI,其中第一结合值不同于第二结合值。在一些此类实施例中,目标结果是测试对象具有第一活性、第二活性或第三活性的指示。
在一些实施例中,评估层包括三个活性类别上的逻辑回归成本层,并且第一活性类别(第一分类)表示测试对象相对于目标对象的高于第一结合值的IC50、EC50、Kd或KI值,第二活性类别(第二分类)是测试对象相对于目标对象的介于第一结合值与第二结合值之间的IC50、EC50、Kd或KI,并且第三活性类别(第三分类)是测试对象相对于目标对象的低于第二结合值的IC50、EC50、Kd或KI,其中第一结合值不同于第二结合值。在一些此类实施例中,目标结果是测试对象具有第一活性、第二活性或第三活性的指示。
在一些实施例中,评分器(在目标模型是卷积神经网络的实施例中)包括全连接的单层或多层感知器。在一些实施例中,评分器包括支持向量机、随机森林、最近邻。在一些实施例中,评分器分配数字评分,所述数字评分指示将输入分类为各种输出类别的强度(或置信度或概率)。在一些情况下,类别为结合剂和非结合剂,或可替代地,效力水平(例如,<1摩尔、<1毫摩尔、<100微摩尔、<10微摩尔、<1微摩尔、<100纳摩尔、<10纳摩尔、<1纳摩尔的IC50、EC50或KI效力)。在一些此类实施例中,目标结果是指示,是对测试对象的这些类别之一的鉴定。
上文已经描述了用于从测试对象与目标对象之间的复合物的目标模型获得目标结果的细节。如上文所讨论的,在一些实施例中,每个测试对象相对于目标对象对接成多个位姿。一次向目标模型呈现所有这些位姿可能需要过大的输入字段(例如,在目标模型是卷积神经网络的情况下,输入字段的大小等于体素数量*通道数量*位姿数量)。虽然在一些实施例中,所有位姿都同时呈现给目标模型,但在其它实施例中,每个此类位姿都被处理成体素图、向量化并用作目标模型的顺序输入(例如,当目标模型是卷积神经网络时)。以这种方式,从目标模型中获得多个评分,其中所述多个评分中的每个评分对应于进入目标模型的评分器的输入层中的所述多个向量中的向量的输入。在一些实施例中,将给定测试对象相对于给定目标对象的位姿中的每个位姿的评分组合在一起(例如,作为评分的加权平均值、作为评分的集中趋势的度量等)以产生相应的测试对象的最终目标结果。
在目标模型的评分器输出是数字的一些实施例中,可以使用本文描述的或已知或开发的任何激活函数来组合输出。实例包含但不限于非饱和激活函数f(x)=max(0,x)、饱和双曲正切函数f(x)=tanh、f(x)=│tanh(x)│、sigmoid函数f(x)=(1+e-x)-1、逻辑(或sigmoid)函数、softmax函数、高斯函数、玻尔兹曼加权平均函数、绝对值函数、线性函数、修正线性函数、有界修正线性函数、软修正线性函数、参数化修正线性函数、平均函数、max函数、min函数、某一向量范数LP函数(对于p=1、2、3、...、∞)、符号函数、平方函数、平方根函数、多元二次函数、逆二次函数、逆多元二次函数、多重调和样条函数和薄板样条函数。
在本公开的一些实施例中,目标模型可以被配置成利用玻尔兹曼分布来组合输出,因为如果输出被解释为指示结合能,则这会与位姿的物理概率相匹配。在本公开的其它实施例中,max()函数还可以提供对玻尔兹曼的合理近似,并且在计算上是高效的。
在目标模型的评分器输出不是数字的一些实施例中,评分器可以被配置成使用各种集合投票方案组合输出以形成对应的目标结果,作为说明性、非限制性实例,所述方案可以包含多数、加权平均、孔多塞方法(Condorcet methods)、波达计数(Borda count)等。
在一些实施例中,所述系统可以被配置成应用评分器的集合,例如以生成结合亲和力的指标。
在一些实施例中,测试对象是化合物并且使用所述多个评分(来自测试对象的所述多个位姿)来表征测试对象(例如,确定分类)包括计算所述多个评分的集中趋势的度量。当集中趋势的度量满足预定阈值或预定阈值范围时,认为测试对象具有第一分类。当集中趋势的度量未能满足预定阈值或预定阈值范围时,认为测试对象具有第二分类。在一些此类实施例中,由目标模型针对相应的测试对象输出的目标结果是对这些分类之一的指示。
在一些实施例中,使用所述多个评分来表征测试对象包括计算所述多个评分(来自测试对象的所述多个位姿)的加权平均值。当加权平均值满足预定阈值或预定阈值范围时,认为测试对象具有第一分类。当加权平均值未能满足预定阈值或预定阈值范围时,认为测试对象具有第二分类。在一些实施例中,加权平均值是所述多个评分的玻尔兹曼平均值。在一些实施例中,第一分类是测试对象相对于目标对象的高于第一结合值(例如,一纳摩尔、十纳摩尔、一百纳摩尔、一微摩尔、十微摩尔、一百微摩尔或一毫摩尔)的IC50、EC50、Kd或KI,并且第二分类是测试对象相对于目标对象的低于第一结合值的IC50、EC50、Kd或KI。在一些此类实施例中,由目标模型针对相应的测试对象输出的目标结果是对这些分类之一的指示。
在一些实施例中,使用所述多个评分来提供测试对象的目标结果包括计算所述多个评分(来自测试对象的所述多个位姿)的加权平均值。当加权平均值满足多个阈值范围中的相应的阈值范围时,则认为测试对象具有多个相应的类别中与相应的阈值范围唯一对应的相应类别。在一些实施例中,所述多个分类中的每个相应的分类是测试对象相对于目标对象的IC50、EC50、Kd或KI范围(例如,介于一微摩尔与十微摩尔之间、介于一纳摩尔与100纳摩尔之间)。
在一些实施例中,每个相应的测试对象相对于给定目标对象的单个位姿通过目标模型运行,并且由目标模型在此基础上为每个相应的测试对象分配的相应的评分用于对测试对象进行分类。
在一些实施例中,由目标模型使用本文公开的技术评估的测试对象相对于多个目标对象中的每个目标对象的一个或多个位姿的目标模型评分的加权平均值用于提供测试对象的目标结果。例如,在一些实施例中,所述多个目标对象取自分子动力学运行,其中所述多个目标对象中的每个目标对象在分子动力学运行期间在不同的时间步长下表示相同的聚合物。由目标模型评估测试对象相对于这些目标对象中的每个目标对象的一个或多个位姿中的每个位姿的体素图以获得每个独立位姿-目标对象对的评分,并且这些评分的加权平均值或者这些评分的集中趋势的某一其它度量用于为目标对象提供目标结果。
框218.参考图2A的框218,在一些实施例中,所述至少一个目标对象是单个对象(例如,每个目标对象是相应的单个对象)。在一些实施例中,所述单个对象是聚合物。在一些实施例中,所述聚合物包含活性位点(例如,聚合物是具有活性位点的酶)。在一些实施例中,所述聚合物是蛋白质、多肽、多核酸、多核糖核酸、多糖或其任何组合的组装。在一些实施例中,所述单个对象是有机金属配合物。在一些实施例中,所述单个对象是表面活性剂、反胶束或脂质体。
在一些实施例中,所述多个测试对象中的每个测试对象包括相应的化合物,所述化合物可以以对应的亲和力(例如,用于与至少一个目标对象形成化学键的亲和力)结合到至少一个目标对象的活性位点或者可以不与所述活性位点结合。
在一些实施例中,所述至少一个目标对象包括至少两个目标对象、至少三个目标对象、至少四个目标对象、至少五个目标对象或至少六个目标对象。在一些实施例中,每个目标对象是相应的单个对象(例如,单个蛋白质、单个多肽等),如上文所描述的。在一些实施例中,所述至少一个目标对象中的一个或多个目标对象包括多个对象(例如,蛋白质复合物和/或如核糖体等具有多个亚基的酶)。
框220.参考图2B的框220,所述方法通过以下来进行:使用至少i)作为自变量的测试对象子集和ii)作为因变量的对应的目标结果子集来训练处于初始状态的预测模型,从而将预测模型更新到更新的训练状态。即,训练预测模型以在不会付出目标模型的计算代价的情况下预测给定测试化合物的目标结果(目标模型评分)将是什么。此外,在一些实施例中,预测模型不利用所述至少一个目标对象。在此类实施例中,预测模型试图简单地基于针对测试对象数据集中的测试对象提供的信息(例如,测试对象的化学结构)而不基于测试对象与一个或多个目标对象之间的相互作用来预测目标模型的评分。
参考框222,在一些实施例中,目标模型在评估相应的测试对象方面表现出第一计算复杂度,预测模型在评估相应的测试对象方面表现出第二计算复杂度,并且第二计算复杂度小于第一计算复杂度(例如,与目标模型为测试对象提供对应的目标结果所需的时间和/或计算工作量相比,预测模型为同一测试对象提供相应的预测结果所需的时间和/或计算工作量更少)。
如本文所使用的,短语“计算复杂度”可与短语“时间复杂度”互换,并且与在给定数量的处理器的情况下将模型应用于测试对象和至少一个目标对象时获得结果所需的时间量有关,并且还与在给定时间量内将模型应用于测试对象和至少一个目标对象时获得结果所需的处理器数量有关,其中每个处理器具有给定量的处理能力。如此,本文中使用的计算复杂度是指模型的预测复杂度。然而,在一些实施例中,目标模型表现出第一训练计算复杂度,预测模型表现出第二训练计算复杂度,并且第二训练计算复杂度也小于第一训练计算复杂度。下表2列出了一些示例性预测模型及其用于进行预测的估计计算复杂度(预测复杂度):
表2.
预测模型 | 预测复杂度 |
决策树 | O(p) |
随机森林 | O(pn<sub>trees</sub>) |
线性回归 | O(p) |
支持向量机(核) | O(n<sub>sv</sub>p) |
k最近邻 | O(np) |
朴素贝叶斯 | O(p) |
在表2中,p是在提供分类器结果时由分类器评估的测试对象的特征数量,ntrees是树的数量(对于基于各种树的方法),并且O是指巴克曼兰多符号(Bachmann–Landaunotation),所述巴克曼兰多符号是指函数增长率的上限。参见例如Arora和Barak,2009,《计算复杂度:一种现代方法(Computational Complexity:A Modern Approach)》,英格兰剑桥剑桥大学出版社(Cambridge University Press)。相比之下,作为训练模型的一种形式的卷积神经网络的总时间复杂度的一种估计是:
其中l是卷积层的指数,d是深度(卷积层数量),nl是第l层中的过滤器数量(nl-1也称为第l层的输入通道的数量),sl是过滤器的空间大小(长度),ml是输出特征图的空间大小。此时间复杂度适用于训练和测试时间,尽管规模不同。每个测试对象的训练时间大约是每个测试对象测试时间的三倍(一个用于前向传播,两个用于反向传播)。参见Hi和Sun,2014,“受限时间成本下的卷积神经网络(Convolutional Neural Networks atConstrained Time Cost)”,arXiv:1412.1710v1[cs.CV]2014年12月4日,所述文献特此通过引用并入。因此,很明显,卷积神经网络的时间复杂度大于表1中提供的示例预测模型的时间复杂度。
框224.参考图2B的框224,在一些实施例中,处于初始训练状态的预测模型包括未训练或部分训练的分类器。例如,在一些实施例中,预测模型使用例如迁移学习技术在测试对象或如在测试对象数据集中未表示的与从测试对象数据集中的所述多个测试对象提供的数据分离并分开的测定数据等其它形式的数据上部分地训练。在一个实例中,预测模型在化合物集合的结合亲和力数据上进行部分训练,其中此类化合物可能在也可能不在使用迁移学习技术的测试对象数据集中。
参考框226,在一些实施例中,处于更新的训练状态的预测模型包括与处于初始训练状态的预测模型不同的未训练或部分训练的分类器(例如,预测模型的一个或多个权重已被改变)。当训练数据集发生变化时(例如,在训练数据集的大小和/或类别数量增加的情况下),重新训练或更新现有分类器的能力特别有用。
在一些实施例中,使用提升算法来更新(训练)预测模型。在以下中总体描述了提升算法:Dai等人2007“用于转移学习的提升(Boosting for transfer learning)”《第24届机器学习国际会议论文集(Proc 24th Int Conf on Mach Learn)》,所述文献特此通过引用并入。提升算法可以包含在将新数据(例如,另外的测试对象子集)添加到用于重新训练或更新预测模型的数据集时重新加权先前已用于训练预测模型的数据(例如,测试对象子集)。参见例如Freund等人1997“在线学习的决策理论概括和提升的应用(A decision-theoretic generalization of on-line learning and an application to boosting)”《计算机与系统科学杂志(J Computer and System Sciences)》55(1),119–139,所述文献特此通过引用并入。
在一些实施例中,如上文所讨论的,根据用于处于初始训练状态的预测模型的算法类型(例如,当预测模型不是单个决策树时),迁移学习方法用于将预测模型更新到更新的训练状态(例如,在方法的每次连续迭代时)。迁移学习通常涉及从第一模型到第二模型的知识迁移(例如,从第一任务集合或从第一数据集到第二任务集合或第二数据集的知识)。可以在以下中找到迁移学习方法的另外的综述:Torrey等人2009“迁移学习(TransferLearning)”《机器学习应用研究手册(Handbook of Research on Machine LearningApplications)》;Pan等人2009“迁移学习调查(A Survey on Transfer Learning)”《知识与数据工程IEEE汇刊(IEEE Transactions on Knowledge and Data Engineering)》doi:10.1109/TKDE.2009.191;和Molochanov等人2016“修剪卷积神经网络以实现资源高效迁移学习(Pruning Convolutional Neural Networks for Resource Efficient TransferLearning)”arXiv:1611.06440v1,所述文献中的每个文献特此通过引用并入。在一些实施例中,随机森林的变体可以与动态训练数据集一起使用。参见Ristin等人2014《计算机视觉和模式识别(CVPR)IEEE会议(IEEE Conference on Computer Vision and PatternRecognition(CVPR))》,3654-3661,所述文献特此通过引用并入。
在一些实施例中,预测模型包括随机森林树、包括多个多重加性决策树的随机森林、神经网络、图神经网络、密集神经网络、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、进化方法、投影寻踪、回归、朴素贝叶斯算法或其集合。
随机森林、决策树和提升树算法。在以下中总体描述了决策树:Duda,2001,《模式分类(Pattern Classification)》,纽约约翰威利父子公司(John Wiley&Sons,Inc.,NewYork),395-396,所述文献特此通过引用并入。随机森林通常被定义为决策树的集合。基于树的方法将特征空间划分成矩形集合并且然后在每个矩形中拟合模型(如常量)。在一些实施例中,决策树包括随机森林回归。可以用于预测模型的一个特定算法是分类和回归树(CART)。其它特定决策树算法包含但不限于ID3、C4.5、MART和随机森林。在以下文献中描述了CART、ID3和C4.5:Duda,2001,《模式分类》,纽约约翰威利父子公司,396-408和411-412,所述文献特此通过引用并入。在以下文献中描述了CART、MART和C4.5:Hastie等人,2001,《统计学习基础(The Elements of Statistical Learning)》,纽约施普林格出版公司(Springer-Verlag),第9章,所述文献特此通过全文引用的方式并入。在以下文献中总体描述了随机森林:Breiman,1999,《技术报告(Technical Report)》567,加州大学伯克利分校统计系(Statistics Department,U.C.Statistics Department,U.C.),1999年9月,所述文献特此通过全文引用的方式并入。
神经网络、图神经网络、密集神经网络。各种神经网络可以用作目标模型和/或预测模型之一或两者,只要预测模型的计算复杂度低于目标模型。神经网络算法,包含卷积神经网络(CNN)算法,在例如以下文献中公开:Vincent等人,2010,《机器学习研究杂志(JMach Learn Res)》11,3371-3408;Larochelle等人,2009,《机器学习研究杂志》10,1-40;和Hassoun,1995,《人工神经网络基础(Fundamentals of Artificial Neural Networks)》,麻省理工学院(Massachusetts Institute of Technology),所述文献中的每个文献特此通过引用并入。在一些实施例中,神经网络算法的另一种变体——包含但不限于图神经网络(GNN)和密集神经网络(DNN)——被用于预测模型。图神经网络对于在非欧几里得空间中表示的数据很有用(例如,特别是具有高复杂度的数据集)。GNN的概述在以下文献中提供:Wu等人2019“图神经网络综合调查(A Comprehensive Survey on Graph NeuralNetworks)”arVix:1901.00596;和Zhou等人2018“图神经网络:方法和应用综述(GraphNeural Networks:A Review of Methods and Applications)”arVix:1812.08434。GNN可以与其它数据分析方法相组合,以实现药物发现。参见例如Altre-Tran等人2017“一次性学习的低数据药物发现(Low Data Drug Discovery with One-Shot Learning)”《ACS中心科学(ACS Cent Sci)》3,283-293。密集神经网络通常在每一层中包含大量神经元,并在以下文献中进行了描述:Montavon等人2018“用于解释和理解深度神经网络的方法(Methodsfor interpreting and understanding deep neural networks)”《数字信号处理(DigitSignal Process)》73,1-15;和Finnegan等人2017“用于提取深度神经网络学习特征的最大熵方法(Maximum entropy methods for extracting the learned features of deepneural networks)”《公共科学图书馆:计算生物学(PLoS Comput Biol.)》13(10),1005836,所述文献中的每个文献特此通过引用并入。
主成分分析。主成分分析是经常用于复杂数据降维(例如,减少考虑中的对象数量)的几种方法之一。以下中提供了使用PCA进行数据聚类的实例:例如Yeung和Ruzzo 2001“用于对基因表达数据进行聚类的主成分分析(Principal component analysis forclustering gene expression data)”《生物信息学(Bioinformat)》17(9),763-774,所述文献特此通过引用并入。主成分通常按存在的方差程度排序(例如,只有前n个成分被认为传达信号而不是噪声)并且是不相关的(例如,每个成分都与其它成分正交)。
最近邻分析。最近邻分析通常使用欧几里得距离进行。以下文献提供了最近邻分析的实例:Weinberger等人2006“大间隔最近邻分类的距离度量学习(Distance metriclearning for large margin nearest neighbor classification)”《神经信息处理系统大会(NIPS)》麻省理工学院出版社(MIT Press)2,3。最近邻分析是有益的,因为在一些实施例中,它在具有大型训练数据集的设置中是有效的。参见Sonawane 2015“关于大数据最近邻技术的综述(A Review on Nearest Neighbor Techniques for Large Data)”《国际计算机与通信工程研究进展杂志(International Journal of Advances Research inComputer and Communication Engineering)》4(11),459-461,所述文献特此通过引用并入。
线性判别分析。线性判别分析(LDA)通常用于鉴定表征或分离测试对象类别的特征的线性组合。LDA的实例在以下文献中提供:Ye等人2004“二维线性判别分析(Two-Dimensional Linear Discriminant Analysis)”《神经信息处理系统的进展(Advances inNeural Information Processing Systems)》17,1569-1576;Prince等人2007“身份推断的概率线性判别分析(Probabilistic Linear Discriminant Analysis for Inferencesabout Identity)”《第11届计算机视觉国际会议(11th International Conference onComputer Vision)》,1-8。LDA是有益的,因为它可以应用于大样本和小样本,并且可以用于高维度。参见Kaipatnen 1997“利用高维几何异常:当复杂度使计算更容易时(UtilizingGeometric Anomalies of High Dimension:When Complexity Makes ComputationEasier)”《控制和信号处理中的计算机密集型方法(Computer-Intensive Methods inControl and Signal Processing)》,283-294。
二次判别分析。二次判别分析(QDA)与LDA密切相关,但在QDA中,会为每一类对象估计单独的协方差矩阵。参见Wu等人1996“应用于NIR数据的正则化判别分析、线性判别分析和二次判别分析的比较(Comparison of regularized discriminant analysis,lineardiscriminant analysis and quadratic discriminant analysis,applied to NIRdata)”《分析化学学报(Analytica Chimica Acta)》329,257-265。QDA的实例由以下文献提供:Zhang 1997“通过二次判别分析鉴定人类基因组中的蛋白质编码区(Identificationof protein coding regions in the human genome by quadratic discriminantanalysis)”《美国国家科学院院刊(PNAS)》94,565-568;Zhang等人2003“使用多样性度量,用二次判别分析进行的剪接位点预测(Splice site prediction with quadraticdiscrimant analysis usingdiversity measure)”《核酸研究(Nuc Acids Res)》31(21),6124-6220,所述文献中的每个文献特此通过引用并入。QDA是有益的,因为它提供了比LDA更多的有效参数,如以下文献中所描述的:Wu等人1996“应用于NIR数据的正则化判别分析、线性判别分析和二次判别分析的比较(Comparison of regularized discriminantanalysis,linear discriminant analysis and quadratic discriminant analysis,applied to NIR data)”《分析化学学报(Analytica Chimica Acta)》329,257-265,所述文献特此通过引用并入。
支持向量机。支持向量机(SVM)算法的非限制性实例在以下文献中描述:Cristianini和Shawe-Taylor,2000“支持向量机简介(An Introduction to SupportVector Machines)”,剑桥大学出版社(Cambridge University Press);Boser等人1992,“用于最优间隔分类器的训练算法(A training algorithm for optimal marginclassifiers)”,《第5届年度ACM计算学习理论研讨会论文集(5th Annual ACM Workshop onComputational Learning Theory)》,宾夕法尼亚州匹兹堡ACM出版社(ACM Press,Pittsburgh,Pa.),142-152;Vapnik,1998,《统计学习理论(Statistical LearningTheory)》,纽约威立出版社(Wiley,New York);Mount,2001,生物信息学:序列和基因组分析(Bioinformatics:sequence and genome analysis),纽约冷泉港冷泉港实验室出版社(Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.);Duda,《模式分类(Pattern Classification)》,第二版,2001,约翰威立父子公司(John Wiley&Sons,Inc.),259,262-265;以及Hastie,2001,《统计学习基础(The Elements of StatisticalLearning)》,纽约施普林格出版公司(Springer,New York);以及Furey等人,2000,《生物信息学(Bioinformatics)》16,906-914,所述文献中的每个文献以全文引用的方式特此并入。当用于分类时,SVM将给定的二进制标记的数据训练集的集合与最大程度地远离所标记的数据的超平面分离。对于没有线性分离的情况,SVM可以结合自动实现对特征空间的非线性映射的“核”技术运行。由SVM在特征空间中发现的超平面对应于输入空间中的非线性决策边界。
线性回归。如本文所使用的,线性回归可以涵盖简单、多元和/或多变量线性回归分析。线性回归使用线性方法来对因变量(也称为标量响应)与一个或多个自变量(也称为解释变量)之间的关系进行建模,并且因此可以用作本公开中的预测模型。参见Altman等人2015“简单线性回归(Simple Linear Regression)”《自然方法(Nature Methods)》12,999-1000,所述文献特此通过引用并入。这些关系是使用线性预测函数预测的,其参数是使用线性模型从数据中估计的。在一些实施例中,简单线性回归用于对因变量与单个自变量之间的关系进行建模。简单线性回归的实例可以在以下文献中找到:Altman等人2015“简单线性回归(Simple Linear Regression)”《自然方法》12,999-1000,所述文献特此通过引用并入。
在一些实施例中,多元线性回归用于对因变量与多个自变量之间的关系进行建模,并且因此可以用作本公开中的预测模型。多元线性回归的实例可以在以下文献中找到:Sousa等人2007“用于预测臭氧浓度的基于主成分的多元线性回归和人工神经网络(Multiple linear regression and artificial neural networks based on principalcomponents to predict ozone concentration)”《环境模型和软件(Environ Model&Soft)》22(1),97-103,所述文献特此通过引用并入。在一些实施例中,多变量线性回归用于对多个因变量与任意数量的自变量之间的关系进行建模。多变量线性回归的非限制性实例可以在以下文献中找到:Wang等人2016“通过基于SSVEP的BCI的多变量线性回归进行的判别特征提取(Discriminative Feature Extraction via Multivariate LinearRegression for SSVEP-Based BCI)”《IEEE神经系统与康复工程汇刊(IEEE Transactionson Neural Systems and Rehabilitation Engineering)》24(5),532-541,所述文献特此通过引用并入。
朴素贝叶斯算法。朴素贝叶斯分类器(算法)是基于应用贝叶斯定理和特征之间的强(朴素)独立假设的一系列“概率分类器”。在一些实施例中,它们与核密度估计相结合。参见Hastie,Trevor,2001,《统计学习的要素:数据挖掘、推理和预测(The elements ofstatistical learning:data mining,inference,and prediction)》,Tibshirani,Robert,Friedman,J.H.(Jerome H.),纽约施普林格出版公司(New York:Springer),所述文献特此通过引用并入。
在一些实施例中,使用至少i)作为预测模型的自变量的测试对象子集和ii)作为预测模型的因变量的对应的目标结果子集来训练处于初始状态的预测模型进一步包括使用iii)作为自变量的所述至少一个目标对象,以将预测模型更新到更新的训练状态。
框228-230.参考图2B的框228,所述方法通过以下来进行:将处于更新的训练状态的预测模型(例如,重新训练的预测模型)应用到全部多个测试对象,从而获得多个预测结果的实例。参考框230,在一些实施例中,所述多个预测结果的实例包含所述多个测试对象中的每个测试对象的相应的预测结果。以这种方式,在目标模型的高计算负担及其相当的改进性能与预测模型的较低计算负担及其相当的较差性能之间实现了平衡。目标模型用于仅获得测试对象子集的目标结果,从而形成用于训练预测模型的训练集。由于计算量更大的目标模型的性能以及它利用至少一个目标对象与测试对象之间的相互作用这一事实,此训练集可能更准确。例如,在一些实施例中,目标对象是具有活性位点的酶,并且目标模型对测试对象子集中的每个测试对象与目标对象之间的相互作用进行评分。然后使用训练集来训练预测模型。如此,在典型实施例中,预测模型使用训练集进行训练,所述训练集包括测试对象子集中的每个测试对象的目标模型评分以及为测试对象数据集中的每个此类测试对象提供的化学数据,使得预测模型可以在不使用目标对象的情况下(例如,不将测试对象对接到目标对象)预测目标模型的评分。然后将现在训练的预测模型应用于全部多个测试对象以获得多个预测结果的实例。预测结果的实例包括训练的预测模型预测的作为全部多个目标对象中的每个对象的目标模型评分的评分。以这种方式,计算量更大的目标模型的性能及其伴随的对接被充分利用来帮助减少测试数据集中的测试对象的数量。此外,充分利用预测模型的效率来获得每个测试对象的测试结果,以减少测试数据集中测试对象的数量。
框232-234.参考图2B的框232,所述方法通过以下来进行:至少部分地基于所述多个预测结果的实例从所述多个测试对象中消除测试对象中的一部分测试对象(例如,根据下文描述的任何消除标准)。在一些实施例中,针对来自所述多个测试对象的测试对象子集中的每个相应的测试对象,将目标模型应用于相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得对应的目标结果子集(框210),训练处于初始训练状态的预测模型(框220),将处于更新的训练状态的预测模型应用于所述多个测试对象,从而获得多个预测结果的实例(框228),并且至少部分地基于所述多个预测结果的实例从所述多个测试对象中消除测试对象中的一部分测试对象(框232)是重复多次(例如,2次、3次、多于3次、多于十次、多于十五次等)的经过下框236中描述执行的评估的迭代过程。每次重复所述过程时(在每次迭代中),至少部分地基于来自框228的所述多个预测结果的最新实例,从所述多个测试对象中去除所述多个测试对象中剩余的测试对象中的一部分测试对象。
参考框234,在一些实施例中,消除包括i)对所述多个测试对象进行聚类,从而将所述多个测试对象中的每个测试对象分配给多个簇中的相应簇,以及ii)至少部分地基于所述多个簇中的各个簇中的测试对象的冗余从所述多个测试对象中消除测试对象子集(例如,以确保所述多个测试对象中的多种不同的化合物)。换言之,在此类实施例中,在框232的每次迭代中,对剩余的多个测试对象进行聚类。在一些实施例中,此聚类是基于如上文所描述的测试对象的特征向量进行的。在一些实施例中,框214中描述的任何聚类可以用于执行框234的聚类。而在框214中,执行此类聚类以选择测试对象子集以针对目标模型使用,在框234中,执行所述聚类以从所述多个测试对象中永久地消除测试对象。考虑框234的聚类将所述多个测试对象中剩余的测试对象聚类成Q个簇的实例,其中Q是2或更大的正整数(例如,2、3、4、5、6、7、8、9、10、大于10、大于20、大于30、大于100等)。在一些此类实施例中,在所述多个测试对象中保持这些簇中的每个中的相同数量的测试对象并且从所述多个测试对象中去除所有其它测试对象。以这种方式,所述多个测试对象中剩余的测试对象在所有簇之间平衡。
在步骤232中产生的所述多个预测结果表示预测模型预测目标模型针对所述多个测试对象作出的评分。
如果评分是在其中较低评分表示对一个或多个目标对象具有更佳亲和力的化合物的方案中进行的,则去除那些具有较高评分的测试对象是有意义的。因此,在一些替代性实施例中,不使用聚类并且框232的消除包括i)基于所述多个预测结果的实例对所述多个测试对象进行排序,以及ii)从所述多个测试对象中去除所述多个测试对象中未能具有满足阈值截止值的对应的预测评分的那些测试对象(例如,以确保所述多个测试对象中剩余的测试对象具有高预测评分)。在一些实施例中,阈值截止值是前阈值百分比(例如,基于所述多个预测结果排名最高的所述多个测试对象的百分比)。在一些此类实施例中,前阈值百分比表示所述多个测试对象中其预测结果为所述多个预测结果的前90%、前80%、前75%、前60%、前50%、前40%、前30%、前25%、前20%、前10%或前5%的测试对象。在此类实施例中,从所述多个测试对象中消除测试对象的对应的后百分比以供进一步考虑(例如,从而减少所述多个测试对象中的测试对象的数量)。
如果评分是在其中较高评分表示对一个或多个目标对象具有更佳亲和力的化合物的方案中进行的,则去除那些具有较低评分的测试对象是有意义的。因此,在一些替代性实施例中,不使用聚类并且框232的消除包括i)基于所述多个预测结果的实例对所述多个测试对象进行排序,以及ii)从所述多个测试对象中去除所述多个测试对象中未能具有满足阈值截止值的对应的预测评分的那些测试对象(例如,以确保所述多个测试对象中剩余的测试对象具有低预测评分)。在一些此类实施例中,阈值截止值是后阈值百分比(例如,基于所述多个预测结果排名最低的所述多个测试对象的百分比)。在一些实施例中,后阈值百分比表示所述多个测试对象中其预测结果为所述多个预测结果的后90%、后80%、后75%、后60%、后50%、后40%、后30%、后25%、后20%、后10%或后5%的测试对象。在此类实施例中,从所述多个测试对象中消除测试对象的对应的前百分比以供进一步考虑(例如,从而减少所述多个测试对象中的测试对象的数量)。
在一些实施例中,消除的每个实例(例如,在所述方法重复从所述多个测试对象中消除测试对象中的一部分测试对象的实施例中)在框232的特定迭代中消除所述多个测试对象中十分之一到十分之九的测试对象。在一些实施例中,消除的每个实例在框232的特定迭代中消除所述多个测试对象中存在的超过百分之五、超过百分之十、超过百分之十五、超过百分之二十或超过百分之二十五的测试对象。
在一些实施例中,消除的每个实例在框232的特定迭代中消除所述多个测试对象的百分之五到百分之三十、百分之十到百分之四十、百分之十五到百分之七十、百分之二十到百分之五十、百分之二十五到百分之九十。在一些实施例中,消除的每个实例在框232的特定迭代中消除所述多个测试对象中四分之一到四分之三的测试对象。在一些实施例中,消除的每个实例在框232的特定迭代中消除所述多个测试对象中四分之一到二分之一的测试对象。
在一些实施例中,消除(框232)的每个实例从所述多个测试对象中消除预定数量(或部分)的测试对象。例如,在一些实施例中,消除的每个相应的实例(框232)在所述消除的相应的实例中消除所述多个测试对象中百分之五的测试对象。在一些实施例中,消除的一个或多个实例消除不同数量(或部分)的测试对象。例如,消除的初始实例(框232)可以在消除232的这些初始实例期间在所述多个测试对象中消除较高百分比的多个测试对象,而消除的后续实例可以在消除232的这些后续实例期间在所述多个测试对象中消除较低百分比的多个测试对象。例如,在初始实例中消除多种测试化合物的10%,而在后续实例中消除多种测试化合物的5%。在另一个实例中,消除的初始实例(框232)可以在消除的这些初始实例期间在所述多个测试对象中消除较低百分比的多个测试对象,而消除的后续实例可以在消除232的这些后续实例期间在所述多个测试对象中消除较高百分比的多个测试对象。例如,在消除的初始实例中消除多种测试化合物的5%,而在消除232的后续实例中消除多种测试化合物的10%。
框236.参考图2C的框236,所述方法通过以下来进行:确定是否满足一个或多个预定义减少标准。当不满足一个或多个预定义减少标准时,所述方法进一步包括以下内容。针对所述多个测试对象中的另外的测试对象子集中的每个相应的测试对象,将目标模型应用(i)于相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得另外的目标结果子集。所述另外的测试对象子集是至少部分地基于所述多个预测结果的所述实例来选择的。通过将所述另外的测试对象子集并入测试对象子集(例如,先前的测试对象子集)中来更新(ii)测试对象子集。通过将所述另外的目标结果子集并入目标结果子集来更新(iii)目标结果子集。因此,目标结果子集随着所述方法在运行目标模型、训练预测模型和运行预测模型之间逐步迭代而增长。在更新(ii)和更新(iii)之后,通过将预测模型应用于至少1)作为自变量的测试对象子集和2)作为对应的因变量的对应的目标结果子集来修改(iv)预测模型,从而提供处于更新的训练状态的预测模型。重复应用(框228)、消除(框232)和确定(框236),直到满足一个或多个预定义减少标准。
在一些实施例中,修改(iv)预测模型包括重新训练或训练新的部分训练的预测模型。
在一些实施例中,当满足所述一个或多个预定义减少标准时,所述方法进一步包括i)对所述多个测试对象进行聚类,从而将所述多个测试对象中的每个测试对象分配给多个簇中的一个簇;以及ii)至少部分地基于所述多个簇中的各个簇中的测试对象的冗余从所述多个测试对象中消除一个或多个测试对象。
在一些实施例中,对所述多个测试对象进行聚类是如关于框212所描述的那样来执行的。
参考框238,在一些实施例中,应用(i)进一步包括通过基于对选自所述多个特征向量的一个或多个特征的评估从所述多个测试对象中选择一个或多个测试对象来形成所述另外的测试对象子集,如上文所描述的(例如,通过从各个簇中选择测试对象)。
在一些实施例中,所述另外的测试对象子集的大小与测试对象子集的大小相同或相似。在一些实施例中,所述另外的测试对象子集的大小与测试对象子集的大小不同。在一些实施例中,所述另外的测试对象子集不同于所述测试对象子集。
在一些实施例中,所述另外的测试对象子集包括至少1,000个测试对象、至少5,000个测试对象、至少10,000个测试对象、至少25,000个测试对象、至少50,000个测试对象、至少75,000个测试对象、至少100,000个测试对象、至少250,000个测试对象、至少500,000个测试对象、至少750,000个测试对象、至少100万个测试对象、至少200万个测试对象、至少300万个测试对象、至少400万个测试对象、至少500万个测试对象、至少600万个测试对象、至少700万个测试对象、至少800万个测试对象、至少900万个测试对象或至少1000万个测试对象。
在一些实施例中,修改(iv)预测模型包括重新训练预测模型(例如,在更新的测试对象子集上重新运行训练过程,并潜在地改变预测模型的一些参数或超参数)。在一些实施例中,修改(iv)预测模型包括训练新的预测模型(例如,替换先前的预测模型)。
在一些实施例中,修改(iv)进一步包括除了使用至少1)作为自变量的测试对象子集和2)作为对应的因变量的对应的目标结果子集以外,还使用3)作为自变量的所述至少一个目标对象。换言之,在一些实施例中,预测模型实际上确实将测试对象对接到目标对象,以便生成针对目标模型的目标结果进行训练的预测结果,前提是与具有伴随结合的目标模型相比,具有对接的预测模型的计算量仍然更少。
参考框240,在一些实施例中,所述一个或多个预定义减少标准的满足包括将所述多个预测结果与来自目标结果子集的对应的目标结果相关联。例如,在一些实施例中,当所述多个预测结果与对应的目标结果之间的相关性为.60或更大、0.65或更大、0.70或更大、0.75或更大、0.80或更大、0.85或更大或0.90或更大时,满足所述一个或多个预定义减少标准。
参考框240,在一些实施例中,所述一个或多个预定义减少标准的满足包括确定所述多个预测结果与对应的目标结果在绝对或归一化尺度上的平均差异,其中当此平均差异小于阈值量时,满足所述一个或多个预定义减少标准。在此类实施例中,所述阈值量取决于应用。
在一些实施例中,所述一个或多个预定义减少标准的满足包括确定所述多个测试对象中的所述测试对象数量已经下降到低于对象的阈值数量。在一些实施例中,所述一个或多个预定义减少标准要求所述多个测试对象具有不超过30个测试对象、不超过40个测试对象、不超过50个测试对象、不超过60个测试对象、不超过70个测试对象、不超过90个测试对象、不超过100个测试对象、不超过200个测试对象、不超过300个测试对象、不超过400个测试对象、不超过500个测试对象、不超过600个测试对象、不超过700个测试对象、不超过800个测试对象、不超过900个测试对象或不超过1000个测试对象。
在一些实施例中,所述一个或多个预定义减少标准要求所述多个测试对象具有2到30个测试对象、4到40个测试对象、5到50个测试对象、6到60个测试对象、5到70个测试对象、10到90个测试对象、5到100个的测试对象、20到200个测试对象、30到300个测试对象、40到400个测试对象、40到500个测试对象、40到600个测试对象或50到700个测试对象。
在一些实施例中,所述一个或多个预定义减少标准的满足包括确定所述多个测试对象中的测试对象的数量已经减少了所述测试对象数据库中测试对象的数量的阈值百分比。在一些实施例中,所述一个或多个预定义减少标准要求所述多个测试对象减少了测试对象数据库的至少10%、测试对象数据库的至少20%、测试对象数据库的至少30%、测试对象数据库的至少40%、测试对象数据库的至少50%、测试对象数据库的至少60%、测试对象数据库的至少70%、测试对象数据库的至少80%、测试对象数据库的至少90%、测试对象数据库的至少95%或测试对象数据库的至少99%。
在一些实施例中,所述一个或多个预定义减少标准是单一减少标准。在一些实施例中,所述一个或多个预定义减少标准是单一减少标准并且此单一减少标准是本公开中描述的减少标准中的任何一种。
在一些实施例中,所述一个或多个预定义减少标准是减少标准的组合。在一些实施例中,减少标准的此组合是本公开中描述的减少标准的任何组合。
参考框242,在一些实施例中,当满足所述一个或多个预定义减少标准时,所述方法进一步包括将预测模型应用于所述多个测试对象和所述至少一个目标对象,从而使预测模型提供所述多个测试对象中的每个测试对象的相应的评分(例如,每个评分针对相应的测试对象和目标对象)。在一些此类实施例中,每个相应的评分对应于相应的测试对象与所述至少一个目标对象之间的相互作用。在一些实施例中,每个评分用于表征所述至少一个目标对象。在一些实施例中,所述评分指是指结合亲和力(例如,在相应的测试对象与一个或多个目标对象之间),如题为“将卷积网络应用于空间数据的系统和方法(Systems andMethods for Applying a Convolutional Network to Spatial Data)”的美国专利第10,002,312号中所描述的,所述美国专利特此通过引用整体并入。在一些实施例中,测试对象与目标对象之间的相互作用受距离、角度、原子类型、分子电荷和/或极化以及周围稳定或不稳定环境因素的影响。
在一些替代性实施例中,当满足所述一个或多个预定义减少标准时,所述方法进一步包括将所述目标模型应用于剩余的多个测试对象和所述至少一个目标对象,从而使目标模型提供所述多个测试对象中的每个剩余的测试对象的相应的目标评分(例如,每个目标评分针对相应的测试对象和所述一个或多个目标对象中的目标对象)。在一些此类实施例中,每个相应的目标评分对应于相应的测试对象与所述至少一个目标对象之间的相互作用。在一些实施例中,每个目标评分用于表征所述至少一个目标对象。在一些实施例中,所述目标评分指是指结合亲和力(例如,在相应的测试对象与一个或多个目标对象之间),如题为“将卷积网络应用于空间数据的系统和方法(Systems and Methods for Applying aConvolutional Network to Spatial Data)”的美国专利第10,002,312号中所描述的,所述美国专利特此通过引用整体并入。在一些实施例中,测试对象与目标对象之间的相互作用受距离、角度、原子类型、分子电荷和/或极化以及周围稳定或不稳定环境因素的影响。
实例1-用例。
以下是仅为说明性目的而提供的示例用例,所述用例描述了本发明的一些实施例的一些应用。可以考虑其它用途,并且下面提供的实例是非限制性的,并且可能会有变化、省略或可能包含另外的元素。
虽然下面的每个实例都说明了结合亲和力预测,但可能会发现这些实例的不同之处在于:预测是针对单个分子、一组还是一系列迭代修饰的分子进行的;是针对单个靶标还是针对多个靶标进行预测;是需要还是避免针对靶标的活性;以及重要的量是绝对活性还是相对活性;或者,是否专门选择了分子或靶标集合(例如,对于分子,是现有的药物或杀虫剂;对于蛋白质,具有已知的毒性或副作用)。
命中发现。制药公司花费数百万美元筛选化合物以发现新的潜在药物先导物。为找到与所关注的疾病靶标具有任何相互作用的少量化合物,对大量化合物集合进行了测试。不幸的是,湿法实验室筛选存在实验误差,并且除了执行测定实验的成本和时间外,收集大量筛选集合因存储限制、保存稳定性或化学成本而构成了重大挑战。即使是最大的制药公司也只有几十万到几百万种化合物,而可商购获得的分子有数千万种并且可模拟分子有数亿种。
物理实验的一种潜在的更有效的替代方案是虚拟高通量筛选。与物理模拟可以帮助航空工程师在对模型进行物理测试之前评估可能的机翼设计的方式相同,分子的计算筛选可以将实验测试集中在小型高可能性分子子集上。这可以减少筛选成本和时间、减少假阴性、提高成功率和/或覆盖更广泛的化学空间。
在本申请中,蛋白质靶标可以用作目标对象。也可以以测试对象数据集的形式提供大型分子集合。对于在应用所公开的方法后保留的每个测试对象,预测针对蛋白质靶标的结合亲和力。所得评分可以用于对剩余分子进行排序,其中评分最高的分子最有可能结合靶蛋白。任选地,可以针对相似分子的簇分析排序的分子列表;大簇可以用作对分子结合的更强预测,或者可以跨簇选择分子以确保验证实验中的多样性。
脱靶副作用预测。许多药物可能被发现有副作用。通常,这些副作用是由于与负责药物治疗效果的生物通路以外的生物通路的相互作用引起的。这些脱靶副作用可能令人不适或对人有害,并限制了药物使用安全的患者群体。因此,脱靶副作用是评估进一步开发哪些候选药物的重要标准。虽然表征药物与许多替代性生物靶标的相互作用很重要,但此类测试的开发和运行可能既昂贵又耗时。计算预测可以使此过程更高效。
在本发明的实施例的应用中,可以构建一组与显著的生物应答和/或副作用相关的生物靶标。然后可以将系统配置成通过将每个此类蛋白质视为目标对象来依次预测针对所述组中的每个蛋白质的结合。针对特定靶标的强活性(即,与已知激活脱靶蛋白的化合物一样有效的活性)可能暗示所述分子因脱靶效应而产生副作用。
毒性预测。毒性预测是脱靶副作用预测的一个特别重要的特例。在后期临床试验中,大约一半的候选药物由于不可接受的毒性而淘汰。作为新型药物批准过程的一部分(以及在候选药物可以在人体中进行测试之前),FDA需要针对包含细胞色素P450肝酶(其抑制可能导致来自药物间相互作用的毒性)或hERG通道(其结合可能导致QT延长,从而导致室性心律失常和其它心脏不良反应)在内的靶标集合的毒性测试数据。
在毒性预测中,所述系统可以被配置成将脱靶蛋白限制为关键抗靶标(例如,CYP450、hERG或5-HT2B受体)。然后可以通过将这些蛋白质中的每一种视为目标对象(例如,在单独的独立运行中)来预测候选药物对这些蛋白质的结合亲和力。任选地,可以分析所述分子以预测代谢物集合(身体在原始分子的代谢/降解期间产生的后续分子),也可以分析所述分子与抗靶标的结合。可以鉴定并修饰有问题的分子以避免毒性,或者可以停止分子系列的开发以避免浪费另外的资源。
农用化学品设计。除制药应用外,农用化学品工业在新杀虫剂的设计中使用结合预测。例如,杀虫剂的一个必要条件是它们可以阻止所关注的物种,而不会对任何其它物种产生不利影响。为了生态安全,可能期望在不杀死大黄蜂的情况下杀死象鼻虫。
对于此应用,用户可以将来自所考虑的不同物种的蛋白质结构集合作为一个或多个目标对象输入到所述系统中。可以将蛋白质子集指定为对其有活性的蛋白质,而其余蛋白质将被指定为分子应该对其无活性的蛋白质。与先前的用例一样,某一分子集合(无论是在现有数据库中还是从头生成)将针对每个目标对象被视为测试对象,并且所述系统将返回对第一组蛋白质具有最大有效性的分子,同时避开第二组。
结论
可以为本文描述为单个实例的组件、操作或结构提供多个实例。最后,各个组件、操作和数据存储之间的边界在某种程度上是任意的,并且在特定说明性配置的上下文中说明了特定操作。设想了其它功能分配,并且可以落入所述实施方案的范围内。总体上,在示例配置中作为单独组件呈现的结构和功能可以实施为组合结构或组件。类似地,作为单个组件呈现的结构和功能可以实施为单独的组件。这些结构和功能及其它变型、修改、添加和改进落入所述实施方案的范围内。
如本文中所使用的,根据上下文,术语“如果”可以被解释为意指“当…时(when)”或“在…时(upon)”或“响应于确定”或“响应于检测”。类似地,根据上下文,短语“如果确定”或“如果检测到[所陈述的条件或事件]”可以被解释成意指“在确定…时”或“响应于确定”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。
还应理解,尽管术语第一、第二等在本文中可以用来描述各种要素,但是这些要素不应该受这些术语的限制。这些术语仅用于将一个要素与另一个要素相区分。例如,在不脱离本公开的范围的情况下,第一受试者可以被称为第二受试者,并且类似地,第二受试者可以被称为第一受试者。虽然第一受试者和第二受试者均为受试者,但这些受试者不是同一受试者。
前述描述包含体现说明性实施方案的示例系统、方法、技术、指令序列和计算机器程序产品。出于解释的目的,阐述了许多具体细节,以便提供对本发明主题的各个实施方案的理解。然而对于本领域的技术人员将显而易见的是,本发明的主题的实施方案可以在没有这些具体细节的情况下实践。总体而言,未详细示出众所周知的说明实例、协议、结构和技术。
为了解释的目的,前面的描述已经参照特定的实施方案进行了描述。然而,上述说明性讨论并不旨在穷举或将所述实施方案限制于所公开的精确形式。鉴于以上教导,许多修改和变化是可以的。选择和描述这些实施方案是为了最好地解释这些原理及其实际应用,由此使得本领域其它技术人员能够用适合预期的特定用途的多种修改方案来最好地使用这些实施方案和多种实施方案。
Claims (56)
1.一种用于减少测试对象数据集中的多个测试对象中的测试对象数量的方法,所述方法包括:
A)以电子格式获得所述测试对象数据集;
B)针对来自所述多个测试对象的测试对象子集中的每个相应的测试对象,将目标模型应用于所述相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得对应的目标结果子集;
C)使用至少i)作为自变量的所述测试对象子集和ii)作为因变量的所述对应的目标结果子集来训练处于初始训练状态的预测模型,从而将所述预测模型更新到更新的训练状态;
D)将处于更新的训练状态的所述预测模型应用于所述多个测试对象,从而获得多个预测结果的实例;
E)至少部分地基于所述多个预测结果的所述实例从所述多个测试对象中消除所述测试对象中的一部分测试对象;以及
F)确定是否满足一个或多个预定义减少标准,其中当不满足所述一个或多个预定义减少标准时,所述方法进一步包括:
(i)针对来自所述多个测试对象的另外的测试对象子集中的每个相应的测试对象,将所述目标模型应用于所述相应的测试对象和所述至少一个目标对象以获得对应的目标结果,从而获得另外的目标结果子集,其中所述另外的测试对象子集是至少部分地基于所述多个预测结果的所述实例来选择的;
(ii)通过将所述另外的测试对象子集并入所述测试对象子集中来更新所述测试对象子集;
(iii)通过将所述另外的目标结果子集并入所述目标结果子集中来更新所述目标结果子集;
(iv)在所述更新(ii)和所述更新(iii)之后,通过将所述预测模型应用于至少1)作为所述预测模型的多个自变量的所述测试对象子集和2)作为所述预测模型的对应的多个因变量的所述对应的目标结果子集来修改所述预测模型,从而提供处于更新的训练状态的所述预测模型;以及
(v)重复所述应用(D)、所述消除(E)和所述确定(F),其中在应用所述消除E)的实例之前,所述多个测试对象包括至少1亿个测试对象。
2.根据权利要求1所述的方法,其中
所述目标模型表现出第一计算复杂度,
所述预测模型表现出第二计算复杂度,并且
所述第二计算复杂度小于所述第一计算复杂度。
3.根据权利要求1或权利要求2所述的方法,其中所述测试对象数据集包含多个特征向量,其中每个特征向量用于所述多个测试对象中的相应的测试对象。
4.根据权利要求1到3中任一项所述的方法,其中所述应用B)进一步包括从所述多个测试对象中随机选择一个或多个测试对象以形成所述测试对象子集。
5.根据权利要求3所述的方法,其中所述应用B)进一步包括基于对选自所述多个特征向量的一个或多个特征的评估来为所述测试对象子集从所述多个测试对象中选择一个或多个测试对象。
6.根据权利要求3所述的方法,其中所述多个特征向量中的每个特征向量是一维向量。
7.根据权利要求3或权利要求4所述的方法,其中所述应用F)(i)进一步包括通过基于对选自所述多个特征向量的一个或多个特征的评估从所述多个测试对象中选择一个或多个测试对象来形成所述另外的测试对象子集。
8.根据权利要求1到7中任一项所述的方法,其中所述一个或多个预定义减少标准的满足包括将所述多个预测结果中的每个预测结果与来自所述目标结果子集的对应目标结果进行比较。
9.根据权利要求1到7中任一项所述的方法,其中所述一个或多个预定义减少标准的满足包括确定所述多个测试对象中的所述测试对象数量已经下降到低于对象的阈值数量。
10.根据权利要求1到9中任一项所述的方法,其中所述目标模型是卷积神经网络。
11.根据权利要求1到9中任一项所述的方法,其中所述预测模型包括随机森林树、包括多个多重加性决策树的随机森林、神经网络、图神经网络、密集神经网络、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、进化方法、投影寻踪、线性回归、朴素贝叶斯算法、多类别逻辑回归算法或其集合。
12.根据权利要求1到11中任一项所述的方法,其中
所述至少一个目标对象是单个对象,并且
所述单个对象是聚合物。
13.根据权利要求12所述的方法,其中所述聚合物包括活性位点。
14.根据权利要求12或13所述的方法,其中所述聚合物是蛋白质、多肽、多核酸、多核糖核酸、多糖或其任意组合的组装。
17.根据权利要求12所述的方法,其中基于空间坐标将所述聚合物应用于所述目标模型,所述空间坐标是通过核磁共振、中子衍射或低温电子显微术确定的所述聚合物的三维坐标的集合。
18.根据权利要求1到19中任一项所述的方法,其中在应用所述消除E)的实例之前,所述多个测试对象包括至少5亿个测试对象、至少10亿个测试对象、至少20亿个测试对象、至少30亿个测试对象、至少40亿个测试对象、至少50亿个测试对象、至少60亿个测试对象、至少70亿个测试对象、至少80亿个测试对象、至少90亿个测试对象、至少100亿个测试对象、至少110亿个测试对象、至少150亿个测试对象、至少200亿个测试对象、至少300亿个测试对象、至少400亿个测试对象、至少500亿个测试对象、至少600亿个测试对象、至少700亿个测试对象、至少800亿个测试对象、至少900亿个测试对象、至少1000亿个测试对象或至少1100亿个测试对象。
19.根据权利要求0所述的方法,其中所述一个或多个预定义减少标准要求所述多个测试对象具有不超过30个测试对象、不超过40个测试对象、不超过50个测试对象、不超过60个测试对象、不超过70个测试对象、不超过90个测试对象、不超过100个测试对象、不超过200个测试对象、不超过300个测试对象、不超过400个测试对象、不超过500个测试对象、不超过600个测试对象、不超过700个测试对象、不超过800个测试对象、不超过900个测试对象或不超过1000个测试对象。
20.根据权利要求1到19中任一项所述的方法,其中所述多个测试对象中的每个测试对象表示化合物。
21.根据权利要求1到20中任一项所述的方法,其中处于所述初始训练状态的所述预测模型包括未训练或部分训练的分类器。
22.根据权利要求1到21中任一项所述的方法,其中处于所述更新的训练状态的所述预测模型包括与处于所述初始训练状态的所述预测模型不同的未训练或部分训练的分类器。
23.根据权利要求1到22中任一项所述的方法,其中所述测试对象子集包括至少1,000个测试对象、至少5,000个测试对象、至少10,000个测试对象、至少25,000个测试对象、至少50,000个测试对象、至少75,000个测试对象、至少100,000个测试对象、至少250,000个测试对象、至少500,000个测试对象、至少750,000个测试对象、至少100万个测试对象、至少200万个测试对象、至少300万个测试对象、至少400万个测试对象、至少500万个测试对象、至少600万个测试对象、至少700万个测试对象、至少800万个测试对象、至少900万个测试对象或至少1000万个测试对象。
24.根据权利要求1到23中任一项所述的方法,其中所述另外的测试对象子集包括至少1,000个测试对象、至少5,000个测试对象、至少10,000个测试对象、至少25,000个测试对象、至少50,000个测试对象、至少75,000个测试对象、至少100,000个测试对象、至少250,000个测试对象、至少500,000个测试对象、至少750,000个测试对象、至少100万个测试对象、至少200万个测试对象、至少300万个测试对象、至少400万个测试对象、至少500万个测试对象、至少600万个测试对象、至少700万个测试对象、至少800万个测试对象、至少900万个测试对象或至少1000万个测试对象。
25.根据权利要求23或24所述的方法,其中所述另外的测试对象子集不同于所述测试对象子集。
26.根据权利要求1所述的方法,其中所述F)修改(iv)所述预测模型包括重新训练所述预测模型。
27.根据权利要求1所述的方法,其中所述训练(C)进一步包括除了使用所述至少i)作为所述预测模型的多个自变量的所述测试对象子集和ii)作为所述预测模型的多个因变量的所述对应的目标结果子集以外,还使用iii)作为所述预测模型的自变量的所述至少一个目标对象。
28.根据权利要求1或权利要求27所述的方法,其中所述至少一个目标对象包括至少两个目标对象、至少三个目标对象、至少四个目标对象、至少五个目标对象或至少六个目标对象。
29.根据权利要求1所述的方法,其中所述多个预测结果的所述实例包含所述多个测试对象中的每个测试对象的相应的预测结果。
30.根据权利要求1到29中任一项所述的方法,其中所述修改F)(iv)进一步包括除了使用至少1)作为自变量的所述测试对象子集和2)作为所述预测模型的对应的因变量的所述对应的目标结果子集以外,还使用3)作为自变量的所述至少一个目标对象。
31.根据权利要求1到30中任一项所述的方法,其中当满足所述一个或多个预定义减少标准时,所述方法进一步包括:
i)对所述多个测试对象进行聚类,从而将所述多个测试对象中的每个测试对象分配给多个簇中的一个簇;以及
ii)至少部分地基于所述多个簇中的各个簇中的测试对象的冗余从所述多个测试对象中消除一个或多个测试对象。
32.根据权利要求1到30中任一项所述的方法,所述方法进一步包括通过以下来从所述多个测试对象中选择所述测试对象子集:
i)对所述多个测试对象进行聚类,从而将所述多个测试对象中的每个测试对象分配给多个簇中的相应簇,以及
ii)至少部分地基于所述多个簇中的各个簇中的测试对象的冗余从所述多个测试对象中选择所述测试对象子集。
33.根据权利要求1到32中任一项所述的方法,其中当满足所述一个或多个预定义减少标准时,所述方法进一步包括将所述预测模型应用于所述多个测试对象和所述至少一个目标对象,从而使所述预测模型提供所述多个测试对象中的每个测试对象的相应的相互作用评分。
34.根据权利要求33所述的方法,其中每个相应的相互作用评分对应于相应的测试对象与所述至少一个目标对象之间的相互作用。
35.根据权利要求33或34所述的方法,其中每个相应的相互作用评分用于表征所述至少一个目标对象。
36.根据权利要求1所述的方法,其中所述消除(E)包括:
i)对所述多个测试对象进行聚类,从而将所述多个测试对象中的每个测试对象分配给多个簇中的相应簇,以及
ii)至少部分地基于所述多个簇中的各个簇中的测试对象的冗余从所述多个测试对象中消除测试对象子集。
37.根据权利要求31、32或36中任一项所述的方法,其中对所述多个测试对象进行聚类是使用基于密度的空间聚类算法、分裂聚类算法、聚集聚类算法、k均值聚类算法、监督聚类算法或其集合来执行的。
38.根据权利要求1所述的方法,其中所述消除(E)包括:
基于所述多个预测结果的所述实例对所述多个测试对象进行排序,以及
从所述多个测试对象中去除所述多个测试对象中未能具有满足阈值截止值的对应的预测结果的那些测试对象。
39.根据权利要求38所述的方法,其中所述阈值截止值是前阈值百分比。
40.根据权利要求39所述的方法,其中所述前阈值百分比是所述多个预测结果的前90%、前80%、前75%、前60%或前50%。
41.根据权利要求1到40中任一项所述的方法,其中所述消除(E)的每个实例消除所述多个测试对象中十分之一到十分之九的所述测试对象。
42.根据权利要求1到40中任一项所述的方法,其中所述消除(E)的每个实例消除所述多个测试对象中四分之一到四分之三的所述测试对象。
43.根据权利要求1到42中任一项所述的方法,其中所述至少一个目标对象是单个目标对象,并且所述针对来自所述多个测试对象的测试对象子集中的每个相应的测试对象应用于所述相应的测试对象和所述目标对象以获得对应的目标结果B)包括:
i)获得所述目标对象的空间坐标;
ii)对处于多个不同的位姿中的每个位姿下的所述相应的测试对象与所述目标对象进行建模,从而创建多个体素图,其中所述多个体素图中的每个相应的体素图包括处于所述多个不同的位姿中的相应位姿下的所述测试对象;
iii)将所述多个体素图中的每个体素图展开成对应的向量,从而创建多个向量,其中所述多个向量中的每个向量具有相同的大小;
iv)将所述多个向量中的每个相应的向量输入到所述目标模型中,其中所述目标模型包含(a)用于顺序地接收所述多个向量的输入层,(b)多个卷积层,以及(c)评分器,其中
所述多个卷积层包含初始卷积层和最终卷积层,
所述多个卷积层中的每一层与不同的权重集合相关联,
响应于所述多个向量中的相应的向量的输入,所述输入层将第一多个值作为所述相应的向量中的值的第一函数馈送到所述初始卷积层中,
除了所述最终卷积层之外,每个相应的卷积层将中间值作为(a)与所述相应的卷积层相关联的所述不同的权重集合和(b)由所述相应的卷积层接收到的输入值的相应的第二函数馈送到所述多个卷积层中的另一个卷积层中,并且
所述最终卷积层将最终值作为(a)与所述最终卷积层相关联的所述不同的权重集合和(b)由所述最终卷积层接收到的输入值的第三函数馈送到所述评分器中;
v)从所述评分器中获得对应的多个评分,其中所述对应的多个评分中的每个评分对应于进入所述输入层中的所述多个向量中的向量的所述输入;以及
vi)使用所述多个评分来计算所述对应的目标结果。
44.根据权利要求43所述的方法,其中所述评分器包括多个全连接层和评估层,并且其中所述多个全连接层中的全连接层馈送到所述评估层中。
45.根据权利要求43所述的方法,其中所述评分器包括决策树、多重加性回归树、聚类算法、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、进化方法、投影寻踪和其集合。
46.根据权利要求43所述的方法,其中所述多个向量中的每个向量是一维向量。
47.根据权利要求43所述的方法,其中所述多个不同的位姿包括2个或更多个位姿、10个或更多个位姿、100个或更多个位姿,或1000个或更多个位姿。
48.根据权利要求43所述的方法,其中所述多个不同的位姿是以标记链蒙特卡罗采样、模拟退火、拉马克遗传算法或遗传算法之一而使用对接评分函数来获得的。
49.根据权利要求43所述的方法,其中所述多个不同的位姿是通过使用贪婪算法进行的增量搜索来获得的。
50.根据权利要求43所述的方法,其中所述使用所述多个评分来计算所述对应的目标结果包括计算所述多个评分的集中趋势的度量。
51.根据权利要求43所述的方法,其中所述使用所述多个评分来计算所述对应的目标结果包括使用所述多个评分来表征所述相应的测试对象,包括计算所述多个评分的加权平均值。
52.根据权利要求43所述的方法,其中所述多个卷积层中的相应的卷积层具有多个过滤器,并且其中所述多个过滤器中的每个过滤器将N3的立方输入空间与步幅Y卷积,其中N是二或更大的整数,并且Y是正整数。
53.根据权利要求52所述的方法,其中与所述相应的卷积层相关联的所述不同的权重集合与所述多个过滤器中的相应的过滤器相关联。
54.根据权利要求43所述的方法,其中所述评分器包括多个全连接层和逻辑回归成本层,并且其中所述多个全连接层中的全连接层馈送到所述逻辑回归成本层中。
55.一种用于减少测试对象数据集中的多个测试对象中的测试对象数量的计算机系统,所述计算机系统包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置成由所述一个或多个处理器执行,所述一个或多个程序包含指令,所述指令用于:
A)以电子格式获得所述测试对象数据集;
B)针对来自所述多个测试对象的测试对象子集中的每个相应的测试对象,将目标模型应用于所述相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得对应的目标结果子集;
C)使用至少i)作为自变量的所述测试对象子集和ii)作为因变量的所述对应的目标结果子集来训练处于初始训练状态的预测模型,从而将所述预测模型更新到更新的训练状态;
D)将处于更新的训练状态的所述预测模型应用于所述多个测试对象,从而获得多个预测结果的实例;
E)至少部分地基于所述多个预测结果的所述实例从所述多个测试对象中消除所述测试对象中的一部分测试对象;以及
F)确定是否满足一个或多个预定义减少标准,其中当不满足所述一个或多个预定义减少标准时,所述方法进一步包括:
(i)针对来自所述多个测试对象的另外的测试对象子集中的每个相应的测试对象,将所述目标模型应用于所述相应的测试对象和所述至少一个目标对象以获得对应的目标结果,从而获得另外的目标结果子集,其中所述另外的测试对象子集是至少部分地基于所述多个预测结果的所述实例来选择的;
(ii)通过将所述另外的测试对象子集并入所述测试对象子集中来更新所述测试对象子集;
(iii)通过将所述另外的目标结果子集并入所述目标结果子集中来更新所述目标结果子集;
(iv)在所述更新(ii)和所述更新(iii)之后,通过将所述预测模型应用于至少1)作为所述预测模型的多个自变量的所述测试对象子集和2)作为所述预测模型的对应的多个因变量的所述对应的目标结果子集来修改所述预测模型,从而提供处于更新的训练状态的所述预测模型;以及
(v)重复所述应用(D)、所述消除(E)和所述确定(F),其中在应用所述消除E)的实例之前,所述多个测试对象包括至少1亿个测试对象。
56.一种非暂时性计算机可读存储介质和嵌入其中的一个或多个计算机程序,所述一个或多个计算机程序包括指令,所述指令在由计算机系统执行时使所述计算机系统执行用于减少测试对象数据集中的多个测试对象中的测试对象数量的方法,所述方法包括:
A)以电子格式获得所述测试对象数据集;
B)针对来自所述多个测试对象的测试对象子集中的每个相应的测试对象,将目标模型应用于所述相应的测试对象和至少一个目标对象以获得对应的目标结果,从而获得对应的目标结果子集;
C)使用至少i)作为自变量的所述测试对象子集和ii)作为因变量的所述对应的目标结果子集来训练处于初始训练状态的预测模型,从而将所述预测模型更新到更新的训练状态;
D)将处于更新的训练状态的所述预测模型应用于所述多个测试对象,从而获得多个预测结果的实例;
E)至少部分地基于所述多个预测结果的所述实例从所述多个测试对象中消除所述测试对象中的一部分测试对象;以及
F)确定是否满足一个或多个预定义减少标准,其中当不满足所述一个或多个预定义减少标准时,所述方法进一步包括:
(i)针对来自所述多个测试对象的另外的测试对象子集中的每个相应的测试对象,将所述目标模型应用于所述相应的测试对象和所述至少一个目标对象以获得对应的目标结果,从而获得另外的目标结果子集,其中所述另外的测试对象子集是至少部分地基于所述多个预测结果的所述实例来选择的;
(ii)通过将所述另外的测试对象子集并入所述测试对象子集中来更新所述测试对象子集;
(iii)通过将所述另外的目标结果子集并入所述目标结果子集中来更新所述目标结果子集;
(iv)在所述更新(ii)和所述更新(iii)之后,通过将所述预测模型应用于至少1)作为所述预测模型的多个自变量的所述测试对象子集和2)作为所述预测模型的对应的多个因变量的所述对应的目标结果子集来修改所述预测模型,从而提供处于更新的训练状态的所述预测模型;以及
(v)重复所述应用(D)、所述消除(E)和所述确定(F),其中在应用所述消除E)的实例之前,所述多个测试对象包括至少1亿个测试对象。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962910068P | 2019-10-03 | 2019-10-03 | |
US62/910,068 | 2019-10-03 | ||
PCT/US2020/053477 WO2021067399A1 (en) | 2019-10-03 | 2020-09-30 | Systems and methods for screening compounds in silico |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114730397A true CN114730397A (zh) | 2022-07-08 |
Family
ID=75274370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080078963.7A Pending CN114730397A (zh) | 2019-10-03 | 2020-09-30 | 用于通过计算机模拟筛选化合物的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210104331A1 (zh) |
EP (1) | EP4038555A4 (zh) |
JP (1) | JP2022550550A (zh) |
CN (1) | CN114730397A (zh) |
WO (1) | WO2021067399A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11709917B2 (en) * | 2020-05-05 | 2023-07-25 | Nanjing University | Point-set kernel clustering |
US20220171750A1 (en) * | 2020-11-30 | 2022-06-02 | Getac Technology Corporation | Content management system for trained machine learning models |
KR102457159B1 (ko) * | 2021-01-28 | 2022-10-20 | 전남대학교 산학협력단 | 딥러닝 기반 화합물 의약 효과 예측 방법 |
US20220336054A1 (en) * | 2021-04-15 | 2022-10-20 | Illumina, Inc. | Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures |
CN113850801B (zh) * | 2021-10-18 | 2024-09-13 | 深圳晶泰科技有限公司 | 晶型预测方法、装置及电子设备 |
WO2023212463A1 (en) * | 2022-04-29 | 2023-11-02 | Atomwise Inc. | Characterization of interactions between compounds and polymers using pose ensembles |
CN116153390A (zh) * | 2022-07-15 | 2023-05-23 | 上海图灵智算量子科技有限公司 | 基于量子卷积神经网络的药物结合能预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7451065B2 (en) * | 2002-03-11 | 2008-11-11 | International Business Machines Corporation | Method for constructing segmentation-based predictive models |
US9373059B1 (en) * | 2014-05-05 | 2016-06-21 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
-
2020
- 2020-09-30 EP EP20871111.9A patent/EP4038555A4/en active Pending
- 2020-09-30 JP JP2022519999A patent/JP2022550550A/ja active Pending
- 2020-09-30 US US17/038,473 patent/US20210104331A1/en active Pending
- 2020-09-30 CN CN202080078963.7A patent/CN114730397A/zh active Pending
- 2020-09-30 WO PCT/US2020/053477 patent/WO2021067399A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
JP2022550550A (ja) | 2022-12-02 |
US20210104331A1 (en) | 2021-04-08 |
WO2021067399A1 (en) | 2021-04-08 |
EP4038555A4 (en) | 2023-10-25 |
EP4038555A1 (en) | 2022-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109964278B (zh) | 通过并行评估分类器输出校正第一分类器中的误差 | |
Crampon et al. | Machine-learning methods for ligand–protein molecular docking | |
Zeebaree et al. | Machine Learning Semi-Supervised Algorithms for Gene Selection: A Review | |
Pu et al. | DeepDrug3D: classification of ligand-binding pockets in proteins with a convolutional neural network | |
CN114730397A (zh) | 用于通过计算机模拟筛选化合物的系统和方法 | |
US10482355B2 (en) | Systems and methods for applying a convolutional network to spatial data | |
CN108140131B (zh) | 用于将卷积网络应用于空间数据的系统和方法 | |
Zhang et al. | Application of machine learning approaches for protein-protein interactions prediction | |
S Bernardes | A review of protein function prediction under machine learning perspective | |
Aguiar-Pulido et al. | Evolutionary computation and QSAR research | |
WO2023070230A1 (en) | Systems and methods for polymer sequence prediction | |
Yadav et al. | Classification of enzymes using machine learning based approaches: a review | |
WO2023212463A1 (en) | Characterization of interactions between compounds and polymers using pose ensembles | |
Aburidi et al. | Wasserstein Distance-Based Graph Kernel for Enhancing Drug Safety and Efficacy Prediction | |
WO2023055949A1 (en) | Characterization of interactions between compounds and polymers using negative pose data and model conditioning | |
Sharma et al. | Evolutionary algorithms and artificial intelligence in drug discovery: opportunities, tools, and prospects | |
Gu | Applying Machine Learning Algorithms for the Analysis of Biological Sequences and Medical Records | |
US20240177012A1 (en) | Molecular Docking-Enabled Modeling of DNA-Encoded Libraries | |
Labory et al. | The multiomics revolution in the era of deep learning: Allies or enemies? | |
GUPTA | Design and application of scalable machine learning algorithms in molecular recognition, structure prediction and drug discovery | |
Rodríguez Pérez | Machine Learning Methodologies for Interpretable Compound Activity Predictions | |
Suryanarayanan et al. | Multi-view biomedical foundation models for molecule-target and property prediction | |
Essien | Protein-ion binding site prediction using deep learning | |
Vieira | Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data | |
Peng et al. | Bioinformatics Research and Applications: 20th International Symposium, ISBRA 2024, Kunming, China, July 19-21, 2024: Proceedings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40074350 Country of ref document: HK |