CN112136180A - 主动学习模型验证 - Google Patents

主动学习模型验证 Download PDF

Info

Publication number
CN112136180A
CN112136180A CN201980033308.7A CN201980033308A CN112136180A CN 112136180 A CN112136180 A CN 112136180A CN 201980033308 A CN201980033308 A CN 201980033308A CN 112136180 A CN112136180 A CN 112136180A
Authority
CN
China
Prior art keywords
model
compound
score
list
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980033308.7A
Other languages
English (en)
Inventor
D.普拉姆利
M.H.S.塞格勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BenevolentAI Technology Ltd
Original Assignee
BenevolentAI Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BenevolentAI Technology Ltd filed Critical BenevolentAI Technology Ltd
Publication of CN112136180A publication Critical patent/CN112136180A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了用于训练机器学习(ML)技术以生成用于预测化合物是否具有特定特性的特性模型的方法、装置和计算机实现的方法。可以执行迭代过程/反馈循环以生成特性模型,该过程包括:基于特性模型生成用于多种化合物及其与特定特性的关联的预测结果列表;基于来自具有与特定特性的关联的预测结果列表的化合物来验证特性模型;以及基于特性模型验证来更新特性模型。可以使用更新的特性模型来重复该过程/循环,直到确定该特性模型已被有效地训练为止。特性模型验证可包括选择化合物候选列表,对与特定特性相关的化合物候选列表执行模拟分析和/或实验室分析,以及使用模拟和/或实验室结果更新特性模型。

Description

主动学习模型验证
技术领域
本申请涉及用于主动学习和模型验证的装置、系统和方法。
背景技术
信息学是用于解释一个或多个学术和/或科学领域中的数据的计算机和信息技术以及资源的应用。化学信息学(cheminformatics)(又称化学信息学(chem(o)informatics)和生物信息学包括用于解释化学和/或生物数据的计算机和信息技术以及资源的应用。这可以包括解决和/或建模化学和/或生物学领域中的过程和/或问题。例如,这些计算和信息技术以及资源可以将数据转换为信息,并且然后将信息转换为用于在仅作为示例但不限于药物鉴定、发现和优化领域中用于快速产生化合物和/或做出改进的决定的知识。
机器学习技术是可用于设计复杂的分析模型和算法的计算方法,该模型和算法有助于解决复杂的问题,诸如化合物是否具有一个或多个特征和/或特性的产生和预测。尽管可以使用或选择无数的ML技术来预测化合物是否具有特定的特性或特征,但是通常缺少训练数据以适当地训练ML技术来生成合适的训练的特性模型(在本文称为特性模型)来预测化合物是否具有特定的特性。如果ML技术用于基于不足的标记训练数据生成特性模型,则所得的特性模型可能无法可靠地预测化合物是否具有用于广泛范围化合物的特定特性。
生成用于训练ML技术以生成准确和可靠的特性模型以预测化合物是否具有特定特性的标记的训练数据集是昂贵的,费时的并且由于人为错误而易于出错。当需要预测的特性/特征的数量随着用于预测化合物是否具有多个特性和/或特征中的一个或多个特性和/或特征的多个特性模型中的每一个增加时,该任务的复杂性呈指数增加。需要改进训练并使用ML技术来生成准确和可靠的特性模型,以预测化合物是否具有一种或多种特定特性,以使研究人员、数据科学家、工程师和分析人员能够在药物鉴定、发现和优化领域中进行快速改进。
以下描述的实施例不限于解决上述已知方法的任何或所有缺点的实施方式。
发明内容
提供本发明内容以简化形式介绍一些概念,该概念将在下面的详细描述中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于确定所要求保护的主题的范围;有助于本发明的工作和/或用于实现基本上相似的技术效果的变型和替代特征应被认为落入本文所公开的本发明的范围内。
本公开内容提供了用于训练机器学习(ML)技术以生成用于预测化合物是否具有特定特性的ML模型(例如特性模型)的方法和装置。这使用了迭代过程/反馈循环,可以执行该迭代过程/反馈循环以生成ML模型,直到将其视为经过有效训练为止。用于反馈循环的每个迭代的过程可以包括,仅作为示例但不限于,基于ML模型生成用于多种化合物及其与特定特性的关联的预测结果列表;基于来自具有与特定特性的关联的预测结果列表的化合物来验证ML模型;以及基于ML模型验证来更新ML模型。可以使用更新的ML模型重复该过程/循环,直到确定ML模型已被有效训练为止。作为示例,特性模型验证步骤可以包括选择化合物候选列表,对与特定特性相关的化合物候选列表执行模拟分析和/或实验室分析,以及使用模拟和/或实验室结果更新特性模型。模拟和/或实验室结果可用于形成进一步的标记训练数据,用于训练ML技术以生成更新的ML模型。
在第一方面,本公开提供了一种用于生成ML模型(在本文也称为特性模型)的计算机实现的方法,用于预测化合物是否具有特定特性。该方法包括:训练ML技术以生成特性模型;使用特性模型生成用于多种化合物及其与特定特性的关联的预测结果列表;基于来自具有与特定特性的关联的预测结果列表的化合物来验证特性模型;基于特性模型验证来更新特性模型。
优选地,该方法包括至少使用更新的特性模型重复生成和验证步骤,直到确定特性模型已被有效地训练为止。生成、验证和更新的步骤可以是反馈循环的一部分,可以使用先前迭代的更新的特性模型重复或迭代该循环,直到确定特性模型已被有效训练和/或合适的停止标准已满足或达到为止(例如,最大迭代次数、特性模型得分的稳定值、特性模型得分的峰值等)。
优选地,该方法进一步包括使用特性模型生成用于多种化合物及其与特定特性的关联的预测结果;以及基于来自具有与特定特性的关联的预测结果列表的化合物来验证特性模型。
优选地,基于与特定特性相关的多种化合物的子集相关联的标记的训练数据集,对ML技术进行初始训练。多种化合物的子集可以是用于生成预测结果列表的多种化合物的子集。
优选地,验证特性模型进一步包括:从具有与特定特性的关联的预测结果列表中验证化合物候选列表;以及更新特性模型进一步包括:基于采用包括验证的化合物候选列表的标记的训练数据集训练ML技术来更新特性模型。
优选地,更新特性模型进一步包括:基于验证的化合物候选列表和与特定特性相关联的任何先前标记的训练数据集,生成另一个标记的训练数据集;以及基于生成的标记训练数据集重新训练ML技术。
优选地,验证化合物候选列表进一步包括:基于特定特性和化合物候选列表确定是否执行实验室实验;以及响应于确定执行实验室实验,使用来自实验室实验的实验结果来估计化合物候选列表上的每种化合物与特定特性的关联。
优选地,确定执行实验室实验是基于以下组中的一个或多个:超过验证迭代阈值的验证迭代次数,在该验证迭代阈值中已连续执行模拟分析以验证候选列表;实验室分析将基于先前的特性模型得分而对特性模型的ML得分进行改进的指示,该先前的特性模型得分是根据每个化合物候选列表已被验证之后生成的对应预测结果列表计算得出的;或对验证迭代次数与实验室实验将提供改进的特性模型的指示的组合。
优选地,确定是否执行实验室实验进一步包括:确定所选化合物候选列表是否与先前所选化合物候选列表有实质性变化;响应于确定所选化合物候选列表与先前所选化合物候选列表没有实质性变化,选择对来自所选化合物候选列表的所选化合物子集执行实验室实验。
优选地,验证候选列表进一步包括:基于特定特性和化合物列表确定是否执行模拟分析(或计算机模拟分析);以及响应于确定执行模拟分析,使用来自模拟分析的模拟结果来估计化合物候选列表上的每种化合物与特定特性的关联。
优选地,确定执行模拟分析是基于以下组中的一个或多个:超过验证迭代阈值的验证迭代次数,在该验证迭代阈值中已连续执行模拟分析以验证候选列表;模拟分析将基于先前的特性模型得分而对特性模型的ML得分进行改进的指示,该先前的特性模型得分是根据每个化合物候选列表已被验证之后生成的对应预测结果列表计算得出的;或对验证迭代次数与模拟分析将提供改进的特性模型的指示的组合。
优选地,其中连续执行模拟分析的验证迭代次数大于其中执行实验室分析的验证迭代次数。
优选地,对于其中连续地执行模拟分析的多个生成和验证迭代中的每一个,执行一次实验室分析。
优选地,预测结果列表包括所述每种化合物是否具有特定特性的预测得分,该方法进一步包括至少部分地基于预测得分从预测结果列表中选择化合物候选列表。
优选地,验证化合物候选列表进一步包括基于化合物是否具有指示临界预测得分的预测得分,从预测结果列表中选择用于化合物候选列表的一种或多种化合物。
优选地,预测得分包括确定性得分,其中,将已知具有特定特性的化合物给予肯定确定性得分,将已知不具有特定特性的化合物给予否定确定性得分,并且将其它化合物给予肯定确定性得分和否定确定性得分之间的不确定性得分。
优选地,确定性得分是百分比确定性得分,其中,肯定确定性得分是100%,否定确定性得分是0%,并且不确定性得分在肯定确定性得分和否定确定性得分之间。
优选地,从预测结果列表中选择化合物候选列表进一步包括选择具有不确定预测结果的一种或多种化合物。
优选地,从预测结果列表中选择化合物候选列表进一步包括:选择与迄今为止所使用的任何标记的训练数据中所使用的化合物不相似的一种或多种化合物。
优选地,从预测结果列表中选择化合物候选列表进一步包括:使用选择模型以从预测结果列表中选择化合物候选列表,其中,选择模型通过训练强化学习RL技术生成。
优选地,基于RL技术生成选择模型进一步包括:使用选择模型,从用于验证的预测结果列表中选择用于化合物候选列表的一组化合物;验证所选化合物候选列表是否具有特定特性;以及基于ML技术和验证的化合物候选列表来更新特性模型;基于更新的特性模型生成ML得分和进一步的预测结果列表;以及基于ML得分和先前的ML得分,确定是否重新训练选择模型以选择用于化合物候选列表的一组化合物。
优选地,响应于确定重新训练选择模型,该方法进一步包括:当ML得分与对应的先前ML得分相比未达到特性模型性能阈值时,将更新的特性模型恢复为先前的特性模型;当ML得分指示与对应的先前ML得分相比满足或超过了特性模型性能阈值时,保留或保持更新的特性模型;以及重新训练选择模型以基于ML得分从对应的预测结果列表中选择一组化合物;以及重复生成至少包括选择的步骤的选择模型步骤、验证和更新特性模型,直到确定要训练选择模型为止。
优选地,确定训练选择模型进一步包括:比较保留/保持的特性模型得分与先前的保留的特性模型得分;以及基于特性模型得分的稳定值,确定选择模型已被有效地训练。
优选地,确定特性模型是否已被有效地训练进一步包括基于指示不需要进一步验证候选列表来确定特性模型已被有效地训练。可替代地或另外地,优选地,确定特性模型已被有效训练进一步包括:比较保留/保持的特性模型得分与先前的保留的特性模型得分;以及基于特性模型得分的稳定值,确定选择模型已被有效地训练。
优选地,验证特性模型进一步包括:基于预测结果列表生成特性模型得分;基于特性模型得分和先前的特性模型得分来确定特性模型是否已被有效地训练。
优选地,确定特性模型是否已被有效地训练包括:基于特性模型得分的稳定值来确定特性模型已被有效地训练。
优选地,ML技术包括来自以下组的至少一种ML技术或ML技术的组合:递归神经网络,其被配置为从第一化合物开始预测表现出一组所需特性的第二化合物;卷积神经网络,其被配置为从第一化合物开始预测表现出一组所需特性的第二化合物;增强学习算法,其被配置为从第一化合物开始预测表现出一组所需特性的第二化合物;以及被配置用于从第一化合物开始预测表现出一组所需特性的第二化合物的任何神经网络结构。
优选地,特定特性包括指示以下的特性或特征:与另一种化合物对接形成稳定复合物的化合物;与靶蛋白对接的配体,其中,化合物是配体;与一种或多种靶蛋白对接或结合的化合物;具有特定溶解度或溶解度范围的化合物;具有特定毒性的化合物;可以基于计算机模拟以及原子和分子的物理运动而模拟的与化合物相关联的任何其它特性或特征;可以从专家知识库中确定的与化合物相关联的任何其它特性或特征;以及可以从实验中确定的与化合物相关联的任何其它特性或特征。特定特性可以进一步包括指示以下的特性、特征和/或特点:部分系数(例如,LogP)、分布系数(例如,LogD)、溶解度、毒性、药物-靶标相互作用、药物-药物相互作用、脱靶药物作用、细胞渗透、组织渗透、代谢、生物利用度、排泄、吸收、药物-蛋白质结合、药物-脂质相互作用、药物-脱氧核糖核酸(DNA)/核糖核酸(RNA)相互作用、代谢产物预测、组织分布和/或与化合物相关的任何其它合适的特性、特征和/或特点。
优选地,可以重复生成特性模型的方法,直到确定特性模型已被有效地训练为止。另外,该方法可以包括通过迭代生成、验证和更新特性模型的步骤来进一步训练特性模型,直到确定特性模型已被有效地训练或者达到或满足停止标准为止,其中当在下一次迭代中至少重复生成、验证和更新步骤时使用了来自先前或当前迭代的更新的特性模型。
在第二方面,本公开提供一种装置,该装置包括处理器、存储器单元和通信接口,其中,处理器连接到存储器单元和通信接口,其中,处理器和存储器被配置为实现根据第一方面、其修改和/或如本文所述的计算机实现的方法。
在第三方面,本公开提供一种ML模型,该ML模型包括表示通过训练根据第一方面、其修改和/或如本文所述的计算机实现的发明的ML技术而生成的ML模型的数据。
在第四方面,本公开提供通过根据第一方面、其修改和/或如本文所述的计算机实现的方法获得或可获得的特性模型。
在第五方面,本公开提供一种装置,该装置包括处理器、存储器单元和通信接口,其中,处理器连接到存储器单元和通信接口,其中,处理器和存储器被配置为实现根据第三或第四方面和/或如本文所述的ML模型。
在第六方面,本公开提供一种计算机可读介质,该计算机可读介质包括表示基于训练根据第一方面、其修改和/或如本文所述的计算机实现的方法的ML技术而生成的ML模型的数据或指令代码,该数据或指令代码在处理器上执行时使处理器实现ML模型。
在第七方面,本公开提供一种计算机可读介质,该计算机可读介质包括表示根据第三或第四方面和/或如本文所述的ML模型的数据或指令代码,该数据或指令代码在处理器上执行时使处理器实现ML模型。
在第八方面,本公开提供一种用于使用由根据第一方面、其修改和/或如本文所述的计算机实现的方法的计算机实现的方法训练的ML模型预测化合物是否具有特定特性的方法。
在第九方面,本公开提供一种用于生成用于预测化合物是否与特定特性相关联的ML模型(例如,特性模型)的系统,该系统包括:模型生成模块,用于训练ML学习ML技术以生成ML模型;模型测试模块,用于使用ML模型生成化合物及其与特定特性的关联的预测结果;验证模块,用于基于来自具有与特定特性的关联的预测结果的化合物来验证ML模型;以及模型更新模块,用于基于ML模型验证来更新ML模型。
优选地,该系统进一步包括第一方面、其修改或如本文所述的一个或多个特征。优选地,模型生成模块、模型测试模块、验证模块和/或模型更新模块可以被配置为实现第一方面、其修改和/或如本文所述等的计算机实现的方法。优选地,模型生成模块、模型测试模块、验证模块和/或模型更新模块可以进一步被配置为实现第二至第八方面中一个或多个方面、其修改和/或如本文所述等的一个或多个功能或功能性。
本文所述的方法可以由软件以机器可读形式(例如以包括当该程序在计算机上运行并且计算机程序可以体现在计算机可读介质上时适于执行本文所述的任何方法的所有步骤的计算机程序代码部件的计算机程序的形式)在有形存储介质上执行。有形(或非暂态)存储介质的示例包括磁盘、拇指驱动器、存储卡等,并且不包括传播的信号。该软件可以适合于在并行处理器或串行处理器上执行,使得可以以任何合适的顺序或同时执行方法步骤。
该申请承认固件和软件可以是有价值的可单独交易的商品。它旨在包含在“非智能的(dumb)”或标准硬件上运行或控制“非智能的”或标准硬件的软件,以执行所需的功能。它还旨在涵盖“描述”或定义硬件配置的软件,诸如HDL(硬件描述语言)软件,用于设计硅芯片或配置通用可编程芯片,以执行所需功能。
如对本领域技术人员显而易见的,优选特征可以适当地组合,并且可以与本发明的任何方面组合。
附图说明
将通过示例的方式,参考以下附图描述本发明的实施例,在附图中:
图1a是示出根据本发明的用于训练ML技术以生成和验证特性模型以预测化合物是否具有特定特性的示例过程的流程图;
图1b是示出用于实现根据本发明的图1a的示例过程的示例装置的示意图;
图2是示出根据本发明的从多种化合物的特性模型输出的示例预测结果列表的表;
图3是示出根据本发明的用于验证特性模型的示例装置的示意图;
图4是示出根据本发明的用于验证用于训练ML技术以生成特性模型的化合物候选列表的示例装置的示意图;
图5是示出根据本发明的用于选择供图4a和图4b中使用的化合物候选列表的示例过程的流程图;以及
图6是根据本发明的计算设备的示意图。
在所有附图中使用共同的参考标记以指示相似的特征。
具体实施方式
下面仅以示例的方式描述本发明的实施例。这些实施例表示申请人当前已知的将本发明付诸实践的最优模式,但是它们不是实现该目的的唯一模式。该描述阐述了示例的功能以及用于构造和操作示例的步骤顺序。然而,可以通过不同的示例来实现相同或等同的功能和序列。
发明人已经有利地开发了一种方法/机制,其以迭代和半自动/自动化的方式明智地使用对所选化合物的模拟和/或实验室实验的组合,这增强了机器学习(ML)技术的训练,以生成准确且可靠的ML模型,例如ML模型,诸如仅作为示例但不限于用于预测化合物是否表现出或具有特定特性的特性模型。当没有足够的标记训练数据来训练ML技术来生成(仅作为示例但不限于)用于预测化合物是否具有特定特性的特性模型时,该机制可能特别适用。该机制可以通过选择化合物的最优子集来增强标记的训练数据集,该化合物应该最大化或至少改进特性模型的性能,同时经由计算机模拟或经由实验室实验确定何时针对特定特性对子集进行最优验证。可以基于增强的标记训练数据集更新特性模型。此后,该机制可以主要使用模拟使用另一所选的化合物子集反复迭代地进一步增强标记的训练数据集,并且在必要时,要求并对最少数量的化合物或化合物的子集执行实验室实验,这将增强特性模型的性能。
尽管本发明的以下描述仅作为示例但不限于涉及用于预测一种或多种化合物是相关联的还是具有特定特性的特性模型和/或ML模型(例如一个或多个实体是否与一种关系相关联),但是本领域技术人员将理解,本发明可以应用于其它ML模型,以预测实体或输入数据是否与另一实体具有特定关系,或用于根据特定关系等将一个或多个实体和/或输入数据分类。该实体可以包括一种或多种化合物、药物、蛋白质/基因或其它生物实体等。
预测特性模型(或用于预测化合物是否表现出或具有特定特性的ML模型)可以被配置为接收化合物作为表示该化合物是否具有特定特性的预测的输入和输出数据。例如,该特性模型可以被配置为仅作为示例但不限于预测化合物是否将结合到特定蛋白质;或预测该化合物是否可溶于水;或预测该化合物对人体或人体部分是否有毒;或预测与化合物相关的任何其它关注特性。然而,标记的训练数据集可能只包含与特定特性相关的数百种到数千种化合物的数据。这是不足以正确训练ML技术以生成可预测化合物是否表现出和/或具有特定特性的特性模型的数据。
可通过增加标记的训练数据集的大小来改进特性模型的质量。例如,可以经由实验在实验室中测试与特定特性未知关联的多种化合物,以测量它们是否表现出特定特性或与特定特性相关联。然而,这对于除少数几种化合物以外的所有化合物而言都非常昂贵。发明人已经开发了一种技术,用于限制在实验室中测试所需的化合物的数量,同时提高特性模型质量。这可以通过首先从特性模型输出的多种化合物的预测结果列表中选择化合物候选列表来实现。候选列表通常大于通常发送给实验室进行测试的化合物的数量。基于分子动力学/相互作用的计算机模拟用于验证与特定特性相关的化合物候选列表。来自候选列表的计算机模拟的验证结果被反馈到特性模型中(例如,使用它们来增强标记的训练数据集并相应地重新训练特性模型),该特性模型可以基于多种化合物输出另一个预测结果列表。可以选择另一个候选列表,通过计算机模拟对其进行验证,并将其反馈到特性模型中。可以重复这些步骤,直到确定实验室测试将进一步增强特性模型的质量为止。在实验室测试之后,可以将验证的化合物候选列表的实验室结果反馈到特性模型中(例如,实验室结果用于进一步增强标记的训练数据集并相应地重新训练特性模型)。可以采用进一步的模拟循环和/或实验室实验循环重复该步骤,直到认为特性模型已被适当训练为止。
实验室测试可以基于仅作为示例但不限于以下中的一项或多项来确定:确定模拟测试技术已经用尽,例如,基于模拟,特性模型几乎没有改进,或没有改进;可以观察到,预测结果列表输出不确定化合物的非常小的候选列表;已经达到使用用于验证候选列表的模拟的最大迭代次数;已经选择最少数量的化合物用于实验室测试,并且确定这些所选化合物应该在特性模型的质量上获得最大程度的改进;和/或与先前的特性模型性能得分相比,特性模型稳定值的总体特性模型性能得分;或特性模型性能得分比先前的特性模型性能得分更差,在这种情况下,特性模型将恢复为性能最优的特性模型,以及选择用于实验室实验的候选列表;可能有助于增强特性模型质量的任何其它条件或准则;和/或其任何组合。
可以基于仅作为示例但不限于以下一种或多种来选择化合物作为模拟和/或实验室测试的化合物候选列表:选择与已经在标记的训练数据集中的化合物最不相似的那些化合物;选择特性模型不确定性最低的那些化合物,无论这些化合物是否表现出特定特性(例如临界情况);使用已被训练用于选择可导致改进的ML质量的最优化合物的ML选择模型来选择那些化合物;和/或其任何其它组合。
例如,特定特性可以与对接有关,并且可以生成特性模型以预测化合物在何处与特定点或结合位点结合。可以将用于验证的所选候选列表中的化合物输入到相对于结合位点配置的计算机对接模拟,该计算机对接模拟模拟化合物是否粘附/对接到结合位点,例如与蛋白质对接的化合物。计算机模拟可以输出验证结果,诸如仅作为示例但不限于,表示化合物与结合位点对接程度的对接得分或数据。通过使用输出验证结果来增强标记的训练数据并使用标记的训练数据重新训练ML技术以生成更新的特性模型(例如,重新训练的特性模型),将这些结果反馈到特性模型中。
化合物(也称为一个或多个分子)可以包含或表示由一个或多个分子(或分子实体)组成的化学或生物物质,该分子由来自一个或多个化学元素(或多于一个的化学元素)的原子通过化学键结合在一起组成。本文所用的示例化合物可包括,仅作为示例但不限于,通过共价键结合在一起的分子、通过离子键结合在一起的离子化合物、通过金属键结合在一起的金属间化合物、通过配位共价键结合在一起的某些复合物、药物化合物、生物化合物、生物分子、生物化学化合物、一种或多种蛋白质或蛋白质化合物、一种或多种氨基酸、脂质或脂质化合物、碳水化合物或复合碳水化合物、核酸、脱氧核糖核酸(DNA)、DNA分子、核糖核酸(RNA)、RNA分子和/或由来自一种或多种化学元素的原子组成的分子或分子实体的任何其它组织或结构,及其组合。
每种化合物具有或表现出可以决定该化合物对给定应用的有用性的一种或多种特性、特征或特点或其组合。当化合物进行反应时,化合物的特性或关注的特性可以包括或表示代表或指示化合物的特定行为/特征/特点的数据。例如,化合物可以关联或表现出一种或多种特征或特性,其可以包括,仅作为示例但不限于以下组中的一种或多种特征或特性:与另一种化合物对接形成稳定复合物的化合物的指示;与靶蛋白对接的配体相关联的指示,其中,化合物是配体;与一种或多种靶蛋白对接或结合的化合物的指示;具有特定溶解度或溶解度范围的化合物的指示;具有特定电特征的化合物的指示;具有毒性或毒性范围的化合物的指示;可以使用基于原子和分子的物理运动的计算机模拟来模拟的与化合物相关联的特性或特征的任何其它指示;可以通过实验测试或测量的与化合物相关联的特性或特征的任何其它指示。一种或多种化合物的特性、特征或特点的其它示例包括,仅作为示例但不限于以下中的一项或多项:LogP、LogD、溶解度、毒性、药物-靶标相互作用、药物-药物相互作用、脱靶药物作用、细胞渗透、组织渗透、代谢、生物利用度、排泄、吸收、药物-蛋白质结合、药物-脂质相互作用、药物-DNA/RNA相互作用、代谢产物预测、组织分布和/或与化合物相关的任何其它合适的特性、特征和/或特点。
给定化合物的特性可以包括表示或指示化合物在进行反应时的特定行为/特征/特点的数据,表示或指示化合物特性的该数据可以包括,仅作为示例但不限于:任何连续或离散的值/得分和/或值/得分的范围,值/得分的系列,字符串或表示该特性的任何其它数据。例如,特性可以与以下内容相关联、被分配以下内容、由以下内容表示,或基于以下内容,仅作为示例但不限于:一个或多个连续特性值/得分(例如非二进制值)、一个或多个离散特性值/得分(例如二进制值)、一个或多个连续的特性值/得分范围、一个或多个离散特性值/得分范围、特性值/得分的系列、一个或多个特性值字符串,或表示特性的特性值/得分的任何其它合适的数据等。特性值/得分可以基于与反应和/或特定特性相关联的测量数据或模拟数据。
化合物可以被分配特性值/得分,该特性值/得分包括表示当化合物进行与特定特性相关联的反应时是否与特定特性相关联的数据。该特性值/得分可以仅作为示例但不限于实验室测量值和/或计算机模拟值/得分来确定或基于。分配给化合物的特性值/得分给出化合物是与特定特性相关联还是表现出特定特性的指示。例如,可以取决于化合物在进行与特定特性相关联的反应时是否表现出特定特性来向化合物分配特性值/得分。当与化合物相关联的特性值/得分仅作为示例但不限于在表示该特性的阈值特性值/得分之上或之下、在表示该特性的值的范围内或附近等时,可以说该化合物表现出特定特性。
可以使用ML技术中的一种或多种或组合来生成用于预测如本文所述根据本发明的化合物是否具有一种或多种特性所生成的特性模型。ML技术可以包括或表示可用于生成分析模型和算法的计算方法中的一个或多个或组合,该分析模型和算法使自己解决复杂的问题,诸如仅作为示例但不限于,复杂过程和/或化合物的预测和分析。ML技术可用于生成ML模型(例如特性模型),以用于信息学、化学信息学和/或生物信息学领域中的药物发现、鉴定和/或优化。
例如,可以使用标记的训练数据集来训练ML技术,以生成ML模型(或特性模型)来预测化合物是否具有特定特性。标记的训练数据集可以包括一种或多种化合物,每种化合物都可以用表示已知特性值/得分的数据或与该化合物和特定特性相关联的标签进行标记。因此,一旦ML技术已经基于与特定特性相关的标记的训练数据集训练了ML模型,则ML模型可以预测输入化合物是否表现出特定特性。ML模型可以输出表示特性值/得分的数据,该特性值/得分表示输入化合物与特定特性的关联。表示由ML模型输出的特性值/得分的数据在本文中可以被称为特性预测值/得分。可以将表示一种或多种化合物的ML模型数据输入到训练的ML模型中,该ML模型可以输出包括表示一个或多个对应特性值/得分的数据的特性预测值/分数,该对应特性值/得分指示一种或多种输入化合物是否相关联或表现出特定特性。
可以用于生成用于预测化合物是否具有特定特性的ML模型或特性模型的ML技术的示例可以包括,仅作为示例但不限于,来自以下组的至少一种ML技术或ML技术的组合:递归神经网络;卷积神经网络;强化学习算法;以及被配置用于预测化合物是否具有特定特性的任何其它神经网络结构。
可以如本文所述根据本发明使用的ML技术的其它示例可以包括或基于,仅作为示例但不限于,可被训练或适于生成一种或多种候选化合物的任何ML技术或算法/方法,该一种或多种候选化合物基于,仅作为示例但不限于,初始化合物、候选化合物的所需特性列表和/或用于修饰化合物的一组规则,该规则可包括一种或多种监督ML技术、半监督ML技术、无监督ML技术、线性和/或非线性ML技术、与分类相关联的ML技术、与回归相关联的ML技术等和/或其组合。ML技术的一些示例可包括或基于,仅作为示例但不限于以下中的一个或多个:主动学习、多任务学习、转移学习、神经消息解析、单次学习、降维、决策树学习、关联规则学习、相似性学习、数据挖掘算法/方法、人工神经网络(NN)、深度NN、深度学习、深度学习ANN、归纳逻辑编程、支持向量机(SVM)、稀疏词典学习、聚类、贝叶斯网络、表示学习、相似性和度量学习、稀疏词典学习、遗传算法、基于规则的机器学习、学习分类器系统和/或它们的一种或多种组合等。
监督的ML技术的一些示例可以包括或基于,仅作为示例但不限于,ANN、DNN、关联规则学习算法、先验算法、基于案例的推理、高斯过程回归、组数据处理方法(GMDH)、归纳逻辑编程、基于实例的学习、惰性学习、学习自动机、学习矢量量化、逻辑模型树、最小消息长度(决策树、决策图等)、XGBOOST、梯度引导机器、最近邻算法、类比建模、大概近似正确学习(PAC)学习、下降规则、知识获取方法、符号机器学习算法、支持向量机、随机森林、分类器集合、引导聚合(BAGGING)、提升(元算法)、序数分类、信息模糊网络(IFN)、条件随机场、方差分析、二次分类器、k最近邻、提升、冲刺、贝叶斯网络、朴素贝叶斯、隐马尔可夫模型(HMM)、分层隐马尔可夫模型(HHMM)以及能够从标记和/或未标记的训练数据推断功能或生成模型的任何其它ML技术或ML任务等。
无监督的ML技术的一些示例可以包括或基于,仅作为示例但不限于,期望最大化(EM)算法、矢量量化、生成的地形图、信息瓶颈(IB)方法以及能够推断描述隐藏结构和/或从未标记的数据生成模型的功能和/或通过忽略标记的训练数据集中的标记的功能的任何其它ML技术或ML任务等。半监督ML技术的一些示例可包括或基于,仅作为示例但不限于以下中的一个或多个:主动学习、生成模型、低密度分离、基于图的方法、协同训练、转导或能够利用未标记的数据集和/或标记的数据集进行训练的任何其它ML技术、任务或无监督ML技术类别等。
人工NN(ANN)ML技术的一些示例可包括或基于,仅作为示例但不限于以下中的一个或多个:人工NN、前馈NN、递归NN(RNN)、卷积NN(CNN)、自动编码器NN、极限学习机、逻辑学习机、自组织图和其它ANN ML技术或受到构成动物大脑的生物神经网络启发的连接系统/计算系统。深度学习ML技术的一些示例可包括或基于,仅作为示例但不限于以下中的一个或多个:深度信仰网络、深度玻尔兹曼机器、DNN、深度CNN、深度RNN、分层时间记忆、深度玻尔兹曼机器(DBM)、堆叠式自动编码器和/或任何其它ML技术。
图1a是示出根据本发明的用于训练ML技术以生成ML模型(本文也称为特性模型)以预测化合物是否表现出或具有特定特性的示例过程100的流程图。该特定特性可以基于与化合物相关联的多种特性之一。过程100可以使用可以基于标记的训练数据集被训练的ML技术,标记的训练数据集包括表示一组化合物与特定特性的关系或关联的数据。标记的训练数据集可能不具有足够数量的化合物/特性关联,或者可能不具有足够数量的不相似化合物/特性关联来训练ML技术以生成可用于广泛范围的化合物的特性模型。因此,以下方法进一步增强了对ML技术的训练,以生成准确且可靠的特性模型,以预测广泛范围的化合物是否具有特定特性。过程100的步骤可以包括以下步骤中的一个或多个:
在步骤102中,基于ML模型(即特性模型)生成用于多种化合物及其与特定特性的关联的预测结果列表。可以通过基于初始标记的训练数据集训练ML技术来生成特性模型,初始标记的训练数据集包括表示一组化合物与特定特性的已知关系或关联的数据。多种化合物可以包括标记的训练数据集的一组化合物和其中与特定特性的关联未知的另一组化合物。将多种化合物输入到初始生成的特性模型,该模型输出用于多种化合物中的每一种化合物的预测结果列表,该预测结果列表预测该化合物是否具有特定特性。预测结果列表可以包括多种化合物,每种化合物都映射到由ML模型输出/估计的对应的特性预测值/得分。
在步骤104中,基于来自具有与特定特性的关联的预测结果列表的多种化合物来验证ML模型或特性模型。初始标记的训练数据集可用于确定特性模型预测多种化合物中的每种化合物与特定特性之间的关联程度。这可以包括确定模型性能统计信息或总体特性模型得分,该模型性能统计信息或总体特性模型得分指示特性模型预测特定特性与化合物的关联程度。这可以进一步包括查证或进一步验证所选化合物候选列表与特定特性的关联。这可以用来增强标记的训练数据集。
在步骤106中,确定ML模型或特性模型是否已被充分训练,或者是否需要进一步训练特性模型。这可以基于特性模型得分(或ML模型得分)和/或特性模型/ML模型的预测能力是否有望进一步提高来确定。如果确定特性模型/ML模型没有被充分训练(例如“N”),则过程100进行到步骤108以更新特性模型/ML模型,此后可以使用更新的特性模型/ML模型重复步骤102至106,直到确定特性模型/ML模型已被有效训练为止。如果确定特性模型/ML模型被充分训练(例如,“Y”),则过程100进行到步骤110。
为简单起见,术语“特性模型”在下文中被提及,并且包括,仅作为示例但不限于,用于预测化合物是否具有特定特性或与特定特性相关联的ML模型(例如,特定特性可以是与化合物等相关联的特性或特征)。在步骤108中,可以基于特性模型验证的结果来更新特性模型。例如,ML得分可以用于更新特性模型。另外地或可替代地,可以基于验证所选化合物候选列表的结果来更新特性模型。例如,可以基于当前的标记的训练数据集来生成增强的或进一步标记的训练数据集,其包括与特定特性具有已知关联的化合物,以及基于验证每个化合物候选列表是否与特定特性相关联的验证结果。该增强的或进一步标记的训练数据集可用于训练ML技术,以生成更新的特性模型,该特性模型可以潜在地替换当前的特性模型,以预测化合物是否具有特定特性。无论如何,一旦已经基于相应地训练ML技术而更新了特性模型,则过程100进行至步骤102,以确定更新的特性模型的性能是否已被改进。
在步骤110中,一旦确定特性模型已被有效地训练,或者直到此时为止已经进行了尽可能多的实践或可能的训练,则可以输出表示该特性模型的数据以用于预测化合物是否具有特定特性。这可以包括存储所有参数、系数、权重、超参数以及定义特性模型和/或如何配置特性模型以供以后使用的任何其它数据。输出特性模型可以存储在计算机可读介质上,并且当要使用它时,可以由一个或多个处理器检索、加载和执行输出特性模型,以预测一种或多种化合物是否具有特定特性。
可以基于与特定特性相关的与多种化合物的子集相关联的标记的训练数据集来初始训练ML技术。当验证特性模型时,可以进一步增强标记的训练数据集。这可以通过从具有与特定特性的关联的预测结果列表中验证化合物候选列表来实现。然后,可以基于采用标记的训练数据集训练ML技术来更新特性模型,该训练数据集包括表示与特定特性相关的验证化合物候选列表的数据。
在步骤108中,用附加验证的候选列表更新特性模型可以包括生成进一步的标记训练数据集,该训练数据集包括表示与特定特性相关联的化合物的验证候选列表以及与该特定特性相关联的任何先前标记的训练数据集的数据。然后,ML技术可以基于进一步标记的训练数据集使用它来重新训练或更新ML技术。
在步骤104中,验证化合物候选列表可以包括基于某些条件确定是否基于特定特性和化合物候选列表执行实验室实验,或者是否执行计算机分析,诸如仅作为示例但不限于,基于特定特性和化合物候选列表的模拟分析。响应于确定要执行实验室实验,可以发送包括与特定特性相关的用于实验室实验的化合物候选列表的请求,并接收验证化合物候选列表中的每一个化合物候选列表与特定特性的关联的实验结果。来自实验室实验的实验结果可用于估计表示化合物候选列表上的每种化合物与特定特性的关联的数据。这可以用于增强标记的训练数据集,以进一步更新特性模型。响应于确定执行模拟分析而不是实验室实验,可以输入化合物候选列表进行计算机分析(例如,输入到与特定特性相关的分子计算机模拟中),以确定每个化合物候选列表与特定特性的关联。来自模拟分析的模拟结果可以用于估计表示化合物候选列表上的每种化合物与特定特性的关联的数据。这也可以用于增强标记的训练数据集,以进一步更新特性模型。
鉴于实验室实验通常比计算机分析/模拟更昂贵,在将化合物候选列表发送到实验室以确定每种化合物与特定特性的关联之前,可能需要满足一组条件。该组条件可以包括,仅作为示例但不限于以下组中的一个或多个:当验证迭代次数超过验证迭代阈值时,可以选择实验室实验,在该验证迭代阈值中,已连续执行计算机/模拟分析以验证候选列表;当指示实验室分析将基于先前的特性模型得分产生特性模型的ML得分的改进时,可以选择实验室实验,该先前的特性模型得分是根据每个化合物候选列表已被验证之后生成的对应预测结果列表计算得出的;所选化合物候选列表的数量m具有对于实验室实验而言成本有效的大小或数量(例如,m个所选化合物候选列表的数量可以小于10),其中m>=1;或验证迭代次数、实验室实验将提供改进的特性模型的指示以及化合物候选列表的数量m或大小的组合。
可以主要基于与化合物候选列表相关联的一组条件来选择计算机分析/模拟。计算机分析用于确定每种化合物与特定特性的关联。该组条件可以包括,仅作为示例但不限于以下组中的一个或多个:当验证迭代次数小于验证迭代阈值时,选择计算机分析,在该验证迭代阈值中,已连续执行计算机/模拟分析以验证候选列表;当确定计算机分析仍将基于先前的特性模型得分而产生用于特性模型的ML得分的改进时,可以选择计算机分析,该先前的特性模型得分是根据在每个化合物候选列表已被验证之后生成的对应预测结果列表计算得出的;所选化合物候选列表具有太大以至于对实验室实验而言成本有效的化合物的大小或数量m(例如,所选化合物候选列表的数量m可以在25至500的范围内),其中m>=1;或验证迭代次数、实验室实验将提供改进的特性模型的指示以及所选化合物候选列表的大小的组合。
用于确定是否执行实验室实验可满足的其它条件可以包括,仅作为示例但不限于,确定所选化合物候选列表是否与先前所选化合物候选列表有实质性变化;响应于确定所选化合物候选列表与先前所选化合物候选列表没有实质性变化,选择对来自所选化合物候选列表的所选化合物子集执行实验室实验。所选化合物子集可以具有成本有效和/或适合实验室实验的大小。可以基于仅作为示例但不限于选择在预测结果列表中具有最不确定得分和/或与标记的训练数据集中的化合物相比也是最不相似的化合物的候选列表中那些化合物,来进一步过滤所选化合物候选列表。
该特性模型可以用于预测多种化合物中的每一种化合物是否具有特定特性,并以预测结果列表的形式输出这些结果。预测列表可以包括映射到对应的一个或多个特性预测值/得分的一种或多种化合物,该特性预测值/得分可以由特性模型针对每种化合物输出。赋予每种化合物的每个特性预测值/得分都指示该化合物是否与特定特性相关联。这可以通过将多种化合物中的每一种化合物输入到特性模型中并将从特性模型输出的结果收集到预测结果列表中来实现。预测结果列表可以包括,仅作为示例但不限于,针对多种化合物中的每一种化合物的特性预测得分或预测得分,其指示所述每种化合物是否具有或表现出特定特性。多种化合物可包括在标记的训练数据集中用于生成特性模型的化合物的子集。这允许评估特性模型的质量并生成ML得分。多种化合物还包括不在用于生成特性模型的标记训练数据集中的一组化合物。预测结果列表因此包括预测得分,该预测得分预测多种化合物中的每一种化合物是否具有或表现出特定特性。
预测结果列表可用于基于每种化合物的预测得分(或特性预测值/得分)和/或每种化合物的结构来选择化合物候选列表。例如,可以基于化合物是否具有指示临界预测得分的预测得分,从预测结果列表中选择用于化合物候选列表的一种或多种化合物。临界预测得分是指示特性模型无法预测化合物是否具有或不具有(表现出或不表现出)特定特性的预测得分。也就是说,特性模型无法指示化合物与特定特性相关联的确定性。
例如,如果化合物具有或表现出特定特性,则预测得分或特性预测得分/值可具有表示为1范围内的概率或100%范围内(例如,在0.85-1的范围内或在85-100%的范围内)的百分比得分的肯定确定性水平。如果已知化合物不具有或不表现出特定特性,则用于该化合物的预测得分可具有表示为0范围内的概率或0%范围内的百分比得分(例如,0-0.15的范围内或0-15%的范围内)的否定确定性水平。具有在肯定确定性水平和否定确定性水平之间的预测得分的化合物可以被认为具有不确定的或临界的预测得分。例如,具有在0.5的范围内的概率或具有在50%的范围内的百分比得分的预测得分(例如,在0.45和0.55之间或在45-55%之间)的那些化合物可以被认为最不确定或最临界。也就是说,特性模型无法以一种方式或另一种方式确定这些化合物是否具有或不具有(表现出或不表现出)特定特性。
因此,可以过滤预测结果列表以输出特性模型最不确定或无法确定地预测它们与特定特性的关联的化合物。因此,可以从预测结果列表中生成基于最不确定或临界情况的一组化合物,并将其用于选择化合物候选列表。例如,可以对具有最大不确定性或临界预测得分的化合物进行排名,并可以为候选列表选择M个最不确定的化合物。可替代地或另外地,可以通过生成一组最不确定的不相似化合物来进一步过滤基于最不确定或临界情况的一组化合物。可以从不确定的或临界化合物的排名列表中选择多个m<=M化合物来选择化合物候选列表,该多个m<=M化合物在结构上与预测得分具有肯定或否定确定性水平的化合物最不相似。可替代地或另外地,化合物候选列表可以基于从不确定或临界化合物的排名列表中选择与构成用于生成特性模型的标记训练数据集的化合物在结构上最不相似的那些化合物。基于该方法选择化合物候选列表可以防止重新训练或更新特性模型而使其过拟合或侧重于特定类型或结构的化合物,并且将允许ML技术的训练来生成可以预测广泛范围的结构上相似和不相似化合物的特性模型。
图1b是示出用于实现根据本发明的图1a的示例过程100的示例训练装置或系统120的示意图。训练装置/系统120包括在反馈循环中耦合在一起的机器学习(ML)模型生成(MLG)设备122、模型测试(MT)设备124和验证模型(VM)设备126,该反馈循环可以迭代或重复,直到特性模型被认为有效训练为止。训练装置120可以被配置为实现图1a的过程100。训练装置120的组件/设备122、124和126中的每一个可以被配置为迭代地实现如上所述的图1a的过程100的一个或多个步骤,以用于迭代地训练ML技术以生成改进的准确的和可靠的特性模型,用于预测化合物是否与特定特性相关联。
最初,对于第一次迭代(例如j=1),MLG设备122接收标记训练数据集{Ti}j(其中1<=i<=N),其中N是训练数据元素的数量(例如1000个或更多的范围内),其中第i个训练数据元素包括表示化合物Ci及其与特定特性的已知关联的数据。MLG设备122使用标记的训练数据集{Ti}j训练ML技术(这可以是预定的),以生成用于第j次迭代的特性模型Mj。特性模型Mj预测输入化合物C1是否具有特定特性。标记的训练数据集{Ti}j可以基于VM设备126是否认为有必要进一步训练来合并进一步的训练数据{Tk}j,并输出验证结果或进一步的训练数据{Tk}j,其可用于增强标记的训练数据集{Ti}j,以训练ML技术在下一次迭代中生成更新的特性模型Mj(例如j=j+1)。
在第j次迭代中,MT设备124接收生成的特性模型Mj,向特性模型Mj输入多种化合物{C1}j,其中1<=1<=L,并且L是多种化合物的数量,并输出的预测结果列表{R1}j(其中1<=1<=L),其中第j次迭代的第1个预测结果R1,j包括,仅作为示例但不限于,表示化合物C1和第j次迭代的预测得分P1,j的数据。预测得分P1,j是表示化合物C1与特定特性相关联的特性模型的Mj预测的值。预测结果列表{R1}j预测多种化合物{C1}j中的每一种化合物是否具有特定特性。对于每次迭代j,取决于是否需要在更广泛范围的化合物上进一步训练特性模型Mj,多种化合物{C1}j的数量可以改变或可以不改变。
VM设备126至少接收预测结果列表{R1}j,并使用该结果列表来验证特性模型Mj是否被有效训练或需要进一步训练。VM设备126还可以接收针对第j个反馈循环的第j次迭代的特性模型得分Sj。可替代地或另外地,VM设备126可以基于预测结果列表{R1}j和/或标记的训练数据集{Ti}j生成用于反馈循环的第j次迭代的特性模型得分Sj。可以针对反馈循环的每次迭代存储和监视特性模型得分Sj。特性模型得分Sj和/或预测结果列表{R1}j可以用于仅作为示例但不限于确定,a)是否如参考过程100和图1a所述需要对特性模型Mj进行进一步训练;b)是否如参考过程100和图1a;c所述使用计算机分析/模拟或使用实验室实验来验证化合物候选列表;c)是否如参考过程100和图1a所述增加或减少化合物候选列表中的化合物数量;d)是否如参考过程100和图1a所述从预测结果列表{R1}j中改变化合物的选择。
VM设备126可以基于ML得分Sj和/或先前的ML得分{Sk}(其中1<=k<j)来确定应该更新特性模型Mj并且需要对ML技术的进一步训练(例如,过程100的步骤106)。这可包括选择可以使用计算机分析或实验室实验验证的化合物候选列表。结果,VM设备126可以输出进一步的训练数据{Tk}j和/或验证结果,该验证结果可以用于生成与所选化合物候选列表相关的进一步的训练数据{Tk}j。MLG设备122可以使用进一步的训练数据{Tk}j或将进一步的训练数据{Tk}j合并到标记的训练数据集{Ti}j中以用于反馈循环的下一次迭代(例如,j=j+1)。因此,当j=j+1时,进一步的训练数据{Tk}j可用于增强标记的训练数据集{Ti}j,用于训练ML技术当j=j+1并且重复由组件/设备122、124和126实现的过程100及其步骤时,在下一迭代上生成更新的特性模型Mj
该迭代过程100可以继续直到VM设备126认为更新的特性模型Mj已被充分训练为止。一旦特性模型Mj已被充分训练,则特性模型Mj可被认为是有效训练的特性模型Mv,以预测化合物是否与特定特性相关联。输出设备128可以生成表示有效特性模型Mv的数据,用于存储特性模型Mv和/或用于使用特性模型Mv来预测化合物是否与特定特性相关联。
可以看出,过程100可用于训练ML技术,以基于标记的训练数据集生成特性模型。这也可以称为训练或更新特性模型。特性模型是体现训练过程100所创建的特性模型的数据的模型人工产物,其导致特性模型Mv,该特性模型Mv被配置用于预测化合物(例如新化合物)是否与特定特性相关联。该化合物的预测得分可以指示该化合物是否具有特定特性,或者该特性模型的预测关于该化合物是否与该特定特性相关联的不确定程度。
输出设备128可以输出表示特性模型Mv的数据,该数据可以包括,仅作为示例但不限于,用于训练ML技术的超参数,在训练ML技术期间生成的权重、系数、参数,定义特性模型Mv的结构或在一个或多个装置、计算系统、设备和/或处理器等上实现特性模型Mv所需的任何其它数据,以使特性模型Mv能够预测化合物是否与特定特性相关联。可以存储特性模型Mv以进行检索,并用于预测化合物是否与特定特性相关联。
用于生成用于预测化合物是否与特定特性相关联的特性模型的训练装置或系统120可以基于可以在软件和/或硬件中实现的功能或模块化组件/模块。系统120可以包括:模型生成模块,用于训练ML技术以生成特性模型;模型测试模块,用于使用特性模型生成用于化合物及其与特定特性的关联的预测结果;验证模块,用于基于从具有与特定特性的关联的预测结果的化合物来验证特性模型;以及模型更新模块,用于基于特性模型验证来更新特性模型。这些模块可以被进一步修改和/或配置为实现如本文所述的方法/过程100和/或多个方法/多个过程。
图2是示出根据本发明的从特性模型输出的示例预测结果列表{R1}j200(其中1<=1<=L)的表,该特性模型用于预测多种化合物{C1}(其中1<=1<=L)是否与特定特性相关联。指示化合物与特定特性C1的关联的特性预测值/得分可以包括表示预测得分P1的数据。预测结果列表{R1}j200包括表示多种化合物{C1}202及其对应预测得分{P1}204(例如,特性预测值/得分)的数据(其中1<=1<=L)。多种化合物{C1}包括化合物C1,C2,...,C1,...,GL-1,CL。对应的多个预测得分{P1}204包括预测得分P1,P2,...,P1,...,PL-1,PL。每个预测得分P1指示所述每种化合物C1是否具有特定特性或与特定特性相关联。验证步骤106可以至少部分地基于预测得分从预测结果列表{R1}j200中选择化合物候选列表。
如前所述,预测得分包括或表示代表值的数据,该值代表或指示预测化合物是否具有或不具有特定特性的ML模型。预测得分可以是值,仅作为示例但不限于,概率值、确定性值或得分、百分比得分,或指示表示化合物是否具有或不具有特定特性的预测或化合物是否表现出或不表现出特定特性的预测,和/或化合物与特定特性如何关联的预测的任何其它值;和/或可用于评估或分类化合物是否与特定特性相关联的任何其它值、得分或统计信息等。
例如,关于化合物C1是否与特定特性相关联的预测得分P1可以被表示为确定性得分值。已知具有特定特性的化合物被给予表示“肯定”确定性得分的值(例如PCP)。已知不具有特定特性的化合物被给予表示“否定”确定性得分的值(例如,PCN)。其它化合物被给予表示“不确定性”得分的值(P1=X1,其中PCN<X1<PCP)。“不确定性”得分可以是连续的实数值,该实数值表示ML模型关于该化合物是否与特定特性相关联的不确定性水平。“不确定性”得分可以具有在表示肯定确定性得分的值和表示否定确定性得分的值之间的连续值(例如,PCN<X1<PCP)。在本示例中,确定性得分表示为百分比确定性得分,其中肯定确定性得分为100%,否定确定性得分为0%,并且不确定性得分介于肯定确定性得分和否定确定性得分之间,即介于0%和100%。
在图2中,预测结果列表{R1}j200基于其预测得分{P1}204对多种化合物{C1}202进行排名。例如,如果化合物具有或表现出特定特性,则预测得分可具有表示为1范围内的概率或100%范围内的百分比得分(例如,在0.85-1的范围内或在85-100%的范围内)的肯定确定性水平。在图2中,C1和C2具有表示为PCP=100%的百分比得分的肯定确定性得分,这意味着ML模型对这些化合物C1和C2具有特定特性有100%的把握。同样,CL-1和CL具有表示为PCN=0%的百分比得分的否定确定性得分,这意味着ML模型对这些化合物GL-1和CL不具有特定特性有100%的把握。可能存在一种或多种或多种化合物{C1},其中预测得分具有在PCN<P1<PCP之间的值P1=X1,其中ML模型对这些化合物是否与特定特性相关联具有连续性置信度。关注的是位于PCN和PCP之间的中间范围(例如45%<P1<55%)的那些化合物,该化合物包括特性模型被预测为最不确定这些化合物是否与特定特性相关联的化合物。这些化合物可能是关注的,以选择可以相对于特定特性进行验证的化合物候选列表。
作为示例,如果合理地已知该化合物具有或确实表现出特定特性,则用于该化合物的预测得分P1可具有表示为在1范围内的概率或100%的范围内的百分比得分(例如,在0.85-1的范围内的概率或在85-100%的范围内的百分比得分)的肯定确定性水平。如果合理地已知该化合物不具有或不表现出特定特性,则用于该化合物的预测得分P1可具有表示为0范围内的概率或0%范围内的百分比得分(例如,0-0.15的范围内的概率或0-15%的范围内的百分比得分)的否定确定性水平。预测得分在肯定确定性水平和否定确定性水平之间的化合物可以被认为具有不确定的或临界的预测得分。例如,具有在0.5的范围内的概率或具有在50%的范围内的百分比得分(例如,在0.45和0.55之间或在45-55%之间)的预测得分的那些化合物可以被认为是最不确定或最临界。也就是说,特性模型无法以一种方式或另一种方式确定这些化合物是否具有或不具有(表现出或不表现出)特定特性。相对于特定特性进行验证并且从而生成进一步标记的训练数据集以更新如本文所述的特性模型的这些化合物令人关注。
图3是示出根据本发明的用于在过程100的每个迭代j中验证特性模型的示例验证装置300的示意图。验证装置300接收预测结果列表{R1}j200,该预测结果列表{R1}j200可以由得分生成器302、模型验证器304和候选列表验证器306使用。得分生成器302基于接收的预测结果列表{R1}j200来计算特性模型得分Sj。模型验证器304可使用特性模型得分Sj来基于特性模型得分Sj和任何先前生成的特性模型得分{Sk}(其中1<=k<j),来确定特性模型是否已被有效地训练。特性模型得分Sj是特性模型预测化合物是否与特定特性相关联的程度的指示。如果模型验证器304认为需要进一步训练,即特性模型没有被有效训练(例如‘N”),则候选列表验证器306选择应当增强特性模型的化合物候选列表(例如,如本文关于图1a-2所述),并且然后验证与特定特性相关的化合物候选列表。候选列表验证器306输出验证结果,该验证结果在该示例中为进一步的训练数据元素{Tk}j的形式,ML技术可使用该训练数据元素在过程100的下一次迭代j=j+1中生成/更新特性模型。
得分生成器302可以使用标记的训练数据集{Ti}j和接收的预测结果列表{R1}j200来计算指示用于第j次迭代的特性模型的性能的特性模型得分Sj。可以基于模型性能统计信息来计算特性模型得分Sj,该模型性能统计信息可以从标记的训练数据集{Ti}j和/或接收的预测结果列表{R1}j200进行估计。模型性能统计信息可以包括或表示基于标记的训练数据集{Ti}j和/或接收的预测结果列表{R1}j200的特性模型的性能的指示。用于特性模型的模型性能统计信息可以基于,仅作为示例但不基于限于以下组中的一个或多个:肯定预测值或特性模型的精度;灵敏度、真实预测率或特性模型的调用;与特性模型相关联的接收机操作特征ROC图;与特性模型相关联的精度和/或调用ROC曲线下的区域;与特性模型的精度和/或调用相关联的任何其它功能;以及用于生成指示特性模型性能的特性模型得分Sj的任何其它模型性能统计信息。
模型验证器304可以使用特性模型得分Si来确定特性模型是否已被有效地训练或者特性模型是否需要进一步的训练。模型验证器304可以使用的先前的或历史的特性模型得分{Sk}(其中1<=k<j),以确定特性模型的质量上的进一步改进是否可能。模型验证器304还可以,仅作为示例但不限于,跟踪已完成的迭代次数j;跟踪使用计算机分析方法对候选列表进行验证的连续次数;跟踪使用实验室实验验证候选列表的次数;在接收的预测结果列表{R1}j200中跟踪不确定化合物的数量。这些措施可用于确定特性模型的质量上的进一步改进是否可能。
例如,如果特性模型得分Sj和{Sk}(其中1<=k<j)达到稳定;使用计算机分析/模拟对所选候选列表进行验证的连续次数大于预定阈值;以及还没有使用实验室实验对所选化合物候选列表进行任何验证;则,如果使用实验室实验验证了所选化合物候选列表,则模型验证器304可以确定进一步的改进是可能的。因此,它可以向候选列表确认器306指示需要进一步的训练,并且选择候选列表以供在使用实验室实验而非计算机分析/模拟进行验证时使用。
在另一个示例中,如果特性模型得分Sj和{Sk}(其中1<=k<j)尚未稳定,但似乎正在增加;使用计算机分析/模拟对所选候选列表进行验证的连续次数小于预定阈值;以及还没有使用实验室实验对所选化合物候选列表进行任何验证;则,模型验证器304可以确定使用采用计算机分析/模拟验证的所选化合物候选列表,仍然有可能进一步改进。因此,它可以向候选列表验证器306指示需要进一步的训练,并且选择了候选列表以供使用计算机分析/模拟进行验证。
在另一个示例中,如果特性模型得分Sj和{Sk}(其中1<=k<j)减小;使用计算机分析/模拟对所选候选列表进行验证的连续次数小于预定阈值;以及还没有使用实验室实验对所选化合物候选列表进行任何验证;则,如果使用实验室实验验证了所选化合物候选列表,则模型验证器304可以确定进一步的改进是可能的。因此,它可以向候选列表确认器306指示需要进一步的训练,并且选择候选列表以供在使用实验室实验而不是计算机分析/模拟进行验证时使用。
候选列表验证器306可以从模型验证器302接收需要进一步训练的指示。候选列表验证器306还可以,仅作为示例但不限于,跟踪已完成的迭代次数j;跟踪使用计算机分析方法对候选列表进行验证的连续次数;跟踪使用实验室实验验证候选列表的次数;跟踪接收的预测结果列表{R1}j200中不确定化合物的数量。这些措施可以发送到模型验证器302,以帮助它在迭代j时做出有关特性模型有效性的决策。它们也可有助于确定可以选择的化合物候选列表的类型和/或数量,以最大化可增强或改进基于验证结果的更新特性模型的质量的机会。可替代地或另外地,候选列表验证器306可以接收候选列表的验证应基于计算机分析/模拟或经由实验室实验来执行的指示。
候选列表验证器306可以选择本文所述的或关于图1a至2和4a-5的化合物的适当候选列表,并经由计算机分析或实验室实验的所选验证方法,相对于特定特性对所选化合物候选列表进行了验证。结果,候选列表验证器306可以将验证结果作为进一步的训练数据{Tk}j输出。如所描述的,进一步的训练数据{Tk}j可以被使用或并入标记的训练数据集{Ti}j中,以在反馈循环的下一次迭代中通过ML技术更新特性模型(例如,j=j+1)。
图4是示出根据本发明的示例验证装置400的示意图,该示例验证装置可以用于代替候选列表验证器306,用于选择和验证用于训练ML技术以生成或更新特性模型的化合物候选列表。确认装置400包括候选列表选择器402、确认选择器404、计算机分析确认器406和实验室确认器408。确认装置400至少接收预测结果列表{R1}j200,并且候选列表选择器402从预测结果列表预测结果列表{R1}j200中选择化合物候选列表{Ck}j,当相对于特定特性进行验证时,该预测结果列表{R1}j200应在训练过程100的下一次迭代上增强特性模型Mi的更新。
如参考图2所述,关注的化合物候选列表{Ck}j可以包括需要相对于特定特性进行进一步验证并且如果正确或明智选择则可用于增强特性模型的准确性和可靠性的化合物。可以至少部分地基于预测得分{P1}从预测结果列表{R1}j200中选择化合物候选列表。预测结果列表{R1}j200中关注的化合物是基于其预测得分被认为是最不确定或最临界的化合物。对于这些化合物,特性模型无法以一种方式或另一种方式确定这些化合物是否具有或不具有(表现出或不表现出)特定特性(例如,预测得分通常在0.45和0.55之间或在45-55%之间)。然而,满足PCN<P1<PCP的任何其它预测得分P1也可以用作被选为化合物候选列表的一部分。
候选列表选择器402可以从已排名的排名预测结果列表{R1}j200中选择化合物,使得列表中最上面的化合物是特性模型最不确定的化合物。生成特性模型无法预测为具有或不具有特定特性的化合物的排名列表,将有助于选择化合物候选列表{Ck}j,该化合物候选列表{Ck}j将增强ML技术的训练以生成更准确和可靠的特性模型。可以以下方式生成排名列表。
假设特性模型Mj可以针对它预测为具有特定特性的所有化合物给出的最大预测得分为X(例如,肯定确定性得分,概率为1或100%的百分比得分),而针对它预测为绝对不具有特定特性的所有化合物的最小预测得分为Y(例如,否定确定性得分,概率为0或0%的百分比得分),其中X>Y。对于输入到特性模型Mj的每种化合物C1,还假定特性模型输出在Y<=P1<=X的范围内的预测得分P1,这提供了特性模型在其预测中化合物具有或不具有特定特性的确定性的指示。预测结果列表{R1}j200可以用于生成特性模型最不确定的化合物的排名列表,该排名列表从最不确定的预测得分到具有肯定或否定确定性水平的最确定的预测得分进行排名。令P1为预测结果列表{R1}j200中第1个化合物的预测得分,其中1<=1<=L。通过从X中减去其预测得分P1,具有预测得分P1>(X+Y)/2的化合物可被给予排名得分SR1,即SR1=X-P1。具有预测得分P1<=(X+Y)/2的化合物可被给予排名得分SR1=P1。因此,预测结果列表的第1个化合物C1在P1>(X+Y)/2时具有排名得分R1=X-P1,或者在Pi<=(X+Y)/2时具有排名得分R1=P1。因此,以排名得分SR1的降序对预测结果列表{R1}j200进行排名将产生化合物的排名列表,其中最上面化合物是特性模型最不确定的化合物。
候选列表选择器402可以基于化合物是否具有指示临界预测得分的预测得分,从预测结果列表{R1}j200中选择用于化合物候选列表的一种或多种化合物。在上述情况下,从预测结果列表{R1}j200中生成化合物的排名列表将有助于确定应该在化合物候选列表中的最不确定的化合物,该排名列表对特性模型最不确定的最上面化合物进行排名。这些最上面化合物可以用于选择用于化合物候选列表的一种或多种化合物,这意味着从具有不确定的预测结果的预测结果列表{R1}j200中选择一种或多种化合物。
尽管在化合物排名列表中最上面化合物可以帮助增强ML技术的训练和特性模型的生成/更新,但是其中的一些可能在结构上与已经用于训练ML技术和生成/更新特性模型Mj的化合物太相似。除了从化合物的排名列表中选择最上面不确定的化合物外或作为替代,还可以通过如下方式来生成候选列表:选择与迄今为止使用的任何标记训练数据中使用的化合物结构上不相似的一种或多种化合物;或从不确定化合物的排名列表的最上面化合物中选择结构上彼此不相似的一种或多种化合物。此外,可以通过从排名列表中选择与迄今为止使用的任何标记的训练数据中使用的化合物在结构上不相似的一种或多种最上面化合物来生成候选列表。
验证选择器404可以被配置为选择验证技术,用于验证与特定特性相关的所选化合物候选列表。如参考图3所描述的,验证选择器还可以,仅作为示例但不限于,跟踪在化合物候选列表{Ck}j中选择的化合物的数量;跟踪在化合物候选列表中不相似化合物的类型或数量;跟踪已完成的迭代次数j;跟踪使用计算机分析/模拟对候选列表进行验证的连续次数;跟踪使用实验室实验验证候选列表的次数;跟踪接收的预测结果列表{R1}j200中的不确定化合物的数量;以及跟踪特性模型得分Sj。这些措施可用于确定是选择计算机分析/模拟来验证候选列表,还是选择实验室实验来验证候选列表。它们也可有助于确定可以选择的化合物候选列表{Ck}j的类型和/或数量,以最大化可增强或改进基于验证结果的更新特性模型的质量的机会。
例如,验证选择器404可以基于以下组中的一个或多个来确定执行计算机分析/模拟:超过验证迭代阈值的验证迭代次数,在该验证迭代阈值中已经连续地执行了模拟分析以验证候选列表,其中连续执行模拟分析的验证迭代次数大于执行实验室分析的验证迭代次数;模拟分析将基于先前的特性模型得分而对特性模型的ML得分进行改进的指示,该先前的特性模型得分是根据每个化合物候选列表已被验证之后生成的对应预测结果列表计算得出的;或对验证迭代次数与模拟分析将提供改进的特性模型的指示的结合。
此外,可以使用计算机分析/模拟相对于特定特性验证的化合物的数量显著地取决于可用的计算资源。通常,可以在合理的时间内模拟的化合物的数量可以在50-500个化合物之间(例如50-100)。应当理解,相对于特定特性可以模拟的化合物的数量取决于可用的计算资源,并且可以模拟的化合物的数量将随着计算资源增加而增加,并且变得更便宜和更快。通常,可以使用实验室实验相对于特定特性验证的化合物的数量m处于4至10种化合物(例如,6-8个实验)的量级。这是因为在运行实验的实验室时间方面是昂贵的,并且在所需的费用方面是昂贵的。因此,如果正在使用计算机分析/模拟进行验证,则可以将化合物候选列表中化合物的数量m选择为比当使用实验室实验验证时可以使用的化合物候选列表中的化合物数量m大一个、两个或若干数量级。因此,确认选择器404和候选列表选择器402可以彼此通信,以确定可以被确认的化合物{Ck}j的候选列表的最大大小。可替代地,候选列表选择器402可以简单地将化合物候选列表发送到验证选择器404,并且基于选择的验证方法,验证选择器404可以在必要时截断化合物候选列表{Ck}j以确保通过所选验证方法(例如计算机分析/模拟或实验室实验)对适当数量的化合物进行验证。
例如,验证选择器404可以被配置为经由选择器VT或一些其它技术/方法来指示选择计算机分析/模拟,使得化合物候选列表{Ck}j被指导/请求为由用于验证化合物候选列表的计算机分析验证器406处理。计算机分析验证器406可以连接到一个或多个计算机分析/模拟系统(例如,分子动力学(MD)(RTM)分子模拟器),该计算机分析/模拟系统可以在原子尺度上模拟化合物是否具有或表现出特定特性。例如,MD模拟器使用分子的原子和/或物理模拟来模拟化合物/分子的特性。可以通过MD模拟的化合物的特性类型包括,仅作为示例但不限于,包括与化合物对接的蛋白质的对接模拟,和/或可以模拟以确定化合物是否具有特定特性的任何其它特性或化合物。
计算机分析/模拟器验证器406通过将候选列表发送到基于特定特性和化合物候选列表{Ck}j来执行计算机分析/模拟分析的计算机分析/模拟系统来验证候选列表。计算机分析/模拟器验证器406可以从计算机分析/模拟系统接收计算机分析/模拟结果。计算机分析/模拟结果可用于估计化合物候选列表上的每种化合物与特定特性的关联。与化合物候选列表{Ck}j相关联的计算机分析/模拟结果可以以标记的训练数据集{Tk}j C的形式输出,该训练数据集{Tk}j C可以用于生成进一步的训练数据集{Tk}j,如本文所述,以供ML技术针对过程100的下一次迭代生成/更新特性模型Mj时使用。选择器VT可以用于选择标记的训练数据集{Tk}j C作为进一步的训练数据集{Tk}j,用于训练ML技术针对过程100的下一次迭代生成/更新特性模型Mj
在另一示例中,验证选择器404可以被配置为经由选择器VT或一些其它技术/方法来指示选择实验室实验,使得化合物候选列表{Ck}j被指导/请求为由用于验证化合物候选列表的实验室验证器408处理。实验室验证器408可以连接到与一个或多个实验室相关联的一个或多个计算机系统,该计算机系统可以接收化合物候选列表并关于候选列表中每种化合物是否具有或表现出特定特性执行实验室实验。与化合物候选列表{Ck}j相关联的实验结果可以以标记的训练数据集{Tk}j L的形式输出。
可替代地,实验室验证器408可以将化合物候选列表和用于实验室实验的特定特性通知操作员。操作员可以发送化合物候选列表,并要求实验室执行实验以确定化合物候选列表中每一种化合物是否具有或表现出特定特性。在实验结束后,可以将与化合物候选列表相关联的实验结果和/或进一步的训练数据以及每种化合物是否具有特定特性或与特定特性相关联的实验结果和/或进一步的训练数据发送到实验室验证器408。
实验室验证器408可以在接收到与化合物候选列表相关的实验结果或训练数据及其与特定特性的关联时,被配置为基于与化合物候选列表相对应的实验结果输出标记的训练数据集{Tk}j L。标记的训练数据集{Tk}j L可以用作进一步的训练数据{Tk}j,如本文所述,以供ML技术针对过程100的下一次迭代(例如,j=j+1)生成/更新特性模型Mj时使用。选择器VT可以用于选择标记的训练数据集{Tk}j L作为进一步的训练数据集{Tk}j,用于训练ML技术针对过程100的下一次迭代生成/更新特性模型Mj
尽管选择器VT被示为在计算机分析/模拟器验证器406和实验室验证器408之间进行切换的切换电路,但这仅是示例性的,并且本发明不限于此,应理解,本领域技术人员可以使用任何其它方法、技术、装置或硬件/软件,以通过计算机分析/模拟器验证器406和/或实验室验证器408相对于特定特性在其之间选择和/或指导/请求待处理化合物候选列表。
验证选择器404用于确定是否执行实验室实验的进一步考虑可以基于以下组中的一个或多个:超过验证迭代阈值的验证迭代次数,在该验证迭代阈值中已连续执行模拟分析以验证候选列表;实验室分析将基于先前的特性模型得分而对特性模型的ML得分进行改进的指示,该先前的特性模型得分是根据每个化合物候选列表已被验证之后生成的对应预测结果列表计算得出的;和/或对验证迭代次数与实验室实验将提供改进的特性模型的指示的结合。
尽管可以导出一组选择和/或验证规则以选择化合物候选列表和/或选择本文所述的用于验证化合物候选列表的验证方法,但是可以替代地基于训练强化学习技术来生成选择模型。选择模型用于预测适合相对于特定特性验证的化合物候选列表。因此,代替使用一组选择规则来选择特性模型不确定的化合物的适当候选列表,可以随时间推移训练RL技术以进行该选择。一旦RL技术学会选择用于增强特性模型的化合物候选列表,生成的选择模型就可以用于训练特性模型,该特性模型用于预测化合物是否表现出或具有与特定特性不同的特性。这是因为选择模型不取决于每个特性模型要建模预测的特性类型。
可以训练RL技术以从结果预测列表中学习选择哪些化合物,以便使选择的质量最大化并生成选择模型。当所选化合物候选列表是从该特定结果预测列表中挑选的最优化合物时,选择的质量将最大化,当相对于特定特性对该特定结果预测列表进行验证时,可以最大化所得的更新特性模型的质量。RL技术可用于迭代训练选择模型,该选择模型足够鲁棒以从结果预测列表中选择最合适或最优的化合物候选列表,以相对于特定特性进行验证。用于选择模型的训练过程可以基于以下内容:
最初,在ML训练过程的第一次迭代(例如j=1)中,可以通过基于第一组标记的训练数据集训练ML技术来生成特性模型。第一组标记的训练数据集可用于训练ML技术以生成特性模型,而第二组标记的训练数据集可保留在一边以评估特性模型的质量。一旦通过ML技术对特性模型进行了训练,就将第二组标记的训练数据集输入到特性模型中,并输出预测结果列表。同样,可以基于预测结果列表和/或第二组标记的训练数据集来导出特性模型得分Sj,以评估特性模型的质量。可以教导RL技术,预测结果列表中的哪些化合物可以最优选择以进行验证,并且从而生成选择模型。最初,通过RL技术训练的选择模型可以从结果预测列表中选择一组“随机”化合物作为化合物候选列表。选择模型训练过程进行到下一次迭代(例如j=j+1)。
在第二次迭代中(例如j=2),可以基于第一组标记的训练数据集以及第二组标记的训练数据集的与在上一次迭代中由RL技术训练的选择模型选择的化合物的所选候选列表相对应的的所选部分,对特性模型进行重新训练。一旦通过ML技术对特性模型进行了重新训练或更新,就将第二组标记的训练数据集输入到特性模型,并输出预测结果列表。可以基于预测结果列表和/或第二组标记的训练数据集导出另一个特性模型得分Sj,以评估特性模型的质量。可以将来自先前迭代(例如,k=j-1)的特性模型得分{Sk}(1<=k<j)与当前迭代的特性模型得分Sj进行比较。然后可以保留/保持重新训练或更新的特性模型,以进行训练选择模型的另一迭代。如果特性模型的性能在质量/准确性上有所改进,则可以将其反馈给RL技术作为奖励。可以基于奖励来更新/重新训练与RL技术相关联的选择模型。然后,使用选择模型从结果预测列表中选择另一组化合物作为要验证的化合物候选列表。选择模型训练过程进行到下一次迭代(例如j=j+1)。
然而,如果比较结果导致特性模型的性能在质量/准确性上没有改进,则这将作为惩罚被反馈给RL技术。可以基于惩罚来更新/重新训练与RL技术相关联的选择模型。鉴于特性模型的性能已变差,可以在特性模型具有不良性能之前将其恢复为先前的保留/保持的特性模型。然后,选择模型可用于从结果预测列表中选择另一组化合物作为化合物候选列表以进行验证。选择模型训练过程进行到下一次迭代(例如j=j+1)。
一旦ML得分{Sk}(1<=k<=j)指示ML技术的性能已经稳定,则可以假设选择模型已被训练。然后,可以如参考图1a-4所述对特性模型进行进一步训练,在该附图中可以将大多数特性模型以前从未见过的多种化合物输入到特性模型,以生成预测结果列表,在该预测结果列表中,选择模型可用于选择化合物候选列表以进行验证。如所描述的,验证结果可以用于进一步更新特性模型,并且因此迭代地进一步改进特性模型。在该过程中(例如过程100),还可以基于上述训练选择过程进一步训练选择模型,但是其中每个所选化合物候选列表都使用计算机分析/模拟和/或在极少数情况下使用实验室实验来验证。可以计算ML得分以允许RL技术在重新训练期间奖励或惩罚选择模型。
图5是示出根据本发明的用于训练选择模型以选择用于图1a-4中的化合物候选列表的另一示例过程500的流程图。选择模型最初可以通过如前所述的RL技术训练,其中标记的训练数据集的第一部分用于训练特性模型,而标记的训练数据集的第二部分用于评估特性模型以生成预测结果列表和特性模型得分Sj,用于初始训练RL技术以生成/训练选择模型。
过程500可以包括以下步骤,用于训练或重新训练RL技术以生成选择模型,该选择模型可以基于从特性模型Mj和/或特性模型得分Sj输出的结果预测列表更好地预测化合物候选列表。在步骤502中,选择模型可以用于从特性模型Mj输出的预测结果列表中选择用于化合物候选列表的一组化合物,以验证化合物候选列表。在步骤504中,选择模型发送所选化合物候选列表用于验证。
计算机分析/模拟可用于验证每个所选化合物候选列表是否具有特定特性。有时,如本文所述,可以确定经由实验室实验来验证一些或全部所选化合物候选列表。可基于ML技术、标记的训练数据集以及验证的化合物候选列表来更新特性模型。也就是说,验证的化合物候选列表可以表示为与化合物候选列表相关联的进一步的标记的训练数据集,其可以用于进一步训练ML技术以产生/更新特性模型。可以将多种化合物{C1}(1<=1<=L)输入到更新的特性模型,并且可以输出或生成预测结果列表{R1}j和ML得分Sj。也就是说,可以基于输入到更新的特性模型的多种化合物{C1}(1<=1<=L)来生成ML得分Sj和进一步的预测结果列表{R1}j
在步骤506中,通过RL技术/选择模型接收用于当前迭代j的预测结果列表{R1}j和ML得分Sj。在步骤508中,基于ML得分Sj和先前的ML得分{Sk}(其中1<=k<j),确定是否重新训练选择模型以选择用于化合物候选列表的一组化合物。例如,可以将来自先前迭代(例如,k=j-1)的特性模型得分{Sk}(其中1<=k<j)与当前迭代的特性模型得分Sj进行比较。如果特性模型的性能在质量/准确性上有所改进,则可以将其反馈给RL技术作为奖励,并且可以重新训练选择模型(例如“Y”)。然后可以保留/保持更新的特性模型,以用于训练选择模型的另一迭代。在步骤510中,可以基于奖励来更新/重新训练与RL技术相关联的选择模型。选择模型训练过程500进行到下一次迭代(例如,j=j+1),并且然后可以在步骤502中使用重新训练的选择模型,以从结果预测列表中选择另一组化合物作为化合物候选列表以进行验证。
在步骤508中,如果ML得分Sj与先前的ML得分{Sk}(其中1<=k<j)之间的比较导致当前迭代中特性模型的性能在质量/准确性上没有改进,则将其反馈给RL技术作为惩罚,并且可以重新训练选择模型(例如,“Y”)。在步骤510中,可以基于惩罚来更新/重新训练与RL技术相关联的选择模型。鉴于特性模型的性能已变差,可以在性能模型具有不良性能之前将其恢复为先前保留/保持的特性模型。选择模型训练过程500可以进行到下一次迭代(例如,j=j+1),并且然后可以在步骤502中使用重新训练的选择模型来从结果预测列表中选择另一组化合物作为化合物候选列表以进行验证。
在步骤508中,可以确定选择模型已被完全训练,并且进一步的训练未必会改进化合物候选列表的选择。例如,如果在预测特性模型中看不到任何改进,则可以认为选择模型已被训练,并且可能不需要进一步的训练。例如,一种确定选择模型是否充分训练的方法可以包括检查发送到实验室中以进行测试和/或通过计算机模拟的所选化合物候选列表是否没有使通过基于实验室或计算机模拟结果重新训练ML技术而生成的任何后续预测特性模型更差和/或相同。将先前的特性模型得分与当前重新训练的特性模型得分进行比较可能对确定选择模型是否可以被认为充分训练有用。例如,当将更新的特性模型得分与先前的保留/保持的特性模型得分进行比较指示特性模型得分的稳定值时,可以认为选择模型已被训练,
对过程500的其它修改可包括响应于在步骤510中确定重新训练选择模型,当ML得分与对应的先前ML得分相比未达到特性模型性能阈值时,可以将更新的特性模型恢复为先前的特性模型。可替代地或另外地,在步骤510中,当ML得分指示与对应的先前ML得分相比满足或超过了特性模型性能阈值时,可以保留更新的特性模型而不是由先前训练的特性模型代替。
可以进行进一步的修改,以允许通过RL技术训练选择模型,以不仅选择化合物候选列表,而且还可以选择使用计算机分析/模拟和/或实验室实验的验证方法。给定执行实验室实验的成本,当选择模型在训练过程中太早选择验证方法作为实验室实验时,或者当仍需要使用计算机分析/模拟进行改进时,最好包括惩罚RL技术的规则。
图6是包括根据本发明的计算装置或设备602的计算系统600的示意图。计算装置或设备602可以包括处理器单元604、存储器单元606和通信接口608。处理器单元604连接到存储器单元606和通信接口608。存储器单元406可以包括操作系统(OS)和数据存储区(DS),该数据存储区(DS)可包括其它应用和/或软件,诸如仅作为示例但不限于,计算机实现的方法、过程和/或用于实现参考图1a至图5如本文所述的方法和/或过程的指令代码。处理器单元604和存储器606可以被配置为实现一个或多个过程100、500和/或如本文所述的一个或多个步骤。处理器单元604可以包括根据本发明的一个或多个处理器、控制器,或用于实现对控制装置602的计算机可执行指令的任何合适类型的硬件。计算装置602可以经由通信接口608连接到网络612,用于与其它计算装置/系统(未示出)通信和/或操作,以相应地实现本发明。
计算系统600可以是服务器系统,该服务器系统可以包括被配置为实现如本文所述的本发明的单个服务器或服务器网络。在一些示例中,服务器的功能可以由跨地理区域分布的服务器网络(诸如服务器的全球分布式网络)提供,并且用户可以基于用户位置连接到服务器网络中的适当一个服务器网络。
进一步的修改或示例可以包括计算机实现的方法或使用根据如参考任何一个或多个图1a至6所述和/或如本文所述等的过程100、130、500和/或装置/系统120、300、400、600和/或任何方法/过程、其修改中的任何一个而训练和/或生成的模型(例如特性模型)用于预测化合物是否具有特定特性的方法。进一步的修改或示例可以包括计算机实现的方法或用于根据如参考任何一个或多个图1a至图6所述和/或如本文所述等的过程100、130、500和/或装置/系统120、300、400、600和/或任何方法/过程、其修改中的任何一个来生成用于预测化合物是否具有特定特性的特性模型的方法。
一种装置或计算设备602包括处理器604(或处理器单元)、存储器单元606和/或通信接口608,其中处理器604可以连接到存储器单元606和/或通信接口608,其中处理器604、通信接口608和/或存储器单元606被配置为实现用于使用模型(例如特性模型)来预测化合物是否具有特定特性的计算机实现的方法。可替代地或另外地,装置或计算设备602的处理器604、通信接口608和/或存储器单元606可以被配置为实现用于生成或训练用于预测化合物是否具有特定特性的特性模型的计算机实现的方法。
其它修改或示例可以包括用于基于ML技术(例如RL技术或任何其它ML技术)生成特性模型的系统,该特性模型被配置为预测化合物是否与特定特性相关联。该系统可以包括:模型生成模块、设备或装置,其如参考任何一个或多个图1a至图6所述,根据过程100、130、500和/或装置/系统120、300、400、600和/或任何方法/过程、这些过程的步骤、其修改中的任何一个来配置,该模型生成模块被配置为训练ML技术以生成特性模型;模型测试模块,其被配置为使用特性模型来生成用于化合物及其与特定特性的关联的预测结果;验证模块,其用于基于来自具有与特定特性的关联的预测结果的化合物来验证特性模型;以及模型更新模块,其用于基于特性模型验证来更新特性模型。
该系统可以包括,如参考任何一个或多个图1a至图6所述和/或如本文所述的,过程100、130、500和/或装置/系统120、300、400、600、其计算机实现的方法和/或其修改的一个或多个进一步的修改、特征、步骤和/或特征。例如,模型生成模块/设备、模型测试模块/设备、验证模块/设备和/或模型更新模块/设备可以被配置为,如参考任何一个或多个图1a至图6所述和/或如本文所述,实现过程100、130、500和/或装置/系统120、300、400、600、其计算机实现的方法和/或其修改的一个或多个进一步的修改、特征、步骤和/或特征。
此外,如参考任何一个或多个图1a至图6所述,过程100、130、500和/或装置/系统120、300、400、600和/或任何方法/过程、这些过程的步骤、其修改可以以硬件和/或软件实现。例如,用于训练和/或实现特性模型和/或用于使用参考图1a-6中的一个或多个图描述的特性模型的方法和/或过程可以以硬件和/或软件实现,诸如仅作为示例但不限于,作为由一个或多个处理器/处理器单元的计算机实现方法或根据应用要求。此类装置、系统、过程和/或方法可以用于生成ML模型,该ML模型包括表示通过训练ML技术(如关于过程100、130、500和/或装置/系统120、300、400、600和/或任何方法/过程、这些过程的步骤所述,如参考任何一个或多个图1a至6及其修改所述,和/或如本文所述等)生成的ML模型的数据。因此,可以从如本文所述的装置、系统和/或计算机实现的过程、方法获得ML模型或特性模型。
此外,如参考任何一个或多个图1a至6及其修改所述,和/或如本文所述等,还可以从过程100、130、500和/或装置/系统120、300、400、600和/或任何方法/过程、这些过程的步骤及其修改获得ML选择和/或验证模型,其中的一些可以以硬件和/或软件实现,诸如仅作为示例但不限于,可以在处理器或处理器单元上执行或根据应用需求执行的计算机实现的方法,如参考一个或多个图1a-6及其修改所述,和/或如本文所述等。在另一个示例中,一种计算机可读介质,该计算机可读介质包括表示基于训练关于过程100、130、500和/或装置/系统120、300、400、600和/或任何方法/过程、这些方法的步骤描述的ML技术而生成的ML模型和/或特性模型的数据或指令代码,如参考任何一个或多个图1a至6及其修改所述,和/或如本文所述等,该数据或指令代码当在处理器上执行时使处理器实现ML模型和/或特性模型。
为了清楚起见,以上描述参考单个用户讨论了本发明的实施例。将理解,实际上,该系统可以由多个用户共享,并且可能同时由非常多的用户共享。
上述实施例是全自动的。在一些示例中,系统的用户或操作员可以手动指示要执行的过程/方法的一些步骤。
在所描述的本发明的实施例中,系统可以被实现为任何形式的计算和/或电子设备。此类设备可以包括一个或多个处理器,该处理器可以是微处理器、控制器或任何其它合适类型的处理器,用于处理计算机可执行指令以控制设备的操作以便收集和记录路由信息。在一些示例中,例如在使用片上系统架构的情况下,处理器可以包括一个或多个固定功能块(也称为加速器),该固定功能块以硬件(而不是软件或固件)实现方法的一部分。可以在基于计算的设备处提供包括操作系统的平台软件或任何其它合适的平台软件,以使应用软件能够在该设备上执行。
本文描述的各种功能可以以硬件、软件或其任何组合来实现。如果以软件实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输。计算机可读介质可以包括例如计算机可读存储介质。计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性或非易失性的可移动或不可移动介质。计算机可读存储介质可以是计算机可以访问的任何可用存储介质。作为示例而非限制,此类计算机可读存储介质可以包括RAM、ROM、EEPROM、闪存或其它存储器设备、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储设备,或可以用于以指令或数据结构形式携带或存储所需程序代码并且可以由计算机访问的任何其它介质。如本文所使用的,磁盘和盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘(BD)。此外,传播的信号不包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质,该通信介质包括有助于将计算机程序从一个地方转移到另一地方的任何介质。连接体例如可以是通信介质。例如,如果使用同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电和微波)从网站、服务器或其它远程源传输软件,则将被包括在通信介质的定义中。上述的组合也应包括在计算机可读介质的范围内。
可替代地或另外地,本文描述的功能可以至少部分地由一个或多个硬件逻辑组件执行。例如但不限于,可以使用的硬件逻辑组件可以包括现场可编程门阵列(FPGA)、特定于程序的集成电路(ASIC)、特定于程序的标准产品(ASSP)、片上系统系统(SOC)、复杂的可编程逻辑器件(CPLD)等。
尽管示出为单个系统,但是应当理解,计算设备可以是分布式系统。因此,例如,多个设备可以通过网络连接进行通信,并且可以共同执行被描述为由计算设备执行的任务。
尽管被示为本地设备,但是应当理解,计算设备可以位于远程并且可以经由网络或其它通信链路(例如,使用通信接口)来访问。本文使用的术语“计算机”是指具有处理能力的任何设备,使得其可以执行指令。本领域技术人员将意识到,此类处理能力被结合到许多不同的设备中,并且因此术语“计算机”包括PC、服务器、移动电话、个人数字助理和许多其它设备。
本领域技术人员将认识到,用于存储程序指令的存储设备可以跨网络分布。例如,远程计算机可以将描述为软件的过程的示例存储。本地或终端计算机可以访问远程计算机并下载部分或全部软件以运行程序。可替代地,本地计算机可以根据需要下载软件,或者在本地终端执行一些软件指令,而在远程计算机(或计算机网络)执行一些软件指令。本领域技术人员还将认识到,通过利用本领域技术人员已知的传统技术,全部或部分软件指令可以由诸如DSP、可编程逻辑阵列等的专用电路来执行。
将理解,上述益处和优点可以涉及一个实施例或可以涉及若干实施例。实施例不限于解决任何或所有所述问题的实施例或具有任何或所有所述益处和优点的实施例。变型应被认为包括在本发明的范围内。
对“一个”项目的任何引用是指那些项目中的一个或多个。术语“包括”在本文中用来表示包括所标识的方法步骤或元件,但是此类步骤或元件不包括排他性列表,并且方法或装置可以包含附加的步骤或元件。如本文所使用的,术语“组件”和“系统”旨在涵盖配置有计算机可执行指令的计算机可读数据存储,该计算机可执行指令在由处理器执行时使某些功能被执行。计算机可执行指令可以包括例程、函数等。还应理解,组件或系统可以位于单个设备上或横跨多个设备分布。此外,如本文所使用的,术语“示例性”旨在表示“用作某些事物的说明或示例”。
此外,对于详细描述或权利要求书中使用术语“包括”的程度,此类术语旨在以与术语“包含”相似的方式被包括在内,因为当在权利要求中被用作过渡词时解释为“包含”。
附图示出了示例性方法。尽管该方法被示出和描述为以特定顺序执行的一系列动作,但是应当了解和理解,该方法不受序列的顺序限制。例如,一些动作可能以与本文所述不同的顺序发生。另外,一个动作可以与另一个动作同时发生。此外,在一些情况下,实现本文描述的方法可能不需要所有动作。
此外,本文描述的动作可以包括可以由一个或多个处理器实现和/或存储在一个或多个计算机可读介质上的计算机可执行指令。所述计算机可执行指令可以包括例程、子例程、程序、执行线程等。更进一步,该方法的动作的结果可以被存储在计算机可读介质中,显示在显示设备上等等。
本文描述的方法的步骤的顺序是示例性的,但是这些步骤可以以任何合适的顺序执行,或者在合适的情况下同时执行。另外,可以在不背离本文所述主题的范围的情况下,从任何方法中添加或替换步骤,或者可以删除单个步骤。上述任何示例的方面可以与所描述的任何其它示例的方面结合以形成其它示例,而不会失去所寻求的效果。
将理解的是,优选实施方式的以上描述仅通过示例的方式给出,并且本领域技术人员可以做出各种修改。上面已经描述的内容包括一个或多个实施例的示例。当然,不可能为了描述上述方面而描述上述设备或方法的每一种可能的修改和变更,但是本领域的普通技术人员可以认识到,各个方面的许多进一步的修改和置换是可能的。因此,所描述的方面旨在涵盖落入所附权利要求的范围内的所有此类变更、修改和变化。

Claims (37)

1.一种用于生成特性模型的计算机实现的方法,所述特性模型用于预测化合物是否与特定特性相关联,所述方法包括:
训练机器学习ML技术以生成所述特性模型;
使用所述特性模型生成用于一种或多种化合物及其与所述特定特性的关联的预测结果;
基于来自具有与所述特定特性的关联的所述预测结果的所述一种或多种化合物来验证所述特性模型;以及
基于所述特性模型验证来更新所述特性模型。
2.根据权利要求1所述的计算机实现的方法,进一步包括:使用所述更新的特性模型至少重复所述生成和验证步骤,直到确定所述特性模型已被有效地训练为止。
3.根据权利要求1或2所述的计算机实现的方法,所述方法进一步包括:
使用所述特性模型生成用于多种化合物及其与所述特定特性的关联的预测结果;以及
基于来自具有与所述特定特性的关联的所述预测结果列表的所述化合物来验证所述特性模型。
4.根据前述权利要求中任一项所述的计算机实现的方法,其中,基于与所述特定特性相关的多种化合物的子集相关联的标记的训练数据集,对所述ML技术进行初始训练。
5.根据前述权利要求中任一项所述的计算机实现的方法,其中:
验证所述特性模型进一步包括:从具有与所述特定特性的关联的所述预测结果列表中验证化合物候选列表;以及
更新所述特性模型进一步包括:基于采用包括所述验证的化合物候选列表的标记的训练数据集训练所述ML技术来更新所述特性模型。
6.根据权利要求5所述的计算机实现的方法,其中,更新所述特性模型进一步包括:
基于所述验证的化合物候选列表和与所述特定特性相关联的任何先前标记的训练数据集,生成另一个标记的训练数据集;以及
基于所述生成的标记训练数据集重新训练所述ML技术。
7.根据权利要求5或6中任一项所述的计算机实现的方法,其中,验证所述化合物候选列表进一步包括:
基于所述特定特性和所述化合物候选列表确定是否执行实验室实验;以及
响应于确定执行实验室实验,使用来自所述实验室实验的实验结果来估计所述化合物候选列表上的每种化合物与所述特定特性的所述关联。
8.根据权利要求7所述的计算机实现的方法,其中,确定执行实验室实验是基于以下组中的一个或多个:
超过验证迭代阈值的验证迭代次数,在所述验证迭代阈值中已连续执行模拟分析以验证所述候选列表;
实验室分析将基于先前的特性模型得分而对所述特性模型的ML得分进行改进的指示,所述先前的特性模型得分是根据每个化合物候选列表已被验证之后生成的对应预测结果列表计算得出的;或
对验证迭代次数与实验室实验将提供改进的特性模型的指示的组合。
9.根据权利要求7或8所述的计算机实现的方法,其中,确定是否执行实验室实验进一步包括:
确定所选化合物候选列表是否与先前所选化合物候选列表有实质性变化;
响应于确定所述所选化合物候选列表与所述先前所选化合物候选列表没有实质性变化,选择对来自所述所选化合物候选列表的所选化合物子集执行实验室实验。
10.根据权利要求5至9中任一项所述的计算机实现的方法,其中,验证所述候选列表进一步包括:
基于所述特定特性和所述化合物列表确定是否执行模拟分析;以及
响应于确定执行模拟分析,使用来自所述模拟分析的模拟结果来估计所述化合物候选列表上的每种化合物与所述特定特性的所述关联。
11.根据权利要求10所述的计算机实现的方法,其中,确定执行模拟分析是基于以下组中的一个或多个:
超过验证迭代阈值的验证迭代次数,在所述验证迭代阈值中已连续执行模拟分析以验证所述候选列表;
模拟分析将基于先前的特性模型得分而对所述特性模型的ML得分进行改进的指示,所述先前的特性模型得分是根据每个化合物候选列表已被验证之后生成的对应预测结果列表计算得出的;或
对验证迭代次数与模拟分析将提供改进的特性模型的指示的组合。
12.根据权利要求10或11所述的计算机实现的方法,其中,其中连续执行模拟分析的所述验证迭代次数大于其中执行实验室分析的所述验证迭代次数。
13.根据权利要求12所述的计算机实现的方法,其中,对于其中连续地执行模拟分析的多个生成和验证迭代中的每一个,执行一次实验室分析。
14.根据权利要求5至13中任一项所述的计算机实现的方法,其中,所述预测结果列表包括所述每种化合物是否具有所述特定特性的预测得分,所述方法进一步包括至少部分地基于所述预测得分从所述预测结果列表中选择所述化合物候选列表。
15.根据权利要求14所述的计算机实现的方法,其中,验证所述化合物候选列表进一步包括基于化合物是否具有指示临界预测得分的预测得分,从所述预测结果列表中选择用于所述化合物候选列表的一种或多种化合物。
16.根据权利要求15所述的计算机实现的方法,其中,所述预测得分包括确定性得分,其中,将已知具有所述特定特性的化合物给予肯定确定性得分,将已知不具有所述特定特性的化合物给予否定确定性得分,并且将其它化合物给予所述肯定确定性得分和否定确定性得分之间的不确定性得分。
17.根据权利要求16所述的计算机实现的方法,其中,所述确定性得分是百分比确定性得分,其中,所述肯定确定性得分是100%,所述否定确定性得分是0%,并且所述不确定性得分在所述肯定确定性得分和否定确定性得分之间。
18.根据权利要求5至15中任一项所述的计算机实现的方法,其中,从所述预测结果列表中选择所述化合物候选列表进一步包括选择具有不确定预测结果的一种或多种化合物。
19.根据权利要求5至18中任一项所述的计算机实现的方法,其中,从所述预测结果列表中选择所述化合物候选列表进一步包括:选择与迄今为止所使用的任何标记的训练数据中所使用的所述化合物不相似的一种或多种化合物。
20.根据权利要求5至19中任一项所述的计算机实现的方法,其中,从所述预测结果列表中选择所述化合物候选列表进一步包括:使用选择模型以从所述预测结果列表中选择所述化合物候选列表,其中,所述选择模型通过训练强化学习RL技术生成。
21.根据权利要求20所述的计算机实现的方法,其中,基于所述RL技术生成所述选择模型进一步包括:
使用所述选择模型,从用于验证的所述预测结果列表中选择用于所述化合物候选列表的一组化合物;
验证所选化合物候选列表是否具有所述特定特性;以及
基于所述ML技术和所述验证的化合物候选列表来更新所述特性模型;
基于所述更新的特性模型生成ML得分和进一步的预测结果列表;以及
基于所述ML得分和先前的ML得分,确定是否重新训练所述选择模型以选择用于所述化合物候选列表的一组化合物。
22.根据权利要求21所述的计算机实现的方法,响应于确定重新训练所述选择模型,所述方法进一步包括:
当所述ML得分与所述对应的先前ML得分相比未达到特性模型性能阈值时,将所述更新的特性模型恢复为先前的特性模型;
当所述ML得分指示与所述对应的先前ML得分相比满足或超过了所述特性模型性能阈值时,将所述更新的特性模型保留为先前训练的特性模型;以及
重新训练所述选择模型以基于所述ML得分从所述对应的预测结果列表中选择一组化合物;以及
重复权利要求21的所述步骤,直到确定所述选择模型被训练为止。
23.根据权利要求22所述的计算机实现的方法,其中,确定训练所述选择模型进一步包括:
比较所述保留的特性模型得分与先前的保留的特性模型得分;以及
基于特性模型得分的稳定值,确定所述选择模型已被有效地训练。
24.根据权利要求5至23中任一项所述的计算机实现的方法,其中,确定所述特性模型是否已经被有效地训练进一步包括:基于不需要进一步验证候选列表的指示来确定所述特性模型已被有效地训练。
25.根据前述权利要求中任一项所述的计算机实现的方法,其中,验证所述特性模型进一步包括:
基于所述预测结果列表生成特性模型得分;
基于所述特性模型得分和先前的特性模型得分来确定所述特性模型是否已被有效地训练。
26.根据权利要求25所述的计算机实现的方法,其中,确定所述特性模型是否已被有效地训练包括:基于特性模型得分的稳定值来确定所述特性模型已被有效地训练。
27.根据前述权利要求中任一项所述的计算机实现的方法,其中,所述ML技术包括来自以下组的至少一个ML技术或ML技术的组合:
递归神经网络,其被配置为从第一化合物开始预测表现出一组所需特性的第二化合物;
卷积神经网络,其被配置为从第一化合物开始预测表现出一组所需特性的第二化合物;
增强学习算法,其被配置为从第一化合物开始预测表现出一组所需特性的第二化合物;以及
被配置用于从第一化合物开始预测表现出一组所需特性的第二化合物的任何神经网络结构。
28.根据前述权利要求中任一项所述的计算机实现的方法,其中,所述特定特性包括指示以下中一个或多个的特性或特征:
与另一种化合物对接形成稳定复合物的化合物;
与靶蛋白对接的配体,其中,所述化合物是所述配体;
与一种或多种靶蛋白对接或结合的化合物;
具有特定溶解度或溶解度范围的化合物;
具有特定毒性的化合物;
可以基于计算机模拟以及原子和分子的物理运动而模拟的与化合物相关联的任何其它特性或特征;
可以从专家知识库中确定的与化合物相关联的任何其它特性或特征;以及
可以从实验中确定的与化合物相关联的任何其它特性或特征。
29.根据前述权利要求中任一项所述的计算机实现的方法,进一步包括:通过迭代生成、验证和更新所述特性模型的所述步骤来进一步训练所述特性模型,直到确定所述特性模型已被有效地训练为止,其中,在所述当前迭代的所述生成、验证和更新步骤中使用了来自先前迭代的更新的特性模型。
30.一种装置,包括处理器、存储器单元和通信接口,其中,所述处理器连接到所述存储器单元和所述通信接口,其中,所述处理器和存储器被配置为实现根据权利要求1至29中任一项所述的计算机实现的方法。
31.一种机器学习ML模型,其包括表示从训练根据计算机实现的方法权利要求1至29中任一项所述的ML技术而生成的ML模型的数据。
32.一种通过根据权利要求1至29中任一项所述的计算机实现的方法获得的机器学习ML模型。
33.一种装置,包括处理器、存储器单元和通信接口,其中,所述处理器连接到所述存储器单元和所述通信接口,其中,所述处理器和存储器被配置为实现根据权利要求31或32所述的机器学习模型。
34.一种计算机可读介质,其包括表示基于训练根据计算机实现的方法权利要求1至29中任一项所述的ML技术而生成的机器学习ML模型的数据或指令代码,所述数据或指令代码在处理器上执行时使所述处理器实现所述ML模型。
35.一种用于使用根据权利要求1至29中任一项所述的计算机实现的方法训练的模型来预测化合物是否具有特定特性的方法。
36.一种用于生成特性模型的系统,所述特性模型用于预测化合物是否与特定特性相关联,所述系统包括:
模型生成模块,用于训练机器学习机器学习ML技术以生成所述特性模型;
模型测试模块,用于使用所述特性模型生成化合物及其与所述特定特性的关联的预测结果;
验证模块,用于基于来自具有与所述特定特性的关联的所述预测结果的所述化合物来验证所述特性模型;以及
模型更新模块,用于基于所述特性模型验证来更新所述特性模型。
37.根据权利要求36所述的系统,其中,所述模型生成模块、模型测试模块、验证模块和/或模型更新模块可以被配置为实现根据权利要求1至29中任一项所述的计算机实现的方法。
CN201980033308.7A 2018-03-29 2019-03-29 主动学习模型验证 Pending CN112136180A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1805304.1A GB201805304D0 (en) 2018-03-29 2018-03-29 Active learning model validation
GB1805304.1 2018-03-29
PCT/GB2019/050921 WO2019186193A2 (en) 2018-03-29 2019-03-29 Active learning model validation

Publications (1)

Publication Number Publication Date
CN112136180A true CN112136180A (zh) 2020-12-25

Family

ID=62142129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980033308.7A Pending CN112136180A (zh) 2018-03-29 2019-03-29 主动学习模型验证

Country Status (5)

Country Link
US (1) US20210027864A1 (zh)
EP (1) EP3776562A2 (zh)
CN (1) CN112136180A (zh)
GB (1) GB201805304D0 (zh)
WO (1) WO2019186193A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2600154A (en) * 2020-10-23 2022-04-27 Exscientia Ltd Drug optimisation by active learning
WO2022084696A1 (en) * 2020-10-23 2022-04-28 Exscientia Limited Drug optimisation by active learning
CN113553044B (zh) * 2021-07-20 2022-06-21 同济大学 结合pac学习理论和主动学习的时间自动机模型的生成方法
CN113673680B (zh) * 2021-08-20 2023-09-15 上海大学 通过对抗网络自动生成验证性质的模型验证方法和系统
WO2024014143A1 (ja) * 2022-07-14 2024-01-18 コニカミノルタ株式会社 物性予測装置、物性予測方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278124A1 (en) * 2004-06-14 2005-12-15 Duffy Nigel P Methods for molecular property modeling using virtual data
US20160132787A1 (en) * 2014-11-11 2016-05-12 Massachusetts Institute Of Technology Distributed, multi-model, self-learning platform for machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278124A1 (en) * 2004-06-14 2005-12-15 Duffy Nigel P Methods for molecular property modeling using virtual data
US20160132787A1 (en) * 2014-11-11 2016-05-12 Massachusetts Institute Of Technology Distributed, multi-model, self-learning platform for machine learning

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
EL-TELBANY, M.E等: "Drug Design: The Machine Learning Roles", 2014 2ND INTERNATIONAL CONFERENCE ON ENGINEERING AND TECHNOLOGY (ICET) *
JOHN B. O. MITCHELL: "Machine learning methods in chemoinformatics", 《WIRES COMPUT MOL SCI》, vol. 4, pages 468, XP055585883, DOI: 10.1002/wcms.1183 *
MARCUS OLIVECRONA等: "Molecular de‑novo design through deep reinforcement learning", 《JOURNAL OF CHEMINFORMATICS》, vol. 9, no. 48, pages 1 - 14, XP055637190, DOI: 10.1186/s13321-017-0235-x *
MARIYA POPOVA等: "Deep reinforcement learning for de novo drug design", 《SCIENCE ADVANCES》, vol. 4, pages 1 - 14 *
MARIYA POPOVA等: "Deep reinforcement learning for de novo drug design", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, pages 1 - 28 *
MARWIN H. S. SEGLER等: "Generating Focused Molecule Libraries for Drug Discovery with Recurrent Neural Networks", 《ACS CENTRAL SCIENCE》, vol. 4, no. 1, pages 120 - 131, XP055637179, DOI: 10.1021/acscentsci.7b00512 *

Also Published As

Publication number Publication date
US20210027864A1 (en) 2021-01-28
WO2019186193A3 (en) 2019-12-12
GB201805304D0 (en) 2018-05-16
WO2019186193A2 (en) 2019-10-03
EP3776562A2 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
Rostami et al. A novel community detection based genetic algorithm for feature selection
Sevakula et al. Transfer learning for molecular cancer classification using deep neural networks
US20210012862A1 (en) Shortlist selection model for active learning
US20210117869A1 (en) Ensemble model creation and selection
CN112136180A (zh) 主动学习模型验证
US20210090690A1 (en) Molecular design using reinforcement learning
Unler et al. A discrete particle swarm optimization method for feature selection in binary classification problems
Arowolo et al. A survey of dimension reduction and classification methods for RNA-Seq data on malaria vector
Nashaat et al. Hybridization of active learning and data programming for labeling large industrial datasets
US20210374544A1 (en) Leveraging lagging gradients in machine-learning model training
Dong et al. CRF-based models of protein surfaces improve protein-protein interaction site predictions
Balakrishnan et al. The validation of graph model-based, gate level low-dimensional feature data for machine learning applications
Nikitin et al. DRACON: disconnected graph neural network for atom mapping in chemical reactions
Sreedharan et al. Leave-One-Out Cross-Validation in Machine Learning
Sharma et al. Hybrid Missing Value Imputation Algorithm-KLR
Wu et al. Memetic algorithm based support vector machine classification
Alaydie et al. Hierarchical boosting for gene function prediction
Sreedharan et al. 5 Leave-One-Out Validation in Machine Cross-Learning
Mukherjee et al. From Data to Cure: A Comprehensive Exploration of Multi-omics Data Analysis for Targeted Therapies
Zhang et al. Learning a hybrid architecture for sequence regression and annotation
Masera Multi-target Prediction Methods for Bioinformatics: Approaches for Protein Function Prediction and Candidate Discovery for Gene Regulatory Network Expansion
Sumant et al. Search Techniques for Data Analytics with Focus on Ensemble Methods
Bongini et al. Dynamic Hybrid Random Fields for the Probabilistic Graphical Modeling of Sequential Data: Definitions, Algorithms, and an Application to Bioinformatics
Tsoumakas DRUG-TARGET INTERACTION PREDICTION USING IMBALANCE AWARE MULTI-LABEL METHODS
Amira COMMITTEE PAGE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination