CN114600194A - 设计分子并确定其合成途径 - Google Patents

设计分子并确定其合成途径 Download PDF

Info

Publication number
CN114600194A
CN114600194A CN202080074775.7A CN202080074775A CN114600194A CN 114600194 A CN114600194 A CN 114600194A CN 202080074775 A CN202080074775 A CN 202080074775A CN 114600194 A CN114600194 A CN 114600194A
Authority
CN
China
Prior art keywords
molecule
computer
machine learning
candidate
molecules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080074775.7A
Other languages
English (en)
Inventor
M.塞格勒
N.布朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BenevolentAI Technology Ltd
Original Assignee
BenevolentAI Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BenevolentAI Technology Ltd filed Critical BenevolentAI Technology Ltd
Publication of CN114600194A publication Critical patent/CN114600194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了一种设计分子并确定用于合成所述分子的途径的计算机实施的方法。所述方法包括:接收所述分子的一个或多个期望的性质;使用第一机器学习技术生成一个或多个候选分子,所述第一机器学习技术使用所述分子的所述一个或多个期望的性质作为输入;以及对于至少一个候选分子,使用第二机器学习技术计算用于合成所述候选分子的一个或多个途径。

Description

设计分子并确定其合成途径
本公开涉及用于设计分子或分子结构以及用于确定用于合成所述分子的可行途径的系统和方法。目前所公开的技术在生物化学、药物发现、农业化学、材料、精细化学品和香料领域中具有特定应用。
背景技术
在生物化学、药物发现、材料、农业化学、精细化学品和香料领域,需要设计具有期望的性质的分子,使其适用于特定应用,并且还需要找到合适且实用的方式合成这些分子。目前可用的有一系列分子设计系统,以及用于确定可行合成途径的工具。然而,这些系统通常依赖于最终用户的显著量的输入,所述最终用户通常是所述领域的科学专家,并且需要使用他或她的直觉或知识来引导、检查或指导过程的各个阶段。将过程分解为用户依赖性阶段会给最终用户带来负担,给过程引入成本和延迟,并且可能以不可预见的方式使结果产生偏差。
为了提供改进,需要一种可以减少对来自最终用户的输入的依赖并更好地支持专家最终用户设计分子并确定可行的合成途径的系统。
下文所描述的实施例不限于解决上文所描述的已知方法的缺点中的任何或全部缺点的实施方案。
发明内容
提供本发明内容的目的是以简化形式介绍下文在具体实施方式中进一步描述的一系列概念。本发明内容不旨在鉴定要求保护的主题的关键特征或必要特征,也不旨在用于确定要求保护的主题的范围。
在第一方面,本公开提供了一种设计分子并确定用于合成所述分子的途径的计算机实施的方法,所述方法包括:接收所述分子的一个或多个期望的性质;使用第一机器学习技术生成一个或多个候选分子,所述第一机器学习技术使用所述分子的所述一个或多个期望的性质作为输入;以及对于至少一个候选分子,使用第二机器学习技术计算用于合成所述候选分子的一个或多个途径。在变体中,生成一个或多个候选分子的步骤可以另外地或可替代地使用化学信息学和/或人工智能技术进行。
任选地,所述第二机器学习技术使用与前体分子或反应相关的数据。任选地,所述第一机器学习技术包括使用生成对抗网络、变分自编码器、递归神经网络或遗传算法。任选地,所述方法包括基于所述一个或多个期望的性质中的至少一个期望的性质对所述候选分子进行排序。任选地,所述方法包括输出至少一个分子和一个或多个相关联的合成途径的表示。任选地,计算所述用于合成每个候选分子的一个或多个途径包括使用树搜索方法探索从所述候选分子到前体分子的反应树。任选地,探索所述反应树包括通过使用被训练成识别有效化学反应的机器学习模型来选择和扩展所述反应树的节点。任选地,探索所述反应树包括使用蒙特卡洛树搜索方法(Monte Carlo tree search method)。任选地,所述方法包括向所述第一机器学习技术和所述第二机器学习技术中的一者或两者提供指示所述候选分子之一和/或所计算的合成途径之一的适合性的反馈,以改变所述第一机器学习技术或所述第二机器学习技术或两者的未来输出的可能性。任选地,所述方法包括通过计算对所述候选分子之一和/或所计算的合成途径之一的评估来生成所述反馈。任选地,所述方法包括未能计算用于合成所述候选分子之一的途径并反馈失败的指示,以降低未来输出所述候选分子的可能性。任选地,所述反馈是基于用户输入的。任选地,所述方法包括将所计算的途径中的一个或多个途径存储为宏动作,以供使用所述第二机器学习技术在未来合成途径计算中使用。任选地,所述候选分子包括来自由以下组成的组的一项或多项:潜在药物候选物、农用化学品、材料、精细化学品和香料。任选地,所述分子的所述一个或多个期望的性质包括来自由以下组成的非限制性实例的组的一项或多项:溶解度、毒性、与靶分子或蛋白质的相互作用或结合、血脑屏障渗透性、细胞渗透性、与现存分子的分子相似性、物理化学性质、ADMET特性、DMPK特性、对接分数、任何毒性载体的存在和特性、分子是否是受控物质、药效团的存在、分子是否是新型的以及分子是否获得专利。
在第二方面,本公开提供了一种用于设计分子并确定用于合成所述分子的途径的系统,所述系统包括:分子设计模块,所述分子设计模块被配置成:接收所述分子的一个或多个期望的性质;以及使用第一机器学习技术生成一个或多个候选分子,所述第一机器学习技术使用所述分子的所述一个或多个期望的性质作为输入;以及合成途径计算模块,所述合成途径计算模块被配置成对于至少一个候选分子,使用第二机器学习技术计算用于合成所述候选分子的一个或多个途径。
任选地,所述第一机器学习技术包括使用生成对抗网络或变分自编码器。任选地,所述系统被配置成基于所述一个或多个期望的性质中的一个或多个期望的性质对所述候选分子进行排序。任选地,所述系统被配置成输出至少一个分子和一个或多个相关联的合成途径的表示。任选地,所述系统被配置成通过使用树搜索方法探索从所述候选分子到前体分子的反应树来计算所述用于合成每个候选分子的一个或多个途径。任选地,所述系统被配置成通过使用被训练成识别有效化学反应的机器学习模型来选择和扩展所述反应树的节点而探索所述反应树。任选地,所述系统被配置成将所计算的途径中的一个或多个途径存储为宏动作,以供使用所述第二机器学习技术在未来合成途径计算中使用。任选地,所述候选分子包括来自由以下组成的组的一项或多项:潜在药物候选物、农用化学品、材料、精细化学品和香料。任选地,所述分子的所述一个或多个期望的性质包括来自由以下组成的组的一项或多项:在生化或表型测定中的活性、溶解度、毒性、与靶分子或蛋白质的相互作用或结合、血脑屏障渗透性、与现存分子的分子相似性、物理化学性质、ADMET特性、DMPK特性、对接分数、任何毒性载体的存在和特性、分子是否是受控物质、药效团的存在、分子是否是新型的以及分子是否获得专利。
在第三方面,本公开提供了一种存储代码的计算机可读介质,当所述代码由计算机执行时所述使计算机执行第一方面的方法。
本文所描述的方法可以由呈机器可读形式的软件在例如呈计算机程序的形式的有形存储介质上执行,所述计算机程序包括适于在所述程序在计算机上运行时以及在所述计算机程序可以在计算机可读介质上体现的情况下执行本文所描述的任何方法的所有步骤的计算机程序代码装置。有形(或非暂时性)存储介质的实例包含磁盘、拇指驱动器、存储器卡等,并且不包含传播的信号。所述软件可以适用于在并行处理器或串行处理器上执行,使得所述方法步骤可以以任何适合的顺序或同时执行。
本申请确认固件和软件可以是有价值的、可单独交易的商品。旨在涵盖在“哑”或标准硬件上运行或控制“哑”或标准硬件的软件,以实现期望的功能。还旨在涵盖“描述”或定义硬件的配置的软件,如HDL(硬件描述语言)软件,如用于设计硅芯片或用于配置通用可配置芯片,以实现期望的功能。
如对技术人员显而易见的,优选特征可以适当地结合,并且可以与本发明的任何方面结合。
附图说明
将通过实例的方式并参考附图来描述本发明的实施例,在附图中:
图1是根据本发明的实施例的用于设计分子并确定用于合成分子的途径的系统的框图;
图2是可以由系统执行的方法的流程图;
图3是示出了任选特征的系统的分子设计模块的框图;
图4是示出了任选特征的系统的合成途径计算模块的框图;
图5是表示可以根据本发明使用的蒙特卡洛树搜索的实例的示意图;
图6是上述内容的框图,示出了用于向分子设计模块和/或合成途径计算模块提供反馈的另外的任选特征;
图7是示出了任选特征的系统的数据存储的框图;并且
图8是适合于实施本发明的实施例的计算机的框图。
共同的附图标记在所有附图中用于指示相似特征。
具体实施方式
下文仅通过实例的方式描述本发明的实施例。这些实例表示申请人目前已知的实践本发明最好的方法,尽管这些实例并不是可以实现本发明的唯一方法。描述阐述了实例的功能以及构造和操作实例的步骤的序列。然而,可以由不同的实例来完成相同或等效的功能和顺序。
在生物化学、药物发现、农用化学品、材料、精细化学品和香料领域,各种技术可用于为特定目的设计分子并确定用于合成所述分子的可行途径。这些技术中的许多技术是自动化的或部分自动化的,并且使用基于规则或机器学习的方法来解决分子和合成途径设计的整体问题的各个方面。然而,当前的方法通常将问题分解为多个阶段,所述多个阶段中的许多阶段需要最终用户输入专家科学家的意见,以引导、改进或以其它方式指导过程进入下一阶段。这种对最终用户输入的依赖会给科学家的时间带来负担,并造成端到端过程的延迟和成本增加。
本发明人已经意识到,需要一种可以根据期望的化学性质或其它性质设计分子,并且然后使用可用的前体化合物提供合成途径的系统。因此,发明人开发了一种自动地设计分子和其合成途径两者的端到端系统。
端到端系统与一系列优势相关联。例如,可以从一开始就排除与期望的性质完美匹配但无法确定可行合成途径的合理分子,并且不需要将其作为可能的结果提供给最终用户。此外,可以在分子性质的合意性与合成的难易程度之间取得平衡。因此,可以将排序的分子集呈现给最终用户,所述最终用户不仅要考虑分子满足期望性质的标准的程度,还要考虑其途径的相对难易程度或合成途径。根据许多将分子的设计与随后确定可行的合成途径分开的典型方法,这些优点是不可能的。
在本申请中,公开了一种端到端系统,所述端到端系统包含使用机器学习技术的用于分子设计的模块和也使用机器学习技术的用于合成途径计算的另一个模块。
图1示出了根据本发明的实施例中用于设计分子和确定合成所述分子的途径的系统100。系统100被配置成接收所设计的分子将拥有或满足的一个或多个期望的性质102作为输入。例如,一个或多个期望的性质102可以包括化学性质、物理、化学或其它约束,或如下文进一步描述的其它要求。这些输入102提供了系统100被配置成应用的约束,以在确定合成途径之前获得一个或多个合适的分子。一个或多个期望的性质102可以包括简单的性质要求,如可接受的溶解度范围。可替代地,可以存在多个期望的性质102,例如可以由列表或数据结构表示。如果存在多个期望的性质102,则期望的性质102中的至少一个期望的性质可以与可以包含在列表或数据结构表示中的相对重要性相关联。
所述系统包括分子设计模块104,所述分子设计模块被配置成接收一个或多个期望的性质102并且使用机器学习模型生成与一个或多个期望的性质102匹配的一个或多个候选分子106。分子设计模块104生成一个或多个候选分子106的表示,并且如图1所示,将所述表示作为输入提供给系统100的合成途径计算模块108。
合成途径计算模块108被配置成计算用于合成至少一个候选分子106的可能途径110,并且为了执行此计算,所述合成途径计算模块可以访问可用化学前体的数据集112,所述化学前体可以被反应以达到候选分子106。最终结果是一个或多个分子的表示,以及可以用于合成每个分子的一个或多个途径。因此,系统100可以被配置成输出一个或多个分子的表示和合成途径。应当理解,系统100可以被配置成使得如果合成途径计算模块108不能找到候选分子的合成途径,则系统100从输出中排除所述候选分子。可替代地,如果合成途径计算模块108没有找到所述分子的合成途径,则系统100可以被配置成输出没有合成途径的分子。在一些实例中,合成途径计算模块108被配置成仅计算一个或多个最佳候选分子的合成途径,而在其它实例中,合成途径计算模块108可以被配置成计算每个候选分子的合成途径。
因此,本公开扩展到一种用于设计分子并确定用于合成所述分子的途径的系统,所述系统包括:分子设计模块104,所述分子设计模块被配置成:接收所述分子的一个或多个期望的性质;以及使用第一机器学习、化学信息学、计算和/或人工智能技术生成一个或多个候选分子,所述技术使用所述分子的所述一个或多个期望的性质作为输入;以及合成途径计算模块108,所述合成途径计算模块被配置成使用使用与前体分子有关的数据的第二机器学习、化学信息学、计算和/或人工智能技术,为每个候选分子计算用于合成所述候选分子的一个或多个途径。在变体中,所述分子可以取代分子片段,使得本公开还扩展到一种用于设计分子片段并确定用于合成所述分子片段的途径的系统。由于本公开的方法通过已知反应将每个候选分子的合成追溯返回到可用的化学前体,因此所述方法具有鉴定可能在实验室中合成可行的一个或多个候选分子的优点。这打破了错误的假设,即枚举更简单的分子片段的组合就足以创建可以在实验室中制造的分子。这种假设是不正确的,因为即使是常见分子片段的组合也不能保证可合成性。因此,本公开的方法提供了一种用于鉴定在实验室中具有改进的合成率的分子或分子片段的技术。
本公开还扩展到设计分子并确定用于合成所述分子的途径的计算机实施的方法200,如图2所示。所述方法200包括:接收202所述分子的一个或多个期望的性质;使用第一机器学习技术生成204一个或多个候选分子,所述第一机器学习技术使用所述分子的所述一个或多个期望的性质作为输入;以及对于每个候选分子,使用第二机器学习技术计算206用于合成所述候选分子的一个或多个途径,所述第二机器学习技术使用与前体分子有关的数据。
如上所述,分子设计模块104被配置成接收一个或多个要设计的分子需要拥有或满足的一个或多个期望的性质102作为输入。一个或多个期望的性质102约束分子设计过程并有助于产生与期望的标准密切匹配的一个或多个分子。期望的性质102的合适的实例是所述分子应该是潜在的药物候选物。期望的性质102的其它非限制性实例可以包括与溶解度、毒性、与靶分子或蛋白质的相互作用或结合或血脑屏障渗透性有关的性质。期望的性质102的另外的非限制性实例可以涉及以下性质和特性。
·功效、亲和力、活性
·与现存分子的分子相似性
·物理化学性质,如摩尔重量(MW)、分配系数的对数(CLogP)、拓扑极性表面积(TPSA)
·吸收、分布、代谢、排泄、毒性(ADMET)特性
·药物、代谢和药代动力学(DMPK)特性
·与其它分子相关的对接分数
·任何毒性载体的存在和特性
·分子是否为相关法律规定的受控物质
·存在期望的药效团(其可以通过药效团匹配技术检测)
·分子是否是新型的
·分子是否获得专利
·分子是否在已公布的未决专利申请中公开
参考图3,分子设计模块104被配置成接收一个或多个期望的性质102的表示并使用机器学习技术设计与一个或多个期望的性质102匹配的一个或多个合适的分子。设计过程可以包括预测和建模生物活性、估计预测质量或使用习得的性质来设计潜在输出分子的任何其它技术。这些可以包含使用机器学习系统,如递归神经网络、变压器、生成对抗网络、深度强化学习代理或变分自编码器。因此,在本发明的实施例中,分子设计模块104可以包括生成对抗网络302和/或变分自编码器304,如图3所示。所述实施例可以另外地或可替代地包括如递归神经网络或基于注意力的神经网络等神经网络、深度强化学习代理和/或遗传算法。应当理解,机器学习模型可以使用例如来自相关科学文献或电子笔记本资源的非结构化数据和/或来自如化学、生化或医学数据集的数据集的结构化数据来训练。
分子设计模块104的输出包括一个或多个候选分子106的表示。例如,所述表示可以包括行符号,如SMILES化学符号或国际化学标识符(InChI)文本,或其它合适的表示,如邻接矩阵或图形。
由分子设计模块104生成的候选分子106的表示作为输入被合成途径计算模块108接收,所述合成途径计算模块被配置成计算每个候选分子106的合成途径。此计算可以通过使用机器学习技术来实现,所述机器学习技术从候选分子106开始并通过执行逆合成分析来确定分子可以如何以相反的顺序依次形成。因此,合成途径计算模块108已经访问可用化学前体分子的数据集112,从所述数据集可以构建潜在的合成途径,并且被训练以基于训练数据确定可行的化学反应,所述训练数据包括如已知反应树数据和化学通路数据等数据。
由合成途径计算模块108使用的机器学习技术可以涉及通过将可能动作树从候选分子扩展到可用化学前体来进行搜索。因此,合成途径计算模块108可以被配置成通过使用树搜索方法探索从候选分子到前体分子的反应树来计算一个或多个合成途径。在合适的实例中,探索可以涉及通过使用被训练成识别有效化学反应的机器学习模型来选择和扩展反应树的节点,并且在此情况下,合成途径计算模块108可以包括反应树搜索算法402,如蒙特卡洛树搜索算法404,如图4所示。可以由合成途径计算模块108使用的树搜索方法的其它合适的实例包含A*搜索算法、迪杰斯特拉算法(Dijkstra's algorithm)和证明编号搜索和其变体。
在蒙特卡洛树搜索的实例中,合成途径计算模块108包括蒙特卡洛树搜索逆合成算法。在此方法中,树搜索的根节点表示最终化合物(即要为其找到合成途径的候选分子),并且连续的叶节点表示可以反应以产生最终化合物的前体化合物。由于其不对称增长,蒙特卡洛树搜索方法对于大型动作空间(即具有高分支因子的动作空间)是有利的。此类方法也有益地是非启发式的和任何时间的。叶节点的选择和扩展涉及使用机器学习系统,如被训练成识别有效化学反应的人工神经网络。将值分配给树中的每个节点以表示进一步模拟所述节点所属的反应通路的预测值,并且可以使用如树的置信上限(UCT)等各种策略来决定选择哪些节点。
图5示出了可以由合成途径计算模块108使用的示例蒙特卡洛树搜索500的示意图。如所示出的,选择用于分析的有前景的节点502以进行扩展。然后由节点502表示的分子由机器学习系统处理以生成表示有效化学前体的前体节点504和506。然后选择这些前体节点506中最有前景的前体节点用于生成所述节点506的进一步扩展的值的粗略预测的推出。例如,推出可以包括终止于节点508的有效反应的随机序列,所述节点表示已知的或没有可用的前体的前体。在此情况下,有效反应的随机序列用于生成对节点506的进一步扩展的值的预测,并且此值从节点506反向传播回到根节点510,沿途径更新每个节点的相关分数。可以以此方式模拟多个有前景的节点,并且将其预测值反向传播到根节点510以更新树。以此方式,一旦在有前景的前体节点上进行了多次模拟,计算可能会终止并返回由可用前体合成候选分子的最有前景的途径。
合成途径计算模块108可以被配置成执行多个搜索以返回每个候选分子106的多个合成途径,并且可以被配置成将候选分子连同其相应的一个或多个合成途径一起作为输出提供。如果存在多个候选分子106,所述多个候选分子各自具有至少一个合成途径,则系统100可以被配置成基于一个或多个期望的性质102中的至少一个期望的性质或基于源自一个或多个期望的性质102中的至少一个期望的性质的度量对候选分子106进行排序。例如,候选分子106可以通过毒性、合成的复杂性和与一个或多个期望的性质102中的至少一个期望的性质的接近度来排序。
在任何情况下,系统100被配置成输出候选分子106的表示和其合成途径。如果存在无法找到合成途径的候选分子106,则此候选分子可以从输出结果集合中排除。
任选地,最终用户可以审查输出并向系统100提供关于分子的适用性和/或基于他或她的专业知识和经验的合成途径的反馈。在此情况下,系统100如上文所描述的被配置,但另外,专家最终用户可以检查输出分子和/或合成途径的表示(在框602处)并提供相关联的用户输入,如图6所示。用户输入可以提供与最终用户是否认为分子对于一个或多个期望性质而言是合理的候选物和/或最终用户是否认为合成途径在物理上是可能的或可行的有关的信息。
可以将含有反馈的用户输入编码成适合于反馈606给分子设计模块104和合成途径计算模块108中的一者或两者的数据格式604。以此方式,分子设计模块104和合成途径计算模块108的相应的机器学习模型可以学习优先考虑更合适的候选分子,所述候选分子更有可能满足期望的化学性质或对合成更实用或两者兼有。此类反馈还可以降低所设计的分子无法成功合成的风险。
如图7所示,在一些实施例中,可用化学前体的数据集112不仅存储前体702,而且还存储手动确定的通路704,例如,所述通路可以由科学专家确定并且可以用于合成途径计算(以及用于合成途径计算模块108的训练数据)。由合成途径计算模块108生成的合成途径也可以作为宏动作706存储在数据集112中,用于在未来合成途径计算中重复使用。宏动作706的重复使用有利地随着合成途径计算模块108的每次迭代而增长训练集。
在其它实施例中,反馈可以由系统100自动生成。在此情况下,系统100可以包括评估模块,所述评估模块被配置成计算对候选分子之一、合成途径之一或两者的评估,并将所述评估作为反馈提供给第一机器学习技术和/或第二机器学习技术,以改变第一机器学习技术或第二机器学习技术或两者的未来输出的可能性。在合成途径计算模块108未能产生候选分子的合成途径的情况下,例如因为此类合成途径不存在或者因为合成途径计算模块不能生成此类途径,所以可以将对这种失败的指示反馈给第一机器学习技术,以降低分子设计模块104未来输出所述分子的可能性。
适合于实施根据本发明的方法的计算机设备800如图8所示。设备800包括处理器802、输入-输出装置804、通信端口806和计算机存储器808。例如,存储器808可以存储在由处理器802执行时使设备800执行图2所示的方法200的代码。
在上文所描述的实施例中,服务器可以包括单个服务器或服务器网络。在一些实例中,服务器的功能性可以由跨地理区域分布的服务器网络(如服务器全球分布式网络)来提供,并且用户可以基于用户位置连接到服务器网络中的合适的一个。
为清楚起见,上文描述参考单个用户讨论了本发明的实施例。应当理解,实际上,系统可以由多个用户共享并且可能同时由非常大量的用户共享。
上文所描述的实施例是全自动的。在一些实例中,系统的用户或操作者可以手动地指导方法的一些步骤执行。
在本发明的所描述的实施例中,系统可以被实施为任何形式的计算和/或电子装置。此类装置可以包括一个或多个处理器,所述一个或多个处理器可以是用于对计算机可执行指令进行处理以控制所述装置的操作以采集并记录路由信息的微处理器、控制器或任何其它合适类型的处理器。在一些实例中,例如在使用片上系统架构的情况下,处理器可以包含在硬件(而不是软件或固件)中实施方法的一部分的一个或多个固定的功能块(也被称为加速器)。包括操作系统的平台软件或任何其它合适的平台软件可以设置在基于计算的装置处以使应用软件能够在所述装置上执行。
本文所描述的各种功能可以以硬件、软件或其任何组合实施。如果以软件实施,则可以将功能作为一或多个指令或代码存储在计算机可读介质上或者通过计算机可读介质进行传输。计算机可读介质可以包含例如计算机可读存储介质。计算机可读存储介质可以包含在任何方法或技术中实施的用于存储如计算机可读指令、数据结构、程序模块、或其它数据等信息的易失性或非易失性介质、可移除或不可移除介质。计算机可读存储介质可以是可以被计算机访问的任何可用存储介质。通过举例而非限制,此种计算机可读存储介质可以包括RAM、ROM、EEPROM、闪速存储器或其它存储器装置、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置或可以用于承载或存储采用指令或数据结构形式的期望程序代码并且可以被计算机访问的任何其它介质。如本文所用,盘和碟包含压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光盘(BD)。进一步地,传播的信号不包含在计算机可读存储介质的范围内。计算机可读介质还包含通信介质,所述通信介质包含促进将计算机程序从一处传送到另一处的任何介质。例如,连接可以是通信介质。例如,如果使用同轴电缆、光纤电缆、双绞线、DSL、或如红外、无线电和微波等无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或如红外、无线电和微波等无线技术包含在通信介质的定义中。上述内容的组合也应包含在计算机可读介质的范围内。
可替代地或另外地,本文所描述的功能性可以至少部分地由一个或多个硬件逻辑组件执行。例如而非限制,可以使用的硬件逻辑组件可以包含现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑装置(CPLD)等。
尽管被示为单个系统,但是应当理解,计算装置可以是分布式系统。因此,例如,若干装置可以通过网络连接进行通信并且可以共同执行被描述为由计算装置执行的任务。
尽管展示为本地装置,应当了解,计算装置可以定位在远端并且通过网络或其它通信链路(例如使用通信接口)被访问。
术语“计算机”在本文中用于指代具有处理能力使得其可以执行指令的任何装置。本领域技术人员将认识到,此类处理能力并入到许多不同的装置中,并且因此术语“计算机”包含PC、服务器、移动电话、个人数字助理和许多其它装置。
本领域技术人员将认识到,用于存储程序指令的存储装置可以跨网络分布。例如,远程计算机可以存储被描述为软件的处理实例。本地或终端计算机可以访问远程计算机并且下载一部分或全部软件以运行程序。可替代地,本地计算机可以按需下载一个软件或执行本地终端处的一些软件指令和远程计算机(或计算机网络)处的一些软件指令。本领域技术人员还将认识到,通过使用本领域技术人员已知的常规技术,全部或部分软件指令可以由专用电路(如DSP、可编程逻辑阵列等)执行。
应当理解,上文所描述的益处和优点可以涉及一个实施例或可以涉及若干实施例。实施例不限于解决任何或全部所陈述的问题的那些实施例或具有任何或全部所陈述的益处和优点的那些实施例。
对“一个”项的任何提及是指那些项中的一个或多个项。术语“包括”在本文中用于意指包含所标识的方法步骤或要素,但是所述此类步骤或要素不包括排他性列表并且方法或设备可以含有另外的步骤或要素。
如本文所用,术语“组件”和“系统”旨在涵盖配置有使某些功能性可以在由处理器执行时被执行的计算机可执行指令的计算机可读数据存储装置。计算机可执行指令可以包含例程、函数等。还应当理解,组件或系统可以本地化在单个装置上或跨几个装置分布。
进一步地,如本文所用,术语“示例性”旨在意指“充当某些的说明或实例”。
进一步地,对于在具体实施方式或权利要求书中使用了术语“包含”而言,此种术语旨在以与术语“包括”相似的方式是开放式的,这是由于“包括”在被使用时被解释成权利要求项中的过渡词。
附图展示了示例性方法。虽然方法被示出和描述为按特定序列执行的一系列动作,但是应当理解和了解,所述方法不受序列的顺序的限制。例如,一些动作可以与本文所描述的顺序不同的顺序发生。另外,一个动作可以与另一个动作同时发生。进一步地,在一些实例中,并不需要全部动作来实施本文所描述的方法。
此外,本文所描述的动作可以包括可以由一个或多个处理器实施的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可以包含例程、子例程、程序、执行线程和/或等等。仍进一步地,方法的动作的结果可以存储在计算可读介质中、在显示装置上显示和/或等等。
本文所描述的方法的步骤的顺序是示例性的,但是这些步骤可以在适当的情况下按任何适合的顺序或同时执行。另外地,在不脱离本文所描述的主题的范围的情况下,可以添加或替换步骤或者可以从任何方法中删除单独的步骤。上文所描述的任何实例的各方面可以与所描述的任何其它实例的各方面结合以在不损失效应的情况下形成另外的实例。
应当理解,优选实施例的以上描述仅通过实例的方式给出并且本领域的技术人员可以做出各种修改。上文已描述的内容包含一个或多个实施例的实例。当然,不可能出于描述上文提及的方面的目的而描述出对上述装置或方法的每一种可以想到的修改和改变,但是本领域普通技术人员可以认识到,各方面的许多另外的修改和排列是可能的。因此,所描述的各方面旨在涵盖落入所附权利要求书的范围内的所有此种改变、修改以及变化。

Claims (25)

1.一种设计分子并确定用于合成所述分子的途径的计算机实施的方法,所述方法包括:
接收所述分子的一个或多个期望的性质;
使用第一机器学习技术生成一个或多个候选分子,所述第一机器学习技术使用所述分子的所述一个或多个期望的性质作为输入;以及
对于至少一个候选分子,使用第二机器学习技术计算用于合成所述候选分子的一个或多个途径。
2.根据权利要求1所述的计算机实施的方法,其中所述第二机器学习技术使用与前体分子或反应相关的数据。
3.根据权利要求1或2所述的计算机实施的方法,其中所述第一机器学习技术包括使用生成对抗网络、变分自编码器、递归神经网络或遗传算法。
4.根据权利要求1、2或3所述的计算机实施的方法,其包括基于所述一个或多个期望的性质中的至少一个期望的性质对所述候选分子进行排序。
5.根据前述权利要求中任一项所述的计算机实施的方法,其包括输出至少一个分子和一个或多个相关联的合成途径的表示。
6.根据前述权利要求中任一项所述的计算机实施的方法,其中计算所述用于合成每个候选分子的一个或多个途径包括使用树搜索方法探索从所述候选分子到前体分子的反应树。
7.根据权利要求6所述的计算机实施的方法,其中探索所述反应树包括通过使用被训练成识别有效化学反应的机器学习模型来选择和扩展所述反应树的节点。
8.根据权利要求6或7所述的计算机实施的方法,其中探索所述反应树包括使用蒙特卡洛树搜索方法(Monte Carlo tree search method)。
9.根据前述权利要求中任一项所述的计算机实施的方法,其包括向所述第一机器学习技术和所述第二机器学习技术中的一者或两者提供指示所述候选分子之一和/或所计算的合成途径之一的适合性的反馈,以改变所述第一机器学习技术或所述第二机器学习技术或两者的未来输出的可能性。
10.根据权利要求9所述的计算机实施的方法,其包括通过计算对所述候选分子之一和/或所计算的合成途径之一的评估来生成所述反馈。
11.根据权利要求10所述的计算机实施的方法,其包括未能计算用于合成所述候选分子之一的途径并反馈失败的指示,以降低未来输出所述候选分子的可能性。
12.根据权利要求9所述的计算机实施的方法,其中所述反馈是基于用户输入的。
13.根据前述权利要求中任一项所述的计算机实施的方法,其包括将所计算的途径中的一个或多个途径存储为宏动作,以供使用所述第二机器学习技术在未来合成途径计算中使用。
14.根据前述权利要求中任一项所述的计算机实施的方法,其中所述候选分子包括来自由以下组成的组的一项或多项:潜在药物候选物、农用化学品、材料、精细化学品和香料。
15.根据前述权利要求中任一项所述的计算机实施的方法,其中所述分子的所述一个或多个期望的性质包括来自由以下组成的组的一项或多项:溶解度、毒性、功效、表型或生化测定中的活性、与靶分子或蛋白质的相互作用或结合、血脑屏障渗透性、与现存分子的分子相似性、物理化学性质、ADMET特性、DMPK特性、对接分数、任何毒性载体的存在和特性、分子是否是受控物质、药效团的存在、分子是否是新型的以及分子是否获得专利。
16.一种用于设计分子并确定用于合成所述分子的途径的系统,所述系统包括:
分子设计模块,所述分子设计模块被配置成:
接收所述分子的一个或多个期望的性质;以及
使用第一机器学习技术生成一个或多个候选分子,所述第一机器学习技术使用所述分子的所述一个或多个期望的性质作为输入;以及
合成途径计算模块,所述合成途径计算模块被配置成对于至少一个候选分子,使用第二机器学习技术计算用于合成所述候选分子的一个或多个途径。
17.根据权利要求16所述的系统,其中所述第一机器学习技术包括使用生成对抗网络或变分自编码器。
18.根据权利要求16或17所述的系统,其被配置成基于所述一个或多个期望的性质中的一个或多个期望的性质对所述候选分子进行排序。
19.根据权利要求16、17或18所述的系统,其被配置成输出至少一个分子和一个或多个相关联的合成途径的表示。
20.根据权利要求16到19中任一项所述的系统,其被配置成通过使用树搜索方法探索从所述候选分子到前体分子的反应树来计算所述用于合成每个候选分子的一个或多个途径。
21.根据权利要求20所述的系统,其被配置成通过使用被训练成识别有效化学反应的机器学习模型来选择和扩展所述反应树的节点而探索所述反应树。
22.根据权利要求16到21中任一项所述的系统,其被配置成将所计算的途径中的一个或多个途径存储为宏动作,以供使用所述第二机器学习技术在未来合成途径计算中使用。
23.根据权利要求16到22中任一项所述的系统,其中所述候选分子包括来自由以下组成的组的一项或多项:潜在药物候选物、农用化学品、材料、精细化学品和香料。
24.根据权利要求16到23中任一项所述的系统,其中所述分子的所述一个或多个期望的性质包括来自由以下组成的组的一项或多项:溶解度、毒性、与靶分子或蛋白质的相互作用或结合、血脑屏障渗透性、与现存分子的分子相似性、物理化学性质、ADMET特性、DMPK特性、对接分数、任何毒性载体的存在和特性、分子是否是受控物质、药效团的存在、分子是否是新型的以及分子是否获得专利。
25.一种存储代码的计算机可读介质,所述代码在由计算机执行时使所述计算机执行根据权利要求1到12中任一项所述的方法。
CN202080074775.7A 2019-10-28 2020-10-23 设计分子并确定其合成途径 Pending CN114600194A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB201915623A GB201915623D0 (en) 2019-10-28 2019-10-28 Designing a molecule and determining a route to its synthesis
GB1915623.1 2019-10-28
PCT/GB2020/052702 WO2021084234A1 (en) 2019-10-28 2020-10-23 Designing a molecule and determining a route to its synthesis

Publications (1)

Publication Number Publication Date
CN114600194A true CN114600194A (zh) 2022-06-07

Family

ID=68768901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080074775.7A Pending CN114600194A (zh) 2019-10-28 2020-10-23 设计分子并确定其合成途径

Country Status (5)

Country Link
US (1) US20220406412A1 (zh)
EP (1) EP4052261A1 (zh)
CN (1) CN114600194A (zh)
GB (1) GB201915623D0 (zh)
WO (1) WO2021084234A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111370074B (zh) * 2020-02-27 2023-07-07 北京晶泰科技有限公司 一种分子序列的生成方法、装置和计算设备
US20210287137A1 (en) * 2020-03-13 2021-09-16 Korea University Research And Business Foundation System for predicting optical properties of molecules based on machine learning and method thereof
CN113409898B (zh) * 2021-06-30 2022-05-27 北京百度网讯科技有限公司 分子结构获取方法、装置、电子设备及存储介质
WO2023224277A1 (ko) * 2022-05-19 2023-11-23 주식회사 엘지경영개발원 분자 구조 조건을 고려한 합성가능한 분자 생성 모델을 위한 오토인코딩 장치 및 이를 이용한 분자 생성 방법
CN115206450B (zh) * 2022-09-15 2022-12-06 药融云数字科技(成都)有限公司 一种合成路线推荐方法及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240355A1 (en) * 2004-04-21 2005-10-27 Nathan Brown Molecular entity design method
US20130204412A1 (en) * 2012-02-02 2013-08-08 International Business Machines Corporation Optimal policy determination using repeated stackelberg games with unknown player preferences
WO2018220368A1 (en) * 2017-05-30 2018-12-06 Gtn Ltd Tensor network machine learning system
CN109190278A (zh) * 2018-09-17 2019-01-11 西安交通大学 一种基于蒙特卡洛树搜索的透平转子动叶片的排序方法
WO2019186196A2 (en) * 2018-03-29 2019-10-03 Benevolentai Technology Limited Reinforcement learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240355A1 (en) * 2004-04-21 2005-10-27 Nathan Brown Molecular entity design method
US20130204412A1 (en) * 2012-02-02 2013-08-08 International Business Machines Corporation Optimal policy determination using repeated stackelberg games with unknown player preferences
WO2018220368A1 (en) * 2017-05-30 2018-12-06 Gtn Ltd Tensor network machine learning system
WO2019186196A2 (en) * 2018-03-29 2019-10-03 Benevolentai Technology Limited Reinforcement learning
CN109190278A (zh) * 2018-09-17 2019-01-11 西安交通大学 一种基于蒙特卡洛树搜索的透平转子动叶片的排序方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JANE PANTELEEV等: "Recent applications of machine learning in medicinal chemistry", BIOORGANIC & MEDICINAL CHEMISTRY LETTERS, 15 September 2018 (2018-09-15), pages 2807 - 2815 *
SEGLER MHS等: "Planning chemical syntheses with deep neuralnetworks and symbolic AI", 《NATURE》, vol. 555, 29 May 2018 (2018-05-29), pages 604 *
SEGLER, M等: "Learning to Plan Chemical Syntheses", 256TH NATIONAL MEETING AND EXPOSITION OF THE AMERICAN-CHEMICAL-SOCIETY (ACS) - NANOSCIENCE, NANOTECHNOLOGY AND BEYOND, vol. 256, 19 August 2018 (2018-08-19), pages 1 - 19 *
VAMATHEVAN等: "Applications of machine learning in drug discovery and development", NATURE REVIEWS DRUG DISCOVERY, 31 July 2019 (2019-07-31), pages 463 - 477 *

Also Published As

Publication number Publication date
EP4052261A1 (en) 2022-09-07
US20220406412A1 (en) 2022-12-22
WO2021084234A1 (en) 2021-05-06
GB201915623D0 (en) 2019-12-11

Similar Documents

Publication Publication Date Title
US20220406412A1 (en) Designing a molecule and determining a route to its synthesis
US20210125691A1 (en) Systems and method for designing organic synthesis pathways for desired organic molecules
König et al. Simultaneous gene finding in multiple genomes
Khalili-Damghani et al. Solving multi-mode time–cost–quality trade-off problems under generalized precedence relations
US11620544B2 (en) Method, apparatus, and computer-readable medium for efficiently optimizing a phenotype with a specialized prediction model
Ekenna et al. Adaptive local learning in sampling based motion planning for protein folding
Padovani de Souza et al. Machine learning meets genome assembly
Attea et al. Improving the performance of evolutionary-based complex detection models in protein–protein interaction networks
Whelan et al. Inferring trees
Pittman et al. Bayesian analysis of binary prediction tree models for retrospectively sampled outcomes
CN116324810A (zh) 网络中用于假设的潜在策略分布
EP3997714B1 (en) Identifying one or more compounds for targeting a gene
Lee et al. Survival prediction and variable selection with simultaneous shrinkage and grouping priors
Sallim et al. ACOPIN: An ACO algorithm with TSP approach for clustering proteins from protein interaction network
Yue et al. Biological network mining
Jin et al. A Unified Framework for Combinatorial Optimization Based on Graph Neural Networks
CN117116355B (zh) 一种优异多效基因的挖掘方法、装置、设备及介质
Svensson Sequential Decision-Making for Drug Design: Towards Closed-Loop Drug Design
US20230245712A1 (en) Approaches to simulating the interactions of biological systems through the use of modular computational workflows
Stojanovska et al. Protein Secondary Structure Graphs as Predictors for Protein Function
Bonello et al. FunPredCATH: An ensemble method for predicting protein function using CATH
Parpinelli et al. A self-adaptive evolutionary algorithm using Monte Carlo Fragment insertion and conformation clustering for the protein structure prediction problem
Brown Algorithms for chemoinformatics
Cugny et al. Why Should I Choose You? AutoXAI: A Framework for Selecting and Tuning eXplainable AI Solutions
Wang et al. Multi-objective molecular generation via clustered Pareto-based reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination