CN112735540A - 一种分子优化方法、系统、终端设备及可读存储介质 - Google Patents

一种分子优化方法、系统、终端设备及可读存储介质 Download PDF

Info

Publication number
CN112735540A
CN112735540A CN202011504557.0A CN202011504557A CN112735540A CN 112735540 A CN112735540 A CN 112735540A CN 202011504557 A CN202011504557 A CN 202011504557A CN 112735540 A CN112735540 A CN 112735540A
Authority
CN
China
Prior art keywords
molecule
tree
node
source
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011504557.0A
Other languages
English (en)
Other versions
CN112735540B (zh
Inventor
吴红艳
纪超杰
蔡云鹏
郑奕嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202011504557.0A priority Critical patent/CN112735540B/zh
Publication of CN112735540A publication Critical patent/CN112735540A/zh
Priority to PCT/CN2021/136860 priority patent/WO2022127688A1/zh
Application granted granted Critical
Publication of CN112735540B publication Critical patent/CN112735540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请属于数据合成技术领域,特别是涉及一种分子优化方法、系统、终端设备及可读存储介质。现有的方法均将分子优化任务作为一个统一的步骤(如,不断迭代的加点(原子)和加边(化学键)),如此则会导致分子优化过程中错误的不断累积。本申请提供了一种分子优化方法,所述方法包括:获取源分子,根据目标分子对所述源分子进行裁剪获得源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;将所述源分子和所述源分子保留区域转换为联合树一,所述联合树一为所述目标分子中非共同分子子结构部分的联合树表示;将所述源分子保留区域与所述联合树一拼接获得所述目标分子。大大减少错误的传递现象。

Description

一种分子优化方法、系统、终端设备及可读存储介质
技术领域
本申请属于数据合成技术领域,特别是涉及一种分子优化方法、系统、终端设备及可读 存储介质。
背景技术
分子优化任务的定义:给定一个源分子,输入一个分子优化(生成)器,该优化器可将 该源分子转换为另一个分子(目标分子),且这个目标分子与源分子化学结构较为相似,但 某些其它化学属性却得到了较大提升(如,分子水溶性)。
VARIATIONAL JUNCTION TREE ENCODER-DECODER(VJTNN)提出了一种以监督 学习为基础训练得到的分子优化器,该方法就是一个典型的从无到有的分子生成模型。该模 型提出了一个概念称之为联合树,可以理解为一种对分子图的简化表示图,并且是以树结构的形式进行表示。因此,每一个分子图都能用一个唯一的联合树进行表示。然后,通过两个编码器分别对分子图和分子图对应的联合树进行编码;再通过使用一个树解码器,将编码好 的信息重新转换为一个新的联合树。最后,再使用一个图解码器将这个新的联合树转换为一 个分子图,该分子图就作为最终的被优化好的分子。
目前从源分子信息编码到生成目标分子,只采用一种生成操作来完成(如,不断迭代的 加点(原子)和加边(化学键));这种处理方式最大问题是会使错误累计,中间任何一步 出现的错误(预测错误一个原子)都会影响目标分子的生成结果。
发明内容
1.要解决的技术问题
基于现有的方法均将分子优化任务作为一个统一的步骤(如,不断迭代的加点(原子) 和加边(化学键)),如此则会导致分子优化过程中错误的不断累积的问题,本申请提供了 一种分子优化方法、系统、终端设备及可读存储介质。
2.技术方案
为了达到上述的目的,本申请提供了一种分子优化方法,所述方法包括:获取源分子, 根据目标分子对所述源分子进行裁剪获得源分子保留区域,所述源分子保留区域为所述源分 子与所述目标分子的共同分子子结构;将所述源分子和所述源分子保留区域转换为联合树一, 所述联合树一为所述目标分子中非共同分子子结构部分的联合树表示,接着再将该联合树转 换为分子图;将所述源分子保留区域与所述联合树拼接获得所述目标分子。
本申请提供的另一种实施方式为:所述裁剪包括:解析所述源分子的待裁剪区域,根据 所述带裁剪区域确定裁剪中心,根据所述裁剪中心确定裁剪分支,对所述裁剪分支进行裁剪 获得所述源分子保留区域。
本申请提供的另一种实施方式为:所述解析所述源分子的待裁剪区域包括:遍历所述源 分子中的节点一,遍历所述目标分子中的节点二,所述节点一与所述节点二的化学元素相同; 遍历节点一的分支一得到第一分支,遍历节点二的分支二得到第二分支,所述第一分支与所 述第二分支相同,将所述第一分支或者第二分支中节点数进行记录;取节点数中数值最大的 所述节点一,所述第一分支为保留区域;所述第一分支以外的分支为待裁剪区域。
本申请提供的另一种实施方式为:所述确定裁剪中心包括:获取所述节点一的向量表示 一;对所述向量表示一进行聚合得到所述源分子的向量表示二;结合所述向量表示一与所述 向量表示二预测所述节点一作为所述裁剪中心的概率,对所述节点数进行归一化处理得到节 点概率分布,所述节点概率分布数值最大的节点为所述裁剪中心。
本申请提供的另一种实施方式为:所述确定裁剪分支包括:获取分支三的向量表示三, 所述分支三为所述剪裁中心的分支,通过所述向量表示一、所述向量表示三和所述第一分支 的向量表示预测所述分支三的裁剪概率,对所述分支三的裁剪与否做出决策。
本申请提供的另一种实施方式为:将所述源分子和所述源分子保留区域转换为联合树一 包括:将所述源分子转换为联合树二,将所述源分子保留区域转换为联合树三;对所述源分 子进行编码得到节点向量表示一,对所述源分子保留区域进行编码得到节点向量表示二,对 所述联合树二进行编码得到树节点向量表示二,对所述联合树三进行编码得到树节点向量表 示三;将所述节点向量表示一、所述节点向量表示二、所述树节点向量表示二和所述树节点 向量表示三进行树解码转换为所述联合树一。
本申请提供的另一种实施方式为:将所述源分子保留区域与所述联合树拼接获得所述目 标分子,包括:将所述联合树一转换为分子图;将所述分子图与所述源分子保留区域拼接获 得所述目标分子。
本申请还提供一种分子优化系统,所述系统包括:分子剪裁单元,用于确定源分子保留 区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;生成单元,用 于将所述源分子和所述源分子保留区域转换为联合树一,所述联合树一为所述目标分子中非 共同分子子结构部分的联合树表示;分子拼接单元,用于将所述源分子保留区域与所述联合 树一拼接获得所述目标分子。
本申请还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述 处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序, 所属计算机程序被处理器执行时实现所述的方法。
3.有益效果
与现有技术相比,本申请提供的一种分子优化方法、系统、终端设备及可读存储介质的 有益效果在于:
本申请提供的分子优化系统,将复杂的分子优化任务转换分解为多个独立阶段,并且在 不同阶段之间加大信息的交互。
本申请提供的分子优化系统,为级联结构,通过分子裁剪单元得到数据信息,该数据信 息在生成单元被充分利用,该分子裁剪单元和该生成单元有着极强的关联。
本申请提供的分子优化系统,所述分子裁剪单元和所述生成单元均可进行监督学习,大 大减少错误的传递现象。
本申请提供的分子优化方法,将复杂的分子优化拆解为分离的级联步骤,可以保证最大 的交互信息。
附图说明
图1是本申请的分子对示例示意图;
图2是本申请的树解码过程示意图;
图3是本申请的联合树转换为分子图过程示意图;
图4是本申请的分子优化系统示意图;
图5是本申请的终端设备结构示意图。
具体实施方式
在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所 属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下, 各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某 些特征,获得其它优选的实施方式。
参见图1~5,本申请提供一种分子优化方法,所述方法包括:获取源分子,根据目标分 子对所述源分子进行裁剪获得源分子保留区域,所述源分子保留区域为所述源分子与所述目 标分子的共同分子子结构。这里先粗粒度的对源分子进行预处理(裁剪),该源分子保留区 域为该源分子中的核心分子结构。预测出一个源分子保留区域,并将不处于源分子保留区域 的分子子结构全部裁剪移除。通过这个步骤,能够降低生成的余下分子结构的规模,降低错 误率。
在训练阶段,获取分子对数据,每个所述分子对包括一个源分子和一个目标分子。选定 任意一个分子数据库,该库中包含各种不同的分子,如ZINC数据库。训练阶段的目标分子 是已知的;在进行测试时,则目标分子是未知的,采用给定的源分子根据目标分子对该源分 子进行处理。
将所述源分子和所述源分子保留区域转换为联合树一,所述联合树一为所述目标分子中 非共同分子子结构部分的联合树表示;即生成目标分子的余下部分。采用该源分子和该源分 子保留区域可以更加准确的生成目标分子中的其余部分。
将所述源分子保留区域与所述联合树一拼接获得所述目标分子。
进一步地,所述裁剪包括:解析所述源分子的待裁剪区域,根据所述待裁剪区域确定裁 剪中心,根据所述裁剪中心确定裁剪分支,对所述裁剪分支进行裁剪获得所述源分子保留区 域。
进一步地,所述解析所述源分子的待裁剪区域包括:遍历所述源分子中的节点一,遍历 所述目标分子中的节点二,所述节点一与所述节点二的化学元素相同;该节点一如图2中的 源分子C1,该节点二如图2中的目标分子C1。
遍历节点一的分支一得到第一分支,遍历节点二的分支二得到第二分支,所述第一分支 与所述第二分支相同,将所述第一分支或者第二分支中节点数进行记录。
这里的分支一为节点一的所有分支,该分支二为节点二的所有分支。
取节点数中数值最大的所述节点一,所述第一分支为保留区域;所述第一分支以外的分 支为待裁剪区域。
具体的,遍历所述源分子中的所有原子i即节点i(如图1中的源分子C1):遍历目标分子 中所有原子j即节点j,该原子j与所述原子i的化学元素完全相同(如图1中的目标分子C1): 遍历该原子i和该原子j的所有分支,得到该原子i分支和该原子j的分支中相同分支,将该相同 分支中的原子总数记为si,j
其中,分支为围绕某节点,与其相连的另一个节点所扩展出的区域。如(C2、H3、H4、H5)、 (H6)、(H7)和(C8、H9)分别为图1中源分子节点C1的4个分支。
如图1所示,所述源分子C1和所述目标分子C1有2个完全相同的分支,即(C2、H3、H4、H5) 和(H6),那么所述相同分支中的原子总数si,j=5。
将数值最大的si,j作为si的数值,并记录与所述原子i对应的原子j。
将数值最大的si中的原子i赋予cte,该数值最大的si中的原子i即为裁剪中心,并记录与cte相 对应的原子j。
另外,针对所有si,将其转换为归一化后的概率分布,以便于模型学习:
Figure RE-GDA0002974295960000051
其中VX表示源分子中的所有原子的集合,exp(.)为指数函数。
ste i即为归一化后的分布。所述源分子cte中与所述原子j对应的相同分支(可以是多个)即 为保留区域;其它分支则为待裁剪区域。每个分支都用1/0表示保留与删除,整体用变量表示 U,例如U={(C2、H3、H4、H5):1,(H6):1,(H7):0,(C8、H9):0},此分布即为模型训练所 需要拟合的分布。
另外,将j中存在但cte中不存在的分支标记为“待生成”。
综上所述,本申请提供的分子优化方法通过生成最小的分子子结构即能完成对源分子的 优化。
这里的节点选取原子进行表示。
在训练阶段,由于目标分子为已知,则可以匹配分子对,确定分子优化任务目标获取符 合条件的分子对。
首先确定分子优化任务目标或者约束,本申请的分子优化任务目标或者约束可以是需要 生成的分子水溶性更高、且具有与源分子较为相似的目标分子,但也不限于其他方面的应用。 现有的开源工具可提供计算一个分子的相关属性和分子相似性的功能,该开源工具可以是 RDKIT。根据该分子优化任务目标或者约束,遍历分子数据库后获取符合条件的分子对。图1 即为一个抽取到的分子对。
进一步地,所述确定裁剪中心包括:获取所述节点一的向量表示一;对所述向量表示一 进行聚合得到所述源分子的向量表示二;结合所述向量表示一与所述向量表示二预测所述节 点一作为所述裁剪中心的概率,对所述节点数进行归一化处理得到节点概率分布,所述节点 概率分布数值最大的节点为所述裁剪中心。
具体的,采用Graph message-passing networks(MPNs)对所述源分子进行表示学习,例如, 可以通过预先设置的公式:
Figure BDA0002844496220000051
Figure BDA0002844496220000052
计算得到每个节点(原子)的向量表示,即向量表示一。
其中,xi是节点(原子)i的特征表示,xi,j是节点i和j之间边(化学键)的特征表示,mt i,j表示t时刻节点i向j传递的信息,N(i)表示i的所有邻居节点,N(i)\j表示除j以外的所有i的邻居节 点,f1和f2均为神经网络。经过
Figure BDA0002844496220000053
个循环后,得到最终节点i的表示hi。其中原子和化学键的特 征表示可以用简单的one-hot编码。
将该向量表示一再进行聚合得到整个源分子的向量表示即向量表示二:
Figure BDA0002844496220000061
结合该向量表示一和该向量表示二,通过如下公式预测i节点作为裁剪中心的概率:
si=f3([hX,hi])
其中[,]表示向量拼接操作,f3是一个标准的神经网络。
同ste i的获取一样,通过如下公式对si进行归一化:
Figure BDA0002844496220000062
其中sst i数值最大的节点即为预测的裁剪中心cst
在模型训练阶段,sst i需要配合损失函数(如KL散度距离)拟合ste i的标记值。测试阶段只 需要输出取sst i最大数值对应的节点作为裁剪中心cst即可。
进一步地,所述确定裁剪分支包括:获取分支三的向量表示三,所述分支三为所述裁剪 中心的分支,通过所述向量表示一、所述向量表示三和所述第一分支的向量表示预测所述分 支三的保留概率,对所述分支三的保留与否做出决策。
这里的分支三为裁剪中心的任一分支。
具体的,根据裁剪中心预测围绕裁剪中心的每个分支,决策保留的分支和删除的分支。 通过所述向量表示一hi通过如下公式获得任意分支的向量表示:
Figure BDA0002844496220000063
其中cst为所述裁剪中心,
Figure BDA0002844496220000064
表示源分子中围绕所述裁剪中心cst的分支子图。|.|为该子图 中的原子个数。
然后,通过神经网络来预测该分支j的保留概率:
Figure BDA0002844496220000065
其中,f4是一个标准的神经网络,σ为sigmoid函数,
Figure BDA0002844496220000066
Figure BDA0002844496220000067
分别是反应中心的 向量表示、当前待决策是否保留的分支向量表示和已确定保留分支的向量表示。输出大于等 于0.5表示保留,小于0.5则删除。关于
Figure BDA0002844496220000068
t-1表示上一次迭代序号,每一次迭代模型都需 要对一个分支的保留/删除做出决策,如果决定保留下来,则分支就被加入集合Ust t-1,该集合中 每个元素都是一个子图。
Figure BDA0002844496220000069
的获取通过如下公式:
Figure BDA0002844496220000071
即可获得完整的裁剪后保留区域。如图2所示,阴影部分为保留部分,方框区域为被删除 的。
在测试阶段,只要按照如上过程直接得到输出即可。而在训练阶段,这里的输出需要与 所述U拟合,可以采用两者之间的交叉熵作为损失函数。
进一步地,将所述源分子和所述源分子保留区域转换为联合树一包括:将所述源分子转 换为联合树二,将所述源分子保留区域转换为联合树三。
具体的,每一种分子结构都可以使用联合树进行表示,联合树可以将分子图中的复杂分 子子结构用一个树节点表示,大大减少分子表示的复杂度。构造联合树,首先需要构建一个 联合树节点的备选元素字典,即每个联合树节点可能表示的分子子结构的集合,该词典用D 表示。
将所述源分子用源分子图表示,将所述源分子保留区域用源分子保留区域子图表示,将 目标分子用目标分子子图表示;将该源分子图(XG)、该源分子保留区域子图(RG)和该目标分 子子图(AG)分别转成联合树表示形式,记为联合树二XT、联合树三RT和联合树四AT。
对所述联合树二进行编码得到树节点向量表示二,对所述联合树三进行编码得到树节点 向量表示三。
具体的,对该源分子图(XG)和该源分子保留区域子图(RG)编码;采用Graphmessage-passing networks(MPNs)对该源分子图(XG)和该源分子保留区域子图(RG)进行表示 学习,得到更新后的节点向量表示一表示为:HXG={h1 XG,h2 XG,......},集合内元素的个数是 该源分子图(XG)中节点(原子)数量;得到更新后的节点向量表示二为:HRG={h1 RG,h2 RG,......}, 集合内元素的个数是该源分子保留区域子图(RG)中节点(原子)数量。
对该联合树二(XT)和该联合树三(RT)编码;与上述方法类似,采用另一个MPNs 对该联合树二(XT)和该联合树三(RT)进行学习,得到更新后的树节点向量表示为得到更 新后的节点向量表示二为:HXT={h1 XT,h2 XT,......},集合内元素的个数是该联合树二(XT) 中树节点数量;得到更新后的节点向量表示三为:HRT={h1 RT,h2 RT,......},集合内元素的个数是该联合树三(RT)中树节点数量。
将所述节点向量表示一、所述节点向量表示二、所述树节点向量表示二和所述树节点向 量表示三进行树解码转换为所述联合树一。
具体的,采用树解码器生成目标分子部分子图的联合树结构。
目标分子部分子图的联合树结构生成过程从一个树根节点开始,然后以深度优先图搜索 的方式递归生成新的树节点。在搜索过程中,每一步(访问到每一个树节点)时都需要去做 出一个动作决定(拓扑结构预测):为当前节点扩展一个孩子节点(如图2中的1->2)或者 返回当前节点的父亲节点(如图2中的3->2)。另外,当决策动作选定为扩展一个孩子节点时, 树解码器还需要决定具体该树节点表示哪一个具体的分子子结构(标签预测);当决策动作 选定为返回父节点且此时父节点为根节点则得到生成结果。
更进一步的,将联合树中每条边用向量表示;将所述裁剪中心作为当前联合树的根节点, 从该根节点开始生成联合树。生成路径中的每条边(每次生成一条边,包括返回父节点的逆 向边)都用一个向量表示这条边的信息hit,jt,it和jt表示t时刻这条边两端的节点。该表示向 量的获取通过tree gated recurrent unit(GRU)。
例如,可以通过如下公式获取表示向量:
Figure BDA0002844496220000081
Figure BDA0002844496220000082
表示到t时刻为止,已经访问过的所有边的集合,形式如{(i1,j1),…,(im,jm)}。
Figure BDA0002844496220000083
表示所有与it相连且另一端非jt的边。xit是当前正在访问的联合树元素的 表示向量,该表示向量可以用所述D的one-hot编码来表示。
通过拓扑结构的预测做出动作决定;例如,可以通过如下公式:
Figure BDA0002844496220000084
Figure BDA0002844496220000085
Figure BDA0002844496220000086
进行预测。
其中,ht是对当前时刻联合树遍历状态的向量表示,pt是该t时刻拓扑结构预测的结果,大于 0.5表示为当前节点继续扩展一个孩子节点,小于等于0.5表示返回当前节点的父亲节点。f5、 f6、f7和f8均为标准神经网络。τ(.)为一个RELU函数。ud为模型学习参数。关于a1函数的计 算公式如下:
Figure BDA0002844496220000087
Figure BDA0002844496220000088
h* 1表示图(或树)*中的节点1,最后a1(H*)表示图(或树)*的整体向量表示。f9是一个标 准神经网络,[.]为向量拼接操作,|.|表示图中的节点数量。
通过标签预测得到树节点所表示的具体分子子结构:如前所述,如果拓扑结构的预测结 果是拓展一个新节点,那么新节点所对应的化学子结构也需要同时预测出来。例如,通过下 式:
Figure BDA0002844496220000091
Figure BDA0002844496220000092
Figure BDA0002844496220000093
Figure BDA0002844496220000094
进行预测。
f10、f11、f12为一个标准神经网络,ul为模型学习参数。qt为一个D中每个可能化学子结构的 概率分布,概率最高的作为该树节点所表示的化学分子子结构。
迭代以上过程,当遍历过程返回根节点,则联合树生成过程结束。在训练阶段,模型的每一 步输出都需要拟合AT的树结构,可以使用交叉熵损失函数作为损失函数。
进一步地,将所述源分子保留区域与所述联合树一拼接获得所述目标分子,包括:将所 述联合树一转换为分子图;将所述分子图与所述源分子保留区域拼接获得所述目标分子。
在将该联合树进行转换时,需要对联合树可能产生的分子结构进行挑选,挑选出最优的 原子组合。
具体的,当联合树确定后,则需要将该联合树转换为分子图。但是联合树向分子图的转 换并不是唯一的:同一个联合树可能转换为多个不同的分子图,因为两两树节点所代表的分 子结构之间可能存在多种组合方式,如图3所示,由于组合方式较多,则需要在两两树节点 之间选择最优的组合结果。
对于任意一个联合树中的节点i,所有围绕这个节点产生的可能分子结构组合表示为
Figure BDA0002844496220000095
但是只有一个为目标组合(即出现在AG中),记为G* i。将联合树中所有可 能的化学结构组合进行表示,可采用MPNs进行表示学习得到每个可能化学结构组合的向量 表示,记为
Figure BDA0002844496220000096
然后,训练挑选最优组合方式。通过打分函数来为每个可能的化学结构组合打分,例如,可 通过下式:
Figure BDA0002844496220000097
其中,f13为一个神经网络。测试阶段选取得分最高的组合作为最终的化学结构组合即可。 训练阶段图解码器的训练目标是最大化AG中的化学结构组合结果对应的分数,并最小化其它 组合分数。具体函数如下:
Figure RE-GDA0002974295960000104
其中,exp(.)为指数函数,log表示对数函数。fs为一个神经网络。
如图4所示,本申请还提供一种分子优化系统,所述系统包括:分子剪裁单元1,用于 确定源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构; 所述分子剪裁单元1包括所述分子剪裁单元包括解析模块和分子剪裁器;所述解析模块,用 于解析源分子的待裁剪区域;所述分子剪裁器,用于预测分子保留区域。
所述分子剪裁单元1还包括数据库和分子对匹配模块,所述数据库,用于提供分子对数 据;所述分子对匹配模块,用于从所述数据库获取符合条件的分子对,每个所述分子对包括 一个源分子和一个目标分子;在测试阶段由于目标分子未知不需要调用分子对匹配模块,在 训练阶段则需要通过分子对匹配模块来选择分子对。
生成单元2,用于将所述源分子和所述源分子保留区域转换为联合树一,所述联合树一 为所述目标分子中非共同分子子结构部分的联合树表示;所述生成单元2包括编码器和树解 码器,所述编码器,用于对所述源分子图(XG)和所述源分子保留区域子图(RG)进行编码, 得到节点向量表示一和节点向量表示二;对所述联合树二(XT)和所述联合树三(RT)进行 编码,得到树节点向量表示二和树节点向量表示三;所述树解码器,用于对该节点向量表示 一、该节点向量表示二、该树节点向量表示二和该树节点向量表示三进行树解码得到所述联 合树一。
分子拼接单元3,用于将所述源分子保留区域与所述联合树一拼接获得所述目标分子。
所述分子拼接单元3包括分子拼接模块;所述分子拼接模块,用于生成目标分子。
所述分子拼接模块包括分子图转换子模块和合并子模块,所述分子图转换子模块将所述 联合树一转换为分子图,所述合并子模块将所述分子图与所述保留区域合并生成目标分子。
本申请还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述 处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施 例中的步骤。
该实施例的终端设备包括:至少一个处理器(图5中仅示出一个)处理器、存储器以及 存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述 计算机程序时实现下述任意各个代谢路径预测方法实施例中的步骤。
本申请实施例提供的分子优化方法可以应用于平板电脑、笔记本电脑、超级移动个人 计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任 何限制。
例如,所述终端设备可以是WLAN中的站点(STAION,ST),可以是个人数字处理(Personal Digital Assistant,PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式 计算设备、卫星无线设备、无线调制解调器卡。
所述终端设备可以是台式计算机、笔记本、掌上电脑及云端服务器等计算设备。该终 端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,仅仅是终端设备的举例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其 他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处 理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述终端设备的内部存储单元,例如终端设备的硬盘 或内存。所述存储器在另一些实施例中也可以是所述终端设备的外部存储设备,例如所述 终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,MC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算 机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使 得终端设备执行时实现可实现上述各个方法实施例中的步骤。所述集成的单元如果以软件功 能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质 中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机 程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该 计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程 序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行 文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带 到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、 电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过 其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所 述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例 如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。 另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装 置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部 件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单 元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对 本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例 所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替 换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在 本申请的保护范围之内。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例 中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算 法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬 件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以 对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请 的范围。

Claims (10)

1.一种分子优化方法,其特征在于:所述方法包括:
获取源分子,根据目标分子对所述源分子进行裁剪获得源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;
将所述源分子和所述源分子保留区域转换为联合树一,所述联合树一为所述目标分子中非共同分子子结构部分的联合树表示;
将所述源分子保留区域与所述联合树一拼接获得所述目标分子。
2.如权利要求1所述的分子优化方法,其特征在于:所述裁剪包括:
解析所述源分子的待裁剪区域,根据所述带裁剪区域确定裁剪中心,根据所述裁剪中心确定裁剪分支,对所述裁剪分支进行裁剪获得所述源分子保留区域。
3.如权利要求2所述的分子优化方法,其特征在于:所述解析所述源分子的待裁剪区域包括:
遍历所述源分子中的节点一,遍历所述目标分子中的节点二,所述节点一与所述节点二的化学元素相同;
遍历节点一的分支一得到第一分支,遍历节点二的分支二得到第二分支,所述第一分支与所述第二分支相同,将所述第一分支或者第二分支中节点数进行记录;
取节点数中数值最大的所述节点一,所述第一分支为保留区域;所述第一分支以外的分支为待裁剪区域。
4.如权利要求3所述的分子优化方法,其特征在于:所述确定裁剪中心包括:
获取所述节点一的向量表示一;对所述向量表示一进行聚合得到所述源分子的向量表示二;结合所述向量表示一与所述向量表示二预测所述节点一作为所述裁剪中心的概率,对所述节点数进行归一化处理得到节点概率分布,所述节点概率分布数值最大的节点为所述裁剪中心。
5.如权利要求4所述的分子优化方法,其特征在于:所述确定裁剪分支包括:
获取分支三的向量表示三,所述分支三为所述剪裁中心的分支,通过所述向量表示一、所述向量表示三和所述第一分支的向量表示预测所述分支三的裁剪概率,对所述分支三的裁剪与否做出决策。
6.如权利要求1所述的分子优化方法,其特征在于:将所述源分子和所述源分子保留区域转换为联合树一包括:
将所述源分子转换为联合树二,将所述源分子保留区域转换为联合树三;
对所述源分子进行编码得到节点向量表示一,对所述源分子保留区域进行编码得到节点向量表示二,对所述联合树二进行编码得到树节点向量表示二,对所述联合树三进行编码得到树节点向量表示三;
将所述节点向量表示一、所述节点向量表示二、所述树节点向量表示二和所述树节点向量表示三进行树解码转换为所述联合树一。
7.如权利要求1所述的分子优化方法,其特征在于:将所述源分子保留区域与所述联合树一拼接获得所述目标分子,包括:
将所述联合树一转换为分子图;
将所述分子图与所述源分子保留区域拼接获得所述目标分子。
8.一种分子优化系统,其特征在于:所述系统包括分子剪裁单元、生成单元和分子拼接单元;
所述分子剪裁单元,用于确定源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;
所述生成单元,用于将所述源分子和所述源分子保留区域转换为联合树一,所述联合树一为所述目标分子中非共同分子子结构部分的联合树表示;
所述分子拼接单元,用于将所述源分子保留区域与所述联合树一拼接获得所述目标分子。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所属计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202011504557.0A 2020-12-18 2020-12-18 一种分子优化方法、系统、终端设备及可读存储介质 Active CN112735540B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011504557.0A CN112735540B (zh) 2020-12-18 2020-12-18 一种分子优化方法、系统、终端设备及可读存储介质
PCT/CN2021/136860 WO2022127688A1 (zh) 2020-12-18 2021-12-09 一种分子优化方法、系统、终端设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011504557.0A CN112735540B (zh) 2020-12-18 2020-12-18 一种分子优化方法、系统、终端设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112735540A true CN112735540A (zh) 2021-04-30
CN112735540B CN112735540B (zh) 2024-01-05

Family

ID=75603140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011504557.0A Active CN112735540B (zh) 2020-12-18 2020-12-18 一种分子优化方法、系统、终端设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN112735540B (zh)
WO (1) WO2022127688A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114171138A (zh) * 2021-12-14 2022-03-11 北京航空航天大学 一种面向化合物建模的集合表示学习方法
WO2022127688A1 (zh) * 2020-12-18 2022-06-23 深圳先进技术研究院 一种分子优化方法、系统、终端设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088118A1 (en) * 2001-03-15 2004-05-06 Axel Jensen Method for generating a hierarchical topologican tree of 2d or 3d-structural formulas of chemical compounds for property optimisation of chemical compounds
US20200050737A1 (en) * 2018-08-10 2020-02-13 International Business Machines Corporation Molecular representation
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN111710376A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 大分子及团簇体系分块计算负载均衡方法及系统
CN112071373A (zh) * 2020-09-02 2020-12-11 深圳晶泰科技有限公司 药物分子筛选方法及系统
CN112086144A (zh) * 2020-08-28 2020-12-15 深圳先进技术研究院 分子生成方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020243440A1 (en) * 2019-05-31 2020-12-03 D. E. Shaw Research, Llc. Molecular graph generation from structural features using an artificial neural network
CN111816265B (zh) * 2020-06-30 2024-04-05 北京晶泰科技有限公司 一种分子生成方法和计算设备
CN112735540B (zh) * 2020-12-18 2024-01-05 深圳先进技术研究院 一种分子优化方法、系统、终端设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088118A1 (en) * 2001-03-15 2004-05-06 Axel Jensen Method for generating a hierarchical topologican tree of 2d or 3d-structural formulas of chemical compounds for property optimisation of chemical compounds
US20200050737A1 (en) * 2018-08-10 2020-02-13 International Business Machines Corporation Molecular representation
CN111710376A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 大分子及团簇体系分块计算负载均衡方法及系统
CN111695702A (zh) * 2020-06-16 2020-09-22 腾讯科技(深圳)有限公司 分子生成模型的训练方法、装置、设备及存储介质
CN112086144A (zh) * 2020-08-28 2020-12-15 深圳先进技术研究院 分子生成方法、装置、电子设备及存储介质
CN112071373A (zh) * 2020-09-02 2020-12-11 深圳晶泰科技有限公司 药物分子筛选方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022127688A1 (zh) * 2020-12-18 2022-06-23 深圳先进技术研究院 一种分子优化方法、系统、终端设备及可读存储介质
CN114171138A (zh) * 2021-12-14 2022-03-11 北京航空航天大学 一种面向化合物建模的集合表示学习方法

Also Published As

Publication number Publication date
CN112735540B (zh) 2024-01-05
WO2022127688A1 (zh) 2022-06-23

Similar Documents

Publication Publication Date Title
CN112800776B (zh) 双向gru关系抽取数据处理方法、系统、终端、介质
CN114048350A (zh) 一种基于细粒度跨模态对齐模型的文本-视频检索方法
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN108038183A (zh) 结构化实体收录方法、装置、服务器和存储介质
CN112530516B (zh) 一种代谢途径预测方法、系统、终端设备及可读存储介质
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN107770783B (zh) 一种基站扩容改造方案设计方法及相关设备
CN111428848B (zh) 基于自编码器和3阶图卷积的分子智能设计方法
CN110874535B (zh) 依存关系对齐组件、依存关系对齐训练方法、设备及介质
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
CN112735540A (zh) 一种分子优化方法、系统、终端设备及可读存储介质
KR102109369B1 (ko) 시계열 데이터의 변화를 예측하고 그 이유를 설명하는 인공지능 시스템
CN104182489B (zh) 一种文本大数据的查询处理方法
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN112199884A (zh) 物品分子生成方法、装置、设备及存储介质
CN113515540A (zh) 一种数据库的查询重写方法
CN112509644B (zh) 一种分子优化方法、系统、终端设备及可读存储介质
CN107368895A (zh) 一种结合机器学习和自动规划的动作知识提取方法
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
CN112784049B (zh) 一种面向文本数据的在线社交平台多元知识获取方法
CN113792594A (zh) 一种基于对比学习的视频中语言片段定位方法及装置
CN117252186A (zh) 基于xai的信息处理方法、装置、设备及存储介质
CN112685452A (zh) 企业案例检索方法、装置、设备和存储介质
Mu et al. TSC-AutoML: meta-learning for automatic time series classification algorithm selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant