CN112199884A - 物品分子生成方法、装置、设备及存储介质 - Google Patents

物品分子生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112199884A
CN112199884A CN202010930227.1A CN202010930227A CN112199884A CN 112199884 A CN112199884 A CN 112199884A CN 202010930227 A CN202010930227 A CN 202010930227A CN 112199884 A CN112199884 A CN 112199884A
Authority
CN
China
Prior art keywords
node
molecule
molecular
tree structure
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010930227.1A
Other languages
English (en)
Inventor
郑奕嘉
吴红艳
蔡云鹏
纪超杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202010930227.1A priority Critical patent/CN112199884A/zh
Publication of CN112199884A publication Critical patent/CN112199884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请适用于计算机辅助物品设计技术领域,提供了一种物品分子生成方法、装置、设备及存储介质。该方法包括:将源分子的第一分子图结构和第一联结树结构输入至分子生成模型中,通过分子生成模型,对第一分子图结构和第一联结树结构进行编码,得到源分子的嵌入表示;基于标签集合中各个子结构的结构信息以及该嵌入表示进行解码,生成目标分子的第二联结树结构;对第二联结树结构进行解码,得到目标分子的第二分子图结构。通过结合标签集合中各个子结构的结构信息和源分子的嵌入表示进行解码,可以很好地利用标签集合中各个子结构本身具有的结构信息,来对目标分子的联结树结构进行预测,提高了预测结果的合理性,缓解了标签不平衡的影响。

Description

物品分子生成方法、装置、设备及存储介质
技术领域
本申请属于计算机辅助物品设计技术领域,尤其涉及一种物品分子生成方法、装置及存储介质。
背景技术
计算机辅助物品设计是一个计算机与生物、化学相结合的新兴领域,其中,物品分子生成是该领域下的一个重要研究方向,如药物分子生成或新型材料分子生成等。通过计算机辅助能够自动从数据中获取知识并生成具有更好理化性质的目标分子结构,能够减少对专家知识的依赖,同时能够减少对海量分子数据进行实验带来的时间成本和金钱成本,具有重要的现实意义。
相关技术中,通常将理化性质较差的源分子与理化性质较好的目标分子组成分子对,基于大量分子对通过监督学习的方式训练分子生成模型,然后针对给定的源分子,通过训练好的分子生成模型预测对应的目标分子结构。其中,在通过训练好的分子生成模型进行预测时,可以将所有子结构集合当作无意义的标签集合,通过全连接层多分类的方式预测目标分子结构中待生成的结点属于标签集合中每个标签的可能性,基于预测的可能性生成目标分子结构。
但是上述方式具有一定的局限性,容易受到标签不平衡的影响,即容易受到标签集合中标签出现频率的影响。比如,对于出现频率较高的标签预测到的可能性往往较高,而出现频率较低的标签预测到的可能性往往较低。
发明内容
本申请实施例提供了一种物品分子生成方法、装置、设备及存储介质,可以解决相关分子生成模型具有一定的局限性,容易受到标签不平衡的影响的问题。
第一方面,本申请实施例提供了一种物品分子生成方法,包括:
获取源分子的第一分子图结构和第一联结树结构,所述第一联结树结构是基于所述第一分子图结构生成的;
将所述第一分子图结构和所述第一联结树结构输入至分子生成模型中,通过所述分子生成模型,对所述第一分子图结构和所述第一联结树结构进行编码,得到所述源分子的嵌入表示;
通过所述分子生成模型,基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码,生成目标分子的第二联结树结构,所述标签集合包括多个子结构,所述多个子结构是从多个样本分子的联结树结构中提取的结点;
通过所述分子生成模型,对所述第二联结树结构进行解码,得到所述目标分子的第二分子图结构。
可选地,所述基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码,包括:
对于所述第二联结树结构中待生成的当前结点,若所述当前结点为根结点,则基于所述嵌入表示生成所述当前结点的第一中间特征表示,将所述第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,所述多个子结构图为所述多个子结构的分子图;
对所述多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示所述当前结点为每个拼接特征向量所对应的子结构的概率;
基于每个拼接特征向量的标签预测概率,确定所述当前结点对应的子结构。
可选地,所述基于所述嵌入表示生成所述当前结点的第一中间特征表示,包括:
通过注意力机制对所述嵌入表示进行聚合处理,生成所述当前结点的上下文特征向量;
基于所述上下文特征向量,生成所述第一中间表示。
可选地,所述基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码,包括:
对于所述第二联结树结构中已生成的当前结点,基于所述嵌入表示生成所述当前结点的拓扑预测概率,所述拓扑预测概率用于指示所述当前结点是否有待扩展的孩子结点;
若基于所述拓扑预测概率确定所述当前结点有待扩展的孩子结点,则基于所述嵌入表示生成所述当前结点的第一中间特征表示,将所述第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,所述多个子结构图为所述多个子结构的分子图;
对所述多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示所述当前结点待扩展的孩子结点为每个拼接特征向量所对应的子结构的概率;
基于每个拼接特征向量的标签预测概率,确定所述当前结点待扩展的孩子结点对应的子结构。
可选地,所述基于所述嵌入表示生成所述当前结点的拓扑预测概率,包括:
对输入所述当前结点的所有边的特征向量以及所述当前结点的特征向量进行汇聚,生成所述当前结点的第二中间特征表示;
基于所述第二中间特征表示和所述嵌入表示,生成所述当前结点的拓扑预测概率。
可选地,所述基于所述嵌入表示生成所述当前结点的第一中间特征表示,包括:
对输入所述当前结点的所有边的特征向量以及所述当前结点的特征向量进行汇聚,生成所述当前结点的扩展边的特征向量,所述拓展边为从所述当前结点指向待扩展的孩子结点的有向边;
基于所述拓展边的特征向量和所述嵌入表示,生成所述第一中间特征表示。
可选地,所述基于所述拓展边的特征向量和所述嵌入表示,生成所述第一中间特征表示,包括:
通过注意力机制对所述扩展边的特征向量和所述嵌入表示进行聚合处理,得到所述当前结点的上下文特征向量;
将所述扩展边的特征向量与所述上下文特征向量进行拼接,得到所述第一中间特征表示。
可选地,所述基于所述嵌入表示生成所述当前结点的拓扑预测概率之后,还包括:
若基于所述拓扑预测概率确定所述当前结点没有待扩展的孩子结点,则退回至所述当前结点的上一个结点,并将所述上一个结点作为当前结点,返回基于所述嵌入表示生成所述当前结点的拓扑预测概率的步骤,直至退回至根结点且所述根结点的拓扑预测概率指示所述根结点没有待扩展的孩子结点为止。
可选地,所述对所述第二联结树结构进行解码,得到所述目标分子的第二分子图结构,包括:
基于所述第二联结树结构中相邻结点的可能连接方式,构建所述目标分子的候选分子图结构,得到多个候选分子图结构;
对所述多个候选分子图结构中每个候选分子图结构进行编码,得到每个候选分子图结构中各个结点的嵌入表示,基于每个候选分子图结构中各个结点的嵌入表示,生成每个候选分子图结构的特征向量;
对每个候选分子图结构的特征向量以及所述源分子的分子图结构中各个结点的嵌入表示进行处理,得到每个候选分子图结构的预测概率;
基于所述多个候选分子图结构的预测概率,确定所述目标分子对应的分子图结构,得到所述第二分子图结构。
可选地,所述获取源分子的第一分子图结构和第一联结树结构,包括:
获取以字符串表示的源分子数据,对以字符串表示的源分子数据进行解析,得到所述源分子中各个原子的原子类型以及原子之间的化合键信息;
基于所述源分子中各个原子的原子类型以及原子之间的化合键信息,构建所述源分子的分子图结构,得到所述第一分子图结构;其中,所述源分子中的原子构成所述第一分子图结构中的结点,所述源分子中原子间的化合键构成所述第一分子图结构中的边;
将所述第一分子图结构中的每个环结构以及除环结构之外的每条边均抽象为结点,并将抽象的结点进行连接,生成所述源分子的联结树结构,得到所述第一联结树结构。
可选地,所述对所述第一分子图结构和所述第一联结树结构进行编码,得到所述源分子的嵌入表示,包括:
采用图神经网络GCN对所述第一分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一分子图结构中各个结点的嵌入表示,基于所述第一分子图结构中各个结点的嵌入表示生成所述源分子的第一嵌入表示;
采用图神经网络GCN对所述第一联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一联结树结构中各个结点的嵌入表示,基于所述第一联结树结构中各个结点的嵌入表示生成所述源分子的第二嵌入表示。
可选地,所述采用图神经网络GCN对所述第一分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一分子图结构中各个结点的嵌入表示,包括:
对于所述第一分子图结构中从第一结点指向第二结点的第一有向边,基于所述第一结点的特征向量、所述第一结点与所述第二结点之间的无向边的特征向量、以及指向所述第一结点的有向边的特征向量进行迭代处理,生成所述第一有向边更新后的特征向量,所述第一结点和所述第二结点为所述第一分子图结构中的任意相邻结点;
对于所述第一分子图结构中的第三结点,基于所述第三结点的特征向量以及所有指向所述第三结点的有向边更新后的特征向量,生成所述第三结点的嵌入表示,所述第三结点为所述第一分子图结构中的任一结点。
可选地,所述采用图神经网络GCN对所述第一联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一联结树结构中各个结点的嵌入表示,包括:
对于所述第一联结树结构中从第四结点指向第五结点的第二有向边,基于所述第四结点的特征向量、所述第四结点与所述第五结点之间的无向边的特征向量、以及指向所述第四结点的有向边的特征向量进行迭代处理,生成所述第二有向边更新后的特征向量,所述第四结点和所述第五结点为所述第一联结树结构中的任意相邻结点;
对于所述第一联结树结构中的第六结点,基于所述第六结点的特征向量以及所有指向所述第六结点的有向边更新后的特征向量,生成所述第六结点的嵌入表示,所述第六结点为所述第一联结树结构中的任一结点。
可选地,所述基于标签集合中各个子结构的结构信息,对所述嵌入表示进行解码之前,还包括:
获取多个样本分子对中各个分子的联结树结构,每个样本分子对包括样本源分子和样本目标分子,所述样本目标分子的理化性质优于所述样本源分子;
提取所述多个样本分子对中各个样本分子的联结树结构中的结点;
对提取的结点进行去重处理,基于去重处理后的结点构建所述标签集合。
可选地,所述通过所述分子生成模型,对所述第一分子图结构和所述第一联结树结构进行编码之前,还包括:
获取多个样本源分子的分子图结构和联结树结构,所述多个样本源分子为多个样本分子对中的样本源分子,所述多个样本分子对还包括与所述多个样本源分子一一对应的多个样本目标分子;
将所述多个样本源分子的分子图结构和联结树结构输入到待训练分子生成模型中,通过所述待训练分子生成模型,对所述多个样本源分子的分子图结构和联结树结构进行编码,得到所述多个样本源分子的嵌入表示;
通过所述待训练分子生成模型,基于所述标签集合中各个子结构的结构信息,对所述多个样本源分子的嵌入表示进行解码,生成所述多个样本源分子分别对应的多个目标分子的联结树结构;
通过所述待训练分子生成模型,对所述多个目标分子的联结树结构进行解码,生成所述多个目标分子的分子图结构;
基于所述多个目标分子的分子图结构与所述多个样本目标分子的分子图结构之间的预测误差,对所述待训练分子生成模型的模型参数进行调整,将模型参数调整后的待训练分子生成模型,确定为所述分子生成模型。
第二方面,提供了一种物品分子生成装置,所述装置包括:
第一获取模块,用于获取源分子的第一分子图结构和第一联结树结构,所述第一联结树结构是基于所述第一分子图结构生成的;
编码模块,用于将所述第一分子图结构和所述第一联结树结构输入至分子生成模型中,通过所述分子生成模型,对所述第一分子图结构和所述第一联结树结构进行编码,得到所述源分子的嵌入表示;
第一解码模块,用于通过所述分子生成模型,基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码,生成目标分子的第二联结树结构,所述标签集合包括多个子结构,所述多个子结构是从多个样本分子的联结树结构中提取的结点;
第二解码模块,用于通过所述分子生成模型,对所述第二联结树结构进行解码,生成所述目标分子的第二分子图结构。
可选地,所述第一解码模块用于:
对于所述第二联结树结构中待生成的当前结点,若所述当前结点为根结点,则基于所述嵌入表示生成所述当前结点的第一中间特征表示,将所述第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,所述多个子结构图为所述多个子结构的分子图;
对所述多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示所述当前结点为每个拼接特征向量所对应的子结构的概率;
基于每个拼接特征向量的标签预测概率,确定所述当前结点对应的子结构。
可选地,所述第一解码模块用于:
通过注意力机制对所述嵌入表示进行聚合处理,生成所述当前结点的上下文特征向量;
基于所述上下文特征向量,生成所述第一中间表示。
可选地,所述第一解码模块用于:
对于所述第二联结树结构中已生成的当前结点,基于所述嵌入表示生成所述当前结点的拓扑预测概率,所述拓扑预测概率用于指示所述当前结点是否有待扩展的孩子结点;
若基于所述拓扑预测概率确定所述当前结点有待扩展的孩子结点,则基于所述嵌入表示生成所述当前结点的第一中间特征表示,将所述第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,所述多个子结构图为所述多个子结构的分子图;
对所述多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示所述当前结点待扩展的孩子结点为每个拼接特征向量所对应的子结构的概率;
基于每个拼接特征向量的标签预测概率,确定所述当前结点待扩展的孩子结点对应的子结构。
可选地,所述第一解码模块用于:
对输入所述当前结点的所有边的特征向量以及所述当前结点的特征向量进行汇聚,生成所述当前结点的第二中间特征表示;
基于所述第二中间特征表示和所述嵌入表示,生成所述当前结点的拓扑预测概率。
可选地,所述第一解码模块用于:
对输入所述当前结点的所有边的特征向量以及所述当前结点的特征向量进行汇聚,生成所述当前结点的扩展边的特征向量,所述拓展边为从所述当前结点指向待扩展的孩子结点的有向边;
基于所述拓展边的特征向量和所述嵌入表示,生成所述第一中间特征表示。
可选地,所述第一解码模块用于:
通过注意力机制对所述扩展边的特征向量和所述嵌入表示进行聚合处理,得到所述当前结点的上下文特征向量;
将所述扩展边的特征向量与所述上下文特征向量进行拼接,得到所述第一中间特征表示。
可选地,所述第一解码模块还用于:
若基于所述拓扑预测概率确定所述当前结点没有待扩展的孩子结点,则退回至所述当前结点的上一个结点,并将所述上一个结点作为当前结点,返回基于所述嵌入表示生成所述当前结点的拓扑预测概率的步骤,直至退回至根结点且所述根结点的拓扑预测概率指示所述根结点没有待扩展的孩子结点为止。
可选地,所述第二解码模块用于:
基于所述第二联结树结构中相邻结点的可能连接方式,构建所述目标分子的候选分子图结构,得到多个候选分子图结构;
对所述多个候选分子图结构中每个候选分子图结构进行编码,得到每个候选分子图结构中各个结点的嵌入表示,基于每个候选分子图结构中各个结点的嵌入表示,生成每个候选分子图结构的特征向量;
对每个候选分子图结构的特征向量以及所述源分子的分子图结构中各个结点的嵌入表示进行处理,得到每个候选分子图结构的预测概率;
基于所述多个候选分子图结构的预测概率,确定所述目标分子对应的分子图结构,得到所述第二分子图结构。
可选地,所述第一获取模块用于:
获取以字符串表示的源分子数据,对以字符串表示的源分子数据进行解析,得到所述源分子中各个原子的原子类型以及原子之间的化合键信息;
基于所述源分子中各个原子的原子类型以及原子之间的化合键信息,构建所述源分子的分子图结构,得到所述第一分子图结构;其中,所述源分子中的原子构成所述第一分子图结构中的结点,所述源分子中原子间的化合键构成所述第一分子图结构中的边;
将所述第一分子图结构中的每个环结构以及除环结构之外的每条边均抽象为结点,并将抽象的结点进行连接,生成所述源分子的联结树结构,得到所述第一联结树结构。
可选地,所述编码模块用于:
采用图神经网络GCN对所述第一分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一分子图结构中各个结点的嵌入表示,基于所述第一分子图结构中各个结点的嵌入表示生成所述源分子的第一嵌入表示;
采用图神经网络GCN对所述第一联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一联结树结构中各个结点的嵌入表示,基于所述第一联结树结构中各个结点的嵌入表示生成所述源分子的第二嵌入表示。
可选地,所述编码模块用于:
对于所述第一分子图结构中从第一结点指向第二结点的第一有向边,基于所述第一结点的特征向量、所述第一结点与所述第二结点之间的无向边的特征向量、以及指向所述第一结点的有向边的特征向量进行迭代处理,生成所述第一有向边更新后的特征向量,所述第一结点和所述第二结点为所述第一分子图结构中的任意相邻结点;
对于所述第一分子图结构中的第三结点,基于所述第三结点的特征向量以及所有指向所述第三结点的有向边更新后的特征向量,生成所述第三结点的嵌入表示,所述第三结点为所述第一分子图结构中的任一结点。
可选地,所述编码模块用于:
对于所述第一联结树结构中从第四结点指向第五结点的第二有向边,基于所述第四结点的特征向量、所述第四结点与所述第五结点之间的无向边的特征向量、以及指向所述第四结点的有向边的特征向量进行迭代处理,生成所述第二有向边更新后的特征向量,所述第四结点和所述第五结点为所述第一联结树结构中的任意相邻结点;
对于所述第一联结树结构中的第六结点,基于所述第六结点的特征向量以及所有指向所述第六结点的有向边更新后的特征向量,生成所述第六结点的嵌入表示,所述第六结点为所述第一联结树结构中的任一结点。
可选地,所述装置还包括:
第二获取模块,用于获取多个样本分子对中各个分子的联结树结构,每个样本分子对包括样本源分子和样本目标分子,所述样本目标分子的理化性质优于所述样本源分子;
提取模块,用于提取所述多个样本分子对中各个样本分子的联结树结构中的结点,对提取的结点进行去重处理;
标签构建模块,用于基于去重处理后的结点构建所述标签集合。
可选地,所述装置还包括:
第三获取模块,用于获取多个样本源分子的分子图结构和联结树结构,所述多个样本源分子为多个样本分子对中的样本源分子,所述多个样本分子对还包括与所述多个样本源分子一一对应的多个样本目标分子;
训练模块,用于将所述多个样本源分子的分子图结构和联结树结构输入到待训练分子生成模型中,通过所述待训练分子生成模型,对所述多个样本源分子的分子图结构和联结树结构进行编码,得到所述多个样本源分子的嵌入表示;通过所述待训练分子生成模型,基于所述标签集合中各个子结构的结构信息,对所述多个样本源分子的嵌入表示进行解码,生成所述多个样本源分子分别对应的多个目标分子的联结树结构;通过所述待训练分子生成模型,对所述多个目标分子的联结树结构进行解码,生成所述多个目标分子的分子图结构;基于所述多个目标分子的分子图结构与所述多个样本目标分子的分子图结构之间的预测误差,对所述待训练分子生成模型的模型参数进行调整,将模型参数调整后的待训练分子生成模型,确定为所述分子生成模型。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。
第五方面,提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的方法。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例中,将源分子的分子图结构和联结树结构作为生成模型的输入,通过分子生成模型,先对源分子的分子图结构和联结树结构进行编码,得到源分子的嵌入表示,然后基于标签集合中各个子结构的结构信息以及源分子的嵌入表示进行解码,生成目标分子的联结树结构,再对目标分子的联结树结构进行解码,生成目标分子的分子图结构。通过结合标签集合中各个子结构的结构信息以及源分子的嵌入表示进行解码,可以很好地利用标签集合中各个子结构本身具有的结构信息,来对目标分子的联结树结构进行预测,提高了预测结果的合理性,缓解了标签不平衡的影响。而且,该模型能够学习到子结构本身的结构信息,在标签集合中的某些子结构出现频率较低的情况下,该模型能够基于其他相似的子结构来辅助预测目标分子的结构特性,使得预测结果更加合理。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种物品分子生成系统示意图;
图2是本申请实施例提供的一种分子生成模型的模型结构示意图;
图3是本申请实施例提供的一种分子生成模型的训练方法流程图;
图4是本申请实施例提供的一种分子图结构及其对应的联结树结构的示意图;
图5是本申请实施例提供的一种联结树结构的生成过程示意图;
图6是本申请实施例提供的一种传统的标签预测方式和改进后的标签预测方式的对比示意图;
图7是本申请实施例提供的一种物品分子生成方法的流程示意图;
图8是本申请实施例提供的一种物品分子生成装置的结构框图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
相关技术中,在通过训练好的分子生成模型进行预测时,通常将所有子结构集合当作无意义的标签集合,通过全连接层多分类的方式预测目标分子结构中待生成的结点属于标签集合中每个标签的可能性,基于预测的可能性生成目标分子结构。但是这种预测方式具有一定的局限性,容易受到标签不平衡的影响,即容易受到标签集合中标签出现频率的影响,且缺乏在新的子结构上的泛化能力。比如,对于出现频率较高的标签预测到的可能性往往较高,而出现频率较低的标签预测到的可能性往往较低。
本申请实施例中,通过在标签预测阶段,结合标签集合中各个子结构的结构信息和源分子的嵌入表示进行解码,生成目标分子的联结树结构,再对目标分子的联结树结构进行解码,生成目标分子的分子图结构,可以很好地利用标签集合中各个子结构本身具有的结构信息,来对目标分子的联结树结构进行预测,提高了预测结果的合理性,缓解了标签不平衡的影响。而且,该模型能够学习到子结构本身的结构信息,在标签集合中的某些子结构出现频率较低的情况下,该模型能够基于其他相似的子结构来辅助预测目标分子的结构特性,使得预测结果更加合理。另外,通过结合标签集合中各个子结构的结构信息以及源分子的嵌入表示进行解码预测,能够将生成阶段中生成的新的子结构的结构信息加入到标签集合中进行结构预测,提高了模型的泛化能力。
本申请实施例提供的物品分子生成方法涉及计算机辅助物品设计技术和人工智能(Artificial Intelligence,AI)技术。计算机辅助物品设计是一个计算机与生物、化学相结合的新兴领域,其中,物品分子生成是该领域下的一个重要研究方向,如药物分子生成或新型材料分子生成等。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术,深度学习包括人工神经网络(Artificial NeuralNetworks),例如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep neural network,DNN)等。
本申请实施例提供的物品分子生成方法可应用于药物分子生成、新型材料分子生成等分子生成或分子设计领域,当然也可以应用于其他相关领域,本申请实施例对此不作限定。
本申请实施例提供的物品分子生成方法可以应用于终端设备或服务器等计算机设备上,终端设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmentedreality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digitalassistant,PDA)等,本申请实施例对终端设备的具体类型不作任何限制。
为了便于理解,接下来先对本申请实施例涉及的实施环境进行介绍。请参考图1,图1是本申请实施例提供的一种物品分子生成系统示意图,如图1所示,该物品分子生成系统包括:数据预处理模块11和分子生成模型12。
其中,数据预处理模块11用于构建源分子的分子图结构和联结树结构,源分子的分子图结构和联结树结构可以作为分子生成模型12的输入。分子生成模型12用于对源分子的分子图结构和联结树结构进行处理,生成源分子对应的目标分子的分子图结构。
另外,在模型训练阶段,数据预处理模块11还可以用于构建分子对数据库,以及构建分子对数据库中各个样本源分子的分子图结构和联结树结构,以及各个样本目标分子的分子图结构和联结树结构。其中,分子对数据库中包括多个样本分子对,每个样本分子对包括一对样本源分子和样本目标分子。
请参考图2,图2是本申请实施例提供的一种分子生成模型的模型结构示意图,如图2所示,该模型包括编码器21、第一解码器22和第二解码器23。
其中,编码器21用于对源分子的分子图结构和联结树结构进行编码,得到源分子的嵌入表示。比如,对源分子x的分子图结构Gx进行编码,得到源分子的第一嵌入表示XG;对源分子的联结树结构Tx进行编码,得到源分子的第二嵌入表示XT
其中,第一解码器22为联结树解码器,用于基于标签集合中各个子结构的结构信息以及源分子的嵌入表示进行解码,生成目标分子的联结树结构。其中,标签集合包括多个子结构,多个子结构是从多个样本分子的联结树结构中提取的结点。比如,基于标签集合中各个子结构的结构信息,以及源分子的第一嵌入表示XG和第二嵌入表示XT进行解码,生成目标分子y的联结树结构Ty
其中,第二解码器23为分子图解码器,用于对目标分子的联结树结构XG进行解码,得到目标分子的分子图结构。比如,基于源分子的第一嵌入表示XG和目标分子的联结树结构Ty进行解码,生成目标分子的联结树结构Gy
需要说明的是,编码器21的具体编码过程,以及第一解码器22和第二解码器23具体解码过程将在下述方法实施例中进行详细说明,本申请实施例在此先不做赘述。
对于本申请实施例提供的物品分子生成方法采用的分子生成模型,该分子生成模型需要预先利用样本数据进行训练,为了便于理解,接下来,先对该分子生成模型的训练过程进行介绍。
图3是本申请实施例提供的一种分子生成模型的训练方法流程图,该方法应用于计算机设备中,如图3所示,该方法包括如下步骤:
步骤301:获取多个样本分子对,多个样本分子对中每个样本分子对包括一对样本源分子和样本目标分子,且样本目标分子的理化性质优于样本源分子。
需要说明的是,本申请实施例所述的分子为物品分子,具体可以为药物分子或新型材料分子等,本申请实施例对此不作限定。
作为一个示例,多个样本分子对为满足预设条件的样本分子对。该预设条件可以预先设置。比如,该预设条件可以包括其中的样本目标分子的属性值大于样本源分子的属性值。如此,可以保证样本目标分子相对于样本源分子有比较大的属性值提升。示例的,该预设条件可以包括样本目标分子的属性值大于属性阈值,样本源分子的属性值小于属性阈值。该属性阈值可以预先设置,比如属性阈值为08或0.9等。
其中,该属性值用于指示对应分子的理化性质,如logP(分子脂水分配系数的对数值)等。示例的,属性值可以通过RDKit工具包(一种开源化学信息工具包)中对应的属性值计算工具进行计算得到。
进一步地,该预设条件还可以包括样本源分子和样本目标分子的相似性大于相似度阈值。如此,可以保证样本目标分子与样本源分子有相似的结构,同时样本目标分子相对于样本源分子有比较大的属性值提升。
其中,该相似度阈值可以预先设置,比如相似度阈值为0.4或0.5等。示例的,两个分子间的相似度可以通过RDKit工具包中提供的FingerPrint(分子指纹)向量之间的Tanimoto相似度进行衡量。示例的,若样本分子为药物分子,则样本源分子和样本目标分子的相似性可以为QED(药物相似性)。
作为一个示例,样本分子对中的样本源分子和样本目标分子可以为以字符串表示的分子数据,比如以SMILES(Simplified Molecular Input Line Entry System,简化分子线性输入规范)字符串表示的分子数据。示例的,可以从化合物数据库中获取以SMILES字符串表示的分子数据。
作为一个示例,可以从化合物数据库中提取分子,然后枚举提取的分子中的分子对组合方式,得到初始分子对数据集。然后,从初始分子对数据集中筛选出满足预设条件的分子对,得到多个样本分子对。这多个样本分子对即可作为最终构建的分子对数据集。
作为一个示例,可以从初始分子对数据集中筛选分子对中样本源分子和样本目标分子相似性在给定的相似度阈值δ1以上,以及样本源分子的属性值在给定的属性阈值δ2以下,样本目标分子属性值在给定阈值δ2以上的分子对,作为最终构建的分子对数据集。
步骤302:获取多个样本分子对中各个样本分子的分子图结构和联结树结构。
其中,各个样本分子包括各个样本源分子和各个样本目标分子。也即是,获取多个样本分子中的多个样本源分子的分子图结构和联结树结构,以及多个样本分子对中的多个样本目标分子的分子图结构和联结树结构。
其中,各个样本分子的联结树结构是基于各个样本分子的分子图结构生成的,因此,可以先构建样本分子的分子图结构,再基于样本分子的分子图结构构建样本分子的联结树结构。
作为一个示例,对于多个样本分子中的任一样本分子,获取该样本分子的分子图结构和联结树结构的操作可以包括如下步骤:
1)对以字符串表示的样本分子数据进行解析,构建样本分子的分子图结构。
作为一个示例,可以对以字符串表示的样本分子数据进行解析,得到样本分子中各个原子的原子类型以及原子之间的化合键信息。基于样本分子中各个原子的原子类型以及原子之间的化合键信息,构建样本分子的分子图结构。
其中,样本分子中的原子构成分子图结构中的结点,样本分子中原子间的化合键构成分子图结构中的边。示例的,分子图结构可以用
Figure BDA0002669943890000163
表示,其中,G代表分子图结构,
Figure BDA0002669943890000161
代表结点集合,EG代表边集合。
另外,分子图结构中结点的特征向量可以为对应原子的原子类型的独热编码向量,分子图结构中边的特征向量为对应化合键的键价的独热编码向量。
作为一个示例,可以使用RDKit工具包对以字符串表示的样本分子数据进行解析,比如,使用RDKit工具包对以SMILES字符串表示的样本分子数据进行解析,来构建样本分子的分子图结构。
2)基于样本分子的分子图结构,构建样本分子的联结树结构。
作为一个示例,可以将分子图结构中的每个环结构以及除环结构之外的每条边均抽象为结点,并将抽象的结点进行连接,生成对应分子的联结树结构。示例的,联结树结构可以用
Figure BDA0002669943890000162
表示,其中,T表示联结树结构,
Figure BDA0002669943890000164
代表其中的结点集合,ET代表边集合。
作为一个示例,可以遍历分子图结构中的所有环结构,将每个环结构都抽象成一个结点,然后将剩下的不属于环结构部分的每一条边都抽象成一个结点,这样整个分子图结构就可以用由这些环或者边构成的子结构连接而成的树状结构表示,即得到对应分子的联结树表示,从而能够比较简单地使用树生成的方法来生成分子结构。请参考图4,图4是本申请实施例提供的一种分子图结构及其对应的联结树结构的示意图。
步骤303:提取多个样本分子对中各个样本分子的联结树结构中的结点,基于提取的结点构建标签集合,标签集合包括多个子结构,多个子结构是从多个样本分子的联结树结构中提取的结点。
其中,标签集合中不包括重复的子结构。该标签集合可以作为后续模型预测目标分子联结树的每个子结构时的候选子结构列表。
作为一个示例,可以提取多个样本分子对中各个样本分子的联结树结构中的结点(即每一个环或者边构成的子结构),然后对提取的结点进行去重处理,基于去重处理后的结点构建标签集合。
需要说明的是,本申请实施例中的分子生成模型整体可以采用与Graph-to-Graph(图到图)网络模型类似的编码器和解码器结构,主要改进的地方在于解码器预测联结树的子结构部分。与Graph-to-Graph网络模型将子结构的预测当作多分类问题不同,本申请实施例同时考虑了标签集合中所有子结构的结构信息,来提高模型的预测效果及泛化能力。
作为一个示例,分子生成模型整体流程为:根据前面构建好的样本分子的分子图结构及联结树结构,构建编码器和解码器。编码器用于对源分子进行编码,解码器用于根据编码器的编码内容解码出目标分子的联结树结构,并进一步解码出分子图结构。
需要说明的是,步骤301-303是构建分子对数据集,以及构建分子对数据集中各个样本分子的分子图结构和联结树结构的过程。在实际应用中,步骤301-303可以离线生成,也可以在线生成,本申请实施例对此不做限定。比如,若已生成分子对数据集中各个样本分子的分子图结构和联结树结构,则可以直接获取这些数据来进行模型训练,而无需执行步骤301-303。
步骤304:将多个样本源分子的分子图结构和联结树结构输入到待训练分子生成模型中,通过待训练分子生成模型,对多个样本源分子的分子图结构和联结树结构进行编码,得到多个样本源分子的嵌入表示。
也即是,可以将多个样本源分子的分子图结构和联结树结构作为训练样本,来对待训练分子生成模型进行训练。
作为一个示例,待训练分子生成模型包括编码器,可以通过编码器对多个样本源分子的分子图结构和联结树结构分别进行编码,得到多个样本源分子的嵌入表示。
编码器主要用于对输入的源分子的分子图结构和联结树结构进行特征映射,得到源分子的嵌入表示。作为一个示例,编码器可以使用GCN(Graph Convolutional Network,图神经网络)进行编码。比如,编码器可以基于信息传递框架,使用GCN(GraphConvolutional Network,图神经网络)对每个结点周围的邻居结点及边信息进行汇聚并更新当前结点的特征表示,进而生成每个结点的嵌入表示。
其中,样本源分子的嵌入表示可以包括对样本源分子的分子图结构进行编码得到的第一嵌入表示,以及对样本源分子的联结树结构进行编码得到的第二嵌入表示。
作为一个示例,对多个样本源分子的分子图结构和联结树结构分别进行编码,得到多个样本源分子的嵌入表示的操作可以包括如下步骤:
1)对各个样本源分子的分子图结构进行编码,得到各个样本源分子的第一嵌入表示。
作为一个示例,可以采用GCN对样本源分子的分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到分子图结构中各个结点的嵌入表示,基于分子图结构中各个结点的嵌入表示生成样本源分子的第一嵌入表示。
作为一个示例,采用GCN对样本源分子的分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到分子图结构中各个结点的嵌入表示可以包括如下边特征向量的过程以及结点特征向量的更新过程。
边特征向量的更新过程:对于分子图结构中从第一结点指向第二结点的第一有向边,基于第一结点的特征向量、第一结点与第二结点之间的无向边的特征向量、以及指向第一结点的有向边的特征向量进行迭代处理,生成第一有向边更新后的特征向量。
其中,第一结点和第二结点为第一分子图结构中的任意相邻结点,也即是,第一有向边为分子图结构中的任一有向边。第一结点与第二结点之间的无向边的特征向量包括从第一结点指向第二结点的有向边,以及从第二结点指向第一结点的有向边。指向第一结点的有向边为除第二结点之外的第一结点的邻居结点指向第一结点的有向边。迭代处理的迭代次数可以预先设置,本申请实施例对此不做限定。
作为一个示例,可以通过多层感知机网络,基于第一结点的特征向量、第一结点与第二结点之间的无向边的特征向量、以及指向第一结点的有向边的特征向量进行迭代处理。
本申请实施例中,对于分子图结构的每条无向边(i,j),可以分别对两个方向的特征进行抽取,即看成两条有向边(i→j)和(j→i),vij代表有向边(i→j)的特征向量。
作为一个示例,对于从第一结点指向第二结点的第一有向边,可以通过如下公式(1),基于第一结点的特征向量、第一结点与第二结点之间的无向边的特征向量、以及指向第一结点的有向边的特征向量进行迭代处理,生成第一有向边更新后的特征向量:
Figure BDA0002669943890000181
其中,u为第一结点,v为第二结点,vuv为第一有向边(u→v)的特征向量,fu为u的特征向量,fuv为无向边(u,v)的特征向量,t为迭代次数且t为正整数,
Figure BDA0002669943890000182
为第t-1次迭代得到的有向边(w→u)的特征向量,N(u)表示u的邻居结点,N(u)\v表示除v之外u的邻居结点,
Figure BDA0002669943890000194
为第t次迭代得到的vuv更新后的特征向量,g1(*)代表一个多层感知机网络。
为便于描述,本申请实施例中统一用g*(*)代表多层感知机网络,其中相同下标代表同一个多层感知机网络。
需要说明的是,对于分子图结构中的各个有向边,均可以采用上述方式对边特征向量的更新,得到更新后的特征向量。
结点特征向量的更新过程:对于第一分子图结构中的第三结点,基于第三结点的特征向量以及所有指向第三结点的有向边更新后的特征向量,生成第三结点的嵌入表示。第三结点为第一分子图结构中的任一结点。
也即是,在对分子图结构中的各个有向边的特征向量进行更新之后,对于分子图结构中的每个结点,可以基于该结点的特征向量以及所有指向该结点的有向边更新后的特征向量,来生成该结点的嵌入表示。
比如,可以基于第三结点的特征向量以及所有指向第三结点的有向边更新后的特征向量,通过以下公式(2)生成第三结点的嵌入表示:
Figure BDA0002669943890000191
其中,u为第三结点,fu为第三结点u的特征向量,
Figure BDA0002669943890000195
为经过t次迭代处理得到的有向边(v→u)更新后的特征向量,N(u)表示的u的邻居结点,v∈N(u)表示v属于u的邻居结点,g2(*)代表一个多层感知机网络。
通过上述方式,可以得到分子图结构中所有结点的嵌入表示。在得到分子图结构中所有结点的嵌入表示之后,即可基于所有结点的嵌入表示生成对应分子的第一嵌入表示。
比如,第一嵌入表示可以表示为
Figure BDA0002669943890000192
其中,XG为第一嵌入表示,
Figure BDA0002669943890000193
为分子图结构中所有结点1,2,…,n的嵌入表示,n为结点数目。
2)对各个样本源分子的联结树结构进行编码,得到各个样本源分子的第二嵌入表示。
作为一个示例,可以采用GCN对样本源分子的联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到联结树结构中各个结点的嵌入表示,基于联结树结构中中各个结点的嵌入表示生成对应分子的第二嵌入表示。
作为一个示例,采用GCN对样本源分子的联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到联结树结构中各个结点的嵌入表示可以包括边特征向量的过程和结点特征向量的更新过程。
边特征向量的过程:对于联结树结构中从第四结点指向第五结点的第二有向边,基于第四结点的特征向量、第四结点与第五结点之间的无向边的特征向量、以及指向第四结点的有向边的特征向量进行迭代处理,生成第二有向边更新后的特征向量,第四结点和第五结点为联结树结构中的任意相邻结点。
结点特征向量的更新过程:对于联结树结构中的第六结点,基于第六结点的特征向量以及所有指向第六结点的有向边更新后的特征向量,生成第六结点的嵌入表示,第六结点为所述第一联结树结构中的任一结点。
需要说明的是,对各个样本源分子的联结树结构进行编码的方式,可以与上述对各个样本源分子的分子图结构的编码方式同理,具体实现过程可以参考分子图结构的编码过程,本申请实施例在此不再赘述。
通过上述方式,可以得到联结树结构中所有结点的嵌入表示。在得到联结树结构中所有结点的嵌入表示之后,即可基于所有结点的嵌入表示生成对应分子的第二嵌入表示。
比如,第二嵌入表示可以表示为
Figure BDA0002669943890000201
其中,XT为第二嵌入表示,
Figure BDA0002669943890000202
为联结树结构中所有结点1,2,…,n的嵌入表示。
步骤305:通过待训练分子生成模型,基于标签集合中各个子结构的结构信息,对多个样本源分子的嵌入表示进行解码,生成多个样本源分子分别对应的多个目标分子的联结树结构。
作为一个示例,待训练的分子生成模型包括第一解码器和第二解码器,第一解码器为联结树解码器,第二解码器为分子图解码器。可以通过第一解码器,基于标签集合中各个子结构的结构信息以及嵌入表示进行解码,生成目标分子的第二联结树结构。
第一解码器可以根据输入的源分子嵌入表示,通过深度优先的顺序解码出目标分子的联结树结构。联结树的解码过程包括拓扑预测和标签预测两个阶段,拓扑预测阶段用于判断当前结点是否有待扩展的孩子结点,即从当前结点是否要拓展下一个孩子结点。如果判断有待扩展的孩子结点,则通过标签预测阶段预测该孩子结点属于哪个子结构。反之,如果判断没有待扩展的孩子结点,回退到上一个结点,直到最后回到根结点并且不再继续扩展为止。请参考5,联结树结构的生成过程可以如图5所示。
第一,拓扑预测阶段:
对于联结树结构中已生成的当前结点,基于样本源分子的嵌入表示生成当前结点的拓扑预测概率。其中,拓扑预测概率用于指示当前结点是否有待扩展的孩子结点。
作为一个示例,可以对输入当前结点的所有边的特征向量以及当前结点的特征向量进行汇聚,生成当前结点的第二中间特征表示;基于第二中间特征表示和嵌入表示,生成当前结点的拓扑预测概率。拓扑预测主要根据当前遍历到的联结树结点,预测是否要继续往下拓展孩子结点。
也即是,首先对输入当前结点的所有有向边的特征向量以及当前结点的特征向量进行汇聚,更新当前结点的特征表示,得到第二中间特征表示,然后根据前面源分子的嵌入表示和第二中间表示计算一个概率值,作为是否拓展孩子结点的拓扑预测概率。
作为一个示例,可以基于样本源分子的嵌入表示,通过如下公式(3)、(4)和(5)进行拓扑预测:
Figure BDA0002669943890000211
Figure BDA0002669943890000212
Figure BDA0002669943890000213
其中,fit为当前结点it的特征向量,
Figure BDA0002669943890000214
相当于指向it的有向边的特征向量,Et为当前已生成的部分联结树结构中的所有边,τ(*)代表线性整流函数,
Figure BDA0002669943890000215
为第二中间表示,XT和XG为样本源分子的联结树结构和分子图结构的嵌入表示,
Figure BDA0002669943890000216
代表注意力层,
Figure BDA0002669943890000217
为注意力层的参数,σ(*)代表Sigmoid函数,
Figure BDA0002669943890000218
为权重系数,
Figure BDA0002669943890000219
为上下文特征向量。
作为一个示例,若当前结点的拓扑预测概率大于或等于概率阈值,则确定当前结点有待扩展的孩子结点,若当前结点的拓扑预测概率小于概率阈值,则确定当前结点没有待扩展的孩子结点。其中,概率阈值可以预先设置,比如,概率阈值为0.5或0.6等。
需要说明的是,在训练阶段,如果目标分子的联结树在当前结点下有新的孩子结点,则拓扑预测概率为1,否则拓扑预测概率为0。作为一个示例,可以通过二值交叉熵的方式进行训练。
第二,标签预测阶段:
作为一个示例,标签预测阶段可以包括如下步骤:
3051:若基于拓扑预测概率确定当前结点有待扩展的孩子结点,则基于该嵌入表示生成当前结点的第一中间特征表示。
作为一个示例,基于该嵌入表示生成当前结点的第一中间特征表示的过程包括如下步骤:
1)对输入当前结点的所有边的特征向量以及当前结点的特征向量进行汇聚,生成当前结点的扩展边的特征向量。
其中,拓展边是指从当前结点指向待扩展的孩子结点的有向边。通过对输入当前结点的所有边的特征向量以及当前结点的特征向量进行汇聚,可以对当前结点的有向边的特征向量进行学习。
作为一个示例,可以通过GRU(Gated Recurrent U nit,门控循环神经网络单元)对输入当前结点的所有边的特征向量以及当前结点的特征向量进行汇聚。比如,通过以下公式(6)对输入当前结点的所有边的特征向量以及当前结点的特征向量进行汇聚:
Figure BDA0002669943890000221
其中,fit为当前结点it的特征向量,jt为当前结点it待扩展的孩子结点,
Figure BDA0002669943890000222
为扩展边的特征向量,GRU(*)为门控循环神经网络单元层,Et为当前生成的部分联结树的所有边,
Figure BDA0002669943890000223
相当于指向it的有向边的特征向量。
2)基于拓展边的特征向量和该嵌入表示,生成第一中间特征表示。
作为一个示例,可以通过注意力机制对扩展边的特征向量和该嵌入表示进行聚合处理,得到当前结点的上下文特征向量。然后将扩展边的特征向量与该上下文特征向量进行拼接,得到第一中间特征表示。
比如,可以基于拓展边的特征向量和该嵌入表示,通过以下公式(7)和(8)生成第一中间表示:
Figure BDA0002669943890000224
Figure BDA0002669943890000225
其中,
Figure BDA0002669943890000231
表示扩展边的特征向量,XT和XG为样本源分子的联结树结构和分子图结构的嵌入表示,
Figure BDA0002669943890000232
代表注意力层,
Figure BDA0002669943890000233
为注意力层的参数,
Figure BDA0002669943890000234
为上下文特征向量,
Figure BDA0002669943890000235
为第一中间表示,且为
Figure BDA0002669943890000236
Figure BDA0002669943890000237
的拼接。
3052:将第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,多个子结构图为多个子结构的分子图结构。
作为一个示例,在将第一中间特征表示分别与多个子结构图的特征向量进行拼接之前,可以先使用GCN对标签集合中的每个子结构的分子图结构进行编码,以抽取每个子结构的分子图结构的特征向量。该GCN与编码器中使用的GCN相同。
比如,假设标签集合L={l1,l2,…,lk},l1,l2,…,lk为L中的多个子结构。标签集合中的每个子结构的分子图结构记为
Figure BDA0002669943890000238
其中,
Figure BDA0002669943890000239
为结构中的结点集合,
Figure BDA00026699438900002310
为边集合。如以下公式(9)所示,通过GCN对每个子结构的分子图结构进行编码,可以得到每个子结构的分子图结构的特征向量
Figure BDA00026699438900002311
Figure BDA00026699438900002312
获取到多个子结构图的特征向量之后,可以将第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量。比如,拼接特征向量为
Figure BDA00026699438900002313
3053:对多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示当前结点待扩展的孩子结点为每个拼接特征向量所对应的子结构的概率。
作为一个示例,可以通过多层感知机,对每个拼接特征向量分别进行预测处理。比如,通过多层感知机,对每个拼接特征向量分别进行预测处理,得到每个拼接特征向量所对应子结构的标签得分,再对每个拼接特征向量所对应子结构的标签得分进行逻辑回归处理,得到每个拼接特征向量的标签预测概率。
比如,先通过以下公式(10)对每个拼接特征向量进行预测处理,得到每个拼接特征向量所对应子结构的标签得分:
Figure BDA00026699438900002314
其中,
Figure BDA0002669943890000241
为拼接特征向量,
Figure BDA0002669943890000242
为权重参数,si为拼接特征向量
Figure BDA0002669943890000243
所对应子结构的标签得分。
之后,如以下公式(11)所示,将所有标签得分si组成的向量通过softmax函数进行逻辑回归处理,得到所有拼接特征向量的标签预测概率:
q=softmax([s1,s2,…,sk]) (11)
其中,q=[q1,q2,…,qk],即q是一个k维向量,每个元素qi代表对应拼接特征向量的标签预测概率。
3054:基于多个拼接特征向量的标签预测概率,确定当前结点待扩展的孩子结点对应的子结构。
作为一个示例,可以将多个拼接特征向量的标签预测概率中最大标签预测概率对应的拼接特征向量中的子结构,确定为当前结点待扩展的孩子结点对应的子结构。
3055:若基于拓扑预测概率确定当前结点没有待扩展的孩子结点,则退回至当前结点的上一个结点,并将上一个结点作为当前结点,返回基于嵌入表示生成当前结点的拓扑预测概率的步骤,直至退回至根结点且根结点的拓扑预测概率指示根结点没有待扩展的孩子结点为止。
需要说明的是,对于待生成的目标分子的联结树结构来说,首先遍历到的是待生成的根结点,对于待生成的根结点,则可以跳过上述拓扑预测阶段,先对根结点进行标签预测,即预测根结点所属的子结构。
也即是,对于联结树结构中待生成的当前结点,若当前结点为根结点,则仅需要对根结点进行标签预测。
作为一个示例,对根结点进行标签预测的操作包括如下步骤:
1)基于该嵌入表示生成根结点的第一中间特征表示,将第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,多个子结构图为所述多个子结构的分子图结构。
作为一个示例,可以通过注意力机制对该嵌入表示进行聚合处理,生成当前结点的上下文特征向量;基于该上下文特征向量,生成第一中间表示。
作为一个示例,可以通过上述公式(7)和(8),生成第一中间表示。需要说明的是,对于待生成的根结点来说,其拓扑边的特征向量
Figure BDA0002669943890000244
为0。
2)对多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示根结点为每个拼接特征向量所对应的子结构的概率。
作为一个示例,可以通过上述公式(10)和(11),对多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率。
3)基于每个拼接特征向量的标签预测概率,确定根结点对应的子结构。
作为一个示例,可以将多个拼接特征向量的标签预测概率中最大标签预测概率对应的拼接特征向量中的子结构,确定为根结点对应的子结构。
需要说明的是,标签预测主要用于在拓扑预测拓展新的孩子结点时,预测新的孩子结点属于哪个子结构。传统的Graph-to-Graph模型中通过采用多分类的方式,将所有子结构集合当作无意义的标签集合,预测当前结点属于每个标签的可能性,得到每个子结构的预测概率值。但这种方式没有很好地利用子结构集合中每个子结构本身具有的结构信息,缺乏在新的子结构上的泛化能力。而且这种方式无法很好地处理子结构集合存在的标签不平衡情况,容易受到子结构在数据集中出现频率的影响,比如出现频率较高的苯环之类的子结构往往会预测到一个比较高的概率值,而一些不频繁出现的子结构往往预测得概率值会很低,甚至为0。
基于此,本申请实施例对标签预测过程进行了改进,同时利用源分子的结构信息和标签集合中子结构的结构信息进行预测,使得模型能够有更好的预测效果和泛化能力。请参考图6,图6是本申请实施例提供的一种传统的标签预测方式和改进后的标签预测方式的对比示意图。
步骤306:通过待训练分子生成模型,对多个目标分子的联结树结构进行解码,生成多个目标分子的分子图结构。
作为一个示例,可以通过第二解码器,对多个目标分子的联结树结构进行解码,生成多个目标分子的分子图结构。
给定联结树结构的情况下,联结树结构中相连接的两个结点之间的连接方式可能有多种可能,所以需要进一步预测相连接的两个结点之间的连接方式。第二解码器主要用于前面解码得到的联结树结构,先枚举每两个结点之间的连接方式,然后通过预测最有可能的连接方式来对联结树结构中的相邻结点进行连接得到分子图结构。
作为一个示例,对多个目标分子的联结树结构进行解码,生成多个目标分子的分子图结构包括如下步骤:
1)对于多个目标分子中的任一目标分子,基于该目标分子的联结树结构中相邻结点的可能连接方式,构建目标分子的候选分子图结构,得到多个候选分子图结构。
比如,枚举该目标分子的联结树结构中相邻结点的可能连接方式,基于枚举的相邻结点的可能连接方式,构建候选分子图结构。也即是,根据前面得到的联结树结构,枚举每个结点i下所有可能的子图连接方式,得到可能的候选子图集合gi
2)对多个候选分子图结构中每个候选分子图结构进行编码,得到每个候选分子图结构中各个结点的嵌入表示,基于每个候选分子图结构中各个结点的嵌入表示,生成每个候选分子图结构的特征向量。
作为一个示例,可以通过GCN对每个候选分子图结构进行编码,得到每个候选分子图结构中各个结点的嵌入表示。该GCN与编码器使用的GCN相同。
作为一个示例,可以将每个候选分子图结构中各个结点的嵌入表示进行相加,得到每个候选分子图结构的特征向量。
比如,对每个候选子图
Figure BDA0002669943890000261
通过与编码器结构相同的GCN计算得到图上所有结点的嵌入表示
Figure BDA0002669943890000262
然后对所有结点的嵌入表示
Figure BDA0002669943890000263
进行相加,得到每个候选子图的特征向量
Figure BDA0002669943890000264
3)对每个候选分子图结构的特征向量以及源分子的分子图结构中各个结点的嵌入表示进行处理,得到每个候选分子图结构的预测概率。
作为一个示例,可以计算每个候选分子图结构的特征向量以及源分子的分子图结构中各个结点的嵌入表示的点积,并将计算的点积进行相加,得到每个候选分子图结构的预测概率。
比如,可以通过以下公式(12),对每个候选分子图结构的特征向量以及源分子的分子图结构中各个结点的嵌入表示进行处理,得到每个候选分子图结构的预测概率:
Figure BDA0002669943890000265
其中,f(Gi)为候选分子图结构Gi的预测概率,
Figure BDA0002669943890000266
为候选分子图结构Gi的特征向量,
Figure BDA0002669943890000267
为源分子的分子图结构中结点u的嵌入表示,G为源分子的分子图结构。
4)基于多个候选分子图结构的预测概率,确定该目标分子对应的分子图结构。
作为一个示例,可以将多个候选分子图结构的预测概率中最大预测概率对应的候选分子图结构,作为该目标分子对应的分子图结构。
步骤307:基于多个目标分子的分子图结构与多个样本目标分子的分子图结构之间的预测误差,对待训练分子生成模型的模型参数进行调整,将模型参数调整后的待训练分子生成模型,确定为训练好的分子生成模型。
其中,多个目标分子的分子图结构是指通过待训练的分子生成模型预测到多个样本源分子的目标分子的分子图结构,而多个样本目标分子的分子图结构是与多个样本源分子对应的真实的目标分子的分子图结构,因此,可以基于多个目标分子的分子图结构与多个样本目标分子的分子图结构之间的差异确定待训练生成模型的预测误差,然后对预测误差进行反向传播,以调整待训练分子生成模型的模型参数,使得预测误差逐渐变小。
作为一个示例,可以通过极大似然的方式优化如下目标函数(13),来对待训练分子生成模型的模型参数进行调整:
Figure BDA0002669943890000271
其中,Lg(G)为目标函数,
Figure BDA0002669943890000272
为样本目标分子的分子图结构,即正确的候选分子图结构,f(Gi)为候选分子图结构Gi的预测概率,
Figure BDA0002669943890000273
为候选分子图结构集合。
另外,在进行模型训练之后,还可以对训练好的分子生成模型的模型效果进行评估。模型效果评估主要参考之前该领域的已有评估指标,比如选择生成分子结构的成功率作为衡量。
作为一个示例,对于训练好的分子生成模型生成的每个目标分子,可以确定该目标分子与输入的对应源分子之间的相似性,并确定该目标分子的属性值。若该目标分子与输入的对应源分子之间的相似性大于或等于相似度阈值,且该目标分子的属性值大于或等于属性阈值,则确定该目标分子为成功分子。然后,确定成功分子的数量与已生成目标分子的总数量之间的比值,即可得到模型生成分子结构的的成功率,基于该成功率进行模型评估。
比如,对模型生成的每个目标分子Yi,计算其与输入的源分子X之间的相似性sim(X,Yi),并计算目标分子Yi的属性值Propi。对于给定的相似度阈值δ1和属性阈值δ2,如果sim(X,Yi)≥δ1且Propi≥δ2,则该生成分子即为成功分子。
图7是本申请实施例提供的一种物品分子生成方法的流程示意图,该方法应用于计算机设备中,如图7所示,该方法包括如下步骤:
步骤701:获取源分子的第一分子图结构和第一联结树结构,第一联结树结构是基于第一分子图结构生成的。
其中,源分子为给定的需要生成对应目标分子的分子。源分子为物品分子,具体可以为药物分子或新型材料分子等,本申请实施例对此不作限定。
其中,第一联结树结构是基于第一分子图结构生成的,因此,可以先构建源分子的第一分子图结构,再基于第一分子图结构构建第一联结树结构。
作为一个示例,获取源分子的第一分子图结构和第一联结树结构的操作可以包括如下步骤:
1)获取以字符串表示的源分子数据。
作为一个示例,以字符串表示的源分子数据可以为以SMILES(SimplifiedMolecular Input Line Entry System,简化分子线性输入规范)字符串表示的分子数据。示例的,可以从化合物数据库中获取以SMILES字符串表示的源分子数据。
2)对以字符串表示的源分子数据进行解析,构建源分子的分子图结构。
作为一个示例,可以对以字符串表示的源分子数据进行解析,得到源分子中各个原子的原子类型以及原子之间的化合键信息;基于源分子中各个原子的原子类型以及原子之间的化合键信息,构建源分子的分子图结构,得到第一分子图结构。
其中,源分子中的原子构成第一分子图结构中的结点,源分子中原子间的化合键构成所第一分子图结构中的边。示例的,第一分子图结构可以用G=(vG,EG)表示,其中,G代表第一分子图结构,vG代表结点集合,EG代表边集合。另外,第一分子图结构中结点的特征向量可以为对应原子的原子类型的独热编码向量,第一分子图结构中边的特征向量为对应化合键的键价的独热编码向量。
作为一个示例,可以使用RDKit工具包对以字符串表示的源分子数据进行解析,比如,使用RDKit工具包对以SMILES字符串表示的源分子数据进行解析,来构建源分子的分子图结构。
3)基于样本分子的分子图结构,构建样本分子的联结树结构。
作为一个示例,可以将第一分子图结构中的每个环结构以及除环结构之外的每条边均抽象为结点,并将抽象的结点进行连接,生成源分子的联结树结构,得到第一联结树结构。
示例的,第一联结树结构可以用T=(vT,ET)表示,其中,T表示第一联结树结构,vT代表其中的结点集合,ET代表边集合。
步骤702:将第一分子图结构和第一联结树结构输入至分子生成模型中,通过分子生成模型,对第一分子图结构和第一联结树结构进行编码,得到源分子的嵌入表示。
作为一个示例,分子生成模型包括编码器,可以通过编码器对第一分子图结构和第一联结树结构进行编码,得到源分子的嵌入表示。
其中,源分子的嵌入表示可以包括对源分子的分子图结构进行编码得到的第一嵌入表示,以及对样本源分子的联结树结构进行编码得到的第二嵌入表示。
作为一个示例,对第一分子图结构和第一联结树结构进行编码,得到源分子的嵌入表示的操作可以包括如下步骤:
1)对第一分子图结构进行编码,得到源分子的第一嵌入表示。
作为一个示例,可以采用图神经网络GCN对第一分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到第一分子图结构中各个结点的嵌入表示,基于第一分子图结构中各个结点的嵌入表示生成源分子的第一嵌入表示。
作为一个示例,采用图神经网络GCN对第一分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到第一分子图结构中各个结点的嵌入表示可以包括如下特征向量的过程以及结点特征向量的更新过程。
边特征向量的更新过程:对于第一分子图结构中从第一结点指向第二结点的第一有向边,基于第一结点的特征向量、第一结点与第二结点之间的无向边的特征向量、以及指向第一结点的有向边的特征向量进行迭代处理,生成第一有向边更新后的特征向量。
其中,第一结点和第二结点为第一分子图结构中的任意相邻结点,也即是,第一有向边为第一分子图结构中的任一有向边。第一结点与第二结点之间的无向边的特征向量包括从第一结点指向第二结点的有向边,以及从第二结点指向第一结点的有向边。指向第一结点的有向边为除第二结点之外的第一结点的邻居结点指向第一结点的有向边。迭代处理的迭代次数可以预先设置,本申请实施例对此不做限定。
需要说明的是,该边特征向量的更新过程与模型训练过程中的边特征向量的更新过程同理,具体实现过程可以参考图3实施例中步骤304的相关描述,本申请实施例在此不再赘述。
结点特征向量的更新过程:对于第一分子图结构中的第三结点,基于第三结点的特征向量以及所有指向第三结点的有向边更新后的特征向量,生成第三结点的嵌入表示。第三结点为第一分子图结构中的任一结点。
也即是,在对第一分子图结构中的各个有向边的特征向量进行更新之后,对于分子图结构中的每个结点,可以基于该结点的特征向量以及所有指向该结点的有向边更新后的特征向量,来生成该结点的嵌入表示。
需要说明的是,该结点特征向量的更新过程与模型训练过程中的结点特征向量的更新过程同理,具体实现过程可以参考图3实施例中步骤304的相关描述,本申请实施例在此不再赘述。
通过上述方式,可以得到第一分子图结构中所有结点的嵌入表示。在得到第一分子图结构中所有结点的嵌入表示之后,即可基于所有结点的嵌入表示生成源分子的第一嵌入表示。
比如,第一嵌入表示可以表示为
Figure BDA0002669943890000301
其中,XG为第一嵌入表示,
Figure BDA0002669943890000302
为第一分子图结构中所有结点1,2,…,n的嵌入表示,n为结点数目。
2)对第一联结树结构进行编码,得到源分子的第二嵌入表示。
作为一个示例,可以采用GCN对第一联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到第一联结树结构中各个结点的嵌入表示,基于第一联结树结构中各个结点的嵌入表示生成源分子的第二嵌入表示。
作为一个示例,采用GCN对第一联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到第一联结树结构中各个结点的嵌入表示可以包括边特征向量的过程和结点特征向量的更新过程。
边特征向量的过程:对于第一联结树结构中从第四结点指向第五结点的第二有向边,基于第四结点的特征向量、第四结点与第五结点之间的无向边的特征向量、以及指向第四结点的有向边的特征向量进行迭代处理,生成第二有向边更新后的特征向量。其中,第四结点和第五结点为第一联结树结构中的任意相邻结点。
结点特征向量的更新过程:对于第一联结树结构中的第六结点,基于第六结点的特征向量以及所有指向第六结点的有向边更新后的特征向量,生成第六结点的嵌入表示。其中,第六结点为第一联结树结构中的任一结点。
需要说明的是,对源分子的第一联结树结构进行编码的方式,可以与上述对源分子的第一分子图结构的编码方式同理,具体实现过程可以参考分子图结构的编码过程,本申请实施例在此不再赘述。
通过上述方式,可以得到第一联结树结构中所有结点的嵌入表示。在得到第一联结树结构中所有结点的嵌入表示之后,即可基于所有结点的嵌入表示生成源分子的第二嵌入表示。
比如,第二嵌入表示可以表示为
Figure BDA0002669943890000311
其中,XT为第二嵌入表示,
Figure BDA0002669943890000312
为联结树结构中所有结点1,2,…,n的嵌入表示。
步骤703:通过分子生成模型,基于标签集合中各个子结构的结构信息以及该嵌入表示进行解码,生成目标分子的第二联结树结构,标签集合包括多个子结构,多个子结构是从多个样本分子的联结树结构中提取的结点。
作为一个示例,分子生成模型包括第一解码器和第二解码器,第一解码器为联结树解码器,第二解码器为分子图解码器。可以通过第一解码器,基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码,生成目标分子的第二联结树结构。
作为一个示例,基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码的操作可以包括拓扑预测阶段和标签预测阶段。
第一,拓扑预测阶段。
对于第二联结树结构中已生成的当前结点,基于该嵌入表示生成当前结点的拓扑预测概率,拓扑预测概率用于指示当前结点是否有待扩展的孩子结点。
作为一个示例,可以对输入当前结点的所有边的特征向量以及当前结点的特征向量进行汇聚,生成当前结点的第二中间特征表示;基于第二中间特征表示和嵌入表示,生成当前结点的拓扑预测概率。
也即是,首先对输入当前结点的所有有向边的特征向量以及当前结点的特征向量进行汇聚,更新当前结点的特征表示,得到第二中间特征表示,然后根据前面源分子的嵌入表示和第二中间表示计算一个概率值,作为是否拓展孩子结点的拓扑预测概率。
需要说的是,分子生成过程中的拓扑预测阶段与训练过程中的拓扑预测阶段同理,区别仅在于分子生成过程处理的对象为源分子,而训练过程处理的对象为样本源分子,具体拓扑预测阶段的处理过程可以参考上述图3实施例中步骤305中的相关描述,本申请实施例在此不再赘述。
第二,标签预测过程。
作为一个示例,标签预测过程可以包括如下步骤:
7031:若基于拓扑预测概率确定当前结点有待扩展的孩子结点,则基于该嵌入表示生成当前结点的第一中间特征表示。
其中,基于该嵌入表示生成当前结点的第一中间特征表示包括如下步骤:
1)对输入当前结点的所有边的特征向量以及当前结点的特征向量进行汇聚,生成当前结点的扩展边的特征向量。
其中,拓展边为从当前结点指向待扩展的孩子结点的有向边。通过对输入当前结点的所有边的特征向量以及当前结点的特征向量进行汇聚,可以对当前结点的有向边的特征向量进行学习。
作为一个示例,可以通过GRU(Gated Recurrent U nit,门控循环神经网络单元)对输入当前结点的所有边的特征向量以及当前结点的特征向量进行汇聚。
2)基于拓展边的特征向量和该嵌入表示,生成第一中间特征表示。
作为一个示例,可以通过注意力机制对扩展边的特征向量和该嵌入表示进行聚合处理,得到当前结点的上下文特征向量;将扩展边的特征向量与该上下文特征向量进行拼接,得到第一中间特征表示。
7032:将第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,多个子结构图为多个子结构的分子图。
7033:对多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示当前结点待扩展的孩子结点为每个拼接特征向量所对应的子结构的概率。
作为一个示例,可以通过多层感知机,对每个拼接特征向量分别进行预测处理。比如,通过多层感知机,对每个拼接特征向量分别进行预测处理,得到每个拼接特征向量所对应子结构的标签得分,再对每个拼接特征向量所对应子结构的标签得分进行逻辑回归处理,得到每个拼接特征向量的标签预测概率。
7034:基于每个拼接特征向量的标签预测概率,确定当前结点待扩展的孩子结点对应的子结构。
作为一个示例,可以将多个拼接特征向量的标签预测概率中最大标签预测概率对应的拼接特征向量中的子结构,确定为当前结点待扩展的孩子结点对应的子结构。
7035:若基于拓扑预测概率确定当前结点没有待扩展的孩子结点,则退回至当前结点的上一个结点,并将上一个结点作为当前结点,返回基于嵌入表示生成当前结点的拓扑预测概率的步骤,直至退回至根结点且根结点的拓扑预测概率指示根结点没有待扩展的孩子结点为止。
需要说的是,分子生成过程中的标签预测阶段与训练过程中的标签预测阶段同理,区别仅在于分子生成过程处理的对象为源分子,而训练过程处理的对象为样本源分子,具体标签预测阶段的处理过程可以参考上述图3实施例中步骤305中的相关描述,本申请实施例在此不再赘述。
还需要说明的是,对于待生成的第二联结树结构来说,首先遍历到的是待生成的根结点,对于待生成的根结点,则可以跳过上述拓扑预测阶段,先对根结点进行标签预测,即预测根结点所属的子结构。
也即是,对于第二联结树结构中待生成的当前结点,若当前结点为根结点,则仅需要对根结点进行标签预测。
作为一个示例,对根结点进行标签预测的操作包括如下步骤:
1)基于该嵌入表示生成根结点的第一中间特征表示,将第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量。
作为一个示例,可以通过注意力机制对该嵌入表示进行聚合处理,生成当前结点的上下文特征向量;基于该上下文特征向量,生成第一中间表示。
作为一个示例,可以通过上述公式(7)和(8),生成第一中间表示。需要说明的是,对于待生成的根结点来说,其拓扑边的特征向量
Figure BDA0002669943890000331
为0。
2)对多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示根结点为每个拼接特征向量所对应的子结构的概率。
作为一个示例,可以通过上述公式(10)和(11),对多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率。
3)基于每个拼接特征向量的标签预测概率,确定根结点对应的子结构。
作为一个示例,可以将多个拼接特征向量的标签预测概率中最大标签预测概率对应的拼接特征向量中的子结构,确定为根结点对应的子结构。
步骤704:通过分子生成模型,对第二联结树结构进行解码,得到目标分子的第二分子图结构。
作为一个示例,可以通过第二解码器,对第二联结树结构进行解码,生成目标分子的分子图结构,得到第二分子图结构。
给定联结树结构的情况下,联结树结构中相连接的两个结点之间的连接方式可能有多种可能,所以需要进一步预测相连接的两个结点之间的连接方式。第二解码器主要用于前面解码得到的联结树结构,先枚举每两个结点之间的连接方式,然后通过预测最有可能的连接方式来对联结树结构中的相邻结点进行连接得到分子图结构。
作为一个示例,对第二联结树结构进行解码,得到目标分子的第二分子图结构的操作可以包括如下步骤:
1)基于第二联结树结构中相邻结点的可能连接方式,构建目标分子的候选分子图,得到多个候选分子图。
比如,枚举第二联结树结构中相邻结点的可能连接方式,基于枚举的相邻结点的可能连接方式,构建候选分子图结构。也即是,根据前面得到的联结树结构,枚举每个结点i下所有可能的子图连接方式,得到可能的候选子图集合
Figure BDA0002669943890000345
2)对多个候选分子图结构中每个候选分子图结构进行编码,得到每个候选分子图结构中各个结点的嵌入表示,基于每个候选分子图结构中各个结点的嵌入表示,生成每个候选分子图结构的特征向量。
作为一个示例,可以通过GCN对每个候选分子图结构进行编码,得到每个候选分子图结构中各个结点的嵌入表示。该GCN与编码器使用的GCN相同。
作为一个示例,可以将每个候选分子图结构中各个结点的嵌入表示进行相加,得到每个候选分子图结构的特征向量。
比如,对每个候选子图
Figure BDA0002669943890000341
通过与编码器结构相同的GCN计算得到图上所有结点的嵌入表示
Figure BDA0002669943890000342
然后对所有结点的嵌入表示
Figure BDA0002669943890000343
进行相加,得到每个候选子图的特征向量
Figure BDA0002669943890000344
3)对每个候选分子图结构的特征向量以及源分子的分子图结构中各个结点的嵌入表示进行处理,得到每个候选分子图结构的预测概率。
作为一个示例,可以计算每个候选分子图结构的特征向量以及源分子的分子图结构中各个结点的嵌入表示的点积,并将计算的点积进行相加,得到每个候选分子图结构的预测概率。比如,可以通过上述公式(12)计算每个候选分子图结构的预测概率。
4)基于多个候选分子图结构的预测概率,确定目标分子对应的分子图结构,得到第二分子图结构。
作为一个示例,可以将多个候选分子图结构的预测概率中最大预测概率对应的候选分子图结构,作为目标分子对应的分子图结构。至此,即通过分子生成模型生成得到源分子对应的目标分子的分子图结构。
作为一个示例,目标分子的理化性质需要优于源分子。比如,在生成目标分子之后,还可以进一步判断目标分子是否满足要求。比如,确定目标分子与源分子之间的相似性,并确定目标分子的属性值,若目标分子与源分子之间的相似性大于或等于相似度阈值,且目标分子的属性值大于或等于属性阈值,则确定目标分子满足要求。
需要说明的是,本申请实施例中,还可以将分子生成模型泛化至训练集中不存在的其他分子结构。比如,尽管在训练过程中使用的都是训练集中抽取出来的联结树的子结构,但是在分子生成阶段,还可以将生成的新的分子中存在的子结构加入到标签集合中进行结构预测,使得标签预测阶段可以根据新的子结构的结构信息来预测对应的概率值,从而提高了模型的泛化能力。
本申请实施例中,将源分子的分子图结构和联结树结构作为生成模型的输入,通过分子生成模型,先对源分子的分子图结构和联结树结构进行编码,得到源分子的嵌入表示,然后基于标签集合中各个子结构的结构信息以及源分子的嵌入表示进行解码,生成目标分子的联结树结构,再对目标分子的联结树结构进行解码,生成目标分子的分子图结构。通过结合标签集合中各个子结构的结构信息以及源分子的嵌入表示进行解码,可以很好地利用标签集合中各个子结构本身具有的结构信息,来对目标分子的联结树结构进行预测,提高了预测结果的合理性,缓解了标签不平衡的影响。而且,该模型能够学习到子结构本身的结构信息,在标签集合中的某些子结构出现频率较低的情况下,该模型能够基于其他相似的子结构来辅助预测目标分子的结构特性,使得预测结果更加合理。另外,在分子生成阶段,通过将生成的新的分子存在的子结构加入到标签集合中进行结构预测,可以使得标签预测阶段可以根据新的子结构的结构信息来预测对应的概率值,提高了模型的泛化能力。
图8是本申请实施例提供的一种物品分子生成装置的结构框图,该装置可以集成于计算机设备中,如图8所示,该装置包括:
第一获取模块801,用于获取源分子的第一分子图结构和第一联结树结构,该第一联结树结构是基于该第一分子图结构生成的;
编码模块802,用于将该第一分子图结构和该第一联结树结构输入至分子生成模型中,通过该分子生成模型,对该第一分子图结构和该第一联结树结构进行编码,得到该源分子的嵌入表示;
第一解码模块803,用于通过该分子生成模型,基于标签集合中各个子结构的结构信息以及该嵌入表示进行解码,生成目标分子的第二联结树结构,该标签集合包括多个子结构,该多个子结构是从多个样本分子的联结树结构中提取的结点;
第二解码模块804,用于通过该分子生成模型,对该第二联结树结构进行解码,生成该目标分子的第二分子图结构。
可选地,该第一解码模块801用于:
对于该第二联结树结构中待生成的当前结点,若该当前结点为根结点,则基于该嵌入表示生成该当前结点的第一中间特征表示,将该第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,该多个子结构图为该多个子结构的分子图;
对该多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示该当前结点为每个拼接特征向量所对应的子结构的概率;
基于每个拼接特征向量的标签预测概率,确定该当前结点对应的子结构。
可选地,该第一解码模块803用于:
通过注意力机制对该嵌入表示进行聚合处理,生成该当前结点的上下文特征向量;
基于该上下文特征向量,生成该第一中间表示。
可选地,该第一解码模块803用于:
对于该第二联结树结构中已生成的当前结点,基于该嵌入表示生成该当前结点的拓扑预测概率,该拓扑预测概率用于指示该当前结点是否有待扩展的孩子结点;
若基于该拓扑预测概率确定该当前结点有待扩展的孩子结点,则基于该嵌入表示生成该当前结点的第一中间特征表示,将该第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,该多个子结构图为该多个子结构的分子图;
对该多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示该当前结点待扩展的孩子结点为每个拼接特征向量所对应的子结构的概率;
基于每个拼接特征向量的标签预测概率,确定该当前结点待扩展的孩子结点对应的子结构。
可选地,该第一解码模块803用于:
对输入该当前结点的所有边的特征向量以及该当前结点的特征向量进行汇聚,生成该当前结点的第二中间特征表示;
基于该第二中间特征表示和该嵌入表示,生成该当前结点的拓扑预测概率。
可选地,该第一解码模块803用于:
对输入该当前结点的所有边的特征向量以及该当前结点的特征向量进行汇聚,生成该当前结点的扩展边的特征向量,该拓展边为从该当前结点指向待扩展的孩子结点的有向边;
基于该拓展边的特征向量和该嵌入表示,生成该第一中间特征表示。
可选地,该第一解码模块803用于:
通过注意力机制对该扩展边的特征向量和该嵌入表示进行聚合处理,得到该当前结点的上下文特征向量;
将该扩展边的特征向量与该上下文特征向量进行拼接,得到该第一中间特征表示。
可选地,该第一解码模块803还用于:
若基于该拓扑预测概率确定该当前结点没有待扩展的孩子结点,则退回至该当前结点的上一个结点,并将该上一个结点作为当前结点,返回基于该嵌入表示生成该当前结点的拓扑预测概率的步骤,直至退回至根结点且该根结点的拓扑预测概率指示该根结点没有待扩展的孩子结点为止。
可选地,该第二解码模块804用于:
基于该第二联结树结构中相邻结点的可能连接方式,构建该目标分子的候选分子图结构,得到多个候选分子图结构;
对该多个候选分子图结构中每个候选分子图结构进行编码,得到每个候选分子图结构中各个结点的嵌入表示,基于每个候选分子图结构中各个结点的嵌入表示,生成每个候选分子图结构的特征向量;
对每个候选分子图结构的特征向量以及该源分子的分子图结构中各个结点的嵌入表示进行处理,得到每个候选分子图结构的预测概率;
基于该多个候选分子图结构的预测概率,确定该目标分子对应的分子图结构,得到该第二分子图结构。
可选地,该第一获取模块801用于:
获取以字符串表示的源分子数据,对以字符串表示的源分子数据进行解析,得到该源分子中各个原子的原子类型以及原子之间的化合键信息;
基于该源分子中各个原子的原子类型以及原子之间的化合键信息,构建该源分子的分子图结构,得到该第一分子图结构;其中,该源分子中的原子构成该第一分子图结构中的结点,该源分子中原子间的化合键构成该第一分子图结构中的边;
将该第一分子图结构中的每个环结构以及除环结构之外的每条边均抽象为结点,并将抽象的结点进行连接,生成该源分子的联结树结构,得到该第一联结树结构。
可选地,该编码模块802用于:
采用图神经网络GCN对该第一分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到该第一分子图结构中各个结点的嵌入表示,基于该第一分子图结构中各个结点的嵌入表示生成该源分子的第一嵌入表示;
采用图神经网络GCN对该第一联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到该第一联结树结构中各个结点的嵌入表示,基于该第一联结树结构中各个结点的嵌入表示生成该源分子的第二嵌入表示。
可选地,该编码模块802用于:
对于该第一分子图结构中从第一结点指向第二结点的第一有向边,基于该第一结点的特征向量、该第一结点与该第二结点之间的无向边的特征向量、以及指向该第一结点的有向边的特征向量进行迭代处理,生成该第一有向边更新后的特征向量,该第一结点和该第二结点为该第一分子图结构中的任意相邻结点;
对于该第一分子图结构中的第三结点,基于该第三结点的特征向量以及所有指向该第三结点的有向边更新后的特征向量,生成该第三结点的嵌入表示,该第三结点为该第一分子图结构中的任一结点。
可选地,该编码模块802用于:
对于该第一联结树结构中从第四结点指向第五结点的第二有向边,基于该第四结点的特征向量、该第四结点与该第五结点之间的无向边的特征向量、以及指向该第四结点的有向边的特征向量进行迭代处理,生成该第二有向边更新后的特征向量,该第四结点和该第五结点为该第一联结树结构中的任意相邻结点;
对于该第一联结树结构中的第六结点,基于该第六结点的特征向量以及所有指向该第六结点的有向边更新后的特征向量,生成该第六结点的嵌入表示,该第六结点为该第一联结树结构中的任一结点。
可选地,该装置还包括:
第二获取模块,用于获取多个样本分子对中各个分子的联结树结构,每个样本分子对包括样本源分子和样本目标分子,该样本目标分子的理化性质优于该样本源分子;
提取模块,用于提取该多个样本分子对中各个样本分子的联结树结构中的结点,对提取的结点进行去重处理;
标签构建模块,用于基于去重处理后的结点构建该标签集合。
可选地,该装置还包括:
第三获取模块,用于获取多个样本源分子的分子图结构和联结树结构,该多个样本源分子为多个样本分子对中的样本源分子,该多个样本分子对还包括与该多个样本源分子一一对应的多个样本目标分子;
训练模块,用于将该多个样本源分子的分子图结构和联结树结构输入到待训练分子生成模型中,通过该待训练分子生成模型,对该多个样本源分子的分子图结构和联结树结构进行编码,得到该多个样本源分子的嵌入表示;通过该待训练分子生成模型,基于该标签集合中各个子结构的结构信息,对该多个样本源分子的嵌入表示进行解码,生成该多个样本源分子分别对应的多个目标分子的联结树结构;通过该待训练分子生成模型,对该多个目标分子的联结树结构进行解码,生成该多个目标分子的分子图结构;基于该多个目标分子的分子图结构与该多个样本目标分子的分子图结构之间的预测误差,对该待训练分子生成模型的模型参数进行调整,将模型参数调整后的待训练分子生成模型,确定为该分子生成模型。
本申请实施例中,将源分子的分子图结构和联结树结构作为生成模型的输入,通过分子生成模型,先对源分子的分子图结构和联结树结构进行编码,得到源分子的嵌入表示,然后基于标签集合中各个子结构的结构信息以及源分子的嵌入表示进行解码,生成目标分子的联结树结构,再对目标分子的联结树结构进行解码,生成目标分子的分子图结构。通过结合标签集合中各个子结构的结构信息以及源分子的嵌入表示进行解码,可以很好地利用标签集合中各个子结构本身具有的结构信息,来对目标分子的联结树结构进行预测,提高了预测结果的合理性,缓解了标签不平衡的影响。而且,该模型能够学习到子结构本身的结构信息,在标签集合中的某些子结构出现频率较低的情况下,该模型能够基于其他相似的子结构来辅助预测目标分子的结构特性,使得预测结果更加合理。另外,在分子生成阶段,通过将生成的新的分子存在的子结构加入到标签集合中进行结构预测,可以使得标签预测阶段可以根据新的子结构的结构信息来预测对应的概率值,提高了模型的泛化能力。
图9是本申请实施例提供的一种计算机设备90的结构示意图。如图9所示,该计算机设备90包括:处理器901、存储器902以及存储在所述存储器902中并可在所述处理器901上运行的计算机可读指令903。所述处理器901执行所述计算机可读指令903时实现上述各个图像超分辨率方法实施例中的步骤。或者,所述处理器901执行所述计算机可读指令903时实现上述各实施例中各单元的功能。
示例性地,所述计算机可读指令903可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器902中,并由所述处理器901执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令903在所述计算机设备90中的执行过程。例如,所述计算机可读指令903可以被分割为获取单元以及处理单元,各单元具体功能如上所述。
所述计算机设备90可包括,但不仅限于,处理器901、存储器902。本领域技术人员可以理解,图9仅仅是计算机设备90的示例,并不构成对计算机设备90的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备90还可以包括输入输出终端、网络接入终端、总线等。
所称处理器901可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器902可以是所述计算机设备90的内部存储单元,例如计算机设备90的硬盘或内存。所述存储器902也可以是所述计算机设备90的外部存储终端,例如所述计算机设备90上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器902还可以既包括所述计算机设备90的内部存储单元也包括外部存储终端。所述存储器902用于存储所述计算机可读指令以及所述终端所需的其他程序和数据。所述存储器902还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围,均应包含在本申请的保护范围之内。

Claims (18)

1.一种物品分子生成方法,其特征在于,所述方法包括:
获取源分子的第一分子图结构和第一联结树结构,所述第一联结树结构是基于所述第一分子图结构生成的;
将所述第一分子图结构和所述第一联结树结构输入至分子生成模型中,通过所述分子生成模型,对所述第一分子图结构和所述第一联结树结构进行编码,得到所述源分子的嵌入表示;
通过所述分子生成模型,基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码,生成目标分子的第二联结树结构,所述标签集合包括多个子结构,所述多个子结构是从多个样本分子的联结树结构中提取的结点;
通过所述分子生成模型,对所述第二联结树结构进行解码,得到所述目标分子的第二分子图结构。
2.如权利要求1所述的方法,其特征在于,所述基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码,包括:
对于所述第二联结树结构中待生成的当前结点,若所述当前结点为根结点,则基于所述嵌入表示生成所述当前结点的第一中间特征表示,将所述第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,所述多个子结构图为所述多个子结构的分子图;
对所述多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示所述当前结点为每个拼接特征向量所对应的子结构的概率;
基于每个拼接特征向量的标签预测概率,确定所述当前结点对应的子结构。
3.如权利要求2所述的方法,其特征在于,所述基于所述嵌入表示生成所述当前结点的第一中间特征表示,包括:
通过注意力机制对所述嵌入表示进行聚合处理,生成所述当前结点的上下文特征向量;
基于所述上下文特征向量,生成所述第一中间表示。
4.如权利要求1所述的方法,其特征在于,所述基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码,包括:
对于所述第二联结树结构中已生成的当前结点,基于所述嵌入表示生成所述当前结点的拓扑预测概率,所述拓扑预测概率用于指示所述当前结点是否有待扩展的孩子结点;
若基于所述拓扑预测概率确定所述当前结点有待扩展的孩子结点,则基于所述嵌入表示生成所述当前结点的第一中间特征表示,将所述第一中间特征表示分别与多个子结构图的特征向量进行拼接,得到多个拼接特征向量,所述多个子结构图为所述多个子结构的分子图;
对所述多个拼接特征向量分别进行预测处理,得到每个拼接特征向量的标签预测概率,每个拼接特征向量的标签预测概率用于指示所述当前结点待扩展的孩子结点为每个拼接特征向量所对应的子结构的概率;
基于每个拼接特征向量的标签预测概率,确定所述当前结点待扩展的孩子结点对应的子结构。
5.如权利要求4所述的方法,其特征在于,所述基于所述嵌入表示生成所述当前结点的拓扑预测概率,包括:
对输入所述当前结点的所有边的特征向量以及所述当前结点的特征向量进行汇聚,生成所述当前结点的第二中间特征表示;
基于所述第二中间特征表示和所述嵌入表示,生成所述当前结点的拓扑预测概率。
6.如权利要求4所述的方法,其特征在于,所述基于所述嵌入表示生成所述当前结点的第一中间特征表示,包括:
对输入所述当前结点的所有边的特征向量以及所述当前结点的特征向量进行汇聚,生成所述当前结点的扩展边的特征向量,所述拓展边为从所述当前结点指向待扩展的孩子结点的有向边;
基于所述拓展边的特征向量和所述嵌入表示,生成所述第一中间特征表示。
7.如权利要求6所述的方法,其特征在于,所述基于所述拓展边的特征向量和所述嵌入表示,生成所述第一中间特征表示,包括:
通过注意力机制对所述扩展边的特征向量和所述嵌入表示进行聚合处理,得到所述当前结点的上下文特征向量;
将所述扩展边的特征向量与所述上下文特征向量进行拼接,得到所述第一中间特征表示。
8.如权利要求4所述的方法,其特征在于,所述基于所述嵌入表示生成所述当前结点的拓扑预测概率之后,还包括:
若基于所述拓扑预测概率确定所述当前结点没有待扩展的孩子结点,则退回至所述当前结点的上一个结点,并将所述上一个结点作为当前结点,返回基于所述嵌入表示生成所述当前结点的拓扑预测概率的步骤,直至退回至根结点且所述根结点的拓扑预测概率指示所述根结点没有待扩展的孩子结点为止。
9.如权利要求1所述的方法,其特征在于,所述对所述第二联结树结构进行解码,得到所述目标分子的第二分子图结构,包括:
基于所述第二联结树结构中相邻结点的可能连接方式,构建所述目标分子的候选分子图结构,得到多个候选分子图结构;
对所述多个候选分子图结构中每个候选分子图结构进行编码,得到每个候选分子图结构中各个结点的嵌入表示,基于每个候选分子图结构中各个结点的嵌入表示,生成每个候选分子图结构的特征向量;
对每个候选分子图结构的特征向量以及所述源分子的分子图结构中各个结点的嵌入表示进行处理,得到每个候选分子图结构的预测概率;
基于所述多个候选分子图结构的预测概率,确定所述目标分子对应的分子图结构,得到所述第二分子图结构。
10.如权利要求1所述的方法,其特征在于,所述获取源分子的第一分子图结构和第一联结树结构,包括:
获取以字符串表示的源分子数据,对以字符串表示的源分子数据进行解析,得到所述源分子中各个原子的原子类型以及原子之间的化合键信息;
基于所述源分子中各个原子的原子类型以及原子之间的化合键信息,构建所述源分子的分子图结构,得到所述第一分子图结构;其中,所述源分子中的原子构成所述第一分子图结构中的结点,所述源分子中原子间的化合键构成所述第一分子图结构中的边;
将所述第一分子图结构中的每个环结构以及除环结构之外的每条边均抽象为结点,并将抽象的结点进行连接,生成所述源分子的联结树结构,得到所述第一联结树结构。
11.如权利要求1所述的方法,其特征在于,所述对所述第一分子图结构和所述第一联结树结构进行编码,得到所述源分子的嵌入表示,包括:
采用图神经网络GCN对所述第一分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一分子图结构中各个结点的嵌入表示,基于所述第一分子图结构中各个结点的嵌入表示生成所述源分子的第一嵌入表示;
采用图神经网络GCN对所述第一联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一联结树结构中各个结点的嵌入表示,基于所述第一联结树结构中各个结点的嵌入表示生成所述源分子的第二嵌入表示。
12.如权利要求11所述的方法,其特征在于,所述采用图神经网络GCN对所述第一分子图结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一分子图结构中各个结点的嵌入表示,包括:
对于所述第一分子图结构中从第一结点指向第二结点的第一有向边,基于所述第一结点的特征向量、所述第一结点与所述第二结点之间的无向边的特征向量、以及指向所述第一结点的有向边的特征向量进行迭代处理,生成所述第一有向边更新后的特征向量,所述第一结点和所述第二结点为所述第一分子图结构中的任意相邻结点;
对于所述第一分子图结构中的第三结点,基于所述第三结点的特征向量以及所有指向所述第三结点的有向边更新后的特征向量,生成所述第三结点的嵌入表示,所述第三结点为所述第一分子图结构中的任一结点。
13.如权利要求11所述的方法,其特征在于,所述采用图神经网络GCN对所述第一联结树结构中各个结点的邻居结点和邻边的信息进行汇聚,得到所述第一联结树结构中各个结点的嵌入表示,包括:
对于所述第一联结树结构中从第四结点指向第五结点的第二有向边,基于所述第四结点的特征向量、所述第四结点与所述第五结点之间的无向边的特征向量、以及指向所述第四结点的有向边的特征向量进行迭代处理,生成所述第二有向边更新后的特征向量,所述第四结点和所述第五结点为所述第一联结树结构中的任意相邻结点;
对于所述第一联结树结构中的第六结点,基于所述第六结点的特征向量以及所有指向所述第六结点的有向边更新后的特征向量,生成所述第六结点的嵌入表示,所述第六结点为所述第一联结树结构中的任一结点。
14.如权利要求1所述的方法,其特征在于,所述基于标签集合中各个子结构的结构信息,对所述嵌入表示进行解码之前,还包括:
获取多个样本分子对中各个分子的联结树结构,每个样本分子对包括样本源分子和样本目标分子,所述样本目标分子的理化性质优于所述样本源分子;
提取所述多个样本分子对中各个样本分子的联结树结构中的结点;
对提取的结点进行去重处理,基于去重处理后的结点构建所述标签集合。
15.如权利要求1所述的方法,其特征在于,所述通过所述分子生成模型,对所述第一分子图结构和所述第一联结树结构进行编码之前,还包括:
获取多个样本源分子的分子图结构和联结树结构,所述多个样本源分子为多个样本分子对中的样本源分子,所述多个样本分子对还包括与所述多个样本源分子一一对应的多个样本目标分子;
将所述多个样本源分子的分子图结构和联结树结构输入到待训练分子生成模型中,通过所述待训练分子生成模型,对所述多个样本源分子的分子图结构和联结树结构进行编码,得到所述多个样本源分子的嵌入表示;
通过所述待训练分子生成模型,基于所述标签集合中各个子结构的结构信息,对所述多个样本源分子的嵌入表示进行解码,生成所述多个样本源分子分别对应的多个目标分子的联结树结构;
通过所述待训练分子生成模型,对所述多个目标分子的联结树结构进行解码,生成所述多个目标分子的分子图结构;
基于所述多个目标分子的分子图结构与所述多个样本目标分子的分子图结构之间的预测误差,对所述待训练分子生成模型的模型参数进行调整,将模型参数调整后的待训练分子生成模型,确定为所述分子生成模型。
16.一种物品分子生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取源分子的第一分子图结构和第一联结树结构,所述第一联结树结构是基于所述第一分子图结构生成的;
编码模块,用于将所述第一分子图结构和所述第一联结树结构输入至分子生成模型中,通过所述分子生成模型,对所述第一分子图结构和所述第一联结树结构进行编码,得到所述源分子的嵌入表示;
第一解码模块,用于通过所述分子生成模型,基于标签集合中各个子结构的结构信息以及所述嵌入表示进行解码,生成目标分子的第二联结树结构,所述标签集合包括多个子结构,所述多个子结构是从多个样本分子的联结树结构中提取的结点;
第二解码模块,用于通过所述分子生成模型,对所述第二联结树结构进行解码,生成所述目标分子的第二分子图结构。
17.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至15任一项所述的方法。
18.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至15任一项所述的方法。
CN202010930227.1A 2020-09-07 2020-09-07 物品分子生成方法、装置、设备及存储介质 Pending CN112199884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010930227.1A CN112199884A (zh) 2020-09-07 2020-09-07 物品分子生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010930227.1A CN112199884A (zh) 2020-09-07 2020-09-07 物品分子生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112199884A true CN112199884A (zh) 2021-01-08

Family

ID=74006443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010930227.1A Pending CN112199884A (zh) 2020-09-07 2020-09-07 物品分子生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112199884A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861722A (zh) * 2021-02-09 2021-05-28 中国科学院地理科学与资源研究所 一种半监督深度图卷积的遥感土地利用语义分割方法
CN115132292A (zh) * 2021-03-26 2022-09-30 富士通株式会社 信息处理程序、信息处理设备和信息处理方法
WO2022226940A1 (en) * 2021-04-29 2022-11-03 Huawei Cloud Computing Technologies Co., Ltd. Method and system for generating task-relevant structural embeddings from molecular graphs

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220573A1 (en) * 2018-01-17 2019-07-18 Samsung Electronics Co., Ltd. Method and apparatus for generating a chemical structure using a neural network
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN111508568A (zh) * 2020-04-20 2020-08-07 腾讯科技(深圳)有限公司 分子生成方法、装置及计算机可读存储介质和终端设备
CN111524557A (zh) * 2020-04-24 2020-08-11 腾讯科技(深圳)有限公司 基于人工智能的逆合成预测方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220573A1 (en) * 2018-01-17 2019-07-18 Samsung Electronics Co., Ltd. Method and apparatus for generating a chemical structure using a neural network
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN111508568A (zh) * 2020-04-20 2020-08-07 腾讯科技(深圳)有限公司 分子生成方法、装置及计算机可读存储介质和终端设备
CN111524557A (zh) * 2020-04-24 2020-08-11 腾讯科技(深圳)有限公司 基于人工智能的逆合成预测方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAOJIE JI等: "Graph Polish: A Novel Graph Generation Paradigm for Molecular Optimization", ARXIV, 14 August 2020 (2020-08-14), pages 1 - 15 *
WENGONG JIN等: "Junction Tree Variational Autoencoder for Molecular Graph Generation", PROCEEDINGS OF THE 35 TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, vol. 80, 31 December 2018 (2018-12-31) *
WENGONG JIN等: "Learning multimodal graph-to-graph translation for molecule optimization", 7TH INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS, 9 May 2019 (2019-05-09), pages 1 - 13 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861722A (zh) * 2021-02-09 2021-05-28 中国科学院地理科学与资源研究所 一种半监督深度图卷积的遥感土地利用语义分割方法
CN115132292A (zh) * 2021-03-26 2022-09-30 富士通株式会社 信息处理程序、信息处理设备和信息处理方法
WO2022226940A1 (en) * 2021-04-29 2022-11-03 Huawei Cloud Computing Technologies Co., Ltd. Method and system for generating task-relevant structural embeddings from molecular graphs

Similar Documents

Publication Publication Date Title
Zhang et al. Deep learning on graphs: A survey
Liang et al. Symbolic graph reasoning meets convolutions
Wu et al. Session-based recommendation with graph neural networks
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
CN112199884A (zh) 物品分子生成方法、装置、设备及存储介质
CN108108854A (zh) 城市路网链路预测方法、系统及存储介质
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
CN112905801A (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN112529071B (zh) 一种文本分类方法、系统、计算机设备和存储介质
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
Sarkar et al. An algorithm for DNA read alignment on quantum accelerators
CN113420868A (zh) 一种基于深度强化学习的旅行商问题求解方法及求解系统
CN110689049A (zh) 基于黎曼核字典学习算法的视觉分类方法
CN115293919A (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
CN108805280B (zh) 一种图像检索的方法和装置
Azizi et al. Graph-based generative representation learning of semantically and behaviorally augmented floorplans
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN113792594B (zh) 一种基于对比学习的视频中语言片段定位方法及装置
CN113688207B (zh) 基于网络的结构阅读理解的建模处理方法和装置
CN113609306B (zh) 对抗残差图变分自编码器的社交网络链接预测方法及系统
Zhang et al. An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model
CN117321692A (zh) 用于从分子图生成任务相关的结构嵌入的方法和系统
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination