CN114694769A - 分子表示方法、分子表示模型的训练方法及装置 - Google Patents

分子表示方法、分子表示模型的训练方法及装置 Download PDF

Info

Publication number
CN114694769A
CN114694769A CN202210314863.0A CN202210314863A CN114694769A CN 114694769 A CN114694769 A CN 114694769A CN 202210314863 A CN202210314863 A CN 202210314863A CN 114694769 A CN114694769 A CN 114694769A
Authority
CN
China
Prior art keywords
edge
representation
atom
vector
molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210314863.0A
Other languages
English (en)
Inventor
何东龙
刘荔行
林大勇
方晓敏
王凡
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210314863.0A priority Critical patent/CN114694769A/zh
Publication of CN114694769A publication Critical patent/CN114694769A/zh
Priority to US18/126,887 priority patent/US20230245727A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena
    • G06N10/40Physical realisations or architectures of quantum processors or components for manipulating qubits, e.g. qubit coupling or qubit control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Computational Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种分子表示方法、分子表示模型的训练方法及装置,涉及人工智能技术领域,尤其涉及生物计算、深度学习技术领域。实现方案为:获取待表示的分子的特征信息,所述分子包括多个原子;生成所述多个原子的全连通图,所述全连通图包括多条边;基于所述特征信息,生成多个原子向量表示和多个边向量表示,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述多条边分别对应;基于所述全连通图,对所述多个原子向量表示和所述多个边向量表示进行至少一次聚合,以得到更新后的多个原子向量表示;以及基于所述更新后的多个原子向量表示,生成所述分子的分子向量表示。

Description

分子表示方法、分子表示模型的训练方法及装置
技术领域
本公开涉及人工智能技术领域,尤其涉及生物计算、深度学习技术领域,具体涉及一种分子表示方法及装置、分子表示模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
近年来,AI驱动的药物设计引发了越来越多的关注,深度学习技术被用于预测药物分子的属性,例如药物的毒性、稳定性、药物配体与蛋白质受体的亲和力等。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
本公开提供了一种分子表示方法及装置、分子表示模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
根据本公开的一方面,提供了一种分子表示方法,包括:获取待表示的分子的特征信息,所述分子包括多个原子;生成所述多个原子的全连通图,所述全连通图包括多条边;基于所述特征信息,生成多个原子向量表示和多个边向量表示,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述多条边分别对应;基于所述全连通图,对所述多个原子向量表示和所述多个边向量表示进行至少一次聚合,以得到更新后的多个原子向量表示;以及基于所述更新后的多个原子向量表示,生成所述分子的分子向量表示。
根据本公开的一方面,提供了一种分子表示模型的训练方法,包括:获取样本分子的输入特征和属性标签,所述样本分子包括多个原子,所述输入特征包括所述多个原子的全连通图、多个原子向量表示和多个边向量表示,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述全连通图所包括的多条边分别对应;将所述输入特征输入所述分子表示模型,以得到所述分子表示模型输出的所述样本分子的分子向量表示;将所述分子向量表示输入预测器,以得到所述预测器输出的所述样本分子的预测属性;以及基于所述预测属性和所述属性标签,调整所述分子表示模型的参数。
根据本公开的一方面,提供了一种分子表示装置,包括:获取单元,被配置为获取待表示的分子的特征信息,所述分子包括多个原子;第一生成单元,被配置为生成所述多个原子的全连通图,所述全连通图包括多条边;第二生成单元,被配置为基于所述特征信息,生成多个原子向量表示和多个边向量表示,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述多条边分别对应;聚合更新单元,被配置为基于所述全连通图,对所述多个原子向量表示和所述多个边向量表示进行至少一次聚合,以得到更新后的多个原子向量表示;以及第三生成单元,被配置为基于所述更新后的多个原子向量表示,生成所述分子的分子向量表示。
根据本公开的一方面,提供了一种分子表示模型的训练装置,包括:获取单元,被配置为获取样本分子的输入特征和属性标签,所述样本分子包括多个原子,所述输入特征包括所述多个原子的全连通图、多个原子向量表示和多个边向量表示,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述全连通图所包括的多条边分别对应;表示单元,被配置为将所述输入特征输入所述分子表示模型,以得到所述分子表示模型输出的所述样本分子的分子向量表示;预测单元,被配置为将所述分子向量表示输入预测器,以得到所述预测器输出的所述样本分子的预测属性;以及调整单元,被配置为基于所述预测属性和所述属性标签,调整所述分子表示模型的参数。
根据本公开的一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器,该存储器存储有可被上述至少一个处理器执行的指令,该指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述任一方面的方法。
根据本公开的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行上述任一方面的方法。
根据本公开的一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述任一方面的方法。
根据本公开的一个或多个实施例,所生成的分子向量表示能够全面、准确地表达分子的特性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开的一些实施例的分子表示方法的流程图;
图2示出了根据本公开的一些实施例的原子的全连通图的示意图;
图3示出了根据本公开的一些实施例的更新原子向量表示的示意图;
图4示出了根据本公开的一些实施例的更新边向量表示的示意图;
图5示出了根据本公开的一些实施例的基于邻边对的边向量表示聚合的示意图;
图6示出了根据本公开的一些实施例的分子表示模型的训练方法的流程图;
图7示出了根据本公开的一些实施例的分子表示模型的训练过程的示意图;
图8示出了根据本公开的一些实施例的分子表示模型的结构框图;
图9示出了根据本公开的一些实施例的聚合更新模块的结构框图;
图10示出了根据本公开的一些实施例的原子-边注意力机制的示意图;
图11示出了根据本公开的一些实施例的边注意力机制的示意图;
图12示出了根据本公开的实施例的分子表示装置的结构框图;
图13示出了根据本公开的实施例的分子表示模型的训练装置的结构框图;以及
图14示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
在本公开中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
近年来,AI驱动的药物设计引发了越来越多的关注,深度学习技术被用于预测药物分子的属性,例如药物的毒性、稳定性、药物配体与蛋白质受体的亲和力等。高质量的分子表征能够提高分子属性预测的准确度,大大提高药物研发的效率,降低成本。
为此,本公开的实施例提供一种分子表示方法,能够得到高质量的分子向量表示,从而提高分子属性预测的准确度。
下面将结合附图详细描述本公开的实施例。
图1示出了根据本公开实施例的分子表示方法100的流程图。方法100可以在服务器处执行,也可以在客户端设备处执行。也即,方法100的各个步骤的执行主体可以是服务器,也可以是客户端设备。
如图1所示,方法100包括S110-S150。
在步骤S110中,获取待表示的分子的特征信息,该分子包括多个原子。
在步骤S120中,生成多个原子的全连通图,该全连通图包括多条边。
在步骤S130中,基于特征信息,生成多个原子向量表示和多个边向量表示。多个原子向量表示与多个原子分别对应,多个边向量表示与全连通图中的多条边分别对应。
在步骤S140中,基于全连通图,对多个原子向量表示和多个边向量表示进行至少一次聚合,以得到更新后的多个原子向量表示。
在步骤S150中,基于更新后的多个原子向量表示,生成分子的分子向量表示。
分子的属性本质上是原子之间相互作用的结果,原子之间的边能够表达原子之间的连通和交互。根据本公开的实施例,通过构建原子的全连通图以及对原子向量表示和边向量表示进行聚合,可以使原子信息和边信息得到充分交互,从而得到更加全面、准确的分子向量表示。
本公开实施例的分子向量表示能够全面、准确地表达分子的特性。进一步地,根据本公开实施例的分子向量表示来对分子的属性进行预测,能够提高分子属性预测的准确性,从而大大提升药物研发的效率。
本公开实施例的分子表示方法适用于处理包括多个原子和多个化学键的分子。
在本公开的实施例中,基于分子所包括的多个原子,可以构造多个原子的全连通图。全连通图中,任意两个原子之间均有边相连。可以理解,全连通图所包括的边的数量为N(N-1)/2,其中,N为原子的数量。
全连通图的多条边至少包括分子中的多个化学键。在分子中的每一对原子均被化学键连接的情况下,全连通图的多条边均为化学键。在分子中存在未被化学键连接的原子对的情况下,全连通图的多条边除了包括分子中的化学键之外,还包括这些未被化学键连接的原子对之间的虚拟边。应当理解,在本公开的实施例中,虚拟边指的是全连通图所包括的多条边中的除多个化学键之外的任一边。
图2示出了根据本公开实施例的原子的全连通图的示意图。如图2所示,分子200包括A、B、C、D四个原子,以及原子之间的三个化学键AB、BC、BD。在图2中,化学键用实线表示。通过构造全连通图,在原子A与原子C之间添加一条虚拟边AC,在原子A与原子D之间添加一条虚拟边AD,在原子C与原子D之间添加一条虚拟边CD。在图2中,虚拟边用虚线表示。
针对步骤S130,根据一些实施例,分子的特征信息包括多个原子各自的原子特征信息和多个化学键各自的化学键信息。
原子特征信息例如包括各原子的序号、空间坐标、杂化方式、度数(即所连接的原子的数量)、所连接的氢原子的数量、化合价、是否处于芳香体系中、是否处于环中,等。
化学键特征信息例如包括化学键的类型、立体异构方式、键长、键角、是否是芳香键、是否处于环中,等。
根据一些实施例,分子的特征信息可以通过对分子的SMILES(SimplifiedMolecular Input Line Entry Specification,简化分子线性输入规范)表达式、SDF(Structure Data File)化学数据文件等分子描述数据进行解析而得到。根据另一些实施例,分子的特征信息也可以通过RDKit等用于化学信息学的开源工具包来得到。
基于分子的特征信息,可以生成各原子的原子向量表示和各条边的边向量表示。具体地,至少基于相应的原子特征信息,可以生成每个原子的原子向量表示。至少基于相应的化学键特征信息,可以生成每个化学键的边向量表示。在全连通图包括虚拟边的情况下(即在全连通图所包括的多条边的数量大于多个化学键的数量的情况下),可以将虚拟边的边向量表示设置为预设值。
根据一些实施例,对于任一原子,可以对该原子的原子特征信息进行编码,以生成其原子向量表示。根据另一些实施例,对于任一原子,可以对该原子的原子特征信息以及该原子所连接的化学键的化学键特征信息进行编码,以生成其原子向量表示。
根据一些实施例,对于任一化学键,可以对该化学键的化学键特征信息进行编码,以生成其边向量表示。根据另一些实施例,对于任一化学键,可以对该化学键的化学键特征信息以及该化学键所连接的原子的原子特征信息进行编码,以生成其边向量表示。
在全连通图包括虚拟边的情况下,可以将虚拟边的边向量表示设置为预设值,例如设置为全零向量。
根据一些实施例,原子向量表示的维度与边向量表示的维度相同(例如均为100维),由此可以提高后续步骤的计算效率。
应当理解,基于分子的特征信息所生成的原子向量表示和边向量表示均为初始值。在后续步骤S140中,将对各个原子向量表示和边向量表示进行至少一次迭代更新。
具体地,在步骤S140中,基于全连通图,对多个原子向量表示和多个边向量表示进行至少一次聚合,每次聚合后,多个原子向量表示和多个边向量表示的值均被更新,由此得到更新后的多个原子向量表示和多个边向量表示。
根据一些实施例,上述至少一次聚合中的每次聚合包括以下步骤S142-S146。
在步骤S142中,对于多个原子中的任一原子,基于注意力机制将当前的多个原子向量表示和当前的多个边向量表示进行聚合,以得到该原子的更新后的原子向量表示。
在步骤S144中,对于多条边中的任一边,基于该边所连接的两个原子的更新后的原子向量表示,对该边当前的边向量表示进行更新,以得到该边的第一边向量表示。
在步骤S146中,对于多条边中的任一边,基于注意力机制将多条边的多个第一边向量表示进行聚合,以得到该边的更新后的边向量表示。
根据上述实施例,在每次聚合过程中,首先通过对各原子向量表示和各边向量表示进行聚合,更新了各个原子向量表示(当前聚合的步骤S142)。随后,将更新后的原子向量表示传递给边向量表示(当前聚合的步骤S144)。最后,对各边向量表示进行聚合,以更新各个边向量表示(当前聚合的步骤S146)。更新后的边向量表示可以在下一次聚合中用于更新原子向量表示(下一次聚合的步骤S142)。由此,可以实现原子信息与边信息的充分交互,使各原子向量表示和边向量表示能够学习到更加全面、准确的信息,从而提高最终分子向量表示的准确性。
图3示出了根据本公开的一些实施例的更新原子向量表示的示意图。图3所示的过程对应于上述步骤S142。
如图3所示,分子300包括A、B、C、D四个原子。以原子A为例,基于注意力机制将原子A、B、C、D的原子向量表示和边AB、AC、AD、BC、BD、CD的边向量表示进行聚合(信息聚合方向如图中的灰色箭头所示),可以得到原子A的更新后的原子向量表示。在该聚合过程中,各向量表示(包括原子向量表示和边向量表示)的注意力权重可以通过训练预先得到。
图4示出了根据本公开的一些实施例的更新边向量表示的示意图。图4所示的过程对应于上述步骤S144和S146。
如图4所示,分子400包括AB、AC、AD、BC、BD、CD六条边。以边AB为例,首先,基于原子A和原子B的更新后的原子向量表示,对边AB的向量表示进行更新(信息更新方向如左图中的灰色箭头所示),得到边AB的第一边向量表示。类似地,也可以得到其他五条边,即边AC、AD、BC、BD、CD各自的第一边向量表示。随后,仍以边AB为例,基于注意力机制将其自身的第一边向量表示与其他五条边的第一边向量表示进行聚合(信息聚合方向如右图中的灰色箭头所示),得到边AB的更新后的边向量表示。在该聚合过程中,各边向量表示的注意力权重可以通过训练预先得到。
根据一些实施例,上述步骤S144的“基于该边所连接的两个原子的更新后的原子向量表示,对该边当前的边向量表示进行更新,以得到该边的第一边向量表示”进一步包括下述步骤S1442、S1444:
步骤S1442、基于该边所连接的两个原子的更新后的原子向量表示,确定该边的向量表示变化量;以及
步骤S1444、将该边当前的边向量表示与所述向量表示变化量进行叠加,以得到该边的第一边向量表示。
根据上述实施例,能够将更新后的原子向量表示传递给边向量表示,从而实现边信息的补充和增强。
具体地,针对上述步骤S1442,可以计算两个原子的更新后的原子向量表示的外积(outer product),得到一个矩阵,然后通过诸如求平均值、线性变换等方式,将该矩阵降维成向量,该向量即为相应边的向量表示变化量。随后,针对步骤S1444,将可以将该边当前的边向量表示与其向量表示变化量相加,得到该边的第一边向量表示。
根据一些实施例,上述步骤S146的“基于注意力机制将多条边的多个第一边向量表示进行聚合,以得到该边的更新后的边向量表示”进一步包括下述步骤S1462和S1464:
步骤S1462、确定该边的至少一个邻边对,其中,所述至少一个邻边对中的每个邻边对包括该边的两条邻边,所述两条邻边与该边相连形成三角形;
步骤S1464、基于注意力机制,对该边和所述至少一个邻边对中的每条邻边的第一边向量表示进行聚合,以得到该边的更新后的边向量表示。
三角形的三条边相互约束,其中某条边的特性受其三角形邻边的影响较大。根据上述实施例,在通过聚合来更新某条边的边向量表示时,仅聚合与该边具有三角形关系的邻边的边向量表示,能够在保证不遗漏关键信息的前提下,大大减少计算量(相较于聚合所有边的边向量表示来说),提高计算效率。
图5示出了根据本公开的一些实施例的基于邻边对的边向量表示聚合的示意图。如图5所示,分子500包括AB、AC、AD、BC、BD、CD六条边。以边AB为例,该边包括两个邻边对,分别为(AC,BC)和(AD,BD)。相应地,可以基于注意力机制,将边AB与邻边对中的各个邻边,即边AC、BC、AD、BD的第一边向量表示进行聚合(信息聚合方向如图中的灰色箭头所示),以得到边AB的更新后的边向量表示。
根据一些实施例,上述每个邻边对的两条邻边包括与该边的第一端点(也可称为该边的“起点”)相连的第一邻边和与该边的第二端点(也可称为该边的“终点”)相连的第二邻边。相应地,上述步骤S1464的“基于注意力机制,对该边和所述至少一个邻边对中的每条邻边的第一边向量表示进行聚合,以得到该边的更新后的边向量表示”进一步包括以下步骤S14642和S14644:
步骤S14642、基于注意力机制,对该边和至少一个邻边对中的每条第一邻边的第一边向量表示进行聚合,以得到该边的第二边向量表示;以及
步骤S14644、基于注意力机制,对该边和至少一个邻边对中的每条第二邻边的第二边向量表示进行聚合,以得到该边的更新后的边向量表示。
根据上述实施例,首先将与第一端点相连的第一邻边进行聚合,然后再将与第二端点相连的第二邻边聚合,能够实现边与边信息的充分交互。
根据一些实施例,在上述步骤S1464、S14642、S14644的边注意力机制中,该边以及至少一个邻边对中的每条邻边的注意力权重是至少基于相应的两个原子的最短化学键距离而确定的。由此,能够将原子之间的化学键距离信息引入边信息聚合的过程中,使更新后的边向量表示融合了分子的空间结构信息,从而能够得到更加全面、准确的分子向量表示。
最短化学键距离指的是连接两个原子的最短化学键路径所包括的化学键的数量。根据一些实施例,该边以及每条邻边的权重可以是基于相应的两个原子的最短化学键距离经训练预先得到。
通过步骤S140的至少一次聚合,可以得到更新后的多个原子向量表示和多个边向量表示。
随后,在步骤S150中,可以基于更新后的多个原子向量表示,生成分子的分子向量表示。
基于多个原子向量表示生成分子向量表示的方式有多种。
根据一些实施例,可以将多个原子向量表示进行拼接,以得到分子向量表示。
根据另一些实施例,可以将多个原子向量的相应位置的元素相加,以得到分子向量表示。
根据另一些实施例,可以将多个原子向量的加权求和结果作为分子向量表示。
根据另一些实施例,可以将多个原子向量输入经训练的多层感知机(Multi-LayerPerceptron,MLP),将多层感知机的输出作为分子向量表示。
经步骤S150得到的分子向量表示可以用于对分子的属性进行预测。即,根据一些实施例,方法100还包括:基于分子向量表示,预测分子的属性。
由于根据本公开实施例生成的分子向量表示能够全面、准确地表达分子的特性,因此,基于本公开实施例的分子向量表示对分子的属性进行预测,能够提高分子属性预测的准确性,从而大大提升药物研发的效率。
根据一些实施例,分子的属性可以包括以下至少一项:水溶性、毒性、与预设蛋白质的匹配程度、化合物反应特性、稳定性、可降解性、能量。
根据一些实施例,可以将分子向量表示输入经训练的预测器,以得到预测器输出的分子的属性。预测器例如可以是前馈神经网络。
根据一些实施例,上述步骤S140和步骤S150可以通过经训练的分子表示模型来实现。具体地,将全连通图、多个原子向量表示和多个边向量表示输入经训练的分子表示模型,即可得到分子表示模型输出的分子向量表示。
更具体地,经训练的分子表示模型可以包括聚合更新模块和表示模块。相应地,步骤S140可以进一步包括:将全连通图、多个原子向量表示和多个边向量表示输入经训练的分子表示模型的聚合更新模块,以得到聚合更新模块输出的更新后的多个原子向量表示。步骤S150可以进一步包括:将更新后的多个原子向量表示输入分子表示模型的表示模块,以得到表示模块输出的该分子的分子向量表示。
根据本公开的实施例,还提供了一种分子表示模型的训练方法。图6示出了根据本公开实施例的分子表示模型的训练方法600的流程图。方法600通常在服务器处执行,也可以在客户端设备处执行。也即,方法600的各个步骤的执行主体可以是服务器,也可以是客户端设备。如图6所示,方法600包括步骤S610-S640。
在步骤S610中,获取样本分子的输入特征和属性标签。样本分子包括多个原子,输入特征包括上述多个原子的全连通图、多个原子向量表示和多个边向量表示,多个原子向量表示与多个原子分别对应,多个边向量表示与全连通图所包括的多条边分别对应。
在步骤S620中,将输入特征输入分子表示模型,以得到分子表示模型输出的样本分子的分子向量表示。
在步骤S630中,将分子向量表示输入预测器,以得到预测器输出的样本分子的预测属性。
在步骤S640中,基于预测属性和属性标签,调整分子表示模型的参数。
根据本公开的实施例,能够得到经训练的分子表示模型。分子表示模型能够快速、高效的生成分子的分子向量表示。并且,本公开实施例的分子表示模型与分子属性的预测器联合训练得出,从而使分子表示模型输出的分子向量表示能够达到良好的属性预测效果,能够实现分子属性的准确预测。
根据一些实施例,预测器例如可以是前馈神经网络。
根据一些实施例,步骤S640进一步包括:基于预测属性和属性标签,计算损失值;以及基于损失值,调整分子表示模型的参数。根据一些实施例,基于损失值,也可以一并调整预测器的参数。
损失值的具体计算方式(即损失函数的表达式)可以根据预测器的预测任务来确定。例如,在预测任务为分类任务的情况下,可以采用交叉熵(Cross Entropy)等损失函数;在预测任务为回归任务的情况下,可以采用MAE(Mean Absolute Error)、MSE(Mean SquareError)等损失函数。
应当理解,上述步骤S610-S640可以循环执行多次,直至满足预设的终止条件(例如,损失值小于预设值、循环次数达到预设的最大循环次数等)时,结束模型的训练过程,得到经训练的分子表示模型。根据一些实施例,也可以一并得到经训练的预测器。
图7示出了根据本公开的一些实施例的分子表示模型的训练过程的示意图。如图7所示,将样本分子的输入特征(包括全连通图、多个原子向量表示和多个边向量表示)输入分子表示模型710,分子表示模型710输出样本分子的分子向量表示。随后,将分子向量表示输入预测器720,预测器720输出样本分子的预测属性。随后,基于预测属性(预测值)和样本分子的属性标签(真实值),计算分子表示模型710和预测器720的损失值。随后,基于损失值,采用诸如反向传播等算法来调整分子表示模型710和预测器720的参数。
根据一些实施例,样本分子还包括所述多个原子之间的多个化学键,所述多条边至少包括所述多个化学键,方法600还包括:获取多个原子各自的原子特征信息和多个化学键各自的化学键特征信息;至少基于相应的原子特征信息,生成每个原子的原子向量表示;至少基于相应的化学键特征信息,生成每个化学键的边向量表示;以及响应于确定所述多条边的数量大于所述多个化学键的数量,将每个虚拟边的边向量表示设置为预设值,其中,所述虚拟边为所述多条边中的除所述多个化学键之外的任一边。
原子向量表示、化学键的边向量表示以及虚拟边的边向量表示的生成方法可以参考上文关于步骤S130的描述,此处不再赘述。
根据一些实施例,属性标签和预测属性分别包括以下至少一项:水溶性、毒性、与预设蛋白质的匹配程度、化合物反应特性、稳定性、可降解性、能量。
以下详细介绍本公开实施例的分子表示模型的结构。
图8示出了根据本公开的一些实施例的分子表示模型800的结构框图。如图8所示,分子表示模型800包括聚合更新模块810和表示模块820。相应地,上述步骤S620进一步包括:将输入特征输入聚合更新模块810,以得到聚合更新模块810输出的更新后的多个原子向量表示,所述更新后的多个原子向量表示是基于所述全连通图,对所述多个原子向量表示和所述多个边向量表示进行至少一次聚合而得到的;以及将所述更新后的多个原子向量表示输入所述表示模块820,以得到所述表示模块820输出的所述分子向量表示。
应当理解,聚合更新模块810可以用于实现参考图1描述的方法100中的步骤S140;表示模块820可以用于实现参考图1描述的方法100中的步骤S150。
图9进一步示出了根据本公开实施例的聚合更新模块900的结构框图。如图9所示,聚合更新模块900包括级联的N(N≥1)个聚合更新单元910-1,910-2,…,910-N。各聚合更新单元910的结构相同。每个聚合更新单元910用于对多个原子向量表示和多个边向量表示进行一次聚合。例如,每个聚合更新单元910可以用于实现上文描述的方法100中的步骤S142-S146。
如图9所示,每个聚合更新单元910进一步包括原子-边注意力单元(Node-EdgeAttention)911、前馈单元(Feed Forward Network)912、边叠加更新单元(Outer ProductMean)913、第一边注意力单元(First Triangle Attention)914、第二边注意力单元(Second Triangle Attention)915和前馈单元(Feed Forward Network)916。
原子-边注意力单元911用于对原子向量表示进行更新。具体地,原子-边注意力单元911基于注意力机制,将当前的多个原子向量表示和当前的多个边向量表示进行聚合,以得到更新后的多个原子向量表示。
原子-边注意力单元911可以用于实现上文描述的方法100中的步骤S142。
图10示出了根据本公开实施例的原子-边注意力机制的计算过程的示意图。图10所示的计算过程可以表示为下述公式(1)-(8)。
qT,k_n,v_n=f(n) (1)
k_e=f(e) (2)
k=k_n+k_e (3)
v_e=f(e) (4)
v=v_n+v_e (5)
g=g(f(n)) (6)
Figure BDA0003568733180000141
n′=g⊙∑av (8)
上式(1)-(8)中,q、k、v分别表示查询矩阵(query)、键矩阵(key)、值矩阵(value)。T表示转置。n表示当前的多个原子向量表示。e表示当前的多个边向量表示。f、g为功能层处理函数,例如线性变换函数(Linear)、sigmoid激活函数等。a表示注意力权重。c表示原子向量表示的维度。⊙表示元素积(element-wise product),又称哈达玛积(Hadamardproduct)。n’表示更新后的多个边向量表示。
前馈单元912用于对原子-边注意力单元911输出的更新后的多个原子向量表示进行线性变换,以提高模型的拟合能力。
边叠加更新单元913用于将更新后的多个原子向量表示叠加至当前的多个边向量表示上,从而实现边信息的补充和增强。即,对于多条边中的任一边,基于该边所连接的两个原子的更新后的原子向量表示,对该边当前的边向量表示进行更新,以得到该边的第一边向量表示。
具体地,对于多条边中的任一边,边叠加更新单元913基于该边所连接的两个原子的更新后的原子向量表示,确定该边的向量表示变化量;以及将该边当前的边向量表示与所述向量表示变化量进行叠加,以得到该边的第一边向量表示。
边叠加更新单元913可以用于实现上文描述的方法100中的步骤S144、S1442和S1444。
第一边注意力单元914、第二边注意力单元915用于实现基于邻边对的边向量表示的聚合。由于某条边与其邻边对可以形成三角形,因此边注意力单元也可以称为三角形注意力(Triangle Attention)单元。具体地,对于多条边中的任一边,第一边注意力单元914基于注意力机制,对该边和至少一个邻边对中的每条第一邻边的第一边向量表示进行聚合,以得到该边的第二边向量表示。第二边注意力单元915基于注意力机制,对该边和至少一个邻边对中的每条第二邻边的第二边向量表示进行聚合,以得到该边的更新后的边向量表示。
第一边注意力单元914、第二边注意力单元915联合用于实现上文描述的方法100中的步骤S146、S1464。更具体地,第一边注意力单元914、第二边注意力单元915可以分别用于实现上文描述的方法100中的步骤S14642、S14644。
图11示出了根据本公开的一些实施例的边注意力(三角形注意力)机制的示意图。第一边注意力单元914、第二边注意力单元915均可以采用图11所示的计算过程。为体现图11对第一边注意力单元914、第二边注意力单元915的通用性,图11中未注明各参数的下标i、j、k。
参考图11,第一边注意力单元914的计算过程可以表示为下式(9)-(15)。
Figure BDA0003568733180000161
k_dij,v_dij=f(dij) (10)
kik=k_eij+k_dij (11)
vik=v_eij+v_dij (12)
Figure BDA0003568733180000162
gij=g(f(eij)) (14)
eij′=gij⊙∑kaijkvik (15)
式(9)-(15)中,q、k、v分别表示查询矩阵(query)、键矩阵(key)、值矩阵(value)。T表示转置。eij表示边ij(即原子i和原子j之间的边)的第一边向量表示。eij’表示边ij的第二边向量表示。f、g为功能层处理函数,例如线性变换函数(Linear)、sigmoid激活函数等。aijk表示边ik的注意力权重。c表示边向量表示的维度。⊙表示元素积(element-wiseproduct),又称哈达玛积(Hadamard product)。
d为三角形距离张量。d是一个四维张量,其中前三个维度分别表示三角形的三个原子i、j、k,第四个维度表示原子ij、ik、jk之间的最短化学键距离。dij表示张量d中的第一维为i、第二维为j的元素。
参考图11,第二边注意力单元915的计算过程可以表示为下式(16)-(22)。
Figure BDA0003568733180000163
k_dij,v_dij=f(dij) (17)
kkj=k_eij+k_dij (18)
vkj=v_eij+v_dij (19)
Figure BDA0003568733180000164
gij=g(f(eij)) (21)
eij′=gij⊙∑kaijkvkj (22)
式(16)-(22)中,q、k、v分别表示查询矩阵(query)、键矩阵(key)、值矩阵(value)。T表示转置。eij表示边ij(即原子i和原子j之间的边)的第二边向量表示。eij’表示边ij更新后的边向量表示。f、g为功能层处理函数,例如线性变换函数(Linear)、sigmoid激活函数等。aijk表示边kj的注意力权重。c表示边向量表示的维度。⊙表示元素积(element-wiseproduct),又称哈达玛积(Hadamard product)。
d为三角形距离张量。d是一个四维张量,其中前三个维度分别表示三角形的三个原子i、j、k,第四个维度表示原子ij、ik、jk之间的最短化学键距离。dij表示张量d中的第一维为i、第二维为j的元素。
前馈单元916用于对第二边注意力单元915输出的更新后的多个边向量表示进行线性变换,以提高模型的拟合能力。
根据本公开的实施例,还提供了一种分子表示装置。图12示出了根据本公开实施例的分子表示装置1200的结构框图。如图12所示,装置1200包括:
获取单元1210,被配置为获取待表示的分子的特征信息,其中,所述分子包括多个原子;
第一生成单元1220,被配置为生成所述多个原子的全连通图,其中,所述全连通图包括多条边;
第二生成单元1230,被配置为基于所述特征信息,生成多个原子向量表示和多个边向量表示,其中,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述多条边分别对应;
聚合更新单元1240,被配置为基于所述全连通图,对所述多个原子向量表示和所述多个边向量表示进行至少一次聚合,以得到更新后的多个原子向量表示;以及
第三生成单元1250,被配置为基于所述更新后的多个原子向量表示,生成所述分子的分子向量表示。
分子的属性本质上是原子之间相互作用的结果,原子之间的边能够表达原子之间的连通和交互。根据本公开的实施例,通过构建原子的全连通图以及对原子向量表示和边向量表示进行聚合,可以使原子信息和边信息得到充分交互,从而得到更加全面、准确的分子向量表示。
本公开实施例的分子向量表示能够全面、准确地表达分子的特性。进一步地,根据本公开实施例的分子向量表示来对分子的属性进行预测,能够提高分子属性预测的准确性,从而大大提升药物研发的效率。
根据本公开的实施例,还提供了一种分子表示模型的训练装置。图13示出了根据本公开实施例的分子表示模型的训练装置1300的结构框图。如图13所示,装置1300包括:
获取单元1310,被配置为获取样本分子的输入特征和属性标签,其中,所述样本分子包括多个原子,所述输入特征包括所述多个原子的全连通图、多个原子向量表示和多个边向量表示,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述全连通图所包括的多条边分别对应;
表示单元1320,被配置为将所述输入特征输入所述分子表示模型,以得到所述分子表示模型输出的所述样本分子的分子向量表示;
预测单元1330,被配置为将所述分子向量表示输入预测器,以得到所述预测器输出的所述样本分子的预测属性;以及
调整单元1340,被配置为基于所述预测属性和所述属性标签,调整所述分子表示模型的参数。
根据本公开的实施例,能够得到经训练的分子表示模型。分子表示模型能够快速、高效的生成分子的分子向量表示。并且,本公开实施例的分子表示模型与分子属性的预测器联合训练得出,从而使分子表示模型输出的分子向量表示能够达到良好的属性预测效果,能够实现分子属性的准确预测。
应当理解,图12中所示装置1200的各个单元可以与参考图1描述的方法100中的各个步骤相对应,图13中所示装置1300的各个单元可以与参考图6描述的方法600中的各个步骤相对应。由此,上面针对方法100描述的操作、特征和优点同样适用于装置1200及其包括的单元,上面针对方法600描述的操作、特征和优点同样适用于装置1300及其包括的单元。为了简洁起见,某些操作、特征和优点在此不再赘述。
虽然上面参考特定单元讨论了特定功能,但是应当注意,本文讨论的各个单元的功能可以分为多个单元,和/或多个单元的至少一些功能可以组合成单个单元。例如,上面描述的第一生成单元1220和第二生成单元1230在一些实施例中可以组合成单个单元。
还应当理解,本文可以在软件硬件元件或程序单元的一般上下文中描述各种技术。上面关于图12、图13描述的各个单元可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些单元可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些单元可以被实现为硬件逻辑/电路。例如,在一些实施例中,单元1210-1340中的一个或多个可以一起被实现在片上系统(System on Chip,SoC)中。SoC可以包括集成电路芯片(其包括处理器(例如,中央处理单元(Central Processing Unit,CPU)、微控制器、微处理器、数字信号处理器(Digital Signal Processor,DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件),并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。
根据本公开的实施例,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器,该存储器存储有可被上述至少一个处理器执行的指令,该指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行根据本公开实施例的分子表示方法和/或分子表示模型的训练方法。
根据本公开的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开实施例的分子表示方法和/或分子表示模型的训练方法。
根据本公开的一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例的分子表示方法和/或分子表示模型的训练方法。
参考图14,现将描述可以作为本公开的服务器或客户端的电子设备1400的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图14所示,电子设备1400包括计算单元1401,其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序,来执行各种适当的动作和处理。在RAM 1403中,还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
电子设备1400中的多个部件连接至I/O接口1405,包括:输入单元1406、输出单元1407、存储单元1408以及通信单元1409。输入单元1406可以是能向设备1400输入信息的任何类型的设备,输入单元1406可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1407可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1408可以包括但不限于磁盘、光盘。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、802.11设备、Wi-Fi设备、WiMAX设备、蜂窝通信设备和/或类似物。
计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理,例如方法100、方法600。例如,在一些实施例中,方法100和/或方法600可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时,可以执行上文描述的方法100和/或方法600的一个或多个步骤。备选地,在其他实施例中,计算单元1401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法100和/或方法600。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (19)

1.一种分子表示方法,包括:
获取待表示的分子的特征信息,其中,所述分子包括多个原子;
生成所述多个原子的全连通图,其中,所述全连通图包括多条边;
基于所述特征信息,生成多个原子向量表示和多个边向量表示,其中,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述多条边分别对应;
基于所述全连通图,对所述多个原子向量表示和所述多个边向量表示进行至少一次聚合,以得到更新后的多个原子向量表示;以及
基于所述更新后的多个原子向量表示,生成所述分子的分子向量表示。
2.根据权利要求1所述的方法,其中,所述分子还包括所述多个原子之间的多个化学键,所述特征信息包括所述多个原子各自的原子特征信息和所述多个化学键各自的化学键特征信息,所述多条边至少包括所述多个化学键,所述基于所述特征信息,生成多个原子向量表示和多个边向量表示包括:
至少基于相应的原子特征信息,生成每个原子的原子向量表示;
至少基于相应的化学键特征信息,生成每个化学键的边向量表示;以及
响应于确定所述多条边的数量大于所述多个化学键的数量,将每个虚拟边的边向量表示设置为预设值,其中,所述虚拟边为所述多条边中的除所述多个化学键之外的任一边。
3.根据权利要求1或2所述的方法,其中,所述至少一次聚合的每一次聚合包括:
对于所述多个原子中的任一原子,基于注意力机制将当前的多个原子向量表示和当前的多个边向量表示进行聚合,以得到该原子的更新后的原子向量表示;以及
对于所述多条边中的任一边:
基于该边所连接的两个原子的更新后的原子向量表示,对该边当前的边向量表示进行更新,以得到该边的第一边向量表示;以及
基于注意力机制将所述多条边的多个第一边向量表示进行聚合,以得到该边的更新后的边向量表示。
4.根据权利要求3所述的方法,其中,所述基于该边所连接的两个原子的更新后的原子向量表示,对该边当前的边向量表示进行更新,以得到该边的第一边向量表示包括:
基于该边所连接的两个原子的更新后的原子向量表示,确定该边的向量表示变化量;以及
将该边当前的边向量表示与所述向量表示变化量进行叠加,以得到该边的第一边向量表示。
5.根据权利要求3或4所述的方法,其中,所述基于注意力机制将所述多条边的多个第一边向量表示进行聚合,以得到该边的更新后的边向量表示包括:
确定该边的至少一个邻边对,其中,所述至少一个邻边对中的每个邻边对包括该边的两条邻边,所述两条邻边与该边相连形成三角形;以及
基于注意力机制,对该边和所述至少一个邻边对中的每条邻边的第一边向量表示进行聚合,以得到该边的更新后的边向量表示。
6.根据权利要求5所述的方法,其中,每个邻边对的两条邻边包括与该边的第一端点相连的第一邻边和与该边的第二端点相连的第二邻边,并且其中,所述基于注意力机制,对该边和所述至少一个邻边对中的每条邻边的第一边向量表示进行聚合,以得到该边的更新后的边向量表示包括:
基于注意力机制,对该边和所述至少一个邻边对中的每条第一邻边的第一边向量表示进行聚合,以得到该边的第二边向量表示;以及
基于注意力机制,对该边和所述至少一个邻边对中的每条第二邻边的第二边向量表示进行聚合,以得到该边的更新后的边向量表示。
7.根据权利要求5或6所述的方法,其中,该边以及所述至少一个邻边对中的每条邻边的注意力权重是至少基于相应的两个原子的最短化学键距离而确定的。
8.根据权利要求1-7中任一项所述的方法,还包括:
基于所述分子向量表示,预测所述分子的属性。
9.根据权利要求8所述的方法,其中,所述属性包括以下至少一项:
水溶性、毒性、与预设蛋白质的匹配程度、化合物反应特性、稳定性、可降解性、能量。
10.根据权利要求1-9中任一项所述的方法,其中,所述基于所述全连通图,对所述多个原子向量表示和所述多个边向量表示进行至少一次聚合,以得到更新后的多个原子向量表示包括:
将所述全连通图、所述多个原子向量表示和所述多个边向量表示输入经训练的分子表示模型的聚合更新模块,以得到所述聚合更新模块输出的更新后的多个原子向量表示;
并且其中,所述基于所述更新后的多个原子向量表示,生成所述分子的分子向量表示包括:
将所述更新后的多个原子向量表示输入所述分子表示模型的表示模块,以得到所述表示模块输出的所述分子的分子向量表示。
11.一种分子表示模型的训练方法,包括:
获取样本分子的输入特征和属性标签,其中,所述样本分子包括多个原子,所述输入特征包括所述多个原子的全连通图、多个原子向量表示和多个边向量表示,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述全连通图所包括的多条边分别对应;
将所述输入特征输入所述分子表示模型,以得到所述分子表示模型输出的所述样本分子的分子向量表示;
将所述分子向量表示输入预测器,以得到所述预测器输出的所述样本分子的预测属性;以及
基于所述预测属性和所述属性标签,调整所述分子表示模型的参数。
12.根据权利要求11所述的方法,其中,所述样本分子还包括所述多个原子之间的多个化学键,所述多条边至少包括所述多个化学键,所述方法还包括:
获取所述多个原子各自的原子特征信息和所述多个化学键各自的化学键特征信息;
至少基于相应的原子特征信息,生成每个原子的原子向量表示;
至少基于相应的化学键特征信息,生成每个化学键的边向量表示;以及
响应于确定所述多条边的数量大于所述多个化学键的数量,将每个虚拟边的边向量表示设置为预设值,其中,所述虚拟边为所述多条边中的除所述多个化学键之外的任一边。
13.根据权利要求11或12所述的方法,其中,所述分子表示模型包括聚合更新模块和表示模块,其中,所述将所述输入特征输入所述分子表示模型,以得到所述分子表示模型输出的所述样本分子的分子向量表示包括:
将所述输入特征输入所述聚合更新模块,以得到所述聚合更新模块输出的更新后的多个原子向量表示,其中,所述更新后的多个原子向量表示是基于所述全连通图,对所述多个原子向量表示和所述多个边向量表示进行至少一次聚合而得到的;以及
将所述更新后的多个原子向量表示输入所述表示模块,以得到所述表示模块输出的所述分子向量表示。
14.根据权利要求11-13中任一项所述的方法,其中,所述属性标签和所述预测属性分别包括以下至少一项:
水溶性、毒性、与预设蛋白质的匹配程度、化合物反应特性、稳定性、可降解性、能量。
15.一种分子表示装置,包括:
获取单元,被配置为获取待表示的分子的特征信息,其中,所述分子包括多个原子;
第一生成单元,被配置为生成所述多个原子的全连通图,其中,所述全连通图包括多条边;
第二生成单元,被配置为基于所述特征信息,生成多个原子向量表示和多个边向量表示,其中,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述多条边分别对应;
聚合更新单元,被配置为基于所述全连通图,对所述多个原子向量表示和所述多个边向量表示进行至少一次聚合,以得到更新后的多个原子向量表示;以及
第三生成单元,被配置为基于所述更新后的多个原子向量表示,生成所述分子的分子向量表示。
16.一种分子表示模型的训练装置,包括:
获取单元,被配置为获取样本分子的输入特征和属性标签,其中,所述样本分子包括多个原子,所述输入特征包括所述多个原子的全连通图、多个原子向量表示和多个边向量表示,所述多个原子向量表示与所述多个原子分别对应,所述多个边向量表示与所述全连通图所包括的多条边分别对应;
表示单元,被配置为将所述输入特征输入所述分子表示模型,以得到所述分子表示模型输出的所述样本分子的分子向量表示;
预测单元,被配置为将所述分子向量表示输入预测器,以得到所述预测器输出的所述样本分子的预测属性;以及
调整单元,被配置为基于所述预测属性和所述属性标签,调整所述分子表示模型的参数。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-14中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-14中任一项所述的方法。
CN202210314863.0A 2022-03-28 2022-03-28 分子表示方法、分子表示模型的训练方法及装置 Pending CN114694769A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210314863.0A CN114694769A (zh) 2022-03-28 2022-03-28 分子表示方法、分子表示模型的训练方法及装置
US18/126,887 US20230245727A1 (en) 2022-03-28 2023-03-27 Method for molecular representing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210314863.0A CN114694769A (zh) 2022-03-28 2022-03-28 分子表示方法、分子表示模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN114694769A true CN114694769A (zh) 2022-07-01

Family

ID=82140380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210314863.0A Pending CN114694769A (zh) 2022-03-28 2022-03-28 分子表示方法、分子表示模型的训练方法及装置

Country Status (2)

Country Link
US (1) US20230245727A1 (zh)
CN (1) CN114694769A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101025826A (zh) * 2006-02-22 2007-08-29 深圳市大族激光科技股份有限公司 二值光栅图像的最佳边缘欧拉回路生成方法
CN110534153A (zh) * 2019-08-30 2019-12-03 广州费米子科技有限责任公司 基于深度学习的靶标预测系统及其方法
CN110957012A (zh) * 2019-11-28 2020-04-03 腾讯科技(深圳)有限公司 化合物的性质分析方法、装置、设备及存储介质
CN111710375A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 一种分子性质预测方法及系统
US20210192358A1 (en) * 2018-05-18 2021-06-24 Deepmind Technologies Limited Graph neural network systems for behavior prediction and reinforcement learning in multple agent environments
CN113257369A (zh) * 2021-05-18 2021-08-13 南京邮电大学 一种基于多任务图神经网络的分子毒性预测方法和装置
CN113284565A (zh) * 2021-05-18 2021-08-20 百度时代网络技术(北京)有限公司 信息处理的方法和装置
CN113299354A (zh) * 2021-05-14 2021-08-24 中山大学 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
US11227190B1 (en) * 2021-06-29 2022-01-18 Alipay (Hangzhou) Information Technology Co., Ltd. Graph neural network training methods and systems

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101025826A (zh) * 2006-02-22 2007-08-29 深圳市大族激光科技股份有限公司 二值光栅图像的最佳边缘欧拉回路生成方法
US20210192358A1 (en) * 2018-05-18 2021-06-24 Deepmind Technologies Limited Graph neural network systems for behavior prediction and reinforcement learning in multple agent environments
CN110534153A (zh) * 2019-08-30 2019-12-03 广州费米子科技有限责任公司 基于深度学习的靶标预测系统及其方法
CN110957012A (zh) * 2019-11-28 2020-04-03 腾讯科技(深圳)有限公司 化合物的性质分析方法、装置、设备及存储介质
CN111710375A (zh) * 2020-05-13 2020-09-25 中国科学院计算机网络信息中心 一种分子性质预测方法及系统
CN113299354A (zh) * 2021-05-14 2021-08-24 中山大学 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN113257369A (zh) * 2021-05-18 2021-08-13 南京邮电大学 一种基于多任务图神经网络的分子毒性预测方法和装置
CN113284565A (zh) * 2021-05-18 2021-08-20 百度时代网络技术(北京)有限公司 信息处理的方法和装置
US11227190B1 (en) * 2021-06-29 2022-01-18 Alipay (Hangzhou) Information Technology Co., Ltd. Graph neural network training methods and systems

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOMIN FANG等: "Geometry-enhanced molecular representation learning for property prediction", 《NATURE MACHINE INTELLIGENCE》, 28 February 2022 (2022-02-28), pages 127 - 135 *
XIAOMING FANG等: "ChemRL-GEM: Geometry Enhanced Molecular Representation Learning for Property Prediction", 《CREATIVE COMMONS ATTRIBUTION 4.0 INTERNATIONAL》, 31 July 2021 (2021-07-31), pages 1 - 16 *

Also Published As

Publication number Publication date
US20230245727A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
CN113553864B (zh) 翻译模型的训练方法、装置、电子设备及存储介质
US12020164B2 (en) Neural networks for scalable continual learning in domains with sequentially learned tasks
WO2021103761A1 (zh) 化合物的性质分析方法、模型训练方法、装置及存储介质
CN111311321B (zh) 用户消费行为预测模型训练方法、装置、设备及存储介质
CN112580733B (zh) 分类模型的训练方法、装置、设备以及存储介质
CN112541124A (zh) 生成多任务模型的方法、装置、设备、介质及程序产品
CN113348472A (zh) 具有软内核选择的卷积神经网络
CN112561060A (zh) 神经网络训练方法及装置、图像识别方法及装置和设备
KR20220116395A (ko) 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체
CN114240555A (zh) 训练点击率预测模型和预测点击率的方法和装置
US20210166131A1 (en) Training spectral inference neural networks using bilevel optimization
CN115203419A (zh) 语言模型的训练方法、装置及电子设备
CN113468857B (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN111311000B (zh) 用户消费行为预测模型训练方法、装置、设备及存储介质
US20220058477A1 (en) Hyperparameter Transfer Via the Theory of Infinite-Width Neural Networks
WO2023246735A1 (zh) 一种项目推荐方法及其相关设备
WO2023174064A1 (zh) 自动搜索方法、自动搜索的性能预测模型训练方法及装置
CN115687764B (zh) 车辆轨迹评估模型的训练方法、车辆轨迹评估方法和装置
CN116843022A (zh) 一种数据处理方法及相关装置
CN113642654B (zh) 图像特征的融合方法、装置、电子设备和存储介质
CN114694769A (zh) 分子表示方法、分子表示模型的训练方法及装置
CN115795025A (zh) 一种摘要生成方法及其相关设备
CN113112311B (zh) 训练因果推断模型的方法、信息提示方法以装置
CN113222414B (zh) 模型稳定性的评估方法、装置、电子设备和存储介质
WO2023236900A1 (zh) 一种项目推荐方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination