CN115083537A - 分子骨架跃迁的处理方法、装置、介质及电子设备 - Google Patents

分子骨架跃迁的处理方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN115083537A
CN115083537A CN202110260343.1A CN202110260343A CN115083537A CN 115083537 A CN115083537 A CN 115083537A CN 202110260343 A CN202110260343 A CN 202110260343A CN 115083537 A CN115083537 A CN 115083537A
Authority
CN
China
Prior art keywords
skeleton
vector
node
hidden
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110260343.1A
Other languages
English (en)
Inventor
徐挺洋
于洋
荣钰
刘伟
黄俊洲
涂贵平
邱亚平
程学敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Hitgen Inc
Original Assignee
Tencent Technology Shenzhen Co Ltd
Hitgen Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Hitgen Inc filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110260343.1A priority Critical patent/CN115083537A/zh
Priority to EP22766179.0A priority patent/EP4198991A1/en
Priority to JP2023538910A priority patent/JP2024500244A/ja
Priority to PCT/CN2022/078336 priority patent/WO2022188653A1/zh
Publication of CN115083537A publication Critical patent/CN115083537A/zh
Priority to US17/992,778 priority patent/US20230083810A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请的实施例提供了一种分子骨架跃迁的处理方法、装置、介质及电子设备。该分子骨架跃迁的处理方法包括:根据参考药物分子对应的连接图结构生成所述参考药物分子对应的原子隐向量;对所述原子隐向量进行原子遮挡处理,以获取到所述原子隐向量中包含的骨架隐向量和侧链隐向量;根据所述骨架隐向量的空间分布,生成与所述骨架隐向量之间具有指定跃迁度的目标骨架隐向量;根据所述目标骨架隐向量和所述侧链隐向量生成跃迁后的药物分子。本申请实施例的技术方案可以提高新生成药物分子的新颖性。

Description

分子骨架跃迁的处理方法、装置、介质及电子设备
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种分子骨架跃迁的处理方法、装置、介质及电子设备。
背景技术
骨架跃迁是非常重要的药化设计工具,其目的主要是期望改变现有专利保护的分子结构、替换复杂天然产物的局部结构、通过改变分子的骨架来改善分子的药代动力学性质。相关技术中的骨架跃迁方案主要是基于药效团模型、分子形状相似搜索等方案,然而这些方案由于都是基于规则的生成,很难跳出药化专家的设计思路,导致跃迁后的分子新颖性不足。
发明内容
本申请的实施例提供了一种分子骨架跃迁的处理方法、装置、介质及电子设备,进而至少在一定程度上可以提高新生成药物分子的新颖性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种分子骨架跃迁的处理方法,包括:根据参考药物分子对应的连接图结构生成所述参考药物分子对应的原子隐向量;对所述原子隐向量进行原子遮挡处理,以获取到所述原子隐向量中包含的骨架隐向量和侧链隐向量;根据所述骨架隐向量的空间分布,生成与所述骨架隐向量之间具有指定跃迁度的目标骨架隐向量;根据所述目标骨架隐向量和所述侧链隐向量生成跃迁后的药物分子。
根据本申请实施例的一个方面,提供了一种分子骨架跃迁的处理装置,包括:第一生成单元,配置为根据参考药物分子对应的连接图结构生成所述参考药物分子对应的原子隐向量;第一处理单元,配置为对所述原子隐向量进行原子遮挡处理,以获取到所述原子隐向量中包含的骨架隐向量和侧链隐向量;第二生成单元,配置为根据所述骨架隐向量的空间分布,生成与所述骨架隐向量之间具有指定跃迁度的目标骨架隐向量;第三生成单元,配置为根据所述目标骨架隐向量和所述侧链隐向量生成跃迁后的药物分子。
在本申请的一些实施例中,基于前述方案,所述连接图结构中的节点表示所述参考药物分子中的原子;所述第一生成单元配置为:基于所述连接图结构中包含的节点特征和边特征,通过图编码器计算所述连接图结构中各个节点的节点信息,所述节点特征表示所述参考药物分子中的原子特征,所述边特征表示所述参考药物分子中的原子之间的特征;根据所述各个节点的节点信息和所述各个节点的节点特征,生成所述各个节点的隐向量;根据所述各个节点的隐向量和所述参考药物分子所包含的原子,生成所述参考药物分子对应的原子隐向量。
在本申请的一些实施例中,基于前述方案,所述第一生成单元配置为:根据所述连接图结构中的第一节点的节点特征、所述连接图结构中的第二节点的节点特征,以及所述第一节点的邻居节点中除所述第二节点之外的其它节点与所述第一节点之间在前一隐藏层中的边信息,计算所述第一节点与所述第二节点之间在后一隐藏层中的信息,所述第一节点是所述连接图结构中的任一节点,所述第二节点是所述第一节点在所述连接图结构中的邻居节点;
根据所述第一节点与所述第二节点之间在前一隐藏层中的边信息,以及所述第一节点与所述第二节点之间在后一隐藏层中的信息,计算所述第一节点与所述第二节点之间在后一隐藏层中的边信息;其中,所述连接图结构中的两个节点之间在初始隐藏层中的边信息为根据所述两个节点中的一个节点的节点特征,以及所述两个节点之间的边特征计算得到;对各个节点在所有隐藏层中对应的边信息进行求和,得到所述各个节点的节点信息。
在本申请的一些实施例中,基于前述方案,所述第一处理单元配置为:获取与所述参考药物分子对应的比特向量,所述比特向量的长度与所述参考药物分子中所包含的原子数量相同,所述比特向量中与骨架原子对应的比特值为第一值;基于所述比特向量从所述参考药物分子对应的原子隐向量中选择出骨架原子的隐向量和侧链原子的隐向量;通过多头注意力机制和所述骨架原子的隐向量生成所述骨架隐向量,并根据所述多头注意力机制和所述侧链原子的隐向量生成所述侧链隐向量。
在本申请的一些实施例中,基于前述方案,所述第一处理单元还配置为:获取多个骨架簇,所述多个骨架簇中的各个骨架簇的聚类中心符合高斯混合分布;计算所述骨架隐向量与所述各个骨架簇的聚类中心之间的第一距离,根据所述第一距离选择所述参考药物分子的骨架所属的目标骨架簇;根据所述目标骨架簇的聚类中心确定所述骨架隐向量所属的高斯混合分布。
在本申请的一些实施例中,基于前述方案,所述第二生成单元配置为:根据所述指定跃迁度和所述目标骨架簇进行随机采样处理,得到对应于所述指定跃迁度的偏移量;将所述骨架隐向量与所述对应于所述指定跃迁度的偏移量进行相加,生成所述目标骨架隐向量。
在本申请的一些实施例中,基于前述方案,所述第二生成单元配置为:若所述指定跃迁度为第一跃迁度,则根据所述目标骨架簇的方差与随机采样得到的第一向量的乘积生成第一偏移量,将所述第一偏移量作为对应于所述第一跃迁度的偏移量。
在本申请的一些实施例中,基于前述方案,所述第二生成单元配置为:若所述指定跃迁度为第二跃迁度,则从所述多个骨架簇中选择与所述目标骨架簇的聚类中心小于或等于第一设定值的第一骨架簇;根据所述第一骨架簇的方差与随机采样得到的第二向量的乘积、所述目标骨架簇的聚类中心和所述第一骨架簇的聚类中心,生成第二偏移量,将所述第二偏移量作为对应于所述第二跃迁度的偏移量。
在本申请的一些实施例中,基于前述方案,所述第二生成单元配置为:若所述指定跃迁度为第三跃迁度,则从所述多个骨架簇中选择与所述目标骨架簇的聚类中心大于或等于第二设定值的第二骨架簇;根据所述第二骨架簇的方差与随机采样得到的第三向量的乘积、所述目标骨架簇的聚类中心和所述第二骨架簇的聚类中心,生成第三偏移量,将所述第三偏移量作为对应于所述第三跃迁度的偏移量。
在本申请的一些实施例中,基于前述方案,所述第三生成单元配置为:获取指定的所述参考药物分子的靶点及目标活性值;根据所述目标骨架隐向量、所述侧链隐向量、所述参考药物分子的靶点及所述目标活性值,生成跃迁后的药物分子。
在本申请的一些实施例中,基于前述方案,所述装置还包括第二处理单元,配置为:在生成跃迁后的药物分子之后,根据跃迁后的药物分子进行理化性质的分子过滤处理,得到类药性的药物分子;获取所述参考药物分子对应的共晶结构,将所述类药性的药物分子对接至所述共晶结构中;通过所述类药性的药物分子与所述共晶结构的结合模式,去除与所述共晶结构不匹配的药物分子,得到筛选后的药物分子;根据所述筛选后的药物分子和所述共晶结构的对接,进行化合物的合成与验证。
在本申请的一些实施例中,基于前述方案,通过机器学习模型生成所述跃迁后的药物分子;所述装置还包括:第三处理单元,配置为获取样本分子对应的样本骨架隐向量,并获取多个骨架簇,所述多个骨架簇中的各个骨架簇的聚类中心符合高斯混合分布;计算所述样本分子的样本骨架隐向量与各个骨架簇的聚类中心之间的第二距离,根据所述第二距离选择所述样本分子的样本骨架所属的骨架簇;根据所述样本骨架隐向量与所述样本骨架所属骨架簇的聚类中心之间的距离,生成基于距离的交叉熵损失;根据所述交叉熵损失和所述机器学习模型针对所述样本分子的预测损失,生成所述机器学习模型的损失函数;基于所述损失函数对所述机器学习模型的参数进行调整。
在本申请的一些实施例中,基于前述方案,所述机器学习模型中包括有解码器;所述第三处理单元还配置为:在通过所述机器学习模型获取到所述样本分子对应的样本骨架隐向量和样本侧链隐向量之后,将所述样本骨架隐向量、所述样本侧链隐向量及所述样本分子对应的目标分子输入至所述解码器;根据所述解码器的输出与所述目标分子计算所述预测损失。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的分子骨架跃迁的处理方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的分子骨架跃迁的处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的分子骨架跃迁的处理方法。
在本申请的一些实施例所提供的技术方案中,通过对药物分子对应的原子隐向量进行原子遮挡处理得到骨架隐向量和侧链隐向量,然后根据骨架隐向量的空间分布生成具有指定跃迁度的目标骨架隐向量,以根据目标骨架隐向量和侧链隐向量生成跃迁后的药物分子,使得能够通过将骨架隐向量映射到空间分布上保证生成的目标骨架隐向量可以跳出药化专家的设计思维定式,进而能够达到很好的新颖性,同时可以由设备自动执行,减少了人力和时间成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示出了根据本申请的一个实施例的分子骨架跃迁的处理方法的流程图;
图3A示出了根据本申请的一个实施例的生成参考药物分子对应的原子隐向量的流程图;
图3B示出了根据本申请的一个实施例的对参考药物分子对应的原子隐向量进行原子遮挡处理的流程图;
图3C示出了根据本申请的一个实施例的生成具有指定跃迁度的目标骨架隐向量的流程图;
图4A示出了根据本申请的一个实施例的机器学习模型的结构示意图;
图4B示出了根据本申请的一个实施例的图编码器的处理过程示意图;
图5示出了根据本申请的一个实施例的原子遮挡及读出函数部分的示意图;
图6示出了根据本申请的一个实施例的距离表示方式示意图;
图7示出了根据本申请的一个实施例的解码器的处理过程示意图;
图8示出了根据本申请的一个实施例的模型生成骨架隐向量和侧链隐向量的处理过程示意图;
图9示出了根据本申请的一个实施例的模型解码过程示意图;
图10示出了根据本申请的一个实施例的骨架跃迁方式示意图;
图11示出了根据本申请的一个实施例的分子骨架跃迁的处理装置的框图;
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体是将机器学习技术应用到药物分子的骨架跃迁方案中。
在介绍本申请实施例的分子骨架跃迁的方案之前,先介绍相关技术中的处理方案。相关技术中提出的骨架跃迁方案主要是基于药效团模型、基于分子形状的搜索、基于fingerprint(指纹)的化学相似性的搜索和机器学习的算法等。
其中,基于药效团模型是通过构象搜索和分子叠合来模拟配体分子的活性构象,即保留活性所必需的特征原子的分子框架,药效团的最大特征是有一组活性分子共享的分子相互作用特征,因此药效团不代表真正的分子或一组化学基团,是一个抽象的概念。常见的药效团特征有:氢键的受体和供体、正负电荷相互作用、疏水作用和芳香环相互作用等。如果这样的药效图特征能够从一个分子迁移到另一个分子,即在参考分子和测试分子中具有相同的药效团特征,那么就可以实现骨架跃迁。与之类似的方案还有基于蛋白结构的药物设计方法,通过将小分子和蛋白质中结合位点的残基之间的相互作用用向量表示,进而在化合物库中搜索相对应的具有这样特征向量的分子,以此来实现骨架跃迁。
基于分子形状的搜索主要是考虑分子空间上的体积来进行相似性的搜索,期望可以保持和靶点蛋白的结合作用,并实现骨架替换。这种方案与其它搜索方案面临的问题是搜索时间很长,同时受限于现有的化学空间,只能在现有的化合物库中去搜索,此外假阳性的分子也比较多,比较难保证得到的分子的活性。
随着人工智能技术的发展,特别是其在分子生成中的应用,加速了药物开发的能力。分子生成的最大优势是生成了全新的分子,直接实现药物分子的从头设计,拓展了现有的分子空间。相关技术中提出的基于AI算法的分子生成方法过于注重分子的重构能力及合法性,但却很难满足药企的实际需求,例如药企更希望能对已有的分子进行修改,在跳出现有结构的同时保持分子的活性。然而相关技术中的方案虽然能够在活性保持上达到要求,但由于都是基于规则的生成,很难跳出药化专家的设计思路,从而导致新生成的分子新颖性不足。
基于上述问题,本申请实施例提供了一种新的分子骨架跃迁的处理方案,使得能够通过将骨架隐向量映射到空间分布上保证生成的目标骨架隐向量可以跳出药化专家的设计思维定式,进而能够达到很好的新颖性,同时可以由设备自动执行,减少了人力和时间成本。以下对本申请实施例的技术方案进行详细说明:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端110、网络120、服务器端130。其中,终端110和服务器端130通过网络120连接。
在本申请的一个实施例中,终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。网络120可以是能够在终端110和服务器端130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本申请在此不做限制。服务端130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
应该理解,图1中的终端110、网络120和服务器130的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端110、网络120和服务器130。比如服务器130可以是多个服务器组成的服务器集群等。
在本申请的一个实施例中,用户可以通过终端110经由网络120向服务器130提交参考药物分子,参考药物分子即为需要进行骨架跃迁处理的分子,并且可以标识出其中需要进行跃迁的骨架,其中标识需要进行跃迁的骨架并非必要过程。服务器130在获取到参考药物分子之后,可以将参考药物分子的结构转换为连接图结构,然后根据参考药物分子对应的连接图结构生成参考药物分子对应的原子隐向量。
服务器130在生成参考药物分子对应的原子隐向量之后,可以对该原子隐向量进行原子遮挡处理,以获取到原子隐向量中包含的骨架隐向量和侧链隐向量。为了实现骨架的跃迁处理,可以根据骨架隐向量的空间分布,生成与骨架隐向量之间具有指定跃迁度的目标骨架隐向量,然后根据目标骨架隐向量和前述得到的侧链隐向量生成跃迁后的药物分子。
由于本申请实施例的技术方案使得能够通过将骨架隐向量映射到空间分布上保证生成的目标骨架隐向量可以跳出药化专家的设计思维定式,进而能够达到很好的新颖性,同时可以由设备自动执行,减少了人力和时间成本。
需要说明的是,本申请实施例所提供的分子骨架跃迁的处理方法一般由服务器130执行,相应地,分子骨架跃迁的处理装置一般设置于服务器130中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的分子骨架跃迁的处理方案。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示出了根据本申请的一个实施例的分子骨架跃迁的处理方法的流程图,该分子骨架跃迁的处理方法可以由具有计算处理功能的设备来执行,比如可以由图1中所示的服务器130来执行。参照图2所示,该分子骨架跃迁的处理方法至少包括步骤S210至步骤S240,详细介绍如下:
在步骤S210中,根据参考药物分子对应的连接图结构生成参考药物分子对应的原子隐向量。
在本申请的一个实施例中,参考药物分子即为需要进行骨架跃迁处理的分子,参考药物分子对应的连接图结构即为根据参考药物分子的结构转换得到的连接图结构。
可选地,一个药物分子对应的连接图结构可以表示为G=(A,X,E),其中A表示连接矩阵,X表示节点特征,E表示边特征。在连接图结构中,节点表示药物分子中的原子;节点特征用于表示药物分子中的原子特征,比如可以包括:原子量、原子电荷数、原子类型、原子价态、原子是否在环内、是否是芳香环内的原子等。边特征用于表示药物分子中的原子之间的特征,比如可以包括:边是单键边还是双键边、边是否在环内、边是否在芳香环内等。
在本申请的一个实施例中,当生成参考药物分子对应的连接图结构之后,可以根据参考药物分子对应的连接图结构生成参考药物分子对应的原子隐向量,具体可以如图3A所示,包括如下步骤S310a、步骤S320a和步骤S330a,详细说明如下:
步骤S310a,基于连接图结构中包含的节点特征和边特征,通过图编码器计算连接图结构中各个节点的节点信息。
在本申请的一个实施例中,为了便于说明,以下以连接图结构中的一个节点v和节点w为例进行说明,假设节点v的节点特征可以表示为xv,节点w的节点特征可以表示为xw,节点v与节点w之间的边特征可以表示为evw,节点v的节点信息可以表示为mv,节点v的隐向量可以表示为hv。那么通过图编码器计算连接图结构中各个节点的节点信息的过程可以包括:
根据连接图结构中的第一节点(第一节点是连接图结构中的任一节点,比如可以是节点v)的节点特征(记为xv)、连接图结构中的第二节点(第二节点是第一节点在连接图结构中的邻居节点,如可以是节点w)的节点特征(记为xw),以及第一节点的邻居节点中除第二节点之外的其它节点(如节点k)与第一节点之间在前一隐藏层(假设为隐藏层t)中的边信息(记为
Figure BDA0002969709360000111
),计算第一节点与第二节点之间在后一隐藏层(假设为隐藏层t+1)中的信息(记为
Figure BDA0002969709360000112
)。
然后根据第一节点与第二节点之间在前一隐藏层中的边信息
Figure BDA0002969709360000113
以及第一节点与第二节点之间在后一隐藏层中的信息
Figure BDA0002969709360000114
计算第一节点与第二节点之间在后一隐藏层中的边信息(记为
Figure BDA0002969709360000115
);其中,连接图结构中的两个节点之间在初始隐藏层中的边信息(比如节点v与节点w在初始隐藏层中的边信息可以表示为
Figure BDA0002969709360000116
)为根据两个节点中的一个节点的节点特征,以及两个节点之间的边特征计算得到。在前述计算的基础上,可以对各个节点在所有隐藏层中对应的边信息进行求和,得到各个节点的节点信息。
在本申请的一个实施例中,前述
Figure BDA0002969709360000117
可以通过如下公式1求得:
Figure BDA0002969709360000118
在上述公式1中,k∈{N(v)\w}表示节点k是节点v的邻居节点N(v)中非节点w之外的其它节点;ft(·)表示汇聚(aggregation)过程,汇聚过程可以是将其中的变量(即xv、xw
Figure BDA0002969709360000119
)接起来(类似于下述的cat(·)函数),也可以是通过将其中的变量(即xv、xw
Figure BDA00029697093600001110
)映射到相同维度后求和或求平均,还可以是通过其它的形式将其中的变量(即xv、xw
Figure BDA00029697093600001111
)组合起来。
在本申请的一个实施例中,前述
Figure BDA00029697093600001112
可以通过如下公式2求得:
Figure BDA0002969709360000121
在上述公式2中,gt(·)表示更新(update)过程,更新过程可以是简单的累加或求平均,也可以是一个GRU(Gated Recurrent Unit,门控循环单元)的形式,如果是GRU的形式,那么其中的
Figure BDA0002969709360000127
是GRU的隐层输入,
Figure BDA0002969709360000122
是GRU的实际输入。
在本申请的一个实施例中,前述
Figure BDA0002969709360000123
可以通过如下公式3求得:
Figure BDA0002969709360000124
在上述公式3中,τ(·)表示ReLU(Rectified Linear Unit,线性整流函数,又称修正线性单元)函数;W表示需要进行学习的参数;cat(·)表示将两个向量接起来形成一个更长的向量,比如将一个3维的向量与一个5维的向量接起来得到一个8维的向量。
在本申请的一个实施例中,假设节点v的节点信息为mv,那么节点信息mv可以通过如下公式4求得:
Figure BDA0002969709360000125
在上述公式4中,
Figure BDA0002969709360000126
表示节点k与节点v在所有隐藏层中的边信息;k∈N(v)表示节点k是节点v的邻居节点N(v)中的节点;由于邻居节点之间才有边信息,因此mv实际上是对节点v在所有隐藏层中的边信息进行求和。
步骤S320a,根据各个节点的节点信息和各个节点的节点特征生成各个节点的隐向量。
在本申请的一个实施例中,以前述示例进行说明,在得到节点v的节点信息mv之后,可以根据节点v的节点信息mv和节点v的节点特征xv生成节点v的隐向量hv,比如可以通过如下公式5求得:
hv=τ(Wa·cat(xv,mv)) 公式5
在上述公式5中,τ(·)表示ReLU函数;Wa表示需要进行学习的参数;cat(·)表示将两个向量接起来形成一个更长的向量。
步骤S330a,根据各个节点的隐向量和参考药物分子所包含的原子,生成参考药物分子对应的原子隐向量。
在本申请的一个实施例中,当得到各个节点的隐向量之后,可以通过矩阵的方式来表示参考药物分子对应的原子隐向量,即将各个节点的隐向量按照行列方式排列在矩阵(如可以是H矩阵)中来表示参考药物分子对应的原子隐向量。
需要说明的是:前述的公式1-公式5仅为示例,在本申请的其它实施例中,还可以对前述的公式1-公式5进行适当的变形(如增加倍数、减少倍数、增加一定数值、减少一定数值等)来得到新的计算公式。
继续参照图2所示,在步骤S220中,对参考药物分子对应的原子隐向量进行原子遮挡处理,以获取到原子隐向量中包含的骨架隐向量和侧链隐向量。
在本申请的一个实施例中,在得到参考药物分子对应的原子隐向量之后,对参考药物分子对应的原子隐向量进行原子遮挡处理的过程可以如图3B所示,包括步骤S310b、步骤S320b和步骤S330b,详细说明如下:
步骤S310b,获取与参考药物分子对应的比特向量,该比特向量的长度与参考药物分子中所包含的原子数量相同,且该比特向量中与骨架原子对应的比特值为第一值。
可选地,在前述实施例中,第一值比如可以是1,即如果一个原子属于骨架原子,那么比特向量中对应的一个比特值为1;如果一个原子属于侧链原子,那么比特向量中对应的一个比特值为0。在这种情况下,比特向量可以表示为如下公式6所示的矩阵Ssca
Figure BDA0002969709360000131
在上述公式6中,i∈scaffold表示原子i属于骨架原子;
Figure BDA0002969709360000132
表示原子i不属于骨架原子。
在本申请的一个实施例中,前述的比特向量可以是预置的,其用于指示参考药物分子中哪些原子属于骨架原子,以及哪些原子属于侧链原子。具体地,可以基于参考药物分子中需要进行跃迁(替换)的骨架,使用结构搜索的方式在参考药物分子中进行搜索匹配,以确定出参考药物分子中的骨架原子和侧链原子,进而来得到前述的比特向量。
在本申请的一个实施例中,前述的比特向量可以是根据一套骨架确定规则预先设置的,该骨架确定规则可以包含多种要求,例如对骨架的重原子数的要求,对骨架环数的要求等等,本申请对此不做限制。具体而言,对于一个药物分子,可以根据该骨架确定规则自动检测出药物分子中的骨架部分,然后根据药物分子中的骨架部分和除骨架部分之外的部分(即侧链部分)来生成该比特向量。
步骤S320b,基于该比特向量从参考药物分子对应的原子隐向量中选择出骨架原子的隐向量和侧链原子的隐向量。
在本申请的一个实施例中,假设参考药物分子对应的原子隐向量(即原有原子的隐向量)表示为Hnode,那么从参考药物分子对应的原子隐向量中选择出的骨架原子的隐向量可以表示为Hnode[Ssca],从参考药物分子对应的原子隐向量中选择出的侧链原子的隐向量可以表示为
Figure BDA0002969709360000141
步骤S330b,通过多头注意力机制和骨架原子的隐向量生成骨架隐向量,并根据多头注意力机制和侧链原子的隐向量生成侧链隐向量。
在本申请的一个实施例中,多头注意力机制是为了确定各个原子(骨架原子及侧链原子)的隐向量所对应分值(即权重),然后据此计算骨架隐向量和侧链隐向量。
可选地,假设参考药物分子对应的原子隐向量(即原有原子的隐向量)表示为Hnode,那么在一个实施例中骨架隐向量Zsca可以如下述公式7所示,侧链隐向量Zsc可以如下述公式8所示:
Figure BDA0002969709360000142
Figure BDA0002969709360000143
在上述公式7和公式8中,softmax(·)函数实现了多头注意力机制的功能;W1和W2均为可学习的参数;
Figure BDA0002969709360000144
表示Hnode的转置。
当然,前述的公式7和公式8仅为示例,在本申请的其它实施例中,还可以对前述的公式7和公式8进行适当的变形(如增加倍数、减少倍数、增加一定数值、减少一定数值等)来得到新的计算公式。
参照图2所示,在步骤S230中,根据骨架隐向量的空间分布,生成与骨架隐向量之间具有指定跃迁度的目标骨架隐向量。
在本申请的一个实施例中,骨架隐向量的空间分布可以是高斯混合分布,还可以是vMFM(von Mises-Fisher Mixture)分布等。以下以高斯混合分布为例进行说明:
在本申请的一个实施例中,可以预置多个骨架簇,这多个骨架簇中的各个骨架簇的聚类中心符合高斯混合分布。可选地,这多个骨架簇可以是通过骨架分簇算法(也即聚类算法)对已有分子的骨架进行分簇得到的,并且将一个骨架簇的聚类中心拟合到高斯混合分布,这样一个骨架簇中包含的骨架隐向量都归属于这个高斯混合分布所对应的空间分布。
在这种情况下,当得到骨架隐向量之后,可以计算骨架隐向量与各个骨架簇的聚类中心之间的第一距离,然后根据该第一距离选择参考药物分子的骨架所属的目标骨架簇,进而根据该目标骨架簇的聚类中心确定骨架隐向量所属的高斯混合分布。
具体而言,第m个骨架簇的聚类中心可以表示为(μmm),其中μm表示类的中心,σm表示标准差。为了进行一般性表述,假设第i个药物分子对应的骨架隐向量表示为Zsca,i,那么第i个药物分子对应的骨架隐向量Zsca,i与第m个骨架簇的聚类中心之间的距离di可以如公式9所示:
Figure BDA0002969709360000151
基于上述公式9计算得到的第i个药物分子对应的骨架隐向量Zsca,i与第m个骨架簇的聚类中心之间的距离di,可以选择出聚类中心与第i个药物分子对应的骨架隐向量Zsca,i之间的距离最近的目标骨架簇(记为ci),进而可以基于目标骨架簇ci的聚类中心(μii)确定骨架簇向量所属的高斯混合分布。
当得到参考药物分子对应的骨架隐向量的空间分布,并确定出目标骨架簇之后,可以根据需求来生成与参考药物分子对应的骨架隐向量之间具有指定跃迁度的目标骨架隐向量,以下详细进行说明:
如图3C所示,根据本申请的一个实施例的生成具有指定跃迁度的目标骨架隐向量的过程,可以包括步骤S310c和步骤S320c,详细说明如下:
步骤S310c,根据指定跃迁度和目标骨架簇进行随机采样处理,得到对应于该指定跃迁度的偏移量。
步骤S320c,将参考药物分子的骨架隐向量与对应于该指定跃迁度的偏移量进行相加,生成目标骨架隐向量。
可选地,指定跃迁度可以是在同一骨架簇内的跃迁,也可以是在临近骨架簇的跃迁,还可以是在较远骨架簇的跃迁,以下对这三种跃迁方式进行说明。
在本申请的一个实施例中,若指定跃迁度为第一跃迁度,则可以根据目标骨架簇的方差与随机采样得到的第一向量的乘积生成第一偏移量,然后将第一偏移量与参考药物分子对应的骨架隐向量进行相加,生成目标骨架隐向量。可选地,该第一跃迁度可以是在同一骨架簇内的跃迁。
具体而言,假设目标骨架簇表示为ci,参考药物分子对应的骨架隐向量表示为Zsca,那么生成的具有第一跃迁度的目标骨架隐向量可以通过如下公式10进行表示:
Znew_sca=Zsca2(ci)×N(0,1) 公式10
在上述公式10中,Znew_sca表示生成的目标骨架隐向量;σ2(ci)表示目标骨架簇ci的聚类中心所符合的高斯混合分布的方差;N(0,1)表示基于平均值为0、标准差为1的分布所进行的一个随机采样。
在本申请的一个实施例中,若指定跃迁度为第二跃迁度,则可以从多个骨架簇中选择与目标骨架簇的聚类中心小于或等于第一设定值的第一骨架簇,然后根据第一骨架簇的方差与随机采样得到的第二向量的乘积、目标骨架簇的聚类中心和第一骨架簇的聚类中心,生成第二偏移量,进而将第二偏移量与参考药物分子对应的骨架隐向量进行相加,生成目标骨架隐向量。可选地,该第二跃迁度可以是在临近骨架簇的跃迁。
具体而言,假设目标骨架簇表示为ci,第一骨架簇表示为cj,参考药物分子对应的骨架隐向量表示为Zsca,那么生成的具有第二跃迁度的目标骨架隐向量可以通过如下公式11进行表示:
Figure BDA0002969709360000161
在上述公式11中,Znew_sca表示生成的目标骨架隐向量;σ2(cj)表示第一骨架簇cj的聚类中心所符合的高斯混合分布的方差;N(0,1)表示基于平均值为0、标准差为1的分布所进行的一个随机采样;μ(ci)表示目标骨架簇ci的中心;μ(cj)表示第一骨架簇cj的中心;μ(ck)表示骨架簇ck的中心;δ'表示第一设定值;π(·)表示一个多项矩阵(multi-nominal)采样;cj=π({ck|||μ(ci)-μ(ck)||≤δ',j≠i})表示找到一个与骨架簇ci的聚类中心小于或等于δ'的骨架簇cj
在本申请的一个实施例中,若指定跃迁度为第三跃迁度,则可以从多个骨架簇中选择与目标骨架簇的聚类中心大于或等于第二设定值的第二骨架簇,然后根据第二骨架簇的方差与随机采样得到的第三向量的乘积、目标骨架簇的聚类中心和第二骨架簇的聚类中心,生成第三偏移量,进而将第三偏移量与参考药物分子对应的骨架隐向量进行相加,生成目标骨架隐向量。可选地,该第三跃迁度可以是在较远骨架簇的跃迁。
具体而言,假设目标骨架簇表示为ci,第二骨架簇表示为cj,参考药物分子对应的骨架隐向量表示为Zsca,那么生成的具有第三跃迁度的目标骨架隐向量可以通过如下公式12进行表示:
Figure BDA0002969709360000171
在上述公式12中,Znew_sca表示生成的目标骨架隐向量;σ2(cj)表示第二骨架簇cj的聚类中心所符合的高斯混合分布的方差;N(0,1)表示基于平均值为0、标准差为1的分布所进行的一个随机采样;μ(ci)表示目标骨架簇ci的中心;μ(cj)表示第二骨架簇cj的中心;μ(ck)表示骨架簇ck的中心;Δ表示第二设定值;π(·)表示一个多项矩阵(multi-nominal)采样;cj=π({ck|||μ(ci)-μ(ck)||≥Δ,j≠i})表示找到一个与骨架簇ci的聚类中心大于或等于Δ的骨架簇cj
需要说明的是,前述的公式9至公式12仅为示例,在本申请的其它实施例中,还可以对前述的公式9至公式12进行适当的变形(如增加倍数、减少倍数、增加一定数值、减少一定数值等)来得到新的计算公式。
继续参照图2所示,在步骤S240中,根据目标骨架隐向量和侧链隐向量生成跃迁后的药物分子。
在本申请的一个实施例中,可以通过目标骨架隐向量替换掉参考药物分子中的骨架隐向量,并与侧链隐向量进行结合来得到跃迁后的药物分子。
在本申请的一个实施例中,还可以获取指定的参考药物分子的靶点及目标活性值,然后根据目标骨架隐向量、侧链隐向量、参考药物分子的靶点及目标活性值,来生成跃迁后的药物分子。该实施例的技术方案可以通过参考药物分子的靶点及目标活性值来限制生成的药物分子的活性。
在本申请的一个实施例中,在生成跃迁后的药物分子之后,还可以对生成的药物分子进行筛选处理。具体比如可以根据跃迁后的药物分子进行理化性质的分子过滤处理,得到类药性的药物分子,然后获取参考药物分子对应的共晶结构,将类药性的药物分子对接至共晶结构中,以通过类药性的药物分子与共晶结构的结合模式,去除与共晶结构不匹配的药物分子,得到筛选后的药物分子;进而可以根据筛选后的药物分子和共晶结构的对接,进行化合物的合成与验证。
可选地,参考药物分子对应的共晶结构可以是参考药物分子所在的共晶结构或者参考药物分子的同系列化合物所在的共晶结构。与共晶结构不匹配的药物分子可以是对接后的构型明显不合理的药物分子。
在本申请的一个实施例中,可以通过机器学习模型来进行上述实施例中的相关处理,而在对机器学习模型进行训练的过程中,本申请实施例的技术方案提出了通过交叉熵损失和机器学习模型针对样本分子的预测损失来生成损失函数的方案。以下分别介绍如何得到交叉熵损失和预测损失:
在本申请的一个实施例中,在计算交叉熵损失时,可以获取样本分子对应的样本骨架隐向量,同时可以获取到多个骨架簇(这多个骨架簇与前述的对参考药物分子进行处理时所使用的多个骨架簇可以是相同的),这多个骨架簇中的各个骨架簇的聚类中心符合高斯混合分布。然后计算样本分子的样本骨架隐向量与各个骨架簇的聚类中心之间的第二距离,根据该第二距离选择样本分子的样本骨架所属的骨架簇,进而根据样本骨架隐向量与样本骨架所属骨架簇的聚类中心之间的距离,生成基于距离的交叉熵损失。
需要说明的是:获取样本分子对应的样本骨架隐向量的方案与得到参考药物分子对应的骨架隐向量的方案相同,不再赘述。同时,计算样本分子的样本骨架隐向量与各个骨架簇的聚类中心之间的第二距离的公式也可以是通过前述公式9计算得到的。
可选地,以前述的公式9为例进行说明(由于样本分子和参考药物分子的相关计算公式及处理方式相同,所以公式9既可以用于计算参考药物分子对应的骨架隐向量与骨架簇的聚类中心之间的距离,也可以用于计算样本分子对应的骨架隐向量与骨架簇的聚类中心之间的距离),假设第i个药物分子(在此处可以理解为第i个样本分子)对应的样本骨架隐向量与样本骨架所属的骨架簇的聚类中心之间的距离表示为di,那么可以在di的基础上增加一定的挠度,以此来提高模型训练的准确性,具体如公式13所示:
dadj,i=di+onehot(ci)×δdi 公式13
在公式13中,dadj,i表示在di的基础上增加挠度后的距离;onehot(·)表示独热编码的函数;ci在此用于表示第i个样本分子的样本骨架所属的骨架簇;δ表示参数。
在本申请的一个实施例中,在得到dadj,i之后,可以根据如下公式11来生成基于距离的交叉熵损失Lcls
Figure BDA0002969709360000191
在公式14中,σm表示第m个骨架簇的聚类中心所符合的高斯混合分布的标准差。
在本申请的一个实施例中,机器学习模型中包含有解码器,当通过机器学习模型获取到样本分子对应的样本骨架隐向量和样本侧链隐向量之后,将样本骨架隐向量、样本侧链隐向量及样本分子对应的目标分子输入至该解码器中,然后根据解码器的输出与目标分子计算机器学习模型的预测损失。
需要说明的是:目标分子即为样本分子进行处理后所期望生成的分子。获取到样本分子对应的样本骨架隐向量和样本侧链隐向量的方案与获取参考药物分子对应的骨架隐向量和侧链隐向量的方案相似,不再赘述。
在本申请的一个实施例中,在计算得到交叉熵损失和机器学习模型的预测损失之后,可以根据交叉熵损失和机器学习模型的预测损失,生成机器学习模型的损失函数,进而基于该损失函数对机器学习模型的参数进行调整。可选地,可以通过如下公式12来生成机器学习模型的损失函数L:
L=Lrecon+βLcls 公式15
在上述公式15中,Lrecon表示机器学习模型的预测损失;β表示超参数,用于调整两个损失之间的权重。
对机器学习模型的训练目的就是为了使得上述的损失函数L达到最小,其中设置交叉熵损失Lcls的目的是为了在对机器学习模型训练之后,尽可能保证机器学习模型确定出的每一个骨架隐向量在其所属的骨架簇的中心附近;设置预测损失Lrecon的目的是为了在机器学习模型训练之后,尽可能保证机器学习模型能够找到较优的目标骨架隐向量,进而保证得到符合条件的药物分子。
在对机器学习模型进行训练之后,可以基于机器学习模型来对参考药物分子进行处理得到跃迁后的药物分子,为了便于理解本申请实施例的技术方案,以下结合图3至图10对本申请实施例的技术方案的实现细节进行详细说明:
如图4A所示,在通过机器学习模型进行分子骨架跃迁的处理时,模型结构可以包括如下几部分:图编码器(graph encoder),原子遮挡及读出函数(node masking andgraph readout),高斯混合分布(Gaussian mixture distribution,简称GM)拟合处理,以及解码器。其中,图编码器主要用于生成药物分子对应的原子隐向量;原子遮挡及读出函数部分主要用于通过原子遮挡处理获取到骨架隐向量和侧链隐向量;高斯混合分布拟合处理用于实现骨架隐向量的高斯混合分布,以实现不同跃迁度的处理;解码器用于输出跃迁处理后得到的药物分子。以下对这几部分分别进行详细说明:
在本申请的一个实施例中,图编码器主要是由一个D-MPNN(Directed MessagePassing Neural Network,有向消息传递神经网络)构成,其是一个图卷积神经网络。图卷积神经网络直接作用于包括化学结构在内的图结构,与指纹表示不同,指纹表示将单个固定长度的特征向量分配给分子,而图形表示则将特征向量分配给化学结构中的每个键(bond)和原子。
简而言之,D-MPNN可以理解为多步神经网络,每个步骤实质上都是一个前馈神经网络,该神经网络会生成一组隐藏的表示形式,用作下一步的输入。D-MPNN的核心是消息传递步骤,该步骤利用了分子图的局部子结构来更新隐藏的矢量。在消息传递步骤之后,将来自所有边缘的隐藏矢量汇总在一起,成为单个固定长度的隐藏矢量,将其馈入前馈神经网络以产生预测。具体如图4B所示,每个键由一对有向边表示,图4B所示(a)中来自橙色定向键(即(a)中的3→2和4→2)的消息用于通知红色定向键(即(a)中的2→1)的隐藏状态更新。(b)中来自绿色定向键(即(b)中的5→1)的消息用于通知紫色定向键(即(b)中的1→2)的隐藏状态更新。图4B所示的(c)对(a)中红色有向键(即(a)中的2→1)的隐藏表示形式的更新功能进行了表示,其是一个迭代过程,可以重复多次(通常为5次)。图4B中所示的合并(concat)是深度学习中的一种策略,可以有效地处理可变大小的输入样本。
对于一个药物分子而言,在输入至图编码器之前,可以先将药物分子转换成一个连接图结构,其边和点上有相对应的化学键及原子的属性,这样一个药物分子对应的连接图结构可以表示为G=(A,X,E),其中A表示连接矩阵,X表示节点特征,E表示边特征。在连接图结构中,节点表示药物分子中的原子;节点特征用于表示药物分子中的原子特征,比如可以包括:原子量、原子电荷数、原子类型、原子价态、原子是否在环内、是否是芳香环内的原子等。边特征用于表示药物分子中的原子之间的特征,比如可以包括:边是单键边还是双键边、边是否在环内、边是否在芳香环内等。在此基础上,将连接图结构输入至D-MPNN进行处理,具体可以通过前述的公式1至公式5来表示,最后得到连接图结构中各个节点的隐向量,也即药物分子中各个原子的隐向量。进而可以通过矩阵的方式来表示药物分子对应的原子隐向量,即将各个节点的隐向量按照行列方式排列在矩阵(如可以是H矩阵)中来表示药物分子对应的原子隐向量。
在本申请的一个实施例中,如图5所示,原子遮挡及读出函数部分主要用于在得到所有原子的隐向量表示(即药物分子对应的原子隐向量)后,通过对原子进行遮挡读出的方式来获得骨架以及侧链的隐向量表示,即骨架隐向量和侧链隐向量。
可选地,可以通过一个比特向量来进行原子遮挡处理,该比特向量的长度与药物分子中所包含的原子数量相同。具体而言,该比特向量可以通过上述公式6来进行表示。
在本申请的一个实施例中,读出函数是为了得到骨架隐向量和侧链隐向量,并且在本申请的实施例中用到了有选择性的自注意力机制。假设一个药物分子的原子隐向量为Hnode,那么骨架隐向量和侧链隐向量可以分别通过前述公式7和公式8计算得到。
在本申请的一个实施例中,高斯混合分布拟合处理主要是实现骨架隐向量的高斯混合分布,以实现不同跃迁度的处理。对于侧链而言,既可以进行高斯分布拟合,也可以不进行分布假设,在本申请的实施例中,为了更好地保持侧链不变,可以采用AutoEncoder(自编码器)的方法对侧链隐空间进行处理,而不进行高斯分布的假设。
在本申请的一个实施例中,已有分子的骨架可以预先通过骨架分簇算法分成不同的M个骨架簇。已有分子可以是用于对机器学习模型进行训练的样本分子,也可以是从分子库中选择出的分子,并且这些分子不限于是药物分子。在骨架隐空间中,期望相同骨架簇的点可以互相接近而不同骨架簇的点可以相互远离,因此可以设置M个隐空间的聚类中心:(μmm),其中μm表示类的中心,σm表示标准差。进而可以通过上述公式9计算得到第i个药物分子对应的骨架隐向量Zsca,i与第m个骨架簇的聚类中心之间的距离di,同时可以通过上述公式13对该距离di增加挠度,增加挠度之后的距离表示方式可以如图6所示。在计算得到距离之后,可以通过上述公式14计算得到一个基于距离的交叉熵损失Lcls
在本申请的一个实施例中,解码器可以采用SMILES解码器,即将隐层的表示解码成SMILES而不是图,SMILES可以理解为图的一种按规则展开的spanning tree(生成树),每一个药物分子都能够有一个对应的canonical SMILES,因此解码器用SMILES是合理的。如图7所示,解码器可以遵循teacher forcing模式,teacher forcing模式的工作原理是在训练过程的t时刻,使用训练数据集的真实数据(ground truth)作为下一时刻的输入x(t+1),而不是使用模型上一时刻的输出。图7中701所示的即为真实数据的输入部分,702为模型的输出部分。
在本申请的一个实施例中,编码器最终的输出结果将与正确答案(即真实数据)做一次重构损失(即预测损失),得到Lrecon。而模型的损失函数由重构损失和交叉熵损失组成,具体可以参照前述公式15所示。
在对模型进行训练之后,可以使用模型进行分子生成,在分子生成过程中需要有一个分子输入作为参考药物分子,参考药物分子即为需要进行骨架替换的药物分子。同时,参考药物分子中需要进行替换的骨架也可以标注出来,当把参考药物分子的结构转换为连接图结构并输入至模型中之后,模型可以得到参考药物分子对应的骨架隐向量和侧链隐向量,具体如图8所示,其中的处理过程与前述实施例中介绍的相关内容类似,不再赘述。
在本申请的一个实施例中,当获得骨架隐向量之后,分子生成的过程和模型训练的过程稍有不同,具体而言,分子生成过程中在得到目标骨架隐向量时需要经过重采样处理,具体的解码处理过程如图9所示。其中,侧链隐向量保持不变,也不进行采样处理。骨架隐向量由于模型训练的原因,会表现出一种高斯混合分布的状态,这样的分布状态可以便于进行骨架跃迁处理。
在本申请的一个实施例中,根据跃迁度的情况,可以分为如下三种跃迁方式:scaffold crawling、scaffold hopping、scaffold leaping。如图10所示,Scaffoldcrawling是最轻微的跃迁,跃迁后的分子变化最少,主要是让骨架隐向量从参考药物分子相同的骨架簇中采样(图10中的簇1001),新的采样点对应的目标骨架隐向量(即新生成的骨架隐向量)可以通过前述公式10进行表示。
Scaffold hopping是较大的跃迁,跃迁后的分子骨架变化会较大,具体是让骨架隐向量从参考药物分子的临近骨架簇中采样(图10中的簇1002),新的采样点对应的目标骨架隐向量(即新生成的骨架隐向量)可以通过前述公式11进行表示。
Scaffold leaping是最大限度的跃迁,跃迁后的分子骨架变化会非常大,具体是让骨架隐向量从离参考药物分子的骨架簇较远的簇中采样(图10中的簇1003),新的采样点对应的目标骨架隐向量(即新生成的骨架隐向量)可以通过前述公式12进行表示。
继续参照图9所示,在得到侧链隐向量和目标骨架隐向量的同时,还需要给模型输入一个活性条件,比如可以是参考药物分子的靶点以及对应期望的pIC50值等。当获得侧链隐向量、目标骨架隐向量、活性条件这3个向量后,模型就可以通过SMILES解码器来生成新的跃迁后的药物分子。
在本申请的一个实施例中,骨架跃迁后产生的药物分子可以通过两个环节的筛选:第一个环节是基于理化性质的分子过滤,目的是保证后续评估的分子都是类药性的,比如可以通过Lipinsiki五规则等来进行筛选;第二个环节是将符合理化性质要求的类药性分子进行配体的准备,并进入后续的分子对接环节,目的是挑选出真正与靶点结合能力强的类药性分子。
具体而言,分子对接的晶体结构可以从PDB(protein data bank,蛋白质数据文件)数据库搜索得到,比如可以选择参考药物分子或其同系列化合物所在的共晶结构,同时需要保证分辨率高且结合口袋附近蛋白结构完整。在进行对接时,首先用分子对接软件进行蛋白准备,然后将分子对接回准备好的晶体结构中,通过结合的模式来判断构型的准确性,同时共晶结构中的分子结合模式也会作为分子对接的模板来分析AI生成的分子的结合模式是否合理。该实施例的技术方案可以通过虚拟筛选去除构型明显不合理的分子,然后将上一步保留的所有构型进行精度更高的分子对接,然后用3D-CNN(ConvolutionalNeural Network,卷积神经网络)方法对得到的结合模式进行重打分,选取3D-CNN打分至少>0.8(数值仅为示例)且关键作用位点的结合模式不丢失的分子,进行化合物合成和验证处理。
需要说明的是:在前述的实施例中,图编码器还可以采用Dual-MPNN。而SMILES解码器可以换成各种自然语言处理的解码器,如grammar-VAE(Variational Autoencoder,变分自动编码器),SD-VAE(Syntax Directed-VAE,语法导向的VAE),及Transformer的解码部分。
本申请上述实施例的技术方案使得能够通过将骨架隐向量映射到空间分布上保证生成的目标骨架隐向量可以跳出药化专家的设计思维定式,进而能够达到很好的新颖性,同时可以由设备自动执行,减少了人力和时间成本。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的分子骨架跃迁的处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的分子骨架跃迁的处理方法的实施例。
图11示出了根据本申请的一个实施例的分子骨架跃迁的处理装置的框图,该分子骨架跃迁的处理装置可以设置在具有计算处理功能的设备内,比如可以设置在图1中所示的服务器130内。
参照图11所示,根据本申请的一个实施例的分子骨架跃迁的处理装置1100,包括:第一生成单元1102、第一处理单元1104、第二生成单元1106和第三生成单元1108。
其中,第一生成单元1102配置为根据参考药物分子对应的连接图结构生成所述参考药物分子对应的原子隐向量;第一处理单元1104配置为对所述原子隐向量进行原子遮挡处理,以获取到所述原子隐向量中包含的骨架隐向量和侧链隐向量;第二生成单元1106配置为根据所述骨架隐向量的空间分布,生成与所述骨架隐向量之间具有指定跃迁度的目标骨架隐向量;第三生成单元1108配置为根据所述目标骨架隐向量和所述侧链隐向量生成跃迁后的药物分子。
在本申请的一些实施例中,基于前述方案,所述连接图结构中的节点表示所述参考药物分子中的原子;第一生成单元1102配置为:基于所述连接图结构中包含的节点特征和边特征,通过图编码器计算所述连接图结构中各个节点的节点信息,所述节点特征表示所述参考药物分子中的原子特征,所述边特征表示所述参考药物分子中的原子之间的特征;根据所述各个节点的节点信息和所述各个节点的节点特征,生成所述各个节点的隐向量;根据所述各个节点的隐向量和所述参考药物分子所包含的原子,生成所述参考药物分子对应的原子隐向量。
在本申请的一些实施例中,基于前述方案,第一生成单元1102配置为:根据所述连接图结构中的第一节点的节点特征、所述连接图结构中的第二节点的节点特征,以及所述第一节点的邻居节点中除所述第二节点之外的其它节点与所述第一节点之间在前一隐藏层中的边信息,计算所述第一节点与所述第二节点之间在后一隐藏层中的信息,所述第一节点是所述连接图结构中的任一节点,所述第二节点是所述第一节点在所述连接图结构中的邻居节点;根据所述第一节点与所述第二节点之间在前一隐藏层中的边信息,以及所述第一节点与所述第二节点之间在后一隐藏层中的信息,计算所述第一节点与所述第二节点之间在后一隐藏层中的边信息;其中,所述连接图结构中的两个节点之间在初始隐藏层中的边信息为根据所述两个节点中的一个节点的节点特征,以及所述两个节点之间的边特征计算得到;对各个节点在所有隐藏层中对应的边信息进行求和,得到所述各个节点的节点信息。
在本申请的一些实施例中,基于前述方案,第一处理单元1104配置为:获取与所述参考药物分子对应的比特向量,所述比特向量的长度与所述参考药物分子中所包含的原子数量相同,所述比特向量中与骨架原子对应的比特值为第一值;基于所述比特向量从所述参考药物分子对应的原子隐向量中选择出骨架原子的隐向量和侧链原子的隐向量;通过多头注意力机制和所述骨架原子的隐向量生成所述骨架隐向量,并根据所述多头注意力机制和所述侧链原子的隐向量生成所述侧链隐向量。
在本申请的一些实施例中,基于前述方案,第一处理单元1104还配置为:获取多个骨架簇,所述多个骨架簇中的各个骨架簇的聚类中心符合高斯混合分布;计算所述骨架隐向量与所述各个骨架簇的聚类中心之间的第一距离,根据所述第一距离选择所述参考药物分子的骨架所属的目标骨架簇;根据所述目标骨架簇的聚类中心确定所述骨架隐向量所属的高斯混合分布。
在本申请的一些实施例中,基于前述方案,第二生成单元1106配置为:根据所述指定跃迁度和所述目标骨架簇进行随机采样处理,得到对应于所述指定跃迁度的偏移量;将所述骨架隐向量与所述对应于所述指定跃迁度的偏移量进行相加,生成所述目标骨架隐向量。
在本申请的一些实施例中,基于前述方案,第二生成单元1106配置为:若所述指定跃迁度为第一跃迁度,则根据所述目标骨架簇的方差与随机采样得到的第一向量的乘积生成第一偏移量,将所述第一偏移量作为对应于所述第一跃迁度的偏移量。
在本申请的一些实施例中,基于前述方案,第二生成单元1106配置为:若所述指定跃迁度为第二跃迁度,则从所述多个骨架簇中选择与所述目标骨架簇的聚类中心小于或等于第一设定值的第一骨架簇;根据所述第一骨架簇的方差与随机采样得到的第二向量的乘积、所述目标骨架簇的聚类中心和所述第一骨架簇的聚类中心,生成第二偏移量,将所述第二偏移量作为对应于所述第二跃迁度的偏移量。
在本申请的一些实施例中,基于前述方案,第二生成单元1106配置为:若所述指定跃迁度为第三跃迁度,则从所述多个骨架簇中选择与所述目标骨架簇的聚类中心大于或等于第二设定值的第二骨架簇;根据所述第二骨架簇的方差与随机采样得到的第三向量的乘积、所述目标骨架簇的聚类中心和所述第二骨架簇的聚类中心,生成第三偏移量,将所述第三偏移量作为对应于所述第三跃迁度的偏移量。
在本申请的一些实施例中,基于前述方案,第三生成单元1108配置为:获取指定的所述参考药物分子的靶点及目标活性值;根据所述目标骨架隐向量、所述侧链隐向量、所述参考药物分子的靶点及所述目标活性值,生成跃迁后的药物分子。
在本申请的一些实施例中,基于前述方案,所述装置1100还包括第二处理单元,配置为:在生成跃迁后的药物分子之后,根据跃迁后的药物分子进行理化性质的分子过滤处理,得到类药性的药物分子;获取所述参考药物分子对应的共晶结构,将所述类药性的药物分子对接至所述共晶结构中;通过所述类药性的药物分子与所述共晶结构的结合模式,去除与所述共晶结构不匹配的药物分子,得到筛选后的药物分子;根据所述筛选后的药物分子和所述共晶结构的对接,进行化合物的合成与验证。
在本申请的一些实施例中,基于前述方案,通过机器学习模型生成所述跃迁后的药物分子;所述装置1100还包括:第三处理单元,配置为获取样本分子对应的样本骨架隐向量,并获取多个骨架簇,所述多个骨架簇中的各个骨架簇的聚类中心符合高斯混合分布;计算所述样本分子的样本骨架隐向量与各个骨架簇的聚类中心之间的第二距离,根据所述第二距离选择所述样本分子的样本骨架所属的骨架簇;根据所述样本骨架隐向量与所述样本骨架所属骨架簇的聚类中心之间的距离,生成基于距离的交叉熵损失;根据所述交叉熵损失和所述机器学习模型针对所述样本分子的预测损失,生成所述机器学习模型的损失函数;基于所述损失函数对所述机器学习模型的参数进行调整。
在本申请的一些实施例中,基于前述方案,所述机器学习模型中包括有解码器;所述第三处理单元还配置为:在通过所述机器学习模型获取到所述样本分子对应的样本骨架隐向量和样本侧链隐向量之后,将所述样本骨架隐向量、所述样本侧链隐向量及所述样本分子对应的目标分子输入至所述解码器;根据所述解码器的输出与所述目标分子计算所述预测损失。
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (16)

1.一种分子骨架跃迁的处理方法,其特征在于,包括:
根据参考药物分子对应的连接图结构生成所述参考药物分子对应的原子隐向量;
对所述原子隐向量进行原子遮挡处理,以获取到所述原子隐向量中包含的骨架隐向量和侧链隐向量;
根据所述骨架隐向量的空间分布,生成与所述骨架隐向量之间具有指定跃迁度的目标骨架隐向量;
根据所述目标骨架隐向量和所述侧链隐向量生成跃迁后的药物分子。
2.根据权利要求1所述的分子骨架跃迁的处理方法,其特征在于,所述连接图结构中的节点表示所述参考药物分子中的原子;
所述根据参考药物分子对应的连接图结构生成所述参考药物分子对应的原子隐向量,包括:
基于所述连接图结构中包含的节点特征和边特征,通过图编码器计算所述连接图结构中各个节点的节点信息,所述节点特征表示所述参考药物分子中的原子特征,所述边特征表示所述参考药物分子中的原子之间的特征;
根据所述各个节点的节点信息和所述各个节点的节点特征,生成所述各个节点的隐向量;
根据所述各个节点的隐向量和所述参考药物分子所包含的原子,生成所述参考药物分子对应的原子隐向量。
3.根据权利要求2所述的分子骨架跃迁的处理方法,其特征在于,所述基于所述连接图结构中包含的节点特征和边特征,通过图编码器计算所述连接图结构中各个节点的节点信息,包括:
根据所述连接图结构中的第一节点的节点特征、所述连接图结构中的第二节点的节点特征,以及所述第一节点的邻居节点中除所述第二节点之外的其它节点与所述第一节点之间在前一隐藏层中的边信息,计算所述第一节点与所述第二节点之间在后一隐藏层中的信息,所述第一节点是所述连接图结构中的任一节点,所述第二节点是所述第一节点在所述连接图结构中的邻居节点;
根据所述第一节点与所述第二节点之间在前一隐藏层中的边信息,以及所述第一节点与所述第二节点之间在后一隐藏层中的信息,计算所述第一节点与所述第二节点之间在后一隐藏层中的边信息;其中,所述连接图结构中的两个节点之间在初始隐藏层中的边信息为根据所述两个节点中的一个节点的节点特征,以及所述两个节点之间的边特征计算得到;
对各个节点在所有隐藏层中对应的边信息进行求和,得到所述各个节点的节点信息。
4.根据权利要求1所述的分子骨架跃迁的处理方法,其特征在于,所述对所述原子隐向量进行原子遮挡处理,以获取到所述原子隐向量中包含的骨架隐向量和侧链隐向量,包括:
获取与所述参考药物分子对应的比特向量,所述比特向量的长度与所述参考药物分子中所包含的原子数量相同,所述比特向量中与骨架原子对应的比特值为第一值;
基于所述比特向量从所述参考药物分子对应的原子隐向量中选择出骨架原子的隐向量和侧链原子的隐向量;
通过多头注意力机制和所述骨架原子的隐向量生成所述骨架隐向量,并根据所述多头注意力机制和所述侧链原子的隐向量生成所述侧链隐向量。
5.根据权利要求1所述的分子骨架跃迁的处理方法,其特征在于,在根据所述骨架隐向量的空间分布,生成与所述骨架隐向量之间具有指定跃迁度的目标骨架隐向量之前,所述方法还包括:
获取多个骨架簇,所述多个骨架簇中的各个骨架簇的聚类中心符合高斯混合分布;
计算所述骨架隐向量与所述各个骨架簇的聚类中心之间的第一距离,根据所述第一距离选择所述参考药物分子的骨架所属的目标骨架簇;
根据所述目标骨架簇的聚类中心确定所述骨架隐向量所属的高斯混合分布。
6.根据权利要求5所述的分子骨架跃迁的处理方法,其特征在于,所述根据所述骨架隐向量的空间分布,生成与所述骨架隐向量之间具有指定跃迁度的目标骨架隐向量,包括:
根据所述指定跃迁度和所述目标骨架簇进行随机采样处理,得到对应于所述指定跃迁度的偏移量;
将所述骨架隐向量与所述对应于所述指定跃迁度的偏移量进行相加,生成所述目标骨架隐向量。
7.根据权利要求6所述的分子骨架跃迁的处理方法,其特征在于,所述根据所述指定跃迁度和所述目标骨架簇进行随机采样处理,得到对应于所述指定跃迁度的偏移量,包括:
若所述指定跃迁度为第一跃迁度,则根据所述目标骨架簇的方差与随机采样得到的第一向量的乘积生成第一偏移量,将所述第一偏移量作为对应于所述第一跃迁度的偏移量。
8.根据权利要求6所述的分子骨架跃迁的处理方法,其特征在于,所述根据所述指定跃迁度和所述目标骨架簇进行随机采样处理,得到对应于所述指定跃迁度的偏移量,包括:
若所述指定跃迁度为第二跃迁度,则从所述多个骨架簇中选择与所述目标骨架簇的聚类中心小于或等于第一设定值的第一骨架簇;
根据所述第一骨架簇的方差与随机采样得到的第二向量的乘积、所述目标骨架簇的聚类中心和所述第一骨架簇的聚类中心,生成第二偏移量,将所述第二偏移量作为对应于所述第二跃迁度的偏移量。
9.根据权利要求6所述的分子骨架跃迁的处理方法,其特征在于,所述根据所述指定跃迁度和所述目标骨架簇进行随机采样处理,得到对应于所述指定跃迁度的偏移量,包括:
若所述指定跃迁度为第三跃迁度,则从所述多个骨架簇中选择与所述目标骨架簇的聚类中心大于或等于第二设定值的第二骨架簇;
根据所述第二骨架簇的方差与随机采样得到的第三向量的乘积、所述目标骨架簇的聚类中心和所述第二骨架簇的聚类中心,生成第三偏移量,将所述第三偏移量作为对应于所述第三跃迁度的偏移量。
10.根据权利要求1所述的分子骨架跃迁的处理方法,其特征在于,所述根据所述目标骨架隐向量和所述侧链隐向量生成跃迁后的药物分子,包括:
获取指定的所述参考药物分子的靶点及目标活性值;
根据所述目标骨架隐向量、所述侧链隐向量、所述参考药物分子的靶点及所述目标活性值,生成跃迁后的药物分子。
11.根据权利要求1所述的分子骨架跃迁的处理方法,其特征在于,所述方法还包括:
在生成跃迁后的药物分子之后,根据跃迁后的药物分子进行理化性质的分子过滤处理,得到类药性的药物分子;
获取所述参考药物分子对应的共晶结构,将所述类药性的药物分子对接至所述共晶结构中;
通过所述类药性的药物分子与所述共晶结构的结合模式,去除与所述共晶结构不匹配的药物分子,得到筛选后的药物分子;
根据所述筛选后的药物分子和所述共晶结构的对接,进行化合物的合成与验证。
12.根据权利要求1至11中任一项所述的分子骨架跃迁的处理方法,其特征在于,通过机器学习模型生成所述跃迁后的药物分子;所述方法还包括:
获取样本分子对应的样本骨架隐向量,并获取多个骨架簇,所述多个骨架簇中的各个骨架簇的聚类中心符合高斯混合分布;
计算所述样本分子的样本骨架隐向量与各个骨架簇的聚类中心之间的第二距离,根据所述第二距离选择所述样本分子的样本骨架所属的骨架簇;
根据所述样本骨架隐向量与所述样本骨架所属骨架簇的聚类中心之间的距离,生成基于距离的交叉熵损失;
根据所述交叉熵损失和所述机器学习模型针对所述样本分子的预测损失,生成所述机器学习模型的损失函数;
基于所述损失函数对所述机器学习模型的参数进行调整。
13.根据权利要求12所述的分子骨架跃迁的处理方法,其特征在于,所述机器学习模型中包括有解码器;所述方法还包括:
在通过所述机器学习模型获取到所述样本分子对应的样本骨架隐向量和样本侧链隐向量之后,将所述样本骨架隐向量、所述样本侧链隐向量及所述样本分子对应的目标分子输入至所述解码器;
根据所述解码器的输出与所述目标分子计算所述预测损失。
14.一种分子骨架跃迁的处理装置,其特征在于,包括:
第一生成单元,配置为根据参考药物分子对应的连接图结构生成所述参考药物分子对应的原子隐向量;
第一处理单元,配置为对所述原子隐向量进行原子遮挡处理,以获取到所述原子隐向量中包含的骨架隐向量和侧链隐向量;
第二生成单元,配置为根据所述骨架隐向量的空间分布,生成与所述骨架隐向量之间具有指定跃迁度的目标骨架隐向量;
第三生成单元,配置为根据所述目标骨架隐向量和所述侧链隐向量生成跃迁后的药物分子。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至13中任一项所述的分子骨架跃迁的处理方法。
16.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至13中任一项所述的分子骨架跃迁的处理方法。
CN202110260343.1A 2021-03-10 2021-03-10 分子骨架跃迁的处理方法、装置、介质及电子设备 Pending CN115083537A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202110260343.1A CN115083537A (zh) 2021-03-10 2021-03-10 分子骨架跃迁的处理方法、装置、介质及电子设备
EP22766179.0A EP4198991A1 (en) 2021-03-10 2022-02-28 Molecular scaffold hopping processing method and apparatus, medium, electronic device and computer program product
JP2023538910A JP2024500244A (ja) 2021-03-10 2022-02-28 分子骨格ホッピングの処理方法およびその装置、媒体、電子機器並びにコンピュータプログラム
PCT/CN2022/078336 WO2022188653A1 (zh) 2021-03-10 2022-02-28 分子骨架跃迁的处理方法、装置、介质、电子设备及计算机程序产品
US17/992,778 US20230083810A1 (en) 2021-03-10 2022-11-22 Method and apparatus for processing molecular scaffold transition, medium, electronic device, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110260343.1A CN115083537A (zh) 2021-03-10 2021-03-10 分子骨架跃迁的处理方法、装置、介质及电子设备

Publications (1)

Publication Number Publication Date
CN115083537A true CN115083537A (zh) 2022-09-20

Family

ID=83226359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110260343.1A Pending CN115083537A (zh) 2021-03-10 2021-03-10 分子骨架跃迁的处理方法、装置、介质及电子设备

Country Status (5)

Country Link
US (1) US20230083810A1 (zh)
EP (1) EP4198991A1 (zh)
JP (1) JP2024500244A (zh)
CN (1) CN115083537A (zh)
WO (1) WO2022188653A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11450407B1 (en) 2021-07-22 2022-09-20 Pythia Labs, Inc. Systems and methods for artificial intelligence-guided biomolecule design and assessment
US11742057B2 (en) * 2021-07-22 2023-08-29 Pythia Labs, Inc. Systems and methods for artificial intelligence-based prediction of amino acid sequences at a binding interface
US12027235B1 (en) 2022-12-27 2024-07-02 Pythia Labs, Inc. Systems and methods for artificial intelligence-based binding site prediction and search space filtering for biological scaffold design

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005081158A2 (en) * 2004-02-23 2005-09-01 Novartis Ag Use of feature point pharmacophores (fepops)
EP3680820B1 (en) * 2015-10-04 2021-12-01 Atomwise Inc. Method for applying a convolutional network to spatial data
CN108205613A (zh) * 2017-12-11 2018-06-26 华南理工大学 一种化合物分子间相似度的计算方法及系统与它们的应用
CN111209468B (zh) * 2020-01-03 2023-11-14 创新工场(广州)人工智能研究有限公司 一种用于生成关键词的方法与设备
CN112201301A (zh) * 2020-10-23 2021-01-08 深圳晶泰科技有限公司 基于虚拟现实的药物设计云计算流程控制系统及其方法

Also Published As

Publication number Publication date
US20230083810A1 (en) 2023-03-16
JP2024500244A (ja) 2024-01-05
WO2022188653A1 (zh) 2022-09-15
EP4198991A1 (en) 2023-06-21

Similar Documents

Publication Publication Date Title
Li et al. DeepDSC: a deep learning method to predict drug sensitivity of cancer cell lines
CN115083537A (zh) 分子骨架跃迁的处理方法、装置、介质及电子设备
Guo et al. Generating tertiary protein structures via interpretable graph variational autoencoders
CN112037868B (zh) 用于确定分子逆合成路线的神经网络的训练方法和装置
CN111695702A (zh) 分子生成模型的训练方法、装置、设备及存储介质
Rigoni et al. Conditional constrained graph variational autoencoders for molecule design
US20240055071A1 (en) Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product
US11568961B2 (en) System and method for accelerating FEP methods using a 3D-restricted variational autoencoder
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
Haberal et al. Prediction of protein metal binding sites using deep neural networks
CN113948157A (zh) 化学反应分类方法、装置、电子设备及存储介质
Kumar et al. Prediction of Protein–Protein Interaction as Carcinogenic Using Deep Learning Techniques
Jain et al. Hybrid quantum generative adversarial networks for molecular simulation and drug discovery
Altares-López et al. AutoQML: Automatic generation and training of robust quantum-inspired classifiers by using evolutionary algorithms on grayscale images
Wang et al. GCHN-DTI: Predicting drug-target interactions by graph convolution on heterogeneous networks
CN116705192A (zh) 基于深度学习的药物虚拟筛选方法及装置
Bongini et al. A Deep Learning Approach to the Prediction of Drug Side–Effects on Molecular Graphs
Peng et al. Pocket-specific 3d molecule generation by fragment-based autoregressive diffusion models
CN114360637A (zh) 一种基于图注意力网络的蛋白质-配体亲和力评价方法
Zhuang et al. Adaptive dual graph contrastive learning based on heterogeneous signed network for predicting adverse drug reaction
CN114373522A (zh) 分子生成模型的训练方法、装置、设备及存储介质
Zhang et al. ESSR: Evolving Sparse Sharing Representation for Multi-task Learning
US20220188655A1 (en) Toxic Substructure Extraction Using Clustering and Scaffold Extraction
CN116192650B (zh) 一种基于子图特征的链路预测方法
Wei Exploring Machine Learning Applications to Enable Next-Generation Chemistry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination