CN114334040A - 分子图重构模型的训练方法、装置以及电子设备 - Google Patents

分子图重构模型的训练方法、装置以及电子设备 Download PDF

Info

Publication number
CN114334040A
CN114334040A CN202111421790.7A CN202111421790A CN114334040A CN 114334040 A CN114334040 A CN 114334040A CN 202111421790 A CN202111421790 A CN 202111421790A CN 114334040 A CN114334040 A CN 114334040A
Authority
CN
China
Prior art keywords
molecular
graph
sample
loss
molecular graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111421790.7A
Other languages
English (en)
Inventor
赵沛霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111421790.7A priority Critical patent/CN114334040A/zh
Publication of CN114334040A publication Critical patent/CN114334040A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请提供了一种分子图重构模型的训练方法、装置以及电子设备,该方法适用于人工智能的药物领域,该分子图重构模型包括编码器、解码器和图匹配模块;本申请提供的训练方法中,一方面,将图匹配模块设计为预训练模块,并将图匹配模块输出的关系矩阵设计为用于计算样本分子图和重构分子图之间的重构损失,另一方面,将编码器输出的样本分子图的表征向量设计为解码器的输入向量,本申请提供的分子图重构模型的训练方法不仅能够使得分子图重构模型适用于的分子发现过程,还能够降低匹配复杂度和资源消耗,提升匹配的准确度,进而,提升了图匹配模块对分子图重构模型的指导效果。此外,本申请提供的方法还能够提升分子图重构模型的实用性及重构效果。

Description

分子图重构模型的训练方法、装置以及电子设备
技术领域
本申请实施例涉及人工智能的药物领域,并且更具体地,涉及分子图重构模型的训练方法、装置以及电子设备。
背景技术
分子发现的目的是寻找具有所需化学性质的候选分子,这是一个漫长、高成本、高失败率的过程。
由于图生成模型可以通过数据驱动的方式探索大的隐空间,因此其在加速分子发现过程中展现出了巨大潜力。
就本领域技术人员所知,基于自编码器的图生成模型是能够用于生成重构图的一种模型,具体地,可以先将样本图编码到隐空间,再使用解码器以解码的方式预测节点特征和图的拓扑结构,实现对样本图进行重构。但是,由于图的置换具有不变性,使得图生成模型采用的重构损失并不能对输出的重构样本是否为所需化学性质的候选分子进行监督,进而导致图生成模型不适用于分子发现过程。
因此,本领域亟需一种分子图重构模型的训练方法,进而利用该分子图重构模型发现具有所需化学性质的候选分子。
发明内容
本申请提供了一种分子图重构模型的训练方法、装置以及电子设备,该训练方法不仅能够使得该分子图重构模型适用于的分子发现过程,还能够降低匹配复杂度和资源消耗,提升匹配的准确度,进而,提升了图匹配模块对分子图重构模型的指导效果。此外,本申请提供的分子重构图模型的训练方法还能够提升分子图重构模型的实用性以及重构效果。
一方面,本申请提供了一种分子图重构模型的训练方法,该分子图重构模型包括编码器、解码器和图匹配模块;该方法包括:
获取样本分子图;
利用该编码器对该样本分子图的属性值进行处理,得到该样本分子图的表征向量;
利用该解码器,基于该样本分子图的表征向量对该样本分子图进行重构,得到重构分子图;
利用该图匹配模块对该样本分子图和该重构分子图之间的节点对应关系和边对应关系进行预测,得到关系矩阵;
基于该关系矩阵对所述样本分子图和所述重构分子图进行对比,得到该重构分子图的重构损失,该重构损失用于表征该样本分子图和该重构分子图之间的差异;
基于该重构损失对该解码器进行调整,得到训练后的分子图重构模型。
另一方面,本申请提供了一种分子图重构模型的训练装置,该分子图重构模型包括编码器、解码器和图匹配模块;该训练装置包括:
获取单元,用于获取样本分子图;
处理单元,用于利用该编码器对该样本分子图的属性值进行处理,得到该样本分子图的表征向量;
重构单元,用于利用该解码器,基于该样本分子图的表征向量对该样本分子图进行重构,得到重构分子图;
预测单元,用于利用该图匹配模块对该样本分子图和该重构分子图之间的节点对应关系和边对应关系进行预测,得到关系矩阵;
计算单元,用于基于该关系矩阵对该样本分子图和该重构分子图进行对比,得到该重构分子图的重构损失,该重构损失用于表征该样本分子图和该重构分子图之间的差异;
调整单元,用于基于该重构损失对该解码器进行调整,得到训练后的分子图重构模型。
另一方面,本申请提供了一种分子图构建方法,包括:
获取随机向量;
以该随机向量和预设的属性标签为输入,利用分子图重构模型中的解码器,构建具有该预设的属性标签的分子图;其中,该分子图重构模型为根据第一方面所述的方法训练得到的模型。
另一方面,本申请提供了一种分子图构建方法,包括:
获取待优化的分子图;
以该待优化的分子图为输入,利用分子图重构模型中的编码器,对所述待优化的分子图进行处理,得到所述待优化的分子图的表征向量;所述分子图重构模型为根据第一方面所述的方法训练得到的模型;
以该待优化的分子图的表征向量和预设的属性标签为输入,利用该分子图重构模型中的解码器,构建基于该预设的属性标签对该待优化的分子图进行优化后的分子图。
另一方面,本申请提供了一种分子图属性预测方法,包括:
获取待预测的分子图;
以所述待预测的分子图为输入,利用分子图重构模型中的编码器,对所述待预测的分子图进行属性预测,得到所述待预测的分子图的属性值;所述分子图重构模型为根据第一方面所述的方法训练得到的模型。
另一方面,本申请提供了一种电子设备,包括:
处理器,适于实现计算机指令;以及,
计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令适于由处理器加载并执行上述第一方面的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被计算机设备的处理器读取并执行时,使得计算机设备执行上述第一方面的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面的方法。
基于以上技术方案,本申请将图匹配模块设计为预训练模块,并将图匹配模块输出的关系矩阵设计为用于计算样本分子图和重构分子图之间的重构损失,不仅能够使得该分子图重构模型适用于的分子发现过程,还能够降低匹配复杂度和资源消耗,并提升匹配的准确度,进而,提升了图匹配模块对分子图重构模型的指导效果。
具体地,将图匹配模块设计为用于表征输入的样本分子图和生成的重构分子图之间的节点对应关系和边对应关系的关系矩阵,进而,基于该关系矩阵对输入的样本分子图和生成的重构分子图之间的重构损失进行计算,能够使得该分子图重构模型适用于的分子发现过程,有利于通过该重构损失对解码器输出的重构分子图是否为所需化学性质的候选分子进行监督,使得该分子图重构模型适用于的分子发现过程。此外,将分子图重构模型中的图匹配模块设计为预训练模块,相较于传统的匹配方式,不仅能够降低匹配复杂度和资源消耗,还能够提升匹配的准确度,进而,能够提升图匹配模块对分子图重构模型的指导效果。
另外,本申请将编码器输出的样本分子图的表征向量设计为解码器的输入向量,不仅能够提升分子图重构模型的实用性,还能够使得该分子图重构模型能够生成具有不同性质约束重构分子图,提升了分子图重构模型的重构效果。
具体的,一方面,将编码器输出的样本分子图的表征向量设计为解码器的输入向量,能够实现对样本分子图进行重构,得到解码器输出的重构分子图;另一方面,在分子图重构过程中,以预设的属性标签为输入,即可得到复合性质约束的重构分子图,提升了分子图重构模型的实用性,另一方面,编码器输出的分子样本图的表征向量作为解码器的一个输入向量,即可作为解码器的一个性质约束,预设的属性标签作为解码器的另一个输入,即可作为解码器的另一个性质约束样本,进而,能够实现具有多个性质约束的重构分子图,提升了分子图重构模型的重构效果。
综上,本申请提供的分子重构图模型的训练方法,不仅能够使得该分子图重构模型适用于的分子发现过程,还能够降低匹配复杂度和资源消耗,提升匹配的准确度,进而,提升了图匹配模块对分子图重构模型的指导效果。此外,本申请提供的分子重构图模型的训练方法还能够提升分子图重构模型的实用性以及重构效果。
附图说明
图1是本申请实施例提供的分子图重构模型的训练方法的示意性流程图。
图2是本申请实施例提供的分子图重构模型的示意性框架。
图3是本申请实施例提供的分子图重构模型中的解码器的应用示例。
图4是本申请实施例提供的分子图重构模型中的解码器的另一应用示例。
图5是本申请实施例提供的分子图重构模型中的编码器的应用示例。
图6是本申请实施例提供的分子图重构模型的训练装置的示意性框图。
图7是本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的方案可涉及人工智能(Artificial Intelligence,AI)技术领域。
其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
应理解,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例可涉及人工智能技术中的计算机视觉(Computer Vision,CV)技术,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例也可以涉及人工智能中的机器学习(Machine Learning,ML),ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请还涉及药物领域。在药物的研发流程中,在完成靶点识别与验证(Targetidentification and validation)之后,需要对候选药物化合物进行筛选,在筛选流程中,使用分子属性预测算法预测分子的吸收(Absorption)、分布(Distribution)、代谢(Metabolism)、排泄(Excretion)和毒性(Toxicity)性质,可以帮助研发人员筛选分子,大大提高研发效率,降低了药物研发成本。
分子发现的目的是寻找具有所需化学性质的候选分子,这是一个漫长、高成本、高失败率的过程。在本申请中,分子发现也可称为靶点发现、药物发现或药物靶点发现。
由于图生成模型可以通过数据驱动的方式探索大的隐空间,因此其在加速分子发现过程中展现出了巨大潜力。
就本领域技术人员所知,基于自编码器的图生成模型是能够用于生成重构图的一种模型,具体地,可以先将样本图编码到隐空间,再使用解码器以解码的方式预测节点特征和图的拓扑结构,实现对样本图进行重构。但是,由于图的置换具有不变性,使得图生成模型采用的重构损失并不能对输出的重构样本是否为所需化学性质的候选分子进行监督,进而导致图生成模型不适用于分子发现过程。
基于此,本申请提供了一种分子图重构模型的训练方法、装置以及电子设备,该训练方法不仅能够使得该分子图重构模型适用于的分子发现过程,还能够降低匹配复杂度和资源消耗,提升匹配的准确度,进而,提升了图匹配模块对分子图重构模型的指导效果。此外,本申请提供的分子重构图模型的训练方法还能够提升分子图重构模型的实用性以及重构效果。
为便于理解本申请提供的方案,下面对涉及的相关术语进行说明。
重构(Refactoring):将一个向量转换为分子图的过程。
示例性地,可以在已知分子图的表征向量的基础上,以预设的属性标签作为指导构建出新的分子图,也可以在一个随机向量的基础上,以预设的属性标签作为指导构建出新的分子图。
表征向量:以向量形式表征的表征对象(例如分子图、节点或边)的信息。
以分子图的表征向量为例,分子图的表征向量指以向量形式表征的分子图的信息,分子图的信息包括但不限于:分子图的拓扑结构以及分子图的属性信息,拓扑结构包括节点和边的连接关系。换言之,分子图的表征向量能体现分子图的拓扑结构和/或属性信息。示例性地,可以利用深度学习的方式获取分子图的表征向量,深度学习是机器学习的一个分支领域,其可以从分子图的信息中以向量的形式学习分子图的表示,本申请涉及的分子图的表征向量可以是任意一个中间层输出的表示,例如,可以是隐藏层输出的表示,此时,分子图的表征向量也可称为分子图在隐藏空间的表征向量或称为隐藏向量。
关系矩阵:用于表征两个分子图中节点间的对应关系以及边的对应关系。
示例性地,分子图1包括M个节点和N个边,M>0,N>0;分子图2包括X个节点和Y个边,X>0,Y>0;分子图1和分子图2之间的关系矩阵可用于表征M个节点中的每一个节点分别与X个节点之间匹配度以及N个边中的每一个边分别与Y个边之间的匹配度,匹配度的取值范围可以是[0,1]。
图1是本申请实施例提供的分子图重构模型的训练方法100的示意性流程图。
需要说明的,本申请实施例提供的方案可通过任何具有数据处理能力的电子设备执行。例如,该电子设备可实施为服务器。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器,服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
应当理解,本申请提供的训练方法可适用于分子图重构模型,即包括编码器、解码器和图匹配模块的任意模型。
如图1所示,该训练方法100可包括:
S110,获取样本分子图;
S120,利用该编码器对该样本分子图的属性值进行处理,得到该样本分子图的表征向量;
S130,利用该解码器,基于该样本分子图的表征向量对该样本分子图进行重构,得到重构分子图;
S140,利用该图匹配模块对该样本分子图和该重构分子图之间的节点对应关系和边对应关系进行预测,得到关系矩阵;
S150,基于该关系矩阵对该样本分子图和该重构分子图进行对比,得到该重构分子图的重构损失,该重构损失用于表征该样本分子图和该重构分子图之间的差异;
S160,基于该重构损失对该解码器进行调整,得到训练后的分子图重构模型。
基于以上技术方案,本申请将图匹配模块设计为预训练模块,并将图匹配模块输出的关系矩阵设计为用于计算样本分子图和重构分子图之间的重构损失,不仅能够使得该分子图重构模型适用于的分子发现过程,还能够降低匹配复杂度和资源消耗,并提升匹配的准确度,进而,提升了图匹配模块对分子图重构模型的指导效果。
具体地,将图匹配模块设计为用于表征输入的样本分子图和生成的重构分子图之间的节点对应关系和边对应关系的关系矩阵,进而,基于该关系矩阵对输入的样本分子图和生成的重构分子图之间的重构损失进行计算,能够使得该分子图重构模型适用于的分子发现过程,有利于通过该重构损失对解码器输出的重构分子图是否为所需化学性质的候选分子进行监督,使得该分子图重构模型适用于的分子发现过程。此外,将分子图重构模型中的图匹配模块设计为预训练模块,相较于传统的匹配方式,不仅能够降低匹配复杂度和资源消耗,还能够提升匹配的准确度,进而,能够提升图匹配模块对分子图重构模型的指导效果。
另外,本申请将编码器输出的样本分子图的表征向量设计为解码器的输入向量,不仅能够提升分子图重构模型的实用性,还能够使得该分子图重构模型能够生成具有不同性质约束重构分子图,提升了分子图重构模型的重构效果。
具体的,一方面,将编码器输出的样本分子图的表征向量设计为解码器的输入向量,能够实现对样本分子图进行重构,得到解码器输出的重构分子图;另一方面,在分子图重构过程中,以预设的属性标签为输入,即可得到复合性质约束的重构分子图,提升了分子图重构模型的实用性,另一方面,编码器输出的分子样本图的表征向量作为解码器的一个输入向量,即可作为解码器的一个性质约束,预设的属性标签作为解码器的另一个输入,即可作为解码器的另一个性质约束样本,进而,能够实现具有多个性质约束的重构分子图,提升了分子图重构模型的重构效果。
综上,本申请提供的分子重构图模型的训练方法,不仅能够使得该分子图重构模型适用于的分子发现过程,还能够降低匹配复杂度和资源消耗,提升匹配的准确度,进而,提升了图匹配模块对分子图重构模型的指导效果。此外,本申请提供的分子重构图模型的训练方法还能够提升分子图重构模型的实用性以及重构效果。
下面结合图2对本申请适用的分子图重构模型进行示例性说明。
图2是本申请实施例提供的分子图重构模型200的示意性框架。
如图2所示,分子图重构模型200可包括编码器210、解码器220以及图匹配模块230。其中,编码器210可用于将样本分子图处理为样本分子图的表征向量。可选的,该编码器210还可用于对样本分子图的属性进行预测,得到该样本分子图的预测属性值。解码器220可用于将编码器输出的样本分子图的表征向量重建为分子图,即可用于输出重构分子图。图匹配模块230可用于对样本分子图和重构分子图之间的差异,即所述样本分子图的重构损失进行监督。
此外,编码器210可用于将重构分子图处理为重构分子图的表征向量。可选的,该编码器210还可用于对重构分子图的属性进行预测,得到该重构分子图的预测属性值。
在一些实施例中,S140之前,该方法100还可包括:
利用重排序矩阵对该样本分子图中的节点和边进行重排序,得到重排序分子图;
利用该图匹配模块对该样本分子图和重排序分子图的对应关系进行预测,得到预测矩阵;
基于该重排序矩阵和该预测矩阵之间对该图匹配模块的参数进行调整,得到训练后的该图匹配模块。
示例性地,可以从样本分子图中随机选取样本节点和样本边,得到样本分子图对应的样本集,其可表示为:
Figure BDA0003377753040000101
其中,
Figure BDA0003377753040000102
N代表样本集包括的节点的数量,Cx表示样本集中的节点的向量维度;
Figure BDA0003377753040000103
N2代表样本集包括的边的数量。
Figure BDA0003377753040000104
表示n维欧几里德空间,简称为n维空间。在获取样本集后,可以将样本集中的节点顺序进行随机重排,并对样本集包括的边也按照同样的方式进行重排序,获得重排序后的样本集,即重排序分子图对应的样本集,其可表示为
Figure BDA0003377753040000105
若随机重排的方式定义为重排序矩阵Starget,则样本分子图和重排序分子图的节点对应关系和边对应关系可以分别表示为:
Figure BDA0003377753040000106
Figure BDA0003377753040000107
进一步的,获取样本分子图对应的样本集
Figure BDA0003377753040000108
和重排序分子图对应的样本集
Figure BDA0003377753040000109
后,可将样本分子图对应的样本集
Figure BDA00033777530400001010
和重排序分子图对应的样本集
Figure BDA00033777530400001011
分别输入深度图神经网络(Graph neural networks,GNN),以融合样本分子图对应的样本集
Figure BDA00033777530400001012
中的节点特征、边特征和结构特征,以及融合重排序分子图对应的样本集
Figure BDA00033777530400001013
中的节点特征、边特征和结构特征,进而得到融合后的特征:
Figure BDA00033777530400001014
Figure BDA00033777530400001015
进一步的,可通过注意力机制匹配最相近的节点,即
Figure BDA00033777530400001016
并将其归一化后得到预测矩阵,例如,可通过Sinkhorn算法将其归一化为S=sinkhorn(Att)。最后,基于重排序矩阵Starget和预测矩阵S,可对图匹配模块进行预训练,得到预训练后的图匹配模块。
需要说明的是,传统的图匹配算法通过寻找节点和边的高阶邻域特征,从而实现两个图中节点与节点的对应、边与边的对应。而随着图尺度的增大(节点数量),传统图匹配算法的计算代价将以节点数的四次方扩大,计算效率低下。
本实施例中,使用自监督训练的方式,不仅能够达到近似传统图匹配的能力,还能够降低匹配复杂度以及提升匹配效率。
此外,本申请通过重排序的方式训练该图匹配模块,能够在真实数据集上进行无需任何额外标注信息的条件下利用随机重排节点顺序的样本进行预训练,能够准确寻找输入样本和生成样本的节点对应关系和边对应关系。相较于使用传统图匹配技术的方案,本申请提供的方案更加高效,减少了大量的计算资源消耗,相较于使用统计量的方案,本申请提供的方案的匹配程度更加精准,有利于提升对分子图重构模型的指导效果。
可选的,该重排序矩阵为正交矩阵,该正交矩阵中元素的取值包括0和1。
换言之,Starget可定义为一个仅包含[0,1]的正交矩阵。
可选的,计算第一损失、第二损失以及第三损失;其中,该第一损失用于表征该重排序矩阵和该预测矩阵之间的差异;该第二损失用于表征该样本分子图中的第一节点的第一表征向量和该第一节点的第二表征向量之间的差异,该第一表征向量为该第一节点基于该重排序矩阵转换前的表征向量,该第二表征向量为该第一表征向量经过该重排序矩阵转换后再经过该预测矩阵转换的表征向量;该第三损失用于表征该样本分子图中的第一边的第三表征向量和该第一边的第四表征向量之间的差异,该第三表征向量为该第一边基于该重排序矩阵转换前的表征向量,该第四表征向量为该第三表征向量经过该重排序矩阵转换后再经过该预测矩阵转换的表征向量;基于该第一损失、该第二损失以及该第三损失对该图匹配模块进行调整,得到训练后的该图匹配模块。
本实施例中,该第一损失、第二损失以及第三损失可作为损失函数来监督图匹配模块的学习。换言之,通过第一损失、第二损失以及第三损失可以对图匹配模块的预测效果进行自监督,进而,能够保证图匹配模块预测的对应关系S和设定的重排关系Starget尽可能的保持一致或趋于拟合,提升了图匹配模块的预测效果。
示例性地,该第一损失可以定义为样本分子图和重排序分子图之间的节点对应关系和边对应关系的约束条件,例如,该第一损失可以定义为:
Figure BDA0003377753040000111
和/或
Figure BDA0003377753040000112
其中I为单位矩阵,M作为掩码屏蔽掉空节点对图匹配模块的影响。||x||表示范数,例如一个二维的欧氏几何空间存在欧氏范数。示例性地,每一个向量在笛卡儿坐标系统被画成一个从原点出发的箭号,则每一个向量的欧氏范数就是箭号的长度。
示例性地,该第二损失可以定义为样本分子图和重排序分子图之间的节点对应关系的约束条件,例如,该第二损失可以定义为:
Figure BDA0003377753040000121
Figure BDA0003377753040000122
示例性地,该第三损失可以定义为样本分子图和重构分子图之间的边对应关系的约束条件,例如,该第三损失可以定义为:
Figure BDA0003377753040000123
Figure BDA0003377753040000124
在一些实施例中,该S160可包括:
计算第一散度和第二散度;
其中,该第一散度用于表征先验分布和该样本分子图的表征向量的分布之间的差异;该第二散度用于表征先验分布和该重构分子图的表征向量之间的差异;
基于该第一散度对该编码器的参数进行调整,以及基于该第二散度和该重构损失对该解码器的参数进行调整,得到训练后的分子图重构模型。
需要说明的是,通常情况下,生成对抗网络是一种让两个神经网络相互博弈的方式进行学习,由一个生成网络和一个判别器网络组成。例如生成对抗网络可以实现为图自编码器(Graph Auto Encoder,GAN)。生成网络需生成尽可能像真实样本的生成样本,判别器网络的输入为真实样本和生成网络输出的生成样本,目的是将真实样本尽可能分辨出来,而生成网络则尽可能的欺骗判别器网络,最终使判别器网络无法判断,生成网络的输出结果是否真实。
但是,生成对抗网络的训练模式容易陷入训练崩溃,即生成网络仅能生成单一的样本。
此外,变分自编码器要求生成样本和输入样本尽可能的接近,然而,接近的评价指标不一定真的让生成样本和真实样本在所有空间都有近似分布,这会导致变分自编码器输出的生成样本的质量以及精度过低,达不到应用需求。
基于此,本申请将对抗训练模式和变分自编码器结合到了编码器和解码器的训练过程中,即将编码器作为判别器网络并将解码器作为生成网络,相应的,编码器的输入为样本分子图和重构分子图;一方面,通过引入第一散度,能够保证作为真实样本的样本分子图映射到向量空间后尽可能符合先验分布,即能够保证样本分子图的表征向量能够尽可能的符合先验分布,另一方面,通过引入第二散度,能够保证作为生成样本的重构分子图映射到向量空间后尽可能符合先验分布,即能够保证重构分子图的表征向量能够尽可能的符合先验分布,由此,能够保证生成样本(重构分子图)和真实样本(即样本分子图)在所有空间都有近似分布,不仅保留了生成对抗网络和变分自编码器的优点还克服了两者的缺点,具体的,不仅保留了生成对抗网络和变分自编码器的优点,还能够避免分子图重构模型的训练模式陷入训练崩溃,即编码器能够适用于生成多种的样本,此外,能够让生成样本和真实样本在所有空间都有近似分布,进而,提升了编码器输出的生成样本的质量以及精度,提升了编码器的性能。
换言之,针对变分自编码器生成样本精度较低和生成对抗网络容易陷入模式崩塌的问题,本申请通过变分自编码器和生成对抗网络的训练思路,利用提出的第一散度和第二散度,对分子图重构模型的学习效果进行监督,具体的,在编码器用于将样本分子图处理为表征向量的基础上,同时承担生成对抗网络中判别器网络的角色,即通过将编码器输出的重构分子图的表征向量与先验分布的KL散度作为对抗标指标,从而将变分自编码器和生成对抗网络的训练思路进行统一,不仅互补了两者的缺点,还能够克服两者的缺点,具体的,不仅保留了生成对抗网络和变分自编码器的优点,还能够避免分子图重构模型的训练模式陷入训练崩溃,即编码器能够适用于生成多种的样本,此外,能够让生成样本和真实样本在所有空间都有近似分布,进而,提升了编码器输出的生成样本的质量以及精度,提升了编码器的性能。
简言之,本申请通过迭代更新编码器和解码器,能够让解码器能够生成类似真实的样本的同时避免训练崩溃,保持生成样本的多样性。
示例性地,假设真实样本在向量空间的分布符合先验分布,即编码器映射真实的样本到向量空间后符合先验分布,编码器将真实样本映射到向量空间后的分布和先验分布的差别使用KL散度衡量,即真实样本映射到向量空间后的分布和先验分布的差别可使用第一散度衡量,其可表示为KLreal。此外,解码器生成的重构分子图在输入编码器后的分布与先验分布的差别同样也使用KL散度衡量,即解码器生成的重构分子图在输入编码器后的分布与先验分布的差别可使用第二散度衡量,其可表示为KLfake。其中,先验分布(priordistribution)也称为验前分布或事前分布,是一种概率分布,其与后验分布相对;先验分布与试验结果无关或与随机抽样无关,先验分布反映在进行统计试验之前根据其他知识而得到的分布。KL散度可用于衡量两个概率分布的匹配程度,两个分布差异越大,KL散度越大。样本空间是一个实验或随机试验所有可能结果的集合,而随机试验中的每个可能结果称为样本点。
示例性地,在对抗训练中,解码器尽可能的欺骗编码器,因此解码器的目标为最小化第一散度,即最小化KLreal
示例性地,在对抗训练中,编码器可以将真实样本和解码器输出的样本尽可能分辨出来,即编码器的目标为最大化第二散度,即最大化KLfake
可选的,基于该第一散度计算第一数值;其中,该第一散度大于或等于预设阈值时,该第一散度的梯度小于该第一数值的梯度;基于该第一数值,对该编码器的参数进行调整。
示例性地,本申请可以通过使用最大化
Figure BDA0003377753040000141
来代替编码器最大化KLfake的目标,从而降低当KLfake过大时的梯度,进而能够避免编码器将生成样本的分布推到离真实分布过远,提升训练过程的稳定性。
在一些实施例中,该S160可包括:
利用该编码器对该样本分子的属性值进行预测,得到该样本分子图的预测属性值;
利用该编码器对该重构分子的属性值进行预测,得到该重构分子图的预测属性值;
计算第四损失、第五损失以及第六损失;
其中,该第四损失用于表征该样本分子图的预测属性值和该样本分子图的属性标签之间的差异;
该第五损失用于表征该重构分子图的预测属性值和预设的属性标签之间的差异;
该第六损失用于表征该样本分子图的预测属性值和该重构分子图的预测属性值之间的差异;
基于该第四损失和该第五损失对该编码器的参数进行调整,以及基于该第六损失和该重构损失对该解码器的参数进行调整,得到训练后的分子图重构模型。
本实施例中,该第四损失、第五损失以及第六损失可作为损失函数来监督分子图重构模型的学习。换言之,通过该第四损失、第五损失以及第六损失可以对分子图重构模型的重构效果进行自监督,进而,能够保证分子图重构模型的重构效果。
此外,针对编码器对属性值的预测结果,其作为编码器预测性质的结果和监督,在一些实施例中,样本分子图的预测属性值可作为输入到解码器的样本分子图的表征向量中的特征,即编码器对样本分子图的属性值的预测值可作为重构分子图的前置性属性值,基于此,在实际应用中,技术人员只需要在解码器的输入增加一个额外的预设的属性标签,解码器便能够生成具有复合设定性质约束的重构分子图,实现了单个模型用于生成不同性质约束的重构分子图的功能。
当然,样本分子图的预测属性值作为输入到解码器的样本分子图的表征向量中的特征时,本申请对其具体实现方式不作限定。
例如,样本分子图的预测属性值可以以实数的形式映射在向量空间内。
再如,样本分子图的预测属性值可以以类似胶囊网络的方式,将预测属性值的描述从一个实数用一个向量进行替代,再使用向量的模长或假设分布的距离作为预测属性值的衡量,不仅能够使得预测属性值具有更精细的表达能力,还能够使得预设的属性标签具有更多的调整空间,进而,能够提升分子图重构模型的可操作性。
示例性地,分子图重构模型支持预设的属性标签的预测和以预设的属性标签为导向的生成。例如,针对本申请中的编码器,其可以结合样本分子图的属性值的预测结合进行编码,具体的,编码器可以将样本分子图的预测属性值进行编码,得到样本分子图的表征向量。例如,编码器可以将样本分子图的预测属性值在向量空间上进行编码,得到样本分子图的表征向量。例如,针对解码器,其可以以包含有编码器预测的样本分子图的预测属性值在向量空间上的编码为输入,对样本分子图进行重构,得到重构分子图。再如,编码器接收到解码器输出的重构分子图后,还可以对重构分子图的属性值进行预测,得到重构分子图的预测属性值。
示例性地,在训练过程中,编码器的目标为最小化样本分子图的预测属性值和样本分子图的属性标签之间的差别,即最小化该第四损失,而解码器的目标为最小化预设的属性标签和重构分子图的预测属性值之间的差别,即最小化该第五损失。此外,编码器的目标还可以为最小化样本分子图的预测属性值和重构分子图的预测属性值之间的差别,即最小化该第六损失。
换言之,在训练过程中,该编码器和该解码器的目标可以如下所示:
编码器预测的该样本分子图的预测属性值为:creal;该样本分子图属性标签为:lreal;编码器预测的重构分子图的预测属性值为:Cfake;针对该重构分子图的预设的属性标签为:lfake;此时,编码器的目标为最小化第四损失和第六损失,即最小化||creal-lreal||和||cfake-lfake||,而解码器的目标为最小化第五损失,即最小化||cfake-creal||。
在一些实施例中,该属性值为吸收属性的值或分布代谢排泄毒性(Absorption、Distribution、Metabolism、Excretion、Toxicity,ADMET)属性的值。
示例性地,该属性值可以是该分子的物理化学特征,包括但不限于:溶解性、渗透能力、稳定性等;可以是生化特征,包括但不限于:代谢过程、蛋白结合能力、转运(吸收和排出)等;还可以是和毒性特征,包括但不限于:清除率、半衰期、生物活性,药物间相互作用(drug-drug interaction,DDI)等。示例性地,该属性值可以是热力学水溶性(thermodynamic solubility)和动力学水溶性(kinetic solubility);热力学水溶性是我们通常认为的化合物的溶解达到平衡后的溶解能力,动力学水溶性一般是将溶解在有机溶剂中的化合物加入到水溶液中再检测溶解性。当然,上述属性仅为本申请的示例,不应理解为对本申请的限制。
需要说明的是,本申请提供的分子图中国模块可以适用于各种应用场景,本申请对此不作具体限定。例如,可以应用于对待预测的分子图的属性值的预测,也可以应用于对待优化的分子图进行优化,例如基于预设的属性标签对待优化的分子图进行优化,还可以用于构建分子图。例如用于构建具有预设的属性标签的分子图。
图3是本申请实施例提供的分子图重构模型中的解码器的应用示例。
如图3所示,利用分子图重构模型中的解码器220,获取随机向量,并以该随机向量和预设的属性标签为输入,构建具有该预设的属性标签的分子图;其中,该分子图重构模型为按照图1所示的方法100训练得到的分子图重构模型,或图2所示的分子图重构模型200。
换言之,可以使用本申请提供的分子图重构模型中的解码器构建分子图,例如,构建具有特征属性的分子图。
图4是本申请实施例提供的分子图重构模型中的解码器的另一应用示例。
如图3所示,利用分子图重构模型中的编码器210,获取待优化的分子图,并以该待优化的分子图为输入,对该待优化的分子图进行处理,得到该待优化的分子图的表征向量;其中,该分子图重构模型为按照图1所示的方法100训练得到的分子图重构模型,或图2所示的分子图重构模型200;以该待优化的分子图的表征向量和预设的属性标签为输入,利用分子图重构模型中的解码器220,构建基于该预设的属性标签对该待优化的分子图进行优化后的分子图。
换言之,在对已有分子图基础上,可以使用本申请提供的分子图重构模型中的编码器对该已有分子图的向量空间编码的基础上,调整预设的属性标签,从而生成的重构分子图在保证分子构型与输入的已有分子图大体不变的情况下,优化已有分子图的性质表现。
此外,已有分子图的预测属性值可作为输入到解码器的样本分子图的表征向量中的特征,即编码器对已有分子图的属性值的预测值可作为重构分子图的前置性属性值,基于此,在实际应用中,技术人员只需要在解码器的输入增加一个额外的预设的属性标签,解码器便能够生成具有复合设定性质约束的重构分子图,实现了单个模型用于生成不同性质约束的重构分子图的功能。
图5是本申请实施例提供的分子图重构模型中的编码器的应用示例。
如图5所示,利用分子图重构模型中的编码器110获取待预测的分子图,并以该待预测的分子图为输入,对该待预测的分子图进行属性预测,得到该待预测的分子图的属性值;该分子图重构模型为根据第一方面该的方法训练得到的模型。其中,该分子图重构模型为按照图1所示的方法100训练得到的分子图重构模型,或图2所示的分子图重构模型200。
换言之,可以使用本申请提供的分子图重构模型中的编码器对分子图的属性值进行预测。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上文对本申请实施例提供的方法进行了说明,下面对本申请实施例提供的装置进行说明。
图6是本申请实施例提供的分子图重构模型的训练装置300的示意性框图。
如图6所示,该用于分子图重构模型的训练装置300可包括:
获取单元310,用于获取样本分子图;
处理单元320,用于利用该编码器对该样本分子图的属性值进行处理,得到该样本分子图的表征向量;
重构单元330,用于利用该解码器,基于该样本分子图的表征向量对该样本分子图进行重构,得到重构分子图;
预测单元340,用于利用该图匹配模块对该样本分子图和该重构分子图之间的节点对应关系和边对应关系进行预测,得到关系矩阵;
计算单元350,用于基于该关系矩阵对该样本分子图和该重构分子图进行对比,得到该重构分子图的重构损失,该重构损失用于表征该样本分子图和该重构分子图之间的差异;
调整单元360,用于基于该重构损失对该解码器进行调整,得到训练后的分子图重构模型。
在一些实施例中,该预测单元340用于利用该图匹配模块对该样本分子图和该重构分子图之间的节点对应关系和边对应关系进行预测,得到关系矩阵之前,还可用于:
利用重排序矩阵对该样本分子图中的节点和边进行重排序,得到重排序分子图;
利用该图匹配模块对该样本分子图和重排序分子图的对应关系进行预测,得到预测矩阵;
基于该重排序矩阵和该预测矩阵之间对该图匹配模块的参数进行调整,得到训练后的该图匹配模块。
在一些实施例中,该重排序矩阵为正交矩阵,该正交矩阵中元素的取值包括0和1。
在一些实施例中,该预测单元340可具体用于:
计算第一损失、第二损失以及第三损失;
其中,该第一损失用于表征该重排序矩阵和该预测矩阵之间的差异;
该第二损失用于表征该样本分子图中的第一节点的第一表征向量和该第一节点的第二表征向量之间的差异,该第一表征向量为该第一节点基于该重排序矩阵转换前的表征向量,该第二表征向量为该第一表征向量经过该重排序矩阵转换后再经过该预测矩阵转换的表征向量;
该第三损失用于表征该样本分子图中的第一边的第三表征向量和该第一边的第四表征向量之间的差异,该第三表征向量为该第一边基于该重排序矩阵转换前的表征向量,该第四表征向量为该第三表征向量经过该重排序矩阵转换后再经过该预测矩阵转换的表征向量;
基于该第一损失、该第二损失以及该第三损失对该图匹配模块进行调整,得到训练后的该图匹配模块。
在一些实施例中,该调整单元360具体用于:
计算第一散度和第二散度;
其中,该第一散度用于表征先验分布和该样本分子图的表征向量的分布之间的差异;该第二散度用于表征先验分布和该重构分子图的表征向量之间的差异;
基于该第一散度对该编码器的参数进行调整,以及基于该第二散度和该重构损失对该解码器的参数进行调整,得到训练后的分子图重构模型。
在一些实施例中,该调整单元360具体用于:
基于该第一散度计算第一数值;
其中,该第一散度大于或等于预设阈值时,该第一散度的梯度小于该第一数值的梯度;
基于该第一数值,对该编码器的参数进行调整。
在一些实施例中,该调整单元360具体用于:
利用该编码器对该样本分子的属性值进行预测,得到该样本分子图的预测属性值;
利用该编码器对该重构分子的属性值进行预测,得到该重构分子图的预测属性值;
计算第四损失、第五损失以及第六损失;
其中,该第四损失用于表征该样本分子图的预测属性值和该样本分子图的属性标签之间的差异;
该第五损失用于表征该重构分子图的预测属性值和预设的属性标签之间的差异;
该第六损失用于表征该样本分子图的预测属性值和该重构分子图的预测属性值之间的差异;
基于该第四损失和该第五损失对该编码器的参数进行调整,以及基于该第六损失和该重构损失对该解码器的参数进行调整,得到训练后的分子图重构模型。
在一些实施例中,该属性值为吸收属性的值或分布代谢排泄毒性ADMET属性的值。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,分子图重构模型的训练装置300可以对应于执行本申请实施例的方法100中的相应主体,并且分子图重构模型的训练装置300中的各个单元分别为了实现方法100中的相应流程,为了简洁,在此不再赘述。
还应当理解,本申请实施例涉及的分子图重构模型的训练装置300中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该分子图重构模型的训练装置300也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造本申请实施例涉及的分子图重构模型的训练装置300,以分别来实现本申请实施例提供的分子图重构模型的训练方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于电子设备中,并在其中运行,来实现本申请实施例的相应方法。
换言之,上文涉及的单元可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过软硬件结合的形式实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件组合执行完成。可选地,软件可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图7是本申请实施例提供的电子设备400的示意结构图。
如图7所示,该电子设备400至少包括处理器410以及计算机可读存储介质420。其中,处理器410以及计算机可读存储介质420可通过总线或者其它方式连接。计算机可读存储介质420用于存储计算机程序421,计算机程序421包括计算机指令,处理器410用于执行计算机可读存储介质420存储的计算机指令。处理器410是电子设备400的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
作为示例,处理器410也可称为中央处理器(CentralProcessingUnit,CPU)。处理器410可以包括但不限于:通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
作为示例,计算机可读存储介质420可以是高速RAM存储器,也可以是非不稳定的存储器(Non-VolatileMemory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器410的计算机可读存储介质。具体而言,计算机可读存储介质420包括但不限于:易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
如图7所示,该电子设备400还可以包括收发器430。
其中,处理器410可以控制该收发器430与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器430可以包括发射机和接收机。收发器430还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该通信设备400中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
在一种实现方式中,该电子设备400可以是任一具有数据处理能力的电子设备;该计算机可读存储介质420中存储有第一计算机指令;由处理器410加载并执行计算机可读存储介质420中存放的第一计算机指令,以实现图1所示方法实施例中的相应步骤;具体实现中,计算机可读存储介质420中的第一计算机指令由处理器410加载并执行相应步骤,为避免重复,此处不再赘述。
根据本申请的另一方面,本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是电子设备400中的记忆设备,用于存放程序和数据。例如,计算机可读存储介质420。可以理解的是,此处的计算机可读存储介质420既可以包括电子设备400中的内置存储介质,当然也可以包括电子设备400所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了电子设备400的操作系统。并且,在该存储空间中还存放了适于被处理器410加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或多个的计算机程序421(包括程序代码)。
根据本申请的另一方面,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。例如,计算机程序421。此时,数据处理设备400可以是计算机,处理器410从计算机可读存储介质420读取该计算机指令,处理器410执行该计算机指令,使得该计算机执行上述各种可选方式中提供的模型训练方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质进行传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元以及流程步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
最后需要说明的是,以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (15)

1.一种分子图重构模型的训练方法,其特征在于,所述分子图重构模型包括编码器、解码器和图匹配模块;所述方法包括:
获取样本分子图;
利用所述编码器对所述样本分子图的属性值进行处理,得到所述样本分子图的表征向量;
利用所述解码器,基于所述样本分子图的表征向量对所述样本分子图进行重构,得到重构分子图;
利用所述图匹配模块对所述样本分子图和所述重构分子图之间的节点对应关系和边对应关系进行预测,得到关系矩阵;
基于所述关系矩阵对所述样本分子图和所述重构分子图进行对比,得到所述重构分子图的重构损失,所述重构损失用于表征所述样本分子图和所述重构分子图之间的差异;
基于所述重构损失对所述解码器进行调整,得到训练后的分子图重构模型。
2.根据权利要求1所述的方法,其特征在于,所述利用所述图匹配模块对所述样本分子图和所述重构分子图之间的节点对应关系和边对应关系进行预测,得到关系矩阵之前,所述方法还包括:
利用重排序矩阵对所述样本分子图中的节点和边进行重排序,得到重排序分子图;
利用所述图匹配模块对所述样本分子图和重排序分子图的对应关系进行预测,得到预测矩阵;
基于所述重排序矩阵和所述预测矩阵之间对所述图匹配模块的参数进行调整,得到训练后的所述图匹配模块。
3.根据权利要求2所述的方法,其特征在于,所述重排序矩阵为正交矩阵,所述正交矩阵中元素的取值包括0和1。
4.根据权利要求2所述的方法,其特征在于,所述基于所述重排序矩阵和所述预测矩阵之间对所述图匹配模块进行调整,得到训练后的所述图匹配模块,包括:
计算第一损失、第二损失以及第三损失;
其中,所述第一损失用于表征所述重排序矩阵和所述预测矩阵之间的差异;
所述第二损失用于表征所述样本分子图中的第一节点的第一表征向量和所述第一节点的第二表征向量之间的差异,所述第一表征向量为所述第一节点基于所述重排序矩阵转换前的表征向量,所述第二表征向量为所述第一表征向量经过所述重排序矩阵转换后再经过所述预测矩阵转换的表征向量;
所述第三损失用于表征所述样本分子图中的第一边的第三表征向量和所述第一边的第四表征向量之间的差异,所述第三表征向量为所述第一边基于所述重排序矩阵转换前的表征向量,所述第四表征向量为所述第三表征向量经过所述重排序矩阵转换后再经过所述预测矩阵转换的表征向量;
基于所述第一损失、所述第二损失以及所述第三损失对所述图匹配模块进行调整,得到训练后的所述图匹配模块。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于所述重构损失对所述解码器进行调整,得到训练后的分子图重构模型,包括:
计算第一散度和第二散度;
其中,所述第一散度用于表征先验分布和所述样本分子图的表征向量的分布之间的差异;所述第二散度用于表征先验分布和所述重构分子图的表征向量之间的差异;
基于所述第一散度对所述编码器的参数进行调整,以及基于所述第二散度和所述重构损失对所述解码器的参数进行调整,得到训练后的分子图重构模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一散度对所述编码器的参数进行调整,包括:
基于所述第一散度计算第一数值;
其中,所述第一散度大于或等于预设阈值时,所述第一散度的梯度小于所述第一数值的梯度;
基于所述第一数值,对所述编码器的参数进行调整。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于所述重构损失对所述解码器进行调整,得到训练后的分子图重构模型,包括:
利用所述编码器对所述样本分子的属性值进行预测,得到所述样本分子图的预测属性值;
利用所述编码器对所述重构分子的属性值进行预测,得到所述重构分子图的预测属性值;
计算第四损失、第五损失以及第六损失;
其中,所述第四损失用于表征所述样本分子图的预测属性值和所述样本分子图的属性标签之间的差异;
所述第五损失用于表征所述重构分子图的预测属性值和预设的属性标签之间的差异;
所述第六损失用于表征所述样本分子图的预测属性值和所述重构分子图的预测属性值之间的差异;
基于所述第四损失和所述第五损失对所述编码器的参数进行调整,以及基于所述第六损失和所述重构损失对所述解码器的参数进行调整,得到训练后的分子图重构模型。
8.根据权利要求7所述的方法,其特征在于,所述属性值为吸收属性的值或分布代谢排泄毒性ADMET属性的值。
9.一种分子图构建方法,其特征在于,包括:
获取随机向量;
以所述随机向量和预设的属性标签为输入,利用分子图重构模型中的解码器,构建具有所述预设的属性标签的分子图;其中,所述分子图重构模型为根据权利要求1至8中任一项所述的方法训练得到的模型。
10.一种分子图构建方法,其特征在于,包括:
获取待优化的分子图;
以所述待优化的分子图为输入,利用分子图重构模型中的编码器,对所述待优化的分子图进行处理,得到所述待优化的分子图的表征向量;其中,所述分子图重构模型为根据权利要求1至8中任一项所述的方法训练得到的模型;
以所述待优化的分子图的表征向量和预设的属性标签为输入,利用所述分子图重构模型中的解码器,构建基于所述预设的属性标签对所述待优化的分子图进行优化后的分子图。
11.一种分子图属性预测方法,其特征在于,包括:
获取待预测的分子图;
以所述待预测的分子图为输入,利用分子图重构模型中的编码器,对所述待预测的分子图进行属性预测,得到所述待预测的分子图的属性值;其中,所述分子图重构模型为根据权利要求1至8中任一项所述的方法训练得到的模型。
12.一种分子图重构模型的训练装置,其特征在于,所述分子图重构模型包括编码器、解码器和图匹配模块;所述训练装置包括:
获取单元,用于获取样本分子图;
处理单元,用于利用所述编码器对所述样本分子图的属性值进行处理,得到所述样本分子图的表征向量;
重构单元,用于利用所述解码器,基于所述样本分子图的表征向量对所述样本分子图进行重构,得到重构分子图;
预测单元,用于利用所述图匹配模块对所述样本分子图和所述重构分子图之间的节点对应关系和边对应关系进行预测,得到关系矩阵;
计算单元,用于基于所述关系矩阵对所述样本分子图和所述重构分子图进行对比,得到所述重构分子图的重构损失,所述重构损失用于表征所述样本分子图和所述重构分子图之间的差异;
调整单元,用于基于所述重构损失对所述解码器进行调整,得到训练后的分子图重构模型。
13.一种电子设备,其特征在于,包括:
处理器,适于执行计算机程序;
计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一项所述的方法、如权利要求9所述的方法、如权利要求10所述的方法、或如权利要求11所述的方法。
14.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至8中任一项所述的方法、如权利要求9所述的方法、如权利要求10所述的方法、或如权利要求11所述的方法。
15.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现如权利要求1至8中任一项所述的方法、如权利要求9所述的方法、如权利要求10所述的方法、或如权利要求11所述的方法。
CN202111421790.7A 2021-11-26 2021-11-26 分子图重构模型的训练方法、装置以及电子设备 Pending CN114334040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111421790.7A CN114334040A (zh) 2021-11-26 2021-11-26 分子图重构模型的训练方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111421790.7A CN114334040A (zh) 2021-11-26 2021-11-26 分子图重构模型的训练方法、装置以及电子设备

Publications (1)

Publication Number Publication Date
CN114334040A true CN114334040A (zh) 2022-04-12

Family

ID=81047344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111421790.7A Pending CN114334040A (zh) 2021-11-26 2021-11-26 分子图重构模型的训练方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN114334040A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115206456A (zh) * 2022-07-13 2022-10-18 黑龙江大学 基于属性编辑流的分子生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115206456A (zh) * 2022-07-13 2022-10-18 黑龙江大学 基于属性编辑流的分子生成方法

Similar Documents

Publication Publication Date Title
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
Li et al. Neural network renormalization group
CN111507378A (zh) 训练图像处理模型的方法和装置
US7389208B1 (en) System and method for dynamic knowledge construction
CN111695702B (zh) 分子生成模型的训练方法、装置、设备及存储介质
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN111444715A (zh) 实体关系识别方法、装置、计算机设备和存储介质
CN113705276A (zh) 模型构建方法、模型构建装置、计算机设备及介质
CN114334040A (zh) 分子图重构模型的训练方法、装置以及电子设备
Wang et al. Unsupervised learning of graph matching with mixture of modes via discrepancy minimization
CN115033700A (zh) 基于相互学习网络的跨领域情感分析方法、装置以及设备
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
Tang Analysis of English multitext reading comprehension model based on deep belief neural network
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN114065901A (zh) 训练神经网络模型的方法和装置
Sidiropoulos Application of deep neural networks for bicycle detection and classification
CN117932314A (zh) 模型训练方法、装置、电子设备、存储介质及程序产品
Heggen An investigation of different interpretability methods used to evaluate a prediction from a CNN model
Tiwari et al. MAC: A Meta-Learning Approach for Feature Learning and Recombination
CN117011569A (zh) 一种图像处理方法和相关装置
CN116994018A (zh) 模型训练方法、分类预测方法以及装置
CN116090574A (zh) 对象分类模型的训练方法、装置、计算机设备和存储介质
CN117372828A (zh) 多媒体信息的标签生成方法、装置、存储介质和电子设备
CN116958589A (zh) 图像识别方法、装置、计算机设备及计算机存储介质
CN113705291A (zh) 视频处理网络的训练方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination