CN116796282A - 分子筛选方法、训练方法、装置、电子设备以及存储介质 - Google Patents

分子筛选方法、训练方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN116796282A
CN116796282A CN202310489389.XA CN202310489389A CN116796282A CN 116796282 A CN116796282 A CN 116796282A CN 202310489389 A CN202310489389 A CN 202310489389A CN 116796282 A CN116796282 A CN 116796282A
Authority
CN
China
Prior art keywords
sample
binding
candidate
atomic
conformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310489389.XA
Other languages
English (en)
Inventor
罗宏雨
张善卓
闫俊吉
何东龙
方晓敏
张肖男
王凡
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310489389.XA priority Critical patent/CN116796282A/zh
Publication of CN116796282A publication Critical patent/CN116796282A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开提供了分子筛选方法、训练方法、装置、电子设备以及存储介质,涉及数据处理技术领域,尤其涉及人工智能领域、大数据领域或药物技术领域。具体实现方案为:从待筛选结合构象集中确定初始结合构象子集,其中,初始结合构象子集包括由初始分子与待匹配的受体对象构建的初始结合构象;对初始结合构象进行结合属性评估,得到结合属性评估结果;根据结合属性评估结果,从初始结合构象子集中确定候选结合构象;基于深度学习算法处理候选结合构象,得到亲和力检测结果;以及根据亲和力检测结果,从候选结合构象中筛选出与待匹配的受体对象相匹配的目标分子。

Description

分子筛选方法、训练方法、装置、电子设备以及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及人工智能领域、大数据领域或药物技术领域。
背景技术
随着科技的快速发展,在医药科技领域中,相关研发人员可以借助基于计算机模拟技术构建的药物虚拟筛选系统,从包含有大量待筛选分子数据的分子库中筛选出适配于蛋白质等受体的药物分子,以提升药物分子筛选的效率。
发明内容
本公开提供了一种分子筛选方法、训练方法、装置、电子设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种分子筛选方法,包括:从待筛选结合构象集中确定初始结合构象子集,其中,初始结合构象子集包括由初始分子与待匹配的受体对象构建的初始结合构象;对初始结合构象进行结合属性评估,得到结合属性评估结果;根据结合属性评估结果,从初始结合构象子集中确定候选结合构象;基于深度学习算法处理候选结合构象,得到亲和力检测结果;以及根据亲和力检测结果,从候选结合构象中筛选出与待匹配的受体对象相匹配的目标分子。
根据本公开的另一方面,提供了一种深度学习模型的训练方法,包括:获取训练样本,训练样本包括样本结合构象与亲和力检测标签,样本结合构象包括由样本分子和样本受体对象构成的样本结合构象图,样本结合构象图包括样本分子的样本原子节点、样本原子节点之间的样本原子边关系、构成样本受体对象的样本受体原子节点和样本受体原子节点之间的样本受体原子边关系;样本结合构象图还包括样本原子节点和样本受体原子节点之间的样本结合边关系;将样本结合构象图输入至深度学习模型的特征提取网络,输出样本节点特征、与样本原子边关系或样本受体原子边关系对应的样本第一边关系特征,以及与样本结合边关系对应的样本第二边关系特征;将样本节点特征和样本第一边关系特征输入至深度学习模型的第一检测网络,输出样本亲和力检测结果;将样本节点特征和样本第二边关系特征输入至深度学习模型的第二检测网络,输出与样本结合边关系对应的样本概率;以及利用样本亲和力检测结果、亲和力检测标签、样本概率和样本结合边关系训练深度学习模型,得到训练后的深度学习模型。
根据本公开的另一方面,提供了一种分子筛选装置,包括:初始结合构象子集获得模块,用于从待筛选结合构象集中确定初始结合构象子集,其中,初始结合构象子集包括由初始分子与待匹配的受体对象构建的初始结合构象;结合属性评估结果获得模块,用于对初始结合构象进行结合属性评估,得到结合属性评估结果;候选结合构象获得模块,用于根据结合属性评估结果,从初始结合构象子集中确定候选结合构象;亲和力检测结果获得模块,用于基于深度学习算法处理候选结合构象,得到亲和力检测结果;以及目标分子获得模块,用于根据亲和力检测结果,从候选结合构象中筛选出与待匹配的受体对象相匹配的目标分子。
根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括:训练样本获取模块,用于获取训练样本,训练样本包括样本结合构象与亲和力检测标签,样本结合构象包括由样本分子和样本受体构成的样本结合构象图,样本结合构象图包括样本分子的样本原子节点、样本原子节点之间的样本原子边关系、构成样本受体对象的样本受体原子节点和样本受体原子节点之间的样本受体原子边关系;样本结合构象图还包括样本原子节点和样本受体原子节点之间的样本结合边关系;样本特征提取模块,用于将样本结合构象图输入至深度学习模型的特征提取网络,输出样本节点特征、与样本原子边关系或样本受体原子边关系对应的样本第一边关系特征,以及与样本结合边关系对应的样本第二边关系特征;样本亲和力检测结果获得模块,用于将样本节点特征和样本第一边关系特征输入至深度学习模型的第一检测网络,输出样本亲和力检测结果;样本概率获得模块,用于将样本节点特征和样本第二边关系特征输入至深度学习模型的第二检测网络,输出与样本结合边关系对应的样本概率;以及训练模块,用于利用样本亲和力检测结果、亲和力检测标签、样本概率和样本结合边关系训练深度学习模型,得到训练后的深度学习模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据本公开实施例提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开实施例提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开实施例提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用分子筛选方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的分子筛选方法的流程图;
图3示意性示出了根据本公开实施例的分子筛选方法的应用场景图;
图4示意性示出了根据本公开实施例的亲和力检测模型的原理图;
图5示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图;
图6示意性示出了根据本公开实施例的深度学习模型的原理图;
图7示意性示出了根据本公开实施例的分子筛选装置的框图;
图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图;以及
图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
药物虚拟筛选系统可以是通过利用计算机模拟技术,对大规模化合物库进行分析,以预测药物分子等待筛选的分子与蛋白质相结合的亲和力的数据分析系统。基于药物虚拟筛选系统可以快速筛选出具有与待匹配的蛋白质分子相匹配的活性潜在分子。而通常构建得到药物虚拟筛选系统的方法存在分子筛选速度较慢,筛选准确性较低等问题,难以应用于针对大规模的待筛选分子库进行筛选。
本公开提供了分子筛选方法、训练方法、装置、电子设备、存储介质以及计算机程序产品。该分子筛选方法包括:从待筛选结合构象集中确定初始结合构象子集,其中,初始结合构象子集包括由初始分子与待匹配的受体对象构建的初始结合构象;对初始结合构象进行结合属性评估,得到结合属性评估结果;根据结合属性评估结果,从初始结合构象子集中确定候选结合构象;基于深度学习算法处理候选结合构象,得到亲和力检测结果;以及根据亲和力检测结果,从候选结合构象中筛选出与待匹配的受体对象相匹配的目标分子。
图1示意性示出了根据本公开实施例的可以应用分子筛选方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用分子筛选方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的分子筛选方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的分子筛选方法一般可以由服务器105执行。相应地,本公开实施例所提供的分子筛选装置一般可以设置于服务器105中。本公开实施例所提供的分子筛选方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的分子筛选装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
或者,本公开实施例所提供的分子筛选方法也可以由终端设备101、102或103执行。相应地,本公开实施例所提供的分子筛选装置也可以设置于终端设备101、102或103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的分子筛选方法的流程图。
如图2所示,该分子筛选方法包括操作S210~S250。
在操作S210,从待筛选结合构象集中确定初始结合构象子集,其中,初始结合构象子集包括由初始分子与待匹配的受体对象构建的初始结合构象。
在操作S220,对初始结合构象进行结合属性评估,得到结合属性评估结果。
在操作S230,根据结合属性评估结果,从初始结合构象子集中确定候选结合构象。
在操作S240,基于深度学习算法处理候选结合构象,得到亲和力检测结果。
在操作S250,根据亲和力检测结果,从候选结合构象中筛选出与待匹配的受体对象相匹配的目标分子。
根据本公开的实施例,待筛选结合构象集中的待筛选结合构象可以是基于待筛选分子与受体对象构成的结合构象,待筛选分子可以是待筛选分子库中的分子数据。待筛选结合构象例如可以是通过采样算法来处理待筛选分子和受体对象后得到的,或者还可以基于其他方式来得到待筛选结合构象,本公开的实施例对获得待筛选结合构象的具体方式不做限定。
根据本公开的实施例,可以是于任意方式从待筛选结合构象集中确定初始结合构象子集。例如可以基于随机采样的方式来确定初始结合构象子集,但不仅限于此,还可以基于对待筛选结合构象进行亲和力评估的方式来从待筛选结合构象集中确定初始结合构象子集。或者还可以基于检测到来自用户的筛选操作的方式来确定与筛选操作对应的初始结合构象子集。本公开的实施例对从待筛选结合构象集中确定初始结合构象子集的具体方式不做限定。
根据本公开的实施例,待匹配的受体对象可以是蛋白质数据,或者还可以是其他有原子构成的受体对象,本公开的实施例对受体对象的具体类型不做限定。
根据本公开的实施例,对初始结合构象进行结合属性评估,可以是对初始结合构象中初始分子与受体对象之间的对接部分进行的结合属性评估。结合属性评估例如可以针对对接部分的作用力、原子距离等结合属性进行评估,得到初始结合构象各自对应的结合属性评估结果。因此可以可根据结合属性评估结果来从初始结合构象子集中确定满足实际需求的候选结合构象,至少去除部分不满足结合属性评估要求的初始结合构象,从而可以减少后续进行亲和力检测的结合构象的数据处理量。同时还可以避免从不满足结合属性评估要求的初始结合构象中确定目标分子,提升后续目标分子筛选的准确率。
需要说明的是,本公开的实施例对结合属性评估的具体评估方式或结合属性的具体类型不做限定,本领域技术人员可以根据实际需求进行选择。
应该理解的是,本公开的实施例对候选结合构象的具体数量不做限定,本领域技术人员可以根据实际需求进行设计。
根据本公开的实施例,基于深度学习算法处理候选结合构象,可以是将候选结合构象输入至深度学习模型中,得到与候选结合构象相对应的亲和力检测结果。深度学习模型可以根据任意类型的深度学习算法构建得到,例如可以根据多层感知器算法构建得到,或者还可以基于图神经网络算法构建得到,本公开的实施例对深度学习算法的具体类型不做限定,本领域技术人员可以根据实际需求进行选择。
根据本公开的实施例,亲和力检测结果可以用于表征候选结合构象中,候选分子与受体对象之间的亲和力水平,进而通过候选结合构象各自对应的亲和力检测结果,可以从候选结合构象中确定满足需求的目标候选结合构象,进而将构成目标候选结合构象的分子确定为目标分子。
根据本公开的实施例,通过从待筛选结合构象集中确定初始结合构象子集,并进一步根据初始结合构象各自的结合属性评估结果来确定候选结合构象,可以筛选得到的候选结合构象在满足结合属性评估要求的同时,减少后续进行亲和力检测的数据处理量,节省计算开销,提升分子筛选效率。同时还可以避免从不满足结合属性评估要求的初始结合构象中确定目标分子,满足用户的个性化筛选需求,提升目标分子筛选的准确率。
下面参考具体实施例结合,图3和图4对图2所示的方法做进一步说明。
根据本公开的实施例,从待筛选结合构象集中确定初始结合构象子集可以包括:基于打分函数处理待筛选结合构象集中的待筛选结合构象,得到待筛选亲和力检测结果;以及根据待筛选结合构象各自对应的待筛选亲和力检测结果,从待筛选结合构象集中确定初始结合构象子集。
根据本公开的实施例,打分函数可以是根据任意类型的方式确定的,例如可以是基于物理力场方式确定的打分函数(如Qvina2、Vina、Glide等),或者还可以是基于深度学习算法确定的打分函数(如Gnina等)。本公开的是实施例对打分函数的具体类型不做限定,本领域技术人员可以根据实际需求进行选择。
根据本公开的实施例,基于打分函数处理待筛选结合构象,可以实现对待筛选结合构象中,待筛选分子与受体对象之间的亲和力属性进行初步评估,从而筛选出于待匹配的受体对象初步匹配的初始分子,减少后续深度学习算法的数据处理规模,提升目标分子的筛选准确率。
根据本公开的实施例,对初始结合构象进行结合属性评估,得到结合属性评估结果可以包括:基于预设结合位置信息,从初始结合构象的初始分子与受体对象之间的初始结合位置中,确定候选结合位置;以及对与候选结合位置对应的结合属性信息进行结合属性评估,得到结合属性评估结果。
根据本公开的实施例,预设结合位置信息可以用于表征初始结合构象中,初始分子与受体对象之间相结合的位置(或称对接的位置)。预设结合位置可以基于预设的结合位置参数来确定,例如可以基于用户设定的预设结合位置参数来确定预设结合位置信息,进而根据预设结合位置信息来确定初始结合构象中的候选结合位置,从而可以实现用户自定义评估初始分子与受体对象之间的相互作用位点。
根据本公开的实施例,可以基于打分函数来对与候选结合位置对应的结合属性信息进行结合属性评估,从而可以根据结合属性评估结果,来个性化地、细粒度地评估初始分子与受体对象在预设的候选结合位置处的结合属性情况,进而提升针对分子与受体对象之间结合情况的评估精度,使筛选得到的目标分子,可以与受体对象之间在预设的结合位置处的亲和力表现效果更好。
在本公开的一个实施例中,受体对象可以是待匹配的蛋白质,初始结合构象中的候选结合位置可以是,初始的药物分子与待匹配的蛋白质在预设的局部氨基酸位点相对接的位置。
根据本公开的实施例,结合属性信息可以包括以下至少一项:氢键属性信息、疏水性属性信息、结合距离属性信息。
根据本公开的实施例,结合距离属性信息可以是候选结合构象中,相互对接的候选原子与受体原子之间的距离。
根据本公开的实施例,通过对氢键属性信息、疏水性属性信息和结合距离属性信息中的任意一项或多项来进行结合属性评估,可以实现从微观角度评估结合构象中的部分结合位置的结合属性,进而实现对结合构象的细粒度评估,以提升结合构象中分子与受体对象之间的评估精准度,进而提升后续目标分子的筛选准确性。
图3示意性示出了根据本公开实施例的分子筛选方法的应用场景图。
如图3所示,该应用场景中可以包含有分子筛选系统300,分子筛系统300可以是基于本公开实施例提供的分子筛选方法构建得到的。
分子筛选系统300可以包括第一筛选模块310、第二筛选模块320、结合属性评估模块330和亲和力检测模块340。
用户可以通过客户端来设置待匹配的受体对象301(例如受体蛋白质分子),并可以从待筛选分子库中选择部分或全部待筛选分子作为待筛选分子集302。分子筛选系统300可以通过通信接口获取到受体对象301和待筛选分子集302,并根据第一筛选模块310来对接受体对象301和待筛选分子集302中的待筛选分子,形成待筛选集合构象集。第一筛选模块310可以是基于Qvina2打分函数算法构建得到的筛选模块,基于第一筛选模块310来对待筛选集合构象集中的待筛选集合构象进行第一次结合构象评分,得到第一次评分结果。例如可以从待筛选结合构象集中选取第一次评分结果中排名前5%的待筛选结合构象,得到第一待筛选结合构象子集。
相应地,第二筛选模块320可以用于处理第一筛选模块310输出的第一待筛选结合构象子集,从而对第一待筛选结合构象子集中的待筛选结合构象进行第二次结合构象评分,得到第二次评分结果。并基于第二次评分结果,从第一待筛选结合构象子集中确定初始结合构象子集。例如可以从第一待筛选结合构象子集中,选取第二次评分结果排名前50%的待筛选结合构象作为初始结合构象,得到初始结合构象子集。
需要说明的是,第一筛选模块310和第二筛选模块320各自的筛选比例参数(如排序前5%、排序前50%)可以是用户通过客户端来设定的,以满足用户的实际筛选需求。通过第一筛选模块310和第二筛选模块320来分别实现针对待处理结合构象集的粗略筛选和精确筛选,可以在满足用户个性化需求的同时,减少结合构象评估的数据量,提升后续目标分子的筛选速度。
在得到初始结合构象子集后,可以判断用户是否选择结合属性评估操作。在判断结果为是的情况下,将初始结合构象子集输入至结合属性评估模块330,并根据与结合属性评估操作对应的预设结合位置信息,从初始结合构象的初始分子与受体对象之间的初始结合位置中,确定候选结合位置,并对与候选结合位置对应的疏水性属性信息、氢键属性信息等结合属性信息进行结合属性评估,以实现根据用户的自定义参数得到的预设结合位置信息,来评估初始分子与受体对象之间的相互作用位点,提升针对初始结合构象的评估精度。
结合属性评估模块330可以基于Open Drug Discovery Toolkit(ODDT)工具包对候选结合构象中,与候选结合位置(氨基酸位点)对应的疏水性属性信息、氢键属性信息等结合属性信息(也可称相互作用约束信息)进行结合属性评估。
根据结合属性评估模块330得到的结合属性评估结果,可以从初始结合构象子集中确定一个或多个候选结合构象,进而可以将一个或多个候选结合构象输入至基于图神经网络算法构建得到的亲和力检测模块340。亲和力检测模块340可以进一步对候选结合构象进行亲和力检测,并根据亲和力检测结果,从多个候选结合构象中确定排序前40%的候选结合构象作为目标结合构象,从而可以将构成目标结合构象的分子作为目标分子向客户端发送分子筛选后得到的目标分子以及目标结合构象,以实现目标分子的精准筛选。
在本公开的另一个实施例中,分子筛选系统300还可以包括数据预处理模块,数据预处理模块可以对与待匹配的受体蛋白质相关的蛋白质pdb文件进行数据预处理,得到标准化的受体对象数据,以提升后续分子筛选的效率和准确性。
通过对本公开实施例中提供的分子筛选方法中,选择确定初始结合构象子集的筛选步骤,可以适应性地提升分子筛选速度。例如,用户可以适应性选择分子筛选系统300中的第一筛选模块310和第二筛选模块320来得到初始结合构象子集,以提升确定目标分子的计算速率。分子筛选系统300的筛选效果可以参考表一所示。
表一
通过表一可知,根据本公开实施例提供的分子筛选方法,可以实现针对分子-蛋白质对接、亲和力构象检测,以及基于结合属性评估为基础的后筛选的一键式分子虚拟筛选流程。同时,本公开实施例提供的分子筛选方法还可以支持高性能分布式并行计算,针对已知靶点结构的蛋白质,可以完成超大规模小分子虚筛库的分子对接和活性预测。
根据本公开的实施例,候选结合构象包括候选结合构象图,候选结合构象图包括构成候选结合构象的候选分子的候选原子节点、候选原子节点之间的候选原子边关系、构成受体对象的受体原子节点和受体原子节点之间的受体原子边关系。
根据本公开的实施例,基于深度学习算法处理候选结合构象,得到亲和力检测结果可以包括:对候选结合构象图的候选原子节点和受体原子节点进行特征提取,得到节点特征;对候选结合构象图的候选原子边关系和受体原子边关系进行特征提取,得到第一边关系特征;融合节点特征和第一边关系特征,得到第一融合特征;融合第一边关系特征和第一融合特征,得到第二融合特征;以及根据第一融合特征和第二融合特征,对候选结合构象进行亲和力检测,得到亲和力检测结果。
根据本公开的实施例,候选结合构象图中,候选原子节点可以用于表征候选分子中的原子,受体原子节点可以表征构成受体对象的受体原子。候选原子边关系可以表示候选分子中,具有关联关系的候选原子之间的距离、化学键等关联属性信息。相应地,受体原子边关系可以表征受体对象中,具有关联关系的受体原子之间的距离、化学键等关联属性信息。
根据本公开的实施例,可以基于神经网络算法对候选结合构象图的候选原子节点和受体原子节点进行特征提取。例如可以基于图编码嵌入网络层来提取得到节点特征。但不仅限于此,还可以基于图像编码的方式来实现对候选原子节点和受体原子节点进行特征提取,本公开的实施例对得到节点特征的具体方式不做限定,本领域技术人员可以根据实际需求进行选择。
根据本公开的实施例,可以基于神经网络算法来融合第一边关系特征和节点特征,例如可以基于图神经网络(Graph Neural Networks,GNN)算法来融合第一边关系特征和节点特征,得到第一融合特征。图神经网络算法可以包括图注意力网络算法、图卷积网络算法等,本公开的实施例对图神经网络算法的具体类型不做限定。
根据本公开的实施例,可以基于N个图神经网络子层来融合第一边关系特征和第一融合特征,其中N为正整数。例如可以基于依序串联排列的多个图神经网络子层来构建得到图神经网络层,进而实现对第一边关系特征和第一融合特征的深度特征融合,以提取到候选结合构象图中节点与边关系之间的关联属性,进而提升后续亲和力检测结果的精准程度。
图4示意性示出了根据本公开实施例的亲和力检测模型的原理图。
如图4所示,候选结合构象图401可以包括表征候选分子的候选分子图像区域4011,以及表征受体对象的受体对象图像区域4012。候选分子图像区域4011中的圆形节点可以是候选原子节点,候选原子节点之间可以具有候选原子边关系。受体对象图像区域4012中的正方形节点可以是受体原子节点,受体原子节点之间可以具有受体原子边关系。
如图4所示,亲和力检测模型400可以包括特征提取网络410和第一检测网络420。特征提取网络410可以包括节点特征提取层411和第一边关系特征提取层412。节点特征提取层411和第一边关系特征提取层412可以基于图嵌入(Graph Embedding)网络层构建得到。第一检测网络420可以包括第一融合层421、第二融合层422和亲和力检测层423。
对候选结合构象图的候选原子节点和受体原子节点进行特征提取,如图所示,可以是将候选结合构象图401输入至节点特征提取层411,输出节点特征N410。对候选结合构象图的候选原子边关系和受体原子边关系进行特征提取,可以是将候选结合构象图401输入至第一边关系特征提取层412,输出第一边关系特征B410。
融合第一边关系特征和节点特征,可以是将第一边关系特征B410和节点特征N410输入至第一融合层421,得到第一融合特征R410。第一融合层421可以是基于图神经网络算法构建得到的。
融合第一边关系特征和第一融合特征,得到第二融合特征,例如可以将第一边关系特征B410和第一融合特征R410输入至第二融合层422,输出第二融合特征R420。第二融合层422可以包含有N个图神经网络融合子层,其中图神经网络融合子层可以基于如下公式(1)至公式(3)构建得到。
公式(1)至公式(3)中,表示候选结合构象图中,与节点v对应的特征,evu表示候选结合构象图中节点v与节点u之间的第一边关系特征,/>表示与节点v相关联的节点u对应的特征,其中,/>和/>可以是第二融合层422的第k-1个图神经网络融合子层输出的第k-1特征。
MLP()表示多层感知器算法,SumAgg()表示累计聚合算法,表示与节点v相关的特征,第k个图神经网络融合子层输出的第k特征,与节点v对应的特征,Linear()表示线性回归算法。u表示候选原子边关系或受体原子边关系,v表示候选原子节点或受体原子节点。其中,k大于1且小于等于N。
应该理解的是,在k=1的情况下,输入至第1个图神经网络融合子层的和/>可以是第一融合特征R410。即第一融合特征R410可以通过与节点对应的特征向量来表征。在k=N的情况下,第N个图神经网络融合子层输出的第k特征/>可以包含于第二融合层422输出的第二融合特征R420。
根据本公开的实施例,根据第一融合特征和第二融合特征,对候选结合构象进行亲和力检测,得到亲和力检测结果可以包括:基于图神经网络算法处理第一融合特征和第二融合特征,得到亲和力检测结果。
如图4所示,可以将第一融合特征R410和第二融合特征R420输入至基于图神经网络算法构建得到的亲和力检测层423,输出亲和力检测结果402。
根据本公开的实施例,可以是将第一融合特征和第二融合特征输入至基于图神经网络算法构建得到的亲和力检测层中,可以在充分融合候选结合构象中节点特征和第一边关系特征的情况下,精确的检测到候选结合构象中候选分子与受体对象之间的亲和力属性,提升后续筛选目标分子的精度。
根据本公开的实施例,可以基于本公开实施例提供的分子筛选方法构建针对蛋白直靶点的小分子药物虚拟筛选平台,以便于相关药物研发人员从具有较大规模的待筛选分子库中确定与待匹配的蛋白质相匹配的药物分子。
在本公开的一个实施例中,用户可以基于客户端来与小分子药物虚拟筛选平台建立通信连接。针对名称为NIK(NF-KB-inducing kinase)的蛋白质来确定相匹配的目标配体(目标分子)。用户可以自定义待筛选配体(待筛选分子)与NIK蛋白质的结合模式,如设定与NIK蛋白质中的特定氨基酸形成氢键等结合模式。进而将初步筛选得到的候选结合构象输入至小分子药物虚拟筛选平台中基于深度学习算法构建得到的亲和力检测模块,得到多个目标分子。
基于本公开实施例提供的分子筛选方法,可以实现从数据规模为包含有15万个待筛选分子的待筛选分子集中,确定排序前100的目标分子,经过分析可以确定100个目标分子中可以成功召回46个活性分子,且减少了分子筛选的时长,提升分子筛选效率。
在本公开的另一个实施例中,可以基于图神经网络算法来构建得到亲和力检测模块,使亲和力检测模块可以从多个候选结合构象中,确定亲和力检测结果排序前100的候选结合构象作为目标结合构象。通过对目标结合构象的靶点位置的富集系数进行评估,可以确定根据本公开实施例提供的分子筛选方法得到的目标分子,与受体对象之间对接准确率有较大幅度地提升,且可以保障分子筛选的耗时较短,提升分子筛选的总和效率。
表二
表二中,F0.1a表示基于候选结合构象中排序前0.1%的目标结合构象计算得到的富集系数,F1b表示基于候选结合构象中排序前1%的目标结合构象计算得到的富集系数,
本公开的实施例还提供了一种深度学习模型的训练方法,基于本公开实施例提供的深度学习模型的训练方法得到的深度学习模型,可以应用于上述实施例中提供的分子筛选方法。
图5示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。
如图5所示,该深度学习模型的训练方法包括操作S510~S550。
在操作S510,获取训练样本,训练样本包括样本结合构象与亲和力检测标签,样本结合构象包括由样本分子和样本受体对象构成的样本结合构象图,样本结合构象图包括样本分子的样本原子节点、样本原子节点之间的样本原子边关系、构成样本受体对象的样本受体原子节点和样本受体原子节点之间的样本受体原子边关系;样本结合构象图还包括样本原子节点和样本受体原子节点之间的样本结合边关系。
在操作S520,将样本结合构象图输入至深度学习模型的特征提取网络,输出样本节点特征、与样本原子边关系或样本受体原子边关系对应的样本第一边关系特征,以及与样本结合边关系对应的样本第二边关系特征。
在操作S530,将样本节点特征和样本第一边关系特征输入至深度学习模型的第一检测网络,输出样本亲和力检测结果。
在操作S540,将样本节点特征和样本第二边关系特征输入至深度学习模型的第二检测网络,输出与样本结合边关系对应的样本概率。
在操作S550,利用样本亲和力检测结果、亲和力检测标签、样本概率和样本结合边关系训练深度学习模型,得到训练后的深度学习模型。
根据本公开的实施例,样本结合边关系可以是表征样本分子与样本受体对象之间的结合情况的边关系。
需要说明的是,本公开实施例提供的深度学习模型的训练方法中,涉及的技术术语(例如样本分子、样本受体对象等),具有与上述实施例中分子筛选方法中涉及的技术术语(例如初始分子、受体对象等),具有相同或相应地技术属性,本公开的实施例对此不再赘述。
需要说明的是,本公开的实施例对样本结合构象图的数量不做限定,例如可以通过同一张样本结合构象图来表征样本分子和样本受体对象各自的内部的边关系,或者样本结合构象图可以包含有样本第一结合构象图和样本第二结合构象图,样本第一结合构象图可以表示样本分子和样本受体对象各自的内部分子结构,样本第一结合构象图可以表示样本分子和样本受体对象之间的对接关系。
图6示意性示出了根据本公开实施例的深度学习模型的原理图。
如图6所示,深度学习模型600可以包括特征提取网络610、第一检测网络620和第二检测网络630。特征提取网络610可以包括节点特征提取层611、第一边关系特征提取层612和第二边关系特征提取层613。第一检测网络620可以包括第一融合层621、第二融合层622和亲和力检测层623,第二检测网络630可以包括第三融合层631、第四融合层632、样本概率检测层633和混合密度网络层634。
训练样本中可以包括样本结合构象图601。样本结合构象图601可以包括表征样本分子的样本分子图像区域6011,以及表征样本受体对象的样本受体对象图像区域6012。样本分子图像区域6011中的圆形节点可以是样本原子节点,样本原子节点之间可以具有候选原子边关系。样本受体对象图像区域6012中的正方形节点可以是样本受体原子节点,样本受体原子节点之间可以具有受体原子边关系。样本分子图像区域6011和样本受体对象图像区域6012之间的虚线,可以表征样本原子节点和所述样本受体原子节点之间的样本结合边关系。
如图6所示,将样本结合构象图输入至深度学习模型的特征提取网络,例如可以是将样本结合构象图601分别输入至节点特征提取层611、第一边关系特征提取层612和第二边关系特征提取层613,输出样本节点特征N610,样本第一边关系特征B610和样本第二边关系特征B620。
如图6所示,将样本节点特征和样本第一边关系特征输入至深度学习模型的第一检测网络,例如可以是将样本节点特征N610和样本第一边关系特征B610输入至第一检测网络620的第一融合层621,输出样本第一融合特征R610。将样本第一融合特征R610和样本第一边关系特征B610输入至第二融合层622,样本第二融合特征R620。样本第二融合特征R620和样本第一融合特征R610输入至亲和力检测层623,输出样本亲和力检测结果。
如图6所示,将样本节点特征和样本第二边关系特征输入至深度学习模型的第二检测网络,例如可以将样本节点特征N610和样本第二边关系特征B620输入至第三融合层631,输出样本第三融合特征R630。将样本第三融合特征R630和样本第二边关系特征B620输入至第四融合层632,输出样本第四融合特征R640。将样本第三融合特征R630和样本第四融合特征R640输入至样本概率检测层633,输出样本概率。
根据本公开的实施例,可以通过样本亲和力检测结果与亲和力检测标签之间的损失值,以及样本概率和样本结合边关系的拟合结果来联合训练深度学习模型,从而使深度学习模型充分学习样本分子内部结构、样本受体对象内部结构,以及样本分子与样本受体对象之间的结合属性或对接模式,从而提升训练后得到的深度学习模型针对亲和力检测结果的检测精度。
根据本公开的实施例,利用样本亲和力检测结果、亲和力检测标签、样本参数和样本结合边关系训练深度学习模型可以包括:基于损失函数处理样本亲和力检测结果和亲和力检测标签,得到损失值;基于样本概率更新当前的混合密度函数的参数,得到更新后的混合密度函数;基于更新后的混合密度函数处理样本结合边关系,得到样本边距离分布值;以及根据损失值和样本边距离分布值调整深度学习模型的模型参数,得到训练后的深度学习模型。
如图6所示,可以将样本概率检测层633输出的样本概率输入至混合密度网络层634,输出样本边距离分布值603。混合密度网络层634可以基于混合密度网络(MixtureDensity Networks,MDN)算法构建得到。
通过样本边距离分布值603,以及样本亲和力检测结果和亲和力检测标签之间的损失值,来联合训练深度学习模型,从而使深度学习模型可以充分地学习样本结合构象图中,样本结合边关系的概率分布,进而使深度学习模型可以充分学习样本原子节点与样本受体原子节点之间的结合属性信息,从而进一步提升训练后的深度学习模型针对亲和力检测的精度。
需要说明的是,图6中提供的深度学习模型600中的第二检测网络630可以具有与第一检测网络620基于相同或相应地算法构建得到。例如第一融合层621可以与第三融合层631可以基于相同的图神经网络算法构建得到。第二融合层622可以与第四融合层632可以基于上述实施例中提供的N个图神经网络融合子层构建得到。样本概率检测层633和亲和力检测层可以基于图神经网络算法构建得到。
本公开实施例中提供的深度学习模型中第一检测网络,可以与上述实施例提供的亲和力检测模型基于相同或相应的算法构建得到,申请人在此不再赘述。
图7示意性示出了根据本公开实施例的分子筛选装置的框图。
如图7所示,分子筛选装置700包括:初始结合构象子集获得模块710、结合属性评估结果获得模块720、候选结合构象获得模块730、亲和力检测结果获得模块740和目标分子获得模块750。
初始结合构象子集获得模块710,用于从待筛选结合构象集中确定初始结合构象子集,其中,初始结合构象子集包括由初始分子与待匹配的受体对象构建的初始结合构象。
结合属性评估结果获得模块720,用于对初始结合构象进行结合属性评估,得到结合属性评估结果。
候选结合构象获得模块730,用于根据结合属性评估结果,从初始结合构象子集中确定候选结合构象。
亲和力检测结果获得模块740,用于基于深度学习算法处理候选结合构象,得到亲和力检测结果。
目标分子获得模块750,用于根据亲和力检测结果,从候选结合构象中筛选出与待匹配的受体对象相匹配的目标分子。
根据本公开的实施例,候选结合构象包括候选结合构象图,候选结合构象图包括构成候选结合构象的候选分子的候选原子节点、候选原子节点之间的候选原子边关系、构成受体对象的受体原子节点和受体原子节点之间的受体原子边关系。
亲和力检测结果获得模块包括:节点特征获得单元、第一边关系特征获得单元、第一融合单元、第二融合单元和亲和力检测结果获得单元。
节点特征获得单元,用于对候选结合构象图的候选原子节点和受体原子节点进行特征提取,得到节点特征。
第一边关系特征获得单元,用于对候选结合构象图的候选原子边关系和受体原子边关系进行特征提取,得到第一边关系特征。
第一融合单元,用于融合节点特征和第一边关系特征,得到第一融合特征。
第二融合单元,用于融合第一边关系特征和第一融合特征,得到第二融合特征。
亲和力检测结果获得单元,用于根据第一融合特征和第二融合特征,对候选结合构象进行亲和力检测,得到亲和力检测结果。
根据本公开的实施例,亲和力检测结果获得单元包括亲和力检测结果获得子单元。
亲和力检测结果获得子单元,用于基于图神经网络算法处理第一融合特征和第二融合特征,得到亲和力检测结果。
根据本公开的实施例,初始结合构象子集获得模块包括:待筛选亲和力检测结果获得单元和初始结合构象子集获得单元。
待筛选亲和力检测结果获得单元,用于基于打分函数处理待筛选结合构象集中的待筛选结合构象,得到待筛选亲和力检测结果。
初始结合构象子集获得单元,用于根据待筛选结合构象各自对应的待筛选亲和力检测结果,从待筛选结合构象集中确定初始结合构象子集。
根据本公开的实施例,结合属性评估结果获得模块包括:候选结合位置获得单元和结合属性评估结果获得单元。
候选结合位置获得单元,用于基于预设结合位置信息,从初始结合构象的初始分子与受体对象之间的初始结合位置中,确定候选结合位置。
结合属性评估结果获得单元,用于对与候选结合位置对应的结合属性信息进行结合属性评估,得到结合属性评估结果。
根据本公开的实施例,结合属性信息包括以下至少一项:氢键属性信息、疏水性属性信息、结合距离属性信息。
图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。
如图8所示,深度学习模型的训练装置800包括:训练样本获取模块810、样本特征提取模块820、样本亲和力检测结果获得模块830、样本概率获得模块840和训练模块850。
训练样本获取模块810,用于获取训练样本,训练样本包括样本结合构象与亲和力检测标签,样本结合构象包括由样本分子和样本受体构成的样本结合构象图,样本结合构象图包括样本分子的样本原子节点、样本原子节点之间的样本原子边关系、构成样本受体对象的样本受体原子节点和样本受体原子节点之间的样本受体原子边关系;样本结合构象图还包括样本原子节点和样本受体原子节点之间的样本结合边关系。
样本特征提取模块820,用于将样本结合构象图输入至深度学习模型的特征提取网络,输出样本节点特征、与样本原子边关系或样本受体原子边关系对应的样本第一边关系特征,以及与样本结合边关系对应的样本第二边关系特征。
样本亲和力检测结果获得模块830,用于将样本节点特征和样本第一边关系特征输入至深度学习模型的第一检测网络,输出样本亲和力检测结果。
样本概率获得模块840,用于将样本节点特征和样本第二边关系特征输入至深度学习模型的第二检测网络,输出与样本结合边关系对应的样本概率。
训练模块850,用于利用样本亲和力检测结果、亲和力检测标签、样本概率和样本结合边关系训练深度学习模型,得到训练后的深度学习模型。
根据本公开的实施例,训练模块包括:损失值获得单元、更新单元、样本边距离分布值获得单元和训练单元。
损失值获得单元,用于基于损失函数处理样本亲和力检测结果和亲和力检测标签,得到损失值。
更新单元,用于基于样本概率更新当前的混合密度函数的参数,得到更新后的混合密度函数。
样本边距离分布值获得单元,用于基于更新后的混合密度函数处理样本结合边关系,得到样本边距离分布值。
训练单元,用于根据损失值和样本边距离分布值调整深度学习模型的模型参数,得到训练后的深度学习模型。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如分子筛选方法、深度学习模型的训练方法。例如,在一些实施例中,分子筛选方法、深度学习模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的分子筛选方法、深度学习模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行分子筛选方法、深度学习模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种分子筛选方法,包括:
从待筛选结合构象集中确定初始结合构象子集,其中,所述初始结合构象子集包括由初始分子与待匹配的受体对象构建的初始结合构象;
对所述初始结合构象进行结合属性评估,得到结合属性评估结果;
根据所述结合属性评估结果,从所述初始结合构象子集中确定候选结合构象;
基于深度学习算法处理所述候选结合构象,得到亲和力检测结果;以及
根据所述亲和力检测结果,从所述候选结合构象中筛选出与所述待匹配的受体对象相匹配的目标分子。
2.根据权利要求1所述的方法,其中,所述候选结合构象包括候选结合构象图,所述候选结合构象图包括构成候选结合构象的候选分子的候选原子节点、所述候选原子节点之间的候选原子边关系、构成所述受体对象的受体原子节点和所述受体原子节点之间的受体原子边关系;
其中,所述基于深度学习算法处理所述候选结合构象,得到亲和力检测结果包括:
对所述候选结合构象图的所述候选原子节点和所述受体原子节点进行特征提取,得到节点特征;
对所述候选结合构象图的所述候选原子边关系和所述受体原子边关系进行特征提取,得到第一边关系特征;
融合所述节点特征和所述第一边关系特征,得到第一融合特征;
融合所述第一边关系特征和所述第一融合特征,得到第二融合特征;以及
根据所述第一融合特征和所述第二融合特征,对所述候选结合构象进行亲和力检测,得到所述亲和力检测结果。
3.根据权利要求2所述的方法,其中,所述根据所述第一融合特征和所述第二融合特征,对所述候选结合构象进行亲和力检测,得到所述亲和力检测结果包括:
基于图神经网络算法处理所述第一融合特征和所述第二融合特征,得到所述亲和力检测结果。
4.根据权利要求1所述的方法,其中,所述从待筛选结合构象集中确定初始结合构象子集包括:
基于打分函数处理所述待筛选结合构象集中的待筛选结合构象,得到待筛选亲和力检测结果;以及
根据所述待筛选结合构象各自对应的待筛选亲和力检测结果,从所述待筛选结合构象集中确定所述初始结合构象子集。
5.根据权利要求1所述的方法,其中,所述对所述初始结合构象进行结合属性评估,得到结合属性评估结果包括:
基于预设结合位置信息,从所述初始结合构象的所述初始分子与所述受体对象之间的初始结合位置中,确定候选结合位置;以及
对与所述候选结合位置对应的结合属性信息进行结合属性评估,得到所述结合属性评估结果。
6.根据权利要求5所述的方法,其中,所述结合属性信息包括以下至少一项:
氢键属性信息、疏水性属性信息、结合距离属性信息。
7.一种深度学习模型的训练方法,包括:
获取训练样本,所述训练样本包括样本结合构象与亲和力检测标签,所述样本结合构象包括由样本分子和样本受体对象构成的样本结合构象图,所述样本结合构象图包括所述样本分子的样本原子节点、所述样本原子节点之间的样本原子边关系、构成所述样本受体对象的样本受体原子节点和所述样本受体原子节点之间的样本受体原子边关系;所述样本结合构象图还包括所述样本原子节点和所述样本受体原子节点之间的样本结合边关系;
将所述样本结合构象图输入至深度学习模型的特征提取网络,输出样本节点特征、与所述样本原子边关系或所述样本受体原子边关系对应的样本第一边关系特征,以及与所述样本结合边关系对应的样本第二边关系特征;
将所述样本节点特征和所述样本第一边关系特征输入至所述深度学习模型的第一检测网络,输出样本亲和力检测结果;
将所述样本节点特征和所述样本第二边关系特征输入至所述深度学习模型的第二检测网络,输出与所述样本结合边关系对应的样本概率;以及
利用所述样本亲和力检测结果、所述亲和力检测标签、所述样本概率和所述样本结合边关系训练所述深度学习模型,得到训练后的深度学习模型。
8.根据权利要求7所述的方法,其中,所述利用所述样本亲和力检测结果、所述亲和力检测标签、所述样本参数和所述样本结合边关系训练所述深度学习模型包括:
基于损失函数处理所述样本亲和力检测结果和所述亲和力检测标签,得到损失值;
基于所述样本概率更新当前的混合密度函数的参数,得到更新后的混合密度函数;
基于所述更新后的混合密度函数处理所述样本结合边关系,得到样本边距离分布值;以及
根据所述损失值和所述样本边距离分布值调整所述深度学习模型的模型参数,得到所述训练后的深度学习模型。
9.一种分子筛选装置,包括:
初始结合构象子集获得模块,用于从待筛选结合构象集中确定初始结合构象子集,其中,所述初始结合构象子集包括由初始分子与待匹配的受体对象构建的初始结合构象;
结合属性评估结果获得模块,用于对所述初始结合构象进行结合属性评估,得到结合属性评估结果;
候选结合构象获得模块,用于根据所述结合属性评估结果,从所述初始结合构象子集中确定候选结合构象;
亲和力检测结果获得模块,用于基于深度学习算法处理所述候选结合构象,得到亲和力检测结果;以及
目标分子获得模块,用于根据所述亲和力检测结果,从所述候选结合构象中筛选出与所述待匹配的受体对象相匹配的目标分子。
10.根据权利要求9所述的装置,其中,所述候选结合构象包括候选结合构象图,所述候选结合构象图包括构成候选结合构象的候选分子的候选原子节点、所述候选原子节点之间的候选原子边关系、构成所述受体对象的受体原子节点和所述受体原子节点之间的受体原子边关系;
其中,所述亲和力检测结果获得模块包括:
节点特征获得单元,用于对所述候选结合构象图的所述候选原子节点和所述受体原子节点进行特征提取,得到节点特征;
第一边关系特征获得单元,用于对所述候选结合构象图的所述候选原子边关系和所述受体原子边关系进行特征提取,得到第一边关系特征;
第一融合单元,用于融合所述节点特征和所述第一边关系特征,得到第一融合特征;
第二融合单元,用于融合所述第一边关系特征和所述第一融合特征,得到第二融合特征;以及
亲和力检测结果获得单元,用于根据所述第一融合特征和所述第二融合特征,对所述候选结合构象进行亲和力检测,得到所述亲和力检测结果。
11.根据权利要求10所述的装置,其中,所述亲和力检测结果获得单元包括:
亲和力检测结果获得子单元,用于基于图神经网络算法处理所述第一融合特征和所述第二融合特征,得到所述亲和力检测结果。
12.根据权利要求9所述的装置,其中,所述初始结合构象子集获得模块包括:
待筛选亲和力检测结果获得单元,用于基于打分函数处理所述待筛选结合构象集中的待筛选结合构象,得到待筛选亲和力检测结果;以及
初始结合构象子集获得单元,用于根据所述待筛选结合构象各自对应的待筛选亲和力检测结果,从所述待筛选结合构象集中确定所述初始结合构象子集。
13.根据权利要求9所述的装置,其中,所述结合属性评估结果获得模块包括:
候选结合位置获得单元,用于基于预设结合位置信息,从所述初始结合构象的所述初始分子与所述受体对象之间的初始结合位置中,确定候选结合位置;以及
结合属性评估结果获得单元,用于对与所述候选结合位置对应的结合属性信息进行结合属性评估,得到所述结合属性评估结果。
14.根据权利要求13所述的装置,其中,所述结合属性信息包括以下至少一项:
氢键属性信息、疏水性属性信息、结合距离属性信息。
15.一种深度学习模型的训练装置,包括:
训练样本获取模块,用于获取训练样本,所述训练样本包括样本结合构象与亲和力检测标签,所述样本结合构象包括由样本分子和样本受体构成的样本结合构象图,所述样本结合构象图包括所述样本分子的样本原子节点、所述样本原子节点之间的样本原子边关系、构成所述样本受体对象的样本受体原子节点和所述样本受体原子节点之间的样本受体原子边关系;所述样本结合构象图还包括所述样本原子节点和所述样本受体原子节点之间的样本结合边关系;
样本特征提取模块,用于将所述样本结合构象图输入至深度学习模型的特征提取网络,输出样本节点特征、与所述样本原子边关系或所述样本受体原子边关系对应的样本第一边关系特征,以及与所述样本结合边关系对应的样本第二边关系特征;
样本亲和力检测结果获得模块,用于将所述样本节点特征和所述样本第一边关系特征输入至所述深度学习模型的第一检测网络,输出样本亲和力检测结果;
样本概率获得模块,用于将所述样本节点特征和所述样本第二边关系特征输入至所述深度学习模型的第二检测网络,输出与所述样本结合边关系对应的样本概率;以及
训练模块,用于利用所述样本亲和力检测结果、所述亲和力检测标签、所述样本概率和所述样本结合边关系训练所述深度学习模型,得到训练后的深度学习模型。
16.根据权利要求15所述的装置,其中,所述训练模块包括:
损失值获得单元,用于基于损失函数处理所述样本亲和力检测结果和所述亲和力检测标签,得到损失值;
更新单元,用于基于所述样本概率更新当前的混合密度函数的参数,得到更新后的混合密度函数;
样本边距离分布值获得单元,用于基于所述更新后的混合密度函数处理所述样本结合边关系,得到样本边距离分布值;以及
训练单元,用于根据所述损失值和所述样本边距离分布值调整所述深度学习模型的模型参数,得到所述训练后的深度学习模型。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至8中任一项所述的方法。
CN202310489389.XA 2023-05-04 2023-05-04 分子筛选方法、训练方法、装置、电子设备以及存储介质 Pending CN116796282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310489389.XA CN116796282A (zh) 2023-05-04 2023-05-04 分子筛选方法、训练方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310489389.XA CN116796282A (zh) 2023-05-04 2023-05-04 分子筛选方法、训练方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116796282A true CN116796282A (zh) 2023-09-22

Family

ID=88047145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310489389.XA Pending CN116796282A (zh) 2023-05-04 2023-05-04 分子筛选方法、训练方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116796282A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117672388A (zh) * 2023-12-08 2024-03-08 苏州腾迈医药科技有限公司 分子试验的运行管理方法及装置、介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117672388A (zh) * 2023-12-08 2024-03-08 苏州腾迈医药科技有限公司 分子试验的运行管理方法及装置、介质

Similar Documents

Publication Publication Date Title
CN110263938B (zh) 用于生成信息的方法和装置
JP2020508521A (ja) ニューラルネットワークアーキテクチャの最適化
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
US20220215899A1 (en) Affinity prediction method and apparatus, method and apparatus for training affinity prediction model, device and medium
CN113705628B (zh) 预训练模型的确定方法、装置、电子设备以及存储介质
CN112857268A (zh) 对象面积测量方法、装置、电子设备和存储介质
CN116796282A (zh) 分子筛选方法、训练方法、装置、电子设备以及存储介质
CN112231592A (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
CN114882321A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN116453221B (zh) 目标对象姿态确定方法、训练方法、装置以及存储介质
CN113239295A (zh) 搜索方法、装置、电子设备以及存储介质
CN113379059A (zh) 用于量子数据分类的模型训练方法以及量子数据分类方法
CN114972877A (zh) 一种图像分类模型训练方法、装置及电子设备
CN113326449B (zh) 预测交通流量的方法、装置、电子设备和介质
CN113449778A (zh) 用于量子数据分类的模型训练方法以及量子数据分类方法
CN114549849A (zh) 图像识别方法、装置、计算机设备和存储介质
CN116932935A (zh) 地址匹配方法、装置、设备、介质和程序产品
CN114429801A (zh) 数据处理方法、训练方法、识别方法、装置、设备及介质
CN113449754B (zh) 标签的匹配模型训练和展示方法、装置、设备及介质
CN114281990A (zh) 文档分类方法及装置、电子设备和介质
CN114548307A (zh) 分类模型训练方法和装置、分类方法和装置
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN113312552A (zh) 数据处理方法、装置、电子设备和介质
CN116127948B (zh) 待标注文本数据的推荐方法、装置及电子设备
CN113361712B (zh) 特征确定模型的训练方法、语义分析方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination