CN114283899A - 一种训练分子结合模型的方法、分子筛选方法及装置 - Google Patents

一种训练分子结合模型的方法、分子筛选方法及装置 Download PDF

Info

Publication number
CN114283899A
CN114283899A CN202111213797.XA CN202111213797A CN114283899A CN 114283899 A CN114283899 A CN 114283899A CN 202111213797 A CN202111213797 A CN 202111213797A CN 114283899 A CN114283899 A CN 114283899A
Authority
CN
China
Prior art keywords
sample
characteristic information
molecule
target
molecules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111213797.XA
Other languages
English (en)
Inventor
卞亚涛
徐挺洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111213797.XA priority Critical patent/CN114283899A/zh
Publication of CN114283899A publication Critical patent/CN114283899A/zh
Priority to EP22882454.6A priority patent/EP4303878A1/en
Priority to PCT/CN2022/116095 priority patent/WO2023065838A1/zh
Priority to US18/195,744 priority patent/US20230274797A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

本申请提供一种训练分子结合模型的方法、分子筛选方法及装置,可以应用于智能医疗领域,用于解决分子筛选准确性较低的问题。该方法包括:采用待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定样本蛋白质分子与样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息,其中,嵌入特征信息用于表征样本蛋白质分子与样本备选分子之间的结合程度,共晶特征信息用于表征样本蛋白质分子和样本备选分子之间是否存在共晶结构,待训练的分子结合模型用于预测;基于结合活性特征信息、嵌入特征信息和共晶特征信息,确定待训练的分子结合模型的训练损失。

Description

一种训练分子结合模型的方法、分子筛选方法及装置
技术领域
本申请涉及生物医药技术领域,尤其涉及一种训练分子结合模型的方法、分子筛选方法及装置。
背景技术
随着科技的不断发展,越来越多的设备可以采用活性预测模型,预测分子虚拟结合后的化合物的结合活性,从而,可以基于预测出的化合物的结合活性,筛选出一些分子进行真实的药物结合实验。
在对分子虚拟结合后的化合物的结合活性进行预测时,通常活性预测模型是基于特征提取模型提取出的分子的化学性质特征,或分子自身的结构特性来进行预测的。
然而,在分子结合过程中,并不是简单的将两个分子放在一起,分子之间可能还存在相互作用等一些难以预知的情况,仅从分子自身角度出发,预测出的分子虚拟结合后的化合物的结合活性准确性较低,从而造成分子筛选的准确性较低。
发明内容
本申请实施例提供一种训练分子结合模型的方法、分子筛选方法、装置、计算机设备及存储介质,用于解决分子筛选准确性较低的问题。
第一方面,提供一种训练分子结合模型的方法,包括:
获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息;
基于各个蛋白质特征信息和各个分子特征信息,对待训练的分子结合模型进行多轮迭代训练,直到所述待训练的分子结合模型的训练损失满足训练目标时,输出所述待训练的分子结合模作为目标分子结合模型,其中,针对多轮迭代训练,分别执行以下操作:
采用所述待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定所述样本蛋白质分子与所述样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息,其中,所述结合活性特征信息用于表征所述样本蛋白质分子与所述样本备选分子进行虚拟结合后的活性,所述嵌入特征信息用于表征所述样本蛋白质分子与所述样本备选分子之间的结合程度,所述共晶特征信息用于表征所述样本蛋白质分子和所述样本备选分子之间是否存在共晶结构,所述待训练的分子结合模型用于预测;
基于所述结合活性特征信息、所述嵌入特征信息和所述共晶特征信息,确定所述待训练的分子结合模型的训练损失。
第二方面,提供一种分子筛选方法,包括:
获得目标蛋白质分子和目标备选分子;
采用特征提取模型,对所述目标蛋白质分子和所述目标备选分子进行特征提取处理,获得所述目标蛋白质分子的目标蛋白质特征信息和所述目标备选分子的目标分子特征信息;
采用所述目标分子结合模型,基于所述目标蛋白质特征信息和所述目标分子特征信息,确定所述目标蛋白质分子和所述目标备选分子之间的结合活性特征信息;
采用活性预测模型,基于结合活性特征信息,预测所述目标蛋白质分子和所述目标备选分子进行虚拟结合后的活性值。
第三方面,提供一种训练分子结合模型的装置,包括:
获取模块:用于获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息;
处理模块:用于基于各个蛋白质特征信息和各个分子特征信息,对待训练的分子结合模型进行多轮迭代训练,直到所述待训练的分子结合模型的训练损失满足训练目标时,输出所述待训练的分子结合模作为目标分子结合模型,其中,针对多轮迭代训练,分别执行以下操作:
采用所述待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定所述样本蛋白质分子与所述样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息,其中,所述结合活性特征信息用于表征所述样本蛋白质分子与所述样本备选分子进行虚拟结合后的活性,所述嵌入特征信息用于表征所述样本蛋白质分子与所述样本备选分子之间的结合程度,所述共晶特征信息用于表征所述样本蛋白质分子和所述样本备选分子之间是否存在共晶结构,所述待训练的分子结合模型用于预测;
基于所述结合活性特征信息、所述嵌入特征信息和所述共晶特征信息,确定所述待训练的分子结合模型的训练损失。
可选的,所述获取模块具体用于:
获得训练样本集合,其中,所述训练样本集合包括各个训练样本,每个训练样本包括样本蛋白质分子和样本备选分子;
采用特征提取模型,分别对所述各个训练样本进行特征提取处理,获得各个样本蛋白质分子各自的蛋白质特征信息,以及各个样本备选分子各自的分子特征信息。
可选的,所述获取模块具体用于:
针对所述各个训练样本,分别执行以下操作:
基于训练样本中的样本蛋白质分子,确定所述样本蛋白质分子的邻接矩阵,其中,所述样本蛋白质分子的邻接矩阵用于表征所述样本蛋白质分子包含的各个样本氨基酸分子,以及每两个样本氨基酸分子之间的分子结构距离;
基于所述训练样本中的样本备选分子,确定所述样本备选分子的邻接矩阵,其中,所述样本备选分子的邻接矩阵用于表征所述样本备选分子包含的各个样本备选原子,以及,所述各个样本备选原子之间的化学键结构;
分别对所述样本蛋白质分子的邻接矩阵和所述样本备选分子的邻接矩阵进行特征提取处理,获得所述样本蛋白质分子的蛋白质特征信息,以及所述样本备选分子的分子特征信息。
可选的,所述处理模型具体用于:
基于所述蛋白质特征信息和所述分子特征信息,预测所述样本蛋白质分子与所述样本备选分子进行虚拟结合后,所述样本蛋白质分子包含的各个样本氨基酸分子,与所述样本备选分子包含的各个样本备选原子之间的结合距离;
基于获得的各个结合距离,确定所述样本蛋白质分子与所述样本备选分子之间的嵌入特征信息和共晶特征信息。
可选的,所述处理模块具体用于:
基于指定样本氨基酸分子与各个样本备选原子之间取值最小的结合距离,确定所述样本蛋白质分子与所述样本备选分子之间的嵌入特征信息;
基于各个样本氨基酸分子、各个样本备选原子和各个氨基酸分子与各个样本备选原子之间的结合距离,确定所述样本蛋白质分子与所述样本备选分子之间的共晶特征信息。
可选的,所述处理模块具体用于:
基于所述嵌入特征信息与嵌入目标之间的第一误差值,确定所述待训练的分子结合模型的第一训练损失;
基于所述共晶特征信息与共晶目标之间的第二误差值,确定所述待训练的分子结合模型的第二训练损失;
基于所述结合活性特征信息与活性目标之间的第三误差值,确定所述待训练的分子结合模型的第三训练损失;
基于获得的第一训练损失、第二训练损失和第三训练损失,确定所述待训练的分子结合模型的训练损失。
所述处理模块具体用于:
采用已训练的邻居匹配模型,对所述样本蛋白质分子包含的各个样本氨基酸分子,与所述样本备选分子包含的各个样本备选原子进行匹配,获得所述样本蛋白质分子与所述样本备选分子之间的匹配特征信息,作为所述共晶目标,其中,所述匹配特征信息用于表征所述各个样本氨基酸分子,与所述各个样本备选原子之间的匹配距离。
采用交叉熵函数,确定所述共晶特征信息与所述共晶目标之间的第二误差值;
将所述第二误差值作为所述待训练的分子结合模型的第二训练损失。
可选的,所述处理模块具体用于:
采用活性预测模型,基于所述结合活性特征信息,预测所述样本蛋白质分子与所述样本备选分子进行虚拟结合后的样本活性值;
基于所述样本活性值与相应参考活性值之间的第三误差值,确定所述待训练的分子结合模型的第三训练损失。
可选的,所述处理模块还用于:
确定所述待训练的分子结合模型的训练损失不满足所述训练目标,调整所述待训练的分子结合模型的模型参数;
确定所述待训练的分子结合模型的训练损失满足训练目标时,将所述待训练的分子结合模型输出作为所述已训练的目标分子结合模型。
可选的,所述处理模块具体用于:
若获得的训练损失包括第一训练损失、第二训练损失和第三训练损失,所述第一训练损失是基于嵌入特征信息确定的,所述第二训练损失是基于共晶特征信息确定的,所述第三训练损失是基于结合活性特征信息确定的,则分别确定所述第一训练损失是否收敛、所述第二训练损失是否收敛,以及,所述第三训练损失是否收敛;
若在所述第一训练损失、所述第二训练损失和所述第三训练损失中,存在至少一个训练损失不收敛,则调整所述待训练的分子结合模型的模型参数。
第四方面,提供一种分子筛选装置,包括:
获取模块:用于获得目标蛋白质分子和目标备选分子;
处理模块:用于采用特征提取模型,对所述目标蛋白质分子和所述目标备选分子进行特征提取处理,获得所述目标蛋白质分子的目标蛋白质特征信息和所述目标备选分子的目标分子特征信息;
所述处理模块还用于:采用所述目标分子结合模型,基于所述目标蛋白质特征信息和所述目标分子特征信息,确定所述目标蛋白质分子和所述目标备选分子之间的结合活性特征信息;
所述处理模块还用于:采用活性预测模型,基于结合活性特征信息,预测所述目标蛋白质分子和所述目标备选分子进行虚拟结合后的活性值。
第五方面,提供一种计算机设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面所述的方法。
第六方面,提供一种计算机可读存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的方法。
本申请实施例中,在获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息之后,基于各个蛋白质特征信息和各个分子特征信息,进一步获得样本蛋白质分子与样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息,基于结合活性特征信息、嵌入特征信息和共晶特征信息,来训练分子结合模型,从多种特征信息的角度,来训练分子结合模型,使得活性预测模型在对分子虚拟结合后的结合活性进行预测时,不仅考虑蛋白质特征信息和分子特征信息包含的分子的化学性质特征,或分子自身的结构特性,还考虑了分子间的嵌入特性和共晶特性等分子之间的相互作用情况,使得活性预测模型在基于分子结合模型预测出的活性值更加准确。
附图说明
图1为本申请实施例提供的训练分子结合模型的方法的一种原理示意图一;
图2为本申请实施例提供的训练分子结合模型的方法的一种应用场景;
图3为本申请实施例提供的训练分子结合模型的方法的一种流程示意图一;
图4a为本申请实施例提供的训练分子结合模型的方法的一种分子结构示意图一;
图4b为本申请实施例提供的训练分子结合模型的方法的一种分子结构示意图二;
图4c为本申请实施例提供的训练分子结合模型的方法的一种原理示意图二;
图4d为本申请实施例提供的训练分子结合模型的方法的一种原理示意图三;
图4e为本申请实施例提供的训练分子结合模型的方法的一种原理示意图四;
图5a为本申请实施例提供的训练分子结合模型的方法的一种流程示意图二;
图5b为本申请实施例提供的训练分子结合模型的方法的一种分子结构示意图三;
图5c为本申请实施例提供的训练分子结合模型的方法的一种分子结构示意图四;
图5d为本申请实施例提供的训练分子结合模型的方法的一种分子结构示意图五;
图5e为本申请实施例提供的训练分子结合模型的方法的一种分子结构示意图六;
图6为本申请实施例提供的训练分子结合模型的方法的一种原理示意图五;
图7为本申请实施例提供的分子筛选方法的一种流程示意图三;
图8为本申请实施例提供的训练分子结合模型的装置的一种结构示意图一;
图9为本申请实施例提供的分子筛选装置的一种结构示意图二;
图10为本申请实施例提供的训练分子结合模型的装置或分子筛选装置的一种结构示意图三。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
下面对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)半抑制浓度IC50和pIC50:
IC50也可以称为半抑制率,对指定的生物过程抑制一半时所需的药物或者抑制剂的浓度。pIC50与IC50存在一定数学关系,pIC50为对IC50取对数后的相反数。
(2)蛋白质分子和分子:
蛋白质分子是生命的物质基础,是有机大分子,是构成细胞的基本有机物,是生命活动的主要承担者,氨基酸分子是蛋白质分子的基本组成单位。
分子是由原子组成,原子按照一定的键合顺序和空间排列而结合在一起,键合顺序和空间排列关系就是分子结构。
本申请实施例涉及人工智能技术(Artificial Intelligence,AI)。基于人工智能技术中的计算机视觉技术(Computer Vision,CV)和机器学习(Machine Learning,ML)等而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
计算机视觉技术计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
下面对本申请实施例提供的训练分子结合模型的方法的应用领域进行简单介绍。
随着科技的不断发展,越来越多的设备可以采用活性预测模型,预测分子虚拟结合后的化合物的结合活性,从而,可以基于预测出的化合物的结合活性,筛选出一些分子进行真实的药物结合实验,避免进行一些不必要的药物结合实验,造成资源浪费的情况。
在对分子虚拟结合后的化合物的结合活性进行预测时,通常活性预测模型是基于特征提取模型提取出的分子的化学性质特性,或基于分子自身的结构特性,来进行预测两个分子之间的结合活性。
然而,在分子结合过程中,并不是简单的将两个分子放在一起,分子之间可能还存在相互作用等一些难以预知的情况,仅从分子自身角度出发,预测出的两个分子虚拟结合后的化合物的结合活性,准确性较低,从而造成分子筛选的准确性较低。从而会产生一些有必要进行结合的分子没有被筛选出来进行药物结合实验,而一些没有必要结合的分子却被筛选出来进行药物结合实验,不仅会造成资源浪费,还会影响药物研发进度。
为了解决分子筛选准确性较低的问题,本申请提出一种训练分子结合模型的方法。请参考图1,该方法获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息。基于各个蛋白质特征信息和各个分子特征信息,对待训练的分子结合模型进行多轮迭代训练,直到待训练的分子结合模型的训练损失满足训练目标时,输出待训练的分子结合模作为目标分子结合模型。
其中,针对多轮迭代训练,分别执行以下操作:采用待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定样本蛋白质分子与样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息,其中,结合活性特征信息用于表征样本蛋白质分子与样本备选分子进行虚拟结合后的活性,嵌入特征信息用于表征样本蛋白质分子与样本备选分子之间的结合程度,共晶特征信息用于表征样本蛋白质分子和样本备选分子之间是否存在共晶结构,待训练的分子结合模型用于预测,基于结合活性特征信息、嵌入特征信息和共晶特征信息,确定待训练的分子结合模型的训练损失。
本申请实施例中,在获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息之后,基于各个蛋白质特征信息和各个分子特征信息,进一步获得样本蛋白质分子与样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息,基于结合活性特征信息、嵌入特征信息和共晶特征信息,来训练分子结合模型,从多种特征信息的角度,来训练分子结合模型,使得活性预测模型在对分子虚拟结合后的结合活性进行预测时,不仅考虑蛋白质特征信息和分子特征信息包含的分子的化学性质特征,或分子自身的结构特性,还考虑了分子间的嵌入特性和共晶特性等分子之间的相互作用情况,使得活性预测模型在基于分子结合模型预测出的活性值更加准确。
下面对本申请提供的训练分子结合模型的方法的应用场景进行说明。
请参考图2,为本申请实施例提供的训练分子结合模型的方法的一种应用场景。该应用场景中包括客户端101和服务端102。客户端101和服务端102之间可以通信,通信方式可以是采用有线通信技术进行通信,例如通过连接网线或串口线进行通信;也可以是采用无线通信技术进行通信,例如通过蓝牙或无线保真(wireless fidelity,WIFI)等技术进行通信,具体不做限制。
客户端101泛指可以指示服务端102进行训练分子结合模型或分子筛选的设备,例如,终端设备、终端设备可以访问的第三方应用程序或终端设备可以访问的网页等。终端设备包括但不限于手机、电脑、智能医疗设备、智能电器等。服务端102泛指可以训练分子结合模型或进行分子筛选的设备,例如,终端设备或服务器等。服务器包括但不限于云服务器、本地服务器或关联的第三方服务器等。客户端101和服务端102均可以采用云计算,以减少本地计算资源的占用;同样也可以采用云存储,以减少本地存储资源的占用。
作为一种实施例,客户端101和服务端102可以是同一个设备,本申请实施例中,以客户端101和服务端102分别为不同的设备为例进行介绍。
下面基于图2,对本申请实施例提供的训练分子结合模型的方法进行具体介绍,以客户端101为目标客户端,服务端102为服务器为例。
请参考图3,为本申请实施例提供的训练分子结合模型的方法的流程示意图。
S301,获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息。
服务器可以接收其他设备发送的各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息,也可以分别对各个样本蛋白质分子和各个样本备选分子进行特征提取处理,获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息等,具体不做限制。请参考图4a,为样本蛋白质分子的一种可能的结构示意图。请参考图4b,为样本备选分子的一种可能的结构示意图。
本申请实施例以服务器采用特征提取模型提取各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息为例进行介绍。
服务器可以先获得训练样本集合,训练样本集合包括各个训练样本,每个训练样本包括样本蛋白质分子和样本备选分子。
服务器可以基于数据库提取出进行过药物结合实验的各个样本蛋白质分子和各个样本备选分子,从而获得训练样本集合;还可以在网络资源中查找进行过药物结合实验的各个样本蛋白质分子和各个样本备选分子,从而获得训练样本集合,具体不对获得训练样本集合的方法进行限制。
服务器在获得训练样本集合之后,可以采用特征提取模型,分别对各个训练样本进行特征提取处理,获得各个样本蛋白质分子各自的蛋白质特征信息,以及各个样本备选分子各自的分子特征信息。特征提取模型用于对分子进行特征提取处理,获得分子的结构信息。特征提取模型服务器可以将样本蛋白质分子和样本备选分子各自的三维立体结构图输入特征提取模型,分别对各个训练样本进行特征提取处理;还可以将样本蛋白质分子和样本备选分子各自的多角度二维平面结构图输入特征提取模型,分别对各个训练样本进行特征提取处理等,具体不做限制。
作为一种实施例,服务器在采用特征提取模型,分别对各个训练样本进行特征提取处理时,可以通过邻接矩阵进行计算,以针对一个训练样本进行特征提取处理的过程进行介绍,针对其他训练样本进行特征提取处理的过程类似,在此不再赘述。
服务器基于训练样本中的样本蛋白质分子,确定样本蛋白质分子的邻接矩阵,请参考图4c,样本蛋白质分子的邻接矩阵用于表征样本蛋白质分子包含的各个样本氨基酸分子,以及每两个样本氨基酸分子之间的分子结构距离。在确定样本蛋白质分子的邻接矩阵时,服务器可以基于样本蛋白质分子包含的各个样本氨基酸分子,以及,每两个样本氨基酸分子之间的分子结构距离,确定样本蛋白质分子的邻接矩阵;还可以基于各个样本氨基酸分子,以及,大于预设的距离阈值的分子结构距离,建立样本蛋白质分子的邻接矩阵;还可以以各个样本氨基酸分子为顶点,在确定样本蛋白质分子中,每两个样本氨基酸分子之间的分子结构距离之后,判断各个分子结构距离是否大于预设的距离阈值,以大于预设的距离阈值的分子结构距离,建立相应的两个样本氨基酸分子之间的边,从而可以获得样本蛋白质分子对应的顶点与顶点之间边的关系图。服务器基于获得的关系图,建立样本蛋白质分子的邻接矩阵等,具体不做限制。
服务器基于训练样本中的样本备选分子,确定样本备选分子的邻接矩阵,请参考图4d,样本备选分子的邻接矩阵用于表征样本备选分子包含的各个样本备选原子,以及,各个样本备选原子之间的化学键结构。在确定样本备选分子的邻接矩阵时,服务器可以基于样本备选分子包含的各个样本备选原子,以及各个样本备选原子之间的化学键结构,确定样本备选分子的邻接矩阵;还可以基于各个样本备选原子,以及化学键结构中样本备选原子之间的化学键,建立样本备选分子的邻接矩阵;还可以以各个样本备选原子为顶点,以样本备选原子之间的化学键为边,可以获得样本备选原子对应的顶点与顶点之间边的关系图。服务器基于获得的关系图,建立样本备选分子的邻接矩阵等,具体不做限制。
服务器分别对样本蛋白质分子的邻接矩阵和样本备选分子的邻接矩阵进行特征提取处理,请参考图4e,获得样本蛋白质分子的蛋白质特征信息,以及样本备选分子的分子特征信息。
S302,基于各个蛋白质特征信息和各个分子特征信息,对待训练的分子结合模型进行多轮迭代训练,直到所述待训练的分子结合模型的训练损失满足训练目标时,输出所述待训练的分子结合模作为目标分子结合模型。
在获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息之后,服务器可以基于各个蛋白质特征信息和各个分子特征信息,对待训练的分子结合模型进行多轮迭代训练,每轮迭代训练过程类似,下面针对一轮迭代训练的过程进行介绍,请参考图5a。
S501,采用待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定样本蛋白质分子与样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息。
服务器在获得蛋白质特征信息和分子特征信息之后,可以采用待训练的分子结合模型,预测样本蛋白质分子与样本备选分子之间的结合活性特征信息,结合活性特征信息为预测样本蛋白质分子与样本备选分子进行虚拟结合后的结合活性特征。同时,服务器还可以采用待训练的分子结合模型,预测样本蛋白质分子与样本备选分子之间的嵌入特征信息和共晶特征信息,基于嵌入特征信息和共晶特征信息,对分子结合模型进行训练,使得分子结合模型能够具有识别分子间虚拟结合后的嵌入关系和共晶结构的性能,从而在预测分子间虚拟结合后的结合活性特征信息时,可以预测出更加准确地结合活性特征信息,在活性预测模型基于分子结合模型获得的结合活性特征信息,预测活性值时,可以获得更加准确的结合活性。
下面对采用待训练的分子结合模型,预测样本蛋白质分子与样本备选分子之间的嵌入特征信息和共晶特征信息的过程进行介绍。
服务器可以基于蛋白质特征信息和分子特征信息,预测样本蛋白质分子与样本备选分子进行虚拟结合后,样本蛋白质分子包含的各个样本氨基酸分子,与样本备选分子包含的各个样本备选原子之间的结合距离。服务器可以基于获得的各个结合距离,确定样本蛋白质分子与样本备选分子之间的嵌入特征信息和共晶特征信息。
作为一种实施例,指定样本氨基酸分子的残基可以结合样本备选原子的空腔,形成嵌入关系,因此,服务器可以基于各个结合距离,确定嵌入特征信息,再通过图匹配的方式,为待训练的分子结合模型引入监督信息,使得已训练的分子结合模型具有识别分子间嵌入特征的性能,提高基于已训练的目标分子结合模型,预测分子间虚拟结合后的结合活性的准确性。
服务器在获得样本蛋白质分子包含的各个样本氨基酸分子,与样本备选分子包含的各个样本备选原子之间的结合距离之后,可以基于指定样本氨基酸分子与各个样本备选原子之间取值最小的结合距离,确定样本蛋白质分子与样本备选分子之间的嵌入特征信息。指定样本氨基酸分子可以是样本蛋白质分子中具有靶向性的样本氨基酸分子,也可以是根据场景指定的样本氨基酸分子等,具体不做限制。通过将指定样本氨基酸分子与各个样本备选原子之间取值最小的结合距离,训练稳定到最小值,使得样本氨基酸分子的残基与相应样本备选原子的空腔结合,形成嵌入关系。请参考图5b,为嵌入关系的一种结构示意图,样本备选分子完全嵌入在样本蛋白质分子中。请参考图5c,为嵌入关系的一种结构示意图,样本备选分子部分嵌入在样本蛋白质分子中。
作为一种实施例,如果样本氨基酸分子与样本备选原子之间匹配,那么样本氨基酸分子与样本备选原子之间存在共晶结构,因此,服务器可以基于各个结合距离,确定共晶特征信息,再通过邻居匹配的方式,为待训练的分子结合模型引入监督信息,使得已训练的分子结合模型具有识别分子间共晶特征的性能,提高基于已训练的目标分子结合模型,预测分子间虚拟结合后的结合活性的准确性。
服务器在获得样本蛋白质分子包含的各个样本氨基酸分子,与样本备选分子包含的各个样本备选原子之间的结合距离之后,可以基于各个样本氨基酸分子、各个样本备选原子和各个样本氨基酸分子之间的结合距离,确定样本蛋白质分子与样本备选分子之间的共晶特征信息,共晶特征信息可以以邻接矩阵的形式表示。通过将相匹配的样本备选原子和样本氨基酸分子之间的结合距离,训练稳定到接近于共晶目标,使得相匹配的样本备选原子和样本氨基酸分子之间,形成共晶结构,请参考图5d,为共晶结构的一种结构示意图,请参考图5e,为共晶结构的一种结构示意图。
S502,基于结合活性特征信息、嵌入特征信息和共晶特征信息,确定待训练的分子结合模型的训练损失。
服务器在获得结合活性特征信息、嵌入特征信息和共晶特征信息之后,可以基于结合活性特征信息、嵌入特征信息和共晶特征信息,确定待训练的分子结合模型的训练损失,基于训练损失对待训练的分子结合模型进行训练。
服务器可以对结合活性特征信息、嵌入特征信息和共晶特征信息进行加权融合处理,获得融合特征信息,并通过融合特征信息与训练目标之间的误差值,确定待训练的分子结合模型的训练损失。
服务器还可以基于嵌入特征信息与嵌入目标之间的第一误差值,确定待训练的分子结合模型的第一训练损失,基于共晶特征信息与共晶目标之间的第二误差值,确定待训练的分子结合模型的第二训练损失,基于结合活性特征信息与活性目标之间的第三误差值,确定待训练的分子结合模型的第三训练损失,基于获得的第一训练损失、第二训练损失和第三训练损失,确定待训练的分子结合模型的训练损失。服务器可以基于第一训练损失、第二训练损失和第三训练损失的加权和,确定待训练的分子结合模型的训练损失;还可以直接将第一训练损失、第二训练损失和第三训练损失,确定为待训练的分子结合模型的训练损失等。
作为一种实施例,服务器可以通过图匹配模型,确定嵌入特征信息表征的指定样本氨基酸分子与相应样本备选原子之间的结合距离,与参考结合距离之间的第一误差值。服务器基于第一误差值确定待训练的分子结合模型的第一训练损失。其中,参考结合距离可以从PDBbind数据集中获取。
作为一种实施例,邻居匹配模型由于功能较为单一,训练数据较多,因此训练起来比较容易,采用已训练的邻居匹配模型获得的匹配矩阵的准确性已经达到较高的水平。此时,可以采用已训练的邻居匹配模型,确定共晶目标。服务器可以采用已训练的邻居匹配模型,对样本蛋白质分子包含的各个样本氨基酸分子,与样本备选分子包含的各个样本备选原子进行匹配,获得样本蛋白质分子与样本备选分子之间的匹配特征信息,作为共晶目标,其中,匹配特征信息用于表征各个样本氨基酸分子,与各个样本备选原子之间的匹配距离。服务器可以采用交叉熵函数,确定共晶特征信息与共晶目标之间的第二误差值,将第二误差值作为待训练的分子结合模型的第二训练损失。其中,已训练的邻居匹配模型可以是基于PDBbind数据集中的数据训练得到的,交叉熵函数可以替换为其他函数,具体不做限制。
作为一种实施例,训练样本集合包含的各个训练样本中,除了包含样本蛋白质分子和样本备选分子,还可以包括样本蛋白质分子和样本备选分子进行虚拟结合后的参考活性值,参考活性值用于表征样本蛋白质分子和样本备选分子进行药物结合实验后真实的活性。如果样本蛋白质分子和样本备选分子是根据药物结合实验获得的,那么参考活性值是根据样本蛋白质分子和样本备选分子药物结合实验的实验结果获得的。如果样本蛋白质分子和样本备选分子是从网络资源中获得的,那么参考活性值也是从相应的网络资源中获得等,具体不做限制。其中,训练样本集合可以从PDBbind数据集中获取。
服务器可以采用活性预测模型,基于结合活性特征信息,预测样本蛋白质分子与样本备选分子进行虚拟结合后的样本活性值,基于样本活性值与相应参考活性值之间的第三误差值,确定待训练的分子结合模型的第三训练损失。
服务器可以分别判断第一训练损失是否满足第一训练目标,第二训练损失是否满足第二训练目标,第三训练损失是否满足第三训练目标。在第一训练损失、第二训练损失和第三训练损失均满足各自对应的训练目标时,确定待训练的分子结合模型的训练损失满足训练目标。
作为一种实施例,训练目标可以是预先设定的目标误差值,也可以是收敛状态,具体不做限制。在获得第一训练损失、第二训练损失和第三训练损失之后,可以分别确定第一训练损失是否收敛、第二训练损失是否收敛,以及,第三训练损失是否收敛,从而确定待训练的分子结合模型的训练损失是否满足训练目标。在第一训练损失、第二训练损失和第三训练损失均收敛时,确定待训练的分子结合模型的训练损失满足训练目标。
S503,确定获得的训练损失不满足训练目标时,调整待训练的分子结合模型的模型参数。
如果获得的训练损失不满足训练目标,说明待训练的分子结合模型的预测能力还不够准确,还需要进一步训练,当前的模型参数还需要进一步调整,那么调整待训练的分子结合模型的模型参数。
作为一种实施例,如果在第一训练损失、第二训练损失和第三训练损失中,存在至少一个训练损失不收敛,那么确定获得的训练损失不满足训练目标,调整待训练的分子结合模型的模型参数。
S504,确定获得的训练损失满足预设的训练目标时,将待训练的分子结合模型输出作为已训练的目标分子结合模型。
如果获得的训练损失满足训练目标,说明待训练的分子结合模型的预测能力已经较为准确,当前的模型参数可以不再进行调整,那么将待训练的分子结合模型输出作为已训练的目标分子结合模型。
作为一种实施例,待训练的分子结合模型可以采用梯度训练的方式,结合活性信息可以包含pIC50。
本申请实施例中的训练过程,以端到端的形式实现,不需要进行人为的子问题划分,而是完全交给模型直接学习从原始数据到期望输出的映射,提高了训练模型的智能化程度,避免了人为参与时,由于无法预知的情况带来的降低训练出的模型预测准确性较低的问题。
在获得目标分子结构模型之后,服务器可以结合特征提取模型,目标分子结构模型和活性预测模型,预测目标蛋白质分子和目标备选分子进行虚拟结合后的结合活性。服务器在获得目标蛋白质分子和目标备选分子之后,采用特征提取模型分别对目标蛋白质分子和目标备选分子进行特征提取,获得目标蛋白质特征信息和目标分子特征信息。服务器基于目标蛋白质特征信息和目标分子特征信息,采用目标分子结构模型,获得目标蛋白质分子和目标备选分子进行虚拟结合后的结合活性特征信息。服务器基于结合活性特征信息,采用活性预测模型,预测目标蛋白质分子和目标备选分子进行虚拟结合后的活性值。
下面对本申请实施例提供的训练分子结合模型的方法进行示例介绍,请参考图6。
服务器获得样本蛋白质分子和样本备选分子,采用特征提取模型,分别确定样本蛋白质分子的邻接矩阵和样本备选分子的邻接矩阵,采用特征提取模型,分别对样本蛋白质分子的邻接矩阵和样本备选分子的邻接矩阵进行特征提取处理,获得蛋白质特征信息和分子特征信息。
服务器采用待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定样本蛋白质分子与样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息;基于图匹配,获得嵌入特征信息与嵌入目标之间的第一误差值;基于邻居匹配,获得共晶目标与共晶目标之间的第二误差值;服务器采用活性预测模型,基于结合活性特征信息,获得样本活性值,通过训练样本,获得参考活性值,确定样本活性值与参考活性值之间的第三误差值。
服务器基于第一误差值确定待训练的分子结合模型的第一训练损失,基于第二误差值确定待训练的分子结合模型的第二训练损失,基于第三误差值确定待训练的分子结合模型的第三训练损失。
服务器确定各个训练损失存在不收敛的训练损失时,确定待训练的分子结合模型的训练损失不收敛,对待训练的分子结合模型进行参数调整;确定训练损失均收敛时,确定待训练的分子结合模型的训练损失收敛,将待训练的分子结合模型输出,获得已训练分子结合模型。
基于同一发明构思,本申请实施例提供一种分子筛选方法,采用前文介绍的训练分子结合模型的方法训练得到的目标分子结合模型进行分子筛选,请参考图7,为一种分子筛选方法的流程示意图。
S701,获得目标蛋白质分子和目标备选分子。
在进行分子筛选时,可以先获得目标蛋白质分子和目标备选分子。获得目标蛋白质分子和目标备选分子的方法有多种,作为一种实施例,目标客户端可以响应于目标对象触发的分子选择操作,获得目标蛋白质分子和目标备选分子。目标客户端向服务器发送目标蛋白质分子和目标备选分子,服务器可以接收目标客户端发送的目标蛋白质分子和目标备选分子。
作为一种实施例,服务器中可以预先设置有蛋白质分子集合和备选分子集合,服务器在进行分子筛选时,可以在蛋白质分子集合中选择一个蛋白质分子作为目标蛋白质分子,在备选分子集合中选择一个备选分子作为目标备选分子。服务器在蛋白质分子集合或备选分子集合中选择时,可以是随机选择,也可以是基于集合中包含的分子的属性信息,按照预设的选择策略进行选择等,具体不做限制。
S702,采用特征提取模型,对目标蛋白质分子和目标备选分子进行特征提取处理,获得目标蛋白质分子的目标蛋白质特征信息和目标备选分子的目标分子特征信息。
S703,采用已训练的目标分子结合模型,基于目标蛋白质特征信息和目标分子特征信息,确定目标蛋白质分子和目标备选分子之间的结合活性特征信息。
已训练的目标分子结合模型可以是由其他设备训练好之后,发送给服务器,服务器接收其他设备发送的已训练的目标分子结合模型,也可以是服务器对待训练的分子结合模型获得的已训练的目标分子结合模型,具体不做限制。
S704,采用活性预测模型,基于结合活性特征信息,预测目标蛋白质分子和目标备选分子进行虚拟结合后的活性值。
在获得虚拟目标化合物,以及虚拟目标化合物对应的虚拟目标嵌入信息和虚拟目标共晶信息之后,服务器采用目标分子结构模型,基于虚拟目标化合物、虚拟目标嵌入信息和虚拟目标共晶信息,获得虚拟目标化合物对应的预测活性信息。该过程与前文介绍的采用待训练的分子结合模型,基于样本化合物、样本嵌入信息和样本共晶信息,获得样本化合物对应的样本活性信息的过程类似,在此不再赘述。
S705,基于预测标活性信息和预设的分子筛选条件,确定是否选择目标蛋白质分子和目标备选分子进行组合。
在获得预测标活性信息之后,服务器可以基于预测标活性信息和预设的分子筛选条件,确定是否选择目标蛋白质分子和目标备选分子进行组合。预设的分子筛选条件可以是预设的活性阈值,在预测标活性信息大于或等于预设的活性阈值时,选择目标蛋白质分子和目标备选分子进行组合;在预测标活性信息小于预设的活性阈值时,不选择目标蛋白质分子和目标备选分子进行组合。
预设的分子筛选条件还可以是预设的排序序号,在获得每组目标蛋白质分子和目标备选分子的预测标活性信息之后,对各个预测标活性信息包含的活性值按照由大到小的顺序进行排序,选择排在预设的排序序号之前的目标蛋白质分子和目标备选分子进行组合。
基于同一发明构思,本申请实施例提供一种训练分子结合模型的装置,该装置相当于前文论述的服务器,能够实现前述的训练分子结合模型的方法对应的功能。请参考图8,该装置包括获取模块801和处理模块802,其中:
获取模块801:用于获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息;
处理模块802:用于基于各个蛋白质特征信息和各个分子特征信息,对待训练的分子结合模型进行多轮迭代训练,直到待训练的分子结合模型的训练损失满足训练目标时,输出待训练的分子结合模作为目标分子结合模型,其中,针对多轮迭代训练,分别执行以下操作:
采用待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定样本蛋白质分子与样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息,其中,结合活性特征信息用于表征样本蛋白质分子与样本备选分子进行虚拟结合后的活性,嵌入特征信息用于表征样本蛋白质分子与样本备选分子之间的结合程度,共晶特征信息用于表征样本蛋白质分子和样本备选分子之间是否存在共晶结构,待训练的分子结合模型用于预测;
基于结合活性特征信息、嵌入特征信息和共晶特征信息,确定待训练的分子结合模型的训练损失。
在一种可能的实施例中,获取模块801具体用于:
获得训练样本集合,其中,训练样本集合包括各个训练样本,每个训练样本包括样本蛋白质分子和样本备选分子;
采用特征提取模型,分别对各个训练样本进行特征提取处理,获得各个样本蛋白质分子各自的蛋白质特征信息,以及各个样本备选分子各自的分子特征信息。
在一种可能的实施例中,获取模块801具体用于:
针对各个训练样本,分别执行以下操作:
基于训练样本中的样本蛋白质分子,确定样本蛋白质分子的邻接矩阵,其中,样本蛋白质分子的邻接矩阵用于表征样本蛋白质分子包含的各个样本氨基酸分子,以及每两个样本氨基酸分子之间的分子结构距离;
基于训练样本中的样本备选分子,确定样本备选分子的邻接矩阵,其中,样本备选分子的邻接矩阵用于表征样本备选分子包含的各个样本备选原子,以及,各个样本备选原子之间的化学键结构;
分别对样本蛋白质分子的邻接矩阵和样本备选分子的邻接矩阵进行特征提取处理,获得样本蛋白质分子的蛋白质特征信息,以及样本备选分子的分子特征信息。
在一种可能的实施例中,处理模型具体用于:
基于蛋白质特征信息和分子特征信息,预测样本蛋白质分子与样本备选分子进行虚拟结合后,样本蛋白质分子包含的各个样本氨基酸分子,与样本备选分子包含的各个样本备选原子之间的结合距离;
基于获得的各个结合距离,确定样本蛋白质分子与样本备选分子之间的嵌入特征信息和共晶特征信息。
在一种可能的实施例中,处理模块802具体用于:
基于指定样本氨基酸分子与各个样本备选原子之间取值最小的结合距离,确定样本蛋白质分子与样本备选分子之间的嵌入特征信息;
基于各个样本氨基酸分子、各个样本备选原子和各个氨基酸分子与各个样本备选原子之间的结合距离,确定样本蛋白质分子与样本备选分子之间的共晶特征信息。
在一种可能的实施例中,处理模块802具体用于:
基于嵌入特征信息与嵌入目标之间的第一误差值,确定待训练的分子结合模型的第一训练损失;
基于共晶特征信息与共晶目标之间的第二误差值,确定待训练的分子结合模型的第二训练损失;
基于结合活性特征信息与活性目标之间的第三误差值,确定待训练的分子结合模型的第三训练损失;
基于获得的第一训练损失、第二训练损失和第三训练损失,确定待训练的分子结合模型的训练损失。
处理模块802具体用于:
采用已训练的邻居匹配模型,对样本蛋白质分子包含的各个样本氨基酸分子,与样本备选分子包含的各个样本备选原子进行匹配,获得样本蛋白质分子与样本备选分子之间的匹配特征信息,作为共晶目标,其中,匹配特征信息用于表征各个样本氨基酸分子,与各个样本备选原子之间的匹配距离。
采用交叉熵函数,确定共晶特征信息与共晶目标之间的第二误差值;
将第二误差值作为待训练的分子结合模型的第二训练损失。
在一种可能的实施例中,处理模块802具体用于:
采用活性预测模型,基于结合活性特征信息,预测样本蛋白质分子与样本备选分子进行虚拟结合后的样本活性值;
基于样本活性值与相应参考活性值之间的第三误差值,确定待训练的分子结合模型的第三训练损失。
在一种可能的实施例中,处理模块802还用于:
确定待训练的分子结合模型的训练损失不满足训练目标,调整待训练的分子结合模型的模型参数;
确定待训练的分子结合模型的训练损失满足训练目标时,将待训练的分子结合模型输出作为已训练的目标分子结合模型。
在一种可能的实施例中,处理模块802具体用于:
若获得的训练损失包括第一训练损失、第二训练损失和第三训练损失,第一训练损失是基于嵌入特征信息确定的,第二训练损失是基于共晶特征信息确定的,第三训练损失是基于结合活性特征信息确定的,则分别确定第一训练损失是否收敛、第二训练损失是否收敛,以及,第三训练损失是否收敛;
若在第一训练损失、第二训练损失和第三训练损失中,存在至少一个训练损失不收敛,则调整待训练的分子结合模型的模型参数。
基于同一发明构思,本申请实施例提供一种分子筛选装置,该装置相当于前文论述的服务器,能够实现前述的分子筛选方法对应的功能。请参考图9,该装置包括获取模块901和处理模块902,其中:
获取模块901:用于获得目标蛋白质分子和目标备选分子;
处理模块902:用于采用特征提取模型,对目标蛋白质分子和目标备选分子进行特征提取处理,获得目标蛋白质分子的目标蛋白质特征信息和目标备选分子的目标分子特征信息;
处理模块902还用于:采用目标分子结合模型,基于目标蛋白质特征信息和目标分子特征信息,确定目标蛋白质分子和目标备选分子之间的结合活性特征信息;
处理模块902还用于:采用活性预测模型,基于结合活性特征信息,预测目标蛋白质分子和目标备选分子进行虚拟结合后的活性值。
基于同一发明构思,本申请实施例提供一种计算机设备,下面对该计算机设备1000进行介绍。
请参照图10,上述训练分子结合模型的装置或分子筛选装置可以运行在计算机设备1000上,数据存储程序的当前版本和历史版本以及数据存储程序对应的应用软件可以安装在计算机设备1000上,该计算机设备1000包括显示单元1040、处理器1080以及存储器1020,其中,显示单元1040包括显示面板1041,用于显示由用户交互操作界面等。
在一种可能的实施例中,可以采用液晶显示器(Liquid Crystal Display,LCD)或有机发光二极管OLED(Organic Light-Emitting Diode)等形式来配置显示面板1041。
处理器1080用于读取计算机程序,然后执行计算机程序定义的方法,例如处理器1080读取数据存储程序或文件等,从而在该计算机设备1000上运行数据存储程序,在显示单元1040上显示对应的界面。处理器1080可以包括一个或多个通用处理器,还可包括一个或多个DSP(Digital Signal Processor,数字信号处理器),用于执行相关操作,以实现本申请实施例所提供的技术方案。
存储器1020一般包括内存和外存,内存可以为随机存储器(RAM),只读存储器(ROM),以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器1020用于存储计算机程序和其他数据,该计算机程序包括各客户端对应的应用程序等,其他数据可包括操作系统或应用程序被运行后产生的数据,该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1020中,处理器1080执行存储其中1020中的程序指令,实现前文图论述的任意的一种训练分子结合模型的方法或分子筛选方法。
上述显示单元1040用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势,以及产生与计算机设备1000的用户设置以及功能控制有关的信号输入等。具体地,本申请实施例中,该显示单元1040可以包括显示面板1041。显示面板1041例如触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板1041上或在显示面板1041的操作),并根据预先设定的程式驱动相应的连接装置。
在一种可能的实施例中,显示面板1041可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测玩家的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。
其中,显示面板1041可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1040,计算机设备1000还可以包括输入单元1030,输入单元1030可以包括图形输入设备1031和其他输入设备1032,其中其他输入设备可以但不限于包括物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
除以上之外,计算机设备1000还可以包括用于给其他模块供电的电源1090、音频电路1060、近场通信模块1070和RF电路109。计算机设备1000还可以包括一个或多个传感器1050,例如加速度传感器、光传感器、压力传感器等。音频电路1060具体包括扬声器1061和麦克风1062等,例如计算机设备1000可以通过麦克风1062采集用户的声音,进行相应的操作等。
作为一种实施例,处理器1080的数量可以是一个或多个,处理器1080和存储器1020可以是耦合设置,也可以是相对独立设置。
作为一种实施例,图10中的处理器1080可以用于实现如图8中的获取模块801和处理模块802的功能,也可以用于实现如图9中的获取模块901和处理模块902的功能。
作为一种实施例,图10中的处理器1080可以用于实现前文论述的服务端102对应的功能。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种训练分子结合模型的方法,其特征在于,包括:
获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息;
基于各个蛋白质特征信息和各个分子特征信息,对待训练的分子结合模型进行多轮迭代训练,直到所述待训练的分子结合模型的训练损失满足训练目标时,输出所述待训练的分子结合模作为目标分子结合模型,其中,针对多轮迭代训练,分别执行以下操作:
采用所述待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定所述样本蛋白质分子与所述样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息,其中,所述结合活性特征信息用于表征所述样本蛋白质分子与所述样本备选分子进行虚拟结合后的活性,所述嵌入特征信息用于表征所述样本蛋白质分子与所述样本备选分子之间的结合程度,所述共晶特征信息用于表征所述样本蛋白质分子和所述样本备选分子之间是否存在共晶结构,所述待训练的分子结合模型用于预测;
基于所述结合活性特征信息、所述嵌入特征信息和所述共晶特征信息,确定所述待训练的分子结合模型的训练损失。
2.根据权利要求1所述的方法,其特征在于,获得各个样本蛋白质分子的蛋白质特征信息,以及获得各个样本备选分子的分子特征信息,包括:
获得训练样本集合,其中,所述训练样本集合包括各个训练样本,每个训练样本包括样本蛋白质分子和样本备选分子;
采用特征提取模型,分别对所述各个训练样本进行特征提取处理,获得各个样本蛋白质分子各自的蛋白质特征信息,以及各个样本备选分子各自的分子特征信息。
3.根据权利要求2所述的方法,其特征在于,采用特征提取模型,分别对所述各个训练样本进行特征提取处理,获得各个样本蛋白质分子各自的蛋白质特征信息,以及各个样本备选分子各自的分子特征信息,包括:
针对所述各个训练样本,分别执行以下操作:
基于训练样本中的样本蛋白质分子,确定所述样本蛋白质分子的邻接矩阵,其中,所述样本蛋白质分子的邻接矩阵用于表征所述样本蛋白质分子包含的各个样本氨基酸分子,以及每两个样本氨基酸分子之间的分子结构距离;
基于所述训练样本中的样本备选分子,确定所述样本备选分子的邻接矩阵,其中,所述样本备选分子的邻接矩阵用于表征所述样本备选分子包含的各个样本备选原子,以及,所述各个样本备选原子之间的化学键结构;
分别对所述样本蛋白质分子的邻接矩阵和所述样本备选分子的邻接矩阵进行特征提取处理,获得所述样本蛋白质分子的蛋白质特征信息,以及所述样本备选分子的分子特征信息。
4.根据权利要求1所述的方法,其特征在于,采用所述待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定所述样本蛋白质分子与所述样本备选分子之间的嵌入特征信息和共晶特征信息,包括:
基于所述蛋白质特征信息和所述分子特征信息,预测所述样本蛋白质分子与所述样本备选分子进行虚拟结合后,所述样本蛋白质分子包含的各个样本氨基酸分子,与所述样本备选分子包含的各个样本备选原子之间的结合距离;
基于获得的各个结合距离,确定所述样本蛋白质分子与所述样本备选分子之间的嵌入特征信息和共晶特征信息。
5.根据权利要求4所述的方法,其特征在于,基于获得的各个结合距离,确定所述样本蛋白质分子与所述样本备选分子之间的嵌入特征信息和共晶特征信息,包括:
基于指定样本氨基酸分子与各个样本备选原子之间取值最小的结合距离,确定所述样本蛋白质分子与所述样本备选分子之间的嵌入特征信息;
基于各个样本氨基酸分子、各个样本备选原子和各个氨基酸分子与各个样本备选原子之间的结合距离,确定所述样本蛋白质分子与所述样本备选分子之间的共晶特征信息。
6.根据权利要求1所述的方法,其特征在于,基于所述结合活性特征信息、所述嵌入特征信息和所述共晶特征信息,确定所述待训练的分子结合模型的训练损失,包括:
基于所述嵌入特征信息与嵌入目标之间的第一误差值,确定所述待训练的分子结合模型的第一训练损失;
基于所述共晶特征信息与共晶目标之间的第二误差值,确定所述待训练的分子结合模型的第二训练损失;
基于所述结合活性特征信息与活性目标之间的第三误差值,确定所述待训练的分子结合模型的第三训练损失;
基于获得的第一训练损失、第二训练损失和第三训练损失,确定所述待训练的分子结合模型的训练损失。
7.根据权利要求6所述的方法,其特征在于,基于所述共晶特征信息与共晶目标之间的第二误差值,确定所述待训练的分子结合模型的第二训练损失,包括:
采用已训练的邻居匹配模型,对所述样本蛋白质分子包含的各个样本氨基酸分子,与所述样本备选分子包含的各个样本备选原子进行匹配,获得所述样本蛋白质分子与所述样本备选分子之间的匹配特征信息,作为所述共晶目标,其中,所述匹配特征信息用于表征所述各个样本氨基酸分子,与所述各个样本备选原子之间的匹配距离;
采用交叉熵函数,确定所述共晶特征信息与所述共晶目标之间的第二误差值;
将所述第二误差值作为所述待训练的分子结合模型的第二训练损失。
8.根据权利要求1所述的方法,其特征在于,每个训练样本还包括样本蛋白质分子和样本备选分子进行虚拟结合后的参考活性值,则基于所述结合活性特征信息与活性目标之间的第三误差值,确定所述待训练的分子结合模型的第三训练损失,包括:
采用活性预测模型,基于所述结合活性特征信息,预测所述样本蛋白质分子与所述样本备选分子进行虚拟结合后的样本活性值;
基于所述样本活性值与相应参考活性值之间的第三误差值,确定所述待训练的分子结合模型的第三训练损失。
9.根据权利要求1所述的方法,其特征在于,在基于所述结合活性特征信息、所述嵌入特征信息和所述共晶特征信息,确定所述待训练的分子结合模型的训练损失之后,还包括:
确定所述待训练的分子结合模型的训练损失不满足所述训练目标,调整所述待训练的分子结合模型的模型参数;
确定所述待训练的分子结合模型的训练损失满足训练目标时,将所述待训练的分子结合模型输出作为所述已训练的目标分子结合模型。
10.根据权利要求9所述的方法,其特征在于,确定所述待训练的分子结合模型的训练损失不满足所述训练目标,调整所述待训练的分子结合模型的模型参数,包括:
若获得的训练损失包括第一训练损失、第二训练损失和第三训练损失,所述第一训练损失是基于嵌入特征信息确定的,所述第二训练损失是基于共晶特征信息确定的,所述第三训练损失是基于结合活性特征信息确定的,则分别确定所述第一训练损失是否收敛、所述第二训练损失是否收敛,以及,所述第三训练损失是否收敛;
若在所述第一训练损失、所述第二训练损失和所述第三训练损失中,存在至少一个训练损失不收敛,则调整所述待训练的分子结合模型的模型参数。
11.一种分子筛选方法,其特征在于,目标分子结合模型是基于权利要求1~10所述的方法训练得到的,包括:
获得目标蛋白质分子和目标备选分子;
采用特征提取模型,对所述目标蛋白质分子和所述目标备选分子进行特征提取处理,获得所述目标蛋白质分子的目标蛋白质特征信息和所述目标备选分子的目标分子特征信息;
采用所述目标分子结合模型,基于所述目标蛋白质特征信息和所述目标分子特征信息,确定所述目标蛋白质分子和所述目标备选分子之间的结合活性特征信息;
采用活性预测模型,基于结合活性特征信息,预测所述目标蛋白质分子和所述目标备选分子进行虚拟结合后的活性值。
12.一种训练分子结合模型的装置,其特征在于,包括:
获取模块:用于获得各个样本蛋白质分子各自的蛋白质特征信息,以及获得各个样本备选分子各自的分子特征信息;
处理模块:用于基于各个蛋白质特征信息和各个分子特征信息,对待训练的分子结合模型进行多轮迭代训练,直到所述待训练的分子结合模型的训练损失满足训练目标时,输出所述待训练的分子结合模作为目标分子结合模型,其中,针对多轮迭代训练,分别执行以下操作:
采用所述待训练的分子结合模型,基于蛋白质特征信息和分子特征信息,确定所述样本蛋白质分子与所述样本备选分子之间的结合活性特征信息、嵌入特征信息和共晶特征信息,其中,所述结合活性特征信息用于表征所述样本蛋白质分子与所述样本备选分子进行虚拟结合后的活性,所述嵌入特征信息用于表征所述样本蛋白质分子与所述样本备选分子之间的结合程度,所述共晶特征信息用于表征所述样本蛋白质分子和所述样本备选分子之间是否存在共晶结构,所述待训练的分子结合模型用于预测;
基于所述结合活性特征信息、所述嵌入特征信息和所述共晶特征信息,确定所述待训练的分子结合模型的训练损失。
13.一种分子筛选装置,其特征在于,包括:
获取模块:用于获得目标蛋白质分子和目标备选分子;
处理模块:用于采用特征提取模型,对所述目标蛋白质分子和所述目标备选分子进行特征提取处理,获得所述目标蛋白质分子的目标蛋白质特征信息和所述目标备选分子的目标分子特征信息;
所述处理模块还用于:采用所述目标分子结合模型,基于所述目标蛋白质特征信息和所述目标分子特征信息,确定所述目标蛋白质分子和所述目标备选分子之间的结合活性特征信息;
所述处理模块还用于:采用活性预测模型,基于结合活性特征信息,预测所述目标蛋白质分子和所述目标备选分子进行虚拟结合后的活性值。
14.一种计算机设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1~11中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1~11中任一项所述的方法。
CN202111213797.XA 2021-10-19 2021-10-19 一种训练分子结合模型的方法、分子筛选方法及装置 Pending CN114283899A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202111213797.XA CN114283899A (zh) 2021-10-19 2021-10-19 一种训练分子结合模型的方法、分子筛选方法及装置
EP22882454.6A EP4303878A1 (en) 2021-10-19 2022-08-31 Method for training molecular binding model, molecular screening method and apparatus, computer device, and storage medium
PCT/CN2022/116095 WO2023065838A1 (zh) 2021-10-19 2022-08-31 训练分子结合模型的方法、分子筛选方法、装置、计算机设备及存储介质
US18/195,744 US20230274797A1 (en) 2021-10-19 2023-05-10 Methods for training molecular binding models, methods for screening molecules, apparatuses, computer devices and storage media

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111213797.XA CN114283899A (zh) 2021-10-19 2021-10-19 一种训练分子结合模型的方法、分子筛选方法及装置

Publications (1)

Publication Number Publication Date
CN114283899A true CN114283899A (zh) 2022-04-05

Family

ID=80868691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111213797.XA Pending CN114283899A (zh) 2021-10-19 2021-10-19 一种训练分子结合模型的方法、分子筛选方法及装置

Country Status (4)

Country Link
US (1) US20230274797A1 (zh)
EP (1) EP4303878A1 (zh)
CN (1) CN114283899A (zh)
WO (1) WO2023065838A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023065838A1 (zh) * 2021-10-19 2023-04-27 腾讯科技(深圳)有限公司 训练分子结合模型的方法、分子筛选方法、装置、计算机设备及存储介质
CN117423379A (zh) * 2023-12-19 2024-01-19 合肥微观纪元数字科技有限公司 采用量子计算的分子筛选方法及相关装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200342953A1 (en) * 2019-04-29 2020-10-29 International Business Machines Corporation Target molecule-ligand binding mode prediction combining deep learning-based informatics with molecular docking
CN111445945A (zh) * 2020-03-20 2020-07-24 北京晶派科技有限公司 一种小分子活性预测方法、装置和计算设备
CN111816252B (zh) * 2020-07-21 2021-08-31 腾讯科技(深圳)有限公司 一种药物筛选方法、装置及电子设备
CN113409883B (zh) * 2021-06-30 2022-05-03 北京百度网讯科技有限公司 信息预测及信息预测模型的训练方法、装置、设备及介质
CN114283899A (zh) * 2021-10-19 2022-04-05 腾讯科技(深圳)有限公司 一种训练分子结合模型的方法、分子筛选方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023065838A1 (zh) * 2021-10-19 2023-04-27 腾讯科技(深圳)有限公司 训练分子结合模型的方法、分子筛选方法、装置、计算机设备及存储介质
CN117423379A (zh) * 2023-12-19 2024-01-19 合肥微观纪元数字科技有限公司 采用量子计算的分子筛选方法及相关装置
CN117423379B (zh) * 2023-12-19 2024-03-15 合肥微观纪元数字科技有限公司 采用量子计算的分子筛选方法及相关装置

Also Published As

Publication number Publication date
US20230274797A1 (en) 2023-08-31
EP4303878A1 (en) 2024-01-10
WO2023065838A1 (zh) 2023-04-27

Similar Documents

Publication Publication Date Title
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
WO2021227726A1 (zh) 面部检测、图像检测神经网络训练方法、装置和设备
EP3853764A1 (en) Training neural networks for vehicle re-identification
CN110472531A (zh) 视频处理方法、装置、电子设备及存储介质
CN114331829A (zh) 一种对抗样本生成方法、装置、设备以及可读存储介质
CN114283899A (zh) 一种训练分子结合模型的方法、分子筛选方法及装置
CN113449700B (zh) 视频分类模型的训练、视频分类方法、装置、设备及介质
CN114283316A (zh) 一种图像识别方法、装置、电子设备和存储介质
CN110866469A (zh) 一种人脸五官识别方法、装置、设备及介质
CN113254491A (zh) 一种信息推荐的方法、装置、计算机设备及存储介质
CN112132866A (zh) 目标对象跟踪方法、装置、设备及计算机可读存储介质
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN111898561A (zh) 一种人脸认证方法、装置、设备及介质
CN112749558A (zh) 一种目标内容获取方法、装置、计算机设备和存储介质
CN113569607A (zh) 动作识别方法、装置、设备以及存储介质
CN112419326A (zh) 图像分割数据处理方法、装置、设备及存储介质
CN112995757B (zh) 视频剪裁方法及装置
CN113033507B (zh) 场景识别方法、装置、计算机设备和存储介质
CN104541304A (zh) 使用多个相机的目标对象角度确定
CN111429414B (zh) 基于人工智能的病灶影像样本确定方法和相关装置
Hu et al. Teacher-student architecture for knowledge distillation: A survey
CN112686300B (zh) 一种数据处理方法、装置及设备
CN112667864B (zh) 图对齐方法、装置、电子设备及存储介质
CN116824686A (zh) 一种动作识别方法和相关装置
CN114283460A (zh) 一种特征提取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40067592

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination