CN114822684B - 一种化合物-靶蛋白绑定关系预测方法及系统 - Google Patents
一种化合物-靶蛋白绑定关系预测方法及系统 Download PDFInfo
- Publication number
- CN114822684B CN114822684B CN202210539056.9A CN202210539056A CN114822684B CN 114822684 B CN114822684 B CN 114822684B CN 202210539056 A CN202210539056 A CN 202210539056A CN 114822684 B CN114822684 B CN 114822684B
- Authority
- CN
- China
- Prior art keywords
- compound
- target protein
- data
- binding
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 79
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 32
- 150000001875 compounds Chemical class 0.000 claims abstract description 125
- 238000013135 deep learning Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 9
- 239000000126 substance Substances 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000002950 deficient Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 229940126680 traditional chinese medicines Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种化合物‑靶蛋白绑定关系预测方法及系统,该方法包括:获取多对靶蛋白‑化合物绑定数据,将绑定关系作为标签构建原始样本数据;根据各化合物信息进行化合物相似度计算,并基于化合物相似度对原始样本数据分类,得到多组靶蛋白‑化合物绑定数据,采用每组靶蛋白‑化合物绑定数据对深度学习网络模型训练,得到多组靶蛋白‑化合物绑定关系预测模型;根据待测数据与原始样本数据化合物相似度,确定待测数据对应靶蛋白‑化合物绑定关系预测模型;通过对应预测模型对待测化合物与待测靶蛋白的绑定关系进行预测。本发明基于待测数据化合物相似度对待测数据分类,构建对应类绑定关系预测模型,降低化合物‑靶蛋白绑定关系预测的假阳性率。
Description
技术领域
本发明涉及医药研发技术领域,特别是涉及一种化合物-靶蛋白绑定关系预测方法及系统。
背景技术
利用现在已有的主流深度学习模型(ANN,CNN,DNN、RNN、LSTM、Transformer以及GAN等),抽取化合物-靶蛋白绑定关系的特征,从而预测新的化合物-靶蛋白绑定关系,对于新药发现/研发和中药作用机理的研究具有重要的现实意义。然而,尽管这些模型可以达到很高的正确率(>90%),但是高企的假阳性率阻止了深度学习模型在该领域的进一步应用。但是,如何进一步降低化合物-靶蛋白绑定关系预测的假阳性率,到目前为止仍是一个世界级的问题。
发明内容
本发明的目的是提供一种化合物-靶蛋白绑定关系预测方法及系统,能够降低化合物-靶蛋白绑定关系预测的假阳性率。
为实现上述目的,本发明提供了如下方案:
本发明提供了一种化合物-靶蛋白绑定关系预测方法,所述方法包括:
获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息;
根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算,确定化合物相似度,并基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;
构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
根据待测数据与原始样本数据的化合物相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据;
通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
可选地,所述“基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据”,具体包括:
选取任意一对靶蛋白-化合物绑定数据作为目标绑定数据;遍历原始样本数据,将与所述目标绑定数据的化合物相似度大于设定阈值的靶蛋白-化合物绑定数据划分为一组。
可选地,所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述长短时记忆网络模块包括3个长短时记忆网络层。
可选地,所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述长短时记忆网络模块包括2个长短时记忆网络层。
可选地,所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述长短时记忆网络模块包括1个长短时记忆网络层。
可选地,在所述根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算之前,还包括:
对所述原始样本数据进行字符串匹配,剔除缺损数据,并将化合物以及靶蛋白序列进行数字化编码。
可选地,使用RDKit工具包根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算。
为实现上述目的,本发明还提供了一种化合物-靶蛋白绑定关系预测系统,所述系统包括:
数据获取单元,用于获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息;
相似度计算和分类单元,用于根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算,确定化合物相似度,并基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;
模型确定单元,用于构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
模型选取单元,用于根据待测数据与原始样本数据的化合物相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据;
预测单元,用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种化合物-靶蛋白绑定关系预测方法及系统,所述方法包括:获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;根据各化合物原子信息、化合物化学键信息进行化合物相似度计算,确定化合物相似度,并基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;然后构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;根据待测数据与原始样本数据的化合物相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。本发明预先基于待测数据的化合物相似度对待测数据进行分类,构建对应类别的靶蛋白-化合物绑定关系预测模型,能够降低化合物-靶蛋白绑定关系预测的假阳性率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明化合物-靶蛋白绑定关系预测方法的流程图;
图2为本发明化合物-靶蛋白绑定关系预测系统的模块结构示意图;
图3为本发明具体实施例中化合物相似度的计算方法示意图。
符号说明:
数据获取单元-1,相似度计算和分类单元-2,模型确定单元-3,模型选取单元-4,预测单元-5。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种化合物-靶蛋白绑定关系预测方法及系统,能够降低化合物-靶蛋白绑定关系预测的假阳性率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供了一种化合物-靶蛋白绑定关系预测方法,所述方法包括以下步骤:
S1:获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息。
S2:根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算,确定化合物相似度,并基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据。
其中,基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据,具体包括:
选取任意一对靶蛋白-化合物绑定数据作为目标绑定数据;遍历原始样本数据,将与所述目标绑定数据的化合物相似度大于设定阈值的靶蛋白-化合物绑定数据划分为一组。若与目标绑定数据的化合物相似度大于设定阈值,则说明两对绑定数据中的化合物属于同一类化合,表明其可以作用于同一类靶蛋白。
S3:构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型。
S4:根据待测数据与原始样本数据的化合物相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据。
S5:通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
可选地,所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述长短时记忆网络模块包括3个长短时记忆网络层。
进一步地,所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述长短时记忆网络模块包括2个长短时记忆网络层。
更进一步地,所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述长短时记忆网络模块包括1个长短时记忆网络层。
进一步地,在步骤S2所述根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算之前,还包括:
S6:对所述原始样本数据进行字符串匹配,剔除缺损数据,并将化合物以及靶蛋白序列进行数字化编码。
具体地,使用RDKit工具包根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算。
为实现上述目的,如图2所示,本发明还提供了一种化合物-靶蛋白绑定关系预测系统,所述系统包括:数据获取单元1、相似度计算和分类单元2、模型确定单元3、模型选取单元4和预测单元5。
数据获取单元1,用于获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息;
相似度计算和分类单元2,用于根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算,确定化合物相似度,并基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;
模型确定单元3,用于构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
模型选取单元4,用于根据待测数据与原始样本数据的化合物相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据;
预测单元5,用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
具体实施例:
1)数据获取:
所有的绑定数据来源于BingdingDB,下载的文件格式为SDF(Structure DataFile),SDF中包含Molfile格式的化合物-靶蛋白绑定数据,每对绑定数据分为三部分:(1)化合物原子信息(2)化合物化学键个数(3)靶蛋白序列信息。
由于其中一部分绑定数据存在信息缺失,比如化合物化学键缺失,靶蛋白序列缺失等,所以需要对原数据进行预处理,将缺失数据删除,留下完整的化合物-靶蛋白绑定数据,此外,还要将非数字表示的化学键、元素和靶蛋白序列编码成数字。原始数据中的化合物-靶蛋白绑定数据作为正样本,它们是人类在科研活动中已经发现的化合物-靶蛋白绑定数据,负样本是在化合物-靶蛋白组合空间中除去化合物-靶蛋白绑定的部分,即非绑定数据,正负样本以1:1输入模型进行训练。
2)化合物相似度计算:
通过计算来自BingdingDB数据库的所有化合物之间的相似度,按照相似度阈值0.5~0.9对BingdingDB数据库的化合物-靶蛋白绑定数据分类,分类方法如图3所示(图中相似度阈值取0.9进行分类)。
其中,RDKit是开源的化学信息Python工具包,它将SMILE格式数据生成RDKit分子对来计算化合物之间的相似度,化合物来源于BingdingDB,下载的文件中有化合物的相关信息,取出对应的SMILE格式数据生成RDKit分子对象,完成化合物相似度计算。
3)提取化合物-靶蛋白绑定特征
I:构建深度学习网络模型,包含:LSTM模块、Attention模块、全连接模块和二分类输出模块。
其中,将原子数据处理为原子行数乘以6~48的二维数组格式,化学键数据处理成化学键行数乘以4~32的二维数组格式,靶蛋白序列处理成行数乘以10~80的二维数组格式,然后输入深度学习网络模型。由于的化合物和靶蛋白长度不定,采用LSTM能够充分提取特征,使用3个1~2层LSTM神经网络,分别提取化合物原子、化合物化学键和靶蛋白序列的特征,将3个LSTM的三维输出按照第一个维度拼接,作为Attention的输入,继续提取化合物-靶蛋白绑定数据的特征,输出的特征是三维的,将三维数据作为全连接模块的输入,全连接模块包含2~5层全连接,每层的全连接单元分别是256~1024,继续提取化合物-靶蛋白绑定数据的特征,最后一层进行绑定预测,使用Softmax函数对全连接输出的数据进行分类,绑定标签使用one-hot格式,[0,1]表示绑定,[1,0]表示不绑定。
II:深度学习网络模型还可以为如下形式,包括:LSTM模块、Attention模块、全连接模块和二分类输出模块。绑定数据处理为化合物信息和靶蛋白信息,分别输入两个1~2层的LSTM神经网络提取化合物和靶蛋白特征,将两个LSTM的三维输出按照第一个维度拼接,作为Attention模块的输入,继续提取化合物-靶蛋白绑定数据的特征,输出的特征是三维的,将三维数据作为全连接模块的输入,全连接模块包含2~5层全连接,每层的全连接单元分别是256~1024,继续提取化合物-靶蛋白绑定数据的特征,最后一层进行绑定预测,使用Softmax函数对全连接输出的数据进行分类。
III.深度学习网络模型还可以为如下形式,包括:LSTM模块、Attention模块、全连接模块和二分类输出模块。绑定数据处理为化合物信息和靶蛋白信息,合起来输入一个1~2层的LSTM神经网络提取化合物-靶蛋白绑定特征,将LSTM的三维输出按照第一个维度拼接,作为Attention模块的输入,继续提取化合物-靶蛋白绑定数据的特征,输出的特征是三维的,将三维数据作为全连接模块的输入,全连接模块包含2~5层全连接,每层的全连接单元分别是256~1024,继续提取化合物-靶蛋白绑定数据的特征,最后一层进行绑定预测,使用Softmax函数对全连接输出的数据进行分类。
进一步地,在本实施例中,BindingDB的所有绑定数据共3279480条,分类结果的前三类绑定数据分别是152496,66717,12708条,将三类数据分别输入对应类别的深度学习模型预测化合物-靶蛋白绑定关系,最优参数组合训练结果如表1:
表1
分类结果 | 化合物 | 靶蛋白 | 绑定数目 | 准确率 | 假阳性率 |
第1类 | 48 | 3177 | 152496 | 99.14% | 0.47% |
第2类 | 21 | 3177 | 66717 | 98.82% | 0.94% |
第3类 | 4 | 3177 | 12708 | 98.80% | 0 |
本发明通过计算化合物之间的相似度将绑定关系数据集按照化合物相似度阈值进行分类,对前三大类数据集利用对应类别的深度学习模型抽取化合物-靶蛋白能够绑定的特征,进行化合物-靶蛋白绑定预测,从而极大压缩生成的化合物-靶蛋白绑定关系数量,解决化合物-靶蛋白绑定关系预测的假阳性高的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种化合物-靶蛋白绑定关系预测方法,其特征在于,所述方法包括:
获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息;
根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算,确定化合物相似度,并基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;
构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
根据待测数据与原始样本数据的化合物相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据;
通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
2.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,所述“基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据”,具体包括:
选取任意一对靶蛋白-化合物绑定数据作为目标绑定数据;遍历原始样本数据,将与所述目标绑定数据的化合物相似度大于设定阈值的靶蛋白-化合物绑定数据划分为一组。
3.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述长短时记忆网络模块包括3个长短时记忆网络层。
4.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述长短时记忆网络模块包括2个长短时记忆网络层。
5.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述长短时记忆网络模块包括1个长短时记忆网络层。
6.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,在所述根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算之前,还包括:
对所述原始样本数据进行字符串匹配,剔除缺损数据,并将化合物以及靶蛋白序列进行数字化编码。
7.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,使用RDKit工具包根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算。
8.一种化合物-靶蛋白绑定关系预测系统,其特征在于,所述系统包括:
数据获取单元,用于获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息;
相似度计算和分类单元,用于根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算,确定化合物相似度,并基于所述化合物相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;
模型确定单元,用于构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
模型选取单元,用于根据待测数据与原始样本数据的化合物相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据;
预测单元,用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539056.9A CN114822684B (zh) | 2022-05-18 | 2022-05-18 | 一种化合物-靶蛋白绑定关系预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539056.9A CN114822684B (zh) | 2022-05-18 | 2022-05-18 | 一种化合物-靶蛋白绑定关系预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114822684A CN114822684A (zh) | 2022-07-29 |
CN114822684B true CN114822684B (zh) | 2024-06-25 |
Family
ID=82516188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210539056.9A Active CN114822684B (zh) | 2022-05-18 | 2022-05-18 | 一种化合物-靶蛋白绑定关系预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114822684B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226702B (zh) * | 2022-09-09 | 2024-04-26 | 武汉中数医疗科技有限公司 | 一种基于生物电阻抗的甲状腺采样数据识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113851195A (zh) * | 2020-06-28 | 2021-12-28 | 中国中医科学院中医临床基础医学研究所 | 一种化合物-靶蛋白绑定预测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210153540A (ko) * | 2020-06-10 | 2021-12-17 | 주식회사 에이조스바이오 | 인공지능 딥러닝을 활용한 표현형 기반 항암 약물 스크리닝 시스템 |
US11264140B1 (en) * | 2020-12-16 | 2022-03-01 | Ro5 Inc. | System and method for automated pharmaceutical research utilizing context workspaces |
US11256994B1 (en) * | 2020-12-16 | 2022-02-22 | Ro5 Inc. | System and method for prediction of protein-ligand bioactivity and pose propriety |
-
2022
- 2022-05-18 CN CN202210539056.9A patent/CN114822684B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113851195A (zh) * | 2020-06-28 | 2021-12-28 | 中国中医科学院中医临床基础医学研究所 | 一种化合物-靶蛋白绑定预测方法 |
Non-Patent Citations (1)
Title |
---|
Protein Sequence Similarities between the Homo Sapiens and Mammal Specie;Guang Zheng et al.;《2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20211212;第1-3页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114822684A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597735A (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN112115265A (zh) | 文本分类中的小样本学习方法 | |
CN116417093A (zh) | 一种结合Transformer和图神经网络的药物靶标相互作用预测方法 | |
CN113688665A (zh) | 一种基于半监督迭代学习的遥感影像目标检测方法及系统 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
CN114822684B (zh) | 一种化合物-靶蛋白绑定关系预测方法及系统 | |
CN117237559B (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN109933682A (zh) | 一种基于语义与内容信息结合的图像哈希检索方法及系统 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN113870846B (zh) | 基于人工智能的语音识别方法、装置及存储介质 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN111382333B (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
CN112016403B (zh) | 一种视频异常事件检测方法 | |
CN114998866A (zh) | 一种基于改进YOLOv4的交通标志识别方法 | |
CN113886602A (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
CN114238738A (zh) | 一种基于注意力机制与双向gru的谣言检测方法 | |
CN110879843B (zh) | 基于机器学习的构建自适应知识图谱技术的方法 | |
CN114974407B (zh) | 一种化合物-靶蛋白绑定关系预测方法及系统 | |
CN112466389A (zh) | 一种基于机器学习算法获取肿瘤标记物的方法和系统 | |
Jia et al. | A Novel Fault Inspection Method of Steel Plate Surface | |
CN114974407A (zh) | 一种化合物-靶蛋白绑定关系预测方法及系统 | |
CN117891961B (zh) | 基于地图产品聚合的数据级联共享方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |