CN114974407A - 一种化合物-靶蛋白绑定关系预测方法及系统 - Google Patents
一种化合物-靶蛋白绑定关系预测方法及系统 Download PDFInfo
- Publication number
- CN114974407A CN114974407A CN202210539057.3A CN202210539057A CN114974407A CN 114974407 A CN114974407 A CN 114974407A CN 202210539057 A CN202210539057 A CN 202210539057A CN 114974407 A CN114974407 A CN 114974407A
- Authority
- CN
- China
- Prior art keywords
- target protein
- compound
- data
- protein
- binding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 160
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 160
- 150000001875 compounds Chemical class 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013135 deep learning Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000000306 recurrent effect Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 13
- 230000002950 deficient Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 150000003384 small molecules Chemical class 0.000 description 2
- 241000288906 Primates Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种化合物‑靶蛋白绑定关系预测方法及系统,该方法包括:获取多对靶蛋白‑化合物绑定数据,将绑定关系作为标签构建原始样本数据;对各靶蛋白序列进行蛋白质相似度计算,并基于蛋白质相似度对原始样本数据分类,得到多组靶蛋白‑化合物绑定数据,采用每组靶蛋白‑化合物绑定数据对深度学习网络模型训练,得到多组靶蛋白‑化合物绑定关系预测模型;根据待测数据与原始样本数据蛋白质相似度,确定待测数据对应靶蛋白‑化合物绑定关系预测模型;通过对应预测模型对待测化合物与待测靶蛋白的绑定关系进行预测。本发明基于待测数据蛋白质相似度对待测数据分类,构建对应类绑定关系预测模型,降低了化合物‑靶蛋白绑定关系预测的假阳性率。
Description
技术领域
本发明涉及医药研发技术领域,特别是涉及一种化合物-靶蛋白绑定关系预测方法及系统。
背景技术
目前,现有技术中,利用已有的主流深度学习模型(ANN,CNN,DNN、RNN、LSTM、Transformer以及GAN等),抽取化合物-靶蛋白绑定关系的特征,从而预测新的化合物-靶蛋白绑定关系,对于新药发现/研发和中药作用机理的研究具有重要的现实意义。然而,尽管这些模型可以达到很高的正确率(>90%),但是高企的假阳性率阻止了深度学习模型在该领域的进一步应用。如何降低化合物-靶蛋白绑定关系预测的假阳性率,到目前为止仍是一个世界级的问题。
发明内容
本发明的目的是提供一种化合物-靶蛋白绑定关系预测方法及系统,能够降低化合物-靶蛋白绑定关系预测的假阳性率。
为实现上述目的,本发明提供了如下方案:
本发明提供了一种化合物-靶蛋白绑定关系预测方法,所述方法包括:
获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息;
对各所述靶蛋白序列进行蛋白质相似度计算,确定蛋白质相似度,并基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;
构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
根据待测数据与原始样本数据的蛋白质相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据;
通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
可选地,所述“基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据”,具体包括:
选取任意一对靶蛋白-化合物绑定数据作为目标绑定数据;遍历原始样本数据,将与所述目标绑定数据的蛋白质相似度大于设定阈值的靶蛋白-化合物绑定数据划分为一组。
可选地,所述深度学习网络模型包括依次相连的递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块;所述递归神经网络模块包括3个长短时记忆网络层。
可选地,所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块;所述递归神经网络模块包括2个长短时记忆网络层。
可选地,所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述递归神经网络模块包括1个长短时记忆网络层。
可选地,在所述对各所述靶蛋白序列进行蛋白质相似度计算之前,还包括:
对所述原始样本数据进行字符串匹配,剔除缺损数据,并将化合物以及靶蛋白序列进行数字化编码。
可选地,使用PairwiseAligner工具包对各所述靶蛋白序列进行蛋白质相似度计算。
为实现上述目的,本发明还提供了一种化合物-靶蛋白绑定关系预测系统,所述系统包括:
数据获取单元,用于获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息;
相似度计算和分类单元,用于对各所述靶蛋白序列进行蛋白质相似度计算,确定蛋白质相似度,并基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;
模型确定单元,用于构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
模型选取单元,用于根据待测数据与原始样本数据的蛋白质相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据;
预测单元,用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种化合物-靶蛋白绑定关系预测方法及系统,所述方法包括:获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;对各所述靶蛋白序列进行蛋白质相似度计算,确定蛋白质相似度,并基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;然后构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;根据待测数据与原始样本数据的蛋白质相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。本发明预先基于待测数据的蛋白质相似度对待测数据进行分类,构建对应类别的靶蛋白-化合物绑定关系预测模型,能够降低化合物-靶蛋白绑定关系预测的假阳性率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明化合物-靶蛋白绑定关系预测方法的流程图;
图2为本发明化合物-靶蛋白绑定关系预测系统的模块结构示意图;
图3为本发明具体实施例中基于蛋白质相似度分类的原理图。
符号说明:
数据获取单元-1,相似度计算和分类单元-2,模型确定单元-3,模型选取单元-4,预测单元-5。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种化合物-靶蛋白绑定关系预测方法及系统,能够降低化合物-靶蛋白绑定关系预测的假阳性率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供了一种化合物-靶蛋白绑定关系预测方法,所述方法包括以下步骤:
S1:获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息。
S2:对各所述靶蛋白序列进行蛋白质相似度计算,确定蛋白质相似度,并基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;其中,基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据,具体包括:
选取任意一对靶蛋白-化合物绑定数据作为目标绑定数据;遍历原始样本数据,将与所述目标绑定数据的蛋白质相似度大于设定阈值的靶蛋白-化合物绑定数据划分为一组。
S3:构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型。
S4:根据待测数据与原始样本数据的蛋白质相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据。
S5:通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
优选地,所述深度学习网络模型包括依次相连的递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块;所述递归神经网络模块包括3个长短时记忆网络层。
进一步地,所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块;所述递归神经网络模块包括2个长短时记忆网络层。
更进一步地,所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述递归神经网络模块包括1个长短时记忆网络层。
进一步地,在步骤S2所述对各所述靶蛋白序列进行蛋白质相似度计算之前,还包括:
S6:对所述原始样本数据进行字符串匹配,剔除缺损数据,并将化合物以及靶蛋白序列进行数字化编码。
进一步地,使用PairwiseAligner工具包对各所述靶蛋白序列进行蛋白质相似度计算。
为实现上述目的,如图2所示,本发明还提供了一种化合物-靶蛋白绑定关系预测系统,所述系统包括:数据获取单元1、相似度计算和分类单元2、模型确定单元3、模型选取单元4和预测单元5。
数据获取单元1,用于获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息。
相似度计算和分类单元2,用于对各所述靶蛋白序列进行蛋白质相似度计算,确定蛋白质相似度,并基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据。
模型确定单元3,用于构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型。
模型选取单元4,用于根据待测数据与原始样本数据的蛋白质相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据。
预测单元5,用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
具体实施例:
1)获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;其中,化合物以及靶蛋白数据来自于BindingDB数据库中的BindingDB_All_2021m9.tsv.zip压缩包,此外还补充了NCBI数据库中的灵长类蛋白质数据(从gbpri1.seq.gz至gbpri55.seq.gz)。BindingDB的数据目前约为110万个测量的蛋白质小分子亲和力,涉及约49万个小分子和数千个蛋白质。除少数例外情况外,每个BindingDB数据条目均源自一份出版物(如科学文章或专利),并包含至少一个蛋白质靶标、至少一种化合物、至少一种相关化合物-蛋白质亲和力,以及源出版物的信息,BindingDB工作人员直接从文献中收集的条目还包括有关温度、pH值和缓冲液组成等实验条件的扩展信息。BindingDB还包含一个适度的蛋白质-蛋白质、蛋白质-肽和主客体亲和力测量集合。相比国内外经常使用的Davis以及KIBA数据库,BindingDB数据库在数据量上拥有绝对的优势,很适合需要大量训练样本的深度学习模型。
对下载数据文件进行分析,观察到在BindingDB数据库中下载的文件格式为SDF(Structure Data File),用文本编辑软件打开,可见SDF中包含Molfile格式的数据,其中一条Molfile格式的数据包含了所需要的化合物以及蛋白质的三类信息:(1)化合物原子信息、(2)化合物化学键信息以及(3)靶蛋白序列信息,也就是一对绑定的化合物与靶蛋白数据。
进一步地,对所述原始样本数据进行预处理,具体为:对Molfile格式的文本进行字符串匹配,过滤出以上三类字符串,剔除缺损数据,并将非数字表示的化学键、元素和靶蛋白序列编码成数字化合物以及靶蛋白序列。
模型的数据输入分为7部分:化合物原子个数、化合物原子、化合物化学键个数、化合物化学键、靶蛋白序列长度、靶蛋白序列和绑定标签。现将BindingDB中给定的化合物与蛋白质绑定关系在数据库中标记为1,记为正样本,并组合未绑定的蛋白质和化合物,生成负样本,标记为0,记为负样本。最后选定正负样本比例按照一比一组合生成数据集。
2)对各所述靶蛋白序列进行蛋白质相似度计算,确定蛋白质相似度,并基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;其中,基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据,具体包括:
Python针对生物信息学提供了一个工具包Bio包,使用Bio包的PairwiseAligner对象对蛋白质的氨基酸序列进行相似度对比,可以手动设置match_score范围为0.5至10.0、mismatch_score范围为-1至-5和gap_score范围为-0.1至-10等来建立赏罚分规则,计算得到蛋白质相似度表。
开始时,随机从化合物-靶蛋白绑定数据中选择一条记录,并将其记为一个新的独立的类,取出这条记录的蛋白质信息,之后查询所有记录,根据蛋白质相似度表,将与该蛋白质相似度大于0.9(或0.8、0.7、0.5等)的那个蛋白质所在的记录加入到当前类中,之后再对新加入的记录中的蛋白质进行上述查询,并重复循环这个过程,直至没有新的记录被加入到当前类。此时当前类算作分类完毕。重复上述过程,直至所有记录都被分类。基于蛋白质相似度的分类原理如图3所示。
3)构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
I:构建深度学习网络模型,包含:LSTM模块、Attention模块、CNN模块、全连接模块和二分类输出模块。
由于化合物和靶蛋白长度不定,采用递归神经网络(Recurrent Neural Network,RNN)能够充分提取特征,RNN模块使用3个1~5层长短时记忆网络(Long Short-TermMemory,LSTM),分别提取化合物原子、化合物化学键和靶蛋白序列信息,输出结果经过自注意力学习模块(Attention层或Transformer层),同时还使用了卷积神经网络(Convolutional Neural Network,CNN)进行特征提取,然后将3个RNN的输出特征与CNN输出结果进行拼接作为全连接模块的输入,全连接模块包含1~5层全连接,每层的全连接单元范围从1024-1不等。二分类输出模块使用Softmax函数对全连接输出的数据进行分类,绑定标签使用one-hot格式,[1,0]表示绑定,[0,1]表示不绑定。
II:深度学习网络模型还可以为如下形式,包括:LSTM模块、Attention模块、CNN模块、全连接模块和二分类输出模块。
其中,还可以为在RNN模块中使用2个1~5层LSTM神经网络,分别提取化合物信息(原子信息以及化学键信息)和蛋白质的信息,输出结果经过自注意力学习模块,同时还使用CNN进行靶蛋白序列的特征提取,将2个RNN的输出特征进行拼接作为全连接模块的输入,全连接模块包含1~5层全连接,每层的全连接单元范围从1024-1不等。二分类输出模块使用Softmax函数对全连接输出的数据进行分类。
III.深度学习网络模型还可以为如下形式,包括:LSTM模块、Attention模块、全连接模块和二分类输出模块。
进一步地,还可以为在RNN模块使用1个1~5层LSTM神经网络,将化合物原子、化合物化学键和靶蛋白序列整体输入至LSTM中,输出结果经过自注意力学习模块,然后将RNN的输出特征作为全连接模块的输入,全连接模块包含1~5层全连接,每层的全连接单元范围从1024-1不等。二分类输出模块使用Softmax函数对全连接输出的数据进行分类。
针对不同的类,训练出不同的神经网络权重,从而降低每种类预测结果的假阳性率。
本实施例中,在蛋白质相似度阈值设定为0.9的情况下,在第一大类的计算结果中,假阳性数量从原来的12538降到了21,降低了99.84%。第二大类的计算结果中,假阳性数量从原来的12476降低至6,降低了99.96%。在第三大类的计算结果中,假阳性的数量从原来的13765降低至49,降低了99.64%。在蛋白质阈值设定为0.7的情况下,假阳性数量从原来的12310降到了8,降低了99.94%。
技术效果:
本发明专利根据蛋白质的相似度对原数据集进行分类,并针对每一类数据集构建并训练其对应的深度学习模型,从而可以很好的掌握该蛋白质家族的特征点,做到对不同的蛋白质家族(大于相似度阈值),其对应的神经网络都能够学习到该家族绑定类药小分子化合物的特征,从而很好的找到化合物-靶蛋白绑定关系,并进而解决目前化合物-靶蛋白绑定预测假阳性高率的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种化合物-靶蛋白绑定关系预测方法,其特征在于,所述方法包括:
获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息;
对各所述靶蛋白序列进行蛋白质相似度计算,确定蛋白质相似度,并基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;
构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
根据待测数据与原始样本数据的蛋白质相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据;
通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
2.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,所述“基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据”,具体包括:
选取任意一对靶蛋白-化合物绑定数据作为目标绑定数据;遍历原始样本数据,将与所述目标绑定数据的蛋白质相似度大于设定阈值的靶蛋白-化合物绑定数据划分为一组。
3.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,所述深度学习网络模型包括依次相连的递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块;所述递归神经网络模块包括3个长短时记忆网络层。
4.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块;所述递归神经网络模块包括2个长短时记忆网络层。
5.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块;所述递归神经网络模块包括1个长短时记忆网络层。
6.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,在所述对各所述靶蛋白序列进行蛋白质相似度计算之前,还包括:
对所述原始样本数据进行字符串匹配,剔除缺损数据,并将化合物以及靶蛋白序列进行数字化编码。
7.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法,其特征在于,使用PairwiseAligner工具包对各所述靶蛋白序列进行蛋白质相似度计算。
8.一种化合物-靶蛋白绑定关系预测系统,其特征在于,所述系统包括:
数据获取单元,用于获取多对靶蛋白-化合物绑定数据,并将靶蛋白-化合物绑定关系作为标签构建原始样本数据;每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息;
相似度计算和分类单元,用于对各所述靶蛋白序列进行蛋白质相似度计算,确定蛋白质相似度,并基于所述蛋白质相似度对所述原始样本数据进行分类,得到若干组靶蛋白-化合物绑定数据;
模型确定单元,用于构建深度学习网络模型,分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练,得到多组靶蛋白-化合物绑定关系预测模型;
模型选取单元,用于根据待测数据与原始样本数据的蛋白质相似度,确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型;所述待测数据包括待测化合物和待测靶蛋白数据;
预测单元,用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539057.3A CN114974407A (zh) | 2022-05-18 | 2022-05-18 | 一种化合物-靶蛋白绑定关系预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539057.3A CN114974407A (zh) | 2022-05-18 | 2022-05-18 | 一种化合物-靶蛋白绑定关系预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114974407A true CN114974407A (zh) | 2022-08-30 |
Family
ID=82982835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210539057.3A Pending CN114974407A (zh) | 2022-05-18 | 2022-05-18 | 一种化合物-靶蛋白绑定关系预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114974407A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210026541A (ko) * | 2019-08-30 | 2021-03-10 | 주식회사 에일론 | 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템 |
CN112599186A (zh) * | 2020-12-30 | 2021-04-02 | 兰州大学 | 基于多深度学习模型共识的化合物靶蛋白绑定预测方法 |
JP2021068410A (ja) * | 2019-10-21 | 2021-04-30 | 国立大学法人東京工業大学 | 化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラム |
CN113593633A (zh) * | 2021-08-02 | 2021-11-02 | 中国石油大学(华东) | 基于卷积神经网络的药物-蛋白相互作用预测模型 |
CN113889179A (zh) * | 2021-10-13 | 2022-01-04 | 山东大学 | 基于多视图深度学习的化合物-蛋白质相互作用预测方法 |
-
2022
- 2022-05-18 CN CN202210539057.3A patent/CN114974407A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210026541A (ko) * | 2019-08-30 | 2021-03-10 | 주식회사 에일론 | 호몰로지를 이용한 인공신경망 기반 타겟 단백질의 화합물 활성 예측 시스템 |
JP2021068410A (ja) * | 2019-10-21 | 2021-04-30 | 国立大学法人東京工業大学 | 化合物生成装置、化合物生成方法、学習装置、学習方法及びプログラム |
CN112599186A (zh) * | 2020-12-30 | 2021-04-02 | 兰州大学 | 基于多深度学习模型共识的化合物靶蛋白绑定预测方法 |
CN113593633A (zh) * | 2021-08-02 | 2021-11-02 | 中国石油大学(华东) | 基于卷积神经网络的药物-蛋白相互作用预测模型 |
CN113889179A (zh) * | 2021-10-13 | 2022-01-04 | 山东大学 | 基于多视图深度学习的化合物-蛋白质相互作用预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110289050B (zh) | 一种基于图卷积和词向量的药物-靶标相互作用预测方法 | |
CN109712669B (zh) | 一种蛋白质功能注释方法及系统 | |
KR102213670B1 (ko) | 약물-표적 상호 작용 예측을 위한 방법 | |
CN107577605A (zh) | 一种面向软件缺陷预测的特征聚类选择方法 | |
CN112163553B (zh) | 物料价格核算方法、装置、存储介质和计算机设备 | |
CN111343147B (zh) | 一种基于深度学习的网络攻击检测装置及方法 | |
CN106909611A (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
CN116417093A (zh) | 一种结合Transformer和图神经网络的药物靶标相互作用预测方法 | |
CN111309607A (zh) | 一种代码方法级别的软件缺陷定位方法 | |
CN111949535A (zh) | 基于开源社区知识的软件缺陷预测装置及方法 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN114298228A (zh) | 一种基于数据预处理的地址文本信息相关性学习方法 | |
CN113903409A (zh) | 一种分子数据处理方法、模型构建与预测方法及相关装置 | |
CN111813933A (zh) | 一种技术图谱中技术领域的自动识别方法 | |
CN111104614A (zh) | 用于旅游目的地推荐系统的召回信息的生成方法 | |
CN114974407A (zh) | 一种化合物-靶蛋白绑定关系预测方法及系统 | |
CN111026075A (zh) | 一种基于误差匹配的中低压燃气调压器故障检测方法 | |
CN110727695B (zh) | 面向新型供电城轨列车数据运维的自然语言查询解析方法 | |
CN114822684B (zh) | 一种化合物-靶蛋白绑定关系预测方法及系统 | |
CN109243527A (zh) | 一种酶切概率辅助的肽段可检测性预测方法 | |
CN111626508B (zh) | 基于xgboost模型的轨道交通车载数据预测方法 | |
CN114510943A (zh) | 一种基于伪样本重放的增量式命名实体识别方法 | |
CN114118083A (zh) | 一种产业资源信息匹配优化方法 | |
CN114822684A (zh) | 一种化合物-靶蛋白绑定关系预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |