CN113571124A - 一种配体-蛋白质相互作用的预测方法及装置 - Google Patents
一种配体-蛋白质相互作用的预测方法及装置 Download PDFInfo
- Publication number
- CN113571124A CN113571124A CN202010356774.3A CN202010356774A CN113571124A CN 113571124 A CN113571124 A CN 113571124A CN 202010356774 A CN202010356774 A CN 202010356774A CN 113571124 A CN113571124 A CN 113571124A
- Authority
- CN
- China
- Prior art keywords
- protein
- ligand
- target
- characteristic
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 40
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 149
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 149
- 239000003446 ligand Substances 0.000 claims abstract description 109
- 238000012545 processing Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 150000001413 amino acids Chemical class 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 125000003275 alpha amino acid group Chemical group 0.000 abstract description 9
- 125000004429 atom Chemical group 0.000 description 20
- 230000008569 process Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 150000003384 small molecules Chemical class 0.000 description 6
- 238000003041 virtual screening Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 3
- 238000003042 ligand based virtual screening Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007877 drug screening Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003033 structure based virtual screening Methods 0.000 description 2
- AEJOEPSMZCEYJN-HXUWFJFHSA-N 2-(3,4-dichlorophenyl)-N-methyl-N-[(1S)-1-phenyl-2-(1-pyrrolidinyl)ethyl]acetamide Chemical compound C([C@@H](N(C)C(=O)CC=1C=C(Cl)C(Cl)=CC=1)C=1C=CC=CC=1)N1CCCC1 AEJOEPSMZCEYJN-HXUWFJFHSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pharmacology & Pharmacy (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Medicinal Chemistry (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种配体‑蛋白质相互作用的预测方法及装置,包括:对目标蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列;基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列;基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测,获得所述目标蛋白质和所述目标配体相互作用的概率。本发明实施例中当需要预测某个蛋白质和某个配体能否进行相互作用时,只需要获得该蛋白质的各蛋白质特征序列以及该配体的原子特征序列,通过利用预测模型,就能预测出蛋白中哪些氨基酸片段能和配体中哪些原子进行相互作用,由此能够计算出该蛋白质和该配体相互作用的概率。
Description
技术领域
本发明涉及药物筛选领域,特别涉及一种配体-蛋白质相互作用的预测方法及装置。
背景技术
虚拟筛选是早期药物研发的一项重要的工作,分为三类:基于结构的虚拟筛选,基于配体的虚拟筛选和基于化学基因组学的虚拟筛选。基于结构的虚拟筛选需要蛋白质的晶体结构,很多潜在靶标蛋白并没有解出晶体结构,因此基于结构的虚拟筛选不能解决这类靶点的药物筛选工作。基于配体的虚拟筛选需要较多的配体信息,许多靶点报道的活性小分子数目太少,无法准确可靠的建立模型。此外,基于配体的虚拟筛选也限制了新型结构的活性小分子的发现与设计工作。鉴于基于结构的虚拟筛选和基于配体的虚拟筛选存在的局限性,许多基于化学基因组的机器学习的方法被提出以用来预测配体-蛋白质相互作用,这些方法的缺陷是需要人工定义蛋白质和小分子的描述符。
由于机器学习模型需要定义蛋白质和小分子的描述符。模型不能够端到端地自主从数据中学习到蛋白质和小分子的特征,同时机器学习对于大样本的学习能力欠佳。
并且,已现有的深度学习模型没有提取到真正的相互作用特征,导致模型被与任务无关的统计规律所误导,从而无法在实际应用中取得良好的效果,无法准确的预测出配体-蛋白质相互作用关系。
发明内容
本发明实施例的目的在于提供一种配体-蛋白质相互作用的预测方法及装置,用于解决现有技术中无法准确的预测出配体蛋白质相互作用关系的问题。
为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种配体-蛋白质相互作用的预测方法,包括如下步骤:
对目标蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列;
基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列;
基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测,获得所述目标蛋白质和所述目标配体相互作用的概率。
可选的,所述对目标蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列,具体包括:
以连续预定个数的氨基酸为一组将所述目标蛋白质的一级序列分隔成若干各序列片段;
采用预定的算法对各所述序列片段进行编码,获得与各序列片段对应的特征向量组成的若干蛋白质特征序列。
可选的,所述基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列,具体包括:
使用化学信息包对所述目标配体的SMILES分子式进行处理,得到所述目标配体的分子指纹图谱;
利用图卷积网络对所述分子指纹图谱进行处理,获得所述目标配体的若干原子特征序列。
可选的,所述基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测,以获得所述目标蛋白质和所述目标配体相互作用的概率,具体包括:
采用自注意力机制对所述若干蛋白质特征序列以及所述若干原子特征序列进行处理,以确定出能够进行相互作用的目标特征序列;
基于所述目标特征序列进行计算获得所述目标蛋白质与所述目标配体结合的概率。
可选的,所述方法还包括:采用深度学习的方法训练获得所述预测模型,具体包括:
获取实验数据;
基于所述实验数据确定样本蛋白质-样本配体相互作用的真实值;
获取样本蛋白质的若干蛋白质特征序列,并获取样本配体的若干原子特征序列;
基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练,获得所述预测模型。
可选的,所述基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练,获得所述预测模型,具体包括:
采用自注意力机制对所述样本蛋白质的若干蛋白质特征序列以及所述样本配体的若干原子特征序列进行处理,获得包含相互作用信息的若干样本序列;
利用预设的计算公式对所述若干样本序列进行计算,获得相互作用特征;
利用全连接神经网络对所述相互作用特征进行处理,获得样本蛋白质-样本配体相互作用的预测值;
基于所述预测值以及所述真实值计算交叉熵;
将所述交叉熵作为预测模型的损失函数,以采用随机梯度下降法进行训练,获得所述预测模型。
为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种配体-蛋白质相互作用的预测装置,包括:
第一获取模块,用于对目标蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列;
第二获取模块,用于基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列;
预测模块,用于基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测,获得所述目标蛋白质和所述目标配体相互作用的概率
可选的,所述第一获取模块具体用于:
以连续预定个数的氨基酸为一组将所述目标蛋白质的一级序列分隔成若干各序列片段;
采用预定的算法对各所述序列片段进行编码,获得与各序列片段对应的特征向量组成的若干蛋白质特征序列。
可选的,所述第二获取模块具体用于:使用化学信息包对所述目标配体的SMILES分子式进行处理,得到所述目标配体的分子指纹图谱;
利用图卷积网络对所述分子指纹图谱进行处理,获得所述目标配体的若干原子特征序列。
可选的,所述预测模块具体用于:
采用自注意力机制对所述若干蛋白质特征序列以及所述若干原子特征序列进行处理,以确定出能够进行相互作用的目标特征序列;
基于所述目标特征序列进行计算获得所述目标蛋白质与所述目标配体结合的概率。
本发明实施例的有益效果在于:通过预先训练获得预测模型,这样当需要预测某个蛋白质和某个配体能否进行相互作用时,只需要获得该蛋白质的各蛋白质特征序列以及该配体的原子特征序列,通过利用预测模型,就能预测出蛋白中哪些蛋白质特征序列能和配体中哪些原子特征序列进行相互作用,由此能够计算出该蛋白质和该配体相互作用的概率,使得蛋白质和配体相互作用的预测更加准确。
附图说明
图1为本发明实施例中配体-蛋白质相互作用的预测方法的流程图。
图2为本法明实施例中配体-蛋白质相互作用的预测的原理图;
图3为本发明实施例中获取相互作用特征序列的具体流程图;
图4为本发明实施例中配体-蛋白质相互作用的预测装置的结构框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本发明实施例提供一种配体-蛋白质相互作用的预测方法,如图1所示,包括如下步骤:
步骤S101,对目标蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列。
本步骤在具体实施过程中,可以利用自然语言处理中的词向量嵌入方法(word2vec),将蛋白质的氨基酸序列处理成一组由特征向量组成的序列,即获得若干蛋白质特征序列p1,p2,…,pb。
步骤S102,基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列。
本步骤在具体实施例过程中,具体可以使用化学信息包RDkit编码目标配体的图分子指纹,再通过图卷积网络学习到目标配体的若干原子特征序列c1,c2,…,ca。
步骤S103,基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测,获得所述目标蛋白质和所述目标配体相互作用的概率。
本步骤在具体实施过程中,在得到蛋白质的若干特征序列(蛋白质特征序列)p1,p2,…,pb和配体的若干原子特征序列c1,c2,…,ca之后,就可以通过自然语言处理中的Transformer框架进行编码和解码(预测模型中的),输出相互作用的目标特征序列x1,x2,…,xa;然后基于所述目标特征序列进行计算,就可以获得所述目标蛋白质与所述目标配体结合的概率。
本发明实施例中当需要预测某个蛋白质和某个配体能否进行相互作用时,只需要获得该蛋白质的各蛋白质特征序列以及该配体的原子特征序列,通过利用预测模型,就能预测出哪些蛋白质特征序列能和哪些原子特征序列进行相互作用,由此能够计算出该蛋白质和该配体相互作用的概率。
本发明另一实施例提供一种配体-蛋白质相互作用的预测方法,包括如下步骤:
步骤S201,以连续预定个数的氨基酸为一组将所述目标蛋白质的一级序列分隔成若干各序列片段;采用预定的算法对各所述序列片段进行编码,获得与各序列片段对应的特征向量组成的若干蛋白质特征序列。
本步骤在具体实施例过程中,具体可以以连续的三个氨基酸为一组,将目标蛋白质的氨基酸序列分割成b个片段(b=氨基酸长度-2)然后使用word2vec算法将这b个氨基酸片段编码成特征序列p1,p2,…,pb。
步骤S202,使用化学信息包对所述目标配体的SMILES分子式进行处理,得到所述目标配体的分子指纹图谱;利用图卷积网络对所述分子指纹图谱进行处理,获得所述目标配体的若干原子特征序列。
本步骤在具体实施过程中,可以采用RDKit包对分子的SMILES式进行处理,每个原子编码34维的特征向量,得到小分子的图分子指纹;通过图卷积神经网络对图分子指纹进行处理,得到原子特征序列c1,c2,…,ca(a=分子的非氢原子数目)。
步骤S203,采用自注意力机制对所述若干蛋白质特征序列以及所述若干原子特征序列进行处理,以确定出能够进行相互作用的目标特征序列;基于所述目标特征序列进行计算获得所述目标蛋白质与所述目标配体结合的概率。
本步骤在具体实施过程中是利用预设的计算公式对所述若干目标特征序列进行计算,获得相互作用特征;然后利用全连接神经网络对所述相互作用特征进行处理,获得样本蛋白质-样本配体相互作用的预测值(概率)。更加具体的,在得到蛋白质的若干特征序列(蛋白质特征序列)p1,p2,…,pb和配体的若干原子特征序列c1,c2,…,ca之后,可以通过自然语言处理中的Transformer框架进行编码和解码,输出相互作用的目标特征序列x1,x2,…,xa;然后利用预设的计算公式对所述目标特征序列进行计算,获得相互作用特征;最后利用全连接神经网络对所述相互作用特征进行处理,就可以获得目标蛋白质-目标配体结合的概率。
本实施例提供一种配体-蛋白质相互作用的预测方法,在对目标蛋白质和目标配体之间的相互作用进行预测之前,还包括采用深度学习的方法训练获得预测模型。在实施时具体包括如下步骤:
步骤S301,获取实验数据;
步骤S302,基于所述实验数据确定样本蛋白质-样本配体相互作用的真实值;
本步骤在具体实施过程中可以根据实际的实验数据及结果获得相互作用的真实值y,真实值y具体为“1”或“0”,其中1表示能够进行相互作用,用0表示不能进行相互作用。
步骤S303,获取样本蛋白质的若干蛋白质特征序列,并获取样本配体的若干原子特征序列;
本步骤在具体实施例过程中,可以对样本蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列。比如以连续的三个氨基酸为一组,将样本蛋白质的氨基酸序列分割成b个片段(b=氨基酸长度-2)然后使用自然语言处理中的词向量嵌入方法(word2vec)将这b个氨基酸片段编码成一组由特征向量组成的序列p1,p2,…,pb,该组序列即包含有若干个蛋白质特征序列,比如p1即表示一个蛋白质特征序列。具体的可以从实验数据中选取一个氨基酸长度为200的蛋白质,即获得维度为:198×100的蛋白质特征序列。
本步骤在获取样本配体的原子特征序列时,具体可以基于样本配体的分子指纹图谱获取样本配体的若干原子特征序列。更加具体的,可以使用化学信息包RDkit对样本配体的SMILES式进行处理,每个原子编码34维的特征向量(如表1所示),得到配体的图分子指纹图谱,再通过图卷积网络对分子指纹图谱进行处理,得到样本配体若干原子特征序列c1,c2,…,ca(a=分子的非氢原子数目)。具体的可以从实验数据中选取一个非氢原子数为20的样本配体,即获得维度为:20×64的原子特征序列。
表1
步骤S304,基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练,获得所述预测模型。
本步骤在具体实施例过程中,具体又可分为如下步骤:
步骤S3041,采用自注意力机制来对所述样本蛋白质的若干蛋白质特征序列以及所述样本配体的若干原子特征序列进行处理,预测获得能够进行相互作用的若干样本序列。
更加具体的,可以如图2所示,将样本蛋白质特征序列(即样本蛋白质的蛋白质特征序列),即维度为b×100的p1,p2,…,pb输入编码器中进行编码,输出编码后的样本蛋白质特征序列,即维度为b×64的p1,p2,…,pb。再将样本配体的原子特征序列,即维度为a×64的c1,c2,…,ca和(编码后的样本蛋白质特征序列)维度为b×64的p1,p2,…,pb输入到解码器进行学习,经过Transformer解码器的学习,最后输出相互作用特征序列(即若干样本序列)维度为a×64的x1,x2,…,xa;
步骤S2042,利用预设的计算公式对所述若干样本序列进行计算,获得相互作用特征;
本步骤中在具体实施时是采用如下三个计算公式来计算获得相互作用特征的:
其中,其中xi′是向量xi的模,αi是向量xi的权重。xi表示第i个相互作用特征序列,yinteraction表示相互作用特征。
步骤S3043,利用全连接神经网络对所述相互作用特征进行处理,获得样本蛋白质-样本配体相互作用的预测值;
步骤S3044,基于所述预测值以及所述真实值计算交叉熵;
步骤S3045,将所述交叉熵作为预测模型的损失函数,以采用随机梯度下降法进行训练,获得所述预测模型。
本步骤中采用随机梯度下降法来训练模型是一种常见的模型训练方法,在此不再赘述。
本实施例中,在将样本蛋白质特征序列(即样本蛋白质的蛋白质特征序列),即维度为b×100的p1,p2,…,pb输入编码器中进行编码,输出编码后的样本蛋白质特征序列时,具体是利用编码器中的公式 来进行处理的,其中是hl层的输入, W1、s、W2、t是可学习的参数,n是序列的长度,m1,m2分别是输入和隐藏层特征的维度,k是卷积核的大小,σ是sigmoid函数,是矩阵的Hadamard积。参数设置:k=7,m1=100(m1表示输入层特征的维度),m2=64(m2表示隐藏层特征的维度)。即输入然后通过一维卷积和门控线性单元计算并更新蛋白特征序列p1,p2,…,pb,最后输出编码后蛋白质特征序列p1,p2,…,pb。
本实施例中,在将样本配体的原子特征序列(维度为a×64的c1,c2,…,ca)和编码后的样本蛋白质特征序列(维度为b×64的p1,p2,…,pb)输入到解码器进行学习,输出相互作用特征序列(即若干样本序列)x1,x2,…,xa,具体可以采用如下方式实现,即通过自注意力层的计算公式:来计算注意力值(attention)。其中,dk表示一个缩放因子,为隐藏层特征的维度,本实施例中为64;T表示矩阵的转置符号。具体如图3所示,可以先将样本配体的原子特征序列作为自注意力层(即公式)的输入,计算原子特征序列的注意力值,进行加权求和以及归一化计算,此时Q,K,V=c1,c2,…,ca。然后将该计算结果作为第二层(自注意力层)的输入,同时将蛋白质的特征序列(蛋白质特征序列)作为第二层的输入,通过自注意力机制计算原子特征序列和蛋白质特征序列的注意力值,加权求和,归一化,此时Q=c1,c2,…,ca,K=V=p1,p2,…,pb。最后将获得的结果作为第三层的输入(即输入到卷积神经网络)进行第三次的加权求和以及归一化计算,这样就可以获得相互作用的特征序列(即若干样本序列)x1,x2,…,xa。
本发明实施例中利用端到端的深度学习模型TransformerCPI,在三个公开基准数据集上取得当前最优的结果。本实施例中的深度学习模型TransformerCPI在标签反转实验(label reversal experiments)取得当前最优的结果,对比其他模型,提升的效果十分显著,证明该方法可以学习到真正的相互作用特征。同时,由于深度学习模型TransformerCPI有很好的可解释性,既可以给出蛋白质中哪些氨基酸片段与配体中哪些原子特征序列结合的概率大,也可以给出配体分子中哪些原子(原子特征序列)对结合的贡献大,为进一步的分子结构改造给出指导建议。
本发明另一实施提供一种配体-蛋白质相互作用的预测装置,如图4所示,包括:
第一获取模块,用于对目标蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列;
第二获取模块,用于基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列;
预测模块,用于基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测,获得所述目标蛋白质和所述目标配体相互作用的概率
本实施中,所述第一获取模块具体用于:以连续预定个数的氨基酸为一组将所述目标蛋白质的一级序列分隔成若干各序列片段;采用预定的算法对各所述序列片段进行编码,获得与各序列片段对应的特征向量组成的若干蛋白质特征序列。
本实施例中,所述第二获取模块具体用于:使用化学信息包对所述目标配体的SMILES分子式进行处理,得到所述目标配体的分子指纹图谱;利用图卷积网络对所述分子指纹图谱进行处理,获得所述目标配体的若干原子特征序列。
具体的,所述预测模块具体用于:采用自注意力机制对所述若干蛋白质特征序列以及所述若干原子特征序列进行处理,以确定出能够进行相互作用的目标特征序列;基于所述目标特征序列进行计算获得所述目标蛋白质与所述目标配体结合的概率。
本实施例中还包括用于训练获得所述预测模型的训练模块,所述训练模块采用深度学习的方法训练获得所述预测模型,所述训练模型用于:
获取实验数据;
基于所述实验数据确定样本蛋白质-样本配体相互作用的真实值;
获取样本蛋白质的若干蛋白质特征序列,并获取样本配体的若干原子特征序列;
基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练,获得所述预测模型。
在具体实施过程中,所述训练模块具体用于:
采用自注意力机制对所述样本蛋白质的若干蛋白质特征序列以及所述样本配体的若干原子特征序列进行处理,预测获得能够进行相互作用的若干样本序列;
利用预设的计算公式对所述若干样本序列进行计算,获得相互作用特征;
利用全连接神经网络对所述相互作用特征进行处理,获得样本蛋白质-样本配体相互作用的预测值;
基于所述预测值以及所述真实值计算交叉熵;
将所述交叉熵作为预测模型的损失函数,以采用随机梯度下降法进行训练,获得所述预测模型。
本发明实施例中,不仅能准确的预测出蛋白质和配体相互作用的概率,还能知道具体是通过蛋白质中的哪些氨基酸序列和配体中的哪些原子进行结合的,为进一步的分子结构改造给出指导建议。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (10)
1.一种配体-蛋白质相互作用的预测方法,其特征在于,包括如下步骤:
对目标蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列;
基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列;
基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测,获得所述目标蛋白质和所述目标配体相互作用的概率。
2.如权利要求1所述的方法,其特征在于,所述对目标蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列,具体包括:
以连续预定个数的氨基酸为一组将所述目标蛋白质的一级序列分隔成若干各序列片段;
采用预定的算法对各所述序列片段进行编码,获得与各序列片段对应的特征向量组成的若干蛋白质特征序列。
3.如权利要求1所述的方法,其特征在于,所述基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列,具体包括:
使用化学信息包对所述目标配体的SMILES分子式进行处理,得到所述目标配体的分子指纹图谱;
利用图卷积网络对所述分子指纹图谱进行处理,获得所述目标配体的若干原子特征序列。
4.如权利要求1所述的方法,其特征在于,所述基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测,以获得所述目标蛋白质和所述目标配体相互作用的概率,具体包括:
采用自注意力机制对所述若干蛋白质特征序列以及所述若干原子特征序列进行处理,以确定出能够进行相互作用的目标特征序列;
基于所述目标特征序列进行计算获得所述目标蛋白质与所述目标配体结合的概率。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:采用深度学习的方法训练获得所述预测模型,具体包括:
获取实验数据;
基于所述实验数据确定样本蛋白质-样本配体相互作用的真实值;
获取样本蛋白质的若干蛋白质特征序列,并获取样本配体的若干原子特征序列;
基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练,获得所述预测模型。
6.如权利要求5所述的方法,其特征在于,所述基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练,获得所述预测模型,具体包括:
采用自注意力机制对所述样本蛋白质的若干蛋白质特征序列以及所述样本配体的若干原子特征序列进行处理,获得包含相互作用信息的若干样本序列;
利用预设的计算公式对所述若干样本序列进行计算,获得相互作用特征;
利用全连接神经网络对所述相互作用特征进行处理,获得样本蛋白质-样本配体相互作用的预测值;
基于所述预测值以及所述真实值计算交叉熵;
将所述交叉熵作为预测模型的损失函数,以采用随机梯度下降法进行训练,获得所述预测模型。
7.一种配体-蛋白质相互作用的预测装置,其特征在于,包括:
第一获取模块,用于对目标蛋白质的一级序列进行处理,获得由特征向量组成的若干蛋白质特征序列;
第二获取模块,用于基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列;
预测模块,用于基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测,获得所述目标蛋白质和所述目标配体相互作用的概率。
8.如权利要求7所述的装置,其特征在于,所述第一获取模块具体用于:
以连续预定个数的氨基酸为一组将所述目标蛋白质的一级序列分隔成若干各序列片段;
采用预定的算法对各所述序列片段进行编码,获得与各序列片段对应的特征向量组成的若干蛋白质特征序列。
9.如权利要求7所述的装置,其特征在于,所述第二获取模块具体用于:使用化学信息包对所述目标配体的SMILES分子式进行处理,得到所述目标配体的分子指纹图谱;
利用图卷积网络对所述分子指纹图谱进行处理,获得所述目标配体的若干原子特征序列。
10.如权利要求7所述的装置,其特征在于,所述预测模块具体用于:
采用自注意力机制对所述若干蛋白质特征序列以及所述若干原子特征序列进行处理,以确定出能够进行相互作用的目标特征序列;
基于所述目标特征序列进行计算获得所述目标蛋白质与所述目标配体结合的概率。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010356774.3A CN113571124B (zh) | 2020-04-29 | 2020-04-29 | 一种配体-蛋白质相互作用的预测方法及装置 |
PCT/CN2021/089139 WO2021218791A1 (zh) | 2020-04-29 | 2021-04-23 | 一种配体-蛋白质相互作用的预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010356774.3A CN113571124B (zh) | 2020-04-29 | 2020-04-29 | 一种配体-蛋白质相互作用的预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113571124A true CN113571124A (zh) | 2021-10-29 |
CN113571124B CN113571124B (zh) | 2024-04-23 |
Family
ID=78158583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010356774.3A Active CN113571124B (zh) | 2020-04-29 | 2020-04-29 | 一种配体-蛋白质相互作用的预测方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113571124B (zh) |
WO (1) | WO2021218791A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116559A (zh) * | 2022-06-21 | 2022-09-27 | 北京百度网讯科技有限公司 | 氨基酸中原子坐标的确定及训练方法、装置、设备和介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023097515A1 (zh) * | 2021-11-30 | 2023-06-08 | 京东方科技集团股份有限公司 | Rna-蛋白质相互作用预测方法、装置、介质及电子设备 |
CN114446383B (zh) * | 2022-01-24 | 2023-04-21 | 电子科技大学 | 一种基于量子计算的配体-蛋白相互作用的预测方法 |
CN114927165B (zh) * | 2022-07-20 | 2022-12-02 | 深圳大学 | 泛素化位点的识别方法、装置、系统和存储介质 |
CN115497555B (zh) * | 2022-08-16 | 2024-01-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多物种蛋白质功能预测方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862173A (zh) * | 2017-11-15 | 2018-03-30 | 南京邮电大学 | 一种先导化合物虚拟筛选方法和装置 |
CN110289050A (zh) * | 2019-05-30 | 2019-09-27 | 湖南大学 | 一种基于图卷积和词向量的药物-靶标相互作用预测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11521712B2 (en) * | 2017-05-19 | 2022-12-06 | Accutar Biotechnology Inc. | Computational method for classifying and predicting ligand docking conformations |
CN109273054B (zh) * | 2018-08-31 | 2021-07-13 | 南京农业大学 | 基于关系图谱的蛋白质亚细胞区间预测方法 |
CN110459274B (zh) * | 2019-08-01 | 2022-08-26 | 南京邮电大学 | 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 |
CN110767266B (zh) * | 2019-11-04 | 2023-04-18 | 山东省计算中心(国家超级计算济南中心) | 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法 |
-
2020
- 2020-04-29 CN CN202010356774.3A patent/CN113571124B/zh active Active
-
2021
- 2021-04-23 WO PCT/CN2021/089139 patent/WO2021218791A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862173A (zh) * | 2017-11-15 | 2018-03-30 | 南京邮电大学 | 一种先导化合物虚拟筛选方法和装置 |
CN110289050A (zh) * | 2019-05-30 | 2019-09-27 | 湖南大学 | 一种基于图卷积和词向量的药物-靶标相互作用预测方法 |
Non-Patent Citations (1)
Title |
---|
BONGGUN SHIN等: "Self-Attention Based Molecule Representation for Predicting Drug-Target Interaction", PROCEEDINGS OF MACHINE LEARNING RESEARCH, vol. 106, pages 1 - 18, XP055861048 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116559A (zh) * | 2022-06-21 | 2022-09-27 | 北京百度网讯科技有限公司 | 氨基酸中原子坐标的确定及训练方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021218791A1 (zh) | 2021-11-04 |
CN113571124B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113571124B (zh) | 一种配体-蛋白质相互作用的预测方法及装置 | |
US10872596B2 (en) | Systems and methods for parallel wave generation in end-to-end text-to-speech | |
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
CN110362684A (zh) | 一种文本分类方法、装置及计算机设备 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112084435A (zh) | 搜索排序模型训练方法及装置、搜索排序方法及装置 | |
CN113782096B (zh) | Rna碱基不成对概率的预测方法及装置 | |
CN111966811A (zh) | 意图识别和槽填充方法、装置、可读存储介质及终端设备 | |
CN115588471B (zh) | 持续学习下自校正单步逆合成方法、终端、服务器及系统 | |
CN111767697B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
Tabus et al. | On the use of MDL principle in gene expression prediction | |
US20240120022A1 (en) | Predicting protein amino acid sequences using generative models conditioned on protein structure embeddings | |
Downey et al. | alineR: An R package for optimizing feature-weighted alignments and linguistic distances | |
CN113507608A (zh) | 图像编码方法、装置、电子设备 | |
CN115881209B (zh) | 一种rna二级结构预测的处理方法和装置 | |
CN114757189A (zh) | 事件抽取方法、装置、智能终端及存储介质 | |
CN112699882A (zh) | 图像文字识别方法、装置、电子设备 | |
CN113380270A (zh) | 一种音频音源分离方法、装置、存储介质及电子设备 | |
Craven et al. | Learning to predict reading frames in E. coli DNA sequences | |
CN108427867A (zh) | 一种基于灰色bp神经网络蛋白互作关系预测方法 | |
CN117476106B (zh) | 一种多类不平衡蛋白质二级结构预测方法和系统 | |
Yoo et al. | dtS-Snn: Spiking neural networks with dynamic time-Surfaces | |
AU2022216431B2 (en) | Generating neural network outputs by enriching latent embeddings using self-attention and cross-attention operations | |
US20230253076A1 (en) | Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation | |
US20240104355A1 (en) | Generating neural network outputs by enriching latent embeddings using self-attention and cross-attention operations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |