CN114613425A - 一种基于图卷积和相似性的药物-靶点相互作用预测算法 - Google Patents
一种基于图卷积和相似性的药物-靶点相互作用预测算法 Download PDFInfo
- Publication number
- CN114613425A CN114613425A CN202210236106.6A CN202210236106A CN114613425A CN 114613425 A CN114613425 A CN 114613425A CN 202210236106 A CN202210236106 A CN 202210236106A CN 114613425 A CN114613425 A CN 114613425A
- Authority
- CN
- China
- Prior art keywords
- drug
- similarity
- target interaction
- structure information
- interaction prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及药物‑靶点相互作用预测技术、深度学习领域,具体为一种基于图卷积和相似性的药物‑靶点相互作用预测算法。包括:1)通过DrugBank和RCSB等公开数据库获取药物、蛋白质和DTI相关数据;2)通过全局结构相似性提取分子间结构信息;3)通过DeepChem提取药物分子和蛋白质分子的单体特征信息;4)通过特征降维、特征融合和归一化处理得到药物‑靶点相互作用预测结果;5)对模型进行参数调优,不断提升预测准确率,最优模型将用于辅助药物发现、药物验证和药物副作用等研究。
Description
技术领域
本发明涉及药物-靶点相互作用预测技术领域,具体为一种基于图卷积和相似性的药物-靶点相互作用预测算法。
背景技术
药物-靶点相互作用(DTI)是药物通过作用于靶点蛋白质并与靶点蛋白质发生相互作用,从而影响靶点蛋白质的药理作用,这是药物产生药效的前提。药物-靶点相互作用的研究具有重要的理论指导意义和实际应用价值。长久以来,新设计和批准的药物不仅数量稀少,治疗疾病的效果也难达预期。其主要原因是大多数疾病的生物系统极其复杂,使得药物-靶点相互作用情况难以预测。因此,识别与预测潜在的药物-靶点相互作用,从而辅助药物发现、药物验证和药物副作用等研究,是一项艰巨的任务。通过计算方法预测药物-靶点相互作用,可缩小用于后续生物实验的候选药物范围,从而显著降低开发新药的时间成本。
随着人工智能和深度学习的出现和发展,为从不同水平、不同尺度全面了解药物-靶点相互作用预测技术,为新形势下系统模式的药物研发提供了新的研究方法和工具,日益成为医药研究领域的前沿热点之一,结合人工智能方法和药理学、生物信息学等知识,创造出了一种基于图卷积和相似性的药物-靶点相互作用预测算法。
发明内容
本发明的目的是为了解决上述药物-靶点相互作用预测领域所面临的困难和挑战,提供一种基于图卷积和相似性的药物-靶点相互作用预测算法。能够缩小用于后续生物实验的候选药物范围,从而显著降低开发新药的成本和时间。本发明的技术方案如下:
一种基于图卷积和相似性的药物-靶点相互作用预测算法,其包括分子间结构信息提取模块、分子图结构信息提取模块和药物-靶点相互作用预测模块;
分子间结构信息提取模块,通过全局结构相似性进行特征编码,对药物分子转化为化学指纹后计算谷本系数以衡量两个药物化学之间的相似性,对蛋白质分子计算序列之间的编辑距离以衡量两个蛋白质分子之间的相似性。
分子图结构信息提取模块,通过DeepChem提取药物分子的特征矩阵和邻接矩阵。特征矩阵包含每个原子的节点信息,邻接矩阵表示原子之间的化学键。通过DeepChem提取蛋白质图的特征矩阵和邻接矩阵,特征矩阵包含节点氨基酸,邻接矩阵描述生化相互作用。将以上信息通过图卷积神经网络捕获药物原子和蛋白质残基之间的内在结构。
药物-靶点相互作用预测模块,对分子间结构信息及分子图结构信息利用卷积神经网络降维,对降维后的分子间结构信息及分子图结构信息进行融合拼接,得到相互作用特征,对相互作用特征进行归一化处理得到药物-靶点相互作用预测结果;
进一步的,所述基于图卷积和相似性的药物-靶点相互作用预测算法的分子间结构信息提取模块具体包括:
1)利用化学信息学的开源工具包Rdkit中的GetMorganFingerprint方法将药物的SMILES字符串转换为化学指纹;
2)利用谷本系数(Tanimoto Coefficient)衡量两个药物化学指纹之间的相似性,利用编辑距离衡量两个蛋白质序列之间的相似性;
3)利用输入药物(蛋白质)进行预处理,计算其与药物(蛋白质)数据集中的所有药物(蛋白质)的相似性,生成药物(蛋白质)相似性矩阵;
进一步的,所述基于图卷积和相似性的药物-靶点相互作用预测算法的分子图结构信息提取模块具体包括:
1)利用DeepChem将药物的SMILES字符串转换为特征矩阵和邻接矩阵。特征矩阵包含每个原子的节点信息,邻接矩阵表示原子之间的化学键;
2)利用标准PDB结构文件提取所需的ProteinGraph。特征矩阵包含节点氨基酸,邻接矩阵描述生化相互作用;
3)利用图卷积神经网络捕获药物原子和蛋白质残基之间的内在结构。
进一步的,所述一种基于图卷积和相似性的药物-靶点相互作用预测算法的药物-靶点相互作用预测模块具体包括:
1)对分子间结构信息提取模块及分子图结构信息提取模块得到的特征利用卷积神经网络降维;
2)对降维后的分子间结构信息及分子图结构信息进行融合拼接,得到相互作用特征;
3)对相互作用特征进行归一化处理得到药物-靶点相互作用预测结果。
本发明的有益效果如下:
本发明针对药物-靶点相互作用情况难以预测,开发新药的成本高和时间久等问题,提供一种预测药物-靶点相互作用的新型深度学习模型,从而辅助药物发现、药物验证和药物副作用等研究,可缩小用于后续生物实验的候选药物范围,从而加速药物研发进程,大量节省人力物力成本,提高药物研发的整体效率。
本发明具有如下优点:
1)利用深度学习和相关药理学、生物化学等工具,可完成药物和蛋白质的分子间结构信息提取及分子图结构信息提取,确保准确提取药物分子的原子和原子间化学键信息,蛋白质的氨基酸和生化相互作用信息,最大程度减少特征丢失;
2)利用药物和蛋白质的图表示方法进行特征提取,突出了图表示方法和图卷积神经网络架构的鲁棒性。同时证明了药物和蛋白质分子结构可能决定其功能,具有相似结构的药物往往具有相似的靶点蛋白质。这些结果表明,所述基于图卷积和相似性的药物-靶点相互作用预测算法可以成为有效建模DTI的有用工具,并极大地加速药物研发进程。
附图说明
图1是本发明的应用方案图
图2是基于图卷积和相似性的药物-靶点相互作用预测过程
具体实施方式
以下结合具体实施方式进一步对本发明的技术方案进行阐述。
本系统主题方案主要体现了基于图卷积和相似性的特征提取方法,从而快速预测药物-靶点相互作用,以辅助加速药物研发的基本思想。一种基于图卷积和相似性的药物-靶点相互作用预测算法,包括分子间结构信息提取模块、分子图结构信息提取模块和药物-靶点相互作用预测模块,基本步骤如下:
1)从DrugBank数据库中获取DTI数据。每个样本包含一个药物蛋白对和一个带注释的DTI。在DrugBank中再次识别药物以收集其SMILES表示。蛋白质在RCSB蛋白质数据库中识别,收集其标准结构PDB文件;
2)分子间结构信息提取模块通过全局结构相似性进行特征编码,得到药物分子和蛋白质分子的分子间结构信息;分子图结构信息提取模块利用DeepChem提取每个单体药物和蛋白质的特征信息,得到药物分子和蛋白质分子的单体特征信息;
3)药物-靶点相互作用预测模块对分子间结构信息和分子图结构信息进行降维、融合和归一化处理,最终得到药物-靶点相互作用预测结果,“1”代表该药物-靶点对有相互作用,“0”代表该药物-靶点对无相互作用。
所述基于图卷积和相似性的药物-靶点相互作用预测算法,其主要特征在于,药物-靶点相互作用预测算法包括分子间结构信息提取模块、分子图结构信息提取模块和药物-靶点相互作用预测模块。分子间结构信息提取模块通过全局结构相似性进行特征编码;分子图结构信息提取模块利用DeepChem提取每个单体药物和蛋白质的特征信息;药物-靶点相互作用预测模块对分子间结构信息提取模块和分子图结构信息提取模块得到的特征进行降维、融合和归一化处理,最终得到药物-靶点相互作用预测结果。
具体的,基于图卷积和相似性的药物-靶点相互作用预测算法,分子间结构信息提取模块具体包括:
1)利用化学信息学的开源工具包Rdkit中的GetMorganFingerprint方法将药物的SMILES字符串转换为化学指纹;
2)利用谷本系数(Tanimoto Coefficient)衡量两个药物化学指纹之间的相似性,利用编辑距离衡量两个蛋白质序列之间的相似性;
3)利用输入药物(蛋白质)进行预处理,计算其与药物(蛋白质)数据集中的所有药物(蛋白质)的相似性,生成药物(蛋白质)相似性矩阵;
具体的,基于图卷积和相似性的药物-靶点相互作用预测算法,分子图结构信息提取模块具体包括:
1)利用DeepChem将药物的SMILES字符串转换为特征矩阵和邻接矩阵。特征矩阵包含每个原子的节点信息,邻接矩阵表示原子之间的化学键;
2)利用标准PDB结构文件提取所需的ProteinGraph。特征矩阵包含节点氨基酸,邻接矩阵描述生化相互作用;
3)利用图卷积神经网络捕获药物原子和蛋白质残基之间的内在结构。
具体的,基于图卷积和相似性的药物-靶点相互作用预测算法,药物-靶点相互作用预测模块具体包括:
1)对分子间结构信息提取模块及分子图结构信息提取模块得到的特征利用卷积神经网络降维;
2)对降维后的分子间结构信息及分子图结构信息进行融合拼接,得到相互作用特征;
3)对相互作用特征进行归一化处理得到药物-靶点相互作用预测结果。
所述基于图卷积和相似性的药物-靶点相互作用预测算法,接受药物SMILES字符串和蛋白质ProteinGraph输入,进行分子间结构信息提取和分子图结构信息提取,从而更好地学习药物和蛋白质结构特征,以得到更精确的药物-靶点相互作用预测结果。随着后续药物、蛋白质和DTI数据库的扩充,将有更多数据用于所述模型的训练,从而进一步加速药物研发进程。
以上所述仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载内容之后,技术人员可以对本发明作各种改动与修改,这些等效变化和修饰同样落入本发明权利要求所定的范围。
Claims (6)
1.一种基于图卷积和相似性的药物-靶点相互作用预测算法,其特征在于,包括以下步骤:
1)构建分子间结构信息提取网络,计算药物数据集和蛋白质数据集中每个分子之间的相似性,生成结构相似性矩阵,从而得到分子间结构相似性特征;
2)构建分子图结构信息网络,利用图卷积神经网络对化学分子建模,通过DeepChem将每个药物的SMILES字符串转换为特征矩阵和邻接矩阵,分析蛋白质结构并提取特征信息;
3)构建药物-靶点相互作用预测网络,该网络对编码的结构特征进行特征降维、特征融合,并进行最终的药物-靶点相互作用预测;
4)利用构建的数据集对神经网络模型进行训练,将训练好的神经网络模型用于后续药物-靶点相互作用预测并辅助加速药物研发。
2.根据权利要求1所述的基于图卷积和相似性的药物-靶点相互作用预测算法,其主要特征在于,药物-靶点相互作用预测算法包括分子间结构信息提取模块、分子图结构信息提取模块和药物-靶点相互作用预测模块。分子间结构信息提取模块通过全局结构相似性进行特征编码;分子图结构信息提取模块利用DeepChem提取每个单体药物和蛋白质的特征信息;药物-靶点相互作用预测模块对分子间结构信息提取模块和分子图结构信息提取模块得到的特征进行降维、融合和归一化处理,最终得到药物-靶点相互作用预测结果。
3.根据权利要求2所述的基于图卷积和相似性的药物-靶点相互作用预测算法,其特征在于,分子间结构信息提取模块具体包括:
1)利用化学信息学的开源工具包Rdkit中的GetMorganFingerprint方法将药物的SMILES字符串转换为化学指纹;
2)利用谷本系数(Tanimoto Coefficient)衡量两个药物化学指纹之间的相似性,利用编辑距离衡量两个蛋白质序列之间的相似性;
3)利用输入药物(蛋白质)进行预处理,计算其与药物(蛋白质)数据集中的所有药物(蛋白质)的相似性,生成药物(蛋白质)相似性矩阵。
4.根据权利要求2所述的基于图卷积和相似性的药物-靶点相互作用预测算法,其特征在于,分子图结构信息提取模块具体包括:
1)利用DeepChem将药物的SMILES字符串转换为特征矩阵和邻接矩阵。特征矩阵包含每个原子的节点信息,邻接矩阵表示原子之间的化学键;
2)利用标准PDB结构文件提取所需的ProteinGraph。特征矩阵包含节点氨基酸,邻接矩阵描述生化相互作用;
3)利用图卷积神经网络捕获药物原子和蛋白质残基之间的内在结构。
5.根据权利要求2所述的基于图卷积和相似性的药物-靶点相互作用预测算法,其特征在于,药物-靶点相互作用预测模块具体包括:
1)对分子间结构信息提取模块及分子图结构信息提取模块得到的特征利用卷积神经网络降维;
2)对降维后的分子间结构信息及分子图结构信息进行融合拼接,得到相互作用特征;
3)对相互作用特征进行归一化处理得到药物-靶点相互作用预测结果。
6.一种计算机设备,包括存储器,显卡,中央处理器,所述存储器存储有计算机程序,其特征在于,所述中央处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210236106.6A CN114613425A (zh) | 2022-03-10 | 2022-03-10 | 一种基于图卷积和相似性的药物-靶点相互作用预测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210236106.6A CN114613425A (zh) | 2022-03-10 | 2022-03-10 | 一种基于图卷积和相似性的药物-靶点相互作用预测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114613425A true CN114613425A (zh) | 2022-06-10 |
Family
ID=81862928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210236106.6A Pending CN114613425A (zh) | 2022-03-10 | 2022-03-10 | 一种基于图卷积和相似性的药物-靶点相互作用预测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114613425A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115050481A (zh) * | 2022-06-17 | 2022-09-13 | 湖南中医药大学 | 一种基于图卷积神经网络的中医方剂功效预测方法 |
CN115497576A (zh) * | 2022-11-17 | 2022-12-20 | 苏州创腾软件有限公司 | 基于图神经网络的聚合物性质预测方法和系统 |
CN116451176A (zh) * | 2023-06-15 | 2023-07-18 | 武汉大学人民医院(湖北省人民医院) | 一种基于深度学习的药物光谱数据分析方法及装置 |
WO2024026929A1 (zh) * | 2022-08-03 | 2024-02-08 | 慧壹科技(上海)有限公司 | 一种用于药物-靶点相互作用数据的清洗方法和装置 |
-
2022
- 2022-03-10 CN CN202210236106.6A patent/CN114613425A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115050481A (zh) * | 2022-06-17 | 2022-09-13 | 湖南中医药大学 | 一种基于图卷积神经网络的中医方剂功效预测方法 |
CN115050481B (zh) * | 2022-06-17 | 2023-10-31 | 湖南中医药大学 | 一种基于图卷积神经网络的中医方剂功效预测方法 |
WO2024026929A1 (zh) * | 2022-08-03 | 2024-02-08 | 慧壹科技(上海)有限公司 | 一种用于药物-靶点相互作用数据的清洗方法和装置 |
CN115497576A (zh) * | 2022-11-17 | 2022-12-20 | 苏州创腾软件有限公司 | 基于图神经网络的聚合物性质预测方法和系统 |
CN116451176A (zh) * | 2023-06-15 | 2023-07-18 | 武汉大学人民医院(湖北省人民医院) | 一种基于深度学习的药物光谱数据分析方法及装置 |
CN116451176B (zh) * | 2023-06-15 | 2024-01-12 | 武汉大学人民医院(湖北省人民医院) | 一种基于深度学习的药物光谱数据分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114613425A (zh) | 一种基于图卷积和相似性的药物-靶点相互作用预测算法 | |
Wang et al. | Protein domain identification methods and online resources | |
WO2021151353A1 (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
Cheng et al. | Drug-target interaction prediction using multi-head self-attention and graph attention network | |
CN109887540A (zh) | 一种基于异构网络嵌入的药物靶标相互作用预测方法 | |
Hu et al. | Deep learning frameworks for protein–protein interaction prediction | |
Zhao et al. | Biomedical data and deep learning computational models for predicting compound-protein relations | |
CN113903409B (zh) | 一种分子数据处理方法、模型构建与预测方法及相关装置 | |
CN113470741A (zh) | 药物靶标关系预测方法、装置、计算机设备及存储介质 | |
CN112151127A (zh) | 基于分子语义向量的无监督学习药物虚拟筛选方法和系统 | |
CN116612810A (zh) | 一种基于交互推理网络的药物靶标相互作用预测方法 | |
Ghualm et al. | Identification of pathway-specific protein domain by incorporating hyperparameter optimization based on 2D convolutional neural network | |
CN114242161A (zh) | 一种基于深度特征融合编码器的药物-靶标相互作用预测系统 | |
CN113409897A (zh) | 药物-靶标相互作用的预测方法、装置、设备和存储介质 | |
CN116646001B (zh) | 基于联合式跨域注意力模型预测药物靶标结合性的方法 | |
CN110534153B (zh) | 基于深度学习的靶标预测系统及其方法 | |
CN112270950A (zh) | 一种基于网络增强和图正则的融合网络药物靶标关系预测方法 | |
CN116721699A (zh) | 一种基于肿瘤基因检测结果的智能推荐方法 | |
CN115240775B (zh) | 基于stacking集成学习策略的Cas蛋白预测方法 | |
Abdul Raheem et al. | Automating drug discovery using machine learning | |
Antony et al. | Protein secondary structure assignment using residual networks | |
Hu et al. | Structure enhanced protein-drug interaction prediction using transformer and graph embedding | |
CN112466410A (zh) | 蛋白质与配体分子结合自由能的预测方法及装置 | |
Fan et al. | Improved protein relative solvent accessibility prediction using deep multi-view feature learning framework | |
CN115938472A (zh) | 基于蛋白质接触图特征的蛋白质-药物相互作用预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |