CN115101146A - 基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统 - Google Patents

基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统 Download PDF

Info

Publication number
CN115101146A
CN115101146A CN202210907013.1A CN202210907013A CN115101146A CN 115101146 A CN115101146 A CN 115101146A CN 202210907013 A CN202210907013 A CN 202210907013A CN 115101146 A CN115101146 A CN 115101146A
Authority
CN
China
Prior art keywords
predicted
drug
medicine
embedding vector
protein sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210907013.1A
Other languages
English (en)
Other versions
CN115101146B (zh
Inventor
彭有梅
黄津津
陈彦宏
李文欢
付小倩
张壮丽
刘尚坤
谢银峰
王娅蓉
张艳
马方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202210907013.1A priority Critical patent/CN115101146B/zh
Publication of CN115101146A publication Critical patent/CN115101146A/zh
Application granted granted Critical
Publication of CN115101146B publication Critical patent/CN115101146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及生物医药技术领域,具体涉及一种基于Weisfeiler‑Lehman与深度神经网络的药物靶点预测方法及系统,包括,获取待预测药物的药物分子和待预测靶点的蛋白分子,进而得到待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量,从而得到药物嵌入向量特征和蛋白序列嵌入向量特征;根据预先构建并训练好的深度神经预测网络、药物嵌入向量特征以及蛋白序列嵌入向量特征,确定药物靶点相互作用关系。本发明有效提高了预测药物靶点相互作用关系的准确性。

Description

基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方 法及系统
技术领域
本发明涉及生物医药技术领域,具体涉及一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统。
背景技术
当前科学理论环境下,无论是研发新药还是老药新用,核心环节都是对药物靶点相互作用的发现。随着科学技术不断进步,生物数据量在急剧上升,迫切需要提取庞大数据信息的新方法,因此,药物靶点相互作用在靶向药物的发现和开发中起着至关重要的作用。
受到通量、周期和成本的影响,传统的实验方法很难对潜在的药物靶点相互作用进行广泛筛选与发现,对于药物靶点相互作用的预测计算方法主要包括:基于结构、基于配体以及数据驱动这三类。例如,使用药物配体对接的方法以靶点结构为基础,预测药物靶点之间的相互作用;现有提出一种基于扩展连接性指纹图谱(Extended ConnectivityFingerprint,ECFP)的方法对相似的配体进行编码,从而探究药物靶点直接的相互作用关系;因为当前大量生物数据的产生,以数据驱动的药物靶点相互作用关系的发现方法越来越多,现有还提出了一种表型副作用相似性方法用于药物的重定位,该方法需要大量生物数据作为支撑;深度学习作为典型的数据驱动型方法,已经广泛应用于药物靶点的预测与筛选,但大多为浅层网络模型。
然而,当采用上述现有的药物靶点相互作用的预测计算方法时,经常会存在如下技术问题:
第一,现有方法只解析药物分子特征,无法对药物分子和蛋白靶点的全部构象空间以及互作关系进行全面解析;
第二,浅层网络模型无法表示更高级的非线性网络结构,无法全面地融合各类信息网络结构并学习特征,导致药物靶点相互作用的预测准确性较差。
发明内容
为了解决上述现有药物靶点相互作用的预测准确性较差的技术问题,本发明的目的在于提供一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统。
本发明提供了一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法,包括以下步骤:
获取待预测药物的药物分子和待预测靶点的蛋白分子,对待预测药物的药物分子和待预测靶点的蛋白分子进行数据预处理操作,得到待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量;
对待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量进行特征提取操作,得到待预测药物的药物嵌入向量特征和待预测靶点的蛋白序列嵌入向量特征;
根据预先构建并训练好的深度神经预测网络、待预测药物的药物嵌入向量特征以及待预测靶点的蛋白序列嵌入向量特征,确定待预测药物和待预测靶点之间的相互作用关系。
进一步的,得到待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量的步骤包括:
根据待预测药物的药物分子,得到简化分子线性输入规范后的药物分子,进而得到药物分子的图数据集;
根据药物分子的图数据集,对图数据集进行子图结构提取处理,得到药物分子的各个子结构;
根据药物分子的各个子结构的原子节点,对各个子结构中各相同子结构的原子节点进行编码,得到待预测药物的指纹图谱;
根据待预测药物分子的各个子结构的原子节点,判断各个子结构的原子节点之间是否存在化学键,进而确定待预测药物的邻接矩阵;
根据待预测靶点的蛋白分子,得到蛋白分子的氨基酸序列;
构建预设尺寸的滑窗,并使该预设尺寸的滑窗对蛋白分子的氨基酸序列进行滑动分词,得到蛋白分子的各氨基酸子序列,进而得到待预测靶点的蛋白质序列向量。
进一步的,得到待预测药物的药物嵌入向量特征和待预测靶点的蛋白序列嵌入向量特征的步骤包括:
根据待预测药物的指纹图谱和邻接矩阵以及预先构建并训练好的多层图卷积神经网络,确定待预测药物的药物嵌入向量特征;
对待预测靶点的蛋白序列嵌入向量特征进行编码处理,并将编码处理后的蛋白序列嵌入向量特征输入到预先构建并训练好的双向长短记忆神经网络,得到双向长短记忆神经网络的输出数据;
根据待预测药物的药物嵌入向量特征和双向长短记忆神经网络的输出数据,得到待预测靶点的蛋白序列嵌入向量特征。
进一步的,确定待预测药物和待预测靶点之间的相互作用关系的步骤包括:
将待预测药物的药物嵌入向量特征和待预测靶点的蛋白序列嵌入向量特征输入预先构建并训练好的深度神经预测网络,输出待预测药物和待预测靶点之间的相互作用关系。
进一步的,训练深度神经预测网络的步骤包括:
构建深度神经预测网络的框架;
获取K个药物的药物嵌入向量特征、K个靶点的蛋白序列嵌入向量特征、K个药物和K个靶点之间的相互作用关系,将K个药物的药物嵌入向量特征和K个靶点的蛋白序列嵌入向量特征作为深度神经预测网络的训练数据,将K个药物和K个靶点之间的相互作用关系作为标签数据;
构建训练数据划分函数,将K个药物的药物嵌入向量特征和K个靶点的蛋白序列嵌入向量特征划分为M份;
根据深度神经预测网络的M份训练数据和框架,对深度神经预测网络进行训练,并将进行M折交叉验证,进而实现对深度神经预测网络的训练。
本发明还提供了一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令,以实现一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法。
本发明具有如下有益效果:
本发明通过获取待预测药物的药物分子和待预测靶点的蛋白分子,对待预测药物的药物分子和待预测靶点的蛋白分子进行数据预处理操作,得到待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量,进而对待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量进行特征提取操作,得到待预测药物的药物嵌入向量特征以及待预测靶点的蛋白序列嵌入向量特征;根据预先构建并训练好的深度神经预测网络、待预测药物的药物嵌入向量特征以及待预测靶点的蛋白序列嵌入向量特征,确定待预测药物和待预测靶点之间的相互作用关系。
本发明通过得到待预测药物的药物嵌入向量特征和待预测靶点的蛋白序列嵌入向量特征,可以捕获待预测药物的药物分子和待预测靶点的蛋白分子中的细节信息,通过对待预测药物的药物分子和待预测靶点的蛋白分子进行向量嵌入处理,有效提高了网络输入数据的显著性,进而提高了药物靶点预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法的流程图1;
图2为本发明基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法的流程图2;
图3为本发明实施例中深度神经预测网络结构示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
药物发现是确定具有潜在治疗作用的新候选化合物的过程,而药物靶标相互作用的预测是药物发现过程中必不可少的一步。机器学习以及深度学习方法可以极大地利用计算机的算力资源,这些方法已经被广泛应用于DTIs(Drug-target Interactions,药物靶点相互作用)的预测,可以极大的缩短药物重定位的实验周期和研发成本。深度学习作为典型的数据驱动型方法,已经广泛应用于药物靶点的预测与筛选。例如,利用图卷积神经网络预测新冠药物,开发带有社区检测功能的深度学习算法实现了对药物靶点的准确预测,开发了基于余弦相关和相似性比较的方法成功找到了雷公藤素新的作用靶点。上述的方法均以神经网络本身探究药物与蛋白靶点之间的互作关系,只解析了药物分子特征,无法对药物分子和蛋白靶点的全部构象空间以及互作关系进行全面解析。基于上述分析,本实施例提供了一种基于Weisfeiler-Lehman和Transformer的深度神经网络预测药物靶点相互作用的方法,如图1、图2所示,该方法包括以下步骤:
(1)获取待预测药物的药物分子和待预测靶点的药物分子,对待预测药物的药物分子和待预测靶点的蛋白分子进行数据预处理操作,得到待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量。
从现有数据库中采集待预测药物的药物分子和待预测靶点的药物分子,待预测药物的药物分子和待预测靶点的药物分子可用于后续确定两者之间的相互作用关系,为了便于提高作用关系预测系统的运算速度,本实施将对待预测药物的药物分子和待预测靶点的蛋白分子进行数据预处理操作,从而得到待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量,其步骤包括:
(1-1)根据待预测药物的药物分子,得到简化分子线性输入规范后的药物分子,进而得到药物分子的图数据集。
在本实施例中,通过获取待预测药物的药物分子在现有数据库中的存储ID(Identity,编号),得到待预测药物的药物分子的结构,采用简化分子线性输入规范(Simplified molecular input line entry system,SMILES)对待预测药物的药物分子的结构进行处理,得到简化分子线性输入规范后的药物分子。利用广度优先搜索算法遍历简化分子线性输入规范后的药物分子的所有的原子n和化学键e,生成图数据集G,G={N,E},其中N为药物分子的所有原子的集合,且将原子作为图的节点,E为药物分子的所有化学键的集合,且将化学键作为图的边,进而对图数据中的芳香原子和芳香键进行特殊标注,并将标注后的芳香原子和芳香键分别加入到药物分子对应的所有原子的集合N和所有化学键的集合中。至此,本实施例得到了药物分子的图数据集。
需要说明的是,简化分子线性输入规范和广度优先搜索算法的实现过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
(1-2)根据药物分子的图数据集,对图数据集进行子图结构提取处理,得到药物分子的各个子结构。
在本实施例中,以图中的任意一个原子节点为起点对其邻居节点进行搜索,将搜索深度作为特定节点的跳数,搜索深度记为r。例如,定义图中的第i个原子节点为ni,从第i个原子节点ni开始搜索,在搜索深度r内遍历第i个原子节点对应的邻居节点,从而得到第i个原子节点对应的子图,其计算公式为:
Figure BDA0003772804480000051
Figure BDA0003772804480000052
其中,N(i,r)为图中的第i个原子节点的邻居节点集合,
Figure BDA0003772804480000053
为图中的第i个原子节点对应的子图的原子节点集合,ni为图中的第i个原子节点,nj为图中的第i个原子节点的邻居节点集合中的第j个邻居节点;
Figure BDA0003772804480000054
为图中的第i个原子节点对应的子图的化学键集合,emn为图中的第i个原子节点的邻居节点集合中的第m个邻居节点与第n个邻居节点之间的化学键,nm为图中的第i个原子节点的邻居节点集合中的第m个邻居节点,nn为图中的第i个原子节点的邻居节点集合中的第n个邻居节点。
需要说明的是,根据步骤(1-1)得到的药物分子的图数据集G={N,E},将搜索深度为r的第i个原子节点ni对应的子图记为
Figure BDA0003772804480000055
Figure BDA0003772804480000056
邻居节点也是原子节点,第i个原子节点的邻居节点均包含在第i个原子节点对应的子图
Figure BDA0003772804480000057
内,第m个邻居节点与第n个邻居节点均包含在第i个原子节点的邻居节点集合内。另外,需要说明的是,并非全部的两个相邻的原子节点之间都存在化学键,若第m个邻居节点nm与第n个邻居节点nn之间存在化学键,则<nm,nn>为两个原子节点之间的边;若第m个邻居节点nm与第n个邻居节点nn之间不存在化学键,则继续确定下一个相邻的节点之间是否存在化学键,从而得到第i个原子节点对应的子图的化学键集合。
至此,本实施例得到搜索深度为r的第i个原子节点ni对应的子图,子图也可以称为子结构,也就是得到了第i个原子节点ni对应的子结构,参考药物分子的第i个原子节点ni对应的子结构的确定过程,可以得到药物分子的各个子结构。
(1-3)根据药物分子的各个子结构的原子节点,对各个子结构中各相同子结构的原子节点进行编码,得到待预测药物的指纹图谱。
在本实施例中,根据步骤(1-2)获得的药物分子的子结构,提取药物分子的子结构相应的特征,每个子结构均有对应的多个特征,多个特征包括原子类型、芳香性以及化学键类型,对这些特征均采用one-hot编码(独热编码)进行处理,将编码后的特征作为Weisfeiler-Lehman算法输入时的初始特征信息。以确定第s个原子节点对应的新特征信息为例,根据第s个原子节点对应的子结构和初始特征信息,聚合第s个原子节点的邻域节点的初始特征信息,并将聚合后的初始特征信息作为第s个原子节点的更新后的特征信息,从而实现对第s个原子节点的初始特征信息的更新,再次根据第s个原子节点的更新后的特征信息,聚合第s个原子节点的邻域节点的特征信息,不断对第s个原子节点的特征信息进行更新,直至满足预设聚合更新次数,本实施将其设置为3,将最后的更新后的特征信息作为对应第s个原子节点的新特征信息,其计算公式为:
Figure BDA0003772804480000061
其中,
Figure BDA0003772804480000062
为第s个原子节点在执行第k次聚合更新时对应的特征信息,
Figure BDA0003772804480000063
为第s个原子节点对应的邻居节点集合中的第j个邻居节点在执行第k-1次聚合更新时对应的特征信息,nj为第s个原子节点对应的邻居节点集合中的第j个邻居节点,N(s,r)为子结构中的第s个原子节点对应的邻居节点集合,AGGREGATEk()为第k次聚合更新时的求和函数。
需要说明的是,第s个原子节点对应的各邻居节点均在其对应的子结构内,子结构中的各个原子节点均可以通过聚合其邻域信息更新对应原子节点的初始特征信息,进而可以得到子结构中的各个原子节点的新特征信息,从而得到图中的各个原子节点在执行第k次聚合更新时的特征信息,k设置为3。
最终将每个子结构中的各个原子节点的新特征信息作为各个原子节点的编码信息,根据每个子结构中的各个原子节点的编码信息,可以得到待预测药物的药物分子信息,也就是得到待预测药物的指纹图谱,待预测药物的指纹图谱可表示为:
Figure BDA0003772804480000064
Drug=(x1,x2,…,xs,…,xz),k=0
其中,z为药物分子的子结构个数,k为执行聚合更新操作的次数,
Figure BDA0003772804480000071
为图中的第s个原子节点在执行第k次聚合更新时对应的特征信息,也就是第s个原子节点的编码信息,xs为第s个原子节点的初始特征信息,Drug为待预测药物的指纹图谱。
至此,本实施例得到了待预测药物的指纹图谱(fingerprints),后续可以将其输入到预先构建并训练好的神经网络模型。本实施例以Weisfeiler-Lehman算法思想为基础对药物分子进行数据预处理以生成自定义药物分子指纹图谱,相比传统的指纹图谱确定方式,有效提高了所确定的指纹图谱的准确性和显著特征,便于后续分析药物靶点之间的相互作用关系。
(1-4)根据待预测药物分子的各个子结构的原子节点,判断各个子结构的原子节点之间是否存在化学键,进而确定待预测药物的邻接矩阵。
在本实施例中,根据步骤(1-3)得到的待预测药物分子的各个子结构的原子节点,判断各个子结构的原子节点之间是否存在化学键,通过原子节点之间所存在的化学键,建立邻接矩阵(adjacency)。建立邻接矩阵的过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
(1-5)根据待预测靶点的蛋白分子,得到蛋白分子的氨基酸序列。
在本实施例中,通过待预测靶点的蛋白分子可以得到蛋白分子的氨基酸序列,所得到的蛋白分子的氨基酸序列便于后续进行向量嵌入处理。
(1-6)构建预设尺寸的滑窗,并使该预设尺寸的滑窗对蛋白分子的氨基酸序列进行滑动分词,得到蛋白分子的各氨基酸子序列,进而得到待预测靶点的蛋白质序列向量。
本实施例在保证词汇表达能力的同时,也确保词汇量大小的合理性,增加Transformer模型的表达能力,对蛋白分子的氨基酸序列进行数据预处理从操作,具体为,构建预设尺寸为3*1的滑动窗口,并使该预设尺寸的滑动窗口在蛋白分子的氨基酸序列上滑动分词,将氨基酸序列划分为多个词语长度为3的氨基酸子序列,也就是单一词语长度为3个字符。通过蛋白分子的各氨基酸子序列,建立蛋白序列词汇字典,使蛋白分子的氨基酸序列按照蛋白序列词汇字典进行编号,建立蛋白质序列向量。
(2)对待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量进行特征提取操作,得到待预测药物的药物嵌入向量特征和待预测靶点的蛋白序列嵌入向量特征,其步骤包括:
(2-1)根据待预测药物的指纹图谱和邻接矩阵以及预先构建并训练好的多层图卷积神经网络,确定待预测药物的药物嵌入向量特征。
在本实施例中,以待预测药物的指纹图谱(fingerprint)和邻接矩阵(adjacency)为输入数据,输入到由3层图卷积神经网络构成的嵌入向量特征模型中,得到待预测药物的药物嵌入向量特征。多层图卷积神经网络降低了药物空间向量的维度,富集药物分子更多的信息,也捕获了药物分子更高阶的特征信息。图卷积神经网络的构建和训练过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
(2-2)对待预测靶点的蛋白序列嵌入向量特征进行编码处理,并将编码处理后的蛋白序列嵌入向量特征输入到预先构建并训练好的双向长短记忆神经网络,得到双向长短记忆神经网络的输出数据。
在本实施例中,以待预测靶点的蛋白序列嵌入向量特征为输入数据,输入到具有5个注意力头和6层Transformer编码层的编码处理模块中,对蛋白序列嵌入向量特征进行编码处理,然后将编码处理模块的输出结果再输入到预先构建并训练好的双向长短记忆神经网络(BiLSTM),进行蛋白质特征学习,双向长短记忆神经网络(BiLSTM)是循环神经网络(Recurrent neural network,RNN)的一种延伸,从而得到双向长短记忆神经网络的输出数据。
(2-3)根据待预测药物的药物嵌入向量特征和双向长短记忆神经网络的输出数据,得到待预测靶点的蛋白序列嵌入向量特征。
在本实施例中,步骤(2-1)中的待预测药物的药物嵌入向量特征以注意力机制的形式与双向长短记忆神经网络的输出数据进行线性计算,将线性计算的结果作为待预测靶点的蛋白序列嵌入向量特征。至此,本实施例通过Transformer方法对蛋白序列进行向量嵌入处理,得到了蛋白序列嵌入向量特征,进而蛋白序列特征向量按照步骤(1-6)构建的蛋白序列词汇字典进行初始化处理。
(3)根据预先构建并训练好的深度神经预测网络、待预测药物的药物嵌入向量特征以及待预测靶点的蛋白序列嵌入向量特征,确定待预测药物和待预测靶点之间的相互作用关系。
将待预测药物的药物嵌入向量特征和待预测靶点的蛋白序列嵌入向量特征输入预先构建并训练好的深度神经预测网络,输出待预测药物和待预测靶点之间的相互作用关系。
在本实施例中,以药物嵌入向量特征和蛋白序列嵌入向量特征为输入数据,输入维度为药物嵌入向量特征和蛋白序列嵌入向量特征的维度之和,输入到预先构建并训练好的深度神经预测网络中,两个嵌入向量特征在3层全连接的预先构建并训练好的深度神经网络中进行线性计算,预测网络输出结果可用于表示待预测药物和待预测靶点之间的相互作用关系,若输出为0,则表示待预测药物和待预测靶点之间的相互作用关系为阴性结果,若输出为1,则表示待预测药物和待预测靶点之间的相互作用关系为阳性结果。本实施例以多层全连接的预先构建并训练好的深度神经网络进行预测分析,很好地融合了各类信息网络结构及学习特征,有效提高了药物靶点相互作用预测结果的准确性。
其中,训练深度神经预测网络过程在预测药物靶点相互作用中起到关键作用,深度神经预测网络结构示意图如图3所示,训练深度神经预测网络的步骤包括:
(3-1)构建深度神经预测网络的框架。
在本实施例中,深度神经预测网络的框架由多层深度神经预测网络构建,其具体层数可由实施者根据实际情况确定,本实施例不做具体要求,构建深度神经预测网络的框架的过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
(3-2)获取K个药物的药物嵌入向量特征、K个靶点的蛋白序列嵌入向量特征、K个药物和N个靶点之间的相互作用关系,将K个药物的药物嵌入向量特征和K个靶点的蛋白序列嵌入向量特征作为深度神经预测网络的训练数据,将K个药物和K个靶点之间的相互作用关系作为标签数据。
从现有药物靶点相互作用关系数据库中采集药物的药物分子相关数据和靶点的蛋白分子相关数据,药物靶点相互作用关系数据库以2008年收集并公布的药物靶点相互作用关系DTI预测数据集Yamanishi_08为基础,利用网络爬虫技术从DrugBank、KEGG BRITE等数据库对2008年到现在已收录的药物靶点相互作用关系DTI预测数据进行爬取并去重,将爬取并去重后的药物靶点相互作用关系DTI预测数据与Yamanishi_08相合并,从而得到神经网络训练所需的数据库。数据库中药物分子相关数据为932个,蛋白分子相关数据为989个,已知两者之间的相互作用关系的数据为5127个,数据库中共有四种不同类型的靶点,分别为核酸受体、G蛋白偶联受体、离子通道和酶,数据库中还包括药物靶点作用关系矩阵、解离常数、抑制常数以及半数抑制浓度,数据库中的数据信息如表1所示:
表1
Figure BDA0003772804480000091
通过上述构建的数据库,获取药物分子相关数据和蛋白分子相关数据在对应数据库中存储的编号ID,根据药物分子相关数据和蛋白分子相关数据的编号ID,提取药物分子的结构和蛋白分子的蛋白序列,其中,采用简化分子线性输入规范(SMILES)对药物分子进行处理,得到满足简化分子线性输入规范的药物分子,蛋白分子的蛋白序列为蛋白分子对应的氨基酸简写所组成的序列,按照药物靶点作用关系矩阵,将满足简化分子线性输入规范的药物分子和蛋白分子对应的氨基酸简写所组成的序列映射为药物-靶点,将其称为药物靶点对。
药物靶点对包括已验证的药物靶点和未验证的药物靶点对,未验证的药物靶点对包含未被发现,但是客观存在相互作用的药物靶点对。由于爬取并存储的药物靶点对均为正样本,正样本式是已知相互作用关系的药物靶点对,假设未验证的药物靶点对存在互相作用的概率不大于已验证的药物靶点对存在互相作用的概率,基于上述假设采用PairWise模型构造训练样本,具体为,从已验证互相作用的药物靶点对中选取一个正样本的同时,也从未验证互相作用的药物靶点对中选取一个负样本,负样本是指待定相互作用关系的药物靶点对,通过各个对应的正样本和负样本构造训练样本,得到数量相同的成对的训练样本集。
根据数量相同的成对的训练样本集,参考步骤(1)至步骤(2)获取待预测药物的药物嵌入向量特征以及待预测靶点的蛋白序列嵌入向量特征的过程,对成对的训练样本进行数据预处理和特征提取处理,得到K对的药物嵌入向量特征和蛋白序列嵌入向量特征,将K对的药物嵌入向量特征和蛋白序列嵌入向量特征作为深度神经预测网络的训练数据。
(3-3)构建训练数据划分函数,将K个药物的药物嵌入向量特征和K个靶点的蛋白序列嵌入向量特征划分为M份。
在本实施例中,根据训练数据的实际情况构建训练数据划分函数,通过训练数据划分函数,将步骤(3-2)得到的K对的药物嵌入向量特征和蛋白序列嵌入向量特征划分为M份,M为大于3的正整数,构建训练数据划分函数的过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
(3-4)根据深度神经预测网络的M份训练数据和框架,对深度神经预测网络进行训练,并将进行M折交叉验证,进而实现对深度神经预测网络的训练,其步骤包括:
(3-4-1)由步骤(3-3)可知将训练数据划分为M份,那么本实施例将进行M折交叉验证,即每一次训练选取M份训练数据中的任意一份训练数据作为验证集,剩余的M-1份训练数据为训练集,通过每次交叉验证的整体训练结果调整网络模型的参数,从而得到各个网络模型参数对应的训练预测结果,也就是通过深度神经预测网络的M份训练数据和框架,对深度神经预测网络进行训练。M折交叉验证的实现过程和深度神经预测网络的训练过程均为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
(3-4-2)为了提高深度神经预测网络的预测准确性,本实施例将使用交叉熵函数作为神经预测网络的损失函数,使用Adam函数作为神经预测网络的优化器。
对于神经预测网络的交叉熵函数来讲,在二分类任务中,某一个样本数据的预测输出值为
Figure BDA0003772804480000111
该样本数据对应的标签值为y,其损失函数为:
Figure BDA0003772804480000112
其中,
Figure BDA0003772804480000113
为某一个样本数据的预测输出值为
Figure BDA0003772804480000114
时对应的损失函数,
Figure BDA0003772804480000115
为某一个样本数据的预测输出值,y为某一个样本数据对应的标签值。
对于神经预测网络的优化器Adam函数来讲,确定一阶动量的计算公式为:
mt=β1mt-1+(1-β1)·gt
其中,mt为第t次训练对应的一阶动量,mt-1为第t-1次训练对应的一阶动量,gt为第t次训练的损失函数对应的待优化参数的梯度,β1为超参数,本实施例将超参数β1设定为0.9。
确定二阶动量的计算公式为:
Figure BDA0003772804480000116
其中,Vt为第t次训练对应的二阶动量,Vt-1为第t-1次训练对应的二阶动量,gt为第t次训练的损失函数对应的待优化参数的梯度,β2超参数,本实施例将超参数β2设定为0.999。
若mt和Vt被初始化为零向量,那它们就会向0偏置,产生偏差,需要对mt和Vt进行偏差校正,其计算公式为:
Figure BDA0003772804480000117
Figure BDA0003772804480000118
其中,
Figure BDA0003772804480000119
为第t次训练对应的校正后的一阶动量,mt为第t次训练对应的一阶动量,β1为超参数,本实施例将超参数β1设定为0.9,
Figure BDA00037728044800001110
为第t次训练对应的校正后的二阶动量,Vt为第t次训练对应的二阶动量,β2超参数,本实施例将超参数β2设定为0.999。
根据偏差校正后的mt和Vt对网络模型权重进行更新,其计算公式为:
Figure BDA00037728044800001111
其中,wt+1为第t+1次训练对应的网络模型权重,也就是更新后的网络模型权重,wt为第t次训练对应的网络模型权重,也就是更新前的网络模型权重,θt为衰减系数,lr为预设学习率,本实施例将预设学习率lr设定为0.001,
Figure BDA00037728044800001112
为第t次训练对应的校正后的一阶动量,
Figure BDA00037728044800001113
为第t次训练对应的校正后的二阶动量。
需要说明的是,交叉熵函数和Adam函数的构建和实现过程均为现有技术,不在本发明保护范围内,此处不再进行详细仔细地阐述。
(3-4-3)为了提高深度神经预测网络的预测准确性,本实施例将构建预测结果评估模块,包括ROC曲线和PR曲线,通过ROC曲线和PR曲线验证深度神经预测网络的预测效果,其步骤包括:
(3-4-3-1)根据深度神经预测网络训练过程中的预测结果,构建坐标系,绘制ROC曲线,坐标系的横轴为假阳性率FPR,纵轴为真阳性率TPR。ROC曲线的真阳性率TPR和假阳性率FPR的计算公式为:
Figure BDA0003772804480000121
Figure BDA0003772804480000122
其中,TPR为ROC曲线的真阳性率,TP为将测试集中的正样本数据预测为正样本的个数,FN为将测试集中的正样本数据预测为负样本的个数,FPR为ROC曲线的假阳性率,FP为将测试集中的负样本数据预测为正样本的个数,TN为将测试集中的负样本数据预测为负样本的个数。
(3-4-3-2)根据深度神经预测网络训练过程中的预测结果,构建坐标系,绘制PR曲线,坐标系的横轴为召回率recall,纵轴为精确率precision。PR曲线的召回率recall和精确率precision的计算公式为:
Figure BDA0003772804480000123
Figure BDA0003772804480000124
其中,precision为PR曲线的精确率,TP为将测试集中的正样本数据预测为正样本的个数,FP为将测试集中的负样本数据预测为正样本的个数,recall为PR曲线的召回率,FN为将测试集中的正样本数据预测为负样本的个数。
通过,根据绘制好的ROC曲线和PR曲线,计算ROC曲线对应的AUROC和PR曲线对应的AUPR,根据计算结果,确定最优预测结果下的模型参数,进而确定最优深度神经预测网络。
需要说明的是,ROC曲线所覆盖曲线下面积AUROC越大,表示深度神经预测网络的预测效果越好,AUROC是一个介于0到1之间的数值,当AUROC值接近于1时,表示分类器可以较好的分类正负样本。PR曲线所覆盖的精确召回曲线下面积AUPR越大,表示深度神经预测网络的预测效果越好。
(3-4-4)根据步骤(3-4-3-2)得到的最优深度神经预测网络,计算药物靶点存在相互作用的概率,筛选出可能性大的药物靶点对作为候选的、能发生相互作用的药物靶点对,作为最终的预测结果。
本实施例还提供了一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令,以实现上述一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (6)

1.一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法,其特征在于,包括以下步骤:
获取待预测药物的药物分子和待预测靶点的蛋白分子,对待预测药物的药物分子和待预测靶点的蛋白分子进行数据预处理操作,得到待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量;
对待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量进行特征提取操作,得到待预测药物的药物嵌入向量特征和待预测靶点的蛋白序列嵌入向量特征;
根据预先构建并训练好的深度神经预测网络、待预测药物的药物嵌入向量特征以及待预测靶点的蛋白序列嵌入向量特征,确定待预测药物和待预测靶点之间的相互作用关系。
2.根据权利要求1所述的方法,其特征在于,得到待预测药物的指纹图谱和邻接矩阵以及待预测靶点的蛋白质序列向量的步骤包括:
根据待预测药物的药物分子,得到简化分子线性输入规范后的药物分子,进而得到药物分子的图数据集;
根据药物分子的图数据集,对图数据集进行子图结构提取处理,得到药物分子的各个子结构;
根据药物分子的各个子结构的原子节点,对各个子结构中各相同子结构的原子节点进行编码,得到待预测药物的指纹图谱;
根据待预测药物分子的各个子结构的原子节点,判断各个子结构的原子节点之间是否存在化学键,进而确定待预测药物的邻接矩阵;
根据待预测靶点的蛋白分子,得到蛋白分子的氨基酸序列;
构建预设尺寸的滑窗,并使该预设尺寸的滑窗对蛋白分子的氨基酸序列进行滑动分词,得到蛋白分子的各氨基酸子序列,进而得到待预测靶点的蛋白质序列向量。
3.根据权利要求1所述的方法,其特征在于,得到待预测药物的药物嵌入向量特征和待预测靶点的蛋白序列嵌入向量特征的步骤包括:
根据待预测药物的指纹图谱和邻接矩阵以及预先构建并训练好的多层图卷积神经网络,确定待预测药物的药物嵌入向量特征;
对待预测靶点的蛋白序列嵌入向量特征进行编码处理,并将编码处理后的蛋白序列嵌入向量特征输入到预先构建并训练好的双向长短记忆神经网络,得到双向长短记忆神经网络的输出数据;
根据待预测药物的药物嵌入向量特征和双向长短记忆神经网络的输出数据,得到待预测靶点的蛋白序列嵌入向量特征。
4.根据权利要求1所述的方法,其特征在于,确定待预测药物和待预测靶点之间的相互作用关系的步骤包括:
将待预测药物的药物嵌入向量特征和待预测靶点的蛋白序列嵌入向量特征输入预先构建并训练好的深度神经预测网络,输出待预测药物和待预测靶点之间的相互作用关系。
5.根据权利要求1所述的方法,其特征在于,训练深度神经预测网络的步骤包括:
构建深度神经预测网络的框架;
获取K个药物的药物嵌入向量特征、K个靶点的蛋白序列嵌入向量特征、K个药物和K个靶点之间的相互作用关系,将K个药物的药物嵌入向量特征和K个靶点的蛋白序列嵌入向量特征作为深度神经预测网络的训练数据,将K个药物和K个靶点之间的相互作用关系作为标签数据;
构建训练数据划分函数,将K个药物的药物嵌入向量特征和K个靶点的蛋白序列嵌入向量特征划分为M份;
根据深度神经预测网络的M份训练数据和框架,对深度神经预测网络进行训练,并将进行M折交叉验证,进而实现对深度神经预测网络的训练。
6.一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测系统,其特征在于,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令,以实现如权利要求1-5中任一项所述的一种基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法。
CN202210907013.1A 2022-07-29 2022-07-29 基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统 Active CN115101146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210907013.1A CN115101146B (zh) 2022-07-29 2022-07-29 基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210907013.1A CN115101146B (zh) 2022-07-29 2022-07-29 基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统

Publications (2)

Publication Number Publication Date
CN115101146A true CN115101146A (zh) 2022-09-23
CN115101146B CN115101146B (zh) 2024-09-06

Family

ID=83300394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210907013.1A Active CN115101146B (zh) 2022-07-29 2022-07-29 基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统

Country Status (1)

Country Link
CN (1) CN115101146B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631793A (zh) * 2022-12-01 2023-01-20 新格元(南京)生物科技有限公司 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备
CN117116384A (zh) * 2023-10-20 2023-11-24 聊城高新生物技术有限公司 一种靶向诱导的医药分子结构生成方法
CN117592114A (zh) * 2024-01-19 2024-02-23 中国电子科技集团公司第三十研究所 面向网络平行仿真的数据脱敏方法、系统和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200392178A1 (en) * 2019-05-15 2020-12-17 International Business Machines Corporation Protein-targeted drug compound identification
CN112133367A (zh) * 2020-08-17 2020-12-25 中南大学 药物与靶点间的相互作用关系预测方法及装置
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法
US20220415433A1 (en) * 2020-07-21 2022-12-29 Tencent Technology (Shenzhen) Company Limited Drug screening method and apparatus, and electronic device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200392178A1 (en) * 2019-05-15 2020-12-17 International Business Machines Corporation Protein-targeted drug compound identification
US20220415433A1 (en) * 2020-07-21 2022-12-29 Tencent Technology (Shenzhen) Company Limited Drug screening method and apparatus, and electronic device
CN112133367A (zh) * 2020-08-17 2020-12-25 中南大学 药物与靶点间的相互作用关系预测方法及装置
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
谢倩倩;李订芳;章文;: "基于集成学习的离子通道药物靶点预测", 计算机科学, no. 04, 15 April 2015 (2015-04-15) *
黄翼飞;蔡赞;吴君章;周;肖小华;李攻科;: "定量结构-保留相关关系辅助气相色谱-质谱法和气相色谱-红外光谱法定性分析香精中的醛酮酯类化合物", 分析化学, no. 10, 15 October 2015 (2015-10-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631793A (zh) * 2022-12-01 2023-01-20 新格元(南京)生物科技有限公司 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备
CN115631793B (zh) * 2022-12-01 2023-05-26 新格元(南京)生物科技有限公司 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备
CN117116384A (zh) * 2023-10-20 2023-11-24 聊城高新生物技术有限公司 一种靶向诱导的医药分子结构生成方法
CN117116384B (zh) * 2023-10-20 2024-01-09 聊城高新生物技术有限公司 一种靶向诱导的医药分子结构生成方法
CN117592114A (zh) * 2024-01-19 2024-02-23 中国电子科技集团公司第三十研究所 面向网络平行仿真的数据脱敏方法、系统和可读存储介质
CN117592114B (zh) * 2024-01-19 2024-04-19 中国电子科技集团公司第三十研究所 面向网络平行仿真的数据脱敏方法、系统和可读存储介质

Also Published As

Publication number Publication date
CN115101146B (zh) 2024-09-06

Similar Documents

Publication Publication Date Title
Chen et al. Alchemy: A quantum chemistry dataset for benchmarking ai models
CN115101146B (zh) 基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统
Ballard et al. Energy landscapes for machine learning
CN112639831A (zh) 互信息对抗自动编码器
CN114093527B (zh) 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和系统
CN106529205A (zh) 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法
Wang et al. Improved fragment sampling for ab initio protein structure prediction using deep neural networks
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
Kim et al. Bayesian neural network with pretrained protein embedding enhances prediction accuracy of drug-protein interaction
CN116206688A (zh) 一种用于dta预测的多模态信息融合模型及方法
US20220208540A1 (en) System for Identifying Structures of Molecular Compounds from Mass Spectrometry Data
CN115526246A (zh) 一种基于深度学习模型的自监督分子分类方法
CN115985520A (zh) 基于图正则化矩阵分解的药物疾病关联关系的预测方法
Beltran et al. Predicting protein-protein interactions based on biological information using extreme gradient boosting
Wang et al. MVIL6: Accurate identification of IL-6-induced peptides using multi-view feature learning
CN118155746A (zh) 一种预测分子性质的双通道对比模型
Yang et al. GGAC: Multi-relational image gated GCN with attention convolutional binary neural tree for identifying disease with chest X-rays
Tian et al. GTAMP-DTA: Graph transformer combined with attention mechanism for drug-target binding affinity prediction
Maljković et al. Prediction of structural alphabet protein blocks using data mining
CN114898815B (zh) 药物发现领域中基于空间结构的同质相互作用预测方法和装置
CN115458046A (zh) 基于并行式深层细粒度模型预测药物靶标结合性的方法
Jiang et al. A highly efficient biomolecular network representation model for predicting drug-disease associations
Chen et al. MFA-DTI: Drug-target interaction prediction based on multi-feature fusion adopted framework
Han et al. Tensor based relations ranking for multi-relational collective classification
Venkateshalu et al. Genomic Data Analysis With Optimized Convolutional Neural Network (CNN) for Edge Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant