CN115458061B - 一种药物-蛋白质相互作用预测方法及系统 - Google Patents
一种药物-蛋白质相互作用预测方法及系统 Download PDFInfo
- Publication number
- CN115458061B CN115458061B CN202211258086.9A CN202211258086A CN115458061B CN 115458061 B CN115458061 B CN 115458061B CN 202211258086 A CN202211258086 A CN 202211258086A CN 115458061 B CN115458061 B CN 115458061B
- Authority
- CN
- China
- Prior art keywords
- protein
- drug
- matrix
- coding
- medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 51
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 162
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 162
- 239000003814 drug Substances 0.000 claims abstract description 102
- 229940079593 drug Drugs 0.000 claims abstract description 67
- 230000009456 molecular mechanism Effects 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000000126 substance Substances 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 70
- 230000007246 mechanism Effects 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 24
- 201000010099 disease Diseases 0.000 claims description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000008406 drug-drug interaction Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000009830 intercalation Methods 0.000 claims description 3
- 230000002687 intercalation Effects 0.000 claims description 3
- 230000004850 protein–protein interaction Effects 0.000 claims description 3
- 206010013710 Drug interaction Diseases 0.000 claims 2
- 108091005942 ECFP Proteins 0.000 claims 2
- 238000012512 characterization method Methods 0.000 claims 2
- 238000012805 post-processing Methods 0.000 claims 1
- 230000010534 mechanism of action Effects 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 12
- 150000001413 amino acids Chemical class 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000003446 ligand Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000003032 molecular docking Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 125000002924 primary amino group Chemical class [H]N([H])* 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000009511 drug repositioning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请公开了一种药物‑蛋白质相互作用预测方法及系统,其中,方法包括:收集药物‑蛋白质相互作用预测的数据集;对数据集进行预处理,得到处理后数据;基于处理后数据,进行蛋白质序列编码,提取蛋白质特征;基于蛋白特征,同时对药物和蛋白质的分子机制进行编码,得到第一编码结果;基于处理后数据,将药物和蛋白质的临床信息编码在一起,得到第二编码结果;根据第一编码结果和第二编码结果,计算药物‑蛋白质对的相互作用概率。本申请同时考虑了药物和蛋白质的化学属性、分子机制和临床功能;将药物和蛋白质的原始特征投影到了共同的嵌入子空间中;通过分析药物和蛋白质的特征的一致性,探究药物与蛋白质的作用机制。
Description
技术领域
本申请涉及计算生物学技术领域,具体涉及一种药物-蛋白质相互作用预测方法及系统。
背景技术
探索潜在的药物-蛋白质相互作用是药物发现和药物重定位的关键步骤。然而,通过生物实验的方法为具有复杂化学性质的药物分子寻找其相关靶蛋白质是一项耗资巨大、周期漫长、风险度极高且成功率很低的工程。因此,基于药物大数据与蛋白质大数据,计算预测药物与蛋白质间的相互作用,为生物学家后续的药物-蛋白质相互作用(DPI)鉴定试验提供可靠的药物-蛋白质候选,可以有效的加速药物重定位与药物研发的进程。近年来,利用计算学的方法来计算预测药物-蛋白质间的相互作用关系逐渐的成为了研究焦点。
早期计算预测药物-蛋白质相互作用主要是通过对接模拟与基于配体的两类方法。对接模拟的方法需要模拟蛋白质的3D结构,这种方法非常耗时,并且不是所有靶蛋白的结构信息都是已知的。基于配体的方法将要查询配体的靶蛋白与一组已知配体的靶蛋白进行比较,然而,在已知配体数量很少的情况下,这类方法的表现并不好。针对这些问题,学者们开始从网络的角度来计算预测药物-蛋白质相互作用。基于相似的药物更可能和同一个蛋白质发生相互作用,反之亦然的假设,通过整合药物-蛋白质异构网络中的多种信息来分析每一对药物与蛋白质发生相互作用的可能性。然而,在这些算法中,药物与蛋白质的编码过程都是独立的,药物的特征向量与蛋白质的特征向量并不具有特征的对应性。这使得预测模型无法分析到药物与蛋白质潜在的一致性。忽略药物和蛋白质间的这种一致性关系,可能会对药物-蛋白质相互作用的预测产生严重的负面影响。
发明内容
本申请利用共编码策略,通过保持分子嵌入特征的语义一致性来提高预测结果的准确性。
为实现上述目的,本申请提供了一种药物-蛋白质相互作用预测方法,步骤包括:
收集药物-蛋白质相互作用预测的数据集;
对所述数据集进行预处理,得到处理后数据;
基于所述处理后数据,进行蛋白质序列编码,提取蛋白质特征;
基于所述蛋白特征,同时对药物和蛋白质的分子机制进行编码,得到第一编码结果;
基于所述处理后数据,将所述药物和蛋白质的临床信息编码在一起,得到第二编码结果;
根据所述第一编码结果和所述第二编码结果,计算药物-蛋白质对的相互作用概率。
优选的,得到所述处理后数据的方法包括:利用符号化方法整合所述数据集,得到所述处理后数据。
优选的,所述处理后数据包括:药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据。
优选的,提取所述蛋白质特征的方法包括:基于双向长短期记忆神经网络构建蛋白质序列编码模型,从长度灵活的所述氨基酸序列中提取所述蛋白质特征。
优选的,得到所述第一编码结果的方法包括:基于全连接神经网络构建分子机制共编码模型,同时对所述药物和蛋白质的分子机制进行编码,从而将所述药物和蛋白质的原始特征投影到一个共同的嵌入空间中。
优选的,得到所述第二编码结果的方法包括:基于全连接神经网络构建临床功能共编码模型,将所述药物和蛋白质的临床信息编码在一起,得到所述第二编码结果。
优选的,计算所述药物-蛋白质对的相互作用概率的方法包括:构建基于卷积神经网络的DPI预测模型,通过所述第一编码结果和所述第二编码结果来计算药物-蛋白质对的相互作用概率。
本申请还提供了一种药物-蛋白质相互作用预测系统,包括:采集模块、预处理模块、蛋白质序列编码模块、分子机制共编码模块、临床功能共编码模块和DPI预测模块;
所述采集模块用于收集药物-蛋白质相互作用预测的数据集;
所述预处理模块对所述数据集进行预处理,得到处理后数据;
所述蛋白质序列编码模块用于基于所述处理后数据,进行蛋白质序列编码,提取蛋白质特征;
所述分子机制共编码模块用于基于所述蛋白特征,同时对药物和蛋白质的分子机制进行编码,得到第一编码结果;
所述临床功能共编码模块用于基于所述处理后数据,将所述药物和蛋白质的临床信息编码在一起,得到第二编码结果;
所述DPI预测模块用于根据所述第一编码结果和所述第二编码结果,计算药物-蛋白质对的相互作用概率。
与现有技术相比,本申请的有益效果如下:
本申请同时考虑了药物和蛋白质的化学属性、分子机制和临床功能;将药物和蛋白质的原始特征投影到了共同的嵌入子空间中,使药物和蛋白质的嵌入向量所表示的特征具有相同的含义;通过分析药物和蛋白质的特征的一致性,探究药物与蛋白质的作用机制。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一的蛋白质序列编码模型示意图;
图2为本申请实施例一的分子机制共编码模型示意图;
图3为本申请实施例一的临床功能共编码模型示意图;
图4为本申请实施例一的DPI预测模型示意图;
图5本本申请与其他DPI预测模型在两个数据集上的效果对比示意图;
图6为本申请实施例一的共同编码策略和独立编码策略的效果对比示意图;
图7为本申请实施例二的系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
本申请公开了一种新的药物-蛋白质相互作用预测方法——DNNCC,该方法侧重于探究药物与蛋白质间特征的一致性关系。在本实施例中,首先从几个相关的公共数据库中提取了药物-蛋白质相互作用预测的数据集,之后利用符号化方法整合所述数据集,得到所述处理后数据。处理后数据包括:药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据,得到处理后数据。其中,预处理过程是对采集到的数据进行符号化处理,将药物的SMILE转化为摩根化学指纹,蛋白的氨基酸序列转化为可以输入的数字特征,然后根据药物蛋白和疾病的和关系构建关联矩阵。
之后基于这些处理后数据,本实施例构建了四个子模型:蛋白质序列编码模型、分子机制共编码模型、临床功能共编码模型和DPI预测模型。其中,蛋白质序列编码模型基于双向长短期记忆(Bi-LSTM)神经网络构建,它可以从长度灵活的氨基酸序列中提取蛋白质特征。分子机制共编码模型是基于全连接神经网络构建的,该模型通过同时对药物和蛋白质的分子机制进行编码,从而将药物和蛋白质的原始特征投影到一个共同的嵌入空间中。因此,后续的模型就可以捕捉到它们的嵌入特征之间的一致性。同样,另一个基于全连接神经网络的临床功能共编码模型,将药物和蛋白质的临床信息编码在一起。根据这两个共编码模型的结果,在本实施例中,还构建了一个基于卷积神经网络的DPI预测模型来计算药物-蛋白质对的相互作用概率。
如图1所示,首先使用蛋白质序列编码模型对数据集中的蛋白质进行编码,从而得到了长度固定的嵌入向量作为蛋白质的分子属性特征。
设R={r1,r2,...,rm}表示数据集中的m种药物。基于它们的SMILES,本实施例对每种药物构建了1024维扩展连通性指纹(ECFPs),得到了化学指纹矩阵Ffp∈Rm×1024。如果药物ri具有第j个分子结构或化学性质,则将设为1,否则/>设P={p1,p2,...,pn}表示数据集中的n个蛋白质。每个蛋白质对应一个由23种常见氨基酸组成的氨基酸序列。数据集中q种疾病集合由D={d1,d2,...,dq}表示。基于已知的DPIs,本实施例构建了一个Rm×n维的药物-蛋白相互作用矩阵YRP。如果药物ri和蛋白质pj之间存在已知的相互作用,则/>设为1。否则/>同样,基于药物、蛋白质和疾病之间多种类型的相互作用和内部相互作用,分别构建了药物-药物相互作用矩阵YRR∈Rm×m、药物-疾病相互作用矩阵YRD∈Rm×q、蛋白质-蛋白质相互作用矩阵YPP∈Rn×n和蛋白质-疾病相互作用矩阵YPD∈Rn×q。基于BLOSUM62替换矩阵将蛋白质序列转换为神经网络可以接收的向量形式。对于一个具体的蛋白质pi,可以得到基于其氨基酸序列/>的特征矩阵,其中l表示pi的序列长度。使用蛋白质序列编码模型,得到了n个蛋白质序列的最终表示矩阵/>
为了将文本形式的蛋白质序列转换为神经网络可以接收的向量形式,将上述P中的所有蛋白质按照BLOSUM62替换矩阵进行转换。蛋白质pi中的每个氨基酸aj用它与23种常见氨基酸之间的替代得分表示。因此,对于蛋白质pi,可以得到基于其氨基酸序列的特征矩阵,其中l表示pi的序列长度。
蛋白质序列编码模型定义了一个Bi-LSTM层来学习每个蛋白质的表示。在Bi-LSTM的前向输入过程中,定义了三个门——遗忘门输入门/>和输出门/>以控制在每个时间步中遗忘前一时刻的信息的多少和保留当前时刻的信息的多少。这些门定义如下:
其中,σ表示sigmoid激活函数, 表示连结操作。及/>分别是前馈过程中三个门的权重矩阵和偏置向量。/>表示前t-1个氨基酸从Bi-LSTM层中学习到的嵌入。/>表示蛋白质pi的第t个氨基酸学习到的嵌入。前t个氨基酸的嵌入/>可以通过下面的公式计算:
其中,⊙表示按元素乘积。 表示前t个氨基酸的嵌入输入到前馈过程中得到的单元状态,它由前t-1个氨基酸的单元状态/>和第t个氨基酸的单元状态/>联合计算得到,定义如下:
在计算的过程中,遗忘门/>控制着前t-1个氨基酸的信息被遗忘的程度,输入门/>决定着第t个氨基酸的信息被保留的程度。第t个氨基酸的单元状态/>由下面公式求得:
其中,和/>分别表示计算第t个氨基酸单元状态的权重矩阵和偏置向量。设和/>分别表示Bi-LSTM的正反馈过程和负反馈过程中/>的积分结果。序列/>的Bi-LSTM层编码结果可以通过连接/>和/>得到。具体描述如下:
由于DNNCC对不同长度的蛋白质序列进行了填充操作,因此动态设置每个蛋白质在Bi-LSTM层中的最大时间步长t为其真实长度。通过这种方式,填充的零将不会被引入到hi。最后,hi被一个全连接层压缩,该层的定义如下:
其中W1和b1分别表示全连接层的权值矩阵和偏置。因此,DNNCC得到了得到了n个蛋白质序列的最终表示矩阵n个蛋白质序列的最终表示矩阵/>
之后,通过分子机制共编码模型对药物和蛋白质的分子机制进行共同编码,如图2所示。一个分子的分子机制可以用它与其他分子之间的相互作用来表示。因此,DNNCC将药物-药物相互作用矩阵YRR与药物-蛋白质相互作用矩阵YRP连接,得到药物机制矩阵其中/>同样,蛋白质机制矩阵/>可以定义为/>其中YPR是YRP的转置。
事实上,许多分子对之间存在相互作用,但它们迄今尚未被验证。因此,三个交互矩阵都面临着严重的标签缺失。基于化学性质相似的分子可能与同一分子相互作用的假设,DNNCC试图通过推断一个分子与其相似分子的机理来补全和/>
因此,DNNCC根据药物的ECFPs计算药物间的Jaccard相似度。根据步骤一中得到的蛋白质的分子属性特征,计算了蛋白质间的余弦相似性。这样可以得到药物相似矩阵SR∈Rm ×m和蛋白质相似矩阵SP∈Rn×n。完备的药物机制矩阵和蛋白质机制矩阵可按下面的公式计算:
为了保证药物和蛋白质的原始特征投影到相同的嵌入空间,DNNCC构建了基于全连接神经网络的分子机制联合编码模型。药物机制和蛋白质机制/>的低维特征矩阵可根据下面的公式计算:
其中σ表示sigmoid激活函数,WM,h和bM,h表示第h全连接层的权重矩阵和偏置。和/>表示第h隐层的输出。DNNCC以/>和/>作为药物和蛋白质的最终机制特征矩阵,并用/>和/>表示。kM表示药物和蛋白质嵌入机制特征的维度。由此得到第一编码结果。
此外,本实施例还设计了临床功能共编码模型用于药物与蛋白质临床功能共同编码,如图3所示。
DNNCC将与一种药物或一种蛋白质相关的疾病视为这种药物或蛋白质的临床功能。与分子机制共编码模型类似,DNNCC构建了一个临床功能联合编码模型,分别从药物-疾病关联矩阵YRD和蛋白质-疾病关联矩阵YPD中学习药物和蛋白质的低维临床特征。它可以定义如下:
DNNCC设置和/>作为药物和蛋白质的嵌入临床特征矩阵,并用和/>表示。其中,kF表示嵌入临床特征的维度。
DNNCC将药物的低维机制特征矩阵与药物的临床特征矩阵/>连接,得到药物的综合特征矩阵,用/>表示。同样,DNNCC也得到了蛋白质的综合特征矩阵/> 或/>中的每一行代表一种药物或一种蛋白质的综合特征。由于DNNCC的联合编码策略,/>中的一列的表示的意义与/>中的同一列表示的意义是一致的。由此得到第二编码结果。
通过上述两个步骤的共同编码得到的第一编码结果和第二编码结果,得到药物和蛋白质的低维特征向量。最后,使用一个基于卷积神经网络的DPI预测模型,对数据集中的每个药物-蛋白质对进行打分,预测它们间存在相互作用的可能性,如图4所示。
DNNCC建立了基于卷积神经网络的DPI预测模型,计算药物-蛋白质对的相互作用倾向。以药物r2和蛋白质p1为例,DNNCC构建药物-蛋白质对的特征向量如图4所示。/>包括r2和p1的分子机制特征,以及它们的临床信息。
DPI预测模型由两个卷积层、两个最大池化层和一个全连接层组成。卷积核大小设置为(wh,ww),这意味着在卷积层输出的特征图中,每个特征都是基于中wh×ww大小的特征图来计算的。为了获取/>的边界信息,我们还用零填充/>的边界。填充特征图用/>表示,其中pad表示填充层数。在每个卷积层中,总共设置nconv个卷积核,从多个视图中提取Fpad中的潜在特征。如果我们用Wconv,k和bconv,k来表示第k个卷积核中的权值和偏差。那么卷积过程可以定义为:
Fpad(i,j)=Fpad(i:i+wh-1,j:j+ww-1),
Zl,k(i,j)=σ(Fpad(i,j)×Wconv,k+bconv,k),
∈[1,2+2*pad-wh+1],
j∈[1,kM+kF+2*pad-ww+1],
k∈[1,nconv],。
其中,Zl,k表示第l层卷积层中第k个卷积核计算出的特征映射。σ表示sigmoid激活函数。为了进一步提取特征图中的重要信息,减少参数的数量,DNNCC使用max-pooling操作压缩Zl,k。max-pooling操作定义如下:
Zl,k(i,j)=Zl,k(i:i+wh-1,j:j+ww-1),
Z′l,k(i,j)=max(Zl,k(i,j)).
最后,DNNCC将最大池化层输出的特征映射Zl,k压缩为一个向量并使用一个完全连接层计算r2和p1之间的交互得分:
其中Wfc和bfc分别为全连接层的输出、权重矩阵和偏置。/>中的第一个元素表示r2不能与p1相互作用的可能度,第二个元素表示r2与p1的相互作用倾向。设/>表示/>的第二个元素,/>越大,表示r2和p1之间存在相互作用的可能性越大。
DNNCC损失计算公式为:
其中,表示真实标签,表示ri和pj之间是否存在相互作用,/> 表示DNNCC预测的药物ri与蛋白质pj相互作用的可能性,其中/>的取值范围也在0到1之间。
在大多数情况下,未知DPI(阴性样本)的数量远远大于已知DPI(阳性样本),导致已知DPI和未知DPI之间存在严重的类失衡(在我们的数据集中,已知DPI:未知DPI的比例约为1:555)。此外,将未观察到的DPIs直接作为负样本是不合理的。因此,DNNCC对损失函数进行了如下更新:
如果否则ri,pj∈Ψ。|Ω|和|Ψ|分别表示Ω和Ψ中的元素个数。μ为负样本数与正样本数之比,其中μ=|Ψ|/|Ω|。减少了被误分类的负样本对损失的贡献。这样一来,DNNCC既缓解了负样本标签不可靠带来的负面影响,又缓解了类别失衡的影响。作为一个端到端深度学习框架,DNNCC通过最小化模型的最终损失来优化模型中的所有权重矩阵和偏置。
为验证本申请模型的性能,本实施例还设计了五倍交叉验证,证明了其预测准确性在AUC和AUPR两种评价指标上优于几个最先进(state-of-the-art)的DPI预测方法,包括:DPINet、GRMF、AEFS、NGDTP和GraphDTA。如图5和图6所示。
实施例二
如图7所示,为本申请实施例二的系统结构示意图,包括:采集模块、预处理模块、蛋白质序列编码模块、分子机制共编码模块、临床功能共编码模块和DPI预测模块。其中,采集模块用于收集药物-蛋白质相互作用预测的数据集;预处理模块对数据集进行预处理,得到处理后数据;蛋白质序列编码模块用于基于处理后数据,进行蛋白质序列编码,提取蛋白质特征;分子机制共编码模块用于基于蛋白特征,同时对药物和蛋白质的分子机制进行编码,得到第一编码结果;临床功能共编码模块用于基于第一编码结果,将药物和蛋白质的临床信息编码在一起,得到第二编码结果;DPI预测模块用于根据第一编码结果和第二编码结果,计算药物-蛋白质对的相互作用概率。
利用采集模块收集药物-蛋白质相互作用预测的数据集,之后预处理模块利用符号化方法整合数据集,得到处理后数据。得到的处理后数据包括:药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据。
之后,使用蛋白质序列编码模块对处理后数据中的蛋白质进行编码,从而得到了长度固定的嵌入向量作为蛋白质的分子属性特征之后,通过分子机制共编码模块和临床功能共编码模块对药物和蛋白质的分子机制和临床功能进行共同编码,得到药物和蛋白质的低维特征向量。最后,使用DPI预测模块,对数据集中的每个药物-蛋白质对进行打分,预测它们间存在相互作用的可能性。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。
Claims (6)
1.一种药物-蛋白质相互作用预测方法,其特征在于,步骤包括:
收集药物-蛋白质相互作用预测的数据集;
对所述数据集进行预处理,得到处理后数据;
基于所述处理后数据,进行蛋白质序列编码,提取蛋白质特征;
基于所述蛋白质特征,同时对药物和蛋白质的分子机制进行编码,得到第一编码结果;
基于所述处理后数据,将所述药物和蛋白质的临床信息编码在一起,得到第二编码结果;
根据所述第一编码结果和所述第二编码结果,计算药物-蛋白质对的相互作用概率;
得到所述第一编码结果的方法包括:基于全连接神经网络构建分子机制共编码模型,同时对所述药物和蛋白质的分子机制进行编码,从而将所述药物和蛋白质的原始特征投影到一个共同的嵌入空间中;步骤包括:
将药物-药物相互作用矩阵YRR与药物-蛋白质相互作用矩阵YRP连接,得到药物机制矩阵,其中/>;将蛋白质-蛋白质相互作用矩阵/>与蛋白质-药物相互作用矩阵YPR连接,得到蛋白质机制矩阵,将蛋白质机制矩阵定义为/>,其中,m表示药物种类;n表示蛋白质个数;YPR是YRP的转置;并通过推断一个分子与其相似分子的机理来补全/>和/>;
之后,根据药物的ECFPs计算药物间的Jaccard相似度,并根据蛋白质的分子属性特征,计算蛋白质间的余弦相似性,得到药物相似矩阵和蛋白质相似矩阵;完备的药物机制矩阵/>和蛋白质机制矩阵/>按以下公式计算:
药物机制/>和蛋白质机制/>的低维特征矩阵根据以下公式计算:
其中σ表示sigmoid激活函数,/>和/>表示第h全连接层的权重矩阵和偏置;/>和/>表示第h隐层的输出;
最后,以和/>作为药物和蛋白质的最终机制特征矩阵,并用/>和表示,k M表示药物和蛋白质嵌入机制特征的维度,得到所述第一编码结果;
得到所述第二编码结果的方法包括:基于全连接神经网络构建临床功能联合编码模型,分别从药物-疾病关联矩阵YRD和蛋白质-疾病关联矩阵YPD中学习药物和蛋白质的低维临床特征,定义如下:
设置/>和/>作为药物和蛋白质的嵌入临床特征矩阵,并用/>和/>表示;其中,kF表示嵌入临床特征的维度;
之后,将药物的低维机制特征矩阵与药物的临床特征矩阵/>连接,得到药物的综合特征矩阵,用/>表示,同时,将蛋白质的低维机制特征矩阵/>与蛋白质的临床特征矩阵/>连接,得到蛋白质的综合特征矩阵/>;/>或/>中的每一行代表一种药物或一种蛋白质的综合特征,由于联合编码策略,/>中的一列的表示的意义与/>中的同一列表示的意义一致,由此得到所述第二编码结果。
2.根据权利要求1所述的药物-蛋白质相互作用预测方法,其特征在于,得到所述处理后数据的方法包括:利用符号化方法整合所述数据集,得到所述处理后数据。
3.根据权利要求1所述的药物-蛋白质相互作用预测方法,其特征在于,所述处理后数据包括:药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据。
4.根据权利要求3所述的药物-蛋白质相互作用预测方法,其特征在于,提取所述蛋白质特征的方法包括:基于双向长短期记忆神经网络构建蛋白质序列编码模型,从长度灵活的所述氨基酸序列中提取所述蛋白质特征。
5.根据权利要求1所述的药物-蛋白质相互作用预测方法,其特征在于,计算所述药物-蛋白质对的相互作用概率的方法包括:构建基于卷积神经网络的DPI预测模型,通过所述第一编码结果和所述第二编码结果来计算药物-蛋白质对的相互作用概率。
6.一种药物-蛋白质相互作用预测系统,其特征在于,包括:采集模块、预处理模块、蛋白质序列编码模块、分子机制共编码模块、临床功能共编码模块和DPI预测模块;
所述采集模块用于收集药物-蛋白质相互作用预测的数据集;
所述预处理模块对所述数据集进行预处理,得到处理后数据;
所述蛋白质序列编码模块用于基于所述处理后数据,进行蛋白质序列编码,提取蛋白质特征;
所述分子机制共编码模块用于基于所述蛋白质特征,同时对药物和蛋白质的分子机制进行编码,得到第一编码结果;步骤包括:
将药物-药物相互作用矩阵YRR与药物-蛋白质相互作用矩阵YRP连接,得到药物机制矩阵,其中/>;将蛋白质-蛋白质相互作用矩阵/>与蛋白质-药物相互作用矩阵YPR连接,得到蛋白质机制矩阵,将蛋白质机制矩阵定义为/>,其中,m表示药物种类;n表示蛋白质个数;YPR是YRP的转置;并通过推断一个分子与其相似分子的机理来补全/>和/>;
之后,根据药物的ECFPs计算药物间的Jaccard相似度,并根据蛋白质的分子属性特征,计算蛋白质间的余弦相似性,得到药物相似矩阵和蛋白质相似矩阵;完备的药物机制矩阵/>和蛋白质机制矩阵/>按以下公式计算:
药物机制/>和蛋白质机制/>的低维特征矩阵根据以下公式计算:
其中σ表示sigmoid激活函数,/>和/>表示第h全连接层的权重矩阵和偏置;/>和/>表示第h隐层的输出;
最后,以和/>作为药物和蛋白质的最终机制特征矩阵,并用/>和表示,k M表示药物和蛋白质嵌入机制特征的维度,得到所述第一编码结果;
所述临床功能共编码模块用于基于所述处理后数据,将所述药物和蛋白质的临床信息编码在一起,得到第二编码结果;步骤包括:基于全连接神经网络构建临床功能联合编码模型,分别从药物-疾病关联矩阵YRD和蛋白质-疾病关联矩阵YPD中学习药物和蛋白质的低维临床特征,定义如下:
设置/>和/>作为药物和蛋白质的嵌入临床特征矩阵,并用/>和/>表示;其中,kF表示嵌入临床特征的维度;
之后,将药物的低维机制特征矩阵与药物的临床特征矩阵/>连接,得到药物的综合特征矩阵,用/>表示,同时,将蛋白质的低维机制特征矩阵/>与蛋白质的临床特征矩阵/>连接,得到蛋白质的综合特征矩阵/>;/>或/>中的每一行代表一种药物或一种蛋白质的综合特征,由于联合编码策略,/>中的一列的表示的意义与/>中的同一列表示的意义一致,由此得到所述第二编码结果;所述DPI预测模块用于根据所述第一编码结果和所述第二编码结果,计算药物-蛋白质对的相互作用概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211258086.9A CN115458061B (zh) | 2022-10-13 | 2022-10-13 | 一种药物-蛋白质相互作用预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211258086.9A CN115458061B (zh) | 2022-10-13 | 2022-10-13 | 一种药物-蛋白质相互作用预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115458061A CN115458061A (zh) | 2022-12-09 |
CN115458061B true CN115458061B (zh) | 2024-01-23 |
Family
ID=84311307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211258086.9A Active CN115458061B (zh) | 2022-10-13 | 2022-10-13 | 一种药物-蛋白质相互作用预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115458061B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049678A (zh) * | 2012-11-23 | 2013-04-17 | 中国科学院自动化研究所 | 基于蛋白质交互作用网络的异病同治分子机理分析方法 |
CN108647489A (zh) * | 2018-05-15 | 2018-10-12 | 华中农业大学 | 一种筛选疾病药物靶标和靶标组合的方法及系统 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
CN112326767A (zh) * | 2020-11-03 | 2021-02-05 | 浙江大学滨海产业技术研究院 | 一种基于靶向蛋白质组学的癌症药物靶标作用预测方法 |
CN113345535A (zh) * | 2021-06-04 | 2021-09-03 | 南开大学 | 保持药物化学性质与功能一致性的药物靶标预测方法及系统 |
AU2021104604A4 (en) * | 2021-07-27 | 2021-09-23 | Nankai University | Drug target prediction method for keeping consistency of chemical properties and functions of drugs |
CN114783514A (zh) * | 2022-05-18 | 2022-07-22 | 上海天鹜科技有限公司 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
CN114822683A (zh) * | 2022-05-10 | 2022-07-29 | 平安科技(深圳)有限公司 | 药物与靶标的相互作用预测方法、装置、设备及存储介质 |
-
2022
- 2022-10-13 CN CN202211258086.9A patent/CN115458061B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049678A (zh) * | 2012-11-23 | 2013-04-17 | 中国科学院自动化研究所 | 基于蛋白质交互作用网络的异病同治分子机理分析方法 |
CN108647489A (zh) * | 2018-05-15 | 2018-10-12 | 华中农业大学 | 一种筛选疾病药物靶标和靶标组合的方法及系统 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
CN112326767A (zh) * | 2020-11-03 | 2021-02-05 | 浙江大学滨海产业技术研究院 | 一种基于靶向蛋白质组学的癌症药物靶标作用预测方法 |
CN113345535A (zh) * | 2021-06-04 | 2021-09-03 | 南开大学 | 保持药物化学性质与功能一致性的药物靶标预测方法及系统 |
AU2021104604A4 (en) * | 2021-07-27 | 2021-09-23 | Nankai University | Drug target prediction method for keeping consistency of chemical properties and functions of drugs |
CN114822683A (zh) * | 2022-05-10 | 2022-07-29 | 平安科技(深圳)有限公司 | 药物与靶标的相互作用预测方法、装置、设备及存储介质 |
CN114783514A (zh) * | 2022-05-18 | 2022-07-22 | 上海天鹜科技有限公司 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
Non-Patent Citations (2)
Title |
---|
Graph convolutional autoencoder and generative adversarial network-based method for predicting drug-target interactions;Chang Sun,et al;《IEEE/ACM Transactions on Computational Biology and Bioinformatics》;第19卷(第1期);455-464页 * |
面向异构网络的药物与靶标相互作用预测方法研究;孙畅;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;第2021年卷(第04期);E079-31 * |
Also Published As
Publication number | Publication date |
---|---|
CN115458061A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Uncertainty-guided transformer reasoning for camouflaged object detection | |
JP7247258B2 (ja) | コンピュータシステム、方法及びプログラム | |
WO2023029351A1 (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
Liu et al. | Learning deep sharable and structural detectors for face alignment | |
CN112561064B (zh) | 基于owkbc模型的知识库补全方法 | |
CN112765370B (zh) | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 | |
Luo et al. | Orthogonally constrained matrix factorization for robust unsupervised feature selection with local preserving | |
CN114783514A (zh) | 一种药物分子与靶标蛋白的结合亲和力预测方法 | |
CN114999565B (zh) | 一种基于表示学习和图神经网络的药物靶标亲和力预测方法 | |
CN116206775A (zh) | 一种融合多维度特征的药物-靶点相互作用预测方法 | |
Kumar et al. | Future of machine learning (ML) and deep learning (DL) in healthcare monitoring system | |
Xu et al. | Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning | |
Bhardwaj et al. | Computational biology in the lens of CNN | |
CN104766051B (zh) | 基于结构化的特征图的人体行为识别方法 | |
Guan et al. | Precision medical image hash retrieval by interpretability and feature fusion | |
CN115985520A (zh) | 基于图正则化矩阵分解的药物疾病关联关系的预测方法 | |
Chen et al. | DeepGly: A deep learning framework with recurrent and convolutional neural networks to identify protein glycation sites from imbalanced data | |
Hammer et al. | Neural methods for non-standard data. | |
Shan et al. | Convolutional neural network-based virtual screening | |
CN113450870B (zh) | 一种药物与靶点蛋白的匹配方法及系统 | |
Xu et al. | Eurnet: Efficient multi-range relational modeling of spatial multi-relational data | |
Song et al. | Domain-aware stacked autoencoders for zero-shot learning | |
CN117409983A (zh) | 一种基于药物序列和子结构特征的药物间相互作用预测模型 | |
CN115458061B (zh) | 一种药物-蛋白质相互作用预测方法及系统 | |
Jha et al. | Prediction of Protein-Protein Interactions Using Vision Transformer and Language Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |