CN112562781A - 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质 - Google Patents
基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN112562781A CN112562781A CN202011424403.0A CN202011424403A CN112562781A CN 112562781 A CN112562781 A CN 112562781A CN 202011424403 A CN202011424403 A CN 202011424403A CN 112562781 A CN112562781 A CN 112562781A
- Authority
- CN
- China
- Prior art keywords
- bigru
- model
- protein
- compound
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 114
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 108
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 108
- 238000013135 deep learning Methods 0.000 title claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 61
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 9
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 6
- 239000002904 solvent Substances 0.000 claims description 6
- 241000288105 Grus Species 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 24
- 239000003814 drug Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 229940079593 drug Drugs 0.000 description 9
- 239000002547 new drug Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000006073 displacement reaction Methods 0.000 description 4
- 238000009509 drug development Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000003596 drug target Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Physiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于深度学习的预测化合物蛋白质亲和力新型编码方式。所述的新型编码方式的深度模型包括双向门控循环单元(BiGRU)模型和卷积神经网络(CNN)模型,整个网络架构为BiGRU/BiGRU‑CNN,其中BiGRU/BiGRU模型中加入了联合注意力机制(Joint_Attention)。模型的输入为化合物序列与蛋白质序列,二者输入到BiGRU/BiGRU模型里。其中化合物序列表示为加入化合物分子理化性质的SMILES字符串称为SMILES#;蛋白质序列表示由蛋白质的结构属性编码而成。BiGRU/BiGRU输出为表示化合物的特征向量和表示蛋白质的特征向量。所述CNN模型由卷积层、池化层、全连接层组成,该模型的输入为化合物的特征向量、蛋白质的特征向量;该BiGRU/BiGRU‑CNN模型的最终输出为预测化合物蛋白质亲和力值的根均方误差值。
Description
技术领域
本发明涉及蛋白质化合物分子结构与性质领域,具体涉及基于深度学习的预测化合物蛋白质亲和力新型编码方式、计算机设备、存储介质。
背景技术
药物通常是针对参与许多细胞过程的蛋白质开发的。但是开发一种新的药物需要花费大量的金钱以及10-17年时间才能被美国FDA接受或拒绝。药物重定位即寻找已批准药物的新用途将会大大缩短开发新药的时间,这也吸引了很多研究者的注意力。因此基于临床试验已经测量到的相互作用,使用统计和机器学习的模型来预测药物靶点相互作用强度是一个重要的替代方法。如支持向量机、逻辑回归、随机森林和浅层神经网络,这些模型也能在一定程度上预测药物靶点结合亲和力。
深度学习的引入被证明是预测药物靶点结合亲和力的最佳模型之一。深度学习的主要优点是通过在每一层中进行非线性转换,它们能够更好的表示原始数据进而便于学习数据中隐藏的模式。然而很多模型的化合物表示仅仅是分子指纹、单一的SMILES字符串。这样会使编码的化合物特征表示丢失许多化合物原有的重要信息,造成最终预测化合物蛋白质亲和力值的不准确性。
发明内容
本发明的目的是为了解决上述化合物分子重要信息丢失并提高预测准确率等问题,本发明实施例提供一种基于深度学习的预测化合物蛋白质亲和力的新型编码方式、计算机设备、存储介质,能够将化合物分子的结构性质编码到SMILES字符串中,从而可以提取到更多关于化合物分子的信息,并且使用深度学习方法提高预测化合物蛋白质亲和力值的准确率。
根据本发明实施例的第一方面,提供了基于深度学习的预测化合物蛋白质亲和力的新型编码方式。
在一些可选实施例中,所述的新型编码方式的深度模型包括双向门控循环单元(BiGRU) 模型和卷积神经网络(CNN)模型,整个网络架构为BiGRU/BiGRU-CNN,其中BiGRU/BiGRU 模型中加入了联合注意力机制(Joint_Attention)。所述的双向门控循环单元模型包括两个门控循环单元(GRU)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物序列与蛋白质序列,二者输入到BiGRU/BiGRU模型里。其中化合物序列表示为加入化合物分子理化性质的SMILES 字符串称为SMILES#,化合物分子的理化性质包括化合物的拓扑极性表面积、化合物的复杂度等;蛋白质的序列表示由蛋白质的结构属性编码而成。BiGRU/BiGRU输出为表示化合物的特征向量和表示蛋白质的特征向量。所述的CNN模型由卷积层、池化层、全连接层组成,该模型的输入为化合物的特征向量、蛋白质的特征向量;该BiGRU/BiGRU-CNN模型的最终输出为预测化合物蛋白质亲和力值的根均方误差值。
可选的,所述的门控循环单元(GRU)对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控(reset gate)和控制更新的门控(update gate),得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。
可选的,所述的双向门控循环单元(BiGRU)模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。BiGRU的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息,BiGRU的前向计算跟单向GRU一样,但是双向GRU的输入序列对于两个隐含层是相反方向的,而且输出层直到两个隐含层处理完所有的全部输入序列才更新。BiGRU的后向计算也与GRU相似,所有的输出层项首先被计算,然后再返回给两个不同方向的隐含层。
可选的,所述的联合注意力机制(Joint_Attention)将注意力放在成对的(化合物/蛋白质) 交互矩阵上,而不仅仅是单独的放在每个界面上。
可选的,所述的卷积神经网络(CNN)模型由卷积(convolution),激活(activation),池化 (pooling)三种结构组成。CNN输出的结果是对应化合物蛋白质的特定特征空间,再将CNN 输出的特征空间作为全连接层或全连接神经网络(fully connectedneural network,FCN)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。
可选的,所述新型编码方式的输入为选定的2个变量,输入变量含有来自UniRef数据库的蛋白质结构属性序列、来自STITCH数据库的化合物SMILES#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/ 碱性)和蛋白质的溶剂可及性编码而成。其中化合物SMILES#序列由SMILES字符串、化合物拓扑极性表面积和化合物复杂度编码而成。
可选的,对所述的带有联合注意力机制的BiGRU/BiGRU-CNN模型利用已有的大量蛋白质化合物亲和力值进行训练,并获得了完善的模型参数。
根据本发明的实施的第二方面,提供一种计算机设备。
在一些可选实施例中,所述计算机设备,包括存储器,显卡,中央处理器,以及存储在所述存储器上的可被所述中央处理器以及显卡并行处理的可执行程序,存储器特征在于,所述中央处理器所执行所述程序时实现以下步骤:构建目标检测与目标预测模型,所述目标检测与目标预测模型包括:特征提取网络和预测网络。首先利用特征提取网络对输入的化合物 SMILES#序列和蛋白质结构属性序列进行特征提取;将提取的特征向量矩阵利用目标预测模型,目标预测模型是利用卷积、池化和全连接对特征向量矩阵进行操作,输出结合亲和力的预测值与实际值的根均方误差值。
可选的,所述的门控循环单元对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控和控制更新的门控,得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。
可选的,所述的双向门控循环单元(BiGRU)模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。BiGRU的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息,BiGRU的前向计算跟单向GRU一样,但是双向GRU的输入序列对于两个隐含层是相反方向的,而且输出层直到两个隐含层处理完所有的全部输入序列才更新。BiGRU的后向计算也与GRU相似,所有的输出层项首先被计算,然后再返回给两个不同方向的隐含层。
可选的,所述的联合注意力机制(Joint_Attention)将注意力放在成对的(化合物/蛋白质) 交互矩阵上,而不仅仅是单独的放在每个界面上。
可选的,所述的卷积神经网络(CNN)模型由卷积(convolution),激活(activation),池化 (pooling)三种结构组成。CNN输出的结果是对应化合物蛋白质的特定特征空间,再将CNN 输出的特征空间作为全连接层或全连接神经网络(fully connectedneural network,FCN)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。
可选的,所述新型编码方式的输入为选定的2个变量,输入变量含有来自UniRef数据库的蛋白质结构属性序列、来自STITCH数据库的化合物SMILES#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/ 碱性)和蛋白质的溶剂可及性编码而成。其中化合物SMILES#序列由SMILES字符串、化合物拓扑极性表面积和化合物复杂度编码而成。
可选的,对所述的带有联合注意力机制的BiGRU/BiGRU-CNN模型利用已有的大量蛋白质化合物亲和力值进行训练,并获得了完善的模型参数。
利用人工智能技术对药物领域时空序列进行智能处理,能够解决由于新药开发成本高、耗时长并且常常存在安全等问题。能够在已确定安全的旧药物和放弃使用的化合物中筛选新的药物和治疗目标,这种趋势正在改变药物研发的局面,并形成一种新药研发的药物重定位模式。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
图1是本发明的系统主题方案图
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法、产品等而言,由于其与实施例公开的方法部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
图1出示了基于深度学习的预测化合物蛋白质亲和力新型编码方式的一个可选实施架构。
该可选实例中,所述的新型编码方式的深度模型包括双向门控循环单元(BiGRU)模型和卷积神经网络(CNN)模型,整个网络架构为BiGRU/BiGRU-CNN,其中BiGRU/BiGRU 模型中加入了联合注意力机制(Joint_Attention)。所述的双向门控循环单元模型包括两个门控循环单元(GRU)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物序列与蛋白质序列,二者输入到BiGRU/BiGRU模型里。其中化合物序列表示为加入化合物分子理化性质的SMILES 字符串称为SMILES#,化合物分子的理化性质包括化合物的拓扑极性表面积、化合物的复杂度等;蛋白质的序列表示由蛋白质的结构属性编码而成。BiGRU/BiGRU输出为表示化合物的特征向量和表示蛋白质的特征向量。所述的CNN模型由卷积层、池化层、全连接层组成,该模型的输入为化合物的特征向量、蛋白质的特征向量;该BiGRU/BiGRU-CNN模型的最终输出为预测化合物蛋白质亲和力值的根均方误差值。
可选的,所述门控循环单元对多元时间序列(multivariate time series)进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控和控制更新的门控,得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。
可选的,所述的双向门控循环单元模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。BiGRU的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息,BiGRU的前向计算跟单向GRU一样,但是双向GRU的输入序列对于两个隐含层是相反方向的,而且输出层直到两个隐含层处理完所有的全部输入序列才更新。BiGRU的后向计算也与GRU相似,所有的输出层项首先被计算,然后再返回给两个不同方向的隐含层。
可选的,所述的联合注意力机制(Joint_Attention)将注意力放在成对的(化合物/蛋白质) 交互矩阵上,而不仅仅是单独的放在每个界面上。
可选的,所述的卷积神经网络(CNN)模型由卷积(convolution),激活(activation),池化 (pooling)三种结构组成。CNN输出的结果是对应化合物蛋白质的特定特征空间,再将CNN 输出的特征空间作为全连接层或全连接神经网络(fully connectedneural network,FCN)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。
可选的,所述新型编码方式的输入为选定的2个变量,输入变量含有来自UniRef数据库的蛋白质结构属性序列、来自STITCH数据库的化合物SMILES#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/ 碱性)和蛋白质的溶剂可及性编码而成。其中化合物SMILES#序列由SMILES字符串、化合物拓扑极性表面积和化合物复杂度编码而成。
可选的,对所述的带有联合注意力机制的BiGRU/BiGRU-CNN模型利用已有的大量蛋白质化合物亲和力值进行训练,并获得了完善的模型参数。
可选的,所述模型还包括双向门控循环单元模型训练过程,下边给出双向门控循环单元模型的训练过程的一个具体实施例。
该实施例中,在目标检测与目标预测模型的训练过程中,首先,将化合物分子序列输入一个BiGRU模型中,将蛋白质序列输入另一个BiGRU模型中,再将二者融合进入CNN模型,以此构成训练数据,训练过程中化合物BiGRU模型和蛋白质BiGRU模型的单元数分别设置为128(cell)和256(cell),然后将两个BiGRU模型即BiGRU/BiGRU模型与CNN模型一起训练,为了减小模型的复杂度,将BiGRU/BiGRU模型预先训练固定好参数,再将二者一起训练确定CNN模型的参数。BiGRU/BiGRU使用联合注意力机制(Joint_Attention),联合注意力机制使用相同的两两交互矩阵,将注意力放在成对的交互上而不是两边的界面上(interfaces)。整个模型训练的初始学习率为0.0001,并设置损失函数(loss fuction)为平均绝对误差损失(MAE loss),在训练过程中通过计算预测值与真实值之间的误差,利用Adam 优化器调节网络参数,调整模型参数的权重,然后通过不断迭代,不断降低损失函数值,使网络最终收敛。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成以下步骤:构建双向门控循环单元(BiGRU) 模型,所述的双向门控循环单元模型包括两个门控循环单元(GRU)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物特征表示与蛋白质特征表示,其中化合物特征表示为加入化合物分子理化性质的SMILES字符串称为SMILES#,化合物分子的理化性质包括化合物的拓扑极性表面积、化合物的复杂度等;蛋白质的特征表示由蛋白质的结构属性编码而成。最终输出为表示化合物的特征向量和表示蛋白质的特征向量。所述的CNN模型由卷积层、池化层、全连接层组成,该模型的输入为化合物的特征向量、蛋白质的特征向量;该BiGRU-CNN模型的最终输出预测化合物蛋白质亲和力值的均方误差值。
可选的,所述的GRU对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控和控制更新的门控,得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。
可选的,所述的BiGRU模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。BiGRU的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息,BiGRU的前向计算跟单向GRU一样,但是双向GRU的输入序列对于两个隐含层是相反方向的,而且输出层直到两个隐含层处理完所有的全部输入序列才更新。BiGRU的后向计算也与GRU相似,所有的输出层项首先被计算,然后再返回给两个不同方向的隐含层。
可选的,所述的联合注意力机制(Joint_Attention)将注意力放在成对的(化合物/蛋白质) 交互矩阵上,而不仅仅是单独的放在每个界面上。
可选的,所述的卷积神经网络(CNN)模型由卷积(convolution),激活(activation),池化 (pooling)三种结构组成。CNN输出的结果是对应化合物蛋白质的特定特征空间,再将CNN 输出的特征空间作为全连接层或全连接神经网络(fully connectedneural network,FCN)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。
可选的,所述新型编码方式的输入为选定的2个变量,输入变量含有来自UniRef数据库的蛋白质结构属性序列、来自STITCH数据库的化合物SMILES#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/ 碱性)和蛋白质的溶剂可及性编码而成。其中化合物SMILES#序列由SMILES字符串、化合物拓扑极性表面积和化合物复杂度编码而成。
可选的,对所述的带有联合注意力机制的BiGRU/BiGRU-CNN模型利用已有的大量蛋白质化合物亲和力值进行训练,并获得了完善的模型参数。
上述非临时性计算机可读存储介质可以是只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAMD、磁带和光存储设备等。
利用人工智能技术对药物领域时空序列进行智能处理,能够解决由于新药开发成本高、耗时长并且常常存在安全等问题。能够在已确定安全的旧药物和放弃使用的化合物中筛选新的药物和治疗目标,这种趋势正在改变药物研发的局面,并形成一种新药研发的药物重定位模式。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。所属技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,应该理解到,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解的是,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (12)
1.一种基于深度学习的预测化合物蛋白质亲和力的新型编码方式,其特征在于,包括双向门控循环单元(BiGRU)模型和卷积神经网络(CNN)模型,整个网络架构为BiGRU/BiGRU-CNN,其中BiGRU/BiGRU模型中加入了联合注意力机制(Joint_Attention)。包括双向门控循环单元(BiGRU)模型,所述的双向门控循环单元模型包括两个门控循环单元(GRU)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物序列与蛋白质序列,二者输入到BiGRU/BiGRU模型里。其中化合物序列表示为加入化合物分子理化性质的SMILES字符串称为SMILES#,化合物分子的理化性质包括化合物的拓扑极性表面积、化合物的复杂度等;蛋白质的序列表示由蛋白质的结构属性编码而成。BiGRU/BiGRU输出为表示化合物的特征向量和表示蛋白质的特征向量。所述的CNN模型由卷积层、池化层、全连接层组成,该模型的输入为化合物的特征向量、蛋白质的特征向量;该BiGRU/BiGRU-CNN模型的最终输出为预测化合物蛋白质亲和力值的根均方误差值。
2.如权利要求1所述的新型编码方式模型,其特征在于,所述的门控循环单元(GRU)对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控(reset gate)和控制更新的门控(update gate),得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行保存数据和丢弃数据的功能,将状态进行更新到0~1之间,门控信号越接近1,代表保留下来的数据越多。
3.如权利要求2所述的特征提取,其特征在于,所述的BiGRU的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息,其特征在于,所述的双向门控循环单元(BiGRU)模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。BiGRU的前向计算跟单向GRU一样,但是双向GRU的输入序列对于两个隐含层是相反方向的,而且输出层直到两个隐含层处理完所有的全部输入序列才更新。BiGRU的后向计算也与GRU相似,所有的输出层项首先被计算,然后再返回给两个不同方向的隐含层。
4.如权利要求3所述的模型的输入,其特征在于,所述的联合注意力机制(Joint_Attention)将注意力放在成对的(化合物/蛋白质)交互矩阵上,而不仅仅是单独的放在每个界面上。
5.如权利要求4所述的模型的注意力权重,其特征在于,所述的卷积神经网络(CNN)模型由卷积(convolution),激活(activation),池化(pooling)三种结构组成。CNN输出的结果是对应化合物蛋白质的特定特征空间,再将CNN输出的特征空间作为全连接层或全连接神经网络(fully connected neural network,FCN)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。
6.如权利要求5所述的编码方式的整个模型,其特征在于,所述新型编码方式的输入为选定的2个变量,输入变量含有来自UniRef数据库的蛋白质结构属性序列、来自STITCH数据库的化合物SMILES#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/碱性)和蛋白质的溶剂可及性编码而成。其中化合物SMILES#序列由SMILES字符串、化合物拓扑极性表面积和化合物复杂度编码而成。
7.如权利要求1所述的新型编码方式模型,其特征在于,对所述的带有联合注意力机制的BiGRU/BiGRU-CNN模型利用已有的大量蛋白质化合物亲和力值进行训练,并获得了完善的模型参数。
8.一种计算机设备,包括存储器,显卡,中央处理器,以及存储在所述存储器上的可被所述中央处理器以及显卡并行处理的可执行程序,其特征在于,所述中央处理器所执行所述程序时实现以下步骤:构建目标检测与目标预测模型,所述目标检测与目标预测模型包括:特征提取网络和预测网络。首先利用特征提取网络对输入的化合物SMILES#序列和蛋白质结构属性序列进行特征提取;将提取的特征向量矩阵利用目标预测模型,目标预测模型是利用卷积、池化和全连接对特征向量矩阵进行操作,输出结合亲和力的预测值与实际值的根均方误差值。
9.如权利要求8所述的计算机设备,其特征在于,门控循环单元对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控和控制更新的门控,得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。
10.如权利要求8所述的计算机设备,其特征在于,双向门控循环单元模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。双向门控循环单元模型的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息,从而不会出现替换相关目标输入的情况。
11.如权利要求8所述的计算机设备,其特征在于,所述新型编码方式模型的输入为选定的2个变量,输入变量含有来自UniRef数据库的蛋白质结构属性序列、来自STITCH数据库的化合物SMILES#。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性质(极性/非极性、酸性/碱性)和蛋白质的溶剂可及性编码而成。其中化合物SMILES#序列由SMILES字符串、化合物拓扑极性表面积和化合物复杂度编码而成。
12.一种存储介质,其存储有计算机程序,存储器特征在于,当所述计算机程序被中央处理器执行时实现一下步骤:包括双向门控循环单元(BiGRU)模型和卷积神经网络(CNN)模型,整个网络架构为BiGRU/BiGRU-CNN,其中BiGRU/BiGRU模型中加入了联合注意力机制(Joint_Attention)。所述的双向门控循环单元模型包括两个门控循环单元(GRU)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物序列与蛋白质序列,二者输入到BiGRU/BiGRU模型里。其中化合物序列表示为加入化合物分子理化性质的SMILES字符串称为SMILES#,化合物分子的理化性质包括化合物的拓扑极性表面积、化合物的复杂度等;蛋白质的序列表示由蛋白质的结构属性编码而成。BiGRU/BiGRU输出为表示化合物的特征向量和表示蛋白质的特征向量。所述的CNN模型由卷积层、池化层、全连接层组成,该模型的输入为化合物的特征向量、蛋白质的特征向量;该BiGRU/BiGRU-CNN模型的最终输出为预测化合物蛋白质亲和力值的根均方误差值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424403.0A CN112562781A (zh) | 2020-12-08 | 2020-12-08 | 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424403.0A CN112562781A (zh) | 2020-12-08 | 2020-12-08 | 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562781A true CN112562781A (zh) | 2021-03-26 |
Family
ID=75059751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011424403.0A Pending CN112562781A (zh) | 2020-12-08 | 2020-12-08 | 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562781A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035298A (zh) * | 2021-04-02 | 2021-06-25 | 南京信息工程大学 | 递归生成大阶数行限制覆盖阵列的药物临床试验设计方法 |
CN113241126A (zh) * | 2021-05-18 | 2021-08-10 | 百度时代网络技术(北京)有限公司 | 用于训练确定分子结合力的预测模型的方法和装置 |
CN116417062A (zh) * | 2023-03-07 | 2023-07-11 | 中国海洋大学 | 酶-底物亲和力常数预测方法、存储介质和装置 |
-
2020
- 2020-12-08 CN CN202011424403.0A patent/CN112562781A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035298A (zh) * | 2021-04-02 | 2021-06-25 | 南京信息工程大学 | 递归生成大阶数行限制覆盖阵列的药物临床试验设计方法 |
CN113035298B (zh) * | 2021-04-02 | 2023-06-20 | 南京信息工程大学 | 递归生成大阶数行限制覆盖阵列的药物临床试验设计方法 |
CN113241126A (zh) * | 2021-05-18 | 2021-08-10 | 百度时代网络技术(北京)有限公司 | 用于训练确定分子结合力的预测模型的方法和装置 |
CN113241126B (zh) * | 2021-05-18 | 2023-08-11 | 百度时代网络技术(北京)有限公司 | 用于训练确定分子结合力的预测模型的方法和装置 |
CN116417062A (zh) * | 2023-03-07 | 2023-07-11 | 中国海洋大学 | 酶-底物亲和力常数预测方法、存储介质和装置 |
CN116417062B (zh) * | 2023-03-07 | 2023-09-15 | 中国海洋大学 | 酶-底物亲和力常数预测方法、存储介质和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112530515A (zh) | 一种预测化合物蛋白质亲和力的新型深度学习模型、计算机设备、存储介质 | |
CN112562781A (zh) | 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质 | |
CN112530514A (zh) | 基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质 | |
CN112542211A (zh) | 基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质 | |
CN112582020A (zh) | 基于边缘注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质 | |
CN111582694B (zh) | 一种学习评估方法及装置 | |
CN112562790A (zh) | 基于深度学习调控疾病靶点的中药分子推荐系统、计算机设备、存储介质 | |
CN112652358A (zh) | 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质 | |
CN106068519B (zh) | 用于共用神经元模型的高效实现的方法和装置 | |
CN109766995A (zh) | 深度神经网络的压缩方法与装置 | |
CN114780739B (zh) | 基于时间图卷积网络的时序知识图谱补全方法及系统 | |
CN114639483B (zh) | 一种基于图神经网络的电子病历检索方法及装置 | |
CN112562791A (zh) | 基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质 | |
CN108369661A (zh) | 神经网络编程器 | |
CN112256971A (zh) | 一种序列推荐方法及计算机可读存储介质 | |
KR20220111215A (ko) | 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법 | |
CN113764034A (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN116206775A (zh) | 一种融合多维度特征的药物-靶点相互作用预测方法 | |
CN112086144A (zh) | 分子生成方法、装置、电子设备及存储介质 | |
CN114707655B (zh) | 一种量子线路转换方法、系统、存储介质和电子设备 | |
CN115695950A (zh) | 一种基于内容感知的视频摘要生成方法 | |
CN109731338B (zh) | 游戏中的人工智能训练方法及装置、存储介质及电子装置 | |
CN113705402B (zh) | 视频行为预测方法、系统、电子设备及存储介质 | |
CN114463596A (zh) | 一种超图神经网络的小样本图像识别方法、装置及设备 | |
CN114743590A (zh) | 基于图卷积神经网络的药物-靶标亲和力预测系统、计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210326 |
|
WD01 | Invention patent application deemed withdrawn after publication |