CN112927753A - 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 - Google Patents
一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 Download PDFInfo
- Publication number
- CN112927753A CN112927753A CN202110199585.4A CN202110199585A CN112927753A CN 112927753 A CN112927753 A CN 112927753A CN 202110199585 A CN202110199585 A CN 202110199585A CN 112927753 A CN112927753 A CN 112927753A
- Authority
- CN
- China
- Prior art keywords
- training
- protein
- data set
- hot
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 67
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013526 transfer learning Methods 0.000 title claims abstract description 30
- 150000001875 compounds Chemical class 0.000 title claims abstract description 18
- 229920002477 rna polymer Polymers 0.000 title description 27
- 238000012549 training Methods 0.000 claims abstract description 73
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 125000000539 amino acid group Chemical group 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 18
- 238000013508 migration Methods 0.000 claims description 14
- 230000005012 migration Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000002864 sequence alignment Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 abstract description 2
- 235000018102 proteins Nutrition 0.000 description 49
- 235000001014 amino acid Nutrition 0.000 description 10
- 150000001413 amino acids Chemical class 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 7
- 239000008186 active pharmaceutical agent Substances 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000012867 alanine scanning Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000198 fluorescence anisotropy Methods 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002703 mutagenesis Methods 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000012846 protein folding Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000022983 regulation of cell cycle Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及生物大数据、迁移学习及深度学习领域,具体涉及一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法。具体包括:通过获取源域和目标域的热点残基相关数据集,分别进行预处理和分类后,根据蛋白质序列信息对氨基酸残基进行编码,并将编码矩阵分别进行卷积神经网络模型提取特征集;根据所述源域数据集和源域特征集构建识别热点残基的预训练模型;将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型,用于识别蛋白质和RNA复合物界面热点残基,模型的预测速度快,准确率高,可用性高。
Description
技术领域
本发明涉及生物大数据、迁移学习及深度学习领域,具体涉及一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法。
背景技术
蛋白质和核酸是构成生物多样性的重要分子,它们具有各自的结构特性和功能属性,在活细胞生物中发挥着关键性的作用。蛋白质和RNA相互作用贯穿了生物的整个生命周期,包括基因复制、转录、翻译、细胞周期控制、蛋白质折叠、信号转导和免疫反应等。准确且高效地识别蛋白质和RNA复合物界面的热点残基,不仅能够帮助研究人员更好地理解生物分子机制,还能为构建蛋白质工程和标靶药物提供坚实的理论基础。同时,研究热点残基能够为研究癌症触发基因提供一个全新的视角。
目前,生物实验中的诱变技术被用于识别界面残基中的热点残基,例如丙氨酸扫描,荧光各向异性和凝胶移位等,但是其过程非常复杂,不仅需要高配置的实验室环境、精密的仪器设备和化学试剂等,还需要投入大量的人力和财力,实验代价非常昂贵,并且后续分析工作非常繁荣,需要对每个残基进行单独的分析。近年来机器学习的方法被广泛应用到热点残基的预测工作中,包括SBHD、PrabHot、SPHOT等方法,它们在预测精度和预测速度方面都取得了不错的效果。但是蛋白质和RNA复合物界面热点残基数据集稀少,而使用机器学习方法构建分类模型需要大量的标记数据,因此,现需提供一种准确且高效的计算方法来识别和预测蛋白质和RNA复合物界面热点残基,这对理解生物分子机制和指导医学药物设计具有十分重要的意义。
发明内容
基于此,本发明针对上述的问题,提供了一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法,旨在解决蛋白质和RNA复合物界面热点残基数据集稀少,而使用机器学习方法构建分类模型需要大量的标记数据无法获得快速准确识别蛋白质和RNA复合物界面热点残基方法的技术问题。
本发明提供了一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法,具体包括:
获取源域和目标域的热点残基相关数据集,分别进行预处理和分类获得源域训练数据集和测试数据集、目标域训练数据集和测试数据集;所述热点残基相关数据集包含热点残基样本和非热点残基样本;
将所述源域训练数据集和测试数据集、目标域训练数据集和测试数据集根据蛋白质序列信息对氨基酸残基进行编码,获得源域编码矩阵和目标域编码矩阵;
将所述源域编码矩阵和目标域编码矩阵分别进行卷积神经网络模型学习热点残基的特征,并获取源域特征集和目标域特征集;
根据所述源域数据集和源域特征集训练网络,构建识别热点残基的预训练模型;以及
将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型,用于识别蛋白质和RNA复合物界面热点残基。
进一步的,所述预处理具体为:
将所述源域和目标域的热点残基数据集通过序列比对聚类方法去除相似度大于40%的蛋白质序列,获得非冗余的源域和目标域的热点残基数据集。
进一步的,所述分类具体为:
将所述数据集按照9:1的比例分为训练数据集和测试数据集;
所述训练集中热点残基样本和非热点残基样本的比例接近于1:1。
进一步的,所述根据蛋白质序列信息对氨基酸残基进行编码步骤具体包括:
将包含蛋白质热点和非热点残基信息输入到独热编码程序中进行编码,获得稀疏矩阵ML×20;
以热点残基为中心,L为滑动窗口的氨基酸序列经标签编码后获得密集矩阵NL×20。
进一步的,所述根据所述源域数据集和源域特征集训练网络,构建识别热点残基的预训练模型步骤具体包括:
获取初始化网络权值,以(xP,YP)表示任意一个热点残基样本P,并将xP输入到网络进行训练,计算输入与每层网络权值矩阵的点乘,获得输出值OP,OP可以表示为:
OP=Fn(…(F2(F1(xPw1)w2)…)wn);
所述xP是输入样本,其真实标记值为YP,wi为第i层网络的权值,Fi为对应的函数;
计算网络输出值OP与实际值YP之间的误差,并按照极小化误差调整网络权值。
进一步的,所述将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型步骤具体包括:
删除预训练模型中的原始分类器,并根据目标域的分类任务添加新分类器,将所述目标域数据集和目标域特征集输入到预训练模型进行训练,对靠近新分类器的预训练三层网络模型进行网络自适应,获得迁移学习模型。
进一步的,所述网络自适应过程的模型优化目标为:
式中,Θ是表示网络权重和偏差的参数集合,l1和l2分别是网络迁移需要自适应的首尾层,xa和na是源域和目标域中有标记数据的集合,λ是惩罚参数,是源域数据和目标域数据的分布距离,是cross-entropy损失函数。
有益效果:
本发明从数据库中收集源域和目标域中的热点残基相关数据集,通过预处理和分类后进行氨基酸编码,再采用CNN网络模型提取氨基酸编码矩阵中的热点残基特征,采用源域中的数据驱动模型蛋白质和蛋白质(DNA)复合物界面热点残基的数据集和特征集,基于深度学习框架构建CNN网络模型获得预训练模型,并将目标域的数据集和特征集采用预训练模型进行训练微调,获得一个预测速度快、准确率高、可用性高的模型。该方法通过迁移学习利用蛋白质和蛋白质(DNA)复合物界面热点残基领域的相关知识构建预训练模型,获取热点残基的通用特征并应用到蛋白质和RNA复合物界面热点残基的识别和预测任务中,不仅能够有效地解决蛋白质和RNA复合物界面热点残基数据集少的问题,还能够提升分类模型的准确性和鲁棒性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
图1为本发明实施例提供的一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法的流程示意图;
图2为本发明实施例提供的迁移学习在热点残基研究领域的应用简图;
图3为本发明实施例提供的深度网络迁移示意图;
图4为本发明实施例提供的构建网络模型的流程图;
图5为本发明实施例提供的识别蛋白质和RNA复合物界面热点残基的深度网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提出了一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法的流程图,具体包括以下步骤:
步骤S101,获取源域和目标域的热点残基相关数据集,分别进行预处理和分类获得源域训练数据集和测试数据集、目标域训练数据集和测试数据集。
在本发明实施例中,从ASEdb、SKEMPI、Nabe、dbAMEPNI、PremPDI和SAMPDI等数据库中收集源域和目标域中与热点残基相关的数据集,其中源域是蛋白质和蛋白质(DNA)复合物界面热点残基研究领域,目标域是蛋白质和RNA复合物界面热点残基研究领域;所述热点残基相关数据集包含热点残基样本和非热点残基样本。所述数据集是从使用数据去冗余技术对原始数据集进行预处理,具体采用CD-HIT通过序列比对聚类方法去除相似度大于40%的蛋白质序列,获得一个非冗余的序列文件,所述CD-HIT序列去冗余为先对从PDB数据库中下载的所有蛋白质序列按照其长度进行排序,从最长的蛋白质序列开始形成第一个簇,然后依次对其他序列进行处理,如果接下来的序列与已存在的簇中的代表序列相似性大于cutoff指标,那么该序列属于这个簇,否则添加一个新的簇。
将预处理后的数据集进行分类处理:数据集按照9:1的比例分为训练数据集和测试数据集;训练数据集中采用下采样方法平衡正负样本,使得热点残基样本和非热点残基样本的比例接近于1:1。从而获得源域训练数据集、测试数据集和目标域训练数据集和测试数据集。
步骤S102,将所述源域训练数据集和测试数据集、目标域训练数据集和测试数据集根据蛋白质序列信息对氨基酸残基进行编码,获得源域编码矩阵和目标域编码矩阵。
在本发明实施例中,所述根据蛋白质序列信息对氨基酸残基进行编码采用如下两种方法进行:
独热编码:所述独热编码是使用N位状态寄存器来对N个不同的状态进行编码,且在任意时候只有其中一位有效。蛋白质序列由20种不同的氨基酸组成,对应了20种不同的状态,用独热编码的形式可以将其表示为一个20维的向量,其中每一个氨基酸对应其中一个有效位。将包含蛋白质热点和非热点残基数据集的相关信息文件输入到独热编码程序中,每个氨基酸残基分别得到一个只包含元素0和1的邻接矩阵ML×20(其中L是滑动窗口的长度,20是氨基酸的种类数)。
标签编码:所述标签编码是采用连续的数值来表示特征的一种编码方式。使用数字0-19代表20种不同的氨基酸,每种氨基酸唯一匹配其中的一个数字。由氨基酸残基样本为中心,L为滑动窗口的氨基酸序列经过标签编码后可以得到一个长度为L的一维矩阵,然后这个一维矩阵和20种顺序排列的氨基酸组成一个二维矩阵NL×20,矩阵中的元素aij为对应行列氨基酸数值之和。
步骤S103,将所述源域编码矩阵和目标域编码矩阵分别进行卷积神经网络模型学习热点残基的特征,并获取源域特征集和目标域特征集。
在本发明实施例中,将独热编码得到的稀疏矩阵和标签编码得到的密集矩阵分别输入到已经构建好的CNN模型中提取特征,CNN模型中的卷积层和池化层能够将输入数据映射到隐藏的特征空间,提取热点残基的特征。
步骤S104,根据所述源域数据集和源域特征集训练网络,构建识别热点残基的预训练模型。
在本发明实施例中,根据源域的数据集和特征集训练网络,构建识别热点残基的预训练模型,具体为获取与蛋白质和蛋白质(DNA)复合物界面热点残基有关的数据集和特征集,基于深度学习框架构建CNN网络模型,将源域的数据集和特征集输入到网络模型中预训练,并根据交叉验证的结果更新参数,不断优化模型,得到训练后的CNN网络模型。CNN网络模型的具体构建流程如图4所示,首先输入热点残基和非热点残基样本的特征集,然后基于caffe(Convolutional Architecture for Fast Feature Embedding,快速特征嵌入和卷积体系结构)深度学习框架构建CNN网络模型,通过训练数据集训练网络模型并更新参数,最后得到一个训练后的网络模型。CNN网络模型通过学习输入与输出之间的映射关系,并通过卷积来模拟特征分区,并且通过卷积的权重共享和池化来降低网络参数的数量级,最后通过神经网络完成分类任务。图5为本发明方法中的深度网络模型图,从图中可以看出,该网络模型由输入层、卷积层、池化层、注意力机制层、全连接层和输出层组成,其中卷积层和池化层将原始数据映射到隐藏特征空间,用来提取特征,而全连接层将学习到的特征映射到标记样本空间,实现残基分类目标。CNN网络模型的训练过程如下:
第一阶段:前向计算
(1)在模型训练前,用一些不同的小随机数初始化网络权值;
(2)用(xP,YP)表示任意一个热点残基样本P,并将xP输入到网络进行训练;
(3)计算输入与每层网络权值矩阵的点乘,得到相应的输出值OP,OP可以表示为:
OP=Fn(…(F2(F1(xPw1)w2)…)wn) (1)
式中,xP是输入样本,其真实标记值为YP,wi为第i层网络的权值,Fi为对应的函数。
第二阶段:反向传播
(1)计算CNN网络模型的损失,即网络输出OP值与实际值YP之间的误差;
(2)按照极小化误差调整网络的权值矩阵。
当CNN网络模型输出的结果与期望的结果不符时,则需要进行反向传播过程,该过程主要目的是通过训练样本和期望值来调整网络权值,具体体现在首先计算出模型输出结果和期望结果之间的误差,然后将误差逐层返回,得到每一层的误差,并更新网络权重。在计算出网络模型的总误差后,每一层网络的误差可以通过以下公式计算:
δ(n)=-(Y-a(n))f(z(n)) (2)
式中,δ(n)为输出层n的误差,a(n)为第n层的输出,Y为目标值,f(·)为激励函数的导函数值。
步骤S105,将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型,用于识别蛋白质和RNA复合物界面热点残基。
在本发明实施例中,如图2所示,迁移学习能够通过域之间的相似性获取蛋白质和蛋白质(DNA)复合物界面热点残基与蛋白质和RNA复合物界面热点残基的通用特征,通过构建迁移学习函数复用预训练模型,将源域热点残基数据的知识特点和结构特性迁移到目标域中,然后根据目标域热点残基数据的特殊特征再次训练模型,微调模型,得到最终的分类预测模型,用于识别蛋白质和RNA复合物界面热点残基,具体为将源域预训练得到的网络模型迁移应用到目标域中的学习任务中,首先删除预训练模型中的原始分类器,然后根据目标域的分类任务添加一个合适的新分类器,最后依次输入蛋白质和RNA界面热点和非热点残基样本进行再训练,在迭代的过程中逐步优化各项参数。
在本发明实施例中,所述删除预训练模型中的原始分类器,然后根据目标域的分类任务添加一个合适的新分类器,具体为深度学习模型可以自动学习分层中的特征表示,由第一层学习得到的特征一般而言是通用特征,并且可以在相关领域的不同问题中复用,而由最后一层计算得到的特征是特殊特征,并且依赖于训练的数据集和本领域的学习任务,所以,网络模型必定有一个从一般到特殊的转变过程。由于与热点残基有关的数据集数量较少,在复用预训练模型的过程中训练一些层并冻结其他层,为了避免数据过拟合问题,选择冻结更多的网络层,只训练靠近分类器的后三层网络。
深度学习网络的迁移形式主要是微调(fine-tune),微调是利用前期训练好的网络模型,结合自身的学习任务再进行模型调整,固定网络的前面几层的参数,根据具体的学习任务,微调后面的网络层。应用深度网络迁移的过程中,考虑到网络迁移的层数和迁移的方法(度量准则),通常采用以下公式计算网络损失:
l=lC(DS,yS)+λlA(DS,DT) (3)
式中,DS和DT分别代表源域数据集和目标域数据集,yS代表源域中样本的实际类别,l表示网络l的最终损失,lC(DS,yS)表示网络在有标记的数据上的常规损失,lA(DS,DT)表示迁移学习过程中的网络自适应损失,λ是平衡常规损失和网络自适应损失的权重参数。
基于深度网络进行迁移学习的核心就是找到网络中需要迁移的层数,并计算这些层在网络迁移过程中的自适应损失lA(DS,DT)。本发明方法中采用了MK-MMD(Multi-kernelMaximumMeanDiscrepancy,多核最大均值差异)准则来度量网络自适应损失,所述MK-MMD是将源域和目标域中的特征集映射到拥有特有核K的再生核希尔伯特空间中,并求出映射后数据的均值差异。对于两个概率分布p和q,其在核K的再生核希尔伯特空间中的均值距离可以表示为MK-MMD dK(p,q),其平方公式为:
式中,φ(·)是特征映射,用于把原变量映射到再生核希尔伯特空间。MK-MMD的多核表示形式为:
式中,m是标记样本u的总数,{βu}是需要确定的网络参数。
图3是本发明方法的深度网络迁移示意图,从图3中可以看出复用预训练模型时,除了靠近分类器的最后三层网络模型外,其他的网络层都被迁移应用到了目标域,也就是说前面几层网络被直接冻结了,只有后面三层网络需要进行网络自适应。这个过程中模型的优化需要同时考虑到损失函数和网络自适应损失,损失函数是用来度量真实值和预测值之间差异的指标,网络自适应损失是源域和目标域的差异,决定了网络的泛化能力。模型的优化目标可以用以下公式表示:
式中,Θ是表示网络权重和偏差的参数集合,l1和l2分别是网络迁移需要自适应的首尾层,xa和na是源域和目标域中有标记数据的集合,是源域数据和目标域数据的分布距离,是一个cross-entropy损失函数,可以表示为:
式中,y为真实的输出,σ(z)为预测输出值,z=∑jwjxj+b,w和b是权重和偏差。
本发明提供一种基于迁移学习的蛋白质和RNA复合物界面热点残基识别和预测的方法,首先收集了与热点残基有关的数据集,然后将经过CD-HIT预处理的数据集划分为训练数据集和测试数据集,并采用下采样方法平衡数据集中的正负样本,然后根据蛋白质序列信息编码氨基酸,并使用CNN网络提取编码矩阵中的热点残基特征,最后构建预训练模型,获取热点残基的通用特性,并基于预训练模型修改原始分类器,加入蛋白质和RNA复合物界面热点残基的特殊特征,微调模型,得到最终的网络模型。该方法通过迁移学习学习了相关领域的知识,利用热点残基的通用特征和本领域热点残基的特殊特征构建模型,增加了热点残基特征表示的泛化性,在一定程度上提高了模型的分类精度和准确性,同时,方法实现了对已有知识和模型和重用,解决了蛋白质和RNA复合物界面热点残基研究中缺少标记样本的问题,也降低了构建模型的复杂度。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
Claims (7)
1.一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法,其特征在于,具体包括:
获取源域和目标域的热点残基相关数据集,分别进行预处理和分类获得源域训练数据集和测试数据集、目标域训练数据集和测试数据集;所述热点残基相关数据集包含热点残基样本和非热点残基样本;
将所述源域训练数据集和测试数据集、目标域训练数据集和测试数据集根据蛋白质序列信息对氨基酸残基进行编码,获得源域编码矩阵和目标域编码矩阵;
将所述源域编码矩阵和目标域编码矩阵分别进行卷积神经网络模型学习热点残基的特征,并获取源域特征集和目标域特征集;
根据所述源域数据集和源域特征集训练网络,构建识别热点残基的预训练模型;以及
将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型,用于识别蛋白质和RNA复合物界面热点残基。
2.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法,其特征在于,所述预处理具体为:
将所述源域和目标域的热点残基数据集通过序列比对聚类方法去除相似度大于40%的蛋白质序列,获得非冗余的源域和目标域的热点残基数据集。
3.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法,其特征在于,所述分类具体为:
将所述数据集按照9:1的比例分为训练数据集和测试数据集;
所述训练集中热点残基样本和非热点残基样本的比例接近于1:1。
4.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法,其特征在于,所述根据蛋白质序列信息对氨基酸残基进行编码步骤具体包括:
将包含蛋白质热点和非热点残基信息输入到独热编码程序中进行编码,获得稀疏矩阵ML×20;
以热点残基为中心,L为滑动窗口的氨基酸序列经标签编码后获得密集矩阵NL×20。
5.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法,其特征在于,所述根据所述源域数据集和源域特征集训练网络,构建识别热点残基的预训练模型步骤具体包括:
获取初始化网络权值,以(xP,YP)表示任意一个热点残基样本P,并将xP输入到网络进行训练,计算输入与每层网络权值矩阵的点乘,获得输出值OP,OP可以表示为:
OP=Fn(…(F2(F1(xPw1)w2)…)wn);
所述xP是输入样本,其真实标记值为YP,wi为第i层网络的权值,Fi为对应的函数;
计算网络输出值OP与实际值YP之间的误差,并按照极小化误差调整网络权值。
6.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法,其特征在于,所述将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型步骤具体包括:
删除预训练模型中的原始分类器,并根据目标域的分类任务添加新分类器,将所述目标域数据集和目标域特征集输入到预训练模型进行训练,对靠近新分类器的预训练三层网络模型进行网络自适应,获得迁移学习模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110199585.4A CN112927753A (zh) | 2021-02-22 | 2021-02-22 | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110199585.4A CN112927753A (zh) | 2021-02-22 | 2021-02-22 | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112927753A true CN112927753A (zh) | 2021-06-08 |
Family
ID=76170293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110199585.4A Pending CN112927753A (zh) | 2021-02-22 | 2021-02-22 | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927753A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326378A (zh) * | 2021-06-16 | 2021-08-31 | 山西财经大学 | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 |
CN113724195A (zh) * | 2021-07-15 | 2021-11-30 | 南方医科大学 | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 |
CN113921086A (zh) * | 2021-09-14 | 2022-01-11 | 上海中科新生命生物科技有限公司 | 基于质谱分析的蛋白质从头肽测序方法及系统 |
CN114821572A (zh) * | 2022-03-11 | 2022-07-29 | 德阳市人民医院 | 基于多视图与数据扩展的深度学习口服药丸识别方法 |
CN118072835A (zh) * | 2024-04-19 | 2024-05-24 | 宁波甬恒瑶瑶智能科技有限公司 | 基于机器学习的生物信息学数据处理方法、系统及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787513A (zh) * | 2016-03-01 | 2016-07-20 | 南京邮电大学 | 多示例多标记框架下基于域适应迁移学习设计方法和系统 |
CN108197430A (zh) * | 2018-01-22 | 2018-06-22 | 哈尔滨工程大学 | 基于迁移学习的功能型microexon识别方法 |
CN109637580A (zh) * | 2018-12-06 | 2019-04-16 | 上海交通大学 | 一种蛋白质氨基酸关联矩阵预测方法 |
US20200027545A1 (en) * | 2018-07-17 | 2020-01-23 | Petuum Inc. | Systems and Methods for Automatically Tagging Concepts to, and Generating Text Reports for, Medical Images Based On Machine Learning |
WO2020069501A1 (en) * | 2018-09-29 | 2020-04-02 | F. Hoffman-La Roche Ag | Multimodal machine learning based clinical predictor |
CN111863135A (zh) * | 2020-07-15 | 2020-10-30 | 西安交通大学 | 一种假阳性结构变异过滤方法、存储介质及计算设备 |
WO2021026037A1 (en) * | 2019-08-02 | 2021-02-11 | Flagship Pioneering Innovations Vi, Llc | Machine learning guided polypeptide design |
CN112382338A (zh) * | 2020-11-16 | 2021-02-19 | 南京理工大学 | 基于自注意力残差网络的dna-蛋白质结合位点预测方法 |
-
2021
- 2021-02-22 CN CN202110199585.4A patent/CN112927753A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787513A (zh) * | 2016-03-01 | 2016-07-20 | 南京邮电大学 | 多示例多标记框架下基于域适应迁移学习设计方法和系统 |
CN108197430A (zh) * | 2018-01-22 | 2018-06-22 | 哈尔滨工程大学 | 基于迁移学习的功能型microexon识别方法 |
US20200027545A1 (en) * | 2018-07-17 | 2020-01-23 | Petuum Inc. | Systems and Methods for Automatically Tagging Concepts to, and Generating Text Reports for, Medical Images Based On Machine Learning |
WO2020069501A1 (en) * | 2018-09-29 | 2020-04-02 | F. Hoffman-La Roche Ag | Multimodal machine learning based clinical predictor |
CN109637580A (zh) * | 2018-12-06 | 2019-04-16 | 上海交通大学 | 一种蛋白质氨基酸关联矩阵预测方法 |
WO2021026037A1 (en) * | 2019-08-02 | 2021-02-11 | Flagship Pioneering Innovations Vi, Llc | Machine learning guided polypeptide design |
CN111863135A (zh) * | 2020-07-15 | 2020-10-30 | 西安交通大学 | 一种假阳性结构变异过滤方法、存储介质及计算设备 |
CN112382338A (zh) * | 2020-11-16 | 2021-02-19 | 南京理工大学 | 基于自注意力残差网络的dna-蛋白质结合位点预测方法 |
Non-Patent Citations (4)
Title |
---|
MINGSHENG LONG 等: "Learning Transferable Features with Deep Adaptation Networks", 《ARXIV:1502.02791V2 [CS.LG]》 * |
PATRICK S. STUMPF 等: "Transfer learning efficiently maps bone marrow cell types from mouse to human using single-cell RNA sequencing", 《COMMUNICATIONS BIOLOGY》 * |
SHEHU MOHAMMEDYUSUF 等: "DeepPPF: A deep learning framework for predicting protein family", 《NEUROCOMPUTING》 * |
胡海峰等: "基于多示例多标记迁移学习的蛋白质功能预测", 《中国科学:信息科学》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326378A (zh) * | 2021-06-16 | 2021-08-31 | 山西财经大学 | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 |
CN113724195A (zh) * | 2021-07-15 | 2021-11-30 | 南方医科大学 | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 |
CN113724195B (zh) * | 2021-07-15 | 2023-06-02 | 南方医科大学 | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 |
CN113921086A (zh) * | 2021-09-14 | 2022-01-11 | 上海中科新生命生物科技有限公司 | 基于质谱分析的蛋白质从头肽测序方法及系统 |
CN113921086B (zh) * | 2021-09-14 | 2024-08-02 | 上海中科新生命生物科技有限公司 | 基于质谱分析的蛋白质从头肽测序方法及系统 |
CN114821572A (zh) * | 2022-03-11 | 2022-07-29 | 德阳市人民医院 | 基于多视图与数据扩展的深度学习口服药丸识别方法 |
CN118072835A (zh) * | 2024-04-19 | 2024-05-24 | 宁波甬恒瑶瑶智能科技有限公司 | 基于机器学习的生物信息学数据处理方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112927753A (zh) | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 | |
CN111312329B (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
CN111210871B (zh) | 基于深度森林的蛋白质-蛋白质相互作用预测方法 | |
CN113744799B (zh) | 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法 | |
CN101794351B (zh) | 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法 | |
Zhang et al. | Identification of DNA–protein binding sites by bootstrap multiple convolutional neural networks on sequence information | |
CN114927162A (zh) | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 | |
CN112183837A (zh) | 一种基于自编码模型的miRNA与疾病关联关系预测方法 | |
CN115472221A (zh) | 一种基于深度学习的蛋白质适应度预测方法 | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
CN103164631B (zh) | 一种智能协同表达基因分析仪 | |
CN118038995B (zh) | 非编码rna中小开放阅读窗编码多肽能力预测方法及系统 | |
CN113257359A (zh) | 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法 | |
US20020072887A1 (en) | Interaction fingerprint annotations from protein structure models | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
CN117153268A (zh) | 一种细胞类别确定方法及系统 | |
CN117976035A (zh) | 一种融合特征的深度学习网络的蛋白质sno位点预测方法 | |
CN113362900A (zh) | 一种预测n4-乙酰胞苷的混合模型 | |
CN116959585B (zh) | 基于深度学习的全基因组预测方法 | |
CN111048145B (zh) | 蛋白质预测模型的生成方法、装置、设备和存储介质 | |
CN116758993A (zh) | 一种集成多组学特征的dna甲基化预测方法 | |
CN115810398A (zh) | 一种基于多特征融合的tf-dna结合识别方法 | |
Al-Barhamtoshy et al. | DNA sequence error corrections based on TensorFlow | |
Yaman et al. | MachineTFBS: Motif-based method to predict transcription factor binding sites with first-best models from machine learning library | |
CN114512188B (zh) | 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210608 |