CN111445944A - 基于多视角深度特征与多标签学习的rna结合蛋白识别 - Google Patents

基于多视角深度特征与多标签学习的rna结合蛋白识别 Download PDF

Info

Publication number
CN111445944A
CN111445944A CN202010226916.4A CN202010226916A CN111445944A CN 111445944 A CN111445944 A CN 111445944A CN 202010226916 A CN202010226916 A CN 202010226916A CN 111445944 A CN111445944 A CN 111445944A
Authority
CN
China
Prior art keywords
layer
view
network architecture
rna
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010226916.4A
Other languages
English (en)
Other versions
CN111445944B (zh
Inventor
邓赵红
杨海涛
吴敬
王蕾
王士同
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010226916.4A priority Critical patent/CN111445944B/zh
Publication of CN111445944A publication Critical patent/CN111445944A/zh
Application granted granted Critical
Publication of CN111445944B publication Critical patent/CN111445944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于智能细胞生物识别领域,涉及基于多视角深度特征与多标签学习的RNA结合蛋白识别。该方法包括训练阶段和使用阶段两部分,训练阶段包括初始多视角数据构造、深度多视角特征提取模型和多标签分类器训练。初始多视角数据构造使用分子生物学原理和统计学原理将原始的RNA序列转换成氨基酸序列和二肽成分,获得氨基酸序列和二肽成分特征,然后和原始的RNA序列一起构建成初始多视角特征,为初始多视角特征构建模型。本发明基于最初的多视角数据,利用CNN进行深度学习来构造出深度多视角特征,相对于原始多视角特征,经过深度特征提取的多视角特征具有更小的数据维度和更高的分类效果。

Description

基于多视角深度特征与多标签学习的RNA结合蛋白识别
技术领域
本发明属于智能细胞生物识别领域,涉及一种基于多视角深度特征与多标签学习的RNA 结合蛋白识别。
背景技术
RNA,全称核糖核酸,存在于生物细胞以及部分病毒、类病毒中的遗传信息载体之中,在生命体中主要起到调控编码基因表达的作用,同时也担任基因转录后合成蛋白质模板的角色,是生命体中不可缺少的成分。一条RNA想要顺利发挥其功能,一般需要借助RNA结合蛋白(RBP) 进行介导,所以缺少某种RBP可能会导致某类RNA无法发挥其调控或翻译的功能,从而使生命体缺少某些重要蛋白质或某些蛋白质异常增殖,影响自身机能。
RNA结合蛋白(RBP)是转录后事件的关键参与者,它们的RNA结合结构域的多功能性与结构灵活性使得RBP能够控制大量转录物的代谢。目前确定的人类RBP大约有1542种,占由细胞编码而成的所有蛋白质的7.5%。RBP几乎涉及转录后调控层的所有步骤,它们与其他蛋白质以及编码和非编码RNA建立高度动态的相互作用,产生称为核糖核蛋白复合物的功能单元,调节RNA剪切、多腺苷酸化、稳定性、定位、翻译和退化。研究发现,RBP在不同的癌症类型中失调,从而影响合成癌蛋白和肿瘤抑制蛋白RNA的模板功能,增加患癌风险和治疗癌症的难度。因此,破译RBP与其癌症相关RNA靶标之间错综复杂的相互结合网络将提供对肿瘤生物学的更好理解,并可能发现新的癌症治疗方法。值得一提的是绝大部分RNA都可以与不止一种RBP进行结合,所以寻找结合能力相似的RBP成为治疗RNA缺陷病和癌症的一个很重要的研究方向。
现在有很多方法可以利用机器学习模型从RNA序列中识别RBP结合位点,其关注点主要在于利用原始RNA序列的序列特征或结构特征来预测结合位点,很少有方法通过研究RNA与 RBP已有的结合信息来为预测提供帮助。如何将已有的RNA与RBP结合信息融入到训练样本中依然是一个重要的挑战。
发明内容
本发明实现了一种基于多视角深度特征与多标签学习的RNA结合蛋白识别,该方法包括训练阶段和使用阶段两部分,训练阶段包括初始多视角特征构建模型、深度多视角特征提取模型,多标签分类器训练和多视角决策分类。
训练阶段:初始多视角特征构建模型使用分子生物学原理和统计学原理将原始的RNA序列转换为氨基酸序列和二肽成分,获得序列的次序和成分特征,然后和原始的RNA序列一起构建成初始多视角特征,获得初始多视角特征构建模型;深度多视角特征提取模型构建出三个卷积神经网络,对初始的三个视角特征进行训练,以获得具有更好分类能力的深度多视角特征,得到深度多视角特征提取模型;提取到的深度特征用于训练CC多标签分类器,以学习到标签之间的关联,获得具有识别RNA结合蛋白能力的模型。
使用阶段:获取待测RNA序列,利用分子生物学原理和统计学原理构建出此条序列的初始多视角特征;再利用训练出来的三个卷积神经网络提取出3个视角的深度特征;接着使用训练出来的三个CC多标签分类器对这3个深度特征分别进行预测获得3组结果;最后使用多视角投票机制对这三组结果进行决策判断,得到最终的预测结果。
所述的基于多视角深度特征与多标签学习的RNA结合蛋白识别集合多视角深度学习技术和多标签学习技术,深度学习的深层次结构优化特征表示,多标签技术有效地利用每个标签的独立性和标签之间的相关性。将多视角深度学习技术和多标签学习技术有效结合可以充分提取RNA序列中的有效信息,提高分类器的泛化能力。
RNA序列是一段用文字序列描述的生物遗传物质,深度卷积模型无法处理文字信息,所以需要先将RNA文字序列进行预处理,转换成程序所能接受的数值形式。one-hot是目前较为流行的编码技术,其原理是将一条由n种元素组成的长度为m的文字序列构建为一个n*m 的矩阵,其中把每种元素转化成n维的标准正交基向量填充至m长度中的对应位置。以RNA 序列来说,one-hot会为一条长度为m的RNA序列构造一个初始的4*m大小的空白矩阵,将每种碱基转化为4维正交基向量,填充至序列的对应位置,如图7所示。行标题为一条具体的RNA序列,实际长度为2700。对照列中碱基所在的位置,可以把序列中的碱基A表示为向量(1,0,0,0)T,碱基C表示为向量(0,1,0,0)T,碱基G表示为(0,0,1,0)T,碱基U表示为(0,0,0,1)T,以此类推。
上述方法构建的初始特征矩阵虽然对提取特征有帮助,但缺点是信息量较少。氨基酸序列由20种氨基酸构成,其信息量远比RNA序列丰富,所以使用氨基酸序列转化得到的one-hot 编码矩阵会为特征提取提供更好的效果。将RNA序列翻译成氨基酸序列是单向且唯一的,但是因为一个氨基酸可对应多种碱基组合,所以由此得到的氨基酸序列无法还原至原始RNA序列,这会造成信息丢失和曲解信息的后果。例如碱基组合GCA可翻译得到固定的氨基酸A,但是氨基酸A却可以表示为GCA、GCC、GCG、GCU。为了处理这个问题,使用RNA序列到氨基酸序列的三种翻译方式,即从头开始翻译的第一形态,跳过第一个碱基开始翻译的第二形态,跳过第一和第二个碱基开始翻译的第三形态。用此方法可将上述长度为m的RNA序列转化为 3条长度为1/3m的氨基酸序列,这三种形态的氨基酸序列可以通过序列信息互补来还原原始 RNA序列信息。如上述的碱基组合GCA,可使用三种形态序列对应位置的氨基酸R、A、H来唯一确定。所以将三种形态的氨基酸序列拼接起来,得到一条长度为m的氨基酸长链,能够完全继承原始RNA序列的序列信息,且具有更加丰富的表现形式。对这条长链进行one-hot编码,原理同RNA序列,可得到一个20*m大小的初始特征矩阵,如图8所示,即为本发明所提出的氨基酸视角数据。行标题为一条具体的氨基酸序列,实际长度为2700。对照列标题中氨基酸所在的位置,可以将行序列中的所有氨基酸表示为一个个20维的标准正交基向量。
上述提到的RNA视角和氨基酸视角数据都偏向于对序列次序提取特征,而一条序列除了次序外,其组成成分同样重要。二肽是研究一条氨基酸序列成分的结构,任意两个氨基酸的组合称为二肽。g-gap dipeptide composition是一种描述氨基酸序列中二肽组成信息的方法。这种方法不仅描述了两个氨基酸在序列上的相关性,还描述了由于蛋白质二级结构中的氢键作用,序列上距离远的两个氨基酸,在三维空间上却可能相邻,所以g-gap二肽特征提取方法可以描述更多氨基酸序列和RNA序列的信息。利用g-gap二肽统计法能够将氨基酸序列映射为一个特征向量,其中g是一个变量,表示某种中间间隔了g个氨基酸的二肽,取值范围为0到9。本专利所采用的二肽形式为0-gap二肽,即中间无任何间隔的氨基酸组合。因为氨基酸空间结构的关系,二肽对左右氨基酸的排列是敏感的,所以对于21种氨基酸(天然的20种氨基酸和本发明增加的临时氨基酸O),共有441种二肽组合。由于OO这种组合无太多意义,所以被舍弃。统计这440种二肽出现的次数得到特征向量,可以有效地捕获到此条氨基酸序列和RNA序列的成分信息和氨基酸排列的信息。由于440维的特征向量是一维的,用于提取深度特征的效果不理想,所以将其转化为二维柱状图,可以更有效的使用机器学习模型来提取深度特征,如图9所示。
该部分的具体步骤如下:
第一步:使用原始RNA序列的one-hot转换矩阵作为RNA初始特征X1
第二步:使用分子生物学原理和one-hot方法将原始RNA序列转换成氨基酸序列初始特征X2
第三步:使用统计学原理将氨基酸序列转换成二肽成分初始特征X3。得到初步多视角数据集D={X1,X2,X3,y}
本发明的深度多视角特征提取部分使用卷积神经网络对RNA序列的各个视角特征进行自动提取。对于原始的RNA序列,经过预处理后可以得到RNA序列特征、氨基酸序列特征和二肽成分特征,针对三个不同视角的特征,分别构建三个不同的卷积神经网络来对不同视角特征进行深度自动提取。
CNN网络在训练时采用最后一层输出层的结果计算误差并进行反向传播,由此来进行网络的学习。因为倒数第二层计算得到的特征向量到输出层只经过一个全连接层,可以认为根据网络输出层训练优化网络结构的同时,对倒数第二层输出特征向量的表达也进行了优化,即网络在训练的同时也学习到了更好的特征表达,所以选择网络倒数第二层的输出作为网络学习到的特征。通过卷积神经网络的自动学习获得的特征,具有比原始特征更小的维度,并且得到的特征是经过非线性组合的具有更好划分能力的特征,可以使后续的分类模型具有更好的泛化效果。
图10,图11,图12为三个视角深度特征提取所使用的CNN网络架构图。用k@m*n表示网络各个层的特征图,k表示该层特征图的个数,m*n表示特征图的大小。网络的二维卷积核用k*m*n表示,k是卷积核的个数,m*n为卷积核的大小。卷积核的步长默认为1。网络的输入为各个视角特征,输出为一个向量,向量长度等于68(即该条RNA序列和68种RBP 的结合情况)。结果的前67维表示,若样本可以与该维的RBP结合,则等于1,否则等于0;结果的第68维表示,若样本RNA序列不可以与前67种中的任意一种RBP结合,则为1,否则为0。
图10为RNA视角深度特征提取使用的CNN网络架构,包括1个二维卷积层,1个池化层,1个扁平层,2个dropout层和2个全连接层。网络的输入为4*2710的二维矩阵。CNN网络架构第一层卷积层为101个4*10的卷积核,得到的101个1*2701的特征图;第二层池化层的池化长度为3,得到101个1*900的特征图;第三层为扁平层,得到1个1*90900的特征图;第四层为概率0.5的dropout层,得到1个1*90900的特征图;第五为全连接层,将1个1*90900 的特征图转换成一个1*202的向量;第六层为概率0.5的dropout层,得到1个1*202的特征图;第五为全连接层,将1个1*202的特征图转换成一个1*68的向量.
图11为氨基酸视角深度特征提取使用的CNN网络架构,总共包括1个二维卷积层,1个池化层,1个扁平层,2个dropout层和2个全连接层。输入为20*2710的二维矩阵。CNN网络架构第一层卷积层为101个20*10的卷积核,得到的101个1*2701的特征图;第二层池化层的池化长度为3,得到101个1*900的特征图;第三层为扁平层,得到1个1*90900的特征图;第四层为概率0.5的dropout层,得到1个1*90900的特征图;第五为全连接层,将1 个1*90900的特征图转换成一个1*202的向量;第六层为概率0.5的dropout层,得到1个 1*202的特征图;第五为全连接层,将1个1*202的特征图转换成1个1*68的向量.
图12为二肽视角深度特征提取使用的CNN网络架构,总共包括1个二维卷积层,1个扁平层,2个dropout层和2个全连接层。网络的输入为30*440的二维矩阵。CNN网络架构第一层卷积层为101个30*10的卷积核,得到的101个1*431的特征图;第二层为扁平层,得到 1个1*43531的特征图;第三层为概率0.5的dropout层,得到1个1*43531的特征图;第四为全连接层,将1个1*43531的特征图转换成一个1*202的向量;第五层为概率0.5的 dropout层,得到1个1*202的特征图;第六为全连接层,将1个1*202的特征图转换成1 个1*68的向量.
三个网络的最后一层都使用sigmoid函数作为激活函数来引入非线性变换,sigmoid函数的表达如下:
Figure BDA0002427998080000051
其余层都使用relu函数作为激活函数,relu函数的表达如下:
R(x)=max(0,x)
网络的损失函数采用二进制交叉熵(binary_crossentropy)损失函数,该函数的定义如下。
Figure BDA0002427998080000052
其中p(xi)和q(xi)都代表序列x对于类别i的隶属度,p代表真实标签值,即1或0,q代表预测值,在这里因为经过Sigmoid函数激活,所以q∈(0,1)。
该部分的具体步骤如下:
第一步:利用X1,y对RNA序列深度特征提取网训练,取RNA视角深度特征提取使用的 CNN网络架构的倒数第二层用做RNA序列深度特征
Figure BDA0002427998080000053
第二步:利用X2,y对氨基酸序列深度特征提取网络训练,取氨基酸视角深度特征提取使用的CNN网络架构的倒数第二层用做氨基酸序列深度特征
Figure BDA0002427998080000054
第三步:利用X3,y对二肽成分深度特征提取网络训练,取二肽视角深度特征提取使用的 CNN网络架构的倒数第二层用做二肽成分深度特征
Figure BDA0002427998080000055
得到多视角数据集
Figure BDA0002427998080000056
本发明的多标签分类部分使用ClassifierChain(CC)作为分类器,ClassifierChain 是一种可以有效学习到标签之间关联的多标签分类器,一般的多标签分类器,如BR分类器,其原理是为多标签问题中的每个标签设置一个二分类器,训练及预测样本是否归属于该标签。这种方法虽然利用的资源较少,但是忽略了标签之间的关联。不同于一般的多标签分类器, CC分类器不仅继承了资源消耗少的优点,而且可以有效地学习到标签之间的关联,并将学习到的知识应用到预测中去。设x=[0,1,0,1,0,0,1,1,0]为输入向量,其标签y=[1,0,0,1,0],BR 分类器与CC分类器的训练过程对比下表所示。
Figure BDA0002427998080000061
其中hj为预测对应标签的二分类器,用来预测标签yj∈{0,1}.从上表可以很清楚的看出,每次训练完一个分类器后,CC算法会将累计得出的预测结果作为新的特征值附加到下一次预测的特征向量中去。CC分类器的训练过程算法如下表所示。
Figure BDA0002427998080000062
训练集D中的向量x为经过CNN提取到的202维深度特征向量,y为68维的标签向量,L为68。算法最后输出是二元分类器组h=(h1,h2,…,hL),组中的每个分类器hj负责学习和预测给定样本的第j个标签的特征信息,并通过链中所有先前的标签值进行相关性信息补充。
使用训练完成的CC分类器进行预测很简单。对于预测样本来说,预测过程从h1分类器开始,沿着链传播:给定预测样本的深度特征向量,预测当前分类器的标签值,将此预测值附加至深度特征向量后,使用下一个分类器,进行下一个标签的预测过程。对于hj分类器而言,模型不仅通过样本的深度特征进行预测,并且结合了之前j-1个标签值,对预测精度进一步提升。下表概述了此预测的过程。
Figure BDA0002427998080000071
这种连接方法在分类器之间传递标签信息,从而允许CC考虑标签空间中的相关性,继承了BR模型的优势,解决了BR忽略此信息的问题。尽管附加属性占用了一个较小的特征空间,但具有相对较高的预测能力。
此方法有一个不容忽视的缺点,即标签顺序决定了后续标签预测的准确性。针对此,通常的做法是使用Ensembles of Classifier Chains(ECC)模型进行矫正。ECC的原理是随机排列标签顺序,训练多组CC分类器,对测试集采取求预测平均值的做法获得最终结果。本发明通过之前的辅助实验,证实了类样本数和预测精度呈正相关。因此本发明首先对标签集按照样本数量递减的顺序进行排列,再根据此顺序构造特定的CC多标签分类器。
该部分的具体步骤如下:
第一步:利用
Figure BDA0002427998080000072
y对RNA视角CC多标签分类器模型训练。
第二步:利用
Figure BDA0002427998080000073
y对氨基酸视角CC多标签分类器模型训练。
第三步:利用
Figure BDA0002427998080000074
y对二肽视角CC多标签分类器模型训练。、
在本方法的使用阶段,具体的步骤如下:
第一步:对测试数据使用初始多视角特征构建模型构建初步多视角测试数据集
Figure BDA0002427998080000075
第二步:使用深度多视角特征提取模型得到深度多视角测试数据集
Figure BDA0002427998080000076
第三步:使用训练好的CC多标签分类模块对多视角测试数据集进行预测,得到多视角初步结果
Figure BDA0002427998080000077
第四步:使用投票机制对多视角初步结果
Figure BDA0002427998080000078
进行决策。
本发明的有益效果:
1)初始多视角RNA序列特征的构建:RNA序列有很多构建特征的方法,用不同方式构造出的特征都具有一定的效果,也各有优缺点。使用多视角特征来进行RNA序列的特征提取以及识别能与其结合的RNA结合蛋白可以很好的将不同方法构造特征的优势结合起来。
2)深度多视角特征的构建:为了提高多视角特征的有效性,基于最初的多视角数据,利用CNN进行深度学习来构造出深度多视角特征。相对于原始多视角特征,经过深度特征提取的多视角特征具有更小的数据维度和更高的分类效果;
3)多标签分类器的构建:利用多标签分类器学习技术,基于CCN学习到的深度多视角特征进行学习,来获得更具有泛化能力的多标签分类器用于RNA结合蛋白识别。
附图说明
图1是本发明的算法方法框架图。
图2是本发明的不同视角数据获取算法框架图。
图3是本发明的多视角深度特征学习算法框架图。
图4是本发明的多标签分类器学习算法框架图。
图5是本发明的投票决策算法框架图。
图6是本发明的RNA结合蛋白识别算法框架图。
图7是RNA序列one-hot矩阵数据。
图8是图7RNA序列转化得到的氨基酸序列one-hot矩阵数据。
图9是图8氨基酸序列转化得到的二肽成分柱状数据。
图10是RNA序列深度特征提取网络。
图11是氨基酸序列深度特征提取网络。
图12是二肽成分深度特征提取网络。
图13(a)绘制的是精确率折线图。
图13(b)绘制的是召回率折线图。
图13(C)绘制的是F1得分折线图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1~图6所示,本发明实现了一种基于多视角深度特征与多标签学习的RNA结合蛋白识别,该方法包括初始多视角特征构建、深度多视角特征提取,多标签分类器训练和多视角投票决策分类四部分。初始多视角特征构建部分获得原始RNA序列的初始的多视角特征;深度多视角特征提取部分对初始多视角特征进行深度特征学习,获得多视角深度特征;多标签分类器训练部分使用提取到的深度特征,训练可以学习标签关联的CC分类器;多视角投票决策分类部分对上述三个视角的CC分类器所得结果做出综合决策,得到最终预测结果。
训练阶段的具体步骤。本方法的初始多视角特征构建部分首先从原始RNA序列中提取出RNA序列、氨基酸序列和二肽成分三个特征,构造成共有3个视角的多视角数据。
原始RNA序列是一种文本序列,利用one-hot编码技术转化可以得到其数值矩阵表达形式。本算法利用RNA序列数据作为RNA视角的特征。图7绘制了one-hot编码后的RNA序列特征,其中横轴代表一条具体的RNA序列,纵轴代表one-hot编码规则。
实施例1
按照训练阶段的实施方式,针对AURA2数据集的RNA-RBP结合数据完成实施例。该数据集包含67种RBP和73681条RNA序列以及它们的550386个结合位点信息,如表1所示。每种RBP可结合的样本RNA数量都不相同,差别很大。每条RNA序列的长度都不一样,所以我们统一规定了一个长度2700,不足的用碱基B补齐。表2展示了本发明所用方法iDeepMV和目前该领域先进方法的对比结果。
Figure BDA0002427998080000091
Figure BDA0002427998080000101
表2实施例1中的本算法的性能指标
Figure BDA0002427998080000102
其中RNA视角-、氨基酸视角-、二肽视角-和投票结果-是iDeepMV方法中没有经过多标签分类器训练的神经网络预测结果以及他们的投票结果,RNA视角+、氨基酸视角+、二肽视角+和最后的投票结果+是iDeepMV中经过多标签分类器预测之后的结果。
上表的纵坐标为iDeepM和本发明的三个视角各自的性能结果。注意到因为Macro-AUC、 Micro-AUC和Weighted-AUC三项指标是AUC曲线下面积,是评价一个模型分类能力的好坏,而投票结果已经是每种视角最佳阈值下的精度结果的整合,无法求出AUC,所以没有数据。从表中可以看出iDeepM的AUC和本发明所提出的三个视角相差不大,都在0.9以上,且三种限制下的AUC同样无明显区别。但iDeepM的三项F1指标得分相差比较大,基于Macro的F1 得分明显低于基于Micro和Weighted的F1得分,这是因为iDeepM模型对小样本的学习性能偏差。在优化网络结构以及学习最佳分类阈值后,即本发明所提出的RNA视角-,可以看出不管是三项AUC还是三项F1,都有明显的增长。另外两个视角的表现也不亚于RNA视角-,且六项指标都有进一步的提升。特别地,正如上文所言,直接从RNA序列提取特征信息没有从氨基酸序列及二肽提取的信息丰富,所以效果不如这两者好。整合三个视角的结果,利用投票机制进行投票,所得结果有了再次提升。这说明三个视角达到了协同训练和信息互补的效果。而经过CC多标签分类器训练之后的三个视角AUC较卷积神经网络模型的结果略有下降,说明CC多标签分类器的性能不如卷积神经网络中的Sigmoid层。但是由于CC多标签分类器学习到了RNA-RBP结合网络的信息,所以其分类精度有明显的增加,投票结果仍高于三个视角,充分证明了标签之间的关联信息,即RNA-RBP结合网络信息,对预测结合信息有显著的帮助。这个结果说明了本发明提出的深度学习模型和多标签分类器能够较为准确的识别出某条未探索的RNA可以和哪些RBP结合。
实施例2
为了从个体体现本发明方法的预测精度,表3计算了本实验所用方法和该领域先进方法在对不同RBP的预测效果。
表3不同RBP预测效果
Figure BDA0002427998080000111
Figure BDA0002427998080000121
Figure BDA0002427998080000131
图13的三幅图的横坐标是不同RBP的样本数量,纵坐标分别为精确率,召回率和F1-score。可以看出,三个方法随着类样本数量的逐渐提升,各指标都呈现逐渐提高并趋于平缓的趋势。注意到当样本数量低于5000时,各项指标的起伏很大,这是因为某些类样本数量过少导致模型不能很好地学习到这些类样本的深度特征。并且从3条曲线的比较来看,iDeepM方法在低样本环境下的学习能力不如本发明所提出的iDeepMV,表现在动荡幅度更剧烈,而增加了多标签分类器的iDeepMV+方法学习能力明显优于其他两者。对比三模型的各样本数量-指标图,可以看出本发明提出的iDeepMV方法各项指标均领先于iDeepM,且增加了多标签分类器的 iDeepMV+模型在精确率和F1两项指标取得了最佳效果。随着类样本数量逐渐增大,iDeepMV 预测稳定性和鲁棒性较iDeepM也有一定的提升。该深度学习模型是基于类别严重不均衡的数据集来做训练的,如果能收集更多的平均类数量的RNA-RBP结合的数据,深度学习模型和多标签分类器的优势会更明显,对于RNA结合信息的预测率还能进一步提高。从上述可得知,不管是预测一条未知RNA与所有RBP结合的情况,还是预测单个RBP结合,本发明的模型都取得了相当不错的效果。

Claims (8)

1.基于多视角深度特征与多标签学习的RNA结合蛋白识别,其特点在于:训练阶段的步骤为:
第一步:使用one-hot编码技术将原始RNA序列编码为数值矩阵,作为初始RNA序列特征X1
第二步:使用分子生物学原理将原始RNA序列转换成氨基酸序列,再用one-hot编码技术转化为数值矩阵,作为初始氨基酸序列特征X2
第三步:使用统计学原理将氨基酸序列转化为二肽柱状数值矩阵,作为初始二肽成分特征X3;得到初步多视角数据集D={X1,X2,X3,y};
第四步:利用X1,y对RNA序列深度特征提取网训练,取RNA视角深度特征提取使用的CNN网络架构的倒数第二层用做RNA序列深度特征
Figure FDA0002427998070000011
第五步:利用X2,y对氨基酸序列深度特征提取网络训练,取氨基酸视角深度特征提取使用的CNN网络架构的倒数第二层用做氨基酸序列深度特征
Figure FDA0002427998070000012
第六步:利用X3,y对二肽成分深度特征提取网络训练,取二肽视角深度特征提取使用的CNN网络架构的倒数第二层用做二肽成分深度特征
Figure FDA0002427998070000013
第七步:利用
Figure FDA0002427998070000014
y对RNA视角CC多标签分类器模型训练;
第八步:利用
Figure FDA0002427998070000015
y对氨基酸视角CC多标签分类器模型训练;
第九步:利用
Figure FDA0002427998070000016
y对二肽视角CC多标签分类器模型训练;
第十步:对测试数据使用初始多视角特征构建模型构建初步多视角测试数据集
Figure FDA0002427998070000017
第十步:使用深度多视角特征提取模型得到深度多视角测试数据集
Figure FDA0002427998070000018
第十一步:使用训练好的CC多标签分类模块对多视角测试数据集进行预测,得到多视角初步结果
Figure FDA0002427998070000019
第十二步:使用投票机制对多视角初步结果
Figure FDA00024279980700000110
进行决策。
2.如权利要求1所述的基于多视角深度特征与多标签学习的RNA结合蛋白识别,其特征在于:所述第四步中的RNA视角深度特征提取使用的CNN网络架构,包括1个二维卷积层、1个池化层、1个扁平层、2个dropout层和2个全连接层;CNN网络架构第一层卷积层为101个4*10的卷积核,得到的101个1*2701的特征图;第二层池化层的池化长度为3,得到101个1*900的特征图;第三层为扁平层,得到1个1*90900的特征图;第四层为概率0.5的dropout层,得到1个1*90900的特征图;第五为全连接层,将1个1*90900的特征图转换成一个1*202的向量;第六层为概率0.5的dropout层,得到1个1*202的特征图;第五为全连接层,将1个1*202的特征图转换成一个1*68的向量。
3.如权利要求1或2所述的基于多视角深度特征与多标签学习的RNA结合蛋白识别,其特征在于:所述第五步中的氨基酸视角深度特征提取使用的CNN网络架构,包括包括1个二维卷积层、1个池化层、1个扁平层、2个dropout层和2个全连接层;CNN网络架构第一层卷积层为101个20*10的卷积核,得到的101个1*2701的特征图;第二层池化层的池化长度为3,得到101个1*900的特征图;第三层为扁平层,得到1个1*90900的特征图;第四层为概率0.5的dropout层,得到1个1*90900的特征图;第五为全连接层,将1个1*90900的特征图转换成一个1*202的向量;第六层为概率0.5的dropout层,得到1个1*202的特征图;第五为全连接层,将1个1*202的特征图转换成1个1*68的向量。
4.如权利要求1或2所述的基于多视角深度特征与多标签学习的RNA结合蛋白识别,其特征在于:所述第六步中的二肽视角深度特征提取使用的CNN网络架构,包括包括1个二维卷积层、1个扁平层、2个dropout层和2个全连接层;CNN网络架构第一层卷积层为101个30*10的卷积核,得到的101个1*431的特征图;第二层为扁平层,得到1个1*43531的特征图;第三层为概率0.5的dropout层,得到1个1*43531的特征图;第四为全连接层,将1个1*43531的特征图转换成一个1*202的向量;第五层为概率0.5的dropout层,得到1个1*202的特征图;第六为全连接层,将1个1*202的特征图转换成1个1*68的向量。
5.如权利要求3所述的基于多视角深度特征与多标签学习的RNA结合蛋白识别,其特征在于:所述第六步中的二肽视角深度特征提取使用的CNN网络架构,包括包括1个二维卷积层、1个扁平层、2个dropout层和2个全连接层;CNN网络架构第一层卷积层为101个30*10的卷积核,得到的101个1*431的特征图;第二层为扁平层,得到1个1*43531的特征图;第三层为概率0.5的dropout层,得到1个1*43531的特征图;第四为全连接层,将1个1*43531的特征图转换成一个1*202的向量;第五层为概率0.5的dropout层,得到1个1*202的特征图;第六为全连接层,将1个1*202的特征图转换成1个1*68的向量。
6.如权利要求1或2或5所述的基于多视角深度特征与多标签学习的RNA结合蛋白识别,其特征在于:所述的RNA视角深度特征提取使用的CNN网络架构、氨基酸视角深度特征提取使用的CNN网络架构和二肽视角深度特征提取使用的CNN网络架构的最后一层都使用sigmoid函数作为激活函数来引入非线性变换,其余层采用relu函数作为激活函数,三个网络的损失函数采用Binary cross-entropy二分类交叉熵损失函数。
7.如权利要求3所述的基于多视角深度特征与多标签学习的RNA结合蛋白识别,其特征在于:所述的RNA视角深度特征提取使用的CNN网络架构、氨基酸视角深度特征提取使用的CNN网络架构和二肽视角深度特征提取使用的CNN网络架构的最后一层都使用sigmoid函数作为激活函数来引入非线性变换,其余层采用relu函数作为激活函数,三个网络的损失函数采用Binary cross-entropy二分类交叉熵损失函数。
8.如权利要求4所述的基于多视角深度特征与多标签学习的RNA结合蛋白识别,其特征在于:所述的RNA视角深度特征提取使用的CNN网络架构、氨基酸视角深度特征提取使用的CNN网络架构和二肽视角深度特征提取使用的CNN网络架构的最后一层都使用sigmoid函数作为激活函数来引入非线性变换,其余层采用relu函数作为激活函数,三个网络的损失函数采用Binary cross-entropy二分类交叉熵损失函数。
CN202010226916.4A 2020-03-27 2020-03-27 基于多视角深度特征与多标签学习的rna结合蛋白识别 Active CN111445944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010226916.4A CN111445944B (zh) 2020-03-27 2020-03-27 基于多视角深度特征与多标签学习的rna结合蛋白识别

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010226916.4A CN111445944B (zh) 2020-03-27 2020-03-27 基于多视角深度特征与多标签学习的rna结合蛋白识别

Publications (2)

Publication Number Publication Date
CN111445944A true CN111445944A (zh) 2020-07-24
CN111445944B CN111445944B (zh) 2023-04-18

Family

ID=71652539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010226916.4A Active CN111445944B (zh) 2020-03-27 2020-03-27 基于多视角深度特征与多标签学习的rna结合蛋白识别

Country Status (1)

Country Link
CN (1) CN111445944B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201300A (zh) * 2020-10-23 2021-01-08 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN112562788A (zh) * 2020-12-28 2021-03-26 上海交通大学 一种环状rna-rna结合蛋白关系预测模型构建方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113779880A (zh) * 2021-09-06 2021-12-10 广西路桥工程集团有限公司 一种基于超前钻探数据的隧道围岩二维质量评价方法
CN114842916A (zh) * 2022-04-28 2022-08-02 北京未名拾光生物技术有限公司 高效构建生物多肽活性分子数据库的方法、设备及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529203A (zh) * 2016-12-21 2017-03-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
CN109994203A (zh) * 2019-04-15 2019-07-09 江南大学 一种基于eeg信号深度多视角特征学习的癫痫检测方法
US20190295688A1 (en) * 2018-03-23 2019-09-26 Google Llc Processing biological sequences using neural networks
CN110853707A (zh) * 2019-11-20 2020-02-28 北京师范大学 一种基于深度学习的基因调控网络重构方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529203A (zh) * 2016-12-21 2017-03-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
US20190295688A1 (en) * 2018-03-23 2019-09-26 Google Llc Processing biological sequences using neural networks
CN109994203A (zh) * 2019-04-15 2019-07-09 江南大学 一种基于eeg信号深度多视角特征学习的癫痫检测方法
CN110853707A (zh) * 2019-11-20 2020-02-28 北京师范大学 一种基于深度学习的基因调控网络重构方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201300A (zh) * 2020-10-23 2021-01-08 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN112201300B (zh) * 2020-10-23 2022-05-13 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN112562788A (zh) * 2020-12-28 2021-03-26 上海交通大学 一种环状rna-rna结合蛋白关系预测模型构建方法
CN112562788B (zh) * 2020-12-28 2022-06-28 上海交通大学 一种环状rna-rna结合蛋白关系预测模型构建方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113035280B (zh) * 2021-03-02 2022-03-11 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113779880A (zh) * 2021-09-06 2021-12-10 广西路桥工程集团有限公司 一种基于超前钻探数据的隧道围岩二维质量评价方法
CN113779880B (zh) * 2021-09-06 2024-04-12 广西路桥工程集团有限公司 一种基于超前钻探数据的隧道围岩二维质量评价方法
CN114842916A (zh) * 2022-04-28 2022-08-02 北京未名拾光生物技术有限公司 高效构建生物多肽活性分子数据库的方法、设备及系统

Also Published As

Publication number Publication date
CN111445944B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111445944B (zh) 基于多视角深度特征与多标签学习的rna结合蛋白识别
CN111816255B (zh) 融合多视角和最优多标签链式学习的rna结合蛋白识别
Huang et al. Domain transfer through deep activation matching
Liu et al. Knowledge distillation via instance relationship graph
Rodríguez et al. Beyond one-hot encoding: Lower dimensional target embedding
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN113011499B (zh) 一种基于双注意力机制的高光谱遥感图像分类方法
CN107766850B (zh) 基于结合人脸属性信息的人脸识别方法
Donahue et al. Decaf: A deep convolutional activation feature for generic visual recognition
Coates et al. The importance of encoding versus training with sparse coding and vector quantization
Xiang et al. Fabric image retrieval system using hierarchical search based on deep convolutional neural network
Elfiky et al. Discriminative compact pyramids for object and scene recognition
CN110347839A (zh) 一种基于生成式多任务学习模型的文本分类方法
CN101482926B (zh) 一种可伸缩的自适应多核分类方法
CN102314614A (zh) 一种基于类共享多核学习的图像语义分类方法
Khan et al. Image scene geometry recognition using low-level features fusion at multi-layer deep CNN
Yee et al. DeepScene: Scene classification via convolutional neural network with spatial pyramid pooling
Yin et al. Feature combination using boosting
CN105631416A (zh) 采用新型密度聚类进行人脸识别的方法
Karaman et al. L1-regularized logistic regression stacking and transductive crf smoothing for action recognition in video
CN112766360A (zh) 一种基于时序二维化和宽度学习的时间序列分类方法和系统
Xie et al. Feature normalization for part-based image classification
CN113177612A (zh) 一种基于cnn少样本的农业病虫害图像识别方法
Zhang et al. A self-supervised deep learning framework for unsupervised few-shot learning and clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant