CN115547407B - 基于深度自动编码器的lncRNA-蛋白质相互作用预测方法 - Google Patents

基于深度自动编码器的lncRNA-蛋白质相互作用预测方法 Download PDF

Info

Publication number
CN115547407B
CN115547407B CN202211287199.1A CN202211287199A CN115547407B CN 115547407 B CN115547407 B CN 115547407B CN 202211287199 A CN202211287199 A CN 202211287199A CN 115547407 B CN115547407 B CN 115547407B
Authority
CN
China
Prior art keywords
lncrna
protein
original training
training sample
protein interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211287199.1A
Other languages
English (en)
Other versions
CN115547407A (zh
Inventor
滕志霞
张伊冉
郭茂祖
汪国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Original Assignee
Northeast Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University filed Critical Northeast Forestry University
Priority to CN202211287199.1A priority Critical patent/CN115547407B/zh
Publication of CN115547407A publication Critical patent/CN115547407A/zh
Application granted granted Critical
Publication of CN115547407B publication Critical patent/CN115547407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Analytical Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

基于深度自动编码器的lncRNA‑蛋白质相互作用预测方法,涉及生物信息学领域。本发明是为了解决现有lncRNA‑蛋白质相互作用预测方法还存在特征表达能力低导致的样本在特征空间的分布区别不大,进而导致lncRNA‑蛋白质相互作用的预测准确率低的问题。本发明包括:获取待预测的lncRNA初始特征和蛋白质初始特征,并将待预测的lncRNA初始特征和蛋白质初始特征输入到训练好的lncRNA‑蛋白质相互作用预测模型中,获得相互作用预测结果;本发明利用边际Fisher分析方法学习lncRNA‑蛋白质相互作用样本的最优分类特征,提高了lncRNA‑蛋白质相互作用预测的准确率。本发明用于预测lncRNA‑蛋白质相互作用关系。

Description

基于深度自动编码器的lncRNA-蛋白质相互作用预测方法
技术领域
本发明涉及生物信息学领域,特别涉及基于深度自动编码器的lncRNA-蛋白质相互作用预测方法。
背景技术
长链非编码RNA(long non-coding RNA,lncRNA)是一类长度大于200个核苷酸、无蛋白质编码能力或编码能力极低的RNA转录本,是生物体内重要的分子调控元件。lncRNA并不是孤立地存在于生物体内的,它通过传递信号、引导蛋白质定位、集结染色质重构复合物以及诱捕微小RNA(miRNA)等多种方式发挥其调控功能。由于蛋白质直接参与了生物体内几乎所有的生长发育过程,与蛋白质发生相互作用成为lncRNA发挥其调控功能的主要途径。在生物体内,lncRNA既可以直接结合特定的蛋白质,也可以招募蛋白质形成RNA-蛋白质复合体,与蛋白质之间存在广泛的相互作用。由于蛋白质与lncRNA的相互作用在转录后基因调控中起到了重要的作用,如:剪接、信号转导、翻译和复杂疾病的进展,目前国内外研究者对lncRNA的关注度持续升温,lncRNA-蛋白质相互作用已经成为探索和解析lncRNA功能的重要途径。
目前预测lncRNA-蛋白质相互作用的典型方法有:catRAPID、lncPro、RPI-Pred和IPMiner等。catRAPID方法以lncRNA与蛋白质的二级结构、氢键作用以及范德华力等理化特性为特征,进而建立基于支持向量机和基于随机森林的预测模型。lncPro方法以lncRNA与蛋白质的序列特征之间的关联矩阵为基础,采用线性判别方法进行预测。RPI-Pred方法采用序列和三维结构特征,以支持向量机作为分类器预测lncRNA-蛋白质相互作用。IPMiner方法利用深度学习模型对lncRNA和蛋白质的序列组成特征进行多层非线性变换,进而以此为基础建立基于随机森林的预测模型。与其他使用浅层分类器的方法相比,IPMiner方法获得了更高的预测准确性。这种性能改进得益于经过多层非线性变换后的特征更具有表征能力,能够准确地描述样本的分布规律。但是,由于lncRNA-蛋白质相互作用样本的先验分布(单模或多模)未知,因此在面对对样本分布有严格要求的特征变换方法时IPMiner方法的预测准确率并不高。因此目前lncRNA-蛋白质相互作用还存在特征表达能力低导致的样本在特征空间的分布区别不大,从而导致lncRNA-蛋白质相互作用的预测准确率低的问题。
发明内容
本发明目的是为了解决现有lncRNA-蛋白质相互作用预测方法还存在特征表达能力低导致的样本在特征空间的分布区别不大,进而导致lncRNA-蛋白质相互作用的预测准确率低的问题,而提出了基于深度自动编码器的lncRNA-蛋白质相互作用预测方法。
基于深度自动编码器的lncRNA-蛋白质相互作用预测方法具体过程为:
获取待预测的lncRNA初始特征和蛋白质初始特征,并将待预测的lncRNA初始特征和蛋白质初始特征输入到训练好的lncRNA-蛋白质相互作用预测模型中,获得相互作用预测结果;
所述训练好的lncRNA-蛋白质相互作用预测模型通过以下方式获得:
步骤一、获取lncRNA-蛋白质相互作用数据文件,并对lncRNA-蛋白质相互作用数据文件进行预处理获得原始训练样本集合;
步骤二、获取原始训练样本集合中的lncRNA的序列及二级结构数据,蛋白质序列、蛋白质骨架结构片段:
步骤三、利用原始训练样本集合中的lncRNA的序列及二级结构数据,蛋白质序列、蛋白质骨架结构片段分别提取蛋白质特征和lncRNA特征,并将获取的蛋白质特征和lncRNA特征进行合并获取原始训练样本的初始特征;
步骤四、将原始训练样本的初始特征输入到深度自动编码器中进行多层非线性变化获得原始训练样本的初始特征与其重构特征的平均重构误差最小时的编码和解码参数;
步骤五、利用边际Fisher分析准则和步骤四获得的平均重构误差最小时的最优编码和解码参数对步骤三获得的原始训练样本的初始特征进行处理获得原始训练样本的最优分类特征;
所述编码和解码参数为原始训练样本的初始特征与其重构特征的平均重构误差最小时的编码和解码参数;
步骤六、利用步骤五获得的原始训练样本的最优分类特征训练lncRNA-蛋白质相互作用预测模型获得训练好的lncRNA-蛋白质相互作用预测模型。
进一步地,所述待预测的lncRNA初始特征和蛋白质初始特征通过以下方式获得:
S1、获取待预测的lncRNA序列和二级结构;
所述lncRNA的二级结构包括:茎区、发卡、凸起、环、内环;
S2、获取待预测蛋白质序列和骨架结构片段;
所述骨架结构片段从蛋白质三维结构中抽取;
S3、利用待预测的lncRNA序列和二级结构提取lncRNA初始特征,利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征:
所述利用待预测的lncRNA序列和二级结构提取lncRNA初始特征,具体为:
首先,提取lncRNA序列中包含的4-核苷酸聚合体;
所述4-核苷酸聚合体共有256种;
然后,统计每种lncRNA二级结构中包含的每种核苷酸聚合体的数目,对核苷酸聚合体归一化获得lncRNA初始特征;
所述利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征,具体为:
首先,将每个待预测蛋白质序列中的氨基酸分组,将每组氨基酸用统一字符表示,从而获得多种氨基酸字符串;
然后,将蛋白质骨架结构片段分别与每种氨基酸字符串组合,获得复合特征符号;
最后,统计每种复合特征符号出现的频率,将复合特征符号进行归一化处理,获得蛋白质初始特征。
进一步地,所述将每个待预测蛋白质序列中的氨基酸分组,具体分为如下七组:
{A,G,V},{I,L,F,P},{Y,M,T,S},{H,N,Q,W},{R,K},{D,E}和{C};
其中,A是丙氨酸,G是甘氨酸,V是缬氨酸,I是异亮氨酸,L是亮氨酸,F是苯丙氨酸,P是脯氨酸,Y是酪氨酸,M是甲硫氨酸,T是苏氨酸,S是丝氨酸,H是组氨酸,N是天冬酰胺,Q是谷氨酰胺,W是色氨酸,R是精氨酸,K是赖氨酸,D是天冬氨酸,E是谷氨酸,C是半胱氨酸。
进一步地,所述步骤一中的获取lncRNA-蛋白质相互作用数据文件,并对lncRNA-蛋白质相互作用数据文件进行预处理获得原始训练样本集合,包括以下步骤:
步骤一一、获取lncRNA-蛋白质相互作用数据文件;
步骤一二、对lncRNA-蛋白质相互作用数据文件进行预处理获得原始训练样本集合:
首先,对于缺少序列或结构数据的lncRNA-蛋白质相互作用对进删除获得删除后的lncRNA-蛋白质相互作用对;
然后,随机构造与删除后的lncRNA-蛋白质相互作用对数目相等的lncRNA-蛋白质非作用对;
最后,将删除后的lncRNA-蛋白质相互作用对、与删除后的lncRNA-蛋白质相互作用对数目相等的lncRNA-蛋白质非作用对组成原始训练样本集合。
进一步地,所述步骤三包括以下步骤:
步骤三一、利用原始训练样本集合中蛋白质的序列、蛋白质骨架结构片段提取蛋白质特征Vp
所述利用蛋白质序列、蛋白质骨架结构片段提取蛋白质特征Vp的方法与S3中的利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征相同;
步骤三二、利用原始训练样本集中lncRNA的序列及二级结构数据提取lncRNA特征Vl
所述利用lncRNA的序列及二级结构数据提取lncRNA特征Vl的方法与S3中的利用待预测的lncRNA序列和二级结构提取lncRNA初始特征的方法相同;
步骤三三、将白质特征Vp与lncRNA特征Vl合并获得原始训练样本的初始特征。
进一步地,所述步骤四包括以下步骤:
首先,根据每个原始训练样本的初始特征x(i)抽取新特征y(i)和重构特征
Figure BDA0003899897190000044
y(i)=fθ(x(i))=s(Wx(i)+b)  (1)
Figure BDA0003899897190000047
其中,y(i)是对x(i)进行非线性编码后的特征表示,
Figure BDA0003899897190000041
是对y(i)进行解码后获得的重构特征,θ={W,b}和θ'={W',b'}分别表示编码参数和解码参数,s()是深度自动编码器对特征的作用函数,W是对特征x(i)的作用参数,b是常数项,W、b共同构成了编码参数,W'是对特征y(i)的作用参数,b’是常数项,W‘、b’共同构成了编码参数同构成了解码参数;
然后,获得x(i)
Figure BDA0003899897190000042
的平均重构误差最小时的编码和解码参数:
Figure BDA0003899897190000043
其中,
Figure BDA0003899897190000046
是x(i)
Figure BDA0003899897190000045
之间的重构误差,i∈[1,n]是原始训练样本的标号,n是原始训练样本总数。
进一步地,所述步骤五包括以下步骤:
步骤五一、构建边际Fisher分析准则JMF=Sc/Sp
其中,Sc和Sp分别表示类内紧凑性和类间分离性;
步骤五二、利用步骤五一获得的边际Fisher分析准则与公式(3)构建提取原始训练样本最优分类特征的目标函数,并对提取原始训练样本最优分类特征的目标函数进行正则化,获得如下目标函数:
Figure BDA0003899897190000051
步骤五三、按照步骤五二获得的目标函数重新训练深度自动编码器,获得最优编码参数θ*,从而获得原始训练样本的最优分类特征
Figure BDA0003899897190000057
所述最优编码参数θ*利用共轭梯度法获得;
所述获得原始训练样本的最优分类特征
Figure BDA0003899897190000058
通过以下方式获得:按θ*对原始训练样本的初始特征x(i)进行编码,从而得到原始训练样本的最优分类特征
Figure BDA0003899897190000059
进一步地,
Figure BDA0003899897190000052
其中,Sc和Sp分别表示类内紧凑性和类间分离性,
Figure BDA0003899897190000053
表示与指定的原始训练样本的初始特征属于同类,且是该原始训练样本的初始特征的k1-近邻样本的集合;
Figure BDA0003899897190000054
表示与指定的原始训练样本的初始特征属于不同类别,但是其k2-近邻样本的集合,y(j)是对x(j)进行非线性编码后的特征表示,j是规定范围内任一原始训练样本的特征。
进一步地,
Figure BDA0003899897190000055
其中,Sp是类间分离性,
Figure BDA0003899897190000056
表示与指定的原始训练样本的初始特征属于不同类别,但是其k2-近邻样本的集合。
进一步地,所述lncRNA-蛋白质相互作用预测模型的分类器为随机森林算法。
本发明的有益效果为:
本发明利用深度自编码器学习获得的最优描述特征,准确地刻画了lncRNA-蛋白质相互作用样本,提升了特征的表达能力,从而增大样本在特征空间的区别。本发明利用边际Fisher分析方法学习lncRNA-蛋白质相互作用样本的最优分类特征,提高了lncRNA-蛋白质相互作用预测的准确率。本发明的模型泛化性能较好,可应用于识别lncRNA-蛋白质之间潜在的相互作用,能够为后续解析lncRNA功能以及疾病诊断、药物研发提供很好的先导支持。
附图说明
图1为本发明流程图;
图2为lncRNA-蛋白质相互作用样本的序列和结构特征提取示意图;
图3为不同深度自编码器结构对于lncRNA-蛋白质相互作用预测性能的影响示意图;
图4为不同维度的样本特征对于lncRNA-蛋白质相互作用预测性能的影响示意图;
图5为初始特征、最优描述特征和最优分类特征对于lncRNA-蛋白质相互作用预测性能的影响示意图。
具体实施方式
具体实施方式一:本实施方式基于深度自动编码器的lncRNA-蛋白质相互作用预测方法具体过程为:获取待预测的lncRNA初始特征和蛋白质初始特征,并待预测的lncRNA初始特征和蛋白质初始特征输入到lncRNA-蛋白质相互作用预测模型中,获得相互作用预测结果,如图1所示;
如图2所示,所述待预测的lncRNA和蛋白质原始特征通过以下方式获得:
S1、获取待预测的lncRNA序列和二级结构:
从NONCODE数据库(http://www.noncode.org/index.php)中找出待预测的lncRNA并下载这些lncRNA对应的核苷酸序列;
lncRNA的二级结构信息利用RNA结构预测工具包ViennaRNA进行抽取;
所述lncRNA的二级结构信息包括:茎区、发卡、凸起、环、内环;
S2、获取待预测蛋白质序列和骨架结构片段:
蛋白质的氨基酸序列可以从公开专用数据库Uniprot(https://www.uniprot.org/)中下载;蛋白质的骨架结构片段可以从其三维结构数据中抽取,而其三维结构数据可以从公开的蛋白质数据库PDB(ftp://ftp.wwpdb.org/pub/pdb/data/structures/)下载;
S3、利用待预测的lncRNA序列和二级结构提取lncRNA初始特征,利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征:
所述利用待预测的lncRNA序列和二级结构提取lncRNA初始特征,具体为:
首先,lncRNA由4种核苷酸组成,提取lncRNA序列所包含的4-核苷酸聚合体,获得44=256种核苷酸聚合体特征;
然后,统计5种lncRNA二级结构中包含的每种核苷酸聚合体的数目,通过对核苷酸聚合体归一化后得到lncRNA初始特征;
所述利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征,具体为:
首先,按照氨基酸的理化性质,将构成蛋白质序列中的20种氨基酸分为{A,G,V},{I,L,F,P},{Y,M,T,S},{H,N,Q,W},{R,K},{D,E}和{C}等7组,每组氨基酸用统一的字符表示,则蛋白质的一级序列可以表示为由7种氨基酸字符串。
其中,A是丙氨酸,G是甘氨酸,V是缬氨酸,I是异亮氨酸,L是亮氨酸,F是苯丙氨酸,P是脯氨酸,Y是酪氨酸,M是甲硫氨酸,T是苏氨酸,S是丝氨酸,H是组氨酸,N是天冬酰胺,Q是谷氨酰胺,W是色氨酸,R是精氨酸,K是赖氨酸,D是天冬氨酸,E是谷氨酸,C是半胱氨酸。
然后,从蛋白质的三维结构中提取17种蛋白质骨架的结构片段作为蛋白质的结构特征,并将它们分别与7种氨基酸字符串组合,形成119种复合特征符号。最后,统计每种复合特征符号出现的频率,将复合特征符号进行归一化处理后获得蛋白质初始特征。
所述训练好的lncRNA-蛋白质相互作用预测模型通过以下方式获得:
步骤一、获取lncRNA-蛋白质相互作用数据文件,并对lncRNA-蛋白质相互作用数据文件进行预处理获得原始训练样本集合;
步骤一一、获取lncRNA-蛋白质相互作用数据文件:
从非编码RNA相互作用数据库NPInter3.0(http://www.bioinfo.org/NPInter/)中下载lncRNA-蛋白质相互作用数据;
步骤一二、对lncRNA-蛋白质相互作用数据文件进行预处理获得原始训练样本集合:
首先,对于缺少序列或结构数据的lncRNA-蛋白质相互作用对进删除;
然后,为了使得训练集中的正、负样本数目均衡,随机构造与正样本(lncRNA-蛋白质相互作用对)数目相等的lncRNA-蛋白质非作用对;
最后,将删除后的lncRNA-蛋白质相互作用对、与删除后的lncRNA-蛋白质相互作用对数目相等的lncRNA-蛋白质非作用对组成原始训练样本集合。
步骤二、获取原始训练样本集合中的lncRNA的序列及二级结构数据,蛋白质序列、蛋白质三维结构及骨架结构片段:
从NONCODE数据库(http://www.noncode.org/index.php)中找出步骤一一中所获的lncRNA并下载这些lncRNA对应的核苷酸序列;
lncRNA的二级结构信息利用RNA结构预测工具包ViennaRNA进行抽取;
所述lncRNA的二级结构信息包括:茎区、发卡、凸起、环、内环;
蛋白质的氨基酸序列可以从公开专用数据库Uniprot(https://www.uniprot.org/)中下载;蛋白质的骨架结构片段可以从其三维结构数据中抽取,而其三维结构数据可以从公开的蛋白质数据库PDB(ftp://ftp.wwpdb.org/pub/pdb/data/structures/)下载。
步骤三、利用原始训练样本集合中的lncRNA的序列及二级结构数据,蛋白质序列、蛋白质骨架结构片段分别提取蛋白质特征和lncRNA特征,并将获取的蛋白质特征和lncRNA特征进行合并获取原始训练样本的初始特征,包括以下步骤:
步骤三一、利用蛋白质序列、蛋白质骨架结构片段提取蛋白质特征:
首先,按照氨基酸的理化性质,将构成蛋白质序列中的20种氨基酸分为{A,G,V},{I,L,F,P},{Y,M,T,S},{H,N,Q,W},{R,K},{D,E}和{C}等7组,每组氨基酸用统一的字符表示,则蛋白质的一级序列可以表示为由7种字符组成的字符串。
然后,从蛋白质的三维结构中提取17种蛋白质骨架的构型片段作为蛋白质的结构特征,并将它们分别与7种氨基酸分组字符相结合,形成119种复合特征符号。最后,统计这些复合特征符号出现的频率,进行归一化处理后作为蛋白质特征Vp
步骤三二、利用lncRNA的序列及二级结构数据提取lncRNA特征:
首先,lncRNA由4种核苷酸组成,提取lncRNA序列所包含的4-核苷酸聚合体,获得44=256种核苷酸聚合体特征;
然后,统计5种lncRNA二级结构中包含的每种核苷酸聚合体的数目,通过对核苷酸聚合体归一化后得到lncRNA的特征向量Vl
步骤三三、将Vp和Vl合并形成描述lncRNA-蛋白质相互作用原始训练样本的初始特征。
步骤四、将原始训练样本的初始特征输入到深度自动编码器中进行多层非线性变化获得原始训练样本的初始特征与其重构特征的平均重构误差最小时的编码和解码参数,包括以下步骤:
步骤四一、将原始训练样本的初始特征输入到深度自动编码器中获得原始训练样本的初始特征与其重构特征的平均重构误差最小时的编码和解码参数:
首先,对每一个原始训练样本,都可根据其初始特征x(i)抽取新特征y(i)和重构特征
Figure BDA0003899897190000081
y(i)=fθ(x(i))=s(Wx(i)+b)  (1)
Figure BDA0003899897190000082
其中,y(i)是利用式(1)对x(i)进行非线性编码后的特征表示,
Figure BDA0003899897190000083
是通过式(2)对y(i)进行解码的结果,θ={W,b}和θ'={W',b'}分别表示编码和解码参数,s()是深度自动编码器对特征的作用函数,W是对特征x(i)的作用参数,b是常数项,W、b共同构成了编码参数,W'是对特征的作用参数,b’是常数项,W‘、b’共同构成了编码参数同构成了解码参数。
然后,使用
Figure BDA0003899897190000098
描述x(i)
Figure BDA0003899897190000099
之间的重构误差,当平均重构误差最小时得到最优的编码和解码参数,即
Figure BDA0003899897190000091
其中,
Figure BDA0003899897190000092
是x(i)
Figure BDA0003899897190000093
之间的重构误差,i∈[1,n]是原始训练样本的标号,n是原始训练样本总数;
步骤四二、采用贪心思想逐层训练深度自动编码器,进而得到一个最优的编码参数:
在调整深度自动编码器结构时,采用增加隐藏层和缩减特征维度的叠加策略,按隐藏层+1,特征维度-100的步长调整。最终发现包含4个隐藏层,各隐藏层神经元数目为1399-1100-800-500-200-47的深度自动编码器可以获得更好的最佳的预测性能。
步骤四三、按照深度自动编码器所获得的最优编码参数对原始训练样本的初始特征进行编码就可以获得原始训练样本的最优描述特征。
步骤五、为进一步提升样本特征的区分能力,采用边际Fisher分析准则和步骤四获得的原始训练样本的初始特征与其重构特征的平均重构误差最小时的最优编码和解码参数对步骤三获得的原始训练样本的初始特征进行处理获得原始训练样本的最优分类特征,包括以下步骤:
步骤五一、构建边际Fisher分析准则JMF=Sc/Sp
Figure BDA0003899897190000094
Figure BDA0003899897190000095
其中,Sc和Sp分别表示类内紧凑性和类间分离性,
Figure BDA0003899897190000096
表示与指定的原始训练样本的初始特征属于同类,且是该原始训练样本初始特征的k1-近邻样本的集合;
Figure BDA0003899897190000097
表示与原始训练样本的初始特征属于不同类别,但是其是该原始训练样本初始特征的k2-近邻样本的集合,y(j)是对x(j)进行非线性编码后的特征表示,j是规定范围内任一原始训练样本的特征;
K1近邻即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的K1个实例,这K1个实例的多数属于某个类,就把该输入实例分类到这个类中。
K2近邻算法即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的K1个实例,这K2个实例的多数属于某个类,就把该输入实例分类到这个类中。
步骤五二、将步骤五一获得的边际Fisher分析准则与式(3)融合起来构建提取原始训练样本最优分类特征的目标函数。为防止过拟合,对该目标函数进行正则化后得到如式(6)所示的新目标函数:
Figure BDA0003899897190000101
步骤五三、按照步骤五二获得的目标函数重新训练深度自动编码器,并求其最优的编码参数,从而得到该原始训练样本的最优分类特征
Figure BDA0003899897190000105
利用共轭梯度法求解最优的编码参数θ*,得到最优编码参数θ*后,按θ*对原始训练样本的初始特征x(i)进行编码,从而得到该原始训练样本的最优分类特征
Figure BDA0003899897190000106
步骤六、利用步骤五获得的最优分类特征训练lncRNA-蛋白质相互作用预测模型,并训练好的lncRNA-蛋白质相互作用预测模型进行性能评估,包括以下步骤:
首先,采用随机森林算法作为分类器,采用前面所获得的原始训练样本的最优分类特征向量训练lncRNA-蛋白质相互作用预测模型;
然后,利用多种评价指标对训练好的lncRNA-蛋白质相互作用预测模型进行性能评估:
在性能评估中使用的评价指标包括:精确度(Precision)、召回率(Recall)、特异性(Specificity)、敏感性(Sensitivity)、准确率(Accuracy)和马修斯相关系数(MCC)。这些指标的具体计算公式如下:
Figure BDA0003899897190000102
Figure BDA0003899897190000103
Figure BDA0003899897190000104
Figure BDA0003899897190000111
Figure BDA0003899897190000112
Figure BDA0003899897190000113
其中,TP表示预测正确lncRNA-蛋白质相互作用的数量,FP表示预测错误的lncRNA-蛋白质相互作用数量,TN表示预测正确的非lncRNA-蛋白质相互作用数量,FN表示预测错误的非lncRNA-蛋白质相互作用数量。
实施例:
为了评估深度自动编码器结构对预测性能的影响,本实施例建立了层数数目(1,2,3,4,5)不同的深度自动编码器模型,分别计算它们的重建误差。从图3可以明显看出,当层数从2层逐渐增加到5层时,重建误差减小并趋于稳定。当深度自动编码器采用5层结构时,重建误差达到最小,说明5层深度自动编码器结构最为合适。与此同时,本实施例将经由不同网络层学习到的特征对于模型预测性能的影响进行比较,结果如图4所示(图4中每个层节点数的七个的柱形顺序从左到右依次是Precision、Recall、Accuracy、Mcc、Specificity、Sensitivity、Auc),经过对比后发现,层节点数为(1100-800-500-200-47)的深度自动编码器能够获得更为准确描述lncRNA-蛋白质相互作用的特征子集。
为了评估边际Fisher分析的有效性,分别利用初始特征、最优描述特征和最优分类特征在测试数据集上预测lncRNA-蛋白质相互作用。分析两种预测结果后得到性能如图5所示(图5中每种特征中的七个的柱形顺序从左到右依次是Precision、Recall、Accuracy、Mcc、Specificity、Sensitivity、Aue)),经过边际Fisher分析后的最优分类特征能够更准确区别lncRNA-蛋白质相互作用对与非相互作用对,使预测模型具有更好的性能。
为了验证本发明的性能优越性,使用本发明、lncPro、RPI-Pred、RPISeq-RF和IPMiner等方法在构建的测试数据集上执行lncRNA-蛋白质相互作用预测任务,分析它们的预测结果后得到性能如表1所示。从表1可以看出,本发明在所有评测指标上的表现均优于同类方法,具有较好的预测性能。
表1与同类方法的性能比较
Figure BDA0003899897190000114
Figure BDA0003899897190000121
以上提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (10)

1.基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于所述方法包括以下步骤:
获取待预测的lncRNA初始特征和蛋白质初始特征,并将待预测的lncRNA初始特征和蛋白质初始特征输入到训练好的lncRNA-蛋白质相互作用预测模型中,获得相互作用预测结果;
所述训练好的lncRNA-蛋白质相互作用预测模型通过以下方式获得:
步骤一、获取lncRNA-蛋白质相互作用数据文件,并对lncRNA-蛋白质相互作用数据文件进行预处理获得原始训练样本集合;
步骤二、获取原始训练样本集合中的lncRNA的序列及二级结构数据,蛋白质序列、蛋白质骨架结构片段:
步骤三、利用原始训练样本集合中的lncRNA的序列及二级结构数据,蛋白质序列、蛋白质骨架结构片段分别提取蛋白质特征和lncRNA特征,并将获取的蛋白质特征和lncRNA特征进行合并获取原始训练样本的初始特征;
步骤四、将原始训练样本的初始特征输入到深度自动编码器中进行多层非线性变化获得原始训练样本的初始特征与其重构特征的平均重构误差最小时的编码和解码参数;
步骤五、利用边际Fisher分析准则和步骤四获得的编码和解码参数对步骤三获得的原始训练样本的初始特征进行处理获得原始训练样本的最优分类特征;
所述编码和解码参数为原始训练样本的初始特征与其重构特征的平均重构误差最小时的编码和解码参数;
步骤六、利用步骤五获得的原始训练样本的最优分类特征训练lncRNA-蛋白质相互作用预测模型获得训练好的lncRNA-蛋白质相互作用预测模型。
2.根据权利要求1所述的基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于:所述待预测的lncRNA初始特征和蛋白质初始特征通过以下方式获得:
S1、获取待预测的lncRNA序列和二级结构;
所述lncRNA的二级结构包括:茎区、发卡、凸起、环、内环;
S2、获取待预测蛋白质序列和骨架结构片段;
所述骨架结构片段从蛋白质三维结构中抽取;
S3、利用待预测的lncRNA序列和二级结构提取lncRNA初始特征,利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征;
所述利用待预测的lncRNA序列和二级结构提取lncRNA初始特征,具体为:
首先,提取lncRNA序列中包含的4-核苷酸聚合体;
然后,统计每种lncRNA二级结构中包含的每种核苷酸聚合体的数目,对核苷酸聚合体归一化获得lncRNA初始特征;
所述利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征,具体为:
首先,将每个待预测蛋白质序列中的氨基酸分组,将每组氨基酸用统一字符表示,从而获得多种氨基酸字符串;
然后,将蛋白质骨架结构片段分别与每种氨基酸字符串组合,获得复合特征符号;
最后,统计每种复合特征符号出现的频率,将复合特征符号进行归一化处理,获得蛋白质初始特征。
3.根据权利要求2所述的基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于:所述将每个待预测蛋白质序列中的氨基酸分组,具体分为如下七组:
{A,G,V},{I,L,F,P},{Y,M,T,S},{H,N,Q,W},{R,K},{D,E}和{C};
其中,A是丙氨酸,G是甘氨酸,V是缬氨酸,I是异亮氨酸,L是亮氨酸,F是苯丙氨酸,P是脯氨酸,Y是酪氨酸,M是甲硫氨酸,T是苏氨酸,S是丝氨酸,H是组氨酸,N是天冬酰胺,Q是谷氨酰胺,W是色氨酸,R是精氨酸,K是赖氨酸,D是天冬氨酸,E是谷氨酸,C是半胱氨酸。
4.根据权利要求3所述的基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于:所述步骤一包括以下步骤:
步骤一一、获取lncRNA-蛋白质相互作用数据文件;
步骤一二、对lncRNA-蛋白质相互作用数据文件进行预处理获得原始训练样本集合:
对于缺少序列或结构数据的lncRNA-蛋白质相互作用对进行删除;
随机构造与删除后的lncRNA-蛋白质相互作用对数目相等的lncRNA-蛋白质非作用对;
将删除后的lncRNA-蛋白质相互作用对、与删除后的lncRNA-蛋白质相互作用对数目相等的lncRNA-蛋白质非作用对组成原始训练样本集合。
5.根据权利要求4所述的基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于:所述步骤三包括以下步骤:
步骤三一、利用原始训练样本集合中蛋白质的序列、蛋白质骨架结构片段提取蛋白质特征Vp
所述利用蛋白质序列、蛋白质骨架结构片段提取蛋白质特征Vp的方法与S3中的利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征相同;
步骤三二、利用原始训练样本集中lncRNA的序列及二级结构数据提取lncRNA特征Vl
所述利用lncRNA的序列及二级结构数据提取lncRNA特征Vl的方法与S3中的利用待预测的lncRNA序列和二级结构提取lncRNA初始特征的方法相同;
步骤三三、将蛋白质特征Vp与lncRNA特征Vl合并获得原始训练样本的初始特征。
6.根据权利要求5所述的基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于:所述步骤四包括以下步骤:
首先,根据每个原始训练样本的初始特征x(i)抽取新特征y(i)和重构特征
y(i)=fθ(x(i))=s(Wx(i)+b)    (1)
其中,y(i)是对x(i)进行非线性编码后的特征表示,是对y(i)进行解码后获得的重构特征,θ={W,b}和θ'={W',b'}分别表示编码参数和解码参数,s()是深度自动编码器对特征的作用函数,W是对特征x(i)的作用参数,b是常数项,W、b共同构成了编码参数,W'是对特征y(i)的作用参数,b’是常数项,W‘、b’共同构成了编码参数同构成了解码参数;
然后,获得x(i)的平均重构误差最小时的编码和解码参数:
其中,是x(i)之间的重构误差,i∈[1,n]是原始训练样本的标号,n是原始训练样本总数。
7.根据权利要求6所述的基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于:所述步骤五包括以下步骤:
步骤五一、构建边际Fisher分析准则JMF=Sc/Sp
其中,Sc和Sp分别表示类内紧凑性和类间分离性;
步骤五二、利用步骤五一获得的边际Fisher分析准则与公式(3)构建提取原始训练样本最优分类特征的目标函数,并对提取原始训练样本最优分类特征的目标函数进行正则化,获得如下目标函数:
步骤五三、按照步骤五二获得的目标函数重新训练深度自动编码器,获得最优编码参数θ*,从而获得原始训练样本的最优分类特征y(i)*
所述最优编码参数θ*利用共轭梯度法获得;
所述获得原始训练样本的最优分类特征y(i)*通过以下方式获得:按θ*对原始训练样本的初始特征x(i)进行编码,从而得到原始训练样本的最优分类特征y(i)*
8.根据权利要求7所述的基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于:
其中,Sc是类内紧凑性,表示与指定的原始训练样本的初始特征属于同类,且是该原始训练样本的初始特征的k1-近邻样本的集合,y(j)是对x(j)进行非线性编码后的特征表示,j是规定范围内任一原始训练样本的特征。
9.根据权利要求8所述的基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于:
其中,Sp是类间分离性,表示与指定的原始训练样本的初始特征属于不同类别,但是其k2-近邻样本的集合。
10.根据权利要求9所述的基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,其特征在于:所述lncRNA-蛋白质相互作用预测模型的分类器为随机森林算法。
CN202211287199.1A 2022-10-20 2022-10-20 基于深度自动编码器的lncRNA-蛋白质相互作用预测方法 Active CN115547407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211287199.1A CN115547407B (zh) 2022-10-20 2022-10-20 基于深度自动编码器的lncRNA-蛋白质相互作用预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211287199.1A CN115547407B (zh) 2022-10-20 2022-10-20 基于深度自动编码器的lncRNA-蛋白质相互作用预测方法

Publications (2)

Publication Number Publication Date
CN115547407A CN115547407A (zh) 2022-12-30
CN115547407B true CN115547407B (zh) 2023-04-18

Family

ID=84734871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211287199.1A Active CN115547407B (zh) 2022-10-20 2022-10-20 基于深度自动编码器的lncRNA-蛋白质相互作用预测方法

Country Status (1)

Country Link
CN (1) CN115547407B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537005A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于BPSO-KNN模型的关键lncRNA预测方法
CN111785320A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于多层网络表示学习的药物靶标相互作用预测方法
CN113241114A (zh) * 2021-03-24 2021-08-10 辽宁大学 一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法
WO2021178613A1 (en) * 2020-03-04 2021-09-10 Grail, Inc. Systems and methods for cancer condition determination using autoencoders

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113583982B (zh) * 2020-04-30 2023-06-27 香港城市大学深圳研究院 确定长链非编码核糖核酸相互作用蛋白的新方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537005A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于BPSO-KNN模型的关键lncRNA预测方法
WO2021178613A1 (en) * 2020-03-04 2021-09-10 Grail, Inc. Systems and methods for cancer condition determination using autoencoders
CN111785320A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于多层网络表示学习的药物靶标相互作用预测方法
CN113241114A (zh) * 2021-03-24 2021-08-10 辽宁大学 一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kedarisetti Kanaka Durga等.Classifier ensembles for protein structural class prediction with varying homology. Biochemical and Biophysical Research Communications.2006,Volume 348(Issue 3),981-988. *
张帅燕等.自动编码器方法的蛋白质二级结构预测.生物信息学.2018,第16卷(第1期),36-42. *
滕志霞等.蛋白质功能预测方法研究进展.智能计算机与应用.2016,第6卷(第4期),1-4+8. *

Also Published As

Publication number Publication date
CN115547407A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
US10354747B1 (en) Deep learning analysis pipeline for next generation sequencing
CN112927757B (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN112863599B (zh) 一种病毒测序序列的自动化分析方法及系统
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN111748632A (zh) 一种特征lincRNA表达谱组合及肝癌早期预测方法
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
CN113823356B (zh) 一种甲基化位点识别方法及装置
WO2020115580A1 (en) System and method for promoter prediction in human genome
Nabeel Asim et al. DNA-MP: a generalized DNA modifications predictor for multiple species based on powerful sequence encoding method
CN115547407B (zh) 基于深度自动编码器的lncRNA-蛋白质相互作用预测方法
Wang et al. MMDAE-HGSOC: A novel method for high-grade serous ovarian cancer molecular subtypes classification based on multi-modal deep autoencoder
WO2012096015A1 (ja) 核酸情報処理装置およびその処理方法
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法
CN111944900A (zh) 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法
CN115240775B (zh) 基于stacking集成学习策略的Cas蛋白预测方法
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
CN113313167B (zh) 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法
CN115410643A (zh) 一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质
CN114694746A (zh) 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
CN111808965A (zh) 一种特征lincRNA表达谱组合及肾透明细胞癌早期预测方法
CN111850124A (zh) 一种特征lincRNA表达谱组合及肺鳞癌早期预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant