CN113658643A - 一种基于注意力机制对lncRNA和mRNA的预测方法 - Google Patents

一种基于注意力机制对lncRNA和mRNA的预测方法 Download PDF

Info

Publication number
CN113658643A
CN113658643A CN202110833290.8A CN202110833290A CN113658643A CN 113658643 A CN113658643 A CN 113658643A CN 202110833290 A CN202110833290 A CN 202110833290A CN 113658643 A CN113658643 A CN 113658643A
Authority
CN
China
Prior art keywords
lncrna
attention mechanism
mrna
model
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110833290.8A
Other languages
English (en)
Other versions
CN113658643B (zh
Inventor
李爱民
熊思琪
刘雅君
费蓉
周红芳
刘光明
王彬
黑新宏
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110833290.8A priority Critical patent/CN113658643B/zh
Publication of CN113658643A publication Critical patent/CN113658643A/zh
Application granted granted Critical
Publication of CN113658643B publication Critical patent/CN113658643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于注意力机制对lncRNA和mRNA的预测方法,将需要预测的fasta文件输入程序,首先对fasta文件进行预处理,筛选出符合条件的RNA转录本序列,然后单独生成序列文件;将生成的序列文件作为网络模型的输入,计算序列的加权k‑mer特征,最后在三层全连接网络的基础上引入注意力机制,获取关键特征,对lncRNA和mRNA进行预测。此方法的特征为序列k‑mer的使用频率,相比于传统的特征‑开放框阅读框架(ORF),可以节约计算资源和缩短预测时间。

Description

一种基于注意力机制对lncRNA和mRNA的预测方法
技术领域
本发明涉及生物信息学技术领域,具体为一种基于注意力机制对lncRNA和mRNA的预测方法。
背景技术
随着高通量转录组测序技术(RNA-seq,RNA sequencing)的发展,在许多物种中发现了新的转录本。其中一类新的转录本,long non-coding RNA(lncRNA,长非编码RNA)是一类长度大于200nt(碱基)并且不能编码蛋白的转录本,它参与许多重要的生物过程,例如剂量补偿、基因表达和细胞周期的调控。此外,一些研究表明,长非编码RNA的突变和调控失调与人类疾病有关。目前区分messenger RNA(mRNA,信使RNA)和lncRNA的工具大都依赖于序列比对,这些工具会受到不良基因注释的影响且需要消耗大量的时间和计算资源。因此,我们提供一种无需比对的方法,使用RNA-seq序列内在特征k-mer加权频率作为计算特征,然后使用注意力机制对lncRNA和mRNA进行预测。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于注意力机制对lncRNA和mRNA的预测方法。便于从RNA转录本中识别非编码RNA或具有编码蛋白质能力的RNA,从而为研究RNA的生物学功能奠定基础,并提高实验效率。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于注意力机制对lncRNA和mRNA的预测方法,包括以下步骤:
1)从RefSeq数据库(https://www.ncbi.nlm.nih.gov/refseq/)中下载lncRNA转录本数据的fasta文件和mRNA转录本数据的fa sta文件,通过对fasta文件进行预处理,筛选出满足条件的转录本;满足的条件为:RNA的长度必须超过200个碱基,对于非编码RNA,需要注释类型为lncRNA类型,对于mRNA,需要注释为protein-cod ing类型;将满足条件的lncRNA转录本序列和mRNA转录本序列作为实验数据;
2)将实验数据每一条转录本序列转化为加权k-mer频率,其中k的取值为1,2,3,4,5。
3)将加权k-mer频率转化为一维向量的形式,作为注意力机制模型的输入;然后分别通过注意力机制层和采用softmax函数作为激活函数的全连接层,搭建一个包括一个注意力机制和三个全连接层的模型框架;
4)将实验数据分为模型训练样本数据集、验证样本数据集和测试样本数据集,利用模型训练样本和验证样本数据集对基于注意力机制的网络模型进行训练,得到分类模型;
5)通过调整网络模型的超参数,优化网络模型,并利用模型测试样本数据集验证分类准确率,从而准确预测mRNA和lncRNA序列。
(三)有益效果
本发明提供了一种基于注意力机制对lncRNA和mRNA的预测方法。具备以下有益效果:
1.该方法具有高准确率和运行速度更快的优点。使用注意力机制和全连接网络进行联合处理,然后对网络参数的不断调整,可以达到96.4%的准确率。另外,此方法的特征为序列k-mer的使用频率,相比于传统的特征-开放框阅读框架(ORF),可以节约计算资源和缩短预测时间。
2.该方法不受基因注释的影响。对于不完整的RNA转录本注释的序列,也可以通过该方法进行预测。
附图说明
图1是本发明的流程图;
图2是本发明的网络结构图;
图3是本发明的k-mer示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种技术方案:本发明的总体设计思路为:将需要预测的fasta文件输入程序,首先对fasta文件进行预处理,筛选出符合条件的RNA转录本序列,然后单独生成序列文件;将生成的序列文件作为网络模型的输入,计算序列的加权k-mer特征,最后在三层全连接网络的基础上引入注意力机制,获取关键特征,对lncRNA和mRNA进行预测。具体包括以下三个步骤:
(1)对fasta文件进行预处理
a.将输入的fasta文件变为一行注释行和一行序列行,交替出现的形式,并将对应序列行合并为一行。
b.在步骤a的基础上,移除长度小于200nt的序列,再将上述经过筛选的文件分为两个文件,分别包括定义行和序列行。
c.将经过筛选后的序列文件中的序列数据(A,G,C,U)全部变为大写。
d.最后将序列中的字母‘U’全部替换为字符‘T’,这样为了方便后续计算A,T,G,C组合的k-mer的频率。
(2)将预处理后的序列文件计算加权k-mer
一个k-mer模式是指一个具有k个核苷酸的特定字符串,每个字符串都是由A,T,G,C四个碱基组成。对于k等于1到5,此时有4+16+64+256+1024=1364个模式:4个one-mer模式(A,T,G,C四种模式),16个two-mer模式(AA,AT,AG,AC,TA,TT,TG…),64个three-mer模式,256个four-mer模式,1024个five-mer模式。
为了更好的区分lncRNA和mRNA,该方法使用k-mer的使用率以及具有一个核苷酸步长的滑动窗来分析每个转录本。
如图2所示,滑动窗口的长度为k(k=1,2,3,4,5),它将沿着长度为ι的转录本滑动,每个滑动窗口的步长为1。如果在滑动窗口内的字符串与某种模式匹配,则在转录本中该模式出现次数加1,由ci表示。该方法使用频率表示为fi,i为1到1364,首先计算ci/sk(sk为k-mer滑动窗口沿着转录本出现的总次数,sk=ι-k+1),再将上述计算结果乘以一个wK权重,则计算频率公式为ci/sk*wk。用于计算频率公式所有公式如下:
Figure BDA0003176294350000041
sk=ι-k+1,k=1,2,3,4,5 (2)
wK=1/45-k (3)
(3)注意力机制模型
首先,从RefSeq数据库中下载人的48471条lncRNA转录本数据和62197条mRNA转录本数据,然后对转录本的长度进行筛选,使用步骤(1),筛选出长度大于200nt的序列作为实验数据。为了使lncRNA和mRNA的数量达到均衡,分别从筛选出的lncRNA和mRNA序列中随机分别选取40000个lncRNA序列和40000个mRNA序列作为实验数据。其中,选取32000条lncRNA转录本数据和32000条mRNA转录本数据作为模型的训练样本数据,另外,各分别取4000条转录本序列数据作为验证数据集,最后各分别取4000条转录本序列作为测试数据集。
使用步骤(2),将实验数据中每一条转录本序列转化为加权k-mer频率值,其中k的取值为1,2,3,4,5。
将加权k-mer频率转化为一维向量的形式,作为注意力机制模型的输入。然后分别通过注意力机制层和采用softmax函数作为激活函数的全连接层,搭建一个包括一个注意力机制和三个全连接层的模型框架。
具体的注意力机制模型框架如图3所示,基于注意力机制的网络模型的第一部分为soft-attention,选取relu激活函数,第二部分为三个全连接层,分别为:三个全连接层分别有264个神经元、64个神经元、64个神经元,最后使用softmax函数作为激活函数得到分类结果,输出结果为0或1,其中0代表lncRNA,1代表mRNA。模型训练过程中优化器为RMSprop,学习率为0.001,一次训练所选取的样本数为128。
利用选取的32000条lncRNA转录本数据和mRNA转录本数据作为模型的训练样本数据集,对网络进行训练,最终得到分类模型。
最后,训练集的平均分类准确率为99.4%。验证集的平均分类准确率为96.4%。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (1)

1.一种基于注意力机制对lncRNA和mRNA的预测方法,其特征在于,包括以下步骤:
1)从RefSeq数据库中下载lncRNA转录本数据的fasta文件和mRNA转录本数据的fasta文件,通过对fasta文件进行预处理,筛选出满足条件的转录本;满足的条件为:RNA的长度必须超过200个碱基,对于非编码RNA,需要注释类型为lncRNA类型,对于mRNA,需要注释为protein-coding类型;将满足条件的lncRNA转录本序列和mRNA转录本序列作为实验数据;
2)将实验数据每一条转录本序列转化为加权k-mer频率,其中k的取值为1,2,3,4,5;
3)将加权k-mer频率转化为一维向量的形式,作为注意力机制模型的输入;然后分别通过注意力机制层和采用softmax函数作为激活函数的全连接层,搭建一个包括一个注意力机制和三个全连接层的模型框架;
4)将实验数据分为模型训练样本数据集、验证样本数据集和测试样本数据集,利用模型训练样本和验证样本数据集对基于注意力机制的网络模型进行训练,得到分类模型;
5)通过调整网络模型的超参数,优化网络模型,并利用模型测试样本数据集测试分类准确率,从而准确预测mRNA和lncRNA序列。
CN202110833290.8A 2021-07-22 2021-07-22 一种基于注意力机制对lncRNA和mRNA的预测方法 Active CN113658643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110833290.8A CN113658643B (zh) 2021-07-22 2021-07-22 一种基于注意力机制对lncRNA和mRNA的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110833290.8A CN113658643B (zh) 2021-07-22 2021-07-22 一种基于注意力机制对lncRNA和mRNA的预测方法

Publications (2)

Publication Number Publication Date
CN113658643A true CN113658643A (zh) 2021-11-16
CN113658643B CN113658643B (zh) 2024-02-13

Family

ID=78477757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110833290.8A Active CN113658643B (zh) 2021-07-22 2021-07-22 一种基于注意力机制对lncRNA和mRNA的预测方法

Country Status (1)

Country Link
CN (1) CN113658643B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863242A (zh) * 2022-04-26 2022-08-05 北京拙河科技有限公司 一种面向图像识别的深度学习网络的优化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595913A (zh) * 2018-05-11 2018-09-28 武汉理工大学 鉴别mRNA和lncRNA的有监督学习方法
WO2020041204A1 (en) * 2018-08-18 2020-02-27 Sf17 Therapeutics, Inc. Artificial intelligence analysis of rna transcriptome for drug discovery
WO2020191391A2 (en) * 2019-03-21 2020-09-24 Illumina, Inc. Artificial intelligence-based sequencing
CN112270955A (zh) * 2020-10-23 2021-01-26 大连民族大学 一种注意力机制预测lncRNA的RBP结合位点的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595913A (zh) * 2018-05-11 2018-09-28 武汉理工大学 鉴别mRNA和lncRNA的有监督学习方法
WO2020041204A1 (en) * 2018-08-18 2020-02-27 Sf17 Therapeutics, Inc. Artificial intelligence analysis of rna transcriptome for drug discovery
WO2020191391A2 (en) * 2019-03-21 2020-09-24 Illumina, Inc. Artificial intelligence-based sequencing
CN112270955A (zh) * 2020-10-23 2021-01-26 大连民族大学 一种注意力机制预测lncRNA的RBP结合位点的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
常征;孟军;施云生;莫冯然;: "多特征融合的lncRNA识别与其功能预测", 智能系统学报, no. 06 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863242A (zh) * 2022-04-26 2022-08-05 北京拙河科技有限公司 一种面向图像识别的深度学习网络的优化方法及系统
CN114863242B (zh) * 2022-04-26 2022-11-29 北京拙河科技有限公司 一种面向图像识别的深度学习网络的优化方法及系统

Also Published As

Publication number Publication date
CN113658643B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
Fudenberg et al. Predicting 3D genome folding from DNA sequence with Akita
Lin et al. lncLocator 2.0: a cell-line-specific subcellular localization predictor for long non-coding RNAs with interpretable deep learning
Fan et al. lncRNA-MFDL: identification of human long non-coding RNAs by fusing multiple features and using deep learning
Wang et al. LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization
CN106295246A (zh) 找到与肿瘤相关的lncRNA并预测其功能
Liu et al. Inferring microRNA targets based on restricted Boltzmann machines
Xie et al. Learning the formation mechanism of domain-level chromatin states with epigenomics data
Zhang et al. Predicting miRNA-disease associations via node-level attention graph auto-encoder
Thomas et al. DP-miRNA: An improved prediction of precursor microRNA using deep learning model
Zhang et al. Identifying circular RNA and predicting its regulatory interactions by machine learning
Yu et al. preMLI: a pre-trained method to uncover microRNA–lncRNA potential interactions
Min et al. TargetNet: functional microRNA target prediction with deep neural networks
Yuan et al. DeCban: prediction of circRNA-RBP interaction sites by using double embeddings and cross-branch attention networks
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN113658643B (zh) 一种基于注意力机制对lncRNA和mRNA的预测方法
CN110534154B (zh) 基于和声搜索的鲸鱼dna序列优化方法
CN106446601A (zh) 一种大规模标注lncRNA功能的方法
Sheng et al. A survey of computational methods and databases for lncRNA-miRNA interaction prediction
Kim et al. Evolutionary layered hypernetworks for identifying microRNA-mRNA regulatory modules
CN113313167A (zh) 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法
CN114927163A (zh) 一种基于单细胞图谱预测遗传模型的方法和存储介质
CN114582420A (zh) 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统
Xiao et al. RNA-targeted small-molecule drug discoveries: a machine-learning perspective
Gao et al. Identification of lncRNA-related protein-coding genes using multi-omics data based on deep learning and matrix completion
Thomas et al. Deep neural network based precursor microRNA prediction on eleven species

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant