CN115295079A - 基于元图学习的长链非编码rna亚细胞定位预测方法 - Google Patents
基于元图学习的长链非编码rna亚细胞定位预测方法 Download PDFInfo
- Publication number
- CN115295079A CN115295079A CN202210064104.3A CN202210064104A CN115295079A CN 115295079 A CN115295079 A CN 115295079A CN 202210064104 A CN202210064104 A CN 202210064104A CN 115295079 A CN115295079 A CN 115295079A
- Authority
- CN
- China
- Prior art keywords
- lncrna
- subcellular localization
- learning
- metagram
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000004960 subcellular localization Effects 0.000 title claims abstract description 30
- 108091027963 non-coding RNA Proteins 0.000 title claims abstract description 15
- 102000042567 non-coding RNA Human genes 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 16
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract description 14
- 238000002790 cross-validation Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 15
- 125000003729 nucleotide group Chemical group 0.000 claims description 9
- 239000002773 nucleotide Substances 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 claims 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 8
- 238000002474 experimental method Methods 0.000 abstract description 4
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 57
- 230000004807 localization Effects 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 108091092724 Noncoding DNA Proteins 0.000 description 2
- 238000010367 cloning Methods 0.000 description 2
- 210000000805 cytoplasm Anatomy 0.000 description 2
- 210000001808 exosome Anatomy 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000023105 Huntington disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 102000009572 RNA Polymerase II Human genes 0.000 description 1
- 108010009460 RNA Polymerase II Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000023715 cellular developmental process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001086 cytosolic effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000030648 nucleus localization Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于元图学习的长链非编码RNA亚细胞定位预测方法包括以下5步骤:构建lncRNA亚细胞定位预测训练数据集;平衡数据集中不同类别之间样本的数量;将数据集中的向量数据构建成图结构;使用图卷积神经网络GCN和模型不可知元学习MAML结合的算法对lncRNA亚细胞定位进行预测;评价指标。本发明除了利用lncRNA的序列信息,还能够通过GCN自动捕获lncRNA序列之间的关联信息。利用MAML的训练方式,能够从若干个任务中提取出元参数让分类器快速学会对其它相似任务的分类能力,有效地解决了在以往技术中用深度学习预测lncRNA亚细胞定位准确率不高的问题。在10折交叉验证实验中,我们方法在4分类和5分类数据集中准确率达到了94.2%和93.4%,优于同类别算法。
Description
技术领域
本发明涉及生物信息学领域,特别是基于元图学习的长链非编码RNA亚细胞定位预测方法。
背景技术
人类基因组中有超过98%的基因序列不能编码成蛋白质,这些基因序列被称作非编码DNA,而大量非编码DNA会被转录为无编码蛋白能力的RNA,这些不能编码蛋白的RNA被称为非编码RNA(ncRNA)。ncRNA根据其分子链长度进一步可以划分为两类:分子链长度小于200个核苷酸的短链非编码RNA(sncRNA)和分子链长度超过200个核苷酸的长链非编码RNA(lncRNA)。在过去的一段时间,lncRNAs最初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。然而,越来越多的研究表明lncRNA参与了很多生物功能。另外,lncRNAs的异常行为导致多种癌症的形成比如阿尔茨海默病、亨廷顿病和心血管疾病等。如果我们对lncRNA的功能有更好了解,将促进我们对特定细胞的细胞发育和生理的理解,且多项研究表明,它高度依赖于lncRNA在细胞内的位置。所以,识别lncRNA亚细胞位置非常重要。
目前lncRNA亚细胞定位相关的数据库主要有:RNALocate、LncATLAS和lnncsldb。关于预测lncRNA亚细胞定位的实验方法,主要有两种。一种是生化实验,这种实验的优势是定位结果十分精确,但同时也有耗时、昂贵的劣势;所以近十年来越来越多的研究人员尝试用第二种方法(生物信息方法)寻找突破口,后者有着省时、效率高、稳定的优势。目前,使用生物信息方法对蛋白质的亚细胞定位进行预测,已经能够达到较高的准确率。受此启发,近三年已经开始有研究人员使用生物信息方法对lncRNA亚细胞定位进行预测。比如Zhen C等人在《a subcellular localization predictor for long non-coding RNAs based on astacked ensemble classifier》提出了lncLocator,用堆叠集成的方式将4个分类器整合到一起,进而预测lncRNA的亚细胞位置;还有Su等人在《predict the subcellularlocation of lncRNAs by incorporating octamer composition into general PseKNC》提出了iLoc-lncRNA;Aa A等人在《Subcellular localization of long non-coding RNAsusing nucleotide compositions》提出了Locate-R;Xiao-Fei Yang等人在《PredictingLncRNA Subcellular Localization Using Unbalanced Pseudo-kNucleotideComposition》的论文;Gudenas等人在《Prediction of LncRNA SubcellularLocalization with Deep Learning from Sequence Features》提出了DeepLncRNA;Yang等人在《a cell-line-specific subcellular localization predictor for long non-coding RNAs with interpretable deep learning,Bioinformatics》提出了lncLocator2.0;Fan等人在《Predicting LncRNA Subcellular Localization Using MultipleSequence Feature Information》提出了lncLocPred。这些分类器所用的方法主要分两种:传统机器学习和深度学习。其中,传统机器学习的方法相较于能够自动提取高级特征的深度学习来说并没有优势。然而,目前构建的lncRNA数据集的数据量比较少,导致深度学习的效果反而没有传统机器学习的效果好。
发明内容
本发明的目的在于提供一种基于元图学习的lncRNA亚细胞定位预测方法。以解决现有技术中分类器用深度学习方法对lncRNA亚细胞定位预测不准确的问题。
本发明所述的基于元图学习的lncRNA亚细胞定位预测算法GM-lncLoc,其整体流程图如图1,通过以下技术方案实现:
Step1、构建lncRNA亚细胞定位预测训练数据集
本发明中使用的数据集是Zhen C等人的《a subcellular localizationpredictor for long non-coding RNAs based on a stacked ensemble classifier》论文中的数据集。这个数据集的来源是RNALocate数据库,通过对样本合并多个亚细胞位置、清洗序列信息、删除冗余度在80%以上等筛选步骤后,得到包含位于5个亚细胞区域的612条序列信息,参照表1的数据集1。
在此数据集的基础上,我们为了减少信息冗余和噪声,进一步删除了11条包含歧义符号的序列和1条长度为91671的序列。然后,我们得到600条分布于5个不同亚细胞位置的lncRNA序列,其中292条lncRNA位于细胞质,149条lncRNA位于细胞核,91条lncRNA位于细胞质基质,43条lncRNA位于核糖体,25条位于外泌体,参照表1的数据集2。接着,从lncRNA序列中提取k-mer频率向量作为lncRNA序列的初级特征,具体如下:
假设lncRNA序列表示为:R=N1N2N3...NL-1NL。
其中,Ni表示四个核苷酸碱基之一,A,C,G和T;i表示碱基Ni在lncRNA序列中的位置;L表示lncRNA序列的长度,即核苷酸碱基的个数。k-mer中k的取值代表核苷酸片段的长度,得到的片段为N1N2...Nk,其中每个Ni都有4种核苷酸碱基的可能,故整个片段就有4k种不同的组合。然后沿着lncRNA序列以步长为1个核苷酸向前滑动,并计算整条lncRNA序列中对应4k种不同组合的个数,得到k-mer频次向量,记为最后对所有lncRNA序列的k-mer频次向量做归一化,得到k-mer频率向量,记为其中,最终,所有k-mer频率向量构成数据集,该数据集类别标签分为|C|个种类,如表1所示,本发明的数据集中|C|的取值是5。
表1:本发明中用于训练的lncRNA亚细胞定位数据集
Step2、平衡数据集中不同类别之间样本的数量
参照表1的数据集2,可以看到数据非常不平衡,而且数据量非常少。位于外泌体的lncRNA仅有25条,占整个数据集的4.17%;而位于细胞质的lncRNA却有292条,占了数据集约48.7%。后者几乎是前者的12倍,这种比例的数据集对于预测模型来说是及其不利的,特别是基于统计学习的分类算法,往往会更倾向于数据量比较多类别。所以在我们的发明中,采用合成少数类过采样技术(SMOTE)来平衡数据集。SMOTE是基于随机过采样算法的一种改进算法,它的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,以达到类别之间样本的数量平衡。首先,计算少数类中所有样本的欧氏距离,然后为少数类的每一个样本随机选取若干个近邻样本,接着根据需要采样的数量,反复用以下公式构建新样本
Step3、将数据集中的向量数据构建成图结构
构建图结构就是修改lncRNA序列的初级特征的数据格式为图数据的过程,其目的是使数据能够应用于图神经网络,同时让分类器能够从非欧式空间的视角提取数据的信息。合适的图结构能够帮助图神经网络聚合更加有效的邻居节点信息。构建的图由三部分组成,节点集V、特征集X和边集E。构建步骤如下:
Step3-1、将每条lncRNA序列提取出来的初级特征表示为一个节点,构成节点集V={v1,v2,…,vn};
Step3-2、将每条lncRNA序列提取出来的初始特征表示为对应节点的初始特征,构成特征集X={x1,x2,…,xn};
Step3-3、计算节点集中各条lncRNA序列提取出来的初级特征之间的余弦相似度S,当两个初级特征(节点)vi和vj之间的余弦相似度Si,j超过某个阈值λ时,为这两个初级特征(节点)建立一条边,即ei,j=1;否则ei,j=0。其中,
λ是一个超参数。需要注意,步骤1和步骤2中的节点集和特征集所用的初始特征可以用不同方法从lncRNA序列中提取。但是在我们的实验过程中,我们发现当节点集和特征集都用k-mer的时候,GM-lncLoc的性能最好。另外说明一点,最后构建完成的图可以有孤立节点,并不要求是连通图。
Step4、使用图卷积神经网络(GCN)和模型不可知元学习(MAML)结合的算法对lncRNA亚细胞定位进行预测
把lncRNA亚细胞定位问题中的数据置于图结构之后,还存在lncRNA数据样本少的问题。受Kexin Huang等人发表的《Graph meta learning via local subgraphs》论文的启发,本发明在预测lncRNA亚细胞定位时,将GCN和MAML结合起来,也就是将MAML的训练模式应用到GCN模型的训练中,在该发明中我们称这种训练方式为元图学习。GCN是一种半监督学习的图神经网络,可以应用于节点分类和链接预测等任务。MAML是元学习领域中性能较好的模型,主要研究如何从一系列任务中学习到元参数,以快速学习新任务的参数。由于MAML的训练是基于任务的,其任务需要反复地从数据集中抽取样本来构建。故为了适应MAML的训练模式,首先需要为图结构中每个节点抽取出它们的局部图。算法流程图如图2,具体步骤如下:
Step4-1、抽取局部图:把为lncRNA序列构建好图数据记为G=(V,E,X),把图G中每个节点{v1,v2,...,vn}及其邻居节点抽取出来,构成n个节点对应的子图{G1,G2,...,Gn}。其中Gi∈G表示第i个节点的局部图,Gi={Vi,Ei,Xi};Vi={vi}∪{vj∈V|ei,j=1};Ei={ei,j∈E|ei,j=1};Xi={xi}∪{xj∈X|ei,j=1};
Step4-2、划分数据集:首先根据10折交叉验证法将数据集D={G1,G2,...,Gn}切分为Dtrain={Ga,...,Go}、Dval={Gb,...,Gp}和Dtest={Gc,...,Gq}3个数据集,且满足条件:然后按照MAML的方式从Dtrain中反复随机选取|C|×(ksupport+kquery)个样本Gi组成m个任务Ttrain={T1,T2,...,Tm},其中|C|表示类别标签数量,ksupport,kquery and m是超参数;Dval和Dtest中的样本分别组成单个任务Tval和Ttest;最后将每个任务Ti进一步划分为支持集和查询集,分别记为Ti-support和Ti-query;
Step4-3、元训练:先将Ttrain中m个任务的Ttrain-support分别放到m个初始参数为θ的GCN(即fθ)中训练,分别更新后得到m个对应的参数{θ1,θ2,...,θm};然后用Ttrain中m个任务的Ttrain-query和计算总损失进而更新θ,最后得到元参数θ′;
Step4-4、元测试:利用Ttest中的Ttest-support微调以元参数θ′为初始参数的GCN(即fθ′),然后用Ttest-query来评估fθ′的性能。
实际训练的过程中,可以在Step4-4的元测试之前用Tval的数据来验证模型,进而调整超参数。
Step5、评价指标
为了更加客观地评价GM-lncLoc的性能,我们用10折交叉验证方法评估了GM-lncLoc的以下几个指标,除了常用的准确率(Acc),还包括了精确度(P)、召回率(R)和分数F1(F1)。
其中TP,FP和FN分别代表预测结果中的真正例,假正例和假反例,|C|表示类别标签的种类数量,i代表具体某个标签。
与现有技术相比,本发明具有如下的有益效果:
1、本发明除了利用lncRNA的序列信息,还能够通过GCN自动捕获lncRNA序列之间的关联信息。
2、利用MAML的训练方式,能够从若干个任务中提取出元参数让分类器快速学会对其它相似任务的分类能力,有效地解决了在以往技术中用深度学习预测lncRNA亚细胞定位准确率不高的问题。
3、在10折交叉验证实验中,我们方法在4分类和5分类数据集中准确率达到了94.2%和93.4%,优于同类别算法。
附图说明:
图1为:本发明所提出的GM-lncLoc算法的整体流程图;
图2为:基于图卷积神经网络(GCN)和模型不可知元学习(MAML)结合的算法流程图;
图3为:在局部图中不同层数邻居节点的性能对比图;
图4为:图卷积神经网络是否以元参数为初始参数的训练时长对比图;
具体实施方式
下面结合具体实施方式对本发明做进一步详细描述。
参照图1,本发明先对Zhen C等人在《a subcellular localization predictorfor long non-coding RNAs based on a stacked ensemble classifier》论文中的数据集进行初步筛选,得到600条lncRNA序列。然后提取序列的7-mer频率向量(16384维),作为序列的初级特征。考虑到数据集的不平衡性,用SMOTE对数据集进行重采样,最终得到1460条数据,其中每一个类都有292条数据。接着计算这1460个向量之间的余弦相似度,设置阈值λ为0.42,当两个向量之间的余弦相似度大于0.42时,为其构建一条边。以此方法构建得到图结构,该图结构包含1460个节点和69892条边。进一步,为图结构中每个节点抽取局部图,进而得到1460个局部图。再将1460个局部图按照10折交叉验证的方法分为训练集、验证集和测试集。进一步,将训练集中的局部图放到图卷积神经网络(GCN)和模型不可知元学习(MAML)相结合的算法中进行训练,训练过程中用验证集的数据做测试以调整超参数。最后用训练好的模型对测试集的数据做预测,并计算其准确率、召回率和F1分数。在基于图卷积神经网络(GCN)和模型不可知元学习(MAML)相结合的模型部分,本发明在图卷积神经网络中,epoch设置为15,batchsz设置为1000,隐藏层数量设置为1,隐藏层的神经元个数设置为256。在模型不可知元学习中,k_support设置为5,k_query设置为10。
参照表2,展示了k-mer频率向量中k值的选择过程。当k值为7时,7-mer频率向量的维度是16384,准确率达到最大,为93.4%。
表2:k-mer频率向量中不同k值的性能对比
参照图3,对比了在抽取局部图时,选取1层邻居节点和前2层邻居节点的效果。横轴表示邻居节点层数,左纵轴表示准确率,右纵轴表示内存消耗。虽然选取1层邻居节点作为局部图的效果只比取前2层的稍微好一点,后者消耗的内存却是前者的两到三倍。
参照表3,为了体现图卷积神经网络(GCN)结合了模型不可知元学习(MAML)之后的效果,在实验过程中还与单独的图卷积神经网络算法做对比,前者的准确率比后者提高了40%左右。
表3:图卷积神经网络(GCN)是否结合模型不可知元学习(MAML)的性能对比
参照图4,在实验中我们用模型不可知元学习(MAML)得到的元参数作为元测试任务的初始参数时,只需要大约34.4秒就可以完成训练,而单独用图卷积神经网络完成训练则需要325.3秒左右,所花费的时间将近是利用元参数训练的9.5倍,说明我们的方法所得到的元参数可以大大提高训练的效率。
参照表4和表5,是本发明中的算法与已有算法的实验结果对比。从表中可以看出,本发明的算法在5分类数据集中,准确率比Zhen C等人在《a subcellular localizationpredictor for long non-coding RNAs based on a stacked ensemble classifier》提出的方法提高了34.3%左右。另外,在4分类的数据集中,准确率也比目前最高的LncLocPred在论文《Predicting LncRNA Subcellular Localization Using MultipleSequence Feature Information》提高了1.8%左右。从而可以看出我们所提出的GM-lncLoc在lncRNA亚细胞定位预测中的有效性。在4分类数据集对比中,为了方便与其它方法对比,我们引入了其它评价指标,包括灵敏性(Sn),特异性(Sp),马修相关系数(MCC)。
表4:在5分类数据集中与其它方法的性能对比
表5:在4分类数据集中与其它方法的性能对比
综上,本发明所提出的基于元图学习的lncRNA亚细胞定位方法是一种全新的方法。一方面,我们为初始数据构建图结构,这是以往方法中未曾用到的;另一方面,我们结合了图神经网络和元学习,这样能够有效地在只有少量样本的情况下应用深度学习预测lncRNA亚细胞的位置,并且获得一组可以快速学习新任务的元参数。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:包括以下步骤:
Step1、构建lncRNA亚细胞定位预测训练数据集;
Step2、平衡数据集中不同类别之间样本的数量;
Step3、将数据集中的向量数据构建成图结构;
Step4、使用图卷积神经网络GCN和模型不可知元学习MAML结合的算法对lncRNA亚细胞定位进行预测;
Step5、评价指标。
2.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:Step1中所述lncRNA亚细胞定位预测训练数据集是从lncRNA序列中提取k-mer频率向量作为lncRNA序列的初级特征,其中k的取值代表核苷酸片段的长度,该数据集类别标签分为|C|个种类。
3.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:Step2中所述平衡数据集中不同类别之间样本的数量是采用合成少数类过采样技术SMOTE来平衡。
4.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:Step3中所述构建的图由三部分组成,节点集V、特征集X和边集E。
5.根据权利要求1所述的一种基于元图学习的长链非编码RNA亚细胞定位预测方法,其特征在于:Step4中所述GCN和MAML结合的算法包括以下步骤:
Step4-1、抽取局部图:把为lncRNA序列构建好图数据记为G=(V,E,X),把图G中每个节点{v1,v2,...,vn}及其邻居节点抽取出来,构成n个节点对应的子图{G1,G2,...,Gn}。其中Gi∈G表示第i个节点的局部图。
Step4-2、划分数据集:首先根据10折交叉验证法将数据集D={G1,G2,...,Gn}切分为Dtrain={Ga,...,Go}、Dval={Gb,...,Gp}和Dtest={Gc,...,Gq}3个数据集,且满足条件:然后按照MAML的方式从Dtrain中反复随机选取|C|×(ksupport+kquery)个样本Gi组成m个任务Ttrain={T1,T2,...,Tm},其中|C|表示类别数量,ksupport,kqueryand m是超参数;Dval和Dtest中的样本分别组成单个任务Tval和Ttest;最后将每个任务Ti进一步划分为支持集和查询集,分别记为Ti-support和Ti-query;
Step4-3、元训练:先将Ttrain中m个任务的Ttrain-support分别放到m个初始参数为θ的GCN中训练,分别更新后得到m个对应的参数{θ1,θ2,...,θm};然后用Ttrain中m个任务的Ttrain-query和计算总损失进而更新θ,最后得到元参数θ′;
Step4-4、元测试:利用Ttest中的Ttest-support微调以元参数θ’为初始参数的GCN,然后用Ttest-query来评估fθ′的性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210064104.3A CN115295079A (zh) | 2022-01-20 | 2022-01-20 | 基于元图学习的长链非编码rna亚细胞定位预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210064104.3A CN115295079A (zh) | 2022-01-20 | 2022-01-20 | 基于元图学习的长链非编码rna亚细胞定位预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115295079A true CN115295079A (zh) | 2022-11-04 |
Family
ID=83819561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210064104.3A Pending CN115295079A (zh) | 2022-01-20 | 2022-01-20 | 基于元图学习的长链非编码rna亚细胞定位预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115295079A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117672353A (zh) * | 2023-12-18 | 2024-03-08 | 南京医科大学 | 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577924A (zh) * | 2017-10-13 | 2018-01-12 | 上海交通大学 | 一种基于深度学习的长链非编码rna亚细胞位置预测算法 |
CN109903314A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
CN110046714A (zh) * | 2019-03-25 | 2019-07-23 | 天津大学 | 基于多特征信息融合的长链非编码rna亚细胞定位方法 |
-
2022
- 2022-01-20 CN CN202210064104.3A patent/CN115295079A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577924A (zh) * | 2017-10-13 | 2018-01-12 | 上海交通大学 | 一种基于深度学习的长链非编码rna亚细胞位置预测算法 |
CN109903314A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
CN110046714A (zh) * | 2019-03-25 | 2019-07-23 | 天津大学 | 基于多特征信息融合的长链非编码rna亚细胞定位方法 |
Non-Patent Citations (3)
Title |
---|
KEXIN HUANG ET AL: "Graph Meta Learning via Local Subgraphs", 《ARXIV》 * |
克里斯托弗.拉尔森: "5G网络规划设计与优化", 机械工业出版社 * |
年福东等: "基于自适应特征比较的少样本学习算法", 《西安文理学院学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117672353A (zh) * | 2023-12-18 | 2024-03-08 | 南京医科大学 | 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wen et al. | A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network | |
CN110659207B (zh) | 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法 | |
US11398297B2 (en) | Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences | |
Zheng et al. | CGMDA: an approach to predict and validate MicroRNA-disease associations by utilizing chaos game representation and LightGBM | |
CN109727637B (zh) | 基于混合蛙跳算法识别关键蛋白质的方法 | |
CN111540405B (zh) | 一种基于快速网络嵌入的疾病基因预测方法 | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
CN115512772A (zh) | 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统 | |
Gong et al. | CASPIAN: A method to identify chromatin topological associated domains based on spatial density cluster | |
CN113223609A (zh) | 基于异质信息网络的药物靶标相互作用预测方法 | |
Ma et al. | Prediction of long non-coding RNA-protein interaction through kernel soft-neighborhood similarity | |
Jia et al. | A fast weak motif-finding algorithm based on community detection in graphs | |
CN109033746B (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
Ma et al. | Kernel soft-neighborhood network fusion for MiRNA-disease interaction prediction | |
CN115295079A (zh) | 基于元图学习的长链非编码rna亚细胞定位预测方法 | |
CN115240775B (zh) | 基于stacking集成学习策略的Cas蛋白预测方法 | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
CN106446601A (zh) | 一种大规模标注lncRNA功能的方法 | |
CN115394348A (zh) | 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质 | |
CN107908927A (zh) | 基于改进PSO和ELM的疾病‑lncRNA关系预测方法 | |
CN108182347B (zh) | 一种大规模跨平台基因表达数据分类方法 | |
CN110600080B (zh) | 一种基于多维度分析框架的功能核酸全面识别方法及其应用 | |
CN113362898A (zh) | 一种融合多种序列频率信息识别rna亚细胞定位方法 | |
CN113837293A (zh) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 | |
CN112885405A (zh) | 疾病关联miRNA的预测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221104 |
|
RJ01 | Rejection of invention patent application after publication |