CN114582508A - 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 - Google Patents
基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 Download PDFInfo
- Publication number
- CN114582508A CN114582508A CN202210215060.XA CN202210215060A CN114582508A CN 114582508 A CN114582508 A CN 114582508A CN 202210215060 A CN202210215060 A CN 202210215060A CN 114582508 A CN114582508 A CN 114582508A
- Authority
- CN
- China
- Prior art keywords
- disease
- circular rna
- circular
- diseases
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 146
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 31
- 108091028075 Circular RNA Proteins 0.000 claims abstract description 73
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 238000002474 experimental method Methods 0.000 claims abstract description 13
- 230000010354 integration Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims 1
- 125000004122 cyclic group Chemical group 0.000 abstract description 9
- 108091032973 (ribonucleotides)n+m Proteins 0.000 abstract description 7
- 238000011161 development Methods 0.000 abstract description 3
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010201 enrichment analysis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 210000001808 exosome Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于GCN和集成学习预测潜在关联的环状RNA‑疾病对的方法,包括:整合实验证实相关联的环状RNA‑疾病对,根据涉及到的环状RNA和疾病从相应数据库中获取序列信息和语义信息;利用图卷积神经网络并基于关联信息,环状RNA的相似性以及疾病间的相似性信息提取环状RNA的特征以及疾病的特征;构建正负样本平衡的数据集,并用其训练4基本分类器,并利用集成学习中的平均法结合策略对此些分类器集成并对所有未验证的环状RNA‑疾病对做出预测。本发明可以有效的基于已知的环状RNA‑疾病对信息预测潜在关联的环状RNA疾病对,提高预测模型的性能,为生物实验提供最有可能关联的环状RNA‑疾病对,从而促进相关生物实验的发展。
Description
技术领域
本发明涉及生物信息计算领域,特别是利用计算模型预测潜在环状RNA-疾病对关联性的领域。
背景技术
环状RNA是一类闭环结构的RNA分子,随着高通量测序技术的发展,人们通过实验发现了大量的环状RNA,因此环状RNA犹如RNA界的一颗“新星”,受到越来越多的人关注。
环状RNA的结构特点使环状RNA具有稳定性以及在人的外泌体中富集的特点,此外其还具有进化保守性,半衰期长,组织特异性等特点。
已有的研究表明环状RNA与疾病的发生发展关联密切,而环状RNA的特点使得它成为疾病诊断过程中一种理想的标志物。
虽然目前的研究已经证实了部分环状RNA-疾病关联对,但是由于环状RNA和疾病种类均很庞大,以至于还有很多未被人们发现、但是对人们的健康至关重要的环状RNA-疾病关联对。
目前通过生物实验去寻找并证实这些关联对是耗费人力物力的,因此有必要通过构建有效的计算模型预测潜在关联的环状RNA-疾病对,从而促进相关生物实验的研究,帮助更多的患者和家庭。
目前预测环状RNA-疾病关联对的方法大致可以分为两类。一类是基于半监督的方法,直接通过实验证实的环状RNA-疾病关联对和其余的环状RNA-疾病对以及相应的环状RNA间的相似性信息和疾病的相似性信息对所有环状RNA-疾病对做出关联性预测。
另一类是基于监督模型的方法,首先构建一个正负样本平衡的数据集,因为目前没有实验证实无关的环状RNA-疾病对,所以大多通过随机抽取的方式从未验证的环状RNA-疾病对中抽取一定数量的环状RNA-疾病对作为负样本。其次,利用此数据集训练模型,并用训练好的模型对未验证的环状RNA-疾病对做出关联性预测。
同时,对于已有的研究还存在以下一些不足:首先,部分模型不能对于新节点进行预测,如一种疾病没有一种实验证实与之相关联的环状RNA;其次,通过随机抽取的方式获取负样本的方法,具有一定的随机性,可能对模型效果产生一定的偏差;最后,目前越来越多的人将深度学习的方法应用于此领域的研究,但是有关于环状RNA-疾病对的数据却一直停留在最初研究的数据集上。
发明内容
本发明的目的在于一种计算模型预测潜在关联的环状RNA-疾病对,为相关生物实验提供最有可能的环状RNA-疾病对,从而促进人们对疾病相关机制的理解。
为此,本发明提供了一种基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法,包括:S1、整合实验证实相关联的环状RNA-疾病对,形成环状RNA数据集和疾病数据集,构建关联矩阵A;S2、从相应数据库中提取环状RNA的序列信息和疾病的语义信息,根据关联矩阵、环状RNA的序列信息和疾病的语义信息计算环状RNA的相似性矩阵SC和疾病的相似性矩阵SD,进而得到输入数据N,其中,S3、将输入数据N送入图卷积神经网络中重构图,在通过图卷积神经网络重构图的过程中,从编码后的嵌入层中提取设定维度的环状RNA的特征以及疾病的特征;S4、对于每一个环状RNA-疾病对,即每一个样本,基于提取的设定维度的环状RNA的特征以及疾病的特征,通过二者串联得到该样本的特征向量,同时构建正负样本平衡的数据集,用来分别训练多种基本分类器,并将训练后的这些分类器利用集成学习中的平均法进行集成;S5、对于未验证的环状RNA-疾病对,将待验证的环状RNA和疾病添加至步骤S1中的环状RNA数据集和疾病数据集中,重复执行S1和S4,进而更新关联矩阵、输入数据N和特征向量,最后由多个分类器对每个样本预测相关联的概率值的均值作为每个样本的最终关联性得分。
本发明的有益效果是:
(1)整合了更多的环状RNA-疾病对相关数据用于模型的训练,为利用深度学习算法提供充分数据。
(2)基于环状RNA-疾病对信息,环状RNA的相似性信息以及疾病间的相似性信息,使用卷积神经网络从中提取环状RNA间的特征以及疾病间的特征。
(3)使用集成学习的方法进一步提高预测潜在关联环状RNA-疾病对模型的性能,为同类型的关联性预测如lncRNA-疾病,miRNA-疾病以及药物重定位等相关联性预测提供一定的指导意义。
(4)本模型对于新节点可以做出预测,且通过100次五折交叉验证消除随机抽取负样本对性能产生较大影响的可能性。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法的流程图;以及
图2是本发明基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法的原理框图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。
为了克服目前技术的缺点,本发明提出一种基于图卷积神经网络和集成学习预测环状RNA-疾病对的方法,首先整合已有的环状RNA-疾病关联对信息并构建相应的特征,为接下来的深度学习方法的使用构建充分的数据。其次,利用深度学习中图卷积神经网络算法提取特征,最终训练基本分类器,并利用集成的方法对这些分类器进行集成,最终用其预测所有的环状RNA-疾病对的关联性。
请参阅图1,本发明的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法,包括以下步骤:
S1、整合实验证实相关联的环状RNA-疾病对,形成环状RNA数据集和疾病数据集,构建关联矩阵A;
S3、将输入数据N送入图卷积神经网络中重构图,在通过图卷积神经网络重构图的过程中,从编码后的嵌入层中提取设定维度的环状RNA的特征以及疾病的特征;
S4、对于每一个环状RNA-疾病对,即每一个样本,基于提取的设定维度的环状RNA的特征以及疾病的特征,通过二者串联得到该样本的特征向量,同时构建正负样本平衡的数据集,用来分别训练多种基本分类器,并将训练后的这些分类器利用集成学习中的平均法进行集成;
S5、对于未验证的环状RNA-疾病对,将待验证的环状RNA和疾病添加至步骤S1中的环状RNA数据集和疾病数据集中,重复执行S2和S4,进而更新关联矩阵、输入数据N和特征向量,最后由多个分类器对每个样本预测相关联的概率值的均值作为每个样本的最终关联性得分。
在步骤S1中,优选地,从数据库CircR2Disease,Circ2Disease以及circRNADisease中获取环状RNA-疾病关联对数据,并从数据库CircBase中获取环状RNA的序列信息,从数据库Disease Ontology中获取相关疾病的语义信息。
根据整合后的关联信息构建关联矩阵A,n和m分别表示环状RNA和疾病的个数。则关联性矩阵A由n行m列构成,分别表示n种环状RNA和m种疾病,矩阵中的每一个值分别对应一个环状RNA-疾病对的关联性,实验证实相关联的环状RNA-疾病对对应于矩阵A中的值为1,其余为0。即如果实验已经证实第i种环状RNA与第j种疾病相关联,则矩阵A中的第i行第j列的值为1。
在步骤S2中,分别使用以下方法得到环状RNA间的相似性以及疾病间的相似性:
S201:根据关联矩阵分别计算相应的环状RNA间的高斯相似性以及疾病间的高斯相似性。
S202:根据关联对中涉及的环状RNA从数据库CircBase中提取序列信息,并利用Levenshtein距离算法计算任意两个环状RNA间的序列相似性。
S203:根据关联对中涉及的疾病从数据库Disease Ontology中获取疾病的DOID信息,并计算疾病间的语义相似性。
S204:分别对环状RNA的序列相似性和高斯相似性,疾病的语义相似性和高斯相似性进行融合,并得到融合后的环状RNA的相似性以及疾病的相似性。
在步骤S201中,关联矩阵、环状RNA间的高斯相似性、疾病间的高斯相似性,并分别命名为A,KC,KD,其具体计算公式如下所示。
KC(ci,cj)=exp(-βc||IP(ci)-IP(cj)||2);
KD(di,dj)=exp(-βd||IP(di)-IP(dj)||2);
其中,IP(ci)表示关联矩阵A中第i行数据,即环状RNA ci与所有疾病间的关联关系,IP(cj)同理。IP(di)表示关联矩阵A中第i列数据,即疾病di与所有环状RNA间的关联关系,IP(dj)同理。而βc和βd分别表示内核带宽,计算公式如下所示。
其中,n和m分别表示环状RNA和疾病的个数。β′c和β′d分别表示初始带宽,其值均设置为1。
在步骤S202中,任意两个环状RNA间的序列相似性,并将其命名为CC,具有计算公式如下所示。
其中,ci和cj分别表示两种环状RNA,len(ci)表示环状ci的序列长度,dis(ci,cj)表示环状RNA ci转换成环状RNA cj序列所需要的编辑距离,其主要基于Levenshtein距离算法计算。
在步骤S203中,根据关联对中涉及的疾病从数据库Disease Ontology中获取疾病的DOID信息,并计算疾病间的语义相似性,并将其命名为DD。
对于得到的疾病的DOID信息,通过R包“DOSE”(参见余光创等人在《生物信息学期刊》(Bioinformatics 2015,31(4):608-609)上发表的论文《用于疾病本体语义和富集分析的R包》(DOSE:an R/Bioconductor package for disease ontology semantic andenrichment analysis)),利用其中的函数“DoSim”和“Wang”的方法计算疾病间的相似性,具体公式如下:
其中,Tdi表示第i种疾病所有的祖先节点,Sdi(t)表示Tdi中疾病对第i种疾病的贡献值,具体公式如下:
其中,we为语义贡献因子,值为1。
在步骤S204中,分别对环状RNA的序列相似性和高斯相似性,疾病的语义相似性和高斯相似性进行融合,并得到融合后的环状RNA的相似性以及疾病的相似性,并将其命名为SC,SD,具体计算公式如下所示。
SC=a*CC+(1-a)*KC;
SD=b*DD+(1-b)*KD;
其中,a,b分别相似性融合参数,此处均设置为0.8。
根据处理好的环状RNA间的相似性,疾病间的相似性以及环状RNA-疾病关联对信息便可构建相应的图,并利用图卷积网络从中提取环状RNA的特征以及疾病的特征。
所提取的新的特征的维度是基于整个模型的性能,在众多实验后选取维度值并将其设置为32。
步骤S3包括以下步骤:
S301:根据已知的环状RNA-疾病对,环状RNA间的相似性以及疾病间的相似性构建图。
S302:利用图卷积神经网络重构图,并从其中的嵌入层获取环状RNA的特征以及疾病的特征。
在步骤S301中,根据已知的环状RNA-疾病对,环状RNA间的相似性以及疾病间的相似性构建图,构建方式如下所示。
其中,AT为关联矩阵A的倒置,将N作为输入数据送入图卷积神经网络中,其主要由编码器和解码器组成,其中编码器主要通过如下公式实现。
在步骤S302中,在通过图卷积神经网络重构图的过程中,选择二元交叉熵损失函数作为损失函数其公式如下所示,并最终从编码后的嵌入层中提取环状RNA的特征以及疾病的特征。
在得到环状RNA的特征以及疾病的特征后,便可根据构建的正负样本平衡的数据集以及相应的样本特征训练分类器,并集成这些分类器对所有未验证的样本预测关联性得分。
具体地,步骤S4包括以下步骤:
S401:通过随机抽取负样本的方式从未验证的环状RNA-疾病对中抽取与正样本数量一致的样本作为负样本,从而构建正负样本平衡的数据集,并用其训练四个基本分类器。
S402:通过集成学习中的平均法对此这些训练好的分类器集成,并对所有未验证的样本预测关联性得分。
在步骤S401中,首先通过随机抽取的方式从所有未验证的样本中获取正样本数量一致的负样本,从而构建一个正负样本平衡的数据集。利用此数据集,分别训练随机森林(Random Forest,简称RF)分类器,梯度提升决策树(Gradient Boosting Decision Tree,简称GBDT)分类器,极限树(Extra Trees,简称ET)分类器以及XGBoost分类器。
在步骤S402中,通过集成学习中的平均法对此写些训练好的分类器集成,具体集成方式如下所示。
此外,通过五折交叉验证(FFCV)评估模型的性能,为了消除随机抽取的负样本对模型性能的影响,所以对FFCV重复执行了100次,每一次均是随机抽取负样本,其100下AUC的均值为0.897,标准差为0.007。其中一次FFCV下在各评估指标下的结果如下表所示。
表1 FFCV下模型在各评估指标下的值
其中,ACC表示准确率,Specificity表示特异性,Precision表示查准率,Recall表示查全率,AUC表示FFCV下ROC曲线下的面积,F1为查准率和查全率的调和平均数。
在步骤S5中,对于一种疾病D,利用本模型预测最有可能与此疾病相关联的环状RNA。如果疾病D不在整合的数据集中,首先在数据库Disease Ontology中查询相应的DOID信息,并计算出此疾病与数据集中涉及的其余的所有疾病的语义相似性。并加入到疾病间的相似性矩阵中,并更新关联矩阵A。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法,其特征在于,包括:
S1、整合实验证实相关联的环状RNA-疾病对,形成环状RNA数据集和疾病数据集,构建关联矩阵A;
S3、将输入数据N送入图卷积神经网络中重构图,在通过图卷积神经网络重构图的过程中,从编码后的嵌入层中提取设定维度的环状RNA的特征以及疾病的特征;
S4、对于每一个环状RNA-疾病对,即每一个样本,基于提取的设定维度的环状RNA的特征以及疾病的特征,通过二者串联得到该样本的特征向量,同时构建正负样本平衡的数据集,用来分别训练多种基本分类器,并将训练后的这些分类器利用集成学习中的平均法进行集成;
S5、对于未验证的环状RNA-疾病对,将待验证的环状RNA和疾病添加至步骤S1中的环状RNA数据集和疾病数据集中,重复执行S1和S4,进而更新关联矩阵、输入数据N和特征向量,最后由多个分类器对每个样本预测相关联的概率值的均值作为每个样本的最终关联性得分。
2.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法,其特征在于,所述环状RNA数据集中有n种环状RNA,所述疾病数据集中有m种疾病,关联性矩阵A由n行m列构成,分别表示n种环状RNA和m种疾病,矩阵中的每一个值分别对应一个环状RNA-疾病对的关联性,相关联的环状RNA-疾病对对应于矩阵A中的值为1,不关联时值为0。
3.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法,其特征在于,步骤S2包括以下步骤:
S101:根据关联矩阵分别计算相应的环状RNA间的高斯相似性以及疾病间的高斯相似性;
S102:根据关联对中涉及的环状RNA从相应数据库中提取序列信息,并利用距离算法计算任意两个环状RNA间的序列相似性;
S103:根据关联对中涉及的疾病从相应数据库中获取疾病的语义信息,并计算疾病间的语义相似性;
S104:分别对环状RNA的序列相似性和高斯相似性,疾病的语义相似性和高斯相似性进行融合,得到环状RNA的相似性矩阵以及疾病的相似性矩阵。
4.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法,其特征在于,所使用的环状RNA-疾病关联对取自三个数据库,即CircR2Disease数据库、Circ2Disease数据库、circRNADisease数据库,保留所有人类的关联对并对其整合去冗余。
5.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法,其特征在于,在正负样本平衡的数据集中,通过随机抽取负样本的方式从未验证的环状RNA-疾病对中抽取与正样本数量一致的样本作为负样本。
6.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法,其特征在于,所训练的多个分类器为四种分类器,即:RF分类器,GBDT分类器,ET分类器、以及XGBoost分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210215060.XA CN114582508B (zh) | 2022-03-04 | 2022-03-04 | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210215060.XA CN114582508B (zh) | 2022-03-04 | 2022-03-04 | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114582508A true CN114582508A (zh) | 2022-06-03 |
CN114582508B CN114582508B (zh) | 2024-03-15 |
Family
ID=81774065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210215060.XA Active CN114582508B (zh) | 2022-03-04 | 2022-03-04 | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582508B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114944192A (zh) * | 2022-06-22 | 2022-08-26 | 湖南科技大学 | 一种基于图注意力的疾病相关环状rna识别方法 |
CN117012382A (zh) * | 2023-05-22 | 2023-11-07 | 东北林业大学 | 基于深度特征融合的疾病相关circRNA预测系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110459264A (zh) * | 2019-08-02 | 2019-11-15 | 陕西师范大学 | 基于梯度增强决策树预测环状rna与疾病相关性的方法 |
CN113724790A (zh) * | 2021-09-07 | 2021-11-30 | 湖南大学 | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 |
CN113871021A (zh) * | 2021-09-29 | 2021-12-31 | 曲阜师范大学 | 一种基于图注意力机制的circRNA与疾病关联关系预测方法 |
CN114093425A (zh) * | 2021-11-29 | 2022-02-25 | 湖南大学 | 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法 |
-
2022
- 2022-03-04 CN CN202210215060.XA patent/CN114582508B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110459264A (zh) * | 2019-08-02 | 2019-11-15 | 陕西师范大学 | 基于梯度增强决策树预测环状rna与疾病相关性的方法 |
CN113724790A (zh) * | 2021-09-07 | 2021-11-30 | 湖南大学 | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 |
CN113871021A (zh) * | 2021-09-29 | 2021-12-31 | 曲阜师范大学 | 一种基于图注意力机制的circRNA与疾病关联关系预测方法 |
CN114093425A (zh) * | 2021-11-29 | 2022-02-25 | 湖南大学 | 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114944192A (zh) * | 2022-06-22 | 2022-08-26 | 湖南科技大学 | 一种基于图注意力的疾病相关环状rna识别方法 |
CN117012382A (zh) * | 2023-05-22 | 2023-11-07 | 东北林业大学 | 基于深度特征融合的疾病相关circRNA预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114582508B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
CN116682553B (zh) | 一种融合知识与患者表示的诊断推荐系统 | |
CN113707297A (zh) | 医疗数据的处理方法、装置、设备及存储介质 | |
Peng et al. | A novel method to measure the semantic similarity of HPO terms | |
CN114582508A (zh) | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 | |
CN112270958B (zh) | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 | |
Awan et al. | Cricket match analytics using the big data approach | |
CN109767817B (zh) | 一种基于神经网络语言模型的药物潜在不良反应发现方法 | |
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
CN110459264B (zh) | 基于梯度增强决策树预测环状rna与疾病相关性的方法 | |
CN111540405B (zh) | 一种基于快速网络嵌入的疾病基因预测方法 | |
CN113571125A (zh) | 基于多层网络与图编码的药物靶点相互作用预测方法 | |
Liu et al. | Augmented LSTM framework to construct medical self-diagnosis android | |
CN111026877A (zh) | 基于概率软逻辑的知识验证模型构建与分析方法 | |
CN113178232A (zh) | 一种circRNA和疾病关联关系的高效预测方法 | |
Henriksson et al. | Modeling heterogeneous clinical sequence data in semantic space for adverse drug event detection | |
CN114999635A (zh) | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 | |
CN116935951A (zh) | 基于注意力机制及多粒度层级特征抗癌肽识别方法及系统 | |
CN118280436A (zh) | 一种基于奇异值分解和图对比学习的lncRNA-疾病关联预测方法 | |
US20220208540A1 (en) | System for Identifying Structures of Molecular Compounds from Mass Spectrometry Data | |
Koca et al. | Graph convolutional network based virus-human protein-protein interaction prediction for novel viruses | |
CN111782818A (zh) | 生物医疗知识图谱的构建装置、方法、系统及存储器 | |
Zhuang et al. | MS-ADR: predicting drug–drug adverse reactions base on multi-source heterogeneous convolutional signed network | |
Theodorou et al. | TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic Tree-Based Memory Network | |
Milani et al. | Computer-based genealogy reconstruction in founder populations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |