CN115995293A - 一种环状rna和疾病关联预测方法 - Google Patents
一种环状rna和疾病关联预测方法 Download PDFInfo
- Publication number
- CN115995293A CN115995293A CN202211444545.2A CN202211444545A CN115995293A CN 115995293 A CN115995293 A CN 115995293A CN 202211444545 A CN202211444545 A CN 202211444545A CN 115995293 A CN115995293 A CN 115995293A
- Authority
- CN
- China
- Prior art keywords
- disease
- similarity
- circrna
- diseases
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 175
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 175
- 238000000034 method Methods 0.000 title claims abstract description 46
- 108091028075 Circular RNA Proteins 0.000 title claims description 20
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 238000013136 deep learning model Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 102100023817 26S proteasome complex subunit SEM1 Human genes 0.000 claims description 4
- 101000684297 Homo sapiens 26S proteasome complex subunit SEM1 Proteins 0.000 claims description 4
- 101000873438 Homo sapiens Putative protein SEM1, isoform 2 Proteins 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 208000035474 group of disease Diseases 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 2
- 230000009471 action Effects 0.000 claims description 2
- 238000007500 overflow downdraw method Methods 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000001133 acceleration Effects 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 108091070501 miRNA Proteins 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种环状RNA和疾病关联预测方法,使用图嵌入和动态卷积自动编码器等深度学习技术,对疾病语义相似度、高斯轮廓交互核、表达谱相似度、Jaccard相似度等生物学信息进行数据融合,然后将描述符依次通过加速属性网络嵌入(AANE)算法和DCAEs算法对描述符进行低维和深层特征的提取,最后使用旋转森林分类器来预测潜在的circRNA和疾病的关联。本发明充分利用有限的生物信息并创新了性能更好的深度学习模型,可以更为有效地应用到circRNA和疾病关联进而提升预测精度。
Description
技术领域
本发明涉及生物信息学技术领域,具体涉及一种基于图嵌入和动态卷积自编码器来预测circRNA和疾病关联的方法。
背景技术
环状RNA(circRNAs)是一类客观存在于生物体中的非编码RNA分子,没有50-cap和30-多聚腺苷酸化尾,通过共价键形成环状结构。CircRNAs含有比线性mRNAs更丰富的转录本,可以在转录或转录后水平调控多种生命活动。此外,circRNAs还可以作为竞争性内源性RNAs(ceRNAs)的成分来抑制miRNAs的活性,从而控制基因的转录、翻译等功能。许多研究也证明circRNA存在于各种生物体中,具有重要的调控作用,也表明circRNA与疾病之间有着密切的联系,circRNA在多种疾病中发挥着重要作用,circRNAs可以作为新的疾病诊断生物标志物,在药物研发和疾病诊治中具有良好的应用前景。
由于circRNA与疾病之间有着密不可分的联系,把握这种联系对于疾病的研究和治疗具有重要价值。然而,普通的生物实验投入了大量的人力物力,只能确认其中的一小部分联系。快速有效的计算方法是解决这一问题的关键。目前,有许多模型可以预测circRNA与疾病的关联。2019年,Wang等人提出了一种基于多源信息融合和卷积神经网络(CNN)的预测circRNA-疾病关联的方法。2019年,Li等人提出了一种基于网络共识投影的circRNA-疾病关联预测方法。2020年,K.Deepthi等人提出了一种基于自动编码器(AE)和深度神经网络的方法来预测circRNA-疾病关联。2022年,Zhang等人提出了一种基于图表示学习的方法来预测circRNA-疾病关联。但这些模型预测在生物信息的融合上并没有最大化利用生物信息的相关性,如基因序列的相似度或表达相似度等,且某些疾病或circRNA的深层特征难以提取,计算力复杂度较高,导致目前存在的预测的关联结果仍存在很大偏差。
发明内容
用以解决或者提高现有技术中的方法存问题和性能,本发明提出以下技术方案:
一种环状RNA和疾病关联预测方法,包括以下步骤:
S1)数据组织
从公共数据库获取已知的circRNA和疾病关联信息、circRNA表达谱数据、疾病语义相似度信息形成原始数据集;
S2)数据融合
根据疾病语义相似度、circRNA表达谱数据以及circRNA和疾病的关联矩阵,计算出疾病语义相似度、疾病和circRNA的Jaccard相似度和GIP(高斯交互表达谱相似度)以及circRNA表达谱相似度,并按照不同疾病之间是否有语义相似性和不同circRNA之间是否有表达谱数据来进行融合,最后通过矩阵拼接和归一化操作融合数据形成统一的融合标识符;
S3)特征提取
通过AANE和DCAEs组成的深度学习模型提取融合标识符的低维特征和深层特征,AANE通过特定的损失函数,当损失函数的值达到设定值后,即完成训练和提取,DCAEs则使用MSE作为损失函数并通过Adadelta算法对模型参数和网络结构进行优化;
S4)分类器预测
将最终提取的特征放入随机森林分类器,对分类器进行训练,并优化关键的参数,优化完毕后,将测试集放入分类器进行circRNA和疾病的关联预测,并得到最后的预测分数矩阵。
进一步的,融合标识符的形成方法为:若疾病或者circRNA之间有语义相似度,对其最终的融合数据进行取平均值的运算;若没有,则取高斯交互核相似度来补充不同数据库之间的数据差异,最后将疾病和circRNA的融合相似度降维后进行拼接形成最后的融合标识符。
进一步的,疾病语义相似度的具体计算方式为:
疾病e与疾病d为关联的两种疾病,根据疾病之间的有向无环图计算疾病的语义价值Nd表示与d相关的一组疾病节点且包含节点d本身,Dd表示疾病e对疾病d的贡献,从而确定疾病d(i)和疾病d(j)疾病语义相似度DSS1(d(i),d(j))
其次,考虑疾病编号对疾病贡献的影响,采用下式计算疾病e在疾病数量影响下的贡献
其中,num(DAGd(e))是指与疾病d相关的疾病数量,num(diseases)指所有疾病的个数;
得到疾病d(i)和疾病d(j)的疾病语义相似度DSS2(d(i),d(j))
进一步的,circRNA表达谱相似度的具体计算方式为:将带有表达谱数据的circRNA表示为一个32维的特征向量,并使用降序的方法对不同circRNA的表达谱数据进行重新排序,使用Spearman相关系数得到circRNA之间的表达谱相似性。
进一步的,Jaccard相似度的具体计算方式为:
使用以下公式计算疾病d(i)和疾病d(j)的Jaccard相似度JD(d(i),d(j))
其中,CA(d(i))是指与疾病d(i)相关的circRNA组;
根据上式可以推断出circRNA的Jaccard相似模型JC(c(i),c(j))
其中,DA(c(i))是指与circRNA c(i)相关的疾病组,通过两个circRNA关联疾病的交集比上两个circRNA关联疾病的并集,就可以得到两个circRNA的JC相似度。
进一步的,融合方法的具体实现为:
将疾病相似性多源信息DS和疾病Jaccard相似度JD进行拼接形成疾病相似度模型DM=[DS,JD];
将circRNA相似性多源信息CS和circRNA Jaccard相似度JC进行拼接形成circRNA相似度模型CM=[CS,JC];
融合过程中,使用PCA降维归一化后将CM与DM进行拼接后得到融合标识符FM(c(i),d(i))
FM(c(i),d(j))=[CM(c(i)),DM(d(j))]
其中,CM(c(i))表示CM的第i行向量,DM(d(j))表示DM的第j列向量。
进一步的,通过AANE算法,得到与余弦相似度矩阵差值最小的图嵌入表达矩阵,所得到的图嵌入表达矩阵即为低维特征,利用AANE提取低维特征的具体步骤包括:
对于网络N=(V,E,W),V为N中的节点集,W为N中的边集,E为边所代表值的集合,W中的边eij表示连接节点i和节点的边j,其大小与两个节点之间的相似度密切相关,如果eij的值较大,则节点i与节点j更相似;根据实对称矩阵可以正交相似对角化的推论,可以得到如下公式:
A=HΛHT=HB2HT=HBHTHBHT=(HBHT)(HBHT)T=UUT
其中A指的是半定对称矩阵,A可以用一个正交矩阵H和一个对角矩阵Λ来表示,B是定义的新矩阵,即Λ中的元素,应用该算法时,只需给出待输入的属性矩阵A,通过余弦相似度计算相似度矩阵S,可以推出:S=QQT,其中Q表示图嵌入表达矩阵;
在以下两种情况下,节点最有可能具有相似的向量表示,一种是拓扑更相似的节点,另一种是连接权重更高的节点,因此定义目标函数L如下:
这里的S=QQT只是理论上可以得到,但是实际中,他们两个是具有差值的,我们这个算法就是为了得到与S最小的差值的Q,即L的值最小;其中,λ为平衡参数,F为为(),ωij为(),qi为(),qj为();
定义参数Z=Q,目标函数也可以写成如下形式:
ρ代表惩罚参数,ui是对偶变量的缩放数据;zi为Z中第i个节点的数据,通过降低的zi和qi的差值,得到最优的;
使用乘法器的交替方向法解决目标函数的优化问题,在连续求导的情况下,使用如下迭代公式:
其中t表示第t次迭代,si表示余弦相似度矩阵中的值,I是固定参数,从1开始增加,每次迭代I+1。
进一步的,对模型参数和网络结构进行优化的步骤为:
在训练每一层的过程中,计算解码有的重构向量x'和输入向量x的损失函数,并将损失函数优化到设定值,重复这个动作直到所有层都训练完毕,编码公式如下:
y=subsampling(x)
其中t为通过动态卷积编码后得到的中间值,解码的具体公式如下:
其中,πk是第k个线性函数的注意力权重,代表卷积操作,w和b是权重矩阵和偏置向量,g是激活函数,y是x的编码输出,是聚合权重,是聚合偏差;模型训练是否完成的标志是损失函数是否最小化,使用最小均方误差作为模型的损失函数,并在训练过程中使用Adadelta来优化网络和更新参数。
进一步的,随机森林的生成方法为:
S41)使用Bootstrap从有放回的C个样本集中随机选择c个样本,选取的c个样本作为决策树根节点的样本用于训练决策树;
S42)从样本的M个特征中随机选择m个特征,满足条件m<<M,然后从这m个特征中选择1个特征作为分割这个节点的特征;
S43)在形成决策树的过程中,每个节点都必须按照步骤S42进行分裂,直到不能再分裂,在整个决策树形成过程中不进行剪枝;
S44)按照步骤S41-S43构建多个决策树,形成随机森林。
优选的,本方法基于PyTorch和Python及其辅助库编写。
本发明提出了一种基于图嵌入和动态卷积自编码器来预测circRNA和疾病关联的方法,本方法采用的模型集合了更多的生物学信息并且创新了提取能力更强和计算成本更低的深度学习模型。与现有技术中融合的生物学信息数量相比,本发明可以将Jaccard和circRNA表达谱相似度融合到传统的生物信息中,充分利用有限的生物信息并创新了性能更好的深度学习模型,所以本发明可以更为有效地应用到circRNA和疾病关联进而提升预测精度。同时,本发明提供的方法不仅融合了circRNA和疾病的网络结构信息,还有效地利用circRNA和疾病的各种特征信息,因而本发明不仅仅可以推断未知的circRNA和疾病关联,而且能很高效地预测当前没有与任何疾病关联的新circRNA,以及预测当前没有与任何circRNA关联的新的疾病,同时,动态卷积自编码器编码器可以在提高提取特征效果的同时控制计算成本的增长,推动模型性能的进一步提升。通过实验验证,我们的方法在预测的circRNA和疾病关联分数前20的关联中,有16种得到了文献验证,这也足以证明我们的方法可以为生物实验提供可靠的验证对象。
附图说明
图1为本发明实施例1的总流程图。
图2为本发明实施例1的AANE算法流程图。
图3为本发明实施例1的DCAEs算法流程图。
图4为本发明实施例1不同分类器的ROC曲线图
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
本实施例公开了一种环状RNA和疾病关联预测方法,其数学模型全部基于PyTorch和Python及其辅助库编写,请参照图1,具体步骤如下。
步骤1:数据组织
从公共数据库获取已知的circRNA和疾病关联信息、circRNA表达谱数据、疾病语义相似度信息形成原始数据集,本实施例中将以数据circR2Disease数据集为基准数据集,进行完成的多源数据的融合过程以及特征提取过程,但应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定单一特例数据集。circR2Disease数据集是包含circRNA和疾病关联最全的数据集,最新的circR2Disease数据库包含661个circR2Disease、100个疾病和739个circRNA和疾病关联,本发明以circR2Disease的739个已确认关联作为阳性样本,但是如果将其他未知关联都作为阴性样本,阴性样本的数量会远大于正样本的数量,并且数据集将变得非常不均匀,这可能导致结果具有欺骗性。因此,此处随机选择了739个未知关联作为负样本来平衡数据集(在661×100=66100个总关联中,有739个未知关联可以忽略不计),完成平衡数据集的构建。另外定义了一个m×n的邻接矩阵AM,其中m是circRNA的个数,取值为661,n是疾病的个数,取值为100,AM存储circRNA与疾病的关联信息。如果AM(i,j)=1,则表示circRNA c(i)与疾病d(j)相关联,否则AM(i,j)=0。
步骤2:数据融合
在从MeSH数据库、exoRBase数据库以及circR2Disease数据集中所需要的生物学信息提取出来后,根据circRNA和疾病的关联邻接矩阵等信息计算出疾病语义相似度、疾病和circRNA的Jaccard相似度和GIP以及circRNA表达谱相似度,并按照不同疾病之间是否有语义相似性和不同circRNA之间是否有表达谱数据来进行不同方式的融合,最后通过矩阵拼接和归一化操作融合数据形成统一的融合标识符。
MeSH数据库是我们疾病语义相似度的主要信息来源,circR2Disease数据集中的疾病并未全部包含在MeSH中,导致疾病相似度信息无法全面表达,因此引入使用高斯交互轮廓核相似度来细化疾病相似度信息。高斯交互轮廓核相似度依赖于以下假设:如果circRNA C1与疾病D1相关,那么与D1相似的疾病也倾向于具有与C1功能相似的circRNA,反之亦然。疾病d(i)和疾病d(j)的疾病高斯交互轮廓核相似度为:
GD(d(i),d(j))=exp(-μ‖V(d(i))-V(d(j))‖2)
同理可得circRNA之间的高斯交互轮廓核相似度。
在本实施例中,提出以下方法计算步骤2中各类相似度矩阵。
步骤2.1:疾病语义相似度的计算
根据MeSH数据库中的疾病有向无环图,如果疾病e与疾病d有关联,那么疾病e对于疾病d的贡献有如下公式:
e′表示疾病e的关联疾病,μ=0.5表示疾病贡献因子,计算疾病的语义价值Nd表示(),在日常事物中,越是具有相同特征的两个事物,我们认为它们越相似,我们假设这个思想也适用于疾病,所以可以确定疾病d(i)和疾病d(j)疾病语义相似度DSS1(d(i),d(j))
仅使用疾病语义相似度DSS1(d(i),d(j))并不能涵盖疾病之间联系的全部情况,还应考虑疾病编号对疾病贡献的影响,采用下式计算疾病e在疾病数量影响下的贡献
其中,num(DAGd(e))是指与疾病d相关的疾病数量,num(diseases)指所有疾病的个数;
得到疾病d(i)和疾病d(j)的疾病语义相似度DSS2(d(i),d(j))
步骤2.2:circRNA表达谱相似度的计算
将带有表达谱数据的circRNA表示为一个32维的特征向量,并使用降序的方法对不同circRNA的表达谱数据进行重新排序,使用Spearman相关系数
步骤2.3:Jaccard相似度计算
J(A,B)是A和B的交集大小与A和B的并集大小之比,Jaccard值越大,相似度越大,反之越低。将Jaccard加入到数据融合可以挖掘疾病与circRNA的相似性,更全面地了解circR2Disease数据集的信息并充分利用它。对于疾病Jaccard模型,使用以下公式计算疾病d(i)和疾病d(j)的Jaccard相似度:
其中,CA(d(i))是指与疾病d(i)相关的circRNA组;
同理可以推断出circRNA的Jaccard相似模型JC(c(i),c(j))。
步骤2.4:融合
将疾病相似性多源信息DS和疾病Jaccard相似度JD进行拼接形成疾病相似度模型DM=[DS,JD],其中,DS通过以下公式计算:
其中GD是疾病高斯交互表达谱相似度矩阵;
将circRNA相似性多源信息CS和circRNA Jaccard相似度JC进行拼接形成circRNA相似度模型CM=[CS,JC],CS通过以下公式计算:
其中GC是circRNA高斯交互表达谱相似度矩阵;
融合过程中,使用PCA降维归一化得到融合标识符FM(c(i),d(i))
FM(c(i),d(j))=[CM(c(i)),DM(d(j))]
其中,CM(c(i))表示CM的第i行向量,DM(d(j))表示DM的第j列向量。
步骤3:特征提取
在融合形成统一的融合标识符后,将融合标识符通过AANE和DCAEs组成的深度学习模型之中,提取融合标识符的低维特征和深层特征,AANE通过特定的损失函数,当损失函数的值达到设定值后,即完成训练和提取,DCAEs则使用MSE作为损失函数并通过Adadelta算法对模型参数和网络结构进行优化。
AANE算法流程请参照图2,对于网络N=(V,E,W),V为N中的节点集,W为N中的边集,W中的边eij表示连接节点i和节点的边j,其大小与两个节点之间的相似度密切相关,如果eij的值较大,则节点i与节点j更相似;根据实对称矩阵可以正交相似对角化的推论,可以得到如下公式:
A=HΛHT=HB2HT=HBHTHBHT=(HBHT)(HBHT)T=UUT
其中A指的是半定对称矩阵,A可以用一个正交矩阵H和一个对角矩阵Λ来表示,B是定义的新矩阵,即Λ中的元素,应用该算法时,只需给出待输入的属性矩阵A,通过余弦相似度计算相似度矩阵S,可以推出:S=QQT;
在以下两种情况下,节点最有可能具有相似的向量表示,一种是拓扑更相似的节点,另一种是连接权重更高的节点,因此定义目标函数L如下:
其中,λ为平衡参数,F为为(),ωij为(),qi为(),qj为();
定义参数Z=Q,目标函数也可以写成如下形式:
q代表惩罚参数,ui是对偶变量的缩放数据;
使用乘法器的交替方向法解决目标函数的优化问题,在连续求导的情况下,使用如下迭代公式:
DCAEs算法流程请参照图3,在训练每一层的过程中,计算解码有的重构向量x'和输入向量x的损失函数,并将损失函数优化到设定值,重复这个动作直到所有层都训练完毕,编码公式如下:
y=subsampling(x)
解码的具体公式如下:
其中,πk是第k个线性函数的注意力权重,代表卷积操作,w和b是权重矩阵和偏置向量,g是激活函数,y是x的编码输出,是聚合权重,是聚合偏差;模型训练是否完成的标志是损失函数是否最小化,使用最小均方误差作为模型的损失函数,并在训练过程中使用Adadelta来优化网络和更新参数。
步骤4:分类器预测
将最终提取的特征放入随机森林分类器,对分类器进行训练,并优化关键的参数,优化完毕后,将测试集放入分类器进行circRNA和疾病的关联预测,并根据Rank排名,为生物学提供有效的关联信息。
随机森林的生成方法为:
S41)使用Bootstrap从有放回的N个样本集中随机选择N个样本,选取的N个样本作为决策树根节点的样本用于训练决策树;
S42)从样本的M个特征中随机选择m个特征,满足条件m<<M,然后从这m个特征中选择1个特征作为分割这个节点的特征;
S43)在形成决策树的过程中,每个节点都必须按照步骤S42进行分裂,直到不能再分裂,在整个决策树形成过程中不进行剪枝;
S44)按照步骤S41-S43构建多个决策树,形成随机森林。
步骤5:得到预测结果。
通过评估计算,本发明提出的基于图嵌入和动态卷积自编码器来预测circRNA和疾病关联的新型计算模型在circR2Disease数据集上使用5折交叉验证的AUC值0.928。Acc、Sen、F1和MCC的平均得分分别为0.9273、0.9165、0.8939和0.8261。与大多数模型的结果相我们的发明具有良好的预测性能,可以帮助预测潜在的circRNA和疾病关联。同时,为了进一步评测我们发明的性能,我们替换了不同的分类器并在其他数据集上也取得了好的实验效果,不同分类器的实验结果请参照图4,在最终的预测结果中我们的发明在预测的circRNA和疾病关联分数前20的关联中,有16种得到了文献和数据集验证,这也足以证明我们的发明可以为生物实验提供可靠的验证对象。
以上所述仅为本发明以circR2Disease数据集为基准数据集上的实施例而已,并不用以限制本发明,凡在本发明精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种环状RNA和疾病关联预测方法,其特征在于,包括以下步骤:
S1)数据组织
从公共数据库获取已知的circRNA和疾病关联信息、circRNA表达谱数据、疾病语义相似度信息形成原始数据集;
S2)数据融合
根据疾病语义相似度、circRNA表达谱数据以及circRNA和疾病的关联矩阵,计算出疾病语义相似度、疾病和circRNA的Jaccard相似度和GIP以及circRNA表达谱相似度,并按照不同疾病之间是否有语义相似性和不同circRNA之间是否有表达谱数据来进行融合,最后通过矩阵拼接和归一化操作融合数据形成统一的融合标识符;
S3)特征提取
通过AANE和DCAEs组成的深度学习模型提取融合标识符的低维特征和深层特征,AANE通过特定的损失函数,当损失函数的值达到设定值后,即完成训练和提取,DCAEs则使用MSE作为损失函数并通过Adadelta算法对模型参数和网络结构进行优化;
S4)分类器预测
将最终提取的特征放入随机森林分类器,对分类器进行训练,并优化关键的参数,优化完毕后,将测试集放入分类器进行circRNA和疾病的关联预测,并得到最后的预测分数矩阵。
2.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,步骤S2所述融合标识符的形成方法为:若疾病或者circRNA之间有语义相似度,对其最终的融合数据进行取平均值的运算;若没有,则取高斯交互核相似度来补充不同数据库之间的数据差异,最后将疾病和circRNA的融合相似度降维后进行拼接形成最后的融合标识符。
4.根据权利要求1所述的环状RNA和疾病关联预测方法,其特征在于,所述circRNA表达谱相似度的具体计算方式为:将带有表达谱数据的circRNA表示为一个32维的特征向量,并使用降序的方法对不同circRNA的表达谱数据进行重新排序,使用Spearman相关系数得到circRNA之间的表达谱相似性。
6.根据权利要求3所述的环状RNA和疾病关联预测方法,其特征在于,所述融合方法的具体实现为:
将疾病相似性多源信息DS和疾病Jaccard相似度JD进行拼接形成疾病相似度模型DM=[DS,JD];
将circRNA相似性多源信息CS和circRNA Jaccard相似度JC进行拼接形成circRNA相似度模型CM=[CS,JC];
融合过程中,使用PCA降维归一化后将CM与DM进行拼接后得到融合标识符FM(c(i),d(i))
FM(c(i),d(j))=[CM(c(i)),DM(d(j))]
其中,CM(c(i))表示CM的第i行向量,DM(d(j))表示DM的第j列向量。
7.根据权利要求2所述的环状RNA和疾病关联预测方法,其特征在于通过AANE算法,得到与余弦相似度矩阵差值最小的图嵌入表达矩阵,所得到的图嵌入表达矩阵即为低维特征,所述AANE提取低维特征的步骤包括:
对于网络N=(V,E,W),V为N中的节点集,W为N中的边集,E为边所代表值的集合,W中的边eij表示连接节点i和节点j的边,其大小与两个节点之间的相似度密切相关,如果eij的值较大,则节点i与节点j更相似;根据实对称矩阵可以正交相似对角化的推论,可以得到如下公式:
A=HΛHT=HB2HT=HBHTHBHT=(HBHT)(HBHT)T=UUT
其中A指的是半定对称矩阵,A可以用一个正交矩阵H和一个对角矩阵Λ来表示,B是定义的新矩阵,即Λ中的元素,应用该算法时,只需给出待输入的属性矩阵A,通过余弦相似度计算相似度矩阵S,可以推出:S=QQT,其中Q表示图嵌入表达矩阵;
在以下两种情况下,节点最有可能具有相似的向量表示,一种是拓扑更相似的节点,另一种是连接权重更高的节点,因此定义目标函数L如下:
其中,λ为平衡参数,F表示为二重范数,ωij为节点i与节点j的边的值,qi为节点i的数据,qj为节点j的数据;
定义参数Z=Q,目标函数也可以写成如下形式:
ρ代表惩罚参数,ui是对偶变量的缩放数据;zi为Z中第i个节点的数据,通过降低的zi和qi的差值,得到最优的Z;
使用乘法器的交替方向法解决目标函数的优化问题,在连续求导的情况下,使用如下迭代公式:
其中t表示第t次迭代,si表示余弦相似度矩阵中的值,I是固定参数,从1开始增加,每次迭代I+1。
8.根据权利要求2所述的环状RNA和疾病关联预测方法,其特征在于,所述对模型参数和网络结构进行优化的步骤为:
在训练每一层的过程中,计算解码有的重构向量x'和输入向量x的损失函数,并将损失函数优化到设定值,重复这个动作直到所有层都训练完毕,编码公式如下:
y=subsampling(t)
其中t为通过动态卷积编码后得到的中间值,解码的具体公式如下:
9.根据权利要求2所述的环状RNA和疾病关联预测方法,其特征在于,所述随机森林的生成方法为:
S41)使用Bootstrap从有放回的C个样本集中随机选择c个样本,选取的c个样本作为决策树根节点的样本用于训练决策树;
S42)从样本的M个特征中随机选择m个特征,满足条件m<<M,然后从这m个特征中选择1个特征作为分割这个节点的特征;
S43)在形成决策树的过程中,每个节点都必须按照步骤S42进行分裂,直到不能再分裂,在整个决策树形成过程中不进行剪枝;
S44)按照步骤S41-S43构建多个决策树,形成随机森林。
10.根据权利要求1-9任一所述的环状RNA和疾病关联预测方法,其特征在于,基于PyTorch和Python及其辅助库编写。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211444545.2A CN115995293A (zh) | 2022-11-18 | 2022-11-18 | 一种环状rna和疾病关联预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211444545.2A CN115995293A (zh) | 2022-11-18 | 2022-11-18 | 一种环状rna和疾病关联预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115995293A true CN115995293A (zh) | 2023-04-21 |
Family
ID=85994480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211444545.2A Pending CN115995293A (zh) | 2022-11-18 | 2022-11-18 | 一种环状rna和疾病关联预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115995293A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012382A (zh) * | 2023-05-22 | 2023-11-07 | 东北林业大学 | 基于深度特征融合的疾病相关circRNA预测系统 |
CN117393143A (zh) * | 2023-10-11 | 2024-01-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于图表示学习的环状rna-疾病关联预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400600A (zh) * | 2019-08-01 | 2019-11-01 | 枣庄学院 | 一种基于旋转森林算法的miRNA-疾病相关性预测方法 |
CN110428899A (zh) * | 2019-08-02 | 2019-11-08 | 陕西师范大学 | 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法 |
CN113178232A (zh) * | 2021-05-06 | 2021-07-27 | 中南林业科技大学 | 一种circRNA和疾病关联关系的高效预测方法 |
CN113241115A (zh) * | 2021-03-26 | 2021-08-10 | 广东工业大学 | 一种基于深度矩阵分解的环状rna疾病关联预测方法 |
CN113409892A (zh) * | 2021-05-13 | 2021-09-17 | 西安电子科技大学 | 基于图神经网络的miRNA-疾病关联关系预测方法 |
CN114613438A (zh) * | 2022-03-08 | 2022-06-10 | 电子科技大学 | 一种miRNA与疾病的关联预测方法及系统 |
-
2022
- 2022-11-18 CN CN202211444545.2A patent/CN115995293A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400600A (zh) * | 2019-08-01 | 2019-11-01 | 枣庄学院 | 一种基于旋转森林算法的miRNA-疾病相关性预测方法 |
CN110428899A (zh) * | 2019-08-02 | 2019-11-08 | 陕西师范大学 | 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法 |
CN113241115A (zh) * | 2021-03-26 | 2021-08-10 | 广东工业大学 | 一种基于深度矩阵分解的环状rna疾病关联预测方法 |
CN113178232A (zh) * | 2021-05-06 | 2021-07-27 | 中南林业科技大学 | 一种circRNA和疾病关联关系的高效预测方法 |
CN113409892A (zh) * | 2021-05-13 | 2021-09-17 | 西安电子科技大学 | 基于图神经网络的miRNA-疾病关联关系预测方法 |
CN114613438A (zh) * | 2022-03-08 | 2022-06-10 | 电子科技大学 | 一种miRNA与疾病的关联预测方法及系统 |
Non-Patent Citations (2)
Title |
---|
JING YANG等: "Predicting circRNA-disease associations based on autoencoder and graph embedding", 《INFORMATION SCIENCES》, 24 April 2021 (2021-04-24), pages 323 - 336, XP086726264, DOI: 10.1016/j.ins.2021.04.073 * |
方增强: "基于机器学习的circRNA和疾病关联关系预测", 《中国优秀硕士学位论文全文数据库基础科学辑》, 15 April 2022 (2022-04-15), pages 006 - 313 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012382A (zh) * | 2023-05-22 | 2023-11-07 | 东北林业大学 | 基于深度特征融合的疾病相关circRNA预测系统 |
CN117393143A (zh) * | 2023-10-11 | 2024-01-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于图表示学习的环状rna-疾病关联预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A return-cost-based binary firefly algorithm for feature selection | |
Chicco et al. | Deep autoencoder neural networks for gene ontology annotation predictions | |
CN113705772A (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
Buscema et al. | Training with input selection and testing (TWIST) algorithm: a significant advance in pattern recognition performance of machine learning | |
CN115995293A (zh) | 一种环状rna和疾病关联预测方法 | |
CN112070277A (zh) | 基于超图神经网络的药物-标靶相互作用预测方法 | |
CN111429977B (zh) | 一种新的基于图结构注意力的分子相似性搜索算法 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN113241115A (zh) | 一种基于深度矩阵分解的环状rna疾病关联预测方法 | |
Chen et al. | Binarized neural architecture search for efficient object recognition | |
CN115019891B (zh) | 一种基于半监督图神经网络的个体驱动基因预测方法 | |
Diallo et al. | Auto-attention mechanism for multi-view deep embedding clustering | |
CN116403730A (zh) | 一种基于图神经网络的药物相互作用预测方法及系统 | |
CN115422369B (zh) | 基于改进TextRank的知识图谱补全方法和装置 | |
Özbakır et al. | A soft computing-based approach for integrated training and rule extraction from artificial neural networks: DIFACONN-miner | |
CN115952424A (zh) | 一种基于多视图结构的图卷积神经网络聚类方法 | |
Liu et al. | Scaling up probabilistic circuits by latent variable distillation | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
Yan et al. | A review about RNA–protein-binding sites prediction based on deep learning | |
Ji et al. | Predicting miRNA-disease associations based on heterogeneous graph attention networks | |
CN114141361A (zh) | 基于症状术语映射与深度学习的中医处方推荐方法 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
Jiang et al. | A kernel-based intuitionistic weight fuzzy k-modes algorithm using coupled chained P system combines DNA genetic rules for categorical data | |
CN117393049A (zh) | 一种基于随机扰动和多视图图卷积网络的circRNA-疾病关联预测模型 | |
CN117150041A (zh) | 一种基于强化学习的小样本知识图谱补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |