CN115798730A - 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 - Google Patents

基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 Download PDF

Info

Publication number
CN115798730A
CN115798730A CN202211472734.0A CN202211472734A CN115798730A CN 115798730 A CN115798730 A CN 115798730A CN 202211472734 A CN202211472734 A CN 202211472734A CN 115798730 A CN115798730 A CN 115798730A
Authority
CN
China
Prior art keywords
disease
network
circular rna
mirna
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211472734.0A
Other languages
English (en)
Inventor
卢诚谦
王建新
段桂华
张立身
曾敏
兰伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202211472734.0A priority Critical patent/CN115798730A/zh
Publication of CN115798730A publication Critical patent/CN115798730A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于带权图注意力和异构图神经网络的环状RNA‑疾病关联预测方法、设备和介质,方法:获取数据确定相似性分别构建环状RNA网络、miRNA网络和疾病网络;基于节点初始特征,及网络内部节点间的连接权重,采用带权图注意力机制,分别从环状RNA网络、miRNA网络和疾病网络中提取节点特征;将环状RNA、miRNA和疾病分别作为3种异构节点,根据不同类型节点间的关联建立3种异构边,构建多源异质网络;采用异构图神经网络模型,提取多源异质网络各节点的聚合特征;基于聚合特征预测多源异质网络中潜藏的环状RNA‑疾病关联。本发明有效预测多源数据中潜藏的元路径,提高模型的精准度,且具有稳定的预测性能。

Description

基于带权图注意力和异构图神经网络的环状RNA-疾病关联预 测方法、设备和介质
技术领域
本发明涉及生物信息学领域,涉及基于带权图注意力和异构图神经网络的环状RNA-疾病关联预测方法。
背景技术
ENCODE计划发现人类基因组98%的转录产物为非编码RNA,而环状RNA是其中一类结构独特的内源性非编码RNA。环状RNA在多项生命活动中发挥着重要的生物功能,并在不同组织和疾病中检测出环状RNA与多种人类疾病的发生和发展密切相关,如神经系统疾病、心脑血管疾病和糖尿病等。例如:帕金森疾病中富集大量的α-突触核蛋白,CDR1as可以下调用来抑制α-突触核蛋白的miR-7。比线性RNA更加稳定的结构、组织特异性表达和高度保守性,使环状RNA具有成为疾病诊断生物标志物的巨大潜力。例如:在外泌体和体液中可以检测到环状RNA,即在外周血和尿液中可以检测到环状RNA。环状RNA与疾病相关性的研究不仅可以在环状RNA水平上更好地理解生命活动的基本机制,也可以有助于疾病的诊断、治疗以及预后。
随着精准医学研究的深入,越来越多的证据表明单一组学分析在解析环状RNA功能和与疾病之间的相关性有较大的局限性。例如,环状RNA通过调节多种生物分子完成其生物功能,并且与疾病通过多层次的分子调节产生关联。因此,不能仅从单方面的数据挖掘其环状RNA独特的生物功能,从而发现它与疾病的潜在联系。然而,测序技术和高通量技术的飞速发展促进了多个层面的生物数据的产生,如:基因组、表观遗传组、转录组和代谢组等。多源数据整合分析比单源数据分析的简单叠加具有更丰富的内涵。多源数据整合有效地帮助数据科学家发现异构性数据背后的共同机制模式,从而更完整、更准确地解析生命科学规律,加深对生命过程的理解并建立更准确的量化模型。
由于传统的生物验证方法需要花费巨大的时间和人力成本,因此采用计算方法可以高效地预测环状RNA与疾病的关联关系。依据预测环状RNA与疾病关联方法的计算模型,大致可以分为3类:
1)基于网络传播算法。Fan等人通过已知环状RNA与疾病关联关系计算环状RNA的高斯交互谱核相似性和疾病高斯谱核相似性,然后结合环状RNA表达相似性和疾病的表型相似性,融合环状RNA网络、疾病网络和环状RNA-疾病关联网络,采用KATZ方法计算异构网络中环状RNA与疾病关联的概率值。Lei等人依据已知环状RNA疾病关联关系计算环状RNA和疾病的高斯交互谱相似性,并根据疾病基因关系计算疾病功能相似性,依靠环状RNA基因关联以及基因本体信息计算环状RNA语义相似性,融合疾病相似性网络、环状RNA相似性网络和环状RNA疾病关联网络,最后采用基于图的路径算法预测环状RNA与疾病关联的概率值。
2)基于机器学习算法。Yan等人根据已知环状RNA和疾病的关联计算环状RNA和疾病高斯交互谱相似性,整合疾病语义相似性,最后使用克罗内克积内核方法预测环状RNA疾病关联关系。该方法采用克罗内克内积将环状RNA和疾病的核线性地连接起来,其模型的表达能力不足。Wang等人考虑到环状RNA表达相似性、环状RNA功能相似性、疾病相似性,设计了一种基于图的推荐算法。Zheng等人提出了一种基于SVM的分类模型,使用环状RNA基因、环状RNA序列、已知的环状RNA疾病关联。Li等人基于环状RNA序列、疾病语义信息和环状RNA和疾病的高斯交互谱核,采用提矩阵填充模型预测候选关联。该类模型过度依赖相应的专业知识手动设计特征,导致模型的性能差异较大且不够稳定。
3)基于神经网络模型。Lu等人基于环状RNA和疾病的高斯交互谱中的关联模式,使用非线性的神经网络来代替矩阵分解方法的线性近似,进一步发掘模型的拟合能力。Wang等人融合疾病语义相似性、疾病高斯交互谱核相似性、环状RNA高斯交互谱核相似性,然后使用卷积神经网络抽取潜在特征,采用极限学习作为分离器对潜在环状RNA-疾病关联进行分类。Lu等人通过k-mer对环状RNA序列进行编码,采用无监督模型学习序列的k-mer特征,从疾病的语义结构树中学习疾病本体嵌入,BiLSTM将具有上下语境关联的特征连接从而完成环状RNA-疾病的关联预测。该类模型在针对多种类型的数据时,无法有效地融合多源数据的特征。
4)基于图神经网络模型。Mudiyanselage等人将环状RNA序列相似性和环状RNA、疾病高斯谱相似性用来构建的异构网络,在此网络上使用图卷积网络学习节点特征并预测潜在环状RNA-疾病关联。Lan等人将环状RNA、miRNA、lncRNA之间的多源关联关系整合构建多类型数据的异构网络,采用图注意力神经网络学习相应的节点特征并预测潜在的环状RNA-疾病关联关系。该类模型将多种不同源的数据整合构建异构多源网络,但并未对不同类型数据进行区分。
综上所述,在发现潜藏的环状RNA-疾病关联时,有效发掘多源数据不同类型节点的本质特征和充分利用多源数据的一致性将至关重要。然而,目前已知的预测环状RNA-疾病关联的方法,过度依赖专家知识无法有效利用多源数据蕴含的生物知识。
发明内容
针对当前预测环状RNA与疾病关联关系方法缺乏对多源数据特有特征的提取以及忽略不同源数据致病程度的不同,本发明提供一种基于带权图注意力和异构图神经网络的环状RNA-疾病关联预测方法,有效预测多源数据中潜藏的元路径,有效提高了模型的精准度,而且具有更加稳定的预测性能。
为实现上述技术目的,本发明采用如下技术方案:
一种基于带权图注意力和异构图神经网络的环状RNA-疾病关联预测方法,包括:
步骤1,依据已知的环状RNA-疾病关联、miRNA-miRNA相似性和疾病-基因数据,分别构建带权重的环状RNA网络、miRNA网络和疾病网络;
步骤2,基于环状RNA、miRNA和疾病各自的初始特征,以及环状RNA网络、miRNA网络和疾病网络的节点之间的连接权重,采用带权图注意力机制,分别从环状RNA网络、miRNA网络和疾病网络中提取每个环状RNA、miRNA和疾病节点的特征;
步骤3,将环状RNA、miRNA和疾病分别作为3种不同类型的节点,将提取的节点特征作为节点表示,根据已知的环状RNA-miRNA关联、miRNA-疾病关联和环状RNA-疾病关联建立3种不同类型的边,构建多源异质网络;
步骤4,采用异构图神经网络模型,对多源异质网络中不同类型的边分配不同的注意力权重,并学习多源异质网络中元路径的上下文信息,得到多源异质网络中各节点的聚合特征;
步骤5,使用已知关联关系的环状RNA和疾病的聚合特征作为样本,训练关联预测分类器,根据环状RNA和疾病节点的聚合特征,使用关联预测分类器网络,预测多源异质网络中未知的环状RNA-疾病之间的关联关系。
进一步地,依据已知的环状RNA-疾病关联构建环状RNA网络的方法为:从数据库获取环状RNA-疾病关联数据,计算不同环状RNA之间的高斯交互谱核相似性;以环状RNA为节点、不同环状RNA之间的高斯交互谱核相似性为节点之间的连接权重,构建带权重的环状RNA网络;
依据已知的miRNA-miRNA相似性构建miRNA网络的方法为:从数据库下载miRNA的功能关系,使用Z-score归一化对功能关系数据进行归一化并用作miRNA之间的相似性;以miRNA为节点、不同miRNA之间的相似性为节点之间的连接权重,构建带权重的miRNA网络;
依据已知的疾病-基因构建疾病网络的方法为:从数据库下载基因-疾病数据,得到基因与疾病之间的关联概率;然后,基于关联概率计算不同疾病之间的相似性;再以疾病为节点、不同疾病之间的相似性为节点之间的连接权重,构建带权重的疾病网络。
进一步地,高斯交互谱核相似性的计算式为:
Figure BDA0003954658570000031
Figure BDA0003954658570000041
其中,ci和cj分别表示环状RNAi和环状RNAj;Sim(ci,cj)表示环状RNAi和环状RNAj之间的高斯交互谱核相似性;nc表示环状RNA的总数;GIP(ci)表示ci的交互谱,即环状RNA-疾病关联矩阵A中第i的行向量;
Figure BDA0003954658570000042
为所有环状RNA交互谱的均值,用来控制高斯核的宽度。
进一步地,不同疾病之间的相似性计算方法为:
Figure BDA0003954658570000043
其中,Sim(di,dj)表示疾病di和疾病dj之间的相似性;
Figure BDA0003954658570000044
是与疾病di存在关联的基因集,
Figure BDA0003954658570000045
是与疾病dj存在关联的基因集,v和u表示符合条件的基因,P(·,·)表示基因与疾病之间的关联概率。
进一步地,提取环状RNA的初始特征的方法为:使用k-mer的方式对每个环状RNA的序列进行编码,然后使用浅层模型Doc2Vec学习编码序列中的k-mer连续词向量,作为环状RNA的初始特征;
提取miRNA初始特征的方法为:从已知的miRNA-疾病关联数据中抽取miRNA的关联向量,作为miRNA的初始特征;
提取疾病的初始特征的方法为:从疾病的医学词库中获取疾病的语言定义描述,然后用Doc2Vec获取定义中包含的语言描述向量,再将获得的本体向量和描述向量连接作为疾病的初始特征。
进一步地,采用带权图注意力机制聚合环状RNA网络的拓扑结构上相邻节点特征,同时考虑相邻节点的边权重信息,得到环状RNA网络中各环状RNA节点的独有特征;采用相同的方法获得miRNA网络中各miRNA节点的独有特征和疾病网络中各疾病节点的独有特征;具体地:
hi=Wxi
Figure BDA0003954658570000046
Figure BDA0003954658570000047
Figure BDA0003954658570000051
式中,xi表示带权图注意力机制层输入的第i个节点的特征,W表示带权图注意力机制层的线性变换矩阵,hi、hj表示带权图注意力机制层对节点特征xi、xj线性变换得到的特征,
Figure BDA0003954658570000052
表示带权图注意力机制层共享的可学习的权重,We表示所有层共享的可学习参数,LeakyReLU为激活函数,eij表示带权图注意力机制层对节点i的特征进行聚合时生成的邻居节点j对节点i的注意力分数;ωij表示在环状RNA网络、miRNA网络或疾病网络中,节点j与节点i之间的连接权重;N(i)表示节点i的邻居节点集合;αij表示eij归一化后得到的注意力系数;M表示带权图注意力机制层采用的多头数量,
Figure BDA0003954658570000053
表示第m头注意力得到的注意力系数,Wm表示第m头注意力下的线性变换矩阵,σ()表示ReLU非线性激活函数;zi表示带权图注意力机制层对节点i聚合其相邻节点特征且同时考虑相邻节点边权重信息后得到的特征。
进一步地,步骤4具体为:异构图神经网络的架构包括Graph Transformer层、卷积层和多头注意力机制层,通过Graph Transformer层对多源异质网络中表示各种边类型的邻接矩阵进行聚合得到新的邻接矩阵,即生成新的异构边;然后对多源异质网络中的节点,通过多头注意力机制层聚合其相邻节点的特征且考虑连接边的注意力权重,得到节点的聚合特征。
一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项所述的基于带权图注意力和异构图神经网络的环状RNA-疾病关联预测方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的基于带权图注意力和异构图神经网络的环状RNA-疾病关联预测方法。
有益效果
本发明分别建立环状RNA、miRNA和疾病相似网络,设计带权图注意力机制提取环状RNA、miRNA和疾病的独有特征,依据多源关联信息融合建立多源异质网络,并采用异构图神经网络对不同类型的边分配不同的注意力权重,并学习异质网络中元路径的上下文信息,从而预测环状RNA-疾病关联。该方法有效提高了模型的精准度,且具有更加稳定的预测性能。同时多源数据的引入使得本发明可以进一步探索环状RNA-miRNA-疾病的调控路径,有助于揭示更加具体和详细的生物调控路径。
附图说明
图1本发明所述基于带权图注意力和异构图神经网络的环状RNA-疾病关联预测方法(CDHGNN)流程图;
图2网络节点维度测试;
图3各类网络注意力分值变化情况
图4数据集1上的异质网络的网络分析
图5数据集2上的异质网络的网络分析
图6CDHGNN与其他方法比较的AUC曲线图;
图7预测结果Top10-Top40关联准确度的比较;
图8Acute kidney injury的KEGG调控分析。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本实施例提供一种基于带权图注意力和异构图神经网络的环状RNA-疾病关联预测方法,具体实现过程如下:
一、构建环状RNA网络、miRNA网络和疾病网络
1.环状RNA网络构建
分别从两个标准数据库MNDR 3.0和CircFunBase中获取环状RNA-疾病关联数据,计算环状RNA高斯交互谱核相似性,并在此基础上建立环状RNA网络。
已知的环状RNA-疾病关联可用关联矩阵A∈Rnc×nd阵表示,则第i行的向量可表示为环状RNA i与疾病之间的关联模式。通过任意两个环状RNA与疾病的交互模式,计算任意两个环状RNA之间高斯交互谱核相似性,公式定义如下:
Figure BDA0003954658570000061
Figure BDA0003954658570000062
其中,ci和cj分别表示环状RNAi和环状RNAj;nc表示环状RNA的总数;GIP(ci)表示ci的交互谱,即关联矩阵A中第i的行向量;
Figure BDA0003954658570000063
用来控制高斯核的宽度。
从公式定义中,可得交互模式越相似的两个环状RNA,它们之间的高斯交互谱核相似性越大。用计算好的环状RNA相似性构建带权重的环状RNA网络。
2.MiRNA网络构建
为了构建miRNA功能相似性网络,从数据库MISIM v2.0下载miRNA的功能关系。为了使得相似性的值具有相同的尺度,使用Z-score归一化对数据进行归一化,并将其用作miRNA之间的功能相似性,并用归一化后的miRNA相似性构建带权重的miRNA网络。
3.疾病网络的构建
为了构建疾病网络,从数据库DisGeNET下载基因-疾病数据,得到基因与疾病之间的关联概率。然后,计算疾病i和疾病j之间的疾病相似性,并作为疾病节点间的权重构建疾病网络。疾病间的相似性计算如下:
Figure BDA0003954658570000071
其中,Sim(di,dj)表示疾病di和疾病dj之间的疾病相似性;
Figure BDA0003954658570000072
是与疾病di存在关联的基因集,
Figure BDA0003954658570000073
是与疾病dj存在关联的基因集,P(·,·)表示基因与疾病之间的关联概率。
二、提取环状RNA、miRNA和疾病特征
环状RNA与疾病关联的数据为非欧几里得结构数据,采用成功应用的图神经网络方法提取数据节点特征。在生物分子发挥其功能时每个生物分子所起到的作用是不同,因此需要对不同的分子分配不同权重。综上,图注意力网络(GAT)成为当前自动分配节点权重,从而聚合获取节点特征成为重要手段。
GAT是一种对图形结构数据进行操作的神经网络架构,每层中节点参与其邻居特征的生成,将这些层堆叠后利用掩码的自我注意层来解决基于图形卷积问题。GAT的输入层是节点的初始特征
Figure BDA0003954658570000074
其中n是网络中节点的个数,f表示每个节点的特征维度,
Figure BDA0003954658570000075
表示第i个节点的特征。为了获得足够的表达能力将输入特征转化为更高层次的特征,至少需要一个可学习的线性变换。作为初始步骤,共享线性变换:
Figure BDA0003954658570000076
其中W∈Rf'×f,这个W作用于每一个点。将第l层节点i和其邻居j节点的特征连接到一起后,通过运用一个共享的可学习的权重a:Rf′×Rf′→R来节点i和节点j之间的成对注意力分数,过程如下:
Figure BDA0003954658570000077
节点i与节点j之间的关联性通过他们之间边的权重ωij反映出来,其会影响聚合节点生成特征,因此设计将边权重引入成对注意力分数的生成过程,计算公式如下:
Figure BDA0003954658570000081
其中We是所有层共享的学习可学习参数。
使用掩码注意力机制将图的结构插入到模型中,并使用softmax函数对节点i的所有邻居节点j进行归一化,得到注意力系数:
Figure BDA0003954658570000082
采用多头注意力聚合将邻居的嵌入同时聚合在一起,公式如下:
Figure BDA0003954658570000083
采用相同的方法使用图注意力神经网络,分别从构建的环状RNA网络、miRNA网络和疾病网络中提取环状RNA、miRNA和疾病的节点特征。
另外,由于图注意力神经网络需要输入节点的初始特征,于是针对每种类型的节点生成相应的初始节点特征。
非编码RNA不是一个一个碱基表达功能,而是由连续的RNA片段发挥功能。分析序列的一种常用方法是将它们分成所谓的k-mer,指的是长度为k的子序列。例如,RNA序列的4聚体是AAAA,AAAC,……UUUU。K-mer表示法广泛应用于预测RNA-蛋白质结合位点。针对环状RNA,首先使用k-mer的方式对数据库中所有circRNA的序列进行编码,将环状RNA的序列中存在的功能片段发掘出来。其具体采用是连续编码的形式,保留k-mer之间上下语境关系。环状RNA序列长度的方差较大,为了学习每条序列的k-mer连续词向量,本实施例使用浅层模型Doc2Vec,具体内容如下:
Context(w,seq)=[w(seq),w(t-2),w(t-1),w(t+1),w(t+2)] (9)
Figure BDA0003954658570000084
其中,w代表每条序列中的词即k-mer,seq代表每条环状RNA的序列信息,corpus代表由所有环状RNA序列组成的词库,L表示损失函数。
因此,获取环状RNA序列的k-mer嵌入将其作为带权图注意力神经网络的初始特征,从而提取环状RNA的特征。
对于miRNA的初始特征,从数据库HMDD中获取已知的miRNA-疾病关联数据。这些关联数据反应的是miRNA与疾病之间的关联模式,从中抽取miRNA的关联向量作为带权图注意力神经网络的初始向量,进而提取miRNA的特征。
疾病本体旨在为生物医学界提供一致的、可重复使用的、可持续的人类疾病术语、表型特征和相关内容医学疾病概念词汇。疾病本体信息来源丰富,其中隐藏着重要的疾病相关信息。疾病本体信息以DAG的形式存储疾病之间的相互关系。每种疾病用一个DO术语表示,其在树中的结构表示其相应的系统描述,可视为相应的语句描述疾病的状态。通过对疾病i的语义树路径进行序列化,借助自然语言处理方法从而获取疾病本体的嵌入;与此同时,为了进一步获取更加准确的疾病特征向量,从疾病的UMLS Metathesaurus Browser的医学词库中获取疾病的语言定义描述,然后用Doc2Vec获取定义中包含的语言描述向量,再将获得的本体向量和描述向量连接作为疾病初始向量,并使用带权图注意力神经网络提取疾病的特征。
三、构建多源异质网络
异质网络中存在3种不同类型的节点:环状RNA、miRNA和疾病。与之对应的有3种不同类型的边:环状RNA-miRNA、环状RNA-疾病和miRNA-疾病。一个异质网络被定义为G=(V,E),其中V表示3种类型的网络节点环状RNA、miRNA和疾病,E表示3种不同类型的边:环状RNA-miRNA、环状RNA-疾病和miRNA-疾病。异质网络中有一个网络节点类型映射函数ψv:V→Tv和一个边的类型的映射函数
Figure BDA0003954658570000091
节点vi唯一映射到一种节点类型,如:
Figure BDA0003954658570000092
同理,边ei唯一映射到一种边类型,如:
Figure BDA0003954658570000093
当网络中边的类型大于1时,如:
Figure BDA0003954658570000094
时,则该网络为异质网络。利用多种类型的邻居矩阵
Figure BDA0003954658570000095
来构建异质网络,其中Ai∈RN×N,N=nc+nm+nd。异质网络中的一条元路径
Figure BDA0003954658570000096
是一条连接多种类型的路径,如:
Figure BDA0003954658570000097
其中
Figure BDA0003954658570000098
元路径
Figure BDA0003954658570000099
可采用邻接矩阵
Figure BDA00039546585700000910
乘法来表示,
Figure BDA00039546585700000911
其中
Figure BDA00039546585700000912
表示元路径中第i中边的类型的邻接矩阵。
四、使用异构图神经网络聚合多源异质网络中的节点特征
多源数据网络中包含多种类型的边,而这些边可以采用图来表示其复杂的数据结构,目前图神经网络已经成功应用于该类型的数据。但大多数图神经网络模型将这种包含多种类型数据的复杂网络视为同质网络,然而不同类型的数据对环状RNA参与致病过程的影响程度不同,因此同质网络的作法将损失掉不同数据源对环状RNA-疾病关联生成的相关信息。或者需要手动指定元路径,但需要领域的专业知识进行筛选。于是,采用异构图神经网络通过自动选择元路径,学习潜藏在多源数据中的环状RNA、miRNA和疾病之间潜在的关联。元路径的由多种类型不同类型的节点相互连接,即不同邻接矩阵相乘的过程。因此,构建一个GT(Graph Transformer)层,通过该层,从3个邻接矩阵中选出两个,并得到新的邻接矩阵即生成新的异构边,其中Q的计算公式为:
Q=F(A;Wφ)=φ(A;softmax(Wφ)) (11)
其中φ代表GT层中的卷积层,
Figure BDA00039546585700001011
代表卷积层φ的参数,Q是A与权重参数Wφ经过卷积得到,每个Qi采用
Figure BDA0003954658570000101
进行表示,其中
Figure BDA00039546585700001012
表示异构边的类型集合,
Figure BDA0003954658570000102
表示第tl种类型边在第l层的权重。
由此,元路径则可表示为:
Figure BDA0003954658570000103
GraphTransformer层,将两个邻接矩阵相乘得到的邻接矩阵泛化了,其中的值不再仅是0和1,也包括小数。表示两种类型的边相连的概率。且gt层进行了权值分配,表示对不同类型的给予不同权重。GT后会保留两种不同类型边关联的概率。
使用多头注意力机制,同时将多个节点的特征同时进行聚集,公式表示如下:
Figure BDA0003954658570000104
其中C表示多头注意力机制的通道个数,为了引入自身节点特征的影响
Figure BDA0003954658570000105
Figure BDA0003954658570000106
的度矩阵,I是单位矩阵,Wgt∈RF×F表示共享的可训练权重矩阵。五、关联预测分类
将异构图神经网络学习到的节点聚合特征后进行分类,分类预测训练方法为:
Figure BDA0003954658570000107
Figure BDA0003954658570000108
式中,fc,fd分别是从多源异质网络中提取到的环状RNA和疾病的聚合特征;W3,b3是关联预测分类器网络的权重和偏置参数;
Figure BDA0003954658570000109
是关联预测分类器网络基于聚合特征fc,fd的预测输出,
Figure BDA00039546585700001010
是聚合特征fc,fd对应的真实标签,Loss是关联预测分类器网络的损失函数值。
六、实验验证
1.实验数据
实验过程中主要用到以下数据:(1)环状RNA序列数据。由于环状RNA功能是由连续的RNA片段即k-mer来具体实施的,因此为了挖掘环状RNA中k-mer的嵌入,从CircBase数据库中检索环状RNA序列数据并获得约140,732条环状RNA序列;(2)miRNA功能相似性数据。为了构建miRNA网络,需要从MISIM v2.0数据库中获取miRNA的功能相似性,其中包括664个miRNA之间的功能关系。该相似性基于miRNA与疾病的正负相关、疾病语义以及miRNA与疾病之间的上调和下调关系等,融合与miRNA功能相关的多方面信息生成较为全面地miRNA功能相似性。(3)基因-疾病关联数据。从DisGeNET中下载基因-疾病关联,其中包括13,705个基因和1,977种疾病之间的262,989个关联。该数据通过规范化基因、变异体、疾病以及区块驱动的本体和可控词汇整合而成。(4)疾病本体数据。用于计算疾病本体嵌入的疾病本体语义树,从Diseas Ontology数据库下载疾病本体语义树,其中包含11,652个表型本体。(5)疾病定义描述。UMLS Metathesaurus Browser是一个按概念或含义组织的大型生物医学词库,它包含了来自200多个不同源词汇的同义词。从该数据库中,获取相关疾病的语言描述。(6)环状RNA-miRNA关联数据。从starBase数据库收集环状RNA-miRNA已知关联,其中包含886个环状RNA和638个miRNA之间的18,320条环状RNA-miRNA关联数据。(7)miRNA-疾病关联数据。从HMDD 3.0数据库收集生物实验验证的miRNA-疾病关联,其中包括1,054个miRNA和226种疾病之间的27,872条miRNA-疾病关联数据。(8)环状RNA-疾病关联。从MNDR 3.0数据库下载环状RNA-疾病关联数据,其中包括2,396种环状RNA和165种疾病之间的3,206条环状RNA-疾病关联。9)环状RNA-疾病关联数据集2包含2537个环状RNA和67种疾病组成的2900条环状RNA-疾病关联,来自CircFunBase数据库。
2.评价指标
为了验证本方法的有效性,本方法采用十倍交叉验证及De novo预测,测试MBiRW方法的预测性能。
(1)交叉验证方法
交叉验证是一种用于估计机器学习模型性能的统计方法,比其他方法具有更低的偏差。该方法将样本分为训练集和测试集,通过训练集的数据训练模型,然后利用测试集数据评估模型的性能。本方法中采用的是5-fold交叉方法,即将数据平均地划分成5份,其中4份作为训练集,剩下的1份作为测试集以此方式重复5次直到每份数据都轮流作过测试集,这种方法的优点是可以有效的避免过拟合和欠拟合。
受试者操作特征曲线(receiver operating characteristic,ROC)用来评估二元分类器在其区分阈值变化时的分类能力。该指标依据其不同区分阈值描述了真阳率(TPR,敏感性)和假阳率(FPR,1-特异性)的相互关系。TPR是指预测正确的正样本占全体正样本的比例。FPR是指预测错误的正样本占全体负样本的比例。预测值高于区分阈值时被判定为正样本,反之预测值低于区分阈值时被判定为负样本。TP指判定为正样本且本身就为正样本的个数,FP则指被判定为正样本但本身为负样本的个数,TN是指被判定为负样本且本身为负样本的个数,FN是指被判定为负样本但本身为正样本的个数。
Figure BDA0003954658570000121
Figure BDA0003954658570000122
计算ROC曲线下的面积(area under the curve,AUC)作为衡量模型性能的指标。
(2)其他评价指标
为了更加全面地对模型性能进行评估,本文还采用了其他几种评价指标主要包括精确率(Precision)、准确率(Accuracy)和F1-score。精确率是指被分类器预测为正样本的正确正样本比例。准确率是指总样本中分类正确样本所占的比例。F1-score是召回率(Recall)与精确率的调和平均值。公式具体如下:
Figure BDA0003954658570000123
Figure BDA0003954658570000124
Figure BDA0003954658570000125
3.网络节点维度测试
为了在构建的异质网络中学习元路径,需要为异构图神经网络提供节点表示。CDHGNN使用设计的边加权图注意力神经网络学习节点特征,并将三种类型的节点特征连接起来作为异质网络中的节点表示。节点维度是模型性能的关键因素。在数据集1和数据集2上进行交叉验证,以评估节点维度的影响,如图2所示。当环状RNA的节点维度从16增加到126时,miRNA维度从16增加64,疾病维度从16增加到128,模型的性能逐渐提高。当模型表现最好时,环状RNA的维度是128,miRNA的维度是64,疾病的维度是128。随着维度的不断增加,该特征引入的噪声会导致性能下降。将环状RNA、miRNA和疾病的维度分别设置为128、64和128。
4.各类网络注意力分值变化情况
为了添加元路径的不同类型边的上下文信息,使用注意力机制来为每种类型的边分配注意权值。在训练过程中,每种类型的边其权重的变化反映了该种数据对致病的重要性,在数据集1和数据集2上的测试情况如图3所示。CM代表环状RNA-miRNA关联。CD代表环状RNA-疾病关联。MD代表miRNA-疾病关联。在进行异构图神经网络聚合时为了考虑自身节点的影响,IM代表单位矩阵。从图中可以看出,CD关联分配的权重最高,意味着它对最终预测精度的影响最大。CM和MD对准确性也很重要。
5.异质网络的网络分析
为了分析数据集1和数据集2上构建的异质网络,对其度分布和节点的连通性进行了统计分析。图4(a),显示了数据集1上的网络的度分布情况。可知,该分布遵循幂律分布,表明网络中的大多数节点都链接到少数节点,而少数节点链接到大量节点。图4(b)显示了数据集1上的网络节点连通性。疾病节点的连通性高于其他两类节点,而circRNA节点的连通性最低,可知疾病节点与其他节点的关联更多,而环状RNA节点与其他节点的关联最少。数据集2上构建的异质网络如图5所示。
6.与其他方法的比较
为了评估CDHGNN的性能,将其与目前最先进的5种计算方法进行对比,包括KGANCDA、MGRCDA、CDASOR、GCNCDA和NSL2CD。为了公平合理的比较,所有模型都基于相同的基准数据集使用五倍交叉进行评估,并且参数是推荐的最佳参数。在数据集1上,可以看到CDHGNN以0.886的AUC值达到最佳性能,与KGANCDA、MGRCDA、CDASOR、GCNCDA和NSL2CD相比,分别获得了4.5%、4.1%、7.2%、9.8%和8.3%的改进。同时,其他指标也得到了改进,AUPR值为0.817,Accuracy值为0.824,Precision值为0.808,Recall值为0.814,F1-score为0.804。在数据集2上,CDHGNN优于其他方法,AUC值为0.896,AUPR值为0.823,Accuracy为0.831,Precision为0.819,Recall为0.823,F1-score为0.811。结果表明,CDHGNN提高了准确性和稳定性。两个数据集的详细AUC结果如图4示。在FPR相同的情况下更高TPR的值,这意味着CDHGNN的准确度更高。此外,比较了预测结果中Top10到Top40关联正确检索比,如图5示。CDHGNN可以检索到更多实验验证的circRNA-疾病关联
7.案例分析
在当前数据库和文献的基础上,通过对预测结果进行案例分析来评估模型的性能。经过已知验证的环状RNA-疾病关联的训练,使用模型来发掘潜在的环状RNA-疾病关联,并且分析了预测值最大的前20的计算结果准确度,如表1所示。Hsa_circ_0091702起源于液泡ATPse组装因子,通过调节miR-9-3p/SMG1/炎症和氧化应激来减轻与脓毒症相关的急性肾损伤。Circ-AKT3(hsa_circ_0000199)通过miR-144-5p/Wnt/β-catenin通路与急性肾损伤有关。CircFUT8(hsa_circ_0003028)海绵化miR-570-3p并调节miR-570-3p/KLF10轴作为膀胱癌的肿瘤抑制因子。Hsa_circ_0000515与miR-296-5p结合可激活膀胱癌的细胞生长。固定miR-200a-3p、外泌体介导的circ_UBE2D2(hsa_circ_0005728)转移增强了乳腺癌对他莫昔芬的耐药性。海绵状miR-532-3p、circRNA_103809(hsa_circ_0072088)可抑制乳腺癌的细胞增殖和转移。CircRNA_0001946(hsa_circ_0001946)参与miR-135a-5p/EMT轴,起到直肠癌细胞肿瘤启动子的作用。通过敲低和调节miR-296-5p/RUNX1轴来抑制结直肠癌细胞增殖,circ_0000512(hsa_circ_0000512)是一种很有前景的结直肠癌治疗靶点。Circ-RanGAP1(hsa_circ_0063526)通过介导miR-877-3p/VEGFA轴促进胃细胞发展。在胃癌中,与负调控环相关的hsa_circ_000487形成的hsa_circ_0004872/miR-224/Smad44/ADAR1作为肿瘤抑制因子发挥作用。作为miR-654-3p的内源性RNA,circRHOBTB3(hsa_circ_0006404)通过促进p21信号通路抑制胃癌的细胞生长。隔离miR-17,circ-ITCH(hsa_circ_0001141)在胃癌中通过Wnt/β-catenin信号通路作为肿瘤抑制因子发挥作用。海绵状miR-134-5p激活BTG-2表达,circZNF609(hsa_circ_0000615)抑制胶质瘤细胞的增殖和迁移。针对miR-520a-5p/CDK4调节轴,外泌体传播的hsa_circ_0014235激活了非小细胞肺癌的恶性发展。
表1.案例分析结果
Figure BDA0003954658570000141
此外,基于多源数据确定潜在的环状RNA-疾病关联,并且有利于探索circRNA-miRNA-疾病之间的关系。在预测的环状RNA-疾病关联中排名前20关系中,根据KEGG中的MicroRNA in cancer,进一步探索预测结果中与急性肾损伤相关的环状RNA的生物学调控途径,具体如图8示。

Claims (10)

1.一种基于带权图注意力和异构图神经网络的环状RNA-疾病关联预测方法,其特征在于,包括:
步骤1,依据已知的环状RNA-疾病关联、miRNA-miRNA相似性和疾病-基因数据,分别构建带权重的环状RNA网络、miRNA网络和疾病网络;
步骤2,基于环状RNA、miRNA和疾病各自的初始特征,以及环状RNA网络、miRNA网络和疾病网络的节点之间的连接权重,采用带权图注意力机制,分别从环状RNA网络、miRNA网络和疾病网络中提取每个环状RNA、miRNA和疾病节点的特征;
步骤3,将环状RNA、miRNA和疾病分别作为3种不同类型的节点,将提取的节点特征作为节点表示,根据已知的环状RNA-miRNA关联、miRNA-疾病关联和环状RNA-疾病关联建立3种不同类型的边,构建多源异质网络;
步骤4,采用异构图神经网络模型,对多源异质网络中不同类型的边分配不同的注意力权重,并学习多源异质网络中元路径的上下文信息,得到多源异质网络中各节点的聚合特征;
步骤5,使用已知关联关系的环状RNA和疾病的聚合特征作为样本,训练关联预测分类器,根据环状RNA和疾病节点的聚合特征,使用关联预测分类器网络,预测多源异质网络中未知的环状RNA-疾病之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,依据已知的环状RNA-疾病关联构建环状RNA网络的方法为:从数据库获取环状RNA-疾病关联数据,计算不同环状RNA之间的高斯交互谱核相似性;以环状RNA为节点、不同环状RNA之间的高斯交互谱核相似性为节点之间的连接权重,构建带权重的环状RNA网络;
依据已知的miRNA-miRNA相似性构建miRNA网络的方法为:从数据库下载miRNA的功能关系,使用Z-score归一化对功能关系数据进行归一化并用作miRNA之间的相似性;以miRNA为节点、不同miRNA之间的相似性为节点之间的连接权重,构建带权重的miRNA网络;
依据已知的疾病-基因构建疾病网络的方法为:从数据库下载基因-疾病数据,得到基因与疾病之间的关联概率;然后,基于关联概率计算不同疾病之间的相似性;再以疾病为节点、不同疾病之间的相似性为节点之间的连接权重,构建带权重的疾病网络。
3.根据权利要求2所述的方法,其特征在于,高斯交互谱核相似性的计算式为:
Figure FDA0003954658560000011
Figure FDA0003954658560000012
其中,ci和cj分别表示环状RNAi和环状RNAj;Sim(ci,cj)表示环状RNAi和环状RNA j之间的高斯交互谱核相似性;nc表示环状RNA的总数;GIP(ci)表示ci的交互谱,即环状RNA-疾病关联矩阵A中第i的行向量;
Figure FDA0003954658560000021
为所有环状RNA交互谱的均值,用来控制高斯核的宽度。
4.根据权利要求1所述的方法,其特征在于,不同疾病之间的相似性计算方法为:
Figure FDA0003954658560000022
其中,Sim(di,dj)表示疾病di和疾病dj之间的相似性;
Figure FDA0003954658560000023
是与疾病di存在关联的基因集,
Figure FDA0003954658560000024
是与疾病dj存在关联的基因集,v和u表示符合条件的基因,P(·,·)表示基因与疾病之间的关联概率。
5.根据权利要求1所述的方法,其特征在于,提取环状RNA的初始特征的方法为:使用k-mer的方式对每个环状RNA的序列进行编码,然后使用浅层模型Doc2Vec学习编码序列中的k-mer连续词向量,作为环状RNA的初始特征;
提取miRNA初始特征的方法为:从已知的miRNA-疾病关联数据中抽取miRNA的关联向量,作为miRNA的初始特征;
提取疾病的初始特征的方法为:从疾病的医学词库中获取疾病的语言定义描述,然后用Doc2Vec获取定义中包含的语言描述向量,再将获得的本体向量和描述向量连接作为疾病的初始特征。
6.根据权利要求1所述的方法,其特征在于,采用带权图注意力机制聚合环状RNA网络的拓扑结构上相邻节点特征,同时考虑相邻节点的边权重信息,得到环状RNA网络中各环状RNA节点的独有特征;采用相同的方法获得miRNA网络中各miRNA节点的独有特征和疾病网络中各疾病节点的独有特征;具体地:
hi=Wxi
Figure FDA0003954658560000025
Figure FDA0003954658560000026
Figure FDA0003954658560000027
式中,xi表示带权图注意力机制层输入的第i个节点的特征,W表示带权图注意力机制层的线性变换矩阵,hi、hj表示带权图注意力机制层对节点特征xi、xj线性变换得到的特征,
Figure FDA0003954658560000031
表示带权图注意力机制层共享的可学习的权重,We表示所有层共享的可学习参数,LeakyReLU为激活函数,eij表示带权图注意力机制层对节点i的特征进行聚合时生成的邻居节点j对节点i的注意力分数;ωij表示在环状RNA网络、miRNA网络或疾病网络中,节点j与节点i之间的连接权重;N(i)表示节点i的邻居节点集合;αij表示eij归一化后得到的注意力系数;M表示带权图注意力机制层采用的多头数量,
Figure FDA0003954658560000032
表示第m头注意力得到的注意力系数,Wm表示第m头注意力下的线性变换矩阵,σ()表示ReLU非线性激活函数;zi表示带权图注意力机制层对节点i聚合其相邻节点特征且同时考虑相邻节点边权重信息后得到的特征。
7.根据权利要求1所述的方法,其特征在于,构建多源异质网络的过程如下:从数据库MNDR 3.0和CircFunBase获取环状RNA-疾病关联数据,从数据库HMDD 2.0中获取miRNA-疾病关联数据,从数据库starBase中获取环状RNA-miRNA关联数据,并将获取的关联数据进行融合构建多源异质网络G=(V,E);其中的V表示以下3种类型节点的集合:环状RNA、miRNA和疾病,通过节点类型映射函数ψv确定每个节点对应的节点类型;E表示以下3种关联类型的边的集合:环状RNA-miRNA、环状RNA-疾病和miRNA-疾病,通过边类型映射函数ψe确定每条边对应的边类型。
8.根据权利要求1所述的方法,其特征在于,步骤4具体为:异构图神经网络的架构包括Graph Transformer层、卷积层和多头注意力机制层,通过Graph Transformer层对多源异质网络中表示各种边类型的邻接矩阵进行聚合得到新的邻接矩阵,即生成新的异构边;然后对多源异质网络中的节点,通过多头注意力机制层聚合其相邻节点的特征且考虑连接边的注意力权重,得到节点的聚合特征。
9.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
CN202211472734.0A 2022-11-18 2022-11-18 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 Pending CN115798730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211472734.0A CN115798730A (zh) 2022-11-18 2022-11-18 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211472734.0A CN115798730A (zh) 2022-11-18 2022-11-18 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质

Publications (1)

Publication Number Publication Date
CN115798730A true CN115798730A (zh) 2023-03-14

Family

ID=85440456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211472734.0A Pending CN115798730A (zh) 2022-11-18 2022-11-18 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质

Country Status (1)

Country Link
CN (1) CN115798730A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114944192A (zh) * 2022-06-22 2022-08-26 湖南科技大学 一种基于图注意力的疾病相关环状rna识别方法
CN116049769A (zh) * 2023-04-03 2023-05-02 湖南大学 离散对象数据关联性预测方法及系统与存储介质
CN117393143A (zh) * 2023-10-11 2024-01-12 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表示学习的环状rna-疾病关联预测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114944192A (zh) * 2022-06-22 2022-08-26 湖南科技大学 一种基于图注意力的疾病相关环状rna识别方法
CN116049769A (zh) * 2023-04-03 2023-05-02 湖南大学 离散对象数据关联性预测方法及系统与存储介质
CN117393143A (zh) * 2023-10-11 2024-01-12 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表示学习的环状rna-疾病关联预测方法

Similar Documents

Publication Publication Date Title
Hvidsten et al. Predicting gene function from gene expressions and ontologies
Bolón-Canedo et al. A review of microarray datasets and applied feature selection methods
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
Li et al. Grouped gene selection of cancer via adaptive sparse group lasso based on conditional mutual information
US11574718B2 (en) Outcome driven persona-typing for precision oncology
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN112927757A (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
Sekaran et al. Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning
CN113488104A (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
Le et al. Machine learning for cell type classification from single nucleus RNA sequencing data
Zhang et al. MCA-NET: multi-feature coding and attention convolutional neural network for predicting lncRNA-disease association
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
TWI709904B (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
Sha et al. Feature selection for polygenic risk scores using genetic algorithm and network science
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
Li et al. Multiclass nonnegative matrix factorization for comprehensive feature pattern discovery
Hu et al. Cancer gene selection with adaptive optimization spiking neural P systems and hybrid classifiers
Chen et al. Gene expression analyses using genetic algorithm based hybrid approaches
Bell et al. Development of novel methodology for gene identification-based classification of leukaemia disorder
Sfakianakis et al. Stacking of network based classifiers with application in breast cancer classification
Hu et al. Ontology-based framework for personalized diagnosis and prognosis of cancer based on gene expression data
CN116631572B (zh) 基于人工智能的急性心肌梗死临床决策支持系统及设备
Ali et al. Evolutionary Hybrid Machine Learning Techniques for DNA Cancer Data Classification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination