CN114944192A - 一种基于图注意力的疾病相关环状rna识别方法 - Google Patents
一种基于图注意力的疾病相关环状rna识别方法 Download PDFInfo
- Publication number
- CN114944192A CN114944192A CN202210714604.7A CN202210714604A CN114944192A CN 114944192 A CN114944192 A CN 114944192A CN 202210714604 A CN202210714604 A CN 202210714604A CN 114944192 A CN114944192 A CN 114944192A
- Authority
- CN
- China
- Prior art keywords
- disease
- circrna
- matrix
- similarity
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Optimization (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pure & Applied Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medicinal Chemistry (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Crystallography & Structural Chemistry (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medical Informatics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于图注意力的疾病相关环状RNA识别方法,包括以下步骤:构建circRNA‑circRNA关系子图、疾病与疾病关系子图;构建circRNA与疾病的异构图;利用多头动态注意力机制学习异构图上每个节点特征的不同聚合表达,在此基础上利用具有不同大小卷积核的单层卷积网络从节点特征的不同聚合表达中提取具有信息的高阶特征;利用广义矩阵分解交互节点的高阶特征以表达异构图上节点之间的复杂关系;最后利用多层感知机网络学习节点之间的特征交互以达到预测circRNA节点与疾病节点之间潜在关系的目的。本发明具有可靠性高、准确性强等优点,有着广泛的市场前景。
Description
技术领域
本发明涉及生物信息工程领域,特别涉及一种基于图注意力的疾病相关环状RNA识别方法。
背景技术
在内源性非编码RNA研究邻域中,一个新的被研究的明星是circRNA,因其具有单链的环状封闭结构引起了许多研究者的兴趣。circRNA早在40年前就在植物样病毒中被发现。由于环状RNA分子的丰度较低,且生物学功能未知,因此它们通常被认为是RNA异常剪接的副产物。随着高通量测序技术和生物信息研究的深入发现环状RNA除了作为miRNA(一种常见的非编码RNA)海绵和影响RNA的剪接和转录,还可以通过独立翻译蛋白质来调节生命活动。
新出现的研究发现,circRNA可以促进许多主要疾病的发生,如癌症、眼部疾病和神经退行性疾病。因此,探索circRNA与疾病之间的潜在关联,有助于生物学家深入研究人类疾病的复杂致病机制,进一步促进疾病预防、疾病诊断和疾病治疗药物的研发。然而,通过传统的生物实验来发现circRNA-疾病的潜在关联是费时、费力和消耗大量金钱的。基于已经被生物实验验证的circRNA与疾病关联信息,可以采用计算预测的方法探寻circRNA与疾病的相互作用关系,这将有助于研究人员发现circRNA与疾病潜在关联的效率。
现存的方法大都基于传统机器学习和网络信息传播的方法去预测潜在的circRNA与疾病的关联,但是这些方法都有一个明显的缺点,当出现一个新的circRNA或者疾病时,需要重新计算预测方法中的相似性矩阵再进行后续步骤,这就造成“冷启动”问题,无疑将降低预测的效率。
发明内容
为了解决上述技术问题,本发明提供一种算法简单、可靠性高、准确性强的基于图注意力的疾病相关环状RNA识别方法。
本发明解决上述技术问题的技术方案是:一种基于图注意力的疾病相关环状RNA识别方法,包括以下步骤:
步骤一:采用整合的cirRNA相似性矩阵构建circRNA-circRNA关系子图,采用整合的疾病相似性矩阵构建疾病与疾病关系子图;
步骤二:利用构建的circRNA-circRNA关系子图、疾病与疾病关系子图以及已知的circRNA-疾病关系图构建circRNA与疾病的异构图;
步骤三:利用多头动态注意力机制学习异构图上每个节点特征的不同聚合表达,在此基础上利用具有不同大小卷积核的单层卷积网络从节点特征的不同聚合表达中提取具有信息的高阶特征;
步骤四:利用广义矩阵分解交互节点的高阶特征以表达异构图上节点之间的复杂关系;最后利用多层感知机网络学习节点之间的特征交互以达到预测circRNA节点与疾病节点之间潜在关系的目的。
上述基于图注意力的疾病相关环状RNA识别方法,所述步骤一具体包括如下步骤,
1-1)由circRNA高斯核相似性、circRNA序列相似性和circRNA功能相似性整合得到circRNA相似性矩阵,基于cirRNA相似性矩阵构建circRNA-circRNA关系子图;
1-2)由疾病高斯核相似性和疾病语义相似性整合得到疾病相似性矩阵,基于疾病相似性矩阵构建疾病与疾病关系子图。
上述基于图注意力的疾病相关环状RNA识别方法,所述步骤1-1)具体过程为:
1-1-1)将circRNA的序列信息视为字符串,用Levenshtein距离算法计算两个字符串之间相互转换的编辑距离,编辑距离越短,两个字符串越相似,其计算遵循以下公式:
dist表示编辑的距离,seqlen(·)表示circRNA的序列信息长度,ci表示第i个circRNA,SC表示circRNA与circRNA之间的序列相似性矩阵,SC(ci,cj)表示ci与cj之间的序列相似性;
1-1-2)基于circRNA与相同疾病关联越多就越相似的原则,计算circRNA-circRNA之间的功能相似性,计算的公式如下:
Gi与Gj分别表示与ci和cj相关的疾病集合,||表示构成集合的circRNA或者疾病的个数,SD(d,Gn)表示疾病d与Gn集合内疾病的相似性分数,FS表示circRNA与circRNA之间的功能相似性矩阵,FS(ci,cj)表示ci与cj之间的功能相似性;
1-1-3)考虑circRNA与疾病的已知相互作用关系,计算表示circRNA与circRNA之间线性关系的高斯核相似性,具体计算公式如下:
KC(ci,cj)=exp(-γc||Ai.-Aj.||2) (3)
其中,KC表示circRNA与circRNA之间的高斯核相似性矩阵,KC(ci,cj)表示ci与cj之间的高斯核相似性,Ai.与Aj.分别表示circRNA与疾病关联矩阵A的第i行和第j行,γc表示计算circRNA高斯核相似性的宽度控制参数,用公式表示为:
Nc表示circRNA的个数;
1-1-4)整合circRNA的相似性矩阵构建circRNA-circRA关系子图,用如下公式整合相似矩阵:
RCS表示整合的circRNA的相似性矩阵,RCS(ci,cj)表示ci与cj之间的相似性,假设circRNA与circRNA之间的相似性大于0.5,则认为两者之间具有强关联关系;构建circRNA子图的邻接矩阵MC,具体表示为:
上述基于图注意力的疾病相关环状RNA识别方法,所述步骤1-2)具体过程为:
1-2-1)基于疾病本体数据库DiseaseOntology中的DOID信息计算疾病与疾病之间的语义相似性,计算的公式为:
其中SD表示疾病与疾病之间的语义相似性矩阵,SD(dm,dn)表示疾病dm与dn之间的语义相似性,表示疾病dm的祖先,且包括dm自身;d′表示dm和dn都存在关系的疾病,DV(dm)表示疾病dm的在祖先中的语义值,表示为:
1-2-2)考虑到circRNA与疾病的已知相互作用关系,计算表示疾病与疾病之间线性关系的高斯核相似性,具体计算公式如下:
KD(dm,dn)=exp(-γc||A.m-A.n||2) (10)
其中,KD表示疾病与疾病之间的高斯核相似性矩阵,KD(dm,dn)表示疾病dm与dn之间的高斯核相似性,A.m与A.n分别表示circRNA与疾病关联矩阵A的第m列和第n列,γd表示计算疾病高斯核相似性的宽度控制参数,用公式表示为:
Nd表示疾病的个数;
1-2-3)整合疾病的相似性矩阵,构建疾病关系子图,整合疾病相似性矩阵RDS的具体公式如下:
构建疾病子图的邻接矩阵,同样假设疾病与疾病之间的相似性大于0.5,则认为两者之间具有强关联关系,疾病子图的邻接矩阵具体表示为:
上述基于图注意力的疾病相关环状RNA识别方法,所述步骤二的具体过程为:
利用已知的circRNA-疾病关系图、circRNA-circRNA关系子图和疾病与疾病关系子图构建circRNA与疾病的异构图;按照如下方法先构建异构图的邻接矩阵,再利用python中的DGL库构建异构图g;
构建异构图邻接矩阵H的公式为:
异构图g中点的特征矩阵X为:
其中,A表示已知circRNA与疾病构成的关联矩阵,A矩阵的行代表circRNA,列代表疾病,如果第cp个circRNA和第dq个疾病存在关联,p=1,2,…,Nc;q=1,2,…,Nd,则A中位于第cp行第dq列的值否则 和为需要学习的特征投影矩阵,表示实数范围内取值,Nc×k表示Wc的大小,Nd×k表示Wd的大小,k为投影之后特征的维度。
上述基于图注意力的疾病相关环状RNA识别方法,所述步骤三的具体过程为:
利用多头动态图注意力机制获取异构图上节点特征的不同聚合表示,动态注意力机制的核心思想是聚合节点不同邻居的特征时,给邻居分配不同的权重;
其中||表示向量的拼接,和分别表示异构图g中点的特征矩阵X中的第cp行和第dq行,a表示单层前馈神经网络,aT表示的a转置,LeakyRELU()表示神经网络中的激活函数;使用softmax函数对邻居的注意权重分数进行归一化,得到关注邻居节点的注意力值
nc表示图上节点cp的邻居集合,则节点cp的邻居节点特征聚合表示为:
其中,σ()表示神经网络中的激活函数RElU();另外,使用单一的注意机制来聚合节点的邻域特征并不足以完全表示节点之间的关系,因此,将多个注意力头输出的特征表示进行聚合,得到节点c更丰富的特征表示,表述如下:
第一步,通过多头注意力机制获得的节点cp特征的不同聚合表示被垂直地堆叠起来:
第三步,将由不同卷积核得到的特征向量拼接在一起,形成具有丰富信息的高阶特征表示,用公式表示如下:
因此,异构图中点的特征矩阵X进一步用X′表示:
上述基于图注意力的疾病相关环状RNA识别方法,所述步骤四中,用广义矩阵分解来表示circRNA与疾病之间复杂的高阶非线性特征交互;广义矩阵分解的定义如下:
利用多层感知器网络学习节点之间的特征交互被表示为:
公式(25)中的W,W2…WL和ε1,ε2,…εL均为需要训练的参数矩阵,表示circRNA cp与疾病dq的关联预测得分,模型是通过用L2正则化来最小化二元交叉熵损失来训练的,通过下面的损失函数公式来计算:
其中,A已知的circRNA与疾病的关联矩阵,表示A中位于第cp行第dq列的值,表示预测的circRNA与疾病的关联矩阵,表示中位于第cp行第dq列的值,||Θ||2表示L2正则化,L2正则化的参数矩阵为Θ,S+为训练用的正样本,用来表示已知的circRNA与疾病的关联;S-为训练用的负样本,用来表示未知的circRNA与疾病的关联。
本发明的有益效果在于:本发明利用图注意力网络中的多头动态注意力机制高效聚合异构图上邻居特征形成特征的不同聚合表示,再利用具有大小不同的单层卷积网络提取出高阶特征,最后通过多层感知机网络预测潜在circRNA与疾病的关联。本发明具有可靠性高、准确性强等优点,在生物数据库、生物数据分析、生物数据挖掘、疾病治疗药物的靶向研发的应用及普及上有着广泛的市场前景。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1所示,一种基于图注意力的疾病相关环状RNA识别方法,包括以下步骤:
步骤一:采用整合的cirRNA相似性矩阵构建circRNA-circRNA关系子图,采用整合的疾病相似性矩阵构建疾病与疾病关系子图。
步骤一具体包括如下步骤,
1-1)由circRNA高斯核相似性、circRNA序列相似性和circRNA功能相似性整合得到circRNA相似性矩阵,基于cirRNA相似性矩阵构建circRNA-circRNA关系子图。
1-1)具体过程为:
1-1-1)将circRNA的序列信息视为字符串,用Levenshtein距离算法计算两个字符串之间相互转换的编辑距离,编辑距离越短,两个字符串越相似,其计算遵循以下公式:
dist表示编辑的距离,seqlen(·)表示circRNA的序列信息长度,ci表示第i个circRNA,SC表示circRNA与circRNA之间的序列相似性矩阵,SC(ci,cj)表示ci与cj之间的序列相似性;
1-1-2)基于circRNA与相同疾病关联越多就越相似的原则,计算circRNA-circRNA之间的功能相似性,计算的公式如下:
Gi与Gj分别表示与ci和cj相关的疾病集合,||表示构成集合的circRNA或者疾病的个数,SD(d,Gn)表示疾病d与Gn集合内疾病的相似性分数,FS表示circRNA与circRNA之间的功能相似性矩阵,FS(ci,cj)表示ci与cj之间的功能相似性;
1-1-3)考虑circRNA与疾病的已知相互作用关系,计算表示circRNA与circRNA之间线性关系的高斯核相似性,具体计算公式如下:
KC(ci,cj)=exp(-γc||Ai.-Aj.||2) (3)
其中,KC表示circRNA与circRNA之间的高斯核相似性矩阵,KC(ci,cj)表示ci与cj之间的高斯核相似性,Ai.与Aj.分别表示circRNA与疾病关联矩阵A的第i行和第j行,γc表示计算circRNA高斯核相似性的宽度控制参数,用公式表示为:
Nc表示circRNA的个数;
1-1-4)整合circRNA的相似性矩阵构建circRNA-circRA关系子图,用如下公式整合相似矩阵:
RCS表示整合的circRNA的相似性矩阵,RCS(ci,cj)表示ci与cj之间的相似性,假设circRNA与circRNA之间的相似性大于0.5,则认为两者之间具有强关联关系;构建circRNA子图的邻接矩阵MC,具体表示为:
1-2)由疾病高斯核相似性和疾病语义相似性整合得到疾病相似性矩阵,基于疾病相似性矩阵构建疾病与疾病关系子图。
1-2)具体步骤为:
1-2-1)基于疾病本体数据库DiseaseOntology中的DOID信息计算疾病与疾病之间的语义相似性,计算的公式为:
其中SD表示疾病与疾病之间的语义相似性矩阵,SD(dm,dn)表示疾病dm与dn之间的语义相似性,表示疾病dm的祖先,且包括dm自身;d′表示dm和dn都存在关系的疾病,DV(dm)表示疾病dm的在祖先中的语义值,表示为:
1-2-2)考虑到circRNA与疾病的已知相互作用关系,计算表示疾病与疾病之间线性关系的高斯核相似性,具体计算公式如下:
KD(dm,dn)=exp(-γc||A.m-A.n||2) (10)
其中,KD表示疾病与疾病之间的高斯核相似性矩阵,KD(dm,dn)表示疾病dm与dn之间的高斯核相似性,A.m与A.n分别表示circRNA与疾病关联矩阵A的第m列和第n列,γd表示计算疾病高斯核相似性的宽度控制参数,用公式表示为:
Nd表示疾病的个数;
1-2-3)整合疾病的相似性矩阵,构建疾病关系子图,整合疾病相似性矩阵RDS的具体公式如下:
构建疾病子图的邻接矩阵,同样假设疾病与疾病之间的相似性大于0.5,则认为两者之间具有强关联关系,疾病子图的邻接矩阵具体表示为:
步骤二:利用构建的circRNA-circRNA关系子图、疾病与疾病关系子图以及已知的circRNA-疾病关系图构建circRNA与疾病的异构图。
步骤二中,利用已知的circRNA-疾病关系图、circRNA-circRNA关系子图和疾病与疾病关系子图构建circRNA与疾病的异构图;按照如下方法先构建异构图的邻接矩阵,再利用python中的DGL库构建异构图g;
构建异构图邻接矩阵H的公式为:
异构图g中点的特征矩阵X为:
其中,A表示已知circRNA与疾病构成的关联矩阵,A矩阵的行代表circRNA,列代表疾病,如果第cp个circRNA和第dq个疾病存在关联,p=1,2,…,Nc;q=1,2,…,Nd,则A中位于第cp行第dq列的值否则 和为需要学习的特征投影矩阵,表示实数范围内取值,Nc×k表示Wc的大小,Nd×k表示Wd的大小,k为投影之后特征的维度。
步骤三:利用多头动态注意力机制学习异构图上每个节点特征的不同聚合表达,在此基础上利用具有不同大小卷积核的单层卷积网络从节点特征的不同聚合表达中提取具有信息的高阶特征。
步骤三的具体过程为:
利用多头动态图注意力机制获取异构图上节点特征的不同聚合表示,动态注意力机制的核心思想是聚合节点不同邻居的特征时,给邻居分配不同的权重;
其中||表示向量的拼接,和分别表示异构图g中点的特征矩阵X中的第cp行和第dq行,a表示单层前馈神经网络,aT表示的a转置,LeakyRELU()表示神经网络中的激活函数;使用softmax函数对邻居的注意权重分数进行归一化,得到关注邻居节点的注意力值
nc表示图上节点cp的邻居集合,则节点cp的邻居节点特征聚合表示为:
其中,σ()表示神经网络中的激活函数RElU();另外,使用单一的注意机制来聚合节点的邻域特征并不足以完全表示节点之间的关系,因此,将多个注意力头输出的特征表示进行聚合,得到节点c更丰富的特征表示,表述如下:
第一步,通过多头注意力机制获得的节点cp特征的不同聚合表示被垂直地堆叠起来:
第三步,将由不同卷积核得到的特征向量拼接在一起,形成具有丰富信息的高阶特征表示,用公式表示如下:
因此,异构图中点的特征矩阵X进一步用X′表示:
步骤四:利用广义矩阵分解交互节点的高阶特征以表达异构图上节点之间的复杂关系;最后利用多层感知机网络学习节点之间的特征交互以达到预测circRNA节点与疾病节点之间潜在关系的目的。
步骤四中,用广义矩阵分解来表示circRNA与疾病之间复杂的高阶非线性特征交互;广义矩阵分解的定义如下:
利用多层感知器网络学习节点之间的特征交互被表示为:
公式(25)中的W,W2…WL和ε1,ε2,…εL均为需要训练的参数矩阵,表示circRNAp与疾病dq的关联预测得分,模型是通过用L2正则化来最小化二元交叉熵损失来训练的,通过下面的损失函数公式来计算:
其中,A已知的circRNA与疾病的关联矩阵,表示A中位于第cp行第dq列的值,表示预测的circRNA与疾病的关联矩阵,表示中位于第cp行第dq列的值,||Θ||2表示L2正则化,L2正则化的参数矩阵为Θ,S+为训练用的正样本,用来表示已知的circRNA与疾病的关联;S-为训练用的负样本,用来表示未知的circRNA与疾病的关联。
实例
相关预测circRNA与疾病关联的方法介绍
[1]Lu C,Zeng M,Zhang F,et al.Deep matrix factorization improvesprediction of human circRNA-disease associations[J].IEEE Journal ofBiomedical and Health Informatics,2020,25(3):891-899。
文献[1]公开了一种深度矩阵分解的预测方法。它主要考虑已知circRNA与疾病关联的显式和隐式的反馈,然后利用投影层自动学习circRNA与疾病的表示来达到预测潜在circRNA与疾病关联的目的。
[2]Zhang W,Yu C,Wang X,et al.Predicting CircRNA-disease associationsthrough linear neighborhood label propagation method[J].Ieee Access,2019,7:83474-83483。
文献[2]公开了一种线性邻域标签传播方法来预测circRNA与疾病的关联。首先,它使用基于已知circRNA与疾病的关联来计算circRNA-circRNA相似性和疾病-疾病相似性。接下来,分别基于circRNA-circRNA相似性的图和基于疾病-疾病相似性的图实现标签传播,以预测circRNA-疾病关联。
[3]Ge E,Yang Y,Gang M,et al.Predicting human disease-associatedcircRNAs based on locality-constrained linear coding[J].Genomics,2020,112(2):1335-1342。
文献[3]公开了一种基于局部约束线性编码和标签传播的预测方法。它首先在已知的关联矩阵上使用局部约束线性编码获得重构的circRNA-circRNA相似性矩阵和疾病-疾病相似性矩阵,然后利用标签传播方法在重构的相似性矩阵和原有的相似性矩阵上进行标签传播获得最终的circRNA与疾病的预测关联得分。
本发明方法与相关预测方法指标在性能上的比较:
评价指标:准确率(Acc.),精度(Pre.),召回率(Rec.),F1分数(F1-score):
其中,从正样本和负样本中正确识别的样本数分别用TP和TN表示。从正样本和负样本中错误识别的样本数量分别用FP和FN表示。比较的结果如表1所示:
表1
结论:跟其他预测circRNA与疾病关联的方法相比,本发明所提出的预测方法在性能指标上都比其他方法要好,具有可靠性高,性能优越的特点。
本发明方法在预测与疾病存在潜在关联的circRNA上的结果,如表2、表3。
检验预测的证据为生物医学文献免费检索系统(PubMed)中发布的证实某些环状RNA与疾病存在医学关系的文章ID(PMID)。
表2预测与肝细胞癌有潜在关联的circRNA(预测得分排名前15)
表3预测与非小细胞肺癌有潜在关联的circRNA(预测得分排名前15)
结论:表2和表3中,通过预测与两种疾病存在潜在关联的circRNA结果说明,本发明在实际使用过程中能达到可靠的效果。虽然有些预测的结果还没被证实,但是,这些未被证实的预测结果可以进一步帮助生物信息人员提供候选的检测目标,这将会极大地提高科研效率,有助于尽快找到疾病的病发位置,从而及时的对症下药。
Claims (7)
1.一种基于图注意力的疾病相关环状RNA识别方法,其特征在于,包括以下步骤:
步骤一:采用整合的cirRNA相似性矩阵构建circRNA-circRNA关系子图,采用整合的疾病相似性矩阵构建疾病与疾病关系子图;
步骤二:利用构建的circRNA-circRNA关系子图、疾病与疾病关系子图以及已知的circRNA-疾病关系图构建circRNA与疾病的异构图;
步骤三:利用多头动态注意力机制学习异构图上每个节点特征的不同聚合表达,在此基础上利用具有不同大小卷积核的单层卷积网络从节点特征的不同聚合表达中提取具有信息的高阶特征;
步骤四:利用广义矩阵分解交互节点的高阶特征以表达异构图上节点之间的复杂关系;最后利用多层感知机网络学习节点之间的特征交互以达到预测circRNA节点与疾病节点之间潜在关系的目的。
2.根据权利要求1所述的基于图注意力的疾病相关环状RNA识别方法,其特征在于,所述步骤一具体包括如下步骤,
1-1)由circRNA高斯核相似性、circRNA序列相似性和circRNA功能相似性整合得到circRNA相似性矩阵,基于cirRNA相似性矩阵构建circRNA-circRNA关系子图;
1-2)由疾病高斯核相似性和疾病语义相似性整合得到疾病相似性矩阵,基于疾病相似性矩阵构建疾病与疾病关系子图。
3.根据权利要求2所述的基于图注意力的疾病相关环状RNA识别方法,其特征在于,所述步骤1-1)具体过程为:
1-1-1)将circRNA的序列信息视为字符串,用Levenshtein距离算法计算两个字符串之间相互转换的编辑距离,编辑距离越短,两个字符串越相似,其计算遵循以下公式:
dist表示编辑的距离,seqlen(·)表示circRNA的序列信息长度,ci表示第i个circRNA,SC表示circRNA与circRNA之间的序列相似性矩阵,SC(ci,cj)表示ci与cj之间的序列相似性;
1-1-2)基于circRNA与相同疾病关联越多就越相似的原则,计算circRNA-circRNA之间的功能相似性,计算的公式如下:
Gi与Gj分别表示与ci和cj相关的疾病集合,| |表示构成集合的circRNA或者疾病的个数,SD(d,Gn)表示疾病d与Gn集合内疾病的相似性分数,FS表示circRNA与circRNA之间的功能相似性矩阵,FS(ci,cj)表示ci与cj之间的功能相似性;
1-1-3)考虑circRNA与疾病的已知相互作用关系,计算表示circRNA与circRNA之间线性关系的高斯核相似性,具体计算公式如下:
KC(ci,cj)=exp(-γc||Ai.-Aj.||2) (3)
其中,KC表示circRNA与circRNA之间的高斯核相似性矩阵,KC(ci,cj)表示ci与cj之间的高斯核相似性,Ai.与Aj.分别表示circRNA与疾病关联矩阵A的第i行和第j行,γc表示计算circRNA高斯核相似性的宽度控制参数,用公式表示为:
Nc表示circRNA的个数;
1-1-4)整合circRNA的相似性矩阵构建circRNA-circRA关系子图,用如下公式整合相似矩阵:
RCS表示整合的circRNA的相似性矩阵,RCS(ci,cj)表示ci与cj之间的相似性,假设circRNA与circRNA之间的相似性大于0.5,则认为两者之间具有强关联关系;构建circRNA子图的邻接矩阵MC,具体表示为:
4.根据权利要求3所述的基于图注意力的疾病相关环状RNA识别方法,其特征在于,所述步骤1-2)具体过程为:
1-2-1)基于疾病本体数据库DiseaseOntology中的DOID信息计算疾病与疾病之间的语义相似性,计算的公式为:
其中SD表示疾病与疾病之间的语义相似性矩阵,SD(dm,dn)表示疾病dm与dn之间的语义相似性,表示疾病dm的祖先,且包括dm自身;d′表示dm和dn都存在关系的疾病,DV(dm)表示疾病dm的在祖先中的语义值,表示为:
1-2-2)考虑到circRNA与疾病的已知相互作用关系,计算表示疾病与疾病之间线性关系的高斯核相似性,具体计算公式如下:
KD(dm,dn)=exp(-γc||A.m-A.n||2) (10)
其中,KD表示疾病与疾病之间的高斯核相似性矩阵,KD(dm,dn)表示疾病dm与dn之间的高斯核相似性,A.m与A.n分别表示circRNA与疾病关联矩阵A的第m列和第n列,γd表示计算疾病高斯核相似性的宽度控制参数,用公式表示为:
Nd表示疾病的个数;
1-2-3)整合疾病的相似性矩阵,构建疾病关系子图,整合疾病相似性矩阵RDS的具体公式如下:
构建疾病子图的邻接矩阵,同样假设疾病与疾病之间的相似性大于0.5,则认为两者之间具有强关联关系,疾病子图的邻接矩阵具体表示为:
5.根据权利要求4所述的基于图注意力的疾病相关环状RNA识别方法,其特征在于,所述步骤二的具体过程为:
利用已知的circRNA-疾病关系图、circRNA-circRNA关系子图和疾病与疾病关系子图构建circRNA与疾病的异构图;按照如下方法先构建异构图的邻接矩阵,再利用python中的DGL库构建异构图g;
构建异构图邻接矩阵H的公式为:
异构图g中点的特征矩阵X为:
6.根据权利要求5所述的基于图注意力的疾病相关环状RNA识别方法,其特征在于,所述步骤三的具体过程为:
利用多头动态图注意力机制获取异构图上节点特征的不同聚合表示,动态注意力机制的核心思想是聚合节点不同邻居的特征时,给邻居分配不同的权重;
其中||表示向量的拼接,和分别表示异构图g中点的特征矩阵X中的第cp行和第dq行,a表示单层前馈神经网络,aT表示的a转置,LeakyRELU()表示神经网络中的激活函数;使用softmax函数对邻居的注意权重分数进行归一化,得到关注邻居节点的注意力值
nc表示图上节点cp的邻居集合,则节点cp的邻居节点特征聚合表示为:
其中,σ()表示神经网络中的激活函数RElU();另外,使用单一的注意机制来聚合节点的邻域特征并不足以完全表示节点之间的关系,因此,将多个注意力头输出的特征表示进行聚合,得到节点c更丰富的特征表示,表述如下:
第一步,通过多头注意力机制获得的节点cp特征的不同聚合表示被垂直地堆叠起来:
第三步,将由不同卷积核得到的特征向量拼接在一起,形成具有丰富信息的高阶特征表示,用公式表示如下:
因此,异构图中点的特征矩阵X进一步用X′表示:
7.根据权利要求6所述的基于图注意力的疾病相关环状RNA识别方法,其特征在于,所述步骤四中,用广义矩阵分解来表示circRNA与疾病之间复杂的高阶非线性特征交互;广义矩阵分解的定义如下:
利用多层感知器网络学习节点之间的特征交互被表示为:
公式(25)中的W,W2…WL和ε1,ε2,…εL均为需要训练的参数矩阵,表示circRNAcp与疾病dq的关联预测得分,模型是通过用L2正则化来最小化二元交叉熵损失来训练的,通过下面的损失函数公式来计算:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714604.7A CN114944192B (zh) | 2022-06-22 | 2022-06-22 | 一种基于图注意力的疾病相关环状rna识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714604.7A CN114944192B (zh) | 2022-06-22 | 2022-06-22 | 一种基于图注意力的疾病相关环状rna识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114944192A true CN114944192A (zh) | 2022-08-26 |
CN114944192B CN114944192B (zh) | 2023-06-30 |
Family
ID=82910962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210714604.7A Active CN114944192B (zh) | 2022-06-22 | 2022-06-22 | 一种基于图注意力的疾病相关环状rna识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114944192B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117393143A (zh) * | 2023-10-11 | 2024-01-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于图表示学习的环状rna-疾病关联预测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325987A1 (en) * | 2018-04-20 | 2019-10-24 | Inhan Lee | Direct Interaction Between 5' UTR and 3' UTR Enhances miRNA Translation Repression |
CN110459264A (zh) * | 2019-08-02 | 2019-11-15 | 陕西师范大学 | 基于梯度增强决策树预测环状rna与疾病相关性的方法 |
US20190352708A1 (en) * | 2018-05-15 | 2019-11-21 | Mantra Bio, Inc. | Barcode-free single vesicle multiplexed protein and rna analysis |
CN110767263A (zh) * | 2019-10-18 | 2020-02-07 | 中国人民解放军陆军军医大学 | 基于稀疏子空间学习的非编码rna与疾病关联预测方法 |
CN113095439A (zh) * | 2021-04-30 | 2021-07-09 | 东南大学 | 基于注意力机制的异构图嵌入学习方法 |
CN113241115A (zh) * | 2021-03-26 | 2021-08-10 | 广东工业大学 | 一种基于深度矩阵分解的环状rna疾病关联预测方法 |
CN113871021A (zh) * | 2021-09-29 | 2021-12-31 | 曲阜师范大学 | 一种基于图注意力机制的circRNA与疾病关联关系预测方法 |
CN114496084A (zh) * | 2022-02-08 | 2022-05-13 | 中南林业科技大学 | 一种circRNA和miRNA关联关系高效预测方法 |
CN114582508A (zh) * | 2022-03-04 | 2022-06-03 | 安徽大学 | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 |
CN114613437A (zh) * | 2022-03-08 | 2022-06-10 | 电子科技大学 | 一种基于异构图的miRNA与疾病关联预测方法及系统 |
CN115798730A (zh) * | 2022-11-18 | 2023-03-14 | 中南大学 | 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 |
-
2022
- 2022-06-22 CN CN202210714604.7A patent/CN114944192B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325987A1 (en) * | 2018-04-20 | 2019-10-24 | Inhan Lee | Direct Interaction Between 5' UTR and 3' UTR Enhances miRNA Translation Repression |
US20190352708A1 (en) * | 2018-05-15 | 2019-11-21 | Mantra Bio, Inc. | Barcode-free single vesicle multiplexed protein and rna analysis |
CN110459264A (zh) * | 2019-08-02 | 2019-11-15 | 陕西师范大学 | 基于梯度增强决策树预测环状rna与疾病相关性的方法 |
CN110767263A (zh) * | 2019-10-18 | 2020-02-07 | 中国人民解放军陆军军医大学 | 基于稀疏子空间学习的非编码rna与疾病关联预测方法 |
CN113241115A (zh) * | 2021-03-26 | 2021-08-10 | 广东工业大学 | 一种基于深度矩阵分解的环状rna疾病关联预测方法 |
CN113095439A (zh) * | 2021-04-30 | 2021-07-09 | 东南大学 | 基于注意力机制的异构图嵌入学习方法 |
CN113871021A (zh) * | 2021-09-29 | 2021-12-31 | 曲阜师范大学 | 一种基于图注意力机制的circRNA与疾病关联关系预测方法 |
CN114496084A (zh) * | 2022-02-08 | 2022-05-13 | 中南林业科技大学 | 一种circRNA和miRNA关联关系高效预测方法 |
CN114582508A (zh) * | 2022-03-04 | 2022-06-03 | 安徽大学 | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 |
CN114613437A (zh) * | 2022-03-08 | 2022-06-10 | 电子科技大学 | 一种基于异构图的miRNA与疾病关联预测方法及系统 |
CN115798730A (zh) * | 2022-11-18 | 2023-03-14 | 中南大学 | 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 |
Non-Patent Citations (4)
Title |
---|
CHENGQIAN LU 等: "Identifying disease-associated circRNAs based on edge-weighted graph attention and heterogeneous graph neural network", 《BIORXIV》, pages 1 - 7 * |
THOSINI BAMUNU MUDIYANSELAGE 等: "Predicting CircRNA disease associations using novel node classification and link prediction models on Graph Convolutional Networks", 《METHODS》, pages 32 - 44 * |
吴锡敏: "基于图神经网络的长链非编码RNA与疾病关系预测算法研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, pages 054 - 40 * |
李佳树: "基于图神经网络的miRNA与疾病关联预测研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》, pages 006 - 549 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117393143A (zh) * | 2023-10-11 | 2024-01-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于图表示学习的环状rna-疾病关联预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114944192B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Karim et al. | Drug-drug interaction prediction based on knowledge graph embeddings and convolutional-LSTM network | |
Wang et al. | Toward heterogeneous information fusion: bipartite graph convolutional networks for in silico drug repurposing | |
Wang et al. | An effective multivariate time series classification approach using echo state network and adaptive differential evolution algorithm | |
Nadif et al. | Unsupervised and self-supervised deep learning approaches for biomedical text mining | |
Lei et al. | A comprehensive survey on computational methods of non-coding RNA and disease association prediction | |
CN116092598B (zh) | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 | |
Balakrishnan | Feature selection using improved teaching learning based algorithm on chronic kidney disease dataset | |
Liu et al. | Structural network embedding using multi-modal deep auto-encoders for predicting drug-drug interactions | |
Wang et al. | Drug-protein-disease association prediction and drug repositioning based on tensor decomposition | |
CN111370073A (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN114944192B (zh) | 一种基于图注意力的疾病相关环状rna识别方法 | |
CN115376704A (zh) | 一种融合多邻域关联信息的药物-疾病相互作用预测方法 | |
Zhang et al. | Cnn-ddi: A novel deep learning method for predicting drug-drug interactions | |
Bhadra et al. | Unsupervised feature selection using an integrated strategy of hierarchical clustering with singular value decomposition: an integrative biomarker discovery method with application to acute myeloid leukemia | |
Ghasemi et al. | Drug-disease association prediction based on end-to-end multi-layer heterogeneous graph convolutional encoders | |
Chowdhury et al. | Cell type identification from single-cell transcriptomic data via gene embedding | |
Rao et al. | Support vector machine based disease classification model employing hasten eagle Cuculidae search optimization | |
Bagyamani et al. | Biological significance of gene expression data using similarity based biclustering algorithm | |
Guo et al. | Inferring drug-mirna associations by integrating drug smiles and mirna sequence information | |
Budiarto et al. | Explainable supervised method for genetics ancestry estimation | |
Ma et al. | A New Approach Based on Feature Selection of Light Gradient Boosting Machine and Transformer to Predict circRNA-Disease Associations | |
Sun et al. | An enhanced LRMC method for drug repositioning via gcn-based HIN embedding | |
Sarwar et al. | Innovative Computational Moulding Approach for Genomics | |
Spencer et al. | Explainable ai: Mining of genotype data identifies complex disease pathways—autism case studies | |
CN117457080A (zh) | circRNA-miRNA关联预测方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |