CN117831783A - 一种基于多视图学习的miRNA-疾病关联预测方法 - Google Patents

一种基于多视图学习的miRNA-疾病关联预测方法 Download PDF

Info

Publication number
CN117831783A
CN117831783A CN202410010463.XA CN202410010463A CN117831783A CN 117831783 A CN117831783 A CN 117831783A CN 202410010463 A CN202410010463 A CN 202410010463A CN 117831783 A CN117831783 A CN 117831783A
Authority
CN
China
Prior art keywords
mirna
disease
diseases
mirnas
lncrna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410010463.XA
Other languages
English (en)
Inventor
彭绍亮
姬博亚
黄雨薇
许建邦
邹海涛
许力文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202410010463.XA priority Critical patent/CN117831783A/zh
Publication of CN117831783A publication Critical patent/CN117831783A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于多视图学习的miRNA‑疾病关联预测方法,包括:S1、获取miRNA‑疾病关联数据、药物‑miRNA数据、药物‑疾病数据、mRNA‑miRNA和mRNA‑疾病数据、lncRNA‑miRNA和lncRNA‑疾病数据,以及来自多个物种的miRNA信息;S2、利用miRNA序列信息获取序列特征、利用疾病信息获取疾病语义相似性;S3、计算miRNA与疾病的高斯交互谱核相似性GIP;S4、获得miRNA和疾病之间的潜在关联;S5、构建多个异构图;S6、利用多尺度注意机制,通过将局部上下文纳入注意模块的全局上下文中,融合多重结构特征;S7、将miRNA和疾病的多重嵌入聚合并输入多层感知器进行训练和预测,进行了五折和十折的交叉验证来评估模型的性能。本发明具有良好的预测性能,每个模块都调整到最优。

Description

一种基于多视图学习的miRNA-疾病关联预测方法
技术领域
本发明涉及深度学习和生物信息学技术领域,更具体地说,特别涉及一种基于多视图学习的miRNA-疾病关联预测方法。
背景技术
MicroRNAs(miRNAs)是一种非编码RNA,通过靶向信息RNA(mRNA)来控制基因转录,有研究表明miRNA与各种疾病的发生和进展密切相关,miR-107的异常表达可导致BACE1(-分泌酶1)的异常活性,并参与阿尔茨海默病的发病机制;此外,临床研究表明,miR-145和miR-218与喉癌患者的预后有关。miRNAs已被证明在细胞发育、分化和凋亡等生物学过程中发挥着重要的功能。
尽管关于miRNA-疾病关联预测(MDA)的方法很多,但由于MDA潜在的复杂性和多样性,它们预测未知关联的能力仍然有限。首先,这些方法仅依赖于miRNA序列特征、疾病语义相似性和miRNA-疾病邻接矩阵作为数据源。其次,已知MDA的数量相对于未知MDA的数量相对较少,这使预测任务更加复杂化。
此外,使用多视图学习、多尺度注意机制和图注意网络等先进技术可以深入挖掘miRNA-疾病的关联。这些方法不仅可以提高miRNA疾病预测的准确性,而且为疾病的诊断、治疗和预防提供了更有效的手段。因此有必要设计一种基于多视图学习的miRNA-疾病关联预测方法,以预测潜在的MDA。
发明内容
本发明的目的在于提供一种基于多视图学习的miRNA-疾病关联预测方法,以克服现有技术所存在的缺陷。
为了达到上述目的,本发明采用的技术方案如下:
一种基于多视图学习的miRNA-疾病关联预测方法,包括以下步骤:
S1、获取miRNA-疾病关联数据、药物-miRNA数据、药物-疾病数据、mRNA-miRNA和mRNA-疾病数据、lncRNA-miRNA和lncRNA-疾病数据,以及来自多个物种的miRNA信息;
S2、利用miRNA序列信息获取序列特征、利用疾病信息获取疾病语义相似性;
S3、计算miRNA与疾病的高斯交互谱核相似性GIP,该高斯交互谱核相似性GIP包括不同疾病之间的GIP相似性、不同miRNA之间的GIP相似性;
S4、融合miRNA和疾病的原始特征,对miRNA序列特征矩阵、疾病语义相似度及其各自的高斯交互谱核相似性GIP进行核融合,获得miRNA和疾病之间的潜在关联;
S5、构建多个异构图,包括miRNA-药物-疾病视图,miRNA-mRNA-疾病视图,miRNA-lncRNA-疾病视图,分别利用药物、mRNA、lncRNA发现miRNA和疾病之间的关系;利用多视图图注意网络提取miRNA和复杂疾病的图结构特征;
S6、利用多尺度注意机制,通过将局部上下文纳入注意模块的全局上下文中,融合多种miRNA和复杂疾病结构特征;
S7、将miRNA和疾病的多重嵌入聚合并输入多层感知器进行训练和预测,进行了五折和十折的交叉验证来评估模型的性能。
进一步地,所述步骤S1从数据库HMDD v3.2中获取miRNA-疾病关联,从数据库DrugBank中获取药物-miRNA和药物-疾病数据,从国家医学图书馆数据库中获取mRNA-miRNA和mRNA-疾病数据,从数据库NONCODEV5中获取lncRNA-miRNA和lncRNA-疾病数据,从miRBase数据库中获取多个物种的miRNA数据。
进一步地,所述步骤S2具体为:
S21、将miRNA序列转化为向量,从miRNA序列中提取相邻的长度为三的短序列,在miRNA序列上设计一个滑动窗口来计算每个子序列的频率;
S22、将步骤S21中每个子序列的频率归一化,生成miRNA序列信息,用于捕获miRNA的属性特征;
S23、使用MeSH数据集,并创建有向无环图描述符来描述疾病的语义相似性,生成初始疾病语义相似度矩阵SS1。
进一步地,所述步骤S3中:
对于疾病高斯交互谱核相似性,将疾病d(i)的交互谱核表示为G(d(i)),疾病d(i)和d(j)之间的GIP矩阵KD定义如下:
KD(d(i),d(j))=exp(-γdG(d(i))-G(d(j))2
式中,参数γd用于控制核的带宽,并通过与每种疾病相关的miRNA的平均数量进行归一化,得到一个新的带宽参数γ'd
miRNA的GIP矩阵KM的计算如下:
KM(m(i),m(j))=exp(-γmG(m(i))-G(m(j))2
进一步地,所述步骤S4中获得miRNA和疾病之间的潜在关联具体为:得到综合的miRNA相似度矩阵DM和综合疾病相似度矩阵DD,分别为:
将miRNA和疾病融合为属性特征如下:
Attribute_feature=concatenate(DM,DD)。
进一步地,所述步骤S5中:
所述miRNA-药物-疾病视图的构建方法为:先检索miRNA和药物样本名称,以及药物和疾病样本名称,鉴定共享相同药物的miRNAs和疾病,并在数据集中定位它们相应的位置,若通过一种药物发现miRNAm(i)和疾病d(j)之间的关联,将m_drug_d(m(i),d(j))赋值为1,否则将该值赋值为0;
所述miRNA-mRNA-疾病视图的构建方法为:先提取miRNA和mRNA、mRNA和疾病的样本名称,鉴定共享相同mRNA的miRNAs和疾病,并在数据集中定位相应的位置,若发现miRNAm(i)和疾病d(j)通过mRNA有关联,将m_mRNA_d(m(i)d(j))赋值为1,否则,将m_mRNA_d(m(i)d(j)赋值为0;
所述miRNA-lncRNA-疾病视图的构建方法为:提取miRNA和lncRNA样本的名称,以及lncRNA和疾病样本的名称,鉴定共享相同lncRNA的miRNAs和疾病,并在数据集中定位相应的位置,对每一对miRNAm(i)和疾病d(j),通过LncRNA检查是否相互关联,为m_LncRNA_d矩阵赋值,若miRNAm(i)与疾病d(j)之间存在关联,则m_LncRNA_d(m(i),d(j))为1,否则为0;
利用多视图图注意网络提取miRNA和复杂疾病的图结构特征具体为:
对视图的每个节点应用一个共享线性变换,该线性变换由一个可学习的权值矩阵W组成,注意机制由一个权重向量α表示,该视图的注意机制计算出的系数表示为:
式中,T代表转置,∥代表剪接操作。
对于视图m_drug_d,m_mRNA_d和m_LncRNA_d,新的节点表示形式定义为:
进一步地,所述步骤S6具体包括:
通过调整空间池化的大小来提取不同尺度的通道注意,构建多尺度通道注意模块,限制多尺度通道注意模块中全局上下文以最小化计算成本;采用点卷积聚合局部通道上下文,利用瓶颈层计算局部通道上下文来减少参数数量,局部通道上下文L(X)计算方式如下:
该多尺度通道注意模块同时使用全局通道上下文g(X)和局部通道上下文L(X)得到提取的特征X’,公式如下:
式中,M(X)为注意力权值广播的加法用表示,元素的乘法用/>表示。
与现有技术相比,本发明的优点在于:本发明能够利用miRNAs、复杂疾病和生物分子之间的关系来构建异构图,并使用多视图图注意网络来捕获MDA的图结构特征,利用深度学习的力量高效预测microRNA-疾病之间的关联;本发明设计了一种多尺度的注意机制,通过将局部上下文合并到注意模块内的全局上下文中,有效地融合多个结构特征。本发明通过结合不同来源的序列和相似性,提取miRNA和疾病的属性特征作为其结构特征的补充。本发明具有良好的预测性能,每个模块都调整到最优,本发明使用的深度学习算法与所有最先进的预测工具相比,其结果具有竞争力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于多视图学习的miRNA-疾病关联预测方法的流程图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
参阅图1所示,本实施例公开了一种基于多视图学习的miRNA-疾病关联预测方法,包括以下步骤:
步骤S1、获取miRNA-疾病关联数据、药物-miRNA数据、药物-疾病数据、mRNA-miRNA和mRNA-疾病数据、lncRNA-miRNA和lncRNA-疾病数据,以及来自多个物种的miRNA信息。
具体的,从数据库HMDD v3.2中获取miRNA-疾病关联,从数据库DrugBank中获取药物-miRNA和药物-疾病数据,从国家医学图书馆数据库中获取mRNA-miRNA和mRNA-疾病数据,从数据库NONCODEV5中获取lncRNA-miRNA和lncRNA-疾病数据,从miRBase数据库中获取多个物种的miRNA数据。
步骤S2、利用miRNA序列信息获取序列特征、利用疾病信息获取疾病语义相似性,具体包括以下步骤:
步骤S21、将miRNA序列转化为向量,从miRNA序列中提取相邻的长度为三的短序列,在miRNA序列上设计一个滑动窗口来计算每个子序列的频率。
步骤S22、将步骤S21中每个子序列的频率归一化,生成miRNA序列信息,用于捕获miRNA的属性特征。
步骤S23、使用MeSH数据集,并创建有向无环图描述符来描述疾病的语义相似性,生成初始疾病语义相似度矩阵SS1。本实施例还计算了另一种疾病语义相似度(SS2)。
步骤S3、计算miRNA与疾病的高斯交互谱核相似性GIP,该高斯交互谱核相似性GIP包括不同疾病之间的GIP相似性、不同miRNA之间的GIP相似性。
具体的,对于疾病高斯交互谱核相似性(GIP),将疾病d(i)的交互谱核表示为G(d(i)),疾病d(i)和d(j)之间的GIP矩阵KD定义如下:
KD(d(i),d(j))=exp(-γdG(d(i))-G(d(j))2
式中,参数γd用于控制核的带宽,并通过与每种疾病相关的miRNA的平均数量进行归一化,得到一个新的带宽参数γ'd
miRNA的GIP矩阵KM的计算如下:
KM(m(i),m(j))=exp(-γmG(m(i))-G(m(j))2
步骤S4、融合miRNA和疾病的原始特征,对miRNA序列特征矩阵、疾病语义相似度及其各自的高斯交互谱核相似性GIP进行核融合,获得miRNA和疾病之间的潜在关联。
具体的,如果miRNAm(i)与疾病d(j)相关,则A(i,j)=1;否则,A(i,j)=0。我们计算了miRNA的序列特征(FS),它可以从miRbase中获得。此外,有两种不同的方法来计算疾病的语义相似度,第一类疾病语义相似度矩阵定义为SS1,它考虑了同一层有向无环图(DAG)层中疾病术语对不同疾病语义值的不同贡献,本实施例使用不同的方法计算了第二类疾病语义相似度矩阵SS2。还计算了miRNA和疾病的GIP矩阵Gm和Gd。将核融合应用于miRNA序列特征矩阵、疾病语义相似度及其各自的GIP,得到综合的miRNA相似度矩阵DM和综合疾病相似度矩阵DD,分别为:
将miRNA和疾病融合为属性特征如下:
Attribute_feature=concatenate(DM,DD)。
步骤S5、构建多个异构图,包括miRNA-药物-疾病视图,miRNA-mRNA-疾病视图,miRNA-lncRNA-疾病视图,分别利用药物、mRNA、lncRNA发现miRNA和疾病之间的关系;利用多视图图注意网络提取miRNA和复杂疾病的图结构特征。
所述miRNA-药物-疾病视图的构建方法为:先检索miRNA和药物样本名称,以及药物和疾病样本名称,鉴定共享相同药物的miRNAs和疾病,并在数据集中定位它们相应的位置,其中包含901个miRNAs和877种疾病。若通过一种药物发现miRNAm(i)和疾病d(j)之间的关联,将m_drug_d(m(i),d(j))赋值为1,否则将该值赋值为0。
所述miRNA-mRNA-疾病视图的构建方法为:先提取miRNA和mRNA、mRNA和疾病的样本名称,鉴定共享相同mRNA的miRNAs和疾病,并在数据集中定位它们相应的位置,其中包含901个miRNAs和877种疾病。如果发现miRNAm(i)和疾病d(j)通过mRNA有关联,将m_mRNA_d(m(i)d(j))赋值为1,否则,将m_mRNA_d(m(i)d(j)赋值为0。
所述miRNA-lncRNA-疾病视图的构建方法为:提取miRNA和lncRNA样本的名称,以及lncRNA和疾病样本的名称。鉴定共享相同lncRNA的miRNAs和疾病,并在数据集中定位它们相应的位置,其中包含901个miRNAs和877种疾病。对于每一对miRNAm(i)和疾病d(j),通过LncRNA检查它们是否相互关联,为m_LncRNA_d矩阵赋值。如果miRNA m(i)与疾病d(j)之间存在关联,则m_LncRNA_d(m(i),d(j))为1,否则为0。这种方法能够更全面地探索miRNA、lncRNA和疾病之间的相互作用。
利用多视图图注意网络提取miRNA和复杂疾病的图结构特征具体为:
为了更好地提取视图的表示,对视图的每个节点应用一个共享线性变换,该线性变换由一个可学习的权值矩阵W组成,注意机制由一个权重向量α表示,该视图的注意机制计算出的系数表示为:
式中,T代表转置,∥代表剪接操作。
对于视图m_drug_d,m_mRNA_d和m_LncRNA_d,新的节点表示形式定义为:
步骤S6、利用多尺度注意机制,通过将局部上下文纳入注意模块的全局上下文中,融合多种miRNA和复杂疾病结构特征。
具体的,该步骤通过调整空间池化的大小来提取不同尺度的通道注意,构建多尺度通道注意模块,限制多尺度通道注意模块中全局上下文以最小化计算成本;采用点卷积聚合局部通道上下文,利用瓶颈层计算局部通道上下文来减少参数数量,局部通道上下文L(X)计算方式如下:
该多尺度通道注意模块同时使用全局通道上下文g(X)和局部通道上下文L(X)得到提取的特征X’,公式如下:
式中,M(X)为注意力权值广播的加法用表示,元素的乘法用/>表示。
步骤S7、将miRNA和疾病的多重嵌入聚合并输入多层感知器进行训练和预测,进行了五折和十折的交叉验证来评估模型的性能,以证明该模型的泛化能力。
实施例二
为了能够更好的说明本发明预测方法的效果,本实施例实施了严格的程序,采用交叉验证步骤使本发明的有效性得到了无偏见的评估,表1和表2分别列出了本实施例在五折和十折交叉验证方法下对miRNA-疾病关联预测的结果:
表1在五折交叉验证下本发明对miRNA-疾病关联预测的结果(Acc.:准确度Sen.:灵敏度Spec.:特异性Pre.:精确度MCC:马修斯相关系数)
表2在十折交叉验证下本发明对miRNA-疾病关联预测的结果(Acc.:准确度Sen.:灵敏度Spec.:特异性Pre.:精确度MCC:马修斯相关系数)
通过表格可以看出,本实施例在多次实验结果上均取得了较高的评价得分,这个结果表明,本发明不仅可以实现对miRNA-疾病关联的预测,而且在各评价指标下都拥有着优异的性能。
实施例三
为了测试本发明对miRNA-疾病关联的预测能力,将本发明与该领域现有的几种SOTA方法进行了比较,包括NIMCGCN,MMGCN,ERMDA,HGANMDA,AGAEMD,MINIMDA和MAGCN。通过实验比较了各种方法的性能,表3列出来各方法对miRNA-疾病关联的预测的结果。与以往的方法相比,本发明在一个独立的测试集上表现出更高的性能。
表3本实施例以及基线对比方法对miRNA-疾病关联的预测的结果(Precision:精准率Recall:召回率F1-score:F1得分)
虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。

Claims (7)

1.一种基于多视图学习的miRNA-疾病关联预测方法,其特征在于,包括以下步骤:
S1、获取miRNA-疾病关联数据、药物-miRNA数据、药物-疾病数据、mRNA-miRNA和mRNA-疾病数据、lncRNA-miRNA和lncRNA-疾病数据,以及来自多个物种的miRNA信息;
S2、利用miRNA序列信息获取序列特征、利用疾病信息获取疾病语义相似性;
S3、计算miRNA与疾病的高斯交互谱核相似性GIP,该高斯交互谱核相似性GIP包括不同疾病之间的GIP相似性、不同miRNA之间的GIP相似性;
S4、融合miRNA和疾病的原始特征,对miRNA序列特征矩阵、疾病语义相似度及其各自的高斯交互谱核相似性GIP进行核融合,获得miRNA和疾病之间的潜在关联;
S5、构建多个异构图,包括miRNA-药物-疾病视图,miRNA-mRNA-疾病视图,miRNA-lncRNA-疾病视图,分别利用药物、mRNA、lncRNA发现miRNA和疾病之间的关系;利用多视图图注意网络提取miRNA和复杂疾病的图结构特征;
S6、利用多尺度注意机制,通过将局部上下文纳入注意模块的全局上下文中,融合多种miRNA和复杂疾病结构特征;
S7、将miRNA和疾病的多重嵌入聚合并输入多层感知器进行训练和预测,进行了五折和十折的交叉验证来评估模型的性能。
2.根据权利要求1所述的基于多视图学习的miRNA-疾病关联预测方法,其特征在于,所述步骤S1从数据库HMDD v3.2中获取miRNA-疾病关联,从数据库DrugBank中获取药物-miRNA和药物-疾病数据,从国家医学图书馆数据库中获取mRNA-miRNA和mRNA-疾病数据,从数据库NONCODEV5中获取lncRNA-miRNA和lncRNA-疾病数据,从miRBase数据库中获取多个物种的miRNA数据。
3.根据权利要求1所述的基于多视图学习的miRNA-疾病关联预测方法,其特征在于,所述步骤S2具体为:
S21、将miRNA序列转化为向量,从miRNA序列中提取相邻的长度为三的短序列,在miRNA序列上设计一个滑动窗口来计算每个子序列的频率;
S22、将步骤S21中每个子序列的频率归一化,生成miRNA序列信息,用于捕获miRNA的属性特征;
S23、使用MeSH数据集,并创建有向无环图描述符来描述疾病的语义相似性,生成初始疾病语义相似度矩阵SS1。
4.根据权利要求1所述的基于多视图学习的miRNA-疾病关联预测方法,其特征在于,所述步骤S3中:
对于疾病高斯交互谱核相似性,将疾病d(i)的交互谱核表示为G(d(i)),疾病d(i)和d(j)之间的GIP矩阵KD定义如下:
KD(d(i),d(j))=exp(-γdG(d(i))-G(d(j))2
式中,参数γd用于控制核的带宽,并通过与每种疾病相关的miRNA的平均数量进行归一化,得到一个新的带宽参数γ'd
miRNA的GIP矩阵KM的计算如下:
KM(m(i),m(j))=exp(-γmG(m(i))-G(m(j))2
5.根据权利要求1所述的基于多视图学习的miRNA-疾病关联预测方法,其特征在于,所述步骤S4中获得miRNA和疾病之间的潜在关联具体为:得到综合的miRNA相似度矩阵DM和综合疾病相似度矩阵DD,分别为:
将miRNA和疾病融合为属性特征如下:
Attribute_feature=concatenate(DM,DD)。
6.根据权利要求1所述的基于多视图学习的miRNA-疾病关联预测方法,其特征在于,所述步骤S5中:
所述miRNA-药物-疾病视图的构建方法为:先检索miRNA和药物样本名称,以及药物和疾病样本名称,鉴定共享相同药物的miRNAs和疾病,并在数据集中定位它们相应的位置,若通过一种药物发现miRNAm(i)和疾病d(j)之间的关联,将m_drug_d(m(i),d(j))赋值为1,否则将该值赋值为0;
所述miRNA-mRNA-疾病视图的构建方法为:先提取miRNA和mRNA、mRNA和疾病的样本名称,鉴定共享相同mRNA的miRNAs和疾病,并在数据集中定位相应的位置,若发现miRNAm(i)和疾病d(j)通过mRNA有关联,将m_mRNA_d(m(i)d(j))赋值为1,否则,将m_mRNA_d(m(i)d(j)赋值为0;
所述miRNA-lncRNA-疾病视图的构建方法为:提取miRNA和lncRNA样本的名称,以及lncRNA和疾病样本的名称,鉴定共享相同lncRNA的miRNAs和疾病,并在数据集中定位相应的位置,对每一对miRNAm(i)和疾病d(j),通过LncRNA检查是否相互关联,为m_LncRNA_d矩阵赋值,若miRNAm(i)与疾病d(j)之间存在关联,则m_LncRNA_d(m(i),d(j))为1,否则为0;
利用多视图图注意网络提取miRNA和复杂疾病的图结构特征具体为:
对视图的每个节点应用一个共享线性变换,该线性变换由一个可学习的权值矩阵W组成,注意机制由一个权重向量α表示,该视图的注意机制计算出的系数表示为:
式中,T代表转置,∥代表剪接操作。
对于视图m_drug_d,m_mRNA_d和m_LncRNA_d,新的节点表示形式定义为:
7.根据权利要求1所述的基于多视图学习的miRNA-疾病关联预测方法,其特征在于,所述步骤S6具体包括:
通过调整空间池化的大小来提取不同尺度的通道注意,构建多尺度通道注意模块,限制多尺度通道注意模块中全局上下文以最小化计算成本;采用点卷积聚合局部通道上下文,利用瓶颈层计算局部通道上下文来减少参数数量,局部通道上下文L(X)计算方式如下:
该多尺度通道注意模块同时使用全局通道上下文g(X)和局部通道上下文L(X)得到提取的特征X’,公式如下:
式中,M(X)为注意力权值广播的加法用表示,元素的乘法用/>表示。
CN202410010463.XA 2024-01-04 2024-01-04 一种基于多视图学习的miRNA-疾病关联预测方法 Pending CN117831783A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410010463.XA CN117831783A (zh) 2024-01-04 2024-01-04 一种基于多视图学习的miRNA-疾病关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410010463.XA CN117831783A (zh) 2024-01-04 2024-01-04 一种基于多视图学习的miRNA-疾病关联预测方法

Publications (1)

Publication Number Publication Date
CN117831783A true CN117831783A (zh) 2024-04-05

Family

ID=90507546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410010463.XA Pending CN117831783A (zh) 2024-01-04 2024-01-04 一种基于多视图学习的miRNA-疾病关联预测方法

Country Status (1)

Country Link
CN (1) CN117831783A (zh)

Similar Documents

Publication Publication Date Title
Jin et al. Application of deep learning methods in biological networks
Nyamabo et al. SSI–DDI: substructure–substructure interactions for drug–drug interaction prediction
Wang et al. LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization
Li et al. Modeling and analysis of RNA‐seq data: a review from a statistical perspective
Lei et al. A comprehensive survey on computational methods of non-coding RNA and disease association prediction
Wen et al. A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network
CN110459264B (zh) 基于梯度增强决策树预测环状rna与疾病相关性的方法
Yang et al. BiGAN: LncRNA-disease association prediction based on bidirectional generative adversarial network
Dai et al. Predicting miRNA-disease associations using an ensemble learning framework with resampling method
Wekesa et al. A deep learning model for plant lncRNA-protein interaction prediction with graph attention
Wang et al. NMCMDA: neural multicategory MiRNA–disease association prediction
Bao et al. Deep learning-based advances and applications for single-cell RNA-sequencing data analysis
Zheng et al. CGMDA: an approach to predict and validate MicroRNA-disease associations by utilizing chaos game representation and LightGBM
CN113871021A (zh) 一种基于图注意力机制的circRNA与疾病关联关系预测方法
Abdolhosseini et al. Cell identity codes: understanding cell identity from gene expression profiles using deep neural networks
Li et al. A novel miRNA-disease association prediction model using dual random walk with restart and space projection federated method
Xuan et al. Integration of pairwise neighbor topologies and miRNA family and cluster attributes for miRNA–disease association prediction
CN113178232A (zh) 一种circRNA和疾病关联关系的高效预测方法
CN114944192A (zh) 一种基于图注意力的疾病相关环状rna识别方法
Ji et al. DFL-PiDA: prediction of Piwi-interacting RNA-disease associations based on deep feature learning
Knudsen et al. Artificial intelligence in pathomics and genomics of renal cell carcinoma
Kim et al. Feature selection and survival modeling in The Cancer Genome Atlas
Tang et al. A Wavelet‐Based Learning Model Enhances Molecular Prognosis in Pancreatic Adenocarcinoma
CN117079804A (zh) 一种消化系统肿瘤临床结果预测模型的构建方法及系统
Morvan et al. Supervised quantile normalisation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination