CN113539359A - 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 - Google Patents

一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 Download PDF

Info

Publication number
CN113539359A
CN113539359A CN202110821668.2A CN202110821668A CN113539359A CN 113539359 A CN113539359 A CN 113539359A CN 202110821668 A CN202110821668 A CN 202110821668A CN 113539359 A CN113539359 A CN 113539359A
Authority
CN
China
Prior art keywords
similarity
diseases
disease
lncrnas
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110821668.2A
Other languages
English (en)
Inventor
张舒欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110821668.2A priority Critical patent/CN113539359A/zh
Publication of CN113539359A publication Critical patent/CN113539359A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Genetics & Genomics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Game Theory and Decision Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Development Economics (AREA)

Abstract

本发明提出了一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法,该方法包括:通过已知数据库中的lncRNA‑disease关联利用两种疾病的有向无环图(DAG)和高斯交互剖面核相似度来计算疾病的语义相似性,利用lncRNAs的功能相似性评分和高斯相互作用谱核相似性评分来计算lncRNAs相似性。得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用。

Description

一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基 因预测方法
技术领域
本发明所涉及到的生物信息领域,更具体地说,涉及一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法。
背景技术
由于lncRNA是各种生物过程的关键调控因子,并且lncRNA的表达或功能异常与人类疾病的发生密切相关,它不仅承担遗传信息中间载体的辅助性角色,而且在各种疾病的转移和进展中发挥着至关重要的作用,随着各类研究的推进和各种lncRNAs的大量发现,lncRNAs的研究将是RNA基因组研究非常吸引人的一个方向。而且本方法可以节省实验室成本和时间成本。因此,识别lncRNAs与疾病之间的关联对于了解lncRNAs在疾病过程中起的作用非常重要,是生物信息方向的一个重要研究部分。
发明内容
根据现有的疾病相关lncRNA基因预测方法中的不足,本发明提出了一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法,该方法不仅节省实验室成本和时间成本,而且精确性高,其中本方法使用图卷积网络和神经归纳矩阵补全方法,对lncRNAs、diseases包含的特征进行学习,使之得到相应的特征矩阵,然后将学习的特征嵌入到神经归纳矩阵完成模型中,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用,最后通过整合完成预测,而且该方法的预测性能要优于其他方法,更符合生物信息领域的特点。
通过已知数据库中的lncRNA-disease关联利用两种疾病的有向无环图(DAG)和高斯交互剖面核相似度来计算疾病的语义相似性,利用lncRNAs的功能相似性评分和高斯相互作用谱核相似性评分来计算lncRNAs相似性,得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用。
该方法中所提到的数据来源于MeSH数据库和Dincrna数据库。
本发明中计算疾病之间的语义相似度值和高斯相互作用轮廓核函数是计算疾病语义相似性的主要方法,用其表示疾病之间的语义相似度,有相似性取值为1,否则为0。
给定一种疾病d,可以描述为,DAGd =(d,Nd,Ed)其中Nd是包括自身的祖先节点集,Ed是连接这些疾病的相应边集,如果疾病e在DAGd中,其对疾病d的贡献计算如下。
Figure 434321DEST_PATH_IMAGE001
其中ε是连接疾病d及e的子疾病e’的语义贡献因子,在d的DAG中,疾病d对其自身语义值的贡献被定义为1,因此,我们可以通过下面的公式来计算疾病d的语义值。
Figure 592770DEST_PATH_IMAGE002
我们通过在疾病DAG中d(i),d(j)的相对位置来计算它们之间的第一语义相似度值DS1(d(i),d(j)),公式如下:
Figure 366691DEST_PATH_IMAGE003
由于该计算DS1的模型没有考虑在DAGs中发生的疾病的数量,忽略了不同疾病的重要性,即如果疾病a只出现在DAGs(i)中,而疾病b既出现在DAG(i)中,也出现在其他疾病的DAG中的话,那么对疾病i来说a有比b更高的语义贡献值。相应公式如下:
Figure 294196DEST_PATH_IMAGE004
其中num(DAGs(e))代表包括疾病e在内的DAGs数量,num(diseases)代表所有疾病的数量,由此,我们可以得到疾病的第二个语义相似性模型,对于疾病d(i)和疾病d(j),它们之间的语义相似性值DS2可以计算如下:
Figure 465676DEST_PATH_IMAGE005
由于在MeSH数据库中只能找到部分疾病的DAG,因此,为了使疾病信息更加全面,我们引入高斯相互作用轮廓核函数计算其他疾病之间的相似程度,疾病的核函数值是从每一个已知lncRNA-disease之间的关系中导出来的:
Figure 111421DEST_PATH_IMAGE006
Figure 423454DEST_PATH_IMAGE007
其中θd表示内核带宽参数,n表示矩阵中的疾病数量,矩阵A代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Aij=1,如果Aij=0,则说明关联是未知的或未观察到的。
由此得到疾病的语义相似度矩阵为:
Figure 471044DEST_PATH_IMAGE008
如果disease di和disease dj之间有相似性,则Dij=1,否则为0,表示关联是未知的或未观察到的。
然后计算lncRNAs之间的功能相似性评分和高斯相互作用谱核相似性评分是计算lncRNAs相似性的主要方法,该方法通过lncRNA的功能相似性评分和高斯相互作用谱核相似性评分来测量lncRNA相似性,过程应该满足公式:
Figure 311961DEST_PATH_IMAGE009
其中,FS(i,j)是已知的来自Dincrna数据库的lncRNA之间的功能相似性评分,LncGS(i,j)是高斯相互作用轮廓核相似性分数,用于补充缺失的条目。LncGS的具体计算方法如下。
Figure 474696DEST_PATH_IMAGE010
Figure 121578DEST_PATH_IMAGE011
其中θl表示内核带宽参数,m表示矩阵中的疾病数量,矩阵L代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Lij=1,如果Lij=0,则说明关联是未知的或未观察到的。
得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用,相似为1,否则为0,表明关联是未知的或未观察到的。
附图说明
图1为根据本发明示例的一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法的流程图。
具体实施方式
如图1所示,本发明提出一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法。
S101: 根据已知的lncRNA-disease关联构建由lncRNA和疾病组成的二部图。
S102: 计算疾病之间的第一语义相似度值,给定一种疾病d,可以描述为,DAGd =(d,Nd,Ed)其中Nd是包括自身的祖先节点集,Ed是连接这些疾病的相应边集。如果疾病e在DAGd中,其对疾病d的贡献计算如下:
Figure 587457DEST_PATH_IMAGE001
其中ε是连接疾病d及e的子疾病e’的语义贡献因子,在d的DAG中,疾病d对其自身语义值的贡献被定义为1,因此,我们可以通过下面的公式来计算疾病d的语义值:
Figure 130433DEST_PATH_IMAGE002
我们通过在疾病DAG中d(i),d(j)的相对位置来计算它们之间的第一语义相似度值DS1(d(i),d(j)),公式如下:
Figure 485191DEST_PATH_IMAGE003
然后,通过lncRNA的功能相似性评分来测量lncRNA相似性。
S103: 计算疾病之间的第二语义相似度值由于该计算DS1的模型没有考虑在DAGs中发生的疾病的数量,忽略了不同疾病的重要性,即如果疾病a只出现在DAGs(i)中,而疾病b既出现在DAG(i)中,也出现在其他疾病的DAG中的话,那么对疾病i来说a有比b更高的语义贡献值。相应公式如下:
Figure 873447DEST_PATH_IMAGE004
其中num(DAGs(e))代表包括疾病e在内的DAGs数量,num(diseases)代表所有疾病的数量,由此,我们可以得到疾病的第二个语义相似性模型,对于疾病d(i)和疾病d(j),它们之间的语义相似性值DS2可以计算如下。
Figure 140305DEST_PATH_IMAGE005
S104:为了使疾病信息更加全面,引入高斯相互作用轮廓核函数来计算其他疾病的相似度,疾病的高斯相互作用轮廓核函数值是从每一个已知的lncRNA-disease之间的关系中导出来的:
Figure 323024DEST_PATH_IMAGE006
Figure 899499DEST_PATH_IMAGE007
其中θd表示内核带宽参数,n表示矩阵中的疾病数量,矩阵A代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Aij=1,如果Aij=0,则说明关联是未知的或未观察到的,由此得到疾病的语义相似度矩阵为:
Figure 357025DEST_PATH_IMAGE008
如果disease di和disease dj之间有相似性,则Dij=1,否则为0,表示关联是未知的或未观察到的,然后通过高斯相互作用谱核相似性评分来测量lncRNA相似性,过程应该满足公式:
Figure 436977DEST_PATH_IMAGE009
其中,FS(i,j)是已知的来自Dincrna数据库的lncRNA之间的功能相似性评分,LncGS(i,j)是高斯相互作用轮廓核相似性分数,用于补充缺失的条目。LncGS的具体计算方法如下:
Figure 56177DEST_PATH_IMAGE010
Figure 854369DEST_PATH_IMAGE011
其中θl表示内核带宽参数,m表示矩阵中的疾病数量,矩阵L代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Lij=1,如果Lij=0,则说明关联是未知的或未观察到的。
S105:利用图卷积网络来监督学习疾病和lncRNAs的潜在特征。
S106: 利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用,最后得到完整的 lncRNA-疾病关联。
S107:最终得到完整的lncRNA-disease关联。

Claims (4)

1.一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法,所述方法如下:通过已知数据库中的lncRNA-disease关联利用两种疾病的有向无环图(DAG)和高斯交互剖面核相似度来计算疾病的语义相似性,利用lncRNAs的功能相似性评分和高斯相互作用谱核相似性评分来计算lncRNAs相似性,得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用。
2.根据权利要求书1中的方法,计算疾病之间的语义相似度值和高斯相互作用轮廓核函数是计算疾病语义相似性的主要方法,用其表示疾病之间的语义相似度,有相似性取值为1,否则为0,我们通过在疾病DAG中d(i),d(j)的相对位置来计算它们之间的第一语义相似度值DS1(d(i),d(j)),由于该计算DS1的模型没有考虑在DAGs中发生的疾病的数量,忽略了不同疾病的重要性,由此,我们可以通过计算疾病的语义贡献值得到疾病的第二个语义相似性模型,由于在MeSH数据库中只能找到部分疾病的DAG,因此,为了使疾病信息更加全面,我们引入高斯相互作用轮廓核函数计算其他疾病之间的相似程度,如果disease di和disease dj之间有相似性,则Dij=1,否则为0,表示关联是未知的或未观察到的。
3.根据权利要求书1中的方法,计算lncRNAs之间的功能相似性评分和高斯相互作用谱核相似性评分是计算lncRNAs相似性的主要方法,该方法通过lncRNA的功能相似性评分和高斯相互作用谱核相似性评分来测量lncRNA相似性,用矩阵L代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Lij=1,如果Lij=0,则说明关联是未知的或未观察到的。
4.根据权利要求书1中的方法,得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用。
CN202110821668.2A 2021-07-20 2021-07-20 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 Pending CN113539359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110821668.2A CN113539359A (zh) 2021-07-20 2021-07-20 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110821668.2A CN113539359A (zh) 2021-07-20 2021-07-20 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法

Publications (1)

Publication Number Publication Date
CN113539359A true CN113539359A (zh) 2021-10-22

Family

ID=78100583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110821668.2A Pending CN113539359A (zh) 2021-07-20 2021-07-20 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法

Country Status (1)

Country Link
CN (1) CN113539359A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360730A (zh) * 2021-11-29 2022-04-15 山东师范大学 基于多视图图卷积网络的微生物-疾病关联预测方法
CN114496092A (zh) * 2022-02-09 2022-05-13 中南林业科技大学 基于图卷积网络的miRNA和疾病关联关系预测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360730A (zh) * 2021-11-29 2022-04-15 山东师范大学 基于多视图图卷积网络的微生物-疾病关联预测方法
CN114496092A (zh) * 2022-02-09 2022-05-13 中南林业科技大学 基于图卷积网络的miRNA和疾病关联关系预测方法
CN114496092B (zh) * 2022-02-09 2024-05-03 中南林业科技大学 基于图卷积网络的miRNA和疾病关联关系预测方法

Similar Documents

Publication Publication Date Title
CN112635063B (zh) 一种肺癌预后综合预测模型、构建方法及装置
CN105279397B (zh) 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN112784913B (zh) 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN113539359A (zh) 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法
CN110442911B (zh) 一种基于统计机器学习的高维复杂系统不确定性分析方法
Cheng et al. Graph-regularized dual Lasso for robust eQTL mapping
CN107506617B (zh) 半局部社交信息miRNA-疾病关联性预测方法
CN113409892B (zh) 基于图神经网络的miRNA-疾病关联关系预测方法
CN113113155A (zh) 一种基于神经网络与seir模型的传染病趋势预测方法
CN109670543A (zh) 一种数据融合方法及装置
CN112925857A (zh) 基于谓语类型预测关联的数字信息驱动的系统和方法
CN106778063A (zh) 一种基于图模型的蛋白质复合物识别方法
CN107402859A (zh) 软件功能验证系统及其验证方法
CN115798598A (zh) 一种基于超图的miRNA-疾病关联预测模型及方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN111178526A (zh) 一种基于元学习的变分随机特征的核方法
CN114978931B (zh) 基于流形学习的网络流量预测方法、装置及存储介质
CN112151184B (zh) 基于网络表示学习的计算疾病相似度系统
CN113889274B (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
CN114240539B (zh) 一种基于Tucker分解和知识图谱的商品推荐方法
CN112036541B (zh) 一种基于遗传算法优化神经网络的织物疵点检测方法
CN111816259B (zh) 基于网络表示学习的不完整多组学数据集成方法
CN115295156A (zh) 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法
Wang et al. The graph-guided group lasso for genome-wide association studies
CN111797300A (zh) 基于重要性负采样的知识表示学习模型及负采样框架构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211022