CN113539359A - 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 - Google Patents
一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 Download PDFInfo
- Publication number
- CN113539359A CN113539359A CN202110821668.2A CN202110821668A CN113539359A CN 113539359 A CN113539359 A CN 113539359A CN 202110821668 A CN202110821668 A CN 202110821668A CN 113539359 A CN113539359 A CN 113539359A
- Authority
- CN
- China
- Prior art keywords
- similarity
- diseases
- disease
- lncrnas
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 133
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 133
- 108020005198 Long Noncoding RNA Proteins 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000011159 matrix material Substances 0.000 title claims abstract description 26
- 230000001537 neural effect Effects 0.000 title claims abstract description 22
- 230000006698 induction Effects 0.000 title claims abstract description 15
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 8
- 230000009469 supplementation Effects 0.000 title claims abstract description 7
- 230000003993 interaction Effects 0.000 claims abstract description 26
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 125000002015 acyclic group Chemical group 0.000 claims abstract description 3
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Genetics & Genomics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Game Theory and Decision Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Development Economics (AREA)
Abstract
本发明提出了一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法,该方法包括:通过已知数据库中的lncRNA‑disease关联利用两种疾病的有向无环图(DAG)和高斯交互剖面核相似度来计算疾病的语义相似性,利用lncRNAs的功能相似性评分和高斯相互作用谱核相似性评分来计算lncRNAs相似性。得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用。
Description
技术领域
本发明所涉及到的生物信息领域,更具体地说,涉及一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法。
背景技术
由于lncRNA是各种生物过程的关键调控因子,并且lncRNA的表达或功能异常与人类疾病的发生密切相关,它不仅承担遗传信息中间载体的辅助性角色,而且在各种疾病的转移和进展中发挥着至关重要的作用,随着各类研究的推进和各种lncRNAs的大量发现,lncRNAs的研究将是RNA基因组研究非常吸引人的一个方向。而且本方法可以节省实验室成本和时间成本。因此,识别lncRNAs与疾病之间的关联对于了解lncRNAs在疾病过程中起的作用非常重要,是生物信息方向的一个重要研究部分。
发明内容
根据现有的疾病相关lncRNA基因预测方法中的不足,本发明提出了一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法,该方法不仅节省实验室成本和时间成本,而且精确性高,其中本方法使用图卷积网络和神经归纳矩阵补全方法,对lncRNAs、diseases包含的特征进行学习,使之得到相应的特征矩阵,然后将学习的特征嵌入到神经归纳矩阵完成模型中,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用,最后通过整合完成预测,而且该方法的预测性能要优于其他方法,更符合生物信息领域的特点。
通过已知数据库中的lncRNA-disease关联利用两种疾病的有向无环图(DAG)和高斯交互剖面核相似度来计算疾病的语义相似性,利用lncRNAs的功能相似性评分和高斯相互作用谱核相似性评分来计算lncRNAs相似性,得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用。
该方法中所提到的数据来源于MeSH数据库和Dincrna数据库。
本发明中计算疾病之间的语义相似度值和高斯相互作用轮廓核函数是计算疾病语义相似性的主要方法,用其表示疾病之间的语义相似度,有相似性取值为1,否则为0。
给定一种疾病d,可以描述为,DAGd =(d,Nd,Ed)其中Nd是包括自身的祖先节点集,Ed是连接这些疾病的相应边集,如果疾病e在DAGd中,其对疾病d的贡献计算如下。
其中ε是连接疾病d及e的子疾病e’的语义贡献因子,在d的DAG中,疾病d对其自身语义值的贡献被定义为1,因此,我们可以通过下面的公式来计算疾病d的语义值。
我们通过在疾病DAG中d(i),d(j)的相对位置来计算它们之间的第一语义相似度值DS1(d(i),d(j)),公式如下:
由于该计算DS1的模型没有考虑在DAGs中发生的疾病的数量,忽略了不同疾病的重要性,即如果疾病a只出现在DAGs(i)中,而疾病b既出现在DAG(i)中,也出现在其他疾病的DAG中的话,那么对疾病i来说a有比b更高的语义贡献值。相应公式如下:
其中num(DAGs(e))代表包括疾病e在内的DAGs数量,num(diseases)代表所有疾病的数量,由此,我们可以得到疾病的第二个语义相似性模型,对于疾病d(i)和疾病d(j),它们之间的语义相似性值DS2可以计算如下:
由于在MeSH数据库中只能找到部分疾病的DAG,因此,为了使疾病信息更加全面,我们引入高斯相互作用轮廓核函数计算其他疾病之间的相似程度,疾病的核函数值是从每一个已知lncRNA-disease之间的关系中导出来的:
其中θd表示内核带宽参数,n表示矩阵中的疾病数量,矩阵A代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Aij=1,如果Aij=0,则说明关联是未知的或未观察到的。
由此得到疾病的语义相似度矩阵为:
如果disease di和disease dj之间有相似性,则Dij=1,否则为0,表示关联是未知的或未观察到的。
然后计算lncRNAs之间的功能相似性评分和高斯相互作用谱核相似性评分是计算lncRNAs相似性的主要方法,该方法通过lncRNA的功能相似性评分和高斯相互作用谱核相似性评分来测量lncRNA相似性,过程应该满足公式:
其中,FS(i,j)是已知的来自Dincrna数据库的lncRNA之间的功能相似性评分,LncGS(i,j)是高斯相互作用轮廓核相似性分数,用于补充缺失的条目。LncGS的具体计算方法如下。
其中θl表示内核带宽参数,m表示矩阵中的疾病数量,矩阵L代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Lij=1,如果Lij=0,则说明关联是未知的或未观察到的。
得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用,相似为1,否则为0,表明关联是未知的或未观察到的。
附图说明
图1为根据本发明示例的一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法的流程图。
具体实施方式
如图1所示,本发明提出一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法。
S101: 根据已知的lncRNA-disease关联构建由lncRNA和疾病组成的二部图。
S102: 计算疾病之间的第一语义相似度值,给定一种疾病d,可以描述为,DAGd =(d,Nd,Ed)其中Nd是包括自身的祖先节点集,Ed是连接这些疾病的相应边集。如果疾病e在DAGd中,其对疾病d的贡献计算如下:
其中ε是连接疾病d及e的子疾病e’的语义贡献因子,在d的DAG中,疾病d对其自身语义值的贡献被定义为1,因此,我们可以通过下面的公式来计算疾病d的语义值:
我们通过在疾病DAG中d(i),d(j)的相对位置来计算它们之间的第一语义相似度值DS1(d(i),d(j)),公式如下:
然后,通过lncRNA的功能相似性评分来测量lncRNA相似性。
S103: 计算疾病之间的第二语义相似度值由于该计算DS1的模型没有考虑在DAGs中发生的疾病的数量,忽略了不同疾病的重要性,即如果疾病a只出现在DAGs(i)中,而疾病b既出现在DAG(i)中,也出现在其他疾病的DAG中的话,那么对疾病i来说a有比b更高的语义贡献值。相应公式如下:
其中num(DAGs(e))代表包括疾病e在内的DAGs数量,num(diseases)代表所有疾病的数量,由此,我们可以得到疾病的第二个语义相似性模型,对于疾病d(i)和疾病d(j),它们之间的语义相似性值DS2可以计算如下。
S104:为了使疾病信息更加全面,引入高斯相互作用轮廓核函数来计算其他疾病的相似度,疾病的高斯相互作用轮廓核函数值是从每一个已知的lncRNA-disease之间的关系中导出来的:
其中θd表示内核带宽参数,n表示矩阵中的疾病数量,矩阵A代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Aij=1,如果Aij=0,则说明关联是未知的或未观察到的,由此得到疾病的语义相似度矩阵为:
如果disease di和disease dj之间有相似性,则Dij=1,否则为0,表示关联是未知的或未观察到的,然后通过高斯相互作用谱核相似性评分来测量lncRNA相似性,过程应该满足公式:
其中,FS(i,j)是已知的来自Dincrna数据库的lncRNA之间的功能相似性评分,LncGS(i,j)是高斯相互作用轮廓核相似性分数,用于补充缺失的条目。LncGS的具体计算方法如下:
其中θl表示内核带宽参数,m表示矩阵中的疾病数量,矩阵L代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Lij=1,如果Lij=0,则说明关联是未知的或未观察到的。
S105:利用图卷积网络来监督学习疾病和lncRNAs的潜在特征。
S106: 利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用,最后得到完整的 lncRNA-疾病关联。
S107:最终得到完整的lncRNA-disease关联。
Claims (4)
1.一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法,所述方法如下:通过已知数据库中的lncRNA-disease关联利用两种疾病的有向无环图(DAG)和高斯交互剖面核相似度来计算疾病的语义相似性,利用lncRNAs的功能相似性评分和高斯相互作用谱核相似性评分来计算lncRNAs相似性,得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用。
2.根据权利要求书1中的方法,计算疾病之间的语义相似度值和高斯相互作用轮廓核函数是计算疾病语义相似性的主要方法,用其表示疾病之间的语义相似度,有相似性取值为1,否则为0,我们通过在疾病DAG中d(i),d(j)的相对位置来计算它们之间的第一语义相似度值DS1(d(i),d(j)),由于该计算DS1的模型没有考虑在DAGs中发生的疾病的数量,忽略了不同疾病的重要性,由此,我们可以通过计算疾病的语义贡献值得到疾病的第二个语义相似性模型,由于在MeSH数据库中只能找到部分疾病的DAG,因此,为了使疾病信息更加全面,我们引入高斯相互作用轮廓核函数计算其他疾病之间的相似程度,如果disease di和disease dj之间有相似性,则Dij=1,否则为0,表示关联是未知的或未观察到的。
3.根据权利要求书1中的方法,计算lncRNAs之间的功能相似性评分和高斯相互作用谱核相似性评分是计算lncRNAs相似性的主要方法,该方法通过lncRNA的功能相似性评分和高斯相互作用谱核相似性评分来测量lncRNA相似性,用矩阵L代表已知的lncRNAs和疾病之间是否有联系,如果lncRNAs和疾病之间有关系,则Lij=1,如果Lij=0,则说明关联是未知的或未观察到的。
4.根据权利要求书1中的方法,得到疾病的语义相似性和lncRNAs的功能相似性之后利用图卷积网络来监督学习疾病和lncRNAs的潜在特征,之后利用神经归纳矩阵补全方法,使用非线性神经评级模型来捕捉lncRNA和疾病特征之间复杂和微妙的相互作用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110821668.2A CN113539359A (zh) | 2021-07-20 | 2021-07-20 | 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110821668.2A CN113539359A (zh) | 2021-07-20 | 2021-07-20 | 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113539359A true CN113539359A (zh) | 2021-10-22 |
Family
ID=78100583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110821668.2A Pending CN113539359A (zh) | 2021-07-20 | 2021-07-20 | 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539359A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360730A (zh) * | 2021-11-29 | 2022-04-15 | 山东师范大学 | 基于多视图图卷积网络的微生物-疾病关联预测方法 |
CN114496092A (zh) * | 2022-02-09 | 2022-05-13 | 中南林业科技大学 | 基于图卷积网络的miRNA和疾病关联关系预测方法 |
-
2021
- 2021-07-20 CN CN202110821668.2A patent/CN113539359A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360730A (zh) * | 2021-11-29 | 2022-04-15 | 山东师范大学 | 基于多视图图卷积网络的微生物-疾病关联预测方法 |
CN114496092A (zh) * | 2022-02-09 | 2022-05-13 | 中南林业科技大学 | 基于图卷积网络的miRNA和疾病关联关系预测方法 |
CN114496092B (zh) * | 2022-02-09 | 2024-05-03 | 中南林业科技大学 | 基于图卷积网络的miRNA和疾病关联关系预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112635063B (zh) | 一种肺癌预后综合预测模型、构建方法及装置 | |
CN105279397B (zh) | 一种识别蛋白质相互作用网络中关键蛋白质的方法 | |
CN112784913B (zh) | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 | |
CN113539359A (zh) | 一种基于神经归纳矩阵补充的图卷积网络疾病相关lncRNA基因预测方法 | |
CN110442911B (zh) | 一种基于统计机器学习的高维复杂系统不确定性分析方法 | |
Cheng et al. | Graph-regularized dual Lasso for robust eQTL mapping | |
CN107506617B (zh) | 半局部社交信息miRNA-疾病关联性预测方法 | |
CN113409892B (zh) | 基于图神经网络的miRNA-疾病关联关系预测方法 | |
CN113113155A (zh) | 一种基于神经网络与seir模型的传染病趋势预测方法 | |
CN109670543A (zh) | 一种数据融合方法及装置 | |
CN112925857A (zh) | 基于谓语类型预测关联的数字信息驱动的系统和方法 | |
CN106778063A (zh) | 一种基于图模型的蛋白质复合物识别方法 | |
CN107402859A (zh) | 软件功能验证系统及其验证方法 | |
CN115798598A (zh) | 一种基于超图的miRNA-疾病关联预测模型及方法 | |
CN110491443B (zh) | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 | |
CN111178526A (zh) | 一种基于元学习的变分随机特征的核方法 | |
CN114978931B (zh) | 基于流形学习的网络流量预测方法、装置及存储介质 | |
CN112151184B (zh) | 基于网络表示学习的计算疾病相似度系统 | |
CN113889274B (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
CN114240539B (zh) | 一种基于Tucker分解和知识图谱的商品推荐方法 | |
CN112036541B (zh) | 一种基于遗传算法优化神经网络的织物疵点检测方法 | |
CN111816259B (zh) | 基于网络表示学习的不完整多组学数据集成方法 | |
CN115295156A (zh) | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 | |
Wang et al. | The graph-guided group lasso for genome-wide association studies | |
CN111797300A (zh) | 基于重要性负采样的知识表示学习模型及负采样框架构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211022 |