CN115691817A - 一种基于融合神经网络的LncRNA-疾病关联预测方法 - Google Patents
一种基于融合神经网络的LncRNA-疾病关联预测方法 Download PDFInfo
- Publication number
- CN115691817A CN115691817A CN202211451740.8A CN202211451740A CN115691817A CN 115691817 A CN115691817 A CN 115691817A CN 202211451740 A CN202211451740 A CN 202211451740A CN 115691817 A CN115691817 A CN 115691817A
- Authority
- CN
- China
- Prior art keywords
- lncrna
- disease
- prediction
- equation
- diseases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种基于融合神经网络FNN(Fusion Neural Networks,FNN)和栈式自编码器(Stacked Autoencoder,SAE)的LncRNA‑疾病关联预测方法,属于LncRNA与疾病关联预测技术领域。首先,整合LncRNA功能相似性、疾病语义相似性、LncRNA‑疾病互作、LncRNA‑miRNA相互作用以及miRNA‑疾病关联多源数据构建特征矩阵;其次,基于SAE模块学习LncRNA‑疾病对的低维网络表示,基于融合神经网络FNN模块进行高阶特征的提取,学习LncRNA‑疾病时间依赖和共享参数的高级特征,两个模块都经过全连接层和softmax层,得到LncRNA‑疾病的相关可能性即关联得分;最后,赋予两个模块的预测分值不同的权值,对分值进行加权融合得到预测得分,从而筛选出与疾病关联的潜在LncRNA,为科研人员确定与疾病关联的候选LncRNA提供辅助决策。
Description
技术领域
本发明属于LncRNA与疾病关联预测技术领域,尤其涉及一种基于融合神经网络的LncRNA与疾病关联预测方法。
背景技术
长非编码RNA(Long non-coding RNA,LncRNA)是一种非蛋白编码RNA,其长度超过200个核苷酸,过去人们普遍认为LncRNA对基因表达几乎没有影响。目前,诸多研究表明人类身体各种复杂疾病(如癌症)的形成发展与LncRNA的突变和失调的病理机制密切相关。LncRNA GMAN或ephrin A1的调节机制在胃肿瘤转移和发展过程中发挥了重要的调控作用;在癌症进行免疫治疗过程中,命名为LIMIT的癌症免疫原性LncRNA可能是治疗靶点;LncRNA-HOTAIR在不同的癌细胞中扮演着致癌分子的角色,其表达水平是乳腺癌、胃癌、结直肠癌和宫颈癌等癌症诊断和治疗的潜在生物标志物。因此,识别疾病相关的LncRNA将有助于在LncRNA水平上了解人类复杂的疾病机制、疾病诊断和治疗。近年来随着生物技术的发展,实验发现的LncRNA-疾病关联数据逐渐增加,研究者整理这些数据并建立了LncRNADisease、Lnc2Cancer、HDMM等LncRNA-疾病关联数据库。目前,已知的LncRNA-疾病关联仅仅只是小部分,而生物实验验证耗时长且成本昂贵。随着人工智能技术的发展和大数据技术的成熟,研究人员利用计算方法分析和处理已知数据,能够加速发现LncRNA和疾病之间的潜在关联,已成为生物实验识别LncRNA-疾病关联的有效补充。基于计算的LncRNA-疾病关联预测方法分为基于矩阵分解的方法和基于机器学习的方法两类。目前,由于生物数据的完整性、模型选择和实验设计等各个方面仍存在一定的局限性,现有的LncRNA-疾病预测方法仍然面临着许多挑战。
发明内容
本发明目的是提供一种预测精准度更高的关联预测方法,为实现这一目地,本发明基于LncRNA与疾病关联数据来源类型多,特征提取不够充分的特点,提出一种基于融合神经网络和栈式自编码器的LncRNA与疾病关联预测方法,整体框架见图1所示,本发明技术方案的整体步骤如下:
1)整合了LncRNA相似性、疾病相似性、LncRNA-疾病关联、LncRNA-miRNA相互作用
以及miRNA-疾病关联等多源数据构建特征矩阵,并将构建的特征矩阵分别输入到方法的两
个模块,其中LncRNA 和疾病 关联特征示例见图2所示;
2)基于栈氏自编码器SAE的特征提取模块学习LncRNA-疾病对的低维网络表示,基于融合神经网络FNN的特征提取模块充分利用卷积神经网络(Convolutional NeuralNetwork,CNN)和长短期记忆递归神经网络(Long Short Term Memory,LSTM)的不同优势,学习LncRNA-疾病时间依赖和共享参数的高级特征。两个模块都经过全连接层和softmax层,得到LncRNA-疾病的相关可能性即关联得分;
3)最后赋予两个模块的预测分值不同的权值,对分值进行加权融合得到预测得分,从而筛选出疾病相关LncRNA。
附图说明
图1体系结构图
图2 LncRNA l 1 和疾病d 2 关联特征示例图。
具体实施方式
本发明的一种基于融合神经网络FNN(Fusion Neural Networks,FNN)和栈式自编码器(Stacked Autoencoder,SAE)的LncRNA-疾病关联预测方法,整体框架见图1所示,整体步骤如下:
步骤1:整合LncRNA功能相似性、疾病语义相似性、LncRNA-疾病互作、LncRNA-miRNA相互作用以及miRNA-疾病关联多源数据构建特征矩阵;
步骤2:基于SAE模块学习LncRNA-疾病对的低维网络表示,基于融合神经网络FNN模块进行高阶特征的提取,学习LncRNA-疾病时间依赖和共享参数的高级特征;两个模块都经过全连接层和softmax层,得到LncRNA-疾病的相关可能性即关联得分;
步骤3:赋予两个模块的预测分值不同的权值,对分值进行加权融合得到预测得分,筛选出疾病相关LncRNA。
根据权利要求1所述LncRNA-疾病关联预测方法,从生物学角度构建数据特征,整合来自多个来源的LncRNAs、疾病和miRNAs的关联、相似性等异质数据,构建LncRNA功能相似性特征、疾病语义相似性特征和LncRNA-疾病关联特征;
LncRNA功能相似性特征构建方式如下:在已经验证的生物数据库中发现相似的
LncRNA可能与相似的疾病有关联,通过计算两种疾病的相似衡量LncRNA之间的功能相似
度;采用LncRNA之间的功能相似度算法计算两种LncRNA的功能相似度,构建LncRNA功能相
似性矩阵LS,LS(i,j)表示LncRNA l(i)与LncRNA l(j)之间的相似度,其值在0~1之间变化; 越接近于1,表示l(i)和l(j)越相似;LS作为栈氏自编码器特征提取模块的输入;
疾病语义相似性特征构建方式如下:根据疾病的DAGs模型提取疾病之间的语义相似性,完成对疾病的语义相似度的权值定义,构建疾病语义相似度矩阵DS;DS(i,j)表示疾病之间的语义相似度,取值范围为0~1,DS(i,j)越接近于1,表示d(i)和d(j)越相似;DS作为栈氏自编码器特征提取模块的另一个输入;
LncRNA-疾病关联特征构建方式如下:根据生物信息库中已证实的LncRNA-疾病、
LncRNA-miRNA、疾病-miRNA之间所存在的相互影响作用,分别构建由LncRNA与疾病组成的
关系矩阵 、LncRNA与miRNA组成的关系矩阵
以及疾病与miRNA组成的关系矩阵 ,LD、LM和DM取值均为0或1,若
LncRNA l i 与miRNA mj相互作用,LMij=1,反之 LMij=0;对于LncRNA l i 和疾病 d j ,如果与它们
相关联的LncRNA、疾病以及miRNA及其互作关系有较多的相同,那么l i 和d j 的关联性将很大;
将LncRNA l i 和所有LncRNA的相似关系记作 x1,l i 与所有疾病的互作关系用向量x2 表示,l i 与每个miRNA的相互作用用向量x3 表示;与l i 类似方法,疾病d j 与所有LncRNA的互作关系
用向量y1表示,疾病d j 与各个疾病的语义相似性记为y2,向量y3表示疾病d j 与每个miRNA的互
作关系,LncRNA l 1 和疾病d 2 构建的特征矩阵拼接;属性向量通过公式(1)进行拼接:
从而得到LncRNA l 1 和疾病d 2 的属性关联嵌入矩阵 T,其中,(Nl+Nd+Nm) ×2表示为关联矩阵 T 的维度;该LncRNA和疾病的关联嵌入矩阵 T 作为基于融合神经网络FNN的特征提取模块的输入。
根据权利要求1所述LncRNA-疾病关联预测方法,融合栈式自编码器SAE和融合神经网络FNN两个模块构建预测方法,两个模块都经过全连接层和softmax层,得到LncRNA-疾病的相关可能性即关联得分;
基于栈氏自编码器SAE的特征提取模块:栈式自编码器模块由多个自动编码器形成深层神经网络,每层包含一定数量的神经元且每层输出连接到连续层的隐藏单元相同;在该特征提取模块,设置输出维度设为32,迭代次数为100,batchsize参数为128;该模块将LncRNA相似性特征矩阵LS和疾病相似性特征矩阵DS作为输入,分别送入由多个连接层组成的两个自编码器进行特征学习,生成高阶特征向量;最后采用多层感知机(MuLti-LayerPerceptorn, MLP)网络模型,实现评分预估,将高阶特征向量F馈入到全连接层,表示如公式2所示:
其中,L表示多层感知机的第L层,WL、bL分别表示L层的权值矩阵和偏置向量;σL为激活函数;用于预测方法收敛的ReLU函数的如公式3所示:
通过最小化目标函数对模型进行训练,从而达到损失最小化,使用交叉熵代价函数C获得最佳预测,如公式4所示:
其中,x表示训练样本的索引,t表示不同标签的索引,y表示样本的真实标签,a表示样本x模型输出;
在最后的多层感知机MLP中获得每种LncRNA与疾病之间关联的最终预测,当预测的每个LncRNA-疾病样本对超过阈值时,认为该LncRNA与潜在的疾病具有相关性;Softmax激活函数的功能是将未归一化的输入映射到一组指数化和归一化的概率中,该模块使用Softmax函数计算LncRNA和疾病的关联概率 Score1,关联概率Score1计算方法如公式5所示:
其中,W代表参数矩阵,b为偏置向量,Z sae 为输入特征向量;
基于融合神经网络FNN的特征提取模块:利用融合神经网络对LncRNA和疾病构建的特征矩阵进行特征提取;在特征学习之前,为了充分学习特征边缘的信息,在每次输入前对输入层的周围进行补零操作,执行过程见公式6-12;
其中,f是LncRNA和疾病构建的特征矩阵,作为CNN+LSTM网络的输入模块,σ(sigmoid)用于模型计算的损失函数,tanh表示激活函数,⊙符号用于点乘的计算,W表示权重矩阵,b为偏置向量参数;在CNN卷积神经网络部分,首先使用一个具有5个卷积核的卷积层,然后对数据进行最大池化降维,总共交替使用3个卷积层和池化层,以获得更重要的更深层次的信息;在LSTM循环神经网络部分,使用一层10个神经元的双向LSTM,最后基于全连接层,用ReLU激活函数进行馈入,统一维数为32维;
构建的特征矩阵经过融合神经网络之后,会经过一个全连接层来获取关联预测的概率分值Score2;融合卷积后不同特征图展平合并为一维向量Z fnn ,预测概率见公式13所示:
其中,W参数矩阵,b为偏置向量,Z fnn 为输入特征向量。
根据权利要求1所述LncRNA-疾病关联预测方法,赋予两侧预测模块不同的权值,对预测分值进行加权融合来预测LncRNA-疾病的关系,融合方法见公式14所示:
其中,μ表示左侧基于栈式自编码器的关联预测模块对关联预测分值的贡献,1-μ表示右侧基于融合神经网络的关联预测模型对关联预测分值的贡献,Score是一个向量,包含LncRNA和疾病有关联的预测分值和无关联的预测分值;
当预测有关联的分值比预测无关联的分值大时,就可以认为该LncRNA-疾病是有关联的,否则,则认为LncRNA和疾病就没有关联。
Claims (4)
1.一种基于融合神经网络FNN(Fusion Neural Networks,FNN)和栈式自编码器(Stacked Autoencoder,SAE)的LncRNA-疾病关联预测方法,整体步骤如下:
步骤1:整合LncRNA功能相似性、疾病语义相似性、LncRNA-疾病互作、LncRNA-miRNA相互作用以及miRNA-疾病关联多源数据构建特征矩阵;
步骤2:基于SAE模块学习LncRNA-疾病对的低维网络表示,基于融合神经网络FNN模块进行高阶特征的提取,学习LncRNA-疾病时间依赖和共享参数的高级特征;两个模块都经过全连接层和softmax层,得到LncRNA-疾病的相关可能性即关联得分;
步骤3:赋予两个模块的预测分值不同的权值,对分值进行加权融合得到预测得分,筛选出疾病相关LncRNA。
2.根据权利要求1所述的LncRNA-疾病关联预测方法,从生物学角度构建数据特征,整合来自多个来源的LncRNAs、疾病和miRNAs的关联、相似性等异质数据,构建LncRNA功能相似性特征、疾病语义相似性特征和LncRNA-疾病关联特征;
其中LncRNA功能相似性特征构建方式如下:在已经验证的生物数据库中发现相似的LncRNA可能与相似的疾病有关联,通过计算两种疾病的相似衡量LncRNA之间的功能相似度;采用LncRNA之间的功能相似度算法计算两种LncRNA的功能相似度,构建LncRNA功能相似性矩阵LS,LS(i,j)表示LncRNA l(i)与LncRNA l(j)之间的相似度,其值在0~1之间变化;LS(i,j)越接近于1,表示l(i)和l(j)越相似;LS作为栈氏自编码器特征提取模块的输入;
疾病语义相似性特征构建方式如下:根据疾病的DAGs模型提取疾病之间的语义相似性,完成对疾病的语义相似度的权值定义,构建疾病语义相似度矩阵DS;DS(i,j)表示疾病之间的语义相似度,取值范围为0~1,DS(i,j)越接近于1,表示d(i)和d(j)越相似;DS作为栈氏自编码器特征提取模块的另一个输入;
LncRNA-疾病关联特征构建方式如下:根据生物信息库中已证实的LncRNA-疾病、
LncRNA-miRNA、疾病-miRNA之间所存在的相互影响作用,分别构建由LncRNA与疾病组成的
关系矩阵、LncRNA与miRNA组成的关系矩阵以及疾病与
miRNA组成的关系矩阵 ,LD、LM和DM取值均为0或1,若LncRNA l i 与miRNA
mj相互作用,LMij=1,反之 LMij=0;对于LncRNA l i 和疾病 d j ,如果与它们相关联的LncRNA、
疾病以及miRNA及其互作关系有较多的相同,那么l i 和d j 的关联性将很大;将LncRNA l i 和
所有LncRNA的相似关系记作 x1,l i 与所有疾病的互作关系用向量x2 表示,l i 与每个miRNA的
相互作用用向量x3 表示;与l i 类似方法,疾病d j 与所有LncRNA的互作关系用向量y1表示,疾
病d j 与各个疾病的语义相似性记为y2,向量y3表示疾病d j 与每个miRNA的互作关系,LncRNA l 1 和疾病d 2 构建的特征矩阵拼接;属性向量通过公式(1)进行拼接:
从而得到LncRNA l 1 和疾病d 2 的属性关联嵌入矩阵 T,其中,(Nl+Nd+Nm) ×2表示为关联矩阵 T 的维度;该LncRNA和疾病的关联嵌入矩阵 T 作为基于融合神经网络FNN的特征提取模块的输入。
3.根据权利要求1所述的LncRNA-疾病关联预测方法,融合栈式自编码器SAE和融合神经网络FNN两个模块构建预测方法,两个模块都经过全连接层和softmax层,得到LncRNA-疾病的相关可能性即关联得分;
基于栈氏自编码器SAE的特征提取模块:栈式自编码器模块由多个自动编码器形成深层神经网络,每层包含一定数量的神经元且每层输出连接到连续层的隐藏单元相同;在该特征提取模块,设置输出维度设为32,迭代次数为100,batchsize参数为128;该模块将LncRNA相似性特征矩阵LS和疾病相似性特征矩阵DS作为输入,分别送入由多个连接层组成的两个自编码器进行特征学习,生成高阶特征向量;最后采用多层感知机(MuLti-LayerPerceptorn, MLP)网络模型,实现评分预估,将高阶特征向量F馈入到全连接层,表示如公式2所示:
其中,L表示多层感知机的第L层,WL、bL分别表示L层的权值矩阵和偏置向量;σL为激活函数;用于预测方法收敛的ReLU函数的如公式3所示:
通过最小化目标函数对模型进行训练,从而达到损失最小化,使用交叉熵代价函数C获得最佳预测,如公式4所示:
其中,x表示训练样本的索引,t表示不同标签的索引,y表示样本的真实标签,a表示样本x模型输出;
在最后的多层感知机MLP中获得每种LncRNA与疾病之间关联的最终预测,当预测的每个LncRNA-疾病样本对超过阈值时,认为该LncRNA与潜在的疾病具有相关性;Softmax激活函数的功能是将未归一化的输入映射到一组指数化和归一化的概率中,该模块使用Softmax函数计算LncRNA和疾病的关联概率 Score1,关联概率Score1计算方法如公式5所示:
其中,W代表参数矩阵,b为偏置向量,Z sae 为输入特征向量;
基于融合神经网络FNN的特征提取模块:利用融合神经网络对LncRNA和疾病构建的特征矩阵进行特征提取;在特征学习之前,为了充分学习特征边缘的信息,在每次输入前对输入层的周围进行补零操作,执行过程见公式6-12;
其中,f是LncRNA和疾病构建的特征矩阵,作为CNN+LSTM网络的输入模块,σ(sigmoid)用于模型计算的损失函数,tanh表示激活函数,⊙符号用于点乘的计算,W表示权重矩阵,b为偏置向量参数;
在CNN卷积神经网络部分,首先使用一个具有5个卷积核的卷积层,然后对数据进行最大池化降维,总共交替使用3个卷积层和池化层,以获得更重要的更深层次的信息;在LSTM循环神经网络部分,使用一层10个神经元的双向LSTM,最后基于全连接层,用ReLU激活函数进行馈入,统一维数为32维;
构建的特征矩阵经过融合神经网络之后,会经过一个全连接层来获取关联预测的概率分值Score2;融合卷积后不同特征图展平合并为一维向量Z fnn ,预测概率见公式13所示:
其中,W参数矩阵,b为偏置向量,Z fnn 为输入特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211451740.8A CN115691817A (zh) | 2022-11-21 | 2022-11-21 | 一种基于融合神经网络的LncRNA-疾病关联预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211451740.8A CN115691817A (zh) | 2022-11-21 | 2022-11-21 | 一种基于融合神经网络的LncRNA-疾病关联预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115691817A true CN115691817A (zh) | 2023-02-03 |
Family
ID=85054460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211451740.8A Pending CN115691817A (zh) | 2022-11-21 | 2022-11-21 | 一种基于融合神经网络的LncRNA-疾病关联预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115691817A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116936133A (zh) * | 2023-09-18 | 2023-10-24 | 四川互慧软件有限公司 | 一种基于护理晨交班数据的营养状况监测方法和系统 |
-
2022
- 2022-11-21 CN CN202211451740.8A patent/CN115691817A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116936133A (zh) * | 2023-09-18 | 2023-10-24 | 四川互慧软件有限公司 | 一种基于护理晨交班数据的营养状况监测方法和系统 |
CN116936133B (zh) * | 2023-09-18 | 2023-12-08 | 四川互慧软件有限公司 | 一种基于护理晨交班数据的营养状况监测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | A survey on metaheuristic optimization for random single-hidden layer feedforward neural network | |
CN112119412A (zh) | 具有注意力的图神经网络 | |
Huang et al. | Updated review of advances in microRNAs and complex diseases: taxonomy, trends and challenges of computational models | |
CN112966114B (zh) | 基于对称图卷积神经网络的文献分类方法和装置 | |
CN110490320B (zh) | 基于预测机制和遗传算法融合的深度神经网络结构优化方法 | |
CN113157957A (zh) | 一种基于图卷积神经网络的属性图文献聚类方法 | |
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
CN113127737B (zh) | 融合注意力机制的个性化搜索方法和搜索系统 | |
CN116403730A (zh) | 一种基于图神经网络的药物相互作用预测方法及系统 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN116469561A (zh) | 一种基于深度学习的乳腺癌生存预测方法 | |
CN114743037A (zh) | 一种基于多尺度结构学习的深度医学图像聚类方法 | |
CN113255366A (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN115691817A (zh) | 一种基于融合神经网络的LncRNA-疾病关联预测方法 | |
Qian | Exploration of machine algorithms based on deep learning model and feature extraction | |
CN117036760A (zh) | 一种基于图对比学习的多视图聚类模型实现方法 | |
Bhardwaj et al. | Computational biology in the lens of CNN | |
Zhang et al. | protein2vec: predicting protein-protein interactions based on LSTM | |
CN115130651A (zh) | 一种记忆环路多层异构机制启发的脉冲神经网络 | |
CN114399642A (zh) | 一种卷积神经网络荧光光谱特征提取方法 | |
CN113362900A (zh) | 一种预测n4-乙酰胞苷的混合模型 | |
CN116015967B (zh) | 基于改进鲸鱼算法优化delm的工业互联网入侵检测方法 | |
WO2023273934A1 (zh) | 一种模型超参数的选择方法及相关装置 | |
CN111402953B (zh) | 基于层次注意力网络的蛋白质序列分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |