CN114613438B - 一种miRNA与疾病的关联预测方法及系统 - Google Patents

一种miRNA与疾病的关联预测方法及系统 Download PDF

Info

Publication number
CN114613438B
CN114613438B CN202210219782.2A CN202210219782A CN114613438B CN 114613438 B CN114613438 B CN 114613438B CN 202210219782 A CN202210219782 A CN 202210219782A CN 114613438 B CN114613438 B CN 114613438B
Authority
CN
China
Prior art keywords
disease
similarity
mirna
matrix
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210219782.2A
Other languages
English (en)
Other versions
CN114613438A (zh
Inventor
宋继辉
刘勇国
张云
朱嘉静
李巧勤
陆鑫
傅翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210219782.2A priority Critical patent/CN114613438B/zh
Publication of CN114613438A publication Critical patent/CN114613438A/zh
Priority to ZA2022/09094A priority patent/ZA202209094B/en
Application granted granted Critical
Publication of CN114613438B publication Critical patent/CN114613438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种miRNA与疾病的关联预测方法及系统,属于miRNA与疾病的关联预测技术领域。首先在相似度矩阵生成过程中融合其他生物学数据来计算miRNA和疾病的高斯谱核相似度,根据功能或语义相似度的miRNA或疾病所占的比重来计算相似度融合的权重,得到更加合理的综合相似度矩阵;基于归纳矩阵分解,对原始矩阵的模拟分解为两个参数矩阵,并设计双流生成器,生成低秩的相似度投影系数矩阵;添加Dropout层以保证生成矩阵的稀疏性,最后,对多次生成结果取均值获得最终的miRNA疾病关联预测结果,获得更高的miRNA与疾病关联预测能力和预测的可靠性,为科研人员确定疾病关联的候选miRNA提供辅助决策。

Description

一种miRNA与疾病的关联预测方法及系统
技术领域
本发明属于miRNA与疾病的关联预测技术领域,尤其涉及一种miRNA与疾病的关联预测方法及系统。
背景技术
随着生物学对人体研究的深入,发现人体内的非编码RNA(ncRNA)对人体的各种生物过程起着十分重要的作用。miRNA是一组单链内源短链ncRNA,miRNA通过与mRNA的碱基配对抑制基因的转录和表达,与各种疾病尤其是癌症的发生密切相关。然而确定miRNA与疾病的关联的生物实验昂贵而费时,因此使用计算模型预测miRNA和疾病的关联显得尤为重要。
应用计算模型预测miRNA和疾病的关联时,通常首先通过miRNA的功能相关性和miRNA的其他信息计算miRNA的综合相似度矩阵,然后通过疾病的有向无环图(DAG)计算疾病的语义相关性并结合其他疾病相关信息计算语义相似度矩阵,最后结合已知的miRNA与疾病关联矩阵,对未知的miRNA与疾病关联进行预测。
现有研究中提出基于变分自动编码器(VAE)的模型VAEMDA,将miRNA相似度矩阵、疾病相似度矩阵分别与已知miRNA疾病关联矩阵拼接获得两个拼接矩阵,然后将两个拼接矩阵分别送入VAE中学习分布得到新的miRNA疾病关联矩阵,最终将两个VAE学习到的新的miRNA疾病关联矩阵进行平均获得最终miRNA疾病关联评分。但VAEMDA在未知关联矩阵真实分布的情况下,强制将原来的关联矩阵投影到高斯分布上,这将导致最终模型生成的关联矩阵缺乏合理性;另外,VAEMDA没有对生成的预测矩阵的低秩性和稀疏性进行约束,影响最终结果的准确性。
发明内容
针对现有技术中的上述不足,本发明提供的一种miRNA与疾病的关联预测方法及系统,以解决现有关联预测中缺乏合理性以及准确度不高的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种miRNA与疾病的关联预测方法,包括以下步骤:
S1、获取miRNA和疾病数据,并根据miRNA和疾病数据结合额外生物信息,构建综合相似度矩阵;
S2、基于归纳矩阵分解设计双流生成器,并将所述综合相似度矩阵作为双流生成器的固定参数训练双流生成器和判别器,生成miRNA与疾病关联预测矩阵;
S3、利用所述miRNA与疾病关联预测矩阵对疾病关联进行预测,完成miRNA与疾病关联的预测。
本发明的有益效果是:本发明融合其他生物数据计算综合相似度矩阵,基于归纳矩阵分解的GAN能够从分布的角度预测miRNA和疾病的关联,获得更高的miRNA与疾病关联预测能力,提高预测的可靠性,为科研人员确定疾病关联的候选miRNA提供辅助决策。
进一步地,所述步骤S1包括以下步骤:
S101、收集miRNA功能相似度数据,并构建miRNA功能相似度矩阵FM;
S102、获取疾病术语,对每个疾病构建有向无环图DAG,并基于语义影响逐层递减的假设构建第一语义值;
S103、根据所述第一语义值,计算得到疾病di和疾病dj的第一语义相似度;
S104、根据所述有向无环图DAG,计算得到以包含特定疾病占所有疾病比例的第二语义值;
S105、根据所述第二语义值,计算得到疾病di和疾病dj的第二语义相似度;
S106、根据所述第一语义相似度和第二语义相似度,结合额外生物信息构建包括综合miRNA相似度矩阵和综合疾病相似度矩阵的综合相似度矩阵。
上述进一步方案的有益效果是:收集出可靠的miRNA相似度信息和疾病相似度信息,为此后关联预测做好材料准备。
再进一步地,所述步骤S106包括以下步骤:
S1061、分别获取miRNA-lncRNA相似度矩阵MI和疾病-lncRNA相似度矩阵DI;
S1062、基于所述miRNA-lncRNA相似度矩阵MI和疾病-lncRNA相似度矩阵DI,得到miRNA高斯谱核相似度矩阵和疾病高斯谱核相似度矩阵;
S1063、根据所述第一语义相似度的疾病对集合、第二语义相似度的疾病对集合以及未知语义相似度的疾病对集合,计算得到第一语义相似度的权重、第二语义相似度的权重以及未知语义相似度的权重;
S1064、根据所述第一语义相似度的权重、第二语义相似度的权重、未知语义相似度的权重以及疾病高斯谱核相似度矩阵,计算得到综合疾病相似度矩阵;
S1065、根据功能相似度矩阵FM的miRNA对集合以及未知功能相似度的miRNA对的集合,计算得到功能相似度矩阵FM的权重和未知功能相似度的权重;
S1066、根据所述功能相似度矩阵FM的权重、未知功能相似度的权重以及miRNA高斯谱核相似度矩阵,计算得到综合miRNA相似度矩阵。
上述进一步方案的有益效果是:针对无法获取功能相似性的miRNA和语义相似性的疾病也能计算可靠的相似度信息,防止此后出现无法计算的问题。
再进一步地,所述步骤S1062中miRNA高斯谱核相似度矩阵的表达式如下:
AM=[A,MI]
GM(mi,mj)=exp(-βm||IVAM(mi)-IVAM(mj)||2)
Figure BDA0003536657820000041
所述疾病高斯谱核相似度矩阵的表达式如下:
AD=[AT,DI]
GD(di,dj)=exp(-βd||IVAD(di)-IVAD(dj)||2)
Figure BDA0003536657820000042
其中,A表示已知miRNA和疾病关联矩阵,GM(·)表示miRNA高斯谱核相似度矩阵,mi表示第i个miRNA,mj表示第j个miRNA,βm和βd均表示用于调整谱核带宽的系数,IVAM(mi)表示AM的第i行,AM表示融合了lncRNA数据的miRNA与疾病关联矩阵,IVAM(mj)表示AM的第j行,MI表示miRNA-lncRNA相似度矩阵,nm表示miRNA的数量,β'm和β'd均表示为确定GM(·)和GD(·)的谱核带宽系数的超参数,GD(·)表示疾病高斯谱核相似度矩阵,IVAD(di)表示AD的第i行,IVAD(dj)表示AD的第j行,AD表示融合了lncRNA数据的疾病与miNRA关联矩阵,AT表示已知关联矩阵的转置,DI表示疾病-lncRNA相似度矩阵,nd表示疾病的数量。
上述进一步方案的有益效果是:提供了无法获取功能相似性的miRNA和语义相似性的疾病的相似度计算。
再进一步地,所述步骤S1064中综合疾病相似度的表达式如下:
SD(di,dj)=ID(di,dj)
*(λSS1*SS1(di,dj)+λSS2*SS2(di,dj)+λgd
*GD(di,dj))+(1-ID(di,dj))*GD(di,dj)
Figure BDA0003536657820000051
其中,SD(di,dj)表示综合疾病相似度,ID(di,dj)表示疾病di与疾病dj间是否存在语义相似度的二值函数,λSS1和λSS2分别表示第一语义相似度值和第二语义相似度值的权重,λgd表示未知语义相似度的权重,SS1(di,dj)表示疾病di与疾病dj间的第一语义相似度,SS2(di,dj)表示疾病di与疾病dj间的第二语义相似度,GD(di,dj)表示疾病di与疾病dj间的高斯谱核相似度
上述进一步方案的有益效果是:综合各种相似度获得最佳的疾病相似度,减少数据倾向性。
再进一步地,所述步骤S1066中综合miRNA相似度的表达式如下:
SM(mi,mj)=IM(mi,mj)
*(λfm*FM(mi,mj)+λgm*GM(mi,mj))+(1-IM(mi,mj))*GM(mi,mj)
Figure BDA0003536657820000052
其中,SM(mi,mj)表示综合miRNA相似度,IM(mi,mj)表示mi与mj间是否存在功能相似度的二值函数,λfm和λgm分别表示功能相似度矩阵FM和未知功能相似度的权重,GM(mi,mj)表示mi与mj间的高斯谱核相似度。
上述进一步方案的有益效果是:综合各种相似度获得最佳的miRNA相似度,减少数据倾向性。
再进一步地,所述步骤S2包括以下步骤:
S201、基于归纳矩阵分解设计双流生成器,并将所述综合疾病相似度和综合miRNA相似度作为双流生成器的固定参数;
S202、设置判别器,并预训练判别器;
S203、固定双流生成器训练判别器,以及固定判别器训练双流生成器;
S204、判断双流生成器的参数变化是否小于预设的阈值,若是,则进入步骤S205,否则,返回步骤S203;
S205、生成miRNA与疾病关联预测矩阵。
上述进一步方案的有益效果是:利用对抗训练提高生成矩阵的质量。
再进一步地,所述生成器包括:两个均由128个节点的网络层、256个节点的网络层、512个节点的网络层、RReLU激活函数、线性投影、dropout层以及softmax层组成的对抗网络;
所述判别器包括:五层节点,第一层节点至第四层节点后均设置有RReLU激活函数,第五层节点后设置有sigmoid函数,且各层节点的个数分别为512、256、128、256和512。
上述进一步方案的有益效果是:生成器和判别器具有较深的网络层数,具有较强的表达能力,生成器具有稀疏性,适合关联矩阵的生成。
再进一步地,所述预训练判别器的损失函数的表达式如下:
Lpre=[M-||Dω(xpre)-xpre||2]+
所述训练后判别器的损失函数的表达式如下:
Figure BDA0003536657820000061
[·]+=max(0,·)
训练后双流生成器的损失函数的表达式如下:
Figure BDA0003536657820000062
其中,Lpre表示预训练判别器的损失函数,xpre表示预训练模型的输入矩阵,且xpre=A,A表示已知miRNA与疾病关联矩阵,M表示重构误差正边际,LD表示训练后判别器的损失函数,Gθ表示以θ为参数的生成器,Dω表示以ω为参数的判别器,x表示从真实矩阵集合T0中采样的真实样本,使用loocv依次对A的每一个已知关联进行忽略,构成一系列矩阵,称为真实矩阵集合T0,Px表示x对应的掩膜,且真实样本位置为1,其余为0,k1、k2表示一个mini-batch中取样的随机噪声向量个数,z(i)表示根据正态分布取样的随机噪声向量,Gθ(z(i))表示双流生成器的生成矩阵。
上述进一步方案的有益效果是:能保证生成的预测矩阵模拟真实关联矩阵的分布,又能保证生成的多样性,避免网络退化为恒等函数。
本发明提供了一种miRNA与疾病的关联预测系统,包括:
综合相似度矩阵构建模块,用于获取miRNA和疾病数据,并根据miRNA和疾病数据结合额外生物信息,构建综合相似度矩阵;
疾病关联预测矩阵构建模块,用于基于归纳矩阵分解设计双流生成器,并将所述综合相似度矩阵作为双流生成器的固定参数训练双流生成器和判别器,生成miRNA与疾病关联预测矩阵;
预测模块,利用所述miRNA与疾病关联预测矩阵对疾病关联进行预测,完成miRNA与疾病关联的预测。
本发明的有益效果是:本发明融合其他生物数据计算综合相似度矩阵,基于归纳矩阵分解的GAN能够从分布的角度预测miRNA和疾病的关联,与VAE等生成模型相比获得更高的miRNA与疾病关联预测能力,提高预测的可靠性,为科研人员确定疾病关联的候选miRNA提供辅助决策。
附图说明
图1为本发明的方法流程图。
图2为本实施例中双流生成器的结构图。
图3为本实施例中判别器的结构图。
图4为本发明的系统结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1
有鉴于背景技术,本发明综合其他生物信息构建相似度矩阵,保证预测矩阵的低秩性和稀疏性,提高预测的可靠性,如图1所示,本发明提供了一种miRNA与疾病的关联预测方法,其实现方法如下:
S1、获取miRNA和疾病数据,并根据miRNA和疾病数据结合额外生物信息,构建综合相似度矩阵,其实现方法如下:
S101、收集miRNA功能相似度数据,并构建miRNA功能相似度矩阵FM;
S102、获取疾病术语,对每个疾病构建有向无环图DAG,并基于语义影响逐层递减的假设构建第一语义值;
S103、根据所述第一语义值,计算得到疾病di和疾病dj的第一语义相似度;
S104、根据所述有向无环图DAG,计算得到以包含特定疾病占所有疾病比例的第二语义值;
S105、根据所述第二语义值,计算得到疾病di和疾病dj的第二语义相似度;
S106、根据所述第一语义相似度和第二语义相似度,结合额外生物信息构建包括综合miRNA相似度矩阵和综合疾病相似度矩阵的综合相似度矩阵,其实现方法如下:
S1061、分别获取miRNA-lncRNA相似度矩阵MI和疾病-lncRNA相似度矩阵DI;
S1062、基于所述miRNA-lncRNA相似度矩阵MI和疾病-lncRNA相似度矩阵DI,得到miRNA高斯谱核相似度矩阵和疾病高斯谱核相似度矩阵;
S1063、根据所述第一语义相似度的疾病对集合、第二语义相似度的疾病对集合以及未知语义相似度的疾病对集合,计算得到第一语义相似度的权重、第二语义相似度的权重以及未知语义相似度的权重;
S1064、根据所述第一语义相似度的权重、第二语义相似度的权重、未知语义相似度的权重以及疾病高斯谱核相似度矩阵,计算得到综合疾病相似度矩阵;
S1065、根据功能相似度矩阵FM的miRNA对集合以及未知功能相似度的miRNA对的集合,计算得到功能相似度矩阵FM的权重和未知功能相似度的权重;
S1066、根据所述功能相似度矩阵FM的权重、未知功能相似度的权重以及miRNA高斯谱核相似度矩阵,计算得到综合miRNA相似度矩阵。
本实施例中,疾病数据的获取:
从HMDD2.0中获取已知miRNA和疾病关联5430条,确定已知miRNA和疾病关联矩阵
Figure BDA0003536657820000091
nm=485,表示miRNA的个数,nd=383,表示疾病个数。若第i号miRNA与第j号疾病相关,则A(i,j)=1,否则A(i,j)=0。从MISIM收集miRNA功能相似度数据并构建功能相似度矩阵FM。从miRBase中获得疾病术语,对每个疾病构建有向无环图DAG,并基于语义影响逐层递减的假设构建了第一语义值:
Figure BDA0003536657820000092
Figure BDA0003536657820000093
其中,Δ表示不同层的语义的衰减系数,每一个DAG中的语义值除了本身外递归衰减,头节点的语义值是子树语义值的最大值,最终头节点的语义值是DAG中所有节点的语义值的和。将疾病di和疾病dj的DAG的交集除以两个DAG的并集作为第一语义相似度:
Figure BDA0003536657820000101
基于更少DAG出现的疾病具有更高的代表性的假设,令包含t的DAG的个数为nt,以包含特定疾病占所有疾病的比例定义了此疾病的第二语义值,将DAG头节点的语义值定义为所有节点语义值的和:
Figure BDA0003536657820000102
Figure BDA0003536657820000103
类比第一语义值计算了疾病di和疾病dj间的DAG的交并比作为第二语义相似度。
Figure BDA0003536657820000104
本实施例中,构建综合相似度矩阵:
本发明在已知关联矩阵基础上,进一步融合更多的生物学数据以丰富高斯谱核相似度的计算。在本发明中以lncRNA数据为例,从star-base v2.0数据库中获得miRNA-lncRNA相似度矩阵MI,从LncRNADisease数据库中获得疾病-lncRNA相似度矩阵DI。本发明中提出在已知关联中分别融入其他生物学数据以计算高斯谱核相似度矩阵如下:
AM=[A,MI]
AD=[AT,DI]
GM(mi,mj)=exp(-βm||IVAM(mi)-IVAM(mj)||2)
GD(di,dj)=exp(-βd||IVAD(di)-IVAD(dj)||2)
Figure BDA0003536657820000105
Figure BDA0003536657820000111
/>
其中,AM表示融合了lncRNA数据的miRNA与疾病关联矩阵,AD表示融合了lncRNA数据的疾病与miNRA关联矩阵,GM表示生成的miRNA高斯谱核相似度矩阵,GD表示生成的疾病高斯谱核相似度矩阵,mi表示第i个miRNA,di表示第i个疾病,IVAM(mi)表示AM的第i行,IVAD(di)表示AD的第i行,βm和βd表示用于调整谱核带宽的系数,β'm和β'd分别表示确定GM和GD的谱核带宽系数的超参数,在这里根据先前研究设置为1。因此对miRNA相似度而言,需要综合第一语义相似度SS1、第二语义相似度SS2、生成的疾病高斯谱核相似度矩阵GD计算综合相似度,对疾病而言,需要综合FM、GM计算综合相似度。基于生成的疾病高斯谱核相似度矩阵GD是对未知语义相似度的疾病对的补充的假设,本发明令已知第一语义相似度SS1的疾病对的集合为Ωd1,已知第二语义相似度SS2的疾病对的集合为Ωd2,未知语义相似度的疾病对的集合为
Figure BDA0003536657820000112
以此计算各个相似度在最终相似度中的权重:
Figure BDA0003536657820000113
Figure BDA0003536657820000114
Figure BDA0003536657820000115
Figure BDA0003536657820000116
其中,λ表示在计算综合相似度时所占的权重参数,λss表示SS1和SS2的总权重,λss1、λss2分别表示SS1和SS2各自的权重,λgd表示GD的权重,|*|表示集合的数目。根据权重计算综合疾病相似度:
SD(di,dj)=ID(di,dj)
*(λSS1*SS1(di,dj)+λSS2*SS2(di,dj)+λgd
*GD(di,dj))+(1-ID(di,dj))*GD(di,dj)
Figure BDA0003536657820000121
类似地,令已知功能相似度FM的miRNA对的集合为Ωm,未知功能相似度的miRNA对的集合为
Figure BDA0003536657820000122
以此计算各个相似度在最终相似度中的权重并表示综合miRNA相似度如下,其中,λfm表示计算综合miRNA相似度时FM的权重,λgm表示GM的权重。
Figure BDA0003536657820000123
Figure BDA0003536657820000124
SM(mi,mj)=IM(mi,mj)
*(λfm*FM(mi,mj)+λgm*GM(mi,mj))+(1-IM(mi,mj))*GM(mi,mj)
Figure BDA0003536657820000125
S2、基于归纳矩阵分解设计双流生成器,并将所述综合相似度矩阵作为双流生成器的固定参数训练双流生成器和判别器,生成miRNA与疾病关联预测矩阵,其实现方法如下:
S201、基于归纳矩阵分解设计双流生成器,并将所述综合疾病相似度和综合miRNA相似度作为双流生成器的固定参数;
本实施例中,生成器的目标是生成miRNA与疾病关联矩阵,输入一个随机向量,生成一个生成矩阵。
本实施例中,根据归纳矩阵分解,对关联矩阵A可以用两个参数矩阵P和Q进行模拟:
A≈SM*P*(SD*Q)T
其中,
Figure BDA0003536657820000131
k<<min(nm,nd)保证了低秩性,k在本发明中取100,因此,双流生成器设计了两个网络分别生成P矩阵和Q矩阵,如图2所示,两个网络均由128、256、512个节点和RReLU激活函数组成,并在最后添加了线性投影以匹配维数,并使用dropout进行稀疏化,为了保证生成矩阵的非负性,使用softmax进行归一化。网络生成P矩阵和Q矩阵后与对应相似度矩阵相乘最后进入双线性池做內积生成最终的生成矩阵,即疾病关联预测矩阵。
S202、设计判别器,并预训练判别器;
本实施例中,判别器的目标是判断生成的关联矩阵是否具有类似原矩阵的分布,输入一个矩阵,生成一个真实或虚假的二分类结果。使用loocv依次对A的每一个已知关联进行忽略,构成一系列矩阵,形成真实矩阵集合T0。为了便于训练,同时增强生成的多样性,使用自动编码器作为判别器,如图3所示,同时为了捕获深层关联,判别器构造成一个深层自动编码器,由5层节点构成,每层节点个数为512、256、128、256、512,为了增加模型的稀疏性,5层的激活函数除了最后使用sigmoid将预测得分压缩到0-1之间,前面均使用RReLU。
本实施例中,预训练判别器。令预训练模型的输入为xpre=A,根据深层自动编码器的损失函数计算损失:
Lpre=[M-||Dω(xpre)-xpre||2]+
其中,根据正态分布取样kpre个随机噪声向量,Dω是以ω为参数的判别器。M表示重构误差正边际,本方案设置为10,[·]+表示取正函数。使用Adam更新判别器参数ω,Adam的参数设置为a=0.0001,β1=0,β2=0.9,重复预训练10次,获得判别器参数的初始值。
S203、固定生成器训练判别器,以及固定判别器训练生成器;
本实施例中,固定生成器训练判别器。每次根据正态分布取样k1个随机噪声向量
Figure BDA0003536657820000141
本发明中将所有矩阵视为1通道的图像样本,然后从T0中采样真实样本x,Px表示真实样本x对应的掩膜,其中只有真实样本位置为1,其余为0,计算判别器损失如下:/>
Figure BDA0003536657820000142
[·]+=max(0,·)
其中,Gθ是以θ为参数的生成器,Gθ(z(i))表示生成器生成的矩阵,上述损失函数中的第一项用于减小真实关联矩阵的重构误差,第二项中减小生成关联矩阵的重构误差,同时维持一定的重构误差防止网络退化成恒等函数,使得模型学习真实关联矩阵分布的同时又保留多样性,与一般的BCGAN不同,因为求解的是矩阵单一元素的重构误差,所以训练中M设置为0.1。根据损失函数计算梯度并使用Adam算法进行参数优化,Adam参数设置如S202,使用T0上所有样本重复训练5次后固定判别器参数。
本实施例中,固定判别器训练生成器。根据正态分布取样k2个z,只训练1轮,损失函数计算如下:
Figure BDA0003536657820000143
计算损失函数并使用Adam算法进行参数优化,Adam参数设置如固定生成器训练判别器中的设置,使用T0上所有样本训练1次后固定生成器参数。
S204、判断双流生成器的参数变化是否小于预设的阈值,若是,则进入步骤S205,否则,返回步骤S203;
本实施例中,所述阈值为直至双流生成器的参数变化小于10-6
S205、生成miRNA与疾病关联预测矩阵。
S3、利用所述miRNA与疾病关联预测矩阵对疾病关联进行预测,完成miRNA与疾病关联的预测。
本实施例中,正态分布取样100个z,使用训练后的生成器生成100次miRNA与疾病关联矩阵取平均,设定阈值∈=0.5,大于阈值∈的关联确定为预测关联。
本发明通过以上设计,在相似度矩阵生成过程中融合其他生物学数据来计算miRNA和疾病的高斯谱核相似度,根据有功能或语义相似度的miRNA或疾病所占的比重来计算相似度融合的权重,得到更加合理的综合相似度矩阵,然后基于归纳矩阵分解,将对原始矩阵的模拟分解为两个参数矩阵,并设计一个双流生成器,生成低秩的相似度投影系数矩阵,同时添加Dropout层以保证生成矩阵的稀疏性,最后,对多次生成结果取均值获得最终的miRNA疾病关联预测结果,获得更高的miRNA与疾病关联预测能力,提高预测的可靠性,为科研人员确定疾病关联的候选miRNA提供辅助决策。
实施例2
如图4所示,本发明提供了一种miRNA与疾病的关联预测系统,包括:
综合相似度矩阵构建模块,用于获取miRNA和疾病数据,并根据miRNA和疾病数据结合额外生物信息,构建综合相似度矩阵;
疾病关联预测矩阵构建模块,用于基于归纳矩阵分解设计双流生成器,并将所述综合相似度矩阵作为双流生成器的固定参数训练双流生成器和判别器,生成miRNA与疾病关联预测矩阵;
预测模块,利用所述miRNA与疾病关联预测矩阵对疾病关联进行预测,完成miRNA与疾病关联的预测。
如图4所示实施例提供的miRNA与疾病的关联预测系统可以执行上述miRNA与疾病的关联预测方法实施例所示的技术方案,其实现原理与有益效果类似,此处不再赘述。

Claims (7)

1.一种miRNA与疾病的关联预测方法,其特征在于,包括以下步骤:
S1、获取miRNA和疾病数据,并根据miRNA和疾病数据结合额外生物信息,构建综合相似度矩阵;
所述步骤S1包括以下步骤:
S101、收集miRNA功能相似度数据,并构建miRNA功能相似度矩阵FM;
S102、获取疾病术语,对每个疾病构建有向无环图DAG,并基于语义影响逐层递减的假设构建第一语义值;
S103、根据所述第一语义值,计算得到疾病di和疾病dj的第一语义相似度;
S104、根据所述有向无环图DAG,计算得到以包含特定疾病占所有疾病比例的第二语义值;
S105、根据所述第二语义值,计算得到疾病di和疾病dj的第二语义相似度;
S106、根据所述第一语义相似度和第二语义相似度,结合额外生物信息构建包括综合miRNA相似度矩阵和综合疾病相似度矩阵的综合相似度矩阵;
所述综合疾病相似度矩阵的表达式如下:
SD(di,dj)=ID(di,dj)*(λSS1*SS1(di,dj)+λSS2*SS2(di,dj)+λgd*GD(di,dj))+(1-ID(di,dj))*GD(di,dj)
Figure QLYQS_1
其中,SD(di,dj)表示综合疾病相似度,ID(di,dj)表示疾病di与疾病dj间是否存在语义相似度的二值函数,λSS1和λSS2分别表示第一语义相似度值和第二语义相似度值的权重,λgd表示未知语义相似度的权重,SS1(di,dj)表示疾病di与疾病dj间的第一语义相似度,SS2(di,dj)表示疾病di与疾病dj间的第二语义相似度,GD(di,dj)表示疾病di与疾病dj间的高斯谱核相似度;
所述综合miRNA相似度矩阵的表达式如下:
SM(mi,mj)=IM(mi,mj)*(λfm*FM(mi,mj)+λgm*GM(mi,mj))+(1-IM(mi,mj))*GM(mi,mj)
Figure QLYQS_2
其中,SM(mi,mj)表示综合miRNA相似度,IM(mi,mj)表示mi与mj间是否存在功能相似度的二值函数,λfm和λgm分别表示功能相似度矩阵FM和未知功能相似度的权重,GM(mi,mj)表示mi与mj间的高斯谱核相似度;
S2、基于归纳矩阵分解设计双流生成器,并将所述综合相似度矩阵作为双流生成器的固定参数训练双流生成器和判别器,生成miRNA与疾病关联预测矩阵;
S3、利用所述miRNA与疾病关联预测矩阵对疾病关联进行预测,完成miRNA与疾病关联的预测。
2.根据权利要求1所述的miRNA与疾病的关联预测方法,其特征在于,所述步骤S106包括以下步骤:
S1061、分别获取miRNA-lncRNA相似度矩阵MI和疾病-lncRNA相似度矩阵DI;
S1062、基于所述miRNA-lncRNA相似度矩阵MI和疾病-lncRNA相似度矩阵DI,得到miRNA高斯谱核相似度矩阵和疾病高斯谱核相似度矩阵;
S1063、根据所述第一语义相似度的疾病对集合、第二语义相似度的疾病对集合以及未知语义相似度的疾病对集合,计算得到第一语义相似度的权重、第二语义相似度的权重以及未知语义相似度的权重;
S1064、根据所述第一语义相似度的权重、第二语义相似度的权重、未知语义相似度的权重以及疾病高斯谱核相似度矩阵,计算得到综合疾病相似度矩阵;
S1065、根据功能相似度矩阵FM的miRNA对集合以及未知功能相似度的miRNA对的集合,计算得到功能相似度矩阵FM的权重和未知功能相似度的权重;
S1066、根据所述功能相似度矩阵FM的权重、未知功能相似度的权重以及miRNA高斯谱核相似度矩阵,计算得到综合miRNA相似度矩阵。
3.根据权利要求2所述的miRNA与疾病的关联预测方法,其特征在于,所述步骤S1062中miRNA高斯谱核相似度矩阵的表达式如下:
AM=[A,MI]
GM(mi,mj)=exp(-βm||IVAM(mi)-IVAM(mj)||2)
Figure QLYQS_3
所述疾病高斯谱核相似度矩阵的表达式如下:
AD=[AT,DI]
GD(di,dj)=exp(-βd||IVAD(di)-IVAD(dj)||2)
Figure QLYQS_4
其中,A表示已知miRNA和疾病关联矩阵,GM(·)表示miRNA高斯谱核相似度矩阵,mi表示第i个miRNA,mj表示第j个miRNA,βm和βd均表示用于调整谱核带宽的系数,IVAM(mi)表示AM的第i行,AM表示融合了lncRNA数据的miRNA与疾病关联矩阵,IVAM(mj)表示AM的第j行,MI表示miRNA-lncRNA相似度矩阵,nm表示miRNA的数量,β'm和β'd均表示为确定GM(·)和GD(·)的谱核带宽系数的超参数,GD(·)表示疾病高斯谱核相似度矩阵,IVAD(di)表示AD的第i行,IVAD(dj)表示AD的第j行,AD表示融合了lncRNA数据的疾病与miNRA关联矩阵,AT表示已知关联矩阵的转置,DI表示疾病-lncRNA相似度矩阵,nd表示疾病的数量。
4.根据权利要求3所述的miRNA与疾病的关联预测方法,其特征在于,所述步骤S2包括以下步骤:
S201、基于归纳矩阵分解设计双流生成器,并将所述综合疾病相似度和综合miRNA相似度作为双流生成器的固定参数;
S202、设置判别器,并预训练判别器;
S203、固定双流生成器训练判别器,以及固定判别器训练双流生成器;
S204、判断双流生成器的参数变化是否小于预设的阈值,若是,则进入步骤S205,否则,返回步骤S203;
S205、生成miRNA与疾病关联预测矩阵。
5.根据权利要求4所述的miRNA与疾病的关联预测方法,其特征在于,所述双流生成器包括:两个均由128个节点的网络层、256个节点的网络层、512个节点的网络层、RReLU激活函数、线性投影、dropout层以及softmax层组成的对抗网络;
所述判别器包括五层节点,第一层节点至第四层节点后均设置有RReLU激活函数,第五层节点后设置有sigmoid函数,且各层节点的个数分别为512、256、128、256和512。
6.根据权利要求5所述的miRNA与疾病的关联预测方法,其特征在于,所述预训练判别器的损失函数的表达式如下:
Lpre=[M-||Dω(xpre)-xpre||2]+
训练后判别器的损失函数的表达式如下:
Figure QLYQS_5
[·]+=max(0,·)
训练后双流生成器的损失函数的表达式如下:
Figure QLYQS_6
其中,Lpre表示预训练判别器的损失函数,xpre表示预训练模型的输入矩阵,且xpre=A,A表示已知miRNA与疾病关联矩阵,M表示重构误差正边际,LD表示训练后判别器的损失函数,Gθ表示以θ为参数的生成器,Dω表示以ω为参数的判别器,x表示从真实矩阵集合T0中采样的真实样本,使用loocv依次对A的每一个已知关联进行忽略,构成一系列矩阵,称为真实矩阵集合T0,Px表示x对应的掩膜,且真实样本位置为1,其余为0,k1、k2表示一个mini-batch中取样的随机噪声向量个数,z(i)表示根据正态分布取样的随机噪声向量,Gθ(z(i))表示双流生成器的生成矩阵。
7.一种如权利要求1-6任一所述的miRNA与疾病的关联预测方法的关联预测系统,其特征在于,包括:
综合相似度矩阵构建模块,用于获取miRNA和疾病数据,并根据miRNA和疾病数据结合额外生物信息,构建综合相似度矩阵;
疾病关联预测矩阵构建模块,用于基于归纳矩阵分解设计双流生成器,并将所述综合相似度矩阵作为双流生成器的固定参数训练双流生成器和判别器,生成miRNA与疾病关联预测矩阵;
预测模块,利用所述miRNA与疾病关联预测矩阵对疾病关联进行预测,完成miRNA与疾病关联的预测。
CN202210219782.2A 2022-03-08 2022-03-08 一种miRNA与疾病的关联预测方法及系统 Active CN114613438B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210219782.2A CN114613438B (zh) 2022-03-08 2022-03-08 一种miRNA与疾病的关联预测方法及系统
ZA2022/09094A ZA202209094B (en) 2022-03-08 2022-08-15 An interaction prediction method and system for mirna and disease

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210219782.2A CN114613438B (zh) 2022-03-08 2022-03-08 一种miRNA与疾病的关联预测方法及系统

Publications (2)

Publication Number Publication Date
CN114613438A CN114613438A (zh) 2022-06-10
CN114613438B true CN114613438B (zh) 2023-05-26

Family

ID=81860777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210219782.2A Active CN114613438B (zh) 2022-03-08 2022-03-08 一种miRNA与疾病的关联预测方法及系统

Country Status (2)

Country Link
CN (1) CN114613438B (zh)
ZA (1) ZA202209094B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183837A (zh) * 2020-09-22 2021-01-05 曲阜师范大学 一种基于自编码模型的miRNA与疾病关联关系预测方法
CN113990396A (zh) * 2021-11-26 2022-01-28 中国石油大学(华东) 一种基于自注意力机制的miRNA-疾病关联预测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037684B2 (en) * 2014-11-14 2021-06-15 International Business Machines Corporation Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity
US20170242959A1 (en) * 2016-02-24 2017-08-24 Ucb Biopharma Sprl Method and system for quantifying the likelihood that a gene is casually linked to a disease
JP6280997B1 (ja) * 2016-10-31 2018-02-14 株式会社Preferred Networks 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法
CN107862179A (zh) * 2017-11-06 2018-03-30 中南大学 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法
CN110556184B (zh) * 2019-10-09 2022-11-29 中国人民解放军总医院 基于Hessian正则非负矩阵分解的非编码RNA与疾病关系预测方法
CN111681705B (zh) * 2020-05-21 2024-05-24 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质
CN112289373B (zh) * 2020-10-27 2021-07-06 齐齐哈尔大学 一种融合相似性的lncRNA-miRNA-疾病关联方法
CN113241115A (zh) * 2021-03-26 2021-08-10 广东工业大学 一种基于深度矩阵分解的环状rna疾病关联预测方法
CN113539372A (zh) * 2021-06-27 2021-10-22 中南林业科技大学 一种LncRNA和疾病关联关系的高效预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183837A (zh) * 2020-09-22 2021-01-05 曲阜师范大学 一种基于自编码模型的miRNA与疾病关联关系预测方法
CN113990396A (zh) * 2021-11-26 2022-01-28 中国石油大学(华东) 一种基于自注意力机制的miRNA-疾病关联预测方法

Also Published As

Publication number Publication date
ZA202209094B (en) 2022-11-30
CN114613438A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
Sehovac et al. Deep learning for load forecasting: Sequence to sequence recurrent neural networks with attention
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN108875916B (zh) 一种基于gru神经网络的广告点击率预测方法
CN111899882B (zh) 一种预测癌症的方法及系统
CN111861013B (zh) 一种电力负荷预测方法及装置
CN109886464B (zh) 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN112183837A (zh) 一种基于自编码模型的miRNA与疾病关联关系预测方法
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN111753044A (zh) 一种基于正则化的去社会偏见的语言模型及应用
CN112967088A (zh) 基于知识蒸馏的营销活动预测模型结构和预测方法
CN110782945A (zh) 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法
CN113673242A (zh) 一种基于k邻近结点算法和对比学习的文本分类方法
CN112650933B (zh) 一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法
CN110188200A (zh) 一种使用社交上下文特征的深度微博情感分析方法
Ji et al. A semi-supervised learning method for MiRNA-disease association prediction based on variational autoencoder
CN115798598B (zh) 一种基于超图的miRNA-疾病关联预测模型及方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
Ji et al. Predicting miRNA-disease associations based on heterogeneous graph attention networks
CN114491289A (zh) 一种双向门控卷积网络的社交内容抑郁检测方法
CN114613438B (zh) 一种miRNA与疾病的关联预测方法及系统
CN112199550B (zh) 一种基于情感胶囊网络的短视频点击率预测方法
Liu et al. Hessian regularization of deep neural networks: A novel approach based on stochastic estimators of Hessian trace
Chien et al. Stochastic adversarial learning for domain adaptation
CN114566216A (zh) 一种基于注意力机制的剪接位点预测及解释性方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant