CN113724790B - 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 - Google Patents
基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 Download PDFInfo
- Publication number
- CN113724790B CN113724790B CN202111044208.XA CN202111044208A CN113724790B CN 113724790 B CN113724790 B CN 113724790B CN 202111044208 A CN202111044208 A CN 202111044208A CN 113724790 B CN113724790 B CN 113724790B
- Authority
- CN
- China
- Prior art keywords
- disease
- diseases
- piwi protein
- protein interaction
- rna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 128
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 59
- 101100408379 Drosophila melanogaster piwi gene Proteins 0.000 claims abstract description 92
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims abstract description 72
- 230000006916 protein interaction Effects 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims abstract description 14
- 238000002474 experimental method Methods 0.000 claims abstract description 10
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 32
- 102000040650 (ribonucleotides)n+m Human genes 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 239000002773 nucleotide Substances 0.000 claims description 7
- 125000003729 nucleotide group Chemical group 0.000 claims description 7
- 238000007500 overflow downdraw method Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000000691 measurement method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 3
- 125000002015 acyclic group Chemical group 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001973 epigenetic effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000002790 cross-validation Methods 0.000 abstract description 9
- 238000005065 mining Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 6
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 208000024172 Cardiovascular disease Diseases 0.000 description 3
- 208000006265 Renal cell carcinoma Diseases 0.000 description 3
- 208000005718 Stomach Neoplasms Diseases 0.000 description 3
- 206010017758 gastric cancer Diseases 0.000 description 3
- 201000011549 stomach cancer Diseases 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 108091007412 Piwi-interacting RNA Proteins 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000030279 gene silencing Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004055 small Interfering RNA Substances 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- 108010088141 Argonaute Proteins Proteins 0.000 description 1
- 108010034791 Heterochromatin Proteins 0.000 description 1
- 101000690503 Homo sapiens Protein argonaute-3 Proteins 0.000 description 1
- 102100026791 Protein argonaute-3 Human genes 0.000 description 1
- 244000061458 Solanum melongena Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000004166 bioassay Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006718 epigenetic regulation Effects 0.000 description 1
- 210000004458 heterochromatin Anatomy 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 210000003705 ribosome Anatomy 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000021595 spermatogenesis Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于卷积去噪自编码机的piRNA‑疾病关联关系预测方法,包括:数据集的选择与建立;Piwi蛋白质相互作用RNA序列相似性特征的生成;疾病语义相似性特征的生成;Piwi蛋白质相互作用RNA和疾病高斯相互作用谱核相似特征的生成;深度隐藏特征挖掘;训练集和测试集的构建;分类器模型的构建。本发明在五折交叉验证实验下取得了优异的性能表现,证明了卷积去噪自编码神经网络在Piwi蛋白质相互作用RNA和疾病关联预测中的有效性。通过案例研究更加证明了本发明在发现潜在Piwi蛋白质相互作用RNA和疾病关联关系的实际应用能力。
Description
技术领域
本发明涉及涉及深度学习和生物信息学技术领域,更具体地说,特别涉及一种基于卷积去噪自编码机的piRNA-疾病关联关系预测方法。
背景技术
近年来,Piwi蛋白质相互作用RNA被认为是细胞生物学的重要媒介,并成为小分子非编码RNA家族的最新成员。Piwi蛋白质相互作用RNA是一种包含21-30个核苷酸的单链RNA,在不同的生物体中主要与Argonaute家族PIWI蛋白成员(Argonaute3、Piwi、Aubergine)相互作用,形成与表观遗传调控、精子发生、转座子沉默、mRNA调控和发育以及基因组重排相关的piRNA/PIWI复合物。该复合物可通过识别piRNA序列引起异染色质修饰和转座子沉默,已成为高度保守的小分子RNA引导基因调控机制的典范。
此外,Piwi蛋白质相互作用RNA是癌症基因组学的新兴参与者,参与多种人类疾病(包括癌症)相关的异常表达。传统的生物学实验技术对于识别潜在的Piwi蛋白质相互作用RNA与人类疾病之间的特异性表达结果通常是可靠的,如广泛的体内和体外核糖体实验技术,高通量转录组测序技术等。然而,目前越来越多的Piwi蛋白质相互作用RNA与疾病关联数据库已经出现,如piRNABank、piRBase和piRNAQuest。这些已知的关联数据为构建高效、快速预测潜在关联关系的计算方法提供了坚实的基础,从而一定程度上解决传统生物实验方法耗时、昂贵和劳动密集型的问题。目前大多数计算预测方法仅仅考虑Piwi蛋白质相互作用RNA序列特征和疾病的相似性特征,而没有进一步对特征进行去噪以及进行深层隐藏特征提取,因此有必要设计一种能够利用到Piwi蛋白质相互作用RNA序列信息,高斯相互作用谱核相似信息以及疾病语义相似信息,疾病高斯相互作用谱核相似信息,能够对多种特征进行融合,去噪以及进行深层隐藏特征提取,达到更高预测精准度的预测方法。
发明内容
本发明的目的在于提供一种基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,以克服现有技术所存在的缺陷。
为了达到上述目的,本发明采用的技术方案为:
基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,包括以下步骤:
S1、获取已知的Piwi蛋白质相互作用RNA与疾病关联关系数据、Piwi蛋白质相互作用RNA的ID和序列信息,以及疾病语义信息;
S2、基于Piwi蛋白质相互作用RNA的核苷酸序列信息,利用基于重叠移动窗口的序列衍生特征提取方法计算每种Piwi蛋白质相互作用RNA序列特征,利用欧式相似性测量方法计算Piwi蛋白质相互作用RNA序列之间的相似性特征;
S3、利用有向无环图构建各种疾病之间的关系,定义两种不同的图中节点对目标疾病的语义贡献度,分别计算两种目标疾病的语义值,根据疾病之间有向无环图的共享部分计算两种疾病语义相似性特征;
S4、利用Piwi蛋白质相互作用RNA-疾病关联关系对分别计算Piwi蛋白质相互作用RNA和疾病的高斯相互作用谱核相似特征;
S5、基于均值相似核融合方法分别融合Piwi蛋白质相互作用RNA与疾病的多种相似特征,构建卷积去噪自动编码神经网络架构,提取输入数据的更深层次的隐藏特征,同时将噪声数据添加到训练数据集中,得到无污染特征数据;
S6、以Piwi蛋白质相互作用RNA与疾病关联关系数据作为正样本,基于剩余所有未确定的Piwi蛋白质相互作用RNA与疾病关联对,随机抽取与正样本相同关联对作为负样本,将整个训练数据集进行五次随机划分,每次划分成五个部分,其中四部分作为训练数据集,剩余一部分作为测试数据集;
S7、基于极限学习机利用训练数据集构建分类模型,利用测试数据集对模型进行打分,重复进行五次实验,取五次实验的平均结果作为模型的性能评价指标。
进一步地,所述步骤S2中利用基于重叠移动窗口的序列衍生特征提取3-mer方法,计算表观遗传标记的每种Piwi蛋白质相互作用RNA序列的核苷酸序列信息集合上所有3-聚体出现次数占整个序列长度的统计概率,生成特征向量作为其序列特征,利用欧几里得距离测度方法计算Piwi蛋白质相互作用RNA之间的序列相似性特征。
进一步地,所述步骤S3中是基于MeSH数据库利用有向无环图构建各种疾病之间的关系,某种疾病D可以被表示为DAG(D)=(D,T(D),E(D)),其中T(D)为包含D及其祖先的节点集,E(D)为从父节点到子节点的边集,疾病D的语义值可以表示为:
其中,有向无环图中的疾病项目d对D的语义贡献通过以下公式定义:
其中Δ是语义贡献衰减因子。
进一步地,如两种疾病di和dj的有向无环图相似,则可以将疾病di和dj视为相似的疾病,并定义第一种类型的疾病di和dj之间的语义相似度DS1(di,dj)为:
以及第二种类型疾病语义相似度为:
再将两种不同疾病di和dj的语义相似性特征由均值相似核融合方法表示为:
进一步地,所述步骤S4是基于具有相似特征的Piwi蛋白质相互作用RNA大概率与具有相似特征的疾病相关联的假设,该假设具体为:
首先、基于已知的Piwi蛋白质相互作用RNA-疾病关联关系对构建邻接矩阵A为:
其中,当Piwi蛋白质相互作用RNA pi与疾病dj存在关联关系时,Ai,j被设为1,否则,Ai,j被设为0,Piwi蛋白质相互作用RNA pi的相互作用谱信息可以表示为列向量A(:,i),Piwi蛋白质相互作用RNA pi与pj的高斯相互作用谱核相似性定义为:
Pgip(i,j)=exp(-σr|A(:,i)-A(:,j)|2)
其中,参数σr用于控制内核带宽,被定义为:
其中,n为邻接矩阵A的列向量个数;
然后、疾病di的相互作用谱信息表示为邻接矩阵A的行向量A(i,:),疾病di与dj的高斯相互作用谱核相似性定义为:
Dgip(i,j)=exp(-σd|A(i,:)-A(j,:)|2)
其中,n为邻接矩阵A的行向量个数。
进一步地,所述步骤S5中对于卷积去噪自动编码神经网络提取输入数据的更深层次的隐藏特征的过程具体为:
首先、执行编码过程,其中卷积层的输出定义为:
其中x为输入特征向量,xnoise为添加噪声数据,为卷积运算,W′1为权重参数,b′1为偏置向量,Sf为激活函数;
卷积层之后为池化层,池化层的输出定义为:
h2=pool(h1)=Sf(down(x)+b′1)
其中pool表示池操作,down表示下采样操作
然后、执行解码过程,定义反卷积和上采样层的输出为:
h′1=up(h′2)=Sg(up(x)+b′2)
其中,h′2表示解码过程中反卷积输出,W′2与b′2分别表示权重向量和偏置向量,up表示上采样操作,h′1表示解码过程的池化输出,Sg表示解码过程中的激活函数,x′表示重构后的x;
最后,卷积去噪自动编码神经网络通过前向传播和后向传播最小化重构误差,提取深度隐藏特征,其中前向传播过程中的卷积、池化和反卷积、池化操作为:
进一步地,所述步骤S7中的极限学习机为单隐层前馈神经网络,该极限学习机第一阶段的训练过程为特征映射并定义其输出为:
其中,x表示输入特征向量,h(x)表示隐含层输出向量,β表示输出权值;
极限学习机的第二阶段是输出权值求解,使输出权值的Frobenius范数和训练误差最小化,目标函数为:
其中,ω表示正则化参数,n表示样本数,ξi表示第i个样本训练误差,表示Frobenius范数。
与现有技术相比,本发明的优点在于:
1、本发明能够充分利用Piwi蛋白质相互作用RNA和疾病的多模态特征,包括序列特征,语义相似特征,高斯相互作用谱核相似特征,利用卷积去噪自动编码神经网络自动挖掘深层隐藏特征,并利用极限学习机高效预测潜在的Piwi蛋白质相互作用RNA-疾病关联关系;
2、本发明能够将Piwi蛋白质相互作用RNA和疾病特征视为图像,并利用深度学习方法卷积去噪自动编码器神经网络进行深度特征学习,提高模型的预测准确性,利用具有特定良好泛化性能和高速学习能力的极限学习机来训练深度特征并预测Piwi蛋白质相互作用RNA和疾病之间的潜在关联,得到比较好的预测效果;
3、本发明相比于传统生物实验方法,耗时少、价格低廉以及不需要密集劳动力;五折交叉验证下的预测准确率达到了AUC值达到85%以上,实例验证下对于胃癌、肾细胞癌、心血管疾病的潜在Piwi蛋白质相互作用RNA预测准确率达到80%,80%和60%。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于卷积去噪自编码机的piRNA-疾病关联关系预测方法的流程图。
图2为本发明在五折交叉验证下基于piRDisease v1.0数据集生成的ROC曲线。
图3为本发明不使用卷积去噪自动编码神经网络在五折交叉验证下基于piRDiseasev1.0数据集生成的ROC曲线。
图4为本发明与其他计算方法在五折交叉验证下基于piRDisease v1.0数据集的AUC对比。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
实施例一
参阅图1所示,本实施例公开了一种基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,包括以下步骤:
步骤S1、数据集的选择与建立:基于piRDisease v1.0数据库获取已知的Piwi蛋白质相互作用RNA与疾病关联关系数据;基于piRBase v2.0数据库获取Piwi蛋白质相互作用RNA的ID和序列信息;基于美国医学主题词(MeSH)数据库获取疾病语义信息;
步骤S2、Piwi蛋白质相互作用RNA序列相似性特征的生成:基于Piwi蛋白质相互作用RNA的核苷酸序列信息,即腺嘌呤,胞嘧啶,尿嘧啶和鸟嘌呤四种核苷酸排列信息,利用基于重叠移动窗口的序列衍生特征提取方法计算每种Piwi蛋白质相互作用RNA序列特征,利用欧式相似性测量方法计算Piwi蛋白质相互作用RNA序列之间的相似性特征;
步骤S3、疾病语义相似性特征的生成:基于美国国家医学图书馆的MeSH数据库利用有向无环图构建各种疾病之间的关系,定义两种不同的图中节点对目标疾病的语义贡献度,分别计算两种目标疾病的语义值,根据疾病之间有向无环图的共享部分计算两种疾病语义相似性特征;
步骤S4、Piwi蛋白质相互作用RNA和疾病高斯相互作用谱核相似特征的生成:基于具有相似特征的Piwi蛋白质相互作用RNA大概率与具有相似特征的疾病相关联的假设,利用已知的Piwi蛋白质相互作用RNA-疾病关联关系对分别计算Piwi蛋白质相互作用RNA和疾病的高斯相互作用谱核相似特征;
步骤S5、深度隐藏特征挖掘:基于均值相似核融合方法分别融合Piwi蛋白质相互作用RNA与疾病的多种相似特征,构建卷积去噪自动编码神经网络架构,以无监督的方式提取输入数据的更深层次的隐藏特征,同时将噪声数据添加到训练数据集中,迫使编码器去除噪声,得到真实的无污染特征数据;
步骤S6、训练集和测试集的构建:基于piRDisease v1.0数据库中已知的Piwi蛋白质相互作用RNA与疾病关联关系数据作为正样本,基于剩余所有未确定的Piwi蛋白质相互作用RNA与疾病关联对,随机抽取与正样本相同关联对作为负样本,将整个训练数据集进行五次随机划分,每次划分成五个部分,其中四部分作为训练数据集,剩余一部分作为测试数据集;
步骤S7、分类器模型的构建:基于极限学习机利用训练数据集构建分类模型,利用测试数据集对模型进行打分,重复进行五次实验,取五次实验的平均结果作为模型的性能评价指标。
如图1所示,在步骤S1中,数据集的选择与建立,本实施例使用的已知的Piwi蛋白质相互作用RNA与疾病关联数据来源于piRDisease v1.0数据库,在此基础上,本实施例进行了数据预处理操作,消除重复关联,删除公共数据库piRBase中没有ID的Piwi蛋白质相互作用RNA,最终获得5002条Piwi蛋白质相互作用RNA-疾病关联,包含4350种Piwi蛋白质相互作用RNA和21种人类疾病;Piwi蛋白质相互作用RNA的ID和序列信息来源于piRBase v2.0数据库;疾病语义信息来源于美国医学主题词(MeSH)数据库。
Piwi蛋白质相互作用RNA序列相似性特征的生成,Piwi蛋白质相互作用RNA序列信息,通常用四种核苷酸的简写字母表示,即腺嘌呤(A),胞嘧啶(C),尿嘧啶(U)和鸟嘌呤(G)四种核苷酸排列信息,利用基于重叠移动窗口的序列衍生特征提取方法将Piwi蛋白质相互作用RNA序列分割成多个3-单体单元(3-mers),计算每种3-mers的出现频率作为Piwi蛋白质相互作用RNA的序列特征,利用欧式相似性测量方法计算Piwi蛋白质相互作用RNA序列之间的相似性特征。
疾病语义相似性特征的生成,基于美国国家医学图书馆MeSH数据库构建有向无环图(DAG)来表示各种疾病之间的关联关系,在此基础上,某种疾病D可以被表示为DAG(D)=(D,T(D),E(D)),其中T(D)为包含D及其祖先的节点集,E(D)为从父节点到子节点的边集。因此,疾病D的语义值可以表示为:
其中有向无环图中的疾病项目d对D的语义贡献被定义为:
其中Δ是语义贡献衰减因子,在本发明中,它的值被设置为0.5。因此,如果两种疾病di和dj的有向无环图相似,则可以将它们视为相似的疾病,并定义它们之间的语义相似度DS1(di,dj)为:
此外,即使在DAG(D)的同一层,不同的疾病项目也有不同的贡献度,换句话说,如果一种疾病出现的次数越多,它对疾病D的贡献就越大,在此基础上进一步计算另一种疾病语义相似度。
具体的说,第二种类型疾病语义相似度定义为:
最后,两种不同疾病di和dj的语义相似性特征由均值相似核融合方法表示为:
Piwi蛋白质相互作用RNA和疾病高斯相互作用谱核相似性特征的生成,基于具有相似特征的Piwi蛋白质相互作用RNA大概率与具有相似特征的疾病相关联,反之亦然的假设,首先基于已知的Piwi蛋白质相互作用RNA-疾病关联关系对构建邻接矩阵A为:
其中,当Piwi蛋白质相互作用RNA pi与疾病dj存在关联关系时,Ai,j被设为1,否则,Ai,j被设为0。在此基础上,Piwi蛋白质相互作用RNA pi的相互作用谱信息可以表示为列向量A(:,i),Piwi蛋白质相互作用RNA pi与pj的高斯相互作用谱核相似性定义为:
Pgip(i,j)=exp(-σr|A(:,i)-A(:,j)|2) (9)
其中,参数σr用于控制内核带宽,被定义为:
其中,n为邻接矩阵A的列向量个数。
同样的,疾病di的相互作用谱信息可以表示为邻接矩阵A的行向量A(i,:),疾病di与dj的高斯相互作用谱核相似性定义为:
Dgip(i,j)=exp(-σd|A(i,:)-A(j,:)|2) (11)
其中,n为邻接矩阵A的行向量个数。
深层隐藏特征挖掘,基于均值相似核融合方法分别融合Piwi蛋白质相互作用RNA与疾病的多种相似特征,构建卷积去噪自动编码神经网络架构,以无监督的方式提取输入数据的更深层次的隐藏特征,同时将噪声数据添加到训练数据集中,迫使编码器去除噪声,得到真实的无污染特征数据,对于卷积去噪自动编码神经网络提取潜在特征的过程首先执行编码过程,其中卷积层的输出定义为:
其中x为输入特征向量,xnoise为添加噪声数据,为卷积运算,W′1为权重参数,b′1为偏置向量,Sf为激活函数,包括ReLU,Tanh和Sigmoid函数,本实施例中选用训练时间小,网络收敛速度快的ReLU激活函数。
卷积层之后是池化层,池化层的输出定义为:
h2=pool(h1)=Sf(down(x)+b′1) (14)
其中,pool表示池操作,down表示下采样操作。
接下来,卷积去噪自动编码神经网络执行解码过程,定义反卷积和上采样层的输出为:
h′1=up(h′2)=Sg(up(x)+b′2) (16)
其中,h′2表示解码过程中反卷积输出,W′2与b′2分别表示权重向量和偏置向量,up表示上采样操作,h′1表示解码过程的池化输出,Sg表示解码过程中的激活函数,x表示重构后的x。
最后,卷积去噪自动编码神经网络通过前向传播和后向传播最小化重构误差,提取深度隐藏特征,其中前向传播过程中的卷积、池化和反卷积、池化操作为:
分类器模型的构建,极限学习机是一种特殊的单隐层前馈神经网络(SLFNs),用于解决传统梯度下降神经网络学习缓慢的问题,因为不当的学习速率会导致大量的延迟,使其收敛到局部最大值。与传统的BP神经网络不同,极限学习机的输入隐含层权值和偏差是随机分配的。极限学习机第一阶段的训练过程为特征映射,并定义其输出为:
其中,x表示输入特征向量,h(x)表示隐含层输出向量,β表示输出权值。此外,任何非线性分段连续函数都可以作为激活函数h,例如Sigmoid,、Gaussian等为:
hi(x)=g(ai,bi,x),ai∈RD,bi∈R (22)
极限学习机的第二阶段是输出权值求解,使输出权值的Frobenius范数和训练误差最小化,目标函数为:
其中,ω表示正则化参数,n表示样本数,ξi表示第i个样本训练误差,表示Frobenius范数。
本实施例中,极限学习机参数′ELM_Type′设置为1,′Activation Function′设置为Sigmoid,′Number of Hidden Neurous′设置为60,其他参数设置为默认值。
实施例二
为了能够更好的说明本发明预测方法的效果,将此预测方法与不使用卷积去噪自动编码神经网络进行深层特征提取的模型(对比模型)进行了对比,表1列出了本实施例和对比模型使用五折交叉验证法在基准数据集上生成的结果:
表1 在五折交叉验证下基于基准数据集本发明与对比模型结果的比较
图2和图3分别展示了本发明和对比模型生成的ROC曲线;通过对比可以看出,本实施例在多种评价指标上均取得了更高的得分,其结果均高于不使用卷积去噪自动编码神经网络进行深层特征提取的对比模型,这个结果表明,本本发明的综合性能要优于不进行深层特征提取的模型。
实施例三
为了进一步对比本发明方法的性能表现,将本发明方法与两种最新的计算方法进行了对比,图4展示了在五折交叉验证下基于相同的基准数据集下,两种最新的计算方法与本发明在每一折数据下的AUC对比柱状图;AUC值的大小更能代表方法的预测性能。
通过对比可以看到:本发明相对于最新的计算模型拥有更高的AUC值,综合表现优于其他模型。
实施例四
为了进一步验证本发明方法在实际应用中预测Piwi蛋白质相互作用RNA与疾病之间潜在关联的能力,选择了三种重要的人类疾病(胃癌、肾细胞癌、心血管疾病)作为病例研究。
首先、在训练数据集中删除这三种疾病的所有正相关关联数据。
其次、将其余的正相关和所有负相关数据用于训练模型。
然后、预测由三种人类疾病和所有Piwi蛋白质相互作用RNA组成的测试数据集。
最后、选择每种疾病预测得分最高的前5个Piwi蛋白质相互作用RNA,并通过PubMed(https://pubmed.ncbi.nlm.nih.gov/)上的生物学文献进行验证。
从表格2中可以看出,本发明方法预测胃癌相关的前5个Piwi蛋白质相互作用RNA中有4个被验证,预测准确率为80%;预测与肾细胞癌相关的前5个Piwi蛋白质相互作用RNA中,已有4个被验证,预测准确率为80%;预测与心血管疾病相关的前5个Piwi蛋白质相互作用RNA中的3个已被验证,预测的准确率为60%。案例研究的预测结果可以说明本发明方法在实际应用中预测潜在的Piwi蛋白质相互作用RNA与疾病关联性能可靠。
表2
本发明在五折交叉验证实验下取得了优异的性能表现,证明了卷积去噪自编码神经网络在Piwi蛋白质相互作用RNA和疾病关联预测中的有效性。案例研究证明了本发明在发现潜在Piwi蛋白质相互作用RNA和疾病关联关系的实际应用能力。
虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。
Claims (7)
1.基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,其特征在于,包括以下步骤:
S1、获取已知的Piwi蛋白质相互作用RNA与疾病关联关系数据、Piwi蛋白质相互作用RNA的ID和序列信息,以及疾病语义信息;
S2、基于Piwi蛋白质相互作用RNA的核苷酸序列信息,利用基于重叠移动窗口的序列衍生特征提取方法计算每种Piwi蛋白质相互作用RNA序列特征,利用欧式相似性测量方法计算Piwi蛋白质相互作用RNA序列之间的相似性特征;
S3、利用有向无环图构建各种疾病之间的关系,定义两种不同的图中节点对目标疾病的语义贡献度,分别计算两种目标疾病的语义值,根据疾病之间有向无环图的共享部分计算两种疾病语义相似性特征;
S4、利用Piwi蛋白质相互作用RNA-疾病关联关系对分别计算Piwi蛋白质相互作用RNA和疾病的高斯相互作用谱核相似特征;
S5、基于均值相似核融合方法分别融合Piwi蛋白质相互作用RNA与疾病的多种相似特征,构建卷积去噪自动编码神经网络架构,提取输入数据的更深层次的隐藏特征,同时将噪声数据添加到训练数据集中,得到无污染特征数据;
S6、以Piwi蛋白质相互作用RNA与疾病关联关系数据作为正样本,基于剩余所有未确定的Piwi蛋白质相互作用RNA与疾病关联对,随机抽取与正样本相同关联对作为负样本,将整个训练数据集进行五次随机划分,每次划分成五个部分,其中四部分作为训练数据集,剩余一部分作为测试数据集;
S7、基于极限学习机利用训练数据集构建分类模型,利用测试数据集对模型进行打分,重复进行五次实验,取五次实验的平均结果作为模型的性能评价指标。
2.根据权利要求1所述的基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,其特征在于,所述步骤S2中利用基于重叠移动窗口的序列衍生特征提取3-mer方法,计算表观遗传标记的每种Piwi蛋白质相互作用RNA序列的核苷酸序列信息集合上所有3-聚体出现次数占整个序列长度的统计概率,生成特征向量作为其序列特征,利用欧几里得距离测度方法计算Piwi蛋白质相互作用RNA之间的序列相似性特征。
3.根据权利要求1所述的基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,其特征在于,所述步骤S3中是基于MeSH数据库利用有向无环图构建各种疾病之间的关系,某种疾病D可以被表示为DAG(D)=(D,T(D),E(D)),其中T(D)为包含D及其祖先的节点集,E(D)为从父节点到子节点的边集,疾病D的第一种语义值可以表示为:
其中,有向无环图中的疾病项目d对D的语义贡献通过以下公式定义:
其中Δ是语义贡献衰减因子。
4.根据权利要求3所述的基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,其特征在于,如两种疾病di和dj的有向无环图相似,则可以将疾病di和dj视为相似的疾病,并定义第一种类型的疾病di和dj之间的语义相似度DS1(di,dj)为:
以及第二种类型疾病语义相似度为:
再将两种不同疾病di和dj的语义相似性特征由均值相似核融合方法表示为:
5.根据权利要求1所述的基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,其特征在于,所述步骤S4是基于具有相似特征的Piwi蛋白质相互作用RNA大概率与具有相似特征的疾病相关联的假设,该假设具体为:
首先、基于已知的Piwi蛋白质相互作用RNA-疾病关联关系对构建邻接矩阵A为:
其中,当Piwi蛋白质相互作用RNApi与疾病dj存在关联关系时,Ai,j被设为1,否则,Ai,j被设为0,Piwi蛋白质相互作用RNApi的相互作用谱信息可以表示为列向量A(:,i),Piwi蛋白质相互作用RNApi与pj的高斯相互作用谱核相似性定义为:
Pgip(i,j)=exp(-σr|A(:,i)-A(:,j)|2)
其中,参数σr用于控制内核带宽,被定义为:
其中,n为邻接矩阵A的列向量个数;
然后、疾病di的相互作用谱信息表示为邻接矩阵A的行向量A(i,:),疾病di与dj的高斯相互作用谱核相似性定义为:
Dgip(i,j)=exp(-σd|A(i,:)-A(j,:)|2)
其中,n为邻接矩阵A的行向量个数。
6.根据权利要求1所述的基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,其特征在于,所述步骤S5中对于卷积去噪自动编码神经网络提取输入数据的更深层次的隐藏特征的过程具体为:
首先、执行编码过程,其中卷积层的输出定义为:
其中x为输入特征向量,xnoise为添加噪声数据,为卷积运算,W′1为权重参数,b′1为偏置向量,Sf为激活函数;
卷积层之后为池化层,池化层的输出定义为:
h2=pool(h1)=Sf(down(x)+b′1)
其中pool表示池操作,down表示下采样操作
然后、执行解码过程,定义反卷积和上采样层的输出为:
h′1=up(h′2)=Sg(up(x)+b′2)
其中,h′2表示解码过程中反卷积输出,W′2与b′2分别表示权重向量和偏置向量,up表示上采样操作,h′1表示解码过程的池化输出,Sg表示解码过程中的激活函数,x′表示重构后的x;
最后,卷积去噪自动编码神经网络通过前向传播和后向传播最小化重构误差,提取深度隐藏特征。
7.根据权利要求1所述的基于卷积去噪自编码机的piRNA-疾病关联关系预测方法,其特征在于,所述步骤S7中的极限学习机为单隐层前馈神经网络,该极限学习机第一阶段的训练过程为特征映射并定义其输出为:
其中,x表示输入特征向量,h(x)表示隐含层输出向量,β表示输出权值;
极限学习机的第二阶段是输出权值求解,使输出权值的Frobenius范数和训练误差最小化,目标函数为:
其中,ω表示正则化参数,n表示样本数,ξi表示第i个样本训练误差,表示Frobenius范数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044208.XA CN113724790B (zh) | 2021-09-07 | 2021-09-07 | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044208.XA CN113724790B (zh) | 2021-09-07 | 2021-09-07 | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113724790A CN113724790A (zh) | 2021-11-30 |
CN113724790B true CN113724790B (zh) | 2023-10-20 |
Family
ID=78682191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111044208.XA Active CN113724790B (zh) | 2021-09-07 | 2021-09-07 | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724790B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114582508B (zh) * | 2022-03-04 | 2024-03-15 | 安徽大学 | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 |
CN116092577B (zh) * | 2023-01-09 | 2024-01-05 | 中国海洋大学 | 一种基于多源异质信息聚合的蛋白质功能预测方法 |
CN116343915B (zh) * | 2023-03-15 | 2023-11-24 | 电子科技大学长三角研究院(衢州) | 生物序列集成分类器的构建方法及生物序列预测分类方法 |
CN117854733A (zh) * | 2023-11-28 | 2024-04-09 | 桂林理工大学 | 一种基于生物实体图的异构图transformer进行miRNA与疾病关联预测的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400600A (zh) * | 2019-08-01 | 2019-11-01 | 枣庄学院 | 一种基于旋转森林算法的miRNA-疾病相关性预测方法 |
CN110993113A (zh) * | 2019-11-21 | 2020-04-10 | 广西大学 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
CN113241114A (zh) * | 2021-03-24 | 2021-08-10 | 辽宁大学 | 一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法 |
CN113241115A (zh) * | 2021-03-26 | 2021-08-10 | 广东工业大学 | 一种基于深度矩阵分解的环状rna疾病关联预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210142173A1 (en) * | 2019-11-12 | 2021-05-13 | The Cleveland Clinic Foundation | Network-based deep learning technology for target identification and drug repurposing |
-
2021
- 2021-09-07 CN CN202111044208.XA patent/CN113724790B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400600A (zh) * | 2019-08-01 | 2019-11-01 | 枣庄学院 | 一种基于旋转森林算法的miRNA-疾病相关性预测方法 |
CN110993113A (zh) * | 2019-11-21 | 2020-04-10 | 广西大学 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
CN113241114A (zh) * | 2021-03-24 | 2021-08-10 | 辽宁大学 | 一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法 |
CN113241115A (zh) * | 2021-03-26 | 2021-08-10 | 广东工业大学 | 一种基于深度矩阵分解的环状rna疾病关联预测方法 |
Non-Patent Citations (1)
Title |
---|
黄俊恒 ; 孙玉山 ; 杜宇 ; .利用蛋白质-表型网络的致病基因预测方法研究.计算机工程与应用.2011,(第05期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113724790A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113724790B (zh) | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 | |
Wang et al. | LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization | |
Yu et al. | MCLPMDA: A novel method for mi RNA‐disease association prediction based on matrix completion and label propagation | |
CN112837753B (zh) | 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法 | |
CN114022693B (zh) | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 | |
CN112270958B (zh) | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 | |
Ji et al. | A semi-supervised learning method for MiRNA-disease association prediction based on variational autoencoder | |
CN114496105A (zh) | 一种基于多语义网络的单步逆合成方法及系统 | |
CN116152554A (zh) | 基于知识引导的小样本图像识别系统 | |
CN115640529A (zh) | 一种新型的环状rna-疾病关联预测方法 | |
Ji et al. | DFL-PiDA: prediction of Piwi-interacting RNA-disease associations based on deep feature learning | |
CN110890127A (zh) | 酿酒酵母dna复制起始区域识别方法 | |
Chai et al. | Integrating multi-omics data with deep learning for predicting cancer prognosis | |
CN113539479A (zh) | 一种基于相似性约束的miRNA-疾病关联预测方法及系统 | |
CN117393049A (zh) | 一种基于随机扰动和多视图图卷积网络的circRNA-疾病关联预测模型 | |
CN109326327B (zh) | 一种基于SeqRank图算法的生物序列聚类方法 | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN115295156A (zh) | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 | |
CN113936741A (zh) | 一种基于上下文感知计算的rna溶剂可及性预测方法 | |
CN111739582A (zh) | 一种基于协同作用网络的生物组学数据分析方法 | |
Liu et al. | Tensor product graph diffusion based on nonlinear fusion of multi-source information to predict circRNA-disease associations | |
CN117831783A (zh) | 一种基于多视图学习的miRNA-疾病关联预测方法 | |
CN117198407A (zh) | 基于编码器的梯度提升机miRNA-疾病关联预测方法 | |
CN114678134A (zh) | 基于多源数据融合和矩阵补全的miRNA-疾病关联关系预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |