CN117012382A - 基于深度特征融合的疾病相关circRNA预测系统 - Google Patents
基于深度特征融合的疾病相关circRNA预测系统 Download PDFInfo
- Publication number
- CN117012382A CN117012382A CN202310581700.3A CN202310581700A CN117012382A CN 117012382 A CN117012382 A CN 117012382A CN 202310581700 A CN202310581700 A CN 202310581700A CN 117012382 A CN117012382 A CN 117012382A
- Authority
- CN
- China
- Prior art keywords
- circrna
- disease
- matrix
- similarity
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 321
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 321
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 317
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000010354 integration Effects 0.000 claims abstract description 64
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 26
- 108091028075 Circular RNA Proteins 0.000 claims description 253
- 238000007637 random forest analysis Methods 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000002195 synergetic effect Effects 0.000 claims description 8
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 6
- 238000002790 cross-validation Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 7
- 208000031261 Acute myeloid leukaemia Diseases 0.000 description 6
- 208000033776 Myeloid Acute Leukemia Diseases 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 208000002874 Acne Vulgaris Diseases 0.000 description 5
- 206010000496 acne Diseases 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 5
- 208000008128 pulmonary tuberculosis Diseases 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 206010009944 Colon cancer Diseases 0.000 description 3
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 201000005202 lung cancer Diseases 0.000 description 3
- 208000020816 lung neoplasm Diseases 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 201000001320 Atherosclerosis Diseases 0.000 description 2
- 206010004146 Basal cell carcinoma Diseases 0.000 description 2
- 206010029260 Neuroblastoma Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 108060002716 Exonuclease Proteins 0.000 description 1
- 102100039956 Geminin Human genes 0.000 description 1
- 208000032612 Glial tumor Diseases 0.000 description 1
- 206010018338 Glioma Diseases 0.000 description 1
- 101000886596 Homo sapiens Geminin Proteins 0.000 description 1
- 208000032382 Ischaemic stroke Diseases 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003143 atherosclerotic effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 102000013165 exonuclease Human genes 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000007363 ring formation reaction Methods 0.000 description 1
- 208000019553 vascular disease Diseases 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Bioethics (AREA)
- Biotechnology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
基于深度特征融合的疾病相关circRNA预测系统,本发明涉及疾病相关circRNA预测系统。本发明的目的是为了解决现有基于机器学习的方法只是将circRNA和disease的特征分别处理后进行简单的拼接,只关注网络中相邻结点的特征和本身的特征,没有将disease的特征信息与circRNA的特征信息进行整合,导致disease的特征与circRNA特征中的有效信息没有得到充分利用,对disease与circRNA的关联性预测准确率低的问题。系统包括:circRNA‑disease之间的关联关系获取模块、矩阵获取模块、circRNA整合相似性矩阵获取模块、disease整合相似性矩阵获取模块、局部特征提取模块、circRNA的全局特征提取模块、disease的全局特征提取模块、disease特征获取模块、circRNA特征获取模块、disease与circRNA的关联预测模块、待测模块。本发明用于生物信息领域。
Description
技术领域
本发明涉及疾病相关circRNA预测系统。本方法用于生物信息领域。
背景技术
环状RNA(circRNA)是一种具有特殊环状结构的非编码RNA分子。与传统的线性RNA相比,circRNA缺少5’的帽子和3’末端ployA尾巴,通过反向剪接环化后不容易被RNA外切酶降解,具有更好的表达稳定性和组织特异性。许多研究表明circRNA与肺癌,结直肠癌,神经胶质瘤等人类复杂疾病的产生和发展密切相关。因此,识别疾病相关circRNA对于解析疾病的形成机制,发现诊断标记物以及制定诊疗方案具有十分重要的意义。近些年,随着计算机技术和人工智能的发展,研究人员为了节约探查circRNA和疾病间关联关系的成本,尝试引入深度学习方法来使得识别circRNA和疾病间关联关系更为高效。
现有的计算方法大致可以分为四类:网络路径的方法、矩阵分解方法、机器学习方法和深度学习方法。
网络路径方法通过计算circRNA-disease异质网络中circRNA与disease之间的路径长度估计circRNA-disease相互作用的可能性。一般地,circRNA与disease之间的路径长度越短,则表示circRNA与disease的关系越密切。例如,KATZHCDA首先用KATZ方法度量circRNA-diseaes异质网络中所有circRNA-disease之间的关联得分,然后根据关联得分筛选疾病相关的circRNA。类似地,Hüseyin等人利用带重启的随机游走方法(RWR)挖掘异质网络中潜在的circRNA-disease关联关系。PWCDA首先利用节点相似性构建了加权的circRNA-disease异构网络,并分别对circRNA与disease之间的各条路径进行加权评价,然后综合它们之间的所有路径评分来推测circRNA与疾病的关联得分。
矩阵分解方法利用矩阵表示circRNA与疾病之间的关联关系,其中矩阵元素值为1表示对应的circRNA与疾病密切相关,矩阵元素值为0表示对应的circRNA与疾病无关。相应地,矩阵分解方法将circRNA-疾病关联关系预测问题抽象为矩阵元素补全问题,首先对初始的circRNA-疾病关联矩阵进行分解变换挖掘潜在的circRNA-疾病关联关系,构造出新的circRNA-疾病关联矩阵。例如,SIMCCDA将circRNA和disease的相似性矩阵和已知的关联矩阵进行加速感应矩阵补全(Speedup Inductive Matrix Completion),得到预测的circRNA和disease的关联矩阵。DMCCDA利用双矩阵补全的方法预测circRNA-disease关联关系,取得了不错的预测性能。DWNN-RLS使用DWNN方法对circRNA相似性,disease相似性,circRNA-disease关联进行计算得到初始的circRNA-disease关联分数,然后用正则化最小二乘算法的克罗内克积核(Regularized Least Squares of Kronecker product kernel)计算circRNA与disease最终的关联评分,分数越高代表关联性越强。
机器学习方法将circRNA-disease关联关系预测看作分类问题,提取circRNA和disease的特征并据此训练分类模型。RWRKNN将circRNA相似性矩阵和disease相似性矩阵进行阈值处理得到circRNA关联矩阵和disease关联矩阵。然后将circRNA和disease关联矩阵使用RWR处理,得到circRNA和disease权重矩阵。circRNA权重矩阵与相似性矩阵相乘得到circRNA特征,同理可得disease特征,将circRNA特征和disease特征拼接形成新特征后,使用k-nearest neighbor进行预测。
iCDA-CGR使用Chaos Game Representation方法抽取circRNA的序列特征,融合circRNA以基因为基础的特征,circRNA高斯特征得到最终的circRNA特征,将disease语义特征,disease高斯特征融合得到disease特征,将它们拼接后得到新特征,输入到SVM中进行circRNA-disease关联对的预测。GCNCDA模型,先对circRNA和disease相似性进行拼接,输入Fast GCN处理得到新特征后,再使用Forest PA分类器进行circRNA-disease关联预测。
深度学习方法使用神经网络将低级特征进行处理获得高级的表示特征,并且使用神经网络进行分类。CRPGCN用RWR处理相似性矩阵,再用PCA处理RWR的输出矩阵,得到最终矩阵后输入GCN进行circRNA-disease关联预测的方法。GATCDA使用GAT对disease和circRNA特征矩阵学习进行circRNA-disease关联对预测的方法。
虽然以上方法都取得了优秀的性能,但是基于路径的方法与基于矩阵分解的方法不能发现circRNA与disease的非线性关系,基于机器学习的方法只是将circRNA和disease的特征分别处理后进行简单的拼接,基于深度学习的方法只能关注网络中相邻结点的特征和本身的特征。上述方法没有将disease的特征网络中的信息与circRNA特征网络中的信息进行整合,使特征中的有效信息得到充分利用,所以没有取得最好的结果。
发明内容
本发明的目的是为了解决现有基于机器学习的方法只是将circRNA和disease的特征分别处理后进行简单的拼接,只关注网络中相邻结点的特征和本身的特征,没有将disease的特征信息与circRNA的特征信息进行整合,导致disease的特征与circRNA特征中的有效信息没有得到充分利用,对disease与circRNA的关联性预测准确率低的问题,而提出基于深度特征融合的疾病相关circRNA预测系统。
基于深度特征融合的疾病相关circRNA预测系统包括:
circRNA-disease之间的关联关系获取模块、矩阵获取模块、circRNA整合相似性矩阵获取模块、disease整合相似性矩阵获取模块、局部特征提取模块、circRNA的全局特征提取模块、disease的全局特征提取模块、disease特征获取模块、circRNA特征获取模块、disease与circRNA的关联预测模块、待测模块;
所述circRNA为环状RNA;disease为疾病;
circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据,对关联数据进行预处理,得到circRNA-disease之间的关联关系,再获取疾病之间的关联关系;
矩阵获取模块用于由circRNA-disease之间的关联关系和疾病之间的关联关系计算circRNA的多种相似性矩阵,disease的多种相似性矩阵,circRNA协同矩阵,disease协同矩阵;
circRNA整合相似性矩阵获取模块用于对circRNA的多种相似性矩阵进行整合,获得circRNA整合相似性矩阵;
disease整合相似性矩阵获取模块用于对disease的多种相似性矩阵进行整合,获得disease整合相似性矩阵;
局部特征提取模块用于使用CNN对circRNA和disease的整合相似性矩阵进行处理,提取circRNA和disease的局部特征,获得circRNA和disease的局部特征矩阵;
所述CNN为卷积神经网络;
circRNA的全局特征提取模块用于将circRNA整合相似性矩阵与circRNA协同矩阵输入GCN,经过两层GCN特征提取得到circRNA的全局特征,获得circRNA的全局特征矩阵;
disease的全局特征提取模块用于将disease整合相似性矩阵与disease协同矩阵输入GCN,经过两层GCN对特征的提取得到disease的全局特征,获得disease的全局特征矩阵;
所述GCN为图神经网络;
disease特征获取模块用于将disease局部特征和circRNA全局特征进行融合,获得最终的disease特征矩阵;
circRNA特征获取模块用于将circRNA局部特征和disease全局特征进行融合,获得最终的circRNA特征矩阵;
disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测,直至收敛,获得训练好的disease与circRNA的关联预测模块;
待测模块用于将待测disease与circRNA输入训练好的disease与circRNA的关联预测模块进行关联评分预测。
本发明的有益效果为:
本发明开发了一种新的模型GCRF。首先进行circRNA和disease的特征提取,GCRF使用GCN和CNN对circRNA和disease的特征矩阵进行特征提取,将circRNA的协同矩阵与相似性矩阵输入GCN提取circRNA的全局特征,将disease的协同矩阵与相似性矩阵输入GCN提取disease的全局特征;将circRNA和disease的相似性矩阵送入CNN提取二者的局部特征。为了优化disease和circRNA信息融合不充分的问题,GCRF采用矩阵点乘将circRNA的全局特征与disease的局部特征获得融合circRNA特征的disease特征矩阵;同理,可获得融合disease特征的circRNA矩阵。随后,将这两类矩阵的集合分别输入两个随机森林发掘关联中的非线性关系进行预测。
(1)本发明将深度学习和机器学习相结合,解决了传统基于路径的方法和基于矩阵分解不能发掘关联非线性关系的问题,解决了单一深度学习方法只关注网络中本身结点和关联结点的问题,该方法可以有效发掘circRNA-disease的关联。有利于了解人类疾病的分子机制,且有利于对疾病进行诊断和治疗。
(2)本发明使用GCN和CNN组合对circRNA和disease的相似性进行了高效的特征提取,将局部特征和全局特征进行深度融合,提高了circRNA-disease预测的准确率。
(3)本发明的模型泛化性能较好,在三个数据集上比其他先进模型表现出更好的预测效果,能够有效预测circRNA与disease之间的潜在关联作用,为预测新的circRNA-disease关联提供了有效支持。
附图说明
图1为利用随机森林,基于GCN和CNN所提取到的circRNA和disease全局特征和局部特征进行circRNA和disease关联关系预测的流程图;
图2a为不同方法在circR2disease数据集上做五倍交叉验证的ROC曲线图;
图2b为不同方法在circR2disease数据集上做五倍交叉验证的PR曲线图;
图3a为不同方法在circRNAdisease数据集上做五倍交叉验证的ROC曲线图;
图3b为不同方法在circRNAdisease数据集上做五倍交叉验证的PR曲线图;
图4a为不同方法在circ2disease数据集上做五倍交叉验证的ROC曲线图;
图4b为不同方法在circ2disease数据集上做五倍交叉验证的PR曲线图。
具体实施方式
具体实施方式一:本实施方式基于深度特征融合的疾病相关circRNA预测系统包括:
circRNA-disease之间的关联关系获取模块、矩阵获取模块、circRNA整合相似性矩阵获取模块、disease整合相似性矩阵获取模块、局部特征提取模块、circRNA的全局特征提取模块、disease的全局特征提取模块、disease特征获取模块、circRNA特征获取模块、disease与circRNA的关联预测模块、待测模块;
所述circRNA为环状RNA;disease为疾病;
circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据,对关联数据进行预处理,得到circRNA-disease之间的关联关系,再获取疾病之间的关联关系;
矩阵获取模块用于由circRNA-disease之间的关联关系和疾病之间的关联关系计算circRNA的多种相似性矩阵,disease的多种相似性矩阵,circRNA协同矩阵,disease协同矩阵;
circRNA整合相似性矩阵获取模块用于对circRNA的多种相似性矩阵进行整合,获得circRNA整合相似性矩阵;
disease整合相似性矩阵获取模块用于对disease的多种相似性矩阵进行整合,获得disease整合相似性矩阵;
局部特征提取模块用于使用CNN对circRNA和disease的整合相似性矩阵进行处理,提取circRNA和disease的局部特征,获得circRNA和disease的局部特征矩阵;
所述CNN为卷积神经网络;
circRNA的全局特征提取模块用于将circRNA整合相似性矩阵与circRNA协同矩阵输入GCN,经过两层GCN特征提取得到circRNA的全局特征,获得circRNA的全局特征矩阵;
disease的全局特征提取模块用于将disease整合相似性矩阵与disease协同矩阵输入GCN,经过两层GCN对特征的提取得到disease的全局特征,获得disease的全局特征矩阵;
所述GCN为图神经网络;
disease特征获取模块用于将disease局部特征和circRNA全局特征进行融合,获得最终的disease特征矩阵;
circRNA特征获取模块用于将circRNA局部特征和disease全局特征进行融合,获得最终的circRNA特征矩阵;
disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测,直至收敛,获得训练好的disease与circRNA的关联预测模块;有标签的进行训练;并对模型进行性能评估。
待测模块用于将待测disease与circRNA输入训练好的disease与circRNA的关联预测模块进行关联评分预测。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据,对关联数据进行预处理,得到circRNA-disease之间的关联关系,再获取疾病之间的关联关系;具体过程为:
从数据库下载circRNA-disease关联数据,对circRNA-disease关联数据中的非人类数据(例如circR2disease数据库中老鼠的circRNA-disease关联对)和重复数据进行删除,获得预处理后的circRNA-disease关联矩阵;
将预处理后的circRNA-disease关联数据中含有的disease在特定数据库中检索,获取预处理后的circRNA-disease关联数据中含有的disease之间的关联(预处理后的circRNA-disease关联数据中有很多disease,检索disease之间的关联)。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述矩阵获取模块用于由circRNA-disease之间的关联关系计算circRNA的多种相似性矩阵,disease的多种相似性矩阵,circRNA协同矩阵,disease协同矩阵;具体过程为:
使用circRNA-disease之间的关联关系和疾病之间的关联关系计算disease语义相似性,disease高斯相似性,disease协同矩阵,circRNA功能相似性,circRNA高斯相似性,circRNA协同矩阵;
A、disease语义相似性计算公式如下:
其中,dm为disease m,dn为disease n,DS(dm,dn)为disease m和disease n的语义相似性;
是包含disease m的有向无环图中,disease m所有的祖先结点与disease m本身所组成的集合;/>是包含disease n的有向无环图中,disease n所有的祖先结点与disease n本身所组成的集合;h是disease h;x是/>或/>中的疾病;
是disease h对disease n的语义贡献值,/>是disease h对disease m的语义贡献值,/>可以通过如下公式计算:
其中,θ为语义贡献因子,设置为0.5;*为乘号,为disease h’对disease m的语义贡献值,h’为disease h’,children of h为disease h的子女;
当h为disease m本身时,语义贡献值为1;
当h为disease m的祖先结点时,计算不同路径disease h对disease m的语义贡献值,路径边数越多,语义贡献值越低;
B、disease高斯相似性计算公式如下:
其中,DG(dm,dn)为disease m和disease n的高斯相似性;Α(dm)为circRNA-disease关联矩阵的第m列,Α(dn)为circRNA-disease关联矩阵的第n列,Nd为circRNA-disease关联矩阵的列数,i表示关联矩阵第i列,Α(di)为circRNA-disease关联矩阵的第i列;
circRNA-disease关联矩阵,比如
(这里的名字是关联对,关联矩阵由关联对得到)
CircRNAs | Diseases |
circRNA_0084927/hsa_circ_0084927 | Acne |
circRNA_0001073/hsa_circ_0001073 | Acne |
circRNA_0005941/hsa_circ_0005941 | Acne |
circRNA_0086376/hsa_circ_0086376 | Acne |
circRNA_0018168/hsa_circ_0018168 | Acne |
hsa_circ_0005836 | Active pulmonary tuberculosis |
hsa_circ_0009128 | Active pulmonary tuberculosis |
hsa_circ_0023956 | Active pulmonary tuberculosis |
hsa_circ_0078768 | Active pulmonary tuberculosis |
hsa_circ_0088452 | Active pulmonary tuberculosis |
circDLGAP4 | Acute ischemic stroke |
hsa_circ_0075001/circNPM1 | Acute myeloid leukemia |
hsa_circ_0004277 | Acute myeloid leukemia |
hsa_circ_0035381 | Acute myeloid leukemia |
hsa_circ_0004136 | Acute myeloid leukemia |
circRNA_102913/hsa_circ_0058058 | Acute myeloid leukemia |
hsa_circ_0017446 | Acute myeloid leukemia |
CDR1as/ciRS-7/hsa_circ_0001946 | Alzheimer’s disease |
hsa_circ_0003575 | Atherosclerosis |
circANRIL | Atherosclerosis |
circANRIL | Atherosclerotic vascular disease |
hsa_circ_0075829 | Basal cell carcinoma |
hsa_circ_0008732 | Basal cell carcinoma |
从数据库获得这样有关联的circRNA-disease对
(这下面的1,0矩阵是关联矩阵)
第一行是一个circRNA和其他所有disease的关系,有关联是1,没记载关联就是0);
C、circRNA功能相似性计算流程如下:
首先计算DSS(dq,Dn),DSS(dq,Dn)表示diseaseq与Dn中每个疾病的语义相似性的最大值,通过如下公式得到;
其中,DS(dq,du)表示disease q和disease u的语义相似性,dq为disease q,du为disease u,Dn表示与circRNA n相关的disease集合;
然后使用disease语义相似性和circRNA-disease关联矩阵进行circRNA功能相似性的计算,circRNA功能相似性计算公式如下:
其中,CF(cm,cn)表示circRNA m与circRNA n的功能相似性,cm表示circRNA m,cn表示circRNA n,DSS(dp,Dm)表示disease p与Dm中每个疾病的语义相似性的最大值,Dm表示与circRNA m相关的disease集合;
D、circRNA高斯相似性计算公式如下:
其中,CG(cm,cn)表示circRNA m与circRNA n的高斯相似性;Α(cn)表示circRNA-disease关联矩阵的第n行,Α(cm)为circRNA-disease关联矩阵的第m行,Nc为circRNA-disease关联矩阵的行数,i表示circRNA-disease关联矩阵第i行,Α(ci)为circRNA-disease关联矩阵的第i行;
E、circRNA协同矩阵和Disease协同矩阵具体为:
circRNA协同矩阵第m行第n列上的值为在所有disease中,某一个disease与circRNA m有关时,也与circRNA n有关的概率;
Disease协同矩阵第m行第n列上的值为在所有circRNA中,某一circRNA与diseasem有关时,也与diseasen有关的概率;
(解释:如表1:
表1
A | B | C | |
1 | 1 | 1 | 0 |
2 | 1 | 1 | 1 |
3 | 0 | 1 | 1 |
4 | 0 | 1 | 0 |
5 | 0 | 0 | 1 |
假设表1为circRNA1,2,3,4,5和disease A,B,C的关联关系;
用disease协同矩阵第1行第2列做解释,就是某一个circRNA和diseaseA有关时,也与diseaseB有关的概率,那就是百分之百,因为diseaseA与circRNA1,2有关,当diseaseA与circRNA1有关时,diseaseB也与circRNA1有关,当diseaseA与circRNA2有关时,diseaseB也与circRNA2有关;(diseasem与某个circRNA有关时,diseasen也与这个circRNA有关的概率)(用disease协同矩阵第1行第2列做解释,就是某一个circRNA和diseaseA有关时,也与diseaseB有关的概率,用关联矩阵得到这个概率,diseaseA与circRNA1有关,判断diseaseB与circRNA1是否有关,确定有关联。diseaseA与circRNA2有关,判断diseaseB是否与circRNA2有关,这里也有关联,那么在训练集中,diseaseA与某个circRNA有关时,diseaseB百分百与circRNA有关,所以把1作为diseaseA与某个circRNA有关时,diseasen也与这个circRNA有关的概率)
用disease协同矩阵第2行第3列做解释,就是当一个circRNA和diseaseB有关时,也与diseaseC有关的概率,那就是百分之50,因为当diseaseB与circRNA1有关时,diseaseC与circRNA1没有关联,diseaseC与circRNA2有关,diseaseC与circRNA3有关,diseaseC与circRNA4无关,这就是四分之二,百分之五十的概率;
可以理解为disease是标签,circRNA是图片,算的是训练集中一个图片中一个标签出现时另一个标签也会出现的概率;)。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述circRNA整合相似性矩阵获取模块用于对circRNA的多种相似性矩阵进行整合,获得circRNA整合相似性矩阵;具体过程为:
将circRNA功能相似性和circRNA高斯相似性进行整合,获得circRNA整合相似性矩阵,表达式如下:
其中,Csim(cm,cn)为circRNAm与circRNAn整合的相似性的值。
当circRNAm与circRNAn的功能相似性不为0时,它们整合后的相似性的值为功能相似性的值,否则,整合后的相似性的值为高斯相似性的值。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述disease整合相似性矩阵获取模块用于对disease的多种相似性矩阵进行整合,获得disease整合相似性矩阵;具体过程为:
将disease语义相似性和disease高斯相似性进行整合,获得disease整合相似性矩阵表达式如下:
其中,Dsim(dm,dn)为diseasem与diseasen整合的相似性的值。
当diseasem与diseasen的语义相似性不为0时,它们整合后的相似性的值为语义相似性的值,否则,整合后的相似性的值为高斯相似性的值。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述局部特征提取模块用于使用CNN对circRNA和disease的整合相似性矩阵进行处理,提取circRNA和disease的局部特征,获得circRNA和disease的局部特征矩阵;
所述CNN为卷积神经网络;
具体过程为:
CNN的卷积层使用一个卷积核对disease和circRNA的特征进行过滤,以提取circRNA和disease的特征,然后经过池化层得到circRNA与disease的局部特征。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述circRNA的全局特征提取模块用于将circRNA整合相似性矩阵与circRNA协同矩阵输入GCN,经过两层GCN特征提取得到circRNA的全局特征,获得circRNA的全局特征矩阵(第一层GCN输出作为第二层GCN输入,第二层GCN输出特征为circRNA的全局特征);具体过程为:
GCN通过聚合邻居的特征向量,基于全局图结构,有效地提取circRNA与disease的全局特征。具体来说,以提取circRNA的全局特征为例,将circRNA整合相似性矩阵和circRNA协同矩阵输入到GCN,提取circRNA的全局特征,经过两层GCN进行特征提取后获得circRNA的全局特征;
每一层GCN的输出由如下公式表示:
Hnew=GCN(W,H)
其中,W为circRNA的协同矩阵,H为circRNA相似性矩阵,Relu为激活函数,Hnew为经过GCN处理得到的新的circRNA特征矩阵,为中间变量,/>I为单位矩阵,L是一个度矩阵,/> 为/>的第i行第j列,Q为一个可训练的矩阵。
经过GCN的处理可以将每一个circRNA特征及协同矩阵显示的有概率同时与某个disease有关的circRNA的特征进行聚合,提取circRNA的全局特征,经过两层GCN进行特征提取后获得circRNA的全局特征。同理获得disease的全局特征。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述disease特征获取模块用于将disease局部特征和circRNA全局特征进行融合,获得最终的disease特征矩阵;具体过程为:
将disease局部特征矩阵和circRNA全局特征矩阵进行点乘获得最终的disease特征矩阵。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述circRNA特征获取模块用于将circRNA局部特征和disease全局特征进行融合,获得最终的circRNA特征表示;具体过程为:
将circRNA局部特征矩阵和disease全局特征矩阵进行点乘获得最终的circRNA特征矩阵。
其它步骤及参数与具体实施方式一至八之一相同。
具体实施方式十:本实施方式与具体实施方式一至九之一不同的是,所述disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测,直至收敛,获得训练好的disease与circRNA的关联预测模块;具体过程为:
最终的circRNA特征矩阵和disease整合相似性矩阵(disease整合相似性矩阵为对disease的多种相似性矩阵进行整合获得的;)进行拼接获得circRNA-disease对的特征矩阵1;
所述最终的circRNA特征矩阵和disease整合相似性矩阵进行拼接获得circRNA-disease对的特征矩阵1;具体过程为:
最终的circRNA特征矩阵为行,disease整合相似性矩阵为/>行;
将circRNA特征矩阵的第一行数据分别与disease整合相似性矩阵的行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵1的第一行至第/>行;
将circRNA特征矩阵的第二行数据分别与disease整合相似性矩阵的行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵1的第/>行至第/>行;
直至将circRNA特征矩阵的第行数据分别与disease整合相似性矩阵的/>行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵1的第/>行至第/>行;
最终的circRNA特征矩阵与disease整合相似性矩阵进行拼接共获得行数据;
最终的disease特征矩阵和circRNA整合的相似性矩阵(circRNA整合的相似性矩阵为对circRNA的多种相似性矩阵进行整合获得的)进行拼接获得circRNA-disease对的特征矩阵2;
所述最终的disease特征矩阵和circRNA整合的相似性矩阵进行拼接获得circRNA-disease对的特征矩阵2;具体过程为:
最终的circRNA特征矩阵为行,disease整合相似性矩阵为/>行;
将circRNA整合的相似性矩阵的第一行数据分别与disease特征矩阵的行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵2的第一行至第/>行;
将circRNA整合的相似性矩阵的第二行数据分别与disease特征矩阵的行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵2的第/>行至第/>行;
直至将circRNA整合的相似性矩阵的第行数据分别与disease特征矩阵的/>行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵2的第/>行至第/>行;
最终的circRNA特征矩阵与disease整合相似性矩阵进行拼接共获得行数据;
得到的行数据是为了得到每一行代表的关联对特征;
用circRNA-disease对的特征矩阵1训练随机森林模型1(是现有的模型,2两个随机森林模型的参数是完全一样的),获得训练好的随机森林模型1;
用circRNA-disease对的特征矩阵2训练随机森林模型2,获得训练好的随机森林模型2;
将circRNA-disease对的特征矩阵1输入训练好的随机森林模型1输出的关联评分1;
将circRNA-disease对的特征矩阵2输入训练好的随机森林模型2输出的关联评分2;
将随机森林模型1输出的关联评分1和随机森林模型2输出的关联评分2相加除以2,得到circRNA-disease对的关联评分。
解释一下拼接,假设下面是包含circRNA1,2,3的特征矩阵:第一行代表circRNA1的特征,第二行代表circRNA2的特征,第三行代表circRNA3的特征;
circRNA1 | 0 | 1 | 2 | 4 | 1 |
circRNA2 | 1 | 2 | 3 | 1 | 1 |
circRNA3 | 3 | 3 | 1 | 1 | 1 |
下面是包含disease1,2,3的特征矩阵:第一行代表disease1的特征,第二行代表disease2的特征,第三行代表disease3的特征
disease1 | 5 | 5 | 5 | 5 | 5 |
disease2 | 6 | 6 | 6 | 6 | 6 |
disease3 | 7 | 7 | 7 | 7 | 7 |
拼接是获得关联对的特征,比如circRNA1的特征和disease1的特征拼接,就获得circRNA1-disease1关联对的特征,像下面这样:
0 | 1 | 2 | 4 | 1 | 5 | 5 | 5 | 5 | 5 |
直接拼在后面,也可以获得circRNA1-disease2关联对的特征:
0 | 1 | 2 | 4 | 1 | 6 | 6 | 6 | 6 | 6 |
一个一个拼,也就是circRNA特征矩阵的第一行分别和disease特征矩阵的第1,2,3行拼起来,然后circRNA特征第二行分别和disease特征矩阵的第1,2,3行拼起来,这样获得所有circRNA-disease关联对的特征。
其它步骤及参数与具体实施方式一至九之一相同。
实施例1:
circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据,对关联数据进行预处理,得到circRNA-disease之间的关联关系,再获取疾病之间的关联关系;具体过程为:
在本实施例中,实验所需的数据包括2部分:
S11:获得circRNA-disease的原始关联矩阵数据。从circR2disease(http://bioinfo.snnu.edu.cn/),circ2disease(http://bioinformatics.zju.edu.cn/Circ2Disease/tutorial.html),circRNAdisease(http://cgga.org.cn:9091/circRNADisease/)下载circRNA与disease之间的关联关系,将下载下来的关系进行删除非人类数据和重复数据的处理,3个数据集分别形成3个circRNA与disease之间的关联矩阵。
S12:在Disease Ontology数据库(https://disease-ontology.org/)中检索数据库包含的disease之间的关联关系,具体来说,所有disease都会在包含自己的有向无环图中,通过有向无环图了解这个disease和其他disease的关联关系。
矩阵获取模块用于由circRNA-disease之间的关联关系计算circRNA的多种相似性矩阵,disease的多种相似性矩阵,circRNA协同矩阵,disease协同矩阵;
circRNA整合相似性矩阵获取模块用于对circRNA的多种相似性矩阵进行整合,获得circRNA整合相似性矩阵;
disease整合相似性矩阵获取模块用于对disease的多种相似性矩阵进行整合,获得disease整合相似性矩阵;
局部特征提取模块用于使用CNN对circRNA和disease的整合相似性矩阵进行处理,提取circRNA和disease的局部特征,获得circRNA和disease的局部特征矩阵;
所述CNN为卷积神经网络;
circRNA的全局特征提取模块用于将circRNA整合相似性矩阵与circRNA协同矩阵输入GCN,经过两层GCN特征提取得到circRNA的全局特征,获得circRNA的全局特征矩阵;
disease的全局特征提取模块用于将disease整合相似性矩阵与disease协同矩阵输入GCN,经过两层GCN对特征的提取得到disease的全局特征,获得disease的全局特征矩阵;
所述GCN为图神经网络;
disease特征获取模块用于将disease局部特征和circRNA全局特征进行融合,获得最终的disease特征矩阵;
circRNA特征获取模块用于将circRNA局部特征和disease全局特征进行融合,获得最终的circRNA特征矩阵;
disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测。并对模型进行性能评估。
本发明使用五倍交叉验证利用多种评价指标对本发明提出的circRNA-disease相互作用预测模型进行性能评估。在性能评估中使用的评价指标包括:recall(REC),precision(PRE),specificity(SPE),sensitivity(SEN),matthewscorrelationcoefficient(MCC),accuracy(ACC),F1-measure(F1)。这些指标的具体计算公式如下:
/>
以上公式中,TP是有关联的circRNA-disease对被预测为有关联的数量,TN为无关联的circRNA-disease对被预测为无关联的数量,FP是无关联的circRNA-disease对被预测为有关联的数量,FN是有关联的circRNA-disease对被预测为无关联的数量。此外,我们还使用AURP和AUC两个指标评价本发明性能。
下面以一组具体实验例对本发明的识别效果作进一步描述。
为了充分验证本发明的预测性能,本实例对肺癌,结直肠癌,神经胶细胞瘤三种疾病相关的circRNA进行了预测,在circR2disease中将所有已知关联以及随机挑选的与已知关联相同数量的负样本组成训练集,使用其他负样本作为测试集,使用本发明对测试集进行预测,三种疾病预测的前十五种相关联的circRNA结果如表2,3,4所示,预测的结果使用PubMed查证是否有相关论文证明circRNA与疾病有关联,结果表明,本发明具有较好的预测能力,可以发现疾病潜在的关联的circRNA。
为了验证本发明的性能优越性,使用本发明、KATZHCDA,GATCDA,RWRKNN,DMCCDA,GMNN2CD六种方法在CircR2Disease,CircRNADisease和Circ2Disease三个数据集上进行五倍交叉验证,分析它们的预测结果后得到性能分别如表5,表6,表7,AUC和AUPR性能分别如图2a、2b,3a、3b,4a、4b所示。结果表明,本发明在所有评测指标上的表现均优于同类方法,具有较好的预测性能。
表2肺癌关联的circRNA预测结果
/>
表3结直肠癌关联的circRNA预测结果
表4神经胶细胞瘤关联的circRNA预测结果
表5不同方法在circR2disease上进行五倍交叉验证的性能
表6不同方法在circRNAdisease上进行五倍交叉验证的性能
表7不同方法在circ2disease上进行五倍交叉验证的性能
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述系统包括:
circRNA-disease之间的关联关系获取模块、矩阵获取模块、circRNA整合相似性矩阵获取模块、disease整合相似性矩阵获取模块、局部特征提取模块、circRNA的全局特征提取模块、disease的全局特征提取模块、disease特征获取模块、circRNA特征获取模块、disease与circRNA的关联预测模块、待测模块;
所述circRNA为环状RNA;disease为疾病;
circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据,对关联数据进行预处理,得到circRNA-disease之间的关联关系,再获取疾病之间的关联关系;
矩阵获取模块用于由circRNA-disease之间的关联关系和疾病之间的关联关系计算circRNA的多种相似性矩阵,disease的多种相似性矩阵,circRNA协同矩阵,disease协同矩阵;
circRNA整合相似性矩阵获取模块用于对circRNA的多种相似性矩阵进行整合,获得circRNA整合相似性矩阵;
disease整合相似性矩阵获取模块用于对disease的多种相似性矩阵进行整合,获得disease整合相似性矩阵;
局部特征提取模块用于使用CNN对circRNA和disease的整合相似性矩阵进行处理,提取circRNA和disease的局部特征,获得circRNA和disease的局部特征矩阵;
所述CNN为卷积神经网络;
circRNA的全局特征提取模块用于将circRNA整合相似性矩阵与circRNA协同矩阵输入GCN,经过两层GCN特征提取得到circRNA的全局特征,获得circRNA的全局特征矩阵;
disease的全局特征提取模块用于将disease整合相似性矩阵与disease协同矩阵输入GCN,经过两层GCN对特征的提取得到disease的全局特征,获得disease的全局特征矩阵;
所述GCN为图神经网络;
disease特征获取模块用于将disease局部特征和circRNA全局特征进行融合,获得最终的disease特征矩阵;
circRNA特征获取模块用于将circRNA局部特征和disease全局特征进行融合,获得最终的circRNA特征矩阵;
disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测,直至收敛,获得训练好的disease与circRNA的关联预测模块;
待测模块用于将待测disease与circRNA输入训练好的disease与circRNA的关联预测模块进行关联评分预测。
2.根据权利要求1所述的基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据,对关联数据进行预处理,得到circRNA-disease之间的关联关系,再获取疾病之间的关联关系;具体过程为:
从数据库下载circRNA-disease关联数据,对circRNA-disease关联数据中的非人类数据和重复数据进行删除,获得预处理后的circRNA-disease关联矩阵;
将预处理后的circRNA-disease关联数据中含有的disease在数据库中检索,获取预处理后的circRNA-disease关联数据中含有的disease之间的关联。
3.根据权利要求2所述的基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述矩阵获取模块用于由circRNA-disease之间的关联关系计算circRNA的多种相似性矩阵,disease的多种相似性矩阵,circRNA协同矩阵,disease协同矩阵;具体过程为:
使用circRNA-disease之间的关联关系和疾病之间的关联关系计算disease语义相似性,disease高斯相似性,disease协同矩阵,circRNA功能相似性,circRNA高斯相似性,circRNA协同矩阵;
A、disease语义相似性计算公式如下:
其中,dm为diseasem,dn为diseasen,DS(dm,dn)为diseasem和diseasen的语义相似性;是包含diseasem的有向无环图中,diseasem所有的祖先结点与diseasem本身所组成的集合;/>是包含disease n的有向无环图中,disease n所有的祖先结点与disease n本身所组成的集合;h是disease h;x是/>或/>中的疾病;
是disease h对disease n的语义贡献值,/>是disease h对disease m的语义贡献值,/>可以通过如下公式计算:
其中,θ为语义贡献因子,设置为0.5;*为乘号,为disease h′对diseasem的语义贡献值,h′为disease h′,children of h为diseaseh的子女;
B、disease高斯相似性计算公式如下::
其中,DG(dm,dn)为disease m和disease n的高斯相似性;Α(dm)为circRNA-disease关联矩阵的第m列,Α(dn)为circRNA-disease关联矩阵的第n列,Nd为circRNA-disease关联矩阵的列数,i表示关联矩阵第i列,Α(di)为circRNA-disease关联矩阵的第i列;
C、circRNA功能相似性计算流程如下:
首先计算DSS(dq,Dn),DSS(dq,Dn)表示disease q与Dn中每个疾病的语义相似性的最大值,通过如下公式得到;
其中,DS(dq,du)表示disease q和disease u的语义相似性,dq为disease q,du为disease u,Dn表示与circRNA n相关的disease集合;
然后使用disease语义相似性和circRNA-disease关联矩阵进行circRNA功能相似性的计算,circRNA功能相似性计算公式如下:
其中,CF(cm,cn)表示circRNA m与circRNA n的功能相似性,cm表示circRNA m,cn表示circRNA n,DSS(dp,Dm)表示disease p与Dm中每个疾病的语义相似性的最大值,Dm表示与circRNA m相关的disease集合;
D、circRNA高斯相似性计算公式如下:
其中,CG(cm,cn)表示circRNA m与circRNA n的高斯相似性;Α(cn)表示circRNA-disease关联矩阵的第n行,Α(cm)为circRNA-disease关联矩阵的第m行,Nc为circRNA-disease关联矩阵的行数,i表示circRNA-disease关联矩阵第i行,Α(ci)为circRNA-disease关联矩阵的第i行;
E、circRNA协同矩阵和Disease协同矩阵具体为:
circRNA协同矩阵第m行第n列上的值为在所有disease中,某一个disease与circRNA m有关时,也与circRNAn有关的概率;
Disease协同矩阵第m行第n列上的值为在所有circRNA中,某一circRNA与disease m有关时,也与disease n有关的概率。
4.根据权利要求3所述的基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述circRNA整合相似性矩阵获取模块用于对circRNA的多种相似性矩阵进行整合,获得circRNA整合相似性矩阵;具体过程为:
将circRNA功能相似性和circRNA高斯相似性进行整合,获得circRNA整合相似性矩阵,表达式如下:
其中,Csim(cm,cn)为circRNA m与circRNA n整合的相似性的值。
5.根据权利要求4所述的基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述disease整合相似性矩阵获取模块用于对disease的多种相似性矩阵进行整合,获得disease整合相似性矩阵;具体过程为:
将disease语义相似性和disease高斯相似性进行整合,获得disease整合相似性矩阵表达式如下:
其中,Dsim(dm,dn)为diseasem与diseasen整合的相似性的值。
6.根据权利要求5所述的基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述局部特征提取模块用于使用CNN对circRNA和disease的整合相似性矩阵进行处理,提取circRNA和disease的局部特征,获得circRNA和disease的局部特征矩阵;
所述CNN为卷积神经网络;
具体过程为:
CNN的卷积层使用一个卷积核对disease和circRNA的特征进行过滤,以提取circRNA和disease的特征,然后经过池化层得到circRNA与disease的局部特征。
7.根据权利要求6所述的基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述circRNA的全局特征提取模块用于将circRNA整合相似性矩阵与circRNA协同矩阵输入GCN,经过两层GCN特征提取得到circRNA的全局特征,获得circRNA的全局特征矩阵;具体过程为:
每一层GCN的输出由如下公式表示:
Hnew=GCN(W,H)
其中,W为circRNA的协同矩阵,H为circRNA相似性矩阵,Relu为激活函数,Hnew为经过GCN处理得到的新的circRNA特征矩阵,为中间变量,/>I为单位矩阵,L是一个度矩阵,/>为/>的第i行第j列,Q为一个可训练的矩阵。
8.根据权利要求7所述的基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述disease特征获取模块用于将disease局部特征和circRNA全局特征进行融合,获得最终的disease特征矩阵;具体过程为:
将disease局部特征矩阵和circRNA全局特征矩阵进行点乘获得最终的disease特征矩阵。
9.根据权利要求8所述的基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述circRNA特征获取模块用于将circRNA局部特征和disease全局特征进行融合,获得最终的circRNA特征表示;具体过程为:
将circRNA局部特征矩阵和disease全局特征矩阵进行点乘获得最终的circRNA特征矩阵。
10.根据权利要求9所述的基于深度特征融合的疾病相关circRNA预测系统,其特征在于:所述disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测,直至收敛,获得训练好的disease与circRNA的关联预测模块;具体过程为:
最终的circRNA特征矩阵和disease整合相似性矩阵进行拼接获得circRNA-disease对的特征矩阵1;
最终的disease特征矩阵和circRNA整合的相似性矩阵进行拼接获得circRNA-disease对的特征矩阵2;
所述最终的circRNA特征矩阵和disease整合相似性矩阵进行拼接获得circRNA-disease对的特征矩阵1;具体过程为:
最终的circRNA特征矩阵为行,disease整合相似性矩阵为/>行;
将circRNA特征矩阵的第一行数据分别与disease整合相似性矩阵的行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵1的第一行至第/>行;
将circRNA特征矩阵的第二行数据分别与disease整合相似性矩阵的行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵1的第/>行至第/>行;
直至将circRNA特征矩阵的第行数据分别与disease整合相似性矩阵的/>行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵1的第/>行至第行;最终的circRNA特征矩阵与disease整合相似性矩阵进行拼接共获得/>行数据;
所述最终的disease特征矩阵和circRNA整合的相似性矩阵进行拼接获得circRNA-disease对的特征矩阵2;具体过程为:
最终的circRNA特征矩阵为行,disease整合相似性矩阵为/>行;
将circRNA整合的相似性矩阵的第一行数据分别与disease特征矩阵的行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵2的第一行至第/>行;
将circRNA整合的相似性矩阵的第二行数据分别与disease特征矩阵的行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵2的第/>行至第/>行;
直至将circRNA整合的相似性矩阵的第行数据分别与disease特征矩阵的/>行数据进行拼接,获得/>行数据,作为获得circRNA-disease对的特征矩阵2的第/>行至第行;最终的circRNA特征矩阵与disease整合相似性矩阵进行拼接共获得/>行数据;
用circRNA-disease对的特征矩阵1训练随机森林模型1,获得训练好的随机森林模型1;
用circRNA-disease对的特征矩阵2训练随机森林模型2,获得训练好的随机森林模型2;
将circRNA-disease对的特征矩阵1输入训练好的随机森林模型1输出的关联评分1;
将circRNA-disease对的特征矩阵2输入训练好的随机森林模型2输出的关联评分2;
将随机森林模型1输出的关联评分1和随机森林模型2输出的关联评分2相加除以2,得到circRNA-disease对的关联评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310581700.3A CN117012382A (zh) | 2023-05-22 | 2023-05-22 | 基于深度特征融合的疾病相关circRNA预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310581700.3A CN117012382A (zh) | 2023-05-22 | 2023-05-22 | 基于深度特征融合的疾病相关circRNA预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117012382A true CN117012382A (zh) | 2023-11-07 |
Family
ID=88560798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310581700.3A Pending CN117012382A (zh) | 2023-05-22 | 2023-05-22 | 基于深度特征融合的疾病相关circRNA预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117012382A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180023079A1 (en) * | 2015-02-03 | 2018-01-25 | Johann Wolfgang Goethe-Universität Frankfurt am Main | Circular RNA For The Diagnosis Of Cardiovascular And Inflammatory Diseases |
US20180282809A1 (en) * | 2015-09-29 | 2018-10-04 | Max-Delbrück-Centrum Für Molekulare Medizin In Der Helmholtz-Gemeinschaft | A METHOD FOR DIAGNOSING A DISEASE BY DETECTION OF circRNA IN BODILY FLUIDS |
CN108920895A (zh) * | 2018-06-22 | 2018-11-30 | 中南大学 | 一种环状rna与疾病的关联关系预测方法 |
US20200199671A1 (en) * | 2018-12-18 | 2020-06-25 | Grail, Inc. | Methods for detecting disease using analysis of rna |
CN114582508A (zh) * | 2022-03-04 | 2022-06-03 | 安徽大学 | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 |
CN114999635A (zh) * | 2022-06-20 | 2022-09-02 | 桂林理工大学 | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 |
CN115602243A (zh) * | 2022-11-02 | 2023-01-13 | 曲阜师范大学(Cn) | 一种基于多相似性融合的疾病关联信息预测方法 |
CN115640529A (zh) * | 2022-09-15 | 2023-01-24 | 枣庄学院 | 一种新型的环状rna-疾病关联预测方法 |
CN115995293A (zh) * | 2022-11-18 | 2023-04-21 | 齐鲁工业大学 | 一种环状rna和疾病关联预测方法 |
-
2023
- 2023-05-22 CN CN202310581700.3A patent/CN117012382A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180023079A1 (en) * | 2015-02-03 | 2018-01-25 | Johann Wolfgang Goethe-Universität Frankfurt am Main | Circular RNA For The Diagnosis Of Cardiovascular And Inflammatory Diseases |
US20180282809A1 (en) * | 2015-09-29 | 2018-10-04 | Max-Delbrück-Centrum Für Molekulare Medizin In Der Helmholtz-Gemeinschaft | A METHOD FOR DIAGNOSING A DISEASE BY DETECTION OF circRNA IN BODILY FLUIDS |
CN108920895A (zh) * | 2018-06-22 | 2018-11-30 | 中南大学 | 一种环状rna与疾病的关联关系预测方法 |
US20200199671A1 (en) * | 2018-12-18 | 2020-06-25 | Grail, Inc. | Methods for detecting disease using analysis of rna |
CN114582508A (zh) * | 2022-03-04 | 2022-06-03 | 安徽大学 | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 |
CN114999635A (zh) * | 2022-06-20 | 2022-09-02 | 桂林理工大学 | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 |
CN115640529A (zh) * | 2022-09-15 | 2023-01-24 | 枣庄学院 | 一种新型的环状rna-疾病关联预测方法 |
CN115602243A (zh) * | 2022-11-02 | 2023-01-13 | 曲阜师范大学(Cn) | 一种基于多相似性融合的疾病关联信息预测方法 |
CN115995293A (zh) * | 2022-11-18 | 2023-04-21 | 齐鲁工业大学 | 一种环状rna和疾病关联预测方法 |
Non-Patent Citations (2)
Title |
---|
XIAO Q 等: ""iCDA-CMG: identifying circRNA-disease associations by federating multi-similarity fusion and collective matrix completion"", 《MOLECULAR GENETICS AND GENOMICS》, 6 November 2020 (2020-11-06), pages 223 - 233 * |
李世毫: "人类基因组中环状RNA与疾病的关联预测研究", 《中国优秀硕士学位论文全文数据库基础科学辑》, 15 January 2022 (2022-01-15), pages 8 - 43 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kauffmann et al. | From clustering to cluster explanations via neural networks | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
Hammad et al. | An approach for detecting spam in Arabic opinion reviews | |
Celikyilmaz et al. | LDA based similarity modeling for question answering | |
CN109978060B (zh) | 一种自然语言要素抽取模型的训练方法及装置 | |
US11762990B2 (en) | Unstructured text classification | |
US20150332158A1 (en) | Mining strong relevance between heterogeneous entities from their co-ocurrences | |
CN112241481A (zh) | 基于图神经网络的跨模态新闻事件分类方法及系统 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
Maakoul et al. | Towards evaluating the COVID’19 related fake news problem: case of morocco | |
CN113868406B (zh) | 搜索方法、系统、计算机可读存储介质 | |
Yudhoatmojo et al. | Community detection on citation network of dblp data sample set using linkrank algorithm | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
Kulkarni et al. | Fake news detection using machine learning | |
EP4030355A1 (en) | Neural reasoning path retrieval for multi-hop text comprehension | |
KR102448044B1 (ko) | 속성 맵을 이용한 속성 기반 감정 분석 방법 및 전자 장치 | |
Moholkar et al. | Lioness adapted GWO-based deep belief network enabled with multiple features for a novel question answering system | |
Zeng et al. | A framework for WWW user activity analysis based on user interest | |
Yang et al. | State of the Art and Potentialities of Graph-level Learning | |
CN116776889A (zh) | 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 | |
CN111553167A (zh) | 文本类型识别方法和装置及存储介质 | |
Mitra et al. | A machine learning approach to identify personality traits from social media | |
CN117012382A (zh) | 基于深度特征融合的疾病相关circRNA预测系统 | |
Huang et al. | A multimodal text matching model for obfuscated language identification in adversarial communication? | |
Novotny | Twitter bot detection & categorization-a comparative study of machine learning methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |