CN113539372A - 一种LncRNA和疾病关联关系的高效预测方法 - Google Patents
一种LncRNA和疾病关联关系的高效预测方法 Download PDFInfo
- Publication number
- CN113539372A CN113539372A CN202110715473.XA CN202110715473A CN113539372A CN 113539372 A CN113539372 A CN 113539372A CN 202110715473 A CN202110715473 A CN 202110715473A CN 113539372 A CN113539372 A CN 113539372A
- Authority
- CN
- China
- Prior art keywords
- lncrna
- disease
- matrix
- diseases
- similarity matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 154
- 201000010099 disease Diseases 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 49
- 108091046869 Telomeric non-coding RNA Proteins 0.000 title claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 93
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract description 68
- 230000003993 interaction Effects 0.000 claims abstract description 31
- 238000007477 logistic regression Methods 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000002790 cross-validation Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 claims 3
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 22
- 238000005295 random walk Methods 0.000 description 10
- 238000003066 decision tree Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 230000009191 jumping Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 108010033040 Histones Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- JPSNJFMTQIIVFG-UHFFFAOYSA-M lithium;ethanethiolate Chemical compound [Li+].CC[S-] JPSNJFMTQIIVFG-UHFFFAOYSA-M 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 108091007417 HOX transcript antisense RNA Proteins 0.000 description 1
- 101001050886 Homo sapiens Lysine-specific histone demethylase 1A Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 102100024985 Lysine-specific histone demethylase 1A Human genes 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 101100465401 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SCL1 gene Proteins 0.000 description 1
- 108020004417 Untranslated RNA Proteins 0.000 description 1
- 102000039634 Untranslated RNA Human genes 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000013103 analytical ultracentrifugation Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000033026 cell fate determination Effects 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002222 downregulating effect Effects 0.000 description 1
- 230000013020 embryo development Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000013632 homeostatic process Effects 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000022983 regulation of cell cycle Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Biotechnology (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种LncRNA和疾病关联关系的高效预测方法,主要包括以下步骤:1、根据公共数据库lncRNADisease下载lncRNA和疾病相关联的数据集,得到lncRNA集合与疾病集合以及lncRNA‑疾病的关联矩阵A;2、计算疾病之间的语义相似性矩阵SS、lncRNA之间的功能相似矩阵FS,计算lncRNA和疾病的高斯相互作用属性核相似矩阵KL、KD;3、根据FS、KL构建lncRNA相似矩阵SL,根据SS、KD构建疾病相似矩阵SD;4、将lncRNA的关联矩阵A、lncRNA的相似矩阵SL、疾病的相似矩阵SD整合,构建全局异构网络的邻接矩阵U,采用MetaGraph2vec对每个节点进行特征学习,得到每个节点的特征表示,5、使用K‑Means选择负样本,得到所有的正负样本集合,6、根据上述步骤得到的特征数据用于训练GBDT+LR分类器并预测lncRNA与疾病之间的关联关系。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种预测LncRNA和疾病关联关系的方法。
背景技术
分子生物学中心法则假设遗传信息储存在蛋白质编码基因中。人类约有20000个蛋白质编码基因,占人类基因组的不到2%,其中98%以上的基因组不编码蛋白质,但产生数以万计的非编码RNA(NcRNA)。在ncRNAs的异质性亚型中,长非编码RNA(Long Non-CodingRNAs,LncRNAs)是一类新的转录本,长度大于200nt1-3,参与生命各个阶段的许多正常生理过程,从胚胎发育、细胞命运决定到整个生物体的生理稳态。越来越多的研究表明,大量的lncRNAs在染色质修饰、转录和转录后调控、基因组剪接、分化、免疫反应、细胞周期调控等许多重要的生物学过程中起着至关重要的作用。
尤其是越来越多的文献报道,lncRNAs的改变和失调与各种复杂疾病的发生发展密切相关。例如,基于定量PCR,lncRNAHOTAIR在乳腺癌转移中的表达水平是100到大约2000倍。它通过与组蛋白修饰物PRC2和LSD1复合物结合来控制组蛋白修饰的模式并调节基因表达。HOTAIR被认为是各种癌症的潜在生物标志物。通过下调H19,一种20多年前证实的lncRNA,乳腺和肺癌细胞的克隆性和锚定非依赖性生长可以显著降低。事实上,H19与多种疾病有关,可作为膀胱癌早期复发的潜在预后标志物。
我们可以发现,尽可能多地收集lncRNA与疾病的联系是必要的。然而,尽管实验证实 lncRNA与疾病的关联性一直在增加,但与大量的lncRNA和疾病相比,这个数字仍然相当小。此外,通过实验室实验来确定lncRNA与疾病之间的联系是非常昂贵和耗时的。因此,通过计算模型准确地识别lncRNA与疾病的相关性,不仅有利于进一步的生物学实验,节省成本和时间,而且可以辅助疾病生物标志物的检测,为疾病的诊断、治疗、预后和预防提供帮助。此外,这些正确识别的关联可以加快我们在RNA水平上理解生命过程的步伐。
发明内容
本发明的目的是针对现有技术的不足,提出了一种异构网络的高性能预测lncRNA与疾病相关性的方法,该方法使用MetaGraph2vec在异构网络中对节点进行特征学习,然后利用 K-Means选择负样本来解决正负样本不平衡的问题,最后使用机器学习算法GBDT+LR去预测lncRNA与疾病之间的关联。
本发明提出的LncRNA和疾病关联关系的高效预测方法,步骤如下:
1.下载公开数据库lncRNADisease(网址:http://www.cuilab.cn/lncrnadisease)中已知的LncRNA- 疾病关联关系,包括三个版本的数据,分别是:2012年6月版本、2014年1月版本、2015 年6月版本,分别标记为DS1,DS2,DS3。我们首先对这三个数据集分别进行去重等处理,同时得到LncRNA集合和疾病集合,并得到LncRNA-疾病关联关系网络的关联矩阵A,A的行数为LncRNA的数量,A的列数为疾病的数量,其中A(li,dj)=1,表示LncRNAli和疾病dj存在关联关系,值为0表示不存在关联关系,A的表示如式(1)所示:
2.计算疾病之间的语义相似性矩阵SS、计算lncRNA之间的功能相似矩阵FS,然后分别计算出lncRNA和疾病的高斯相互作用属性核相似矩阵KL、KD。具体子步骤如下:
1)疾病语义相似矩阵
基于疾病本体的层次结构,将疾病组织为有向无环图(DAG)。根据相应DAG,计算所有疾病之间的语义相似性。对于疾病i的有向无环图,首先计算疾病i的语义值;疾病i的语义值C(i)是是它的祖先疾病和i自己的贡献值之和,如公式(2)所示。
C(i)=∑t∈D(i)Ci(t) (2)
其中D(i)表示疾病i的有向无环图中的节点集。疾病t对子疾病i的语义值Ci(t)的贡献计算如公式(3)所示:
其中Δ是连接疾病t和其子疾病之间的边的权重,即语义贡献因子。由上式可知,疾病对其自身的语义贡献为1。随着疾病i与其他疾病之间的距离的增加,语义贡献减小。因此,应该在0到1之间选择Δ,在这里,我们取Δ=0.5。
对于疾病i和疾病j之间的语义相似度定义为与疾病i和j的有向无环图共享的结点越多,他们之间的语义相似度则更高,因此,可以得到疾病语义相似矩阵SS如公式(4)所示:
其中元素SS(i,j)表示疾病i和疾病j之间的语义相似度值。
2)lncRNA功能相似矩阵
通过计算与这两个lncRNA相关的两种疾病集的语义相似度来计算这两个lncRNA的功能相似度。假设lncRNA li和lncRNA lj分别与m个和n个疾病有关,lncRNA li和lncRNAlj之间的相似度可由公式(5)和公式(6)计算如下:
其中FS为lncRNA功能相似矩阵,S(d,D1(li))是疾病d与是与lncRNA li相关的疾病集 D1(li)中的所有的疾病语义相似性的最大值。需要注意的是,疾病相似矩阵SS和lncRNA相似矩阵FS都是稀疏的。因此,我们进一步引入高斯相互作用属性核相似性来缓解这一弱点。
3)lncRNA与疾病的高斯相互作用属性核相似矩阵
对于一个LncRNAli,定义IP(li)值为邻接矩阵A的第i行,计算每一对LncRNAli与lj之间的高斯相互作用属性核相似性,如式(7)所示:
KL(li,lj)=exp(-γl||IP(li)-IP(lj)||2) (7)
其中,KL表示LncRNA的高斯相互作用属性核相似矩阵,元素KL(li,lj)表示LncRNAli与lj的高斯相互作用属性核相似性,γl用于控制高斯相互作用属性核相似性的频宽,它表示基于新的频宽参数γ'l的正规化的高斯相互作用属性核相似性频宽;nl表示LncRNA的数量。
同样地,基于功能相似的LncRNA与相似的疾病之间具有关联关系的假设,利用已知的 LncRNA-疾病关联关系网络,构建疾病的高斯相互作用属性核相似矩阵KD,对于一个疾病 dj,它的IP'(dj)值定义为邻接矩阵A的第j列,计算每一对疾病di与dj之间的高斯相互作用属性核相似性,如式(9)所示:
KD(di,dj)=exp(-γd||IP'(di)-IP'(dj)||2) (9)
其中,KD表示疾病的高斯相互作用属性核相似矩阵,元素KD(di,dj)表示疾病di与dj的高斯相互作用属性核相似性,γd表示基于频宽参数γ'd的正规化的高斯相互作用核相似性频宽,nd表示疾病的数量。
3.根据LncRNA的功能相似矩阵FS、LncRNA的高斯相互作用属性核相似矩阵KL构建lncRNA相似矩阵SL:对于lncRNA li和lncRNA lj,如果FS(li,lj)=0,则SL(li,lj)=KL(li,lj),否则SL(li,lj)=FS(li,lj),如式(11)所示组合如下:
其次,我们整合了疾病的语义相似度SS和高斯交互属性核相似度KD,最终的疾病相似矩阵SD可以按照以下方式如式(12)所示组合:
4.将lncRNA-疾病的关联矩阵A、步骤3得到lncRNA的相似矩阵SL和疾病的相似矩阵SD 整合,构建一个全局异构网络;在异构网络上,采用MetaGraph2vec对每个节点进行特征学习,得到每个节点的特征表示。具体实现子步骤为:
(1)构建异构网络
我们融合了LncRNA-疾病关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和疾病的相似矩阵SD三个子网,构成全局异构网络G,并得到一个新的邻接矩阵U,U中共nl+nd 维,nl表示LncRNA的数量,nd表示疾病的数量。U如式(13)所示:
其中AT表示A的转置。我们在全局异构网络G上采用MetaGraph引导随机游走来获得节点序列。如前所述,G=(V,E)表示全局异构网络,在G上定义一个元图g=(N,M,ns,nt),其中ns代表源节点,nt代表目标节点;N是节点集合,M是边集合。
在这里的元图只有两种节点类型,即l节点代表lncRNA,d节点代表疾病;边类型也有两种,即l-d和d-l。
(2)MetaGraph引导随机行走
基于步骤(1)得到一个ns=nt的元图g=(N,M,ns,nt),递归元图g∞=(N∞,M∞,ns ∞,nt ∞) 是由任意数量g的首尾拼接而成的元图。在选择一个ns类型的节点后,开始元图引导的随机漫步。
在第i步,MetaGraph引导的随机行走从节点vi-1开始,将第i步的转移概率记为 Pr(vi|vi-1;g∞),vi-1是当前节点,vi是下一跳节点。先得到节点vi-1与相邻节点的边类型,如果节点vi-1在异构网络G中与邻居节点没有满足递归元图g∞约束边的边类型,转移概率Pr 为0;
否则随机选择一种满足条件的边类型,再从所选的边类型中随机选择一条边进行游走到达下一节点,第i步的转移概率如式(14)所示:
且|u|(vi-1,u)∈E,φ(vi)=φ(u)|是vi-1的邻居节点中与节点vi相同类型的节点个数。
经过多次游走最后得到一个长度为长度为L的节点序列Sg={v1,v2,…,vL}。
(3)MetaGraph2Vec嵌入学习,并得到每一个节点节点的低维表示。
其中:
根据MetaPath2Vec,概率Pr(vj∣Φ(vi))以两种不同的方式建模:
·同构网络中的Skip-Gram假定概率Pr(vj∣Φ(vi))不依赖于vj的类型,因此通过softmax 直接对概率Pr(vj∣Φ(vi))建模如式(17)所示:
·异构网络中的Skip-Gram假定概率Pr(vj∣Φ(vi))与vj的类型有关:Pr(vj∣Φ(vi))=
Pr(vj∣Φ(vi),φ(vj))Pr(φ(vj)∣Φ(vi))其中概率Pr(vj∣Φ(vi),φ(vj))通过softmax建模:
为了学习节点嵌入,MetaGraph2Vec算法首先生成一组元图引导随机游走的节点序列,然后计算每个节点上下文对(vi,vj)在w窗口大小内的出现频率F(vi,vj)。然后用随机梯度下降法学习参数。在每次迭代中,根据F(vi,vj)的分布对节点上下文对(vi,vj)进行采样,并更新梯度以最小化以下目标:
为了加快训练速度,使用负采样来逼近目标函数:
其中σ是sigmoid函数,是为节点vj采样的第k个负节点,K是负样本的数量。对于同构网络中的Skip-Gram,从V中所有节点采样;对于异构网络中的 Skip-Gram,从φ(vj)类型的节点中采样。
其中α是学习率。参数Φ和Ψ的更新如下:
嵌入函数Φ将异构网络的节点嵌入到低维空间中,对每个节点进行嵌入并得到低维表示Φ(v)。最后我们就得到d维的特征矩阵X。
5.使用K-Means选择负样本,得到所有的正负样本集合。由于数据集中负样本的数量远远大于正样本的数量,因此需要对数据集进行平衡。针对这一问题,我们使用了一种新颖的先进的数据平衡方法。K-Means聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。K-Means算法是一种基于形心的划分技术,即使用簇的形心代表该簇。K-Means聚类首先随机选取k个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到没有(或最小数目)聚类中心再发生变化。
具体实现步骤如下:
(1)从样本数据中随机选取k个对象作为初始的聚类中心。
(2)分别计算每个样本到各个聚类质心的距离,将样本分配到距离最近的那个聚类中心类别中。
(3)所有样本分配完成后,重新计算k个聚类的中心。
(4)与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。
(5)聚类中心不再发生变化,输出聚类结果。
6.我们使用以上步骤得到的数据样本训练梯度提升树(GBDT,Gradient BoostingDecison Tree)+ 逻辑回归(LR,LogisticRegression)分类器。再将梯度提升树+逻辑回归(GBDT+LR)分类器用于预测lncRNA与疾病之间的相关分数。用训练数据集对未经训练的GBDT+LR分类器进行训练,初始化模型参数,训练数据通过GBDT模型进行回归,将GBDT中生成的决策树的叶子节点进行特征组合,寻找训练集的特征及特征组合,再将其作为输入给LR分类器模型进行分类训练,从而完成对GBDT+LR分类器的训练过程。
GBDT+LR是一个特征交叉的过程,GBDT的路径可以直接作为LR的输入特征来使用,避免了人工组合交叉特征的过程,GBDT+LR算法结构示意图如图2所示。
可以看到图中示例的2个树均是GBDT训练出的回归树模型。在线过程中样本数据经过树种的路径最终到达子节点。将所有子节点作为LR的输入特征,进行分类。上图中共有两棵树,x为一条输入样本,遍历两棵树后,x样本分别落到两颗树的叶子节点上,每个叶子节点对应LR一维特征,那么通过遍历树,就得到了该样本对应的所有LR特征。举例来说:上图有两棵树,左树有三个叶子节点,右树有两个叶子节点,最终的特征即为五维的向量。对于输入x,假设他落在左树第一个节点,编码[1,0,0],落在右树第二个节点则编码[0,1],所以整体的编码为[1,0,0,0,1],这类编码作为特征,输入到LR中进行分类。
GBDT+LR是一种特殊的分类算法,因为其寻找特征和组合特征能力的强大,非常适用于多个指标特征且特征之间存在关联,各特征非线性共同影响类别结果的情况,并且分类准确率高。分类效果显示,应用GBDT+LR算法训练得到的分类器评价结果准确度要远高于其他分类算法
GBDT+LR用于算法的步骤如下:
1)GBDT首先对原始训练数据做训练,得到一个二分类器,同时利用网格搜索寻找最佳参数组合。
输入:训练样本D={(x1,y1),(x2,y2),…,(xN,yN)},最大迭代次数M,损失函数L,学习率为lr。
输出:强学习器Θ(x)
(1)初始化学习器为(22)所示:
其中N为训练样本的数量,yi为真实标签。
损失函数L(y,Θm(x))定义为(23)所示:
L(y,Θm(x))=log(1+exp(-yΘm(x))) (23)
其中y是真正的类标签,Θm(x)是第m轮的弱学习器。
(2)依次进行第m次迭代,其中m=1,2,…M。
①计算第m次迭代的负梯度,即残差,让损失函数沿着梯度方向的下降,第m次迭代的第i个样本的损失函数的负梯度表示为(24)所示:
②将上一步得到的残差作为样本新的真实值,以残差值作为目标值进行拟合,以最小化平方损失为标准寻找树的最佳划分节点,分别计算根据每个特征作为划分点进行分裂后两组数据的平方损失,找到使平方损失和最小的划分点,即最佳划分点。构造第m棵决策树,然后得到其对应的叶子结点区域为Rmj,j=1,2,…,J。其中J为树的叶子节点个数。
③对叶子结点区域j=1,2,…,J,计算最佳拟合值。针对每一个叶子结点里的样本,我们求出使损失函数最小,也就是拟合叶子结点最好的输出值cmj如(25)所示:
④第m个弱学习器
其中I(x∈Rmj)表示如果x落在了Rmj的对应某一叶子节点上,那么对应此项为1,lr为学习率。
⑤判断m是否大于M,如果m小于M,则m=m+1,跳转到①进行下一次迭代,否则说明M个弱学习器都已经构造好,跳转到(3)结束训练。
(3)得到最终的强学习器模型如如(27)所示
其中lr为学习率
2)GBDT训练好后,我们需要的并不是最终的二分类概率值,而是要把模型中的每棵树计算得到的预测概率值所属的叶子结点位置记为1,构造出了新的训练数据。在这里使用独热编码(One-Hot Encoding)对GDBT的结果进行处理并构造新的训练数据集。
独热编码即One-Hot编码,又称为一位有效编码,其方法是使用N位状态寄存器来对N 个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。
例如:
自然状态码为:000,001,010,011,100,101;
独热编码为:000001,000010,000100,001000,010000,100000。
3)新的训练数据构造完成后,与原始的训练数据的标签数据一并输入到LR分类器中进行最终分类器的训练。逻辑回归的假设函数如式如(28)所示。式如(29)表示的是在给定 x和θ时,x属于正样本的可能性。其中θ是需要通过训练使式如(30)中的损失函数最小得到的。
7.使用10折交叉验证进行验证。训练集随机分为10组大小大致相同的子集。每个子集依次用作验证测试数据,其余9个子集用作训练数据。交叉验证过程重复10次,并使用10次的平均性能度量进行性能评估。我们使用多种指标来评估性能,包括召回(REC)、F-score(FSC)、准确度(ACC)和ROC曲线下与坐标轴围成的面积(AUC)。
8.性能评估:本发明的方法是基于梯度提升树(GDBT)结合逻辑回归(LR)算法,将本发明的方法与广泛使用的分类器进行比较,包括使用随机森林(RF)结合逻辑回归(LR)作为分类器、只使用梯度提升树(GDBT)作为分类器、只使用逻辑回归(LR)作为分类器。在构建标准训练集上使用10倍交叉验证;并将本发明使用的方法与已存在的其他方法进行比较,包括基于诱导矩阵完成的预测潜在lncRNA疾病关联的方法(SIMCLDA),基于内部倾斜重启随机漫步的预测潜在lncRNA疾病关联的方法(IIRWR)和基于网络性一致性投影的预测潜在lncRNA疾病关联的方法(NCPLDA);为进一步验证本方法的性能,将本实验进行独立测试。为了体现本实验特征的性能,还将本实验使用不同特征组(不使用MetaGraph2vec进行表征学习、使用MetaGraph2vec进行表征学习),使用不同负样本(不使用K-Means进行聚类,使用K-Means进行聚类)进行性能比较。
经过验证本发明具有如下优点和有益效果:本发明使用MetaGraph2vec在异构网络中对节点进行特征学习,同时保留结构和语义相互关系的异构网络嵌入,然后利用K-Means选择负样本解决了正负样本不平衡的问题,最后使用机器学习算法GBDT+LR去预测lncRNA与疾病之间的关联;这对生物学家的实验研究能够起到指导的作用,生物学家可以针对关联关系概率较大的LncRNA和疾病对进行试验测试,避免了盲目的测试,有效减少生物学实验所消耗的时间和经济成本。
附图说明
图1为本发明LncRNA和疾病关联关系预测方法的流程图。
图2为本发明GBDT+LR算法结构示意图。
图3为本发明LncRNA和疾病关联关系预测方法的示意图
图4为步骤1计算邻居矩阵A流程图。
图5为步骤2计算相似矩阵FS、SS、KL、KD的流程图。
图6为步骤3计算相似矩阵SL和SE的流程图。
图7为步骤4融合A、SL、SE构建一个全局异构网络并用MetaGraph2vec对每个节点进行特征学习,得到每个节点特征表示的流程图。
图8为步骤5使用K-Means选择负样本,得到所有的正负样本集合的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种预测LncRNA和疾病关联关系的方法,所述方法的流程图如图1所示,本实施例需要的数据从lncRNADisease数据库下载LncRNA-疾病的关联数据,包括三个版本的数据,分别是:2012年6月版本、2014年1月版本、2015年6月版本,分别标记为 DS1,DS2,DS3。首先对这三个数据集分别进行去重等处理,最后得到的数据如表1所示,其中2012年6月版本的数据包括112个lncRNA和150个疾病,它们之间关联数量是276,我们将该版本的数据标记为DS1;2014年1月版本的数据中包括131个lncRNA和169个疾病,它们之间关联数量为319,我们将该版本的数据标记为DS2;2015年6月版本的数据中包括285个lncRNA和226个疾病,它们之间关联数量为621,我们将该版本的数据标记为 DS3。
表1 lncRNA-疾病关联关系数据集
数据集 | lncRNA数量 | 疾病数量 | 关联数量 |
DataSet1(DS1) | 112 | 150 | 276 |
DataSet2(DS2) | 131 | 169 | 319 |
DataSet3(DS3) | 285 | 226 | 621 |
根据上面的数据,以DS1数据集为例,具体实施包括以下步骤:
1、根据已知的LncRNA-疾病关联关系,进行去重等处理,得到LncRNA-疾病关联关系网络的关联矩阵A:
2、计算lncRNA之间的功能相似矩阵FS、计算疾病之间的语义相似性矩阵SS,然后分别计算出lncRNA和疾病的高斯相互作用属性核相似矩阵KL、KD。
1)计算疾病之间的语义相似矩阵SS:
其中D(i)表示疾病i的有向无环图中的节点集,其中D(j)表示疾病j的有向无环图中的节点集。C(i)是疾病i的语义值,C(j)是疾病j的语义值;Ci(t)是疾病t对疾病i的语义值的贡献, Cj(t)是疾病t对疾病j的语义值的贡献。
2)计算lncRNA之间的功能相似矩阵FS:
其中,S(d,D1(li))是疾病d与是与lncRNA li相关的疾病集D1(li)中的所有的疾病语义相似性的最大值。
3)构建LncRNA的高斯相互作用属性核相似矩阵KL:
KL(li,lj)=exp(-γl||IP(li)-IP(lj)||2)
其中,γ'l取值为1。
例:
IP(l0)150×1:[0…此处省略86个0…1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0]
IP(l1)150×1:[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 …此处省略86个0…0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0]
KL(l0,l1)=exp(-γl||IP(l0)-IP(l1)||2)=0.087616792106586
4)构建疾病的高斯相互作用属性核相似矩阵KD:
KE(di,dj)=exp(-γd||IP'(di)-IP'(dj)||2)
其中,γd取值为1。
例:
IP(d0)112×1:[0…此处省略48个0…1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0]
IP(d1)112×1:[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 …此处省略48个0…0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0]
KD(d0,d1)=exp(-γd||IP(d0)-IP(d1)||2)=0.066046825955405
3、根据得到的lncRNA的功能相似度FS和高斯交互属性核相似度KL,得到最终的lncRNA 相似矩阵SL;整合疾病的语义相似度SS和高斯交互属性核相似度KD,最终的疾病相似矩阵SD。
4、将lncRNA-疾病的关联矩阵A、lncRNA的相似矩阵SL、疾病的相似矩阵SD三个子网整合,构建全局异构网络G。在异构网络上,采用MetaGraph2vec对每个节点进行特征学习,得到每个节点的特征表示。具体子步骤为:
(1)构建异构网络
我们融合了LncRNA-疾病关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和疾病的相似矩阵SD三个子网,构成全局异构网络G,并得到一个新的邻接矩阵U。U中共112+150=262 维,112表示LncRNA的数量,150表示疾病的数量。
其中AT表示A的转置。我们在全局异构网络G上采用MetaGraph引导随机游走来获得节点序列。如前所述,G=(V,E)表示全局异构网络,在G上定义一个元图g=(N,M,ns,nt),其中ns代表源节点,nt代表目标节点;N是节点集合,M是边集合。
在这里的元图只有两种节点类型,即l节点代表lncRNA,d节点代表疾病;边类型也有两种,即l-d和d-l。
(2)MetaGraph引导随机行走
基于步骤(1)得到一个ns=nt的元图g=(N,M,ns,nt),我们把l-d-l-d设为本发明的元图, 递归元图g∞=(N∞,M∞,ns ∞,nt ∞)是由任意数量g的首尾拼接而成的元图。在选择一个ns类型的节点后,开始元图引导的随机漫步。
在第i步,MetaGraph引导的随机行走从节点vi-1开始,将第i步的转移概率记为 Pr(vi|vi-1;g∞),vi-1是当前节点,vi是下一跳节点。先得到节点vi-1与相邻节点的边类型,如果节点vi-1在异构网络G中与邻居节点没有满足递归元图g∞约束边的边类型,转移概率Pr 为0;
否则随机选择一种满足条件的边类型,再从所选的边类型中随机选择一条边进行游走到达下一节点,第i步的转移概率为:
且|u|(vi-1,u)∈E,φ(vi)=φ(u)|是vi-1的邻居节点中与节点vi相同类型的节点个数。
我们把随机游走的步数设为100,从l节点开始,只把到达的d节点记录下来,可得到每一条长度为50的节点序列Sg={v1,v2,…,v50}。
(3)MetaGraph2Vec嵌入学习,并得到每一个节点节点的低维表示。
根据步骤2得到的节点序列Sg={v1,v2,…,vL},通过最大化在以Φ(vi)为条件,在w窗口大小内vi的上下文节点出现的概率来学习节点嵌入函数
其中:
根据MetaPath2Vec,概率Pr(vj∣Φ(vi))以两种不同的方式建模:
·同构网络中的Skip-Gram假定概率Pr(vj∣Φ(vi))不依赖于vj的类型,因此通过softmax 直接对概率Pr(vj∣Φ(vi))建模:
·异构网络中的Skip-Gram假定概率Pr(vj∣Φ(vi))与vj的类型有关:Pr(vj∣Φ(vi))= Pr(vj∣Φ(vi),φ(vj))Pr(φ(vj)∣Φ(vi))其中概率Pr(vj∣Φ(vi),φ(vj))通过softmax建模:
为了学习节点嵌入,MetaGraph2Vec算法首先生成一组节点序列,然后计算序列中每个节点上下文对(vi,vj)在w窗口大小内的出现频率F(vi,vj)。然后用随机梯度下降法学习参数。在每次迭代中,根据F(vi,vj)的分布对节点上下文对(vi,vj)进行采样,并更新梯度以最小化以下目标:
为了加快训练速度,使用负采样来逼近目标函数:
其中σ是sigmoid函数,是为节点vj采样的第k个负节点,K是负样本的数量。对于同构网络中的Skip-Gram,从V中所有节点采样;对于异构网络中的 Skip-Gram,从φ((vj)类型的节点中采样。其中学习率α为0.005。参数Φ和Ψ的更新如下:
嵌入函数Φ将异构网络的节点嵌入到低维空间中,对每个节点进行嵌入并得到低维表示Φ(v)。最后我们就得到64维的特征矩阵X如下。
5、使用K-Means选择负样本,得到所有的正负样本集合。具体实现步骤如下:
(1)从样本数据中随机选取10个对象作为初始的聚类中心。
(2)分别计算每个样本到各个聚类质心的距离,将样本分配到距离最近的那个聚类中心类别中。
(3)所有样本分配完成后,重新计算10个聚类的中心。
(4)与前一次计算得到的10个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。
(5)聚类中心不再发生变化,输出聚类结果。
输入到K-Means聚类方法中的数据特征由SL、SD、A融合组成样本lncRNA l2和疾病d4对的嵌入矩阵GM包括以下几个部分:(a)第一部分是lncRNA的相似性矩阵SL的第二行,GM11×112;(b)第二部分是根据d4对应邻接矩阵A的列向量组成,GM2112×1;(c)利用邻接矩阵A对应l2的行向量构建第三部分,GM31×150。(d)第四部分是疾病的相似性矩阵SD的第二行,GM2150×1。结合第一部分、第二部分和第三部分、第四部分的表示,构建最终lncRNA l2和疾病d4这个样本进行K-Means的嵌入矩阵GM2×262
结果:第一个数据集DS1,正样本个数有276,负样本个数有16524个,所以对于DS1每个簇选择28个负样本;对于第二个数据集DS2来说,正样本个数有319,负样本个数有21820个,所以对于DS2每个簇选择32个负样本;对于第三个数据集DS3来说,正样本个数有621,负样本个数有63789个,所以对于DS1每个簇选择62个负样本。
6、对于每一个数据样本,结合其得到的128维特征数据。对于600个训练样本,得到556*128 的特征数据集如下所示:
1)将得到的特征数据集用于训练梯度提升树(GBDT),并将GBDT中生成的决策树的叶子节点进行特征组合。GDBT算法步骤如下所示:
输入:训练样本D={(x1,y1),(x2,y2),…,(x556,y556)},x为特征,y为标签,样本个数为556,损失函数定义为L(y,Θm(x))=log(1+exp(-yΘm(x))),其中y是真正的类标签,Θm(x)是第m 轮的弱学习器;学习率lr为0.1。
输出:根据GBDT中生成的决策树的叶子节点进行组合的特征数据XS。
(1)初始化学习器,如下所示:
(2)依次进行第m次迭代,其中m=1,2,…500。
①计算第1次迭代的负梯度,即残差,第1次迭代的第i个样本的损失函数的负梯度为:
②将上一步得到的残差作为样本新的真实值,以残差值作为目标值进行拟合,以最小化平方损失为标准寻找树的最佳划分节点,分别计算根据每个特征作为划分点进行分裂后两组数据的平方损失,找到使平方损失和最小的划分点,即最佳划分点。构造第m棵决策树,然后得到其对应的叶子结点区域为Rmj,j=1,2,…,J。其中J为树的叶子节点个数。
③对叶子结点区域j=1,2,…,J,计算最佳拟合值。针对每一个叶子结点里的样本,我们求出使损失函数最小,也就是拟合叶子结点最好的输出值c1j
④第1个弱学习器
⑤判断m是否大于500,如果m小于500,则m=m+1,跳转到①进行下一次迭代,否则说明M个弱学习器都已经构造好,跳转到(3)结束训练。
(3)得到最终的强学习器模型如下所示
训练好GBDT后,使用独热编码(OneHotEncoder)对GDBT的结果进行处理并构造新的训练数据集。最后得到特征XS556×441,样本数为556个,数据特征为441维。
2)将新的数据特征XS556×441与原始的训练数据的标签数据一并输入到LR分类器中进行最终分类器的训练。逻辑回归的假设函数如式如下所示。
在给定x和θ时,x属于正样本的可能性如下所示
其中θ是需要通过训练是如下所示中的损失函数最小得到的。
7、使用10折交叉验证进行验证。我们采用网格搜索策略,在10倍交叉验证的基准数据集上选择GBDT+LR的最优参数。使用10倍交叉验证来评估方法的性能:训练集随机分为10组大小大致相同的子集。每个子集依次用作验证测试数据,其余9个子集用作训练数据。交叉验证过程重复10次,并使用超过10次的平均性能度量进行性能评估。实验使用多种方法来评估性能,包括召回率(REC)、F-score(FSC)、准确度(ACC)和ROC曲线下与坐标轴围成的面积(AUC)。本发明方法GBDTLRL2D在DS1,DS2,DS3这3个数据集上的AUC分别为 0.98,0.98和0.96。
8、性能评估:本发明方法是基于梯度提升树结合逻辑回归(GBDT+LR)算法,将本发明的方法与广泛使用的分类器进行比较,包括使用随机森林(RF)+逻辑回归(LR)作为分类器、只使用梯度提升树(GBDT)作为分类器、只使用逻辑回归(LR)作为分类器,在构建标准训练集上都使用了10倍交叉验证。表2展示了与其他机器学习方法的预测性能比较。我们可以看出使用组合分类器的效果明显要好的多,并且GBDTLRL2D使用的GBDT+LR组合分类器三个数据集上都比其他方法好得多。由此可见,本发明方法所采用的方法具有最佳的性能。
表2与使用其他机器学习方法的预测性能比较
数据集 | 方法 | ACC | Recall | F1_score | MCC | AUC |
DS1 | GBDT+LR | 0.928 | 0.920 | 0.927 | 0.858 | 0.976 |
DS2 | 0.934 | 0.928 | 0.934 | 0.870 | 0.983 | |
DS3 | 0.887 | 0.871 | 0.885 | 0.777 | 0.961 | |
DS1 | RF+LR | 0.787 | 0.767 | 0780 | 0.581 | 0.860 |
DS2 | 0.800 | 0.802 | 0.801 | 0.603 | 0.898 | |
DS3 | 0.796 | 0.767 | 0.790 | 0.601 | 0.889 | |
DS1 | GBDT | 0.570 | 0.658 | 0.608 | 0.125 | 0.649 |
DS2 | 0.600 | 0.724 | 0.645 | 0.210 | 0.705 | |
DS3 | 0.636 | 0.631 | 0.636 | 0.282 | 0.667 | |
DS1 | LR | 0.570 | 0.659 | 0.609 | 0.125 | 0.649 |
DS2 | 0.601 | 0.724 | 0.645 | 0.211 | 0.705 | |
DS3 | 0.636 | 0.631 | 0.636 | 0.282 | 0.667 |
Claims (1)
1.一种LncRNA和疾病关联关系的高效预测方法,其特征在于,包括以下步骤:
步骤1:根据公共数据库lncRNADisease(网址:http://www.cuilab.cn/lncrnadisease)下载lncRNA和疾病相关联的数据集,去除重复数据后,得到lncRNA集合与疾病集合以及lncRNA-疾病的关联矩阵A;
步骤2:计算疾病之间的语义相似性矩阵SS、计算lncRNA之间的功能相似矩阵FS;然后分别计算出lncRNA的高斯相互作用属性核相似矩阵KL和疾病的高斯相互作用属性核相似矩阵KD;
步骤3:根据lncRNA的高斯相互作用属性核相似矩阵KL、lncRNA之间的功能相似矩阵FS构建lncRNA相似矩阵SL;根据疾病的高斯相互作用属性核相似矩阵KD、疾病之间的语义相似性矩阵SS构建疾病的相似矩阵SD;
步骤4:将lncRNA-疾病的关联矩阵A、lncRNA的相似矩阵SL、疾病的相似矩阵SD三个子网整合,构建全局异构网络的邻接矩阵U;在异构网络上,采用MetaGraph2vec对每个节点进行特征学习,得到每个节点的特征表示;
步骤5:使用K-Means选择负样本,得到所有的正负样本集合;
步骤6:将特征学习后得到的特征数据用于训练GBDT+LR分类器,该分类器来用来预测lncRNA与疾病之间的关系;
步骤7:使用10折交叉验证进行验证;
步骤8:性能评估;
步骤1中得到lncRNA-疾病关联关系网络的关联矩阵A,利用公开数据库lncRNADisease下载的已知的LncRNA-疾病关联关系,得到LncRNA与疾病的集合并构建LncRNA-疾病关联的关联矩阵A,如果LncRNA-疾病存在关联,则A中对应元素为1,反之为0;
步骤2中计算疾病之间的语义相似性矩阵SS:基于疾病本体的层次结构,根据相应的DAG(有向无环图),计算所有疾病之间的语义相似性;计算lncRNA之间的功能相似矩阵FS:lncRNA的功能相似值通过计算与这两个lncRNA相关的两种疾病集的语义相似度来得到;计算LncRNA的高斯相互作用属性核相似矩阵KL和疾病的高斯相互作用属性核相似矩阵KD的步骤如下:计算每个LncRNA对,即LncRNAli和LncRNAlj之间的高斯相互作用属性核相似性;同样地,基于功能相似的LncRNA与相似的疾病之间具有关联关系的假设,利用已知的LncRNA-疾病关联关系网络,构建疾病的高斯相互作用属性核相似矩阵KD;
步骤3中将根据步骤2得到的LncRNA高斯相互作用属性核相似矩阵KL和lncRNA之间的功能相似矩阵FS,构建LncRNA相似矩阵SL;根据步骤2得到的疾病高斯相互作用属性核相似矩阵KD和疾病语义相似性矩阵SS,构建疾病的相似矩阵SD;
步骤4中融合LncRNA-疾病关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和疾病的相似矩阵SD三个子网,构建一个全局异构网络U;在异构网络上,采用MetaGraph2vec对每个节点进行特征学习,得到每个节点的特征表示;
步骤5中使用K-Means聚类将未知样本分成k个聚类,然后从每个聚类中随机抽取一些样本作为负样本,正样本保持不变,随机抽取与正样本总数大致相等数目的负样本,最后,从k个聚类中随机选取负样本和所有正样本组成训练样本;
步骤6中进行特征学习后得到的特征数据用于训练GBDT+LR分类器,该分类器用来预测lncRNA与疾病之间的关系;
步骤7中使用10折交叉验证进行验证,训练集随机分为10组大小大致相同的子集,每个子集依次用作验证测试数据,其余9个子集用作训练数据,交叉验证过程重复10次,并使用10次的平均性能度量进行性能评估,我们使用多种指标来评估性能,包括召回(REC)、F-score(FSC)、准确度(ACC)和ROC曲线下与坐标轴围成的面积(AUC);
步骤8中进行性能评估,本发明的方法是基于梯度提升树(GDBT)结合逻辑回归(LR)算法,将本发明的方法与广泛使用的分类器进行比较,包括使用随机森林(RF)+逻辑回归LR作为分类器、只使用GBDT作为分类器、只使用LR作为分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110715473.XA CN113539372A (zh) | 2021-06-27 | 2021-06-27 | 一种LncRNA和疾病关联关系的高效预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110715473.XA CN113539372A (zh) | 2021-06-27 | 2021-06-27 | 一种LncRNA和疾病关联关系的高效预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113539372A true CN113539372A (zh) | 2021-10-22 |
Family
ID=78096949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110715473.XA Pending CN113539372A (zh) | 2021-06-27 | 2021-06-27 | 一种LncRNA和疾病关联关系的高效预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539372A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114496092A (zh) * | 2022-02-09 | 2022-05-13 | 中南林业科技大学 | 基于图卷积网络的miRNA和疾病关联关系预测方法 |
CN114613438A (zh) * | 2022-03-08 | 2022-06-10 | 电子科技大学 | 一种miRNA与疾病的关联预测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110957004A (zh) * | 2019-11-28 | 2020-04-03 | 长沙学院 | 一种基于随机游走目标收敛集技术预测潜在的lncRNA疾病方法 |
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
US20210071255A1 (en) * | 2019-09-06 | 2021-03-11 | The Broad Institute, Inc. | Methods for identification of genes and genetic variants for complex phenotypes using single cell atlases and uses of the genes and variants thereof |
CN112992347A (zh) * | 2021-04-21 | 2021-06-18 | 湖南工学院 | 基于拉普拉斯正则化最小二乘和网络投影的lncRNA-疾病关联预测方法和系统 |
-
2021
- 2021-06-27 CN CN202110715473.XA patent/CN113539372A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210071255A1 (en) * | 2019-09-06 | 2021-03-11 | The Broad Institute, Inc. | Methods for identification of genes and genetic variants for complex phenotypes using single cell atlases and uses of the genes and variants thereof |
CN110957004A (zh) * | 2019-11-28 | 2020-04-03 | 长沙学院 | 一种基于随机游走目标收敛集技术预测潜在的lncRNA疾病方法 |
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
CN112992347A (zh) * | 2021-04-21 | 2021-06-18 | 湖南工学院 | 基于拉普拉斯正则化最小二乘和网络投影的lncRNA-疾病关联预测方法和系统 |
Non-Patent Citations (3)
Title |
---|
DAOKUN ZHANG ET AL.: "MetaGraph2Vec Complex Semantic Path Augmented Heterogeneous Network Embedding", 《ARXIV:1803.02533V1 [CS.SI]》 * |
SU ZHOU ET AL.: "Predicting potential miRNA-disease associations by combining gradient boosting decision tree with logistic regression", 《COMPUTATIONAL BIOLOGY AND CHEMISTRY》 * |
尚敏等: "基于网络间随机游走算法的lncRNA与疾病关系预测", 《浙江理工大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114496092A (zh) * | 2022-02-09 | 2022-05-13 | 中南林业科技大学 | 基于图卷积网络的miRNA和疾病关联关系预测方法 |
CN114496092B (zh) * | 2022-02-09 | 2024-05-03 | 中南林业科技大学 | 基于图卷积网络的miRNA和疾病关联关系预测方法 |
CN114613438A (zh) * | 2022-03-08 | 2022-06-10 | 电子科技大学 | 一种miRNA与疾病的关联预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | lncRNA-MFDL: identification of human long non-coding RNAs by fusing multiple features and using deep learning | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN111312329A (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
CN113140254B (zh) | 元学习药物-靶点相互作用预测系统及预测方法 | |
CN113936735A (zh) | 一种药物分子与靶标蛋白的结合亲和力预测方法 | |
CN107545033B (zh) | 一种基于表示学习的知识库实体分类的计算方法 | |
CN112508186A (zh) | 训练用于图像识别的神经网络的方法和神经网络设备 | |
Kaur et al. | Prediction of enhancers in DNA sequence data using a hybrid CNN-DLSTM model | |
Pan et al. | Inferring disease-associated microRNAs using semi-supervised multi-label graph convolutional networks | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
Zhao et al. | Whale optimized mixed kernel function of support vector machine for colorectal cancer diagnosis | |
CN113299338A (zh) | 基于知识图谱的合成致死基因对预测方法、系统、终端及介质 | |
CN115798730A (zh) | 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 | |
CN115019891A (zh) | 一种基于半监督图神经网络的个体驱动基因预测方法 | |
CN113436729A (zh) | 一种基于异构图卷积神经网络的合成致死相互作用预测方法 | |
CN115995293A (zh) | 一种环状rna和疾病关联预测方法 | |
Dong et al. | Predicting protein complexes using a supervised learning method combined with local structural information | |
CN110942803A (zh) | 一种LncRNA和环境因素关联关系的高效预测方法 | |
CN114999566B (zh) | 基于词向量表征和注意力机制的药物重定位方法及系统 | |
CN114420201A (zh) | 一种多源数据高效融合的药物靶标相互作用的预测方法 | |
CN115295156A (zh) | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 | |
CN113178232A (zh) | 一种circRNA和疾病关联关系的高效预测方法 | |
US20230253076A1 (en) | Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation | |
Dutta et al. | A multi-objective based PSO approach for inferring pathway activity utilizing protein interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211022 |