CN106446601A - 一种大规模标注lncRNA功能的方法 - Google Patents
一种大规模标注lncRNA功能的方法 Download PDFInfo
- Publication number
- CN106446601A CN106446601A CN201610406692.9A CN201610406692A CN106446601A CN 106446601 A CN106446601 A CN 106446601A CN 201610406692 A CN201610406692 A CN 201610406692A CN 106446601 A CN106446601 A CN 106446601A
- Authority
- CN
- China
- Prior art keywords
- lncrna
- protein
- data
- network
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大规模标注lncRNA功能的方法,根据lncRNA‑蛋白质的共表达数据及相互作用数据、lncRNA的表达谱数据和蛋白质的相互作用数据,构建一个全局的异构无向图,通过Katz度量计算lncRNA顶点和蛋白质顶点的相似性,从而依据相似蛋白质的功能标注信息对未知的lncRNA进行功能标注。本发明与现有的技术相比,在考虑lncRNA‑蛋白质共表达信息的基础上,也整合了lncRNA‑蛋白质相互作用数据、lncRNA的表达谱数据和蛋白质的相互作用数据。独立测试表明,本发明预测的召回率、准确性和F‑measure都比其它的方法更高,效果更好。由于本发明是一种基于图的全局计算方法,所以可以一次标注出大量的lncRNA,有效的克服了以前局部方法一次只能标注少量lncRNA功能的问题。
Description
技术领域
本发明属于生物信息学领域,特别涉及一种大规模标注lncRNA功能的方法。
背景技术
长链非编码RNA(long non-coding RNA,lncRNA)是一种重要的非编码RNA,它在真核生物中被广泛转录。一般,lncRNA具有低的表达水平,中等的序列保守性,和高的组织特异性。越来越多的生物实验已经证实lncRNA能在细胞中发挥广泛而又重要的作用,比如基因调控、剪接控制、以及X染色体剂量补偿等。lncRNA还和人类疾病的发生、发展和防治都有着密切联系。因此,确定lncRNA的功能对于揭示其在生理及病理过程中的作用机制、疾病诊断和防治都有重要的意义,但是,目前人们仅仅对很少量的lncRNA的功能了解比较充分。最近,预测和识别lncRNA功能的研究引起了越来越多研究者的兴趣。
确定lncRNA的功能,在生物学领域,一般采取非编码RNA沉默和定位分析、RNA结合蛋白免疫沉淀技术、紫外交联免疫沉淀、环状染色质构象捕获、RNA反义纯化、RNA纯化的染色质分离和捕获杂交分析RNA靶点等,尽管这些技术能在一定程度上识别lncRNA的部分功能,但是由于实验设计复杂、代价高昂,而lncRNA的功能具有多样化和特异性强的特点,难以大规模应用于lncRNA功能识别。随着微阵列和新一代测序等高通量技术的发展,获得了大量与lncRNA有关的生物数据(lncRNA序列、表达谱、与蛋白质的相互作用等),这为从计算上预测lncRNA的功能提供了条件。
近年来,已有一些研究者利用这些生物数据预测lncRNA的功能,比如,Guttman等人在4种小鼠细胞种通过基因组范围染色质状态谱发现了大约1600种lncRNA,并开发了一种方法进行lncRNA功能预测;Liao等人根据公开的微阵列表达谱数据,通过构造编码-非编码基因共表达网络标注了340个lncRNA的可能功能;Cabili与他的合作者编制了一个包含8000多种人类lincRNA的参考目录,并通过编码基因和非编码基因的共表达信息对它们进行了功能标注。这些方法基本上都是基于基因表达谱和一些局部信息,所以仅仅少量的lncRNA的功能可以被推断出来。近几年来,也出现了结合其它信息进行lncRNA功能标注的方法,例如,lncRNA2Function等。
发明内容
本发明提供一种大规模标注lncRNA功能的方法,其可以一次对大量lncRNA的功能进行标注,大大降低lncRNA功能标注的成本,降低费用。
本发明的技术方案如下:
1)根据lncRNA与蛋白质的共表达数据、相互作用数据计算lncRNA和蛋白质的皮尔逊相关系数,并根据相关系数构造lncRNA-蛋白质关系网络。2)根据lncRNA在人类24个组织或者细胞类型中的表达谱计算lncRNA之间的皮尔逊相关系数,据此构造lncRNA相似性网络。3)根据蛋白质相互作用数据构造蛋白质相互作用网络,并结合lncRNA-蛋白质和lncRNA相似性网络构建全局网络。4)利用上述构建的全局网络,根据公式(1)计算lncRNA节点和蛋白质节点的Katz度量,此Katz度量代表lncRNA节点和蛋白质节点的相似性度量,Katz度量值越大,说明这个蛋白质与lncRNA越相似。5)对上述步骤得到的lncRNA和蛋白质相似矩阵进行降序排列,按照分值选择其中前N个蛋白质,分别找出前N个蛋白质中每个蛋白质所对应的功能注释,对每个功能注释,根据公式(2)计算此lncRNA具有该功能的概率。
本发明与现有标注lncRNA功能的方法相比,现有的大部分方法都是基于基因的表达谱和基因的一些局部信息,因此一次仅能对少量的lncRNA进行功能注释,而本发明是根据全局网络进行计算推断的,所以一次可以对全基因组的lncRNA进行功能注释。此外,本发明不但考虑了基因表达谱信息,也结合了lncRNA与蛋白质的相互作用信息以及蛋白质之间的相互作用信息。与现有的方法相比,本发明利用了更多的生物数据,可以显著地提高lncRNA功能预测的准确度,同时,本发明可以一次对大量lncRNA进行功能预测,有效的解决了现有计算方法的问题,也为生物实验进行lncRNA功能注释提供了有价值的参考。
附图说明
图1是本发明实施例整个过程的处理流程示意图。
图2为本发明实施例N取不同值时的性能变化曲线图,当N选择不同的值时,Fmax的值波动较大,最好的性能(Fmax最大)出现在N近似是40时。
图3本发明实施例网络中包含或去掉PPI时的准确率-召回率曲线图。
图4在手工标注的55个lncRNA上,本发明实施例和LncRNA2Function分别正确注释的lncRNA的个数比较示意图。
图5在全基因组上,本发明实施例和LncRNA2Function分别正确注释的lncRNA的个数比较示意图。
图6在不同GO深度下,本发明实施例和LncRNA2Function分别注释lncRNA的个数比较示意图。
具体实施方式
下面将结合附图和实施例对本发明做进一步详细说明。
本发明的原理是:根据lncRNA-蛋白质的共表达数据及相互作用数据、lncRNA的表达谱 数据和蛋白质的相互作用数据,构建一个全局的异构无向图,通过Katz度量计算lncRNA顶点和蛋白质顶点的相似性,从而依据相似蛋白质的功能标注信息对未知的lncRNA进行功能标注。
如图1所示,本实施例从GENCODE数据库中共下载了15941个lncRNA基因和20284个编码基因。为了获得全基因组范围内的lncRNA和编码基因的联系,分别从COXPRESdb、ArrayExpress等数据库下载了共表达数据,从NPInter数据库下载了lncRNA-蛋白质作用数据。根据这些lncRNA-蛋白质的共表达数据和相互作用数据,采用朴素贝叶斯方法计算lncRNA和蛋白质的相关性:
其中,C(l,p)是基因d(lncRNA)和编码基因p之间的整体相关系数,Cd(l,p)代表l和p在数据集d上的相关分数,D是基因对(l和p)的个数。然后结合计算出的lncRNA和蛋白质的相关性构造lncRNA-蛋白质的关系网络,此网络共包含15941个lncRNA基因和20284个编码基因,并用邻接矩阵LP表示。
从NONCODE2016中下载了lncRNA在人类24个组织中的表达谱数据,根据这些表达谱数据计算lncRNA之间的表达相关性,具体采用皮尔逊相关系数公式计算每对lncRNA之间的表达相关性,然后根据这些表达相关性构造lncRNA相似性网络,此网络共包含15941个lncRNA基因,用邻接矩阵L表示。
根据从STRING数据库下载的蛋白质相互作用数据,构造蛋白质相互作用网络,记作P,共包含20284个蛋白质,结合步骤1、步骤2计算出的矩阵LP、L,构造全局异构网络,用邻接矩阵表示。
Katz度量通过计算两个节点间的距离来衡量两个节点的相似性,基于此,本发明提出通过计算lncRNA节点和蛋白质节点的Katz度量来测量lncRNA基因和蛋白质的相似性,即,利用上述步骤构造的全局网络的邻接矩阵A,计算15941个lncRNA节点和20284个蛋白质节点的Katz度量,计算公式为:
SLP=βLP+β2(L*LP+LP*P)+β3(LP*LPT*LP+L2*LP+L*LP*P+LP*P2) (1)
其中,β是不同长度路径的权重系数,满足β<1/||A||2。计算结果为分数矩阵,分值越大,表示越相似。
对于给定的lncRNA l,从Slp中降序排列的分值中选择前N个蛋白质,并找出前N个蛋白质所对应的注释信息,然后对于每一个GO术语,计算它被指定给lncRNA的概率Pl(Ti),计算公式为:
其中,Slp是lncRNA l和它的邻近编码基因的Kazt相似性分数,Ind(Ti)是一个指示函数,定义如下:
Pl(Ti)越大,则lncRNA l越可能具有该功能。
本发明实施例进行了有效性验证如下。
本发明实施例方法可称之为KATZLGO,需要根据Slp中前N个蛋白质的GO信息来注释RNA,但是,目前没有有效的计算方法确定N的值。在本方法中,通过在手工构建的lncRNA注释数据集lncRNA2GO-55上进行性能评估,根据性能评估的结果选择合适的值,如图2所示。从图2中可以看出,当N取不同的值时,本发明的性能会发生剧烈的波动,当N取值约35至50之间时性能较好,而为40时,性能最好。
本发明实施例比其它预测方法集成了更多生物信息,比如蛋白质相互作用数据。为了评估蛋白质相互作用信息的影响,本发明在825个蛋白质的数据集Protein2GO-825上进行性能评估,如图3所示。显然,含有蛋白质相互作用数据的性能(红色曲线)优于不包含蛋白质相互作用数据的性能(绿线)。
本发明实施例KATZLGO与目前最好的方法LncRNA2Function进行了比较:在数据集lncRNA2GO-55上进行生物过程预测,两种方法的准确率、召回率和F值,如表1所示。在手工注释的55个lncRNA的数据集上,KATZLGO每个性能指标均好于方法LncRNA2Function。
表1
同时,图4示出了在手工标注的55个lncRNA上,本发明实施例和LncRNA2Function分别正确注释的lncRNA的个数比较。图5示出了在全基因组上,本发明实施例和LncRNA2Function分别正确注释的lncRNA的个数比较。图6示出了在不同GO深度下,本发 明实施例和LncRNA2Function分别注释lncRNA的个数比较。
Claims (8)
1.一种大规模标注lncRNA功能的方法,其特征在于,包括如下步骤:
步骤1、根据lncRNA与蛋白质的共表达数据、相互作用数据计算lncRNA和蛋白质的皮尔逊相关系数,并根据相关系数构造lncRNA-蛋白质关系网络;
步骤2、根据lncRNA在人类24个组织或者细胞类型中的表达谱计算lncRNA之间的皮尔逊相关系数,据此构造lncRNA相似性网络;
步骤3、根据蛋白质相互作用数据构造蛋白质相互作用网络,并结合lncRNA-蛋白质和lncRNA相似性网络构建全局网络;
步骤4、利用上述构建的全局网络,根据公式(1)计算lncRNA节点和蛋白质节点的Katz度量,此Katz度量代表lncRNA节点和蛋白质节点的相似性度量,Katz度量值越大,说明这个蛋白质与lncRNA越相似;
步骤5、对上述步骤得到的lncRNA和蛋白质相似矩阵进行降序排列,按照分值选择其中前N个蛋白质,分别找出前N个蛋白质中每个蛋白质所对应的功能注释,对每个功能注释,根据公式(2)计算此lncRNA具有该功能的概率。
2.根据权利要求1所述的大规模标注lncRNA功能的方法,其特征在于,步骤1具体为:根据lncRNA-蛋白质的共表达数据及相互作用数据,采用朴素贝叶斯方法计算lncRNA和蛋白质的相关性:
其中,C(l,p)是lncRNA基因d和编码基因p之间的整体相关系数,Cd(l,p)代表l和p在数据集d上的相关分数,D是基因对l和p的个数,然后结合计算出的lncRNA和蛋白质的相关性构造lncRNA-蛋白质的关系网络,并用邻接矩阵LP表示。
3.根据权利要求2所述的大规模标注lncRNA功能的方法,其特征在于,所述lncRNA-蛋白质的共表达数据及相互作用数据包括从GENCODE数据库中下载的lncRNA基因和编码基因,从COXPRESdb、ArrayExpress数据库下载的共表达数据,从NPInter数据库下载的lncRNA-蛋白质作用数据。
4.根据权利要求2或3所述的大规模标注lncRNA功能的方法,其特征在于,步骤2具体为:根据lncRNA在人类24种组织或者细胞类型中的表达谱数据计算lncRNA之间的表达相关性,具体采用皮尔逊相关系数公式计算每对lncRNA之间的表达相关性,然后根据这些表达相关性构造lncRNA相似性网络,用邻接矩阵L表示。
5.根据权利要求4所述的大规模标注lncRNA功能的方法,其特征在于,步骤3:根据蛋白质相互作用数据,构造蛋白质相互作用网络,记作P,结合步骤1、步骤2计算出的矩阵LP、L,构造全局异构网络,用邻接矩阵表示。
6.根据权利要求5所述的大规模标注lncRNA功能的方法,其特征在于,步骤4具体为:利用步骤3构造的全局网络的邻接矩阵A,计算lncRNA节点和蛋白质节点的Katz度量,计算公式为:
SLP=βLP+β2(L*LP+LP*P)+β3(LP*LPT*LP+L2*LP+L*LP*P+LP*P2) (1)
其中,β是不同长度路径的权重系数,满足β<1/||A||2。
7.根据权利要求6所述的大规模标注lncRNA功能的方法,其特征在于,步骤5具体为:对于给定的lncRNA l,从Slp中降序排列的分值中选择前N个蛋白质,然后对于每一个GO术语,计算它被指定给lncRNA的概率Pl(Ti),计算公式为:
其中,Slp是lncRNA l和它的邻近编码基因的Kazt相似性分数,Ind(Ti)是一个指示函数,定义如下:
Pl(Ti)越大,则lncRNA l越可能具有该功能。
8.根据权利要求7所述的大规模标注lncRNA功能的方法,其特征在于,N在35至50之间取值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610406692.9A CN106446601B (zh) | 2016-06-12 | 2016-06-12 | 一种大规模标注lncRNA功能的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610406692.9A CN106446601B (zh) | 2016-06-12 | 2016-06-12 | 一种大规模标注lncRNA功能的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446601A true CN106446601A (zh) | 2017-02-22 |
CN106446601B CN106446601B (zh) | 2019-10-01 |
Family
ID=58183205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610406692.9A Active CN106446601B (zh) | 2016-06-12 | 2016-06-12 | 一种大规模标注lncRNA功能的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446601B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920903A (zh) * | 2018-07-09 | 2018-11-30 | 湘潭大学 | 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统 |
CN109243538A (zh) * | 2018-07-19 | 2019-01-18 | 长沙学院 | 一种预测疾病与LncRNA关联关系的方法及系统 |
CN113241114A (zh) * | 2021-03-24 | 2021-08-10 | 辽宁大学 | 一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102827923A (zh) * | 2011-06-16 | 2012-12-19 | 上海聚类生物科技有限公司 | 长的非编码rna靶基因预测的方法 |
-
2016
- 2016-06-12 CN CN201610406692.9A patent/CN106446601B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102827923A (zh) * | 2011-06-16 | 2012-12-19 | 上海聚类生物科技有限公司 | 长的非编码rna靶基因预测的方法 |
Non-Patent Citations (2)
Title |
---|
XING CHEN: "KATZLDA: KATZ measure for the lncRNA-disease association prediction", 《SCI REP》 * |
XINGLI GUO ET AL.: "Long non-coding RNAs function annotation: a global prediction method based on bi-colored network", 《NUCLEIC ACIDS RESEARCH》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920903A (zh) * | 2018-07-09 | 2018-11-30 | 湘潭大学 | 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统 |
CN108920903B (zh) * | 2018-07-09 | 2022-04-01 | 湘潭大学 | 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统 |
CN109243538A (zh) * | 2018-07-19 | 2019-01-18 | 长沙学院 | 一种预测疾病与LncRNA关联关系的方法及系统 |
CN109243538B (zh) * | 2018-07-19 | 2021-11-23 | 长沙学院 | 一种预测疾病与LncRNA关联关系的方法及系统 |
CN113241114A (zh) * | 2021-03-24 | 2021-08-10 | 辽宁大学 | 一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106446601B (zh) | 2019-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Binder et al. | Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications | |
Wen et al. | A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network | |
CN111653359B (zh) | 一种出血性疾病的智能预测模型构建方法和预测系统 | |
CN106599615B (zh) | 一种预测miRNA靶基因的序列特征分析方法 | |
US20180107927A1 (en) | Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes | |
CN108830045B (zh) | 一种基于多组学的生物标记物系统筛选方法 | |
CN110010194A (zh) | 一种rna二级结构的预测方法 | |
CN108121896B (zh) | 一种基于miRNA的疾病间关系分析方法和装置 | |
CN106295246A (zh) | 找到与肿瘤相关的lncRNA并预测其功能 | |
Dunkler et al. | Statistical analysis principles for Omics data | |
CN106446601B (zh) | 一种大规模标注lncRNA功能的方法 | |
JP2008146538A (ja) | マイクロrna検出装置、方法およびプログラム | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
Xiao et al. | A survey of circular RNAs in complex diseases: databases, tools and computational methods | |
Chen et al. | DECODE: A De ep-learning Framework for Co n de nsing Enhancers and Refining Boundaries with Large-scale Functional Assays | |
Yankee et al. | Integrative analysis of transcriptome dynamics during human craniofacial development identifies candidate disease genes | |
CN110610763A (zh) | 基于katz模型的代谢物与疾病关联关系预测方法 | |
CN108052797A (zh) | 应用于组织样本中染色体上转录因子结合位点的检测方法 | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
CN103310128B (zh) | 考虑种子片段的长度的碱基序列处理系统及方法 | |
Molaro et al. | Studying the evolution of histone variants using phylogeny | |
CN108595914A (zh) | 一种烟草线粒体rna编辑位点高精度预测方法 | |
CN108154008A (zh) | 应用于组织样本中染色体上转录因子结合位点的检测方法 | |
CN115295079A (zh) | 基于元图学习的长链非编码rna亚细胞定位预测方法 | |
Abass et al. | Analysis of Prostate Cancer DNA Sequences Using Bi-direction Long Short Term Memory Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |