CN111899788B - 一种非编码rna调控疾病风险靶通路的识别方法及系统 - Google Patents

一种非编码rna调控疾病风险靶通路的识别方法及系统 Download PDF

Info

Publication number
CN111899788B
CN111899788B CN202010641994.0A CN202010641994A CN111899788B CN 111899788 B CN111899788 B CN 111899788B CN 202010641994 A CN202010641994 A CN 202010641994A CN 111899788 B CN111899788 B CN 111899788B
Authority
CN
China
Prior art keywords
coding rna
coding
protein coding
disease
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010641994.0A
Other languages
English (en)
Other versions
CN111899788A (zh
Inventor
张云鹏
许艳军
李峰
李霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010641994.0A priority Critical patent/CN111899788B/zh
Publication of CN111899788A publication Critical patent/CN111899788A/zh
Application granted granted Critical
Publication of CN111899788B publication Critical patent/CN111899788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种非编码RNA调控疾病风险靶通路的识别方法及系统,所述识别方法,基于lncRNA表达谱、lncRNA‑蛋白编码基因的关联互作网络,结合通路中基因在疾病中的表达失调程度,考虑通路中基因与表达失调lncRNA关联、基因的表达失调程度、通路的拓扑结构等多方面因素。能够精细识别了不同疾病类型中lncRNA调控的风险通路区域。实现系统识别复杂疾病中lncRNA调控影响的风险靶通路,能够揭示lncRNA在疾病中的调控作用及功能,从非编码RNA调控的角度为复杂疾病的致病机制研究提供了新的参考。

Description

一种非编码RNA调控疾病风险靶通路的识别方法及系统
技术领域
本发明涉及人类基因组技术领域,特别涉及一种非编码RNA调控疾病风险靶通路的识别方法及系统。
背景技术
人类基因组计划的提出以及高通量测序技术的发展,促使研究人员发现一类新的非编码RNA——长链非编码RNA(lncRNA),是一类在动物和植物中都广泛存在的长度超过200个碱基(nucleotide,nt)且通常不编码蛋白质的RNA转录本分子。基于新一代测序技术,研究人员获得了大量的lncRNA在不同组学层面的数据如表达、遗传变异的数据等,并发现lncRNA可以在转录后水平调控许多重要的生物学功能。随后,越来越多的研究证明lncRNA参与调控了广泛的生物学功能,与人类复杂疾病尤其是恶性肿瘤的发生发展密切相关。近些年,lncRNA与复杂疾病相关研究呈指数级增长。例如,lncRNA目前已被发现与近百种恶性肿瘤的发生发展密切相关。lncRNA的失调改变会影响肿瘤相关基因、蛋白的表达,导致重要的肿瘤生物学过程和通路相关功能的失调,从而在癌症的发生和转移过程中发挥着关键的生物学作用。然而,目前研究人员对于lncRNA在复杂疾病中的作用机制及功能的相关研究仅仅只是冰山一角,大部分lncRNA的作用功能仍然不是很清楚。因此,如何系统识别复杂疾病中lncRNA调控影响的风险靶通路,揭示lncRNA在疾病中的调控作用及功能,从非编码RNA调控的角度为复杂疾病的致病机制研究提供新的参考成为一个亟待解决的技术问题。
发明内容
本发明的目的是提供一种非编码RNA调控疾病风险靶通路的识别方法及系统,以实现系统识别复杂疾病中lncRNA调控影响的风险靶通路,揭示lncRNA在疾病中的调控作用及功能,从非编码RNA调控的角度为复杂疾病的致病机制研究提供新的参考。
为实现上述目的,本发明提供了如下方案:
一种非编码RNA调控疾病风险靶通路的识别方法,所述识别方法包括如下步骤:
从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据;
利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA;
利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;
利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因;
计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
以调控关联蛋白质编码基因为种子节点,以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入,采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分;
根据每个蛋白质编码基因的分数,采用网络识别算法,确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域;
采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路。
可选的,所述利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA,具体包括:
从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据;
对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化、数据标准化处理,获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱;
利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别,计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性;
选取显著性小于显著性阈值的位置非编码RNA,作为失调非编码RNA。
可选的,所述利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因,具体包括:
根据蛋白编码基因的相关分子关联数据,构建非编码RNA-蛋白质编码基因的关联互作网络;
根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。
可选的,所述利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因,具体包括:
利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r;
其中,n为疾病样本数目,Xi为蛋白编码基因X在第i个疾病样本中的表达值,Xu为蛋白编码基因X在n个疾病样本中的表达值的均值,Yi为失调非编码RNA Y在样本i中的表达值,Yu为失调非编码RNA Y在N个疾病样本中的表达值的均值。
基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值;
选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因,作为失调非编码RNA关联的蛋白质编码基因。
可选的,所述计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重,具体包括:
利用公式Wn=-(β1logPl2logPr3logPg),计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
其中,Pl,Pg和Pr分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值;β1、β2和β3分别为Pl,Pg和Pr的权重系数,β1=β2=β3=1。
一种非编码RNA调控疾病风险靶通路的识别系统,所述识别系统包括:
数据获取模块,用于从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据;
失调非编码RNA确定模块,用于利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA;
候选蛋白质编码基因确定模块,用于利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;
调控关联蛋白质编码基因确定模块,用于利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因;
权重计算模块,用于计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
打分模块,用于以调控关联蛋白质编码基因为种子节点,以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入,采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分;
候选风险靶通路区域确定模块,用于根据每个蛋白质编码基因的分数,采用网络识别算法,确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域;
风险靶通路选取模块,用于采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路。
可选的,所述失调非编码RNA确定模块,具体包括:
样本获取子模块,用于从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据;
数据处理子模块,用于对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化、数据标准化处理,获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱;
显著性计算子模块,用于利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别,计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性;
失调非编码RNA确定子模块,用于选取显著性小于显著性阈值的位置非编码RNA,作为失调非编码RNA。
可选的,所述候选蛋白质编码基因确定模块,具体包括:
关联互作网络构建子模块,用于根据蛋白编码基因的相关分子关联数据,构建非编码RNA-蛋白质编码基因的关联互作网络;
候选蛋白质编码基因确定子模块,用于根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。
可选的,所述调控关联蛋白质编码基因确定模块,具体包括:
皮尔森相关系数计算子模块,用于利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r;
其中,n为疾病样本数目,Xi为蛋白编码基因X在第i个疾病样本中的表达值,Xu为蛋白编码基因X在n个疾病样本中的表达值的均值,Yi为失调非编码RNAY在样本i中的表达值,Yu为失调非编码RNAY在N个疾病样本中的表达值的均值。
相关性显著性P值计算子模块,用于基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值;
调控关联蛋白质编码基因确定子模块,用于选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因,作为失调非编码RNA关联的蛋白质编码基因。
可选的,所述权重计算模块,具体包括:
权重计算子模块,用于利用公式Wn=-(β1logPl2logPr3logPg),计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
其中,Pl,Pg和Pr分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值;β1、β2和β3分别为Pl,Pg和Pr的权重系数,β1=β2=β3=1。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种非编码RNA调控疾病风险靶通路的识别方法及系统,所述识别方法,基于lncRNA表达谱、lncRNA-蛋白编码基因的关联互作网络,结合通路中基因在疾病中的表达失调程度,考虑通路中基因与表达失调lncRNA关联、基因的表达失调程度、通路的拓扑结构等多方面因素。能够精细识别了不同疾病类型中lncRNA调控的风险通路区域。实现系统识别复杂疾病中lncRNA调控影响的风险靶通路,能够揭示lncRNA在疾病中的调控作用及功能,从非编码RNA调控的角度为复杂疾病的致病机制研究提供了新的参考。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种非编码RNA调控疾病风险靶通路的识别方法的流程图。
具体实施方式
本发明的目的是提供一种非编码RNA调控疾病风险靶通路的识别方法及系统,以实现系统识别复杂疾病中lncRNA调控影响的风险靶通路,揭示lncRNA在疾病中的调控作用及功能,从非编码RNA调控的角度为复杂疾病的致病机制研究提供新的参考。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对发明作进一步详细的说明。
本发明考虑到lncRNA的表达失调改变会影响肿瘤相关基因、蛋白的表达,导致重要的疾病相关生物学过程和通路功能的失调,从而导致疾病的发生和发展。本专利中基于lncRNA-蛋白编码基因的关联互作网络,结合通路中基因在疾病中的表达,识别出受lncRNA表达失调影响的通路中蛋白编码基因。然后,开发算法考虑lncRNA与通路中基因的表达失调、通路的拓扑结构,在生物学通路中定位出疾病中lncRNA调控影响的风险靶通路区域。
并使用Html、JavaScript等语言,利用Eclipse平台作为前端的代码编写与实现工具,Boostrap作为前端框架,MySQL数据库平台作为后端存储数据库,Rserve作为后端数据分析工具。Web引擎使用JSP技术,Struts2框架、Java连接池Proxool技术以及R语言实现,并使用Apache Tomcat的Web服务器开发网络平台。网络平台主要提供对于多种不同人类癌症类型中lncRNA调控风险通路关联关系的查询、通路图结构的可视化及数据下载等。
如图1所示,本发明提供一种非编码RNA调控疾病风险靶通路的识别方法,所述识别方法包括如下步骤:
步骤101,从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据。
在TCGA、GEO等数据资源中获取疾病相关的lncRNA及蛋白编码基因表达数据。通过基因组位置映射、区间长度标准化、数据标准化预处理等,获得lncRNA和蛋白编码基因的高通量表达谱。整合众多不同研究来源的lncRNA及蛋白编码基因相关分子关联数据,主要来源为现有公共数据库,构建一个综合的lncRNA调控蛋白编码基因数据集,将其作为本专利中开发方法所使用的lncRNA-蛋白编码基因关联的主要数据来源。整合生物学通路数据,重构生物学通路拓扑结构,将其作为本专利的生物学通路数据来源。
其中,lncRNA、蛋白编码基因表达数据来源:TCGA、GEO数据库;lncRNA-蛋白编码基因间关联关系及蛋白质互作数据来源:LncACTdb、HPRD等数据库;生物学通路数据来源:KEGG等包含实验证实生物学通路数据库。
步骤102,利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA。
步骤102所述利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA,具体包括:从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据;对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化、数据标准化处理,获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱;利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别,计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性;选取显著性小于显著性阈值的位置非编码RNA,作为失调非编码RNA。
具体的,利用疾病高通量转录谱(即疾病lncRNA高通量表达谱),利用DEGSeq方法识别疾病样本与正常样本比较条件下显著差异表达的lncRNA(结果的校正后显著性P值小于0.01)为表达失调的lncRNA。
步骤103,利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。
步骤103所述利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因,具体包括:根据蛋白编码基因的相关分子关联数据,构建非编码RNA-蛋白质编码基因的关联互作网络;根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。
步骤104,利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因。
步骤104所述利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因,具体包括:利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r;其中,n为疾病样本数目,Xi为蛋白编码基因X在第i个疾病样本中的表达值,Xu为蛋白编码基因X在n个疾病样本中的表达值的均值,Yi为失调非编码RNAY在样本i中的表达值,Yu为失调非编码RNAY在N个疾病样本中的表达值的均值;基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值;选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因,作为失调非编码RNA关联的蛋白质编码基因。
具体的,将某一失调的lncRNA映射到lncRNA-蛋白编码基因关联关系网络上,获得该lncRNA调控关联的候选蛋白编码基因。进一步,利用皮尔森相关性评估疾病状态下失调lncRNA与蛋白编码基因的关联关系;
对于一对lncRNA与蛋白编码基因候选的调控关联关系,其在疾病状态下的皮尔森相关系数计算如下:
其中,n为疾病的样本数目,Xi为蛋白编码基因X在样本i中的表达值,Xu为基因X在疾病样本中的表达均值,Yi为lncRNAY在样本i中的表达值,Yu为lncRNAY在疾病样本中的表达均值。
如果lncRNA与蛋白编码基因间的相关系数r值的绝对值大于0.1,并且基于t检验计算的相关性显著性P值小于0.05则认为在疾病状态下该lncRNA-蛋白编码基因间存在调控关联关系。
步骤105,计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重。
步骤105所述计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重,具体包括:利用公式Wn=-(β1logPl2logPr3logPg),计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;其中,Pl,Pg和Pr分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值;β1、β2和β3分别为Pl,Pg和Pr的权重系数,β1=β2=β3=1。
具体的,综合考虑lncRNA的表达失调程度,lncRNA失调影响基因在疾病状态下的失调程度以及通路中基因间关联互作的拓扑结构等因素,在通路中挖掘疾病中lncRNA调控的候选风险靶通路区域。首先,对于特定失调的lncRNA与其调控影响的通路中蛋白编码基因(基于第二步中识别的lncRNA-蛋白编码基因间调控关联获得),将lncRNA及基因在疾病状态下的失调程度进行融合,获得通路中lncRNA调控影响基因的权重。具体lncRNA调控的每个蛋白编码基因的融合权重计算方法如下:
Wn=-(β1logPl2logPr3logPg)
其中,Pl,Pg和Pr分别代表当前lncRNA的差异表达显著性P值、蛋白编码基因的差异表达显著性P值和这对lncRNA-蛋白编码基因间调控相关性的显著性P值;β1=β2=β3=1。
步骤106,以调控关联蛋白质编码基因为种子节点,以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入,采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分。
具体的,在基于蛋白质互作数据得到的蛋白编码基因互作网络上,利用随机游走算法对网络上所有蛋白编码基因进行打分。以当前lncRNA调控蛋白编码基因为种子节点、以融合权重为起始权重值做为算法的输入,获得网络上每个蛋白编码基因的打分。
步骤107,根据每个蛋白质编码基因的分数,采用网络识别算法,确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域。
具体的,在通路中基于基因的打分、通路间基因的互作拓扑连接等结合现有网络模块识别算法,挖掘疾病中某一表达失调lncRNA调控的候选风险靶通路区域。
步骤108,采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路。
具体的,评估挖掘出的疾病中lncRNA调控候选风险靶通路区域的显著性。利用超几何检验方法计算每个lncRNA调控候选风险靶通路区域中注释疾病状态下表达失调蛋白编码基因的显著性P值,对于显著性P值小于0.05的候选风险靶通路区域则识别为该lncRNA调控的疾病风险靶通路。
本发明基于现有常规技术构建数据库平台。本发明利用Html、JavaScript等语言,利用Eclipse平台作为前端的代码编写与实现工具,Boostrap作为前端框架,MySQL数据库平台作为后端存储数据库,Rserve作为后端数据分析工具。Web引擎使用JSP技术,Struts2框架、Java连接池Proxool技术以及R语言实现,并使用Apache Tomcat的Web服务器开发网络平台。
具体的,本发明还提供一种非编码RNA调控疾病风险靶通路的识别系统,所述识别系统包括:
数据获取模块,用于从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据。
失调非编码RNA确定模块,用于利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA。
所述失调非编码RNA确定模块,具体包括:样本获取子模块,用于从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据;数据处理子模块,用于对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化、数据标准化处理,获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱;显著性计算子模块,用于利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别,计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性;失调非编码RNA确定子模块,用于选取显著性小于显著性阈值的位置非编码RNA,作为失调非编码RNA。
候选蛋白质编码基因确定模块,用于利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。
所述候选蛋白质编码基因确定模块,具体包括:关联互作网络构建子模块,用于根据蛋白编码基因的相关分子关联数据,构建非编码RNA-蛋白质编码基因的关联互作网络;候选蛋白质编码基因确定子模块,用于根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。
调控关联蛋白质编码基因确定模块,用于利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因。
所述调控关联蛋白质编码基因确定模块,具体包括:皮尔森相关系数计算子模块,用于利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r;其中,n为疾病样本数目,Xi为蛋白编码基因X在第i个疾病样本中的表达值,Xu为蛋白编码基因X在n个疾病样本中的表达值的均值,Yi为失调非编码RNAY在样本i中的表达值,Yu为失调非编码RNAY在N个疾病样本中的表达值的均值;相关性显著性P值计算子模块,用于基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值;调控关联蛋白质编码基因确定子模块,用于选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因,作为失调非编码RNA关联的蛋白质编码基因。
权重计算模块,用于计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重。
所述权重计算模块,具体包括:权重计算子模块,用于利用公式Wn=-(β1logPl2logPr3logPg),计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;其中,Pl,Pg和Pr分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值;β1、β2和β3分别为Pl,Pg和Pr的权重系数,β1=β2=β3=1。
打分模块,用于以调控关联蛋白质编码基因为种子节点,以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入,采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分。
候选风险靶通路区域确定模块,用于根据每个蛋白质编码基因的分数,采用网络识别算法,确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域。
风险靶通路选取模块,用于采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明中提供一种基于高通量转录谱识别lncRNA调控疾病风险靶通路的方法、识别多种癌症类型中lncRNA调控的风险通路区域、同时开发数据库平台提供灵活的查询和便捷的结果获取,对于研究lncRNA在疾病中的功能,解析疾病中复杂的调控机制、揭示疾病的致病机理研究提供有力的方法支撑,同时为实验室验证提供了相关候选数据,具有重要的方向性指导作用。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (4)

1.一种非编码RNA调控疾病风险靶通路的识别方法,其特征在于,所述识别方法包括如下步骤:
从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据;
利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA;
利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;
利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因;
计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
以调控关联蛋白质编码基因为种子节点,以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入,采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分;
根据每个蛋白质编码基因的分数,采用网络识别算法,确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域;
采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路;
所述利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA,具体包括:
从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据;
对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化和数据标准化处理,获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱;
利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别,计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性;
选取显著性小于显著性阈值的位置非编码RNA,作为失调非编码RNA;
所述利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因,具体包括:
根据蛋白编码基因的相关分子关联数据,构建非编码RNA-蛋白质编码基因的关联互作网络;
根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;
所述利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因,具体包括:
利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r;
其中,n为疾病样本数目,Xi为蛋白编码基因X在第i个疾病样本中的表达值,Xu为蛋白编码基因X在n个疾病样本中的表达值的均值,Yi为失调非编码RNA Y在样本i中的表达值,Yu为失调非编码RNA Y在N个疾病样本中的表达值的均值;
基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值;
选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因,作为失调非编码RNA关联的蛋白质编码基因。
2.根据权利要求1所述的非编码RNA调控疾病风险靶通路的识别方法,其特征在于,所述计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重,具体包括:
利用公式Wn=-(β1logPl2logPr3logPg),计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
其中,Pl,Pg和Pr分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值;β1、β2和β3分别为Pl,Pg和Pr的权重系数,β1=β2=β3=1。
3.一种非编码RNA调控疾病风险靶通路的识别系统,其特征在于,所述识别系统包括:
数据获取模块,用于从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据;
失调非编码RNA确定模块,用于利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA;
候选蛋白质编码基因确定模块,用于利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;
调控关联蛋白质编码基因确定模块,用于利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因;
权重计算模块,用于计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
打分模块,用于以调控关联蛋白质编码基因为种子节点,以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入,采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分;
候选风险靶通路区域确定模块,用于根据每个蛋白质编码基因的分数,采用网络识别算法,确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域;
风险靶通路选取模块,用于采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路;
所述失调非编码RNA确定模块,具体包括:
样本获取子模块,用于从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据;
数据处理子模块,用于对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化、数据标准化处理,获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱;
显著性计算子模块,用于利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别,计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性;
失调非编码RNA确定子模块,用于选取显著性小于显著性阈值的位置非编码RNA,作为失调非编码RNA;
所述候选蛋白质编码基因确定模块,具体包括:
关联互作网络构建子模块,用于根据蛋白编码基因的相关分子关联数据,构建非编码RNA-蛋白质编码基因的关联互作网络;
候选蛋白质编码基因确定子模块,用于根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;
所述调控关联蛋白质编码基因确定模块,具体包括:
皮尔森相关系数计算子模块,用于利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r;
其中,n为疾病样本数目,Xi为蛋白编码基因X在第i个疾病样本中的表达值,Xu为蛋白编码基因X在n个疾病样本中的表达值的均值,Yi为失调非编码RNA Y在样本i中的表达值,Yu为失调非编码RNA Y在N个疾病样本中的表达值的均值;
相关性显著性P值计算子模块,用于基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值;
调控关联蛋白质编码基因确定子模块,用于选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因,作为失调非编码RNA关联的蛋白质编码基因。
4.根据权利要求3所述的非编码RNA调控疾病风险靶通路的识别系统,其特征在于,所述权重计算模块,具体包括:
权重计算子模块,用于利用公式Wn=-(β1logPl2logPr3logPg),计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
其中,Pl,Pg和Pr分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值;β1、β2和β3分别为Pl,Pg和Pr的权重系数,β1=β2=β3=1。
CN202010641994.0A 2020-07-06 2020-07-06 一种非编码rna调控疾病风险靶通路的识别方法及系统 Active CN111899788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010641994.0A CN111899788B (zh) 2020-07-06 2020-07-06 一种非编码rna调控疾病风险靶通路的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010641994.0A CN111899788B (zh) 2020-07-06 2020-07-06 一种非编码rna调控疾病风险靶通路的识别方法及系统

Publications (2)

Publication Number Publication Date
CN111899788A CN111899788A (zh) 2020-11-06
CN111899788B true CN111899788B (zh) 2023-08-18

Family

ID=73193055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010641994.0A Active CN111899788B (zh) 2020-07-06 2020-07-06 一种非编码rna调控疾病风险靶通路的识别方法及系统

Country Status (1)

Country Link
CN (1) CN111899788B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547417B (zh) * 2022-10-18 2023-05-26 南方医科大学南方医院 一种疾病lncRNA-转录因子-靶基因层级调控网络的构建方法和应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799796A (zh) * 2011-05-24 2012-11-28 上海聚类生物科技有限公司 一种LncRNA与mRNA关联分析的方法
CN106599610A (zh) * 2016-11-30 2017-04-26 中南大学 预测长链非编码rna和蛋白质联系的方法及系统
CN109033748A (zh) * 2018-08-14 2018-12-18 齐齐哈尔大学 一种基于多组学的miRNA功能识别方法
CN109637588A (zh) * 2018-12-29 2019-04-16 北京百迈客生物科技有限公司 一种基于全转录组高通量测序构建基因调控网络的方法
CN110957004A (zh) * 2019-11-28 2020-04-03 长沙学院 一种基于随机游走目标收敛集技术预测潜在的lncRNA疾病方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012514994A (ja) * 2009-01-19 2012-07-05 システミック・スコットランド・リミテッド 非コードrna発現アッセイを用いた方法
RU2017124373A (ru) * 2014-12-10 2019-01-10 Конинклейке Филипс Н.В. Способы и система для создания сетей коэкспрессии некодирующих и кодирующих генов

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799796A (zh) * 2011-05-24 2012-11-28 上海聚类生物科技有限公司 一种LncRNA与mRNA关联分析的方法
CN106599610A (zh) * 2016-11-30 2017-04-26 中南大学 预测长链非编码rna和蛋白质联系的方法及系统
CN109033748A (zh) * 2018-08-14 2018-12-18 齐齐哈尔大学 一种基于多组学的miRNA功能识别方法
CN109637588A (zh) * 2018-12-29 2019-04-16 北京百迈客生物科技有限公司 一种基于全转录组高通量测序构建基因调控网络的方法
CN110957004A (zh) * 2019-11-28 2020-04-03 长沙学院 一种基于随机游走目标收敛集技术预测潜在的lncRNA疾病方法

Also Published As

Publication number Publication date
CN111899788A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
Frazer et al. Disease variant prediction with deep generative models of evolutionary data
Krakau et al. PureCLIP: capturing target-specific protein–RNA interaction footprints from single-nucleotide CLIP-seq data
AU2021201500B2 (en) Haplotype phasing models
Riekeberg et al. New frontiers in metabolomics: from measurement to insight
Pertea et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads
Hwang et al. Systematic comparison of variant calling pipelines using gold standard personal exome variants
Ronen et al. netSmooth: Network-smoothing based imputation for single cell RNA-seq
Audain et al. In-depth analysis of protein inference algorithms using multiple search engines and well-defined metrics
Nguyen et al. Direct identification of A-to-I editing sites with nanopore native RNA sequencing
Lippert et al. The benefits of selecting phenotype-specific variants for applications of mixed models in genomics
Rapsomaniki et al. CellCycleTRACER accounts for cell cycle and volume in mass cytometry data
JP2016533182A (ja) 疾患に誘導された変異を同定するための方法およびシステム
JP2016536698A (ja) 配列をアラインするための方法およびシステム
Kawaguchi et al. Parallel computation of genome-scale RNA secondary structure to detect structural constraints on human genome
CN109920473B (zh) 一种代谢组学标志物权重分析通用方法
Stanislas et al. Eigen-Epistasis for detecting gene-gene interactions
CN111899788B (zh) 一种非编码rna调控疾病风险靶通路的识别方法及系统
Bowling et al. Analyzing the metabolome
Gao et al. Deep representation features from DreamDIAXMBD improve the analysis of data-independent acquisition proteomics
Graham Linck et al. metPropagate: network-guided propagation of metabolomic information for prioritization of metabolic disease genes
Shokoohi et al. A hidden Markov model for identifying differentially methylated sites in bisulfite sequencing data
Wang et al. CryoREAD: de novo structure modeling for nucleic acids in cryo-EM maps using deep learning
Chen et al. Integration of spatial and single-cell data across modalities with weakly linked features
Zhang et al. Accurate assembly of multi-end RNA-seq data with Scallop2
JPWO2008007630A1 (ja) 蛋白質探索方法及び装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant