CN111899788B

CN111899788B - 一种非编码rna调控疾病风险靶通路的识别方法及系统

Info

Publication number: CN111899788B
Application number: CN202010641994.0A
Authority: CN
Inventors: 张云鹏; 许艳军; 李峰; 李霞
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-08-18
Anticipated expiration: 2040-07-06
Also published as: CN111899788A

Abstract

本发明公开了一种非编码RNA调控疾病风险靶通路的识别方法及系统，所述识别方法，基于lncRNA表达谱、lncRNA‑蛋白编码基因的关联互作网络，结合通路中基因在疾病中的表达失调程度，考虑通路中基因与表达失调lncRNA关联、基因的表达失调程度、通路的拓扑结构等多方面因素。能够精细识别了不同疾病类型中lncRNA调控的风险通路区域。实现系统识别复杂疾病中lncRNA调控影响的风险靶通路，能够揭示lncRNA在疾病中的调控作用及功能，从非编码RNA调控的角度为复杂疾病的致病机制研究提供了新的参考。

Description

一种非编码RNA调控疾病风险靶通路的识别方法及系统

技术领域

本发明涉及人类基因组技术领域，特别涉及一种非编码RNA调控疾病风险靶通路的识别方法及系统。

背景技术

人类基因组计划的提出以及高通量测序技术的发展，促使研究人员发现一类新的非编码RNA——长链非编码RNA(lncRNA)，是一类在动物和植物中都广泛存在的长度超过200个碱基(nucleotide,nt)且通常不编码蛋白质的RNA转录本分子。基于新一代测序技术，研究人员获得了大量的lncRNA在不同组学层面的数据如表达、遗传变异的数据等，并发现lncRNA可以在转录后水平调控许多重要的生物学功能。随后，越来越多的研究证明lncRNA参与调控了广泛的生物学功能，与人类复杂疾病尤其是恶性肿瘤的发生发展密切相关。近些年，lncRNA与复杂疾病相关研究呈指数级增长。例如，lncRNA目前已被发现与近百种恶性肿瘤的发生发展密切相关。lncRNA的失调改变会影响肿瘤相关基因、蛋白的表达，导致重要的肿瘤生物学过程和通路相关功能的失调，从而在癌症的发生和转移过程中发挥着关键的生物学作用。然而，目前研究人员对于lncRNA在复杂疾病中的作用机制及功能的相关研究仅仅只是冰山一角，大部分lncRNA的作用功能仍然不是很清楚。因此，如何系统识别复杂疾病中lncRNA调控影响的风险靶通路，揭示lncRNA在疾病中的调控作用及功能，从非编码RNA调控的角度为复杂疾病的致病机制研究提供新的参考成为一个亟待解决的技术问题。

发明内容

本发明的目的是提供一种非编码RNA调控疾病风险靶通路的识别方法及系统，以实现系统识别复杂疾病中lncRNA调控影响的风险靶通路，揭示lncRNA在疾病中的调控作用及功能，从非编码RNA调控的角度为复杂疾病的致病机制研究提供新的参考。

为实现上述目的，本发明提供了如下方案：

一种非编码RNA调控疾病风险靶通路的识别方法，所述识别方法包括如下步骤：

从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据；

利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA，作为失调非编码RNA；

利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据，确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因；

利用皮尔森相关性评估算法，从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因，作为调控关联蛋白质编码基因；

计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重；

以调控关联蛋白质编码基因为种子节点，以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入，采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分；

根据每个蛋白质编码基因的分数，采用网络识别算法，确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域；

采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路。

可选的，所述利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA，作为失调非编码RNA，具体包括：

从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据；

对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化、数据标准化处理，获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱；

利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别，计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性；

选取显著性小于显著性阈值的位置非编码RNA，作为失调非编码RNA。

可选的，所述利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据，确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因，具体包括：

根据蛋白编码基因的相关分子关联数据，构建非编码RNA-蛋白质编码基因的关联互作网络；

根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。

可选的，所述利用皮尔森相关性评估算法，从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因，作为调控关联蛋白质编码基因，具体包括：

利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r；

其中，n为疾病样本数目，X_i为蛋白编码基因X在第i个疾病样本中的表达值，X_u为蛋白编码基因X在n个疾病样本中的表达值的均值，Y_i为失调非编码RNA Y在样本i中的表达值，Y_u为失调非编码RNA Y在N个疾病样本中的表达值的均值。

基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值；

选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因，作为失调非编码RNA关联的蛋白质编码基因。

可选的，所述计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重，具体包括：

利用公式W_n＝-(β₁logP_l+β₂logP_r+β₃logP_g)，计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重；

其中，P_l，P_g和P_r分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值；β₁、β₂和β₃分别为P_l，P_g和P_r的权重系数，β₁＝β₂＝β₃＝1。

一种非编码RNA调控疾病风险靶通路的识别系统，所述识别系统包括：

数据获取模块，用于从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据；

失调非编码RNA确定模块，用于利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA，作为失调非编码RNA；

候选蛋白质编码基因确定模块，用于利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据，确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因；

调控关联蛋白质编码基因确定模块，用于利用皮尔森相关性评估算法，从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因，作为调控关联蛋白质编码基因；

权重计算模块，用于计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重；

打分模块，用于以调控关联蛋白质编码基因为种子节点，以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入，采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分；

候选风险靶通路区域确定模块，用于根据每个蛋白质编码基因的分数，采用网络识别算法，确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域；

风险靶通路选取模块，用于采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路。

可选的，所述失调非编码RNA确定模块，具体包括：

样本获取子模块，用于从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据；

数据处理子模块，用于对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化、数据标准化处理，获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱；

显著性计算子模块，用于利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别，计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性；

失调非编码RNA确定子模块，用于选取显著性小于显著性阈值的位置非编码RNA，作为失调非编码RNA。

可选的，所述候选蛋白质编码基因确定模块，具体包括：

关联互作网络构建子模块，用于根据蛋白编码基因的相关分子关联数据，构建非编码RNA-蛋白质编码基因的关联互作网络；

候选蛋白质编码基因确定子模块，用于根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。

可选的，所述调控关联蛋白质编码基因确定模块，具体包括：

皮尔森相关系数计算子模块，用于利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r；

其中，n为疾病样本数目，X_i为蛋白编码基因X在第i个疾病样本中的表达值，X_u为蛋白编码基因X在n个疾病样本中的表达值的均值，Y_i为失调非编码RNAY在样本i中的表达值，Y_u为失调非编码RNAY在N个疾病样本中的表达值的均值。

相关性显著性P值计算子模块，用于基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值；

调控关联蛋白质编码基因确定子模块，用于选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因，作为失调非编码RNA关联的蛋白质编码基因。

可选的，所述权重计算模块，具体包括：

权重计算子模块，用于利用公式W_n＝-(β₁logP_l+β₂logP_r+β₃logP_g)，计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种非编码RNA调控疾病风险靶通路的识别方法及系统，所述识别方法，基于lncRNA表达谱、lncRNA-蛋白编码基因的关联互作网络，结合通路中基因在疾病中的表达失调程度，考虑通路中基因与表达失调lncRNA关联、基因的表达失调程度、通路的拓扑结构等多方面因素。能够精细识别了不同疾病类型中lncRNA调控的风险通路区域。实现系统识别复杂疾病中lncRNA调控影响的风险靶通路，能够揭示lncRNA在疾病中的调控作用及功能，从非编码RNA调控的角度为复杂疾病的致病机制研究提供了新的参考。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种非编码RNA调控疾病风险靶通路的识别方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对发明作进一步详细的说明。

本发明考虑到lncRNA的表达失调改变会影响肿瘤相关基因、蛋白的表达，导致重要的疾病相关生物学过程和通路功能的失调，从而导致疾病的发生和发展。本专利中基于lncRNA-蛋白编码基因的关联互作网络，结合通路中基因在疾病中的表达，识别出受lncRNA表达失调影响的通路中蛋白编码基因。然后，开发算法考虑lncRNA与通路中基因的表达失调、通路的拓扑结构，在生物学通路中定位出疾病中lncRNA调控影响的风险靶通路区域。

并使用Html、JavaScript等语言，利用Eclipse平台作为前端的代码编写与实现工具，Boostrap作为前端框架，MySQL数据库平台作为后端存储数据库，Rserve作为后端数据分析工具。Web引擎使用JSP技术，Struts2框架、Java连接池Proxool技术以及R语言实现，并使用Apache Tomcat的Web服务器开发网络平台。网络平台主要提供对于多种不同人类癌症类型中lncRNA调控风险通路关联关系的查询、通路图结构的可视化及数据下载等。

如图1所示，本发明提供一种非编码RNA调控疾病风险靶通路的识别方法，所述识别方法包括如下步骤：

步骤101，从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据。

在TCGA、GEO等数据资源中获取疾病相关的lncRNA及蛋白编码基因表达数据。通过基因组位置映射、区间长度标准化、数据标准化预处理等，获得lncRNA和蛋白编码基因的高通量表达谱。整合众多不同研究来源的lncRNA及蛋白编码基因相关分子关联数据，主要来源为现有公共数据库，构建一个综合的lncRNA调控蛋白编码基因数据集，将其作为本专利中开发方法所使用的lncRNA-蛋白编码基因关联的主要数据来源。整合生物学通路数据，重构生物学通路拓扑结构，将其作为本专利的生物学通路数据来源。

其中，lncRNA、蛋白编码基因表达数据来源：TCGA、GEO数据库；lncRNA-蛋白编码基因间关联关系及蛋白质互作数据来源：LncACTdb、HPRD等数据库；生物学通路数据来源：KEGG等包含实验证实生物学通路数据库。

步骤102，利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA，作为失调非编码RNA。

步骤102所述利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA，作为失调非编码RNA，具体包括：从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据；对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化、数据标准化处理，获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱；利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别，计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性；选取显著性小于显著性阈值的位置非编码RNA，作为失调非编码RNA。

具体的，利用疾病高通量转录谱(即疾病lncRNA高通量表达谱)，利用DEGSeq方法识别疾病样本与正常样本比较条件下显著差异表达的lncRNA(结果的校正后显著性P值小于0.01)为表达失调的lncRNA。

步骤103，利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据，确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。

步骤103所述利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据，确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因，具体包括：根据蛋白编码基因的相关分子关联数据，构建非编码RNA-蛋白质编码基因的关联互作网络；根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。

步骤104，利用皮尔森相关性评估算法，从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因，作为调控关联蛋白质编码基因。

步骤104所述利用皮尔森相关性评估算法，从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因，作为调控关联蛋白质编码基因，具体包括：利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r；其中，n为疾病样本数目，X_i为蛋白编码基因X在第i个疾病样本中的表达值，X_u为蛋白编码基因X在n个疾病样本中的表达值的均值，Y_i为失调非编码RNAY在样本i中的表达值，Y_u为失调非编码RNAY在N个疾病样本中的表达值的均值；基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值；选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因，作为失调非编码RNA关联的蛋白质编码基因。

具体的，将某一失调的lncRNA映射到lncRNA-蛋白编码基因关联关系网络上，获得该lncRNA调控关联的候选蛋白编码基因。进一步，利用皮尔森相关性评估疾病状态下失调lncRNA与蛋白编码基因的关联关系；

对于一对lncRNA与蛋白编码基因候选的调控关联关系，其在疾病状态下的皮尔森相关系数计算如下：

其中，n为疾病的样本数目，X_i为蛋白编码基因X在样本i中的表达值，X_u为基因X在疾病样本中的表达均值，Y_i为lncRNAY在样本i中的表达值，Y_u为lncRNAY在疾病样本中的表达均值。

如果lncRNA与蛋白编码基因间的相关系数r值的绝对值大于0.1，并且基于t检验计算的相关性显著性P值小于0.05则认为在疾病状态下该lncRNA-蛋白编码基因间存在调控关联关系。

步骤105，计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重。

步骤105所述计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重，具体包括：利用公式W_n＝-(β₁logP_l+β₂logP_r+β₃logP_g)，计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重；其中，P_l，P_g和P_r分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值；β₁、β₂和β₃分别为P_l，P_g和P_r的权重系数，β₁＝β₂＝β₃＝1。

具体的，综合考虑lncRNA的表达失调程度，lncRNA失调影响基因在疾病状态下的失调程度以及通路中基因间关联互作的拓扑结构等因素，在通路中挖掘疾病中lncRNA调控的候选风险靶通路区域。首先，对于特定失调的lncRNA与其调控影响的通路中蛋白编码基因(基于第二步中识别的lncRNA-蛋白编码基因间调控关联获得)，将lncRNA及基因在疾病状态下的失调程度进行融合，获得通路中lncRNA调控影响基因的权重。具体lncRNA调控的每个蛋白编码基因的融合权重计算方法如下：

W_n＝-(β₁logP_l+β₂logP_r+β₃logP_g)

其中，P_l，P_g和P_r分别代表当前lncRNA的差异表达显著性P值、蛋白编码基因的差异表达显著性P值和这对lncRNA-蛋白编码基因间调控相关性的显著性P值；β₁＝β₂＝β₃＝1。

步骤106，以调控关联蛋白质编码基因为种子节点，以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入，采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分。

具体的，在基于蛋白质互作数据得到的蛋白编码基因互作网络上，利用随机游走算法对网络上所有蛋白编码基因进行打分。以当前lncRNA调控蛋白编码基因为种子节点、以融合权重为起始权重值做为算法的输入，获得网络上每个蛋白编码基因的打分。

步骤107，根据每个蛋白质编码基因的分数，采用网络识别算法，确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域。

具体的，在通路中基于基因的打分、通路间基因的互作拓扑连接等结合现有网络模块识别算法，挖掘疾病中某一表达失调lncRNA调控的候选风险靶通路区域。

步骤108，采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路。

具体的，评估挖掘出的疾病中lncRNA调控候选风险靶通路区域的显著性。利用超几何检验方法计算每个lncRNA调控候选风险靶通路区域中注释疾病状态下表达失调蛋白编码基因的显著性P值，对于显著性P值小于0.05的候选风险靶通路区域则识别为该lncRNA调控的疾病风险靶通路。

本发明基于现有常规技术构建数据库平台。本发明利用Html、JavaScript等语言，利用Eclipse平台作为前端的代码编写与实现工具，Boostrap作为前端框架，MySQL数据库平台作为后端存储数据库，Rserve作为后端数据分析工具。Web引擎使用JSP技术，Struts2框架、Java连接池Proxool技术以及R语言实现，并使用Apache Tomcat的Web服务器开发网络平台。

具体的，本发明还提供一种非编码RNA调控疾病风险靶通路的识别系统，所述识别系统包括：

数据获取模块，用于从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据。

失调非编码RNA确定模块，用于利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA，作为失调非编码RNA。

所述失调非编码RNA确定模块，具体包括：样本获取子模块，用于从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据；数据处理子模块，用于对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化、数据标准化处理，获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱；显著性计算子模块，用于利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别，计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性；失调非编码RNA确定子模块，用于选取显著性小于显著性阈值的位置非编码RNA，作为失调非编码RNA。

候选蛋白质编码基因确定模块，用于利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据，确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。

所述候选蛋白质编码基因确定模块，具体包括：关联互作网络构建子模块，用于根据蛋白编码基因的相关分子关联数据，构建非编码RNA-蛋白质编码基因的关联互作网络；候选蛋白质编码基因确定子模块，用于根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。

调控关联蛋白质编码基因确定模块，用于利用皮尔森相关性评估算法，从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因，作为调控关联蛋白质编码基因。

所述调控关联蛋白质编码基因确定模块，具体包括：皮尔森相关系数计算子模块，用于利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r；其中，n为疾病样本数目，X_i为蛋白编码基因X在第i个疾病样本中的表达值，X_u为蛋白编码基因X在n个疾病样本中的表达值的均值，Y_i为失调非编码RNAY在样本i中的表达值，Y_u为失调非编码RNAY在N个疾病样本中的表达值的均值；相关性显著性P值计算子模块，用于基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值；调控关联蛋白质编码基因确定子模块，用于选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因，作为失调非编码RNA关联的蛋白质编码基因。

权重计算模块，用于计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重。

所述权重计算模块，具体包括：权重计算子模块，用于利用公式W_n＝-(β₁logP_l+β₂logP_r+β₃logP_g)，计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重；其中，P_l，P_g和P_r分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值；β₁、β₂和β₃分别为P_l，P_g和P_r的权重系数，β₁＝β₂＝β₃＝1。

打分模块，用于以调控关联蛋白质编码基因为种子节点，以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入，采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分。

候选风险靶通路区域确定模块，用于根据每个蛋白质编码基因的分数，采用网络识别算法，确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域。

本发明中提供一种基于高通量转录谱识别lncRNA调控疾病风险靶通路的方法、识别多种癌症类型中lncRNA调控的风险通路区域、同时开发数据库平台提供灵活的查询和便捷的结果获取，对于研究lncRNA在疾病中的功能，解析疾病中复杂的调控机制、揭示疾病的致病机理研究提供有力的方法支撑，同时为实验室验证提供了相关候选数据，具有重要的方向性指导作用。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种非编码RNA调控疾病风险靶通路的识别方法，其特征在于，所述识别方法包括如下步骤：

采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路；

所述利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA，作为失调非编码RNA，具体包括：

对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化和数据标准化处理，获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱；

选取显著性小于显著性阈值的位置非编码RNA，作为失调非编码RNA；

所述利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据，确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因，具体包括：

根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因；

所述利用皮尔森相关性评估算法，从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因，作为调控关联蛋白质编码基因，具体包括：

其中，n为疾病样本数目，X_i为蛋白编码基因X在第i个疾病样本中的表达值，X_u为蛋白编码基因X在n个疾病样本中的表达值的均值，Y_i为失调非编码RNA Y在样本i中的表达值，Y_u为失调非编码RNA Y在N个疾病样本中的表达值的均值；

2.根据权利要求1所述的非编码RNA调控疾病风险靶通路的识别方法，其特征在于，所述计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重，具体包括：

3.一种非编码RNA调控疾病风险靶通路的识别系统，其特征在于，所述识别系统包括：

风险靶通路选取模块，用于采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路；

所述失调非编码RNA确定模块，具体包括：

失调非编码RNA确定子模块，用于选取显著性小于显著性阈值的位置非编码RNA，作为失调非编码RNA；

所述候选蛋白质编码基因确定模块，具体包括：

候选蛋白质编码基因确定子模块，用于根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因；

所述调控关联蛋白质编码基因确定模块，具体包括：

4.根据权利要求3所述的非编码RNA调控疾病风险靶通路的识别系统，其特征在于，所述权重计算模块，具体包括：