CN112908405B

CN112908405B - 肿瘤基因共表达网络构建方法、装置、设备和存储介质

Info

Publication number: CN112908405B
Application number: CN202110113106.2A
Authority: CN
Inventors: 徐磊; 王彦苏; 邹权
Original assignee: Shenzhen Polytechnic; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Shenzhen Polytechnic; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-05-17
Anticipated expiration: 2041-01-27
Also published as: CN112908405A

Abstract

本申请提供了一种肿瘤基因共表达网络构建方法、装置、设备和存储介质。所述方法包括：获取目标人体系统中的多种组织癌变转录组测序数据和所述多种组织的正常转录组测序数据；所述目标人体系统是人体解剖学八大人体系统中的任一人体系统；根据基因和转录本的关系，以及正常转录组测序数据中基因表达量呈现均一化的RNA，提取出多种组织的癌变转录组测序数据中存在差异的mRNA、lncRNA和miRNA；对所述多种组织的癌变差异mRNA、lncRNA和miRNA进行GO分析，得到融合为一个目标表达矩阵；对所述目标表达矩阵进行WGCNA分析，根据性状构建表达模块，取相关性最高的模块进行网络的构建。能够实现对多种癌症的网络构建。

Description

肿瘤基因共表达网络构建方法、装置、设备和存储介质

技术领域

本申请涉及生物信息技术领域，特别是涉及一种肿瘤基因共表达网络构建方法、装置、设备和存储介质。

背景技术

癌症是一种由遗传或表观遗传发生癌变而引起的疾病，具体地是由于原癌基因和抑癌基因的突变，正常细胞的生长和分裂失控而变成癌细胞，进而在病理上表现出癌症相关的症状。人类早期对癌症的研究方法是将癌细胞的基因和/或基因组区域以及癌细胞的蛋白质与健康细胞的基因和/或基因组区域以及癌细胞的蛋白质进行比对分析，从而寻找癌症的发病机理和治疗方法。这种早期的研究方法虽然能够筛选出可靠的癌症标志物，但是在实验过程中，会耗费巨大的时间和财力，显得传统而单一。

随着基因测序技术的进步，积累了大量的基因数据，又得益于数学学科的发展，提出了新的用于癌症研究分析的算法和/或模型，使得各种组学数据易于独立分析或联合分析，使得癌症标志物预测变得可行，为癌症的研究和/或治疗提供了更进一步地理论支持。

在相关技术中，在利用相应的算法和/或模型对癌症标志物进行预测时，通常是一种算法和/或模型只能对一种癌症的网络构建进行简单预测，不能实现对多种癌症的网络数据挖掘。

发明内容

本申请提供一种肿瘤基因共表达网络构建方法、装置、设备和存储介质，能够实现对多种癌症的网络数据的挖掘。

本申请实施例第一方面提供了一种肿瘤基因共表达网络构建方法包括：

获取目标人体系统中的多种组织癌变转录组测序数据和所述多种组织的正常转录组测序数据；所述目标人体系统是人体解剖学八大人体系统中的任一人体系统；

根据基因和转录本的关系，计算转录组测序数据的基因表达量；

根据转录组测序数据的测序编号，对转录组测序数据中的基因进行基因转换；

对完成基因转换后的转录组测序数据进行基因注释，并提取所有RNA的基因表达量；

根据所述基因注释的结果和提取出的所有RNA的基因表达量的结果，进行RNA类型分离；

根据正常转录组测序数据中基因表达量呈现均一化的RNA，提取出多种组织的癌变转录组测序数据中存在差异的mRNA、lncRNA和miRNA；

对所述多种组织的癌变差异mRNA、lncRNA和miRNA进行GO分析，得到所述多种组织的癌变差异mRNA、lncRNA和miRNA的表达矩阵；

将所述多种组织的癌变差异mRNA、lncRNA和miRNA的表达矩阵融合为一个目标表达矩阵；

对所述目标表达矩阵进行WGCNA分析，根据性状构建表达模块，取相关性最高的模块进行网络的构建。

可选地，还包括：

对构建的所述网络进行可视化分析，并对所述网络的自网络和肿瘤标志物进行挖掘。

可选地，根据基因和转录本的关系，计算转录组测序数据的基因表达量，包括：

对转录组测序数据的序列进行质量检测，判断序列质量是否合格；

当所述序列质量合格，则根据基因和转录本的关系，计算转录组测序数据的基因表达量。

基于基因对应的转录本和基因参考序列，将转录组测序数据中的序列比对到参考基因组上；

将比对到基因上的序列组装成转录本；

对组装成转录本的转录组测序数据进行表达量计算，获得转录组测序数据的基因表达量。

可选地，对所述目标表达矩阵进行WGCNA分析，根据性状构建表达模块，取相关性最高的模块进行网络的构建，包括：

对所述目标表达矩阵进行离群样本和空值剔除，以癌症的种类为性状，筛选合适的β值构建表达模块，筛选并采用相关度最高模块构建表达网络。

可选地，根据转录组测序数据的测序编号，对转录组测序数据中的基因进行基因转换，包括：

将转录组测序数据中的ensemble ID转换成Entrez ID,gene symbol和genename，并生成GTF格式的转录组测序数据。

可选地，转录组测序数据包括标准数据库中的公开数据和用户自测数据中的至少一种。

本申请实施例第二方面提供一种肿瘤基因共表达网络构建装置，包括：

获取模块，用于获取目标人体系统中的多种组织癌变转录组测序数据和所述多种组织的正常转录组测序数据；所述目标人体系统是人体解剖学八大人体系统中的任一人体系统；

计算模块，用于根据基因和转录本的关系，计算转录组测序数据的基因表达量；

转换模块，用于根据转录组测序数据的测序编号，对转录组测序数据中的基因进行基因转换；

注释模块，用于对完成基因转换后的转录组测序数据进行基因注释，并提取所有RNA的基因表达量；

分离模块，用于根据所述基因注释的结果和提取出的所有RNA的基因表达量的结果，进行RNA类型分离；

提取模块，用于根据正常转录组测序数据中基因表达量呈现均一化的RNA，提取出多种组织的癌变转录组测序数据中存在差异的mRNA、lncRNA和miRNA；

GO分析模块，用于对所述多种组织的癌变差异mRNA、lncRNA和miRNA进行GO分析，得到所述多种组织的癌变差异mRNA、lncRNA和miRNA的表达矩阵；

融合模块，用于将所述多种组织的癌变差异mRNA、lncRNA和miRNA的表达矩阵融合为一个目标表达矩阵；

构建模块，用于对所述目标表达矩阵进行WGCNA分析，根据性状构建表达模块，取相关性最高的模块进行网络的构建。

本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

采用本申请实施例提供的肿瘤基因共表达网络构建方法，本发明中对于多种癌症标志物的筛选，通过WGCNA算法对一种人体系统多种癌症进行分析，不仅可以预测多种癌症的统一标志物，还有利于以后对药物的开发工作。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的肿瘤基因共表达网络构建方法的流程图；

图2为本申请实施例提供的肿瘤基因共表达网络构建方法的另一流程图；

图3为本申请实施例提供的肿瘤基因共表达网络构建方法中的表达矩阵；

图4为本申请实施例提供的肿瘤基因共表达网络构建方法中RNA类型分离的结果；

图5为本申请实施例提供的肿瘤基因共表达网络构建方法差中异基因的筛选示意图；

图6为本申请实施例提供的肿瘤基因共表达网络构建方法中差异基因的GO富集示意图；

图7为本申请实施例提供的肿瘤基因共表达网络构建方法中实施例1中WGCNA分析的模块结果；

图8为本申请实施例提供的肿瘤基因共表达网络构建方法中共表达网络的结果；

图9为本申请实施例提供的肿瘤基因共表达网络构建方法中共表达网络的关键基因和网络的挖掘结果；

图10为本申请实施例提供的肿瘤基因共表达网络构建装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1和图2，示出了本申请一种肿瘤基因共表达网络构建方法的流程图。如图1所示，该方法包括以下步骤：

S101，获取目标人体系统中的多种组织癌变转录组测序数据和所述多种组织的正常转录组测序数据；所述目标人体系统是人体解剖学八大人体系统中的任一人体系统。

从解剖学的角度讲，人体共有八大系统：运动系统、神经系统、内分泌系统、循环系统、呼吸系统、消化系统、泌尿系统、生殖系统。这些系统协调配合，使人体内各种复杂的生命活动能够正常进行。而同一人体系统中的各种器官在癌变上存在一定的关联性，其中某些基因呈现出共表达的特征。

示例性地，消化系统中的食道癌，胃癌，直肠癌，结肠癌，乙状结肠癌的致癌基因在基因表达上存在一定的共表达特征。因此，可以同时获取这些组织/器官肿瘤的转录组测序数据以及这些组织/器官的正常转录组测序数据。

转录组测序数据包括标准数据库中的公开数据和/或用户自测数据中的至少一种。标准数据库例如是如TCGA数据库，可以直接获取该数据库中公开的level 3数据作为转录组测序数据。用户自测数据是用户自行测序所得到的原始测序数据。

应当说明的是，转录组测序数据至少包括mRNA，lncRNA和miRNA三种类型的测序数据，若只有mRNA转录测序数据是不可用的。

还应当说明的是，若转录组测序数据中包括了用户自测数据，需要对转录组测序数据的序列进行质量检测，判断序列质量是否合格；当所述序列质量合格，才能继续执行步骤S102。若判断序列质量不合格，则对序列进行修改，直至序列质量合格后，再继续执行步骤S102。

S102，根据基因和转录本的关系，计算转录组测序数据的基因表达量。

对序列质量合格的转录组测序数据进行基因表达量计算。具体如下：

S1021，基于基因对应的转录本和基因参考序列，将转录组测序数据中的序列比对到参考基因组上。

基于基因对应转录本，采用ensembl数据库中的基因组参考序列，利用HISAT2将序列比对到参考基因组上。

S1022，将比对到基因上的序列组装成转录本。

利用StringTie软件比对到基因组上的序列组装成转录本，并保存成gtf格式。

S1023，对组装成转录本的转录组测序数据进行表达量计算，获得转录组测序数据的基因表达量。

GTF格式文本采用StringTie进行基因的表达量数据计算，获得基因的表达量矩阵。

需要说明的是，从TCGA数据库中提取的level 3数据不需要表达量计算，只需要将每个样本的表达量数据合并到一个表达矩阵即可，如图3所示。

S103，根据转录组测序数据的测序编号，对转录组测序数据中的基因进行基因转换。

将转录组测序数据中的ensemble ID转换成Entrez ID,gene symbol和genename，并生成GTF格式的转录组测序数据。主要是完成对ensemble ID的转换，新增的ID内容包括：Entrez ID,gene symbol和gene name。

S104，对完成基因转换后的转录组测序数据进行基因注释，并提取所有RNA的基因表达量。

根据gtf格式的转录本文件将测序数据的RNA-Seq数据集进行注释并提取各种RNA的表达量数据。

S105，根据所述基因注释的结果和提取出的所有RNA的基因表达量的结果，进行RNA类型分离。

文件注释的测序数据根据gene_biotype记录了RNA的类型对数据集进行分离，形成mRNA，lncRNA和miRNA的表达矩阵，用户测序数据和TCGA数据库中数据都需要进行RNA类型分离，如图4所示。

S106，根据正常转录组测序数据中基因表达量呈现均一化的RNA，提取出多种组织的癌变转录组测序数据中存在差异的mRNA、lncRNA和miRNA；

用户测序数据根据基因的表达采用DESeq2软件对转录本进行差异分析，TCGA数据库中数据采用edgeR软件对转录本进行差异分析，最终形成火山图，如图5所示。

S107，对所述多种组织的癌变差异mRNA、lncRNA和miRNA进行GO分析，得到所述多种组织的癌变差异mRNA、lncRNA和miRNA的表达矩阵。

采用GOplot软件包将筛选差异mRNA进行GO分析，得到GO富集，如图6所示。

S108，将所述多种组织的癌变差异mRNA、lncRNA和miRNA的表达矩阵融合为一个目标表达矩阵。

示例性地，将上述消化系统的5种癌症的差异mRNA，lncRNA和miRNA表达矩阵根据基因ID合并作为一个表达矩阵。

S109，对所述目标表达矩阵进行WGCNA分析，根据性状构建表达模块，取相关性最高的模块进行网络的构建。

对所述目标表达矩阵进行离群样本和空值剔除，以癌症的种类为性状，筛选合适的β值构建表达模块，如图7所示，筛选并采用相关度最高模块构建表达网络，如图8所示。

在步骤S109之后，还包括：

S110，对构建的所述网络进行可视化分析，并对所述网络的自网络和肿瘤标志物进行挖掘。

构建的网络采用cytoscape软件进行可视化分析并对子网络和关键基因进行挖掘，如图9所示。

采用了上述技术方案，本发明的有益效果是：本发明中对于多种癌症标志物的筛选，通过WGCNA算法对消化系统多种癌症进行分析，不仅可以预测多种癌症的统一标志物，还有利于以后对药物的开发工作；本发明为癌症标志物的预测方法，不仅可以对其他用户自测数据进行标志物筛选，也可以对其他类型相关的多种癌症进行癌症标志物的预测；本发明通过对多种癌症的共表达网络进行构建，并且对该网络进行数据挖掘，获得更为准确的癌症标志物的的预测方法，为后续的药物筛选提供较为准确的资料信息。

基于同一发明构思，本申请一实施例提供一种肿瘤基因共表达网络构建装置。参考图10，图10是本申请一实施例提供的肿瘤基因共表达网络构建装置的示意图。如图10所示，该装置包括：

获取模块1011，用于获取目标人体系统中的多种组织癌变转录组测序数据和所述多种组织的正常转录组测序数据；所述目标人体系统是人体解剖学八大人体系统中的任一人体系统；

计算模块1012，用于根据基因和转录本的关系，计算转录组测序数据的基因表达量；

转换模块1013，用于根据转录组测序数据的测序编号，对转录组测序数据中的基因进行基因转换；

注释模块1014，用于对完成基因转换后的转录组测序数据进行基因注释，并提取所有RNA的基因表达量；

分离模块1015，用于根据所述基因注释的结果和提取出的所有RNA的基因表达量的结果，进行RNA类型分离；

提取模块1016，用于根据正常转录组测序数据中基因表达量呈现均一化的RNA，提取出多种组织的癌变转录组测序数据中存在差异的mRNA、lncRNA和miRNA；

GO分析模块1017，用于对所述多种组织的癌变差异mRNA、lncRNA和miRNA进行GO分析，得到所述多种组织的癌变差异mRNA、lncRNA和miRNA的表达矩阵；

融合模块1018，用于将所述多种组织的癌变差异mRNA、lncRNA和miRNA的表达矩阵融合为一个目标表达矩阵；

构建模块1019，用于对所述目标表达矩阵进行WGCNA分析，根据性状构建表达模块，取相关性最高的模块进行网络的构建。

可选地，还包括：

挖掘模块，用于对构建的所述网络进行可视化分析，并对所述网络的自网络和肿瘤标志物进行挖掘。

可选地，计算模块，包括：

检测模块，用于对转录组测序数据的序列进行质量检测，判断序列质量是否合格；

计算子模块，用于当所述序列质量合格，则根据基因和转录本的关系，计算转录组测序数据的基因表达量。

可选地，计算模块，包括：

比对模块，用于基于基因对应的转录本和基因参考序列，将转录组测序数据中的序列比对到参考基因组上；

组装模块，用于将比对到基因上的序列组装成转录本；

计算单元，用于对组装成转录本的转录组测序数据进行表达量计算，获得转录组测序数据的基因表达量。

可选地，构建模块，包括：

构建子模块，用于对所述目标表达矩阵进行离群样本和空值剔除，以癌症的种类为性状，筛选合适的β值构建表达模块，筛选并采用相关度最高模块构建表达网络。

可选地，基因转换模块，包括：

转换子模块，用于将转录组测序数据中的ensemble ID转换成Entrez ID,genesymbol和gene name，并生成GTF格式的转录组测序数据。

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种肿瘤基因共表达网络构建方法、装置、设备和存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种肿瘤基因共表达网络构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，根据基因和转录本的关系，计算转录组测序数据的基因表达量，包括：

4.根据权利要求2所述的方法，其特征在于，根据基因和转录本的关系，计算转录组测序数据的基因表达量，包括：

将比对到基因上的序列组装成转录本；

5.根据权利要求1所述的方法，其特征在于，对所述目标表达矩阵进行WGCNA分析，根据性状构建表达模块，取相关性最高的模块进行网络的构建，包括：

6.根据权利要求1所述的方法，其特征在于，根据转录组测序数据的测序编号，对转录组测序数据中的基因进行基因转换，包括：

7.根据权利要求1所述的方法，其特征在于，转录组测序数据包括标准数据库中的公开数据和用户自测数据中的至少一种。

8.一种肿瘤基因共表达网络构建装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-7任一所述的方法的步骤。