CN116453594A

CN116453594A - 基因共表达状态的量化分析方法及装置、设备和介质

Info

Publication number: CN116453594A
Application number: CN202310707491.2A
Authority: CN
Inventors: 魏兰颖; 张应生; 濮梦辰; 辛玉翠
Original assignee: Beijing Wangshi Intelligent Technology Co ltd
Current assignee: Beijing Wangshi Intelligent Technology Co ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-07-18
Anticipated expiration: 2043-06-15
Also published as: CN116453594B

Abstract

本发明公开了一种基因共表达状态的量化分析方法及装置、设备和介质。该方法包括：构建实验组与对照组之间的全局差异共表达网络；该实验组对应的基因共表达状态为第一状态、对照组对应的基因共表达状态为第二状态；基于该全局差异共表达网络确定出高度重构基因；根据高度重构基因和研究信息构建差异共表达子网络，基于该差异共表达子网络确定出目标样本的基因共表达状态得分，其中，差异共表达子网络中各节点对应的基因与研究信息包含的目标生物途经相关，基因共表达状态得分用于指示目标样本的基因共表达状态与第一状态或第二状态的相似程度。本发明能够实现在个体层面上对单个样本的基因共表达状态的定量分析。

Description

基因共表达状态的量化分析方法及装置、设备和介质

技术领域

本发明涉及数据分析技术领域，具体涉及基因共表达状态的量化分析方法及装置、设备和介质。

背景技术

基因共表达是指一对基因在不同状态下的表达水平呈强相关，无论是正相关还是负相关。这些共表达基因通常参与同一个生物功能或在相关的生物途径中发挥作用，它们的协调表达可以使整个生物途径顺利进行。基因共表达网络是以基因为节点，共表达状态的基因之间连边形成的网络。相比于健康状态，细胞在疾病状态下的生物功能会发生损伤或变化，从而会导致基因共表达网络产生变化。对不同状态下的基因共表达网络的差异进行分析的方法称为差异共表达（Differential Co-expression，DC）网络分析。该分析方法首先分别构建细胞在两种状态下的基因共表达网络，并比较这些网络在不同状态下的差异，从而揭示疾病过程中重要的表达与基因调控层面的变化。

然而，当前通过差异共表达网络分析方法对基因共表达网络进行分析时，通常需要几十到上百个细胞样本才能准确测定不同状态下基因共表达网络之间的差异。因此，其只能用于衡量基因共表达网络在两种状态间的平均变化，而不能对单个细胞样本的基因共表达网络的差异程度进行定量分析。这一缺陷限制了DC网络分析在精准医疗领域的应用，因为精准医疗需要根据单个患者的具体特征进行针对性治疗。因此，当前亟需一种在个体层面上对基因共表达状态进行定量分析的方法。

发明内容

有鉴于此，本发明实施例提供了一种基因共表达状态的量化分析方法及装置、计算机设备和计算机可读存储介质，以解决当前不能在个体层面上对基因共表达状态进行定量分析的问题。

根据第一方面，本发明实施例提供了一种基因共表达状态的量化分析方法，该方法包括：构建实验组与对照组之间的全局差异共表达网络；所述实验组对应的基因共表达状态为第一状态、所述对照组对应的基因共表达状态为第二状态；基于所述全局差异共表达网络确定出高度重构基因，其中，所述高度重构基因是指相比于特定状态下与其他基因的基因共表达关系而言，当前与其他基因的基因共表达关系发生变化的基因；根据所述高度重构基因和研究信息构建差异共表达子网络，所述差异共表达子网络中各节点对应的基因与所述研究信息包含的目标生物途经相关；基于所述差异共表达子网络确定出目标样本的基因共表达状态得分，所述基因共表达状态得分用于指示所述目标样本的基因共表达状态与所述第一状态或所述第二状态的相似程度。

在一些实施例中，所述构建实验组与对照组之间的全局差异共表达网络，包括：确定所述实验组中各基因对的第一斯皮尔曼相关系数和所述对照组中各基因对的第二斯皮尔曼相关系数；对所述第一斯皮尔曼相关系数进行费雪变换，获得第一变换结果；对所述第二斯皮尔曼相关系数进行费雪变换，获得第二变换结果；基于所述第一变换结果和所述第二变换结果进行Z检验，获得所述全局差异共表达网络，其中，所述全局差异共表达网络通过Z分数矩阵进行表示。

在一些实施例中，所述基于所述全局差异共表达网络确定出高度重构基因，包括：确定所述全局差异共表达网络中各节点的特征向量中心度；基于所述特征向量中心度对各所述节点对应的基因进行排序，并将排序在预设序号之前的基因确定为所述高度重构基因。

在一些实施例中，所述根据所述高度重构基因和研究信息构建差异共表达子网络，包括：对所述高度重构基因进行基因富集分析，获得基因富集结果；通过所述基因富集结果确定出与所述研究信息中包含的目标生物途经相关的基因集；将所述基因集中的各基因作为节点，以及将所述基因集中的差异共表达基因对之间连边，以构建所述差异共表达子网络，其中，所述差异共表达基因对是指所述Z分数矩阵中对应元素值的绝对值大于预设阈值的基因对。

在一些实施例中，所述基于所述差异共表达子网络确定出目标样本的基因共表达状态得分，包括：确定所述目标样本在所述实验组中的第一统计量以及在所述对照组中的第二统计量；其中，所述目标样本是所述差异共表达子网络中的差异共表达基因对所对应的基因表达数据；基于所述第二统计量与所述第一统计量的差值确定相似性参数，并基于所述相似性参数的加权平均值确定所述目标样本的基因共表达状态得分。

在一些实施例中，所述确定所述目标样本在所述实验组中的第一统计量以及在所述对照组中的第二统计量，包括：将所述目标样本添加至所述实验组对应的第一基因表达值散点图中，并基于所述第一基因表达值散点图中所述目标样本对应的预定范围内的第一样本数量确定所述第一统计量；将所述目标样本添加至所述对照组对应的第二基因表达值散点图中，并基于所述第二基因表达值散点图中所述目标样本对应的预定范围内的第二样本数量确定所述第二统计量。

在一些实施例中，在所述基于所述差异共表达子网络确定出目标样本的基因共表达状态得分之后，还包括：确定所述基因共表达状态得分对应的得分等级；基于所述得分等级确定针对所述目标样本对应的目标对象的治疗策略。

根据第二方面，本发明实施例提供了一种基因共表达状态的量化分析装置，该装置包括：全局网络构建模块，用于构建实验组与对照组之间的全局差异共表达网络；所述实验组对应的基因共表达状态为第一状态、所述对照组对应的基因共表达状态为第二状态；基因确定模块，用于基于所述全局差异共表达网络确定出高度重构基因，其中，所述高度重构基因是指相比于特定状态下与其他基因的基因共表达关系而言，当前与其他基因的基因共表达关系发生变化的基因；子网络构建模块，用于根据所述高度重构基因和研究信息构建差异共表达子网络，所述差异共表达子网络中各节点对应的基因与所述研究信息包含的目标生物途经相关；得分确定模块，用于基于所述差异共表达子网络确定出目标样本的基因共表达状态得分，所述基因共表达状态得分用于指示所述目标样本的基因共表达状态与所述第一状态或所述第二状态的相似程度。

根据第三方面，本发明实施例提供了一种计算机设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如上述第一方面提供的基因共表达状态的量化分析方法的步骤。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面提供的基因共表达状态的量化分析方法的步骤。

本发明技术方案，具有如下优点。

本发明提供一种基因共表达状态的量化分析方法及装置、设备和介质，该方法包括：首先构建实验组与对照组之间的全局差异共表达网络；该实验组对应的基因共表达状态为第一状态、对照组对应的基因共表达状态为第二状态；然后基于该全局差异共表达网络确定出高度重构基因，其中，高度重构基因是指相比于特定状态下与其他基因的基因共表达关系而言，当前与其他基因的基因共表达关系发生变化的基因；最后根据高度重构基因和研究信息构建差异共表达子网络，基于该差异共表达子网络确定出目标样本的基因共表达状态得分，实现了对目标样本的基因共表达状态的量化分析，其中，差异共表达子网络中各节点对应的基因与研究信息包含的目标生物途经相关，基因共表达状态得分用于指示目标样本的基因共表达状态与第一状态或第二状态的相似程度，实现了在个体层面上对单个样本的基因共表达状态的定量分析。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基因共表达状态的量化分析方法的流程图。

图2为本发明实施例提供的一种构建全局差异共表达网络的方法的流程图。

图3为本发明实施例提供确定高度重构基因的方法的流程图。

图4为本发明实施例提供的一种构建差异共表达子网络的方法的流程图。

图5为本发明实施例提供的一种确定基因共表达状态得分的方法的流程图。

图6a为本发明实施例提供的一种将目标样本添加至实验组对应的第一基因表达值散点图的示例图。

图6b为本发明实施例提供的一种将目标样本添加至对照组对应的第二基因表达值散点图的示例图。

图7为本发明实施例提供的另一种基因共表达状态的量化分析方法的流程图。

图8为本发明实施例提供的一种乳腺癌患者接受内分泌治疗的生存分析示意图。

图9为本发明实施例提供的一种基因共表达状态的量化分析装置的结构示意图。

图10为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种基因共表达状态的量化分析方法的流程图。如图1所示，该基因共表达状态的量化分析方法包括以下步骤：步骤S1~步骤S4。

步骤S1、构建实验组与对照组之间的全局差异共表达网络。

其中，实验组是指生物标志物显示异常的样本对象的基因表达数据所构成的组，该生物标志物是指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标。对照组是指生物标志物显示正常的样本对象的基因表达数据所构成的组。

该实验组对应的基因共表达状态为第一状态，对照组对应的基因共表达状态为第二状态。

在一些实施例中，第一状态可以是疾病状态，第二状态可以是健康状态。

在另一些实施例中，第一状态可以是阳性状态，第二状态可以是阴性状态。例如，生物标志物为雌激素受体的情况下，该第一状态可以是雌激素受体阳性状态，该实验组包含多个雌激素受体阳性的样本对象的基因表达数据；该第二状态可以是雌激素受体阴性状态，该对照组包含多个雌激素受体阴性的样本对象的基因表达数据。

需要说明的是，实验组对应的基因共表达状态或者对照组对应的基因共表达状态均是基于其组中大多数的样本对象的基因表达数据确定的。因为在实际应用中，测定生物标志物时可能会出现极少量假阳性或极少量假阴性的情况，因此，实验组或对照组中都可能存在极少量的样本对象的基因共表达状态与其所在组别所表征的基因共表达状态不一致。

全局差异共表达网络是指基于实验组的基因共表达状态和对照组的基因共表达状态构建的差异共表达网络，该全局差异共表达网络中节点用于表征基因，边用于表征基因共表达关系的变化。

步骤S2、基于全局差异共表达网络确定出高度重构基因。

其中，高度重构基因是指相比于特定状态下与其他基因的基因共表达关系而言，当前与其他基因的基因共表达关系发生变化的基因，其中，该特定状态指的正常（健康）状态。需要说明的是，该其他基因指的是全局差异共表达网络中除自身外的其他基因，该其他基因的数量一般大于预设基因数量，该预设基因数量可以设置为全局差异共表达网络中一半的基因的数量，即高度重构基因是当前与大多数的其他基因的基因共表达关系发生变化的基因。

相比于健康状态，细胞在疾病状态下的生物功能会发生损伤或变化，从而会导致基因共表达网络产生变化，因此，基于全局差异共表达网络确定出高度重构基因，可以初步筛选出基因共表达关系发生变化的基因。

步骤S3、根据高度重构基因和研究信息构建差异共表达子网络。

其中，研究信息是与研究人员的研究课题相关的信息，该研究信息包含目标生物途经，该目标生物途经是指与该研究课题相对应的细胞代谢信息、基因表达的调控信息以及信号的传递信息中的一种或多种。

差异共表达子网络中各节点对应的基因与研究信息包含的目标生物途经相关。

本实施例中，根据高度重构基因和研究信息构建差异共表达子网络，可以从全局差异共表达网络中提取出与目标生物途经相关的差异共表达子网络，构建出一个生物功能明确的差异共表达子网络。

步骤S4、基于差异共表达子网络确定出目标样本的基因共表达状态得分。

其中，目标样本是单个样本对象的基因表达数据。

基因共表达状态得分用于指示目标样本的基因共表达状态与第一状态或第二状态的相似程度。

在一些实施例中，该目标样本可以是来自实验组中或者对照组中的任意一个样本对象的基因表达数据。

需要说明的是，由于基因共表达状态得分能够指示目标样本的基因共表达状态与第一状态或第二状态的相似程度，因此，根据该基因共表达状态得分同样可以衡量目标样本的差异共表达状态与第一状态或第二状态的差异程度，在个体层面上实现了对单个样本的基因共表达状态的定量分析。

本发明实施例提供一种基因共表达状态的量化分析方法，首先构建实验组与对照组之间的全局差异共表达网络；该实验组对应的基因共表达状态为第一状态、对照组对应的基因共表达状态为第二状态；然后基于该全局差异共表达网络确定出高度重构基因，其中，高度重构基因是指相比于特定状态下与其他基因的基因共表达关系而言，当前与其他基因的基因共表达关系发生变化的基因；最后根据高度重构基因和研究信息构建差异共表达子网络，基于该差异共表达子网络确定出目标样本的基因共表达状态得分，实现了对目标样本的基因共表达状态的量化分析，其中，差异共表达子网络中各节点对应的基因与研究信息包含的目标生物途经相关，基因共表达状态得分用于指示目标样本的基因共表达状态与第一状态或第二状态的相似程度，实现了在个体层面上对单个样本的基因共表达状态的定量分析。

图2为本发明实施例提供的一种构建全局差异共表达网络的方法的流程图。如图2所示，构建实验组与对照组之间的全局差异共表达网络（上述步骤S1），包括以下步骤：步骤S11~步骤S14。

步骤S11、确定实验组中各基因对的第一斯皮尔曼相关系数和对照组中各基因对的第二斯皮尔曼相关系数。

其中，斯皮尔曼相关系数，又称斯皮尔曼秩相关系数，是秩相关系数的一种，其不受离群值影响，适用于非线性数据。斯皮尔曼相关系数是用于评估基因对之间依赖性的非参数指标。

步骤S12、对第一斯皮尔曼相关系数进行费雪变换，获得第一变换结果。

其中，费雪变换是统计学中用于相关系数假设检验的一种方法，本实施例中对第一斯皮尔曼相关系数进行费雪变换的过程可参见现有费雪变换的过程，本实施例中不进行赘述。

步骤S13、对第二斯皮尔曼相关系数进行费雪变换，获得第二变换结果。

其中，对第二斯皮尔曼相关系数进行费雪变换，获得第二变换结果的过程也可以参见现有费雪变换的过程，本实施例中不进行赘述。

步骤S14、基于第一变换结果和第二变换结果进行Z检验，获得全局差异共表达网络。

其中，全局差异共表达网络通过Z分数矩阵进行表示。

本实施例中，Z检验是用标准正态分布的理论来推断差异发生的概率，从而比较实验组（第一变换结果）和对照组（第二变换结果）的差异。

在一些实施例中，在Z检验过程中可以基于第一变换结果和第二变换结果确定Z分数矩阵，并以该Z分数矩阵表示该全局差异共表达网络。该Z检验的过程可参见现有Z检验的过程，本实施例中不进行赘述。

本实施例中，通过构建全局差异共表达网络来分析实验组和对照组之间的差异的方式，与单基因角度的研究方式相比，提供了更加全面的视角，能够有效获取基因之间的调控关系的变化信息。

图3为本发明实施例提供确定高度重构基因的方法的流程图。如图3所示，基于全局差异共表达网络确定出高度重构基因的步骤（上述步骤S2），包括：步骤S21~步骤S22。

步骤S21、确定全局差异共表达网络中各节点的特征向量中心度。

其中，特征向量中心度是用于衡量节点在网络中的影响力的指标。一个节点的特征向量中心度越高，意味着该节点所对应的基因与越多的基因之间存在差异共表达。

在一个实施方式中，可以通过幂迭代法确定全局差异共表达网络中各节点的特征向量中心度。

在另一些实施方式中，也可以通过网络分析软件确定全局差异共表达网络中各节点的特征向量中心度，该网络分析软件例如ucinet（一种社会网络分析工具）。

步骤S22、基于特征向量中心度对各节点对应的基因进行排序，并将排序在预设序号之前的基因确定为高度重构基因。

其中，预设序号可以根据全部基因的数量预先设定，例如，该预设序号可以设定为前100。

本实施例中，由于节点的特征向量中心度越高，意味着该节点所对应的基因与越多的基因之间存在差异共表达，因此，基于特征向量中心度对各节点对应的基因进行排序，并将排序在预设序号之前的基因确定为高度重构基因可以有效确定出高度重构基因。

图4为本发明实施例提供的一种构建差异共表达子网络的方法的流程图。如图4所示，根据高度重构基因和研究信息构建差异共表达子网络的步骤（上述步骤S3），包括：步骤S31~步骤S33。

步骤S31、对高度重构基因进行基因富集分析，获得基因富集结果。

其中，基因富集分析用于确定一组基因中在统计意义上显著涉及的基因功能、代谢路径等。

该基因富集结果包含该高度重构基因中各基因显著涉及的生物途经。

步骤S32、通过基因富集结果确定出与研究信息中包含的目标生物途经相关的基因集。

步骤S33、将基因集中的各基因作为节点，以及将基因集中的差异共表达基因对之间连边，以构建差异共表达子网络。

其中，差异共表达基因对是指Z分数矩阵中对应元素值的绝对值大于预设阈值的基因对。

由于全局差异共表达网络通过Z分数矩阵进行表示，因此，全局差异共表达网络中各节点对应的基因均与Z分数矩阵中一个元素值对应。该基因集中的各基因均来源于全局差异共表达网络各节点对应的基因，因此，该基因集中的各基因也均有对应的元素值。本实施例中定义差异共表达基因对为Z分数矩阵中对应元素值的绝对值大于预设阈值的基因对。

在一些实施例中，该预设阈值可以设置为3。

本实施例中，通过对高度重构基因进行基因富集分析，确定与各生物途经相关的基因集，然后再锁定与研究课题有关的基因集，以此构建一个生物功能明确的差异共表达子网络。

图5为本发明实施例提供的一种确定基因共表达状态得分的方法的流程图。如图5所示，基于差异共表达子网络确定出目标样本的基因共表达状态得分的步骤（上述步骤S4），包括：步骤S41~步骤S42。

步骤S41、确定目标样本在实验组中的第一统计量以及在对照组中的第二统计量。

其中，目标样本是所述差异共表达子网络中的差异共表达基因对所对应的基因表达数据。第一统计量用于衡量目标样本与实验组中的基因对之间的依赖性。第二统计量用于衡量目标样本与对照组中的基因对之间的依赖性。

在一个实施方式中，确定目标样本在实验组中的第一统计量以及在对照组中的第二统计量，包括下述第一步和第二步。

步骤一、将目标样本添加至实验组对应的第一基因表达值散点图中，并基于第一基因表达值散点图中目标样本对应的预定范围内的第一样本数量确定第一统计量。

其中，第一基因表达值散点图是实验组中的基因表达数据构成的散点图。该预定范围是根据目标样本在第一基因表达值散点图中的位置确定的三个方框。方框的一边为该第一基因表达值散点图中基因表达值范围（基因表达最大值与基因表达最小值的差值）的预定百分比，例如百分之20；另一边从该目标样本所在位置向左右或上下两侧延伸形成。该三个方框分别为水平方框、垂直方框，以及该水平方框和垂直方框相交区域形成的方框。

步骤二、将目标样本添加至对照组对应的第二基因表达值散点图中，并基于第二基因表达值散点图中目标样本对应的预定范围内的第二样本数量确定第二统计量。

其中，第二基因表达值散点图是对照组中的基因表达数据构成的散点图。该预定范围是根据目标样本在第二基因表达值散点图中的位置确定的三个方框。方框的一边为该第二基因表达值散点图中基因表达值范围（基因表达最大值与基因表达最小值的差值）的预定百分比，例如百分之20；另一边从该目标样本所在位置向左右或上下两侧延伸形成。该三个方框分别为水平方框、垂直方框，以及该水平方框和垂直方框相交区域形成的方框。

在图6a中，黑色的五角星代表目标样本在第一基因表达值散点图中的位置，每个黑色圆点代表实验组中的一个样本对象的基因表达数据；在图6b中，黑色的五角星代表目标样本在第二基因表达值散点图中的位置，每个黑色圆点代表对照组中的一个样本对象的基因表达数据。在两幅图中，k表示目标样本，x和y表示目标样本中的基因对；Gx表示基因表达值散点图的横轴，Gy表示基因表达值散点图的纵轴；、/>、/>分别表示实验组中水平方框、垂直方框，以及该水平方框和垂直方框相交区域形成的方框中的样本数量；/>、、/>分别表示对照组中水平方框、垂直方框，以及该水平方框和垂直方框相交区域形成的方框中的样本数量；/>表示目标样本在第一基因表达值散点图中以及在第二基因表达值散点图中的横坐标，/>表示目标样本在第一基因表达值散点图中以及在第二基因表达值散点图中的纵坐标，横轴和纵轴的单位均为FPKM：Fragments Per Kilobase oftranscript per Million mapped reads，即每百万个映射读段中每千碱基转录本的片段数。FPKM是一种基因表达水平的标准化方法。它是根据基因长度和映射到蛋白质编码基因的总读数来标准化测序读数的。基因的FPKM值越高，表明该基因的表达水平越高。

需要说明的是，实验组中水平方框、垂直方框，以及该水平方框和垂直方框相交区域形成的方框中的样本数量分别代表基因x的表达水平与实验组中各样本对象的表达水平相近的样本量、基因y 的表达水平与实验组中各样本对象的表达水平相近的样本量、基因x和基因y两者的表达水平与实验组中各样本对象的表达水平相近的样本量。对照组中同理。

在一个实施方式中，第一统计量或第二统计量的确定公式如下述公式1所示。

（公式1）

其中，k表示目标样本，x和y表示目标样本中的基因对； i=1或2，用于表示组别，当i=1时表示实验组，当i=2时表示对照组；为第i组中的全部样本对象的数量；max{}表示取最大值函数；/>，/>，/>分别表示第i组中三个预定范围内的样本数量，该三个预定范围可参见上述图6a和图6b中的说明，此处不再赘述。

步骤S42、基于第二统计量与第一统计量的差值确定相似性参数，并基于该相似性参数的加权平均值确定目标样本的基因共表达状态得分。

在一个实施方式中，基因共表达状态得分的确定公式如下述公式2和公式3所示。

（公式2）

（公式3）

其中，CS(k)是目标样本k的基因共表达状态得分，x和y表示目标样本中的基因对，G² _≥t是差异共表达子网络中的差异共表达基因对的集合。具体来说，G是所研究的差异共表达子网络中的基因构成的集合，G²是G中的基因构成的基因对的集合，G² _≥t是G²的子集，由|z_x,y|≥t的基因对(x, y)组成，z_x,y是(x,y)基因对的Z分数，t是为前述实施例中的预设阈值，该预设阈值可以设置为3，用于过滤掉共表达模式变化不大的基因对。Δ表示相似性参数；表示第二统计量，/>表示第一统计量。

基因共表达状态得分用于指示目标样本的基因共表达状态与第一状态或第二状态的相似程度。在该基因共表达状态得分低于预设得分阈值（通常设置为0）的情况下，说明该目标样本的基因共表达状态与第二状态的相似程度高于与第一状态的相似程度，且基因共表达状态得分越低，基因共表达状态就与第二状态的相似程度越高。在该基因共表达状态得分不低于得分阈值的情况下，说明该目标样本的基因共表达状态与第一状态的相似程度高于与第二状态的相似程度，且基因共表达状态得分越高，基因共表达状态就与第一状态的相似程度越高。

图7为本发明实施例提供的另一种基因共表达状态的量化分析方法的流程图。如图7所示，在基于差异共表达子网络确定出目标样本的基因共表达状态得分（上述步骤S4）之后，还包括：步骤S5~步骤S6。

步骤S5、确定基因共表达状态得分对应的得分等级。

其中，得分等级可以预先设置的，例如，将基因共表达状态得分分为四个等级，包括：低（例如基因共表达状态得分<0）、中（例如基因共表达状态得分为0-0.75之间）、高（例如基因共表达状态得分为0.75-1.5之间）和极高（例如基因共表达状态得分>1.5）。在确定出基因共表达状态得分之后，再对应确定出该基因共表达状态得分对应的得分等级，得分等级越高，目标样本的基因共表达状态与第一状态越相似。

步骤S6、基于得分等级确定针对目标样本对应的目标对象的治疗策略。

其中，治疗策略是指针对目标对象所选择的治疗方式。

由于得分等级不同的目标样本所对应的基因共表达状态会存在差异，因此，基于得分等级确定针对目标样本对应的目标对象的治疗策略可以选择更适合目标对象的治疗方式。

本发明实施例中，该基因共表达状态的量化分析方法用于单个样本水平的差异共表达分析，为个性化的治疗决策提供信息。

在一些实施方式中，以乳腺癌为例，对本实施例中基因共表达状态的量化分析方法进行说明。乳腺癌是女性最常见的癌症，也是导致癌症相关死亡的主要原因之一。约70％的乳腺癌患者为雌激素受体阳性（Estrogen Receptor-positive，缩写为ER+），这种类型的肿瘤依赖于雌性激素生长。对乳腺癌进行治疗一般采用内分泌疗法，也被称为激素疗法，旨在抑制体内雌激素的产生或作用，从而减缓ER+癌细胞的生长。

基于本发明实施例中提供的基因共表达状态的量化分析方法，构建2832名ER+和241名ER-（雌激素受体阴性）乳腺癌患者之间的全局差异共表达网络。然后，我们基于该全局差异共表达网络计算了特征向量的中心度，并进行了基因集富集分析（GSEA）。GSEA发现了五个显著富集的基因集，其中包括早期雌激素反应相关基因集。基于该基因集的核心富集基因，我们将差异共表达子网络可视化，并基于该差异共表达子网络计算每个样本的基因共表达状态得分。其中，93％（224/241）的ER-样本为负分，85％（2432/2832）的ER+样本为正分，表明大多数样本的共表达模式与其自身所在组一致。

假设基因共表达状态得分较高的ER+样本在内分泌治疗后有更好的生存结果，这是因为内分泌治疗专门针对雌激素响应细胞，而基因共表达状态得分较高表明雌激素响应水平较高，得分较低表明雌激素响应水平较低。为了验证这一假设，我们将基因共表达状态得分分为四个等级：低（例如基因共表达状态得分<0）、中（例如基因共表达状态得分为0-0.75之间）、高（例如基因共表达状态得分为0.75-1.5之间）和极高（例如基因共表达状态得分>1.5）。

图8为本发明实施例提供的一种乳腺癌患者接受内分泌治疗的生存分析示意图。如图8所示，本实施例中采用log-rank检验（一种生存曲线的假设检验方法）获得1603名ER+乳腺癌患者单独接受辅助性内分泌治疗的Kaplan-Meier（一种单因素生存分析）图，其中，横轴为生存时间（年），纵轴为生存率。如图所示，接受辅助性内分泌治疗后，低（Low）、中（Medium）、高（High）、极高（Very High）组患者的5年生存率分别为73.9％、84.0%、90.9%和98.4%，log-rank检验确定出的p值（一种用于表征差异是否显著的参数）为7e-11，远小于0.01，说明低、中、高和极高组患者的5年生存率差异十分显著。

本发明实施例还进行了1603名ER+乳腺癌患者单独接受辅助内分泌治疗的多变量比例风险回归分析，该多变量比例风险回归分析中以基因共表达状态得分的水平（Cosinet Level）、年龄（Age）和肿瘤大小（Tumor Size）为变量，以总生存期为结束点。分析后的结果表明在调整了年龄和肿瘤大小的差异产生的影响后，与低分组相比，中分组的死亡风险下降了39%，高分组的死亡风险下降了65%，而极高分组的死亡风险下降了90%，说明使用基因共表达状态的量化分析方法处理乳腺癌患者的表达数据可以帮助识别对内分泌治疗有积极反应的ER+患者，从而协助医疗人员更好地评估预后效果，并做出更合适的治疗决策。

本发明实施例提供的基因共表达状态的量化分析方法能够准确衡量单个目标样本相对于参考组基因调控网络（全局差异共表达网络）的重构程度。这为疗法对个人的潜在疗效提供了早期依据，而且不需要依赖生存数据。相较于其他需要利用生存数据进行风险预测的方法，这是一个显著的优势。

在实际应用过程中，通过本发明实施例提供的基因共表达状态的量化分析方法，可以在新药推广阶段甚至是临床试验阶段选择最有可能从某种针对已知或新的靶点治疗中受益的患者。根据基因共表达状态得分和其他相关的临床因素，可以考虑对被预测为不太适合某种疗法的患者更换疗法或者进行联合治疗，以最终改善治疗效果。此外，对于高适配性患者（基因共表达状态得分），基于基因共表达状态得分还可免除对这些患者进行不必要的其他治疗试验，使他们避免不必要的副作用和毒性。

图9为本发明实施例提供的一种基因共表达状态的量化分析装置的结构示意图。如图9所示，该基因共表达状态的量化分析装置包括：全局网络构建模块91、基因确定模块92、子网络构建模块93和得分确定模块94。

全局网络构建模块91，用于构建实验组与对照组之间的全局差异共表达网络，其中，实验组对应的基因共表达状态为第一状态、对照组对应的基因共表达状态为第二状态。

基因确定模块92，用于基于全局差异共表达网络确定出高度重构基因，其中，高度重构基因是指相比于特定状态下与其他基因的基因共表达关系而言，当前与其他基因的基因共表达关系发生变化的基因。

子网络构建模块93，用于根据高度重构基因和研究信息构建差异共表达子网络，其中，差异共表达子网络中各节点对应的基因与研究信息包含的目标生物途经相关。

得分确定模块94，用于基于差异共表达子网络确定出目标样本的基因共表达状态得分，其中，基因共表达状态得分用于指示目标样本的基因共表达状态与第一状态或所述第二状态的相似程度。

本发明实施例提供一种基因共表达状态的量化分析装置，全局网络构建模块用于构建实验组与对照组之间的全局差异共表达网络；该实验组对应的基因共表达状态为第一状态、对照组对应的基因共表达状态为第二状态；基因确定模块用于基于该全局差异共表达网络确定出高度重构基因，其中，高度重构基因是指相比于特定状态下与其他基因的基因共表达关系而言，当前与其他基因的基因共表达关系发生变化的基因；子网络构建模块用于根据高度重构基因和研究信息构建差异共表达子网络，得分确定模块用于基于该差异共表达子网络确定出目标样本的基因共表达状态得分，实现了对目标样本的基因共表达状态的量化分析，其中，差异共表达子网络中各节点对应的基因与研究信息包含的目标生物途经相关，基因共表达状态得分用于指示目标样本的基因共表达状态与第一状态或第二状态的相似程度，实现了在个体层面上对单个样本的基因共表达状态的定量分析。

图10为本发明实施例提供的一种计算机设备的结构示意图。如图10所示，该计算机设备可以包括处理器1001和存储器1002，其中处理器1001和存储器1002可以通过总线或者其他方式连接，图10中以通过总线连接为例。

处理器1001可以为中央处理器（Central Processing Unit，CPU）。处理器1001还可以为其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器1002作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施

例中的基因共表达状态的量化分析方法对应的程序指令/模块。处理器1001通过运行存储在存储器1002中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的基因共表达状态的量化分析方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器1001所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至处理器1001。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器1002中，当被处理器1001执行时，执行如图1所示实施例中的基因共表达状态的量化分析方法。

上述计算机设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random AccessMemory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基因共表达状态的量化分析方法，其特征在于，所述方法包括：

构建实验组与对照组之间的全局差异共表达网络；所述实验组对应的基因共表达状态为第一状态、所述对照组对应的基因共表达状态为第二状态；

基于所述全局差异共表达网络确定出高度重构基因，其中，所述高度重构基因是指相比于特定状态下与其他基因的基因共表达关系而言，当前与其他基因的基因共表达关系发生变化的基因；

根据所述高度重构基因和研究信息构建差异共表达子网络，所述差异共表达子网络中各节点对应的基因与所述研究信息包含的目标生物途经相关；

基于所述差异共表达子网络确定出目标样本的基因共表达状态得分，所述基因共表达状态得分用于指示所述目标样本的基因共表达状态与所述第一状态或所述第二状态的相似程度。

2.根据权利要求1所述的方法，其特征在于，所述构建实验组与对照组之间的全局差异共表达网络，包括：

确定所述实验组中各基因对的第一斯皮尔曼相关系数和所述对照组中各基因对的第二斯皮尔曼相关系数；

对所述第一斯皮尔曼相关系数进行费雪变换，获得第一变换结果；

对所述第二斯皮尔曼相关系数进行费雪变换，获得第二变换结果；

基于所述第一变换结果和所述第二变换结果进行Z检验，获得所述全局差异共表达网络，其中，所述全局差异共表达网络通过Z分数矩阵进行表示。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述全局差异共表达网络确定出高度重构基因，包括：

确定所述全局差异共表达网络中各节点的特征向量中心度；

基于所述特征向量中心度对各所述节点对应的基因进行排序，并将排序在预设序号之前的基因确定为所述高度重构基因。

4.根据权利要求2所述的方法，其特征在于，所述根据所述高度重构基因和研究信息构建差异共表达子网络，包括：

对所述高度重构基因进行基因富集分析，获得基因富集结果；

通过所述基因富集结果确定出与所述研究信息中包含的目标生物途经相关的基因集；

将所述基因集中的各基因作为节点，以及将所述基因集中的差异共表达基因对之间连边，以构建所述差异共表达子网络，其中，所述差异共表达基因对是指所述Z分数矩阵中对应元素值的绝对值大于预设阈值的基因对。

5.根据权利要求4所述的方法，其特征在于，所述基于所述差异共表达子网络确定出目标样本的基因共表达状态得分，包括：

确定所述目标样本在所述实验组中的第一统计量以及在所述对照组中的第二统计量；其中，所述目标样本是所述差异共表达子网络中的差异共表达基因对所对应的基因表达数据；

基于所述第二统计量与所述第一统计量的差值确定相似性参数，并基于所述相似性参数的加权平均值确定所述目标样本的基因共表达状态得分。

6.根据权利要求5所述的方法，其特征在于，所述确定所述目标样本在所述实验组中的第一统计量以及在所述对照组中的第二统计量，包括：

将所述目标样本添加至所述实验组对应的第一基因表达值散点图中，并基于所述第一基因表达值散点图中所述目标样本对应的预定范围内的第一样本数量确定所述第一统计量；

将所述目标样本添加至所述对照组对应的第二基因表达值散点图中，并基于所述第二基因表达值散点图中所述目标样本对应的预定范围内的第二样本数量确定所述第二统计量。

7.根据权利要求6所述的方法，其特征在于，在所述基于所述差异共表达子网络确定出目标样本的基因共表达状态得分之后，还包括：

确定所述基因共表达状态得分对应的得分等级；

基于所述得分等级确定针对所述目标样本对应的目标对象的治疗策略。

8.一种基因共表达状态的量化分析装置，其特征在于，所述装置包括：

全局网络构建模块，用于构建实验组与对照组之间的全局差异共表达网络；所述实验组对应的基因共表达状态为第一状态、所述对照组对应的基因共表达状态为第二状态；

基因确定模块，用于基于所述全局差异共表达网络确定出高度重构基因，其中，所述高度重构基因是指相比于特定状态下与其他基因的基因共表达关系而言，当前与其他基因的基因共表达关系发生变化的基因；

子网络构建模块，用于根据所述高度重构基因和研究信息构建差异共表达子网络，所述差异共表达子网络中各节点对应的基因与所述研究信息包含的目标生物途经相关；

得分确定模块，用于基于所述差异共表达子网络确定出目标样本的基因共表达状态得分，所述基因共表达状态得分用于指示所述目标样本的基因共表达状态与所述第一状态或所述第二状态的相似程度。

9.一种计算机设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7任一项所述的基因共表达状态的量化分析方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基因共表达状态的量化分析方法的步骤。