CN107463796B

CN107463796B - 基于基因共表达网络传播分析的早期致病因子探测方法

Info

Publication number: CN107463796B
Application number: CN201710566400.2A
Authority: CN
Inventors: 郭澍; 李大庆
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beijing University of Aeronautics and Astronautics
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2019-10-18
Anticipated expiration: 2037-07-12
Also published as: CN107463796A

Abstract

本发明提供一种基于基因共表达网络传播分析的早期致病因子探测方法，步骤如下：一、从某种疾病的病例组和对照组的真实基因表达中获取数据，对某种疾病的基因表达数据进行预处理；二、通过相关性分析，决定两个基因是否存在共表达关系，从而建立基因共表达网络；三、对基因的差异表达排序，找到故障节点集；四、计算故障节点子集与拟定故障传播中心的节点的平均距离，找到递增的平均距离序列，确定动态网络标志物；本发明针对复杂疾病的早期致病因子的探测问题，为弥补传统分子生物标志物和静态网络标志物的不足，从系统的角度提出一种基于网络传播分析的早期致病因子探测方法，可以有效的找到疾病的早期致病因子，为精准医疗做出贡献。

Description

基于基因共表达网络传播分析的早期致病因子探测方法

技术领域

本发明提供一种基于基因共表达网络传播分析的早期致病因子探测方法，它涉及一种基于基因过表达(被视为基因表达中的故障)在基因共表达网络 (gene co-expression network)中传播机理的早期致病因子的探测方法，是复杂网络动力学与生物医学的交叉技术领域。

背景技术

已有研究表明，疾病的发展过程中通常伴有剧烈的变化，系统从正常状态到疾病状态发生了质的转变。一旦系统从临界状态移动到疾病状态，即使通过先进的医疗治疗，也很难逆转到先前的正常状态。因此，疾病的早期致病因子的探测是十分重要的。疾病的防治不仅节省了医疗资源，更拯救了人的生命。

人类基因组计划由美国科学家于1985年率先提出，于1990年正式启动。美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。目前，人类基因清单已经近乎完整。尽管这些基因的功能以及它们如何相互作用以完成特定的生物过程还尚未完全清楚，已经有不少的研究成果可以应用于复杂疾病的早期致病因子的探测，为精准医疗做出了贡献。

传统的生物医学使用分子生物标志物的表达谱来定量表征生物体的正常状态与疾病状态，例如转化细胞生长因子ERBB2是公认的乳腺癌的分子标志物。一般来说，寻找分子生物标志物的方法是：通过使用计算机统计分析软件，找到一些分子的组合，这个组合中分子的表达足以区分样本的疾病状态和正常状态，并且分子数量不宜过多。然而，复杂疾病通常并不是单个分子的功能障碍引起的，而是来自分子之间的相互作用，在这些相互作用中蕴含了更为普适的标志物。传统医学的局限促使我们从系统的角度来寻找早期致病因子。为了找到这种网络标志物，我们首先需要建立生物网络：在蛋白质-蛋白质相互作用(PPI)网络中，每种蛋白质作为一个节点，网络中的连边表示它们之间的相互作用关系；在基因共表达网络中，网络的节点就是一个基因，节点之间的边则表示两个基因的表达序列之间有相关关系。

在基因组高通量技术(例如：微阵列技术、质谱分析法)的发展和分子表达谱的研究进展下，网络标志物的概念被建立起来，基于复杂网络的第一个网络生物标志物在2008年被提出。我们称基于网络静态拓扑结构的网络标志物为静态网络标志物。静态网络标志物能够更加准确并且鲁棒地找到早期致病因子，这种方法既从系统的角度分析早期致病因子，用到了网络的拓扑结构，又结合了生物医学的相关知识。通过对网络结构进行分析，找到网络中对疾病引发起关键作用的子网络，缩小早期致病因子的范围，以单个因子或者子网络作为疾病预测的因子。例如：2010年Feng Chen等人通过k-核算法不断剥离网络中的边缘节点，在处于网络中心的26个关键基因中，通过度中心性参数与聚集系数找到爆发性肝炎的早期致病基因，并且从基因功能上解释了其致病机理。然而，静态网络标志物的寻找方法是基于静态网络模型的，从而导致对动态信息处理的流失。系统从正常状态到疾病状态是一个动态过程，我们应该建立系统的动态模型，才能找到更加合适的动态网络标志物作为疾病的早期致病因子。

基因的过表达可以看成是基因网络的故障，故障在网络中的动态传播的源头就是我们需要寻找的动态标志物。故障在网络中的传播十分常见。在交通网络、电网、因特网等网络系统中，级联失效时有发生。级联失效的发生是因为网络节点之间具有普遍的关联关系，一个节点的状态改变，就可能导致与之相连的其他节点状态相继改变，最终在整个系统中造成大范围的故障传播。2016 年Jichang Zhao、Daing Li等人找到了故障在空间嵌入式网络上的传播规律，他们发现故障从初始的故障中心沿着各个方向以某种恒定的速度向外扩散。基因网络与这些网络系统一样，也是由很多相互作用的单元组成，这些单元之间有着复杂的交互关系，表明它们之间可能存在一定的功能耦合。这些功能耦合会使得基因的异常表达类似于网络的故障传播一样，对其他基因产生显著影响，使得局部的异常表达扩大到整个基因表达网络。

综上所述，尽管已有的基因网络分析对于理解和预测致病因子有一定的效果，但这些静态网络标志物大都没有考虑系统的动态特性。我们需要建立基于异常表达动态传播过程的网络标志物。

本发明从病例组和对照组的真实基因表达中获取数据，通过对基因表达时间序列进行相关性分析，来建立基因共表达网络。数据共有n个差异表达基因， m个时间测试点。将每个时刻过表达的基因视为当前时刻的故障基因，所有时刻下的故障基因集为：N＝{N_j|j＝_{1 ， 2. 。。。 m}}。在固定时刻t_j下筛选出的k个过表达基因与拟定的故障中心n_CAND的距离的均值记为找到一个关键基因，若过表达基因相对它的平均距离序列随时间增加而增长，就可以认为其体现了故障随时间在网络中传播的特征，将这个关键基因视为动态网络标志物。

发明内容

(一)发明的目的

本发明的目的是：针对疾病的早期致病因子的探测问题，为弥补现有标志物的不足，从系统的角度提出一种基于基因共表达网络传播分析的早期致病因子探测方法，它是一种基于网络传播分析的早期致病因子探测方法，可以有效的找到疾病的早期致病因子。

本发明的理论基础：疾病的产生伴随着基因的异常表达，基因的异常表达将借助不同基因之间的关联关系，在基因共表达网络进行传播；从故障传播的机理出发，找到异常表达传播的源头，就是疾病的动态网络标志物。

(二)技术方案

本发明的技术解决方案：本发明提出一种基于基因共表达网络传播分析的早期致病因子探测方法。本发明首先从某种疾病的病例组和对照组的真实基因表达中获取数据，将对照组的基因表达从病例组基因表达中滤去，得到差异表达数据，完成数据预处理；通过计算两个基因之间的基因表达序列的相关性，决定两个基因是否有联系，从而建立基因表达网络；对每个时刻下基因的差异表达进行排序，选取基因总数n中一定比例的k个基因作为故障基因，找到异常表达基因集；之后计算每个时刻下异常表达基因子集与备选传播中心的基因之间的平均距离：若找到递增的平均距离序列，其对应的拟定传播中心即为动态网络标志物。

本发明一种基于基因共表达网络传播分析的早期致病因子探测方法，其步骤如下：

步骤一、对某种疾病的基因表达数据进行预处理；

对于一组基因表达数据，共有n个差异表达基因，m个时间测试点；对照组的基因表达记为E_CG,i(t),i＝1,2,...n,t＝t₁,t₂,...,t_m，病例组的基因表达记为 E_EG,i(t),i＝1,2,...n,t＝t₁,t₂,...,t_m；系统在正常状态下基因的表达量并不为零，并且不同基因有着自己不同的基础表达量；在使用病例组的基因表达数据E_EG,i(t)前，应该滤掉对照组的表达数据E_CG,i(t)，才能保证基因共表达网络的建立是有效的；基因表达数据多为以log₂为底的数据，因此，病例组的基因表达数据减去对照组的表达数据即为差异表达数据E_i(t)＝E_EG,i(t)-E_CG,i(t),i＝1,2,...,n,t＝t₁,t₂,...,t_m；

步骤二、通过相关性分析，决定两个基因是否存在共表达关系，从而建立基因共表达网络；

差异表达序列E_i(t)，反映了其在正常状态到疾病状态过程中基因表达的变化；将基因i与j的差异表达序列E_i(t),E_j(t)进行相关性分析，具体可以使用皮尔逊(Pearson)相关系数、互信息、斯皮尔曼(Spearman)相关系数等，例如 Pearson相关系数其中，E是数学期望，cov表示协方差，和是标准差；对每对基因进行相关性分析，从而得到整个网络的相关性系数的分布ρ_DIST；

将每个差异表达序列E_i(t)中的m个元素随机交换位置，从而得到打乱的序列E″_i(t)；计算打乱差异表达序列E″_i(t)和E″_j(t)的相关性系数，

其中i≠j,i＝1,2,...,n,j＝1,2,...,n；统计打乱差异序列的所有相关性系数，得到其分布信息ρ″_DIST。当ρ_DIST的值为ρ″_DIST值的100倍时，规定此时的相关性系数的值为阈值ρ_TH；若没有100倍显著点，可以选取10倍显著；根据阈值ρ_TH建立基因共表达网络：网络共n个基因，一个基因即为一个节点，计算基因i与基因j的相关性系数ρ_ij，若ρ_ij＞ρ_TH则在基因i与基因j之间连边，

其中i≠j,i＝1,2,...,n,j＝1,2,...,n；

步骤三、对基因的差异表达排序，找到故障基因集；

在某一时刻t_j下，将步骤一所得的基因差异表达数据E_i(t_j),i＝1,2,...,n从高到低进行排序，根据需求选取基因总数n的一定比例(例如5％)的k个基因。这些基因的差异表达量较大，是过表达基因，可以视为基因共表达网络中发生故障的基因，称之为故障基因；并且，t_j时刻选取的故障基因不应与t_j-1时刻故障基因重复；也就是说，如果t_j时刻选取到的故障基因i在t_j-1时刻已经被认定为故障基因，那么在t_j时刻不添加到故障基因子集N_j中，并且不参与计数。这k 个故障基因组成的集合为时刻t_j下的故障基因子集N_j；在所有时刻下进行此步骤，得到故障基因的全集N＝{N_j|j＝_{1 ， 2. 。。。 m}}；

步骤四、计算故障基因子集与拟定故障传播中心的平均距离，找到递增的平均距离序列，确定动态网络标志物；

在基因共表达网络中，故障从初始的故障中心沿着各个方向向外扩散，这个中心为故障传播中心。为找到真正的故障传播中心，选择一个基因作为拟定故障传播中心n_CAND进行试验，其中CAND＝1，2，...,n。计算时刻t_j下故障基因子集 N_j中的故障基因到拟定故障传播中心n_CAND的平均距离，即为：在所有时刻下重复上述步骤，得到某一拟定故障传播中心n_CAND对应的平均距离序列以所有基因作为拟定故障传播中心，共得到n个平均距离序列，表示为平均距离递增序列矩阵找到矩阵递增的行并对其递增序列的幅值进行排序，选取幅值最大的基因作为动态网络标志物。

通过以上步骤，本发明从系统的角度寻找复杂疾病的标志物，并且考虑到系统从正常状态到疾病状态的动态演化，提出一种基于基因共表达网络传播分析的早期致病因子探测方法，将对早期致病因子的寻找以及精准医疗提供强有力的方法支承，解决了复杂疾病预防与治疗困难的问题。

其中，在步骤二中所述的“通过相关性分析，决定两个基因是否存在共表达关系，从而建立基因共表达网络”，其具体作法如下：将一个基因看作网络中的一个节点，计算不同节点之间的相关性系数，若该系数大于选定的阈值则在两个节点之间连边。对所有节点对之间进行判定，最终连成基因共表达网络。

其中，在步骤三中所述的“对基因的差异表达排序，找到故障基因集”，其具体作法如下：对每一时刻下的差异表达数据由大到小排序，找到前k个基因，注意后一时刻不重复寻找前一时刻找过的故障基因。对所有时刻进行同样的操作，得到的k×m个故障基因的合集即为故障基因集。

其中，在步骤四中所述的“计算故障基因子集与拟定故障传播中心的平均距离，找到递增的平均距离序列，确定动态网络标志物”，其具体作法如下：对基因共表达网络中的所有基因进行试验，将其选为拟定故障传播中心。计算其与各个时刻下故障基因子集中的故障基因的平均距离，得到平均距离序列矩阵中幅值最大的递增序列对应的基因即为动态网络标志物。

其中，在步骤三中所述的“故障基因”，是指每一时刻下差异表达量最大的k个基因，共有k×m个；

其中，在步骤三中所述的“故障基因子集”，是指时刻t_j下的k个故障基因的集合，计为N_j；

其中，在步骤三中所述的“故障基因集”，是指所有时刻下故障基因的全集N＝{N_j|j＝_{1 ， 2. 。。。 m}}；

其中，在步骤四中所述的“拟定故障传播中心”，是指为找到真正的故障传播中心，所选择进行试验的拟定故障传播中心n_CAND。

其中，在步骤四中所述的“距离递增序列矩阵”，是指各个时刻下的故障基因子集与所有拟定故障传播中心的平均距离序列组成的矩阵。

(三)优点和功效

相比较于传统分子生物标志物和静态网络标志物，本发明所采用的动态网络标志物具有如下优势：

(a)系统性：通过建立基因共表达网络，从系统的角度提出网络标志物。单元之间的相互作用关系被考虑进来，而不仅仅只是通过统计的方法来单一地分析致病的基因或蛋白质等。

(b)鲁棒性：静态网络标志物的识别对网络的拓扑结构十分敏感，如果不能对数据中的噪声进行妥当的处理，就会影响到标志物识别的结论。而动态网络标志物的识别对网络的拓扑结构的依赖性不强，并不需要直接进行拓扑结构的分析。

(c)预警性：静态网络标志物并不具有发展的特性，只能给出一个静态的指示。而动态网络标志物的探测方法可以预测未来的异常表达传播。根据识别到的传播中心的位置与传播的速度，可以预测下一时刻异常传播的范围，定位将要异常表达的基因。

综上，这种新方法的研究结果将对早期致病因子的寻找以及精准医疗提供强有力的方法支承。

附图说明

图1为本发明所述方法流程示意图。

图2为本发明中找到故障基因集的实现过程。

图中序号、符号、代号说明如下：

图2：

t_j：表示某一固定时刻，其中j的取值范围为1，2，…，m。

n：表示基因总数

N_j：表示时刻t_j下的故障基因子集，其中j的取值范围为1，2，…，m。

具体实施方式

为使本发明要解决的技术问题、技术方案更加清楚，下面将结合附图及具体实施案例进行详细描述。

本发明的目的在于针对复杂疾病的早期致病因子的探测问题，为弥补传统分子生物标志物和静态网络标志物的不足，从系统的角度提出一种基于网络传播分析的早期致病因子探测方法，可以有效的找到疾病的早期致病因子，为精准医疗做出贡献。

如图1所示，本发明一种基于基因共表达网络传播分析的早期致病因子探测方法，在实施案例中的具体步骤如下：

步骤一、对某种疾病的基因表达数据进行预处理；

对于一组基因表达数据，共有n个差异表达基因，m个时间测试点。对照组的基因表达记为E_CG,i(t),i＝1,2,...n,t＝t₁,t₂,...,t_m，病例组的基因表达记为 E_EG,i(t),i＝1,2,...n,t＝t₁,t₂,...,t_m。系统在正常状态下基因的表达量并不为零，并且不同基因有着自己不同的基础表达量。在使用病例组的基因表达数据E_EG,i(t)前，应该滤掉对照组的表达数据E_CG,i(t)，才能保证基因共表达网络的建立是有效的。基因表达数据多为以log₂为底的数据，因此，病例组的基因表达数据减去对照组的表达数据即为差异表达数据E_i(t)＝E_EG,i(t)-E_CG,i(t),i＝1,2,...,n,t＝t₁,t₂,...,t_m。如果基因表达数据不是以log₂为底的数据，则应该使用病例组E_EG,i(t)与对照组E_CG,i(t) 数据的比值。

步骤二、通过相关性分析，决定两个基因是否存在共表达关系，从而建立无向网络；

差异表达序列E_i(t)，反映了其在正常状态到疾病状态过程中基因表达的变化。将基因i与j的差异表达序列E_i(t),E_j(t)进行相关性分析，具体可以使用 Pearson相关系数、互信息、Spearman相关系数等。本例中使用Pearson相关系数来进行相关分析，其中，E 是数学期望，cov表示协方差，和是标准差。对每对基因进行相关性分析，从而得到整个网络的相关性系数的分布ρ_DIST。

将每个差异表达序列E_i(t)随机打乱，得到打乱的序列E″_i(t)。使用打乱的差异表达序列E″_i(t)重新计算相关性系数，得到打乱差异序列的相关性系数分布ρ″_DIST。当ρ_DIST的值为ρ″_DIST值的100倍时，规定此时的相关性系数的值为阈值ρ_TH。若没有100倍显著点，可以选取10倍显著。本例中使用100倍的显著点作为依据。根据阈值ρ_TH建立基因共表达网络，当相关性系数ρ_ij＞ρ_TH时，在基因i与基因j之间连边。

步骤三、对基因的差异表达排序，找到故障基因集；

在某一时刻t_j，将步骤一所得的基因差异表达数据E_i(t_j),i＝1,2,...,n从高到低进行排序。首先判断已经选取的故障基因总数是否已经达到基因总数的5％，即k＝n*5％。如果达到那么选取结束。如果没有，那么判断当前基因是否与t_j-1时刻选取的故障基因重复，如果不重复，则选为故障基因，开始对下一基因进行判断。如果重复，那么该基因并不算作故障基因，也不进行计数，开始对下一基因进行判断。重复以上过程，直到选到k个故障基因，得到时刻t_j的故障基因子集N_j。在所有时刻下进行此步骤，得到故障基因的全集N＝{N_j|j＝_{1 ， 2. 。。。 m}}。此时，每个时刻下的故障基因子集都有k个故障基因。具体过程如图2所示。

步骤四、计算故障基因子集与拟定故障传播中心的平均距离，找到递增的平均距离序列，确定动态网络标志物。

选定故障中心n_CAND，计算时刻t_j下故障基因的子集N_j中的故障基因到故障中心n_CAND的平均距离，即为：在所有时刻下重复上述步骤，得到某一故障中心n_CAND对应的平均距离序列以所有基因作为故障中心进行遍历，共得到n个平均距离序列，表示为矩阵为时刻t_j时，集合N_j中所有故障基因到故障中心基因i的平均距离。找到矩阵递增的行并对其递增序列的幅值进行排序，选取幅值最大的基因作为动态网络标志物。

通过以上步骤，本发明从系统的角度寻找复杂疾病的标志物，并且考虑到系统从正常状态到疾病状态的演化，提出一种动态网络标志物的早期致病因子探测方法。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于基因共表达网络传播分析的早期致病因子探测方法，其特征在于：其步骤如下：

步骤一、对某种疾病的基因表达数据进行预处理；

对于一组基因表达数据，共有n个差异表达基因，m个时间测试点；对照组的基因表达记为E_CG,i(t),i＝1,2,...n,t＝t₁,t₂,...,t_m，病例组的基因表达记为E_EG,i(t)；系统在正常状态下基因的表达量并不为零，并且不同基因有着自己不同的基础表达量；在使用病例组的基因表达数据E_EG,i(t)前，应该滤掉对照组的表达数据E_CG,i(t)，才能保证基因共表达网络的建立是有效的；基因表达数据多为以log₂为底的数据，因此，病例组的基因表达数据减去对照组的表达数据即为差异表达数据E_i(t)＝E_EG,i(t)-E_CG,i(t)；

差异表达序列E_i(t)，反映了其在正常状态到疾病状态过程中基因表达的变化；将基因i与p的差异表达序列E_i(t),E_p(t)进行相关性分析，具体能使用皮尔逊即Pearson相关系数、互信息、斯皮尔曼即Spearman相关系数；其中，Pearson相关系数其中，E是数学期望，cov表示协方差，和是标准差；对每对基因进行相关性分析，从而得到整个网络的相关性系数的分布ρ_DIST；

将每个差异表达序列E_i(t)中的m个元素随机交换位置，从而得到打乱的序列E″_i(t)；计算打乱差异表达序列E″_i(t)和E″_p(t)的相关性系数，其中i≠p，p＝1,2,...,n；统计打乱差异序列的所有相关性系数，得到其分布信息ρ″_DIST，当ρ_DIST的值为ρ″_DIST值的100倍时，规定此时的相关性系数的值为阈值ρ_TH；若没有100倍显著点，选取10倍显著；根据阈值ρ_TH建立基因共表达网络：网络共n个基因，复数个基因即为一个节点，计算基因i与基因p的相关性系数ρ_ip，若ρ_ip＞ρ_TH则在基因i与基因p之间连边；

步骤三、对基因的差异表达排序，找到故障基因集；

在某一时刻t_j下，将步骤一所得的基因差异表达数据E_i(t_j)从高到低进行排序，根据需求选取基因总数n的一预定比例的k个基因；这些基因的差异表达量大，是过表达基因，能视为基因共表达网络中发生故障的基因，称之为故障基因；并且，t_j时刻选取的故障基因不应与t_j-1时刻故障基因重复；也就是说，如果t_j时刻选取到的故障基因i在t_j-1时刻已经被认定为故障基因，那么在t_j时刻不添加到故障基因子集N_j中，并且不参与计数；这k个故障基因组成的集合为时刻t_j下的故障基因子集N_j；在所有时刻下进行此步骤，得到故障基因的全集N＝{N_j|j＝1,2,...,m}；

在基因共表达网络中，故障从初始的故障中心沿着各个方向向外扩散，这个中心为故障传播中心；为找到真正的故障传播中心，选择一个基因作为拟定故障传播中心n_CAND进行试验，其中CAND＝1，2，...,n；计算时刻t_j下故障基因子集N_j中的故障基因到拟定故障传播中心n_CAND的平均距离，即为：在所有时刻下重复上述步骤，得到一拟定故障传播中心n_CAND对应的平均距离序列以所有基因作为拟定故障传播中心，共得到n个平均距离序列，表示为平均距离递增序列矩阵找到矩阵递增的行并对其递增序列的幅值进行排序，选取幅值最大的基因作为动态网络标志物。

2.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法，其特征在于：在步骤二中所述的“通过相关性分析，决定两个基因是否存在共表达关系，从而建立基因共表达网络”，其具体作法如下：将一个基因看作网络中的一个节点，计算不同节点之间的相关性系数，若该系数大于选定的阈值则在两个节点之间连边；对所有节点对之间进行判定，最终连成基因共表达网络。

3.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法，其特征在于：在步骤三中所述的“对基因的差异表达排序，找到故障基因集”，其具体作法如下：对每一时刻下的差异表达数据由大到小排序，找到前k个基因，注意后一时刻不重复寻找前一时刻找过的故障基因；对所有时刻进行同样的操作，得到的k×m个故障基因的合集即为故障基因集。

4.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法，其特征在于：在步骤四中所述的“计算故障基因子集与拟定故障传播中心的平均距离，找到递增的平均距离序列，确定动态网络标志物”，其具体作法如下：对基因共表达网络中的所有基因进行试验，将其选为拟定故障传播中心；计算其与各个时刻下故障基因子集中的故障基因的平均距离，得到平均距离序列矩阵中幅值最大的递增序列对应的基因即为动态网络标志物。

5.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法，其特征在于：在步骤三中所述的“故障基因”，是指每一时刻下差异表达量最大的k个基因，共有k×m个；所述的“故障基因集”，是指所有时刻下故障基因的全集N＝{N_j|j＝1,2,...,m}；所述的“故障基因子集”，是指时刻t_j下的k个故障基因的集合，计为N_j。

6.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法，其特征在于：在步骤四中所述的“拟定故障传播中心”，是指为找到真正的故障传播中心，所选择进行试验的拟定故障传播中心n_CAND。

7.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法，其特征在于：在步骤四中所述的“距离递增序列矩阵”，是指各个时刻下的故障基因子集与所有拟定故障传播中心的平均距离序列组成的矩阵。