CN107463796B - 基于基因共表达网络传播分析的早期致病因子探测方法 - Google Patents

基于基因共表达网络传播分析的早期致病因子探测方法 Download PDF

Info

Publication number
CN107463796B
CN107463796B CN201710566400.2A CN201710566400A CN107463796B CN 107463796 B CN107463796 B CN 107463796B CN 201710566400 A CN201710566400 A CN 201710566400A CN 107463796 B CN107463796 B CN 107463796B
Authority
CN
China
Prior art keywords
gene
failure
network
expressing
early stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710566400.2A
Other languages
English (en)
Other versions
CN107463796A (zh
Inventor
郭澍
李大庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Aeronautics and Astronautics
Original Assignee
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Aeronautics and Astronautics filed Critical Beijing University of Aeronautics and Astronautics
Priority to CN201710566400.2A priority Critical patent/CN107463796B/zh
Publication of CN107463796A publication Critical patent/CN107463796A/zh
Application granted granted Critical
Publication of CN107463796B publication Critical patent/CN107463796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

本发明提供一种基于基因共表达网络传播分析的早期致病因子探测方法,步骤如下:一、从某种疾病的病例组和对照组的真实基因表达中获取数据,对某种疾病的基因表达数据进行预处理;二、通过相关性分析,决定两个基因是否存在共表达关系,从而建立基因共表达网络;三、对基因的差异表达排序,找到故障节点集;四、计算故障节点子集与拟定故障传播中心的节点的平均距离,找到递增的平均距离序列,确定动态网络标志物;本发明针对复杂疾病的早期致病因子的探测问题,为弥补传统分子生物标志物和静态网络标志物的不足,从系统的角度提出一种基于网络传播分析的早期致病因子探测方法,可以有效的找到疾病的早期致病因子,为精准医疗做出贡献。

Description

基于基因共表达网络传播分析的早期致病因子探测方法
技术领域
本发明提供一种基于基因共表达网络传播分析的早期致病因子探测方法,它涉及一种基于基因过表达(被视为基因表达中的故障)在基因共表达网络 (gene co-expression network)中传播机理的早期致病因子的探测方法,是复杂网络动力学与生物医学的交叉技术领域。
背景技术
已有研究表明,疾病的发展过程中通常伴有剧烈的变化,系统从正常状态到疾病状态发生了质的转变。一旦系统从临界状态移动到疾病状态,即使通过先进的医疗治疗,也很难逆转到先前的正常状态。因此,疾病的早期致病因子的探测是十分重要的。疾病的防治不仅节省了医疗资源,更拯救了人的生命。
人类基因组计划由美国科学家于1985年率先提出,于1990年正式启动。美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。目前,人类基因清单已经近乎完整。尽管这些基因的功能以及它们如何相互作用以完成特定的生物过程还尚未完全清楚,已经有不少的研究成果可以应用于复杂疾病的早期致病因子的探测,为精准医疗做出了贡献。
传统的生物医学使用分子生物标志物的表达谱来定量表征生物体的正常状态与疾病状态,例如转化细胞生长因子ERBB2是公认的乳腺癌的分子标志物。一般来说,寻找分子生物标志物的方法是:通过使用计算机统计分析软件,找到一些分子的组合,这个组合中分子的表达足以区分样本的疾病状态和正常状态,并且分子数量不宜过多。然而,复杂疾病通常并不是单个分子的功能障碍引起的,而是来自分子之间的相互作用,在这些相互作用中蕴含了更为普适的标志物。传统医学的局限促使我们从系统的角度来寻找早期致病因子。为了找到这种网络标志物,我们首先需要建立生物网络:在蛋白质-蛋白质相互作用(PPI)网络中,每种蛋白质作为一个节点,网络中的连边表示它们之间的相互作用关系;在基因共表达网络中,网络的节点就是一个基因,节点之间的边则表示两个基因的表达序列之间有相关关系。
在基因组高通量技术(例如:微阵列技术、质谱分析法)的发展和分子表达谱的研究进展下,网络标志物的概念被建立起来,基于复杂网络的第一个网络生物标志物在2008年被提出。我们称基于网络静态拓扑结构的网络标志物为静态网络标志物。静态网络标志物能够更加准确并且鲁棒地找到早期致病因子,这种方法既从系统的角度分析早期致病因子,用到了网络的拓扑结构,又结合了生物医学的相关知识。通过对网络结构进行分析,找到网络中对疾病引发起关键作用的子网络,缩小早期致病因子的范围,以单个因子或者子网络作为疾病预测的因子。例如:2010年Feng Chen等人通过k-核算法不断剥离网络中的边缘节点,在处于网络中心的26个关键基因中,通过度中心性参数与聚集系数找到爆发性肝炎的早期致病基因,并且从基因功能上解释了其致病机理。然而,静态网络标志物的寻找方法是基于静态网络模型的,从而导致对动态信息处理的流失。系统从正常状态到疾病状态是一个动态过程,我们应该建立系统的动态模型,才能找到更加合适的动态网络标志物作为疾病的早期致病因子。
基因的过表达可以看成是基因网络的故障,故障在网络中的动态传播的源头就是我们需要寻找的动态标志物。故障在网络中的传播十分常见。在交通网络、电网、因特网等网络系统中,级联失效时有发生。级联失效的发生是因为网络节点之间具有普遍的关联关系,一个节点的状态改变,就可能导致与之相连的其他节点状态相继改变,最终在整个系统中造成大范围的故障传播。2016 年Jichang Zhao、Daing Li等人找到了故障在空间嵌入式网络上的传播规律,他们发现故障从初始的故障中心沿着各个方向以某种恒定的速度向外扩散。基因网络与这些网络系统一样,也是由很多相互作用的单元组成,这些单元之间有着复杂的交互关系,表明它们之间可能存在一定的功能耦合。这些功能耦合会使得基因的异常表达类似于网络的故障传播一样,对其他基因产生显著影响,使得局部的异常表达扩大到整个基因表达网络。
综上所述,尽管已有的基因网络分析对于理解和预测致病因子有一定的效果,但这些静态网络标志物大都没有考虑系统的动态特性。我们需要建立基于异常表达动态传播过程的网络标志物。
本发明从病例组和对照组的真实基因表达中获取数据,通过对基因表达时间序列进行相关性分析,来建立基因共表达网络。数据共有n个差异表达基因, m个时间测试点。将每个时刻过表达的基因视为当前时刻的故障基因,所有时刻下的故障基因集为:N={Nj|j=1 , 2. 。。。 m }。在固定时刻tj下筛选出的k个过表达基因与拟定的故障中心nCAND的距离的均值记为找到一个关键基因,若过表达基因相对它的平均距离序列随时间增加而增长,就可以认为其体现了故障随时间在网络中传播的特征,将这个关键基因视为动态网络标志物。
发明内容
(一)发明的目的
本发明的目的是:针对疾病的早期致病因子的探测问题,为弥补现有标志物的不足,从系统的角度提出一种基于基因共表达网络传播分析的早期致病因子探测方法,它是一种基于网络传播分析的早期致病因子探测方法,可以有效的找到疾病的早期致病因子。
本发明的理论基础:疾病的产生伴随着基因的异常表达,基因的异常表达将借助不同基因之间的关联关系,在基因共表达网络进行传播;从故障传播的机理出发,找到异常表达传播的源头,就是疾病的动态网络标志物。
(二)技术方案
本发明的技术解决方案:本发明提出一种基于基因共表达网络传播分析的早期致病因子探测方法。本发明首先从某种疾病的病例组和对照组的真实基因表达中获取数据,将对照组的基因表达从病例组基因表达中滤去,得到差异表达数据,完成数据预处理;通过计算两个基因之间的基因表达序列的相关性,决定两个基因是否有联系,从而建立基因表达网络;对每个时刻下基因的差异表达进行排序,选取基因总数n中一定比例的k个基因作为故障基因,找到异常表达基因集;之后计算每个时刻下异常表达基因子集与备选传播中心的基因之间的平均距离:若找到递增的平均距离序列,其对应的拟定传播中心即为动态网络标志物。
本发明一种基于基因共表达网络传播分析的早期致病因子探测方法,其步骤如下:
步骤一、对某种疾病的基因表达数据进行预处理;
对于一组基因表达数据,共有n个差异表达基因,m个时间测试点;对照组的基因表达记为ECG,i(t),i=1,2,...n,t=t1,t2,...,tm,病例组的基因表达记为 EEG,i(t),i=1,2,...n,t=t1,t2,...,tm;系统在正常状态下基因的表达量并不为零,并且不同基因有着自己不同的基础表达量;在使用病例组的基因表达数据EEG,i(t)前,应该滤掉对照组的表达数据ECG,i(t),才能保证基因共表达网络的建立是有效的;基因表达数据多为以log2为底的数据,因此,病例组的基因表达数据减去对照组的表达数据即为差异表达数据Ei(t)=EEG,i(t)-ECG,i(t),i=1,2,...,n,t=t1,t2,...,tm
步骤二、通过相关性分析,决定两个基因是否存在共表达关系,从而建立基因共表达网络;
差异表达序列Ei(t),反映了其在正常状态到疾病状态过程中基因表达的变化;将基因i与j的差异表达序列Ei(t),Ej(t)进行相关性分析,具体可以使用皮尔逊(Pearson)相关系数、互信息、斯皮尔曼(Spearman)相关系数等,例如 Pearson相关系数其中,E是数学期望,cov表示协方差,是标准差;对每对基因进行相关性分析,从而得到整个网络的相关性系数的分布ρDIST
将每个差异表达序列Ei(t)中的m个元素随机交换位置,从而得到打乱的序列E″i(t);计算打乱差异表达序列E″i(t)和E″j(t)的相关性系数,
其中i≠j,i=1,2,...,n,j=1,2,...,n;统计打乱差异序列的所有相关性系数,得到其分布信息ρ″DIST。当ρDIST的值为ρ″DIST值的100倍时,规定此时的相关性系数的值为阈值ρTH;若没有100倍显著点,可以选取10倍显著;根据阈值ρTH建立基因共表达网络:网络共n个基因,一个基因即为一个节点,计算基因i与基因j的相关性系数ρij,若ρij>ρTH则在基因i与基因j之间连边,
其中i≠j,i=1,2,...,n,j=1,2,...,n;
步骤三、对基因的差异表达排序,找到故障基因集;
在某一时刻tj下,将步骤一所得的基因差异表达数据Ei(tj),i=1,2,...,n从高到低进行排序,根据需求选取基因总数n的一定比例(例如5%)的k个基因。这些基因的差异表达量较大,是过表达基因,可以视为基因共表达网络中发生故障的基因,称之为故障基因;并且,tj时刻选取的故障基因不应与tj-1时刻故障基因重复;也就是说,如果tj时刻选取到的故障基因i在tj-1时刻已经被认定为故障基因,那么在tj时刻不添加到故障基因子集Nj中,并且不参与计数。这k 个故障基因组成的集合为时刻tj下的故障基因子集Nj;在所有时刻下进行此步骤,得到故障基因的全集N={Nj|j=1 , 2. 。。。 m };
步骤四、计算故障基因子集与拟定故障传播中心的平均距离,找到递增的平均距离序列,确定动态网络标志物;
在基因共表达网络中,故障从初始的故障中心沿着各个方向向外扩散,这个中心为故障传播中心。为找到真正的故障传播中心,选择一个基因作为拟定故障传播中心nCAND进行试验,其中CAND=1,2,...,n。计算时刻tj下故障基因子集 Nj中的故障基因到拟定故障传播中心nCAND的平均距离,即为:在所有时刻下重复上述步骤,得到某一拟定故障传播中心nCAND对应的平均距离序列以所有基因作为拟定故障传播中心,共得到n个平均距离序列,表示为平均距离递增序列矩阵找到矩阵递增的行并对其递增序列的幅值进行排序,选取幅值最大的基因作为动态网络标志物。
通过以上步骤,本发明从系统的角度寻找复杂疾病的标志物,并且考虑到系统从正常状态到疾病状态的动态演化,提出一种基于基因共表达网络传播分析的早期致病因子探测方法,将对早期致病因子的寻找以及精准医疗提供强有力的方法支承,解决了复杂疾病预防与治疗困难的问题。
其中,在步骤二中所述的“通过相关性分析,决定两个基因是否存在共表达关系,从而建立基因共表达网络”,其具体作法如下:将一个基因看作网络中的一个节点,计算不同节点之间的相关性系数,若该系数大于选定的阈值则在两个节点之间连边。对所有节点对之间进行判定,最终连成基因共表达网络。
其中,在步骤三中所述的“对基因的差异表达排序,找到故障基因集”,其具体作法如下:对每一时刻下的差异表达数据由大到小排序,找到前k个基因,注意后一时刻不重复寻找前一时刻找过的故障基因。对所有时刻进行同样的操作,得到的k×m个故障基因的合集即为故障基因集。
其中,在步骤四中所述的“计算故障基因子集与拟定故障传播中心的平均距离,找到递增的平均距离序列,确定动态网络标志物”,其具体作法如下:对基因共表达网络中的所有基因进行试验,将其选为拟定故障传播中心。计算其与各个时刻下故障基因子集中的故障基因的平均距离,得到平均距离序列矩阵中幅值最大的递增序列对应的基因即为动态网络标志物。
其中,在步骤三中所述的“故障基因”,是指每一时刻下差异表达量最大的k个基因,共有k×m个;
其中,在步骤三中所述的“故障基因子集”,是指时刻tj下的k个故障基因的集合,计为Nj
其中,在步骤三中所述的“故障基因集”,是指所有时刻下故障基因的全集N={Nj|j=1 , 2. 。。。 m };
其中,在步骤四中所述的“拟定故障传播中心”,是指为找到真正的故障传播中心,所选择进行试验的拟定故障传播中心nCAND
其中,在步骤四中所述的“距离递增序列矩阵”,是指各个时刻下的故障基因子集与所有拟定故障传播中心的平均距离序列组成的矩阵。
(三)优点和功效
相比较于传统分子生物标志物和静态网络标志物,本发明所采用的动态网络标志物具有如下优势:
(a)系统性:通过建立基因共表达网络,从系统的角度提出网络标志物。单元之间的相互作用关系被考虑进来,而不仅仅只是通过统计的方法来单一地分析致病的基因或蛋白质等。
(b)鲁棒性:静态网络标志物的识别对网络的拓扑结构十分敏感,如果不能对数据中的噪声进行妥当的处理,就会影响到标志物识别的结论。而动态网络标志物的识别对网络的拓扑结构的依赖性不强,并不需要直接进行拓扑结构的分析。
(c)预警性:静态网络标志物并不具有发展的特性,只能给出一个静态的指示。而动态网络标志物的探测方法可以预测未来的异常表达传播。根据识别到的传播中心的位置与传播的速度,可以预测下一时刻异常传播的范围,定位将要异常表达的基因。
综上,这种新方法的研究结果将对早期致病因子的寻找以及精准医疗提供强有力的方法支承。
附图说明
图1为本发明所述方法流程示意图。
图2为本发明中找到故障基因集的实现过程。
图中序号、符号、代号说明如下:
图2:
tj:表示某一固定时刻,其中j的取值范围为1,2,…,m。
n:表示基因总数
Nj:表示时刻tj下的故障基因子集,其中j的取值范围为1,2,…,m。
具体实施方式
为使本发明要解决的技术问题、技术方案更加清楚,下面将结合附图及具体实施案例进行详细描述。
本发明的目的在于针对复杂疾病的早期致病因子的探测问题,为弥补传统分子生物标志物和静态网络标志物的不足,从系统的角度提出一种基于网络传播分析的早期致病因子探测方法,可以有效的找到疾病的早期致病因子,为精准医疗做出贡献。
如图1所示,本发明一种基于基因共表达网络传播分析的早期致病因子探测方法,在实施案例中的具体步骤如下:
步骤一、对某种疾病的基因表达数据进行预处理;
对于一组基因表达数据,共有n个差异表达基因,m个时间测试点。对照组的基因表达记为ECG,i(t),i=1,2,...n,t=t1,t2,...,tm,病例组的基因表达记为 EEG,i(t),i=1,2,...n,t=t1,t2,...,tm。系统在正常状态下基因的表达量并不为零,并且不同基因有着自己不同的基础表达量。在使用病例组的基因表达数据EEG,i(t)前,应该滤掉对照组的表达数据ECG,i(t),才能保证基因共表达网络的建立是有效的。基因表达数据多为以log2为底的数据,因此,病例组的基因表达数据减去对照组的表达数据即为差异表达数据Ei(t)=EEG,i(t)-ECG,i(t),i=1,2,...,n,t=t1,t2,...,tm。如果基因表达数据不是以log2为底的数据,则应该使用病例组EEG,i(t)与对照组ECG,i(t) 数据的比值。
步骤二、通过相关性分析,决定两个基因是否存在共表达关系,从而建立无向网络;
差异表达序列Ei(t),反映了其在正常状态到疾病状态过程中基因表达的变化。将基因i与j的差异表达序列Ei(t),Ej(t)进行相关性分析,具体可以使用 Pearson相关系数、互信息、Spearman相关系数等。本例中使用Pearson相关系数来进行相关分析,其中,E 是数学期望,cov表示协方差,是标准差。对每对基因进行相关性分析,从而得到整个网络的相关性系数的分布ρDIST
将每个差异表达序列Ei(t)随机打乱,得到打乱的序列E″i(t)。使用打乱的差异表达序列E″i(t)重新计算相关性系数,得到打乱差异序列的相关性系数分布ρ″DIST。当ρDIST的值为ρ″DIST值的100倍时,规定此时的相关性系数的值为阈值ρTH。若没有100倍显著点,可以选取10倍显著。本例中使用100倍的显著点作为依据。根据阈值ρTH建立基因共表达网络,当相关性系数ρij>ρTH时,在基因i与基因j之间连边。
步骤三、对基因的差异表达排序,找到故障基因集;
在某一时刻tj,将步骤一所得的基因差异表达数据Ei(tj),i=1,2,...,n从高到低进行排序。首先判断已经选取的故障基因总数是否已经达到基因总数的5%,即k=n*5%。如果达到那么选取结束。如果没有,那么判断当前基因是否与tj-1时刻选取的故障基因重复,如果不重复,则选为故障基因,开始对下一基因进行判断。如果重复,那么该基因并不算作故障基因,也不进行计数,开始对下一基因进行判断。重复以上过程,直到选到k个故障基因,得到时刻tj的故障基因子集Nj。在所有时刻下进行此步骤,得到故障基因的全集N={Nj|j=1 , 2. 。。。 m }。此时,每个时刻下的故障基因子集都有k个故障基因。具体过程如图2所示。
步骤四、计算故障基因子集与拟定故障传播中心的平均距离,找到递增的平均距离序列,确定动态网络标志物。
选定故障中心nCAND,计算时刻tj下故障基因的子集Nj中的故障基因到故障中心nCAND的平均距离,即为:在所有时刻下重复上述步骤,得到某一故障中心nCAND对应的平均距离序列以所有基因作为故障中心进行遍历,共得到n个平均距离序列,表示为矩阵 为时刻tj时,集合Nj中所有故障基因到故障中心基因i的平均距离。找到矩阵递增的行并对其递增序列的幅值进行排序,选取幅值最大的基因作为动态网络标志物。
通过以上步骤,本发明从系统的角度寻找复杂疾病的标志物,并且考虑到系统从正常状态到疾病状态的演化,提出一种动态网络标志物的早期致病因子探测方法。
本发明未详细阐述部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于基因共表达网络传播分析的早期致病因子探测方法,其特征在于:其步骤如下:
步骤一、对某种疾病的基因表达数据进行预处理;
对于一组基因表达数据,共有n个差异表达基因,m个时间测试点;对照组的基因表达记为ECG,i(t),i=1,2,...n,t=t1,t2,...,tm,病例组的基因表达记为EEG,i(t);系统在正常状态下基因的表达量并不为零,并且不同基因有着自己不同的基础表达量;在使用病例组的基因表达数据EEG,i(t)前,应该滤掉对照组的表达数据ECG,i(t),才能保证基因共表达网络的建立是有效的;基因表达数据多为以log2为底的数据,因此,病例组的基因表达数据减去对照组的表达数据即为差异表达数据Ei(t)=EEG,i(t)-ECG,i(t);
步骤二、通过相关性分析,决定两个基因是否存在共表达关系,从而建立基因共表达网络;
差异表达序列Ei(t),反映了其在正常状态到疾病状态过程中基因表达的变化;将基因i与p的差异表达序列Ei(t),Ep(t)进行相关性分析,具体能使用皮尔逊即Pearson相关系数、互信息、斯皮尔曼即Spearman相关系数;其中,Pearson相关系数其中,E是数学期望,cov表示协方差,是标准差;对每对基因进行相关性分析,从而得到整个网络的相关性系数的分布ρDIST
将每个差异表达序列Ei(t)中的m个元素随机交换位置,从而得到打乱的序列E″i(t);计算打乱差异表达序列E″i(t)和E″p(t)的相关性系数,其中i≠p,p=1,2,...,n;统计打乱差异序列的所有相关性系数,得到其分布信息ρ″DIST,当ρDIST的值为ρ″DIST值的100倍时,规定此时的相关性系数的值为阈值ρTH;若没有100倍显著点,选取10倍显著;根据阈值ρTH建立基因共表达网络:网络共n个基因,复数个基因即为一个节点,计算基因i与基因p的相关性系数ρip,若ρip>ρTH则在基因i与基因p之间连边;
步骤三、对基因的差异表达排序,找到故障基因集;
在某一时刻tj下,将步骤一所得的基因差异表达数据Ei(tj)从高到低进行排序,根据需求选取基因总数n的一预定比例的k个基因;这些基因的差异表达量大,是过表达基因,能视为基因共表达网络中发生故障的基因,称之为故障基因;并且,tj时刻选取的故障基因不应与tj-1时刻故障基因重复;也就是说,如果tj时刻选取到的故障基因i在tj-1时刻已经被认定为故障基因,那么在tj时刻不添加到故障基因子集Nj中,并且不参与计数;这k个故障基因组成的集合为时刻tj下的故障基因子集Nj;在所有时刻下进行此步骤,得到故障基因的全集N={Nj|j=1,2,...,m};
步骤四、计算故障基因子集与拟定故障传播中心的平均距离,找到递增的平均距离序列,确定动态网络标志物;
在基因共表达网络中,故障从初始的故障中心沿着各个方向向外扩散,这个中心为故障传播中心;为找到真正的故障传播中心,选择一个基因作为拟定故障传播中心nCAND进行试验,其中CAND=1,2,...,n;计算时刻tj下故障基因子集Nj中的故障基因到拟定故障传播中心nCAND的平均距离,即为:在所有时刻下重复上述步骤,得到一拟定故障传播中心nCAND对应的平均距离序列以所有基因作为拟定故障传播中心,共得到n个平均距离序列,表示为平均距离递增序列矩阵找到矩阵递增的行并对其递增序列的幅值进行排序,选取幅值最大的基因作为动态网络标志物。
2.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法,其特征在于:在步骤二中所述的“通过相关性分析,决定两个基因是否存在共表达关系,从而建立基因共表达网络”,其具体作法如下:将一个基因看作网络中的一个节点,计算不同节点之间的相关性系数,若该系数大于选定的阈值则在两个节点之间连边;对所有节点对之间进行判定,最终连成基因共表达网络。
3.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法,其特征在于:在步骤三中所述的“对基因的差异表达排序,找到故障基因集”,其具体作法如下:对每一时刻下的差异表达数据由大到小排序,找到前k个基因,注意后一时刻不重复寻找前一时刻找过的故障基因;对所有时刻进行同样的操作,得到的k×m个故障基因的合集即为故障基因集。
4.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法,其特征在于:在步骤四中所述的“计算故障基因子集与拟定故障传播中心的平均距离,找到递增的平均距离序列,确定动态网络标志物”,其具体作法如下:对基因共表达网络中的所有基因进行试验,将其选为拟定故障传播中心;计算其与各个时刻下故障基因子集中的故障基因的平均距离,得到平均距离序列矩阵 中幅值最大的递增序列对应的基因即为动态网络标志物。
5.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法,其特征在于:在步骤三中所述的“故障基因”,是指每一时刻下差异表达量最大的k个基因,共有k×m个;所述的“故障基因集”,是指所有时刻下故障基因的全集N={Nj|j=1,2,...,m};所述的“故障基因子集”,是指时刻tj下的k个故障基因的集合,计为Nj
6.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法,其特征在于:在步骤四中所述的“拟定故障传播中心”,是指为找到真正的故障传播中心,所选择进行试验的拟定故障传播中心nCAND
7.根据权利要求1所述的一种基于基因共表达网络传播分析的早期致病因子探测方法,其特征在于:在步骤四中所述的“距离递增序列矩阵”,是指各个时刻下的故障基因子集与所有拟定故障传播中心的平均距离序列组成的矩阵。
CN201710566400.2A 2017-07-12 2017-07-12 基于基因共表达网络传播分析的早期致病因子探测方法 Active CN107463796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710566400.2A CN107463796B (zh) 2017-07-12 2017-07-12 基于基因共表达网络传播分析的早期致病因子探测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710566400.2A CN107463796B (zh) 2017-07-12 2017-07-12 基于基因共表达网络传播分析的早期致病因子探测方法

Publications (2)

Publication Number Publication Date
CN107463796A CN107463796A (zh) 2017-12-12
CN107463796B true CN107463796B (zh) 2019-10-18

Family

ID=60546238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710566400.2A Active CN107463796B (zh) 2017-07-12 2017-07-12 基于基因共表达网络传播分析的早期致病因子探测方法

Country Status (1)

Country Link
CN (1) CN107463796B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108591A (zh) * 2018-01-09 2018-06-01 华南理工大学 一种基于隐马尔科夫模型检测复杂生物系统相变临界点的方法
CN109616198A (zh) * 2018-12-28 2019-04-12 陈洪亮 仅用于肝癌单一癌种筛查的特异甲基化检测位点组合的选取方法
CN109686414A (zh) * 2018-12-28 2019-04-26 陈洪亮 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法
CN110223733B (zh) * 2019-04-22 2022-02-01 福建医科大学附属第一医院 一种多发性骨髓瘤预后基因的筛查方法
CN110197701B (zh) * 2019-04-22 2021-08-10 福建医科大学附属第一医院 一种新型多发性骨髓瘤诺模图构建方法
CN110444248B (zh) * 2019-07-22 2021-09-24 山东大学 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统
CN110379459B (zh) * 2019-08-13 2021-06-29 杭州新范式生物医药科技有限公司 一种基于转录组时序动态变化和基因功能关联发现分子标志物的方法及系统
CN110473591B (zh) * 2019-08-20 2022-09-27 西南林业大学 基于量子计算的基因网络功能模块挖掘及分析方法
CN112420201B (zh) * 2020-11-25 2022-09-30 哈尔滨工业大学 用于icu死亡率预测的深度级联框架
CN114708907B (zh) * 2022-04-11 2023-01-31 广州盛安医学检验有限公司 一种基于基因大数据的病症关联分析系统及方法
CN116453594B (zh) * 2023-06-15 2023-11-21 北京望石智慧科技有限公司 基因共表达状态的量化分析方法及装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001091026A2 (en) * 2000-05-25 2001-11-29 Genset S.A. Methods of dna marker-based genetic analysis using estimated haplotype frequencies and uses thereof
CN101137759A (zh) * 2005-02-18 2008-03-05 独立行政法人科学技术振兴机构 基因检测方法
CN101210266A (zh) * 2006-12-30 2008-07-02 苏州市长三角系统生物交叉科学研究院有限公司 基因组遗传标记间的相互作用与遗传性状相关性的测定方法
CN105631244A (zh) * 2015-12-30 2016-06-01 上海交通大学 一种预测两种疾病共同致病基因的方法
CN106295246A (zh) * 2016-08-07 2017-01-04 吉林大学 找到与肿瘤相关的lncRNA并预测其功能

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001091026A2 (en) * 2000-05-25 2001-11-29 Genset S.A. Methods of dna marker-based genetic analysis using estimated haplotype frequencies and uses thereof
CN101137759A (zh) * 2005-02-18 2008-03-05 独立行政法人科学技术振兴机构 基因检测方法
CN101210266A (zh) * 2006-12-30 2008-07-02 苏州市长三角系统生物交叉科学研究院有限公司 基因组遗传标记间的相互作用与遗传性状相关性的测定方法
CN105631244A (zh) * 2015-12-30 2016-06-01 上海交通大学 一种预测两种疾病共同致病基因的方法
CN106295246A (zh) * 2016-08-07 2017-01-04 吉林大学 找到与肿瘤相关的lncRNA并预测其功能

Also Published As

Publication number Publication date
CN107463796A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463796B (zh) 基于基因共表达网络传播分析的早期致病因子探测方法
Koestler et al. Improving cell mixture deconvolution by id entifying o ptimal dna methylation l ibraries (idol)
Keck et al. Boosting DNA metabarcoding for biomonitoring with phylogenetic estimation of operational taxonomic units’ ecological profiles
Watson et al. False-negative malaria rapid diagnostic test results and their impact on community-based malaria surveys in sub-Saharan Africa
Coetzee et al. Local scale comparisons of biodiversity as a test for global protected area ecological performance: a meta-analysis
De Villemereuil et al. A new FST‐based method to uncover local adaptation using environmental variables
Mishler et al. Phylogenetic measures of biodiversity and neo-and paleo-endemism in Australian Acacia
Saiz et al. The structure of plant spatial association networks is linked to plant diversity in global drylands
Ortego et al. Evolutionary and demographic history of the Californian scrub white oak species complex: an integrative approach
Lim et al. Sundaland's east–west rain forest population structure: variable manifestations in four polytypic bird species examined using RAD‐Seq and plumage analyses
ArunKumar et al. Population differentiation of southern Indian male lineages correlates with agricultural expansions predating the caste system
Winkler et al. Approaches to detect genetic effects that differ between two strata in genome-wide meta-analyses: Recommendations based on a systematic evaluation
Shen et al. Quantifying spatial phylogenetic structures of fully stem‐mapped plant communities
Gallien et al. Frequency and intensity of facilitation reveal opposing patterns along a stress gradient
Puig et al. A Bayesian test for Hardy–Weinberg equilibrium of biallelic X-chromosomal markers
Scherrer et al. How to evaluate community predictions without thresholding?
CN109448842B (zh) 人体肠道微生态失衡的确定方法、装置及电子设备
Voolstra et al. Disparate genetic divergence patterns in three corals across a pan-Pacific environmental gradient highlight species-specific adaptation
Cardillo Phylogenetic diversity in conservation: a brief history, critical overview, and challenges to progress
Hoeven et al. Social distance and spatial distance are not the same, observations on the use of GIS in leprosy epidemiology
Yuan et al. Bivariate logistic Bayesian LASSO for detecting rare haplotype association with two correlated phenotypes
Reynolds et al. Tests of two methods for identifying founder effects in metapopulations reveal substantial type II error
Southgate et al. Ecological outcome of allopolyploidy in Adiantum (Pteridaceae): niche intermediacy and expansion into novel habitats
Meysami et al. Estimating the optimal population upper bound for scan methods in retrospective disease surveillance
Juraska et al. Prevention efficacy of the broadly neutralizing antibody VRC01 depends on HIV-1 envelope sequence features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant