CN105740651A - 一种特定癌症差异表达基因调控网络的构建方法 - Google Patents

一种特定癌症差异表达基因调控网络的构建方法 Download PDF

Info

Publication number
CN105740651A
CN105740651A CN201610128387.8A CN201610128387A CN105740651A CN 105740651 A CN105740651 A CN 105740651A CN 201610128387 A CN201610128387 A CN 201610128387A CN 105740651 A CN105740651 A CN 105740651A
Authority
CN
China
Prior art keywords
gene
network
control network
regulated
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610128387.8A
Other languages
English (en)
Other versions
CN105740651B (zh
Inventor
刘桂霞
苏令涛
孟祥宇
马青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201610128387.8A priority Critical patent/CN105740651B/zh
Publication of CN105740651A publication Critical patent/CN105740651A/zh
Application granted granted Critical
Publication of CN105740651B publication Critical patent/CN105740651B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种特定癌症差异表达基因调控网络的构建方法,包括如下步骤:步骤一、根据基因间的功能相似性权值,构建骨架基因互作网络;步骤二、采用分割法,对骨架基因互作网络进行模块划分;步骤三、使用全基因甲基化数据筛选差异表达基因;步骤四、将筛选出来的差异表达基因按照功能进行归类;步骤五、将所有映射到相同功能模块的差异表达基因作为一个功能分类;步骤六、在对每一个功能分类中的所有基因构建调控网络;步骤七、在骨架网络的指导下进行子网络拼装。本发明大大降低了计算的复杂度并且有较高的精度。

Description

一种特定癌症差异表达基因调控网络的构建方法
技术领域
本发明涉及基因调控网络技术领域,特别涉及一种特定癌症差异表达基因调控网络的构建方法。
背景技术
构建特定癌症差异表达基因调控网络对于识别该种癌症的致病基因,药物靶标的筛选具有重要意义。在基因调控网络构建方面当前方法主要分为四大类:1,基于相似性度量的方法;2,基于图结构搜索的方法;3,基于概率推理的方法;4,基于方程求解的方法。在基于相似性度量的方法中,典型的相似性度量策略包括:皮尔森相关系数、互信息,距离相关等。如Margolin等提出的ARACNE算法就是基于互信息的方法来构建调控网络,这种方法利用离散化的基因表达数据计算基因间的相似性值,而在现实的生物系统中,基因的表达过程是连续的,因此,在对基因数据进行离散化时不可避免的会造成很多重要的表达信息的丢失。并且该方法适合于小规模数据分析,在数据量比较大的情况下扩展性很差。基于图结构搜索的算法包括:基于搜索评分的结构学习算法,基于布尔网络的建模方法,基于BDe评分函数的K2算法等,其中Cooper提出的K2算法首先在给定先验信息和节点顺序的情况下,通过后验概率作为评分标准并利用贪婪搜索方法找出最佳网络结构。但是这类方法不适合处理高维数据,计算复杂度高。贝叶斯网络是典型的基于概率推理的调控网络构建模型,它主要利用局部概率的乘积来近似描述整体网络结构复杂的概率分布。它是变量之间概率依赖关系的一种图形表示方式,节点之间存在边表示节点间存在概率依赖关系,且依赖的程度是一个概率参数。然而这类方法不能很好的重构基因间的调控关系,因为基因之间的复杂调控关系很难通过概率计算得到,因此通过这类方法构建的调控网络精度较低,算法鲁棒性差且计算复杂度高。基于方程求解的建模算法主要包括:线性方程方法、回归方程方法、基于状态空间方程的方法、基于自回归方程求解的方法。在基于方程的调控网络构建中微分方程法通过加入新的变量,微分方程模型可以进一步描述环境变化对于基因表达水平的影响。微分方程的缺点则是难以适应中大型网络的构建,中大型网络结构估计的精度较低。综上所述,尽管当前构建基因调控网络的方法多种多样但是归结起来他们都有如下缺陷:1、采用基因表达谱数据作为寻找基因间复杂调控关系的单一数据来源。然而,基因表达数据其实是一个点数据,是所有基因在某个特定时间点下的表达情况的一个定量描述,很难仅仅使用基因表达数据分析捕获基因间调控关系。2、普遍适用于小范围数据分析,计算复杂度较高,不适用于全基因组基因调控网络构建。3、精度值较低,当前方法普遍采用从基因表达数据逆向推理基因调控网络的方法,这种方法具有随机性,很难精确的寻找真正的调控作用关系。此外在寻找差异表达基因时通常采用对比患病样本和正常样本的基因表达水平的差异的方法,然而基因表达数据是基因调控作用的结果,没有从基因调控的源头进行分析。
发明内容
本发明设计开发了一种特定癌症差异表达基因调控网络的构建方法,克服了现有方法中计算复杂度高、数据来源单一、不适合全基因组调控网络构建的缺陷,大大降低了计算的复杂度并且有较高的精度。
本发明提供的技术方案为:
一种特定癌症差异表达基因调控网络的构建方法,包括如下步骤:
步骤一、根据基因间的功能相似性权值,构建骨架基因互作网络;
步骤二、采用分割法,对骨架基因互作网络进行模块划分;
步骤三、使用全基因甲基化数据筛选差异表达基因;
步骤四、将筛选出来的差异表达基因按照功能进行归类;
步骤五、将所有映射到相同功能模块的差异表达基因作为一个功能分类;
步骤六、在对每一个功能分类中的所有基因构建调控网络;
步骤七、在骨架网络的指导下进行子网络拼装。
优选的是,步骤一中,两个基因Gi、Gj间权值W(Gi,Gj)表示为:
W ( G i , G j ) = 1 m Σ n = 1 m Sim n ( G i , G j )
其中,m表示与基因相关信息的种类数,Simn(Gi,Gj)表示在某种信息注释下的相似值,表示为:
Sim n ( G i , G j ) = | N i ∩ N j | | N i ∪ N j | , ( n ∈ ( 1 , 2 , 3 , ... , m ) )
其中,|Ni∩Nj|因间共同的该信息表示在某种注释信息下任意两基的个数,|Ni∪Nj|表示两基因所含有的注释信息总数。
优选的是,与基因相关信息的种类数m=3,分别表示为基因的本体注释信息、基因的代谢通路信息、已知的基因间相互作用关系三个方面的信息。
优选的是,步骤二中的分割法为:对骨架网络中所有边,按照权值大小进行排序,然后依次选择权值最小的边删除,在删除过程中对网络中的模块数量、模块的节点数、边数、模块聚类系数等进行衡量,直到得到满足要求的模块划分为止。
优选的是,步骤三中,采用T检验,得到t分布
t = x ‾ c a s e - x ‾ c o n t r o l s c a s e 2 / n 1 + s c o n t r o l 2 / n 2
其中,表示某基因在所有患病样本下的平均甲基化值,表示该基因在说有对照组样本下甲基化的平均值,分别对应患病和正常甲基化的方差,其中n1和n2表示患病和正常样本的个数;
通过对每一个基因计算一个T统计量来衡量患病和正常情况下基因甲基化的差异,然后根据t分布计算显著性p值来衡量这种差异性,从而可以按照定义的阈值筛选出显著差异表达的基因。
优选的是,步骤六中,使用如下公式进行子调控网络的构建
i f c o n ( g i , g j ) t h e n · ( ( P ( - 1 , - 1 ) + P ( 1 , 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , 1 ) + P ( 1 , - 1 ) + P ( 0 , 0 ) ) ) > 0 · ( ( P ( - 1 , - 1 ) + P ( 1 , 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , 0 ) + P ( 0 , - 1 ) + P ( 1 , 0 ) + P ( 0 , 1 ) + P ( 0 , 0 ) ) ) > θ
i f r e ( g i , g j ) t h e n · ( ( P ( - 1 , 1 ) + P ( 1 , - 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , - 1 ) + P ( 1 , 1 ) + P ( 0 , 0 ) ) ) > 0 · ( ( P ( - 1 , 1 ) + P ( 1 , - 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , 0 ) + P ( 0 , - 1 ) + P ( 1 , 0 ) + P ( 0 , 1 ) + P ( 0 , 0 ) ) ) > θ
其中,con(gi,gj)表示基因gi和基因gj间是正向调控关系,re(gi,gj)表示两基因间是反向调控关系,θ是位于0到1之间的阈值。P(vi,vj)其中vi和vj取值为-1,0,1,定义如下
其中,N表示基因表达数据样本数,D表示离散化基因表达数据矩阵,是该矩阵中的元素,gi和gj是任意两个基因;D的构建方式如下:
D i j = - 1 i f M i j < avg i - &gamma; &times; sd i 0 i f avg i - &gamma; &times; sd i &le; i f M i j &le; avg i + &gamma; &times; sd i 1 i f M i j > avg i + &gamma; &times; sd i
其中,γ是0到1之间的参数值,Mi,j是抽取的基因表达矩阵,avgi表示基因i在所有样本下表达值的平均值,sdi表示基因i在所有样本下表达值的方差。
优选的是,步骤七之后还包括:
步骤八、对拼装后的网络进行校正。
本发明的有益效果是:
本发明针对当前算法精度普遍偏低的问题,提出融合基因本体注释、代谢通路信息、多基因交互信息等预先构建骨架基因关联网络的方法,大大提高了计算精度。针对当前算法的计算复杂度高,难以满足全基因组调控网络构建需求的问题,提出采用‘先分后合’构建策略,大大降低了计算的复杂度并且有较高的精度。针对当前差异表达基因调控网络构建数据来源单一的问题一方面引入与基因相关的基因本体注释信息,基因所在的代谢通路信息,已知的基因间相互作用信息等指导基因调控网络的构建。另一方面提出使用全基因组甲基化数据筛选差异表达基因。甲基化数据中含有基因的表达调控信息更适合差异表达基因的筛选。
附图说明
图1为本发明所述的特定癌症差异表达基因调控网络的构建方法流程图。
图2为本发明所述的Recall和Precision的变化情况示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供了一种特定癌症差异表达基因调控网络的构建方法,具体步骤如下:
步骤一S110、骨架基因互作网络的构建。
骨架基因互作网络是带权网络,其中的权值表示基因间的功能相似性,权值计算方式如下:
W ( G i , G j ) = 1 m &Sigma; n = 1 m Sim n ( G i , G j )
其中,m表示与基因相关信息的种类数,在本方法中优选m=3,只考虑基因的本体注释信息、基因的代谢通路信息、已知的基因间相互作用关系三个方面的信息。Simn(Gi,Gj)表示在某种信息注释下的相似值,如下公式:
Sim n ( G i , G j ) = | N i &cap; N j | | N i &cup; N j | , ( n &Element; ( 1 , 2 , 3 , ... , m ) )
其中,|Ni∩Nj|表示在某种注释信息下任意两基因间共同的该信息的个数,|Ni∪Nj|表示两基因所含有的注释信息总数。
通过使用上述公式我们可以对全基因组中任意两个基因间的相似值进行计算,通过设定合理的阈值从而可以构建出骨架基因关联网络。
上述阈值取值为0.1,之所以选择0.1主要是从如下三个角度进行分析:
第一,对任意两个基因间的相似值在分别只考虑基因的本体注释信息、基因的代谢通路信息、已知的基因间相互作用关系信息,以及三者同时考虑时的分布情况进行分析,结果如下表所示:
通过上表可以发现基因间的相似值集中在0-0.01之间,超过0.01的占少数,且按照相似值的定义,数值越大可信度越高。
第二,把相似性阈值从0.1到0.5变化,步长设为0.1,并与现有的骨架网络的节点数和边数等进行比较,结果如下表所示:
PPI Node number Edge number Edges in KP Proportion
PPI-0.1 16969 704673 177447 25%
PPI-0.2 8144 85689 57680 67%
PPI-0.3 2771 19349 16649 86%
PPI-0.4 826 1347 1068 79%
PPI-0.5 177 266 191 71.8%
从上表中可以看出,相似性值越大,基因间存在相互作用关系的可能性越高。
第三,综合上面两个分析,并且考虑到在阈值取0.1时一方面可以保证网络的可信度,另一方面还可以保证网络的节点数和边数与现有的骨架网络相一致,所以发明把相似性阈值设为0.1.
步骤二S120、骨架网络功能模块的划分。
在对骨架网络进行模块划分时本方法采用分割法,具体操作过程为:对骨架网络中所有边,按照权值大小进行排序,然后依次选择权值最小的边删除,在删除过程中对网络中的模块数量、模块的节点数、边数、模块聚类系数等进行衡量,直到得到满足要求的模块划分为止。模块的划分既要考虑模块的数量还要考虑划分后每个模块的质量状况,本方法使用如下的公式进行衡量:
Re c a l l = N M C N C
Pr e c i s i o n = N M P N P
其中,NC和NP分别表示参照模块数量和本方法分割的模块数量;NMC表示在参照的模块数据集中的模块被本方法分割得到的模块匹配上的个数;NMP表示分割的所有模块中被参照模块数据集匹配上的个数;其中的匹配公式计算方式如下:
M _ S c o r e ( A , B ) = | V A &cap; V B | | V A &cup; V B |
其中,|VA∩VB|表示模块A和模块B中共有的基因个数,|VA∪VB|表示模块A和模块B并集中所有基因个数。本方法中只要该匹配值大于0.2即认为两模块匹配。
把权值从0.1变化到0.5,期间Recall和Precision的变化情况如图2所示。
分析可知,在权值介于0.24到0.34之间时两衡量参数均可以取到较大值,因此,本文在模块分割时,当权值变化到0.28时停止分割。之所以取0.28是因为此时衡量参数取到最高值,且从前面的表中发现此时骨架网络的可信度也最高。
由于本方法在构建骨架网络的过程中对节点通过基因相关信息进行注释,因此功能相似基因间具有较高的连接权值。而复杂网络中模块的基本特性是模块内部基因间联系紧密,而不同模块间的基因连接稀疏。相应于骨架网络,连接不同模块的边权值较小,而相同模块内的基因间由于功能相似所以权值较大。因此,通过删除权值较小边对网络进行模块划分的方法能取得较好的划分。
步骤三S130、特定疾病差异表达基因的筛选。
本方法使用全基因甲基化数据筛选差异表达基因,而不是使用基因表达数据。因为甲基化数据(又成为表观遗传数据)记录了对基因的表达调控信息,在癌症的发生与发展中起着重要的作用。本方法对全基因组甲基化的正常和患病样本进行对比分析,通过甲基化程度的高低筛选出差异表达基因。具体做法采用T检验,T统计量定义如下公式:
t = x &OverBar; c a s e - x &OverBar; c o n t r o l s c a s e 2 / n 1 + s c o n t r o l 2 / n 2
其中,表示某基因在所有患病样本下的平均甲基化值,表示该基因在说有对照组样本下甲基化的平均值,分别对应患病和正常甲基化的方差,其中n1和n2表示患病和正常样本的个数。
通过使用上述公式对每一个基因计算一个T统计量来衡量患病和正常情况下基因甲基化的差异,然后根据t分布计算显著性p值来衡量这种差异性,从而可以按照定义的阈值筛选出显著差异表达的基因,本发明p值小于等于0.04。这些差异甲基化的基因是对该种癌症的发生、发展具有重要影响作用的基因,本方法通过构建这些差异基因间的关联网络可以从网络角度对癌症的致病基因进行研究,从而发现药物靶点。
步骤四S140、差异表达基因的集合。
本方法在构建差异表达基因调控网络时采用‘先部分后整体’的构建策略,即首先,把筛选出来的差异表达基因按照功能进行归类;其次,分别对每一类中的所有基因构建调控网络;最后,在骨架网络的指导下通过添加连接边把各子调控网络进行拼装,从而得到全局的调控网络。在骨架网络中各子调控网络间存在相互作用边,这些边把所有子网络连接在一起,共同构成骨架网络。在进行子网络拼装的过程中,由于处于子网络之间的连接边的存在与否无法向子网络内部的边那样来确定,所以本方法直接选择骨架网络中已存有的连接边作为各子网络拼装时的连接边。
步骤五S150、差异表达基因映射集合。
在差异表达基因分类时由于本方法事先对骨架网络进行了模块分割,所以本方法采用差异表达基因向模块映射的方法。把所有映射到相同功能模块的差异表达基因作为一个功能分类。在对骨架网络进行模块划分之后,每个模块中既含有正常表达基因也包含差异表达基因,因为本方法构建的是差异表达基因调控网络,因此每个模块中只保留那些差异表达基因,把所有正常表达基因删除。这个过程就叫做差异表达基因向功能模块映射。
步骤六S160、构建子调控网络。
在对每一个功能分类中的所有基因构建调控网络时,首先在全基因组二代测序数据中抽取出这些基因在所有患病样本下的表达值。
在子调控网络构建时使用如下公式:
i f c o n ( g i , g j ) t h e n &CenterDot; ( ( P ( - 1 , - 1 ) + P ( 1 , 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , 1 ) + P ( 1 , - 1 ) + P ( 0 , 0 ) ) ) > 0 &CenterDot; ( ( P ( - 1 , - 1 ) + P ( 1 , 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , 0 ) + P ( 0 , - 1 ) + P ( 1 , 0 ) + P ( 0 , 1 ) + P ( 0 , 0 ) ) ) > &theta;
i f r e ( g i , g j ) t h e n &CenterDot; ( ( P ( - 1 , 1 ) + P ( 1 , - 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , - 1 ) + P ( 1 , 1 ) + P ( 0 , 0 ) ) ) > 0 &CenterDot; ( ( P ( - 1 , 1 ) + P ( 1 , - 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , 0 ) + P ( 0 , - 1 ) + P ( 1 , 0 ) + P ( 0 , 1 ) + P ( 0 , 0 ) ) ) > &theta;
其中,con(gi,gj)表示基因gi和基因gj间是正向调控关系,re(gi,gj)表示两基因间是反向调控关系,θ是位于0到1之间的阈值。P(vi,vj)其中vi和vj取值为-1,0,1,定义如下公式
其中,N表示基因表达数据样本数,D表示离散化基因表达数据矩阵,是该矩阵中的元素,gi和gj是任意两个基因。D的构建方式如下公式:
D i j = - 1 i f M i j < avg i - &gamma; &times; sd i 0 i f avg i - &gamma; &times; sd i &le; i f M i j &le; avg i + &gamma; &times; sd i 1 i f M i j > avg i + &gamma; &times; sd i
其中,γ是0到1之间的参数值,Mi,j是抽取的基因表达矩阵,avgi表示基因i在所有样本下表达值的平均值,sdi表示基因i在所有样本下表达值的方差。
在对每一个功能分类中的所有基因构建调控网络,通过前面的步骤我们不仅得到了对骨架网络进行模块划分后的所有功能模块,还通过差异表达基因的映射得到了每个功能模块中的所有差异表达基因,通过使用本步骤中的调控关系计算公式可以对每个功能模块中的所有差异表达基因间的调控关系进行计算,从而可以得到每个功能模块中差异表达基因间的调控网络。
通过对表达数据离散化并使用上述公式可以实现子调控网络的构建。然而,通过这种计算方式找出的调控关系中可能存在虚假边,为此本方法通过与骨架网络中的边进行比较(使用本步骤中的调控关系计算公式可以从基因表达数据出发找到任意两个差异表达基因间的调控关系,即基因间的相互作用边。这些边中有些存在于骨架基因作用网络中,有些在骨架网络中并不存在,通过计算分析发现这些新出现的相互作用边只占少数,而我们前面得到的骨架网络中的边都具有很高的可信度。所以在本部分,我们只保留那些在骨架网络中存在的那些通过本部分公式计算得到的那些边。这样做的目的是既考虑到网络边的动态表达特性又保持较高的计算精度,尽量降低引入虚假边的风险。)删除骨架网络中不存在的边,把所有剩下的边作为真实的调控边,对所有的分类下的基因间都采用上述方式构建子调控网络,从而完成所有子网络的构建过程。
步骤七S170、子网络的拼装。
在所有子网络构建完成之后,需要完成所有子网络的拼装,从而得到最终的调控网络。本方法在进行子网络拼装时是在骨架网络的指导下完成的,通过对骨架网络的分析我们发现骨架网络是一种典型的复杂网络,同时骨架网络中存在着功能模块,在这些功能模块中个节点间连接紧密,而不同模块间联系较少。而骨架网络中的功能模块正好与前面构建的子网络相对应,所以在对子网络进行拼装的过程中只考虑骨架网络中模块间的连接边。在添加这些边的过程中首先要对这些边之间是否真正存在相互作用关系进行计算,如果计算结果满足条件则保留该边,否则予以删除。通过前面的步骤可知,在添加子网络间的调控边的时候我们只考虑那些在骨架网络中已有的连接边。然而,骨架网络中子网络间的连接边虽然都具有很高的可信度,但是在特定的基因表达数据下,这些边可能存在也可能不存在。所以,针对特定的基因表达数据而言,需要使用前述公式进行计算,只有经过计算确定存在的边予以保留,而那些虽然在骨架网络中存在但是经计算在该表达数据下不存在的边需予以删除。
步骤八S180、对拼装后的网络进行校正,最后输出差异表达基因调控网络。通过执行上一步的拼装过程可以完成差异表达基因调控子网络的拼装。但是,此时得到的调控网络中可能存在孤立的基因或者子网络,在这种情况下,需要进行调控网络的校正。校正过程其实就是把非连通网络变成连通网络的过程,如果非连通部分是单个基因那么就选择骨架网络中与该点相连边中权值最大的边作为连接边,如果非连通部分是个子调控网络则选择骨架网络中与该子网络中节点的连接权值最大的边作为连接边。
本发明的技术方案针对当前算法精度普遍偏低的问题,提出融合基因本体注释、代谢通路信息、多基因交互信息等预先构建骨架基因关联网络的方法,然后按照骨架网络的指导完成癌症特异性基因调控网络的构建。在计算任意两个基因之间的调控关系时,本方法提出使用基于离散化基因表达矩阵的调控关系检测方法。把基因表达值按照大小划分为低表达、正常表达和高表达三种情况,然后统计分析不同基因在相同样本下表达情况。
本发明的技术方案针对当前算法的计算复杂度高,难以满足全基因组调控网络构建需求的问题,提出采用‘先分后合’构建策略。通过计算分析发现在骨架网络中功能相似性基因存在模块化倾向,模块内部基因间联系紧密而不同模块内的基因间联系较少。因此,本技术方案提出对基因进行模块化分割的策略,分析特定癌症的全基因组甲基化数据筛选出差异表达基因并映射到相应的功能模块。构建差异表达基因调控网络时先构建每个模块内部差异表达基因间调控网络,然后按照骨架网络的指导完成全局网络的拼装。这种‘先部分后整体’的构建方法,大大降低了计算的复杂度并持有较高的精度。
本发明的技术方案针对当前差异表达基因调控网络构建数据来源单一的问题,一方面引入与基因相关的基因本体注释信息,基因所在的代谢通路信息,已知的基因间相互作用信息等指导基因调控网络的构建。另一方面提出使用全基因组甲基化数据筛选差异表达基因。甲基化数据中含有基因的表达调控信息更适合差异表达基因的筛选。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (7)

1.一种特定癌症差异表达基因调控网络的构建方法,其特征在于,包括如下步骤:
步骤一、根据基因间的功能相似性权值,构建骨架基因互作网络;
步骤二、采用分割法,对骨架基因互作网络进行模块划分;
步骤三、使用全基因甲基化数据筛选差异表达基因;
步骤四、将筛选出来的差异表达基因按照功能进行归类;
步骤五、将所有映射到相同功能模块的差异表达基因作为一个功能分类;
步骤六、在对每一个功能分类中的所有基因构建调控网络;
步骤七、在骨架网络的指导下进行子网络拼装。
2.根据权利要求1所述的特定癌症差异表达基因调控网络的构建方法,其特征在于,步骤一中,两个基因Gi、Gj间权值W(Gi,Gj)表示为:
W ( G i , G j ) = 1 m &Sigma; n = 1 m Sim n ( G i , G j )
其中,m表示与基因相关信息的种类数,Simn(Gi,Gj)表示在某种信息注释下的相似值,表示为:
Sim n ( G i , G j ) = | N i &cap; N j | | N i &cup; N j | , ( n &Element; ( 1 , 2 , 3 , ... , m ) )
其中,|Ni∩Nj|表示在某种注释信息下任意两基因间共同的该信息的个数,|Ni∪Nj|表示两基因所含有的注释信息总数。
3.根据权利要求2所述的特定癌症差异表达基因调控网络的构建方法,其特征在于,与基因相关信息的种类数m=3,分别表示为基因的本体注释信息、基因的代谢通路信息、已知的基因间相互作用关系三个方面的信息。
4.根据权利要求3所述的特定癌症差异表达基因调控网络的构建方法,其特征在于,步骤二中的分割法为:对骨架网络中所有边,按照权值大小进行排序,然后依次选择权值最小的边删除,在删除过程中对网络中的模块数量、模块的节点数、边数、模块聚类系数等进行衡量,直到得到满足要求的模块划分为止。
5.根据权利要求1所述的特定癌症差异表达基因调控网络的构建方法,其特征在于,步骤三中,采用T检验,得到t分布
t = x &OverBar; c a s e - x &OverBar; c o n t r o l s c a s e 2 / n 1 + s c o n t r o l 2 / n 2
其中,表示某基因在所有患病样本下的平均甲基化值,表示该基因在说有对照组样本下甲基化的平均值,分别对应患病和正常甲基化的方差,其中n1和n2表示患病和正常样本的个数;
通过对每一个基因计算一个T统计量来衡量患病和正常情况下基因甲基化的差异,然后根据t分布计算显著性p值来衡量这种差异性,从而可以按照定义的阈值筛选出显著差异表达的基因。
6.根据权利要求1所述的特定癌症差异表达基因调控网络的构建方法,其特征在于,步骤六中,使用如下公式进行子调控网络的构建
i f c o m ( g i , g j ) t h e n &CenterDot; ( ( P ( - 1 , - 1 ) + P ( 1 , 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , 1 ) + P ( 1 , - 1 ) + P ( 0 , 0 ) ) ) > 0 &CenterDot; ( ( P ( - 1 , - 1 ) + P ( 1 , 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , 0 ) + P ( 0 , - 1 ) + P ( 1 , 0 ) + P ( 0 , 1 ) + P ( 0 , 0 ) ) ) > &theta;
i f r e ( g i , g j ) t h e n &CenterDot; ( ( P ( - 1 , 1 ) + P ( 1 , - 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , - 1 ) + P ( 1 , 1 ) + P ( 0 , 0 ) ) ) > 0 &CenterDot; ( ( P ( - 1 , 1 ) + P ( 1 , - 1 ) + P ( 0 , 0 ) ) - ( P ( - 1 , 0 ) + P ( 0 , - 1 ) + P ( 1 , 0 ) + P ( 0 , 1 ) + P ( 0 , 0 ) ) ) > &theta;
其中,con(gi,gj)表示基因gi和基因gj间是正向调控关系,re(gi,gj)表示两基因间是反向调控关系,θ是位于0到1之间的阈值。P(vi,vj)其中vi和vj取值为-1,0,1,定义如下
其中,N表示基因表达数据样本数,D表示离散化基因表达数据矩阵,Dgi,h是该矩阵中的元素,gi和gj是任意两个基因;D的构建方式如下:
D i j = - 1 i f M i j < avg i - &gamma; &times; sd i 0 i f avg i - &gamma; &times; sd i &le; i f M i j &le; avg i + &gamma; &times; sd i 1 i f M i j > avg i + &gamma; &times; sd i
其中,γ是0到1之间的参数值,Mi,j是抽取的基因表达矩阵,avgi表示基因i在所有样本下表达值的平均值,sdi表示基因i在所有样本下表达值的方差。
7.根据权利要求1所述的特定癌症差异表达基因调控网络的构建方法,其特征在于,步骤七之后还包括
步骤八、对拼装后的网络进行校正。
CN201610128387.8A 2016-03-07 2016-03-07 一种特定癌症差异表达基因调控网络的构建方法 Expired - Fee Related CN105740651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610128387.8A CN105740651B (zh) 2016-03-07 2016-03-07 一种特定癌症差异表达基因调控网络的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610128387.8A CN105740651B (zh) 2016-03-07 2016-03-07 一种特定癌症差异表达基因调控网络的构建方法

Publications (2)

Publication Number Publication Date
CN105740651A true CN105740651A (zh) 2016-07-06
CN105740651B CN105740651B (zh) 2018-05-22

Family

ID=56250081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610128387.8A Expired - Fee Related CN105740651B (zh) 2016-03-07 2016-03-07 一种特定癌症差异表达基因调控网络的构建方法

Country Status (1)

Country Link
CN (1) CN105740651B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874706A (zh) * 2017-01-18 2017-06-20 湖南大学 一种基于功能模块的疾病关联因子识别方法及系统
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN107025387A (zh) * 2017-03-29 2017-08-08 电子科技大学 一种用于癌症生物标志物识别的方法
CN107292128A (zh) * 2017-06-27 2017-10-24 湖南农业大学 一种配对互作基因检测方法及预测模型
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN107609348A (zh) * 2017-08-29 2018-01-19 上正大(上海)基因生物工程有限公司 高通量转录组数据样本分类数目估计方法
CN107766697A (zh) * 2017-09-18 2018-03-06 西安电子科技大学 一种泛癌症基因表达和甲基化关联分析方法
CN109243523A (zh) * 2018-08-24 2019-01-18 东北大学 一种基于乳腺癌疾病的调控网络构建及分析方法
CN109935341A (zh) * 2019-04-09 2019-06-25 北京深度制耀科技有限公司 一种药物新适应症的预测方法及装置
CN110491442A (zh) * 2019-08-15 2019-11-22 电子科技大学 单细胞miRNA调控网络的识别方法、装置、设备及存储介质
CN110827916A (zh) * 2019-10-24 2020-02-21 南方医科大学南方医院 一种精神分裂症基因-基因互作网络及其构建方法
WO2020037464A1 (zh) * 2018-08-20 2020-02-27 唐山照澜海洋科技有限公司 一种基于集成特征重要性和鸡群算法的基因调控网络构建方法
CN114373502A (zh) * 2022-01-07 2022-04-19 吉林大学第一医院 一种基于甲基化的肿瘤数据分析系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6203987B1 (en) * 1998-10-27 2001-03-20 Rosetta Inpharmatics, Inc. Methods for using co-regulated genesets to enhance detection and classification of gene expression patterns
US20020042681A1 (en) * 2000-10-03 2002-04-11 International Business Machines Corporation Characterization of phenotypes by gene expression patterns and classification of samples based thereon
CN101105841A (zh) * 2007-02-12 2008-01-16 浙江大学 由大规模基因芯片表达谱数据构建基因调控亚网络的方法
CN101256641A (zh) * 2008-03-11 2008-09-03 浙江大学 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法
CN103150487A (zh) * 2012-11-29 2013-06-12 扬州大学 一种构建鸡肌肉肌苷酸合成途径相关关键酶基因网络调控方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6203987B1 (en) * 1998-10-27 2001-03-20 Rosetta Inpharmatics, Inc. Methods for using co-regulated genesets to enhance detection and classification of gene expression patterns
US20020042681A1 (en) * 2000-10-03 2002-04-11 International Business Machines Corporation Characterization of phenotypes by gene expression patterns and classification of samples based thereon
CN101105841A (zh) * 2007-02-12 2008-01-16 浙江大学 由大规模基因芯片表达谱数据构建基因调控亚网络的方法
CN101256641A (zh) * 2008-03-11 2008-09-03 浙江大学 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法
CN103150487A (zh) * 2012-11-29 2013-06-12 扬州大学 一种构建鸡肌肉肌苷酸合成途径相关关键酶基因网络调控方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MING ZHENG ETC: "Gene regulatory network reconstruction with multiple dataset fusion and differential equation", 《2010 FIFTH INTERNATIONAL CONFERENCE ON FRONTIER OF COMPUTER SCIENCE AND TECHNOLOGY》 *
YUAN TIAN ETC: "A METHOD FOR IDENTIFYING DIFFERENTIALLY EXPRESSED GENES IN MICROARRAY DATA", 《BIOTECHNOL》 *
杨博: "基因调控网络构建及在癌症基因预测中的应用", 《中国博士学位论文全文数据库 基础科学辑》 *
沈威 等: "基于奇异值求通解方法进行基因调控网络构建", 《中南大学学报(自然科学版)》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874706A (zh) * 2017-01-18 2017-06-20 湖南大学 一种基于功能模块的疾病关联因子识别方法及系统
CN107025387A (zh) * 2017-03-29 2017-08-08 电子科技大学 一种用于癌症生物标志物识别的方法
CN107025387B (zh) * 2017-03-29 2020-09-18 电子科技大学 一种用于癌症生物标志物识别的方法
CN107016261B (zh) * 2017-04-11 2019-10-11 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN107292128A (zh) * 2017-06-27 2017-10-24 湖南农业大学 一种配对互作基因检测方法及预测模型
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN107368707B (zh) * 2017-07-20 2020-07-10 东北大学 基于us-elm的基因芯片表达数据分析系统及方法
CN107609348A (zh) * 2017-08-29 2018-01-19 上正大(上海)基因生物工程有限公司 高通量转录组数据样本分类数目估计方法
CN107609348B (zh) * 2017-08-29 2020-06-23 上海三誉华夏基因科技有限公司 高通量转录组数据样本分类数目估计方法
CN107766697A (zh) * 2017-09-18 2018-03-06 西安电子科技大学 一种泛癌症基因表达和甲基化关联分析方法
WO2020037464A1 (zh) * 2018-08-20 2020-02-27 唐山照澜海洋科技有限公司 一种基于集成特征重要性和鸡群算法的基因调控网络构建方法
CN109243523A (zh) * 2018-08-24 2019-01-18 东北大学 一种基于乳腺癌疾病的调控网络构建及分析方法
CN109243523B (zh) * 2018-08-24 2021-06-11 东北大学 一种基于乳腺癌疾病的调控网络构建及分析方法
CN109935341A (zh) * 2019-04-09 2019-06-25 北京深度制耀科技有限公司 一种药物新适应症的预测方法及装置
CN110491442A (zh) * 2019-08-15 2019-11-22 电子科技大学 单细胞miRNA调控网络的识别方法、装置、设备及存储介质
CN110491442B (zh) * 2019-08-15 2021-06-04 电子科技大学 单细胞miRNA调控网络的识别方法、装置、设备及存储介质
CN110827916A (zh) * 2019-10-24 2020-02-21 南方医科大学南方医院 一种精神分裂症基因-基因互作网络及其构建方法
CN114373502A (zh) * 2022-01-07 2022-04-19 吉林大学第一医院 一种基于甲基化的肿瘤数据分析系统
CN114373502B (zh) * 2022-01-07 2022-12-06 吉林大学第一医院 一种基于甲基化的肿瘤数据分析系统

Also Published As

Publication number Publication date
CN105740651B (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN105740651A (zh) 一种特定癌症差异表达基因调控网络的构建方法
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
Konstantelos et al. Using vine copulas to generate representative system states for machine learning
CN109753664A (zh) 一种面向领域的概念抽取方法、终端设备及存储介质
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN104820841B (zh) 基于低阶互信息和光谱上下文波段选择的高光谱分类方法
CN105930688A (zh) 基于改进pso算法的蛋白质功能模块检测方法
CN111476261A (zh) 一种社区增强的图卷积神经网络方法
CN106845536A (zh) 一种基于图像缩放的并行聚类方法
Santiago-Bautista et al. Identification of filamentary structures in the environment of superclusters of galaxies in the Local Universe
Cui et al. Learning global pairwise interactions with Bayesian neural networks
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备
Joshi et al. Statistical downscaling of precipitation and temperature using sparse Bayesian learning, multiple linear regression and genetic programming frameworks
CN112132014A (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN112182306B (zh) 一种基于不确定图的社区发现方法
Wu et al. Fuzzy clustering based pseudo-swept volume decomposition for hexahedral meshing
CN115546525A (zh) 多视图聚类方法、装置、电子设备及存储介质
CN104077765A (zh) 图像分割装置、图像分割方法和程序
CN107818328A (zh) 结合局部信息的不完整数据相似性刻画方法
Wind et al. Link prediction in weighted networks
CN113066528B (zh) 基于主动半监督图神经网络的蛋白质分类方法
Manolopoulou et al. BPEC: An R package for Bayesian phylogeographic and ecological clustering
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
Vrugt Multi-criteria optimization using the AMALGAM software package: theory, concepts, and MATLAB implementation
CN115221389A (zh) 一种跨模态检索模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180522

Termination date: 20210307