CN107016260B - 一种基于跨平台基因表达数据的基因调控网络重建方法 - Google Patents
一种基于跨平台基因表达数据的基因调控网络重建方法 Download PDFInfo
- Publication number
- CN107016260B CN107016260B CN201710201797.5A CN201710201797A CN107016260B CN 107016260 B CN107016260 B CN 107016260B CN 201710201797 A CN201710201797 A CN 201710201797A CN 107016260 B CN107016260 B CN 107016260B
- Authority
- CN
- China
- Prior art keywords
- gene expression
- platform
- gene
- network
- regulatory network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基于跨平台基因表达数据的基因调控网络重建方法,根据跨平台基因表达数据的特点,通过获取来自p个测序平台基因表达数据,并进行预处理,然后从每个基因样本中抽取n个基因表达量,并基于偏相关系数的混合型条件独立性测试得到每个基因表达量的父子节点集,将其应用于跨平台因果网络结构学习的学习网络骨架、确定v‑结构和最大化标志方向三个过程中,从而重建出跨平台基因调控网络,本发明利用因果图模型解决跨平台基因调控网络的问题,能直接有效地利用跨平台基因表达数据进行高维的基因调控网络重建的同时,避免数据预处理过程导致的数据过度平滑等问题,提高了跨平台基因调控网络重建结果的正确率和召回率。
Description
技术领域
本发明涉及一种生物信息处理技术领域,尤其是一种基于跨平台基因表达数据的基因调控网络重建方法。
背景技术
基因调控网络是反映基因之间相互影响关系的复杂网络,它对研究生命现象的内在规律有非常重要的作用,利用基因表达数据发现基因调控关系是生物信息学中的一个挑战。随着基因微阵列技术的快速发展,目前已有出现多种基因测序平台,但是由于测序平台的不一,实验环境差异等问题,导致在不同测序平台下产生的基因表达数据往往存在无法直接比较、维度高等问题。典型的基因调控网络重建方法多适用于单平台的基因表达数据,应用于这样的跨平台基因表达数据表现并不理想。因此,整合利用不同测序平台产生的基因表达数据进行基因调控网络重建是目前的研究焦点之一。
为了解决不同平台之间基因表达数据不能直接比较的问题,比较常用的方法是通过数据标准化的方法,把不同平台的基因表达数据按照一定的规则拉升或者压缩到统一个数据范围内,转换后可将不同平台的数据合并为一个基因表达数据矩阵,使得不同平台的样本数据可以整合到一起进行分析。常见的数据标准化方法包括Shabalin提出的XPN方法,Benito的DWD方法、经验贝叶斯方法(ComBat)等等。
然而,这些数据标准化技术往往会带来数据过度平滑的问题,基因表达数据上的生物信号可能会在数据标准化的过程中被删除,导致跨平台基因调控网络重建结果并不理想,所以数据标准化并不是处理跨平台基因表达数据的最佳方式。设计一种适用于跨平台基因表达数据的基因调控网络重建的方法具有重要的研究意义。
基因之间的调控关系可以表示为基因之间的因果关系,基因调控网络即基因之间的因果网络。所以因果图模型可以很好地解决基因调控网络的重建问题,近年来也有不少基于因果网络结构学习方法的基因调控网络重建的研究,这些方法应用于单个测序平台的基因表达数据的实验结果也有不错的表现。对于跨平台基因表达数据,将测序平台作为因果图模型中的外生变量引入基因调控网络重建模型中,与使用数据标准化技术相比,避免了数据过度平滑的问题,是一个值得探究的新思路。
发明内容
针对现有技术的不足,本发明提供一种基于跨平台基因表达数据的基因调控网络重建方法。
本发明的技术方案为:一种基于跨平台基因表达数据的基因调控网络重建方法,包括以下步骤:
S1)、从GEO基因表达数据库中获取来自p个测序平台基因表达数据,其中,每个测序平台包括多个基因样本,分别对p个测序平台基因表达数据进行预处理,删除每个测序平台中基因表达量缺失过多的基因样本,
并将预处理后的p个测序平台基因表达数据合并得到基因样本量为m的基因样本集X={x1,x2,...xm},然后从基因样本集X={x1,x2,...xm}的每个基因样本中抽取n个基因表达量,从而得到基因调控网络样本集G={g11,g12,...g1n,g21,g22,...g2n,…gm1,gm2,...gmn};
S2)、初始化基因调控网络,用因果网络图表示基因调控网络,其中,一个基因表达量对应图中的一个节点,平台变量用一个对所有基因表达量都有影响的外生节点d表示,将基因调控网络初始化为空图;
S3)、用混合型条件独立性测试检验基因表达量gi与其他各基因表达量gj之间的条件独立性,若条件独立性测试结果表明gi和gj没有被其他基因表达量d-分隔(有向分隔),则将gj加入到gi的父子节点集PC(gi)中,即PC(gi)={gj};
S4)、重复步骤S3),得到基因调控网络中每个基因表达量节点的父子节点集PC(gi);
S5)、根据各基因表达量的父子节点集PC(gi),若基因调控网络中的任意两个基因表达量gi和gj互相存在于对方的父子节点集中,则将gi和gj用无向边连接起来,得到基因调控网络图骨架;
S6)、逐个检查网络图骨架中具有gi-gj-gk结构的任意三个基因表达量节点,根据混合型条件独立性测试的结果,确定是否存在v-结构,若混合型条件独立性测试的结果为gi⊥gk,gi⊥gk|gj,则认为gi,gj,gk之间构成了一个v-结构,则将图中这两条无向边的方向标记为gi→gj←gk;
S7)、根据不产生多余的v-结构、无环约束规则对基因调控网络图中未标记方向的边进行最大化方向标记,直到不能标记更多无向边的方向为止;
不产生多余的v-结构的规则为:网络图中具有gi→gj-gk结构的任意三个基因表达量节点,将gj-gk之间的边标记为gj→gk;
无环约束的规则为:网络图中两个相连节点gi-gj,若存在gi指向gj的有向路径,则将gi-gj标记为gi→gj;
S8)、输出跨平台基因调控网络。
上述技术方案中,步骤S3)中,所述的混合型条件独立性测试包括以下步骤:
S301)、判断基因表达量gi,gj在给定基因表达量gK和平台时的条件独立性,用d表示平台变量,将gi,gj和gK的样本数据抽取出来;
S302)、对每个平台下对应的gi,gj,gK的样本数据,计算偏相关系数ρi,j|K,偏相关系数ρi,j|K可以通过线性回归计算得到,或者递归计算下面的公式得到,其中h∈K:
S303)、重复S302步骤,分别得到p个平台对应的偏相关系数集Pi,j|K={(ρi,j|K)1,(ρi,j|K)2,...,(ρi,j|K)p};
S304)、若这p个偏相关系数总体上为零,则gi⊥gj|[gK,d]成立,然后对偏相关系数集Pi,j|K={(ρi,j|K)1,(ρi,j|K)2,...,(ρi,j|K)p}的p个偏相关系数进行费雪z-转换,得到Zi,j|K={z1,z2,...zp},转换的公式为:
S305)、若成立,则基因表达量gi,gj在给定gK和平台时条件独立,则表明基因表达量gi,gj被gK d-分隔(有向分隔);
其中,Nq为第q个平台的样本数,Z为gK的维度,Φ-1(1-α/2,p)表示均值为0,均方差为p的正态分布累计函数的反函数。
本发明的有益效果为:利用因果图模型解决跨平台基因调控网络的问题,能解决跨平台基因表达数据可比性差、维度高等问题,避免了由于数据标准化等技术在基因调控网络重建过程中带来的数据过度平滑等负面影响,该方法简单、直观、有效。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例的初始化基因调控网络图的示意图;
图3为本发明实施例的基因调控网络图骨架的示意图;
图4为本发明实施例的基因调控网络图骨架确定v-结构的示意图;
图5为本发明实施例的基因调控网络图最大化方向标记后的示意图;
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,一种基于跨平台基因表达数据的基因调控网络重建方法,包括以下步骤:
S1)、从GEO基因表达数据库中获取来自p个测序平台基因表达数据,其中,每个测序平台包括多个基因样本,分别对p个测序平台基因表达数据进行预处理,删除每个测序平台中基因表达量缺失过多的基因样本,并将预处理后的p个测序平台基因表达数据合并得到基因样本量为m的基因样本集X={x1,x2,...xm},然后从基因样本集X={x1,x2,...xm}的每个基因样本中抽取n个基因表达量,得到基因调控网络样本集G={g11,g12,...g1n,g21,g22,...g2n,…gm1,gm2,...gmn};
为了便于理解,该实施例中共抽取7个基因表达量,其基因调控网络集为G={g1,g2,g3,g4,g5,g6,g7};
S2)、初始化基因调控网络,用因果网络图表示基因调控网络,其中,一个基因表达量对应图中的一个节点,平台变量用一个对所有基因表达量都有影响的外生节点d表示,将基因调控网络初始化为空图,如图2所示;
S3)、用混合型条件独立性测试检验基因表达量gi与其他各基因表达量gj之间的条件独立性,若条件独立性测试结果表明gi和gj没有被其他基因表达量d-分隔(有向分隔),则将gj加入到gi的父子节点集PC(gi)中,即PC(gi)={gj};
S4)、重复步骤S3,得到基因调控网络中每个基因表达量节点的父子节点集PC(gi),假定:
PC(g1)={g5};
PC(g2)={g3,g4};
PC(g3)={g2,g5};
PC(g4)={g2};
PC(g5)={g1,g3,g6,g7};
PC(g6)={g5};
PC(g7)={g5};
S5)、根据各基因表达量的父子节点集PC(gi),若基因调控网络中的任意两个基因表达量gi和gj互相存在于对方的父子节点集中,则将gi和gj用无向边连接起来,得到基因调控网络图骨架,如图3所示;
S6)、逐个检查网络图骨架中具有gi-gj-gk结构的任意三个节点,根据混合型条件独立性测试的结果,确定是否存在v-结构,若混合型条件独立性测试的结果为gi⊥gk,gi⊥gk|gj,则认为gi,gj,gk之间构成了一个v-结构,则将图中这两条无向边的方向标记为gi→gj←gk,如图4所示;
S7)、根据不产生多余的v-结构、无环约束规则对基因调控网络图中未标记方向的边进行最大化方向标记,直到不能标记更多无向边的方向为止,如图5所示;
不产生多余的v-结构的规则为:网络图中具有gi→gj-gk结构的任意三个节点,将gj-gk之间的边标记为gj→gk;
无环约束的规则为:网络图中两个相连节点gi-gj,若存在gi指向gj的有向路径,则将gi-gj标记为gi→gj;
S8)、输出跨平台基因调控网络。
上述技术方案中,步骤S3)中,所述的混合型条件独立性测试包括以下步骤:
S301)、判断基因表达量gi,gj在给定gK和平台时的条件独立性,用d表示平台变量,将gi,gj和gK的样本数据抽取出来;
S302)、对每个平台下对应的gi,gj,gK的样本数据,计算偏相关系数ρi,j|K,偏相关系数ρi,j|K可以通过线性回归计算得到,或者递归计算下面的公式得到,其中h∈K:
S303)、重复S302步骤,分别得到p个平台对应的偏相关系数集Pi,j|K={(ρi,j|K)1,(ρi,j|K)2,...,(ρi,j|K)p};
S304)、若这p个偏相关系数总体上为零,则gi⊥gj|[gK,d]成立,然后对偏相关系数集Pi,j|K={(ρi,j|K)1,(ρi,j|K)2,...,(ρi,j|K)p}的p个偏相关系数进行费雪z-转换,得到Zi,j|K={z1,z2,...zp},转换的公式为:
S305)、若成立,则基因表达量gi,gj在给定gK和平台时条件独立,则表明基因表达量gi,gj被gK d-分隔(有向分隔);
其中,Nq为第q个平台的样本数,Z为gK的维度,Φ-1(1-α/2,p)表示均值为0,均方差为p的正态分布累计函数的反函数。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (2)
1.一种基于跨平台基因表达数据的基因调控网络重建方法,其特征在于,包括以下步骤:
S1)、从GEO基因表达数据库中获取来自p个测序平台基因表达数据,其中,每个测序平台包括多个基因样本,分别对p个测序平台基因表达数据进行预处理,删除每个测序平台中基因表达量缺失过多的基因样本,
并将预处理后的p个测序平台基因表达数据合并得到基因样本量为m的基因样本集X={x1,x2,...xm},然后分别从基因样本集X={x1,x2,...xm}的每个基因样本中抽取n个基因表达量,从而得到基因调控网络样本集G={g11,g12,...g1n,g21,g22,...g2n,…gm1,gm2,...gmn};
S2)、初始化基因调控网络,用因果网络图表示基因调控网络,其中,一个基因表达量对应图中的一个节点,平台变量用一个对所有基因表达量都有影响的外生节点d表示,将基因调控网络初始化为空图;
S3)、用混合型条件独立性测试检验基因表达量gi与其他各基因表达量gj之间的条件独立性,若条件独立性测试结果表明gi和gj没有被其他基因表达量d-分隔(有向分隔),则将gj加入到gi的父子节点集PC(gi)中,即PC(gi)={gj};
S4)、重复步骤S3),得到基因调控网络中每个基因表达量节点的父子节点集PC(gi);
S5)、根据各基因表达量的父子节点集PC(gi),若基因调控网络中的任意两个基因表达量gi和gj互相存在于对方的父子节点集中,则将gi和gj用无向边连接起来,得到基因调控网络图骨架;
S6)、逐个检查网络图骨架中具有gi-gj-gk结构的任意三个基因表达量节点,根据混合型条件独立性测试的结果,确定是否存在v-结构,若混合型条件独立性测试的结果为gi⊥gk,则认为gi,gj,gk之间构成了一个v-结构,则将图中这两条无向边的方向标记为gi→gj←gk;
S7)、根据不产生多余的v-结构、无环约束规则对基因调控网络图中未标记方向的边进行最大化方向标记,直到不能标记更多无向边的方向为止;
不产生多余的v-结构的规则为:网络图中具有gi→gj-gk结构的任意三个基因表达量节点,将gj-gk之间的边标记为gj→gk;
无环约束的规则为:网络图中两个相连节点gi-gj,若存在gi指向gj的有向路径,则将gi-gj标记为gi→gj;
S8)、输出跨平台基因调控网络。
2.根据权利要求1所述的一种基于跨平台基因表达数据的基因调控网络重建方法,其特征在于:步骤S3)中,所述的混合型条件独立性测试包括以下步骤:
S301)、判断基因表达量gi,gj在给定基因表达量gK和平台时的条件独立性,用d表示平台变量,将gi,gj和gK的样本数据抽取出来;
S302)、对每个平台测序下对应的gi,gj,gK的样本数据,计算偏相关系数ρi,j|K,偏相关系数ρi,j|K可以通过线性回归计算得到,或者递归计算下面的公式得到,其中h∈K:
S303)、重复S302步骤,分别得到p个测序平台对应的偏相关系数集Pi,j|K={(ρi,j|K)1,(ρi,j|K)2,...,(ρi,j|K)p};
S304)、若这p个偏相关系数总体上为零,则gi⊥gj|[gK,d]成立,然后对偏相关系数集Pi,j|K={(ρi,j|K)1,(ρi,j|K)2,...,(ρi,j|K)p}的p个偏相关系数进行费雪z-转换,得到Zi,j|K={z1,z2,...zp},其转换的公式为:
S305)、若成立,则基因表达量gi,gj在给定基因变量gK和平台时条件独立,则表明基因表达量gi,gj被基因变量gKd-分隔(有向分隔);
其中,Nq为第q个平台的样本数,Z为gK的维度,Φ-1(1-α/2,p)表示均值为0,均方差为p的正态分布累计函数的反函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710201797.5A CN107016260B (zh) | 2017-03-30 | 2017-03-30 | 一种基于跨平台基因表达数据的基因调控网络重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710201797.5A CN107016260B (zh) | 2017-03-30 | 2017-03-30 | 一种基于跨平台基因表达数据的基因调控网络重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107016260A CN107016260A (zh) | 2017-08-04 |
CN107016260B true CN107016260B (zh) | 2019-09-13 |
Family
ID=59446630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710201797.5A Active CN107016260B (zh) | 2017-03-30 | 2017-03-30 | 一种基于跨平台基因表达数据的基因调控网络重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107016260B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019973A (zh) * | 2017-09-30 | 2019-07-16 | 日本电气株式会社 | 用于估计观测变量之间的因果关系的方法、装置和系统 |
CN109243523B (zh) * | 2018-08-24 | 2021-06-11 | 东北大学 | 一种基于乳腺癌疾病的调控网络构建及分析方法 |
CN111653309A (zh) * | 2020-05-12 | 2020-09-11 | 广州数锐智能科技有限公司 | 一种基于跨平台因果网络结构的基因调控网络重建方法 |
CN112802547B (zh) * | 2021-01-28 | 2022-09-20 | 复旦大学 | 基因检测方法与系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256641A (zh) * | 2008-03-11 | 2008-09-03 | 浙江大学 | 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法 |
CN101719195A (zh) * | 2009-12-03 | 2010-06-02 | 上海大学 | 一种逐步回归基因调控网络的推断方法 |
CN101763528A (zh) * | 2009-12-25 | 2010-06-30 | 深圳大学 | 基于贝叶斯网络的基因调控网络构建方法 |
CN105825078A (zh) * | 2016-03-16 | 2016-08-03 | 广东工业大学 | 基于基因大数据的小样本基因表达数据分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536042B2 (en) * | 2013-03-15 | 2017-01-03 | International Business Machines Corporation | Using RNAi imaging data for gene interaction network construction |
-
2017
- 2017-03-30 CN CN201710201797.5A patent/CN107016260B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256641A (zh) * | 2008-03-11 | 2008-09-03 | 浙江大学 | 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法 |
CN101719195A (zh) * | 2009-12-03 | 2010-06-02 | 上海大学 | 一种逐步回归基因调控网络的推断方法 |
CN101763528A (zh) * | 2009-12-25 | 2010-06-30 | 深圳大学 | 基于贝叶斯网络的基因调控网络构建方法 |
CN105825078A (zh) * | 2016-03-16 | 2016-08-03 | 广东工业大学 | 基于基因大数据的小样本基因表达数据分类方法 |
Non-Patent Citations (1)
Title |
---|
"基因调控网络构建及在癌症基因预测中的应用";杨博;《中国博士学位论文全文数据库基础科学辑》;20141015(第10期);A002-32 * |
Also Published As
Publication number | Publication date |
---|---|
CN107016260A (zh) | 2017-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11080333B2 (en) | Systems and methods for capture of relationships within information | |
CN107016260B (zh) | 一种基于跨平台基因表达数据的基因调控网络重建方法 | |
Xie et al. | Hierarchical clustering supported by reciprocal nearest neighbors | |
US11397753B2 (en) | Scalable topological summary construction using landmark point selection | |
Gaujoux et al. | A flexible R package for nonnegative matrix factorization | |
US11709868B2 (en) | Landmark point selection | |
Sun et al. | Automatic remotely sensed image classification in a grid environment based on the maximum likelihood method | |
Loewenstein et al. | Efficient algorithms for accurate hierarchical clustering of huge datasets: tackling the entire protein space | |
US7809660B2 (en) | System and method to optimize control cohorts using clustering algorithms | |
US10417262B2 (en) | Scalable topological data analysis | |
Wang et al. | Dynamic community detection based on network structural perturbation and topological similarity | |
CN108509982A (zh) | 一种处理二分类不平衡医学数据的方法 | |
US20090299646A1 (en) | System and method for biological pathway perturbation analysis | |
CN110211700A (zh) | 一种个体身高预测方法、系统、可读存储介质及终端 | |
CN105512454A (zh) | 基于功能核磁共振的抑郁症患者自杀风险客观评估模型 | |
CN111026865A (zh) | 知识图谱的关系对齐方法、装置、设备及存储介质 | |
Li et al. | Upscaling evapotranspiration from a single-site to satellite pixel scale | |
Zhao et al. | Non-intrusive load monitoring based on deep pairwise-supervised hashing to detect unidentified appliances | |
CN110377828A (zh) | 信息推荐方法、装置、服务器及存储介质 | |
Lee et al. | Benchmarking community detection methods on social media data | |
CN107316081A (zh) | 一种基于极限学习机的不确定数据分类方法 | |
Sajjadi et al. | Network-based methods to identify highly discriminating subsets of biomarkers | |
Ballout et al. | Sparse estimation for case–control studies with multiple disease subtypes | |
Peng et al. | Multi-view clustering through self-weighted high-order similarity fusion | |
Ye et al. | Incorporating side information into multivariate Information Bottleneck for generating alternative clusterings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |