CN104156503A - 一种基于基因芯片网络分析的疾病风险基因识别方法 - Google Patents

一种基于基因芯片网络分析的疾病风险基因识别方法 Download PDF

Info

Publication number
CN104156503A
CN104156503A CN201410345984.7A CN201410345984A CN104156503A CN 104156503 A CN104156503 A CN 104156503A CN 201410345984 A CN201410345984 A CN 201410345984A CN 104156503 A CN104156503 A CN 104156503A
Authority
CN
China
Prior art keywords
gene
genes
disease
network
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410345984.7A
Other languages
English (en)
Inventor
徐瑞龙
伯晓晨
杨宁敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinhua central hospital
Original Assignee
Jinhua central hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinhua central hospital filed Critical Jinhua central hospital
Priority to CN201410345984.7A priority Critical patent/CN104156503A/zh
Publication of CN104156503A publication Critical patent/CN104156503A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种生物技术领域,具体是一种基于基因芯片网络分析的疾病风险基因识别方法,其特征在于,在计算机系统中结合递归决策森林技术,通过计算每一成对基因在递归决策森林中的出现频率,定量分析每一对基因和疾病的相关程度,给出基因互作网络的风险基因的分布图谱。本发明结合递归决策树数据挖掘技术,通过定量分析每一对基因在全部递归决策树上的出现频率,评定基因互作网络中可能与疾病相关的风险基因,解决了基因芯片高通量数据所形成的疾病相关基因挖掘难,功能分析难的问题,达到分析与可视化生物分子网络结构与功能的目的,从而提高生物分析网络乃至疾病成因的理解。本发明简单、方便、快捷,可以直观展示基因芯片中基因和疾病的关联程度,将对理解疾病发病原因与病理过程提供有效的信息,也将对研究不同疾病之间的关系具有重要理论意义和实用价值。

Description

一种基于基因芯片网络分析的疾病风险基因识别方法
技术领域
本发明涉及一种生物技术领域,更具体地,是一种基于基因芯片网络分析的疾病风险基因识别方法。
背景技术
人类复杂疾病往往是多基因联合作用的结果。随着基因芯片技术的迅猛发展,并行同时检测成千上万的基因表达水平成为可能。基因互作网络作为生物医学的重要结构描述,基因互作网络结构与功能的异常直接反映生物机体功能的异常。处于网络中热点区域的基因可能与所研究疾病显著相关。研究表明基因网络上的扰动可直接反映于生物机体的表型变化,网络中某些基因的突变可在网络上产生级联放大效应,从而导致疾病的发生,包括单基因致病的血友病、白化病和多基因致病的复杂疾病,如肿瘤、高血压等。研究表明网络中基因与基因的相互作用关系发生改变亦可造成生物机体功能异常。近年来的很多分子网络的解析研究,以期望提供对疾病的更深入的理解,研究表明人类基因相互作用网络的动态拓扑变化可辅助解决肿瘤的预后问题,另有研究表明构建病原微生物感染网络为了解病原微生物的致病过程以及分辨不同病原微生物各自的感染模式提供了极其有用的信息,同时网络的动态结构信息也为联合用药和多靶药物设计提供了理论基础和极大帮助。
机体的功能是由完整的生物分子网络驱动的,而疾病是不同病因引起的网络异常引起的。生物网络具有很强的稳健性和鲁棒性,但是某些特定的网络节点和网络拓扑异常变化将导致网络较大变化,并可能反映于生物机体,即疾病发生。为此,本发明提出一种基于基因芯片网络分析的疾病风险基因识别方法。
发明内容
本发明的目的旨在提供一种能简单、方便、快捷地识别疾病驱动的基因互作网络中风险基因的识别方法,解决基因芯片高通量数据所形成的疾病相关基因挖掘难,功能分析难的问题。
在一种基于基因芯片网络分析的疾病风险基因识别方法中,输入的每一成对基因在决策树森林中出现的频率作为一种和疾病相关的定量度量。相关程度的计算需经过如下步骤:决策树的构建、构建训练集和检验集、决策森林的构建、风险基因的识别。
为了达到上述目的,本发明通过以下技术方案实现:
一种基于基因芯片网络分析的疾病风险基因识别方法,其特征在于,在计算机系统中结合递归决策森林技术,通过计算每一成对基因在递归决策森林中的出现频率,定量分析每一对基因和疾病的相关程度,给出基因互作网络的风险基因的分布图谱。
本发明所述的递归决策森林技术包含两部分:一是递归决策树的构建;二是递归决策树分类效能的评价。
本发明所述的每一成对基因在递归决策森林中的出现频率,包含任一两个基因在递归决策森林中出现的频率,这些数据具有相似的类型。
本发明所述的定量分析每一对基因和疾病的相关程度,给出基因互作网络的风险基因的分布图谱,它的计算包括下列步骤:接收来自基因芯片的表达谱数据,对数据进行标准化;从构建的决策树中提取相应节点的特征基因子集,若干决策树构成决策森林,对决策所述的每一成对基因在递归决策森林中的出现频率,包含任一两个基因在递归决策森林中出现的频率,这树分类效能进行评价;计算每一基因对在决策森林中的出现频率;计算基因间的这种相关关系与疾病的关联函数。本发明通过可视化排列检验阈值以上的基因互作关系对,得到基因网络的风险基因分布图谱。
本发明结合递归决策树数据挖掘技术,通过定量分析每一对基因在全部递归决策树上的出现频率,评定基因互作网络中可能与疾病相关的风险基因,解决了基因芯片高通量数据所形成的疾病相关基因挖掘难,功能分析难的问题,达到分析与可视化生物分子网络结构与功能的目的,从而提高生物分析网络乃至疾病成因的理解。本发明简单、方便、快捷,可以直观展示基因芯片中基因和疾病的关联程度,将对理解疾病发病原因与病理过程提供有效的信息,也将对研究不同疾病之间的关系具有重要理论意义和实用价值。
附图说明
图1为本发明的一种基于基因芯片网络分析的疾病风险基因识别方法的总体框图。
具体实施方式
一种基于基因芯片网络分析的疾病风险基因识别方法,其特征在于,在计算机系统中结合递归决策森林技术,通过计算每一成对基因在递归决策森林中的出现频率,定量分析每一对基因和疾病的相关程度,给出基因互作网络的风险基因的分布图谱。
具体步骤如图1所示:检查从计算机输入的基因表达谱数据X的合法性,进行n倍交叉验证、n×n对训练集和测试集,建立决策森林,通过递归决策树的分类模型并进行评价,建立候选基因集,计算每一对基因在递归决策森林上出现的频率、计算基因与疾病的关联程度打分选择最终基因,结束识别。
上述的递归决策森林技术包含两部分:一是递归决策树的构建;二是递归决策树分类效能的评价。
本发明在具体构建递归决策树时,考虑到人类基因有多种命名方式,甚至会出现不同命名方式之间不能严格的一一对应的现象,而且网络有多种表示方式。因此,本发明在构建递归决策树(基因网络)的过程中,要求输入的网络中基因以Entrez编码命名,网络以邻接矩阵的形式表示。
将一个基因网络定义为:G=(V,E),其中V为网络中基因集合,E为网络中相互作用边的集合。首先将要计算两个网络G1=(V1,V2)和G2=(V2,V2),合并成为一个网络G12=(V12,E12),方法是将G1中的每个节点分别与G2中的所有节点相连,如果有一个基因同时出现在了G1和G2中,将两个基因合并成为G12中的一个基因,这样V12=V1∪V2,E12=E1∪E2∪V1×V2
在一种定量分析生物分子网络结构与功能的方法中,构建决策树时属性和相应阈值的识别准则是使得在一个节点的划分最大程度地降低类别杂质度(寻找一种划分最大地减少在节点t的杂质度),采用Gini差异性指标(代价函数)为节点t的杂质函数:
E ( t ) = φ ( P ( ω 1 | t ) , P ( ω 2 | t ) , . . . , P ( ω K | t ) ) = Σ k ≠ l P ( ω k | t ) P ( ω l | t ) = 1 - Σ k = 1 K P 2 ( ω k | t ) - - - ( 1 )
在二叉树中,在节点t搜索特征基因及阈值,确定一个相应的划分s*,使得该分叉在杂质函数中给出最大减少量,用符号表示为:
ΔE ( s * , t ) = max s ∈ S ΔE ( s , t ) = max s ∈ S ( E ( t ) - p l E ( t l ) - p r E ( t r ) ) - - - ( 2 )
本发明在递归决策树分类效能的评价,评价决策树的分类效能,在此,选用正确率(acc)来作为评价指标,其计算公式为:
acc = TP + TN TP + FP + TN + FN - - - ( 3 )
本发明所述的每一成对基因在递归决策森林中的出现频率,包含任一两个基因在递归决策森林中出现的频率,这些数据具有相似的类型。
本发明所述的定量分析每一对基因和疾病的相关程度,给出基因互作网络的风险基因的分布图谱,它的计算包括下列步骤:接收来自基因芯片的表达谱数据,对数据进行标准化;从构建的决策树中提取相应节点的特征基因子集,若干决策树构成决策森林,对决策所述的每一成对基因在递归决策森林中的出现频率,包含任一两个基因在递归决策森林中出现的频率,这树分类效能进行评价;计算每一基因对在决策森林中的出现频率;计算基因间的这种相关关系与疾病的关联函数;通过可视化排列检验阈值以上的基因互作关系对,得到基因网络的风险基因分布图谱。
在决策森林中,如果两个基因总是共同出现在一棵决策树中,那么这两个基因有可能存在一定的相关关系,共同导致疾病的发生,或受疾病的影响。因此,需要考虑两个基因在决策森林中共同出现的频率,这里给出一个测度FV来评价基因间的这种相关关系与疾病的关联,对于每一个基因对Sij,其FV的计算公式为:
AFV ( S ij ) = 100 × Σ d ω d I ( S ij , G d ) Σ d ω d - - - ( 4 )
其中,I(Pj,Gd)是一个指示函数:
I ( S ij , G d ) = 1 S ij ⋐ G d 0 otherwise - - - ( 5 )
通过本发明的方法可以实现基于基因芯片网络分析识别疾病风险基因,例如通过酒精中毒相关疾病基因互作网络,可以看到酒精中毒相关基因在网络上的互作关系;通过十几种癌症的网络指纹结果,可以看出不同癌症的网络指纹相似性很高,表明其有相似的病理过程,其中基底细胞瘤(BCC)与其他癌症表现出不同的特性。

Claims (5)

1.一种基于基因芯片网络分析的疾病风险基因识别方法,其特征在于:结合递归决策森林技术,通过计算每一成对基因在递归决策森林中的出现频率,定量分析每一对基因和疾病的相关程度,给出基因互作网络的风险基因的分布图谱。
2.根据权利要求1所述的一种基于基因芯片网络分析的疾病风险基因识别方法,其特征是,所述的递归决策森林技术,包含两部分:一是递归决策树的构建;二是递归决策树分类效能的评价。
3.根据权利要求1或2所述的一种基于基因芯片网络分析的疾病风险基因识别方法,其特征是,所述的每一成对基因在递归决策森林中的出现频率,包含任一两个基因在递归决策森林中出现的频率,这些数据具有相似的类型。
4.根据权利要求1或2所述的一种基于基因芯片网络分析的疾病风险基因识别方法,其特征是,所述的基因和疾病的相关程度它的计算包括下列步骤:接收来自基因芯片的表达谱数据,对数据进行标准化;从构建的决策树中提取相应节点的特征基因子集,若干决策树构成决策森林,对决策树分类效能进行评价;计算每一基因对在决策森林中的出现频率;计算基因间的这种相关关系与疾病的关联函数。
5.根据权利要求4所述的一种基于基因芯片网络分析的疾病风险基因识别方法,其特征是,所述的基因互作网络的风险基因的分布图谱,通过可视化排列检验阈值以上的基因互作关系对,得到基因网络的风险基因分布图谱。
CN201410345984.7A 2014-07-21 2014-07-21 一种基于基因芯片网络分析的疾病风险基因识别方法 Pending CN104156503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410345984.7A CN104156503A (zh) 2014-07-21 2014-07-21 一种基于基因芯片网络分析的疾病风险基因识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410345984.7A CN104156503A (zh) 2014-07-21 2014-07-21 一种基于基因芯片网络分析的疾病风险基因识别方法

Publications (1)

Publication Number Publication Date
CN104156503A true CN104156503A (zh) 2014-11-19

Family

ID=51882001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410345984.7A Pending CN104156503A (zh) 2014-07-21 2014-07-21 一种基于基因芯片网络分析的疾病风险基因识别方法

Country Status (1)

Country Link
CN (1) CN104156503A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN106126893A (zh) * 2016-06-17 2016-11-16 浙江大学 一种基于基因功能关联网络发现慢性病机制及其预警干预策略的方法
CN106709275A (zh) * 2017-02-04 2017-05-24 上海喆之信息科技有限公司 一种限制型心肌病基因数据处理装置
CN109192316A (zh) * 2018-07-02 2019-01-11 杭州师范大学 一种基于基因网络分析的疾病亚型预测系统
CN109657840A (zh) * 2018-11-22 2019-04-19 东软集团股份有限公司 决策树生成方法、装置、计算机可读存储介质及电子设备
CN110534159A (zh) * 2019-07-22 2019-12-03 中国人民解放军总医院 基因疾病关联分析系统的构建方法、装置和计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102876791A (zh) * 2012-09-21 2013-01-16 湖北维达健基因技术有限公司 一种用于肛肠疾病患病风险评估基因芯片、制备方法及其试剂盒

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102876791A (zh) * 2012-09-21 2013-01-16 湖北维达健基因技术有限公司 一种用于肛肠疾病患病风险评估基因芯片、制备方法及其试剂盒

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吕飒丽等: "基于决策森林特征基因的两种识别方法", 《生物信息学》 *
杨静等: "病毒感染相关基因微阵列的制备及其在HBV感染应答基因筛选中的应用", 《病毒学报》 *
蒋强: "基于基因芯片数据的基因调控网络的重构及其疾病学应用", 《中国优秀硕士学位论文全文数据库.信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN105825078B (zh) * 2016-03-16 2019-02-26 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN106126893A (zh) * 2016-06-17 2016-11-16 浙江大学 一种基于基因功能关联网络发现慢性病机制及其预警干预策略的方法
CN106126893B (zh) * 2016-06-17 2018-12-21 浙江大学 一种基于基因功能关联网络发现慢性病机制及其预警干预策略的方法
CN106709275A (zh) * 2017-02-04 2017-05-24 上海喆之信息科技有限公司 一种限制型心肌病基因数据处理装置
CN109192316A (zh) * 2018-07-02 2019-01-11 杭州师范大学 一种基于基因网络分析的疾病亚型预测系统
CN109192316B (zh) * 2018-07-02 2021-09-07 杭州师范大学 一种基于基因网络分析的疾病亚型预测系统
CN109657840A (zh) * 2018-11-22 2019-04-19 东软集团股份有限公司 决策树生成方法、装置、计算机可读存储介质及电子设备
CN110534159A (zh) * 2019-07-22 2019-12-03 中国人民解放军总医院 基因疾病关联分析系统的构建方法、装置和计算机设备
CN110534159B (zh) * 2019-07-22 2023-08-29 中国人民解放军总医院 基因疾病关联分析系统的构建方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN104156503A (zh) 一种基于基因芯片网络分析的疾病风险基因识别方法
Makhtar et al. ANALYSIS ON STUDENTS PERFORMANCE USING NAÏVE BAYES CLASSIFIER.
CN103268431B (zh) 一种基于学生t分布的癌症亚型生物标志物检测系统
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
CN110322930B (zh) 基于水平关系的代谢组学网络标志物识别方法
Zhu et al. Single-cell clustering based on shared nearest neighbor and graph partitioning
Tian et al. An improved method for functional similarity analysis of genes based on gene ontology
CN102346817B (zh) 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法
CN107025387B (zh) 一种用于癌症生物标志物识别的方法
CN103793600A (zh) 结合独立分量分析和线性判别分析的癌症预测方法
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
CN111916143B (zh) 基于多样子结构特征融合的分子活性预测方法
CN103544406A (zh) 一种用一维细胞神经网络检测dna序列相似度的方法
CN105139037A (zh) 基于最小生成树的集成多目标进化自动聚类方法
Cavalcanti et al. Data complexity measures and nearest neighbor classifiers: a practical analysis for meta-learning
Noviandy et al. Classifying Beta-Secretase 1 Inhibitor Activity for Alzheimer’s Drug Discovery with LightGBM
CN103218542B (zh) 一种构建蛋白网络的功能指纹图谱的方法
Ma et al. Kernel soft-neighborhood network fusion for miRNA-disease interaction prediction
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
Chen et al. Similarity fusion via exploiting high order proximity for cancer subtyping
TWI399661B (zh) 從微陣列資料中分析及篩選疾病相關基因的系統
Li et al. Model selection for partial least squares based dimension reduction
CN103853941A (zh) 高通量dna测序数据匹配增强方法
Gong et al. Interpretable single-cell transcription factor prediction based on deep learning with attention mechanism
US20210096054A1 (en) Systems and methods for automated hematological abnormality detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141119

WD01 Invention patent application deemed withdrawn after publication