CN111739582B - 一种基于协同作用网络的生物组学数据分析方法 - Google Patents
一种基于协同作用网络的生物组学数据分析方法 Download PDFInfo
- Publication number
- CN111739582B CN111739582B CN202010573023.7A CN202010573023A CN111739582B CN 111739582 B CN111739582 B CN 111739582B CN 202010573023 A CN202010573023 A CN 202010573023A CN 111739582 B CN111739582 B CN 111739582B
- Authority
- CN
- China
- Prior art keywords
- module
- feature
- network
- node
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Abstract
本发明提供一种基于协同作用网络的生物组学数据分析方法,属于生物组学数据分析技术领域。本发明针对基因组学、转录组学与代谢组学数据维数高、样本量小的特点,通过构建协同作用网络,来充分挖掘组学分子间的协同互补关系,基于模块搜索的方式来选定重要模块,从而确定潜在的模块标志物。本发明为基因组学、转录组学与代谢组学数据的前期分析处理提供了切实有效的方法,对后续的医疗诊断具有较强的应用价值。
Description
技术领域
本发明属于生物组学数据分析技术领域,通过分析评价基因组学、转录组学或代谢组学数据特征间的协同作用,利用信息论的技术,从网络层面来挖掘组学数据重要特征,从而确定与疾病相关的模块标志物,对后续医学研究具有重要意义。
背景技术
随着人类基因组计划的完成,高通量测序技术的日臻完善,这极大的促进了基因组学、转录组学数据的发展,近些年来,代谢组学成为继基因组学、转录组学后新近发展起来的热门学科,成为生物组学数据重要组成部分之一。生物组学数据通常具有维数较高、样本量较小的特点。受实验条件、实验设备等限制,往往会导致数据所含噪音杂质较多,因此如何从生物组学大数据中挖掘出重要的信息,对疾病诊断、药物研发、个性化治疗等具有重要的意义。
目前大多数方法只停留在分子层面来筛选生物标志物,而生物系统是一个复杂的网络,代谢反应机制十分复杂,分子以各类通路反应的形式相互关联,相互作用,共同反映生命活动变化,因此基于网络方式来筛选模块标志物是尤为必要的。生物分子间往往会存在协同交互作用,两个区分能力较弱的分子联合所提供的交互信息可能与类别高度相关。协同作用网络通过计算信息增益得分,充分考虑分子与分子的关联关系,对具有协同交互作用的分子之间构建连边。本发明在综合分析基因组学、转录组学与代谢组学的基础上,提出了一种基于网络方式的模块标志物筛选技术即MSIG算法。该技术通过构建协同作用网络,综合考虑分子间的交互作用,在所构建的网络上搜索特征模块,从而来确定潜在的模块标志物。本发明基于协同作用网络来筛选具有重要生物意义的模块标志物,在生物学领域中有着广泛的实际应用价值。
发明内容
本发明的目的是在基因组学、转录组学、代谢组学大数据中提取具有生物学意义的模块标志物,对后续医疗诊断提供实际应用价值。本发明提出了一种基于协同作用网络确定模块标志物的数据分析方法。该方法的核心技术为:对于二分类问题,令F={f1,f2,…,fm}表示特征集合,对于集合内的每一对特征fi,fj∈F(1≤i≠j≤m),计算信息增益值IG,该指标可以衡量组学数据分子之间复杂的线性关系和非线性关系,只保留具有显著性IG的特征对来构建协同作用网络。在所构建的网络上采用贪心策略搜索模块标志物,取网络中与类标互信息值最大的节点作为初始种子节点,依次检索在网络中与当前模块所含节点相邻且不属于该模块的节点集作为候选节点集合,综合衡量每一候选点与当前模块协同作用的紧密程度以及自身所包含的与类标的互信息值的大小,将网络的拓扑结构与边的权值相结合评价每一个候选节点的重要程度,每次尝试将得分最高的节点加入到当前模块,并计算模块的整体分类性能是否较之前有所提高,若提高,则将其加入并继续检索当前模块的邻接节点集合,直到模块的性能不再增加或无邻接点为止,则该模块搜索结束并从网络中删除其所包含的节点及其连边。重复此搜索过程,直至网络中所剩节点数量为空。最后根据模块AUC值对所得模块降序排序,利用内部交叉验证的方式,选取准确率最高的若干模块,作为所选模块标志物。
为了实现上述目标,本发明采用的技术方案如下:
一种基于协同作用网络的生物组学数据分析方法,步骤如下:
将高通量测序技术所得的基因组学或转录组学数据中的基因序列视为特征,基因序列在不同样本上的表达值视为特征值;利用LC-MS或GC-MS技术得到代谢组学数据中的小分子代谢成分(相对分子量1000以下),将实验所得的小分子代谢成分视为特征,小分子代谢成分在不同样本上的含量视为特征值。
令F={f1,f2,…,fm}为原始特征集合,包含m个特征;X={x1,x2,…,xn}代表样本集合,n为样本总数;Y=(y1,y2,…,yn)为n个样本的类标向量,其中yd∈C={c1,c2},d∈{1,2,…,n},C为类标集合;
(1)计算特征fi与fj的信息增益得分IG(fi;fj;Y),1≤i≠j≤m,公式如下:
IG(fi;fj;Y)=I(fi,fj;Y)-I(fi;Y)-I(fj;Y)(1)
其中I(fi,fj;Y)表示特征fi、fj与类标向量Y的联合互信息大小,I(fi;Y)、I(fj;Y)为特征fi、fj与类标向量Y的互信息;IG(fi;fj;Y)反映fi(fj)与类别Y的依赖关系由于fj(fi)的加入所发生的变化;若IG(fi;fj;Y)>0,则表示特征fi与fj联合所提供关于Y的信息量比它们各自与Y的信息量之和大,进而认为fi与fj具有协同作用;
(2)获得具有显著性的信息增益得分;
再计算序列IG+中相邻两个变量的差值{p2-p1,p3-p2,…,pt-pt-1},只保留结果大于θ1的差值变量,并对其求平均值记为θ2,将满足条件的最小下标为i0所对应的值设定为边的阈值,如果表明fi与fj具有较强的协同作用,IG值越大表明协同作用越强,因此在具有较强协同作用的特征对之间构建连边,此时网络中的节点代表特征,边的权值即为IG值;
(3)在所构建的协同作用网络上进行模块搜索;
由上述步骤(2)所得的协同作用网络,执行模块搜索的过程,过程如下:
(3.2)计算每个特征与类标向量的互信息,加入集合MIList;
(3.3)取MIList中互信息最大的点作为初始种子节点,加入到特征模块子集S中,并计算此时模块受试工作特征曲线ROC下的面积AUC值大小;
(3.4)定义候选节点集合CS=Adj(S)-S,其中Adj(S)为当前特征模块子集S内所含节点在网络中的邻接点集,若当前特征模块子集S的候选集合为空集,则该模块搜索结束,继续向下执行步骤(3.5);若候选集合不为空,则计算候选集合内的每个候选节点得分,公式为:
其中分别表示点fi、fj在网络中的一近邻节点集,则代表点fi与fj属于S相同的一近邻节点数量,|S|代表当前模块中节点个数,与|S|相除表示fi与fj属于S相同的一近邻节点数量占当前模块节点总数的比例,若该比例越大且fi与fj构成的连边权值越大,则表明fi与fj连接越紧密,从而有效的衡量了候选节点与当前模块中节点连接的紧密程度。MIi为特征fi的互信息值,代表特征自身的分类性能,因此公式(3)将网络拓扑结构与特征自身分类性能相结合,综合衡量了每一个候选节点的重要性,得分越高表明该节点越重要,进而每次尝试将综合得分最高的节点加入到当前特征模块子集S中,检查模块的AUC值是否增加,若增加,则将该点加入到S中,继续重复步骤(3.4)的搜索过程,直至模块AUC值不再增加为止,此时该模块搜索结束,继续向下执行步骤(3.5);
(3.5)S即作为本次搜索所得到的模块加入到特征模块集合MS中,从MIList中删除S所包含的特征,并从网络中删除S所包含的特征及其中的连边,以保证每个特征属于且仅属于一个特征模块,将S置空;
(3.6)重复上述步骤(3.3)-(3.5)的搜索过程,直至网络中节点数量为空,此时所有模块搜索结束;
(4)根据特征模块集合MS,确定最终的模块标志物;
对步骤(3)集合MS中所得模块,根据AUC值降序排列且只保留AUC值大于等于0.7的模块,利用内部交叉验证的方式,计算每加入一个新模块后已选集合的准确率,选择准确率最高的模块集合作为最终所确定的模块标志物。
本发明的有益效果:
本发明针对基因组学、转录组学与代谢组学数据维数高、样本量小的特点,通过构建协同作用网络,来充分挖掘组学分子间的协同互补关系,基于模块搜索的方式来选定若干重要模块,从而确定潜在的模块标志物。本发明为基因组学、转录组学与代谢组学数据的前期分析处理提供了切实有效的方法,对后续的医疗诊断具有较强的应用价值。
附图说明
图1为本发明的整体流程图。
图2为协同作用网络图。
具体实施方式
下面结合技术方案在模拟数据上进一步说明本方法MSIG的具体实施方式,样本集X={x1,x2,…,x10},共有10个样本,特征集为F={f1,f2,…,f5},共5个特征。
(1)计算对特征的信息增益值:首先将数据在每一维特征上进行等宽离散化,划分为5等份,然后计算每一对特征的信息增益得分,以上述模拟数据为例,数据集中共有5个特征,则会产生10组对特征,分别是:(f1,f2),(f1,f3),(f1,f4),(f1,f5),(f2,f3),(f2,f4),(f2,f5),(f3,f4),(f3,f5),(f4,f5),利用公式(1)分别计算每组对特征与类别的信息增益值,可得:IG(f1;f2;Y)=0.04,IG(f1;f3;Y)=0.06,IG(f1;f4;Y)=-0.01,IG(f1;f5;Y)=0.03,IG(f2;f3;Y)=0.05,IG(f2;f4;Y)=0.02,IG(f2;f5;Y)=-0.03,IG(f3;f4;Y)=0.02,IG(f3;f5;Y)=-0.01,IG(f4;f5;Y)=0.01,只保留IG>0的特征对进行下一步分析;
(2)利用信息增益得分构建协同作用网络:求得具有显著性信息增益得分的阈值θ2=0.02,则特征f4与f5的连边被删除,最后特征f1与f2,f1与f3,f1与f5,f2与f3,f2与f4,f3与f4构成连边;
(3)在所构建的网络上进行模块搜索;
(3.2)计算每个特征与类别的互信息值,得到集合MIList={I(f1;Y)=
0.05,I(f2;Y)=0.02,I(f3;Y)=0.02,I(f4;Y)=0.01,I(f5;Y)=0.01};
(3.3)取MIList中互信息值最大的点f1作为初始种子节点,加入到当前特征模块子集S中,则此时S={f1},计算AUC=0.3;
(3.4)判断此时S是否有邻接点,由图2可知,此时S的邻接点不为空,候选节点集合为{f2,f3,f5}。利用公式(3)计算出Score(f2)=0.06,Score(f3)=0.08,Score(f5)=0.04,可得特征f3分数最高,尝试将其加入S中,并计算此时S={f1,f3}的AUC值,假设此时AUC=0.5>0.3,AUC值增加则将其加入S中,继续重复步骤(3.4)的搜索过程。由图2可知当前S的邻接点不为空,候选集合为{f2,f4,f5},利用公式(3)计算出Score(f2)=0.11,Score(f4)=0.02,Score(f5)=0.025,因此需将f2加入S中,并计算此时S的AUC=0.7>0.5,继续重复上述搜索过程。考虑此时S的邻接点仍不为空,候选集合C={f4,f5},利用公式(3)计算此时,Score(f4)=0.0367,Score(f5)=0.02,因此需将f4加入到S中,计算S={f1,f2,f3,f4}的AUC=0.8>0.7,需继续执行模块搜索的过程,此时特征模块子集S的邻接点为f5,计算Score(f5)=0.04,尝试将其加入S中,得到S的AUC=0.75<0.8,AUC值减小,因此不再将其加入,当前特征模块子集S搜索结束,所包含的特征集合为{f1,f2,f3,f4}。继续向下执行步骤(3.5);
(3.5)从集合MIList中删除S所包含的全部特征,在网络中删除S中节点及其连边,此时网络中仅剩特征f5,MIList={f5};
(3.6)此时网络中节点数量不为空,因此仍需继续执行步骤(3.3)-(3.5)的模块搜索过程。由于只剩一个节点,因此只能选择f5作为初始种子节点,计算S={f5}的AUC=0.72,由于f5无邻居节点,因此该模块搜索结束。从MIList中删除f5,并在网络中删除f5及其连边,此时网络为空,因此所有模块搜索结束,那么最后所得特征模块集合MS={(f1,f2,f3,f4),(f5)};
(4)根据所得模块,确定最终的模块标志物。
对上述步骤(3)所得两个模块,其AUC值均大于等于0.7,因此两个模块均需保留,再对所得模块按AUC值降序排列,将排名靠前的模块顺次加入到已选集合中,通过内部交叉验证的方式,计算每加入一个新模块后已选集合的准确率。假定本次模拟数据中,第一个模块所得准确率最高,因此模块集合{f1,f2,f3,f4},即为最终确定的模块标志物。
表1 MSIG和FAST、FCBF之间的比较
Claims (1)
1.一种基于协同作用网络的生物组学数据分析方法,其特征在于,步骤如下:
将高通量测序技术所得的基因组学或转录组学数据中的基因序列视为特征,基因序列在不同样本上的表达值视为特征值;利用LC-MS或GC-MS技术得到代谢组学数据中的小分子代谢成分,将实验所得的小分子代谢成分视为特征,小分子代谢成分在不同样本上的含量视为特征值;
令F={f1,f2,…,fm}为原始特征集合,包含m个特征;X={x1,x2,…,xn}代表样本集合,n为样本总数;Y=(y1,y2,…,yn)为n个样本的类标向量,其中yd∈C={c1,c2},d∈{1,2,…,n},C为类标集合;
(1)计算特征fi与fj的信息增益得分IG(fi;fj;Y),1≤i≠j≤m,公式如下:
IG(fi;fj;Y)=I(fi,fj;Y)-I(fi;Y)-I(fj;Y) (1)
其中I(fi,fj;Y)表示特征fi、fj与类标向量Y的联合互信息大小,I(fi;Y)、I(fj;Y)为特征fi、fj与类标向量Y的互信息;IG(fi;fj;Y)反映fi(fj)与类别Y的依赖关系由于fj(fi)的加入所发生的变化;若IG(fi;fj;Y)>0,则表示特征fi与fj联合所提供关于Y的信息量比它们各自与Y的信息量之和大,进而认为fi与fj具有协同作用;
(2)获得具有显著性的信息增益得分;
当信息增益得分接近于零时,需确定具有显著性交互增益的特征对;对此保留步骤(1)大于零的信息增益值,并对其升序排列,得到IG+={p1,p2,…,pt},p1≤p2,…,≤pt,利用公式(2)计算组距:
再计算序列IG+中相邻两个变量的差值{p2-p1,p3-p2,…,pt-pt-1},只保留结果大于θ1的差值变量,并对其求平均值记为θ2,将满足条件的最小下标为i0所对应的值设定为边的阈值,如果表明fi与fj具有较强的协同作用,IG值越大表明协同作用越强,因此在具有较强协同作用的特征对之间构建连边,此时网络中的节点代表特征,边的权值即为IG值;
(3)在所构建的协同作用网络上进行模块搜索;
由上述步骤(2)所得的协同作用网络,执行模块搜索的过程,过程如下:
(3.2)计算每个特征与类标向量的互信息,加入集合MIList;
(3.3)取MIList中互信息最大的点作为初始种子节点,加入到特征模块子集S中,并计算此时模块受试工作特征曲线ROC下的面积AUC值大小;
(3.4)定义候选节点集合CS=Adj(S)-S,其中Adj(S)为当前特征模块子集S内所含节点在网络中的邻接点集,若当前特征模块子集S的候选集合为空集,则该模块搜索结束,继续向下执行步骤(3.5);若候选集合不为空,则计算候选集合内的每个候选节点得分,公式为:
其中分别表示点fi、fj在网络中的一近邻节点集,则代表点fi与fj属于S相同的一近邻节点数量,|S|代表当前模块中节点个数,与|S|相除表示fi与fj属于S相同的一近邻节点数量占当前模块节点总数的比例,若该比例越大且fi与fj构成的连边权值越大,则表明fi与fj连接越紧密,从而有效的衡量了候选节点与当前模块中节点连接的紧密程度;MIi为特征fi的互信息值,代表特征自身的分类性能,因此公式(3)将网络拓扑结构与特征自身分类性能相结合,综合衡量了每一个候选节点的重要性,得分越高表明该节点越重要,进而每次尝试将综合得分最高的节点加入到当前特征模块子集S中,检查模块的AUC值是否增加,若增加,则将该点加入到S中,继续重复步骤(3.4)的搜索过程,直至模块AUC值不再增加为止,此时该模块搜索结束,继续向下执行步骤(3.5);
(3.5)S即作为本次搜索所得到的模块加入到特征模块集合MS中,从MIList中删除S所包含的特征,并从网络中删除S所包含的特征及其中的连边,以保证每个特征属于且仅属于一个特征模块,将S置空;
(3.6)重复上述步骤(3.3)-(3.5)的搜索过程,直至网络中节点数量为空,此时所有模块搜索结束;
(4)根据特征模块集合MS,确定最终的模块标志物;
对步骤(3)集合MS中所得模块,根据AUC值降序排列且只保留AUC值大于等于0.7的模块,利用内部交叉验证的方式,计算每加入一个新模块后已选集合的准确率,选择准确率最高的模块集合作为最终所确定的模块标志物。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573023.7A CN111739582B (zh) | 2020-06-22 | 2020-06-22 | 一种基于协同作用网络的生物组学数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010573023.7A CN111739582B (zh) | 2020-06-22 | 2020-06-22 | 一种基于协同作用网络的生物组学数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739582A CN111739582A (zh) | 2020-10-02 |
CN111739582B true CN111739582B (zh) | 2022-10-21 |
Family
ID=72650315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010573023.7A Active CN111739582B (zh) | 2020-06-22 | 2020-06-22 | 一种基于协同作用网络的生物组学数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739582B (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322930B (zh) * | 2019-06-06 | 2021-12-03 | 大连理工大学 | 基于水平关系的代谢组学网络标志物识别方法 |
CN110890130B (zh) * | 2019-12-03 | 2022-09-20 | 大连理工大学 | 基于多类型关系的生物网络模块标志物识别方法 |
-
2020
- 2020-06-22 CN CN202010573023.7A patent/CN111739582B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111739582A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN104866863B (zh) | 一种生物标志物筛选方法 | |
US11398297B2 (en) | Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences | |
CN108985010B (zh) | 基因分类方法与装置 | |
Wang et al. | A very fast algorithm for detecting community structures in complex networks | |
CN112750502A (zh) | 一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法 | |
CN112466404A (zh) | 一种宏基因组重叠群无监督聚类方法及系统 | |
CN116741397B (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
CN111599406B (zh) | 结合网络聚类方法的全局多网络比对方法 | |
CN111429970B (zh) | 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统 | |
Wei et al. | CALLR: a semi-supervised cell-type annotation method for single-cell RNA sequencing data | |
Zhang et al. | Deconvolution algorithms for inference of the cell-type composition of the spatial transcriptome | |
CN110610763A (zh) | 基于katz模型的代谢物与疾病关联关系预测方法 | |
Chen et al. | A nonparametric approach to detect nonlinear correlation in gene expression | |
CN111916143B (zh) | 基于多样子结构特征融合的分子活性预测方法 | |
CN111739582B (zh) | 一种基于协同作用网络的生物组学数据分析方法 | |
CN105574363A (zh) | 一种基于svm-rfe和重叠度的特征选择方法 | |
CN106874705A (zh) | 基于转录组数据确定肿瘤标记物的方法 | |
CN107153776A (zh) | 一种y单倍群检测方法 | |
CN109033746B (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
CN106911512B (zh) | 在可交换图中基于博弈的链接预测方法及系统 | |
CN101894216A (zh) | 从snp数据中发现与复杂疾病相关snp组的方法 | |
CN105447337B (zh) | 一种基于动态网络图分析的时间序列数据处理方法 | |
KR102376212B1 (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |