CN110890130B - 基于多类型关系的生物网络模块标志物识别方法 - Google Patents

基于多类型关系的生物网络模块标志物识别方法 Download PDF

Info

Publication number
CN110890130B
CN110890130B CN201911219855.2A CN201911219855A CN110890130B CN 110890130 B CN110890130 B CN 110890130B CN 201911219855 A CN201911219855 A CN 201911219855A CN 110890130 B CN110890130 B CN 110890130B
Authority
CN
China
Prior art keywords
edge
variable
module
variables
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911219855.2A
Other languages
English (en)
Other versions
CN110890130A (zh
Inventor
李佳林
林晓惠
王肖肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201911219855.2A priority Critical patent/CN110890130B/zh
Publication of CN110890130A publication Critical patent/CN110890130A/zh
Application granted granted Critical
Publication of CN110890130B publication Critical patent/CN110890130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

基于多类型关系的生物网络模块标志物识别方法,属于组学数据分析技术领域。发明结合当前组学数据变量多,噪音多,生物体内变量以各种通路相互关联,变量之间关系复杂多样等实际特点,构建成对变量的多种组合变量,使用统一指标,对成对分子的各个组合进行类间区分能力评价,使用评价指标构建网络,并使用贪婪搜索技术搜索网络模块。有助于组学数据研究者迅速从基因组、代谢组等组学数据中识别具有强区分能力的变量模块,来进行后续针对分子功能,调控过程的定性定量研究,是一种基于多类型关系的生物网络模块标志物识别方法。

Description

基于多类型关系的生物网络模块标志物识别方法
技术领域
本发明属于组学数据分析技术领域,具体涉及一种基于多类型关系的生物网络模块标志物识别方法。
背景技术
代谢产物是基因表达的最终产物,在代谢酶的作用下生成。通过对生物体内的代谢物进行定性定量分析,能够挖掘代谢物在生理病理过程中的变化规律,代谢组学已被广泛地应用于临床标志物的发现、疾病的早期诊断和治疗及药物研发等领域。目前代谢组学研究涉及以下几个步骤:(1)样品制备;(2)代谢物检测(用高通量、高分辨率、高重复性的谱学手段,如核磁共振NMR技术、液质联用LC/MS技术、气质联用GC/MS技术等进行检测);(3)峰匹配、基线矫正、积分、归一化、标度化;(4)模式识别和统计学分析技术,如PCA、PLS-DA、OPLS-DA等。
代谢通路是指细胞中的代谢物质在酶的作用下转化为新的代谢物质过程中所发生的一系列生物化学反应,代谢流的存在促成细胞的某种生理状态的出现。代谢网络则是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络,代谢网络一直处于对环境的变动的响应之中,是生物体生理病理状态的综合反映,对代谢网络的研究有助于理解生物体代谢反应机制,以及疾病生物标志物的发现。在代谢网络的建模研究中,分子浓度及其转化速率尤为重要,代谢反应的情况可以通过研究代谢物含量间的相互关系得出,这种相互关系在代谢物含量间的组合运算上有所体现。
无论是原核细胞还是真核细胞,都有一套精确的基因表达和蛋白质合成调控机制。芯片技术实现了在同一时间测定大量基因的表达水平,从而进行功能富集,挖掘具有统计学意义的差异表达,或共表达基因的功能类别等分析。基因表达调控模式的分析,是基因组学数据挖掘的重要方向。基因表达调控是一个复杂的过程,基因和基因之间存在复杂的相互作用,形成网络结构,即基因调控网络。研究基因调控网络对于分析和研究生物体中的现象,寻找疾病生物标志物以及在生物分子学层面开发治疗靶基因等具有重要意义。
本发明从网络的角度分析基因组学、代谢组学数据,通过多种类型关系衡量组学数据变量间的关联性,构建多类型关系网络,并识别能够用于不同生理状态的样本判别的潜在网络模块标志物。该技术对每一对原始变量进行缩放后,构建四种类型组合变量,并分别对其进行类间区分能力评分,选取最高评分所对应的组合形式作为此对变量的最终组合形式,并将区分能力评分确定为网络中对应结点间连边的权重。以构建的网络中权重最小的边为搜索起点,逐步加入与当前模块相连,且分类性能提高最多的边,直至没有边使得分类性能提高为止,寻找具有判别能力的潜在网络模块标志物。
发明内容
本发明的目的是基于基因组学、代谢组学数据变量多、数据噪音大、变量间关系复杂多样并形成关联网络这一特点,采用一定的指标构建起能反映生物体内基因表达间或代谢物含量间相互关系的生物网络,并迅速定位具有判别能力的差异性组合变量模块,以此寻找能够反映生物生理状态发生发展的重要特征,筛选潜在网络标志物。该方法适用于组学数据的变量筛选和变量提取,可以用于代谢组学数据分析、基因组学数据分析以及转化医学等领域。该方法的核心技术为:基于多类型关系的融合生物网络构建与分析。
为了实现上述目标,本发明采用的技术方案如下:
一种基于多类型关系的生物网络模块标志物识别方法,步骤如下:
步骤一、获取数据
对于代谢组学分析:检测所研究问题的样本中的小分子代谢成分(相对分子量1000以下),并确定这些成分在不同样本中的含量。将各种成分看作变量,将成分的含量看作变量的值。对于基因组学分析:测定不同样本中的microRNA或基因表达情况,将芯片上的各个信号看作变量,将信号强度数值看作变量的数值。
对数据集进行抽象:数据集含有若干样本,每个样本根据其所处生理病理状态的不同将其划分为不同的类别。每个样本拥有若干变量,样本在变量上具有一定的值。对数据集进行预处理:删除每类样本上缺失值数量均超过本类样本总数的百分之二十的变量,剩余变量的缺失值填补为同类样本在这个变量上的均值。F={f1,f2,…,fm}定义为变量集合,m表示变量的个数;C={0,1}定义为类标集合,其中,0代表样本归属于0类,1代表样本归属于1类;S={s1,s2,…,sn}定义为样本集合,n表示样本的个数。
步骤二、计算并筛选所有组合变量;
为了保证组合运算的有效性,对数据集的变量进行归一化,构成归一化变量集
Figure BDA0002300506230000031
变量最大最小归一化如公式(1)所示:
Figure BDA0002300506230000032
其中,
Figure BDA0002300506230000033
为变量i在样本j上经过归一化后的取值,fij为变量i在样本j上的原取值,
Figure BDA0002300506230000034
为变量i在所有样本上的原始最小值,
Figure BDA0002300506230000035
为变量i在所有样本上的原始最大值,min为转换后的下界,max为转换后的上界,此方法中分别设为1和2。经过调整后,缩放后的变量在所有样本上可能的最小值为1,最大值为2。
对于任意两个经过缩放的变量
Figure BDA0002300506230000036
1≤i<k≤m。加法、减法、乘法、除法四种组合方式定义如公式(2)-(5):
Figure BDA0002300506230000041
Figure BDA0002300506230000042
Figure BDA0002300506230000043
Figure BDA0002300506230000044
按照公式(2)-(5)构建
Figure BDA0002300506230000045
四种新组合变量,通过单因素方差分析(ANOVA)技术,计算两类样本在四个新组合变量上的显著性差异p值,记为{pik +,pik -,pik ×,pik ÷},以此评价各个新组合变量的类间区分能力。
单因素方差分析技术常用于生物信息学数据统计分析,用于两个及两个以上样本均数差别的显著性检验。方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个,分别为实验条件(即不同的处理造成的差异,称为组间差异,记作SSA),以及随机误差(如测量误差造成的差异或个体间的差异,称为组内差异,记作SSE)。组间差异SSA、组内差异SSE除以各自的自由度,得到其均方MSA和MSE。一种情况是处理没有作用,即各组样本均来自同一总体,MSA/MSE≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体,那么,MSA>>MSE(远远大于)。通过将MSA/MSE构成F分布,用F值与其临界值比较,推断各样本是否来自相同的总体,对某变量x进行单因素方差分析的公式如(6)-(10)所示:
Figure BDA0002300506230000046
Figure BDA0002300506230000047
Figure BDA0002300506230000048
Figure BDA0002300506230000049
Figure BDA00023005062300000410
其中,m为不同类别的组数,s为总样本数量,sd为第d组的样本数量,
Figure BDA0002300506230000051
为第d组的均值,
Figure BDA0002300506230000052
为所有样本的均值。xdw为第d组第w个样本的值。利用上述公式求出的F值,通过查询统计学表可以得到变量x在两类样本所代表的总体上均值相同的概率p,若p<0.05,则认为均值相同是小概率事件,可以认为其均值不同,换言之此变量对于区分两类样本具有重要意义。
方法中,p值越小者将被认定为类间区分能力越强。对于一对变量
Figure BDA0002300506230000053
区分能力最强的组合变量将被认定为最佳组合变量,记作
Figure BDA0002300506230000054
同时将相应的显著性p值记作pbestkindik,将区分能力最强的组合方式记为bestkind。全体最佳组合变量构成的集合记为Fbest,对应的显著性p值构成的集合记为Pbest,即有集合:
Figure BDA0002300506230000055
步骤三、网络构建与网络分析;
(3.1)构建生物网络。具体方式为:将变量集Fscaled中的变量看作生物网络中的结点,Fbest中的组合变量看作用于计算组合变量的两个变量所对应结点的边,组合变量的类间差异显著性p值看作边的权重。若某条边权重大于等于0.05,则从网络中删除此边。经过筛选后,网络边集合、边权重集合与点集合分别为netEdge、netWeight、netNode,如公式(11)-(13)所示:
Figure BDA0002300506230000056
Figure BDA0002300506230000057
netNode=Fscaled (13)
(3.2)差异模块搜索。具体方式如下:
(3.2.1)模块扩张种子边选取。设构成模块的结点集为moduleNode,
Figure BDA0002300506230000058
构成模块的边集为moduleEdge,
Figure BDA0002300506230000059
初始moduleNode=φ,moduleEdge=φ。从构建的生物网络中选取权重最小的边,不妨记为
Figure BDA0002300506230000061
作为模块扩张的起点,加入到模块边集合moduleEdge中,并将构成边的结点加入到模块点集合moduleNode中,加入后,当前模块结点集合
Figure BDA0002300506230000062
模块边集合
Figure BDA0002300506230000063
由步骤二可知,此边对应的组合变量是边结点对应的两个变量的四种组合中区分能力最强的,同时也是所有保留下来的组合变量中区分能力最强的。使用当前边所代表的组合变量构建临时数据集,设该临时数据集变量集合为
Figure BDA0002300506230000064
样本集合不变,仍为S={s1,s2,…,sn}。
(3.2.2)模块搜索。当前模块分数记为moduleScore,初始moduleScore=0。
(3.2.2.1)所有与当前模块相连的边构成边候选集candiEdge,
Figure BDA0002300506230000065
Figure BDA0002300506230000066
(3.2.2.2)逐个尝试将边候选集candiEdge中的边
Figure BDA0002300506230000067
加入模块中,1≤p<q≤n,则构成的临时数据集的变量集合变为
Figure BDA0002300506230000068
样本集合为S={s1,s2,…,sn}。将临时数据集进行十倍交叉验证划分,针对每一倍产生的训练数据训练线性核SVM分类器,并在此倍交叉验证对应的测试数据上测试,将预测结果与真实结果对比,可以计算出每一倍上测试结果的受试者工作曲线(ROC)的曲线下面积(AUC),此指标为机器学习分类技术常见指标,常用于评判分类器的分类性能,AUC值越高说明当前条件下分类器性能越好。对十倍交叉验证产生的共计十个AUC值求平均,作为此次加入的候选边的分数,记作scorep,q。删除临时数据集中加入的变量,恢复到加入之前的状态,即
Figure BDA0002300506230000069
继续尝试加入边候选集candiEdge中下一个候选边,按照上述相同的方式计算此候选边的分数。重复上述过程,直至遍历完边候选集candiEdge,构成候选边分数集合SCORE={scorep,q|fpfbestkindq∈candiEdge}。
(3.2.2.3)选取边候选集candiEdge中分数最高的边,记作
Figure BDA0002300506230000071
其中,
Figure BDA0002300506230000072
且scorebest1,best2=max(SCORE)。
(A)若scorebest1,best2>moduleScore,则将此边加入到当前模块中,更新当前模块边集合
Figure BDA0002300506230000073
同时更新模块结点集合
Figure BDA0002300506230000074
更新临时数据集的变量集合
Figure BDA0002300506230000075
更新模块分数moduleScore=scorebest1,best2。重复步骤(3.2.2.1)-(3.2.2.3)。
(B)若scorebest1,best2≤moduleScore,说明与当前模块相连的任意边均不能使得分类器性能有所提升,则停止模块更新,当前模块边集合moduleEdge以及模块点集合moduleNode为最终的识别结果。
本发明的有益效果:结合生物体内基因调控,代谢反应的特点,从网络的角度系统地分析基因组学、代谢组学数据。方法中,为消除变量的量级差异所带来的对组合变量有效性的影响,本发明使用缩放(scale)技术将变量缩放到相同的量级,同时考虑到生物体内各成分间关系的多样性,采用四种组合方式选最优的方式来刻画复杂的生理过程,并迅速找出差异性过程,拓宽了识别生物标志物的方法。基于公共miRNA数据以及公共代谢数据的结果表明,通过本发明所找出的差异性模块相比常用的单特征筛选方法,分类性能优越,变量集规模小。经过理论与实验分析,本发明能够为基因组学、代谢组学的研究提供切实有效的数据处理手段,具有较强的应用价值。
附图说明
图1为使用该方法,在结直肠癌代谢公共数据集上找到的网络模块。
图2为使用该方法,基于在结直肠癌代谢公共数据集上找到的模块,绘制的PLS-DA图。
图3为组合变量:赖氨酸/葡萄糖在两类样本上的箱线图。
图4为组合变量:己糖醛酸+赖氨酸在两类样本上的箱线图。
图5为组合变量:赖氨酸/肌醇在两类样本上的箱线图。
图6为组合变量:羟脯氨酸/肌醇在两类样本上的箱线图。
图7为组合变量:己糖醛酸/1_5-脱水山梨糖醇在两类样本上的箱线图。
图8为组合变量:羟脯氨酸/吡嗪-2,5-二醇在两类样本上的箱线图。
图9为组合变量:己糖醛酸/海藻糖1在两类样本上的箱线图。
图10为组合变量:谷氨基酸/吡嗪-2,5-二醇在两类样本上的箱线图。
具体实施方式
实施例:基于人类代谢的结直肠癌判别潜在网络标志物筛选。
(1)人类结直肠癌代谢谱数据
本例中所使用的人类结直肠癌代谢谱数据集为公共数据集,利用UPLC-QTOFMS和GC-TOFMS技术分别对脂肪组织的脂质组、代谢组和血清进行分析,经过QC处理后,数据集中包含物质99种,样本分为内脏脂肪(subcutaenous SAT)和皮下脂肪(visceral VAT)两类。两类样本数分别为57和49。此数据集的研究类型为生物标志物研究,研究目的包括(1)比较结直肠癌病人的VAT脂肪组织代谢组和脂质组和SAT脂肪组织代谢组和脂质组。(2)描述患者脂肪组织(VAT/SAT)中脂质组和代谢组之间的关系。
(2)计算并筛选所有的组合变量。
本例中变量共计99个,对于每对变量均构建4种组合变量,利用单因素分析公式(6)-(10)计算各个组合变量在两类上的类间差异显著性p值,组合变量个数共计(99×(99-1)/2)×4=19404。
(3)网络构建与网络分析
对于每对变量的四种组合变量,仅保留单因素方差分析显著性p值最小者作为生物网络中对应边的权重,未筛选前网络边数共计99×(99-1)/2=4851,将权重大于0.05的边从网络中移除,经过移除后,网络剩余边数为3226。网络构建完毕后,从中找出权重最小的边,此边对应的两个变量为葡萄糖、赖氨酸,对应运算方式为赖氨酸/葡萄糖,对应权重为2.35-11。将此边作为模块搜索的起点进行搜索,寻找与当前模块相连,且使得十倍交叉验证下线性核SVM分类性能指标AUC的均值最大的边,若此边并未使得模块分数有所提升,则停止搜索,此数据集上停止搜索时,模块分数为0.9767,搜索结果为{(赖氨酸,葡萄糖,÷),(己糖醛酸,赖氨酸,+),(赖氨酸,肌醇,÷),(羟脯氨酸,肌醇,÷),(己糖醛酸,1_5-脱水山梨糖醇,÷),(羟脯氨酸,吡嗪-2,5-二醇,÷)}其中(赖氨酸,葡萄糖,÷)的含义为:将赖氨酸以及葡萄糖在所有样本上的值缩放到区间[1,2],然后将各个样本在这两个缩放后的变量上的取值相除,形成新组合变量。如附图1所示,最终搜索出来的模块包含9种物质,8种组合变量。附图2为基于搜索出来的模块,在两类样本上构建的PLS-DA图,从图中可以看出,两类样本具有清晰的分离趋势,表明搜索出来的模块具有较强的区分能力。图3-图10为模块内各边所代表的组合变量上,两类样本的箱线图,图中可以看出,模块中各条边均具有强区分能力,信息丰富。
Figure BDA0002300506230000091
上表格为此方法(FusioNet)与常见的基于单变量的特征降维技术SVM-RFE、Lasso、ElasticNet方法在三个miRNA公共数据集,三个代谢公共数据集上30次hold-out的平均分类AUC比较结果(AUC(平均模块结点数/平均模块边数)),表格中加粗位置为数据集上几种方法的最高AUC值,使用分类器为线性核函数SVM分类器。从结果可以得出,本技术所确定的差异性模块具有较强的区分能力,且使用变量数远少于其余技术。

Claims (3)

1.基于多类型关系的生物网络模块标志物识别方法,其特征在于,步骤如下:
步骤一、获取数据
对于代谢组学分析:检测所研究问题的样本中的小分子代谢成分,所述小分子代谢成分的相对分子量为1000以下,并确定这些成分在不同样本中的含量;将各种成分看作变量,将成分的含量看作变量的值;
对于基因组学分析:测定不同样本中的microRNA或基因表达情况,将芯片上的各个信号看作变量,将信号强度数值看作变量的值;
对数据集进行抽象:数据集含有样本,每个样本根据其所处生理病理状态的不同将其划分为不同的类别;每个样本拥有变量,样本在变量上具有数值;
对数据集进行预处理:删除每类样本上缺失值数量均超过本类样本总数的百分之二十的变量,剩余变量的缺失值填补为同类样本在这个变量上的均值;将FS={f1,f2,…,fm}定义为变量集合,m表示变量的个数;将C={0,1}定义为类标集合,其中,0代表样本归属于0类,1代表样本归属于1类;将S={s1,s2,…,sn}定义为样本集合,n表示样本的个数;
步骤二、计算并筛选所有组合变量;
为了保证组合运算的有效性,对数据集的变量进行最大最小归一化,构成变量集
Figure FDA0003755780440000011
对于任意两个经过缩放的变量
Figure FDA0003755780440000012
加法、减法、乘法、除法四种组合方式定义如公式(2)-(5):
Figure FDA0003755780440000013
Figure FDA0003755780440000014
Figure FDA0003755780440000015
Figure FDA0003755780440000016
按照公式(2)-(5)构建四种新组合变量
Figure FDA0003755780440000021
通过单因素方差分析ANOVA技术,计算两类样本在四个新组合变量上的显著性差异p值,记为{pik +,pik -,pik ×,pik ÷},以此评价各个新组合变量的类间区分能力;
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个,分别为组间差异,记作SSA;以及组内差异,记作SSE;组间差异SSA、组内差异SSE除以各自的自由度,得到其均方MSA和MSE;一种情况是处理没有作用,即各组样本均来自同一总体,MSA/MSE≈1;另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体,那么,MSA>>MSE;通过将MSA/MSE构成F分布,用F值与其临界值比较,推断各样本是否来自相同的总体,对某变量x进行单因素方差分析的公式如(6)-(10)所示:
Figure FDA0003755780440000022
Figure FDA0003755780440000023
Figure FDA0003755780440000024
Figure FDA0003755780440000025
Figure FDA0003755780440000026
其中,m为不同类别的组数,s为总样本数量,sd为第d组的样本数量,
Figure FDA0003755780440000027
为第d组的均值,
Figure FDA0003755780440000028
为所有样本的均值;xdw为第d组第w个样本的值;利用上述公式求出的F值,通过查询统计学表得到变量x在两类样本所代表的总体上均值相同的概率p,当p<0.05时,则认为均值相同是小概率事件,认为其均值不同,换言之此变量对于区分两类样本具有重要意义;
方法中,p值越小者将被认定为类间区分能力越强;对于一对变量
Figure FDA0003755780440000031
区分能力最强的组合变量将被认定为最佳组合变量,记作
Figure FDA0003755780440000032
同时将相应的显著性p值记作pbestkindik,将区分能力最强的组合方式记为bestkind;将全体最佳组合变量构成的集合记为Fbest,对应的显著性p值构成的集合记为Pbest,即有集合
Figure FDA0003755780440000033
步骤三、网络构建与网络分析;
(3.1)构建生物网络;具体方式为:将变量集Fscaled中的变量看作生物网络中的结点,将Fbest中的组合变量看作用于计算组合变量的两个变量所对应结点的边,组合变量的类间显著性p值看作边的权重;当某条边权重大于等于0.05,则从网络中删除此边;经过筛选后,网络边集合、边权重集合与点集合分别为netEdge、netWeight、netNode,如公式(11)-(13)所示:
Figure FDA0003755780440000034
Figure FDA0003755780440000035
netNode=Fscaled (13)
(3.2)差异模块搜索;具体方式如下:
(3.2.1)模块扩张种子边选取;设构成模块的结点集为moduleNode,
Figure FDA0003755780440000036
构成模块的边集为moduleEdge,
Figure FDA0003755780440000037
初始moduleNode=φ,moduleEdge=φ;从构建的生物网络中选取权重最小的边,记为
Figure FDA0003755780440000038
作为模块扩张的起点,加入到模块边集合moduleEdge中,并将构成边的结点加入到模块点集合moduleNode中,加入后,当前模块结点集合
Figure FDA0003755780440000039
模块边集合
Figure FDA00037557804400000310
由步骤二可知,此边对应的组合变量是边结点对应的两个变量的四种组合中区分能力最强的,同时也是所有保留下来的组合变量中区分能力最强的;使用当前边所代表的组合变量构建临时数据集,设该临时数据集变量集合为
Figure FDA0003755780440000041
样本集合不变,仍为S={s1,s2,…,sn};
(3.2.2)模块搜索;当前模块分数记为moduleScore,初始moduleScore=0;
(3.2.2.1)所有与当前模块相连的边构成边候选集candiEdge,
Figure FDA0003755780440000042
Figure FDA0003755780440000043
(3.2.2.2)逐个尝试将边候选集candiEdge中的边
Figure FDA0003755780440000044
加入到当前模块中,1≤p<q≤n,则构成的临时数据集的变量集合变为
Figure FDA0003755780440000045
样本集合为S={s1,s2,…,sn};将临时数据集进行十倍交叉验证划分,针对每一倍产生的训练数据训练线性核SVM分类器,并在此倍交叉验证对应的测试数据上测试,将预测结果与真实结果对比,计算出每一倍上测试结果的受试者工作曲线ROC的曲线下面积AUC,AUC值越高说明当前条件下分类器性能越好;对十倍交叉验证产生的共计十个AUC值求平均,作为此次加入的候选边的分数,记作scorep,q;删除临时数据集中加入的变量,恢复到加入之前的状态,即
Figure FDA0003755780440000046
继续尝试加入边候选集candiEdge中下一个候选边,按照上述相同的方式计算此候选边的分数;重复上述过程,直至遍历完边候选集candiEdge,构成候选边分数集合SCORE={scorep,q|fpfbestkindq∈candiEdge};
(3.2.2.3)选取边候选集candiEdge中分数最高的边,记作
Figure FDA0003755780440000047
其中,
Figure FDA0003755780440000048
且scorebest1,best2=max(SCORE);
(A)若scorebest1,best2>moduleScore,则将此边加入到当前模块中,更新当前模块边集合
Figure FDA0003755780440000049
同时更新模块结点集合
Figure FDA00037557804400000410
更新临时数据集的变量集合
Figure FDA00037557804400000411
更新模块分数moduleScore=scorebest1,best2;重复步骤(3.2.2.1)-(3.2.2.3);
(B)若scorebest1,best2≤moduleScore,说明与当前模块相连的任意边均不能使得分类器性能有所提升,则停止模块更新,当前模块边集合moduleEdge以及模块点集合moduleNode为最终的识别结果。
2.根据权利要求1所述的基于多类型关系的生物网络模块标志物识别方法,其特征在于,步骤二中,最大最小归一化如公式(1)所示:
Figure FDA0003755780440000051
其中,
Figure FDA0003755780440000052
为变量i在样本j上经过归一化后的取值,fij为变量i在样本j上的原取值,
Figure FDA0003755780440000053
为变量i在所有样本上的原始最小值,
Figure FDA0003755780440000054
为变量i在所有样本上的原始最大值,min为转换后的下界,max为转换后的上界,此方法中分别设为1和2;经过调整后,缩放后的变量在所有样本上最小值为1,最大值为2。
3.根据权利要求1或2所述的基于多类型关系的生物网络模块标志物识别方法,其特征在于,步骤一中,检测所研究问题的样本中的小分子代谢成分所用方法为LC-MS或GC-MS;测定不同样本中的microRNA或基因表达情况所用方法为microRNA芯片或基因表达芯片。
CN201911219855.2A 2019-12-03 2019-12-03 基于多类型关系的生物网络模块标志物识别方法 Active CN110890130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911219855.2A CN110890130B (zh) 2019-12-03 2019-12-03 基于多类型关系的生物网络模块标志物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911219855.2A CN110890130B (zh) 2019-12-03 2019-12-03 基于多类型关系的生物网络模块标志物识别方法

Publications (2)

Publication Number Publication Date
CN110890130A CN110890130A (zh) 2020-03-17
CN110890130B true CN110890130B (zh) 2022-09-20

Family

ID=69750140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911219855.2A Active CN110890130B (zh) 2019-12-03 2019-12-03 基于多类型关系的生物网络模块标志物识别方法

Country Status (1)

Country Link
CN (1) CN110890130B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739582B (zh) * 2020-06-22 2022-10-21 大连理工大学 一种基于协同作用网络的生物组学数据分析方法
CN112768081B (zh) * 2021-01-27 2024-02-13 湖南大学 基于子图及节点的共调控生物网络模体发现方法及装置
CN113506593B (zh) * 2021-07-06 2024-04-12 大连海事大学 一种面向大规模基因调控网络的智能推断方法
CN113723634A (zh) * 2021-08-30 2021-11-30 上海电气风电集团股份有限公司 故障变量确定方法、系统和可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364473A (zh) * 2011-11-09 2012-02-29 中国科学院自动化研究所 融合地理信息与视觉信息的网络新闻检索系统及方法
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN108508055A (zh) * 2018-03-27 2018-09-07 广西医科大学 一种基于代谢组学的广西瑶山甜茶抗糖尿病潜在标志物代谢通路及研究方法
CN109856307A (zh) * 2019-03-27 2019-06-07 大连理工大学 一种代谢组分子变量综合筛选技术
CN110010204A (zh) * 2019-04-04 2019-07-12 中南大学 基于融合网络和多打分策略的预后生物标志物识别方法
CN110320303A (zh) * 2019-08-09 2019-10-11 东北大学 一种基于uplc-ms的土壤渗滤系统代谢组学分析方法
CN110322930A (zh) * 2019-06-06 2019-10-11 大连理工大学 基于水平关系的代谢组学网络标志物识别方法
CN110442590A (zh) * 2019-08-06 2019-11-12 北京三维天地科技有限公司 一种用于提供检验检测服务的系统和方法
CN110444248A (zh) * 2019-07-22 2019-11-12 山东大学 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017512996A (ja) * 2014-03-26 2017-05-25 メタノミクス ヘルス ゲーエムベーハー 代謝産物パネルに基づく血液サンプルの品質の決定のための手段および方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364473A (zh) * 2011-11-09 2012-02-29 中国科学院自动化研究所 融合地理信息与视觉信息的网络新闻检索系统及方法
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN108508055A (zh) * 2018-03-27 2018-09-07 广西医科大学 一种基于代谢组学的广西瑶山甜茶抗糖尿病潜在标志物代谢通路及研究方法
CN109856307A (zh) * 2019-03-27 2019-06-07 大连理工大学 一种代谢组分子变量综合筛选技术
CN110010204A (zh) * 2019-04-04 2019-07-12 中南大学 基于融合网络和多打分策略的预后生物标志物识别方法
CN110322930A (zh) * 2019-06-06 2019-10-11 大连理工大学 基于水平关系的代谢组学网络标志物识别方法
CN110444248A (zh) * 2019-07-22 2019-11-12 山东大学 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统
CN110442590A (zh) * 2019-08-06 2019-11-12 北京三维天地科技有限公司 一种用于提供检验检测服务的系统和方法
CN110320303A (zh) * 2019-08-09 2019-10-11 东北大学 一种基于uplc-ms的土壤渗滤系统代谢组学分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Evaluation of salivary metabolomics in oral leukoplakia and oral squamous cell carcinoma;Gokul Sridharan等;《Oral Pathology of Medicine》;20190203;第48卷(第04期);299-306 *
Multilayer Network Modeling of Integrated Biological Systems;M. De Domenico等;《https://arxiv.org/abs/1802.01523》;20180205;1-8 *
基于结核病的基因芯片数据挖掘及生物信息学分析;何林;《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》;20190115(第(2019)01期);A006-739 *
抗生素相关性腹泻的代谢组学;李东东等;《临床与病理杂志》;20190728;第39卷(第07期);1396-1404 *

Also Published As

Publication number Publication date
CN110890130A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN110890130B (zh) 基于多类型关系的生物网络模块标志物识别方法
JP7057913B2 (ja) ビッグデータ解析方法及び該解析方法を利用した質量分析システム
Lamichhane et al. An overview of metabolomics data analysis: current tools and future perspectives
Spitzer et al. Mass cytometry: single cells, many features
US8515680B2 (en) Analysis of transcriptomic data using similarity based modeling
Ebbels et al. Bioinformatic methods in NMR-based metabolic profiling
Brazma et al. Gene expression data analysis
Lou et al. Deuteration distribution estimation with improved sequence coverage for HX/MS experiments
CN110322930B (zh) 基于水平关系的代谢组学网络标志物识别方法
Cavill et al. Genetic algorithms for simultaneous variable and sample selection in metabonomics
JP2011520206A (ja) 医療分析システム
Girolami et al. Analysis of complex, multidimensional datasets
Smedley et al. Using deep neural networks and interpretability methods to identify gene expression patterns that predict radiomic features and histology in non-small cell lung cancer
Phan et al. Functional genomics and proteomics in the clinical neurosciences: data mining and bioinformatics
CN109033747B (zh) 基于pls多扰动集成基因选择的肿瘤特异基因识别方法
Zuo et al. MS2Planner: improved fragmentation spectra coverage in untargeted mass spectrometry by iterative optimized data acquisition
Chen et al. STEEL enables high-resolution delineation of spatiotemporal transcriptomic data
De Iorio et al. Statistical techniques in metabolic profiling
Chen et al. Robust variable selection based on bagging classification tree for support vector machine in metabonomic data analysis
Listgarten Analysis of sibling time series data: alignment and difference detection
Reynes et al. A new genetic algorithm in proteomics: Feature selection for SELDI-TOF data
Sengupta et al. Proteome analysis using machine learning approaches and its applications to diseases
CN105447337B (zh) 一种基于动态网络图分析的时间序列数据处理方法
CN111584005B (zh) 一种基于融合不同模式标志物的分类模型构建算法
Punitha Extraction of Co-Expressed Degs From Parkinson Disease Microarray Dataset Using Partition Based Clustering Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant