CN110322930B - 基于水平关系的代谢组学网络标志物识别方法 - Google Patents

基于水平关系的代谢组学网络标志物识别方法 Download PDF

Info

Publication number
CN110322930B
CN110322930B CN201910489667.5A CN201910489667A CN110322930B CN 110322930 B CN110322930 B CN 110322930B CN 201910489667 A CN201910489667 A CN 201910489667A CN 110322930 B CN110322930 B CN 110322930B
Authority
CN
China
Prior art keywords
network
value
feature
class
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910489667.5A
Other languages
English (en)
Other versions
CN110322930A (zh
Inventor
林晓惠
苏本哲
黄鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910489667.5A priority Critical patent/CN110322930B/zh
Publication of CN110322930A publication Critical patent/CN110322930A/zh
Application granted granted Critical
Publication of CN110322930B publication Critical patent/CN110322930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种基于水平关系的代谢组学网络标志物识别方法,属于生物数据分析技术领域,用于筛选复杂疾病潜在网络标志物的代谢组学数据分析方法DNB‑HC。特征间的水平关系使用概率得分进行定义,用于衡量一对代谢特征在同一个样本中的相对表达水平的大小关系,通过随机扰乱测试确定水平关系的鲁棒性,从而确定网络连边。此外,本发明使用差异网络分析方法识别网络标志物,筛选出的网络代谢标志物具有较好的区分能力,能够为研究疾病发生发展机理及疾病的诊断提供切实有效的数据处理手段。

Description

基于水平关系的代谢组学网络标志物识别方法
技术领域
本发明属于生物数据分析技术领域,采用特征水平关系构建网络,分析代谢组学数据,用于识别复杂疾病(如恶性肿瘤)潜在网络标志物。
背景技术
代谢组学是系统生物学的重要组成部分,其研究对象是相对分子质量1000以内的小分子物质。通过对生物体内的代谢物进行定性定量分析,能够挖掘代谢物在生理病理过程中的变化规律,反映机体当前的生理状态。相对于基因、蛋白质等生物分子,代谢物处于生命活动调控的末端,能够直接反映代谢过程中的生化活动,因此代谢组学已被广泛地应用于临床标志物的发现、疾病的早期诊断和治疗及药物研发等领域。恶性肿瘤具有侵袭性强、治愈率低、易复发易转移等特点,其研究已成为代谢组学最有价值的研究领域之一。
在生命机体中,生物分子相互关联、相互作用,共同完成各项复杂的生理功能。在疾病发生发展过程中,不仅代谢物的浓度会发生改变,代谢物间的关联关系同样会发生变化。此外,由于受到环境、饮食习惯和遗传因素等影响,不同个体代谢物的浓度会存在较大差异,通过研究代谢物相对表达水平的变化能够更精确地揭示疾病的致病机理。Topscoring pair(TSP)算法通过水平关系评价基因对,选择区分能力最强的基因对进行疾病样本的区分。TSP算法提供了一种简单的决策规则,但易受样本变化的扰动。
本发明从网络的角度分析代谢组学数据,通过水平关系衡量代谢物间的关联性,构建水平关系网络,识别能够用于疾病样本判别的潜在网络标志物。特征间的水平关系使用概率得分进行定义,通过比较一对代谢特征在同一个样本中相对表达水平的大小关系,并使用扰乱测试检测水平关系的鲁棒性,确定网络连边。此外,本发明使用差异网络分析方法寻找具有疾病判别能力的潜在网络标志物。
发明内容
本发明提供了一种基于水平关系网络的代谢组学数据分析方法,简称DNB-HC。DNB-HC在每一类样本上分别构建网络,采用差异网络分析技术寻找能够反映疾病发生发展的重要特征,筛选潜在网络标志物。该方法适用于复杂代谢组学数据的特征筛选,可以用于代谢组学数据分析、转化医学等领域。
本发明采用的技术方案如下:
基于水平关系的代谢组学网络标志物识别方法,步骤如下:
步骤一、获取数据来源
采集需要进行识别的代谢数据集,并将代谢数据集分为训练集和测试集;其中,将F={f1,f2,…,fm}定义为特征集合,m表示特征的个数;将C={ct|1≤t≤Nc}定义为类标集合,Nc表示类别数量;将S={s1,s2,…,sn}定义为样本集合,n表示样本的个数;在同一个样本中,一对特征fi和fj之间的水平关系分为两种情况,fi<fj和fi≥fj
步骤二、利用DNB-HC方法在每一类样本上构建水平关系网络
(2.1)计算特征对<fi,fj>在第ct类样本上的水平关系,即概率得分St(fi,fj):
Figure BDA0002086577800000021
公式(1)中,Pt(fi<fj)表示在ct类样本中fi<fj的概率,Pt(fi≥fj)表示fi≥fj的概率;St(fi,fj)>0说明特征fi的值在多于一半的ct类样本上小于特征fj的值。St(fi,fj)<0说明特征fi的值在多于一半的ct类样本上大于或等于特征fj的值。|St(fi,fj)|的大小说明特征fi和fj在ct类样本中具有相同的水平关系的样本多少。
(2.2)为检测水平关系的鲁棒性,在DNB-HC方法中执行num次随机扰乱测试。每次扰乱测试中,将特征fi和fj的表达值进行随机重排列,计算新概率得分S’t(fi,fj)。当S’t(fi,fj)>St(fi,fj)>0或S’t(fi,fj)<St(fi,fj)<0时,表明特征对<fi,fj>间的水平关系是弱的。经过num次随机扰乱后,使用公式(2)来计算随机扰乱测试的p-valueijt值:
p-valueijt=countijt/num (2)
公式(2)中,countijt表示在ct类样本上特征对<fi,fj>之间为弱关系的频次当p-valueijt小于阈值α时,则特征对<fi,fj>间的水平关系是可靠的。
(2.3)当St(fi,fj)大于或等于阈值ε并且p-valueijt值小于阈值α,则ct类数据子集所对应的网络中特征fi和fj之间存在一条fi指向fj的有向边。当St(fi,fj)的值小于或等于阈值-ε并且p-valueijt值小于阈值α,则ct类数据子集所对应网络中存在一条fj指向fi有向边。特征对<fi,fj>之间连边的权重即为St(fi,fj)。
(2.4)计算所有特征对的概率得分和p-value值,建成水平关系网络;
步骤三、网络分析
不同样本组上构建的网络之间往往具有较大的拓扑结构差异,如网络中边的有无、有向网络中边方向的不同等等,这些差异能够反映特征区分不同类别样本的能力。在DNB-HC方法中,以特定样本组st作为研究对象构建差异网络,使用差异网络分析方法挖掘疾病判别信号,用于区分st类样本和其他类别样本。令Gt表示在样本组st上构建的网络,当Gt中的任意一条边e,在大部分其他样本组的网络Gp(1≤t≠p≤Nc)中有不同的表现行为(例如,消失或方向发生变化)时,则称e为Gt的一条“差异边”。Gt的所有的“差异边”构成其差异子网,记作SGt。SGt中边的权重定义为该边在Gt和Gp中对应边权重差值绝对值的平均值。差异子网SGt中的边反映了特征水平关系在Gt与Gp之间具有明显且健壮的变化,从而利用SGt区分st类样本和其他类别样本。
在生物网络中,度较大的结点往往在生命活动中扮演着重要角色,是疾病发生发展过程中的关键因素。在差异网络SGt中,如果结点具有较大的度,则表示该结点与多数其他结点的水平关系在st类样本和其他类别样本间具有较大差异。这些度较大的结点能够反映疾病发生发展过程的变化情况。将SGt中的节点按照度降序排序,选取由度最大的节点及其一近邻节点所构成的星型图作为网络标志物。
本发明的有益效果:
从网络的角度系统地分析代谢组学数据,根据代谢特征水平关系的变化确定反映疾病发生发展的关键代谢成分,拓宽了通过衡量特征关联关系识别疾病样本判别标志物的方法。为消除代谢特征绝对含量的变化对数据分析的影响,本发明使用基于相对表达水平的样本概率得分构建网络,更有效地挖掘能够反映疾病发生发展变化,用于疾病样本判别的特征。本发明中,采用有向图的方式可以更直观地描绘代谢特征相对表达水平的关系在不同生理病理状态下的变化。同时,本发明采用差异网络分析方法,筛选出的代谢网络标志物具有较好的区分能力,能够为疾病的诊断提供切实有效的数据处理手段。
附图说明
图1为本发明DNB-HC算法的处理流程。
图2为本发明处理人类代谢乳腺癌样本所构建的差异子网。
图3为本发明处理人类代谢乳腺癌样本,识别乳腺癌亚型判别网络标志物的结果,其中:(A)反映了网络标志物在GER-中的水平关系;(B)为所选网络标志物。
具体实施方式
本实施例在本发明技术方案的指导下实施,但本发明的保护范围不限于下述的实施例,下述实施例仅作为本发明的事例而不是限制。在不违反本发明主旨及范围的情况下,可对本发明进行各种改变和改进,但所有这些改变和改进,均应在本发明保护范围之内。
实施例:基于人类代谢的乳腺癌亚型判别潜在网络标志物筛选。
(1)人类代谢乳腺癌数据
本例中所使用人类代谢乳腺癌数据集为公共数据集(Jan Budczies,Scarlet F.
Figure BDA0002086577800000041
Berit M.Müller,et al.Comparative metabolomics of estrogenreceptor positive and estrogen receptor negative breast cancer:alterations inglutamine and beta-alanine metabolism[J].Journal of Proteomics,2013,94:279-288),包含已定性代谢物162个,分为雌激素受体阴性(estrogen receptor negative,ER-)和雌激素受体阳性(estrogen receptor positive,ER+)两类。该数据分为一个训练集和一个测试集。其中,训练集包含ER-样本41例,ER+样本143例。测试集中包含ER-样本26例,ER+样本61例。
(2)在训练集的每一类样本上构建水平关系网络
(2.1)在ER-样本上构建水平关系网络
对训练集中的代谢物特征进行两两组合,分别为每一对代谢特征计算在ER-样本上概率得分SER-(fi,fj)(1≤i<j≤162),同时对每一对特征进行1000次随机扰乱测试,使用公式(2)计算随机扰乱测试的p-valueijER-值。本数据集包含162个代谢物,因此共获得162×(162-1)/2=13041对特征的概率得分及对应的p-valueijER-值。
如果特征对<fi,fj>(1≤i<j≤162)的概率得分SER-(fi,fj)大于或等于0.6并且p-valueijER-值小于0.05,则特征fi和fj间存在一条有向边,箭头指向特征fj。如果特征对<fi,fj>的概率得分SER-(fi,fj)小于或等于-0.6且p-valueijER-值小于0.05,则特征fi和fj间建立一条有向边,箭头指向特征fi。最终,获得水平关系网络GER-,包含有向边12282条,特征对<fi,fj>的边权值为对应的样本概率得分SER-(fi,fj)。
(2.2)在ER+样本上构建水平关系网络
同理,在ER+样本上构建水平关系网络GER+,共包含12309条有向边。
(3)差异网络分析
以GER+为研究对象,定义差异网络SGER+。如果GER+中的一条边e,在GER-中有不同的表现行为(消失或方向相反)时,称e为网络GER+的“差异边”。所有的“差异边”构成差异网络SGER+,其中边权值表示为GER+和GER-中对应边权重差值的绝对值。SGER+包含393条边,见图2。
将SGER+中的节点按照度进行降序排序,度最大的节点为Beta-alanine,选取由该节点及其一近邻节点所构成的星型图作为网络标志物GNB,共包含25个代谢物,见图3。
(4)网络标志物判别能力评估
在训练集和测试集上,根据GNB中的每条边构建相减变量(cij=fi-fj),对相减变量执行二元逻辑回归操作,使用受试者工作特征曲线表征网络标志物在训练集和测试集上的判别能力。在区分ER-样本和ER+样本的实验中,训练集上的曲线下面积为0.917,测试集上的曲线下面积为1.000。

Claims (1)

1.基于水平关系的代谢组学网络标志物识别方法,其特征在于,步骤如下:
步骤一、获取数据来源
采集需要进行识别的代谢数据集,其中,将F={f1,f2,…,fm}定义为特征集合,m表示特征的个数;将C={ct|1≤t≤Nc}定义为类标集合,Nc表示类别数量;将S={s1,s2,…,sn}定义为样本集合,n表示样本的个数;在同一个样本中,一对特征fi和fj之间的水平关系分为两种情况,fi<fj和fi≥fj
步骤二、利用DNB-HC方法在代谢数据集的每一类样本上构建水平关系网络
(2.1)计算特征对<fi,fj>在第ct类样本上的水平关系,即概率得分St(fi,fj):
Figure FDA0003304922790000011
公式(1)中,Pt(fi<fj)表示在ct类样本中fi<fj的概率,Pt(fi≥fj)表示fi≥fj的概率;St(fi,fj)>0说明特征fi的值在多于一半的ct类样本上小于特征fj的值;St(fi,fj)<0说明特征fi的值在多于一半的ct类样本上大于或等于特征fj的值;|St(fi,fj)|的大小说明特征fi和fj在ct类样本中具有相同的水平的多少;
(2.2)在DNB-HC方法中执行num次随机扰乱测试;每次扰乱测试中,将特征fi和fj的表达值进行随机重排列,计算新概率得分S’t(fi,fj);当S’t(fi,fj)>St(fi,fj)>0或S’t(fi,fj)<St(fi,fj)<0时,表明特征对<fi,fj>间的水平关系是弱的;经过num次随机扰乱后,使用公式(2)来计算随机扰乱测试的p-valueijt值:
p-valueijt=countijt/num (2)
公式(2)中,countijt表示在ct类样本上特征对<fi,fj>之间为弱关系的频次,当p-valueijt小于阈值α时,则特征对<fi,fj>间的水平关系是可靠的;
(2.3)当St(fi,fj)大于或等于阈值ε并且p-valueijt值小于阈值α,则ct类数据子集所对应的网络中特征fi和fj之间存在一条fi指向fj的有向边;当St(fi,fj)的值小于或等于阈值-ε并且p-valueijt值小于阈值α,则ct类数据子集所对应网络中存在一条fj指向fi有向边;特征对<fi,fj>之间连边的权重即为St(fi,fj);
(2.4)计算所有特征对的概率得分和p-value值,建成水平关系网络;
步骤三、网络分析
令Gt表示在样本组st上构建的网络,当Gt中的任意一条边e,在大部分其他样本组的网络Gp中有不同的表现行为时,且1≤t≠p≤Nc,则称e为Gt的一条“差异边”;Gt的所有的“差异边”构成其差异子网,记作SGt;SGt中边的权重定义为该边在Gt和Gp中对应边权重差值绝对值的平均值;差异子网SGt中的边反映了特征水平关系在Gt与Gp之间具有明显且健壮的变化,从而利用SGt区分st类样本和其他类别样本;
将SGt中的节点按照度降序排序,选取由度最大的节点及其一近邻节点所构成的星型图作为网络标志物。
CN201910489667.5A 2019-06-06 2019-06-06 基于水平关系的代谢组学网络标志物识别方法 Active CN110322930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910489667.5A CN110322930B (zh) 2019-06-06 2019-06-06 基于水平关系的代谢组学网络标志物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910489667.5A CN110322930B (zh) 2019-06-06 2019-06-06 基于水平关系的代谢组学网络标志物识别方法

Publications (2)

Publication Number Publication Date
CN110322930A CN110322930A (zh) 2019-10-11
CN110322930B true CN110322930B (zh) 2021-12-03

Family

ID=68120874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910489667.5A Active CN110322930B (zh) 2019-06-06 2019-06-06 基于水平关系的代谢组学网络标志物识别方法

Country Status (1)

Country Link
CN (1) CN110322930B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890130B (zh) * 2019-12-03 2022-09-20 大连理工大学 基于多类型关系的生物网络模块标志物识别方法
CN111584005B (zh) * 2020-04-12 2023-10-20 鞍山师范学院 一种基于融合不同模式标志物的分类模型构建算法
CN111554350B (zh) * 2020-04-12 2023-03-21 鞍山师范学院 一种指导个性化治疗研究的适应性评估标志物筛选算法
CN111739582B (zh) * 2020-06-22 2022-10-21 大连理工大学 一种基于协同作用网络的生物组学数据分析方法
CN114038509A (zh) * 2021-11-04 2022-02-11 厦门大学 一种基于代谢物关联网络的受扰动通路分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268431A (zh) * 2013-05-21 2013-08-28 中山大学 一种基于学生t分布的癌症亚型生物标志物检测系统
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153249A1 (en) * 2002-08-06 2004-08-05 The Johns Hopkins University System, software and methods for biomarker identification
CN105004825A (zh) * 2015-05-05 2015-10-28 南京工业大学 一种基于成骨细胞细胞组织gc/ms代谢组学分析方法
CN108537003B (zh) * 2018-03-30 2020-04-07 大连理工大学 基于单变量和对变量的标志物筛选方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268431A (zh) * 2013-05-21 2013-08-28 中山大学 一种基于学生t分布的癌症亚型生物标志物检测系统
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Identification of Biomarkers with Different Classifiers in Urine Test*;Haotian Z.等;《2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC)》;20181029;第2095-2098页 *
基于乒乓算法的复杂疾病标志物识别;吕鹏举 等;《现代生物医学进展》;20180531;第18卷(第9期);第1780-1784页 *

Also Published As

Publication number Publication date
CN110322930A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110322930B (zh) 基于水平关系的代谢组学网络标志物识别方法
Tang et al. Computational advances of tumor marker selection and sample classification in cancer proteomics
Horng et al. An expert system to classify microarray gene expression data using gene selection by decision tree
CN110890130B (zh) 基于多类型关系的生物网络模块标志物识别方法
Ciaramella et al. Data integration by fuzzy similarity-based hierarchical clustering
Torshizi et al. Alpha-plane based automatic general type-2 fuzzy clustering based on simulated annealing meta-heuristic algorithm for analyzing gene expression data
Kumar et al. Metabolomic biomarker identification in presence of outliers and missing values
Yang et al. MDICC: novel method for multi-omics data integration and cancer subtype identification
Simon Microarray-based expression profiling and informatics
Smedley et al. Using deep neural networks and interpretability methods to identify gene expression patterns that predict radiomic features and histology in non-small cell lung cancer
Phan et al. Functional genomics and proteomics in the clinical neurosciences: data mining and bioinformatics
CN109033747B (zh) 基于pls多扰动集成基因选择的肿瘤特异基因识别方法
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及系统
Driscoll et al. Classification of gene expression data with genetic programming
Keedwell et al. Gene expression rule discovery and multi-objective ROC analysis using a neural-genetic hybrid
Castellanos-Garzón et al. A clustering-based method for gene selection to classify tissue samples in lung cancer
Zhang et al. A novel method for feature selection based on molecular interactive effect network
Lauria Rank-based miRNA signatures for early cancer detection
Thenmozhi et al. Distribution based fuzzy estimate spectral clustering for Cancer detection with protein sequence and structural motifs
Ghai et al. Proximity measurement technique for gene expression data
Rasanjana et al. A svm model for candidate y-chromosome gene discovery in prostate cancer
Sun et al. Eliminate false positives in metagenomic profiling based on type IIB restriction sites
Tian et al. Identification of genes involved in breast cancer metastasis by integrating protein–protein interaction information with expression data
US20210230705A1 (en) Method to predict pathological grade and to identify drug targets against glioma tumor
Yachen et al. Application of personalized differential expression analysis in human cancer proteome

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant