CN110322930B

CN110322930B - 基于水平关系的代谢组学网络标志物识别方法

Info

Publication number: CN110322930B
Application number: CN201910489667.5A
Authority: CN
Inventors: 林晓惠; 苏本哲; 黄鑫
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2021-12-03
Anticipated expiration: 2039-06-06
Also published as: CN110322930A

Abstract

本发明提供一种基于水平关系的代谢组学网络标志物识别方法，属于生物数据分析技术领域，用于筛选复杂疾病潜在网络标志物的代谢组学数据分析方法DNB‑HC。特征间的水平关系使用概率得分进行定义，用于衡量一对代谢特征在同一个样本中的相对表达水平的大小关系，通过随机扰乱测试确定水平关系的鲁棒性，从而确定网络连边。此外，本发明使用差异网络分析方法识别网络标志物，筛选出的网络代谢标志物具有较好的区分能力，能够为研究疾病发生发展机理及疾病的诊断提供切实有效的数据处理手段。

Description

基于水平关系的代谢组学网络标志物识别方法

技术领域

本发明属于生物数据分析技术领域，采用特征水平关系构建网络，分析代谢组学数据，用于识别复杂疾病(如恶性肿瘤)潜在网络标志物。

背景技术

代谢组学是系统生物学的重要组成部分，其研究对象是相对分子质量1000以内的小分子物质。通过对生物体内的代谢物进行定性定量分析，能够挖掘代谢物在生理病理过程中的变化规律，反映机体当前的生理状态。相对于基因、蛋白质等生物分子，代谢物处于生命活动调控的末端，能够直接反映代谢过程中的生化活动，因此代谢组学已被广泛地应用于临床标志物的发现、疾病的早期诊断和治疗及药物研发等领域。恶性肿瘤具有侵袭性强、治愈率低、易复发易转移等特点，其研究已成为代谢组学最有价值的研究领域之一。

在生命机体中，生物分子相互关联、相互作用，共同完成各项复杂的生理功能。在疾病发生发展过程中，不仅代谢物的浓度会发生改变，代谢物间的关联关系同样会发生变化。此外，由于受到环境、饮食习惯和遗传因素等影响，不同个体代谢物的浓度会存在较大差异，通过研究代谢物相对表达水平的变化能够更精确地揭示疾病的致病机理。Topscoring pair(TSP)算法通过水平关系评价基因对，选择区分能力最强的基因对进行疾病样本的区分。TSP算法提供了一种简单的决策规则，但易受样本变化的扰动。

本发明从网络的角度分析代谢组学数据，通过水平关系衡量代谢物间的关联性，构建水平关系网络，识别能够用于疾病样本判别的潜在网络标志物。特征间的水平关系使用概率得分进行定义，通过比较一对代谢特征在同一个样本中相对表达水平的大小关系，并使用扰乱测试检测水平关系的鲁棒性，确定网络连边。此外，本发明使用差异网络分析方法寻找具有疾病判别能力的潜在网络标志物。

发明内容

本发明提供了一种基于水平关系网络的代谢组学数据分析方法，简称DNB-HC。DNB-HC在每一类样本上分别构建网络，采用差异网络分析技术寻找能够反映疾病发生发展的重要特征，筛选潜在网络标志物。该方法适用于复杂代谢组学数据的特征筛选，可以用于代谢组学数据分析、转化医学等领域。

本发明采用的技术方案如下：

基于水平关系的代谢组学网络标志物识别方法，步骤如下：

步骤一、获取数据来源

采集需要进行识别的代谢数据集，并将代谢数据集分为训练集和测试集；其中，将F＝{f₁,f₂,…,f_m}定义为特征集合，m表示特征的个数；将C＝{c_t|1≤t≤N_c}定义为类标集合，N_c表示类别数量；将S＝{s₁,s₂,…,s_n}定义为样本集合，n表示样本的个数；在同一个样本中，一对特征f_i和f_j之间的水平关系分为两种情况，f_i<f_j和f_i≥f_j；

步骤二、利用DNB-HC方法在每一类样本上构建水平关系网络

(2.1)计算特征对<f_i,f_j>在第c_t类样本上的水平关系，即概率得分S_t(f_i,f_j)：

公式(1)中，P_t(f_i<f_j)表示在c_t类样本中f_i<f_j的概率，P_t(f_i≥f_j)表示f_i≥f_j的概率；S_t(f_i,f_j)>0说明特征f_i的值在多于一半的c_t类样本上小于特征f_j的值。S_t(f_i,f_j)<0说明特征f_i的值在多于一半的c_t类样本上大于或等于特征f_j的值。|S_t(f_i,f_j)|的大小说明特征f_i和f_j在c_t类样本中具有相同的水平关系的样本多少。

(2.2)为检测水平关系的鲁棒性，在DNB-HC方法中执行num次随机扰乱测试。每次扰乱测试中，将特征f_i和f_j的表达值进行随机重排列，计算新概率得分S’_t(f_i,f_j)。当S’_t(f_i,f_j)>S_t(f_i,f_j)>0或S’_t(f_i,f_j)<S_t(f_i,f_j)<0时，表明特征对<f_i,f_j>间的水平关系是弱的。经过num次随机扰乱后，使用公式(2)来计算随机扰乱测试的p-value_ijt值：

p-value_ijt＝count_ijt/num (2)

公式(2)中，count_ijt表示在c_t类样本上特征对<f_i,f_j>之间为弱关系的频次当p-value_ijt小于阈值α时，则特征对<f_i,f_j>间的水平关系是可靠的。

(2.3)当S_t(f_i,f_j)大于或等于阈值ε并且p-value_ijt值小于阈值α，则c_t类数据子集所对应的网络中特征f_i和f_j之间存在一条f_i指向f_j的有向边。当S_t(f_i,f_j)的值小于或等于阈值-ε并且p-value_ijt值小于阈值α，则c_t类数据子集所对应网络中存在一条f_j指向f_i有向边。特征对<f_i,f_j>之间连边的权重即为S_t(f_i,f_j)。

(2.4)计算所有特征对的概率得分和p-value值，建成水平关系网络；

步骤三、网络分析

不同样本组上构建的网络之间往往具有较大的拓扑结构差异，如网络中边的有无、有向网络中边方向的不同等等，这些差异能够反映特征区分不同类别样本的能力。在DNB-HC方法中，以特定样本组s_t作为研究对象构建差异网络，使用差异网络分析方法挖掘疾病判别信号，用于区分s_t类样本和其他类别样本。令G_t表示在样本组s_t上构建的网络，当G_t中的任意一条边e，在大部分其他样本组的网络G_p(1≤t≠p≤N_c)中有不同的表现行为(例如，消失或方向发生变化)时，则称e为G_t的一条“差异边”。G_t的所有的“差异边”构成其差异子网，记作SG_t。SG_t中边的权重定义为该边在G_t和G_p中对应边权重差值绝对值的平均值。差异子网SG_t中的边反映了特征水平关系在G_t与G_p之间具有明显且健壮的变化，从而利用SG_t区分s_t类样本和其他类别样本。

在生物网络中，度较大的结点往往在生命活动中扮演着重要角色，是疾病发生发展过程中的关键因素。在差异网络SG_t中，如果结点具有较大的度，则表示该结点与多数其他结点的水平关系在s_t类样本和其他类别样本间具有较大差异。这些度较大的结点能够反映疾病发生发展过程的变化情况。将SG_t中的节点按照度降序排序，选取由度最大的节点及其一近邻节点所构成的星型图作为网络标志物。

本发明的有益效果：

从网络的角度系统地分析代谢组学数据，根据代谢特征水平关系的变化确定反映疾病发生发展的关键代谢成分，拓宽了通过衡量特征关联关系识别疾病样本判别标志物的方法。为消除代谢特征绝对含量的变化对数据分析的影响，本发明使用基于相对表达水平的样本概率得分构建网络，更有效地挖掘能够反映疾病发生发展变化，用于疾病样本判别的特征。本发明中，采用有向图的方式可以更直观地描绘代谢特征相对表达水平的关系在不同生理病理状态下的变化。同时，本发明采用差异网络分析方法，筛选出的代谢网络标志物具有较好的区分能力，能够为疾病的诊断提供切实有效的数据处理手段。

附图说明

图1为本发明DNB-HC算法的处理流程。

图2为本发明处理人类代谢乳腺癌样本所构建的差异子网。

图3为本发明处理人类代谢乳腺癌样本，识别乳腺癌亚型判别网络标志物的结果，其中：(A)反映了网络标志物在G_ER-中的水平关系；(B)为所选网络标志物。

具体实施方式

本实施例在本发明技术方案的指导下实施，但本发明的保护范围不限于下述的实施例，下述实施例仅作为本发明的事例而不是限制。在不违反本发明主旨及范围的情况下，可对本发明进行各种改变和改进，但所有这些改变和改进，均应在本发明保护范围之内。

实施例：基于人类代谢的乳腺癌亚型判别潜在网络标志物筛选。

(1)人类代谢乳腺癌数据

本例中所使用人类代谢乳腺癌数据集为公共数据集(Jan Budczies,Scarlet F.

Berit M.Müller,et al.Comparative metabolomics of estrogenreceptor positive and estrogen receptor negative breast cancer:alterations inglutamine and beta-alanine metabolism[J].Journal of Proteomics,2013,94:279-288)，包含已定性代谢物162个，分为雌激素受体阴性(estrogen receptor negative,ER-)和雌激素受体阳性(estrogen receptor positive,ER+)两类。该数据分为一个训练集和一个测试集。其中，训练集包含ER-样本41例，ER+样本143例。测试集中包含ER-样本26例，ER+样本61例。

(2)在训练集的每一类样本上构建水平关系网络

(2.1)在ER-样本上构建水平关系网络

对训练集中的代谢物特征进行两两组合，分别为每一对代谢特征计算在ER-样本上概率得分S_ER-(f_i,f_j)(1≤i<j≤162)，同时对每一对特征进行1000次随机扰乱测试，使用公式(2)计算随机扰乱测试的p-value_ijER-值。本数据集包含162个代谢物，因此共获得162×(162-1)/2＝13041对特征的概率得分及对应的p-value_ijER-值。

如果特征对<f_i,f_j>(1≤i<j≤162)的概率得分S_ER-(f_i,f_j)大于或等于0.6并且p-value_ijER-值小于0.05，则特征f_i和f_j间存在一条有向边，箭头指向特征f_j。如果特征对<f_i,f_j>的概率得分S_ER-(f_i,f_j)小于或等于-0.6且p-value_ijER-值小于0.05，则特征f_i和f_j间建立一条有向边，箭头指向特征f_i。最终，获得水平关系网络G_ER-，包含有向边12282条，特征对<f_i,f_j>的边权值为对应的样本概率得分S_ER-(f_i,f_j)。

(2.2)在ER+样本上构建水平关系网络

同理，在ER+样本上构建水平关系网络G_ER+，共包含12309条有向边。

(3)差异网络分析

以G_ER+为研究对象，定义差异网络SG_ER+。如果G_ER+中的一条边e，在G_ER-中有不同的表现行为(消失或方向相反)时，称e为网络G_ER+的“差异边”。所有的“差异边”构成差异网络SG_ER+，其中边权值表示为G_ER+和G_ER-中对应边权重差值的绝对值。SG_ER+包含393条边，见图2。

将SG_ER+中的节点按照度进行降序排序，度最大的节点为Beta-alanine，选取由该节点及其一近邻节点所构成的星型图作为网络标志物G_NB，共包含25个代谢物，见图3。

(4)网络标志物判别能力评估

在训练集和测试集上，根据G_NB中的每条边构建相减变量(c_ij＝f_i-f_j),对相减变量执行二元逻辑回归操作，使用受试者工作特征曲线表征网络标志物在训练集和测试集上的判别能力。在区分ER-样本和ER+样本的实验中，训练集上的曲线下面积为0.917，测试集上的曲线下面积为1.000。

Claims

1.基于水平关系的代谢组学网络标志物识别方法，其特征在于，步骤如下：

步骤一、获取数据来源

采集需要进行识别的代谢数据集，其中，将F＝{f₁,f₂,…,f_m}定义为特征集合，m表示特征的个数；将C＝{c_t|1≤t≤N_c}定义为类标集合，N_c表示类别数量；将S＝{s₁,s₂,…,s_n}定义为样本集合，n表示样本的个数；在同一个样本中，一对特征f_i和f_j之间的水平关系分为两种情况，f_i<f_j和f_i≥f_j；

步骤二、利用DNB-HC方法在代谢数据集的每一类样本上构建水平关系网络

公式(1)中，P_t(f_i<f_j)表示在c_t类样本中f_i<f_j的概率，P_t(f_i≥f_j)表示f_i≥f_j的概率；S_t(f_i,f_j)>0说明特征f_i的值在多于一半的c_t类样本上小于特征f_j的值；S_t(f_i,f_j)<0说明特征f_i的值在多于一半的c_t类样本上大于或等于特征f_j的值；|S_t(f_i,f_j)|的大小说明特征f_i和f_j在c_t类样本中具有相同的水平的多少；

(2.2)在DNB-HC方法中执行num次随机扰乱测试；每次扰乱测试中，将特征f_i和f_j的表达值进行随机重排列，计算新概率得分S’_t(f_i,f_j)；当S’_t(f_i,f_j)>S_t(f_i,f_j)>0或S’_t(f_i,f_j)<S_t(f_i,f_j)<0时，表明特征对<f_i,f_j>间的水平关系是弱的；经过num次随机扰乱后，使用公式(2)来计算随机扰乱测试的p-value_ijt值：

p-value_ijt＝count_ijt/num (2)

公式(2)中，count_ijt表示在c_t类样本上特征对<f_i,f_j>之间为弱关系的频次，当p-value_ijt小于阈值α时，则特征对<f_i,f_j>间的水平关系是可靠的；

(2.3)当S_t(f_i,f_j)大于或等于阈值ε并且p-value_ijt值小于阈值α，则c_t类数据子集所对应的网络中特征f_i和f_j之间存在一条f_i指向f_j的有向边；当S_t(f_i,f_j)的值小于或等于阈值-ε并且p-value_ijt值小于阈值α，则c_t类数据子集所对应网络中存在一条f_j指向f_i有向边；特征对<f_i,f_j>之间连边的权重即为S_t(f_i,f_j)；

步骤三、网络分析

令G_t表示在样本组s_t上构建的网络，当G_t中的任意一条边e，在大部分其他样本组的网络G_p中有不同的表现行为时，且1≤t≠p≤N_c，则称e为G_t的一条“差异边”；G_t的所有的“差异边”构成其差异子网，记作SG_t；SG_t中边的权重定义为该边在G_t和G_p中对应边权重差值绝对值的平均值；差异子网SG_t中的边反映了特征水平关系在G_t与G_p之间具有明显且健壮的变化，从而利用SG_t区分s_t类样本和其他类别样本；

将SG_t中的节点按照度降序排序，选取由度最大的节点及其一近邻节点所构成的星型图作为网络标志物。