CN106407742B

CN106407742B - 一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法

Info

Publication number: CN106407742B
Application number: CN201610738177.0A
Authority: CN
Inventors: 赵毅; 张阳
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2018-09-14
Anticipated expiration: 2036-08-26
Also published as: CN106407742A

Abstract

本发明提供的一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法，将随机森林模型和复杂网络中的节点介数结合在一起，提供一种新的视角分析发现肿瘤致病因子和诊断标记物。通过生物信息学，数学统计分析，建立多层蛋白质网络数据的相关性，从而提出一种更加简便，准确度更高的筛选方法，从而为癌症诊断和药物的发现提供更有价值的参考。

Description

一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法

技术领域

本发明涉及肿瘤标志物技术领域，具体涉及一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法。

背景技术

癌症是严重威胁人类生存和社会发展的重大疾病和严重的公共卫生问题之一，癌症控制已成为世界各国政府的卫生战略重点。近些年，对蛋白质研究越来越多，蛋白质的表达水平与癌症的类型、分期及病人的其它临床数据相关，在癌症生物学的几乎所有方面都扮演角色，如增殖、凋亡、入侵、转移和血管生成。

在选择肿瘤标志物时，仅仅选择一种血清蛋白质作为肿瘤标志物往往特异性较低，若测定多种蛋白质组合或蛋白质表达谱，可提高诊断的准确性。但是目前遇到的问题是癌症的复杂性。尽管系统分子生物学技术极大地提高了发现导致肿瘤恶化的蛋白质表达谱异常的可能性，但产生的海量分子生物学数据很少被系统分析和利用。

尽管现有技术中有研究对癌症大数据和癌症蛋白质数据进行挖掘，找出数据中蕴含的信息，例如，胡跃等利用表面加强激光解吸电离-飞行时间质谱技术及其配套蛋白质芯片对49例乳腺癌患者和33例健康人的血清蛋白质组图谱进行检测，结合人工神经网络软件建立诊断模型并进行验证，表面加强激光解吸电离-飞行时间质谱技术及其配套蛋白质芯片技术具有较高的灵敏度和特异度，可用于乳腺癌早期诊断与肿瘤标志物筛选研究。另外，Wu等人综合比较了线性判别方法、二次判别分析，k近邻，bagging和boosting分类树(装袋和提高分类树)，支持向量机和随机森林方法在卵巢癌分类中的应用，随机森林方法优于其他方法(Comparison ofstatistical methods for classification ofovarian cancerusing mass spectrometry data.Baolin Wu,Bioinformatics,2003,19(13):1636–1643.)，但是该方法使用比较复杂。另外，人工神经网络需要大量的参数，如网络结构、权值和阈值的初始值。由于不能观察中间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度，并且人工神经网络算法学习时间长，有时甚至可能达不到学习的目的。此外，癌症的复杂性问题，系统分子生物学技术极大地提高了发现导致肿瘤恶化的蛋白质组异常的可能性，但产生的海量分子生物学数据又很少被系统分析和利用，分析癌症数据也主要集中在临床数据方面。

发明内容

有鉴于此，本发明的目的在于通过对癌症大数据和癌症蛋白质表达谱的数据挖掘，找出数据中蕴含的隐藏信息，提供一种新的视角分析发现肿瘤诊断标记物。

为了实现上述发明目的，本发明提供以下技术方案：

本发明提供了一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法，包括以下步骤：

1)提供肿瘤病人的蛋白质数据，所述蛋白质数据包括肿瘤病人正常组织的蛋白质数据和肿瘤组织的蛋白质数据；

2)将所述步骤1)得到的正常组织的蛋白质数据和肿瘤组织的蛋白质数据分别进行过滤；

3)采用随机森林模型对所述步骤2)中得到同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质的表达量选择最佳子集，计算最佳子集的蛋白质的最大信息系数MIC；

4)基于所述步骤3)的最佳子集蛋白质的最大信息系数值分别构建正常组织和肿瘤组织的蛋白质网络；

5)计算在正常组织和肿瘤组织的蛋白质网络中同一节点的节点介数，比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点，从而筛选出肿瘤蛋白质标志物的种类。

优选的，所述步骤2)中过滤具体为从同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质数据中挑选相同种类蛋白质。

优选的，所述步骤3)中选择最佳子集后还包括：十折交叉验证对选择的最佳子集的数据进行验证。

优选的，所述十折交叉验证的准确率为90％以上进入计算最佳子集的蛋白质的最大信息系数MIC。

优选的，所述步骤3)中选择最佳子集是采用随机森林模型分类器对蛋白质表达量进行过滤和封装，对正常组织和肿瘤组织的蛋白质表达量进行特征选择。

优选的，所述步骤3)中最佳子集蛋白质的最大信息系数值采用如下计算方法得到：

首先定义两个联合随机变量(X,Y)特征矩阵的分布规律的性质，然后使用G(k,l)表示；k,l均为正整数；联合随机变量(X,Y)分布在[0,1]×[0,1]中，定义网格G，使得(X,Y)|G＝(col_G(X),row_G(Y)),所述col_G(X)表示网格G的X轴上的网格列数，row_G(Y)表示网格G的Y轴上的网格行数；

其中X,Y表示随机变量，p(x,y)表示联合概率分布，p(x)p(y)表示边际概率分布；

最大信息系数思想：把散点图中的数据用网格进行分区，封存在网格里，计算变量间的MIC值转化成网格的最佳分区；

用M(X,Y)表示(X,Y)的群体特征矩阵如式Ⅱ所示：

I^*((X,Y),s,t)＝maxI((X,Y)|G)

s·t＜B(n)＝n^0.6

其中：G∈G(k,l)，I(X,Y)，代表的交互信息；n表示数据的数量，s,t分别表示轴和轴分区的数量；

所述的MIC值计算公式为MIC＝max_s.t＜B(n)M(X,Y)_s,t，。

优选的，所述计算节点介数的方法是采用Matlab程序运算。

本发明提供的一种基于多层复杂网络对肿瘤蛋白质标志物的筛选方法，通过构建正常组织和肿瘤组织的蛋白质网络，得到两个网络结构中差异较大的节点介数，从而筛选出肿瘤蛋白质标志物的种类。将随机森林模型和复杂网络中结点重要性度量—节点介数结合在一起，提供一种新的视角分析发现致病因子或诊断标记物。筛选蛋白质数据库等系统生物组学数据，构建了由多变量组成的癌症分子信息数据结构网络。通过生物信息学，数学统计，建立多层分子网络数据的相关性，从而提供了一种方法更加简便，准确度高的筛选方法，从而为癌症诊断和药物的发现提供有价值的参考。

说明书附图

图1-A为本发明实施例2中肺癌病人正常组织蛋白质表达量的MIC网络；

图1-B为本发明实施例2中肺癌病人肿瘤组织蛋白质表达量MIC网络。

具体实施方式

3)采用随机森林模型对所述步骤2)中得到同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质的表达量选择最佳子集，计算最佳子集的蛋白质的MIC值；

4)基于所述步骤3)的最佳子集蛋白质的MIC值分别构建正常组织和肿瘤组织的蛋白质网络；

5)计算在正常组织和肿瘤组织的蛋白质网络中的同一节点的节点介数，比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点，从而筛选出肿瘤蛋白质标志物的种类。

本发明提供的一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法，将随机森林模型和复杂网络中结点重要性度量—节点介数结合在一起，提供一种新的视角分析发现致病因子或诊断标记物。

首先，提供肿瘤病人的蛋白质数据，所述蛋白质数据包括肿瘤病人正常组织的蛋白质数据和肿瘤组织的蛋白质数据。

本发明中，所述肿瘤病人的蛋白质数据的来源为癌症基因信息数据库The CancerGenome Atlas/TCG(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.h tm)。

得到的同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质数据后，本发明对得到的正常组织的蛋白质数据和肿瘤组织的蛋白质数据分别进行过滤。

本发明中，所述过滤具体优选为从相同病人的正常组织的蛋白质数据和肿瘤组织的蛋白质数据中挑选所有相同种类蛋白质。

本发明采用随机森林模型对所述过滤后的正常组织的蛋白质数据和肿瘤组织的蛋白质的表达量选择最佳子集，计算正常组织的蛋白质数据和肿瘤组织蛋白质数据的最佳子集的蛋白质数据间的MIC值。

本发明中，所述随机森林模型具体优选为采用随机森林模型分类器进行选择。所述选择最佳子集是采用随机森林模型分类器对蛋白质表达量进行过滤和封装，对正常组织和肿瘤组织的蛋白质表达量进行特征选择，以获得一套相同病人的肿瘤组织和正常组织的蛋白质数据。所述过滤和封装具体优选采用R语言caret包中sbf和rfe方法进行特征选择，以降低维度。

本发明中，所述选择最佳子集后优选还包括采用十折交叉对选择的最佳子集的数据进行验证，以检测最佳子集的选择的准确率。所述最佳子集的选择经十折交叉验证准确率≥98.10％时才能进入计算最佳子集的蛋白质的最大信息系数MIC的后续分析。

所述十折交叉的具体方法没有特殊限制，采用本领域技术人员所熟知的十折交叉的技术方法即可。

本发明中，所述计算最佳子集蛋白质的最大信息系数MIC具体是最佳子集中每两个蛋白质之间的MIC值。

本发明中，所述最佳子集蛋白质的MIC值优选采用如下计算方法得到：

首先定义两个联合随机变量(X,Y)特征矩阵的分布规律的性质，然后使用G(k,l)表示；k,l均为正整数；联合随机变量(X,Y)分布在[0,1]×[0,1]中，定义网格G，使得(X,Y)|G＝(col_G(X),row_G(Y)),这里的col_G(X)表示网格G的X轴上的网格列数，row_G(Y)表示网格G的Y轴上的网格行数；

用M(X,Y)表示(X,Y)的群体特征矩阵如式Ⅱ所示：

I^*((X,Y),s,t)＝maxI((X,Y)|G)

s·t＜B(n)＝n^0.6

其中：G∈G(k,l)，I(X,Y)代表的交互信息；n表示数据的数量，s,t分别表示轴和轴分区的数量；

所述的MIC值计算公式为MIC＝max_s.t＜B(n)M(X,Y)_s,t，可知：0≤MIC≤1。对于B(n)＝n^α中的α＝0.6，n表示数据的数量，涉及探索最大上限网格B(n)的划分。B(n)设置太大将导致随机数据的MIC值非零，每个点将落到自身的小空格里；B(n)设置过小将导致MIC只能检测出明显和简单的函数关系。所述B(n)的大小依赖n的大小。MIC-P²:反映非线性关系的程度。其中P为pearson相关系数，由于MIC代表一般性的相关关系，MIC-P²值越大，非线性程度越高。

基于所述正常组织蛋白质的最佳子集的MIC值和肿瘤组织蛋白质的最佳子集的MIC值分别构建正常组织蛋白质网络和肿瘤组织的蛋白质网络。

本发明中，所述构建正常组织蛋白质网络和肿瘤组织的蛋白质网络的具体方法优选为每两个蛋白质之间的MIC作为网络中两个结点边的权重，正常组织的蛋白质网络阈值设为0.45，肿瘤组织的蛋白质网络阈值为0.26，此时两个网络是全连通的。两个网络中最大信息系数分别大于0.45和0.26，两个节点之间才有连边。计算正常组织和肿瘤组织的蛋白质网络中同一节点的节点介数，比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点，从而筛选出肿瘤蛋白质标志物的种类。所述发生较大变化的点是根据节点介数数值的大小进行判断。

本发明中，所述计算节点介数的方法优选采用Matlab程序运算。

下面结合实施例对本发明提供的一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法进行详细的说明，但是不能把它们理解为对本发明保护范围的限定。

实施例1

研究数据的来源为癌症基因信息数据库(The Cancer Genome Atlas/TCGA)(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm)。选取浸润性乳腺癌病人蛋白质Experssion-Protein数据水平为3的数据进行下载。其中，蛋白质的数据为285个，来自937个病人。其中在蛋白质表达数据中有45个为乳腺癌病人的正常组织蛋白质数据，其余为乳腺癌病人肿瘤组织蛋白质数据。在正常组织和肿瘤组织的蛋白质数据中，有很多蛋白质不表达或表达率低，去除蛋白质不表达的个体，得到大小为137×45正常组织和乳腺肿瘤组织蛋白质数据，即45个病人中挑选137个不同种类的正常组织蛋白质数据和与正常组织中137个相同种类的肿瘤组织蛋白质数据。

采用随机森林模型对乳腺癌病人正常组织的蛋白质数据和肿瘤组织的蛋白质进行封装和过滤选择筛选择最佳子集。为了选择具有最小基因数量的并保持最高分类准确率的蛋白质子集，采用十折交叉验证进行试验以评估分类器模型，得到蛋白质分类结果如表1所示。对于乳腺癌数据集，当蛋白质子集数量为10时，得到交叉验证准确率为94.76％(表2)。筛选出这10个蛋白质，E.Cadherin、PI3K、Caveolin.、Collagen、GSK3、XBP1、Bax、syk已证实与乳腺癌相关(表3)。

表1乳腺癌病人提取的蛋白质子集

表2采用随机森林分类器所获得的蛋白质10-折交叉验证准确率

表3筛选得到的各种蛋白质在乳腺癌中的作用

实施例2

采用实施例1的方法下载得到肺癌病人蛋白质数据，其中，蛋白质的数据为276个，来自166个病人。同样删除删失数据后，得到137×166肺癌肿瘤组织蛋白质数据，由于肺癌病人缺乏正常组织数据，这里我们选取乳癌病人正常组织数据为对照，即166个病人中挑选131个相同种类的肿瘤组织蛋白质数据和45个病人中131个正常组织蛋白质数据。

采用随机森林模型对肺癌病人正常组织的蛋白质数据和肿瘤组织的蛋白质数据进行封装和过滤选择筛选择最佳子集。为了选择具有最小基因数量的并保持最高分类准确率的蛋白质子集，采用十折交叉验证进行试验以评估分类器模型，得到蛋白质分类结果如表4所示。对于乳腺癌数据集，当蛋白质子集数量为30时，得到交叉验证准确率为98.1％，详细信息见表5。

筛选出这30个蛋白质，计算病人正常组织30个蛋白质之间的MIC值和病人肿瘤组织30个蛋白质之间的MIC值，根据所得到的值构建网络(图1A-B)。每两个蛋白质之间的MIC值作为网络中两个结点边的权重，正常组织网络的阈值为0.45，此时网络全连通。肿瘤组织网络的阈值为0.26，此时网络全连通。

表4提取的蛋白质子集

表5采用随机森林分类器所获得的蛋白质十折交叉验证准确率

由网络图可知，正常组织和肿瘤组织的蛋白质网络结构存在较大差异，而肺癌关键蛋白质应该在正常组和肿瘤组两个网络结构中发生较大变化，通过比较两个网络结构差异发现乳腺癌的关键蛋白质。节点介数是复杂网络中常用判别节点重要性的一个指标，一个蛋白质在两个网络中，节点介数差别大，说明此蛋白质在正常组织和肿瘤组织间发生了较大变化，也许在癌症发生发展中起重要作用。提取10个节点介数差异较大的蛋白质，ARHI-M-E，Bax-R-V，Bim-R-V，Chk1_pS345-R-C，E-Cadherin-R-V，GSK3-alpha-beta-M-V，Ku80-R-C，mTOR-R-V，Smad1-R-V，CDK1-R-V。查阅文献可知，其中9个与肺癌相关，具体筛选的各蛋白质见表6。

表6肺癌病人筛选得到的蛋白质在肺癌中的作用

由以上实施例可知，本发明提供的一种基于多层复杂网络对肿瘤蛋白质标志物的筛选方法，采用随机森林模型和复杂网络分析方法选取癌症的重要生物分子方法是可靠的，可为癌症的预测、治疗和药物的选择与研发提供有价值的参考。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法，其特征在于，包括以下步骤：

4)基于所述步骤3)的最佳子集蛋白质的最大信息系数MIC分别构建正常组织和肿瘤组织的蛋白质网络；

2.根据权利要求1所述的方法，其特征在于，所述步骤2)中过滤具体为从同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质数据中挑选相同种类蛋白质。

3.根据权利要求1所述的方法，其特征在于，所述步骤3)中选择最佳子集后还包括：采用十折交叉验证对选择的最佳子集的数据进行验证。

4.根据权利要求3所述的方法，其特征在于，所述十折交叉验证的准确率为90％以上再计算最佳子集的蛋白质的最大信息系数MIC。

5.根据权利要求1所述的方法，其特征在于，所述步骤3)中选择最佳子集是采用随机森林模型分类器对蛋白质表达量进行过滤和封装，对正常组织和肿瘤组织的蛋白质表达量进行特征选择。

6.根据权利要求1所述的方法，其特征在于，所述步骤3)中最佳子集蛋白质的最大信息系数MIC采用如下计算方法得到：

首先定义两个联合随机变量(X，Y)特征矩阵的分布规律的性质，然后使用G(k，l)表示；k，l均为正整数；联合随机变量(X，Y)分布在[0，1]×[0，1]中，定义网格G，使得(X，Y)|G＝(col_G(X)，row_G(Y))，所述col_G(X)表示网格G的X轴上的网格列数，row_G(Y)表示网格G的Y轴上的网格行数；

其中X，Y表示随机变量，p(x，y)表示联合概率分布，p(x)p(y)表示边际概率分布；

最大信息系数MIC思想：把散点图中的数据用网格进行分区，封存在网格里，计算变量间的最大信息系数MIC转化成网格的最佳分区；

用M(X，Y)表示(X，Y)的群体特征矩阵如式II所示：

I^*((X，Y)，s，t)＝maxI((X，Y)|G)

s·t＜B(n)＝n^0.6

其中：G∈G(k，l)，I(X，Y)，代表的交互信息；n表示数据的数量，s，t分别表示轴和轴分区的数量；

所述的最大信息系数MIC值计算公式为MIC＝max_s.t＜B(n)M(X，Y)_s，t。

7.根据权利要求1所述的方法，其特征在于，计算节点介数的方法是采用Matlab程序运算。