CN110010204B

CN110010204B - 基于融合网络和多打分策略的预后生物标志物识别方法

Info

Publication number: CN110010204B
Application number: CN201910270730.6A
Authority: CN
Inventors: 李敏; 李幸一; 王建新
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2022-12-02
Anticipated expiration: 2039-04-04
Also published as: CN110010204A

Abstract

本发明公开了一种基于融合网络和多打分策略的预后生物标志物识别方法，为了减小样本异质性的影响，首先对样本的基因表达数据进行标准化和主成分分析，取前两个主成分、用高斯混合模型对样本进行聚类；对于每一类，融合多种生物网络，并从生物功能、预后能力、与已知致病基因相关程度三个角度对网络节点进行打分；通过带重启的随机游走算法，获得网络中节点的重要性排序；根据三种打分方式得到的节点重要性排序值综合评估节点的重要性；分别取每一类排序靠前的基因，合并获得预后生物标志物。本发明能有效识别生物可解释性强、与疾病密切相关并在不同预后样本中显著差异表达的生物标志物，用于疾病样本的预后分析。

Description

基于融合网络和多打分策略的预后生物标志物识别方法

技术领域

本发明涉及生物信息学领域，特别是一种基于融合网络和多打分策略的预后生物标志物识别方法。

背景技术

癌症不是由单一因素导致的恶性疾病。相同病理类型和临床分期的癌症病人即使通过相同的治疗，预后也有很大的差异，这说明癌症具有高度的异质性。因此，识别预后生物标志物至关重要，它们不仅可以指导治疗，而且有助于研究癌症的分子机制。

基因不是单独发挥功能，而是相互作用共同维持内部环境的稳定，因此，生物网络中含有大量的生物信息。目前，利用生物网络作为分析手段来识别预后生物标志物的方法有很多，许多方法基于蛋白质相互作用网络、转录调控网络、通路网络等识别患者的预后生物标记物。例如，Cun和

^[1]基于蛋白质相互作用网络提出了基于支持向量机的特征选择方法stSVM，提取有效的生物标志物作为区分不同标签的样本的特征。但单一网络存在网络信息不完整、假阳性和假阴性等问题，因此基于单个网络识别生物标志物可能不准确。一些生物标志物识别方法虽然结合了多种生物网络信息，例如，Choi等人^[2]提出名为CPR的方法，使用改进的PageRank对功能相互作用网络中的基因进行打分和排序，选择排序靠前的基因作为预后生物标志物，但没有从多个生物学角度对含有多种生物信息的网络数据进行分析，这可能导致重要信息被忽略。

同时，基于网络的计算方法通常通过基因在网络中的重要性排序对与疾病样本预后相关的基因进行排序。Winter等人^[3]采用与PageRank类似的NetRank算法预测癌症患者的预后效果。然而，这些方法通常受到癌症样本异质性的影响，导致预测效果不佳。

基于目前研究的不足，有必要提供一种基于融合网络和多打分策略的预后生物标志物识别方法。

[1]Cun Y,

H.Network and data integration for biomarkersignature discovery via network smoothed t-statistics[J].PloS one,2013,8(9):e73074.

[2]Choi,J.,Park,S.,Yoon,Y.,et al.Improved prediction of breast canceroutcome by identifying heterogeneous biomarkers.Bioinformatics,2017,33(22):3619-3626.

[3]Winter C,Kristiansen G,Kersting S,et al.Google goes cancer:improving outcome prediction for cancer patients by network-based ranking ofmarker genes[J].PLoS computational biology,2012,8(5):e1002511.

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于融合网络和多打分策略的预后生物标志物识别方法，提高不同预后效果的样本的分类准确性。

为解决上述技术问题，本发明所采用的技术方案是：一种基于融合网络和多打分策略的预后生物标志物识别方法，包括以下步骤：

1)对输入的基因表达数据通过Z分数进行标准化及主成分分析，并取前两个主成分；

2)基于所述两个主成分，通过高斯混合模型对样本进行聚类；

3)对于每一类，基于多种生物网络融合后的网络，从生物功能、预后能力、与已知致病基因相关程度三个角度对网络节点进行打分；

4)通过带重启的随机游走算法，获得网络中节点的重要性排序；根据三种打分方式得到的节点重要性排序值综合评估节点的重要性；分别取每一类排序靠前(如总基因数的前1％)的基因，合并获得预后生物标志物。

通过Z分数对基因表达数据进行标准化的表达式为：

x表示每一个样本的基因原始表达值；μ表示每一个样本的所有基因原始表达数据的均值；σ为每一个样本的所有基因原始表达数据的标准差。

步骤1)的具体实现过程包括：

1)求标准化后的基因表达数据中特征的协方差矩阵；

2)求协方差矩阵的特征值及对应的特征向量；

3)将特征值按照从大到小的顺序排序，选择其中最大的两个，然后将其对应的两个特征向量分别作为列向量，组成特征向量矩阵；

4)将样本点投影到选取的特征向量上，设标准化后的基因表达数据是样本数为m，基因数为n的矩阵a，协方差矩阵为n*n维，选取的两个特征向量组成的矩阵为b，那么投影后的数据为：Y＝a×b，从而将原始样本的n维特征变成了两维。

步骤2)中，对于每个样本x，高斯混合模型的表达式为：

其中k表示聚类的个数，

表示高斯混合模型中的第k个分量的高斯分布；π_k是混合系数。

步骤3)中，对于节点i,其生物功能打分的表达式为：

frequency(i)表示节点i包含的基因本体GO项的数目，N表示所有GO项的数目。

步骤3)中，节点的预后能力打分通过节点在不同预后样本中表达值的t统计量获得，表达式为：

为两类样本的平均数，

为两类样本的方差，n₁、n₂为两类样本的容量。

利用下式综合评估节点的重要性：

其中m＝1,2,3表示三种打分策略，即生物功能、预后能力、与已知致病基因相关程度；score_m(i)为节点i在第m种打分策略下通过带重启的随机游走算法获得的重要性分值。

与现有技术相比，本发明所具有的有益效果为：本发明为了减小样本异质性的影响，首先对样本的基因表达数据进行标准化和主成分分析，取前两个主成分、用高斯混合模型对样本进行聚类；对于每一类，融合多种生物网络，并从生物功能、预后能力、与已知致病基因相关程度三个角度对网络节点进行打分；通过带重启的随机游走算法，获得网络中节点的重要性排序；根据三种打分方式得到的节点重要性排序值综合评估节点的重要性；分别取每一类排序靠前的基因，合并获得预后生物标志物。本发明能有效识别生物可解释性强、与疾病密切相关并在不同预后样本中显著差异表达的生物标志物，用于疾病样本的预后分析；本发明的方法融合了多种生物信息，可以减小单一数据不完整和噪音影响，并且可以更全面的评估基因的重要程度，有效提高了不同预后效果的样本的分类准确性。

附图说明

图1本发明方法的流程图；

图2为对融合网络中的节点进行排序的具体步骤；

图3为本发明方法在六个数据集上基于基因表达数据前两个主成分的样本聚类分布图；(1)GSE1456；(2)GSE2034；(3)GSE3494；(4)GSE4922；(5)BRCA；(6)NKI；

图4为本发明方法和CPR,NetRank,stSVM方法基于ROC曲线和AUC值评价的比较图；(1)GSE1456(2)GSE2034(3)GSE3494(4)GSE4922(5)BRCA(6)NKI；

图5为本发明方法和CPR,NetRank,stSVM方法的已知致病基因和差异表达基因富集性分析的比较图。

具体实施方式

一、基因表达数据的预处理

读入基因表达数据文件，通过Z分数对基因表达数据进行标准化：

二、基因表达数据的主成分分析

基于标准化后的基因表达数据，通过主成分分析获得基因表达矩阵前两个主成分的具体过程为：

1)求标准化后的基因表达数据中特征的协方差矩阵；

2)求协方差矩阵的特征值及对应的特征向量；

3)将特征值按照从大到小的顺序排序，选择其中最大的两个，然后将其对应的两个特征向量分别作为列向量组成特征向量矩阵。

4)将样本点投影到选取的特征向量上。假设标准化后的基因表达数据是样本数为m，基因数为n的矩阵a(m*n维)，协方差矩阵为n*n维，选取的两个特征向量组成的矩阵为b(n*2维)，那么投影后的数据为：Y＝a×b，从而将原始样本的n维特征变成了两维。

三、高斯混合模型对样本聚类

设有随机变量X，高斯混合模型可以表示为：

表示混合模型中的第k个分量的高斯分布；π_k是混合系数。

四、对网络节点打分

对于聚类后的每一类样本，基于融合网络，从生物功能、预后能力、与已知致病基因相关程度三个角度对网络节点进行打分。

1)从数据库中得到的已知致病基因与疾病的相关性分数作为网络中节点的打分值，不在已知致病基因列表中的基因权重为零；

2)对于节点i,其生物功能打分的表达式为：

frequency(i)表示节点i包含的基因本体(GO)项的数目，N表示所有GO项的数目；

3)节点的预后能力打分通过节点在不同预后样本中表达值的t统计量获得，表达式为：

为两类样本的平均数，

为两类样本的方差，n₁、n₂为两类样本的容量。

五、带重启的随机游走评估基因重要性

基于每一种打分策略，通过带重启的随机游走获得节点的重要性排序值，带重启的随机游走可以表示为：

P_t+1＝(1-α)W^T P_t+αP₀ (5)

其中W表示融合网络的邻接矩阵；P₀表示节点的初始概率，即节点的权重值；P_t表示在时间步长t时指向节点的概率；定义P_t+1＜10^-6且重启概率α等于0.6。

五、获得预后标志物

获得每种打分策略下的节点重要性排序值后，综合评价节点的重要性排序：

其中m＝1,2,3表示三种打分策略，即生物功能、预后能力、与已知致病基因相关程度；score_m(i)为节点i在第m种打分策略下通过带重启的随机游走获得的重要性分值。

最后通过取每一类排序靠前的节点，合并获得预后生物标志物，本发明方法取所有基因数1％的个数的生物标志物。

六、实验验证

为了验证本方法的有效性，我们在六个乳腺癌的真实数据集上进行了测试。其中包含四个来源于GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)，分别为GSE1456、GSE2034、GSE3494、GSE4922，一个来源于TCGA数据库(https://portal.gdc.cancer.gov/projects)的乳腺癌高通量测序(HTS)数据和一个来源于Van De Vijver等人发表在NewEngland Journal of Medicine上的用于乳腺癌病人生存分析的公开数据集NKI。如果患者存活10年以上，样本被标记为预后良好(对于GSE1456，患者存活5年以上标记为预后良好)，如果患者生存时间不超过5年，则标记为预后不良。共包含511个预后良好的乳腺癌样本和360个预后不良的乳腺癌样本。由七种生物网络融合得到的网络来源于Menche等人发表在Science上的公开数据集。

为了评价本方法分类的准确性及生物可解释性，进行以下两项分析：

(1)预后样本分类的准确性

对于每一个乳腺癌数据集，基于本发明方法与NetRank,stSVM,CPR中的每一种方法提取到的特征，通过随机森林分类器及五折交叉验证方法评价方法的准确性；为了获得稳定的分类结果，重复进行100次五折交叉验证，基于所有的分类结果计算真阳性率(TPR)和假阳性率(FPR)，绘制ROC曲线。采用ROC和AUC指标评价分类结果，AUC值是ROC曲线的线下面积，ROC和AUC值的实验结果分别如图4所示。从图4可以看出，我们的方法在不同数据集下，ROC曲线和AUC值均优于其他的方法。由此可见我们提出的方法具有很好的预后能力和稳定性。

(2)预后生物标志物的生物可解释性

为了检验方法获得的生物标志物的生物可解释性，我们分析了获得的生物标志物对于已知致病基因和差异表达基因的富集程度。对于基因表达数据中的每一个基因，采用t检验获得差异表达基因(P值小于0.01)。通过超几何检验被计算已知致病基因和差异表达基因在生物标志物中富集程度的P值：

其中，N为所有基因的数量，M为所有基因中的已知致病基因和差异表达基因的数量，n为生物标志物的数量，m为在生物标志物中的已知致病基因和差异表达基因的数量。P值越小，说明已知致病基因和差异表达基因在生物标志物中的富集程度越高。基于六数据集得到的-log₁₀P的结果如图5所示，从图5可以看出，本发明方法的-log₁₀P总体上比其他方法富集程度更高，且均大于2，即P值小于0.01，说明已知致病基因和差异表达基因在本发明方法获得的生物标志物中的显著富集，即具有良好的生物可解释性。