CN111584005B

CN111584005B - 一种基于融合不同模式标志物的分类模型构建算法

Info

Publication number: CN111584005B
Application number: CN202010284362.3A
Authority: CN
Inventors: 黄鑫; 廖振前; 苏本哲
Original assignee: Anshan Normal University
Current assignee: Anshan Normal University
Priority date: 2020-04-12
Filing date: 2020-04-12
Publication date: 2023-10-20
Anticipated expiration: 2040-04-12
Also published as: CN111584005A

Abstract

一种基于融合不同模式标志物的分类模型构建算法，为复杂疾病诊断提供一种精确简单的决策规则。(i)利用相对差异表达的方式消除个体差异对于数据分析的影响；(ii)通过计算单特征和比值特征在不同类别样本中表达值变化的概率差来衡量各自的判别能力，从而消除不同模式标志物表达值量级上的差异对于数据分析的影响。由于使用同一种特征评价准则衡量单特征重要性得分和比值特征重要性得分，因此可以直接比较不同模式特征的判别能力，发现真实有效地反映机体生理、病理状态变化的单特征或者比值特征。将不同模式标志物有机地融合，丰富疾病诊断的判别信息，使所筛选的潜在性标志物集合具有临床测试简单、假阳性低、生物学可解释性强。

Description

一种基于融合不同模式标志物的分类模型构建算法

技术领域

本发明涉及生物数据分析技术领域，特别涉及一种基于融合不同模式标志物的分类模型构建算法。

背景技术

随着高通量技术的飞速发展，涌现出越来越多的高维组学数据(如基因组学、蛋白质组学和代谢组学等)。如何运用统计学分析方法和机器学习算法从复杂的组学数据中发现重要信息是生物信息学研究中的一大挑战。组学数据往往具有“样本数量少，特征维度高”的特点，易导致过拟合现象的产生，给数据分析带来一定的困难。特征选择算法能剔除数据中的噪音和冗余特征，提高分类模型的精度并且减少算法运行时间。将特征选择算法应用于疾病组学数据分析中，可以发现复杂疾病的生物标志物，对疾病的临床诊断和治疗研究具有重要的现实意义。

复杂疾病的临床标志物研究已经成为生物信息学领域中的热点，尤其是恶性肿瘤的早期诊断、分型和预后信息的筛选对于提高病人的生存率十分重要。癌症死亡率居高，严重威胁着人类的健康，给社会、家庭都带来沉重的经济负担。据世界卫生组织调查结果表明在我国，每65人当中就有1名癌症患者。癌症的发生涉及遗传、病毒以及环境等多重因素间复杂的相互作用，致病机理尚未彻底明确，并且肿瘤发展较快，早期诊断困难，治愈率低。利用生物信息学方法可以对癌症致病机理进行深入分析、发现新型有效的恶性肿瘤标志物、探究机体对不同治疗方案的真实响应，通过早诊断、早干预提高恶性肿瘤的预后及术后效果，从而有助于降低病人的死亡率。

分子含量上的差异性表达可以反映生命机体生理、病理的变化。甲胎蛋白和前列腺特异抗原等单分子标志物具有一定的疾病判别能力，并且临床测试、分析简单，被广泛应用于癌症的诊断中。然而，生命机体十分复杂，分子间以通路或网络的形式实现各项生理功能，维持生命机体的正常活动，因此分子间存在着密切的关联关系。仅考察单分子标志物含量上的波动可能无法全面地表征生命机体对于外界刺激的响应。利用特征间关联关系在疾病发生发展中的变化，筛选可以反映生命机体癌变的关键信息，有助于提高癌症的临床诊断和治疗效果。在系统生物学中，两个分子间的比值可以解释为一个分子通过一条或多条通路转化成另一个分子的化学反应。因此，分析比值特征在不同生理、病理状态下的差异，发现具有判别能力的重要比值特征，可以从通路信号角度进一步促进临床标志物的研究。

考虑到不同模式的标志物有其自身的优势，探索不同模式的标志物筛选与融合算法，消除不同模式标志物表达值上量级的差异对于数据分析的影响，研制既可以用于衡量单特征区分能力，也可以用于衡量比值特征区分能力的评价准则。基于所研制的评价准则筛选富含判别信息的单特征或比值特征，有机地融合不同模式的标志物，从而丰富疾病的临床诊断信息，提高疾病的分型效果。此外在临床应用中，癌症的诊断和分型应该基于少量的标志物和简单有效的决策规则。一些机器学习算法利用复杂的决策边界对未知样本进行预测，而这些复杂的决策边界往往难以从生物学角度进行解释，因而限制其在临床上的进一步应用。基于所选少量的标志物构造精确简单的分类模型，不仅有助于提高癌症的分型效果，而且可以降低临床诊断成本。

发明内容

为了解决背景技术提出的技术问题，本发明提供一种基于融合不同模式标志物的分类模型构建算法，可以筛选出具有强判别能力的不同模式标志物，并利用所选标志物构造精确简单的分类模型，为复杂疾病的临床诊断提供有效的新方法。

为了达到上述目的，本发明采用以下技术方案实现：

一种基于融合不同模式标志物的分类模型构建算法，包括如下步骤：

步骤一：筛选具有强判别能力的单特征

A根据第一评价准则计算每一个单特征的第一得分△，并基于第一得分△对所有的单特征进行降序排序，第一评价准则计算方式如下：

p_i(c_l)＝prob(f_i<S_i|y_t＝c_l) (1)

△_i＝|p_i(c₁)-p_i(c₂)| (2)

公式(1)中S_i表示特征f_i在所有样本上的均值，p_i(c_l)表示在c_l类样本中事件f_i<S_i的概率；△_i值越大，表明特征f_i区分能力越强；

B根据第二评价准则计算每一个单特征的第二得分τ；当一些单特征具有相同的第一得分时，利用第二得分τ对其进行进一步的区分，第二评价准则计算方式如下：

τ_i＝|γ_i(c₁)-γ_i(c₂)| (4)

公式(3)中γ_i(c_l)表示特征f_i在c_l类样本中表达值的平均含量，公式(4)中τ_i能够反映特征f_i的表达值在两类样本中波动情况；τ_i值越大，表明特征f_i区分能力越强；

步骤二：筛选具有强判别能力的比值特征

A根据第一评价准则计算每一个比值特征的第一得分△，并基于第一得分△对所有的比值特征进行降序排序，第一评价准则计算方式如下：

p_ij(c_l)＝prob(r_ij<S_ij|y_t＝c_l) (5)

△_ij＝|p_ij(c₁)-p_ij(c₂)| (6)

公式(5)中S_ij表示特征r_ij在所有样本上的均值，p_ij(c_l)表示在c_l类样本中事件r_ij<S_ij的概率；△_ij值越大，表明特征r_ij区分能力越强；

B根据第二评价准则计算每一个比值特征的第二得分τ；当一些比值特征具有相同的第一得分时，利用第二得分τ对其进行进一步的区分，第二评价准则计算方式如下：

τ_ij＝|γ_ij(c₁)-γ_ij(c₂)| (8)

公式(7)中γ_ij(c^l)表示比值特征r_ij在c^l类样本中表达值的平均含量，公式(8)中τ_ij能够反映比值特征r_ij的表达值在两类样本中波动情况；τ_ij值越大，表明特征r_ij区分能力越强；

步骤三：由于使用相同的评价准则来衡量单特征和比值特征的得分，因此可以直接比较单特征和比值特征的判别能力，筛选k个具有强判别能力的单特征或比值特征构成疾病的潜在性标志物；

步骤四：基于每一个所选的单特征或比值特征，构建一个基分类器，分类原理如下：

(i)基于单特征f_i所构建的基分类器

A当p_i(c₁)>p_i(c₂)时，如果在未知样本x^u中f_iu<S_i，则预测x^u的类标为c₁，否则为c₂；

B当p_i(c₁)≤p_i(c₂)时，如果在未知样本x^u中f_iu≥S_i，则预测x^u的类标为c₁，否则为c₂；

(ii)基于比值特征r_ij所构建的基分类器

A当p_ij(c₁)>p_ij(c₂)时，如果在未知样本x^u中f_iu/f_ju<S_ij，则预测x^u的类标为c₁，否则为c₂；

B当p_ij(c₁)≤p_ij(c₂)时，如果在未知样本x^u中f_iu/f_ju≥S_ij，则预测x^u的类标为c₁，否则为c₂；

步骤五：融合k个基分类器的分类结果，采用多数投票的方式预测未知样本x^u的类标。

与现有技术相比，本发明的有益效果是：

1)本发明(i)利用相对差异表达的方式消除个体差异对于数据分析的影响；(ii)通过计算单特征和比值特征在不同类别样本中表达值变化的概率差来衡量各自的判别能力，从而消除不同模式标志物表达值量级上的差异对于数据分析的影响。由于使用同一种特征评价准则衡量单特征重要性得分和比值特征重要性得分，因此可以直接比较不同模式特征的判别能力，发现真实有效地反映机体生理、病理状态变化的单特征或者比值特征。将不同模式标志物有机地融合，从而丰富疾病诊断的判别信息，使所筛选的潜在性标志物集合具有临床测试简单、假阳性低、生物学可解释性强等优势。

2)不同模式的标志物可以从不同角度反映生命机体生理、病理的变化，本发明基于样本概率差的方法筛选具有强判别能力的单分子标志物和比值型标志物，融合不同模式的标志物，以期丰富癌症的判别信息，从而系统地分析癌变过程中发生显著性变化的关键生物因素。癌症的诊断应该基于少量的标志物和精确、简单的决策规则。本发明基于所筛选的k个单分子标志物或比值型标志物，构建k个基分类器。每个基分类器通过考察所选模式标志物在未知样本中的含量和其在训练样本中均值的大小关系，预测未知样本的类别。对k个基分类器的分类结果进行统计，采用多数投票的方式判断未知样本的类别，因此可以提高临床诊断效率、降低临床诊断成本。

具体实施方式

以下对本发明提供的具体实施方式进行详细说明。

癌症的发生、发展涉及多种因素间复杂的相互作用，单一模式的标志物可能无法全面地表征生命机体生理、病理上的变化，从而影响癌症的临床诊断效果。同时，考虑到临床实际应用，癌症诊断的决策规则应当是简单且精准的。本发明提供了一种基于融合不同模式标志物的分类模型构建算法(Constructing classification model by combiningdifferent biomarker patterns，CDBP)。CDBP从复杂的组学数据中筛选具有强判别能力的单特征或比值特征，并且利用所选的单特征或比值特征构建精确、简单的决策规则，预测未知样本。将F＝{f₁,f₂,…,f_m}定义为特征集合，其中m表示特征的个数；X＝{x₁,x₂,...,x_n}定义为样本集合，其中n表示样本的个数；C＝{c₁,c₂}定义为类标集合，其中c₁表示正类，c₂表示负类；Y＝{y₁,y₂,…,y_n}定义为n个样本类标向量，其中y_i∈C表示样本x_i的类标。

为筛选具有强判别能力的单特征标志物，本发明首先使用第一评价准则计算特征f_i的第一得分△_i：

p_i(c_l)＝prob(f_i<S_i|y_t＝c_l) (1)

△_i＝|p_i(c₁)-p_i(c₂)| (2)

公式(1)中S_i表示特征f_i在所有样本上的均值，p_i(c_l)表示在c_l类样本中事件f_i<S_i的概率。△_i值越大，表明特征f_i区分能力越强。当某些特征在第一评价准则下具有相同的得分时，本发明将采用第二评价准则计算这些特征的第二得分τ，从而对其进行进一步地区分。第二评价准则的计算方式如下：

τ_i＝|γ_i(c₁)-γ_i(c₂)| (4)

公式(3)中γ_i(c_l)表示特征f_i在c_l类样本中表达值的平均含量，公式(4)中τ_i能够反映特征f_i的表达值在两类样本中波动情况。τ_i值越大，表明特征f_i区分能力越强。

定义r_ij表示特征f_i和特征f_j的比值特征，为筛选具有强判别能力的比值特征标志物，本发明首先使用第一评价准则计算比值特征r_ij的第一得分△_ij：

p_ij(c_l)＝prob(r_ij<S_ij|y_t＝c_l) (5)

△_ij＝|p_ij(c₁)-p_ij(c₂)| (6)

公式(5)中S_ij表示特征r_ij在所有样本上的均值，p_ij(c_l)表示在c_l类样本中事件r_ij<S_ij的概率。△_ij值越大，表明特征r_ij区分能力越强。当某些比值特征在第一评价准则下具有相同的得分时，本发明将采用第二评价准则计算这些比值特征的第二得分τ，从而对其进行进一步地区分。第二评价准则的计算方式如下：

τ_ij＝|γ_ij(c₁)-γ_ij(c₂)| (8)

公式(7)中γ_ij(c^l)表示比值特征r_ij在c^l类样本中表达值的平均含量，公式(8)中τ_ij能够反映比值特征r_ij的表达值在两类样本中波动情况。τ_ij值越大，表明特征r_ij区分能力越强。本发明适应于高维数据的特征筛选，可以应用于疾病组学数据分析、转化医学等领域。

本发明采用的技术方案如下：

步骤1：筛选具有强判别能力的单特征

A根据公式(2)计算每一个单特征在第一评价准则下的得分△，并基于第一得分△对所有的单特征进行降序排序；

B根据公式(4)计算每一个单特征的第二得分τ。当一些单特征具有相同的第一得分时，利用第二得分τ对其进行进一步的区分；

步骤2：筛选具有强判别能力的比值特征

A根据公式(6)计算每一个比值特征在第一评价准则下的得分△，并基于第一得分△对所有的比值特征进行降序排序；

B根据公式(8)计算每一个比值特征的第二得分τ。当一些比值特征具有相同的第一得分时，利用第二得分τ对其进行进一步的区分；

步骤3：由于使用相同的评价准则来衡量单特征和比值特征的得分，因此可以直接比较单特征和比值特征的判别能力，筛选k个具有强判别能力的单特征或比值特征构成疾病的潜在性标志物。

步骤4：基于每一个所选的单特征或比值特征，构建一个基分类器，分类原理如下：

(i)基于单特征f_i所构建的基分类器

(ii)基于比值特征r_ij所构建的基分类器

步骤5：融合k个基分类器的分类结果，采用多数投票的方式预测未知样本x^u的类标。

实施案例：基于血清代谢轮廓的肝病标志物筛选。

(1)大鼠血清样本的收集。

本实验所使用的肝癌时间序列数据集为基于二乙基亚硝胺诱导大鼠逐步发癌所获得的，包括训练集和外部测试集。训练集由10只对照组大鼠(N)和7只模型组大鼠(M)组成，包含7个时间点，共119个血清样本，其中T₁为肝炎阶段(H)，T₂到T₄为肝硬化阶段，T₅到T₇为肝癌阶段。测试集由额外的6只模型组大鼠构成，同样包括肝炎阶段、肝硬化阶段和肝癌阶段。

(2)数据的分离分析和预处理

本实验采用基于鞘流接口的毛细管电泳-飞行时间质谱系统进行血清代谢谱采集，通过Cation-Positive和Anion-Negative两种模式对血清样本进行定量检测，利用质量控制样本对分析过程进行监控，并且采用多内标校正法对数据进行归一化处理。

(3)为发现肝病不同阶段的潜在性标志物，将本研究问题划分为4个两类子问题：Nvs.M，H vs.CIR，HCC vs.CIR和HCC vs.non-HCC。

(4)相关参数设定：50次5倍交叉验证，k值设置为9。利用交叉验证分类准确率的均值和标准差来衡量算法的有效性。

(5)利用本发明分析每一个子问题，筛选具有强判别能力的单分子标志物或比值型标志物。表1给出了基于本发明所筛选的标志物集合在每一个子问题上分类准确率的均值和标准差。对于子问题N vs.M，HCC vs.non-HCC和HCC vs.CIR，本发明的分类准确率在所有的比较方法中最高，分别为97.66±0.93，86.90±2.19和82.00±3.64；对于子问题Hvs.CIR，本发明同样具有良好的性能，其分类准确率均位居第二。实验结果表明在所有的比较方法中，本发明对于区分肝病不同阶段具有最优的总体性能，并且可以有效地筛选出区分肝癌和非肝癌的潜在性标志物。

表1 7种方法在不同子问题上的比较。

*表示在所有比较方法中准确率最高，**表示在所有比较方法中准确率次高。

以上实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。

Claims

1.一种基于融合不同模式标志物的分类模型构建算法，其特征在于，包括如下步骤：

步骤一：筛选具有强判别能力的单特征

p_i(c_l)＝prob(f_i<S_i|y_t＝c_l) (1)

△_i＝|p_i(c₁)-p_i(c₂)| (2)

τ_i＝|γ_i(c₁)-γ_i(c₂)| (4)

步骤二：筛选具有强判别能力的比值特征

p_ij(c_l)＝prob(r_ij<S_ij|y_t＝c_l) (5)

△_ij＝|p_ij(c₁)-p_ij(c₂)| (6)

τ_ij＝|γ_ij(c₁)-γ_ij(c₂)| (8)

公式(7)中γ_ij(c_l)表示比值特征r_ij在c_l类样本中表达值的平均含量，公式(8)中τ_ij能够反映比值特征r_ij的表达值在两类样本中波动情况；τ_ij值越大，表明特征r_ij区分能力越强；

(i)基于单特征f_i所构建的基分类器

(ii)基于比值特征r_ij所构建的基分类器