CN114121155A

CN114121155A - 一种基于选择集成技术的致病同义突变预测方法

Info

Publication number: CN114121155A
Application number: CN202111423909.4A
Authority: CN
Inventors: 夏俊峰; 张涛; 郑春厚
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-01

Abstract

本发明公开了一种基于选择集成技术的致病同义突变预测方法，包括以下步骤：(1)数据获取；(2)数据预处理：对获取的数据集利用集成的K近邻缺失值填充算法进行缺失值填充；(3)模型构建：使用随机欠采样方法对不平衡数据进行处理，得到多套平衡训练集，利用该训练集训练多个基模型，构建模型池，再基于多样性对模型池中的模型进行选择集成；(4)模型训练：将不平衡基准训练集划分为构建模型的训练集和进行模型评估和参数优化的验证集，最后通过集成最优参数下的五折交叉验证模型得到最终模型；(5)模型预测。本发明通过采用随机欠采样技术和选择集成技术对同义突变领域的不平衡数据进行建模，具有较好的识别能力和覆盖能力。

Description

一种基于选择集成技术的致病同义突变预测方法

技术领域

本发明涉及机器学习与生物信息计算领域，具体涉及一种基于选择集成技术的致病同义突变预测方法。

背景技术

由于同义突变不改变所编码的氨基酸序列，因此这类突变一直被认为是无害的。但随着精准医疗研究的深入，许多研究者发现同义突变与多种人类疾病相关，如Supek等人证明同义突变可以通过干扰RNA剪切或改变转录影响蛋白质功能，进而导致癌症相关疾病。为此，对同义突变的研究已成为研究者越来越感兴趣的课题。

然而，通过生物实验来研究致病同义突变耗时耗力，相比之下基于计算的方法效率高而且耗费低，同时也可以为进一步的实验验证提供基础。针对这点，研究者们提出了各种先进的有害同义突变预测工具，这些工具根据适用范围分为两类：广谱性工具和特异性工具，其中广谱性工具可以预测多种类型点突变，包括同义突变，但在同义突变上的效果仍有不足，性能不及特异性工具，而对特异性工具来说，由于同义突变领域可利用的正样本数量稀少，正负样本比例悬殊，特异性预测工具的性能也会受一定影响。

目前，现有技术中大多采用欠采样的方式构建模型，但是，采用上述方式构建的模型丢弃了数量丰富的负样本，可能会忽略负样本中隐藏的信息，从而影响模型的表现，为此亟需本领域技术人员提出一种新的技术手段。

发明内容

针对现有技术的不足，本发明提出了一种基于选择集成技术的致病同义突变预测方法，目的是为了解决如何对正负样本极度不平衡的数据采取合适的方法构建模型对致病同义突变进行有效预测与分类的技术问题。

为了实现上述目的，本发明采用了如下技术方案：

一种基于选择集成技术的致病同义突变预测方法，包括以下步骤：

(1)数据获取：从已发表的文献中获取不平衡的基准训练集和两套独立测试集；

(2)数据预处理：对获取的数据集利用集成的K近邻缺失值填充算法对数据进行缺失值填充；

(3)模型构建：使用随机欠采样的方法对不平衡数据进行处理，得到多套平衡训练集，利用该训练集训练多个基模型，构建模型池，然后基于多样性对模型池中的模型进行选择集成，具体过程如下：

S31.输入数据记为D，其中正样本记为P,负样本记为N，其中|P|<|N|；

S32.对负样本N进行k次欠采样得到N的k个子集{N₁，N₂，…，N_k}，其中|N_i|＝|P|且i∈{1，2，…，k}；

S33.由{N₁，N₂，…，N_k}和P得到{D₁，D₂，…，D_k}，其中D_i＝N_i∪P；

S34.分别利用D₁，D₂，…，D_k训练基分类器C₁，C₂，…，C_k；

S35.基分类器C_i与基分类器C_j之间的双失败度量S_i，j可以由下式计算得到：

S_i，j＝N₀₀

其中N₀₀表示给定数据集上C_i和C_j都预测错误的样本数，然后通过

下式估计基模型C_i的多样性度量d_i：

S36.利用S5计算模型池中基模型C_i的多样度量d_i，依据d_i对模型池进行排序，选择前n个基分类器记为{h₁…，h_n}，其中对新数据集x,集成系统H的预测结果为：

(4)模型训练：将不平衡基准训练集划分为训练集和验证集，利用训练集构建模型，利用验证集进行模型评估和参数优化，最后通过集成最优参数下的五折交叉验证模型，得到最终模型；

(5)模型预测：使用构建好的模型对外来测试集进行预测，获取其致病概率值。

优选的，步骤(2)中所述K近邻缺失值填充算法的具体步骤如下：

S21.输入不平衡数据集记为D，其中正样本(少数样本)记为P,负样本(多数样本)记为N，其中|P|<|N|；

S22.对负样本N进行m次欠采样得到负样本的子集集合{N₁，N₂，…，N_m}，其中|N_i|＝|P|且i∈{1，2，…，m}；

S23.由{N₁，N₂，…，N_m}和P得到数据集合{D₁，D₂，…，D_m}，其中D_i＝N_i∪P；

S24.分别利用数据集D₁，D_2，…，D_m构建K近邻缺失值填充模型f₁，f₂，…，f_m；

S25.给定含有缺失值的数据X'，完整数据X由下式得到：

其中f_i(X')表示缺失值填充模型f_i对数据X'的缺失值填充后得到的结果。

优选的，步骤S34中所述基分类器C_i的学习算法为CART决策树或支持向量机或逻辑回归。

优选的，步骤(4)中所述最终模型是通过集成最优参数下的五折交叉验证模型得到的。

优选的，步骤(5)进行预测时，外部数据经过缺失值处理后可以直接输入到模型中进行预测，获得致病概率。

与现有技术相比，本发明提供了一种基于选择集成技术的致病同义突变预测方法，具备以下有益效果：

本发明通过采用随机欠采样技术和选择集成技术对同义突变领域的不平衡数据进行建模，具有较好的识别能力和覆盖能力，为后续有害同义突变的发现和精准医疗的发展做出了突出贡献。

附图说明

图1是本发明的总体框架流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，一种基于选择集成技术的致病同义突变预测方法，包括以下步骤：

(1)数据获取：

本实施例中的数据集由三部分组成：不平衡基准训练集、独立测试集一和独立测试集二，其中不平衡基准训练集和独立测试集二与usDSM的训练集和测试集相同，独立测试集一为EnDSM的“close-by”测试集，独立测试集一和独立测试集二用于综合评估模型的性能。

不平衡基准训练集中正样本包括1201条数据，主要来自于HGMD和dbDSM；训练集中负样本共有238158条，主要来自于VariSNP，其中正负样本比例约为1：198，独立测试集一主要来自于HGMD,dbDSM和VariSNP，正负样本都是198条，独立测试集二主要来自于HGMD和VariSNP，正负样本都是96条。本实施例中使用的全部数据集组成情况如下表所示：

(2)数据预处理：对获取的数据集利用集成的K近邻缺失值填充算法对数据进行缺失值填充，具体步骤如下：

S25.给定含有缺失值的数据X'，完整数据X由下式得到：

(3)模型构建：对不平衡基准训练集进行多次欠采样获取平衡数据集并构建模型池，然后通过选择集成技术进行模型构建，具体过程如下：

S_i，j＝N₀₀

下式估计基模型C_i的多样性度量d_i：

(4)模型训练：将不平衡基准训练集划分为训练集和验证集，利用训练集构建模型，利用验证集进行模型评估和参数优化，然后通过集成最优参数下的五折交叉验证进行模型选择和优化，最后经集成最优参数下的五折交叉验证的模型作为最终模型，并将其命名为seDSM。

上述内容详细说明了本发明提供的一种基于选择集成技术的致病同义突变预测方法，如何在正负样本不平衡的情况下构建性能优异的模型并对有害同义突变进行预测与分类，下面将对本发明的实验结果进行说明。

1.验证标准

衡量模型整体性能的评估指标包括敏感性(Sensitivity,SEN)、特异性(Specificity,SPE)、精确度(Precision,PRE)、正确率(Accuracy,ACC)、马修斯相关系数(Matthews correlation coefficient,MCC)以及F1分数(F1 score,F1)，其计算方式如下所示：

其中，TP(True positive)表示真阳性数目，即真实的致病同义突变被正确预测为致病同义突变的数目，TN(True negative)表示真阴性数目，即真实的良性同义突变被正确预测为良性同义突变的数目，FP(False positive)是假阳性的数目，即原本是致病同义突变而被预测为良性同义突变的数目，FN(False negative)是假阴性数目，即原本是良性同义突变而被预测为致病同义突变的数目。

除此之外，本实施例中还采用了AUC和AUPR来衡量模型的整体性能，一般情况下，上述公式中给出的六种指标会受到阈值的影响，即大于或等于阈值时被预测为正样本，而小于阈值时被认为是负样本，阈值的默认值为0.5，但是可手动进行调整。而AUC和AUPR是不受阈值影响的，范围为0到1之间，越接近1代表模型整体性能越好，因此常被认为是更加重要的评价指标。

2.验证结果

为了验证本发明所构建模型seDSM的优越性，选择部分优秀的工具进行比较，包括：CADD、DANN、FATHMM-MKL、PhD-SNPg、SilVA、Trap、PrDSM、EnDSM和usDSM。其中，PrDSM、SilVA、TraP、EnDSM和usDSM属于特异性工具，而剩下的四种工具属于广谱性工具。

基于独立测试集一本发明所构建模型seDSM与其他九种工具基于八种评价指标(SEN、SPE、PRE、F1、MCC、ACC、AUC和AUPR)的性能比较情况，如下表所示：

基于独立测试集二本发明所构建模型seDSM与其他九种工具基于八种评价指标(SEN、SPE、PRE、F1、MCC、ACC、AUC和AUPR)的性能比较情况，如下表所示：

从敏感性上看，seDSM在独立测试集一上为0.732，在独立测试集二上为0.881，而其他方法在独立测试集一上的敏感性在0.005-0.722之间，在独立测试集二上的敏感性在0.010-0.833之间，证明本发明构建的seDSM模型的敏感性均高于其他方法，具有较好的识别能力和覆盖能力。

另外，seDSM在独立测试集一上和独立测试集二上的AUC均高于其他方法，其中在独立测试集一上，与其他工具的结果差异在0.013-0.149之间，在独立测试集二上，与其他工具的结果差异在0.27-1.88之间。以上分析表明，seDSM具有较强的泛化能力。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于选择集成技术的致病同义突变预测方法，其特征在于，包括以下步骤：

(3)模型构建：使用随机欠采样的方法对不平衡数据进行处理，得到多套平衡训练集，利用该训练集训练多个基模型，构建模型池，再利用选择集成技术对模型池中的模型进行选择集成，具体过程如下：

S31.输入数据记为D，其中正样本记为P，负样本记为N，其中|P|＜|N|；

S_i，j＝N₀₀

其中N₀₀表示给定数据集上C_i和C_j都预测错误的样本数，然后通过下式估计基模型C_i的多样性度量d_i：

S36.利用S5计算模型池中基模型C_i的多样度量d_i，依据d_i对模型池进行排序，选择前n个基分类器记为{h₁…，h_n}，其中对新数据集x，集成系统H的预测结果为：

2.根据权利要求1所述的一种基于选择集成技术的致病同义突变预测方法，其特征在于，步骤(2)中所述K近邻缺失值填充算法的具体步骤如下：

S21.输入不平衡数据集记为D，其中正样本(少数样本)记为P，负样本(多数样本)记为N，其中|P|＜|N|；

S24.分别利用数据集D₁，D₂，…，D_m构建K近邻缺失值填充模型f₁，f₂，…，f_m；

S25.给定含有缺失值的数据X′，完整数据X由下式得到：

3.根据权利要求1所述的一种基于选择集成技术的致病同义突变预测方法，其特征在于，步骤S34中所述基分类器C_i的学习算法为CART决策树或支持向量机或逻辑回归。

4.根据权利要求1所述的一种基于选择集成技术的致病同义突变预测方法，其特征在于，步骤(4)中所述最终模型是通过集成最优参数下的五折交叉验证模型得到的。

5.根据权利要求1所述的一种基于选择集成技术的致病同义突变预测方法，其特征在于，步骤(5)进行预测时，外部数据经过缺失值处理后可以直接输入到模型中进行预测，获得致病概率。