CN116153396A

CN116153396A - 一种基于迁移学习的非编码变异预测方法

Info

Publication number: CN116153396A
Application number: CN202310430873.5A
Authority: CN
Inventors: 李铭烈; 周树森; 王庆军; 柳婵娟; 臧睦君; 刘通
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-05-23

Abstract

本发明属于生物信息学领域，涉及一种基于迁移学习的非编码变异预测方法，其中包括迁移学习，随机森林和支持向量机等技术，旨在提高深度学习模型对非编码DNA预测性能。包括如下步骤：首先，在大规模通用非编码变异数据基础上，使用卷积神经网络进行预训练，获得预训练模型；其次，提取预训练模型的卷积核，用该卷积核提取上下文特定的功能性非编码变异数据的特征；然后，使用随机森林对提取的特征进行选择，剔除不重要的特征；最后，利用所选特征训练支持向量机进行预测。本方法可以准确预测特定背景下的功能性非编码变异。

Description

一种基于迁移学习的非编码变异预测方法

技术领域

本发明属于生物信息学领域，涉及一种基于迁移学习的非编码变异预测方法，包括迁移学习，随机森林和支持向量机等技术。

背景技术

非编码变异在许多生物过程中发挥关键作用，例如：基因调控、转录因子结合等。因此，查明上下文特定的功能性非编码变异是十分重要的。例如疾病或者性状相关的致病变异，组织或者细胞类型特异性调控变异。总之，鉴定更多的非编码变异将有助于更快速、更全面地了解人类特征和疾病。

高通量功能分析的发展促进了实验验证的功能性非编码变异的发现，通过实验的方法检测非编码变异技术困难且成本昂贵，而且在实验上评估所有的6亿个变异是不可行的。随着大规模并行测序技术的快速发展，可以获得不同层面的多组学数据，如全基因组测序数据、转录组的RNA测序数据、表观遗传组的染色质免疫沉淀测序数据和染色质相互作用数据。这些多组学数据提供了一种定义非编码变异功能的方法：评估在等位基因改变下，组学注释的富集或组学注释的变化。通常使用生物信息学工具对基因组变异进行注释，然后利用统计学方法比较注释结果中每个生物学特征或功能的富集程度，以确定哪些特征或功能与变异相关性最强，以确定它们之间是否存在统计显著的差异，以及这些差异是否与基因的生物学功能相关联。

尽管多组学数据和功能性非编码变异的综合建模推动了多种计算方法的发展。但是训练集使用的变异可能并不是真正的上下文特定的功能性非编码变异，而是由连锁不平衡而导致的伪因果关系。连锁不平衡是指在同一染色体上两个或多个基因组位置之间存在非随机关联的现象，这种关联可能会导致某些标记位点和真正的功能位点高度关联，从而难以确定是否为真正的上下文功能性非编码变异。为了避免连锁不平衡的影响，直接使用实验验证的功能性非编码变异作为训练集开发监督机器学习模型预测特定上下文功能的非编码变异是理想和最佳的。然而这种方法需要大量的训练样本才能实现模型的稳定预测。

本发明最重要的创新点是提出了一种基于小样本数据来稳健预测功能性非编码变异的方法，即通过迁移学习来进行预训练，使得模型可以提取更丰富的低级特征。借助随机森林计算每个特征的重要性分数，筛选最重要的特征。使用支持向量机预测，让模型获得更好的泛化能力。在面对小样本量的挑战时，提高模型预测功能性非编码变异的性能。

发明内容

一种基于迁移学习的非编码变异预测方法，包括如下步骤：

首先，在大规模通用非编码变异数据基础上，使用卷积神经网络进行预训练，获得预训练模型；其次，提取预训练模型的卷积核，用该卷积核提取上下文特定的功能性非编码变异数据的特征；特定的功能性非编码变异数据是指那些出现在非编码DNA区域中，且在特定上下文，对基因表达和调控产生影响的变异，将变异作中点，向上游和下游延伸500个碱基作为变异数据；然后，使用随机森林对提取的特征进行选择，剔除不重要的特征；最后，利用所选特征训练支持向量机进行预测；

其具体步骤如下：

步骤1、为了获得稳定的非编码变异低级特征表示，需要使用卷积神经网络在通用功能非编码变异数据集上进行预训练，来学习共享的低级特征；因此，需要首先在大规模数据集上进行预训练，获得预训练模型；

步骤2、将预训练模型的卷积核参数冻结作为特征提取器，迁移到小规模数据集上进行特征提取；

步骤3、把步骤2中提取的特征使用随机森林进行特征选择，将选择后的特征作为小规模数据集最终的特征表示；

步骤4、使用步骤3中提取的特征数据来训练一个支持向量机模型；

步骤5、使用步骤4中保存好的模型来基于输入的DNA序列数据预测非编码变异。

一种基于迁移学习的非编码变异预测方法，步骤1的实现过程如下：在大规模数据集上进行预训练，所述的大规模数据是通用功能非编码变异，从致病性变异和调控变异的综合集合中收集。将获得的大规模功能非编码变异进行独热编码，形成大规模数据集。将大规模数据集作为卷积神经网络的输入，训练一个卷积神经网络。预训练的卷积神经网络包括一个隐藏层、两个全连接层和一个输出层；隐藏层的卷积核大小是（32, 32），使用ReLU激活函数，最大池化层的窗口大小是(4, 4)，两个全连接层的节点数分别是128和64，使用ReLU激活函数，并且全连接层的输出以0.5的概率进行Dropout操作；输出层有2个节点，使用Softmax激活函数。

一种基于迁移学习的非编码变异预测方法，步骤2的实现过程如下：

使用步骤1中产生的预训练模型，在给定卷积层冻结的情况下，迁移到小规模数据集上进行特征提取。所述的小规模数据集来源于特定于上下文的功能非编码变异，包括特定于细胞类型的调控变异、特定于疾病的易感性变异等。将特定于上下文的功能性非编码变异进行独热编码，形成小规模数据。将小规模数据作为冻结参数的卷积层的输入，提取特征数据。

一种基于迁移学习的非编码变异预测方法，步骤3的实现过程如下：

把步骤2中提取的特征数据，使用随机森林进行特征选择，根据每个特征在树中出现的频率计算其特征重要性分数，按照重要性分数对特征进行排序，将特征重要性得分阈值设置为0，然后剔除不重要的特征，保留大于阈值的特征。

一种基于迁移学习的非编码变异预测方法，步骤4的实现过程如下：

使用步骤3中处理好的特征数据作为输入，训练一个支持向量机模型。其中惩罚参数C设置为1，核函数使用RBF函数，其他参数使用默认参数。训练过程中支持向量机将处理好的数据特征投影到高维空间，通过构建一个决策边界（或决策函数），将不同类别的数据分隔开来，使得相同类别的数据尽可能靠近，不同类别的数据尽可能远离，让距离不同类别的数据点的最小距离最大化，从而实现分类。

一种基于迁移学习的非编码变异预测方法，步骤5的实现过程如下：

保存步骤4中训练好的支持向量机模型，用于预测来自相同上下文的功能性非编码变异的序列数据。在预测过程中支持向量机将提取的输入数据的特征投影到同样的高维空间中，根据保存的模型学习到的决策边界，将新数据点归类到不同的类别中；上下文相同的非编码变异数据使用的是MPRA 数据集，是经过验证具有较小规模的非编码调控变异。数据由基因组解释的关键评估（CAGI, Critical Assessment of Genome Interpretation）提供，可在CAGI 官网上获取。

附图说明

图1是基于迁移学习的非编码变异预测方法的流程图。

图2是迁移学习部分流程图。

图3是使用随机森林进行特征选择部分流程图。

图4是预训练卷积神经网络部分流程图。

具体实施方式

以下结合附图和实例对本发明进行详细说明。

一种基于迁移学习的非编码变异预测方法，包括如下步骤：

首先，在大规模通用非编码变异数据基础上，使用卷积神经网络进行预训练，获得预训练模型；其次，提取预训练模型的卷积核，用该卷积核提取上下文特定的功能性非编码变异数据的特征；然后，使用随机森林对提取的特征进行选择，剔除不重要的特征；最后，利用所选特征训练支持向量机进行预测。基于迁移学习的非编码变异预测方法的流程图如图1所示。

步骤1、获得预训练模型；所使用的通用功能非编码变异包括：HGMD中调控变异数据； HGMD中文全称叫做人类基因突变数据库，是一个包含遗传疾病突变信息的数据库，包含各种类型的突变，包括单核苷酸替换、小的插入和缺失、大的重排等，由领域专家进行手动筛选和注释，确保了数据的质量。ClinVar非编码区致病变异；遗传变异信息通常包括变异的基因组坐标、致病性评估、相关疾病信息、参考文献等详细信息。ORegAnno中的调控变异；ORegAnno是一个开放监管注释数据库，收集整理了转录因子结合位点和转录调控元件等相关信息。调控变异数据来自多种公共数据库、研究文献和实验室报告等，经过多次验证和审核，保证了数据正确性和可靠性。精细映射区域内39种疾病的候选致病SNPS；候选致病SNPS是可能与疾病发生有关的单核苷酸多态性，这些SNPS可能与特定疾病的发生和发展相关，影响基因表达、调控和功能。共有5247 个阳性变异和 55923 个阴性变异。为了避免样本不平衡而导致评估的偏差，预训练的过程中保持负变异的数量与正变异的数量相同。80%的数据作为训练集，20%的数据作为验证集。非编码变异用作中点，向上游和下游延伸500个碱基作为目标序列，进行独热编码后作为模型输入。独热编码就是编码中只有一个位是有效的。假设DNA序列为：ACCGT，那么这条DNA的独热编码如下：

预训练卷积神经网络部分流程图如图4所示。卷积操作首先将输入矩阵与卷积核对应位置分别点乘再求和，然后卷积核移动，重复这两个步骤直到遍历完输入矩阵。卷积层使用(32，32) 大小的卷积核进行卷积操作，并通过ReLU激活函数进行非线性变换，(4，4)大小的最大池化操作降低信息冗余，同时提高所提取特征的鲁棒性。其次，将最大池化层的输出通过平展层变为一维张量与第一个全连接层128个结点连接，使用ReLU激活函数进行非线性变换，并且全连接层的输出以0.5的概率进行Dropout操作，以简化模型结构和减少过拟合现象的发生。第二个全连接层有64个结点，使用ReLU激活函数，并且全连接层的输出以0.5的概率进行Dropout操作。最后的输出层有2个节点，使用Softmax激活函数得到输出概率。为了进一步提高训练效率，获得预训练模型，增加了5轮的早停和模型检查点的操作。早停是当模型在验证集上的预测性能不再提高时就会停止训练，减少了训练时间。模型检查点可以指定一定训练次数后保存中间训练的最佳参数，仅当验证数据集上的模型的预测精度比目前为止所出现的好时，模型权重才被保存到预训练的模型。5轮的早停和模型检查点操作共同保存训练最好的模型。预训练操作使用到的函数均可在Keras深度学习框架中调用，包括Conv1D, MaxPooling1D, Flatten, Dense, Dropout, Activation,EarlyStopping, ModelCheckpoint。

步骤2、使用步骤1中产生预训练模型，将预训练模型的卷积层参数冻结，作为特征提取器。在模型迁移过程中，预训练模型第一层卷积层、第二层池化层和第三层平展层的参数冻结，对上下文特定的功能性非编码变异进行特征提取。例如，特定细胞类型的调节变异、特定疾病的易感性变异。特定细胞类型中的调控变异是指这些变异可以影响该细胞类型中的基因表达和调控。因为不同的细胞类型具有不同的生物学特征和功能，所以不同特定细胞中的调控变异可能会对疾病的发生和发展产生不同的影响。特定疾病的易感性变异可能在人群中较少见，但在特定疾病患者中更常见。这些变异可能会导致基因表达或调控发生异常，从而增加发生某种疾病的风险。将平展层的输出作为上下文特定的功能性非编码变异的特征。迁移学习部分流程图如图2所示。

步骤3、使用随机森林算法对步骤2提取的特征进行特征选择。随机森林的特征选择是基于决策树的思想，其中森林中的每棵树都是在数据的随机子集上进行训练，随机子集是指随机抽取一部分特征，用于训练模型。这样，每个决策树都是在不同的子集上进行训练的，从而避免了单个决策树的过拟合问题。并根据一组决策规则进行预测。随机森林将所有树的预测结合起来进行最终预测，并根据每个特征在树中出现的频率计算其特征重要性分数。将特征重要性分数按降序排序，设定分数阈值为0，依据特征重要性保留大于分数阈值的特征，得到一个新的特征集，作为上下文特定的功能性非编码变异的特征表示。特征选择操作使用到的函数均可在Sklearn机器学习库中调用，包括RandomForestClassifier,feature_importances_。特征选择部分流程图如图3所示。

步骤4、使用步骤3中产生的特征数据集训练一个支持向量机模型，保存训练好的支持向量机模型。训练操作使用的函数可在Sklearn机器学习库中调用，包括SVC。

步骤5、将上下文特定的非编码变异用作中点，向上游和下游延伸500个碱基作为目标序列，进行独热编码后作为模型输入，按照步骤2、步骤3和步骤4进行处理并最终预测，即可实现高效、精准的预测。在MPRA 数据集GM12878 类淋巴母细胞上测试了本发明提出的模型预测结果并与前人提出的模型进行对比（AUC值越高代表模型性能越好）。TLVar和本发明提出的模型在该数据集上的AUC分别是0.708和0.734。实验证明本发明提出的模型取得了最好的预测结果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于迁移学习的非编码变异预测方法，包括如下过程：

首先，在大规模通用非编码变异数据基础上，使用卷积神经网络进行预训练，获得预训练模型；其次，提取预训练模型的卷积核，用该卷积核提取上下文特定的功能性非编码变异数据的特征；然后，使用随机森林对提取的特征进行选择，剔除不重要的特征；最后，利用所选特征训练支持向量机进行预测；

其具体步骤如下：

步骤2、使用步骤1中产生的预训练模型，将预训练模型的卷积层参数冻结，作为特征提取器；在模型迁移过程中，预训练模型第一层卷积层、第二层池化层和第三层平展层的参数冻结，对上下文特定的功能性非编码变异进行特征提取；将平展层的输出作为上下文特定的功能性非编码变异的特征；

步骤3、把步骤2中提取的特征数据，使用随机森林进行特征选择，按照重要性分数对特征进行排序，将特征重要性得分阈值设置为0，然后剔除不重要的特征，保留大于阈值的特征；

步骤4、使用步骤3中处理好的特征数据作为输入，训练一个支持向量机模型；其中惩罚参数C设置为1，核函数使用RBF函数，其他参数使用默认参数；

步骤5、保存步骤4中训练好的支持向量机模型，用于预测相同上下文的功能性非编码变异。

2.根据权利要求1所述的一种基于迁移学习的非编码变异预测方法，步骤1的实现过程如下：

大规模数据集上进行预训练，所述的大规模数据是通用功能非编码变异，从致病性变异和调控变异的综合集合中收集；将获得的大规模功能非编码变异进行独热编码，形成大规模数据集；将大规模数据集作为卷积神经网络的输入，训练一个卷积神经网络；预训练的卷积神经网络包括一个隐藏层、两个全连接层和一个输出层；隐藏层的卷积核大小是（32,32），使用ReLU激活函数，卷积层使用的ReLU激活函数主要是为了增加网络的非线性特征，可以帮助网络更好地适应输入数据的空间结构和局部特征；最大池化层的窗口大小是(4,4)，两个全连接层的节点数分别是128和64，使用ReLU激活函数，全连接层使用的ReLU激活函数是为了增加网络的表达能力，帮助网络更好地学习输入数据的高级抽象特征；并且全连接层的输出以0.5的概率进行Dropout操作；输出层有2个节点，使用Softmax激活函数。

3.根据权利要求1所述的一种基于迁移学习的非编码变异预测方法，步骤2的实现过程如下：

使用步骤1中产生的预训练模型，在给定卷积层冻结的情况下，迁移到小规模数据集上进行特征提取；所述的小规模数据集来源于特定于上下文的功能性非编码变异，包括特定于细胞类型的调控变异、特定于疾病的易感性变异；将特定于上下文的功能性非编码变异进行独热编码，形成小规模数据；将小规模数据作为冻结参数的卷积层的输入，提取特征数据。

4.根据权利要求1所述的一种基于迁移学习的非编码变异预测方法，步骤3的实现过程如下：

把步骤2提取的特征数据，使用随机森林进行特征选择，参数使用默认参数；通过计算每个特征在树中用于节点分裂的次数或节点分裂所获得的增益来实现，重要性分数大于0的特征表示该特征对于预测标签具有更大的影响力，可以通过调整树的数量和深度参数来平衡模型的性能和计算效率。