CN114566215B

CN114566215B - 一种双端成对的剪接位点预测方法

Info

Publication number: CN114566215B
Application number: CN202210178009.6A
Authority: CN
Inventors: 张艳菊; 许峻玮; 齐王璟; 王荣兴
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2024-03-22
Anticipated expiration: 2042-02-25
Also published as: CN114566215A

Abstract

本发明公开了一种双端成对的剪接位点预测方法，该方法通过获取双端成对的剪接位点样本序列作为基准数据集和独立数据集；将碱基序列通过基于序列本身、物理化学性质等多种特征提取方式进行编码；组合多种特征作为一个多通道多维的向量表示；训练卷积神经网络模型；最后进行评估。这种预测方法可以结合样本多种特征表示方式，帮助卷积神经网络充分学习样本内在模式，提高了双端成对的剪接位点预测的准确率。

Description

一种双端成对的剪接位点预测方法

技术领域

本发明涉及基因的剪接位点识别预测技术领域，具体是一种双端成对的剪接位点预测方法。

背景技术

随着测序技术的发展，研究人员拿到越来越多的测序下机数据。然而在现阶段，生物体参考基因组上的剪接位点注释尚不完整，还有许多人们未发现的新剪接位点。剪接位点不仅是外显子和内含子边界的分割位置，同时也对外显子之间的连接起到关键作用。外显子连接后的序列为成熟的mRNA，mRNA将经过翻译修饰后表达为蛋白质。如果在错误的位置发生剪接，可能导致基因错误地表达了致病蛋白，致使机体无法完成正常生命活动，甚至可能致癌。因此，正确识别剪接位点是十分关键的研究，不仅能够清晰地认识正常的机体生命活动，还促进基因注释、病理分析、可变剪接、剪接变异等下游分析的研究。

目前，针对剪接位点的研究中，主要包含将供体剪接位点和受体剪接位点单独分为两个模型的传统机器学习方法和深度学习方法，以及近两年提出的同时包含供体剪接位点和受体剪接位点的序列作为一个样本的传统机器学习方法和深度学习方法。在将供体剪接位点和受体剪接位点单独分为两个预测模型的传统机器学习方法中，研究者通过提取剪接位点上游和下游的部分碱基作为数据集，然后提取特征并采用机器学习算法学习样本序列内在信息，构建模型并成功预测。例如，Pertea等人采用了决策树算法，并通过马尔科夫算法对其增强以捕获剪接位点周围信息，开发出模型GeneSplicer。Zhang等人利用带有贝叶斯核的线性SVM算法来区分真假剪接位点。Pashaei等人提出一种结合AdaBoost和FDDM编码方法的混合算法以针对剪接位点问题进行预测。该方法经过实验验证，性能略差于近来兴起的深度学习方法。其中主要原因在于特征提取步骤，研究者未能够输入有效特征，致使模型无法学习关键特征以区分正负样本。

近年来，随着深度学习技术迅猛发展，并伴随着深度学习不需要研究者手动提取特征的巨大优势，研究者引入深度学习技术对剪接位点进行预测。例如，Du等人基于卷积神经网络构建了DeepSS模型，针对人类和秀丽隐杆线虫数据集预测剪接位点。Zuallaert等人基于CNN构建了SpliceRover模型以预测剪接位点，通过算法解释了作者提出的五个假设。Albaradei等人通过改进序列编码方法结合卷积神经网络构建了模型Splice2Deep，并在五个样本集中获得较好的准确率和泛化性。Dutta等人利用双向LSTM算法和可视化技术对剪接位点进行处理，并提供SpliceVisual独立工具。

但是，上述研究针对剪接位点问题的研究中，把供体剪接位点序列作为样本训练为一个独立的模型，受体剪接位点序列作为样本训练为另一个独立的模型。这在很大程度上分裂了供体剪接位点和受体剪接位点的关系，当用户输入一条样本序列进模型，模型只能判断该序列位点是否为供体剪接位点或者是否为受体剪接位点，当拿到预测的供体位点结果时，却无法知道与之成对的受体位点位置，这无法为研究者提供成对的剪接位置，导致研究人员并不能在合适位置把内含子切掉。所以，近年来，有研究者把包含成对的供体位点和受体位点作为样本序列进行预测。

在以包含供体位点和受体位点的序列作为训练样本的研究中，可以看到Mapleson等人基于RNA-Seq和随机森林方法构建模型有效地识别真假剪接序列，Zhang等人基于卷积神经网络训练DeepSplice模型，通过RNA-seq比对后的数据来发现新的剪接位点。这些方法有效地解决了单一供体(受体)模型缺失对应受体(供体)信息的问题，不过上述文章还存在不少缺陷，例如数据样本没有包括非经典剪接位点数据集、数据编码方式单一等。

因此，虽然在剪接位点预测问题上，研究者已经得到了许多突破和改进，但还存在不少问题。第一个问题、数据样本分裂了供体剪接位点和受体剪接位点的关系；第二个问题、模型不能对非经典剪接位点进行处理；第三个问题、数据编码方式单一，忽略了碱基间物理化学性质。

发明内容

本发明的目的在于针对现有剪接位点预测问题存在的缺陷，而提供一种双端成对的剪接位点预测方法。

实现本发明目的的技术方案是：

一种双端成对的剪接位点预测方法，包括如下步骤：

1)以人类参考基因组序列为来源，依据参考基因组序列文件和参考基因组注释文件收集剪接位点序列数据，所述剪接位点序列数据包括经典剪接位点序列和非经典剪接位点序列，对收集到的剪接位点序列数据进行数据处理，包括对数据的长度、内含子和外显子进行区域识别处理，以及正负样本划分处理后，将剪接位点序列数据分为训练集、验证集和测试集；

所述的剪接位点序列数据，包括真剪接位点序列即正样本、假剪接位点序列即负样本，每个数据集中的正负样本数量相等；

所述的数据处理，为了在一个样本序列中同时包含供体剪接位点和受体剪接位点，采用测序对比后的sam文件作为DNA序列注释的文件；所述sam文件为读段对比到参考基因组的输出结果；所述读段是对mRNA测序后的结果，测序结果为多个短序列；由于mRNA是经过DNA转录而来，即mRNA包含的是DNA上的外显子序列，则对mRNA测序后的多个短序列读段为DNA上的外显子序列，将读段对比回到基因组后，确定外显子区域，从而推断外显子区域与相邻未对比到的区域边界为剪接位点；再通过未比对到区域与两头相邻外显子区域的位置信息推断中间未比对到区域和两头相邻外显子区域的边界为对应的供体剪接位点和受体剪接位点；最后，通过获取供体剪接位点上下游序列和受体剪接位点上下游序列作为一个样本序列；样本序列长度为204,包括供体剪接位点GT两个碱基和上下游各50个碱基，包括受体剪接位点AG两个碱基和上下游50个碱基；

2)对步骤1)获得的训练集、验证集和测试集样本进行特征编码，样本序列由腺嘌呤A、腺嘧啶T、胞嘧啶C、鸟嘌呤G和未知N组成，N表示可能为A、T、C、G中任意一个；采用序列位置信息、顺序信息，以及物理化学性质对样本序列进行编码，将序列字符编码为数值格式，采用Mismatch、Kmer、RevKmer、IDKmer、Subsequence、DAC、DCC、DACC、TAC、TCC、TACC、MAC、GAC、NMBAC、PseDNC、PseKNC、PC-PseDNC-General、PC-PseTNC-General、SC-PseDNC-General、SC-PseTNC-General多种特征表示方式，得到样本的特征编码向量；

所述Mismatch特征表示方式，设α是长度为k的子串，(k,m)-mismatch特征图在α上定义为：

其中A表示有限的字母，包括A、C、G或T碱基；若β∈N_(k,m)(α)，其中β是与α最多不匹配的k-mer子串的集合，然后输入序列的特征图x是k-mer子串的特征向量之和为：

(k,m)-mismatch核定义为特征空间中对应的特征映射的点积：

3)构建卷积神经网络模型，模型的网络构建表达式为：

Lable of class＝f_fcn(f_conv2(f_conv1(Sequence nucleotide signal)))

其中Lable of class表示卷积神经网络模型最终的分类，Sequence nucleotidesignal表示碱基序列所对应的输入特征编码，f_conv1表示第一层卷积层，f_conv2表示第二个卷积层，f_fcn表示将输入特征经过卷积步骤后的中间结果传入全连接层；

对于输入x，每个通道上都有一个过滤器ω_(1,c)，第一个卷积层的第一个过滤器点积运算结果z_1,(i,j,k)表示为：

z_1,(i,j,k)＝(x*ω_1,c)_i,j,k+b_1,(k,1)

其中i，j和c分别表示该卷积层输出的行、列和通道，k为当前层的过滤器，b_1,(k,1)表示第一个卷积操作过滤器k的偏置值；

对于通道i，有z_(1,i)：

z_(1,i)＝x_i*ω_1,c(i)+b_1,i

三个通道的卷积层输出结果z_1,(i,j,c)为：

其中i，j和c分别表示最终输出的行、列和通道；l，m，n分别代表过滤器的行、列和通道，k为当前层使用的过滤器符号表示；

接着进入池化层，池化层分为平均池化、最小池化和最大池化，主要聚合特征映射的空间信息，减小网络内信息传输的向量大小。采用最大池化，保留突出特征，最终通过softmax函数，输出该样本属于每类的预测得分，公式如下：

f_i(z)＝exp(z_i)/∑_jexp(z_j)

其中f_i(z)表示样本属于第i个分类的总预测分数，z_j表示属于第j个分类节点的得分，z_i表示属于第i个分类节点的得分；

基于预测分值和训练集中标签的实际值计算损失，通过反向传播不断缩小差距，以使得模型性能得到提高，最终获得剪接位点预测模型；每次训练从训练集中获取128个训练样本训练，直到将训练集所有样本输入并训练模型。模型以交叉熵损失函数更新反向传播，进行30次迭代，每次迭代则输入验证集样本对每次迭代训练后的模型进行性能验证，验证集的使用可以提前避免模型进入过拟合和挑选更优的超参数。交叉熵损失函数对于每个类别我们的预测得到的概率为p和1-p，此时交叉熵损失函数L的表达式为：

其中，L_i表示样本i的损失函数，N表示样本总数，y_i表示i的label，正类为1，负类为0；p_i表示样本i预测为正类的概率；

4)将步骤2)进行特征编码后的测试集输入步骤3)得到的训练好的卷积神经网络模型中，获取模型的预测分值并构建混淆矩阵，最终在准确率(Accuracy，ACC)、特异性(specificity，SP)、敏感性(sensitivity，SN)、F分数(F-score)、MCC马修斯相关系数(Matthews correlation coefficient，MCC)和受试者工作特征曲线下面积(area undercurve，AUC)评估五个物种的供体剪接位点和受体剪接位点的性能，表达式如下：

其中TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性的样本数目。

本发明提供的一种双端成对的剪接位点预测方法，可以将该方法中完成训练和测试好的卷积神经网络模型植入服务器中，并搭建一个剪接位点服务平台，方便其他研究人员可将需要预测的剪接位点序列，直接在网站中可视化拖拽上传而不需冗余下载代码和模型，为剪接位点问题的研究增加便捷性。本发明采用碱基序列的物理化学性质编码结合卷积神经网络对两端成对的剪接位点预测模型性能，与现有技术不同相比，有如下优点：

1、本发明能够有效提升双端成对的剪接位点预测性能。

2、本发明创新性地将基于序列信息，物理化学性质等多种特征编码作为剪接位点特征表示方式，能够更全面获取序列的相关信息。

3、本发明提供双端成对的剪接位点预测平台，能够极大地方便研究者开展双端成对的剪接位点研究。

附图说明

图1为一种双端成对的剪接位点预测方法的总体框架图；

图2为本发明实施例的样本示意图；

图3为本发明实施例的经典剪接位点序列示意图；

图4为本发明实施例的非经典剪接位点序列示意图。

具体实施方式

下面结合附图和实施例对本发明内容做进一步阐述，但不是对本发明的限定。

实施例：

如图1所示，一种双端成对的剪接位点预测方法，包括如下步骤：

1)以人类参考基因组序列为来源，依据参考基因组序列文件和参考基因组注释文件收集剪接位点序列数据，具体的是收集人类剪接位点数据集首先需要从NCBI数据库下载人类参考基因组序列，接着从GenCode数据库下载参考基因组注释文件，结合参考基因组序列和注释文件获取需要的信息。

所述剪接位点序列数据包括经典剪接位点序列和非经典剪接位点序列如图2和图3所示，对收集到的剪接位点序列数据进行数据处理，包括对数据的长度、内含子和外显子进行区域识别处理，以及正负样本划分处理后，将剪接位点序列数据分为训练集、验证集和测试集；

所述的剪接位点序列数据，包括真剪接位点序列即正样本、假剪接位点序列即负样本，每个数据集中的正负样本数量相等。

具体是由于剪接操作从内含子两端剪接，因此剪接位点通常成对出现，如图4所示。通常，注释信息并不是直接给出两端剪接位点的位置，而是给出外显子的起始位置和终止位置。因此，需要依据外显子的位置和基因的位置计算处理得到内含子序列的起始位置，然后利用bedtools工具包从参考基因组序列中提取序列样本，该部分序列样本为正样本，而负样本将从同一染色体不包含剪接位点的序列中提取。

本实施例中，将额外提供对sam文件的处理。sam文件包含的是测序读段比对回到参考基因组的起始位置，比对质量等信息。将依据上述信息进行处理，获取需要预测的序列样本。数据处理过程包括sam文件关键信息识别与提取，samtools工具与bedtools工具结合从参考基因组上获取序列，数据过滤与筛选等。

(k,m)-mismatch核定义为特征空间中对应的特征映射的点积：

3)构建卷积神经网络模型，模型的网络构建表达式为：

Lable of class＝f_fcn(f_conv2(f_conv1(Sequence nucleotide signal)))

z_1,(i,j,k)＝(x*ω_1,c)_i,j,k+b_1,(k,1)

对于通道i，有z_(1,i)：

z_(1,i)＝x_i*ω_1,c(i)+b_1,i

三个通道的卷积层输出结果z_1,(i,j,c)为：

f_i(z)＝exp(z_i)/∑_jexp(z_j)

基于预测分值和训练集中标签的实际值计算损失，通过反向传播不断缩小差距，以使得模型性能得到提高，最终获得剪接位点预测模型。每次训练从训练集中获取128个训练样本训练，直到将训练集所有样本输入并训练模型。模型以交叉熵损失函数更新反向传播，进行30次迭代。每次迭代则输入验证集样本对每次迭代训练后的模型进行性能验证，验证集的使用可以提前避免模型进入过拟合和挑选更优的超参数。交叉熵损失函数对于每个类别我们的预测得到的概率为p和1-p，此时交叉熵损失函数L的表达式为：

其中，L_i表示样本i的损失函数，N表示样本总数，y_i表示i的label，正类为1，负类为0；p_i表示样本i预测为正类的概率。

此外，模型优化算法能够加速模型收敛，优化算法的每个步骤中，将逐步更新参数猜测值，以减少训练样本中的预测误差。在每个新的猜测中，还会为验证样本构建预测，并且当验证样本错误开始增加时，优化将终止。通过尽早结束参数搜索，参数将朝着初始猜测方向缩小。修正梯度估计可以有效缓解梯度估计值随机性的方式，进而提升优化效率。Adam算法需要计算梯度平方g的指数加权平均和梯度&的指数加权平均。它的参数更新差值Δθ_n为：

其中，和/>是修正后的加权平均值，α为设定的超参数，学习率ε通常设为0.001。

4)将步骤2)进行特征编码后的测试集输入步骤3)得到的训练好的卷积神经网络模型中，获取模型的预测分值并构建混淆矩阵，最终在准确率(Accuracy，ACC)、特异性(specificity，SP)、敏感性(sensitivity，SN)、F分数(F-score)、MCC马修斯相关系数(Matthews correlation coefficient,MCC)和受试者工作特征曲线下面积(area undercurve，AUC)评估五个物种的供体剪接位点和受体剪接位点的性能，表达式如下：

其中TP为真阳性，代表预测类别为正且真实类别为正的样本数量，TN为真阴性，代表预测类别为负且真实类别为负的样本数量，FP为假阳性，代表预测类别为正，但真实类别为负的样本数量，FN为假阴性，代表预测类别为负但真实类别为正的样本数量。特别是，MCC马修斯相关系数是应用在机器学习中，用以测量二分类的分类性能的指标。该指标考虑了真阳性、真阴性和假阳性和假阴性，通常认为该指标是一个比较均衡的综合指标，即使是在两类别的样本含量差别很大时，同样适用。MCC本质上是一个描述实际分类与预测分类之间的相关系数，它的取值范围为[-1,1]，取值为1时表示对受试对象的完美预测，取值为0时表示预测的结果还不如随机预测的结果，-1是指预测分类和实际分类完全不一致。

模型预测步骤中，本发明将训练好的模型放到服务器中，搭建一个高并发、高可用、高性能的剪接位点服务器平台。本发明构建的数据分析平台的界面是由JSP、CSS、JQuery、bootstrap及其扩展包实现。界面后台操作基于Java服务器开发套件，包括Struts2和hibernate。所有剪接位点数据样本和其注释信息存储在MySQL数据库(https:// www.mysql.com/)或者静态文件中，样本数据集方便用户在数据库中查询想要的序列。预测分析功能需要用户提交序列到后端，然后经过一系列耗时的操作，最后将预测或分析结果反馈给用户。本发明引入基于Perl和CGI(https://metacpan.org/pod/cgi)的分布式框架，并行处理预测分析任务，以减少用户提交任务后等待的时间。

Claims

1.一种双端成对的剪接位点预测方法，其特征在于，包括如下步骤：

(k,m)-mismatch核定义为特征空间中对应的特征映射的点积：

3)构建卷积神经网络模型，模型的网络构建表达式为：

Lable of class＝f_fcn(f_conv2(f_conv1(Sequence nucleotide signal)))

z_1,(i,j,k)＝(x*ω_1,c)_i,j,k+b_1,(k,1)

对于通道i，有z_(1,i)：

z_(1,i)＝x_i*ω_1,c(i)+b_1,i

三个通道的卷积层输出结果z_1,(i,j,c)为：

接着进入池化层，池化层分为平均池化、最小池化和最大池化，采用最大池化，保留突出特征，最终通过softmax函数，输出该样本属于每类的预测得分，公式如下：

f_i(z)＝exp(z_i)/∑_jexp(z_j)

基于预测分值和训练集中标签的实际值计算损失，通过反向传播不断缩小差距，以使得模型性能得到提高，最终获得剪接位点预测模型；每次训练从训练集中获取128个训练样本训练，直到将训练集所有样本输入并训练模型；模型以交叉熵损失函数更新反向传播，进行30次迭代，每次迭代则输入验证集样本对每次迭代训练后的模型进行性能验证，验证集的使用可以提前避免模型进入过拟合和挑选更优的超参数；交叉熵损失函数对于每个类别我们的预测得到的概率为p 和1-p，此时交叉熵损失函数L的表达式为：

4)将步骤2)进行特征编码后的测试集输入步骤3)得到的训练好的卷积神经网络模型中，获取模型的预测分值并构建混淆矩阵，最终在准确率ACC、特异性SP、敏感性SN、F分数F-score、马修斯相关系数MCC和受试者工作特征曲线下面积AUC评估五个物种的供体剪接位点和受体剪接位点的性能，表达式如下：

2.根据权利要求1所述的一种双端成对的剪接位点预测方法，其特征在于，步骤1)中，所述的剪接位点序列数据，包括真剪接位点序列即正样本、假剪接位点序列即负样本，每个数据集中的正负样本数量相等；

所述的数据处理，为了在一个样本序列中同时包含供体剪接位点和受体剪接位点，采用测序对比后的sam文件作为DNA序列注释的文件；所述sam文件为读段对比到参考基因组的输出结果；所述读段是对mRNA测序后的结果，测序结果为多个短序列；由于mRNA是经过DNA转录而来，即mRNA包含的是DNA上的外显子序列，则对mRNA测序后的多个短序列读段为DNA上的外显子序列，将读段对比回到基因组后，确定外显子区域，从而推断外显子区域与相邻未对比到的区域边界为剪接位点；再通过未比对到区域与两头相邻外显子区域的位置信息推断中间未比对到区域和两头相邻外显子区域的边界为对应的供体剪接位点和受体剪接位点；最后，通过获取供体剪接位点上下游序列和受体剪接位点上下游序列作为一个样本序列；样本序列长度为204,包括供体剪接位点GT两个碱基和上下游各50个碱基，包括受体剪接位点AG两个碱基和上下游50个碱基。