CN117953973A

CN117953973A - 基于序列同源性的特定生物序列预测方法及其系统

Info

Publication number: CN117953973A
Application number: CN202410326309.3A
Authority: CN
Inventors: 李萍; 过骁忆; 邹权; 丁漪杰; 郭菲; 刘利
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-04-30
Anticipated expiration: 2044-03-21
Also published as: CN117953973B

Abstract

本发明提供了一种基于序列同源性的特定生物序列预测方法及其系统，包括，准备特定生物序列相关的原始序列数据集；原始序列数据集包括训练集和测试集，训练集用于训练模型，测试集则用于对训练的模型进行测试；构造基于序列同源性评分的模糊隶属函数，用于将序列数据转化成特征向量；构造深度模糊回声状态网络，用于根据特征向量输出预测结果；使用原始序列数据集训练深度模糊回声状态网络。本方案提出基于序列同源性评分的模糊隶属函数将序列数据转化成特征向量，无需手动提取特征，并且可直接处理字符串序列，无需进行特征编码，通过整合序列进化信息有效优化特征空间，不仅减少了模型的训练时间，同时提高了模型的分类性能。

Description

基于序列同源性的特定生物序列预测方法及其系统

技术领域

本发明属于计算机生物信息学技术领域，尤其是涉及一种基于序列同源性的特定生物序列预测方法及其系统。

背景技术

目前，对于治疗肽等特定生物序列的预测主要包括基于经验分析（基于质谱的技术、生物信息学技术、细胞实验等）和基于机器学习的方法。其中基于机器学习的方法主要包括两类，一类是传统机器学习方法，这一类方法需要专家根据领域知识手动设计并提取特征，手动特征提取依赖于人的先验知识和对数据的理解，可以提高模型的解释性，但同时这个过程可能非常耗时且需要专业知识；随着深度学习等算法的兴起，一些机器学习算法可以自动学习特征，从而减少了手动提取特征的需求，例如，深度学习算法，特别是卷积神经网络（CNN）和循环神经网络（RNN）。但是即使是第二类可实现自动提取特征的机器学习方法，也仍然需要将编码数据输入深度学习模型，无法整合序列进化信息并解决噪声生物序列的处理问题。

发明内容

本发明的目的是针对生物序列的识别，提供一种基于序列同源性的特定生物序列预测方法及其系统，该方法提出基于序列同源性评分的模糊隶属函数和深度模糊回声状态网络技术，采用最大化混合相关熵测量模型输出层期望值与实测值之间的关系，以更准确地预测治疗肽。

为达到上述目的，本发明采用了下列技术方案：

一种基于序列同源性的特定生物序列预测方法，该方法包括：

准备特定生物序列相关的原始序列数据集，原始训练数据集是氨基酸字符串序列；原始序列数据集包括训练集和测试集，训练集用于训练模型，测试集则用于对训练的模型进行测试；

构造基于序列同源性评分的模糊隶属函数，用于将序列数据转化成特征向量；

构造深度模糊回声状态网络，用于根据所述的特征向量输出预测结果；

使用所述的原始序列数据集训练所述的深度模糊回声状态网络。

在上述的基于序列同源性的特定生物序列预测方法中，通过本方法得到针对特定生物序列的由所述深度模糊回声状态网络构成的识别器；

待测序列被输入至所述的模糊隶属函数得到关于该待测序列的特征向量；

所述的特征向量被输入至所述的识别器，输出对所述待测序列的识别结果。

在上述的基于序列同源性的特定生物序列预测方法中，所述的特定生物序列包括治疗肽。

在上述的基于序列同源性的特定生物序列预测方法中，所述的基于序列同源性评分的模糊隶属函数构造方法为：

输入原始序列数据集，定义模糊规则的数量为 />；

对于序列，通过史密斯-沃特曼算法进行双序列比对以计算同源性分数；

计算每个序列与其他所有序列的同源性分数之和，对其进行排序，取值最大的前个序列样本作为支持序列 />；

对于个模糊集，每个模糊集包含一个支持序列；第 />个模糊集有支持序列（氨基酸字符串）。

对于第个输入序列/>，第 />个模糊集隶属值为：

其中是通过史密斯-沃特曼算法计算得到的同源性分数，分数越高表示越相似； />是 />个模糊集的最大同源性对齐分数； />是用于调整函数输出的常数，该值介于0和1之间；

对于每个序列， />

通过上式计算得到。

在上述的基于序列同源性的特定生物序列预测方法中，对待测序列进行识别过程中，基于上述所构造的模糊隶属函数对待测序列计算个模糊集的模糊隶属值 />。

在上述的基于序列同源性的特定生物序列预测方法中，所述深度模糊回声状态网络的构造方法为：

基于以下定义随机初始化和 />：假设DFESN有 />个储层，记录了 />时刻的输入信号（基于序列同源得分的隶属度函数输出， />）/>、内部回声状态信号 />以及输出信号 />；

其中第个储层中的神经元数量为 />；

表示固定的随机输入权值，当 />时（第一层）， />；当时， />。

为第 />个储层随机固定的内部权值；

样本序列在第 />个储层的状态转变为：

其中是第 />个储层在时刻 />的输入信号；当 />时（第一层），；当 />时，/> 。

每个都被初始化为空状态（ />）；

逐层处理后，结合各层回波状态变量，得到时刻的采集状态 />：

式中为水平连接； />是序列同源性分数隶属函数的输出。

深度模糊回声状态网络的输出定义为：

其中，/> 并且 />为标量。

在上述的基于序列同源性的特定生物序列预测方法中，训练过程中，利用最大化混合相关熵测量模型输出层期望值与实测值之间的关系，并基于二次信息势和概率密度函数之间的欧氏距离确定模型的最优参数。

在上述的基于序列同源性的特定生物序列预测方法中，利用最大化混合相关熵测量模型输出层期望值与实测值之间的关系具体包括：

使用最大化混合相关熵确定具有高鲁棒性的最佳模型：

其中为混合系数矢量；

为带宽矢量；

为中心向量；

为核函数， />为第 />个样本误差；

N为样本数量，M为基于熵的损失函数的数量；

(1)求解下列目标函数的最大值：

其中， />代表正则化参数；

(2)令，得到：

其中为每个样本的真实类别， />，， />为单位矩阵；

对角矩阵Ξ计算公式如下：

向量计算公式如下：

。

在上述的基于序列同源性的特定生物序列预测方法中，通过如下方式确定模型最优参数：

通过计算和利用二次信息势及概率密度函数之间的欧氏距离更新参数/>；

计算和 />；

通过更新 />，判断 />是否迭代到最大值，若是则进入下一步，否则重新进入第一步不断迭代；

通过计算得到输入序列的预测结果。

一种基于序列同源性的特定生物序列预测系统，通过上述的方法实现对特定生物序列的预测。

本发明的优点在于：

1、本方案提出基于序列同源性评分的模糊隶属函数将序列数据转化成特征向量，无需手动提取特征，并且可直接处理字符串序列，无需进行特征编码，通过整合序列进化信息有效优化特征空间，不仅减少了模型的训练时间，同时提高了模型的分类性能；

2、本方案提出了一种新的分类方法SHS-DFESN-MMC，通过结合深度模糊回声状态网络和最大混合相关熵准则，有效提升诸如治疗性肽等特定生物序列的预测准确率，减少噪声序列对模型的影响，提高模型的预测准确性和泛化能力；

3、本方案考虑了氨基酸序列和多层回声状态网络的生物学特性，利用氨基酸序列的同源性评分构造模糊隶属函数，使预测模型无需预先提取特征即可直接输入生物序列，有效获取序列的进化信息，提升模型的分类性能；然后采用多层回声状态网络进一步提取序列信息，提高方法的预测性能；最后通过采用混合熵准则来衡量模型输出层预测值与实测值之间的关系避免噪声序列对模型的影响；

4、本方案基于SHS-DFESN的架构特征提出通过计算最大化混合相关熵的和基于二次信息势和概率密度函数之间的欧氏距离的方式来确定最优参数，这个方式能够实现高效的迭代优化，使最终得到的模型具有更优越的性能。

附图说明

图 1为本发明实施例提供的基于序列同源性的治疗肽预测方法流程图；

图2为本发明实施例提供的基于序列同源性的治疗肽预测方法SHS-DFESN-MMC的原理图；

图2-1是图2中隶属度函数的放大图；

图2-2是图2中基于最大混合墒准则的优化算法放大图；

图3为本发明与现有方法在8个训练数据集上的AUC对比结果；

图4为本发明与现有方法在8个独立测试数据集上的AUC对比结果；

图5为本发明在训练集AAP上进行消融实验的结果对比示意图；

图6为本发明在训练集ABP上进行消融实验的结果对比示意图；

图7为本发明在训练集ACP上进行消融实验的结果对比示意图；

图8为本发明在训练集AIP上进行消融实验的结果对比示意图；

图9为本发明在训练集AVP上进行消融实验的结果对比示意图；

图10为本发明在训练集CPP上进行消融实验的结果对比示意图；

图11为本发明在训练集QSP上进行消融实验的结果对比示意图；

图12为本发明在训练集SBP上进行消融实验的结果对比示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细的说明。

本实施例公开了一种基于序列同源性的特定生物序列预测方法及基于前述方法实现的能够对特定生物序列实现预测的系统。

如图1所示，本实施例以治疗肽为特定生物序列对本方案所提出的基于序列同源性的特定生物序列预测方法进行详细说明，其他生物序列类似，不在此赘述。包括以下步骤：

收集并下载现有研究者提供的治疗肽相关的数据集，数据集中包含训练集和独立测试集，训练集用于训练模型，独立测试集用于测试经过训练的模型。后续提到的待测序列可以指这里的独立测试集，也可以指对模型投入使用后，需要使用该模型进行识别的序列，本实施例主要指独立测试集。数据集包括包含治疗肽的正样本和不包含治疗肽的负样本，模型输出的是是否含有治疗肽以及治疗肽位置的结果。

基于获取的原始序列数据集，使用基于序列同源性评分的模糊隶属函数（SHS）将序列数据转化成特征向量；

将前述得到的特征向量输入至深度模糊回声状态网络（DFESN）进行表征学习，从而进一步提取特征；

利用最大化混合相关熵（MMC）测量模型输出层期望值与实测值之间的关系，并基于二次信息势（QIP）和概率密度函数之间的欧氏距离确定模型的最优参数，利用信息势的概念（用户量化信息的不确定性），并结合概率密度函数来调整模型参数以最小化这种不确定性，从而使模型在不断迭代的过程中可同时学习到更准确的数据分布。

采用训练好的DFESN分类模型构建治疗肽识别器，并将使用基于序列同源性评分的模糊隶属函数对待测序列得到的最佳特征集输入至识别器中，完成对待测序列治疗肽的识别。

如图2，以及图2-1，图2-2所示，基于序列同源性评分的模糊隶属函数的构造过程包括以下步骤：

（1）输入训练序列和测试序列 />，定义模糊规则的数量为 />；

（2）对于训练序列，通过史密斯-沃特曼算法进行双序列比对以计算同源性分数/>；

图中“局部序列比对”中横向和纵向各字母分别是氨基酸字母缩写，本领域技术人员应当知道各氨基酸的常识性缩写，如甘氨酸（G），丙氨酸（A），缬氨酸（V），亮氨酸（L），异亮氨酸（I），苯丙氨酸（F），色氨酸（W），酪氨酸（Y），天冬氨酸（D），谷氨酸（E），赖氨酸（K），谷氨酰胺（Q），甲硫氨酸（M），丝氨酸（S），苏氨酸（T），半胱氨酸（C），脯氨酸（P），组氨酸（H），精氨酸（R）。

（3）计算每个序列与其他所有序列的同源性分数之和，对其进行排序，取值最大的前个序列样本作为支持序列 />；

（4）对于个模糊集，每个模糊集包含一个支持序列。第 />个模糊集有支持序列（氨基酸字符串）。对于第 />个输入序列 />（氨基酸字符串），则if-parts（第 />个模糊集）（if-parts指模糊规则中结论部分的隶属函数）的输出为：

其中是通过史密斯-沃特曼算法计算得到的同源性分数，分数越高表示越相似。 />是 />个模糊集的最大同源性对齐分数。 />是一个用于调整函数输出的常数，该值介于0和1之间。

通过上式计算可以得到对训练序列的模糊集隶属值和对测试序列的模糊集隶属值/> 。

（5）输入序列与支持序列（）之间的相似度越高，第 />个模糊集的模糊隶属值越接近于1。对于if-parts产生的序列 />，则为：

通过上式计算得到（训练集）和 />（测试序列）。

进一步地，DFESN由许多按顺序连接的储层组成，其构造过程包括以下步骤：

（1）基于以下定义随机初始化和 />：假设DFESN有 />个储层，记录了 />时刻的输入信号（基于序列同源得分的成员函数输出） />、内部回声状态信号 />以及输出信号 />。

其中第个储层中的神经元数量为 />。 />表示固定的随机输入权值，当/>时（第一层）， />；当/>时，/>。为第 />个储层随机固定的内部权值。 />和/>的网络权系数的生成方法与传统的回声状态网络（ESN）相同，具体不在此赘述。

（2）通过深度ESN和以下公式计算训练集的，计算测试序列的/>，第/>个储层的状态转变（对于样本/>）方程写成：

其中是第/>个储层在时刻/>的输入信号。当/>时（第一层），/>；当时，/>。每个/>都被初始化为空状态（/>）。逐层处理后，结合各层回波状态变量，得到/>时刻的采集状态/>：

式中为水平连接， />是序列同源性分数隶属函数的输出。

（3）DFESN的输出定义为：

其中， />并且 />为标量。

进一步地，本实施例使用MMC来确定具有高鲁棒性的最佳模型：

其中式中为混合系数矢量，/>为带宽矢量，/>为中心向量，/>为核函数， />为第 />个样本误差。N为样本数量，M为基于熵的损失函数的数量。

利用最大化混合相关熵（MMC）测量模型输出层期望值与实测值之间的关系的过程分为以下步骤：

(3)求解下列目标函数的最大值：

其中。/>代表正则化参数。

令，得到：

其中为每个样本的真实类别，/>，， />为单位矩阵。

对角矩阵Ξ 计算公式如下：

向量计算公式如下：

。

训练过程具体如下：

S1.使用构造的模糊隶属函数得到模糊处理结果（训练集）和（测试序列）；

S2.随机初始化深度模糊回声状态网络的；

S3.计算；

S4.通过计算和利用二次信息势及概率密度函数之间的欧氏距离更新参数 />；

S5.计算和 />；

S6.通过更新/>，判断/>是否迭代到最大值，如果完成则进入S7，否则进入S4不断迭代；

S7.通过计算得到 />。

为了验证本方案的有效性和性能优势，本实施例对本方法与现有方法的各方面进行了比对实验。

如图3是本发明与现有方法在8个训练数据集上的AUC对比结果，将SHS-DFESN-MMC与PPTPP、PEPred-Suite、PreTP-EL和other methods (其他模型，包括AntiAngioPred、AntiBP、ACPred-FL、AIPpred、AVPpred、CPPred-RF、QSPpred、PSBinder)在相同数据集上进行性能比较，图3中，每组对比中（图3中有AAP、ABP、ACP、AIP、AVP、CPP、QSP、SBP、Ave九组对比），从左至右的5条柱子分别是PPTPP、PEPred-Suite、PreTP-EL、other methods、SHS-DFESN-MMC五个方法的试验结果。

对于AAP数据集，其他模型使用的是AntiAngioPred；对于ABP数据集，其他模型使用的是AntiBP；对于ACP数据集，其他模型使用的是ACPred-FL；对于AIP数据集，其他模型使用的是AIPpred；对于AVP数据集，其他模型使用的是AVPpred；对于CPP数据集，其他模型使用的是CPPred-RF；对于QSP数据集，其他模型使用的是QSPpred；对于SBP数据集，其他模型使用的是PSBinder。

这些“其他模型”均只针对相应的一个数据集，本方案可同时针对八个数据集。

每个预测器在8个训练集上的平均值用Ave表示。对于正负样本数量平衡的数据集，AUC可以客观地表达模型的分类能力。

从图3可以看到，SHS-DFESN-MMC模型在ACP、AIP、AVP和CPP、AVE这5个数据集上的AUC最高，虽然SHS-DFESN-MMC在所有数据集上的AUC都不是最好的，但其平均AUC(8个数据集)最高，优于PreTP-EL，可见，本方案所提供方法相对于现有技术的几种方法具有更高的预测准确性。

图4为本发明与现有方法在8个独立测试数据集上的AUC对比结果。独立测试集用于评估经过训练的分类器，以衡量它们的泛化程度。从结果来看，SHS-DFESN-MMC是优于其他分类器的，在AAP、ACP、AIP、AVP、CPP、QSP和SBP上均获得了最高的AUC，SHS-DFESN-MMC的平均AUC值也是最高，为0.923。同样地，每组对比中，从左至右的5条柱子分别是PPTPP、PEPred-Suite、PreTP-EL、other methods、SHS-DFESN-MMC五个方法的试验结果。

为了验证SHS-DFESN和MMC的有效性，本实施例进行了消融实验，参与比对的模型包括：

SHS-DFESN-MMC：基于序列同源性评分的混合熵最大化深度模糊回声状态网络模型；

SHS-DFESN：基于序列同源性评分的深度模糊回声状态网络模型；

SHS-FESN：基于序列同源性评分的模糊回声状态网络模型；

SHS-Z-FS：基于序列同源性分数的零阶模糊系统模型。

以上各模型其他条件均相同，如训练数据集、训练程度等。

图5-图12分别为本发明在训练集AAP、ABP、ACP、AIP、AVP、CPP、QSP、SBP上进行消融实验的结果对比示意图；

各图中每项指标的四根柱子从左至右分别是SHS-DFESN-MMC、SHS-DFESN、SHS-FESN 、SHS-Z-FS五个方法的试验结果。

由图5-图12可以看到，SHS-DFESN-MMC在所有训练集上的各项指标均优于其他方法，可见本方案所提供的方法具有突出的性能。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了特定生物序列、治疗肽、训练集、测试集、待测序列、模糊隶属函数、深度模糊回声状态网络等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于序列同源性的特定生物序列预测方法，其特征在于，该方法包括：

准备特定生物序列相关的原始序列数据集；

2.根据权利要求1所述的基于序列同源性的特定生物序列预测方法，其特征在于，通过本方法得到针对特定生物序列的由所述深度模糊回声状态网络构成的识别器；

3.根据权利要求2所述的基于序列同源性的特定生物序列预测方法，其特征在于，所述的特定生物序列包括治疗肽。

4.根据权利要求1-3任意一项所述的基于序列同源性的特定生物序列预测方法，其特征在于，所述的基于序列同源性评分的模糊隶属函数构造方法为：

输入原始序列数据集，定义模糊规则的数量为/>；

计算每个序列与其他所有序列的同源性分数之和，对其进行排序，取值最大的前个序列样本作为支持序列/>；

对于个模糊集，每个模糊集包含一个支持序列；

对于第个输入序列/>，第/>个模糊集隶属值为：

其中是/>个模糊集的最大同源性对齐分数；/>是用于调整函数输出的常数，介于0和1之间；

对于每个序列，/>

通过上式计算得到。

5.根据权利要求4所述的基于序列同源性的特定生物序列预测方法，其特征在于，对待测序列进行识别过程中，基于所构造的模糊隶属函数对待测序列计算个模糊集的模糊隶属值/>。

6.根据权利要求1所述的基于序列同源性的特定生物序列预测方法，其特征在于，所述深度模糊回声状态网络的构造方法为：

基于以下定义随机初始化和/>：假设DFESN有/>个储层，记录了/>时刻的输入信号/>、内部回声状态信号/>以及输出信号；

其中第个储层中的神经元数量为/>；

表示固定的随机输入权值；

为第/>个储层随机固定的内部权值；

样本序列在第/>个储层的状态转变为：

其中是第/>个储层在时刻/>的输入信号；

每个都被初始化为空状态（/>）；

逐层处理后，结合各层回波状态变量，得到时刻的采集状态/>：

式中为水平连接；/>是序列同源性分数隶属函数的输出；

深度模糊回声状态网络的输出定义为：

其中，/>并且/>为标量。

7.根据权利要求1所述的基于序列同源性的特定生物序列预测方法，其特征在于，训练过程中，利用最大化混合相关熵测量模型输出层期望值与实测值之间的关系，并基于二次信息势和概率密度函数之间的欧氏距离确定模型的最优参数。

8.根据权利要求7所述的基于序列同源性的特定生物序列预测方法，其特征在于，利用最大化混合相关熵测量模型输出层期望值与实测值之间的关系具体包括：

使用最大化混合相关熵确定具有高鲁棒性的最佳模型：

其中为混合系数矢量；

为带宽矢量；

为中心向量；

为核函数，/>为第/>个样本误差；

N为样本数量，M为基于熵的损失函数的数量；

求解下列目标函数的最大值：

其中，/>代表正则化参数；

令，得到：

其中为每个样本的真实类别，/>，，/>为单位矩阵；

对角矩阵Ξ计算公式如下：

向量计算公式如下：

。

9.根据权利要求8所述的基于序列同源性的特定生物序列预测方法，其特征在于，通过如下方式确定模型最优参数：

通过计算和利用二次信息势及概率密度函数之间的欧氏距离更新参数；

计算和/>；

通过更新/>，判断/>是否迭代到最大值，若是则进入下一步，否则重新进入第一步不断迭代；

通过计算得到输入序列的预测结果。

10.一种基于序列同源性的特定生物序列预测系统，其特征在于，通过权利要求1-9任意一项所述的方法实现对特定生物序列的预测。