CN116343915A

CN116343915A - 生物序列集成分类器的构建方法及生物序列预测分类方法

Info

Publication number: CN116343915A
Application number: CN202310249336.0A
Authority: CN
Inventors: 邹权; 王一争; 丁漪杰
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-27
Anticipated expiration: 2043-03-15
Also published as: CN116343915B

Abstract

本方案公开了一种生物序列集成分类器的构建方法及生物序列预测分类方法，首先通过多序列比对技术构建序列核，通过表征生物序列之间的距离构建结构核，通过本体论的的标注，在树形结构上估算生物序列之间的距离来构建功能核；然后使用不同的多核学习方法求解核权重，使用多核融合技术融合序列核、功能核和结构核，基于序列核、结构核、功能核构建及训练相应的基分类器并集成为生物序列集成分类器，完成对生物序列的分类，针对生物序列的特殊性，从序列、结构和功能三维层面学习训练样本之间的距离关系，创新地提出“序列核”、“结构核”和“功能核”，直接处理生物序列样本，避免了数值特征提取时造成的信息丢失与信息冗余。

Description

生物序列集成分类器的构建方法及生物序列预测分类方法

技术领域

本方案属于生物信息技术领域，提出一种生物序列集成分类器的构建方法及生物序列预测分类方法。

背景技术

目前，用于生物序列分类主要有两种思路：通过特征提取结合传统分类方法和基于深度学习方法直接对序列分类，相关技术方案的具体介绍如下：

（1）生物序列的特征主要是词频特征、理化特征、结构特征和进化特征。目前主要的序列特征提取软件有：PseKNC-General、PyFeat、iFeature、VisFeature、POSSUM、Rcpi、protr。此外，将序列中的每个字母（氨基酸、核苷酸）分别数值化表示，进而组合出序列的全局特征。得到传统的数值型分类特征，再结合分类器便可以实现对生物序列的分类和判别。于是产生了特征提取和分类器一体的生物序列分类平台，如gkmSVM、iLearnPlus、Biological Seq-Analysis2.0。其中，gkmSVM较早地使用核方法对生物序列进行预测，其核方法选用了最常见的词频特征kmer，在两个特定的问题（特殊细胞类型中增强子的活性、变异与疾病关系预测）中取得了较好的效果，但gkmSVM仅采用了简单的kmer特征，在大多数问题上表现不尽如人意，且容易出现过拟合。iLearnPlus和Biological Seq-Analysis2.0为生物序列提供了相对丰富的特征提取方法以及分析方法，在生物序列分类研究中应用较广泛，优于传统的特征提取工具，然而，这些特征提取工具未考虑到序列结构信息，很容易丢失隐藏的序列信息。

（2）基于深度学习的方法不对序列进行特征提取，直接将序列编码输入到神经网络，通过训练调节神经网络的结构和参数，使得神经网络可以完成对训练样本的分类。最著名的应用便是AlphaFold2预测蛋白质三维结构，这也得益于冷冻电镜的出现，为人工智能积攒可供学习训练的三维结构样本。目前已有研究者研发了生物序列的深度学习分类平台，包括：Kipoi、Pysster、Selene、DNA-BERT。深度学习方法除了使用序列信息，通常还会融合其他信息，例如：DeepFunc和DeepGO在预测蛋白的功能时，还加入了蛋白质相互作用网络信息；DeepPSL在预测蛋白质亚细胞定位时，模型网络的输入选择了数值型的词频特征和理化特征。还有一类生物序列的预测问题是相互作用预测，包括蛋白质相互作用预测、DNA-蛋白质结合预测等。但是深度学习方法要求训练样本足够多，不能适应小样本问题，而大多数生物序列的结构、功能预测都属于小样本问题。

总结来说，现有技术的上述两种思路存在以下不足和缺点：

（1）到目前为止，相关研究只是将其他领域研发的算法直接应用于生物数据，还没有一种专门针对生物序列数据的普适性的算法或者框架；

（2）现有技术普遍没有有效利用生物序列特定的已知结构和先验知识，模型的参数化日益严重，模型的健壮性和可解释性较弱；

（3）现有的传统机器学习方法需要通过特征提取，而特征提取会丢失隐藏的序列信息，忽略潜在的规律信息和关联模式，并限制学习模型的精确度；

（4）现有的深度学习方法要求训练样本足够多，不能有效适应小样本问题，而大多数生物序列的结构、功能预测都属于小样本问题；

（5）以深度学习方法为代表，现有的方法在模型可解释性方面还存在诸多不足，不能进一步指导生物医学研究者挖掘序列深藏信息。

发明内容

本方案的目的是针对上述问题，提供一种生物序列集成分类器的构建方法及生物序列预测分类方法。针对生物序列的特殊性，从序列、结构和功能三维层面学习训练样本之间的距离关系，创新地提出“序列核”、“结构核”和“功能核”，直接处理生物序列样本，避免了数值特征提取时造成的信息丢失与信息冗余。首先通过多序列比对技术构建序列核，通过表征生物序列之间的距离构建结构核，通过本体论的的标注，在树形结构上估算生物序列之间的距离来构建功能核；然后使用不同的多核学习方法求解核权重，使用多核融合技术融合序列核、功能核和结构核，基于序列核、结构核、功能核构建及训练相应的基分类器并集成为生物序列集成分类器，完成对生物序列的分类。

一种生物序列集成分类器的构建方法，该方法包括：

构建分别对应于核矩阵—序列核

、结构核

、功能核

和融合核

的基分类器1、基分类器2、基分类器3、基分类器4；

对M组训练样本的原始序列分别构建各组的序列核

、结构核

、功能核

三种核矩阵；每组样本包括两条原始序列；可以以一个训练样本为参照样本，每组训练样本中均具有该参照样本；也可以两两组合训练样本得到M组训练样本，每个训练样本可以在多组样本组中；也可以每两个训练样本组成一组训练样本，每个训练样本只在一组样本中。

分别融合各组的序列核

、结构核

、功能核

得到各组融合后的核矩阵—融合核

；

使用各组相应种类的核矩阵分别对基分类器1、基分类器2、基分类器3、基分类器4进行训练；

通过投票策略集合基分类器得到生物序列集成分类器。

在上述的生物序列集成分类器的构建方法中，基于多序列比对构建序列核

：

S11.以原始序列样本为基础，通过氨基酸理化性质在原始序列样本之间寻找完全匹配区间；

S12.剩余部分为非匹配区间，对非匹配区间进行多序列比对；

S13.通过史密斯-沃特曼算法求得SW评分，然后经过归一化构建所述的序列核

。

在上述的生物序列集成分类器的构建方法中，S12中，对非匹配区间进行多序列比对时，使用SW算法进行计算，首先构建成本矩阵

：

（1）

上式中，

代表序列样本发生了氨基酸的插入或删除事件，导致在多序列比对的过程中产生了插空；蛋白质由氨基酸残基组成，公式（1）中的

表示蛋白质序列样本第

个氨基酸残基，

表示序列样本第

个氨基酸残基；

代表匹配函数，如果对应位置氨基酸相同则为

，否则为

；成本矩阵

构建完成后，采用动态规划方法，从矩阵右下角寻找最低的成本路径，回溯到矩阵左上角，完成序列比对；

S13中，序列样本

和

的非匹配区间的序列相似度SW总评分的公式如下所示：

（2）

上式中，

表示序列样本

和

的非匹配区间的个数，

和

中的

和

分别表示第

个序列样本和第

个序列样本，

表示第

个非匹配区间通过多序列比对得到的SW评分；

序列样本

和

的全部区间的SW评分的计算公式如下所述：

（3）

表示序列样本

和

的最大匹配区间的总长度；

对序列样本

和

的SW评分进行归一化，公式如下所示：

（4）

得到序列核

的计算公式如下所示：

（5）

中的

和

分别表示第

个序列样本和第

个序列样本。

在上述的生物序列集成分类器的构建方法中，基于序列结构预测构建结构核

；

使用AlphaFold2预测序列样本的三维结构，得到PDB文件，将PDB文件输入至TM-align计算TM-score来构建结构核

，具体包括：

S21.将两条原始序列样本分别输入至AlphaFold2，获得预测的三维结构，分别保存至PDB文件；在此训练阶段，两条原始序列样本分别是同组内的两条训练样本序列，在后续的预测阶段，两条原始序列样本一条是待测样本序列，一条是训练样本序列。

S22.将两条序列样本

和

对应的PDB文件输入至TM-align软件中，获得前述两条序列样本的模板建模得分

，得到序列结构核

的计算公式如下所示：

（6）；

中的

和

分别表示第

个序列样本和第

个序列样本。

在上述的生物序列集成分类器的构建方法中，基于基因本体论构建功能核

；

以原始序列样本为基础，使用interpro数据库获得基因本体论中的ID，并将ID对应到有向无环图中，通过度量有向无环图中的节点距离来构建功能核

，具体包括：

S31.利用基因本体论中某两个节点的公共最低祖先计算基于边的节点相似度：

（7）

上式中，

和

分别是基因本体论的有向无环图中的两个节点；

是节点

和

的最低公共祖先；

是基因本体论的有向无环图中的根节点；

代表节点

和

在基因本体论的有向无环图中的最长路径距离；

代表了在基因本体论的有向无环图中节点

和

的相似度；

在生物过程、细胞组分和分子功能三个域的某一个域中，序列样本

和

对应的域内节点的相似度由以下公式得到：

（8）

序列

和

对应的域内节点的个数分别是

和

；

根据上式，计算得到生物过程、细胞组分和分子功能三个域内节点的相似度，分别用

、

和

表示，则序列样本功能核

的计算公式如下所示：

（9）

中的

和

分别表示第

个序列样本和第

个序列样本。

在上述的生物序列集成分类器的构建方法中，使用多核线性加权融合方法融合所述的序列核

、结构核

、功能核

：

（10）

表示融合后的核矩阵，

为核的集合，

代表被融合的核的个数，

是第

个核的权重，

。

在上述的生物序列集成分类器的构建方法中，通过多核学习方法得到各个核的权重

；

所述的融合核

包括第一融合核

和第二融合核

；

使用基于最大化平均相似性的无监督多核学习方法求解各个核权重，基于该权重通过多核线性加权融合方法获得所述的第一融合核

；

使用基于希尔伯特-施密特独立性准则的有监督多核学习方法求解各个核权重，基于该权重通过多核线性加权融合方法获得所述的第二融合核

；

基分类器4包括对应于第一融合核

的第一基分类器41和对应于第二融合核

的第一基分类器42。

在上述的生物序列集成分类器的构建方法中，各基分类器采用如下优化函数进行训练：

（11）

，

，上式中，

表示训练样本的数量，

分别表示对应第i个和第j个

，

和

分别是第i个和第j个训练样本的标签；

是训练样本

与训练样本

的核矩阵，

分别表示第i个样本和第j个样本；通过使关于

的拉格朗日对偶函数最小化解出

，解出

值便完成相应基分类器的训练；

构建得到的各基分类器的模型如下：

（12）

上式中，

表示训练样本数量，

是训练样本

的标签；

通过公式（11）得到，对应公式（11）对相应基分类器求解得到的

值；

是待预测样本

和训练样本

的核距离；

表示阶跃函数，其中

的公式如下所示：

按照上述方法，可以通过不同的核矩阵训练不同的基分类器，将多个训练好的基分类器对同一个样本进行预测，对多个结果采取“少数服从多数”的投票集成策略，即可得到生物序列集成分类器的最终预测结果。

一种生物序列预测分类方法，该方法包括：

通过生物序列集成分类器的构建方法构建生物序列集成分类器；

提取所有训练样本的原始序列，待测样本与每个训练样本构成一组，对每组样本构建两个样本之间的序列核

、结构核

、功能核

；

融合每组待测样本和训练样本序列的序列核

、结构核

、功能核

得到每组融合后的核矩阵-融合核

。假如M*N=S，S表示每种核矩阵的数量，M表示训练样本的数量，N表示待测样本的数量，当待测样本只有一个时，有多少训练样本，每种核矩阵就有多少个。

生物序列集成分类器中的基分类器1、基分类器2、基分类器3、基分类器4分别基于所构建的序列核

、结构核

、功能核

、融合核

计算相应待测样本的预测类别；

生物序列集成分类器通过投票策略输出最终的预测类别。

在上述的生物序列预测分类方法中，所述的融合核

包括第一融合核

和第二融合核

；

基分类器4包括对应于第一融合核

的第一基分类器41和对应于第二融合核

的第一基分类器42；

通过基于最大化平均相似性的无监督多核学习方法求解的各个核权重，使用多核线性加权融合方法获得所述的第一融合核

；

通过基于希尔伯特-施密特独立性准则的有监督多核学习方法求解的各个核权重，使用多核线性加权融合方法获得所述的第二融合核

。

本方案的优点在于：

1）提出了全新的生物序列分类方法，针对生物序列的特殊性，从序列、结构和功能三维层面学习训练样本之间的距离关系，创新地提出使用序列核、结构核和功能核代替传统特征提取，直接处理生物序列样本，能够有效解决数值特征提取时造成的信息丢失和信息冗余问题；

2）本发明创新地提出使用多核线性加权融合方法和多核学习方法来融合序列核、结构核和功能核，可以免去参数优化过程，并提高模型对小样本的泛化性；

3）使用本方案提出的生物序列集成分类器只需要少量的样本就能够实现较好的训练效果，且通过序列、结构和功能三维层面以及多核融合核进行学习训练，有助于探索遗传元件的序列信号，挖掘隐藏的生物序列模式，也将为多个生物信息学分类问题提供解决方案。

附图说明

图1为本方案所提供生物序列集成分类器的构建方法流程图；

图2为本方案所提供生物序列集成分类器的多核学习的示意图；

图3为本方案利用MEMs的动态规划和传统动态规划计算开销的对比示意图；

图4为本方案所提供生物序列集成分类器的构建方法及生物序列预测分类方法中构建结构核过程的示意图；

图5为本方案所提供生物序列集成分类器的构建方法及生物序列预测分类方法中序列数据的多核融合框架的示意图。

具体实施方式

下面结合附图和具体实施方式对本方案做进一步详细的说明。

本方案给出了一种生物序列集成分类器的构建方法及生物序列预测分类方法，受启发于普通的支持向量机，针对生物序列的特殊性，从序列、结构和功能三维层面学习训练样本之间的距离关系，创新地提出“序列核”、“结构核”和“功能核”，直接处理生物序列样本，避免了数值特征提取时造成的信息丢失与信息冗余。如图1和图2所示，该方法首先通过多序列比对技术构建序列核，通过表征生物序列之间的距离构建结构核，通过本体论的的标注，在树形结构上估算生物序列之间的距离来构建功能核；然后使用不同的多核学习方法求解核权重，使用多核融合技术融合序列核、功能核和结构核；训练针对各核矩阵的多个基分类器，采用集成策略得到生物序列集成分类器，完成对生物序列的分类。图1所示的集成分类器即这里的生物序列集成分类器。

本方案首先，构建分别对应于核矩阵—序列核

、结构核

、功能核

和融合核

的基分类器1、基分类器2、基分类器3、基分类器4，然后通过如下方法实现生物序列集成分类器：

S1.将训练样本每两个一组两两组合得到M组训练样本，每个训练样本同时在多组样本组中；

S2.对M组训练样本的原始序列分别构建各组的序列核

、结构核

、功能核

三种核矩阵；

S3.分别融合各组的序列核

、结构核

、功能核

得到各组融合后的核矩阵—融合核

；

S4.使用各组相应种类的核矩阵分别对基分类器1、基分类器2、基分类器3、基分类器4进行训练；

S5.通过投票策略集合基分类器得到生物序列集成分类器；

S6.将待测样本输入训练好的生物序列集成分类器，得到分类结果，完成对生物序列的分类。

具体地，步骤S2可以具体分为以下步骤：

S2-1.以原始蛋白质序列样本为基础，通过氨基酸理化性质在两条蛋白质序列寻找完全匹配区间（maximal exact matches, MEMs），剩余部分为非匹配区间，对非匹配区间进行多序列比对，通过史密斯-沃特曼算法（Smith-Waterman, SW）求得SW评分，经过归一化来构建序列核，其具体过程如下：

根据先验知识，氨基酸的理化性质被生物学家分为8种，分别是带电极性、疏水性、极化率、表面张力、二级结构、可溶性、储电性和范式体积。以带电极性为例，蛋白质有20种氨基酸，20氨基酸被分为高、中、低三组，分别用

、

和

表示，则通过带电极性这一理化性质，可以将20种氨基酸分为三组，从而求解蛋白质序列的完全匹配区间（maximal exactmatches, MEMs）。通过前述类似方式对每一种氨基酸基于理化性质进行分组并分别求解完全匹配区间，然后将8个结果进行整合，如选择重叠部分作为完全匹配区间。

蛋白质序列

和

得到完全匹配区间后，其余的部分为非匹配区间，非匹配区间使用多序列比对技术的SW算法来计算序列的相似度。

在对非匹配区间进行多序列比对时，使用SW算法进行计算，首先构建成本矩阵

：

（1）

上式中，

代表蛋白质序列发生了氨基酸的插入或删除事件，导致在多序列比对的过程中产生了插空，在本实施例中，g被设置为-2；蛋白质由氨基酸残基组成，公式（1）中的

表示蛋白质序列样本第

个氨基酸残基；

代表匹配函数，如果对应位置氨基酸相同则为

，否则为

，在本实施例，

和

的值分别被设置为1和-1。

成本矩阵c构建完成后，采用动态规划方法，从矩阵右下角寻找最低的成本路径，回溯到矩阵左上角，完成序列比对。如图3所示，两个相似的序列得到的最佳比对，其回溯路径一般在主对角线附近。所以在本方案中，不需要对整个矩阵进行填充和计算，只需要对主对角线附近的区域进行计算，这个区域便称为k-band，k-band算法的时间和空间复杂度降为O(kn)。

蛋白质序列

和

的非匹配区间的个数用

表示，蛋白质序列

和

的非匹配区间的序列相似度SW总评分的公式如下所示：

（2）

上式中，

代表第

个非匹配区间通过多序列比对得到的SW评分。

蛋白质序列

和

的最大匹配区间的总长度用

表示，蛋白质

和

的全部区间的SW评分的计算公式所示：

（3）

对蛋白质序列

和

的SW评分进行归一化，公式如下所示：

（4）

蛋白质序列核

的计算公式如下所示：

（5）

表示蛋白质序列i，

表示蛋白质序列j，

表示蛋白质序列i和蛋白质序列j之间的蛋白质序列核，

表示蛋白质序列i和蛋白质序列j的归一化SW评分。

S2-2.以原始蛋白质序列样本为基础，使用AlphaFold2来预测蛋白质的三维结构，得到PDB文件，将PDB文件输入到TM-align计算TM-score来构建结构核，如图4所示，其具体过程如下：

AlphaFold2是一个用于预测蛋白质三维结构的模型，该模型结合了生物、物理和神经网络的知识，该模型大部分蛋白质结构的预测与真实结构只差一个原子的宽度，达到了人类利用冷冻电镜等复杂仪器观察预测的水平。

将原始蛋白质序列输入到AlphaFold2中获得预测的蛋白质三维结构，保存至PDB文件中。然后将两个不同的蛋白质序列

和

对应的PDB文件输入到TM-align软件中获得上述两条蛋白质序列的模板建模得分

，蛋白质结构核

的计算公式如下所示：

（6）

表示蛋白质序列i和蛋白质序列j之间的蛋白质结构核，

表示蛋白质序列i和蛋白质序列j的模板建模得分。

S2-3.以原始蛋白质序列样本为基础，使用interpro数据库获得基因本体论（GeneOntology, GO）中的ID，并将ID对应到有向无环图中，通过度量有向无环图中的节点距离来构建功能核，其具体过程如下：

基因本体论是建立一套特定的词汇集合来描述生物序列的生物学功能，以此对基因功能注释统一化。目前生物学家依据生物序列的功能，已经分类建立了三大独立的本体论词汇表，也被称作三个域，分别是，

（1）生物过程（biological process, bp），主要描述通过多种分子活动完成的生物学过程，例如氧化磷酸化、蛋白质跨膜转运等；

（2）细胞组分（cellular component, cc），主要描述基因产物在执行功能时所处的细胞结构位置，例如线粒体基值、细胞质基值等；

（3）分子功能（molecular function, mf），主要描述单个的基因产物或多个基因产物的复合物在分子水平上的活动，例如蛋白激酶活性、氧化还原酶活性等。

将原始蛋白质序列输入至interpro数据库中，获得该蛋白质序列的在基因本体论中的基因本体论ID，ID是基因本体论中的唯一标识符，代表了有向无环图中的一个节点。一个原始蛋白质序列在生物过程、细胞组分和分子功能的三个域中可能具有一个或多个基因本体论ID，对应有向无环图中的一个或多个节点。

首先利用基因本体论中某两个节点的公共最低祖先（lowest common ancestor,lca）来计算基于边的节点相似度，公式如下所示：

（7）

上式中，

和

分别是基因本体论的有向无环图中的两个节点；

是节点

和

的最低公共祖先；

是基因本体论的有向无环图中的根节点；

代表节点

和

在基因本体论的有向无环图中的最长路径距离；

代表了在基因本体论的有向无环图中节点

和

的相似度。

在生物过程、细胞组分和分子功能三个域的某一个域中，设蛋白质序列

和

对应的域内节点的个数分别是

和

，则蛋白质序列

和

对应的域内节点的相似度可以由计算得到，公式如下所示：

（8）

、

和

表示。则蛋白质功能核

的计算公式如下所示：

（9）

表示蛋白质序列i和蛋白质序列j之间的蛋白质功能核，

表示蛋白质序列i，

表示蛋白质序列j。

进一步地，如图5所示，步骤S3可以具体分为以下步骤：

使用多核线性加权融合方法来融合序列核、结构核和功能核。使用线性加权方法的公式如下所示：

（10）

上式中，

是融合后的核矩阵，

为核的集合，

代表被融合的核的个数，在本实施例中，由于构建了序列核、结构核和功能核，故

的值是3。

是第

个核的权重，

。

为了使用多核线性加权融合方法来融合序列核、结构核和功能核，需要通过多核学习来计算得到各个核的权重，即行向量

。本实施例中，使基于最大化平均相似性的无监督多核学习和基于希尔伯特-施密特独立性准则的有监督多核学习两种用的多核学习方法。

使用基于最大化平均相似性的无监督多核学习方法求解各个核的权重，然后获得融合后的核矩阵

的方法如下：

首先计算矩阵之间的余弦相似度：

（11）

上式中，

被称为费罗贝尼乌斯内积；

被称为费罗贝尼乌斯范数。使用上式对每个核矩阵之间求得余弦相似度，并保存在矩阵

中；基于最大化平均相似性的无监督多核学习最大化目标核

与其他所有核

的平均比对得分，公式如下所示：

（12）

，

通过求解优化问题可以得到行向量

的值，然后求解核权重

，公式如下所示：

（13）

由此得到核权重

，然后通过多核线性加权融合方法得到融合后的核矩阵

。

使用基于希尔伯特-施密特独立性准则的有监督多核学习方法求解核权重，然后获得融合后的核矩阵

的方法如下：

希尔伯特-施密特独立性准则（Hilbert-Schmidt Independence Criterion，HSIC）是一种基于核的独立性度量方法。该方法总的原则是在再生核希尔伯特空间上定义互协方差算子，从这些算子中推出度量独立性的统计量来决定独立性的大小。假设

为特征集

的再生核希尔伯特空间，映射标记为

，核函数为

，类似的标签在再生核希尔伯特空间记为

，由标签

到

映射为

，相应的核函数为

。

首先，定义列向量

，定义对角矩阵

，那么上式中，矩阵

的计算公式如下所示：

（14）

设

是一个列向量，包含训练样本的标签，标签核矩阵

的计算公式如下所示：

（15）

特征集和标签集往往有一定的相互关联性，利用

量化它们之间的关联程度，其公式如下所示：

（16）

通过最大化融合后的核矩阵

和标签核矩阵

之间的

来求得核权重，其公式如下所示：

（17）

，

，

求解上述优化问题即可得到核权重

，然后通过多核线性加权融合方法得到融合后的核矩阵

。

进一步地，步骤S4可以具体分为以下步骤：

在步骤S5之前，已经得到了度量蛋白质序列之间相似度的序列核

、结构核

和功能核

，以及使用基于最大化平均相似性的无监督多核学习得到的融合后核

，和使用基于希尔伯特-施密特独立性准则的有监督多核学习得到的融合后核

。

各基分类器优化函数如下所示：

（18）

在上式中，

表示训练样本的数量，

和

是训练样本的标签，在训练过程中是已知的，

分别表示对应第i个和第j个

；

是核矩阵，已经在步骤S2和步骤S3中求得；故在训练过程中，欲使分类间隔最大化，只需要让其拉格朗日对偶函数最小化即可，且需要满足训练样本可以正确分类，拉格朗日对偶函数就是一个关于

的函数，让其最小化只需要让其导数为0，从而解出

，计算出

便完成了训练过程。公式（18）描述了一个优化问题，

都是已知的，求解优化问题就可以得到

。

在步骤S2和步骤S3中，构建了5个不同核矩阵，则可以计算得出五组

的值，那么便得到了5个不同的分类器，这些分类器被称作基分类器，它们分别进行训练；然后采用投票策略组合基模型，使用“少数服从多数”的原则，即取出现次数最多标签作为集成分类器的最终预测标签。

进一步地，步骤S6可以具体分为以下步骤：

基模型预测时，求解预测类别的公式如下所示：

（19）

在上式中，

表示训练样本数量，

是训练样本的标签，是已知的；

已经在训练过程中被求解出来，

表示一组值，一组中共有

个值，求解优化问题得到的一组

值共同完成基分类器的训练。

是预测样本

和训练样本

的核距离；

表示阶跃函数，其中

的公式如下所示：

。

通过不同的核矩阵使用公式（11）训练不同的基分类器，每个基分类器通过训练求解出

后得到对应的公式（19）所示的预测模型，每个基分类器的预测模型分别对待测样本进行预测，对多个结果采取“少数服从多数”的投票集成策略，即可得到集成分类器的最终预测结果。

本方案提出的全新的生物序列分类方法创新地提出使用序列核、结构核和功能核代替传统特征提取，并通过多核线性加权融合方法和多核学习方法来融合上述核。新的序列核、结构核和功能核代替传统距离计算的方法，避免了特征提取时造成的信息丢失和信息冗余问题；多核线性加权融合方法，以及基于最大化平均相似性的无监督多核学习方法和基于希尔伯特-施密特独立性准则的有监督多核学习方法来融合序列核、结构核和功能核，能够免去参数优化过程，并提高模型对小样本的泛化。使用本方案提出的生物序列集成分类器，或者说支持生物序列机只需要少量的样本就能够实现较好的训练效果，且通过序列、结构和功能三维层面以及多核融合核进行学习训练，有助于探索遗传元件的序列信号，挖掘隐藏的生物序列模式，也将为多个生物信息学分类问题提供解决方案，包括：蛋白质结构预测、特殊蛋白质的识别等。同时，生物序列距离计算对宏基因组数据分析、进化树构建、单细胞聚类等问题也具有指导意义；有助于人工分子设计、生物大分子定向演化和开发高效环保的生物催化产品。

本文中所描述的具体实施例仅仅是对本方案精神作举例说明。本方案所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本方案的精神或者超越所附权利要求书所定义的范围。