CN116343915A - 生物序列集成分类器的构建方法及生物序列预测分类方法 - Google Patents

生物序列集成分类器的构建方法及生物序列预测分类方法 Download PDF

Info

Publication number
CN116343915A
CN116343915A CN202310249336.0A CN202310249336A CN116343915A CN 116343915 A CN116343915 A CN 116343915A CN 202310249336 A CN202310249336 A CN 202310249336A CN 116343915 A CN116343915 A CN 116343915A
Authority
CN
China
Prior art keywords
sequence
kernel
core
classifier
biological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310249336.0A
Other languages
English (en)
Other versions
CN116343915B (zh
Inventor
邹权
王一争
丁漪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202310249336.0A priority Critical patent/CN116343915B/zh
Publication of CN116343915A publication Critical patent/CN116343915A/zh
Application granted granted Critical
Publication of CN116343915B publication Critical patent/CN116343915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本方案公开了一种生物序列集成分类器的构建方法及生物序列预测分类方法,首先通过多序列比对技术构建序列核,通过表征生物序列之间的距离构建结构核,通过本体论的的标注,在树形结构上估算生物序列之间的距离来构建功能核;然后使用不同的多核学习方法求解核权重,使用多核融合技术融合序列核、功能核和结构核,基于序列核、结构核、功能核构建及训练相应的基分类器并集成为生物序列集成分类器,完成对生物序列的分类,针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出“序列核”、“结构核”和“功能核”,直接处理生物序列样本,避免了数值特征提取时造成的信息丢失与信息冗余。

Description

生物序列集成分类器的构建方法及生物序列预测分类方法
技术领域
本方案属于生物信息技术领域,提出一种生物序列集成分类器的构建方法及生物序列预测分类方法。
背景技术
目前,用于生物序列分类主要有两种思路:通过特征提取结合传统分类方法和基于深度学习方法直接对序列分类,相关技术方案的具体介绍如下:
(1)生物序列的特征主要是词频特征、理化特征、结构特征和进化特征。目前主要的序列特征提取软件有:PseKNC-General、PyFeat、iFeature、VisFeature、POSSUM、Rcpi、protr。此外,将序列中的每个字母(氨基酸、核苷酸)分别数值化表示,进而组合出序列的全局特征。得到传统的数值型分类特征,再结合分类器便可以实现对生物序列的分类和判别。于是产生了特征提取和分类器一体的生物序列分类平台,如gkmSVM、iLearnPlus、Biological Seq-Analysis2.0。其中,gkmSVM较早地使用核方法对生物序列进行预测,其核方法选用了最常见的词频特征kmer,在两个特定的问题(特殊细胞类型中增强子的活性、变异与疾病关系预测)中取得了较好的效果,但gkmSVM仅采用了简单的kmer特征,在大多数问题上表现不尽如人意,且容易出现过拟合。iLearnPlus和Biological Seq-Analysis2.0为生物序列提供了相对丰富的特征提取方法以及分析方法,在生物序列分类研究中应用较广泛,优于传统的特征提取工具,然而,这些特征提取工具未考虑到序列结构信息,很容易丢失隐藏的序列信息。
(2)基于深度学习的方法不对序列进行特征提取,直接将序列编码输入到神经网络,通过训练调节神经网络的结构和参数,使得神经网络可以完成对训练样本的分类。最著名的应用便是AlphaFold2预测蛋白质三维结构,这也得益于冷冻电镜的出现,为人工智能积攒可供学习训练的三维结构样本。目前已有研究者研发了生物序列的深度学习分类平台,包括:Kipoi、Pysster、Selene、DNA-BERT。深度学习方法除了使用序列信息,通常还会融合其他信息,例如:DeepFunc和DeepGO在预测蛋白的功能时,还加入了蛋白质相互作用网络信息;DeepPSL在预测蛋白质亚细胞定位时,模型网络的输入选择了数值型的词频特征和理化特征。还有一类生物序列的预测问题是相互作用预测,包括蛋白质相互作用预测、DNA-蛋白质结合预测等。但是深度学习方法要求训练样本足够多,不能适应小样本问题,而大多数生物序列的结构、功能预测都属于小样本问题。
总结来说,现有技术的上述两种思路存在以下不足和缺点:
(1)到目前为止,相关研究只是将其他领域研发的算法直接应用于生物数据,还没有一种专门针对生物序列数据的普适性的算法或者框架;
(2)现有技术普遍没有有效利用生物序列特定的已知结构和先验知识,模型的参数化日益严重,模型的健壮性和可解释性较弱;
(3)现有的传统机器学习方法需要通过特征提取,而特征提取会丢失隐藏的序列信息,忽略潜在的规律信息和关联模式,并限制学习模型的精确度;
(4)现有的深度学习方法要求训练样本足够多,不能有效适应小样本问题,而大多数生物序列的结构、功能预测都属于小样本问题;
(5)以深度学习方法为代表,现有的方法在模型可解释性方面还存在诸多不足,不能进一步指导生物医学研究者挖掘序列深藏信息。
发明内容
本方案的目的是针对上述问题,提供一种生物序列集成分类器的构建方法及生物序列预测分类方法。针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出“序列核”、“结构核”和“功能核”,直接处理生物序列样本,避免了数值特征提取时造成的信息丢失与信息冗余。首先通过多序列比对技术构建序列核,通过表征生物序列之间的距离构建结构核,通过本体论的的标注,在树形结构上估算生物序列之间的距离来构建功能核;然后使用不同的多核学习方法求解核权重,使用多核融合技术融合序列核、功能核和结构核,基于序列核、结构核、功能核构建及训练相应的基分类器并集成为生物序列集成分类器,完成对生物序列的分类。
一种生物序列集成分类器的构建方法,该方法包括:
构建分别对应于核矩阵—序列核
Figure SMS_1
、结构核
Figure SMS_2
、功能核
Figure SMS_3
和融合核
Figure SMS_4
的基分类器1、基分类器2、基分类器3、基分类器4;
对M组训练样本的原始序列分别构建各组的序列核
Figure SMS_5
、结构核
Figure SMS_6
、功能核
Figure SMS_7
三种核矩阵;每组样本包括两条原始序列;可以以一个训练样本为参照样本,每组训练样本中均具有该参照样本;也可以两两组合训练样本得到M组训练样本,每个训练样本可以在多组样本组中;也可以每两个训练样本组成一组训练样本,每个训练样本只在一组样本中。
分别融合各组的序列核
Figure SMS_8
、结构核
Figure SMS_9
、功能核
Figure SMS_10
得到各组融合后的核矩阵—融合核
Figure SMS_11
使用各组相应种类的核矩阵分别对基分类器1、基分类器2、基分类器3、基分类器4进行训练;
通过投票策略集合基分类器得到生物序列集成分类器。
在上述的生物序列集成分类器的构建方法中,基于多序列比对构建序列核
Figure SMS_12
S11.以原始序列样本为基础,通过氨基酸理化性质在原始序列样本之间寻找完全匹配区间;
S12.剩余部分为非匹配区间,对非匹配区间进行多序列比对;
S13.通过史密斯-沃特曼算法求得SW评分,然后经过归一化构建所述的序列核
Figure SMS_13
在上述的生物序列集成分类器的构建方法中,S12中,对非匹配区间进行多序列比对时,使用SW算法进行计算,首先构建成本矩阵
Figure SMS_14
Figure SMS_15
(1)
上式中,
Figure SMS_17
代表序列样本发生了氨基酸的插入或删除事件,导致在多序列比对的过程中产生了插空;蛋白质由氨基酸残基组成,公式(1)中的
Figure SMS_21
表示蛋白质序列样本第
Figure SMS_23
个氨基酸残基,
Figure SMS_18
表示序列样本第
Figure SMS_20
个氨基酸残基;
Figure SMS_22
代表匹配函数,如果对应位置氨基酸相同则为
Figure SMS_24
,否则为
Figure SMS_16
;成本矩阵
Figure SMS_19
构建完成后,采用动态规划方法,从矩阵右下角寻找最低的成本路径,回溯到矩阵左上角,完成序列比对;
S13中,序列样本
Figure SMS_25
Figure SMS_26
的非匹配区间的序列相似度SW总评分的公式如下所示:
Figure SMS_27
(2)
上式中,
Figure SMS_29
表示序列样本
Figure SMS_32
Figure SMS_35
的非匹配区间的个数,
Figure SMS_30
Figure SMS_33
中的
Figure SMS_36
Figure SMS_38
分别表示第
Figure SMS_28
个序列样本和第
Figure SMS_31
个序列样本,
Figure SMS_34
表示第
Figure SMS_37
个非匹配区间通过多序列比对得到的SW评分;
序列样本
Figure SMS_39
Figure SMS_40
的全部区间的SW评分的计算公式如下所述:
Figure SMS_41
(3)
Figure SMS_42
表示序列样本
Figure SMS_43
Figure SMS_44
的最大匹配区间的总长度;
对序列样本
Figure SMS_45
Figure SMS_46
的SW评分进行归一化,公式如下所示:
Figure SMS_47
(4)
得到序列核
Figure SMS_48
的计算公式如下所示:
Figure SMS_49
(5)
Figure SMS_50
中的
Figure SMS_51
Figure SMS_52
分别表示第
Figure SMS_53
个序列样本和第
Figure SMS_54
个序列样本。
在上述的生物序列集成分类器的构建方法中,基于序列结构预测构建结构核
Figure SMS_55
使用AlphaFold2预测序列样本的三维结构,得到PDB文件,将PDB文件输入至TM-align计算TM-score来构建结构核
Figure SMS_56
,具体包括:
S21.将两条原始序列样本分别输入至AlphaFold2,获得预测的三维结构,分别保存至PDB文件;在此训练阶段,两条原始序列样本分别是同组内的两条训练样本序列,在后续的预测阶段,两条原始序列样本一条是待测样本序列,一条是训练样本序列。
S22.将两条序列样本
Figure SMS_57
Figure SMS_58
对应的PDB文件输入至TM-align软件中,获得前述两条序列样本的模板建模得分
Figure SMS_59
,得到序列结构核
Figure SMS_60
的计算公式如下所示:
Figure SMS_61
(6);
Figure SMS_62
中的
Figure SMS_63
Figure SMS_64
分别表示第
Figure SMS_65
个序列样本和第
Figure SMS_66
个序列样本。
在上述的生物序列集成分类器的构建方法中,基于基因本体论构建功能核
Figure SMS_67
以原始序列样本为基础,使用interpro数据库获得基因本体论中的ID,并将ID对应到有向无环图中,通过度量有向无环图中的节点距离来构建功能核
Figure SMS_68
,具体包括:
S31.利用基因本体论中某两个节点的公共最低祖先计算基于边的节点相似度:
Figure SMS_69
(7)
上式中,
Figure SMS_73
Figure SMS_76
分别是基因本体论的有向无环图中的两个节点;
Figure SMS_79
是节点
Figure SMS_72
Figure SMS_75
的最低公共祖先;
Figure SMS_78
是基因本体论的有向无环图中的根节点;
Figure SMS_81
代表节点
Figure SMS_70
Figure SMS_74
在基因本体论的有向无环图中的最长路径距离;
Figure SMS_77
代表了在基因本体论的有向无环图中节点
Figure SMS_80
Figure SMS_71
的相似度;
在生物过程、细胞组分和分子功能三个域的某一个域中,序列样本
Figure SMS_82
Figure SMS_83
对应的域内节点的相似度由以下公式得到:
Figure SMS_84
(8)
序列
Figure SMS_85
Figure SMS_86
对应的域内节点的个数分别是
Figure SMS_87
Figure SMS_88
根据上式,计算得到生物过程、细胞组分和分子功能三个域内节点的相似度,分别用
Figure SMS_89
Figure SMS_90
Figure SMS_91
表示,则序列样本功能核
Figure SMS_92
的计算公式如下所示:
Figure SMS_93
(9)
Figure SMS_94
中的
Figure SMS_95
Figure SMS_96
分别表示第
Figure SMS_97
个序列样本和第
Figure SMS_98
个序列样本。
在上述的生物序列集成分类器的构建方法中,使用多核线性加权融合方法融合所述的序列核
Figure SMS_99
、结构核
Figure SMS_100
、功能核
Figure SMS_101
Figure SMS_102
(10)
Figure SMS_103
表示融合后的核矩阵,
Figure SMS_104
为核的集合,
Figure SMS_105
代表被融合的核的个数,
Figure SMS_106
是第
Figure SMS_107
个核的权重,
Figure SMS_108
在上述的生物序列集成分类器的构建方法中,通过多核学习方法得到各个核的权重
Figure SMS_109
所述的融合核
Figure SMS_110
包括第一融合核
Figure SMS_111
和第二融合核
Figure SMS_112
使用基于最大化平均相似性的无监督多核学习方法求解各个核权重,基于该权重通过多核线性加权融合方法获得所述的第一融合核
Figure SMS_113
使用基于希尔伯特-施密特独立性准则的有监督多核学习方法求解各个核权重,基于该权重通过多核线性加权融合方法获得所述的第二融合核
Figure SMS_114
基分类器4包括对应于第一融合核
Figure SMS_115
的第一基分类器41和对应于第二融合核
Figure SMS_116
的第一基分类器42。
在上述的生物序列集成分类器的构建方法中,各基分类器采用如下优化函数进行训练:
Figure SMS_117
(11)
Figure SMS_119
Figure SMS_125
,上式中,
Figure SMS_129
表示训练样本的数量,
Figure SMS_118
分别表示对应第i个和第j个
Figure SMS_123
Figure SMS_127
Figure SMS_130
分别是第i个和第j个训练样本的标签;
Figure SMS_121
是训练样本
Figure SMS_124
与训练样本
Figure SMS_128
的核矩阵,
Figure SMS_131
分别表示第i个样本和第j个样本;通过使关于
Figure SMS_120
的拉格朗日对偶函数最小化解出
Figure SMS_122
,解出
Figure SMS_126
值便完成相应基分类器的训练;
构建得到的各基分类器的模型如下:
Figure SMS_132
(12)
上式中,
Figure SMS_135
表示训练样本数量,
Figure SMS_136
是训练样本
Figure SMS_139
的标签;
Figure SMS_134
通过公式(11)得到,对应公式(11)对相应基分类器求解得到的
Figure SMS_137
值;
Figure SMS_140
是待预测样本
Figure SMS_142
和训练样本
Figure SMS_133
的核距离;
Figure SMS_138
表示阶跃函数,其中
Figure SMS_141
的公式如下所示:
Figure SMS_143
按照上述方法,可以通过不同的核矩阵训练不同的基分类器,将多个训练好的基分类器对同一个样本进行预测,对多个结果采取“少数服从多数”的投票集成策略,即可得到生物序列集成分类器的最终预测结果。
一种生物序列预测分类方法,该方法包括:
通过生物序列集成分类器的构建方法构建生物序列集成分类器;
提取所有训练样本的原始序列,待测样本与每个训练样本构成一组,对每组样本构建两个样本之间的序列核
Figure SMS_144
、结构核
Figure SMS_145
、功能核
Figure SMS_146
融合每组待测样本和训练样本序列的序列核
Figure SMS_147
、结构核
Figure SMS_148
、功能核
Figure SMS_149
得到每组融合后的核矩阵-融合核
Figure SMS_150
。假如M*N=S,S表示每种核矩阵的数量,M表示训练样本的数量,N表示待测样本的数量,当待测样本只有一个时,有多少训练样本,每种核矩阵就有多少个。
生物序列集成分类器中的基分类器1、基分类器2、基分类器3、基分类器4分别基于所构建的序列核
Figure SMS_151
、结构核
Figure SMS_152
、功能核
Figure SMS_153
、融合核
Figure SMS_154
计算相应待测样本的预测类别;
生物序列集成分类器通过投票策略输出最终的预测类别。
在上述的生物序列预测分类方法中,所述的融合核
Figure SMS_155
包括第一融合核
Figure SMS_156
和第二融合核
Figure SMS_157
基分类器4包括对应于第一融合核
Figure SMS_158
的第一基分类器41和对应于第二融合核
Figure SMS_159
的第一基分类器42;
通过基于最大化平均相似性的无监督多核学习方法求解的各个核权重,使用多核线性加权融合方法获得所述的第一融合核
Figure SMS_160
通过基于希尔伯特-施密特独立性准则的有监督多核学习方法求解的各个核权重,使用多核线性加权融合方法获得所述的第二融合核
Figure SMS_161
本方案的优点在于:
1)提出了全新的生物序列分类方法,针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出使用序列核、结构核和功能核代替传统特征提取,直接处理生物序列样本,能够有效解决数值特征提取时造成的信息丢失和信息冗余问题;
2)本发明创新地提出使用多核线性加权融合方法和多核学习方法来融合序列核、结构核和功能核,可以免去参数优化过程,并提高模型对小样本的泛化性;
3)使用本方案提出的生物序列集成分类器只需要少量的样本就能够实现较好的训练效果,且通过序列、结构和功能三维层面以及多核融合核进行学习训练,有助于探索遗传元件的序列信号,挖掘隐藏的生物序列模式,也将为多个生物信息学分类问题提供解决方案。
附图说明
图1为本方案所提供生物序列集成分类器的构建方法流程图;
图2为本方案所提供生物序列集成分类器的多核学习的示意图;
图3为本方案利用MEMs的动态规划和传统动态规划计算开销的对比示意图;
图4为本方案所提供生物序列集成分类器的构建方法及生物序列预测分类方法中构建结构核过程的示意图;
图5为本方案所提供生物序列集成分类器的构建方法及生物序列预测分类方法中序列数据的多核融合框架的示意图。
具体实施方式
下面结合附图和具体实施方式对本方案做进一步详细的说明。
本方案给出了一种生物序列集成分类器的构建方法及生物序列预测分类方法,受启发于普通的支持向量机,针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出“序列核”、“结构核”和“功能核”,直接处理生物序列样本,避免了数值特征提取时造成的信息丢失与信息冗余。如图1和图2所示,该方法首先通过多序列比对技术构建序列核,通过表征生物序列之间的距离构建结构核,通过本体论的的标注,在树形结构上估算生物序列之间的距离来构建功能核;然后使用不同的多核学习方法求解核权重,使用多核融合技术融合序列核、功能核和结构核;训练针对各核矩阵的多个基分类器,采用集成策略得到生物序列集成分类器,完成对生物序列的分类。图1所示的集成分类器即这里的生物序列集成分类器。
本方案首先,构建分别对应于核矩阵—序列核
Figure SMS_162
、结构核
Figure SMS_163
、功能核
Figure SMS_164
和融合核
Figure SMS_165
的基分类器1、基分类器2、基分类器3、基分类器4,然后通过如下方法实现生物序列集成分类器:
S1.将训练样本每两个一组两两组合得到M组训练样本,每个训练样本同时在多组样本组中;
S2.对M组训练样本的原始序列分别构建各组的序列核
Figure SMS_166
、结构核
Figure SMS_167
、功能核
Figure SMS_168
三种核矩阵;
S3.分别融合各组的序列核
Figure SMS_169
、结构核
Figure SMS_170
、功能核
Figure SMS_171
得到各组融合后的核矩阵—融合核
Figure SMS_172
S4.使用各组相应种类的核矩阵分别对基分类器1、基分类器2、基分类器3、基分类器4进行训练;
S5.通过投票策略集合基分类器得到生物序列集成分类器;
S6.将待测样本输入训练好的生物序列集成分类器,得到分类结果,完成对生物序列的分类。
具体地,步骤S2可以具体分为以下步骤:
S2-1.以原始蛋白质序列样本为基础,通过氨基酸理化性质在两条蛋白质序列寻找完全匹配区间(maximal exact matches, MEMs),剩余部分为非匹配区间,对非匹配区间进行多序列比对,通过史密斯-沃特曼算法(Smith-Waterman, SW)求得SW评分,经过归一化来构建序列核,其具体过程如下:
根据先验知识,氨基酸的理化性质被生物学家分为8种,分别是带电极性、疏水性、极化率、表面张力、二级结构、可溶性、储电性和范式体积。以带电极性为例,蛋白质有20种氨基酸,20氨基酸被分为高、中、低三组,分别用
Figure SMS_173
Figure SMS_174
Figure SMS_175
表示,则通过带电极性这一理化性质,可以将20种氨基酸分为三组,从而求解蛋白质序列的完全匹配区间(maximal exactmatches, MEMs)。通过前述类似方式对每一种氨基酸基于理化性质进行分组并分别求解完全匹配区间,然后将8个结果进行整合,如选择重叠部分作为完全匹配区间。
蛋白质序列
Figure SMS_176
Figure SMS_177
得到完全匹配区间后,其余的部分为非匹配区间,非匹配区间使用多序列比对技术的SW算法来计算序列的相似度。
在对非匹配区间进行多序列比对时,使用SW算法进行计算,首先构建成本矩阵
Figure SMS_178
Figure SMS_179
(1)
上式中,
Figure SMS_181
代表蛋白质序列发生了氨基酸的插入或删除事件,导致在多序列比对的过程中产生了插空,在本实施例中,g被设置为-2;蛋白质由氨基酸残基组成,公式(1)中的
Figure SMS_183
表示蛋白质序列样本第
Figure SMS_185
个氨基酸残基;
Figure SMS_182
代表匹配函数,如果对应位置氨基酸相同则为
Figure SMS_184
,否则为
Figure SMS_186
,在本实施例,
Figure SMS_187
Figure SMS_180
的值分别被设置为1和-1。
成本矩阵c构建完成后,采用动态规划方法,从矩阵右下角寻找最低的成本路径,回溯到矩阵左上角,完成序列比对。如图3所示,两个相似的序列得到的最佳比对,其回溯路径一般在主对角线附近。所以在本方案中,不需要对整个矩阵进行填充和计算,只需要对主对角线附近的区域进行计算,这个区域便称为k-band,k-band算法的时间和空间复杂度降为O(kn)。
蛋白质序列
Figure SMS_188
Figure SMS_189
的非匹配区间的个数用
Figure SMS_190
表示,蛋白质序列
Figure SMS_191
Figure SMS_192
的非匹配区间的序列相似度SW总评分的公式如下所示:
Figure SMS_193
(2)
上式中,
Figure SMS_194
代表第
Figure SMS_195
个非匹配区间通过多序列比对得到的SW评分。
蛋白质序列
Figure SMS_196
Figure SMS_197
的最大匹配区间的总长度用
Figure SMS_198
表示,蛋白质
Figure SMS_199
Figure SMS_200
的全部区间的SW评分的计算公式所示:
Figure SMS_201
(3)
对蛋白质序列
Figure SMS_202
Figure SMS_203
的SW评分进行归一化,公式如下所示:
Figure SMS_204
(4)
蛋白质序列核
Figure SMS_205
的计算公式如下所示:
Figure SMS_206
(5)
Figure SMS_207
表示蛋白质序列i,
Figure SMS_208
表示蛋白质序列j,
Figure SMS_209
表示蛋白质序列i和蛋白质序列j之间的蛋白质序列核,
Figure SMS_210
表示蛋白质序列i和蛋白质序列j的归一化SW评分。
S2-2.以原始蛋白质序列样本为基础,使用AlphaFold2来预测蛋白质的三维结构,得到PDB文件,将PDB文件输入到TM-align计算TM-score来构建结构核,如图4所示,其具体过程如下:
AlphaFold2是一个用于预测蛋白质三维结构的模型,该模型结合了生物、物理和神经网络的知识,该模型大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电镜等复杂仪器观察预测的水平。
将原始蛋白质序列输入到AlphaFold2中获得预测的蛋白质三维结构,保存至PDB文件中。然后将两个不同的蛋白质序列
Figure SMS_211
Figure SMS_212
对应的PDB文件输入到TM-align软件中获得上述两条蛋白质序列的模板建模得分
Figure SMS_213
,蛋白质结构核
Figure SMS_214
的计算公式如下所示:
Figure SMS_215
(6)
Figure SMS_216
表示蛋白质序列i和蛋白质序列j之间的蛋白质结构核,
Figure SMS_217
表示蛋白质序列i和蛋白质序列j的模板建模得分。
S2-3.以原始蛋白质序列样本为基础,使用interpro数据库获得基因本体论(GeneOntology, GO)中的ID,并将ID对应到有向无环图中,通过度量有向无环图中的节点距离来构建功能核,其具体过程如下:
基因本体论是建立一套特定的词汇集合来描述生物序列的生物学功能,以此对基因功能注释统一化。目前生物学家依据生物序列的功能,已经分类建立了三大独立的本体论词汇表,也被称作三个域,分别是,
(1)生物过程(biological process, bp),主要描述通过多种分子活动完成的生物学过程,例如氧化磷酸化、蛋白质跨膜转运等;
(2)细胞组分(cellular component, cc),主要描述基因产物在执行功能时所处的细胞结构位置,例如线粒体基值、细胞质基值等;
(3)分子功能(molecular function, mf),主要描述单个的基因产物或多个基因产物的复合物在分子水平上的活动,例如蛋白激酶活性、氧化还原酶活性等。
将原始蛋白质序列输入至interpro数据库中,获得该蛋白质序列的在基因本体论中的基因本体论ID,ID是基因本体论中的唯一标识符,代表了有向无环图中的一个节点。一个原始蛋白质序列在生物过程、细胞组分和分子功能的三个域中可能具有一个或多个基因本体论ID,对应有向无环图中的一个或多个节点。
首先利用基因本体论中某两个节点的公共最低祖先(lowest common ancestor,lca)来计算基于边的节点相似度,公式如下所示:
Figure SMS_218
(7)
上式中,
Figure SMS_220
Figure SMS_224
分别是基因本体论的有向无环图中的两个节点;
Figure SMS_227
是节点
Figure SMS_222
Figure SMS_225
的最低公共祖先;
Figure SMS_228
是基因本体论的有向无环图中的根节点;
Figure SMS_230
代表节点
Figure SMS_219
Figure SMS_223
在基因本体论的有向无环图中的最长路径距离;
Figure SMS_226
代表了在基因本体论的有向无环图中节点
Figure SMS_229
Figure SMS_221
的相似度。
在生物过程、细胞组分和分子功能三个域的某一个域中,设蛋白质序列
Figure SMS_231
Figure SMS_232
对应的域内节点的个数分别是
Figure SMS_233
Figure SMS_234
,则蛋白质序列
Figure SMS_235
Figure SMS_236
对应的域内节点的相似度可以由计算得到,公式如下所示:
Figure SMS_237
(8)
根据上式,计算得到生物过程、细胞组分和分子功能三个域内节点的相似度,分别用
Figure SMS_238
Figure SMS_239
Figure SMS_240
表示。则蛋白质功能核
Figure SMS_241
的计算公式如下所示:
Figure SMS_242
(9)
Figure SMS_243
表示蛋白质序列i和蛋白质序列j之间的蛋白质功能核,
Figure SMS_244
表示蛋白质序列i,
Figure SMS_245
表示蛋白质序列j。
进一步地,如图5所示,步骤S3可以具体分为以下步骤:
使用多核线性加权融合方法来融合序列核、结构核和功能核。使用线性加权方法的公式如下所示:
Figure SMS_246
(10)
上式中,
Figure SMS_247
是融合后的核矩阵,
Figure SMS_248
为核的集合,
Figure SMS_249
代表被融合的核的个数,在本实施例中,由于构建了序列核、结构核和功能核,故
Figure SMS_250
的值是3。
Figure SMS_251
是第
Figure SMS_252
个核的权重,
Figure SMS_253
为了使用多核线性加权融合方法来融合序列核、结构核和功能核,需要通过多核学习来计算得到各个核的权重,即行向量
Figure SMS_254
。本实施例中,使基于最大化平均相似性的无监督多核学习和基于希尔伯特-施密特独立性准则的有监督多核学习两种用的多核学习方法。
使用基于最大化平均相似性的无监督多核学习方法求解各个核的权重,然后获得融合后的核矩阵
Figure SMS_255
的方法如下:
首先计算矩阵之间的余弦相似度:
Figure SMS_256
(11)
上式中,
Figure SMS_257
被称为费罗贝尼乌斯内积;
Figure SMS_258
被称为费罗贝尼乌斯范数。使用上式对每个核矩阵之间求得余弦相似度,并保存在矩阵
Figure SMS_259
中;基于最大化平均相似性的无监督多核学习最大化目标核
Figure SMS_260
与其他所有核
Figure SMS_261
的平均比对得分,公式如下所示:
Figure SMS_262
(12)
Figure SMS_263
Figure SMS_264
Figure SMS_265
通过求解优化问题可以得到行向量
Figure SMS_266
的值,然后求解核权重
Figure SMS_267
,公式如下所示:
Figure SMS_268
(13)
由此得到核权重
Figure SMS_269
,然后通过多核线性加权融合方法得到融合后的核矩阵
Figure SMS_270
使用基于希尔伯特-施密特独立性准则的有监督多核学习方法求解核权重,然后获得融合后的核矩阵
Figure SMS_271
的方法如下:
希尔伯特-施密特独立性准则(Hilbert-Schmidt Independence Criterion,HSIC)是一种基于核的独立性度量方法。该方法总的原则是在再生核希尔伯特空间上定义互协方差算子,从这些算子中推出度量独立性的统计量来决定独立性的大小。假设
Figure SMS_274
为特征集
Figure SMS_277
的再生核希尔伯特空间,映射标记为
Figure SMS_279
,核函数为
Figure SMS_273
,类似的标签在再生核希尔伯特空间记为
Figure SMS_276
,由标签
Figure SMS_278
Figure SMS_280
映射为
Figure SMS_272
,相应的核函数为
Figure SMS_275
首先,定义列向量
Figure SMS_281
,定义对角矩阵
Figure SMS_282
,那么上式中,矩阵
Figure SMS_283
的计算公式如下所示:
Figure SMS_284
(14)
Figure SMS_285
是一个列向量,包含训练样本的标签,标签核矩阵
Figure SMS_286
的计算公式如下所示:
Figure SMS_287
(15)
特征集和标签集往往有一定的相互关联性,利用
Figure SMS_288
量化它们之间的关联程度,其公式如下所示:
Figure SMS_289
(16)
通过最大化融合后的核矩阵
Figure SMS_290
和标签核矩阵
Figure SMS_291
之间的
Figure SMS_292
来求得核权重,其公式如下所示:
Figure SMS_293
(17)
Figure SMS_294
Figure SMS_295
Figure SMS_296
求解上述优化问题即可得到核权重
Figure SMS_297
,然后通过多核线性加权融合方法得到融合后的核矩阵
Figure SMS_298
进一步地,步骤S4可以具体分为以下步骤:
在步骤S5之前,已经得到了度量蛋白质序列之间相似度的序列核
Figure SMS_299
、结构核
Figure SMS_300
和功能核
Figure SMS_301
,以及使用基于最大化平均相似性的无监督多核学习得到的融合后核
Figure SMS_302
,和使用基于希尔伯特-施密特独立性准则的有监督多核学习得到的融合后核
Figure SMS_303
各基分类器优化函数如下所示:
Figure SMS_304
(18)
Figure SMS_305
Figure SMS_306
在上式中,
Figure SMS_308
表示训练样本的数量,
Figure SMS_311
Figure SMS_314
是训练样本的标签,在训练过程中是已知的,
Figure SMS_309
分别表示对应第i个和第j个
Figure SMS_312
Figure SMS_315
是核矩阵,已经在步骤S2和步骤S3中求得;故在训练过程中,欲使分类间隔最大化,只需要让其拉格朗日对偶函数最小化即可,且需要满足训练样本可以正确分类,拉格朗日对偶函数就是一个关于
Figure SMS_317
的函数,让其最小化只需要让其导数为0,从而解出
Figure SMS_307
,计算出
Figure SMS_310
便完成了训练过程。公式(18)描述了一个优化问题,
Figure SMS_313
都是已知的,求解优化问题就可以得到
Figure SMS_316
在步骤S2和步骤S3中,构建了5个不同核矩阵,则可以计算得出五组
Figure SMS_318
的值,那么便得到了5个不同的分类器,这些分类器被称作基分类器,它们分别进行训练;然后采用投票策略组合基模型,使用“少数服从多数”的原则,即取出现次数最多标签作为集成分类器的最终预测标签。
进一步地,步骤S6可以具体分为以下步骤:
基模型预测时,求解预测类别的公式如下所示:
Figure SMS_319
(19)
在上式中,
Figure SMS_321
表示训练样本数量,
Figure SMS_325
是训练样本的标签,是已知的;
Figure SMS_328
已经在训练过程中被求解出来,
Figure SMS_322
表示一组值,一组中共有
Figure SMS_324
个值,求解优化问题得到的一组
Figure SMS_327
值共同完成基分类器的训练。
Figure SMS_330
是预测样本
Figure SMS_320
和训练样本
Figure SMS_323
的核距离;
Figure SMS_326
表示阶跃函数,其中
Figure SMS_329
的公式如下所示:
Figure SMS_331
通过不同的核矩阵使用公式(11)训练不同的基分类器,每个基分类器通过训练求解出
Figure SMS_332
后得到对应的公式(19)所示的预测模型,每个基分类器的预测模型分别对待测样本进行预测,对多个结果采取“少数服从多数”的投票集成策略,即可得到集成分类器的最终预测结果。
本方案提出的全新的生物序列分类方法创新地提出使用序列核、结构核和功能核代替传统特征提取,并通过多核线性加权融合方法和多核学习方法来融合上述核。新的序列核、结构核和功能核代替传统距离计算的方法,避免了特征提取时造成的信息丢失和信息冗余问题;多核线性加权融合方法,以及基于最大化平均相似性的无监督多核学习方法和基于希尔伯特-施密特独立性准则的有监督多核学习方法来融合序列核、结构核和功能核,能够免去参数优化过程,并提高模型对小样本的泛化。使用本方案提出的生物序列集成分类器,或者说支持生物序列机只需要少量的样本就能够实现较好的训练效果,且通过序列、结构和功能三维层面以及多核融合核进行学习训练,有助于探索遗传元件的序列信号,挖掘隐藏的生物序列模式,也将为多个生物信息学分类问题提供解决方案,包括:蛋白质结构预测、特殊蛋白质的识别等。同时,生物序列距离计算对宏基因组数据分析、进化树构建、单细胞聚类等问题也具有指导意义;有助于人工分子设计、生物大分子定向演化和开发高效环保的生物催化产品。
本文中所描述的具体实施例仅仅是对本方案精神作举例说明。本方案所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本方案的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种生物序列集成分类器的构建方法,其特征在于,该方法包括:
构建分别对应于核矩阵—序列核
Figure QLYQS_1
、结构核
Figure QLYQS_2
、功能核
Figure QLYQS_3
和融合核
Figure QLYQS_4
的基分类器1、基分类器2、基分类器3、基分类器4;
对M组训练样本的原始序列分别构建各组的序列核
Figure QLYQS_5
、结构核
Figure QLYQS_6
、功能核
Figure QLYQS_7
三种核矩阵;每组样本包括两条原始序列;
分别融合各组的序列核
Figure QLYQS_8
、结构核
Figure QLYQS_9
、功能核
Figure QLYQS_10
得到各组融合后的核矩阵—融合核
Figure QLYQS_11
使用各组相应种类的核矩阵分别对基分类器1、基分类器2、基分类器3、基分类器4进行训练;
通过投票策略集合基分类器得到生物序列集成分类器。
2.根据权利要求1所述的生物序列集成分类器的构建方法,其特征在于,基于多序列比对构建序列核
Figure QLYQS_12
S11.以原始序列样本为基础,通过氨基酸理化性质在原始序列样本之间寻找完全匹配区间;
S12.剩余部分为非匹配区间,对非匹配区间进行多序列比对;
S13.通过史密斯-沃特曼算法求得SW评分,然后经过归一化构建所述的序列核
Figure QLYQS_13
3.根据权利要求2所述的生物序列集成分类器的构建方法,其特征在于,S12中,对非匹配区间进行多序列比对时,使用SW算法进行计算,首先构建成本矩阵
Figure QLYQS_14
Figure QLYQS_15
(1)
上式中,
Figure QLYQS_17
代表序列样本发生了氨基酸的插入或删除事件,导致在多序列比对的过程中产生了插空;公式(1)中的
Figure QLYQS_20
表示蛋白质序列样本第
Figure QLYQS_22
个氨基酸残基,
Figure QLYQS_18
表示序列样本第
Figure QLYQS_21
个氨基酸残基;
Figure QLYQS_23
代表匹配函数,如果对应位置氨基酸相同则为
Figure QLYQS_24
,否则为
Figure QLYQS_16
;成本矩阵
Figure QLYQS_19
构建完成后,采用动态规划方法,从矩阵右下角寻找最低的成本路径,回溯到矩阵左上角,完成序列比对;
S13中,序列样本
Figure QLYQS_25
Figure QLYQS_26
的非匹配区间的序列相似度SW总评分的公式如下所示:
Figure QLYQS_27
(2)
上式中,
Figure QLYQS_29
表示序列样本
Figure QLYQS_31
Figure QLYQS_34
的非匹配区间的个数,
Figure QLYQS_30
Figure QLYQS_33
中的
Figure QLYQS_36
Figure QLYQS_38
分别表示第
Figure QLYQS_28
个序列样本和第
Figure QLYQS_32
个序列样本,
Figure QLYQS_35
表示第
Figure QLYQS_37
个非匹配区间通过多序列比对得到的SW评分;
序列样本
Figure QLYQS_39
Figure QLYQS_40
的全部区间的SW评分的计算公式如下所述:
Figure QLYQS_41
(3)
Figure QLYQS_42
表示序列样本
Figure QLYQS_43
Figure QLYQS_44
的最大匹配区间的总长度;
对序列样本
Figure QLYQS_45
Figure QLYQS_46
的SW评分进行归一化,公式如下所示:
Figure QLYQS_47
(4)
得到序列核
Figure QLYQS_48
的计算公式如下所示:
Figure QLYQS_49
(5)
Figure QLYQS_50
中的
Figure QLYQS_51
Figure QLYQS_52
分别表示第
Figure QLYQS_53
个序列样本和第
Figure QLYQS_54
个序列样本。
4.根据权利要求1所述的生物序列集成分类器的构建方法,其特征在于,基于序列结构预测构建结构核
Figure QLYQS_55
使用AlphaFold2预测序列样本的三维结构,得到PDB文件,将PDB文件输入至TM-align计算TM-score来构建结构核
Figure QLYQS_56
,具体包括:
S21.将两条原始序列样本分别输入至AlphaFold2,获得预测的三维结构,分别保存至PDB文件;
S22.将两条序列样本
Figure QLYQS_57
Figure QLYQS_58
对应的PDB文件输入至TM-align软件中,获得前述两条序列样本的模板建模得分
Figure QLYQS_59
,得到序列结构核
Figure QLYQS_60
的计算公式如下所示:
Figure QLYQS_61
(6);
Figure QLYQS_62
中的
Figure QLYQS_63
Figure QLYQS_64
分别表示第
Figure QLYQS_65
个序列样本和第
Figure QLYQS_66
个序列样本。
5.根据权利要求1所述的生物序列集成分类器的构建方法,其特征在于,基于基因本体论构建功能核
Figure QLYQS_67
以原始序列样本为基础,使用interpro数据库获得基因本体论中的ID,并将ID对应到有向无环图中,通过度量有向无环图中的节点距离来构建功能核
Figure QLYQS_68
,具体包括:
S31.利用基因本体论中某两个节点的公共最低祖先计算基于边的节点相似度:
Figure QLYQS_69
(7)
上式中,
Figure QLYQS_71
Figure QLYQS_74
分别是基因本体论的有向无环图中的两个节点;
Figure QLYQS_77
是节点
Figure QLYQS_70
Figure QLYQS_75
的最低公共祖先;
Figure QLYQS_78
是基因本体论的有向无环图中的根节点;
Figure QLYQS_80
代表节点
Figure QLYQS_73
Figure QLYQS_76
在基因本体论的有向无环图中的最长路径距离;
Figure QLYQS_79
代表了在基因本体论的有向无环图中节点
Figure QLYQS_81
Figure QLYQS_72
的相似度;
在生物过程、细胞组分和分子功能三个域的某一个域中,序列样本
Figure QLYQS_82
Figure QLYQS_83
对应的域内节点的相似度由以下公式得到:
Figure QLYQS_84
(8)
序列
Figure QLYQS_85
Figure QLYQS_86
对应的域内节点的个数分别是
Figure QLYQS_87
Figure QLYQS_88
根据上式,计算得到生物过程、细胞组分和分子功能三个域内节点的相似度,分别用
Figure QLYQS_89
Figure QLYQS_90
Figure QLYQS_91
表示,则序列样本功能核
Figure QLYQS_92
的计算公式如下所示:
Figure QLYQS_93
(9)
Figure QLYQS_94
中的
Figure QLYQS_95
Figure QLYQS_96
分别表示第
Figure QLYQS_97
个序列样本和第
Figure QLYQS_98
个序列样本。
6.根据权利要求1所述的生物序列集成分类器的构建方法,其特征在于,使用多核线性加权融合方法融合所述的序列核
Figure QLYQS_99
、结构核
Figure QLYQS_100
、功能核
Figure QLYQS_101
Figure QLYQS_102
(10)
Figure QLYQS_103
表示融合后的核矩阵,
Figure QLYQS_104
为核的集合,
Figure QLYQS_105
代表被融合的核的个数,
Figure QLYQS_106
是第
Figure QLYQS_107
个核的权重,
Figure QLYQS_108
7.根据权利要求6所述的生物序列集成分类器的构建方法,其特征在于,通过多核学习方法得到各个核的权重
Figure QLYQS_109
所述的融合核
Figure QLYQS_110
包括第一融合核
Figure QLYQS_111
和第二融合核
Figure QLYQS_112
使用基于最大化平均相似性的无监督多核学习方法求解各个核权重,基于该权重通过多核线性加权融合方法获得所述的第一融合核
Figure QLYQS_113
使用基于希尔伯特-施密特独立性准则的有监督多核学习方法求解各个核权重,基于该权重通过多核线性加权融合方法获得所述的第二融合核
Figure QLYQS_114
基分类器4包括对应于第一融合核
Figure QLYQS_115
的第一基分类器41和对应于第二融合核
Figure QLYQS_116
的第一基分类器42。
8.根据权利要求1所述的生物序列集成分类器的构建方法,其特征在于,各基分类器采用如下优化函数进行训练:
Figure QLYQS_117
(11)
Figure QLYQS_120
Figure QLYQS_123
,上式中,
Figure QLYQS_127
表示训练样本的数量,
Figure QLYQS_119
Figure QLYQS_122
分别表示对应第i个和第j个
Figure QLYQS_126
Figure QLYQS_130
Figure QLYQS_121
分别是第i个和第j个训练样本的标签;
Figure QLYQS_124
是训练样本
Figure QLYQS_128
与训练样本
Figure QLYQS_131
的核矩阵,
Figure QLYQS_118
分别表示第i个样本和第j个样本;通过使关于
Figure QLYQS_125
的拉格朗日对偶函数最小化解出
Figure QLYQS_129
,解出
Figure QLYQS_132
值便完成相应基分类器的训练;
构建得到的各基分类器的模型如下:
Figure QLYQS_133
(12)
上式中,
Figure QLYQS_135
表示训练样本数量,
Figure QLYQS_138
是训练样本
Figure QLYQS_141
的标签;
Figure QLYQS_136
通过公式(11)得到,对应公式(11)对相应基分类器求解得到的
Figure QLYQS_139
值;
Figure QLYQS_142
是待预测样本
Figure QLYQS_143
和训练样本
Figure QLYQS_134
的核距离;
Figure QLYQS_137
表示阶跃函数,其中
Figure QLYQS_140
的公式如下所示:
Figure QLYQS_144
9.一种生物序列预测分类方法,其特征在于,该方法包括:通过权利要求1-8任意一项所述的生物序列集成分类器的构建方法构建生物序列集成分类器;
提取所有训练样本的原始序列,待测样本与每个训练样本构成一组,对每组样本构建两个样本之间的序列核
Figure QLYQS_145
、结构核
Figure QLYQS_146
、功能核
Figure QLYQS_147
融合每组待测样本和训练样本序列的序列核
Figure QLYQS_148
、结构核
Figure QLYQS_149
、功能核
Figure QLYQS_150
得到每组融合后的核矩阵-融合核
Figure QLYQS_151
生物序列集成分类器中的基分类器1、基分类器2、基分类器3、基分类器4分别基于序列核
Figure QLYQS_152
、结构核
Figure QLYQS_153
、功能核
Figure QLYQS_154
、融合核
Figure QLYQS_155
计算相应待测样本的预测类别;
生物序列集成分类器通过投票策略输出最终的预测类别。
10.根据权利要求9所述的生物序列预测分类方法,其特征在于,所述的融合核
Figure QLYQS_156
包括第一融合核
Figure QLYQS_157
和第二融合核
Figure QLYQS_158
基分类器4包括对应于第一融合核
Figure QLYQS_159
的第一基分类器41和对应于第二融合核
Figure QLYQS_160
的第一基分类器42;
通过基于最大化平均相似性的无监督多核学习方法求解的各个核权重,使用多核线性加权融合方法获得所述的第一融合核
Figure QLYQS_161
通过基于希尔伯特-施密特独立性准则的有监督多核学习方法求解的各个核权重,使用多核线性加权融合方法获得所述的第二融合核
Figure QLYQS_162
CN202310249336.0A 2023-03-15 2023-03-15 生物序列集成分类器的构建方法及生物序列预测分类方法 Active CN116343915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310249336.0A CN116343915B (zh) 2023-03-15 2023-03-15 生物序列集成分类器的构建方法及生物序列预测分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310249336.0A CN116343915B (zh) 2023-03-15 2023-03-15 生物序列集成分类器的构建方法及生物序列预测分类方法

Publications (2)

Publication Number Publication Date
CN116343915A true CN116343915A (zh) 2023-06-27
CN116343915B CN116343915B (zh) 2023-11-24

Family

ID=86878369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310249336.0A Active CN116343915B (zh) 2023-03-15 2023-03-15 生物序列集成分类器的构建方法及生物序列预测分类方法

Country Status (1)

Country Link
CN (1) CN116343915B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953973A (zh) * 2024-03-21 2024-04-30 电子科技大学长三角研究院(衢州) 基于序列同源性的特定生物序列预测方法及其系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020643A (zh) * 2012-11-30 2013-04-03 武汉大学 基于提取核特征早期预测多变量时间序列类别的分类方法
US20140129152A1 (en) * 2012-08-29 2014-05-08 Michael Beer Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features
CN104751182A (zh) * 2015-04-02 2015-07-01 中国人民解放军空军工程大学 基于ddag的svm多类分类主动学习算法
CN108510521A (zh) * 2018-02-27 2018-09-07 南京邮电大学 一种多特征融合的尺度自适应目标跟踪方法
CN109034263A (zh) * 2018-08-15 2018-12-18 东北大学 脑网络多频融合图核的阿尔茨海默病辅助诊断装置及方法
US20190284636A1 (en) * 2016-10-26 2019-09-19 Brown University A method to measure myeloid suppressor cells for diagnosis and prognosis of cancer
CN110991500A (zh) * 2019-11-19 2020-04-10 天津师范大学 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN113362898A (zh) * 2021-03-17 2021-09-07 天津大学 一种融合多种序列频率信息识别rna亚细胞定位方法
CN113724790A (zh) * 2021-09-07 2021-11-30 湖南大学 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
CN114627964A (zh) * 2021-09-13 2022-06-14 东北林业大学 一种基于多核学习预测增强子及其强度分类方法及分类设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140129152A1 (en) * 2012-08-29 2014-05-08 Michael Beer Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features
CN103020643A (zh) * 2012-11-30 2013-04-03 武汉大学 基于提取核特征早期预测多变量时间序列类别的分类方法
CN104751182A (zh) * 2015-04-02 2015-07-01 中国人民解放军空军工程大学 基于ddag的svm多类分类主动学习算法
US20190284636A1 (en) * 2016-10-26 2019-09-19 Brown University A method to measure myeloid suppressor cells for diagnosis and prognosis of cancer
CN108510521A (zh) * 2018-02-27 2018-09-07 南京邮电大学 一种多特征融合的尺度自适应目标跟踪方法
CN109034263A (zh) * 2018-08-15 2018-12-18 东北大学 脑网络多频融合图核的阿尔茨海默病辅助诊断装置及方法
CN110991500A (zh) * 2019-11-19 2020-04-10 天津师范大学 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN111599409A (zh) * 2020-05-20 2020-08-28 电子科技大学 基于MapReduce并行的circRNA识别方法
CN113362898A (zh) * 2021-03-17 2021-09-07 天津大学 一种融合多种序列频率信息识别rna亚细胞定位方法
CN113724790A (zh) * 2021-09-07 2021-11-30 湖南大学 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
CN114627964A (zh) * 2021-09-13 2022-06-14 东北林业大学 一种基于多核学习预测增强子及其强度分类方法及分类设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953973A (zh) * 2024-03-21 2024-04-30 电子科技大学长三角研究院(衢州) 基于序列同源性的特定生物序列预测方法及其系统

Also Published As

Publication number Publication date
CN116343915B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN103548041B (zh) 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序
CN104156634B (zh) 基于亚细胞定位特异性的关键蛋白质识别方法
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
CN110957002A (zh) 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN113362888A (zh) 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
CN116343915B (zh) 生物序列集成分类器的构建方法及生物序列预测分类方法
Romero-Zaliz et al. A multiobjective evolutionary conceptual clustering methodology for gene annotation within structural databases: a case of study on the gene ontology database
Lu et al. A novel feature selection method based on CFS in cancer recognition
Ibrahim et al. Extracting features from protein sequences to improve deep extreme learning machine for protein fold recognition
CN113421658A (zh) 基于近邻注意力网络的“药物-靶标”相互作用预测方法
CN112270950A (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN118038995B (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及系统
Sottosanti et al. Co-clustering of spatially resolved transcriptomic data
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN113837293B (zh) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
CN113420821A (zh) 一种基于标记和特征局部相关性的多标记学习方法
CN114357869A (zh) 一种基于数据关系学习和预测的多目标优化代理模型设计方法及系统
Yaman et al. MachineTFBS: Motif-based method to predict transcription factor binding sites with first-best models from machine learning library
Saha et al. Unsupervised and supervised learning approaches together for microarray analysis
Galanakis et al. Nearest Neighbor-Based Data Denoising for Deep Metric Learning
Vipsita et al. Protein superfamily classification using adaptive evolutionary radial basis function network
Singh et al. Classification of non-coding rna-a review from machine learning perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant