CN116343915A - 生物序列集成分类器的构建方法及生物序列预测分类方法 - Google Patents
生物序列集成分类器的构建方法及生物序列预测分类方法 Download PDFInfo
- Publication number
- CN116343915A CN116343915A CN202310249336.0A CN202310249336A CN116343915A CN 116343915 A CN116343915 A CN 116343915A CN 202310249336 A CN202310249336 A CN 202310249336A CN 116343915 A CN116343915 A CN 116343915A
- Authority
- CN
- China
- Prior art keywords
- sequence
- kernel
- core
- classifier
- biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000010276 construction Methods 0.000 title claims description 13
- 238000012549 training Methods 0.000 claims abstract description 74
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 108090000623 proteins and genes Proteins 0.000 claims description 86
- 102000004169 proteins and genes Human genes 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 18
- 150000001413 amino acids Chemical class 0.000 claims description 17
- 238000007500 overflow downdraw method Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 16
- 210000000299 nuclear matrix Anatomy 0.000 claims description 13
- 230000031018 biological processes and functions Effects 0.000 claims description 10
- 230000004879 molecular function Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- 230000001413 cellular effect Effects 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 claims description 5
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 claims description 5
- 125000000539 amino acid group Chemical group 0.000 claims description 5
- 238000002887 multiple sequence alignment Methods 0.000 claims description 5
- 210000003850 cellular structure Anatomy 0.000 claims description 4
- 125000002015 acyclic group Chemical group 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 210000004940 nucleus Anatomy 0.000 claims description 3
- 239000011800 void material Substances 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000002372 labelling Methods 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 39
- 230000000694 effects Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000006916 protein interaction Effects 0.000 description 2
- 239000013074 reference sample Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- NPPQSCRMBWNHMW-UHFFFAOYSA-N Meprobamate Chemical compound NC(=O)OCC(C)(CCC)COC(N)=O NPPQSCRMBWNHMW-UHFFFAOYSA-N 0.000 description 1
- 102000004316 Oxidoreductases Human genes 0.000 description 1
- 108090000854 Oxidoreductases Proteins 0.000 description 1
- 102000001253 Protein Kinase Human genes 0.000 description 1
- 241000791876 Selene Species 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000001086 cytosolic effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000010627 oxidative phosphorylation Effects 0.000 description 1
- 108060006633 protein kinase Proteins 0.000 description 1
- 238000000455 protein structure prediction Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000004960 subcellular localization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000032895 transmembrane transport Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本方案公开了一种生物序列集成分类器的构建方法及生物序列预测分类方法,首先通过多序列比对技术构建序列核,通过表征生物序列之间的距离构建结构核,通过本体论的的标注,在树形结构上估算生物序列之间的距离来构建功能核;然后使用不同的多核学习方法求解核权重,使用多核融合技术融合序列核、功能核和结构核,基于序列核、结构核、功能核构建及训练相应的基分类器并集成为生物序列集成分类器,完成对生物序列的分类,针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出“序列核”、“结构核”和“功能核”,直接处理生物序列样本,避免了数值特征提取时造成的信息丢失与信息冗余。
Description
技术领域
本方案属于生物信息技术领域,提出一种生物序列集成分类器的构建方法及生物序列预测分类方法。
背景技术
目前,用于生物序列分类主要有两种思路:通过特征提取结合传统分类方法和基于深度学习方法直接对序列分类,相关技术方案的具体介绍如下:
(1)生物序列的特征主要是词频特征、理化特征、结构特征和进化特征。目前主要的序列特征提取软件有:PseKNC-General、PyFeat、iFeature、VisFeature、POSSUM、Rcpi、protr。此外,将序列中的每个字母(氨基酸、核苷酸)分别数值化表示,进而组合出序列的全局特征。得到传统的数值型分类特征,再结合分类器便可以实现对生物序列的分类和判别。于是产生了特征提取和分类器一体的生物序列分类平台,如gkmSVM、iLearnPlus、Biological Seq-Analysis2.0。其中,gkmSVM较早地使用核方法对生物序列进行预测,其核方法选用了最常见的词频特征kmer,在两个特定的问题(特殊细胞类型中增强子的活性、变异与疾病关系预测)中取得了较好的效果,但gkmSVM仅采用了简单的kmer特征,在大多数问题上表现不尽如人意,且容易出现过拟合。iLearnPlus和Biological Seq-Analysis2.0为生物序列提供了相对丰富的特征提取方法以及分析方法,在生物序列分类研究中应用较广泛,优于传统的特征提取工具,然而,这些特征提取工具未考虑到序列结构信息,很容易丢失隐藏的序列信息。
(2)基于深度学习的方法不对序列进行特征提取,直接将序列编码输入到神经网络,通过训练调节神经网络的结构和参数,使得神经网络可以完成对训练样本的分类。最著名的应用便是AlphaFold2预测蛋白质三维结构,这也得益于冷冻电镜的出现,为人工智能积攒可供学习训练的三维结构样本。目前已有研究者研发了生物序列的深度学习分类平台,包括:Kipoi、Pysster、Selene、DNA-BERT。深度学习方法除了使用序列信息,通常还会融合其他信息,例如:DeepFunc和DeepGO在预测蛋白的功能时,还加入了蛋白质相互作用网络信息;DeepPSL在预测蛋白质亚细胞定位时,模型网络的输入选择了数值型的词频特征和理化特征。还有一类生物序列的预测问题是相互作用预测,包括蛋白质相互作用预测、DNA-蛋白质结合预测等。但是深度学习方法要求训练样本足够多,不能适应小样本问题,而大多数生物序列的结构、功能预测都属于小样本问题。
总结来说,现有技术的上述两种思路存在以下不足和缺点:
(1)到目前为止,相关研究只是将其他领域研发的算法直接应用于生物数据,还没有一种专门针对生物序列数据的普适性的算法或者框架;
(2)现有技术普遍没有有效利用生物序列特定的已知结构和先验知识,模型的参数化日益严重,模型的健壮性和可解释性较弱;
(3)现有的传统机器学习方法需要通过特征提取,而特征提取会丢失隐藏的序列信息,忽略潜在的规律信息和关联模式,并限制学习模型的精确度;
(4)现有的深度学习方法要求训练样本足够多,不能有效适应小样本问题,而大多数生物序列的结构、功能预测都属于小样本问题;
(5)以深度学习方法为代表,现有的方法在模型可解释性方面还存在诸多不足,不能进一步指导生物医学研究者挖掘序列深藏信息。
发明内容
本方案的目的是针对上述问题,提供一种生物序列集成分类器的构建方法及生物序列预测分类方法。针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出“序列核”、“结构核”和“功能核”,直接处理生物序列样本,避免了数值特征提取时造成的信息丢失与信息冗余。首先通过多序列比对技术构建序列核,通过表征生物序列之间的距离构建结构核,通过本体论的的标注,在树形结构上估算生物序列之间的距离来构建功能核;然后使用不同的多核学习方法求解核权重,使用多核融合技术融合序列核、功能核和结构核,基于序列核、结构核、功能核构建及训练相应的基分类器并集成为生物序列集成分类器,完成对生物序列的分类。
一种生物序列集成分类器的构建方法,该方法包括:
对M组训练样本的原始序列分别构建各组的序列核、结构核、功能核三种核矩阵;每组样本包括两条原始序列;可以以一个训练样本为参照样本,每组训练样本中均具有该参照样本;也可以两两组合训练样本得到M组训练样本,每个训练样本可以在多组样本组中;也可以每两个训练样本组成一组训练样本,每个训练样本只在一组样本中。
使用各组相应种类的核矩阵分别对基分类器1、基分类器2、基分类器3、基分类器4进行训练;
通过投票策略集合基分类器得到生物序列集成分类器。
S11.以原始序列样本为基础,通过氨基酸理化性质在原始序列样本之间寻找完全匹配区间;
S12.剩余部分为非匹配区间,对非匹配区间进行多序列比对;
上式中,代表序列样本发生了氨基酸的插入或删除事件,导致在多序列比对的过程中产生了插空;蛋白质由氨基酸残基组成,公式(1)中的表示蛋白质序列样本第个氨基酸残基,表示序列样本第个氨基酸残基;代表匹配函数,如果对应位置氨基酸相同则为,否则为;成本矩阵构建完成后,采用动态规划方法,从矩阵右下角寻找最低的成本路径,回溯到矩阵左上角,完成序列比对;
S21.将两条原始序列样本分别输入至AlphaFold2,获得预测的三维结构,分别保存至PDB文件;在此训练阶段,两条原始序列样本分别是同组内的两条训练样本序列,在后续的预测阶段,两条原始序列样本一条是待测样本序列,一条是训练样本序列。
S31.利用基因本体论中某两个节点的公共最低祖先计算基于边的节点相似度:
上式中,和分别是基因本体论的有向无环图中的两个节点;是节点和的最低公共祖先;是基因本体论的有向无环图中的根节点;代表节点和在基因本体论的有向无环图中的最长路径距离;代表了在基因本体论的有向无环图中节点和的相似度;
在上述的生物序列集成分类器的构建方法中,各基分类器采用如下优化函数进行训练:
,,上式中,表示训练样本的数量,分别表示对应第i个和第j个,和分别是第i个和第j个训练样本的标签;是训练样本与训练样本的核矩阵,分别表示第i个样本和第j个样本;通过使关于的拉格朗日对偶函数最小化解出,解出值便完成相应基分类器的训练;
构建得到的各基分类器的模型如下:
按照上述方法,可以通过不同的核矩阵训练不同的基分类器,将多个训练好的基分类器对同一个样本进行预测,对多个结果采取“少数服从多数”的投票集成策略,即可得到生物序列集成分类器的最终预测结果。
一种生物序列预测分类方法,该方法包括:
通过生物序列集成分类器的构建方法构建生物序列集成分类器;
融合每组待测样本和训练样本序列的序列核、结构核、功能核得到每组融合后的核矩阵-融合核。假如M*N=S,S表示每种核矩阵的数量,M表示训练样本的数量,N表示待测样本的数量,当待测样本只有一个时,有多少训练样本,每种核矩阵就有多少个。
生物序列集成分类器通过投票策略输出最终的预测类别。
本方案的优点在于:
1)提出了全新的生物序列分类方法,针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出使用序列核、结构核和功能核代替传统特征提取,直接处理生物序列样本,能够有效解决数值特征提取时造成的信息丢失和信息冗余问题;
2)本发明创新地提出使用多核线性加权融合方法和多核学习方法来融合序列核、结构核和功能核,可以免去参数优化过程,并提高模型对小样本的泛化性;
3)使用本方案提出的生物序列集成分类器只需要少量的样本就能够实现较好的训练效果,且通过序列、结构和功能三维层面以及多核融合核进行学习训练,有助于探索遗传元件的序列信号,挖掘隐藏的生物序列模式,也将为多个生物信息学分类问题提供解决方案。
附图说明
图1为本方案所提供生物序列集成分类器的构建方法流程图;
图2为本方案所提供生物序列集成分类器的多核学习的示意图;
图3为本方案利用MEMs的动态规划和传统动态规划计算开销的对比示意图;
图4为本方案所提供生物序列集成分类器的构建方法及生物序列预测分类方法中构建结构核过程的示意图;
图5为本方案所提供生物序列集成分类器的构建方法及生物序列预测分类方法中序列数据的多核融合框架的示意图。
具体实施方式
下面结合附图和具体实施方式对本方案做进一步详细的说明。
本方案给出了一种生物序列集成分类器的构建方法及生物序列预测分类方法,受启发于普通的支持向量机,针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出“序列核”、“结构核”和“功能核”,直接处理生物序列样本,避免了数值特征提取时造成的信息丢失与信息冗余。如图1和图2所示,该方法首先通过多序列比对技术构建序列核,通过表征生物序列之间的距离构建结构核,通过本体论的的标注,在树形结构上估算生物序列之间的距离来构建功能核;然后使用不同的多核学习方法求解核权重,使用多核融合技术融合序列核、功能核和结构核;训练针对各核矩阵的多个基分类器,采用集成策略得到生物序列集成分类器,完成对生物序列的分类。图1所示的集成分类器即这里的生物序列集成分类器。
S1.将训练样本每两个一组两两组合得到M组训练样本,每个训练样本同时在多组样本组中;
S4.使用各组相应种类的核矩阵分别对基分类器1、基分类器2、基分类器3、基分类器4进行训练;
S5.通过投票策略集合基分类器得到生物序列集成分类器;
S6.将待测样本输入训练好的生物序列集成分类器,得到分类结果,完成对生物序列的分类。
具体地,步骤S2可以具体分为以下步骤:
S2-1.以原始蛋白质序列样本为基础,通过氨基酸理化性质在两条蛋白质序列寻找完全匹配区间(maximal exact matches, MEMs),剩余部分为非匹配区间,对非匹配区间进行多序列比对,通过史密斯-沃特曼算法(Smith-Waterman, SW)求得SW评分,经过归一化来构建序列核,其具体过程如下:
根据先验知识,氨基酸的理化性质被生物学家分为8种,分别是带电极性、疏水性、极化率、表面张力、二级结构、可溶性、储电性和范式体积。以带电极性为例,蛋白质有20种氨基酸,20氨基酸被分为高、中、低三组,分别用、和表示,则通过带电极性这一理化性质,可以将20种氨基酸分为三组,从而求解蛋白质序列的完全匹配区间(maximal exactmatches, MEMs)。通过前述类似方式对每一种氨基酸基于理化性质进行分组并分别求解完全匹配区间,然后将8个结果进行整合,如选择重叠部分作为完全匹配区间。
上式中,代表蛋白质序列发生了氨基酸的插入或删除事件,导致在多序列比对的过程中产生了插空,在本实施例中,g被设置为-2;蛋白质由氨基酸残基组成,公式(1)中的表示蛋白质序列样本第个氨基酸残基;代表匹配函数,如果对应位置氨基酸相同则为,否则为,在本实施例,和的值分别被设置为1和-1。
成本矩阵c构建完成后,采用动态规划方法,从矩阵右下角寻找最低的成本路径,回溯到矩阵左上角,完成序列比对。如图3所示,两个相似的序列得到的最佳比对,其回溯路径一般在主对角线附近。所以在本方案中,不需要对整个矩阵进行填充和计算,只需要对主对角线附近的区域进行计算,这个区域便称为k-band,k-band算法的时间和空间复杂度降为O(kn)。
S2-2.以原始蛋白质序列样本为基础,使用AlphaFold2来预测蛋白质的三维结构,得到PDB文件,将PDB文件输入到TM-align计算TM-score来构建结构核,如图4所示,其具体过程如下:
AlphaFold2是一个用于预测蛋白质三维结构的模型,该模型结合了生物、物理和神经网络的知识,该模型大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电镜等复杂仪器观察预测的水平。
将原始蛋白质序列输入到AlphaFold2中获得预测的蛋白质三维结构,保存至PDB文件中。然后将两个不同的蛋白质序列和对应的PDB文件输入到TM-align软件中获得上述两条蛋白质序列的模板建模得分,蛋白质结构核的计算公式如下所示:
S2-3.以原始蛋白质序列样本为基础,使用interpro数据库获得基因本体论(GeneOntology, GO)中的ID,并将ID对应到有向无环图中,通过度量有向无环图中的节点距离来构建功能核,其具体过程如下:
基因本体论是建立一套特定的词汇集合来描述生物序列的生物学功能,以此对基因功能注释统一化。目前生物学家依据生物序列的功能,已经分类建立了三大独立的本体论词汇表,也被称作三个域,分别是,
(1)生物过程(biological process, bp),主要描述通过多种分子活动完成的生物学过程,例如氧化磷酸化、蛋白质跨膜转运等;
(2)细胞组分(cellular component, cc),主要描述基因产物在执行功能时所处的细胞结构位置,例如线粒体基值、细胞质基值等;
(3)分子功能(molecular function, mf),主要描述单个的基因产物或多个基因产物的复合物在分子水平上的活动,例如蛋白激酶活性、氧化还原酶活性等。
将原始蛋白质序列输入至interpro数据库中,获得该蛋白质序列的在基因本体论中的基因本体论ID,ID是基因本体论中的唯一标识符,代表了有向无环图中的一个节点。一个原始蛋白质序列在生物过程、细胞组分和分子功能的三个域中可能具有一个或多个基因本体论ID,对应有向无环图中的一个或多个节点。
首先利用基因本体论中某两个节点的公共最低祖先(lowest common ancestor,lca)来计算基于边的节点相似度,公式如下所示:
上式中,和分别是基因本体论的有向无环图中的两个节点;是节点和的最低公共祖先;是基因本体论的有向无环图中的根节点;代表节点和在基因本体论的有向无环图中的最长路径距离;代表了在基因本体论的有向无环图中节点和的相似度。
进一步地,如图5所示,步骤S3可以具体分为以下步骤:
使用多核线性加权融合方法来融合序列核、结构核和功能核。使用线性加权方法的公式如下所示:
为了使用多核线性加权融合方法来融合序列核、结构核和功能核,需要通过多核学习来计算得到各个核的权重,即行向量。本实施例中,使基于最大化平均相似性的无监督多核学习和基于希尔伯特-施密特独立性准则的有监督多核学习两种用的多核学习方法。
首先计算矩阵之间的余弦相似度:
上式中,被称为费罗贝尼乌斯内积;被称为费罗贝尼乌斯范数。使用上式对每个核矩阵之间求得余弦相似度,并保存在矩阵中;基于最大化平均相似性的无监督多核学习最大化目标核与其他所有核的平均比对得分,公式如下所示:
希尔伯特-施密特独立性准则(Hilbert-Schmidt Independence Criterion,HSIC)是一种基于核的独立性度量方法。该方法总的原则是在再生核希尔伯特空间上定义互协方差算子,从这些算子中推出度量独立性的统计量来决定独立性的大小。假设为特征集的再生核希尔伯特空间,映射标记为,核函数为,类似的标签在再生核希尔伯特空间记为,由标签到映射为,相应的核函数为。
进一步地,步骤S4可以具体分为以下步骤:
在步骤S5之前,已经得到了度量蛋白质序列之间相似度的序列核、结构核和功能核,以及使用基于最大化平均相似性的无监督多核学习得到的融合后核,和使用基于希尔伯特-施密特独立性准则的有监督多核学习得到的融合后核。
各基分类器优化函数如下所示:
在上式中,表示训练样本的数量,和是训练样本的标签,在训练过程中是已知的,分别表示对应第i个和第j个;是核矩阵,已经在步骤S2和步骤S3中求得;故在训练过程中,欲使分类间隔最大化,只需要让其拉格朗日对偶函数最小化即可,且需要满足训练样本可以正确分类,拉格朗日对偶函数就是一个关于的函数,让其最小化只需要让其导数为0,从而解出,计算出便完成了训练过程。公式(18)描述了一个优化问题,都是已知的,求解优化问题就可以得到。
在步骤S2和步骤S3中,构建了5个不同核矩阵,则可以计算得出五组的值,那么便得到了5个不同的分类器,这些分类器被称作基分类器,它们分别进行训练;然后采用投票策略组合基模型,使用“少数服从多数”的原则,即取出现次数最多标签作为集成分类器的最终预测标签。
进一步地,步骤S6可以具体分为以下步骤:
基模型预测时,求解预测类别的公式如下所示:
在上式中,表示训练样本数量,是训练样本的标签,是已知的;已经在训练过程中被求解出来,表示一组值,一组中共有个值,求解优化问题得到的一组值共同完成基分类器的训练。是预测样本和训练样本的核距离;表示阶跃函数,其中的公式如下所示:
通过不同的核矩阵使用公式(11)训练不同的基分类器,每个基分类器通过训练求解出后得到对应的公式(19)所示的预测模型,每个基分类器的预测模型分别对待测样本进行预测,对多个结果采取“少数服从多数”的投票集成策略,即可得到集成分类器的最终预测结果。
本方案提出的全新的生物序列分类方法创新地提出使用序列核、结构核和功能核代替传统特征提取,并通过多核线性加权融合方法和多核学习方法来融合上述核。新的序列核、结构核和功能核代替传统距离计算的方法,避免了特征提取时造成的信息丢失和信息冗余问题;多核线性加权融合方法,以及基于最大化平均相似性的无监督多核学习方法和基于希尔伯特-施密特独立性准则的有监督多核学习方法来融合序列核、结构核和功能核,能够免去参数优化过程,并提高模型对小样本的泛化。使用本方案提出的生物序列集成分类器,或者说支持生物序列机只需要少量的样本就能够实现较好的训练效果,且通过序列、结构和功能三维层面以及多核融合核进行学习训练,有助于探索遗传元件的序列信号,挖掘隐藏的生物序列模式,也将为多个生物信息学分类问题提供解决方案,包括:蛋白质结构预测、特殊蛋白质的识别等。同时,生物序列距离计算对宏基因组数据分析、进化树构建、单细胞聚类等问题也具有指导意义;有助于人工分子设计、生物大分子定向演化和开发高效环保的生物催化产品。
本文中所描述的具体实施例仅仅是对本方案精神作举例说明。本方案所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本方案的精神或者超越所附权利要求书所定义的范围。
Claims (10)
上式中,代表序列样本发生了氨基酸的插入或删除事件,导致在多序列比对的过程中产生了插空;公式(1)中的表示蛋白质序列样本第个氨基酸残基,表示序列样本第个氨基酸残基;代表匹配函数,如果对应位置氨基酸相同则为,否则为;成本矩阵构建完成后,采用动态规划方法,从矩阵右下角寻找最低的成本路径,回溯到矩阵左上角,完成序列比对;
S31.利用基因本体论中某两个节点的公共最低祖先计算基于边的节点相似度:
上式中,和分别是基因本体论的有向无环图中的两个节点;是节点和的最低公共祖先;是基因本体论的有向无环图中的根节点;代表节点和在基因本体论的有向无环图中的最长路径距离;代表了在基因本体论的有向无环图中节点和的相似度;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310249336.0A CN116343915B (zh) | 2023-03-15 | 2023-03-15 | 生物序列集成分类器的构建方法及生物序列预测分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310249336.0A CN116343915B (zh) | 2023-03-15 | 2023-03-15 | 生物序列集成分类器的构建方法及生物序列预测分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116343915A true CN116343915A (zh) | 2023-06-27 |
CN116343915B CN116343915B (zh) | 2023-11-24 |
Family
ID=86878369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310249336.0A Active CN116343915B (zh) | 2023-03-15 | 2023-03-15 | 生物序列集成分类器的构建方法及生物序列预测分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343915B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953973A (zh) * | 2024-03-21 | 2024-04-30 | 电子科技大学长三角研究院(衢州) | 基于序列同源性的特定生物序列预测方法及其系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020643A (zh) * | 2012-11-30 | 2013-04-03 | 武汉大学 | 基于提取核特征早期预测多变量时间序列类别的分类方法 |
US20140129152A1 (en) * | 2012-08-29 | 2014-05-08 | Michael Beer | Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features |
CN104751182A (zh) * | 2015-04-02 | 2015-07-01 | 中国人民解放军空军工程大学 | 基于ddag的svm多类分类主动学习算法 |
CN108510521A (zh) * | 2018-02-27 | 2018-09-07 | 南京邮电大学 | 一种多特征融合的尺度自适应目标跟踪方法 |
CN109034263A (zh) * | 2018-08-15 | 2018-12-18 | 东北大学 | 脑网络多频融合图核的阿尔茨海默病辅助诊断装置及方法 |
US20190284636A1 (en) * | 2016-10-26 | 2019-09-19 | Brown University | A method to measure myeloid suppressor cells for diagnosis and prognosis of cancer |
CN110991500A (zh) * | 2019-11-19 | 2020-04-10 | 天津师范大学 | 一种基于嵌套式集成深度支持向量机的小样本多分类方法 |
CN111599409A (zh) * | 2020-05-20 | 2020-08-28 | 电子科技大学 | 基于MapReduce并行的circRNA识别方法 |
CN113362898A (zh) * | 2021-03-17 | 2021-09-07 | 天津大学 | 一种融合多种序列频率信息识别rna亚细胞定位方法 |
CN113724790A (zh) * | 2021-09-07 | 2021-11-30 | 湖南大学 | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 |
CN114627964A (zh) * | 2021-09-13 | 2022-06-14 | 东北林业大学 | 一种基于多核学习预测增强子及其强度分类方法及分类设备 |
-
2023
- 2023-03-15 CN CN202310249336.0A patent/CN116343915B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140129152A1 (en) * | 2012-08-29 | 2014-05-08 | Michael Beer | Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features |
CN103020643A (zh) * | 2012-11-30 | 2013-04-03 | 武汉大学 | 基于提取核特征早期预测多变量时间序列类别的分类方法 |
CN104751182A (zh) * | 2015-04-02 | 2015-07-01 | 中国人民解放军空军工程大学 | 基于ddag的svm多类分类主动学习算法 |
US20190284636A1 (en) * | 2016-10-26 | 2019-09-19 | Brown University | A method to measure myeloid suppressor cells for diagnosis and prognosis of cancer |
CN108510521A (zh) * | 2018-02-27 | 2018-09-07 | 南京邮电大学 | 一种多特征融合的尺度自适应目标跟踪方法 |
CN109034263A (zh) * | 2018-08-15 | 2018-12-18 | 东北大学 | 脑网络多频融合图核的阿尔茨海默病辅助诊断装置及方法 |
CN110991500A (zh) * | 2019-11-19 | 2020-04-10 | 天津师范大学 | 一种基于嵌套式集成深度支持向量机的小样本多分类方法 |
CN111599409A (zh) * | 2020-05-20 | 2020-08-28 | 电子科技大学 | 基于MapReduce并行的circRNA识别方法 |
CN113362898A (zh) * | 2021-03-17 | 2021-09-07 | 天津大学 | 一种融合多种序列频率信息识别rna亚细胞定位方法 |
CN113724790A (zh) * | 2021-09-07 | 2021-11-30 | 湖南大学 | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 |
CN114627964A (zh) * | 2021-09-13 | 2022-06-14 | 东北林业大学 | 一种基于多核学习预测增强子及其强度分类方法及分类设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953973A (zh) * | 2024-03-21 | 2024-04-30 | 电子科技大学长三角研究院(衢州) | 基于序列同源性的特定生物序列预测方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116343915B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103548041B (zh) | 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序 | |
CN104156634B (zh) | 基于亚细胞定位特异性的关键蛋白质识别方法 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN110957002A (zh) | 一种基于协同矩阵分解的药物靶点相互作用关系预测方法 | |
CN113362888A (zh) | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN107885971B (zh) | 采用改进花授粉算法识别关键蛋白质的方法 | |
CN116343915B (zh) | 生物序列集成分类器的构建方法及生物序列预测分类方法 | |
Romero-Zaliz et al. | A multiobjective evolutionary conceptual clustering methodology for gene annotation within structural databases: a case of study on the gene ontology database | |
Lu et al. | A novel feature selection method based on CFS in cancer recognition | |
Ibrahim et al. | Extracting features from protein sequences to improve deep extreme learning machine for protein fold recognition | |
CN113421658A (zh) | 基于近邻注意力网络的“药物-靶标”相互作用预测方法 | |
CN112270950A (zh) | 一种基于网络增强和图正则的融合网络药物靶标关系预测方法 | |
CN115472221A (zh) | 一种基于深度学习的蛋白质适应度预测方法 | |
CN118038995B (zh) | 非编码rna中小开放阅读窗编码多肽能力预测方法及系统 | |
Sottosanti et al. | Co-clustering of spatially resolved transcriptomic data | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
CN113837293B (zh) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 | |
CN113420821A (zh) | 一种基于标记和特征局部相关性的多标记学习方法 | |
CN114357869A (zh) | 一种基于数据关系学习和预测的多目标优化代理模型设计方法及系统 | |
Yaman et al. | MachineTFBS: Motif-based method to predict transcription factor binding sites with first-best models from machine learning library | |
Saha et al. | Unsupervised and supervised learning approaches together for microarray analysis | |
Galanakis et al. | Nearest Neighbor-Based Data Denoising for Deep Metric Learning | |
Vipsita et al. | Protein superfamily classification using adaptive evolutionary radial basis function network | |
Singh et al. | Classification of non-coding rna-a review from machine learning perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |