CN108595909A - 基于集成分类器的ta蛋白靶向预测方法 - Google Patents

基于集成分类器的ta蛋白靶向预测方法 Download PDF

Info

Publication number
CN108595909A
CN108595909A CN201810273087.8A CN201810273087A CN108595909A CN 108595909 A CN108595909 A CN 108595909A CN 201810273087 A CN201810273087 A CN 201810273087A CN 108595909 A CN108595909 A CN 108595909A
Authority
CN
China
Prior art keywords
classification
targeting proteins
integrated classifier
methods based
bayes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810273087.8A
Other languages
English (en)
Inventor
刘弘
何演林
马长乐
赵丹丹
陆佃杰
吕晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201810273087.8A priority Critical patent/CN108595909A/zh
Publication of CN108595909A publication Critical patent/CN108595909A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于集成分类器的TA蛋白靶向方法,包括:采用PSSM方法对蛋白质数据进行编码;融合了一种Bayes的特征提取方法来提取蛋白质序列特征;采用mRMR算法对蛋白质数据进行特征选择;用支持向量机去训练模型,在训练过程中基于网格方式对参数γ和惩罚系数C进行优化;最后,集成SVM、NB、RF、Logist、KNN五种弱分类器对TA蛋白在亚细胞器靶向的分类结果,通过投票方式得出最终的分类结果;本发明有益效果:融合了一种Bayes的特征提取方法来提取蛋白质序列特征,通过集成多种算法的分类结果,可以更好的预测TA蛋白在亚细胞器的靶向。

Description

基于集成分类器的TA蛋白靶向预测方法
技术领域
本发明属于生物信息领域,尤其涉及了基于集成分类器的TA蛋白靶向预测 方法。
背景内容
末端锚定蛋白质(tail-anchored proteins,TA蛋白质)是一类特殊的膜蛋白, 存在于所有生物中。此类蛋白质通过位于C端的唯一疏水跨膜结构域锚定在多 种细胞器膜上,参与细胞多种重要的生理生化反应,但是至今人们对TA蛋白所 涉及的机制和信号尚未完全了解。蛋白质靶向定位过程之一是将蛋白质插入生物 膜中,而膜蛋白的有效和准确的插入是保证其在不同细胞器中正常功能的重要步 骤,并且任何靶向误差可能导致这些蛋白质的错误定位,而不利于细胞效应。因 此,TA蛋白靶向的预测具有重要的意义。
TA蛋白质在C末端具有单个跨膜结构域(TMD),将其锚定在细胞膜上, 并将其N末端结构区域暴露在细胞溶液中。研究发现,这类蛋白在细胞分裂、 凋亡、脂质运输等过程起到关键性的作用。因此,其正确的靶向定位对于细胞和 生物体是至关重要的。TA蛋白质的TMD仅在翻译终止后才从核糖体中出现, TA蛋白在三个亚细胞位点进入细胞膜系统:内质网(ER),线粒体和过氧化物 酶体。在哺乳动物中,TRC40复合物参与将TA蛋白质插入到ER中。过氧化物 酶体和线粒体的蛋白质插入机制上不明确。
TA蛋白质的靶向信息包含在C末端,并且研究中已经确定TMD的疏水性 和电荷量的存在是蛋白质选择靶向的重要因素。一般来说,ER靶向的TA蛋白 往往具有比线粒体的那些TA蛋白更具有疏水性,这其中包含TMD的非带电区 域。实验中证明,尾部的电荷量对于过氧化物酶体靶向也是很重要的。此外,TA 蛋白在哺乳动物细胞中过氧化物酶体和线粒体的靶向研究中,揭示了细胞器相互 作用和新型过氧化物酶体功能之间的关系。并且在后续研究中发现,这两种靶向 定位错误与细胞疾病存在关系。而且过氧化物酶体在脂质代谢中发挥重要的代谢 功能,并且影响神经元的发育和衰老。
虽然生物信息学在TA蛋白在亚细胞器靶向已经有相关成果,但目前仍然缺 乏更广泛深入的研究。
发明内容
本发明的主要目的是提供一种基于集成分类器的TA蛋白靶向预测方法。
在研究拟南芥植物TA蛋白中,本发明技术人员发现疏水性、电荷量、序列 和序列长度这些参数的变化,对TA蛋白定位都会产生影响。通过调整特征参数, 可以得出更准确的模型,本发明技术人员发现植物与中疏水性比电荷量更能影响 TA蛋白的定位。我们通过blast序列产生的PSSM矩阵信息进行编码,利用基于 互信息的最大相关最小冗余mRMR对TA蛋白序列特征进行选择,利用Bayes 算法进行特征提取,并采用对五中分类器结果集成分类,通过投票方式,实现 TA蛋白的靶向预测。
为实现上述目的,本发明采用以下技术方案:
本发明主要目的是一种基于集成分类器的TA蛋白靶向预测方法,所述方法 包括以下步骤:
(1)通过对TA蛋白质blast序列产生的PSSM矩阵信息编码;
PSSM(position-specific weight matrix)被称作位置权重矩阵,是提取蛋白质序 列编码的一个常用算法。一个PWM包含N行(列),当模型为蛋白质时,组成蛋 白质的基本氨基酸有二十种,故行列式有二十行(列),N=20。同时PWM每个不 同位置都对应一列(行)数据。首先,构建位置频度矩阵(PFM)。在构建PWM 的第一步中,通过计算每个位置处每个核苷酸的出现来创建基本位置频率矩阵 (PFM)。从PFM中,现在可以通过将每个位置的前核苷酸计数除以序列数目 来产生位置概率矩阵(PPM),由此使这些值正常化。形式上,给定长度l的N 个对齐序列的集合X,PPM M的元素计算如下:
通过计算PPM矩阵中各元素的对数似然值,可得出PSSM矩阵,计算如下:
Mk,j=log2(Mk,j/bk)
通过上述方法,可以产生PSSM矩阵信息,实现了对TA蛋白质序列的编码。
(2)特征提取:
利用基于互信息的最大相关最小冗余mRMR的特征选择算法对数据库中多 关系进行特征选择,在每个关系表中都选择出对分类帮助最大的特征子集,根据 贝叶斯方法,求出每个氨基酸在每个(正例或负例)位置发生的概率;
(3)对提取得到的不同特征值进行归一化处理;
(4)利用训练学习后的集成模型进行分类,采用投票的方式选择出最终的 分类结果。
通过对分类器的分类结果进行某种组合来决定最终的分类,可以取得比单个 分类器更好的性能。本发明中根据SVM、NB、RF、Logist、KNN五类中分类器 的分类结果,采用简单投票和贝叶斯投票的方式选择出最终的分类结果。
1)简单投票
投票法的基本思想是多个基本分类器都进行分类预测,然后根据分类结果用 某种投票的原则进行投票表决,按照投票原则的不同投票法可以有一票否决、 一致表决、少数服从多数、阈值表决等等。一票否决的思想是当且仅当所有的 分类器都把实例划分到类的时候才把划分到,否则拒绝这个实例;一致表决的思 想是没有分类器反对把划分到的时候就把划分到;少数服从多数顾名思义就是当 让各个基本分类器进行投票(加权或者不加权),得票数多的那个分类作为对 应实例的最终分类;阈值表决是首先统计出把实例划分为和不划分为的分类器 数目分别是多少,然后当这两者比例超过某个阈值的时候把划分到。此外,对于 连续目标值的分类问题,还可以采用平均取值、加权求和、中位数、最大值等等 方式进行整合。
2)贝叶斯投票
简单投票法假设每个基本分类器都是平等的,没有分类能力之间的差别,但 是这种假设并不总是合适的,在实际生活中,我们听取一个人的意见的时候会 考虑到这个人过去的意见是否有用,贝叶斯投票法就是基于这种思想来提出的。 贝叶斯投票法是基于每一个基本分类器在过去的分类表现来设定一个权值,然后 按照这个权值进行投票,其中每个基本分类器的权值基于贝叶斯定理来进行计算。 虽然理论上贝叶斯投票法在假设空间所有假设的先验概率都正确的情况下能够 获得最优的集成效果,但是实际应用中往往不可能穷举整个假设空间,也不可能 准确地给每个假设分配先验概率,从而使得在实际使用中其他集成方法也会优于 贝叶斯投票法。
与现有技术相比,本发明具有以下优势:
(1)数据量问题学习的过程可以看作是在一个假设空间H中寻找一个最优 的假设,如果训练集的数据量特别小的时候,由于训练数据不充分,可以学习到 很多不同的假设,而这些假设在训练集上的正确率确是相同的,此时就很难抉择 哪个假设在测试集上会得到好的结果了。本发明通过集成这些假设就可以减少选 错分类器的风险。
(2)计算问题很多学习算法都会遇到局部最优的这种状况,例如,神经网 络是通过梯度下降来最小化错误率的,决策树算法是通过贪婪分裂的规则去扩展 决策树的,假如训练集是足够充足的,学习算法也很难得到全局最优解的。本发 明通过把从不同起始点得到的分类器集成的方法可以更好的靠近全局最优解。
(3)假设描述问题大部分的应用中,机器学习算法很难用假设空间H中的 假设去表达真实函数f;本发明通过对假设空间H中的假设进行加权进而扩展假 设空间H的规模或许能够表示真实函数f。
本发明集成分类器能解决单个分类器的训练数据量小,假设空间小,局部最 优的三个问题,因此,集成分类器的预测能力会优于单个分类器的预测能力。
附图说明
图1为基于集成分类器的TA蛋白靶向方法的流程图。
图2为支持向量机分类结果。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。 除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普 通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限 制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出, 否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使 用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、部件和/或它们的 组合。
本发明的目的在于:提供一种基于集成分类器的TA蛋白靶向预测方法。, 所述方法包括以下步骤:
(1)通过对TA蛋白质blast序列产生的PSSM矩阵信息编码;
(2)Bayes特征提取:利用基于互信息的最大相关最小冗余mRMR的特征 选择算法对数据库中多关系进行特征选择,在每个关系表中都选择出对分类帮助 最大的特征子集,根据贝叶斯方法,求出每个氨基酸在每个(正例或负例)位置 发生的概率;
蛋白质亚细胞定位预测可以看作一个多标签分类问题,利用本发明Bayes特 征提取方法,可有效提取对分类影响较好的特征集,从而大大提高分类效果。
(3)对提取得到的不同特征特征值进行归一化处理,使所有值都落入相同 的数字取值区间内;归一化处理可以加快梯度下降求最优解的速度,同时还可提 高算法预测能力,在本发明中所用算法KNN中,如果不进行归一化,那么在进 行距离计算中就主要取决于特征值域大的,但是实际情况是值域范围小的特征也 非常重要。
(4)利用训练学习后的集成模型进行分类,采用投票的方式选择出最终的 分类结果。
进一步,所述步骤(1)中,位置频率(P)矩阵为:
N=20,i为行号,j为列号,即:i∈(1,2,…,N),j∈(1,2,…,N),且i是指示函数;
PSSM中的元素对数似然值为:
Mk,j=log2(Mk,j/bk)
进一步,所述步骤(2)朴素贝叶斯分类:先验概率:S=s1,s2,...,sn表示缩氨酸序列,s表示氨基酸。假设有两类样本,用C1和C-1表示:
表示在m条序列中氨基酸的概率,其中,表示所有正负样例中位置i的序列 A发生的概率;
c1和c-1分别表示数据的标签,则根据贝叶斯方法:
P(c1)和P(c-1)分别表示每个类别的先验概率,假设s之间相互独立,则:
进一步,所述步骤(3)中,采用如下公式归一化所有特征:
其中,x,xmin,xmax分别表示输入数据值,特征向量中的最小值、最大值; x'表示在归一化处理后的输出值;如果某个特征向量中的一些数值xmax-xmin=0,将其取值设定为0。
进一步,所述步骤(4)中集成模型由SVM、NB、RF、Logist、KNN五种 弱分类器构成。在蛋白质亚细胞定位预测中,为了提高预测的准确率,在充分提 取有效特征的同时,建立合理的多标签分类模型也是极为重要的。
SVM对于高维的小样本训练数据亦可以得到全局最优点,并且在整个样本 空间的期望风险以某个概率满足一定上界。朴素贝叶斯模型发源于古典数学理论, 有稳定的分类效率;对小规模的数据表现很好,能够处理多分类任务;随机森林 (RF)能够收敛于更小的泛化误差,且对于不平衡的数据,还具有平衡误差的 功能;logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,在 相同的条件下logistic线性模型的稳定要优于非线性模型;K最近邻(kNN, k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一,特别适合 于多分类问题。本发明将所述五类弱分类器集成,大大提高了预测的准确性。
进一步,所述SVM分类选择径向基核函数:
K(Si,Sj)=exp(-γ||Si-Sj||2)
其中,Si,为原空间的样例,Sj为映射后空间的样例,在训练分类过程中,基 于网格方式对参数γ和惩罚系数C进行优化。
进一步,所述步骤(4)中,基本分类器的整合方式有两个层次:抽象层次 和排位层次;所述抽象层次:每个基本分类器只提供一个目标分类或者目标分类 子集;所述排位层次:每个基本分类器提供一个可能的目标分类列表,其中的目 标分类按照可能性大小排列。
进一步,所述步骤(4)中,投票法的基本思想是多个基本分类器都进行分 类预测,然后根据分类结果用简单投票和/或贝叶斯投票的原则进行投票表决。
为了使得本领域技术人员能够更加清楚地了解本发明的技术方案,以下将结 合具体的实施例详细说明本发明的技术方案。
实施例1
(1)数据收集
为了保证实验数据的准确性,实验用到的每条数据都至少有一篇或者多篇以 上发表的论文中,证明TA蛋白在亚细胞器的靶向定位。
(2)构建PSSM
PSSM算法是生物信息学领域中的一个常用算法,模型为蛋白质时,N=20。 故组成蛋白质的基本氨基酸有二十种,故行列式有二十行。同时PWM对于每个 不同位置都对应一列(行)数据。首先,构建位置频度矩阵(PFM),计算出每一 列中的各核苷酸的数量,然后存入矩阵的相应位置。通过PFM求出位置频率(P) 矩阵:
其中,i为行号,j为列号,即:i∈(1,2,…,N),j∈(1,2,…,N),且i是指示函数。
通常,PWM中的元素被计算为对数似然值:
Mk,j=log2(Mk,j/bk)(2)
通过上述方法,我们分别构建出PSSM、PSSM_AC、PSSM_SMTH编码方式。
(3)Bayes特征提取
S=s1,s2,...,sn表示缩氨酸序列,s表示氨基酸。假设有两类样本,用C1和C-1表示。
则先验概率:
表示在m条序列中氨基酸的概率,其中,f(Ai)表示所有正负样例中位置i 的序列A发生的概率。
根据贝叶斯方法:
其中P(c1)和P(c-1)分别表示每个类别的先验概率,假设s之间相互独立,则:
我们采用上述Bayes特征提取的方法融合已知类别信息进行特征向量的构 建,然后用这些特征训练出能预测TA蛋白在亚细胞器靶向的分类器。
(4)归一化处理
在特征提取之后,我们发现一些特征的取值在0到1之间,我们发现有些值 在一个更大的范围内。然而,相比于取值较小的特征那些较大值的特征可能对预 测产生更大的影响。因此,为了提高预测的精确度,我们对不同的特征进行归一 化处理,使所有值都落入相同的数字取值区间内。在本发明中,我们将所有特征 值归一到[0,1],如表1所示。
表1 TA蛋白数据归一化
(5)SVM实现和参数优化
以二分类为例,采用SVM进行分类。本发明中我们选择径向基核函数:
K(Si,Sj)=exp(-γ||Si-Sj||2)(8)
在分类过程中,基于网格方式对参数γ和惩罚系数C进行优化。
(6)集成模型
集成模型由SVM、NB、RF、Logist、KNN五种弱分类器构成。其中每个模 型单独进行训练。把这五种单个分类器集成起来,我们根据多个分类器的分类结 果,采用投票的方式选择出最终的分类结果,可以取得比单个分类器更好的性能。 最后,通过以上步骤我们可以实现对植物TA蛋白在亚细胞器的靶向预测。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域 技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护 范围以内。

Claims (10)

1.基于集成分类器的TA蛋白靶向方法,其特征在于,包括以下步骤:
(1)通过对蛋白质blast序列产生的PSSM矩阵信息编码;
(2)Bayes特征提取:利用基于互信息的最大相关最小冗余mRMR的特征选择算法对数据库中多关系进行特征选择,在每个关系表中都选择出对分类帮助最大的特征子集,根据贝叶斯方法,求出每个氨基酸在每个位置发生的概率;
(3)对提取得到的不同特征特征值进行归一化处理,使所有值都落入相同的数字取值区间内;
(4)利用训练学习后的集成模型进行分类,采用投票的方式选择出最终的分类结果。
2.如权利要求1所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(1)中,位置频率(P)矩阵为:
N=20,i为行号,j为列号,即:i∈(1,2,…,N),j∈(1,2,…,N),且i是指示函数。
3.如权利要求1或2所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(1)中,
PSSM中的元素对数似然值为:
Mk,j=log2(Mk,j/bk)
4.如权利要求1所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(2)Bayes特征提取:先验概率:S=s1,s2,...,sn表示缩氨酸序列,s表示氨基酸。假设有两类样本,用C1和C-1表示:
表示在m条序列中氨基酸的概率,其中,表示所有正负样例中位置i的序列A发生的概率;
c1和c-1分别表示数据的标签,则根据贝叶斯方法:
5.如权利要求3所述的基于集成分类器的TA蛋白靶向方法,其特征在于,
P(c1)和P(c-1)分别表示每个类别的先验概率,假设s之间相互独立,则:
6.如权利要求1所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(3)中,采用如下公式归一化所有特征:
其中,x,xmin,xmax分别表示输入数据值,特征向量中的最小值、最大值;x'表示在归一化处理后的输出值;如果某个特征向量中的一些数值xmax-xmin=0,将其取值设定为0。
7.如权利要求1所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(4)中集成模型由SVM、NB、RF、Logist、KNN五种弱分类器构成。
8.根据权利要求5所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述SVM分类选择径向基核函数:
K(Si,Sj)=exp(-γ||Si-Sj||2)
其中,Si,为原空间的样例,Sj为映射后空间的样例,在训练分类过程中,基于网格方式对参数γ和惩罚系数C进行优化。
9.如权利要求1所述基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(4)中,基本分类器的整合方式有两个层次:抽象层次和排位层次;所述抽象层次:每个基本分类器只提供一个目标分类或者目标分类子集;所述排位层次:每个基本分类器提供一个可能的目标分类列表,其中的目标分类按照可能性大小排列。
10.如权利要求1所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(4)中,投票法的基本思想是多个基本分类器都进行分类预测,然后根据分类结果用简单投票和/或贝叶斯投票的原则进行投票表决。
CN201810273087.8A 2018-03-29 2018-03-29 基于集成分类器的ta蛋白靶向预测方法 Pending CN108595909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810273087.8A CN108595909A (zh) 2018-03-29 2018-03-29 基于集成分类器的ta蛋白靶向预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810273087.8A CN108595909A (zh) 2018-03-29 2018-03-29 基于集成分类器的ta蛋白靶向预测方法

Publications (1)

Publication Number Publication Date
CN108595909A true CN108595909A (zh) 2018-09-28

Family

ID=63624948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810273087.8A Pending CN108595909A (zh) 2018-03-29 2018-03-29 基于集成分类器的ta蛋白靶向预测方法

Country Status (1)

Country Link
CN (1) CN108595909A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448787A (zh) * 2018-10-12 2019-03-08 云南大学 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN109801675A (zh) * 2018-12-26 2019-05-24 东软集团股份有限公司 一种确定蛋白质脂质功能的方法、装置和设备
CN111328419A (zh) * 2018-10-15 2020-06-23 因美纳有限公司 基于深度学习的深度卷积神经网络预训练技术
CN112201300A (zh) * 2020-10-23 2021-01-08 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101689220A (zh) * 2007-04-05 2010-03-31 奥利安实验室有限公司 用于治疗、诊断和预测医学病症发生的系统和方法
CN103324933A (zh) * 2013-06-08 2013-09-25 南京理工大学常熟研究院有限公司 基于复空间多视角特征融合的膜蛋白亚细胞位置定位方法
CN104268577A (zh) * 2014-06-27 2015-01-07 大连理工大学 一种基于惯性传感器的人体行为识别方法
CN105046106A (zh) * 2015-07-14 2015-11-11 南京农业大学 一种用最近邻检索实现的蛋白质亚细胞定位预测方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN106909807A (zh) * 2017-02-14 2017-06-30 同济大学 一种基于多元数据预测药物靶向蛋白互作的预测方法
US20180039732A1 (en) * 2016-08-03 2018-02-08 Nantomics, Llc Dasatinib response prediction models and methods therefor

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101689220A (zh) * 2007-04-05 2010-03-31 奥利安实验室有限公司 用于治疗、诊断和预测医学病症发生的系统和方法
CN103324933A (zh) * 2013-06-08 2013-09-25 南京理工大学常熟研究院有限公司 基于复空间多视角特征融合的膜蛋白亚细胞位置定位方法
CN104268577A (zh) * 2014-06-27 2015-01-07 大连理工大学 一种基于惯性传感器的人体行为识别方法
CN105046106A (zh) * 2015-07-14 2015-11-11 南京农业大学 一种用最近邻检索实现的蛋白质亚细胞定位预测方法
US20180039732A1 (en) * 2016-08-03 2018-02-08 Nantomics, Llc Dasatinib response prediction models and methods therefor
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN106909807A (zh) * 2017-02-14 2017-06-30 同济大学 一种基于多元数据预测药物靶向蛋白互作的预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
EVOLUTION AND EVOLVABILITY: "Position weight matrix", 《URL:HTTPS//EN.WIKIPEDIA.ORG/W/INDEX.PHP?TITLE=POSITION_WEIGHT_MATRIX&OLDID=801004515》 *
倪丽萍: "《基于分形技术的金融数据分析方法研究》", 31 December 2015 *
李弼程 等: "《模式识别原理与应用》", 28 February 2008 *
李涛 等: "《数据挖掘的应用与实践 大数据时代的案例分析》", 31 October 2013 *
简祯富 等: "《大数据分析与数据挖掘》", 31 March 2016 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448787A (zh) * 2018-10-12 2019-03-08 云南大学 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN109448787B (zh) * 2018-10-12 2021-10-08 云南大学 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN111328419A (zh) * 2018-10-15 2020-06-23 因美纳有限公司 基于深度学习的深度卷积神经网络预训练技术
CN109801675A (zh) * 2018-12-26 2019-05-24 东软集团股份有限公司 一种确定蛋白质脂质功能的方法、装置和设备
CN109801675B (zh) * 2018-12-26 2021-01-05 东软集团股份有限公司 一种确定蛋白质脂质功能的方法、装置和设备
CN112201300A (zh) * 2020-10-23 2021-01-08 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN112201300B (zh) * 2020-10-23 2022-05-13 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法

Similar Documents

Publication Publication Date Title
Li et al. Adaptive multi-objective swarm fusion for imbalanced data classification
CN106779087B (zh) 一种通用机器学习数据分析平台
Barros et al. A survey of evolutionary algorithms for decision-tree induction
Bashashati et al. A survey of flow cytometry data analysis methods
CN108595909A (zh) 基于集成分类器的ta蛋白靶向预测方法
Baba et al. CURRENT ISSUES IN ENSEMBLE METHODS AND ITS APPLICATIONS.
CN109933670A (zh) 一种基于组合矩阵计算语义距离的文本分类方法
Basilico et al. Comet: A recipe for learning and using large ensembles on massive data
CN108363810A (zh) 一种文本分类方法及装置
Flores et al. Deep learning tackles single-cell analysis—a survey of deep learning for scRNA-seq analysis
Castelli et al. Supervised learning: classification
Alok et al. Semi-supervised clustering for gene-expression data in multiobjective optimization framework
CN109784405A (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN109858518A (zh) 一种基于MapReduce的大型数据集聚类方法
CN101295362A (zh) 结合支持向量机以及近邻法的模式分类方法
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
Zhao et al. Hot-vae: Learning high-order label correlation for multi-label classification via attention-based variational autoencoders
Md. Jan et al. Evolutionary classifier and cluster selection approach for ensemble classification
CN105930687A (zh) 一种可在细菌全基因组水平预测外膜蛋白质的方法
Nayak et al. Solving nonlinear classification problems with black hole optimisation and higher order Jordan Pi-sigma neural network: a novel approach
Thakur et al. RNN-CNN based cancer prediction model for gene expression
CN101609486B (zh) G蛋白偶联受体超类的识别方法及其Web服务系统
CN115579068A (zh) 一种基于预训练和深度聚类的宏基因组物种重建方法
CN111127184B (zh) 一种分布式组合信用评估方法
Alzubaidi et al. A new hybrid global optimization approach for selecting clinical and biological features that are relevant to the effective diagnosis of ovarian cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180928