CN110444249A - 一种基于计算的预测荧光蛋白质的方法 - Google Patents

一种基于计算的预测荧光蛋白质的方法 Download PDF

Info

Publication number
CN110444249A
CN110444249A CN201910749597.2A CN201910749597A CN110444249A CN 110444249 A CN110444249 A CN 110444249A CN 201910749597 A CN201910749597 A CN 201910749597A CN 110444249 A CN110444249 A CN 110444249A
Authority
CN
China
Prior art keywords
feature
protein
fluorescence
sequence
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910749597.2A
Other languages
English (en)
Other versions
CN110444249B (zh
Inventor
张健
张馨艺
何水龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinyang Normal University
Original Assignee
Xinyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinyang Normal University filed Critical Xinyang Normal University
Priority to CN201910749597.2A priority Critical patent/CN110444249B/zh
Publication of CN110444249A publication Critical patent/CN110444249A/zh
Application granted granted Critical
Publication of CN110444249B publication Critical patent/CN110444249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明属于生物信息学、数据挖掘及智能计算领域,具体涉及一种基于计算的预测荧光蛋白质的方法。包括如下步骤:S1:根据荧光蛋白质的生物、物理、化学属性分析,计算荧光性相关的特征;S2:对于构造的特征向量,计算每一个特征值与蛋白质类型标签之间的相关性得分并排序:S3:采用增量特征选择策略,对经过排序的特征进行选择,构建最优特征子集;S4:使用Bagging学习策略,构建基于不同训练样本的多种学习模型,进行预测。本发明的预测方法,具有较高的准确性和较好的泛化性,能够大幅度提高预测效率。

Description

一种基于计算的预测荧光蛋白质的方法
技术领域
本发明属于生物信息学、数据挖掘及智能计算领域,具体涉及一种基于计算的预测荧光蛋白质的方法。
背景技术
荧光蛋白质是自然界中广泛存在的一种可以自身发光的特殊蛋白质,其在许多生命组织或器官中都有分布。相较其它蛋白质,荧光蛋白质可以将化学能转化为光能。因为荧光很容易被观测到,荧光蛋白质可以被广泛运用到生物学研究的各个方面,例如生物发光图像、生物感应器、环境探测器等。特别地,生物学家可以将荧光蛋白质改造为“标记蛋白”,用于进行深入的蛋白质组学实验。在癌症或肿瘤研究中,荧光蛋白常常被用于记录病变组织的发展,肿瘤细胞的成长、入侵和转移。2008年,日本科学家下村修、美国科学家马丁·沙尔菲和美籍华裔科学家钱永健因在发现和研究绿色荧光蛋白方面做出贡献而共同获得诺贝尔化学奖。
传统的基于生物物理、生物化学实验的探测荧光蛋白质的方法,不仅耗时费力、价格昂贵,而且准确率较低,敏感性较差。这就对通过计算机技术解决荧光蛋白质的识别问题提出了要求。虽然解析蛋白质结构能够有效获知蛋白质功能,但这种方法效率太低,不适用于大规模的蛋白质组分析。
发明内容
为解决上述背景技术中的技术问题,本发明提供了一种基于计算的预测荧光蛋白质的方法,具有较高的准确性和较好的泛化性。
为实现上述目的,本发明采用如下技术方案:
一种基于计算的预测荧光蛋白质的方法,包括如下步骤:
S1:特征计算
根据荧光蛋白质和非荧光蛋白质的生物、物理、化学属性分析,计算荧光性相关的特征值,利用所述特征值构建特征向量集合;
荧光性相关的特征包括氨基酸构成特征,进化保守性特征,序列motif特征,二级结构特征,物理化学属性;
S2:特征排序
对于构造的特征向量集合,计算每一个特征值与蛋白质类型标签之间的相关性得分,并从高到低排序,得到排序的特征集合;所述蛋白质类型标签为荧光蛋白和非荧光蛋白两类;
S3:特征选择
采用增量特征选择策略,对经过排序的特征进行选择,构建最优特征子集;
S4:模型构建
随机从基准数据集中,每次抽取样本,然后使用支持向量机和最优特征子集训练相应的模型,重复抽取10次样本,构建10种不同的子模型,所述基准数据集是:从Uniprot数据(https://www.uniprot.org/)中,以关键词“bioluminescent proteins”搜索荧光蛋白质,剩余蛋白质中剔除描述中带有“bioluminescent”单词的蛋白质构成非荧光蛋白质;然后分别使用blastclust程序进行去冗余操作,获得同源相似性为30%以下的荧光蛋白质和非荧光蛋白质,构成基准数据集
采用以下公式计算最终的预测结果:
其中,ht(x)代表第t个子模型(1≤t≤10)的预测概率值,x代表未知蛋白质,μ和σ分别代表10个子模型预测结果的均值和方差,H表示未知蛋白质具有荧光性的预测概率值。
进一步的,S1具体包括以下步骤:
(1)使用Composition Profiler计算荧光蛋白质和非荧光蛋白质在20种标准氨基酸构成上的相对比例。
(2)使用PSIBALST计算荧光蛋白质的进化保守性特征,根据PSIBALST软件计算得到的多序列比对图谱(MLA),大小为L×20,L为序列长度,20表示20种氨基酸;
在MLA的基础上,进一步计算WOP矩阵。WOP矩阵大小为20×20,分别计算蛋白质序列里20种氨基酸的累加得分;
(3)序列motif特征,使用MERCI计算蛋白质序列上的规律性出现的氨基酸组合。本发明统计MERCI计算得到的前10个序列motif;
(4)二级结构特征,使用PSIPRED计算蛋白质中的二级结构,二级结构特征包括螺旋、卷曲和折叠的百分比、平均长度、最长、平均和最短二级结构。
(5)氨基酸的物理化学属性影响蛋白质的结构和功能,选用9种理化属性,分别为亲水性、疏水性、极性、极化性、转化自由能特性、溶剂接触面积、正电性、柔性和激酶活性,首先收集氨基酸在这9种理化属性上的具体数值,然后进行归一化处理,计算每个特征的平均值。
进一步的,S2具体为:
使用相对熵计算每一个特征与类别标签的相关性得分,根据相关性得分由高到低进行排序,相对熵定义如下:
DKL(P||Q+DKL(Q||P)
其中P和Q分别为某一特征在两种不同蛋白质类别(P代表荧光蛋白质,Q代表非荧光蛋白质)下的条件概率密度函数,DKL(P||Q)代表P相对于Q的K-L差异度;DKL(Q||P)代表Q相对于P的K-L差异度,
计算之后,得到一组得分,
L={f1,f2,f3,...,fi,...},i={1,2,3,...N};
fi代表位置为i的特征与蛋白质标签的相关性得分。
进一步的,S3具体为:逐次从排序的特征中添加特征到特征池中,使用支持向量机(LibSVM)构建相应的模型,依据某一特征添加与否对模型的影响,决定保留或者抛弃该特征。
本发明与现有技术相比,具有如下技术效果:
本发明从多种角度提取与荧光性相关的蛋白质序列特征,不仅提高了对于荧光蛋白质数学描述的正确性,同时有助于构建模型和最终预测结果的正确性;此外,采用相对熵特征排序和增量特征选择算法去除特征空间中的噪声特征,获取最优特征子集;最后,使用Bagging集成策略对多个子模型进行集成,一方面可以增加模型的多样性,提高模型的预测准确率,另一方面可以有效避免潜在的过拟合,增强模型的泛化性能。
附图说明
图1为本发明方案流程图。
图2为本发明实施例中增量特征选择策略下,在训练集中使用5折交叉验证得到预测结果的MCC和AUC折线。
图3为本发明实施例中不同类型特征在最优特征子集中的分布情况。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明,但不应理解为本发明的限制。如未特殊说明,下述实施例中所用的技术手段为本领域技术人员所熟知的常规手段,下述实施例中所用的数据、材料等,如无特殊说明,均可从商业途径得到。
实施例1
S1:特征计算
给定一个蛋白质序列集合:本发明从Uniprot数据(https://www.uniprot.org/)中,以关键词“bioluminescent proteins”搜索荧光蛋白质,剩余蛋白质中剔除描述中带有“bioluminescent”单词的蛋白质构成非荧光蛋白质;然后分别使用blastclust程序进行去冗余操作,获得同源相似性为30%以下的荧光蛋白质和非荧光蛋白质,构成基准数据集;对于其中任意一条蛋白质序列P(该蛋白质由N个氨基酸残基组成),根据荧光蛋白质的生物、物理、化学属性分析,计算荧光性相关的特征;
荧光性相关的特征包括:
(1)氨基酸构成特征,使用Composition Profiler(下载网址为:http://www.cprofiler.org/)计算荧光蛋白质和非荧光蛋白质在20种标准氨基酸构成上的相对比例。Composition Profiler输入为荧光蛋白质和非荧光蛋白质序列,具体参数为:./cprofile.rb-Q BioluminescentProteins-O RAAC.csv-F txt-BnonBioluminescentProteins;输出为荧光蛋白质相对于非荧光蛋白质在20种氨基酸上的构成比例。
(2)进化保守性特征,使用PSIBALST在nr数据库(nr是non-redundant的缩写,意为非冗余蛋白质序列数据库,PSIBLAST可从官方网站ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+下载得到,nr数据库可从ftp://ftp.ncbi.nlm.nih.gov/blast/db/下载得到具体参数为./psiblast-comp_based_stats 1-evalue 0.001-num_iterations 3-db../database/nr-query fastas/file001.txt-out out/file001.txt-out_ascii_pssmpssm/file001.pssm)上的比对生成多序列比对图谱文件。这里使用PSIBLAST默认参数进行计算。根据PSIBALST软件计算得到的多序列比对图谱(MLA),大小为L×20,MLA如式(1)所示;
式(1)中:S代表替代得分,A到V分别代表20种氨基酸,L为序列中氨基酸的个数,即序列长度。
在MLA的基础上,进一步累加得分,计算WOP矩阵。WOP矩阵大小为20×20,分别计算蛋白质序列里20种氨基酸的累加得分;
式子(2)中,S代表替代得分,A到V分别代表20种标准氨基酸。
(3)序列motif特征,使用MERCI(MERCI可在https://www.genome.jp/tools/motif/下载得到)计算蛋白质序列上的规律性出现的氨基酸组合。MERCI输入为荧光蛋白质和非荧光蛋白质序列,输出为荧光蛋白质里的motif出现频率的排序,本发明使用MERCI计算得到的前10个序列motif;
(4)二级结构特征,使用PSIPRED(PSIPRED可从http://bioinf.cs.ucl.ac.uk/psipred/下载)计算蛋白质中的二级结构:PSIPRED输入为荧光蛋白质和非荧光蛋白质序列,输出为这些序列中每个氨基酸的预测二级结构信息。在PSIPRED输出结果的基础上,本发明进一步计算三种二级结构(螺旋、卷曲和折叠)的百分比、平均长度、最长、平均和最短二级结构;
(5)氨基酸的物理化学属性影响蛋白质的结构和功能,选用9种理化属性,分别为亲水性、疏水性、极性、极化性、转化自由能特性、溶剂接触面积、正电性、柔性和激酶活性,首先从Wikipedia中收集氨基酸在这9种理化属性上的具体数值(具体网址:https://en.wikipedia.org/wiki/Amino_acid),然后进行归一化处理,计算每个特征的平均值。表1给出了本发明所计算的特征向量构成;
表1.蛋白质特征向量列表
S2:特征排序
对于S1构造的448个特征向量,计算每一个特征值与该集合中蛋白质类型标签(荧光蛋白和非荧光蛋白)之间的相关性得分,具体为:
使用相对熵表示每一个特征值与类别标签(荧光蛋白和非荧光蛋白)的相关性得分,根据相关性得分由高到低进行排序,相对熵定义如式(3):
DKL(P||Q)+DKL(Ql|P) 式(3)
其中P和Q分别为某一特征在两种不同蛋白质类别(P代表荧光蛋白质,Q代表非荧光蛋白质)下的条件概率密度函数,DKL(P||Q)代表P相对于Q的K-L差异度;DKL(Q||P)代表Q相对于P的K-L差异度,
计算之后,得到每个特征的得分,因此可得如下式子
L={f1,f2,f3,...,fi,...},i={1,2,3,...N} 式(4)
这里,fi代表位置为i的特征值与蛋白质标签(荧光蛋白和非荧光蛋白)的相关性得分,然后根据相关性得分的高低,将特征进行排序,得到排序的特征集合。
S3:特征选择
采用增量特征选择策略,对经过排序的特征逐个添加到特征子集中,使用支持向量机(LibSVM)构建相应的模型,选择模型预测性能达到峰值的特征集合为最优特征子集。图2给出了增量特征选择策略在构建的训练集相应的模型中使用5折交叉验证得到的MCC和AUC折线。总体而言,MCC和AUC折线的趋势符合先逐渐增加然后保持平稳波动的特点;由图2可知,当特征数目为79时,模型的预测性能达到峰值,此时MCC=0.569,AUC=0.861。图3给出了最优特征子集中每种类型的特征所占的百分比。采用本发明增量特征选择策略,最优特征子集中有3个(3.8%)氨基酸构成特征,61个(77.2%)进化保守性特征,6个(7.6%)序列motif特征,4个(5.1%)二级结构特征和5个(6.3%)物理化学属性特征,最终选择准确性最高的模型对应的特征集合作为最优特征子集。
S4:模型构建
使用Bagging学习策略,随机从基准数据集中,每次抽取70%的样本,然后使用支持向量机(LibSVM)和最优特征子集训练相应的模型,重复抽取10次样本,构建10个不同的子模型,采用以下公式计算最终的预测结果:
其中,ht(x)代表第t个子模型(1≤t≤10)的预测概率值,x代表未知蛋白质的序列,μ和σ分别代表10个子模型预测结果的均值和方差,H表示未知蛋白质具有荧光性的预测概率值。
表2给出了10个子模型以及集成了这些子模型的bagging策略在训练集上的预测效果。总体上,10个子模型的预测结果MCC值范围在0.523至0.554之间,AUC值在0.832至0.867之间。相比较而言,bagging策略给出了敏感性为0.675,特异性为0.895,MCC值为0.613以及AUC值为0.924的优异的预测结果。这也证明了bagging策略的有效性,其预测结果优于任何一个子模型器;
表2. 10个子模型和bagging策略在训练集上的预测效果
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种基于计算的预测荧光蛋白质的方法,其特征在于,包括如下步骤:
S1:特征计算
根据荧光蛋白质和非荧光蛋白质的生物、物理、化学属性分析,计算荧光性相关的特征值,利用所述特征值构建特征向量集合;
荧光性相关的特征包括氨基酸构成特征,进化保守性特征,序列motif特征,二级结构特征,物理化学属性;
S2:特征排序
对于构造的特征向量集合,计算每一个特征值与蛋白质类型标签之间的相关性得分,并从高到低排序,得到排序的特征集合;所述蛋白质类型标签为荧光蛋白和非荧光蛋白两类;
S3:特征选择
采用增量特征选择策略,对经过排序的特征进行选择,构建最优特征子集;
S4:模型构建
随机从基准数据集中,每次抽取样本,然后使用支持向量机和最优特征子集训练相应的模型,重复抽取10次样本,构建10种不同的子模型,所述基准数据集是:从Uniprot数据(https://www.uniprot.org/)中,以关键词“bioluminescent proteins”搜索荧光蛋白质,剩余蛋白质中剔除描述中带有“bioluminescent”单词的蛋白质构成非荧光蛋白质;然后分别使用blastclust程序进行去冗余操作,获得同源相似性为30%以下的荧光蛋白质和非荧光蛋白质,构成基准数据集采用以下公式计算最终的预测结果:
其中,ht(x)代表第t个子模型(1≤t≤10)的预测概率值,x代表未知蛋白质的序列,μ和σ分别代表10个子模型预测结果的均值和方差,H表示未知蛋白质具有荧光性的预测概率值。
2.根据权利要求1所述的一种基于计算的预测荧光蛋白质的方法,其特征在于,S1具体包括以下步骤:
(1)使用Composition Profiler计算荧光蛋白质和非荧光蛋白质在20种标准氨基酸构成上的相对比例。
(2)使用PSIBALST计算荧光蛋白质的进化保守性特征,根据PSIBALST软件计算得到的多序列比对图谱,大小为L×20,L为序列长度,20表示20种氨基酸;
在MLA的基础上,进一步计算WOP矩阵,WOP矩阵大小为20×20,分别计算蛋白质序列里20种氨基酸的累加得分;
(3)序列motif特征,使用MERCI计算蛋白质序列上的规律性出现的氨基酸组合,本发明统计MERCI计算得到的前10个序列motif;
(4)二级结构特征,使用PSIPRED计算蛋白质中的二级结构,二级结构特征包括螺旋、卷曲和折叠的百分比、平均长度、最长、平均和最短二级结构;
(5)氨基酸的物理化学属性影响蛋白质的结构和功能,选用9种理化属性,分别为亲水性、疏水性、极性、极化性、转化自由能特性、溶剂接触面积、正电性、柔性和激酶活性,首先收集氨基酸在这9种理化属性上的具体数值,然后进行归一化处理,计算每个理化属性的平均值。
3.根据权利要求1所述的一种基于计算的预测荧光蛋白质的方法,其特征在于,S2具体为:
使用相对熵计算每一个特征与类别标签的相关性得分,根据相关性得分由高到低进行排序,相对熵定义如下:
DKL(P||Q)+DKL(Q||P)
其中P和Q分别为某一特征在两种不同蛋白质类别(P代表荧光蛋白质,Q代表非荧光蛋白质)下的条件概率密度函数,DKL(P||Q)代表P相对于Q的K-L差异度;DKL(Q||P)代表Q相对于P的K-L差异度,计算之后,得到一组得分L,
L={f1,f2,f3,...,fi,...},i={1,2,3,...N}
fi代表位置为i的特征与蛋白质标签的相关性得分。
4.根据权利要求1所述的一种基于计算的预测荧光蛋白质的方法,其特征在于,S3具体为:采用增量特征选择策略,对经过排序的特征逐个添加到特征子集中,使用支持向量机(LibSVM)构建相应的模型,选择模型预测性能达到峰值的特征集合为最优特征子集。
CN201910749597.2A 2019-08-14 2019-08-14 一种基于计算的预测荧光蛋白质的方法 Active CN110444249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910749597.2A CN110444249B (zh) 2019-08-14 2019-08-14 一种基于计算的预测荧光蛋白质的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910749597.2A CN110444249B (zh) 2019-08-14 2019-08-14 一种基于计算的预测荧光蛋白质的方法

Publications (2)

Publication Number Publication Date
CN110444249A true CN110444249A (zh) 2019-11-12
CN110444249B CN110444249B (zh) 2022-02-01

Family

ID=68435445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910749597.2A Active CN110444249B (zh) 2019-08-14 2019-08-14 一种基于计算的预测荧光蛋白质的方法

Country Status (1)

Country Link
CN (1) CN110444249B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023091293A1 (en) * 2021-11-22 2023-05-25 Microsoft Technology Licensing, Llc Unbiased sorting and sequencing of objects via randomized gating schemes

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014176700A1 (en) * 2013-05-01 2014-11-06 Université de Montréal Biosensors for ras-dependent signaling pathways and use thereof
CN105868583A (zh) * 2016-04-06 2016-08-17 东北师范大学 一种基于序列使用代价敏感集成和聚类预测表位的方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014176700A1 (en) * 2013-05-01 2014-11-06 Université de Montréal Biosensors for ras-dependent signaling pathways and use thereof
CN105868583A (zh) * 2016-04-06 2016-08-17 东北师范大学 一种基于序列使用代价敏感集成和聚类预测表位的方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN ZHANG等: "HEMEsPred: Structure-Based Ligand-Specific Heme Binding Residues Prediction by Using Fast-Adaptive Ensemble Learning Scheme", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
JIAN ZHANG等: "Prediction of bioluminescent proteins by using sequence-derived features and lineage-specific scheme", 《BMC BIOINFORMATICS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023091293A1 (en) * 2021-11-22 2023-05-25 Microsoft Technology Licensing, Llc Unbiased sorting and sequencing of objects via randomized gating schemes

Also Published As

Publication number Publication date
CN110444249B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Tian et al. Predicting protein–protein interactions by fusing various Chou's pseudo components and using wavelet denoising approach
Stegmayer et al. Predicting novel microRNA: a comprehensive comparison of machine learning approaches
Zhang et al. StackPDB: predicting DNA-binding proteins based on XGB-RFE feature optimization and stacked ensemble classifier
Lee et al. A comprehensive survey on genetic algorithms for DNA motif prediction
Stegmayer et al. High class-imbalance in pre-miRNA prediction: a novel approach based on deepSOM
Pashaei et al. Hybrid binary arithmetic optimization algorithm with simulated annealing for feature selection in high-dimensional biomedical data
Ahmed et al. Accurate prediction of RNA 5-hydroxymethylcytosine modification by utilizing novel position-specific gapped k-mer descriptors
CN110444249A (zh) 一种基于计算的预测荧光蛋白质的方法
Santoni et al. An integrated approach (cluster analysis integration method) to combine expression data and protein–protein interaction networks in agrigenomics: application on arabidopsis thaliana
US20040153307A1 (en) Discriminative feature selection for data sequences
Pashaei et al. Biomarker discovery based on BBHA and AdaboostM1 on microarray data for cancer classification
Zhang et al. Prediction of DNase I hypersensitive sites in plant genome using multiple modes of pseudo components
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
Pham et al. Prediction and analysis of β-turns in proteins by support vector machine
Marquez-Chamorro et al. Evolutionary decision rules for predicting protein contact maps
Wang et al. Identification of species-specific RNA N6-methyladinosine modification sites from RNA sequences
McClannahan et al. Classification of Long Noncoding RNA Elements Using Deep Convolutional Neural Networks and Siamese Networks
CN114566234A (zh) 抗癌候选药物化合物分子的定量优化方法与系统
Kamath et al. Feature and kernel evolution for recognition of hypersensitive sites in DNA sequences
Pirhadi et al. Biomarker discovery by imperialist competitive algorithm in mass spectrometry data for ovarian cancer prediction
Joo et al. Profile-based nearest neighbor method for pattern recognition
Wali et al. m-CALP–Yet another way of generating handwritten data through evolution for pattern recognition
CN115312122B (zh) 一种CRISPR-Cas酶可突变位点推荐方法和装置
Kabeer et al. BFSSGA: Enhancing the Performance of Genetic Algorithm using Boosted Filtering Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant