CN103617203B - 基于查询驱动的蛋白质-配体绑定位点预测方法 - Google Patents

基于查询驱动的蛋白质-配体绑定位点预测方法 Download PDF

Info

Publication number
CN103617203B
CN103617203B CN201310573950.9A CN201310573950A CN103617203B CN 103617203 B CN103617203 B CN 103617203B CN 201310573950 A CN201310573950 A CN 201310573950A CN 103617203 B CN103617203 B CN 103617203B
Authority
CN
China
Prior art keywords
residue
specific
protein
protein sequence
pssm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310573950.9A
Other languages
English (en)
Other versions
CN103617203A (zh
Inventor
於东军
胡俊
於铉
何雪
李阳
沈红斌
唐振民
杨静宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201310573950.9A priority Critical patent/CN103617203B/zh
Publication of CN103617203A publication Critical patent/CN103617203A/zh
Application granted granted Critical
Publication of CN103617203B publication Critical patent/CN103617203B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明提供一种基于查询驱动的蛋白质‑配体绑定位点预测方法,包括:步骤1、对于一条给定的查询输入,从可用数据库中查找出具有高同源性的蛋白质序列,构成基于查询驱动的训练数据集;步骤2、得到的训练数据集,所有的绑定残基提取为正样本集,所有的非绑定残基提取为负样本集;步骤3、从进化信息和二级结构视角抽取每个样本的特征向量,得到正负样本的特征向量集;步骤4、使用标准支持向量机算法,训练得到针对查询输入q的SVM预测模型;步骤5、对于查询输入,使用同样的特征抽取方法抽取每个残基的特征向量,输入SVM预测模型,再利用阈值分割方法预测。利用本发明可提高预测精度并防止在固定训练数据集上可能出现的过优化和过拟合的问题。

Description

基于查询驱动的蛋白质-配体绑定位点预测方法
技术领域
本发明涉及生物信息学蛋白质-配体相互作用领域,具体而言涉及一种基于查询驱动的动态蛋白质-配体绑定位点预测方法。
背景技术
蛋白质-配体之间的相互作用在生命活动中普遍存在并且不可或缺。通过生物实验的方法来确定蛋白质和配体之间的绑定位点耗时费力。随着测序技术的飞速发展和人类结构基因组的推进,已经累积了大量未进行绑定位点标定的蛋白质序列。因此,研发能够直接从蛋白质序列出发进行蛋白质-配体绑定位点预测的智能方法有着迫切需求。近年来,已经出现了多个基于序列的蛋白质-配体绑定位点预测方法,例如:(1)Chen,K.,Mizianty,M.J.and Kurgan,L.(2011)ATPsite:sequence-based prediction of ATP-binding residues,Proteome Science,9Suppl 1,S4;(2)Chen,K.,Mizianty,M.J.and Kurgan,L.(2012)Prediction and analysis of nucleotide-binding residues using sequence and sequence-derived structural descriptors,Bioinformatics,28,331-341;(3)Yu,D.J.,et al.(2013)TargetATPsite:A template-free method for ATP-binding sites prediction with residue evolution image sparse representation and classifier ensemble,Journal of computational chemistry,34,974-985等等。然而,现有的方法都是基于静态模型方法的:在一个固定的数据集上,训练出一个预测模型;对于待预测绑定位点的蛋白质序列均使用该预测模型进行预测。
基于静态模型框架的计算模型不可避免地会存在以下几个方面的问题:
(1)可扩展性低(Low scalability)
静态模型方法通常在一个固定的数据集上训练得到预测模型,当有新的标定数据可用时,需要利用原有的数据及新的数据来重新训练。由于新的可用数据是持续出现的,因此,重新训练的过程亦需要不断重复,效率较低。换句话 说,静态模型方法的可可扩展性低。
(2)过拟合/过优化(Over-fitting/Over-optimization)
通常,研究人员提出一种新的计算模型后需要和其他已有的方法进行比较,以验证所提方法的有效性。这种对比往往基于某个(些)固定的标准测试数据集。为了追求正面的比较结果,有意识或是无意识地,研究人员所提出的方法可能会被过拟合到测试数据集或是在测试数据集上进行过优化。
(3)低可用性(Low applicability)
当数据集非常大的时候,训练一个全局的静态模型很可能是不现实的,或是出于对于内存过多的要求,或是出于优化时间太长的原因。
静态模型方法的上述不足,激发了研究人员研发新的策略来解决上述问题。人们希望在一个中小规模的数据集上训练得到一个初始的预测模型,然后,该模型可以利用新的可用数据来进行增量式增强。基础上述考虑,已经出现了很多增量式学习算法(He,H.B.,et al.(2011)Incremental Learning from Stream Data,IEEE Transactions on Neural Networks,22,1901-1914.Wang,Z.L.,et al.(2012)An Incremental Learning Method Based on Probabilistic Neural Networks and Adjustable Fuzzy Clustering for Human Activity Recognition by Using Wearable Sensors,IEEE Transactions on information technology,16,691-699),并成功应用到多个生物计算领域。增量式学习算法可以部分解决传统的静态方法所面临的一些问题。
增量式学习模型可以随着新数据的出现而不断进化提高其性能。然而,一个不足之处在于:和静态模型一样,对于任意查询(待预测)数据,仍旧使用统一的模型来进行预测,而没有考虑查询数据的特异性。换句话说,增量式模型并未考虑查询数据的特性。我们相信,对于一个给定的查询数据,从训练数据集挑选出一部分来构建训练模型,要比使用统一的全局静态模型要优。
发明内容
针对现有技术存在的缺陷或不足,本发明旨在提供一种基于查询驱动的动态蛋白质-配体绑定位点预测方法,解决现有技术中蛋白质-配体绑定位点预测方 法存在的扩展性低、过拟合/过优化以及可用性低的问题。
为达成上述目的,本发明所采用的技术方案如下:
一种基于查询驱动的动态蛋白质-配体绑定位点预测方法,包括以下步骤:
步骤1、对于一条给定的查询输入q、即待预测/待查询的蛋白质序列,从蛋白质-配体数据库D中查询与该查询输入q具有高同源性的蛋白质序列,构成一基于查询驱动的训练数据集Dq-specific
步骤2、基于步骤1得到的训练数据集Dq-specific,提取Dq-specific中所有绑定残基组成正样本集,提取Dq-specific中所有非绑定残基组成负样本集;
步骤3、为每个样本从进化信息视角和二级结构视角抽取特征,从而得到正样本的特征向量集以及负样本的特征向量集;
步骤4、依据正负样本的特征向量集,使用标准支持向量机算法,训练得到针对查询输入q的SVM预测模型;以及
步骤5、对于查询输入q,使用与前述步骤3同样的特征抽取方法抽取每个残基的特征向量,然后依次将每个残基的特征向量输入所述SVM预测模型,所述SVM预测模型输出每个残基相应的绑定概率,最后利用阈值分割方法进行分割:概率大于或是等于阈值的残基被预测为绑定残基,概率小于阈值的残基被预测为非绑定残基。
由以上本发明的技术方案可知,本发明提供的预测方法与现有基于序列的蛋白质-配体绑定位点预测技术相比,其显著优点在于:(1)动态得到基于查询驱动的训练数据集,在此基础上构建的预测模型更具有针对性,提高了预测精度;(2)本预测方法可以有效地防止在固定训练数据集上可能出现的过优化和过拟合等问题;(3)本预测方法可以有效地利用新数据:在新数据可用时,直接添加到基础数据集内。新数据是否被用于预测,取决于查询序列。
以下将结合附图以举例方式对本发明的实施方式进行详细描述。
附图说明
图1为基于查询驱动的蛋白质-配体绑定位点预测方法的一个示例性实现示 意图。
图2为第k个残基的PSSM特征向量的示意图。
图3为第k个残基的PSS特征向量的示意图。
具体实施方式
如图1所示,根据本发明的较优实施例,基于查询驱动的蛋白质-配体绑定位点预测方法,用于对一待预测/待查询的蛋白质序列(以下称为给定的查询输入q)进行预测,其分为两个阶段,即动态模型构造阶段以及预测阶段,下面结合图1所示,详细说明上述两个阶段的实现。
(1)动态模型构造阶段
第一步、使用PSI-BLAST工具软件从可用数据集D、即图1中的蛋白质-配体数据库中查找与给定的查询输入q(即图1中的查询序列)具有较高同源性的蛋白质序列,构成一个基于查询驱动的并且规模较小的训练数据集Dq-specific,如此动态地得到一个基于查询驱动的训练数据集,表示为:
Dq-specific←PSI-BLAST(q,D)。
如图1所示,蛋白质-配体数据库还支持新可用数据的增量式输入,以更新该数据库,从而可以有效地利用新数据:在新数据可用时,直接添加到可用数据集中。新数据是否被用于预测,取决于查询序列,即查询输入q。
进行本步操作时,得到的训练数据集Dq-specific的规模大小取决于PSI-BLAST工具软件的运行参数E-value,Dq-specific规模与所述运行参数E-value的取值大小成正比:E-value取值大,得到的Dq-specific规模大;反过来,E-value取值小,得到的Dq-specific规模小。
本实施例中,通过多次测试后,E-value取值0.002是一个较优的经验参数。
显然,所得到的训练数据集Dq-specific是一个查询驱动的训练数据集。较之于原始训练数据集,此数据集规模较小,并且由和查询输入序列同源的序列组成,因而更为致密。
第二步、基于第一步得到的训练数据集Dq-specific,提取Dq-specific中所有绑定残基组成正样本集,提取Dq-specific中的所有非绑定残基组成负样本集。
第三步、为每个样本从进化信息视角(Position-Specific Scoring Matrix Feature)和二级结构视角(Protein Secondary Structure Feature)抽取特征,从而得到正样本的特征向量集以及负样本的特征向量集。
本实施例中,对于训练数据集Dq-specific中任一条给定的蛋白质序列P,本步骤的特征抽取实现方法如下:
1)从进化信息视角抽取每个样本中蛋白质序列的特征
首先,使用PSI-BLAST工具软件获取该序列的位置特异性得分矩阵PSSM,表示为如下式所示:
P pssm original = o 1,1 o 1,2 · · · o 1,20 o 2,1 o 2,2 · · · o 2,20 · · · · · · · · · · · · o k , 1 o k , 2 · · · o k , 20 · · · · · · · · · · · · o L , 1 o L , 2 · · · o L , 20 L × 20
然后,对进行归一化处理,用uk和σk分别表示第k行中的20个得分的平均值和标准差,如下式所示:
u k = 1 20 Σ t = 1 20 o k , t ;
σ k = 1 20 Σ t = 1 20 ( o k , t - u k ) 2 ;
归一化后PSSM为Ppssm=(pk,j)L × 20,其中pk,j通过下式获得:
p k , j = o k , j - u k σ k ;
则,长度为L的蛋白质序列P经规范化后的位置特异性得分矩阵PSSM可表 示为:
P pssm = p 1,1 p 1,2 · · · p 1,20 p 2,1 p 2,2 · · · p 2,20 · · · · · · · · · · · · p k , 1 p k , 2 · · · p k , 20 · · · · · · · · · · · · p L , 1 p L , 2 · · · p L , 20 L × 20 ;
再次,对于蛋白质序列P中的第k个残基,以PSSM中的第k行为中心,使用一个宽度为W的窗口,该窗口内的所有元素构成一个维数为20·W的向量Fpssm。Fpssm称为第k个残基的PSSM特征向量,如图2所示。
2)从二级结构视角抽取蛋白质序列的特征
与上述从进化视角抽取特征向量类似地,本步骤中使用PSIPRED工具软件,生成对应的蛋白质序列P的二级结构矩阵,该矩阵大小为L×3,表示的是蛋白质序列P的二级结构信息。
类似地,同样使用一个宽度为W的窗口,该窗口内的所有元素构成一个维数为3·W的向量Fpss。Fpss称为第k个残基的PSS特征向量,如图3所示。
3)再将向量Fpssm和向量Fpss组合起来,得到第k个残基的最终的特征向量F,其维数为3·W+20·W。
重复上述1)、2)、3)操作,查询训练数据集Dq-specific中所有残基的特征向量F,组成训练向量集Fq-specific,表示为:
Fq-specific←FeatureExtraction(Dq-specific)。
第四步、使用标准的支持向量机(SVM)算法,在训练向量集Fq-specific上训练得到针对查询序列q的SVM预测模型。显然,该SVM预测模型是基于查询驱动的,并且,对于不同的查询输入,得到的预测模型是不同的。
本步骤中,依据第三步得到训练向量集Fq-specific,来初始化并优化一个SVM 预测模型:
InitialSVM←IntializeSVM(Fq-specific)
(DModel,PDModel)←OptimizeModel(InitialSVM,Fq-specific)
这里,DModel是得到的基于查询驱动的动态预测模型,PDModel则是该模型的优化参数。
(2)预测阶段
首先,对于给定的查询输入q,使用与前述第三步同样的特征抽取方法,为该查询序列中的每个残基抽取维数为3·W+k·W的特征向量;
然后,依次将每个残基的特征向量输入前述预测模型,预测模型输出该残基相应的绑定概率;
最后,使用一个阈值T作为判断基准,所有绑定概率大于等于T的残基预测为绑定残基;其他残基即概率小于阈值T的残基则预测为非绑定残基,如图1所示。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (3)

1.一种基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,包括以下步骤:
步骤1、对于一条给定的查询输入q、即待预测/待查询的蛋白质序列,从蛋白质-配体数据库D中查询与该查询输入q具有高同源性的蛋白质序列,构成一基于查询驱动的训练数据集Dq-specific
步骤2、基于步骤1得到的训练数据集Dq-specific,提取Dq-specific中所有绑定残基组成正样本集,提取Dq-specific中所有非绑定残基组成负样本集;
步骤3、为每个样本从进化信息视角和二级结构视角抽取特征,从而得到正样本的特征向量集以及负样本的特征向量集;
步骤4、依据正负样本的特征向量集,使用标准支持向量机算法,训练得到针对查询输入q的SVM预测模型;以及
步骤5、对于查询输入q,使用与前述步骤3同样的特征抽取方法抽取每个残基的特征向量,然后依次将每个残基的特征向量输入所述SVM预测模型,所述SVM预测模型输出每个残基相应的绑定概率,最后利用阈值分割方法进行分割:概率大于或是等于阈值的残基被预测为绑定残基,概率小于阈值的残基被预测为非绑定残基;
其中,所述步骤1中,对于所述给定的查询输入q,使用PSI-BLAST工具软件从蛋白质-配体数据库D中查找与该查询输入q具有高同源性的蛋白质序列,构成所述基于查询驱动的训练数据集Dq-specific,该训练数据集Dq-specific的规模大小取决于PSI-BLAST工具软件的运行参数E-value,Dq-specific规模与所述运行参数E-value的取值大小成正比;且所述运行参数E-value取值为0.002;
所述蛋白质-配体数据库D支持新可用数据的增量式输入,以更新蛋白质-配体数据库D,该新可用数据是否被用于预测,取决于查询序列、即查询输入q;
所述步骤3的为每个样本从进化信息视角和二级结构视角抽取特征,并且其特征在于,对于训练数据集Dq-specific中任一条给定的蛋白质序列P,特征抽取的具体步骤如下:
1)从进化信息视角抽取每个样本中蛋白质序列的特征
首先,使用PSI-BLAST工具软件获取该序列的位置特异性得分矩阵PSSM,表示为表达如下:
P p s s m o r i g i n a l = o 1 , 1 o 1 , 2 ... o 1 , 20 o 2 , 1 o 2 , 2 ... o 2 , 20 . . . . . . . . . . . . o k , 1 o k , 2 ... o k , 20 . . . . . . . . . . . . o L , 1 o L , 2 ... o L , 20 L × 20 ;
然后,对进行归一化处理,用uk和σk分别表示第k行中的20个得分的平均值和标准差,表达如下:
u k = 1 20 Σ t = 1 20 o k , t ;
σ k = 1 20 Σ t = 1 20 ( o k , t - u k ) 2 ;
归一化后PSSM为Ppssm=(pk,j)L×20,其中pk,j通过下式获得:
p k , j = o k , j - u k σ k ;
则,长度为L的蛋白质序列P经规范化后的位置特异性得分矩阵PSSM可表示为:
P p s s m = p 1 , 1 p 1 , 2 ... p 1 , 20 p 2 , 1 p 2 , 2 ... p 2 , 20 . . . . . . . . . . . . p k , 1 p k , 2 ... p k , 20 . . . . . . . . . . . . p L , 1 p L , 2 ... p L , 20 L × 20 ;
再次,对于蛋白质序列P中的第k个残基,以PSSM中的第k行为中心,使用一个宽度为W的窗口,该窗口内的所有元素构成一个维数为20·W的向量Fpssm,Fpssm称为第k个残基的PSSM特征向量;
2)从二级结构视角抽取蛋白质序列的特征
首先,使用PSIPRED工具软件,生成蛋白质序列P的二级结构矩阵,该矩阵大小为L×3,表示的是蛋白质序列P的二级结构信息;
其次,使用上述同样的宽度为W的窗口,该窗口内的所有元素构成一个维数为3·W的向量Fpss,Fpss称为第k个残基的PSS特征向量;
3)再将向量Fpssm和向量Fpss组合起来,至此可得到第k个残基的最终的特征向量F,其维数为3·W+20·W;
重复上述1)、2)、3)操作,查询训练数据集Dq-specific中所有残基的特征向量,组成训练向量集Fq-specific,表示为:
Fq-specific←FeatureExtraction(Dq-specific)。
2.根据权利要求1所述的基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,所述步骤4中,使用标准的支持向量机算法,依据所述训练向量集Fq-specific来初始化并优化一针对查询序列q的SVM预测模型,表示为:
InitialSVM←IntializeSVM(Fq-specific);
(DModel,PDModel)←OptimizeModel(InitialSVM,Fq-specific);
其中,DModel是得到的基于查询驱动的动态预测模型,PDModel则是该模型的优化参数。
3.根据权利要求2所述的基于查询驱动的蛋白质-配体绑定位点预测方法,其特征在于,所述步骤5中的具体实现如下:
首先,使用与前述步骤3同样的特征抽取方法,对所述查询输入q、即待预测/待查询的蛋白质序列中每个残基抽取维数为3·W+20·W的特征向量;
然后,依次将每个残基的特征向量输入所述SVM预测模型,SVM预测模型输出残基相应的绑定概率;
最后,使用阈值T作为判断基准,所有绑定概率大于等于T的残基预测为绑定残基,小于阈值的残基被预测为非绑定残基。
CN201310573950.9A 2013-11-15 2013-11-15 基于查询驱动的蛋白质-配体绑定位点预测方法 Expired - Fee Related CN103617203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310573950.9A CN103617203B (zh) 2013-11-15 2013-11-15 基于查询驱动的蛋白质-配体绑定位点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310573950.9A CN103617203B (zh) 2013-11-15 2013-11-15 基于查询驱动的蛋白质-配体绑定位点预测方法

Publications (2)

Publication Number Publication Date
CN103617203A CN103617203A (zh) 2014-03-05
CN103617203B true CN103617203B (zh) 2016-09-21

Family

ID=50167906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310573950.9A Expired - Fee Related CN103617203B (zh) 2013-11-15 2013-11-15 基于查询驱动的蛋白质-配体绑定位点预测方法

Country Status (1)

Country Link
CN (1) CN103617203B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529207A (zh) * 2016-10-08 2017-03-22 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955628B (zh) * 2014-04-22 2017-03-01 南京理工大学 基于子空间融合的蛋白质‑维他命绑定位点预测方法
CN104636635B (zh) * 2015-01-29 2018-06-12 南京理工大学 基于两层svm学习机制的蛋白质结晶预测方法
CN104992079B (zh) * 2015-06-29 2018-07-06 南京理工大学 基于采样学习的蛋白质-配体绑定位点预测方法
CN105808975A (zh) * 2016-03-14 2016-07-27 南京理工大学 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法
CN107194207A (zh) * 2017-06-26 2017-09-22 南京理工大学 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
CN110349628B (zh) * 2019-06-27 2021-06-15 广东药科大学 一种蛋白质磷酸化位点识别方法、系统、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408911B (zh) * 2008-07-15 2010-06-09 北京科技大学 一类蛋白质二级结构智能预测模型构造技术
CN102760210A (zh) * 2012-06-19 2012-10-31 南京理工大学常熟研究院有限公司 一种蛋白质三磷酸腺苷绑定位点预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529207A (zh) * 2016-10-08 2017-03-22 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法
CN106529207B (zh) * 2016-10-08 2019-04-12 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法

Also Published As

Publication number Publication date
CN103617203A (zh) 2014-03-05

Similar Documents

Publication Publication Date Title
CN103617203B (zh) 基于查询驱动的蛋白质-配体绑定位点预测方法
CN110289050B (zh) 一种基于图卷积和词向量的药物-靶标相互作用预测方法
CN112732915A (zh) 情感分类方法、装置、电子设备及存储介质
WO2019041333A1 (zh) 蛋白质结合位点的预测方法、装置、设备及存储介质
CN105389480B (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN103970666B (zh) 一种软件重复缺陷报告检测的方法
Li et al. Protein contact map prediction based on ResNet and DenseNet
CN107291895B (zh) 一种快速的层次化文档查询方法
CN109147866A (zh) 基于采样与集成学习的蛋白质-dna绑定残基预测方法
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
WO2022082879A1 (zh) 基因测序数据处理方法和基因测序数据处理装置
CN110619059A (zh) 一种基于迁移学习的建筑物标定方法
CN108537288A (zh) 一种基于互信息的实时特征提取方法
CN107194207A (zh) 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
CN103049679B (zh) 蛋白质潜在致敏性的预测方法
CN111914159A (zh) 一种信息推荐方法及终端
CN112489723B (zh) 基于局部进化信息的dna结合蛋白预测方法
CN108664653A (zh) 一种基于K-means的医疗消费客户自动分类方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN103605493A (zh) 基于图形处理单元的并行排序学习方法及系统
CN113707213A (zh) 基于深度学习的蛋白质-配体结合位点预测方法
US7047137B1 (en) Computer method and apparatus for uniform representation of genome sequences
CN110609936A (zh) 一种模糊地址数据智能分类的方法
CN106709273B (zh) 微藻蛋白质特征序列标签匹配的快速检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wu Dongjun

Inventor after: Hu Jun

Inventor after: Wu Xuan

Inventor after: He Xue

Inventor after: Li Yang

Inventor after: Shen Hongbin

Inventor after: Tang Zhenmin

Inventor after: Yang Jingyu

Inventor before: Wu Dongjun

Inventor before: Hu Jun

Inventor before: He Xue

Inventor before: Li Yang

Inventor before: Shen Hongbin

Inventor before: Tang Zhenmin

Inventor before: Yang Jingyu

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160921

Termination date: 20201115