CN108763865A - 一种预测dna蛋白质结合位点的集成学习方法 - Google Patents

一种预测dna蛋白质结合位点的集成学习方法 Download PDF

Info

Publication number
CN108763865A
CN108763865A CN201810489037.3A CN201810489037A CN108763865A CN 108763865 A CN108763865 A CN 108763865A CN 201810489037 A CN201810489037 A CN 201810489037A CN 108763865 A CN108763865 A CN 108763865A
Authority
CN
China
Prior art keywords
data
dna
protein
positive sample
protein sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810489037.3A
Other languages
English (en)
Other versions
CN108763865B (zh
Inventor
张永清
郜东瑞
王婷
吴锡
何嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN201810489037.3A priority Critical patent/CN108763865B/zh
Publication of CN108763865A publication Critical patent/CN108763865A/zh
Application granted granted Critical
Publication of CN108763865B publication Critical patent/CN108763865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种预测DNA蛋白质结合位点的集成学习方法,其包括以下步骤:获取DNA结合蛋白质位点的蛋白质序列数据;对DNA结合蛋白质位点的蛋白质序列数据预处理;使用one‑hot编码方式构建输入数据;将提取的特征合并,构建每个蛋白质序列上氨基酸的特征,将其作为输入数据;使用SMOTE算法对正样本数据进行过采样;根据正样本大小将负样本数据分成多份,每份负样本与正样本组合成一个新的数据子集,得到N个数据子集;每个数据子集使用卷积神经网络进行训练;对N个卷积神经网络的结果进行多数投票法集成,从而得到预测结果。本发明解决了不平衡数据情况下的DNA蛋白质结合位点预测问题,提高了预测的准确性。

Description

一种预测DNA蛋白质结合位点的集成学习方法
技术领域
本发明涉及生物信息学领域,尤其涉及一种预测DNA蛋白质结合位点的集成学习方法。
背景技术
目前,DNA蛋白质结合位点检测主要采用染色质免疫沉淀技术(ChromatinImmunoprecipitation,ChIP)和蛋白质结合微阵列(protein binding microarray,PBM)。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。PBM技术和基因芯片相似,它在固定相支持物表面高密度排列探针蛋白质或抗体点阵,可特异的捕获样品中的分子,然后用激光扫描系统或CCD(电感耦合器件)获取数组图像,最后用专门的计算机软件进行图像分析结果定量和解释。
然而,尽管Chip-seq和PBM技术检测数据的DNA蛋白质结合位点方法已经非常成熟,但该技术也有不足之处。首先,是富集目的蛋白质结合酶具有特异性,从而导致某些蛋白因找不到合适的特异结合酶而无法进行检测;其次,一次实验只能检测一种蛋白,需要花费许多的时间和人工成本,成本高,无法大规模推广应用;最后,由于实验获取的与目的蛋白结合的DNA片断较长,测序时只能对其两端进行部分测序。因此,寻找一种客观而有效的计算方法对DNA蛋白质结合位点进行精确预测,已经成为了亟待解决的技术问题。
针对上述问题,近年来产生了一系列计算的方法来预测DNA蛋白质结合位点。目前,主流的DNA与蛋白质结合位点预测方法是基于蛋白质序列信息、蛋白质结构信息或两者的结合方法。在基于序列的方法中,最重要的一种是基于机器学习的方法。为了提高预测性能,研究者已进行了很多基于机器学习算法的DNA蛋白质结合位点预测研究,其中包括支持向量机(Support Vector Machine,SVM),人工神经网络(Neural Network,NN),随机森林(Random Forest,RF),朴素贝叶斯分类器(Bayes),最近邻方法(Nearest Neighbor)和集成分类器(Ensemble Models)等。
然而这些方法大部分没有考虑到DNA蛋白质结合位点数据本身的不平衡特性,即结合位点的数据要比非结合位点的数据量少很多,这样在构建预测模型时,就存在比较大的偏差。
发明内容
针对现有技术之不足,本发明提出了一种预测DNA蛋白质结合位点的集成学习方法,其能够在不平衡数据情况下预测DNA蛋白质结合位点。本发明的预测DNA蛋白质结合位点的集成学习方法包括以下步骤:
S1)获取DNA结合蛋白质位点的蛋白质序列数据;
S2)对DNA结合蛋白质位点的蛋白质序列数据预处理,包括使用PSI-BLAST算法提取PSSM的特征;
S3)使用one-hot编码方式构建输入数据;One-hot编码方式是每个蛋白质序列用20维的特征表示,每个氨基酸占一位,表示1,其余各位为0;
S4)将S1和S2提取的特征合并,构建每个蛋白质序列上氨基酸的特征,将其作为输入数据;
S5)使用SMOTE算法对正样本数据进行过采样,过采样的数量为正样本的数量大小,所述正样本数据为DNA与蛋白质有结合的位点数据;
S6)根据正样本大小将负样本数据分成多份,然后每份负样本与正样本组合成一个新的数据子集,得到N个数据子集;
S7)每个数据子集使用卷积神经网络进行训练,所述卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层;
S8)对N个卷积神经网络的结果进行多数投票法集成,从而得到最终的预测结果。
根据一个优选实施方式,在步骤S5中,SMOTE算法是根据正样本中每个样本的K个最近邻数据来生成新的样本。
本发明具有以下有益效果:
本发明解决了不平衡数据情况下的DNA蛋白质结合位点预测问题,相较于现有的只在平衡数据情况下的解决方案更具有实际意义。采用了卷积神经网络分类器,由于卷积网络有着一层层提取物体特征的优势,相比现有的浅层网络更能提取出待识别的蛋白质序列的本质特征,从而提升了模型效果。本发明结合了SMOTE过采样和ENSEMBLE集成学习方法,可以有效缓解数据分布的不平衡,所以预测时在一定程度上提高了准确性,降低了预测正样本的识别错误率。
附图说明
图1示出了本发明中ENSEMBLE-CNN的流程示意图;
图2示出了不同特征在数据集PDNA-543上的性能比较柱状图;
图3示出了ENSEMBLE-CNN和TargetDNA算法在PDNA-543数据集上的性能比较柱状图;
图4示出了ENSEMBLE-CNN和PreDNA算法在PDNA-224数据集上的性能比较柱状图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1示出了本发明中ENSEMBLE集成学习方法(ENSEMBLE-CNN)的流程示意图。在不平衡数据情况下,本发明的预测DNA蛋白质结合位点的集成学习方法大致包括以下步骤:
S1)获取DNA结合蛋白质位点的蛋白质序列数据;
S2)对DNA结合蛋白质位点的蛋白质序列数据预处理,包括使用PSI-BLAST算法提取PSSM的特征;
S3)除了提取PSSM特征,同时使用one-hot编码方式构建输入数据。One-hot编码方式是每个蛋白质序列用20维的特征表示,每个氨基酸占一位,表示1,其余各位为0;
S4)将S1和S2提取的特征合并,构建每个蛋白质序列上氨基酸的特征,将其作为输入数据;前述步骤对应于图1中的输入数据(Input data)。
S5)使用SMOTE算法对有DNA与蛋白质有结合的位点数据,即正样本数据进行过采样,过采样的数量为正样本的数量大小;
S6)根据正样本大小将负样本数据分成多份,然后每份负样本与正样本组合成一个新的数据子集,得到N个数据子集;步骤S5、S6对应于图1中的分发数据(Distributedata)。
S7)每个数据子集使用卷积神经网络进行训练,所述卷积神经网络包括卷积层1、池化层1、卷积层2、池化层2和全连接层1;该步骤对应于图1中的训练(Training)。
S8)对N个卷积神经网络的结果进行多数投票法集成,从而得到最终的预测结果。该步骤对应于图1中的预测(Predicting)和多数投票(Majority voting)。
本发明解决了不平衡数据情况下的DNA蛋白质结合位点预测问题,相较于现有的只在平衡数据情况下的解决方案更具有实际意义。采用了卷积神经网络分类器,由于卷积网络有着一层层提取物体特征的优势,相比现有的浅层网络更能提取出待识别的蛋白质序列的本质特征,从而提升了模型效果。本发明结合了SMOTE过采样和ENSEMBLE集成学习方法,可以有效缓解数据分布的不平衡,所以预测时在一定程度上提高了准确性,降低了预测正样本的识别错误率。
具体地,为了验证算法的有效性,在实验中采用了3个公开的数据集进行测试,并与最近算法结果进行了比较。
本发明使用了3个公开的数据集进行测试,分别是PDNA-543,PDNA-224和PDNA-TEST。
PDNA-543有543个蛋白质序列数据,是2014年10月公布在PDB(蛋白质结构数据库)数据库上。它有9549条DNA结合蛋白质数据(正样本),134995条非DNA结合蛋白质数据(负样本)。PDNA-224有224条蛋白质序列数据,是2011年公布在PDB数据库上,它有3778条正样本和53570条负样本。PDNA-TEST有41条蛋白质序列数据,它有734条正样本和14021条负样本。
采用了6个评价指标来验证算法的效果,分别是敏感性(Sensitivity),特异性(Specificity),准确性(Accuracy),精确性(Precision)和MCC系数(Mathew’scorrelations coefficient)。另外,针对不平衡数据,我们使用了AUC(the area underthe receiver operating characteristic curve)。
其中,TP,FP,TN,FN分别是真正例(true positive)、假正例(false positive)、真反例(true negative)和假反倒(false negative)。
交叉验证:
使用了十倍交叉验证来验证所提出方法有有效性,即将整个数据子集平均分为十份,选取其中1份作为测试集,剩下的9份作为训练集。随后,将这十份轮流作为测试集,重复上述步骤。这样既可以避免过度学习,又可以避免欠学习状态的发生,从而使得最终的结果具有较强的说服力。
PSSM窗口大小的选择:
在PSSM中,选择合适的窗口大小是非常重要的。所以在PDNA-543数据集上,使用十倍交叉验证,根据MCC的值在7到15之间选择窗口的大小。结果显示窗口大小在15时,取得最好的性能,因此选择PSSM窗口大小为15.
各种不同特征的比较:
对三种不同的特征在数据集PDNA-543上进行了性能比较,结果显示在图2中。图2显示,PSSM2和one-hot coding方法结合的特征得到了76.44%的敏感性,92.85%的特异性,90.87%的准确性,59.79%的精确性、0.625的MCC和0.926的AUC值,这比单独的PSSM2特征高5.04%的敏感性,15.79%的特异性,14.49%的准确性,29.81%的精确性,0.276的MCC值和0.114的AUC值。当把三种特征全部结合时,ENSEMBLE-CNN取得了0.632的MCC和0.933的AUC值,比其它两种特征组合效果都更好。
PDNA-543数据集上的效果测试:
为了验证ENSEMBLE-CNN的性能,我们将PDNA-543数据集与最新的TargetDNA算法进行了比较,结果显示在图3中。从图中可以看到,ENSEMBLE-CNN比TargetNDA的性能在6个指标上面都更好。ENSEMBLE-CNN在敏感性、特异性、准确性、精确性、MCC和AUC值分别是79.48%、92.33%、90.69%、58.70%、0.632和0.993,这分别比TargetNDA(Sensitivity≈Specificity)算法高2.5%、15.18%、13.65%、39.52%、0.33和0.09。同时,ENSEMBLE-CNN比TargetNDA(FPR≈5%)在敏感性、精确性、MCC和AUC值分别提高38.88%、22.23%、0.29和0.09。结果显示,这三种方法都取得了比较好的效果,但ENSEMBLE-CNN取得了更好的效果,这是因为SMOTE过采样提供了更多的正样本信息。
PDNA-224数据集上的效果测试:
为了进一步验证所提出算法的性能,在PDNA-224数据上与最新的PreDNA算法进行了比较,结果显示在图4中。ENSEMBLE-CNN算法在PDNA-224数据上得到了76.8%的敏感性、84.5%的特异性、83.5%的准确性和0.48的AUC值,分别比PreDNA高0.7%、2.3%、1.7%和0.13。
独立测试集上的效果测试:
实验中使用了PDNA-TEST独立测试集与现在的BindN,BindN+,ProteDNA,DP-Bind,MetaDBSite,DNABind和TargetDNA算法进行了比较,结果如表1所示。表中显示,ENSEMBLE-CNN的MCC值为0.274,在这些算法中排名第二。对BindN+算法,ENSEMBLE-CNN的MCC值比它高6.1%。而相比基于meta方法的MetaDBSite方法,ENSEMBLE-CNN算法的敏感性和MCC值分别比它高13.9%和5.3%。
表1
Predictor Sen(%) Spe(%) Acc(%) Pre(%) MCC
BindN* 45.64 80.90 79.15 11.12 0.143
ProteDNA* 4.77 99.84 95.11 60.30 0.160
BindN+(FPR≈5%)* 24.11 95.11 91.58 20.51 0.178
BindN+(Spe≈85%)* 50.81 85.41 83.69 15.42 0.213
MetaDBSite* 34.20 93.35 90.41 21.22 0.221
DP‐Bind* 61.72 82.43 81.40 15.53 0.241
DNABind* 70.16 80.28 79.78 15.70 0.264
TargetDNA(Sen≈Spe) 60.22 85.79 84.52 18.16 0.269
TargetDNA(FPR≈5%) 45.50 93.27 90.89 26.13 0.300
ENSEMBLE-CNN 48.10 91.20 89.08 21.99 0.274
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (2)

1.一种预测DNA蛋白质结合位点的集成学习方法,其特征在于,其包括以下步骤:
S1)获取DNA结合蛋白质位点的蛋白质序列数据;
S2)对DNA结合蛋白质位点的蛋白质序列数据预处理,包括使用PSI-BLAST算法提取PSSM的特征;
S3)使用one-hot编码方式构建输入数据;One-hot编码方式是每个蛋白质序列用20维的特征表示,每个氨基酸占一位,表示1,其余各位为0;
S4)将S1和S2提取的特征合并,构建每个蛋白质序列上氨基酸的特征,将其作为输入数据;
S5)使用SMOTE算法对正样本数据进行过采样,过采样的数量为正样本的数量大小,所述正样本数据为DNA与蛋白质有结合的位点数据;
S6)根据正样本大小将负样本数据分成多份,然后每份负样本与正样本组合成一个新的数据子集,得到N个数据子集;
S7)每个数据子集使用卷积神经网络进行训练,所述卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层;
S8)对N个卷积神经网络的结果进行多数投票法集成,从而得到最终的预测结果。
2.如权利要求1所述的方法,其特征在于,在步骤S5中,SMOTE算法是根据正样本中每个样本的K个最近邻数据来生成新的样本。
CN201810489037.3A 2018-05-21 2018-05-21 一种预测dna蛋白质结合位点的集成学习方法 Active CN108763865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810489037.3A CN108763865B (zh) 2018-05-21 2018-05-21 一种预测dna蛋白质结合位点的集成学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810489037.3A CN108763865B (zh) 2018-05-21 2018-05-21 一种预测dna蛋白质结合位点的集成学习方法

Publications (2)

Publication Number Publication Date
CN108763865A true CN108763865A (zh) 2018-11-06
CN108763865B CN108763865B (zh) 2023-10-20

Family

ID=64007386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810489037.3A Active CN108763865B (zh) 2018-05-21 2018-05-21 一种预测dna蛋白质结合位点的集成学习方法

Country Status (1)

Country Link
CN (1) CN108763865B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492758A (zh) * 2018-11-28 2019-03-19 中科赛诺(北京)科技有限公司 资料预报方法及系统
CN109583568A (zh) * 2018-11-28 2019-04-05 中科赛诺(北京)科技有限公司 资料延伸方法、装置及电子设备
CN110335640A (zh) * 2019-07-09 2019-10-15 河南师范大学 一种药物-DBPs结合位点的预测方法
WO2020093701A1 (zh) * 2018-11-07 2020-05-14 南京邮电大学 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111210869A (zh) * 2020-01-08 2020-05-29 中山大学 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111435608A (zh) * 2019-09-05 2020-07-21 中国海洋大学 一种基于深度学习的蛋白质药物结合位点预测方法
CN111667880A (zh) * 2020-05-27 2020-09-15 浙江工业大学 一种基于深度残差神经网络的蛋白质残基接触图预测方法
CN112164427A (zh) * 2020-09-23 2021-01-01 常州微亿智造科技有限公司 基于深度学习的药物小分子靶点活性预测方法和装置
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN114882945A (zh) * 2022-07-11 2022-08-09 鲁东大学 一种基于集成学习的rna-蛋白质结合位点预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077499A (zh) * 2014-05-25 2014-10-01 南京理工大学 基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法
KR101593045B1 (ko) * 2014-11-12 2016-02-12 인하대학교 산학협력단 결합 상대방을 고려하여 dna 서열에서 단백질과 결합하는 부위를 예측하는 방법
CN105980578A (zh) * 2013-12-16 2016-09-28 考利达基因组股份有限公司 用于使用机器学习进行dna测序的碱基判定器
CN107194207A (zh) * 2017-06-26 2017-09-22 南京理工大学 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105980578A (zh) * 2013-12-16 2016-09-28 考利达基因组股份有限公司 用于使用机器学习进行dna测序的碱基判定器
CN104077499A (zh) * 2014-05-25 2014-10-01 南京理工大学 基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法
KR101593045B1 (ko) * 2014-11-12 2016-02-12 인하대학교 산학협력단 결합 상대방을 고려하여 dna 서열에서 단백질과 결합하는 부위를 예측하는 방법
CN107194207A (zh) * 2017-06-26 2017-09-22 南京理工大学 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ABBAS KHOSRAVI 等: "Constructing Optimal Prediction Intervals by Using Neural Networks and Bootstrap Method", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
DAVID T. JONES 等: "DISOPRED3: precise disordered region predictions with annotated protein-binding activity", 《STRUCTURAL BIOINFORMATICS》 *
DENIEL QUANG 等: "DanQ:a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences", 《NUCLEIC ACIDS RESEARCH》 *
JUN HU 等: "Predicting Protein-DNA Binding Residues by Weightedly Combining Sequence-Based Features and Boosting Multiple SVMs", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020093701A1 (zh) * 2018-11-07 2020-05-14 南京邮电大学 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型
CN109583568A (zh) * 2018-11-28 2019-04-05 中科赛诺(北京)科技有限公司 资料延伸方法、装置及电子设备
CN109492758A (zh) * 2018-11-28 2019-03-19 中科赛诺(北京)科技有限公司 资料预报方法及系统
CN110335640A (zh) * 2019-07-09 2019-10-15 河南师范大学 一种药物-DBPs结合位点的预测方法
CN110335640B (zh) * 2019-07-09 2022-01-25 河南师范大学 一种药物-DBPs结合位点的预测方法
CN111435608A (zh) * 2019-09-05 2020-07-21 中国海洋大学 一种基于深度学习的蛋白质药物结合位点预测方法
CN111435608B (zh) * 2019-09-05 2024-02-06 中国海洋大学 一种基于深度学习的蛋白质药物结合位点预测方法
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111192631B (zh) * 2020-01-02 2023-07-21 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111210869B (zh) * 2020-01-08 2023-06-20 中山大学 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法
CN111210869A (zh) * 2020-01-08 2020-05-29 中山大学 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111667880A (zh) * 2020-05-27 2020-09-15 浙江工业大学 一种基于深度残差神经网络的蛋白质残基接触图预测方法
CN112164427A (zh) * 2020-09-23 2021-01-01 常州微亿智造科技有限公司 基于深度学习的药物小分子靶点活性预测方法和装置
CN113593634B (zh) * 2021-08-06 2022-03-11 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN114882945A (zh) * 2022-07-11 2022-08-09 鲁东大学 一种基于集成学习的rna-蛋白质结合位点预测方法

Also Published As

Publication number Publication date
CN108763865B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN108763865A (zh) 一种预测dna蛋白质结合位点的集成学习方法
Su et al. Single cell proteomics in biomedicine: High‐dimensional data acquisition, visualization, and analysis
CN106599615B (zh) 一种预测miRNA靶基因的序列特征分析方法
KR20190077372A (ko) 준비된 유전자 라이브러리 및 네트워크 기반의 데이타 구조를 이용한 표현형/질환 특이적 유전자 등급화
KR102213670B1 (ko) 약물-표적 상호 작용 예측을 위한 방법
US11398297B2 (en) Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
CN114255886B (zh) 基于多组学相似度引导的药物敏感性预测方法和装置
CN105740626A (zh) 一种基于机器学习的药物活性预测方法
Zhu et al. Robust single-cell matching and multimodal analysis using shared and distinct features
CN106778063A (zh) 一种基于图模型的蛋白质复合物识别方法
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
Ronel et al. The clonal structure and dynamics of the human T cell response to an organic chemical hapten
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
CN113409897A (zh) 药物-靶标相互作用的预测方法、装置、设备和存储介质
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN101110095A (zh) 一种对常见脑疾病易感基因的批量检测方法
Chen et al. Domain-based predictive models for protein-protein interaction prediction
CN105260626B (zh) 蛋白质结构空间构象的全信息预测方法
WO2012149107A2 (en) Stratifying patient populations through characterization of disease-driving signaling
CN111383708B (zh) 基于化学基因组学的小分子靶标预测算法及其应用
Walsh et al. Ab initio and homology based prediction of protein domains by recursive neural networks
CN112133367A (zh) 药物与靶点间的相互作用关系预测方法及装置
Ghorbanali et al. DRP-VEM: Drug repositioning prediction using voting ensemble
Wu et al. CarbonAI, A Non-Docking Deep learning based small molecule virtual screening platform
US20230116904A1 (en) Selecting a cell line for an assay

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant