CN115588462A - 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 - Google Patents
基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 Download PDFInfo
- Publication number
- CN115588462A CN115588462A CN202211121535.5A CN202211121535A CN115588462A CN 115588462 A CN115588462 A CN 115588462A CN 202211121535 A CN202211121535 A CN 202211121535A CN 115588462 A CN115588462 A CN 115588462A
- Authority
- CN
- China
- Prior art keywords
- training
- polypeptide
- major histocompatibility
- histocompatibility complex
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 26
- 108700018351 Major Histocompatibility Complex Proteins 0.000 title claims abstract description 15
- 238000013526 transfer learning Methods 0.000 title claims abstract description 7
- 229920001184 polypeptide Polymers 0.000 title claims description 19
- 102000004196 processed proteins & peptides Human genes 0.000 title claims description 19
- 238000012549 training Methods 0.000 claims abstract description 40
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 27
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 27
- 230000027455 binding Effects 0.000 claims abstract description 14
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 claims abstract description 10
- 230000004913 activation Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000001617 migratory effect Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000009149 molecular binding Effects 0.000 claims 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 102000043129 MHC class I family Human genes 0.000 description 1
- 108091054437 MHC class I family Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 238000003041 virtual screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Crystallography & Structural Chemistry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pharmacology & Pharmacy (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medicinal Chemistry (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及基于迁移学习的预测方法,属于大数据分析技术领域,本发明为了解决现有的肽和主要组织相容性复合物结合请合理算法准确性和特异性,相对实际应用有待改进的问题。本发明通过如下步骤实现的:步骤一、对pepRoBERTa训练层进行预训练;步骤二、通过softmax激活函数获得概率分布,获得模型的序列特征;步骤三、对步骤二中得到的模型进行微调;步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。本发明不仅利用了肽和MHCI类蛋白结合亲和力数据,并融合了无标签蛋白的序列特征。
Description
技术领域
本发明涉及基于迁移学习的预测方法,属于大数据分析技术领域。
背景技术
众所周知,药物研发是一个漫长的过程,存在着研发周期长,研发成果率低,研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展,人工智能正在各行各业中发挥巨大的应用价值,在制药行业也受到了广泛的关注。在新药发现过程中,虚拟筛选可以提高活性分子的富集,通过对化合物的性能进行预测,可以节约大量的人力、物力,缩短药物研发周期,加速研究成果的转化,因此近年来已引起科研机构和制药公司的高度重视。研究蛋白质的生物序列可以帮助科学家更好地了解疾病的生物蛋白基础,根据自定义的功能需求改进蛋白,帮助提高生产效率,甚至开发出全新功效的蛋白质。现有的肽和主要组织相容性复合物结合亲和力算法准确性和特异性,相对实际应用有待改进。
发明内容
本发明为解决现有的肽和主要组织相容性复合物结合亲和力算法准确性和特异性,相对实际应用有待改进的问题,进而提出基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法
本发明为解决上述问题采取的技术方案是:本发明通过如下步骤实现的:
步骤一、对pepRoBERTa训练层进行预训练;
步骤二、通过softmax激活函数获得概率分布,获得模型的序列特征;
步骤三、对步骤二中得到的模型进行微调;
步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。
进一步的,步骤一中预训练是通过如下步骤实现的:
步骤A、将蛋白质序列进行分词;
步骤B、挑选分词并利用特殊字符进行替代;
步骤C、将分词送入嵌入层模块并嵌入一个序列特征矩阵;
步骤D、将步骤C中得到的序列特征矩阵输入pepRoBERTa训练层进行训练。
进一步的,步骤B中替换的分词数量为总数量的15%。
进一步的,步骤C中嵌入的序列特征矩阵规格为768*512。
进一步的,步骤D中的pepRoBERTa训练层由5个Transformer编码层组成。
进一步的,步骤三中对步骤二中得到的模型进行微调是通过如下步骤实现的:
步骤Ⅰ、肽和MHCI类蛋白分子进行分词得到词符;
步骤Ⅱ、将多肽和步骤Ⅰ中分词得到的词符进行合并获得新的词符;
步骤Ⅲ、将步骤Ⅱ中获得的词符输入嵌入层和RoBERTa训练层,得出结果。
本发明的有益效果是:本发明在利用肽和MHCI类蛋白结合亲和力数据的基础上,为了提高效率与检索的效率,本发明还融合了无标签蛋白的序列特征,加大了数据库,更新了预算的算法,从而提高了算法的准确性和特异性,本发明的斯皮尔曼秩相关系数平均值为0.543,优于国际公认的泛特异性基准测试方法NetMHCpan3.0和NetMHCpan4.0,具有很高的可信度,可以作为下游寻找癌症靶点疫苗的可靠算法。
附图说明
图1是本发明的流程示意图;
图2是本发明的数据对比图。
具体实施方式
具体实施方式一:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法是通过如下步骤实现的:
步骤一、对pepRoBERTa训练层进行预训练;
步骤二、通过softmax激活函数获得概率分布,获得模型的序列特征;
步骤三、对步骤二中得到的模型进行微调;
步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。
通过上述步骤完成对数据的分析。
具体实施方式二:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤一中预训练是通过如下步骤实现的:
步骤A、将蛋白质序列进行分词;
步骤B、挑选分词并利用特殊字符进行替代;
步骤C、将分词送入嵌入层模块并嵌入一个序列特征矩阵;
步骤D、将步骤C中得到的序列特征矩阵输入pepRoBERTa训练层进行训练。
通过上述方式完成对pepRoBERTa训练层的预训练,使pepRoBERTa训练层能够快速准确的对数据进行分析。
具体实施方式三:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤B中替换的分词数量为总数量的15%。通过替换适量的特殊字符来完成使用掩码语言模型技术的预训练。
具体实施方式四:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤C中嵌入的序列特征矩阵规格为768*512。通过指定规格的特征矩阵便于算法进行运行。
具体实施方式五:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤D中的pepRoBERTa训练层由5个Transformer编码层组成。每次向模型提供一个序列时,都会生成一个新的掩码模式。嵌入向量通过多头自注意力层,在此层,有12个独立的随机初始化注意力头。从这些注意力头中,模型可以学习输入数据中氨基酸序列的上下文。
具体实施方式六:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤三中对步骤二中得到的模型进行微调是通过如下步骤实现的:
步骤Ⅰ、肽和MHCI类蛋白分子进行分词得到词符;
步骤Ⅱ、将多肽和步骤Ⅰ中分词得到的词符进行合并获得新的词符;
步骤Ⅲ、将步骤Ⅱ中获得的词符输入嵌入层和RoBERTa训练层,得出结果。
通过对上述步骤完成对模型的微调,以此来确保输出结果的准确性。
实施例
实施本算法的时候,需要先进行预训练,以蛋白质序列“MSTNPKPQKKNKRNTNRRPQDVK”为例,在通过分词算法后得到分词序列“[CLS]”,“MST”,“NP”,“KP”,“QKK”,“NK”,“RN”,“TN”,“RRP”,“QD”,“VK”,由于本发明使用的预训练技术采用了掩码语言模型技术,因为在得到的分词序列中挑选15%的分词,用特殊字符“[MASK]”替代以确保预训练的高效与准确。通过分词模块得到的分词进入嵌入层模块,将所得分词嵌入为一个768*512的序列特征矩阵,该矩阵作为预训练的pepRoBERTa训练层的输入,pepRoBERTa训练层由5个Transformer编码层组成。每次向模型提供一个序列时,都会生成一个新的掩码模式。嵌入向量通过多头自注意力层,在此层,本算法设置有12个独立的随机初始化注意力头。从这些注意力头中,模型可以学习输入数据中氨基酸序列的上下文。然后向量将通过一个完全连接的前馈层,该层使用GeLU激活函数,模型通过softmax激活函数获得概率分布,获得模型的序列特征。以此来完成前期的模型构建与预训练,在模型构建与预训练后,进行模型参数微调,模型微调与预训练相似,需要先将需要肽和MHCI类蛋白分子进行分词,获得分词后的词符后,需要将多肽和MHC I类蛋白分子的分词词符进行合并,具体方法如下:首先获得肽链分词,然后获得MHC I类蛋白分子分词而后通过合并获得词符,而后进入嵌入层和RoBERTa训练层,最后输出结果。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (6)
1.基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法是通过如下步骤实现的:
步骤一、对pepRoBERTa训练层进行预训练;
步骤二、通过softmax激活函数获得概率分布,获得模型的序列特征;
步骤三、对步骤二中得到的模型进行微调;
步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。
2.根据权利要求1所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤一中预训练是通过如下步骤实现的:
步骤A、将蛋白质序列进行分词;
步骤B、挑选分词并利用特殊字符进行替代;
步骤C、将分词送入嵌入层模块并嵌入一个序列特征矩阵;
步骤D、将步骤C中得到的序列特征矩阵输入pepRoBERTa训练层进行训练。
3.根据权利要求2所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤B中替换的分词数量为总数量的15%。
4.根据权利要求2所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤C中嵌入的序列特征矩阵规格为768*512。
5.根据权利要求1所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤D中的pepRoBERTa训练层由5个Transformer编码层组成。
6.根据权利要求1所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤三中对步骤二中得到的模型进行微调是通过如下步骤实现的:
步骤Ⅰ、肽和MHCI类蛋白分子进行分词得到词符;
步骤Ⅱ、将多肽和步骤Ⅰ中分词得到的词符进行合并获得新的词符;
步骤Ⅲ、将步骤Ⅱ中获得的词符输入嵌入层和RoBERTa训练层,得出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211121535.5A CN115588462A (zh) | 2022-09-15 | 2022-09-15 | 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211121535.5A CN115588462A (zh) | 2022-09-15 | 2022-09-15 | 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115588462A true CN115588462A (zh) | 2023-01-10 |
Family
ID=84778062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211121535.5A Pending CN115588462A (zh) | 2022-09-15 | 2022-09-15 | 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115588462A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037897A (zh) * | 2023-07-18 | 2023-11-10 | 哈尔滨工业大学 | 一种基于蛋白质结构域特征嵌入的肽与mhc i类蛋白亲和力预测方法 |
CN117037902A (zh) * | 2023-07-18 | 2023-11-10 | 哈尔滨工业大学 | 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105843A (zh) * | 2019-12-31 | 2020-05-05 | 杭州纽安津生物科技有限公司 | 一种hla i型分子与多肽的亲和力预测方法 |
CN113593649A (zh) * | 2021-08-02 | 2021-11-02 | 中国人民解放军陆军军医大学第一附属医院 | 一种利用hla-i候选肽库鉴定组织中提取的天然抗原肽的方法 |
CN114303201A (zh) * | 2019-05-19 | 2022-04-08 | 贾斯特-埃沃泰克生物制品有限公司 | 使用机器学习技术生成蛋白质序列 |
TW202223764A (zh) * | 2020-10-13 | 2022-06-16 | 德商Nec實驗室歐洲有限公司 | 用於胜肽-mhc呈現預測的多示例學習 |
CN114649054A (zh) * | 2020-12-18 | 2022-06-21 | 深圳吉诺因生物科技有限公司 | 基于深度学习的抗原亲和力预测方法和系统 |
-
2022
- 2022-09-15 CN CN202211121535.5A patent/CN115588462A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114303201A (zh) * | 2019-05-19 | 2022-04-08 | 贾斯特-埃沃泰克生物制品有限公司 | 使用机器学习技术生成蛋白质序列 |
CN111105843A (zh) * | 2019-12-31 | 2020-05-05 | 杭州纽安津生物科技有限公司 | 一种hla i型分子与多肽的亲和力预测方法 |
TW202223764A (zh) * | 2020-10-13 | 2022-06-16 | 德商Nec實驗室歐洲有限公司 | 用於胜肽-mhc呈現預測的多示例學習 |
CN114649054A (zh) * | 2020-12-18 | 2022-06-21 | 深圳吉诺因生物科技有限公司 | 基于深度学习的抗原亲和力预测方法和系统 |
CN113593649A (zh) * | 2021-08-02 | 2021-11-02 | 中国人民解放军陆军军医大学第一附属医院 | 一种利用hla-i候选肽库鉴定组织中提取的天然抗原肽的方法 |
Non-Patent Citations (1)
Title |
---|
FUXU WANG等: "MHCRoBERTa: pan-specific peptide-MHC class I binding prediction through transfer learning with label-agnostic protein sequences" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037897A (zh) * | 2023-07-18 | 2023-11-10 | 哈尔滨工业大学 | 一种基于蛋白质结构域特征嵌入的肽与mhc i类蛋白亲和力预测方法 |
CN117037902A (zh) * | 2023-07-18 | 2023-11-10 | 哈尔滨工业大学 | 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法 |
CN117037897B (zh) * | 2023-07-18 | 2024-06-14 | 哈尔滨工业大学 | 一种基于蛋白质结构域特征嵌入的肽与mhc i类蛋白亲和力预测方法 |
CN117037902B (zh) * | 2023-07-18 | 2024-08-20 | 哈尔滨工业大学 | 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113707235B (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
CN115588462A (zh) | 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 | |
Guo et al. | DeepACLSTM: deep asymmetric convolutional long short-term memory neural models for protein secondary structure prediction | |
CN111401534B (zh) | 一种蛋白质性能预测方法、装置和计算设备 | |
CN107622182B (zh) | 蛋白质局部结构特征的预测方法及系统 | |
Le et al. | SNARE-CNN: a 2D convolutional neural network architecture to identify SNARE proteins from high-throughput sequencing data | |
CN111462822B (zh) | 一种蛋白质序列特征的生成方法、装置和计算设备 | |
CN110689920A (zh) | 一种基于深度学习的蛋白质-配体结合位点预测算法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN113393911A (zh) | 一种基于深度学习的配体化合物快速预筛选模型 | |
CN113838523A (zh) | 一种抗体蛋白cdr区域氨基酸序列预测方法及系统 | |
CN116417093A (zh) | 一种结合Transformer和图神经网络的药物靶标相互作用预测方法 | |
CN114464247A (zh) | 基于抗原和抗体序列的结合亲和力预测方法和装置 | |
CN113571125A (zh) | 基于多层网络与图编码的药物靶点相互作用预测方法 | |
Xu et al. | Improving extreme low-bit quantization with soft threshold | |
Alkuhlani et al. | Pustackngly: positive-unlabeled and stacking learning for n-linked glycosylation site prediction | |
Vinod et al. | Reprogramming pretrained language models for protein sequence representation learning | |
CN116646001B (zh) | 基于联合式跨域注意力模型预测药物靶标结合性的方法 | |
Du et al. | Improving protein domain classification for third-generation sequencing reads using deep learning | |
CN115458046B (zh) | 基于并行式深层细粒度模型预测药物靶标结合性的方法 | |
CN116343922A (zh) | 一种基于机器学习对多肽进行预测的方法 | |
CN115661546A (zh) | 一种特征选择与分类器联合设计的多目标优化分类方法 | |
Pipoli et al. | Squeeze and Learn: Compressing Long Sequences with Fourier Transformers for Gene Expression Prediction | |
CN101609486A (zh) | G蛋白偶联受体超类的识别方法及其Web服务系统 | |
Pan et al. | WVDL: Weighted voting deep learning model for predicting RNA-protein binding sites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230110 |
|
RJ01 | Rejection of invention patent application after publication |