CN115588462A - 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 - Google Patents

基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 Download PDF

Info

Publication number
CN115588462A
CN115588462A CN202211121535.5A CN202211121535A CN115588462A CN 115588462 A CN115588462 A CN 115588462A CN 202211121535 A CN202211121535 A CN 202211121535A CN 115588462 A CN115588462 A CN 115588462A
Authority
CN
China
Prior art keywords
training
polypeptide
major histocompatibility
histocompatibility complex
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211121535.5A
Other languages
English (en)
Inventor
臧天仪
王福旭
王皓
俨赵飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202211121535.5A priority Critical patent/CN115588462A/zh
Publication of CN115588462A publication Critical patent/CN115588462A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及基于迁移学习的预测方法,属于大数据分析技术领域,本发明为了解决现有的肽和主要组织相容性复合物结合请合理算法准确性和特异性,相对实际应用有待改进的问题。本发明通过如下步骤实现的:步骤一、对pepRoBERTa训练层进行预训练;步骤二、通过softmax激活函数获得概率分布,获得模型的序列特征;步骤三、对步骤二中得到的模型进行微调;步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。本发明不仅利用了肽和MHCI类蛋白结合亲和力数据,并融合了无标签蛋白的序列特征。

Description

基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结 合预测方法
技术领域
本发明涉及基于迁移学习的预测方法,属于大数据分析技术领域。
背景技术
众所周知,药物研发是一个漫长的过程,存在着研发周期长,研发成果率低,研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展,人工智能正在各行各业中发挥巨大的应用价值,在制药行业也受到了广泛的关注。在新药发现过程中,虚拟筛选可以提高活性分子的富集,通过对化合物的性能进行预测,可以节约大量的人力、物力,缩短药物研发周期,加速研究成果的转化,因此近年来已引起科研机构和制药公司的高度重视。研究蛋白质的生物序列可以帮助科学家更好地了解疾病的生物蛋白基础,根据自定义的功能需求改进蛋白,帮助提高生产效率,甚至开发出全新功效的蛋白质。现有的肽和主要组织相容性复合物结合亲和力算法准确性和特异性,相对实际应用有待改进。
发明内容
本发明为解决现有的肽和主要组织相容性复合物结合亲和力算法准确性和特异性,相对实际应用有待改进的问题,进而提出基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法
本发明为解决上述问题采取的技术方案是:本发明通过如下步骤实现的:
步骤一、对pepRoBERTa训练层进行预训练;
步骤二、通过softmax激活函数获得概率分布,获得模型的序列特征;
步骤三、对步骤二中得到的模型进行微调;
步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。
进一步的,步骤一中预训练是通过如下步骤实现的:
步骤A、将蛋白质序列进行分词;
步骤B、挑选分词并利用特殊字符进行替代;
步骤C、将分词送入嵌入层模块并嵌入一个序列特征矩阵;
步骤D、将步骤C中得到的序列特征矩阵输入pepRoBERTa训练层进行训练。
进一步的,步骤B中替换的分词数量为总数量的15%。
进一步的,步骤C中嵌入的序列特征矩阵规格为768*512。
进一步的,步骤D中的pepRoBERTa训练层由5个Transformer编码层组成。
进一步的,步骤三中对步骤二中得到的模型进行微调是通过如下步骤实现的:
步骤Ⅰ、肽和MHCI类蛋白分子进行分词得到词符;
步骤Ⅱ、将多肽和步骤Ⅰ中分词得到的词符进行合并获得新的词符;
步骤Ⅲ、将步骤Ⅱ中获得的词符输入嵌入层和RoBERTa训练层,得出结果。
本发明的有益效果是:本发明在利用肽和MHCI类蛋白结合亲和力数据的基础上,为了提高效率与检索的效率,本发明还融合了无标签蛋白的序列特征,加大了数据库,更新了预算的算法,从而提高了算法的准确性和特异性,本发明的斯皮尔曼秩相关系数平均值为0.543,优于国际公认的泛特异性基准测试方法NetMHCpan3.0和NetMHCpan4.0,具有很高的可信度,可以作为下游寻找癌症靶点疫苗的可靠算法。
附图说明
图1是本发明的流程示意图;
图2是本发明的数据对比图。
具体实施方式
具体实施方式一:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法是通过如下步骤实现的:
步骤一、对pepRoBERTa训练层进行预训练;
步骤二、通过softmax激活函数获得概率分布,获得模型的序列特征;
步骤三、对步骤二中得到的模型进行微调;
步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。
通过上述步骤完成对数据的分析。
具体实施方式二:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤一中预训练是通过如下步骤实现的:
步骤A、将蛋白质序列进行分词;
步骤B、挑选分词并利用特殊字符进行替代;
步骤C、将分词送入嵌入层模块并嵌入一个序列特征矩阵;
步骤D、将步骤C中得到的序列特征矩阵输入pepRoBERTa训练层进行训练。
通过上述方式完成对pepRoBERTa训练层的预训练,使pepRoBERTa训练层能够快速准确的对数据进行分析。
具体实施方式三:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤B中替换的分词数量为总数量的15%。通过替换适量的特殊字符来完成使用掩码语言模型技术的预训练。
具体实施方式四:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤C中嵌入的序列特征矩阵规格为768*512。通过指定规格的特征矩阵便于算法进行运行。
具体实施方式五:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤D中的pepRoBERTa训练层由5个Transformer编码层组成。每次向模型提供一个序列时,都会生成一个新的掩码模式。嵌入向量通过多头自注意力层,在此层,有12个独立的随机初始化注意力头。从这些注意力头中,模型可以学习输入数据中氨基酸序列的上下文。
具体实施方式六:结合图1至图2说明本实施方式,本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤三中对步骤二中得到的模型进行微调是通过如下步骤实现的:
步骤Ⅰ、肽和MHCI类蛋白分子进行分词得到词符;
步骤Ⅱ、将多肽和步骤Ⅰ中分词得到的词符进行合并获得新的词符;
步骤Ⅲ、将步骤Ⅱ中获得的词符输入嵌入层和RoBERTa训练层,得出结果。
通过对上述步骤完成对模型的微调,以此来确保输出结果的准确性。
实施例
实施本算法的时候,需要先进行预训练,以蛋白质序列“MSTNPKPQKKNKRNTNRRPQDVK”为例,在通过分词算法后得到分词序列“[CLS]”,“MST”,“NP”,“KP”,“QKK”,“NK”,“RN”,“TN”,“RRP”,“QD”,“VK”,由于本发明使用的预训练技术采用了掩码语言模型技术,因为在得到的分词序列中挑选15%的分词,用特殊字符“[MASK]”替代以确保预训练的高效与准确。通过分词模块得到的分词进入嵌入层模块,将所得分词嵌入为一个768*512的序列特征矩阵,该矩阵作为预训练的pepRoBERTa训练层的输入,pepRoBERTa训练层由5个Transformer编码层组成。每次向模型提供一个序列时,都会生成一个新的掩码模式。嵌入向量通过多头自注意力层,在此层,本算法设置有12个独立的随机初始化注意力头。从这些注意力头中,模型可以学习输入数据中氨基酸序列的上下文。然后向量将通过一个完全连接的前馈层,该层使用GeLU激活函数,模型通过softmax激活函数获得概率分布,获得模型的序列特征。以此来完成前期的模型构建与预训练,在模型构建与预训练后,进行模型参数微调,模型微调与预训练相似,需要先将需要肽和MHCI类蛋白分子进行分词,获得分词后的词符后,需要将多肽和MHC I类蛋白分子的分词词符进行合并,具体方法如下:首先获得肽链分词,
Figure BDA0003847296250000041
然后获得MHC I类蛋白分子分词
Figure BDA0003847296250000042
而后通过合并获得词符,
Figure BDA0003847296250000043
而后进入嵌入层和RoBERTa训练层,最后输出结果。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (6)

1.基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法是通过如下步骤实现的:
步骤一、对pepRoBERTa训练层进行预训练;
步骤二、通过softmax激活函数获得概率分布,获得模型的序列特征;
步骤三、对步骤二中得到的模型进行微调;
步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。
2.根据权利要求1所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤一中预训练是通过如下步骤实现的:
步骤A、将蛋白质序列进行分词;
步骤B、挑选分词并利用特殊字符进行替代;
步骤C、将分词送入嵌入层模块并嵌入一个序列特征矩阵;
步骤D、将步骤C中得到的序列特征矩阵输入pepRoBERTa训练层进行训练。
3.根据权利要求2所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤B中替换的分词数量为总数量的15%。
4.根据权利要求2所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤C中嵌入的序列特征矩阵规格为768*512。
5.根据权利要求1所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤D中的pepRoBERTa训练层由5个Transformer编码层组成。
6.根据权利要求1所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法,其特征在于:步骤三中对步骤二中得到的模型进行微调是通过如下步骤实现的:
步骤Ⅰ、肽和MHCI类蛋白分子进行分词得到词符;
步骤Ⅱ、将多肽和步骤Ⅰ中分词得到的词符进行合并获得新的词符;
步骤Ⅲ、将步骤Ⅱ中获得的词符输入嵌入层和RoBERTa训练层,得出结果。
CN202211121535.5A 2022-09-15 2022-09-15 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法 Pending CN115588462A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211121535.5A CN115588462A (zh) 2022-09-15 2022-09-15 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211121535.5A CN115588462A (zh) 2022-09-15 2022-09-15 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法

Publications (1)

Publication Number Publication Date
CN115588462A true CN115588462A (zh) 2023-01-10

Family

ID=84778062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211121535.5A Pending CN115588462A (zh) 2022-09-15 2022-09-15 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法

Country Status (1)

Country Link
CN (1) CN115588462A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037897A (zh) * 2023-07-18 2023-11-10 哈尔滨工业大学 一种基于蛋白质结构域特征嵌入的肽与mhc i类蛋白亲和力预测方法
CN117037902A (zh) * 2023-07-18 2023-11-10 哈尔滨工业大学 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105843A (zh) * 2019-12-31 2020-05-05 杭州纽安津生物科技有限公司 一种hla i型分子与多肽的亲和力预测方法
CN113593649A (zh) * 2021-08-02 2021-11-02 中国人民解放军陆军军医大学第一附属医院 一种利用hla-i候选肽库鉴定组织中提取的天然抗原肽的方法
CN114303201A (zh) * 2019-05-19 2022-04-08 贾斯特-埃沃泰克生物制品有限公司 使用机器学习技术生成蛋白质序列
TW202223764A (zh) * 2020-10-13 2022-06-16 德商Nec實驗室歐洲有限公司 用於胜肽-mhc呈現預測的多示例學習
CN114649054A (zh) * 2020-12-18 2022-06-21 深圳吉诺因生物科技有限公司 基于深度学习的抗原亲和力预测方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114303201A (zh) * 2019-05-19 2022-04-08 贾斯特-埃沃泰克生物制品有限公司 使用机器学习技术生成蛋白质序列
CN111105843A (zh) * 2019-12-31 2020-05-05 杭州纽安津生物科技有限公司 一种hla i型分子与多肽的亲和力预测方法
TW202223764A (zh) * 2020-10-13 2022-06-16 德商Nec實驗室歐洲有限公司 用於胜肽-mhc呈現預測的多示例學習
CN114649054A (zh) * 2020-12-18 2022-06-21 深圳吉诺因生物科技有限公司 基于深度学习的抗原亲和力预测方法和系统
CN113593649A (zh) * 2021-08-02 2021-11-02 中国人民解放军陆军军医大学第一附属医院 一种利用hla-i候选肽库鉴定组织中提取的天然抗原肽的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUXU WANG等: "MHCRoBERTa: pan-specific peptide-MHC class I binding prediction through transfer learning with label-agnostic protein sequences" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037897A (zh) * 2023-07-18 2023-11-10 哈尔滨工业大学 一种基于蛋白质结构域特征嵌入的肽与mhc i类蛋白亲和力预测方法
CN117037902A (zh) * 2023-07-18 2023-11-10 哈尔滨工业大学 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法
CN117037897B (zh) * 2023-07-18 2024-06-14 哈尔滨工业大学 一种基于蛋白质结构域特征嵌入的肽与mhc i类蛋白亲和力预测方法
CN117037902B (zh) * 2023-07-18 2024-08-20 哈尔滨工业大学 基于蛋白质物理化学特征嵌入的肽与mhc i类蛋白结合基序预测方法

Similar Documents

Publication Publication Date Title
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN115588462A (zh) 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法
Guo et al. DeepACLSTM: deep asymmetric convolutional long short-term memory neural models for protein secondary structure prediction
CN111401534B (zh) 一种蛋白质性能预测方法、装置和计算设备
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
Le et al. SNARE-CNN: a 2D convolutional neural network architecture to identify SNARE proteins from high-throughput sequencing data
CN111462822B (zh) 一种蛋白质序列特征的生成方法、装置和计算设备
CN110689920A (zh) 一种基于深度学习的蛋白质-配体结合位点预测算法
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN113393911A (zh) 一种基于深度学习的配体化合物快速预筛选模型
CN113838523A (zh) 一种抗体蛋白cdr区域氨基酸序列预测方法及系统
CN116417093A (zh) 一种结合Transformer和图神经网络的药物靶标相互作用预测方法
CN114464247A (zh) 基于抗原和抗体序列的结合亲和力预测方法和装置
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
Xu et al. Improving extreme low-bit quantization with soft threshold
Alkuhlani et al. Pustackngly: positive-unlabeled and stacking learning for n-linked glycosylation site prediction
Vinod et al. Reprogramming pretrained language models for protein sequence representation learning
CN116646001B (zh) 基于联合式跨域注意力模型预测药物靶标结合性的方法
Du et al. Improving protein domain classification for third-generation sequencing reads using deep learning
CN115458046B (zh) 基于并行式深层细粒度模型预测药物靶标结合性的方法
CN116343922A (zh) 一种基于机器学习对多肽进行预测的方法
CN115661546A (zh) 一种特征选择与分类器联合设计的多目标优化分类方法
Pipoli et al. Squeeze and Learn: Compressing Long Sequences with Fourier Transformers for Gene Expression Prediction
CN101609486A (zh) G蛋白偶联受体超类的识别方法及其Web服务系统
Pan et al. WVDL: Weighted voting deep learning model for predicting RNA-protein binding sites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230110

RJ01 Rejection of invention patent application after publication