CN114927165B - 泛素化位点的识别方法、装置、系统和存储介质 - Google Patents

泛素化位点的识别方法、装置、系统和存储介质 Download PDF

Info

Publication number
CN114927165B
CN114927165B CN202210850486.2A CN202210850486A CN114927165B CN 114927165 B CN114927165 B CN 114927165B CN 202210850486 A CN202210850486 A CN 202210850486A CN 114927165 B CN114927165 B CN 114927165B
Authority
CN
China
Prior art keywords
lysine
information
training
protein
ubiquitination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210850486.2A
Other languages
English (en)
Other versions
CN114927165A (zh
Inventor
李坚强
陈杰
陈廷柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202210850486.2A priority Critical patent/CN114927165B/zh
Priority to PCT/CN2022/110318 priority patent/WO2024016389A1/zh
Publication of CN114927165A publication Critical patent/CN114927165A/zh
Application granted granted Critical
Publication of CN114927165B publication Critical patent/CN114927165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种泛素化位点的识别方法、装置、系统和存储介质,属于泛素化技术领域,其方法包括获取蛋白质的三维结构信息;从所述三维结构信息提取出空间结构特征信息;基于训练完成的卷积模型对所述空间结构特征信息进行处理,得到赖氨酸节点的赖氨酸特征信息;所述卷积模型通过蛋白质训练集训练完成;若所述赖氨酸特征信息与预设的分类条件匹配,则对应的所述赖氨酸节点为泛素化位点。通过蛋白质的三维结构信息对蛋白质中各个赖氨酸是否能够泛素化进行识别,提高了识别精度。

Description

泛素化位点的识别方法、装置、系统和存储介质
技术领域
本发明涉及一种泛素化技术领域,尤其涉及一种泛素化位点的识别方法、装置、系统和存储介质。
背景技术
泛素化是真核细胞中一种常见的蛋白质后修饰方式,指泛素分子在泛素激活酶、泛素结合酶和泛素连接酶的相继作用下连接到靶蛋白分子的赖氨酸残基上。泛素化在蛋白质的定位、新陈代谢、细胞分裂、基因转录和DNA修复等方面具有重要作用,因此对泛素化位点的准确识别尤为重要。
现有技术中的泛素化位点识别方式为 DeepUbi模型,该模型由word2vec模型和卷积神经网络组成,从待测位点为中心的长度为31的蛋白质片段中学习嵌入特征,以推断是否能够泛素化。但上述方法仅考虑了蛋白质的序列特征,导致泛素化位点的识别精度下降。
发明内容
有鉴于此,本发明提供了一种泛素化位点的识别方法、装置、系统和存储介质,用于解决现有技术中的识别精度低的问题。为达上述之一或部分或全部目的或是其他目的,本发明提出一种泛素化位点的识别方法、装置、系统和存储介质,第一方面:
一种泛素化位点的识别方法,包括:
获取蛋白质的三维结构信息;
从所述三维结构信息提取出空间结构特征信息;
基于训练完成的卷积模型对所述空间结构特征信息进行处理,得到赖氨酸节点的赖氨酸特征信息;所述卷积模型通过蛋白质训练集训练完成;
若所述赖氨酸特征信息与预设的分类条件匹配,则对应的所述赖氨酸节点为泛素化位点。
优选地,通过所述蛋白质训练集训练所述卷积模型的步骤包括:
获取所述蛋白质训练集;所述蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息;
将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息;
基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数;
基于所述权参数、所述训练特征参数和预设的加权损失函数模型计算得到损失值;
基于所述损失值和预设的训练条件判断是否完成训练;
在未完成所述卷积模型的训练时,迭代计算所述损失值;在完成所述卷积模型的训练时,停止迭代计算所述损失值。
优选地,所述将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息的步骤包括:
通过第一卷积层对所述蛋白质样本信息进行计算,得到第一特征矩阵;所述蛋白质样本信息包括训练邻接矩阵和训练特征矩阵;
通过第二卷积层对所述训练邻接矩阵和所述第一特征矩阵进行计算,得到第二特征矩阵;
通过自注意力机制层对所述第二特征矩阵进行计算,得到第三特征矩阵;
通过第三卷积层对所述训练邻接矩阵和所述第三特征矩阵进行计算,得到蛋白质训练信息;
从所述蛋白质训练信息中筛选出所述赖氨酸训练信息。
优选地,所述基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数的步骤包括:
统计所述赖氨酸训练信息的数量得到样本数量;
统计各所述赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量;
统计各所述赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量;
基于所述样本数量和所述第一赖氨酸数量构建得到所述训练特征参数中的第一二维矩阵;
基于所述样本数量和所述第二赖氨酸数量构建得到所述训练特征参数中的第二二维矩阵;
将所述第一赖氨酸数量和所述第二赖氨酸数量求和得到所述权参数中的赖氨酸总量;
根据所述赖氨酸训练信息和预设的分数阈值统计所述赖氨酸训练信息以及所述赖氨酸样本信息中可泛素化的赖氨酸数量,得到所述权参数中的可泛素化总数和非泛素化总数。
优选地,所述从所述三维结构信息提取出空间结构特征信息的步骤包括:
基于预设的中心碳原子标识识别所述三维结构信息中各个氨基酸的中心碳原子;
从所述三维结构信息中提取与各个所述中心碳原子对应的位置信息;
基于所述位置信息计算各所述氨基酸间的距离信息;
在所述距离信息小于预设的距离阈值时,判定对应的两个所述氨基酸为连接关系,以生成所述空间结构特征信息。
优选地,在生成所述空间结构特征信息之后,还包括:
根据赖氨酸标识识别所述空间结构特征信息中的所述赖氨酸节点;
将所述赖氨酸节点配置在所述空间结构特征信息中的前方。
优选地,在训练完成所述卷积模型后,还包括:
获取非泛素化正确率和所述距离阈值的优化范围;
从所述优化范围中选择所述距离阈值并结合所述非泛素化正确率,利用贝叶斯优化迭代计算可泛素化正确率;
在满足预设的迭代条件后,提取与最高的所述可泛素化正确率对应的所述距离阈值,以对所述距离阈值进行优化。
第二方面:
一种泛素化位点的识别系统,包括获取模块,用于获取蛋白质的三维结构信息;
提取模块,用于从所述三维结构信息提取出空间结构特征信息;
处理模块,用于基于训练完成的卷积模型对所述空间结构特征信息进行处理,得到赖氨酸节点的赖氨酸特征信息;所述卷积模型通过蛋白质训练集训练完成;
判定模块,用于若所述赖氨酸特征信息与预设的分类条件匹配,则对应的所述赖氨酸节点为泛素化位点。
优选地,所述系统还包括训练模块,用于获取所述蛋白质训练集;所述蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息;
计算模块,用于将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息;
参数模块,用于基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数;
损失值模块,用于基于所述权参数、所述训练特征参数和预设的加权损失函数模型计算得到损失值;
判断模块,用于基于所述损失值和预设的训练条件判断是否完成训练;所述判断模块还用于在未完成所述卷积模型的训练时,迭代计算所述损失值;在完成所述卷积模型的训练时,停止迭代计算所述损失值。
优选地,所述计算模块包括第一卷积层单元,用于通过第一卷积层对所述蛋白质样本信息进行计算,得到第一特征矩阵;所述蛋白质样本信息包括训练邻接矩阵和训练特征矩阵;
第二卷积层单元,用于通过第二卷积层对所述训练邻接矩阵和所述第一特征矩阵进行计算,得到第二特征矩阵;
自注意力机制层单元,用于通过自注意力机制层对所述第二特征矩阵进行计算,得到第三特征矩阵;
第三卷积层单元,用于通过第三卷积层对所述训练邻接矩阵和所述第三特征矩阵进行计算,得到蛋白质训练信息;
筛选单元,用于从所述蛋白质训练信息中筛选出所述赖氨酸训练信息。
优选地,所述参数模块包括样本单元,用于统计所述赖氨酸训练信息的数量得到样本数量;
第一赖氨酸单元,用于统计各所述赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量;
第二赖氨酸单元,用于统计各所述赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量;
第一矩阵单元,用于基于所述样本数量和所述第一赖氨酸数量构建得到所述训练特征参数中的第一二维矩阵;
第二矩阵单元,用于基于所述样本数量和所述第二赖氨酸数量构建得到所述训练特征参数中的第二二维矩阵;
总量单元,用于将所述第一赖氨酸数量和所述第二赖氨酸数量求和得到所述权参数中的赖氨酸总量;
统计单元,用于根据所述赖氨酸训练信息和预设的分数阈值统计所述赖氨酸训练信息以及所述赖氨酸样本信息中可泛素化的赖氨酸数量,得到所述权参数中的可泛素化总数和非泛素化总数。
优选地,所述提取模块包括识别单元,用于基于预设的中心碳原子标识识别所述三维结构信息中各个氨基酸的中心碳原子;
位置单元,用于从所述三维结构信息中提取与各个所述中心碳原子对应的位置信息;
距离单元,用于基于所述位置信息计算各所述氨基酸间的距离信息;
生成单元,用于在所述距离信息小于预设的距离阈值时,判定对应的两个所述氨基酸为连接关系,以生成所述空间结构特征信息。
优选地,所述提取模块还包括节点单元,用于根据赖氨酸标识识别所述空间结构特征信息中的所述赖氨酸节点;
配置单元,用于将所述赖氨酸节点配置在所述空间结构特征信息中的前方。
优选地,所述系统还包括条件模块,用于获取非泛素化正确率和所述距离阈值的优化范围;
正确率模块,用于从所述优化范围中选择所述距离阈值并结合所述非泛素化正确率,利用贝叶斯优化迭代计算可泛素化正确率;
优化模块,用于在满足预设的迭代条件后,提取与最高的所述可泛素化正确率对应的所述距离阈值,以对所述距离阈值进行优化。
第三方面:
一种泛素化位点的识别装置,包括存储器和处理器,所述存储器中存储有泛素化位点的识别方法,所述处理器在执行所述泛素化位点的识别方法时采用上述所述方法。
第四方面:
一种存储介质,存储有能够被处理器加载并执行上述所述方法的计算机程序。
实施本发明实施例,将具有如下有益效果:
利用蛋白质的三维结构信息得到空间结构特征信息,而后使用卷积模型得到赖氨酸特征信息,进而判断对应的赖氨酸节点是否能够泛素化。由于考虑了蛋白质的三维结构,而非使用蛋白质的二维序列,提高了泛素化位点的识别精度,同时也提高了泛素化位点的识别质量。此外,卷积模型是通过蛋白质训练集训练完成的,而非通过等比例的可泛素化赖氨酸与非泛素化赖氨酸的训练集训练完成的,提高了卷积模型的训练效果和卷积模型的计算结果精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中泛素化位点的识别方法的流程图。
图2为一个实施例中将空间结构特征信息图像化的示意图。
图3为一个实施例中泛素化位点的识别方法中训练卷积模型的流程图。
图4为一个实施例中泛素化位点的识别方法中计算赖氨酸训练信息的流程图。
图5为一个实施例中泛素化位点的识别方法的实施原理流程图。
图6为一个实施例中泛素化位点的识别系统的结构框图。
图7为一个实施例中泛素化位点的识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
本申请实施例公开一种泛素化位点的识别方法,图1所示,包括:
S101、获取蛋白质的三维结构信息。
蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定空间结构的物质。氨基酸是蛋白质的基本组成单位,一个蛋白质中包含有多个氨基酸;氨基酸又分为多个种类,赖氨酸是氨基酸的一种。
三维结构信息即蛋白质的三维结构,由于不是所有的蛋白质的三维结构信息均是已知的,因此,在一实施例中,获取蛋白质的三维结构信息的步骤包括:
S1011、在蛋白质的三维结构信息为未知时,使用蛋白质三维结构预测程序对蛋白质进行处理,得到格式为PDB(protein data bank)的三维结构信息;
S1012、在蛋白质的三维结构信息为已知时,获取三维结构信息。
其中,在步骤S1011中,蛋白质三维结构预测程序包括但不限于Alphafold2。PDB是生物信息学中存储表示三维蛋白质的一种文件格式。在步骤S1012中,由于三维结构信息为已知,当前执行主体可以直接接收传输来的三维结构信息,也可以到预设的存储路径下主动调取蛋白质的三维结构信息。需要说明的是,在本实施例中,存储三维结构信息的文件格式均为PDB。
S102、从三维结构信息提取出空间结构特征信息。
其中,空间结构特征信息包含有蛋白质的三维特性,相比于现有技术中使用蛋白质序列信息,识别泛素化位点的过程考虑的更为全面,有助于提高识别精度。S103、基于训练完成的卷积模型对空间结构特征信息进行处理,得到赖氨酸节点的赖氨酸特征信息。
将空间结构特征信息作为训练完成的卷积模型的输入参数,求得赖氨酸节点的赖氨酸特征信息。为了更好地理解,如图2所示,在将空间结构特征信息图像化后,即可得到多个氨基酸节点,多个氨基酸节点中包含有赖氨酸节点。需要说明的是,训练完成的卷积模型的输入参数是空间结构特征信息,而非图像化后的空间结构特征信息,图2仅为了便于理解的示意图。
在一实施例中,卷积模型通过蛋白质训练集训练完成。相比于现有技术中使用数量比为1:1的可泛素化赖氨酸和非泛素化赖氨酸,蛋白质训练集代表将整个蛋白质作为训练样本对卷积模型进行训练,使卷积模型的输入更贴近真实蛋白质的情况,提高了训练完成的卷积模型的质量和计算结果真实度。
如图1所示,S104、若赖氨酸特征信息与预设的分类条件匹配,则对应的赖氨酸节点为泛素化位点。
每个赖氨酸特征信息对应一个赖氨酸节点,每个赖氨酸节点对应蛋白质中的一个赖氨酸。在赖氨酸特征信息与分类条件匹配时,证明蛋白质中对应的赖氨酸能够进行泛素化,从而识别出该赖氨酸为泛素化位点。通过蛋白质的三维结构信息得到具有蛋白质三维特性的空间结构特征信息,再利用基于蛋白质训练集训练的卷积模型得到赖氨酸特征信息,对蛋白质中泛素化位点进行识别,考虑的更全面,得到的赖氨酸特征信息精度更高,提高了蛋白质的泛素化位点的识别精度。
其中,在一实施例中,分类条件为0-1之间一个数值。具体的,在一应用场景中,分类条件为赖氨酸特征信息中包含的数值是否大于0.6,若大于0.6,判定对应的赖氨酸为可泛素化位点;否则为非泛素化位点。
在其他实施例中,分类条件根据赖氨酸特征信息制定。从赖氨酸特征信息中能够得到赖氨酸特征,再根据赖氨酸特征将对应的赖氨酸分为两类,一类为可泛素化,一类为非泛素化。
在另一本发明实施例中,为了进一步限定及说明,如图3所示,通过蛋白质训练集训练卷积模型的步骤包括:
S201、获取蛋白质训练集;蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息。
在一实施例中,训练卷积模型时,设置有多批次的蛋白质训练集,每批次中包含有多个蛋白质训练集;每个蛋白质训练集中包含有多组蛋白质样本信息和赖氨酸样本信息。
其中,为了便于理解,在实施例中,用于训练卷积模型的蛋白质称为样本蛋白质。样本蛋白质中包含的赖氨酸数量以及可泛素化的赖氨酸均为已知量。蛋白质样本信息指利用样本蛋白质得到的空间结构特征信息;赖氨酸样本信息指基于样本蛋白质中赖氨酸的数量构建的矩阵信息。
S202、将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息。
在一实施例中,赖氨酸训练信息指利用卷积模型计算得到的样本蛋白质中赖氨酸数量,并基于赖氨酸数量构建的矩阵信息。为了便于理解,赖氨酸样本信息是基于样本蛋白质中实际的赖氨酸数量构建的矩阵信息;赖氨酸训练信息是通过卷积模型计算得到的样本蛋白质中的赖氨酸数量,进而构建的矩阵信息。即赖氨酸样本信息是真实值,赖氨酸训练信息是计算值。
S203、基于赖氨酸训练信息和赖氨酸样本信息计算得到权参数和训练特征参数。
其中,权参数和训练特征参数用于计算卷积模型的损失函数的值,即损失值。由于训练卷积模型时输入参数为蛋白质样本信息,即输入参数相当于样本蛋白质,因此计算权参数,以对损失函数进行加权,提高损失值的计算精度,从而提高训练完成的卷积模型的精度。
S204、基于权参数、训练特征参数和预设的加权损失函数模型计算得到损失值。
S205、基于损失值和预设的训练条件判断是否完成训练。
在未完成卷积模型的训练时,迭代计算损失值;在完成卷积模型的训练时,停止迭代计算损失值。
为了提高卷积模型的计算精度,将蛋白质样本信息作为卷积模型的训练输入参数,使蛋白质样本信息中包含的可泛素化的赖氨酸数量和非泛素化的赖氨酸数量与实际蛋白质的情况相符。相比于现有技术中根据可泛素化的赖氨酸数量,从非泛素化的赖氨酸中选取等量的赖氨酸,使数量比例达成1:1的方式,现有技术中的非泛素化的赖氨酸数量容易与实际不符。本实施例通过设定加权损失函数模型,计算权参数和训练特征参数,计算得到损失值,评估卷积模型的训练进度,提高了卷积模型的训练效率和训练质量。
在一实施例中,训练条件为迭代计算500次损失值时,判定完成训练。在另一实施例中,训练条件为连续20次得到的损失值不再减小,判定完成训练。在其他实施例中,也可将迭代计算500次和连续20次损失值不再减小共同作为训练条件,满足其中一个,判定完成训练。
在另一本发明实施例中,为了进一步限定及说明,如图4所示,步骤将蛋白质样本信息作为卷积模型的输入参数计算得到赖氨酸训练信息包括:
S301、通过第一卷积层对蛋白质样本信息进行计算,得到第一特征矩阵。
其中,第一卷积层是卷积模型的第一层结构;蛋白质样本信息包括训练邻接矩阵和训练特征矩阵。在一实施例中,第一卷积层为GAT层,即Graph Attention Layer,用GATLayer1(128)表示;蛋白质样本信息用
Figure 193676DEST_PATH_IMAGE001
表示;其中
Figure 667382DEST_PATH_IMAGE002
Figure 105317DEST_PATH_IMAGE003
,为训练邻接矩阵;
Figure 57092DEST_PATH_IMAGE004
,为训练特征矩阵;L是蛋白质氨基酸数量,即样本蛋白质中的氨基酸数量;C是特征维度,在本实施例中使用ESM-1b提取,值为1280。
需要说明的是,在同一批次的蛋白质训练集中包含有多组蛋白质样本信息和赖氨酸样本信息时,将该批次中的所有蛋白质样本信息作为第一卷积层的输入参数进行计算,得到对应数量的第一特征矩阵。在计算L和C时,均根据对应的蛋白质样本信息进行计算,L不是同批次中所有蛋白质样本信息包含的氨基酸数量总和。由于不同样本蛋白质的氨基酸数量不同,因此计算得到的L也不同。
S302、通过第二卷积层对训练邻接矩阵和第一特征矩阵进行计算,得到第二特征矩阵。
其中,第二卷积层是卷积模型的第二层结构。在一实施例中,第二卷积层为GAT层,用GAT Layer2(128)表示;将训练邻接矩阵
Figure 529662DEST_PATH_IMAGE002
Figure 643112DEST_PATH_IMAGE003
和第一特征矩阵作为第二卷积层的输入参数,计算得到第二特征矩阵。
S303、通过自注意力机制层对第二特征矩阵进行计算,得到第三特征矩阵。
其中,自注意力机制层是卷积模型的第三层结构。在一实施例中,自注意力机制层用Self-attention Layer表示。自注意力机制层的输入参数为第二特征矩阵,输出参数为第三特征矩阵。
S304、通过第三卷积层对训练邻接矩阵和第三特征矩阵进行计算,得到蛋白质训练信息。
其中,第三卷积层是卷积模型的第四层结构。在一实施例中,第三卷积层为GAT层,用GAT Layer3(1)表示;需要说明的是,第三卷积层的通道数为1,即蛋白质训练信息为
Figure 847303DEST_PATH_IMAGE005
Figure 71611DEST_PATH_IMAGE006
在一实施例中,为了便于后期对泛素化位点进行识别,在第三卷积层输出蛋白质训练信息后,利用激活函数将蛋白质训练信息中的数值缩减至0-1之间。具体的,在一应用场景中,激活函数为sigmoid。
需要说明的是,在同批次的蛋白质训练集中包含有多组蛋白质样本信息和赖氨酸样本信息时,卷积模型会输出与组数等量的蛋白质训练信息。在利用激活函数对各个蛋白质训练信息进行计算处理后,执行步骤S305。
S305、从蛋白质训练信息中筛选出赖氨酸训练信息。
在一实施例中,每个蛋白质样本信息中的赖氨酸均被排在所有氨基酸节点的最前方,例如一个样本蛋白质共包含有1000个氨基酸节点,其中包含有10个赖氨酸节点。由于样本蛋白质的所有信息均为已知量,且蛋白质样本信息实际是一个矩阵,因此在将样本蛋白质转换成蛋白质样本信息之后,将10个赖氨酸节点排列在矩阵的前端,而后再将蛋白质样本信息作为第一卷积层的输入参数进行计算。使蛋白质训练信息中排在前10的氨基酸节点均为赖氨酸节点。如此,即可直接筛选出赖氨酸训练信息。
在其他实施例中,通过预设的赖氨酸节点标识从蛋白质训练信息中筛选出赖氨酸节点,从而获得对应的赖氨酸训练信息。具体的,赖氨酸节点标识包括但不限于元素种类和中心碳原子的位置信息。
在一实施例中,蛋白质训练信息有多个,则赖氨酸训练信息有多个,为了便于区分,赖氨酸训练信息表示为
Figure 133108DEST_PATH_IMAGE007
Figure 948618DEST_PATH_IMAGE008
。其中,
Figure 361144DEST_PATH_IMAGE009
为第i个赖氨酸训练信息中的赖氨酸数量。
通过设置第一卷积层和第二卷积层,使蛋白质样本信息中的各个氨基酸节点能够学习到更多有关其他节点的特征;在利用自注意力机制层进一步扩大每个氨基酸节点的学习范围,提高了卷积模型的训练精度。
在另一本发明实施例中,为了进一步限定及说明,步骤基于赖氨酸训练信息和赖氨酸样本信息计算得到权参数和训练特征参数包括:
S401、统计赖氨酸训练信息的数量得到样本数量。
在一实施例中,同批次包含多组蛋白质样本信息和赖氨酸样本信息时,计算得到多个赖氨酸训练信息,且赖氨酸训练信息的数量与蛋白质样本信息的数量相同。因此,赖氨酸训练信息的数量即代表同一批次中蛋白质样本信息的数量;在本实施例中,样本数量用batchsize表示;则有i=1,2,……,batchsize。
需要说明的是,由于样本蛋白质、蛋白质样本信息和赖氨酸样本信息的数量相同,因此步骤S401也可以替换为:统计赖氨酸样本信息的数量得到样本数量。为了便于理解,在训练卷积模型时,设置了300批次的蛋白质训练集,每批次中包含有100组蛋白质样本信息和赖氨酸样本信息。则在计算当前批次的样本数量时,统计当前批次中的蛋白质样本信息的数量或赖氨酸样本信息的数量均可得到,batchsize=100。
S402、统计各赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量。
S403、统计各赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量。
需要说明的是,第一赖氨酸数量由训练中的卷积模型计算得到,第二赖氨酸数量是样本蛋白质中实际的赖氨酸数量,两者可能相同,可能不同。且第一赖氨酸数量是同批次中所有赖氨酸训练信息中赖氨酸节点求和得到的总数,即第一赖氨酸数量=
Figure 389143DEST_PATH_IMAGE010
;同理,第二赖氨酸数量是所有赖氨酸样本信息中赖氨酸节点求和得到的总数,即第二赖氨酸数量=
Figure 101884DEST_PATH_IMAGE011
S404、基于样本数量和第一赖氨酸数量构建得到训练特征参数中的第一二维矩阵。
需要说明的是,在同批次中包含有多组蛋白质样本信息和赖氨酸样本信息时,由于每个蛋白质样本信息中包含的赖氨酸节点数量不同,因此计算得到的各个赖氨酸训练信息中包含的赖氨酸节点数量不同,无法将同批次计算得到的所有赖氨酸训练信息融合为一个三维矩阵。因此,利用样本数量将同批次中的赖氨酸训练信息转换为第一二维矩阵
Figure 291557DEST_PATH_IMAGE012
S405、基于样本数量和第二赖氨酸数量构建得到训练特征参数中的第二二维矩阵。
与步骤S404同理,每个赖氨酸样本信息与蛋白质样本信息对应,因此同批次中的赖氨酸样本信息包含的赖氨酸数量可能相同,可能不同,无法构成三维矩阵。利用样本数量将同批次中的赖氨酸样本信息转换为第二二维矩阵
Figure 191380DEST_PATH_IMAGE013
S406、将第一赖氨酸数量和第二赖氨酸数量求和得到权参数中的赖氨酸总量。
S407、根据赖氨酸训练信息和预设的分数阈值统计赖氨酸训练信息以及赖氨酸样本信息中可泛素化的赖氨酸数量,得到权参数中的可泛素化总数和非泛素化总数。
在一实施例中,利用激活函数将赖氨酸训练信息中与赖氨酸节点对应的数值转换为0-1之间的分数后,根据分数阈值,判定大于分数阈值的数值对应的赖氨酸节点为可泛素化位点,小于或等于分数阈值的数值对应的赖氨酸节点为非泛素化位点。再统计所有可泛素化的赖氨酸数量以及非泛素化的赖氨酸数量,即可得到可泛素化总数和非泛素化总数。在本实施例中,赖氨酸总量用N表示;可泛素化总数用
Figure 288649DEST_PATH_IMAGE014
表示;非泛素化总数用
Figure 590317DEST_PATH_IMAGE015
表示。
权参数和训练特征参数的计算过程简单,不易出错,保证了损失值的准确度。
在一实施例中,加权损失函数模型为:
Figure 950892DEST_PATH_IMAGE016
其中,loss为损失值;N为赖氨酸总量;
Figure 619901DEST_PATH_IMAGE014
为可泛素化总数;
Figure 989703DEST_PATH_IMAGE015
为非泛素化总数;
Figure 411457DEST_PATH_IMAGE017
为第二二维矩阵;
Figure 208512DEST_PATH_IMAGE018
为第一二维矩阵。
通过转换的方式,基于样本数量和赖氨酸数量构建第一二维矩阵和第二二维矩阵,解决了由于输入的样本蛋白质中含有的赖氨酸数量不同无法构成三维矩阵的问题,实现了损失值的精确计算。同时简单的转换过程和权参数的计算过程,有利于节约资源。
在另一本发明实施例中,为了进一步限定及说明,步骤从三维结构信息提取出空间结构特征信息包括:
S501、基于预设的中心碳原子标识识别三维结构信息中各个氨基酸的中心碳原子。
三维结构信息包含有氨基酸种类、氨基酸组成元素、位置信息等;其中,氨基酸种类例如MET、ARG、LEU,氨基酸组成元素例如氮、碳、氧、中心碳原子等。其中,中心碳原子用CA表示。由于每个氨基酸都有一个中心碳原子CA,称为Ca原子。因此,将三维结构信息中各个中心碳原子作为对应氨基酸的代表。在识别中心碳原子时,利用中心碳原子标识进行识别即可。
S502、从三维结构信息中提取与各个中心碳原子对应的位置信息。
将中心碳原子的位置信息作为对应氨基酸的位置信息。
S503、基于位置信息计算各氨基酸间的距离信息。
在一实施例中,位置信息是一个坐标,通过位置信息可计算得到两个氨基酸之间的距离,即距离信息。
S504、在距离信息小于预设的距离阈值时,判定对应的两个氨基酸为连接关系,以生成空间结构特征信息。
其中,距离阈值用D表示,由于空间结构特征信息的关键为氨基酸之间的连接关系。因此距离阈值D的取值尤为重要,决定了空间结构特征信息的精度。需要说明的是,判定两个氨基酸之间为连接关系后,会形成由一个氨基酸指向相连氨基酸的向量,从而形成矩阵。即空间结构特征信息包含邻接矩阵和特征矩阵。
通过中心碳原子的位置信息判定蛋白质中各个氨基酸之间的连接关系,从而生成空间结构特征信息。使空间结构特征信息中包含有蛋白质的所有氨基酸,再以空间结构特征信息作为训练完成的卷积模型的输入参数,识别可泛素化位点,提高了识别精度。
在另一本发明实施例中,为了进一步限定及说明,在生成空间结构特征信息之后,所述识别方法还包括:
S601、根据赖氨酸标识识别空间结构特征信息中的赖氨酸节点。
在一实施例中,将代表氨基酸种类为赖氨酸的字母作为赖氨酸标识,识别出赖氨酸节点。
S602、将赖氨酸节点配置在空间结构特征信息中的前方。
空间结构特征信息为有行有列的阵列,将懒氨酸节点排在前列。
通过改变空间结构特征信息中赖氨酸节点的位置,方便后续查找赖氨酸节点的操作,提高效率。
在另一本发明实施例中,为了进一步限定及说明,在训练完成卷积模型后,所述识别方法还包括:
S701、获取非泛素化正确率和距离阈值的优化范围。
其中,训练卷积模型使用的蛋白质为样本蛋白质,由于样本蛋白质中氨基酸的数量、赖氨酸的数量以及赖氨酸中可泛素化的数量均为已知量。因此将样本蛋白质作为训练完成的卷积模型的输入参数,即可得到训练完成的卷积模型的计算结果。再将计算结果与样本蛋白质的实际结果比对,即可计算出由训练完成的卷积模型计算的非泛素化位点的正确率。在一实施例中,设定非泛素化正确率为0.95;距离阈值D的优化范围为[0,20]。
S702、从优化范围中选择距离阈值并结合非泛素化正确率,利用贝叶斯优化迭代计算可泛素化正确率。
在一实施例中,根据贝叶斯优化原理,从优化范围内选择超参数的具体参数值;其中,超参数指距离阈值。根据超参数的具体参数值转化样本蛋白质的三维结构信息,得到空间结构特征信息。将空间结构特征信息作为训练完成的卷积模型的输入参数,最后得到样本蛋白质的可泛素化数量和非泛素化数量。将非泛素化数量与样本蛋白质真实的非泛素化数量比对,计算得到非泛素化正确率。若非泛素化正确率大于0.95,则计算可泛素化正确率。并将该次选择的超参数的具体参数值记录到已评价集合R中。相应的,根据优化范围和已评价集合R得到未评价集合
Figure 817348DEST_PATH_IMAGE019
从未评价集合中选择超参数的具体参数值,重复上述步骤,迭代计算可泛素化正确率。
S703、在满足预设的迭代条件后,提取与最高的可泛素化正确率对应的距离阈值,以对距离阈值进行优化。
在一实施例中,迭代条件为迭代20次。即当迭代20次后,停止迭代计算可泛素化正确率。此时存储有20个可泛素化正确率;每个可泛素化正确率对应的具体参数值均保存在已评价集合中。从已评价集合中提取该具体参数值作为距离阈值的值,完成对距离阈值的优化。
通过优化距离阈值,进一步提高了泛素化位点识别的精度。
在一应用场景中,优化距离阈值的过程如下:
将目标函数建模为一个高斯过程
Figure 521998DEST_PATH_IMAGE020
作为先验知识,其中
Figure 532680DEST_PATH_IMAGE021
Figure 500636DEST_PATH_IMAGE023
为超参数。假设存在一个已评价集合
Figure 127926DEST_PATH_IMAGE024
和未评价集合
Figure 839530DEST_PATH_IMAGE025
。已知评价集合中存放的是已知点(存放的距离阈值知道其对应的准确率),未评价集合存放的是还未经过验证的候选超参。基于该先验知识推导出
Figure 704718DEST_PATH_IMAGE026
的均值
Figure 125466DEST_PATH_IMAGE027
和方差
Figure 708894DEST_PATH_IMAGE029
Figure 958610DEST_PATH_IMAGE030
Figure 475042DEST_PATH_IMAGE031
其中
Figure 784801DEST_PATH_IMAGE032
Figure 855525DEST_PATH_IMAGE033
为对应协方差矩阵,得到已知评价集和未知评价集的分布后,通过采集函数
Figure 440090DEST_PATH_IMAGE034
来选定下一个验证迭代的
Figure 279870DEST_PATH_IMAGE035
,其中采集函数
Figure 291688DEST_PATH_IMAGE034
如下:
Figure 584129DEST_PATH_IMAGE036
Figure 441227DEST_PATH_IMAGE037
其中
Figure 417404DEST_PATH_IMAGE038
是已评价集合
Figure 68966DEST_PATH_IMAGE039
中的最优解的准确率,
Figure 114282DEST_PATH_IMAGE040
为均值函数,
Figure 40650DEST_PATH_IMAGE041
为累积分布函数,
Figure 589443DEST_PATH_IMAGE042
为标准正态分布的概率密度函数。
按上述的流程不断迭代更新已知评价集合R,得出较优的距离阈值D。
本申请实施例公开的一种泛素化位点的识别方法的实施原理为:
如图5所示,在获得蛋白质的三维结构信息后,将三维结构信息转换为空间结构特征信息。空间结构特征信息包含邻接矩阵和特征矩阵。将空间结构特征信息作为训练完成的卷积模型的输入参数,得到训练完成的卷积模型输出的结果,即赖氨酸特征信息。赖氨酸特征信息为仅关于赖氨酸的矩阵,矩阵的行数为赖氨酸的数量,列数为1。即得到由数量与赖氨酸数量相等的若干数值构成的矩阵。数值经过激活函数处理后范围在0-1之间。而后根据分类条件判断各个数值是否匹配,若数值小于0.5,则与数值对应的赖氨酸为非泛素化位点;若数值大于或等于0.5,则与数值对应的赖氨酸为可泛素化位点,完成对泛素化位点的识别。
在泛素化位点的识别过程中,考虑了蛋白质的三维特性,使泛素化位点的识别更为精准。在训练卷积模型时,使用整个蛋白质作为卷积模型的输入参数,提高了卷积模型的数据处理精度,进一步提高了泛素化位点的识别精度。此外,在训练卷积模型过程中,求得权参数,利用权参数计算得到损失值,保证了损失值的计算准确度,从而有助于保证卷积模型的训练效率,减少迭代次数。
本申请实施例还公开一种泛素化位点的识别系统,如图6所示,包括获取模块1,用于获取蛋白质的三维结构信息;
提取模块2,用于从所述三维结构信息提取出空间结构特征信息;
处理模块3,用于基于训练完成的卷积模型对所述空间结构特征信息进行处理,得到赖氨酸节点的赖氨酸特征信息;所述卷积模型通过蛋白质训练集训练完成;
判定模块4,用于若所述赖氨酸特征信息与预设的分类条件匹配,则对应的所述赖氨酸节点为泛素化位点。
优选地,所述系统还包括训练模块,用于获取所述蛋白质训练集;所述蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息;
计算模块,用于将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息;
参数模块,用于基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数;
损失值模块,用于基于所述权参数、所述训练特征参数和预设的加权损失函数模型计算得到损失值;
判断模块,用于基于所述损失值和预设的训练条件判断是否完成训练;所述判断模块还用于在未完成所述卷积模型的训练时,迭代计算所述损失值;在完成所述卷积模型的训练时,停止迭代计算所述损失值。
优选地,所述计算模块包括第一卷积层单元,用于通过第一卷积层对所述蛋白质样本信息进行计算,得到第一特征矩阵;所述蛋白质样本信息包括训练邻接矩阵和训练特征矩阵;
第二卷积层单元,用于通过第二卷积层对所述训练邻接矩阵和所述第一特征矩阵进行计算,得到第二特征矩阵;
自注意力机制层单元,用于通过自注意力机制层对所述第二特征矩阵进行计算,得到第三特征矩阵;
第三卷积层单元,用于通过第三卷积层对所述训练邻接矩阵和所述第三特征矩阵进行计算,得到蛋白质训练信息;
筛选单元,用于从所述蛋白质训练信息中筛选出所述赖氨酸训练信息。
优选地,所述参数模块包括样本单元,用于统计所述赖氨酸训练信息的数量得到样本数量;
第一赖氨酸单元,用于统计各所述赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量;
第二赖氨酸单元,用于统计各所述赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量;
第一矩阵单元,用于基于所述样本数量和所述第一赖氨酸数量构建得到所述训练特征参数中的第一二维矩阵;
第二矩阵单元,用于基于所述样本数量和所述第二赖氨酸数量构建得到所述训练特征参数中的第二二维矩阵;
总量单元,用于将所述第一赖氨酸数量和所述第二赖氨酸数量求和得到所述权参数中的赖氨酸总量;
统计单元,用于根据所述赖氨酸训练信息和预设的分数阈值统计所述赖氨酸训练信息以及所述赖氨酸样本信息中可泛素化的赖氨酸数量,得到所述权参数中的可泛素化总数和非泛素化总数。
优选地,所述提取模块2包括识别单元,用于基于预设的中心碳原子标识识别所述三维结构信息中各个氨基酸的中心碳原子;
位置单元,用于从所述三维结构信息中提取与各个所述中心碳原子对应的位置信息;
距离单元,用于基于所述位置信息计算各所述氨基酸间的距离信息;
生成单元,用于在所述距离信息小于预设的距离阈值时,判定对应的两个所述氨基酸为连接关系,以生成所述空间结构特征信息。
优选地,所述提取模块2还包括节点单元,用于根据赖氨酸标识识别所述空间结构特征信息中的所述赖氨酸节点;
配置单元,用于将所述赖氨酸节点配置在所述空间结构特征信息中的前方。
优选地,所述系统还包括条件模块,用于获取非泛素化正确率和所述距离阈值的优化范围;
正确率模块,用于从所述优化范围中选择所述距离阈值并结合所述非泛素化正确率,利用贝叶斯优化迭代计算可泛素化正确率;
优化模块,用于在满足预设的迭代条件后,提取与最高的所述可泛素化正确率对应的所述距离阈值,以对所述距离阈值进行优化。
获取模块获得三维结构信息后,通过提取模块将三维结构信息转换为空间结构特征信息,再经过处理模块得到赖氨酸特征信息。由于利用了蛋白质的三维特性,提高了泛素化位点的识别精度。第一矩阵单元和第二矩阵单元利用样本数量、第一赖氨酸数量和第二赖氨酸数量,分别构建出第一二维矩阵和第二二维矩阵,实现了训练特征参数的计算,过程简单,利于节约计算资源。优化模块对距离阈值进行优化,提高了空间结构特征信息的转换精度,从而提高了泛素化位点的识别精度和质量。
这里需要指出的是:以上应用于泛素化位点的识别系统实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果。对于本发明泛素化位点的识别系统实施例中未披露的技术细节,本领域的技术人员请参照本发明方法实施例的描述而理解。
需要说明的是,本发明实施例中,如果以软件功能模块的形式实现上述方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施例还公开一种存储介质,存储有能够被处理器加载并执行上述方法的计算机程序。
本申请实施例还公开一种泛素化位点的识别装置,如图7所示,包括一个处理器100、至少一个通信总线200、用户接口300、至少一个外部通信接口400和存储器500。其中,通信总线200配置为实现这些组件之间的连接通信。其中,用户接口300可以包括显示屏,外部通信接口400可以包括标准的有线接口和无线接口。其中,存储器500中存储有泛素化位点的识别方法。其中,处理器100用于在执行存储器500中存储的泛素化位点的识别时采用上述方法。
以上应用于泛素化位点的识别装置和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明泛素化位点的识别装置和存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (8)

1.一种泛素化位点的识别方法,其特征在于,包括:
获取蛋白质的三维结构信息;
从所述三维结构信息提取出空间结构特征信息;所述空间结构特征 信息包括特征矩阵和邻接矩阵;
基于训练完成的卷积模型对所述空间结构特征信息进行处理,得到赖氨酸节点的赖氨酸特征信息;所述卷积模型通过蛋白质训练集训练完成;
若所述赖氨酸特征信息与预设的分类条件匹配,则对应的所述赖氨酸节点为泛素化位点;
通过所述蛋白质训练集训练所述卷积模型的步骤包括:
获取所述蛋白质训练集;所述蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息;
将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息;
基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数;
基于所述权参数、所述训练特征参数和预设的加权损失函数模型计算得到损失值;
基于所述损失值和预设的训练条件判断是否完成训练;
在未完成所述卷积模型的训练时,迭代计算所述损失值;在完成所述卷积模型的训练时,停止迭代计算所述损失值;
所述基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数的步骤包括:
统计所述赖氨酸训练信息的数量得到样本数量;
统计各所述赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量;
统计各所述赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量;
基于所述样本数量和所述第一赖氨酸数量构建得到所述训练特征参数中的第一二维矩阵;
基于所述样本数量和所述第二赖氨酸数量构建得到所述训练特征参数中的第二二维矩阵;
将所述第一赖氨酸数量和所述第二赖氨酸数量求和得到所述权参数中的赖氨酸总量;
根据所述赖氨酸训练信息和预设的分数阈值统计所述赖氨酸训练信息以及所述赖氨酸样本信息中可泛素化的赖氨酸数量,得到所述权参数中的可泛素化总数和非泛素化总数。
2.如权利要求1所述的泛素化位点的识别方法,其特征在于,所述将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息的步骤包括:
通过第一卷积层对所述蛋白质样本信息进行计算,得到第一特征矩阵;所述蛋白质样本信息包括训练邻接矩阵和训练特征矩阵;
通过第二卷积层对所述训练邻接矩阵和所述第一特征矩阵进行计算,得到第二特征矩阵;
通过自注意力机制层对所述第二特征矩阵进行计算,得到第三特征矩阵;
通过第三卷积层对所述训练邻接矩阵和所述第三特征矩阵进行计算,得到蛋白质训练信息;
从所述蛋白质训练信息中筛选出所述赖氨酸训练信息。
3.如权利要求1所述的泛素化位点的识别方法,其特征在于,所述从所述三维结构信息提取出空间结构特征信息的步骤包括:
基于预设的中心碳原子标识识别所述三维结构信息中各个氨基酸的中心碳原子;
从所述三维结构信息中提取与各个所述中心碳原子对应的位置信息;
基于所述位置信息计算各所述氨基酸间的距离信息;
在所述距离信息小于预设的距离阈值时,判定对应的两个所述氨基酸为连接关系,以生成所述空间结构特征信息。
4.如权利要求3所述的泛素化位点的识别方法,其特征在于,在生成所述空间结构特征信息之后,还包括:
根据赖氨酸标识识别所述空间结构特征信息中的所述赖氨酸节点;
将所述赖氨酸节点配置在所述空间结构特征信息中的前方。
5.如权利要求3所述的泛素化位点的识别方法,其特征在于,在训练完成所述卷积模型后,还包括:
获取非泛素化正确率和所述距离阈值的优化范围;
从所述优化范围中选择所述距离阈值并结合所述非泛素化正确率,利用贝叶斯优化迭代计算可泛素化正确率;
在满足预设的迭代条件后,提取与最高的所述可泛素化正确率对应的所述距离阈值,以对所述距离阈值进行优化。
6.一种泛素化位点的识别系统,其特征在于,包括获取模块,用于获取蛋白质的三维结构信息;
提取模块,用于从所述三维结构信息提取出空间结构特征信息;所述空间结构特征 信息包括特征矩阵和邻接矩阵;
处理模块,用于基于训练完成的卷积模型对所述空间结构特征信息进行处理,得到赖氨酸节点的赖氨酸特征信息;所述卷积模型通过蛋白质训练集训练完成;所述蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息,所述蛋白质样本信息包括训练邻接矩阵和训练特征矩阵;
判定模块,用于若所述赖氨酸特征信息与预设的分类条件匹配,则对应的所述赖氨酸节点为泛素化位点;
所述系统还包括训练模块,用于获取所述蛋白质训练集;所述蛋白质训练集中至少包含一组蛋白质样本信息和赖氨酸样本信息;
计算模块,用于将所述蛋白质样本信息作为所述卷积模型的输入参数计算得到赖氨酸训练信息;
参数模块,用于基于所述赖氨酸训练信息和所述赖氨酸样本信息计算得到权参数和训练特征参数;
损失值模块,用于基于所述权参数、所述训练特征参数和预设的加权损失函数模型计算得到损失值;
判断模块,用于基于所述损失值和预设的训练条件判断是否完成训练;所述判断模块还用于在未完成所述卷积模型的训练时,迭代计算所述损失值;在完成所述卷积模型的训练时,停止迭代计算所述损失值;
所述参数模块包括样本单元,用于统计所述赖氨酸训练信息的数量得到样本数量;
第一赖氨酸单元,用于统计各所述赖氨酸训练信息中的赖氨酸得到第一赖氨酸数量;
第二赖氨酸单元,用于统计各所述赖氨酸样本信息中的赖氨酸得到第二赖氨酸数量;
第一矩阵单元,用于基于所述样本数量和所述第一赖氨酸数量构建得到所述训练特征参数中的第一二维矩阵;
第二矩阵单元,用于基于所述样本数量和所述第二赖氨酸数量构建得到所述训练特征参数中的第二二维矩阵;
总量单元,用于将所述第一赖氨酸数量和所述第二赖氨酸数量求和得到所述权参数中的赖氨酸总量;
统计单元,用于根据所述赖氨酸训练信息和预设的分数阈值统计所述赖氨酸训练信息以及所述赖氨酸样本信息中可泛素化的赖氨酸数量,得到所述权参数中的可泛素化总数和非泛素化总数。
7.一种泛素化位点的识别装置,包括存储器和处理器,其特征在于,所述存储器中存储有泛素化位点的识别方法,所述处理器在执行所述泛素化位点的识别方法时采用如权利要求1-5任一种所述方法。
8.一种存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1-5任一项所述方法的计算机程序。
CN202210850486.2A 2022-07-20 2022-07-20 泛素化位点的识别方法、装置、系统和存储介质 Active CN114927165B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210850486.2A CN114927165B (zh) 2022-07-20 2022-07-20 泛素化位点的识别方法、装置、系统和存储介质
PCT/CN2022/110318 WO2024016389A1 (zh) 2022-07-20 2022-08-04 泛素化位点的识别方法、装置、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210850486.2A CN114927165B (zh) 2022-07-20 2022-07-20 泛素化位点的识别方法、装置、系统和存储介质

Publications (2)

Publication Number Publication Date
CN114927165A CN114927165A (zh) 2022-08-19
CN114927165B true CN114927165B (zh) 2022-12-02

Family

ID=82815711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210850486.2A Active CN114927165B (zh) 2022-07-20 2022-07-20 泛素化位点的识别方法、装置、系统和存储介质

Country Status (2)

Country Link
CN (1) CN114927165B (zh)
WO (1) WO2024016389A1 (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010131962A2 (en) * 2009-05-15 2010-11-18 Stichting Het Nederlands Kanker Instituut Lysine compounds and their use in site- and chemoselective modification of peptides and proteins
WO2015030585A2 (en) * 2013-08-27 2015-03-05 Academisch Ziekenhuis Leiden H.O.D.N. Lumc Methods for detecting post-translationally modified lysines in a polypeptide
EP2738255A4 (en) * 2011-07-29 2015-04-08 Univ Tokushima PEPTIDE FROM ERAP1 AND ITS USE
CN107058298A (zh) * 2017-06-06 2017-08-18 中国海洋大学 一种基于人工减数分裂的辅助基因组组装方法
CN109524058A (zh) * 2018-11-07 2019-03-26 浙江工业大学 一种基于差分进化的蛋白质二聚体结构预测方法
CN109785902A (zh) * 2019-02-20 2019-05-21 成都分迪科技有限公司 一种泛素化降解目标蛋白质的预测方法
CN112151128A (zh) * 2020-10-16 2020-12-29 腾讯科技(深圳)有限公司 相互作用信息的确定方法、装置、设备及存储介质
CN112447265A (zh) * 2020-11-25 2021-03-05 太原理工大学 基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113412519A (zh) * 2019-02-11 2021-09-17 旗舰开拓创新六世公司 机器学习引导的多肽分析
CN113593633A (zh) * 2021-08-02 2021-11-02 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
CN113848259A (zh) * 2021-06-18 2021-12-28 上海交通大学医学院 基于高精度质谱的蛋白类泛素化修饰位点检测方法及应用
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN114333986A (zh) * 2021-09-06 2022-04-12 腾讯科技(深圳)有限公司 模型训练、药物筛选和亲和力预测的方法与装置
CN114420203A (zh) * 2021-12-08 2022-04-29 深圳大学 一种用于预测转录因子-靶基因相互作用的方法及模型
CN114724636A (zh) * 2022-03-22 2022-07-08 腾讯科技(深圳)有限公司 蛋白质超图的构建方法、构建装置及设备
CN114765063A (zh) * 2021-01-12 2022-07-19 上海交通大学 基于图神经网络表征的蛋白质与核酸结合位点预测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4055772B2 (ja) * 2002-04-26 2008-03-05 味の素株式会社 タンパク質構造解析方法、タンパク質構造解析装置、プログラム、および、記録媒体
CN107563150B (zh) * 2017-08-31 2021-03-19 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
US20200158737A1 (en) * 2018-11-21 2020-05-21 Regents Of The University Of Minnesota Methods of measuring ubiquitin-like modifications
CN110349628B (zh) * 2019-06-27 2021-06-15 广东药科大学 一种蛋白质磷酸化位点识别方法、系统、装置及存储介质
US20210104294A1 (en) * 2019-10-02 2021-04-08 The General Hospital Corporation Method for predicting hla-binding peptides using protein structural features
CN113571124B (zh) * 2020-04-29 2024-04-23 中国科学院上海药物研究所 一种配体-蛋白质相互作用的预测方法及装置
CN114283878A (zh) * 2021-08-27 2022-04-05 腾讯科技(深圳)有限公司 训练匹配模型、预测氨基酸序列和设计药物的方法与装置
CN114496095A (zh) * 2022-01-20 2022-05-13 广东药科大学 一种修饰位点识别方法、系统、装置及存储介质
CN114613427B (zh) * 2022-03-15 2023-01-31 水木未来(北京)科技有限公司 蛋白质三维结构预测方法及装置、电子设备和存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010131962A2 (en) * 2009-05-15 2010-11-18 Stichting Het Nederlands Kanker Instituut Lysine compounds and their use in site- and chemoselective modification of peptides and proteins
EP2738255A4 (en) * 2011-07-29 2015-04-08 Univ Tokushima PEPTIDE FROM ERAP1 AND ITS USE
WO2015030585A2 (en) * 2013-08-27 2015-03-05 Academisch Ziekenhuis Leiden H.O.D.N. Lumc Methods for detecting post-translationally modified lysines in a polypeptide
CN107058298A (zh) * 2017-06-06 2017-08-18 中国海洋大学 一种基于人工减数分裂的辅助基因组组装方法
CN109524058A (zh) * 2018-11-07 2019-03-26 浙江工业大学 一种基于差分进化的蛋白质二聚体结构预测方法
CN113412519A (zh) * 2019-02-11 2021-09-17 旗舰开拓创新六世公司 机器学习引导的多肽分析
CN109785902A (zh) * 2019-02-20 2019-05-21 成都分迪科技有限公司 一种泛素化降解目标蛋白质的预测方法
CN112151128A (zh) * 2020-10-16 2020-12-29 腾讯科技(深圳)有限公司 相互作用信息的确定方法、装置、设备及存储介质
CN112447265A (zh) * 2020-11-25 2021-03-05 太原理工大学 基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法
CN114765063A (zh) * 2021-01-12 2022-07-19 上海交通大学 基于图神经网络表征的蛋白质与核酸结合位点预测方法
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113848259A (zh) * 2021-06-18 2021-12-28 上海交通大学医学院 基于高精度质谱的蛋白类泛素化修饰位点检测方法及应用
CN113593633A (zh) * 2021-08-02 2021-11-02 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN114333986A (zh) * 2021-09-06 2022-04-12 腾讯科技(深圳)有限公司 模型训练、药物筛选和亲和力预测的方法与装置
CN114420203A (zh) * 2021-12-08 2022-04-29 深圳大学 一种用于预测转录因子-靶基因相互作用的方法及模型
CN114724636A (zh) * 2022-03-22 2022-07-08 腾讯科技(深圳)有限公司 蛋白质超图的构建方法、构建装置及设备

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
"Capsule network for protein ubiquitination site prediction";Yin Luo等;《ResearchGate》;20210131;第1-14页 *
"Computational identification of human ubiquitination sites using convolutional and recurrent neural networks";Xiaofeng Wang等;《Molecular Omics》;20211231(第7期);第135-141页 *
"Prediction and analysis of multiple protein lysine modified sites based on conditional wasserstein generative adversarial networks";Yang Y等;《BMC Bioinfomatics》;20211231(第22期);第171-175页 *
"图论方法研究蛋白质结构预测问题";史晓红等;《生物技术》;20051031;第15卷(第5期);第89-92页 *
"基于LightGBM的蛋白质类泛素化修饰位点预测";魏志森等;《南京理工大学学报》;20220430;第46卷(第2期);第156-163页 *
"基于卷积神经网络的蛋白质序列泛素化分类算法的研究与应用";夏瑀;《中国优秀硕士学位论文全文数据库》;20191215(第12期);第A006-144页 *
"基于深度学习方法的蛋白质泛素化位点预测方法研究";刘大鹏;《中国优秀硕士学位论文全文数据库》;20211215(第12期);第A006-293页 *
"基于深度学习的蛋白质泛素化位点预测方法研究";黄启义;《中国优秀硕士学位论文全文数据库》;20210815(第8期);第A006-212页 *
"基于特征选择的HIV-1蛋白酶剪切位点预测";刘惠等;《计算机应用》;20140630;第34卷(第S1期);第133-136页和第195页 *

Also Published As

Publication number Publication date
WO2024016389A1 (zh) 2024-01-25
CN114927165A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Camproux et al. A hidden markov model derived structural alphabet for proteins
Yang et al. Image-based classification of protein subcellular location patterns in human reproductive tissue by ensemble learning global and local features
US20230098285A1 (en) Apparatus and method for generating a protein-drug interaction prediction model for predicting protein-drug interaction and determining its uncertainty, and protein-drug interaction prediction apparatus and method
CN115312118A (zh) 一种基于图神经网络的单序列蛋白质接触图预测方法
CN115391561A (zh) 图网络数据集的处理方法、装置、电子设备、程序及介质
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN117153268A (zh) 一种细胞类别确定方法及系统
Colombo et al. FastMotif: spectral sequence motif discovery
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN114927165B (zh) 泛素化位点的识别方法、装置、系统和存储介质
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
CN115661498A (zh) 一种自优化单细胞聚类方法
CN115579068A (zh) 一种基于预训练和深度聚类的宏基因组物种重建方法
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
CN109801675B (zh) 一种确定蛋白质脂质功能的方法、装置和设备
Wang et al. Single-cell Hi-C data enhancement with deep residual and generative adversarial networks
CN111009287B (zh) SLiMs预测模型的生成方法、装置、设备和存储介质
CN117037895B (zh) 模型训练方法、装置、电子设备及存储介质
Mo et al. Applications of Machine Learning in Phylogenetics
CN116994652B (zh) 基于神经网络的信息预测方法、装置及电子设备
Zandi et al. Global protein-protein interaction networks in yeast saccharomyces cerevisiae and helicobacter pylori
CN111091865B (zh) MoRFs预测模型的生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant