CN112002378A - 一种基于几何图神经网络的蛋白质信号肽的预测方法及装置 - Google Patents

一种基于几何图神经网络的蛋白质信号肽的预测方法及装置 Download PDF

Info

Publication number
CN112002378A
CN112002378A CN202011177674.0A CN202011177674A CN112002378A CN 112002378 A CN112002378 A CN 112002378A CN 202011177674 A CN202011177674 A CN 202011177674A CN 112002378 A CN112002378 A CN 112002378A
Authority
CN
China
Prior art keywords
signal peptide
neural network
geometric
sequence
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011177674.0A
Other languages
English (en)
Other versions
CN112002378B (zh
Inventor
华权高
舒芹
赵愿安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Genecreate Biological Engineering Co ltd
Original Assignee
Wuhan Genecreate Biological Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Genecreate Biological Engineering Co ltd filed Critical Wuhan Genecreate Biological Engineering Co ltd
Priority to CN202011177674.0A priority Critical patent/CN112002378B/zh
Publication of CN112002378A publication Critical patent/CN112002378A/zh
Application granted granted Critical
Publication of CN112002378B publication Critical patent/CN112002378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明涉及一种基于几何图神经网络的蛋白质信号肽的预测方法及装置,其方法包括:获取数据集中的蛋白质序列,提取其中信号肽的字符序列;对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;根据所述字符序列和所述多维向量构建信号肽的特征图;将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测信号肽。本发明结合几何图神经网络和字符序列,在保留了特征提取的原始信息同时,减少了模型过拟合,提高了信号肽预测的准确率。

Description

一种基于几何图神经网络的蛋白质信号肽的预测方法及装置
技术领域
本发明涉及生物信息和深度学习领域,尤其涉及一种基于几何图神经网络的蛋白质信号肽的预测方法及装置。
背景技术
在生物体内,大部分的蛋白质不是以单体的形式行使功能,而是以相互作用的形式行使不同的生物功能。其中,蛋白质相互作用(Protein-Protein Interaction,PPI)是指由两个或两个以上的分子蛋白通过共价键的形式形成蛋白质复合体的过程。蛋白质相互作用在大多数生化功能中承担着重要的角色。例如,信号分子由蛋白质相互作用,将细胞外的信号传入细胞内部,而信号传递是许多功能发挥的基础。 对于蛋白质相互作用,从本质上来讲,其是通过蛋白质上部分残基的相互结合来实现的,这些残基被称为蛋白质相互作用位点(Protein-Protein Interaction Sites,PPIS)。
信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。信号肽作为一种短氨基酸序列,其大小大约16-30个氨基酸,引导蛋白质在膜间进行转移,进而将蛋白质运输到目标位置。
现有预测蛋白质信号肽及其切割位点的方法包括基于监督模型、基于生成式模型和基于同源性序列比对的方法。但这些方法或容易发生过拟合现象或不能很好地处理较长的氨基酸序列或无法准确识别切割位点。
发明内容
本发明针对现有中预测蛋白质信号肽的方法中存在的过拟合和无法准确识别切割位点的问题,在本发明的第一方面提供了一种基于几何图神经网络的蛋白质信号肽的预测方法,包括如下步骤:获取数据集中的蛋白质序列,提取其中信号肽的字符序列;对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;根据所述字符序列和所述多维向量构建信号肽的特征图;将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。
在本发明的一些实施例中,所述信号肽的字符序列表示为:
Figure 988664DEST_PATH_IMAGE001
其中,X表示信号肽的字符序列,λ表示氨基酸残基序列所包含的排列信息和/或物理化学信息的种类数。
为了提高预测的准确率,更全面的表征信号肽的物理化学性质、空间结构、统计等特征,在本发明的一些实施例中,所述序列进化特征、结构特征、统计特征分别为PSSM特征、PSAIA特征、HMM特征。
在本发明的一些实施例中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。进一步的,所述几何图神经网络模型的表示为:
Figure 365288DEST_PATH_IMAGE002
其中,
Figure 937214DEST_PATH_IMAGE003
表示虚拟节点的特征,p表示低聚合层的聚合函数,
Figure 300063DEST_PATH_IMAGE004
表示节点u的特 征;v表示低聚合层中的任一节点,
Figure 791611DEST_PATH_IMAGE005
表示节点v的邻居结构或邻居集合,u表示某种关 系下节点v的邻居节点,z v 表示节点v映射到隐藏空间的向量,z u 节点u映射到隐藏空间的向 量,i表示节点v的任意一个邻居,g表示节点v在所述特征图的邻居集合,s表示节点v在隐藏 空间的邻居集合;r表示节点z v 与z u 关系,τ表示隐藏空间中节点之间的关系运算符;q表示高 聚合层的聚合函数,
Figure 89869DEST_PATH_IMAGE006
表示聚合的虚拟节点的特征,
Figure 257414DEST_PATH_IMAGE007
表示隐藏层的特征,
Figure 830477DEST_PATH_IMAGE008
表 示非线性激活函数,
Figure 376865DEST_PATH_IMAGE009
表示线性权重矩阵,l表示节点所在网络的层序号。
在本发明的一些实施例的步骤S104中,所述根据所述字符序列和所述多维向量构建信号肽的特征图包括如下步骤:将信号肽的字符序列作为节点,相邻节点的边通过多维向量的距离进行度量;确定多维向量的距离的阈值,剪除无效节点和边;遍历所有有效节点和边,构建特征图。
在本发明的第二方面,提供了一种基于几何图神经网络的蛋白质信号肽的预测装置,包括获取模块、提取模块、融合模块、构建模块、预测模块,所述获取模块,用于获取数据集中的蛋白质序列,提取其中信号肽的字符序列; 所述提取模块,用于对所述信号肽进行特征提取,得到所述信号肽的进化特征、物理化学特征、结构特征、统计特征;所述融合模块,用于将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;所述构建模块,用于根据所述字符序列和所述多维向量构建信号肽的特征图;
所述预测模块,用于将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。进一步的,所述预测模块包括几何图神经网络,所述几何图神经网络用于预测待预测氨基酸序列中是否含有信号肽。
在本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面所述的方法。
在本发明的第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明第一方面所述的方法。
有益效果:
1.本发明融合了蛋白质信号肽的多种特征进行特征提取,通过保留原始信号肽的编码信息,保留了蛋白质的同源性;
2.由于几何图神经网络的层数解决了神经网络在训练过程中,由于层数过深而导致空间信息丢失,特别是信号肽的空间结构的信息丢失问题,进而减少模型的过拟合的发生,同时提高了预测的准确性。
附图说明
图1为本发明的一些实施例中的基于几何图神经网络的蛋白质信号肽的预测方法的基本流程图;
图2为本发明的一些实施例中的几何图神经网络模型图;
图3为本发明的一些实施例中的基于几何图神经网络的蛋白质信号肽的预测装置的基本结构图;
图4为本发明的电子设备的基本结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
参考图1,一种基于几何图神经网络的蛋白质信号肽的预测方法,包括如下步骤:S101.获取数据集中的蛋白质序列,提取其中信号肽的字符序列;S102.对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;S103.将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;S104.根据所述字符序列和所述多维向量构建信号肽的特征图;S105.将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。
需要说明的是,在步骤S101中,获取数据集中的蛋白质序列,然后获取其中的信号肽片段,利用现有技术或机器学习方法的常用分类器均可实现;此外常见蛋白质序列数据集包括但不限于SignalP 5 .0数据集、基准数据集 DBv5-Sel 和独立测试数据集 CAPRI-Alone;UniProtKB、Swiss-Prot和UniProtKB、TrEMBL。例如,SignalP 5 .0数据集共包含真核类17270条,其中信号肽2614条,跨膜螺旋1044条,非分泌蛋白13612条;革兰氏阳性菌类379条,其中信号肽189条,跨膜螺旋50条,非分泌蛋白140条;革兰氏阴性菌类931条,其中信号肽509条,跨膜螺旋220条,非分泌蛋白202条。
为保留原始的信号肽所在的氨基酸片段的编码信息,在本发明的一些实施例中,所述信号肽的字符序列表示为:
Figure 970658DEST_PATH_IMAGE001
Figure 904460DEST_PATH_IMAGE010
其中,X表示信号肽的字符序列,X 1 X 20 表示由20个不同字母排列组合表示的氨基酸残基序列;X 21 X 20+λ 表示氨基酸残基序列所包含的排列信息和/或物理化学信息的字母序列,λ表示其对应种类数;fi为第i种氨基酸残基出现的次数;可选的,0≤λ≤10;
x i表示X中的元素所对应的特征值,j表示权重因子,p j (j≤5)表示氨基酸的信息熵,p j (6≤j≤8)表示氨基酸的亲水疏水信息,p j (9≤j≤10)表示基于氨基酸图像的同源相似性。可以理解,为了表征两个信号肽中氨基酸的相关性(或称近似度),除了上述信息熵之外,还可包括交叉熵、互熵、欧式距离、地动距离、Wasserstein距离、KL散度、JS散度等。
在本发明的一些实施例中,所述序列进化特征、结构特征、统计特征分别为PSSM(PSSM,位置特定分数矩阵)序列进化特征、PSAIA结构特征、HMM(隐马尔可夫模型)特征。
具体地,PSSM打分矩阵可通过PSI-BLAST算法提取,HMM可通过HHblits算法提取;PSAIA 特征是与蛋白质结构相关的特征。其是使用了软件 PSAIA(Protein Structure andInteraction Analyzer)计算得出的关于蛋白质结构的几何参数。其中,PSAIA 的输入是蛋白质的 PDB 结构文件,输出是产生相互作用的蛋白质上所有残基的结构参数,通常结构参数包括输出的结构参数包括可及表面积(Accessible Surface Area)、相对可及性表面积(Relative ASA)、深度指数(Depth Index,DPX)、突出指数(Protrusion Index, CX)及疏水性(Hydrophobicity);
物理化学特征(Physicochemical characteristics)简称为 Phy Chem 物化特征,其代表的是蛋白质上每个残基的物理化学属性。这类特征是最早被应用到蛋白质相互作用位点的预测上。结合位点的残基更倾向于疏水性且往往是极性残基。另外,静电势能和脱溶能量也是非常有用的属性。
参考图2,在本发明的一些实施例中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。
具体地,该网络包括三部分,其中node embedding(节点信息嵌入)是A1-A2, 邻居 结构(structural neighborhood)是B1-B2,而bi-level aggregation是C。(1)Node embedding: 属于基本功能模块,将节点图(nodes map)映射到latent continuous space (隐连续空间),令G=(V,E),其中每个节点
Figure 15635DEST_PATH_IMAGE011
都会有一个特征向量
Figure 823054DEST_PATH_IMAGE012
,并且每个边
Figure 446803DEST_PATH_IMAGE013
都连接两个节点。将graph中的节点映射到隐空间中,记做映射函数为
Figure 215039DEST_PATH_IMAGE014
。在映射(mapping)的过程中,图(original graph)的结构和属性都保留 下来了。可以理解,此处的图(original graph)是指上述实施例中的特征图。
(2)Structural neighborhood: 基于图和隐藏空间,构造了一个结构化的邻居,
Figure 723380DEST_PATH_IMAGE015
,用来下一层聚合。其中
Figure 509940DEST_PATH_IMAGE016
是 节点集合,
Figure 55322DEST_PATH_IMAGE017
是节点上的关系操作。
Figure 435487DEST_PATH_IMAGE018
Figure 872154DEST_PATH_IMAGE019
与直接相连的节点,
Figure 795110DEST_PATH_IMAGE020
是隐藏空间中 到中心节点小于给定距离的节点。
Figure 29170DEST_PATH_IMAGE017
是一个定义在latent space上的函数,输入是有序对
Figure 303157DEST_PATH_IMAGE021
,输出一个离散的变量
Figure 277935DEST_PATH_IMAGE022
,表示空间中从节点
Figure 789819DEST_PATH_IMAGE023
Figure 191850DEST_PATH_IMAGE024
的集合关系,
Figure 281029DEST_PATH_IMAGE025
其中
Figure 75809DEST_PATH_IMAGE026
是几何关系的集合。
(3)Bi-level aggregation: 根据结构化的邻居
Figure 425888DEST_PATH_IMAGE027
,提出了一个针对GNN的 bi-level aggravation来更新节点的隐藏特征(hidden features)。bi-level aggravation包括两个聚合函数,这个函数既可以有效抽取邻居节点中的结构信息,也可以 确保original graph中的置换不变性。
于是,上述几何图神经网络模型的表示为:
Figure 749553DEST_PATH_IMAGE028
其中,
Figure 591607DEST_PATH_IMAGE003
表示虚拟节点的特征,p表示低聚合层的聚合函数,
Figure 928696DEST_PATH_IMAGE004
表示节点u的特 征;v表示低聚合层中的任一节点,
Figure 149593DEST_PATH_IMAGE005
表示节点v的邻居结构或邻居集合,u表示某种关 系下节点v的邻居节点,z v 表示节点v映射到隐藏空间的向量,z u 节点u映射到隐藏空间的向 量,i表示节点v的任意一个邻居,g表示节点v在所述特征图的邻居集合,s表示节点v在隐藏 空间的邻居集合;r表示节点z v 与z u 关系,τ表示隐藏空间中节点之间的关系运算符;q表示高 聚合层的聚合函数,
Figure 159006DEST_PATH_IMAGE006
表示聚合的虚拟节点的特征,
Figure 222777DEST_PATH_IMAGE007
表示隐藏层的特征,
Figure 93781DEST_PATH_IMAGE008
表 示非线性激活函数,
Figure 152873DEST_PATH_IMAGE009
表示线性权重矩阵,l表示节点所在网络的层序号。优选的,非线性 激活函数选用Focal loss或LovaszSoftmax。
在本发明的一些实施例中,所述根据所述字符序列和所述多维向量构建信号肽的特征图包括如下步骤:将信号肽的字符序列作为节点,相邻节点的边通过多维向量的距离进行度量;确定多维向量的距离的阈值,剪除无效节点和边;遍历所有有效节点和边,构建特征图。
参考图3,在本发明的第二方面,提供了一种基于几何图神经网络的蛋白质信号肽的预测装置1,包括获取模块11、提取模块12、融合模块13、构建模块14、预测模块15,所述获取模块11,用于获取数据集中的蛋白质序列,提取其中信号肽的字符序列; 所述提取模块12,用于对所述信号肽进行特征提取,得到所述信号肽的进化特征、物理化学特征、结构特征、统计特征;所述融合模块13,用于将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;所述构建模块14,用于根据所述字符序列和所述多维向量构建信号肽的特征图;所述预测模块15,用于将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。优选的,所述预测模块15包括几何图神经网络,所述几何图神经网络用于预测待预测氨基酸序列中是否含有信号肽。
参考图4,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图4中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,包括如下步骤:
获取数据集中的蛋白质序列,提取其中信号肽的字符序列;
对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;
将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;
根据所述字符序列和所述多维向量构建信号肽的特征图;
将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。
2.根据权利要求1所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述信号肽的字符序列表示为:
Figure 414850DEST_PATH_IMAGE001
其中,X表示信号肽的字符序列,λ表示氨基酸残基序列所包含的排列信息和/或物理化学信息的种类数。
3.根据权利要求1所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述序列进化特征、结构特征、统计特征分别为PSSM特征、PSAIA特征、HMM特征。
4.根据权利要求1所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,
所述低聚合层用于聚合节点在一种关系下的邻居信息;
所述高聚合层用于聚合所述低聚合层的邻居信息;
所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。
5.根据权利要求4所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述几何图神经网络模型的表示为:
Figure 825103DEST_PATH_IMAGE002
其中,
Figure 859924DEST_PATH_IMAGE003
表示虚拟节点的特征,p表示低聚合层的聚合函数,
Figure 581892DEST_PATH_IMAGE004
表示节点u的特征;v表示低聚合层中的任一节点,
Figure 478304DEST_PATH_IMAGE005
表示节点v的邻居结构或邻居集合,u表示某种关系下 节点v的邻居节点,z v 表示节点v映射到隐藏空间的向量,z u 节点u映射到隐藏空间的向量,i 表示节点v的任意一个邻居,g表示节点v在所述特征图的邻居集合,s表示节点v在隐藏空间 的邻居集合;r表示节点z v 与z u 关系,τ表示隐藏空间中节点之间的关系运算符;q表示高聚合 层的聚合函数,
Figure 464102DEST_PATH_IMAGE006
表示聚合的虚拟节点的特征,
Figure 686136DEST_PATH_IMAGE007
表示隐藏层的特征,
Figure 20034DEST_PATH_IMAGE008
表示非 线性激活函数,
Figure 844771DEST_PATH_IMAGE009
表示线性权重矩阵,l表示节点所在网络的层序号。
6.根据权利要求1所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述根据所述字符序列和所述多维向量构建信号肽的特征图包括如下步骤:
将信号肽的字符序列作为节点,相邻节点的边通过多维向量的距离进行度量;
确定多维向量的距离的阈值,剪除无效节点和边;
遍历所有有效节点和边,构建特征图。
7.一种基于几何图神经网络的蛋白质信号肽的预测装置,其特征在于, 包括获取模块、提取模块、融合模块、构建模块、预测模块,
所述获取模块,用于获取数据集中的蛋白质序列,提取其中信号肽的字符序列;
所述提取模块,用于对所述信号肽进行特征提取,得到所述信号肽的进化特征、物理化学特征、结构特征、统计特征;
所述融合模块,用于将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;
所述构建模块,用于根据所述字符序列和所述多维向量构建信号肽的特征图;
所述预测模块,用于将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。
8.根据权利要求7所述的基于几何图神经网络的蛋白质信号肽的预测装置,其特征在于,所述预测模块包括几何图神经网络,所述几何图神经网络用于预测待预测氨基酸序列中是否含有信号肽。
9.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202011177674.0A 2020-10-29 2020-10-29 基于几何图神经网络的蛋白质信号肽的预测方法及装置 Active CN112002378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011177674.0A CN112002378B (zh) 2020-10-29 2020-10-29 基于几何图神经网络的蛋白质信号肽的预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011177674.0A CN112002378B (zh) 2020-10-29 2020-10-29 基于几何图神经网络的蛋白质信号肽的预测方法及装置

Publications (2)

Publication Number Publication Date
CN112002378A true CN112002378A (zh) 2020-11-27
CN112002378B CN112002378B (zh) 2021-02-23

Family

ID=73475800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011177674.0A Active CN112002378B (zh) 2020-10-29 2020-10-29 基于几何图神经网络的蛋白质信号肽的预测方法及装置

Country Status (1)

Country Link
CN (1) CN112002378B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289370A (zh) * 2020-12-28 2021-01-29 武汉金开瑞生物工程有限公司 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置
CN112289372A (zh) * 2020-12-15 2021-01-29 武汉华美生物工程有限公司 一种基于深度学习的蛋白质结构设计方法及装置
CN113066528A (zh) * 2021-04-12 2021-07-02 山西大学 基于主动半监督图神经网络的蛋白质分类方法
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN116312744A (zh) * 2023-05-18 2023-06-23 南京星罗基因科技有限公司 一种基于gnn神经网络的生物信息获取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3640864A1 (en) * 2018-10-18 2020-04-22 Fujitsu Limited A computer-implemented method and apparatus for inferring a property of a biomedical entity
CN111465989A (zh) * 2017-10-10 2020-07-28 磨石肿瘤生物技术公司 使用热点进行的新抗原鉴别
WO2020152145A1 (en) * 2019-01-21 2020-07-30 Biologische Heilmittel Heel Gmbh System for simulating molecular interactions involved in inflammation
CN111627494A (zh) * 2020-05-29 2020-09-04 北京晶派科技有限公司 基于多维特征的蛋白质性质预测方法、装置和计算设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111465989A (zh) * 2017-10-10 2020-07-28 磨石肿瘤生物技术公司 使用热点进行的新抗原鉴别
EP3640864A1 (en) * 2018-10-18 2020-04-22 Fujitsu Limited A computer-implemented method and apparatus for inferring a property of a biomedical entity
WO2020152145A1 (en) * 2019-01-21 2020-07-30 Biologische Heilmittel Heel Gmbh System for simulating molecular interactions involved in inflammation
CN111627494A (zh) * 2020-05-29 2020-09-04 北京晶派科技有限公司 基于多维特征的蛋白质性质预测方法、装置和计算设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289372A (zh) * 2020-12-15 2021-01-29 武汉华美生物工程有限公司 一种基于深度学习的蛋白质结构设计方法及装置
CN112289372B (zh) * 2020-12-15 2022-04-22 武汉华美生物工程有限公司 一种基于深度学习的蛋白质结构设计方法及装置
CN112289370A (zh) * 2020-12-28 2021-01-29 武汉金开瑞生物工程有限公司 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置
CN112289370B (zh) * 2020-12-28 2021-03-23 武汉金开瑞生物工程有限公司 一种蛋白质结构预测方法及装置
CN113066528A (zh) * 2021-04-12 2021-07-02 山西大学 基于主动半监督图神经网络的蛋白质分类方法
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN114333980B (zh) * 2021-08-27 2024-06-07 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN116312744A (zh) * 2023-05-18 2023-06-23 南京星罗基因科技有限公司 一种基于gnn神经网络的生物信息获取方法
CN116312744B (zh) * 2023-05-18 2023-09-22 南京星罗基因科技有限公司 一种基于gnn神经网络的生物信息获取方法

Also Published As

Publication number Publication date
CN112002378B (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN112002378B (zh) 基于几何图神经网络的蛋白质信号肽的预测方法及装置
US20200184333A1 (en) Apparatus and method of compressing neural network
CN105447498A (zh) 配置有神经网络的客户端设备、系统和服务器系统
CN112289370B (zh) 一种蛋白质结构预测方法及装置
CN112289372B (zh) 一种基于深度学习的蛋白质结构设计方法及装置
CN113160265B (zh) 一种用于胼胝体状态评估的脑部胼胝体分割预测图像的构建方法
WO2019116352A1 (en) Scalable parameter encoding of artificial neural networks obtained via an evolutionary process
CN114974397A (zh) 蛋白质结构预测模型的训练方法和蛋白质结构预测方法
JP7387964B2 (ja) ソート学習モデルの訓練方法、ソート方法、装置、デバイス及び媒体
CN114979267B (zh) 面向多服务需求的语义通信方法及装置
Shao et al. DeepSec: a deep learning framework for secreted protein discovery in human body fluids
CN112259157B (zh) 一种蛋白质相互作用预测方法
Saraswathi et al. Fast learning optimized prediction methodology (FLOPRED) for protein secondary structure prediction
CN114283899A (zh) 一种训练分子结合模型的方法、分子筛选方法及装置
CN116028715A (zh) 内容推荐方法、装置、存储介质及电子设备
Chapman et al. The evolution of logic circuits for the purpose of protein contact map prediction
CN115257814A (zh) 预测车辆换道的方法、装置、设备及存储介质
Yeang et al. Physical network models and multi-source data integration
JP6950647B2 (ja) データ判定装置、方法、及びプログラム
EP4002383A2 (en) Information processing device, information processing method, recording medium recording information processing program, and information processing system
Nanni et al. Artificial intelligence systems based on texture descriptors for vaccine development
CN113780445B (zh) 癌症亚型分类预测模型的生成方法及装置、存储介质
Liu et al. Using a new alignment kernel function to identify secretory proteins
CN115512762B (zh) 多肽序列的生成方法、装置、电子设备及存储介质
CN113470734A (zh) 一种特征提取方法、相关装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant