CN112002378B - 基于几何图神经网络的蛋白质信号肽的预测方法及装置 - Google Patents
基于几何图神经网络的蛋白质信号肽的预测方法及装置 Download PDFInfo
- Publication number
- CN112002378B CN112002378B CN202011177674.0A CN202011177674A CN112002378B CN 112002378 B CN112002378 B CN 112002378B CN 202011177674 A CN202011177674 A CN 202011177674A CN 112002378 B CN112002378 B CN 112002378B
- Authority
- CN
- China
- Prior art keywords
- signal peptide
- neural network
- geometric
- sequence
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108010076504 Protein Sorting Signals Proteins 0.000 title claims abstract description 80
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 47
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 8
- 239000000126 substance Substances 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 22
- 238000004220 aggregation Methods 0.000 claims description 16
- 229920000642 polymer Polymers 0.000 claims description 14
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 12
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 11
- 238000006116 polymerization reaction Methods 0.000 claims description 10
- 102000007079 Peptide Fragments Human genes 0.000 claims description 7
- 125000000539 amino acid group Chemical group 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 150000001413 amino acids Chemical class 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000002209 hydrophobic effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000006916 protein interaction Effects 0.000 description 3
- 230000004850 protein–protein interaction Effects 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 241000192125 Firmicutes Species 0.000 description 1
- 102100029212 Putative tetratricopeptide repeat protein 41 Human genes 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005421 electrostatic potential Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000007030 peptide scission Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Peptides Or Proteins (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
Abstract
本发明涉及一种基于几何图神经网络的蛋白质信号肽的预测方法及装置,其方法包括:获取数据集中的蛋白质序列,提取其中信号肽的字符序列;对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;根据所述字符序列和所述多维向量构建信号肽的特征图;将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测信号肽。本发明结合几何图神经网络和字符序列,在保留了特征提取的原始信息同时,减少了模型过拟合,提高了信号肽预测的准确率。
Description
技术领域
本发明涉及生物信息和深度学习领域,尤其涉及一种基于几何图神经网络的蛋白质信号肽的预测方法及装置。
背景技术
在生物体内,大部分的蛋白质不是以单体的形式行使功能,而是以相互作用的形式行使不同的生物功能。其中,蛋白质相互作用(Protein-Protein Interaction,PPI)是指由两个或两个以上的分子蛋白通过共价键的形式形成蛋白质复合体的过程。蛋白质相互作用在大多数生化功能中承担着重要的角色。例如,信号分子由蛋白质相互作用,将细胞外的信号传入细胞内部,而信号传递是许多功能发挥的基础。对于蛋白质相互作用,从本质上来讲,其是通过蛋白质上部分残基的相互结合来实现的,这些残基被称为蛋白质相互作用位点(Protein-Protein Interaction Sites,PPIS)。
信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。信号肽作为一种短氨基酸序列,其大小大约16-30个氨基酸,引导蛋白质在膜间进行转移,进而将蛋白质运输到目标位置。
现有预测蛋白质信号肽及其切割位点的方法包括基于监督模型、基于生成式模型和基于同源性序列比对的方法。但这些方法或容易发生过拟合现象或不能很好地处理较长的氨基酸序列或无法准确识别切割位点。
发明内容
本发明针对现有中预测蛋白质信号肽的方法中存在的过拟合和无法准确识别切割位点的问题,在本发明的第一方面提供了一种基于几何图神经网络的蛋白质信号肽的预测方法,包括如下步骤:获取数据集中的蛋白质序列,提取其中信号肽的字符序列;对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;根据所述字符序列和所述多维向量构建信号肽的特征图;将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。
在本发明的一些实施例中,所述信号肽的字符序列表示为:
其中,X表示信号肽的字符序列,λ表示氨基酸残基序列所包含的排列信息和/或物理化学信息的种类数。
为了提高预测的准确率,更全面的表征信号肽的物理化学性质、空间结构、统计等特征,在本发明的一些实施例中,所述序列进化特征、结构特征、统计特征分别为PSSM特征、PSAIA特征、HMM特征。
在本发明的一些实施例中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。进一步的,所述几何图神经网络模型的表示为:
其中,表示虚拟节点的特征,p表示低聚合层的聚合函数,表示节点u的
特征;v表示低聚合层中的任一节点,表示节点v的邻居结构或邻居集合,u表示某种
关系下节点v的邻居节点,z v 表示节点v映射到隐藏空间的向量,z u 节点u映射到隐藏空间的
向量,i表示节点v的任意一个邻居,g表示节点v在所述特征图的邻居集合,s表示节点v在隐
藏空间的邻居集合;r表示节点z v 与z u 关系,τ表示隐藏空间中节点之间的关系运算符;q表示
高聚合层的聚合函数,表示聚合的虚拟节点的特征,表示隐藏层的特征,
表示非线性激活函数,表示线性权重矩阵,l表示节点所在网络的层序号。
在本发明的一些实施例的步骤S104中,所述根据所述字符序列和所述多维向量构建信号肽的特征图包括如下步骤:将信号肽的字符序列作为节点,相邻节点的边通过多维向量的距离进行度量;确定多维向量的距离的阈值,剪除无效节点和边;遍历所有有效节点和边,构建特征图。
在本发明的第二方面,提供了一种基于几何图神经网络的蛋白质信号肽的预测装置,包括获取模块、提取模块、融合模块、构建模块、预测模块,所述获取模块,用于获取数据集中的蛋白质序列,提取其中信号肽的字符序列;所述提取模块,用于对所述信号肽进行特征提取,得到所述信号肽的进化特征、物理化学特征、结构特征、统计特征;所述融合模块,用于将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;所述构建模块,用于根据所述字符序列和所述多维向量构建信号肽的特征图;
所述预测模块,用于将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。进一步的,所述预测模块包括几何图神经网络,所述几何图神经网络用于预测待预测氨基酸序列中是否含有信号肽。
在本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面所述的方法。
在本发明的第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明第一方面所述的方法。
有益效果:
1.本发明融合了蛋白质信号肽的多种特征进行特征提取,通过保留原始信号肽的编码信息,保留了蛋白质的同源性;
2.由于几何图神经网络的层数解决了神经网络在训练过程中,由于层数过深而导致空间信息丢失,特别是信号肽的空间结构的信息丢失问题,进而减少模型的过拟合的发生,同时提高了预测的准确性。
附图说明
图1为本发明的一些实施例中的基于几何图神经网络的蛋白质信号肽的预测方法的基本流程图;
图2为本发明的一些实施例中的几何图神经网络模型图;
图3为本发明的一些实施例中的基于几何图神经网络的蛋白质信号肽的预测装置的基本结构图;
图4为本发明的电子设备的基本结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
参考图1,一种基于几何图神经网络的蛋白质信号肽的预测方法,包括如下步骤:S101.获取数据集中的蛋白质序列,提取其中信号肽的字符序列;S102.对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;S103.将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;S104.根据所述字符序列和所述多维向量构建信号肽的特征图;S105.将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。
需要说明的是,在步骤S101中,获取数据集中的蛋白质序列,然后获取其中的信号肽片段,利用现有技术或机器学习方法的常用分类器均可实现;此外常见蛋白质序列数据集包括但不限于SignalP 5 .0数据集、基准数据集 DBv5-Sel 和独立测试数据集 CAPRI-Alone;UniProtKB、Swiss-Prot和UniProtKB、TrEMBL。例如,SignalP 5 .0数据集共包含真核类17270条,其中信号肽2614条,跨膜螺旋1044条,非分泌蛋白13612条;革兰氏阳性菌类379条,其中信号肽189条,跨膜螺旋50条,非分泌蛋白140条;革兰氏阴性菌类931条,其中信号肽509条,跨膜螺旋220条,非分泌蛋白202条。
为保留原始的信号肽所在的氨基酸片段的编码信息,在本发明的一些实施例中,所述信号肽的字符序列表示为:
其中,X表示信号肽的字符序列,X 1 至X 20 表示由20个不同字母排列组合表示的氨基酸残基序列;X 21 至X 20+λ 表示氨基酸残基序列所包含的排列信息和/或物理化学信息的字母序列,λ表示其对应种类数;fi为第i种氨基酸残基出现的次数;可选的,0≤λ≤10;
x i表示X中的元素所对应的特征值,j表示权重因子,p j (j≤5)表示氨基酸的信息熵,p j (6≤j≤8)表示氨基酸的亲水疏水信息,p j (9≤j≤10)表示基于氨基酸图像的同源相似性。可以理解,为了表征两个信号肽中氨基酸的相关性(或称近似度),除了上述信息熵之外,还可包括交叉熵、互熵、欧式距离、地动距离、Wasserstein距离、KL散度、JS散度等。
在本发明的一些实施例中,所述序列进化特征、结构特征、统计特征分别为PSSM(PSSM,位置特定分数矩阵)序列进化特征、PSAIA结构特征、HMM(隐马尔可夫模型)特征。
具体地,PSSM打分矩阵可通过PSI-BLAST算法提取,HMM可通过HHblits算法提取;PSAIA 特征是与蛋白质结构相关的特征。其是使用了软件PSAIA(Protein Structure andInteraction Analyzer)计算得出的关于蛋白质结构的几何参数。其中,PSAIA 的输入是蛋白质的 PDB 结构文件,输出是产生相互作用的蛋白质上所有残基的结构参数,通常结构参数包括输出的结构参数包括可及表面积(Accessible Surface Area)、相对可及性表面积(Relative ASA)、深度指数(Depth Index,DPX)、突出指数(Protrusion Index, CX)及疏水性(Hydrophobicity);
物理化学特征(Physicochemical characteristics)简称为 Phy Chem 物化特征,其代表的是蛋白质上每个残基的物理化学属性。这类特征是最早被应用到蛋白质相互作用位点的预测上。结合位点的残基更倾向于疏水性且往往是极性残基。另外,静电势能和脱溶能量也是非常有用的属性。
参考图2,在本发明的一些实施例中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。
具体地,该网络包括三部分,其中node embedding(节点信息嵌入)是A1-A2, 邻居
结构(structural neighborhood)是B1-B2,而bi-level aggregation是C。(1)Node
embedding: 属于基本功能模块,将节点图(nodes map)映射到latent continuous space
(隐连续空间),令G=(V,E),其中每个节点都会有一个特征向量,并且每个边都连接两个节点。将graph中的节点映射到隐空间中,记做映射函数为。在映射(mapping)的过程中,图(original graph)的结构和属性都保留
下来了。可以理解,此处的图(original graph)是指上述实施例中的特征图。
(2)Structural neighborhood: 基于图和隐藏空间,构造了一个结构化的邻居,,用来下一层聚合。其中是
节点集合,是节点上的关系操作。是与直接相连的节点,是隐藏空间中
到中心节点小于给定距离的节点。是一个定义在latent space上的函数,输入是有序对,输出一个离散的变量,表示空间中从节点到的集合关系,
(3)Bi-level aggregation: 根据结构化的邻居,提出了一个针对GNN的
bi-level aggravation来更新节点的隐藏特征(hidden features)。bi-level
aggravation包括两个聚合函数,这个函数既可以有效抽取邻居节点中的结构信息,也可以
确保original graph中的置换不变性。
于是,上述几何图神经网络模型的表示为:
其中,表示虚拟节点的特征,p表示低聚合层的聚合函数,表示节点u的
特征;v表示低聚合层中的任一节点,表示节点v的邻居结构或邻居集合,u表示某种
关系下节点v的邻居节点,z v 表示节点v映射到隐藏空间的向量,z u 节点u映射到隐藏空间的
向量,i表示节点v的任意一个邻居,g表示节点v在所述特征图的邻居集合,s表示节点v在隐
藏空间的邻居集合;r表示节点z v 与z u 关系,τ表示隐藏空间中节点之间的关系运算符;q表示
高聚合层的聚合函数,表示聚合的虚拟节点的特征,表示隐藏层的特征,
表示非线性激活函数,表示线性权重矩阵,l表示节点所在网络的层序号。优选的,非线
性激活函数选用Focal loss或LovaszSoftmax。
在本发明的一些实施例中,所述根据所述字符序列和所述多维向量构建信号肽的特征图包括如下步骤:将信号肽的字符序列作为节点,相邻节点的边通过多维向量的距离进行度量;确定多维向量的距离的阈值,剪除无效节点和边;遍历所有有效节点和边,构建特征图。
参考图3,在本发明的第二方面,提供了一种基于几何图神经网络的蛋白质信号肽的预测装置1,包括获取模块11、提取模块12、融合模块13、构建模块14、预测模块15,所述获取模块11,用于获取数据集中的蛋白质序列,提取其中信号肽的字符序列;所述提取模块12,用于对所述信号肽进行特征提取,得到所述信号肽的进化特征、物理化学特征、结构特征、统计特征;所述融合模块13,用于将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;所述构建模块14,用于根据所述字符序列和所述多维向量构建信号肽的特征图;所述预测模块15,用于将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。优选的,所述预测模块15包括几何图神经网络,所述几何图神经网络用于预测待预测氨基酸序列中是否含有信号肽。
参考图4,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图4中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,包括如下步骤:
获取数据集中的蛋白质序列,提取其中信号肽的字符序列;
对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;
将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;所述进化特征、结构特征、统计特征分别为PSSM特征、PSAIA特征、HMM特征;
根据所述字符序列和所述多维向量构建信号肽的特征图:将信号肽的字符序列作为节点,相邻节点的边通过多维向量的距离进行度量;确定多维向量的距离的阈值,剪除无效节点和边;遍历所有有效节点和边,构建特征图;
将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。
3.根据权利要求1所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,
所述低聚合层用于聚合节点在一种关系下的邻居信息;
所述高聚合层用于聚合所述低聚合层的邻居信息;
所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。
4.根据权利要求3所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述几何图神经网络模型的表示为:
5.一种基于几何图神经网络的蛋白质信号肽的预测装置,其特征在于, 包括获取模块、提取模块、融合模块、构建模块、预测模块,
所述获取模块,用于获取数据集中的蛋白质序列,提取其中信号肽的字符序列;
所述提取模块,用于对所述信号肽进行特征提取,得到所述信号肽的进化特征、物理化学特征、结构特征、统计特征;
所述融合模块,用于将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;
所述构建模块,用于根据所述字符序列和所述多维向量构建信号肽的特征图;
所述预测模块,用于将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。
6.根据权利要求5所述的基于几何图神经网络的蛋白质信号肽的预测装置,其特征在于,所述预测模块包括几何图神经网络,所述几何图神经网络用于预测待预测氨基酸序列中是否含有信号肽。
7.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011177674.0A CN112002378B (zh) | 2020-10-29 | 2020-10-29 | 基于几何图神经网络的蛋白质信号肽的预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011177674.0A CN112002378B (zh) | 2020-10-29 | 2020-10-29 | 基于几何图神经网络的蛋白质信号肽的预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112002378A CN112002378A (zh) | 2020-11-27 |
CN112002378B true CN112002378B (zh) | 2021-02-23 |
Family
ID=73475800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011177674.0A Active CN112002378B (zh) | 2020-10-29 | 2020-10-29 | 基于几何图神经网络的蛋白质信号肽的预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112002378B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289372B (zh) * | 2020-12-15 | 2022-04-22 | 武汉华美生物工程有限公司 | 一种基于深度学习的蛋白质结构设计方法及装置 |
CN112289370B (zh) * | 2020-12-28 | 2021-03-23 | 武汉金开瑞生物工程有限公司 | 一种蛋白质结构预测方法及装置 |
CN113066528B (zh) * | 2021-04-12 | 2022-07-19 | 山西大学 | 基于主动半监督图神经网络的蛋白质分类方法 |
CN114333980B (zh) * | 2021-08-27 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 模型训练、蛋白质特征提取和功能预测的方法与装置 |
CN114239802B (zh) * | 2021-12-13 | 2024-09-13 | 清华大学 | 保持相似变换不变性的图神经网络方法、装置及设备 |
CN116312744B (zh) * | 2023-05-18 | 2023-09-22 | 南京星罗基因科技有限公司 | 一种基于gnn神经网络的生物信息获取方法 |
CN117594127A (zh) * | 2023-11-21 | 2024-02-23 | 北京理工大学 | 一种基于图神经网络的蛋白质k个最相似邻居查找方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3640864A1 (en) * | 2018-10-18 | 2020-04-22 | Fujitsu Limited | A computer-implemented method and apparatus for inferring a property of a biomedical entity |
CN111465989A (zh) * | 2017-10-10 | 2020-07-28 | 磨石肿瘤生物技术公司 | 使用热点进行的新抗原鉴别 |
WO2020152145A1 (en) * | 2019-01-21 | 2020-07-30 | Biologische Heilmittel Heel Gmbh | System for simulating molecular interactions involved in inflammation |
CN111627494A (zh) * | 2020-05-29 | 2020-09-04 | 北京晶派科技有限公司 | 基于多维特征的蛋白质性质预测方法、装置和计算设备 |
-
2020
- 2020-10-29 CN CN202011177674.0A patent/CN112002378B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111465989A (zh) * | 2017-10-10 | 2020-07-28 | 磨石肿瘤生物技术公司 | 使用热点进行的新抗原鉴别 |
EP3640864A1 (en) * | 2018-10-18 | 2020-04-22 | Fujitsu Limited | A computer-implemented method and apparatus for inferring a property of a biomedical entity |
WO2020152145A1 (en) * | 2019-01-21 | 2020-07-30 | Biologische Heilmittel Heel Gmbh | System for simulating molecular interactions involved in inflammation |
CN111627494A (zh) * | 2020-05-29 | 2020-09-04 | 北京晶派科技有限公司 | 基于多维特征的蛋白质性质预测方法、装置和计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112002378A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112002378B (zh) | 基于几何图神经网络的蛋白质信号肽的预测方法及装置 | |
US20200184333A1 (en) | Apparatus and method of compressing neural network | |
CN105447498A (zh) | 配置有神经网络的客户端设备、系统和服务器系统 | |
CN113160265B (zh) | 一种用于胼胝体状态评估的脑部胼胝体分割预测图像的构建方法 | |
CN112289370B (zh) | 一种蛋白质结构预测方法及装置 | |
CN112289372B (zh) | 一种基于深度学习的蛋白质结构设计方法及装置 | |
WO2019116352A1 (en) | Scalable parameter encoding of artificial neural networks obtained via an evolutionary process | |
CN114974397A (zh) | 蛋白质结构预测模型的训练方法和蛋白质结构预测方法 | |
CN111639607A (zh) | 模型训练、图像识别方法和装置、电子设备及存储介质 | |
CN114464247A (zh) | 基于抗原和抗体序列的结合亲和力预测方法和装置 | |
CN112259157B (zh) | 一种蛋白质相互作用预测方法 | |
CN114979267A (zh) | 面向多服务需求的语义通信方法及装置 | |
Saraswathi et al. | Fast learning optimized prediction methodology (FLOPRED) for protein secondary structure prediction | |
CN116028715A (zh) | 内容推荐方法、装置、存储介质及电子设备 | |
CN116052762A (zh) | 药物分子与靶点蛋白匹配的方法、服务器 | |
Chapman et al. | The evolution of logic circuits for the purpose of protein contact map prediction | |
CN116259358A (zh) | 一种蛋白质相互作用预测方法、装置及存储介质 | |
CN115257814A (zh) | 预测车辆换道的方法、装置、设备及存储介质 | |
CN108876830A (zh) | 点云配准方法、装置、电子设备及可读存储介质 | |
Yeang et al. | Physical network models and multi-source data integration | |
CN114004798A (zh) | 一种多模态乳腺结节的良恶性预测方法及相关装置 | |
CN113920311A (zh) | 一种基于边缘辅助信息的遥感图像分割方法及系统 | |
EP4002383A2 (en) | Information processing device, information processing method, recording medium recording information processing program, and information processing system | |
Liu et al. | Using a new alignment kernel function to identify secretory proteins | |
CN113780445B (zh) | 癌症亚型分类预测模型的生成方法及装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |