CN115497555B - 多物种蛋白质功能预测方法、装置、设备及存储介质 - Google Patents
多物种蛋白质功能预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115497555B CN115497555B CN202210980663.9A CN202210980663A CN115497555B CN 115497555 B CN115497555 B CN 115497555B CN 202210980663 A CN202210980663 A CN 202210980663A CN 115497555 B CN115497555 B CN 115497555B
- Authority
- CN
- China
- Prior art keywords
- matrix
- species
- tag
- feature matrix
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004853 protein function Effects 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 263
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 62
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 62
- 230000000644 propagated effect Effects 0.000 claims abstract description 13
- 230000001902 propagating effect Effects 0.000 claims abstract description 11
- 230000006916 protein interaction Effects 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 12
- 230000010354 integration Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000012633 leachable Substances 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 241000894007 species Species 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004850 protein–protein interaction Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000734 protein sequencing Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 210000004885 white matter Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Analytical Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种多物种蛋白质功能预测方法、装置、设备及存储介质,属于生物信息技术领域,该方法包括:将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵;将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分。如此,基于跨物种异构网络上实现了标签与特征的同时传播,提高了多物种蛋白质功能的预测的准确性和有效性。
Description
技术领域
本申请涉及生物信息技术领域,尤其涉及一种多物种蛋白质功能预测方法、装置、设备、移动设备及存储介质。
背景技术
蛋白质是一种重要的生物大分子,具有催化、细胞结构支持和信号转导等诸多功能。因此,探索蛋白质的功能对于了解生物体的各项生命活动和新药物的开发具有重要的现实意义。随着高通量测序技术的快速发展,越来越多的蛋白质测序完成。但是,对蛋白质功能进行实验注释需要昂贵的时间和人力成本,因此已测序的蛋白质数量与具有功能注释的蛋白质数量之间存在着巨大差距。到目前为止,在UniProt数据库中有超过50万个蛋白质已经通过手工注释功能和评估,但这还不到该数据库中已测序蛋白质数量的1%。在此背景下,利用计算方法预测蛋白质功能已成为探索蛋白质特性的关键步骤。
目前在蛋白质功能预测领域中最流行的是基于深度学习的方法,其中,大多数是基于蛋白质序列的深度学习方法或基于蛋白质相互作用网络的深度学习方法。这些方法普遍存在一些缺陷,例如局限与单一蛋白质结构、由于标签的不平衡而难以在标签数据稀少的情况下就像传播、未同时利用标签信息和特征信息。
发明内容
本申请提供一种多物种蛋白质功能预测方法、装置、设备、设备及存储介质,旨在实现蛋白质节点信息的跨物种传播,并同时传播特征信息和标签信息。
为实现上述目的,本申请提供一种多物种蛋白质功能预测方法,所述方法包括:
将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;
在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵;
将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分。
可选地,在所述将多物种蛋白质的标签矩阵和变换后的特征矩阵输入预先构建的跨物种异构网络之前,还包括:
根据所述多物种蛋白质之间的序列对比结果构建序列相似性网络;
将所述序列相似性网络与蛋白质相互作用网络整合为所述跨物种异构网络。
可选地,在所述将所述序列相似性网络与所述多物种蛋白质的蛋白质相互作用网络整合为所述跨物种异构网络之后,还包括:
基于图注意力机制调整所述跨物种异构网络上边的权值,获得边的权值更新后的序列相似性网络以及蛋白质相互作用网络。
可选地,在所述将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络之前,还包括:
将所述多物种蛋白质的高维的初始特征矩阵转换至成低维隐藏空间;
基于多层感知机对所述低维隐藏空间中的所述初始特征矩阵进行非线性变换,获得所述特征矩阵。
可选地,所述在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵包括:
基于所述标签矩阵和所述特征矩阵在上一级传播层的输出以及可学习变换矩阵获得所述标签矩阵和所述特征矩阵在当前传播层上的输出的标签矩阵、特征矩阵;
将所述跨物种异构网络中每一个传播层中的输出的标签矩阵、特征矩阵进行整合获得所述目标标签矩阵和所述目标特征矩阵。
可选地,所述将所述跨物种异构网络中每一个传播层中的输出的标签矩阵、特征矩阵进行整合获得所述目标标签矩阵和所述目标特征矩阵之后,还包括:
将所述目标特征矩阵的低维隐藏空间转换到标签维度空间,获得维度相同的所述目标标签矩阵和所述目标特征矩阵。
可选地,所述将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵包括:
设置平衡权值,所述平衡权值用于平衡特征预测与标签预测的相对重要性;
基于所述平衡权值将所述目标标签矩阵和所述目标特征矩阵进行加权,获得所述预测得分矩阵。
一种多物种蛋白质功能预测装置,包括:
输入模块,用于将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;
传播模块,用于在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵;
得分模块,用于将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分。
本申请实施例还提出一种电子设备,包括存储器、处理器以及存储在所述存储器上的多物种蛋白质功能预测程序,所述多物种蛋白质功能预测程序被所述处理器运行时实现如上所述的方法的步骤。
本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有多物种蛋白质功能预测程序,所述多物种蛋白质功能预测程序被处理器运行时实现如上所述的方法的步骤。
相比现有技术,本申请提出的一种多物种蛋白质功能预测方法、装置、设备及存储介质,该方法包括:将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵;将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分。如此,基于跨物种异构网络上实现了标签与特征的同时传播,提高了多物种蛋白质功能的预测的准确性和有效性。
附图说明
图1是本申请各实施例涉及的电子设备的硬件结构示意图
图2是本申请多物种蛋白质功能预测方法第一实施例的流程示意图;
图3是本申请多物种蛋白质功能预测方法一实施例的场景示意图;
图4是本申请多物种蛋白质功能预测方法第二实施例的流程示意图;
图5是本申请多物种蛋白质功能预测方法另一实施例的场景示意图;
图6是本申请多物种蛋白质功能预测装置第一实施例的功能模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例主要涉及的电子设备是指能够实现网络连接的网络连接设备,所述电子设备可以是服务器、云平台等。
参照图1,图1是本申请各实施例涉及的电子设备的硬件结构示意图。本申请实施例中,电子设备可以包括处理器1001(例如中央处理器Central Processing Unit、CPU),通信总线1002,输入端口1003,输出端口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;输入端口1003用于数据输入;输出端口1004用于数据输出,存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本申请的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块、应用程序模块以及多物种蛋白质功能预测程序。在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001用于调用存储器1005中存储的多物种蛋白质功能预测程序,并执行如下操作:
将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;
在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵;
将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分。
基于上述电子设备提出本法明多物种蛋白质功能预测方法第一实施例。请参照图2,图2是本申请多物种蛋白质功能预测方法第一实施例的流程示意图。
如图1所示,本申请第一实施例提出一种多物种蛋白质功能预测方法,所述方法包括:
步骤S101,将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;
本实施例中,多物种蛋白质中的多物种可以包括人类、动物类、细菌类,预先通过数据处理获得跨物种蛋白质的标签矩阵、特征矩阵。
其中,跨物种异构网络包括蛋白质相互作用网络,以及多物种蛋白质之间的序列相似性网络/>。
在步骤S101之前还包括:将所述多物种蛋白质的高维的初始特征矩阵转换至成低维隐藏空间;
基于多层感知机对所述低维隐藏空间中的所述初始特征矩阵进行非线性变换,获得所述特征矩阵。
假设跨物种异构网络中初始的特征矩阵为,标签矩阵为/>,其中m为初始的特征维度,c为标签数量。经过一些特征维度变换操作,将高维度的初始特征向量转换至低维隐藏空间,以获得特征矩阵的低维隐藏向量/>,其中h为低维隐藏向量的维度。
步骤S102,在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵;
具体地,基于所述标签矩阵和所述特征矩阵在上一级传播层的输出以及可学习变换矩阵获得所述标签矩阵和所述特征矩阵在当前传播层上的输出的标签矩阵、特征矩阵;
将所述跨物种异构网络中每一个传播层中的输出的标签矩阵、特征矩阵进行整合获得所述目标标签矩阵和所述目标特征矩阵。
将当前传播层l输出的标签矩阵表示为,特征矩阵表示为/>;将上一级传播层l-1输出的标签矩阵表示为/>,特征矩阵表示为/>,则在所述跨物种异构网络中的蛋白质相互作用网络/>的特征矩阵可以表示为:
;
其中,为参数因子。
蛋白质相互作用网络的特征矩阵可以表示为:
;
其中,是传播层l上的可学习变换矩阵,/>在蛋白质相互作用网络/>和序列相似性网络/>上共享
多物种蛋白质之间的序列相似性网络的特征矩阵/>可以表示为:
多物种蛋白质之间的序列相似性网络的标签矩阵/>可以表示为:
将第l个传播层输出的特征矩阵进行整合,获得目标特征矩阵:
将第l个传播层输出的标签矩阵进行整合,获得目标标签矩阵:
目标标签矩阵与目标特征矩阵的维度不在同一维度空间,因此再进行加权前还需要将所述目标特征矩阵的低维隐藏空间转换到标签维度空间,获得维度相同的所述目标标签矩阵和所述目标特征矩阵。本实施例中,将维度变换后的目标特征矩阵表示为,且/>。
步骤S103,将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分。
具体地,设置平衡权值,所述平衡权值用于平衡特征预测与标签预测的相对重要性;本实施例中,将平衡权值表示为,其中/>。
基于所述平衡权值将所述目标标签矩阵和所述目标特征矩阵进行加权,获得所述预测得分矩阵。
先确定平衡权值与目标特征矩阵的乘积,以及1与平衡权值之差与目标标签矩阵的乘积,预测得分矩阵为这两个乘机之和,也即:
预测得分矩阵=平衡权值*目标特征矩阵+(1-平衡权值)*目标标签矩阵,具体表示如下:
基于跨物种异构网络的多物种代表值功能预测方法的基本流程参考图3,图3是本申请多物种蛋白质功能预测方法一实施例的场景示意图,具体地如图3所示:
输入包含两个二进制编码的多物种蛋白质矩阵:特征矩阵(Input featurematrix)和标签矩阵(Input label matrix),特征矩阵和标签矩阵是通过数据预处理获得的。通过嵌入层(Embedding layer)将特征矩阵从高维空间变换到低维隐藏空间,然后再通过多层感知机(MLP)进行非线性变换。通过跨物种异构网络的传播层(Propagationlayer)在网络上进行矩阵传播在传播之前,通过图注意力机制更新边的权值(虚线表示更新的边,数字表示更新的权值),然后在蛋白质相互作用网络和序列相似性网络上动态传播特征和标签(线条表示网络的边,箭头方向表示传播方向)。将这序列相似性网络与蛋白质相互作用网络的结果进行聚合,得到传播层的输出特征矩阵和标签矩阵。最后一个传播层的输出特征通过输出层变换为标签矩阵的维度,以获得所述目标特征矩阵。模型的最后加权目标标签矩阵和所述目标特征矩阵以获得预测得分矩阵,并通过预测得分矩阵得到最终的跨物种蛋白质功能的预测得分。
将多个物种蛋白质相互作用网络统一到一个模型中进行预测,而且还通过构建多物种的序列相似性网络使得蛋白质的节点信息可以在不同物种之间进行传播。此外,本实施例提出的技术方案不仅在异构网络上传播特征信息,而且还传播标签信息,使得每个蛋白质可以直接和间接地获取到其他蛋白质的功能标签。在大规模的多物种蛋白质数据集上和目前几个最先进的方法进行对比,实验结果皆表明本实施例提出的技术方案不仅比基于序列的方法预测结果更为准确,而且比基于网络的方法预测性能也要好。此外,在单个物种的数据集上,本实施例提出的技术方案的预测性能同样表现出色,这些结果都说明了多物种蛋白质功能预测方法的有效性和准确性。
本实施例通过上述方案,将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵;将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分。如此,基于跨物种异构网络上实现了标签与特征的同时传播,提高了多物种蛋白质功能的预测的准确性和有效性。
如图4所示,本申请第二实施例提出一种多物种蛋白质功能预测方法,基于上述图1所示的第一实施例,在所述将多物种蛋白质的标签矩阵和变换后的特征矩阵输入预先构建的跨物种异构网络之前:
步骤S1001,根据所述多物种蛋白质之间的序列对比结果构建序列相似性网络;
对多物种蛋白质的序列进行对比,基于多物种蛋白质之间的序列对比结果构建序列相似性网络,将序列相似性网络表示为。
步骤S1002,将所述序列相似性网络与所述多物种蛋白质的蛋白质相互作用网络整合为所述跨物种异构网络。
蛋白质相互作用网络表示为,然后将序列相似性网络表示为/>与蛋白质相互作用网络表示为/>整合为异构网络A:/>。
本实施例中构建的跨物种异构网络见图5,图5是本申请多物种蛋白质功能预测方法另一实施例的场景示意图。如图5所示,整合多物种蛋白质的蛋白质相互作用网络(protein-protein interaction networks,PPI network)与序列相似性网络(Sequencesimilarity network),形成了跨物种异构网络(Cross-species heterogeneousnetwork)。
进一步地,所述步骤S1002之后还包括:
步骤S1003,基于图注意力机制调整所述跨物种异构网络上边的权值,获得边的权值更新后的序列相似性网络以及蛋白质相互作用网络。
由于原始的蛋白质相互作用网络的数据中可能存在噪声,也极有可能将该噪声引入序列相似性网络中,从而产生一些不良影响,例如使得序列相似性网络中的两个蛋白质虽然在序列上相似但在功能上却不相关。为了减轻可能的噪声可能带来的影响,在通过跨物种异构网络的传播层进行网络的特征和标签传播之前通过图注意力机制来动态调整网络上边的权值:
其中表示更新后的边的权值,/>表示更新前的边的权值,h为低维隐藏空间的维度。然后将更新完边的权值的相互作用网络和序列相似性网络分别表示为/>和/>。
本实施例通过上述方案,基于序列相似性网络和蛋白质相互作用网络构建跨物种异构网络,并调整跨物种异构网络的边的权值,从而为实现特征、标签的传播奠定基础。
进一步地,为实现上述目的,本申请还提供一种多物种蛋白质功能预测装置,具体地,参见6,图6是本申请多物种蛋白质功能预测装置第一实施例的功能模块示意图,所述装置包括:
输入模块10,用于将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;
传播模块20,用于在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵;
得分模块30,用于将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分。
进一步地,所述输入模块还包括:
构建单元,用于根据所述多物种蛋白质之间的序列对比结果构建序列相似性网络;
第一整合单元,用于将所述序列相似性网络与蛋白质相互作用网络整合为所述跨物种异构网络。
进一步地,所述整合单元包括:
调整单元,用于基于图注意力机制调整所述跨物种异构网络上边的权值,获得边的权值更新后的序列相似性网络以及蛋白质相互作用网络。
进一步地,所述输入模块还包括:
第一转化单元,用于将所述多物种蛋白质的高维的初始特征矩阵转换至成低维隐藏空间;
变换单元,用于基于多层感知机对所述低维隐藏空间中的所述初始特征矩阵进行非线性变换,获得所述特征矩阵。
进一步地,所述传播模块包括:
获得单元,用于基于所述标签矩阵和所述特征矩阵在上一级传播层的输出以及可学习变换矩阵获得所述标签矩阵和所述特征矩阵在当前传播层上的输出的标签矩阵、特征矩阵;
第二整合单元,用于将所述跨物种异构网络中每一个传播层中的输出的标签矩阵、特征矩阵进行整合获得所述目标标签矩阵和所述目标特征矩阵。
进一步地,所述传播模块还包括:
第二转化单元,用于将所述目标特征矩阵的低维隐藏空间转换到标签维度空间,获得维度相同的所述目标标签矩阵和所述目标特征矩阵。
进一步地,所述得分模块包括:
设置单元,用于设置平衡权值,所述平衡权值用于平衡特征预测与标签预测的相对重要性;
加权单元,用于基于所述平衡权值将所述目标标签矩阵和所述目标特征矩阵进行加权,获得所述预测得分矩阵。
此外,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有多物种蛋白质功能预测程序,所述多物种蛋白质功能预测程序被处理器运行时实现如上所述的多物种蛋白质功能预测方法的步骤,在此不再赘述。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种多物种蛋白质功能预测方法,其特征在于,所述方法包括:
根据所述多物种蛋白质之间的序列对比结果构建序列相似性网络;
将所述序列相似性网络与蛋白质相互作用网络整合为跨物种异构网络;
将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;
在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵:基于所述标签矩阵和所述特征矩阵在上一级传播层的输出以及可学习变换矩阵获得所述标签矩阵和所述特征矩阵在当前传播层上的输出的标签矩阵、特征矩阵;将所述跨物种异构网络中每一个传播层中的输出的标签矩阵、特征矩阵进行整合,从而获得最后一层的所述目标标签矩阵和所述目标特征矩阵;将每一层中的标签矩阵和特征矩阵进行整合获得目标标签矩阵和目标特征矩阵,即将第一层到最后一层输出的标签矩阵进行整合,将第一层到最后一层输出的特征矩阵进行整合;
将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分。
2.根据权利要求1所述的方法,其特征在于,在所述将所述序列相似性网络与所述多物种蛋白质的蛋白质相互作用网络整合为所述跨物种异构网络之后,还包括:
基于图注意力机制调整所述跨物种异构网络上边的权值,获得边的权值更新后的序列相似性网络以及蛋白质相互作用网络。
3.根据权利要求1所述的方法,其特征在于,在所述将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络之前,还包括:
将所述多物种蛋白质的高维的初始特征矩阵转换至成低维隐藏空间;
基于多层感知机对所述低维隐藏空间中的所述初始特征矩阵进行非线性变换,获得所述特征矩阵。
4.根据权利要求1所述的方法,其特征在于,所述将所述跨物种异构网络中每一个传播层中的输出的标签矩阵、特征矩阵进行整合获得所述目标标签矩阵和所述目标特征矩阵之后,还包括:
将所述目标特征矩阵的低维隐藏空间转换到标签维度空间,获得维度相同的所述目标标签矩阵和所述目标特征矩阵。
5.根据权利要求1所述的方法,其特征在于,所述将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵包括:
设置平衡权值,所述平衡权值用于平衡特征预测与标签预测的相对重要性;
基于所述平衡权值将所述目标标签矩阵和所述目标特征矩阵进行加权,获得所述预测得分矩阵。
6.一种多物种蛋白质功能预测装置,其特征在于,包括:
输入模块,用于将多物种蛋白质的标签矩阵和特征矩阵输入预先构建的跨物种异构网络;
传播模块,用于在所述跨物种异构网络的每个传播层传播所述标签矩阵和所述特征矩阵,获得传播后的目标标签矩阵和目标特征矩阵;
得分模块,用于将所述目标标签矩阵和所述目标特征矩阵进行加权获得预测得分矩阵,并基于所述预测得分矩阵获得所述多物种蛋白质的功能预测得分
构建单元,用于根据所述多物种蛋白质之间的序列对比结果构建序列相似性网络;
第一整合单元,用于将所述序列相似性网络与蛋白质相互作用网络整合为所述跨物种异构网络;
所述传播模块包括:
获得单元,用于基于所述标签矩阵和所述特征矩阵在上一级传播层的输出以及可学习变换矩阵获得所述标签矩阵和所述特征矩阵在当前传播层上的输出的标签矩阵、特征矩阵;
第二整合单元,用于将所述跨物种异构网络中每一个传播层中的输出的标签矩阵、特征矩阵进行整合获得所述目标标签矩阵和所述目标特征矩阵;
第二转化单元,用于将所述目标特征矩阵的低维隐藏空间转换到标签维度空间,获得维度相同的所述目标标签矩阵和所述目标特征矩阵。
7.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上的多物种蛋白质功能预测程序,所述多物种蛋白质功能预测程序被所述处理器运行时实现如权利要求1-5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多物种蛋白质功能预测程序,所述多物种蛋白质功能预测程序被处理器运行时实现如权利要求1-5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980663.9A CN115497555B (zh) | 2022-08-16 | 2022-08-16 | 多物种蛋白质功能预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980663.9A CN115497555B (zh) | 2022-08-16 | 2022-08-16 | 多物种蛋白质功能预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115497555A CN115497555A (zh) | 2022-12-20 |
CN115497555B true CN115497555B (zh) | 2024-01-05 |
Family
ID=84465839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210980663.9A Active CN115497555B (zh) | 2022-08-16 | 2022-08-16 | 多物种蛋白质功能预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497555B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138866A (zh) * | 2015-08-12 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 |
CN106599611A (zh) * | 2016-12-09 | 2017-04-26 | 中南大学 | 蛋白质功能标注方法及系统 |
CN107832583A (zh) * | 2017-11-08 | 2018-03-23 | 武汉大学 | 一种基于图匹配的跨物种生物通路发现方法 |
WO2018174575A1 (ko) * | 2017-03-21 | 2018-09-27 | 동국대학교산학협력단 | 인슐린 저항성 진단용 조성물 및 이의 용도 |
CN109545275A (zh) * | 2018-09-29 | 2019-03-29 | 江西理工大学 | 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法 |
CN109817275A (zh) * | 2018-12-26 | 2019-05-28 | 东软集团股份有限公司 | 蛋白质功能预测模型生成、蛋白质功能预测方法及装置 |
CN110070909A (zh) * | 2019-03-21 | 2019-07-30 | 中南大学 | 一种基于深度学习的融合多特征的蛋白质功能预测方法 |
CN110265085A (zh) * | 2019-07-29 | 2019-09-20 | 安徽工业大学 | 一种蛋白质相互作用位点识别方法 |
CN110706740A (zh) * | 2019-09-29 | 2020-01-17 | 长沙理工大学 | 基于模块分解的蛋白质功能预测的方法、装置、设备 |
CN111145830A (zh) * | 2019-12-26 | 2020-05-12 | 长沙学院 | 基于网络传播的蛋白质功能预测方法 |
CN111210871A (zh) * | 2020-01-09 | 2020-05-29 | 青岛科技大学 | 基于深度森林的蛋白质-蛋白质相互作用预测方法 |
CN111667881A (zh) * | 2020-06-04 | 2020-09-15 | 大连民族大学 | 一种基于多网络拓扑结构的蛋白质功能预测方法 |
WO2021041199A1 (en) * | 2019-08-23 | 2021-03-04 | Geaenzymes Co. | Systems and methods for predicting proteins |
CN112582027A (zh) * | 2020-12-15 | 2021-03-30 | 武汉大学 | 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法 |
CN113593631A (zh) * | 2021-08-09 | 2021-11-02 | 山东大学 | 一种预测蛋白质-多肽结合位点的方法及系统 |
WO2021218791A1 (zh) * | 2020-04-29 | 2021-11-04 | 中国科学院上海药物研究所 | 一种配体-蛋白质相互作用的预测方法及装置 |
CN114333980A (zh) * | 2021-08-27 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 模型训练、蛋白质特征提取和功能预测的方法与装置 |
CN114420310A (zh) * | 2022-01-18 | 2022-04-29 | 河南大学 | 基于图转换网络的药物ATCCode预测方法 |
WO2022104265A1 (en) * | 2020-11-16 | 2022-05-19 | The Scripps Research Institute | Scaffolded antigens and engineered sars-cov-2 receptor-binding domain (rbd) polypeptides |
CN114724623A (zh) * | 2022-04-29 | 2022-07-08 | 中国海洋大学 | 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2825890A1 (en) * | 2012-03-16 | 2015-01-21 | Max-Delbrück-Centrum für Molekulare Medizin | Method for identification of the sequence of poly(a)+rna that physically interacts with protein |
US20170076036A1 (en) * | 2016-11-27 | 2017-03-16 | InSyBio Ltd | Protein functional and sub-cellular annotation in a proteome |
CN117802051A (zh) * | 2019-01-10 | 2024-04-02 | 斯丹赛控股有限公司 | 修饰的细胞及组合物 |
US20220122689A1 (en) * | 2020-10-15 | 2022-04-21 | Salesforce.Com, Inc. | Systems and methods for alignment-based pre-training of protein prediction models |
-
2022
- 2022-08-16 CN CN202210980663.9A patent/CN115497555B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138866A (zh) * | 2015-08-12 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 |
CN106599611A (zh) * | 2016-12-09 | 2017-04-26 | 中南大学 | 蛋白质功能标注方法及系统 |
WO2018174575A1 (ko) * | 2017-03-21 | 2018-09-27 | 동국대학교산학협력단 | 인슐린 저항성 진단용 조성물 및 이의 용도 |
CN107832583A (zh) * | 2017-11-08 | 2018-03-23 | 武汉大学 | 一种基于图匹配的跨物种生物通路发现方法 |
CN109545275A (zh) * | 2018-09-29 | 2019-03-29 | 江西理工大学 | 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法 |
CN109817275A (zh) * | 2018-12-26 | 2019-05-28 | 东软集团股份有限公司 | 蛋白质功能预测模型生成、蛋白质功能预测方法及装置 |
CN110070909A (zh) * | 2019-03-21 | 2019-07-30 | 中南大学 | 一种基于深度学习的融合多特征的蛋白质功能预测方法 |
CN110265085A (zh) * | 2019-07-29 | 2019-09-20 | 安徽工业大学 | 一种蛋白质相互作用位点识别方法 |
WO2021041199A1 (en) * | 2019-08-23 | 2021-03-04 | Geaenzymes Co. | Systems and methods for predicting proteins |
CN110706740A (zh) * | 2019-09-29 | 2020-01-17 | 长沙理工大学 | 基于模块分解的蛋白质功能预测的方法、装置、设备 |
CN111145830A (zh) * | 2019-12-26 | 2020-05-12 | 长沙学院 | 基于网络传播的蛋白质功能预测方法 |
CN111210871A (zh) * | 2020-01-09 | 2020-05-29 | 青岛科技大学 | 基于深度森林的蛋白质-蛋白质相互作用预测方法 |
WO2021218791A1 (zh) * | 2020-04-29 | 2021-11-04 | 中国科学院上海药物研究所 | 一种配体-蛋白质相互作用的预测方法及装置 |
CN111667881A (zh) * | 2020-06-04 | 2020-09-15 | 大连民族大学 | 一种基于多网络拓扑结构的蛋白质功能预测方法 |
WO2022104265A1 (en) * | 2020-11-16 | 2022-05-19 | The Scripps Research Institute | Scaffolded antigens and engineered sars-cov-2 receptor-binding domain (rbd) polypeptides |
CN112582027A (zh) * | 2020-12-15 | 2021-03-30 | 武汉大学 | 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法 |
CN113593631A (zh) * | 2021-08-09 | 2021-11-02 | 山东大学 | 一种预测蛋白质-多肽结合位点的方法及系统 |
CN114333980A (zh) * | 2021-08-27 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 模型训练、蛋白质特征提取和功能预测的方法与装置 |
CN114420310A (zh) * | 2022-01-18 | 2022-04-29 | 河南大学 | 基于图转换网络的药物ATCCode预测方法 |
CN114724623A (zh) * | 2022-04-29 | 2022-07-08 | 中国海洋大学 | 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法 |
Non-Patent Citations (5)
Title |
---|
"Combining graph convolutional neural networks and label propagation";H Wang等;《ACM trans》;第40卷(第4期);第1-27页 * |
"Identifying novel protein phenotype annotations by hybridizing protein-protein interactions and protein sequence similarities";chen lei等;《Molecular genetics and genomics : MGG》;第291卷(第2期);第913-934页 * |
"加权优先级网络在蛋白质功能预测中的应用研究";潘怡等;《小型微型计算机系统》;第38卷(第9期);第1977-1982页 * |
"基于拓扑和序列的多生物网络比对算法的研究";黄佳;《《中国优秀硕士学位论文全文数据库》(第1期);第A006-454页 * |
"基于蛋白质相互作用网络挖掘物种内的功能相似蛋白质";宋宝兴等;《生物物理学报》;第27卷(第9期);第789-800页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115497555A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7009433B2 (ja) | ニューラルネットワーク生成用の方法及び装置 | |
Steinrücken et al. | Inference of complex population histories using whole-genome sequences from multiple populations | |
CN111541570B (zh) | 基于多源特征学习的云服务QoS预测方法 | |
CN113160894A (zh) | 药物与靶标的相互作用预测方法、装置、设备及存储介质 | |
Perešíni et al. | Nanopore base calling on the edge | |
WO2024041479A1 (zh) | 一种数据处理方法及其装置 | |
CN112885412B (zh) | 基因组注释方法、装置、可视化平台和存储介质 | |
Du et al. | Deepadd: protein function prediction from k-mer embedding and additional features | |
Xu et al. | iss-pc: Identifying splicing sites via physical-chemical properties using deep sparse auto-encoder | |
CN115862751B (zh) | 基于边特征更新聚合注意力机制的量子化学性质计算方法 | |
WO2022097230A1 (ja) | 予測方法、予測装置及びプログラム | |
CN113254716B (zh) | 视频片段检索方法、装置、电子设备和可读存储介质 | |
CN115438370A (zh) | 全匿联邦学习模型的训练方法、设备和存储介质 | |
Yelmen et al. | An overview of deep generative models in functional and evolutionary genomics | |
Kaur et al. | Dynamic deep genomics sequence encoder for managed file transfer | |
Wang et al. | Fusang: a framework for phylogenetic tree inference via deep learning | |
CN115497555B (zh) | 多物种蛋白质功能预测方法、装置、设备及存储介质 | |
Wang et al. | Transfer learning for clustering single-cell RNA-seq data crossing-species and batch, case on uterine fibroids | |
CN113961720A (zh) | 预测实体关系的方法和关系预测模型的训练方法、装置 | |
CN112449010A (zh) | 基于区块链的业务实现方法、装置、区块链网关及区块链节点 | |
Lall et al. | Lsh-gan enables in-silico generation of cells for small sample high dimensional scrna-seq data | |
CN115206421B (zh) | 药物重定位方法、重定位模型的训练方法及装置 | |
Das et al. | DNA numerical encoding schemes for exon prediction: a recent history | |
Raja et al. | Solve DNA sequence assembly problem using hybrid crow search optimization and multi classification techniques | |
RU2818363C1 (ru) | Быстрое обнаружение слияний генов |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |