CN114863992B - 基于组织特异性的玉米可变剪接异构体功能预测系统 - Google Patents
基于组织特异性的玉米可变剪接异构体功能预测系统 Download PDFInfo
- Publication number
- CN114863992B CN114863992B CN202210736874.8A CN202210736874A CN114863992B CN 114863992 B CN114863992 B CN 114863992B CN 202210736874 A CN202210736874 A CN 202210736874A CN 114863992 B CN114863992 B CN 114863992B
- Authority
- CN
- China
- Prior art keywords
- isofam
- function
- association network
- tissue
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 240000008042 Zea mays Species 0.000 title claims abstract description 57
- 235000002017 Zea mays subsp mays Nutrition 0.000 title claims abstract description 57
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 title claims abstract description 49
- 235000005822 corn Nutrition 0.000 title claims abstract description 49
- 230000006870 function Effects 0.000 claims abstract description 191
- 239000011159 matrix material Substances 0.000 claims abstract description 86
- 230000004186 co-expression Effects 0.000 claims abstract description 24
- 230000014509 gene expression Effects 0.000 claims abstract description 13
- 108090000623 proteins and genes Proteins 0.000 claims description 109
- 238000000034 method Methods 0.000 claims description 33
- 238000003559 RNA-seq method Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 16
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 12
- 230000008520 organization Effects 0.000 claims description 12
- 230000010354 integration Effects 0.000 claims description 11
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 235000009973 maize Nutrition 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000009395 breeding Methods 0.000 description 2
- 230000001488 breeding effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Physiology (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于组织特异性的玉米可变剪接异构体功能预测系统,通过对isoform在各个组织上的表达数据进行处理,构造多个组织的isoform共表达网络,并通过自适应权重来将各个组织的isoform共表达网络进行整合,可以得到高质量的isoform组织特异性关联网络;通过利用isoform序列数据构造isoform序列相似度网络,并将其与isoform组织特异性关联网络进行融合,可以得到更好的isoform功能关联网络;通过非负矩阵分解进行多示例学习,同时使用isoform功能关联网络来指导非负矩阵分解,从而实现了isoform的更精准和更全面功能预测。
Description
技术领域
本发明涉及可变剪接异构体功能预测技术领域,特别涉及一种基于组织特异性的玉米可变剪接异构体功能预测系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术,并不必然构成现有技术。
随着生物学的发展,与基因相关的研究对玉米育种改良、提高玉米品种质量起到了推动作用。基因功能预测在生物学中具有重要的地位,并且目前已经得到了广泛研究,而近年来,转录组方面的研究逐渐引起了重视,可变剪接异构体(isoform)是转录组的重要组成部分,准确地预测isoform的功能,对玉米育种、蛋白质变种功能研究都有着十分重要的意义。
发明人发现,目前已有许多方案利用isoform的组织特异性数据通过机器学习模型对isoform的功能进行预测;但是,这些现有isoform功能预测方法具有一定的局限性,这些预测方法往往只是简单地使用RNA-seq数据得到isoform在不同玉米组织上的差异表达特征构成的特征向量,而并没有做到充分地利用组织特异性数据来提升isoform功能预测性能。
发明内容
为了解决现有技术的不足,本发明提供了一种基于组织特异性的玉米可变剪接异构体功能预测系统,通过在多个玉米组织层面构建多个isoform关联网络,并对这些网络进行融合来得到isoform功能关联网络,做到对isoform组织特异性的充分利用;通过基于多示例学习的非负矩阵分解技术,利用已有基因与isoform关联和isoform潜在功能注释,将isoform功能聚合到基因层面,并向已知基因功能注释对齐,进而实现了对玉米isoform功能的更准确预测。
为了实现上述目的,本发明采用如下技术方案:
本发明第一方面提供了一种基于组织特异性的玉米可变剪接异构体功能预测系统。
一种基于组织特异性的玉米可变剪接异构体功能预测系统,包括:
数据获取模块,被配置为:获取待预测isoform在不同玉米组织上的RNA-seq数据、isoform序列数据、isoform与其从属基因的关联矩阵以及isoform从属基因的已知功能注释;
组织特异性提取模块,被配置为:根据isoform在不同玉米组织上的RNA-seq数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络;
多组学数据融合模块,被配置为:根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络;
功能预测模块,被配置为:通过非负矩阵分解技术进行多示例学习,将已知isoform从属基因的已知功能注释进行分解,对isoform功能进行预测,同时使用isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果。
本发明第二方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
获取待预测isoform在不同玉米组织上的RNA-seq数据、isoform序列数据、isoform与其从属基因的关联矩阵以及isoform从属基因的已知功能注释;
根据isoform在不同玉米组织上的RNA-seq数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络;
根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络;
通过非负矩阵分解技术进行多示例学习,将已知isoform从属基因的已知功能注释进行分解,对isoform功能进行预测,同时使用isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果。
本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:
获取待预测isoform在不同玉米组织上的RNA-seq数据、isoform序列数据、isoform与其从属基因的关联矩阵以及isoform从属基因的已知功能注释;
根据isoform在不同玉米组织上的RNA-seq数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络;
根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络;
通过非负矩阵分解技术进行多示例学习,将已知isoform从属基因的已知功能注释进行分解,对isoform功能进行预测,同时使用isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果。
与现有技术相比,本发明的有益效果是:
1、本发明所述的基于组织特异性的玉米可变剪接异构体功能预测系统,处理并整合了isoform在不同玉米组织上的表达数据,做到了对isoform所具有的组织特异性的充分利用,有效提升了isoform功能预测效果;综合利用了isoform的多组学数据,提升了isoform功能预测的准确性。
2、本发明所述的基于组织特异性的玉米可变剪接异构体功能预测系统,使用了非负矩阵分解技术进行多示例学习,建模基因与isoform的多示例关系,利用已知基因功能注释来对isoform功能进行预测,实现了isoform功能的更精准和更全面预测。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的基于组织特异性的玉米可变剪接异构体功能预测系统的结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本发明实施例1提供了一种基于组织特异性的玉米可变剪接异构体功能预测系统,包括:
数据获取模块,被配置为:获取待预测isoform在不同玉米组织上的RNA-seq数据、isoform序列数据、isoform与其从属基因的关联数据、isoform从属基因的已知功能注释;
组织特异性提取模块,被配置为:根据isoform在不同玉米组织上的RNA-seq数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络;
多组学数据融合模块,被配置为:根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络,并将其输入到功能预测模块;
功能预测模块,被配置为:通过非负矩阵分解技术进行多示例学习,将已知基因功能注释进行分解,对isoform功能进行预测,同时使用所输入的isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果。
本实施例中,RNA-seq数据,是指:通过转录组测序得到的反映isoform表达水平的数据;序列数据,是指:isoform的核苷酸序列。
本实施例中,isoform及其从属基因的关联矩阵,是指:每个isoform具有一个基因从属关联向量,向量的长度为所有isoform从属基因的个数,当isoform从属于第i个基因时,则其从属关联向量的第i个元素为1,否则为0。
本实施例中,从属基因的已知功能注释,是指:所需预测的isoform所属基因对于功能标签的注释情况,每一个基因具有一个功能注释向量,向量的长度为所有功能标签的数目,当基因具有第i个功能时,其注释向量的第i个元素为1,并且功能标签i在层次有向无环图中的所有祖先标签在该基因注释向量所对应的位置也为1;若不具有第i个功能时,其注释向量的第i个元素为0。
本实施例中,所述根据isoform在不同玉米组织上的表达数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络,具体包括:
获取待预测isoform的在不同玉米组织上的表达谱向量;
构造isoform在不同玉米组织上的isoform共表达网络;
对不同玉米组织的isoform共表达网络进行融合,得到isoform功能关联网络。
更具体地实现方式如下:
S1021:获取待预测isoform在每个玉米组织中所有样本RNA-seq数据中的FPKM值,对于每个组织,将每个isoform在所有样本上的FPKM值进行拼接,得到isoform在各个玉米组织上的表达谱向量;
S1022:对于每个组织,计算任意两个isoform的表达谱向量的皮尔逊相关系数,得到每个玉米组织上的isoform的共表达网络矩阵;
S1023:对每个组织上的isoform共表达网络赋予一个权重,并根据权重进行加权求和,进而得到整合的isoform组织特异性关联网络,其中,每个组织的isoform共表达网络权重将在训练中进行自适应学习;对每个组织isoform共表达网络进行整合,得到isoform组织特异性关联网络的公式为:
其中,Rtissue为整合的isoform组织特异性关联网络,αt为第t个组织的isoform共表达网络的权重值,为第t个组织的isoform共表达网络。
本实施例中,所述根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络,并将其输入到功能预测模块,具体包括:
对任意两个isoform所翻译的氨基酸序列计算序列相似度,得到isoform序列相似度网络;
通过融合isoform组织特异性关联网络和isoform序列相似度网络,构造isoform的功能关联网络。
更具体地,对任意两个isoform组织特异性关联网络矩阵对应值和isoform所翻译的氨基酸序列相似度网络矩阵对应值取最大值来得到isoform的功能关联网络矩阵,构造isoform的功能关联网络的公式为:
N=max(Ntissue,Nseq)
其中,N为isoform功能关联网络矩阵,Ntissue为isoform组织特异性关联网络,Nseq为isoform所翻译的氨基酸序列相似度矩阵。
本实施例中,所述通过非负矩阵分解技术进行多示例学习,将已知基因功能注释进行分解,对isoform功能进行预测,同时使用所输入的isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果,具体包括:
通过非负矩阵分解技术,将已知的基因功能注释分解得到预测的isoform的功能注释;
将预测到的isoform功能注释聚集到基因层面,并将聚集到的基因功能注释向已知基因功能注释对齐;
使用isoform功能关联网络指导上述非负矩阵分解过程;
优化非负矩阵分解所带来的损失值至最小值,最终学习得到isoform功能注释预测结果。
更具体地实现方式如下:
S1031:通过两因子非负矩阵分解技术,将已知基因功能注释进行非负矩阵分解,得到潜在的基因与isoform关联矩阵和预测的isoform的功能注释矩阵,分解公式如下:
Y=XZ
其中,(n为基因数目,c为功能标签个数)为已知的基因功能注释矩阵,(m为isoform数目)为潜在的基因与isoform关联矩阵,/>为所预测的isoform的功能注释矩阵。
S1032:计算S1031进行非负矩阵分解所产生的损失,同时使用S102生成的isoform功能关联网络指导非负矩阵分解过程,使得功能关联相近的isoform具有更相似的功能注释,计算公式如下:
s.t.X≥0,Z≥0
其中,为非负矩阵分解所产生的损失值,Y为已知的基因功能注释矩阵,X为分解产生的潜在基因与isoform关联矩阵,Z为所预测的isoform的功能注释矩阵,λ为用于平衡公式中的两项的参数,Zi为第i个isoform的功能注释向量,N为isoform功能关联网络矩阵。
S1033:通过已知基因与isoform关联矩阵,将S1031得到的预测的isoform的功能注释矩阵聚集到基因层面,聚集公式如下:
其中,(n为基因数目,c为功能标签个数)为聚集得到的基因功能注释矩阵,/>为以每个基因所产生的isoform个数为对角元素的对角矩阵,/>(m为isoform数目)为已知的基因与isoform关联矩阵,/>为所预测的isoform的功能注释矩阵。
S1034:计算由S1033得到的聚集的基因功能注释与已知基因功能注释之间的损失值,将该损失值与S1032所计算的非负矩阵分解损失值同时优化至最小值,最终学习得到最优的isoform功能注释预测结果,损失的计算公式如下:
s.t.X≥0,Z≥0
其中,为所需优化的损失值,Y为已知的基因功能注释,X为所分解产生的潜在基因与isoform关联矩阵,Z为isoform功能预测结果,/>为由S1032得到的聚集的基因功能注释。
综上所述,本实施例提出的基于组织特异性的玉米可变剪接异构体功能预测系统,通过对isoform在各个组织上的表达数据进行处理,构造多个组织的isoform共表达网络,并通过自适应权重来将各个组织的isoform共表达网络进行整合得到isoform组织特异性关联网络,更加充分地利用了isoform的在多个组织上的组织特异性,提升了isoform功能预测的准确性;使用isoform序列数据构造isoform序列相似度网络,并将其与isoform组织特异性关联网络进行融合,得到有效的isoform功能关联网络,做到了对多组学数据的综合利用;使用非负矩阵分解技术对已知基因功能注释进行分解,得到预测的isoform功能注释,同时使用isoform功能关联网络来指导非负矩阵分解的过程,有效地建模了基因与isoform的包与示例的关系,借助基因与isoform的关联将其聚集到基因层面;将聚集的基因功能注释向已知的基因功能注释对齐,从而对isoform的功能注释进行预测。
实施例2:
本发明实施例2提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
获取待预测isoform在不同玉米组织上的RNA-seq数据、isoform序列数据、isoform与其从属基因的关联矩阵以及isoform从属基因的已知功能注释;
根据isoform在不同玉米组织上的RNA-seq数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络;
根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络;
通过非负矩阵分解技术进行多示例学习,将已知isoform从属基因的已知功能注释进行分解,对isoform功能进行预测,同时使用isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果。
上述步骤的详细步骤与实施例1提供的相同,这里不再赘述。
实施例3:
本发明实施例3提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:
获取待预测isoform在不同玉米组织上的RNA-seq数据、isoform序列数据、isoform与其从属基因的关联矩阵以及isoform从属基因的已知功能注释;
根据isoform在不同玉米组织上的RNA-seq数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络;
根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络;
通过非负矩阵分解技术进行多示例学习,将已知isoform从属基因的已知功能注释进行分解,对isoform功能进行预测,同时使用isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果。
上述步骤的详细步骤与实施例1提供的相同,这里不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于组织特异性的玉米可变剪接异构体功能预测系统,其特征在于:
包括:
数据获取模块,被配置为:获取待预测isoform在不同玉米组织上的RNA-seq数据、isoform序列数据、isoform与其从属基因的关联矩阵以及isoform从属基因的已知功能注释;
组织特异性提取模块,被配置为:根据isoform在不同玉米组织上的RNA-seq数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络;
多组学数据融合模块,被配置为:根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络;
功能预测模块,被配置为:通过非负矩阵分解技术进行多示例学习,将已知isoform从属基因的已知功能注释进行分解,对isoform功能进行预测,同时使用isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果;
根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络,包括:
对任意两个isoform所翻译的氨基酸序列计算序列相似度,得到isoform序列相似度网络;通过融合isoform组织特异性关联网络和isoform序列相似度网络,构造isoform的功能关联网络;
对任意两个isoform组织特异性关联网络矩阵对应值和isoform所翻译的氨基酸序列相似度网络矩阵对应值取最大值来得到isoform的功能关联网络矩阵,构造isoform的功能关联网络,包括:
N=max(Ntissue,Nseq)
其中,N为isoform功能关联网络矩阵,Ntissue为isoform组织特异性关联网络,Nseq为isoform所翻译的氨基酸序列相似度矩阵。
2.如权利要求1所述的基于组织特异性的玉米可变剪接异构体功能预测系统,其特征在于:
从属基因的已知功能注释,包括:所需预测的isoform所属基因对于功能标签的注释情况,每一个基因具有一个功能注释向量,向量的长度为所有功能标签的数目,当基因具有第i个功能时,其注释向量的第i个元素为1,并且功能标签i在层次有向无环图中的所有祖先标签在该基因注释向量所对应的位置也为1;若不具有第i个功能时,其注释向量的第i个元素为0。
3.如权利要求1所述的基于组织特异性的玉米可变剪接异构体功能预测系统,其特征在于:
根据isoform在不同玉米组织上的表达数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络,包括:
获取待预测isoform的在不同玉米组织上的表达谱向量;构造isoform在不同玉米组织上的isoform共表达网络;对不同玉米组织的isoform共表达网络进行融合,得到isoform功能关联网络。
4.如权利要求3所述的基于组织特异性的玉米可变剪接异构体功能预测系统,其特征在于:
获取待预测isoform在每个玉米组织中所有样本RNA-seq数据中的FPKM值,对于每个组织,将每个isoform在所有样本上的FPKM值进行拼接,得到isoform在各个玉米组织上的表达谱向量;
对于每个组织,计算任意两个isoform的表达谱向量的皮尔逊相关系数,得到每个玉米组织上的isoform的共表达网络矩阵;
对每个组织上的isoform共表达网络赋予一个权重,并根据权重进行加权求和,进而得到整合的isoform组织特异性关联网络,其中,每个组织的isoform共表达网络权重将在训练中进行自适应学习,对每个组织isoform共表达网络进行整合,得到isoform组织特异性关联网络。
5.如权利要求1所述的基于组织特异性的玉米可变剪接异构体功能预测系统,其特征在于:
通过非负矩阵分解技术,将已知的基因功能注释分解得到预测的isoform的功能注释;
将预测到的isoform功能注释聚集到基因层面,并将聚集到的基因功能注释向已知基因功能注释对齐;
使用isoform功能关联网络指导上述非负矩阵分解过程;
优化非负矩阵分解所带来的损失值至最小值,最终学习得到isoform功能注释预测结果。
6.如权利要求5所述的基于组织特异性的玉米可变剪接异构体功能预测系统,其特征在于:
通过两因子非负矩阵分解技术,将已知基因功能注释进行非负矩阵分解,得到潜在的基因与isoform关联矩阵和预测的isoform的功能注释矩阵;
计算上一步进行非负矩阵分解所产生的损失,同时使用生成的isoform功能关联网络指导非负矩阵分解过程,使得功能关联相近的isoform具有更相似的功能注释;
通过已知基因与isoform关联矩阵,将得到的预测的isoform的功能注释矩阵聚集到基因层面;
计算由上一步得到的聚集的基因功能注释与已知基因功能注释之间的损失值,将该损失值与所计算的非负矩阵分解损失值同时优化至最小值,最终学习得到最优的isoform功能注释预测结果。
7.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如下步骤:
获取待预测isoform在不同玉米组织上的RNA-seq数据、isoform序列数据、isoform与其从属基因的关联矩阵以及isoform从属基因的已知功能注释;
根据isoform在不同玉米组织上的RNA-seq数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络;
根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络;
通过非负矩阵分解技术进行多示例学习,将已知isoform从属基因的已知功能注释进行分解,对isoform功能进行预测,同时使用isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果;
根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络,包括:
对任意两个isoform所翻译的氨基酸序列计算序列相似度,得到isoform序列相似度网络;通过融合isoform组织特异性关联网络和isoform序列相似度网络,构造isoform的功能关联网络;
对任意两个isoform组织特异性关联网络矩阵对应值和isoform所翻译的氨基酸序列相似度网络矩阵对应值取最大值来得到isoform的功能关联网络矩阵,构造isoform的功能关联网络,包括:
N=max(Ntissue,Nseq)
其中,N为isoform功能关联网络矩阵,Ntissue为isoform组织特异性关联网络,Nseq为isoform所翻译的氨基酸序列相似度矩阵。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如下步骤:
获取待预测isoform在不同玉米组织上的RNA-seq数据、isoform序列数据、isoform与其从属基因的关联矩阵以及isoform从属基因的已知功能注释;
根据isoform在不同玉米组织上的RNA-seq数据,构造各个组织的isoform共表达网络,根据自适应权重来进行加权整合,得到整合的isoform组织特异性关联网络;
根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络;
通过非负矩阵分解技术进行多示例学习,将已知isoform从属基因的已知功能注释进行分解,对isoform功能进行预测,同时使用isoform功能关联网络指导矩阵分解过程,将isoform层面的潜在功能注释聚合到基因层面,并将基因层面的功能注释向已知的功能注释对齐,最终学习得到isoform的功能预测结果;
根据isoform的序列数据构造序列相似度关联网络,并与isoform组织特异性关联网络进行融合,得到isoform功能关联网络,包括:
对任意两个isoform所翻译的氨基酸序列计算序列相似度,得到isoform序列相似度网络;通过融合isoform组织特异性关联网络和isoform序列相似度网络,构造isoform的功能关联网络;
对任意两个isoform组织特异性关联网络矩阵对应值和isoform所翻译的氨基酸序列相似度网络矩阵对应值取最大值来得到isoform的功能关联网络矩阵,构造isoform的功能关联网络,包括:
N=max(Ntissue,Nseq)
其中,N为isoform功能关联网络矩阵,Ntissue为isoform组织特异性关联网络,Nseq为isoform所翻译的氨基酸序列相似度矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736874.8A CN114863992B (zh) | 2022-06-27 | 2022-06-27 | 基于组织特异性的玉米可变剪接异构体功能预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736874.8A CN114863992B (zh) | 2022-06-27 | 2022-06-27 | 基于组织特异性的玉米可变剪接异构体功能预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863992A CN114863992A (zh) | 2022-08-05 |
CN114863992B true CN114863992B (zh) | 2024-04-05 |
Family
ID=82625655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210736874.8A Active CN114863992B (zh) | 2022-06-27 | 2022-06-27 | 基于组织特异性的玉米可变剪接异构体功能预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863992B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107058525A (zh) * | 2017-03-21 | 2017-08-18 | 济南大学 | 一种基于基因表达量与性状动态相关性预测玉米未知基因功能的方法 |
CN110491443A (zh) * | 2019-07-23 | 2019-11-22 | 华中师范大学 | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 |
CN112908405A (zh) * | 2021-01-27 | 2021-06-04 | 深圳职业技术学院 | 肿瘤基因共表达网络构建方法、装置、设备和存储介质 |
CN113178227A (zh) * | 2021-04-30 | 2021-07-27 | 西安交通大学 | 多组学融合剪接位点的识别方法及系统、设备和存储介质 |
CN114283888A (zh) * | 2021-12-22 | 2022-04-05 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
-
2022
- 2022-06-27 CN CN202210736874.8A patent/CN114863992B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107058525A (zh) * | 2017-03-21 | 2017-08-18 | 济南大学 | 一种基于基因表达量与性状动态相关性预测玉米未知基因功能的方法 |
CN110491443A (zh) * | 2019-07-23 | 2019-11-22 | 华中师范大学 | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 |
CN112908405A (zh) * | 2021-01-27 | 2021-06-04 | 深圳职业技术学院 | 肿瘤基因共表达网络构建方法、装置、设备和存储介质 |
CN113178227A (zh) * | 2021-04-30 | 2021-07-27 | 西安交通大学 | 多组学融合剪接位点的识别方法及系统、设备和存储介质 |
CN114283888A (zh) * | 2021-12-22 | 2022-04-05 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
Non-Patent Citations (14)
Title |
---|
Attributed heterogeneous network fusion via collaborative matrix tri-factorization;Guoxian Yu等;《Information Fusion》;20200626;第153-165页 * |
DeepIII: Predicting Isoform-Isoform Interactions by Deep Neural Networks and Data Fusion;Sichao Qiu等;《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》;20210325;第2177-2187页 * |
Differentiating isoform functions with collaborative matrix factorization;Keyao Wang等;《Bioinformatics》;20191114;第1864-1871页 * |
DMIL-III: Isoform-isoform interaction prediction using deep multi-instance learning method;Jie Zeng等;《2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20191231;第171-176页 * |
DMIL-IsoFun: predicting isoform function using deep multi-instance learning;Guoxian Yu;《Bioinformatics》;20210720;第4818-4825页 * |
Genome-Phenome Association Prediction by Deep Factorizing Heterogeneous Molecular Network;Haojiang Tan等;《2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20211231;第211-216页 * |
Isoform function prediction based on bi-random walks on heterogeneous network;Guoxian Yu等;《Bioinformatics》;20190628;第303-310页 * |
Isoform-Disease Association Prediction by Data Fusion;Qiuyue Huang等;《Springer Nature Switzerland AG 2020》;20200818;第44-55页 * |
Weighted deep factorizing heterogeneous molecular network for genome-phenome association prediction;Haojiang Tan等;《Methods》;20220608;第18-28页 * |
基于RNA-seq数据的可变剪接异构体功能预测方法研究;王可尧;《中国优秀硕士学位论文全文数据库基础科学辑》;20200115;A006-485 * |
基于多组学数据的可变剪接异构体功能预测方法研究;黄秋月;《中国优秀硕士学位论文全文数据库基础科学辑》;20220115;A006-448 * |
基于深度卷积网络和数据融合的蛋白质功能预测研究;周广杰;《中国优秀硕士学位论文全文数据库基础科学辑》;20220115;A006-449 * |
基于深度多示例学习的可变剪接异构体相互作用预测研究;曾杰;《中国优秀硕士学位论文全文数据库基础科学辑》;20220115;A006-447 * |
多层次生物分子网络构建与可视化分析平台研发;严杨扬;《中国优秀硕士学位论文全文数据库基础科学辑》;20210115;A006-579 * |
Also Published As
Publication number | Publication date |
---|---|
CN114863992A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7275228B2 (ja) | バリアントの分類のための深層畳み込みニューラルネットワーク | |
Liesecke et al. | Ranking genome-wide correlation measurements improves microarray and RNA-seq based global and targeted co-expression networks | |
Pan et al. | A deep siamese neural network improves metagenome-assembled genomes in microbiome datasets across different environments | |
CN107862173B (zh) | 一种先导化合物虚拟筛选方法和装置 | |
Park et al. | Deep recurrent neural network-based identification of precursor micrornas | |
US11176462B1 (en) | System and method for prediction of protein-ligand interactions and their bioactivity | |
CN109829162A (zh) | 一种文本分词方法及装置 | |
US20230207054A1 (en) | Deep learning network for evolutionary conservation | |
CN114743600A (zh) | 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法 | |
Chakraborty et al. | Predicting MicroRNA sequence using CNN and LSTM stacked in Seq2Seq architecture | |
Yuan et al. | DeCban: prediction of circRNA-RBP interaction sites by using double embeddings and cross-branch attention networks | |
Raad et al. | miRe2e: a full end-to-end deep model based on transformers for prediction of pre-miRNAs | |
Oriol Sabat et al. | SALAI-Net: species-agnostic local ancestry inference network | |
CN114863992B (zh) | 基于组织特异性的玉米可变剪接异构体功能预测系统 | |
Kao et al. | naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing | |
CN116864002A (zh) | 多重聚合酶链式反应引物设计方法、装置、设备和介质 | |
KR102000832B1 (ko) | miRNA-mRNA 연관도 분석 방법 및 miRNA-mRNA 네트워크 생성 장치 | |
Ding et al. | CRMnet: A deep learning model for predicting gene expression from large regulatory sequence datasets | |
Durge et al. | Heuristic analysis of genomic sequence processing models for high efficiency prediction: A statistical perspective | |
CN115101120B (zh) | 基于数据融合的玉米可变剪接异构体功能预测系统 | |
CN115101130A (zh) | 一种基于网络对抗学习的单细胞数据插补方法及系统 | |
CN115101119B (zh) | 基于网络嵌入的isoform功能预测系统 | |
Liu et al. | Res2s2am: Deep residual network-based model for identifying functional noncoding snps in trait-associated regions | |
Tran et al. | Network representation of large-scale heterogeneous RNA sequences with integration of diverse multi-omics, interactions, and annotations data | |
Wang et al. | RL-MD: A Novel Reinforcement Learning Approach for DNA Motif Discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |