CN112562788B - 一种环状rna-rna结合蛋白关系预测模型构建方法 - Google Patents

一种环状rna-rna结合蛋白关系预测模型构建方法 Download PDF

Info

Publication number
CN112562788B
CN112562788B CN202011575605.5A CN202011575605A CN112562788B CN 112562788 B CN112562788 B CN 112562788B CN 202011575605 A CN202011575605 A CN 202011575605A CN 112562788 B CN112562788 B CN 112562788B
Authority
CN
China
Prior art keywords
rna
sequence
protein
circular rna
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011575605.5A
Other languages
English (en)
Other versions
CN112562788A (zh
Inventor
袁亮亮
杨旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011575605.5A priority Critical patent/CN112562788B/zh
Publication of CN112562788A publication Critical patent/CN112562788A/zh
Application granted granted Critical
Publication of CN112562788B publication Critical patent/CN112562788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Chemical & Material Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Bioethics (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)

Abstract

本发明公开了一种环状RNA‑RNA结合蛋白关系预测模型构建方法,解决了现有技术仅限制了预测准确率的问题,其技术方案要点是将初始的环状RNA序列数据集样本构造为环状RNA‑RNA结合蛋白序列对的形式;采用自监督学习的方式训练得到词向量字典;根据训练得到的词向量字典,将样本序列对映射成对应的词向量矩阵作为表征;将样本序列对的向量表征对应输入伪孪生网络,得到编码后的特征向量输入到度量函数中,计算绑定概率预测值并计算获得其与标签的差值,优化模型参数;模型训练迭代结束后保存得到的模型,本发明的环状RNA‑RNA结合蛋白关系预测模型构建方法,能针对RNA序列和蛋白质序列进行数据挖掘,能有效提高环状RNA‑RNA结合蛋白结合预测的准确率。

Description

一种环状RNA-RNA结合蛋白关系预测模型构建方法
技术领域
本发明涉及生物信息数据挖掘技术,特别涉及一种环状RNA-RNA结合蛋白关系预测模型构建方法。
背景技术
环状RNA是一类特殊的非编码RNA分子,与传统的linear RNA不同,环状RNA分子呈封闭环状结构,不受RNA外切酶影响,表达更加稳定。
近年的研究表明,环状RNA在疾病中发挥着重要的调控作用,已成为RNA领域最新的研究热点。其中,对于环状RNA和RNA结合蛋白(RBP)的研究是一个主流方向,主要通过研究环状RNA与RBP之间的调控关系从而更好地理解环状RNA的功能。
目前大量已开源的高通量测序实验数据的出现,使得基于数据学习的机器学习算法得以在这个领域发挥作用,通过机器学习算法,可以学习到序列绑定关系的模式,对未知的序列的绑定关系进行预测,相比于湿实验测定的方式减少了成本。
近年来有很多针对环状RNA序列预期其对应的RNA结合蛋白的工作,如2019年Zhang K等人在“CRIP:predicting circRNA-RBP binding sites using a codon-basedencoding and hybrid deep neural networks”中采用CNN+LSTM的模型架构来学习序列关于结合蛋白的绑定模式,在此基础上,2020年Jia C等人在“PASSION:an ensemble neuralnetwork approach for identifying the binding sites of RBPs on circRNAs”中通过集成多种网络模型的方式进一步提升了预测准确率。此外,2020年Yuning Yang等人在“iCircRBP-DHN:identification of circRNA-RBP interaction sites using deephierarchical network”引入了更多的机制,相比前两种方式取得了更好的效果。但以上三种方法的局限在于它们都仅用到了环状RNA序列信息,通过学习环状RNA序列的特定模式来判断是否与目标RNA结合蛋白相结合,而环状RNA序列与蛋白序列绑定是由两序列的相互作用而实现的,仅用到环状RNA序列信息限制了预测准确率,还有待改进的空间。
发明内容
本发明的目的是提供一种环状RNA-RNA结合蛋白关系预测模型构建方法,能针对RNA序列和蛋白质序列进行数据挖掘,能够有效地学习到环状RNA序列和RNA结合蛋白序列之间交互模式的模型,以提高环状RNA-RNA结合蛋白结合预测的准确率。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种环状RNA-RNA结合蛋白关系预测模型构建方法,包括有以下步骤:
S1、将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对,重构形成目标数据集;
S2、采用自监督学习的方式训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征,得到对应的词向量字典;
S3、根据S2所得的词向量字典,将S1得到的目标数据集中的序列对映射成对应的词向量矩阵对,以将原始的环状RNA序列和蛋白质序列转化成对应的分布式表征形式;
S4、将S3得到的序列对的分布式表征输入伪孪生网络,得到编码后对应的两个特征向量;
S5、将S4得到的编码后的两个特征向量输入一个度量函数,输出对绑定概率的预测,计算预测值和标签的差值,优化模型参数;
S6、将步骤S3、S4、S5在原始的环状RNA序列数据集全集上进行一次称为一轮迭代,若迭代轮数等于给定常数或达到早停算法的阈值则停止迭代,进入步骤S7,否则返回步骤S3,迭代轮数加1,其中迭代轮数初始值为0;
S7、模型训练迭代结束后保存测试指标和得到的模型。
作为优选,步骤S1中将原始的环状RNA序列数据集中的环状RNA序列构造为环状RNA-RNA结合蛋白序列对,重构形成目标数据集具体为:
S11、初始化新数据集N为空;
S12、对于一个与某种类型RNA结合蛋白相结合的环状RNA序列子数据集,确定该RNA结合蛋白的蛋白质序列;
S13、将S12中环状RNA序列子数据集中每一个样本的环状RNA序列和对应结合的RNA结合蛋白组成一对,样本的标签不变,加入新数据集N;
S14、将步骤S12、S13进行一次称为一轮迭代,若所有类型的RNA结合蛋白对应的环状RNA序列子数据集都已经经过重构则停止迭代,进入步骤S15,否则返回步骤S12;
S15、保存新数据集N作为重构后的目标数据集。
作为优选,步骤S2中采用自监督学习的方式训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征的步骤包括:
S21、确定RNA序列语料库和蛋白质序列语料库;
S22、将语料库的序列进行分词,对于RNA序列,以长度为10,步长为1的的滑动窗口切分成RNA子序列;对蛋白质序列,以长度为5的滑动窗口,步长为1的方式切分成蛋白质子序列,切分后形成两个新的语料库,RNA子序列和蛋白质子序列分别作为单词;
S23、使用自监督学习的方式,分别训练两个语料库,得到RNA序列的分布式表征和蛋白质序列的分布式表征,对应生成两个词向量字典,分别为RNA序列表征词典与蛋白质序列表征词典。
作为优选,步骤S3中得到原始的环状RNA序列和蛋白质序列对应的分布式表征的步骤包括:
S31、将RNA序列映射为词向量矩阵,以长度为10,步长为1的滑动窗口,将RNA原序列从首部开始进行切分,得到RNA子序列集;根据S2中得到的RNA序列表征词典,依次将RNA子序列集中的RNA子序列映射为词向量,堆叠得到的词向量矩阵为RNA原序列的分布式表征;
S32、将蛋白质序列映射为词向量矩阵,以长度为5,步长为5的滑动窗口,将蛋白质原序列从首部开始进行切分,得到蛋白质子序列集;根据S2中得到的蛋白质序列表征词典,依次将子序列集中的子序列映射为词向量,堆叠得到的词向量矩阵为蛋白质原序列的分布式表征。
作为优选,步骤S4将序列对的表征输入伪孪生网络的步骤包括:将步骤S3得到的词向量矩阵对分别输入两个分支,每个分支是不共享权重的编码器模块,编码器模块可采用不同的网络骨干。
作为优选,步骤S5中将编码后的两个特征向量输入一个度量函数的步骤包括:将S4中的两个分支输出的特征向量拼接,输入一个全连接网络中,损失函数为交叉熵损失函数。
综上所述,本发明具有以下有益效果:
通过引入蛋白质序列信息并构建伪孪生网络的方式,学习到了环状RNA序列和RNA结合蛋白序列之间交互的模式,极大地提高了预测环状RNA-RNA结合蛋白是否结合的准确率。
附图说明
图1为本发明方法的流程示意框图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
原始的环状RNA序列数据集包括有若干个RNA子数据集,每个子数据集对应于一类的RNA结合蛋白,每个子数据集中包含有若干样本,样本由RNA序列和标签组成。
根据一个或多个实施例,公开了一种环状RNA-RNA结合蛋白关系预测模型构建方法,如图1所示,包括有以下步骤:
S1、将初始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对,保持与原样本的标签一致,重构后形成目标数据集;
具体的,初始的原装RNA数据集包括有N个RNA子数据集,每个子数据集对应于一类RNA结合蛋白。步骤S1包括有:
S11、初始化一个新数据集N为空;
S12、对于一个与某种类型RNA结合蛋白相结合的环状RNA序列子数据集,确定该RNA结合蛋白的蛋白质序列P;
S13、将S12中环状RNA序列子数据集中每一个样本的环状RNA序列和对应结合的RNA结合蛋白组成一对,作为新样本的特征,样本的标签不变,加入新数据集N;
S14、将步骤S12、S13进行一次称为一轮迭代,若所有类型的RNA结合蛋白对应的环状RNA序列子数据集都已经经过重构则停止迭代,进入步骤S15,否则返回步骤S12;
S15、保存新数据集N作为重构后的目标数据集。
S2、采用自监督学习的方式训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征,得到对应的词向量字典,分别为RNA序列词向量字典和蛋白质序列词向量字典;
具体的,步骤S2包括有:
S21、确定RNA序列语料库和蛋白质序列语料库,通过UniRef蛋白质数据库和circBase环状RNA数据库构造蛋白质语料库和RNA语料库;
S22、将语料库的序列进行分词,对于RNA序列,以长度为10,步长为1的的滑动窗口切分成RNA子序列;对蛋白质序列,以长度为5的滑动窗口,步长为1的方式切分成蛋白质子序列,切分后形成两个新的语料库,RNA子序列和蛋白质子序列分别作为单词;
S23、使用典型的词向量训练方法,如GloVe,分别训练两个语料库,得到RNA序列的分布式表征和蛋白质序列的分布式表征,对应生成两个词向量字典,分别为RNA序列表征词典Embedrna与蛋白质序列表征词典Embedprotein
S3、根据S2所得的词向量字典,将S1得到的目标数据集中的序列对映射成对应的词向量矩阵对
Figure BDA0002863232130000061
以将原始的环状RNA序列和蛋白质序列转化成对应的分布式表征形式。向量矩阵
Figure BDA0002863232130000062
定义为
Figure BDA0002863232130000063
Figure BDA0002863232130000064
其中,Xrna,Xprotein为S1所得序列对,其中Embedrna(·)、Embedprotein(·)分别表示基于环状RNA、蛋白质词向量字典的映射函数。
具体的,步骤S3包括有:
S31、将RNA序列映射为词向量矩阵,以长度为10,步长为1的滑动窗口,将RNA原序列从首部开始进行切分,得到RNA子序列集;根据S2中得到的RNA序列表征词典,依次将RNA子序列集中的RNA子序列映射为词向量,堆叠得到的词向量矩阵为RNA原序列的分布式表征;
S32、将蛋白质序列映射为词向量矩阵,以长度为5,步长为5的滑动窗口,将蛋白质原序列从首部开始进行切分,得到蛋白质子序列集;根据S2中得到的蛋白质序列表征词典,依次将子序列集中的子序列映射为词向量,堆叠得到的词向量矩阵为蛋白质原序列的分布式表征。
S4、将S3得到的序列对的分布式表征输入伪孪生网络,得到编码后对应的两个特征向量;S3得到的输出词向量矩阵作为序列对的分布式表征,具体为将步骤S3得到的词向量矩阵对
Figure BDA0002863232130000071
分别输入到伪孪生网络的两个分支,每个分支是不共享权重的编码器模块,编码器模块可采用不同的网络骨干,如Resnet,ResNet-18结构的编码器,输出特征向量Yrna,Yprotein定义为
Figure BDA0002863232130000072
Figure BDA0002863232130000073
其中ResNet1(·),ResNet2(·)表示ResNet编码器对输入所做变换的函数。
S5、将S4得到的编码后的两个输出特征向量输入一个度量函数,输出对绑定概率的预测,计算预测值和标签的差值,优化模型参数;将S4中的两个分支输出的特征向量拼接,输入一个全连接网络中;输出特征向量Yrna,Yprotein进行拼接得到Yconcat,将其输入全连接网络,使用Softmax激活函数,输出对绑定关系的预测值Output,Yconcat定义为:
Yconcat=Concat(Yrna,Yprotein)
Output定义为:
Output=Softmax(g(Wfc*Yconcat+bfc))。
计算预测值Output和样本真实标签的差异,采用交叉熵损失函数,反向优化整个网络的参数,损失函数为交叉熵损失函数。
S6、将步骤S3、S4、S5在原始的环状RNA序列数据集全集上进行一次称为一轮迭代;若迭代轮数等于给定常数或达到早停算法的阈值则停止迭代,进入步骤S7,否则返回步骤S3,迭代轮数加1,其中迭代轮数初始值为0;迭代轮数给定常数优选20次,早停条件设置为连续5轮验证集准确率没有提升。
S7、模型训练迭代结束后保存测试指标和得到的模型。
基于伪孪生网络的环状RNA-RNA结合蛋白关系预测模型在“CRIP:predictingcircRNA-RBP binding sites using a codon-based encoding and hybrid deep neuralnetworks”文章中提出的数据集中进行了实验,此数据集共有37个子数据集对应37种RNA结合蛋白,训练集与测试集的比例为4∶1,训练集和测试集中正负样本数目比较均衡,实验表明基于伪孪生网络的环状RNA-RNA结合蛋白关系预测模型的预测F1值可以达到0.92以上,AUC达到0.97左右,比目前提出的最先进的CRIP、PASSION、iCirRBP-DHN等模型高7%以上。
本方法通过采用双分支的伪孪生网络的结构,利用了RNA结合蛋白数据,充分挖掘了RNA序列和蛋白质序列之间的相互关系,大幅度提高了环状RNA序列分子对应RNA结合蛋白预测的准确率。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (6)

1.一种环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,包括有以下步骤:
S1、将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对,重构形成目标数据集;
S2、采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征,得到对应的词向量字典;
S3、根据S2所得的词向量字典,将S1得到的目标数据集中的序列对映射成对应的词向量矩阵对,以将原始的环状RNA序列和蛋白质序列转化成对应的分布式表征形式;
S4、将S3得到的序列对的分布式表征输入伪孪生网络,得到编码后对应的两个特征向量;
S5、将S4得到的编码后的两个特征向量输入一个度量函数,输出对绑定概率的预测,计算预测值和标签的差值,优化模型参数;
S6、将步骤S3、S4、S5在原始的环状RNA序列数据集全集上进行一次称为一轮迭代,若迭代轮数等于给定常数或达到早停算法的阈值则停止迭代,进入步骤S7,否则返回步骤S3,迭代轮数加1,其中迭代轮数初始值为0;
S7、模型训练迭代结束后保存测试指标和得到的模型。
2.根据权利要求1所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S1中将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对,重构形成目标数据集具体为:
S11、初始化新数据集N为空;
S12、对于一个与某种类型RNA结合蛋白相结合的环状RNA序列子数据集,确定该RNA结合蛋白的蛋白质序列;
S13、将S12中环状RNA序列子数据集中每一个样本的环状RNA序列和对应结合的RNA结合蛋白组成一对,样本的标签不变,加入新数据集N;
S14、将步骤S12、S13进行一次称为一轮迭代,若所有类型的RNA结合蛋白对应的环状RNA序列子数据集都已经经过重构则停止迭代,进入步骤S15,否则返回步骤S12;
S15、保存新数据集N作为重构后的目标数据集。
3.根据权利要求2所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S2中采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征的步骤包括:
S21、确定RNA序列语料库和蛋白质序列语料库;
S22、将语料库的序列进行分词,对于RNA序列,以长度为10,步长为1的滑动窗口切分成RNA子序列;对蛋白质序列,以长度为5的滑动窗口,步长为1的方式切分成蛋白质子序列,切分后形成两个新的语料库,RNA子序列和蛋白质子序列分别作为单词;
S23、使用典型的词向量训练方法,分别训练两个语料库,得到RNA序列的分布式表征和蛋白质序列的分布式表征,对应生成两个词向量字典,分别为RNA序列表征词典与蛋白质序列表征词典。
4.根据权利要求3所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S3中得到原始的环状RNA序列和蛋白质序列对应的分布式表征的步骤包括:
S31、将RNA序列映射为词向量矩阵,以长度为10,步长为1的滑动窗口,将RNA原序列从首部开始进行切分,得到RNA子序列集;根据S2中得到的RNA序列表征词典,依次将RNA子序列集中的RNA子序列映射为词向量,堆叠得到的词向量矩阵为RNA原序列的分布式表征;
S32、将蛋白质序列映射为词向量矩阵,以长度为5,步长为1的滑动窗口,将蛋白质原序列从首部开始进行切分,得到蛋白质子序列集;根据S2中得到的蛋白质序列表征词典,依次将蛋白质子序列集中的子序列映射为词向量,堆叠得到的词向量矩阵为蛋白质原序列的分布式表征。
5.根据权利要求4所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S4将序列对的分布式表征输入伪孪生网络的步骤包括:将步骤S3得到的词向量矩阵对分别输入伪孪生网络的两个分支,每个分支是不共享权重的编码器模块,编码器模块可采用不同的网络骨干。
6.根据权利要求5所述的环状RNA-RNA结合蛋白关系预测模型构建方法,其特征是,步骤S5中将编码后的两个特征向量输入一个度量函数的步骤包括:将S4中的两个分支输出的特征向量拼接,输入一个全连接网络中,损失函数为交叉熵损失函数。
CN202011575605.5A 2020-12-28 2020-12-28 一种环状rna-rna结合蛋白关系预测模型构建方法 Active CN112562788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011575605.5A CN112562788B (zh) 2020-12-28 2020-12-28 一种环状rna-rna结合蛋白关系预测模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011575605.5A CN112562788B (zh) 2020-12-28 2020-12-28 一种环状rna-rna结合蛋白关系预测模型构建方法

Publications (2)

Publication Number Publication Date
CN112562788A CN112562788A (zh) 2021-03-26
CN112562788B true CN112562788B (zh) 2022-06-28

Family

ID=75033677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011575605.5A Active CN112562788B (zh) 2020-12-28 2020-12-28 一种环状rna-rna结合蛋白关系预测模型构建方法

Country Status (1)

Country Link
CN (1) CN112562788B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364170B (zh) * 2023-03-09 2024-06-07 山东第一医科大学(山东省医学科学院) 一种环状rna编码潜能的预测方法和系统
CN117711532B (zh) * 2024-02-05 2024-05-10 北京悦康科创医药科技股份有限公司 多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法
CN118538299A (zh) * 2024-07-26 2024-08-23 中国科学技术大学 生物模型的训练方法及生物序列的处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459264A (zh) * 2019-08-02 2019-11-15 陕西师范大学 基于梯度增强决策树预测环状rna与疾病相关性的方法
CN111445944A (zh) * 2020-03-27 2020-07-24 江南大学 基于多视角深度特征与多标签学习的rna结合蛋白识别
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2578696A1 (en) * 2011-10-06 2013-04-10 febit holding GmbH MiRNAs as non-invasive biomarkers for diagnosis
SG11202005060YA (en) * 2017-12-15 2020-06-29 Flagship Pioneering Innovations Vi Llc Compositions comprising circular polyribonucleotides and uses thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459264A (zh) * 2019-08-02 2019-11-15 陕西师范大学 基于梯度增强决策树预测环状rna与疾病相关性的方法
CN111445944A (zh) * 2020-03-27 2020-07-24 江南大学 基于多视角深度特征与多标签学习的rna结合蛋白识别
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CircSLNN:Identifying RBP-Binding Sites on circRNAs via Sequence Labeling Neural Networks;Yuqi Ju.et.;《Frontiers in genetics》;20191122;第10卷;第1184页 *
老年髋部骨折患者环状RNA差异表达的研究;马骁;《中国优秀博硕士学位论文全文数据库(博士)医药卫生科技辑》;20180215(第2期);第E066-27页 *

Also Published As

Publication number Publication date
CN112562788A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112562788B (zh) 一种环状rna-rna结合蛋白关系预测模型构建方法
CN113593631A (zh) 一种预测蛋白质-多肽结合位点的方法及系统
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN114239718B (zh) 基于多元时序数据分析的高精度长期时间序列预测方法
CN114611792A (zh) 一种基于混合CNN-Transformer模型的大气臭氧浓度预测方法
Wang Randomized linear programming solves the markov decision problem in nearly linear (sometimes sublinear) time
CN115497554B (zh) 预测药物化合物与作用靶点之间亲和力大小的量子系统
CN110210495A (zh) 基于并行LSTM自编码器动态特征提取的XGBoost软测量建模方法
CN114819056B (zh) 一种基于域对抗和变分推断的单细胞数据整合方法
CN112633328A (zh) 一种基于深度学习的致密油藏改造效果评价方法
Wang et al. Improving contig binning of metagenomic data using d 2 S d _2^ S oligonucleotide frequency dissimilarity
CN114038516B (zh) 一种基于变分自编码器的分子生成与优化方法
CN112466410B (zh) 蛋白质与配体分子结合自由能的预测方法及装置
CN117976035A (zh) 一种融合特征的深度学习网络的蛋白质sno位点预测方法
Huang et al. An attention-based neural network basecaller for Oxford Nanopore sequencing data
CN110957003B (zh) 一种面向用户隐私保护的高效基因比对方法
CN116524997A (zh) 基于经典-量子混合神经网络实现药物相互作用结果的预测系统
CN114093523B (zh) 一种新冠肺炎轻重症预测模型的构建方法及其应用
CN114566215A (zh) 一种双端成对的剪接位点预测方法
Niu et al. ACO: lossless quality score compression based on adaptive coding order
CN113936741A (zh) 一种基于上下文感知计算的rna溶剂可及性预测方法
Miculinić et al. MinCall-MinION end2end convolutional deep learning basecaller
Quah et al. DNA data storage, sequencing data-carrying DNA
Yaman et al. MachineTFBS: Motif-based method to predict transcription factor binding sites with first-best models from machine learning library
Ma et al. BRPCA: Bounded Robust Principal Component Analysis to Incorporate Similarity Network for N7-Methylguanosine (m 7 G) Site-Disease Association Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant