CN113936737B - 一种基于rna基序向量比较rna结构的方法、家族聚类方法、评估变构效应的方法、功能注释的方法、系统和设备 - Google Patents

一种基于rna基序向量比较rna结构的方法、家族聚类方法、评估变构效应的方法、功能注释的方法、系统和设备 Download PDF

Info

Publication number
CN113936737B
CN113936737B CN202111197448.3A CN202111197448A CN113936737B CN 113936737 B CN113936737 B CN 113936737B CN 202111197448 A CN202111197448 A CN 202111197448A CN 113936737 B CN113936737 B CN 113936737B
Authority
CN
China
Prior art keywords
motif
rna
vectors
rings
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111197448.3A
Other languages
English (en)
Other versions
CN113936737A (zh
Inventor
徐良德
王宏
陆小艳
郑贺威
陈琪
张秀峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eye Hospital of Wenzhou Medical University
Original Assignee
Eye Hospital of Wenzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eye Hospital of Wenzhou Medical University filed Critical Eye Hospital of Wenzhou Medical University
Priority to CN202111197448.3A priority Critical patent/CN113936737B/zh
Publication of CN113936737A publication Critical patent/CN113936737A/zh
Application granted granted Critical
Publication of CN113936737B publication Critical patent/CN113936737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于RNA基序向量比较RNA结构的方法、系统和设备。所述基于RNA基序向量比较RNA结构的方法包括:获得待比较的两个或多个目标RNA预测的二级结构;提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分。本发明提供的基于RNA基序向量比较RNA结构的方法在RNA序列比对、RNA家族聚类、功能注释或评估变构效应方面的具有重要的应用价值。

Description

一种基于RNA基序向量比较RNA结构的方法、家族聚类方法、评 估变构效应的方法、功能注释的方法、系统和设备
技术领域
本发明涉及生信领域,更具体地,涉及一种基于RNA基序向量比较RNA结构的方法、系统、诊断设备和计算机可读存储介质。
背景技术
RNA结构在基因调控、信号转导等多个生物过程中起着至关重要的作用。因此,确定RNA的结构、功能关系是更好地理解生物学过程机制的必要和重大挑战。RNA分子中的核苷酸以不同的顺序排列形成RNA序列,也就是RNA的一级结构;RNA分子存在着许多的由互补碱基对构成的单链区结构、茎环结构,以及双链结构等各种不同组件形成的平面结构,并通过这些结构进行自我折叠运动,所构成的结构即为RNA的二级结构(RNA secondarystructure,RSS);RNA分子的三级结构是一种三维空间形式存在的高级建构,这种三维结构以RNA二级结构为基石,除了碱基配对产生的相互作用力外,RNA分子内部还存在主链与主链间的相互作用力、主链与碱基间的相互作用力以及孤立氢键间的相互作用力等这些相互作用力促使平面的RNA二级结构折叠成紧凑的空间结构。RNA二级结构基序是研究结构生物学机制的基本构件。
本发明提出了一种基于RNA二级结构基序(RNA secondary structure motifs)的动态比对策略,即RNA二级结构基序比较(RNA secondary-structural motif-comparing,RNAsmc),用于识别结构基序并定量评价其潜在的分子功能。本申请提供了基于RNA二级结构基序相似性进行评分的方法,为聚类RNA家族和评估变构效应提供了基础。本申请的结果显示基序特征携带的大量有价值的信息,基序有助于理解不同的构象产生特定的生物过程,RNA基序在RNA序列比对、RNA家族聚类、功能注释方面有重要的应用价值。
发明内容
本发明的目的在于提供一种基于RNA基序向量比较RNA结构的方法,包括:
步骤一:获得待比较的两个或多个目标RNA预测的二级结构;
步骤二:提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
步骤三:比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分。
进一步,所述每种基序的数量特征包括每种基序的基序数量、基序总碱基个数、基序长度均值、基序最大碱基个数、基序最小碱基个数。
进一步,所述每种基序的空间排列位置特征是目标RNA预测的二级结构中的各个凸环、发夹环、内环、茎、多分枝环、外环的起始位置和终止位置。
进一步,所述比较两个或多个目标RNA每种基序的基序向量是通过模拟主序列比对过程,对两个或多个目标RNA每种基序的基序向量进行连续的比较、匹配、评分和重构,找到最优匹配模式,获得所述两个或多个目标RNA的相似度评分;
可选的,所述相似度评分计算公式如下:
Figure SMS_1
其中,B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎;Up1和Up2表示每种基序的两个RNA的空间排列位置集;Un1和Un2表示这两个RNA中基序的个数;min(Un1,Un2)表示Un1,Un2中最小的值,max(Un1,Un2)表示Un1,Un2中最大的值,相似度评分的取值范围是0~10。
进一步,还包括基序向量可视化步骤,所述基序向量可视化为统计各个基序及其对应的碱基,整理各个基序碱基位置,形成目标RNA的各个基序的可视化图。
进一步,所述获得目标RNA预测的二级结构是采用最小自由能算法、遗传模拟退火算法、神经网络算法、免疫粒子群算法、基于序列比对分析方法或基于机器学习的分类预测方法预测的二级结构。
本发明的目的在于提供一种基于RNA基序向量比较RNA结构的设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:
获得待比较的两个或多个目标RNA预测的二级结构;
提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分。
本发明的目的在于提供一种基于RNA基序向量比较RNA结构的系统,包括:
获取单元,用于获得待比较的两个或多个目标RNA预测的二级结构;
提取单元,用于提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
比较单元,用于比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分;
可选的,基于RNA基序向量比较RNA结构的系统还包括可视化单元,用于统计各个基序及其对应的碱基,整理各个基序碱基位置,形成目标RNA的各个基序的可视化图。
本发明的目的在于提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的基于RNA基序向量比较RNA结构的方法。
本发明的目的在于提供RNA基序向量在RNA序列比对、RNA家族聚类、功能注释和/或评估变构效应方面的应用。
进一步,所述RNA家族聚类包括:
(1)获得待聚类的多个目标RNA预测的二级结构;
(2)提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
(3)比较多个目标RNA每种基序的基序向量,获得所述多个目标RNA的聚类结果。
优选的,采用RNA structure cluster比较多个目标RNA每种基序的基序向量,获得所述多个目标RNA的聚类结果。
进一步,所述评估变构效应包括:
(1)获得待评估的突变型的目标RNA及其临近全局区域(MAGR)、野生型的目标RNA预测的二级结构;
(2)提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
(3)比较野生型与突变型的目标RNA每种基序的基序向量,得到突变对RNA结构变异影响预测结果。
进一步,所述功能注释包括:
(1)获得待功能注释的目标RNA预测的二级结构;
(2)提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
(3)比较待功能注释的目标RNA每种基序的基序向量和已知功能的RNA每种基序的基序向量,匹配到最接近的已知功能的RNA,获得待功能注释的目标RNA的预测功能。
本申请的优点:
1.提供了一种基于RNA基序向量比较RNA结构的方法,从RNA二级结构上比对特定基序向量,实现RNA家族聚类、功能注释、评估变构效应、推断进化机制和推断未知生物过程的新路径;
2.利用动态基序比对,不仅能够完成相同长度结构之间的相似性比较,如挖掘潜在的介导RNA结构变异的突变位点,揭示分子调控机制;也能将短序列比对到长序列的最佳位置,量化不同长度结构之间的相似性,提供了便捷的比较方法;
3.提供了更多维度的基序向量,包括凸环、发夹环、内环、茎、多分枝环和外环的数量特征和空间排列位置特征,为比对结果的高准确率提供基础。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种基于RNA基序向量比较RNA结构方法示意流程图;
图2是本发明实施例提供的一种基于RNA基序向量比较RNA结构的系统示意图;
图3是本发明实施例提供的一种基于RNA基序向量比较RNA结构的设备示意图;
图4是本发明实施例提供的基于RNA基序向量的RNA聚类图;
图5是本发明实施例提供的基于RNA基序向量比对评估变构效应。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S101、S102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种基于RNA基序向量比较RNA结构的方法示意流程图,具体地,所述方法包括如下步骤:
S101:获得待比较的两个或多个目标RNA预测的二级结构;
在一个实施例中,所述获得目标RNA预测的二级结构是采用最小自由能算法、遗传模拟退火算法、神经网络算法、免疫粒子群算法、基于序列比对分析方法或基于机器学习的分类预测方法预测的二级结构。
碱基配对的形成可以使RNA分子的能量降低,结构更加稳定,因此最小自由能算法认为在一定温度下,RNA分子通过构象调整达成某种热力学平衡,使之自由能达到最小,形成最稳定的状态,此时的二级结构即被认为是RNA的真实二级结构。代表算法包括Zuke算法等。RNA Structure利用Zuker算法(Zuker Algorithm),根据最小自由能原理,通过RNA一级序列预测RNA二级结构。
在一个实施例中,获得待比较的两个或多个目标RNA的序列,将所述目标RNA的序列输入RNA Structure,获得待比较的两个或多个目标RNA预测的二级结构。
S102:提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置;
在一个实施例中,所述每种基序的数量特征包括每种基序的基序数量、基序总碱基个数、基序长度均值、最大基序碱基个数、最小基序碱基个数。
在一个实施例中,提取所述目标RNA预测的二级结构中的基序向量包括:第一,判断某一基序是否存在,寻找该类基序的最大基序和最小基序;第二,获得该类基序的数量特征。以基序凸环为例:提取目标RNA预测的二级结构中的凸环向量包括:判断目标RNA预测的二级结构中是否存在凸环,寻找最大、最小凸环,获得凸环数量特征,包括凸环数量、凸环总碱基个数、凸环长度均值、最大凸环碱基个数、最小凸环碱基个数。
在一个实施例中,判断某一基序是否存在,寻找该类基序的最大基序和最小基序。以基序凸环为例,具体为:
I:初始化同时存储凸环数目和碱基配对状态的列表(bulge_loops),凸环数目n,n=1;
II:提取ct文件第五列碱基配对状态序号存入向量arr0;
III:从arr0第一个元素i=1(arr[1])开始,碱基之间距离(loop_length)为i(arr[i])和i+1(arr[i+1])差值的绝对值;
IV:凸环起始位置(num_min)是i(arr[i])和i+1(arr[i+1])之间最小距离加1,终止位置(num_max)是i(arr[i])和i+1(arr[i+1])之间最距离减1;
V:判断i(arr[i])和i+1(arr[i+1])不为0,且碱基之间距离(loop_length)不为1,起始(num_min)和终止(num_max)之间碱基距离不为0,则存在第n个凸环,将凸环起始和终止位置加入凸环列表,n=n+1;若凸环长度为0,则不存在凸环,bulge_loops为空;
VI:当i<arr0长度时,循环II到V
VII:若存在凸环,凸环个数=bulge_loops元素个数
VIII:初始化最大(bulge_max),最小(bulge_min)的凸环均为bulge_loops中第一个凸环i=1,凸环个数为bulge_loops长度;
IX:从i=1开始,若当前凸环长度大于bulge_max,则更新bulge_max,同理,若当前凸环长度小于bulge_min,则更新bulge_min;
X:当i<=bulge_loops长度时,重复VIII到IX,直至获得最大,最小凸环。
在一个实施例中,获得该类基序的数量特征,以基序凸环为例,包括凸环数量、凸环总碱基个数、凸环长度均值、最大凸环碱基个数、最小凸环碱基个数,具体为:
凸环数量=bulge_loops数量
凸环总碱基个数(bulge_length)=构成bulge_loops的碱基个数
凸环长度均值(bulge_mean)=凸环总碱基个数(bulge_length)/凸环数量
最大凸环长度=bulge_max碱基个数=最大凸环碱基个数
最小凸环长度=bulge_min碱基个数=最小凸环碱基个数
在一个实施例中,所述每种基序的空间排列位置是目标RNA预测的二级结构中的各个凸环、发夹环、内环、茎、多分枝环、外环的起始位置和终止位置。
在一个实施例中,获取每种基序的空间排列位置为获取每种基序的起始位置和重点位置。以凸环为例,寻找目标RNA预测的二级结构中各个凸环的起始位置和终止位置,进行标注。具体为:
I:ct文件利用ct2dot命令转化为二级结构点括号式文件(dot),利用makeCt命令将点括号文件整理为包含6列信息,并存入ct,6列分别为:当前碱基位置,当前位置对应的碱基类型,当前碱基的前一个及后一个碱基,配对碱基序号,当前碱基位置。利用ct2coord函数将ct转换为其对应的坐标文件(co)。
II:调用挖掘凸环的函数,找出结构中所有凸环对应的碱基,并将其存入loops;
III:声明最大,最小碱基位置(arr_max,arr_min)为空向量
IV:若凸环长度不为0,当i=1时,将loops中存储的第一个凸环对应的第一个碱基序号存入到arr_min,作为凸环的最小碱基位置,若凸环包含多于1个元素,当j起始值为2时,若凸环中第1个元素中的第前一个碱基序号于后一个碱基序号差值为1,将前一个碱基序号存入arr_max作为最大值,后一个碱基序号存入arr_min作为最小值,当j介于2到loops总长度时,重复寻找最大、最小碱基序号。当j达到最大长度时,将所有元素中的最大碱基序号存入向量arr_max,当i介于1到凸环元素总长度之间时,重复此过程;
V:若凸环长度为1,则arr_max为凸环列表的第一个元素;
VI:将凸环的起始min,终止位置max及颜色代码4,凸环的特征整合为数据框,利用RNAPlot命令绘制二级结构图,并以不同颜色标注结构中的凸环。
S103:比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分。
在一个实施例中,获得待比较的两个或多个目标RNA预测的二级结构,提取所述目标RNA预测的二级结构中的基序向量,通过序列比对,对两个或多个目标RNA序列进行比较、匹配、评分和重构,找到最优匹配区域,选取最优匹配区域序列中二级结构中的基序向量,比较所述基序向量,获得所述待比较的两个或多个目标RNA在所述最优匹配区域内基序向量的相似度评分。
在一个实施例中,所述相似度评分计算公式如下:
Figure SMS_2
其中,B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎;Up1和Up2表示每种基序的两个RNA的空间排列位置集;Un1和Un2表示这两个RNA中基序的个数;min(Un1,Un2)表示Un1,Un2中最小的值,max(Un1,Un2)表示Un1,Un2中最大的值;相似度评分的取值范围是0~10。
在一个实施例中,所述序列比对过程,对两个或多个目标RNA序列进行连续的比较、匹配、评分和重构,找到最优匹配区域,包括:构建得分矩阵,反向读取最大得分路径,获得最优匹配区域。具体为:
I:建立最大相似性得分矩阵score,score的行列分别为两条序列碱基,且矩阵内初始值均为0,构建两序列碱基之间的得分矩阵StateM,初始值与score相同;
II:另score的第一行与第一列的元素均为0,代表各个碱基与gap之间的不匹配;
III:计分规则匹配记5分,失配记-4分,当两序列当前碱基一致时,新位置score[i,j]得分为对角线得分加5,StateM[i,j]为1,若两序列当前碱基不一致,分两种情况讨论,若新位置上方得分>=左侧得分,则新位置score[i,j]为上方分值-4,StateM[i,j]为2,反之,若上方分值小于左侧分值,则新位置score[i,j]为左侧分值-4,StateM[i,j]为3;
IV:当i,j值分别介于2到序列长度之间时,循环III,直到遍历整个序列,得到score的每一个值;
V:声明空变量Common1,Common2,seqCom1,seqCom2
VI:从StateM的第二行,第二列开始,若当前位置为1,则表明两序列碱基相同,将对应碱基及序号加入Common1,Common2,seqCom1,seqCom2,若当前位置为2,表明失配,将碱基和“-”分别加入向量Common1和Common2,若当前位置为3,分别将“-”和碱基加入Common1和Common2,当i,j低于序列长度时,重复此过程;
VII:判断短序列起始start1和终止位置end1,起始位置为由前到后遍历整个长序列时,短序列的碱基不为“-”,终止位置为由后向前遍历时,短序列碱基不为“-”;
VIII:截取start1和end1之间的序列。
进一步,提取截取start1和end1之间的序列中二级结构中的基序向量,比较所述基序向量,获得所述两个或多个目标RNA的相似度评分。
在一个实施例中,还包括基序向量可视化步骤,所述基序向量可视化为统计各个基序及其对应的碱基,整理各个基序碱基位置,形成目标RNA的各个基序的可视化图。
在一个实施例中,统计各个基序包含的碱基,以不同颜色实现整个结构可视化。具体包括:
I:获取二级结构中凸环,发卡环,内环,茎,多分支环,外环等基序及其对应的所有碱基
II:将ct文件转化为坐标文件,方便绘图
III:根据基序构成整理碱基位置,首先绘制包含各个基序的二级结构,用空心圆代表每个碱基位置,再以不同颜色代码填充各个碱基,形成完整的二级结构可视化图。
IV:图中不仅包含二级结构,本方法还自动化提供各个基序图例信息。
在一个实施例中,S101:获得待比较的两个或多个目标RNA预测的二级结构;S103:比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分;S102:提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置。即S102和S103无顺序要求。
图2是本发明实施例提供的一种基于RNA基序向量比较RNA结构的系统示意图,所述系统包括:
获取单元201,用于获得待比较的两个或多个目标RNA预测的二级结构;
提取单元202,用于提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
比较单元203,用于比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分;
可选的,基于RNA基序向量比较RNA结构的系统还包括可视化单元,用于统计各个基序及其对应的碱基,整理各个基序碱基位置,形成目标RNA的各个基序的可视化图。
图3是本发明实施例提供的一种基于RNA基序向量比较RNA结构的设备示意图,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:
获得待比较的两个或多个目标RNA预测的二级结构;
提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分。
本发明实施例提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于RNA基序向量比较RNA结构的方法。
本发明的目的在于提供RNA基序向量在RNA序列比对、RNA家族聚类、功能注释和/或评估变构效应方面的应用。
图4是本发明实施例提供的基于RNA基序向量的RNA聚类图;
我们使用9种不同类型病毒的9个常见RNA片段,通过分析基序向量特征,进行了RNA家族分类,并推断出未知的功能。图4展示了折叠的rna和RNAsmc比较的聚类树。在全球范围内,这九种rna呈现出相似的结构,三组augc序列片段被两个发夹状结构分开。然而,RNAsmc揭示了它们表现出的细微差异,这可能在赋予这些rna不同的分子功能方面发挥了关键作用。根据9个RNA病毒片段的特征基元和空间分布情况,将其分为3类。第一组包含TSV-3、CiLRV-3、PVV-3、AlMV-3、APMV-3;每个片段包括三个外部环,两个茎环和两个发夹环(图4A)。此外,第二组中仅有CVV-3RNA。与第一组相比,第二组多了一个内部循环,这可能是影响分类的关键特征。我们推断,单链环状构象的添加可能增加RNA分子相互作用的可及性。可以想象,内环通过RNA分子结合和microRNA调控调控CVV-3的生物学功能。最后一组采用EMV-3、AVII和LRMV,比第一组多一个凸环。这种基序在环状结构的一侧形成凸环,然后改变相连的茎环的折叠方向,导致RNA分子的折叠角度转化和三维水平的扭曲。因此,我们发现结构基序的特征可能在生物分子结合和受体蛋白相互作用方面发挥重要作用,并携带有价值的信息。
我们发现RNA片段的空间结构图像、特征分布和基序数量具有高度一致性(图4A),两两SS矩阵受RSS特征驱动(图4B)。此外,我们通过构建系统发育树分析了9个病毒片段的功能进化(图4C)。分类树和进化树的相同分支表明,二级结构相似的病毒RNA片段更有可能拥有共同的祖先。这一结果表明,RNAsmc能够探索RNA二级结构特征,这是比对特定构象、分类RNA家族、推断进化机制和推断未知生物过程的必要因素。
接下来,我们研究了序列长度是否是影响不同类别rna聚类效率的关键因素。我们从3个RNA家族(Methods中第3组5S R RNA、HR RNA、SRP RNA)中随机选取60个RNA,长度分布相似(100-150bp,图4D)。我们的RNAsmc计算管道进行比较和评分RSS主题。根据SS矩阵,将60个rna划分为3类,边界清晰。有趣的是,多重特征驱动的聚类结果与原始rna家族高度相关(图4E)。我们发现来自同一家族的rna往往具有相似的组成和结构基元分布,并且聚在一起(图4F)。聚类结果表明,尽管主要特征如序列长度、GC含量、配对比例等差异很小,但RNAsmc能够根据RNA亚基的特征准确地对RNA家族进行分类。
此外,我们定量测量了较长的rna的相似性,以进一步拓宽和验证我们的分类能力。从III组中选择长度在350-400bp之间的rna,包括14个I rna、14个RP rna和14个TM rna(图4G)。聚类结果表明,三个RNA家族几乎完美地划分为不同的类别,准确率高达95%,除了来自I RNA家族的两个特异性RNA(图4H)。这两种错误分类的RNA具有与RP RNA家族相似的多分支环和凸环的比例组合。重要的是,在我们上述的发现中,这两个基序也具有最重要的结构特性,这使它们成为最有希望影响和调节生物功能的分子。此外,我们在一组长度分布广泛的rna上检测了RNAsmc的聚类效率,包括20个长度在100-400bp之间的SRP rna和20个长度在300-400bp之间的TM rna(图4I)。然后我们估计分类器能够比较测试数据。聚类结果如图4J所示,我们发现只有两个rna分类错误。这一结果证实了RNAsmc在广泛分布的RNA长度的聚类效率的稳健性。因此,我们推断基序的组成及其复杂性决定了RNA的相似性和聚类结果。具有相似基序组成的RNA更有可能来自相同的RNA家族并表现出相似的功能。
图5是本发明实施例提供的基于RNA基序向量比对评价或预测变构效应;
ribosnitch被定义为RNA转录本中单核苷酸突变引起的结构破坏。它是细胞的一个重要分子特征,可能影响分子结构,从而促进各种疾病的进展。在这里,我们使用RNAsmc检测snv诱导的WT和突变rna之间的一致性和异质性。Wan等人检测的22个与多种人类疾病和表型相关的snv最初被用来评估RNAsmc的检测效率。三个样本snv介导的RNA结构变化如图5所示,分别为rs7250850(C1316G)、rs9886724(T4003C)、rs11554159(G256A)。RiboSNitche(G256A)得分为10,表明其构象相同。而其他两个等位基因(C1316G和T4003C)的SS水平较低,RNA转录本存在明显的结构扰动。
计算得到的二级结构如表1所示,采用了不同的结构预测策略。我们报道了RSS的整体和局部结构变化,这是讨论RNA结构时的一个重要方面。我们在突变位点的上游或下游确定了50个核苷酸,命名为突变的邻近局部区域(MALR),150个核苷酸命名为突变的邻近全局区域(MAGR)。当RNAsmc和RNAstructure联合应用时,MAGR对ribosnitch的检出率显著高于MALR,由0.54提高到0.75。RNAfold也产生了类似的结果,从0.63到0.75。RNAsmc对RNA结构变异的预测能力与之前的算法相似。我们的研究结果表明,扩展SNV侧翼序列可以有效提高对RSS变化的识别。此外,单核苷酸多肽诱导的RNA结构变化具有多样性和高异质性,可能导致突变位点周围的局部结构变化或整个RNA转录本的折叠状态紊乱。这说明RNA结构参与复杂的细胞过程和分子调控,具有特定的模式和复杂的状态。
表1
Figure SMS_3
Figure SMS_4
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种基于RNA基序向量比较RNA结构的方法,包括:
步骤一:获得待比较的两个或多个目标RNA预测的二级结构;
步骤二:提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
步骤三:比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分;
所述相似度评分计算公式如下:
Figure FDA0003907449370000011
其中,B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎;Up1和Up2表示每种基序的两个RNA的空间排列位置集;Un1和Un2表示这两个RNA中基序的个数;相似度评分的取值范围是0~10。
2.根据权利要求1所述的基于RNA基序向量比较RNA结构的方法,其特征在于,所述每种基序的数量特征包括每种基序的基序数量、基序总碱基个数、基序长度均值、基序最大碱基个数、基序最小碱基个数。
3.根据权利要求1所述的基于RNA基序向量比较RNA结构的方法,其特征在于,所述每种基序的空间排列位置特征是目标RNA预测的二级结构中的各个凸环、发夹环、内环、茎、多分枝环、外环的起始位置和终止位置。
4.根据权利要求1所述的基于RNA基序向量比较RNA结构的方法,其特征在于,所述基于RNA基序向量比较RNA结构的方法包括:获得待比较的两个或多个目标RNA预测的二级结构,提取所述目标RNA预测的二级结构中的基序向量,通过序列比对,对两个或多个目标RNA序列进行比较、匹配、评分和重构,找到最优匹配区域,选取最优匹配区域序列中二级结构中的基序向量,比较所述基序向量,获得所述待比较的两个或多个目标RNA在最优匹配区域内基序向量的相似度评分。
5.根据权利要求1所述的基于RNA基序向量比较RNA结构的方法,其特征在于,还包括基序向量可视化步骤,所述基序向量可视化为统计各个基序及其对应的碱基,整理各个基序碱基位置,形成目标RNA的各个基序的可视化图。
6.根据权利要求1所述的基于RNA基序向量比较RNA结构的方法,其特征在于,获得目标RNA预测的二级结构是采用最小自由能算法、遗传模拟退火算法、神经网络算法、免疫粒子群算法或基于序列比对分析方法预测的二级结构。
7.根据权利要求1所述的基于RNA基序向量比较RNA结构的方法,其特征在于,获得目标RNA预测的二级结构是采用机器学习的分类预测方法预测的二级结构。
8.一种基于RNA基序向量比较RNA结构的设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时,实现如权利要求1-7任意一项所述的基于RNA基序向量比较RNA结构的方法。
9.一种基于RNA基序向量比较RNA结构的系统,包括:
获取单元,用于获得待比较的两个或多个目标RNA预测的二级结构;
提取单元,用于提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
比较单元,用于比较两个或多个目标RNA每种基序的基序向量,获得所述两个或多个目标RNA的相似度评分;
所述相似度评分计算公式如下:
Figure FDA0003907449370000021
其中,B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎;Up1和Up2表示每种基序的两个RNA的空间排列位置集;Un1和Un2表示这两个RNA中基序的个数相似度评分的取值范围是0~10。
10.根据权利要求8所述的基于RNA基序向量比较RNA结构的系统,其特征在于,所述基于RNA基序向量比较RNA结构的系统还包括可视化单元,用于统计各个基序及其对应的碱基,整理各个基序碱基位置,形成目标RNA的各个基序的可视化图。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的基于RNA基序向量比较RNA结构的方法。
12.一种基于RNA基序向量比较的RNA家族聚类方法,所述RNA家族聚类的方法包括:
获得待聚类的多个目标RNA预测的二级结构;
提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
比较多个目标RNA每种基序的基序向量,获取所述多个目标RNA的相似度评分,根据所述相似度评分获得所述多个目标RNA的聚类结果;
所述相似度评分计算公式如下:
Figure FDA0003907449370000031
其中,B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎;Up1和Up2表示每种基序的两个RNA的空间排列位置集;Un1和Un2表示这两个RNA中基序的个数相似度评分的取值范围是0~10。
13.一种基于RNA基序向量比较的评估变构效应的方法,所述评估变构效应的方法包括:
获得待评估的突变型的目标RNA及其临近全局区域、野生型的目标RNA预测的二级结构;
提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
比较野生型与突变型的目标RNA每种基序的基序向量,获取这两个目标RNA的相似度评分,根据所述相似度评分得到突变对RNA结构变异影响预测结果;
所述相似度评分计算公式如下:
Figure FDA0003907449370000041
其中,B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎;Up1和Up2表示每种基序的两个RNA的空间排列位置集;Un1和Un2表示这两个RNA中基序的个数相似度评分的取值范围是0~10。
14.一种基于RNA基序向量比较的功能注释的方法,所述功能注释的方法包括:获得待功能注释的目标RNA预测的二级结构;
提取所述目标RNA预测的二级结构中的基序向量,所述基序包括凸环、发夹环、内环、茎、多分枝环和外环,所述基序向量包括每种基序的数量特征和每种基序的空间排列位置特征;
比较待功能注释的目标RNA每种基序的基序向量和已知功能的RNA每种基序的基序向量,获取两个或多个目标RNA的相似度评分,根据所述相似度评分匹配到最接近的已知功能的RNA,获得待功能注释的目标RNA的预测功能;
所述相似度评分计算公式如下:
Figure FDA0003907449370000042
其中,B、E、H、I、M、S分别表示凸环、外环、发夹环、内环、多分支环、茎;Up1和Up2表示每种基序的两个RNA的空间排列位置集;Un1和Un2表示这两个RNA中基序的个数相似度评分的取值范围是0~10。
CN202111197448.3A 2021-10-14 2021-10-14 一种基于rna基序向量比较rna结构的方法、家族聚类方法、评估变构效应的方法、功能注释的方法、系统和设备 Active CN113936737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111197448.3A CN113936737B (zh) 2021-10-14 2021-10-14 一种基于rna基序向量比较rna结构的方法、家族聚类方法、评估变构效应的方法、功能注释的方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111197448.3A CN113936737B (zh) 2021-10-14 2021-10-14 一种基于rna基序向量比较rna结构的方法、家族聚类方法、评估变构效应的方法、功能注释的方法、系统和设备

Publications (2)

Publication Number Publication Date
CN113936737A CN113936737A (zh) 2022-01-14
CN113936737B true CN113936737B (zh) 2023-05-23

Family

ID=79279202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111197448.3A Active CN113936737B (zh) 2021-10-14 2021-10-14 一种基于rna基序向量比较rna结构的方法、家族聚类方法、评估变构效应的方法、功能注释的方法、系统和设备

Country Status (1)

Country Link
CN (1) CN113936737B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708909B (zh) * 2022-03-21 2023-10-20 深圳市新合生物医疗科技有限公司 mRNA序列的优化方法及装置、设备、存储介质
CN117116361B (zh) * 2023-10-25 2024-01-26 江西师范大学 一种基于固定框架的12sRNA二级结构可视化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334746A (zh) * 2018-01-15 2018-07-27 浙江工业大学 一种基于二级结构相似度的蛋白质结构预测方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4873486B2 (ja) * 2007-05-21 2012-02-08 Necソフト株式会社 核酸配列の二次構造を予測する方法、核酸配列の二次構造の予測装置及び核酸配列の二次構造の予測プログラム
CA2724160C (en) * 2007-12-28 2017-05-02 Pioneer Hi-Bred International, Inc. Using structural variation to analyze genomic differences for the prediction of heterosis
CN109273047B (zh) * 2017-12-15 2022-09-16 武汉科技大学 一种基于模拟退火的核酸结构预测方法
CN110010194A (zh) * 2019-04-10 2019-07-12 浙江科技学院 一种rna二级结构的预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334746A (zh) * 2018-01-15 2018-07-27 浙江工业大学 一种基于二级结构相似度的蛋白质结构预测方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法

Also Published As

Publication number Publication date
CN113936737A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
Chen et al. Random forests for genomic data analysis
CN113936737B (zh) 一种基于rna基序向量比较rna结构的方法、家族聚类方法、评估变构效应的方法、功能注释的方法、系统和设备
Taskiran et al. Cell-type-directed design of synthetic enhancers
CN105550715A (zh) 一种基于近邻传播聚类的集成分类器构建方法
Le et al. A comparative study of classification-based machine learning methods for novel disease gene prediction
CN110111843A (zh) 对核酸序列进行聚类的方法、设备及存储介质
Chen et al. MSClust: a multi-seeds based clustering algorithm for microbiome profiling using 16S rRNA sequence
JP2008146538A (ja) マイクロrna検出装置、方法およびプログラム
Liu et al. A comparison of topologically associating domain callers based on Hi-C data
CN109390032A (zh) 一种基于进化算法在全基因组关联分析的数据中探索与疾病相关的snp组合的方法
CN110111838B (zh) 含假结基于扩展结构的核糖核酸折叠结构预测方法与装置
Hower et al. Parametric analysis of RNA branching configurations
CN107423580A (zh) 基于邻域粗糙集的宏基因组片段属性约简及分类方法
Li et al. Elucidating genome-wide protein-RNA interactions using differential evolution
Zhu et al. A global similarity learning for clustering of single-cell RNA-seq data
Tran et al. Network representation of large-scale heterogeneous RNA sequences with integration of diverse multi-omics, interactions, and annotations data
Dupont et al. D-ORB: A Web Server to Extract Structural Features of Related But Unaligned RNA Sequences
Badr et al. Classification and assessment tools for structural motif discovery algorithms
Zuo et al. Prorice: An ensemble learning approach for predicting promoters in rice
Gao et al. DSARna: RNA Secondary Structure Alignment Based on Digital Sequence Representation
Hu et al. Improving hot region prediction by parameter optimization of density clustering in PPI
Zhao et al. The compact genetic algorithm based method for disease associated study
Nepomuceno et al. A hybrid metaheuristic for biclustering based on scatter search and genetic algorithms
Sutanto RNA Sequence Classification using Secondary Structure Fingerprints, Sequence-Based Features, and Deep Learning
Nepomuceno et al. An Overlapping Control–Biclustering Algorithm from Gene Expression Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant