CN114708909B - mRNA序列的优化方法及装置、设备、存储介质 - Google Patents

mRNA序列的优化方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN114708909B
CN114708909B CN202210280747.1A CN202210280747A CN114708909B CN 114708909 B CN114708909 B CN 114708909B CN 202210280747 A CN202210280747 A CN 202210280747A CN 114708909 B CN114708909 B CN 114708909B
Authority
CN
China
Prior art keywords
secondary structure
sequence
criterion
alternative
mrna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210280747.1A
Other languages
English (en)
Other versions
CN114708909A (zh
Inventor
万季
夏迪
顾亦斐
潘晓新
赵钊
潘有东
王弈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinhe Ruien Biomedical Technology Co ltd
Shenzhen Xinhe Ruien Biomedical Technology Co ltd
Shenzhen Neocura Biotechnology Corp
Original Assignee
Beijing Xinhe Ruien Biomedical Technology Co ltd
Shenzhen Xinhe Ruien Biomedical Technology Co ltd
Shenzhen Neocura Biotechnology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinhe Ruien Biomedical Technology Co ltd, Shenzhen Xinhe Ruien Biomedical Technology Co ltd, Shenzhen Neocura Biotechnology Corp filed Critical Beijing Xinhe Ruien Biomedical Technology Co ltd
Priority to CN202210280747.1A priority Critical patent/CN114708909B/zh
Publication of CN114708909A publication Critical patent/CN114708909A/zh
Priority to PCT/CN2023/077209 priority patent/WO2023179273A1/zh
Application granted granted Critical
Publication of CN114708909B publication Critical patent/CN114708909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息处理技术领域,公开了一种mRNA序列的优化方法及装置、设备、存储介质。通过从同一蛋白的多个mRNA序列中确定出多个备选序列;然后预测每个备选序列的二级结构获得二级结构表达式;对每个二级结构表达式进行注释并解析,获得每个备选序列的二级结构注释信息;继而根据二级结构注释信息,计算每个备选序列的二级结构复杂度;最后根据每个备选序列的二级结构复杂度,从多个备选序列中筛选出目标mRNA序列,从而通过计算二级结构复杂度,将mRNA序列的二级结构进行量化,能够提高mRNA序列优化的可靠性与有效性,从而提高mRNA序列的翻译表达量。

Description

mRNA序列的优化方法及装置、设备、存储介质
技术领域
本发明属于生物信息处理技术领域,具体涉及一种mRNA序列的优化方法及装置、设备、存储介质。
背景技术
mRNA的翻译过程是由翻译起始、翻译延长以及翻译终止三个环节构成,这三个环节的过程都受到翻译编码区序列和结构的影响,从而整个mRNA的翻译效率和序列的密码子组成以及结构密切相关。
研究表明,序列密码子的优化中由于同义密码子(编码同一氨基酸的密码子)之间的替换并不会改变蛋白质的结构和功能,但经过优化后的mRNA序列的翻译效率较之野生型的mRNA序列可以提高几倍至数十倍,因此对于任意一段mRNA序列,如何能够精准地对序列进行优化从而提高mRNA的体内翻译效率对于mRNA相关的科学研究课题以及包括mRNA肿瘤疫苗在内的临床相关产品的开发具有重要的意义。
现有技术中提出多种密码子优化序列的方案,需要对同一蛋白的多个mRNA序列进一步确定或筛选,目前通常采用简单的阈值进行筛选,但不一定总是能筛选出最优结果,因此目前针对mRNA序列的优化方法的可靠性及有效性不够,导致mRNA序列的翻译表达量较少。
发明内容
本发明的目的在于提供一种mRNA序列的优化方法及装置、设备、存储介质,可以提高mRNA序列优化的可靠性与有效性,从而提高mRNA序列的翻译表达量。
本发明实施例第一方面公开一种mRNA序列的优化方法,包括:
获取同一蛋白的多个mRNA序列;
从多个所述mRNA序列中确定出多个备选序列;
预测每个所述备选序列的二级结构,获得每个所述备选序列的二级结构表达式;
对每个所述二级结构表达式进行注释并解析,获得每个所述备选序列的二级结构注释信息;
根据所述二级结构注释信息,计算每个所述备选序列的二级结构复杂度;
根据每个所述备选序列的二级结构复杂度,从多个所述备选序列中筛选出目标mRNA序列。
在一些实施例中,所述根据所述二级结构注释信息计算每个所述备选序列的二级结构复杂度,包括:
根据所述二级结构注释信息,确定每个所述备选序列的二级结构中各个二级结构基本构件的权重系数;
根据每个所述备选序列的序列长度和各个所述二级结构基本构件的权重系数,计算获得每个所述备选序列的二级结构复杂度。
在一些实施例中,所述根据所述二级结构注释信息,确定每个所述备选序列的二级结构中各个二级结构基本构件的权重系数,包括:
针对每个所述备选序列的二级结构中各个二级结构基本构件,分别根据所述二级结构注释信息,从多个准则构件中确定出与各个所述二级结构基本构件相匹配的目标准则构件;
获取所述目标准则构件的权重值,作为对应的二级结构基本构件的权重系数。
在一些实施例中,所述分别根据所述二级结构注释信息,从多个准则构件中确定出与各个所述二级结构基本构件相匹配的目标准则构件之前,所述方法还包括:
设定多个准则构件,以及确定各个所述准则构件的结构复杂值;
根据各个所述准则构件的结构复杂值进行两两比较,获得准则层判断矩阵;
根据所述准则层判断矩阵,求取特征向量,获得各个所述准则构件的权重值。
在一些实施例中,所述确定各个所述准则构件的结构复杂值,包括:
判断各个所述准则构件是双链构件还是单链构件;
若所述准则构件是双链构件,根据所述双链构件的配对碱基之间的氢键数量,确定所述双链构件的结构复杂值;
若所述准则构件是单链构件,获取预设的复杂值作为所述单链构件的结构复杂值;
其中,所述双链构件的结构复杂值与所述氢键数量为正相关关系;所述单链构件的结构复杂值小于所述双链构件的结构复杂值。
在一些实施例中,多个准则构件包括第一准则构件、第二准则构件、第三准则构件和第四准则构件;
所述第一准则构件为包含碱基G和碱基C配对的双链构件;
所述第二准则构件为包含碱基A和碱基U配对的双链构件;
所述第三准则构件为包含碱基U和碱基G配对的双链构件;
所述第四准则构件为包含非配对碱基的单链构件。
在一些实施例中,所述根据每个所述备选序列的序列长度和各个所述二级结构基本构件的权重系数,计算获得每个所述备选序列的二级结构复杂度,包括:
通过以下公式计算获得每个所述备选序列的二级结构复杂度:
式中,wi为第i个二级结构基本构件的权重系数,n为备选序列的长度,C(s)为二级结构复杂度。
在一些实施例中,所述从多个所述mRNA序列中确定出多个备选序列,包括:
获取各个所述mRNA序列的特征指标;
将所述特征指标达到指标阈值的mRNA序列作为备选序列。
本发明实施例第二方面公开一种mRNA序列的优化装置,包括:
获取单元,用于获取同一蛋白的多个mRNA序列;
确定单元,用于从多个所述mRNA序列中确定出多个备选序列;
预测单元,用于预测每个所述备选序列的二级结构,获得每个所述备选序列的二级结构表达式;
注释单元,用于对每个所述二级结构表达式进行注释并解析,获得每个所述备选序列的二级结构注释信息;
计算单元,用于根据所述二级结构注释信息,计算每个所述备选序列的二级结构复杂度;
筛选单元,用于根据每个所述备选序列的二级结构复杂度,从多个所述备选序列中筛选出目标mRNA序列。
本发明实施例第三方面公开一种电子设备,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行第一方面公开的mRNA序列的优化方法。
本发明实施例第四方面公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行第一方面公开的mRNA序列的优化方法。
本发明的有益效果在于,所提供的mRNA序列的优化方法及装置、设备、存储介质,筛选方法计算简便,可广泛应用于医学计算机应用领域。通过从同一蛋白的多个mRNA序列中确定出多个备选序列;然后预测每个备选序列的二级结构获得二级结构表达式;对每个二级结构表达式进行注释并解析,获得每个备选序列的二级结构注释信息;继而根据二级结构注释信息,计算每个备选序列的二级结构复杂度;最后根据每个备选序列的二级结构复杂度,从多个备选序列中筛选出目标mRNA序列,从而通过计算二级结构复杂度,将mRNA序列的二级结构进行量化,能够提高mRNA序列优化的可靠性与有效性,从而提高mRNA序列的翻译表达量。同时,能够使得mRNA序列的二级结构直观化,更加简便判断mRNA序列的二级结构的复杂性,简化mRNA序列的二级结构间的比较,利于序列的优化、筛选。
附图说明
此处的附图,示出了本发明所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本发明的技术方案、原理及效果。
除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
图1是本发明实施例公开的mRNA序列的优化方法的流程图;
图2是本发明实施例公开的mRNA序列优化前后的对比图;
图3是本发明实施例公开的mRNA序列的优化装置的结构示意图;
图4是本发明实施例公开的电子设备的结构示意图。
附图标记说明:
301、获取单元;302、确定单元;303、预测单元;304、注释单元;305、计算单元;306、筛选单元;401、存储器;402、处理器。
具体实施方式
为了便于理解本发明,下面将参照说明书附图对本发明的具体实施例进行更详细的描述。
除非特别说明或另有定义,本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下,本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分,不代表具体的数量或顺序。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
需要说明的是,当元件被认为“固定于”另一个元件,它可以是直接固定在另一个元件上,也可以是存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件,也可以是同时存在居中元件;当一个元件被认为是“安装在”另一个元件,它可以是直接安装在另一个元件,也可以是同时存在居中元件。当一个元件被认为是“设在”另一个元件,它可以是直接设在另一个元件,也可以是同时存在居中元件。
除非特别说明或另有定义,本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容,该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的,也可以是相似的。
毫无疑义,与本发明的目的相违背,或者明显矛盾的技术内容或技术特征,应被排除在外。
如图1所示,本发明实施例公开一种mRNA序列的优化方法,包括以下步骤S10~S60:
S10、获取同一蛋白的多个mRNA序列。
步骤S10中,可以根据给定的mRNA序列优化需求,基于密码子引入经适当同义突变的mRNA序列池,生成同一蛋白的一组mRNA序列,包括多个mRNA序列。引入同义突变可以是为了改变序列整体的一种或多种碱基的含量,也可以是引入尽可能少的突变而改变复杂度,亦可以是使序列使用更多的高频密码子。
其中具体地,给定的mRNA序列优化需求可以是以下一种或者几种的组合,可以根据实际优化任务的需要而拟定:
1)引入同义突变尽可能少,但至少引入一个同义突变;
2)更多地引入携带鸟苷(G)和/或胞苷(C)含量更高的密码子,如R的AGA替换为CGG;
3)根据mRNA序列应用的目标物种,引入尽可能多的在该物种基因组编码区使用占比高的同义密码子(即使得mRNA序列整体的CAI指数——密码子适应指数——升高;对于人类基因组而言,密码子使用频率可以参见下表1,如I的AUA替换为最高频的AUC;
4)更多地引入尿苷(U)占比尽可能少的同义密码子,如S的UCU替换为AGC等。
表1人类基因组编码区各氨基酸的同义密码子及使用占比表
上表1是根据日本Kazusa DNA研究所所提供的人类基因组编码区密码子频率数据库的数据计算而得。
具体地,mRNA序列池的生成过程中,汇入最终序列池的序列,均至少引入一个同义突变。在一些实施例中,本轮同义突变后符合需求的候选序列,可以继续根据需求在候选序列的基础上继续引入同义突变,以进一步评估和优化。
在一些实施例中,对序列引入同义突变可以是按照具体优化需求在序列随机位置引入同义突变,例如随机选取一个密码子进行突变。
在一些实施例中,对序列引入同义突变可以是按照具体优化需求在序列指定位置引入同义突变,例如对蛋白质关键功能位点相应的密码子引入同义突变,又例如对全局各个密码子进行单一突变。
在一些实施例中,对序列引入同义突变可以是按照具体优化需求在序列全局引入同义突变,序列全局至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约99%或100%的密码子引入了同义突变。
在另一些实施例中,优选地,可以对序列的局部感兴趣区域按具体优化需求引入同义突变,例如对靠近5’端的前10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100个密码子引入同义突变,又例如对最靠近3’端的10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100个密码子引入同义突变,又例如对mRNA序列编码蛋白一些功能区域对应的密码子引入同义突变。
S20、从多个mRNA序列中确定出多个备选序列。
步骤S20中,可以将多个mRNA序列全部作为备选序列,也可以在多个mRNA序列中进行过滤筛选,如获取各个mRNA序列的特征指标,将特征指标达到指标阈值的mRNA序列作为备选序列,将特征指标未达到预先确定的指标阈值的mRNA序列过滤掉,保留特征指标达到该指标阈值的mRNA序列作为备选序列。其中,特征指标包括但不限于CAI指数、GC含量和尿嘧啶U含量,特征指标也可以是其中的任意一种或两种组合。
其中,CAI指数是对DNA或RNA序列的同义密码子使用偏差的测量,并量化了基因和参考集之间的密码子使用相似性,即密码子适应指数评估值,因此不能太低。由于尿嘧啶太多会提升触发免疫反应降解mRNA的风险,因此尿嘧啶U的含量不能太高。因此,在本发明实施例中,包括CAI指数、GC含量和尿嘧啶U含量中的一种或多种组合的特征指标满足指标阈值的序列得以保留。
在当前实施例中,序列过滤筛选的实施方式具体为:采用mRNA序列的CAI指数、GC含量和尿嘧啶U含量分别作为第一特征指标、第二特征指标和第三特征指标,仅当第一特征指标、第二特征指标和第三特征指标分别满足指标阈值时,对相应的mRNA序列进行保留,从而过滤筛选获得多个备选序列。
S30、预测每个备选序列的二级结构,获得每个备选序列的二级结构表达式。
为了提高准确度,可以通过计算最小自由能来预测备选序列的二级结构,获得二级结构表达式。也即,对所获的备选序列,使用ViennaRNAPackage软件包中RNAfold对备选序列进行二级结构预测,二级结构用Dot-Bracket notation表示法表示,即配对的碱基用左括号“(”和右括号“)”表示,未配对的碱基用符号点“.”表示,从而获得二级结构表达式。
其中,基于最小自由能算法对序列进行二级结构预测的,一般而言,值为负值,且负值越小,也就是绝对值越大,表征键合强度越大。可以理解的是,预测序列的二级结构的算法不限于以上最小自由能算法,在其它实施例中还可以采用其它的算法进行预测,本发明对此不作限定。
S40、对每个二级结构表达式进行注释并解析,获得每个备选序列的二级结构注释信息。
本发明实施例中,二级结构表达式包括dot、bracket分布信息,使用bpRNA软件对二级结构表达式进行注释并解析,根据dot、bracket分布信息可计算获得对应的二级结构注释信息,该二级结构注释信息包括二级结构中碱基的配对情况、碱基的具体位置信息及配对碱基之间的氢键数量。
S50、根据二级结构注释信息,计算每个备选序列的二级结构复杂度。
步骤S50可以包括以下步骤S51~S52:
S51、根据二级结构注释信息,确定每个备选序列的二级结构中各个二级结构基本构件的权重系数。
其中,可以预先存储有多个准则构件,以及每一个准则构件对应的权重值。具体的,在执行步骤S51之前,可以先执行以下步骤S01~S03:
S01、设定多个准则构件,以及确定各个准则构件的结构复杂值。
在本发明实施例中,mRNA序列的二级结构包括各个碱基对应的二级结构基本构件,二级结构对于每一个碱基来说只有配对与非配对的情况,为了简化了解二级结构的复杂性问题,这里对于配对的茎区(即由互补碱基构成的局部双链结构),由于他们之间的氢键不利于mRNA翻译,会导致结构的复杂性高。因此可以首先根据碱基的配对情况,设定多个准则构件,并一一确定准则构件的权重值。
例如,在双链结构中,碱基G和碱基C之间配对构成第一准则构件;设定碱基A和碱基U之间配对构成第二准则构件;碱基U和碱基G之间配对构成第三准则构件。而对于非配对碱基的单链结构,没有配对的部分可能形成自由单链E、发夹环H、凹环I、凸环B与多分支环M等,则统一设定为第四准则构件。因此,第一准则构件、第二准则构件和第三准则构件均为双链构件,而第四准则构件是单链构件。
进一步地,针对双链构件和单链构件,可以分别设定准则构件的结构复杂值。对于双链构件,可以根据配对碱基之间的氢键数量来确定。其中,结构复杂值与氢键数量为正相关关系,也即氢键数量越大,对应的结构复杂值越大。
在一些实施例中,具体可以直接将配对碱基之间的氢键数量作为碱基对应的结构复杂值。例如,碱基G和碱基C之间配对构成的第一准则构件的结构复杂值被设定为3,碱基A和碱基U之间配对构成的第二准则构件的结构复杂值/>被设定为2,碱基U和碱基G配对是摇摆碱基配对,当碱基U和碱基G出现配对时,其构成的第三准则构件的结构复杂值/>被设定为1.5。
而对于单链构件,即非配对碱基的单链结构的第四准则构件,没有配对的部分可能形成自由单链E、发夹环H、凹环I、凸环B与多分支环M等,其复杂性会比较低。因此,可以设定一复杂值作为单链构件的结构复杂值,设定的复杂值应当小于双链构件的结构复杂值。如第四准则构件的结构复杂值被设定为1。
然后,再根据上面设定的各个准则构件的结构复杂值,利用层次分析法进行权重划分,计算得到各个准则构件的权重值。其中,权重值与准则构件的结构复杂值有关,结构复杂值越高(即越复杂),对应的权重值越大。也即执行以下步骤S02~S03:
S02、根据各个准则构件的结构复杂值进行两两比较,获得准则层判断矩阵。
其中,基于各个准则构件的结构复杂值进行两两比较,获得各个比较值的具体数值如下表2,通过下表2可转换得到准则层判断矩阵:
表2各个准则构件的结构复杂值的两两比较值
表2中,采用各行的因素作为分子因素、各列的因素作为分母因素,进行比值计算。若因素i对因素j的比较值是a,则因素j对因素i的比较值为a的倒数1/a。在表2中所列的比较值中:
比较值为1,表示分子因素和分母因素相比,具有同样重要性;
比较值为1.5,表示两个因素相比,分子因素比分母因素稍重要;
比较值为2,表示两个因素相比,分子因素比分母因素较重要;
比较值为3,表示两个因素相比,分子因素比分母因素很重要。
S03、根据准则层判断矩阵,求取特征向量,获得各个准则构件的权重值。
其中,可以通过算数平均法、几何平均法、特征值法等各种方法,计算求得各个准则构件的权重值,四个准则构件的权重值分别是wS-GC、wS-AU、wS-UG、wOther。需要注意的是,求得的四个准则构件的权重值的和应该为1,由于四舍五入导致的误差可以忽略,一般结果保留四位小数。
其中,通过算数平均法进行权重值分配的具体实施方式是:
第一步:将准则层判断矩阵按照列进行归一化处理,也即将每一个元素除以其所在列的和;
第二步:将归一化后的各列相加,即按行求和;
第三步:将相加后得到的各个行向量求平均值,得到权重向量,根据权重向量即可确定各个元素对应的权重值。
基于步骤S01~S03,在步骤S51中,确定每个备选序列的二级结构中各个二级结构基本构件的权重系数的具体实施方式可以是:
针对每个备选序列的二级结构中各个二级结构基本构件,分别执行以下步骤:
根据二级结构注释信息,从多个准则构件中确定出与该二级结构基本构件相匹配的目标准则构件;
获取目标准则构件的权重值,作为该二级结构基本构件的权重系数。
在本实施例中,多个准则构件包括四个准则构件,因此目标准则构件为第一准则构件、第二准则构件、第三准则构件或第四准则构件。而在其它一些可能的实施例中,也可以设定更多的准则构件,本发明对此不作限定。
举例来说,假设对某个二级结构基本构件进行识别,从多个准则构件中确定出第一准则构件与该二级结构基本构件相匹配,那么可以确定第一准则构件为该二级结构基本构件的目标准则构件,获取预存的该第一准则构件对应的权重值wS-GC作为该二级结构基本构件的权重系数。
步骤S51中具体可通过下式(1)确定各个二级结构基本构件的权重系数,即位置i对应碱基的二级结构基本构件的权重系数wi可通过下式(1)获得:
其中,S(i)为位置i的碱基,S(j)为位置i的碱基对应与之配对的位置j的碱基,ss(i)为位置i的碱基对应的二级结构基本构件;与位置i配对的位置j可由bpRNA的解析注释文件(即上述二级结构注释信息)中获得。关于配对碱基对应的二级结构基本构件的权重系数的计算,只计算左括号的权重(即i<j),右括号的不予计算(i>j),因为它们是配对的,计算其中之一即可,因此累加的时候计算到右括号时权重系数为0,即wi|(i<j)=0。
其中,二级结构注释信息包括但不限于二级结构中碱基的配对情况、碱基的具体位置信息及配对碱基之间的氢键数量。由上式(1)可以看出,如果根据二级结构注释信息,确定某个二级结构基本构件对应的碱基S(i)存在配对情况,且碱基S(i)为碱基G或C,则确定该二级结构基本构件与第一准则构件相匹配。
S52、根据每个备选序列的序列长度和各个二级结构基本构件的权重系数和,计算获得每个备选序列的二级结构复杂度。
在本发明实施例中,每个备选序列对应的二级结构复杂度与二级结构基本构件的权重系数有关,考虑到各备选序列之间的长度大小不一致问题,因此计算二级结构复杂度时,可以使用各二级结构基本构件的权重系数均值来衡量。
具体地,每个备选序列对应的二级结构s复杂度为C(s),可通过以下公式(2)计算:
其中,wi为位置i对应碱基的二级结构基本构件的权重系数,C(s)为二级结构s的复杂度,n代表备选序列的长度。
S60、根据每个备选序列的二级结构复杂度,从多个备选序列中筛选出目标mRNA序列。
最后,根据每个备选序列的二级结构复杂度计算结果,选取复杂度更低的备选序列,作为目标mRNA序列,从而可以更加可靠、有效地选出潜在具有高mRNA翻译效率的mRNA序列。其中,所获得的目标mRNA序列可以根据具体需求选择是否进入下一轮优化迭代。在筛选过程中进行排序的方式可以序贯地结合其它指标,再根据二级结构复杂度与权重系数进行排序。
具体地,基于mRNA备选序列的二级结构复杂度进行评分筛选的过程为:
对于根据给定序列引入同义突变而获得的mRNA序列池中的每个备选序列,均对它们进行复杂度评分和优先级排列,并选取排序后的头部指定数量个备选序列作为优化结果序列,即目标mRNA序列。其中,复杂度评分越低,对应的二级结构复杂度越小;而优先级越高,对应的二级结构复杂度越小。
在一些实施例中,优先级排序规则可以仅基于复杂度评分升序排列;在一些实施例中,优先级排序可以序贯地结合其它指标,例如mRNA序列池序列先经CAI指数、GC含量、U含量等特征指标的过滤筛选后,再按照复杂度评分进行升序排列;在一些实施例中,mRNA序列复杂度评分可以作为整个序列优先级评分系统的一个构成部分,例如对复杂度评分与CAI指数等进行加权,给定以不同的加权系数,继而生成一个优先级综合评分,用于优先级排序。
本发明实施例中,步骤S10中获取的同一蛋白的多个mRNA序列中一mRNA序列如下序列WT:
mRNA序列(WT):
AUGTCCAGGGTGCAAAGAGTAACAGATTCCCTGGATACCCTTTTAGAAATTTCTTCAAATAAACAGAACCATTCTTATGAGTATTTCATGAAACAAATGAATGATGCACGTCATGGTGGCTGGACAACAAAAATGGATTGGATCTTCCACACAAGATGTCCAGATTCTACTCGACCTGAAACTGTGAGCCCCTGTTTTCTCCCATGCAAAAAAGACTGTATTGTGACTAAGGAAAGAATGAAACATGATGACCCAACCATCTCAAGCTGGCTTCAGAGTCTGGCTAGTTTCTGTGGTGCAGTTTGGAAAGGTCCACTTCGACTCCAGCAGGCATATCTCCTTATGATTAGTGCCCTCATGGCCCTGGTGTTTATCAAGTGA
然后在经过本发明实施例的优化方法进行筛选之后,可确定出目标mRNA序列如下序列Opt:
目标mRNA序列(Opt):
AUGAGCAGAGUGCAGCGGGUGACAGACAGCCUGGACACACUGCUGGAGAUCAGCAGCAACAAGCAGAACCACAGCUACGAGUACUUCAUGAAGCAGAUGAACGACGCCCGGCACGGCGGCUGGACAACAAAGAUGGACUGGAUCUUCCACACCAGAUGCCCUGACAGCACCAGACCUGAGACAGUGAGCCCUUGUUUUCUGCCCUGCAAGAAGGACUGCAUCGUGACCAAGGAGCGGAUGAAGCACGACGACCCUACAAUCAGCAGCUGGCUGCAGAGCCUGGCAAGCUUCUGUGGAGCUGUGUGGAAAGGACCUCUGCGGCUGCAGCAGGCCUACCUGCUGAUGAUCAGCGCCCUGAUGGCCCUGGUGUUCAUCAAGTGA
由图2可看出,优化后序列(Opt)的相对光单位(relative lightunit,RLU)读数明显高于优化前序列(WT)的RLU读数。
实施本发明实施例,基于对RNA序列密码子进行适当的同义突变而生成的一组mRNA序列,根据mRNA序列的特征指标进行过滤,通过对过滤后所获备选序列的二级结构及结构的二级结构注释信息,根据mRNA配对碱基间的氢键数量、结构中的环对mRNA翻译可及性的影响,给予相应的结构复杂值与权重系数,根据二级结构中的dot、bracket分布以及其对应的二级结构注释信息,利用权重与结构复杂值综合计算备选序列二级结构的复杂度。而后根据二级结构复杂度计算结果,选取目标mRNA序列。
本发明实施例中,通过将序列优化与密码子同义突变、二级结构结合在一起,将mRNA序列的二级结构数值化,能够提高mRNA序列筛选的可靠性与有效性,从而提高mRNA序列的翻译表达量。同时,能够使得mRNA序列的二级结构直观化,更加简便判断mRNA序列的二级结构的复杂性,简化mRNA序列的二级结构间的比较,利于序列的优化、筛选。
如图3所示,本发明实施例公开一种mRNA序列的优化装置,包括获取单元301、确定单元302、预测单元303、注释单元304、计算单元305和筛选单元306,其中,
获取单元301,用于获取同一蛋白的多个mRNA序列;
确定单元302,用于从多个mRNA序列中确定出多个备选序列;
预测单元303,用于预测每个备选序列的二级结构,获得每个备选序列的二级结构表达式;
注释单元304,用于对每个二级结构表达式进行注释并解析,获得每个备选序列的二级结构注释信息;
计算单元305,用于根据二级结构注释信息,计算每个备选序列的二级结构复杂度;
筛选单元306,用于根据每个备选序列的二级结构复杂度,从多个备选序列中筛选出目标mRNA序列。
在一些实施例中,计算单元305可以包括以下未图示的子单元:
确定子单元,用于根据二级结构注释信息,确定每个备选序列的二级结构中各个二级结构基本构件的权重系数;
计算子单元,用于根据每个备选序列的序列长度和各个二级结构基本构件的权重系数,计算获得每个备选序列的二级结构复杂度。
在一些实施例中,上述的确定子单元可以包括以下未图示的模块:
识别模块,用于针对每个备选序列的二级结构中各个二级结构基本构件,分别根据二级结构注释信息,从多个准则构件中确定出与各个二级结构基本构件相匹配的目标准则构件;
获取模块,用于获取目标准则构件的权重值,作为对应的二级结构基本构件的权重系数。
在一些实施例中,本mRNA序列的优化装置还可以包括以下未图示的单元:
设定单元,用于在识别模块针对每个备选序列的二级结构中各个二级结构基本构件,分别根据二级结构注释信息,从多个准则构件中确定出与各个二级结构基本构件相匹配的目标准则构件之前,设定多个准则构件,以及确定各个准则构件的结构复杂值;
分析单元,用于根据各个准则构件的结构复杂值进行两两比较,获得准则层判断矩阵;
权重分配单元,用于根据准则层判断矩阵,求取特征向量,获得各个准则构件的权重值
在一些实施例中,上述设定单元用于确定各个准则构件的结构复杂值的方式具体为:
上述设定单元,用于判断各个准则构件是双链构件还是单链构件;若准则构件是双链构件,根据双链构件的配对碱基之间的氢键数量,确定双链构件的结构复杂值;若准则构件是单链构件,获取预设的复杂值作为单链构件的结构复杂值;
其中,双链构件的结构复杂值与氢键数量为正相关关系;单链构件的结构复杂值小于双链构件的结构复杂值。
在一些实施例中,上述计算单元305具体用于通过以下公式计算获得每个备选序列的二级结构复杂度:
式中,wi为第i个二级结构基本构件的权重系数,n为备选序列的长度,C(s)为二级结构复杂度。
在一些实施例中,确定单元302可以包括以下未图示的子单元:
确定子单元,用于获取各个mRNA序列的特征指标;
过滤子单元,用于将特征指标达到指标阈值的mRNA序列,作为备选序列。
如图4所示,本发明实施例公开一种电子设备,包括存储有可执行程序代码的存储器401以及与存储器401耦合的处理器402;
其中,处理器402调用存储器401中存储的可执行程序代码,执行上述各实施例中描述的mRNA序列的优化方法。
本发明实施例还公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行上述各实施例中描述的mRNA序列的优化方法。
以上实施例的目的,是对本发明的技术方案进行示例性的再现与推导,并以此完整的描述本发明的技术方案、目的及效果,其目的是使公众对本发明的公开内容的理解更加透彻、全面,并不以此限定本发明的保护范围。
以上实施例也并非是基于本发明的穷尽性列举,在此之外,还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。

Claims (10)

1.mRNA序列的优化方法,其特征在于,包括:
获取同一蛋白的多个mRNA序列;
从多个所述mRNA序列中确定出多个备选序列;
预测每个所述备选序列的二级结构,获得每个所述备选序列的二级结构表达式;
对每个所述二级结构表达式进行注释并解析,获得每个所述备选序列的二级结构注释信息;
根据所述二级结构注释信息,确定每个所述备选序列的二级结构中各个二级结构基本构件的权重系数;
根据每个所述备选序列的序列长度和各个所述二级结构基本构件的权重系数,计算获得每个所述备选序列的二级结构复杂度;
根据每个所述备选序列的二级结构复杂度,从多个所述备选序列中筛选出目标mRNA序列。
2.如权利要求1所述的mRNA序列的优化方法,其特征在于,所述根据所述二级结构注释信息,确定每个所述备选序列的二级结构中各个二级结构基本构件的权重系数,包括:
针对每个所述备选序列的二级结构中各个二级结构基本构件,分别根据所述二级结构注释信息,从多个准则构件中确定出与各个所述二级结构基本构件相匹配的目标准则构件;
获取所述目标准则构件的权重值,作为对应的二级结构基本构件的权重系数。
3.如权利要求2所述的mRNA序列的优化方法,其特征在于,所述分别根据所述二级结构注释信息,从多个准则构件中确定出与各个所述二级结构基本构件相匹配的目标准则构件之前,所述方法还包括:
设定多个准则构件,以及确定各个所述准则构件的结构复杂值;
根据各个所述准则构件的结构复杂值进行两两比较,获得准则层判断矩阵;
根据所述准则层判断矩阵,求取特征向量,获得各个所述准则构件的权重值。
4.如权利要求3所述的mRNA序列的优化方法,其特征在于,所述确定各个所述准则构件的结构复杂值,包括:
判断各个所述准则构件是双链构件还是单链构件;
若所述准则构件是双链构件,根据所述双链构件的配对碱基之间的氢键数量,确定所述双链构件的结构复杂值;
若所述准则构件是单链构件,获取预设的复杂值作为所述单链构件的结构复杂值;
其中,所述双链构件的结构复杂值与所述氢键数量为正相关关系;所述单链构件的结构复杂值小于所述双链构件的结构复杂值。
5.如权利要求4所述的mRNA序列的优化方法,其特征在于,多个准则构件包括第一准则构件、第二准则构件、第三准则构件和第四准则构件;
所述第一准则构件为包含碱基G和碱基C配对的双链构件;
所述第二准则构件为包含碱基A和碱基U配对的双链构件;
所述第三准则构件为包含碱基U和碱基G配对的双链构件;
所述第四准则构件为包含非配对碱基的单链构件。
6.如权利要求1至5任一项所述的mRNA序列的优化方法,其特征在于,所述根据每个所述备选序列的序列长度和各个所述二级结构基本构件的权重系数,计算获得每个所述备选序列的二级结构复杂度,包括:
通过以下公式计算获得每个所述备选序列的二级结构复杂度:
式中,wi为第i个二级结构基本构件的权重系数,n为备选序列的长度,C(s)为二级结构复杂度。
7.如权利要求1至5任一项所述的mRNA序列的优化方法,其特征在于,所述从多个所述mRNA序列中确定出多个备选序列,包括:
获取各个所述mRNA序列的特征指标;
将所述特征指标达到指标阈值的mRNA序列作为备选序列。
8.mRNA序列的优化装置,其特征在于,包括:
获取单元,用于获取同一蛋白的多个mRNA序列;
确定单元,用于从多个所述mRNA序列中确定出多个备选序列;
预测单元,用于预测每个所述备选序列的二级结构,获得每个所述备选序列的二级结构表达式;
注释单元,用于对每个所述二级结构表达式进行注释并解析,获得每个所述备选序列的二级结构注释信息;
计算单元,用于根据所述二级结构注释信息,计算每个所述备选序列的二级结构复杂度;
筛选单元,用于根据每个所述备选序列的二级结构复杂度,从多个所述备选序列中筛选出目标mRNA序列;
其中,所述计算单元包括:
确定子单元,用于根据所述二级结构注释信息,确定每个所述备选序列的二级结构中各个二级结构基本构件的权重系数;
计算子单元,用于根据每个所述备选序列的序列长度和各个所述二级结构基本构件的权重系数,计算获得每个所述备选序列的二级结构复杂度。
9.电子设备,其特征在于,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至7任一项所述的mRNA序列的优化方法。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至7任一项所述的mRNA序列的优化方法。
CN202210280747.1A 2022-03-21 2022-03-21 mRNA序列的优化方法及装置、设备、存储介质 Active CN114708909B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210280747.1A CN114708909B (zh) 2022-03-21 2022-03-21 mRNA序列的优化方法及装置、设备、存储介质
PCT/CN2023/077209 WO2023179273A1 (zh) 2022-03-21 2023-02-20 mRNA序列的优化方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210280747.1A CN114708909B (zh) 2022-03-21 2022-03-21 mRNA序列的优化方法及装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN114708909A CN114708909A (zh) 2022-07-05
CN114708909B true CN114708909B (zh) 2023-10-20

Family

ID=82169693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210280747.1A Active CN114708909B (zh) 2022-03-21 2022-03-21 mRNA序列的优化方法及装置、设备、存储介质

Country Status (2)

Country Link
CN (1) CN114708909B (zh)
WO (1) WO2023179273A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708909B (zh) * 2022-03-21 2023-10-20 深圳市新合生物医疗科技有限公司 mRNA序列的优化方法及装置、设备、存储介质
CN116072231B (zh) * 2022-10-17 2024-02-13 中国医学科学院病原生物学研究所 基于氨基酸序列的密码子优化设计mRNA疫苗的方法
CN116168764B (zh) * 2023-04-25 2023-06-30 深圳新合睿恩生物医疗科技有限公司 信使核糖核酸的5'非翻译区序列优化方法及装置、设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210871A (zh) * 2020-01-09 2020-05-29 青岛科技大学 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN111951884A (zh) * 2020-07-10 2020-11-17 中南大学 蛋白质小分子结合口袋上关键柔性氨基酸的识别方法
CN112735525A (zh) * 2021-01-18 2021-04-30 江苏普瑞康生物医药科技有限公司 一种基于分治法的mRNA序列优化的方法与装置
CN113066527A (zh) * 2021-04-14 2021-07-02 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统
CN113936737A (zh) * 2021-10-14 2022-01-14 温州医科大学附属眼视光医院 一种基于rna基序向量比较rna结构的方法、系统和设备
CN114037215A (zh) * 2021-10-18 2022-02-11 苏州大学 变步长多尺度复杂度融合指标的故障严重程度评估方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104878036B (zh) * 2015-04-29 2018-06-08 南京肽德生物技术有限公司 一种模型拟合和基因改造提高蛋白表达效率的方法及应用
JP6781890B2 (ja) * 2018-03-15 2020-11-11 株式会社Veritas In Silico Rnaの機能を制御する化合物のスクリーニング方法
CN114708909B (zh) * 2022-03-21 2023-10-20 深圳市新合生物医疗科技有限公司 mRNA序列的优化方法及装置、设备、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210871A (zh) * 2020-01-09 2020-05-29 青岛科技大学 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN111951884A (zh) * 2020-07-10 2020-11-17 中南大学 蛋白质小分子结合口袋上关键柔性氨基酸的识别方法
CN112735525A (zh) * 2021-01-18 2021-04-30 江苏普瑞康生物医药科技有限公司 一种基于分治法的mRNA序列优化的方法与装置
CN113066527A (zh) * 2021-04-14 2021-07-02 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统
CN113936737A (zh) * 2021-10-14 2022-01-14 温州医科大学附属眼视光医院 一种基于rna基序向量比较rna结构的方法、系统和设备
CN114037215A (zh) * 2021-10-18 2022-02-11 苏州大学 变步长多尺度复杂度融合指标的故障严重程度评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于序列和结构信息的RNA和蛋白质结合位点预测研究;李泽晋;《硕士电子期刊》;论文正文 *

Also Published As

Publication number Publication date
CN114708909A (zh) 2022-07-05
WO2023179273A1 (zh) 2023-09-28

Similar Documents

Publication Publication Date Title
CN114708909B (zh) mRNA序列的优化方法及装置、设备、存储介质
JP6768815B2 (ja) マルチプレックスpcrに供するプライマーの設計方法
Crossley et al. Guidelines for Sanger sequencing and molecular assay monitoring
KR102381477B1 (ko) 심층 신경망에 기반한 변이체 분류자
KR102371706B1 (ko) 서열-특정 오류(sse)를 유발시키는 서열 패턴을 식별하기 위한 심층 학습-기반 프레임워크
US20100094563A1 (en) System and Method for Consensus-Calling with Per-Base Quality Values for Sample Assemblies
US20050267693A1 (en) Method, system, and apparatus for compactly storing a subject genome
US20100205204A1 (en) Homology retrieval system, homology retrieval apparatus, and homology retrieval method
CN113056563A (zh) 识别血液中基因异常的方法及系统
CN110517728A (zh) 一种基因序列比对方法及装置
Berrandou et al. LDAK-GBAT: Fast and powerful gene-based association testing using summary statistics
US20170270243A1 (en) Method for finding associated positions of bases of a read on a reference genome
CN114420214A (zh) 核酸测序数据的质量评估方法和筛选方法
Chen et al. SEME: a fast mapper of Illumina sequencing reads with statistical evaluation
US20160055293A1 (en) Systems, Algorithms, and Software for Molecular Inversion Probe (MIP) Design
EP3844298A1 (en) Methods and systems for providing sample information
CN110066862B (zh) 一种基于高通量测序读数的重复dna序列识别方法
US20230298701A1 (en) Deep-learning-based techniques for generating a consensus sequence from multiple noisy sequences
CN116072222B (zh) 病毒基因组鉴定和拼接的方法及应用
Jung et al. Generalizing deep variant callers via domain adaptation and semi-supervised learning
NL2021473B1 (en) DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)
Minami et al. Rules for connectivity of secondary structure elements in protein: two–layer αβ sandwiches
Prodanov Read Mapping, Variant Calling, and Copy Number Variation Detection in Segmental Duplications
Qiu et al. RTM-align: an improved RNA alignment tool with enhanced short sequence performance via post-standardization and fragment alignment
Southwood et al. Pyro: A Comprehensive Pipeline for Eukaryotic Genome Assembly

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant