CN111951891B - 确定优化的核苷酸序列的方法和系统 - Google Patents

确定优化的核苷酸序列的方法和系统 Download PDF

Info

Publication number
CN111951891B
CN111951891B CN201910411408.0A CN201910411408A CN111951891B CN 111951891 B CN111951891 B CN 111951891B CN 201910411408 A CN201910411408 A CN 201910411408A CN 111951891 B CN111951891 B CN 111951891B
Authority
CN
China
Prior art keywords
codons
codon
nucleotide sequence
model
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910411408.0A
Other languages
English (en)
Other versions
CN111951891A (zh
Inventor
曾坚阳
胡海林
刘祥根
宋森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910411408.0A priority Critical patent/CN111951891B/zh
Publication of CN111951891A publication Critical patent/CN111951891A/zh
Application granted granted Critical
Publication of CN111951891B publication Critical patent/CN111951891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本申请涉及一种用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法,用于确定所述优化的核苷酸序列的系统,以及通过所述方法和/或系统确定的优化的核苷酸序列。

Description

确定优化的核苷酸序列的方法和系统
技术领域
本申请涉及生物技术领域,特别是涉及用于确定优化的核苷酸序列的方法和系统。
背景技术
对蛋白质或多肽的表达水平进行优化是一项复杂而有挑战性的工作。通常,人们倾向于用适合目标生物体的优选密码子来替换较少使用的密码子,从而改善或优化相应蛋白质或多肽在该目标生物体中的表达。然而,这样的策略非常繁琐,往往涉及劳动密集性的试错过程,且并不总是能够产最优的结果。
因此,亟需开发改进的方法,使得能够更加简便、可靠地确定编码目的蛋白质或多肽的优化的核苷酸序列。
发明内容
本申请提供了用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法和系统,通过本申请的方法和/或系统确定的优化序列使得目标蛋白或多肽在生物体中的表达水平显著提高或降低,以满足特定的优化需求。本申请提供的方法和/或系统还能够显著提高序列优化的效率和有效性。
一方面,本申请提供了用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法。在所述方法中,可针对目的多肽或蛋白质在宿主细胞中的表达水平而对所述核苷酸序列进行优化。所述方法可包括:1)提供多个编码所述目的多肽或蛋白质的候选核苷酸序列;2)基于所述候选核苷酸序列中所有密码子的测算核糖体密度之和来评价所述候选核苷酸序列对所述目的多肽或蛋白质在宿主细胞中的所述表达水平的影响;以及3)将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的候选核苷酸序列确定为所述优化的核苷酸序列。其中,对于任一所述候选核苷酸序列中第i位的三联体密码子Ci,可以取包含所述Ci的连续三联体密码子Ci-n至Ci+m,通过第一模型筛选所述连续三联体密码子Ci-n至Ci+m中适于用来进行所述Ci的测算核糖体密度计算的密码子作为滤过密码子。此外,可以将所述滤过密码子的表征信息提供给第二模型并通过所述第二模型计算得出所述密码子Ci的测算核糖体密度,其中i可以为不小于1的正整数,且n、m可以各自独立地为不小于零的整数。
在某些实施方式中,所述Ci-n至Ci+m包含至少2个连续三联体密码子。
在某些实施方式中,所述Ci-n至Ci+m包含至少6个连续三联体密码子。
在某些实施方式中,所述密码子Ci的测算核糖体密度为预测在蛋白质翻译过程中该密码子位于核糖体A位时所计算得到的测算核糖体密度。
在某些实施方式中,所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平提高,且所述测算核糖体密度之和最小的候选核苷酸序列被确定为所述优化的核苷酸序列。
在某些实施方式中,所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平降低,且所述测算核糖体密度之和最大的候选核苷酸序列被确定为所述优化的核苷酸序列。
在某些实施方式中,所述第一模型及所述第二模型均通过机器学习算法产生,且在所述第一模型的学习训练过程中,使用所述第二模型的计算准确性指标作为表明所述第一模型计算质量的反馈结果提供给所述第一模型。
在某些实施方式中,所述连续三联体密码子Ci-n至Ci+m包含至少2个连续的三联体密码子,所述第一模型在其中筛选出的滤过密码子的平均数量为Ci-n至Ci+m中密码子总数的约55%至约75%,且其中未被选为滤过密码子的密码子为忽略密码子。
在某些实施方式中,所述第二模型在计算所述密码子Ci的测算核糖体密度时忽略所述连续三联体密码子Ci-n至Ci+m中所述忽略密码子的表征信息。
在某些实施方式中,各所述候选核苷酸序列所编码的目的多肽或蛋白质的氨基酸序列相同。
在某些实施方式中,当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸的一种或多种密码子在至少一次筛选中被所述第一模型选为滤过密码子。
在某些实施方式中,当所述候选核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,这些密码子中的一种或多种在至少一次筛选中被所述第一模型选为滤过密码子。
在某些实施方式中,当所述候选核苷酸序列中包含密码子CGG时,密码子CGG在至少一次筛选中被所述第一模型选为滤过密码子。
在某些实施方式中,当所述连续三联体密码子Ci-n至Ci+m中包含密码子CGG时,密码子CGG被所述第一模型选为滤过密码子。
在某些实施方式中,提供多个编码所述目的多肽或蛋白质的候选核苷酸序列包括:对于所述目的多肽或蛋白质的每一个氨基酸残基,随机选择编码其的对应密码子;以及根据各氨基酸残基在所述目的多肽或蛋白质氨基酸序列中的位置顺序相应地排列所选择的所述对应密码子以获得编码所述目的多肽或蛋白质的候选核苷酸序列。
在某些实施方式中,通过动态规划来确定所述测算核糖体密度之和最小的候选核苷酸序列和/或所述测算核糖体密度之和最大的候选核苷酸序列。
在某些实施方式中,对于所述连续三联体密码子Ci-n至Ci+m中的每个密码子,所述第一模型决定是否将该密码子选为所述滤过密码子,所述第一模型包含第一循环神经网络模块和第二循环神经网络模块;其中对于每个所述密码子,所述第一循环神经网络模块获取该密码子的情境信息并将该信息提供给所述第二循环神经网络模块,且所述第二循环神经网络模块根据所述第一循环神经网络模块提供的所述情境信息决定是否将该密码子选为所述滤过密码子。
在某些实施方式中,所述第一循环神经网络模块为从正向和反向两个方向获取所述情境信息的双向循环神经网络模块。
在某些实施方式中,所述第一循环神经网络模块根据包括下述的信息表征所述密码子:所述密码子的类型和所述密码子在所述连续三联体密码子Ci-n至Ci+m中的位置信息。
在某些实施方式中,所述第一模型计算并提供所述连续三联体密码子Ci-n至Ci+m中所选择的所述滤过密码子的特征信息R。
在某些实施方式中,所述第二模型根据所述第一模型提供的所述滤过密码子的特征信息R来计算所述密码子Ci的测算核糖体密度。
另一方面,本申请提供了用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法。其中,可针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对所述核苷酸序列进行优化。所述方法可包括:1)提供编码所述目的多肽或蛋白质的亲本核苷酸序列,所述亲本核苷酸序列包含连续三联体密码子C1至Cx;2)对于所述亲本核苷酸序列中第a位的三联体密码子Ca,取包含所述Ca的连续三联体密码子Ca-b至Ca+c,通过第一模型筛选所述连续三联体密码子Ca-b至Ca+c中适于用来进行所述Ca的测算核糖体密度计算的密码子作为滤过密码子,其中所述a为1至x之间的任意正整数,且所述b、c各自独立地为不小于零的整数;3)重复步骤2)直至对于所述C1至Cx中的每个密码子,均筛选出了适于用来进行该密码子的测算核糖体密度计算的所述滤过密码子;4)计算所述亲本核苷酸序列中的每个密码子被选为滤过密码子的比例,得到每个所述密码子的入选机会率;5)将其入选机会率为所述亲本核苷酸序列所有密码子入选机会率中至少前50%的密码子确定为候选修饰密码子;6)在所述亲本核苷酸序列的一个或多个所述候选修饰密码子处进行至少一个核苷酸修饰以获得一个或多个所述亲本核苷酸序列的变体候选核苷酸序列,所述核苷酸修饰不改变所述候选修饰密码子所编码的氨基酸残基;和7)从所述变体候选核苷酸序列中选择所述优化的核苷酸序列。
在某些实施方式中,所述Ca-b至Ca+c包含至少2个连续三联体密码子。
在某些实施方式中,所述Ca-b至Ca+c包含至少6个连续三联体密码子。
在某些实施方式中,测算所述密码子Ca的测算核糖体密度为预测在蛋白质翻译过程中该密码子Ca位于核糖体A位时的进行的测算。
在某些实施方式中,所述连续三联体密码子Ca-b至Ca+c包含至少2个连续的三联体密码子,且所述第一模型在其中筛选出的滤过密码子的平均数量为Ca-b至Ca+c中密码子总数的约55%至约75%。
在某些实施方式中,当所述亲本核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,这些密码子中的一种或多种被选为所述候选修饰密码子。
在某些实施方式中,当所述亲本核苷酸序列中包含密码子CGG时,密码子CGG被选为所述候选修饰密码子。
在某些实施方式中,对于所述连续三联体密码子Ca-b至Ca+c中的每个密码子,所述第一模型决定是否将该密码子选为所述滤过密码子,所述第一模型包含第一循环神经网络模块和第二循环神经网络模块;其中对于每个所述密码子,所述第一循环神经网络模块获取该密码子的情境信息并将该信息提供给所述第二循环神经网络模块,且所述第二循环神经网络模块根据所述第一循环神经网络模块提供的所述情境信息决定是否将该密码子选为所述滤过密码子。
在某些实施方式中,所述第一循环神经网络模块为从正向和反向两个方向获取所述情境信息的双向循环神经网络模块。
在某些实施方式中,所述第一循环神经网络模块根据包括下述的信息表征所述密码子:所述密码子的类型和所述密码子在所述连续三联体密码子Ca-b至Ca+c中的位置信息。
在某些实施方式中,7)从所述变体候选核苷酸序列中选择所述优化的核苷酸序列包括:7a)测定一个或多个所述变体候选核苷酸序列所编码的所述目的多肽或蛋白质在宿主细胞中的表达水平;以及7b)将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的变体候选核苷酸序列确定为所述优化的核苷酸序列。
在某些实施方式中,7)从所述变体候选核苷酸序列中选择所述优化的核苷酸序列包括:通过本申请其他部分所述的一种或多种方法确定所述变体候选核苷酸序列中的优化的核苷酸序列。
另一方面,本申请提供了用于确定编码目的多肽或蛋白质的优化的核苷酸序列的系统。其中,可针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对所述核苷酸序列进行优化。所述系统可包括:1)候选核苷酸序列提供单元,所述候选核苷酸序列提供单元被设置为提供多个编码所述目的多肽或蛋白质的候选核苷酸序列;2)候选核苷酸序列评价单元,所述候选核苷酸序列评价单元被设置为基于所述候选核苷酸序列中所有密码子的测算核糖体密度之和来评价所述候选核苷酸序列对所述目的多肽或蛋白质在宿主细胞中的所述表达水平的影响;以及3)优化核苷酸序列确定单元,所述优化核苷酸序列确定单元被设置为将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的候选核苷酸序列确定为所述优化的核苷酸序列。其中,所述候选核苷酸序列评价单元中可包括核糖体密度测算模块,所述核糖体密度测算模块可包括第一模型和第二模型,其中所述核糖体密度测算模块可被设置为对于任一所述候选核苷酸序列中第i位的三联体密码子Ci,取包含所述Ci的连续三联体密码子Ci-n至Ci+m,通过所述第一模型筛选所述连续三联体密码子Ci-n至Ci+m中适于用来进行所述Ci的测算核糖体密度计算的密码子作为滤过密码子,将所述滤过密码子的表征信息提供给第二模型并通过所述第二模型计算得出所述密码子Ci的测算核糖体密度,其中i为不小于1的正整数,且n、m各自独立地为不小于零的整数。
在某些实施方式中,所述Ci-n至Ci+m包含至少2个连续三联体密码子。
在某些实施方式中,所述Ci-n至Ci+m包含至少6个连续三联体密码子。
在某些实施方式中,所述密码子Ci的测算核糖体密度为预测在蛋白质翻译过程中该密码子位于核糖体A位时所计算得到的测算核糖体密度。
在某些实施方式中,所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平提高,且所述测算核糖体密度之和最小的候选核苷酸序列被确定为所述优化的核苷酸序列。
在某些实施方式中,所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平降低,且所述测算核糖体密度之和最大的候选核苷酸序列被确定为所述优化的核苷酸序列。
在某些实施方式中,所述核糖体密度测算模块的所述第一模型及第二模型均通过机器学习算法产生,且在所述第一模型的学习训练过程中,使用所述第二模型的计算准确性指标作为表明所述第一模型计算质量的反馈结果提供给所述第一模型。
在某些实施方式中,所述连续三联体密码子Ci-n至Ci+m包含至少2个连续的三联体密码子,所述核糖体密度测算模块的第一模型在其中筛选出的滤过密码子的平均数量为Ci-n至Ci+m中密码子总数的约55%至约75%,且其中未被选为滤过密码子的密码子为忽略密码子。
在某些实施方式中,所述第二模型在计算所述密码子Ci的测算核糖体密度时忽略所述连续三联体密码子Ci-n至Ci+m中所述忽略密码子的表征信息。
在某些实施方式中,各所述候选核苷酸序列所编码的目的多肽或蛋白质的氨基酸序列相同。
在某些实施方式中,当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸的一种或多种密码子在至少一次筛选中被所述第一模型选为滤过密码子。
在某些实施方式中,当所述候选核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,这些密码子中的一种或多种在至少一次筛选中被所述第一模型选为滤过密码子。
在某些实施方式中,当所述候选核苷酸序列中包含密码子CGG时,密码子CGG在至少一次筛选中被所述第一模型选为滤过密码子。
在某些实施方式中,当所述连续三联体密码子Ci-n至Ci+m中包含密码子CGG时,密码子CGG被所述第一模型选为滤过密码子。
在某些实施方式中,所述提供多个编码所述目的多肽或蛋白质的候选核苷酸序列包括:对于所述目的多肽或蛋白质的每一个氨基酸残基,随机选择编码其的对应密码子;以及根据各氨基酸残基在所述目的多肽或蛋白质氨基酸序列中的位置顺序相应地排列所选择的所述对应密码子以获得编码所述目的多肽或蛋白质的候选核苷酸序列。
在某些实施方式中,所述优化核苷酸序列确定单元通过动态规划来确定所述测算核糖体密度之和最小的候选核苷酸序列和/或所述测算核糖体密度之和最大的候选核苷酸序列。
在某些实施方式中,对于所述连续三联体密码子Ci-n至Ci+m中的每个密码子,所述第一模型决定是否将该密码子选为所述滤过密码子,所述第一模型包含第一循环神经网络模块和第二循环神经网络模块;其中对于每个所述密码子,所述第一循环神经网络模块获取该密码子的情境信息并将该信息提供给所述第二循环神经网络模块,且所述第二循环神经网络模块根据所述第一循环神经网络模块提供的所述情境信息决定是否将该密码子选为所述滤过密码子。
在某些实施方式中,所述第一循环神经网络模块为从正向和反向两个方向获取所述情境信息的双向循环神经网络模块。
在某些实施方式中,所述第一循环神经网络模块根据包括下述的信息表征所述密码子:所述密码子的类型和所述密码子在所述连续三联体密码子Ci-n至Ci+m中的位置信息。
在某些实施方式中,所述第一模型计算并提供所述连续三联体密码子Ci-n至Ci+m中所选择的所述滤过密码子的特征信息R。
在某些实施方式中,所述第二模型根据所述第一模型提供的所述滤过密码子的特征信息R来计算所述密码子Ci的测算核糖体密度。
另一方面,本申请提供用于确定编码目的多肽或蛋白质的优化的核苷酸序列的系统。可针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对所述核苷酸序列进行优化。所述系统可包括:1)亲本核苷酸序列提供单元,所述亲本核苷酸序列提供单元被设置为提供编码所述目的多肽或蛋白质的亲本核苷酸序列,所述亲本核苷酸序列包含连续三联体密码子C1至Cx;2)滤过密码子筛选单元,所述滤过密码子筛选单元包括第一模型,且所述滤过密码子筛选单元被设置为:2a)对于所述亲本核苷酸序列中第a位的三联体密码子Ca,取包含所述Ca的连续三联体密码子Ca-b至Ca+c,通过所述第一模型筛选所述连续三联体密码子Ca-b至Ca+c中适于用来进行所述Ca的测算核糖体密度计算的密码子作为滤过密码子,其中所述a为1至x之间的任意正整数,且所述b、c各自独立地为不小于零的整数;和2b)重复操作2a)直至对于所述C1至Cx中的每个密码子,均筛选出了适于用来进行该密码子的测算核糖体密度计算的所述滤过密码子;3)入选机会率计算单元,所述入选机会率计算单元被设置为计算所述亲本核苷酸序列中的每个密码子被选为滤过密码子的比例,从而得到每个所述密码子的入选机会率;4)候选修饰密码子确定单元,所述候选修饰密码子确定单元被设置为将其入选机会率为所述亲本核苷酸序列所有密码子入选机会率中至少前50%的密码子确定为候选修饰密码子;5)变体候选核苷酸序列产生单元,所述变体候选核苷酸序列产生单元被设置为在所述亲本核苷酸序列的一个或多个所述候选修饰密码子处进行至少一个核苷酸修饰以获得一个或多个所述亲本核苷酸序列的变体候选核苷酸序列,所述核苷酸修饰不改变所述候选修饰密码子所编码的氨基酸残基;和6)优化核苷酸序列选择单元,所述优化核苷酸序列选择单元被设置为从所述变体候选核苷酸序列中选择所述优化的核苷酸序列。
在某些实施方式中,所述Ca-b至Ca+c包含至少2个连续三联体密码子。
在某些实施方式中,所述Ca-b至Ca+c包含至少6个连续三联体密码子。
在某些实施方式中,针对所述密码子Ca测算核糖体密度为预测在蛋白质翻译过程中该密码子位于核糖体A位时所进行的测算。
在某些实施方式中,所述连续三联体密码子Ca-b至Ca+c包含至少2个连续的三联体密码子,且所述滤过密码子筛选单元的所述第一模型在其中筛选出的滤过密码子的平均数量为Ca-b至Ca+c中密码子总数的约55%至约75%。
在某些实施方式中,当所述亲本核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,这些密码子中的一种或多种被选为所述候选修饰密码子。
在某些实施方式中,当所述亲本核苷酸序列中包含密码子CGG时,密码子CGG被选为所述候选修饰密码子。
在某些实施方式中,对于所述连续三联体密码子Ca-b至Ca+c中的每个密码子,所述滤过密码子筛选单元的所述第一模型决定是否将该密码子选为所述滤过密码子,所述第一模型包含第一循环神经网络模块和第二循环神经网络模块;其中对于每个所述密码子,所述第一循环神经网络模块获取该密码子的情境信息并将该信息提供给所述第二循环神经网络模块,且所述第二循环神经网络模块根据所述第一循环神经网络模块提供的所述情境信息决定是否将该密码子选为所述滤过密码子。
在某些实施方式中,所述第一循环神经网络模块为从正向和反向两个方向获取所述情境信息的双向循环神经网络模块。
在某些实施方式中,所述第一循环神经网络模块根据包括下述的信息表征所述密码子:所述密码子的类型和所述密码子在所述连续三联体密码子Ca-b至Ca+c中的位置信息。
在某些实施方式中,所述6)优化核苷酸序列选择单元包括:6a)表达水平测定单元,所述表达水平测定单元被设置为测定一个或多个所述变体候选核苷酸序列所编码的所述目的多肽或蛋白质在宿主细胞中的表达水平;和6b)优化核苷酸序列确定单元,所述优化核苷酸序列确定单元被设置为将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的变体候选核苷酸序列确定为所述优化的核苷酸序列。
在某些实施方式中,所述6)优化核苷酸序列选择单元包括:本申请其他部分所述的、用于确定所述变体候选核苷酸序列中编码目的多肽或蛋白质的优化的核苷酸序列的系统。
另一方面,本申请提供一种计算机存储介质,其包含计算机可执行指令,所述计算机可执行指令用于实现本申请所述的确定编码目的多肽或蛋白质的优化的核苷酸序列的方法的步骤。
另一方面,本申请提供一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现本申请所述的确定编码目的多肽或蛋白质的优化的核苷酸序列的方法的步骤
另一方面,本申请提供一种计算机设备,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中所述处理器执行所述计算机程序时实现本申请所述的确定编码目的多肽或蛋白质的优化的核苷酸序列的方法。
另一方面,本申请提供了一种制备目的多肽或蛋白质的方法,所述方法包括:将编码所述目的多肽或蛋白质的核酸分子引入宿主细胞中,以及在允许所述目的多肽或蛋白质表达的条件下培养所述宿主细胞;其中所述核酸分子包含根据本申请的方法或者系统所确定的编码所述目的多肽或蛋白质的优化的核苷酸序列。
另一方面,本申请提供了根据本申请的方法或者系统所确定的优化的核苷酸序列。
另一方面,本申请提供了本申请所述的方法或系统在优化目的多肽或蛋白质表达水平中的用途。
另一方面,本申请提供了根据本申请所述的方法或系统所确定的优化的核苷酸序列在优化目的多肽或蛋白质表达水平中的用途。
另一方面,本申请提供了优化目的多肽或蛋白质表达水平的方法,所述方法包括根据本申请所述的方法或系统确定编码所述目的多肽或蛋白质的优化的核苷酸序列。
本领域技术人员能够从下文的详细描述中容易地洞察到本公开的其它方面和优势。下文的详细描述中仅显示和描述了本公开的示例性实施方式。如本领域技术人员将认识到的,本公开的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本申请所涉及发明的精神和范围。相应地,本申请的附图和说明书中的描述仅仅是示例性的,而非为限制性的。
附图说明
本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明书如下:
图1显示的是本申请所述的第一模型和第二模型的工作流程示意图。
图2显示的是核糖体(梯形显示)和本申请的连续三联体密码子的示意图,其中编号为0的密码子为位于核糖体A位的密码子。
图3A显示的是不同种类的密码子被选为滤过密码子的比例。
图3B显示的是各密码子对于局部核糖体密度的影响。
图4显示的是不同种类的密码子对核糖体密度的贡献与其稀有程度的相关性。
图5显示的是本申请中使用的双色荧光检测系统的示意图。
图6显示的是eCitrine和mCherry平均荧光强度(mean fluorescence intensity,MFI)的比值。
图7显示的是优化的核苷酸序列中各密码子位置被选为滤过密码子的比例。
图8显示的是滤过密码子数量与核糖体密度测算表现之间的关系。
图9显示的是双色荧光酵母系统的代表性流式细胞结果。
具体实施方式
以下由特定的具体实施例说明本申请发明的实施方式,熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。
在本申请中,术语“包含”和“包括”都解释为包含在内。即这些词意指可包含上下文允许但没有具体描述的其它成分或部分。
在本申请中,术语“约”通常是指数量、水平、值、频率、百分比、尺度、大小或量相对参考数量、水平、值、频率、百分比、尺度、大小或量变化至多30%,例如至多20%,至多10%,至多9%,至多8%,至多7%,至多6%,至多5%,至多4%,至多3%,至多2%,至多1%或更低。
在本申请中,术语“优化的”通常是指与某一参比或标准相比,发生所希望的改变,这种改变可以是例如,提高或降低,可以是变好或变劣。在本申请中,当表示蛋白质或多肽的表达水平时,所述优化可以是所述表达水平的提高或降低。
在本申请中,术语“测算核糖体密度”通常是指至少部分地通过计算、或其他非实际测量手段而获得的核糖体密度值。
在本申请中,术语“测算核糖体密度之和”通常是指某多核苷酸序列中两个或更多个密码子处的测算核糖体密度的加和值。
在本申请中,术语“密码子”通常是指能够编码或者被用于编码特定氨基酸的相应核苷酸序列,通常由3个连续的核苷酸组成,也称为“三联体密码子”。DNA中的核苷酸代码有4种(A,T,C和G),用它们可拼出三个字母的“密码子”,这些密码子可对应于生物体的基因所编码的蛋白的氨基酸。沿核酸分子线性排列的密码子被翻译成所述核酸分子所编码的蛋白质中相应的氨基酸线性序列。密码子有高度的简并性,61种密码子编码20种天然氨基酸,3种密码子代表“终止”信号。因此,大部分氨基酸由一种以上的密码子编码,且数种氨基酸由4种或更多种不同的密码子编码。
密码子可被分为普通/优选密码子、中间密码子和罕见/稀有密码子。如果某密码子的使用频率高于标准使用频率的约120%,则可认为该密码子为普通/优选密码子。如果某密码子的使用频率低于标准使用频率的约70%,则可认为该密码子为罕见/稀有密码子。如果某密码子的使用频率位于普通/优选密码子和罕见/稀有密码子之间,则该密码子为中间密码子。其中,所述标准使用频率可以为当密码子使用中没有任何偏向性时所预期的密码子的使用频率。由于某个氨基酸可由例如,2、3、4或6个不同的密码子编码,任何特定密码子的使用频率取决于与该密码子编码相同氨基酸的同义密码子的数量。例如,对于有6种同义密码子可供选择的氨基酸,密码子使用中没有任何偏向性时所预期的密码子使用频率是16%,因此将使用频率大于20%、为10%至20%之间和低于10%的密码子分别称为“普通密码子”、“中间密码子”和“稀有密码子”。又例如,例如,对于有4种同义密码子可供选择的氨基酸,密码子使用中没有任何偏向性时所预期的密码子使用频率是25%,因此将使用频率大于33%、为16%至33%之间和低于16%的密码子分别称为“普通密码子”、“中间密码子”和“稀有密码子”。
在本申请中,在多核苷酸或核酸分子的情形中,术语“相应于”或“与...相应的”通常是指多核苷酸:(a)具有的核苷酸序列与所有或部分参比多核苷酸序列基本上相同或互补或(b)编码的氨基酸序列与参比肽或蛋白质中的氨基酸序列相同。此术语也包括肽或多肽,其具有的氨基酸序列与参比肽或蛋白质中的氨基酸序列基本上相同。
在本申请中,术语“表达”多核苷酸通常是指多核苷酸经转录而生成mRNA以及所编码的蛋白质产物。
在本申请中,术语“基因”在其最广泛的范围中使用时,通常是指对应于基因的基因组DNA区域以及对应于外显子或重组分子的cDNA序列,重组分子经工程改造成以编码有所需功能的产物。
在本申请中,术语“高表达基因”通常是指相对于其它基因表达较高水平mRNA的基因。例如,相比于其他基因表达较高水平蛋白质的基因。
在本申请中,术语“同功受体转运RNA”或“同工tRNA”通常是指1种或多种转运RNA,它们的反密码子核苷酸序列不同,但对于相同的氨基酸有特异性。
在本申请中,术语“寡核苷酸”通常是指由多个核苷酸单元(脱氧核糖核苷酸或核糖核苷酸,或相关结构的变体或其合成类似物)组成的聚合物,其中各核苷酸单元(或相关结构的变体或其合成类似物)经磷酸二酯键连接。寡核苷酸分子的确切大小可根据具体的应用目的而变化,例如约10个至约30个核苷酸,但此术语可指任何长度的分子。
在本申请中,术语“多核苷酸”、“核酸”与“核酸分子”可互换地使用,通常是指mRNA、RNA、cRNA、cDNA和/或DNA,例如,其可包含大于约30个核苷酸。
在本申请中,术语“蛋白质”、“肽段”与“多肽”可互换地使用,通常是指氨基酸残基聚合物和相关的变体或合成类似物。
在本申请中,术语“引物”通常是指与多核苷酸模板链配对时能够在适合的条件下引起核苷酸链延伸的起始寡核苷酸。引物通常是单链的,但是在某些情况下也可以是双链的。引物可以是任何合适的长度,但是其应当能够在合适的聚合试剂(例如,聚合酶)存在时引发延伸产物的合成。
在本申请中,术语“生成”和“产生”可互换地使用,通常是指蛋白或多肽产物的水平足以被检测或者足以影响与蛋白质相关的特定功能。
在本申请中,术语“分离的多核苷酸”与“合成多核苷酸”可互换地使用,通常是指体外或离体形成的多核苷酸,例如,通过执行某些操作而将多核苷酸与其存在的天然环境分离或者使其以通常不在天然环境中出现的形式存在。例如,所述合成多核苷酸可以存在于表达载体中,通常所述表达载体包括与所述合成多核苷酸可操作连接的转录调控元件和/或翻译调控元件。
在本申请中,术语“同义密码子”通常是指密码子的核苷酸序列与其他密码子不同,但编码的氨基酸与该其它密码子相同。
在本申请中,术语“密码子Ci”通常是指位于多核苷酸序列中第i位的密码子。例如,在包含6个连续密码子C1-C6或18个连续核苷酸的序列中,i可以是1-6中的任一项。例如,当i为1时,密码子Ci即为C6。
在本申请中,术语“模型”通常是指能够实现特定功能或者完成特定任务的计算机算法或程序,其将输入的信息或参数转换成所需的输出结果。所述输出结果可能是难以直接检测、或难以通过事先确定的明确规则直接计算得出的。例如,可将能够直接测量得到的事实或参数输入所述模型,所述模型执行其中的计算或转换后可输出另一些难以直接检测的事实或参数,例如,预测结果。
在本申请中,术语“算法”通常是指用于执行方法或解决问题的一组指令、程序或公式。
在本申请中,术语“滤过密码子”通常是指经筛选后得到的所需密码子,其通常是该次筛选中所输入的全部密码子中的一部分。所述筛选可以根据预先确定的规则进行,在这种情况下,所述滤过密码子为符合所述规则的、被选择的密码子。在某些情况下,所述筛选可由指定的设备或模型完成,此时,所述滤过密码子为由所述设备或模型输出的、显示被选择的密码子。在不同的筛选中(例如,当同一密码子位于不同长度或不同组成的核苷酸序列中时,或者当为了确定不同密码子的测算核糖体密度而进行不同的筛选时),给定的密码子可能在部分筛选中被选为滤过密码子,而在另一部分筛选中不被选为滤过密码子。在某些情形中,给定的密码子可能在大部分筛选中被选为滤过密码子,或者总是被选为滤过密码子。
在本申请中,术语“滤过密码子的平均数量”通常是指多次筛选中,所得到的滤过密码子数量的平均值。滤过密码子的平均数量可以是不小于零的任何数值,一般不为零,例如,可以为整数或非整数。例如,对于分别获得3个、4个和5个滤过密码子的三次筛选而言,其滤过密码子的平均数量为4个。又例如,对于分别获得2个、0个、4个、8个和5个滤过密码子的五次筛选而言,其滤过密码子的平均数量为3.8个。
在本申请中,术语“表征信息”通常是指能够表明对象的身份、特点或性质的信息。例如,所述表征信息可以是能够体现将该对象与其他对象区分开的一个或多个特征的信息以及这些信息的集合,例如,体现所述对象的一种或多种性质的参数。
在本申请中,术语“密码子Ci的测算核糖体密度”通常是一段核苷酸序列中,第i位的密码子Ci所对应的、经计算得出的核糖体密度值。例如,该密度值可以是当所述密码子Ci位于核糖体A位置时所对应的、计算得出的核糖体密度值。该核糖体密度值可表示密码子Ci处和/或其附近序列上的核糖体密度。例如,当密码子Ci位于核糖体的A位时,包含所述Ci的连续密码子或多核苷酸序列上的核糖体密度。
在本申请中,术语“位于核糖体A位”通常是指在多核苷酸(例如mRNA)被翻译为多肽或蛋白质的过程中,位于核糖体的受位。位于核糖体A位或受位的密码子能够与进入该核糖体A位的tRNA中的反密码子互补结合。
在本申请中,术语“机器学习”在其最广泛的意义上,通常是指计算机为完成某项任务而自动建立或改进某种模型、函数或计算方法的过程。例如,可根据计算结果的质量设置奖励和惩罚,并使计算机根据其获得的奖励和惩罚的反馈结果来调整其用于计算的模型、函数或计算方法。
在本申请中,术语“学习训练”通常是指为了使模型或算法的计算结果改善而反复使其执行某项任务或完成某个目标。例如,可以通过检测所述模型或算法的执行结果并将该结果反馈给所述模型或算法而对其进行训练。
在本申请中,术语“计算准确性指标”通常是指表明计算获得的结果与对应的正确结果或真实结果之间差异大小的指标或参数。
在本申请中,术语“反馈”通常是指将获得的结果提供给产生结果的一方(例如,模型)的行为。
在本申请中,术语“忽略密码子”通常是指源自其的信息被掩盖(mask)或忽略不计的那些密码子,例如在某次筛选中没有被选为滤过密码子的那些密码子。每次筛选的结果应当分别考量,例如,在某一次筛选中作为忽略密码子的密码子可以在包括该密码子的另一次筛选(例如,当其被包含于另一段核苷酸序列内时,或者当计算另一个密码子的测算核糖体密度时)中作为滤过密码子。
在本申请中,术语“编码的目的多肽或蛋白质的氨基酸序列相同”通常是指两个或多个不同的多核苷酸序列所编码的多肽或蛋白质中所包含的氨基酸残基的数目、顺序和类型均相同。在某些情形中,所述多肽或蛋白质可包含不同的修饰,例如,不同类型的糖基化修饰,甲基化修饰或其他翻译后修饰等。
在本申请中,术语“随机选择编码其的对应密码子”通常是指在可能编码某给定氨基酸的多个同义密码子中,随机挑选任一个密码子。
在本申请中,术语“动态规划”通常是指一种解决问题的方法,该方法可包括将问题进行拆分,定义问题的状态与状态之间的关系,使得问题能够以递推/分治的方式得到解决。例如,可将决策过程划分为多个阶段来依次求解,每次的决策依赖于当前状态,又随即引起状态的转移,从而在变化的状态中最终获得最优的解决方案。例如,可以将待求解的问题分解为若干个子问题或子阶段,按顺序依次对子阶段进行求解,前一子问题的解,为后一子问题的求解提供了有用的信息。在求解任一子问题时,列出各种可能的局部解,通过决策保留那些有可能达到最优的局部解,丢弃其他局部解。依次解决各子问题,而最后一个子问题可以为初始问题的解。
在本申请中,术语“循环神经网络”通常是指Recurrent Neural Network或RNN,其为一种人工神经网络。例如,其可以是以序列数据为输入、在数据的推进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neuralnetwork)。
在本申请中,术语“双向循环神经网络模块”通常是指从正向和反向均进行递归的循环神经网络模块。例如,每一个训练序列向前和向后分别是两个循环神经网络,而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的情境信息。
在本申请中,术语“情境信息”通常是指体现给定对象周围环境的信息,和/或表明给定对象与其所处环境之间关系的信息。例如,在多核苷酸序列中,某密码子或序列的情境信息可包括该密码子或序列本身的特征信息,也可包括能体现该密码子或序列之前和/或之后的序列特征的信息。又例如,在多核苷酸序列中,某密码子或序列的情境信息还可包括体现对该密码子或序列产生影响的其他环境因素的信息。
在本申请中,术语“密码子的类型”通常是指该密码子属于哪一种类型的三联体密码子。通常,每一种类型的三联体密码子对应一组唯一的核苷酸组合。
在本申请中,术语“密码子的位置信息”通常是指表明在包含该密码子的多核苷酸序列中,该密码子处于第几位的信息。例如,在包含连续密码子C1-C6的多核苷酸序列中,密码子C2位于第2位,能体现这一特征的信息即为密码子C2的位置信息。
在本申请中,术语“滤过密码子的特征信息”通常是指能够用于对滤过密码子进行表征的信息。针对不同的目的和应用场景,可选择不同的参数和/或信息用于对滤过密码子进行表征。
在本申请中,术语“亲本核苷酸序列”通常是指希望对其进行优化的初始的核苷酸序列。所述亲本核苷酸序列可以是未经过任何优化的序列,也可以是已经经过一次或多次优化但仍希望对其进行进一步优化的多核苷酸序列。
在本申请中,术语“入选机会率”通常是指某给定密码子在涉及其的多次筛选中被选择为滤过密码子的比例或比率。例如,在对包含密码子Ci的不同多核苷酸序列进行的6次不同筛选中,该密码子Ci有1次被选为滤过密码子,则密码子Ci的入选机会率为约16.7%或者约17%。所述入选机会率可以是0%至100%之间的任何数值。
在本申请中,术语“候选修饰密码子”通常是指将对其进行修饰的候选密码子。例如,通过本申请所述方法的筛选被认为将对多核苷酸序列的优化有较大影响的密码子可以被认为是将被修饰的候选密码子。可以对一个或多个候选修饰密码子进行修饰。
在本申请中,术语“核苷酸修饰”通常是指改变核苷酸的类型,例如从4种核苷酸类型A、T、C、G中选择一种以替换另一种从而改变三联体密码子的核苷酸组成,但是不改变其编码的氨基酸类型。
在本申请中,术语“变体候选核苷酸序列”通常是指经修饰后区别于亲本核苷酸序列的变体核苷酸序列,其可作为优化的多核苷酸序列的候选序列之一来参与后续的筛选。
在本申请中,术语“候选核苷酸序列提供单元”通常是指用于提供候选核苷酸序列的功能单元,例如装置、设备、组件、区域和/或部分等。该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“候选核苷酸序列评价单元”通常是指能够对候选核苷酸序列的一种或多种性质或能力进行评价的功能单元,例如装置、设备、组件、区域和/或部分等。该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“优化核苷酸序列确定单元”通常是指用于从多个候选核苷酸序列中选择出优化的核苷酸序列和/或确定优化的核苷酸序列的组成的功能单元,例如装置、设备、组件、区域和/或部分等。该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“核糖体密度测算模块”通常是指用于测算出一个或多个密码子处的核糖体密度的功能单元,例如装置、设备、组件、区域和/或部分等。该单元可包括一个或多个用于检测、收集和/或计算用于确定所述核糖体密度的参数或信息的亚单元或亚结构。该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“亲本核苷酸序列提供单元”通常是指用于提供亲本核苷酸序列的功能单元,例如装置、设备、组件、区域和/或部分等。该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“滤过密码子筛选单元”通常是指用于对多核苷酸序列中的密码子进行筛选,从而选择确定其中的滤过密码子的功能单元,例如装置、设备、组件、区域和/或部分等。该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“入选机会率计算单元”通常是指用于计算给定密码子被选为滤过密码子的入选机会率的功能单元,例如装置、设备、组件、区域和/或部分等该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“候选修饰密码子确定单元”通常是指用于对多核苷酸序列中的密码子进行筛选,从而选择确定其中潜在适于进行修饰的候选密码子的功能单元,例如装置、设备、组件、区域和/或部分等。该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“变体候选核苷酸序列产生单元”通常是指用于在亲本核苷酸序列中的一个或多个候选修饰密码子处引入一个或多个核苷酸修饰,从而产生一个或多个该亲本核苷酸序列的变体核苷酸序列的功能单元,例如装置、设备、组件、区域和/或部分等。该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“表达水平测定单元”通常是指用于检测和/或确定多核苷酸序列编码的蛋白质或多肽产物的表达水平(例如,表达量)的功能单元,例如装置、设备、组件、区域和/或部分等。该单元可以是本申请所述系统的组成部分,也可以独立地存在。
在本申请中,术语“计算机存储介质”通常是指包括具有实施在其上的指令程序的软件、硬件或它们的组合。
确定优化核苷酸序列的方法
一方面,本申请提供了一种用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法。其中,可针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对多核苷酸序列进行优化,或者根据其编码的目的多肽或蛋白质在宿主细胞中的表达水平来确定何种核苷酸序列为优化的序列。所述方法可包括:1)产生多个编码所述目的多肽或蛋白质的候选核苷酸序列;2)基于所述候选核苷酸序列中所有密码子的测算核糖体密度之和来评价所述候选核苷酸序列对所述目的多肽或蛋白质在宿主细胞中的所述表达水平的影响;以及3)将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的候选核苷酸序列确定为所述优化的核苷酸序列。在施用该方法的过程中,对于给定的候选核苷酸序列,可依次计算该序列中的各个密码子所对应的测算核糖体密度,并将针对多个连续密码子的测算核糖体密度依次相加以获得所述测算核糖体密度之和。例如,对于包含密码子C1-C6的给定多核苷酸序列,可依次确定密码子C1-C6的测算核糖体密度D1-D6,则D1+D2+...+D6的值即为由密码子C1至C6组成的该给定多核苷酸序列的测算核糖体密度。
在本申请的方法中,所述多个候选核苷酸序列所编码的多肽或蛋白质的氨基酸序列可以是相同的。例如,所述多个候选核苷酸序列所编码的多肽或蛋白质可以完全相同,或者可以具有相同的氨基酸序列,但是在某些部分可各自具有其他修饰(例如,含有不同的糖基化修饰,包含不同的缀合物,或者具有某些不影响氨基酸序列的其他修饰)。
在确定给定密码子的测算核糖体密度时,对于任一所述候选核苷酸序列中第i位的三联体密码子Ci,可以取包含所述Ci的连续三联体密码子Ci-n至Ci+m,通过第一模型筛选所述连续三联体密码子Ci-n至Ci+m中适于用来进行所述Ci的测算核糖体密度计算的密码子作为滤过密码子,将所述滤过密码子的表征信息提供给第二模型并通过所述第二模型计算得出所述密码子Ci的测算核糖体密度。i可以为不小于1的正整数,且n、m可以各自独立地为不小于零的整数。
例如,为了确定连续三联体密码子Ci-n至Ci+m中密码子Ci的测算核糖体密度,可以将包括该(i-n+i+m-1)个密码子Ci-n至Ci+m的多核苷酸序列提供给所述第一模型。所述第一模型从连续密码子Ci-n至Ci+m中筛选部分密码子作为滤过密码子来计算所述Ci的测算核糖体密度。然后,将这些滤过密码子的表征信息提供给第二模型,所述第二模型根据这些信息和/或其他信息计算得出所述密码子Ci的测算核糖体密度。在一个具体实例中,为了确定连续三联体密码子C1-C6中密码子C4的测算核糖体密度,可以将包括该6个密码子C1-C6的多核苷酸序列提供给所述第一模型,这时候,Ci为C4,C1为4-3(即n为3,i-n为1),C6为4+2(即m为2,i+m为6)。所述第一模型从密码子C1-C6中筛选部分密码子作为滤过密码子来计算所述C4的测算核糖体密度。然后,将这些滤过密码子的表征信息提供给第二模型,所述第二模型根据这些信息和/或其他信息计算得出所述密码子C4的测算核糖体密度。
在本申请中,连续密码子Ci-n至Ci+m可包含至少2个连续三联体密码子,例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个或更多个连续三联体密码子。
在确定密码子Ci的测算核糖体密度时,所述密码子Ci可位于核糖体A位,例如在将连续密码子Ci-n至Ci+m翻译为蛋白质或多肽的过程中,预测密码子Ci将位于核糖体的A位时该核苷酸序列Ci-n至Ci+m上的核糖体密度,或者该密码子Ci附近的多核苷酸序列上的核糖体密度。
针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对多核苷酸序列进行优化,可以是为了使该目的多肽或蛋白质的表达水平提高或者降低。当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平提高时,可以将所述测算核糖体密度之和最小的候选核苷酸序列确定为所述优化的核苷酸序列。在另一些情况下,当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平降低时,可以将所述测算核糖体密度之和最大的候选核苷酸序列确定为所述优化的核苷酸序列。
可通过机器学习,例如强化学习的方式来形成和训练所述第一模型和所述第二模型。例如,所述第一模型及所述第二模型均可通过机器学习算法产生。此外,在所述第一模型的学习训练过程中,可使用所述第二模型的计算准确性指标作为表明所述第一模型计算质量的反馈结果提供给所述第一模型。例如,可通过设计合理的奖励机制,利用强化学习方法对所述第一模型进行训练。在某些情形中,当希望选择的滤过密码子产生高质量结果(例如,对目的多肽或蛋白质的表达水平有较大影响)时,可以在奖励机制中引入预测效能衡量L,以使得所述第一模型筛选出的滤过密码子与第二模型执行的任务高度相关。在某些情形中,还希望保证滤过密码子的稀疏性(例如,不希望所有的密码子均被选择为滤过密码子),因此可增加对滤过密码子稀疏性的约束L1。当希望选择的滤过密码子产生高质量结果且同时有稀疏性时,可以在奖励机制中同时引入所述预测效能衡量L和所述稀疏性约束L1。例如,在训练的过程中,可以使得所述第一模型与所述第二模型的优化相辅相成。一方面,通过所述第一模型选择出更优的滤过密码子可以使得所述第二模型的训练更高效;另一方面,更有效的所述第二模型可以通过更准确的奖励使得所述第一模型的优化更为合理。
在对所述第一模型进行训练时,可以采用例如Williams,1992中所述的REINFORCE强化学习算法。例如,在对所述第一模型进行训练时,可以对每个样本进行至少2次(例如,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)采样,并将所述多次采样的平均奖励值作为基线值从作为结果的奖励值中减去,低于所述基线的奖励值对应的动作采样将被舍弃,例如可参照Liu et al.,2018,2017;Mou et al.,2017中描述的方法进行。本申请中所述第一模型和/或第二模型的实现可基于例如,pytorch 0.3.1(https://github.com/pytorch),并可使用例如NVIDIA's GeForce GTX1080 GPU进行加速。
在本申请的方法中,所述连续三联体密码子Ci-n至Ci+m可包含至少2个(例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个,至少11个或更多)连续的三联体密码子。平均而言,所述第一模型从所述连续三联体密码子Ci-n至Ci+m中筛选出的滤过密码子的数量可以少于Ci-n至Ci+m中包含的密码子的总数。例如,平均而言,所述第一模型从所述连续三联体密码子Ci-n至Ci+m中筛选出的滤过密码子的数量可以为所述Ci-n至Ci+m中密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
例如,在某次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均被所述第一模型选为滤过密码子。又例如,在另一次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均未被所述第一模型选为滤过密码子。然而,在进行过多次(例如,至少2次,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)筛选之后,所述第一模型所筛选出的滤过密码子的平均数量可以不为零,例如可以为所输入的多核苷酸序列中所有密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
在本申请的方法中,没有被所述第一模型选为滤过密码子的密码子可以为忽略密码子。在某一次筛选中作为忽略密码子的密码子可以在另一次不同的筛选(例如,当输入的多核苷酸序列的长度或组成不同时,或者例如当为了确定另一个密码子的测算核糖体密度而筛选滤过密码子时)中作为滤过密码子。当所述第二模型根据第一模型提供的信息计算核糖体密度时,可以忽略或者掩盖来自于所述忽略密码子的信息。
在本申请的方法中,当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸中一种或多种的一种或多种密码子在至少一次筛选中可以被所述第一模型选为滤过密码子。在某些情形中,当编码所述目的多肽或蛋白质的一个或多个所述候选核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,那么这些密码子中的一种或多种可在至少一次筛选中被所述第一模型选为滤过密码子。在某些情形中,当所述候选核苷酸序列中包含密码子CGG时,密码子CGG在至少一次筛选中可以被所述第一模型选为滤过密码子。在某些情形中,只要输入所述第一模型的多核苷酸序列中包含密码子CGG,则其可以总是被选为滤过密码子。在某些情形中,当所述连续三联体密码子Ci-n至Ci+m中包含密码子CGG时,密码子CGG可以被所述第一模型选为滤过密码子。
在本申请所述的方法中,产生多个编码所述目的多肽或蛋白质的候选核苷酸序列可包括:对于所述目的多肽或蛋白质的每一个氨基酸残基,随机选择编码其的对应密码子;以及根据各氨基酸残基在所述目的多肽或蛋白质氨基酸序列中的位置顺序相应地排列所选择的所述对应密码子以获得编码所述目的多肽或蛋白质的候选核苷酸序列。例如,当已知或提供了目的多肽或蛋白质的氨基酸序列后,对于其包含的每一个氨基酸都可以穷举编码该氨基酸的所有同义密码子,然后可以从这些同义密码子中随机挑选密码子,并依据其所编码的氨基酸在所述多肽或蛋白质中的位置来排列或放置所挑选的密码子。例如,在某个具体实例中,目的多肽或蛋白质中第x位(例如,第1位,第2位,第3位...)的氨基酸为Ax,能够编码Ax的密码子包括Cxa,Cxb和Cxc,那么在产生编码所述目的多肽或蛋白质的某个具体的候选核苷酸序列时,可以从所述Cxa,Cxb和Cxc中任意挑选一个密码子使其成为所述候选核苷酸序列中对应的第x位(例如,第1位,第2位,第3位...)的密码子。
在本申请的所述方法中,可以通过动态规划来确定所述测算核糖体密度之和最小的候选核苷酸序列和/或所述测算核糖体密度之和最大的候选核苷酸序列。例如,当优化的目标是使所述多肽或蛋白质在宿主细胞中的表达水平提高时,所确定的优化(或最优)的核苷酸序列可以是该序列中所有密码子的测算核糖体密度之和最小的候选核苷酸序列。例如,可以按照核糖体的翻译顺序从前向后(例如,从5’端向3’端)确定各候选核苷酸序列中每个密码子的测算核糖体密度以及各密码子的测算核糖体密度之和,从而,例如通过动态规划算法将所述测算核糖体密度之和最小的候选核苷酸序列确定为优化(最优)的核苷酸序列。又例如,当优化的目标是使所述多肽或蛋白质在宿主细胞中的表达水平降低时,所确定的优化(或最优)的核苷酸序列可以是该序列中所有密码子的测算核糖体密度之和最大的候选核苷酸序列。例如,可以按照核糖体的翻译顺序从前向后(例如,从5’端向3’端)确定各候选核苷酸序列中每个密码子的测算核糖体密度以及各密码子的测算核糖体密度之和,从而,例如通过动态规划算法将所述测算核糖体密度之和最大的候选核苷酸序列确定为优化(最优)的核苷酸序列。
在本申请的某些方法中,编码所述目的多肽或蛋白质的候选核苷酸序列不是通过穷举产生的,例如,是基于亲本核苷酸序列并在其中限定的位置上进行核苷酸修饰或突变而产生的。这样能够进一步提高所述方法的效率,避免了许多不必要的改变,并最大程度上保留了原序列的特征。
因此,在一些方面,本申请提供了用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法,其中可以针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对所述核苷酸序列进行优化。所述方法可包括:1)提供编码所述目的多肽或蛋白质的亲本核苷酸序列,所述亲本核苷酸序列包含连续三联体密码子C1至Cx;2)对于所述亲本核苷酸序列中第a位的三联体密码子Ca,取包含所述Ca的连续三联体密码子Ca-b至Ca+c,通过第一模型筛选所述连续三联体密码子Ca-b至Ca+c中适于用来进行所述密码子Ca的测算核糖体密度计算的密码子作为滤过密码子,其中所述a为1至x之间的任意正整数,且所述b、c各自独立地为不小于零的整数;3)重复步骤2)直至对于所述C1至Cx中的每个密码子,均筛选出了适于用来进行该密码子的测算核糖体密度计算的所述滤过密码子;4)计算所述亲本核苷酸序列中的每个密码子被选为滤过密码子的比例,得到每个所述密码子的入选机会率;5)将其入选机会率为所述亲本核苷酸序列所有密码子入选机会率中至少前50%的密码子确定为候选修饰密码子。然后,可以在所述亲本核苷酸序列的一个或多个所述候选修饰密码子处进行至少一个核苷酸修饰以获得所述亲本核苷酸序列的一个或多个变体候选核苷酸序列,所述核苷酸修饰不改变所述候选修饰密码子所编码的氨基酸残基。所述方法还可包括从所述变体候选核苷酸序列中选择所述优化的核苷酸序列。
在针对不同密码子(例如,核糖体从核苷酸序列5’端至3’端的翻译过程中,位于核糖体A位的不同密码子)进行测算核糖体密度计算时,某个给定的密码子可能不止一次地被包括在输入给所述第一模型的多核苷酸序列中从而经历数次筛选过程。在某些筛选中,该给定密码子可能被选为滤过密码子,而在另外一些筛选中,该给定密码子可能没有被选为滤过密码子,那么在若干次的筛选后,该密码子被选为滤过密码子的比例则为该密码子的入选机会率。在所有的密码子中,将入选机会率高(例如,为所述亲本核苷酸序列各密码子的入选机会率中至少前50%(例如,至少前55%,至少前60%,至少前65%,至少前70%,至少前75%,至少前80%,至少前81%,至少前82%,至少前83%,至少前84%,至少前85%,至少前86%,至少前87%,至少前88%,至少前89%,至少前90%,至少前91%,至少前92%,至少前93%,至少前94%,至少前95%,至少前96%或更高)的密码子选为候选修饰密码子。
在本申请中,所述Ca-b至Ca+c可包含至少2个(例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个,至少11个或更多)连续三联体密码子。
在针对密码子Ca的测算核糖体密度确定滤过密码子时,所述密码子Ca可位于核糖体A位,例如在将连续密码子Ca-b至Ca+c翻译为蛋白质或多肽的过程中,预测密码子Ca将位于核糖体的A位时进行的测算。
平均而言,所述第一模型从所述连续三联体密码子Ca-b至Ca+c中筛选出的滤过密码子的数量可以少于Ca-b至Ca+c中包含的密码子的总数。例如,平均而言,所述第一模型从所述连续三联体密码子Ca-b至Ca+c中筛选出的滤过密码子的数量可以为所述Ca-b至Ca+c中密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
例如,在某次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均被所述第一模型选为滤过密码子。又例如,在另一次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均未被所述第一模型选为滤过密码子。然而,在进行过多次(例如,至少2次,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)筛选之后,所述第一模型所筛选出的滤过密码子的平均数量可以不为零,例如可以为所输入的多核苷酸序列中所有密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
在本申请的方法中,当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸中一种或多种的一种或多种密码子在至少一次筛选中可以被所述第一模型选为滤过密码子。在某些情形中,当编码所述目的多肽或蛋白质的亲本核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,那么这些密码子中的一种或多种可在至少一次筛选中被所述第一模型选为滤过密码子。在某些情形中,当所述亲本核苷酸序列中包含密码子CGG时,密码子CGG在至少一次筛选中可以被所述第一模型选为滤过密码子。在某些情形中,只要输入所述第一模型的多核苷酸序列中包含密码子CGG,则其可以总是被选为滤过密码子。在某些情形中,当所述连续三联体密码子Ca-b至Ca+c中包含密码子CGG时,密码子CGG可以被所述第一模型选为滤过密码子。
在本申请的方法中,当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸中一种或多种的一种或多种密码子可以被选为所述候选修饰密码子。在某些情形中,当编码所述目的多肽或蛋白质的亲本核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,那么这些密码子中的一种或多种可以被选为所述候选修饰密码子。在某些情形中,当所述亲本核苷酸序列中包含密码子CGG时,密码子CGG可以被选为候选修饰密码子。
在确定了作为修饰对象的候选修饰密码子后,可对所述候选修饰密码子中的一个或多个进行核苷酸修饰来获得变体候选核苷酸序列,例如,通过将一个或多个候选修饰密码子改变为其同义密码子。这样的修饰通常不改变密码子所编码的氨基酸,而只是同义密码子之间的替换。例如,可以确定亲本核苷酸序列中一个或多个候选修饰密码子所编码的氨基酸,对可能编码该氨基酸的所有同义密码子进行穷举,然后从这些同义密码子中随机挑选密码子来替换其所对应的候选修饰密码子。当一个所述随机挑选的密码子与某候选修饰密码子编码相同的氨基酸时,可以认为二者之间是对应关系。例如,在某个具体实例中,目的多肽或蛋白质中第x位(例如,第1位,第2位,第3位...)的氨基酸为Ax,亲本核苷酸序列中编码所述Ax的密码子Cxa被选为候选修饰密码子,编码所述Ax的同义密码子还包括例如Cxb和Cxc,则在产生变体候选核苷酸序列时,可以从所述Cxb和Cxc中任意挑选一个密码子来替换所述Cxa。
在获得多个变体候选核苷酸序列后,可以通过各种不同的方式从所述变体候选核苷酸序列中选择优化的核苷酸序列。
例如,在某些情形中,可以测定一个或多个所述变体候选核苷酸序列所编码的所述目的多肽或蛋白质在宿主细胞中的表达水平,从而根据表达水平的高低确定所需的优化核苷酸序列。例如,可以通过荧光基因报告体系使得能够通过检测荧光水平来判断和/或比较蛋白或多肽的表达水平差异。在某些情形中,可以通过比较目的蛋白或多肽与参比蛋白或多肽表达水平的差异或比例来判断各(变体)候选核苷酸序列所编码的蛋白/多肽表达水平间的相对高低。可以将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的变体候选核苷酸序列确定为所述优化的核苷酸序列。例如,当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平提高时,可以选择测量显示表达水平高的相应变体候选核苷酸序列作为优化的核苷酸序列。又例如,当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平降低时,可以选择测量显示表达水平低的相应变体候选核苷酸序列作为优化的核苷酸序列。
在某些情形中,可以通过计算的方法,或者通过将计算与实际表达水平测定相结合的方法从所述变体候选核苷酸序列中选择所述优化的核苷酸序列。
例如,可以基于所述变体候选核苷酸序列中所有密码子的测算核糖体密度之和来评价所述变体候选核苷酸序列对所述目的多肽或蛋白质在宿主细胞中的所述表达水平的影响;以及将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的变体候选核苷酸序列确定为所述优化的核苷酸序列。在施用该方法的过程中,对于给定的变体候选核苷酸序列,可依次计算该序列中的各个密码子所对应的测算核糖体密度,并将针对多个连续密码子的测算核糖体密度依次相加以获得所述测算核糖体密度之和。例如,对于包含密码子C1-C6的给定多核苷酸序列,可依次确定密码子C1-C6的测算核糖体密度D1-D6,则D1+D2+...+D6的值即为由密码子C1至C6组成的该给定多核苷酸序列的测算核糖体密度。
在本申请的方法中,所述多个变体候选核苷酸序列所编码的多肽或蛋白质的氨基酸序列可以是相同的。例如,所述多个变体候选核苷酸序列所编码的多肽或蛋白质可以完全相同,或者可以具有相同的氨基酸序列,但是在某些部分可各自具有其他修饰(例如,含有不同的糖基化修饰,包含不同的缀合物,或者具有某些不影响氨基酸序列的其他修饰)。
在确定给定密码子的测算核糖体密度时,对于任一所述变体候选核苷酸序列中第i位的三联体密码子Ci,可以取包含所述Ci的连续三联体密码子Ci-n至Ci+m,通过第一模型筛选所述连续三联体密码子Ci-n至Ci+m中适于用来进行所述Ci的测算核糖体密度计算的密码子作为滤过密码子,将所述滤过密码子的表征信息提供给第二模型并通过所述第二模型计算得出所述密码子Ci的测算核糖体密度。i可以为不小于1的正整数,且n、m可以各自独立地为不小于零的整数。
例如,为了确定连续三联体密码子Ci-n至Ci+m中密码子Ci的测算核糖体密度,可以将包括该(i-n+i+m-1)个密码子Ci-n至Ci+m的多核苷酸序列提供给所述第一模型。所述第一模型从连续密码子Ci-n至Ci+m中筛选部分密码子作为滤过密码子来计算所述Ci的测算核糖体密度。然后,将这些滤过密码子的表征信息提供给第二模型,所述第二模型根据这些信息和/或其他信息计算得出所述密码子Ci的测算核糖体密度。在一个具体实例中,为了确定连续三联体密码子C1-C6中密码子C4的测算核糖体密度,可以将包括该6个密码子C1-C6的多核苷酸序列提供给所述第一模型,这时候,Ci为C4,C1为4-3(即n为3,i-n为1),C6为4+2(即m为2,i+m为6)。所述第一模型从密码子C1-C6中筛选部分密码子作为滤过密码子来计算所述C4的测算核糖体密度。然后,将这些滤过密码子的表征信息提供给第二模型,所述第二模型根据这些信息和/或其他信息计算得出所述密码子C4的测算核糖体密度。
所述连续密码子Ci-n至Ci+m可包含至少2个连续三联体密码子,例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个或更多个连续三联体密码子。
在确定密码子Ci的测算核糖体密度时,所述密码子Ci可位于核糖体A位,例如在将连续密码子Ci-n至Ci+m翻译为蛋白质或多肽的过程中,预测密码子Ci将位于核糖体的A位时该核苷酸序列Ci-n至Ci+m上的核糖体密度,或者该密码子Ci附近的多核苷酸序列上的核糖体密度。
针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对多核苷酸序列进行优化,可以是为了使该目的多肽或蛋白质的表达水平提高或者降低。当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平提高时,可以将所述测算核糖体密度之和最小的变体候选核苷酸序列确定为所述优化的核苷酸序列。在另一些情况下,当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平降低时,可以将所述测算核糖体密度之和最大的变体候选核苷酸序列确定为所述优化的核苷酸序列。
可通过机器学习,例如强化学习的方式来形成和训练所述第一模型和所述第二模型。例如,所述第一模型及所述第二模型均可通过机器学习算法产生。此外,在所述第一模型的学习训练过程中,可使用所述第二模型的计算准确性指标作为表明所述第一模型计算质量的反馈结果提供给所述第一模型。例如,可通过设计合理的奖励机制,利用强化学习方法对所述第一模型进行训练。在某些情形中,当希望选择的滤过密码子产生高质量结果(例如,对目的多肽或蛋白质的表达水平有较大影响)时,可以在奖励机制中引入预测效能衡量L,以使得所述第一模型筛选出的滤过密码子与第二模型执行的任务高度相关。在某些情形中,还希望保证滤过密码子的稀疏性(例如,不希望所有的密码子均被选择为滤过密码子),因此可增加对滤过密码子稀疏性的约束L1。当希望选择的滤过密码子产生高质量结果且同时有稀疏性时,可以在奖励机制中同时引入所述预测效能衡量L和所述稀疏性约束L1。例如,在训练的过程中,可以使得所述第一模型与所述第二模型的优化相辅相成。一方面,通过所述第一模型选择出更优的滤过密码子可以使得所述第二模型的训练更高效;另一方面,更有效的所述第二模型可以通过更准确的奖励使得所述第一模型的优化更为合理。
在对所述第一模型进行训练时,可以采用例如Williams,1992中所述的REINFORCE强化学习算法。例如,在对所述第一模型进行训练时,可以对每个样本进行至少2次(例如,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)采样,并将所述多次采样的平均奖励值作为基线值从作为结果的奖励值中减去,低于所述基线的奖励值对应的动作采样将被舍弃,例如可参照Liu et al.,2018,2017;Mou et al.,2017中描述的方法进行。本申请中所述第一模型和/或第二模型的实现可基于例如,pytorch 0.3.1(https://github.com/pytorch),并可使用例如NVIDIA's GeForce GTX1080 GPU进行加速。
在本申请的方法中,所述连续三联体密码子Ci-n至Ci+m可包含至少2个(例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个,至少11个或更多)连续的三联体密码子。平均而言,所述第一模型从所述连续三联体密码子Ci-n至Ci+m中筛选出的滤过密码子的数量可以少于Ci-n至Ci+m中包含的密码子的总数。例如,平均而言,所述第一模型从所述连续三联体密码子Ci-n至Ci+m中筛选出的滤过密码子的数量可以为所述Ci-n至Ci+m中密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
例如,在某次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均被所述第一模型选为滤过密码子。又例如,在另一次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均未被所述第一模型选为滤过密码子。然而,在进行过多次(例如,至少2次,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)筛选之后,所述第一模型所筛选出的滤过密码子的平均数量可以不为零,例如可以为所输入的多核苷酸序列中所有密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
没有被所述第一模型选为滤过密码子的密码子可以为忽略密码子。在某一次筛选中作为忽略密码子的密码子可以在另一次不同的筛选(例如,当输入的多核苷酸序列的长度或组成不同时,或者例如当为了确定另一个密码子的测算核糖体密度而筛选滤过密码子时)中作为滤过密码子。当所述第二模型根据第一模型提供的信息计算核糖体密度时,可以忽略或者掩盖来自于三联体密码子Ci-n至Ci+m中所述忽略密码子的信息(例如,表征信息)。
当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸的一种或多种密码子可以在至少一次筛选中被所述第一模型选为滤过密码子。当所述变体候选核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,这些密码子中的一种或多种可以在至少一次筛选中被所述第一模型选为滤过密码子。当所述变体候选核苷酸序列中包含密码子CGG时,密码子CGG可以在至少一次筛选中被所述第一模型选为滤过密码子。当所述连续三联体密码子Ci-n至Ci+m中包含密码子CGG时,密码子CGG可以被所述第一模型选为滤过密码子。在某些情形中,只要输入所述第一模型的多核苷酸序列中包含密码子CGG,则其可以总是被选为滤过密码子。在某些情形中,当所述连续三联体密码子Ci-n至Ci+m中包含密码子CGG时,密码子CGG可以被所述第一模型选为滤过密码子。
在本申请的所述方法中,可以通过动态规划来确定所述测算核糖体密度之和最小的变体变体候选核苷酸序列和/或所述测算核糖体密度之和最大的变体变体候选核苷酸序列。例如,当优化的目标是使所述多肽或蛋白质在宿主细胞中的表达水平提高时,所确定的优化(或最优)的核苷酸序列可以是该序列中所有密码子的测算核糖体密度之和最小的变体变体候选核苷酸序列。例如,可以按照核糖体的翻译顺序从前向后(例如,从5’端向3’端)确定各变体候选核苷酸序列中每个密码子的测算核糖体密度以及各密码子的测算核糖体密度之和,从而,例如通过动态规划算法将所述测算核糖体密度之和最小的变体候选核苷酸序列确定为优化(最优)的核苷酸序列。又例如,当优化的目标是使所述多肽或蛋白质在宿主细胞中的表达水平降低时,所确定的优化(或最优)的核苷酸序列可以是该序列中所有密码子的测算核糖体密度之和最大的变体候选核苷酸序列。例如,可以按照核糖体的翻译顺序从前向后(例如,从5’端向3’端)确定各变体候选核苷酸序列中每个密码子的测算核糖体密度以及各密码子的测算核糖体密度之和,从而,例如通过动态规划算法将所述测算核糖体密度之和最大的变体候选核苷酸序列确定为优化(最优)的核苷酸序列。
确定优化核苷酸序列的系统
另一方面,本申请提供了用于确定编码目的多肽或蛋白质的优化的核苷酸序列的系统。其中,可针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对多核苷酸序列进行优化,或者根据其编码的目的多肽或蛋白质在宿主细胞中的表达水平来确定何种核苷酸序列为优化的序列。所述系统可包括:1)候选核苷酸序列提供单元,所述候选核苷酸序列提供单元被设置为产生多个编码所述目的多肽或蛋白质的候选核苷酸序列;2)候选核苷酸序列评价单元,所述候选核苷酸序列评价单元被设置为基于所述候选核苷酸序列中所有密码子的测算核糖体密度之和来评价所述候选核苷酸序列对所述目的多肽或蛋白质在宿主细胞中的所述表达水平的影响;以及3)优化核苷酸序列确定单元,所述优化核苷酸序列确定单元被设置为将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的候选核苷酸序列确定为所述优化的核苷酸序列。
对于给定的候选核苷酸序列,所述候选核苷酸序列评价单元可依次计算该序列中的各个密码子所对应的测算核糖体密度,并将针对多个连续密码子的测算核糖体密度依次相加以获得所述测算核糖体密度之和。例如,对于包含密码子C1-C6的给定多核苷酸序列,可依次确定密码子C1-C6的测算核糖体密度D1-D6,则D1+D2+...+D6的值即为由密码子C1至C6组成的该给定多核苷酸序列的测算核糖体密度。
所述多个候选核苷酸序列所编码的多肽或蛋白质的氨基酸序列可以是相同的。例如,所述多个候选核苷酸序列所编码的多肽或蛋白质可以完全相同,或者可以具有相同的氨基酸序列,但是在某些部分可各自具有其他修饰(例如,含有不同的糖基化修饰,包含不同的缀合物,或者具有某些不影响氨基酸序列的其他修饰)。
在本申请所述的系统中,所述候选核苷酸序列评价单元中可包括核糖体密度测算模块,所述核糖体密度测算模块可包括第一模型和第二模型,其中所述核糖体密度测算模块被设置为对于任一所述候选核苷酸序列中第i位的三联体密码子Ci,取包含所述Ci的连续三联体密码子Ci-n至Ci+m,通过所述第一模型筛选所述连续三联体密码子Ci-n至Ci+m中适于用来进行所述Ci的测算核糖体密度计算的密码子作为滤过密码子,将所述滤过密码子的表征信息提供给第二模型并通过所述第二模型计算得出所述密码子Ci的测算核糖体密度,其中i为不小于1的正整数,且n、m各自独立地为不小于零的整数。
例如,为了确定连续三联体密码子Ci-n至Ci+m中密码子Ci的测算核糖体密度,可以将包括该(i-n+i+m-1)个密码子Ci-n至Ci+m的多核苷酸序列提供给所述核糖体密度测算模块的第一模型。所述第一模型从连续密码子Ci-n至Ci+m中筛选部分密码子作为滤过密码子来计算所述Ci的测算核糖体密度。然后,将这些滤过密码子的表征信息提供给所述核糖体密度测算模块的第二模型,所述第二模型根据这些信息和/或其他信息计算得出所述密码子Ci的测算核糖体密度。在一个具体实例中,为了确定连续三联体密码子C1-C6中密码子C4的测算核糖体密度,可以将包括该6个密码子C1-C6的多核苷酸序列提供给所述核糖体密度测算模块的第一模型,这时候,Ci为C4,C1为4-3(即n为3,i-n为1),C6为4+2(即m为2,i+m为6)。所述第一模型从密码子C1-C6中筛选部分密码子作为滤过密码子来计算所述C4的测算核糖体密度。然后,将这些滤过密码子的表征信息提供给所述核糖体密度测算模块的第二模型,所述第二模型根据这些信息和/或其他信息计算得出所述密码子C4的测算核糖体密度。
所述连续密码子Ci-n至Ci+m可包含至少2个连续三联体密码子,例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个或更多个连续三联体密码子。
在所述核糖体密度测算模块确定密码子Ci的测算核糖体密度时,所述密码子Ci可位于核糖体A位,例如在将连续密码子Ci-n至Ci+m翻译为蛋白质或多肽的过程中,预测密码子Ci将位于核糖体的A位时该核苷酸序列Ci-n至Ci+m上的核糖体密度,或者该密码子Ci附近的多核苷酸序列上的核糖体密度。
针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对多核苷酸序列进行优化,可以是为了使该目的多肽或蛋白质的表达水平提高或者降低。当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平提高时,所述优化核苷酸序列确定单元可以将所述测算核糖体密度之和最小的候选核苷酸序列确定为所述优化的核苷酸序列。在另一些情况下,当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平降低时,所述优化核苷酸序列确定单元可以将所述测算核糖体密度之和最大的候选核苷酸序列确定为所述优化的核苷酸序列。
所述核糖体密度测算模块的所述第一模型及第二模型可通过机器学习、例如强化学习的方式被训练和产生。例如,所述第一模型及所述第二模型均可通过机器学习算法产生。此外,在所述第一模型的学习训练过程中,可使用所述第二模型的计算准确性指标作为表明所述第一模型计算质量的反馈结果提供给所述第一模型。例如,可通过设计合理的奖励机制,利用强化学习方法对所述第一模型进行训练。在某些情形中,当希望选择的滤过密码子产生高质量结果(例如,对目的多肽或蛋白质的表达水平有较大影响)时,可以在奖励机制中引入预测效能衡量L,以使得所述第一模型筛选出的滤过密码子与第二模型执行的任务高度相关。在某些情形中,还希望保证滤过密码子的稀疏性(例如,不希望所有的密码子均被选择为滤过密码子),因此可增加对滤过密码子稀疏性的约束L1。当希望选择的滤过密码子产生高质量结果且同时有稀疏性时,可以在奖励机制中同时引入所述预测效能衡量L和所述稀疏性约束L1。例如,在训练的过程中,可以使得所述第一模型与所述第二模型的优化相辅相成。一方面,通过所述第一模型选择出更优的滤过密码子可以使得所述第二模型的训练更高效;另一方面,更有效的所述第二模型可以通过更准确的奖励使得所述第一模型的优化更为合理。
在对所述第一模型进行训练时,可以采用例如Williams,1992中所述的REINFORCE强化学习算法。例如,在对所述第一模型进行训练时,可以对每个样本进行至少2次(例如,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)采样,并将所述多次采样的平均奖励值作为基线值从作为结果的奖励值中减去,低于所述基线的奖励值对应的动作采样将被舍弃,例如可参照Liu et al.,2018,2017;Mou et al.,2017中描述的方法进行。本申请中所述第一模型和/或第二模型的实现可基于例如,pytorch 0.3.1(https://github.com/pytorch),并可使用例如NVIDIA's GeForce GTX1080 GPU进行加速。
在本申请的系统中,所述连续三联体密码子Ci-n至Ci+m可包含至少2个(例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个,至少11个或更多)连续的三联体密码子。平均而言,所述核糖体密度测算模块的第一模型从所述连续三联体密码子Ci-n至Ci+m中筛选出的滤过密码子的数量可以少于Ci-n至Ci+m中包含的密码子的总数。例如,平均而言,所述核糖体密度测算模块的第一模型从所述连续三联体密码子Ci-n至Ci+m中筛选出的滤过密码子的数量可以为所述Ci-n至Ci+m中密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
例如,在某次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均被所述核糖体密度测算模块的第一模型选为滤过密码子。又例如,在另一次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均未被所述核糖体密度测算模块的第一模型选为滤过密码子。然而,在进行过多次(例如,至少2次,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)筛选之后,所述核糖体密度测算模块的第一模型所筛选出的滤过密码子的平均数量可以不为零,例如可以为所输入的多核苷酸序列中所有密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
在本申请的系统中,没有被所述核糖体密度测算模块的第一模型选为滤过密码子的密码子可以为忽略密码子。在某一次筛选中作为忽略密码子的密码子可以在另一次不同的筛选(例如,当输入的多核苷酸序列的长度或组成不同时,或者例如当为了确定另一个密码子的测算核糖体密度而筛选滤过密码子时)中作为滤过密码子。当所述核糖体密度测算模块的第二模型根据所述核糖体密度测算模块的第一模型提供的信息计算核糖体密度时,可以忽略或者掩盖来自于所述忽略密码子的信息。
在本申请的系统中,当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸中一种或多种的一种或多种密码子在至少一次筛选中可以被所述核糖体密度测算模块的第一模型选为滤过密码子。在某些情形中,当编码所述目的多肽或蛋白质的一个或多个所述候选核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,那么这些密码子中的一种或多种可在至少一次筛选中被所述核糖体密度测算模块的第一模型选为滤过密码子。在某些情形中,当所述候选核苷酸序列中包含密码子CGG时,密码子CGG在至少一次筛选中可以被所述核糖体密度测算模块的第一模型选为滤过密码子。在某些情形中,只要输入所述核糖体密度测算模块的第一模型的多核苷酸序列中包含密码子CGG,则其可以总是被选为滤过密码子。在某些情形中,当所述连续三联体密码子Ci-n至Ci+m中包含密码子CGG时,密码子CGG可以被所述核糖体密度测算模块的第一模型选为滤过密码子。
所述候选核苷酸序列提供单元可被设置为通过下述方式提供多个编码所述目的多肽或蛋白质的候选核苷酸序列:对于所述目的多肽或蛋白质的每一个氨基酸残基,随机选择编码其的对应密码子;以及根据各氨基酸残基在所述目的多肽或蛋白质氨基酸序列中的位置顺序相应地排列所选择的所述对应密码子以获得编码所述目的多肽或蛋白质的候选核苷酸序列。例如,当已知或提供了目的多肽或蛋白质的氨基酸序列后,对于其包含的每一个氨基酸都可以穷举编码该氨基酸的所有同义密码子,然后可以从这些同义密码子中随机挑选密码子,并依据其所编码的氨基酸在所述多肽或蛋白质中的位置来排列或放置所挑选的密码子。例如,在某个具体实例中,目的多肽或蛋白质中第x位(例如,第1位,第2位,第3位...)的氨基酸为Ax,能够编码Ax的密码子包括Cxa,Cxb和Cxc,那么在产生编码所述目的多肽或蛋白质的某个具体的候选核苷酸序列时,可以从所述Cxa,Cxb和Cxc中任意挑选一个密码子使其成为所述候选核苷酸序列中对应的第x位(例如,第1位,第2位,第3位...)的密码子。
在本申请的所述系统中,所述优化核苷酸序列确定单元可以通过动态规划来确定所述测算核糖体密度之和最小的候选核苷酸序列和/或所述测算核糖体密度之和最大的候选核苷酸序列。例如,当优化的目标是使所述多肽或蛋白质在宿主细胞中的表达水平提高时,所确定的优化(或最优)的核苷酸序列可以是该序列中所有密码子的测算核糖体密度之和最小的候选核苷酸序列。例如,所述优化核苷酸序列确定单元可以按照核糖体的翻译顺序从前向后(例如,从5’端向3’端)确定各候选核苷酸序列中每个密码子的测算核糖体密度以及各密码子的测算核糖体密度之和,从而,例如通过动态规划算法将所述测算核糖体密度之和最小的候选核苷酸序列确定为优化(最优)的核苷酸序列。又例如,当优化的目标是使所述多肽或蛋白质在宿主细胞中的表达水平降低时,所确定的优化(或最优)的核苷酸序列可以是该序列中所有密码子的测算核糖体密度之和最大的候选核苷酸序列。例如,所述优化核苷酸序列确定单元可以按照核糖体的翻译顺序从前向后(例如,从5’端向3’端)确定各候选核苷酸序列中每个密码子的测算核糖体密度以及各密码子的测算核糖体密度之和,从而,例如通过动态规划算法将所述测算核糖体密度之和最大的候选核苷酸序列确定为优化(最优)的核苷酸序列。
在本申请的某些系统中,编码所述目的多肽或蛋白质的候选核苷酸序列不是通过穷举产生的,例如,是基于亲本核苷酸序列并在其中限定的位置上进行核苷酸修饰或突变而产生的。这样能够进一步提高所述系统的运行效率,避免了许多不必要的改变,并最大程度上保留了原序列的特征。
因此,在一些方面,本申请提供了用于确定编码目的多肽或蛋白质的优化的核苷酸序列的系统。其中可以针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对所述核苷酸序列进行优化。所述系统可以包括:1)亲本核苷酸序列提供单元,所述亲本核苷酸序列提供单元被设置为提供编码所述目的多肽或蛋白质的亲本核苷酸序列,所述亲本核苷酸序列包含连续三联体密码子C1至Cx;2)滤过密码子筛选单元,所述滤过密码子筛选单元包括第一模型,且所述滤过密码子筛选单元被设置为:2a)对于所述亲本核苷酸序列中第a位的三联体密码子Ca,取包含所述Ca的连续三联体密码子Ca-b至Ca+c,通过所述第一模型筛选所述连续三联体密码子Ca-b至Ca+c中适于用来进行所述Ca的测算核糖体密度计算的密码子作为滤过密码子,其中所述a为1至x之间的任意正整数,且所述b、c各自独立地为不小于零的整数;和2b)重复操作2a)直至对于所述C1至Cx中的每个密码子,均筛选出了适于用来进行该密码子的测算核糖体密度计算的所述滤过密码子;3)入选机会率计算单元,所述入选机会率计算单元被设置为计算所述亲本核苷酸序列中的每个密码子被选为滤过密码子的比例,从而得到每个所述密码子的入选机会率;4)候选修饰密码子确定单元,所述候选修饰密码子确定单元被设置为将其入选机会率为所述亲本核苷酸序列所有密码子入选机会率中至少前50%的密码子确定为候选修饰密码子;5)变体候选核苷酸序列产生单元,所述变体候选核苷酸序列产生单元被设置为在所述亲本核苷酸序列的一个或多个所述候选修饰密码子处进行至少一个核苷酸修饰以获得一个或多个所述亲本核苷酸序列的变体候选核苷酸序列,所述核苷酸修饰不改变所述候选修饰密码子所编码的氨基酸残基;和6)优化核苷酸序列选择单元,所述优化核苷酸序列选择单元被设置为从所述变体候选核苷酸序列中选择所述优化的核苷酸序列。
在所述滤过密码子筛选单元针对不同密码子(例如,核糖体从核苷酸序列5’端至3’端的翻译过程中,位于核糖体A位的不同密码子)或者不同的(例如,不同长度或不同组成)输入多核苷酸序列执行筛选过程时,某个给定的密码子可能不止一次地被包括在输入给所述滤过密码子筛选单元第一模型的多核苷酸序列中从而经历数次筛选过程。在某些筛选中,该给定密码子可能被选为滤过密码子,而在另外一些筛选中,该给定密码子可能没有被选为滤过密码子,那么在若干次的筛选后,该密码子被选为滤过密码子的比例则为该密码子的入选机会率。在所有的密码子中,将入选机会率高(例如,为所述亲本核苷酸序列各密码子的入选机会率中至少前50%(例如,至少前55%,至少前60%,至少前65%,至少前70%,至少前75%,至少前80%,至少前81%,至少前82%,至少前83%,至少前84%,至少前85%,至少前86%,至少前87%,至少前88%,至少前89%,至少前90%,至少前91%,至少前92%,至少前93%,至少前94%,至少前95%,至少前96%或更高)的密码子选为候选修饰密码子。
在本申请中,所述Ca-b至Ca+c可包含至少2个(例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个,至少11个或更多)连续三联体密码子。
在针对密码子Ca确定滤过密码子时,所述密码子Ca可位于核糖体A位,例如在将连续密码子Ca-b至Ca+c翻译为蛋白质或多肽的过程中,预测密码子Ca将位于核糖体的A位时所进行的测算。
平均而言,所述滤过密码子筛选单元的第一模型从所述连续三联体密码子Ca-b至Ca+c中筛选出的滤过密码子的数量可以少于Ca-b至Ca+c中包含的密码子的总数。例如,平均而言,所述滤过密码子筛选单元的第一模型从所述连续三联体密码子Ca-b至Ca+c中筛选出的滤过密码子的数量可以为所述Ca-b至Ca+c中密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
例如,在某次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均被所述滤过密码子筛选单元的第一模型选为滤过密码子。又例如,在另一次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均未被所述滤过密码子筛选单元的第一模型选为滤过密码子。然而,在进行过多次(例如,至少2次,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)筛选之后,所述滤过密码子筛选单元的第一模型所筛选出的滤过密码子的平均数量可以不为零,例如可以为所输入的多核苷酸序列中所有密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
在本申请的系统中,当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸中一种或多种的一种或多种密码子在至少一次筛选中可以被所述滤过密码子筛选单元的第一模型选为滤过密码子。在某些情形中,当编码所述目的多肽或蛋白质的亲本核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,那么这些密码子中的一种或多种可在至少一次筛选中被所述滤过密码子筛选单元的第一模型选为滤过密码子。在某些情形中,当所述亲本核苷酸序列中包含密码子CGG时,密码子CGG在至少一次筛选中可以被所述滤过密码子筛选单元的第一模型选为滤过密码子。在某些情形中,只要输入所述滤过密码子筛选单元的第一模型的多核苷酸序列中包含密码子CGG,则其可以总是被选为滤过密码子。在某些情形中,当所述连续三联体密码子Ca-b至Ca+c中包含密码子CGG时,密码子CGG可以被所述滤过密码子筛选单元的第一模型选为滤过密码子。
在本申请的系统中,当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸中一种或多种的一种或多种密码子可以被所述候选修饰密码子确定单元选为所述候选修饰密码子。在某些情形中,当编码所述目的多肽或蛋白质的亲本核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,那么这些密码子中的一种或多种可以被所述候选修饰密码子确定单元选为所述候选修饰密码子。在某些情形中,当所述亲本核苷酸序列中包含密码子CGG时,密码子CGG可以被所述候选修饰密码子确定单元选为候选修饰密码子。
在确定了作为修饰对象的候选修饰密码子后,所述变体候选核苷酸序列产生单元可对所述候选修饰密码子中的一个或多个进行核苷酸修饰来获得变体候选核苷酸序列,例如,通过将一个或多个候选修饰密码子改变为其同义密码子。这样的修饰通常不改变密码子所编码的氨基酸,而只是同义密码子之间的替换。例如,所述变体候选核苷酸序列产生单元可以确定亲本核苷酸序列中一个或多个候选修饰密码子所编码的氨基酸,对可能编码该氨基酸的所有同义密码子进行穷举,然后从这些同义密码子中随机挑选密码子来替换其所对应的候选修饰密码子。当一个所述随机挑选的密码子与某候选修饰密码子编码相同的氨基酸时,可以认为二者之间是对应关系。例如,在某个具体实例中,目的多肽或蛋白质中第x位(例如,第1位,第2位,第3位...)的氨基酸为Ax,亲本核苷酸序列中编码所述Ax的密码子Cxa被选为候选修饰密码子,编码所述Ax的同义密码子还包括例如Cxb和Cxc,则在产生变体候选核苷酸序列时,可以从所述Cxb和Cxc中任意挑选一个密码子来替换所述Cxa。
在获得多个变体候选核苷酸序列后,所述优化核苷酸序列选择单元可以通过各种不同的方式从所述变体候选核苷酸序列中选择优化的核苷酸序列。
例如,在某些情形中,所述优化核苷酸序列选择单元可包括6a)表达水平测定单元。所述表达水平测定单元可被设置为测定一个或多个所述变体候选核苷酸序列所编码的所述目的多肽或蛋白质在宿主细胞中的表达水平。所述优化核苷酸序列选择单元还可以包括6b)优化核苷酸序列确定单元。所述优化核苷酸序列确定单元可被设置为将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的变体候选核苷酸序列确定为所述优化的核苷酸序列。
所述表达水平测定单元可测定一个或多个所述变体候选核苷酸序列所编码的所述目的多肽或蛋白质在宿主细胞中的表达水平,从而根据表达水平的高低确定所需的优化核苷酸序列。例如,所述表达水平测定单元可包含一个或多个能够检测荧光水平的装置或设备,其可以被设置为通过荧光基因报告体系使得能够通过检测荧光水平来判断和/或比较蛋白或多肽的表达水平差异。在某些情形中,所述表达水平测定单元可以被设置为通过比较目的蛋白或多肽与参比蛋白或多肽表达水平的差异或比例来判断各(变体)候选核苷酸序列所编码的蛋白/多肽表达水平间的相对高低。
所述优化核苷酸序列确定单元可以被设置为将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的变体候选核苷酸序列确定为所述优化的核苷酸序列。例如,当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平提高时,所述优化核苷酸序列确定单元可以选择测量显示表达水平高的相应变体候选核苷酸序列作为优化的核苷酸序列。又例如,当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平降低时,所述优化核苷酸序列确定单元可以选择测量显示表达水平低的相应变体候选核苷酸序列作为优化的核苷酸序列。
在某些情形中,所述优化核苷酸序列选择单元可包括本申请所述的确定所述变体候选核苷酸序列中编码目的多肽或蛋白质的优化的核苷酸序列的系统。在有些情况下,所述优化核苷酸序列选择单元可以既包括该系统,也包括本申请所述的表达水平测定单元。
例如,所述优化核苷酸序列选择单元可包括变体候选核苷酸序列评价单元(可对应于本申请系统中的候选核苷酸序列评价单元)和优化核苷酸序列确定单元。在某些情形中,所述优化核苷酸序列选择单元可包括变体候选核苷酸序列评价单元、表达水平测定单元和优化核苷酸序列确定单元。
所述变体候选核苷酸序列评价单元可被设置为基于所述变体候选核苷酸序列中所有密码子的测算核糖体密度之和来评价所述变体候选核苷酸序列对所述目的多肽或蛋白质在宿主细胞中的所述表达水平的影响。
所述优化核苷酸序列确定单元被设置为将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的变体候选核苷酸序列确定为所述优化的核苷酸序列。
所述变体候选核苷酸序列评价单元中可包括本申请所述的核糖体密度测算模块,所述核糖体密度测算模块可包括第一模型和第二模型。其中所述核糖体密度测算模块可被设置为对于任一所述变体候选核苷酸序列中第i位的三联体密码子Ci,取包含所述Ci的连续三联体密码子Ci-n至Ci+m,通过所述核糖体密度测算模块的第一模型筛选所述连续三联体密码子Ci-n至Ci+m中适于用来进行所述Ci的测算核糖体密度计算的密码子作为滤过密码子,将所述滤过密码子的表征信息提供给所述核糖体密度测算模块的第二模型并通过所述第二模型计算得出所述密码子Ci的测算核糖体密度,其中i为不小于1的正整数,且n、m各自独立地为不小于零的整数。
例如,对于给定的变体候选核苷酸序列,所述核糖体密度测算模块可依次计算该序列中的各个密码子所对应的测算核糖体密度,并将针对多个连续密码子的测算核糖体密度依次相加以获得所述测算核糖体密度之和。例如,对于包含密码子C1-C6的给定多核苷酸序列,所述核糖体密度测算模块可依次确定密码子C1-C6的测算核糖体密度D1-D6,则D1+D2+...+D6的值即为由密码子C1至C6组成的该给定多核苷酸序列的测算核糖体密度。
在本申请的系统中,所述多个变体候选核苷酸序列所编码的多肽或蛋白质的氨基酸序列可以是相同的。例如,所述多个变体候选核苷酸序列所编码的多肽或蛋白质可以完全相同,或者可以具有相同的氨基酸序列,但是在某些部分可各自具有其他修饰(例如,含有不同的糖基化修饰,包含不同的缀合物,或者具有某些不影响氨基酸序列的其他修饰)。
例如,为了确定连续三联体密码子Ci-n至Ci+m中密码子Ci的测算核糖体密度,可以将包括该(i-n+i+m-1)个密码子Ci-n至Ci+m的多核苷酸序列提供给所述核糖体密度测算模块的第一模型。所述核糖体密度测算模块的第一模型可以从连续密码子Ci-n至Ci+m中筛选部分密码子作为滤过密码子来计算所述Ci的测算核糖体密度。然后,可以将这些滤过密码子的表征信息提供给所述核糖体密度测算模块的第二模型,所述第二模型根据这些信息和/或其他信息计算得出所述密码子Ci的测算核糖体密度。在一个具体实例中,为了确定连续三联体密码子C1-C6中密码子C4的测算核糖体密度,可以将包括该6个密码子C1-C6的多核苷酸序列提供给所述核糖体密度测算模块的第一模型,这时候,Ci为C4,C1为4-3(即n为3,i-n为1),C6为4+2(即m为2,i+m为6)。所述核糖体密度测算模块的第一模型可以从密码子C1-C6中筛选部分密码子作为滤过密码子来计算所述C4的测算核糖体密度。然后,可以将这些滤过密码子的表征信息提供给所述核糖体密度测算模块的第二模型,所述第二模型根据这些信息和/或其他信息计算得出所述密码子C4的测算核糖体密度。
所述连续密码子Ci-n至Ci+m可包含至少2个连续三联体密码子,例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个或更多个连续三联体密码子。
在所述核糖体密度测算模块确定密码子Ci的测算核糖体密度时,所述密码子Ci可位于核糖体A位。例如,所述密码子Ci的测算核糖体密度可以为:在将连续密码子Ci-n至Ci+m翻译为蛋白质或多肽的过程中,预测密码子Ci将位于核糖体的A位时该核苷酸序列Ci-n至Ci+m上的核糖体密度,或者该密码子Ci附近的多核苷酸序列上的核糖体密度。
针对所述目的多肽或蛋白质在宿主细胞中的表达水平而对多核苷酸序列进行优化,可以是为了使该目的多肽或蛋白质的表达水平提高或者降低。当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平提高时,所述优化核苷酸序列确定单元可以将所述测算核糖体密度之和最小的变体候选核苷酸序列确定为所述优化的核苷酸序列。在另一些情况下,当目标是为了使所述目的多肽或蛋白质在宿主细胞中的表达水平降低时,所述优化核苷酸序列确定单元可以将所述测算核糖体密度之和最大的变体候选核苷酸序列确定为所述优化的核苷酸序列。
在所述变体候选核苷酸序列评价单元的核糖体密度测算模块中,所述第一模型及第二模型可通过机器学习、例如强化学习的方式被训练和产生。例如,所述第一模型及所述第二模型均可通过机器学习算法产生。此外,在所述第一模型的学习训练过程中,可使用所述第二模型的计算准确性指标作为表明所述第一模型计算质量的反馈结果提供给所述第一模型。例如,可通过设计合理的奖励机制,利用强化学习方法对所述第一模型进行训练。在某些情形中,当希望选择的滤过密码子产生高质量结果(例如,对目的多肽或蛋白质的表达水平有较大影响)时,可以在奖励机制中引入预测效能衡量L,以使得所述第一模型筛选出的滤过密码子与第二模型执行的任务高度相关。在某些情形中,还希望保证滤过密码子的稀疏性(例如,不希望所有的密码子均被选择为滤过密码子),因此可增加对滤过密码子稀疏性的约束L1。当希望选择的滤过密码子产生高质量结果且同时有稀疏性时,可以在奖励机制中同时引入所述预测效能衡量L和所述稀疏性约束L1。例如,在训练的过程中,可以使得所述第一模型与所述第二模型的优化相辅相成。一方面,通过所述第一模型选择出更优的滤过密码子可以使得所述第二模型的训练更高效;另一方面,更有效的所述第二模型可以通过更准确的奖励使得所述第一模型的优化更为合理。
在对所述第一模型进行训练时,可以采用例如Williams,1992中所述的REINFORCE强化学习算法。例如,在对所述第一模型进行训练时,可以对每个样本进行至少2次(例如,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)采样,并将所述多次采样的平均奖励值作为基线值从作为结果的奖励值中减去,低于所述基线的奖励值对应的动作采样将被舍弃,例如可参照Liu et al.,2018,2017;Mou et al.,2017中描述的方法进行。本申请中所述第一模型和/或第二模型的实现可基于例如,pytorch 0.3.1(https://github.com/pytorch),并可使用例如NVIDIA's GeForce GTX1080GPU进行加速。
在本申请的系统中,所述连续三联体密码子Ci-n至Ci+m可包含至少2个(例如,至少3个,至少4个,至少5个,至少6个,至少7个,至少8个,至少9个,至少10个,至少11个或更多)连续的三联体密码子。平均而言,所述核糖体密度测算模块的第一模型从所述连续三联体密码子Ci-n至Ci+m中筛选出的滤过密码子的数量可以少于Ci-n至Ci+m中包含的密码子的总数。例如,平均而言,所述核糖体密度测算模块的第一模型从所述连续三联体密码子Ci-n至Ci+m中筛选出的滤过密码子的数量可以为所述Ci-n至Ci+m中密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
例如,在某次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均被所述核糖体密度测算模块的第一模型选为滤过密码子。又例如,在另一次给定的筛选中,所输入的多核苷酸序列中所有的密码子可以均未被所述核糖体密度测算模块的第一模型选为滤过密码子。然而,在进行过多次(例如,至少2次,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)筛选之后,所述核糖体密度测算模块的第一模型所筛选出的滤过密码子的平均数量可以不为零,例如可以为所输入的多核苷酸序列中所有密码子总数的约55%至约75%,例如约60%至约70%,约60%至约65%,约65%至约70%,例如约64%至约68%,约65%至约67%,例如约66%。
在本申请的系统中,没有被所述核糖体密度测算模块的第一模型选为滤过密码子的密码子可以为忽略密码子。在某一次筛选中作为忽略密码子的密码子可以在另一次不同的筛选(例如,当输入的多核苷酸序列的长度或组成不同时,或者例如当为了确定另一个密码子的测算核糖体密度而筛选滤过密码子时)中作为滤过密码子。当所述核糖体密度测算模块的第二模型根据所述核糖体密度测算模块的第一模型提供的信息计算核糖体密度时,可以忽略或者掩盖来自于所述忽略密码子的信息。
在本申请的系统中,当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸中一种或多种的一种或多种密码子在至少一次筛选中可以被所述核糖体密度测算模块的第一模型选为滤过密码子。在某些情形中,当编码所述目的多肽或蛋白质的一个或多个所述变体候选核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,那么这些密码子中的一种或多种可在至少一次筛选中被所述核糖体密度测算模块的第一模型选为滤过密码子。在某些情形中,当所述变体候选核苷酸序列中包含密码子CGG时,密码子CGG在至少一次筛选中可以被所述核糖体密度测算模块的第一模型选为滤过密码子。在某些情形中,只要输入所述核糖体密度测算模块的第一模型的多核苷酸序列中包含密码子CGG,则其可以总是被选为滤过密码子。在某些情形中,当所述连续三联体密码子Ci-n至Ci+m中包含密码子CGG时,密码子CGG可以被所述核糖体密度测算模块的第一模型选为滤过密码子。
在本申请的所述系统中,所述优化核苷酸序列确定单元可以通过动态规划来确定所述测算核糖体密度之和最小的变体候选核苷酸序列和/或所述测算核糖体密度之和最大的变体候选核苷酸序列。例如,当优化的目标是使所述多肽或蛋白质在宿主细胞中的表达水平提高时,所确定的优化(或最优)的核苷酸序列可以是该序列中所有密码子的测算核糖体密度之和最小的变体候选核苷酸序列。例如,所述优化核苷酸序列确定单元可以按照核糖体的翻译顺序从前向后(例如,从5’端向3’端)确定各变体候选核苷酸序列中每个密码子的测算核糖体密度以及各密码子的测算核糖体密度之和,从而,例如通过动态规划算法将所述测算核糖体密度之和最小的变体候选核苷酸序列确定为优化(最优)的核苷酸序列。又例如,当优化的目标是使所述多肽或蛋白质在宿主细胞中的表达水平降低时,所确定的优化(或最优)的核苷酸序列可以是该序列中所有密码子的测算核糖体密度之和最大的变体候选核苷酸序列。例如,所述优化核苷酸序列确定单元可以按照核糖体的翻译顺序从前向后(例如,从5’端向3’端)确定各变体候选核苷酸序列中每个密码子的测算核糖体密度以及各密码子的测算核糖体密度之和,从而,例如通过动态规划算法将所述测算核糖体密度之和最大的变体候选核苷酸序列确定为优化(最优)的核苷酸序列。
第一模型和第二模型
本申请所述方法中的第一模型,所述系统中核糖体密度测算模块的第一模型,以及所述系统中滤过密码子筛选单元的第一模型可决定某特定密码子是否被选为滤过密码子,该滤过密码子可被用于确定候选修饰密码子,或者被用于确定测算核糖体密度。所述第一模型可包含第一循环神经网络模块和第二循环神经网络模块。其中,对于每个所述密码子,所述第一循环神经网络模块可获取该密码子的情境信息,并将该信息提供给所述第二循环神经网络模块,且所述第二循环神经网络模块根据所述第一循环神经网络模块提供的所述情境信息决定是否将该密码子选为所述滤过密码子。在某些情形中,所述第一循环神经网络模块可以为从正向和反向两个方向获取所述情境信息的双向循环神经网络模块。此外,所述第一循环神经网络模块可以根据至少包括下列项的信息来表征所述密码子:所述密码子的类型和所述密码子在包含其的连续三联体密码子序列(例如,Ci-n至Ci+m或Ca-b至Ca+c)中的位置信息。在某些情形中,还可以通过所述密码子各个位置的氨基酸信息来表征该密码子。
在需要计算核糖体密度的情况下,所述第一模型在筛选出所述滤过密码子后,可以计算并提供这些滤过密码子(例如,输入的连续密码子Ci-n至Ci+m中的滤过密码子)的特征信息R。所述第二模型可根据所述第一模型提供的所述滤过密码子的特征信息R来计算所述密码子Ci的测算核糖体密度。
图1显示了本申请所述第一模型和第二模型的示意图,其中将一段包含多个连续密码子的多核苷酸序列输入到第一模型中,所述第一模型逐一判断其中的每一个密码子属于滤过密码子(例如,标记为1,显示密码子的核苷酸组成)还是忽略密码子(例如,被掩盖,标记为0)。所述滤过密码子的特征信息可被提供给第二模型(其可包含一个或多个单向或双向循环神经网络),从而计算得出测算核糖体密度。可将所述测算核糖体密度与通过实验测得的实际核糖体密度进行比较,并将该比较的结果分别反馈给所述第一模型和所述第二模型(例如,当测算值与实际测量值差异较小时进行奖励(reward),当测算值与实际测量值差异较大时进行惩罚(penalty)或者负奖赏),从而实现对所述第一模型和所述第二模型的训练,例如联合训练。
在具体的实例中,本申请的滤过密码子筛选单元可包含所述第一模型。
例如,可向所述第一模型输入信息长度是(i-n+i+m-1)或(a-b+a+c-1)个密码子的多核苷酸序列(例如,mRNA,如连续密码子Ci-n至Ci+m或Ca-b至Ca+c)对应的独热编码(one-hot encoding),其中第i位(例如密码子Ci)或第a位(例如密码子Ca)密码子可代表核糖体翻译时的A位。所述第一模型的第一层神经网络(即第一循环神经网络模块)可以是一个双向循环神经网络(BiGRU或BiRNN),其可用于学习每个密码子所处的环境或学习所述密码子所处的情境信息。第二层(即第二循环神经网络模块)可以是带反馈的单向循环神经网络,其中的信息传递可按照核糖体的翻译方向进行。所述第二层(即第二循环神经网络模块)可接受第一层网络(即第一循环神经网络模块)的输出,并为每一个密码子位置输出一个0或1的指示变量,代表这一位置是否可以作为滤过密码子。其中,1代表该位置的密码子被选为滤过密码子,0代表该位置的密码子为忽略密码子。
在具体的实例中,本申请的核糖体测算模块可包括所述第一模型和所述第二模型。
在本申请中,所述第二模型可包括第三循环神经网络模块。所述第三循环神经网络模块可以为双向循环神经网络模块。
所述第二模型的输入信息可包括所述第一模型的输出信息,例如部分信息(例如,来自忽略密码子的信息)被去除或掩盖的所述输入的多核苷酸序列(如连续密码子Ci-n至Ci+m)的信息。在所述第二模型中,这一信息可先后经过一个双向循环神经网络、一个池化层和一个线性拟合器,最终得到计算的结果(例如,测算核糖体密度)。
在另一个示例中,对于每个待预测的密码子Ci或Ca(例如,记为位置i或a,对应核糖体的A位置),使用其上游的i-n位或a-b位至下游的i+m位或a+c位共计(i-n+i+m-1)个或(a-b+a+c-1)个密码子作为其序列环境输入所述第一模型中。例如,对于每个待预测的密码子(记为位置0,对应核糖体的A位置),可使用其上游到下游共计10个密码子(-5到+4位置)作为其序列环境输入所述第一模型中。又例如,对于每个待预测的密码子(记为位置0,对应核糖体的A位置),可使用其上游到下游共计6个密码子(-3到+2位置)作为其序列环境输入所述第一模型中。图2表示涉及10个密码子的序列环境信息至所述第一模型的输入示意图,其中梯形框表示核糖体,核糖体A位置对应的密码子被编号为0。
输入所述第一模型时,用于表征每个密码子的信息可包括密码子种类的信息,例如可对64种不同的密码子进行独热编码,从而使得每个序列环境中的密码子对应一个64维的向量,其所属的密码子种类被记为1,其余种类记为0。
用于表征每个密码子的信息还可包括密码子位置信息,例如,可对所述密码子的位置信息进行独热编码,表明该密码子在序列环境(例如在连续密码子Ci-n至Ci+m或Ca-b至Ca+c)中的位置,共(i-n+i+m-1)维或(a-b+a+c-1)维。
在某些情况下,可将所述密码子种类信息和所述密码子位置信息拼接组成输入向量x,而这些连续密码子共同组成输入矩阵(xi-n,xi-n-1,..,xi,xi+1...xi+m)。
在某些情况下,用于表征每个密码子的信息还可包括密码子的核苷酸信息,例如,可对所述核苷酸信息进行独热编码,从而获得一个12维的向量(每个核苷酸4维乘以每个密码子三个核苷酸位置)。在这样的情形中,可将所述密码子种类信息、所述密码子位置信息以及所述核苷酸信息共同拼接组成输入向量x,而这些连续密码子共同组成输入矩阵(xi-n,xi-n-1,..,xi,xi+1...xi+m)。
在某些情形中,所述第一模型还可以整合用于表征所述输入多核苷酸序列的其他信息,例如该多核苷酸序列(例如连续密码子Ci-n至Ci+m或Ca-b至Ca+c)折叠的能量信息。
对于每个待预测的密码子Ci或Ca(例如,输入的连续密码子中处于核糖体A位的密码子),利用强化学习中的第一模型来选择所述滤过密码子,从而根据每个输入样本的特点选择出与其对应的核糖体密度最为相关的序列特征。在所述第一模型中,可使用一种或多种神经网络模块,例如一种或多种循环神经网络模块。例如,可使用两种或更多种神经网络模块。在一个具体的实例中,可使用包括一个用来提取并整合序列信息的双向循环神经网络(BiRNN)(Graves et al.,2013)作为第一循环神经网络模块和另一个反馈式循环神经网络(RNN with feedback)作为第二循环神经网络模块。所述反馈式循环神经网络(即第二循环神经网络模块)可根据所述BiRNN(即第一循环神经网络模块)抽取的信息进行判断,从而做出滤过密码子选择的决策。
例如,在经过所述双向循环神经网络(即第一循环神经网络模块)后,对于每一个输入中的密码子,可以获得整合了情境信息(或上下文信息)的隐藏层表示
Figure BDA0002062857260000401
Figure BDA0002062857260000402
并将其拼接在一起作为这一密码子的特征
Figure BDA0002062857260000403
所述
Figure BDA0002062857260000404
定义如下:
Figure BDA0002062857260000405
其中,Θα表示所述第一模型中的参数,
Figure BDA0002062857260000406
Figure BDA0002062857260000407
表示向前和向后两个方向上的循环神经网络,
Figure BDA0002062857260000408
Figure BDA0002062857260000409
可表示循环神经网络在输入位置t时两个方向的隐藏层向量。例如,可以使用门控循环单元(gated recurrent unit,GRU)(Cho et al.,2014)作为BiRNN中的循环单元。例如,对于某一个方向的输入有
zt=σ(Wzxxt+Wzhht-1), (3)
rreset,t=σ(Wrxxt+Wrhht-1), (4)
Figure BDA00020628572600004010
Figure BDA00020628572600004011
其中,o表示矩阵元素相乘,σ表示sigmoid函数,W表示权重,zt和rreset,t分别表示更新门和重置门的参数,此公式中省略了置偏项。
在本申请的方法和系统中,基于BiRNN的隐藏层可作为所述第二循环神经网络模块的输入。可使用第二循环神经网络模块(例如另一种反馈式循环神经网络),按照核糖体的翻译顺序从前向后对每一个位置是否应该被选为滤过密码子进行判断,结果用一系列变量(Si-n,...,Si+m)或(Sa-b,...,Sa+c)表示,例如表明密码子Ci-n至Ci+m中的每一个或Ca-b至Ca+c中的每一个是否被选为了滤过密码子。每一个位置的的决策可以只依赖于本位置的输入信息、上一位置的状态以及之前所有决策的历史。例如,每一次的决策的概率P(s|X)可以用下式表示:
Figure BDA0002062857260000411
其中S1~t-1表示S1到St-1的所有变量。
在某些实施方式中,为了使得几次的决策之间具有相关性,可以在RNN中使用反馈机制。例如,在每一次做出决策时可以考虑三部分信息:(1)该位置对应的隐层信息
Figure BDA0002062857260000414
(2)上一位置的状态vt-1;(3)过去所有的决策历史S1~t-1。在输入决策历史时,可以求出所有历史决策的加和,然后用(i-n+i+m-1)维或(a-b+a+c-1)维的独热编码来表示该加和的结果。
例如,对于决策St,在处理了第t个密码子后,所述第一模型可给出如下结果:
Figure BDA0002062857260000412
Figure BDA0002062857260000413
p(st|X,s1~t-1)=softmax(Wαvt+bα), (10)
其中,Wα和bα分别表示模型权重和置偏项,f(·)=∑si表示各变量的加和。在对模型进行训练时,可采用∈-greedy方法(Sutton et a1.,1998;Mnih et al.,2015)对决策动作进行采样。而在测试中,可以直接选取所述第一模型提供的后验概率最大的动作,即st=ar gmax p(st|X,s1~t-1)。
在所述第一模型完成计算后,可以根据产生的指示变量s1-T确定被选中的滤过密码子,从而综合输入的密码子序列以及对于每个密码子作出的决策得出所述滤过密码子的矩阵R,其可如下表示:
Rt=stxt (11)
其中R表示经过选择的原始输入的独热编码,其中被选为滤过密码子的密码子信息与输入矩阵相同,而其他部分的信息则被掩盖/抹去,不再参与后续的步骤。
在某些情形中,所述第一模型提供的滤过密码子的信息可用于通过所述第二模型来确定测算核糖体密度。在某些情形中,可将所述滤过密码子的信息与其他因素(例如,RNA折叠能量)进行组合来确定测算核糖体密度。
可以通过各种合适的方法来计算所述RNA折叠能量。在一个具体实例中,可以先计算以每个碱基为中心长度约30个碱基的mRNA片段对应的RNA折叠能量,并将同一个密码子中3个碱基对应的折叠能量进行拼接作为该密码子的能量编码。此外,与获得上述密码子信息矩阵类似,还可以在所述折叠能量的计算中加入所述密码子对应的位置信息。
本申请的所述第二模型可包括多层神经网络。例如,所述多层神经网络可包含三个部分:(1)双向循环神经网络,用于学习滤过密码子矩阵R;(2)对应的最大池化层(Conneau et al.,2017),在隐藏层的每个维度上选择最大的激活值;(3)全连接层,其可根据池化层的输出结果做出最终计算。可将所述第二模型网络记为
Figure BDA0002062857260000421
并可根据下述公式对其进行计算:
Figure BDA0002062857260000422
ui=max{c1,i,c2,i,...,cT,i}, (13)
PredictorΘβ(R)=wβ[u]+bβ (14)
其中,ct可表示序列信息的隐藏层变量,其对应的位置信息可以为t,ct可由循环神经网络
Figure BDA0002062857260000423
得出,wβ和bβ可分别表示全连接层的权重和置偏项,Θβ可表示所述第二模型中的参数。
在某些情形中,所述第二模型可包括2个或更多个双向循环神经网络,其可分别用于学习例如,所述滤过密码子矩阵R的信息、所述RNA折叠能量E的信息等。在还考虑了所述RNA折叠能量的情况下,所述第二模型网络可被记为
Figure BDA0002062857260000424
并可根据下述公式对其进行计算:
Figure BDA0002062857260000425
ui=max{c1,i,c2,i,...,cT,i},qi=max{e1,i,e2,i,...,eT,i} (16)
PredictorΘβ(R,E)=wβ[u;q]+bβ (17)
其中,ct和et可分别表示序列信息和RNA折叠能量的隐藏层变量,其对应的位置信息可以为t,ct和et可由两个循环神经网络
Figure BDA0002062857260000426
Figure BDA0002062857260000427
分别得出,wβ和bβ可分别表示全连接层的权重和置偏项,Θβ可表示所述第二模型中的参数。
在本申请中,可以采用强化学习的方法,例如actor-critic算法框架(Barto etal.,1983)来对所述第一模型和/或所述第二模型进行训练。例如,可采用梯度反向传导来对所述第二模型进行训练。然而,由于所述第一模型做出的选择可能无法直接利用监督信息进行优化,对所述第一模型进行训练可以按照强化学习的方法,例如通过最大化奖励进行。
对于所述第二模型,可以使用最小化均方误差的方法对其进行优化。例如,通过下式:
Figure BDA0002062857260000431
其中y可以代表核糖体密度的实验值,
Figure BDA0002062857260000432
可以代表训练数据的实体,
Figure BDA0002062857260000433
可以代表损失函数,Θβ可以代表所述第二模型中的参数。
在考虑了RNA折叠能量E的情况下,对于所述第二模型,可以使用最小化均方误差的方法对其进行优化。例如,通过下式:
Figure BDA0002062857260000434
其中y可以代表核糖体密度的实验值,
Figure BDA0002062857260000435
可以代表训练数据的实体,
Figure BDA0002062857260000436
可以代表损失函数,Θβ可以代表所述第二模型中的参数。
对于第一模型,可能无法预先获知哪些密码子位置应当被选为滤过密码子。因此,可通过合理的奖励机制,利用强化学习方法对所述第一模型进行训练。例如,可根据稀疏性指标和准确性指标来设计所述奖励机制。在具体的实例中,可在奖励机制中引入预测效能衡量
Figure BDA00020628572600004315
以使得选出的滤过密码子与第二模型的结果高度相关。另一方面,为了保证滤过密码子的稀疏性,可进一步加入对滤过密码子s的L1约束。
可将最终的奖励表示为:
Figure BDA0002062857260000437
其中||s||1可代表上述的L1稀疏性限制,λ可表示L1项的权重。可将训练的目标确定为使得上述奖励对于整个决策分布的期望
Figure BDA0002062857260000438
最大化,例如
Figure BDA0002062857260000439
其中,
Figure BDA00020628572600004310
可代表针对所有取样操作的预期奖励。
在考虑了RNA折叠能量E的情况下,可将最终的奖励表示为:
Figure BDA00020628572600004311
其中||s||1可代表上述的L1稀疏性限制,λ可表示L1项的权重。可将训练的目标确定为使得上述奖励对于整个决策分布的期望
Figure BDA00020628572600004312
最大化,例如
Figure BDA00020628572600004313
其中,
Figure BDA00020628572600004314
可代表针对所有取样操作的预期奖励。
在训练过程中,所述第一模型和所述第二模型的优化可以是相辅相成的。一方面,所述第一模型选择出更优的特征可以使得所述第二模型的训练更为简单;另一方面,更优的第二模型可以通过更准确的奖励使得所述第一模型的优化更为合理。此外,在优化中,所述第二模型和第一模型的优化可以都涉及对回归均方误差的最小化。在训练中,可以通过最小化以下的统一损失函数而对整体进行优化。例如:
Figure BDA0002062857260000441
在考虑了RNA折叠能量E的情况下,可以通过最小化以下的统一损失函数而对整体进行优化。例如:
Figure BDA0002062857260000442
其中,η参数可协调所述第一模型与所述第二模型的训练速度。例如,可使用REINFORCE算法(Williams,1992)来训练所述第一模型。为了降低REINFORCE算法的数值波动,在训练时可对每个样本进行多次(例如至少2次,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)采样,并将平均的奖励值作为基线减去,低于基线的奖励值所对应的动作采样可被舍弃。本申请中模型的实现可基于pytorch0.3.1(https://github.com/pytorch),可使用NVIDIA's GeForce GTX 1080 GPU进行加速。
另一方面,本申请提供了制备目的多肽或蛋白质的方法。所述方法可包括:将编码所述目的多肽或蛋白质的核酸分子引入宿主细胞中,以及在允许所述目的多肽或蛋白质表达的条件下培养所述宿主细胞;其中所述核酸分子包含根据本申请所述的方法或者由本申请所述的系统确定的编码所述目的多肽或蛋白质的优化的核苷酸序列。
其中,可通过任何本领域常用的方法将核酸分子引入宿主细胞中,例如通过转导,转染,如电转导等。所述培养条件可以为任何适合蛋白质或多肽表达的条件,包括合适的温度,培养基,培养时间,培养容器等,本领域技术人员可以根据具体的需要和实际情况进行选择。
另一方面,本申请提供了根据本申请所述的方法或者由本申请所述的系统确定的优化的核苷酸序列。所述优化的核苷酸序列可以优化其所编码的蛋白质或多肽的表达水平,例如在宿主细胞中的表达水平。
另一方面,本申请提供了根据本申请所述的方法或者由本申请所述的系统确定的优化的核苷酸序列在优化目的多肽或蛋白质表达水平中的用途。例如,在提高或降低目的多肽或蛋白质表达水平中的用途。
另一方面,本申请提供了一种优化目的多肽或蛋白质表达水平的方法,所述方法包括根据本申请所述的方法或者由本申请所述的系统确定编码所述目的多肽或蛋白质的优化的核苷酸序列。
计算机存储介质、设备
另一方面,本申请提供了计算机存储介质(例如,硬盘,软盘,光盘或其他可用于存储的介质),其可包含用于实现本申请所述方法的步骤的计算机可执行指令。
另一方面,本申请提供了计算机存储介质(例如,硬盘,软盘,光盘或其他可用于存储的介质),其上可存储有计算机程序。所述计算机程序可被处理器执行时实现本申请所述方法的步骤。
另一方面,本申请提供了一种计算机设备(例如,大型计算机,服务器,个人计算机,掌上电脑或移动电话等任何合适的设备)。所述计算机设备可包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时可实现本申请所述的方法。
本申请还提供了以下的实施方式:
1.一种用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法,其中针对所述目的多肽或蛋白质在宿主细胞中的表达水平而优化所述核苷酸序列,所述方法包括:
1)提供多个编码所述目的多肽或蛋白质的候选核苷酸序列;
2)基于所述候选核苷酸序列中所有密码子的测算核糖体密度之和来评价所述候选核苷酸序列对所述目的多肽或蛋白质在宿主细胞中的所述表达水平的影响;以及
3)将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的候选核苷酸序列确定为所述优化的核苷酸序列;
其中对于任一所述候选核苷酸序列中第i位的三联体密码子Ci,取包含所述Ci的连续三联体密码子Ci-n至Ci+m,通过第一模型筛选所述连续三联体密码子Ci-n至Ci+m中适于用来进行所述Ci的测算核糖体密度计算的密码子作为滤过密码子,将所述滤过密码子的表征信息提供给第二模型并通过所述第二模型计算得出所述密码子Ci的测算核糖体密度;
其中i为不小于1的正整数,且n、m各自独立地为不小于零的整数。
2.根据实施方式1所述的方法,其中所述Ci-n至Ci+m包含至少2个连续三联体密码子。
3.根据实施方式1-2中任一项所述的方法,其中所述Ci-n至Ci+m包含至少6个连续三联体密码子。
4.根据实施方式1-3中任一项所述的方法,其中所述密码子Ci的测算核糖体密度为预测在蛋白质翻译过程中该密码子位于核糖体A位时所计算得到的测算核糖体密度。
5.根据实施方式1-4中任一项所述的方法,其中所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平提高,且所述测算核糖体密度之和最小的候选核苷酸序列被确定为所述优化的核苷酸序列。
6.根据实施方式1-4中任一项所述的方法,其中所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平降低,且所述测算核糖体密度之和最大的候选核苷酸序列被确定为所述优化的核苷酸序列。
7.根据实施方式1-6中任一项所述的方法,其中所述第一模型及所述第二模型均通过机器学习算法产生,且在所述第一模型的学习训练过程中,使用所述第二模型的计算准确性指标作为表明所述第一模型计算质量的反馈结果提供给所述第一模型。
8.根据实施方式1-7中任一项所述的方法,其中所述连续三联体密码子Ci-n至Ci+m包含至少2个连续的三联体密码子,所述第一模型在其中筛选出的滤过密码子的平均数量为Ci-n至Ci+m中密码子总数的约55%至约75%,且其中未被选为滤过密码子的密码子为忽略密码子。
9.根据实施方式8所述的方法,其中所述第二模型在计算所述密码子Ci的测算核糖体密度时忽略所述连续三联体密码子Ci-n至Ci+m中所述忽略密码子的表征信息。
10.根据实施方式1-9中任一项所述的方法,其中各所述候选核苷酸序列所编码的目的多肽或蛋白质的氨基酸序列相同。
11.根据实施方式1-10中任一项所述的方法,其中当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸的一种或多种密码子在至少一次筛选中被所述第一模型选为滤过密码子。
12.根据实施方式1-11中任一项所述的方法,其中当所述候选核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,这些密码子中的一种或多种在至少一次筛选中被所述第一模型选为滤过密码子。
13.根据实施方式1-12中任一项所述的方法,其中当所述候选核苷酸序列中包含密码子CGG时,密码子CGG在至少一次筛选中被所述第一模型选为滤过密码子。
14.根据实施方式1-13中任一项所述的方法,其中当所述连续三联体密码子Ci-n至Ci+m中包含密码子CGG时,密码子CGG被所述第一模型选为滤过密码子。
15.根据实施方式1-14中任一项所述的方法,其中提供多个编码所述目的多肽或蛋白质的候选核苷酸序列包括:对于所述目的多肽或蛋白质的每一个氨基酸残基,随机选择编码其的对应密码子;以及根据各氨基酸残基在所述目的多肽或蛋白质氨基酸序列中的位置顺序相应地排列所选择的所述对应密码子以获得编码所述目的多肽或蛋白质的候选核苷酸序列。
16.根据实施方式5-15中任一项所述的方法,其中通过动态规划来确定所述测算核糖体密度之和最小的候选核苷酸序列和/或所述测算核糖体密度之和最大的候选核苷酸序列。
17.根据实施方式1-16中任一项所述的方法,其中对于所述连续三联体密码子Ci-n至Ci+m中的每个密码子,所述第一模型决定是否将该密码子选为所述滤过密码子,所述第一模型包含第一循环神经网络模块和第二循环神经网络模块;其中对于每个所述密码子,所述第一循环神经网络模块获取该密码子的情境信息并将该信息提供给所述第二循环神经网络模块,且所述第二循环神经网络模块根据所述第一循环神经网络模块提供的所述情境信息决定是否将该密码子选为所述滤过密码子。
18.根据实施方式17所述的方法,其中所述第一循环神经网络模块为从正向和反向两个方向获取所述情境信息的双向循环神经网络模块。
19.根据实施方式17-18中任一项所述的方法,其中所述第一循环神经网络模块根据包括下述的信息表征所述密码子:所述密码子的类型和所述密码子在所述连续三联体密码子Ci-n至Ci+m中的位置信息。
20.根据实施方式1-19中任一项所述的方法,其中所述第一模型计算并提供所述连续三联体密码子Ci-n至Ci+m中所选择的所述滤过密码子的特征信息R。
21.根据实施方式20所述的方法,其中所述第二模型根据所述第一模型提供的所述滤过密码子的特征信息R来计算所述密码子Ci的测算核糖体密度。
22.一种用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法,其中针对所述目的多肽或蛋白质在宿主细胞中的表达水平而优化所述核苷酸序列,所述方法包括:
1)提供编码所述目的多肽或蛋白质的亲本核苷酸序列,所述亲本核苷酸序列包含连续三联体密码子C1至Cx;
2)对于所述亲本核苷酸序列中第a位的三联体密码子Ca,取包含所述Ca的连续三联体密码子Ca-b至Ca+c,通过第一模型筛选所述连续三联体密码子Ca-b至Ca+c中适于用来进行所述Ca的测算核糖体密度计算的密码子作为滤过密码子,其中所述a为1至x之间的任意正整数,且所述b、c各自独立地为不小于零的整数;
3)重复步骤2)直至对于所述C1至Cx中的每个密码子,均筛选出了适于用来进行该密码子的测算核糖体密度计算的所述滤过密码子;
4)计算所述亲本核苷酸序列中的每个密码子被选为滤过密码子的比例,得到每个所述密码子的入选机会率;
5)将其入选机会率为所述亲本核苷酸序列所有密码子入选机会率中至少前50%的密码子确定为候选修饰密码子;
6)在所述亲本核苷酸序列的一个或多个所述候选修饰密码子处进行至少一个核苷酸修饰以获得一个或多个所述亲本核苷酸序列的变体候选核苷酸序列,所述核苷酸修饰不改变所述候选修饰密码子所编码的氨基酸残基;和
7)从所述变体候选核苷酸序列中选择所述优化的核苷酸序列。
23.根据实施方式22所述的方法,其中所述Ca-b至Ca+c包含至少2个连续三联体密码子。
24.根据实施方式22-23中任一项所述的方法,其中所述Ca-b至Ca+c包含至少6个连续三联体密码子。
25.根据实施方式22-24中任一项所述的方法,其中所述密码子Ca的测算核糖体密度为预测在蛋白质翻译过程中该密码子位于核糖体A位时所计算得到的测算核糖体密度。
26.根据实施方式22-25中任一项所述的方法,其中所述连续三联体密码子Ca-b至Ca+c包含至少2个连续的三联体密码子,且所述第一模型在其中筛选出的滤过密码子的平均数量为Ca-b至Ca+c中密码子总数的约55%至约75%。
27.根据实施方式22-26中任一项所述的方法,其中当所述亲本核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,这些密码子中的一种或多种被选为所述候选修饰密码子。
28.根据实施方式22-27中任一项所述的方法,其中当所述亲本核苷酸序列中包含密码子CGG时,密码子CGG被选为所述候选修饰密码子。
29.根据实施方式22-28中任一项所述的方法,其中对于所述连续三联体密码子Ca-b至Ca+c中的每个密码子,所述第一模型决定是否将该密码子选为所述滤过密码子,所述第一模型包含第一循环神经网络模块和第二循环神经网络模块;其中对于每个所述密码子,所述第一循环神经网络模块获取该密码子的情境信息并将该信息提供给所述第二循环神经网络模块,且所述第二循环神经网络模块根据所述第一循环神经网络模块提供的所述情境信息决定是否将该密码子选为所述滤过密码子。
30.根据实施方式29所述的方法,其中所述第一循环神经网络模块为从正向和反向两个方向获取所述情境信息的双向循环神经网络模块。
31.根据实施方式29-30中任一项所述的方法,其中所述第一循环神经网络模块根据包括下述的信息表征所述密码子:所述密码子的类型和所述密码子在所述连续三联体密码子Ca-b至Ca+c中的位置信息。
32.根据实施方式22-31中任一项所述的方法,其中7)从所述变体候选核苷酸序列中选择所述优化的核苷酸序列包括:
7a)测定一个或多个所述变体候选核苷酸序列所编码的所述目的多肽或蛋白质在宿主细胞中的表达水平;以及
7b)将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的变体候选核苷酸序列确定为所述优化的核苷酸序列。
33.根据实施方式22-31中任一项所述的方法,其中7)从所述变体候选核苷酸序列中选择所述优化的核苷酸序列包括:通过实施方式1-21中任一项所述的方法确定所述变体候选核苷酸序列中的优化的核苷酸序列。
34.一种用于确定编码目的多肽或蛋白质的优化的核苷酸序列的系统,其中针对所述目的多肽或蛋白质在宿主细胞中的表达水平而优化所述核苷酸序列,所述系统包括:
1)候选核苷酸序列提供单元,所述候选核苷酸序列提供单元被设置为提供多个编码所述目的多肽或蛋白质的候选核苷酸序列;
2)候选核苷酸序列评价单元,所述候选核苷酸序列评价单元被设置为基于所述候选核苷酸序列中所有密码子的测算核糖体密度之和来评价所述候选核苷酸序列对所述目的多肽或蛋白质在宿主细胞中的所述表达水平的影响;以及
3)优化核苷酸序列确定单元,所述优化核苷酸序列确定单元被设置为将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的候选核苷酸序列确定为所述优化的核苷酸序列;
其中所述候选核苷酸序列评价单元中包括核糖体密度测算模块,所述核糖体密度测算模块包括第一模型和第二模型,其中所述核糖体密度测算模块被设置为对于任一所述候选核苷酸序列中第i位的三联体密码子Ci,取包含所述Ci的连续三联体密码子Ci-n至Ci+m,通过所述第一模型筛选所述连续三联体密码子Ci-n至Ci+m中适于用来进行所述Ci的测算核糖体密度计算的密码子作为滤过密码子,将所述滤过密码子的表征信息提供给第二模型并通过所述第二模型计算得出所述密码子Ci的测算核糖体密度,其中i为不小于1的正整数,且n、m各自独立地为不小于零的整数。
35.根据实施方式34所述的系统,其中所述Ci-n至Ci+m包含至少2个连续三联体密码子。
36.根据实施方式34-35中任一项所述的系统,其中所述Ci-n至Ci+m包含至少6个连续三联体密码子。
37.根据实施方式34-36中任一项所述的系统,其中所述密码子Ci的测算核糖体密度为预测在蛋白质翻译过程中该密码子位于核糖体A位时所计算得到的测算核糖体密度。
38.根据实施方式34-37中任一项所述的系统,其中所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平提高,且所述测算核糖体密度之和最小的候选核苷酸序列被确定为所述优化的核苷酸序列。
39.根据实施方式34-37中任一项所述的系统,其中所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平降低,且所述测算核糖体密度之和最大的候选核苷酸序列被确定为所述优化的核苷酸序列。
40.根据实施方式34-39中任一项所述的系统,其中所述核糖体密度测算模块的所述第一模型及第二模型均通过机器学习算法产生,且在所述第一模型的学习训练过程中,使用所述第二模型的计算准确性指标作为表明所述第一模型计算质量的反馈结果提供给所述第一模型。
41.根据实施方式34-40中任一项所述的系统,其中所述连续三联体密码子Ci-n至Ci+m包含至少2个连续的三联体密码子,所述核糖体密度测算模块的第一模型在其中筛选出的滤过密码子的平均数量为Ci-n至Ci+m中密码子总数的约55%至约75%,且其中未被选为滤过密码子的密码子为忽略密码子。
42.根据实施方式41所述的系统,其中所述第二模型在计算所述密码子Ci的测算核糖体密度时忽略所述连续三联体密码子Ci-n至Ci+m中所述忽略密码子的表征信息。
43.根据实施方式34-42中任一项所述的系统,其中各所述候选核苷酸序列所编码的目的多肽或蛋白质的氨基酸序列相同。
44.根据实施方式34-43中任一项所述的系统,其中当所述目的多肽或蛋白质中包含精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和色氨酸中的一种或多种时,编码这些氨基酸的一种或多种密码子在至少一次筛选中被所述第一模型选为滤过密码子。
45.根据实施方式34-44中任一项所述的系统,其中当所述候选核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,这些密码子中的一种或多种在至少一次筛选中被所述第一模型选为滤过密码子。
46.根据实施方式34-45中任一项所述的系统,其中当所述候选核苷酸序列中包含密码子CGG时,密码子CGG在至少一次筛选中被所述第一模型选为滤过密码子。
47.根据实施方式34-46中任一项所述的系统,其中当所述连续三联体密码子Ci-n至Ci+m中包含密码子CGG时,密码子CGG被所述第一模型选为滤过密码子。
48.根据实施方式34-47中任一项所述的系统,其中所述提供多个编码所述目的多肽或蛋白质的候选核苷酸序列包括:对于所述目的多肽或蛋白质的每一个氨基酸残基,随机选择编码其的对应密码子;以及根据各氨基酸残基在所述目的多肽或蛋白质氨基酸序列中的位置顺序相应地排列所选择的所述对应密码子以获得编码所述目的多肽或蛋白质的候选核苷酸序列。
49.根据实施方式38-48中任一项所述的系统,其中所述优化核苷酸序列确定单元通过动态规划来确定所述测算核糖体密度之和最小的候选核苷酸序列和/或所述测算核糖体密度之和最大的候选核苷酸序列。
50.根据实施方式34-49中任一项所述的系统,其中对于所述连续三联体密码子Ci-n至Ci+m中的每个密码子,所述第一模型决定是否将该密码子选为所述滤过密码子,所述第一模型包含第一循环神经网络模块和第二循环神经网络模块;其中对于每个所述密码子,所述第一循环神经网络模块获取该密码子的情境信息并将该信息提供给所述第二循环神经网络模块,且所述第二循环神经网络模块根据所述第一循环神经网络模块提供的所述情境信息决定是否将该密码子选为所述滤过密码子。
51.根据实施方式50所述的系统,其中所述第一循环神经网络模块为从正向和反向两个方向获取所述情境信息的双向循环神经网络模块。
52.根据实施方式50-51中任一项所述的系统,其中所述第一循环神经网络模块根据包括下述的信息表征所述密码子:所述密码子的类型和所述密码子在所述连续三联体密码子Ci-n至Ci+m中的位置信息。
53.根据实施方式34-52中任一项所述的系统,其中所述第一模型计算并提供所述连续三联体密码子Ci-n至Ci+m中所选择的所述滤过密码子的特征信息R。
54.根据实施方式53所述的系统,其中所述第二模型根据所述第一模型提供的所述滤过密码子的特征信息R来计算所述密码子Ci的测算核糖体密度。
55.一种用于确定编码目的多肽或蛋白质的优化的核苷酸序列的系统,其中针对所述目的多肽或蛋白质在宿主细胞中的表达水平而优化所述核苷酸序列,所述系统包括:
1)亲本核苷酸序列提供单元,所述亲本核苷酸序列提供单元被设置为提供编码所述目的多肽或蛋白质的亲本核苷酸序列,所述亲本核苷酸序列包含连续三联体密码子C1至Cx;
2)滤过密码子筛选单元,所述滤过密码子筛选单元包括第一模型,且所述滤过密码子筛选单元被设置为:2a)对于所述亲本核苷酸序列中第a位的三联体密码子Ca,取包含所述Ca的连续三联体密码子Ca-b至Ca+c,通过所述第一模型筛选所述连续三联体密码子Ca-b至Ca+c中适于用来进行所述Ca的测算核糖体密度计算的密码子作为滤过密码子,其中所述a为1至x之间的任意正整数,且所述b、c各自独立地为不小于零的整数;和2b)重复操作2a)直至对于所述C1至Cx中的每个密码子,均筛选出了适于用来进行该密码子的测算核糖体密度计算的所述滤过密码子;
3)入选机会率计算单元,所述入选机会率计算单元被设置为计算所述亲本核苷酸序列中的每个密码子被选为滤过密码子的比例,从而得到每个所述密码子的入选机会率;
4)候选修饰密码子确定单元,所述候选修饰密码子确定单元被设置为将其入选机会率为所述亲本核苷酸序列所有密码子入选机会率中至少前50%的密码子确定为候选修饰密码子;
5)变体候选核苷酸序列产生单元,所述变体候选核苷酸序列产生单元被设置为在所述亲本核苷酸序列的一个或多个所述候选修饰密码子处进行至少一个核苷酸修饰以获得一个或多个所述亲本核苷酸序列的变体候选核苷酸序列,所述核苷酸修饰不改变所述候选修饰密码子所编码的氨基酸残基;和
6)优化核苷酸序列选择单元,所述优化核苷酸序列选择单元被设置为从所述变体候选核苷酸序列中选择所述优化的核苷酸序列。
56.根据实施方式55所述的系统,其中所述Ca-b至Ca+c包含至少2个连续三联体密码子。
57.根据实施方式55-56中任一项所述的系统,其中所述Ca-b至Ca+c包含至少6个连续三联体密码子。
58.根据实施方式55-57中任一项所述的系统,其中所述密码子Ca的测算核糖体密度为预测在蛋白质翻译过程中该密码子位于核糖体A位时所计算得到的测算核糖体密度。
59.根据实施方式55-58中任一项所述的系统,其中所述连续三联体密码子Ca-b至Ca+c包含至少2个连续的三联体密码子,且所述滤过密码子筛选单元的所述第一模型在其中筛选出的滤过密码子的平均数量为Ca-b至Ca+c中密码子总数的约55%至约75%。
60.根据实施方式55-59中任一项所述的系统,其中当所述亲本核苷酸序列中包含密码子CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG时,这些密码子中的一种或多种被选为所述候选修饰密码子。
61.根据实施方式55-60中任一项所述的系统,其中当所述亲本核苷酸序列中包含密码子CGG时,密码子CGG被选为所述候选修饰密码子。
62.根据实施方式55-61中任一项所述的系统,其中对于所述连续三联体密码子Ca-b至Ca+c中的每个密码子,所述滤过密码子筛选单元的所述第一模型决定是否将该密码子选为所述滤过密码子,所述第一模型包含第一循环神经网络模块和第二循环神经网络模块;其中对于每个所述密码子,所述第一循环神经网络模块获取该密码子的情境信息并将该信息提供给所述第二循环神经网络模块,且所述第二循环神经网络模块根据所述第一循环神经网络模块提供的所述情境信息决定是否将该密码子选为所述滤过密码子。
63.根据实施方式62所述的系统,其中所述第一循环神经网络模块为从正向和反向两个方向获取所述情境信息的双向循环神经网络模块。
64.根据实施方式62-63中任一项所述的系统,其中所述第一循环神经网络模块根据包括下述的信息表征所述密码子:所述密码子的类型和所述密码子在所述连续三联体密码子Ca-b至Ca+c中的位置信息。
65.根据实施方式55-64中任一项所述的系统,其中所述6)优化核苷酸序列选择单元包括:
6a)表达水平测定单元,所述表达水平测定单元被设置为测定一个或多个所述变体候选核苷酸序列所编码的所述目的多肽或蛋白质在宿主细胞中的表达水平;和
6b)优化核苷酸序列确定单元,所述优化核苷酸序列确定单元被设置为将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的变体候选核苷酸序列确定为所述优化的核苷酸序列。
66.根据实施方式55-64中任一项所述的系统,其中所述6)优化核苷酸序列选择单元包括:实施方式34-54中任一项所述的确定所述变体候选核苷酸序列中编码目的多肽或蛋白质的优化的核苷酸序列的系统。
67.一种计算机存储介质,其包含用于实现实施方式1-33中任一项所述方法的步骤的计算机可执行指令。
68.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现实施方式1-33中任意一项所述方法的步骤。
69.一种计算机设备,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中所述处理器执行所述计算机程序时实现实施方式1-33中任意一项所述的方法。
70.制备目的多肽或蛋白质的方法,所述方法包括:
将编码所述目的多肽或蛋白质的核酸分子引入宿主细胞中,以及
在允许所述目的多肽或蛋白质表达的条件下培养所述宿主细胞;
其中所述核酸分子包含根据实施方式1-33中任一项的方法或者由实施方式34-66中任一项的系统所确定的编码所述目的多肽或蛋白质的优化的核苷酸序列。
71.根据实施方式1-33中任一项的方法或者通过实施方式34-66中任一项的系统所确定的优化的核苷酸序列。
72.根据实施方式1-33中任一项的方法或者通过实施方式34-66中任一项的系统所确定的优化的核苷酸序列在优化目的多肽或蛋白质表达水平中的用途。
73.优化目的多肽或蛋白质表达水平的方法,所述方法包括根据实施方式1-33中任一项所述的方法或者通过实施方式34-66中任一项的系统确定编码所述目的多肽或蛋白质的优化的核苷酸序列。
不欲被任何理论所限,下文中的实施例仅仅是为了阐释本申请的装置、方法和系统的工作方式,而不用于限制本申请发明的范围。
实施例
实施例1模型的建立及训练
首先,设计了一种基于强化学习的新型模型(图1),其包括本申请的第一模型以及第二模型。所述第一模型被用于从原始的输入序列(连续密码子)中进行特征选择,以保留最能体现样本性质的部分密码子信息作为“滤过密码子”,未被选择的其他密码子(忽略密码子)信息则被掩盖(mask),从而不再作为输入特征的一部分。第二模型(Predictor)根据第一模型提供的滤过密码子对该输入序列(连续密码子)对应的核糖体密度进行回归。由于第一模型和第二模型都对输入序列中的不同信息进行了整合,因此本申请的模型能够更好地捕捉不同序列特征之间的相互作用,从而进一步提高模型的预测效能和鲁棒性。
1.1核糖体印迹测序数据集
为了建立和训练所述第一模型和第二模型,使用了来自酿酒酵母的S.cerevisiae的高质量核糖体印迹测序数据(Weinberg et al.,2016)作为训练和测试数据。从GEO数据库下载了原始测序数据(编号GSM1289257)并通过一系列生物信息学处理得到了密码子水平上的核糖体密度数据。简要地,首先去除了测序片段(read)5’端的条码(barcode)序列和3’端连接子(linker)序列(SEQ ID NO:12:TCGTATGCCGTCTTCTGCTTG)。然后,利用bowtie2.1.0(Langmead and Salzberg,2012)去除了来自核糖体RNA(rRNA)和非编码RNA(ncRNA)的测序片段。具体而言,收集了去除条码和连接子序列后剩余长度大于10个碱基的测序片段,并将这些片段与酵母的rRNA以及ncRNA序列进行了比对,去除了重合的测序片段。
为了进一步计算每个密码子位于核糖体A位置时对应的核糖体密度,在后续分析中保留了长度为28、29或30且可以被唯一定位到转录组上某处的测序片段。对于长度为28或29的测序片段,设定其对应的A位置在第14、15或16位碱基,分别对应-2,-1,0三个可能的阅读框。类似地,长度为30碱基的测序片段对应的A位置被设定为在第15、16或17位置。用每条转录本的平均核糖体密度对各个密码子位置进行归一化,归一化后的核糖体密度成为回归任务的标签。
1.2建立及训练第一模型和第二模型
对于每个待预测的密码子(记为位置0,对应核糖体的A位置),使用其上游到下游共计十个密码子(进行建模和模型训练时,-5到+4位置)作为其序列环境输入模型中(参见图2)。模型的输入的信息包括四部分。第一,是密码子种类的信息,对于64种密码子进行了独热编码,从而使得每个序列环境中的密码子对应一个64维的向量,其所属的密码子种类被记为1,其余种类记为0。其次,对核苷酸信息做了类似的编码,从而获得了一个12维的向量(每个核苷酸4维乘以每个密码子三个核苷酸位置)。第三,是对密码子位置信息的独热编码,表明该密码子在序列环境中的位置,共10维。对于序列环境的每个密码子,这三部分信息拼接共同组成了一个86维的输入向量x,而10个输入的密码子特征共同组成输入矩阵(x1,x2,...,x10)。本申请的系统还可以进一步整合RNA折叠的能量信息E。
对于每个输入的A位置密码子,利用强化学习中的第一模型进行特征选择,从而根据每个输入样本的特点选择出与其对应的核糖体密度最为相关的序列特征。在第一模型中,使用了两种神经网络结构,包括一个用来提取并整合序列信息的双向的循环神经网络(BiRNN)(Gravesetal.,2013)和另一个反馈式循环神经网络(RNN with feedback),该反馈式循环神经网络根据BiRNN抽取的信息进行判断,最终做出特征选择的决策。
具体而言,在第一个经过双向的循环神经网络后,对于每一个输入中的密码子,可以获得一个整合了上下文信息的一个隐藏层表示
Figure BDA0002062857260000551
Figure BDA0002062857260000552
并将其拼接在一起作为这一密码子的特征
Figure BDA0002062857260000553
所述
Figure BDA0002062857260000554
定义如下:
Figure BDA0002062857260000555
其中,Θα表示所述第一模型中的参数,
Figure BDA0002062857260000556
Figure BDA0002062857260000557
表示向前和向后两个方向上的循环神经网络,
Figure BDA0002062857260000558
Figure BDA0002062857260000559
可表示循环神经网络在输入位置t时两个方向的隐藏层向量。在本实施例中,使用了门控循环单元(gated recurrentunit,GRU)(Cho etal.,2014)作为BiRNN中的循环单元,即对于某一个方向的输入有
zt=σ(Wzxxt+Wzhht-1), (3)
rreset,t=σ(Wrxxt+Wrhht-1), (4)
Figure BDA00020628572600005510
Figure BDA00020628572600005511
其中,o表示矩阵元素相乘,σ表示sigmoid函数,W表示权重,zt和rreset,t分别表示更新门和重置门的参数,此公式中省略了置偏项。如上文所述,基于BiRNN的隐藏层作为输入,进一步使用另一种反馈式循环神经网络,按照核糖体的翻译顺序从前向后对每一个位置是否应该作为滤过密码子进行判断,结果用一系列0/1指示变量(s1,s2,...,s10)表示。从强化学习的角度,可认为这一选择过程是一个部分可观察的马尔科夫决策过程(partiallyobservable Markov decision process)(Sutton etal.,1998;Astrom,1965),即每一个位置的的决策只依赖于本位置的输入信息、上一位置的状态以及之前所有决策的历史。每一次的决策的概率P(s|X)可以用下式表示:
Figure BDA00020628572600005512
其中S1~t-1表示S1到St-1的所有变量。
具体而言,为了使得几次的决策之间具有相关性,在RNN中使用了反馈机制,在每一次做出决策时考虑三部分信息:(1)该位置对应的隐层信息
Figure BDA00020628572600005513
(2)上一位置的状态Vt-1;(3)过去所有的决策历史S1~t-1。在输入决策历史时,求出了所有历史决策的加和,然后用一个10维的独热编码来表示该加和的结果。
对于决策St,所述第一模型给出如下结果:
Figure BDA0002062857260000561
Figure BDA0002062857260000562
p(st|X,s1~t-1)=softmax(Wαvt+bα), (10)
其中,Wα和bα分别表示模型权重和置偏项,f(·)=∑si表示各变量的加和。在对模型进行训练时,可采用∈-greedy方法(Sutton et al.,1998;Mnih et al.,2015)对决策动作进行采样。而在测试中,直接选取所述第一模型提供的后验概率最大的动作,即st=argmax p(st|X,s1~t-1)。
在所述第一模型完成计算后,根据产生的指示变量s1-T确定被选中的滤过密码子,从而综合输入的密码子序列以及对于每个密码子作出的决策得出所述滤过密码子的矩阵R,其可如下表示:
Rt=stxt (11)
其中R表示经过选择的原始独热编码,其中被选为滤过密码子的密码子信息与输入矩阵相同,而其他部分的信息则被抹去,不再参与后续的预测。
经过第一模型的特征选择,获得了部分序列特征作为回归核糖体密度的滤过密码子。在第二模型中,进一步整合了这些被选择的滤过密码子与RNA折叠能量,并最终对核糖体密度进行预测。为了编码每个密码子位置mRNA的折叠能量E,首先计算了以每个碱基为中心,长度为30碱基的mRNA片段对应的mRNA折叠能量(Lorenz et al.,2011),并将同一个密码子中3个碱基对应的折叠能量进行拼接作为该密码子的能量编码。同时,与密码子位置编码一致,在能量矩阵中也加入了密码子的位置信息。
在本实施例的模型中,所述第二模型也是一个多层神经网络,其由三个部分组成:(1)两个双向循环神经网络,分别学习依据矩阵R和RNA折叠能量E的信息;(2)对应的最大池化层(Conneau et al.,2017),在隐藏层的每个维度上选择最大的激活值;(3)一个全连接层,根据池化层的输出结果做出最终预测。将第二模型网络被记为
Figure BDA0002062857260000563
并根据下述公式对其进行计算:
Figure BDA0002062857260000564
ui=max{c1,i,c2,i,...,cT,i},qi=max{e1,i,e2,i,...,eT,i), (16)
PredictorΘβ(R,E)=wβ[u;q]+bβ, (17)
其中,ct和et分别表示序列信息和RNA折叠能量的隐藏层变量,其对应的位置信息为t,ct和et由两个循环神经网络
Figure BDA0002062857260000565
Figure BDA0002062857260000566
分别得出,wβ和bβ分别表示全连接层的权重和置偏项,Θβ表示所述第二模型中的参数。
学习过程
在本申请中,设计了第一模型来产生合理的滤过密码子,并利用另一个第二模型网络则根据这些滤过密码子完成最后的回归。因此,在本实施例的学习中采用了强化学习中的actor-critic算法框架(Barto et al.,1983)进行训练。在训练过程中,第二模型的优化可以通过标准的梯度反向传导完成;然而,由于第一模型做出的选择不能直接利用监督信息的进行优化,其训练需要按照强化学习的方法,通过最大化期望奖励进行。
对于第二模型而言,直接使用最小化均方误差的方法对其进行优化,即:
Figure BDA0002062857260000571
其中y可以代表核糖体密度的实验值,
Figure BDA0002062857260000572
可以代表训练数据的实体,
Figure BDA0002062857260000579
可以代表损失函数,Θβ可以代表所述第二模型中的参数。
对于第一模型,无法预先获知哪些密码子位置应当被选为滤过密码子。因此,通过合理的奖励机制,利用强化学习方法对所述第一模型进行训练。根据稀疏性指标和准确性指标来设计所述奖励机制。在奖励机制中引入预测效能衡量
Figure BDA0002062857260000573
以使得选出的滤过密码子与第二模型的结果高度相关。另一方面,为了保证滤过密码子的稀疏性,进一步加入对滤过密码子s的L1约束。
将最终的奖励表示为:
Figure BDA0002062857260000574
其中||s||1可代表上述的L1稀疏性限制,λ可表示L1项的权重。可将训练的目标确定为使得上述奖励对于整个决策分布的期望
Figure BDA0002062857260000575
最大化,例如
Figure BDA0002062857260000576
其中,
Figure BDA0002062857260000577
可代表针对所有取样操作的预期奖励。
在训练过程中,所述第一模型和所述第二模型的优化是相辅相成的。一方面,所述第一模型选择出更优的特征使得所述第二模型的训练更为简单;另一方面,更优的第二模型通过更准确的奖励使得所述第一模型的优化更为合理。此外,在优化中,所述第二模型和第一模型的优化都涉及对回归均方误差的最小化。在训练中,通过最小化以下的统一损失函数而对整体进行优化。
Figure BDA0002062857260000578
其中,η参数可协调所述第一模型与所述第二模型的训练速度。例如,可使用REINFORCE算法(Williams,1992)来训练所述第一模型。为了降低REINFORCE算法的数值波动,在训练时可对每个样本进行多次(例如至少2次,至少3次,至少4次,至少5次,至少6次,至少7次,至少8次,至少9次,至少10次或更多次)采样,并将平均的奖励值作为基线减去,低于基线的奖励值所对应的动作采样可被舍弃。本申请中模型的实现可基于pytorch0.3.1(https://github.com/pytorch),可使用NVIDIA's GeForce GTX 1080GPU进行加速。
实施例2滤过密码子的选择和贡献
由于在强化学习的奖励设计中加入了稀疏性限制,所述第一模型选择了部分输入信息作为滤过密码子。值得注意的是,发现61种非终止密码子被选为滤过密码子的概率各不相同(结果如图3A所示)。其中,编码两类氨基酸的密码子具有最高的被选择频率:第一类是带电氨基酸,如精氨酸(arginine);第二类是具有特殊构象的氨基酸,如甘氨酸(glycine)和脯氨酸(proline)。另一方面,编码疏水氨基酸的密码子被选为滤过密码子的概率较小。此外,也发现极端稀有的密码子CGG(精氨酸),100%被第一模型选为滤过密码子,提示了这一密码子在决定蛋白质翻译速率中的重要性。
此外,还发现编码下述氨基酸的密码子对于结果有较大贡献且被选为滤过密码子的概率更大:精氨酸、谷氨酸、脯氨酸、甘氨酸、丝氨酸、苏氨酸、谷氨酰胺、丙氨酸、异亮氨酸、亮氨酸、缬氨酸和/或色氨酸。例如,下述密码子对于结果有较大贡献且被选为滤过密码子的概率更大:CGG、CGA、GAG、CCG、GGA、GGG、GGC、TCG、ACG、CAG、GCG、GCA、ATA、CTG、GTG和/或TGG。
为了更好地鉴别每个密码子种类在核糖体密度预测任务中的贡献,进行了以下的定量分析。在分析中,在保持其他输入信息不变的情况下,依次去除每个种类的密码子的信息,然后统计所述第一模型及第二模型测算结果的变化情况(结果如图3B所示)。
在去除某个密码子的信息后(置为0),所述第一模型和第二模型给出的预测值可以作为一个基线值来衡量剩余因素对核糖体密度的影响;从而,将模型给出的原始分数与此基线值相减时,得到的增量部分就代表了这一信息对预测的贡献。本实施例中,分析了各密码子位于核糖体A位的时的影响。由于忽略密码子在第二模型中已经处于被置零的状态,结果实际上只在被选为滤过密码子的密码子上进行。结果首先捕捉到了CGG(精氨酸)、CGA(精氨酸)和CCG(脯氨酸)三种密码子对于局部核糖体密度的显著影响。
于是,进一步探究了密码子稀有性和其对于局部核糖体密度影响之间的关系,结果如图4所示。为了统计密码子的使用频率,在测试集的序列上计算了各个密码子的适应指数(codon adaptation index,CAI)(Sharp and Li,1987),具体定义为某一密码子的出现频率与所有同义密码子出现总频率的比值。结果表明,对于不同的密码子种类,其位于A位置时对于局部核糖体密度的影响与其密码子适应指数呈现显著的负相关关系,其皮尔森相关系数为-0.64。
实施例3确定优化的多核苷酸序列
本申请的发明人研究了利用本申请的模型来产生优化的多核苷酸序列,从而优化目的多肽或蛋白质的表达水平。
首先,将本申请的第一模型和第二模型给出的各密码子位置测算核糖体密度之和定义为蛋白质的总翻译时间。在本实施例中,使用了动态规划算法实现蛋白质总翻译时间的最小化,这一操作等价于最大化核糖体的翻译速率、减少核糖体停顿,从而达到提高蛋白质产量的目的。在本实施例中,只使用了密码子水平的信息(即密码子种类信息和位置信息,没有使用核苷酸信息)作为输入至模型的密码子表征信息,同时将输入的序列环境调整为-3到+2位置的6个连续密码子。
经试验发现,平均而言,使用本申请的强化学习策略可以从输入的6个密码子位置中合理地选出4个密码子并基本保持了模型的预测效果(见图8)。由图8可知,与随机挑选滤过密码子相比,通过本申请的第一模型来挑选滤过密码子时,当滤过密码子的平均数量占输入密码子总数的约55%至70%时,就能够达到良好的预测效果,这将大大提高模型的预测效率并有助于限定修饰的范围,从而更有效地确定优化的多核苷酸序列。图8的结果是使用核糖体印迹密度数据中表达量前500的基因而获得的。误差条代表标准偏差。
为了测试通过本申请的方法和系统优化蛋白质编码序列的效果,构建了一个新型的双色荧光基因酵母报告体系(参见图5)。具体而言,首先在酿酒酵母基因组中敲入一个红色荧光蛋白mCherry表达单元作为确定蛋白表达水平的内部参照。该红色荧光蛋白表达单元由强启动子PGK1、mCherry基因以及强终止子CYC1组成,可以持续表达红色荧光蛋白,作为该系统蛋白表达能力的内部参照。同时,利用相同的启动子和终止子来控制目的蛋白质的表达量。为了检测的方便性,使用了黄色荧光蛋白eCitrine作为报告基因,并利用算法设计了编码相同蛋白质序列的不同eCitrine的候选多核苷酸序列。在构建双色荧光报告体系时,首先利用pAbAi载体系统将红色荧光蛋白整合到酿酒酵母的基因组中,然后进一步利用酵母非整合型的pRS315载体分别将具有不同密码子序列的黄色荧光蛋白转入酿酒酵母。pRS315载体利用整合了自主复制序列(autonomous replicating sequence,ARS)的CEN6中心粒保持了该质粒系统的单拷贝性。最终,通过两种荧光信号平均荧光强度(meanfluorescence intensity)的比值判断目的蛋白质的表达量。
双色荧光报告体系构建使用SaccharomycescerevisiaeY1HGold菌株(Clontech,USA)(MATα,ura3-52,his3-200,ade2-101,trp1-901,leu2-3,112,gal4Δ,gal80Δ,met-,MEL1)。含有红色mCherry或黄色eCitrine荧光的蛋白质表达单元由三部分组成:上游是酵母持续型强启动子PGK1,其后是被表达基因序列,最后是酵母强终止子CYC1,所有目的序列可以由基因合成获得。为了将mCherry基因整合到酵母基因组中,使用pAbAi质粒作为载体,利用Y1HGold基因组中的ura3-52位点进行同源重组。使用Gibson组装(Gibson et al.,2009)方法将mCherry基因组装到经SacI和PvuII(NEB,USA)双酶切的质粒中。在基因组重组时,使用了Gene Pulser Xcell Electroporation System(BIO-RAD,USA),将1μg经BtsBI(NEB,USA)线性化的mCherry-pAbAi质粒电转转化入宿主酵母中(转化条件:0.2cm电击杯、1.5kV、25μF和200Ω)。转化完成后,利用无尿嘧啶的合成完全培养基(SD/-Ura)进行阳性克隆筛选,阳性克隆进一步通过菌落PCR和测序实验确认正确的基因组插入位点,使用的引物如表1所示。
表1引物序列
Figure BDA0002062857260000601
在本实施例中,将野生型Y1HGold(阴性对照)、单红色荧光菌株或者双色荧光菌株的单克隆挑出,并在15mL培养管中分别使用2mLYPDA、SD/-Ura或SD/-Ura/-Leu培养基进行培养。每个实验或对照组使用三次生物学重复进行测试,在摄氏30℃、250rpm的条件下培养12小时。培养完成后,将菌液在4000rpm的离心5分钟以收集酵母细胞,并用PBS缓冲液清洗两次,最终置于4mL的PBS缓冲液中在摄氏4℃保存。使用Fortessa四色流式细胞分析仪上述样品(BD Biosciences)分析上述样品。红色荧光mCherry激发波长561nm,发射波长610nm;黄色eCritine荧光激发波长488纳米,发射波长505纳米。每次测量收集50,000个事件(event),数据处理使用FlowJo软件完成。代表性的流式细胞结果参见图9。
结果表明,利用本申请的方法和系统得到了表达量优化的eCitrine编码核苷酸序列,且相较于其他方法(例如iXnos方法)获得的多核苷酸序列,产生了将近31%的蛋白质表达量提升(图6)。结果表明,可以利用本申请的方法和系统获得使目的多肽或蛋白质表达量最优的多核苷酸序列。
此外,为了判断是否能够通过本申请的方法和系统确定候选修饰密码子,从而使得只有被所述第一模型选为滤过密码子的位置/密码子才能被其他同义密码子替代优化,从而避免许多不必要的改变并最大程度保留原序列的特征,还进行了下述实验。
对于本实施例中获得的最优序列(如SEQ ID NO:1所示),首先根据第一模型给出的结果统计每一个密码子被选为滤过密码子的频率(即入选机会率)(图7)。根据这一入选机会率的高低,将所有的密码子分为两类,入选机会率较高的一半(120个密码子)称为滤过密码子+区域,较低的一半被称为滤过密码子-区域。然后,从本申请的方法和系统给出的最优序列(SEQ ID NO:1所示)出发,最大化其翻译时间(即使得各密码子的测算核糖体密度之和最大),从而降低蛋白质翻译的产量,将这一过程称为反向设计(reverse design)。在反向设计的过程中,限制密码子可以改变的范围,使其局限于滤过密码子+或滤过密码子-区域。通过这一设计,可以检测改变这两类密码子对蛋白质表达优化过程影响的不同(所获得的变体候选核苷酸序列分别如SEQ ID NO:2和SEQ ID NO:3所示)。结果显示,改变滤过密码子+区域密码子造成的蛋白质表达水平下降几乎是改变滤过密码子-区域的两倍,这进一步说明本申请的方法和系统选择出的滤过密码子作为候选修饰密码子的高效性和效力。
前述详细说明是以解释和举例的方式提供的,并非要限制所附权利要求的范围。目前本文所列举的实施方式的多种变化对本领域普通技术人员来说是显而易见的,且保留在所附的权利要求和其等同方案的范围内。
序列表
<110> 清华大学
<120> 确定优化的核苷酸序列的方法和系统
<130> 0019-PA-048
<160> 12
<170> PatentIn version 3.5
<210> 1
<211> 717
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> eCitrine最优序列
<400> 1
atgagcaaag gtgaggaact gttcactggt gtcgtcccaa tcctggttga actggatggg 60
gatgtaaacg gccacaaatt ttccgtctct ggagaagggg aaggtgatgc cacctatggt 120
aaacttactc tgaaattcat ctgcaccact ggcaaactcc ccgtcccctg gccgaccctc 180
gtgaccaccc tcggatacgg cctcatgtgt tttgcccgct accccgacca catgaaacaa 240
cacgactttt ttaaatccgc catgcccgag ggttatgtcc aagaaagaac tattttcttt 300
aaggatgacg ggaattacaa aacccgcgcc gaagttaaat ttgagggtga tactctggtt 360
aatagaattg aactgaaagg tattgacttt aaggaggacg gcaacatcct cggccacaaa 420
ttggaatata actataactc ccacaatgtc tatattatgg ccgataaaca aaaaaatggt 480
attaaagtta actttaaaat ccgccacaat attgaagatg gctccgtcca actggccgac 540
cactatcaac aaaacacccc catcggggac ggccccgtcc tgctgcctga taatcactat 600
ttatcttatc aatccgccct ttctaaagac cctaatgaaa aacgtgatca catggttctg 660
ttagaattcg tcaccgccgc cggaatcacc cacggcatgg atgaactgta taaatga 717
<210> 2
<211> 717
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 采用滤过密码子+密码子反向设计得到的eCitrine序列
<400> 2
atgagcaaag gtgaggagct tttcactggt gtggtaccga tactagttga actggatggg 60
gacgtaaacg gacataagtt ttcagtcagc ggagaagggg agggagatgc aacatatggt 120
aagctgacgc tgaaattcat ctgcacgact ggcaaactcc cagtcccgtg gccgacgtta 180
gtgacaacgc tcggatacgg attaatgtgt tttgcgcggt acccagacca catgaagcaa 240
catgattttt ttaagtcggc aatgccggag ggttatgtcc aggagcggac gattttcttt 300
aaagacgatg ggaattacaa gacgcgggca gaggttaaat ttgagggaga tacgctggtt 360
aacagaatag agctgaaggg aattgacttt aaggaggatg gcaacatcct aggccataag 420
ttggaatata actataacag ccataacgtg tatattatgg cagataagca aaagaatggg 480
attaaggtta attttaagat ccggcacaat attgaagatg gaagcgtgca actggcagat 540
cattatcaac aaaacacgcc cataggggat ggaccggtgc tgctgcccga taatcactat 600
ttatcgtatc aatcggcact aagcaaagac ccgaatgaaa agcgggatca catggttctg 660
ctagaattcg tgacggcagc cggaatcacg catggaatgg atgaattgta taaatga 717
<210> 3
<211> 717
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 采用滤过密码子-密码子反向设计得到的eCitrine序列
<400> 3
atgagcaagg gagaagaact gttcacgggc gtcgtcccaa tcctggtgga gctagatgga 60
gatgtgaacg gccacaaatt ctccgtatct ggggagggag aaggtgacgc cacctacggt 120
aaacttactt tgaagttcat atgcaccacg gggaagctgc ccgttccctg gccgaccctc 180
gtcaccacct tagggtacgg cctcatgtgt ttcgcccgct accccgatca tatgaaacag 240
cacgacttct tcaaatccgc catgcccgaa gggtacgtgc aagaaagaac tatattcttc 300
aaggatgacg gtaactacaa aacccgcgcc gaagtcaagt tcgaaggtga tactctggtg 360
aatcggattg aactgaaagg tatagatttc aaggaagacg gtaatatact cgggcacaaa 420
ctggagtaca attacaattc ccacaatgtc tatataatgg cagataaaca gaaaaatggt 480
atcaaagtca acttcaaaat acgccacaat atagaggatg gctccgtcca gctagccgac 540
cactaccagc agaacacccc catcggagac ggccccgtcc tccttcctga taaccattac 600
ctatcttacc agtccgccct ttctaaggat cctaacgaga aacgtgatca tatggtgctg 660
ttagagttcg tcaccgccgc agggataacc cacggcatgg acgagctgta caagtga 717
<210> 4
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> mCherry F
<400> 4
gaaaagcttg aattcgagct tgacttcaac tcaagacgca c 41
<210> 5
<211> 40
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> mCherry R
<400> 5
tggccgattc attaatgcag gcaaattaaa gccttcgagc 40
<210> 6
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> pAbAi SeqF
<400> 6
tgttcggaga ttaccgaatc 20
<210> 7
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> pAbAi SeqR
<400> 7
cgcctttgag tgagctgata 20
<210> 8
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> eCitrine F
<400> 8
ctatagggcg aattggagct tgacttcaac tcaagacgca c 41
<210> 9
<211> 40
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> eCitrine R
<400> 9
caaaagctgg gtaccgggcc gcaaattaaa gccttcgagc 40
<210> 10
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> M13F
<400> 10
cccagtcacg acgttgtaaa acg 23
<210> 11
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> M13R
<400> 11
agcggataac aatttcacac agg 23
<210> 12
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 连接子序列
<400> 12
tcgtatgccg tcttctgctt g 21

Claims (10)

1.一种用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法,其中针对所述目的多肽或蛋白质在宿主细胞中的表达水平而优化所述核苷酸序列,所述方法包括:
1)提供多个编码所述目的多肽或蛋白质的候选核苷酸序列;
2)基于所述候选核苷酸序列中所有密码子的测算核糖体密度之和来评价所述候选核苷酸序列对所述目的多肽或蛋白质在宿主细胞中的所述表达水平的影响;以及
3)将使得所述目的多肽或蛋白质在宿主细胞中的所述表达水平优化的候选核苷酸序列确定为所述优化的核苷酸序列;
其中对于任一所述候选核苷酸序列中第i位的三联体密码子Ci,取包含所述Ci的连续三联体密码子Ci-n至Ci+m,通过第一模型筛选所述连续三联体密码子Ci-n至Ci+m中适于用来进行所述Ci的测算核糖体密度计算的密码子作为滤过密码子,将所述滤过密码子的表征信息提供给第二模型并通过所述第二模型计算得出所述密码子Ci的测算核糖体密度;
其中i为不小于1的正整数,且n、m各自独立地为不小于零的整数。
2.根据权利要求1所述的方法,其中所述Ci-n至Ci+m包含至少2个连续三联体密码子。
3.根据权利要求1-2中任一项所述的方法,其中所述Ci-n至Ci+m包含至少6个连续三联体密码子。
4.根据权利要求1-3中任一项所述的方法,其中所述密码子Ci的测算核糖体密度为预测在蛋白质翻译过程中该密码子位于核糖体A位时所计算得到的测算核糖体密度。
5.根据权利要求1-4中任一项所述的方法,其中所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平提高,且所述测算核糖体密度之和最小的候选核苷酸序列被确定为所述优化的核苷酸序列。
6.根据权利要求1-4中任一项所述的方法,其中所述表达水平优化指使所述多肽或蛋白质在宿主细胞中的表达水平降低,且所述测算核糖体密度之和最大的候选核苷酸序列被确定为所述优化的核苷酸序列。
7.根据权利要求1-6中任一项所述的方法,其中所述第一模型及所述第二模型均通过机器学习算法产生,且在所述第一模型的学习训练过程中,使用所述第二模型的计算准确性指标作为表明所述第一模型计算质量的反馈结果提供给所述第一模型。
8.根据权利要求1-7中任一项所述的方法,其中所述连续三联体密码子Ci-n至Ci+m包含至少2个连续的三联体密码子,所述第一模型在其中筛选出的滤过密码子的平均数量为Ci-n至Ci+m中密码子总数的约55%至约75%,且其中未被选为滤过密码子的密码子为忽略密码子。
9.根据权利要求8所述的方法,其中所述第二模型在计算所述密码子Ci的测算核糖体密度时忽略所述连续三联体密码子Ci-n至Ci+m中所述忽略密码子的表征信息。
10.一种用于确定编码目的多肽或蛋白质的优化的核苷酸序列的方法,其中针对所述目的多肽或蛋白质在宿主细胞中的表达水平而优化所述核苷酸序列,所述方法包括:
1)提供编码所述目的多肽或蛋白质的亲本核苷酸序列,所述亲本核苷酸序列包含连续三联体密码子C1至Cx;
2)对于所述亲本核苷酸序列中第a位的三联体密码子Ca,取包含所述Ca的连续三联体密码子Ca-b至Ca+c,通过第一模型筛选所述连续三联体密码子Ca-b至Ca+c中适于用来进行所述Ca的测算核糖体密度计算的密码子作为滤过密码子,其中所述a为1至x之间的任意正整数,且所述b、c各自独立地为不小于零的整数;
3)重复步骤2)直至对于所述C1至Cx中的每个密码子,均筛选出了适于用来进行该密码子的测算核糖体密度计算的所述滤过密码子;
4)计算所述亲本核苷酸序列中的每个密码子被选为滤过密码子的比例,得到每个所述密码子的入选机会率;
5)将其入选机会率为所述亲本核苷酸序列所有密码子入选机会率中至少前50%的密码子确定为候选修饰密码子;
6)在所述亲本核苷酸序列的一个或多个所述候选修饰密码子处进行至少一个核苷酸修饰以获得一个或多个所述亲本核苷酸序列的变体候选核苷酸序列,所述核苷酸修饰不改变所述候选修饰密码子所编码的氨基酸残基;和
7)从所述变体候选核苷酸序列中选择所述优化的核苷酸序列。
CN201910411408.0A 2019-05-16 2019-05-16 确定优化的核苷酸序列的方法和系统 Active CN111951891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910411408.0A CN111951891B (zh) 2019-05-16 2019-05-16 确定优化的核苷酸序列的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910411408.0A CN111951891B (zh) 2019-05-16 2019-05-16 确定优化的核苷酸序列的方法和系统

Publications (2)

Publication Number Publication Date
CN111951891A CN111951891A (zh) 2020-11-17
CN111951891B true CN111951891B (zh) 2022-11-01

Family

ID=73336378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411408.0A Active CN111951891B (zh) 2019-05-16 2019-05-16 确定优化的核苷酸序列的方法和系统

Country Status (1)

Country Link
CN (1) CN111951891B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786120B (zh) * 2021-01-26 2022-07-05 云南大学 神经网络辅助化学材料合成的方法
CN115410660B (zh) * 2022-11-02 2023-01-24 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN117497092B (zh) * 2024-01-02 2024-05-14 微观纪元(合肥)量子科技有限公司 基于动态规划和量子退火的rna结构预测方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2410048T3 (en) * 2005-01-24 2016-11-28 Dsm Ip Assets Bv A process for the preparation of a compound of interest in a filamentous fungal cell
EP2021490B1 (en) * 2006-05-30 2011-09-07 Pfenex, Inc. Anthrax vaccine
HRP20170589T2 (hr) * 2014-12-22 2023-05-12 Sandoz Ag Varijante sekvenci
EP3307761A4 (en) * 2015-06-09 2019-01-16 Sanofi Pasteur Inc. PROCESS FOR OPTIMIZING NUCLEOTIDE SEQUENCES COPING MANIPULATED INFLUENZA PROTEINS

Also Published As

Publication number Publication date
CN111951891A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111951891B (zh) 确定优化的核苷酸序列的方法和系统
Duveau et al. Fitness effects of altering gene expression noise in Saccharomyces cerevisiae
Wang et al. De novo prediction of RNA–protein interactions from sequence information
Vitulo et al. First survey of the wheat chromosome 5A composition through a next generation sequencing approach
EP3659143A1 (en) Deep learning-based techniques for pre-training deep convolutional neural networks
WO2020081122A1 (en) Deep learning-based techniques for pre-training deep convolutional neural networks
US11767534B2 (en) Multiplexed genetic reporter assays and compositions
CN109504768A (zh) 用于诊断肺病的生物标记物及其使用方法
CN106033502B (zh) 鉴定病毒的方法和装置
CN113066527B (zh) 一种siRNA敲减mRNA的靶点预测方法和系统
CN106295246A (zh) 找到与肿瘤相关的lncRNA并预测其功能
Yang et al. Testing three pipelines for 18S rDNA-based metabarcoding of soil faunal diversity
Mostavi et al. Deep-2'-O-me: predicting 2'-O-methylation sites by convolutional neural networks
US11398297B2 (en) Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
CN107937394A (zh) 一种达氏鲟性腺差异表达基因gsdf及其筛选方法
KR20210068554A (ko) 배아에서 염색체 이상을 확인하기 위한 시스템 및 방법(systems and methods for identifying chromosomal abnormalities in an embryo)
Fierro et al. Meta analysis of gene expression data within and across species
CN117153259A (zh) 一种基于卷积神经网络预测哺乳动物家畜增强子序列的装置、方法及计算机可读存储介质
CN114694746A (zh) 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法
Petit-Marty et al. State-of-the-art of data analyses in environmental DNA approaches towards its applicability to sustainable fisheries management
CN114927163A (zh) 一种基于单细胞图谱预测遗传模型的方法和存储介质
CN111613270B (zh) 基于机器学习分析基因上游启动子对表达影响强度的方法
JP2008161056A (ja) Dna配列解析装置、dna配列解析方法およびプログラム
Zhao et al. Predicting gene expression level in E. coli from mRNA sequence information
CN108517367B (zh) 确定林木次生生长过程中关键lncRNA及其功能的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant