CN110070913B - 一种基于免疫算法的密码子优化方法 - Google Patents

一种基于免疫算法的密码子优化方法 Download PDF

Info

Publication number
CN110070913B
CN110070913B CN201710611752.5A CN201710611752A CN110070913B CN 110070913 B CN110070913 B CN 110070913B CN 201710611752 A CN201710611752 A CN 201710611752A CN 110070913 B CN110070913 B CN 110070913B
Authority
CN
China
Prior art keywords
optimization
sequence
protein
proteins
codon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710611752.5A
Other languages
English (en)
Other versions
CN110070913A (zh
Inventor
樊隆
孙岩
吴东明
黄小罗
张丽华
柳振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Jinsirui Science and Technology Biology Corp
Original Assignee
Nanjing Jinsirui Science and Technology Biology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Jinsirui Science and Technology Biology Corp filed Critical Nanjing Jinsirui Science and Technology Biology Corp
Priority to CN201710611752.5A priority Critical patent/CN110070913B/zh
Priority to KR1020207005489A priority patent/KR20200038263A/ko
Priority to EP18839139.5A priority patent/EP3660852B1/en
Priority to PCT/CN2018/097040 priority patent/WO2019020054A1/zh
Priority to US16/633,910 priority patent/US20210027858A1/en
Priority to JP2020503285A priority patent/JP2020534794A/ja
Publication of CN110070913A publication Critical patent/CN110070913A/zh
Application granted granted Critical
Publication of CN110070913B publication Critical patent/CN110070913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/43504Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates
    • C07K14/43595Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from coelenteratae, e.g. medusae
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/67General methods for enhancing the expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/40Fusion polypeptide containing a tag for immunodetection, or an epitope for immunisation
    • C07K2319/43Fusion polypeptide containing a tag for immunodetection, or an epitope for immunisation containing a FLAG-tag
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y207/00Transferases transferring phosphorus-containing groups (2.7)
    • C12Y207/11Protein-serine/threonine kinases (2.7.11)
    • C12Y207/11024Mitogen-activated protein kinase (2.7.11.24), i.e. MAPK or MAPK2 or c-Jun N-terminal kinase
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Microbiology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medicinal Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Plant Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)

Abstract

一种基于免疫算法的密码子优化方法,其特征在于先后使用免疫算法和遗传算法分别对蛋白质编码序列进行局部多目标优化和全局多目标优化,再用穷举法对序列进行微调优化,从而最大限度的搜索到最优表达序列。本发明既保留了遗传算法随机全局并行搜索的特点,又在相当大程度上避免未成熟收敛,确保快速收敛于全局最优解。本发明第一次结合利用免疫算法与遗传算法的准确度和效率的优势,通过分步流程(依次分别是局部优化、全局优化、微调优化)进行密码子优化,并通过实例测试证明该算法进行密码子优化的高效性。

Description

一种基于免疫算法的密码子优化方法
技术领域
本发明涉及一种蛋白工程技术,尤其是一种蛋白工程中的密码子优化方法,具体地说是一种基于免疫算法的密码子优化方法。
背景技术
密码子简并性是指在蛋白翻译过程中,一个氨基酸可以由多个不同密码子编码的现象,编码相同氨基酸的不同密码子称为同义密码子,一个长度为200个氨基酸组成的蛋白一般可以由超过1020个不同DNA序列编码。在不同物种中,同义密码子出现的频率并不相同,这种现象称之为密码子的偏好性。密码子优化主要根据宿主表达系统的密码子偏好性等因素,在不改变蛋白氨基酸序列的前提下利用计算机算法从大量DNA编码序列中筛选出能在宿主表达系统中最高效表达蛋白的那条DNA序列。
目前密码子优化过程中常被考虑的影响蛋白表达的主要因素包括宿主细胞密码子偏好性(其常用表征参数有密码子适应度指数[CAI]、宿主细胞二联密码子偏好性[CodonContext]、CBI[Codon Bias Index]、ENC[Effective Number of Codon]、FOP[Frequencyof Optimal Codons]、CPP[Codon Preference Parameter]、tAI[tRNA adaptationindex])、 Hidden Stop Codon数量、GC含量、稀有密码子含量、mRNA抑制性调控模序(motif)数量、mRNA二级结构(主要包括发夹结构和折叠自由能)、关键密码子和机器学习中数学模型打分、microRNA结合位点、G4含量以及蛋白二级结构密码子偏好性(JoshuaB.Plotkin&Grzegorz Kudla,Nature Reviews Genetics,2011)。目前可用于密码子优化的软件和算法包括DNAWorks、Jcat、Synthetic gene designer、GeneDesign 2.0、OPTIMIZER、Eugene、 mRNA Optimizer、COOL、D-Tailor、UpGene、GASCO、Codon Harmonization、QPSO、GeMS 和ATGME(Evelina Angov,Biotechnology Journal,2011;Nathan Gould et al.,Frontiers in Bioengineering and Biotechnology,2014)。
相较于密码子优化算法中已经被使用的启发式算法(比如粒子群和遗传算法),免疫算法具有其独特优势。免疫算法是基于生物免疫机制提出的一种改进的遗传算法,它将实际求解问题的目标函数对应为抗原,而问题的解对应为抗体。由生物免疫原理可知,生物免疫系统对入侵生命体的抗原通过细胞的分裂和分化作用,自动产生相应的抗体来抵御,这一过程被称为免疫应答。在免疫应答过程中,部分抗体作为记忆细胞保存下来,当同类抗原再次侵入时,记忆细胞被激活并迅速产生大量抗体,使再次应答比初次应答更快更强烈,体现了免疫系统的记忆功能.抗体与抗原结合后,会通过一系列的反应而破坏抗原.同时,抗体与抗体之间也相互促进和抑制,以维持抗体的多样性及免疫平衡,这种平衡是根据浓度机制进行的,即抗体的浓度越高,则越受抑制;浓度越低,则越受促进,体现了免疫系统的自我调节功能。
发明内容
本发明的目的是针对现有的密码子优化方法存在周期过长,表达准确性较差的问题,发明一种能在有限的时间内有效的完成对密码子优化空间的大规模搜索,即从蛋白编码序列集中筛选出最高效表达的DNA序列的基于免疫算法的密码子优化方法。
本发明的技术方案是:
一种基于免疫算法的密码子优化方法,先后使用免疫算法和遗传算法分别对蛋白质编码序列进行局部多目标优化和全局多目标优化,再用穷举法对序列进行微调优化,从而最大限度的搜索到最优表达序列。
具体而言,本发明的方法包括以下三个步骤:;第一步是局部优化,即将蛋白质序列切割成无重叠的序列片段A1、A2……An,然后利用免疫算法,对每个序列片段完成密码子优化,生成近似最优DNA序列集B1、B2……Bn;第二步是全局优化,即利用遗传算法,基于B1、B2……Bn初始化蛋白质全长的DNA编码序列,筛选出蛋白质序列最优DNA序列C1;第三步是微调优化,包括对编码蛋白质N端区域所对应的DNA序列5’端进行穷举法优化,生成DNA序列C2,并消除表达抑制性模序,最终生成最优表达序列D。
所述的蛋白质是指由二十个以上的氨基酸组成化合物。在定位上包括分泌蛋白、膜蛋白、胞质蛋白、细胞核内蛋白等;在功能上包含抗体蛋白、调节蛋白、结构蛋白等;在来源上包含同源表达蛋白和异源表达蛋白;在序列上包含天然蛋白和人工改造后的蛋白,完整的蛋白/抗体和截断的部分蛋白/抗体,以及2个或2个以上蛋白之间、蛋白与肽链之间形成的融合蛋白。本发明中所定义的抗体包括但不限于完整的抗体和Fab、ScFV、SdAb、嵌合抗体(Chimeric antibody)、双特异性抗体(bispecific antibody)、Fc融合蛋白等等。
所述的免疫遗传算法采用多目标优化方法对蛋白质片段进行局部优化,群体的初始化基于高表达蛋白编码序列的二联密码子表,直接采用同义密码子对每个基因进行编码;优化过程中通过计算免疫遗传算法的抗体信息熵、抗体群体相似度、抗体浓度和聚合适应度以及更新记忆单元来保证抗体多样性并防止群体退化现象,从而增加算法的全局搜索能力。
所述的遗传算法采用多目标优化方法用来对蛋白质全序进行全局优化,初始化群体基于局部优化的优化后片段随机生成,直接采用每个蛋白质片段的优化序列集对每个基因进行编码。
所述的微调优化利用穷举法对DNA序列5’端的折叠自由能MFE、Codon Context和CAI进行计算和排序,并根据排序结果选择最佳的蛋白序列N端编码序列。
所述的密码子优化方法至少适用于以下的宿主表达系统:1)哺乳动物表达系统;2) 昆虫表达系统;3)酵母表达系统;4)大肠杆菌表达系统;5)枯草芽孢杆菌表达系统;6)植物表达系统和7)无细胞表达系统。
所述的密码子优化方法至少适用于以下表达载体:瞬时表达载体和稳定表达载体、病毒表达载体和非病毒表达载体、诱导和非诱导表达载体。
本发明的有益效果是:
免疫算法是一种遗传算法的改进型算法,鉴于免疫算法在优化中防止过早局部收敛的优势,本发明第一次引入免疫算法进行密码子优化进行局部优化,并通过随后的遗传算法进行全局优化,以及最后的微调优化,开发了一种全新的结合了不同算法优势的三步杂合优化算法;更通过下文的实例测试证明该算法进行密码子优化的高效性。
本发明的免疫算法与遗传算法相比,具有如下特点:首先它具有免疫记忆功能,该功能可以加快搜索速度,提高遗传算法的总体搜索能力;其次它具有抗体的多样性保持功能,利用该功能可以提高遗传算法的局部搜索能力;最后它具有自我调节功能,这种功能可用于提高遗传算法的全局搜索能力,避免陷入局部解。所以免疫遗传算法既保留了遗传算法随机全局并行搜索的特点,又在相当大程度上避免未成熟收敛,确保快速收敛于全局最优解。本第一次结合利用免疫算法与遗传算法的准确度和效率的优势,通过分步流程(依次分别是局部优化、全局优化、微调优化)进行密码子优化,并通过实例测试证明该算法进行密码子优化的高效性。
本发明具有速度快,效率高的优点。
附图说明
图1是本发明的优化算法流程示意图。
图2是本发明的免疫算法流程示意图(即局部优化流程)。
图3是本发明的遗传算法流程(即全局优化流程)。
图4是本发明的DNA序列5’端优化流程。
图5是本发明的测试蛋白基因序列设计示意图。
图6是本发明的pTT表达载体图谱。
图7是本发明的Western Blotting结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1-7所示。
一种基于免疫算法的密码子优化方法,它先后使用免疫算法和遗传算法分别对蛋白质编码序列(SEQ ID NO.3和SEQ ID NO.4)进行局部多目标优化和全局多目标优化,再用穷举法对序列进行微调优化,从而最大限度的搜索到最优表达序列(SEQ ID NO.5和SEQ IDNO.6),如图1所示。其中:
一、免疫算法(即局部优化,流程见图2)。
该步骤的优化变量个数L为2,即对每个片段优化Codon Context和CAI这两个特征(具体描述见下文),属于多目标优化。假设免疫系统由N个抗体组成(即群体规模为N),每个抗体基因长度为M(等同于蛋白质序列的氨基酸个数M),直接采用同义密码子对每个基因进行编码。
(1)根据不同宿主表达系统的基础数据集(即高表达蛋白的编码序列)计算密码子频率表和二联密码子频率表,供生成序列和计算codon context和CAI使用。
(2)初次应答时,初始抗体根据二联密码子频率产生。具体以蛋白质序列a1a2…am为例,假设a1的同义密码子是c11和c12,a2的同义密码子是c21、c22和c23。首个氨基酸a1的密码子根据密码子频率表中c11和c12的频率选取。二联氨基酸a1a2对应的二联密码子为c11c21、c11c22、 c11c23、c12c21、c12c22和c12c23,其中二联同义密码子有两组,包括[c11c21、c11c22、c11c23]和[c12c21、 c12c22、c12c23]。假设a1选取的密码子为C11,则氨基酸a2的密码子根据c11c21、c11c22和c11c23的频率从c21、c22和c23中选择一个。如果a1选取的密码子是C12,则根据c12c21、c12c22和c12c23的频率选择氨基酸a2的密码子c21、c22和c23中的一个。简言之,除第一个氨基酸直接根据密码子频率表选取密码子以外,其他氨基酸的密码子的选取都与它的上一个氨基酸的密码子的选取有关,并由它们的二联同义密码子的频率决定。
(3)非初次应答时,群体由父代个体和记忆单元中存储的K个抗体组成,记忆单元抗体记录有优化历史中出现过的K个最佳抗体,其中适应度低的抗体在优化过程中逐步被更高适应度的个体替代。
(4)计算抗体的适应度F(包括F[codon Context]和F[CAI]),根据多目标优化选择N个子代个体并对新群体完成交叉和变异操作。这里的变异是随机突变密码子。
(5)计算抗体群体相似度S
本发明利用Shannon的平均信息熵H(N)来度量群体相似度S。
首先Pij为同义密码子i出现在氨基酸j上的概率,即:
Figure SMS_1
其中Nij为群体所有个体的第j个氨基酸位置上其同义密码子i出现的总个数。则Hj(N)为第j个基因(即蛋白序列的第j个氨基酸)的信息熵,定义为:
Figure SMS_2
整个群体的平均信息熵为:
Figure SMS_3
群体相似度S的定义为:
Figure SMS_4
(6)随着优化的进行,群体中抗体的相似度不断提高,为了避免抗体的同质性,提高抗体的多样度,从而提高全局搜索能力,防止未成熟收敛,当群体相似度S大于阈值S0时,模仿免疫系统细胞的新陈代谢功能,产生P个新抗体,生成过程同上述(2),使抗体总数达到P+N。如果群体相似度S小于阈值S0则群体继续直接进入下一代进化,并更新记忆单元。
(7)当S>S0时,对抗体群体P+N计算抗体浓度和聚合适应度。其中抗体浓度是指每个抗体在群体中与其相似抗体所占的百分比,即:
Figure SMS_5
其中Ai指与抗体i相似度大于相似度常数λ的抗体个数。λ指两个个体比较时在M个密码子中相同的密码子的个数。
聚合适应度F’是依据抗体浓度对抗体适应度F进行修正后的值,即:
Figure SMS_6
根据聚合适应度选取子代群体,更新记忆单元,并进入下一轮优化,由于我们同时考虑了 codon context和CAI两个序列特征,所以F’[codon context]基于F[codon context]计算,F’[CAI]基于 F[CAI]计算。如果达到终止代数则停止进化,并输出单个蛋白片段的优化序列集。
二、遗传算法(即全局优化,流程见图3)。
基于免疫算法优化生成的所有蛋白片段的优化序列集,随机生成初始化群体N,根据遗传算法的流程,完成适应度计算、子代群体的选取、交叉、变异和记忆体更新,到达终止代数则停止进化,并输出蛋白全序的最优DNA编码序列,整个流程属于多目标优化。优化过程中我们直接采用每个蛋白质片段的优化序列集对每个基因进行编码。
三、微调优化。
微调优化包括两步,首先是对DNA 5’端进行优化,然后消除表达抑制性模序。其中DNA 5’端的优化过程如图4,使用穷举法列举出蛋白N端氨基酸序列(8-15个氨基酸) 所有可能的DNA编码序列,并计算它们的codon context和CAI,然后将蛋白序列起始密码子上游的载体序列50bp(默认值为50bp,长度可选范围0~50bp)与其依序连接,并利用mfold软件计算连接后的序列的折叠自由能(minimum free energy,MFE)。根据折叠自由能(值越大越好)、codon context(值越大越好)和CAI(值越大越好)对信号肽的编码序列进行排序,选择出最佳5’端序列。
四、上述流程相关细节
(1)基础数据集及二联密码子表生成
基础数据集是指不同宿主表达系统中高表达蛋白及其所对应的DNA编码序列。二联密码子表是指基础数据集的所有二联密码子相对适应度(计算方法见下文)。
(2)codon context和CAI的计算流程
a)密码子相对适应度wij
Figure SMS_7
其中xij表示基础数据集中第i种氨基酸的第j个同义密码子的出现个数,ximax表示基础数据集中第i种氨基酸使用频率最高的同义密码子出现的个数。
b)目标序列的密码子适应指数(Codon Adaptation Index,CAI):
Figure SMS_8
其中L指目标序列(即蛋白质序列或片段)的氨基酸个数,wk为每个氨基酸密码子使用的密码子对应的基础数据集的密码子相对适应度。CAI的值介于0到1之间。优化过程中我们尽量提高编码DNA的CAI的值。
c)二联密码子相对适应度pk
Figure SMS_9
其中二联密码子有3721种(61×61=3721,不考虑终止密码子),
Figure SMS_10
表示第k种二联密码子在蛋白序列基础数据集或目标序列(即蛋白质序列或片段)中出现的个数,/>
Figure SMS_11
表示表示该二联密码子对应的二联氨基酸出现的个数。
d)目标序列的二联密码子适应指数(Codon Context,CC):
Figure SMS_12
其中
Figure SMS_13
表示目标序列的第k种二联密码子的相对适应度,/>
Figure SMS_14
表示基础数据集的第k种二联密码子的相对适应度。CC的值介于0到1之间。优化过程中我们尽量提高编码DNA的 CC的值。
(3)免疫算法和遗传算法的多目标优化过程中子代群体选择可使用NSGA2和SPEA2算法 (默认使用NSGA2),交叉使用两点交叉。
以下通过一个实例进一步说明本发明的优点:
测试例使用的宿主表达系统是CHO细胞系,一共优化测序了两个蛋白质(相关信息见表一)。JNK3蛋白序列如SEQ ID NO.1所示,GFP蛋白序列如SEQ ID NO.2所示;优化前JNK3蛋白和GFP蛋白编码序列分别如SEQ ID NO.3和SEQ ID NO.4所示,优化后JNK3蛋白和GFP蛋白编码序列分别如SEQ ID NO.5和SEQ ID NO.6所示。
表一:优化测试蛋白序列信息
蛋白质 GenBank登录号(野生型) 标签(tag) 标签位置
JNK3 U34820.1 Flag tag C末端
GFP AY174111.1 Flag tag C末端
按照图5所示,合成编码测试蛋白的基因片段,并通过EcoR I和Hind III酶切位点将其分别克隆到pTT5表达载体(购买自NRC,质粒图谱如图6所示)。
CHO 3E7细胞瞬转表达步骤:
1、将处于对数生长期的CHO 3E7悬浮细胞用新鲜的FreeStyle CHO培养基稀释到5X105个细胞/mL,每个125mL三角摇瓶中接种30mL细胞悬液。
2、将细胞在37℃5%CO2条件下进行悬浮培养。
3、当细胞密度达到1-1.2X106个/mL时,通过PEI转染试剂将克隆有目的基因的质粒载体按照1ug/ml的用量分别转染CHO 3E7细胞。
4、转染48小时后,将培养基经1500转/min离心,收获细胞。样品可于-80℃冰箱内保存。
Western Blot实验步骤:
利用抗Flag tag抗体,通过Western Blotting检测细胞裂解液中目标蛋白的表达量, beta-actin蛋白作为内参,每个质粒的表达实验重复三次,Western Blotting结果见图7。
详细步骤如下。
1、使用细胞裂解液裂解CHO细胞,对蛋白浓度进行测定。
2、向蛋白溶液中加入5X SDS-PAGE蛋白上样缓冲液,沸水浴加热10分钟。
3、用微量移液器将蛋白样品加入SDS-PAGE胶加样孔内,每孔上样20ul。
4、使用140V恒压电泳60分钟,溴酚蓝到达胶的底端处附近即可停止电泳。
5、转膜电压为100V,低温转膜时间为60分钟。
6、转膜完毕后把蛋白膜放置到预先准备好的洗涤液中,漂洗1-2分钟洗去膜上的转膜液。
7、摇床上缓慢摇动室温封闭45分钟。
8、加入稀释好的一抗,室温缓慢摇动孵育一小时。
9、加入洗涤液,在摇床上缓慢摇动洗涤5分钟,共洗涤3次。
10、加入稀释好的二抗,室温缓慢摇动孵育一小时。
11、加入洗涤液,在摇床上缓慢摇动洗涤5分钟,共洗涤3次。
12、化学发光检测。
13、使用Image J软件对Western Blotting结果图片进行定量分析。
表二:优化前后蛋白相对表达量(经Western Blotting检测)
GFP(相对表达量±标准差)JNK3(相对表达量±标准差)
Figure SMS_15
*相对表达量:蛋白表达量除以野生型序列三次重复实验中表达量的最小值
由表二可见,JNK3和GFP蛋白经过本专利的三步杂合密码子优化后,表达量分别较野生型序列提升7.42±0.58倍和18.37±2.90倍,充分证明新算法的高效性。在公司的实际生产中,我们也比较测试了该算法与其他算法对多个蛋白的优化效果,同样证明该算法更加稳定高效。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
<110> 南京金斯瑞生物科技有限公司
<120> 基于免疫算法的密码子优化方法
<160> 2
<210> 1
<211> 430
<212> PRT
<213> 人工序列
<220>
<223> JNK3蛋白序列
<400> 1
Met Ser Leu His Phe Leu Tyr Tyr Cys Ser Glu Pro Thr Leu Asp Val
1 5 10 15
Lys Ile Ala Phe Cys Gln Gly Phe Asp Lys Gln Val Asp Val Ser Tyr
20 25 30
Ile Ala Lys His Tyr Asn Met Ser Lys Ser Lys Val Asp Asn Gln Phe
35 40 45
Tyr Ser Val Glu Val Gly Asp Ser Thr Phe Thr Val Leu Lys Arg Tyr
50 55 60
Gln Asn Leu Lys Pro Ile Gly Ser Gly Ala Gln Gly Ile Val Cys Ala
65 70 75 80
Ala Tyr Asp Ala Val Leu Asp Arg Asn Val Ala Ile Lys Lys Leu Ser
85 90 95
Arg Pro Phe Gln Asn Gln Thr His Ala Lys Arg Ala Tyr Arg Glu Leu
100 105 110
Val Leu Met Lys Cys Val Asn His Lys Asn Ile Ile Ser Leu Leu Asn
115 120 125
Val Phe Thr Pro Gln Lys Thr Leu Glu Glu Phe Gln Asp Val Tyr Leu
130 135 140
Val Met Glu Leu Met Asp Ala Asn Leu Cys Gln Val Ile Gln Met Glu
145 150 155 160
Leu Asp His Glu Arg Met Ser Tyr Leu Leu Tyr Gln Met Leu Cys Gly
165 170 175
Ile Lys His Leu His Ser Ala Gly Ile Ile His Arg Asp Leu Lys Pro
180 185 190
Ser Asn Ile Val Val Lys Ser Asp Cys Thr Leu Lys Ile Leu Asp Phe
195 200 205
Gly Leu Ala Arg Thr Ala Gly Thr Ser Phe Met Met Thr Pro Tyr Val
210 215 220
Val Thr Arg Tyr Tyr Arg Ala Pro Glu Val Ile Leu Gly Met Gly Tyr
225 230 235 240
Lys Glu Asn Val Asp Ile Trp Ser Val Gly Cys Ile Met Gly Glu Met
245 250 255
Val Arg His Lys Ile Leu Phe Pro Gly Arg Asp Tyr Ile Asp Gln Trp
260 265 270
Asn Lys Val Ile Glu Gln Leu Gly Thr Pro Cys Pro Glu Phe Met Lys
275 280 285
Lys Leu Gln Pro Thr Val Arg Asn Tyr Val Glu Asn Arg Pro Lys Tyr
290 295 300
Ala Gly Leu Thr Phe Pro Lys Leu Phe Pro Asp Ser Leu Phe Pro Ala
305 310 315 320
Asp Ser Glu His Asn Lys Leu Lys Ala Ser Gln Ala Arg Asp Leu Leu
325 330 335
Ser Lys Met Leu Val Ile Asp Pro Ala Lys Arg Ile Ser Val Asp Asp
340 345 350
Ala Leu Gln His Pro Tyr Ile Asn Val Trp Tyr Asp Pro Ala Glu Val
355 360 365
Glu Ala Pro Pro Pro Gln Ile Tyr Asp Lys Gln Leu Asp Glu Arg Glu
370 375 380
His Thr Ile Glu Glu Trp Lys Glu Leu Ile Tyr Lys Glu Val Met Asn
385 390 395 400
Ser Glu Glu Lys Thr Lys Asn Gly Val Val Lys Gly Gln Pro Ser Pro
405 410 415
Ser Ala Gln Val Gln Gln Asp Tyr Lys Asp Asp Asp Asp Lys
420 425 430
<210> 2
<211> 246
<212> PRT
<213> 人工序列
<220>
<223> GFP蛋白序列
<400> 2
Met Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu Val
1 5 10 15
Glu Leu Asp Gly Asp Val Asn Gly Gln Lys Phe Ser Val Ser Gly Glu
20 25 30
Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile Cys
35 40 45
Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr Phe
50 55 60
Ser Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys Gln
65 70 75 80
His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu Arg
85 90 95
Thr Ile Phe Tyr Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu Val
100 105 110
Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly Ile
115 120 125
Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Met Glu Tyr Asn
130 135 140
Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Pro Lys Asn Gly
145 150 155 160
Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Lys Asp Gly Ser Val
165 170 175
Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly Pro
180 185 190
Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Ala Leu Ser
195 200 205
Lys Asp Pro Asn Glu Lys Arg Asp His Met Ile Leu Leu Glu Phe Val
210 215 220
Thr Ala Ala Gly Ile Thr His Gly Met Asp Glu Leu Tyr Lys Asp Tyr
225 230 235 240
Lys Asp Asp Asp Asp Lys
245
<210> 3
<211> 1290
<212> DNA
<213> 人工序列
<220>
<223> 优化前JNK3蛋白编码序列
<400> 3
atgagcctcc atttcttata ctactgcagt gaaccaacat tggatgtgaa aattgccttt 60
tgtcagggat tcgataaaca agtggatgtg tcatatattg ccaaacatta caacatgagc 120
aaaagcaaag ttgacaacca gttctacagt gtggaagtgg gagactcaac cttcacagtt 180
ctcaagcgct accagaatct aaagcctatt ggctctgggg ctcagggcat agtttgtgcc 240
gcgtatgatg ctgtccttga cagaaatgtg gccattaaga agctcagcag accctttcag 300
aaccaaacac atgccaagag agcgtaccgg gagctggtcc tcatgaagtg tgtgaaccat 360
aaaaacatta ttagtttatt aaatgtcttc acaccccaga aaacgctgga ggagttccaa 420
gatgtttact tagtaatgga actgatggat gccaacttat gtcaagtgat tcagatggaa 480
ttagaccatg agcgaatgtc ttacctgctg taccaaatgt tgtgtggcat taagcacctc 540
cattctgctg gaattattca cagggattta aaaccaagta acattgtagt caagtctgat 600
tgcacattga aaatcctgga ctttggactg gccaggacag caggcacaag cttcatgatg 660
actccatatg tggtgacacg ttattacaga gcccctgagg tcatcctggg gatgggctac 720
aaggagaacg tggatatatg gtctgtggga tgcattatgg gagaaatggt tcgccacaaa 780
atcctctttc caggaaggga ctatattgac cagtggaata aggtaattga acaactagga 840
acaccatgtc cagaattcat gaagaaattg caacccacag taagaaacta tgtggagaat 900
cggcccaagt atgcgggact caccttcccc aaactcttcc cagattccct cttcccagcg 960
gactccgagc acaataaact caaagccagc caagccaggg acttgttgtc aaagatgcta 1020
gtgattgacc cagcaaaaag aatatcagtg gacgacgcct tacagcatcc ctacatcaac 1080
gtctggtatg acccagccga agtggaggcg cctccacctc agatatatga caagcagttg 1140
gatgaaagag aacacacaat tgaagaatgg aaagaactta tctacaagga agtaatgaat 1200
tcagaagaaa agactaaaaa tggtgtagta aaaggacagc cttctccttc agcacaggtg 1260
cagcaggact acaaggatga tgatgacaaa 1290
<210> 4
<211> 738
<212> DNA
<213> 人工序列
<220>
<223> 优化前GFP蛋白编码序列
<400> 4
atgagtaaag gagaagaact tttcactgga gttgtcccaa ttcttgttga attagatggc 60
gatgttaatg ggcaaaaatt ctctgtcagt ggagagggtg aaggtgatgc aacatacgga 120
aaacttaccc ttaaatttat ttgcactact gggaagctac ctgttccatg gccaacactt 180
gtcactactt tctcttatgg tgttcaatgc ttttcaagat acccagatca tatgaaacag 240
catgactttt tcaagagtgc catgcccgaa ggttatgtac aggaaagaac tatattttac 300
aaagatgacg ggaactacaa gacacgtgct gaagtcaagt ttgaaggtga tacccttgtt 360
aatagaatcg agttaaaagg tattgatttt aaagaagatg gaaacattct tggacacaaa 420
atggaataca actataactc acataatgta tacatcatgg cagacaaacc aaagaatgga 480
atcaaagtta acttcaaaat tagacacaac attaaagatg gaagcgttca attagcagac 540
cattatcaac aaaatactcc aattggcgat ggccctgtcc ttttaccaga caaccattac 600
ctgtccacac aatctgccct ttccaaagat cccaacgaaa agagagatca catgatcctt 660
cttgagtttg taacagctgc tgggattaca catggcatgg atgaactata caaagactac 720
aaagatgatg atgacaag 738
<210> 5
<211> 1290
<212> DNA
<213> 人工序列
<220>
<223> 优化后JNK3蛋白编码序列
<400> 5
atgtctctgc acttcctgta ctactgttct gagcccaccc tggacgtgaa gattgccttc 60
tgccagggct ttgacaagca ggtggatgtg agctacatcg ccaagcacta caacatgtcc 120
aagagcaagg tggacaacca gttctacagc gtggaggtgg gagacagcac cttcacagtg 180
ctgaagagat accagaacct gaagccaatt ggctctggag cccagggcat tgtgtgtgct 240
gcctatgatg ctgtgctgga cagaaatgtg gccatcaaga agctgagcag acccttccag 300
aaccagacac atgccaagag agcctacaga gagctggtgc tgatgaagtg tgtgaaccac 360
aagaacatca tcagcctgct gaatgtgttc acccctcaga agacactgga ggagttccag 420
gatgtgtacc tggtgatgga gctcatggat gccaacctgt gccaggtgat ccagatggag 480
ctggaccatg agaggatgag ctacctgctg taccagatgc tgtgtggcat caagcacctg 540
cacagtgctg gaatcatcca cagagacctg aagccaagca acattgtggt gaagtctgac 600
tgtacactga agatcctgga ctttggactg gccagaacag ccggcacatc ttttatgatg 660
acaccatacg tggtgacaag atactacaga gcccctgagg tgatcctggg catgggctac 720
aaggagaacg tggacatctg gtctgtgggc tgcatcatgg gagagatggt gagacacaag 780
atcctgtttc ctggaagaga ctacattgac cagtggaaca aggtgattga gcagctgggc 840
accccttgtc ctgagttcat gaagaagctg cagccaactg tgaggaacta tgtggagaac 900
agaccaaagt atgctggcct gaccttcccc aagctcttcc ctgacagcct gtttcctgct 960
gattctgagc acaacaagct gaaggccagc caggccagag acctgctgag caagatgctg 1020
gtgattgatc ctgccaagag aatctctgtg gatgatgccc tgcagcaccc ctacatcaat 1080
gtgtggtacg acccagctga ggtggaggcc ccacctccac agatctatga caagcagctg 1140
gatgagagag agcacacaat tgaagagtgg aaggagctga tctacaaaga agtgatgaac 1200
tctgaggaga agaccaagaa tggagtggtg aagggccagc cctctccaag cgcccaggtg 1260
cagcaggact acaaggatga tgatgacaaa 1290
<210> 6
<211> 738
<212> DNA
<213> 人工序列
<220>
<223> 优化后GFP蛋白编码序列
<400> 6
atgagcaagg gagaggaact gttcacagga gtggtgccca tcctggtgga gctggatgga 60
gatgtgaatg gccagaagtt ttctgtgtct ggggaaggag aaggcgatgc cacctatggc 120
aagctgacac tgaagttcat ctgcaccaca gggaagctgc ctgtgccctg gccaacactg 180
gtgaccacct tctcctatgg agtccagtgc ttcagcagat acccagacca catgaagcag 240
catgacttct tcaagagtgc catgcctgag ggctatgtgc aggagagaac catcttctat 300
aaggatgatg gaaactacaa gacaagagct gaggtgaagt ttgagggaga caccctggtg 360
aacagaattg agctgaaggg cattgacttc aaggaggatg gcaacatcct gggccacaag 420
atggagtaca attacaacag ccacaatgtg tacatcatgg ctgataagcc aaagaatgga 480
atcaaggtga acttcaagat tagacacaac atcaaagacg gatctgtgca gctggctgac 540
cattaccagc agaacacacc cattggagat ggcccagtgc tgctgcccga caaccactac 600
ctgagcacac agtctgccct gagtaaggac cctaatgaga agagggacca catgattctg 660
ctggagtttg tgacagctgc tggcatcacc catggcatgg atgagctgta caaggactac 720
aaagatgatg atgacaag 738
序列表
6

Claims (4)

1.一种基于免疫算法的密码子优化方法,其特征在于先后使用免疫算法和遗传算法分别对蛋白质编码序列进行局部多目标优化和全局多目标优化,再用穷举法对序列进行微调优化,从而最大限度的搜索到最优表达序列;其中
所述优化方法包括以下三个步骤:第一步是局部优化,即将蛋白质序列切割成无重叠的序列片段A1、A2……An,然后利用免疫算法,对每个序列片段完成密码子优化,生成近似最优DNA序列集B1、B2……Bn;第二步是全局优化,即利用遗传算法,基于B1、B2……Bn初始化蛋白质全长的DNA编码序列,筛选出蛋白质序列最优DNA序列C1;第三步是微调优化,包括对编码蛋白质N端区域所对应的DNA序列5’端进行穷举法优化,生成DNA序列C2,并消除表达抑制性模序,最终生成最优表达序列D;
其中所述的免疫遗传算法采用多目标优化方法对蛋白质片段进行局部优化,群体的初始化基于高表达蛋白编码序列的二联密码子表,直接采用同义密码子对每个基因进行编码;优化过程中通过计算免疫遗传算法的抗体信息熵、抗体群体相似度、抗体浓度和聚合适应度以及更新记忆单元来保证抗体多样性并防止群体退化现象,从而增加算法的全局搜索能力;
所述的遗传算法采用多目标优化方法用来对蛋白质全序进行全局优化,初始化群体基于局部优化的优化后片段随机生成,直接采用每个蛋白质片段的优化序列集对每个基因进行编码;
所述的微调优化利用穷举法对DNA序列5’端的折叠自由能MFE、Codon Context和CAI进行计算和排序,并根据排序结果选择最佳的蛋白序列N端编码序列。
2.根据权利要求1所述的优化方法,其特征是所述的蛋白质是指由二十个以上的氨基酸组成化合物;在定位上包括分泌蛋白、膜蛋白、胞质蛋白、细胞核内蛋白等;在功能上包含抗体蛋白、调节蛋白、结构蛋白等;在来源上包含同源表达蛋白和异源表达蛋白;在序列上包含天然蛋白和人工改造后的蛋白,完整的蛋白/抗体和截断的部分蛋白/抗体,以及2个或2个以上蛋白之间、蛋白与肽链之间形成的融合蛋白;所定义的抗体包括但不限于完整的抗体和Fab、ScFV、SdAb、嵌合抗体、双特异性抗体、Fc融合蛋白。
3.根据权利要求1所述的优化方法,其特征是所述的密码子优化方法至少适用于以下的宿主表达系统:1)哺乳动物表达系统;2)昆虫表达系统;3)酵母表达系统;4)大肠杆菌表达系统;5)枯草芽孢杆菌表达系统;6)植物表达系统和7)无细胞表达系统。
4.根据权利要求1所述的优化方法,其特征是所述的密码子优化方法至少适用于以下表达载体:瞬时表达载体和稳定表达载体、病毒表达载体和非病毒表达载体、诱导和非诱导表达载体。
CN201710611752.5A 2017-07-25 2017-07-25 一种基于免疫算法的密码子优化方法 Active CN110070913B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201710611752.5A CN110070913B (zh) 2017-07-25 2017-07-25 一种基于免疫算法的密码子优化方法
KR1020207005489A KR20200038263A (ko) 2017-07-25 2018-07-25 면역 알고리즘에 근거된 코돈 최적화 방법
EP18839139.5A EP3660852B1 (en) 2017-07-25 2018-07-25 Codon optimization method based on immune algorithm
PCT/CN2018/097040 WO2019020054A1 (zh) 2017-07-25 2018-07-25 一种基于免疫算法的密码子优化方法
US16/633,910 US20210027858A1 (en) 2017-07-25 2018-07-25 Codon optimization method based on immune algorithm
JP2020503285A JP2020534794A (ja) 2017-07-25 2018-07-25 免疫アルゴリズムに基づくコドン最適化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710611752.5A CN110070913B (zh) 2017-07-25 2017-07-25 一种基于免疫算法的密码子优化方法

Publications (2)

Publication Number Publication Date
CN110070913A CN110070913A (zh) 2019-07-30
CN110070913B true CN110070913B (zh) 2023-06-27

Family

ID=65039394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710611752.5A Active CN110070913B (zh) 2017-07-25 2017-07-25 一种基于免疫算法的密码子优化方法

Country Status (6)

Country Link
US (1) US20210027858A1 (zh)
EP (1) EP3660852B1 (zh)
JP (1) JP2020534794A (zh)
KR (1) KR20200038263A (zh)
CN (1) CN110070913B (zh)
WO (1) WO2019020054A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979539B (zh) * 2019-04-10 2020-10-02 电子科技大学 基因序列优化方法、装置及数据处理终端
CN110580390B (zh) * 2019-09-04 2021-05-11 电子科技大学 基于改进遗传算法与信息熵的地质统计学随机反演方法
CN111243679B (zh) * 2020-01-15 2023-03-31 重庆邮电大学 微生物群落物种多样性数据的存储检索方法
CN112466393B (zh) * 2020-11-12 2024-02-20 苏州大学 基于自适应免疫遗传算法的代谢标志物组群识别方法
CN112735525B (zh) * 2021-01-18 2023-12-26 苏州科锐迈德生物医药科技有限公司 一种基于分治法的mRNA序列优化的方法与装置
CN113792877B (zh) * 2021-09-18 2024-02-20 大连大学 基于双策略黑蜘蛛算法的dna存储编码优化方法
CN116072231B (zh) * 2022-10-17 2024-02-13 中国医学科学院病原生物学研究所 基于氨基酸序列的密码子优化设计mRNA疫苗的方法
CN115440300B (zh) * 2022-11-07 2023-01-20 深圳市瑞吉生物科技有限公司 一种密码子序列优化方法、装置、计算机设备及存储介质
CN117497092B (zh) * 2024-01-02 2024-05-14 微观纪元(合肥)量子科技有限公司 基于动态规划和量子退火的rna结构预测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004059556A2 (de) * 2002-12-23 2004-07-15 Geneart Gmbh Verfaren und vorrichtung zum optimieren einer nucleotidsequenz zur expression eines proteins
CN101885760A (zh) * 2010-03-16 2010-11-17 王世霞 密码子优化的HIV-1gp120基因共有序列及gp120核酸疫苗

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0419424D0 (en) * 2004-09-02 2004-10-06 Viragen Scotland Ltd Transgene optimisation
ES2534282T3 (es) * 2006-06-29 2015-04-21 Dsm Ip Assets B.V. Un método para lograr la expresión polipeptídica mejorada
SG10201602115PA (en) * 2012-09-19 2016-05-30 Univ Singapore Codon optimization of a synthetic gene(s) for protein expression
CN106951726A (zh) * 2017-02-20 2017-07-14 苏州金唯智生物科技有限公司 一种基因编码序列的优化方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004059556A2 (de) * 2002-12-23 2004-07-15 Geneart Gmbh Verfaren und vorrichtung zum optimieren einer nucleotidsequenz zur expression eines proteins
CN101885760A (zh) * 2010-03-16 2010-11-17 王世霞 密码子优化的HIV-1gp120基因共有序列及gp120核酸疫苗

Also Published As

Publication number Publication date
EP3660852A4 (en) 2021-05-12
JP2020534794A (ja) 2020-12-03
WO2019020054A1 (zh) 2019-01-31
US20210027858A1 (en) 2021-01-28
CN110070913A (zh) 2019-07-30
EP3660852B1 (en) 2024-05-01
KR20200038263A (ko) 2020-04-10
EP3660852A1 (en) 2020-06-03

Similar Documents

Publication Publication Date Title
CN110070913B (zh) 一种基于免疫算法的密码子优化方法
Rout et al. A distinct nuclear import pathway used by ribosomal proteins
EP2721153B1 (en) Synthetic gene clusters
WO2020024917A1 (en) Codon optimization
CN111363029A (zh) 重组人源ⅲ型胶原蛋白、表达菌株及其构建方法
Zhang et al. Model-based reconstruction of synthetic promoter library in Corynebacterium glutamicum
RU2007124369A (ru) Производство белков
JPWO2021026037A5 (zh)
CN111647089A (zh) 一种重组类人弹性蛋白及其组合物
Erben et al. Insights into the functions and RNA binding of Trypanosoma brucei ZC3H22, RBP9 and DRBD7
Davis et al. Generation of cDNA expression libraries enriched for in-frame sequences
JPWO2019020054A5 (zh)
Bogdanov et al. In silico search for functionally similar proteins involved in meiosis and recombination in evolutionarily distant organisms
CN102977206A (zh) 细胞色素结合结构域蛋白作为助分泌因子提高外源基因在毕赤酵母中分泌表达量的用途
Cregg et al. Expression of recombinant genes in the yeast Pichia pastoris
Cregg et al. Expression of recombinant genes in the yeast Pichia pastoris
CN106086070A (zh) 一种ProtoRAG转座子系统及其用途
CN111363028A (zh) 重组人源ⅰ型胶原蛋白、表达菌株及其构建方法
US8603780B2 (en) Methods and compositions for enhanced expression and secretion of proteins
CN112877309A (zh) 一种N端延长型PTEN亚型PTENζ蛋白及其编码基因和应用
CN114774421B (zh) 运动发酵单胞菌内源性启动子突变体
CN118077011A (zh) 一种降低外源核酸免疫原性的密码子优化
CN106148371A (zh) 人β‑防御素3基因果蝇生殖系统特异表达载体的制备方法
CN101921779B (zh) 具有抗Cd2+和抗Cu2+功能的基因DvCRP2、其编码蛋白及应用
CN115960934A (zh) 大肠杆菌表达外源基因优化方法及其序列

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant