JP2020534794A - 免疫アルゴリズムに基づくコドン最適化方法 - Google Patents

免疫アルゴリズムに基づくコドン最適化方法 Download PDF

Info

Publication number
JP2020534794A
JP2020534794A JP2020503285A JP2020503285A JP2020534794A JP 2020534794 A JP2020534794 A JP 2020534794A JP 2020503285 A JP2020503285 A JP 2020503285A JP 2020503285 A JP2020503285 A JP 2020503285A JP 2020534794 A JP2020534794 A JP 2020534794A
Authority
JP
Japan
Prior art keywords
protein
optimization
sequence
codon
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020503285A
Other languages
English (en)
Other versions
JPWO2019020054A5 (ja
Inventor
ロン、ファン
ヤン、スン
ドンミン、ウー
シャオルオ、ファン
リーファ、チャン
ツェンユー、リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Jinsirui Science and Technology Biology Corp
Original Assignee
Nanjing Jinsirui Science and Technology Biology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Jinsirui Science and Technology Biology Corp filed Critical Nanjing Jinsirui Science and Technology Biology Corp
Publication of JP2020534794A publication Critical patent/JP2020534794A/ja
Publication of JPWO2019020054A5 publication Critical patent/JPWO2019020054A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/43504Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates
    • C07K14/43595Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from coelenteratae, e.g. medusae
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/67General methods for enhancing the expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/40Fusion polypeptide containing a tag for immunodetection, or an epitope for immunisation
    • C07K2319/43Fusion polypeptide containing a tag for immunodetection, or an epitope for immunisation containing a FLAG-tag
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y207/00Transferases transferring phosphorus-containing groups (2.7)
    • C12Y207/11Protein-serine/threonine kinases (2.7.11)
    • C12Y207/11024Mitogen-activated protein kinase (2.7.11.24), i.e. MAPK or MAPK2 or c-Jun N-terminal kinase
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Microbiology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medicinal Chemistry (AREA)
  • Computing Systems (AREA)
  • Plant Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Physiology (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)

Abstract

免疫アルゴリズムに基づくコドン最適化方法は、免疫アルゴリズム及び遺伝的アルゴリズムを連続して使用し、それぞれ、局所的多目的最適化及び大域的多目的最適化をタンパク質コード配列で行い、次いで、配列の微調整及び最適化を行うために網羅的な方法を用いて最適な発現配列を最大の程度まで探索することを特徴とする。本発明は、遺伝的アルゴリズムの無作為大域的並行探索の特性を保持するだけでなく、比較的大幅に早熟収束を回避して、大域的最適解への迅速な収束を確保する。本発明は、免疫アルゴリズムと遺伝的アルゴリズムの精度及び効率における利点を組み合わせ、段階的なプロセス(配列においてそれぞれ、局所的最適化、大域的最適化、ならびに微調整及び最適化)を介してコドン最適化を行う最初のものであり、試験例を介してコドン最適化におけるこのアルゴリズムの高効率を証明する。【選択図】なし

Description

本発明は、タンパク質工学技術に関し、具体的には、タンパク質工学におけるコドン最適化方法に関し、特に、免疫アルゴリズムに基づくコドン最適化方法に関する。
コドン縮退とは、タンパク質翻訳の過程で、複数の異なるコドンによってアミノ酸がコードされ得る現象を指す。同じアミノ酸をコードする異なるコドンは同義コドンと呼ばれる。200アミノ酸長からなるタンパク質は、一般に1020超の異なるDNA配列によってコードされ得る。異なる種では、同義コドンの発生頻度は異なり、かかる現象はコドン選択と呼ばれる。コドン最適化は、主に、宿主の発現系のコドン選択等の因子に基づく。タンパク質のアミノ酸配列を変更しないことを前提として、コンピューターアルゴリズムは、宿主の発現系で最も効率的にタンパク質を発現することができるDNA配列を、多数のDNAコード配列から選別するために使用される。
現在のところ、コドン最適化のプロセスでしばしばタンパク質発現に影響を与えると考えられる主な因子としては、宿主細胞のコドン選択(一般に使用されるその特性化のパラメータとしては、コドン適応指数[CAI]、宿主細胞の二重コドン選択[コドン文脈]、CBI[コドンバイアス指数]、ENC[コドンの有効数]、FOP[最適コドンの頻度]、CPP[コドン選択パラメータ]、及びtAI[tRNA適応指数]が挙げられる)、隠れた終止コドンの数、GC含量、レアコドン含量、mRNA抑制性調節性モチーフの数、mRNA二次構造(主にヘアピン構造及び最小自由エネルギーを含む)、機械学習におけるキーコドン及び数学モデルの得点、マイクロRNA結合部位、G4含量、ならびにタンパク質二次構造のコドン選択が挙げられる(Joshua B.Plotkin&Grzegorz Kudla,Nature Reviews Genetics,2011)。現在コドン最適化に利用可能なソフトウェア及びアルゴリズムとしては、DNAWorks、Jcat、Synthetic gene designer、GeneDesign 2.0、OPTIMIZER、Eugene、mRNA Optimizer、COOL、D−Tailor、UpGene、GASCO、Codon Harmonization、QPSO、GeMS及びATGMEが挙げられる(Evelina Angov,Biotechnology Journal,2011、Nathan Gould et al.,Frontiers in Bioengineering and Biotechnology,2014)。
コドン最適化アルゴリズムに使用されている発見的アルゴリズム(例えば、パーティクル・スウォーム及び遺伝的アルゴリズム)と比較して、免疫アルゴリズムは、独自の利点を有する。免疫アルゴリズムは、生物学的免疫機構に基づく改良された遺伝的アルゴリズムである。これは、解決されるべき実際の問題の目的関数を、抗原に対応させ、問題の解決を抗体に対応させることができる。生物学的免疫の原理によれば、生物学的免疫系は、細胞分裂及び分化を介して、対応する抗体を自動的に生成し、生物を侵す抗原に抵抗することが分かる。かかるプロセスは、免疫応答と呼ばれる。免疫応答のプロセスでは、いくつかの抗体は記憶細胞として保存され、同じタイプの抗原が再度侵入した場合、これらの記憶細胞が活性化され、多数の抗体を迅速に産生し、これが最初の応答より早くかつ強い再応答をさせ、これが、免疫系の記憶機能に反映する。抗原と結合した後、抗体は、一連の反応を介して抗原を破壊する。同時に、異なる抗体もまた、抗体の多様性及び免疫バランスを維持するために互いに促進及び阻害する。かかるバランスは、濃度機構に従って達成される。すなわち、抗体濃度が高いほど、抗体はより多く阻害され、濃度が低いほど、抗体はより多く促進され、免疫系の自動調節機能を反映する。
本発明の目的は、既存のコドン最適化方法の長い周期及び不十分な発現精度の問題を解決すること、ならびに免疫アルゴリズムに基づくコドン最適化方法を考案することであり、これにより、限られた時間内にコドン最適化スペースの大規模な探索を効果的に完了することができる。すなわち、最も効果的な発現を有するDNA配列を、タンパク質コード配列のセットから選別することである。
本発明の技術的解決法は以下の通りである。
免疫アルゴリズムに基づくコドン最適化方法は、免疫アルゴリズム及び遺伝的アルゴリズムを連続して使用し、それぞれ、局所的多目的最適化及び大域的多目的最適化をタンパク質コード配列で行い、次いで、配列の微調整及び最適化を行うために網羅的な方法を用い、最適な発現配列を最大の程度まで探索することを含む。
特に、本発明の方法は、以下の3つのステップを含む:第一のステップの局所的最適化、すなわち、タンパク質配列を非重複配列断片A、A…Aに切断し、次いで、免疫アルゴリズムを用いて各配列断片に対してコドン最適化を完了させ、ほぼ最適なDNA配列のセットB、B…Bを生成する。第二のステップの大域的最適化、すなわち、遺伝的アルゴリズムを使用してB、B…Bに基づくタンパク質の完全長のDNAコード配列を初期化し、該タンパク質配列の最適なDNA配列Cを選別する。第三のステップの微調整及び最適化。これは、コードされたタンパク質のN末端領域に対応するDNA配列の5’末端における網羅的な最適化を行い、DNA配列Cを生成すること、及び発現抑制性モチーフを除去して、最終的に最適な発現配列Dを生成することを含む。
タンパク質とは、20個超のアミノ酸からなる化合物を指す。タンパク質としては、配置の観点から分泌タンパク質、膜タンパク質、細胞質タンパク質、核タンパク質等が挙げられ、機能の観点からは、抗体タンパク質、調節タンパク質、構造タンパク質等が挙げられ、起源の観点からは、相同的発現タンパク質及び異種発現タンパク質が挙げられ、配列の観点からは、天然タンパク質及び人工的に改変されたタンパク質、完全タンパク質/抗体、短縮部分タンパク質/抗体、ならびに2つ以上のタンパク質ならびにタンパク質及びペプチド鎖から形成される融合タンパク質が挙げられる。本発明で定義される抗体としては、無傷の抗体、ならびにFab、ScFV、SdAb、キメラ抗体、二重特異性抗体、Fc融合タンパク質等が挙げられるがこれらに限定されない。
免疫遺伝的アルゴリズムは、多目的最適化方法を採用し、タンパク質断片において局所的最適化を行い、集団の初期化は、高度に発現したタンパク質をコードする配列の二重コドン表に基づき、各遺伝子は、同義コドンによって直接コードされ、最適化プロセスにおいて、抗体多様性が確保され、集団の変性の現象は、抗体の情報エントロピー、抗体集団の類似性、抗体濃度、ならびに免疫遺伝的アルゴリズム及び更新記憶細胞の重合適応度を計算することによって防止され、該アルゴリズムの大域的探索能力を高める。
遺伝的アルゴリズムは、多目的最適化方法を採用し、タンパク質の全配列において大域的最適化を行い、初期化集団は、局所的最適化に供された最適化断片に基づき、無作為に生成され、各遺伝子は、各タンパク質断片の最適化された配列のセットによって直接コードされる。
微調整及び最適化は、網羅的な方法を用いて最小自由エネルギーMFE、コドン文脈、及びCAIをDNA配列の5’末端で計算及び分類し、その分類結果に従って、タンパク質配列のN末端に最適なコード配列を選択する。
このコドン最適化方法は、少なくとも以下の宿主発現系に適用可能である:1)哺乳類発現系、2)昆虫発現系、3)酵母発現系、4)Escherichia coli発現系、5)Bacillus subtilis発現系、6)植物発現系、及び7)無細胞発現系。
このコドン最適化方法は、少なくとも以下の発現ベクターに適用可能である:一過性発現ベクター及び安定発現ベクター、ウイルス発現ベクター及び非ウイルス発現ベクター、誘導及び非誘導発現ベクター。
本発明の有益な効果は、以下の通りである。
免疫アルゴリズムは、遺伝的アルゴリズムから改善されたアルゴリズムである。最適化における早熟局所的収束の防止における免疫アルゴリズムの利点を考慮して、本発明は、局所的最適化についてコドン最適化を行うために免疫アルゴリズムを導入した最初のものであり、その後の遺伝的アルゴリズムを介して大域的最適化を行い、最後に微調整及び最適化を行い、ひいては、異なるアルゴリズムの利点を兼ね備える最新の3段階ハイブリッド最適化アルゴリズムを発展させる。このアルゴリズムのコドン最適化における高効率は、以下の実施例でさらにもたらされる。
遺伝的アルゴリズムと比較して、本発明の免疫アルゴリズムは、以下の特性を有する:第一に、この免疫アルゴリズムは、遺伝的アルゴリズムの探索速度を上げ、探索能力全体を改善することができる免疫記憶機能を有する。第二に、それは、抗体の多様性を維持する機能を有し、これを利用して、遺伝的アルゴリズムの局所探索能力を改善することができる。最後に、それは、自動調節機能を有し、これを用いて、遺伝的アルゴリズムの大域的探索能力を改善することができ、局所解の状態になることを回避することができる。従って、この免疫遺伝的アルゴリズムは、遺伝的アルゴリズムの無作為大域的並行探索の特性を保持するだけでなく、比較的大幅に早熟収束を回避して、大域的最適解への迅速な収束を確保する。本発明は、免疫アルゴリズムと遺伝的アルゴリズムの精度及び効率における利点を組み合わせ、段階的なプロセス(配列においてそれぞれ、局所的最適化、大域的最適化、ならびに微調整及び最適化)を介してコドン最適化を行う最初のものであり、試験例を介してコドン最適化におけるこのアルゴリズムの高効率を証明する。
本発明は、高速及び高効率の利点を有する。
本発明の最適化アルゴリズムの概略的な流れ図である。 本発明の免疫アルゴリズムの概略的な流れ図である(すなわち、局所的最適化の流れ)。 本発明の遺伝的アルゴリズムの流れを示す(すなわち、大域的最適化の流れ)。 本発明のDNA配列の5’末端を最適化する流れを示す。 本発明の試験タンパク質の遺伝子配列デザインの概略図である。 本発明のpTT発現ベクターマップである。 本発明のウェスタンブロッティングの結果の概略図である。
以下、添付の図面及び具体的な実施例を参照して本発明をさらに説明する。
それは図1〜7に示す通りである。
図1に示すように、免疫アルゴリズムに基づくコドン最適化方法は、免疫アルゴリズム及び遺伝的アルゴリズムを連続して使用し、それぞれ、局所的多目的最適化及び大域的多目的最適化をタンパク質コード配列(配列番号3及び配列番号4)で行い、次いで、配列の微調整及び最適化を行うために網羅的な方法を用い、最適な発現配列(配列番号5及び配列番号6)を最大の程度まで探索することを含む。
I.免疫アルゴリズム(すなわち、局所的最適化、流れについては図2参照)。
最適化変数Lの数は、このステップでは2であり、すなわち、2つの特徴、コドン文脈及びCAIが各断片について最適化され(詳細な説明については下記参照)、これは多目的最適化に属する。ある免疫系がN個の抗体からなる(すなわち、集団の大きさがN)と仮定して、各抗体遺伝子は長さMを有し(このタンパク質配列のアミノ酸数がMであることと等しい)、各遺伝子は同義コドンで直接コードされる。
(1)異なる宿主発現系の基本データセット(すなわち、高度に発現したタンパク質のコード配列)に従って、コドン頻度表及び二重コドン頻度表は、配列の生成ならびにコドン文脈及びCAIの計算のために計算される。
(2)最初の応答では、最初の抗体は二重コドン頻度に従って生成される。タンパク質配列a…aを例にとると、aに対する同義コドンはc11及びc12であり、aに対する同義コドンはc21、c22及びc23であると仮定される。最初のアミノ酸aに対するコドンは、コドン頻度表におけるc11及びc12の頻度に応じて選択される。二重アミノ酸aに対応する二重コドンは、c1121、c1122、c1123、c1221、c1222及びc1223であり、ここでは、[c1121、c1122、c1123]及び[c1221、c1222、c1223]を含む2つのセットの二重同義コドンが存在する。aに対して選択されたコドンがC11であると仮定すると、アミノ酸aに対するコドンは、c1121、c1122及びc1123の頻度に応じてc21、c22及びc23のうちの1つから選択される。aに対して選択されたコドンがC12であれば、アミノ酸aに対するコドンは、c1221、c1222及びc1223の頻度に応じてc21、c22及びc23のうちの1つから選択される。簡潔には、最初のアミノ酸に対するコドンがコドン頻度表に従って直接選択されることを除いて、他のアミノ酸に対するコドンの選択は、その前のアミノ酸に対するコドンの選択に関連しており、それらの二重同義コドンの頻度によって決まる。
(3)最初ではない応答では、集団は、親の個物及び記憶細胞に保存されたK個の抗体からなる。記憶細胞の抗体は、最適化の履歴に載ったK個の最適抗体を記録しており、ここでは、適応度の低い抗体は、最適化のプロセスで適応度がより高い個物で徐々に置き換えられる。
(4)抗体の適応度F(F[コドン文脈]及びF[CAI]を含む)が計算され、N個の子孫の個物が、多目的最適化に従って選択され、クロスオーバー及びバリエーション操作が新たな集団について完了される。ここでの変動は、コドンのランダム変異である。
(5)抗体集団の類似性Sの計算
本発明は、シャノンの平均情報エントロピーH(N)を用いて集団の類似性Sを測定する。
第一に、Pijは、同義コドンiがアミノ酸jに現れる確率であり、すなわち、
Figure 2020534794
ここで、Nijは、集団のすべての個物のj番目のアミノ酸位置で現れる同義コドンiの総数である。次に、Hj(N)は、j番目の遺伝子(すなわち、タンパク質配列のj番目のアミノ酸)の情報エントロピーであり、
Figure 2020534794
と定義される。
集団全体の平均情報エントロピーは、
Figure 2020534794
である。
集団の類似性Sは、
Figure 2020534794
と定義される。
(6)最適化の進展に伴い、集団における抗体の類似性は連続的に改善される。抗体の均一性を回避し、抗体の多様性を改善するため、ひいては大域的探索能力を改善し、早熟収束を防ぐため、集団の類似性Sが閾値Sより大きい場合、免疫系細胞の代謝機能は、P個の新たな抗体を生成するようにシミュレートされ、その生成プロセスは上記(2)と同じであり、その結果、抗体の総数はP+Nに達する。集団の類似性Sが閾値Sより小さい場合、その集団は次の進化の世代に継続して直接入り、記憶細胞が更新される。
(7)S>Sの場合、抗体濃度及び重合適応度は、抗体集団P+Nについて計算される。この抗体濃度は、集団における各々の抗体と同様、抗体のパーセンテージを指す。すなわち、
Figure 2020534794
ここで、Aiは、抗体iに対する類似性が類似性定数λより大きい抗体数を指す。λは、2つの個物を比較した場合に、M個のコドンの中の同一のコドンの数を指す。
重合適応度F’は、抗体適応度Fが抗体濃度に従って補正された後に得られる値である。すなわち、
Figure 2020534794
重合適応度に従って、子孫集団が選択され、記憶細胞が更新され、次回の最適化が行われる。我々は、2つの配列の特徴、コドン文脈及びCAIを同時に考慮するため、F’[コドン文脈]は、F[コドン文脈]に基づいて計算され、F’[CAI]は、F[CAI]に基づいて計算される。終了代数に達した場合、進化が停止され、単一のタンパク質断片の最適化された配列のセットが出力される。
II.遺伝的アルゴリズム(すなわち、大域的最適化、流れについては図3参照)。
免疫アルゴリズムを介した最適化によって生成されたすべてのタンパク質断片の最適化された配列のセットに基づいて、初期化された集団Nが無作為に生成される。遺伝的アルゴリズムの流れに従って、適応度の計算、子孫集団の選択、クロスオーバー、バリエーション、及び記憶の更新が完了される。終了代数に達した場合、進化が停止され、タンパク質の全配列に関する最適なDNAコード配列が出力される。この流れ全体が多目的最適化に属する。この最適化プロセスでは、我々は、各タンパク質断片の最適化された配列のセットを直接用いて各遺伝子をコードする。
III.微調整及び最適化
微調整及び最適化は、2つのステップからなる。すなわち、第一に、DNAの5’末端を最適化し、次に発現抑制性モチーフを除去する。DNAの5’末端の最適化プロセスは、図4に示される。網羅的な方法を用いて、タンパク質のN末端アミノ酸配列(8〜15アミノ酸)のすべての可能なDNAコード配列のリストを作り、それらのコドン文脈及びCAIを計算する。その後、タンパク質配列の開始コドンの上流に配置されるベクター配列の50bp(デフォルト値50bp、選択可能な長さの範囲0〜50bp)が連続してDNAコード配列に接続され、接続された配列の最小自由エネルギー(MFE)がソフトウェアmfoldによって計算される。最小自由エネルギー(値が高いほどよい)、コドン文脈(値が高いほどよい)及びCAI(値が高いほどよい)に従って、最良の5’末端配列を選択するようにシグナルペプチドのコード配列が分類される。
IV.上記の流れの詳細
(1)基本データセット及び二重コドン表の生成
基本データセットは、異なる宿主発現系で高度に発現されるタンパク質及びそれらの関連するDNAコード配列を指す。二重コドン表とは、基本データセットにおけるすべての二重コドンの相対適応度を指す(計算方法に関しては下記参照)。
(2)コドン文脈及びCAIの計算の流れ
a)コドン相対適応度wij
Figure 2020534794
ここで、xijは、基本データセットに現れるi番目のタイプのアミノ酸のj番目の同義コドンの数を表し、ximaxは、基本データセットに現れるi番目のタイプのアミノ酸に対する最も高い使用頻度の同義コドンの数を表す。
b)標的配列のコドン適応指数(CAI):
Figure 2020534794
ここで、Lは標的配列(すなわち、タンパク質配列または断片)のアミノ酸数を指し、wは、各アミノ酸コドンによって使用されるコドンに対応する基本データセットのコドン相対適応度である。CAIは、0〜1の値を有する。この最適化プロセスでは、我々は、コードDNAのCAI値を高めるために最善を尽くす。
c)二重コドンの相対適応度p
Figure 2020534794
ここでは、3,721種類の二重コドン(61×61=3721、終止コドンは考慮しない)が存在し、
Figure 2020534794
は、タンパク質配列の基本データセットまたは標的配列(すなわち、タンパク質配列またはその断片)に現れる二重コドンのk番目のタイプの数を表し、
Figure 2020534794
は、現れる二重コドンに対応する二重アミノ酸の数を表す。
d)標的配列のコドン文脈(CC):
Figure 2020534794
ここで、
Figure 2020534794
は、標的配列の二重コドンのk番目のタイプの相対適応度を表し、
Figure 2020534794
は、基本データセットの二重コドンのk番目のタイプの相対適応度を表す。CCは、0〜1の値を有する。この最適化プロセスでは、我々は、コードDNAのCC値を高めるために最善を尽くす。
(3)免疫アルゴリズム及び遺伝的アルゴリズムの多目的最適化プロセスにおける子孫集団の選択のため、NSGA2及びSPEA2アルゴリズム(NSGA2はデフォルトで使用される)を用いることができ、クロスオーバーには2点クロスオーバーを用いる。
以下、本発明の利点をさらに実例を挙げて説明する。
この試験で用いる宿主発現系はCHO細胞株であり、合計で2つのタンパク質を最適化及び配列決定する(関連情報に関しては表1参照)。JNK3タンパク質の配列は、配列番号1に示す通りであり、GFPタンパク質の配列は、配列番号2に示す通りである。最適化前のJNK3タンパク質及びGFPタンパク質のコード配列はそれぞれ、配列番号3及び配列番号4に示す通りであり、最適化後のJNK3タンパク質及びGFPタンパク質のコード配列はそれぞれ、配列番号5及び配列番号6に示す通りである。
Figure 2020534794
図5に示すように、試験タンパク質をコードする遺伝子断片を合成し、pTT5発現ベクター(NRCより購入、プラスミドマップは図6に示す通りである)に、それぞれ、EcoRI及びHind III切断部位を介してクローニングする。
CHO 3E7細胞の一過性発現ステップ:
1.対数増殖期にあるCHO 3E7懸濁細胞を新鮮FreeStyle CHO培地で5×10細胞/mLに希釈し、30mLの細胞懸濁液を各125mLの三角フラスコに接種する。
2.この細胞を、37℃及び5%COの条件下、懸濁培養に供する。
3.細胞密度が1〜1.2×10細胞/mLに達したら、クローニングされた標的遺伝子を有するプラスミドベクターをそれぞれCHO 3E7細胞に、PEIトランスフェクション試薬で、投与量1ug/mlに従ってトランスフェクトする。
4.トランスフェクションの48時間後、この培地を1500回転/分で遠心し、細胞を収集する。これらの試料は、−80℃の冷却装置で保存することができる。
ウェスタンブロット実験ステップ:
抗Flagタグ抗体を用いて、細胞溶解物中の標的タンパク質の発現量をウェスタンブロッティングで検出した。ベータ−アクチンタンパク質を内部参照として用いる。各プラスミドの発現実験を3回反復する。ウェスタンブロッティングの結果を図7に示す。
詳細なステップは以下の通りである。
1.CHO細胞を、細胞溶解緩衝液を用いて溶解し、そのタンパク質濃度を測定する。
2.そのタンパク質溶液に5X SDS−PAGEタンパク質ローディング緩衝液を加え、これを沸騰水浴で10分間加熱する。
3.このタンパク質試料をSDS−PAGEゲルの試料ローディングウェルにマイクロピペットで加え、各ウェルに、この試料を20ulロードする。
4.140Vでの定電圧電気泳動を60分間使用し、ゲルの底部近くにブロモフェノールブルーが達した際に電気泳動を止める。
5.膜転写電圧は100Vであり、低温での膜転写時間は60分である。
6.膜転写の終了後、そのタンパク質膜を予め調製した洗浄液に入れ、1〜2分間すすいで膜上の膜転写液を除去する。
7.これを室温で45分間、振盪器上でゆっくりと振盪させることによってブロックする。
8.これに希釈した一次抗体を加え、それをゆっくりと振盪しながら1時間、室温でインキュベートする。
9.これに洗浄液を加え、洗浄のため、合計3回、それを振盪器上で5分間ゆっくりと振盪させる。
10.これに希釈した二次抗体を加え、それをゆっくりと振盪しながら1時間、室温でインキュベートする。
11.これに洗浄液を加え、洗浄のため、合計3回、それを振盪器上で5分間ゆっくりと振盪させる。
12.化学発光検出。
13.このウェスタンブロッティングの結果の写真を、ソフトウェアImage Jで定量的に分析する。
Figure 2020534794
表2から分かるように、本特許の3ステップハイブリッドコドン最適化に供した後のJNK3タンパク質及びGFPタンパク質の発現量は、野生型配列のものと比較して、それぞれ、7.42±0.58倍及び18.37±2.90倍増加しており、この新たなアルゴリズムの高効率を十分に証明している。企業の実際の生産において、我々は同様に、複数のタンパク質でこのアルゴリズムと他のアルゴリズムの最適化の影響を比較及び試験し、これもまた、このアルゴリズムがより安定で効率的であることを証明している。
本発明に関与していない部分は、先行技術のものと全く同じであるか、または、先行技術を使用することにより実現され得る。

Claims (8)

  1. 免疫アルゴリズムに基づくコドン最適化方法であって、免疫アルゴリズム及び遺伝的アルゴリズムを連続して使用し、それぞれ、局所的多目的最適化及び大域的多目的最適化をタンパク質コード配列で行い、次いで、前記配列の微調整及び最適化を行うために網羅的な方法を用い、最適な発現配列を最大の程度まで探索する、前記最適化方法。
  2. 以下の3つのステップを含む、請求項1に記載の最適化方法:
    第一のステップの局所的最適化、すなわち、前記タンパク質配列を非重複配列断片A、A…Aに切断し、次いで、前記免疫アルゴリズムを用いて各配列断片に対して前記コドン最適化を完了させ、ほぼ最適なDNA配列のセットB、B…Bを生成する;
    第二のステップの大域的最適化、すなわち、前記遺伝的アルゴリズムを使用してB、B…Bに基づくタンパク質の完全長のDNAコード配列を初期化し、前記タンパク質配列の最適なDNA配列Cを選別する;ならびに
    第三のステップの微調整及び最適化(これは、前記コードされたタンパク質のN末端領域に対応するDNA配列の5’末端における網羅的な最適化を行い、DNA配列Cを生成すること、及び発現抑制性モチーフを除去して、最終的に最適な発現配列Dを生成することを含む)。
  3. 請求項1または2に記載の最適化方法であって、前記タンパク質が、20個超のアミノ酸からなる化合物を指し、前記タンパク質が、配置の観点から分泌タンパク質、膜タンパク質、細胞質タンパク質、核タンパク質等を含み、機能の観点からは、抗体タンパク質、調節タンパク質、構造タンパク質等を含み、起源の観点からは、相同的発現タンパク質及び異種発現タンパク質を含み、配列の観点からは、天然タンパク質及び人工的に改変されたタンパク質、完全タンパク質/抗体、短縮部分タンパク質/抗体、ならびに2つ以上のタンパク質ならびにタンパク質及びペプチド鎖から形成される融合タンパク質を含み、本発明で定義される抗体が、無傷の抗体、ならびにFab、ScFV、SdAb、キメラ抗体、二重特異性抗体、Fc融合タンパク質等を含むがこれらに限定されない、前記最適化方法。
  4. 請求項1または2に記載の最適化方法であって、前記免疫遺伝的アルゴリズムが、多目的最適化方法を採用して前記タンパク質断片において局所的最適化を行い、前記集団の初期化が、高度に発現したタンパク質をコードする配列の二重コドン表に基づき、各遺伝子が、同義コドンによって直接コードされ、前記最適化プロセスにおいて、抗体多様性が確保され、集団の変性の現象は、抗体の情報エントロピー、抗体集団の類似性、抗体濃度、ならびに前記免疫遺伝的アルゴリズム及び更新記憶細胞の重合適応度を計算することによって防止され、前記アルゴリズムの大域的探索能力を高める、前記最適化方法。
  5. 請求項1または2に記載の最適化方法であって、前記遺伝的アルゴリズムが、前記多目的最適化方法を採用して前記タンパク質の全配列において大域的最適化を行い、初期化集団が、局所的最適化に供された最適化断片に基づいて無作為に生成され、各遺伝子は、各タンパク質断片の最適化された配列のセットによって直接コードされる、前記最適化方法。
  6. 請求項1または2に記載の最適化方法であって、前記微調整及び最適化が、前記網羅的な方法を用いて最小自由エネルギーMFE、コドン文脈、及びCAIを前記DNA配列の5’末端で計算及び分類し、前記分類結果に従って、前記タンパク質配列のN末端に最適なコード配列を選択する、前記最適化方法。
  7. 少なくとも以下の宿主発現系に適用可能である、請求項1または2に記載のコドン最適化方法:
    1)哺乳類発現系、
    2)昆虫発現系、
    3)酵母発現系、
    4)Escherichia coli発現系、
    5)Bacillus subtilis発現系、
    6)植物発現系、及び
    7)無細胞発現系。
  8. 少なくとも以下の発現ベクターに適用可能である、請求項1または2に記載のコドン最適化方法:
    一過性発現ベクター及び安定発現ベクター、
    ウイルス発現ベクター及び非ウイルス発現ベクター、
    誘導及び非誘導発現ベクター。
JP2020503285A 2017-07-25 2018-07-25 免疫アルゴリズムに基づくコドン最適化方法 Pending JP2020534794A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710611752.5 2017-07-25
CN201710611752.5A CN110070913B (zh) 2017-07-25 2017-07-25 一种基于免疫算法的密码子优化方法
PCT/CN2018/097040 WO2019020054A1 (zh) 2017-07-25 2018-07-25 一种基于免疫算法的密码子优化方法

Publications (2)

Publication Number Publication Date
JP2020534794A true JP2020534794A (ja) 2020-12-03
JPWO2019020054A5 JPWO2019020054A5 (ja) 2022-07-05

Family

ID=65039394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020503285A Pending JP2020534794A (ja) 2017-07-25 2018-07-25 免疫アルゴリズムに基づくコドン最適化方法

Country Status (5)

Country Link
US (1) US20210027858A1 (ja)
EP (1) EP3660852B1 (ja)
JP (1) JP2020534794A (ja)
CN (1) CN110070913B (ja)
WO (1) WO2019020054A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979539B (zh) * 2019-04-10 2020-10-02 电子科技大学 基因序列优化方法、装置及数据处理终端
CN110580390B (zh) * 2019-09-04 2021-05-11 电子科技大学 基于改进遗传算法与信息熵的地质统计学随机反演方法
CN111243679B (zh) * 2020-01-15 2023-03-31 重庆邮电大学 微生物群落物种多样性数据的存储检索方法
CN112466393B (zh) * 2020-11-12 2024-02-20 苏州大学 基于自适应免疫遗传算法的代谢标志物组群识别方法
CN112735525B (zh) * 2021-01-18 2023-12-26 苏州科锐迈德生物医药科技有限公司 一种基于分治法的mRNA序列优化的方法与装置
CN113792877B (zh) * 2021-09-18 2024-02-20 大连大学 基于双策略黑蜘蛛算法的dna存储编码优化方法
CN116072231B (zh) * 2022-10-17 2024-02-13 中国医学科学院病原生物学研究所 基于氨基酸序列的密码子优化设计mRNA疫苗的方法
CN116218881B (zh) * 2022-10-21 2024-08-13 山东大学 一种治疗或者预防乙肝病毒的疫苗
CN115440300B (zh) * 2022-11-07 2023-01-20 深圳市瑞吉生物科技有限公司 一种密码子序列优化方法、装置、计算机设备及存储介质
WO2024109911A1 (zh) * 2022-11-24 2024-05-30 南京金斯瑞生物科技有限公司 密码子优化
CN117497092B (zh) * 2024-01-02 2024-05-14 微观纪元(合肥)量子科技有限公司 基于动态规划和量子退火的rna结构预测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006512649A (ja) * 2002-12-23 2006-04-13 ゲーネアルト ゲゼルシャフト ミット ベシュレンクテル ハフツング タンパク質の発現を目的としてヌクレオチド配列を最適化する方法及び装置
JP2008511301A (ja) * 2004-09-02 2008-04-17 ヴィラジェン インコーポレイテッド 改良された導入遺伝子の発現方法
JP2009540845A (ja) * 2006-06-29 2009-11-26 ディーエスエム アイピー アセッツ ビー.ブイ. 改善されたポリペプチド発現を達成する方法
US20140244228A1 (en) * 2012-09-19 2014-08-28 Agency For Science, Technology And Research Codon optimization of a synthetic gene(s) for protein expression

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101885760B (zh) * 2010-03-16 2012-12-05 王世霞 密码子优化的HIV-1gp120基因共有序列及gp120核酸疫苗
CN106951726A (zh) * 2017-02-20 2017-07-14 苏州金唯智生物科技有限公司 一种基因编码序列的优化方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006512649A (ja) * 2002-12-23 2006-04-13 ゲーネアルト ゲゼルシャフト ミット ベシュレンクテル ハフツング タンパク質の発現を目的としてヌクレオチド配列を最適化する方法及び装置
JP2008511301A (ja) * 2004-09-02 2008-04-17 ヴィラジェン インコーポレイテッド 改良された導入遺伝子の発現方法
JP2009540845A (ja) * 2006-06-29 2009-11-26 ディーエスエム アイピー アセッツ ビー.ブイ. 改善されたポリペプチド発現を達成する方法
US20140244228A1 (en) * 2012-09-19 2014-08-28 Agency For Science, Technology And Research Codon optimization of a synthetic gene(s) for protein expression

Also Published As

Publication number Publication date
EP3660852A4 (en) 2021-05-12
CN110070913A (zh) 2019-07-30
KR20200038263A (ko) 2020-04-10
WO2019020054A1 (zh) 2019-01-31
CN110070913B (zh) 2023-06-27
US20210027858A1 (en) 2021-01-28
EP3660852A1 (en) 2020-06-03
EP3660852B1 (en) 2024-05-01

Similar Documents

Publication Publication Date Title
JP2020534794A (ja) 免疫アルゴリズムに基づくコドン最適化方法
CN112513989B (zh) 密码子优化
Lin et al. A novel hybrid multi-objective immune algorithm with adaptive differential evolution
CN101490262B (zh) 实现改进的多肽表达的方法
Heddad et al. The evolution of light stress proteins in photosynthetic organisms
WO2012174271A2 (en) Synthetic gene clusters
Hartzell Complementation of sporulation and motility defects in a prokaryote by a eukaryotic GTPase
Ito et al. How selection affects phenotypic fluctuation
JPWO2019020054A5 (ja)
Bardin et al. Partial prion cross-seeding between fungal and mammalian amyloid signaling motifs
WO2021136347A1 (zh) 一种哺乳动物表达系统使用的高表达载体
KR102730745B1 (ko) 면역 알고리즘에 근거된 코돈 최적화 방법
Evans-Yamamoto et al. Parallel nonfunctionalization of CK1δ/ε kinase ohnologs following a whole-genome duplication event
WO2024067780A1 (zh) 一种降低外源核酸免疫原性的密码子优化
Nikolados et al. From sequence to yield: deep learning for protein production systems
Cregg et al. Expression of recombinant genes in the yeast Pichia pastoris
Zhao et al. Predicting gene expression level in E. coli from mRNA sequence information
Gong An improved immune algorithm for solving path optimization problem in deep immune learning of gene network
WO2024122449A1 (ja) 機械学習による抗体設計法
Shang et al. Immune clonal MO algorithm for 0/1 knapsack problems
Seridi et al. Hybrid metaheuristic for multi-objective biclustering in microarray data
Nadel et al. Uncultured marine cyanophages encode for active NblA, phycobilisome proteolysis adaptor protein
Liang et al. Heterologous expression of human C‐reactive protein in the green alga Chlamydomonas reinhardtii
Li et al. DSMOPSO: A distance sorting based multiobjective particle swarm optimization algorithm
Baraka et al. An in-silico study of Polymerase Epsilon catalytic subunit proteins in Arabidopsis thaliana

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220531

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20220624

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221108