JP7062861B2 - 規則に基づいたゲノムデザイン方法 - Google Patents

規則に基づいたゲノムデザイン方法 Download PDF

Info

Publication number
JP7062861B2
JP7062861B2 JP2018566278A JP2018566278A JP7062861B2 JP 7062861 B2 JP7062861 B2 JP 7062861B2 JP 2018566278 A JP2018566278 A JP 2018566278A JP 2018566278 A JP2018566278 A JP 2018566278A JP 7062861 B2 JP7062861 B2 JP 7062861B2
Authority
JP
Japan
Prior art keywords
genome
codon
design
codons
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018566278A
Other languages
English (en)
Other versions
JP2019519233A5 (ja
JP2019519233A (ja
Inventor
グレブ クズネツォフ、
マーク ジェイ. ラジョイ、
マシュー エム. ランドン、
マイケル ジー. ナポリターノ、
ダニエル ブライアン グッドマン、
クリストファー ジェイ. グレッグ、
ジョージ エム. チャーチ、
ニリ オストロフ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harvard College
Original Assignee
Harvard College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harvard College filed Critical Harvard College
Publication of JP2019519233A publication Critical patent/JP2019519233A/ja
Publication of JP2019519233A5 publication Critical patent/JP2019519233A5/ja
Priority to JP2021203678A priority Critical patent/JP2022046554A/ja
Application granted granted Critical
Publication of JP7062861B2 publication Critical patent/JP7062861B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/24Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Enterobacteriaceae (F), e.g. Citrobacter, Serratia, Proteus, Providencia, Morganella, Yersinia
    • C07K14/245Escherichia (G)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P21/00Preparation of peptides or proteins
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K38/00Medicinal preparations containing peptides

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Library & Information Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Medicinal Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Enzymes And Modification Thereof (AREA)

Description

関連出願データ
本願は、2016年6月15日に出願された米国仮特許出願第62/350,468号に対する優先権を主張するものであり、あらゆる目的のために、その全体が参照により本明細書に組み込まれる。
政府の利益に関する声明
本発明は、米国エネルギー省助成番号DE-FG02-02ER63445及び米国国防総省除税番号HR0011-13-1-0002の国庫助成により行われた。米国政府は本発明に関して一定の権利を有する。
分野
本明細書に記載の態様は、概して、遺伝子操作、及び遺伝子改変された細胞及び/又は生物に関する。特に、本開示の1又は複数の態様は、規則、条件、パラメータ、又は特徴の所定のセットに基づくゲノムデザインに有用な方法及びコンピュータソフトウェアに関する。
遺伝子改変生物(GMO:Genetically Modified Organism)は、燃料、汎用化学製品、及び治療薬などのヒト用消耗品を生産するためにますます使用されている。GMOはまた、農業(例えば、ゴールデンライス、Roundup Ready(登録商標)作物、霜害防止株(Frostban))、バイオレメディエーション(例えば、油の流出)、及びヘルスケア(例えば、クローン病及び口腔炎症)にも使用されている。商業的に実施されているGMOにおける改変は、最適化選択下での異種遺伝子発現及び進化に制限され得ることが多い。それでも、いかなる既知の生物とも根本的に異なる合成ゲノムにより、潜在的な用途が拡大され得る。
最小ゲノム(Gibson et al.、2010)及び再コード化(recoded)ゲノム(Lajoie et al.、2013a;Lajoie et al.、2013b)を作製することにかなりの関心が寄せられてきたが、ゲノムをゼロからデザインするのに十分な程に、ゲノムは理解されていない。インビボゲノム工学戦略により、非機能性ゲノムが作製される危険性が減少され得るが(Lajoie et al.、2013a;Lajoie et al.、2013b)、所望の機能を有する生存可能なゲノムを作製する検索スペースを制限するために、合理的デザインが依然として不可欠であり得る。よって、ゲノム工学の分野は、一般的なデザインの規則、条件、パラメータ、又は特徴、これらの規則、条件、パラメータ、又は特徴を導き出す方法、及び生存可能で構築可能なゲノムを生成するために使用され得るソフトウェアを緊急に必要とし得る。
以下に、本明細書に記載の様々な態様の簡単な概要を提示する。この概要は広範な概要ではなく、中心的若しくは重要な要素を特定すること又は特許請求の範囲を詳述することを意図するものではない。以下の概要は、後述するより詳細な説明への導入序文として、いくつかの概念を単純化した形で提示したに過ぎない。
本開示の態様は、生物学的に関連するモチーフへの障害を最小限に抑えながら、規則、条件、パラメータ、又は特徴のセットを満たすことに基づいてゲノムをデザインし、前記ゲノムデザインを合成し、且つ前記合成されたゲノムデザインを試験及び検証するための方法、アルゴリズム、計算プラットフォーム、及びコンピュータソフトウェアを提供する。計算プラットフォームは、ゲノムデザインを生成して、前記ゲノムデザインを合成及び/又は編集可能な単位に分割し、ここで前記ゲノムデザインはユーザ指定の制約を満たし、生物生存率及び構築可能性の確率を最大にする。再デザインされたゲノムのユニット又は個々の構成要素を試験してもよく、デザイン不合格は試験不合格の構成要素を特定することに基づいて検出してもよい。ゲノムデザインのための規則、条件、パラメータ、又は特徴は適切に更新されてもよく、その後のイテレーションのための推奨が提供されてもよい。
本開示の態様は、計算プラットフォームによって実行されるゲノムをデザインする方法に関する。前記方法は、計算プラットフォームにおける入力として、既知のゲノムに関するデータ及び前記既知のゲノムにおいて置換される対立遺伝子のリストを受け取ること、前記対立遺伝子のリストに基づいて、前記計算プラットフォームによって、前記既知のゲノムにおける各対立遺伝子の存在を検出すること、前記計算プラットフォームによって、前記既知のゲノムから各対立遺伝子の存在を除去すること、前記計算プラットフォームによって、前記既知のゲノムにおける各対立遺伝子の存在を置換するための複数の対立遺伝子選択肢を決定すること、前記計算プラットフォームによって、前記既知のゲノムに基づいてゲノムデザインのための複数の代替遺伝子配列を生成すること、ここでそれぞれの代替遺伝子配列は前記複数の対立遺伝子選択肢から選択されるそれぞれ異なる対立遺伝子選択肢を含む、前記計算プラットフォームによって、各規則、制約、条件、パラメータ、又は特徴についてのスコアをそれぞれの代替遺伝子配列に割り当てることによって、それぞれの代替遺伝子配列に対して複数の規則、制約、条件、パラメータ、又は特徴を当てはめて、それによりそれぞれの代替遺伝子配列に当てはめられた前記複数の規則、制約、条件、パラメータ、又は特徴についてのスコアを得ること、前記計算プラットフォームによって、前記複数の規則、制約、条件、パラメータ、又は特徴についてのスコアの加重された組み合わせに基づいてそれぞれの代替遺伝子配列をスコア付けすること、及び前記計算プラットフォームによって、前記加重スコア付けに基づいて、前記ゲノムデザインとして少なくとも1つの代替遺伝子配列を選択することを含む。
いくつかの実施形態では、本開示のゲノムデザイン方法を、細菌ゲノム、マイコプラズマゲノム、酵母ゲノム、ヒトゲノム、任意の天然生物のゲノム、又は任意の以前に進化させたか若しくは操作された生物のゲノムを含む、任意の種類のゲノムに対して実行可能である。さらなる実施形態において、本開示のゲノムデザイン方法は、任意の対立遺伝子の除去、制限酵素部位の除去、反復遺伝子外回文(REP:Repetitive Extragenic Palindromic)配列のターミネーターによる置換、非必須遺伝子の欠失、及び機能拡張のための異種遺伝子の挿入を含む、任意のゲノム変化のデザインについて実行され得る。
いくつかの態様によれば、ゲノムデザインにおける規則を更新するための方法が提供される。前記方法は、ゲノムデザインの1又は複数の特徴を少なくとも1つの細胞に導入すること、ゲノム生存率を同定して前記少なくとも1つの細胞に導入された前記1又は複数の特徴の表現型を評価するために、アッセイによって前記少なくとも1つの細胞の前記1又は複数の特徴を試験すること、前記試験に基づいて、前記少なくとも1つの細胞に導入された前記1又は複数の特徴が、前記ゲノムデザインのための1又は複数の所定の規則、制約、条件、パラメータ、又は特徴によれば実行可能又は不合格であると予測されると判定すること、及び前記定に基づいてゲノムデザインのための前記所定の規則、制約、条件、パラメータ、又は特徴を更新することを含む。いくつかの実施形態では、所定の規則は、統計的技術又は機械学習アルゴリズムを活用することによって更新され得る。
本開示の態様は、ゲノムデザインを試験及び改変するためのコンピュータにより実行される方法を提供する。前記方法は、既知のゲノム配列及び計算プラットフォームによって生成されたゲノムデザインの全部又は一部を取得すること、前記ゲノムデザインにおける1又は複数の特徴は、所定の規則、制約、条件、パラメータ、又は特徴のセットについて不合格であると決定すること、所定のデザイン目的を達成して生存可能性を高める前記ゲノムデザインに対する改変を予測すること、及び改良されたゲノムデザインを生成するために前記予測された改変を試験することを含む。
本開示のさらなる態様は、生存可能であるか又は所望の表現型を付与する計算的にデザインされた解が見出されない場合に、配列デザインを同定する方法を提供する。縮重DNA配列を組み合わせて試験してもよい。生存可能又は表現型的に正しい個々の配列は、スクリーニング又は選択によって同定可能されてもよい。生存可能なDNA配列は、計算による新しいデザインの規則、条件、パラメータ、又は特徴を更新又は学習するために使用され得る。
本開示は、再コード化されたゲノムを含む遺伝子操作生物であって、1つの特定のセンスコドンが、鋳型ゲノム中のある1つの遺伝子又は非コードモチーフ内の全ての出現箇所で代替コドンに変更されている、前記遺伝子操作生物を提供する。ある態様では、前記遺伝子は、タンパク質配列をコードする必須遺伝子又は非必須遺伝子である。ある態様では、特定のセンスコドンは非コードモチーフと重複する出現箇所を有する。ある態様では、前記非コードモチーフは、リボソーム結合部位モチーフ、mRNA二次構造、内部リボソーム休止部位モチーフ、又はプロモーターである。ある態様では、前記タンパク質配列は保存されている。ある態様では、前記非コードモチーフは保存されている。ある態様では、前記特定のセンスコドンは、AGG、AGA、AGC、AGU、UUG、及びUUAからなる群より選択される。ある態様では、前記遺伝子操作生物は、大腸菌である。ある態様では、前記遺伝子操作生物は、ウイルス抵抗性であるか又は生物学的に封じ込められている。ある態様では、前記特定のセンスコドンに対する同族tRNAが前記鋳型ゲノムから除去されている。ある態様では、前記特定のセンスコドンに対する同族tRNAが、前記再コード化されたゲノムには存在しない。ある態様では、前記特定のセンスコドンは、前記遺伝子操作生物内に配置され、非標準アミノ酸に再割り当てさていれる。ある態様では、前記代替コドンは同義コドンである。ある態様では、前記代替コドンは非同義コドンである。本開示は、再コード化されたゲノムを含む遺伝子操作生物であって、1つの特定のセンスコドンが、鋳型ゲノム中の複数の遺伝子又は非コードモチーフ内における全ての出現箇所で代替コドンに変更されている、前記遺伝子操作生物を提供する。本開示は、再コード化されたゲノムを含む遺伝子操作生物であって、鋳型ゲノム中の1つの特定のセンスコドンがゲノム全体で代替コドンに変更されている、前記遺伝子操作生物を提供する。本開示は、再コード化されたゲノムを含む遺伝子操作生物であって、複数の特定のセンスコドンが、鋳型ゲノム中のある1つの必須遺伝子内における全ての出現箇所で代替コドンに変更されている、前記遺伝子操作生物を提供する。本開示は、再コード化されたゲノムを含む遺伝子操作生物であって、複数の特定のセンスコドンが、鋳型ゲノム中の複数の必須遺伝子内における全ての出現箇所で代替コドンに変更されている、前記遺伝子操作生物を提供する。本開示は、再コード化されたゲノムを含む遺伝子操作生物であって、鋳型ゲノム中の複数の特定のセンスコドンがゲノム全体で代替コドンに変更されている、前記遺伝子操作生物を提供する。本開示は、本明細書に記載の方法によってデザインされた再コード化されたゲノムを含む遺伝子操作生物を提供する。本開示は、再コード化されたゲノムを含む遺伝子操作生物であって、ある1つの特定のセンスコドンの複数の出現箇所が複数の代替コドンに変更されて、前記特定のセンスコドンに対する同族tRNAを前記遺伝子操作生物から除去可能となっている、前記遺伝子操作生物を提供する。本開示は、再コード化されたゲノムを含む遺伝子操作生物であって、ある1つの特定のセンスコドンの複数の出現箇所が代替コドンに変更されて、前記特定のセンスコドンの翻訳機能を変更可能となっている、前記遺伝子操作生物を提供する。本開示は、再コード化されたゲノムを含む遺伝子操作生物であって、ある1つの特定のセンスコドンの複数の出現箇所が代替コドンに変更されて、前記特定のセンスコドンの翻訳機能を除去可能となっている、前記遺伝子操作生物を提供する。
本開示の特定の実施形態のその他の特徴及び利点は、以下の実施形態の説明及びその図面において、並びに特許請求の範囲から、さらに十分に明らかになるであろう。
本実施形態の前述した特徴及びその他の特徴、並びに利点は、添付の図面と共に、具体的な実施形態についての以下の詳細な説明から、さらに十分に理解されるであろう。
1又は複数の例示的実施形態よりソフトウェアを実行するために利用可能な例示的な計算装置のブロック図である。 1又は複数の例示的実施形態より本開示の様々な例示的実施形態を実行可能なゲノムデザインモジュールの例示的なブロック図である。 1又は複数の例示的実施形態よりゲノムをデザインするための例示的な方法ステップの例示的なフロー図である。 再コード化されたゲノムの予測されるウイルス耐性の例示的なグラフである。 57コドンの大腸菌ゲノムの一例を示す。約50kbの87個のセグメントに分割された再コード化されたゲノム全体を示す図である。コドンAGA、AGG、AGC、AGU、UUA、UUG、及びUAGは、同義の代替物に計算的に置換された(中央)。他のコドン(例えば、UGC)は未改変のままとした。色分けされたヒストグラムは、各セグメント内の7個の禁止コドンの存在量を表す。 57コドンの大腸菌ゲノムの一例を示す。再コード化されていない(wt;大腸菌MDS42)ゲノムに対する再コード化(rc)ゲノムのコドン頻度を示す図である。禁止コドンは色付けされている。 57コドンの大腸菌ゲノムの一例を示す。デノボ合成によって構築されたゲノムにおけるDNA編集の規模を示す図である。プロット領域は、親ゲノムと比較した改変bp数としてのDNA編集を表す。濃い灰色はインビボで検証されたゲノムの割合(63%)を表す。Wt:野生型。 ゲノム再コード化大腸菌株の系統並びにそれらの計算上の親及び生物学的な親を含む、再コード化大腸菌株の系統図を示す図である。一般的に使用されている実験室用菌株を緑色で示す。直交tRNAが移入された非大腸菌株を茶色で示す。既報による再コード化菌株を青色で示す。本研究で構築された菌株を黒で示す。最終菌株rE.coli-57及びその生物学的封じ込めによる対応物であるrE.coli-57Cを灰色で示す。(aaRS=アミノアシルtRNAシンテターゼ)。 大腸菌MDS42(暗色)及び計算的にデザインされたrE.coli-57ゲノム(明色、頻度表示付き)についての、セリン、アルギニン、ロイシン、及び終止コドンの頻度を示す図である。 再コード化ゲノムデザインのための計算パイプラインの概要を示す図である。ソフトウェアは、ゲノム鋳型(GenBankファイル)及び置換されるコドンのリストを入力として受け取る。次に、生物学的規則及び技術的規則(A~G)のユーザ定義の規則を適用して、新たに再コード化されたゲノムを生成する(Genbankファイル)。合成適合性のある2~4kbの配列が生成される。規則A~Gを、図9A~図9Gに図式化し、さらに表1~2で説明する。 計算的デザインのための規則、条件、パラメータ、特徴、又は指針を示す図である。 計算的デザインのための規則、条件、パラメータ、特徴、又は指針を示す図である。 計算的デザインのための規則、条件、パラメータ、特徴、又は指針を示す図である。 計算的デザインのための規則、条件、パラメータ、特徴、又は指針を示す図である。 計算的デザインのための規則、条件、パラメータ、特徴、又は指針を示す図である。 計算的デザインのための規則、条件、パラメータ、特徴、又は指針を示す図である。 計算的デザインのための規則、条件、パラメータ、特徴、又は指針を示す図である。 再コード化ゲノムの検証のための実験的戦略を示す。1)57個のコドンゲノムの計算的デザイン;2)重複する2~4kbの再コード化断片のデノボ合成;3)S.cerevisiae(オレンジ)における50kbセグメントの低コピープラスミド上での構築;4)大腸菌におけるプラスミドのエレクトロポレーション(wt.seg:再コード化されていない染色体セグメント);5)細胞生存率が再コード化遺伝子の発現のみに依存するように、カナマイシンカセット(Kan)によって置換された再コード化セグメント(例えば、wt.seg)に対応する染色体配列;6)attP配列及びattB配列のλインテグラーゼ媒介性の組換え(P:エピソーム、B:染色体);6a,b)残留ベクトルの除去(図10C参照);7)単一コピーの組み込まれた再コード化セグメントを含むパイプラインの概略図を示す図である。attL部位-attR部位を灰色で示す。 再コード化ゲノムの検証のための実験的戦略を示す。工程4~工程7のPCR分析を示す図である(各レーン:「L」GeneRuler 1-kb Plus Ladder、「C」コントロール Top10。4~7の番号は、図10Aの概略図に対応。)。赤い矢印はPCRプライマーを表す。 再コード化ゲノムの検証のための実験的戦略を示す。再コード化セグメントを有する残存ベクターがattP特異的ガイドRNA(gRNA)を用いたCas9による消化の標的となる、Cas9媒介性ベクター除去を示す図である。6a)において、再コード化セグメントの余分なコピーがインタクトなattP配列を有する。6b)は、余分なベクターコピーを除去するためのattP配列のCas9ターゲティングを示す。組み込まれたセグメントはattP配列を含まないので切断されない。全ての工程はPCR分析によって確認された。「gRNA」:ガイドRNA。 rE.coli-57ゲノム構築例を示す図である。ゲノムを、各約50kbサイズの87個のセグメントに分割した。全ての再コード化セグメントをデノボ合成した(緑色)。これまでに合計55個のセグメントをインビボで試験し(青色)、そのうち44個が低コピープラスミド上で全ての遺伝子機能性について検証可能であり(赤色)、10個のセグメントが全ての再コード化遺伝子を単一コピーにまでさらに減少可能であった(黄色)。 再コード化菌株の表現型分析を示す。再コード化セグメントは対応する野生型遺伝子の非存在下でエピソームから発現された。再コード化されていない親株に対する倍加時間を示す図である。 再コード化菌株の表現型分析を示す。セグメント21における適応度低下(fitness impairment)の局在化を示す図である。再コード化遺伝子(オレンジ色)による相補性について試験するために染色体遺伝子(灰色)を欠失させた。rpmF-accCオペロンを欠失させると倍加時間の減少が観察された。必須遺伝子を枠内に示す。 再コード化菌株の表現型分析を示す。rpmF-accCオペロンプロモーターの微調整により、遺伝子発現の増加及び倍加時間の減少がもたらされた(オレンジ色:初期のプロモーター、緑色:改良されたプロモーター)。 再コード化菌株の表現型分析を示す。208個の再コード化遺伝子のRNA-Seq分析を示す図である(青色:セグメント21、38、44、46及び70)。野生型(Wt)遺伝子の発現を灰色で示す。差次的に発現された再コード化遺伝子を赤色で示す(絶対log2変化倍率>2、調整されたp値<0.01)。挿入図:再コード化遺伝子のP値分布。 部分的に再コード化された菌株の適応度を表すグラフである。低コピープラスミド上に再コード化セグメントを有する菌株における野生型染色体配列の除去前後の倍加時間の測定値を示す(図10Aの工程4及び工程5参照)。 部分的に再コード化された菌株の適応度を表すグラフである。野生型配列の除去前後、及び染色体組込み後の倍加時間の測定値を示す(図10Aの工程4、工程5、工程6、及び工程7参照)。相対的倍加時間:改変株と親株(すなわち、インタクトなゲノム及び再コード化されていないセグメント)との間の変化倍率。 セグメント43内の全遺伝子の発現レベルが示されている、再コード化されたセグメント43の転写状況を示す。再コード化されていない菌株(TOP10)において染色体欠失後に遺伝子を分析した。異なる菌株のそれぞれについてRNAを調製し、PE150 V2キット(Illumina社)を用いてIllumina MiSeq上で配列決定した。差次的発現の分析のために、Genomic Features(Bioconductor)を用いて遺伝子に対応するカウントを集計した。DESeq2パッケージ(Bioconductor社)を用いて、遺伝子ごとに得られたカウント数をゲノム全体のレベルで正規化した(Anders et al.、2010)。再コード化遺伝子(緑色)及び再コード化されていない遺伝子(紫色)の発現レベルを示す図である。 セグメント43内の全遺伝子の発現レベルが示されている、再コード化されたセグメント43の転写状況を示す。全ての再コード化遺伝子についてのp値及び変化倍率を示す図である。セグメント43内の遺伝子はいずれも、有意に差次的に発現されないことが分かった(すなわち、絶対log2変化倍率>2及び調整されたp値<0.01)。 致死的デザインの例外のトラブルシューティングの一例を示す図である。再コード化されたセグメント44(オレンジ色)は染色体配列を完全に欠失させると(Chr-Δseg44.0)細胞生存率を支持しなかった。原因となる再コード化遺伝子(accD)は、連続的な染色体欠失によって同定された(Chr-Δseg44.1-4。「X」:生存不能)。必須遺伝子を枠内に示す。 致死的デザインの例外のトラブルシューティングの一例を示す図である。λ組換えを利用して、致死的なaccD配列(accD.初期、オレンジ色の再コード化コドン)を代替の再コード化accD配列(accD.改良、青色の代替コドン)と交換した。mRNA構造及びRBSモチーフ強度を両方の配列について計算した。野生型(Wt)を灰色で示す。「accD nuc。」:再コード化されたそれぞれのコドンの最初の位置。得られた生存配列(accD.生存)は両方のデザイン由来のコドンを有していた。mRNAスコア及びRBSスコアは、再コード化されたコドンと再コード化されていないコドンとの予測mRNA折り畳みエネルギー(kcal/mol)(Markham et al.、2005)又は予測RBS強度(Salis、2011)の比率である。 accDの再コード化のための生存可能な代替案を探索する一例を示す図である。再コード化accD遺伝子中の抵抗性コドンの位置を決定するために、無処理の再コード化されていない菌株においてMAGE(当技術分野で公知の多重自動ゲノム工学)(Wang et al.、2009)を用いた。遺伝子発現破壊についての最も可能性の高い遺伝子座である遺伝子のN末端が特異的に標的化された(Plotkin et al、2011、Goodman et al.、2013、Boel et al.、2016)。accD遺伝子の最初の5個の禁止コドン(ヌクレオチド位置4、25、52、85、及び100)は、再コード化される位置に縮重塩基を有する2個のオリゴヌクレオチドによって標的化された(Nは、A、T、C、又はGの塩基対を表す)。WTは再コード化されていないaccD配列(黒色)を表し、配列1~配列5はMAGE実験により得られた生存可能な遺伝子型(禁止コドンは黒色で示される)を示し、accD.初期は致死的な再コード化accD(黄色)を表し、accD.改良は計算により生成された代替accD配列を表す。各配列について予測mRNA折り畳みエネルギーのスコアを右側に示す。各コドンについての予測RBS強度のスコアを下に示す(各位置についてのバーは以下の順序である:WT(黒色);配列1~配列5(灰色);accD.初期(黄色);accD.改良(青色))。mRNAスコアは、再コード化配列と野生型配列との予測mRNA折り畳みエネルギー(kcal/mol)の比率を表す。RBSスコアは、各コドンについて、再コード化配列と野生型配列との予測RBS強度の比率を表す。RBS強度は、リボソーム休止の代用として使用される計算スコアである。 セグメント44におけるaccD遺伝子の異なる種類の配列アラインメントの一例を示す図である。WTは、再コード化されていない配列に対応する。accD.初期は、致死的な再コード化デザインに対応する。accD.改良は、改良されたアルゴリズムによって生成された再コード化accD配列に対応する。accD.生存は、accD.初期をaccD.改良で置き換える組換え後に得られた生存クローンの遺伝子型に対応する。 57コドンのadk遺伝子の生物学的封じ込めとの適合性を示す例を示す。rE.coli-57の生物学的封じ込めとの適合性を検証するために、必須遺伝子adkの7種のコドンの置換を2種の異なる生物学的封じ込め株(C321.ΔA.adk_d6及びC321.ΔA.adk_d6.tyrS_d8)に適用した。57コドンのadkで改変された生物学的封じ込め株が改変していないそれらの親株と同様の適合性を維持したことを示す図である。薄灰色:改変されていない生物学的封じ込め株(Mandell et al.、2015)、濃灰色:57コドンのadkを有する生物学的封じ込め株。 57コドンのadk遺伝子の生物学的封じ込めとの適合性を示す例を示す。57コドンのadkを含む生物学的封じ込め株又は57コドンのadkを含まない生物学的封じ込め株の回避率を示す図である。SC培地:SDS+クロラムフェニコール、SCA培地:SDS+クロラムフェニコール+アラビノース。 C123株の構築例を示す。C123株の作製及び分析に使用される例示的なワークフローを示す図である。デザイン段階には、大腸菌の必須遺伝子中の123個のAGRコドンの同定を含めた。MAGEオリゴヌクレオチドは、これらのAGRコドンの全ての出現箇所を同義のCGUコドンで置換するようにデザインされた。構築段階では、110個のAGRコドンをCGUに変換するためにCoS-MAGEを使用した。多重対立遺伝子特異的コロニーPCR(MASC-PCR)を用いて所望の組換え体をスクリーニングした。MASC-PSCによってスクリーニングされた96クローンにおいて観察されなかったAGR変換は、トラブルシューティングのためにトリアージされた。インビボでのトラブルシューティング段階では、容易にCGUに変換することができなかった13個のコドンが解決された。検討段階では、C123株について配列決定、進化、及び表現型決定を行った。 C123株の構築例を示す。MG1655(Chr.0が上方向)に対するC123ゲノムの模式図の例である。外側のラベルはAGRコドンのセット分類を示す。AGRからCGUへの変換が成功した場合を放射状の緑色の線で示し、13個の抵抗性コドンを放射状の赤色の線で示す。 試行したAGR→CGU置換の分析例を示す。正規化されたORF位置に対するAGR組換えの頻度を示す図である。AGR組換えの頻度は、MASC-PCRを用いて細胞集団あたり96クローン決定された。正規化されたORF位置は、AGRコドンの残基数をORFの全長で割ったものであった。AGRからCGUへの変換の失敗は、x軸の下に赤い縦線で示す。 試行したAGR→CGU置換の分析例を示す。34℃のLBL培地中のC123系統における菌株の倍加時間が96ウェルプレートリーダー上で3連で決定された。色付きバーは、倍加時間が決定された時にどのコドンセットが構築中であったかを示す。失敗した(すなわち、MASC-PCR頻度<1/96)抵抗性のAGR→CGU変換は、トラブルシューティングパイプラインにトリアージされた。これらの13個の抵抗性AGRコドンの最適化された置換配列を最終菌株に組み入れ(右側の灰色の部分、「*」で表示)、得られた倍加時間を測定した。 4個の抵抗性AGRの置換についての失敗メカニズムの例を示す。野生型AGRコドンは太字の黒色文字で示され、デザイン欠陥は赤色の文字で示され、最適化された置換遺伝子型は緑色の文字で示される。ftsI遺伝子及びmurE遺伝子が互いに重複していることを示す図である。ftsIにおけるAGA→CGU突然変異は、murEにおいて非保存的Asp3Val突然変異を導入すると考えられる。murEのアミノ酸配列は、AGA→CGA突然変異を用いることによって保存された。 4個の抵抗性AGRの置換についての失敗メカニズムの例を示す。下流の必須遺伝子nusGについてsecE遺伝子がRBSと重複することを示す図である。AGG→CGU突然変異はRBS強度を97%減少させると予測される(47)。RBS強度は、AGG→GAG突然変異を用いることによって保存される。 4個の抵抗性AGRの置換についての失敗メカニズムの例を示す。ssb遺伝子がその開始コドンの直後に内部RBS様モチーフを有することを示す図である。AGG→CGU突然変異はRBS強度を94%減少させ得る。RBS強度は、AGA→CGA突然変異を緑色の文字で示される付加的なゆらぎ(wobble)変異と組み合わせて用いることによって保存される。 4個の抵抗性AGRの置換についての失敗メカニズムの例を示す。遺伝子rnpAが、AGG→CGU突然変異によって変化し得る明確なmRNA構造を有することを示す図である。元のRNA構造は、AGG→CGG突然変異を用いることによって保存される。RBS(緑色)、開始コドン(青色)、及びAGRコドン(赤色)について、予測されるRNA二次構造上に同色の枠で注釈を付した。 同義変異の成功を予測するRBS強度及びmRNA構造の一例を示す図である。具体的には、mRNA折り畳みにおける偏差(x軸、UNAFold計算機(41)により37℃で計算)に対する、予測RBS強度(y軸、Salisリボソーム結合部位計算機(47)で計算)を示す散布図である。小さい灰色の点は、最初の10コドン又は最後の10コドン内にAGRコドンを有する大腸菌MG1655における非必須遺伝子を表す。大きな灰色の点は、必須遺伝子の最初の10コドン又は最後の10コドンにおける成功したAGR→CGU変換を表す。オレンジ色の星印は、必須遺伝子における失敗したAGR→CGU突然変異(抵抗性コドン)を表す。緑色の点はこれらの抵抗性コドンについての最適解を表す。「安全な置換ゾーン」(青い影付きの領域)は、本研究で観察された成功したAGR→CGU置換突然変異に基づいて、実験により定義されたmRNA折り畳みの偏差及びRBS強度の偏差の範囲である。ほとんどの失敗したAGR→CGU突然変異(オレンジ色の星印)により、「安全な置換ゾーン」の外側にあるRBS強度又はmRNA構造における偏差が大きくなる。遺伝子holB遺伝子及びftsI遺伝子は、それらの最初のCGU変異が重複する必須遺伝子においてアミノ酸変化を引き起こしたことから、2つの注目すべき例外である。矢印は、抵抗性コドンの最適化された置換の4つの例(ftsA、folC、rnpA、rpsJ)について、RBS強度及び/又はmRNA構造における偏差が減少することを示す。 14個のN末端AGRコドンのコドン選択の一例を示す図である。CRAM(Crispr-Assisted MAGE)を使用して、それらのCDSの最初の10個のコドン内に位置するいくつかのAGRコドンに対するコドン選択を探索した。簡潔には、MAGEを用いて目的のAGRをランダム化することによって集団を多様化し、次にガイドRNAを用いる当技術分野において一般的に知られているCRISPR/Cas9システム及びCas9酵素を用いて親(未改変)集団を枯渇させ、目的の位置にある全64コドンの網羅的な検索を行った。次に、細胞集団を連続的に継代し、Illumina MiSeqを用いて配列決定することにより、コドン存在量を経時的にモニターした。左のy軸(コドン頻度)は、特定のコドンの相対存在量を示す(積み重ね面積プロット)。右のy軸は、初期の時点で0.5に正規化したmRNA折り畳み構造(赤線)及び内部RBS強度(青線)の複合的な偏差を任意単位(AU)で示す。0は野生型からの偏差がないことを意味する。横軸は、集団多様性の特定の読み込みが得られた実験時間を時間単位で示す。bcsB遺伝子及びchpS遺伝子は、本明細書中に記載される菌株の例において必須ではなく、したがって、本質的な遺伝子圧力下にないAGRコドンに対する対照として用いる。 RBS強度及びmRNA構造が14個のN末端コドン置換のコドン選択を予測する一例を示す。具体的には、CRAM実験の結果を示す散布図である(図23)。各パネルは異なる遺伝子を表す。Y軸はRBS強度の偏差(Salisリボソーム結合部位計算機(Salis、2011)で計算)を表し、X軸はmRNA折り畳みエネルギーの偏差を示す(X軸、UNAFold計算機により37℃で計算)(Zadeh et al.、2011)。中間時点(t=72時間、選択後に最大の多様性を示すように選択された)におけるコドン存在量は、点の大きさによって表される。緑色の点はWTコドンを表す。青い点は同義AGRコドンを表す。オレンジ色の点は、生存不可能なアミノ酸置換を導入し得る残りの58個の非同義コドンを表す。黒い四角は、ゲノム全体での再コード化作業において観察された失敗したAGR→CGU変換を表す(表3、図19A~図19B)。「安全な置換ゾーン」(青い影付きの領域)は、本研究で観察された成功したAGR→CGU置換突然変異に基づいて、実験により定義されたmRNA折り畳みの偏差及びRBS強度の偏差の範囲である(図21A~図21D)。bcsB遺伝子及びchpS遺伝子は、本明細書中に記載される菌株の例において必須ではなく、したがって、本質的な遺伝子圧力下にないAGRコドンに対する対照として用いる。 AGRコドンの最適置換を予測することにより、トラブルシューティングを必要とする予測コドンの数が減少する例を示す。C123の構築からの実験によるデータを示す図である。110個のAGRコドンがCGUに再コード化に成功し(緑色)、13個の抵抗性AGRコドンがトラブルシューティングを必要とした(赤色、縞模様)。 AGRコドンの最適置換を予測することにより、トラブルシューティングを必要とする予測コドンの数が減少する例を示す。AGRコドンの全ての出現箇所をゲノム全体で置換するための予測された抵抗性コドンを示す図である。この分析に使用された参照ゲノムは、合成される全ヌクレオチドを制限するために、置換される3181個のAGRコドンを残して、挿入エレメント及びプロファージが除去された(Umenhoffer et al.、2010)。分析によると、AGRの全ての出現箇所をCGUで置換すると、246回の変換失敗が発生することになる(「無処理の置換」、赤い縦縞)と予測された。しかし、最良のCGN代替案を特定するためにこのワーク(情報に基づく置換)の規則を実行すると、予測される失敗率は10.5%(13/123)から2.32%(74/3181)に減少し、そのうち一部のサブセットのみ、非必須遺伝子におけるそれらの位置に起因して適応度に直接影響することになる。特定の同義CGNのそれぞれは、固有の緑色の色合いで識別され、それぞれのセクションの内側に表示される。 大腸菌(EcM2.1)の全ての必須遺伝子におけるAGRコドンの「セット」のそれぞれを置換するための戦略例を示す図である。ここでAGRコドンは白抜き三角形(様々な色)が付されている。まず、二重選択可能なtolCカセット(二重緑色線)を、近傍の(<500kb)下流のAGR遺伝子座(様々な色付き線)を標的とするいくつかのオリゴヌクレオチドと共に、多重組み換えにおいてlambda redを用いてゲノムと組み換える。tolC挿入クローンを選択すると、tolCとその他の近傍の(<500kb)下流のAGR遺伝子座との組換え事象の強い連鎖のために、正しく選択されたAGRコドンもより高い頻度で観察される(塗りつぶされた三角)。次に、同様のAGR変換オリゴヌクレオチドプールを使用して2回目の組換えを行うが、ここで別のオリゴヌクレオチドとペアにして未成熟停止を有するtolCのORFを破壊した後、tolC対向選択を適用し、再びAGR変換の集団を濃縮する。次に、3回目の多重組換えにより、再びAGR遺伝子座を標的にしてtolCのORFが固定される。tolC選択を適用した後、クローンをMASC-PCRによってアッセイする。所与のセットにおいてほとんどの変換がなされていると仮定すると、選択マーカーは、次に(必要に応じて)一重組み換え又は多重組み換えにおいて修復オリゴヌクレオチドを用いて除去されるであろう。次いで、tolC対向選択を利用して、傷のない染色体を残すこと、及びゲノム中の他の場所で使用するためにtolCカセットを解放することの両方を行う。 抵抗性AGR→CGU突然変異についての3つの異なる失敗事例の例示的な概略図を示す。いずれの場合も、一番上の列が最初の配列、中央の列がAGR→CGU突然変異、3番目の列の一次DNA配列がトラブルシューティングで収束された最適解である。DNA配列の下の緑色の枠は、同じ順序でアミノ酸配列を示す(上段が最初、中段がAGR→CGUによるもの、下段がトラブルシューティング解決策による)。図27Aは、必須遺伝子の末端にあるAGRが下流のORFとC末端で重複する例を示す図である。(i)ftsI遺伝子及びmurE遺伝子は互いに重複している。ftsIにおけるAGA→CGU突然変異により、murEに非保存的Asp3Val突然変異が導入され得る。murEのアミノ酸配列は、AGA→CGA突然変異を用いることによって保存された。(ii)holB遺伝子及びtmk遺伝子は互いに重複している。holBにおけるAGA→CGU突然変異により、tmkに非保存的Stop214Cys突然変異が導入され得る。tmkのアミノ酸配列は、AGA→CGC突然変異を用い、3個のヌクレオチドを付加することによって保存された。 抵抗性AGR→CGU突然変異についての3つの異なる失敗事例の例示的な概略図を示す。図27Bは、必須遺伝子の末端にあるAGRが下流遺伝子のRBSとC末端で重複する例を示す図である。(i)secE遺伝子は下流の必須遺伝子nusGに対するRBSと重複する。AGG→CGU突然変異はRBS強度を97%減少させ得る(Salis et al.、2011)。RBS強度は、AGG→GAG突然変異を用いることによって保存される。(ii)dnaT遺伝子は下流の必須遺伝子dnaCに対するRBSと重複する。AGG→CGU突然変異はRBS強度を77%減少させ得る(Salis et al.、2011)。RBS強度は、AGG→CGA突然変異を用いることによって保存される。(ii)folC遺伝子は、この菌株において必須であることが示されている下流のdedD遺伝子に対するRBSと重複する。AGGAGA→CGUCGU突然変異はRBS強度を99%低下させ得る(Salis et al.、2011)。RBS強度は、AGG→CGGCGA突然変異を用いることによって保存される。 抵抗性AGR→CGU突然変異についての3つの異なる失敗事例の例示的な概略図を示す。図27Cは、必須遺伝子の開始部分で抵抗性AGR変換を引き起こすN末端RBSモチーフを示す図である。(i)dnaT遺伝子は内部RBS様モチーフを有する。AGG→CGU突然変異はRBS強度を26倍増加させ得る(Salis、2011)。付加的なゆらぎ変異と組み合わせたAGA→CGU突然変異を用いることによってRBS強度はより良く保存される。(ii)prfB遺伝子は内部RBS様モチーフを有する。このRBSモチーフは、prfBにおける下流の計画的フレームシフトに関与する(Curan、1993)。フレームシフトを除去することによってのみ、(不十分なRBS様部位を残す)AGG→CGU突然変異が可能であった。フレームシフトを維持するためには、AGG→CGG突然変異と付加的なゆらぎ変異が必要であった。その場合、局所的RBS強度は維持された(4行目)。(iii)ssb遺伝子は内部RBS様モチーフを有する。AGG→CGU突然変異はRBS強度を94%減少させ得る。付加的なゆらぎ変異と組み合わせたAGA→CGA突然変異を用いることによってRBS強度は保存される。 ssb遺伝子、dnaT遺伝子、及びprfB遺伝子に関する以前の研究(Li et al.、2012)から得たリボソーム休止データの例を示す図である。緑色の線は各遺伝子のリボソームプロファイリングデータを表す。オレンジ色の線は、アノテーション付き開始コドンの最初の30ヌクレオチド以内にAGRコドンを有するすべての遺伝子の平均を示す。2本の赤い縦線の間の領域は、(AGRコドンの12bp後を中心とする)目的の区間を示す。興味深いことに、prfB及びssbはAGRコドンの後にピークを示し、dnaTについてはピークは観察されない。Salis計算機による予測に基づいて、これらの3つの場合においてAGRをCGUに置換することにより、リボソームの一時停止が妨げられる(prfB及びssb)か、又はリボソームの一時停止が導入される(dnaT)と考えられている。 mRNA折り畳み変異によって説明される4種の抵抗性AGR→CGU突然変異のmRNA折り畳み予測の例を示す図である。UNAfoldを用いた開始コドンの上流100ヌクレオチド及び下流30ヌクレオチドのmRNA折り畳み予測(Markham et al.、2008)。AGR→CGU変換の失敗を理解するためには、mRNAの折り畳みの形状及び折り畳みエネルギーの値の両方を考慮する必要がある。「AGR」は予測された野生型mRNAを表し、「CGU」は(一般には観察されない)AGR→CGU突然変異を有するmRNAの折り畳み予測であり、「最適化」はインビボトラブルシューティング後に見出されるAGR置換の解決策のmRNA折り畳み予測に対応する。各構造の下に、可視化された構造の折り畳みの予測自由エネルギー(kcal/mol)を示す。 rnpA遺伝子に対するmRNA折り畳み予測の例を示す。折り畳み予測のために、UNAfoldを用いてrnpA開始部位の上流30ヌクレオチド及び下流100ヌクレオチドを用いた(Markham et al.、2008)。Aは、AGG(青枠中)を有する野生型rnpA配列を示す(青い四角)。Bは、青枠内にAGG→CGUを有する野生型rnpA配列を示す(観察せず)。Cは、青枠内にAGG→CGGを有する野生型rnpA配列を示す(増殖速度異常を伴わずに観察された)。図30Dは、青枠内にAGG→CTG及びmRNAループを維持するための1つの相補的変異CCC→CCAを有する野生型rnpA配列を示す(青枠内)(増殖速度異常伴わずに観察された)。 G15A ArgUがWT大腸菌株及び再コード化大腸菌株における発現及びアミノアシル化レベルに影響を及ぼさない例を示す図である。野生型大腸菌におけるWTのArgU tRNA及びG15A ArgU tRNA(WT-WT及びWT-G15A)、並びに最終菌株であるC123a及びC123b(501及び503)について、いくつかの増殖条件で、ノーザンブロットAcid-Urea PAGEを実施した。アミノアシル化レベルはすべての条件及び組み合わせについて野生型と同程度であり、変異が集団によって一掃されたにもかかわらずチャージのレベルに影響がないことを示唆している。 24時間の時点でのCRAM実験における各コドン及び各遺伝子についての読み取り数の一例を示す図である。CRAM(Crispr-Assisted MAGE)を用いて、いくつかのN末端AGRコドンに対するコドン選択を調べた。左のy軸(読み取り数)は特定のコドンの存在量を示す。x軸は、AAAからTTTまでアルファベット順にランク付けされた64種の可能なコドンを示す。実験24時間の時点を示す。多様性は、イルミナシークエンシングによってアッセイした。bcsB遺伝子及びchpS遺伝子は必須ではなく、したがって、本質的な遺伝子圧力下にないAGRコドンに対する対照として用いる。 144時間の時点でのCRAM実験における各コドン及び各遺伝子についての読み取り数の一例を示す図である。CRAM(Crispr-Assisted MAGE)を用いて、いくつかのN末端AGRコドンに対するコドン選択を調べた。左のy軸(読み取り数)は特定のコドンの存在量を示す。x軸は、AAAからTTTまでアルファベット順にランク付けされた64種の可能なコドンを示す。実験144時間の時点を示す。多様性は、イルミナシークエンシングによってアッセイした。bcsB遺伝子及びchpS遺伝子は必須ではなく、したがって、本質的な遺伝子圧力下にないAGRコドンに対する対照と遺伝子して用いる。 AGR置換戦のそれぞれについての予測される抵抗性AGRコドンの数の一例を示す図である。3222個の全AGRを置換する4種の可能性のあるゲノムは、4種の置換戦略を用いてデザインされた。第一に、ゲノム全体でAGRがCGUに変更された(緑色のバー)。第二に、遺伝子の開始近くの局所的mRNA折り畳みの偏差を最小にするようにAGR同義変異が選択された(オレンジ色のバー)。第三に、RBS強度の偏差を減少させるようにAGR同義変異が選択された(青色のバー)。最後に、両方を最小にするようにAGR同義変異が選択された(紫色のバー)。次に、これらのゲノムをカスタムソフトウェアを用いてスコア付けして比較した。安全な置換ゾーンの外側にある偏差はすべて、抵抗性コドンであると予測される。 MG1655と比較した完全に再コード化されたゲノムの代表的なグラフの例である。外側の環は、各AGRコドン(縦線)が含まれているセットグループを含む。線のそれぞれには、トラブルシューティングに関する情報(トラブルシューティングの場合は赤、そうでない場合は緑)及び相対的な組換え頻度(点)が含まれる。内部の環はそれぞれ、そのセットの生成中に蓄積された突然変異を表し、各環についてのアクティブなセットが強調表示されている。内部の環は、菌株構築中のトラブルシューティング手順を表す。 本開示の実施形態の様々な方法工程を示す概略図である。 MAGEを介して代替コドンをゲノムの異なる位置に導入する実験手順を示すグラフである。次いで、集団は、一定の間隔でサンプリングされながら、対数増殖期中期で維持される。コドン分画を時間に対してプロットし、対数減衰関数を当てはめる。減衰定数は適応度を示す。 実験により測定された適応度を予測GETKスコアと比較を示した図である。x軸上の各位置は、異なるゲノム位置を試験する95種のサブ実験のうちの1つに対応する。y軸上の位置は野生型に対する適応度を示し、負の値は適応度がより低いことを示し、0は野生型の適応度を示す。挿入図は、良好、平均的、又は不良のGETKスコアによってグループ化された測定コドンの適応度を示す。予測スコアが良い例は、適応度が有意に優れている。 様々な遺伝子の5′末端近くの隣接コドン交換の組み合わせを試験する62種のサブ実験の結果の要約を示す図である。オリゴヌクレオチドライブラリーは、90塩基のオリゴウィンドウ内のコドン位置での縮重を考慮して設計された。サブ実験の結果は合わせて示されるが、良好な適応度(<7%の適応度低下)又は不良な適応度(>13%の適応度低下)を有するコドンの組み合わせによって区別される。一対の良好-不良適応度の概要が、5′mRNAの折り畳み強度の変化、上流のRBSモチーフ強度の変化、内部RBSモチーフ強度の変化の3種のGETKスコア付け測定基準のそれぞれについてプロットされている。各測定基準について、低いスコアは、それぞれのモチーフの予測される破壊が少ないことを示す。 対照についての代替コドン軌跡を示す図である。最上列は、同義コドン及び早期終止コドンが非必須遺伝子であるLacZ及びGalKの複数の位置に導入され、同義コドンと内部終止との間で同様の効果を示す、無効対照を示す。下段は、同義コドン及び内部終止コドンが必須遺伝子に導入された強力効果の対照を示す。これらは、いくつかの位置でコドン選択のより大きなダイナミックレンジと共に、内部終止と同義コドンの間に著しい差異を示す。 遺伝子の内部の特定の位置(5′末端に限定されない)においてガンマプロテオバクテリア中の大腸菌の系統発生的に近い隣接種において観察された非同義及び同義の突然変異の試験からの結果を要約する図である。これらの位置は、一部の代替案に対する内部RBSがGETKによって破壊的であると予測されたかどうかに従って優先順位が決められた。内部RBSスコアは代替対立遺伝子の選択肢の適応度の強力な予測因子であることが示される。 保存により予測される非同義変異の混合されたものを試験した結果を示す図である。これらの位置は、既報の通り(Li et al.、2012)、リボソーム休止のピークに従って優先順位が決められた。内部RBSスコアは代替対立遺伝子選択肢の適応度の強力な予測因子であることが示される。
本開示の実施形態は、全体を通して一般的に「(複数の)制約」、「(単一の)制約」、「(複数の)規則」、「(単一の)規則」、又は「規則に基づいた」と称されることがある規則、制約、条件、パラメータ、又は特徴のセットに基づいてゲノムをデザインするための方法、アルゴリズム、及びコンピュータソフトウェアに基づく。本明細書に記載の規則に基づいたゲノムデザインは、DNA中の既知の生物学的モチーフ及び特徴を保存し、デザインされたゲノムの合成及び構築のための様々な制約、及び/又は規則、条件、パラメータ、又は特徴を満たしつつ、ゲノム改変を実行するための方法及びコンピュータアルゴリズムを含む。本明細書に記載されるように、規則、条件、パラメータ、又は特徴は、可能性のあるゲノムデザインについての各制約をスコア付けすることによってゲノムデザインを合成する際に適用され得る生物学的制約及び合成制約を意味し得る。生物学的モチーフは、必須遺伝子、リボソーム結合部位(RBS)モチーフ、mRNA二次構造、及び内部リボソーム休止部位モチーフなどを含み得る。いくつかの実施形態では、開示されるゲノムデザインのための方法は、遺伝子、オペロン、及びゲノムなどを含む遺伝要素をデザインすることを目的とし得る。
本開示の態様は、多重自動化ゲノム工学(MAGE)及び標的配列決定の組み合わせに基づき、CRISPRを利用したMAGE(CRAM)、及び分子反転プローブ(MIPS)と組み合わせたMAGEなどの他の技術と共に、新しい規則、制約、条件、パラメータ、又は特徴を実験により導出するための方法を含む。本明細書に記載の態様は、制約条件及び/又は規則のセットに基づいてデザインしたゲノムに関する情報を提供すること、及び将来のゲノムデザインにおいて表現型の改善をもたらし得る改変を推奨することも含み得る。最終的には、本明細書に開示された規則に基づいたゲノムデザイン方法及び統合ソフトウェアは、DNA構築物産生の効率改善及びコスト削減のためのゲノム工学及び生物学的生産の分野において有益であり得る。
場合によっては、特定の対立遺伝子(本明細書では「禁止対立遺伝子」又は「禁止コドン」と称することがある)のゲノム全体での対立遺伝子置換について同義対立遺伝子を選択する時など、ゲノム改変時にいくつかの課題が生じ得る。最初に、生物生存能を確保するために、GC含量及び一次ヌクレオチド配列によってコードされる調節エレメントなどの親ゲノムの基本的特徴を維持することが重要であり得る。さらに、禁止対立遺伝子が重複する遺伝子領域に含まれる場合、非同義変異の導入又は調節機能の破壊を回避するようにこれらの重複を慎重に分割する必要がある場合がある。最後に、計算によるデザインスキームは、ゲノム構築に使用される実験ツールと適合性があることが望ましいであろう。
よって、本明細書には、ユーザ指定の規則が適切な同義対立遺伝子置換を見つけるための制約として機能する、ゲノム再コード化ソフトウェアのための規則に基づいたアーキテクチャについて記載する。一例として、表1及び表2は、ゲノムデザイン(例えば、根本的に再コード化された大腸菌ゲノムのデザイン及び合成)に対して実施され得る規則及び制約のさらなる例を提示する。具体的には、表1はゲノムデザイン規則のための生物学的な制約、条件、パラメータ、又は特徴の例を示し、表2はゲノムデザイン規則のための合成的な制約、条件、パラメータ、又は特徴の例を示す。本明細書に記載の規則に基づいたアーキテクチャは、計算モジュール又はソフトウェアモジュールとして実装可能であり、一般的なアプリケーションに拡張可能あり、特定のニーズに従ってカスタマイズすることも可能である。
様々な実施形態の以下の説明では、本明細書の一部を構成し、実施可能な本開示の様々な実施形態を例示として示す添付の図面を参照する。他の実施形態も利用可能であることを理解されたい。以下の開示により、当業者は、本明細書に記載の様々な態様が、1又は複数のコンピュータプログラム製品を利用するコンピュータ化された方法、システム、デバイス、又は装置として具現化され得ることを理解するであろう。したがって、コンピュータ化された方法、システム、デバイス、及び装置の様々な態様は、完全にハードウェアからなる実施形態、完全にソフトウェアからなる実施形態、又はソフトウェアの態様とハードウェアの態様を組み合わせた実施形態の形を取り得る。さらに、コンピュータ化された方法、システム、デバイス、及び装置の様々な態様は、記憶媒体内又は記憶媒体上に具現化された、コンピュータ可読プログラムコード又は命令を有する1又は複数の持続的コンピュータ可読記憶媒体によって記憶されたコンピュータプログラム製品の形を取り得る。ハードディスク、CD-ROM、光記憶装置、磁気記憶装置、及び/又はそれらの任意の組み合わせを含む、任意の適切なコンピュータ可読記憶媒体を利用可能である。さらに、本明細書に記載されるようなデータ又はイベントを表す様々な信号は、金属ワイヤ、光ファイバ、及び/又は無線伝送媒体(例えば、空気及び/又は空間)などの信号伝達媒体を通って伝わる電磁波の形で送信元と送信先の間で転送され得る。以下の説明では、要素間の様々な接続について論じることに留意されたい。これらの接続は一般的なものであり、特に指定がない限り、直接的又は間接的、有線又は無線であり得、本明細書はこの点に関して限定することを意図しないことに留意されたい。
1又は複数の構成では、本開示の教示は計算装置を用いて実施することができる。図1は、ゲノムデザインのための方法の実施のためなど、本開示の態様により使用され得る計算装置100のブロック図を示す。計算装置100は、本明細書に説明されるような規則に基づいたゲノムデザインに関連する態様を実行及び実施するようにプログラム及び/又は構成された特殊な計算装置である。計算装置100は、本明細書に記載されるように方法を実行し命令を実行するように構成されたゲノムデザインモジュール101を有していてもよい。ゲノムデザインモジュール101は、1又は複数の特別に構成されたプロセッサ及び1又は複数の記憶装置(例えば、データベース、RAM、ROM、及び他のコンピュータ可読媒体)、1又は複数の特定用途向け集積回路(ASIC)、及び/又は他のハードウェアコンポーネントで実行され得る。本開示を通して、ゲノムデザインモジュール101は、1又は複数のゲノムファイル又は鋳型(例えば、1又は複数のアノテーション付きGenBankファイル)を受け取るため、置換される対立遺伝子のリストを受け取るため、生物学的制約及び合成制約のセットをゲノム配列に適用することによってゲノムを改変するため、並びに改変、ゲノムデザインのスコア付け、ゲノムデザインのための規則、制約、条件、パラメータ、又は特徴の修正及び/又は作成に基づいて新しいゲノムデザインを作成するためなどに使用されるソフトウェア(例えば、コンピュータプログラム、アプリケーション、及び/又はアルゴリズム)及び/又はハードウェアを指し得る。具体的には、ゲノムデザインモジュール101は、他のアプリケーションにさらに拡張することができる、ゲノム再コード化ソフトウェアのための規則に基づいたアーキテクチャの一部であってもよい。ゲノムデザインモジュール101の1又は複数の特別に構成されたプロセッサは、計算装置100の別の汎用プロセッサ103に加えて、又はそれと共に動作可能である。いくつかの実施形態では、ゲノムデザインモジュール101は、1又は複数の汎用プロセッサ103によって実行されるソフトウェアモジュールとすることができる。ゲノムデザインモジュール101及び汎用プロセッサ103の両方は、計算装置100及びその関連構成要素であるRAM105、ROM107、入力/出力(I/O)モジュール109、ネットワークインターフェース111、メモリ113などの動作を制御可能であり得る。
I/Oモジュール109は、計算装置100のユーザが入力データを提供可能なマイクロフォン、キーパッド、キーボード、タッチスクリーン、ジェスチャセンサ若しくは他のセンサ、及び/又はタッチペンなどの入力装置115に接続されるように構成され得る。I/Oモジュール109はまた、モニター、テレビ、及びタッチスクリーンなどの表示装置117に接続されるように構成されていてもよく、グラフィックカードを含んでいてもよい。表示装置117及び入力装置115は、計算装置100とは別個の要素として示されているが、それらは同じ構造内にあってもよい。入力装置115を使用して、システム管理者又はユーザは、規則、制約、条件、パラメータ、又は特徴、スコア付け、所定の閾値、範囲、並びにゲノムのデザインに関する生物学的制約及び合成制約など、ゲノムデザインモジュールの様々な態様を追加及び/又は更新してもよい。入力装置115はまた、ゲノムデザインモジュール101によりゲノムファイル及びゲノムファイル内で改変される対立遺伝子又は配列のリストを入力することによってゲノムをデザインする目的で、ユーザによって操作されてもよい。
メモリ113は、コンピュータ実行可能な命令(例えば、ソフトウェア)を格納するための任意のコンピュータ可読媒体であってもよい。メモリ113内に格納された命令は、計算装置100が様々な機能を実行することを可能にし得る。例えば、メモリ113は、オペレーティングシステム119及びアプリケーションプログラム121など、計算装置100によって使用されるソフトウェアを格納してもよく、関連データベース123を含んでいてもよい。
ネットワークインターフェース111は、計算装置100がネットワーク130に接続して通信することを可能にする。ネットワーク130は、ローカルエリアネットワーク(LAN)及び/又はインターネットなどのワイドエリアネットワーク(WAN)を含む、任意の種類のネットワークとすることが可能である。ネットワーク130を介して、計算装置100は、ラップトップ、ノートブック、スマートフォン、パーソナルコンピュータ、及びサーバなどの1又は複数の計算装置140と通信可能である。計算装置140は、計算装置100と同じ構成要素のうちの少なくともいくつかを含み得る。いくつかの実施形態では、計算装置100は計算装置140に接続され、「クラウド」計算環境を形成していてもよい。
ネットワークインターフェース111は、同軸ケーブル及び光ファイバケーブルなどの通信回線を介して、あるいはセルラーバックホール又はIEEE802.11、IEEE802.15、及びIEEE802.16などの無線規格を使用して無線でネットワーク130に接続可能である。いくつかの実施形態では、ネットワークインターフェースはモデムを含み得る。さらに、ネットワークインターフェース111は、他の計算装置140と通信するために、TCP/IP、イーサネット、ファイル転送プロトコル(FTP)、及びハイパーテキスト転送プロトコル(HTTP)などを含む、様々なプロトコルを使用し得る。
特定の態様によれば、計算装置100は、ゲノムデータ(例えば、遺伝子配列)にアクセスするために、1又は複数のデータベース155と連動し得る。例えば、データベース155は、ヌクレオチド配列(例えば、DNA、mRNA、cDNAなど)のコレクション及び対応するタンパク質翻訳(例えば、GenBank)を保存する外部データベースであってもよい。場合によっては、ゲノムデザインモジュール101は、データベース155から特定のゲノムファイル又は鋳型にアクセス及び/又はそれを受信可能であり、ゲノムデザインモジュール101は、規則及びスコア付けのセットに基づいてさらなるゲノムデザインのためにファイルを利用してもよい。
図1は、計算装置100の例示的な実施形態である。他の実施形態では、計算装置100はより少ない又はより多い要素を含み得る。例えば、計算装置100は、ゲノムデザインモジュール101の機能を実行するために汎用プロセッサ103を使用してもよく、したがって、ゲノムデザインモジュール101のための別個のプロセッサ又はハードウェアを含まなくてもよい。
必須ではないが、本明細書に記載の様々な態様は、方法、データ処理システムとして、又はコンピュータ実行可能な命令を格納するコンピュータ可読媒体として具現化され得る。例えば、開示された実施形態の態様による方法の工程をプロセッサに実行させるための命令を格納するコンピュータ可読媒体が企図される。例えば、本明細書に開示されている方法の工程及びアルゴリズムの態様は、計算装置100のプロセッサで実行され得る。そのようなプロセッサは、コンピュータ可読媒体に格納されたコンピュータ実行可能命令を実行することができる。
図2は、本開示の様々な態様を1又は複数の例示的実施形態により実行可能なゲノムデザインモジュールの例示的ブロック図を示す。具体的には、図2は、原核生物ゲノムにおける全ゲノムでの対立遺伝子置換など、任意のゲノム改変に利用可能なソフトウェアツールを含んでいてもよいゲノムデザインモジュール201を示す。いくつかの実施形態において、ゲノムデザインモジュール201はゲノムデザインモジュール101と同じであってもよい。
ゲノムデザインモジュール201は、ゲノム全体にわたって特定の対立遺伝子の全ての存在を除去する(翻訳因子の削除及び機能的な対立遺伝子の再割り当てを可能にする)こと、オペロンを機能的に関連する単位に再配列すること、非必須要素(例えば、潜在性プロファージ、可動要素、非必須遺伝子など)を除去すること、及び代謝経路の修正/最適化/導入などにより、ゲノムのリファクタリングを含む様々な目的に利用してもよい。
図2に示すように、ゲノムデザインモジュール201は、ゲノム鋳型ファイル202及び対立遺伝子リスト204の2種の入力を受け取り可能である。ゲノム鋳型202は、既知のゲノム配列又は特定のゲノム(例えば、アノテーション付きGenBankファイルの形態で)を含み得る。いくつかの実施形態では、ゲノム鋳型202は、細菌ゲノム、マイコプラズマゲノム、酵母ゲノム、ヒトゲノム、任意の天然生物のゲノム、又は任意の以前に進化させたか若しくは操作された生物のゲノムを含む任意の種類のゲノムの配列を含み得る。一例として、本明細書の実施例に記載されるように、大腸菌MDS42ゲノム鋳型(GenBank:AP012306.1)をゲノム鋳型202として使用した。対立遺伝子リスト204は、ゲノム全体にわたって同義的に置換される対立遺伝子のリストを含み得る。対立遺伝子リスト204はまた、コード配列(例えば、コドン)及び非コード配列(例えば、tRNA及びsRNAを含む非コードRNA、コード配列と重複してもしなくてもよい遺伝子外配列モチーフ、及び反復遺伝子外回文(REP)配列など)を含み得る。いくつかの実施形態では、対立遺伝子リスト204は、「禁止コドン」とも称されるコドンのリストを表していてもよい。例えば、以下の7種のコドン:AGA、AGG、AGC、AGU、UUG、UUA、及びUAGが、下記の大腸菌の例において置換されるコドンのリストにあった。
ゲノムデザインモジュール201は、ゲノム鋳型202及び対立遺伝子リスト204を受け取り、ゲノム中のリストから対立遺伝子の全ての出現箇所を自動的に置き換えしてもよい。例えば、ゲノムデザインモジュール201は、ゲノム内で、コドンのリストから禁止コドン全ての出現箇所を自動的に置き換え得る。ゲノムデザインモジュール201はまた、スコア付けサブモジュール208を利用してもよく、ゲノムデザインモジュール201は、得られた配列が生物学的制約205及び/又は合成制約206に最もよく当てはまるようにする同義コドンを選択するように構成され得る。いくつかの実施形態では、スコア付けサブモジュール208は、スコア付けツールと称されることがある。
表1及び表2は、それぞれゲノムデザインに適用され得る生物学的制約205及び合成制約206の例を、規則、制約、条件、パラメータ、又は特徴、動機づけ、実施、及び対応するゲノムアノテーションの説明と共に提供する。合成制約206は、ゲノムデザインを合成するために適用され得る1又は複数の実験による規則、制約、条件、パラメータ、又は特徴を含み得る。場合によっては、合成制約206は、ゲノムデザインの間に満たされるべき供給業者及び/又は技術に特有の規則、制約、条件、パラメータ、又は特徴であり得る。合成制約206の例は、(これらに限定されないが)禁止制限酵素モチーフを除去するため、ゲノムデザインにおける遺伝子内の高/低GC含量を標準化するために同義変換を活用するため、遺伝子間領域に高/低GC含量が存在する場合に調節モチーフを保存するため、強力な二次構造を最小化するため、合成が困難であり得る反復エレメントを削除してそれらをターミネーターで置き換えるため、ホモポリマーランが遺伝子内に存在する場合に同義変換を利用して一次配列を多様化するため、ホモポリマーランが遺伝子間領域に存在する場合に調節モチーフを保存するため、別々の転写単位を全て含むモジュラーゲノム単位を合成する可能性を高めるためにオペロンを分割するためなどの規則を含み得る。
生物学的制約205は、生物学的に関連するモチーフを保存するためにゲノムデザインに適用される1又は複数の規則、制約、条件、パラメータ、又は特徴を含んでいてもよく、生物学的制約205はゲノムデザインモジュール201におけるコードとして実装されてもよい。例えば、生物学的制約205は、RNAの予測される二次構造(例えば、mRNAを含むがこれに限定されない)を維持するための規則を含み得る。ゲノムデザインモジュール201は、元の配列及び改変された設計配列の両方について予測RNA二次構造を計算し得、スコア付けサブモジュール208は、その2つの間の差異の定量的表現を提供し得る。いくつかの実施形態において、ゲノムデザインモジュール201は、元の配列及び設計された配列の予測自由エネルギー(ΔG)を比較することによって(例えば、熱力学的二次構造予測)及び/又は元の配列に関して設計された配列中の同じ姉妹ヌクレオチドともはや対を成さないヌクレオチドの数を計算することによって、予測mRNA二次構造の偏差を計算し得る。場合によっては、所望の変更の文脈に応じて規則を修正してもよい。例えば、遺伝子の5′末端付近の変化に対して、ゲノムデザインモジュール201は、その遺伝子の開始コドンに対して配列の-30ヌクレオチドから+100ヌクレオチドまでのmRNA二次構造を計算し得る。
さらに、生物学的制約205はまた、リボソーム結合部位(RBS)モチーフを保存するための規則、制約、条件、パラメータ、又は特徴を含み得る。リボソーム結合部位は、遺伝子の約10塩基上流(例えば、開始コドンの上流)に見出されるDNA配列モチーフ(例えば、ヌクレオチド配列)を含み得る。ゲノムデザインモジュール201は、(例えば、スコア付けサブモジュール208を使用することによって)リボソーム結合部位の破壊に従って配列デザインをスコア付けしランク付けしてもよい。例えば、(例えば、下流の重複遺伝子の発現を支持するために)RBSモチーフが重複遺伝子中に存在する場合、RBS強度に強く影響しない突然変異のみを許容することが有益であり得る。さらに別の例では、出力デザインパラメータが重複したアーキテクチャにおいて前記RBSモチーフを保存することと矛盾する場合、コード領域を分割し、下流遺伝子の翻訳を補助するために同様の強度のRBSモチーフを挿入してもよい。
いくつかの実施形態において、ゲノムデザインモジュール201は、Salisリボソーム結合部位計算機(Salis、2011)などの生物物理学的モデルを利用することによって、又は他の実験によるRBS強度の参照表(look-up table)によって、RBSモチーフ強度予測を実行し得る。例えば、ゲノムデザインモジュール201のスコア付けサブモジュール208は、生物物理学的モデルを使用して、参照配列及び設計配列の予測発現スコアを計算し得る(例えば、Salis、2001)。これらのスコアの比(又は対数比)は、この規則、制約、条件、パラメータ、又は特徴の破壊の定量化された表現となり得る。
さらに別の例では、生物学的制約205は、内部リボソーム休止部位モチーフを保存するための規則、制約、条件、パラメータ、又は特徴を含み得る。例えば、リボソーム結合部位様モチーフ(例えば、抗Shine-Dalgarno配列)の存在は、大腸菌における翻訳停止に対応し得るものであり、これらのモチーフが生物学的に重要な役割を含むことを示唆し得る(Li et al.、2012)。したがって、ゲノムデザインモジュール201は、生物物理学的モデルを活用するデザイン規則を実装してもよい(例えば、Salis、2001)。本明細書の実施例に記載されるように、提案されたデザイン変更をスコア付けするために、変更の下流にファントムATG開始コドンを正しい数の塩基(例えば、約10塩基)挿入することによってコドンがRBSの一部であり得ると仮定され得る。この規則に基づいて、ゲノムデザインモジュール201は、既存の内部リボソーム休止部位の破壊又は以前に存在しなかった強力な内部リボソーム休止部位の導入を不利にする、提案されたデザイン変更の前後に予測RBS強度を計算し得る。
生物学的制約205のさらなる例は、(これらに限定されないが)代替の対立遺伝子又はコドンの選択が(再コード化及び異種発現の両方に対して)対立遺伝子又はコドンの選択の世界的な分布と一致していることを確認するため、ゲノムデザイン(例えば、フレームシフト、セレノシステイン挿入配列(SECIS)部位、組換え部位など)における既知の配列モチーフを保存するため、プロモーター、エンハンサー、及び/又は転写因子モチーフの保存/調整などによる調節モチーフを保存するため、ゲノムデザイン変更のための代替案を検討する際に、系統発生的に関連した近縁種に最も近い配列を選択することによってゲノムデザインのための系統発生的保存を適用するため、非破壊的な混乱による、再設計された領域間の相同性を低下させるためなどの規則、制約、条件、パラメータ、又は特徴を含んでいてもよい。相同性低下の例では、重複する調節モチーフを保存しながら同義コドン交換を行うための最適解は、コピーを作成することによって重複を分割することであってもよく、これは高い相同性の隣接領域をもたらし得る。相同性は、同義コドン交換又はアノテーション付きの調節モチーフを破壊しない他の変更を行うことによって破壊され得る。これは、再設計された配列を元に戻す可能性がある望ましくない組換えを防ぐことなどによって、安定したゲノムを作製するために重要であり得る。
さらに、ゲノムデザインモジュール201は、スコア付けサブモジュール208を使用して参照配列(例えば、ゲノム鋳型)に関して遺伝子配列(例えば、ゲノムデザイン)をスコア付けすることによって、生物学的制約205の規則、制約、条件、パラメータ、又は特徴を実行し得る。いくつかの実施形態では、スコア付けサブモジュール208は、遺伝子又はゲノムに対する全ての可能な変化に定量的スコアを割り当て得る。このスコア付けは、所望の遺伝子型又は表現型の結果を達成するデザインのランク付け及び優先順位付けを可能にし得る。スコア付け、ランク付け、及び優先順位付け機能は、ゲノムデザインモジュール201用のソフトウェアのコア機能を含み得る。
例えば、相互に排他的な選択肢を有するデザイン選択(対立遺伝子置換を選択するためなど)の場合、ゲノムデザインモジュール201は、デザイン選択のランク付けを可能にし得る。いくつかの実施形態では、最良の単一デザイン選択又は任意の数の最良の単一デザイン選択を合成及び試験のために選択してもよい。他の実施形態では、所定のスコア閾値を超える全てのデザイン選択が合成されテストされてもよい。
さらに、ゲノムデザインモジュール201のスコア付けサブモジュール208は、異なる種類のスコア付けを実行してもよい。例えば、スコアが高いほど生物学的制約205(例えば、規則のセット)からの偏差が少ないことを示し得るので、好ましい場合がある。例えば、制約からの偏差が少ないということは、生物学的検証における予測される成功率が高いことを示し得る。別の例では、スコアが低いほど生物学的制約205(例えば、規則のセット)からの偏差が少ないことを示し得るので、好ましい場合がある。
ゲノムデザインモジュール201はさらに、特定の規則、制約、条件、パラメータ、又は特徴についてのスコアの加重された組み合わせとして遺伝子デザインのためのスコア付けを実行してもよい。例えば、スコアが生物学的モチーフ値からの偏差として代替の対立遺伝子を交換する遺伝デザインについて解釈され得る場合、対立遺伝子の各選択は因子の組み合わせに従ってスコア付けされ得る。
すなわち、それぞれの代替遺伝子配列が参照ゲノム中の1又は複数の禁止対立遺伝子を置換するために使用され得る異なる対立遺伝子選択肢を含む、複数の代替遺伝子配列が存在し得る。したがって、ゲノムデザインモジュール201は、各代替遺伝子配列において各規則にスコアを割り当てることによって、生物学的制約205に規則、制約、条件、パラメータ、又は特徴を当てはめてもよい。いくつかの実施形態では、それぞれの対立遺伝子選択肢は、予測mRNA二次構造折り畳みエネルギーの破壊倍率及び予測リボソーム結合部位(RBS)親和性強度の破壊倍率などを含む、生物学的制約205の組み合わせに従ってスコア付けされてもよい。
例えば、対立遺伝子選択肢を含む代替遺伝子配列についての総スコアは、以下の式を用いて(例えば、ゲノムデザインモジュール201によって)計算してもよい。
スコア=w*f(mRNAスコア)w*g(RBSスコア)
上記式で、w及びwは加重を表し、f及びgはそれぞれの規則の定量化の関数を表す。さらに、加重w及びwは、実験により決定されてもよく、ゲノムデザインを合成及び試験した結果に従って更新又は修正されてもよい。他の実施形態では、ユーザが(例えば、ゲノムデザインモジュール201及び/又は計算装置100への入力として)各加重を手動で指定(例えば、入力)することが可能な手動指定によって加重が調整され得る。加重及びスコア付けはまた、全体的に適用されてもよく、又は文脈特有であってもよい。例えば、加重の第1のセットが当てはまり遺伝子の5′末端付近に適用され得るが、異なる加重のセット又は規則、制約、条件、パラメータ、若しくは特徴の異なる組み合わせが当てはまり遺伝子の異なる領域(例えば、遺伝子の中央)において適用され得る。本明細書の実施例に記載されるように、大腸菌におけるコドン選択のための以下の加重が、交換の成功を予測し得ることが実験により見出された。
スコア=(0.65/1.5411)*mRNA×(0.35/8.4257)*(1+LOG(RBS))
さらなる実施形態では、ゲノムデザインモジュール201は、図8に示すように自動計算によるデザインパイプラインに従い得る。例えば、ゲノムデザインモジュール201は、生物学的制約205を考慮しながら、遺伝子重複の全ての出現箇所において、対立遺伝子リスト204及びゲノム鋳型202に基づいて、禁止対立遺伝子置換を最初に実行してもよい。次いで、ゲノムデザインモジュール201は、生物学的制約205を考慮しながら、各遺伝子における残りの禁止対立遺伝子置換を独立して適用し得る。例えば、置換されるべき各対立遺伝子について、同義の対立遺伝子置換について複数の選択肢があり得る。デザインは、野生型配列からの偏差を定量化するデザインの規則、制約、条件、パラメータ、又は特徴(例えば、二次構造、GC含量、RBSモチーフ強度)に関して最小限の破壊を招く可能性がある。
しかしながら、いくつかの実施形態では、全ての可能性のある対立遺伝子又はコドンの改変の網羅的比較は計算上高価であり得、反復が遅くなる。例えば、大腸菌を再コード化する場合、遺伝子あたり約17個の禁止コドン及び1コドンあたり4種の可能な同義的交換があり、その結果、遺伝子あたり417の可能な配列が得られる。したがって、ゲノムデザインモジュール201は、全体的な最小値を識別するのではなく、閾値内の各規則、制約、条件、パラメータ、又は特徴を満たす解を識別し得る。満足のいく解を識別するために、ゲノムデザインモジュール201は、深さ優先探索に基づくアルゴリズムを用いて横断されるグラフとしてゲノム再コード化問題を識別し、示してもよい。いくつかの実施形態では、このアルゴリズムは、グラフ検索に基づくコドン置換アルゴリズムと称されることがある。
例えば、グラフ中のノードはユニークな代替遺伝子配列を表していてもよい。グラフ内の兄弟ノードは、特定のコドンの値が異なる場合があり得る。各ノードの子ノードは、次の下流コドンのすべての可能な変更を表し得る。各ノードには、GC含量、二次構造、及びコドン希少度の偏差を含む、各規則に対応するスコアが割り当てられ得る。各スコアは、特定のコドンを中心とする塩基対ウィンドウ(例えば、40塩基対ウィンドウ又は任意の他の数の塩基対のウィンドウ)についてのそれぞれのスコアプロファイルにおける野生型配列からの偏差の定量的尺度であり得る。すべてのスコアがそれぞれのプロファイルの閾値を下回っている限り、ノードを拡張して追跡してもよい。あるレベルにある全てのノードが閾値に違反している場合、アルゴリズム(例えば、ゲノムデザインモジュール201によって実行される)は、以前のノードに後戻りして異なる分岐を選択してもよい。アルゴリズムが特定の遺伝子に対する解を見つけることができない場合、閾値制約を修正して検索を再開してもよい。いくつかの実施形態において、グラフ検索に基づくアルゴリズムはまた、ゲノムデザインのための対立遺伝子置換において適用され得る。
グラフ検索に基づくコドン(又は対立遺伝子)選択の後、ゲノムデザインモジュール201は、ゲノムデザインのための合成及び構築の制約を考慮して、技術的な規則、制約、条件、パラメータ、又は特徴を当てはめてもよい。例えば、ゲノムデザインモジュール201は、特定の制限酵素部位及びホモポリマー配列を除去すること、並びにGC含量をバランスさせることなどによって、DNA供給業者の制約を満たすために、合成制約206を用いてゲノム鋳型202をさらに修正してもよい。最後に、ゲノムデザインモジュール201は、改変ゲノムを所定のサイズのセグメント(例えば、任意の数の塩基のセグメント)に分割してもよい。例えば、ゲノムデザインモジュール201は、最初に改変ゲノムを約50kbのセグメントに分割し、次いで各セグメントを2~4kbの合成単位又は断片に分割してもよい。
さらなる実施形態では、ゲノムデザインモジュール201はまた、ユーザがゲノムについて手動で指定された改変のリストを提供することを可能にし得る。いくつかの実施形態では、これらの手動で指定された改変(補助デザインノートと称される場合もある)は、実験による検証に由来する解決策、又は一般化された規則、制約、条件、パラメータ、又は特徴がまだ実行されていない特例を含み得る。例えば、大腸菌を再コード化する場合、tRNALeuを使用してロイシンをコードするUUGコドンが、タンパク質コード遺伝子全体にわたる置換のための7種のコドンのうちの1つとして選択された。しかしながら、同じコドン(UUG)が翻訳開始コドンとして現れるとき、それはtRNAfMetによってデコードされるため置換される必要はない。したがって、遺伝子発現レベルの摂動を最小限にするために、これらの開始コドンを置き換えないように補助デザインノートが追加された。自動化された対立遺伝子置換を容易にするために、補助デザインノートをソフトウェアに実装してもよい。他の補助デザインノートでは、以前の実験による試験に基づいて、手動置換が必須遺伝子のAGRコドンに指定された。さらに別の補助デザインノートでは、fdhF遺伝子、fdnG遺伝子、及びfdoG遺伝子において、セレノシステイン挿入配列(SECIS)部位に重なるコドンが、手動で再コード化された。
ゲノムデザインモジュール201は、最終的に複数の代替遺伝子配列(それぞれ異なるコドン又は対立遺伝子選択肢を含む)を生成し、加重スコア付けに基づいて少なくとも1つの代替遺伝子配列をゲノムデザインとして選択してもよい。ゲノムデザインモジュール201は、最終ゲノムデザインのファイル(例えば、GenBankファイル)を含んでいてもよい最終ゲノムデザイン210を出力してもよい。いくつかの場合、ゲノムデザインモジュール201は、ゲノムデザイン210を隣接するセグメントに分割することによって合成可能なDNAを同定してもよく、各セグメントは所定の数の塩基からなる。例えば、ゲノムデザインモジュール201はまた、合成及び試験され得る2~4キロベース(kb)の合成適合性の断片のリストを生成してもよい。さらに、生物学的制約205及び合成206のための1又は複数の規則、制約、条件、パラメータ、又は特徴は、最終ゲノムデザイン210に由来する実験による試験に基づいて更新されてもよい。
追加の実施形態では、最終的なゲノムデザインは、基準遺伝コードからの若干の改変を伴う遺伝コード、根本的に再定義された遺伝コード、新規の遺伝コード、又はコドンが非標準アミノ酸(nsAAs)に対応する遺伝子コードのうちの1つに基づいていてもよい。
図3は、本開示の態様による例示的な方法のフロー図である。具体的には、図3は、生物学的制約、合成制約、及びスコア付けデザインのための規則、制約、条件、パラメータ、又は特徴の適用に基づいてゲノムをデザインするための例示的な方法の工程を示す。図3の工程は、ゲノムデザインモジュール101、ゲノムデザインモジュール201、又はスコア付けサブモジュール208などのうちの少なくとも1つによるなどして、計算プラットフォームによって実行され得る。図3の方法の結果として、ゲノムデザインが選択され、最終デザインとして出力されてもよい。
図3の方法は、既知のゲノムに関するデータ及び既知のゲノムにおいて置換される対立遺伝子のリストに関するデータを受け取る計算プラットフォームの工程302から開始してもよい。例えば、ゲノムデザインモジュール201は、ゲノム鋳型202(例えば、既知のゲノム参照配列を含む)及び対立遺伝子のリスト204を入力として受け取り得る。工程304で、計算プラットフォームは、対立遺伝子のリストに基づいて既知のゲノム内の各対立遺伝子の存在を識別し得る。例えば、ゲノムデザインモジュール201は、ゲノム配列202において置換される全ての対立遺伝子(例えば、禁止コドン)を見出し得る。工程306において、計算プラットフォームは、既知のゲノムから各対立遺伝子の存在を除去し得る。例えば、ゲノムデザインモジュール201は、既知のゲノム202における全ての存在において対立遺伝子の置換又は除去を適用してもよい。いくつかの実施形態では、ゲノムデザインモジュール201は、既知のゲノム202において禁止コドンの置換又は除去を適用し得る。
工程308において、前記算プラットフォームは、既知のゲノムにおける各対立遺伝子の存在を置き換えるための複数の対立遺伝子選択肢を決定し得る。例えば、ゲノムデザインモジュール201は、既知のゲノム202における各対立遺伝子の存在のそれぞれを置き換えるために利用され得るいくつかの同義対立遺伝子があることを識別し得る。代替の構成では、前記方法の工程306及び工程308は、ゲノムデザインモジュール201によって実行される1つの工程として組み合わせることができ、ゲノムデザインモジュール201は、既知のゲノムから除去する対立遺伝子を識別し、各対立遺伝子の存在を置き換えるための複数の対立遺伝子選択肢を決定し得る。
工程310で、前記計算プラットフォームは、既知のゲノムに基づいてゲノムデザインのための複数の代替遺伝子配列を生成し得る。例えば、ゲノムデザインモジュール201は複数の代替遺伝子配列を生成してもよく、それぞれの代替遺伝子配列は前記複数の同義対立遺伝子選択肢から選択されるそれぞれ異なる対立遺伝子選択肢を含む。
工程312において、前記計算プラットフォームは、各規則、制約、条件、パラメータ、又は特徴についてのスコアをそれぞれの代替遺伝子配列に割り当てることによって、それぞれの代替遺伝子配列に対して複数の規則、制約、条件、パラメータ、又は特徴を当てはめて、それによりそれぞれの代替遺伝子配列に当てはめられた前記複数の規則、制約、条件、パラメータ、又は特徴についてのスコア得ることができる。例えば、ゲノムデザインモジュール201又はスコア付けサブモジュール208は、生物学的制約205及び合成制約206についての1又は複数の規則、制約、条件、パラメータ、又は特徴を利用して、それぞれの対立遺伝子選択肢に関して各規則、制約、条件、パラメータ、又は特徴についてのスコアを計算してもよい。すなわち、スコア付けサブモジュール208は、コーディングmRNA二次構造の保存、リボソーム結合部位モチーフの保存、及び内部リボソーム休止部位モチーフの保存などを含む、各規則、制約、条件、パラメータ、又は特徴についてスコアを計算する。(異なる対立遺伝子選択肢を含む)それぞれの代替遺伝子配列は、規則、制約、条件、パラメータ、又は特徴のそれぞれについて計算されたスコアを有し得る。
工程314では、計算プラットフォームによって、前記複数の規則、制約、条件、パラメータ、又は特徴についてのスコアの加重された組み合わせに基づいて、それぞれの代替遺伝子配列をスコア付けしてもよい。例えば、ゲノムデザインモジュール201は、特定の規則、制約、条件、パラメータ、又は特徴に由来するスコアの加重された組み合わせとして、それぞれの代替遺伝子配列についてスコア付けを実行してもよい。工程316において、計算プラットフォームは、加重スコア付けに基づいて、ゲノムデザインとして少なくとも1つの代替遺伝子配列を選択してもよい。例えば、ゲノムデザインモジュール201は、どの代替遺伝子配列が所定の閾値を超える加重スコアを含むかを同定することに基づいて、1又は複数の代替遺伝子配列を最終ゲノムデザイン210として選択し得る。場合によっては、選択の後に、ゲノムデザインモジュール201は、最終ゲノムデザイン210を、合成及び試験に利用することができるGenbankファイルとして出力してもよい。いくつかの実施形態では、どの代替遺伝子配列が所定の閾値を超える加重スコアを含むかを同定した後、同定された代替遺伝子配列を個々に又はライブラリーとして(例えば、配列が混合されたもの)、実験により試験してもよい。さらなる実施形態では、ゲノムデザインモジュール201は、ルール予測と実験により観察された生存率の比較に基づいて、複数の規則、制約、条件、パラメータ、又は特徴における1又は複数の規則、制約、条件、パラメータ、又は特徴を更新してもよい。例えば、最終ゲノムデザイン210を合成して生存率について試験し、合成された最終ゲノムデザイン210を試験した結果を(他のデザインの結果と共に)使用して将来のゲノムデザインのための新しい規則、制約、条件、パラメータ、又は特徴を更新及び導出してもよい。
さらなる実施形態では、計算プラットフォーム(例えば、ゲノムデザインモジュール101又はゲノムデザインモジュール201を備える計算装置100)を利用することなどによって、ゲノムデザインにおける1又は複数の規則、制約、条件、パラメータ、又は特徴を更新し得る。第一に、ゲノムデザインの1又は複数の特徴を少なくとも1つの細胞に導入してもよい。いくつかの実施形態において、ゲノムデザインの1又は複数の特徴が、野生型遺伝子型に対して選択するため及び/又は相同組換えを促進するために、DNA切断を用いて少なくとも1つの細胞に導入され得る。特徴を細胞に導入する他の例は、CRISPR/Cas、転写アクチベーター様エフェクターヌクレアーゼ(TALEN)、ジンクフィンガーヌクレアーゼ(ZFN)、メガヌクレアーゼ、又は制限エンドヌクレアーゼなどを使用することを含み得る。
他の実施形態において、ゲノムデザインの1又は複数の特徴は、リコンビナーゼ/インテグラーゼを使用することによって少なくとも1つの細胞に導入され得る。特徴を細胞に導入する別の例は、多重自動ゲノム工学(MAGE)、λレッド組換え、部位特異的リコンビナーゼ/インテグラーゼ(例えば、Cre、PhiC31、λインテグラーゼ、Flpなど)、又はリコンビナーゼ媒介カセット交換(RMCE)などの使用を含み得る。他の実施形態では、ゲノムデザインの1又は複数の特徴を少なくとも1つの細胞に導入することは、ゲノムデザインに基づいて部分ゲノム又は全ゲノムを合成することをさらに含み得る。さらに、いくつかの実施形態では、1又は複数の特徴を、動態プレートリーダーを使用した増殖アッセイによって試験され得る。他の実施形態において、1又は複数の特徴は、タンパク質産生を試験するためのアッセイによって試験され得る。別の実施形態において、1又は複数の特徴は、所定の時点で細胞集団の代表的な部分を配列決定することによって試験され得る。例えば、次世代シーケンシング(NGS)を使用して、どの遺伝子型が集団において濃縮又は枯渇するようになるかをモニターしてもよく、これは相対的な適応度情報として解釈され得る。
少なくとも1つの細胞に導入された1又は複数の特徴のゲノム生存率を同定して表現型を評価するために、アッセイによって少なくとも1つの細胞に導入された1又は複数の特徴を試験してもよい。いくつかの実施形態において、1又は複数の特徴は、ベクター(例えば、プラスミド、コスミド、ファージミド、バクテリオファージ、又は人工染色体)上で試験され得るか、染色体に組み込まれ得る。前記試験に基づいて、少なくとも1つの細胞に導入された1又は複数の特徴が、ゲノムデザインのための1又は複数の所定の規則、制約、条件、パラメータ、又は特徴によって実行可能又は不合格であると予測されると判定され得る。前記判定に基づいてゲノムデザインのための所定の規則、制約、条件、パラメータ、又は特徴が最終的に更新され得る。ゲノムデザインのための1又は複数の所定の規則、制約、条件、パラメータ、又は特徴は、表現型のパラメータ及び遺伝子型のパラメータの1又は複数を含み得る。
さらなる実施形態では、計算プラットフォームは、統計的技術及び機械学習アルゴリズムにさらに基づいてゲノムデザインのための所定の規則、制約、条件、パラメータ、又は特徴が更新され得る。例えば、計算プラットフォームは、これに限定されないが、深層学習を含む表現学習アルゴリズムを使用して、新しい規則、制約、条件、パラメータ、又は特徴を更新及び/又は自動的に推論し得る。教師付き学習又は非教師付き学習、半教師付き学習、強化学習、及び深層学習を含む、新しい規則、制約、条件、パラメータ、又は特徴を更新及び学習するために、他の機械学習技術を使用してもよい。これらの技術は、畳み込みニューラルネットワーク、ランダムフォレスト、隠れマルコフモデル、オートエンコーダ、及びボルツマンマシンなどの特定の技術を含み得る。別の例では、ユーザは、分析に基づいて新しい規則、制約、条件、パラメータ、又は特徴を手動で定義するために計算プラットフォームを利用してもよい。
さらなる実施形態では、ゲノムデザインは、計算プラットフォーム(例えば、ゲノムデザインモジュール101又はゲノムデザインモジュール201を含む計算装置100)によって生成され、所定の規則、制約、条件、パラメータ、及び特徴のセットを満たさない前記ゲノムデザイン内の1又は複数の特徴を決定することにより、計算プラットフォームによってテストされ得る。いくつかの実施形態では、所定の規則、制約、条件、パラメータ、又は特徴のセットは、表現型のパラメータ及び遺伝子型のパラメータの1又は複数を含み得る。計算プラットフォームは、既知のゲノム配列のサンプル(例えば、ゲノムデザインの元になる既知のゲノム配列)を取得又はそれにアクセスしてもよく、計算プラットフォームは、既知のゲノム配列のサンプルをさらに分析してもよい。いくつかの実施形態では、ゲノムデザインにおける個々の突然変異を並行して試験することにより、計算によって所定の規則、制約、条件、パラメータ、又は特徴のセットを満たさないゲノムデザイン中の1又は複数の特徴を決定し得る。他の実施形態では、ゲノムデザインおける個々の突然変異を多重方式で試験することにより、計算によって所定の規則、制約、条件、パラメータ、又は特徴のセットを満たさないゲノムデザイン中の1又は複数の特徴を決定し得る。
計算プラットフォームは、所定のデザイン目的を満たし、生存の可能性を高めるために実行され得るゲノムデザインに対する改変を予測し得る。例えば、所定のデザイン目的は、変更する必要があり得る天然ゲノムの1又は複数の特徴を含み得る。天然ゲノム配列は生存可能であり得るが、デザインが依然として生存可能であるかどうかを決定するためには、再コード化されたゲノム配列又はゲノムデザインを試験する必要があり得る。改変を予測した後、計算プラットフォームは、予測された改変を試験して、改善されたゲノムデザインを生成し得る。いくつかの実施形態では、ゲノムデザインについて予測された改変が混合されたものとして試験され得る。他の実施形態では、ゲノムデザインについて予測された改変は、遺伝的な多様性及び選択を用いて試験され得る。
上記の開示は本発明を全般的に説明するものである。本明細書に開示された全ての参考文献は、参照により明示的に組み込まれる。以下の特定の実施例を参照することによって、より完全な理解を得ることができるが、これらの実施例は例示のみを目的として本明細書に記載され、本発明の範囲を限定することを意図していない。
以下の実施例は、本開示の様々な実施形態を説明する目的で示されており、いかなる形でも本開示を限定することを意図しない。本実施例は、本明細書に記載の方法と共に、現在の好ましい実施形態の代表例であり、例示であり、本開示の範囲に対する限定として意図されていない。当業者は、特許請求の範囲によって定義されるような本開示の趣旨に包含される変更及び他の使用を思い付くであろう。他の均等な実施形態は、本開示、図面及び添付の特許請求の範囲を考慮すると明らかになるであろう。
実施例1
57コドンゲノムのデザイン、合成、及び試験
ある態様によれば、本明細書には、根本的に再コード化された大腸菌をデザイン及び構築するための方法が記載される。遺伝子コドン別の目的で使う再コード化は、自然界では通常は見られない機能でゲノムを強化するための強力なアプローチである。基準遺伝コードの縮重により、同じアミノ酸が複数の同義コドンによってコードされることが可能になる。天然生物の間で64コドンのコードがほぼ普遍的であること(Crick、1963)は、コドン置換を合成生物の遺伝的単離のための強力な手段としている。例えば、大部分の生物は細胞タンパク質の翻訳のための共通の64コドンの鋳型に従うが、いくつかの原核生物ゲノム及び真核生物のゲノムに見られるこの普遍的なコードからの逸脱(Ambrogelly et al.、2007、Kano et al.、1991、Oba et al.、1991、Macino et al.、1979、Ling et al.、2015)により、拡大した遺伝コードを有する合成生物の探究が促進された。
ゲノム全体の同義コドン置換により、遺伝的隔離及び拡張された生物学的機能を示す固有の生物を構築するためのメカニズムが提供される。コドンがゲノム全体で同義的に置き換えられてその同族tRNAが除去されると、ゲノム再コード化生物(GRO:genomically recoded organism)は失われたコドンをもはや翻訳しないことがある(Lajoie et al.、2013b)。したがって、天然のウイルス、プラスミド、及び他の生物から得られたDNAが不適切に翻訳されて、再コード化菌株をウイルス感染及び遺伝子水平伝播に対して非感受性にすることになりため、遺伝的隔離が達成される(図4)。
例えば、図4は、大腸菌ファージの集団について、未割り当ての欠落コドン(例えば、同族翻訳なし)の数の増加を伴う再コード化大腸菌株において適切に翻訳されると予測されるバクテリオファージ遺伝子の割合を示す。本実施例において、1種のコドン=UAG、3種のコドン=UAG、AGG、及びAGA、並びに7種のコドン=UAG、AGG、AGA、AGC、AGU、UUG、及びUUAである。
遺伝子翻訳百分率は、以下の式によって計算することが可能である。
Figure 0007062861000001
さらに、新規の化学的性質を有するタンパク質は、生物直交型反応性、光応答性要素、又は生物物理学的プローブに対する化学的結合手(chemical handle)として機能する非標準アミノ酸(nsAA)を組み込むための置換されたコドンを再割り当てすることによって探索され得る(Liu et al.、2010)。コドンの再割り当てにより、環境中に天然には存在しないnsAAsへの代謝依存性を確立することも可能になり、環境、産業、及び医療用途において主要な考慮事項となり得るGROの生物学的封じ込めを強化する(Marliere、2009、Mandell et al.、2015, Rovner et al.、2015)。いくつかの実施形態では、非標準アミノ酸(nsAA)は、20個の標準タンパク質をコードするアミノ酸以外の任意のアミノ酸を含み得る。言い換えれば、nsAAは、所与の天然生物のコドンとは割り当てが異なる1又は複数のコドンを使用して組み込まれた任意のアミノ酸を含み得る。
本明細書には、産業用途に関連するウイルス耐性の生物学的に封じ込められた生物を生産することを目的とした、ゲノム全体にわたる複数のコドン置換のための方法が記載される。7種の異なるコドンの全62,214の出現箇所(全大腸菌コドンの5.4%に相当)が同義的に置換されている大腸菌ゲノムの2.5Mb(63%)の実験による試験と共に、計算によるデザインを提示する(図5A~図5C)。新たに再コード化されたゲノムは、本明細書中に記載されるようにrE.coli-57と称され得るものであり、構築されると、57個の基準64コドンからなる(図6)。いくつかの合成ゲノムが既に報告されているが(Blight et al.、2000、Cello et al.、2002、Smith et al.、2003、Chan et al.、2005、Gibson et al.、2008、Gibson et al.、2010、Annaluru et al.、2014)、本願の規模の機能的に改変された合成ゲノムは、未だ探求されていない(図5C)。
いくつかの場合において、コドン使用の変更は、翻訳開始からタンパク質折り畳みまでの複数のレベルで遺伝子発現及び細胞適応度に影響を及ぼし得る(Kudla et al.、2009、Tuller et al.、2010、Plotkin et al.、2011、Goodman et al.、2013、Zhou et al.、2013、Quaxet al.、2015、Boel et al.、2016)。それでも、コドン選択肢の個々の影響を解析することは困難なままであることがあり、新しいゲノムデザインに対する障壁を課している。本開示は、合成ゲノムのプロトタイプを迅速に作成するための予測ツール及び効率的な技術を提供する。
これまでにない規模及び複雑さのゲノム工学の目標に取り組むため、計算ツール、費用対効果の高いデノボ合成戦略、及び包括的な実験による検証の計画が本明細書に記載される。例えば、7種のコドンの全ての出現箇所を置き換えるために必要とされる改変の数は、UAGコドンのゲノム全体における置き換えのために以前に用いられた単一コドン編集戦略の現在の能力をはるかに超え得る(Lajoie et al.、2013b, Isaacs et al.、2011)。MAGE(Wang et al.、2009)又はCas9(Esvelt et al.、2013)を使用して複数の対立遺伝子を同時に編集し得るが、これらの戦略は多数のオリゴヌクレオチド及びRNAガイドを使用した広範囲のスクリーニングを含み、オフターゲット変異を引き起こす可能性があり得る(Wang et al.、2009)。デノボ合成は、生物学的鋳型とは無関係にほとんど無制限の数の改変を可能にする。さらに、DNA合成のコスト急落により、ゲノム全体を合成するための経済的障壁が減っている。
この実施例では、終止コドンUAG、アルギニンコドンAGA、及びアルギニンコドンAGGの3種のコドンを置換のために選択した(図6)。これらのコドンはまたゲノム中の最も稀なコドンに含まれ、必要とされる変化の数を最小にした。他のコドンは、それらのアンチコドンが内因性アミノアシルtRNAシンテターゼによりtRNA同一性要素として認識されないように選択され、それにより異種tRNAはnsAAの組込みの際に標準アミノ酸で誤ってチャージされることはない。最後に、明確な再割り当てを可能にするために、自身のtRNAが同一アミノ酸に対する他の同義コドンと重複しないコドンが選択された。したがって、AGA(Arg)、AGG(Arg)、AGC(Ser)、AGU(Ser)、UUG(Leu)、UUA(Leu)、及びUAG(Stop)の7種のコドン(「禁止コドン」と称する)が置換対象となった(図5A~図5C、図6、図3)。
合成コストを最小にし、ゲノム安定性を改善するために、本明細書中に記載される57コドンのゲノムは、減少ゲノム大腸菌株MDS42に基づく(Posfai et al.、2006)。開示された計算ツールにより、生物学的制約及び技術的制約を満たしながら、すべてのタンパク質をコードする遺伝子中の標的コドンの全ての存在に対する同義置換が自動化される。これらの制約の例を、図8及び図9、並びに表1及び表2に示す。具体的には、すべてのコード遺伝子のアミノ酸配列は保存され、タンパク質合成レベルは、禁止コドンを運搬する重複する遺伝子を分離して、潜在的な組換え事象を最小にするための同義コドンを導入することによって維持された(Chan et al.、2005、Temme et al.、2010)。残りのコドンの相対的コドン使用頻度は、翻訳要求を満たすために(Yona et al., 2013)、且つ、予想されるリボソーム結合部位(RBS)強度、mRNA二次構造折り畳みエネルギー、及びGC含量を含む一次ヌクレオチド配列の特徴を保持するために(Lajoie et al.、2013b、Lajoie et al.、2013a)保存された。最後に、最終ゲノムデザインから合成が困難な配列を回避(例えば、ホモポリマーの除去、極端なGC含量領域の正規化、及び反復配列の減少)するように調整した(図9A~図9G)。
全体として、禁止コドンはゲノム全体に一様に分布しており、平均して1遺伝子あたり約17コドンの変化であった。コドン置換の成功のための厳密な試験を提供する必須遺伝子(Yamazaki et al.、2008)は、全禁止コドンの約6.3%(62,214コドンのうち3,903コドン)を含む。全体として、再コード化されたゲノムは、禁止コドンの全ての出現箇所を除去し、一次DNA配列を調整してデザイン上の制約に適応するために、合計148,955箇所の変更を必要とした。
デザインされた後に、再コード化されたゲノムは2~4キロベース(kb)の1,256個の合成適合性のある重複した断片で解析された。約50kbの87個のセグメントをそれぞれ構築して試験した(図8)。約50kbのセグメントは、平均して1セグメント当たりの全遺伝子数が約40であり必須遺伝子数が約3である、管理可能な数の遺伝子を含む。さらに、50kbは酵母中での構築及び大腸菌へのシャトリングのために都合のよいサイズであり得ることが見出された。重要なことに、以前の研究(Mandell、D.J. et al.、Biocontainment of genetically modified organisms by synthetic protein design.Nature.518、55-60(2015);K.M.Esvelt et al.、Orthogonal Cas9 proteins for RNA-guided gene regulation and editing.Nat.Methods.10、1116-1121(2013))に基づいて、各セグメントは平均してほぼ1個のみの潜在的に致死的な再コーディングの例外含むと推定された。
図10A~図10Cは、本実施例において利用された実験戦略を概説する。簡潔には、各セグメントを出芽酵母中で構築し、低コピープラスミド上で大腸菌に直接的にエレクトロポレーションした。必須遺伝子におけるエラーは致死的となり得るため、対応する染色体セグメントを順次欠失させることにより、再コード化遺伝子の機能についてのストリンジェントな試験が提供される。これまでに、全ゲノムの63%及び必須遺伝子の53%を占める、55個のセグメントにわたる2,229個の再コード化遺伝子の染色体欠失が行われた(図11)。さらに、これら55個のセグメントのうち44個のセグメント中の再コード化遺伝子はすべて、最適化を必要とせずに野生型染色体遺伝子を補完することがわかった。これらの菌株の増殖を評価し、遺伝子発現をRNA-Seqにより分析した(図12A~図12B)。さらに、これらの菌株の大部分は、染色体欠失に対する適応度の低下はごくわずかであった(図12A、図13A、及び図13B)。
さらに、208個の再コード化遺伝子のRNA-Seq分析により、コドン置換により大多数はわずかな転写の変化しか示さないことが示唆される(図14A~図14B)。28個の遺伝子のみが有意に差次的に発現されることが見出された(すなわち、2倍以上の変化、p<0.01)(27個が高発現、1個が低発現)。
野生型セグメント全体を補完することができなかった再コード化セグメント(例えば、55個のセグメントのうち11個のセグメント)を、原因遺伝子の位置が特定されるまで染色体の狭い領域を欠失させることによって試験した。全体として、同義コドン置換のために細胞生存能を維持することができなかった13個の再コード化必須遺伝子が見出された。いくつかの実施形態では、これらは「例外的デザイン」と呼ばれることがある。
例外的デザインを解決するためのトラブルシューティングパイプラインを開発するためのテストケースとして、セグメント44を選択した(図15A~図15B)。遺伝子accDについて示されているように、RBS強度及びmRNAの折り畳みが最初に分析され、遺伝子発現における破壊の最も可能性の高い原因を特定した(Plotkin et al.、2011、Goodman et al.、2013、Boel et al.、2016)。次に、縮重MAGEオリゴを使用して、生存可能な代替コドンのプロトタイプを迅速に作成した(図16)。mRNA二次構造スコアを計算するために、目的のコドンの周りに40bpの移動ウィンドウ(sliding window)を使用した。mRNA二次構造をスコア付けするため、目的のコドンに対して-30~+100ヌクレオチドである歪んだ間隔(skewed interval)としてアルゴリズムをさらに更新した。特に、最初の100ヌクレオチドのコドンについては、前記ウィンドウは遺伝子の開始部を中心としていた。
最後に、よりストリンジェントなmRNA及びRBSのスコア付けパラメータを用いて新たな再コード化配列を計算により生成し(図15A、図15B、図17)、複数サイクルのλレッド組換えを介して再コード化セグメントに導入した。染色体を順次欠失させることにより生存クローンを選択した。
いくつかの場合において、全ての生存クローンは、改良されたデザインのN末端及び初期の(致死的)デザインのC末端を有するaccDの特定の配列を有しており、成功した同義コドン置換のためのN末端最適化の重要性が強調される(Kudla et al.、2009、Goodman et al.、2013)。さらに、2種類の遺伝子間の高度な相同性によると予想されるそのような組換え事象は、配列を効果的に入れ替えて生存可能な再コード化コドンの検索空間を増加させる。
適切な染色体発現をさらに確認するために、λインテグラーゼを用いて再コード化セグメントを染色体に組み込んだ。次いで、attP特異的Cas9媒介DNA切断を使用して、組み込まれていないプラスミドをすべて除去し、ゲノムごとに単一の組込みイベントを残した。セグメント組込み時に適応度の変化は見られなかった(図13A~図13B)。最後に、すべての検証された菌株のDNA配列分析は、菌株の遺伝子操作において予想され得る、突然変異のある程度のインビボ蓄積を示唆する可能性がある。それでも、完全なゲノム再コード化を達成するために、最終菌株において、非致死的復帰変異及びサイレント変異がMAGEを用いて修正され得る。
特定の態様によれば、コドン使用頻度及びtRNAアンチコドンの両方に対する実質的な改変により、コドン逆転を防ぐための適切な選択を行わずに、減少した遺伝コードの不安定性がもたらされ得る(Osawa et al.、1989)。しかしながら、再コード化状態への機能的依存を確立することにより、改変されたゲノムを安定化され、ストリンジェントな生物学的封じ込めメカニズムが提供され得る(Marliere、2009)。一例として、菌株が生存可能なままであるためにはnsAAを必要とするよう、全てのUAGコドンが除去されて2種の必須遺伝子(adk及びtyrS)が改変された生物学的に封じ込められた株を開発した(Mandell et al.、2015)。最終的なrEcoli-57株が、類似の生物学的封じ込めメカニズムを支持するかどうかを決定するために、57コドン型のadk及びtyrSの両方がインビボで機能的に活性であることを確認した。さらに、再コード化nsAA依存性adk遺伝子は、元の菌株について報告されたものと同様の適応度及び極めて低い回避率を有することが見出された(図18A~図18B)。
禁止コドンの全ての出現箇所がゲノムから除去された後でさえ、5種のtRNA(argU、argW、serV、leuX、leuZ)及び1種の放出因子(prfA)の遺伝子が除去されるまで遺伝コードは変化しないままであり得る。rEcoli-57が完全に再コード化されてtRNAが除去された時点で、前記菌株をウイルス耐性及び遺伝子水平伝播などの新規な性質について試験してもよい。さらに、直交アミノアシルtRNAシンテターゼ/tRNAのペアを導入して、最大4種のnsAAまで遺伝コードを拡張可能である。
最終的には、本明細書に記載されているように、堅牢なデザインソフトウェアによって支持される階層的なインビボ検証アプローチは、大規模合成ゲノム構築及び遺伝コードの根本的な変更に利用可能であり得る。遺伝的に隔離され再コード化ゲノムは、生体細胞の合成機能を拡張し、バイオテクノロジーにおける幅広い応用のための固有の枠組みを提供する可能性がある。
DNA合成
DNAは、産業連携先であるGen9、SGI-DNA、Twist Biosciences、Genewiz、及びIDT DNAテクノロジーによって合成された。合成パイプラインは、合成誤り率及びQCの制約を考慮して、合成コスト及び所要時間を低減させることを主目的として開発された。Gen9がDNAの大部分を合成し、サイズが1.2~4.2kbの断片として3,960kbが提供された。追加の合成は、Twist Biosciences(1.4~2.0kbの範囲の断片として30kb)、IDT(1.0~1.7kbの範囲の断片として27kb)、及びGenewiz(12.4~3.0kbの範囲中の断片として26kb)によって提供された。追加の328kb(SGI-DNA)、36kb(Twist)、及び6kb(Gen9)が合成されたが、最終ゲノムセグメント合成においては使用されなかった。
合成DNAのPCR増幅
全ての合成DNAを構築前にPCR増幅及び精製した。30μLのPCR反応物を以下のように調製した:1μLの希釈鋳型DNA(1~5ng/μLの範囲の1μL 合成鋳型DNA(synDNA)、9μLのTE緩衝液中に希釈)、2μLのプライマーミックス(10μMの各プライマー、50μLのTE緩衝液中に混合)、15μLの2xSeqAmp DNAポリメラーゼ(Clontech Laboratories, Inc.)、及び15μLのPCRグレードの水。PCRサイクルは、95℃:1分、98℃:10秒、60℃:15秒、68℃:2分、35サイクルであった。1%アガロースゲルを用いて1μLのPCR産物を分析した。2xKAPA-HiFi DNAポリメラーゼ(Kapa Biosystems)を用いて失敗したPCRの最適化を行った。30μLのPCR反応物を以下のように調製した:1μLの希釈鋳型DNA(同上)、2μLのプライマーミックス(同上)、15μLの2xKAPA-HiFi、及び12μLのPCRグレードの水。PCRサイクルは、95℃:1分、98℃:20秒、60℃:15秒、72℃:2分、30~35サイクルであった。PCR産物を2%E-gel Ex(Thermo Fisher Scientific Inc.)を用いてゲル精製した。
出芽酵母のセグメント構築
セグメント構築には、GeneArt High-Order Genetic Assembly System(Life Technologies)を改変して用いた。線状化のために使用する制限部位EcoRI及びBamHIを含むようにベクターpYES1Lを改変し、出芽酵母ウラシル選択マーカーをベクター骨格に付加した(「pYES1L-URA」と称する)。37℃で5時間、その後65℃で20分の酵素失活、20℃で30分のEnd Repair Module(NEB)処理により、両方の酵素を用いてベクター消化を行った。線状ベクターを精製し(Zymo DNA Clean&Concentrator)、使用前にDNAゲル上でサイズを確認した。各構築反応(10~15断片が各構築に使用される)について、増幅した合成断片(各400ng)を混合して精製し、次いで100ngの精製された線状ベクターpYES1L-URAを加えた。SAVANT DNA 120 SpeedVac濃縮器(Thermo Fisher Scientific Inc.)を使用してベクター/断片DNA混合物を約10μLの体積に濃縮した。
MaV203コンピテント細胞の形質転換は製造業者の指示に従って行った。トリプトファンを含まないCMグルコース培地に細胞をプレーティングし、30℃で3日間インキュベートした。コロニーPCRを使用してセグメント構築についてスクリーニングした。酵母コロニーを15μLの0.02M NaOH中に溶解し、95℃で5分間煮沸し、5分間氷上に保った後、40μLのddHOで希釈した。1.5μLの混合物を、KAPA2Gマルチプレックスポリメラーゼ(KAPA Biosystems)を用いたマルチプレックスPCRの鋳型として使用した。PCR条件は、98℃:5分、98℃:30秒、62℃:30秒、72℃:30秒、72℃:5分(32サイクル)であった。陽性PCRを示すコロニーのみを使用した。大腸菌形質転換のために、細胞を15μLの0.02M NaOH中に溶解し、ガラスビーズと共に5分間ボルテックスし、氷上に置いた。1.5μLの溶解混合物をエレクトロコンピテントTOP10細胞(Thermo Fisher Scientific)に加え、直ちにエレクトロポレーションし(1.8kV、25μFarads、200Ω)、37℃で1時間回復させた後、スペクチノマイシン選択プレート上にプレーティングした。
大腸菌法-菌株及び培養
エレクトロコンピテント大腸菌TOP10(Thermo Fisher Scientific)を、BW38028(Conway et al.、2014)において実施されたセグメント19、22、23、43、44、47を除くすべてのセグメントについての全プロセスに使用した。トラブルシューティングにEcM2.1無処理菌株を使用した(EcM2.1は、MAGEに対して最適化された菌株である。大腸菌MG1655 mutS_mut dnaG_Q576A exoX_mut xonA_mut xseA_mut1255700::tolQRA Δ(ybhB-bioAB)::[λcI857 N(cro-ea59)::tetR-bla])(Gregg et al.、2014)。
液体培地は、溶原培地のLennox製剤(LBL:1%w/vバクトトリプトン、0.5%w/v酵母抽出物、0.5%w/v塩化ナトリウム)、及びスペクチノマイシン(95μg/mL)、クロラムフェニコール(50μg/mL)、カナマイシン(30μg/mL)、カルベニシリン(50μg/mL)、ゼオシン(10μg/mL)などの適切な選択剤からなるものであった。固体培養培地は、必要に応じて同濃度の抗生物質を含有する、1.5%w/vのBacto Agar(Thermo Fisher Scientific)を含むオートクレーブ処理したLBLからなるものであった。
プラスミド形質転換、Lambda Red組換え、MAGE
pYES1L-URAプラスミドで形質転換されたTOP10細胞及びBW38028細胞(Conway et al.、2014)は、全てのパイプライン菌株遺伝子操作の対象であった。ベクターpYES1L-URA上の再コード化セグメントの平均コピー数は1.8プラスミド/ゲノムであることがわかった。
相同染色体上の再コード化されていないセグメント配列のノックアウトは、ゲノム遺伝子座を特異的に標的とするlambda red組換えによって達成される。カナマイシンカセット欠失の50bp相同性アームはゲノムセグメントの両側を標的とし、これは再コード化セグメントを有するプラスミドの両側とは配列が異なる。よって、前記カセットはゲノムセグメントを特異的に置換する。
全ての細胞をpKD78プラスミド(Datsenko et al.、2000)で形質転換してlambda red組換え機構を導入した。アラビノース(2μg/ml)中でリコンビナーゼ発現を2時間誘導した後、二本鎖PCR産物又はMAGEオリゴヌクレオチドのいずれかを用いてDNAを形質転換した。具体的には、100ngの二本鎖PCR産物を用いて全てのカナマイシンカセットを欠失させた。カナマイシン選択能をモニタリングするために、各組換えを陰性対照(脱イオン水)と対にした。他の組換え実験を既報(Wang et al.、2009)に記載のとおり行い、全オリゴヌクレオチドプールを最大5μMに調整した。34℃で3時間回復させた後、細胞を許容培地(MAGE用)又は選択培地(例えば、カナマイシン)中にプレーティングし、34℃で一晩インキュベートした。プレーティングした細胞の量は、MAGE実験では約10細胞、プラスミド形質転換では約10細胞、及びカナマイシンカセット欠失では約10細胞であった。次に、得られた菌株をPCRにより検証した。
オリゴヌクレオチド、ポリメラーゼ連鎖反応
PCRオリゴヌクレオチド及びプライマーの完全な表を表3及び表4に見出すことができる。組換え又はSanger配列決定に使用するPCR産物を、製造業者の標準的プロトコルに従ってKapa 2G Fastポリメラーゼを用いて増幅した。既報の方法(Isaacs et al.、2011)に従って、KAPA2G Fast MultiplexPCRキットを用いた多重遺伝子型判定に多重対立遺伝子特異的PCR(mascPCR)を使用した。mascPCR用のプライマーは、この目的のために特別に構築された自動化ソフトウェアを使用して設計された。サンガー配列決定反応は、第三者(Genewiz)を通じて実施した。pKD78形質転換工程、カナマイシン欠失工程、attP-ゼオシン挿入工程、及びλ組込み工程の後にmascPCRスクリーニングを実施した。
再コード化セグメントのゲノム組込み
λインテグラーゼを、再コード化セグメントプラスミドの大腸菌ゲノムへの組込みに使用した(Haldimann et al.、2001)。attP部位を、ゼオシン耐性マーカーと共に、lambda red組換えによってセグメントベクターに付加した。次いで、λインテグラーゼを42℃で6時間熱誘導し、細胞をスクリーニングのためのスペクチノマイシンプレート及びカナマイシンプレート上にプレーティングした。attP特異的プライマー及びattB特異的プライマー(attB-seq-f:CAG GGA TGC AAA ATA GTG TTG AG;attB-seqr:GA GAA GTC CGC GTG AGG;attP-f:GCGCTAATGCTCTGTTACAG;attP-r:GAAATCAAATAATGATTTTATTTT GACTGA)、並びに対立遺伝子特異的プライマー(表4)を用いてPCRスクリーニングを行い、正しいプラスミド組込みを有するクローンを同定した。
Cas9誘導性ベクター除去
組み込み後にさらに検証ステップを実行して、細胞中に再コード化セグメントの他のコピーが残っていないことを確認した。染色体への組込みの前には、全ての再コード化セグメントプラスミドがλ組込みのためのattP部位を含んでいる。λ組込みによりattB部位へのゲノム組込み時にattP配列が改変されるので、組込まれていないプラスミドのみがインタクトなattP配列を保有する。SpCas9タンパク質が全てのエピソーム性(非組込み)セグメントプラスミドにおいて二本鎖切断を誘導するようなattP特異的Cas9標的化(図10C)(Esvelt et al.、2013)を用いて、プラスミドの残存コピーを除去した。次に、線状化された残りのプラスミドを消化し、得られた菌株はプラスミドを含まない。
具体的には、SpCas9タンパク質遺伝子を含むプラスミド、並びにtracrRNA及び未改変attP配列に対するガイドRNAを構築した(プラスミド詳細(DS-SPcas、Addgeneプラスミド48645):cloDF13由来、carb、proCプロモーター、SPcas9、tracrRNA(天然プロモーター及び天然ターミネーターを有する)、J23100プロモーター、(同じプラスミド上へのスペーサー中でのクローニングを容易にするために付加される)1個のリピート)。前記スペーサーにクローニングされたガイドRNA配列は、TCAGCTTTTTTATACTAAGTである。プラスミドを形質転換し、形質転換の3時間後に細胞をプレーティングしてSpCas9プラスミドに対する選択下(カルベニシリン)(約10細胞)、37℃で増殖させた。得られた細胞を全てのattP配列の喪失についてPCR検証した。再コード化セグメントを有する組込みベクターの存在を、mAsPCRによって確認した。
適応度の測定
菌株倍加時間は既報の通りに計算した(Lajoie et al.、2013b)。簡潔には、培養物を平底96ウェルプレート中で増殖させた(150μL LBL、34℃、300r.p.m.)。増殖キネティクス(OD600)を、365cpmで軌道振盪しながら、34℃で一晩、5分間隔で、Biotek Eonマイクロプレートリーダーでモニタリングした。倍加時間は、t=Δt×In(2)/mによって計算した。ここで、各時点でΔt=5分であり、mは、5つの連続する時点(20分間隔)の移動ウィンドウの線形回帰によって計算したln(OD600)の最大勾配である。分析はMatlab(登録商標)スクリプトを用いて実施した。
44個のセグメントすべてについて観察された適応度の平均変化の減少は、再コード化されていない親株の適応度に対して15%である。75%のセグメント(33個のセグメント)は、野生型と比較して20%未満の適応度の減少を有することが観察され、4%のセグメント(2個のセグメント)のみ、50%を超える適応度の減少を有することが観察され(セグメント21及び84)、これを「実質的な減少」と称する場合もある。
重度の適応度低下の調査
遺伝子欠失により親株と比較して倍加時間が減少した場合、適応度を低下させる再コード化遺伝子を決定した。これは、再コード化遺伝子がうまく発現されなかったことを示唆する。lambda red組換えを用いて各染色体遺伝子を徐々に欠失させ、各欠失後の倍加時間を測定することにより、低下遺伝子の位置を特定した(図12A及び図12B)。位置が特定されると、適応度を低下させる再コード化遺伝子はトラブルシューティングパイプラインを用いて対処される。
まず、前記遺伝子を、野生型配列ではなく、再コード化された配列のみをプライムする対立遺伝子特異的プライマーを用いてサンガー配列決定した。以下の2つのトラブルシューティング経路のうちの1つを決定するために配列決定結果を分析した。
1)配列決定により適応度低下を引き起こす突然変異が明らかにされた。具体的には、これらは計算によるゲノムデザインに含まれていない突然変異を指す。それらの変異はMAGEを用いて修正された。
2)計算によるデザインと比較して、配列中に変異が同定されなかった。再コード化遺伝子の適応度の低下は、再コード化コドンに由来すると推定された。
図12A及び図12B(セグメント21)はトラブルシューティング戦略を示す。潜在的に有害なコドンは、適応度が低下した遺伝子(fabH)及びオペロン全体のプロモーター(上流遺伝子yceDに位置する3種の再コード化コドン)の両方において同定された。適応度を低下させるコドンを見出すために、当初の再コード化スキームに対応するオリゴヌクレオチドを用いて、無処理菌株(EcM2.1(Gregg et al.、2014))においてMAGEを行った(Wang et al.、2009)。3サイクルのMAGEの後、細胞を許容培地上にプレーティングした(約10細胞)。野生型配列を標的とするmascPCRプライマーを用いて96個のクローンをスクリーニングした。再コード化コドンが組み込まれたクローンの倍加時間を測定した(約20)。fabH遺伝子において変化させたコドンについては有意な適応度の低下は観察されなかった。したがって、前記プロモーターにおける当初の設計変更は困難な変更として確認された。縮重MAGEオリゴヌクレオチドを用いて無処理菌株においてMAGEを行った。3サイクルのMAGEの後、細胞を許容培地上にプレーティングした(10細胞)。禁止コドンのない代替の再コード化デザインが同定された。
生物学的封じ込めアッセイ
再コード化生物が関与する最も効果的な生物学的封じ込め戦略(Mandell et al.、2015)は、非標準アミノ酸に対応するように再設計された3種の遺伝子であるチロシルtRNAシンテターゼ(tyrS)、アデニル酸キナーゼ(adk)、及びビフェニルアラニルtRNAシンテターゼ(bipARS)を用いる。再コード化株の生物学的封じ込め能力をアッセイするために、それらの再設計された遺伝子が再コード化戦略と適合性があることを確認することが重要である。
bipARS遺伝子は、7種の禁止コドンのいずれも含まないので、適合性があると考えられ、再コード化株に組み込むことが可能である。1種の禁止コドンと2種の付加的調節変異のみを含むadk遺伝子は、生物学的に封じ込められた株において再コード化され、さらに検証された。複数の禁止コドンを含むtyrS遺伝子は、本研究では問題なく再コード化されたが、再コード化tyrSの生物学的封じ込め戦略についてはまだ試験されていない。
本研究で使用された菌株は以下の背景を有する。全ての菌株は、EcNR2(Escherichia coli MG1655 ΔmutS::cat Δ(ybhBbioAB)::[λcI857 N(cro-ea59)::tetR-bla])に基づいていた。C321株[48999株(www.addgene.org/48999)]及びC321.ΔA株[48998株(www.addgene.org/48998)]は、Addgeneから入手可能である。C321.ΔA.adk_d6及びC321.ΔA.adk.d6_tyrS.d8_bipARS.d7は、既報に基づく(Mandell et al.、2015)。
MAGEを使用して、生物学的に封じ込められた菌株であるC321.ΔA.adk.d6(逸出頻度は約10~6)及びadk.d6_tyrS.d8_bipARS.d7(逸出頻度<10~12の最も生物学的に封じ込められた菌株)において、adkの3種のコドン変化を含ませた。得られた菌株(C321.ΔA.adk.d6.rc及びC321.ΔA.adk.d6.rc_tyrS.d8_bipARS.d7)の適応度を上記のように評価した。逸出頻度は前述のように測定した。(Mandell et al.、2015).簡潔には、全ての菌株を許容条件下で増殖させ、対数後期に回収した。細胞をLBL中で2回洗浄し、LBL中に再懸濁した。生細胞cfuは、許容培地上の10倍連続希釈の3回の技術的反復の平均及び平均の標準誤差(s.e.m.)から計算した。3回の技術的反復物を非許容培地上にプレーティングし、7日間モニターした(約10細胞)。SDS及びクロラムフェニコールを含むLBL(SC)、並びにSDS、クロラムフェニコール、及び0.2%アラビノースを含むLBL(SCA)の2つの異なる非許容培地条件を用いた。
DNA及びRNAの配列決定法-ゲノム配列決定
Illustra Bacteria GenomicPrep Spin Kit(General Electrics)を用いて、1mLの一晩培養した培養物から細菌ゲノムDNAを精製し、Nextera DNA Library Prep(Illumina)又はNebNext Library Prep(New England Biolabs)を用いてライブラリーを構築した。ライブラリーは、PE250 V2キット(Illumina)と共にMiSeq装置(Illumina)を用いて配列決定した。
SNPのコール
2つの異なるパイプラインを使ってゲノムを分析した。一倍体ゲノム分析を支持するBreseq(Deatherage、2014)を、1つの種類のセグメントのみを有する菌株(すなわち、再コード化又は再コード化されていない野生型)についてのSNP及び短い挿入欠失のコールに用いた。Breseqはデフォルトのパラメータで使用した。
RNAseq法
RNAを、再コード化セグメントのエピソーム性コピー及び染色体セグメントの欠失を有する菌株から調製した。RNAは、RNAprotect(QIAGEN)を用いて安定化され、miRNeasyキット(QIAGEN)で抽出された。rRNA含有量は、riboZero rRNA Removal Kit(Illumina)を用いて減少させた。Truseq Stranded mRNA Library Kit(Illumina)を用いてRNAseqライブラリーを構築した。PE150 V2キット(Illumina)と共にMiSeq装置(Illumina)を用いてライブラリーを配列決定した。
RNAseq分析
RNAseq実験から得られたFASTQファイルを、デフォルトパラメータを用いてBWA(Li et al.、2009a)を用いてマッピングし、SAMTOOL(Li et al.、2009b)を用いて処理(インデックス付け、並べ替え)して、各サンプルについてのbamファイルを生成した。データの分析にはカスタムRスクリプトを使用した。GenomicFeaturesライブラリー(Bioconductor)を用いて読み取りを遺伝子に関連づけ、BioconductorのDESeqライブラリー(Anders et al.、2010)を用いて差次的発現分析を行った。絶対log2変化倍率が2より大きく、且つ調整されたp値が0.01より小さい遺伝子を、差次的に発現される遺伝子として分類した。具体的には、部分的に再コード化された菌株及びTOP10対照をRNASeqにより個々に分析した。各遺伝子の発現を、(再コード化された又は再コード化されていない)各サンプルにおいてDESeq2(Anders et al.、2010)を用いて他のすべてのサンプルにおける同一遺伝子の発現(5つの独立したセグメント)と比較して、全サンプルにわたる遺伝子発現の代表的範囲を得た。例えば、セグメント44におけるfolC遺伝子の発現レベルは、再コード化セグメント44(再コード化コピーのみ)、TOP10(野生型コピーのみ)、及び他のすべての部分的に再コード化された菌株(セグメント44は再コード化されていない、例えば、folC遺伝子の野生型コピーのみ)において測定された。
実施例2
コドン選択の規則-大腸菌におけるレアアルギニンコドンの編集
いくつかの態様によれば、本明細書には、ゲノムデザインについての規則、制約、条件、パラメータ、又は特徴のための実験による検証及び更新の方法が記載される。具体的には、レアアルギニンコドンであるAGA及びAGG(AGR)はコドン選択のケーススタディを示し、AGRは他の同義の代替コドン(CGN)とは異なる重要な転写及び翻訳特性をコードする。AGRコドンの123個の出現箇の全てが全ての必須遺伝子から除去されている大腸菌株が作られた。110個のAGRコドンは同義のCGUに置き換えられたが、残りの13個のAGRは生存可能な代替案を特定するために多様化を必要とした。成功した置換コドンは、場合によってはアミノ酸同一性を犠牲にして、局所的リボソーム結合部位様モチーフ及び局所的mRNA二次構造を保存する傾向があった。これらの観察に基づいて、代替コドンが生存可能である可能性が高いと考えられる多次元の「安全な置換ゾーン」(SRZ)に対して測定基準を実験により定義した。必須AGRに対する同義及び非同義の代替物をさらに評価するために、野生型対立遺伝子の多様な集団を枯渇させるためにCRISPR/Cas9に基づく方法を実施した。この方法により、全64種のコドン代替物の適応度の影響の包括的評価が可能になった。この方法を使用して、SRZの関連性は、14種の異なる遺伝子におけるコドン適応度を経時的に追跡することによって確認された。SRZの外側にあるコドンは、増殖集団から急速に枯渇する可能性があることが見出された。
最終的には、遺伝コードは固有の冗長性を持ち(Crick、1963)、最大6種の異なるコドンが単一のアミノ酸を特定する。このことは、同義コドンが同等であることを意味する(Kimura、1977)が、ほとんどの原核生物及び多くの真核生物(dos Reis et al.、2004;Newton and Wernisch、2014)は同義代替物に対する強いコドン選択を示す(Hershberg and Petrov、2008;Plotkin and Kudla、2011)。異なる種が異なるコドンを優先するように進化してきたが、コドンの偏りはそれぞれの種内でほぼ一致している(Hershberg and Petrov、2008)。しかしながら、所与のゲノム内では、コドンの偏りはコドンの位置によって個々の遺伝子間で異なっており、コドンの選択は機能的な結果をもたらすことが示唆される。例えば、レアコドンは必須遺伝子の開始部分に濃縮されており(Chen and Inouye、1990;Chen and Inouye、1994)、コドン使用頻度は、特にN末端において(Goodman et al.、2013)、タンパク質レベルに強く影響する(Kane、1995;Sharp and Li、1987;Sharp et al.、1993)。このことは、コドン使用頻度がタンパク質発現の調節においてまだよく理解されていない役割を果たすことを示唆する。
これらに限定されないが、タンパク質の折り畳みを最適化するために翻訳の早い段階でリボソームの休止を促進すること(Zhou et al.、2013)、翻訳開始の最適化やmRNA分解の調節するためmRNAの二次構造を調整すること、tRNAレベルとの共進化によりリボソームの失速を防止すること(Plotkin and Kudla、2011)、適切なリボソーム間隔及び効果的な翻訳のための「翻訳勾配」を提供すること(Tuller et al.、2010)、又はオペロン中の各遺伝子の独立した制御のための翻訳調節の層を提供すること(Li、2015)など、いくつかの仮説によりコドン使用頻度がこの効果をどのように媒介するかについての説明が試みられている。さらに、コドンの使用頻度は翻訳の忠実度に影響を与える可能性があり(Hooper and Berg、2000)、プロテオームはデコードするtRNAプールの微調整によって調整される可能性がある(Gingold et al.、2014)。Quax et al.は、生物学がどのようにコドンを選択するかについての優れた総説を提供しているが、全ゲノムにおけるコドン選択の系統的で網羅的な研究は成されていない(Quaxe al.、2015)。比較的少数の遺伝子におけるコドン選択の効果を調査する研究が始まったばかりである(Goodman et al.、2013;Isaacs et al.、2011;Kudla et al.、2009;Lajoie et al.、2013a;Li et al.、2012)。さらに、UAG終止コドンが大腸菌から完全に除去されており(Lajoie 2013a)、AGGコドンが多義的に再割り当てされているが(Lee et al.、2015;Mukai et al.、2015;Zeng et al.、2014)、センスコドンを完全に置き換えるというゲノム全体での試みは報告されていない。既出の研究は、そのような置換に対する未知の制約があることを証明した(Isaacs et al.、2011;Lajoie et al.、2013a;Lajoie et al.、2013b)。単一菌株においてコドンの全ての必須出現箇所を置換する試みにより、これらの制約に対する価値ある洞察が提供されるだろう。さらに、いくつかの制約が特定の遺伝子に存在することが知られているが、全ゲノム規模で同義コドンの分解を探求する試みは成されていない。
レアアルギニンコドンであるAGA及びAGG(IUPACの慣例に従ってAGRを含む)は最も置換困難なコドンの1つであり、それらとリボソーム結合配列との類似性が重要な非コード機能の根底をなすことが文献に示唆されているため(Chen and Inouye、1990、Rosenberg et al.、1993、Spanjaard et al.、1988、Spanjaard et al.、1990、Bonekamp et al.、1985)、本明細書の実施例に記載の通り、これらのコドンが本研究のために選択された。さらに、これらのコドンの使用頻度が稀であるため(大腸菌MG1655の必須遺伝子において123の出現箇所及び全ゲノムにおいて4228の出現箇所(表3))、必須遺伝子中の全てのAGR出現箇所を置換することは扱いやすい目標となり、必須遺伝子はコドン置換による適応度の影響を識別するためのストリンジェントな試験セットとして機能する(Baba、et al.、2006)。さらに、最近の研究はいくつかのAGRコドンを他の同義コドンに直接変異させることの難しさを示している(Zeng、et al、2014)が、著者は失敗の機序の説明又は代替デザインの実施の成功については報告していない。AGRコドンの123の出現箇所の全てを同義のCGUコドンと置き換えることによって必須遺伝子から除去することを試みた。一次核酸配列を最大限に破壊するようにCGUが選択された(AGR→CGU)。この戦略はデザイン上の欠陥を最大化し、それにより再割り当てされた遺伝コードを用いてゲノムをデザインするための規則が明らかになるであろうと仮定した。重要なことに、デザイン欠陥に対する偏りのない実験による検索を確実にするために、個々のコドンの標的は事前に検査しなかった。
この改変ゲノムを構築するために、共選択多重自動化ゲノム工学(CoS-MAGE)を用いて(Carr et al.、2012、Gregg et al.、2014)、必須遺伝子から123個のAGRコドンのすべてが除去された大腸菌株(C123)を作製した(図19A)。CoS-MAGEはlambda red媒介組換えを利用し(Yu et al.、2000、Ellis et al.、2001)、選択可能な対立遺伝子(例えば、tolC)における突然変異と近傍の目的の編集(例えば、AGR変換)との関連性を利用して、これらの編集を有する細胞を濃縮する(図S1)。C123構築を効率化するために、効率的なlambda red媒介ゲノム工学のために以前に最適化された菌株である(Gregg et al.、2014、Lajoie et al.、2012)大腸菌株EcM2.1を最初に選択した。EcM2.1についてCoS-MAGEを使用すると、最適化されていない菌株におけるMAGEに対して、対立遺伝子置換頻度が10倍改善されるが、すべての編集が同一のレプリコア(replichore)上にあり、選択可能な対立遺伝子の500キロベース以内にある場合は、最適に機能する(Gregg et al.、2014)。この要求を満たすために、必須遺伝子中の123個のAGRコドンの全てを含む12個のセグメントにゲノムを分割した。各セグメントのCoS-MAGEを可能にするためにtolCカセットをゲノム中に移動させることにより、インビボで大きな細胞集団全体でAGR→CGU突然変異の各セットのプロトタイプを迅速に作成することが可能となった。必須遺伝子中の123個のAGRコドンのうち、このプロセスによって110個がCGUに変更される可能性があり(図1)、ほとんどの必須遺伝子のコドン使用頻度にかなりの柔軟性があることが明らかになった。対立遺伝子置換(この場合、AGR→CGUコドン置換)頻度は、これら110個の許容コドン全体で大きく異なっており、対立遺伝子置換頻度と遺伝子中のAGRコドンの正規化位置との間に明確な相関関係はなかった(図2A)。
残りの13個のAGR→CGU突然変異は観察されず、コドン置換頻度が検出限界である細菌集団の1%未満であることが示唆された。これらの「抵抗性コドン(recalcitrant codon)」は、有害又は非組換え性であると想定され、さらなる分析のためにトラブルシューティングパイプラインにトリアージした(図19A及び図19B)。興味深いことに、13個の抵抗性コドンのうちの1個を除くすべてがそれらの遺伝子のそれぞれの末端近くに共局在し、これらの位置でのコドン選択の重要性が示唆され、7個は開始コドンの最大30nt下流であり、5個は終止コドンの最大30ヌクレオチド(nt)上流であった(図20A、下パネル)。これらの失敗したAGR→CGU突然変異を、明白なデザインエラーとして調べた。例えば、ftsI_AGA1759は、必須遺伝子であるmurEの2番目のコドン及び3番目のコドンと重複し、適応度を低下させる可能性があるミスセンス変異(murE D3V)を導入する。ftsI_AGAをCGAで置き換えることにより、MurEの一次アミノ酸配列を保存しながら適応度への影響を最小限に抑えて、禁止AGAコドンの置き換えに成功した(図21A)。同様に、holB_AGA4は上流の必須遺伝子tmkと重複し、AGAをCGUで置き換えると、tmkの終止コドンがCysに変換され、tmkのC末端に14個のアミノ酸が付加される。いくつかのC末端伸長は大腸菌において十分に許容されるが(Ohtake et al.、2012)、tmkを伸長することは有害であるようだ。終止コドンを含む3つのヌクレオチドをholB開始コドンの前に挿入することによって、holB_AGAのCGCへの置き換えに成功した。これにより、tmk/holB重複が低減され、両遺伝子のコード配列が保存された(図27A)。
残りの4個のC末端不全についてはより微細な重複エラーが確認され、AGR→CGU突然変異により下流遺伝子に属するRBSモチーフ(nusGの場合はsecE_AGG376、dnaCの場合はdnaT_AGA532、及びdedDの場合はfolC_AGAAGG1249,1252、後者は2つのコドンを構成する)が破壊されることが決定された。nusGとdnaCの両方が必須であることにより、secE及びdnaTにおいてAGRをCGUに置き換えると翻訳開始及び重複するnusG及びdnaCの発現が致死的に妨げられることが示唆される(図21B及び図27B)。dedDは必須ではないとアノテーションされているが(Baba et al.、2006)、folcにおいてAGRをCGUに置き換えると、EcM2.1(E.coli K-12)の生存に不可欠なdedDの一部が破壊されたと仮定された。この仮説を支持して、Baba et al.(Baba et al.、2006)によって削除されなかったdedDの29ヌクレオチドを欠失されず、folCと重複していなかったことから、この配列は記載された菌株において必須であることが示唆された。この変換の予想外の失敗は、よくアノテーションされた生物体においても設計上の欠陥を予測することの難題を強調している。これらRBSモチーフの破壊がAGR→CGU変換の失敗の根底にあるという観察と一致して、secEに対する非同義(Arg→Gly)変換を含む、RBS強度を保存するコドンを選択することによって3つの設計欠陥の全てが克服された。
これらの教訓により、リボソームがコーディングDNA配列中のリボソーム結合部位モチーフに遭遇すると翻訳中に一時停止するという以前の観察と合わせて(Li et al.、2012)、N末端AGR→CGUの失敗に対する重要な洞察が提供された。本明細書に記載されるように、RBS様モチーフは、RBSモチーフ(典型的には開始コドンの前に生じ得る)及び類似のモチーフ(オープンリーディングフレーム中に生じ得るが必ずしも翻訳開始を引き起こさない)の両方を指し得る。N末端の障害のうち3つ(ssb_AGA10、dnaT_AGA10、及びprfB_AGG64)は、CGUの交換によって分断又は作成されたRBS様モチーフを有していた。一方、prfB_AGG64は、リボソーム結合部位モチーフの一部であり、prfBにおける必須のフレームシフト変異を引き起こすが(Lajoie et al.、2013a、Craigen et al.、1985、Curran et al.、1993)、一時停止モチーフに媒介されるssb発現及びdnaT発現の調節は報告されていない。それにもかかわらず、リボソーム休止データ(Li et al.、2012)は、リボソーム占有ピークがssbに対するAGRコドンのすぐ下流に存在し、dnaTについては存在しないことを示した(図28)。その一方で、失敗したCGU突然変異は、prfB及びssbに対するRBS様モチーフを弱め、dnaTに対するRBS様モチーフを強化することが予測され(図21C及び図27C)、RBS占有率と細胞適応度との間の機能的関係が示唆された。
この仮説と一致して、トラブルシューティングパイプラインからのコドン置換の成功により、失敗したAGR→CGU変異によって引き起こされた大きな予測偏差と比較して、予測RBS強度が保存される(図22、y軸及びオレンジ色の星印と緑色の点との比較)。興味深いことに、dnaT_AGA10をCGN又はNNNのいずれかに置き換える試みは失敗し、周囲のコドンのゆらぎ位置を操作してアルギニンアミノ酸を保存することによってのみdnaT_AGA10を置き換えることができた(図27C)。これらのゆらぎ変異体は、AGA→CGU突然変異によって引き起こされるRBS強度の増加を補うようであり、ゆらぎ変異体を有するRBSモチーフ強度は未改変配列から8倍の偏差であったが、AGA→CGU単独のRBSモチーフ強度は27倍の偏差であった。
顕著なRBS強度の偏差を示さなかった残りのいくつかのN末端障害事例(rnpA_AGG22、ftsA_AGA19、frr_AGA16、及びrpsJ_AGA298)をよりよく理解するために、タンパク質発現の他の潜在的な核酸決定基を調べた。オープンリーディングフレーム(ORF)の5′末端近くのmRNA二次構造がタンパク質発現に強く影響を与えるという観察(Goodman et al.、2013)に基づいて、AGR→CGU突然変異はしばしば標的遺伝子の開始コドン付近のmRNAの予測される折り畳みエネルギー及び構造を変化させることが分かった(図21D及び図29)。縮重MAGEオリゴから得られたコドン置換の成功は、CGUと比較してmRNA二次構造の破壊を低減させた(図22、緑色の点)。例えば、rnpAは、そのRBS及び開始コドンの近くに、AGGコドンの両方のグアニン及び近くのシトシンとの間の塩基対合に依存する、予測されたmRNAループを有する(図21D、図30A)。重要なことに、試みられたすべてのrnpA AGG22CGN突然変異のうちAGG22CGGだけが観察され、CGGだけがこのmRNA構造を保存するという事実は、それが生理学的に重要であることを示唆する(図21D、図30B~図30C)。これを支持して、rnpA AGG22CUG突然変異(Arg→Leu)は、ステム中の相補的ヌクレオチドがCC(AGGと塩基対)からCA(CUGと塩基対)に変更された場合にのみ導入が成功し、RBSモチーフ強度及びアミノ酸同一性の両方が変化したが天然のRNA構造が保存された(図30D)。
4つ全ての最適化遺伝子配列の分析により、失敗したCGU変異と比較して、計算によるmRNA折り畳みエネルギー(UNAFold(Markham et al.、2008)を用いて計算)における偏差の減少が示された(図22、x軸オレンジ色の星印及び緑色の点)。同様に、これらの遺伝子について予測されるmRNA構造(異なるmRNA折り畳みソフトウェアを用いて計算:NUPACK(Zadeh et al.、2011))は、CGU変異によって強く変化し、実験により最適化された解決法で修正された(図29)。
これら13個の抵抗性コドンのトラブルシューティングにより、天然のmRNA折り畳みエネルギー又はRBS強度からの大きな偏差をもたらす突然変異がコドン置換の失敗と関連することが明らかになった。全ての試みられたAG→CGU突然変異についてこれら2つの測定基準を計算することによって、安全置換ゾーン(SRZ)が実験により定義され、その範囲内では大部分のCGU突然変異が許容された(図22、斜線領域)。SRZは、mRNAの折り畳みエネルギー又はRBS強度に関連した抵抗性AGR→CGU突然変異を全く含まない最大の多次元空間として定義される(図22、赤色の星印)。SRZは、天然コドンに関して10%未満のmRNA折り畳みエネルギーの偏差及び天然コドンに関して半対数未満のRBS様モチーフスコアの偏差を含み、コドン置換の定量的指針を提供する。特に、13個の抵抗性コドンを置き換えるために使用された最適解は、CGUへの突然変異で見られる偏差と比較して、これらの2つのパラメータのうちの少なくとも1つについての偏差の減少を常に示した。さらに、13個の抵抗性コドンに対する解は、実験により定義されたSRZとほぼ完全に重複していた。これらの結果は、mRNA折り畳みエネルギー及びRBS強度の計算による予測が、設計された突然変異が致死的である可能性があるかどうかを予測するための第一近似として使用され得ることを示唆する。問題のある対立遺伝子を予測するためのインシリコでの発見的問題解決法を開発することにより、インビボでのゲノム工学に必要な検索空間が減少し、生存可能なままである根本的に改変されたゲノムを作成することが可能となる。
13個の全ての抵抗性コドンについて生存可能な置換配列を同定した後、成功した110個のCGU変換を13個の最適化コドン置換と組み合わせて、そのアノテーション付き必須遺伝子の全てから123個のAGRコドン全て除去されたC123株を産生した。次に、C123の配列を決定してAGR除去を確認し、公的に利用可能なゲノム再配列決定パイプラインであるMillstoneを使用して解析した(Goodman et al.、2015)。必須遺伝子であるpssA及びccaにおいてAAG(Lys)からAGG(Arg)への2つの自然突然変異が観察された。これらの変異をAAGに戻す試みはうまくいかなかったが、おそらくこれは機能的な補償を示唆しており、これらの変異は縮重MAGEオリゴヌクレオチドを用いて、pssAではCCG(Pro)、ccaではCAG(Gln)に置き換えられた。得られたC123a株は、アノテーション付き必須遺伝子においてAGRコドンが完全に欠失された最初の菌株である。この菌株は、AGRコドンを大腸菌ゲノムから完全に除去することが可能であり、AGR翻訳機能の明確な再割り当てが可能になるという強力な証拠を提供する。
増殖動態分析により、96ウェルプレートリーダーにおいて溶原性ブロス(LB)中、34℃で、倍加時間がEcM2.1の52.4(+/-2.6)分(0個のAGRコドンが変化した)からC123aの67(+/-1.5)分(必須遺伝子中の123個のAGRコドンが変化した)に増加したことが示された。特に、適応度は、C123株構築中に有意に変動した(図20B)。これは、ミスマッチ修復欠損(mutS-)バックグラウンドにおける適応度欠損を軽減するためのコドン脱最適化(AGR→CGU)及び代償性自然突然変異に起因し得る。全体として、C123aの適応度の低下は、菌株の構築中に発生したオンターゲット(AGR→CGU)又はオフターゲット(自然突然変異)によって引き起こされる可能性がある。このように、mutSの不活性化は、有用な進化的ツールでありうると共に障害でもある。最終的なゲノム配列分析により、123個の所望のAGR変換と共に、C123aがEcM2.1親株には見られない419個の非同義自然変異を有することが明らかなった(図35)。特に興味深いのは、tRNAArg(argU)のDアームに位置する変異argU_G15Aであり、これはAGSセット4を用いたCoS-MAGE中に発生した。argU_G15AはCGU要求の増加及びAGR要求の減少を補償するが、C123においてこの突然変異を元に戻すことに関連する直接的な適応度の代償は観察されず、argU_G15Aはインビトロでのアミノアシル化効率又はインビボでのアミノアシルtRNAプールに影響を及ぼさない(図31)。Mukai et al.及びBaba et al.(Mukai et al.、2015、Baba、et al.、2006)に一致して、argW(tRNAArgCCU;AGGのみをデコード)は、argU(tRNAArgUCU;AGG及びAGA両方をデコード)で補完できるため、C123aでは不要であった。しかしながら、argUはAGAをデコードすることができる唯一の大腸菌tRNAであり、プロテオームの残りの部分についてAGRコドンを翻訳することが必要とされるであろうことから、C123aにおいて必須のままである(Lajoie et al.、2013b)。
全ての既知の必須遺伝子から全てのAGRコドンを除去した後のC123aの遺伝的安定性を評価するために、AGRコドンが回復するかどうか及び/又は自然突然変異が適応度を改善するかどうかを試験するために、C123aを78日間(640世代)継代した。78日後、配列決定された集団において追加のAGRコドンは検出されず、単離されたクローンの倍加時間はC123aよりも22%早くから22%遅い範囲であった(n=60)。局所RBS強度及びmRNA折り畳みがコドン選択にどのように影響するかについてさらに洞察を得るために、進化実験を実施して、AGRコドンのそれぞれにおける64種の可能性のあるコドン置換の全ての競合適応度を調べた。MAGEはインビボで生存可能なゲノム改変を探索するための強力な方法であるが、最適ではないコドン選択に関連した適応度代償をマッピングすることに目的があり、全体的な適応度最大値又はそれに近いと仮定された親遺伝子型を枯渇させたコドンランダム化が必要である。これを行うために、CRAM(Crispr-Assisted-MAGE)と呼ばれる方法が開発された。第一に、標的AGRコドンをNNNに変更するだけでなく、20bpのCRISPR標的遺伝子座を破壊するであろう、少なくとも50nt下流のいくつかの同義変化も生じさせるオリゴヌクレオチドを設計した。MAGEを用いて並行してAGRのそれぞれをNNNと置換し、CRISPR/cas9を用いて親遺伝子型を有する細胞集団を枯渇させた。このアプローチは、元のコドンを含む、コドン空間の網羅的探索を可能にしたが、圧倒的多数の親遺伝子型を欠いていた。CRAMに続いて、集団を24時間毎に1:100で6日間継代し、Illuminaの配列決定を用いて各継代前にサンプリングした(図23)。
CRAMの24時間後の配列決定により、全てのコドン(終止コドンを含む)の存在が示され(図32)、集団内に大規模な多様性を生み出すための技術として前記方法が検証された。さらなる分析のための全ての配列は、変化した下流配列を含む対立遺伝子特異的プライマーを用いたPCRによって増幅された。続いてこれらの集団の継代により、多くの遺伝子特異的傾向が明らかになった(図23、図33、図33)。具体的には、トラブルシューティングを必要とする全てのコドン(dnaT_AGA10、ftsA_AGA19、frr_AGA16、rnpA_AGG22)は、それらの野生型AGRコドンに収束し、元のコドンが全体的に最適化されていたことを示唆している。代替コドンが元のAGRを置換した全ての場合について、mRNA折り畳みエネルギー及び局所的RBS強度(リボソーム休止の代用として)の予測偏差をこれらの代替コドンについて計算し、得られた測定基準をこの位置での経時的なコドン分布の進化と比較した。推定されたSRZ内に入る配列の割合もまた、図22から計算された。CRAMは当初、多様なmRNA折り畳みエネルギー及びRBS強度を導入したが、これらの遺伝子型は、多くの場合、親のAGR値と同様のパラメータに急速に収束した(図23、重なり部分)。遺伝子の開始近くの予測されたmRNA折り畳み及び内部RBS強度を強く妨害コドンは、数日間の増殖の後に不利になり、得られた測定基準がインシリコで最適なコドン置換を予測するために使用できることが示唆された。対照的に、非必須制御遺伝子であるbcsB及びchpSはRNA構造又はRBS強度を保存したコドンに収束せず、RNA二次構造及びRBS強度の観察された保存が必須遺伝子に生物学的に関連するという結論が支持された。興味深いことに、tilS_AGA19はこの効果にそれほど感受性を有さず、その特定の位置でのコドン選択が選択下にないことが示唆された。さらに、ipsG集団に対する平均内部RBS強度は親のAGR値に向かって収束したが、mRNA折り畳みエネルギー平均はそのようにならず、遺伝子内のこの位置がmRNA折り畳みよりもRBS破壊に対してより感受性を有し得ることが示唆された。lptF遺伝子は逆の傾向をたどった。
興味深いことに、いくつかの遺伝子(lptF、ipsG、tilS、gyrA、及びrimN)は、アミノ酸同一性をArgからPro、Lys、又はGluに変更したコドンを選択し、非コード機能がこれらの位置でアミノ酸同一性に勝ることが示唆された。重要なことに、必須遺伝子における成功したコドン置換の全てはSRZ内に入り(図24)、64コドン全ての偏りのない試験に基づく発見的問題解決法が検証された。一方、非必須制御遺伝子であるchpSは、SRZへの依存性が少なかった。これらの観察に基づいて、全体的なコドンの偏りはtRNA利用可能性によって影響され得るが(Plotkin et al.、2011、Novoa et al.、2012、Ikemura、1985)、所与の位置でのコドン選択は少なくとも(1)アミノ酸配列、(2)開始コドン及びRBS付近のmRNA構造、(3)RBS媒介性の休止の3つのパラメータによって定義され得る。場合によっては、これらのパラメータのサブセットが選択されていない可能性があり、前記測定基準のサブセットに対してのみ収束する進化した配列を生じる。他の場合には、全ての測定基準が重要となり得るが、一次核酸配列はそれら全てに等しく適応する柔軟性を持たない可能性があり、細胞の適応度を損なうコドン置換がもたらされる。
これらの規則を使用して、全てのAGRコドンがゲノム全体で置換されたインシリコでゲノム案を作成し、無処理置換戦略と比較して予測されるデザイン欠陥(例えば、SRZ外の測定基準を有する同義コドン)数がほぼ4分の1に減少した(図25A、図25B、図34)。さらに、抵抗性コドンの予測により、MAGEを用いてインビボで迅速に試験可能な仮説が提供される。次に成功した置換配列は、再設計されたゲノムにおいて同時に実行してもよい。これらの規則により、AGR翻訳機能を明確に再割り当てするために使用することができる、AGRコドンを完全に欠失したゲノムを作成することの取り扱いやすさが増大することが期待される。
大腸菌の必須遺伝子からAGRコドンの全ての出現箇所を包括的に除去することにより、コードDNA配列、RBS媒介性の翻訳開始/休止、又はmRNA構造の破壊によって説明され得る13種のデザイン欠陥が明らかになった。各因子の重要性が報告されているが、本明細書に記載の方法により、それらがゲノム機能にどの程度及びどれ位の頻度で影響を及ぼすかを体系的に探究される。さらに、本明細書に記載の方法により、生存不能ゲノムをデザインする機会を低減するための定量的指針が確立される。追加の因子が疑いなくゲノム機能に影響を与えるが、これらの指針により失敗した同義コドン置換の全ての出現箇所が捕捉されたという事実(図22)は、開示されたゲノムデザイン指針により生存ゲノムの一次配列に対する許容可能な改変の強固な第一近似が提供されることを示唆する。安価なDNA合成と組み合わせたこれらの設計規則により、生物学的封じ込め、ウイルス耐性、及びアミノ酸レパートリーの拡張などの有用な特性を示す根本的に再設計されたゲノムの構築を容易になるであろう(Lajoie et al.、2015)。
材料及び方法
使用した菌株及び培養方法
この研究に使用された菌株はEcM2.1に由来した(Escherichia coli MG1655 mutS_mut dnaG_Q576AexoX_mut xonA_mut xseA_mut 1255700::tolQRA Δ(ybhB-bioAB)::[λcI857 N(cro-ea59)::tetR-bla])(Carr et al.、2012)。液体培地は、溶原培地のLennox製剤(LBL:1%w/vバクトトリプトン、0.5%w/v酵母抽出物、0.5%w/v塩化ナトリウム)(Lennox、1955)、及び適切な選択剤であるカルベニシリン(50μg/mL)及びSDS(0.005%w/v)からなるものであった。tolC対向選択のために、14.4μgタンパク質/μLであると測定された自己精製物(Schwartz et al.、1971)を1:100希釈したコリシンE1(colE1)を使用し(Isaacs et al.、2011、Lajoie et al.、2013b)、バンコマイシンを64μg/mLで用いた。固体培養培地は、必要に応じて同濃度の抗生物質を含有する1.5%w/vのBacto Agar(Fisher)を含むオートクレーブ処理したLBLからなるものであった。ColE1寒天プレートを既報の通りに作製した(Gregg et al.、2014)。倍加時間は、34℃で一晩、365cpmで軌道振盪しながらBiotek Eonマイクロプレートリーダーで決定し、matlab scriptを使用して分析した。
オリゴヌクレオチド、ポリメラーゼ連鎖反応及び等温集合
組換え又はSanger配列決定に使用するPCR産物を、製造業者の標準的プロトコルに従ってKapa 2G Fastポリメラーゼを用いて増幅した。既報の方法に従って、KAPA2G Fast MultiplexPCRキットを用いてAGR置換事象の多重遺伝子型判定のために、多重対立遺伝子特異的PCR(mascPCR)を用いた(Isaacs et al.、2011、Mosberg et al.、2012)。サンガー配列決定反応は第三者(Genewiz)を通じて実施した。CRAMプラスミドは、PCR(Yaung et al.、2014)及びIDTからGblockで得られたCRISPR/PAM配列を用いて線状化したプラスミド骨格から、50℃で60分間の等温構築により構築した(Gisbon et al.、2009)。
lambda red組換え、MAGE、及びCoS‐MAGE
λレッド再結合、MAGE、及びCoS-MAGEを前述のように実施した(Gregg et al.、2014、Wang et al.、2009)。一本鎖組換えでは、MAGEオリゴヌクレオチドを1μMで使用したが、多重選択組換えでは共選択オリゴヌクレオチドは0.2μMであり、全オリゴヌクレオチドプールは5μMであった(7~14オリゴヌクレオチド)。二本鎖PCR産物を組み換える場合(例えば、tolC挿入)、100ngの二本鎖PCR産物を用いた。CoS-MAGEをtolC選択と一緒に使用して標的AGRコドンを置換したため、tolC選択性能をモニタリングするために、各組換えを水のみで組換えた対照と対にした。各オリゴヌクレオチドセットの標準的なCoS-MAGEプロトコルは、tolCを挿入し、tolCを不活性化し、tolCを再活性化し、tolCを削除することであった。MascPCRスクリーニングは、tolCの挿入工程、不活性化工程、及び欠失工程で行われた。全てのλRed組換えの後に、3mLのLBL中での回復、続いて既報(Gregg et al.、2014)のようにして行ったSDS選択(tolC挿入、tolC活性化)又はColE1対向選択(tolC不活性化、tolC欠失)を行った。
一般的なAGR代替戦略
必須遺伝子のAGRコドンは、123個の固有のAGRコドン(82個のAGA、41個のAGG)を含む共有セット(107個のコーディング領域)を明らかにする目的で2つの補足的な情報源(Baba et al.、2006、Hashimoto et al.、2005)に従って必須遺伝子アノテーションを相互参照することによって、発見された。optMAGE(Ellis et al.、2001、Wang et al.、2009)を用いて、各AGRをCGUに変換する90-merオリゴヌクレオチド(複製フォークのラギング鎖を標的とする)を設計した。AGR置換オリゴヌクレオチドの総数は、可能であれば複数の編集をコード化するようにオリゴヌクレオチドを設計し、オリゴヌクレオチドの5′末端及び3′末端に少なくとも20bpの相同性を維持することにより、119個まで削減された。次いで、所与のセット内の全ての標的の複製方向に対して最大で564,622bp上流で単一のマーカー(tolC)が挿入され得るように、染色体位置に基づいてオリゴヌクレオチドを複雑さが異なる(最小:7、最大:14)12個のMAGEオリゴセットにプールした。tolC挿入部位は、12個のプールのそれぞれについて、遺伝子間領域又は所与のプールについての距離基準を満たす非必須遺伝子のいずれかに同定された。12個のオリゴヌクレオチドプールそれぞれの記述については表5を参照。
トラブルシューティング戦略
抵抗性AGRは、変換プロセスの第3工程の後に選別された少なくとも96個のクローンのうちの1個でCGUに変換されなかったものとして定義された。次いで、抵抗性AGRコドンを、親株(EcM2.1)においてトラブルシューティングのためにトリアージした(図12A)。第一に、コドンの配列構成を、アノテーションの誤り又は重複遺伝子のための破壊されたRBSのようなデザインエラー又は潜在的な問題について調べた。ほとんどの場合、修正されたオリゴヌクレオチドは容易に設計及び試験可能であった。そのような明白な再設計が不可能であった場合は、AGRをCGN突然変異で置き換えることを試みた。AGRをCGNに置き換える試みにより組換え体が得られなかった場合、代償的な同義変異を、抵抗性AGRの周囲の3アミノ酸のウィンドウで試験した。必要に応じて、AGRからNNNへの変異をコードするオリゴヌクレオチドと再結合することにより、同義的ストリンジェンシーを緩和した。トラブルシューティングワークフローの各工程の後、2つの連続したCoS-MAGE組換えからの96クローンを、野生型遺伝子型にハイブリダイズするプライマーを用いた対立遺伝子特異的PCRを用いてスクリーニングした。野生型アンプリコンの産生に失敗した配列を、変換を確認するためにサンガー配列決定した。LBL中の全てのクローンの倍加時間を測定して、配列決定データを適応度データと対にし、最短の倍加時間を有する組換えクローンを選択した。倍加時間は、Biotekプレートリーダー(Eon又はH1のいずれか)で増殖曲線を得ることによって決定し、ウェブベースのオープンソースゲノム再配列決定ソフトウェアを使用して分析した。次にこの遺伝子型をMAGEを用いた菌株構築の最後に完全菌株に導入し、MASC-PCRスクリーニングによって確認した。
mRNAの折り畳み及びRBS強度の計算
各配列についてのmRNA折り畳み及びRBS強度値を計算するためにカスタムPythonパイプラインを使用した。mRNAの折り畳みはUNAFold計算機(Markham et al.、2008に基づき、RBS強度はSalis計算機(Salis、2011)に基づいた。mRNAの折り畳みのためのパラメータは、温度(37℃)であり、使用されるウィンドウは平均して遺伝子の開始部位周辺の-30:+100ntから-15:+100ntの間であり、Goodman et al.、2013に基づいていた。RBS強度の唯一のパラメータはRBSとプロモーターの間の距離であり、Li et al.、2012に基づくと平均して目的のコドンの後の9~10ntである。データの可視化はカスタムMatlabコードを介して実行された。
必須遺伝子においてAGRコドンを欠く菌株の全ゲノム配列決定
剪断されたゲノムDNAは、Covaris E210中で130μLの精製されたゲノムDNAを剪断することによって得られた。全ゲノムライブラリー調製は既報のように実施した(Rohland et al.、2012)。簡潔には、130μLの精製ゲノムDNAをCovaris E210中で以下のプロトコルを用いて一晩剪断した。負荷サイクル:10%、強度:5、サイクル/バースト:200、時間:780秒/サンプル。アガロースゲル上でサンプルの剪断についてアッセイし、分布が許容される場合(ピーク分布約400nt)、既報(Rohland et al.、2012)に記載されているようにSPRI/逆SPRI精製によってサンプルをサイズ選択した。次に断片を平滑化し、p5/p7アダプターを連結し、続いてフィルイン(fill-in)及びギャップ(gap)修復(NEB)を行った。各サンプルを、SYBRグリーン及びKapa Hifiを用いてqPCR定量した。これを使用して、P5-solプライマー及びP7-solプライマーを使用してバーコード化のために得られたライブラリーを増幅するためのサイクル数を決定した。得られた個々のライブラリーをNanodropにより定量しプールした。得られたライブラリーをqPCR及びAgilent Tapestationで定量し、MiSeq 2×150で泳動した。データを分析して、ウェブベースのオープンソースゲノム再配列決定ツールであるMillstoneを使用して、AGR変換を確認し、オフターゲット突然変異を同定した。
NNN配列決定及びCRISPR
CRISPR/Cas9を使用して、所望のAGRコドン変化の隣の未改変標的部位で染色体を選択的に切断することによって野生型親遺伝子型を枯渇させた。標的部位は、標化されるAGRコドンに近接して近いGeneiousの内蔵標的部位ファインダーを使用して決定した。AGRコドンの上流50bp未満であり、同義変化で破壊される可能性がある部位を選択した。複数の部位がこれらの基準を満たす場合、ゲノムの他の部分と最低レベルの配列類似性を有する部位が選択された。翻訳開始部位の後の最初の30ntにAGRコドンを有する24個の遺伝子の全てについて、約130bpの長さのオリゴを設計した。これらのオリゴは、AGR位置にNNNランダムコドン、及びAGRコドンの少なくとも50nt下流にあるCRISPR標的部位における複数の(最大6つまでの)同義変化の両方を組み込んでいた。これによりCRISPR標的部位を破壊すると同時にAGR遺伝子座が改変され、親の遺伝子型が削除された後の遺伝子座のランダム化を確実にする。Cas9発現プラスミドDsCas9を有する親株EcM2.1において組換えを実施した。24個の遺伝子のそれぞれについて、1μM濃度の特異的突然変異誘発オリゴを用いて5サイクルのMAGEを実施した。ガイドを有するCRISPRリピートスペーサープラスミドを選択された部位を標的とするように設計し、最後の組換えサイクル後に多様化プールのそれぞれにエレクトロポレーションした。1時間の回復後、DsCas9プラスミド及びリピートスペーサープラスミドの両方を選択し、24のAGRコドンのそれぞれについて3つの並行した系統で144時間継代した。2時間の選択の後、24時間毎に、サンプルを採取して細胞を選択培地中で1/100に希釈した。
CRISPR部位改変を組み込んだ菌株の特異的増幅を可能にするPCRプライマーを用いて各ランダム化集団を増幅した。次いで、各AGRコドンについて得られた三連ライブラリーをプールし、P5-solプライマー及びP7-solプライマーでバーコード化して、MiSeq 1×50上で泳動した。カスタムMatlabコードを使用してデータを分析しました。
各遺伝子及び各データ点について、読み取りを参照ゲノムとアライメントし、各コドンの頻度を計算した。図23において、任意の単位でのmRNA構造の偏差(赤線)及びRBS強度の偏差(青線)は、頻度と各コドンに対する偏差の積として計算した。
実施例3
ゲノム工学ツールキット及び多遺伝子座検証実験
本明細書に記載の方法は、ゲノム全体にわたってコドンを再割り当てするためのソフトウェアライブラリであるGenome Engineering Toolkit(GETK)を利用する。GETKソフトウェアは、再コード化遺伝子及び全ゲノムの設計及び合成を支援する(図36A)。前記ソフトウェアは生物物理学的制約を考慮に入れて、最善のコドン再割り当てを選択し、再設計された生物が障害されるか又は生存不能になるリスクを最小限にする。本明細書に記載のソフトウェアコード化方法を使用して、ゲノム全体にわたる位置を再コード化し、本明細書に記載の方法によって特定されるコドン選択により設計例外の危険性が低減されることが実証された。
本明細書に記載の設計規則を検証するために、ゲノム全体で同義コドン置換を試験するための実験を行った。235のコドン競合実験を設計し、コドン置換の予測困難性に従って優先順位を付けた。mRNA、RBS、又は内部RBSのうちの少なくとも1つが設計規則によって少なくとも1つの代替コドンについて有意に破壊されていると予測される位置を選択した。実施例1と同様に、AGA(Arg)、AGG(Arg)、AGC(Ser)、AGU(Ser)、UUG(Leu)、及びUUA(Leu)の6種の禁止センスコドンを考慮に入れた。設計規則により予測されるスコアとしてmax_{mRNA|RBS|internal_RBS}が閾値を超えたか、又は少なくとも1つの不良再コード化が生じた位置を優先した。各サブ実験について、標的に同義コドンを導入するMAGEオリゴを設計した。いくつかのサブ実験のために、非同義突然変異を導入するMAGEオリゴを設計した。各サブ実験は別々のウェルで行い、MAGEを使用してそのサブ実験用のオリゴセットをエレクトロポレーションした。母集団を定期的にサンプリングし、対数増殖期を維持するために希釈した。サンプルを配列決定してコドン存在量を定量するために使用し、次に相対適応度を計算するために使用した(図36B)。
予測スコアを実験による適応度測定値と比較した(図36C)。本実験により、代替コドン予測により設計上の問題を最小化し得ることが明らかになった。必須遺伝子の5′末端の単一コドン変化を試験する場合、良好なスコアを有すると分類されたコドン(mRNAの折り畳み、リボソーム結合部位強度、及び内部リボソーム休止部位の予測される破壊が最小)は適応度に有意に少ない影響をもたらす(K-Sテスト)。同じ90-merオリゴウィンドウ内のコドン交換の試験的組み合わせは、予測されたスコアと観察された適応度との間でさらに強い対応を示した(図37)。
無効対照として、同義コドン及び早期終止コドンが非必須遺伝子であるLacZ及びGalKの複数の位置に導入され、同義コドンと内部停止との間で同様の効果が示された(図38、上段)。強力な効果の対照として、同義コドン及び内部終止コドンが必須遺伝子に導入された。これらは、いくつかの位置でコドン選択のより大きなダイナミックレンジを有し、内部終止コドンと同義コドンの間に著しい違いを示す(図38、下段)
同義置換は試験するまでもなく、本明細書に記載された規則に従ってうまくスコア付けされる大腸菌の系統発生的な近隣種(例えばSalmonella entericaなどのガンプロテオバクテリア)において観察された非同義置換を、コドンを置換する能力について試験した。内部RBSモチーフの破壊を防止することは、潜在的に高いRBS破壊(図39)(Kolmogorov-Smirnov p=3.E-14)を有する遺伝子座及び強いリボソーム休止ピークを有することが観察された遺伝子座の両方について(Li et al.、2012)(図40)(Kolmogorov-Smirnov p=7.9E-05)、遺伝子内部のコドンを選択するための有効な規則である。
ゲノム遺伝子座標的の選択
235コドン競合実験のための標的は、3つの96ウェルプレートにまとめられた。
プレート1:必須遺伝子の5′における単一コドン変化
必須遺伝子の5′末端付近、すなわち開始コドンに対して(-30、+100)塩基付近に存在する95個のコドンを選択した。以下のフィルターによって記述されるように、予測される最低スコアが少なくとも1つのフィルターの閾値を超える位置(RBS又はmRNAのフォールディング予測が不良)を考慮した。
Figure 0007062861000002
閾値は以下のように選択された。
RBS_log_ratio:3.3=1+math.log_e(10)
mRNA_positive_ratio:1.1=10%偏差
max_internal_RBS_score:4.1=3.3+96ウェルプレート未満にするためには若干多め
候補セットは、設計において少なくとも1つの問題を有するターゲットを含む(すなわち、最も悪い設計は不良である)。これらのターゲットのうち少なくとも2つは、重複遺伝子に非同義変異を導入し、アミノ酸の意味と調節遺伝子発現シグナルの保存とのバランスをとるソフトウェアの態様を試験することが可能になる。
プレート2:コドン変化及び隣接縮重部位試験の組み合わせ
単一の変化の中から、90塩基対のオリゴヌクレオチドサイズ内で他のものに隣接して起こるものを組み合わせて、隣接オリゴのすべての組み合わせを試験した新しい一連のサブ実験とした。そのようなターゲットは62個あった。
禁止コドンに隣接する非禁止コドンにおける同義コドン交換を用いて12のサブ実験を設計した。いくつかの選択禁止コドンのいずれかの側ですべての同義コドン交換されたオリゴが設計された。例えば、アルギニンV-R-Gの周囲の領域は、オリゴではGTN-CGN-GGNのように見える可能性がある。これらのために、最善の同義解でさえも不良の場合、最良の同義コドン交換で閾値を超えるスコアを有する再コード化を目標とする。
プレート3:系統発生的保存の試験
最終的な66個のサブ実験は、許可された非同義置換の原因として系統発生的保存を試験するために設計された。ガンマプロテオバクテリアの7種の菌株をアラインメントし、大腸菌に対する非同義の変異を有するコドンが同定された。必須遺伝子の5′末端付近及び必須遺伝子の中央部を標的として試験した。5′標的を保存するため、以下に記述されるように、予測される悪いスコアが存在する系統発生的保存上のデータにおいて観察された非同義変化からサブセットを選択した。
Figure 0007062861000003
これらの選択は、プレート1由来の対応する単一コドン縮重オリゴと競合した。
遺伝子の中央部での保存のために、必須遺伝子における約3500の候補標的を、1)潜在的な最大値が不良であって同義変化を有する、内部RBSスコア、及び2)リボソーム休止データからのピークの位置(Li et al.、2012)の2つの基準を用いて減らした。
内部RBSについては、9個の固有の位置にある12個の標的を合計21個のオリゴに対して選択した。使用されるフィルターを以下に示す。
Figure 0007062861000004
Weissmanでは、9つの固有な位置に14の標的、又は23個のオリゴヌクレオチドを選択した。
オリゴヌクレオチドは、既報に記載の通りに設計した(Wang et al.、2009)。DNAは、産業連携先であるIDT DNA technologies(Coralville、IA)によって合成された。
菌株及び培養
競合試験には、EcM2.1無処理菌株を使用した(EcM2.1は、大腸菌MG1655 mutS_mut dnaG_Q576A exoX_mut xonA_mut xseA_mut 1255700::tolQRA Δ(ybhB-bioAB)::[λcI857 N(cro-ea59)::tetR-bla]であり、MAGEに対して最適化された菌株である)。
液体培地は、溶原培地のLennox製剤(LBL:1%w/vバクトトリプトン、0.5%w/v酵母抽出物、0.5%w/v塩化ナトリウム)及び適切な選択剤であるカルベニシリン(50μg/mL)からなるものであった。固体培養培地は、必要に応じて同濃度の抗生物質を含有する1.5%w/vのBacto Agar(Thermo Fisher Scientific Inc.)を含むオートクレーブ処理したLBLからなるものであった。
実験設定
EcM2.1株を用いた組み換え実験を、以前に記載されたように、全ての異なる競合実験について同じ条件で行った。実験に応じて、全オリゴプールを最大5μMに調整した。
オリゴの形質転換後、細胞を1時間後、3時間後、5時間後、7時間後、及び24時間後に取り出して配列を決定した。細胞を一定の対数期に維持するように希釈を行った。各時点で、プール中に存在する細胞の数を数えるために、細胞を許容培地上にプレーティングした。これらの数値に基づいて、各時点間の倍加数を計算することができた。
Figure 0007062861000005
配列決定
各集団をIllumina P5プライマー及びP7プライマーで増幅及びバーコード化し、プールし、PE-150キットを用いてMiSeq又はNextSeqにより配列決定した。読み取りを基準ゲノムに逆多重化し、各コドンの頻度を各サブ実験について計算した。
相対的対立遺伝子の適応度の推定及びスコア付け
各サブ実験について、各コドンの相対頻度を計算した。次いで、画分を最初の時点での画分に対して正規化した。次に、各コドンについて、適応度は、対数関数を全ての時点にわたってコドン画分に適合させ、減衰定数を測定適応度として採用することによって推論された。mRNA構造の偏差及びRBS強度の偏差はGETKを用いて計算され、スコアは実験により測定された適応度と比較された。
Figure 0007062861000006
Figure 0007062861000007
Figure 0007062861000008
Figure 0007062861000009
Figure 0007062861000010
Figure 0007062861000011
Figure 0007062861000012
Figure 0007062861000013
Figure 0007062861000014
Figure 0007062861000015
Figure 0007062861000016
Figure 0007062861000017
Figure 0007062861000018
Figure 0007062861000019
Figure 0007062861000020
Figure 0007062861000021
Figure 0007062861000022
Figure 0007062861000023
Figure 0007062861000024
Figure 0007062861000025
Figure 0007062861000026
Figure 0007062861000027
Figure 0007062861000028
Figure 0007062861000029
Figure 0007062861000030
Figure 0007062861000031
Figure 0007062861000032
Figure 0007062861000033
Figure 0007062861000034
Figure 0007062861000035
Figure 0007062861000036
Figure 0007062861000037
Figure 0007062861000038
Figure 0007062861000039
Figure 0007062861000040
Figure 0007062861000041
Figure 0007062861000042
Figure 0007062861000043
Figure 0007062861000044
Figure 0007062861000045
Figure 0007062861000046
Figure 0007062861000047
Figure 0007062861000048
Figure 0007062861000049
Figure 0007062861000050
Figure 0007062861000051
Figure 0007062861000052
Figure 0007062861000053
Figure 0007062861000054
Figure 0007062861000055
Figure 0007062861000056
Figure 0007062861000057
Figure 0007062861000058
Figure 0007062861000059
Figure 0007062861000060
Figure 0007062861000061
Figure 0007062861000062
Figure 0007062861000063
Figure 0007062861000064
Figure 0007062861000065
Figure 0007062861000066
Figure 0007062861000067
Figure 0007062861000068
Figure 0007062861000069
Figure 0007062861000070
Figure 0007062861000071
Figure 0007062861000072
Figure 0007062861000073
Figure 0007062861000074
参考文献
本明細書においては参考文献を著者別で明示するが、完全な引用を以下に示す。引用された各参考文献の開示は、その全体が参照により本明細書に組み入れられる。
1. Gibson, D.G., Glass, J.I., Lartigue, C., Noskov, V.N., Chuang, R.Y., Algire, M.A., Benders, G.A., Montague, M.G., Ma, L., Moodie, M.M., et al.(2010). Creation of a bacterial cell controlled by a chemically synthesized genome. Science 329, 52-56.
2. Lajoie, M.J., Kosuri, S., Mosberg, J.A., Gregg, C.J., Zhang, D., and Church, G.M.(2013a). Probing the limits of genetic recoding in essential genes. Science 342, 361-363.
3. Lajoie, M.J., Rovner, A.J., Goodman, D.B., Aerni, H.R., Haimovich, A.D., Kuznetsov, G., Mercer, J.A., Wang, H.H., Carr, P.A., Mosberg, J.A., et al.(2013b). Genomically recoded organisms expand biological functions. Science 342, 357-360.
4. Crick, F.H.(1963). On the genetic code. Science 139, 461-464.
5. Liu, C.C., Schultz, P.G. Adding new chemistries to the genetic code. Annu. Rev. Biochem. 79, 413-444(2010).
6. P. Marliere, The farther, the safer: a manifesto for securely navigating synthetic species away from the old living world. Syst. Synth. Biol. 3, 77-84(2009).
7. Mandell, D.J. et al., Biocontainment of genetically modified organisms by synthetic protein design. Nature. 518, 55-60(2015).
8. Rovner, A.J. et al., Recoded organisms engineered to depend on synthetic amino acids. Nature. 518, 89-93(2015).
9. A. Ambrogelly, S. Palioura, D. Soll, Natural expansion of the genetic code. Nat. Chem. Biol. 3, 29-35(2007).
10. A. Kano, Y. Andachi, T. Ohama, S. Osawa, Novel anticodon composition of transfer RNAs in Micrococcus luteus, a bacterium with a high genomic G + C content. Correlation with codon usage. J. Mol. Biol. 221, 387-401(1991).
11. T. Oba, Y. Andachi, A. Muto, S. Osawa, CGG: an unassigned or nonsense codon in Mycoplasma capricolum. Proc. Natl. Acad. Sci. U. S. A. 88, 921-925(1991).
12. G. Macino, G. Coruzzi, F. G. Nobrega, M. Li, A. Tzagoloff, Use of the UGA terminator as a tryptophan codon in yeast mitochondria. Proc. Natl. Acad. Sci. U. S. A. 76, 3784-3785(1979).
13. J. Ling, P. O’Donoghue, D. Soll, Genetic code flexibility in microorganisms: novel mechanisms and impact on physiology. Nat. Rev. Microbiol. 13, 707-721(2015).
14. K. J. Blight, A. A. Kolykhalov, C. M. Rice, Efficient initiation of HCV RNA replication in cell culture. Science. 290, 1972-1974(2000).
15. J. Cello, A. V. Paul, E. Wimmer, Chemical synthesis of poliovirus cDNA: generation of infectious virus in the absence of natural template. Science. 297, 1016-1018(2002).
16. H. O. Smith, C. A. Hutchison, C. Pfannkoch, J. C. Venter, Generating a synthetic genome by whole genome assembly: φX174 bacteriophage from synthetic oligonucleotides. Proceedings of the National Academy of Sciences. 100, 15440-15445(2003).
17. L. Y. Chan, S. Kosuri, D. Endy, Refactoring bacteriophage T7. Mol. Syst. Biol. 1, 2005.0018(2005).
18. D. G. Gibson et al., Complete chemical synthesis, assembly, and cloning of a Mycoplasma genitalium genome. Science. 319, 1215-1220(2008).
19. N. Annaluru et al., Total synthesis of a functional designer eukaryotic chromosome. Science. 344, 55-58(2014).
20. G. Kudla, A. W. Murray, D. Tollervey, J. B. Plotkin, Coding-sequence determinants of gene expression in Escherichia coli. Science. 324, 255-258(2009).
21. T. Tuller, Y. Y. Waldman, M. Kupiec, E. Ruppin, Translation efficiency is determined by both codon bias and folding energy. Proc. Natl. Acad. Sci. U. S. A. 107, 3645-3650(2010).
22. J. B. Plotkin, G. Kudla, Synonymous but not the same: the causes and consequences of codon bias. Nat. Rev. Genet. 12, 32-42(2011).
23. D. B. Goodman, G. M. Church, S. Kosuri, Causes and effects of N-terminal codon bias in bacterial genes. Science. 342, 475-479(2013).
24. M. Zhou et al., Non-optimal codon usage affects expression, structure and function of clock protein FRQ. Nature. 495, 111-115(2013).
25. T. E. F. Quax, N. J. Claassens, D. Soll, J. van der Oost, Codon Bias as a Means to Fine-Tune Gene Expression. Mol. Cell. 59, 149-161(2015).
26. G. Boel et al., Codon influence on protein expression in E. coli correlates with mRNA levels. Nature. 529, 358-363(2016).
27. F. J. Isaacs et al., Precise manipulation of chromosomes in vivo enables genome-wide codon replacement. Science. 333, 348-353(2011).
28. H. H. Wang et al., Programming cells by multiplex genome engineering and accelerated evolution. Nature. 460, 894-898(2009).
29. K. M. Esvelt et al., Orthogonal Cas9 proteins for RNA-guided gene regulation and editing. Nat. Methods. 10, 1116-1121(2013).
30. G. Posfai et al., Emergent properties of reduced-genome Escherichia coli. Science. 312, 1044-1046(2006).
31. K. Temme, D. Zhao, C. A. Voigt, Refactoring the nitrogen fixation gene cluster from Klebsiella oxytoca. Proc. Natl. Acad. Sci. U. S. A. 109, 7085-7090(2012).
32. A. H. Yona et al., tRNA genes rapidly change in evolution to meet novel translational demands. Elife. 2, e01339(2013).
33. Y. Yamazaki, H. Niki, J.-I. Kato, in Microbial Gene Essentiality: Protocols and Bioinformatics, A. L. Osterman, S. Y. Gerdes, Eds.(Humana Press, Totowa, NJ, 2008), vol. 416 of Methods in Molecular BiologyTM, pp. 385-389.
34. S. Anders, W. Huber, Differential expression analysis for sequence count data. Genome Biol. 11, R106(2010).
35. S. Osawa, T. H. Jukes, Codon reassignment(codon capture) in evolution. J. Mol. Evol. 28, 271-278(1989).
36. H. M. Salis, The ribosome binding site calculator. Methods Enzymol. 498, 19-42(2011).
37. T. Conway et al., Unprecedented high-resolution view of bacterial operon architecture revealed by RNA sequencing. MBio. 5, e01442-14(2014).
38. C. J. Gregg et al., Rational optimization of tolC as a powerful dual selectable marker for genome engineering. Nucleic Acids Res. 42, 4779-4790(2014).
39. K. A. Datsenko, B. L. Wanner, One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proc. Natl. Acad. Sci. U. S. A. 97, 6640-6645(2000).
40. A. Haldimann, B. L. Wanner, Conditional-replication, integration, excision, and retrieval plasmid-host systems for gene structure-function studies of bacteria. J. Bacteriol. 183, 6384-6393(2001).
41. D. E. Deatherage, J. E. Barrick, Identification of mutations in laboratory-evolved microbes from next-generation sequencing data using breseq. Methods Mol. Biol. 1151, 165-188(2014).
42. H. Li, R. Durbin, Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics. 25, 1754-1760(2009a).
43. H. Li et al., The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25, 2078-2079(2009b).
44. S. Anders, W. Huber, Differential expression analysis for sequence count data. Genome Biol. 11, R106(2010).
45. Carr PA, et al.(2012) Enhanced multiplex genome engineering through co-operative oligonucleotide co-selection. Nucleic Acids Res 40(17):e132
46. Lennox ES(1955) Transduction of linked genetic characters of the host by bacteriophage P1. Virology 1(2):190-206.
47. Schwartz SA & Helinski DR(1971) Purification and characterization of colicin E1. The Journal of biological chemistry 246(20):6318-6327.
48. Mosberg JA, Gregg CJ, Lajoie MJ, Wang HH, & Church GM(2012) Improving Lambda Red Genome Engineering in Escherichia coli via Rational Removal of Endogenous Nucleases. PLoS One (9):e44638.
49. Yaung SJ, Esvelt KM, & Church GM(2014) CRISPR/Cas9-mediated phage resistance is not impeded by the DNA modifications of phage T4. PLoS One 9(6):e98811.
50. Gibson DG, et al.(2009) Enzymatic assembly of DNA molecules up to several hundred kilobases. Nat Methods 6(5):343-345.
51. Baba T, et al.(2006) Construction of Escherichia coli K-12 in-frame, single-gene knockout mutants: the Keio collection. Mol Syst Biol 2:2006 0008.
52. Hashimoto M, et al.(2005) Cell size and nucleoid organization of engineered Escherichia coli cells with a reduced genome. Mol Microbiol 55(1):137-149.
53. Ellis HM, Yu D, DiTizio T, & Court DL(2001) High efficiency mutagenesis, repair, and engineering of chromosomal DNA using single-stranded oligonucleotides. Proc Natl Acad Sci U S A 98(12):6742-6746.
54. Markham NR & Zuker M(2008) UNAFold: software for nucleic acid folding and hybridization. Methods in molecular biology 453:3-31.
55. Rohland N & Reich D(2012) Cost-effective, high-throughput DNA sequencing libraries for multiplexed target capture. Genome research 22(5):939-946.
56. Zadeh JN, et al.(2011) NUPACK: Analysis and design of nucleic acid systems. J Comput Chem 32(1):170-173.
57. Li GW, Oh E, & Weissman JS(2012) The anti-Shine-Dalgarno sequence drives translational pausing and codon choice in bacteria. Nature 484(7395):538-541.
58. Chen GF & Inouye M(1990) Suppression of the negative effect of minor arginine codons on gene expression; preferential usage of minor codons within the first 25 codons of the Escherichia coli genes. Nucleic Acids Res 18(6):1465-1473.
59. Rosenberg AH, Goldman E, Dunn JJ, Studier FW, & Zubay G(1993) Effects of consecutive AGG codons on translation in Escherichia coli, demonstrated with a versatile codon test system. J Bacteriol 175(3):716-722.
60. Spanjaard RA & van Duin J(1988) Translation of the sequence AGG-AGG yields 50% ribosomal frameshift. Proc Natl Acad Sci U S A 85(21):7967-7971.
61. Spanjaard RA, Chen K, Walker JR, & van Duin J(1990) Frameshift suppression at tandem AGA and AGG codons by cloned tRNA genes: assigning a codon to argU tRNA and T4 tRNA(Arg). Nucleic Acids Res 18(17):5031-5036.
62. Bonekamp F, Andersen HD, Christensen T, & Jensen KF(1985) Codon-defined ribosomal pausing in Escherichia coli detected by using the pyrE attenuator to probe the coupling between transcription and translation. Nucleic Acids Res 13(11):4113-4123.
63. Zeng Y, Wang W, & Liu WR(2014) Towards reassigning the rare AGG codon in Escherichia coli. Chembiochem : a European journal of chemical biology 15(12):1750-1754.
64. Yu D, et al.(2000) An efficient recombination system for chromosome engineering in Escherichia coli. Proc Natl Acad Sci U S A 97(11):5978-5983.
65. Lajoie MJ, Gregg CJ, Mosberg JA, Washington GC, & Church GM(2012) Manipulating replisome dynamics to enhance lambda Red-mediated multiplex genome engineering. Nucleic Acids Res 40(22):e170.
66. Curran JF(1993) Analysis of effects of tRNA:message stability on frameshift frequency at the Escherichia coli RF2 programmed frameshift site. Nucleic Acids Res 21(8):1837-1843.
67. Ohtake K, et al.(2012) Efficient decoding of the UAG triplet as a full-fledged sense codon enhances the growth of a prfA-deficient strain of Escherichia coli. I 194(10):2606-2613.
68. Craigen WJ, Cook RG, Tate WP, & Caskey CT(1985) Bacterial peptide chain release factors: conserved primary structure and possible frameshift regulation of release factor 2. Proc Natl Acad Sci U S A 82(11):3616-3620.
69. Goodman D, Kuznetsov, G., Lajoie, M., Ahern, B.,(2015) Millstone, a web based genome engineering and analysis software.
70. Novoa EM & Ribas de Pouplana L(2012) Speeding with control: codon usage, tRNAs, and ribosomes. Trends in genetics: TIG 28(11):574-581.
71. Novoa EM, Pavon-Eternod M, Pan T, & Ribas de Pouplana L(2012) A role for tRNA modifications in genome structure and codon usage. Cell 149(1):202-213.
72. Ikemura T(1985) Codon usage and tRNA content in unicellular and multicellular organisms. Mol Biol Evol 2(1):13-34.
73. Lajoie MJ, Soll D, & Church GM(2015) Overcoming challenges in engineering the genetic code. J Mol Biol.
74. N. R. Markham, M. Zuker, DINAMelt web server for nucleic acid melting prediction. Nucleic Acids Res. 33, W577-81(2005).
本開示に係る態様は以下の態様も含む。
<1> 計算プラットフォームによって実行されるゲノムのデザイン方法であって、
計算プラットフォームにおける入力として、既知のゲノムに関するデータ及び前記既知のゲノムにおいて置換される対立遺伝子のリストを受け取ること、
前記対立遺伝子のリストに基づいて、前記計算プラットフォームによって、前記既知のゲノムにおける各対立遺伝子の存在を検出すること、
前記計算プラットフォームによって、前記既知のゲノムから各対立遺伝子の存在を除去すること、
前記計算プラットフォームによって、前記既知のゲノムにおける各対立遺伝子の存在を置換するための複数の対立遺伝子選択肢を決定すること、
前記計算プラットフォームによって、前記既知のゲノムに基づいてゲノムデザインのための複数の代替遺伝子配列を生成すること、ここでそれぞれの代替遺伝子配列は前記複数の対立遺伝子選択肢から選択されるそれぞれ異なる対立遺伝子選択肢を含む、
前記計算プラットフォームによって、各規則、制約、条件、パラメータ、又は特徴についてのスコアをそれぞれの代替遺伝子配列に割り当てることによって、それぞれの代替遺伝子配列に対して複数の規則、制約、条件、パラメータ、又は特徴を当てはめて、それによりそれぞれの代替遺伝子配列に当てはめられた前記複数の規則、制約、条件、パラメータ、又は特徴についてのスコアを得ること、
前記計算プラットフォームによって、前記複数の規則、制約、条件、パラメータ、又は特徴についてのスコアの加重された組み合わせに基づいてそれぞれの代替遺伝子配列をスコア付けすること、及び
前記計算プラットフォームによって、前記加重スコア付けに基づいて、前記ゲノムデザインとして少なくとも1つの代替遺伝子配列を選択すること
を含む、前記方法。
<2> 前記既知のゲノム配列が野生型の大腸菌ゲノムを含む、<1>に記載の方法。
<3> 前記既知のゲノム配列が、以前に進化させたか又は遺伝子操作された株又は生物から得られる、<1>に記載の方法。
<4> 非必須遺伝子及び非コード配列のうち少なくとも一方について、含まれる全ての前記非必須遺伝子及び/又は非コード配列を前記既知のゲノムから除去することをさらに含む、<1>に記載の方法。
<5> 前記複数の対立遺伝子選択肢が、相互に排他的な対立遺伝子選択肢を含む、<1>に記載の方法。
<6> 前記複数の規則、制約、条件、パラメータ、又は特徴が、
前記ゲノムデザインにおいて1又は複数のリボソーム結合部位(RBS)様モチーフを保存すること、
前記ゲノムデザインのための禁止制限酵素サイトを除去すること、
前記既知のゲノムにおける遺伝子の5´mRNA二次構造を保存すること、
前記既知のゲノムにおけるRNA二次構造を保存すること、
前記ゲノムデザインにおける調節モチーフを保存すること
前記ゲノムデザインにおける既知の配列モチーフを保存すること
前記ゲノムデザインのための系統発生的保存を適用すること、及び
前記ゲノムデザインのためのGC要件を満たすこと
のうち少なくとも1つを含む、<1>に記載の方法。
<7> 前記各規則、制約、条件、パラメータ、又は特徴についてのスコアを割り当てることが、各規則、制約、条件、パラメータ、又は特徴を前記代替遺伝子配列及び元の対立遺伝子を有する参照遺伝子配列に適用することに基づく、<1>に記載の方法。
<8> 実験によるデータに基づいて、又は各スコアに対する加重の手動指定に基づいて、前記ゲノムデザインをスコア付けするための加重された組み合わせにおける各スコアに対する加重を調整することをさらに含む、<1>に記載の方法。
<9> 前記スコア付けが、スコアが高いほど前記複数の規則、制約、条件、パラメータ、又は特徴からの偏差が少ないことを示すスコアの割り当てにさらに基づく、<1>に記載の方法。
<10> 前記スコア付けが、スコアが低いほど前記複数の規則、制約、条件、パラメータ、又は特徴からの偏差が少ないことを示すスコアの割り当てにさらに基づく、<1>に記載の方法。
<11> 前記ゲノムデザインとして少なくとも1つの代替遺伝子配列を選択することが、どの代替遺伝子配列が所定の閾値を超える加重スコアを含むかを同定することに基づいて複数の代替遺伝子配列を選択することをさらに含む、<1>に記載の方法。
<12> どの代替遺伝子配列が所定の閾値を上回る加重スコアを含むかを同定したら、前記同定された代替遺伝子配列を個々に又は混合されたものとして実験により試験することをさらに含む、<11>に記載の方法。
<13> 前記計算プラットフォームによって、前記ゲノムデザインを連続する複数のセグメントに分割することにより合成可能なDNAを同定することをさらに含み、各セグメントは所定の数の塩基を含む、<1>に記載の方法。
<14> 前記ゲノムデザインが、基準遺伝コードからの若干の改変を伴う遺伝コード、根本的に再定義された遺伝コード、新規の遺伝コード、又はコドンが非標準アミノ酸に対応する遺伝コードのうちの1つを含む、<1>に記載の方法。
<15> ゲノムデザインにおける規則を更新する方法であって、
ゲノムデザインの1又は複数の特徴を少なくとも1つの細胞に導入すること、
ゲノム生存率を同定し、前記少なくとも1つの細胞に導入された前記1又は複数の特徴の表現型を評価するために、アッセイによって前記少なくとも1つの細胞の前記1又は複数の特徴を試験すること、
前記試験に基づいて、前記少なくとも1つの細胞に導入された前記1又は複数の特徴が、前記ゲノムデザインのための1又は複数の所定の規則、制約、条件、パラメータ、又は特徴によれば実行可能又は不合格であると予測されると判定すること、及び
前記判定に基づいてゲノムデザインのための前記所定の規則、制約、条件、パラメータ、又は特徴を更新することを含む、前記方法。
<16> 前記所定の規則、制約、条件、パラメータ、又は特徴を更新することが、統計的技術及び機械学習アルゴリズムにさらに基づく、<15>に記載の方法。
<17> 前記ゲノムデザインの1又は複数の特徴を、DNA切断を用いて前記少なくとも1つの細胞に導入し、野生型遺伝子型に対して選択すること及び相同組換えを促進することの少なくとも1つを行う、<15>に記載の方法。
<18> 前記ゲノムデザインの前記1又は複数の特徴が、リコンビナーゼ又はインテグラーゼを用いて前記少なくとも1つの細胞に導入される、<15>に記載の方法。
<19> 前記ゲノムデザインの前記1又は複数の特徴を前記少なくとも1つの細胞に導入することが、前記ゲノムデザインに基づいて部分ゲノム又は全ゲノムを合成することをさらに含む、<15>に記載の方法。
<20> キネティックプレートリーダーを用いた増殖アッセイによって前記1又は複数の特徴を試験すること、をさらに含む、<15>に記載の方法。
<21> タンパク質産生を試験するためのアッセイによって前記1又は複数の特徴を試験することをさらに含む、<15>に記載の方法。
<22> ゲノムデザインのための前記1又は複数の所定の規則、制約、条件、パラメータ、又は特徴が、表現型のパラメータ及び遺伝子型のパラメータの1又は複数を含む、<15>に記載の方法。
<23> 所定の時点で前記細胞の集団の代表的な部分を配列決定することによって前記1又は複数の特徴を試験することをさらに含む、<15>に記載の方法。
<24> ゲノムデザインを試験するためのコンピュータにより実行される方法であって、
既知のゲノム配列及び計算プラットフォームによって生成されたゲノムデザインの全部又は一部を取得すること、
前記ゲノムデザインにおける1又は複数の特徴は、所定の規則、制約、条件、パラメータ、又は特徴のセットについて不合格であると決定すること、
所定のデザイン目的を達成して生存可能性を高める前記ゲノムデザインに対する改変を予測すること、及び
改良されたゲノムデザインを生成するために前記予測された改変を試験することを含む、前記方法。
<25> 前記決定工程が、前記ゲノムデザインにおける個々の変異を並行して試験することをさらに含む、<24>に記載の方法。
<26> 前記決定工程が、前記計算プラットフォームで前記既知のゲノム配列のサンプルを分析することをさらに含む、<24>に記載の方法。
<27> 前記ゲノムデザインについての前記予測された改変が混合されたものとして試験される、<24>に記載の方法。
<28> 前記ゲノムデザインのための前記予測された改変が遺伝的多様性及び選択を用いて試験される、<24>に記載の方法。
<29> 前記所定の規則、制約、条件、パラメータ、又は特徴のセットが、1又は複数の表現型及び遺伝子型のパラメータを含む、<24>に記載の方法。
<30> 再コード化されたゲノムを含む遺伝子操作生物であって、1つの特定のセンスコドンが、鋳型ゲノム中のある1つの遺伝子又は非コードモチーフ内における全ての出現箇所で代替コドンに変更されている、前記遺伝子操作生物。
<31> 前記遺伝子が、タンパク質配列をコードする必須遺伝子又は非必須遺伝子である、<30>に記載の遺伝子操作生物。
<32> 特定のセンスコドンは非コードモチーフと重複する出現箇所を有する、<30>に記載の遺伝子操作生物。
<33> 前記非コードモチーフが、リボソーム結合部位モチーフ、mRNA二次構造、内部リボソーム休止部位モチーフ、又はプロモーターである、<30>に記載の遺伝子操作生物。
<34> 前記タンパク質配列が保存されている、<31>に記載の遺伝子操作生物。
<35> 前記非コードモチーフが保存されている、<30>に記載の遺伝子操作生物。
<36> 前記特定のセンスコドンが、AGG、AGA、AGC、AGU、UUG、及びUUAからなる群より選択される、<30>に記載の遺伝子操作生物。
<37> 前記遺伝子操作生物が大腸菌である、<30>に記載の遺伝子操作生物。
<38> 前記遺伝子操作生物がウイルス抵抗性であるか又は生物学的に封じ込められている、<30>に記載の遺伝子操作生物。
<39> 前記特定のセンスコドンに対する同族tRNAが前記鋳型ゲノムから除去されている、<30>に記載の遺伝子操作生物。
<40> 前記特定のセンスコドンに対する同族tRNAが前記再コード化されたゲノムには存在しない、<30>に記載の遺伝子操作生物。
<41> 前記特定のセンスコドンが、前記遺伝子操作生物内に配置され、非標準アミノ酸に再割り当てされている、<30>に記載の遺伝子操作生物。
<42> 前記代替コドンが同義コドンである、<30>に記載の遺伝子操作生物。
<43> 前記代替コドンが非同義コドンである、<30>に記載の遺伝子操作生物。
<44> 再コード化されたゲノムを含む遺伝子操作生物であって、1つの特定のセンスコドンが、鋳型ゲノム中の複数の遺伝子又は非コードモチーフ内における全ての出現箇所で代替コドンに変更されている、前記遺伝子操作生物。
<45> 鋳型ゲノム中の1つの特定のセンスコドンが、ゲノム全体で代替コドンに変更されている再コード化されたゲノムを含む、遺伝子操作生物。
<46> 再コード化されたゲノムを含む遺伝子操作生物であって、複数の特定のセンスコドンが、鋳型ゲノム中のある1つの必須遺伝子内における全ての出現箇所で代替コドンに変更されている、前記遺伝子操作生物。
<47> 再コード化されたゲノムを含む遺伝子操作生物であって、複数の特定のセンスコドンが、鋳型ゲノム中の複数の必須遺伝子内における全ての出現箇所で代替コドンに変更されている、前記遺伝子操作生物。
<48> 再コード化されたゲノムを含む遺伝子操作生物であって、鋳型ゲノム中の複数の特定のセンスコドンがゲノム全体で代替コドンに変更されている、前記遺伝子操作生物。
<49> <1>に記載の方法によってデザインされた再コード化されたゲノムを含む、遺伝子操作生物。
<50> 再コード化されたゲノムを含む遺伝子操作生物であって、ある1つの特定のセンスコドンの複数の出現箇所が複数の代替コドンに変更されて、前記特定のセンスコドンに対する同族tRNAを前記遺伝子操作生物から除去可能となっている、前記遺伝子操作生物。
<51> 再コード化されたゲノムを含む遺伝子操作生物であって、ある1つの特定のセンスコドンの複数の出現箇所が複数の代替コドンに変更されて、前記特定のセンスコドンの翻訳機能を変更可能となっている、前記遺伝子操作生物。
<52> 再コード化されたゲノムを含む遺伝子操作生物であって、ある1つの特定のセンスコドンの複数の出現箇所が複数の代替コドンに変更されて、前記特定のセンスコドンの翻訳機能を除去可能となっている、前記遺伝子操作生物。

Claims (12)

  1. 計算プラットフォームによって実行されるゲノムのデザイン方法であって、
    計算プラットフォームにおける入力として、既知のゲノムに関する配列データ及び前記既知のゲノムにおいて置換される対立遺伝子のリストを受け取ること、
    前記対立遺伝子のリストに基づいて、前記計算プラットフォームによって、前記既知のゲノムにおける各対立遺伝子の存在を検出すること、
    前記計算プラットフォームによって、前記既知のゲノムから各対立遺伝子の存在を除去すること、
    前記計算プラットフォームによって、前記既知のゲノムにおける各対立遺伝子の存在を置換するための複数の対立遺伝子選択肢を決定すること、
    前記計算プラットフォームによって、前記既知のゲノムに基づいてゲノムデザインのための複数の代替遺伝子配列を生成すること、ここでそれぞれの代替遺伝子配列は前記複数の対立遺伝子選択肢から選択されるそれぞれ異なる対立遺伝子選択肢を含む、
    前記計算プラットフォームによって、各規則、制約、条件、パラメータ、又は特徴についてのスコアをそれぞれの代替遺伝子配列に割り当てることによって、それぞれの代替遺伝子配列に対して複数の規則、制約、条件、パラメータ、又は特徴を当てはめて、それによりそれぞれの代替遺伝子配列に当てはめられた前記複数の規則、制約、条件、パラメータ、又は特徴についてのスコアを得ること、
    前記計算プラットフォームによって、前記複数の規則、制約、条件、パラメータ、又は特徴についてのスコアの加重された組み合わせに基づいてそれぞれの代替遺伝子配列をスコア付けすること、及び
    前記計算プラットフォームによって、前記加重スコア付けに基づいて、前記ゲノムデザインとして少なくとも1つの代替遺伝子配列を選択すること
    を含
    前記複数の規則、制約、条件、パラメータ、又は特徴が、
    前記ゲノムデザインにおいて1又は複数のリボソーム結合部位(RBS)様モチーフを保存すること、
    前記ゲノムデザインのための禁止制限酵素サイトを除去すること、
    前記既知のゲノムにおける遺伝子にコードされるmRNAの5´mRNA二次構造を保存すること、
    前記既知のゲノムにコードされるRNAのRNA二次構造を保存すること、
    前記ゲノムデザインにおける調節モチーフを保存すること
    前記ゲノムデザインのための系統発生的保存を適用すること、及び
    前記ゲノムデザインのためのGC要件を満たすこと
    のうち少なくとも1つを含む、
    前記方法。
  2. 前記既知のゲノムが野生型の大腸菌ゲノムを含む、請求項1に記載の方法。
  3. 前記既知のゲノムが、以前に進化させたか又は遺伝子操作された又は生物から得られる、請求項1に記載の方法。
  4. 非必須遺伝子及び非コード配列のうち少なくとも一方について、含まれる全ての前記非必須遺伝子及び/又は非コード配列を前記既知のゲノムから除去することをさらに含む、請求項1に記載の方法。
  5. 前記各規則、制約、条件、パラメータ、又は特徴についてのスコアを割り当てることが、各規則、制約、条件、パラメータ、又は特徴を前記代替遺伝子配列及び元の対立遺伝子を有する参照遺伝子配列に適用することに基づく、請求項1に記載の方法。
  6. 実験によるデータに基づいて、又は各スコアに対する加重の手動指定に基づいて、前記ゲノムデザインをスコア付けするための加重された組み合わせにおける各スコアに対する加重を調整することをさらに含む、請求項1に記載の方法。
  7. 前記スコア付けが、スコアが高いほど前記複数の規則、制約、条件、パラメータ、又は特徴からの偏差が少ないことを示すスコアの割り当てにさらに基づく、請求項1に記載の方法。
  8. 前記スコア付けが、スコアが低いほど前記複数の規則、制約、条件、パラメータ、又は特徴からの偏差が少ないことを示すスコアの割り当てにさらに基づく、請求項1に記載の方法。
  9. 前記ゲノムデザインとして少なくとも1つの代替遺伝子配列を選択することが、どの代替遺伝子配列が所定の閾値を超える加重スコアを含むかを同定することに基づいて複数の代替遺伝子配列を選択することをさらに含む、請求項1に記載の方法。
  10. どの代替遺伝子配列が所定の閾値を上回る加重スコアを含むかを同定したら、前記同定された代替遺伝子配列を個々に又は混合されたものとして少なくとも1つの細胞に導入し、前記少なくとも1つの細胞の生存率を試験することをさらに含む、請求項に記載の方法。
  11. それぞれの代替遺伝子配列をスコア付けした後に、前記方法は、前記計算プラットフォームによって、前記ゲノムデザインを連続する複数のセグメントに分割することにより合成可能なDNAを同定することをさらに含み、各セグメントは所定の数の塩基を含む、請求項1に記載の方法。
  12. 前記ゲノムデザインが、基準遺伝コードからの若干の改変を伴う遺伝コード、根本的に再定義された遺伝コード、新規の遺伝コード、又はコドンが非標準アミノ酸に対応する遺伝コードのうちの1つを含む、請求項1に記載の方法。
JP2018566278A 2016-06-15 2017-06-15 規則に基づいたゲノムデザイン方法 Active JP7062861B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021203678A JP2022046554A (ja) 2016-06-15 2021-12-15 規則に基づいたゲノムデザイン方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662350468P 2016-06-15 2016-06-15
US62/350,468 2016-06-15
PCT/US2017/037596 WO2017218727A1 (en) 2016-06-15 2017-06-15 Methods for rule-based genome design

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021203678A Division JP2022046554A (ja) 2016-06-15 2021-12-15 規則に基づいたゲノムデザイン方法

Publications (3)

Publication Number Publication Date
JP2019519233A JP2019519233A (ja) 2019-07-11
JP2019519233A5 JP2019519233A5 (ja) 2020-07-30
JP7062861B2 true JP7062861B2 (ja) 2022-05-09

Family

ID=60664525

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018566278A Active JP7062861B2 (ja) 2016-06-15 2017-06-15 規則に基づいたゲノムデザイン方法
JP2021203678A Pending JP2022046554A (ja) 2016-06-15 2021-12-15 規則に基づいたゲノムデザイン方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021203678A Pending JP2022046554A (ja) 2016-06-15 2021-12-15 規則に基づいたゲノムデザイン方法

Country Status (6)

Country Link
US (2) US11361845B2 (ja)
EP (2) EP3472319B1 (ja)
JP (2) JP7062861B2 (ja)
CN (1) CN109997192A (ja)
CA (1) CA3027882A1 (ja)
WO (1) WO2017218727A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10526598B2 (en) * 2018-04-24 2020-01-07 Inscripta, Inc. Methods for identifying T-cell receptor antigens
WO2021022046A1 (en) * 2019-07-31 2021-02-04 Bioskryb, Inc. Genetic mutational analysis
CN110322927B (zh) * 2019-08-02 2021-04-09 中南大学 一种crispr诱导rna文库设计方法
US20210317444A1 (en) * 2020-04-08 2021-10-14 Inscripta, Inc. System and method for gene editing cassette design
CN111560343B (zh) * 2020-06-02 2021-02-09 中央民族大学 一种多细胞信号大小比较器以及比较方法和应用
USD964420S1 (en) * 2020-06-15 2022-09-20 Brain Technologies, Inc. Display panel of a programmed computer system with a graphical user interface
USD966329S1 (en) * 2020-06-15 2022-10-11 Brain Technologies, Inc. Display panel of a programmed computer system with a graphical user interface
WO2022235417A1 (en) * 2021-05-01 2022-11-10 John Mcdevitt System and method for improved carbon sequestration by means of improved genetic modification of algae
US20230274791A1 (en) * 2021-11-29 2023-08-31 The Chinese University Of Hong Kong Codon de-optimization or optimization using genetic architecture
WO2023141464A1 (en) * 2022-01-18 2023-07-27 AgBiome, Inc. Method for designing synthetic nucleotide sequences
CN114934059B (zh) * 2022-03-04 2023-02-21 深圳先进技术研究院 高通量简化噬菌体基因组骨架的方法
WO2023178316A2 (en) * 2022-03-17 2023-09-21 Yale University Compositions and methods for expressing synthetic genetic elements across diverse microorganisms
CN116072231B (zh) * 2022-10-17 2024-02-13 中国医学科学院病原生物学研究所 基于氨基酸序列的密码子优化设计mRNA疫苗的方法
CN116863998B (zh) * 2023-06-21 2024-04-05 扬州大学 一种基于遗传算法的全基因组预测方法及其应用
CN118038991A (zh) * 2024-04-12 2024-05-14 宁波甬恒瑶瑶智能科技有限公司 基因序列处理方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070004041A1 (en) 2005-06-30 2007-01-04 Codon Devices, Inc. Heirarchical assembly methods for genome engineering
US20110172930A1 (en) 2008-09-19 2011-07-14 University Of Pittsburgh - Of The Commonwealth System Of Higher Education DISCOVERY OF t-HOMOLOGY IN A SET OF SEQUENCES AND PRODUCTION OF LISTS OF t-HOMOLOGOUS SEQUENCES WITH PREDEFINED PROPERTIES

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1272967A2 (en) * 2000-03-30 2003-01-08 Maxygen, Inc. In silico cross-over site selection
WO2002029032A2 (en) * 2000-09-30 2002-04-11 Diversa Corporation Whole cell engineering by mutagenizing a substantial portion of a starting genome, combining mutations, and optionally repeating
US9274101B2 (en) 2001-04-20 2016-03-01 Biolog, Inc. Methods and kits for obtaining a metabolic profile of living animal cells
BRPI0809600B1 (pt) 2007-03-30 2023-01-24 The Research Foundation Of State University Of New York Vírus atenuado útil para vacinas
EP3243937A1 (en) * 2012-07-17 2017-11-15 Counsyl, Inc. System and methods for detecting genetic variation
AU2015206538A1 (en) * 2014-01-14 2016-07-14 Fabric Genomics, Inc. Methods and systems for genome analysis
WO2016073079A2 (en) * 2014-09-26 2016-05-12 Yale University Compositions and methods for biocontainment of microorganisms

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070004041A1 (en) 2005-06-30 2007-01-04 Codon Devices, Inc. Heirarchical assembly methods for genome engineering
US20110172930A1 (en) 2008-09-19 2011-07-14 University Of Pittsburgh - Of The Commonwealth System Of Higher Education DISCOVERY OF t-HOMOLOGY IN A SET OF SEQUENCES AND PRODUCTION OF LISTS OF t-HOMOLOGOUS SEQUENCES WITH PREDEFINED PROPERTIES

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Millstone,https://web.archive.org/web/20160514082157/http://churchlab.github.io/millstone/
Nucleic Acids Res.,2014年05月16日,Vol.42(Web Server issue),pp.W408-W415
Science,2013年10月18日,Vol.342, No.6156,pp.357-360

Also Published As

Publication number Publication date
US11361845B2 (en) 2022-06-14
EP3472319B1 (en) 2024-03-27
WO2017218727A1 (en) 2017-12-21
JP2022046554A (ja) 2022-03-23
US20220246240A1 (en) 2022-08-04
EP4386087A2 (en) 2024-06-19
CA3027882A1 (en) 2017-12-21
EP3472319A4 (en) 2020-01-01
JP2019519233A (ja) 2019-07-11
US20200055903A1 (en) 2020-02-20
EP3472319A1 (en) 2019-04-24
CN109997192A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
JP7062861B2 (ja) 規則に基づいたゲノムデザイン方法
Garst et al. Genome-wide mapping of mutations at single-nucleotide resolution for protein, metabolic and genome engineering
Roy et al. Multiplexed precision genome editing with trackable genomic barcodes in yeast
US10711284B2 (en) CRISPR enabled multiplexed genome engineering
EP3491127B1 (en) Genome editing
Szamecz et al. The genomic landscape of compensatory evolution
Pines et al. Bacterial recombineering: genome engineering via phage-based homologous recombination
Napolitano et al. Emergent rules for codon choice elucidated by editing rare arginine codons in Escherichia coli
Wannier et al. Recombineering and MAGE
Hollister et al. Genetic adaptation associated with genome-doubling in autotetraploid Arabidopsis arenosa
US20180127759A1 (en) Dynamic genome engineering
Rouzic et al. Population genetics models of competition between transposable element subfamilies
DiCarlo et al. RNA-guided gene drives can efficiently and reversibly bias inheritance in wild yeast
JP2022537477A (ja) 機能的エレメントの同定方法
Swings et al. CRISPR-FRT targets shared sites in a knock-out collection for off-the-shelf genome editing
Faber et al. Saturation mutagenesis genome engineering of infective φx174 bacteriophage via unamplified oligo pools and golden gate assembly
Teufel et al. A multifunctional system for genome editing and large-scale interspecies gene transfer
Kosterlitz et al. Evolutionary “crowdsourcing”: alignment of fitness landscapes allows for cross-species adaptation of a horizontally transferred gene
Tominaga et al. Liquid-based iterative recombineering method tolerant to counter-selection escapes
Kempher et al. Effects of genetic and physiological divergence on the evolution of a sulfate-reducing bacterium under conditions of elevated temperature
diCenzo et al. Techniques for large-scale bacterial genome manipulation and characterization of the mutants with respect to in silico metabolic reconstructions
Wasser et al. Characterization of non-selected intermolecular gene conversion in the polyploid haloarchaeon haloferax volcanii
TWI618795B (zh) 用於增加突變率之dna序列及突變插入序列
Landon Genetic Engineering Toward a 57-Codon Genome
Balikó et al. Rational efforts to streamline the escherichia coli genome

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200615

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210914

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20211215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220330

R150 Certificate of patent or registration of utility model

Ref document number: 7062861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150