JP2017525339A - 1又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム - Google Patents

1又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP2017525339A
JP2017525339A JP2016574372A JP2016574372A JP2017525339A JP 2017525339 A JP2017525339 A JP 2017525339A JP 2016574372 A JP2016574372 A JP 2016574372A JP 2016574372 A JP2016574372 A JP 2016574372A JP 2017525339 A JP2017525339 A JP 2017525339A
Authority
JP
Japan
Prior art keywords
dna
genome
chromosome
biological sample
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016574372A
Other languages
English (en)
Inventor
コスズル ロマン
コスズル ロマン
マルブーティ マルシアル
マルブーティ マルシアル
ドミニク マリー−ネリー エルベ
ドミニク マリー−ネリー エルベ
クルナック アクセル
クルナック アクセル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institut Pasteur de Lille
Original Assignee
Institut Pasteur de Lille
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institut Pasteur de Lille filed Critical Institut Pasteur de Lille
Publication of JP2017525339A publication Critical patent/JP2017525339A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Organic Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本発明は、連続したヌクレオチド鎖を含むDNAフラグメントを含み、かつ、少なくとも2つの連続したヌクレオチド鎖の組み合わせを含むDNAフラグメントを含むライブラリのDNAフラグメントを表す未処理のサブ配列のセットから、少なくとも1つの染色体の断片を表す配列をアセンブルすることに関する。DNA領域間の接触頻度を表す第1の値を得た後、第1の値が、対応するDNA領域間の距離を表す第2の値と関連付けられ、以下の工程が反復して実施される:−第1及び第2の値に基づき、かつ、DNA領域間の接触確率と対応するDNA領域間の距離とを関連付ける理論的モデルに基づいて、ゲノム構造を更新する工程であり、更新されたゲノム構造が染色体の実際のゲノム構造を表す、工程;及び、−更新されたゲノム構造の関数として理論モデルのパラメータを更新する工程。

Description

発明の分野
本発明は、一般に、ゲノムアセンブリの分野に関する。より詳細には、本発明は、ハイスループット配列決定と組み合わせた染色体コンフォメーションキャプチャを用いて、1又は複数の生物の1又は複数のゲノムをアセンブルするための方法、装置、及びコンピュータプログラムに関する。
微生物群集は、環境の安定性及び健康な生物の維持において基本的なものである。微生物の種は、もともと個別に研究されており、農業、医学、又は汚染防止の分野で数多くの技術開発につながってきた。技術の進歩のおかげで、メタゲノムアプローチを介し、複雑さにおける(例えば、1gの土壌に10万種以上、又は人体に数十億個の微生物が共存する)微生物群集を研究することが今や可能である。
メタゲノム研究は、主に、皮膚、深海(abysses)、腸、土壌、水などの様々な環境より直接採取された微生物群集から直接抽出された遺伝物質を収集、配列決定及び分析することから構成されている。ベクターにクローニングすることができる何百万ものDNA(デオキシリボ核酸)分子が、数十万もの異なる種をカバーすることができるライブラリを構成する。そのようなライブラリのインシリコ(in silico)及び実験的分析は、新しい遺伝子や酵素、新しいネットワーク、潜在的な新種(まだ地球上に発見されていない1000万種以上の種)の発見へとつながる。
この新しいアプローチは、現在、世界の我々の理解に革命をもたらしているだけでなく、医療、エネルギー、農業経済学の分野において最も顕著に産業応用を促進しようとしている。多くの企業が、この未知の微生物の多様性の膨大な資源を掘り起こし始めている一方、いくつかの機関やアカデミーはこの新しい分野の将来について大きな展望を予測している。シークエンシングの深さ、読み取りの長さ、及び品質の急速な改善が、メタポピュレーション内の比較的少ない種のゲノムの特徴づけをもたらした。
しかしながら、微生物集団のメタゲノム分析は、コンティグをプールし、個々の種の巨大な染色体領域のスキャフォールドをアセンブルすることが困難であるために制限が存在したままであり、そのため、それらのゲノムに含まれる情報の完全な利用を損なっている。
ゲノム配列決定は、DNA分子内のヌクレオチドの順序を決定することを目的とする。DNA分子は、互いに絡み合って二重らせんを形成する2つの生体高分子鎖からなる。この分子の各鎖は、ヌクレオチドと呼ばれる基本単位のポリマーである。ヌクレオチドは、環状塩基(グアニン−G、アデニン−A、チミン−T、又はシトシン−C)、環状糖(デオキシリボース)及びリン酸基の3つの異なる部分から構成される。DNA分子において、ヌクレオチドは、1つのヌクレオチドの糖とその隣のヌクレオチドのリン酸との間の共有結合によって鎖中互いに結合し、交互に糖リン酸骨格を生じる。塩基対形成の規則(AとT及びCとG)に従い、水素が2つの別々のポリヌクレオチド鎖の窒素塩基を結合して二本鎖DNAを作る。
生物学的研究に対して、及び診断、バイオテクノロジー、法医学生物学、生物学系(biological systematics)などの多くの応用分野において、DNA配列(すなわち4つの環状塩基の連続した順序)を知ることは不可欠である。染色体は典型的には数百万対のヌクレオチド対を含むために、DNAシーケンサーのスループット性は、診断のような多くの実際的な用途にとって重要な要素である。
大量のDNA配列決定法は、典型的には、数百塩基対以下の配列(すなわち、読み取り(reads))を生成する。従って、完全なゲノムを配列決定する前に、それをより小さなDNAフラグメントにせん断する必要がある。これらの断片は、ヌクレオチドの対応する順序を決定するために、少なくとも部分的に個々に配列決定される。これらのDNAフラグメントのごく一部のみを配列決定することができる(約100〜200bp)。2つの読み取りを得るペアエンド配列決定(paired end sequencing)を用いて、DNAフラグメントの両末端の配列決定を行うことが可能であることに留意されたい。次に、得られた短い配列は、研究されたゲノムの全体的な配列を提供するために再アセンブリされなければならない。
よく知られているショットガンシーケンシング法によれば、ゲノムは生物から抽出され、小さなDNAフラグメントに切断される。次に、DNAフラグメントを配列決定し、読み取り結果を、重複配列の完全な類似性に基づいてお互いに組み換え、コンティグと呼ばれる既知の配列のDNA部分を形成する。
図1a、1b、及び1cを含む図1は、コンティグを形成するために何百万もの読み取りを組み合わせて、フラグメントを再構築するためのプロセスを概略的に示す。
図1aに示すように、DNAフラグメント100は、塩基対(bp)を形成するヌクレオチド、例えば、配列「ACTCTAATT」及び「TGAGATTAA」のペアを含む、2つのポリマー鎖110−1及び110−2を含む。上記のように、DNAフラグメント100は、各末端から内向きにのみ配列決定され得る(矢印105−1及び105−2)。
DNAフラグメント100のようなDNAフラグメントは、典型的には、120−1及び120−2で終わる短いライン115で表され、DNAフラグメントの配列決定された部分、すなわち読み取りがより厚いことを表す。
図1bは、DNAフラグメント125をアセンブルされた領域130にアセンブルするプロセスを示す。そのために、読み取りを分析し、ヌクレオチドの共通鎖を決定するために互いに比較する。2つのDNAフラグメントが同じヌクレオチド鎖を含む場合、それらは、図示されるように、DNAフラグメントにおけるその鎖の相対位置の関数(function)として整列される。
次に、整列したDNAフラグメントは、コンティグ、すなわちDNA染色体の断片を形成するためにアセンブルされ得る。どのような読み取りにも対応していない部分が存在し、アセンブルした領域中にギャップ、例えばギャップ135を形成することがあることに留意されたい。
言い換えれば、ゲノムは、重複して一致するヌクレオチドの配列の関数としてDNAフラグメントからアセンブルされる。
図1cは、参照150−1及び150−2で示されるように、参照ゲノム145に対する短い読み取りを整列させることによって、アセンブルされた領域又はコンティグ140が再度配列決定される、再配列決定プロセスを示す。
このような読み取りの分析は、一般に、アセンブリアルゴリズムによってフラグメントをアセンブルするためにコンピュータ上で再帰的に実行される。説明のために、IDBA−UDの名前で知られているアルゴリズムによって実施することができる(例えば、Bioinformatics,2012,Jun 1;28(11):1420−8.doi:10.1093/bioinformatics/bts174.Epub 2012,April 11,IDBA−UD:a de novo assembler for single−cell and metagenomic sequencing data with highly uneven depth.Peng Y,Leung HC,Yiu SM,Chin FYを参照のこと)。
アセンブリアルゴリズムを実装するプログラムと組み合わせたショットガンシーケンシング法は、数百万の読み取りを分析し、再アセンブルを行い、典型的には30,000塩基対までを含むコンティグを得ることができる。
しかしながら、この方法は効率的であり得るが、それは、アセンブル工程間に曖昧さ(ambiguities)を導入して、不完全なアセンブリを残したゲノムの広範な反復部分により、制限を包含している。
アセンブリ効率を改善するために、DNAの空間的構造を使用することができる。実際に、DNAループから得られるフラグメント間で観察された接触と組み合わせたDNAの空間的構造の理論的情報は、コンティグ間の矛盾/曖昧さを解消するために、又はDNA配列中の近接したギャップを救済するために使用され得る。
例えば、2つのフラグメントが空間的に互いに近接していると決定することにより、これらのフラグメントを得たDNA繊維に沿って、これらの断片が互いに近接していると結論づけることができる。これは、主としてポリマー物理学(染色体は、小さなゲノム分離のために頻繁にループする半柔軟性ポリマー鎖である)に起因する。
DNAの2つの部分が空間的に近接していることを決定することは、染色体コンフォメーションキャプチャ(3C)技術を用いることで実施できる。
3C技術及びその後のゲノム変異体(例えば、4C、5C及びHi−C)は、染色体の構造を分析するために使用される。
図2a〜図2fを含む、図2は、Hi−C技術の主な工程を概略的に示す。
図2aに示すように、第1工程は、互いに近接しているDNA部分、例えば、部分200−1及び200−2を架橋することに関する。これは、DNAの一部をタンパク質、例えばタンパク質205に架橋するため、及びタンパク質を相互に架橋するためにホルムアルデヒドを使用して行うことができる。これは、接触しているDNAの架橋部分をもたらす。
次に、第2工程として、架橋DNAフラグメントは、制限酵素を用いて断片化される。従って、図2bに示すように、フラグメント210−1及び210−2は、それぞれ、部分200−1及び200−2の断片化から生じる。
第3工程は、(例えば、キメラ分子の割合を増加させるように)平滑末端を生成する改変塩基、例えばビオチンを用いて、フラグメントオーバーハングを充填することを目的とする。図2cに示されるように、断片210−2の末端は、平滑末端を生成する材料215−1及び215−2で充填され、連結フラグメントの免疫沈降を可能にする。
図2dに示す次の工程では、DNAフラグメント末端が連結される。
次に、架橋は逆行され、DNAが精製される。図2eに示すように、DNAフラグメントはせん断され、ライゲーション接合部を含む断片が単離される。
最後に、図2fに示されるように、シーケンシングアダプターがDNA分子に加えられ、配列決定され得るライブラリを作製する。これらのフラグメントを配列決定することにより、染色体の空間的構造が理由で近接しているDNAの部分を同定することができる。
配列決定されたDNA断片の空間的構造の情報は、1つ又は複数の生物の異なる染色体に属するDNAの部分を同定するためにも使用され得る。
実際に、DNAの部分間の接触は、(同じ配列に属して接触するDNAの部分を考慮して)同じ配列に属するDNAの部分をクラスタ化するために使用することができると考えてもよい。
従って、単一の又は複数の生物に由来するいくつかの染色体の新規の(de novo)配列決定を実施するために、Hi−Cタイプの方法を用いる第1のライブラリと、ショットガンタイプの方法を使用する第2のライブラリとを生成し得る。
次に、第2のライブラリ(すなわち、ショットガンタイプ)によって生成されたコンティグは、第1のライブラリ(すなわち、HiCタイプ)に含まれる空間的な接触情報の関数としてクラスタ化され、コンティグをより大きなコンティググループに再グループ化する。
説明のために、表題「High−throughput genome scaffolding from in vivo DNA interaction frequency」(N.Kaplan et al.,Nature Biotechnology,vol.31,no.12,24 November 2013)及び「Chromosome−scale scaffolding of de novo genome assemblies based on chromatin interactions」(J. Burton et al.,Nature Biotechnology,vol.31,no.12,3 November 2013)に記載の方法は、主としてDNAフラグメントのプールを決定するためのクラスタ化工程及び相関性を識別する次の工程に基づいている。より正確には、第1の工程において、コンティグは、相互に高い接触頻度を共有するグループへとクラスタ化され、従って、同じ染色体に属する可能性が高い。第2の工程では、各グループ内のコンティグは、隣接するコンティグが高い接触頻度を有するように互いに再配列され、それによって染色体スキャフォールド(scaffold)を生成する。これらの手順によって得られた最終的なスキャフォールドは、単一染色体の真の線状構造を反映しているようである。
しかしながら、これらの方法にはいくつかの欠点がある。第一に、それらは重複を説明しない。特に、配列アセンブリ中に融合された反復領域は、これらのアプローチを用いることで解決することはできない。第二に、最初のクラスタ化工程における誤り(error)を、スキャフォールド形成(scaffolding)中に訂正することができず、最終ゲノムアセンブリ品質がクラスタ化精度に強く依存することになる。第三に、各アルゴリズムには固有の制限がある:第1のものは、スキャフォールドにコンティグを方向付けることを試みるものではなく、第2のものは、染色体の正確な数を含むいくつかのゲノム特異的パラメータを事前に指定する必要があり、それは、既に十分特徴付けられているゲノムに対しその適用を制限する。最後に、両方法は、入力する3Cデータの品質及び潜在的な曖昧さに関わらず、その信頼性に関する全体的又は安定的な確率情報を提供することなく、単一のゲノムアセンブリの結果を提案する。
これらの制約及び制限に直面し、本発明者らは、単一の生物又は混合した生物から、染色体断片のハイスループットアセンブリのための方法、装置、及びコンピュータプログラムを提供する。
本発明の広範な目的は、上記のような先行技術の欠点を改善することである。
本発明の第1の態様によれば、少なくとも1つのライブラリの全てのDNAフラグメントを表す未処理のサブ配列(raw sub−sequences)のセットに基づき、少なくとも1つの生物の少なくとも1つの染色体の少なくとも1つの断片(piece)を表す少なくとも1つの配列をアセンブルするために提供されるコンピュータ方法であって、少なくとも1つのライブラリが、少なくとも1つの染色体の連続したヌクレオチドの鎖を含むDNAフラグメントと、少なくとも1つの染色体の連続したヌクレオチドの少なくとも2つの鎖の組み合わせを含むDNAフラグメントとを含むものであり、該方法が、以下の工程:
−前記少なくとも1つの染色体のDNA領域間の接触頻度を表す第1の値を取得する工程であり、ここで前記第1の値が、対応するDNA領域間の距離を表す第2の値と関連づけられる、工程;及び
−反復的に以下の工程を実行する工程:
−前記第1及び第2の値に基づき、かつ、DNA領域間の接触確率と、対応するDNA領域間の距離とを関連付ける理論モデルに基づいて、ゲノム構造を更新する工程であり、更新されたゲノム構造が、前記少なくとも1つの生物の前記少なくとも1つの染色体の前記少なくとも1つの断片の実際のゲノム構造を表す、工程;及び
−更新されたゲノム構造の関数として、前記理論モデルのパラメータを更新する工程、
を含む方法である。
特許請求の範囲の方法は、ゲノムが完全に特徴づけられていない種のゲノムアセンブリを修正し改善するための効率的なツールを提供する。
特に、本発明の方法は、期待される染色体数の事前情報なしに、種内の個々の染色体の大規模なスキャフォールドをアセンブルするために類似の細胞コンパートメントを共有する染色体が経験する頻繁な物理的接触を使用する。さらに、本発明の方法は、異なる生物由来の細胞の混合物に適用され、メタゲノムデータの逆重畳積分(deconvolution)を可能にする。本発明の方法を実施する際に生成された読み取りは、予備の新規アセンブリ工程を実行することによって多数のDNAコンティグを生成するために直接使用することもできる。さらに、本発明の方法は、集団内に存在し、一緒にビンに詰め込まれた(binned)生物の多数のコンティグを単一の実験で生成することが可能になる。この手法を用いて、非常に小さなメタポピュレーションを調べることができると考えられる。多数の種類のマイクロビオーム(microbiome)が、本発明の技術によって分析され得る。
さらに、本発明は、一度に数十個の生物のゲノム構造(すなわち、配列)及び3Dゲノム構造(organization)の両方を評価可能にするために、既知の生物の3Dゲノム構造のハイスループット特性を提供する。そのようなアプローチは、例えば、いくつかの生物における染色体の再編成、又はこれらのゲノムの3D構造を特徴付けることを目的とする多くの研究室又はグループが着目するものである。
本発明の方法は、未知の種の3Dゲノム構造を特徴付ける方法を提供する。メタゲノムアプローチは、ブラインド(blind)分析が、天然の種の混合物中に存在する未知の種のゲノム配列及び3D構造の両方を明らかにすることができることを示す。染色体3D構造は代謝状態と相関する。従って、混合物中に共存する種の3D構造を特徴付けることは、それらの代謝状態を明らかにする。これは、これらの種の生育状態を相互に比較して解読し、メタポピュレーションの進化の間に異なる段階(例えば、ストレス、急速な成長、休止)を同定するために適用することができた。
一実施形態では、2つのDNA領域間の距離は、所定の経路に沿った2つのDNA領域間の距離及び/又は2つのDNA領域間の空間距離の関数として決定される。
一実施形態では、方法は、少なくとも1つのライブラリの全DNAフラグメントを表す未処理のサブ配列を、複数のビンに分割する工程をさらに含む。
一実施形態では、方法は、複数のゲノム候補構造を生成し、生成された候補ゲノム構造のそれぞれについて、実際のゲノム構造に近い明示的尤度値(likelihood value)を計算する工程をさらに含む。
一実施形態では、複数のゲノム候補構造を生成する工程は、転座、欠失、逆位及び重複の少なくとも1つの変異を含む所定の構造変化(structural variations)に基づく。
一実施形態では、生成されたゲノム候補構造の1つが、複数試行メトロポリスタイプ(multiple try Metropolis type)の法則に従って、関連する尤度値の関数として選択される。
一実施形態において、ゲノム候補構造は、ビンの構造変化によって決定される。
一実施形態では、理論モデルパラメータを更新する工程は、ギブスサンプラタイプ(Gibbs sampler type)のアルゴリズムに基づく。
一実施形態では、理論モデルは、DNA領域間の染色体内(intra−chromosomic)接触を、DNA領域間の染色体内及び染色体間(inter−chromosomic)接触から識別するために使用される閾値を表す少なくとも1つのパラメータを含む。
一実施形態では、理論モデルは、DNA領域間の染色体内接触又はDNA領域間の染色体内及び染色体間の接触を、異なる生物間の接触から識別するために使用される閾値を表す少なくとも1つのパラメータを含む。
一実施形態では、方法は、少なくとも1つのライブラリのDNAフラグメントをクラスタ化する工程をさらに含み、各クラスタは特定の生物に関連付けられ、クラスタ化されたDNAフラグメントに対応する未処理のサブ配列はクラスタを根拠に配列決定するために処理される。
一実施形態では、ライブラリのDNAフラグメントをクラスタ化する工程は、ルーバインタイプ(Louvain type)のアルゴリズムに基づく。
一実施形態では、方法は、少なくとも1つの生物の少なくとも1つの染色体の少なくとも1つの部分を表す少なくとも1つの配列中の少なくとも1つのDNA配列を同定する工程をさらに含む。
一実施形態では、方法は、少なくとも1つの生物の全体的な染色体構造を特徴付け、該方法は、対応するゲノムの3次元構造から全体的な染色体構造が特徴付けられる少なくとも1つの生物の代謝状態を推測する工程をさらに含む。
本発明の第2の態様は、生物学的サンプル中の真核細胞、原核細胞、又は微生物のゲノムを同定するための方法であって、少なくとも1つの生物の少なくとも1つの染色体の少なくとも1つの断片をアセンブルするための、上記の方法の各工程を含む該方法を提供する。
一実施形態では、該方法は、生物学的サンプル中の微生物のゲノムを同定するために使用され、該微生物は、寄生生物、細菌、古細菌、真菌、酵母及びウイルスタイプの1つである。
それらの細胞及び微生物は、病原性、すなわち植物又は動物に対して、又は非病原性であり得る。より特定の実施形態では、生物学的サンプルは、1以上の細胞又は微生物種を包含する(contain)又は含む(comprise)。
一実施形態では、少なくとも1つの生物体の少なくとも1つの染色体の少なくとも1つの断片をアセンブルする方法又はゲノムを同定するための方法は、さらに以下の工程を含む:
−少なくとも1つの染色体の少なくとも1つの断片を含む調製された生物学的サンプルの染色体の断片を架橋する工程;
−少なくとも2つの異なるタイプの制限酵素を用いて、架橋された染色体を断片化する工程;及び
−断片化工程から生じる染色体の断片を配列決定する工程。
本発明の第3及び第4の態様は、上記の方法の各工程を実行するように構成された手段を含む装置、及びプログラム可能な装置のためのコンピュータプログラム製品を提供するものであり、該コンピュータプログラム製品は、プログラムがプログラム可能な装置によってロードされ、かつ、実行される場合に、上述の方法の各工程を実行する指示を含んでいる。特許請求の範囲の装置及びコンピュータプログラムは、ゲノムが完全に特徴付けられていない種からのゲノムアセンブリを修正及び改善する効率的なツールを提供する。
本発明の第5の態様は、少なくとも1つの生物体の少なくとも1つの染色体の少なくとも1つの断片をアセンブルする方法であり、該方法は、以下の工程を含む:
−少なくとも1つの染色体の少なくとも1つの断片を含む生物学的サンプルを調製する工程;
−調製された生物学的サンプルの染色体の断片を架橋する工程;
−少なくとも2つの異なるタイプの制限酵素を用いて架橋された染色体を断片化する工程;
−断片化工程から生じる染色体の断片を配列決定する工程;及び
−染色体の配列決定された断片をアセンブルする工程。
特許請求の範囲の方法は、ゲノムが完全に特徴づけられていない種からのゲノムアセンブリを修正し改善するための効率的なツールを提供する。
一実施形態では、調製された生物学的サンプルの染色体断片の架橋は、3%の最終濃度を有するホルムアルデヒドを用いて実行される。
一実施形態では、本方法は、架橋された染色体の機械的溶解工程をさらに含み、少なくとも2つの異なるタイプの制限酵素を用いて断片化する前に機械的溶解が実施される。
好ましい実施形態では、機械的溶解は、ガラス又はセラミックのビーズベースである。
本発明の第6の態様によれば、生物学的サンプルのウイローム(virome)とゲノムとの間の対応関係(correspondence)を確立するための方法が提供され、該方法は、以下の工程を含む:
−生物学的サンプルから独立したウイルス粒子の集団を抽出する工程;
−請求項1〜17のいずれか1項に記載の方法に基づいて、独立したウイルス粒子の抽出集団のウイルスゲノム配列を同定し、同定されたウイルスゲノム配列がウイロームを形成する工程;
−生物学的サンプルのゲノムを形成するための請求項1〜17のいずれか一項に記載の方法に基づいて、ウイルス粒子の集団が抽出された生物学的サンプル中の細菌、プラスミド及びウイルスゲノム配列を同定する工程;及び、
−生物学的サンプルのウイロームとゲノムとの間の対応関係を、物理的接触に基づいて確立する工程。
本発明の方法は、ウイルス集団及び細菌集団の両方の組成を決定することを可能にし、そのバランスは健康又は環境条件を潜在的に反映する。
一実施形態では、該方法は、抽出されたウイルス粒子の集団のウイルスを溶解し、溶解したウイルスのDNAを抽出し、抽出されたDNAからクロマチンを再構築する工程をさらに含む。
本発明の好ましい実施形態では、ウイルスはバクテリオファージである。
本発明の部分はソフトウェアで実行することができるので、本発明の部分は、任意の適切なキャリア媒体上のプログラム可能な装置に提供するためのコンピュータ可読コードとして実施することができる。有形のキャリア媒体は、フロッピー(登録商標)ディスク、CD−ROM、ハードディスクドライブ、磁気テープ装置又は固体メモリ装置などのような記憶媒体を含むことができる。一過性キャリア媒体は、電気信号、電子信号、光信号、音響信号、磁気信号又は電磁信号、例えばマイクロ波又はRF信号などの信号を含むことができる。
一実施形態では、コンピュータコードは、大行列データの並列処理を可能にするグラフィック処理ユニット(GPU)を利用する。DNAフラグメントの可視化及びアセンブル工程は、ウェブインターフェース上での移植性を可能にするために、グラフィックス技術を使用して開発されうる。
本発明の更なる利点は、図面及び詳細な説明を検討することにより明らかになるであろう。任意のさらなる利点が本明細書に組み込まれることが意図される。
本発明の実施形態を、以下の図面を参照して、単なる例として説明する。
図1a、1b及び1cを含む図1は、コンティグを形成するために数百万の読み取りを組み合わせて、フラグメントを再構築するための工程を概略的に示す。 図1a、1b及び1cを含む図1は、コンティグを形成するために数百万の読み取りを組み合わせて、フラグメントを再構築するための工程を概略的に示す。 図1a、1b及び1cを含む図1は、コンティグを形成するために数百万の読み取りを組み合わせ、従ってフラグメントを再構築するための工程を概略的に示す。 図2a〜図2fを含む図2は、Hi−C技術の主な工程を示す。 図3は、本発明の一実施形態の方法の主な工程を概略的に示す図である。 図4は、生物学的サンプルを調製するための工程の例を示す図である。 図5は、図4を参照して記載される、調製された生物学的サンプルからのMeta3Cライブラリの構築の例を示す。 ゲノム構造及びゲノムスキャフォールドを決定するための異なる生物の混合物から得られたMeta3Cライブラリを使用する、第1の例を示す図である。 図7は、Meta3Cライブラリのフラグメントに対応する未処理のサブ配列のセット及びこれらの未処理のサブ配列由来のコンティグのセットを模式的に示す。 図8は、ゲノム組織及びゲノムスキャフォールドを決定するために異なる生物の混合物から得られたMeta3Cライブラリを使用する、第2の例を示す。 図9は、1つ又は複数の異なる生物のゲノム構造及びスキャフォールドを決定するためのGRAALアルゴリズムの工程を示す。 図10a〜図10eを含む図10は、図9に表される特定の工程を示す。 図11a及び図11bを含む図11は、DNA領域間の接触確率とこれらのDNA領域間の距離との間に確立され得る関係を示す。 図12a、図12b及び図12cを含む図12は、GRAALアルゴリズムの3つの異なる反復(t=0、t=501、t=4,500)で、生物学的サンプルのDNA領域と対応するゲノム構造との間の接触配列(contact array)の例を示す。 図13は、本発明の実施形態が少なくとも部分的に実施され得る処理装置の構成要素を示すブロック図である。 図14〜図17は、生物学的サンプル中のバクテリオファージ集団及び細菌集団の組成を決定するための適用例を示す。 図14〜図17は、生物学的サンプル中のバクテリオファージ集団及び細菌集団の組成を決定するための適用例を示す。 図14〜図17は、生物学的サンプル中のバクテリオファージ集団及び細菌集団の組成を決定するための適用例を示す。 図14〜図17は、生物学的サンプル中のバクテリオファージ集団及び細菌集団の組成を決定するための適用例を示す。 図18は、図14〜図17に示される工程を示す。
発明の実施形態の詳細な説明
本発明の一実施形態によれば、染色体コンフォメーションのメタゲノムキャプチャー(Meta3C)実験により測定できる、類似の細胞コンパートメントを共有する染色体が経験する頻繁な物理的接触は、メタ個体群(metapopulation)に存在するゲノムのより広範なスキャフォールドをアセンブルするために使用され得る。Meta3Cライブラリは、接触頻度に基づく広範なDNA領域をアセンブルすることが可能であるだけでなく、予備的に新規(de novo)アセンブル工程を実施するにより、読み取りが、それらを生成するために直接使用可能である。
図3は、本発明の一実施形態による方法の主な工程を概略的に示す。
図示されるように、第1の工程(工程300)は、Meta3Cライブラリを構築するために使用され得る生物学的サンプルを調製することを目的とする(工程305)。Meta3Cライブラリは、DNAフラグメントのセットから構成されている。これらのフラグメントの組成は、それらの末端のペアエンド配列決定によって決定される。これらの配列は、プロトコルがキメラフラグメントの濃縮工程を伴わない場合に、新たにより長いコンティグをアセンブルするために使用可能である。これらの読み取りはまた、生物学的サンプル内に存在するゲノム(単数又は複数)の構造及び関連するパラメータを決定するために使用される(工程310)。
工程300及び305は、図4及び図5をそれぞれ参照して説明され、一方で、工程310は、本発明の実施形態の2つの例を示す参照図6及び8によって説明される。
図4は、生物学的サンプルを調製する工程の例を示す(すなわち、図3の工程300)。
生物学的サンプル、例えば30mgの湿潤物質(例えば、河川堆積物由来の湿潤物質)は、例えば150mLのPBS(リン酸緩衝食塩水)中で希釈される(工程400)。このような希釈工程は、固体サンプル、慎重な操作が必要なサンプル、及び/又は微量であって多量に取り扱うことができないサンプルには必要ではないことに留意されたい。
次に、それはタンパク質とDNAの部分とを架橋することによって、全体的なクロマチンネットワークを凍結させるために化学的に処理される(工程405)。このような処理は、新鮮なホルムアルデヒド(例えば3%の最終濃度)を用いて室温で30分間、続いて4℃で30分間処理することで得られる。
次の工程では、架橋反応プロセスが停止される(工程410)。説明のために、ホルムアルデヒドは、最終濃度0.25Mグリシンを用いて、室温にて5分間、続いて4℃で15分間でクエンチ(quench)することができる。
次に、固定された細胞を、典型的には遠心分離によって回収し、洗浄し(例えば、50mLのPBSを用いて)、再び回収し(例えば、遠心分離によって)、ドライアイス中で凍結し、使用するまで−80℃で保存する(工程415)。
DNAフラグメントの一貫した架橋を有する初期の生物学的サンプルを得ることを目的とする工程(工程405)は必須であることに注意する必要がある。従って、十分な量の架橋フラグメントを得るために固定細胞の生成に特有の注意が払われるべきである。
図5は、上記のように調製された生物学的サンプルからのMeta3Cライブラリの構築の例(図3の工程305)を示す。
図示されるように、第1の工程(工程500)は、細胞の凍結ペレットの解凍を目的とする。説明のため、これは氷上で30分以上実施され得る。次に、解凍された細胞を再懸濁する(工程505)。これは最終容量650μlの1×TE pH8で実施することができる。
次の工程では、サンプル細胞を溶解する(工程510)。これは、ガラス又はセラミックビーズを用いて細胞を機械的に溶解するPrecelly(登録商標)ホモジナイザーとして公知の装置で実施することができる。説明のために、サンプル細胞は、毎秒6,700回転の速度で60秒ごとに実行される、20秒、3サイクルにわたって溶解され得る。
次に、溶解した細胞をプールし、例えば0.5%ccの最終SDS濃度を得るために、10%ccの濃度にてSDS(ドデシル硫酸ナトリウム)で処理し、プールした細胞を、例えば15分間室温でインキュベートする(工程515)。
次いで、処理された溶解細胞をいくつかのチューブに送付する(工程520)。次いで、これらの細胞内に存在するDNA分子を異なる制限酵素で断片化する(工程525−1〜525−3、総称して525と呼ぶ)。
最初の生物学的サンプルは典型的には異なる生物の細胞を含むので、(GC及びAT塩基対の割合に関して)種々のタイプの染色体の組成は、平均サイズが所定の閾値(典型的には500〜1000塩基対)を超えない断片に断片化できるよう、いくつかのタイプの制限酵素を使用することができる。この閾値は、キメラ読み取りのための濃縮工程を有さないMeta3Cライブラリに対して特に重要である。
3つの異なる制限酵素のみが図5(工程525−1〜525−3)に示されているが、任意の数の制限酵素が、組み合わせて又は独立したプロセスのいずれかで使用することができることに留意されたい。
工程525に示されるように、溶解した細胞を消化混合物(例えば、1×NEB緩衝液(10mM Bis−Tris−プロパン−HCl、10mM MgCl2、1mM DTT、pH7.0、25℃、New England Biolabs)、1%トリトンX−100、及び100Uの所定のタイプの制限酵素)を含むチューブに入れられる。溶解した細胞と消化混合物との混合物を、対応する酵素活性温度、例えば37℃で、所定の時間、例えば3時間インキュベートする(工程530)。
特定の実施形態によれば、使用される制限酵素は、4つの塩基対の組み合わせを認識するように選択される。従って、生物学的サンプルを調製するために実施される架橋工程は、DNAフラグメントライブラリを調製するために一般的に使用される濃度及び時間よりも長い時間を必要とする。6塩基対の組み合わせ又は他のものを認識する酵素を使用することができるが、ライブラリの構築には、DNAフラグメントの縁にビオチン化塩基の取り込みなどの、濃縮工程が必要である。
次に、続く工程において、溶解した細胞と消化混合物との混合物を含有するチューブを、例えば16,000回転/分の回転速度で20分間遠心分離する(工程535)。
遠心分離後、浮遊物質(上清)を除去し、チューブの底に沈着した物質を例えば500μLの水に再懸濁する(工程540)。
次いで、チューブをプールし(例えば、3mL)、ライゲーション混合物を、得られた混合物に添加する(工程545)。例示のために、ライゲーション混合物は、NEB(New England Biolabs)ライゲーション緩衝液(例えば1.6mL)、BSA(ウシ血清アルブミン)(例えば10mg/mL、160μL)、250UのT4 DNAリガーゼ、及び水を加えて、16mLの容量を得る。混合物を、例えば16℃で4時間インキュベートする。
次に、反応を停止し、架橋を逆にする(脱架橋工程550)。これは、混合物にEDTA(エチレンジアミン四酢酸)を、例えば終濃度100mM及びKプロテイナーゼ、例えば4mgを添加し、そして例えば65℃で12時間インキュベートすることによって行うことができる。
次に、例えばイソプロパノールを沈殿させ、フェノールクロロホルムを沈殿させ、エタノールを沈殿させることによって(例えばトリス10mMで、例えば60μLのトリスで再開する)DNAフラグメントを抽出し(工程560)、RNAse処理を適用してRNA分子を除去する。
最後に、全てのチューブをプールし、例えばBio−Rad(商標)によって開発されたQuantity One(商標)として知られているアプリケーションを用いてゲル上で定量されたMeta3Cライブラリが得られる。
図4及び5を参照して記載された工程を実施することによって得られるMeta3Cライブラリは、典型的には、数百塩基対以下の読み取りを含む。ライブラリの重複する読み取りは、IDBA−UDなどの標準的なアセンブリアルゴリズムを使用して、より大きな連続配列(コンティグ)へと一緒に連結することができる。
図4及び5を参照して記載された工程を実施することによって得られたMeta3Cライブラリは、キメラ配列の濃縮工程を伴わずに、主に、得られたライブラリが由来する生物学的サンプル中に存在する染色体の断片に対応するDNA分子(すなわち、染色体の連続したヌクレオチド鎖)を含む。これらの断片は、ショットガンシーケンシングライブラリで回収されたDNAフラグメントと類似しているため、ショットガンタイプのDNAフラグメントと呼ばれている。これらのショットガンDNAフラグメントは、ライブラリの断片の約80%を占める。
Meta3Cライブラリはまた、キメラ分子とも呼ばれるDNA分子を含み、それは、架橋工程中に一緒に捕捉された2つの配列の組み合わせ(すなわち、連続ヌクレオチドの少なくとも2つの異なる鎖の組み合わせ)である。これらの2つの配列が互いにより近接している頻度が高いほど(図4の工程405)、より頻繁に一緒にトラップされる。これらの配列は、同じDNA繊維(染色体)に沿って、又は別個の染色体(すなわち、キメラ分子は、同じ染色体又は少なくとも2つの異なる染色体の隣接するヌクレオチドの少なくとも2つの異なる鎖の組み合わせである)に離れて配置され得る。
DNAフラグメント間のこれらの長距離相互作用は、ライブラリの分子の約20%に相当する。これらのキメラ分子の濃縮工程が実施されるHi−Cライブラリに存在するキメラ分子とは対照的に、Meta3Cライブラリ中のキメラ分子は、組み合わされた配列の間にビオチンを含まない。
従って、Meta3Cライブラリは、「ショットガン」及び「キメラ」の両方の形態であるDNA分子を含み、従ってコンティグを生成し、単一の実験でそれらをスキャフォールド化するために使用することができる。
「ショットガン」分子がより少ない量のMetaHiCライブラリは、他の手段によって得られたコンティグをスキャフォールドにするために使用され得ることに留意されたい。
図6は、ゲノム構造及びゲノムスキャフォールドを決定するための、異なる生物の混合物から得られたMeta3Cライブラリを使用する、第1の例を示す図である。
図6に示すアルゴリズムは、Meta3Cライブラリから得られた600で参照される未処理のサブ配列のセットに基づいている。未処理のサブ配列は、Meta3Cライブラリに存在するDNAフラグメントのペアエンド配列決定の結果として得られた読み取りのペアである。
第1の工程は、Meta3CライブラリのDNAフラグメントをコンティグと呼ばれるより広範な配列にアセンブルすることを目的とする(工程605)。この工程は、IDBA−UDなどの標準的なアセンブリアルゴリズムによって実行され得る。その結果、610で参照されるコンティグのセットが得られる。
次に、異なるコンティグを構成する読み取りのペア末端情報が、それぞれに対して全てのコンティグの接触ネットワークを生成する。この目的のために、Meta3Cライブラリの配列決定から得られたペア末端読み取りは、読み取りアラインメントアプリケーションを使用して工程605の結果として得られたコンティグ610上に整列される(工程615)。
アライナとも呼ばれる読み取りアラインメントアプリケーションは、参照として使用される染色体(又は染色体の一部)のような、より広範なDNA配列に沿った読み取りを整列させる(すなわち配置する)ことを可能にすることが想起されるべきである。説明のために、ボウタイ(Bowtie)2として知られるアプリケーションは、アライナであり、工程615を実行するために使用することができる。
DNA分子に含まれるペア末端情報は、どのコンティグが他のコンティグと接触しているかを明らかにすることによって、コンティグ間の接触ネットワーク(参照番号620)を決定する。コンティグ間のこれらの相互作用が検出される頻度は、それらを境界付けするリンクの強さを明らかにする。
例えば、図7を参照すると、読み取りの接触ネットワークを決定することができる。
図7は、Meta3Cライブラリの断片に対応する未処理のサブ配列のセット700と、これらの未処理のサブ配列から得られコンティグのセット705(例えば、図6を参照して記載される工程605及び615による)を概略的に示す。図示されているように、未処理のサブ配列の末端のそれぞれは、配列決定されたデータ(これらの配列決定されたデータは読み取りである)を表す。未処理のサブ配列は、それらが同じ読み取りを共有してコンティグを形成するときに結合される。
例示のために、24個のDNAフラグメントに対応する24個の未処理のサブ配列のみが示され、各サブ配列は読み取りのペア末端を含む。例えば、サブ配列700−1は、ペア末端読み取りR7及びR8を含む。
同様に、3つのコンティグのみが表される(705−1、705−2及び705−3)。図示されているように、各コンティグは、サブ配列のサブセットに基づいており、読み取りのペア末端並びに内部読み取り(アセンブリ目的のために使用されている)とを含む。例えば、コンティグ705−1は、ペア末端読み取りR0及びR3を含む。
上記のように、IDBA−UDのような標準的なアセンブリアルゴリズムの使用は、読み取りを比較してコンティグを形成することによってDNAフラグメントのアセンブリを可能にする。従って、サブ配列700−2は、サブ配列700−3と組み合わされて、コンティグ705−2(すなわち、コンティグR4−R5−R6)を形成することができる。
例示のために、コンティグ705−1及び705−2は同じ染色体に属し、一方で、コンティグ705−3は異なる染色体に属すると推定することができる。この場合、R3とR4との間のリンクは弱く、これらのフラグメントのアセンブリを損なう。
接触ネットワークの構築は、距離があり、非隣接の配列からなるキメラ分子に含まれる情報の項目を明らかにする。例えば、コンティグ705−1及び705−2の読み取りR1及びR5間の距離の観点から、サブ配列700−4は、キメラ分子と関連しているとみなされる。
図7に示すように、サブ配列のセット705から確立され得るリンクは、位置R4/R5及びR6/R7まで連続した構造に従う。これらの位置では、いくつかの理由により、コンティグを連結するためのペア末端情報が見出されていないため、ギャップが生じる。
しかしながら、情報の長距離の項目は、アセンブルに使用されなかったキメラ分子の情報のペア末端項目から同定することができる。このような情報の項目は、アセンブルプロセスからは明らかではないコンティグ間の関係を明らかにする。情報の長距離項目は、コンティグを互いの最も可能性の高い方向に配置するために使用することができる。
コンティグ内の各サブ配列終端の位置を決定することによって(そのような距離は、多数の塩基対の関数として又は多数の制限フラグメントの関数として表現され得る)、及びこれらの位置のそれぞれに多数の接触(又は接触頻度)を関連付けることによって、サブ配列のセット700及び得られたコンティグのセット705から接触配列を構築することができる。
この目的のために、全てのコンティグは、線状構造でアセンブルされ、コンティグの読み取り順序は、本明細書において以下に示されるように接触配列の行及び列の参照を形成する;
接触配列を満たすために、後半の各セルは、初期化工程において、ゼロに設定される。次に、サブ配列のセットのサブ配列が(典型的には次々に)選択され、各サブ配列に対し、サブ配列の一端に対応する読み取りの位置は、第1の座標(a)を決定するために、アセンブルされたコンティグの線形構造において決定される。同様に、サブ配列の他端に対応する読み取りの位置は、第2の座標(b)を決定するために、アセンブルされたコンティグの線形構造において決定される。次に、第1及び第2の座標は、内容を1だけ増加する接触配列の2つの対称セル((a、b)及び(b、a))を識別するために使用される。あるいは、接触配列の半分だけが満たされ、残りの半分は最初の半分から複製され得る。
図6に戻って、以下の工程は、Meta3CライブラリのDNAフラグメントをクラスタ化することに関する(工程625)。これは、例えばルーバインタイプのアルゴリズムを用いて実施され得る。
ルーバインアルゴリズムは、複雑なネットワーク内のクラスタ又はコミュニティを識別するための単純で効率的な方法であることが想起されるべきである。ノード(node)のペアが、両方同じコミュニティ(単数又は複数)に属している場合は関連づけられる可能性が高く、どのコミュニティも共有していない場は、関連づけられる可能性が低いという一般的な定義に基づく。従って、ノード間のリンク及びリンクの数を知ることによって、コミュニティを表すクラスタを識別することができる。
コンティグ間の優先的な接触頻度を示す、コンティグのサブセットへクラスタ化するための全体の接触ネットワークを用いて、全体のコンティグのセットにルーバインアルゴリズムを適用することにより、参考630に例示されるように、DNAフラグメントを、それらが属する生物に沿ってクラスタ化することができる。従って、工程625にて決定されたクラスタは、それぞれのこれらの生物のスキャフォールド並びに(最終的には)それらのゲノムをより正確に決定するために、個別に処理することができるコンティグのプールに、Meta3CライブラリのDNAフラグメントの大部分を分類するために使用される。
参照635で示唆されているように、情報の項目は、それぞれ決定されたクラスタに関連付けることができる。
次に、続く工程において、GRAAL(3Dコンタクトデータから尤度評価するゲノム(再)アセンブリ(Genome (Re)−Assembly Assessing Likelihood from 3D contact data))とも呼ばれる3Dスキャフォールドアルゴリズムが実行されて(工程640)、各生物のゲノム構造及びスキャフォールドを決定する(参照645及び650でそれぞれ示されている)。
GRAALは、DNAフラグメントの初期セットに、仮想再配列(又は構造変化)を反復的に適用するアルゴリズムである。この方法は、接触ネットワークデータと、予想される接触頻度をゲノム構造に関連付ける以前の(データ非依存の)仮定とに基づき、提案されたゲノム構造の尤度(likelihood)を計算する確率論的定式化に基づいている。
これらの仮定は、予測され観察された染色体内の接触頻度が、遺伝子座間のゲノム分離に強く関係するという事実を活用するものであり、典型的には近似力法則関係に従い、広範なゲノム分離に対してプラトーを示し、ここで、頻度は染色体間接触頻度に匹敵するようになるものである。
GRAALアルゴリズムの初期化に使用されるサブ配列は、コンティグのセット又は参照ゲノムから生成される。それらは有利には、1つの制限断片と同じくらい小さい制限断片の規則的なビン(bin)へと分割される。
図9〜11を参照して説明したように、各反復において、GRAALアルゴリズムは、新規ゲノムビンを選択し、測定された接触頻度からサンプリングされたNビンについて全ゲノムをスキャンする。次に、V異なる仮想構造変化(転座、欠失、逆転、重複を含む)を考慮して、これらの潜在的に近傍のゲノムのセットを計算する。候補ビンは、その後、このゲノムのセットの局所尤度ランドスケープ(landscape)上でサンプリングされ、最も可能性の高い構造の1つが次の反復に保持される。ゲノム内の各ビンの位置は、事前にアセンブルされたコンティグのみならず、GRAALアルゴリズムによって数回独立してテストされ、アセンブリ誤差の緩和及び非常に小さな構造変化の識別を可能する。
図8は、GRAALを使用して、単一の分析工程においてゲノム構造及びゲノムスキャフォールドを決定するための、異なる生物の混合から得られたMeta3Cライブラリを使用する第2の例を示す。
図示されるように、工程600’〜620’は、それぞれ図6を参照して説明される工程600〜620と同様である。これらの工程は、コンティグのセット及び接触ネットワーク情報を提供することを目的とする。
次の工程(工程800)において、得られたコンティグのセット及び情報の接触ネットワーク項目は、処理されたMeta3Cライブラリを作製するために使用された生物学的サンプル中に存在する異なる生物のそれぞれのゲノム構造及びスキャフォールドを、直接的に(すなわち、図6の工程625を参照して記載されるルーバインアルゴリズムのようなクラスタリング工程を実行することなく)決定するために使用される(それぞれ645’及び650’が参照される)。
図8に示唆されているように、ゲノム構造及びスキャフォールドは、処理されたMeta3Cライブラリを作製するために使用される生物学的サンプル中に存在する生物を特徴付けるために使用される(工程805)。
ゲノム構造及びスキャフォールドを決定する工程800は、好ましくは、図6を参照して簡単に紹介され、図9〜11を参照してより詳細に説明されるGRAALアルゴリズムに基づいており、ゲノムの構造の理論的モデルは、分析される生体サンプル中に存在する異なる生物の染色体を識別するために適応される。
図示されているように、GRAALアルゴリズムは、染色体のセットの構造815を反復的に決定するための理論モデル810を使用し、この構造は、理論モデル810を更新するためにそれぞれ反復して使用される。
ここで留意すべきことは、図6に理論モデル及び染色体構造が示されていなくても、工程640で実行されるGRAALアルゴリズムは、解決に向かって収束するために相互作用する理論モデル及び染色体構造の使用にも基づいている。
GRAALアルゴリズムは、モンテカルロマルコフ連鎖(MCMC)タイプのアルゴリズムである。それは、観察されたデータの起源(すなわち、Meta3Cライブラリ)であり得るゲノム構造の分布を探索することを目的とする。同じ生物に属しているか否かにかかわらず、ゲノム構造の要素間の接触頻度は、計算された理論モデルでモデル化される。ゲノム構造の分布を分析することにより、処理されたMeta3Cライブラリを生成するために使用される生物学的サンプル中に存在する異なる生物の推定数を決定すること、各生物のゲノムを決定することが可能になる。
生物学的サンプル中に存在する異なる生物の推定数の決定は、接触頻度の変化に基づいている。
所与のMeta3Cライブラリ(Dで示す)について、GRAALアルゴリズムは、データと一致する1次元ゲノム構造(単数又は複数)Gの全体の確率分布p(G|D)の推定を探索する。このアルゴリズムは、ベイズ(Bayes)の法則
を用いた確率的アプローチに基づいている。データが存在しない場合、全ての構造Gが等しい確率(均一優先(flat prior))を有すると仮定すると、ベイズの法則は次のように減少され得る:
p(D|G)の計算は、所与のGについてシス及びトランス染色体接触行列Mと呼ばれる染色体内接触及び染色体間接触を定量的に予測するモデルを必要とする。
シス接触確率PCは、理論的に予測されて測定された核内に閉じ込められた染色体の挙動に従って、べき乗則(power−law)に続くプラトー:
として、ゲノム分離sに依存するものと仮定される。異なる生物又は染色体に対してb及びs0は異なる値が報告されていることに留意されたい。
また、トランス接触は、染色体近傍の事前情報の欠如及びシス接触に対するトランス接触頻度の相対的弱さを考慮して、単位ゲノム長の二乗毎の均一な確率Ptが生じると仮定される。
妨害(nuisance)パラメータとも呼ばれる、パラメータε=(b,s0,Pt)は、GRAALアルゴリズムによって推定される。
さらに、測定された接触マトリックスMのカウントはポアソン分布、すなわち、
(式中、ビン(i,j)に対する接触確率λi,jは、トランス又はシス接触それぞれに対し、Pt又はPcで与えられる)
に従うと仮定される。
これらの仮定は共に、Meta3Cライブラリ(データセットD)が与えられた任意のゲノム構造Gの尤度p(D|G,ε)を計算することを可能にする確率モデルp(G、ε|D)を特定する。
モンテカルロマルコフ連鎖アルゴリズム(すなわち、ギブスサンプラ(Gibbs sampler))を使用して、妨害パラメータ及びゲノム構造を順次生成する。妨害パラメータは、古典的メトロポリスアルゴリズムによって、ゲノム構造の変化と交互に反復して更新される。
最初のゲノム構造G0から開始するゲノム構造の順序Gt、t=1,2....Ntを生成する、複数のトライメトロポリスサンプラ(Multiple Try Metropolis sampler)は、ゲノム構造を生成するために使用される。
現在のゲノム構造Gtが与えられると、例えば、挿入、欠失、複製、逆位、転座又はそれらの同時の組み合わせからなる仮想構造変化を適用することによって、Nの新規構造のランダムセットが計算される。各候補構造変化について、新規構造の尤度が上記のように計算され、次の構造Gt+1を決定するためにゲノム構造の空間に対し、局所的な確率最適化が実行される。
新規ゲノムは、メトロポリストライメトロポリス法則によって指定された確率で承認され、又は拒絶される。構造変化の一様な選択とは対照的に、この手順は、計算上、構造確率密度の効率的サンプリングを可能にする。
最後に、バーンイン(burn−in)期間を破棄した後、ジョイン確率分布(G,b,s0)を推定するために、マルコフ連鎖サンプルが用いられる。
図9は、1つ又は複数の異なる生物のゲノム構造及びスキャフォールドを決定するためのGRAALアルゴリズムの工程を示す。
図9は、図10に関連して記載され、図10a〜10eを含み、図9に示される特定の工程を示す。
図10aに示されるように、対応する生物の1つに関連するゲノムを含む、異なる生物由来の細胞の混合物1000、例えば細胞1005−1、1005−2及び1005−3は、図10bに表されているコンティグ1010−1〜1010−4のようなコンティグを形成するために、DNAフラグメントを表すサブ配列が組み合わせられるMeta3cライブラリを作製するために使用される。
例示のために、コンティグ1010−1は細胞1005−1のDNAフラグメントの集合体を表し、コンティグ1010−2は細胞1005−2のDNAフラグメントの集合体を表し、コンティグ1010−3は細胞1005−3のDNAフラグメントの集合体を表し、コンティグ1010−4は、細胞1005−1及び1005−3のDNAフラグメントの集合体を表す。換言すれば、コンティグ1010−4は、細胞1005−1のDNA部分と細胞1005−3のDNA部分との間の接触に起因する。DNA部分に存在しないコンティグ1010−4は、キメラ対の読み込みとも呼ばれる。
図9に戻り、最初に表された工程は、標準アセンブリアルゴリズムによって予め決定されたコンティグのビニング(binning)に特異的である(工程900)。工程900によれば、各コンティグは、コンティグの一部を表すビンに分割される。ビンの長さは、ユーザによって調節することができる。有利には、読み取り間の接触の数の関数として、及び/又は読み取り間の接触頻度の関数として決定される。
特定の実施形態によれば、ビンの長さは全てのビンについてほぼ同じであり、その最小サイズは制限フラグメント(すなわち、制限酵素の断片化工程から生じるDNAフラグメント)と等しく設定される。Meta3CライブラリのDNAフラグメントの全セットに対応する、工程900を実行した後に得られるnビンのセットは、以下の関係式で表すことができる:
ビンの例を図10cに示す。説明のために、コンティグ1010−3は、ビン1010’−31〜1010’−3nを含むビン1010’−3のセットに分割される。
次に、図9に戻り、ビン接触配列を構築する(工程905)。これは、接触ネットワークの関数として、すなわちコンティグの読み取り間の接触頻度の関数として構築される。接触ネットワークは、コンティグiの位置aと、コンティグjの位置bとの間の接触を規定するが、ビン接触配列は、コンティグiのビンと、コンティグjのビンbとの間の接触数を表す。
上記のように、これらの接触の約80%はDNA繊維に沿って隣接するDNAフラグメントに由来し、これらの接触の約20%はDNA繊維に沿って隣接していないが、架橋工程中(Meta3Cライブラリを構築する時)、それぞれ空間的に互いに近接するDNAフラグメントに由来する。
次の工程では、GRAALアルゴリズムのパラメータが初期化される(工程910)。これらのパラメータの中で、GRAALアルゴリズムの実行中に変更されるゲノム構造Gtは、参照構造G0(すなわち、t=0)へ初期化される。そのような参照構造は、例えば、既にアセンブルされたゲノム、部分的にアセンブルされたゲノム、又はコンティグ若しくはビンのセットであり得る。例示のために、ゲノムの初期構造は、コンティグのセット、すなわち、キメラ対の読み取りを含むアセンブルされたDNAフラグメントのセットであるものと設定される。
初期化されるGRAALアルゴリズムの別のパラメータは、ゲノム構造の理論モデルP(s)のパラメータε=(b,s0,Pt)を表し、理論モデルは、初期化工程中、Pε 0(s)で示される。特定の実施形態によれば、モデルP(s)は、2つのビンの間の接触確率を、これらの2つのビンの間の距離に関連づける(距離は、典型的には、DNA繊維に沿ったこれらの2つのビンの間の距離の関数として、及び/又は空間距離の関数として(例えば、2つのビンの間に接触があった場合は距離が1に等しく、それ以外の場合はゼロ)決定される)。パラメータ(b,s0,Pt)は、スケールファクタと、同じ染色体の2つのビンの間、1つの異なる生物の2つの染色体の2つのビンの間、及び2つの異なる生物の2つの染色体の2つのビンの間のリンクを特徴付ける2つの閾値R0及びR1とを表すと見なされ得る。そのような理論的モデルの一例を図10bに示す。
Iで示される、初期化される、さらに別のパラメータは、GRAALアルゴリズムが実行しなければならない反復回数又はサイクル数を表す。これは、ゲノム構造が供される変異の数、すなわちゲノム構造にもたらされ得る構造変化の数を表す。例えば、パラメータIを4,500に設定することができる。
Vで示される、初期化される、さらに別のパラメータは、ゲノム構造が供される構造変化のタイプを表す。そのような構造変化は、例えば、ビンの転座、欠失、逆位、若しくは重複、及び/又はこれらの構造変化の組み合わせを含む。
θで示される、さらに別のパラメータは、候補ゲノム構造を生成する際に所定のビンについて考慮されなければならない隣接ビンの数を表す。例えば、パラメータθは、10に設定することができる。
これらのパラメータを初期化した後、インデックスiは、1とセットB={b1,b2,...,bi,...,bn}のビンの数nとの間の値に設定され、ビンiが選択される(工程915)。インデックスiの値は、各ビンが少なくとも1回、好ましくは同じ回数、例えば10が選択されるように選択される。
図10dは、1010’−rsで参照される、1つのビン(ビンi)が選択されるビンのセットの例を示す。
図9に戻って、ビンiを選択した後、ビニング工程900から得られたnビンの中から1セットのθビンが選択される(工程920)。特定の実施形態によれば、選択されたθビンは、ビンiに隣接する可能性のあるθであるものとして選択される。これは、ビンiとの多数の接触と関連付けられるθビンをランダムに選択することで実施され得る。
ビン(j)と示された、第1の選択されたθビンは、処理されるために識別される。
次に、選択されたビンi及び識別されたビンjが、GmJで示される候補ゲノム構造のセットを生成するために使用される(工程925)。これらの候補ゲノム構造は、ゲノム構造が供される構造変化の所定のタイプVのビンi及びビンjの関数として決定される。
mJで示される、生成されたゲノム構造の各々について、対応するゲノム構造が実際のゲノム構造である尤度値が計算される(工程930)。尤度値は、典型的には、ビン間の予測された接触と、現在のモデルパラメータεtが与えられたその構造に対する観測データとを比較することによって得られる。
識別されたビンjについて候補ゲノム構造を生成し、これらの候補ゲノム構造の各々について尤度値を計算した後、パラメータθを1減分し(工程935)、その値がゼロであるか否かを決定するテストを実施する(工程940)。
変数θの値がゼロと異なる場合、最後の4つの工程(工程920〜935)は、選択されたθビンのセットの異なるビンjを識別するために繰り返され、新しく識別されたビンjの関数として候補のゲノム構造を生成し、生成された候補ゲノム構造の各々についての尤度値を計算する。
反対に、変数θの値がゼロに等しい場合、すなわち、選択されたビンi及び選択されたθビンのそれぞれについて候補ゲノム構造を生成した後、生成された候補ゲノム構造の1つは、次のゲノム構造Gt+1であるように選択される(工程945)、すなわちGt+1=Gm,j。特定の実施形態によれば、生成された候補ゲノム構造の1つの選択は、複数の試行メトロポリス(multiple try Metropolis)ルール(MTM)に基づく。他の基準が、計算性能を最適化するための、特に制限の少ない基準(例えば、基本的な確率的最適化)において、使用されることに留意されたい。
図10eは、選択されたビンi及びそれぞれの選択されたθビンに対する候補ゲノム構造を生成する工程を示す。
次に、図9に戻り、ゲノム構造の理論モデルP(s)のパラメータεt+1(b,S0、Pt)は、観察されたデータ及びゲノム構造Gt+1の観点から更新される(工程950)。説明のために、これは古典的なギブスサンプラアルゴリズム(Gibbs sampler algorithm)を適用することによって実施され得る。
ゲノムの構造の理論モデルP(s)のパラメータの値を更新した後、変数lを1減分し(工程955)、その値がゼロに等しいかどうかを判定するためにテストが実行される(工程960)。
変数lの値がゼロと異なる場合、θの値は、考慮すべき近隣ビンの数を表す値に初期化され(工程965)、アルゴリズムは、新規ビンiを選択し、その後、新規の選択されたビンiを用いて工程920〜950を反復するために工程915に分岐される。上述したように、900から得られるビンのセットの各ビンは、好ましくは1回、有利には約10回選択される。
逆に、変数lの値がゼロに等しい場合、アルゴリズムは停止する。
図11a及び図11bを含む図11は、DNA領域間の接触確率と、これらDNA領域間の距離との間に確立され得る関係を示す。
より正確には、図11aは、異なる生物の1つの同じ2つの異なる染色体に属するDNA領域との間、2つの異なる生物の2つの異なる染色体に属するDNA領域との間の接触の確率を特徴付ける2つの距離閾値R0及びR1の例を示す。
特定の実施形態によれば、DNA領域間の距離は、典型的には、一対のDNA鎖に沿った距離(これは特に同じ染色体のDNA領域に関連する)及び空間距離(異なる染色体のDNA領域により関連性が高い)に依存する特異的な関数である。
図11bは、2つのDNA領域間の距離(横座標として表される)と、これらの2つの領域間の接触確率(縦座標として表される)との間の関係を表すグラフである。説明のために、染色体は生物ごとにグループ分けされ、DNA領域間の距離が確立されるように、単一の鎖へと互いに実質的に連結されると考えられる。
図示されるように、2つのDNA領域が同一の染色体に属する場合、これらの2つのDNA領域の間の距離は、一般にR0より小さく、これらの2つのDNA領域間の接触確率は曲線1100の部分で示すように高い。
同様に、2つのDNA領域が、1つの生物の2つの異なる染色体に属する場合、これらの2つのDNA領域の間の距離は、典型的には、R0とR1の間に含まれ、これらの2つのDNA領域の接触確率は、曲線1105の部分で示すように中程度である。
最後に、2つのDNA領域が2つの異なる生物の2つの異なる染色体に属する場合、これらの2つのDNA領域の間の距離は一般にR1より大きく、これらの2つのDNA領域間の接触確率は、曲線1110の部分で示すように低い。
換言すれば、理論モデルは、2つのゲノム位置の関数として接触頻度を予測することを目的とする。示された理論モデルは、3つのレベルを含む。第1のレベルは、染色体内接触に対するものであり、第2のレベルは、染色体内及び染色体間の接触に対するものであり、第3のレベルは、異なる生物間の接触に対するものである。
第1レベルと第2レベルはR0値によって区切られ、第2レベルと第3レベルはR1値で区切られる。最初のレベルはポリマーの物理学に基づく。
パラメータR0及びR1は、対応する分布を探索しながらGRAALアルゴリズムの実行中に調整される。
もちろん、2以上の閾値R0及びR1は、例えば、特定の生物に特異的な特性に従って、使用することができる。
特定の実施形態によれば、DNA領域xとyとの間の接触の確率fと、これらのDNA領域間の距離dとの関係は、以下のように表すことができる:
(式中、C1及びC2は、定数である)
関係fは、コンパートメント間の接触の可変性を考慮に入れるように、以下のように変更することができることに留意されたい:
より一般的には、この関係は特定のニーズに適合するように修正することができる。説明のために、生物内及び生体間の接触を予測するために使用される定数C1及びC2は、共生及びコンパートメント間の再組織化などのサブアセンブリを考慮に入れて、他の定数によって置き換え及び/又は完了させることができる。
図12a、図12b及び図12cを含む図12は、GRAALアルゴリズム(t=0、t=501及びt=4,500)の3つの異なる反復で、生物学的サンプル及び対応するゲノム構造のDNAフラグメント間の半接触配列の例を示す。
半接触配列は、染色体構造における推定位置の関数として順序付けられた2つのビン間の接触の数を表す。
GRAALアルゴリズムが起動されると、図12aに示すように、ビンは擬似ランダムに順序付けされ、ここで、接触配列1200−0及び染色体構造1205−0はいずれの特性パターンも表さない。
501の反復の後、いくつかのクラスタが接触配列上に現れ始め、図12bに示すように、いくつかのパターンは染色体構造1205−501上で同定可能である。
最終的に、4,500回の反復の後、クラスタは接触配列1200−4500上で明確にと認識され、染色体構造1205−4500は図12cに示すように構造化された情報項目を示す。
図13は、本発明の少なくとも一部の実施形態、例えば、図6、図8、及び図9を参照して説明されたアルゴリズムの1つ又は複数を実施するように構成された処理デバイス1300を概略的に示している。処理デバイス1300は、マイクロコンピュータ、ワークステーション、又は高度並列計算機などのデバイスである。装置1300は、通信バス1313を備え、通信バス1313には、好ましくは、以下と連結されている:
−CPUと呼ばれるマイクロプロセッサのような中央処理装置1311;
−本発明を実施するためのコンピュータプログラムを記憶するための、ROMと示される、読み出し専用メモリ1307;
−本発明の実施形態の方法の実行可能コード並びに本発明の実施形態によるゲノム構造決定方法を実施するために必要な変数及びパラメータを記録するように適合されたレジスタを記憶するための、RAMと示される、ランダムアクセスメモリ1312;及び、
−通信ネットワーク1303に接続され、処理されるデジタルデータを送信可能な通信インターフェース1302。
任意に、装置1300は、以下の構成要素も含んでもよい:
−本発明の1つ又は複数の実施形態の方法を実施するためのコンピュータプログラムと、本発明の1つ又は複数の実施形態の実施中に使用又は生成されるデータとを格納するための、ハードディスクなどのデータ記憶手段1304;
−ディスクドライブはディスク1306からのデータの読み出し、又は前記ディスクへのデータの書き込みに適した、ディスク1306に対するディスクドライブ1305;
−キーボード1310又は任意の他のポインティング手段を用いて、データを表示する、及び/又はユーザとのグラフィカルインタフェースとして機能するための画面1309。
通信バスは、装置1300に含まれる、又はそれへ連結された様々な要素間の通信及び相互運用性を提供する。バスの表示は限定的ではなく、特に、中央処理装置は、装置1300の任意の要素に直接的に、又は装置1300の別の要素によって命令を通信するように動作可能である。
ディスク1306は、例えば、書き換え可能又は不可能なコンパクトディスク(CD−ROM)、ZIPディスク又はメモリカードのような任意の情報媒に置き換えることができ、一般的に言えば、デジタル画像の配列を符号化する方法及び/又は実施される発明にかかるビットストリームを復号化する方法を可能にする1又は複数のプログラムが、装置に組み込まれている若しくは組み込まれていない、できる限り取り外し可能であって格納するように適合された、マイクロコンピュータ又はマイクロプロセッサによって読み取り可能である情報格納手段に置き換えることが可能である。
実行可能コードは、読み出し専用メモリ1307、ハードディスク1304上、又は例えば前述のようなディスク1306などの取り外し可能なデジタル媒体のいずれかに格納することができる。一変形形態によれば、プログラムの実行可能コードは、実行前に装置1300の記憶手段のうちの1つ、例えばディスク1304に格納されるために、インターフェース1302を介して通信ネットワーク1303によって受信することができる。
中央処理装置1311は、本発明のプログラムのソフトウェアコードの部分又はプログラムの命令の実行を制御及び指示するように構成されており、命令は、前述の記憶手段のうちの1つに記憶されている。電源投入時に、例えばハードディスク1304又は読み出し専用メモリ1307などの不揮発性メモリに格納されたプログラム(単数)又はプログラム(複数)は、ランダムアクセスメモリ1312に転送され、その後、プログラム(単数)又はプログラム(複数)の実行可能なコード並びに本発明を実施するために必要な変数及びパラメータを記憶するためのレジスタを格納する。
この実施形態では、装置は、本発明を実施するためのソフトウェアを使用するプログラム可能な装置である。しかしながら、代替的に、本発明は、ハードウェア(例えば、特定用途向け集積回路又はASICの形態)で実施されてもよい。
染色体の3D構造は代謝状態と相関することが示されている。従って、混合物中に共存する多くの種の3D構造を特徴付けることによって、それらの代謝状態を明らかにする可能性がある。これは、これらの種の「増殖」状態を互いに比較することによって解読し、メタ母集団の進化の間の異なる段階(例えばストレス、急速な増殖、休止など)を同定するために適用することができる。
さらに、このアプローチは、関与する異なる種の染色体間の相互作用に基づいて、共生及び寄生事象の同定に向けて押し進められる可能性がある(診断実験における潜在的な関心)。実際に、より多くの膜が遺伝物質を囲むほど、異なる細胞小器官に存在する物質が、3C再ライゲーション工程の間に相互作用することになる可能性が低くなる理由となり得る。言い換えれば、実験の「ノイズ」は、関与するDNAフラグメントの空間的近接性の指標となる。寄生虫のゲノムは、2つ(寄生虫及び宿主)のゲノムが空間内でより遠く離れている時に、その後に感染が起こる前に、例えば、細胞内増殖段階の間に、例えばマクロファージの液胞において、宿主ゲノムとより多く相互作用する可能性がある。信号対雑音比(雑音に対する)を増加させるためには、新しい架橋剤の開発が必要となるかもしれない。この適用は、診断ツールに続く侵襲的プロセスの開発にとって重要である可能性がある。
1以上の生物の染色体の断片を表す配列をアセンブルするための開示された方法は、生物学的サンプル中の真核細胞、原核細胞、又は微生物のゲノムを同定するために使用され得る。特に、開示された方法は、寄生生物、細菌、古細菌、真菌、酵母、及びウイルスタイプのうちの1つである、生物学的サンプル中の微生物のゲノムを同定するために使用され得る。それらの細胞及び微生物は、病原性、すなわち植物又は動物に対して病原性、又は非病原性であり得る。より特定の実施形態では、生物学的サンプルは、1以上の細胞種又は微生物種を含む(contain)又は含む(comprise)。
GRAALアルゴリズムがMeta3Cライブラリとともに使用可能である場合、他のタイプのDNAフラグメントのライブラリは、Hi−Cライブラリ又はショットガンライブラリ及びHi−Cライブラリの組み合わせなどを使用することができることを理解されたい。より一般的には、GRALLアルゴリズムは、DNAフラグメントを表し、これらのDNAフラグメントの場合には、いくつかの間の接触又は近接の情報項目を含むデータと共に使用することができる。
さらに、Meta3Cアプローチを介してゲノムの物理的特徴を利用することは、微生物、すなわちウイルス、特にバクテリオファージ(すなわち細菌内に感染し複製するウイルス)の複雑な集団の分析に関して重要な可能性を秘めていることに留意されたい。
ファージ粒子は、天然の集団において非常に多量に存在し、それらの溶解性は、それらが遠心分離によって微生物から容易に分離されることを可能にすることが想起されるべきである。バクテリオファージはバクテリア宿主内で増殖するので、バクテリオファージ粒子の全集団は微生物のサブセットに由来する。このバランスは健康状態又は環境条件を潜在的に反映するので、バクテリオファージ及び細菌集団の両方の組成を特徴付けることが重要である。
しかしながら、バクテリオファージゲノムは古典的なメタゲノム配列決定において同定することが困難であるため、バクテリオファージの粒子集団がどの細菌株由来かを解読することは困難である。同時に、可溶性画分中のファージ粒子のゲノム配列は、これらの配列の複雑なモザイクパターンが理由で、容易にアクセスすることができない。サンプル中の自然集団内のバクテリオファージ配列の良好な理解に達することは、これまで不可能であった。
上記のMeta3Cソリューションは、これらの問題を解決することができる。
図14から図17はそのようなアプリケーションの例を示している。図14は一般原則を示し、図15〜図17は図14に示す工程の詳細を示す。
生物学的サンプルを得た後(工程1400)、遊離又は独立したバクテリオファージ粒子の集団をサンプルの残りから単離する(工程1405)。次に、これらの粒子内に含まれ、サンプル又は集団のウイロームを形成する、バクテリオファージゲノム配列が同定される(工程1410)。そのような同定工程は、上記のようなMeta3Cプロセスに基づくことができる。並行して(又は前又は後に)、バクテリオファージ粒子が除去された残りの微生物(プラスミド、ウイルス)の全てのゲノムが同定される(工程1420)。
1425で示される、工程1405、1410、及び1415は、図15を参照してより詳細に説明される。
図15に示すように、第1の工程(工程1500)は、生物学的サンプルを2つのアリコートに分割することを目的とし、一方はバクテリオファージ粒子の配列を同定するために使用され、他方は、ゲノム、プラスミド及びバクテリオファージ粒子を除去した後の微生物のウイルス配列の全てを同定するために使用される。
次に、バクテリオファージ粒子を第1のアリコートの天然サンプルから単離する(工程1505)。これらの粒子を溶解し、バクテリオファージDNA分子を溶液中に回収する(工程1510)。このDNAは裸である。
次の工程では、例えば、標準的な市販のキットを用いて、インビトロでクロマチンを再構築する(工程1515)。当然のことながら、広範囲の距離にわたる、架橋する化学的な、架橋する裸のDNA領域を設計すること、又は、ヒストン及びヒストン様タンパク質抽出物の使用など、他の選択肢も可能である。
次いで、クロマチンはMeta3Cを用いて処理され、Meta3Cデータは、ウイルス粒子を含む可溶性画分に存在するバクテリオファージ配列のカタログを生成することができる(工程1520)。
同時に、バクテリオファージ粒子を除いた天然サンプルを上記のようにMeta3Cで処理する(工程1525)。このコミュニティに存在する微生物のゲノムが特徴付けられる。
次いで、プラスミド及びウイルス及びバクテリオファージ(両者エピソームの下、すなわち染色体外、又は統合された、すなわちプロファージ形態)も、上記のように3D接触中の濃縮に基づいて特徴付けられ、それらのそれぞれの宿主細胞に割り当てられる(図14の工程1420)。
これらの生物内で同定されたバクテリオファージ配列を、可溶性画分に存在するバクテリオファージの配列と比較する。これは、どの細菌が可溶性画分に見られる異なるバクテリオファージを産生しているかを明らかにする。
1530で示される工程1505及び1510を実行する例が図16に示され、1535で示される工程1515及び1520を実行する例が図17に示される。
図18は、図14〜図17に示された工程を示す。
図示のように、生物学的サンプル1800は、細胞、例えば細胞1805−1、1805−2、及び1805−3、並びに総称して1810又は1810’で示されるバクテリオファージ粒子を含む。
各細胞は、典型的には、細菌ゲノム及びプラスミドゲノム並びにバクテリオファージゲノムを含む。例示のために、細胞1805−1は、バクテリオファージ粒子1810−1、バクテリオファージゲノム1835−1及び細菌ゲノム1815−1を含む。遊離バクテリオファージ又は独立バクテリオファージで表示されるこれらのバクテリオファージのいくつかは、参照1810’に示されるように、細菌の外部に存在するバクテリオファージ粒子へと増殖し得る。
上述したように、及び参照1820に示されるように、細菌外のバクテリオファージ粒子は、バクテリオファージゲノムの配列を決定するように生物学的サンプルから抽出され、ファージオーム(phageome)を形成する。
同時に、参照1825に例示されるように、バクテリオファージ粒子が除去された生物学的サンプルの細菌、プラスミド及びバクテリオファージゲノムが配列決定される。
次に、参考1830に示されるように、ファージオームとゲノムとの間の対応関係が確立される。
当然のことながら、局所的及び特定の要件を満たすために、当業者は、上述した解決策に多くの修正及び変更を適用することができるが、これらは全て、以下の特許請求の範囲に定義される本発明の保護の範囲内に含まれる。

Claims (25)

  1. 少なくとも1つのライブラリの全てのDNAフラグメントを表す未処理のサブ配列のセットに基づき、少なくとも1つの生物の少なくとも1つの染色体の少なくとも1つの断片を表す少なくとも1つの配列をアセンブルするためのコンピュータのための方法であって、前記少なくとも1つのライブラリが、前記少なくとも1つの染色体の連続したヌクレオチドの鎖を含むDNAフラグメントを含み、かつ、前記少なくとも1つの染色体の連続するヌクレオチドの少なくとも2つの鎖の組合せを含むDNAフラグメントを含むものであり、
    前記方法が、以下の工程:
    −前記少なくとも1つの染色体のDNA領域間の接触頻度を表す第1の値を得る工程であり、ここで前記第1の値が、対応するDNA領域間の距離を表す第2の値と関連づけられる、工程;及び
    −反復して以下の工程を実行する工程:
    −前記第1及び第2の値に基づいて、及び、DNA領域間の接触確率と対応するDNA領域間の距離とを関連付ける理論モデルに基づいて、ゲノム構造を更新する工程であって、更新されたゲノム構造が、前記少なくとも1つの生物の前記少なくとも1つの染色体の前記少なくとも1つの断片の実際のゲノム構造を表す、工程;及び
    −前記更新されたゲノム構造の関数として、前記理論的モデルのパラメータを更新する工程、
    を含む、方法。
  2. 2つのDNA領域間の距離が、所定の経路に沿った2つのDNA領域間の距離及び/又は2つのDNA領域間の空間距離の関数として決定される、請求項1に記載の方法。
  3. 少なくとも1つのライブラリの全てのDNAフラグメントを表す未処理のサブ配列を、複数のビンに分割する工程をさらに含む、請求項1又は2に記載の方法。
  4. 複数のゲノム候補構造を生成する工程と、生成された候補ゲノム構造のそれぞれについて、実際のゲノム構造に近い明示的尤度値を計算する工程をさらに含む、請求項1〜3のいずれか1項に記載の方法。
  5. 前記複数のゲノム候補構造を生成する工程が、転座、欠失、逆位及び重複の少なくとも1つの変異を含む所定の構造変化に基づく、請求項4に記載の方法。
  6. 前記生成されたゲノム候補構造の1つが、複数試行メトロポリスタイプ(multiple try Metropolis type)の法則に従って、関連する尤度値の関数として選択される、請求項4又は請求項5に記載の方法。
  7. 前記ゲノム候補構造が、ビンの構造的変異によって決定される、請求項3に従属する請求項4〜6のいずれか1項に記載の方法。
  8. 前記理論モデルパラメータを更新する工程が、ギブスサンプラタイプ(Gibbs sampler type)のアルゴリズムに基づく、請求項1〜7のいずれか1項に記載の方法。
  9. 前記理論モデルが、DNA領域間の染色体内及び染色体間接触からDNA領域間の染色体内接触を識別するために使用される閾値を表す少なくとも1つのパラメータを含む、請求項1〜8のいずれか1項に記載の方法。
  10. 前記理論的モデルは、DNA領域間の染色体内接触又はDNA領域間の染色体内及び染色体間接触と、異なる生物間の接触とを識別するために使用される閾値を表す少なくとも1つのパラメータを含む、請求項1〜9のいずれか1項に記載の方法。
  11. 前記少なくとも1つのライブラリのDNAフラグメントをクラスタ化する工程をさらに含み、各クラスタが特定の生物に関連し、クラスタ化されたDNAフラグメントに対応する未処理のサブ配列がクラスタベースの配列決定用に処理される、請求項1〜9のいずれか1項に記載の方法。
  12. 前記ライブラリのDNAフラグメントをクラスタ化する工程が、ルーバインタイプ(Louvain type)のアルゴリズムに基づく、請求項11に記載の方法。
  13. 前記少なくとも1つの生物の前記少なくとも1つの染色体の前記少なくとも1つの断片を表す前記少なくとも1つの配列中の少なくとも1つのDNA配列を同定する工程をさらに含む、請求項1〜12のいずれか1項に記載の方法。
  14. 少なくとも1つの生物の全体的な染色体構造を特徴付けるための、請求項1〜12のいずれか1項に記載の方法であって、全体的な染色体構造が対応するゲノムの三次元構造から特徴付けられる、前記少なくとも1つの生物の代謝状態を推測する工程をさらに含む、方法。
  15. 生物学的サンプル中の真核細胞、原核細胞、又は微生物のゲノムを同定するための方法であって、前記方法が、請求項1〜14のいずれか1項に記載の少なくとも1つの生物の少なくとも1つの染色体の少なくとも1つの断片をアセンブルする方法の各工程を含む、方法。
  16. 生物学的サンプル中の微生物のゲノムを同定するための請求項15に記載の方法であり、前記微生物が、寄生生物、細菌、古細菌、真菌、酵母及びウイルスタイプの1つである、方法。
  17. 請求項1〜16のいずれか1項に記載の方法であり、さらに、以下の工程:
    −少なくとも1つの染色体の少なくとも1つの断片を含む、調製された生物学的サンプルの染色体断片を架橋する工程;
    −少なくとも2つの異なるタイプの制限酵素を用いて架橋された染色体を断片化する工程;及び
    −断片化工程から得られる染色体の断片を配列決定する工程、
    を含む方法。
  18. 少なくとも1つの生物の少なくとも1つの染色体の少なくとも1つの断片をアセンブルする方法であり、前記方法が、以下の工程:
    −少なくとも1つの染色体の少なくとも1つの断片を含む生物学的サンプルを調製する工程;
    −調製された生物学的サンプルの染色体の断片を架橋する工程;
    −少なくとも2つの異なるタイプの制限酵素を用いて架橋された染色体を断片化する工程;
    −断片化工程から生じる染色体の断片を配列決定する工程;及び
    −染色体の配列決定された断片をアセンブルする工程、
    を含む、方法。
  19. 調製された生物学的サンプルの染色体の断片の架橋が、3%の最終濃度を有するホルムアルデヒドを用いて実施される、請求項18に記載の方法。
  20. 架橋した染色体のガラスビーズ又はセラミックビーズに基づく機械的溶解工程をさらに含み、機械的溶解が、少なくとも2つの異なるタイプの制限酵素を用いて断片化する前に実施される、請求項18又は19に記載の方法。
  21. 生物学的サンプルのウイローム(virome)とゲノムとの間の対応関係(correspondence)を確立する方法であり、前記方法が以下の工程:
    −生物学的サンプルから独立したウイルス粒子の集団を抽出する工程;
    −請求項1〜17のいずれか1項に記載の方法に基づいて、独立したウイルス粒子の抽出された集団のウイルスゲノム配列を同定する工程であって、同定されたウイルスゲノム配列がウイロームを形成する、工程;
    −生物学的サンプル中の細菌、プラスミド及びウイルスゲノム配列を同定する工程であって、ここで、生物学的サンプルのゲノムを形成するために、請求項1〜17のいずれか1項に記載の方法に基づいて、ウイルス粒子の集団が抽出されたものである、工程;及び
    −生物学的サンプルのウイロームとゲノムとの間の対応関係を、物理的接触に基づいて確立する工程、
    を含む、方法。
  22. 前記ウイロームがファージオーム(phageome)であり、かつ、前記ウイルス粒子がバクテリオファージ粒子である、請求項21に記載の方法。
  23. 抽出されたバクテリオファージ粒子集団のバクテリオファージを溶解する工程、溶解されたバクテリオファージのDNAを抽出する工程、及び抽出されたDNAからクロマチンを再構築する工程、をさらに含む、請求項22に記載の方法。
  24. 請求項1〜23のいずれか1項に記載の方法の各工程を実行するように構成された手段を含む装置。
  25. プログラム可能な装置のためのコンピュータプログラム製品であり、プログラムがプログラム可能な装置によってロードされて実行された場合、前記コンピュータプログラム製品が、請求項1〜16のいずれか一項に記載の方法の各工程を実行するための命令を含む、コンピュータプログラム製品。
JP2016574372A 2014-06-24 2015-06-24 1又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム Pending JP2017525339A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14305997.0 2014-06-24
EP14305997.0A EP2960818A1 (en) 2014-06-24 2014-06-24 Method, device, and computer program for assembling pieces of chromosomes from one or several organisms
PCT/EP2015/064286 WO2015197711A1 (en) 2014-06-24 2015-06-24 Method, device, and computer program for assembling pieces of chromosomes from one or several organisms

Publications (1)

Publication Number Publication Date
JP2017525339A true JP2017525339A (ja) 2017-09-07

Family

ID=51136399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016574372A Pending JP2017525339A (ja) 2014-06-24 2015-06-24 1又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20170169161A1 (ja)
EP (2) EP2960818A1 (ja)
JP (1) JP2017525339A (ja)
CN (1) CN106471509A (ja)
WO (1) WO2015197711A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190385703A1 (en) * 2016-06-08 2019-12-19 The Broad Institute, Inc. Linear genome assembly from three dimensional genome structure
CN109055491A (zh) * 2018-09-18 2018-12-21 武汉菲沙基因信息有限公司 一种适用于植物的Hi-C高通量测序建库方法
CN111909983A (zh) * 2020-08-25 2020-11-10 武汉菲沙基因信息有限公司 一种适用于微生物宏基因组学Hi-C高通量测序建库方法及应用
CN114566212B (zh) * 2022-04-29 2022-09-16 天津诺禾致源生物信息科技有限公司 大于10G的基因组Hi-C挂载的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130096009A1 (en) * 2008-09-25 2013-04-18 University Of Massachusetts Methods of identifying interactions between genomic loci
JP2013531983A (ja) * 2010-06-11 2013-08-15 パソジェニカ,インコーポレイテッド 多重生物検出のための核酸ならびにその使用および製造方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4063518A1 (en) * 2010-07-09 2022-09-28 Cergentis B.V. V3-d genomic region of interest sequencing strategies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130096009A1 (en) * 2008-09-25 2013-04-18 University Of Massachusetts Methods of identifying interactions between genomic loci
JP2013531983A (ja) * 2010-06-11 2013-08-15 パソジェニカ,インコーポレイテッド 多重生物検出のための核酸ならびにその使用および製造方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BEITEL C ET AL: "Strain- and plasmid-level deconvolution of a synthetic metagenome by sequencing proximity ligation p", PEERJ, vol. Vol. 2, JPN6019009900, 27 May 2014 (2014-05-27), pages DOI 10.7717/peerj.415 *
BURTON J ET AL: "Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions", NATURE BIOTECHNOLOGY, vol. Vol. 31, No. 12, JPN6019009898, 2013, pages p. 1119-1125 *
BURTON J ET AL: "Species-level deconvolution of metagenome assemblies with Hi-C-based contact probability maps", G3, vol. Vol. 4, JPN6019009897, 22 May 2014 (2014-05-22), pages p. 1339-1346 *
KAPLAN N ET AL: "High-throughput genome scaffolding from in vivo DNA interaction frequency", NATURE BIOTECHNOLOGY, vol. Vol. 31, No. 12, JPN6019009899, 2013, pages p. 1143-1147 *

Also Published As

Publication number Publication date
EP2960818A1 (en) 2015-12-30
CN106471509A (zh) 2017-03-01
US20170169161A1 (en) 2017-06-15
EP3161699A1 (en) 2017-05-03
WO2015197711A1 (en) 2015-12-30

Similar Documents

Publication Publication Date Title
Marie-Nelly et al. High-quality genome (re) assembly using chromosomal contact data
Carr et al. Probing the mobilome: discoveries in the dynamic microbiome
Diss et al. The genetic landscape of a physical interaction
Putnam et al. Chromosome-scale shotgun assembly using an in vitro method for long-range linkage
Prakash et al. Functional assignment of metagenomic data: challenges and applications
KR102215219B1 (ko) 승법형 모델을 이용하여 생체분자를 확인하기 위한 방법, 시스템, 및 소프트웨어
JP2017525339A (ja) 1又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム
Sahoo et al. Residue proximity information and protein model discrimination using saturation-suppressor mutagenesis
WO2017214461A1 (en) Linear genome assembly from three dimensional genome structure
Dai et al. Characterizing the existing and potential structural space of proteins by large-scale multiple loop permutations
Taylor et al. Deep mutational scans of XBB. 1.5 and BQ. 1.1 reveal ongoing epistatic drift during SARS-CoV-2 evolution
Harrington et al. Predicting biological networks from genomic data
Gopalakrishnan et al. Whole‐Genome Sequencing of Yeast Cells
Liberles et al. The use of phylogenetic profiles for gene predictions
Lowe et al. Evaluating a lightweight transcriptome assembly pipeline on two closely related ascidian species
Yamada et al. Extraction of phylogenetic network modules from prokayrote metabolic pathways
CN114245922A (zh) 单一生物单元的序列信息的新型处理方法
Gao et al. Exploring the roles of ribosomal peptides in prokaryote-phage interactions through deep learning-enabled metagenome mining
Quentin et al. Single-strand DNA processing: phylogenomics and sequence diversity of a superfamily of potential prokaryotic HuH endonucleases
Lu et al. Computational viromics: applications of the computational biology in viromics studies
Pokusaeva et al. Experimental assay of a fitness landscape on a macroevolutionary scale
Lobkovsky et al. Estimation of prokaryotic supergenome size and composition from gene frequency distributions
Xia et al. Thermostability of lipase A and dynamic communication based on residue interaction network
Simmonds et al. CZ ID: a cloud-based, no-code platform enabling advanced long read metagenomic analysis
Ulrich Advanced Methods for Real-time Metagenomic Analysis of Nanopore Sequencing Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190326

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190625

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191119