JP2023517904A - 細菌ゲノムにおいてゲノム配列を検出するための分子技術 - Google Patents

細菌ゲノムにおいてゲノム配列を検出するための分子技術 Download PDF

Info

Publication number
JP2023517904A
JP2023517904A JP2022554201A JP2022554201A JP2023517904A JP 2023517904 A JP2023517904 A JP 2023517904A JP 2022554201 A JP2022554201 A JP 2022554201A JP 2022554201 A JP2022554201 A JP 2022554201A JP 2023517904 A JP2023517904 A JP 2023517904A
Authority
JP
Japan
Prior art keywords
genome
genomic
cluster
sequence
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022554201A
Other languages
English (en)
Inventor
フィリピーヌ バルラス,
ダンセット, マガリ ジャイヤール
アザミ, メリエム エル
ピエール マエー,
マウト トゥールノー,
ピエール ベリエ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biomerieux SA
Original Assignee
Biomerieux SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biomerieux SA filed Critical Biomerieux SA
Publication of JP2023517904A publication Critical patent/JP2023517904A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

デジタル形式の微生物のゲノムにおいて、デジタル形式のゲノム配列を検出するためのコンピューター実施方法であって、-前記ゲノム配列全体にわたり、一定のピッチで、長さkのウィンドウをスライドさせることにより取得される、一定長さkのデジタルゲノム配列、または「k-mer」のセットをコンピューターメモリー内に保管すること(60)と、-k-mer毎に、前記ゲノム内でのその不存在または存在を判定すること(802)と、-前記ゲノム内に存在するものとして検出されたk-merの割合(%)が事前に決定された閾値を上回る場合、前記ゲノム配列が前記ゲノム内に存在するものとして判定すること(806、808)とを含む方法。【選択図】図16

Description

本発明は、細菌ゲノミクスに適用される分子生物学の技術分野、特に細菌の表現型形質をそのゲノムから予測する分野に関する。本発明は、生体サンプル中に存在する細菌の抗生物質感受性(susceptibility)および病毒性の予測に具体的に適用される。
A.表現型予測のための分子技術
抗生物質に対する細菌株の感受性(susceptibility)、すなわちヒトまたは動物に投与される抗生物質に基づく治療の文脈における細菌株の感受性(sensitivity)または耐性は、ヒトによって直接観察することができない。特に、菌株を直接観察しても(顕微鏡を使用したとしても)、抗生物質に対する菌株の挙動を判定するのは不可能である。細菌の文脈におけるin vitro診断は、本来、このような表現型の性質を観測可能にし、したがって最終的に臨床医にとって利用可能となるようにすることにある。20世紀において、in vitro診断技術は、本質的には、とりわけサンプル中に存在する細菌株を可視化し、そして操作可能にするための培養に基づくサンプル調製技術と、抗生物質の存在下で菌株の挙動を光学的に測定するための技術との併用であった。例えば、従来の微生物学における研究室ワークフローは、第1に、細菌感染症を有するものと疑われる患者から得られたサンプルを培養培地上に塗抹して、インキュベーション後にヒトオペレーターまたは自動化システムにとって視認可能な細菌コロニーを生成することと関係する。第2段階では、コロニーが十分大きければ、技師または自動化システムはコロニーを採取し、該コロニーを異なる濃度の抗生物質と混合し、そして混合物をデバイス(各混合物の光学濃度を測定し、それから抗生物質に対する感受性(susceptibility)を推測する)中に導入する。光学濃度は細菌の増殖を示唆するので、光学濃度は細菌の感受性(sensitivity)または耐性を明確に特徴づけるが、濃度が増加する場合、これは、抗生物質が存在するにもかかわらず細菌が増殖していること、したがって細菌は、検討対象の抗生物質の濃度において該抗生物質に対して耐性であることを意味する。
今日、サンプル調製技術と光学濃度に基づく測定技術との併用は、原核生物界における急速な世界的広がり、すなわち抗生物質に対する多剤耐性の獲得(2050年にはがんよりも多くの死亡に関係すると見積もられている)に直面し、重大な制約を有する。まず第1に、このような技術は細菌に関して依存的である。特に、選択された培養培地に応じて、ある特定の菌株が増殖するがその他は増殖せず、したがってこのような技術は、すべての細菌種について抗生物質感受性(susceptibility)を特徴づけるのは不可能である。第2に、このような技術は長時間を要する細菌培養に基づくので、きわめて遅い。したがって、細菌のアンチバイオグラムを取得するのに、サンプルを採取したときから少なくとも30時間を要する。このような遅延により、第一選択治療として広域スペクトル抗生物質カクテルの投与を系統的に受けている患者を効果的に治療することができない。患者にとっての重大性に付加して、抗生物質をこのように不適切かつ大規模に投与すると、多剤耐性菌の選択圧力が強まり、したがってその増殖傾向に寄与する。したがって、従来のin vitro診断技術は患者を治療するにはいっそう不適切となり、ある程度ではあるが、多剤耐性の出現理由の1つに数えられると現在考えられている。
分子生物学技術、特に細菌DNAおよび/またはRNAの特徴付け技術、例えばポリメラーゼ連鎖反応(PCR)、DNAチップまたはシークエンシング等の成熟により、研究室での抗生物質耐性分析においてパラダイムシフトが生じている。第1に、そのような技術は、細菌種に対してより非依存的である。例えば、メタゲノム技術は、存在する細菌種を問わず生体サンプル中の細菌DNAの処理を可能にする。第2に、そのような技術は、例えばPCR(20分足らずで結果をもたらす)等を用いることで、数時間内に結果を提供することを目指す。一方、抗生物質感受性(susceptibility)を特徴づけるための分子技術は、前記感受性(susceptibility)を特徴づけるゲノムシグネチャー(遺伝子の不存在/存在、遺伝子突然変異、予測モデル等)に基づく。図1は、細菌感染症を有するものと疑われる患者を治療するための微生物学的ワークフローにおいて適用される2つの細菌DNA特徴付け技術、すなわちPCR技術10および全ゲノムシークエンシング(WGS)技術20について、単純化された非限定的な方式で例証する。両ワークフローは、患者からの生体サンプルの収集12から開始し、PCR技術10またはWGS技術20の適用がそれに後続し、それぞれ1つまたは複数の抗生物質に対する感受性(susceptibility)を特徴づけるゲノムシグネチャーの結果106、210をもたらし、その結果に基づいて抗生物質治療法が選択され、そして14において臨床医により患者に投与される。基本的に、分子技術はそれぞれ、PCR104そのもの、例えばBiofire社製Filmarrayプラットフォームを使用して実施されるネステッドPCRを適用する前、またはシークエンシング204、例えばIllumina社製MiSeqプラットフォームを使用して実施されるSBSシークエンシングを適用する前に、採取されたサンプルの調製102、202を必要とする。
これら2つの分子技術間の主要な差異のうちの1つは、ゲノムシグネチャーの性質である。PCRの場合、ゲノムシグネチャーは分子であり、したがって実体的である:該分子は反応混合物に導入されるプライマーに翻訳され、このプライマーは混合物に導入された細菌DNA配列を特異的に標的とし、そしてその検出は、光学的シグナルを測定することにより一般的に達成される。対照的に、WGSの場合は、シークエンシングはデジタルゲノムを生成するので、ゲノムシグネチャーはデジタルであり、また前記ゲノムの処理はコンピューター化される。一方、WGS技術は、最低でもPCRゲノムシグネチャーの導入を可能にし、とりわけデジタルゲノムの複雑な利用、およびPCR技術を使用するのでは導入不可能である抗生物質感受性(susceptibility)の予測的モデルの使用を可能にする。したがって、WGS技術は、有利にはゲノムシグネチャーのコンピューター設計30に基づき、この設計は、有利には、複合的分析ツール、例えば機械学習技術、例えば倹約的制約付きロジスティック回帰等の支援を得て、大規模なゲノムおよび表現型知識ベースを利用する。
ことほどさように、すべての分子技術は、同一の技術的基盤、すなわち細菌株からのゲノム情報の測定、および抗生物質の存在下での菌株の挙動に関する情報を抽出するための前記情報の処理に基づく。それに加えて、このコンピューター技術、より具体的にはシークエンシングの技術は、より旧来的な微生物学的技術からなる光学濃度分析法と関連する技術とは本質的に異なるが、コンピューター技術が実施するin vitro診断の技術的性質に変わりはない。例えば、感染性診断の場合、それは、患者が細菌感染症を有するか判定するため、および抗生物質の存在下で感染性細菌の挙動を理解して適切な抗生物質治療を投与するために、生体サンプルを処理するための技術を適用するという問題に過ぎない。
B.表現型予測のための分子技術の解釈可能性
ゲノムシグネチャーにより具体的に着目すると、第1のアプローチは、細菌ゲノムにおいてこれまでに特定された抗生物質耐性マーカーを特定すること(「直接関連付け」アプローチと呼ばれる)からなる。いくつかの種、例えば結核菌(Mycobacterium tuberculosis)等で認められたほとんどの耐性機構の場合と同様に、耐性を引き起こす遺伝的機構が周知されておりかつ単純であるとき、このアプローチは有効であるが、重大な制約(多くの種および抗生物質において耐性機構の知識が不完全であること:その結果、例えばデータベースの不完全性、マーカーの予知力における差異を考慮することの困難性、そして抗生物質感受性(susceptibility)の多因子的な側面(例えば、エピスタシス、複数の突然変異の複合等)等がもたらされる)が悩みの種である。このような難問に直面し、抗生物質感受性(susceptibility)の遺伝子決定論は、最新のコンピューター技術に基づく新規アプローチにより、特に教師あり機械学習技術により、より効率的に対処されつつあるが、その学習および応用アーキテクチャーは、以下のように要約することができる:
A.細菌株について一連の学習を行う場合:
a.各菌株が配列決定され、そして表現型として特徴づけられる(例えば、その最低阻止濃度の測定、および/または1つまたは複数の抗生物質に対する菌株の感受性(susceptibility)(耐性、中間、または感受性(sensitive))の測定);
b.抗生物質に対する感受性(susceptibility)を予測するためのコンピューターモデルが、ゲノムおよび表現型データから訓練される。
B.ステップA-aに由来する抗生物質に対する感受性(susceptibility)が追及される新規菌株の場合:
a.菌株が配列決定される;
b.コンピューター予測モデルが該菌株のデジタルゲノムに適用され、該菌株の感受性(susceptibility)が決定される。
上記一般的な説明は、細菌ゲノムについて記述する機械学習変数を最初に定義することと関係する。前記ゲノムを記述する多くの方法が存在し、そのうちの1つは、「k-mer」での記述、すなわちゲノムを構成する長さk(すなわち、塩基の数)の核酸配列のリストである。M.Jaillard Dancetteの論文、「Vers une cartographie des polymorphisms lies a la resistance aux antimicrobiens [Toward a mapping of polymorphisms related to antimicrobial resistance]」、2018に記載されるように、この記述法は、ハプロイドであり、また真核生物ゲノムと比較してきわめて可塑的である細菌ゲノムに対して特に適する。換言すれば、この記述法は、細菌における抗生物質感受性(susceptibility)の基礎となる遺伝的機構の多様性を効率的に記述する。
しかしながら、この記述法は、下記事項を含む、機械学習技術に悪影響を有しかねないいくつかの欠点を有する:
a.k-merはきわめて冗長である:保存されたゲノム領域をカバーするk-merは共起性であり得る、すなわちゲノムのセット内に系統的に存在したり存在しなかったりし、したがって統計的に等価である;
b.一部のk-merはゲノム領域に対して非特異的であり、したがって注解を付す、すなわち構造的または機能的に特徴づけるのが困難である(遺伝子、突然変異等);
c.ゲノム-感受性(susceptibility)の関連付けはきわめて高次元の問題であり、1ゲノム当たりのk-merの数は数十万または百万さえも上回り、したがって冗長性および非特異性が、学習ツールに対して相関性の高い変数をもたらす。
高リスク分野、特にヒトの健康の分野の場合、変数の次元数を低下させて、予測モデルの解釈可能性を高めることが重要である。特に、機械学習ツールは学習データ内のバイアス、例えばゲノム多様性の欠如、および細菌ゲノムの関数として感受性(susceptibility)を公式化したときの不完全性と関連するバイアス、例えば異なるゲノム領域間の強い相関性を考慮する際の不具合に影響を受けやすい(sensitive)。次元数を低下させることにより、学習ツール専門家および細菌ゲノミクス専門家の両方にとって、予測モデルの解釈がしやすくなり、バイアスの検出が可能になり、したがって適する学習データの構築または学習ツールが解決しようとする問題の再公式化が可能になる。同様に、予測モデルの解釈可能性が向上しているので、予測モデルは、その分析後に明らかなバイアスが存在しなければ、高リスク分野で使用するための妥当性を確認することがより容易になる。
次元数の強力な低下を可能にするツールの中でも、倹約的自動学習ツール、例えば罰則付きラッソ回帰(penalized lasso regression)またはデシジョンツリーに基づくツールが、1000または100ものオーダーのいくつかの予測的k-mer(すなわち予測モデル内に保持されているk-mer)の取得を可能にする。しかしながら、これらのツールは、変数の相関性が高い高次元環境において不安定である。したがって、これらのツールは、何らかの生物学的リアリティーを必ずしも有さないゲノム単位を共に形成する予測因子変数を選択する可能性があり、したがって予測モデルは解釈が困難なまま存続する。ある特定の技術、とりわけL1タイプペナルティーとL2タイプペナルティーとを組み合わせて、相関性を有する予測因子変数の群の選択をもたらす弾性ネットペナルティーに基づく回帰が、変数間の強い相関性を考慮することができる。しかしながら、このクラスタリングは主にアルゴリズム的なままに留まること、および保持された変数の群は生物学的に解釈するのがなおも困難であることに留意すべきである。
その他のツール、例えばグループラッソツールは、記述変数をゲノムユニットに演繹的にクラスタリングするのを可能にする。この文脈において、あるユニット内のすべての変数は、グループラッソ戦略によるユニットの選択または非選択に依存して予測的または非予測的のいずれかである。しかしながら、k-merでの記述法は上記理由から解釈するのが困難であるので、解釈的ユニット内での演繹的定義も困難である。特に、この記述法は、高次元空間では相関性が高まるという現象が、細菌ゲノミクスにおける専門家により十分理解され、また定説となっていることを前提とするが、このような現象に対する知識の欠如、また知識の不完全性が、機械学習アルゴリズムにおけるバイアスに変換されるということが理由である。
C.分子予測技術の生物学的変動に対する適用
上記で提示した問題と並行して、予測がゲノム配列の群に基づくとき、クラスターを構成するすべての配列がゲノム内に同一の様式ですべて存在する場合、群が菌株のゲノム内に存在するかということに関して疑問が生ずる。そのような基準が適用される場合、学習データは、細菌種のすべてのゲノム変動を包含するのに完全であるということが前提となる。所与の時点において学習データの完全性を判断するのは困難であるという事実に付加して、前記データは、ある特定の細菌種において、そのゲノムのきわめて有意な可塑性に起因して、長期にわたり不完全となることが非常に多い。また、過剰に厳格な基準を適用すると、高頻度の偽陽性または偽陰性も引き起こす。
さらに、配列決定されたゲノムが、とりわけ「読み取り(read)」の形態である、すなわち何らかのバイオインフォマティクス処理、例えばコンセンサスアセンブリまたは不良品質の読み取りのフィルタリング等の前の、シークエンシングプラットフォームのアウトプット時に生成された配列であるとき、配列決定されたゲノムは誤差により劣化し得る。この場合、配列はゲノム内に存在するものの、シークエンシング誤差に起因して不存在として検出される場合があり、またその逆も成り立つ。特に、バイオインフォマティクス処理は、低品質の読み取りのフィルタリング、および任意選択的にアセンブルされた配列または「contig」を取得するための、フィルタリング後の読み取りについて行われるコンセンサスアセンブリを一般的に含む。アセンブリの任意選択的な性質は、サンプル分析が実施される文脈に一般的に依存する。アセンブリの効果として、contigにおいてシークエンシング誤差を、現時点において、Illumina Inc.,社のプラットフォームで使用されるSBS技術の場合、10-5のレベルまで、およびOxford Nanopore Technologies Ltd.社のプラットフォームで使用されるナノポア技術の場合、10-2のレベルまで有意に低下させることが挙げられる。一方、アセンブリは、高い演算能力および時間を必要とするので、コンピューティング環境が一般的に非常に強力というわけではない「POC」(ポイントオブケア)ゲノムアプリケーション、および/または高速もしくはリアルタイムといったアプリケーションにとって非常に相性が良いとはいえない。この文脈において、例えば、これまでに記載されたように、サンプル中に存在する1つもしくは複数の種の同一性、および/またはそのような種の1つもしくは複数の抗生物質に対する感受性(susceptibility)を判定するためのゲノム分析が、フィルタリング後またはフィルタリング前の読み取りにおいて直接実施される。しかしながら、シークエンシング誤差は、SBS技術について2~3%のオーダー、およびナノポア技術について最大12%である。特別な注意を払わなければ、ゲノム分析は同じように高い誤差率を引き起こすおそれがある。
1つまたは複数の抗生物質に対する細菌株の感受性(susceptibility)について、そのゲノム予測と関連して今記載された問題は、菌株の表現型形質、例えばその病毒性またはそのリボタイプについてゲノム判定する場合、いずれについても同様に発生する。
本発明の目的は、微生物、とりわけ細菌株、酵母菌株、または糸状菌株のゲノムにおいて、ゲノム配列の存在または不存在を確実に検出できるようにすることである。
このために、本発明の1つの主題は、デジタル形式の微生物のゲノムにおいて、デジタル形式のゲノム配列を検出するためのコンピューター支援式の方法であって、
-ゲノム配列全体にわたり、一定ステップで、長さkのウィンドウをスライドさせることにより取得される、一定長さkのデジタルゲノム配列、または「k-mer」のセットをコンピューターメモリー内に保管することと、
-k-mer毎に、ゲノム内でのその不存在または存在を判定することと、
-ゲノム内に存在するものとして検出されたk-merの割合(%)が事前に決定された閾値を上回る場合、ゲノム配列がゲノム内に存在するものとして判定することと
を含む方法である。
1つの実施形態によれば、ゲノム内のk-merの存在または不存在の判定は、ゲノムにおいてk-merの少なくとも1つの同一コピーを検出することにより得られる。
特に、デジタルゲノムは、シークエンシングプラットフォームにより生成されたゲノム配列、または「読み取り」のセットから構成され、それに基づき、ゲノムにおけるk-merの存在または不存在の判定が、ゲノムにおいてk-merのNcov個の同一コピーを検出することにより得られ、但し整数Ncovは、
Figure 2023517904000002
に等しく、式中、Nはデジタルゲノムに含まれる塩基の合計数であり、Nは微生物が属する種の参照ゲノムの塩基の合計数であり、およびτは5%~15%の割合(%)、特に10%である。
特に、微生物のゲノムは、サンプルの直接シークエンシングに由来するゲノムのセットに含まれ、各デジタルゲノムはシークエンシングプラットフォームにより生成されたゲノム配列、または「読み取り」のセットから構成され、それに基づき、ゲノムにおける存在または不存在の判定が、ゲノムにおいてk-merのNcov個の同一コピーを検出することにより得られ、但し整数Ncovは、
Figure 2023517904000003
に等しく、式中、Nはデジタルゲノムに含まれる塩基の合計数であり、Nは微生物が属する種のゲノムの塩基の平均合計数であり、ρはサンプル中に存在する微生物の相対的割合(%)であり、およびτは5%~15%の割合(%)、特に10%である。
1つの実施形態によれば、事前に決定された閾値は、ゲノム配列の長さに依存する。特に、前記事前に決定された閾値の値は、ゲノム配列の長さの数値に伴い減少する。
好ましくは、ゲノム配列の長さの空間は3つの間隔に分割され、それに基づき、事前に決定された閾値は1間隔毎に一つの数値をとる。特に、kは15~50であり、これに基づき、L≦61の場合、suni=90%、61<L≦100の場合、suni=80%、および100<Lの場合にはsuni=70%であり、但しLはゲノム配列の長さであり、およびsuniは事前に決定された閾値の値である。
1つの実施形態によれば、ゲノム配列の群の検出が提供され、前記検出は、
-請求項1から9のいずれか一項に記載の方法に基づき、前記群の各ゲノム配列を検出することと、
-下記事項に該当する場合、
〇前記群の少なくとも1つのゲノム配列が検出される場合、または
〇前記群の全ゲノム配列が検出される場合、または
〇検出された前記群のゲノム配列の割合(%)が、第2の事前に決定された閾値を上回る場合、または
〇存在するものとして検出された、前記群のゲノム配列の割合(%)に等しい確率を有する場合、
ゲノム配列の群がゲノム内に存在するものと判定することと
を含む。
特に、第2の閾値は20%以上であり、好ましくは25%に等しい。
実施形態によれば、方法は、細菌株のゲノムを全体的または部分的に配列決定して、デジタル形式のゲノムを生成することも含む。
また、上記タイプの方法を実施するためのコンピューター実行可能なインストラクションを保管するコンピュータープログラム製品も本発明の主題である。
微生物のゲノムに含まれるゲノム配列を検出するためのシステムであって、
-前記株のゲノムを部分的または全体的に配列決定するためのシークエンシングプラットフォームと、
-請求項1から10のいずれか一項に記載の検出方法を適用するように構成されたコンピューターユニットと
を含むシステムも本発明の主題である。
本発明は、純粋に例として記載され、そして添付の図面(同一の参照番号は同一の要素または類似した要素を表す)に関連して作成された下記の説明を閲読すればより良く理解される。
抗生物質に対する細菌株の感受性(susceptibility)を予測するための先行技術のうち、2つの分子技術について例証する図である。 本発明による学習段階および予測段階のフローチャートを示す図である。 本発明によるMAFユニットの生成を例証する図である。 本発明による方法で使用されるクラスタリングを例証する図である。 本発明による予測閾値の選択を例証するROC曲線を示す図である。 細菌種(肺炎桿菌(Klebsiella pneumoniae))、および抗生物質(メロペネム)、ラッソ技術にしたがいおよび「クラスター-ラッソ」と命名される本発明の方法にしたがい取得された予測モデルの係数について例証し、ならびにblaKPC遺伝子として注釈付きの圧縮されたグラフのサブグラフ内の2つのモデル(ラッソモデルおよびクラスター-ラッソモデル)の予測的変数の場所についても例証する図である。 細菌種(肺炎桿菌)および抗生物質(セフォキシチン)について、ラッソモデルの最も予測的な拡張されたMAFユニットに関わる圧縮されたグラフのサブグラフ(左部分)、およびクラスター-ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ(右側の部分)を例証する図である。 サルモネラ(Salmonella)種および抗生物質(テトラサイクリン)について、ラッソモデルの係数の絶対値、クラスター-ラッソモデルの係数の絶対値、およびクラスター-ラッソモデルの最初から10個の最も予測的なクラスターに含まれるUnitigの数を例証する図である。 サルモネラ種および抗生物質(テトラサイクリン)について、ラッソモデルの最も予測的な拡張されたMAFユニットに関わる圧縮されたグラフのサブグラフ(左部分)、およびクラスター-ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ(右側の部分)を例証する図である。 サルモネラ種および抗生物質(ゲンタマイシン)について、ラッソモデルの係数の絶対値、クラスター-ラッソモデルの係数の絶対値、およびクラスター-ラッソモデルの最初から10個の最も予測的なクラスターに含まれるUnitigの数を示す図である。 サルモネラ種および抗生物質(ゲンタマイシン)について、ラッソモデルの最も予測的な拡張されたMAFユニットに関わる圧縮されたグラフのサブグラフ(左部分)、およびクラスター-ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ(右側の部分)を例証する図である。 淋菌(Neisseria gonorrhoeae)種および抗生物質(セフィキシム)について、ラッソモデルの最も予測的な拡張されたMAFユニットに関わる圧縮されたグラフのサブグラフ(左部分)、およびクラスター-ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ(右側の部分)を例証する図である。 淋菌種および抗生物質(セフィキシム)について、ラッソモデルの係数の絶対値、クラスター-ラッソモデルの係数の絶対値、およびクラスター-ラッソモデルの最初から10個の最も予測的なクラスターに含まれるUnitigの数を例証する図である。 黄色ブドウ球菌(Staphylococcus aureus)種および抗生物質(テトラサイクリン)について、ラッソモデルの最も予測的な拡張されたMAFユニットに関わる圧縮されたグラフのサブグラフ(左部分)、およびクラスター-ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ(右側の部分)を例証する図である。 黄色ブドウ球菌種および抗生物質(テトラサイクリン)について、ラッソモデルの係数の絶対値、クラスター-ラッソモデルの係数の絶対値、およびクラスター-ラッソモデルの最初から10個の最も予測的なクラスターに含まれるUnitigの数を示す図である。 ゲノム内のゲノム配列を検出するためのフローチャートを例証する図である。 ゲノム配列のk-merへの分解を示す図である。 ゲノム配列を検出するために達成されなければならない、ゲノム内のk-merの存在割合(%)を例証する図であり、この割合(%)は前記配列の長さに依存する。 肺炎桿菌株単離物について、シークエンシングカバレッジ深度の関数として、ラッソ予測のAUCおよびクラスター-ラッソ予測のAUCを例証する図である。ならびに 肺炎桿菌株を含むメタゲノムサンプルについて、シークエンシングカバレッジ深度の関数として、クラスター-ラッソ予測のAUCを例証する図である。 肺炎桿菌株を含むメタゲノムサンプルについて、シークエンシングカバレッジ深度の関数として、クラスター-ラッソ予測のAUCを例証する図である。
A.本発明の実施形態
図2Aおよび図2Bを参照すると、本発明による方法は、所与の細菌種に属する細菌株の抗生物質に対する感受性(susceptibility)を予測するためのモデルを、前記菌株の細菌ゲノムの関数として訓練する第1の部分30、および前記モデルを前記細菌種の菌株に適用してその未知の感受性(susceptibility)を予測する第2の部分40を含む。
第1の部分30は、300において、前記菌種についてゲノムおよび表現型のデータベースを確立することにより開始する。特に、例えば前記菌種に感染した患者から菌株のセットが収集され、そして収集した菌株それぞれについて、例えばIllumina社製のMiSeqシークエンシングプラットフォームを使用しながら配列決定を行ってその全ゲノムを取得し、そして例えば、bioMerieux社製のVitek2を使用しながら、アンチバイオグラムを確立して、CLSI標準またはEUCAST標準の臨界濃度(または「ブレークポイント」)に基づき、抗生物質に対する菌株の感受性(susceptibility)-耐性(「R」)、中間(「I」)、または感受性(sensitive)(「S」)を判定する。好ましくは、ゲノムは、それ自体公知の方式で、シークエンシングプラットフォーム(または「読み取り(read)」)により生成されたデジタル配列をデジタル的にアセンブルすることによって生成された、アセンブルされた配列(または「contig」)の形態を採る。各菌株の完全なデジタルゲノムおよび抗生物質感受性(susceptibility)は、コンピューターデータベース内に保管されて学習データセットおよびテストデータセットを形成する。
有利には、但し任意選択的に、「耐性」および「中間」の状態が統合されて、2つの抗生物質感受性(susceptibility)状態が取得される。このようにして、感受性(sensitive)(「S」)細菌株と非感受性(non-sensitive)(「NS」)細菌株間を区別するバイナリー分類問題が定義される。例えば、S状態は数字0を用いてコード化され、またNS状態は数字1を用いてコード化される。
ステップ30の残りの部分はコンピューターにより実施され、そしてデータベースを2つにクラスタリングして学習データベースおよびテストデータベースを取得することにより、302において開始する。好ましくは、クラスターは「10分割」クラスターであり、データベースの9/10が学習データベースを構成し、残りの1/10がテストデータベースを構成する。学習データベースで使用される細菌株の合計数はNとして本明細書の下記において記載される。
次のステップ304では、細菌ゲノムの記述変数のセットが決定される。図2と並行して図3を参照すると、学習データベースのゲノムGが、k-merの冗長性を制限すると同時に細菌種の遺伝的変動を最適に捕捉するために、306において、15~50kのサイズ、例えばk=31のk-merで最初に記述される。後続するステップ308では、情報を失うことなく、k-merから異なるゲノム配列のセットへの変換が実施される。このために、k-merは、最初にk次およびアルファベットA、T、G、CのDe Bruijnグラフ(DBG)に変換される。DBGグラフは、次に線形経路を自動的にクラスタリングすることにより、圧縮されたDe Bruijnグラフ(cDBG)に変換され、したがって分岐を有さない。交点(相互に異なる)が長さの異なる配列に対応するグラフにおいて、k-merはそのようにコード化されるが、この交点(この配列、に同じ)は「Unitig」と呼ばれる。
後続するステップ310では、Unitigは、重複排除によってユニットにクラスター化されるが、そのユニットのマイナーアレル頻度(MAF)は、任意選択的に98%~99.5%、例えば99%の事前に決定された閾値「SMAF」よりも高い。特に:
a.圧縮されたグラフ(cDBG)の各Unitigは、データベースの各ゲノムに含まれるUnitigの存在または不存在を表すバイナリー変数によりコード化される。行列Vは、j番目のUnitigがデータベースのi番目のゲノム内に存在する場合には、そのコンポーネントVi,jは1に等しく、また存在しない場合には0に等しくなるように取得される。
b.行列Vの各ベクトルV.,j、すなわちUnitigと関連する各列は、次にUnitigのMAFを計算するために修正される。j番目のUnitigのアレル頻度が0.5を上回る場合、j番目のUnitigがデータベース内の50%を超えるゲノムにおいて観察されることを意味し(すなわち、
Figure 2023517904000004
、次に列V.,jは、∀i,Vi,j=|1-Vi,j|のように変換される。この変換は、初期に相補的である行列Vの2つの同一の列を、Unitigの存在共起性がその不存在共起性と同一であるようにするという利点を有する。
c.このように変換された行列Vは、次に共起性が完全なUnitig、すなわちデータベースのゲノムに含まれるユニットの不存在/存在が同一であるUnitigを共にいくつかのユニットにグループ化するために、同一の列についてフィルタリングされる。例えば、変換された行列Vが、その第2の列V.,2と同一のその第1の列V.,1を有する場合、列の一方が削除され、そして残存する列が第1および第2の列のUnitigのユニオンをコード化し、したがって新しいゲノムユニットを形成する。
d.頻度が(100-SMAF)%よりも低いユニット、すなわちSMAF=99%のとき、
Figure 2023517904000005
のようなユニットは除去され、つまり行列Vの対応する列が削除されることを意味する。結果は、j番目のMAFユニットがデータベースのi番目のゲノム内に存在する場合、行列のコンポーネントXi,jは1に等しく、また存在しない場合には0に等しくなるような行列Xである。
残りのユニット(本明細書の下記おいて「MAFユニット」と呼ぶ)は固有であり、相互に異なり、また、以下に記載する機械学習ツールにおいて変数としてその後使用される。このようにユニットにクラスタリングすること、およびフィルタリングすることで、MAFユニットが抗生物質感受性(susceptibility)に関与する可能性に関してMAFユニットの固有情報値を修正せずにk-merでゲノムを記述することにより誘発された冗長性が有意に低下する。ステップ304~310は、M.Jaillard Dancetteによる論文「Vers une cartographie des polymorphismes lies a la resistance aux antimicrobiens[Towards a mapping of polymorphisms related to antimicrobial resistance]」、2018、およびJaillard M.らによる文献「A fast and agnostic method for genome-wide association studies: Bridging the gap between k-mers and genetic events」、PLOS Genetics、2018においてより詳細に記載されており、また例えば、M.Jaillardにより開発されたDBGWASソフトウェア(https://gitlab.com/leoisl/dbgwas)を使用して実施される。
学習パート30は、MAFユニットを、抗生物質感受性(susceptibility)について予測的であると共に、強化された生物学的有意性を有する限定数の変数(本明細書の下記において「クラスター」と呼ぶ)にクラスタリングするステップ312に継続する。
ステップ312は、314において、抗生物質感受性(susceptibility)について予測的であるMAFユニットの選択から開始する。有利には、この選択は、ラッソタイプの罰則付きロジスティック回帰ツールを使用して実施される。より具体的には、正値のセット{λ,λ,...,λ}の各λ値について、下記の最適化問題が解かれるが:
Figure 2023517904000006
上記関係式において、
-pは、MAFユニットの数、したがって行列X内の列の数である;
-Nは、学習データベースを作成するのに使用される細菌株の数、したがって行列X内の行の数である;
-yは、行列Xのi番目の行と関連し、測定される抗生物質に対するi番目の細菌株の感受性(susceptibility)であり、すなわち前記菌株が感受性(sensitive)である場合、y=0であり、またそうでなければy=1である;
-Lは、測定される表現型yと予測される表現型f(Xi,.)間の差異を定量するロジスティック損失関数であり、例えばこれら2項の差異の2乗、またはロジスティック損失関数、例えば
Figure 2023517904000007
等である。
λの数値のいずれかについて作動化されており、したがって予測的である任意のMAFユニットが選択され、すなわち、
Figure 2023517904000008
の場合、j番目のMAFユニットが選択される。すでに知られているように、ラッソツールは、1つまたは複数の変数を、N個の変数の極大を強調するように横断する経路{λ,λ,...,λ}としてすでに作動化している変数に追加しながら、正則化経路{λ,λ,...,λ}に沿ってそのツールの変数を徐々に作動化させる。MAFユニットの極大について作動化を実現するために、セット{λ,λ,...,λ}が有利に選択される。例えば、該セットは、Friedmanらによる文献「Regularization Paths for Generalized Linear Models via Coordinate Descent」、Journal of Statistical Software、2010に記載の方法、または例えば、Rに導入されたpackage glmnet3.0.2により実行される方法、および例えば、ウェブサイト(https://cloud.r-project.org/web/packages/glmnet/index.html)から入手可能な方法に基づき計算される。特に、この方法は、数mの正則化変数λを予め選択するのを可能にする。この数は、例えば100に等しくなるように選択される。
選択されたMAFユニットは、本明細書の下記において「作動的MAFユニット」と呼ばれ、作動的MAFユニットの数はpと記載される。MAFユニットのランクはaと記載され(すなわち、行列X内のその列インデックス)、セット
Figure 2023517904000009
内に保管される。
次に、ステップ310は、316において、ステップ314で選択されなかったMAFユニットであるが、しかし作動的MAFユニットとゲノム内で最低限の共起率を有するMAFユニットを特定することからなり、次にそのように特定されたMAFユニットが作動的MAFユニットのリストに追加される。2つのユニットの共起率は、行列Xのその対応する列間の相関により有利に測定される。このために、p×p次元の行列Gが、
Figure 2023517904000010
のように計算され、式中、corは、例えばブラベー-ピアソン線形相関であり、
Figure 2023517904000011
およびX.,jは、行列Xのa番目およびj番目の列をそれぞれ表す。
次に、作動的MAFユニットと事前に定義された閾値sよりも高い相関性を有する任意のMAFユニットが選択され、そして作動的MAFユニットのリストに追加され、そのように選択されたMAFユニットのセットは、本明細書の下記において「拡張された作動的MAFユニット」と呼ばれる。換言すれば、∃i/Gi,j>sの場合、j番目のMAFユニット(j∈[1,p])が選択される。sは、拡張された作動的MAFユニット間の必要とされる共起率を規定する数である。sは、0.5~1、好ましくは0.8~1、および有利には0.9~0.95、例えば0.95である。拡張された作動的MAFユニットの合計数はpと記載され、k-merの初期の数pよりもかなり小さく(p<p≪p)、10~10ではなく10の次数である。拡張された作動的MAFユニットのランクはeと記載され(すなわち、行列X内のその列インデックス)、セット
Figure 2023517904000012
内に保管される。
後続するステップ318では、きわめて共起性の拡張された作動的MAFユニットの群または「クラスター」が、クラスタリング分析ツールを実行することにより明確に定義される。好ましくは、階層的クラスタリングが、拡張された作動的MAFユニット間の共起率から計算された距離行列に基づき実行される。階層的クラスタリングは、最短距離に基づく集合基準(または「単連結法」)を使用する、例えばBuhlmann P.らによる文献、「Correlated variables in regression:Clustering and sparse estimation」、Journal of Statistical Planning and Inference、2013、に記載されているもの、またはRに導入されたStats3.6.2パッケージの「hclust」関数により実行されるもの、および例えばウェブサイト(https://www.rdocumentation.org/packages/stats/versions/3.6.2/source)から入手可能なものである。
より具体的には、階層的クラスタリングにより使用される距離行列は、p×p次元の行列Dであり、以下のように計算されるが、但し
Figure 2023517904000013
は、行列Xのe番目およびe番目の列をそれぞれ表す:
Figure 2023517904000014
拡張された作動的MAFユニットのデンドログラムはこのようにして得られる。このデンドログラムは、次に、図4に例示するように高さ1-sでクラスター化されるが、但しsは、クラスター内で共起率を固定する0~1、好ましくは0.5~1、好ましくは0.8~1、および有利には0.9~0.95、例えば0.95の数である。デンドログラムの「下方」部分は、したがって拡張された作動的MAFユニットがその共起性にしたがい分布するクラスターを定義する。各クラスターもやはり固有であり、任意のMAFユニット、特に任意のUnitigを、任意のその他のクラスターと共有することはない。個数pのクラスターは、C,C,...,C,...
Figure 2023517904000015
と記載され、各クラスターCは、セット
Figure 2023517904000016
に含まれるランクのp番の拡張された作動的MAFユニット(すなわち、行列X内のその列インデックス)のクラスタリングである。
後続するステップ320では、クラスターC毎に、それを構成するUnitigが、長さkのウィンドウをUnitig全体にわたり、1ステップずつスライドさせることにより、15~50のk、例えばk=31を有するk-merに分解される。クラスターC毎に、それを構成するUnitigの数を表すのにqが使用される場合、Unitigと関連するq個のk-merのセットそれぞれが保管される。明確にするために、クラスターと関連するk-merおよびUnitigは、「クラスターk-mer」および「クラスターUnitig」とそれぞれ呼ばれる。
後続するステップ322では、抗生物質感受性(susceptibility)を予測するための訓練モデルが使用され、その変数はクラスターC,C,...,C,...
Figure 2023517904000017
である。
ステップ322は、324において、学習データベース内のゲノム毎に各クラスターの数値を計算することにより開始する。有利には、この数値は、それを構成するMAFユニットの数値の平均に等しい。N×p次元の行列Yが、
Figure 2023517904000018
のようにして得られる。
326では、抗生物質感受性(susceptibility)のいくつかの予測モデルが、学習データベースから訓練を受け、次のステップ328では、事前に決定された基準に基づき、最良の性能を有するモデルが選択される。
有利には、予測モデルは、罰則付きロジスティック回帰(高レベルの性能を維持しつつ、モデルにより最終的に保持される予測的クラスターの数を低下させることを可能にする)を使用して訓練を受ける。特に、予測モデルは、下記の関係式:
Figure 2023517904000019
に基づくモデルであり、上記関係式において:
Figure 2023517904000020
ステップ326は、学習データベース上で倹約的ロジスティック回帰ツール、例えばラッソタイプの罰則付き回帰を使用しながら、モデルGを訓練することにより開始する。特に、モデルGは、関係式:
Figure 2023517904000021
に基づき、最適化問題を解くことにより、正値のセット
Figure 2023517904000022
の数値λ毎に計算されるが、上記関係式において:
-yは、測定される抗生物質に対するi番目の細菌株の感受性(susceptibility)であり、行列Yのi番目の行と関連し、すなわち前記菌株が感受性(sensitive)である場合、y=0であり、またそうでなければy=1である;
-Lは、測定される表現型yと予測される表現型G(Yi,.)の間の差異を定量するロジスティック損失関数、例えばこれら2項の差異の2乗、または例えばロジスティック損失関数
Figure 2023517904000023
等である。
例えば、モデルGは、数M=100を用いながら、ステップ314と関連して上記にて記載された方法に基づき計算される。
Figure 2023517904000024
と記載される100個のモデル、したがって関係式(5)~(6)に基づく100個の予測モデルがこのようにして得られ、それぞれ閾値Sに依存し、
Figure 2023517904000025
として本明細書の下記において表される。
各予測モデル
Figure 2023517904000026
の性能の推定値が、次に328においてテストデータベースから計算される。性能評価により、閾値Sを並行して計算することが可能になる。
特に、ステップ330において、テストベース内のゲノム毎に、下記事項が実施される:
a.完全な相同性によるゲノム内に存在するクラスターk-merの検出、すなわちk-merは、それがゲノム内で同一の形態で存在する場合に検出される;
b.先行するステップにおいてゲノム内に存在するものと判定され、クラスターUnitigを構成するクラスターk-merの割合(%)が第1の事前に決定された検出閾値suniよりも高い場合、クラスターUnitigがゲノム内に存在するということの検出;
c.いくつかのクラスターUnitigからなる拡張されたMAFユニットがゲノム内に存在すること(下記のオプションのいずれかに基づき定義される)を検出するためのインジケーターの計算:
i.先行するステップにおいて存在するものと判定され、それ(拡張されたMAFユニット)を構成するクラスターUnitigの割合(%)が第2の事前に決定された検出閾値sclus、例えば20%以上、例えば25%の閾値を上回る場合、インジケーターは1に等しい。さもなければ、インジケーターは0に等しい。このオプションは以下に記載する実施例に適用されるものである;または
ii.すべての構成的クラスターUnitigが、先行するステップにおいて存在するものと判定される場合、インジケーターは1に等しく、そうでなければ0に等しい;または
iii.少なくとも1つの構成的クラスターUnitigが、先行するステップにおいて存在するものと判定される場合、インジケーターは1に等しく、そうでなければ0に等しい。
iv.インジケーターは、先行するステップにおいて存在するとして検出されたそれ(拡張されたMAFユニット)を構成するクラスターUnitigの割合(%)に等しい。
有利には、検出閾値suniは、クラスターUnitigの長さに依存する。特に、15~50のk、例えばk=31の場合、ゲノム内存否の知見について究明対象とされるクラスターUnitigの長さ(L)において、L≦61の場合、suni=90%、61<L≦100の場合、suni=80%、および100<Lの場合にはsuni=70%であることに留意されたい。
ステップ328の330において、クラスターの数値を、それを構成する拡張されたMAFユニットの検出インジケーターの平均に等しいものとして計算することにより、先行するステップにおいて判定される。オプションi、ii、およびiiiの場合、この平均は、存在するものとして検出された拡張されたMAFユニットの割合(%)に対応することに留意すべきである。テストベース内のすべてのゲノムについてクラスター値が計算されたら、ステップ330は、モデルの感受性(sensitivity)、特異性、および倹約性を最大化する(すなわち、感受性(susceptibility)を予測するのに実際に使用されるクラスターの数を最低限に抑える)モデル選択戦略に継続する。これを行うために、モデル
Figure 2023517904000027
毎に、閾値Sを変更し、そして閾値Sの数値毎に、関係式:
Figure 2023517904000028
に基づき感受性(sensitivity)および特異性が計算されるが、但し式中、TP、TN、FP、およびFNは、それぞれ表1に記載される真の陽性、真の陰性、偽陽性、および偽陰性の数である。
Figure 2023517904000029
閾値Sに対する感受性(sensitivity)の数値および(1-特異性)の数値が、次にROC曲線において、y軸およびx軸上にそれぞれプロットされ、そしてROC曲線下面積(「AUC」と表される)が計算および保管される。
次に図5で例証するように、モデル
Figure 2023517904000030
に対する閾値Sの最適値
Figure 2023517904000031
が、横座標0および縦座標1の点に最も近いROC曲線上の点に対応するものとして計算される。バランスのとれた正確性(「bACC」)が、次にモデル
Figure 2023517904000032
について下記の関係式に基づき計算され、モデル
Figure 2023517904000033
に関するbACC、感受性(sensitivity)および特異性が保管される:
Figure 2023517904000034
複数のモデル
Figure 2023517904000035
の中で最終的に保持された1つのモデルが、1つの許容度の中でbACCを最大化する最も倹約的なモデル、例えば:
a.Aは、モデルのbACCがmax(bACC)-0.01を上回るか、またはmax(bACC)が計算されたbACCのうち最大であるようなモデル
Figure 2023517904000036
のセットである;
b.選択されたモデルは、セットAにおいて最も倹約的モデルである
ようなモデルである。
選択されたモデルは、細菌種の細菌株について抗生物質感受性(susceptibility)を予測する後続使用40のためにコンピューターメモリーに保管される。保持されたクラスター、したがって構成的Unitigは、したがって抗生物質感受性(susceptibility)のゲノムシグネチャーを形成する。
特に、この予測は:
a.400において、例えば図1と関連して記載されている方式で、全ゲノム配列を適用することにより、細菌株のゲノムを配列決定すること;
b.402において、これまでに記載された方式で、保管された予測モデル内で各クラスターの数値を計算すること;
c.404において、保管されたモデルについて関係式(5)~(6)を使用しながら、菌株の感受性(susceptibility)
Figure 2023517904000037
を計算すること
を行う。
B.実施例
B.1.肺炎桿菌
異なる抗生物質に対する細菌種(肺炎桿菌)の感受性(susceptibility)を予測するために、図2Aおよび図2Bに記載されている方法を実施した。表2は、予測モデルの訓練およびバリデーションで使用した菌株の数、そのNS/S表現型、およびテストした様々な抗生物質をリスト化する。
表3は、「クラスター-ラッソモデル」または「クラスター-ラッソ」として知られている、本発明による方法に基づき訓練を受けたモデルの性能、および「ラッソモデル」または「ラッソ」と呼ばれる先行技術のラッソロジスティック回帰にもっぱら基づいて訓練を受けた予測モデルの性能をリスト化する。この表に提示する性能は、これまでに記載されている手順に基づく、クロスバリデーションによる推定に対応する。後者(ラッソモデル)の場合、関係式(1)および(2)に基づくモデルが計算され、閾値
Figure 2023517904000038
および最終モデルは、本発明に基づく方法についてこれまでに記載されている方式で、したがって同一の性能基準に基づいて選択した。
「サポート」カラムは、予測モデルについて保持される予測因子変数の数、すなわち
Figure 2023517904000039
である、またはクラスター-ラッソに関するクラスターの数、およびラッソに関して
Figure 2023517904000040
である「作動的MAFユニット」の数を表す。「Unitig」カラムは、ゲノムシグネチャーについて保持されるUnitigの合計数を表し、カッコ内は予測因子変数の最も広い広がりの中のUnitigの数である。
Figure 2023517904000041
Figure 2023517904000042
以上から理解されるように、クラスター-ラッソモデルの性能は、学習変数がクラスタリングにより束縛されない予測モデルの性能と類似している。したがって、2つのモデルはバランスのとれた正確性bACCおよびAUCに関して類似した性能を示し、形質間の相関性を考慮してもしなくても、予測性能に関して限定された影響しか有さないことが確認されることに留意すること。モデルサポートは、多くの場合クラスター-ラッソについて若干小さめであり(抗生物質10種のうち8種において)、ラッソについて個別に選択されたいくつかの形質が、クラスター-ラッソを通じて最終的に単一のクラスターに統合されることを示唆することにも留意すること。期待通り、クラスター-ラッソモデルに含まれるUnitigの合計数は、有意により大きい。この数は予測的クラスターにおいて均等に分布していないことに留意すること。例えば、メロペネムに対する感受性(susceptibility)を予測するモデルにおいて、164個のUnitigのうち159個が単一のクラスター中に存在し、予測的なゲノム形質としての遺伝子の存在を示唆している。
図6(A)は、メロペネムについてモデルの係数の大きさを示す。見ての通り、クラスター-ラッソモデルのシグネチャーは1つの重要な形質によって本質的に要約される一方、ラッソシグネチャーの4~5個の形質は明らかな重みを有する。予測的な重みが最大のクラスターは、Unitigの数において最大のクラスターでもあると換言される。圧縮されたDe Bruijnグラフ(cDBG)においてこのクラスターを可視化すると(例えば、これまでに記載のDBGWASソフトウェアを使用して)、図6(C)に示すように、このクラスターのUnitigはグラフ内で長い線形経路を形成することが明らかである。したがって、これは、このクラスターが全遺伝子に対応することを示唆する。DBGWASソフトウェアにより提供されるこの線形経路の注釈は、それ(線形経路)が、blaKPC遺伝子(メロペネム耐性におけるその役割に関する文献においてやはり十分に文書化されている)に対応することを示唆する。ラッソシグネチャーについて得られた可視化では、反対に、8個の予測因子変数のうちの3個(変数1、2、および4)が、blaKPC遺伝子として注釈が付された領域内に同時に配置されることを示している。しかしながら、ラッソがblaKPC遺伝子内でこれらの特定のUnitigを選択するという事実は、関係する耐性デターミナントがこの遺伝子内の点突然変異、すなわちSNPまたはインデルであることを示唆する。遺伝子の注釈がクラスター-ラッソを用いて得られた注釈と同一であっても、遺伝的バリアントに関するシグネチャーの解釈は、したがって大きく異なる。ラッソシグネチャーをより深く検討すると、blaKPC遺伝子内に位置する3つの変数は、実際、高い相関性を有することが明らかである。本発明に基づき、これらの実体が相関性を有することを明確に検出し、そしてそれらの実体を、ラッソシグネチャーに含まれなくても相関性を有するその他のゲノムユニットと共に1つのクラスターに統合することにより、クラスター-ラッソは、したがって潜在的予測モデルの解釈について、2つ観点においてより生物学的に意味のある解釈をもたらす。第1に、関係するゲノムデターミナントの性質:遺伝子内での獲得または突然変異に関する。第2に、ラッソシグネチャーに含まれる、異なるが相関性を有するいくつかの形質の寄与を総合することによる、感受性(susceptibility)予測に対するその(ゲノムデターミナントの)全体的な寄与に関する。
同様に、図7は、セフォキシチンについて2つの予測モデルの解釈可能性について例証する。2つの最も予測的なクラスターが配置されているcDGBグラフのサブグラフに注目すると、これら2つの領域の注釈は、両法について同一の耐性遺伝子を特定する(第1に、排出ポンプに関係することが公知のOmpK36遺伝子、および第2にblaKPC遺伝子)。一方、ゲノムデターミナント(遺伝子の存在、SNP、インデル等)の性質は、ラッソシグネチャーからは推測できない。
解釈可能性は、非常に詳細でありさえし得る。例えば、クラスター-ラッソシグネチャーについて得られたOmpK36注釈付きのサブグラフ(図7の上段右側パネル)に関して、9個のUnitigをクラスタリングする2つのクラスター(クラスター1および3)を含む。Jaillard M.らによる文献、「A fast and agnostic method for genome-wide association studies:Bridging the gap between k-mers and genetic events」、PLOS Genetics、2018に記載されるように、これらのUnitigは、感受性(sensitive)および耐性菌株を分離する分岐点を有する局所的多型に起因するトポロジー、すなわちコンプレックスバブルを示す。対照的に、ラッソについて得られた対応するサブグラフ(図7の上段左側パネル)は、
Figure 2023517904000043
の4つの異なる数値を有する4つのユニット(ユニット1、2、32、および56)を含む。
Figure 2023517904000044
の異なる数値は、対応するUnitig配列の個々の重要性に関して誤った結論をもたらす可能性がある。実際、OmpK36の追加の注釈付き配列を組み込む複数のアライメントを考慮するとき、Novais A.らによる文献、「Spread of an OmpK36-modified ST15 Klebsiella pneumoniae variant during an outbreak involving multiple carbapenem-resistant Enterobacteriaceae species and clones」、European Journal of Clinical Microbiology and Infectious Diseases、2012、に記載されるように、作動的MAFユニット2および56は野生型を代表し、ならびにユニット1および32はL3ループにおける2アミノ酸挿入について同一のアライメントを有するものと思われる。本発明は、各ハプロタイプについてB値の平均を代わりに提供する。
ラッソシグネチャーについて得られた第2のサブグラフ(図7の下段左側パネル)は、1つのみのシグネチャー形質(黒色で示す)および周囲を取り巻く7つの交点(灰色で示す)を含み、7つの交点のうちの2つは注釈付きのblaKPCである。単一のシグネチャー交点はそれ自体注釈を有さないので、サブグラフはblaKPC遺伝子のプロモーター領域内の局所的多型として解釈され得る。しかしながら、クラスター-ラッソのサブグラフ(図7の下段右側パネル)は、ラッソにより、数百個のきわめて相関性の高いUnitig(すべてクラスター2に属する)からこの1つのUnitig(完全なblaKPC遺伝子(カッコ内に示す)、および同遺伝子が挿入された、該遺伝子配列ときわめて共起性の高いプラスミド配列を含む)が選択されたことを表している。
したがって、クラスター-ラッソにより提供される追加情報から、セフォキシチン耐性の第1の因果変数はOmpK36遺伝子内の局所的突然変異であると結論付けることが可能となる。有利には、セフォキシチン耐性を予測するための分子技術(PCR、NGS等)は、この突然変異を特異的に標的とする。さらに、第2の因果変数は完全なblaKPC遺伝子の獲得であり、そしてblaKPCに特異的な任意のDNA配列が、セフォキシチン耐性を予測するそのような技術により有利に使用可能である。
その他の細菌種/抗生物質のペアについてテストした。肺炎桿菌に関連してそれほど詳細には立ち入らず、サルモネラ種、黄色ブドウ球菌、および淋菌について以下に記載する:
-第1の表および第2の表は上記表2および表3とそれぞれ類似する;
-第1、第2、および第3の図(ラッソモデルの係数の絶対値、クラスター-ラッソモデルの係数の絶対値、およびクラスター-ラッソモデルの最初から10個の最も予測的なクラスターに含まれるUnitigの数)は、検討対象の抗生物質についてそれぞれ例証する;
-図は下記事項について例証する:
〇その図の左側において、ラッソモデルの最も予測的な拡張されたMAFユニットに関係する圧縮されたcDBGグラフのサブグラフ。最も予測的なユニットによりサブグラフが最初に特定され、その他のユニットがサブグラフ内に存在するとき、それらも提示される;
〇その図の右側において、クラスター-ラッソモデルの最も予測的なクラスターに関係する圧縮されたcDBGグラフのサブグラフ。最も予測的なクラスターによりサブグラフが最初に特定され、その他のクラスターがサブグラフ内に存在するとき、それらも提示される。
B.2.サルモネラ
表4および表5、図8および図9はテトラサイクリンに対応し、図10および図11はゲンタマイシンに対応する。
ラッソモデル(テトラサイクリン耐性の獲得に関して、TetB遺伝子内で点突然変異の可能性のあるセットを特定する)とは異なり、このモデルが示唆する多数の突然変異を踏まえ、このモデルを別途決定的なものとはせずに、クラスター-ラッソに基づく本発明は、TetA遺伝子(クラスター1)、TetB/TetD遺伝子(クラスター2)の存在について耐性の獲得、ならびにTetR遺伝子の獲得を特定する。
ゲンタマイシン耐性に関して、本発明は、AAC3遺伝子(クラスター1)は獲得性であり、またOXA、IMP、およびTEM遺伝子は耐性機構に関係するものと結論付ける一方、ラッソモデルはOXAおよびIMP遺伝子を特定することができない。
Figure 2023517904000045
Figure 2023517904000046
B.3.淋菌
表6および表7、図12および図13。
淋菌におけるセフィキシム耐性に関して、本発明は、penM遺伝子においていくつかの組み換えの獲得を特定する。
Figure 2023517904000047
Figure 2023517904000048
黄色ブドウ球菌
表8および表9、図14および図15。
黄色ブドウ球菌におけるテトラサイクリン耐性に関して、本発明は、TetK遺伝子(クラスター1)の獲得を特定するが、しかしきわめて予測的としてTetM遺伝子を解釈するラッソモデルとは異なり、TetM遺伝子(クラスター2および3)について、関係するクラスター係数が低いことから、ゲンタマイシン耐性のきわめて予測的なゲノムデターミナントであるとして、その獲得を除外する。
Figure 2023517904000049
Figure 2023517904000050
C.本発明を実施するためのコンピューター手段
ステップ302、304、312、320は、以下に記載するステップ60および80とまさしく同様に、コンピューター、例えば1つまたは複数のプロセッサー、保管スペース、およびランダムアクセスメモリーを含み、コンピューターインストラクション(実行されたときに、これまでに記載された計算を実施する)を保管する能力を有するコンピューターユニットにより実施される。コンピューティングユニットは、例えばパーソナルコンピューター、サーバー、またはコンピューティングクラスターである。同様に、ステップ402、404が、コンピューター、例えばこれまでに記載されたようなコンピューターユニットにより実施される。ステップ302、304、312、320のユニット、およびステップ402、404のユニットは異なるかまたは同一のユニットである。有利には、予測された感受性(susceptibility)は、コンピュータースクリーン上に表示され、細菌株が患者に感染したとき、患者の記録を補足するために検査室または病院のコンピューターシステム内に保管されるか、または臨床医のモバイルデバイス、例えばスマートフォンに移送される。
D.本発明の実施形態の教示の拡張
D.1.細菌ゲノムにおけるk-mer、Unitig、およびMAFユニットの存在の検出に関して-ステップ330
ステップ330は、細菌ゲノム内のゲノム配列、特にUnitig、またはゲノム配列のセット、特にUnitigをクラスタリングするユニットのセットの存在または不存在を検出する方法について記載する。一般的に、本実施形態は、配列もしくは配列のセットがゲノム内で同じように検出されるべきであるか、またはその存在もしくは不存在について判断するために、配列もしくは配列の群と、ゲノム内の配列もしくは配列の群との間であるレベルの差異を認めることが可能かという問題に対処する。特に、序文で説明したように、完全な相同性は、生物学的種のすべての変動を包含することについて学習データが完全であることを前提とするが、とりわけそのゲノムの可塑性を踏まえれば事実上困難である。
さらに、配列決定されたゲノムが、とりわけ「読み取り(read)」の形態である、すなわち何らかのバイオインフォマティクス処理、例えばコンセンサスアセンブリまたは不良品質の読み取りのフィルタリング等の前の、シークエンシングプラットフォームのアウトプット時に生成された配列であるとき、配列決定されたゲノムは誤差により劣化し得る。この場合、配列はゲノム内に存在するものの、シークエンシング誤差に起因して不存在として検出される場合があり、またその逆も成り立つ。特に、バイオインフォマティクス処理は、低品質の読み取りのフィルタリング、および任意選択的にアセンブルされた配列または「contig」を取得するための、フィルタリング後の読み取りについて行われるコンセンサスアセンブリを一般的に含む。アセンブリの任意選択的な性質は、サンプル分析が実施される文脈に一般的に依存する。アセンブリの効果として、contigにおいてシークエンシング誤差を、現時点において、Illumina Inc.社のプラットフォームで使用されるSBS技術の場合、10-5のレベルまで、およびOxford Nanopore Technologies Ltd.社のプラットフォームで使用されるナノポア技術の場合、10-2のレベルまで有意に低下させることが挙げられる。一方、アセンブリは、高い演算能力および時間を必要とするので、コンピューティング環境が一般的に非常に強力というわけではない「POC」(「ポイントオブケア」)ゲノムアプリケーション、および/または高速もしくはリアルタイムといったアプリケーションにとって非常に相性が良いとはいえない。この文脈において、例えば、これまでに記載されたように、サンプル中に存在する1つもしくは複数の種の同一性、および/またはそのような種の1つもしくは複数の抗生物質に対する感受性(susceptibility)を判定するためのゲノム分析が、フィルタリング後またはフィルタリング前の読み取りにおいて直接実施される。しかしながら、シークエンシング誤差は、SBS技術について2~3%のオーダー、およびナノポア技術について最大12%である。特別な注意を払わなければ、ゲノム分析は同じように高い誤差率を引き起こすおそれがある。
図16は、微生物ゲノム、とりわけ細菌株、酵母菌株、または糸状菌株においてゲノム配列の存在または不存在をより強固に検出して、ゲノム変動およびシークエンシング誤差を説明することを狙いとするプロセス50について例証する。このプロセスは、図2Aおよび図2Bのプロセスとはそれ自体独立しているものの、そのステップ330および/またはステップ402におい有利に実施される。
プロセス50は、本明細書の下記のテキストにおいて、1つまたは複数の微生物菌株、および例示目的に限定して1つまたは複数の細菌株を含むサンプルを配列決定し、そしてシークエンシングプラットフォームにより生成された読み取りを事前処理するステップ70、ならびに細菌株のうちの1つのゲノムにおいて事前に決定されたゲノム配列を検出するステップ80を含む。このステップ80は、前記ゲノムにおいてゲノム配列の少なくとも1つの事前に決定されたセットを検出することを任意選択的に含む。
ステップ80は、ゲノム配列の分解物の他に、ステップ60(例えばプロセス50の前に実施される)において計算され、そしてデータベース(DB)に保管されたある数のパラメーターも使用する。より具体的には、図17を参照すると、ステップ60は、「SEQ」と記載されるゲノム配列が、一定ステップ、選好的には1のステップで、配列(SEQ)全体にわたり長さkのウィンドウ(W)をスライドさせることにより、一定長さk(kは15~50であり、例えばk=31)からなるk-merに分解されるステップ600から開始する。ウィンドウ(W)の各位置において、k-merがそのように保管される。したがって、長さLの配列(SEQ)の場合、(L-k+1)個のk-merが生成される。後続する任意選択的なステップ602では、KM={km,...,km,...,km}と記載される固有のk-merからなるセット(このセットはDBに保管される配列(SEQ)の分解物を形成する)のみを保持するために、生成されたk-merのセットは、そのうちの重複している可能性のあるものからフィルタリングされる。
ステップ70は、自明なように、また例えば図1に関連して記載されるように:
-ステップ700において、サンプルに含まれるDNAを配列決定するためのサンプルを調製すること、および調製されたDNAについて、読み取りが生成されそして保管されるように配列決定すること;
-ステップ702において、バイオインフォマティクス処理(低品質の読み取りをフィルタリング除去すること、および任意選択的に、フィルタリングされた読み取りをコンセンサスによりアセンブルして、アセンブルされた配列または「contig」を取得し、そして保管することを一般的に含む)を実施すること
と関係する。
ゲノム配列(SEQ)を検出するステップ80は、800において、この検出がcontigまたは読み取りにおいて実施されるかを把握することから構成される第1のテストから開始する。誤差率がk-merの検出を通じて完全な相同性の使用を可能にするのに十分低いcontig、すなわちゲノム配列において検出が実施される場合、プロセスは、contig内のKMセットの各k-mer(km)の存在または不存在を検出することにより、802において継続する。特に、k-mer(km)は、contigの少なくとも1つにおいて同様に存在する場合に検出される。
後続するステップ804では、配列(SEQ)が細菌ゲノムにおいて同様に検出されるべきか決定するためにテストが実施される。そうであるならば、KMセット内のすべてのk-mer(km)がcontig内に存在するものとして検出される場合には、806において配列(SEQ)が検出される。シークエンシング技術および/またはアセンブリ技術に起因して、配列(SEQ)は、contigにおいて必ずしも全体的とはならず、むしろいくつかのcontigの間で分離する可能性があり、そのように分離する確率は配列(SEQ)の長さ(L)に伴い増加することに留意すること。したがって、k-merに分解することで、配列(SEQ)がcontig内でそのまま存在しない場合であっても、ゲノム内でそれを特定することが可能になる。
配列(SEQ)が、804において同様に追及されない場合、ゲノムは、808において、少なくとも配列(SEQ)またはそのバリアントの1つについて調査される。このバリアントは、例えばオリジナルの配列(SEQ)における突然変異、またはオリジナルの配列(SEQ)の不完全な特定に対応する。上記したように、配列(SEQ)は、推測的なデータまたは知識に基づく遺伝的デターミナント(例えば、耐性、病毒性、同一性等)の特定による産物であり得る。既知のデータまたは知識が不完全である場合、配列(SEQ)は、前記デターミナントの完全な多様性を反映しない可能性がある。配列(SEQ)またはそのバリアントの1つの特定を可能にすることにより、プロセスは、データおよび知識の初期の不完全性についてその補正、したがって遺伝的デターミナントの検出を可能にする。程度はより低いものの、プロセスは、contig内の残存するシークエンシング誤差の可能性についてその検討も可能にする。さらに、誤差の修正とは独立して、プロセスは、単一の配列(SEQ)から、バリアントのセットの少なくとも1つのメンバーがゲノム内に存在するか、前記バリアントのそれぞれを完全に検出することなくその存否を検出することも可能にする。
第1の変法では、808において、配列(SEQ)またはそのバリアントの1つについて、その構成的k-merの割合(%)が事前に決定された閾値suniを上回る、例えば70%を上回る場合に、それが検出される。好ましい変法では、この割合(%)は配列(SEQ)の長さ(L)に依存し、より具体的にはLの関数として減少する。特に、k-merが配列(SEQ)に対して特異的なまま留まるように、長さが十分に長い、特に15を上回る、好ましくは30を上回るk-merを保持するのが好ましい。したがって、長さ(L)が減少すると、非常に大きな割合(%)のk-merにおいて、配列(SEQ)に差異が見出され、割合(%)suni(長さ(L)の関数として減少する)の補正が可能になる。図18で例証するように、割合(%)suniは、例えば段階的に減少し、そして3つの数値を含む。有利には、15~50のk、例えばk=31について、L≦61の場合、suni=90%、61<L≦100の場合、suni=80%、および100<Lの場合、suni=70%である。
配列(SEQ)が検出されたら、任意選択的に、プロセスは、810において、以下に記載する方式で、ゲノム配列のセット({SEQ,...,SEQ,...SEQ}と記載される)の検出に継続する。
配列(SEQ)の検出が読み取り上で実施される場合(テスト800)、したがってシークエンシング誤差を補正する任意のバイオインフォマティクス処理の前に、プロセスは、読み取り内、したがってゲノム内にk-merが存在する/存在しないことを正確に検出するために、この誤差を考慮する。読み取りから直接検出する長所はデータ処理のスピードに由来する(所与のコンピューター環境について2~3分未満である一方、アセンブリ単独では同一環境において1時間ほどかかる)。
第1の変法では、前記k-merについて最低数、例えば3以上の数のコピーを読み取りが含有する場合に、k-merが検出される。しかしながら、この変法は、シークエンシングカバレッジ深度を考慮していないという欠点を有する。第1の近似に当てはめると、シークエンシング誤差はゲノム全体に分布しており、したがってシークエンシングカバレッジ深度が大きいほど、k-merを検出する確率は高くなる。しかしながら、シークエンシング誤差に起因して、k-merがゲノム内に実際に存在するか、または読み取り内で検出されたk-merが、シークエンシング誤差を有する別のk-merの産物であるか確認するのが困難である。好ましい変法では、検出は、配列(SEQ)が追及される細菌株に関する実際のシークエンシングカバレッジ深度に依存する。
このために、テスト812を実施して、サンプルがメタゲノムサンプルであるか、またはより一般的に、いくつかの異なる種(いくつかの細菌種、ヒトDNA、またはその他)を含有するサンプル、または細菌株の単離物から調製されたサンプルであるか判定する。細菌株の単離物から調製されたサンプルの場合、1つの菌株のみが存在するので、すべての読み取りは前記菌株に属し、そして「cov」と記載されるシークエンシングカバレッジ深度が、814において、例えば関係式:
Figure 2023517904000051
に基づき計算されるが、但し上記関係式において、Nは読み取りに含まれる塩基の合計数、およびNは細菌株が属する細菌種の参照ゲノム内の塩基の数であり、選好的には前記種について観測されたゲノムサイズの平均サイズ、または平均に近いサイズを有する(例えば結核菌の場合、Ng=4.4百万塩基対(Mbp))。
k-merがゲノム内に確かに存在することを確認するために、読み取り内で検出される必要があるコピー数(Ncovと記載される)が、816において、下記の関係式:
cov=τ×cov (11)
に基づき計算されるが、但し式中、τは、選好的には、使用されるシークエンシング技術のシークエンシング誤差率、有利には5%~15%、好ましくは10%以上、例えば10%を考慮する事前に決定されたパラメーターである。誤差率10%および深度100の場合、k-merについて10個の同一コピーがしたがって検出されるはずであり、k-merが読み取り内に実際に存在すると判定される。10%という率は、とりわけ、k-merの存在が、Oxford Nanopore Technology Ltd社製GridIONプラットフォームにより、同会社製のR9.4ライブラリー調製キットを使用しながら生成された読み取りにおいて正確に検出されることを可能にする。この率は、SBSタイプのシークエンシング技術、例えばIllumina Inc.社製のMiSeqプラットフォームにより生成された読み取りにおいて精密に検出することも可能にする。
次に、読み取りに含まれるKMセットの各k-mer(km)について、その存在または不存在の検出が818において実施される。特に、読み取り内に少なくともNcov個の同一のコピーが存在する場合に、k-mer(km)が検出される。次に、プロセスはこれまでに記載されたステップ804に継続する。
サンプルがいくつかの種を含む場合(テスト812)、プロセスは、検討対象の細菌種についてシークエンシングカバレッジ深度を決定することから構成される。より具体的には、「タキソノミックビニング(taxonomic binning)」が、820において実施され、そのようなビニングは、サンプル内に存在する複数の種において原点を各読み取りに割り振ることからなる。この種のビニングは、先行する技術および使用、例えばWood D.E.らによる文献、「Kraken:ultrafast metagenome sequence classification using exact alignments」、Genome Biology、2014、に記載される分類法、またはウェブサイト(https://github.com/DerrickWood/kraken2/releases)からダウンロード可能な「Kraken2」ソフトウェアにより実施されるような分類法において周知されている。
次に、検討対象の前記細菌種のシークエンシングカバレッジ深度が、例えば下記のいずれかの関係式:
Figure 2023517904000052
に基づき計算されるが、上記関係式において、
Figure 2023517904000053
は検討対象の細菌株が属する細菌種に割り振られた読み取り内に含まれる塩基の合計数であり、またNは細菌種の中間サイズのゲノムに含まれる塩基の数であり、そしてρはサンプル中の細菌種の相対的な割合である。この相対的な割合は、例えばWood D.E.らによる文献、「Kraken:ultrafast metagenome sequence classification using exact alignments」、Genome Biology、2014に記載されている分類法、またはウェブサイト(https://github.com/DerrickWood/kraken2/releases)からダウンロード可能な「Kraken2」ソフトウェアにより実施されるような分類法を使用して計算される。プロセスは、直前に計算されたシークエンシングカバレッジ深度の関数として、コピー数を計算するステップ816に継続する。
ゲノム配列のセット({SEQ,...,SEQ,...SEQ}と記載される)を検出するステップ810を再び参照すると、このステップは、これまでに記載された方式で行われる各配列SEQの検出に後続する。より具体的には、前記セットの検出は、下記のオプションの1つに基づき実施される:
i.存在すると判定されたSEQの割合(%)が、第2の事前に決定された検出閾値sclus、例えば20%以上、例えば25%の閾値を上回る場合、セットはゲノム内に存在するものとして、そうでなければ存在しないものとして検出される;または
ii.すべてのSEQが存在するものとして判定される場合、セットはゲノム内に存在するものとして、そうでなければ存在しないものとして検出される;または
iii.配列SEQの少なくとも1つが存在すると判定されるときに、セットはゲノム内に存在するものとして、そうでなければ存在しないものとして検出される;または
iv.確率が、存在するものとして判定されたSEQの割合(%)に等しければ、セットはゲノム内に存在するものとして検出される。
第1に、これまでに記載されたようなラッソに基づくプロセスの性能と比較したクラスター-ラッソに基づくプロセスの性能により証明されるように、配列(SEQ)またはSEQのセットの検出性能は、k-merの特定により直接取得されたものと非常に類似していることに留意すること。
第2に、検出プロセス50は、採用されたシークエンシング技術の種類、とりわけそのシークエンシング誤差に関して強力である。下記の表は、単離形態の肺炎桿菌種のテスト菌株37例について、MiSeq(「Illumina」)およびGridION(「ONT」)により配列決定したときのUnitig(SEQに等しい)に対するバリアント検出率(70%、80%、90%)、および上記オプションi)に基づくユニット検出率、異なる抗生物質に対する耐性に関するクラスター-ラッソ予測の結果と共に例証する。2つのシークエンシング技術を、その読み取りの関数、およびその読み取りのアセンブリにより生成されたcontigの関数としてテストする。表10は、両技術は有意に異なるシークエンシング誤差率を有するものの、結果は両技術について類似しており、また読み取りおよびcontigの両方についても類似した結果を有することを示している。
Figure 2023517904000054
さらに、ONT技術について、シークエンシングカバレッジ深度の関数としての予測性能(AUC)を、図19A(ラッソ予測の場合)および図19B(クラスターラッソ予測の場合)に示す。但しサンプルは肺炎桿菌株の単離物から生成した。シークエンシングカバレッジ深度、つまりシークエンシングカバレッジ深度に伴いコピー数が増加することを考慮すれば、深度30から安定した性能を迅速に取得することが可能になることに留意すること。図20および図21は、シミュレーション試験を通じて、Illumina技術において、クラスター-ラッソ予測性能に対する黄色ブドウ球菌株を含むメタゲノムサンプルの効果(ここでは気管支肺胞洗浄から得られた臨床サンプルをシミュレーションする)を、読み取り(図20)またはcontig(図21)の関数として例証する。サンプル中に存在する黄色ブドウ球菌株の実際のシークエンシングカバレッジ深度に依存して、高い性能で非常に迅速に安定化することにも留意すること。
D.2.実施形態のその他の特徴について
本発明の具体的な実施形態について記載してきた。このプロセスは、下記の特徴に基づき、単独でまたは組み合わせて改変され得る:
-抗生物質に対する感受性(susceptibility)の予測について記載されている。本発明は、任意の種類の表現型、例えば細菌株の病毒性、そのリボタイプ等に適用される;
-患者から採取された生体サンプルに対する本発明の適用について記載されている。本発明は、細菌を含む任意の種類のサンプル、特に動物から採取されたサンプルまたは環境から採取されたサンプルに適用される;
-細菌について記載されている。本発明は酵母菌および糸状菌にも適用される;
-細菌ゲノムの完全なシークエンシングについて記載されている。変法として、ゲノムシークエンシングは部分的であり、そして抗生物質感受性(susceptibility)に関係することが公知の1つまたは複数の特異的領域を標的とする;
-記載された実施形態において、ゲノム内のk-merおよびUnitigの数値は、例えば行列Xにおいてコード化されるように、バイナリー(不存在または存在)である。変法として、k-merまたはUnitigの数値は、ゲノム内のそのコピーの数に等しい;
-バイナリー予測(SおよびNS状態)について記載されている。変法として、感受性(susceptibility)は序数(状態に応じて数が大きくなる、例えばS、R、およびI)、または線形(例えば、最低阻止濃度または「MIC」の予測)である。この場合、回帰は序数的または線形である;
-ラッソタイプのロジスティック回帰により訓練を受けた予測モデルについて記載されている。その他の倹約的アルゴリズム、例えばランダムフォレストモデル、勾配ブースティング法、セットカバリングマシン、アグリゲーション法、およびモンテカルロ法、もしくはディープラーニング法、または任意のタイプの罰則付きラッソ学習法(エラスティックネット、グループラッソ、フューズドラッソ、アダプティブラッソ等)も可能性がある;
-ロジスティック回帰ラッソを使用するMAFユニットの選択法について記載されている。その他の選択法、例えばFriedman J.H.による文献、「Greedy Function Approximation:A Gradient Boosting Machine」、The Annals of Statistics、2001、に記載されるような選択法、および例えば、ウェブサイト(https://xgboost.readthedocs.io/en/latest/)から入手可能なソフトウェア「xGBoost」により使用される選択法、または任意のその他の非線形選択法も可能性がある;
-ブラベー-ピアソン相関値に基づくクラスタリングについて記載されている。その他の種類の共起性測定法、例えばジャッカード距離またはソーレンセン-ダイス距離も可能性がある;
-特定のクラスタリングについて記載されている。その他の種類のクラスタリング、例えば「標準的な」階層的クラスタリングも可能性がある;
-クラスターの数値が、クラスターを構成するユニットの平均に等しいとして記載されている。その他の数値も可能性がある。例えば、「ラッソ群」タイプのロジスティック回帰が、異なる重みを、クラスターを構成する異なるユニットに割り振るために、クラスターのそれぞれについて実施される;
-アセンブル化したゲノムに由来する学習アルゴリズムの使用について記載されている。変法として、本発明が、シークエンシングプラットフォームにより生成されたゲノム、すなわち読み取り(任意選択的に低品質の読み取りからフィルタリングされる)の形態のゲノムに直接適用される。

Claims (13)

  1. デジタル形式の微生物のゲノムにおいて、デジタル形式のゲノム配列を検出するためのコンピューター支援式の方法であって、
    -前記ゲノム配列全体にわたり、一定ステップで、長さkのウィンドウをスライドさせることにより取得される、一定長さkのデジタルゲノム配列、または「k-mer」のセットをコンピューターメモリー内に保管すること(60)と、
    -k-mer毎に、前記ゲノム内でのその不存在または存在を判定すること(802)と、
    -前記ゲノム内に存在するものとして検出されたk-merの割合(%)が事前に決定された閾値を上回る場合、前記ゲノム配列が前記ゲノム内に存在するものとして判定すること(806;808)と
    を含む方法。
  2. 前記ゲノム内のk-merの存在または不存在の判定が、前記ゲノムにおいて前記k-merの少なくとも1つの同一コピーを検出することにより得られる、請求項1に記載の方法。
  3. 前記デジタルゲノムが、シークエンシングプラットフォームにより生成されたゲノム配列、または「読み取り」のセットから構成され、それに基づき、前記ゲノムにおけるk-merの存在または不存在の判定が、前記ゲノムにおいて前記k-merのNcov個の同一コピーを検出することにより得られ、但し整数Ncovは、
    Figure 2023517904000055
    に等しく、式中、Nは前記デジタルゲノムに含まれる塩基の合計数であり、Nは前記微生物が属する種の参照ゲノムの塩基の合計数であり、およびτは5%~15%の割合(%)、特に10%である、請求項2に記載の方法。
  4. 前記微生物のゲノムが、サンプルの直接シークエンシングに由来するゲノムのセットに含まれ、各デジタルゲノムがシークエンシングプラットフォームにより生成されたゲノム配列、または「読み取り」のセットから構成され、それに基づき、前記ゲノムにおける存在または不存在の判定が、前記ゲノムにおいて前記k-merのNcov個の同一コピーを検出することにより得られ、但し整数Ncovは、
    Figure 2023517904000056
    に等しく、式中、Nは前記デジタルゲノムに含まれる塩基の合計数であり、Nは前記微生物が属する種のゲノムの塩基の平均合計数であり、ρは前記サンプル中に存在する前記微生物の相対的割合(%)であり、およびτは5%~15%の割合(%)、特に10%である、請求項2に記載の方法。
  5. 前記事前に決定された閾値が、前記ゲノム配列の長さに依存する、請求項1から4のいずれか一項に記載の方法。
  6. 前記事前に決定された閾値の値が、前記ゲノム配列の長さの数値に伴い減少する、請求項5に記載の方法。
  7. 前記ゲノム配列の長さの空間が、3つの間隔に分割され、それに基づき、前記事前に決定された閾値が、1間隔毎に一つの数値をとる、請求項6に記載の方法。
  8. kが15~50であり、これに基づき、L≦61の場合、suni=90%、61<L≦100の場合、suni=80%、および100<Lの場合にはsuni=70%であり、但しLは前記ゲノム配列の長さであり、およびsuniは前記事前に決定された閾値の値である、請求項7に記載の方法。
  9. ゲノム配列の群の検出を含み、前記検出が、
    -請求項1から9のいずれか一項に記載の方法に基づき、前記群の各ゲノム配列を検出することと、
    -下記事項に該当する場合、
    〇前記群の少なくとも1つのゲノム配列が検出される場合、または
    〇前記群の全ゲノム配列が検出される場合、または
    〇検出された前記群のゲノム配列の割合(%)が、第2の事前に決定された閾値を上回る場合、または
    〇存在するものとして検出された、前記群のゲノム配列の割合(%)に等しい確率を有する場合、
    ゲノム配列の群が前記ゲノム内に存在するものと判定することと
    を含む、請求項1から8のいずれか一項に記載の方法。
  10. 第2の閾値が20%以上であり、好ましくは25%に等しい、請求項9に記載の方法。
  11. 細菌株のゲノムを全体的または部分的に配列決定して、デジタル形式のゲノムを生成することも含む、請求項1から10のいずれか一項に記載の方法。
  12. 請求項1から10のいずれか一項に記載されている方法を実施するためのコンピューター実行可能なインストラクションを保管するコンピュータープログラム製品。
  13. 微生物のゲノムに含まれるゲノム配列を検出するためのシステムであって、
    -前記株のゲノムを部分的または全体的に配列決定するためのシークエンシングプラットフォームと、
    -請求項1から10のいずれか一項に記載の検出方法を適用するように構成されたコンピューターユニットと
    を含むシステム。
JP2022554201A 2020-03-12 2021-03-10 細菌ゲノムにおいてゲノム配列を検出するための分子技術 Pending JP2023517904A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20162646.2 2020-03-12
EP20162646.2A EP3879536A1 (fr) 2020-03-12 2020-03-12 Technologie moléculaire de détection d'une séquence génomique dans le génome d'une bactérie
PCT/EP2021/056008 WO2021180768A1 (fr) 2020-03-12 2021-03-10 Technologie moléculaire de détection d'une séquence génomique dans le génome d'une bactérie

Publications (1)

Publication Number Publication Date
JP2023517904A true JP2023517904A (ja) 2023-04-27

Family

ID=69810622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022554201A Pending JP2023517904A (ja) 2020-03-12 2021-03-10 細菌ゲノムにおいてゲノム配列を検出するための分子技術

Country Status (6)

Country Link
US (1) US20230135480A1 (ja)
EP (2) EP3879536A1 (ja)
JP (1) JP2023517904A (ja)
KR (1) KR20220152559A (ja)
CN (1) CN115485778A (ja)
WO (1) WO2021180768A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4258268A1 (en) 2022-04-05 2023-10-11 Biomérieux Detection of a genomic sequence in a microorganism genome by whole genome sequencing
CN115798574B (zh) * 2023-02-06 2023-06-02 中国医学科学院北京协和医院 一种预测克雷伯氏菌属对美罗培南敏感性的系统及方法
EP4428253A1 (fr) 2023-03-10 2024-09-11 Biomérieux Methode de determination de la susceptibilite d'une souche de l'espece mycobacterium tuberculosis au pyrazinamide

Also Published As

Publication number Publication date
KR20220152559A (ko) 2022-11-16
US20230135480A1 (en) 2023-05-04
WO2021180768A9 (fr) 2021-11-04
CN115485778A (zh) 2022-12-16
EP4118655A1 (fr) 2023-01-18
EP3879536A1 (fr) 2021-09-15
WO2021180768A1 (fr) 2021-09-16

Similar Documents

Publication Publication Date Title
Moradigaravand et al. Prediction of antibiotic resistance in Escherichia coli from large-scale pan-genome data
Poussin et al. Interrogating the microbiome: experimental and computational considerations in support of study reproducibility
JP2023517903A (ja) 細菌の表現型形質をそのゲノムから予測するための分子技術
Allen et al. Forest and trees: exploring bacterial virulence with genome-wide association studies and machine learning
JP2023517904A (ja) 細菌ゲノムにおいてゲノム配列を検出するための分子技術
Gil-Gil et al. Antibiotic resistance: time of synthesis in a post-genomic age
Anyansi et al. QuantTB–a method to classify mixed Mycobacterium tuberculosis infections within whole genome sequencing data
Garcia‐Garcera et al. Metagenomic assessment of the interplay between the environment and the genetic diversification of Acinetobacter
BE1024766A1 (nl) Werkwijze voor het typeren van nucleïnezuur- of aminozuursequenties op basis van sequentieanalyse
Ramazzotti et al. VERSO: a comprehensive framework for the inference of robust phylogenies and the quantification of intra-host genomic diversity of viral samples
Dettman et al. Phylogenomic analyses of Alternaria section Alternaria: A high-resolution, genome-wide study of lineage sorting and gene tree discordance
Carress et al. Population genetic considerations for using biobanks as international resources in the pandemic era and beyond
Zhang et al. MaLAdapt reveals novel targets of adaptive introgression from Neanderthals and Denisovans in worldwide human populations
Schikora-Tamarit et al. Recent gene selection and drug resistance underscore clinical adaptation across Candida species
Ioerger Analysis of gene essentiality from TnSeq data using transit
Torres-Morales et al. Site-specialization of human oral Gemella species
Mitchell et al. Development of a new barcode-based, multiplex-PCR, next-generation-sequencing assay and data processing and analytical pipeline for multiplicity of infection detection of Plasmodium falciparum
Bundalovic-Torma et al. RecPD: a recombination-aware measure of phylogenetic diversity
Walter et al. Genomic variant identification methods alter Mycobacterium tuberculosis transmission inference
Olm Strain-resolved metagenomic analysis of the premature infant microbiome and other natural microbial communities
Pavlovikj et al. Systems-based approach for optimization of a scalable bacterial ST mapping assembly-free algorithm
Jünemann Quality is a Myth-Assessing and Addressing Errors in Sequencing Data
Saber et al. Benchmarking bacterial genome-wide association study (GWAS) methods using simulated genomes and phenotypes
CN108271396A (zh) 用于预测寡养单胞菌属物种对抗微生物剂的抗性的基因测试
Lee Big Data for Microorganisms: Computational Approaches Leveraging Large-Scale Microbial Transcriptomic Compendia

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240311