JP2023517904A

JP2023517904A - 細菌ゲノムにおいてゲノム配列を検出するための分子技術

Info

Publication number: JP2023517904A
Application number: JP2022554201A
Authority: JP
Inventors: フィリピーヌバルラス，; ダンセット，マガリジャイヤール; アザミ，メリエムエル; ピエールマエー，; マウトトゥールノー，; ピエールベリエ，
Original assignee: Biomerieux SA
Current assignee: Biomerieux SA
Priority date: 2020-03-12
Filing date: 2021-03-10
Publication date: 2023-04-27
Also published as: KR20220152559A; US20230135480A1; WO2021180768A9; CN115485778A; EP4118655A1; EP3879536A1; WO2021180768A1

Abstract

デジタル形式の微生物のゲノムにおいて、デジタル形式のゲノム配列を検出するためのコンピューター実施方法であって、－前記ゲノム配列全体にわたり、一定のピッチで、長さｋのウィンドウをスライドさせることにより取得される、一定長さｋのデジタルゲノム配列、または「ｋ－ｍｅｒ」のセットをコンピューターメモリー内に保管すること（６０）と、－ｋ－ｍｅｒ毎に、前記ゲノム内でのその不存在または存在を判定すること（８０２）と、－前記ゲノム内に存在するものとして検出されたｋ－ｍｅｒの割合（％）が事前に決定された閾値を上回る場合、前記ゲノム配列が前記ゲノム内に存在するものとして判定すること（８０６、８０８）とを含む方法。【選択図】図１６

Description

本発明は、細菌ゲノミクスに適用される分子生物学の技術分野、特に細菌の表現型形質をそのゲノムから予測する分野に関する。本発明は、生体サンプル中に存在する細菌の抗生物質感受性（susceptibility）および病毒性の予測に具体的に適用される。

Ａ．表現型予測のための分子技術
抗生物質に対する細菌株の感受性（susceptibility）、すなわちヒトまたは動物に投与される抗生物質に基づく治療の文脈における細菌株の感受性（sensitivity）または耐性は、ヒトによって直接観察することができない。特に、菌株を直接観察しても（顕微鏡を使用したとしても）、抗生物質に対する菌株の挙動を判定するのは不可能である。細菌の文脈におけるｉｎｖｉｔｒｏ診断は、本来、このような表現型の性質を観測可能にし、したがって最終的に臨床医にとって利用可能となるようにすることにある。２０世紀において、ｉｎｖｉｔｒｏ診断技術は、本質的には、とりわけサンプル中に存在する細菌株を可視化し、そして操作可能にするための培養に基づくサンプル調製技術と、抗生物質の存在下で菌株の挙動を光学的に測定するための技術との併用であった。例えば、従来の微生物学における研究室ワークフローは、第１に、細菌感染症を有するものと疑われる患者から得られたサンプルを培養培地上に塗抹して、インキュベーション後にヒトオペレーターまたは自動化システムにとって視認可能な細菌コロニーを生成することと関係する。第２段階では、コロニーが十分大きければ、技師または自動化システムはコロニーを採取し、該コロニーを異なる濃度の抗生物質と混合し、そして混合物をデバイス（各混合物の光学濃度を測定し、それから抗生物質に対する感受性（susceptibility）を推測する）中に導入する。光学濃度は細菌の増殖を示唆するので、光学濃度は細菌の感受性（sensitivity）または耐性を明確に特徴づけるが、濃度が増加する場合、これは、抗生物質が存在するにもかかわらず細菌が増殖していること、したがって細菌は、検討対象の抗生物質の濃度において該抗生物質に対して耐性であることを意味する。

今日、サンプル調製技術と光学濃度に基づく測定技術との併用は、原核生物界における急速な世界的広がり、すなわち抗生物質に対する多剤耐性の獲得（２０５０年にはがんよりも多くの死亡に関係すると見積もられている）に直面し、重大な制約を有する。まず第１に、このような技術は細菌に関して依存的である。特に、選択された培養培地に応じて、ある特定の菌株が増殖するがその他は増殖せず、したがってこのような技術は、すべての細菌種について抗生物質感受性（susceptibility）を特徴づけるのは不可能である。第２に、このような技術は長時間を要する細菌培養に基づくので、きわめて遅い。したがって、細菌のアンチバイオグラムを取得するのに、サンプルを採取したときから少なくとも３０時間を要する。このような遅延により、第一選択治療として広域スペクトル抗生物質カクテルの投与を系統的に受けている患者を効果的に治療することができない。患者にとっての重大性に付加して、抗生物質をこのように不適切かつ大規模に投与すると、多剤耐性菌の選択圧力が強まり、したがってその増殖傾向に寄与する。したがって、従来のｉｎｖｉｔｒｏ診断技術は患者を治療するにはいっそう不適切となり、ある程度ではあるが、多剤耐性の出現理由の１つに数えられると現在考えられている。

分子生物学技術、特に細菌ＤＮＡおよび／またはＲＮＡの特徴付け技術、例えばポリメラーゼ連鎖反応（ＰＣＲ）、ＤＮＡチップまたはシークエンシング等の成熟により、研究室での抗生物質耐性分析においてパラダイムシフトが生じている。第１に、そのような技術は、細菌種に対してより非依存的である。例えば、メタゲノム技術は、存在する細菌種を問わず生体サンプル中の細菌ＤＮＡの処理を可能にする。第２に、そのような技術は、例えばＰＣＲ（２０分足らずで結果をもたらす）等を用いることで、数時間内に結果を提供することを目指す。一方、抗生物質感受性（susceptibility）を特徴づけるための分子技術は、前記感受性（susceptibility）を特徴づけるゲノムシグネチャー（遺伝子の不存在／存在、遺伝子突然変異、予測モデル等）に基づく。図１は、細菌感染症を有するものと疑われる患者を治療するための微生物学的ワークフローにおいて適用される２つの細菌ＤＮＡ特徴付け技術、すなわちＰＣＲ技術１０および全ゲノムシークエンシング（ＷＧＳ）技術２０について、単純化された非限定的な方式で例証する。両ワークフローは、患者からの生体サンプルの収集１２から開始し、ＰＣＲ技術１０またはＷＧＳ技術２０の適用がそれに後続し、それぞれ１つまたは複数の抗生物質に対する感受性（susceptibility）を特徴づけるゲノムシグネチャーの結果１０６、２１０をもたらし、その結果に基づいて抗生物質治療法が選択され、そして１４において臨床医により患者に投与される。基本的に、分子技術はそれぞれ、ＰＣＲ１０４そのもの、例えばＢｉｏｆｉｒｅ社製Ｆｉｌｍａｒｒａｙプラットフォームを使用して実施されるネステッドＰＣＲを適用する前、またはシークエンシング２０４、例えばＩｌｌｕｍｉｎａ社製ＭｉＳｅｑプラットフォームを使用して実施されるＳＢＳシークエンシングを適用する前に、採取されたサンプルの調製１０２、２０２を必要とする。

これら２つの分子技術間の主要な差異のうちの１つは、ゲノムシグネチャーの性質である。ＰＣＲの場合、ゲノムシグネチャーは分子であり、したがって実体的である：該分子は反応混合物に導入されるプライマーに翻訳され、このプライマーは混合物に導入された細菌ＤＮＡ配列を特異的に標的とし、そしてその検出は、光学的シグナルを測定することにより一般的に達成される。対照的に、ＷＧＳの場合は、シークエンシングはデジタルゲノムを生成するので、ゲノムシグネチャーはデジタルであり、また前記ゲノムの処理はコンピューター化される。一方、ＷＧＳ技術は、最低でもＰＣＲゲノムシグネチャーの導入を可能にし、とりわけデジタルゲノムの複雑な利用、およびＰＣＲ技術を使用するのでは導入不可能である抗生物質感受性（susceptibility）の予測的モデルの使用を可能にする。したがって、ＷＧＳ技術は、有利にはゲノムシグネチャーのコンピューター設計３０に基づき、この設計は、有利には、複合的分析ツール、例えば機械学習技術、例えば倹約的制約付きロジスティック回帰等の支援を得て、大規模なゲノムおよび表現型知識ベースを利用する。

ことほどさように、すべての分子技術は、同一の技術的基盤、すなわち細菌株からのゲノム情報の測定、および抗生物質の存在下での菌株の挙動に関する情報を抽出するための前記情報の処理に基づく。それに加えて、このコンピューター技術、より具体的にはシークエンシングの技術は、より旧来的な微生物学的技術からなる光学濃度分析法と関連する技術とは本質的に異なるが、コンピューター技術が実施するｉｎｖｉｔｒｏ診断の技術的性質に変わりはない。例えば、感染性診断の場合、それは、患者が細菌感染症を有するか判定するため、および抗生物質の存在下で感染性細菌の挙動を理解して適切な抗生物質治療を投与するために、生体サンプルを処理するための技術を適用するという問題に過ぎない。

Ｂ．表現型予測のための分子技術の解釈可能性
ゲノムシグネチャーにより具体的に着目すると、第１のアプローチは、細菌ゲノムにおいてこれまでに特定された抗生物質耐性マーカーを特定すること（「直接関連付け」アプローチと呼ばれる）からなる。いくつかの種、例えば結核菌（Ｍｙｃｏｂａｃｔｅｒｉｕｍｔｕｂｅｒｃｕｌｏｓｉｓ）等で認められたほとんどの耐性機構の場合と同様に、耐性を引き起こす遺伝的機構が周知されておりかつ単純であるとき、このアプローチは有効であるが、重大な制約（多くの種および抗生物質において耐性機構の知識が不完全であること：その結果、例えばデータベースの不完全性、マーカーの予知力における差異を考慮することの困難性、そして抗生物質感受性（susceptibility）の多因子的な側面（例えば、エピスタシス、複数の突然変異の複合等）等がもたらされる）が悩みの種である。このような難問に直面し、抗生物質感受性（susceptibility）の遺伝子決定論は、最新のコンピューター技術に基づく新規アプローチにより、特に教師あり機械学習技術により、より効率的に対処されつつあるが、その学習および応用アーキテクチャーは、以下のように要約することができる：
Ａ．細菌株について一連の学習を行う場合：
ａ．各菌株が配列決定され、そして表現型として特徴づけられる（例えば、その最低阻止濃度の測定、および／または１つまたは複数の抗生物質に対する菌株の感受性（susceptibility）（耐性、中間、または感受性（sensitive））の測定）；
ｂ．抗生物質に対する感受性（susceptibility）を予測するためのコンピューターモデルが、ゲノムおよび表現型データから訓練される。
Ｂ．ステップＡ－ａに由来する抗生物質に対する感受性（susceptibility）が追及される新規菌株の場合：
ａ．菌株が配列決定される；
ｂ．コンピューター予測モデルが該菌株のデジタルゲノムに適用され、該菌株の感受性（susceptibility）が決定される。

上記一般的な説明は、細菌ゲノムについて記述する機械学習変数を最初に定義することと関係する。前記ゲノムを記述する多くの方法が存在し、そのうちの１つは、「ｋ－ｍｅｒ」での記述、すなわちゲノムを構成する長さｋ（すなわち、塩基の数）の核酸配列のリストである。Ｍ．ＪａｉｌｌａｒｄＤａｎｃｅｔｔｅの論文、「Ｖｅｒｓｕｎｅｃａｒｔｏｇｒａｐｈｉｅｄｅｓｐｏｌｙｍｏｒｐｈｉｓｍｓｌｉｅｓａｌａｒｅｓｉｓｔａｎｃｅａｕｘａｎｔｉｍｉｃｒｏｂｉｅｎｓ［Ｔｏｗａｒｄａｍａｐｐｉｎｇｏｆｐｏｌｙｍｏｒｐｈｉｓｍｓｒｅｌａｔｅｄｔｏａｎｔｉｍｉｃｒｏｂｉａｌｒｅｓｉｓｔａｎｃｅ］」、２０１８に記載されるように、この記述法は、ハプロイドであり、また真核生物ゲノムと比較してきわめて可塑的である細菌ゲノムに対して特に適する。換言すれば、この記述法は、細菌における抗生物質感受性（susceptibility）の基礎となる遺伝的機構の多様性を効率的に記述する。

しかしながら、この記述法は、下記事項を含む、機械学習技術に悪影響を有しかねないいくつかの欠点を有する：
ａ．ｋ－ｍｅｒはきわめて冗長である：保存されたゲノム領域をカバーするｋ－ｍｅｒは共起性であり得る、すなわちゲノムのセット内に系統的に存在したり存在しなかったりし、したがって統計的に等価である；
ｂ．一部のｋ－ｍｅｒはゲノム領域に対して非特異的であり、したがって注解を付す、すなわち構造的または機能的に特徴づけるのが困難である（遺伝子、突然変異等）；
ｃ．ゲノム－感受性（susceptibility）の関連付けはきわめて高次元の問題であり、１ゲノム当たりのｋ－ｍｅｒの数は数十万または百万さえも上回り、したがって冗長性および非特異性が、学習ツールに対して相関性の高い変数をもたらす。

高リスク分野、特にヒトの健康の分野の場合、変数の次元数を低下させて、予測モデルの解釈可能性を高めることが重要である。特に、機械学習ツールは学習データ内のバイアス、例えばゲノム多様性の欠如、および細菌ゲノムの関数として感受性（susceptibility）を公式化したときの不完全性と関連するバイアス、例えば異なるゲノム領域間の強い相関性を考慮する際の不具合に影響を受けやすい（sensitive）。次元数を低下させることにより、学習ツール専門家および細菌ゲノミクス専門家の両方にとって、予測モデルの解釈がしやすくなり、バイアスの検出が可能になり、したがって適する学習データの構築または学習ツールが解決しようとする問題の再公式化が可能になる。同様に、予測モデルの解釈可能性が向上しているので、予測モデルは、その分析後に明らかなバイアスが存在しなければ、高リスク分野で使用するための妥当性を確認することがより容易になる。

次元数の強力な低下を可能にするツールの中でも、倹約的自動学習ツール、例えば罰則付きラッソ回帰（penalized lasso regression）またはデシジョンツリーに基づくツールが、１０００または１００ものオーダーのいくつかの予測的ｋ－ｍｅｒ（すなわち予測モデル内に保持されているｋ－ｍｅｒ）の取得を可能にする。しかしながら、これらのツールは、変数の相関性が高い高次元環境において不安定である。したがって、これらのツールは、何らかの生物学的リアリティーを必ずしも有さないゲノム単位を共に形成する予測因子変数を選択する可能性があり、したがって予測モデルは解釈が困難なまま存続する。ある特定の技術、とりわけＬ１タイプペナルティーとＬ２タイプペナルティーとを組み合わせて、相関性を有する予測因子変数の群の選択をもたらす弾性ネットペナルティーに基づく回帰が、変数間の強い相関性を考慮することができる。しかしながら、このクラスタリングは主にアルゴリズム的なままに留まること、および保持された変数の群は生物学的に解釈するのがなおも困難であることに留意すべきである。

その他のツール、例えばグループラッソツールは、記述変数をゲノムユニットに演繹的にクラスタリングするのを可能にする。この文脈において、あるユニット内のすべての変数は、グループラッソ戦略によるユニットの選択または非選択に依存して予測的または非予測的のいずれかである。しかしながら、ｋ－ｍｅｒでの記述法は上記理由から解釈するのが困難であるので、解釈的ユニット内での演繹的定義も困難である。特に、この記述法は、高次元空間では相関性が高まるという現象が、細菌ゲノミクスにおける専門家により十分理解され、また定説となっていることを前提とするが、このような現象に対する知識の欠如、また知識の不完全性が、機械学習アルゴリズムにおけるバイアスに変換されるということが理由である。

Ｃ．分子予測技術の生物学的変動に対する適用
上記で提示した問題と並行して、予測がゲノム配列の群に基づくとき、クラスターを構成するすべての配列がゲノム内に同一の様式ですべて存在する場合、群が菌株のゲノム内に存在するかということに関して疑問が生ずる。そのような基準が適用される場合、学習データは、細菌種のすべてのゲノム変動を包含するのに完全であるということが前提となる。所与の時点において学習データの完全性を判断するのは困難であるという事実に付加して、前記データは、ある特定の細菌種において、そのゲノムのきわめて有意な可塑性に起因して、長期にわたり不完全となることが非常に多い。また、過剰に厳格な基準を適用すると、高頻度の偽陽性または偽陰性も引き起こす。

さらに、配列決定されたゲノムが、とりわけ「読み取り（ｒｅａｄ）」の形態である、すなわち何らかのバイオインフォマティクス処理、例えばコンセンサスアセンブリまたは不良品質の読み取りのフィルタリング等の前の、シークエンシングプラットフォームのアウトプット時に生成された配列であるとき、配列決定されたゲノムは誤差により劣化し得る。この場合、配列はゲノム内に存在するものの、シークエンシング誤差に起因して不存在として検出される場合があり、またその逆も成り立つ。特に、バイオインフォマティクス処理は、低品質の読み取りのフィルタリング、および任意選択的にアセンブルされた配列または「ｃｏｎｔｉｇ」を取得するための、フィルタリング後の読み取りについて行われるコンセンサスアセンブリを一般的に含む。アセンブリの任意選択的な性質は、サンプル分析が実施される文脈に一般的に依存する。アセンブリの効果として、ｃｏｎｔｉｇにおいてシークエンシング誤差を、現時点において、ＩｌｌｕｍｉｎａＩｎｃ．，社のプラットフォームで使用されるＳＢＳ技術の場合、１０^－５のレベルまで、およびＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓＬｔｄ．社のプラットフォームで使用されるナノポア技術の場合、１０^－２のレベルまで有意に低下させることが挙げられる。一方、アセンブリは、高い演算能力および時間を必要とするので、コンピューティング環境が一般的に非常に強力というわけではない「ＰＯＣ」（ポイントオブケア）ゲノムアプリケーション、および／または高速もしくはリアルタイムといったアプリケーションにとって非常に相性が良いとはいえない。この文脈において、例えば、これまでに記載されたように、サンプル中に存在する１つもしくは複数の種の同一性、および／またはそのような種の１つもしくは複数の抗生物質に対する感受性（susceptibility）を判定するためのゲノム分析が、フィルタリング後またはフィルタリング前の読み取りにおいて直接実施される。しかしながら、シークエンシング誤差は、ＳＢＳ技術について２～３％のオーダー、およびナノポア技術について最大１２％である。特別な注意を払わなければ、ゲノム分析は同じように高い誤差率を引き起こすおそれがある。

１つまたは複数の抗生物質に対する細菌株の感受性（susceptibility）について、そのゲノム予測と関連して今記載された問題は、菌株の表現型形質、例えばその病毒性またはそのリボタイプについてゲノム判定する場合、いずれについても同様に発生する。

本発明の目的は、微生物、とりわけ細菌株、酵母菌株、または糸状菌株のゲノムにおいて、ゲノム配列の存在または不存在を確実に検出できるようにすることである。

このために、本発明の１つの主題は、デジタル形式の微生物のゲノムにおいて、デジタル形式のゲノム配列を検出するためのコンピューター支援式の方法であって、
－ゲノム配列全体にわたり、一定ステップで、長さｋのウィンドウをスライドさせることにより取得される、一定長さｋのデジタルゲノム配列、または「ｋ－ｍｅｒ」のセットをコンピューターメモリー内に保管することと、
－ｋ－ｍｅｒ毎に、ゲノム内でのその不存在または存在を判定することと、
－ゲノム内に存在するものとして検出されたｋ－ｍｅｒの割合（％）が事前に決定された閾値を上回る場合、ゲノム配列がゲノム内に存在するものとして判定することと
を含む方法である。

１つの実施形態によれば、ゲノム内のｋ－ｍｅｒの存在または不存在の判定は、ゲノムにおいてｋ－ｍｅｒの少なくとも１つの同一コピーを検出することにより得られる。

特に、デジタルゲノムは、シークエンシングプラットフォームにより生成されたゲノム配列、または「読み取り」のセットから構成され、それに基づき、ゲノムにおけるｋ－ｍｅｒの存在または不存在の判定が、ゲノムにおいてｋ－ｍｅｒのＮ_ｃｏｖ個の同一コピーを検出することにより得られ、但し整数Ｎ_ｃｏｖは、

に等しく、式中、Ｎ_ｒはデジタルゲノムに含まれる塩基の合計数であり、Ｎ_ｇは微生物が属する種の参照ゲノムの塩基の合計数であり、およびτは５％～１５％の割合（％）、特に１０％である。

特に、微生物のゲノムは、サンプルの直接シークエンシングに由来するゲノムのセットに含まれ、各デジタルゲノムはシークエンシングプラットフォームにより生成されたゲノム配列、または「読み取り」のセットから構成され、それに基づき、ゲノムにおける存在または不存在の判定が、ゲノムにおいてｋ－ｍｅｒのＮ_ｃｏｖ個の同一コピーを検出することにより得られ、但し整数Ｎ_ｃｏｖは、

に等しく、式中、Ｎ_ｒはデジタルゲノムに含まれる塩基の合計数であり、Ｎ_ｇは微生物が属する種のゲノムの塩基の平均合計数であり、ρはサンプル中に存在する微生物の相対的割合（％）であり、およびτは５％～１５％の割合（％）、特に１０％である。

１つの実施形態によれば、事前に決定された閾値は、ゲノム配列の長さに依存する。特に、前記事前に決定された閾値の値は、ゲノム配列の長さの数値に伴い減少する。

好ましくは、ゲノム配列の長さの空間は３つの間隔に分割され、それに基づき、事前に決定された閾値は１間隔毎に一つの数値をとる。特に、ｋは１５～５０であり、これに基づき、Ｌ≦６１の場合、ｓ_ｕｎｉ＝９０％、６１＜Ｌ≦１００の場合、ｓ_ｕｎｉ＝８０％、および１００＜Ｌの場合にはｓ_ｕｎｉ＝７０％であり、但しＬはゲノム配列の長さであり、およびｓ_ｕｎｉは事前に決定された閾値の値である。

１つの実施形態によれば、ゲノム配列の群の検出が提供され、前記検出は、
－請求項１から９のいずれか一項に記載の方法に基づき、前記群の各ゲノム配列を検出することと、
－下記事項に該当する場合、
〇前記群の少なくとも１つのゲノム配列が検出される場合、または
〇前記群の全ゲノム配列が検出される場合、または
〇検出された前記群のゲノム配列の割合（％）が、第２の事前に決定された閾値を上回る場合、または
〇存在するものとして検出された、前記群のゲノム配列の割合（％）に等しい確率を有する場合、
ゲノム配列の群がゲノム内に存在するものと判定することと
を含む。

特に、第２の閾値は２０％以上であり、好ましくは２５％に等しい。

実施形態によれば、方法は、細菌株のゲノムを全体的または部分的に配列決定して、デジタル形式のゲノムを生成することも含む。

また、上記タイプの方法を実施するためのコンピューター実行可能なインストラクションを保管するコンピュータープログラム製品も本発明の主題である。

微生物のゲノムに含まれるゲノム配列を検出するためのシステムであって、
－前記株のゲノムを部分的または全体的に配列決定するためのシークエンシングプラットフォームと、
－請求項１から１０のいずれか一項に記載の検出方法を適用するように構成されたコンピューターユニットと
を含むシステムも本発明の主題である。

本発明は、純粋に例として記載され、そして添付の図面（同一の参照番号は同一の要素または類似した要素を表す）に関連して作成された下記の説明を閲読すればより良く理解される。

抗生物質に対する細菌株の感受性（susceptibility）を予測するための先行技術のうち、２つの分子技術について例証する図である。本発明による学習段階および予測段階のフローチャートを示す図である。本発明によるＭＡＦユニットの生成を例証する図である。本発明による方法で使用されるクラスタリングを例証する図である。本発明による予測閾値の選択を例証するＲＯＣ曲線を示す図である。細菌種（肺炎桿菌（Ｋｌｅｂｓｉｅｌｌａｐｎｅｕｍｏｎｉａｅ））、および抗生物質（メロペネム）、ラッソ技術にしたがいおよび「クラスター－ラッソ」と命名される本発明の方法にしたがい取得された予測モデルの係数について例証し、ならびにｂｌａＫＰＣ遺伝子として注釈付きの圧縮されたグラフのサブグラフ内の２つのモデル（ラッソモデルおよびクラスター－ラッソモデル）の予測的変数の場所についても例証する図である。細菌種（肺炎桿菌）および抗生物質（セフォキシチン）について、ラッソモデルの最も予測的な拡張されたＭＡＦユニットに関わる圧縮されたグラフのサブグラフ（左部分）、およびクラスター－ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ（右側の部分）を例証する図である。サルモネラ（Ｓａｌｍｏｎｅｌｌａ）種および抗生物質（テトラサイクリン）について、ラッソモデルの係数の絶対値、クラスター－ラッソモデルの係数の絶対値、およびクラスター－ラッソモデルの最初から１０個の最も予測的なクラスターに含まれるＵｎｉｔｉｇの数を例証する図である。サルモネラ種および抗生物質（テトラサイクリン）について、ラッソモデルの最も予測的な拡張されたＭＡＦユニットに関わる圧縮されたグラフのサブグラフ（左部分）、およびクラスター－ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ（右側の部分）を例証する図である。サルモネラ種および抗生物質（ゲンタマイシン）について、ラッソモデルの係数の絶対値、クラスター－ラッソモデルの係数の絶対値、およびクラスター－ラッソモデルの最初から１０個の最も予測的なクラスターに含まれるＵｎｉｔｉｇの数を示す図である。サルモネラ種および抗生物質（ゲンタマイシン）について、ラッソモデルの最も予測的な拡張されたＭＡＦユニットに関わる圧縮されたグラフのサブグラフ（左部分）、およびクラスター－ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ（右側の部分）を例証する図である。淋菌（Ｎｅｉｓｓｅｒｉａｇｏｎｏｒｒｈｏｅａｅ）種および抗生物質（セフィキシム）について、ラッソモデルの最も予測的な拡張されたＭＡＦユニットに関わる圧縮されたグラフのサブグラフ（左部分）、およびクラスター－ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ（右側の部分）を例証する図である。淋菌種および抗生物質（セフィキシム）について、ラッソモデルの係数の絶対値、クラスター－ラッソモデルの係数の絶対値、およびクラスター－ラッソモデルの最初から１０個の最も予測的なクラスターに含まれるＵｎｉｔｉｇの数を例証する図である。黄色ブドウ球菌（Ｓｔａｐｈｙｌｏｃｏｃｃｕｓａｕｒｅｕｓ）種および抗生物質（テトラサイクリン）について、ラッソモデルの最も予測的な拡張されたＭＡＦユニットに関わる圧縮されたグラフのサブグラフ（左部分）、およびクラスター－ラッソモデルの最も予測的なクラスターに関わる圧縮されたグラフのサブグラフ（右側の部分）を例証する図である。黄色ブドウ球菌種および抗生物質（テトラサイクリン）について、ラッソモデルの係数の絶対値、クラスター－ラッソモデルの係数の絶対値、およびクラスター－ラッソモデルの最初から１０個の最も予測的なクラスターに含まれるＵｎｉｔｉｇの数を示す図である。ゲノム内のゲノム配列を検出するためのフローチャートを例証する図である。ゲノム配列のｋ－ｍｅｒへの分解を示す図である。ゲノム配列を検出するために達成されなければならない、ゲノム内のｋ－ｍｅｒの存在割合（％）を例証する図であり、この割合（％）は前記配列の長さに依存する。肺炎桿菌株単離物について、シークエンシングカバレッジ深度の関数として、ラッソ予測のＡＵＣおよびクラスター－ラッソ予測のＡＵＣを例証する図である。ならびに肺炎桿菌株を含むメタゲノムサンプルについて、シークエンシングカバレッジ深度の関数として、クラスター－ラッソ予測のＡＵＣを例証する図である。肺炎桿菌株を含むメタゲノムサンプルについて、シークエンシングカバレッジ深度の関数として、クラスター－ラッソ予測のＡＵＣを例証する図である。

Ａ．本発明の実施形態
図２Ａおよび図２Ｂを参照すると、本発明による方法は、所与の細菌種に属する細菌株の抗生物質に対する感受性（susceptibility）を予測するためのモデルを、前記菌株の細菌ゲノムの関数として訓練する第１の部分３０、および前記モデルを前記細菌種の菌株に適用してその未知の感受性（susceptibility）を予測する第２の部分４０を含む。

第１の部分３０は、３００において、前記菌種についてゲノムおよび表現型のデータベースを確立することにより開始する。特に、例えば前記菌種に感染した患者から菌株のセットが収集され、そして収集した菌株それぞれについて、例えばＩｌｌｕｍｉｎａ社製のＭｉＳｅｑシークエンシングプラットフォームを使用しながら配列決定を行ってその全ゲノムを取得し、そして例えば、ｂｉｏＭｅｒｉｅｕｘ社製のＶｉｔｅｋ２を使用しながら、アンチバイオグラムを確立して、ＣＬＳＩ標準またはＥＵＣＡＳＴ標準の臨界濃度（または「ブレークポイント」）に基づき、抗生物質に対する菌株の感受性（susceptibility）－耐性（「Ｒ」）、中間（「Ｉ」）、または感受性（sensitive）（「Ｓ」）を判定する。好ましくは、ゲノムは、それ自体公知の方式で、シークエンシングプラットフォーム（または「読み取り（ｒｅａｄ）」）により生成されたデジタル配列をデジタル的にアセンブルすることによって生成された、アセンブルされた配列（または「ｃｏｎｔｉｇ」）の形態を採る。各菌株の完全なデジタルゲノムおよび抗生物質感受性（susceptibility）は、コンピューターデータベース内に保管されて学習データセットおよびテストデータセットを形成する。

有利には、但し任意選択的に、「耐性」および「中間」の状態が統合されて、２つの抗生物質感受性（susceptibility）状態が取得される。このようにして、感受性（sensitive）（「Ｓ」）細菌株と非感受性（non-sensitive）（「ＮＳ」）細菌株間を区別するバイナリー分類問題が定義される。例えば、Ｓ状態は数字０を用いてコード化され、またＮＳ状態は数字１を用いてコード化される。

ステップ３０の残りの部分はコンピューターにより実施され、そしてデータベースを２つにクラスタリングして学習データベースおよびテストデータベースを取得することにより、３０２において開始する。好ましくは、クラスターは「１０分割」クラスターであり、データベースの９／１０が学習データベースを構成し、残りの１／１０がテストデータベースを構成する。学習データベースで使用される細菌株の合計数はＮとして本明細書の下記において記載される。

次のステップ３０４では、細菌ゲノムの記述変数のセットが決定される。図２と並行して図３を参照すると、学習データベースのゲノムＧが、ｋ－ｍｅｒの冗長性を制限すると同時に細菌種の遺伝的変動を最適に捕捉するために、３０６において、１５～５０ｋのサイズ、例えばｋ＝３１のｋ－ｍｅｒで最初に記述される。後続するステップ３０８では、情報を失うことなく、ｋ－ｍｅｒから異なるゲノム配列のセットへの変換が実施される。このために、ｋ－ｍｅｒは、最初にｋ次およびアルファベットＡ、Ｔ、Ｇ、ＣのＤｅＢｒｕｉｊｎグラフ（ＤＢＧ）に変換される。ＤＢＧグラフは、次に線形経路を自動的にクラスタリングすることにより、圧縮されたＤｅＢｒｕｉｊｎグラフ（ｃＤＢＧ）に変換され、したがって分岐を有さない。交点（相互に異なる）が長さの異なる配列に対応するグラフにおいて、ｋ－ｍｅｒはそのようにコード化されるが、この交点（この配列、に同じ）は「Ｕｎｉｔｉｇ」と呼ばれる。

後続するステップ３１０では、Ｕｎｉｔｉｇは、重複排除によってユニットにクラスター化されるが、そのユニットのマイナーアレル頻度（ＭＡＦ）は、任意選択的に９８％～９９．５％、例えば９９％の事前に決定された閾値「Ｓ_ＭＡＦ」よりも高い。特に：
ａ．圧縮されたグラフ（ｃＤＢＧ）の各Ｕｎｉｔｉｇは、データベースの各ゲノムに含まれるＵｎｉｔｉｇの存在または不存在を表すバイナリー変数によりコード化される。行列Ｖは、ｊ番目のＵｎｉｔｉｇがデータベースのｉ番目のゲノム内に存在する場合には、そのコンポーネントＶ_ｉ，ｊは１に等しく、また存在しない場合には０に等しくなるように取得される。
ｂ．行列Ｖの各ベクトルＶ_．，ｊ、すなわちＵｎｉｔｉｇと関連する各列は、次にＵｎｉｔｉｇのＭＡＦを計算するために修正される。ｊ番目のＵｎｉｔｉｇのアレル頻度が０．５を上回る場合、ｊ番目のＵｎｉｔｉｇがデータベース内の５０％を超えるゲノムにおいて観察されることを意味し（すなわち、

、次に列Ｖ_．，ｊは、∀ｉ，Ｖ_ｉ，ｊ＝｜１－Ｖ_ｉ，ｊ｜のように変換される。この変換は、初期に相補的である行列Ｖの２つの同一の列を、Ｕｎｉｔｉｇの存在共起性がその不存在共起性と同一であるようにするという利点を有する。
ｃ．このように変換された行列Ｖは、次に共起性が完全なＵｎｉｔｉｇ、すなわちデータベースのゲノムに含まれるユニットの不存在／存在が同一であるＵｎｉｔｉｇを共にいくつかのユニットにグループ化するために、同一の列についてフィルタリングされる。例えば、変換された行列Ｖが、その第２の列Ｖ_．，２と同一のその第１の列Ｖ_．，１を有する場合、列の一方が削除され、そして残存する列が第１および第２の列のＵｎｉｔｉｇのユニオンをコード化し、したがって新しいゲノムユニットを形成する。
ｄ．頻度が（１００－Ｓ_ＭＡＦ）％よりも低いユニット、すなわちＳ_ＭＡＦ＝９９％のとき、

のようなユニットは除去され、つまり行列Ｖの対応する列が削除されることを意味する。結果は、ｊ番目のＭＡＦユニットがデータベースのｉ番目のゲノム内に存在する場合、行列のコンポーネントＸ_ｉ，ｊは１に等しく、また存在しない場合には０に等しくなるような行列Ｘである。

残りのユニット（本明細書の下記おいて「ＭＡＦユニット」と呼ぶ）は固有であり、相互に異なり、また、以下に記載する機械学習ツールにおいて変数としてその後使用される。このようにユニットにクラスタリングすること、およびフィルタリングすることで、ＭＡＦユニットが抗生物質感受性（susceptibility）に関与する可能性に関してＭＡＦユニットの固有情報値を修正せずにｋ－ｍｅｒでゲノムを記述することにより誘発された冗長性が有意に低下する。ステップ３０４～３１０は、Ｍ．ＪａｉｌｌａｒｄＤａｎｃｅｔｔｅによる論文「Ｖｅｒｓｕｎｅｃａｒｔｏｇｒａｐｈｉｅｄｅｓｐｏｌｙｍｏｒｐｈｉｓｍｅｓｌｉｅｓａｌａｒｅｓｉｓｔａｎｃｅａｕｘａｎｔｉｍｉｃｒｏｂｉｅｎｓ［Ｔｏｗａｒｄｓａｍａｐｐｉｎｇｏｆｐｏｌｙｍｏｒｐｈｉｓｍｓｒｅｌａｔｅｄｔｏａｎｔｉｍｉｃｒｏｂｉａｌｒｅｓｉｓｔａｎｃｅ］」、２０１８、およびＪａｉｌｌａｒｄＭ．らによる文献「Ａｆａｓｔａｎｄａｇｎｏｓｔｉｃｍｅｔｈｏｄｆｏｒｇｅｎｏｍｅ－ｗｉｄｅａｓｓｏｃｉａｔｉｏｎｓｔｕｄｉｅｓ：Ｂｒｉｄｇｉｎｇｔｈｅｇａｐｂｅｔｗｅｅｎｋ－ｍｅｒｓａｎｄｇｅｎｅｔｉｃｅｖｅｎｔｓ」、ＰＬＯＳＧｅｎｅｔｉｃｓ、２０１８においてより詳細に記載されており、また例えば、Ｍ．Ｊａｉｌｌａｒｄにより開発されたＤＢＧＷＡＳソフトウェア（ｈｔｔｐｓ：／／ｇｉｔｌａｂ．ｃｏｍ／ｌｅｏｉｓｌ／ｄｂｇｗａｓ）を使用して実施される。

学習パート３０は、ＭＡＦユニットを、抗生物質感受性（susceptibility）について予測的であると共に、強化された生物学的有意性を有する限定数の変数（本明細書の下記において「クラスター」と呼ぶ）にクラスタリングするステップ３１２に継続する。

ステップ３１２は、３１４において、抗生物質感受性（susceptibility）について予測的であるＭＡＦユニットの選択から開始する。有利には、この選択は、ラッソタイプの罰則付きロジスティック回帰ツールを使用して実施される。より具体的には、正値のセット｛λ_１，λ_２，．．．，λ_ｍ｝の各λ値について、下記の最適化問題が解かれるが：

上記関係式において、
－ｐは、ＭＡＦユニットの数、したがって行列Ｘ内の列の数である；
－Ｎは、学習データベースを作成するのに使用される細菌株の数、したがって行列Ｘ内の行の数である；
－ｙ_ｉは、行列Ｘのｉ番目の行と関連し、測定される抗生物質に対するｉ番目の細菌株の感受性（susceptibility）であり、すなわち前記菌株が感受性（sensitive）である場合、ｙ_ｉ＝０であり、またそうでなければｙ_ｉ＝１である；
－Ｌは、測定される表現型ｙ_ｉと予測される表現型ｆ（Ｘ_ｉ，．）間の差異を定量するロジスティック損失関数であり、例えばこれら２項の差異の２乗、またはロジスティック損失関数、例えば

等である。

λの数値のいずれかについて作動化されており、したがって予測的である任意のＭＡＦユニットが選択され、すなわち、

の場合、ｊ番目のＭＡＦユニットが選択される。すでに知られているように、ラッソツールは、１つまたは複数の変数を、Ｎ個の変数の極大を強調するように横断する経路｛λ_１，λ_２，．．．，λ_ｍ｝としてすでに作動化している変数に追加しながら、正則化経路｛λ_１，λ_２，．．．，λ_ｍ｝に沿ってそのツールの変数を徐々に作動化させる。ＭＡＦユニットの極大について作動化を実現するために、セット｛λ_１，λ_２，．．．，λ_ｍ｝が有利に選択される。例えば、該セットは、Ｆｒｉｅｄｍａｎらによる文献「ＲｅｇｕｌａｒｉｚａｔｉｏｎＰａｔｈｓｆｏｒＧｅｎｅｒａｌｉｚｅｄＬｉｎｅａｒＭｏｄｅｌｓｖｉａＣｏｏｒｄｉｎａｔｅＤｅｓｃｅｎｔ」、ＪｏｕｒｎａｌｏｆＳｔａｔｉｓｔｉｃａｌＳｏｆｔｗａｒｅ、２０１０に記載の方法、または例えば、Ｒに導入されたｐａｃｋａｇｅｇｌｍｎｅｔ３．０．２により実行される方法、および例えば、ウェブサイト（ｈｔｔｐｓ：／／ｃｌｏｕｄ．ｒ－ｐｒｏｊｅｃｔ．ｏｒｇ／ｗｅｂ／ｐａｃｋａｇｅｓ／ｇｌｍｎｅｔ／ｉｎｄｅｘ．ｈｔｍｌ）から入手可能な方法に基づき計算される。特に、この方法は、数ｍの正則化変数λを予め選択するのを可能にする。この数は、例えば１００に等しくなるように選択される。

選択されたＭＡＦユニットは、本明細書の下記において「作動的ＭＡＦユニット」と呼ばれ、作動的ＭＡＦユニットの数はｐ_ａと記載される。ＭＡＦユニットのランクはａ_ｉと記載され（すなわち、行列Ｘ内のその列インデックス）、セット

内に保管される。

次に、ステップ３１０は、３１６において、ステップ３１４で選択されなかったＭＡＦユニットであるが、しかし作動的ＭＡＦユニットとゲノム内で最低限の共起率を有するＭＡＦユニットを特定することからなり、次にそのように特定されたＭＡＦユニットが作動的ＭＡＦユニットのリストに追加される。２つのユニットの共起率は、行列Ｘのその対応する列間の相関により有利に測定される。このために、ｐ_ａ×ｐ次元の行列Ｇが、

のように計算され、式中、ｃｏｒは、例えばブラベー－ピアソン線形相関であり、

およびＸ_．，ｊは、行列Ｘのａ_ｉ番目およびｊ番目の列をそれぞれ表す。

次に、作動的ＭＡＦユニットと事前に定義された閾値ｓ_１よりも高い相関性を有する任意のＭＡＦユニットが選択され、そして作動的ＭＡＦユニットのリストに追加され、そのように選択されたＭＡＦユニットのセットは、本明細書の下記において「拡張された作動的ＭＡＦユニット」と呼ばれる。換言すれば、∃ｉ／Ｇ_ｉ，ｊ＞ｓ_１の場合、ｊ番目のＭＡＦユニット（ｊ∈［１，ｐ］）が選択される。ｓ_１は、拡張された作動的ＭＡＦユニット間の必要とされる共起率を規定する数である。ｓ_１は、０．５～１、好ましくは０．８～１、および有利には０．９～０．９５、例えば０．９５である。拡張された作動的ＭＡＦユニットの合計数はｐ_ｅと記載され、ｋ－ｍｅｒの初期の数ｐよりもかなり小さく（ｐ_ａ＜ｐ_ｅ≪ｐ）、１０^５～１０^６ではなく１０^３の次数である。拡張された作動的ＭＡＦユニットのランクはｅ_ｌと記載され（すなわち、行列Ｘ内のその列インデックス）、セット

内に保管される。

後続するステップ３１８では、きわめて共起性の拡張された作動的ＭＡＦユニットの群または「クラスター」が、クラスタリング分析ツールを実行することにより明確に定義される。好ましくは、階層的クラスタリングが、拡張された作動的ＭＡＦユニット間の共起率から計算された距離行列に基づき実行される。階層的クラスタリングは、最短距離に基づく集合基準（または「単連結法」）を使用する、例えばＢｕｈｌｍａｎｎＰ．らによる文献、「Ｃｏｒｒｅｌａｔｅｄｖａｒｉａｂｌｅｓｉｎｒｅｇｒｅｓｓｉｏｎ：Ｃｌｕｓｔｅｒｉｎｇａｎｄｓｐａｒｓｅｅｓｔｉｍａｔｉｏｎ」、ＪｏｕｒｎａｌｏｆＳｔａｔｉｓｔｉｃａｌＰｌａｎｎｉｎｇａｎｄＩｎｆｅｒｅｎｃｅ、２０１３、に記載されているもの、またはＲに導入されたＳｔａｔｓ３．６．２パッケージの「ｈｃｌｕｓｔ」関数により実行されるもの、および例えばウェブサイト（ｈｔｔｐｓ：／／ｗｗｗ．ｒｄｏｃｕｍｅｎｔａｔｉｏｎ．ｏｒｇ／ｐａｃｋａｇｅｓ／ｓｔａｔｓ／ｖｅｒｓｉｏｎｓ／３．６．２／ｓｏｕｒｃｅ）から入手可能なものである。

より具体的には、階層的クラスタリングにより使用される距離行列は、ｐ_ｅ×ｐ_ｅ次元の行列Ｄであり、以下のように計算されるが、但し

は、行列Ｘのｅ_ｉ番目およびｅ_ｊ番目の列をそれぞれ表す：

拡張された作動的ＭＡＦユニットのデンドログラムはこのようにして得られる。このデンドログラムは、次に、図４に例示するように高さ１－ｓ_２でクラスター化されるが、但しｓ_２は、クラスター内で共起率を固定する０～１、好ましくは０．５～１、好ましくは０．８～１、および有利には０．９～０．９５、例えば０．９５の数である。デンドログラムの「下方」部分は、したがって拡張された作動的ＭＡＦユニットがその共起性にしたがい分布するクラスターを定義する。各クラスターもやはり固有であり、任意のＭＡＦユニット、特に任意のＵｎｉｔｉｇを、任意のその他のクラスターと共有することはない。個数ｐ_ｃのクラスターは、Ｃ_１，Ｃ_２，．．．，Ｃ_ｊ，．．．

と記載され、各クラスターＣ_ｊは、セット

に含まれるランクのｐ_ｊ番の拡張された作動的ＭＡＦユニット（すなわち、行列Ｘ内のその列インデックス）のクラスタリングである。

後続するステップ３２０では、クラスターＣ_ｊ毎に、それを構成するＵｎｉｔｉｇが、長さｋのウィンドウをＵｎｉｔｉｇ全体にわたり、１ステップずつスライドさせることにより、１５～５０のｋ、例えばｋ＝３１を有するｋ－ｍｅｒに分解される。クラスターＣ_ｊ毎に、それを構成するＵｎｉｔｉｇの数を表すのにｑ_ｊが使用される場合、Ｕｎｉｔｉｇと関連するｑ_ｊ個のｋ－ｍｅｒのセットそれぞれが保管される。明確にするために、クラスターと関連するｋ－ｍｅｒおよびＵｎｉｔｉｇは、「クラスターｋ－ｍｅｒ」および「クラスターＵｎｉｔｉｇ」とそれぞれ呼ばれる。

後続するステップ３２２では、抗生物質感受性（susceptibility）を予測するための訓練モデルが使用され、その変数はクラスターＣ_１，Ｃ_２，．．．，Ｃ_ｊ，．．．

である。

ステップ３２２は、３２４において、学習データベース内のゲノム毎に各クラスターの数値を計算することにより開始する。有利には、この数値は、それを構成するＭＡＦユニットの数値の平均に等しい。Ｎ×ｐ_ｃ次元の行列Ｙが、

のようにして得られる。

３２６では、抗生物質感受性（susceptibility）のいくつかの予測モデルが、学習データベースから訓練を受け、次のステップ３２８では、事前に決定された基準に基づき、最良の性能を有するモデルが選択される。

有利には、予測モデルは、罰則付きロジスティック回帰（高レベルの性能を維持しつつ、モデルにより最終的に保持される予測的クラスターの数を低下させることを可能にする）を使用して訓練を受ける。特に、予測モデルは、下記の関係式：

に基づくモデルであり、上記関係式において：

ステップ３２６は、学習データベース上で倹約的ロジスティック回帰ツール、例えばラッソタイプの罰則付き回帰を使用しながら、モデルＧを訓練することにより開始する。特に、モデルＧは、関係式：

に基づき、最適化問題を解くことにより、正値のセット

の数値λ毎に計算されるが、上記関係式において：
－ｙ_ｉは、測定される抗生物質に対するｉ番目の細菌株の感受性（susceptibility）であり、行列Ｙのｉ番目の行と関連し、すなわち前記菌株が感受性（sensitive）である場合、ｙ_ｉ＝０であり、またそうでなければｙ_ｉ＝１である；
－Ｌは、測定される表現型ｙ_ｉと予測される表現型Ｇ（Ｙ_ｉ，．）の間の差異を定量するロジスティック損失関数、例えばこれら２項の差異の２乗、または例えばロジスティック損失関数

等である。

例えば、モデルＧは、数Ｍ＝１００を用いながら、ステップ３１４と関連して上記にて記載された方法に基づき計算される。

と記載される１００個のモデル、したがって関係式（５）～（６）に基づく１００個の予測モデルがこのようにして得られ、それぞれ閾値Ｓ_ｐに依存し、

として本明細書の下記において表される。

各予測モデル

の性能の推定値が、次に３２８においてテストデータベースから計算される。性能評価により、閾値Ｓ_ｐを並行して計算することが可能になる。

特に、ステップ３３０において、テストベース内のゲノム毎に、下記事項が実施される：
ａ．完全な相同性によるゲノム内に存在するクラスターｋ－ｍｅｒの検出、すなわちｋ－ｍｅｒは、それがゲノム内で同一の形態で存在する場合に検出される；
ｂ．先行するステップにおいてゲノム内に存在するものと判定され、クラスターＵｎｉｔｉｇを構成するクラスターｋ－ｍｅｒの割合（％）が第１の事前に決定された検出閾値ｓ_ｕｎｉよりも高い場合、クラスターＵｎｉｔｉｇがゲノム内に存在するということの検出；
ｃ．いくつかのクラスターＵｎｉｔｉｇからなる拡張されたＭＡＦユニットがゲノム内に存在すること（下記のオプションのいずれかに基づき定義される）を検出するためのインジケーターの計算：
ｉ．先行するステップにおいて存在するものと判定され、それ（拡張されたＭＡＦユニット）を構成するクラスターＵｎｉｔｉｇの割合（％）が第２の事前に決定された検出閾値ｓ_ｃｌｕｓ、例えば２０％以上、例えば２５％の閾値を上回る場合、インジケーターは１に等しい。さもなければ、インジケーターは０に等しい。このオプションは以下に記載する実施例に適用されるものである；または
ｉｉ．すべての構成的クラスターＵｎｉｔｉｇが、先行するステップにおいて存在するものと判定される場合、インジケーターは１に等しく、そうでなければ０に等しい；または
ｉｉｉ．少なくとも１つの構成的クラスターＵｎｉｔｉｇが、先行するステップにおいて存在するものと判定される場合、インジケーターは１に等しく、そうでなければ０に等しい。
ｉｖ．インジケーターは、先行するステップにおいて存在するとして検出されたそれ（拡張されたＭＡＦユニット）を構成するクラスターＵｎｉｔｉｇの割合（％）に等しい。

有利には、検出閾値ｓ_ｕｎｉは、クラスターＵｎｉｔｉｇの長さに依存する。特に、１５～５０のｋ、例えばｋ＝３１の場合、ゲノム内存否の知見について究明対象とされるクラスターＵｎｉｔｉｇの長さ（Ｌ）において、Ｌ≦６１の場合、ｓ_ｕｎｉ＝９０％、６１＜Ｌ≦１００の場合、ｓ_ｕｎｉ＝８０％、および１００＜Ｌの場合にはｓ_ｕｎｉ＝７０％であることに留意されたい。

ステップ３２８の３３０において、クラスターの数値を、それを構成する拡張されたＭＡＦユニットの検出インジケーターの平均に等しいものとして計算することにより、先行するステップにおいて判定される。オプションｉ、ｉｉ、およびｉｉｉの場合、この平均は、存在するものとして検出された拡張されたＭＡＦユニットの割合（％）に対応することに留意すべきである。テストベース内のすべてのゲノムについてクラスター値が計算されたら、ステップ３３０は、モデルの感受性（sensitivity）、特異性、および倹約性を最大化する（すなわち、感受性（susceptibility）を予測するのに実際に使用されるクラスターの数を最低限に抑える）モデル選択戦略に継続する。これを行うために、モデル

毎に、閾値Ｓ_ｐを変更し、そして閾値Ｓ_ｐの数値毎に、関係式：

に基づき感受性（sensitivity）および特異性が計算されるが、但し式中、ＴＰ、ＴＮ、ＦＰ、およびＦＮは、それぞれ表１に記載される真の陽性、真の陰性、偽陽性、および偽陰性の数である。

閾値Ｓ_ｐに対する感受性（sensitivity）の数値および（１－特異性）の数値が、次にＲＯＣ曲線において、ｙ軸およびｘ軸上にそれぞれプロットされ、そしてＲＯＣ曲線下面積（「ＡＵＣ」と表される）が計算および保管される。

次に図５で例証するように、モデル

に対する閾値Ｓ_ｐの最適値

が、横座標０および縦座標１の点に最も近いＲＯＣ曲線上の点に対応するものとして計算される。バランスのとれた正確性（「ｂＡＣＣ」）が、次にモデル

について下記の関係式に基づき計算され、モデル

に関するｂＡＣＣ、感受性（sensitivity）および特異性が保管される：

複数のモデル

の中で最終的に保持された１つのモデルが、１つの許容度の中でｂＡＣＣを最大化する最も倹約的なモデル、例えば：
ａ．Ａは、モデルのｂＡＣＣがｍａｘ（ｂＡＣＣ）－０．０１を上回るか、またはｍａｘ（ｂＡＣＣ）が計算されたｂＡＣＣのうち最大であるようなモデル

のセットである；
ｂ．選択されたモデルは、セットＡにおいて最も倹約的モデルである
ようなモデルである。

選択されたモデルは、細菌種の細菌株について抗生物質感受性（susceptibility）を予測する後続使用４０のためにコンピューターメモリーに保管される。保持されたクラスター、したがって構成的Ｕｎｉｔｉｇは、したがって抗生物質感受性（susceptibility）のゲノムシグネチャーを形成する。

特に、この予測は：
ａ．４００において、例えば図１と関連して記載されている方式で、全ゲノム配列を適用することにより、細菌株のゲノムを配列決定すること；
ｂ．４０２において、これまでに記載された方式で、保管された予測モデル内で各クラスターの数値を計算すること；
ｃ．４０４において、保管されたモデルについて関係式（５）～（６）を使用しながら、菌株の感受性（susceptibility）

を計算すること
を行う。

Ｂ．実施例
Ｂ．１．肺炎桿菌
異なる抗生物質に対する細菌種（肺炎桿菌）の感受性（susceptibility）を予測するために、図２Ａおよび図２Ｂに記載されている方法を実施した。表２は、予測モデルの訓練およびバリデーションで使用した菌株の数、そのＮＳ／Ｓ表現型、およびテストした様々な抗生物質をリスト化する。

表３は、「クラスター－ラッソモデル」または「クラスター－ラッソ」として知られている、本発明による方法に基づき訓練を受けたモデルの性能、および「ラッソモデル」または「ラッソ」と呼ばれる先行技術のラッソロジスティック回帰にもっぱら基づいて訓練を受けた予測モデルの性能をリスト化する。この表に提示する性能は、これまでに記載されている手順に基づく、クロスバリデーションによる推定に対応する。後者（ラッソモデル）の場合、関係式（１）および（２）に基づくモデルが計算され、閾値

および最終モデルは、本発明に基づく方法についてこれまでに記載されている方式で、したがって同一の性能基準に基づいて選択した。

「サポート」カラムは、予測モデルについて保持される予測因子変数の数、すなわち

である、またはクラスター－ラッソに関するクラスターの数、およびラッソに関して

である「作動的ＭＡＦユニット」の数を表す。「Ｕｎｉｔｉｇ」カラムは、ゲノムシグネチャーについて保持されるＵｎｉｔｉｇの合計数を表し、カッコ内は予測因子変数の最も広い広がりの中のＵｎｉｔｉｇの数である。

以上から理解されるように、クラスター－ラッソモデルの性能は、学習変数がクラスタリングにより束縛されない予測モデルの性能と類似している。したがって、２つのモデルはバランスのとれた正確性ｂＡＣＣおよびＡＵＣに関して類似した性能を示し、形質間の相関性を考慮してもしなくても、予測性能に関して限定された影響しか有さないことが確認されることに留意すること。モデルサポートは、多くの場合クラスター－ラッソについて若干小さめであり（抗生物質１０種のうち８種において）、ラッソについて個別に選択されたいくつかの形質が、クラスター－ラッソを通じて最終的に単一のクラスターに統合されることを示唆することにも留意すること。期待通り、クラスター－ラッソモデルに含まれるＵｎｉｔｉｇの合計数は、有意により大きい。この数は予測的クラスターにおいて均等に分布していないことに留意すること。例えば、メロペネムに対する感受性（susceptibility）を予測するモデルにおいて、１６４個のＵｎｉｔｉｇのうち１５９個が単一のクラスター中に存在し、予測的なゲノム形質としての遺伝子の存在を示唆している。

図６（Ａ）は、メロペネムについてモデルの係数の大きさを示す。見ての通り、クラスター－ラッソモデルのシグネチャーは１つの重要な形質によって本質的に要約される一方、ラッソシグネチャーの４～５個の形質は明らかな重みを有する。予測的な重みが最大のクラスターは、Ｕｎｉｔｉｇの数において最大のクラスターでもあると換言される。圧縮されたＤｅＢｒｕｉｊｎグラフ（ｃＤＢＧ）においてこのクラスターを可視化すると（例えば、これまでに記載のＤＢＧＷＡＳソフトウェアを使用して）、図６（Ｃ）に示すように、このクラスターのＵｎｉｔｉｇはグラフ内で長い線形経路を形成することが明らかである。したがって、これは、このクラスターが全遺伝子に対応することを示唆する。ＤＢＧＷＡＳソフトウェアにより提供されるこの線形経路の注釈は、それ（線形経路）が、ｂｌａＫＰＣ遺伝子（メロペネム耐性におけるその役割に関する文献においてやはり十分に文書化されている）に対応することを示唆する。ラッソシグネチャーについて得られた可視化では、反対に、８個の予測因子変数のうちの３個（変数１、２、および４）が、ｂｌａＫＰＣ遺伝子として注釈が付された領域内に同時に配置されることを示している。しかしながら、ラッソがｂｌａＫＰＣ遺伝子内でこれらの特定のＵｎｉｔｉｇを選択するという事実は、関係する耐性デターミナントがこの遺伝子内の点突然変異、すなわちＳＮＰまたはインデルであることを示唆する。遺伝子の注釈がクラスター－ラッソを用いて得られた注釈と同一であっても、遺伝的バリアントに関するシグネチャーの解釈は、したがって大きく異なる。ラッソシグネチャーをより深く検討すると、ｂｌａＫＰＣ遺伝子内に位置する３つの変数は、実際、高い相関性を有することが明らかである。本発明に基づき、これらの実体が相関性を有することを明確に検出し、そしてそれらの実体を、ラッソシグネチャーに含まれなくても相関性を有するその他のゲノムユニットと共に１つのクラスターに統合することにより、クラスター－ラッソは、したがって潜在的予測モデルの解釈について、２つ観点においてより生物学的に意味のある解釈をもたらす。第１に、関係するゲノムデターミナントの性質：遺伝子内での獲得または突然変異に関する。第２に、ラッソシグネチャーに含まれる、異なるが相関性を有するいくつかの形質の寄与を総合することによる、感受性（susceptibility）予測に対するその（ゲノムデターミナントの）全体的な寄与に関する。

同様に、図７は、セフォキシチンについて２つの予測モデルの解釈可能性について例証する。２つの最も予測的なクラスターが配置されているｃＤＧＢグラフのサブグラフに注目すると、これら２つの領域の注釈は、両法について同一の耐性遺伝子を特定する（第１に、排出ポンプに関係することが公知のＯｍｐＫ３６遺伝子、および第２にｂｌａＫＰＣ遺伝子）。一方、ゲノムデターミナント（遺伝子の存在、ＳＮＰ、インデル等）の性質は、ラッソシグネチャーからは推測できない。

解釈可能性は、非常に詳細でありさえし得る。例えば、クラスター－ラッソシグネチャーについて得られたＯｍｐＫ３６注釈付きのサブグラフ（図７の上段右側パネル）に関して、９個のＵｎｉｔｉｇをクラスタリングする２つのクラスター（クラスター１および３）を含む。ＪａｉｌｌａｒｄＭ．らによる文献、「Ａｆａｓｔａｎｄａｇｎｏｓｔｉｃｍｅｔｈｏｄｆｏｒｇｅｎｏｍｅ－ｗｉｄｅａｓｓｏｃｉａｔｉｏｎｓｔｕｄｉｅｓ：Ｂｒｉｄｇｉｎｇｔｈｅｇａｐｂｅｔｗｅｅｎｋ－ｍｅｒｓａｎｄｇｅｎｅｔｉｃｅｖｅｎｔｓ」、ＰＬＯＳＧｅｎｅｔｉｃｓ、２０１８に記載されるように、これらのＵｎｉｔｉｇは、感受性（sensitive）および耐性菌株を分離する分岐点を有する局所的多型に起因するトポロジー、すなわちコンプレックスバブルを示す。対照的に、ラッソについて得られた対応するサブグラフ（図７の上段左側パネル）は、

の４つの異なる数値を有する４つのユニット（ユニット１、２、３２、および５６）を含む。

の異なる数値は、対応するＵｎｉｔｉｇ配列の個々の重要性に関して誤った結論をもたらす可能性がある。実際、ＯｍｐＫ３６の追加の注釈付き配列を組み込む複数のアライメントを考慮するとき、ＮｏｖａｉｓＡ．らによる文献、「ＳｐｒｅａｄｏｆａｎＯｍｐＫ３６－ｍｏｄｉｆｉｅｄＳＴ１５Ｋｌｅｂｓｉｅｌｌａｐｎｅｕｍｏｎｉａｅｖａｒｉａｎｔｄｕｒｉｎｇａｎｏｕｔｂｒｅａｋｉｎｖｏｌｖｉｎｇｍｕｌｔｉｐｌｅｃａｒｂａｐｅｎｅｍ－ｒｅｓｉｓｔａｎｔＥｎｔｅｒｏｂａｃｔｅｒｉａｃｅａｅｓｐｅｃｉｅｓａｎｄｃｌｏｎｅｓ」、ＥｕｒｏｐｅａｎＪｏｕｒｎａｌｏｆＣｌｉｎｉｃａｌＭｉｃｒｏｂｉｏｌｏｇｙａｎｄＩｎｆｅｃｔｉｏｕｓＤｉｓｅａｓｅｓ、２０１２、に記載されるように、作動的ＭＡＦユニット２および５６は野生型を代表し、ならびにユニット１および３２はＬ３ループにおける２アミノ酸挿入について同一のアライメントを有するものと思われる。本発明は、各ハプロタイプについてＢ_ｊ値の平均を代わりに提供する。

ラッソシグネチャーについて得られた第２のサブグラフ（図７の下段左側パネル）は、１つのみのシグネチャー形質（黒色で示す）および周囲を取り巻く７つの交点（灰色で示す）を含み、７つの交点のうちの２つは注釈付きのｂｌａＫＰＣである。単一のシグネチャー交点はそれ自体注釈を有さないので、サブグラフはｂｌａＫＰＣ遺伝子のプロモーター領域内の局所的多型として解釈され得る。しかしながら、クラスター－ラッソのサブグラフ（図７の下段右側パネル）は、ラッソにより、数百個のきわめて相関性の高いＵｎｉｔｉｇ（すべてクラスター２に属する）からこの１つのＵｎｉｔｉｇ（完全なｂｌａＫＰＣ遺伝子（カッコ内に示す）、および同遺伝子が挿入された、該遺伝子配列ときわめて共起性の高いプラスミド配列を含む）が選択されたことを表している。

したがって、クラスター－ラッソにより提供される追加情報から、セフォキシチン耐性の第１の因果変数はＯｍｐＫ３６遺伝子内の局所的突然変異であると結論付けることが可能となる。有利には、セフォキシチン耐性を予測するための分子技術（ＰＣＲ、ＮＧＳ等）は、この突然変異を特異的に標的とする。さらに、第２の因果変数は完全なｂｌａＫＰＣ遺伝子の獲得であり、そしてｂｌａＫＰＣに特異的な任意のＤＮＡ配列が、セフォキシチン耐性を予測するそのような技術により有利に使用可能である。

その他の細菌種／抗生物質のペアについてテストした。肺炎桿菌に関連してそれほど詳細には立ち入らず、サルモネラ種、黄色ブドウ球菌、および淋菌について以下に記載する：
－第１の表および第２の表は上記表２および表３とそれぞれ類似する；
－第１、第２、および第３の図（ラッソモデルの係数の絶対値、クラスター－ラッソモデルの係数の絶対値、およびクラスター－ラッソモデルの最初から１０個の最も予測的なクラスターに含まれるＵｎｉｔｉｇの数）は、検討対象の抗生物質についてそれぞれ例証する；
－図は下記事項について例証する：
〇その図の左側において、ラッソモデルの最も予測的な拡張されたＭＡＦユニットに関係する圧縮されたｃＤＢＧグラフのサブグラフ。最も予測的なユニットによりサブグラフが最初に特定され、その他のユニットがサブグラフ内に存在するとき、それらも提示される；
〇その図の右側において、クラスター－ラッソモデルの最も予測的なクラスターに関係する圧縮されたｃＤＢＧグラフのサブグラフ。最も予測的なクラスターによりサブグラフが最初に特定され、その他のクラスターがサブグラフ内に存在するとき、それらも提示される。

Ｂ．２．サルモネラ
表４および表５、図８および図９はテトラサイクリンに対応し、図１０および図１１はゲンタマイシンに対応する。

ラッソモデル（テトラサイクリン耐性の獲得に関して、ＴｅｔＢ遺伝子内で点突然変異の可能性のあるセットを特定する）とは異なり、このモデルが示唆する多数の突然変異を踏まえ、このモデルを別途決定的なものとはせずに、クラスター－ラッソに基づく本発明は、ＴｅｔＡ遺伝子（クラスター１）、ＴｅｔＢ／ＴｅｔＤ遺伝子（クラスター２）の存在について耐性の獲得、ならびにＴｅｔＲ遺伝子の獲得を特定する。

ゲンタマイシン耐性に関して、本発明は、ＡＡＣ３遺伝子（クラスター１）は獲得性であり、またＯＸＡ、ＩＭＰ、およびＴＥＭ遺伝子は耐性機構に関係するものと結論付ける一方、ラッソモデルはＯＸＡおよびＩＭＰ遺伝子を特定することができない。

Ｂ．３．淋菌
表６および表７、図１２および図１３。

淋菌におけるセフィキシム耐性に関して、本発明は、ｐｅｎＭ遺伝子においていくつかの組み換えの獲得を特定する。

黄色ブドウ球菌
表８および表９、図１４および図１５。

黄色ブドウ球菌におけるテトラサイクリン耐性に関して、本発明は、ＴｅｔＫ遺伝子（クラスター１）の獲得を特定するが、しかしきわめて予測的としてＴｅｔＭ遺伝子を解釈するラッソモデルとは異なり、ＴｅｔＭ遺伝子（クラスター２および３）について、関係するクラスター係数が低いことから、ゲンタマイシン耐性のきわめて予測的なゲノムデターミナントであるとして、その獲得を除外する。

Ｃ．本発明を実施するためのコンピューター手段
ステップ３０２、３０４、３１２、３２０は、以下に記載するステップ６０および８０とまさしく同様に、コンピューター、例えば１つまたは複数のプロセッサー、保管スペース、およびランダムアクセスメモリーを含み、コンピューターインストラクション（実行されたときに、これまでに記載された計算を実施する）を保管する能力を有するコンピューターユニットにより実施される。コンピューティングユニットは、例えばパーソナルコンピューター、サーバー、またはコンピューティングクラスターである。同様に、ステップ４０２、４０４が、コンピューター、例えばこれまでに記載されたようなコンピューターユニットにより実施される。ステップ３０２、３０４、３１２、３２０のユニット、およびステップ４０２、４０４のユニットは異なるかまたは同一のユニットである。有利には、予測された感受性（susceptibility）は、コンピュータースクリーン上に表示され、細菌株が患者に感染したとき、患者の記録を補足するために検査室または病院のコンピューターシステム内に保管されるか、または臨床医のモバイルデバイス、例えばスマートフォンに移送される。

Ｄ．本発明の実施形態の教示の拡張
Ｄ．１．細菌ゲノムにおけるｋ－ｍｅｒ、Ｕｎｉｔｉｇ、およびＭＡＦユニットの存在の検出に関して－ステップ３３０
ステップ３３０は、細菌ゲノム内のゲノム配列、特にＵｎｉｔｉｇ、またはゲノム配列のセット、特にＵｎｉｔｉｇをクラスタリングするユニットのセットの存在または不存在を検出する方法について記載する。一般的に、本実施形態は、配列もしくは配列のセットがゲノム内で同じように検出されるべきであるか、またはその存在もしくは不存在について判断するために、配列もしくは配列の群と、ゲノム内の配列もしくは配列の群との間であるレベルの差異を認めることが可能かという問題に対処する。特に、序文で説明したように、完全な相同性は、生物学的種のすべての変動を包含することについて学習データが完全であることを前提とするが、とりわけそのゲノムの可塑性を踏まえれば事実上困難である。

さらに、配列決定されたゲノムが、とりわけ「読み取り（ｒｅａｄ）」の形態である、すなわち何らかのバイオインフォマティクス処理、例えばコンセンサスアセンブリまたは不良品質の読み取りのフィルタリング等の前の、シークエンシングプラットフォームのアウトプット時に生成された配列であるとき、配列決定されたゲノムは誤差により劣化し得る。この場合、配列はゲノム内に存在するものの、シークエンシング誤差に起因して不存在として検出される場合があり、またその逆も成り立つ。特に、バイオインフォマティクス処理は、低品質の読み取りのフィルタリング、および任意選択的にアセンブルされた配列または「ｃｏｎｔｉｇ」を取得するための、フィルタリング後の読み取りについて行われるコンセンサスアセンブリを一般的に含む。アセンブリの任意選択的な性質は、サンプル分析が実施される文脈に一般的に依存する。アセンブリの効果として、ｃｏｎｔｉｇにおいてシークエンシング誤差を、現時点において、ＩｌｌｕｍｉｎａＩｎｃ．社のプラットフォームで使用されるＳＢＳ技術の場合、１０^－５のレベルまで、およびＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓＬｔｄ．社のプラットフォームで使用されるナノポア技術の場合、１０^－２のレベルまで有意に低下させることが挙げられる。一方、アセンブリは、高い演算能力および時間を必要とするので、コンピューティング環境が一般的に非常に強力というわけではない「ＰＯＣ」（「ポイントオブケア」）ゲノムアプリケーション、および／または高速もしくはリアルタイムといったアプリケーションにとって非常に相性が良いとはいえない。この文脈において、例えば、これまでに記載されたように、サンプル中に存在する１つもしくは複数の種の同一性、および／またはそのような種の１つもしくは複数の抗生物質に対する感受性（susceptibility）を判定するためのゲノム分析が、フィルタリング後またはフィルタリング前の読み取りにおいて直接実施される。しかしながら、シークエンシング誤差は、ＳＢＳ技術について２～３％のオーダー、およびナノポア技術について最大１２％である。特別な注意を払わなければ、ゲノム分析は同じように高い誤差率を引き起こすおそれがある。

図１６は、微生物ゲノム、とりわけ細菌株、酵母菌株、または糸状菌株においてゲノム配列の存在または不存在をより強固に検出して、ゲノム変動およびシークエンシング誤差を説明することを狙いとするプロセス５０について例証する。このプロセスは、図２Ａおよび図２Ｂのプロセスとはそれ自体独立しているものの、そのステップ３３０および／またはステップ４０２におい有利に実施される。

プロセス５０は、本明細書の下記のテキストにおいて、１つまたは複数の微生物菌株、および例示目的に限定して１つまたは複数の細菌株を含むサンプルを配列決定し、そしてシークエンシングプラットフォームにより生成された読み取りを事前処理するステップ７０、ならびに細菌株のうちの１つのゲノムにおいて事前に決定されたゲノム配列を検出するステップ８０を含む。このステップ８０は、前記ゲノムにおいてゲノム配列の少なくとも１つの事前に決定されたセットを検出することを任意選択的に含む。

ステップ８０は、ゲノム配列の分解物の他に、ステップ６０（例えばプロセス５０の前に実施される）において計算され、そしてデータベース（ＤＢ）に保管されたある数のパラメーターも使用する。より具体的には、図１７を参照すると、ステップ６０は、「ＳＥＱ」と記載されるゲノム配列が、一定ステップ、選好的には１のステップで、配列（ＳＥＱ）全体にわたり長さｋのウィンドウ（Ｗ）をスライドさせることにより、一定長さｋ（ｋは１５～５０であり、例えばｋ＝３１）からなるｋ－ｍｅｒに分解されるステップ６００から開始する。ウィンドウ（Ｗ）の各位置において、ｋ－ｍｅｒがそのように保管される。したがって、長さＬの配列（ＳＥＱ）の場合、（Ｌ－ｋ＋１）個のｋ－ｍｅｒが生成される。後続する任意選択的なステップ６０２では、ＫＭ＝｛ｋｍ_１，．．．，ｋｍ_ｉ，．．．，ｋｍ_ｓ｝と記載される固有のｋ－ｍｅｒからなるセット（このセットはＤＢに保管される配列（ＳＥＱ）の分解物を形成する）のみを保持するために、生成されたｋ－ｍｅｒのセットは、そのうちの重複している可能性のあるものからフィルタリングされる。

ステップ７０は、自明なように、また例えば図１に関連して記載されるように：
－ステップ７００において、サンプルに含まれるＤＮＡを配列決定するためのサンプルを調製すること、および調製されたＤＮＡについて、読み取りが生成されそして保管されるように配列決定すること；
－ステップ７０２において、バイオインフォマティクス処理（低品質の読み取りをフィルタリング除去すること、および任意選択的に、フィルタリングされた読み取りをコンセンサスによりアセンブルして、アセンブルされた配列または「ｃｏｎｔｉｇ」を取得し、そして保管することを一般的に含む）を実施すること
と関係する。

ゲノム配列（ＳＥＱ）を検出するステップ８０は、８００において、この検出がｃｏｎｔｉｇまたは読み取りにおいて実施されるかを把握することから構成される第１のテストから開始する。誤差率がｋ－ｍｅｒの検出を通じて完全な相同性の使用を可能にするのに十分低いｃｏｎｔｉｇ、すなわちゲノム配列において検出が実施される場合、プロセスは、ｃｏｎｔｉｇ内のＫＭセットの各ｋ－ｍｅｒ（ｋｍ_ｉ）の存在または不存在を検出することにより、８０２において継続する。特に、ｋ－ｍｅｒ（ｋｍ_ｉ）は、ｃｏｎｔｉｇの少なくとも１つにおいて同様に存在する場合に検出される。

後続するステップ８０４では、配列（ＳＥＱ）が細菌ゲノムにおいて同様に検出されるべきか決定するためにテストが実施される。そうであるならば、ＫＭセット内のすべてのｋ－ｍｅｒ（ｋｍ_ｉ）がｃｏｎｔｉｇ内に存在するものとして検出される場合には、８０６において配列（ＳＥＱ）が検出される。シークエンシング技術および／またはアセンブリ技術に起因して、配列（ＳＥＱ）は、ｃｏｎｔｉｇにおいて必ずしも全体的とはならず、むしろいくつかのｃｏｎｔｉｇの間で分離する可能性があり、そのように分離する確率は配列（ＳＥＱ）の長さ（Ｌ）に伴い増加することに留意すること。したがって、ｋ－ｍｅｒに分解することで、配列（ＳＥＱ）がｃｏｎｔｉｇ内でそのまま存在しない場合であっても、ゲノム内でそれを特定することが可能になる。

配列（ＳＥＱ）が、８０４において同様に追及されない場合、ゲノムは、８０８において、少なくとも配列（ＳＥＱ）またはそのバリアントの１つについて調査される。このバリアントは、例えばオリジナルの配列（ＳＥＱ）における突然変異、またはオリジナルの配列（ＳＥＱ）の不完全な特定に対応する。上記したように、配列（ＳＥＱ）は、推測的なデータまたは知識に基づく遺伝的デターミナント（例えば、耐性、病毒性、同一性等）の特定による産物であり得る。既知のデータまたは知識が不完全である場合、配列（ＳＥＱ）は、前記デターミナントの完全な多様性を反映しない可能性がある。配列（ＳＥＱ）またはそのバリアントの１つの特定を可能にすることにより、プロセスは、データおよび知識の初期の不完全性についてその補正、したがって遺伝的デターミナントの検出を可能にする。程度はより低いものの、プロセスは、ｃｏｎｔｉｇ内の残存するシークエンシング誤差の可能性についてその検討も可能にする。さらに、誤差の修正とは独立して、プロセスは、単一の配列（ＳＥＱ）から、バリアントのセットの少なくとも１つのメンバーがゲノム内に存在するか、前記バリアントのそれぞれを完全に検出することなくその存否を検出することも可能にする。

第１の変法では、８０８において、配列（ＳＥＱ）またはそのバリアントの１つについて、その構成的ｋ－ｍｅｒの割合（％）が事前に決定された閾値ｓ_ｕｎｉを上回る、例えば７０％を上回る場合に、それが検出される。好ましい変法では、この割合（％）は配列（ＳＥＱ）の長さ（Ｌ）に依存し、より具体的にはＬの関数として減少する。特に、ｋ－ｍｅｒが配列（ＳＥＱ）に対して特異的なまま留まるように、長さが十分に長い、特に１５を上回る、好ましくは３０を上回るｋ－ｍｅｒを保持するのが好ましい。したがって、長さ（Ｌ）が減少すると、非常に大きな割合（％）のｋ－ｍｅｒにおいて、配列（ＳＥＱ）に差異が見出され、割合（％）ｓ_ｕｎｉ（長さ（Ｌ）の関数として減少する）の補正が可能になる。図１８で例証するように、割合（％）ｓ_ｕｎｉは、例えば段階的に減少し、そして３つの数値を含む。有利には、１５～５０のｋ、例えばｋ＝３１について、Ｌ≦６１の場合、ｓ_ｕｎｉ＝９０％、６１＜Ｌ≦１００の場合、ｓ_ｕｎｉ＝８０％、および１００＜Ｌの場合、ｓ_ｕｎｉ＝７０％である。

配列（ＳＥＱ）が検出されたら、任意選択的に、プロセスは、８１０において、以下に記載する方式で、ゲノム配列のセット（｛ＳＥＱ_１，．．．，ＳＥＱ_ｉ，．．．ＳＥＱ_Ｅ｝と記載される）の検出に継続する。

配列（ＳＥＱ）の検出が読み取り上で実施される場合（テスト８００）、したがってシークエンシング誤差を補正する任意のバイオインフォマティクス処理の前に、プロセスは、読み取り内、したがってゲノム内にｋ－ｍｅｒが存在する／存在しないことを正確に検出するために、この誤差を考慮する。読み取りから直接検出する長所はデータ処理のスピードに由来する（所与のコンピューター環境について２～３分未満である一方、アセンブリ単独では同一環境において１時間ほどかかる）。

第１の変法では、前記ｋ－ｍｅｒについて最低数、例えば３以上の数のコピーを読み取りが含有する場合に、ｋ－ｍｅｒが検出される。しかしながら、この変法は、シークエンシングカバレッジ深度を考慮していないという欠点を有する。第１の近似に当てはめると、シークエンシング誤差はゲノム全体に分布しており、したがってシークエンシングカバレッジ深度が大きいほど、ｋ－ｍｅｒを検出する確率は高くなる。しかしながら、シークエンシング誤差に起因して、ｋ－ｍｅｒがゲノム内に実際に存在するか、または読み取り内で検出されたｋ－ｍｅｒが、シークエンシング誤差を有する別のｋ－ｍｅｒの産物であるか確認するのが困難である。好ましい変法では、検出は、配列（ＳＥＱ）が追及される細菌株に関する実際のシークエンシングカバレッジ深度に依存する。

このために、テスト８１２を実施して、サンプルがメタゲノムサンプルであるか、またはより一般的に、いくつかの異なる種（いくつかの細菌種、ヒトＤＮＡ、またはその他）を含有するサンプル、または細菌株の単離物から調製されたサンプルであるか判定する。細菌株の単離物から調製されたサンプルの場合、１つの菌株のみが存在するので、すべての読み取りは前記菌株に属し、そして「ｃｏｖ」と記載されるシークエンシングカバレッジ深度が、８１４において、例えば関係式：

に基づき計算されるが、但し上記関係式において、Ｎ_ｒは読み取りに含まれる塩基の合計数、およびＮ_ｇは細菌株が属する細菌種の参照ゲノム内の塩基の数であり、選好的には前記種について観測されたゲノムサイズの平均サイズ、または平均に近いサイズを有する（例えば結核菌の場合、Ｎｇ＝４．４百万塩基対（Ｍｂｐ））。

ｋ－ｍｅｒがゲノム内に確かに存在することを確認するために、読み取り内で検出される必要があるコピー数（Ｎ_ｃｏｖと記載される）が、８１６において、下記の関係式：
Ｎ_ｃｏｖ＝τ×ｃｏｖ（１１）
に基づき計算されるが、但し式中、τは、選好的には、使用されるシークエンシング技術のシークエンシング誤差率、有利には５％～１５％、好ましくは１０％以上、例えば１０％を考慮する事前に決定されたパラメーターである。誤差率１０％および深度１００の場合、ｋ－ｍｅｒについて１０個の同一コピーがしたがって検出されるはずであり、ｋ－ｍｅｒが読み取り内に実際に存在すると判定される。１０％という率は、とりわけ、ｋ－ｍｅｒの存在が、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｙＬｔｄ社製ＧｒｉｄＩＯＮプラットフォームにより、同会社製のＲ９．４ライブラリー調製キットを使用しながら生成された読み取りにおいて正確に検出されることを可能にする。この率は、ＳＢＳタイプのシークエンシング技術、例えばＩｌｌｕｍｉｎａＩｎｃ．社製のＭｉＳｅｑプラットフォームにより生成された読み取りにおいて精密に検出することも可能にする。

次に、読み取りに含まれるＫＭセットの各ｋ－ｍｅｒ（ｋｍ_ｉ）について、その存在または不存在の検出が８１８において実施される。特に、読み取り内に少なくともＮ_ｃｏｖ個の同一のコピーが存在する場合に、ｋ－ｍｅｒ（ｋｍ_ｉ）が検出される。次に、プロセスはこれまでに記載されたステップ８０４に継続する。

サンプルがいくつかの種を含む場合（テスト８１２）、プロセスは、検討対象の細菌種についてシークエンシングカバレッジ深度を決定することから構成される。より具体的には、「タキソノミックビニング（taxonomic binning）」が、８２０において実施され、そのようなビニングは、サンプル内に存在する複数の種において原点を各読み取りに割り振ることからなる。この種のビニングは、先行する技術および使用、例えばＷｏｏｄＤ．Ｅ．らによる文献、「Ｋｒａｋｅｎ：ｕｌｔｒａｆａｓｔｍｅｔａｇｅｎｏｍｅｓｅｑｕｅｎｃｅｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｅｘａｃｔａｌｉｇｎｍｅｎｔｓ」、ＧｅｎｏｍｅＢｉｏｌｏｇｙ、２０１４、に記載される分類法、またはウェブサイト（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ＤｅｒｒｉｃｋＷｏｏｄ／ｋｒａｋｅｎ２／ｒｅｌｅａｓｅｓ）からダウンロード可能な「Ｋｒａｋｅｎ２」ソフトウェアにより実施されるような分類法において周知されている。

次に、検討対象の前記細菌種のシークエンシングカバレッジ深度が、例えば下記のいずれかの関係式：

に基づき計算されるが、上記関係式において、

は検討対象の細菌株が属する細菌種に割り振られた読み取り内に含まれる塩基の合計数であり、またＮ_ｇは細菌種の中間サイズのゲノムに含まれる塩基の数であり、そしてρはサンプル中の細菌種の相対的な割合である。この相対的な割合は、例えばＷｏｏｄＤ．Ｅ．らによる文献、「Ｋｒａｋｅｎ：ｕｌｔｒａｆａｓｔｍｅｔａｇｅｎｏｍｅｓｅｑｕｅｎｃｅｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｅｘａｃｔａｌｉｇｎｍｅｎｔｓ」、ＧｅｎｏｍｅＢｉｏｌｏｇｙ、２０１４に記載されている分類法、またはウェブサイト（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ＤｅｒｒｉｃｋＷｏｏｄ／ｋｒａｋｅｎ２／ｒｅｌｅａｓｅｓ）からダウンロード可能な「Ｋｒａｋｅｎ２」ソフトウェアにより実施されるような分類法を使用して計算される。プロセスは、直前に計算されたシークエンシングカバレッジ深度の関数として、コピー数を計算するステップ８１６に継続する。

ゲノム配列のセット（｛ＳＥＱ_１，．．．，ＳＥＱ_ｉ，．．．ＳＥＱ_Ｅ｝と記載される）を検出するステップ８１０を再び参照すると、このステップは、これまでに記載された方式で行われる各配列ＳＥＱ_ｉの検出に後続する。より具体的には、前記セットの検出は、下記のオプションの１つに基づき実施される：
ｉ．存在すると判定されたＳＥＱ_ｉの割合（％）が、第２の事前に決定された検出閾値ｓ_ｃｌｕｓ、例えば２０％以上、例えば２５％の閾値を上回る場合、セットはゲノム内に存在するものとして、そうでなければ存在しないものとして検出される；または
ｉｉ．すべてのＳＥＱ_ｉが存在するものとして判定される場合、セットはゲノム内に存在するものとして、そうでなければ存在しないものとして検出される；または
ｉｉｉ．配列ＳＥＱ_ｉの少なくとも１つが存在すると判定されるときに、セットはゲノム内に存在するものとして、そうでなければ存在しないものとして検出される；または
ｉｖ．確率が、存在するものとして判定されたＳＥＱ_ｉの割合（％）に等しければ、セットはゲノム内に存在するものとして検出される。

第１に、これまでに記載されたようなラッソに基づくプロセスの性能と比較したクラスター－ラッソに基づくプロセスの性能により証明されるように、配列（ＳＥＱ）またはＳＥＱのセットの検出性能は、ｋ－ｍｅｒの特定により直接取得されたものと非常に類似していることに留意すること。

第２に、検出プロセス５０は、採用されたシークエンシング技術の種類、とりわけそのシークエンシング誤差に関して強力である。下記の表は、単離形態の肺炎桿菌種のテスト菌株３７例について、ＭｉＳｅｑ（「Ｉｌｌｕｍｉｎａ」）およびＧｒｉｄＩＯＮ（「ＯＮＴ」）により配列決定したときのＵｎｉｔｉｇ（ＳＥＱ_ｉに等しい）に対するバリアント検出率（７０％、８０％、９０％）、および上記オプションｉ）に基づくユニット検出率、異なる抗生物質に対する耐性に関するクラスター－ラッソ予測の結果と共に例証する。２つのシークエンシング技術を、その読み取りの関数、およびその読み取りのアセンブリにより生成されたｃｏｎｔｉｇの関数としてテストする。表１０は、両技術は有意に異なるシークエンシング誤差率を有するものの、結果は両技術について類似しており、また読み取りおよびｃｏｎｔｉｇの両方についても類似した結果を有することを示している。

さらに、ＯＮＴ技術について、シークエンシングカバレッジ深度の関数としての予測性能（ＡＵＣ）を、図１９Ａ（ラッソ予測の場合）および図１９Ｂ（クラスターラッソ予測の場合）に示す。但しサンプルは肺炎桿菌株の単離物から生成した。シークエンシングカバレッジ深度、つまりシークエンシングカバレッジ深度に伴いコピー数が増加することを考慮すれば、深度３０から安定した性能を迅速に取得することが可能になることに留意すること。図２０および図２１は、シミュレーション試験を通じて、Ｉｌｌｕｍｉｎａ技術において、クラスター－ラッソ予測性能に対する黄色ブドウ球菌株を含むメタゲノムサンプルの効果（ここでは気管支肺胞洗浄から得られた臨床サンプルをシミュレーションする）を、読み取り（図２０）またはｃｏｎｔｉｇ（図２１）の関数として例証する。サンプル中に存在する黄色ブドウ球菌株の実際のシークエンシングカバレッジ深度に依存して、高い性能で非常に迅速に安定化することにも留意すること。

Ｄ．２．実施形態のその他の特徴について
本発明の具体的な実施形態について記載してきた。このプロセスは、下記の特徴に基づき、単独でまたは組み合わせて改変され得る：
－抗生物質に対する感受性（susceptibility）の予測について記載されている。本発明は、任意の種類の表現型、例えば細菌株の病毒性、そのリボタイプ等に適用される；
－患者から採取された生体サンプルに対する本発明の適用について記載されている。本発明は、細菌を含む任意の種類のサンプル、特に動物から採取されたサンプルまたは環境から採取されたサンプルに適用される；
－細菌について記載されている。本発明は酵母菌および糸状菌にも適用される；
－細菌ゲノムの完全なシークエンシングについて記載されている。変法として、ゲノムシークエンシングは部分的であり、そして抗生物質感受性（susceptibility）に関係することが公知の１つまたは複数の特異的領域を標的とする；
－記載された実施形態において、ゲノム内のｋ－ｍｅｒおよびＵｎｉｔｉｇの数値は、例えば行列Ｘにおいてコード化されるように、バイナリー（不存在または存在）である。変法として、ｋ－ｍｅｒまたはＵｎｉｔｉｇの数値は、ゲノム内のそのコピーの数に等しい；
－バイナリー予測（ＳおよびＮＳ状態）について記載されている。変法として、感受性（susceptibility）は序数（状態に応じて数が大きくなる、例えばＳ、Ｒ、およびＩ）、または線形（例えば、最低阻止濃度または「ＭＩＣ」の予測）である。この場合、回帰は序数的または線形である；
－ラッソタイプのロジスティック回帰により訓練を受けた予測モデルについて記載されている。その他の倹約的アルゴリズム、例えばランダムフォレストモデル、勾配ブースティング法、セットカバリングマシン、アグリゲーション法、およびモンテカルロ法、もしくはディープラーニング法、または任意のタイプの罰則付きラッソ学習法（エラスティックネット、グループラッソ、フューズドラッソ、アダプティブラッソ等）も可能性がある；
－ロジスティック回帰ラッソを使用するＭＡＦユニットの選択法について記載されている。その他の選択法、例えばＦｒｉｅｄｍａｎＪ．Ｈ．による文献、「ＧｒｅｅｄｙＦｕｎｃｔｉｏｎＡｐｐｒｏｘｉｍａｔｉｏｎ：ＡＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＭａｃｈｉｎｅ」、ＴｈｅＡｎｎａｌｓｏｆＳｔａｔｉｓｔｉｃｓ、２００１、に記載されるような選択法、および例えば、ウェブサイト（ｈｔｔｐｓ：／／ｘｇｂｏｏｓｔ．ｒｅａｄｔｈｅｄｏｃｓ．ｉｏ／ｅｎ／ｌａｔｅｓｔ／）から入手可能なソフトウェア「ｘＧＢｏｏｓｔ」により使用される選択法、または任意のその他の非線形選択法も可能性がある；
－ブラベー－ピアソン相関値に基づくクラスタリングについて記載されている。その他の種類の共起性測定法、例えばジャッカード距離またはソーレンセン－ダイス距離も可能性がある；
－特定のクラスタリングについて記載されている。その他の種類のクラスタリング、例えば「標準的な」階層的クラスタリングも可能性がある；
－クラスターの数値が、クラスターを構成するユニットの平均に等しいとして記載されている。その他の数値も可能性がある。例えば、「ラッソ群」タイプのロジスティック回帰が、異なる重みを、クラスターを構成する異なるユニットに割り振るために、クラスターのそれぞれについて実施される；
－アセンブル化したゲノムに由来する学習アルゴリズムの使用について記載されている。変法として、本発明が、シークエンシングプラットフォームにより生成されたゲノム、すなわち読み取り（任意選択的に低品質の読み取りからフィルタリングされる）の形態のゲノムに直接適用される。

Claims

デジタル形式の微生物のゲノムにおいて、デジタル形式のゲノム配列を検出するためのコンピューター支援式の方法であって、
－前記ゲノム配列全体にわたり、一定ステップで、長さｋのウィンドウをスライドさせることにより取得される、一定長さｋのデジタルゲノム配列、または「ｋ－ｍｅｒ」のセットをコンピューターメモリー内に保管すること（６０）と、
－ｋ－ｍｅｒ毎に、前記ゲノム内でのその不存在または存在を判定すること（８０２）と、
－前記ゲノム内に存在するものとして検出されたｋ－ｍｅｒの割合（％）が事前に決定された閾値を上回る場合、前記ゲノム配列が前記ゲノム内に存在するものとして判定すること（８０６；８０８）と
を含む方法。
前記ゲノム内のｋ－ｍｅｒの存在または不存在の判定が、前記ゲノムにおいて前記ｋ－ｍｅｒの少なくとも１つの同一コピーを検出することにより得られる、請求項１に記載の方法。
前記デジタルゲノムが、シークエンシングプラットフォームにより生成されたゲノム配列、または「読み取り」のセットから構成され、それに基づき、前記ゲノムにおけるｋ－ｍｅｒの存在または不存在の判定が、前記ゲノムにおいて前記ｋ－ｍｅｒのＮ_ｃｏｖ個の同一コピーを検出することにより得られ、但し整数Ｎ_ｃｏｖは、

に等しく、式中、Ｎ_ｒは前記デジタルゲノムに含まれる塩基の合計数であり、Ｎ_ｇは前記微生物が属する種の参照ゲノムの塩基の合計数であり、およびτは５％～１５％の割合（％）、特に１０％である、請求項２に記載の方法。
前記微生物のゲノムが、サンプルの直接シークエンシングに由来するゲノムのセットに含まれ、各デジタルゲノムがシークエンシングプラットフォームにより生成されたゲノム配列、または「読み取り」のセットから構成され、それに基づき、前記ゲノムにおける存在または不存在の判定が、前記ゲノムにおいて前記ｋ－ｍｅｒのＮ_ｃｏｖ個の同一コピーを検出することにより得られ、但し整数Ｎ_ｃｏｖは、

に等しく、式中、Ｎ_ｒは前記デジタルゲノムに含まれる塩基の合計数であり、Ｎ_ｇは前記微生物が属する種のゲノムの塩基の平均合計数であり、ρは前記サンプル中に存在する前記微生物の相対的割合（％）であり、およびτは５％～１５％の割合（％）、特に１０％である、請求項２に記載の方法。
前記事前に決定された閾値が、前記ゲノム配列の長さに依存する、請求項１から４のいずれか一項に記載の方法。
前記事前に決定された閾値の値が、前記ゲノム配列の長さの数値に伴い減少する、請求項５に記載の方法。
前記ゲノム配列の長さの空間が、３つの間隔に分割され、それに基づき、前記事前に決定された閾値が、１間隔毎に一つの数値をとる、請求項６に記載の方法。
ｋが１５～５０であり、これに基づき、Ｌ≦６１の場合、ｓ_ｕｎｉ＝９０％、６１＜Ｌ≦１００の場合、ｓ_ｕｎｉ＝８０％、および１００＜Ｌの場合にはｓ_ｕｎｉ＝７０％であり、但しＬは前記ゲノム配列の長さであり、およびｓ_ｕｎｉは前記事前に決定された閾値の値である、請求項７に記載の方法。
ゲノム配列の群の検出を含み、前記検出が、
－請求項１から９のいずれか一項に記載の方法に基づき、前記群の各ゲノム配列を検出することと、
－下記事項に該当する場合、
〇前記群の少なくとも１つのゲノム配列が検出される場合、または
〇前記群の全ゲノム配列が検出される場合、または
〇検出された前記群のゲノム配列の割合（％）が、第２の事前に決定された閾値を上回る場合、または
〇存在するものとして検出された、前記群のゲノム配列の割合（％）に等しい確率を有する場合、
ゲノム配列の群が前記ゲノム内に存在するものと判定することと
を含む、請求項１から８のいずれか一項に記載の方法。
第２の閾値が２０％以上であり、好ましくは２５％に等しい、請求項９に記載の方法。
細菌株のゲノムを全体的または部分的に配列決定して、デジタル形式のゲノムを生成することも含む、請求項１から１０のいずれか一項に記載の方法。
請求項１から１０のいずれか一項に記載されている方法を実施するためのコンピューター実行可能なインストラクションを保管するコンピュータープログラム製品。
微生物のゲノムに含まれるゲノム配列を検出するためのシステムであって、
－前記株のゲノムを部分的または全体的に配列決定するためのシークエンシングプラットフォームと、
－請求項１から１０のいずれか一項に記載の検出方法を適用するように構成されたコンピューターユニットと
を含むシステム。