JP2022550928A

JP2022550928A - キャリブレータを考慮したメタゲノミクス分析による標的生物種の検出および定量方法

Info

Publication number: JP2022550928A
Application number: JP2022504012A
Authority: JP
Inventors: ウラディミールラザーレヴィチ; セバスチャンハウザー; モウドトゥールノウド
Original assignee: Biomerieux SA
Current assignee: Biomerieux SA
Priority date: 2019-07-23
Filing date: 2020-07-22
Publication date: 2022-12-06
Also published as: EP4004239A1; CN114787384A; FR3099181B1; WO2021013901A1; FR3099181A1; US20220275430A1

Abstract

本開示の方法は、キャリブレータを考慮したメタゲノミクス分析による標的生物種の検出及び定量方法である。当該方法は、分析サンプル中に潜在的に存在する標的生物種（SOI）を検出するための方法であって、標的生物種は既知または部分的に既知のゲノムを有し、分析サンプルは様々な生物種の混合物を含み、当該方法は、
a）分析サンプルから核酸を抽出し、
b）ステップa）で抽出した核酸配列をシーケンシングし、
c）シーケンシングの結果に基づいて、
（i）配列の参照データベースに基づいて、ステップb）から得られた配列を割り当て、
（ii）標的生物種に割り当てられた配列の量（R_SOI、RN_SOI）を決定し、
ステップb）の前に、キャリブレータを添加し、生物種であるキャリブレータを既知の濃度（C_CAL）で分析サンプルに添加し、キャリブレータは既知のゲノムを有することを特徴とし、ステップc）は、
（iii）キャリブレータに割り当てられた配列の量（R_CAL）を決定することを含み、
d）ステップ（ii）および（iii）で推定された配列の量、およびキャリブレータの濃度（C_CAL）に基づいて、サンプル中の標的生物種（SOI）の濃度（C_SOI）を推定することを含む。
【選択図】図１

Description

本発明の技術分野は、メタゲノム分析による標的生物種の同定である。

ポリメラーゼ連鎖反応（PCR）による核酸の増幅は、サンプル中の特定の微生物の存在に関して迅速かつ早期の診断を可能にする。PCRは、例えば、Mycobacterium tuberculosisのような培養が困難な、またはゆっくりと出現する細菌のデオキシリボ核酸（DNA）を検出するのに特に適している。

しかし、PCRの実施には、標的生物種に存在する遺伝子を特異的に標的とするプライマーの使用が必要である。従って、PCRは、1つの生物種に特異的な分析を可能にし、これにより、定量的であり得る感度の高い、選択的な方法となる。ただし、標的生物種についての事前の知見があることを前提とする。複数の生物種を探索する場合、いわゆるマルチプレックスPCRを実施しなければならないため、プロセスがより複雑になる。

また、様々な標的生物種に存在する遺伝子を標的とすることも可能である。細菌に関しては、たとえば16S RNA遺伝子の問題かもしれない。その場合、PCR分析は広範囲であるといわれる。しかしながら、広範囲なPCRは、実施するのがより困難であり、同定される標的生物種に関する事前の知識が利用可能であることを想定としている。遺伝子を標的とすることは、EP2985350またはStammler F. “Adjusting microbiome profiles for differences in microbiome load by spike-in bacteria”, Microbiome (2016) 4, 28による刊行物の中に記載されている。

上述の技術とは対照的に、メタゲノミクスは、所与の培地中の異なる生物種の複数の個体のゲノムをシーケンシングすることを可能にする。サンプル中に実際に存在する種とその相対的存在量を決定することができる。メタゲノミクスは、所定の培地中の異なる種の複数の個体のゲノムをシーケンシングし、サンプル中の生物種が細菌、ウイルス、またはヒトであるか否かに関する事前の知識なしにこれを行う。このようにして、サンプル中の生物種の様々なゲノムの分析が得られる。次に、どの種が存在し、それらの相対的存在量を決定することができる。

最近、シークエンシングの分野で進歩が見られ、第2および第3世代のシークエンシング技術はHTS技術と呼ばれ、HTSはハイスループットシークエンシングを意味する。シークエンシングによって生成された生物学的情報の迅速な計算処理を可能にするバイオインフォマティクスの性能が改善された。現時点では、ハイスループットシークエンシングにより、サンプル中に存在する様々な種の代表的なインベントリを得るために十分な配列を生成することができる。これは市販されている分析法であり、その使用は比較的一般的になっている。文献WO2018/069430は、病原体の同定および抗生物質に対する耐性のマーカーへのメタゲノム分析の適用を記載している。

Ruppe E ”Clinical metagenomics of bone and joint infections: a proof of concept study” による刊行物は、細菌の同定へのメタゲノミクスの応用についても述べている。文献WO2017/053446およびSchlaberg “Validation of metagenomic next-generation sequencing tests for universal pathogen detection” による刊行物は、既知の生物種によって形成される内部対照をサンプルに導入する、サンプルを分析するためのメタゲノム方法を記載している。

本発明者は、サンプルのメタゲノム分析を実施することによって、サンプル中の標的生物種または様々な標的生物種を検出し、潜在的に定量する方法を提供する。加えて、この方法は、メタゲノムプロセスの生物学的または生物情報学的ステップが正しく進行しているかどうかに関する指標を確立することができる。

本発明の1つの主題は、分析サンプル中に潜在的に存在する標的生物種を検出するための方法であって、標的生物種は既知または部分的に既知のゲノムを有し、分析サンプルは様々な生物種の混合物を含み、当該方法は、
a）分析サンプルから核酸を抽出し、
b）ステップa）で抽出した核酸配列をシーケンシングし、
c）シーケンシングの結果に基づいて、
（i）配列の参照データベースに基づいて、ステップb）から得られた配列を割り当て、
（ii）標的生物種に割り当てられた配列の量を決定し、
ステップb）の前に、キャリブレータを添加し、生物種であるキャリブレータを既知の濃度で分析サンプルに添加し、キャリブレータは既知のゲノムを有することを特徴とし、ステップc）は、
（iii）キャリブレータに割り当てられた配列の量を決定することを含み、
d）ステップ（ii）および（iii）で推定された配列の量、およびキャリブレータの濃度に基づいて、サンプル中の標的生物種の濃度を推定することを含む。

好ましくは、サブステップ（ii）および（iii）において、標的生物種およびコントロール種にそれぞれ割り当てられた配列の量は、基準量で正規化される。基準量は、例えば、シーケンシング中に生成された配列の総数であり得る。

当該方法は、標的生物種の濃度（C_SOI）を比較しようとする決定閾値（SD）を考慮することを含み得る。

決定閾値は、好ましくは、単位体積あたり（または単位重量あたり）の配列の数に対応する単位で、例えば、mLあたりのゲノム当量で表される。決定し閾値は、問題の生物種に依存する場合がある。

好ましくは、キャリブレータは、以下に記載される特性のうちの１つを有し、単独で、または技術的に達成可能な組み合わせで実施される。
・キャリブレータは、ゲノムのサイズが標的生物種のゲノムのサイズの0.1倍から10倍の間に含まれるようなものである。
・分析サンプルは、内因性生物を含み、キャリブレータは、内因性生物のゲノムとは異なるゲノムを有する。
・キャリブレータの濃度は、考慮される決定閾値の0.001倍から1000倍の間、好ましくは0.01倍から100倍の間に含まれる。
・標的生物種は細菌であり、キャリブレータは無傷の膜または細胞壁を有する。
・標的生物種はウイルスであり、キャリブレータはタンパク質シェルを有する。
・キャリブレータのゲノムは、標的生物種のゲノムのGC（グアニン－シトシン）塩基の数の75％から125％で構成されるGC（グアニン－シトシン）塩基の数を有する。

ステップd）は、
・標的生物種とキャリブレータにそれぞれ割り当てられた配列の量との間の第1の比率を決定し、
・キャリブレータと標的生物種のそれぞれのゲノムサイズとの間の第2の比率を決定し、
・分析サンプルに添加したキャリブレータの濃度を考慮することを含み得る。

標的生物種の濃度を推定することは、第1の比率に第2の比率を乗じたものと、分析サンプルに添加されたキャリブレータの濃度との積を計算することを含み得る。

ステップd）は、
・標的生物種およびキャリブレータのカバレッジを決定し、
・標的生物種について決定されたカバレッジとキャリブレータについて決定されたカバレッジとの間の比率の計算し、
・このようにして計算した比率に、サンプルに添加されたキャリブレータの濃度を乗算することを含み得る。

当該方法は、ステップd）の後に、決定閾値を考慮し、ステップd）から得られる濃度を決定閾値と比較するステップe）を含み得る。

本発明の特定の実施形態の以下の説明から、他の利点および特徴がより明確になるであろう。これらの実施形態は、非限定的な例として提供され、以下に列挙する図に示される。

本発明による方法の主要ステップを概略的に示す図である。

以下に記載されるステップ（y軸）および培養を用いた参照方法（x軸）をそれぞれ実施することによって得られた、標的生物種、実際にはS.aureusの定量化の比較を示す図である。

以下に記載されるステップ（y軸）および定量PCRを用いる参照方法（x軸）を実施することによってそれぞれ得られた、標的生物種、にはS.aureusであるの定量化の比較を示す図である。

標的生物種を含まないとみなされるトレーニングサンプルで測定された、様々な標的生物種にそれぞれ対応する正規化された配列の量の統計的分布を示す図である。

培養（x軸）およびメタゲノム分析（y軸）によってそれぞれ推定された標的生物種の濃度の比較を示す図である。

本方法の目的は、サンプル中の標的生物種（biological species of interest, SOI）の存在を検出することができるようにすることである。検出の場合、本方法は、決定閾値SDとの比較を可能にするように、標的生物種SOIの絶対的な定量化を可能にし得る。

生物種とは、微生物、例えば、細菌、ウイルス、真菌、古細菌、アメーバ、原生生物、または微細藻類を意味する。生物種はまた、核酸の配列を含む細胞または任意の他の物または実体であってもよい。

サンプルがヒトまたは動物の生物から得られる場合、標的生物種は病原性種であり得る。サンプルが工業的方法または環境からのサンプル取得によって得られる場合、標的生物種は、汚染物質であるとみなされる種、または工業的プロセス若しくは環境において重要な標的種であって、その存在または濃度を確認することが望ましい種である。

当該標的種は、既知または部分的に既知のゲノムを有する。ゲノムまたはその既知のセグメントは、標的配列と呼ばれる配列からなる。

本方法は、複数の標的種を同時に処理することができる。従って、「標的種」という用語は、少なくとも1つの標的種を意味するものとして解釈されるべきである。

決定閾値SDは、対象とする用途に応じて、例えば微生物の標的生物種の負荷を特徴付けることができる閾値である。これは、例えば、規制上の、または衛生上または工業上の限界に照らして設定される。例えば、臨床診断を支援するために使用される場合、標的生物種が細菌である場合、決定閾値は、それ未満では細菌の存在がコロニー形成、すなわち非病理学的出現に対応し、それ以上では細菌の存在が病理学的であると考えられ、例えば感染に対応する濃度であってもよい。本発明を工業プロセスに適用する場合、検出閾値は合格値に対応し、検出閾値を超えるとサンプルは合格しないとみなされ、検出閾値を下回るとサンプルは合格したとみなされる。どのような用途であっても、標的生物種の濃度が決定閾値以上である場合には、その生物種は重要であると定義される。特定の用途、例えば発酵製品の製造において、標的生物種の濃度が決定閾値より低い場合には、その生物種の最小許容濃度に相当する濃度が重要であると考えられる。

サンプルは、一般に、環境から、または死んだ若しくは生きている生物から、または製造された製品若しくは食品生産に関連する製品からさえもサンプリングされたサンプルである。また、ステップ管理のために、工業施設からサンプルを取得してもよい。従って、サンプルは、同じゲノムを有さない様々な生物種を含む。特に、サンプルが、生物、例えば、ヒトまたは動物の生物のサンプル取得から得られた場合、サンプルは、サンプル生物に由来するかなりの量の細胞を含み、これらの細胞は、おそらく、サンプルの大部分を構成する。ヒトや動物のゲノムは、原核生物のゲノムの1000倍から100 000倍の大きさである。加えて、サンプルは、一般に、サンプル中に天然に存在し、病理または重大な汚染を生じにくい生物種を含む。例えば、サンプルが気管支肺胞サンプルである場合、それは、肺に天然に存在する細菌叢を含む。サンプルが便サンプルである場合、それは消化管に天然に存在する細菌叢を含む。したがって、標的生物種が細菌またはウイルスである場合、標的生物種の核酸は、サンプル中の核酸の少数であり得る。

サンプルは、サンプルに対して内因性であり、標的生物種に関連するメタゲノム情報をマスクする傾向がある「マトリックス」種と呼ばれ得るものを含む。例えば、サンプルがヨーグルト、肉またはワクチンから取得される場合、サンプルは、これらの培地を代表するマトリックス種を含む。生物から取得されたサンプルの場合、マトリックスは、生物の構成細胞を含む。

本発明の1つの重要な様態は、メタゲノム分析の原理に従って、サンプルが核酸（DNAおよび／またはRNA）の抽出、続いてシーケンシングプロセスを受けることである。シーケンシングプロセスの前に、増幅プロセスが行われることがある。シーケンシングは、全ゲノムシーケンシング（Whole genome sequencing, WGS）、および特に全ゲノムショットガンシーケンシングであり得る。このようにして、サンプルの様々な種の遺伝子の配列のインベントリが得られる。サンプルの様々な種の核酸の全てまたはほぼ全ては、ハイスループットシーケンシングを用いてシーケンシングされる。次いで、生物情報学的手段は、標的生物種に関連する標的配列を同定し、その量、一般的にその正規化された量を以下に記載するように決定することを可能にする。生物情報学的手段は、例えば、上記のようなWGSプロセスという面に関して完全な参照ゲノムのような参照配列のデータベースに基づいている。データベースは、サンプル中に潜在的に存在する標的生物種のゲノムの少なくとも全部または一部を含む。それはまた、コントロール種と呼ばれる生物種のゲノムの全部または一部を含み、後者については後述する。

したがって、この技術を用いて、シーケンシングによって、サンプルの様々な種のゲノムの説明が得られる。次に、インベントリ化されたゲノム配列のうち、標的生物種に対応する配列およびコントロール種に対応する配列が同定される。

この方法は、図１を参照して、以下に説明するステップを含む。
ステップ10：サンプルを取得する。
この例では、診断を補助するために、生きているヒト生物からサンプルを取得する。しかし、本発明は、生物の分野への適用に限定されるものではない。サンプルは、決定閾値に関する適合性を検証するために、工業環境または病院環境から取得することができる。
ステップ20：コントロール種を追加する。

本発明の目的の1つは、メタゲノム分析がどの程度利用可能であるかを評価することである。それは特に、サンプルの調製から、サンプリングを除いて、シーケンシングデータの生物情報学的分析までの全ステップの適合性を評価することが問題になる。この目的のために、サンプル処理のコントロール（sample processing control）の頭字語であるSPCと呼ばれるコントロール種をサンプルに加える。コントロール種の1つの機能は、以下に記載される核酸を抽出するステップおよびシーケンシングのステップが、正しく進行しているかどうかをチェックできるようにすることである。コントロール種SPCは既知の生物種であってもよく、そのゲノムもまた、好ましくはその全体が既知であってもよい。コントロール種SPCは、天然の生物種であってもよい。また、人工の種、例えば、キャプシド形成されたRNA（リボ核酸）であってもよい。好ましくは、コントロール種SPCは、最初はサンプル中に存在しないか、存在する場合には無視できる量で存在しない。好ましくは、サンプル中に最初に存在する、すなわち添加前に存在するコントロール種SPCの含有量は、サンプルに添加されるコントロール種SPCの濃度C_SPCよりも、好ましくは少なくとも１０倍、好ましくは少なくとも100倍または1000倍低い。コントロール種SPCは、例えば、細菌であってもよい。添加したコントロール種の濃度を管理することが重要である。

コントロール種は、以下の点を考慮して選択することができる。
a）コントロール種は、好ましくは、サンプル中に天然に存在する生物、または内因性生物、および標的生物種と異なるものでなければならない。したがって、生物情報ツールは、SPCのシーケンシングによって生成された配列を正確に同定することができる。
b）シーケンシング中にコントロール種に割り当てられた配列の量は、標的生物種の配列に対応する有用な情報をマスキングすることなく、正確に検出できるように十分でなければならない。換言すれば、コントロール種は、好ましくは、サンプル中で優勢ではないが、ハイスループットシークエンシングによって検出可能である。特に、陽性（決定閾値を超える種の濃度）または陰性（決定閾値を下回る種の濃度）を決定することが望ましい場合、コントロール種は以下のようであることが好ましい。
・そのゲノムのサイズは、標的生物種のゲノムのサイズと同様であるか、または少なくとも同等であることが好ましい。より詳細には、コントロール種のゲノムのサイズは、標的生物種のゲノムのサイズの0.1倍から10倍の間に含まれる。
・コントロール種の濃度C_SPCは、決定閾値に応じて設定されてもよい。添加されるコントロール種SPCの濃度C_SPCは、例えば、決定閾値の0.001倍～1000倍、好ましくは0.01倍～100倍を含み得る。
・コントロール種SPCの核酸は、サンプルを調製するステップ、抽出するステップおよびシーケンシングするステップにおいて、当該標的種の核酸と同様の処理を受け、好ましくは、
・GC（グアニン、シトシン）塩基のパーセンテージは、好ましくは標的生物種のGC塩基のパーセンテージに近い。近いとは、75%から125%、好ましくは80%から120%を意味する。
・コントロール種は、好ましくは、標的生物種が細菌である場合には、無傷の細胞壁または膜、または標的生物種がウイルスである場合には、タンパク質の殻を含む。この条件はさらに、標的生物種の核酸を溶解または抽出するステップをモニターすることを可能にする。
c）好ましくは、コントロール種の核酸配列は、例えば抗生物質に対する耐性のマーカーのようなゲノムマーカー、または病原性マーカーを含まず、抗生物質に対する感受性の潜在的試験の結果が、標的生物種のゲノムにおけるそのようなマーカーの存在によって破壊されないようにする。好ましくは、コントロール種の核酸配列は、臨床的または工業的に標的の他の遺伝子を含まず、その存在がチェックされやすい。
d）コントロール種は、好ましくは容易に操作可能であり、特に、
・人間や環境に無害である、
・および／または凍結乾燥や凍結等の熱処理に強く、保存が容易である。
e）コントロール種は、胞子を形成してはならない。胞子を形成する場合は、ごくわずかでなければならない。
f）コントロール種は、標的生物種に近い溶解感受性を有していなければならない。
g）コントロール種はボールの形態で入手可能であり、各ボールは、凍結乾燥された形のコントロール種のキャリブレーションされた濃度を含む。

単一のコントロール種SPCを使用してもよく、または様々なタイプの複数のコントロール種を使用してもよいことに留意されたい。様々なコントロール種を、所定の標的生物種に対して使用することができる。1つの可能性によれば、コントロール種はキャリブレータを形成する。別の変形例によれば、コントロール種とは異なるキャリブレータがサンプルに添加される。キャリブレータは、当該標的種の濃度を推定することを可能にする。本発明の変形例に対応するこの代替例は、ステップ61から64の説明の後に説明される。「変形例」と題されたセクションを参照されたい。

コントロール種SPCの添加濃度C_SPCは、正確に知られていることが好ましい。具体的には、一定の条件が満たされれば、サンプル中の標的生物種の濃度を定量することができ、次いで、コントロール種がキャリブレータを形成する。添加濃度という用語は、コントロール種の添加によるサンプル中のコントロール種の濃度を示す。

ステップ30から60の説明では、有利な例として、サンプルへの単一のタイプのコントロール種の添加が説明される。次いで、コントロール種は、メタゲノム分析のステップにおいて品質管理の機能およびキャリブレータの機能を実行し、標的生物種の濃度の定量を可能にする。

ステップ20の最後に、コントロール種の濃度C_SPCがサンプルに添加される。添加濃度C_SPCは、GEq/mL（genome equivalent per mL、1 mL当たりのゲノム当量）で表すことができる。
ステップ30：核酸を溶解および抽出。
このステップでは、サンプルの細胞、特に標的生物種とコントロール種の細胞を溶解して、DNAを抽出できるようにする。ここで、さまざまな戦略が想定される。
・溶解は、標的生物種を優先的に標的とするようにパラメーター化され得る。
・コントロール種は、標的生物種と同じ溶解感受性あるいは同等と考えられる溶解感受性を有していなければならない。
・溶解は、当該標的種以外の細胞を本質的に溶解することを意図した第1の溶解を含み得る。このような第1の溶解は、例えば、標的生物種がサンプルにおけるマトリックスの細胞に関して非常に少数である場合に想定され得る。最初の溶解に続いて、放出された核酸を除去し、次いで、標的生物種を標的とする第2の溶解を行う。このようなシナリオにおいて、コントロール種は、好ましくは、第1の溶解に耐性であり、第2の溶解に耐性ではない。

溶解に続いて、例えばWO2014/114896に記載された抽出方法を用いて、サンプルからDNAを抽出する。

サンプルから抽出されたDNAは、本質的に、マトリクスのDNA、すなわち、サンプルが取得された環境のDNAから構成され得る。この場合、サンプルは、選択的キャプチャおよび／または増幅、主に標的生物種のゲノムに特異的な配列および／または物理化学的修飾のターゲッティングを受ける。この場合、コントロール種は、選択的キャプチャまたは増幅によって標的化される配列および／または物理化学的修飾を含む。逆に、サンプルは、本質的にマトリックスのDNAを標的とする枯渇にさらされる可能性がある。この場合、コントロール種は、枯渇によって標的とされ得る配列または物理化学的修飾のいずれも含まない。
ステップ40：増幅およびシーケンシング。

DNAの抽出後、DNA断片は、所望により、標的型、例えばポリメラーゼ連鎖反応（PCR）を介して、または非標的型、例えば全ゲノム増幅（whole-genome amplification, WGA）を介して増幅され得る。サンプルから抽出されたDNAは、適当な場合には増幅され、シーケンシング、好ましくは全ゲノムシーケンシング（WGS）を受ける。多くのシーケンシング技術、例えば合成によるシーケンシング（sequencing by synthesis, SBS）、またはナノポアシーケンシング、またはハイブリダイゼーションによるシーケンシングが存在する。どのような技術を用いても、シーケンシングの目的は、リードと呼ばれるデジタル核酸配列を提供することである。シーケンシングは、シーケンシングライブラリを準備すること（ライブラリ準備）、任意選択的に、続いて増幅ステップ、次いで実際のシーケンシングステップを含む。核酸をシーケンシングするために使用される技術は周知であるので、詳細には説明しない。増幅およびシーケンシングは、Illumina社によって販売されているプラットフォームMiSeqを用いて行うことができる。

シーケンシングライブラリの調製中に、DNAは、標的平均長、一般に50塩基～300塩基からなる平均長の核酸配列を得るために、ランダムに分割され得る。ショットガンシーケンシングまたは全ゲノムシーケンシング（WGS）を参照する。このタイプの技術では、核酸は、その起源が何であれ、シーケンシングライブラリの準備中に同様に処理される。

シーケンシングライブラリの準備に続いて、ハイスループットシークエンシングを行う。シーケンサは、シーケンシングされたDNA断片の塩基を読み取り、リードと呼ばれる配列を得る。各リードは、シーケンサによってデコードされた1つの配列に対応する。次いで、シーケンシングによって生成された配列は、データベースに格納されたゲノムに関して整列され、これには、特に、標的生物種のゲノムおよびコントロール種のゲノムが含まれる。シーケンシングは、当業者に公知の操作である。シーケンシング操作に関連する詳細は、例えば、先行技術に関して引用された文献、特にWO2018/069430または上記で引用されたRuppe Eによる刊行物に記載されている。

シーケンサは、実行された測定に対応し、リードを含むファイルをデータ処理ユニットに送信する。後者は、シーケンスアルゴリズムを実装できるようにする命令が格納されているメモリを備えている。シーケンシングアルゴリズムにより、各シーケンスについて、データベースに保存されている複数のゲノムの中からシーケンスを構成するゲノムを同定することができる。また、それらは、それが属するゲノム中の各配列の位置を確立し、所与のゲノムに属する様々な配列を組み立てることを可能にする。

ステップ40の最後に、サンプルの様々な生物学的種に関するシーケンシングデータが得られる。それは特に、各種の同一性と、同定された各種に割り当てられた配列の量の問題である。特に、標的生物種に割り当てられた配列の数R_SOIおよびコントロール種に割り当てられた配列の数R_SPCが得られる。
ステップ45：リードが属する種の識別。

データ処理ユニットによって実行されるこのステップでは、細菌種に関して、各リードの起源が特定される。このステップは、一般にビニングまたは分類学的ビニングまたはアサインメントとして知られており、各リードを参照データベースのデジタル核酸配列と比較することを含む。例えば、Kraken, (Wood and Salzberg, “Kraken: ultrafast metagenomic sequence classification using exact alignments”, Genome Biology, 2014)、または、“Wowpal Wabbit” (Vervier et al., “Large-scale machine learning for metagenomics sequence classification”, Bioinformatics, 2015)、または、“BWA-MEM” (Li, “Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM”, Genomics, 2013)は、既知のビニングソフトウェアパッケージである。リードがデータベースに格納されている標的種を表すゲノムに完全に含まれている場合、リードは当該標的種に割り当てられることが好ましい。
ステップ50：正規化。

ステップ45から得られるシーケンシングデータの量は、全てのサンプルについて同じではない。特に、シーケンシングによって生成される配列の数は、サンプルの様々な構成生物種のDNAの質および量に依存する。したがって、基準量に関して、種に関連する配列の量を正規化することが好ましいまたは必要でさえある。正規化は、分析したサンプルの型および適用したメタゲノム分析に依存する。基準量は、例えば、分析されたサンプルについて生成された配列の総数であり得る。各種に関連する配列の正規化された量、すなわち基準量で除算された量は、1^E6で乗算され、100万当たりのリード数（reads per million, RPM）に対応する正規化された量が得られる。

他の変形例によれば、基準量は、網羅的ではないがに、以下であり得る。
・基準量は同定されたすべての微生物に関連する配列の総数である。
・基準量はサンプルが抽出された生物に関連する配列の総数である。例えば、生物が人体である場合、ヒトゲノムに関連する配列の総数が決定されるかもしれない。
・基準量は参照種に関連する配列の総数である。参照種とは、取得された様々なサンプル中に常に存在すると考えられる内因性または外因性の種を意味する。参照種はコントロール種であってもよい。
・基準量は標的生物種を含まないサンプル（陰性サンプル）またはサンプルを含まないバッファー内の所定の種に関連する配列の総数である。

ステップ50は、標的生物種（または各標的生物種）およびコントロール種（または各コントロール種SPCまたは各キャリブレータ）について実行される。このようにして、標的生物種SOI（または各標的生物種）について正規化量RN_SOIが得られ、コントロール種SPC（または各コントロール種または各キャリブレータ）について正規化量RN_SPCが得られる。表記RNにおいて、文字Nは、量が正規化されていることを示す。

以下では、限定するものではないが、単一の標的生物種および単一のコントロール種のみが存在すると考えられる。
明細書の残りの部分において、用語「量」は、正規化された量を示すことができる。
ステップ６０：解釈。

このステップは、本発明の重要なステップである。これはシークエンシングの結果がどの程度解釈可能かを決定する問題である。

この目的のために、この方法は、前のステップ、特に上記のステップ30から50に起因し得る信頼水準を決定することを含む。信頼水準は、コントロール種、特にコントロール種がステップ30の前に導入されたという事実に起因する。

このステップは、標的生物種SOIおよびコントロール種SPCにそれぞれ関連する検出閾値DT_SOIおよびDT_SPCを使用する。検出閾値は、それぞれ標的生物種およびコントロール種について決定された統計的検出閾値に基づいて設定することができる。統計的検出閾値は、後述するステップ100で予め設定される。一般に、統計的検出閾値は、検出方法を用いて測定された分析物濃度の最低値に対応し、分析物がサンプルから存在しない場合、同じ条件下で測定された濃度とは統計的に異なる。各検出閾値は、統計的検出閾値に等しいか、または統計的検出閾値に基づいて決定されてもよく、特に統計的検出閾値に等しいk倍であってもよく、kは0以外の実数である。

解釈の目的は、配列の正規化された量RN_SOIおよびRN_SPCを、それぞれ標的生物種SOIおよびコントロール種SPCに割り当て、それらのそれぞれの検出閾値と比較することである。具体的には、標的生物種に割り当てられた配列の正規化された量が、それに関連する検出閾値以上である場合、標的生物種は、許容可能な信頼レベルで検出されたとみなすことができる。コントロール種についても同様である。比較によって、次の４つの状況が区別されます。
・RN_SOI ≧ DT_SOIかつ RN_SPC ≧ DT_SPC：ステップ61参照
・RN_SOI ≧ DT_SOIかつ RN_SPC ＜ DT_SPC：ステップ62参照
・RN_SOI ＜ DT_SOIかつ RN_SPC ≧ DT_SPC：ステップ63参照
・RN_SOI ＜ DT_SOIかつ RN_SPC ＜ DT_SPC：ステップ64参照
ステップ６１：定量化

RN_SOI≧ DT_SOIかつRN_SPC≧ DT_SPCである場合、信頼水準は十分であるとみなされる。標的生物種およびコントロール種のそれぞれの検出が確認される。当該標的種SOIは、十分な信頼レベルでサンプル中に存在すると考えられる。その濃度C_SOIは、以下に基づいて推定することができる。
・ステップ20に続いてサンプルに添加したコントロール種SPCの濃度C_SPC。
・ステップ45から得られる、コントロール種SPCに割り当てられた配列の任意に正規化された量R_SPC。
・ステップ45から得られる、標的生物種に割り当てられた配列の数（または正規化された配列の数）。
・コントロール種および標的生物種のゲノムサイズに関するデータ。

たとえば、次の式を使用できる。

ここで、
・L_SPCおよびL_SOIはそれぞれ、コントロール種および標的生物種のゲノム長である。
・αは、標的生物種の濃度がわかっているトレーニングサンプルに基づいて経験的に決定される補正係数である。補正係数αにより、標的生物種とコントロール種のシーケンシングプロセスの効率の差を考慮に入れることができる。デフォルトでは、αは1に設定される（α=1）。この単位値により、決定閾値に対するサンプルの正または負を決定するのに十分な絶対定量が得られる。

添加濃度をGEq/mLで表したとき、標的生物種の濃度も同じ単位で表す。

別法として、シーケンシングは、それぞれコントロール種および標的生物種に関連する配列をアセンブリし、各種についてアセンブリのカバレッジCovを決定することを含む。次いで、標的生物種の濃度C_SOIを、次式を用いて計算することができる。

ここで、
・Cov_SPCおよびCov_SOIは、それぞれ、コントロール種および標的生物種について決定されたカバレッジである。カバレッジとは、Lacoste C et al. “Le sequencage d´ADN a haut debit en pratique clinique” [High-throughput DNA sequencing in clinical practice], Archives de Pediatrie 2017, 24, 373-383.に記載されているように、ゲノム内の特定の位置で塩基がシーケンスされた平均回数を表している。
・α'は、標的生物種の濃度がわかっているトレーニングサンプルに基づいて経験的に決定される補正係数である。補正係数α'により、標的生物種とコントロール種のシーケンシングの効率の差を考慮に入れることができる。デフォルトでは、α'は1に設定される（α'=1）。この単位値により、決定閾値に対するサンプルの正または負を決定するのに十分な絶対定量が得られる。

以下に記載される一つの変形例によれば、ステップ61は、コントロール種とは異なり、キャリブレータを形成する生物種で実施されてもよい。この場合、コントロール種をステップ60で使用して、標的生物種の検出を確認し、ステップ61、すなわち定量化をキャリブレータを使用して実施し、後者を定量化のためにのみ使用する。キャリブレータの特性は、コントロール種の特性と同様であり、ステップ20を参照して説明した特性に対応することが好ましい。キャリブレータを用いた定量は、式（1）または式（1'）を用いて行うことができる。式（1）は次のようになる。

ここで、
・R_CALは好ましくはキャリブレータに割り当てられた正規化された配列の数である。
・L_CALはキャリブレータのゲノムの長さである。
・C_CALはサンプルに添加するキャリブレータ濃度である。
・αは式（1）を参照して説明した補正係数である。

式（1'）は次のようになる。

・Cov_CALはキャリブレータのために決定されたカバレッジである。
・αは（1'）を参照して説明した補正係数である。

一実施形態によれば、コントロール種は使用されない。この実施形態によれば、キャリブレータが使用され、標的生物種の濃度は、好ましくは正規化された配列の数に基づいて使用される。
ステップ62：

RN_SOI ≧ DT_SOIかつRN_SPC＜ DT_SPCである場合は、コントロール種は検出されないが、標的生物種は検出されたとみなされることを意味する。しかし、標的生物種を十分な信頼性をもって定量することはできない。信頼水準は不十分であると見なされる。このステップは、以下のように、コントロール種の添加濃度C_SPCと決定閾値SDとを比較することを含む。
・C_SPC＜ SDの場合には、決定閾値に対する標的生物種の濃度に関する情報は得られない。
・C_SPC≧ SDの場合、標的生物種の濃度を推定することはできないが、決定閾値を超えているとみなすことができる。標的生物種の濃度を定量することはできないが、決定閾値を超えたと結論することは可能である。
ステップ63：

RN_SOI ＜ DT_SOIかつRN_SPC ≧ DT_SPCである場合、シーケンシングは正しく機能したとみなすことができる。信頼水準は十分であると見なされる。このステップは、標的生物種の最小検出可能濃度を推定することを含む。標的生物種の最小検出可能濃度Cmin_SOIは、バックグラウンドノイズから識別可能な最小濃度に対応する。それは、ゲノム当量で、標的生物種の検出閾値DT_SOIに対応する濃度に匹敵する。検出可能な最小濃度は以下に基づいて決定することができる。
・ステップ20に続いてサンプルに添加されたコントロール種SPCの濃度C_SPC。
・ステップ45から得られるコントロール種SPCに割り当てられた配列の数R_SPC。
・標的生物種に関連する検出閾値DT_SOI。
・コントロール種および標的生物種のゲノムの大きさに関するデータ。

ここで、
・L_SPCおよびL_SOIはそれぞれ、コントロール種SPCおよび標的生物種SOIのゲノム長である。
・αは式（1）を参照して説明した補正係数である。

ステップ63は、以下のように、決定閾値SDを最小検出可能濃度Cmin_SOIと比較することを含む。
・Cmin_SOI≦ SDの場合、標的生物種の検出は陰性とみなすことができる。サンプル中の標的生物種の濃度が決定閾値以下である。
・Cmin_SOI ＞ SDの場合、決定閾値に関して、サンプル中の標的生物種の存在およびその濃度に関する情報を提供することはできない。
ステップ64：

RN_SOI ＜ DT_SOIおよびRN_SPC＜ DT_SPCの場合、コントロール種SPCの検出の欠如は、分析が標的生物種の検出に必要な性能を達成していないことを示唆する。その分析は解釈できない。信頼水準は不十分であると見なされる。その分析は無効とみなされる場合がある。このような状況は次の場合に発生する可能性がある。
・シーケンシングのステップの1つが標的生物種の検出に必要な性能を達成していない場合。
・および／またはサンプルが患者若しくはマトリックスまたはフローラの大量のDNAを含む場合。
・および／またはサンプルが高濃度の少なくとも1つの種を含み、それが多数の配列を生成する場合。これは他の目的の配列をマスキングする効果を有する。

ステップ61から64のうちの一つの終了時に、決定閾値より高い濃度での標的生物種の存在の確認、およびもしあればその定量化が、診断を支援するために使用される。
変形例

上述の実施形態では、コントロール種SPCは、メタゲノム分析の品質のコントロールに関する機能およびキャリブレータの機能の両方を実行し、サンプル中の標的生物種を定量することを可能にする。

1つの変形例によれば、コントロール種SPCおよびコントロール種とは異なるキャリブレータがサンプルに添加される。それは例えば二つの異なる細菌種の問題だ。コントロール種SPCは、メタゲノム分析の品質のコントロールに関する機能を果たす。キャリブレータは、式（1）または（1’）または（2）に従って、サンプル中の標的生物種を定量することを可能にする。キャリブレータは、コントロール種と異なる場合、好ましくは、コントロール種と同じ特性を有し、これらの特性は、ステップ20を参照して説明される。コントロール種SPCを第1の濃度で添加する。検出閾値が割り当てられ、ステップ60は、ステップ50から得られた、コントロール種に割り当てられた正規化された配列の量を、コントロール種に関連付けられた検出閾値と比較することによって実施される。キャリブレータはまた、第2の濃度でサンプルに添加される。検出閾値が割り当てられる。ステップ61において、定量化は、キャリブレータに関連する正規化されたシーケンスの量、およびそれに関連する検出閾値を考慮して実行され得る。

キャリブレータは、溶解の前、または溶解の後、およびシーケンシングの前に添加され得る。

別の変形例では、複数のキャリブレータがサンプルに追加され、各キャリブレータは1つ以上の標的種に対して選択される。特に、細菌種のグループは、核酸を抽出するプロセス（例えば、グラム陽性細菌およびグラム陰性細菌）に対して実質的に異なる反応をし得る。有利なことに、1以上の標的種がグラム陽性である場合には、グラム陽性菌からなるキャリブレータを添加し、1以上の標的種がグラム陰性である場合には、グラム陰性菌からなるキャリブレータを添加する。同様に、標的種は、細菌およびウイルスから構成され得る。この場合、第1のキャリブレータは細菌であり、第2のキャリブレータはウイルスである。補助的なものはウイルス性である。一般に、サンプル調製のステップ（抽出、場合によりシーケンスライブラリの準備または増幅およびシーケンシング）において、キャリブレートする標的種に対して可能な限り同じように動作するキャリブレータを選択することが問題である。
ステップ100：検出閾値の設定。

上述したように、コントロール種および標的生物種がそれぞれ検出閾値と関連することが必要である。所定の生物種（コントロール種または標的生物種）について、検出閾値は、その種を含まないトレーニングサンプルを用いて、結果の解釈に先立って設定される。それは、問題の種に対してネガティブなサンプルの問題である。これらのサンプルは、分析されたサンプルの代表である。代表的には、これらのトレーニングサンプルは、定性的および定量的観点の両方から、分析されたサンプルのそれに匹敵する生物種の集団を含むということを意味する。標的生物種および／またはコントロール種が各トレーニングサンプルに存在しないことは、標準的な培養および／またはPCRに基づく方法を用いて確認することができる。

各トレーニングサンプル上で、好ましくは、ステップ30から45を参照して記載したのと同じ条件下で、シーケンシングを行う。シーケンシングに続いて、問題の種に割り当てられた配列の量が決定される。この量は、ステップ50を参照して説明したように、好ましくは正規化される。

したがって、それぞれ標的生物種およびコントロール種に関連する検出閾値は、それぞれ、標的生物種を含まない第1のトレーニングサンプルおよびコントロール種を含まない第2のトレーニングサンプルを使用して確立され得る。第1のトレーニングサンプルは、他ならぬ第2のトレーニングサンプルである可能性があり、またその逆もあり得る。その場合、標的生物種およびコントロール種に関連する検出閾値は、同じトレーニングサンプルで決定される。

シーケンシングは、好ましくは、統計的に代表的な数のトレーニングサンプルで行われる。これにより、正規化されたシーケンス量の統計的分布が得られる。次に、分布の平均μおよび分散インジケータ、例えば標準偏差σまたは分散σ^２が推定される。検出閾値は、平均μに分散インジケータのn倍（nは実数）を加算することによって推定される。nは通常、2～4で構成される。

標的生物種およびコントロール種にそれぞれ関連する検出閾値は、標的生物種およびコントロール種の配列の正規化された量と比較されることを意図しているので、ステップ100で行われる正規化は、ステップ50で行われる正規化と同様であることが重要である。

上記のステップは、複数の標的生物種を同時に標的とすることができる。さらに、これはメタゲノム分析の顕著な利点であり、様々な生物種を同時に扱うことができる。メタゲノム分析の別の利点は、複数のコントロール種を同時に使用できることである。したがって、1つのコントロール種を用いて1つ以上の生物種を標的とすることができ、他方、別のコントロール種を用いて他の標的生物種を標的とすることができる。これはメタゲノム分析のもう一つの利点である。

所定の標的生物種について複数のコントロール種を使用することさえ想定できる。例えば、ステップ61から64は、所定の標的生物種について、様々なコントロール種を使用して実施され得る。これは、コントロール種のシーケンシングの欠陥が原因で方法が失敗するリスクを制限できる。決定閾値に関する標的生物種の存在に関する推定値は、様々な（生物種、コントロール種）ペアについて得られる。複数のコントロール種が所定の標的生物種に対して使用される場合、式（1）、（1’）に従って複数の定量化を得ることが可能であり、その場合、得られた定量化の平均または中央値、または最も不利であると考えられる定量化、すなわち、標的生物種の最高濃度、またはより一般的には決定閾値に最も近い濃度に至る定量化が考慮され得る。

より一般的に言えば、メタゲノム分析は依然として強力な計算手段を必要とする。対照的に、それは、複数の生物種（および／または複数のコントロール種）に同時に対処することを可能にするという点である程度の操作の柔軟性を可能にし、唯一の条件は、求められる生物種のゲノムおよびそれぞれのコントロール種のゲノムが知られていなければならない点である。

ステップ61から64は、ステップ40、45および50で生成され、処理ユニットによって送達されるシーケンシングデータに基づいて、例えばマイクロプロセッサである演算ユニットによって実施される。このようにして、分析サンプルから得られた測定データに対応するシーケンシングデータが有線または無線リンクを介して演算装置に送信され、ステップ61から64のいずれかが実行される。マイクロプロセッサは、ステップ61から64を実施することを可能にする命令を含むメモリに接続される。
実施例１

第1の実施例では、Bacillus subtilisは、ヒト患者に対して実施された気管支肺胞洗浄（bronchoalveolar lavage, BAL）から得られたサンプルのメタゲノムシーケンシングにおけるコントロール種として使用するための良好な候補であることが検証された。患者はヒトであるため、このタイプのサンプルは、大量のヒトDNAを含むことが予想される。

このようなサンプルのメタゲノムシーケンシングは、診断目的のために院内感染肺炎の診断を支援することを可能にする。臨床的決定閾値は1.0 E4 CFU/mLに設定した。CFUはcolony forming unitの頭字語である。

患者のDNAを除去するために、分析プロトコルは、患者のDNAを除去する予備的な溶解を含んでいた。最初の溶解において、サンプルは、患者の細胞を特異的に標的とする溶解剤で処理された。このような溶解剤は、例えばWO2014/114896に記載されている。次に、放出されたDNAは、酵素作用および洗浄によって除去された。次に、サンプルは、2回目の機械的および化学的な溶解を受けて、細菌のDNAを抽出した。

溶解ステップの前に、コントロール種をサンプルに添加するための準備がプロトコルで行われた。コントロール種を形成する生物種は、ヒト細胞の溶解には耐性がなければならず、細菌細胞の溶解には感受性でなければならなかった。ある種の細菌、特にグラム陽性細菌は、溶解が難しいことが知られている。そこで、グラム陽性菌と同等の溶解抵抗性を有する生物種をコントロール種として選択した。

さらに、実施されたメタゲノムシーケンシングは、以下のリストに含まれる細菌である約20の標的生物種を検出し、潜在的に定量することを目的としたものである。当該リストはAcinetobacter baumannii、Citrobacter freundii、Citrobacter koseri、Enterobacter aerogenes、Enterobacter cloacae、Escherichia coli、Haemophilus influenzae、Hafnia alvei、Klebsiella oxytoca、Klebsiella pneumoniae、Legionella pneumophila、Morganella morganii、Proteus mirabilis、Proteus vulgaris、Providencia stuartii、Pseudomonas aeruginosa、Serratia marcescens、Staphylococcus aureus、Stenotrophomonas maltophiliaおよびStreptococcus pneumoniaeを含む。

コントロール種SPCもまた、上記の標的種と同等の効率でシーケンシングできなければならなかった。シーケンシングの効率は、基本的にゲノムのサイズとGC（グアニン－シトシン）含量に依存することが知られている。したがって、この例では、コントロール種のゲノムサイズは1.9から6.6メガベースであり、GC含量は33%から66%でなければならなかった。さらに、サンプルに添加したコントロール種の濃度は、1.0 E4 CFU/mL、すなわち前述の決定閾値に匹敵する濃度に設定された。

本発明者は、以下の生物種を使用してコントロール種を形成することの望ましさを評価した。当該生物種はBacillus stearothermophilus、Synechocystis sp. PCC6803、Pelagibacter ubique、Methanocaldococcus jannaschii, Aeropyrum pernix、Kocuria rhizophila、Azospirillum lipoferum、Lactococcus lactis、Synechococcus sp. WH 7805、Schizosaccharomyces pombe、Pantoea stewartii、Phage T4、Pichia pastoris、Armored DNA Quant^TM およびBacillus subtilisである。

これらの中で、Bacillus subtilisはコントロール種として用いるのに必要な特性を有していることが分かった。Bacillus subtilisのゲノムサイズは4.12 Mb（メガベース）であり、GC含量は43.6%である。また、Bacillus subtilisは、“BioBalls”（登録商標）－Biomerieux社の形で市販されている。これらのBioBallsは、キャリブレートされた濃度のBacillus subtilisを含有する水溶性ボールであり、これにより添加されるコントロール種の濃度を調節することができる。600 μLの気管支肺胞洗浄サンプル中のBioBall MultiShot 550の再水和は、9.2 E3 CFU/mLに等しいBacillus subtilisの添加濃度に対応し、これは1.0 E4 CFU/mLの決定閾値に近かった。

Bacillus subtilisのフレッシュな培養物を含むサンプルおよびBacillus subtilisを含むサンプルからのDNA抽出物をBioBallsの形で添加し、リアルタイムPCRによっても比較した。PCRの結果は同等であった。

事前にBacillus subtilisを添加することなく、気管支肺胞洗浄（BAL）により得られた７サンプルの配列を決定した。7サンプル中4サンプルにおいて、Bacillus subtilisに割り当てられた配列数はごくわずかであることが観察された。100万当たり5リード数未満であった。したがって、誤検知の数はごくわずかであった。他のサンプルでは、配列割り当てソフトウェアエラーの結果として、またはサンプル中のBacillus subtilisの配列と非常に類似する配列の存在の結果として、配列をBacillus subtilisに割り当てた。しかし、Bacillus subtilisに割り当てられた配列数は、100万当たり200リード数を超えることはなく、したがって比較的低かった。

BALによって得られた46のサンプルには、不確実性の範囲内で、1.7 E4 CFU/mLの濃度でBacillus subtilisが添加されていた。シーケンシング後、Bacillus subtilisに割り当てられた配列の数は、46サンプル中36サンプルについて100万当たり1000リード数を超えた。

この実施例は、Bacillus subtilisが、BALによって得られたサンプルにおいて、実施例の最初に記載した分析プロトコルを用いて、コントロール種を形成しやすい生物種であることを示す。
実施例2

この実施例は、上述した実施例１およびステップ10～50に記載した二重溶解プロトコルを適用した気管支肺胞洗浄（BAL）によって得られたサンプル中のStaphylococcus aureusの検出および定量を説明する。

BALによって得られた13サンプルのコホートを用いた。実施例1の結論に基づいて、使用されたコントロール種は、決定閾値（1.0 E4 CFU/mL）に近い濃度で各サンプルに添加されたBacillus subtilisであった。この実施例において、コントロール種は、1.1 mLのPBSバッファー（PBSはリン酸緩衝生理食塩水を表す）中で、BioBall MultiShot 10^E8 - Bacillus subtilis ATCC 19659（Biomerieux）の再水和によって得られた。コントロール種は、PBS中で1.0 E6 CFU/mLに希釈され、10 μLをサンプル600 μLに添加された。1.7 E4 CFU/mLの添加濃度が得られた。

各サンプルは、サンプルを取得してから最大48時間後に処理された。上記のように、各サンプルは、ヒト細胞に特異的な最初の溶解を受けた。未溶解の細胞をペレット化し、DNase Iで処理した。ヒトDNAを抽出する前に、加熱してEDTA（エチレンジアミン四酢酸）を加えることによりDNaseIを失活させた。次に、各サンプルを、2回目の溶解にかけた。これは、直径1mmのガラスビーズと直径0.1 mmのZr/Siビーズとの混合物を含有するビーズ撹拌チューブにサンプルを添加することによって実施された。溶解は、チューブを20分間振盪することによって得られた。DNAは、Biomerieux platform easyMAG（登録商標）を用いて溶解物から抽出された。溶出は、25 μLの容量で行われた。抽出物は、-20°Cで保存された。

2x250ペアエンドリード用のシーケンシングライブラリを、Nextera（登録商標）XT DNA Library Preparation Kit（Illumina社）で準備した。サンプルは、MiSeq（登録商標）プラットフォームと“MiSeq reagent kit V3”（Illumina）を用いてシーケンシングされた。

当該配列は、ソフトウェアパッケージKRAKEN V0 10.5bおよび内部シーケンスデータベースを使用して処理ユニットで処理された。このデータベースは、特に、実施例1に記載されたヒトゲノムの配列および20種類の標的生物種の配列を含んでいた。各サンプル中に生じた配列の数は、331 000から17 000 000の間で変動した。コントロール種（Bacillus subtilis）および標的生物種（S. Aureus）に関連する配列の数は、100万当たりのリード数（RPM）に正規化された。

さらに、定量的参照測定は、SpA遺伝子を標的とした定量的PCR（qPCR）により各サンプルで実行された。蛍光シグナルの増幅およびリアルタイム読み出しは、プラットフォームCFX96 Touch Real-Time PCR Detection System（Biorad）上で実施された。

表1は、13の培養陽性サンプルのシーケンシングの結果をまとめたものである。列1から7はそれぞれ以下に対応する。
・サンプル（Sample）の参照。
・培養（Culture）によるS. aureusの定量。
・qPCRによるS. aureusの定量。
・コントロール種（B. subtilis）に割り当てられた配列の正規化された量RN_SPC。
・標的生物種（S. aureus）に割り当てられた配列の正規化された量RN_SOI；
・可能であれば、ステップ61に記載された式（1）を用いて決定された標的生物種の濃度C_SOIの定量。
・可能であれば、ステップ61に記載した式（1’）を用いて決定された標的生物種の濃度C_SOIの定量。

この例では、コントロール種SPCが、定量ステップで用いられたという意味で、キャリブレータの役割を果たした。

SOI NAおよびSPC NAは、標的生物種SOIおよびコントロール種SPCにそれぞれ関連する配列の数が、アセンブリを可能にするには不十分であったという事実に対応する。NAはNot Assembledの頭字語である。

サンプル1、2、3、4、5、6、7、9、10、11、12および13（13検体中12検体）は、ステップ61に関して記載された構成に対応する。例えば、式（1）および式（1’）に従って標的種の定量化が可能である。

サンプル8は、ステップ64を参照して説明した構成に対応しており、結果は解釈できない。追加の調査により、このサンプルでは、配列の逆多重化ステップが失敗したことが明らかになった。この特定のケースは、コントロール種を考慮に入れることで「偽陰性（false negative）」の発生を回避できることを示しているため、興味深い。

「定量可能な」サンプル（1、2、3、4、5、6、7、9、10、11、12および13）については、濃度C_SOIは式（1’）を用いて推定された。しかしながら、コントロール種SPCまたは標的生物種SOIに関連する配列は、アセンブリされない場合があった。この場合、標的生物種は、このプロトコルを用いては定量できなかったが、式（1）を用いてされた。これは、特にサンプル2および13の場合であり、標的生物種に関連する配列の量が、アセンブリを得てシーケンシングのデプス（sequencing depth）を測定するには不十分であった。したがって、式（1’）に基づく定量は、配列の量が十分である場合にのみ可能である。式（1）に基づく定量が好ましい。

図２Aは、培養（x軸）およびシーケンシング（y軸）によるS. aureusの定量の比較を示す。相関係数は低い（r² = 0.2929）。この低い値は、培養法の不正確さ、および培養によって検出される生存細胞および培養可能細胞の量と、シーケンシングによって検出されるゲノムの総量との差によって説明できる。サンプルが取得された特定の患者は抗生物質で治療されており、これは全細菌数に対する生存および培養可能細菌の割合を減少させる傾向があった。したがって、培養では部分的な定量的情報しか得られない。

図２Ｂは、メタシーケンシング（式（1）－y軸）による定量結果と定量的PCR（x軸）による定量結果との相関を示す。相関係数はより高く、r² = 0.9906であり、これはメタシーケンシングによる定量の信頼性を示す。
実施例3

この実施例では、気管支肺胞洗浄（BAL）またはミニ気管支肺胞洗浄（mini-BAL）によって得られたサンプル中の、実施例１に記載された20の標的の病原性細菌種の検出を試験した。実施例2と同様にしてコントロール種SPC（B. subtilis）を得て、各サンプルに添加した濃度は1.7 E4 CFU/mLであった。決定閾値は、BALサンプルで1.0 E4 CFU/mL、mini-BALサンプルで1.0 E3 CFU/mLであった。

サンプルの2つのコホートは、以下のように収集された。46サンプル（23のBALサンプルと23のmini-BALサンプル）からなる1つのトレーニングコホート、および40サンプル（33のBALサンプルと7のmini-BALサンプル）からなる1つの解析コホートは収集された。

トレーニングおよび分析コホートのすべてのサンプルについて、各標的種について培養参照測定が行われた。

サンプルは、実施例2に説明されたように2回の溶解を受けた。シーケンシングは、実施例2で説明したように行われた。

各標的種およびコントロール種について、配列の量は、細菌種に関連する100万当たりのリード数（RPMb）に正規化された。手順50を参照。

各標的生物種について、標的生物種が検出されないと考えられるトレーニングサンプルのみを考慮して、検出閾値DT_SOIが決定された。サンプルの微生物培養の結果が、問題のSOIの検出に関して陰性であり、問題のSOIに特異的なMetaPhlAnマーカー配列の検出に関して陰性である場合、標的種はサンプル中に検出されないと考えられた。図3は、標的種に関して陰性であったトレーニングサンプルにおける正規化されたシーケンス量の統計的分布を示す。x軸は各標的種に対応し、y軸は標的種に関連する配列の正規化された量に対応する。それぞれの種について、中央値（ボックスに含まれる線）、25パーセンタイルと75パーセンタイル（ボックスの限界）が決定され、箱ひげ図（または箱プロット）の形で表現が可能である。各垂直線の端点は、1パーセンタイルと99パーセンタイルに対応する。分布は互いに大きく異なることがわかる。これは、標的生物種ごとに1つの検出閾値DT_SOIを使用することを正当化するものである。標的種のそれぞれについて、上記のステップ100に従って、検出閾値DT_SOIが決定された。μ_SOIが標的種に割り当てられた正規化された配列数の平均を示し、σ_SOIがその標準偏差である場合、検出閾値DT_SOIは、次の式に従って、平均より「3シグマ」上に配置される。
DT_SOI = μ_SOI + 3 σ_SOI(3)

検出閾値DT_SPC＝DT_{B. subtilis}（B. subtilisと関連する）は、定義された。B. subtilisを添加していない7つのトレーニングサンプルを考慮に入れた。B. subtilisに割り当てられた配列の正規化数の平均μ_{B. subtilis}およびそれらの標準偏差σ_{B. subtilis}が決定された。検出閾値DT_{B. subtilis}は、次のようなものである。
DT_{B. subtilis} = μ_{B. subtilis} + 3 σ_{B. subtilis} (3)

メタゲノム閾値と呼ばれる決定閾値（SD）は、目的の細菌の正常な存在とこれらの目的の細菌による患者の感染とを区別するために定義された。この目的のために、トレーニングコホートのサンプルの微生物培養の結果を以下のように2つの別々の集団に分けた。
・「感染」集団は、臨床閾値以上の濃度での培養による検出の20回の出現に対応した。つまり、mini-BALサンプルでは1.0 E3 CFU / mL、BALサンプルでは1.0 E4 CFU / mLである。
・「コロニー形成」集団は、臨床閾値よりも低いでの濃度での培養による非検出または検出の900回の出現に対応した。つまり、mini-BALサンプルでは1.0 E3 CFU / mL、BALサンプルでは1.0 E4 CFU / mLである。

前二項では、920の出現は、20の標的生物種のそれぞれについて行われた46のトレーニングサンプルのマイクロ培養による分析に対応していた。

図４は、様々なサンプルについて、培養（x軸）およびメタゲノム分析（y軸）によって行われる生物種の定量を示す。図４において、黒丸は、Acinetobacter baumannii、Citrobacter freundii、Citrobacter koseri、Enterobacter aerogenes、Escherichia coli、Haemophilus influenzae、Hafnia alvei、Klebsiella oxytoca、Klebsiella pneumoniae、Legionella pneumophila、Morganella morganii、Proteus mirabilis、Proteus vulgaris、Providencia stuartii、Pseudomonas aeruginosa、Serratia marcescens、Stenotrophomonas maltophilia およびStreptococcus pneumoniaeから選択された種に対応する。白い三角形はStaphylococcus aureusに対応する。

実施例2（図2A）に示されているように、培養によって得られたCFU/mL中の濃度とメタシークエンスによって得られたGEq/mL中の濃度とを正確に相関させることができない場合があるが、図4は、標的種または標的種のグループについて、「コロニー形成」集団と「感染」集団とが、シーケンシングによる定量の結果（ゲノム当量（GEq））に基づいて区別されることを示している。メタゲノム閾値（SD）は、「感染」集団において測定された濃度の前半パーセンタイルを考慮して定義された。このようにして得られた値は5.5 E3 GEq/mLであった。

したがって、トレーニングサンプルに基づいて、臨界値より上または下に位置する標的生物種の濃度を有するサンプルを分離できる決定閾値SDを形成するメタゲノム閾値を定義することが可能である。臨界値は、上述の決定閾値SDに顕著に対応し得る。次いで、シーケンシングによって決定された標的種の濃度は、それに関連する決定閾値と比較された。決定閾値は一般に、問題となる生物種に依存することに留意されたい。したがって、問題の1つの生物種または生物種の1つのグループについて、1つの決定閾値を設定することが可能である。2つの異なる生物種は、2つの異なる決定閾値に関連し得る。

分析セットの40のサンプルはシーケンシングされた。表2Aから表2Cは得られた結果を照合し、各表はそれぞれサンプル1から13、14から27および28から40の結果を照合する。各表の最初の行には、各サンプルの参照が含まれています。２番目の行は、それに関連する検出閾値DT_SPCに関してコントロール種SPCの検出（+）または非検出（-）を表す。ステップ60を参照。

サンプル3、7、23および35では、コントロール種SPCは検出されなかった（RN_SPC ＜ DT_SPC）。標的種が検出されなかった場合（RN_SOI ＜ DT_SOI）（ステップ64参照）、結果が解釈できなかった。これは、コードINVに対応する。検出可能な最小濃度が高すぎるため、決定閾値（この場合は臨床閾値）に関して標的種の濃度を決定することはできなかった。標的種が検出された場合（RN_SOI ≧ DT_SOI）（ステップ62参照）、コントロール種を5.5 E3 GEq/mLに等しいメタゲノム閾値（SM）よりも高い濃度で添加したため、標的種SOIの検出は、この例では臨床的決定閾値である決定閾値を超えて陽性であると考えられた。この結果は、表2A、2Bおよび2Cにおいて次のように対応する。
・微生物培養によって標的生物種も臨床閾値を超えていることが検出された場合には、真陽性（TP（true positive））になる。
・または、微生物培養によって標的生物種が臨床閾値を超えていることが検出されない場合には、偽陽性（FP（false positive）またはFP+）になる。

サンプル1、2、4から7、8から22、24から34および36から40では、コントロール生物種が検出された（RN_SPC≧DT_SPC）。標的種が検出されなかった場合（RN_SOI＜DT_SOI）（ステップ63参照）、式（2）を用いて最小検出濃度Cmin_SOIを設定した。最小検出可能濃度Cmin_SOIが決定閾値SDより高い場合、これらの結果は解釈できず、これは表2A、2Bおよび2CのコードINVに対応する。最小検出可能濃度Cmin_SOIが決定閾値（メタゲノム閾値）SD以下であった場合、標的生物種の検出は臨床閾値より低いと考えられた。この結果は、表2A、2Bおよび2Cにおいて次のように対応する。
・微生物培養により標的生物種が臨床閾値を超えることが検出されたが、メタゲノム分析により決定閾値を下回っていると定量化された場合は、偽陰性（FN（false negative））となる。
・微生物培養およびメタゲノム分析により標的生物種が臨床閾値を超えていることが検出されない場合は、真陰性（true negatives）（空のボックス）になる。

コントロール生物種が検出され（RN_SPC ≧ DT_SPC)）、標的生物種が検出された（RN_SOI ≧ DT_SOI）の場合、標的生物種に関連する配列数をキャリブレータとして使用して、ステップ61で説明した式（1）を使用して、標的生物種の濃度C_SOIを確立した。これらの結果は、表2A、2Bおよび2Cにおいて以下に対応する。
・微生物培養によって標的生物種が臨床閾値を超えていることが検出された場合、真陽性（TP）とされる。
・または、微生物培養によって標的生物種が臨床閾値を超えていることが検出されない場合には、偽陽性（FPまたはFP+）とされる。

微生物培養による分析では、決定閾値（BALサンプルでは1 ^E4 CFU/mL、mini-BALサンプルでは1 ^E3 CFU/mL）を超える11回の出現が検出された。メタゲノム分析は、表2A～2Cの表記TP（真陽性）に対応するこれらの出現のうち10回を検出することを可能にした。メタゲノミクスによって検出されない出現は、サンプル27中のE. cloacaeに対応し、この細菌が存在しないサンプル中のE. cloacaeに関連した大量の配列によって説明可能であった（図3参照）。これは非常に高い検出閾値につながり、その結果、検出可能な最小濃度Cmin_SOIはしばしばメタゲノミクス閾値（SM）よりも高いことになった。この結果はメタゲノム検査では無効であると考えられた（表2CのINVを参照）。

メタゲノム分析により、微生物培養に関して19の追加の出現を検出できた。これらの出現は、表2A～2CにおいてFP（偽陽性）またはFP+と示される。5つのFP+の出現は、MetaPhlAnマーカーおよびBLASTアライメント（BLASTはBasic Local Alignment Search Toolの頭字語である）が、培養によって非検出にもかかわらず、サンプル中の標的種の存在を確認できる検出に対応した。これらの相補的な出現は、おそらく微生物培養による検出に関してメタゲノム試験のより良い感度のためであり、細菌叢における生存可能で培養可能な部分の検出のみを可能にした。FP出現は、MetaPhlAnマーカーおよびBLASTアラインメントの探索で確認できない、標的種に関連したリード数が少なすぎる誤検出に対応した。これらの相補的な出現は、微生物培養による検出に関して、メタゲノム検査の感度が高いことにもよると考えられる。しかしながら、確認がないため、メタゲノム検査の特異性の欠如を排除することはできない。

メタゲノム検査は、185の無効な結果を生じた－表2A、2Bおよび2CのINV。これらの結果は標的種SOIの非検出に対応していたが、最小検出濃度Cmin_SOIがメタゲノム閾値（SM）より高かったため、解釈できなかった。この結果は、微生物培養の結果とは特に異なる。微生物培養の結果は、検査されたサンプル内の細菌種の検出感度を個別に検証するために何らかのデバイスが使用されない限り、一般に否定的な結果をもたらる。メタゲノム検査による検証により、偽陰性のリスクを制限することができた。この状況は、サンプル27でE. cloacaeが検出されなかったことから明らかである。

BALおよびmini-BALサンプルを取得した患者に感染する目的の病原体の検出結果の比較（表3参照）は、本発明に記載されたコントロール種を用いる利点を明確に示した。臨床的判断閾値を超える病原体の検出は、標的種に割り当てられた正規化されたリード数に直接基づいて、ほぼ9倍の偽陽性結果を生じた。コントロール種の使用は、メタゲノム検査の特異性を有意に改善し、感度を低下させることなく感染のより良い検出を可能にした。

いわゆるショットガンシーケンスに対する本発明の特定の適用が記載されている。本発明はまた、標的配列、例えば、いわゆる16S配列にも適用可能である。この場合、シーケンシングに先立って、サンプル中のそのコピーを増殖させるために、標的遺伝子を増幅するステップを実施した。次いで、本発明によって使用されるリードは、標的遺伝子のみに対応するリードである。

BALまたはmini-BALサンプルのメタゲノム分析におけるコントロール種としてのBacillus subtilisの使用が説明されている。変形例として、別のコントロール種を使用してもよいが、それはステップ20に関して記載された基準の全部または一部を満たすことを条件とする。これは、例えば、Bacillus stearothermophilus、Synechocystis sp. PCC6803、Pelagibacter ubique、Methanocaldococcus jannaschii、Aeropyrum pernix、Kocuria rhizophila、Azospirillum lipoferum、Lactococcus lactis、Synechococcus sp. WH 7805、Schizosaccharomyces pombe、Pantoea stewartii、Phage T4、Pichia pastoris、およびArmored DNA QuantTMである。

膜（細菌膜、キャプシドなど）に含まれるかまたはカプセル化された核酸を含む要素の形態をとる複数のコントロール種が説明されている。この特徴は、メタゲノム分析の適合性を検証する機能に関して、特に、核酸を抽出するプロセスが予想通りに機能したかどうかを決定するために使用される。明らかに、生物種がキャリブレータとしてのみ使用される場合、すなわち、適合性を検証する機能を許可せずに定量機能のみを実施する場合、キャリブレータは、サンプルに添加された遊離核酸またはDNA抽出物中の既知の量で構成され得る。

核酸配列を抽出するステップの前に、コントロール種およびキャリブレーションする種を同時に添加することが説明されている。2つの異なる生物種を使用して、適合性の確認および定量の機能（キャリブレータ）を別々に実行する場合、キャリブレータは、好ましくは、サンプルを溶解するステップの後、それがネイキッドな核酸の問題である場合、後者の破壊を回避するために、次のステップで添加され得る。

本発明における方法は、特に、サンプル中の標的生物種をアッセイすることを可能にする。好ましくは、臨床応用の文脈において、本発明による方法は、サンプル中で同定され、アッセイされた種に応じて抗生物質のコースを決定するステップと、決定された抗生物質のコースを患者に投与するステップとによって完了する。

この方法は、標的種（後者はおそらく細菌または真菌である）によるサンプルの汚染の診断における支援を提供することを可能にする。これにより、標的種の同一性に基づいて、またゲノム中で検出された抗菌薬耐性のあらゆる徴候に基づいて、適切な治療（細菌の場合の抗生物質治療、酵母または真菌の場合の抗真菌治療）を定義することができる。

より一般的には、標的とする用途に応じて、生物種の濃度が決定閾値よりも高い場合、これは異常の発生を示すと考えられる。異常を是正するために、適切な是正措置方針が決定される。例えば、食品加工の分野では、標的種は細菌であってもよい。濃度が一定の閾値を超える場合、是正措置の方針は、販売を意図した食品の除去または破壊、および／または生産施設の洗浄とすることができる。処理が院内感染を防止するための衛生検査、例えば病院の一部などの施設の衛生検査に関する場合も同様である。望ましくない生物種の存在が認識されると、浄化や汚染除去などの修復的な行動につながる。

本発明は、診断を支援するために、またはより一般的には、例えば食品加工産業、製薬産業または化粧品産業において、環境または工業プロセスから取得されたサンプルの分析の分野において実施される可能性がある。衛生検査に使用することもできる。

Claims

分析サンプル中に潜在的に存在する標的生物種（SOI）を検出するための方法であって、前記標的生物種は既知または部分的に既知のゲノムを有し、前記分析サンプルは様々な生物種の混合物を含み、
前記方法は、
a）前記分析サンプルから核酸を抽出し、
b）ステップa）で抽出した核酸配列をシーケンシングし、
c）シーケンシングの結果に基づいて、
（i）配列の参照データベースに基づいて、ステップb）から得られた配列を割り当て、
（ii）前記標的生物種に割り当てられた配列の量（R_SOI、RN_SOI）を決定し、
ステップb）の前に、キャリブレータを添加し、生物種である前記キャリブレータを既知の濃度（C_CAL）で前記分析サンプルに添加し、前記キャリブレータは既知のゲノムを有することを特徴とし、前記ステップc）は、
（iii）前記キャリブレータに割り当てられた配列の量（R_CAL）を決定することを含み、
d）ステップ（ii）および（iii）で推定された配列の量、および前記キャリブレータの濃度（C_CAL）に基づいて、サンプル中の前記標的生物種（SOI）の濃度（C_SOI）を推定することを含む
方法。
ステップ（ii）及び（iii）において、前記標的生物種及び前記キャリブレータにそれぞれ割り当てられた配列の量は、基準量によって正規化されることを特徴とする
請求項１に記載の方法。
前記標的生物種の濃度（C_SOI）を比較しようとする決定閾値（SD）を考慮することを含む
請求項１又は２に記載の方法。
前記分析サンプルは、内因性生物を含み、前記キャリブレータは、前記内因性生物のゲノムとは異なるゲノムを有する
請求項１～３のいずれか１項に記載の方法。
前記キャリブレータは、ゲノムのサイズが前記標的生物種のゲノムのサイズの0.1倍から10倍の間に含まれるようなものである
請求項１～４のいずれか１項に記載の方法。
前記キャリブレータの濃度は、考慮される前記決定閾値の0.001倍から1000倍の間、好ましくは0.01倍から100倍の間に含まれる
請求項３に記載の方法。
ステップd）は、
・前記標的生物種と前記キャリブレータにそれぞれ割り当てられた配列の量との間の第1の比率を決定し、
・前記キャリブレータと前記標的生物種のそれぞれのゲノムサイズとの間の第2の比率を決定し、
・前記分析サンプルに添加した前記キャリブレータの濃度を考慮することを含む
請求項１～６のいずれか１項に記載の方法。
ステップd）は、前記第1の比率に前記第2の比率を乗じたものと、前記分析サンプルに添加された前記キャリブレータの濃度との積を計算することを含む
請求項７に記載の方法。
前記ステップd）は、
・前記標的生物種および前記キャリブレータのカバレッジ（Cov_SOI、Cov_CAL）を決定し、
・前記標的生物種について決定された前記カバレッジと前記キャリブレータについて決定された前記カバレッジとの間の比率の計算し、
・このようにして計算した比率に、サンプルに添加されたキャリブレータの濃度（C_CAL）を乗算することを含む
請求項１～６のいずれか１項に記載の方法。
請求項３に従属する場合、ステップd）の後に、決定閾値（SD）を考慮し、ステップd）から得られる濃度を前記決定閾値と比較するステップe）を含む
請求項３又は４～９のいずれか１項に記載の方法。