JP7023711B2

JP7023711B2 - サンプル中の分類単位内の微生物の量を推定する方法及び装置

Info

Publication number: JP7023711B2
Application number: JP2017547118A
Authority: JP
Inventors: ヘンリーリン; シサーサンカマラカラン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2015-04-09
Filing date: 2016-04-08
Publication date: 2022-02-22
Anticipated expiration: 2036-04-08
Also published as: MX2017012758A; CN107533587A; RU2017138867A3; AU2021212155B2; RU2751241C2; EP3281136A1; WO2016162504A1; JP2018518725A; CN107533587B; BR112017021318A2; RU2017138867A; AU2021212155A1; US10998083B2; CA2981913A1; US20180129777A1; AU2016245213A1

Description

本発明は概してマイクロバイオームサンプル中に存在する分類単位の同定及び定量化に関し、より具体的には予測エラー率を利用するサンプル測定の修正に関する。

最近の医学研究は、疾患の潜在的原因として、ヒトマイクロバイオーム、我々の身体空間を共有する片利共生、共生、及び病原微生物の生態学的共同体を分析することに焦点を合わせている。一研究方法は、口、腸などの多様な環境からの細菌、ウイルス、及び／又は真菌のゲノムシーケンシングを含み、メタゲノミクスとして知られる研究分野である。

メタゲノムサンプルを研究するために使用される既存の方法は、誤分類されるリードに悩まされており、これはサンプル中に存在する正確な種を誤同定し、及び／又はそれら種の存在量の不正確な推定をもたらす可能性がある。こうした誤分類はマイクロバイオームサンプルの不正確な見解を提供し、患者の状態の正確な分析と診断を妨げ得る。

サンプル内に存在する種のより正確な同定と、それらの存在量のより正確な定量化は、人の疾患の状態若しくは原因のより正確な同定をもたらし得る。従って、マイクロバイオームサンプル中に存在する種及び他の分類単位を正確に同定し定量化する方法とシステムの必要がある。

この要約は以下の詳細な説明の節でさらに記載される概念の選択を簡略化した形で紹介するために提供される。この要約は特許請求の主題の重要な特徴若しくは本質的な特徴を特定若しくは除外することを意図せず、特許請求の範囲を決定する助けとして使用されることも意図されない。

本発明の実施形態は概して、サンプル中に存在する分類単位（例えば種）を同定及び定量化する方法と装置に関する。シーケンスリードは既存の方法を用いて分類され、分類結果は、既知量の微生物でのシーケンシング実験若しくはシミュレーションを通じて決定される、誤分類されていると予測されるリード数を考慮するよう修正される。予測される誤分類リード数に対する統計とともに、サンプル中に実際に存在する分類単位の量についてより正確な値を決定し、サンプル中に存在すると誤決定される分類単位を除外するために線形最小二乗法（非負若しくはその他）又は他の技術が使用され得る。

一態様において、本発明の実施形態はサンプル中に存在する分類単位内の微生物の量を推定するためのコンピュータ実装方法に関する。方法は、分類単位内の微生物に対する誤分類率を推定して、分類単位のリストに分類されるサンプル中のリード数の測定結果を受信し、受信した測定結果を推定誤分類率を用いて調節してサンプル中の各分類単位に属するリード数を推定し、各分類単位に属する推定リード数を用いてサンプル中に存在する分類単位から微生物の数を推定するように構成されるコンピュータプロセッサを提供することを含む。一実施形態において、コンピュータプロセッサはさらに、分類単位中の微生物のゲノムの長さ、ＧＣ含量、若しくはその両方を用いて分類単位内の微生物の数を推定するように構成される。

一実施形態において、誤分類率を推定するように構成されるコンピュータプロセッサは、実験的に決定されるリード長とシーケンスエラー率とともに分類単位内の微生物のゲノムを用いてリードをシミュレートし（又は微生物の既知の組成を伴うサンプルからシーケンスリードを受信し）、シミュレートされたリードに対しリード分類アルゴリズムを実行し、関心のある分類単位のリストへ分類されるシミュレートされたリードのパーセンテージを決定するように構成される。一実施形態において、受信した測定結果を調節するように構成されるコンピュータプロセッサは、分類単位のリストへ分類されるサンプルからのリード数と推定誤分類率により決定される連立一次方程式へ最小二乗法（非負若しくはその他）を適用することにより、受信した測定結果を調節するように構成される。

一実施形態において、サンプルは微生物の複数の種を有し、誤分類率はサンプル中にあると疑われるサンプル中の種の各々に対して、及び類似ゲノムを持つ近縁種に対して計算される。一実施形態において、誤分類率は微生物の複数の種に対するデータを有するデータベース中の種の各々に対して計算される。受信される測定結果はデータベース中の種の各々について受信され得、受信される測定結果はデータベース中の種の各々について調節され得る。

一実施形態において、方法はサンプルからシーケンスデータを受信するステップをさらに有する。一実施形態において誤分類率は、種誤分類、属誤分類、及び亜種誤分類を含むがそれに限定されない、関心のある様々な分類ランクの分類単位について推定される。

別の態様において、本発明の実施形態はサンプル中に存在する分類単位内の微生物の量を推定するためのコンピュータ実行可能命令を含むコンピュータ可読媒体に関する。媒体は分類単位内の微生物に対する誤分類率を推定するためのコンピュータ実行可能命令と、分類単位のリストへ分類されるサンプル中のリード数の測定結果を受信するためのコンピュータ実行可能命令と、推定誤分類率を用いて受信した測定結果を調節してサンプル中の各分類単位に属するリード数を推定するためのコンピュータ実行可能命令と、各分類単位に属する推定リード数を用いてサンプル中に存在する分類単位から微生物の数を推定するためのコンピュータ実行可能命令とを有する。一実施形態において、媒体は分類単位中の微生物のゲノムの長さ、ＧＣ含量若しくはその両方を用いて分類単位内の微生物の数を推定するためのコンピュータ実行可能命令をさらに有する。

一実施形態において、誤分類率を推定するためのコンピュータ実行可能命令は、実験的に決定されるリード長とシーケンスエラー率とともに分類単位内の微生物のゲノムを用いてリードをシミュレートする（又は微生物の既知の組成を伴うサンプルからシーケンスリードを受信する）ためのコンピュータ実行可能命令と、シミュレートされたリードに対しリード分類アルゴリズムを実行するためのコンピュータ実行可能命令と、関心のある分類単位のリストへ分類されるシミュレートされたリードのパーセンテージを決定するためのコンピュータ実行可能命令を有する。一実施形態において、受信した測定結果を調節するためのコンピュータ実行可能命令は、分類単位のリストへ分類されるサンプルからのリード数と推定誤分類率により決定される連立一次方程式へ最小二乗法（非負若しくはその他）を適用することにより、受信した測定結果を調節するためのコンピュータ実行可能命令を有する。

一実施形態において、サンプルは微生物の複数の種を有し、コンピュータ実行可能命令はサンプル中にあると疑われるサンプル中の種の各々に対して、及び類似ゲノムを持つ近縁種に対して誤分類率を計算する。一実施形態において、コンピュータ実行可能命令は微生物の複数の種に対するデータを有するデータベース中の種の各々に対して誤分類率を計算する。受信される測定結果はデータベース中の種の各々について受信され得、コンピュータ実行可能命令は受信される測定結果をデータベース中の種の各々について調節する。

一実施形態において、コンピュータ可読媒体はサンプルに対するシーケンスデータを受信するためのコンピュータ実行可能命令をさらに有する。一実施形態において誤分類率は、種誤分類、属誤分類、及び亜種誤分類を含むがそれに限定されない、関心のある様々な分類ランクの分類単位について推定される。

非限定的な本実施形態を特徴付けるこれらの及び他の特徴と利点は、以下の詳細な説明を読み添付の図面を見ることで明らかとなる。上記概要と下記詳細な説明の両方は説明に過ぎず、請求される非限定的な実施形態の制限ではないことが理解されるものとする。

非限定的かつ非包括的な実施形態が以下の図面を参照して記載される。

本発明にかかるサンプル中に存在する微生物を同定するための方法の一実施形態の一実施例を描く。本発明にかかるメタゲノムサンプル分析用のシステム例のブロック図を例示する。

図中、同様の参照符号は概して異なるビューを通じて対応する部分をあらわす。図面は必ずしも原寸通りではなく、代わりに動作の原理及び概念に重点が置かれる。

様々な実施形態は、本明細書の一部を成し、具体的実施形態例を示す添付の図面を参照して以下により完全に記載される。しかしながら、実施形態は多くの異なる形態で実施されてもよく、本明細書で設定される実施形態に限定されるものと解釈すべきではない；むしろ、これらの実施形態は本開示が徹底的かつ完全であり、実施形態の範囲を当業者に完全に伝えるように提供される。実施形態は方法、システム若しくはデバイスとして実施され得る。従って、実施形態は、ハードウェア実装、完全なソフトウェア実装、若しくはソフトウェアとハードウェアの側面を組み合わせた実装の形態をとり得る。以下の詳細な説明は、従って、限定的な意味で解釈されないものとする。

明細書中の"一つの実施形態"若しくは"一実施形態"への言及は、実施形態に関連して記載される特定の特徴、構造若しくは特性が本発明の少なくとも一つの実施形態に含まれることを意味する。明細書の様々な場所における"一実施形態において"という語句の出現は、必ずしも全て同じ実施形態を指しているわけではない。

以下の記載の一部はコンピュータメモリ内に記憶される非過渡信号に対する動作の記号表現の観点で提示される。これらの記載と表現は、データ処理技術の当業者により自らの仕事の内容を他の当業者へ最も効果的に伝えるために使用される手段である。かかる動作は典型的には典型的に物理量の物理的操作を要する。通常、必ずではないが、これらの量は記憶、伝送、結合、比較及びその他の方法で操作されることが可能な電気、磁気、若しくは光学信号の形をとる。主に一般的な使用の目的で、これらの信号をビット、値、要素、記号、文字、項、数などと呼ぶことが時に好都合である。さらに、一般性を失うことなく、物理量の物理的操作を要するステップの特定配置をモジュール若しくはコードデバイスと呼ぶことも時に好都合である。

しかしながら、これらの及び類似の用語は全て、適切な物理量と関連し、これらの量に適用される便利なラベルに過ぎない。特に明記しない限り以下の論述から明らかな通り、"処理"若しくは"演算"若しくは"計算"若しくは"決定"若しくは"表示"などといった用語を利用する論述は、コンピュータシステムメモリ若しくはレジスタ又は他のかかる情報記憶、送信若しくは表示装置内で物理（電子）量としてあらわされるデータを操作及び変換するコンピュータシステム又は同様の電子計算装置の動作及びプロセスを参照することが、記載全体を通じて理解される。

本発明の特定の態様は、ソフトウェア、ファームウェア若しくはハードウェアで具体化され、ソフトウェアで具体化されるとき、様々なオペレーティングシステムにより使用される異なるプラットフォーム上に常駐するようにダウンロードされ、それらから操作され得る、プロセスステップ及び命令を含む。

本発明はまた、本明細書の動作を実施するための装置に関する。この装置は、必要な目的のために特別に構成され得るか、又はコンピュータに格納されるコンピュータプログラムによって選択的に起動若しくは再構成される汎用コンピュータを有し得る。かかるコンピュータプログラムは、限定されないが、フロッピー（登録商標）ディスク、光ディスク、ＣＤ‐ＲＯＭ、光磁気ディスク、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気若しくは光カード、ソリッドステートメモリ、特定用途向け集積回路（ＡＳＩＣ）を含む、任意のタイプのディスクなどのコンピュータ可読記憶媒体、又は電子命令を記憶するのに適した任意のタイプの媒体に格納され得、各々がコンピュータシステムバス若しくはエンタープライズサービスバスへ結合される。さらに、本明細書で参照されるコンピュータは、単一のプロセッサを含み得るか、又は分散型で計算能力増大のためのマルチプロセッサ設計を採用するアーキテクチャであり得る。

本明細書で提示されるプロセスと表示は、本質的にいかなる特定のコンピュータ若しくは他の装置にも関連しない。様々な汎用システムも本明細書の教示に従ってプログラムとともに使用されてもよく、又は所要の方法ステップを実行するより特殊化された装置を構成することが好都合であるとわかるかもしれない。様々なこれらのシステムに必要な構造は以下の記載から明らかになるであろう。加えて、本発明はいかなる特定のプログラミング言語も参照して記載されない。本明細書に記載される通り本発明の教示を実施するために様々なプログラミング言語が使用されてもよく、以下の特定の言語への参照は、本発明の実施可能性及び最良の形態の開示のために提供されることが理解される。

加えて、本明細書で使用される言語は主に読みやすさと教示目的のために選択されており、本発明の主題を描写若しくは制限するために選択されていない可能性がある。従って、本発明の開示は、特許請求の範囲に記載されている本発明の範囲を例示するものであり、限定するものではないことを意図する。

［概観］
本発明の実施形態は、メタゲノムサンプル内の特定分類単位（例えば種）の存在量を定量化するための改良された方法に関する。このタスクに利用可能な既存のツールは通常、リードを参照ゲノムのセットへマップするか、又はシーケンス解析を使用して特定の分類レベル（例えば、家系、属、種、亜種、株、亜株など）でリードを分類する。しかしながら、かかるツールは間違った分類単位に属するものとして一部のリードを誤ってマップするか、又は誤分類することが多い。

対照的に、本発明は、使用されるリード分類法（例えばＫｒａｋｅｎ法）の典型的な誤分類率をシミュレーションを通じて定量化すること、並びに最適化技術（例えば線形最小二乗法）を適用してシミュレーションを通じて決定される推定誤分類率を考慮して修正することにより、サンプル内の分類単位の存在量を推定する方法及びシステムを提供する。このプロセスの結果は、サンプル中に存在する種、亜種などの存在及び／又は存在量のより正確な推定である。

分類は、ＤＮＡ若しくはＲＮＡデータのシーケンシングに基づくと予想される。ＤＮＡベースの入力の場合、様々な微生物のゲノムへリードを分類して、異なる分類単位の存在量を定量化することができる。ＲＮＡデータの場合、（完全なゲノムではなく）特定の遺伝子へリードを分類し、各遺伝子へ分類されるリードの数を用いてメタゲノムサンプル内の遺伝子の発現レベルを特徴付けることができる。

図１は、本発明にかかるサンプル、例えば、マイクロバイオームサンプル中に存在する微生物を同定するための方法例を提示する。方法は、シーケンシングされる場合、データベースに記憶されたゲノムシーケンスに多かれ少なかれ対応し得るゲノムを持つ少なくとも一つの微生物（例えば細菌、真菌、ウイルスなど）を持つサンプルの存在を前提とする。データベースは完全ゲノムを得ることが困難な一部の微生物に対する部分的な若しくは不完全なゲノムシーケンスも保存し得るが、本方法は不完全なゲノムシーケンスと完全なゲノムシーケンスの両方がデータベースにあるときにも適用され得る。加えて、ターゲットシーケンシング法が使用される場合、このデータベースは分類法を特定のゲノム関心領域（例えば１６Ｓ）に限定するために意図的に部分ゲノムシーケンスのみで満たされてもよい。さらに、データベースは、遺伝子からＲＮＡリードを分類し、それらの発現レベルを定量化するために使用され得る、目的の遺伝子のシーケンスのリストも保存し得る。データベースが、データベースに記憶される微生物のゲノム（完全若しくは部分）間の分類学的関係を記憶することも想定される。データベースは既存のデータベースであってもよく、又は本発明の実施形態との使用のために特別に作成されてもよい。上述の通り、サンプル中の微生物の存在及び／又は存在量を正確に推定するために、本方法は、典型的にはデータベースに含まれるゲノムを伴う各微生物について、サンプルとともに使用されるリード分類法の誤分類率を推定する（ステップ１００）。

サンプルは全ゲノム又はターゲットシーケンシング（例えば１６Ｓ）のための市販のシーケンシング技術（例えばＩｌｌｕｍｉｎａＨｉＳｅｑ又はＭｉＳｅｑ）を用いてシーケンシングされる。ターゲット１６Ｓシーケンシングは細菌サンプルのシーケンシングにより効率的であり得るが、全ゲノムシーケンシングはサンプルが真菌又は他の非細菌微生物を含むと考えられるときにより有利であり得る。

一実施形態では、各リードを、提供されるゲノムデータベースに基づく分類単位に由来するものとして分類する分類アルゴリズムがシーケンシングプロセスの出力に適用される（ステップ１０４）。本発明の実施形態で使用するための一つの適切な分類アルゴリズムは、http：//ccb.jhu.edu/software/kraken/（２０１５年２月１７日にアクセス）から入手可能なＫｒａｋｅｎである。

一旦各リードが分類されると、サンプル中の目的の分類単位からの微生物の有病率などの統計が計算され得る。しかしながら、かかる統計は基礎となるリード分類におけるエラー及び誤分類による何らかのエラー成分を含むことが知られている。本発明の実施形態はこれらのサンプル測定を調節してこれらのリード分類エラーを修正する（ステップ１０８）。

［シーケンス誤分類の修正］
リード分類法の誤分類率は微生物によって異なり得るので、誤分類を定量化するためのシミュレーションプロセスは、サンプル中に存在すると予想される各微生物に対して、又はゲノムシーケンスのデータベースに存在する各微生物に対して、実行され得る。誤分類率の推定は、問題の微生物についての既知のゲノム（例えばＮＣＢＩからダウンロードされる．ｆａｓｔａゲノムシーケンスファイルとして得られる）及びhttp：//ab.inf.uni-tuebingen.de/software/metasim/（２０１５年２月１７日にアクセス）から入手可能なＭｅｔａＳｉｍなどのシーケンシングシミュレータを用いてリードをシミュレートすること、シミュレートされたリードを（例えば、．ｆａｓｔｑファイルとして）実際のサンプルへ適用される分類アルゴリズム（例えばＫｒａｋｅｎ）へ供すること、並びにシミュレートされたリードに対する分類アルゴリズムによる誤分類率を計算することにより、決定され得る。代替的に、誤分類率は、既知量の一つ以上の微生物でのシーケンシング実験から計算することもできる。

シーケンシングシミュレータへの入力として供給されるリード長及びシーケンシングエラー率は、サンプルとともに使用される特定のシーケンシング技術（例えばＩｌｌｕｍｉｎａ、４５４など）について実際に観察される、又は他の方法で実験的に決定される値であり得る。次いで、シーケンシングシミュレータの出力はリード分類アルゴリズムへ提供され得る。

一実施形態では、分類単位ｉにおける微生物の誤分類率は、リード分類アルゴリズムにより分類単位jとして分類される微生物に対してシミュレートされるリードの割合としてあらわされ得、これをa（ｊ，ｉ）として示し、分類単位ｉ由来の微生物は上述の微生物ゲノムのデータベースから選択される。我々は典型的には、関心のある各分類単位に対して一つのゲノムが存在し、そのゲノムが関心のある分類単位の全微生物の代表になると仮定する。別の実施形態では、微生物ｉの誤分類率は、リード分類アルゴリズムにより微生物ｉ以外のものとして分類される、シミュレートされた微生物ｉに対するリードの割合としてあらわされ得る。

別の実施形態では、推定誤分類率は、分析中のサンプル中に存在すると考えられる分類単位ｉ，ｊ、及び一部のリードが誤って分類され得る密接に関連する分類単位（類似ゲノムを伴う）についてのみ計算され得る。その決定は、例えばサンプルから得られるシーケンシング結果により、又はサンプルのソースに関する情報などにより、知らされ得る。例えば、この情報は、サンプルが採取された生息場所、又は患者の一次診断といった他の臨床情報であり得る。

概念的な目的のために、値ａ（０，ｉ）は、関心のある分類レベルでアルゴリズムにより未分類のままである微生物ｉからのリードの割合をあらわす（例えば、種レベルで分類されるリードを考慮すると、ａ（０，ｉ）は、種レベルでの分類に失敗したリードの数をあらわす）。微生物を分類したい関心のあるｎ個の分類単位を持つとき、ａ（ｊ，ｉ）の個々の値は行列Ａへ集約され、ｊについては｛０,１，…，ｎ｝、ｉについては｛１，・・・，ｎ｝であり、ｎ＋１×ｎ成分のサイズの行列を生成する。

微生物ゲノムのデータベースからの特定の微生物ｉに真に対応するサンプルからのリードの数はｘ_ｉであると定義され得る。個々の値ｘ_ｉは、再びサイズがｎ成分、すなわち検討中の分類単位の数である列ｘにベクトル化され得る。

微生物ゲノムのデータベースから微生物ｉに由来するものとして分類アルゴリズムにより分類されるシーケンシングプロセスからのリードの数（真陽性及び偽陽性の両方）は、ｂ_ｉと定義され得る。個々の値ｂ_ｉは、サイズがｎ＋１成分、すなわち検討中の分類単位の数＋１（関心のある分類ランクにおける未分類リードの数に起因）である列ｂにベクトル化され得る。

これらの定義により、行列方程式Ａｘ＝ｂが成立すると期待され得る。しかしながら、プロセスは確率的であるため、大数のリードが大数の法則に従うという見込みでＡｘ＝ｂが成立すると期待されるのみである。実際には、シーケンシングプロセスに内在するランダム性（シーケンシングエラーなど）のため、及びシーケンシングリードの限られた数のために、Ａｘ＝ｂは厳密には真ではない。それでもなお、上述のデータベースから各生物へ分類されるサンプルからのリードの数をあらわすベクトルｂと、データベースからの各生物のシミュレートされた誤分類率をあらわす行列Ａとを計算することができる。方程式における未知数はベクトルｘである。

一実施形態において、ｘは次式のように解かれる：

この最適化問題は線形最小二乗法を用いて解かれ得る、すなわち：

他の実施形態では、最小絶対値、最小刈込み二乗法などといった最適化法を使用することができ、これらの方法はしばしば、見つけられるベクトルｘが非負でなければならない（例えば非負線形最小二乗法）、整数でなければならない、又はその両方でなければならないバージョンを持つ。ベクトルは各分類単位からのリードの数をあらわし、これは負になり得ないので、ベクトルｘが非負であり、整数値を持つことが好ましい。さらに他の実施形態では、ベクトルｘにおける非ゼロ成分の数を最小化する方法が使用され得る。かかるプロセスの結果は、観察されるシーケンシング結果を説明するために分類単位から最低数の微生物を要するという点で、"最も単純な"答えであると言える。

各微生物に対応するサンプルからのリード数を推定するベクトルｘを計算すると、一部の微生物が他の微生物よりも長いゲノムを持つという事実に対処するために、ベクトルｘが正規化され得る。ゲノム長の違いは、より長いゲノムを持つ微生物に有利に、分類されたリードの数を偏らせる可能性が高く、ベクトルｘの各成分ｘ_ｉを微生物ｉのゲノム長で除することにより対処され得、サンプル中の微生物ｉの数に対する正規化された推定をもたらす。

サンプル中に存在する微生物の推定量は、微生物のゲノムのグアニン‐シトシン（ＧＣ）含量をその長さに加えて、又はその長さの代わりに考慮することにより、さらに精緻化され得る。特定のシーケンシング技術は、不平衡ＧＣ含量を持つゲノムシーケンスの捕捉が困難であるため、ＧＣ重／軽領域を含むゲノムを有する微生物は、マイクロバイオームサンプルにおいてアンダーカウントされ得る。調節プロセスは、例えば各微生物のカウントに、データベースに反映されるような微生物のゲノム中のＧＣ重／軽領域の頻度に基づいて計算される倍率を乗することにより、この系統的アンダーカウントを修正し得る。

前述の議論におけるステップの順序は必ずしも標準ではないことが当業者に明らかであろう。例えば、当業者は、分類アルゴリズムに対する推定エラーが、シーケンシング結果の受信後に計算されることができ、サンプル中で同定される分類単位に限定される簡約化誤差行列の計算を可能にすることを認識するだろう。

図２は本発明にかかるメタゲノムサンプル分析用のシステム例のブロック図である。この実施形態では、コンピューティングユニット２００は、微生物ゲノムデータソース２０８及びシーケンシングデータソース２０４と通信している。

コンピューティングユニット２００は様々な実施形態において様々な形態をとり得る。本発明との使用に適したコンピューティングユニット例は、デスクトップコンピュータ、ラップトップコンピュータ、バーチャルコンピュータ、サーバコンピュータ、スマートフォン、タブレット、ファブレットなどを含む。データソース２０４、２０８も、構造化データベース（例えばＳＱＬデータベース）、非構造化データベース（例えばＨａｄｏｏｐクラスタ、ＮｏＳＱＬデータベース）、又は様々なコンピューティングユニット（例えばデスクトップコンピュータ、ラップトップコンピュータ、バーチャルコンピュータ、サーバコンピュータ、スマートフォン、タブレット、ファブレットなど）上で実行する他のデータソースを含むがそれらに限定されない、様々な形態をとり得る。コンピューティングユニットは、本発明の様々な実施形態において、異種又は同種であり得る。一部の実施形態では、データソース２０４は、サンプル中の少なくとも一つの微生物のゲノムをシーケンシングするシーケンシング装置の一部であり得る。一部の実施形態では、データソース２０８は、公的に又は私的にアクセス可能なゲノムデータのデータベースであり得る。

システムのコンポーネントは、様々な実施形態において異種又は同種である様々なネットワーク技術を使用して相互接続され得る。適切なネットワーク技術は、有線ネットワーク接続（例えばイーサネット、ギガビットイーサネット、トークンリングなど）及び無線ネットワーク接続（例えば、Ｂｌｕｅｔｏｏｈ（登録商標）、８０２．１１ｘ、３Ｇ／４Ｇ無線技術など）を含むが、これらに限定されない。

動作中、コンピューティングユニット２００は、マイクロバイオームサンプルからの一つ以上の微生物に対するシーケンシングデータについてシーケンシングデータソース２０４に問い合わせる。シーケンシングデータソース２０４は、かかるテストをサンプルに対して実行したか、又はかかるテストを実行した機器の一部からかかる情報を直接若しくは間接的に（すなわち、データ入力若しくは送信を通じて）受信しているかもしれないので、かかる情報を持ち得る。

動作中、コンピューティングユニット２００は、シーケンシングデータソース２０４により同定される一つ以上の微生物に対するゲノムに関する情報についてゲノムデータソース２０８に問い合わせる。ゲノムデータソース２０８は、かかる情報をローカルに保存していてもよく、或いは必要に応じて関連ゲノム情報を取得するために他のコンピューティングユニットにコンタクトし得る。

上述の通り、一つ以上の微生物について要求されたシーケンシングデータ及びゲノムデータを受信すると、コンピューティングユニット２００は、各微生物に対する誤分類率の推定に進む。コンピューティングユニット２００は、実験的に決定されるリード長及びシーケンシングエラー率とともに微生物に対するゲノムデータを使用してリードをシミュレートすることにより、これを行う。代替的に、既知の量の一つ以上の微生物での実際のシーケンシング実験からのリードも使用され得る。リード分類アルゴリズムがシミュレートされた又は実験的に生成されたリードへ適用され、その後、関心のある各分類単位へ分類されるシミュレートされたリードのパーセンテージが計算され、誤分類率を決定する。

コンピューティングユニット２００は、シーケンシングデータソース２０４から受信される実際のリードにリード分類アルゴリズムを適用し、上述の通り分類されるリードの数及び推定誤分類率により決定される連立一次方程式へ線形最小二乗法（非負又はその他）などの最適化法を適用することにより、関心のある各分類単位内の微生物に属するリードの数の改良された推定を提供する。上述の通り、関心のある分類単位は、サンプル中に存在する、又はゲノムデータ２０８に存在することが疑われるものに限定され得る。

コンピューティングユニット２００は、まずデータソース２０４、２０８のいずれかにアクセスするか、又は両方のデータソースに同時にアクセスし得る。一部の実施形態において、コンピューティングユニット２００はオペレータにローカルであり、すなわちオペレータによりアクセスされるローカルエリアネットワーク上に位置する。他の実施形態において、コンピューティングユニット２００はワイドエリアネットワーク若しくはインターネットなどのさらに別のネットワーク接続（不図示）を介してオペレータによりアクセスされ、グラフィカル表示がかかるネットワーク接続を介してオペレータへ配信される。これらの実施形態では、コンピューティングユニット２００は、かかる遠隔アクセスデバイスに常用のセキュリティ及びウェブサーバ機能を含む。

上記の考察は、種レベルでサンプル中の微生物を分類する本発明の実施形態に焦点を当てているが、一部の分類アルゴリズムは、シーケンスリードを属、亜種、若しくは他の分類ランクに属するものとしても分類（及び誤分類）し得ることが理解される。また、微生物により引き起こされる臨床的表現型などの特徴に基づき得る、分類単位の任意のコレクションにリードを分類することも選択され得る。本発明の実施形態は、異なる分類ランク、例えば属／亜種、及びゲノムデータベース中の各分類群ｌに対する追加成分ｂ_ｌであり得る、ゲノムデータベース中の各分類群ｌに分類される微生物ｉからのリードの割合をあらわす追加成分ａ（ｌ，ｉ）を誤分類率行列Ａに加えることにより、これらの種類の分類アルゴリズムに対処する。これらの成分に加えて、異なる分類ランクに分類されることができないリードの数をあらわす成分も追加してもよく、これは例えば一部のリードは属レベルで分類することができるが、種レベルで分類することができないので、有用な知識となり得ることに留意されたい。観察される分類済及び未分類リードの数に最もよくマッチする適切なベクトルｘを見つけるために、上述の最小二乗法又は他の方法がこれらの実施形態においても使用され得る。

別の実施形態において、微生物の誤分類エラー及び分類は分類単位に基づくだけでなく、微生物の任意のグルーピングに基づくことができる。これらのグルーピングはヒトの健康への影響などの基準に基づき得る。同じ種内であっても、サブグループは、病原性能力、固有炭素源を使用する能力、若しくは抗菌剤に対する耐性の違いをもたらし得る、分子レベルでの固有特性を伴う株を形成し得る。これらの株は、ヒトの健康への影響、すなわち共生微生物対病原性微生物、に基づいてグルーピングされ得る。付加的な実施形態では、微生物を厳密な病原菌（例えば結核菌及び淋菌）と日和見病原菌（例えば黄色ブドウ球菌、大腸菌）へ分類し得る。

本発明の実施形態は、メタゲノムサンプル内に存在する種の同定、サンプル内の種の存在の定量化、サンプル分析、及び感染症の同定を含む、いくつかの有用な商業的用途を持つ。

本開示の実施形態は、例えば、本開示の実施形態にかかる方法、システム、及びコンピュータプログラム製品のブロック図及び／又は動作図を参照して上述されている。ブロックに記載される機能／動作は、任意のフローチャートに図示される順序から外れて起こり得る。例えば、連続して示される二つのブロックは、実際には実質的に同時に実行されてもよく、又はブロックは時に、関連する機能／動作に応じて逆の順序で実行されてもよい。加えて、任意のフローチャートに示されるブロックの全てが実施及び／又は実行される必要はない。例えば、所与のフローチャートが機能／動作を含む五つのブロックを持つ場合、五つのブロックのうちの三つだけが実施及び／又は実行される場合があり得る。この例では、五つのブロックのうちの三つのうちのいずれが実施及び／又は実行されてもよい。

本願で提供される一つ以上の実施形態の記載及び図示は、いかなる方法でも請求される本開示の範囲を限定又は制限することを意図するものではない。本願で提供される実施形態、実施例、及び詳細は、所有権を伝え、他者が請求される実施形態の最良の形態を作り使用することを可能にするために十分であると考えられる。請求される実施形態は、本願で提供されるいかなる実施形態、実施例、若しくは詳細にも限定されると解釈されるべきではない。組み合わせて、又は別々に図示及び記載されるかどうかにかかわらず、（構造的及び方法論的な）様々な特徴は、特徴の特定セットを伴う実施形態を生成するために選択的に含まれるか又は省略されることを意図する。本願の記載及び図示を提供されているが、当業者は、請求される実施形態のより広い範囲から逸脱しない、本願で具体化される一般的な発明概念のより広範な態様の精神の範囲内にある変形、修正及び代替実施形態を想定し得る。

Claims

サンプル中に存在する分類単位内の微生物の量を推定するためのコンピュータ実装方法であって、
（ａ）分類単位内の微生物に対する誤分類率を、前記微生物の既知のゲノム及びシーケンシングシミュレータを用いてシミュレートされたリードに基づき推定する；
（ｂ）分類単位のリストへ分類されるサンプル中のリードの数の測定結果を受信する；
（ｃ）推定される前記誤分類率を用いて受信される前記測定結果に基づいて、サンプル中の各分類単位に属するリードの数を推定する；
（ｄ）推定される前記各分類単位に属するリードの数を用いて、サンプル中に存在する分類単位から微生物の数を推定する
ように構成されるコンピュータプロセッサを提供するステップを有し、
誤分類率を推定するように構成される前記コンピュータプロセッサが、
（ａ‐１）実験的に決定されるリード長及びシーケンシングエラー率とともに分類単位内の微生物のゲノムを用いてリードをシミュレートする、或いは微生物の既知の組成を伴うサンプルからシーケンスリードを受信する；
（ａ‐２）シミュレートされたリード又は受信されたシーケンスリードに対してリード分類アルゴリズムを実行する；
（ａ‐３）関心のある分類単位のリストへ分類されるシミュレートされたリードのパーセンテージを決定する
ように構成される、方法。
前記コンピュータプロセッサがさらに、前記推定された微生物の数をゲノム長を用いて正規化し、若しくは分類単位中の微生物のゲノムのＧＣ含量に基づき前記推定された微生物の数に倍率を乗し、又はその両方を用いて、分類単位内の微生物の数を推定するように構成される、請求項１に記載のコンピュータ実装方法。
受信される前記測定結果を調節するように構成されるコンピュータプロセッサが、分類単位のリストへ分類されるサンプルからのリードの数及び推定される前記誤分類率により決定される連立一次方程式を解くために線形最小二乗法を適用することにより、受信される前記測定結果を調節するように構成される、請求項１に記載のコンピュータ実装方法。
前記サンプルが微生物の複数の種を有し、前記誤分類率が前記サンプル中の種の各々に対して計算される、請求項１に記載のコンピュータ実装方法。
前記誤分類率が微生物の複数の種に対するデータを有するデータベース中の種の各々に対して計算される、請求項１に記載のコンピュータ実装方法。
受信される前記測定結果が前記データベース中の種の各々について受信され、受信される前記測定結果が前記データベース中の種の各々について調節される、請求項５に記載のコンピュータ実装方法。
前記サンプルからシーケンシングデータを受信するステップをさらに有する、請求項１に記載のコンピュータ実装方法。
前記誤分類率が関心のある一つ以上の分類ランクから選択される分類単位について推定される、請求項１に記載のコンピュータ実装方法。
サンプル中に存在する分類単位内の微生物の量を推定するためのコンピュータ実行可能命令を含むコンピュータ可読媒体であって、
（ａ）分類単位内の微生物に対する誤分類率を、前記微生物の既知のゲノム及びシーケンシングシミュレータを用いてシミュレートされたリードに基づき推定するためのコンピュータ実行可能命令と、
（ｂ）分類単位のリストへ分類されるサンプル中のリードの数の測定結果を受信するためのコンピュータ実行可能命令と、
（ｃ）推定される前記誤分類率を用いて受信される前記測定結果に基づいて、サンプル中の各分類単位に属するリードの数を推定するためのコンピュータ実行可能命令と、（ｄ）推定される前記各分類単位に属するリードの数を用いて、サンプル中に存在する分類単位から微生物の数を推定するためのコンピュータ実行可能命令と
を有し、
誤分類率を推定するためのコンピュータ実行可能命令が、
（ａ‐１）実験的に決定されるリード長及びシーケンシングエラー率とともに分類単位内の微生物のゲノムを用いてリードをシミュレートする、又は微生物の既知の組成を伴うサンプルからシーケンスリードを受信するためのコンピュータ実行可能命令と、
（ａ‐２）シミュレートされたリード又は受信されたシーケンスリードに対しリード分類アルゴリズムを実行するためのコンピュータ実行可能命令と、
（ａ‐３）関心のある分類単位のリストへ分類されるシミュレートされたリードのパーセンテージを決定するためのコンピュータ実行可能命令と
を有する、コンピュータ可読媒体。
前記推定された微生物の数をゲノム長を用いて正規化し、若しくは分類単位中の微生物のゲノムのＧＣ含量に基づき前記推定された微生物の数に倍率を乗し、又はその両方を用いて、分類単位内の微生物の数を推定するためのコンピュータ実行可能命令をさらに有する、請求項９に記載のコンピュータ可読媒体。
受信される前記測定結果を調節するためのコンピュータ実行可能命令が、分類単位のリストへ分類されるサンプルからのリードの数及び推定される前記誤分類率により決定される連立一次方程式を解くために線形最小二乗法を適用することにより、受信される前記測定結果を調節するためのコンピュータ実行可能命令を有する、請求項９に記載のコンピュータ可読媒体。
前記サンプルが微生物の複数の種を有し、前記コンピュータ実行可能命令が前記サンプル中の種の各々に対して前記誤分類率を計算する、請求項９に記載のコンピュータ可読媒体。
前記コンピュータ実行可能命令が、微生物の複数の種に対するデータを有するデータベース中の種の各々に対して前記誤分類率を計算する、請求項９に記載のコンピュータ可読媒体。
前記コンピュータ実行可能命令が前記データベース中の種の各々についてリードの数の測定結果を受信し、前記コンピュータ実行可能命令が前記データベース中の種の各々について受信される前記測定結果を調節する、請求項１３に記載のコンピュータ可読媒体。
前記サンプルに対するシーケンシングデータを受信するためのコンピュータ実行可能命令をさらに有する、請求項９に記載のコンピュータ可読媒体。
前記誤分類率が関心のある一つ以上の分類ランクから選択される分類単位について推定される、請求項９に記載のコンピュータ可読媒体。