JP2023551795A

JP2023551795A - 非ヒトメタゲノム経路解析によるがん診断および分類

Info

Publication number: JP2023551795A
Application number: JP2023528760A
Authority: JP
Inventors: ワンドロ，ステファン; アダムス，エディー; ミラー－モンゴメリー，サンドリーヌ
Original assignee: マイクロノーマ，インク．
Priority date: 2020-11-16
Filing date: 2021-11-16
Publication date: 2023-12-13
Also published as: WO2022104278A1; IL302908A; US20230420134A1; CN116917495A; KR20230132768A; CA3199032A1; EP4244374A1; MX2023005749A

Abstract

非ヒトメタゲノム経路解析による、がんの診断および分類のための方法が提供される。【選択図】図１Ａ

Description

相互参照
本出願は、全体的に参照により本明細書に組み込まれる、２０２０年１１月１６日に出願された米国仮特許出願第６３／１１４，４４７号の利益を主張する。

多様ながん型に関する近年の研究は、腫瘍が、内在性マイクロバイオームを保有することを示し、これは、改善された予後、診断、治療選択のために、また、腫瘍内生物学についての我々の理解を増強するために利用することができる。現在までに、報告は、乳房、前立腺、結腸、脳、骨、皮膚および膵臓のがんにおける腫瘍特有のマイクロバイオームの証拠を提供した。単に微生物がどのように腫瘍でコロニー形成するようになるかについても、活発な議論が行われている分野であるが、病因学とは無関係に、がん特異的微生物関連性が、微生物核酸の配列決定に基づく検出により、診断目的で活用され得ることが実証された。実際に、Ｐｏｏｒｅらは、患者血漿試料における微生物ＤＮＡ（ｍｂＤＮＡ）断片の検出が、様々ながんおよび非がん試料の間を正確に識別することができることを示した（ＰＭＩＤ：３２２１４２４４およびＰＣＴＷＯ２０２０／０９３０４０）。

Ｐｏｏｒｅらにおいて、総血漿無細胞ＤＮＡ（これは必然的に、ヒトｃｆＤＮＡおよび微生物ｃｆＤＮＡの混合物を含有する）に由来するメタゲノムショットガン配列決定データは、配列決定リードがヒト参照ゲノムにマッピングされたか否かに従って、コンピュータにより分別された。次に、マッピングされなかった（すなわち、非ヒト）リードは全て、高速ｋ－ｍｅｒマッピングアプローチ（Ｋｒａｋｅｎ、ＰＭＩＤ：２４５８０８０７）を使用して属レベルまで分類された。Ｋｒａｋｅｎ解析の出力は、試料における配列決定リードに関する分類学的分類、および各分類学的割当てに関連するリード計数のリストである。Ｐｏｏｒｅら（ａｌ．）において、ＨＩＶ陰性、健康なドナーおよびがんコホート（肺、前立腺および黒色腫）に由来する、このような対になったデータ（属およびリード計数）は、各がん型に特有の特徴物を同定するための機械学習分類アルゴリズムのための入力として使用された。分類学に基づく分類を使用することの不利益の１つは、分類学割当ては、がん分類に有用ではあるが、いかなるがん特異的生化学的能力（あるとすれば）が、腫瘍関連マイクロバイオータによって提供され得るかについて直接的に通知しないことである。生化学的能力の存在／存在量に関係する情報も提供しながら、がんの分類および診断の両方が可能な方法を有することは、どのように腫瘍内マイクロバイオータが、それぞれ腫瘍に要求または産生される代謝物の提供または消費のいずれかによって腫瘍特異的生物学に寄与するかについての解明に役立つことができる。

本分野に関連性がある他の先行技術を次に示す：米国特許出願公開第２０１８／０２２３３３８号は、頭頸部がんの同定および診断における固形組織マイクロバイオームまたは唾液（ｓａｌｖｉａ）マイクロバイオームの使用について記載し；米国特許出願公開第２０１８／０２５８４９５Ａｌ号は、結腸がん、結腸がんに関連するいくつかの種類の突然変異を検出するための固形組織マイクロバイオームまたは糞便マイクロバイオームの使用、ならびに対応する微生物を収集および増幅にするためのキットについて記載する。ＰＣＴＷＯ２０１９／１９１６４９は、進行型腺腫および／または結腸直腸がんを有する対象を健康な対象から区別するための無細胞微生物ＤＮＡおよび機械学習モデルの使用について記載し、この機械学習アルゴリズムは、解析のための入力として、参照ゲノムにマッピングするＤＮＡ配列リードに頼る。

本明細書に提供される本開示は、組織または液体生検試料から得た非ヒト起源の核酸のみを使用して、がんおよび他の疾患の存在またはその欠如、そのサブタイプ、ならびにそれがある特定の治療法に応答する見込みを的確に診断または決定することができるシステムおよび方法について記載する。具体的には、本発明は、生検試料（例えば、液体または組織生検）に存在する、微生物の機能的遺伝子（およびその断片）および生化学的経路の存在および存在量を同定することができる方法を提供する。一部の事例では、微生物の機能的遺伝子および生化学的経路を利用して、本明細書の他の箇所に記載されている１種または複数のモデルおよび／または予測モデルを訓練することができる。そのような訓練されたモデルは、対象のがんの存在もしくはその欠如の決定、または対象が処置を受けた場合の治療応答および／もしくは有効性の見込みを出力することができる。

本明細書に開示されている本発明の方法は、腫瘍特異的生物学に対する腫瘍内マイクロバイオータ寄与を解明するために生化学的能力の存在および／または存在量に関係する情報も提供しながら、がんを診断および分類することができる診断モデルを生成する方法を提供する。一部の事例では、腫瘍特異的生物学は、腫瘍内マイクロバイオータが、腫瘍に要求または産生される代謝物の消費にどのように寄与するかに関係することができる。例えば、経路に基づく解析は、微生物が触媒する治療小分子変換に光を当てることに役立つことができ、その酵素活性は、前記分子のｉｎｖｉｖｏ有効性を変更することができる。微生物活性が直接的に関係付けられた治療事例（化学療法薬ゲムシタビンにおけるシチジン部分の細菌媒介性脱アミノ化）を使用して具体例を挙げると、シチジンデアミナーゼ（ｃｄｄ）の長いアイソフォームを発現する細菌が、活性形態のゲムシタビンを、治療効果の低い２’２－ジフルオロデオキシウリジン（ＰＭＩＤ：２８９１２２４４）に変換することができることが示された。この生化学的検査事例により、本明細書に開示されている本発明は、ｃｄｄのがん関連アイソフォームの存在／非存在または存在量を同時に検出しながら、Ｐｏｏｒｅらによって詳述される通り、対象の循環微生物ＤＮＡによって、対象におけるがん診断の未だ満たされていない必要に取り組むことを目的とする。この例を考慮して、一部の実施形態では、本明細書に開示されている方法は、対象におけるがんの診断のみに限定されず、対象が、ｃｄｄの長いアイソフォームを有することが見出された場合、ゲムシタビン処置に応答しない可能性があることの予測も目的とする場合がある。

本明細書に提供される本開示の態様は、一部の実施形態では、対象のがんの存在またはその欠如を決定する方法を含む。一部の実施形態では、方法は、（ａ）対象の生体試料の１種または複数の配列決定リードを用意するステップと、（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、（ｅ）訓練されたモデルに、タンパク質データベース関連性のセットの入力が提供される場合、対象のがんの存在またはその欠如を、訓練されたモデルに対する出力として決定するステップとを含む。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、ｉｎｓｉｌｉｃｏで完了される。一部の実施形態では、生体試料は、組織、液体生検、またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料は、核酸組成物を含み、核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、訓練されたモデルは、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんの１種または複数の型を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんの１種または複数のサブタイプを決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている。一部の実施形態では、訓練されたモデルは、低ステージ（ステージＩまたはステージＩＩ）腫瘍におけるがんの存在またはその欠如を決定するように構成されている。一部の実施形態では、訓練されたモデルは、第２のセットの１名または複数の対象に免疫療法が提供された場合、第２のセットの１名または複数の対象の免疫療法応答を決定するように構成されている。一部の実施形態では、方法は、訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を投与された場合に、肯定的な治療有効性で応答するであろう。一部の実施形態では、対象のがんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、ＵｎｉＲｅｆデータベースである。一部の実施形態では、翻訳するステップは、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される。

本開示の態様は、一部の実施形態では、対象のがんの存在またはその欠如の決定を提供する方法であって、（ａ）対象の生体試料の核酸組成物を配列決定し、これにより、配列決定リードを生成するステップと、（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、（ｅ）訓練されたモデルに、セットタンパク質データベース関連性の入力が提供される場合、対象のがんの存在またはその欠如の決定を、訓練されたモデルの出力として提供するステップとを含む方法について記載する。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、ｉｎｓｉｌｉｃｏで完了される。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料は、核酸組成物を含み、核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、訓練されたモデルは、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんの１種または複数の型を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんの１種または複数のサブタイプを決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている。一部の実施形態では、訓練されたモデルは、低ステージ（ステージＩまたはステージＩＩ）腫瘍におけるがんの存在またはその欠如を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている。一部の実施形態では、方法は、訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を投与された場合に、肯定的な治療有効性で応答するであろう。一部の実施形態では、対象のがんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、ＵｎｉＲｅｆデータベースである。一部の実施形態では、翻訳するステップは、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される。

本明細書に提供される本開示の態様は、一部の実施形態では、対象のがんの存在またはその欠如を決定するように構成されたモデルを訓練する方法であって、（ａ）第１のセットの１名または複数の対象の核酸組成物の核酸配列決定リード、および第１のセットの１名または複数の対象の対応する１種または複数のがんを含むデータセットを用意するステップと、（ｂ）ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、（ｅ）タンパク質データベース関連性のセット、および第１のセットの１名または複数の対象の対応する１種または複数のがん状態を用いてモデルを訓練し、これにより、第２のセットの１名または複数の対象のがんの存在またはその欠如を決定するように構成された訓練されたモデルを生成するステップとを含む方法について記載する。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、ｉｎｓｉｌｉｃｏで完了される。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料は、核酸組成物を含み、核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、訓練されたモデルは、第２のセットの１名または複数の対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている。一部の実施形態では、訓練されたモデルは、第２のセットの１名または複数の対象のがんの１種または複数の型を決定するように構成されている。一部の実施形態では、訓練されたモデルは、第２のセットの１名または複数の対象のがんの１種または複数のサブタイプを決定するように構成されている。一部の実施形態では、訓練されたモデルは、第２のセットの１名もしくは複数の対象のがんのステージ、がん予後またはこれらのいずれかの組合せを決定するように構成されている。一部の実施形態では、訓練されたモデルは、低ステージ（ステージＩまたはステージＩＩ）腫瘍における第２のセットの１名または複数の対象のがんの存在またはその欠如を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている。一部の実施形態では、方法は、訓練されたモデルを用いて、第２のセットの１名または複数の対象のがんを処置するための治療法を出力するステップをさらに含み、第２のセットの１名または複数の対象は、この治療法を投与された場合に、肯定的な治療有効性で応答するであろう。一部の実施形態では、第１および第２のセットの１名または複数の対象のがんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、ＵｎｉＲｅｆデータベースである。一部の実施形態では、翻訳するステップは、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される。一部の実施形態では、データセットは、第１のセットの１名または複数の対象に施された対応する以前のまたは現在の処置をさらに含む。一部の実施形態では、データセットは、第１のセットの１名または複数の対象の以前のまたは現在の処置投与の処置有効性をさらに含む。

本明細書に提供される本開示の態様は、一部の実施形態では、１名または複数の対象に関する治療的処置予測を提供するための訓練された予測モデルを利用するための、コンピュータ実装方法であって、（ａ）第１のセットの１名または複数の対象の生体試料の核酸配列決定リード、および対応するがん分類を受け取るステップと、（ｂ）ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、（ｅ）タンパク質データベース関連性のセットが、入力として、訓練された予測モデルに提供される場合、訓練された予測モデルを利用して、第１のセットの１名または複数の対象に関する処置予測を提供するステップとを含む方法について記載する。一部の実施形態では、訓練された予測モデルは、第２のセットの１名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される。一部の実施形態では、第２のセットの１名または複数の対象は、第１のセットの１名または複数の対象とは異なる。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、ｉｎｓｉｌｉｃｏで完了される。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、第１および／または第２のセットの１名または複数の対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、第１のセットの１名または複数の対象に免疫療法が投与される場合、処置予測は、第１のセットの１名または複数の対象の免疫療法応答を含む。一部の実施形態では、処置予測は、第１のセットの１名または複数の対象が、肯定的な有効性で応答するであろうという治療有効性を含む。一部の実施形態では、がん分類は、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、ＵｎｉＲｅｆデータベースである。一部の実施形態では、翻訳するステップは、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される。

本明細書に提供される本開示の態様は、一部の実施形態では、訓練された予測モデルを用いて対象のがん処置を変更する方法を含む。一部の実施形態では、方法は、（ａ）がん、がん型およびがんを処置するために施された処置と共に、対象の生体試料の１種または複数の配列決定リードを用意するステップと、（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、（ｅ）施された処置が、タンパク質データベース関連性のセットを用いて入力されたときに、訓練された予測モデルによって出力される処置推奨と異なる場合、対象のがん処置を変更するステップとを含む。一部の実施形態では、訓練された予測モデルは、第２のセットの１名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される。一部の実施形態では、第２のセットの１名または複数の対象は、第１のセットの１名または複数の対象とは異なる。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、ｉｎｓｉｌｉｃｏで完了される。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、対象が免疫療法を投与される場合、処置推奨は、対象の免疫療法応答を含む。一部の実施形態では、処置推奨は、対象が肯定的な有効性で応答するであろう治療法を含む。一部の実施形態では、対象のがんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、ＵｎｉＲｅｆデータベースである。一部の実施形態では、翻訳するステップは、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される。

本明細書に開示されている態様は、生体試料における分類学非依存的非ヒト機能的遺伝子存在量に基づき、対象におけるがんを診断するための診断モデルを創出する方法であって、（ａ）生体試料における核酸組成物を配列決定して、配列決定リードを生成するステップと、（ｂ）ゲノムデータベースのビルドを用いて配列決定リードをフィルタリングして、非ヒト配列決定リードを単離するステップと、（ｃ）非ヒト配列決定リードの組成物をｉｎｓｉｌｉｃｏで翻訳して、非ヒト配列決定リードにおいて表される非ヒトタンパク質を同定するステップと、（ｃ）非ヒトタンパク質を非ヒト機能的遺伝子および生化学的経路の非ヒトタンパク質データベースにマッピングするステップと、（ｄ）非ヒトタンパク質を非ヒト機能的遺伝子および生化学的経路の非ヒトタンパク質データベースにマッピングするステップと、（ｅ）非ヒト機能的遺伝子および生化学的経路を用いて機能的遺伝子および生化学的経路存在量の表を生成するステップと、（ｆ）訓練された機械学習アルゴリズムを用いて生化学的経路存在量の表を解析するステップと、（ｇ）訓練された機械学習アルゴリズムの出力を使用して、対象のがんの存在または非存在の診断を提供するステップとを含む方法を提供する。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ（ｃｆＤＮＡ）、無細胞ＲＮＡ（ｃｆＲＮＡ）、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せの総集団を含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練された機械学習アルゴリズムの出力は、機能的遺伝子および生化学的経路存在量の表の解析を含む。一部の実施形態では、訓練された機械学習アルゴリズムは、目的のがんにおいて特徴的存在量で存在するかまたは存在しないことが知られた機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、診断モデルは、次の生物ドメイン：細菌、古細菌および／または真菌のうち１種または複数由来の生化学的経路存在量情報を利用する。一部の実施形態では、診断モデルは、がんのカテゴリーまたは組織特異的位置を診断する。一部の実施形態では、診断モデルは、対象におけるがんの１種または複数の型の診断に使用される。一部の実施形態では、診断モデルは、対象におけるがんの１種または複数の（ｏｎｅｍｏｒｅ）サブタイプの診断に使用される。一部の実施形態では、診断モデルは、対象におけるがんのステージの予測および／または対象におけるがん予後の予測に使用される。一部の実施形態では、診断モデルは、低ステージ（ステージＩまたはステージＩＩ）腫瘍におけるがんの型の診断に使用される。一部の実施形態では、診断モデルは、対象の免疫療法応答の予測に使用される。一部の実施形態では、診断モデルは、特定の対象にとって最適な治療法の選択に利用される。一部の実施形態では、診断モデルは、１種または複数のがんの治療法に対する応答の経過の長期的なモデル化と、それに続く処置レジメンの調整に利用される。一部の実施形態では、診断モデルは、次のうち１種または複数：急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌またはぶどう膜黒色腫を診断する。一部の実施形態では、診断モデルは、シグナルと称する他の非ヒト特徴物を選択的に保持しつつ、ノイズと称する夾雑物としてある特定の非ヒト特徴物を同定し除去する。一部の実施形態では、液体生検試料は、次のうち１種または複数：血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙または呼気凝縮液を含むがこれらに限定されない。一部の実施形態では、フィルタリングするステップは、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎプログラムまたはこれらのいずれかの組合せによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、ＵｎｉＲｅｆデータベースである。一部の実施形態では、非ヒトタンパク質データベースを問い合わせて、非ヒト配列決定リードにおいて表されるタンパク質を同定するステップは、ソフトウェアパッケージＤＩＡＭＯＮＤを用いて行われる。一部の実施形態では、生化学的経路のデータベースは、ＫＥＧＧまたはＭｅｔａＣｙｃデータベースである。一部の実施形態では、生化学的経路存在量の表を生成するステップは、ソフトウェアパッケージＭｉｎｉＰａｔｈを用いて行われる。

本明細書に開示されている態様は、生体試料における分類学非依存的非ヒト機能的遺伝子存在量に基づき、対象におけるがんを診断するための診断モデルを創出する方法であって、（ａ）生体試料における核酸組成物を配列決定して、配列決定リードを生成するステップと、（ｂ）ゲノムデータベースのビルドを用いて配列決定リードをフィルタリングして、非ヒト配列決定リードを単離するステップと、（ｃ）非ヒト配列決定リードを配列決定されたゲノムのデータベースにマッピングするステップと、（ｄ）非ヒト配列決定リードおよび配列決定されたゲノムのデータベースの間の複数のマッピングされたゲノム座標を生成するステップと、（ｅ）複数のマッピングされたゲノム座標を使用して、既知の非ヒトタンパク質のデータベースを問い合わせて、存在量を計算するステップと、（ｆ）非ヒトタンパク質を機能的遺伝子および生化学的経路のデータベースにマッピングするステップと、（ｇ）複数の機能的遺伝子および生化学的経路存在量の表を生成するステップと、（ｈ）訓練された機械学習アルゴリズムを用いて、機能的遺伝子および生化学的経路存在量の表を解析するステップと、（ｉ）複数の機能的遺伝子および生化学的経路存在量の表の訓練された機械学習アルゴリズム解析の出力を使用して、対象のがんの存在または非存在を診断するステップとを含む方法を提供する。一部の実施形態では、診断モデルは、次の生物ドメイン：細菌、古細菌および／または真菌のうち１種または複数由来の生化学的経路存在量情報を利用する。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ（ｃｆＤＮＡ）、無細胞ＲＮＡ（ｃｆＲＮＡ）、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せの総集団を含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練された機械学習アルゴリズムの出力は、複数の機能的遺伝子および生化学的経路存在量の表の解析を含む。一部の実施形態では、訓練された機械学習アルゴリズムは、目的のがんにおいて特徴的存在量で存在するかまたは存在しないことが知られた機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、診断モデルは、がんのカテゴリーまたは組織特異的位置を診断する。一部の実施形態では、診断モデルは、対象におけるがんの１種または複数の型の診断に使用される。一部の実施形態では、診断モデルは、対象におけるがんの１種または複数のサブタイプの診断に使用される。一部の実施形態では、診断モデルは、対象におけるがんのステージの予測および／または対象におけるがん予後の予測に使用される。一部の実施形態では、診断モデルは、低ステージ（ステージＩまたはステージＩＩ）腫瘍におけるがんの型の診断に使用される。一部の実施形態では、診断モデルは、対象の免疫療法応答の予測に使用される。一部の実施形態では、診断モデルは、特定の対象にとって最適な治療法の選択に利用される。一部の実施形態では、診断モデルは、１種または複数のがんの治療法に対する応答の経過の長期的なモデル化と、それに続く処置レジメンの調整に利用される。一部の実施形態では、診断モデルは、次のうち１種または複数：急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌またはぶどう膜黒色腫を診断する。一部の実施形態では、診断モデルは、シグナルと称する他の非ヒト特徴物を選択的に保持しつつ、ノイズと称する夾雑物としてある特定の非ヒト特徴物を同定し除去する。一部の実施形態では、液体生検は、次のうち１種または複数：血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙または呼気凝縮液を含むがこれらに限定されない。一部の実施形態では、フィルタリングするステップは、ｂｏｔｗｉｅ２、Ｋａｋｅｎプログラムまたはこれらのいずれかの組合せによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、配列決定されたゲノムのデータベースは、ＷｅｂｏｆＬｉｆｅデータベースである。一部の実施形態では、タンパク質データベースは、ＵｎｉＲｅｆデータベースである。一部の実施形態では、生化学的経路のデータベースは、ＫＥＧＧまたはＭｅｔａＣｙｃデータベースである。

一部の実施形態では、本発明は、液体生検試料を使用して、がんの存在および／または型に関連付けられる微生物の機能的遺伝子の存在または存在量のパターン（「シグネチャ」）を幅広く創出するための方法を提供する。次いで、このような「シグネチャ」を配備して、ヒトにおけるがんの存在、種類および／またはサブタイプを診断することができる。

一部の実施形態では、本発明は、原発性腫瘍組織を使用して、がんの存在および／または型に関連付けられる微生物の機能的遺伝子または存在量のパターンを幅広く創出するための方法を提供する。次いで、このような「シグネチャ」を配備して、ヒト由来の液体生検試料を使用して、前記ヒトにおけるがんの存在、種類および／またはサブタイプを診断することができる。

一部の実施形態では、本発明は、哺乳動物対象における疾患を幅広く診断する方法であって、対象由来の液体生検試料における微生物の存在または存在量を検出するステップと、検出された微生物の機能的遺伝子または存在量が、正常な液体生検試料における微生物の機能的遺伝子または存在量とは異なることを決定するステップと、検出された微生物の機能的遺伝子または存在量を、疾患に関する既知の微生物の機能的遺伝子または存在量と相関させ、これにより、疾患を診断するステップとを含む方法を提供する。

一部の実施形態では、本発明は、哺乳動物対象における疾患の型を診断する方法であって、対象由来の液体生検試料における微生物の存在または存在量を検出するステップと、以前に研究された液体生検試料を用いて、検出された微生物の機能的遺伝子または存在量が、がんおよび／または健康な患者の集団における微生物の機能的遺伝子または存在量に類似しているかまたはそれとは異なることを決定するステップと、検出された微生物の機能的遺伝子または存在量を、このコホートにおける最も類似した液体生検試料と相関させ、これにより、疾患および／または疾患の種類を診断するステップとを含む方法を提供する。

一部の実施形態では、本発明は、いずれの対象が、疾患のための特定の処置に応答するかまたは応答しないか予測する方法であって、疾患ががんであり、対象がヒトであり、処置が免疫療法であり、免疫療法がＰＤ－１遮断（例えば、ニボルマブ、ペムブロリズマブ）である、方法を提供する。

実施形態では、本発明は、疾患を診断する方法であって、疾患の同定された非哺乳動物特徴物に基づき対象における疾患を処置するステップをさらに含み、疾患ががんであり、非哺乳動物特徴物が微生物のものであり、対象がヒトである、方法を提供する。

一部の実施形態では、本発明は、疾患を診断する方法であって、その非哺乳動物特徴物を長期的にモニタリングして、疾患処置に対する応答を示すステップをさらに含み、疾患ががんであり、非哺乳動物特徴物が微生物のものであり、対象がヒトである、方法を提供する。

一部の実施形態では、本発明は、指定された組織試料における微生物の機能的遺伝子または存在量を測定し、これにより、疾患の診断を可能にするためのアッセイを提供する。

一部の実施形態では、本発明は、機械学習アーキテクチャに基づく診断モデルを利用する。一部の実施形態では、本発明は、規則化された機械学習アーキテクチャに基づく診断モデルを利用する。

一部の実施形態では、本発明は、機械学習アーキテクチャのアンサンブルに基づく診断モデルを利用する。一部の実施形態では、本発明は、シグナルと称する非夾雑物として他の非哺乳動物特徴物を選択的に保持しつつ、ノイズと称する夾雑物としてある特定の非哺乳動物特徴物を同定し、選択的に除去し、非哺乳動物特徴物は、微生物のものである。

一部の実施形態では、本発明は、疾患を診断する方法であって、微生物の機能的遺伝子または存在量の情報が、宿主（対象）および／または宿主の（対象の）がんに関する追加の情報と組み合わされて、微生物の機能的遺伝子または存在量の情報単独のみを有するものよりも優れた予測性能を有する診断モデルを創出する、方法を提供する。

一部の実施形態では、診断モデルは、次の供給源：無細胞腫瘍ＤＮＡ、無細胞腫瘍ＲＮＡ、エキソソーム由来の腫瘍ＤＮＡ、エキソソーム由来の腫瘍ＲＮＡ、循環腫瘍細胞由来のＤＮＡ、循環腫瘍細胞由来のＲＮＡ、無細胞腫瘍ＤＮＡのメチル化パターン、無細胞腫瘍ＲＮＡのメチル化パターン、循環腫瘍細胞由来のＤＮＡのメチル化パターンおよび／または循環腫瘍細胞由来のＲＮＡのメチル化パターンのうち１種または複数由来の微生物の機能的遺伝子または存在量の情報と組み合わせた情報を利用する。

一部の実施形態では、微生物の機能的遺伝子または存在量は、次の方法：メタゲノムショットガン配列決定、標的化微生物配列決定、宿主全ゲノム配列決定、宿主トランスクリプトーム配列決定、がん全ゲノム配列決定およびがんトランスクリプトーム配列決定のうち１種または複数の核酸検出によって検出される。

一部の実施形態では、微生物核酸は、宿主由来の核酸と同時に検出され、その後に区別される。

一部の実施形態では、組み合わされた核酸プールの測定（例えば、配列決定）に先立ち、宿主核酸は、選択的に枯渇され、微生物核酸は、選択的に保持される。

一部の実施形態では、本発明は、組織が、血液、血液の構成物（例えば、血漿）または組織生検であり、組織生検が、悪性または非悪性となり得ることを提供する。

一部の実施形態では、がんの微生物の機能的遺伝子または存在量は、宿主の他の位置における微生物の機能的遺伝子または存在量を測定することにより決定される。

本発明の新規な特徴は、添付の特許請求の範囲に詳細に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を記載する以下の詳細な説明、およびその添付の図面を参照することによって得られる。

図１Ａは、メタゲノム機能に基づく健康および疾患関連微生物シグネチャの発見を可能にするために、メタゲノム機能プロファイリングモジュールを組み込んだ例示的な診断モデル訓練スキームを示す図である。図１Ａは、診断モデルの例示的な訓練構造を示す。図１Ｂは、メタゲノム機能に基づく健康および疾患関連微生物シグネチャの発見を可能にするために、メタゲノム機能プロファイリングモジュールを組み込んだ例示的な診断モデル訓練スキームを示す図である。図１Ｂは、本明細書の一部の実施形態に記載されるように、図１Ａの訓練されたモデルが未知の疾患状態の新たな対象データを提供する、疾患の診断および病態の分類を提供するための図１Ａの訓練されたモデルの使用を示す。図２Ａは、２つのメタゲノム機能計算パイプラインのための例示的なワークフローを示す図である。図２Ａは、ＨＵＭＡｎＮ２．０パイプラインを使用して、図１Ａの機械学習モデルに入力することができる遺伝子および経路の存在量表を生成する例示的なメタゲノムワークフローを示す。図２Ｂは、本明細書の一部の実施形態に記載されるように、図１Ａの機械学習モデルに入力することができる遺伝子および経路存在量表を生成するためにＷｏｌＴｋａパイプラインを使用する例示的なメタゲノムワークフローを示す。予測モデルの作製に使用される、健康、がん、および肺疾患のための研究集団の内訳を示す図である。図４Ａは、本明細書の一部の実施形態に記載されるように、ＨＵＭＡｎＮ２．０（ヒト）およびＷｅｂｏｆＬｉｆｅＴｏｏｌｋｉｔＡｐｐ（Ｗｏｌｔｋａ）による、ヒト以外の無細胞ＤＮＡ配列の経路分類を示す図である。図４Ｂは、本明細書の一部の実施形態に記載されるように、ＨＵＭＡｎＮ２．０（ヒト）およびＷｅｂｏｆＬｉｆｅＴｏｏｌｋｉｔＡｐｐ（Ｗｏｌｔｋａ）による、ヒト以外の無細胞ＤＮＡ配列の経路分類を示す図である。図５Ａは、本明細書の一部の実施形態に記載されるように、がん対健康、およびがん対肺疾患の配列決定されたｃｆ－ｍｂＤＮＡ試料のＷｏｌｔｋａ分析によって同定された経路の詳細な平均経路重要性を示す図である。図５Ｂは、本明細書の一部の実施形態に記載されるように、がん対健康、およびがん対肺疾患の配列決定されたｃｆ－ｍｂＤＮＡ試料のＷｏｌｔｋａ分析によって同定された経路の詳細な平均経路重要性を示す図である。図６Ａは、本明細書の一部の実施形態に記載されるように、様々な訓練された予測モデルの精度を示す受信者動作特性曲線および曲線下面積分析を示す図である。図６Ｂは、本明細書の一部の実施形態に記載されるように、様々な訓練された予測モデルの精度を示す受信者動作特性曲線および曲線下面積分析を示す図である。図６Ｃは、本明細書の一部の実施形態に記載されるように、様々な訓練された予測モデルの精度を示す受信者動作特性曲線および曲線下面積分析を示す図である。図６Ｄは、本明細書の一部の実施形態に記載されるように、様々な訓練された予測モデルの精度を示す受信者動作特性曲線および曲線下面積分析を示す図である。がんおよび肺疾患対象の研究集団の内訳を示す図であり、それによって、本明細書の一部の実施形態に記載されるように、このような対象の無細胞ＤＮＡ核酸遺伝経路データは、予測モデルを訓練するために使用される。図８Ａは、対象の公知のがん病期および対応する無細胞ｍｂＤＮＡ核酸遺伝経路データに関して訓練された各予測モデル、ならびに肺疾患の無細胞ｍｂＤＮＡ核酸遺伝経路データを有する対象に関する受信者動作特性曲線および計算された曲線下面積を示す図である。図８Ｂは、対象の公知のがん病期および対応する無細胞ｍｂＤＮＡ核酸遺伝経路データに関して訓練された各予測モデル、ならびに肺疾患の無細胞ｍｂＤＮＡ核酸遺伝経路データを有する対象に関する受信者動作特性曲線および計算された曲線下面積を示す図である。図８Ｃは、対象の公知のがん病期および対応する無細胞ｍｂＤＮＡ核酸遺伝経路データに関して訓練された各予測モデル、ならびに肺疾患の無細胞ｍｂＤＮＡ核酸遺伝経路データを有する対象に関する受信者動作特性曲線および計算された曲線下面積を示す図である。図８Ｄは、対象の公知のがん病期および対応する無細胞ｍｂＤＮＡ核酸遺伝経路データに関して訓練された各予測モデル、ならびに肺疾患の無細胞ｍｂＤＮＡ核酸遺伝経路データを有する対象に関する受信者動作特性曲線および計算された曲線下面積を示す図である。本明細書の一部の実施形態に記載されるように、本開示の方法を実装するように構成されたコンピュータシステムの図を示す。

本明細書に提供される開示は、１名または複数の対象の１種または複数のがん、サブタイプ、および／または治療応答のがんの可能性を正確に診断および／またはその存在の欠如を決定する方法を記載する。場合によっては、１名または複数の対象は、ヒトまたは非ヒト哺乳動物であり得る。本明細書に記載される方法は、組織または液体生検試料由来の非ヒト起源の核酸を利用することができる。これは、微生物機能単位（すなわち、限定されないが、酵素、転写因子、および受容体を含むタンパク質）の特定のパターンを同定することによって達成され得る。一部の実施形態では、疾患分類に用いることができる例示的な微生物酵素、並びに（１）個体ががんを有する、（２）個体が特定の身体部位からのがんを有する、（３）個体が特定のタイプのがんを有する、（４）その時点で診断され得るかまたは診断され得ないがんは、特定のがん治療法に高いかまたは低い可能性かまたは応答性を有する、（５）その時点で診断され得るかまたは診断され得ないがんは、対象のがんを処置するための個別化された治療法を開発するための標的とすることができる微生物学的特徴（例えば、微生物抗原）を有することが見出される、ある特定の確率、またはその任意の組み合わせの確率を割り当てるために、試料内に微生物酵素の存在および非存在（「シグネチャ」）が表１に提供される。
このような方法の他の用途は合理的に想像可能であり、当業者に容易に実装可能である。

試料の取り扱いおよびモデルの生成方法
本明細書に記載される方法は、ヒトゲノムの疾患であると伝統的に考えられてきた状態（例えば、がん）を診断するために、非ヒト起源の核酸を使用することができる。一部の実施形態では、本明細書に記載される方法は、観察された組織構造、細胞異型性、またはがんを診断するために伝統的に使用されている任意の他の主観的測定に必ずしも依存しないため、本方法は、典型的な病理報告と比較して、より良好な臨床転帰を提供することができる。場合によっては、本方法は、「正常な」核酸源のバックグラウンドにおいてしばしば極めて低い頻度で修飾される、修飾されたヒト（すなわち、がん性）核酸源よりもむしろ微生物核酸源のみに焦点を当てることによって、高程度の感度を提供することができる。一部の実施形態では、本明細書に開示される方法は、固形組織および／または液体生検試料のいずれかによってこのような結果を達成することができ、後者は、最小限の試料調製を必要とすることができ、最小限の侵襲性であり得る。一部の実施形態では、液体生検に基づくアッセイは、非悪性ヒト細胞に由来する無細胞ＤＮＡ（ｃｆＤＮＡ）に起因する感度の問題にしばしば悩まされる循環腫瘍ＤＮＡ（ｃｔＤＮＡ）アッセイによってもたらされる課題を克服することができる。いくつかの例では、液体生検に基づく微生物アッセイは、最も一般的ながんゲノム異常ががんのタイプ（例えば、ＴＰ５３突然変異、ＫＲＡＳ突然変異）間で共有されるため、ｃｔＤＮＡアッセイが典型的には達成することができないがんのタイプを区別することができる。場合によっては、本明細書に記載される方法は、シグネチャのサイズを制約することができ、その方法は、当該技術に精通した者（例えば、正規化された機械学習）によって期待され、微生物アッセイは、例えば、多重化定量ポリメラーゼ連鎖反応（ｑＰＣＲ）および多重化されたアンプリコン配列決定のための標的アッセイパネルの使用によって、臨床的に利用可能にされ得る。

一部の実施形態では、本明細書に記載される方法は、訓練されたモデルおよび／または訓練された予測モデルを利用することによって、対象のがんの存在または欠如を決定することができ、モデルおよび／または予測モデルは、リアルタイム配列決定データまたはレトロスペクティブ配列決定データ（すなわち、データベースまたはリポジトリからのデータの配列決定）上に展開することができる、非ヒト機能的遺伝子および生化学的経路存在量（すなわち、非ヒトシグネチャ）に関して訓練された機械学習モデルを含むことができる。いくつかの例では、非ヒトシグネチャは、微生物シグネチャを含み得る。場合によっては、対象のがんを決定または診断する方法は、対象の核酸組成物を配列決定する工程を含み得る。あるいは、対象のがんを決定または診断する方法は、対象の生体試料核酸組成物の配列決定リードにアクセスする工程を含み得る。

一部の実施形態では、本明細書に記載される方法は、（ａ）ルーチンのクリニック来院中に患者から血液試料を採取すること；（ｂ）その血液試料から血漿または血清を調製し、前もって訓練された機械学習モデルを介して、以前に決定された特定の微生物遺伝子の配列を、がんを診断するための有用なシグネチャとして抽出し、増幅すること；（ｃ）これらの微生物シグネチャの存在および／または存在量のデジタル読み取りを得ること；（ｄ）隣接するコンピュータまたはクラウドコンピューティングインフラストラクチャ上の存在および／または存在量のデータを標準化し、それを以前に訓練された機械学習モデルに供給すること；ならびに（ｅ）この試料が、（１）がんの存在または非存在と関連する可能性、（２）特定のタイプまたは身体的位置のがんと関連する可能性、または（３）一連のがん治療法に対して応答する可能性が高い、中程度であるまたは低いことと関連する可能性について、予測およびある程度の信頼性を読み出すこと、ならびに（ｆ）もし追加情報が後にユーザによって入力される場合、その試料の微生物情報を使って機械学習モデルを訓練し続けることによって、モデルを訓練する。

一部の実例では、本明細書に記載されている方法は、対象のがんの存在またはその欠如を決定するように構成されたモデルを訓練する方法を含むことができる。一部の事例では、方法は、（ａ）第１のセットの１名または複数の対象の核酸組成物の核酸配列決定リード、および第１のセットの１名または複数の対象の対応する１種または複数のがんを含むデータセットを用意するステップと、（ｂ）ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、（ｅ）タンパク質データベース関連性のセット、および第１のセットの１名または複数の対象の対応する１種または複数のがん状態を用いてモデルを訓練し、これにより、第２のセットの１名または複数の対象のがんの存在またはその欠如を決定するように構成された訓練されたモデルを生成するステップとを含むことができる。一部の実例では、タンパク質データベース関連性のセットは、本明細書の他の箇所に記載されている機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含むことができる。一部の実例では、方法は、ステップ（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含むことができる。一部の事例では、夾雑物非ヒト配列決定リードは、事前に（ａｐｒｉｏｒ）、または実験データ解析から決定された夾雑物非ヒト配列決定リードのデータベースから決定することができる。一部の事例では、ステップ（ｃ）の翻訳するステップは、ｉｎｓｉｌｉｃｏで完了することができる。一部の実例では、方法は、ステップ（ａ）の代わりにまたはそれに加えて、第１のセットの１名または複数の対象の核酸組成物を配列決定するステップを含むことができる。一部の事例では、方法は、訓練されたモデルを用いて、第２のセットの１名または複数の対象のがんを処置するための治療法を出力するステップをさらに含むことができ、第２のセットの１名または複数の対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる。一部の事例では、データセットは、第１のセットの１名または複数の対象に施された対応する以前のまたは現在の処置をさらに含むことができる。一部の事例では、データセットは、第１のセットの１名または複数の対象の以前のまたは現在の処置投与の処置有効性をさらに含むことができる。

一部の事例では、第１および／または第２のセットの１名または複数の対象は、ヒトであっても非ヒト哺乳動物であってもよい。一部の事例では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せを含むことができる。一部の事例では、生体試料は、核酸組成物を含むことができ、核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含むことができる。一部の事例では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に由来し得る。一部の実例では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含むことができる。

一部の実例では、第１および／または第２のセットの１名または複数の対象は、がんを含むことができる。一部の事例では、がんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含むことができる。

一部の事例では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練することができる。一部の実例では、訓練されたモデルは、第２のセットの１名または複数の対象のがんの１種または複数のサブタイプを決定するように構成することができる。一部の事例では、訓練されたモデルは、第２のセットの１名もしくは複数の対象のがんのステージ、がん予後またはこれらのいずれかの組合せを決定するように構成することができる。一部の実例では、訓練されたモデルは、低ステージ（ステージＩまたはステージＩＩ）腫瘍における第２のセットの１名または複数の対象のがんの存在またはその欠如を決定するように構成することができる。一部の事例では、訓練されたモデルは、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成することができる。一部の事例では、訓練されたモデルは、第２のセットの１名または複数の対象のがんのカテゴリーまたは組織特異的位置を決定するように構成することができる。一部の事例では、訓練されたモデルは、第２のセットの１名または複数の対象のがんの１種または複数の型を決定するように構成することができる。

一部の実例では、ゲノムデータベースは、ヒトゲノムデータベースであってもよい。一部の事例では、ステップ（ｂ）のフィルタリングするステップは、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって配列決定リードをコンピュータによりフィルタリングすることを含むことができる。一部の実例では、タンパク質データベースは、ＵｎｉＲｅｆデータベースであってもよい。一部の事例では、ステップ（ｃ）の翻訳するステップは、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成することができる。一部の事例では、ステップ（ｄ）の非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成することができる。一部の事例では、生化学的経路は、ソフトウェアパッケージＭｉｎｉＰａｔｈを用いて生成することができる。

一部の事例では、本明細書に開示されている本発明の方法は、（ａ）液体生検試料の核酸コンテンツを配列決定するステップと、（ｂ）診断モデルを生成するステップとを含むことができる。一部の実施形態では、配列決定方法は、次世代配列決定もしくはロングリード配列決定（例えば、ナノポア配列決定）またはこれらの組合せを含むことができる。一部の実施形態では、モデル１１０は、診断モデルを含むことができる。一部の事例では、診断モデルは、図１Ａに示す通り、訓練された機械学習アルゴリズム１０９を含むことができる。一部の実施形態では、診断モデルは、規則化された機械学習モデルであってもよい。一部の実施形態では、訓練された機械学習モデルアルゴリズムは、線形回帰、ロジスティック回帰、決定木、サポートベクターマシン（ＳＶＭ）、ナイーブベイズ、ｋ－最近傍（ｋＮＮ）、ｋ－平均、ランダムフォレストアルゴリズムモデルまたはこれらのいずれかの組合せを含むことができる。一部の事例では、機械学習アルゴリズムは、１種または複数の機械学習アルゴリズムを含むことができる。

一部の実施形態では、機械学習アルゴリズム１０９は、複数の既知の健康な対象１０１および複数の既知のがん対象１０２由来の核酸に由来する核酸配列決定データ１０３を用いて訓練することができる。一部の実施形態では、機械学習アルゴリズム１０９は、（ａ）ヒトゲノムにマッピングする全ての配列決定リードをコンピュータによりフィルタリングするステップ１０４と、（ｂ）夾雑物排除パイプライン１０６により、残っている非ヒト微生物配列決定リード１０５を処理して、共通微生物夾雑物に由来する配列を除去するステップと、（ｃ）残っているリードをその翻訳された（すなわち、タンパク質）コンテンツについて解析するステップ１０７とからなるメタゲノム機能バイオインフォマティクスパイプライン１０８により処理された核酸配列決定データ１０３を用いて訓練することができる。一部の実施形態では、全ての配列決定リードのコンピュータによるフィルタリングは、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎプログラムまたはそれらのいずれかの等価物を用いて達成することができる。

一部の実施形態では、機械学習アルゴリズム１０９を訓練し、訓練された診断モデル１１０をもたらすことができ、訓練された診断モデルは、健康な対象に関連付けられるおよび／またはこれを示す微生物シグネチャ１１１と、がんを有する対象に関連付けられる／これを示す微生物シグネチャ１１２を決定することができる。

一部の実施形態では、図１Ａに示す機械学習アルゴリズム１０９はその上、図２Ａに見られる、試料（単数または複数）における機能的微生物遺伝子の存在量２０７（例えば、酵素）に関係するデータを用いて訓練することができる。一部の実施形態では、機能的微生物遺伝子の存在量は、（ａ）対象の液体生検から次世代配列決定リードを生成するステップ（ＮＧＳ）２０１と、（ｂ）ｂｏｗｔｉｅ、Ｋｒａｋｅｎフィルタリング方法またはそれらのいずれかの等価物によってヒト配列決定リードをフィルタリングするステップ２０２と、（ｃ）（ｂ）の配列決定リードをフィルタリングするステップの結果として、微生物配列決定を生成するステップ２０３と、（ｄ）ＤＩＡＭＯＮＤまたはその等価物等のｕｎｉｔＰｒｏｔ参照クラスター（ＵｎｉＲｅｆ）データベースに対して翻訳された配列決定リードを検索するステップ２０４と、（ｅ）ＫｙｏｔｏＥｎｃｙｃｌｏｐｅｄｉａｏｆＧｅｎｅｓａｎｄＧｅｎｏｍｅｓ（Ｋｅｇｇ）、ＭｅｔａＣｙｃデータベースまたはそれらのいずれかの等価物により、ＵｎｉＲｅｆヒットを経路にマッピングするステップ２０５と、（ｆ）ＭｉｎｉＰａｔｈを用いて経路存在量の表を生成するステップと、（ｇ）機械学習（ＭＬ）解析のために経路存在量の表を出力するステップ２０７とを含む、図２Ａに示すバイオインフォマティクスパイプラインＨＵＭＡｎＮ２０８を使用して確かめることができる。

一部の実施形態では、機能的微生物遺伝子の存在量は、（ａ）対象の液体生検から次世代配列決定リードを生成するステップ（ＮＧＳ）２０１と、（ｂ）ｂｏｗｔｉｅ、ｋｒａｋｅｎフィルタリング方法またはそれらのいずれかの等価物によってヒト配列決定リードをフィルタリングするステップ２０２と、（ｃ）（ｂ）の配列決定リードをフィルタリングするステップの結果として、微生物配列決定を生成するステップ２０３と、（ｄ）ｂｏｗｔｉｅ２またはそのいずれかの等価物リードアライメントツールを用いて、（ｃ）の配列決定リードをＷｅｂｏｆＬｉｆｅデータベースにマッピングするステップ２０９と、（ｅ）（ｄ）由来のマッピング座標を使用して、ＵｎｉＲＥＦ遺伝子存在量を計算するステップ２１０と、（ｆ）ＫＥＧＧ、ＭｅｔａＣｙｃまたはそれらのいずれかの等価物を用いて、ＵｎｉＲｅｆヒットを経路にマッピングするステップ２１１と、（ｇ）機械学習（ＭＬ）解析のために経路存在量の表を出力するステップ２０７とを含む、図２Ｂに示すバイオインフォマティクスパイプラインＷｅｂｏｆＬｉｆｅＴｏｏｌｋｉｔＡｐｐ（ＷｏｌＴｋａ）２１２またはそのいずれかの等価物を使用して確かめられる。このようなバイオインフォマティクスパイプラインおよびデータベースの使用は、限定を意図するものではないが、微生物遺伝子存在量データに達することができるコンピュータによる手段の説明として役立つことを意図し、したがって、上述のバイオインフォマティクスのいかなる実質的等価物の使用も意図する。

本明細書に開示されている態様は、診断モデルを訓練する方法（図１Ａ）であって、（ａ）訓練データセットとして、（ｉ）１名または複数の対象の１種または複数の配列決定された微生物の機能的遺伝子の存在量を用意するステップ１０８と、（ｂ）検査セットとして、（ｉ）１名または複数の対象の１種または複数の配列決定された微生物の機能的遺伝子の存在量を用意するステップ１０８と、（ｃ）それぞれ訓練対検証試料の少なくとも約１０対９０、２０対８０、３０対７０、４０対６０、５０対５０、６０対４０、７０対３０、８０対２０または９０対１０の試料比において診断モデルを訓練するステップと、（ｄ）診断モデルの診断精度を評価するステップとを含む方法を提供する。

一部の実施形態では、訓練された診断モデルによって為される診断は、図１Ａに見られる通り、健康な（すなわち、がんがない）対象を示す機械学習シグネチャ１１１、またはがん陽性対象を示す機械学習由来のシグネチャ１１２を含むことができる。一部の実施形態では、訓練された診断モデルは、シグナルと命名された他の１種または複数の微生物または非微生物配列を選択的に保持しつつ、ノイズとして分類された１種または複数の微生物または非微生物核酸を同定し、除去することができる。

訓練されたモデルを利用した診断または予測方法
一部の実施形態では、図１Ｂに見られる通り、訓練された診断モデル１１０を使用して、未知の疾患状況の対象由来の核酸試料１１３を解析し、疾患の診断と、適用可能であれば、疾患の状態の分類１１５を提供することができる。

一部の実例では、本明細書に提供される本開示は、対象のがんの存在またはその欠如を決定する方法について記載する。一部の事例では、方法は、（ａ）対象の生体試料の１種または複数の配列決定リードを用意するステップと、（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、（ｅ）訓練されたモデルに、タンパク質データベース関連性のセットの入力が提供される場合、対象のがんの存在またはその欠如を、訓練されたモデルに対する出力として決定するステップとを含むことができる。一部の実例では、タンパク質データベース関連性のセットは、本明細書の他の箇所に記載されている、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含むことができる。一部の実例では、方法は、ステップ（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含むことができる。一部の事例では、夾雑物非ヒト配列決定リードは、事前に（ａｐｒｉｏｒ）、または実験データ解析から決定された夾雑物非ヒト配列決定リードのデータベースから決定することができる。一部の事例では、ステップ（ｃ）の翻訳するステップは、ｉｎｓｉｌｉｃｏで完了することができる。一部の実例では、方法は、ステップ（ａ）の代わりにまたはそれに加えて、対象の核酸組成物を配列決定するステップを含むことができる。一部の事例では、方法は、訓練されたモデルを用いて、対象のがんを処置するための治療法を出力するステップをさらに含むことができ、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる。

一部の事例では、対象は、ヒトであっても非ヒト哺乳動物であってもよい。一部の事例では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せを含むことができる。一部の事例では、生体試料は、核酸組成物を含むことができ、核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含むことができる。一部の事例では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つことができる。一部の実例では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含むことができる。

一部の実例では、対象は、がんを含むことができる。一部の事例では、がんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含むことができる。

一部の事例では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練することができる。一部の実例では、訓練されたモデルは、対象のがんの１種または複数のサブタイプを決定するように構成することができる。一部の事例では、訓練されたモデルは、対象のがんのステージ、がん予後、またはこれらのいずれかの組合せを決定するように構成することができる。一部の実例では、訓練されたモデルは、低ステージ（ステージＩまたはステージＩＩ）腫瘍における対象のがんの存在またはその欠如を決定するように構成することができる。一部の事例では、訓練されたモデルは、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成することができる。一部の事例では、訓練されたモデルは、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成することができる。一部の事例では、訓練されたモデルは、対象のがんの１種または複数の型を決定するように構成することができる。

一部の実例では、本明細書に提供される本開示は、訓練された予測モデルを用いて対象のがん処置を変更する方法について記載する。一部の事例では、方法は、（ａ）がん、がん型およびがんを処置するために施された処置と共に、対象の生体試料の１種または複数の配列決定リードを用意するステップと、（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、（ｅ）施された処置が、タンパク質データベース関連性のセットを用いて入力されたときに、訓練された予測モデルによって出力される処置推奨と異なる場合、対象のがん処置を変更するステップとを含むことができる。一部の事例では、訓練された予測モデルは、第２のセットの１名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される。一部の事例では、第２のセットの１名または複数の対象は、第１のセットの１名または複数の対象とは異なる。一部の実例では、タンパク質データベース関連性のセットは、本明細書の他の箇所に記載されている、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含むことができる。一部の実例では、方法は、ステップ（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含むことができる。一部の事例では、夾雑物非ヒト配列決定リードは、事前に、または実験データ解析から決定された夾雑物非ヒト配列決定リードのデータベースから決定することができる。一部の事例では、ステップ（ｃ）の翻訳するステップは、ｉｎｓｉｌｉｃｏで完了することができる。一部の実例では、方法は、ステップ（ａ）の代わりにまたはそれに加えて、対象の核酸組成物を配列決定するステップを含むことができる。一部の事例では、方法は、訓練されたモデルを用いて、対象のがんを処置するための治療法を出力するステップをさらに含むことができ、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる。

一部の事例では、処置推奨は、対象が肯定的な有効性で応答するであろう治療法を含む。一部の事例では、対象が免疫療法を施される場合、処置推奨は、対象の免疫療法応答を含む。

コンピュータシステム
図９は、本明細書に記載されるモデルおよび／または予測モデルを実装および／または訓練するのに適したコンピュータシステム９０１を示す。コンピュータシステム９０１は、例えば、生体試料の対象の配列のような、本開示の情報の種々の態様を処理することができる。コンピュータシステム９０１は、電子デバイスであり得る。電子デバイスは、移動電子デバイスであり得る。

コンピュータシステム９０１は、単一コアもしくはマルチコアプロセッサー、または並列処理のための複数のプロセッサーであり得る中央処理ユニット（ＣＰＵ、また本明細書では「プロセッサー」および「コンピュータ・プロセッサー」）９０５を構成し得る。コンピュータシステム９０１は、メモリまたはメモリ位置９０４（例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ）、電子記憶ユニット９０６（例えば、ハードディスク）、１つまたは複数の他のデバイスと通信するための通信インターフェース９０８（例えば、ネットワークアダプタ）、およびキャッシュ、他のメモリ、データ記憶および／または電子ディスプレイアダプタなどの周辺デバイス９０７と通信するためにメモリまたはメモリ位置９０４をさらに構成し得る。メモリ９０４、記憶ユニット９０６、インターフェース９０８、および周辺デバイス９０７は、マザーボードなどの通信バス（実線）を介してＣＰＵ９０５と通信する。記憶ユニット９０６は、データを記憶するためのデータ記憶ユニット（またはデータリポジトリ）であり得る。コンピュータシステム９０１は、通信インターフェース９０８の助けを借りて、コンピュータネットワーク（「ネットワーク」）４００に動作可能に結合され得る。ネットワーク４００は、インターネット、インターネットおよび／またはエクストラネット、またはインターネットと通信するイントラネットおよび／またはエクストラネットであり得る。ネットワーク４００は、場合によっては、通信および／またはデータネットワークであり得る。ネットワーク４００は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる１つまたは複数のコンピュータサーバを構成することができる。ネットワーク４００は、場合によっては、コンピュータシステム９０１の助けを借りて、ピアツー・ピア・ネットワークを実装することができ、これにより、コンピュータシステム９０１に結合されたデバイスは、クライアントまたはサーバとして動作することができる。

ＣＰＵ９０５は、プログラムまたはソフトウェアに具現化することができる機械可読命令のシーケンスを実行することができる。命令は、ＣＰＵ９０５に向けられ、ＣＰＵ９０５は、その後、本開示の方法を実装するためにＣＰＵ９０５をプログラムするかまたは他の方法で構成し得る。ＣＰＵ９０５によって行われる動作の例は、フェッチ、デコード、実行、およびライトバックを含み得る。

ＣＰＵ９０５は、集積回路のような回路の一部であり得る。システム９０１の１種または複数の他の構成要素を回路に含めることができる。場合によっては、回路は特定用途向け集積回路（ＡＳＩＣ）である。

記憶ユニット９０６は、ドライバ、ライブラリ、および保存されたプログラムなどのファイルを記憶することができる。記憶ユニット９０６は、１名または複数対象の生体試料、存在する場合はがんタイプ、がんを処置するために施される処置、施される処置の処置効力、またはそれらの任意の組み合わせのうちの１つまたは複数の配列決定リードを記憶することができる。コンピュータシステム９０１は、場合によっては、イントラネットまたはインターネットを介してコンピュータシステム９０１と通信するリモートサーバ上に配置されるような、コンピュータシステム９０１の外部にある１つまたは複数の追加のデータ記憶ユニットを含み得る。

本明細書に記載される方法は、コンピュータデバイス９０１の電子記憶場所、例えば、メモリ９０４または電子記憶ユニット９０６に記憶された機械（例えば、コンピュータプロセッサー）実行可能コードによって実装することができる。機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供され得る。使用中、コードは、プロセッサー９０５によって実行されてもよい。いくつかの例では、コードは記憶ユニット９０６から取り出され、プロセッサー９０５による容易なアクセスのためにメモリ９０４に記憶される。いくつかの例では、電子記憶ユニット９０６は除外され得、機械実行可能命令はメモリ９０４に記憶される。

コードは、コードを実行するように適合されたプロセッサーを有する機械で使用するために予めコンパイルされ、構成され得るか、または実行時にコンパイルされ得る。コードは、プログラム言語で供給され得、このプログラム言語は、予めコンパイルされたかまたはコンパイルされた状態でコードを実行することを可能にするように選択され得る。

コンピュータシステム９０１のような、本明細書に提供されるシステムおよび方法の態様は、プログラミングにおいて具体化することができる。本技術の種々の態様は、典型的には、機械可読媒体のタイプ上に担持されるかまたは具体化される機械（またはプロセッサー）実行可能コードおよび／または関連データの形態での「製品」または「製造物品」と考えられ得る。機械実行可能コードは、電子記憶ユニット、例えば、メモリ（例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスクに記憶され得る。「記憶」型媒体は、コンピュータ、プロセッサー等の有形メモリ、または種々の半導体メモリ、テープドライブ、ディスクドライブ等のようなそれらの関連モジュールのいずれかまたは全てを含み得、ソフトウェアプログラミングのためにいつでも一時的でない記憶を提供することができる。ソフトウェアの全部または一部は、時にインターネットまたは種々の他の電気通信ネットワークを介して通信することができる。このような通信は、例えば、あるコンピュータまたはプロセッサーから別のコンピュータへ、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへソフトウェアをロードすることを可能にすることができる。したがって、ソフトウェアエレメントを担持することができる別のタイプの媒体は、例えば、ローカルデバイス間の物理的インターフェースを横断して、有線および光ランドラインネットワークを介して、および種々の空中リンクを介して使用されるような、光学的、電気的および電磁波を含む。有線または無線リンク、光リンク等のような、そのような波を運ぶ物理的エレメントもまた、ソフトウェアを担持する媒体とみなすことができる。本明細書で使用される場合、一時的ではない、有形の「記憶」媒体に限定されない限り、コンピュータまたは機械「可読媒体」のなどの用語は、実行のためにプロセッサーに命令を提供することに関与する任意の媒体を指す。

したがって、コンピュータ実行可能コードなどの機械可読媒体は、限定されないが、有形記憶媒体、搬送波媒体または物理伝送媒体を含む多くの形態をとることができる。不揮発性記憶媒体は、例えば、データベース等を実装するために使用することができる任意のコンピュータ（複数可）等の記憶デバイスのような光ディスクまたは磁気ディスクを含むことができる。揮発性記憶媒体には、コンピュータプラットフォームのメインメモリなどのダイナミックメモリが含まれる。有形伝送媒体は、同軸ケーブル、銅線および光ファイバを含み、コンピュータデバイス内のバスを構成するワイヤを含む。搬送波伝送媒体は、電気信号または電磁信号、または無線周波数（ＲＦ）および赤外（ＩＲ）データ通信中に発生する音波または光波の形態をとることができる。そのためのコンピュータ可読媒体の一般的な形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤまたはＤＶＤ－ＲＯＭ、他の光学媒体、パンチカード紙テープ、穴のパターンを有する他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、キャリア波輸送データまたは命令、このようなキャリア波を輸送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／もしくはデータを読み取ることができる任意の他の媒体が含まれる。これらの形式のコンピュータ可読媒体の多くは、実行のために、１つまたは複数の命令の１種または複数のシーケンスをプロセッサーに運ぶことに関与することができる。

コンピュータシステムは、訓練された予測モデルによって出力された治療処置を見るためのユーザインターフェース（ＵＩ）９０３、および／または１名または複数の対象についてのがんの存在または欠如の推奨または決定を含む電子ディスプレイ９０２を含み得るか、または電子ディスプレイ９０２と通信し得る。ＵＩの例には、限定されないが、グラフィカルユーザーインターフェース（ＧＵＩ）およびウェブベースのユーザインターフェースが含まれる。

本開示の方法およびシステムは、１つまたは複数のアルゴリズムによって、および本明細書に開示される１つまたは複数のプロセッサーとともに提供される命令によって実装することができる。アルゴリズムは、中央処理ユニット９０５によって実行されると、ソフトウェアによって実装することができる。アルゴリズムは、例えば、ランダムフォレスト、グラフィカルモデル、サポートベクトルマシン、または他のものであり得る。

一部の事例では、本明細書に提供される本開示は、１名または複数の対象に関する治療的処置予測を提供するための訓練された予測モデルを利用するためのコンピュータ実装方法について記載する。一部の実例では、方法は、（ａ）第１のセットの１名または複数の対象の生体試料の核酸配列決定リード、および対応するがん分類を受け取るステップと、（ｂ）ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、（ｅ）タンパク質データベース関連性のセットが、入力として、訓練された予測モデルに提供される場合、訓練された予測モデルを利用して、第１のセットの１名または複数の対象に関する処置予測を提供するステップとを含むことができる。一部の事例では、方法は、（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含むことができる。一部の実例では、ステップ（ｃ）の翻訳するステップは、ｉｎｓｉｌｉｃｏで完了することができる。

一部の事例では、訓練された予測モデルは、第２のセットの１名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練することができる。一部の実例では、第２のセットの１名または複数の対象は、第１のセットの１名または複数の対象とは異なることができる。一部の事例では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含むことができる。一部の事例では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せを含むことができる。一部の実例では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含むことができる。一部の事例では、第１のセットの１名または複数の対象は、ヒトであっても非ヒト哺乳動物であってもよい。一部の実例では、生体試料核酸組成物は、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含むことができる。一部の実例では、ゲノムデータベースは、ヒトゲノムデータベースであってもよい。一部の事例では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つことができる。一部の実例では、処置予測は、第１のセットの１名または複数の対象に免疫療法が投与される場合、第１のセットの１名または複数の対象の免疫療法応答を含むことができる。一部の実例では、処置予測は、第１のセットの１名または複数の対象が、肯定的な有効性で応答するであろうという治療有効性を含むことができる。一部の事例では、がん分類は、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含むことができる。

一部の事例では、ステップ（ｂ）のフィルタリングするステップは、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含むことができる。一部の事例では、タンパク質データベースは、ＵｎｉＲｅｆデータベースであってもよい。一部の実例では、ステップ（ｃ）の翻訳するステップは、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成することができる。一部の事例では、ステップ（ｄ）の非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成することができる。一部の事例では、生化学的経路は、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成することができる。

上述のステップは、例に従ったシステムの方法を示すが、当業者は、本明細書に記載されている教示に基づき、多くの変種を認識するであろう。ステップは、異なる順序で完了することができる。ステップは、追加または削除することができる。ステップのいくつかは、サブステップを含むことができる。ステップの多くは、プラットフォームにとって有益となるような回数で繰り返すことができる。

定義
別段の定義がない限り、本明細書で使用される技術用語の全て、注釈、および他の技術用語および科学用語は、請求される主題事項が関係する当業者によって一般的に理解されているのと同じ意味を有することを意図する。場合によっては、一般に理解されている意味を有する用語は、明確性および／または容易な参照のために本明細書に定義され、本明細書にそのような定義を含めることは、当該技術分野において一般に理解されているものに対して実質的な差異を表すものと必ずしも解釈されるべきではない。

この出願全体を通じて、様々な実施形態を範囲フォーマットで提示することができる。範囲フォーマットの記載は、単に便宜的および簡潔なものであり、本開示の範囲に対する柔軟性のない限定と解釈されるべきではないことを理解されたい。したがって、範囲の記載は、その範囲内の全ての可能なサブ範囲、ならびに個々の数値を具体的に開示したものとみなされるべきである。例えば、１～６のような範囲の記載は、１～３、１～４、１～５、２～４、２～６、３～６などのようなサブ範囲、ならびに、例えば、１、２、３、４、５、および６などの範囲内の個々の数字のような、具体的に開示されたものとみなすべきである。これは、範囲の幅に関係なく適用される。

明細書および特許請求の範囲において使用される場合、文脈が明確に別段の指示をしない限り、単数形「１つの（ａ）」、「１つの（ａｎ）」および「その（ｔｈｅ）」は複数の指示対象を含む。例えば、用語「試料（ａｓａｍｐｌｅ）」は、それらの混合物を含む複数の試料を含む。

用語「決定」、「測定」、「評価」、「アセスメント」、「アッセイ」、および「分析」は、本明細書中ではしばしば互換的に使用され、測定の形態を指す。用語には、エレメントが存在するか否かの決定（例えば、検出）が含まれる。これらの用語には、定量的、定性的、または定量的かつ定性的な決定を含めることができる。アセスメントは相対的または絶対的であり得る。「存在を検出すること」は、状況に応じて存在するか否かの決定に加えて、存在する何かの量を決定することを含むことができる。

用語「対象」、「個体」、または「患者」は、しばしば本明細書において互換的に使用される。「対象」は、発現された遺伝物質を含有する生物学的実体であり得る。生物学的実体は、植物、動物、または微生物であり得、例えば、細菌、ウイルス、真菌、および原生動物を含む。対象は、ｉｎｖｉｖｏで得られたかまたはｉｎｖｉｔｒｏで培養された生物学的実体の組織、細胞およびそれらの子孫であり得る。対象は哺乳動物であり得る。哺乳動物はヒトであり得る。対象は、疾患のハイリスクであると診断され得るかまたは疑われることがある。場合によっては、対象は、必ずしも疾患の高リスクであると診断されていないかまたは疑われていないこともある。

用語「ｉｎｖｉｖｏ」は、対象の身体において起こる事象を記載するために使用される。

用語「ｅｘｖｉｖｏ」は、対象の体外で起こる事象を記載するために使用される。ｅｘｖｉｖｏアッセイは、対象に対して行われない。むしろ、それは、対象とは別の試料上で行われる。試料について行われるｅｘｖｉｖｏアッセイの例は、「ｉｎｖｉｔｒｏ」アッセイである。

用語「ｉｎｖｉｔｒｏ」とは、実験試薬を保持するための容器内で起こり、その結果、それが材料が得られる生物学的供給源から分離されるような事象を記載するために使用される。ｉｎｖｉｔｒｏアッセイは、生細胞または死細胞が採用される細胞に基づくアッセイを包含することができる。ｉｎｖｉｔｒｏアッセイは、無傷細胞が採用されない無細胞アッセイも包含することができる。

本明細書で使用される場合、数の「約」という用語は、その数のプラスまたはマイナス１０％を指す。範囲の「約」という用語は、その範囲からその最低値の１０％を引いたものと、その最大値の１０％をプラスしたものを指す。

絶対語または連続語、例えば、「であろう（ｗｉｌｌ）」、「ないであろう（ｗｉｌｌｎｏｔ）」、「するものとする（ｓｈａｌｌ）」、「ないものとする（ｓｈａｌｌｎｏｔ）」、「なければならない（ｍｕｓｔ）」、「なくてもよい（ｍｕｓｔｎｏｔ）」、「第１に」、「最初に」、「次に」、「続いて」、「前に」、「後に」、「最後に」、および「最終に」の使用は、本明細書に開示されるが、一例としての本実施形態の範囲を制限するものではない。

本明細書に記載される任意のシステム、方法、ソフトウェア、組成物、およびプラットフォームは、モジュール式であり、連続するステップに限定されない。したがって、「第１」および「第２」のような用語は、必ずしも、行為の優先順位、重要性の順序または順序を意味するものではない。

本明細書で使用される場合、用語「処置」または「処置する」は、レシピエントにおいて有益なまたは所望の結果を得るための薬学的または他の介入レジメンに関して使用される。有益なまたは望ましい結果には、限定されないが、治療利益および／または予防利益が含まれる。治療利益とは、症状の根絶または改善、または処置中の基礎疾患の根絶または改善を指すことができる。また、対象が依然として基礎疾患に苦しんでいる可能性があるにもかかわらず、対象において改善が観察されるように、基礎疾患に関連する１つまたは複数の生理学的症状を根絶または改善することによって、治療利益を達成することができる。予防効果には、疾患または状態の出現を遅らせ、予防し、または排除すること、疾患または状態の症状の開始を遅らせ、または排除すること、疾患または状態の進行を遅らせ、停止させ、または逆転させること、またはそれらの任意の組み合わせが含まれる。予防利益のために、特定の疾患を発症するリスクのある対象、または疾患の１つまたは複数の生理学的症状を報告する対象は、たとえこの疾患の診断がなされなかったとしても、処置を受けることができる。

本明細書で使用されるセクションの見出しは、組織上の目的のためにのみ使用され、記載される主題を制限するものと解釈されるべきではない。

実施例１
疾患の診断と分類のための遺伝的経路について訓練された診断モデルの生成および利用
対象を、非哺乳動物経路の存在量に基づいて、健常者、肺がん患者、または肺疾患患者として分類するように構成された診断モデルを作成し、試験した。健常者１６６例、肺がん２８８例、肺疾患１０９例の無細胞ＤＮＡ（ｃｆＤＮＡ）配列決定ライブラリを得、さらに処理した。サブがんカテゴリーのさらなる内訳は、図３に参照される。次に、ｃｆＤＮＡ配列決定試料を、図４Ａ～４Ｂに示されるＷｅｂｏｆＬｉｆｅＴｏｏｌｋｉｔＡｐｐ（Ｗｏｌｔｋａ）とＨＵＭＡｎＮ３．０（Ｈｕｍａｎｎ）パイプラインの両方を用いて、生化学的経路分類と整列させた。この最初の分析に基づいて、Ｗｏｌｔｋａは、試料をＨｕｍａｎｎツールキットよりもより代表的な経路分布に分類した。Ｗｏｌｔｋａ分類経路から、以下の遺伝子オントロジー（ＧＯ）経路が機械学習に基づく分類器：ＧＯ：００５５０８５：膜貫通輸送；ＧＯ：０００５９７５：炭水化物代謝プロセス；ＧＯ：０００６４１２：翻訳；ＧＯ：０００６３１３：転位、ＤＮＡ媒介；ＧＯ：０００６３５５：転写の調節、ＤＮＡ鋳型；ＧＯ：０００６２６０：ＤＮＡ複製；ＧＯ：００００６３５１：転写、ＤＮＡ鋳型；およびＧＯ：００００１６０：リン酸化物シグナル伝達系の最も重要な特徴であることが見出された。がん対健康の鑑別に重要であることが同定された他の経路、およびがん対肺疾患の対象との鑑別に重要であると同定された他の経路は、図５Ａ～５Ｂに見ることができる。図２ＢにおけるＷｏｌＴｋａパイプラインを介して同定された微生物経路は、予測モデル（例えば、１０倍のクロスバリデーションランダムフォレスト）を訓練するための入力として使用され、がん対健康およびがん対肺疾患の鑑別を可能にした。受信者動作特性下面積（ＡＵＣ）分析（図６Ａ～６Ｂ）によって表される各モデルの性能は、図６Ｃ～Ｄに示される微生物分類上の存在量について訓練されたがん対健康およびがん対肺疾患の予測モデルと比較することができる。Ｗｏｌｔｋａによって分類された経路の重要性について訓練された予測モデルは、ＡＵＣ０．７５６でがん対健常者、およびＡＵＣ０．７０５でがん対肺疾患を区別することができ、がん対健常者のＡＵＣ０．８１８、微生物分類学で訓練された予測モデルのがん対肺疾患の０．７０７に匹敵することが見出された。

実施例２
がんの病期を決定するための遺伝的経路について訓練された診断モデルの生成および利用肺疾患の経路存在量の背景における非哺乳類経路存在量に基づいて、対象のがんの病期を分類するように構成された診断モデルを作製し、試験した。肺疾患の対象に加えて様々な病期のがん患者の無細胞ＤＮＡ（ｃｆＤＮＡ）配列決定データを得た。配列決定データは、図７に示されるように、様々な公知の病期のがん患者２８８人および肺疾患患者１０９人から構成された。がんのタイプおよびサブカテゴリーの数のさらなる分解が、同様に図７に示されている。実施例１に示されるように、ｃｆ－ｍｂＤＮＡ配列のための複数のＷｏｌｔｋａ分類経路を決定し、１０倍の交差バリデーションでランダムフォレストを訓練するために使用した。次に、各訓練されたランダムフォレスト予測モデルの精度は、図８Ａ～８Ｄに示されるように、受信者動作特性曲線下面積（ＡＵＣ）によって分析された。Ｗｏｌｔｋａによって分類された経路の重要性について訓練された予測モデルにより、ＡＵＣが０．８６８、２期がん対肺疾患のＡＵＣが０．５８２、３期がん対肺疾患のＡＵＣが０．７９３、および４期がん対肺疾患のＡＵＣが０．９０６で、１期がん対肺疾患を区別することができた。

実施形態
１．対象のがんの存在またはその欠如を決定する方法であって、
（ａ）対象の生体試料の１種または複数の配列決定リードを用意するステップと、
（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｅ）訓練されたモデルに、タンパク質データベース関連性のセットの入力が提供される場合、対象のがんの存在またはその欠如を、訓練されたモデルに対する出力として決定するステップと
を含む方法。
２．タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態１に記載の方法。
３．（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態１に記載の方法。
４．翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、実施形態１に記載の方法。
５．生体試料が、組織、液体生検、またはこれらのいずれかの組合せである、実施形態１に記載の方法。
６．対象が、ヒトまたは非ヒト哺乳動物である、実施形態１に記載の方法。
７．生体試料が、核酸組成物を含み、核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、実施形態１に記載の方法。
８．ゲノムデータベースが、ヒトゲノムデータベースである、実施形態１に記載の方法。
９．訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、実施形態１に記載の方法。
１０．非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態１に記載の方法。
１１．訓練されたモデルが、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、実施形態１に記載の方法。
１２．訓練されたモデルが、対象のがんの１種または複数の型を決定するように構成されている、実施形態１に記載の方法。
１３．訓練されたモデルが、対象のがんの１種または複数のサブタイプを決定するように構成されている、実施形態１２に記載の方法。
１４．訓練されたモデルが、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている、実施形態１に記載の方法。
１５．訓練されたモデルが、低ステージ（ステージＩまたはステージＩＩ）腫瘍におけるがんの存在またはその欠如を決定するように構成されている、実施形態１に記載の方法。
１６．訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、実施形態１に記載の方法。
１７．訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、実施形態１に記載の方法。
１８．対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態１に記載の方法。
１９．液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態５に記載の方法。
２０．フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態１に記載の方法。
２１．タンパク質データベースが、ＵｎｉＲｅｆデータベースである、実施形態１に記載の方法。
２２．翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態１に記載の方法。
２３．非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態２に記載の方法。
２４．生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、実施形態２に記載の方法。
２５．対象のがんの存在またはその欠如の決定を提供する方法であって、
（ａ）対象の生体試料の核酸組成物を配列決定し、これにより、配列決定リードを生成するステップと、
（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｅ）訓練されたモデルに、セットタンパク質データベース関連性の入力が提供される場合、対象のがんの存在またはその欠如の決定を、訓練されたモデルの出力として提供するステップと
を含む方法。
２６．タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態２５に記載の方法。
２７．（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態２５に記載の方法。
２８．翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、実施形態２５に記載の方法。
２９．生体試料が、組織、液体生検試料またはこれらのいずれかの組合せである、実施形態２５に記載の方法。
３０．対象が、ヒトまたは非ヒト哺乳動物である、実施形態２５に記載の方法。
３１．生体試料が、核酸組成物を含み、核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、実施形態２５に記載の方法。
３２．ゲノムデータベースが、ヒトゲノムデータベースである、実施形態２５に記載の方法。
３３．訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、実施形態２５に記載の方法。
３４．非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態２５に記載の方法。
３５．訓練されたモデルが、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、実施形態２５に記載の方法。
３６．訓練されたモデルが、対象のがんの１種または複数の型を決定するように構成されている、実施形態２５に記載の方法。
３７．訓練されたモデルが、対象のがんの１種または複数のサブタイプを決定するように構成されている、実施形態３６に記載の方法。
３８．訓練されたモデルが、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている、実施形態２５に記載の方法。
３９．訓練されたモデルが、低ステージ（ステージＩまたはステージＩＩ）腫瘍におけるがんの存在またはその欠如を決定するように構成されている、実施形態２５に記載の方法。
４０．訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、実施形態２５に記載の方法。
４１．訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、実施形態２５に記載の方法。
４２．対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態２５に記載の方法。
４３．液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態２９に記載の方法。
４４．フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態２５に記載の方法。
４５．タンパク質データベースが、ＵｎｉＲｅｆデータベースである、実施形態２５に記載の方法。
４６．翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態２５に記載の方法。
４７．非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態２６に記載の方法。
４８．生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、実施形態２６に記載の方法。
４９．対象のがんの存在またはその欠如を決定するように構成されたモデルを訓練する方法であって、
（ａ）第１のセットの１名または複数の対象の核酸組成物の核酸配列決定リード、および第１のセットの１名または複数の対象の対応する１種または複数のがんを含むデータセットを用意するステップと、
（ｂ）ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、
（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｅ）タンパク質データベース関連性のセット、および第１のセットの１名または複数の対象の対応する１種または複数のがん状態を用いてモデルを訓練し、これにより、第２のセットの１名または複数の対象のがんの存在またはその欠如を決定するように構成された訓練されたモデルを生成するステップと
を含む方法。
５０．タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態４９に記載の方法。
５１．（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態４９に記載の方法。
５２．翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、実施形態４９に記載の方法。
５３．生体試料が、組織、液体生検試料またはこれらのいずれかの組合せである、実施形態４９に記載の方法。
５４．第１のセット、第２のセットまたはこれらのいずれかの組合せの１名または複数の対象が、ヒトまたは非ヒト哺乳動物である、実施形態４９に記載の方法。
５５．生体試料が、核酸組成物を含み、核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、実施形態４９に記載の方法。
５６．ゲノムデータベースが、ヒトゲノムデータベースである、実施形態４９に記載の方法。
５７．訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、実施形態４９に記載の方法。
５８．非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態４９に記載の方法。
５９．訓練されたモデルが、第２のセットの１名または複数の対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、実施形態４９に記載の方法。
６０．訓練されたモデルが、第２のセットの１名または複数の対象のがんの１種または複数の型を決定するように構成されている、実施形態４９に記載の方法。
６１．訓練されたモデルが、第２のセットの１名または複数の対象のがんの１種または複数のサブタイプを決定するように構成されている、実施形態６０に記載の方法。
６２．訓練されたモデルが、第２のセットの１名もしくは複数の対象のがんのステージ、がん予後またはこれらのいずれかの組合せを決定するように構成されている、実施形態４９に記載の方法。
６３．訓練されたモデルが、低ステージ（ステージＩまたはステージＩＩ）腫瘍における第２のセットの１名または複数の対象のがんの存在またはその欠如を決定するように構成されている、実施形態４９に記載の方法。
６４．訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、実施形態４９に記載の方法。
６５．訓練されたモデルを用いて、第２のセットの１名または複数の対象のがんを処置するための治療法を出力するステップをさらに含み、第２のセットの１名または複数の対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、実施形態４９に記載の方法。
６６．第１および第２のセットの１名または複数の対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態４９に記載の方法。
６７．液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態５３に記載の方法。
６８．フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態４９に記載の方法。
６９．タンパク質データベースが、ＵｎｉＲｅｆデータベースである、実施形態４９に記載の方法。
７０．翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態４９に記載の方法。
７１．非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態５０に記載の方法。
７２．生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、実施形態５０に記載の方法。
７３．データセットが、第１のセットの１名または複数の対象に施された対応する以前のまたは現在の処置をさらに含む、実施形態５１に記載の方法。
７４．データセットが、第１のセットの１名または複数の対象の以前のまたは現在の処置投与の処置有効性をさらに含む、実施形態７３に記載の方法。
７５．１名または複数の対象に関する治療的処置予測を提供するための訓練された予測モデルを利用するためのコンピュータ実装方法であって、
（ａ）第１のセットの１名または複数の対象の生体試料の核酸配列決定リード、および対応するがん分類を受け取るステップと、
（ｂ）ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、
（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｅ）タンパク質データベース関連性のセットが、入力として、訓練された予測モデルに提供される場合、訓練された予測モデルを利用して、第１のセットの１名または複数の対象に関する処置予測を提供するステップと
を含む方法。
７６．訓練された予測モデルが、第２のセットの１名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される、実施形態７５に記載の方法。
７７．第２のセットの１名または複数の対象が、第１のセットの１名または複数の対象とは異なる、実施形態７６に記載の方法。
７８．タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態７５に記載の方法。
７９．（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態７５に記載の方法。
８０．翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、実施形態７５に記載の方法。
８１．生体試料が、組織、液体生検試料またはこれらのいずれかの組合せである、実施形態７５に記載の方法。
８２．第１のセットの１名または複数の対象が、ヒトまたは非ヒト哺乳動物である、実施形態７５に記載の方法。
８３．生体試料核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、実施形態７５に記載の方法。
８４．ゲノムデータベースが、ヒトゲノムデータベースである、実施形態７５に記載の方法。
８５．非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態７５に記載の方法。
８６．第１のセットの１名または複数の対象に免疫療法が投与される場合、処置予測が、第１のセットの１名または複数の対象の免疫療法応答を含む、実施形態７５に記載の方法。
８７．処置予測が、第１のセットの１名または複数の対象が、肯定的な有効性で応答するであろうという治療有効性を含む、実施形態７５に記載の方法。
８８．がん分類が、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態７５に記載の方法。
８９．液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態７９に記載の方法。
９０．フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態７５に記載の方法。
９１．タンパク質データベースが、ＵｎｉＲｅｆデータベースである、実施形態７５に記載の方法。
９２．翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態７５に記載の方法。
９３．非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態７６に記載の方法。
９４．生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、実施形態７６に記載の方法。
９５．訓練された予測モデルを用いて対象のがん処置を変更する方法であって、
（ａ）がん、がん型およびがんを処置するために施された処置と共に、対象の生体試料の１種または複数の配列決定リードを用意するステップと、
（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｅ）施された処置が、タンパク質データベース関連性のセットを用いて入力されたときに、訓練された予測モデルによって出力される処置推奨と異なる場合、対象のがん処置を変更するステップと
を含む方法。
９６．訓練された予測モデルが、第２のセットの１名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される、実施形態９５に記載の方法。
９７．第２のセットの１名または複数の対象が、第１のセットの１名または複数の対象とは異なる、実施形態９６に記載の方法。
９８．タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態９５に記載の方法。
９９．（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態９５に記載の方法。
１００．翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、実施形態９５に記載の方法。
１０１．生体試料が、組織、液体生検試料またはこれらのいずれかの組合せである、実施形態９５に記載の方法。
１０２．対象が、ヒトまたは非ヒト哺乳動物である、実施形態９５に記載の方法。
１０３．生体試料核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、実施形態９５に記載の方法。
１０４．ゲノムデータベースが、ヒトゲノムデータベースである、実施形態９５に記載の方法。
１０５．非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態９５に記載の方法。
１０６．対象が免疫療法を投与される場合、処置推奨が、対象の免疫療法応答を含む、実施形態９５に記載の方法。
１０７．処置推奨が、対象が肯定的な有効性で応答することになる治療法を含む、実施形態９５に記載の方法。
１０８．対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態９５に記載の方法。
１０９．液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態１０１に記載の方法。
１１０．フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態９５に記載の方法。
１１１．タンパク質データベースが、ＵｎｉＲｅｆデータベースである、実施形態９５に記載の方法。
１１２．翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態９５に記載の方法。
１１３．非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態９６に記載の方法。
１１４．生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、実施形態９６に記載の方法。

Claims

対象のがんの存在またはその欠如を決定する方法であって、
（ａ）対象の生体試料の１種または複数の配列決定リードを用意するステップと、
（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｅ）訓練されたモデルに、タンパク質データベース関連性のセットの入力が提供される場合、対象のがんの存在またはその欠如を、訓練されたモデルに対する出力として決定するステップと
を含む方法。
タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路またはこれらのいずれかの組合せのセットを含む、請求項１に記載の方法。
（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項１に記載の方法。
翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、請求項１に記載の方法。
生体試料が、組織、液体生検、またはこれらのいずれかの組合せである、請求項１に記載の方法。
対象が、ヒトまたは非ヒト哺乳動物である、請求項１に記載の方法。
生体試料が、核酸組成物を含み、核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、請求項１に記載の方法。
ゲノムデータベースが、ヒトゲノムデータベースである、請求項１に記載の方法。
訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、請求項１に記載の方法。
非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項１に記載の方法。
訓練されたモデルが、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、請求項１に記載の方法。
訓練されたモデルが、対象のがんの１種または複数の型を決定するように構成されている、請求項１に記載の方法。
訓練されたモデルが、対象のがんの１種または複数のサブタイプを決定するように構成されている、請求項１２に記載の方法。
訓練されたモデルが、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている、請求項１に記載の方法。
訓練されたモデルが、低ステージ（ステージＩまたはステージＩＩ）腫瘍におけるがんの存在またはその欠如を決定するように構成されている、請求項１に記載の方法。
訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、請求項１に記載の方法。
訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、請求項１に記載の方法。
対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞（ｃｈｒｏｍｏｐｈｏｂｅ）、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項１に記載の方法。
液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項５に記載の方法。
フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項１に記載の方法。
タンパク質データベースが、ＵｎｉＲｅｆデータベースである、請求項１に記載の方法。
翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項１に記載の方法。
非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、請求項２に記載の方法。
生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、請求項２に記載の方法。
対象のがんの存在またはその欠如の決定を提供する方法であって、
（ａ）対象の生体試料の核酸組成物を配列決定し、これにより、配列決定リードを生成するステップと、
（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｅ）訓練されたモデルに、セットタンパク質データベース関連性の入力が提供される場合、対象のがんの存在またはその欠如の決定を、訓練されたモデルの出力として提供するステップと
を含む方法。
タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、請求項２５に記載の方法。
（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項２５に記載の方法。
翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、請求項２５に記載の方法。
生体試料が、組織、液体生検試料、またはこれらのいずれかの組合せである、請求項２５に記載の方法。
対象が、ヒトまたは非ヒト哺乳動物である、請求項２５に記載の方法。
生体試料が、核酸組成物を含み、核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、請求項２５に記載の方法。
ゲノムデータベースが、ヒトゲノムデータベースである、請求項２５に記載の方法。
訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、請求項２５に記載の方法。
非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項２５に記載の方法。
訓練されたモデルが、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、請求項２５に記載の方法。
訓練されたモデルが、対象のがんの１種または複数の型を決定するように構成されている、請求項２５に記載の方法。
訓練されたモデルが、対象のがんの１種または複数のサブタイプを決定するように構成されている、請求項３６に記載の方法。
訓練されたモデルが、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている、請求項２５に記載の方法。
訓練されたモデルが、低ステージ（ステージＩまたはステージＩＩ）腫瘍におけるがんの存在またはその欠如を決定するように構成されている、請求項２５に記載の方法。
訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、請求項２５に記載の方法。
訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、請求項２５に記載の方法。
対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項２５に記載の方法。
液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項２９に記載の方法。
フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項２５に記載の方法。
タンパク質データベースが、ＵｎｉＲｅｆデータベースである、請求項２５に記載の方法。
翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項２５に記載の方法。
非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、請求項２６に記載の方法。
生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、請求項２６に記載の方法。
対象のがんの存在またはその欠如を決定するように構成されたモデルを訓練する方法であって、
（ａ）第１のセットの１名または複数の対象の核酸組成物の核酸配列決定リード、および第１のセットの１名または複数の対象の対応する１種または複数のがんを含むデータセットを用意するステップと、
（ｂ）ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、
（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｅ）タンパク質データベース関連性のセット、および第１のセットの１名または複数の対象の対応する１種または複数のがん状態を用いてモデルを訓練し、これにより、第２のセットの１名または複数の対象のがんの存在またはその欠如を決定するように構成された訓練されたモデルを生成するステップと
を含む方法。
タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、請求項４９に記載の方法。
（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項４９に記載の方法。
翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、請求項４９に記載の方法。
生体試料が、組織、液体生検試料、またはこれらのいずれかの組合せである、請求項４９に記載の方法。
第１のセット、第２のセット、またはこれらのいずれかの組合せの１名または複数の対象が、ヒトまたは非ヒト哺乳動物である、請求項４９に記載の方法。
生体試料が、核酸組成物を含み、核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、請求項４９に記載の方法。
ゲノムデータベースが、ヒトゲノムデータベースである、請求項４９に記載の方法。
訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、請求項４９に記載の方法。
非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項４９に記載の方法。
訓練されたモデルが、第２のセットの１名または複数の対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、請求項４９に記載の方法。
訓練されたモデルが、第２のセットの１名または複数の対象のがんの１種または複数の型を決定するように構成されている、請求項４９に記載の方法。
訓練されたモデルが、第２のセットの１名または複数の対象のがんの１種または複数のサブタイプを決定するように構成されている、請求項６０に記載の方法。
訓練されたモデルが、第２のセットの１名もしくは複数の対象のがんのステージ、がん予後、またはこれらのいずれかの組合せを決定するように構成されている、請求項４９に記載の方法。
訓練されたモデル（ｔｒａｉｎｅｄ）が、低ステージ（ステージＩまたはステージＩＩ）腫瘍における第２のセットの１名または複数の対象のがんの存在またはその欠如を決定するように構成されている、請求項４９に記載の方法。
訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、請求項４９に記載の方法。
訓練されたモデルを用いて、第２のセットの１名または複数の対象のがんを処置するための治療法を出力するステップをさらに含み、第２のセットの１名または複数の対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、請求項４９に記載の方法。
第１および第２のセットの１名または複数の対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項４９に記載の方法。
液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項５３に記載の方法。
フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項４９に記載の方法。
タンパク質データベースが、ＵｎｉＲｅｆデータベースである、請求項４９に記載の方法。
翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項４９に記載の方法。
非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングするステップによって達成される、請求項５０に記載の方法。
生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、請求項５０に記載の方法。
データセットが、第１のセットの１名または複数の対象に施された対応する以前のまたは現在の処置をさらに含む、請求項５１に記載の方法。
データセットが、第１のセットの１名または複数の対象の以前のまたは現在の処置投与の処置有効性をさらに含む、請求項７３に記載の方法。
１名または複数の対象に関する治療的処置予測を提供するための訓練された予測モデルを利用するためのコンピュータ実装方法であって、
（ｆ）第１のセットの１名または複数の対象の生体試料の核酸配列決定リード、および対応するがん分類を受け取るステップと、
（ｇ）ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、
（ｈ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｉ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｊ）タンパク質データベース関連性のセットが、入力として、訓練された予測モデルに提供される場合、訓練された予測モデルを利用して、第１のセットの１名または複数の対象に関する処置予測を提供するステップと
を含む方法。
訓練された予測モデルが、第２のセットの１名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される、請求項７５に記載の方法。
第２のセットの１名または複数の対象が、第１のセットの１名または複数の対象とは異なる、請求項７６に記載の方法。
タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、請求項７５に記載の方法。
（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項７５に記載の方法。
翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、請求項７５に記載の方法。
生体試料が、組織、液体生検試料、またはこれらのいずれかの組合せである、請求項７５に記載の方法。
第１のセットの１名または複数の対象が、ヒトまたは非ヒト哺乳動物である、請求項７５に記載の方法。
生体試料核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、請求項７５に記載の方法。
ゲノムデータベースが、ヒトゲノムデータベースである、請求項７５に記載の方法。
非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項７５に記載の方法。
第１のセットの１名または複数の対象に免疫療法が施される場合、処置予測が、第１のセットの１名または複数の対象の免疫療法応答を含む、請求項７５に記載の方法。
処置予測が、第１のセットの１名または複数の対象が、肯定的な有効性で応答することになる治療有効性を含む、請求項７５に記載の方法。
がん分類が、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項７５に記載の方法。
液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項７９に記載の方法。
フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項７５に記載の方法。
タンパク質データベースが、ＵｎｉＲｅｆデータベースである、請求項７５に記載の方法。
翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項７５に記載の方法。
非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、請求項７６に記載の方法。
生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、請求項７６に記載の方法。
訓練された予測モデルを用いて対象のがん処置を変化させる方法であって、
（ａ）がん、がん型、およびがんを処置するために施された処置と共に、対象の生体試料の１種または複数の配列決定リードを用意するステップと、
（ｂ）ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
（ｃ）非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
（ｄ）非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
（ｅ）施された処置が、タンパク質データベース関連性のセットを用いて入力されたときに、訓練された予測モデルによって出力される処置推奨と異なる場合、対象のがん処置を変更するステップと
を含む方法。
訓練された予測モデルが、第２のセットの１名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答、またはこれらのいずれかの組合せにおいて訓練される、請求項９５に記載の方法。
第２のセットの１名または複数の対象が、第１のセットの１名または複数の対象とは異なる、請求項９６に記載の方法。
タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、請求項９５に記載の方法。
（ｃ）に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項９５に記載の方法。
翻訳するステップが、ｉｎｓｉｌｉｃｏで完了される、請求項９５に記載の方法。
生体試料が、組織、液体生検試料、またはこれらのいずれかの組合せである、請求項９５に記載の方法。
対象が、ヒトまたは非ヒト哺乳動物である、請求項９５に記載の方法。
生体試料核酸組成物が、ＤＮＡ、ＲＮＡ、無細胞ＤＮＡ、無細胞ＲＮＡ、エキソソームＤＮＡ、エキソソームＲＮＡ、またはこれらのいずれかの組合せを含む、請求項９５に記載の方法。
ゲノムデータベースが、ヒトゲノムデータベースである、請求項９５に記載の方法。
非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項９５に記載の方法。
対象が免疫療法を施される場合、処置推奨が、対象の免疫療法応答を含む、請求項９５に記載の方法。
処置推奨が、対象が肯定的な有効性で応答することになる治療法を含む、請求項９５に記載の方法。
対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型Ｂ細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項９５に記載の方法。
液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項１０１に記載の方法。
フィルタリングするステップが、ｂｏｗｔｉｅ２、Ｋｒａｋｅｎ、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項９５に記載の方法。
タンパク質データベースが、ＵｎｉＲｅｆデータベースである、請求項９５に記載の方法。
翻訳するステップが、ＢＬＡＳＴＰ、ＵＳＥＡＲＣＨ、ＬＡＳＴ、ＭＭＳｅｑｓ２、ＤＩＡＭＯＮＤ、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項９５に記載の方法。
非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、ＫＥＧＧ、ＭｅｔａＣｙｃ、ＰＡＮＴＨＥＲ経路、ＰａｔｈＢａｎｋ、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、請求項９６に記載の方法。
生化学的経路が、ソフトウェアパッケージＭｉｎＰａｔｈを用いて生成される、請求項９６に記載の方法。