JP2023551795A - 非ヒトメタゲノム経路解析によるがん診断および分類 - Google Patents

非ヒトメタゲノム経路解析によるがん診断および分類 Download PDF

Info

Publication number
JP2023551795A
JP2023551795A JP2023528760A JP2023528760A JP2023551795A JP 2023551795 A JP2023551795 A JP 2023551795A JP 2023528760 A JP2023528760 A JP 2023528760A JP 2023528760 A JP2023528760 A JP 2023528760A JP 2023551795 A JP2023551795 A JP 2023551795A
Authority
JP
Japan
Prior art keywords
cancer
human
combination
subject
sequencing reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023528760A
Other languages
English (en)
Inventor
ワンドロ,ステファン
アダムス,エディー
ミラー-モンゴメリー,サンドリーヌ
Original Assignee
マイクロノーマ,インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マイクロノーマ,インク. filed Critical マイクロノーマ,インク.
Publication of JP2023551795A publication Critical patent/JP2023551795A/ja
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

非ヒトメタゲノム経路解析による、がんの診断および分類のための方法が提供される。【選択図】図1A

Description

相互参照
本出願は、全体的に参照により本明細書に組み込まれる、2020年11月16日に出願された米国仮特許出願第63/114,447号の利益を主張する。
多様ながん型に関する近年の研究は、腫瘍が、内在性マイクロバイオームを保有することを示し、これは、改善された予後、診断、治療選択のために、また、腫瘍内生物学についての我々の理解を増強するために利用することができる。現在までに、報告は、乳房、前立腺、結腸、脳、骨、皮膚および膵臓のがんにおける腫瘍特有のマイクロバイオームの証拠を提供した。単に微生物がどのように腫瘍でコロニー形成するようになるかについても、活発な議論が行われている分野であるが、病因学とは無関係に、がん特異的微生物関連性が、微生物核酸の配列決定に基づく検出により、診断目的で活用され得ることが実証された。実際に、Pooreらは、患者血漿試料における微生物DNA(mbDNA)断片の検出が、様々ながんおよび非がん試料の間を正確に識別することができることを示した(PMID:32214244およびPCT WO 2020/093040)。
Pooreらにおいて、総血漿無細胞DNA(これは必然的に、ヒトcfDNAおよび微生物cfDNAの混合物を含有する)に由来するメタゲノムショットガン配列決定データは、配列決定リードがヒト参照ゲノムにマッピングされたか否かに従って、コンピュータにより分別された。次に、マッピングされなかった(すなわち、非ヒト)リードは全て、高速k-merマッピングアプローチ(Kraken、PMID:24580807)を使用して属レベルまで分類された。Kraken解析の出力は、試料における配列決定リードに関する分類学的分類、および各分類学的割当てに関連するリード計数のリストである。Pooreら(al.)において、HIV陰性、健康なドナーおよびがんコホート(肺、前立腺および黒色腫)に由来する、このような対になったデータ(属およびリード計数)は、各がん型に特有の特徴物を同定するための機械学習分類アルゴリズムのための入力として使用された。分類学に基づく分類を使用することの不利益の1つは、分類学割当ては、がん分類に有用ではあるが、いかなるがん特異的生化学的能力(あるとすれば)が、腫瘍関連マイクロバイオータによって提供され得るかについて直接的に通知しないことである。生化学的能力の存在/存在量に関係する情報も提供しながら、がんの分類および診断の両方が可能な方法を有することは、どのように腫瘍内マイクロバイオータが、それぞれ腫瘍に要求または産生される代謝物の提供または消費のいずれかによって腫瘍特異的生物学に寄与するかについての解明に役立つことができる。
本分野に関連性がある他の先行技術を次に示す:米国特許出願公開第2018/0223338号は、頭頸部がんの同定および診断における固形組織マイクロバイオームまたは唾液(salvia)マイクロバイオームの使用について記載し;米国特許出願公開第2018/0258495Al号は、結腸がん、結腸がんに関連するいくつかの種類の突然変異を検出するための固形組織マイクロバイオームまたは糞便マイクロバイオームの使用、ならびに対応する微生物を収集および増幅にするためのキットについて記載する。PCT WO 2019/191649は、進行型腺腫および/または結腸直腸がんを有する対象を健康な対象から区別するための無細胞微生物DNAおよび機械学習モデルの使用について記載し、この機械学習アルゴリズムは、解析のための入力として、参照ゲノムにマッピングするDNA配列リードに頼る。
本明細書に提供される本開示は、組織または液体生検試料から得た非ヒト起源の核酸のみを使用して、がんおよび他の疾患の存在またはその欠如、そのサブタイプ、ならびにそれがある特定の治療法に応答する見込みを的確に診断または決定することができるシステムおよび方法について記載する。具体的には、本発明は、生検試料(例えば、液体または組織生検)に存在する、微生物の機能的遺伝子(およびその断片)および生化学的経路の存在および存在量を同定することができる方法を提供する。一部の事例では、微生物の機能的遺伝子および生化学的経路を利用して、本明細書の他の箇所に記載されている1種または複数のモデルおよび/または予測モデルを訓練することができる。そのような訓練されたモデルは、対象のがんの存在もしくはその欠如の決定、または対象が処置を受けた場合の治療応答および/もしくは有効性の見込みを出力することができる。
本明細書に開示されている本発明の方法は、腫瘍特異的生物学に対する腫瘍内マイクロバイオータ寄与を解明するために生化学的能力の存在および/または存在量に関係する情報も提供しながら、がんを診断および分類することができる診断モデルを生成する方法を提供する。一部の事例では、腫瘍特異的生物学は、腫瘍内マイクロバイオータが、腫瘍に要求または産生される代謝物の消費にどのように寄与するかに関係することができる。例えば、経路に基づく解析は、微生物が触媒する治療小分子変換に光を当てることに役立つことができ、その酵素活性は、前記分子のin vivo有効性を変更することができる。微生物活性が直接的に関係付けられた治療事例(化学療法薬ゲムシタビンにおけるシチジン部分の細菌媒介性脱アミノ化)を使用して具体例を挙げると、シチジンデアミナーゼ(cdd)の長いアイソフォームを発現する細菌が、活性形態のゲムシタビンを、治療効果の低い2’2-ジフルオロデオキシウリジン(PMID:28912244)に変換することができることが示された。この生化学的検査事例により、本明細書に開示されている本発明は、cddのがん関連アイソフォームの存在/非存在または存在量を同時に検出しながら、Pooreらによって詳述される通り、対象の循環微生物DNAによって、対象におけるがん診断の未だ満たされていない必要に取り組むことを目的とする。この例を考慮して、一部の実施形態では、本明細書に開示されている方法は、対象におけるがんの診断のみに限定されず、対象が、cddの長いアイソフォームを有することが見出された場合、ゲムシタビン処置に応答しない可能性があることの予測も目的とする場合がある。
本明細書に提供される本開示の態様は、一部の実施形態では、対象のがんの存在またはその欠如を決定する方法を含む。一部の実施形態では、方法は、(a)対象の生体試料の1種または複数の配列決定リードを用意するステップと、(b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、(e)訓練されたモデルに、タンパク質データベース関連性のセットの入力が提供される場合、対象のがんの存在またはその欠如を、訓練されたモデルに対する出力として決定するステップとを含む。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、in silicoで完了される。一部の実施形態では、生体試料は、組織、液体生検、またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料は、核酸組成物を含み、核酸組成物は、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、訓練されたモデルは、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんの1種または複数の型を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんの1種または複数のサブタイプを決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている。一部の実施形態では、訓練されたモデルは、低ステージ(ステージIまたはステージII)腫瘍におけるがんの存在またはその欠如を決定するように構成されている。一部の実施形態では、訓練されたモデルは、第2のセットの1名または複数の対象に免疫療法が提供された場合、第2のセットの1名または複数の対象の免疫療法応答を決定するように構成されている。一部の実施形態では、方法は、訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を投与された場合に、肯定的な治療有効性で応答するであろう。一部の実施形態では、対象のがんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、UniRefデータベースである。一部の実施形態では、翻訳するステップは、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージMinPathを用いて生成される。
本開示の態様は、一部の実施形態では、対象のがんの存在またはその欠如の決定を提供する方法であって、(a)対象の生体試料の核酸組成物を配列決定し、これにより、配列決定リードを生成するステップと、(b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、(e)訓練されたモデルに、セットタンパク質データベース関連性の入力が提供される場合、対象のがんの存在またはその欠如の決定を、訓練されたモデルの出力として提供するステップとを含む方法について記載する。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、in silicoで完了される。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料は、核酸組成物を含み、核酸組成物は、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、訓練されたモデルは、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんの1種または複数の型を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんの1種または複数のサブタイプを決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている。一部の実施形態では、訓練されたモデルは、低ステージ(ステージIまたはステージII)腫瘍におけるがんの存在またはその欠如を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている。一部の実施形態では、方法は、訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を投与された場合に、肯定的な治療有効性で応答するであろう。一部の実施形態では、対象のがんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、UniRefデータベースである。一部の実施形態では、翻訳するステップは、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージMinPathを用いて生成される。
本明細書に提供される本開示の態様は、一部の実施形態では、対象のがんの存在またはその欠如を決定するように構成されたモデルを訓練する方法であって、(a)第1のセットの1名または複数の対象の核酸組成物の核酸配列決定リード、および第1のセットの1名または複数の対象の対応する1種または複数のがんを含むデータセットを用意するステップと、(b)ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、(e)タンパク質データベース関連性のセット、および第1のセットの1名または複数の対象の対応する1種または複数のがん状態を用いてモデルを訓練し、これにより、第2のセットの1名または複数の対象のがんの存在またはその欠如を決定するように構成された訓練されたモデルを生成するステップとを含む方法について記載する。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、in silicoで完了される。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料は、核酸組成物を含み、核酸組成物は、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、訓練されたモデルは、第2のセットの1名または複数の対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている。一部の実施形態では、訓練されたモデルは、第2のセットの1名または複数の対象のがんの1種または複数の型を決定するように構成されている。一部の実施形態では、訓練されたモデルは、第2のセットの1名または複数の対象のがんの1種または複数のサブタイプを決定するように構成されている。一部の実施形態では、訓練されたモデルは、第2のセットの1名もしくは複数の対象のがんのステージ、がん予後またはこれらのいずれかの組合せを決定するように構成されている。一部の実施形態では、訓練されたモデルは、低ステージ(ステージIまたはステージII)腫瘍における第2のセットの1名または複数の対象のがんの存在またはその欠如を決定するように構成されている。一部の実施形態では、訓練されたモデルは、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている。一部の実施形態では、方法は、訓練されたモデルを用いて、第2のセットの1名または複数の対象のがんを処置するための治療法を出力するステップをさらに含み、第2のセットの1名または複数の対象は、この治療法を投与された場合に、肯定的な治療有効性で応答するであろう。一部の実施形態では、第1および第2のセットの1名または複数の対象のがんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、UniRefデータベースである。一部の実施形態では、翻訳するステップは、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージMinPathを用いて生成される。一部の実施形態では、データセットは、第1のセットの1名または複数の対象に施された対応する以前のまたは現在の処置をさらに含む。一部の実施形態では、データセットは、第1のセットの1名または複数の対象の以前のまたは現在の処置投与の処置有効性をさらに含む。
本明細書に提供される本開示の態様は、一部の実施形態では、1名または複数の対象に関する治療的処置予測を提供するための訓練された予測モデルを利用するための、コンピュータ実装方法であって、(a)第1のセットの1名または複数の対象の生体試料の核酸配列決定リード、および対応するがん分類を受け取るステップと、(b)ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、(e)タンパク質データベース関連性のセットが、入力として、訓練された予測モデルに提供される場合、訓練された予測モデルを利用して、第1のセットの1名または複数の対象に関する処置予測を提供するステップとを含む方法について記載する。一部の実施形態では、訓練された予測モデルは、第2のセットの1名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される。一部の実施形態では、第2のセットの1名または複数の対象は、第1のセットの1名または複数の対象とは異なる。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、in silicoで完了される。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、第1および/または第2のセットの1名または複数の対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料核酸組成物は、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、第1のセットの1名または複数の対象に免疫療法が投与される場合、処置予測は、第1のセットの1名または複数の対象の免疫療法応答を含む。一部の実施形態では、処置予測は、第1のセットの1名または複数の対象が、肯定的な有効性で応答するであろうという治療有効性を含む。一部の実施形態では、がん分類は、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、UniRefデータベースである。一部の実施形態では、翻訳するステップは、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージMinPathを用いて生成される。
本明細書に提供される本開示の態様は、一部の実施形態では、訓練された予測モデルを用いて対象のがん処置を変更する方法を含む。一部の実施形態では、方法は、(a)がん、がん型およびがんを処置するために施された処置と共に、対象の生体試料の1種または複数の配列決定リードを用意するステップと、(b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、(e)施された処置が、タンパク質データベース関連性のセットを用いて入力されたときに、訓練された予測モデルによって出力される処置推奨と異なる場合、対象のがん処置を変更するステップとを含む。一部の実施形態では、訓練された予測モデルは、第2のセットの1名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される。一部の実施形態では、第2のセットの1名または複数の対象は、第1のセットの1名または複数の対象とは異なる。一部の実施形態では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む。一部の実施形態では、方法は、(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む。一部の実施形態では、翻訳するステップは、in silicoで完了される。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、生体試料核酸組成物は、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ。一部の実施形態では、対象が免疫療法を投与される場合、処置推奨は、対象の免疫療法応答を含む。一部の実施形態では、処置推奨は、対象が肯定的な有効性で応答するであろう治療法を含む。一部の実施形態では、対象のがんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む。一部の実施形態では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む。一部の実施形態では、フィルタリングするステップは、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、UniRefデータベースである。一部の実施形態では、翻訳するステップは、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される。一部の実施形態では、非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される。一部の実施形態では、生化学的経路は、ソフトウェアパッケージMinPathを用いて生成される。
本明細書に開示されている態様は、生体試料における分類学非依存的非ヒト機能的遺伝子存在量に基づき、対象におけるがんを診断するための診断モデルを創出する方法であって、(a)生体試料における核酸組成物を配列決定して、配列決定リードを生成するステップと、(b)ゲノムデータベースのビルドを用いて配列決定リードをフィルタリングして、非ヒト配列決定リードを単離するステップと、(c)非ヒト配列決定リードの組成物をin silicoで翻訳して、非ヒト配列決定リードにおいて表される非ヒトタンパク質を同定するステップと、(c)非ヒトタンパク質を非ヒト機能的遺伝子および生化学的経路の非ヒトタンパク質データベースにマッピングするステップと、(d)非ヒトタンパク質を非ヒト機能的遺伝子および生化学的経路の非ヒトタンパク質データベースにマッピングするステップと、(e)非ヒト機能的遺伝子および生化学的経路を用いて機能的遺伝子および生化学的経路存在量の表を生成するステップと、(f)訓練された機械学習アルゴリズムを用いて生化学的経路存在量の表を解析するステップと、(g)訓練された機械学習アルゴリズムの出力を使用して、対象のがんの存在または非存在の診断を提供するステップとを含む方法を提供する。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、核酸組成物は、DNA、RNA、無細胞DNA(cfDNA)、無細胞RNA(cfRNA)、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せの総集団を含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練された機械学習アルゴリズムの出力は、機能的遺伝子および生化学的経路存在量の表の解析を含む。一部の実施形態では、訓練された機械学習アルゴリズムは、目的のがんにおいて特徴的存在量で存在するかまたは存在しないことが知られた機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、診断モデルは、次の生物ドメイン:細菌、古細菌および/または真菌のうち1種または複数由来の生化学的経路存在量情報を利用する。一部の実施形態では、診断モデルは、がんのカテゴリーまたは組織特異的位置を診断する。一部の実施形態では、診断モデルは、対象におけるがんの1種または複数の型の診断に使用される。一部の実施形態では、診断モデルは、対象におけるがんの1種または複数の(one more)サブタイプの診断に使用される。一部の実施形態では、診断モデルは、対象におけるがんのステージの予測および/または対象におけるがん予後の予測に使用される。一部の実施形態では、診断モデルは、低ステージ(ステージIまたはステージII)腫瘍におけるがんの型の診断に使用される。一部の実施形態では、診断モデルは、対象の免疫療法応答の予測に使用される。一部の実施形態では、診断モデルは、特定の対象にとって最適な治療法の選択に利用される。一部の実施形態では、診断モデルは、1種または複数のがんの治療法に対する応答の経過の長期的なモデル化と、それに続く処置レジメンの調整に利用される。一部の実施形態では、診断モデルは、次のうち1種または複数:急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌またはぶどう膜黒色腫を診断する。一部の実施形態では、診断モデルは、シグナルと称する他の非ヒト特徴物を選択的に保持しつつ、ノイズと称する夾雑物としてある特定の非ヒト特徴物を同定し除去する。一部の実施形態では、液体生検試料は、次のうち1種または複数:血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙または呼気凝縮液を含むがこれらに限定されない。一部の実施形態では、フィルタリングするステップは、bowtie2、Krakenプログラムまたはこれらのいずれかの組合せによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、タンパク質データベースは、UniRefデータベースである。一部の実施形態では、非ヒトタンパク質データベースを問い合わせて、非ヒト配列決定リードにおいて表されるタンパク質を同定するステップは、ソフトウェアパッケージDIAMONDを用いて行われる。一部の実施形態では、生化学的経路のデータベースは、KEGGまたはMetaCycデータベースである。一部の実施形態では、生化学的経路存在量の表を生成するステップは、ソフトウェアパッケージMiniPathを用いて行われる。
本明細書に開示されている態様は、生体試料における分類学非依存的非ヒト機能的遺伝子存在量に基づき、対象におけるがんを診断するための診断モデルを創出する方法であって、(a)生体試料における核酸組成物を配列決定して、配列決定リードを生成するステップと、(b)ゲノムデータベースのビルドを用いて配列決定リードをフィルタリングして、非ヒト配列決定リードを単離するステップと、(c)非ヒト配列決定リードを配列決定されたゲノムのデータベースにマッピングするステップと、(d)非ヒト配列決定リードおよび配列決定されたゲノムのデータベースの間の複数のマッピングされたゲノム座標を生成するステップと、(e)複数のマッピングされたゲノム座標を使用して、既知の非ヒトタンパク質のデータベースを問い合わせて、存在量を計算するステップと、(f)非ヒトタンパク質を機能的遺伝子および生化学的経路のデータベースにマッピングするステップと、(g)複数の機能的遺伝子および生化学的経路存在量の表を生成するステップと、(h)訓練された機械学習アルゴリズムを用いて、機能的遺伝子および生化学的経路存在量の表を解析するステップと、(i)複数の機能的遺伝子および生化学的経路存在量の表の訓練された機械学習アルゴリズム解析の出力を使用して、対象のがんの存在または非存在を診断するステップとを含む方法を提供する。一部の実施形態では、診断モデルは、次の生物ドメイン:細菌、古細菌および/または真菌のうち1種または複数由来の生化学的経路存在量情報を利用する。一部の実施形態では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せである。一部の実施形態では、対象は、ヒトまたは非ヒト哺乳動物である。一部の実施形態では、核酸組成物は、DNA、RNA、無細胞DNA(cfDNA)、無細胞RNA(cfRNA)、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せの総集団を含む。一部の実施形態では、ゲノムデータベースは、ヒトゲノムデータベースである。一部の実施形態では、訓練された機械学習アルゴリズムの出力は、複数の機能的遺伝子および生化学的経路存在量の表の解析を含む。一部の実施形態では、訓練された機械学習アルゴリズムは、目的のがんにおいて特徴的存在量で存在するかまたは存在しないことが知られた機能的遺伝子および生化学的経路存在量のセットを用いて訓練される。一部の実施形態では、診断モデルは、がんのカテゴリーまたは組織特異的位置を診断する。一部の実施形態では、診断モデルは、対象におけるがんの1種または複数の型の診断に使用される。一部の実施形態では、診断モデルは、対象におけるがんの1種または複数のサブタイプの診断に使用される。一部の実施形態では、診断モデルは、対象におけるがんのステージの予測および/または対象におけるがん予後の予測に使用される。一部の実施形態では、診断モデルは、低ステージ(ステージIまたはステージII)腫瘍におけるがんの型の診断に使用される。一部の実施形態では、診断モデルは、対象の免疫療法応答の予測に使用される。一部の実施形態では、診断モデルは、特定の対象にとって最適な治療法の選択に利用される。一部の実施形態では、診断モデルは、1種または複数のがんの治療法に対する応答の経過の長期的なモデル化と、それに続く処置レジメンの調整に利用される。一部の実施形態では、診断モデルは、次のうち1種または複数:急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌またはぶどう膜黒色腫を診断する。一部の実施形態では、診断モデルは、シグナルと称する他の非ヒト特徴物を選択的に保持しつつ、ノイズと称する夾雑物としてある特定の非ヒト特徴物を同定し除去する。一部の実施形態では、液体生検は、次のうち1種または複数:血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙または呼気凝縮液を含むがこれらに限定されない。一部の実施形態では、フィルタリングするステップは、botwie2、Kakenプログラムまたはこれらのいずれかの組合せによって、配列決定リードをコンピュータによりフィルタリングすることを含む。一部の実施形態では、配列決定されたゲノムのデータベースは、Web of Lifeデータベースである。一部の実施形態では、タンパク質データベースは、UniRefデータベースである。一部の実施形態では、生化学的経路のデータベースは、KEGGまたはMetaCycデータベースである。
一部の実施形態では、本発明は、液体生検試料を使用して、がんの存在および/または型に関連付けられる微生物の機能的遺伝子の存在または存在量のパターン(「シグネチャ」)を幅広く創出するための方法を提供する。次いで、このような「シグネチャ」を配備して、ヒトにおけるがんの存在、種類および/またはサブタイプを診断することができる。
一部の実施形態では、本発明は、原発性腫瘍組織を使用して、がんの存在および/または型に関連付けられる微生物の機能的遺伝子または存在量のパターンを幅広く創出するための方法を提供する。次いで、このような「シグネチャ」を配備して、ヒト由来の液体生検試料を使用して、前記ヒトにおけるがんの存在、種類および/またはサブタイプを診断することができる。
一部の実施形態では、本発明は、哺乳動物対象における疾患を幅広く診断する方法であって、対象由来の液体生検試料における微生物の存在または存在量を検出するステップと、検出された微生物の機能的遺伝子または存在量が、正常な液体生検試料における微生物の機能的遺伝子または存在量とは異なることを決定するステップと、検出された微生物の機能的遺伝子または存在量を、疾患に関する既知の微生物の機能的遺伝子または存在量と相関させ、これにより、疾患を診断するステップとを含む方法を提供する。
一部の実施形態では、本発明は、哺乳動物対象における疾患の型を診断する方法であって、対象由来の液体生検試料における微生物の存在または存在量を検出するステップと、以前に研究された液体生検試料を用いて、検出された微生物の機能的遺伝子または存在量が、がんおよび/または健康な患者の集団における微生物の機能的遺伝子または存在量に類似しているかまたはそれとは異なることを決定するステップと、検出された微生物の機能的遺伝子または存在量を、このコホートにおける最も類似した液体生検試料と相関させ、これにより、疾患および/または疾患の種類を診断するステップとを含む方法を提供する。
一部の実施形態では、本発明は、いずれの対象が、疾患のための特定の処置に応答するかまたは応答しないか予測する方法であって、疾患ががんであり、対象がヒトであり、処置が免疫療法であり、免疫療法がPD-1遮断(例えば、ニボルマブ、ペムブロリズマブ)である、方法を提供する。
実施形態では、本発明は、疾患を診断する方法であって、疾患の同定された非哺乳動物特徴物に基づき対象における疾患を処置するステップをさらに含み、疾患ががんであり、非哺乳動物特徴物が微生物のものであり、対象がヒトである、方法を提供する。
一部の実施形態では、本発明は、疾患を診断する方法であって、その非哺乳動物特徴物を長期的にモニタリングして、疾患処置に対する応答を示すステップをさらに含み、疾患ががんであり、非哺乳動物特徴物が微生物のものであり、対象がヒトである、方法を提供する。
一部の実施形態では、本発明は、指定された組織試料における微生物の機能的遺伝子または存在量を測定し、これにより、疾患の診断を可能にするためのアッセイを提供する。
一部の実施形態では、本発明は、機械学習アーキテクチャに基づく診断モデルを利用する。一部の実施形態では、本発明は、規則化された機械学習アーキテクチャに基づく診断モデルを利用する。
一部の実施形態では、本発明は、機械学習アーキテクチャのアンサンブルに基づく診断モデルを利用する。一部の実施形態では、本発明は、シグナルと称する非夾雑物として他の非哺乳動物特徴物を選択的に保持しつつ、ノイズと称する夾雑物としてある特定の非哺乳動物特徴物を同定し、選択的に除去し、非哺乳動物特徴物は、微生物のものである。
一部の実施形態では、本発明は、疾患を診断する方法であって、微生物の機能的遺伝子または存在量の情報が、宿主(対象)および/または宿主の(対象の)がんに関する追加の情報と組み合わされて、微生物の機能的遺伝子または存在量の情報単独のみを有するものよりも優れた予測性能を有する診断モデルを創出する、方法を提供する。
一部の実施形態では、診断モデルは、次の供給源:無細胞腫瘍DNA、無細胞腫瘍RNA、エキソソーム由来の腫瘍DNA、エキソソーム由来の腫瘍RNA、循環腫瘍細胞由来のDNA、循環腫瘍細胞由来のRNA、無細胞腫瘍DNAのメチル化パターン、無細胞腫瘍RNAのメチル化パターン、循環腫瘍細胞由来のDNAのメチル化パターンおよび/または循環腫瘍細胞由来のRNAのメチル化パターンのうち1種または複数由来の微生物の機能的遺伝子または存在量の情報と組み合わせた情報を利用する。
一部の実施形態では、微生物の機能的遺伝子または存在量は、次の方法:メタゲノムショットガン配列決定、標的化微生物配列決定、宿主全ゲノム配列決定、宿主トランスクリプトーム配列決定、がん全ゲノム配列決定およびがんトランスクリプトーム配列決定のうち1種または複数の核酸検出によって検出される。
一部の実施形態では、微生物核酸は、宿主由来の核酸と同時に検出され、その後に区別される。
一部の実施形態では、組み合わされた核酸プールの測定(例えば、配列決定)に先立ち、宿主核酸は、選択的に枯渇され、微生物核酸は、選択的に保持される。
一部の実施形態では、本発明は、組織が、血液、血液の構成物(例えば、血漿)または組織生検であり、組織生検が、悪性または非悪性となり得ることを提供する。
一部の実施形態では、がんの微生物の機能的遺伝子または存在量は、宿主の他の位置における微生物の機能的遺伝子または存在量を測定することにより決定される。
本発明の新規な特徴は、添付の特許請求の範囲に詳細に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を記載する以下の詳細な説明、およびその添付の図面を参照することによって得られる。
図1Aは、メタゲノム機能に基づく健康および疾患関連微生物シグネチャの発見を可能にするために、メタゲノム機能プロファイリングモジュールを組み込んだ例示的な診断モデル訓練スキームを示す図である。図1Aは、診断モデルの例示的な訓練構造を示す。 図1Bは、メタゲノム機能に基づく健康および疾患関連微生物シグネチャの発見を可能にするために、メタゲノム機能プロファイリングモジュールを組み込んだ例示的な診断モデル訓練スキームを示す図である。図1Bは、本明細書の一部の実施形態に記載されるように、図1Aの訓練されたモデルが未知の疾患状態の新たな対象データを提供する、疾患の診断および病態の分類を提供するための図1Aの訓練されたモデルの使用を示す。 図2Aは、2つのメタゲノム機能計算パイプラインのための例示的なワークフローを示す図である。図2Aは、HUMAnN2.0パイプラインを使用して、図1Aの機械学習モデルに入力することができる遺伝子および経路の存在量表を生成する例示的なメタゲノムワークフローを示す。 図2Bは、本明細書の一部の実施形態に記載されるように、図1Aの機械学習モデルに入力することができる遺伝子および経路存在量表を生成するためにWolTkaパイプラインを使用する例示的なメタゲノムワークフローを示す。 予測モデルの作製に使用される、健康、がん、および肺疾患のための研究集団の内訳を示す図である。 図4Aは、本明細書の一部の実施形態に記載されるように、HUMAnN2.0(ヒト)およびWeb of Life Toolkit App(Woltka)による、ヒト以外の無細胞DNA配列の経路分類を示す図である。 図4Bは、本明細書の一部の実施形態に記載されるように、HUMAnN2.0(ヒト)およびWeb of Life Toolkit App(Woltka)による、ヒト以外の無細胞DNA配列の経路分類を示す図である。 図5Aは、本明細書の一部の実施形態に記載されるように、がん対健康、およびがん対肺疾患の配列決定されたcf-mbDNA試料のWoltka分析によって同定された経路の詳細な平均経路重要性を示す図である。 図5Bは、本明細書の一部の実施形態に記載されるように、がん対健康、およびがん対肺疾患の配列決定されたcf-mbDNA試料のWoltka分析によって同定された経路の詳細な平均経路重要性を示す図である。 図6Aは、本明細書の一部の実施形態に記載されるように、様々な訓練された予測モデルの精度を示す受信者動作特性曲線および曲線下面積分析を示す図である。 図6Bは、本明細書の一部の実施形態に記載されるように、様々な訓練された予測モデルの精度を示す受信者動作特性曲線および曲線下面積分析を示す図である。 図6Cは、本明細書の一部の実施形態に記載されるように、様々な訓練された予測モデルの精度を示す受信者動作特性曲線および曲線下面積分析を示す図である。 図6Dは、本明細書の一部の実施形態に記載されるように、様々な訓練された予測モデルの精度を示す受信者動作特性曲線および曲線下面積分析を示す図である。 がんおよび肺疾患対象の研究集団の内訳を示す図であり、それによって、本明細書の一部の実施形態に記載されるように、このような対象の無細胞DNA核酸遺伝経路データは、予測モデルを訓練するために使用される。 図8Aは、対象の公知のがん病期および対応する無細胞mbDNA核酸遺伝経路データに関して訓練された各予測モデル、ならびに肺疾患の無細胞mbDNA核酸遺伝経路データを有する対象に関する受信者動作特性曲線および計算された曲線下面積を示す図である。 図8Bは、対象の公知のがん病期および対応する無細胞mbDNA核酸遺伝経路データに関して訓練された各予測モデル、ならびに肺疾患の無細胞mbDNA核酸遺伝経路データを有する対象に関する受信者動作特性曲線および計算された曲線下面積を示す図である。 図8Cは、対象の公知のがん病期および対応する無細胞mbDNA核酸遺伝経路データに関して訓練された各予測モデル、ならびに肺疾患の無細胞mbDNA核酸遺伝経路データを有する対象に関する受信者動作特性曲線および計算された曲線下面積を示す図である。 図8Dは、対象の公知のがん病期および対応する無細胞mbDNA核酸遺伝経路データに関して訓練された各予測モデル、ならびに肺疾患の無細胞mbDNA核酸遺伝経路データを有する対象に関する受信者動作特性曲線および計算された曲線下面積を示す図である。 本明細書の一部の実施形態に記載されるように、本開示の方法を実装するように構成されたコンピュータシステムの図を示す。
本明細書に提供される開示は、1名または複数の対象の1種または複数のがん、サブタイプ、および/または治療応答のがんの可能性を正確に診断および/またはその存在の欠如を決定する方法を記載する。場合によっては、1名または複数の対象は、ヒトまたは非ヒト哺乳動物であり得る。本明細書に記載される方法は、組織または液体生検試料由来の非ヒト起源の核酸を利用することができる。これは、微生物機能単位(すなわち、限定されないが、酵素、転写因子、および受容体を含むタンパク質)の特定のパターンを同定することによって達成され得る。一部の実施形態では、疾患分類に用いることができる例示的な微生物酵素、並びに(1)個体ががんを有する、(2)個体が特定の身体部位からのがんを有する、(3)個体が特定のタイプのがんを有する、(4)その時点で診断され得るかまたは診断され得ないがんは、特定のがん治療法に高いかまたは低い可能性かまたは応答性を有する、(5)その時点で診断され得るかまたは診断され得ないがんは、対象のがんを処置するための個別化された治療法を開発するための標的とすることができる微生物学的特徴(例えば、微生物抗原)を有することが見出される、ある特定の確率、またはその任意の組み合わせの確率を割り当てるために、試料内に微生物酵素の存在および非存在(「シグネチャ」)が表1に提供される。
このような方法の他の用途は合理的に想像可能であり、当業者に容易に実装可能である。
試料の取り扱いおよびモデルの生成方法
本明細書に記載される方法は、ヒトゲノムの疾患であると伝統的に考えられてきた状態(例えば、がん)を診断するために、非ヒト起源の核酸を使用することができる。一部の実施形態では、本明細書に記載される方法は、観察された組織構造、細胞異型性、またはがんを診断するために伝統的に使用されている任意の他の主観的測定に必ずしも依存しないため、本方法は、典型的な病理報告と比較して、より良好な臨床転帰を提供することができる。場合によっては、本方法は、「正常な」核酸源のバックグラウンドにおいてしばしば極めて低い頻度で修飾される、修飾されたヒト(すなわち、がん性)核酸源よりもむしろ微生物核酸源のみに焦点を当てることによって、高程度の感度を提供することができる。一部の実施形態では、本明細書に開示される方法は、固形組織および/または液体生検試料のいずれかによってこのような結果を達成することができ、後者は、最小限の試料調製を必要とすることができ、最小限の侵襲性であり得る。一部の実施形態では、液体生検に基づくアッセイは、非悪性ヒト細胞に由来する無細胞DNA(cfDNA)に起因する感度の問題にしばしば悩まされる循環腫瘍DNA(ctDNA)アッセイによってもたらされる課題を克服することができる。いくつかの例では、液体生検に基づく微生物アッセイは、最も一般的ながんゲノム異常ががんのタイプ(例えば、TP53突然変異、KRAS突然変異)間で共有されるため、ctDNAアッセイが典型的には達成することができないがんのタイプを区別することができる。場合によっては、本明細書に記載される方法は、シグネチャのサイズを制約することができ、その方法は、当該技術に精通した者(例えば、正規化された機械学習)によって期待され、微生物アッセイは、例えば、多重化定量ポリメラーゼ連鎖反応(qPCR)および多重化されたアンプリコン配列決定のための標的アッセイパネルの使用によって、臨床的に利用可能にされ得る。
一部の実施形態では、本明細書に記載される方法は、訓練されたモデルおよび/または訓練された予測モデルを利用することによって、対象のがんの存在または欠如を決定することができ、モデルおよび/または予測モデルは、リアルタイム配列決定データまたはレトロスペクティブ配列決定データ(すなわち、データベースまたはリポジトリからのデータの配列決定)上に展開することができる、非ヒト機能的遺伝子および生化学的経路存在量(すなわち、非ヒトシグネチャ)に関して訓練された機械学習モデルを含むことができる。いくつかの例では、非ヒトシグネチャは、微生物シグネチャを含み得る。場合によっては、対象のがんを決定または診断する方法は、対象の核酸組成物を配列決定する工程を含み得る。あるいは、対象のがんを決定または診断する方法は、対象の生体試料核酸組成物の配列決定リードにアクセスする工程を含み得る。
一部の実施形態では、本明細書に記載される方法は、(a)ルーチンのクリニック来院中に患者から血液試料を採取すること;(b)その血液試料から血漿または血清を調製し、前もって訓練された機械学習モデルを介して、以前に決定された特定の微生物遺伝子の配列を、がんを診断するための有用なシグネチャとして抽出し、増幅すること;(c)これらの微生物シグネチャの存在および/または存在量のデジタル読み取りを得ること;(d)隣接するコンピュータまたはクラウドコンピューティングインフラストラクチャ上の存在および/または存在量のデータを標準化し、それを以前に訓練された機械学習モデルに供給すること;ならびに(e)この試料が、(1)がんの存在または非存在と関連する可能性、(2)特定のタイプまたは身体的位置のがんと関連する可能性、または(3)一連のがん治療法に対して応答する可能性が高い、中程度であるまたは低いことと関連する可能性について、予測およびある程度の信頼性を読み出すこと、ならびに(f)もし追加情報が後にユーザによって入力される場合、その試料の微生物情報を使って機械学習モデルを訓練し続けることによって、モデルを訓練する。
一部の実例では、本明細書に記載されている方法は、対象のがんの存在またはその欠如を決定するように構成されたモデルを訓練する方法を含むことができる。一部の事例では、方法は、(a)第1のセットの1名または複数の対象の核酸組成物の核酸配列決定リード、および第1のセットの1名または複数の対象の対応する1種または複数のがんを含むデータセットを用意するステップと、(b)ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、(e)タンパク質データベース関連性のセット、および第1のセットの1名または複数の対象の対応する1種または複数のがん状態を用いてモデルを訓練し、これにより、第2のセットの1名または複数の対象のがんの存在またはその欠如を決定するように構成された訓練されたモデルを生成するステップとを含むことができる。一部の実例では、タンパク質データベース関連性のセットは、本明細書の他の箇所に記載されている機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含むことができる。一部の実例では、方法は、ステップ(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含むことができる。一部の事例では、夾雑物非ヒト配列決定リードは、事前に(a prior)、または実験データ解析から決定された夾雑物非ヒト配列決定リードのデータベースから決定することができる。一部の事例では、ステップ(c)の翻訳するステップは、in silicoで完了することができる。一部の実例では、方法は、ステップ(a)の代わりにまたはそれに加えて、第1のセットの1名または複数の対象の核酸組成物を配列決定するステップを含むことができる。一部の事例では、方法は、訓練されたモデルを用いて、第2のセットの1名または複数の対象のがんを処置するための治療法を出力するステップをさらに含むことができ、第2のセットの1名または複数の対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる。一部の事例では、データセットは、第1のセットの1名または複数の対象に施された対応する以前のまたは現在の処置をさらに含むことができる。一部の事例では、データセットは、第1のセットの1名または複数の対象の以前のまたは現在の処置投与の処置有効性をさらに含むことができる。
一部の事例では、第1および/または第2のセットの1名または複数の対象は、ヒトであっても非ヒト哺乳動物であってもよい。一部の事例では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せを含むことができる。一部の事例では、生体試料は、核酸組成物を含むことができ、核酸組成物は、DNA、RNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含むことができる。一部の事例では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に由来し得る。一部の実例では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含むことができる。
一部の実例では、第1および/または第2のセットの1名または複数の対象は、がんを含むことができる。一部の事例では、がんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含むことができる。
一部の事例では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練することができる。一部の実例では、訓練されたモデルは、第2のセットの1名または複数の対象のがんの1種または複数のサブタイプを決定するように構成することができる。一部の事例では、訓練されたモデルは、第2のセットの1名もしくは複数の対象のがんのステージ、がん予後またはこれらのいずれかの組合せを決定するように構成することができる。一部の実例では、訓練されたモデルは、低ステージ(ステージIまたはステージII)腫瘍における第2のセットの1名または複数の対象のがんの存在またはその欠如を決定するように構成することができる。一部の事例では、訓練されたモデルは、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成することができる。一部の事例では、訓練されたモデルは、第2のセットの1名または複数の対象のがんのカテゴリーまたは組織特異的位置を決定するように構成することができる。一部の事例では、訓練されたモデルは、第2のセットの1名または複数の対象のがんの1種または複数の型を決定するように構成することができる。
一部の実例では、ゲノムデータベースは、ヒトゲノムデータベースであってもよい。一部の事例では、ステップ(b)のフィルタリングするステップは、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって配列決定リードをコンピュータによりフィルタリングすることを含むことができる。一部の実例では、タンパク質データベースは、UniRefデータベースであってもよい。一部の事例では、ステップ(c)の翻訳するステップは、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成することができる。一部の事例では、ステップ(d)の非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成することができる。一部の事例では、生化学的経路は、ソフトウェアパッケージMiniPathを用いて生成することができる。
一部の事例では、本明細書に開示されている本発明の方法は、(a)液体生検試料の核酸コンテンツを配列決定するステップと、(b)診断モデルを生成するステップとを含むことができる。一部の実施形態では、配列決定方法は、次世代配列決定もしくはロングリード配列決定(例えば、ナノポア配列決定)またはこれらの組合せを含むことができる。一部の実施形態では、モデル110は、診断モデルを含むことができる。一部の事例では、診断モデルは、図1Aに示す通り、訓練された機械学習アルゴリズム109を含むことができる。一部の実施形態では、診断モデルは、規則化された機械学習モデルであってもよい。一部の実施形態では、訓練された機械学習モデルアルゴリズムは、線形回帰、ロジスティック回帰、決定木、サポートベクターマシン(SVM)、ナイーブベイズ、k-最近傍(kNN)、k-平均、ランダムフォレストアルゴリズムモデルまたはこれらのいずれかの組合せを含むことができる。一部の事例では、機械学習アルゴリズムは、1種または複数の機械学習アルゴリズムを含むことができる。
一部の実施形態では、機械学習アルゴリズム109は、複数の既知の健康な対象101および複数の既知のがん対象102由来の核酸に由来する核酸配列決定データ103を用いて訓練することができる。一部の実施形態では、機械学習アルゴリズム109は、(a)ヒトゲノムにマッピングする全ての配列決定リードをコンピュータによりフィルタリングするステップ104と、(b)夾雑物排除パイプライン106により、残っている非ヒト微生物配列決定リード105を処理して、共通微生物夾雑物に由来する配列を除去するステップと、(c)残っているリードをその翻訳された(すなわち、タンパク質)コンテンツについて解析するステップ107とからなるメタゲノム機能バイオインフォマティクスパイプライン108により処理された核酸配列決定データ103を用いて訓練することができる。一部の実施形態では、全ての配列決定リードのコンピュータによるフィルタリングは、bowtie2、Krakenプログラムまたはそれらのいずれかの等価物を用いて達成することができる。
一部の実施形態では、機械学習アルゴリズム109を訓練し、訓練された診断モデル110をもたらすことができ、訓練された診断モデルは、健康な対象に関連付けられるおよび/またはこれを示す微生物シグネチャ111と、がんを有する対象に関連付けられる/これを示す微生物シグネチャ112を決定することができる。
一部の実施形態では、図1Aに示す機械学習アルゴリズム109はその上、図2Aに見られる、試料(単数または複数)における機能的微生物遺伝子の存在量207(例えば、酵素)に関係するデータを用いて訓練することができる。一部の実施形態では、機能的微生物遺伝子の存在量は、(a)対象の液体生検から次世代配列決定リードを生成するステップ(NGS)201と、(b)bowtie、Krakenフィルタリング方法またはそれらのいずれかの等価物によってヒト配列決定リードをフィルタリングするステップ202と、(c)(b)の配列決定リードをフィルタリングするステップの結果として、微生物配列決定を生成するステップ203と、(d)DIAMONDまたはその等価物等のunitProt参照クラスター(UniRef)データベースに対して翻訳された配列決定リードを検索するステップ204と、(e)Kyoto Encyclopedia of Genes and Genomes(Kegg)、MetaCycデータベースまたはそれらのいずれかの等価物により、UniRefヒットを経路にマッピングするステップ205と、(f)MiniPathを用いて経路存在量の表を生成するステップと、(g)機械学習(ML)解析のために経路存在量の表を出力するステップ207とを含む、図2Aに示すバイオインフォマティクスパイプラインHUMAnN208を使用して確かめることができる。
一部の実施形態では、機能的微生物遺伝子の存在量は、(a)対象の液体生検から次世代配列決定リードを生成するステップ(NGS)201と、(b)bowtie、krakenフィルタリング方法またはそれらのいずれかの等価物によってヒト配列決定リードをフィルタリングするステップ202と、(c)(b)の配列決定リードをフィルタリングするステップの結果として、微生物配列決定を生成するステップ203と、(d)bowtie2またはそのいずれかの等価物リードアライメントツールを用いて、(c)の配列決定リードをWeb of Lifeデータベースにマッピングするステップ209と、(e)(d)由来のマッピング座標を使用して、UniREF遺伝子存在量を計算するステップ210と、(f)KEGG、MetaCycまたはそれらのいずれかの等価物を用いて、UniRefヒットを経路にマッピングするステップ211と、(g)機械学習(ML)解析のために経路存在量の表を出力するステップ207とを含む、図2Bに示すバイオインフォマティクスパイプラインWeb of Life Toolkit App(WolTka)212またはそのいずれかの等価物を使用して確かめられる。このようなバイオインフォマティクスパイプラインおよびデータベースの使用は、限定を意図するものではないが、微生物遺伝子存在量データに達することができるコンピュータによる手段の説明として役立つことを意図し、したがって、上述のバイオインフォマティクスのいかなる実質的等価物の使用も意図する。
本明細書に開示されている態様は、診断モデルを訓練する方法(図1A)であって、(a)訓練データセットとして、(i)1名または複数の対象の1種または複数の配列決定された微生物の機能的遺伝子の存在量を用意するステップ108と、(b)検査セットとして、(i)1名または複数の対象の1種または複数の配列決定された微生物の機能的遺伝子の存在量を用意するステップ108と、(c)それぞれ訓練対検証試料の少なくとも約10対90、20対80、30対70、40対60、50対50、60対40、70対30、80対20または90対10の試料比において診断モデルを訓練するステップと、(d)診断モデルの診断精度を評価するステップとを含む方法を提供する。
一部の実施形態では、訓練された診断モデルによって為される診断は、図1Aに見られる通り、健康な(すなわち、がんがない)対象を示す機械学習シグネチャ111、またはがん陽性対象を示す機械学習由来のシグネチャ112を含むことができる。一部の実施形態では、訓練された診断モデルは、シグナルと命名された他の1種または複数の微生物または非微生物配列を選択的に保持しつつ、ノイズとして分類された1種または複数の微生物または非微生物核酸を同定し、除去することができる。
訓練されたモデルを利用した診断または予測方法
一部の実施形態では、図1Bに見られる通り、訓練された診断モデル110を使用して、未知の疾患状況の対象由来の核酸試料113を解析し、疾患の診断と、適用可能であれば、疾患の状態の分類115を提供することができる。
一部の実例では、本明細書に提供される本開示は、対象のがんの存在またはその欠如を決定する方法について記載する。一部の事例では、方法は、(a)対象の生体試料の1種または複数の配列決定リードを用意するステップと、(b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、(e)訓練されたモデルに、タンパク質データベース関連性のセットの入力が提供される場合、対象のがんの存在またはその欠如を、訓練されたモデルに対する出力として決定するステップとを含むことができる。一部の実例では、タンパク質データベース関連性のセットは、本明細書の他の箇所に記載されている、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含むことができる。一部の実例では、方法は、ステップ(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含むことができる。一部の事例では、夾雑物非ヒト配列決定リードは、事前に(a prior)、または実験データ解析から決定された夾雑物非ヒト配列決定リードのデータベースから決定することができる。一部の事例では、ステップ(c)の翻訳するステップは、in silicoで完了することができる。一部の実例では、方法は、ステップ(a)の代わりにまたはそれに加えて、対象の核酸組成物を配列決定するステップを含むことができる。一部の事例では、方法は、訓練されたモデルを用いて、対象のがんを処置するための治療法を出力するステップをさらに含むことができ、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる。
一部の事例では、対象は、ヒトであっても非ヒト哺乳動物であってもよい。一部の事例では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せを含むことができる。一部の事例では、生体試料は、核酸組成物を含むことができ、核酸組成物は、DNA、RNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含むことができる。一部の事例では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つことができる。一部の実例では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含むことができる。
一部の実例では、対象は、がんを含むことができる。一部の事例では、がんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含むことができる。
一部の事例では、訓練されたモデルは、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練することができる。一部の実例では、訓練されたモデルは、対象のがんの1種または複数のサブタイプを決定するように構成することができる。一部の事例では、訓練されたモデルは、対象のがんのステージ、がん予後、またはこれらのいずれかの組合せを決定するように構成することができる。一部の実例では、訓練されたモデルは、低ステージ(ステージIまたはステージII)腫瘍における対象のがんの存在またはその欠如を決定するように構成することができる。一部の事例では、訓練されたモデルは、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成することができる。一部の事例では、訓練されたモデルは、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成することができる。一部の事例では、訓練されたモデルは、対象のがんの1種または複数の型を決定するように構成することができる。
一部の実例では、ゲノムデータベースは、ヒトゲノムデータベースであってもよい。一部の事例では、ステップ(b)のフィルタリングするステップは、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって配列決定リードをコンピュータによりフィルタリングすることを含むことができる。一部の実例では、タンパク質データベースは、UniRefデータベースであってもよい。一部の事例では、ステップ(c)の翻訳するステップは、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成することができる。一部の事例では、ステップ(d)の非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成することができる。一部の事例では、生化学的経路は、ソフトウェアパッケージMiniPathを用いて生成することができる。
一部の実例では、本明細書に提供される本開示は、訓練された予測モデルを用いて対象のがん処置を変更する方法について記載する。一部の事例では、方法は、(a)がん、がん型およびがんを処置するために施された処置と共に、対象の生体試料の1種または複数の配列決定リードを用意するステップと、(b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、(e)施された処置が、タンパク質データベース関連性のセットを用いて入力されたときに、訓練された予測モデルによって出力される処置推奨と異なる場合、対象のがん処置を変更するステップとを含むことができる。一部の事例では、訓練された予測モデルは、第2のセットの1名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される。一部の事例では、第2のセットの1名または複数の対象は、第1のセットの1名または複数の対象とは異なる。一部の実例では、タンパク質データベース関連性のセットは、本明細書の他の箇所に記載されている、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含むことができる。一部の実例では、方法は、ステップ(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含むことができる。一部の事例では、夾雑物非ヒト配列決定リードは、事前に、または実験データ解析から決定された夾雑物非ヒト配列決定リードのデータベースから決定することができる。一部の事例では、ステップ(c)の翻訳するステップは、in silicoで完了することができる。一部の実例では、方法は、ステップ(a)の代わりにまたはそれに加えて、対象の核酸組成物を配列決定するステップを含むことができる。一部の事例では、方法は、訓練されたモデルを用いて、対象のがんを処置するための治療法を出力するステップをさらに含むことができ、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる。
一部の事例では、対象は、ヒトであっても非ヒト哺乳動物であってもよい。一部の事例では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せを含むことができる。一部の事例では、生体試料は、核酸組成物を含むことができ、核酸組成物は、DNA、RNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含むことができる。一部の事例では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つことができる。一部の実例では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含むことができる。
一部の実例では、対象は、がんを含むことができる。一部の事例では、がんは、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含むことができる。
一部の事例では、処置推奨は、対象が肯定的な有効性で応答するであろう治療法を含む。一部の事例では、対象が免疫療法を施される場合、処置推奨は、対象の免疫療法応答を含む。
一部の実例では、ゲノムデータベースは、ヒトゲノムデータベースであってもよい。一部の事例では、ステップ(b)のフィルタリングするステップは、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって配列決定リードをコンピュータによりフィルタリングすることを含むことができる。一部の実例では、タンパク質データベースは、UniRefデータベースであってもよい。一部の事例では、ステップ(c)の翻訳するステップは、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成することができる。一部の事例では、ステップ(d)の非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成することができる。一部の事例では、生化学的経路は、ソフトウェアパッケージMiniPathを用いて生成することができる。
コンピュータシステム
図9は、本明細書に記載されるモデルおよび/または予測モデルを実装および/または訓練するのに適したコンピュータシステム901を示す。コンピュータシステム901は、例えば、生体試料の対象の配列のような、本開示の情報の種々の態様を処理することができる。コンピュータシステム901は、電子デバイスであり得る。電子デバイスは、移動電子デバイスであり得る。
コンピュータシステム901は、単一コアもしくはマルチコアプロセッサー、または並列処理のための複数のプロセッサーであり得る中央処理ユニット(CPU、また本明細書では「プロセッサー」および「コンピュータ・プロセッサー」)905を構成し得る。コンピュータシステム901は、メモリまたはメモリ位置904(例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ)、電子記憶ユニット906(例えば、ハードディスク)、1つまたは複数の他のデバイスと通信するための通信インターフェース908(例えば、ネットワークアダプタ)、およびキャッシュ、他のメモリ、データ記憶および/または電子ディスプレイアダプタなどの周辺デバイス907と通信するためにメモリまたはメモリ位置904をさらに構成し得る。メモリ904、記憶ユニット906、インターフェース908、および周辺デバイス907は、マザーボードなどの通信バス(実線)を介してCPU905と通信する。記憶ユニット906は、データを記憶するためのデータ記憶ユニット(またはデータリポジトリ)であり得る。コンピュータシステム901は、通信インターフェース908の助けを借りて、コンピュータネットワーク(「ネットワーク」)400に動作可能に結合され得る。ネットワーク400は、インターネット、インターネットおよび/またはエクストラネット、またはインターネットと通信するイントラネットおよび/またはエクストラネットであり得る。ネットワーク400は、場合によっては、通信および/またはデータネットワークであり得る。ネットワーク400は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる1つまたは複数のコンピュータサーバを構成することができる。ネットワーク400は、場合によっては、コンピュータシステム901の助けを借りて、ピアツー・ピア・ネットワークを実装することができ、これにより、コンピュータシステム901に結合されたデバイスは、クライアントまたはサーバとして動作することができる。
CPU905は、プログラムまたはソフトウェアに具現化することができる機械可読命令のシーケンスを実行することができる。命令は、CPU905に向けられ、CPU905は、その後、本開示の方法を実装するためにCPU905をプログラムするかまたは他の方法で構成し得る。CPU905によって行われる動作の例は、フェッチ、デコード、実行、およびライトバックを含み得る。
CPU905は、集積回路のような回路の一部であり得る。システム901の1種または複数の他の構成要素を回路に含めることができる。場合によっては、回路は特定用途向け集積回路(ASIC)である。
記憶ユニット906は、ドライバ、ライブラリ、および保存されたプログラムなどのファイルを記憶することができる。記憶ユニット906は、1名または複数対象の生体試料、存在する場合はがんタイプ、がんを処置するために施される処置、施される処置の処置効力、またはそれらの任意の組み合わせのうちの1つまたは複数の配列決定リードを記憶することができる。コンピュータシステム901は、場合によっては、イントラネットまたはインターネットを介してコンピュータシステム901と通信するリモートサーバ上に配置されるような、コンピュータシステム901の外部にある1つまたは複数の追加のデータ記憶ユニットを含み得る。
本明細書に記載される方法は、コンピュータデバイス901の電子記憶場所、例えば、メモリ904または電子記憶ユニット906に記憶された機械(例えば、コンピュータプロセッサー)実行可能コードによって実装することができる。機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供され得る。使用中、コードは、プロセッサー905によって実行されてもよい。いくつかの例では、コードは記憶ユニット906から取り出され、プロセッサー905による容易なアクセスのためにメモリ904に記憶される。いくつかの例では、電子記憶ユニット906は除外され得、機械実行可能命令はメモリ904に記憶される。
コードは、コードを実行するように適合されたプロセッサーを有する機械で使用するために予めコンパイルされ、構成され得るか、または実行時にコンパイルされ得る。コードは、プログラム言語で供給され得、このプログラム言語は、予めコンパイルされたかまたはコンパイルされた状態でコードを実行することを可能にするように選択され得る。
コンピュータシステム901のような、本明細書に提供されるシステムおよび方法の態様は、プログラミングにおいて具体化することができる。本技術の種々の態様は、典型的には、機械可読媒体のタイプ上に担持されるかまたは具体化される機械(またはプロセッサー)実行可能コードおよび/または関連データの形態での「製品」または「製造物品」と考えられ得る。機械実行可能コードは、電子記憶ユニット、例えば、メモリ(例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクに記憶され得る。「記憶」型媒体は、コンピュータ、プロセッサー等の有形メモリ、または種々の半導体メモリ、テープドライブ、ディスクドライブ等のようなそれらの関連モジュールのいずれかまたは全てを含み得、ソフトウェアプログラミングのためにいつでも一時的でない記憶を提供することができる。ソフトウェアの全部または一部は、時にインターネットまたは種々の他の電気通信ネットワークを介して通信することができる。このような通信は、例えば、あるコンピュータまたはプロセッサーから別のコンピュータへ、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへソフトウェアをロードすることを可能にすることができる。したがって、ソフトウェアエレメントを担持することができる別のタイプの媒体は、例えば、ローカルデバイス間の物理的インターフェースを横断して、有線および光ランドラインネットワークを介して、および種々の空中リンクを介して使用されるような、光学的、電気的および電磁波を含む。有線または無線リンク、光リンク等のような、そのような波を運ぶ物理的エレメントもまた、ソフトウェアを担持する媒体とみなすことができる。本明細書で使用される場合、一時的ではない、有形の「記憶」媒体に限定されない限り、コンピュータまたは機械「可読媒体」のなどの用語は、実行のためにプロセッサーに命令を提供することに関与する任意の媒体を指す。
したがって、コンピュータ実行可能コードなどの機械可読媒体は、限定されないが、有形記憶媒体、搬送波媒体または物理伝送媒体を含む多くの形態をとることができる。不揮発性記憶媒体は、例えば、データベース等を実装するために使用することができる任意のコンピュータ(複数可)等の記憶デバイスのような光ディスクまたは磁気ディスクを含むことができる。揮発性記憶媒体には、コンピュータプラットフォームのメインメモリなどのダイナミックメモリが含まれる。有形伝送媒体は、同軸ケーブル、銅線および光ファイバを含み、コンピュータデバイス内のバスを構成するワイヤを含む。搬送波伝送媒体は、電気信号または電磁信号、または無線周波数(RF)および赤外(IR)データ通信中に発生する音波または光波の形態をとることができる。そのためのコンピュータ可読媒体の一般的な形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、他の光学媒体、パンチカード紙テープ、穴のパターンを有する他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、キャリア波輸送データまたは命令、このようなキャリア波を輸送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータを読み取ることができる任意の他の媒体が含まれる。これらの形式のコンピュータ可読媒体の多くは、実行のために、1つまたは複数の命令の1種または複数のシーケンスをプロセッサーに運ぶことに関与することができる。
コンピュータシステムは、訓練された予測モデルによって出力された治療処置を見るためのユーザインターフェース(UI)903、および/または1名または複数の対象についてのがんの存在または欠如の推奨または決定を含む電子ディスプレイ902を含み得るか、または電子ディスプレイ902と通信し得る。UIの例には、限定されないが、グラフィカルユーザーインターフェース(GUI)およびウェブベースのユーザインターフェースが含まれる。
本開示の方法およびシステムは、1つまたは複数のアルゴリズムによって、および本明細書に開示される1つまたは複数のプロセッサーとともに提供される命令によって実装することができる。アルゴリズムは、中央処理ユニット905によって実行されると、ソフトウェアによって実装することができる。アルゴリズムは、例えば、ランダムフォレスト、グラフィカルモデル、サポートベクトルマシン、または他のものであり得る。
一部の事例では、本明細書に提供される本開示は、1名または複数の対象に関する治療的処置予測を提供するための訓練された予測モデルを利用するためのコンピュータ実装方法について記載する。一部の実例では、方法は、(a)第1のセットの1名または複数の対象の生体試料の核酸配列決定リード、および対応するがん分類を受け取るステップと、(b)ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、(e)タンパク質データベース関連性のセットが、入力として、訓練された予測モデルに提供される場合、訓練された予測モデルを利用して、第1のセットの1名または複数の対象に関する処置予測を提供するステップとを含むことができる。一部の事例では、方法は、(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含むことができる。一部の実例では、ステップ(c)の翻訳するステップは、in silicoで完了することができる。
一部の事例では、訓練された予測モデルは、第2のセットの1名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練することができる。一部の実例では、第2のセットの1名または複数の対象は、第1のセットの1名または複数の対象とは異なることができる。一部の事例では、タンパク質データベース関連性のセットは、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含むことができる。一部の事例では、生体試料は、組織、液体生検試料またはこれらのいずれかの組合せを含むことができる。一部の実例では、液体生検は、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含むことができる。一部の事例では、第1のセットの1名または複数の対象は、ヒトであっても非ヒト哺乳動物であってもよい。一部の実例では、生体試料核酸組成物は、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含むことができる。一部の実例では、ゲノムデータベースは、ヒトゲノムデータベースであってもよい。一部の事例では、非ヒト配列は、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つことができる。一部の実例では、処置予測は、第1のセットの1名または複数の対象に免疫療法が投与される場合、第1のセットの1名または複数の対象の免疫療法応答を含むことができる。一部の実例では、処置予測は、第1のセットの1名または複数の対象が、肯定的な有効性で応答するであろうという治療有効性を含むことができる。一部の事例では、がん分類は、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含むことができる。
一部の事例では、ステップ(b)のフィルタリングするステップは、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含むことができる。一部の事例では、タンパク質データベースは、UniRefデータベースであってもよい。一部の実例では、ステップ(c)の翻訳するステップは、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成することができる。一部の事例では、ステップ(d)の非ヒトタンパク質を生化学的経路にマッピングするステップは、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成することができる。一部の事例では、生化学的経路は、ソフトウェアパッケージMinPathを用いて生成することができる。
上述のステップは、例に従ったシステムの方法を示すが、当業者は、本明細書に記載されている教示に基づき、多くの変種を認識するであろう。ステップは、異なる順序で完了することができる。ステップは、追加または削除することができる。ステップのいくつかは、サブステップを含むことができる。ステップの多くは、プラットフォームにとって有益となるような回数で繰り返すことができる。
定義
別段の定義がない限り、本明細書で使用される技術用語の全て、注釈、および他の技術用語および科学用語は、請求される主題事項が関係する当業者によって一般的に理解されているのと同じ意味を有することを意図する。場合によっては、一般に理解されている意味を有する用語は、明確性および/または容易な参照のために本明細書に定義され、本明細書にそのような定義を含めることは、当該技術分野において一般に理解されているものに対して実質的な差異を表すものと必ずしも解釈されるべきではない。
この出願全体を通じて、様々な実施形態を範囲フォーマットで提示することができる。範囲フォーマットの記載は、単に便宜的および簡潔なものであり、本開示の範囲に対する柔軟性のない限定と解釈されるべきではないことを理解されたい。したがって、範囲の記載は、その範囲内の全ての可能なサブ範囲、ならびに個々の数値を具体的に開示したものとみなされるべきである。例えば、1~6のような範囲の記載は、1~3、1~4、1~5、2~4、2~6、3~6などのようなサブ範囲、ならびに、例えば、1、2、3、4、5、および6などの範囲内の個々の数字のような、具体的に開示されたものとみなすべきである。これは、範囲の幅に関係なく適用される。
明細書および特許請求の範囲において使用される場合、文脈が明確に別段の指示をしない限り、単数形「1つの(a)」、「1つの(an)」および「その(the)」は複数の指示対象を含む。例えば、用語「試料(a sample)」は、それらの混合物を含む複数の試料を含む。
用語「決定」、「測定」、「評価」、「アセスメント」、「アッセイ」、および「分析」は、本明細書中ではしばしば互換的に使用され、測定の形態を指す。用語には、エレメントが存在するか否かの決定(例えば、検出)が含まれる。これらの用語には、定量的、定性的、または定量的かつ定性的な決定を含めることができる。アセスメントは相対的または絶対的であり得る。「存在を検出すること」は、状況に応じて存在するか否かの決定に加えて、存在する何かの量を決定することを含むことができる。
用語「対象」、「個体」、または「患者」は、しばしば本明細書において互換的に使用される。「対象」は、発現された遺伝物質を含有する生物学的実体であり得る。生物学的実体は、植物、動物、または微生物であり得、例えば、細菌、ウイルス、真菌、および原生動物を含む。対象は、in vivoで得られたかまたはin vitroで培養された生物学的実体の組織、細胞およびそれらの子孫であり得る。対象は哺乳動物であり得る。哺乳動物はヒトであり得る。対象は、疾患のハイリスクであると診断され得るかまたは疑われることがある。場合によっては、対象は、必ずしも疾患の高リスクであると診断されていないかまたは疑われていないこともある。
用語「in vivo」は、対象の身体において起こる事象を記載するために使用される。
用語「ex vivo」は、対象の体外で起こる事象を記載するために使用される。ex vivoアッセイは、対象に対して行われない。むしろ、それは、対象とは別の試料上で行われる。試料について行われるex vivoアッセイの例は、「in vitro」アッセイである。
用語「in vitro」とは、実験試薬を保持するための容器内で起こり、その結果、それが材料が得られる生物学的供給源から分離されるような事象を記載するために使用される。in vitroアッセイは、生細胞または死細胞が採用される細胞に基づくアッセイを包含することができる。in vitroアッセイは、無傷細胞が採用されない無細胞アッセイも包含することができる。
本明細書で使用される場合、数の「約」という用語は、その数のプラスまたはマイナス10%を指す。範囲の「約」という用語は、その範囲からその最低値の10%を引いたものと、その最大値の10%をプラスしたものを指す。
絶対語または連続語、例えば、「であろう(will)」、「ないであろう(will not)」、「するものとする(shall)」、「ないものとする(shall not)」、「なければならない(must)」、「なくてもよい(must not)」、「第1に」、「最初に」、「次に」、「続いて」、「前に」、「後に」、「最後に」、および「最終に」の使用は、本明細書に開示されるが、一例としての本実施形態の範囲を制限するものではない。
本明細書に記載される任意のシステム、方法、ソフトウェア、組成物、およびプラットフォームは、モジュール式であり、連続するステップに限定されない。したがって、「第1」および「第2」のような用語は、必ずしも、行為の優先順位、重要性の順序または順序を意味するものではない。
本明細書で使用される場合、用語「処置」または「処置する」は、レシピエントにおいて有益なまたは所望の結果を得るための薬学的または他の介入レジメンに関して使用される。有益なまたは望ましい結果には、限定されないが、治療利益および/または予防利益が含まれる。治療利益とは、症状の根絶または改善、または処置中の基礎疾患の根絶または改善を指すことができる。また、対象が依然として基礎疾患に苦しんでいる可能性があるにもかかわらず、対象において改善が観察されるように、基礎疾患に関連する1つまたは複数の生理学的症状を根絶または改善することによって、治療利益を達成することができる。予防効果には、疾患または状態の出現を遅らせ、予防し、または排除すること、疾患または状態の症状の開始を遅らせ、または排除すること、疾患または状態の進行を遅らせ、停止させ、または逆転させること、またはそれらの任意の組み合わせが含まれる。予防利益のために、特定の疾患を発症するリスクのある対象、または疾患の1つまたは複数の生理学的症状を報告する対象は、たとえこの疾患の診断がなされなかったとしても、処置を受けることができる。
本明細書で使用されるセクションの見出しは、組織上の目的のためにのみ使用され、記載される主題を制限するものと解釈されるべきではない。
実施例1
疾患の診断と分類のための遺伝的経路について訓練された診断モデルの生成および利用
対象を、非哺乳動物経路の存在量に基づいて、健常者、肺がん患者、または肺疾患患者として分類するように構成された診断モデルを作成し、試験した。健常者166例、肺がん288例、肺疾患109例の無細胞DNA(cfDNA)配列決定ライブラリを得、さらに処理した。サブがんカテゴリーのさらなる内訳は、図3に参照される。次に、cfDNA配列決定試料を、図4A~4Bに示されるWeb of Life Toolkit App(Woltka)とHUMAnN 3.0(Humann)パイプラインの両方を用いて、生化学的経路分類と整列させた。この最初の分析に基づいて、Woltkaは、試料をHumannツールキットよりもより代表的な経路分布に分類した。Woltka分類経路から、以下の遺伝子オントロジー(GO)経路が機械学習に基づく分類器:GO:0055085:膜貫通輸送;GO:0005975:炭水化物代謝プロセス;GO:0006412:翻訳;GO:0006313:転位、DNA媒介;GO:0006355:転写の調節、DNA鋳型;GO:0006260:DNA複製;GO:00006351:転写、DNA鋳型;およびGO:0000160:リン酸化物シグナル伝達系の最も重要な特徴であることが見出された。がん対健康の鑑別に重要であることが同定された他の経路、およびがん対肺疾患の対象との鑑別に重要であると同定された他の経路は、図5A~5Bに見ることができる。図2BにおけるWolTkaパイプラインを介して同定された微生物経路は、予測モデル(例えば、10倍のクロスバリデーションランダムフォレスト)を訓練するための入力として使用され、がん対健康およびがん対肺疾患の鑑別を可能にした。受信者動作特性下面積(AUC)分析(図6A~6B)によって表される各モデルの性能は、図6C~Dに示される微生物分類上の存在量について訓練されたがん対健康およびがん対肺疾患の予測モデルと比較することができる。Woltkaによって分類された経路の重要性について訓練された予測モデルは、AUC0.756でがん対健常者、およびAUC0.705でがん対肺疾患を区別することができ、がん対健常者のAUC0.818、微生物分類学で訓練された予測モデルのがん対肺疾患の0.707に匹敵することが見出された。
実施例2
がんの病期を決定するための遺伝的経路について訓練された診断モデルの生成および利用肺疾患の経路存在量の背景における非哺乳類経路存在量に基づいて、対象のがんの病期を分類するように構成された診断モデルを作製し、試験した。肺疾患の対象に加えて様々な病期のがん患者の無細胞DNA(cfDNA)配列決定データを得た。配列決定データは、図7に示されるように、様々な公知の病期のがん患者288人および肺疾患患者109人から構成された。がんのタイプおよびサブカテゴリーの数のさらなる分解が、同様に図7に示されている。実施例1に示されるように、cf-mbDNA配列のための複数のWoltka分類経路を決定し、10倍の交差バリデーションでランダムフォレストを訓練するために使用した。次に、各訓練されたランダムフォレスト予測モデルの精度は、図8A~8Dに示されるように、受信者動作特性曲線下面積(AUC)によって分析された。Woltkaによって分類された経路の重要性について訓練された予測モデルにより、AUCが0.868、2期がん対肺疾患のAUCが0.582、3期がん対肺疾患のAUCが0.793、および4期がん対肺疾患のAUCが0.906で、1期がん対肺疾患を区別することができた。
実施形態
1.対象のがんの存在またはその欠如を決定する方法であって、
(a)対象の生体試料の1種または複数の配列決定リードを用意するステップと、
(b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
(e)訓練されたモデルに、タンパク質データベース関連性のセットの入力が提供される場合、対象のがんの存在またはその欠如を、訓練されたモデルに対する出力として決定するステップと
を含む方法。
2.タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態1に記載の方法。
3.(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態1に記載の方法。
4.翻訳するステップが、in silicoで完了される、実施形態1に記載の方法。
5.生体試料が、組織、液体生検、またはこれらのいずれかの組合せである、実施形態1に記載の方法。
6.対象が、ヒトまたは非ヒト哺乳動物である、実施形態1に記載の方法。
7.生体試料が、核酸組成物を含み、核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、実施形態1に記載の方法。
8.ゲノムデータベースが、ヒトゲノムデータベースである、実施形態1に記載の方法。
9.訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、実施形態1に記載の方法。
10.非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態1に記載の方法。
11.訓練されたモデルが、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、実施形態1に記載の方法。
12.訓練されたモデルが、対象のがんの1種または複数の型を決定するように構成されている、実施形態1に記載の方法。
13.訓練されたモデルが、対象のがんの1種または複数のサブタイプを決定するように構成されている、実施形態12に記載の方法。
14.訓練されたモデルが、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている、実施形態1に記載の方法。
15.訓練されたモデルが、低ステージ(ステージIまたはステージII)腫瘍におけるがんの存在またはその欠如を決定するように構成されている、実施形態1に記載の方法。
16.訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、実施形態1に記載の方法。
17.訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、実施形態1に記載の方法。
18.対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態1に記載の方法。
19.液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態5に記載の方法。
20.フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態1に記載の方法。
21.タンパク質データベースが、UniRefデータベースである、実施形態1に記載の方法。
22.翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態1に記載の方法。
23.非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態2に記載の方法。
24.生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、実施形態2に記載の方法。
25.対象のがんの存在またはその欠如の決定を提供する方法であって、
(a)対象の生体試料の核酸組成物を配列決定し、これにより、配列決定リードを生成するステップと、
(b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
(e)訓練されたモデルに、セットタンパク質データベース関連性の入力が提供される場合、対象のがんの存在またはその欠如の決定を、訓練されたモデルの出力として提供するステップと
を含む方法。
26.タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態25に記載の方法。
27.(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態25に記載の方法。
28.翻訳するステップが、in silicoで完了される、実施形態25に記載の方法。
29.生体試料が、組織、液体生検試料またはこれらのいずれかの組合せである、実施形態25に記載の方法。
30.対象が、ヒトまたは非ヒト哺乳動物である、実施形態25に記載の方法。
31.生体試料が、核酸組成物を含み、核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、実施形態25に記載の方法。
32.ゲノムデータベースが、ヒトゲノムデータベースである、実施形態25に記載の方法。
33.訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、実施形態25に記載の方法。
34.非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態25に記載の方法。
35.訓練されたモデルが、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、実施形態25に記載の方法。
36.訓練されたモデルが、対象のがんの1種または複数の型を決定するように構成されている、実施形態25に記載の方法。
37.訓練されたモデルが、対象のがんの1種または複数のサブタイプを決定するように構成されている、実施形態36に記載の方法。
38.訓練されたモデルが、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている、実施形態25に記載の方法。
39.訓練されたモデルが、低ステージ(ステージIまたはステージII)腫瘍におけるがんの存在またはその欠如を決定するように構成されている、実施形態25に記載の方法。
40.訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、実施形態25に記載の方法。
41.訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、実施形態25に記載の方法。
42.対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態25に記載の方法。
43.液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態29に記載の方法。
44.フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態25に記載の方法。
45.タンパク質データベースが、UniRefデータベースである、実施形態25に記載の方法。
46.翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態25に記載の方法。
47.非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態26に記載の方法。
48.生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、実施形態26に記載の方法。
49.対象のがんの存在またはその欠如を決定するように構成されたモデルを訓練する方法であって、
(a)第1のセットの1名または複数の対象の核酸組成物の核酸配列決定リード、および第1のセットの1名または複数の対象の対応する1種または複数のがんを含むデータセットを用意するステップと、
(b)ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、
(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
(e)タンパク質データベース関連性のセット、および第1のセットの1名または複数の対象の対応する1種または複数のがん状態を用いてモデルを訓練し、これにより、第2のセットの1名または複数の対象のがんの存在またはその欠如を決定するように構成された訓練されたモデルを生成するステップと
を含む方法。
50.タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態49に記載の方法。
51.(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態49に記載の方法。
52.翻訳するステップが、in silicoで完了される、実施形態49に記載の方法。
53.生体試料が、組織、液体生検試料またはこれらのいずれかの組合せである、実施形態49に記載の方法。
54.第1のセット、第2のセットまたはこれらのいずれかの組合せの1名または複数の対象が、ヒトまたは非ヒト哺乳動物である、実施形態49に記載の方法。
55.生体試料が、核酸組成物を含み、核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、実施形態49に記載の方法。
56.ゲノムデータベースが、ヒトゲノムデータベースである、実施形態49に記載の方法。
57.訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、実施形態49に記載の方法。
58.非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態49に記載の方法。
59.訓練されたモデルが、第2のセットの1名または複数の対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、実施形態49に記載の方法。
60.訓練されたモデルが、第2のセットの1名または複数の対象のがんの1種または複数の型を決定するように構成されている、実施形態49に記載の方法。
61.訓練されたモデルが、第2のセットの1名または複数の対象のがんの1種または複数のサブタイプを決定するように構成されている、実施形態60に記載の方法。
62.訓練されたモデルが、第2のセットの1名もしくは複数の対象のがんのステージ、がん予後またはこれらのいずれかの組合せを決定するように構成されている、実施形態49に記載の方法。
63.訓練されたモデルが、低ステージ(ステージIまたはステージII)腫瘍における第2のセットの1名または複数の対象のがんの存在またはその欠如を決定するように構成されている、実施形態49に記載の方法。
64.訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、実施形態49に記載の方法。
65.訓練されたモデルを用いて、第2のセットの1名または複数の対象のがんを処置するための治療法を出力するステップをさらに含み、第2のセットの1名または複数の対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、実施形態49に記載の方法。
66.第1および第2のセットの1名または複数の対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態49に記載の方法。
67.液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態53に記載の方法。
68.フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態49に記載の方法。
69.タンパク質データベースが、UniRefデータベースである、実施形態49に記載の方法。
70.翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態49に記載の方法。
71.非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態50に記載の方法。
72.生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、実施形態50に記載の方法。
73.データセットが、第1のセットの1名または複数の対象に施された対応する以前のまたは現在の処置をさらに含む、実施形態51に記載の方法。
74.データセットが、第1のセットの1名または複数の対象の以前のまたは現在の処置投与の処置有効性をさらに含む、実施形態73に記載の方法。
75.1名または複数の対象に関する治療的処置予測を提供するための訓練された予測モデルを利用するためのコンピュータ実装方法であって、
(a)第1のセットの1名または複数の対象の生体試料の核酸配列決定リード、および対応するがん分類を受け取るステップと、
(b)ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、
(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
(e)タンパク質データベース関連性のセットが、入力として、訓練された予測モデルに提供される場合、訓練された予測モデルを利用して、第1のセットの1名または複数の対象に関する処置予測を提供するステップと
を含む方法。
76.訓練された予測モデルが、第2のセットの1名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される、実施形態75に記載の方法。
77.第2のセットの1名または複数の対象が、第1のセットの1名または複数の対象とは異なる、実施形態76に記載の方法。
78.タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態75に記載の方法。
79.(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態75に記載の方法。
80.翻訳するステップが、in silicoで完了される、実施形態75に記載の方法。
81.生体試料が、組織、液体生検試料またはこれらのいずれかの組合せである、実施形態75に記載の方法。
82.第1のセットの1名または複数の対象が、ヒトまたは非ヒト哺乳動物である、実施形態75に記載の方法。
83.生体試料核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、実施形態75に記載の方法。
84.ゲノムデータベースが、ヒトゲノムデータベースである、実施形態75に記載の方法。
85.非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態75に記載の方法。
86.第1のセットの1名または複数の対象に免疫療法が投与される場合、処置予測が、第1のセットの1名または複数の対象の免疫療法応答を含む、実施形態75に記載の方法。
87.処置予測が、第1のセットの1名または複数の対象が、肯定的な有効性で応答するであろうという治療有効性を含む、実施形態75に記載の方法。
88.がん分類が、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態75に記載の方法。
89.液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態79に記載の方法。
90.フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態75に記載の方法。
91.タンパク質データベースが、UniRefデータベースである、実施形態75に記載の方法。
92.翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態75に記載の方法。
93.非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態76に記載の方法。
94.生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、実施形態76に記載の方法。
95.訓練された予測モデルを用いて対象のがん処置を変更する方法であって、
(a)がん、がん型およびがんを処置するために施された処置と共に、対象の生体試料の1種または複数の配列決定リードを用意するステップと、
(b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
(c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
(d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
(e)施された処置が、タンパク質データベース関連性のセットを用いて入力されたときに、訓練された予測モデルによって出力される処置推奨と異なる場合、対象のがん処置を変更するステップと
を含む方法。
96.訓練された予測モデルが、第2のセットの1名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される、実施形態95に記載の方法。
97.第2のセットの1名または複数の対象が、第1のセットの1名または複数の対象とは異なる、実施形態96に記載の方法。
98.タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、実施形態95に記載の方法。
99.(c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、実施形態95に記載の方法。
100.翻訳するステップが、in silicoで完了される、実施形態95に記載の方法。
101.生体試料が、組織、液体生検試料またはこれらのいずれかの組合せである、実施形態95に記載の方法。
102.対象が、ヒトまたは非ヒト哺乳動物である、実施形態95に記載の方法。
103.生体試料核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、実施形態95に記載の方法。
104.ゲノムデータベースが、ヒトゲノムデータベースである、実施形態95に記載の方法。
105.非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、実施形態95に記載の方法。
106.対象が免疫療法を投与される場合、処置推奨が、対象の免疫療法応答を含む、実施形態95に記載の方法。
107.処置推奨が、対象が肯定的な有効性で応答することになる治療法を含む、実施形態95に記載の方法。
108.対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、実施形態95に記載の方法。
109.液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、実施形態101に記載の方法。
110.フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、実施形態95に記載の方法。
111.タンパク質データベースが、UniRefデータベースである、実施形態95に記載の方法。
112.翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、実施形態95に記載の方法。
113.非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、実施形態96に記載の方法。
114.生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、実施形態96に記載の方法。

Claims (114)

  1. 対象のがんの存在またはその欠如を決定する方法であって、
    (a)対象の生体試料の1種または複数の配列決定リードを用意するステップと、
    (b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
    (c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
    (d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
    (e)訓練されたモデルに、タンパク質データベース関連性のセットの入力が提供される場合、対象のがんの存在またはその欠如を、訓練されたモデルに対する出力として決定するステップと
    を含む方法。
  2. タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路またはこれらのいずれかの組合せのセットを含む、請求項1に記載の方法。
  3. (c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項1に記載の方法。
  4. 翻訳するステップが、in silicoで完了される、請求項1に記載の方法。
  5. 生体試料が、組織、液体生検、またはこれらのいずれかの組合せである、請求項1に記載の方法。
  6. 対象が、ヒトまたは非ヒト哺乳動物である、請求項1に記載の方法。
  7. 生体試料が、核酸組成物を含み、核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、請求項1に記載の方法。
  8. ゲノムデータベースが、ヒトゲノムデータベースである、請求項1に記載の方法。
  9. 訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、請求項1に記載の方法。
  10. 非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項1に記載の方法。
  11. 訓練されたモデルが、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、請求項1に記載の方法。
  12. 訓練されたモデルが、対象のがんの1種または複数の型を決定するように構成されている、請求項1に記載の方法。
  13. 訓練されたモデルが、対象のがんの1種または複数のサブタイプを決定するように構成されている、請求項12に記載の方法。
  14. 訓練されたモデルが、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている、請求項1に記載の方法。
  15. 訓練されたモデルが、低ステージ(ステージIまたはステージII)腫瘍におけるがんの存在またはその欠如を決定するように構成されている、請求項1に記載の方法。
  16. 訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、請求項1に記載の方法。
  17. 訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、請求項1に記載の方法。
  18. 対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞(chromophobe)、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項1に記載の方法。
  19. 液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項5に記載の方法。
  20. フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項1に記載の方法。
  21. タンパク質データベースが、UniRefデータベースである、請求項1に記載の方法。
  22. 翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項1に記載の方法。
  23. 非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、請求項2に記載の方法。
  24. 生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、請求項2に記載の方法。
  25. 対象のがんの存在またはその欠如の決定を提供する方法であって、
    (a)対象の生体試料の核酸組成物を配列決定し、これにより、配列決定リードを生成するステップと、
    (b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
    (c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
    (d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
    (e)訓練されたモデルに、セットタンパク質データベース関連性の入力が提供される場合、対象のがんの存在またはその欠如の決定を、訓練されたモデルの出力として提供するステップと
    を含む方法。
  26. タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、請求項25に記載の方法。
  27. (c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項25に記載の方法。
  28. 翻訳するステップが、in silicoで完了される、請求項25に記載の方法。
  29. 生体試料が、組織、液体生検試料、またはこれらのいずれかの組合せである、請求項25に記載の方法。
  30. 対象が、ヒトまたは非ヒト哺乳動物である、請求項25に記載の方法。
  31. 生体試料が、核酸組成物を含み、核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、請求項25に記載の方法。
  32. ゲノムデータベースが、ヒトゲノムデータベースである、請求項25に記載の方法。
  33. 訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、請求項25に記載の方法。
  34. 非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項25に記載の方法。
  35. 訓練されたモデルが、対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、請求項25に記載の方法。
  36. 訓練されたモデルが、対象のがんの1種または複数の型を決定するように構成されている、請求項25に記載の方法。
  37. 訓練されたモデルが、対象のがんの1種または複数のサブタイプを決定するように構成されている、請求項36に記載の方法。
  38. 訓練されたモデルが、対象のがんのステージ、対象のがん予後、またはこれらのいずれかの組合せを決定するように構成されている、請求項25に記載の方法。
  39. 訓練されたモデルが、低ステージ(ステージIまたはステージII)腫瘍におけるがんの存在またはその欠如を決定するように構成されている、請求項25に記載の方法。
  40. 訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、請求項25に記載の方法。
  41. 訓練されたモデルを用いて、対象のがんを処置するための対象のための治療法を出力するステップをさらに含み、対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、請求項25に記載の方法。
  42. 対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項25に記載の方法。
  43. 液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項29に記載の方法。
  44. フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項25に記載の方法。
  45. タンパク質データベースが、UniRefデータベースである、請求項25に記載の方法。
  46. 翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項25に記載の方法。
  47. 非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、請求項26に記載の方法。
  48. 生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、請求項26に記載の方法。
  49. 対象のがんの存在またはその欠如を決定するように構成されたモデルを訓練する方法であって、
    (a)第1のセットの1名または複数の対象の核酸組成物の核酸配列決定リード、および第1のセットの1名または複数の対象の対応する1種または複数のがんを含むデータセットを用意するステップと、
    (b)ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、
    (c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
    (d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
    (e)タンパク質データベース関連性のセット、および第1のセットの1名または複数の対象の対応する1種または複数のがん状態を用いてモデルを訓練し、これにより、第2のセットの1名または複数の対象のがんの存在またはその欠如を決定するように構成された訓練されたモデルを生成するステップと
    を含む方法。
  50. タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、請求項49に記載の方法。
  51. (c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項49に記載の方法。
  52. 翻訳するステップが、in silicoで完了される、請求項49に記載の方法。
  53. 生体試料が、組織、液体生検試料、またはこれらのいずれかの組合せである、請求項49に記載の方法。
  54. 第1のセット、第2のセット、またはこれらのいずれかの組合せの1名または複数の対象が、ヒトまたは非ヒト哺乳動物である、請求項49に記載の方法。
  55. 生体試料が、核酸組成物を含み、核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、請求項49に記載の方法。
  56. ゲノムデータベースが、ヒトゲノムデータベースである、請求項49に記載の方法。
  57. 訓練されたモデルが、目的のがんに関する特徴的存在量と共に存在するまたは存在しない機能的遺伝子および生化学的経路存在量のセットを用いて訓練される、請求項49に記載の方法。
  58. 非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項49に記載の方法。
  59. 訓練されたモデルが、第2のセットの1名または複数の対象のがんのカテゴリーまたは組織特異的位置を決定するように構成されている、請求項49に記載の方法。
  60. 訓練されたモデルが、第2のセットの1名または複数の対象のがんの1種または複数の型を決定するように構成されている、請求項49に記載の方法。
  61. 訓練されたモデルが、第2のセットの1名または複数の対象のがんの1種または複数のサブタイプを決定するように構成されている、請求項60に記載の方法。
  62. 訓練されたモデルが、第2のセットの1名もしくは複数の対象のがんのステージ、がん予後、またはこれらのいずれかの組合せを決定するように構成されている、請求項49に記載の方法。
  63. 訓練されたモデル(trained)が、低ステージ(ステージIまたはステージII)腫瘍における第2のセットの1名または複数の対象のがんの存在またはその欠如を決定するように構成されている、請求項49に記載の方法。
  64. 訓練されたモデルが、対象に免疫療法が提供された場合に対象の免疫療法応答を決定するように構成されている、請求項49に記載の方法。
  65. 訓練されたモデルを用いて、第2のセットの1名または複数の対象のがんを処置するための治療法を出力するステップをさらに含み、第2のセットの1名または複数の対象は、この治療法を施された場合に、肯定的な治療有効性で応答することになる、請求項49に記載の方法。
  66. 第1および第2のセットの1名または複数の対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項49に記載の方法。
  67. 液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項53に記載の方法。
  68. フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項49に記載の方法。
  69. タンパク質データベースが、UniRefデータベースである、請求項49に記載の方法。
  70. 翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項49に記載の方法。
  71. 非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングするステップによって達成される、請求項50に記載の方法。
  72. 生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、請求項50に記載の方法。
  73. データセットが、第1のセットの1名または複数の対象に施された対応する以前のまたは現在の処置をさらに含む、請求項51に記載の方法。
  74. データセットが、第1のセットの1名または複数の対象の以前のまたは現在の処置投与の処置有効性をさらに含む、請求項73に記載の方法。
  75. 1名または複数の対象に関する治療的処置予測を提供するための訓練された予測モデルを利用するためのコンピュータ実装方法であって、
    (f)第1のセットの1名または複数の対象の生体試料の核酸配列決定リード、および対応するがん分類を受け取るステップと、
    (g)ゲノムデータベースのビルドを用いて核酸配列決定リードをフィルタリングして、非ヒト配列決定リードを生成するステップと、
    (h)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
    (i)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
    (j)タンパク質データベース関連性のセットが、入力として、訓練された予測モデルに提供される場合、訓練された予測モデルを利用して、第1のセットの1名または複数の対象に関する処置予測を提供するステップと
    を含む方法。
  76. 訓練された予測モデルが、第2のセットの1名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答またはこれらのいずれかの組合せにおいて訓練される、請求項75に記載の方法。
  77. 第2のセットの1名または複数の対象が、第1のセットの1名または複数の対象とは異なる、請求項76に記載の方法。
  78. タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、請求項75に記載の方法。
  79. (c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項75に記載の方法。
  80. 翻訳するステップが、in silicoで完了される、請求項75に記載の方法。
  81. 生体試料が、組織、液体生検試料、またはこれらのいずれかの組合せである、請求項75に記載の方法。
  82. 第1のセットの1名または複数の対象が、ヒトまたは非ヒト哺乳動物である、請求項75に記載の方法。
  83. 生体試料核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、請求項75に記載の方法。
  84. ゲノムデータベースが、ヒトゲノムデータベースである、請求項75に記載の方法。
  85. 非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項75に記載の方法。
  86. 第1のセットの1名または複数の対象に免疫療法が施される場合、処置予測が、第1のセットの1名または複数の対象の免疫療法応答を含む、請求項75に記載の方法。
  87. 処置予測が、第1のセットの1名または複数の対象が、肯定的な有効性で応答することになる治療有効性を含む、請求項75に記載の方法。
  88. がん分類が、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項75に記載の方法。
  89. 液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項79に記載の方法。
  90. フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項75に記載の方法。
  91. タンパク質データベースが、UniRefデータベースである、請求項75に記載の方法。
  92. 翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項75に記載の方法。
  93. 非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、請求項76に記載の方法。
  94. 生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、請求項76に記載の方法。
  95. 訓練された予測モデルを用いて対象のがん処置を変化させる方法であって、
    (a)がん、がん型、およびがんを処置するために施された処置と共に、対象の生体試料の1種または複数の配列決定リードを用意するステップと、
    (b)ゲノムデータベースを用いて配列決定リードをフィルタリングして、フィルタリングされた非ヒト配列決定リードのセットを作製するステップと、
    (c)非ヒト配列決定リードを非ヒトタンパク質に翻訳するステップと、
    (d)非ヒトタンパク質をタンパク質データベースにマッピングし、これにより、タンパク質データベース関連性のセットを作製するステップと、
    (e)施された処置が、タンパク質データベース関連性のセットを用いて入力されたときに、訓練された予測モデルによって出力される処置推奨と異なる場合、対象のがん処置を変更するステップと
    を含む方法。
  96. 訓練された予測モデルが、第2のセットの1名もしくは複数の対象の生体試料の核酸配列決定リード、対応するがん分類、対応する施された処置、対応する処置応答、またはこれらのいずれかの組合せにおいて訓練される、請求項95に記載の方法。
  97. 第2のセットの1名または複数の対象が、第1のセットの1名または複数の対象とは異なる、請求項96に記載の方法。
  98. タンパク質データベース関連性のセットが、機能的遺伝子、生化学的経路、またはこれらのいずれかの組合せのセットを含む、請求項95に記載の方法。
  99. (c)に先立ち、フィルタリングされた非ヒト配列決定リードを夾雑物排除して、夾雑物非ヒト配列決定リードを除去するステップをさらに含む、請求項95に記載の方法。
  100. 翻訳するステップが、in silicoで完了される、請求項95に記載の方法。
  101. 生体試料が、組織、液体生検試料、またはこれらのいずれかの組合せである、請求項95に記載の方法。
  102. 対象が、ヒトまたは非ヒト哺乳動物である、請求項95に記載の方法。
  103. 生体試料核酸組成物が、DNA、RNA、無細胞DNA、無細胞RNA、エキソソームDNA、エキソソームRNA、またはこれらのいずれかの組合せを含む、請求項95に記載の方法。
  104. ゲノムデータベースが、ヒトゲノムデータベースである、請求項95に記載の方法。
  105. 非ヒト配列が、細菌、古細菌、真菌、ウイルス、またはこれらのいずれかの組合せの生命起源に起源を持つ、請求項95に記載の方法。
  106. 対象が免疫療法を施される場合、処置推奨が、対象の免疫療法応答を含む、請求項95に記載の方法。
  107. 処置推奨が、対象が肯定的な有効性で応答することになる治療法を含む、請求項95に記載の方法。
  108. 対象のがんが、急性骨髄性白血病、副腎皮質癌、膀胱尿路上皮癌、脳低悪性度神経膠腫、浸潤性乳癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胆管細胞癌、結腸腺癌、食道癌、多形神経膠芽腫、頭頸部扁平上皮癌、腎臓嫌色素性細胞、腎臓の腎明細胞癌、腎臓の乳頭状腎細胞癌、肝臓の肝細胞癌、肺腺癌、肺扁平上皮癌、リンパ系新生物びまん性大細胞型B細胞リンパ腫、中皮腫、卵巣漿液性嚢胞腺癌、膵腺癌、褐色細胞腫および傍神経節腫、前立腺腺癌、直腸腺癌、肉腫、皮膚の皮膚黒色腫、胃腺癌、精巣胚細胞腫瘍、胸腺腫、甲状腺癌、子宮癌肉腫、子宮体部子宮内膜癌、ぶどう膜黒色腫、またはこれらのいずれかの組合せを含む、請求項95に記載の方法。
  109. 液体生検が、血漿、血清、全血、尿、脳脊髄液、唾液、汗、涙、呼気凝縮液、またはこれらのいずれかの組合せを含む、請求項101に記載の方法。
  110. フィルタリングするステップが、bowtie2、Kraken、またはこれらのいずれかの組合せのプログラムによって、配列決定リードをコンピュータによりフィルタリングすることを含む、請求項95に記載の方法。
  111. タンパク質データベースが、UniRefデータベースである、請求項95に記載の方法。
  112. 翻訳するステップが、BLASTP、USEARCH、LAST、MMSeqs2、DIAMOND、またはこれらのいずれかの組合せのソフトウェアパッケージによって達成される、請求項95に記載の方法。
  113. 非ヒトタンパク質を生化学的経路にマッピングするステップが、非ヒトタンパク質を、KEGG、MetaCyc、PANTHER経路、PathBank、またはこれらのいずれかの組合せのデータベースにマッピングすることによって達成される、請求項96に記載の方法。
  114. 生化学的経路が、ソフトウェアパッケージMinPathを用いて生成される、請求項96に記載の方法。
JP2023528760A 2020-11-16 2021-11-16 非ヒトメタゲノム経路解析によるがん診断および分類 Pending JP2023551795A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063114447P 2020-11-16 2020-11-16
US63/114,447 2020-11-16
PCT/US2021/059559 WO2022104278A1 (en) 2020-11-16 2021-11-16 Cancer diagnosis and classification by non-human metagenomic pathway analysis

Publications (1)

Publication Number Publication Date
JP2023551795A true JP2023551795A (ja) 2023-12-13

Family

ID=81602648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023528760A Pending JP2023551795A (ja) 2020-11-16 2021-11-16 非ヒトメタゲノム経路解析によるがん診断および分類

Country Status (9)

Country Link
US (1) US20230420134A1 (ja)
EP (1) EP4244374A1 (ja)
JP (1) JP2023551795A (ja)
KR (1) KR20230132768A (ja)
CN (1) CN116917495A (ja)
CA (1) CA3199032A1 (ja)
IL (1) IL302908A (ja)
MX (1) MX2023005749A (ja)
WO (1) WO2022104278A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3286359A4 (en) * 2015-04-24 2018-12-26 University of Utah Research Foundation Methods and systems for multiple taxonomic classification
US20180357375A1 (en) * 2017-04-04 2018-12-13 Whole Biome Inc. Methods and compositions for determining metabolic maps
WO2019191649A1 (en) * 2018-03-29 2019-10-03 Freenome Holdings, Inc. Methods and systems for analyzing microbiota

Also Published As

Publication number Publication date
WO2022104278A1 (en) 2022-05-19
IL302908A (en) 2023-07-01
US20230420134A1 (en) 2023-12-28
CN116917495A (zh) 2023-10-20
KR20230132768A (ko) 2023-09-18
CA3199032A1 (en) 2022-05-19
EP4244374A1 (en) 2023-09-20
MX2023005749A (es) 2023-07-18

Similar Documents

Publication Publication Date Title
Chabon et al. Integrating genomic features for non-invasive early lung cancer detection
US11847532B2 (en) Machine learning implementation for multi-analyte assay development and testing
Jamshidi et al. Evaluation of cell-free DNA approaches for multi-cancer early detection
Jiang et al. Big data in basic and translational cancer research
Robertson et al. Comprehensive molecular characterization of muscle-invasive bladder cancer
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
TWI814753B (zh) 用於標靶定序之模型
Doebley et al. A framework for clinical cancer subtyping from nucleosome profiling of cell-free DNA
JP2011523049A (ja) 頭頚部癌の同定、モニタリングおよび治療のためのバイオマーカー
JP2022511243A (ja) 転写因子プロファイリング
US20230175058A1 (en) Methods and systems for abnormality detection in the patterns of nucleic acids
Li et al. Sensitive detection of tumor mutations from blood and its application to immunotherapy prognosis
US20180371553A1 (en) Methods and compositions for the analysis of cancer biomarkers
van der Pol et al. The landscape of cell-free mitochondrial DNA in liquid biopsy for cancer detection
Jung et al. Increased HOXC6 mRNA expression is a novel biomarker of gastric cancer
Hardy et al. Immunohistochemical assays for bladder cancer molecular subtyping: optimizing parsimony and performance of lund taxonomy classifiers
JP2023551795A (ja) 非ヒトメタゲノム経路解析によるがん診断および分類
Sanford et al. Molecular sub-classification of renal epithelial tumors using meta-analysis of gene expression microarrays
JP2024500881A (ja) 微生物核酸および体細胞変異を用いたタキソノミー独立型の癌診断および分類
Yan et al. Deep neural network based tissue deconvolution of circulating tumor cell RNA
TW201926094A (zh) 三陰性乳癌的次分類及方法
Huang et al. Primary tumor type prediction based on US nationwide genomic profiling data in 13,522 patients
WO2023230617A2 (en) Bladder cancer biomarkers and methods of use
Zhao Semi-Parametric Mixture Gaussian Model to Detect Breast Cancer Intra-Tumor Heterogeneity
CN111492435A (zh) 替莫唑胺反应预测因子和方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231010