JP2023518185A

JP2023518185A - 発現データのデコンボリューションのためのシステム及び方法

Info

Publication number: JP2023518185A
Application number: JP2022554893A
Authority: JP
Inventors: アレクサンドル・ザイツェフ; マクシム・チェルシュキン; エカテリーナ・ヌズディナ; ヴラジミール・ジリン; ダニア・ダイカノフ; アレクサンダー・バガエフ; ラフシャン・アタウラカノフ; イリヤ・チェレムシュキン; ボリス・シパク
Original assignee: BostonGene Corp
Current assignee: BostonGene Corp
Priority date: 2020-03-12
Filing date: 2021-03-12
Publication date: 2023-04-28
Also published as: IL296316A; WO2021183917A1; AU2021233926A1; US20220230707A1; EP4118657B1; EP4118657A1; US20230178178A1; EP4383262A2; US20210287759A1; US11315658B2; US11587642B2; CA3175126A1; WO2021183917A8; WO2021183917A9

Abstract

発現データから1つ又は複数の細胞構成比率を決定するための手法。本手法は、生体試料について発現データを得る工程であって、生体試料は対象から以前に得られており、発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第1の発現データを含む、工程と、発現データと第1の非線形回帰モデルを含む1つ又は複数の非線形回帰モデルとを使用して第1の細胞型について第1の細胞構成比率を決定する工程であって、第1の細胞構成比率は、生体試料における第1の細胞型の細胞の推定比率を示し、第1の細胞型について第1の細胞構成比率を決定する工程は、第1の発現データを第1の非線形回帰モデルによって処理して、第1の細胞型について第1の細胞構成比率を決定する工程、及び第1の細胞構成比率を出力する工程を含む、工程とを含む。

Description

関連出願の相互参照
本出願は、2020年10月30日に出願された「SYSTEMS AND METHODS FOR DECONVOLUTION OF GENE EXPRESSION DATA」という名称の米国仮特許出願第63/108,262号、及び2020年3月12日に出願された「MACHINE LEARNING SYSTEMS AND METHODS FOR DECONVOLUTION OF GENE EXPRESSION DATA」という名称の米国仮特許出願第62/988,700号の米国特許法第119条(e)項に基づく利益を主張するものであり、これはそれぞれその全体が参照により本明細書に組み込まれる。

一般に、腫瘍塊(又は他の罹患組織)は、悪性細胞(例えば、がん細胞)の集団と、例えば、免疫細胞、線維芽細胞、及び細胞外マトリックスタンパク質を含み得る微小環境とで構成される。

Newmanら、「Robust enumeration of cell subsets from tissue expression profiles」、Nat. Methods 12、453～457頁(2015) Newmanら、「Determining cell type abundance and expression from bulk tissues with digital cytometry」、Nat Biotechnol 37、773～782頁(2019) Finotelloら、「Molecular and pharmacological modulators of the tumor immune contexture revealed by deconvolution of RNA-seq data」、Genome Med 11、34頁(2019) Haoら、「Fast and Robust Deconvolution of Tumor Infiltrating Lymphocyte from Expression Profiles using Least Trimmed Squares」、bioRxiv 358366頁; doi: https://doi.org/10.1101/358366 Aranら、「xCell: digitally portraying the tissue cellular heterogeneity landscape」、Genome Biol. 18、220頁(2017) Monacoら、「RNA-Seq signatures normalized by mRNA abundance allow absolute deconvolution of human immune cell types」、Cell Rep. 26、1627～1640頁、e1627 (2019) Vaughtら、「Biospecimens and biorepositories: from afterthought to science」、Cancer Epidemiol Biomarkers Prev. 2012 Feb;21(2):253～5頁 Vaught及びHenderson、「Biological sample collection, processing, storage and information management」、IARC Sci Publ. 2011;(163):23～42頁 Liら、JCO Precis Oncol. 2018; 2: PO.17.00091 Conseaら、「A survey of best practices for RNA-seq data analysis」、Genome Biology 201617:13頁 Pereira及びRueda (bioinformatics-core-shared-training.github.io/cruk-bioinf-sschool/Day2/rnaSeq_align.pdf) Wagnerら、Theory Biosci. (2012) 131:281～285頁

一部の実施形態は、少なくとも1つのコンピュータハードウェアプロセッサを使用して、生体試料について発現データを得る工程であって、生体試料は対象から以前に得られており、発現データは第1の細胞型に関連する第1の遺伝子のセットに関連する第1の発現データを含む、工程と、発現データと第1の非線形回帰モデルを含む1つ又は複数の非線形回帰モデルとを使用して第1の細胞型について第1の細胞構成比率を決定する工程であって、第1の細胞構成比率は生体試料における第1の細胞型の細胞の推定比率を示し、第1の細胞型について第1の細胞構成比率を決定する工程は、第1の発現データを第1の非線形回帰モデルによって処理して、第1の細胞型について第1の細胞構成比率を決定する工程、及び第1の細胞構成比率を出力する工程を含む、工程とを実施する工程を含む方法を提供する。

一部の実施形態は、少なくとも1つのハードウェアプロセッサと、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、生体試料について発現データを得る工程であって、生体試料が対象から以前に得られており、発現データが第1の細胞型に関連する第1の遺伝子のセットに関連する第1の発現データを含む、工程と、発現データと第1の非線形回帰モデルを含む1つ又は複数の非線形回帰モデルとを使用して第1の細胞型について第1の細胞構成比率を決定する工程であって、第1の細胞構成比率は、生体試料における第1の細胞型の細胞の推定比率を示し、第1の細胞型について第1の細胞構成比率を決定する工程は、第1の発現データを第1の非線形回帰モデルによって処理して、第1の細胞型について第1の細胞構成比率を決定する工程、及び第1の細胞構成比率を出力する工程を含む、工程とを実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体とを含むシステムを提供する。

一部の実施形態は、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、生体試料について発現データを得る工程であって、生体試料が対象から以前に得られており、発現データが第1の細胞型に関連する第1の遺伝子のセットに関連する第1の発現データを含む、工程と、発現データと第1の非線形回帰モデルを含む1つ又は複数の非線形回帰モデルとを使用して第1の細胞型について第1の細胞構成比率を決定する工程であって、第1の細胞構成比率は、生体試料における第1の細胞型の細胞の推定比率を示し、第1の細胞型について第1の細胞構成比率を決定する工程は、第1の発現データを第1の非線形回帰モデルによって処理して、第1の細胞型について第1の細胞構成比率を決定する工程、及び第1の細胞構成比率を出力する工程を含む、工程とを実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体を提供する。

一部の実施形態では、対象は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある。

一部の実施形態では、発現データはRNA発現データである。

一部の実施形態では、第1の発現データを第1の非線形回帰モデルによって処理する工程は、第1の非線形回帰モデルへの入力として第1の発現データを提供して、第1の細胞型からのRNAの推定比率を表す対応する出力を得る工程と、第1の細胞型からのRNAの推定比率に基づいて、第1の細胞型について第1の細胞構成比率を決定する工程とを含む。

一部の実施形態では、発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第2の発現データを含み、第1の非線形回帰モデルは、第1の発現データを入力として使用して、第1の細胞型からのRNAの推定比率について第1の値を生成するように構成された第1のサブモデルと、第2の発現データと第1の細胞型からのRNAの推定比率についての第1の値とを入力として使用して、第1の細胞型からのRNAの推定比率について第2の値を生成するように構成された第2のサブモデルとを含む。

一部の実施形態では、発現データは、第1の細胞型とは異なる第2の細胞型に関連する第2の遺伝子のセットに関連する第2の発現データを含み、1つ又は複数の非線形回帰モデルは、第2の非線形回帰モデルを含む。一部の実施形態は、少なくとも一部には、第2の細胞型について第2の細胞構成比率を決定するために第2の発現データを第2の非線形回帰モデルによって処理する工程によって、第2の細胞型について第2の細胞構成比率を決定する工程を更に含む。

一部の実施形態では、第1の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される。

一部の実施形態では、第1の発現データは、Table 2(表2)における第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含む。

一部の実施形態では、発現データは、各々の複数の細胞型に関連する複数の遺伝子セットに関連する発現データを含み、複数の遺伝子セットは、第1の遺伝子セットと第1の細胞型を含む複数の細胞型とを含み、1つ又は複数の非線形回帰モデルは、複数の非線形回帰モデルを含む。一部の実施形態は、複数の遺伝子セットに関連する発現データを使用して複数の細胞型について複数の細胞構成比率を決定する工程を更に含み、複数の細胞構成比率は第1の細胞構成比率を含む。一部の実施形態では、複数の細胞構成比率を決定する工程は、複数の細胞型の各細胞型について、少なくとも一部には、細胞型について細胞構成比率を決定するために複数の非線形回帰モデルの各々の非線形回帰モデルを使用して、細胞型に関連する遺伝子のセットに関連する発現データを処理することによって、細胞型について各々の細胞構成比率を決定する工程を含む。

一部の実施形態では、複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも25個の遺伝子を含み、複数の細胞構成比率を決定する工程は、少なくとも25個の遺伝子について発現データを処理する工程を含む。

一部の実施形態では、複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも35個の遺伝子を含み、複数の細胞構成比率を決定する工程は、少なくとも35個の遺伝子について発現データを処理する工程を含む。

一部の実施形態では、複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも50個の遺伝子を含み、複数の細胞構成比率を決定する工程は、少なくとも50個の遺伝子について発現データを処理する工程を含む。

一部の実施形態では、複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも75個の遺伝子を含み、複数の細胞構成比率を決定する工程は、少なくとも75個の遺伝子について発現データを処理する工程を含む。

一部の実施形態では、複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも100個の遺伝子を含み、複数の細胞構成比率を決定する工程は、少なくとも100個の遺伝子について発現データを処理する工程を含む。

一部の実施形態では、1つ又は複数の非線形回帰モデルは、1つ又は複数のランダムフォレスト回帰モデルを含む。

一部の実施形態では、1つ又は複数の非線形回帰モデルは、1つ又は複数のニューラルネットワーク回帰モデルを含む。

一部の実施形態では、1つ又は複数の非線形回帰モデルは、1つ又は複数のサポートベクターマシン回帰モデルを含む。

一部の実施形態では、第1の非線形回帰モデルは、少なくとも一部には、シミュレートされた発現データを得る工程と、シミュレートされた発現データを使用して第1の非線形回帰モデルを訓練する工程とによって訓練されている。

一部の実施形態は、シミュレートされた発現データを得る工程と、シミュレートされた発現データを使用して第1の非線形回帰モデルを訓練する工程とを更に含む。

一部の実施形態では、シミュレートされた発現データを得る工程は、シミュレートされた発現データを生成する工程を含み、シミュレートされた発現データを生成する工程は、1つ又は複数の生体試料からRNA発現データのセットを得る工程であって、RNA発現データのセットは微小環境細胞発現データ及び悪性細胞発現データを含む、工程と、微小環境細胞発現データを使用して、シミュレートされた微小環境細胞発現データを生成する工程と、悪性細胞発現データを使用して、シミュレートされた悪性細胞発現データを生成する工程と、シミュレートされた微小環境細胞発現データとシミュレートされた悪性細胞発現データとを組み合わせて、シミュレートされた発現データの少なくとも一部を作成する工程とを含む。

一部の実施形態は、第1の細胞型についての発現プロファイル及び第1の細胞型についての第1の細胞構成比率を使用して、悪性腫瘍発現プロファイルを決定する工程を更に含む。

一部の実施形態では、第1の非線形回帰モデルは、シミュレートされたRNA発現データを含む訓練データを得る工程であって、シミュレートされたRNA発現データは、第1の細胞型に関連する第1の遺伝子のセットについての第1のRNA発現データを含む、工程と、第1の細胞型からのRNAの比率を推定するために第1の非線形回帰モデルを訓練する工程であって、訓練する工程は、第1の非線形回帰モデル及び第1のRNA発現データを使用して、第1の細胞型からのRNAの推定比率を生成する工程、並びに第1の細胞型からのRNAの推定比率を使用して、第1の非線形回帰モデルのパラメーターをアップデートする工程を含む、工程とによって訓練されている。

一部の実施形態は、少なくとも1つのコンピュータハードウェアプロセッサを使用して、生体試料についてRNA発現データを得る工程であって、生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から以前に得られており、RNA発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第1のRNA発現データを含み、第1のRNA発現データは、Table 2(表2)における第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含み、第1の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される、工程と、第1のRNA発現データを使用して、第1の細胞型について第1の細胞構成比率を決定する工程であって、第1の細胞構成比率は、生体試料における第1の細胞型の細胞の推定比率を示し、第1の細胞型について第1の細胞構成比率を決定する工程は、第1の非線形回帰モデルへの入力として第1のRNA発現データを提供して、第1の細胞型からのRNAの推定比率を表す対応する出力を得る工程、及び第1の細胞型からのRNAの推定比率に基づいて、第1の細胞型について第1の細胞構成比率を決定する工程を含む、工程とを実施する工程を含む方法を提供する。

一部の実施形態は、少なくとも1つのハードウェアプロセッサと、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、生体試料についてRNA発現データを得る工程であって、生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から以前に得られており、RNA発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第1のRNA発現データを含み、第1のRNA発現データは、Table 2(表2)における第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含み、第1の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される、工程と、第1のRNA発現データを使用して、第1の細胞型について第1の細胞構成比率を決定する工程であって、第1の細胞構成比率は、生体試料における第1の細胞型の細胞の推定比率を示し、第1の細胞型について第1の細胞構成比率を決定する工程は、第1の非線形回帰モデルへの入力として第1のRNA発現データを提供して、第1の細胞型からのRNAの推定比率を表す対応する出力を得る工程、及び第1の細胞型からのRNAの推定比率に基づいて、第1の細胞型について第1の細胞構成比率を決定する工程を含む、工程とを実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体とを含むシステムを提供する。

一部の実施形態は、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、生体試料についてRNA発現データを得る工程であって、生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から以前に得られており、RNA発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第1のRNA発現データを含み、第1のRNA発現データは、Table 2(表2)における第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含み。第1の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される、工程と、第1のRNA発現データを使用して、第1の細胞型について第1の細胞構成比率を決定する工程であって、第1の細胞構成比率は、生体試料における第1の細胞型の細胞の推定比率を示し、第1の細胞型について第1の細胞構成比率を決定する工程は、第1の非線形回帰モデルへの入力として第1のRNA発現データを提供して、第1の細胞型からのRNAの推定比率を表す対応する出力を得る工程、及び第1の細胞型からのRNAの推定比率に基づいて、第1の細胞型について第1の細胞構成比率を決定する工程を含む、工程とを実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体を提供する。

一部の実施形態では、RNA発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第2のRNA発現データを含み、第1の非線形回帰モデルは、第1のRNA発現データを入力として使用して、第1の細胞型からのRNAの推定比率について第1の値を生成するように構成された第1のサブモデルと、第2の発現データと第1の細胞型からのRNAの推定比率についての第1の値とを入力として使用して、第1の細胞型からのRNAの推定比率について第2の値を生成するように構成された第2のサブモデルとを含む。

一部の実施形態では、RNA発現データは、第2の細胞型に関連する第2の遺伝子のセットに関連する第2のRNA発現データを含み、第2のRNA発現データは、Table 2(表2)における第2の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含み、第2の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される。一部の実施形態では、第2の細胞型について第2の細胞構成比率を決定する工程は、第2の細胞型について第2の細胞構成比率を決定するために、第2のRNA発現データを第2の非線形回帰モデルによって処理する工程を含む。

一部の実施形態では、RNA発現データは、各々の複数の細胞型に関連する複数の遺伝子セットに関連するRNA発現データを含み、複数の遺伝子セットは、第1の遺伝子セットと第1の細胞型を含む複数の細胞型とを含む。一部の実施形態は、複数の遺伝子セットに関連するRNA発現データを使用して、複数の細胞型について複数の細胞構成比率を決定する工程を更に含み、複数の細胞構成比率は第1の細胞構成比率を含む。一部の実施形態では、複数の細胞構成比率を決定する工程は、複数の細胞型の各細胞型について、少なくとも一部には、細胞型について細胞構成比率を決定するために各々の非線形回帰モデルを使用して、細胞型に関連する遺伝子のセットに関連するRNA発現データを処理することによって、細胞型について各々の細胞構成比率を決定する工程を含む。

一部の実施形態では、第1の非線形回帰モデルは、ランダムフォレスト回帰モデルを含む。

一部の実施形態では、第1の非線形回帰モデルは、ニューラルネットワーク回帰モデルを含む。

一部の実施形態では、第1の非線形回帰モデルは、サポートベクターマシン回帰モデルを含む。

一部の実施形態では、第1の非線形回帰モデルは、少なくとも一部には、シミュレートされたRNA発現データを含む訓練データを生成する工程によって訓練されている。一部の実施形態では、訓練データを生成する工程は、1つ又は複数の生体試料からRNA発現データのセットを得る工程であって、RNA発現データのセットは、微小環境細胞RNA発現データ及び悪性細胞RNA発現データを含む、工程と、微小環境細胞RNA発現データを使用して、シミュレートされた微小環境細胞RNA発現データを生成する工程と、悪性細胞RNA発現データを使用して、シミュレートされた悪性細胞RNA発現データを生成する工程と、シミュレートされた微小環境細胞RNA発現データとシミュレートされた悪性細胞RNA発現データとを組み合わせて、シミュレートされたRNA発現データの少なくとも一部を作成する工程とを含む。

一部の実施形態は、第1の細胞型についてのRNA発現プロファイル及び第1の細胞型についての第1の細胞構成比率を使用して、悪性腫瘍発現プロファイルを決定する工程を更に含む。

一部の実施形態では、第1のRNA発現データは、Table 2(表2)における遺伝子の群から選択される少なくとも25個の遺伝子についての発現データを含む。

一部の実施形態では、第1のRNA発現データは、Table 2(表2)における遺伝子の群から選択される少なくとも50個の遺伝子についての発現データを含む。

一部の実施形態では、第1のRNA発現データは、Table 2(表2)における遺伝子の群から選択される少なくとも100個の遺伝子についての発現データを含む。

一部の実施形態では、第1の非線形回帰モデルは、シミュレートされたRNA発現データを含む訓練データを得る工程であって、シミュレートされたRNA発現データは、第1の細胞型に関連する第1の遺伝子のセットについての第2のRNA発現データを含む、工程と、第1の細胞型からのRNAの比率を推定するために第1の非線形回帰モデルを訓練する工程であって、訓練する工程は、第1の非線形回帰モデル及び第2のRNA発現データを使用して、第1の細胞型からのRNAの推定比率を生成する工程、並びに第1の細胞型からのRNAの推定比率を使用して、第1の非線形回帰モデルのパラメーターをアップデートする工程、を含む工程とによって訓練されている。

一部の実施形態は、少なくとも1つのコンピュータハードウェアプロセッサを使用して、シミュレートされたRNA発現データを含む訓練データを得る工程であって、シミュレートされたRNA発現データは、第1の細胞型に関連する第1の遺伝子についての第1のRNA発現データ及び第1の細胞型とは異なる第2の細胞型に関連する第2の遺伝子についての第2のRNA発現データを含む、工程と、1つ又は複数の各々の細胞型からのRNAの比率を推定するために複数の非線形回帰モデルを訓練する工程であって、複数の非線形回帰モデルは、第1の細胞型からのRNAの比率を推定するための第1の非線形回帰モデル及び第2の細胞型からのRNAの比率を推定するための第2の非線形回帰モデルを含み、複数の非線形回帰モデルを訓練する工程は、少なくとも一部には、第1の非線形回帰モデル及び第1のRNA発現データを使用して、第1の細胞型からのRNAの推定比率を生成する工程、並びに第1の細胞型からのRNAの推定比率を使用して、第1の非線形回帰モデルのパラメーターをアップデートする工程によって第1の非線形回帰モデルを訓練する工程を含む、工程と、第1の非線形回帰モデル及び第2の非線形回帰モデルを含む訓練された複数の非線形回帰モデルを出力する工程とを実施する工程を含む方法を提供する。

一部の実施形態は、少なくとも1つのコンピュータハードウェアプロセッサと、少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、少なくとも1つのコンピュータハードウェアプロセッサに、シミュレートされたRNA発現データを含む訓練データを得る工程であって、シミュレートされたRNA発現データは、第1の細胞型に関連する第1の遺伝子についての第1のRNA発現データ及び第1の細胞型とは異なる第2の細胞型に関連する第2の遺伝子についての第2のRNA発現データを含む、工程と、1つ又は複数の各々の細胞型からのRNAの比率を推定するために複数の非線形回帰モデルを訓練する工程であって、複数の非線形回帰モデルは、第1の細胞型からのRNAの比率を推定するための第1の非線形回帰モデル及び第2の細胞型からのRNAの比率を推定するための第2の非線形回帰モデルを含み、複数の非線形回帰モデルを訓練する工程は、少なくとも一部には、第1の非線形回帰モデル及び第1のRNA発現データを使用して、第1の細胞型からのRNAの推定比率を生成する工程、並びに第1の細胞型からのRNAの推定比率を使用して、第1の非線形回帰モデルのパラメーターをアップデートする工程によって第1の非線形回帰モデルを訓練する工程を含む、工程と、第1の非線形回帰モデル及び第2の非線形回帰モデルを含む訓練された複数の非線形回帰モデルを出力する工程とを実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体とを含むシステムを提供する。

一部の実施形態は、少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、少なくとも1つのコンピュータハードウェアプロセッサに、シミュレートされたRNA発現データを含む訓練データを得る工程であって、シミュレートされたRNA発現データは、第1の細胞型に関連する第1の遺伝子についての第1のRNA発現データ及び第1の細胞型とは異なる第2の細胞型に関連する第2の遺伝子についての第2のRNA発現データを含む、工程と、1つ又は複数の各々の細胞型からのRNAの比率を推定するために複数の非線形回帰モデルを訓練する工程であって、複数の非線形回帰モデルは、第1の細胞型からのRNAの比率を推定するための第1の非線形回帰モデル及び第2の細胞型からのRNAの比率を推定するための第2の非線形回帰モデルを含み、複数の非線形回帰モデルを訓練する工程は、少なくとも一部には、第1の非線形回帰モデル及び第1のRNA発現データを使用して、第1の細胞型からのRNAの推定比率を生成する工程、並びに第1の細胞型からのRNAの推定比率を使用して、第1の非線形回帰モデルのパラメーターをアップデートする工程によって、第1の非線形回帰モデルを訓練する工程を含む、工程と、第1の非線形回帰モデル及び第2の非線形回帰モデルを含む訓練された複数の非線形回帰モデルを出力する工程とを実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体を提供する。

一部の実施形態では、訓練データを得る工程は、1つ又は複数の生体試料からRNA発現データのセットを得る工程であって、RNA発現データのセットは、微小環境細胞RNA発現データ及び悪性細胞RNA発現データを含む、工程と、微小環境細胞RNA発現データに基づいて、シミュレートされた微小環境細胞RNA発現データを得る工程と、悪性細胞RNA発現データに基づいて、シミュレートされた悪性細胞RNA発現データを得る工程と、シミュレートされた微小環境細胞RNA発現データとシミュレートされた悪性細胞RNA発現データとを組み合わせて、シミュレートされたRNA発現データの少なくとも一部を作成する工程とによって、シミュレートされたRNA発現データの少なくとも一部を生成する工程を含む。

一部の実施形態は、複数の非線形回帰モデルを訓練する前に、シミュレートされたRNA発現データにノイズを加える工程を更に含む。

一部の実施形態では、ノイズは、ポワソンノイズ又はガウスノイズのうちの少なくとも1つを含む。

一部の実施形態では、シミュレートされた微小環境細胞RNA発現データを生成する工程は、第1の微小環境細胞型について、微小環境細胞RNA発現データの第1の部分を使用して、第1のRNA発現プロファイルを生成する工程を含む。

一部の実施形態では、微小環境細胞RNA発現データの第1の部分は、第1の微小環境細胞型の複数のサブタイプからのRNA発現データを含む。

一部の実施形態では、第1のRNA発現プロファイルを生成する工程は、第1の微小環境細胞型の複数のサブタイプを使用して、微小環境細胞RNA発現データの第1の部分をリサンプリングする工程を含む。

一部の実施形態では、微小環境細胞RNA発現データの第1の部分は、複数の試料からのRNA発現データを含む。

一部の実施形態では、第1のRNA発現プロファイルを生成する工程は、複数の試料に含まれるいくつかの試料を入力として取り入れて、微小環境細胞RNA発現データの第1の部分をリサンプリングする工程を含む。

一部の実施形態では、シミュレートされた微小環境細胞RNA発現データを生成する工程は、第2の微小環境細胞型について、微小環境細胞RNA発現データの第2の部分を使用して、第2のRNA発現プロファイルを生成する工程と、第1のRNA発現プロファイルと第2のRNA発現プロファイルとを組み合わせて、シミュレートされた微小環境細胞RNA発現データの少なくともいくつかを生成する工程とを更に含む。

一部の実施形態では、第1のRNA発現プロファイルと第2のRNA発現プロファイルとを組み合わせて、シミュレートされた微小環境細胞RNA発現データの少なくともいくつかを生成する工程は、第1のRNA発現プロファイルと第2のRNA発現プロファイルの加重和を決定する工程を含む。

一部の実施形態では、悪性細胞RNA発現データは、複数の悪性細胞試料からのRNA発現データを含む。

一部の実施形態では、シミュレートされた悪性細胞RNA発現データを生成する工程は、複数の悪性細胞試料からのRNA発現データを組み合わせる工程を含む。

一部の実施形態では、シミュレートされた悪性細胞RNA発現データを生成する工程は、シミュレートされた悪性細胞RNA発現データにノイズを加える工程を含む。

一部の実施形態では、加重和の係数は、以前に訓練された非線形回帰モデルの出力を使用して決定される。

一部の実施形態では、第1のRNA発現データは、Table 2(表2)における第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含む。

一部の実施形態では、第2のRNA発現データは、Table 2(表2)における第2の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含む。

一部の実施形態では、第1の細胞型及び第2の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される。

一部の実施形態では、シミュレートされたRNA発現データは、第1の細胞型に関連する第1の遺伝子についての第2のRNA発現データを含む。

一部の実施形態では、1つ又は複数の非線形回帰モデルの第1の非線形回帰モデルは、第1のRNA発現データを入力として使用して、第1の細胞型からのRNAの推定比率について第1の値を生成するように構成された第1のサブモデル、及び第2のRNA発現データと第1の細胞型からのRNAの推定比率についての第1の値とを入力として使用して、第1の細胞型からのRNAの推定比率について第2の値を生成するように構成された第2のサブモデルを含む。

一部の実施形態では、第2のサブモデルは、第1の細胞型以外の複数の細胞型のそれぞれからのRNAの推定比率を入力として使用して、第1の細胞型からのRNAの推定比率についての第2の値を生成するように更に構成されている。

一部の実施形態は、少なくとも1つのコンピュータハードウェアプロセッサを使用して、生体試料について発現データを得る工程であって、生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から以前に得られている、工程と、対応する複数の細胞型について複数の発現プロファイルを得る工程であって、発現プロファイルのそれぞれは、複数の細胞型からの各々の細胞型に関連する1つ又は複数の遺伝子からの各々の発現データを含む、工程と、少なくとも一部には、発現データと複数の発現プロファイルとの間の区分的に連続な誤差関数を最適化する工程によって、複数の細胞型について複数の細胞構成比率を決定する工程とを実施する工程を含む方法を提供する。

一部の実施形態は、少なくとも1つのコンピュータハードウェアプロセッサと、少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、少なくとも1つのコンピュータハードウェアプロセッサに、生体試料について発現データを得る工程であって、生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から以前に得られている、工程と、対応する複数の細胞型について複数の発現プロファイルを得る工程であって、発現プロファイルのそれぞれは、複数の細胞型からの各々の細胞型に関連する1つ又は複数の遺伝子からの各々の発現データを含む、工程と、少なくとも一部には、発現データと複数の発現プロファイルとの間の区分的に連続な誤差関数を最適化する工程によって、複数の細胞型について複数の細胞構成比率を決定する工程とを実施させるプロセッサ実行可能命令を格納する少なくとも1つのコンピュータ読取り可能な記憶媒体とを含むシステムを提供する。

一部の実施形態は、少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、少なくとも1つのコンピュータハードウェアプロセッサに、生体試料について発現データを得る工程であって、生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から以前に得られている、工程と、対応する複数の細胞型について複数の発現プロファイルを得る工程であって、発現プロファイルのそれぞれは、複数の細胞型からの各々の細胞型に関連する1つ又は複数の遺伝子からの各々の発現データを含む、工程と、少なくとも一部には、発現データと複数の発現プロファイルとの間の区分的に連続な誤差関数を最適化する工程によって、複数の細胞型について複数の細胞構成比率を決定する工程とを実施させるプロセッサ実行可能命令を格納する少なくとも1つのコンピュータ読取り可能な記憶媒体を提供する。

一部の実施形態では、発現データはRNA発現データであり、複数の発現プロファイルはRNA発現プロファイルである。

一部の実施形態では、複数の細胞型について複数の細胞構成比率を決定する工程は、誤差値の加重和を決定する工程を含み、誤差値は区分的に連続な誤差関数を使用して決定される。

一部の実施形態では、複数の細胞型について複数の細胞構成比率を決定する工程は、誤差値の加重和を最小化する工程を含む。

一部の実施形態では、1つ又は複数の遺伝子は、Table 2(表2)における5000個未満の遺伝子であって少なくとも2個の遺伝子で構成される。

一部の実施形態は、対応する複数の細胞型についての複数の発現プロファイル及び複数の細胞構成比率を使用して、悪性腫瘍発現プロファイルを決定する工程を更に含む。

図1Aは、本明細書において記載される技術の一部の実施形態に従って、発現データに基づいて細胞構成比率を決定するためのシステムを表す図である。図1Bは、本明細書において記載される技術の一部の実施形態に従う、各それぞれの細胞型及び細胞サブタイプの非線形回帰モデルを使用して種々の細胞型及び細胞サブタイプの種々の細胞構成比率を決定するための図例である。図1Cは、本明細書において記載される技術の一部の実施形態に従う、悪性及び微小環境細胞を含む例示的細胞集団を表すt-SNE可視化を示す図である。図1Dは、本明細書において記載される技術の一部の実施形態に従う例示的悪性細胞集団を表すt-SNE可視化を示す図である。図1Eは、本明細書において記載される技術の一部の実施形態に従うさまざまな細胞の例示的遺伝子発現を表すチャートである。図1Fは、本明細書において記載される技術の一部の実施形態に従う、多様な細胞型の試料混合物中の遺伝子間の例示的相関及び選択された細胞割合を表すチャートである。図1Gは、本明細書において記載される技術の一部の実施形態に従う、腫瘍細胞株の例示的遺伝子発現を表すチャートである。図2Aは、本明細書において記載される技術の一部の実施形態に従う、発現データに基づいて細胞構成比率を決定するための例示的非線形法を表すフローチャートである。図2Bは、本明細書において記載される技術の一部の実施形態に従う、発現データに基づいて細胞構成比率を決定するための方法200の実装例を図示するフローチャートである。図2Cは、本明細書において記載される技術の実施形態のいくつかに従う、方法200の作用216aの実装例を図示するフローチャートである。図3Aは、本明細書において記載される技術の一部の実施形態に従う、RNA発現データに基づいてRNA比率を決定するための機械学習法の使用を表す図である。図3Bは、本明細書において記載される技術の一部の実施形態に従う、RNA発現データに基づいてRNA比率を決定するためのサブモデルを含む非線形回帰モデルの使用を表す図である。図3Cは、本明細書において記載される技術の一部の実施形態に従う、RNA比率に基づいて細胞構成比率を決定するための方法を表す図である。図3Dは、本明細書において記載される技術の一部の実施形態に従う、細胞構成比率に基づいて悪性腫瘍発現プロファイルを決定するための方法例を表す図である。図4は、本明細書において記載される技術の一部の実施形態に従う、RNA発現データに基づいて細胞構成比率を決定するための1つ又は複数の非線形回帰モデルを訓練するための例示的方法を表すフローチャートである。図5Aは、本明細書において記載される技術の一部の実施形態に従う、妥当性確認及び多段階の訓練を含む1つ又は複数の機械学習モデルを訓練するための例示的方法を表す図である。図5Bは、本明細書において記載される技術の一部の実施形態に従う、妥当性確認及び多段階の訓練を含む1つ又は複数の機械学習モデルを訓練するための例示的方法を表す図である。図6Aは、本明細書において記載される技術の一部の実施形態に従う、シミュレートされたRNA発現データを生成する工程を含む1つ又は複数の非線形回帰モデルを訓練するための例示的方法を表す図である。図6Bは、本明細書において記載される技術の一部の実施形態に従う、本物の組織を模倣するためのRNA発現データの人工的混合物を生成するための例示的図である。図6Cは、本明細書において記載される技術の一部の実施形態に従う、細胞型モデルを訓練するために人工的混合物を生成及び使用するための例示的図である。図6Dは、本明細書において記載される技術の一部の実施形態に従う、特定の細胞型/サブタイプモデルを訓練するための特異的人工的混合物を生成するための例示的図示である。図6Eは、本明細書において記載される技術の一部の実施形態に従う、特定の細胞型/サブタイプモデルを訓練するための特異的人工的混合物を生成するための例示的図示である。図6Fは、本明細書において記載される技術の一部の実施形態に従う、データセットを処理し、人工的混合物を生成するための技術を図示する例示的図である。図7Aは、本明細書において記載される技術の一部の実施形態に従う、シミュレートされたRNA発現データを、生体試料由来のRNA発現データと比較するチャートである。図7Bは、本明細書において記載される技術の一部の実施形態に従う、本発明者らによって開発されたデコンボリューション技術及び対応する真の細胞構成比率に従って予測された例示的細胞構成比率を表すチャートである。図7Cは、本明細書において記載される技術の一部の実施形態に従う、代替アルゴリズムの予測正確性に対して、本発明者らによって開発されたデコンボリューション技術の例示的予測正確性を比較するチャートである。図7Dは、本明細書において記載される技術の一部の実施形態に従う、代替アルゴリズムの予測正確性に対して、本発明者らによって開発されたデコンボリューション技術の例示的予測正確性を比較するチャートである。図7Eは、本明細書において記載される技術の一部の実施形態に従う、正常組織、免疫細胞型及びがん性組織における4つの選択された遺伝子の発現を表す図である。図7Fは、本明細書において記載される技術の一部の実施形態に従う、本発明者らによって開発されたデコンボリューション技術の例示的予測特異性を表すチャートである。図7Gは、本明細書において記載される技術の一部の実施形態に従う、代替アルゴリズムの非特異性スコアに対して、本発明者らによって開発されたデコンボリューション技術の例示的非特異性スコアを比較するチャートである。図8は、本明細書において記載される技術の一部の実施形態に従う、RNA発現データに基づいて細胞構成比率を決定するための例示的線形法を表すフローチャートである。図9Aは、本明細書において記載される技術の一部の実施形態に従う、例示的RNA発現プロファイル及び全体的なRNA発現データを表す図である。図9Bは、本明細書において記載される技術の一部の実施形態に従う、例示的な区分的に連続な誤差関数を表す図である。図10は、本明細書において記載される技術の一部の実施形態に関連して使用できるコンピュータシステムの図示的実施を表す図である。図11は、本明細書において記載される技術の1つ又は複数の実施形態が実装され得る図示的環境のブロック図である。図12Aは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Bは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Cは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Dは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Eは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Fは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Gは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Hは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Iは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Jは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図12Kは、実施例1に関連して記載されるような、RNA転写物正規化を確立し、シーケンシング技術的ノイズを分析する実験からの分析及び結果を表すチャート及びグラフである。図13Aは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図13Bは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図13Cは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図13Dは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図13Eは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図13Fは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図13Gは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図13Hは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図13Iは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図13Jは、実施例2に関連して記載されるような、複数の正常組織及びがん組織のRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図14Aは、実施例3に関連して記載されるような、血液のシングルセルRNA-seqデータ及びバルクRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図14Bは、実施例3に関連して記載されるような、血液のシングルセルRNA-seqデータ及びバルクRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図14Cは、実施例3に関連して記載されるような、血液のシングルセルRNA-seqデータ及びバルクRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図14Dは、実施例3に関連して記載されるような、血液のシングルセルRNA-seqデータ及びバルクRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図14Eは、実施例3に関連して記載されるような、血液のシングルセルRNA-seqデータ及びバルクRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図14Fは、実施例3に関連して記載されるような、血液のシングルセルRNA-seqデータ及びバルクRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図14Gは、実施例3に関連して記載されるような、血液のシングルセルRNA-seqデータ及びバルクRNA-seqをデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図15Aは、実施例4に関連して記載されるような、いくつかの異なるがん組織をデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図15Bは、実施例4に関連して記載されるような、いくつかの異なるがん組織をデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図15Cは、実施例4に関連して記載されるような、いくつかの異なるがん組織をデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図15Dは、実施例4に関連して記載されるような、いくつかの異なるがん組織をデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図15Eは、実施例4に関連して記載されるような、いくつかの異なるがん組織をデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図15Fは、実施例4に関連して記載されるような、いくつかの異なるがん組織をデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図15Gは、実施例4に関連して記載されるような、いくつかの異なるがん組織をデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図15Hは、実施例4に関連して記載されるような、いくつかの異なるがん組織をデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。図15Iは、実施例4に関連して記載されるような、いくつかの異なるがん組織をデコンボリューションする実験からの分析及び結果を表すチャート及びグラフである。

本発明者らは、RNA発現データ(例えば、生体試料をシーケンシング手法、例えば、バルクRNAシーケンシングにより処理することによって収集されたデータ)に基づいて、生体試料(例えば、腫瘍又は他の罹患組織からの試料等)における細胞構成比率(例えば、特定の各々の型の細胞の比率)を決定するための機械学習手法を開発した。一部の実施形態では、1つ又は複数の細胞型について細胞構成比率を決定する工程は、1つ又は複数の非線形回帰モデルを使用して、細胞型について各々の細胞構成比率を推定する工程を含み得る。非線形回帰モデルは、本明細書に記載される手法、例えば、種々の悪性及び/若しくは微小環境細胞型についてのRNA発現データを組み合わせる工程、並びに/又は本明細書に記載されるサンプリング、リバランシング、及びノイジング手法のいずれかを使用する工程に従って生成され得る、シミュレートされたRNA発現データを使用して訓練することができる。

本発明者らは、腫瘍微小環境(TME)が疾患の進行(例えば、腫瘍が根絶されるか又は転移するか)及び治療反応/抵抗性に重要な役割を果たし得ることを認識し、理解している。例えば、本発明者らによって認識及び理解されているように、TMEの免疫性及び非免疫性構成要素は、細胞間接触及び種々の異なる分子シグナル、例えば、増殖因子及びサイトカインを使用して、腫瘍の生存、維持、増殖及び発達に関与する。更に、本発明者らは、TMEが、宿主の免疫系を制御することによって腫瘍の生存を媒介し、腫瘍の免疫監視をもたらし得ることを認識した。このため、本発明者らは、TME構成要素の数量及び機能性の理解が、がん研究に不可欠であり、治療及びその臨床的影響の理解のために重要であると理解している。しかし、TME構成要素を理解することの重要性にもかかわらず、既存のがん研究は、TME構成要素を分析する従来の方法の限界が理由で、TMEの限られた一組の細胞構成要素のみに焦点を当ててきた。例えば、免疫組織化学、フローサイトメトリー、及びCyTOF等の手法は、標的特異的抗体及び固有のタグ、例えば、蛍光色素の利用可能性に依存していることに限界がある。

本発明者らは更に、生体試料における数万の遺伝子に関する情報を同時に与えることができるバルクRNAシーケンシング(RNA-seq)が、複数の細胞型の複合的寄与を表すシグナルの検出を可能にすることを認識し、理解している。しかし、本発明者らは、この種の全RNA発現データからは個々のRNA分子の起源に関する情報が得られず、そのため、バルクRNA-seqからTMEの細胞構成(例えば、細胞構成比率)を決定するには多くの課題が残されていることを認識している。RNA発現データから細胞構成比率を決定するプロセスを、本明細書では「デコンボリューション」と称することがある。

本発明者らは、細胞性デコンボリューションの重要な問題の1つは、腫瘍及びその微小環境に存在するいくつかの種類の細胞によって、多くの遺伝子が同時に発現され得ることであることを認識し、理解している。このことは密接に関連する細胞型(例えば、T細胞のサブタイプと考えられる特定の細胞型、例えば、CD4+及びCD8+ T細胞のサブタイプ等)を同定する上で特に課題となるが、これは密接な関係にある細胞型間の遺伝マーカーがしばしば同じであるか又は類似している可能性があるためである。一部の実施形態では、細胞型は、識別可能な発現プロファイルを有する細胞の集団と考えられる。例えば、CD4+ T細胞、CD8+ T細胞、及びNK細胞は、代謝マーカー、シグナル伝達マーカー及び表面マーカーを含むかなりの量の構造遺伝子及び調節遺伝子の発現が共通する傾向にある。加えて、単球は成熟した樹状細胞及びマクロファージによって固有に発現されると考えられている様々な分化遺伝子を低レベルで発現する。このため、本発明者らは、RNA発現データが、固有のマーカー遺伝子及び細胞系譜に関連する遺伝子の両方を含み得ることを認識し、理解している。また、マーカーと系統特異的遺伝子発現との比から、細胞のサブタイプに関する情報が得られることもあれば得られないことがあることも、本発明者らは認識している(例えば、CD4/CD3D遺伝子の比はCD4+ T細胞のマーカーとなる可能性があるが、CD3DはヘルパーT細胞のサブタイプの固有のマーカーではない)。異なる型の細胞は、たとえそれらが密接な関係にあっても、腫瘍の病変形成に及ぼす影響は大きく異なる可能性があるため、本発明者らは、密接に関係している細胞型同士であっても、細胞集団を区別することはやはり重要と考えられると認識している。

本発明者らが認識している細胞性デコンボリューションの別の課題は、細胞の数とその状態を区別することの難しさである。例えば、1つの細胞型に特異的又は半特異的な遺伝子の発現は、その型の細胞の活性化状態に応じて異なる場合もあれば、その型のサブタイプの間で異なる場合もある。複数の検討によって類似の細胞サブタイプの配列を決定することができるが、それらは異なる生物学的状態で捕捉されることがある。その結果、本発明者らは、生物学的状態のばらつきが、細胞構成比率の正確な推定値を導き出す上で重要な役割を果たし得ることを認識し、理解している。

更に、本発明者らは、腫瘍微小環境が全体としては腫瘍の比較的小さな比率しか占めない可能性があることを認識し、理解している。バルクRNA-seqデータからの小さな細胞集団の同定は、シグナル対ノイズ比が低いため、特に困難な場合がある。しかし、本発明者らは、小さな細胞集団であっても治療への反応に大きな影響を与える可能性があるため、小さな細胞集団(例えば、NK細胞)の変化を同定することが依然として重要であることを認識している。更に、遺伝子のRNA発現の数値は、使用される特定の測定技術、ライブラリー調製プロトコール、及びRNA濃縮法(例えば、全RNA-seq(REF)、ポリA強化(REF)、エクソーム捕捉又は3' scRNA-seq(REF))に大きく依存し得ることを本発明者らは認識し、理解している。単細胞RNA-seq(scRNA-seq)のような手法を用いても、そのような手法のカバレッジでは、細胞型の同定のために有用なマーカー遺伝子の抽出は一般的に可能とならない。

そのため、本発明者らは、上記の複雑さ及び課題を考慮した、正確でロバストな細胞性デコンボリューション手法の必要性を認識している。したがって、本発明者らは、発現データ(例えば、RNA発現データ)に基づいて細胞構成比率を推定するために機械学習手法を使用する新規なシステム及び方法を開発した。一部の実施形態では、対象からの生体試料について発現データ(例えば、バルクRNA-seqデータ)を得る工程、及び1つ又は複数の細胞型(例えば、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞)について細胞構成比率を決定する工程を含むデコンボリューション法が提供される。細胞構成比率は、生体試料における特定の各々の型の細胞の推定比率を示し得る。一部の実施形態によれば、特定の細胞型について細胞構成比率を決定する工程は、その細胞型に関連する遺伝子のセット(例えば、特定の細胞型に特異的又は半特異的な遺伝子である可能性がある1つ又は複数のマーカー遺伝子等)について発現データを得る工程、及び特定の細胞型の細胞構成比率を決定するためにその発現データを非線形回帰モデルによって処理する工程を含み得る。一部の実施形態によれば、このプロセスを、複数の細胞型にわたるデコンボリューションを達成するために複数の細胞型(本明細書に記載されるように、細胞型のサブタイプを含むことがある)のそれぞれについて反復すること又は並行して実施することができる。少なくとも図7に関して本明細書に記載されるように、これらの手法は先行技術よりも大きく改善されている。

一部の実施形態では、細胞構成比率を決定するために使用される機械学習手法は、それぞれが特定の各々の細胞型について細胞構成比率を決定するように訓練された複数の非線形回帰モデルを使用する工程を含み得る。一部の実施形態では、非線形回帰モデルは複数のパラメーター(例えば、数千、数万、数十万、少なくとも百万、数百万、数千万、又は数億のパラメーター)を有することができ、非線形回帰モデルを訓練する工程は、訓練用にシミュレートされた発現データからコンピュータ計算によってそのようなパラメーターの値を推定することを含み得る。一部の実施形態では、シミュレートされた訓練データを生成する工程は、各細胞型について、各非線形回帰モデルに対して多数の訓練セット(例えば、少なくとも25,000個、少なくとも50,000個、少なくとも100,000個、少なくとも150,000個、少なくとも200,000個、少なくとも500,000個等)を生成する工程を含み得る。一部の実施形態では、複数の非線形回帰モデルを、複数の細胞型(例えば、少なくとも5個、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個等)についてそれぞれ訓練することができる。

本明細書に記載され、本発明者らによって開発された手法は、機械学習手法を使用することによって、ロバストなコンピュータ計算法で細胞構成比率を決定する従来の方法よりも、性能、精度、及び効率の大幅な改善をもたらす。例えば、図7C及び図7Dは、従来の手法と比較して、本発明者らによって開発された非線形デコンボリューション手法(例えば、「カサンドラ(Kassandra)」と称される)では、がん細胞の過剰発現ノイズが存在しても、異なる細胞型について細胞構成比率のより正確な予測が得られることが示されている(例えば、図7Dに示されるように)。その結果、本明細書に記載される手法は、バイオインフォマティクスの全般的な改善となり、具体的には、本明細書に記載される手法は細胞構成比率(例えば、特に腫瘍微小環境内の細胞集団について)を決定する改善された方法を提供することから、臨床的判断及び腫瘍の病変形成の理解を支えるための改善となる。

例えば、従来の手法とは異なり、本明細書に記載される機械学習手法は、特定のサブタイプに関連する(例えば、特異的及び/又は半特異的な)遺伝子に関連する発現データを、そのサブタイプ用に特別に訓練された非線形回帰モデルへの入力として使用することによって、表現型の上で密接に関係する細胞型の遺伝子間の依存性及び相互関連を首尾良く同定することができ、類似した発現パターンであっても細胞サブタイプの正確な検出を可能にする(図7A、図7B)。腫瘍生検試料の細胞の複雑さ及び多様性を模倣する訓練データを使用すること、並びに発現プロファイル及び細胞集団マーカーの固有性を利用することによって、本明細書に記載される非線形デコンボリューション手法は、以前のアルゴリズムよりもロバストであり、様々な細胞型/サブタイプにわたりより一貫した精度を示し、現実的でノイズの多いデータに対して従来の手法よりも大幅に正確な結果を提供する(図7C、図7D、図13F、図15G)。腫瘍微小環境との関連において(例えば、患者の臨床の場における分析)、これらのより正確な結果は、がんの診断及び予後予測の改善、並びに患者に個別化された治療選択肢を可能にする。

本発明者らによって開発されたアプローチの、その精度及びロバスト性に寄与する1つの態様は、対応する細胞構成比率を決定するために、それぞれの各細胞型に特に関連する発現データを使用することである。例えば、ある所与の細胞型について、発現データは、その所与の細胞型に関連する特定の遺伝子に関連する発現データを含み得る。一部の実施形態では、少なくとも図1D～図1E及びTable 2(表2)に関して本明細書に記載されるように、発現データは、所与の細胞型についての遺伝子に関連する発現データを含み得る。本明細書に記載されるように、特定の細胞型に関連する遺伝子を同定する工程は、ある特定の細胞型若しくはサブタイプでのみ又はそれらにおいて主として発現される遺伝子を同定するために、複数のデータベースから、及び/又は種々のシーケンシング手法を用いて得ることができる、複数の試料からの発現データを処理する工程を含み得る。何らかの特定の細胞型について遺伝子がどのように決定されるかにかかわらず、特定の細胞型に関連する特定の遺伝子に関連する発現データを使用することは、本発明者らによって開発された細胞性デコンボリューション手法によって、どの遺伝子がどの細胞型によって発現されるかに関するドメイン特異的な知識を活用することを可能にし、本明細書に記載される手法の成功に寄与する。

本発明者らによって開発されたアプローチの、その性能に寄与する別の態様は、本明細書に記載される訓練と非線形デコンボリューション手法の使用との両方に採用されるアーキテクチャである。例えば、本明細書に記載されるように、一部の実施形態では、生体試料において分析される各々の各細胞型及び/又はサブタイプについて細胞構成比率を推定するために、別々の非線形回帰モデルが訓練されて使用される(例えば、少なくとも図3Aに関するものを含めて本明細書に記載されるように)。これにより、生体試料における細胞型及び/又はサブタイプをより正確に識別し得るようになる可能性がある(例えば、図7A～図7Gに示されるように)。更に、一部の実施形態では、本モデルアーキテクチャは、本明細書に記載される機械学習手法の訓練及び/又は使用の一部として使用され得る階層構造(例えば、少なくとも図5Aに関するものを含めて本明細書に記載されるように)を含み得る。例えば、本モデルアーキテクチャは、複数の段階に対応する複数のサブモデルを含むことができ、その場合、1つ又は複数の以前のサブモデルの出力(例えば、1つ又は複数の細胞型についての1つ又は複数の細胞構成比率の初期予測を含み得る)が、後続のサブモデルのための入力の一部として使用され得る。これにより、本モデルは、(例えば、モデルの訓練及び/又は使用の第2、第3等の段階で)より正確な最終予測を提供するために、(例えば、モデルの訓練及び/又は使用の第1段階からの)初期予測を改善することによって、より正確な予測を導き出すことができる。一部の実施形態によれば、複数の細胞型及び/又はサブタイプについての複数のモデルにわたる第1のサブモデルからの出力が、各モデルについて後続のサブモデルへの入力として提供される階層構造を利用することができる。例えば、すべての細胞型についての細胞構成比率の第1のサブモデル予測を、(例えば、他の細胞型又及び/又はサブタイプについての)第2のサブモデルへの入力として提供することができる。これにより、後続のサブモデル(例えば、第2のサブモデル)が細胞型及び/又はサブタイプ間の相互依存性を考慮できるようになり、それによって、種々の細胞型及び/又はサブタイプにわたる細胞構成比率のより正確な予測を提供することができる。

本発明者らによって開発された手法の別の利点は、一部の実施形態では、本明細書に記載されるモデルが細胞型の人工的混合物を表すデータによって訓練されており、それにより、訓練プロセスが、腫瘍試料を物理的にサンプリングして分析することによって実際に可能であるよりもはるかに多くの多様な構成の試料にわたり、悪性細胞及び微小環境細胞の多様で組織特異的な発現を考慮に入れること(例えば、多種多様な腫瘍微小環境をシミュレートすること)が可能なことである。これにより、細胞性デコンボリューションのための非線形回帰モデルの訓練に関連する労力及び計算資源が大幅に減少する。また、本明細書に記載される人工的混合物を、それが技術的ノイズを再現し、広い生物学的ばらつきを捕捉するような方法で得て、このデータを使用して訓練された機械学習モデルが、そのようなノイズ及びばらつきの存在下で生物学的に意味のある信号を同定する能力を向上させることもできる。例えば、本明細書に記載されるように、技術的ノイズについての定量的ノイズモデルが開発されており、人工的混合物に適用される可能性がある。更に、これらの人工的混合物を開発するために使用されるRNA発現データは、種々の生物学的状態を有する複数の細胞集団にわたって複数の異なる試料に由来している。これらの人工的混合物は、非線形回帰モデルが、実際の腫瘍試料における種々の細胞型にわたる細胞構成比率を効果的に推定する能力を改善する。

図8及び図9A～図9Bに関するものを含めて本明細書で以下に記載されるように、本発明者らによって開発された手法には、細胞性デコンボリューションのための改善された線形手法も含まれる。本明細書に記載されるように、線形手法の成功に寄与するその一態様は、本発明者らによって開発された誤差関数の使用である。少なくとも図9Bに関するものを含めて本明細書に記載されるように、誤差関数は区分的に連続な誤差関数であってもよい。従来の方法、例えば、平方距離を求めることと比較して、区分的に連続な誤差関数は腫瘍細胞において強く発現される遺伝子を考慮する。これにより、腫瘍試料における細胞のデコンボリューションの精度が高くなる可能性がある。そのような誤差関数の使用により、本発明者らによって開発された手法は、予測される細胞構成比率に関連する誤差をより正確にモデル化することができ(例えば、図8及び図9Aに関するものを含めて本明細書に記載されるように)、従来の手法を上回る改善された結果を提供する。

以下では、本発明者らによって開発された細胞性デコンボリューションシステム及び方法に関する様々な概念及びその実施形態のより詳細な記載を行う。本明細書に記載される様々な態様は、多くの方法のいずれかで実装され得ることが理解される必要がある。具体的な実装の例は、例示の目的のみのために本明細書に提供される。加えて、以下の実施形態に記載される様々な態様は、単独又は任意の組合せで使用することができ、本明細書に明示的に記載される組合せに限定されない。

図1Aは、細胞構成比率110を決定するためのシステム100を描写している。少なくとも図11に関するものを含めて本明細書に記載されるように、図示されたシステムは臨床又は実験室の場に実装され得る。

示されているように、システム100は生体試料102を含み、これは例えば、対象(例えば、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象)について得られた腫瘍生検試料であり得る。対象は、対象ががんの遺伝的素因(例えば、既知の1つ若しくは複数の遺伝子変異)を有する場合、又はがんの原因物質に曝露された可能性がある場合に、がんを有するリスクがあり得る。生体試料102は、生検を実施して、患者から血液試料、唾液試料、又は他の任意の好適な生体試料を得ることによって得ることができる。生体試料102は、対象から以前に得られたものであってもよい。したがって、試料に適用されるあらゆる工程(例えば、生体試料から発現データを得る工程)を、in vitroで実施することができる。生体試料102には、罹患組織(例えば、腫瘍)、及び/又は健常組織が含まれ得る。一部の実施形態では、生体試料は、医師、病院、診療所、又は他の医療提供者から得ることができる。一部の実施形態では、生体試料の起源又は調製方法には、「生体試料」の節に関して記載されている実施形態のいずれかが含まれ得る。一部の実施形態では、対象には、「対象」の節に記載されている実施形態のいずれかが含まれ得る。

システム100は、配列情報106を生成し得るシーケンシングプラットフォーム104を更に含み得る。一部の実施形態では、シーケンシングプラットフォーム104は、次世代シーケンシングプラットフォーム(例えば、Illumina(商標)、Roche(商標)、Ion Torrent(商標)等)、又は任意の高スループット若しくは超並列シーケンシングプラットフォームであり得る。一部の実施形態では、シーケンシングプラットフォーム104は、任意の好適なシーケンシングデバイス及び/又は1つ若しくは複数のデバイスを含む任意のシーケンシングシステムを含み得る。一部の実施形態では、これらの方法は自動化されてもよく、一部の実施形態では、手作業による介入があってもよい。一部の実施形態では、配列情報106は非次世代シーケンシング(例えば、サンガーシーケンシング)の結果であってもよい。一部の実施形態では、試料の調製は製造元のプロトコールに従ってもよい。一部の実施形態では、試料の調製は、特別仕様のプロトコール、又は研究、診断、予後予測、及び/若しくは臨床目的の他のプロトコールであってもよい。一部の実施形態では、プロトコールは実験的であってもよい。一部の実施形態では、配列情報の起源又は調製方法が不明であってもよい。

配列情報106には、シーケンシングプロトコールによって生成された配列データ(例えば、次世代シーケンシング、サンガーシーケンシング等によって同定される核酸分子内の一連のヌクレオチド)の他、その中に含まれる情報(例えば、起源、組織型等を示す情報)を含めることができ、それらを配列データから推測又は決定することができる情報と見なすこともできる。例えば、一部の実施形態では、核酸が主としてポリアデニル化されているか否かを決定するためにRNA配列情報を分析することができる。一部の実施形態では、配列情報106は、FASTAファイルに含まれる情報、FASTQファイルに含まれる説明及び/若しくは品質スコア、BAMファイルに含まれるアラインメントされた位置、並びに/又は任意の好適なファイルから得られる他の任意の好適な情報を含み得る。

一部の実施形態では、配列情報106を、対象由来の試料からの核酸を使用して生成することができる。核酸への言及は、1つ又は複数の核酸分子(例えば、複数の核酸分子)を指すことができる。一部の実施形態では、配列情報は、疾患を有する、疾患を有する疑いがある、又は疾患を有するリスクがある対象の、以前に得られた生体試料からのDNA及び/又はRNAのヌクレオチド配列を示す配列データであってもよい。一部の実施形態では、核酸は、デオキシリボ核酸(DNA)である。一部の実施形態では、核酸は、全ゲノムが核酸の中に存在するように調製される。一部の実施形態では、核酸は、ゲノムのタンパク質コード領域(例えば、エクソーム)のみが残るように処理される。エクソームのみをシーケンシングするように核酸が調製される場合、これは全エクソームシーケンシング(WES)と称される。シーケンシングのためにエクソームを単離する種々の方法が当技術分野で公知であり、例えば、溶液ベースの単離では、タグ付きプローブを使用して標的領域(例えば、エクソン)をハイブリダイズさせ、次いで他の領域(例えば、非結合オリゴヌクレオチド)から更に分離することができる。次いで、これらのタグ付き断片を調製して、シーケンシングすることができる。

一部の実施形態では、核酸は、リボ核酸(RNA)である。一部の実施形態では、シーケンシングされたRNAは、試料中に見出されるコード性RNA及び非コード性転写RNAの両方を含む。そのようなRNAをシーケンシングに用いる場合、シーケンシングは「全RNA」から生成されると言われ、全トランスクリプトームシーケンシングと称することもできる。或いは、コード性RNA(例えば、mRNA)が単離されてシーケンシングに使用されるように、核酸を調製することができる。これは、当技術分野で公知の任意の手段を通じて、例えば、ポリアデニル化された配列についてRNAを単離又はスクリーニングすることによって行うことができる。これはmRNA-Seqと称されることもある。

一部の実施形態では、配列情報106は、生のDNA又はRNA配列データ、DNAエクソーム配列データ(例えば、全エクソームシーケンシング(WES)、DNAゲノム配列データ(例えば、全ゲノムシーケンシング(WGS)から)、RNA発現データ、遺伝子発現データ、バイアス補正された遺伝子発現データ、又はシーケンシングプラットフォーム104から得られたデータを含む、及び/若しくはシーケンシングプラットフォーム104から得られたデータに由来するデータを含む、他の任意の好適な種類の配列データを含み得る。一部の実施形態では、配列情報106の起源又は調製は、「発現データ」、「RNA発現データの入手」、「アラインメント及びアノテーション」、「非コード転写物の除去」及び「TPMへの変換及び遺伝子集成」の節に関して記載された実施形態のいずれかを含み得る。

得られた配列データにかかわらず、細胞構成比率110を決定するために、配列情報106をコンピュータデバイス108を使用して処理することができる。例えば、配列情報106を、コンピュータデバイス108(例えば、図10に関して本明細書に記載される通り)上で動作する1つ又は複数のソフトウェアプログラムによって処理することができる。例えば、配列情報106を、図2A～図2Cの機械学習ベースのアプローチ、又は細胞構成比率を決定するための本明細書に記載される他の任意の方法(例えば、少なくとも図2A～図2C及び図3A～図3Cに関して記載される非線形デコンボリューション法、並びに少なくとも図8及び図9A～図9Bに関して記載される線形デコンボリューション法等)に従って処理することができる。一部の実施形態では、コンピュータデバイス108は、医師、臨床医、研究者、患者、又は他の個人等のユーザーによって操作され得る。例えば、ユーザーは、配列情報106をコンピュータデバイス108への入力として提供することができ(例えば、ファイルをアップロードすることによって)、及び/又は配列情報を使用して、実施される処理又は他の方法を指定するユーザー入力を提供することができる。

配列情報106がどのように処理されるかにかかわらず、結果は1つ又は複数の細胞構成比率110となり得る。本明細書に記載されるように、各細胞構成比率は、生体試料102における特定の各々の型の細胞の推定比率を表し得る。一部の実施形態では、生体試料が全体として100%を表すように細胞構成比率を正規化する。細胞型には、例えば、B細胞、プラズマB細胞、非プラズマB細胞、T細胞、CD4+ T細胞、CD8+ T細胞、制御性T細胞、ヘルパーT細胞、CD8+PD1-高、CD8+PD1-低、NK細胞、単球、マクロファージ、休止腫瘍関連マクロファージ(TAM)、M1様若しくは活性化マクロファージ、好中球、内皮細胞、線維芽細胞、及び/又は他の任意の好適な細胞型が含まれる。一部の実施形態によれば、細胞型は1つ又は複数のサブタイプを含み得る。例えば、T細胞は、CD4+ T細胞、CD8+ T細胞、制御性T細胞等を含むサブタイプを有することができる。細胞構成比率110は、細胞サブタイプについての比率の他に、他のどの細胞型のサブタイプでもない細胞型についての比率も含み得る。一部の実施形態によれば、細胞構成比率は、「その他」の細胞型についての比率を含むことができ、これは他の細胞構成比率では考慮されない細胞(例えば、分析に明示的には含まれない1つ又は複数の型の細胞)の推定比率を表すことができる。

図1Bは、本明細書に記載される技術の一部の実施形態に従って、各々の各細胞型及び細胞サブタイプについての非線形回帰モデルを使用して、異なる細胞型及び細胞サブタイプについて異なる細胞構成比率を決定するための例示的な図である。

この例に示されているように、第1の非線形回帰モデルであるモデルA 126を使用して、細胞型A 122についての細胞構成比率128を、細胞型A 122に関連する配列情報124を使用して推定することができる。第2の非線形回帰モデルであるモデルB 136を使用して、細胞型B 132についての細胞構成比率138を、細胞型B 136に関連する配列情報134を使用して推定することができる。

この例に関して、細胞型A 122と細胞型B 132は異なる細胞型である。例えば、細胞型A 122はB細胞を含み得るが、一方、細胞型B 132はT細胞を含み得る。しかし、本明細書に記載される手法の態様はその点について限定されないため、細胞型A及び/又は細胞型Bは、任意の好適な細胞型であってよい。

一部の実施形態では、配列情報124及び配列情報134は、それぞれ細胞型A 122及び細胞型B 132について得ることができる。一部の実施形態では、配列情報を、その細胞型に特異的及び/又は半特異的な遺伝子のセットに関連付けることができる。例えば、配列情報124を細胞型A 122に特異的な第1の遺伝子のセットに関連付けることができ、一方、配列情報134を細胞型B 132に特異的な第2の遺伝子のセットに関連付けることができる。特定の細胞型及び/又はサブタイプに特異的及び/又は半特異的な遺伝子を同定するための手法には、「遺伝子選択及び特異性」の節に関して記載されている実施形態のいずれかが含まれ得る。

図1Bに示されているように、異なる非線形回帰モデルが、異なる細胞型について細胞構成比率を決定するために使用される。例えば、モデルA 126は、細胞型A 122について細胞構成比率128を推定するために使用され、一方、モデルB 136は、細胞型B 132について細胞構成比率138を推定するために使用される。一部の実施形態では、少なくとも図4に関するものを含めて本明細書に記載されるように、モデルのそれぞれを特定の細胞型についての細胞構成比率を推定するように訓練することができる。

一部の実施形態では、異なる細胞型には細胞サブタイプが含まれ得る。本明細書に記載されるように、起源の近い細胞サブタイプは、(例えば、互いに、及び/又はそれが分化した細胞型と)共通の遺伝子を有する可能性がある。図1Bに示されているように、細胞型B 132には、サブタイプA 142及びサブタイプB 162が含まれる。例えば、細胞型B 132はT細胞を含む可能性があり、サブタイプA 142及びサブタイプB 162はT細胞のサブタイプ(例えば、CD4+ T細胞及びCD8+ T細胞)を含む可能性がある。

一部の実施形態では、第3の非線形回帰モデルであるモデルC146を使用して、サブタイプA 142についての細胞構成比率148を、配列情報144を使用して推定することができる。第4の非線形回帰モデルであるモデルD156を使用して、サブタイプB 162についての細胞構成比率158を、配列情報164を使用して推定することができる。

一部の実施形態では、配列情報144及び配列情報164を、それぞれサブタイプA 142及びサブタイプB 162について得ることができる。一部の実施形態では、これは、そのサブタイプに特異的及び/又は半特異的な遺伝子を含む遺伝子セットに関連する配列情報を得る工程を含み得る。例えば、配列情報144はサブタイプA 142に特異的な第1の遺伝子のセットに関連している可能性があり、一方、配列情報164はサブタイプB 144に特異的な第2の遺伝子のセットに関連している可能性がある。特定の細胞型及び/又はサブタイプに特異的及び/又は半特異的な遺伝子を同定するための手法には、「遺伝子選択及び特異性」の節に関して記載されている実施形態のいずれかが含まれ得る。

図1Cは、悪性細胞及び微小環境細胞を含む例示的な細胞集団について複数の遺伝子の発現データを描写しているt-SNEの描出である。凡例に示されているように、t-SNEプロットに描写されている細胞型及び/又はサブタイプには、マクロファージ、M1マクロファージ、M2マクロファージ、B細胞、B細胞(非プラズマ)、プラズマB細胞、T細胞、CD8+ T細胞、PD1+ CD8+ T細胞、PD1- CD8+ T細胞、CD4+ T細胞、制御性T細胞、ヘルパーT細胞、内皮細胞、単球、NK細胞、線維芽細胞、好中球及び腫瘍細胞(例えば、がん細胞)が含まれる。悪性細胞には、腫瘍細胞、又は疾患及び/若しくは罹患組織に関連する他の任意の細胞が含まれ得る。微小環境細胞には、例えば、免疫細胞、皮膚細胞、又は腫瘍細胞に含まれない他の任意の細胞を含む、任意の非腫瘍細胞が含まれ得る。

図1Cのt-SNEプロットは、本明細書に記載されるシーケンシング手法のいずれかを介して生体試料から収集し得る、多くの(例えば、少なくとも1000個、少なくとも5000個、少なくとも1万個の)RNA-seq試料にわたる細胞型/サブタイプを描写している。一部の実施形態では、RNA-seqデータセットを組み合わせ、均一にアノテーションを行い、バイオインフォマティクスの方法で再計算を行って(例えば、発現値をバイオインフォマティクスの方法で再計算する)、転写物発現の正確で比較可能な測定値を得ることができる。図示した例については、RNA-seqデータを12,450個の選別された試料(例えば、フローサイトメトリー及びビーズを用いる細胞の磁気補助ソーティングによって選別される)について入手可能であり、これを目的の19個の細胞集団に細分することができた。低カバレッジ試料の除去及び品質検査の後に、選択された試料は、以下のTable 1(表1)に示す10種の主要な細胞型及び19種の細胞部分集団に分布した。

図示した例においては、t-SNEプロット140は、品質管理前にリストされた細胞型/サブタイプからのRNA-seq試料(n=12450)を描写しており、一方、t-SNEプロット150は、品質管理に合格しなかった試料を除去した後にリストされた細胞型/サブタイプからのRNA-seq試料(n=7150)を描写している。品質管理の手法には、「データの収集、分析及び前処理」の節に記載されている実施形態のいずれか、又は他の任意の好適な品質管理手法が含まれ得る。例えば、一部の実施形態では、異常な生理的状態を有する細胞に由来するデータを同定して(例えば、データと共に提供されるアノテーションに基づいて)、除外することができる。例えば、一部の実施形態では、ホルボールミリステートアセテート/イオノマイシン活性化及び/又は人工多能性幹細胞由来の試料を有するすべてのT細胞試料が除外された。一部の実施形態では、低い単離純度、シーケンシング品質パラメーター、他の生物(例えば、検討中の一次生物以外の生物)の高度の混入、及び/又は低カバレッジの試料も除去された。

プロット150に示されているように、細胞集団には腫瘍細胞152が含まれ得る。腫瘍細胞152は、がんの種類によって色分けされたがん細胞株のt-SNEプロット(n=2166)である図1Dに、より詳細に示されている。示されているように、がんの種類には、乳がん、結腸直腸がん、頭頸部がん、腎臓がん、肺がん、黒色腫、膵臓がん、前立腺がん、胃がん、及び/又は他のあらゆる種類のがんが含まれ得る。

一部の実施形態によれば、図1C及び図1DにプロットされたRNA発現データの試料の一部又はすべてを、少なくとも図1Eに関するものを含めて本明細書に記載されるように、特定の細胞型/サブタイプに特異的及び/又は半特異的な遺伝子を選択する一部として使用することができる。一部の実施形態では、少なくとも図6Aに関して本明細書に記載されるように、RNA発現データの図示された試料の一部又はすべてを、RNA発現データの人工的混合物を生成する一部として使用することができる。一部の実施形態では、図1C及び図1Dにプロットされたデータに含まれるRNA発現データ、並びに図1C及び図1DにプロットされたRNA発現データに類似するデータは、公開データセットに由来し、Gene Expression Omnibus(GEO)及びArrayExpress等のオープンソースデータベースを使用して見出されてもよい。一部の実施形態では、図1C及び図1DにプロットされたRNA発現データに類似するRNA発現データを含むデータセットを使用することができる。例えば、それぞれがTable 1(表1)に示される複数のデータセットからの複数の試料によって表される、Table 1(表1)に表される細胞型の一部又はすべてを含む類似のデータセットを使用することができる。

図1Eは、細胞型160について例示的な遺伝子の発現170を描写しているヒートマップである。示されているように、縦軸は細胞型160を表し、横軸は遺伝子の発現170を100万あたりの転写物(TPM)で表している。ヒートマップの各行は、1つのRNA-seq試料を表す。本明細書に記載されるように、いくつかの遺伝子はある特定の細胞型に特異的であると考えられる。例えば、図1Fのヒートマップに示されているように、選択された遺伝子190は、対応する選別された細胞集団180におけるRNAの比率と相関している可能性がある。例えば、図1Gのヒートマップに示されているように、選択された遺伝子192は腫瘍細胞株182について発現が制限されるか又は全く発現していない可能性がある。

以下に示すように、Table 2(表2)は、複数の細胞型のそれぞれについて、その細胞型に特異的若しくは半特異的であると考えられる、及び/又は本明細書に記載されるデコンボリューション手法に使用され得る遺伝子のセットを指定している。

遺伝子の選択及び特異性
一部の実施形態では、本発明者らによって開発された細胞性デコンボリューション手法は、特定の細胞型について細胞構成比率を決定するために、ある特定の遺伝子発現データのみを使用する工程を伴い得る。例えば、一部の実施形態では、少なくとも図2A～図2Cに関するものを含めて本明細書に記載されるように、特定の細胞型に特異的及び/又は半特異的な遺伝子の発現データのみを使用することができる。一部の実施形態では、特定の細胞型(例えば、非悪性細胞型)に特異的及び/又は半特異的な遺伝子が固有に発現するように、悪性細胞(例えば、がん細胞株)において高発現される遺伝子(例えば、腫瘍細胞に特異的な)を除外することができる。一部の実施形態では、特定の細胞型に特異的及び/又は半特異的な遺伝子を選択する工程は、以下の手法のいずれか又はすべてを実施する工程を含み得る:文献分析、統計的Kruskal-Wallis検定(ノンパラメトリックANOVA類似)による倍数変化分析、Conover-Iman検定(多重比較のためのノンパラメトリックペアワイズ検定)、及び/又は図1C～図1DからのRNA-seqデータを使用する相関分析。

一部の実施形態では、遺伝子セット(例えば、特定の細胞型について)を様々な供給源から収集することができる。一部の実施形態では、既知の機能を有する遺伝子のみを使用することができる。いくつかの遺伝子はCYTOFで使用される標識と類似している場合があり、いくつかは文献データから得られる場合があり(ある特定の遺伝子の特異性を示す場合がある)、並びに/又はいくつかの遺伝子は、選別された細胞の既存のRNA-seq試料上で見出される場合がある(例えば、実験条件、シーケンシング品質、及び発現による品質をフィルタリングした後に)。試料における遺伝子の検索は、いくつかの方法で行うことができる:差次的遺伝子発現を使用する、遺伝子発現と人工的混合物内の細胞の割合との相関を使用する(例えば、少なくとも図6Aに関するものを含めて本明細書に記載されるように)、遺伝子発現とTCGA(The Cancer Genome Atlas)試料若しくは選別された細胞の試料と混合されたTCGA試料におけるいくつかのマーカー細胞遺伝子(T細胞に対するCD3等)との相関を使用する(例えば、より多くの比率の細胞を試料に加えるため、リードカウントの数を増やすため、及び腫瘍内の様々な細胞の存在の間の相関を減らすために)、人工的混合物に対して線形回帰法を使用する(例えば、L1正則化を用いて)、機械学習方法に特徴的に重要ないくつかの測定基準(例えば、SHAP若しくは勾配ブースティングツリーのゲイン)を使用する、又はいくつかの遺伝的アルゴリズムを使用して、既知の細胞構成を有する人工的及び/若しくは実際の独立したデータに対して機械学習方法の予測の最高品質を与える遺伝子の組合せを選択する、又はこれらの記載された方法の任意の組合せ若しくは連鎖を使用する。

遺伝子が特定の細胞型又は細胞サブタイプでのみ発現している場合、その遺伝子はその特定の細胞型又はサブタイプに「特異的」であると考えることができる。遺伝子は、以下の場合に特定の細胞型又はサブタイプに「半特異的」であると考えることができる: (1)それが特定の細胞型又はサブタイプと1つ又は複数の他の細胞型又はサブタイプとの両方で発現している場合; (2)それが特定の細胞型又はサブタイプで、他の細胞型又はサブタイプよりも多く発現している場合。例えば、特定の細胞型又はサブタイプにおけるある遺伝子の平均発現が、他の細胞型又はサブタイプにおける同じ遺伝子の平均発現よりも、少なくとも閾値百分率(例えば、50%、100%、200%、500%、1000%等)又は閾値係数(例えば、2、5、10、15、20等の係数)が高い場合、その遺伝子は特定の細胞型又はサブタイプに半特異的であると考えることができる。1つの具体例として、ある遺伝子の細胞型又はサブタイプにおける平均発現が、他の細胞型又はサブタイプにおける遺伝子の平均発現の少なくとも10倍の大きさである場合、その遺伝子は特定の細胞型又はサブタイプに対して半特異的であると考えられる。例えば、マクロファージと単球との間、CD4+ T細胞とCD8+ T細胞との間、NK細胞とCD8+ T細胞との間には共通の遺伝子がある可能性がある。一部の実施形態では、共通の遺伝子は、細胞型及び/又はサブタイプに半特異的であると考えることができる(例えば、CD4+ T細胞及びCD8+ T細胞の両方に半特異的である)。一部の実施形態では、遺伝子を、それらの発現が悪性細胞(例えば、腫瘍)株で著しく低いか又は欠如しているという理由で選択することができる。一部の実施形態では、上記のように、複数のデータセットからの組合せ発現データに対して評価する場合に、特異性基準を評価することができる。一部の実施形態では、いくつかの型の細胞が同じデータセットに存在する場合、そのようなデータセットごとに、バッチ効果を抑えるためにデータセット内で同様の特異性分析を行うこともできる。

一部の実施形態では、遺伝子の各セットについて、これらの遺伝子がTCGA(The Cancer Genome Atlas)でどのように発現しているかを、所望の腫瘍の種類について決定するために分析を行うことができる。例えば、所与の細胞型について、平均的なTCGA発現の平均発現に対する比が同等の範囲内にあることが望ましい場合がある。換言すれば、TCGAにおける特異的又は半特異的な遺伝子(例えば、特異的又は半特異的な遺伝子のセットにおいて)の平均発現が、選別された細胞の試料における平均発現の70%であり、一方、このセットの他の遺伝子発現が5%前後である場合には、その特異的又は半特異的な遺伝子は、腫瘍若しくは他の細胞によって発現されている可能性が高いか、又は腫瘍内の細胞ではこの遺伝子の発現が大きく異なる。

追加的又は代替的に、同じセットからの遺伝子の発現が、この種類の腫瘍(例えば、上記の所望の種類の腫瘍)についてのTCGA試料間で相互に相関していることが望ましい場合もある。このために、セットからの他の遺伝子との相関の平均を分析することができる。TCGA LUADにおいて考慮される遺伝子の発現の特性値は低い可能性があり(例えば、10TPM未満)、そのため、これらの遺伝子の相互の相関も低い可能性がある(例えば、シーケンシングの深さが不十分であることが理由で)。場合によっては、NK細胞及び好中球の遺伝子発現が特に低いこともある。

本発明者らは、共通の起源及び機能を有する細胞が、しばしば同じ遺伝子を発現し得ることを認識し、理解している。例えば、造血免疫細胞は、CD45(PTPRC)及びHCLS1を発現する。その発達を理由として、免疫細胞はリンパ球及び骨髄細胞に分けることができる。更には、リンパ球はT細胞、B細胞、NK細胞に分けることができ、T細胞の中からCD4+ T細胞及びCD8+ T細胞を識別することができる。しかし、これらの細胞の中には、腫瘍の発達及び治療過程の両方において重要な役割を果たし得るサブタイプもある。このため、本明細書に記載されるように、ある特定の細胞のサブタイプについて細胞構成比率を決定することが望ましい場合がある。しかし、本発明者らは、細胞サブタイプにおいて発現される特異的及び/又は半特異的な遺伝子は少ない可能性があり、腫瘍微小環境におけるそのような細胞の数は細胞の組合せ群よりも少ない可能性があることから、RNA発現データに基づいて細胞サブタイプを単離することは困難であり得ることを認識し、理解している。

本発明者らは、細胞型及びサブタイプの両方を決定する精度を改善するための1つの方法は、細胞サブタイプについて細胞構成比率を決定する際に、細胞の組合せ群(例えば、共通の遺伝子を有する細胞型及びサブタイプを含む)に対して特異的及び/又は半特異的な遺伝子の発現に関する情報を使用することであり得ることを発見した。そのような共通の遺伝子は、例えば、個々の細胞型及びサブタイプの細胞構成比率を決定する場合に利用できる。細胞サブタイプの群に共通する遺伝子を使用する別の方法は、本明細書の別の箇所に記載されるように、まず組合せ群について細胞構成比率を計算し、次いで群における個々の細胞型について細胞構成比率を決定するためにその計算の精度を高めることであり得る。

図2Aは、少なくとも1つの細胞型について細胞構成比率を決定するための方法200を描写しているフローチャートである。一部の実施形態では、方法200は、コンピュータデバイス(例えば、少なくとも図10に関するものを含めて本明細書に記載される通り)上で行うことができる。例えば、コンピュータデバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと、実行されると方法200の動作を実施するプロセッサ実行可能命令を格納する少なくとも1つの非一時的な記憶媒体とを含み得る。方法200は、例えば、システム100等のシステムにおいて(これには例えば、臨床の場又は実験室の場が含まれ得る)、1つ又は複数のコンピュータデバイスによって、例えば、コンピュータデバイス108によって行うことができる。

動作202で、方法200は、対象から生体試料について発現データを得る工程から始まる。一部の実施形態では、発現データを得る工程は、任意の好適な手法を使用して対象から以前に得られた生体試料から発現データを得る工程を含み得る。一部の実施形態では、発現データを得る工程は、生体試料から以前に得られた発現データを得る工程(例えば、データベースにアクセスして発現データを得る工程)を含み得る。一部の実施形態では、発現データは、RNA発現データである。RNA発現データの例は、本明細書において提供される。一部の実施形態では、対象は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある場合がある。図1Aに関するものを含めて本明細書に記載されるように、生体試料には、生検試料(例えば、対象の腫瘍若しくは他の罹患組織の)、「生体試料」の節に関するものを含めて本明細書に記載される実施形態のいずれか、又は他の任意の好適な種類の生体試料が含まれ得る。一部の実施形態では、発現データの起源又は調製には、「発現データ」及び「RNA発現データの入手」の節に関して記載される実施形態のいずれかが含まれ得る。例えば、発現データは、任意の好適な手法を使用して抽出されたRNA発現データであってもよい。別の例として、動作202で得られる発現データには、TPMで測定されたRNA発現データが含まれ得る。

一部の実施形態では、発現データは、少なくとも1つの記憶媒体に保存され、動作202の一部としてアクセスされ得る。例えば、発現データを1つ若しくは複数のファイルに、又はデータベースに保存して、次いで読み取ることができる。一部の実施形態では、RNA発現データを保存する少なくとも1つの記憶媒体は、コンピュータデバイスに対してローカルであってもよく(例えば、同じ少なくとも1つの非一時的な記憶媒体に保存される)、コンピュータデバイスの外部にあってもよい(例えば、遠隔データベース又はクラウド保存環境に保存されている)。発現データは、単一の記憶媒体に保存されてもよく、又は複数の記憶媒体にわたって分散していてもよい。

一部の実施形態では、動作202の発現データは、第1の細胞型(例えば、生体試料において分析される細胞型及び/又はサブタイプの細胞型)に関連する第1の遺伝子のセットに関連する第1の発現データを含み得る。一部の実施形態では、第1の遺伝子のセットは、少なくとも図1Eに関して本明細書に記載されるように、第1の細胞型に特異的及び/又は半特異的な遺伝子を含み得る。例えば、内皮細胞型については、遺伝子のセットは、ANGPT2、APLN、CDH5、CLEC14A、ECSCR、EMCN、ENG、ESAM、ESM1、FLT1、HHIP、KDR、MMRN1、MMRN2、NOS3、PECAM1、PTPRB、RASIP1、ROBO4、SELE、TEK、TIE1、及び/又はVWFを含み得る。一部の実施形態では、第1の遺伝子のセットは、少なくとも図4～図6に関するものを含めて本明細書に記載されるように、その細胞型について対応する非線形回帰モデルを訓練する工程の一部として使用される遺伝子のセット又は遺伝子のセットのサブセットと同じであってもよい。

動作204で、方法200は、少なくとも第1の細胞型について第1の細胞構成比率を決定する工程に進む。示されているように、第1の細胞型について第1の細胞構成比率を決定する工程は、第1の細胞型についての第1の遺伝子のセットに関連する第1の発現データを、第1の非線形回帰モデル(例えば、1つ又は複数の非線形回帰モデルのうちの)で処理して、第1の細胞型について第1の細胞構成比率を決定する工程を含み得る。例えば、第1の発現データは、第1の非線形回帰モデルへの入力として提供され得る。一部の実施形態では、非線形回帰モデルへの入力の一部として他の情報が提供され得る。例えば、発現データの中央値を、非線形回帰モデルへの入力の一部として含めることができる。一部の実施形態では、他の任意の好適な情報が、追加的又は代替的に入力の一部として提供され得る(例えば、発現データの平均、発現データのサブセットの中央値若しくは平均、又は発現データに由来するか若しくは別の形で発現データに関係する他の任意の好適な統計値)。

一部の実施形態では、動作204の一部を、分析される各細胞型及び/又はサブタイプについて、反復すること、及び/又は並行して実施することができる。例えば、発現データのサブセットは、各々の各細胞型及び/又はサブタイプについての各非線形回帰モデルへの入力として提供され得る。

一部の実施形態では、非線形回帰モデルの出力は、試料における第1の細胞型からのRNAの推定比率を表す情報を含み得る。少なくとも図2C及び図3Cに関するものを含めて本明細書に記載されるように、第1の細胞型からのRNAの推定比率を使用して、第1の細胞型について対応する細胞構成比率を計算することができる。一部の実施形態では、少なくとも図3Cに関するものを含めて本明細書に記載される手法は、非線形回帰モデルを処理する工程の一部として適用することができ、その場合、非線形回帰モデルの出力は、RNAの推定比率ではなく、第1の細胞型についての推定細胞構成比率であってもよい。

一部の実施形態では、プロセス200は、次いで、第1の細胞構成比率を出力するための動作206に進む。第1の細胞型についての非線形回帰モデルを含む非線形回帰モデルへのアーキテクチャ又は入力にかかわらず、1つ又は複数の非線形回帰モデルの出力を、方法200の一部として組み合わせること、保存すること、又は別の形で後処理することができる。例えば、各細胞型についての細胞構成比率は、方法200を実施するために使用されるコンピュータデバイス上(例えば、非一時的な記憶媒体上に)にローカルに保存され得る。一部の実施形態では、細胞構成比率は、1つ又は複数の外部記憶媒体(例えば、遠隔データベース又はクラウド保存環境等)に保存することができる。

図2Bは、発現データに基づいて細胞構成比率を決定するための方法200の実装例である。一部の実施形態では、方法200を実装する工程は、図2Bの例示的なフローチャートに含まれる動作の任意の好適な組合せを含み得る。一部の実施形態では、方法200を実装する工程は、図2Bに示されていない追加的又は代替的な工程を含み得る。例えば、方法200を実行する工程は、例示的なフローチャートに含まれるすべての動作を含み得る。或いは、方法200は、例示的なフローチャートに含まれる動作のサブセットのみを含み得る(例えば、動作212及び動作216、動作212、214、216及び218、動作212、216及び220等)。

一部の実施形態では、実装例220は、動作212から始まり、ここで対象からの生体試料について発現データが得られる。対象からの生体試料について発現データを得る工程は、図2Aの動作202に関連するものを含め、本明細書に上述されている。

一部の実施形態では、動作212は、第1の発現データ及び第2の発現データを得る工程を含み得る。第1の発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連付けることができ、第2の発現データは、第2の細胞型に関連する第2の遺伝子のセットに関連付けることができる。例えば、第1の発現データは、B細胞に関連する第1の遺伝子のセットに関連付けることができ、第2の発現データは、T細胞に関連する第2の遺伝子のセットに関連付けることができる。追加的又は代替的に、第1の発現データは、第1の細胞サブタイプに関連する第1の遺伝子のセットに関連付けることができ、第2の発現データは、第2の細胞サブタイプに関連する第2の遺伝子のセットに関連付けることができる。例えば、第1の発現データは、CD4+細胞に関連する第1の遺伝子のセットに関連付けることができ、第2の発現データは、CD8+細胞に関連する第2の遺伝子のセットに関連付けることができる。異なる細胞型及び/又はサブタイプに関連する遺伝子を同定するための手法は、「遺伝子選択及び特異性」の節に関するものを含めて本明細書に記載される。

一部の実施形態では、例示的な方法220は動作214に進み、ここで発現データが前処理される。一部の実施形態では、前処理によって、1つ又は複数の非線形回帰モデルを使用して処理するのに適した発現データが作成され得る。例えば、発現データを、選別すること、組み合わせること、バッチに編成すること、フィルタリングすること、又は他の任意の好適な手法によって前処理することができる。一部の実施形態では、発現データを処理する手法には、「アラインメント及びアノテーション」、「非コード転写物の除去」、及び「TPMへの変換及び遺伝子集成」の節に関して記載されている実施形態のいずれかが含まれ得る。

発現データが前処理された後、例示的な方法220は動作216に進み、ここで、発現データと1つ又は複数の非線形回帰モデル(例えば、少なくとも5個、少なくとも10個、少なくとも15個のモデル)とを使用して、複数の細胞型について複数の細胞構成比率が決定され得る。一部の実施形態では、各非線形回帰モデルは、少なくとも図4～図6に関するものを含めて本明細書に記載される手法に従って、訓練され得る。

一部の実施形態では、別個の非線形回帰モデルを使用して、各細胞型及び/又はサブタイプについて細胞構成比率を推定することができる。例えば、動作216は、動作216a及び動作216bを含むことができ、これらはそれぞれ第1及び第2の細胞型及び/又はサブタイプについて細胞構成比率を決定するために訓練された別個の非線形回帰モデルを使用する工程をそれぞれが含む。動作216aは、第1の発現データ及び第1の非線形回帰モデルを使用して、第1の細胞型について第1の細胞構成比率を決定する工程を含む。動作216bは、第2の発現データ及び第2の非線形回帰モデルを使用して、第2の細胞型について第2の細胞構成比率を決定する工程を含む。一部の実施形態では、動作216は、動作216a及び216bのうちの1つのみを含み得る。一部の実施形態では、動作216は、1つ又は複数の他の細胞型(例えば、第3の細胞型又はサブタイプ)について細胞構成比率を決定するために、1つ又は複数の追加の非線形回帰モデルを使用する工程を含み得る。動作216aの実装例は、図2Cに関連するものを含めて本明細書に記載される。

一部の実施形態では、例示的な方法220は、複数の細胞構成比率を出力するための動作218に進む。一部の実施形態では、複数の細胞構成比率は、グラフィカルユーザーインターフェイスを介して出力され、メモリに保存され、1つ若しくは複数の他のコンピュータデバイスに送信され、及び/又は他の任意の好適な方法で出力される。

一部の実施形態では、動作218での複数の細胞構成比率の出力及び/又は動作212で得られた発現データを後処理するための手法を使用することができる。本明細書に記載されるように、後処理の手法には、細胞構成比率及び発現データを使用して、動作220で生体試料について悪性腫瘍発現プロファイルを決定する工程が含まれ得る。悪性腫瘍発現プロファイルには、生体試料に含まれる悪性細胞の発現を示す情報が含まれ得る。例えば、これには、悪性細胞に関連する複数の異なる遺伝子の発現が含まれる。一部の実施形態では、悪性腫瘍発現プロファイルを決定する工程は、(a)生体試料におけるTME細胞についての発現プロファイルを推定する工程、及び(b)生体試料の総発現(例えば、バルク発現データ、動作212で得られた発現データ等)からTME細胞の発現を差し引く工程を含み得る。悪性腫瘍発現プロファイルを決定するための例示的な方法は、図3Dに関するものを含めて本明細書に記載される。

図2Cは、第1の発現データ及び第1の非線形回帰モデルを使用して、第1の細胞型について第1の細胞構成比率を決定するための動作216aの実装例を示している。示されているように、一部の実施形態では、第1の非線形回帰モデルは、第1の発現データ(例えば、図3Cに示すように)を処理するための第1のサブモデル及び/又は第2のサブモデルを含み得る。

一部の実施形態では、第1の発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第1の発現データの他に、第1の細胞型に関連する第2の遺伝子のセットに関連する第2の発現データを含み得る。

一部の実施形態では、実装例は、第1のサブモデルを使用して、第1の細胞型からのRNAの推定比率について第1の値を予測するための動作232で開始される。一部の実施形態では、第1の遺伝子のセット及び/又は他の任意の入力情報に関連する第1の発現データを、非線形回帰モデルの第1のサブモデルへの入力として提供することができ、その出力は第1の細胞型からのRNAの予測比率であり得る。

一部の実施形態では、第1の値を予測した後に、実装例は、第2のサブモデルを使用して、第1の細胞型からのRNAの推定比率について第2の値を予測するための動作234に進む。一部の実施形態では、第2の遺伝子のセットに関連する第2の発現データを、第1のサブモデルからの予測及び/又は第1のサブモデルで提供される他の任意の入力情報に加えて、非線形発現モデルの第2のサブモデルへの入力として提供することができる。追加的又は代替的に、第1の遺伝子のセットに関連する第1の発現データを、第2のサブモデルへの入力として提供することもできる。一部の実施形態によれば、複数の非線形回帰モデルからの予測(例えば、各細胞型についての各非線形回帰モデルの第1のサブモデルの出力)を、第1の細胞型についての非線形回帰モデルの第2のサブモデルへの入力として提供することができる。第2のサブモデルへの入力にかかわらず、非線形回帰モデルの第2のサブモデルの出力は、試料における第1の細胞型からのRNAの推定比率であり得る。第2のサブモデルの出力は、一部の実施形態では、第1の細胞型についての非線形回帰モデルの出力を含み得る。

一部の実施形態では、非線形回帰モデルは、2つを上回るサブモデルを含み得る。例えば、第2のサブモデルを任意の回数繰り返すことができ、そのたびに1つ又は複数の前のサブモデルからの予測が入力として含められる。

一部の実施形態では、実装例は次いで、第1の細胞型からのRNAの推定比率についての第2の値を使用して、第1の細胞型について細胞構成比率を決定するための動作236に進む。一部の実施形態では、第1の細胞型からのRNAの推定比率を決定する工程は、(a)生体試料に含まれる第1の型の細胞の数を推定する工程、及び(b)生体試料に含まれる細胞の総数を推定する工程(例えば、式350を使用する)を含み得る。第1の型の細胞の数を推定する工程は、RNAの推定比率(例えば、式350のR_cell)を、細胞あたりのRNA係数(例えば、式350のA_cell)と比較する工程を含み得る。細胞の総数を推定する工程は、各細胞型の細胞数を推定して、次いでそれらの値を合計する工程を含み得る。細胞構成比率を推定する手法は、図3Cに関するものを含めて本明細書に記載される。

図3Aは、RNA発現データに基づいてRNA比率を決定するための機械学習方法の例示的な使用を描写している図である。図示した例において、TCGAデータベースで入手可能な原発性腫瘍試料302からのRNA発現データは、T細胞、CD4+ T細胞、CD8+ T細胞についての対応する推定RNA比率306に到達するために、少なくとも図2A～図2Cに関するものを含めて本明細書に記載される機械学習手法に従って処理される。

図示した例において、腫瘍試料302についてのRNA発現データは、RNA発現データのオンラインデータベースから(例えば、この例ではThe Cancer Genome Atlas(TCGA)データベースから)得られる。一部の実施形態では、RNA発現データを、TCGA等の1つ若しくは複数のデータベースを含む任意の好適な供給源から、又は直接的に生体試料から得ることができる(例えば、少なくとも図1Aに関するものを含めて本明細書に記載されるように)。

RNA発現データが腫瘍試料302からどのように得られるかにかかわらず、RNA発現データは、非線形回帰モデル304を使用して処理することができる。一部の実施形態によれば、非線形回帰モデル304は、少なくとも図4～図6に関するものを含めて本明細書に記載される勾配ブースティング手法(例えば、XGBoostに実装されている通り)を使用して実装することができる。一部の実施形態によれば、図2A～図2Cに関するものを含めて本明細書に記載されるように、非線形回帰モデル304は、複数の細胞型のそれぞれについて別個の非線形回帰モデルを含むことができる。図示した例において、非線形回帰モデル304は、T細胞についての非線形回帰モデル、CD4+ T細胞についての非線形回帰モデル、及びCD8+ T細胞についての非線形回帰モデルを含む。示されているように、一部の実施形態では、1つ又は複数の追加の細胞型及び/又はサブタイプについて追加の非線形回帰モデルを提供することができる。

一部の実施形態では、非線形回帰モデル304への入力は、各非線形回帰モデルについてのRNA発現データの選択されたサブセットを含み得る。例えば、図2A～図2Cに関するものを含めて本明細書に記載されるように、特定の細胞型についての非線形回帰モデルへの入力は、その細胞型に特異的及び/又は半特異的な遺伝子についてのRNA発現データを含み得る。例えば、図示した例において、T細胞についての非線形回帰モデルは、遺伝子についての入力RNA発現データとして、CAMK4、CBLB、CD2、CD226、CD3D、CD3E、CD3G、CD48、CD5、CD6、CD7、FLT3LG、ITK、KCNA3、KLRB1、LAG3、LAT、LCK、LTA、SIRPG、SIT1、SLA2、TBX21、TCF7、TESPA1、TRAC、TRAF3IP3、TRAT1、TRBC2、TRDC、TRGC1、TRGC2、UBASH3A、ZBED2を採ることができる。一部の実施形態では、RNA発現データに関する他の情報(例えば、RNA発現データの中央値、又は他の任意の好適な統計値)が、非線形回帰モデルへの入力として追加的又は代替的に提供され得る。

一部の実施形態では、非線形回帰モデル304の出力は、各々の細胞型及び/又はサブタイプについてのRNA比率306であってもよい。例えば、T細胞についての非線形回帰モデルは、その出力として、入力RNA発現データにおけるT細胞からのRNAの予測比率を作成することができる。同様に、CD4 T細胞についての非線形回帰モデルは、CD4 T細胞からのRNAの予測比率を出力として作成し、CD8 T細胞についての非線形回帰モデルは、CD8 T細胞からのRNAの予測比率を出力として作成することができる。図3Cに関して本明細書に記載されるように、RNAの予測比率を使用して、分析される細胞型及び/又はサブタイプの一部又はすべてについて対応する細胞構成比率を計算することができる。

図示した例において、T細胞についての予測とCD4 T細胞+CD8 T細胞についての予測を比較したプロットが示されている。一部の実施形態では、サブタイプについての予測の合計は、それらのサブタイプを含む型についての予測と等しいこともあれば等しくないこともある。例えば、CD4 T細胞及びCD8 T細胞についての予測の合計がT細胞についての予測を上回ることもあれば、CD4 T細胞及びCD8 T細胞についての予測の合計がT細胞についての予測を下回ることもある。一部の実施形態では、サブタイプ予測の合計が型予測の全体と等しくてもよく、及び/又は型予測の全体と等しくなるように、サブタイプ予測を正規化若しくは調整することができる。

図3Bは、RNA発現データに基づいてRNA比率を決定するための、第1のサブモデル326、328、330及び第2のサブモデル338、340、342を含む非線形回帰モデル320、322、324の使用を描写している図式である。

図3Bの例示的な実施形態に示されているように、異なる非線形回帰モデル320、322、324を使用して、細胞型A 308、細胞型B 310、及び細胞型C 312の各細胞型に関連する遺伝子についての発現データ314、316、318を処理する。一部の実施形態では、例示的な各非線形回帰モデルは、各細胞型からのRNAの推定比率について第1の値332、334、336を生成するための第1のサブモデル326、328、330、各細胞型からのRNAの推定比率について第2の値344、346、348を生成するための第2のサブモデル338、340、342を含む。

1つ又は複数のサブモデルを含む非線形回帰モデルを使用するための非限定的な例として、細胞型B 310についてのRNA比率を推定するように訓練された非線形回帰モデル322を考える。一部の実施形態では、細胞型B 310に関連する遺伝子のセットから発現データ316を得て、非線形回帰モデル322への入力として使用することができる。例えば、細胞型B 310は免疫細胞を含むことができ、発現データ316は、遺伝子ADAP2、ADGRE3、ADGRG3、C1QA、C1QC、及びC3AR1(例えば、Table 2(表2)に挙げられた免疫細胞に関連する遺伝子セットから)の発現データを含むことができる。一部の実施形態では、発現データ316の少なくとも一部(例えば、遺伝子のあるサブセットに関連する発現データ、すべての遺伝子に関連する発現データ等)が、第1のサブモデル328への入力として使用される。例えば、遺伝子ADAP2、ADGRE3、及びADGRG3についての発現データを含む発現データ316のサブセットを入力として使用することができる。次いで、第1のサブモデルは、入力された発現データを処理して、細胞型B 310からのRNAの推定比率の第1の値334を決定することができる。

一部の実施形態では、例示的な非線形回帰モデル322は、細胞型B 310からのRNAの推定比率の第2の値346を生成するための第2のサブモデル340を含み得る。一部の実施形態では、第2のサブモデル340は、1つ又は複数の入力を使用して、第2の値340を生成することができる。例えば、一部の実施形態では、発現データ316の少なくとも一部を入力として使用することができる。一部の実施形態では、発現データは、第1のサブモデル328への同じ発現データ入力を含み得る(例えば、遺伝子ADAP2、ADGRE3、及びADGRG3についての発現データ等)。一部の実施形態では、発現データは、第1のサブモデルへの同じ発現データ入力の他に、追加の発現データを含み得る(例えば、遺伝子ADAP2、ADGRE3、ADGRG3、C1QA、及びC3AR1についての発現データ)。一部の実施形態では、発現データは、第1のサブモデルへの発現データ入力とは異なる発現データを含み得る(例えば、遺伝子C1QA、C1QC、及びC3AR1についての発現データ)。

追加的又は代替的に、一部の実施形態では、第2のサブモデル340は、他の細胞型308、312についての非線形回帰モデル320、324の第1のサブモデル326、330によるRNA出力の推定比率を入力として採ることができる。示されているように、細胞型B 310についての第2のサブモデル340は、細胞型A 308からのRNAの推定比率についての第1の値332及び細胞型C 312からのRNAの推定比率についての第1の値336を入力として採る。この型の入力は、別の細胞型と同じ遺伝子又は同じ遺伝子のセットに関連する細胞型からのRNAの比率を決定しようとする場合に情報価値がある可能性がある。例えば、細胞型B 310が、細胞型C 312と同じ遺伝子である遺伝子Xに関連する場合には、遺伝子Xについて得られた発現データは、2つの細胞型のうちのどちらが生体試料に存在するかについての情報価値は高くない可能性があるが、これはどちらの細胞型が発現データを生成したかが不明であり得るためである。しかし、第1のサブモデル330が、細胞型Cについて決定されたRNAの推定比率の第1の値336として0%を出力するシナリオを考えてみる。これは、生体試料中に細胞型C 312の細胞が全く存在しないことを示す。その結果、遺伝子Xについて得られたあらゆる発現データは、細胞型B 310によって発現されたにちがいない。一部の実施形態では、第2のサブモデル340は、第1の値332、336を使用して、そのような推測を行うことができる。

一部の実施形態では、第2のサブモデル340の出力は、細胞型B 310からのRNAの推定比率についての第2の値346である。図3Dに関するものを含めて本明細書に記載されるように、推定されたRNA比率を処理して、各細胞型についての細胞構成比率を決定することができる。

図3Cは、RNA比率360に基づいて細胞構成比率370を決定するための方法を描写している図式である。例えば、図3Cの方法は、分析される細胞型及び/又はサブタイプの一部又はすべてについて細胞構成比率の予測に到達するために、図2及び図3Aに関するものを含めて本明細書に記載される手法に従って予測されるRNA比率に適用することができる。

図に示されているように、RNAの比率に基づいて細胞構成比率を得る工程は、各細胞型についてのRNAの比率に式350を適用する工程を含み得る。一部の実施形態では、式350は、各RNA比率に対して個別に適用されることもあれば(例えば、順に)、一部の実施形態では、RNA比率の一部又はすべてに対してまとめて適用されることもある(例えば、並列に)。一部の実施形態では、式350は、互いにサブセットではない細胞型についてのRNA比率に最初に適用することができる。一部の実施形態では、式350はその後、最初に使用された1つ又は複数の細胞型のサブタイプである細胞型についてのRNA比率に適用することができる。一部の実施形態では、細胞サブタイプについての細胞構成比率の計算を、最初に計算された細胞構成比率に基づいて修正することができる。例えば、一部の実施形態では、後に計算された細胞サブタイプについての細胞構成比率を、それらが合計されると細胞型全体(すなわち、サブタイプである最初に計算された細胞型)の細胞構成比率となるように、正規化又は他の方法で調整することができる。

所与の細胞型であるcellに対して、式350は:

であり、式中、C_cellは、その細胞型についての細胞構成比率であり、R_cellはその細胞型についてのRNA比率であり、A_cellは細胞あたりのRNA係数である。式350に示されるように、分母は、分析されるすべての細胞型及び/又はサブタイプ(cell)の合計を含み得る。そのため、式

は、最初にすべての細胞型及び/又はサブタイプについて計算され、次いで各細胞型及び/又はサブタイプについて個々のC_cell値を計算するために使用され得る。

一部の実施形態によれば、細胞型についてのRNA比率は、分数又は小数で表すことができる(例えば、式350による計算を目的として)。一部の実施形態では、式350で使用されるRNA比率は、合計されて1になり得る(例えば、Σ_cellsR_cell=1)。一部の実施形態では、RNA比率の合計が1未満である場合には、R_otherの式を導入することができ、これは1-Σ_cellsR_cellに等しくなり得る。一部の実施形態では、RNA比率の合計が1よりも大きい場合には、R_other=0であり、RNA比率はそれらを合計して1になるように正規化することができる。

一部の実施形態では、式350は、細胞あたりのRNA係数A_cellを含み、これは細胞あたりのRNA濃度を表し得る。本発明者らは、細胞あたりのRNAの存在量が細胞のサイズ及び/又は他の因子に依存する可能性があることを認識し、理解している。そのため、細胞型が異なることは、バルク試料にとってRNAの量が異なる原因になり得る。細胞あたりのRNA係数を使用して、RNA比率を対応する細胞構成比率に変換することができる。一部の実施形態では、細胞あたりのRNA係数A_cellを、モデル訓練プロセスの一部として決定することができる(例えば、複数の異なる細胞型の比率が既知であるシミュレートされた又は人工的なデータから)。一部の実施形態では、細胞あたりのRNA係数A_cellを、一部又はすべての細胞型について実験的に決定することができる。例えば、細胞あたりのRNA係数は、各細胞型についてRNA発現に関するデータにアクセスし(例えば、入手可能な科学文献、例えば、PMID:29130882、PMID:30726743から、又は細胞型ごとの平均若しくは非線形変換されたUMIカウントを使用して単細胞データから推定)、そのデータを使用して、各細胞型について対応する細胞あたりのRNA係数を決定すること(例えば、純度及び/又は組織学的TCGAリンパ球データを分析することによって)によって得ることができる。

一部の実施形態では、細胞あたりのRNA係数は組織特異的であってもよく、分析される疾患に基づいて異なり得る(例えば、がんごとに)。一部の実施形態では、細胞あたりのRNA係数は組織非依存的であってもよく、分析される疾患によっては異ならなくてもよい(これは例えば、異なるがん、組織、又は疾患の間であっても、非悪性の微小環境細胞は同じ又は実質的に類似した細胞表現型によって表され得るためである)。後者の場合、細胞あたりのRNA係数を計算するために、複数の種類のがん、組織、疾患等のデータを組み合わせることができる。例えば、一部の実施形態では、細胞型について細胞あたりのRNA係数を決定する工程の一部として、TCGAからの10,000個を上回る異なるがん組織試料が分析された。本発明者らは、非悪性細胞構成比率が、組織学及びWES分析によって定められる腫瘍細胞性に対応する可能性があることを認識し、理解している。そのため、一部の実施形態では、細胞あたりのRNA係数を決定する工程は、細胞型あたりのRNAについての係数を導き出すために、RNAから得られる非悪性細胞構成比率を、DNAから得られる細胞構成比率とアラインメントする工程を含み得る。

本明細書に記載される手法は、RNA-seqデータのみに適用されるものに限定されないことが理解されるべきである。例えば、本明細書に記載される手法の一部の実施形態を、マイクロアレイデータに適用することができる。この目的で、発現値を、RNA-seqについて100万あたりの転写物(TPM)の値と類似の範囲にあるように正規化して(例えば、発現の合計が100万となるように)、任意選択で線形スケールを使用することができる。

図3Dは、本明細書に記載される技術の一部の実施形態に従って、細胞構成比率に基づいて悪性腫瘍発現プロファイルを決定するための例示的な方法380を描写している図式である。これは、生体試料(例えば、生検試料)を得る工程、及び生体試料に含まれる悪性細胞の発現(例えば、個々の遺伝子の発現)を決定する工程を含み得る。一部の実施形態では、これは、生体試料の全体的な発現(例えば、バルク生検試料の発現)からTME細胞の発現を取り除く工程を含み得る。

示されているように、この例示的な方法は3つの工程を含む。第1の工程382は、異なる非悪性細胞型の平均発現プロファイルを決定する工程を含む。一部の実施形態では、これは、選別された細胞型からの発現データを使用する工程を含み得る。例えば、これは、T細胞、B細胞、マクロファージ、線維芽細胞、及びTMEに含まれる可能性のある他の任意の好適な細胞型からRNA-seqデータを得て使用する工程を含み得る。一部の実施形態では、細胞型から腫瘍(例えば、悪性)細胞を除外することができる。平均発現プロファイルには、各細胞型についての遺伝子のセットの平均発現が含まれ得る。

この例示的な方法は、次いで、細胞性デコンボリューション手法を使用して細胞構成割合を予測するための第2の工程384に進む。細胞構成割合は、生体試料(例えば、生検試料)における各細胞型の割合を示すことができる。示されているように、これには、細胞構成割合のベクトルを生成する工程が含まれ得る。細胞性デコンボリューション手法を使用する工程は、図1～図3Cに関するものを含めて本明細書に記載される実施形態のいずれかを含み得る。

TMEに含まれる複数の異なる細胞型の平均発現プロファイル(例えば、第1の工程382)及び生体試料におけるそれらの細胞型のそれぞれの割合(例えば、第2の工程384)を使用して、生体試料における各細胞型の発現を推定することができる。示されているように、第3の工程386は、発現プロファイルのマトリックスと細胞割合のベクトルの積を決定する工程を含み得る。その結果得られるベクトルは、生体試料におけるTME細胞の推定発現プロファイルである。

一部の実施形態では、腫瘍発現プロファイルを決定する工程は、生体試料のバルク発現(例えば、バルク生検試料の発現)からTME発現プロファイルを差し引く工程を含み得る。示されているように、これには、バルク発現のベクトルからTME細胞の発現プロファイルのために生成されたベクトルを差し引くことが含まれる。

図4は、RNA発現データに基づいて細胞構成比率を決定するために、1つ又は複数の非線形回帰モデルを訓練するための方法400を示すフローチャートである。本明細書に記載されるように、方法400は、1つ又は複数の非線形回帰モデル(例えば、少なくとも5個、少なくとも10個、少なくとも15個の非線形回帰モデル)を訓練して、生体試料における対応する1つ又は複数の細胞型について細胞構成比率を推定する工程を含み得る。一部の実施形態では、各非線形回帰モデルが、生体試料における特定の細胞型について細胞構成比率を推定するように訓練されるように、各細胞型及び/又はサブタイプについて別個の非線形回帰モデルを訓練することができる。

一部の実施形態では、方法400は、コンピュータデバイス上で行うことができる(例えば、少なくとも図10に関するものを含めて本明細書に記載されるように)。例えば、コンピュータデバイスは、少なくとも1つのプロセッサと、実行されると方法400の動作を実施するプロセッサ実行可能命令を格納する少なくとも1つの非一時的な記憶媒体とを含み得る。

動作402で、方法400は、シミュレートされたRNA発現データを含む訓練データを得る工程から始めることができる。一部の実施形態では、「シミュレートされた」RNA発現データは、部分的にin silicoで生成されるRNA発現データを含み得る。例えば、シミュレートされたRNA発現データには、精製された細胞型試料からの複数の発現データセットからのリードをサンプリングすることによって得られたデータが含まれ得る。一部の実施形態では、RNA発現データには、TPMで測定された発現データが含まれ得る。図示した例において、RNA発現データは、第1の細胞型に関連する第1の遺伝子についての第1のRNA発現データ及び第2の細胞型に関連する第2の遺伝子についての第2のRNA発現データを含む。第1の遺伝子は、例えば、第1の細胞型に特異的及び/又は半特異的な遺伝子であってもよく、一方、第2の遺伝子は、第2の細胞型に特異的及び/又は半特異的な遺伝子であってもよい。一部の実施形態では、訓練データは、分析される各細胞型及び/若しくはサブタイプ、並びに/又は他の細胞型に関連する遺伝子のRNA発現データを含み得る。

一部の実施形態では、訓練データを、動作402の一部として生成することができる。少なくとも図6Aに関するものを含めて本明細書に記載されるように、一部の実施形態では、悪性細胞(例えば、がん細胞)からのRNA発現データと微小環境細胞(例えば、免疫細胞、皮膚細胞等)からのRNA発現データとを組み合わせて、訓練のための複数のシミュレートされたRNA混合物(本明細書では「人工的混合物」又は「混合物」と称され得る)を生成する工程によって、シミュレートされたRNA発現データを生成することができる。一部の実施形態では、少なくとも千個、少なくとも1万個、少なくとも10万個、又は少なくとも100万個の混合物を、動作402の一部として生成すること及び/又はアクセスすることができる。

訓練データは、動作402で、任意の好適な様式で得ることができる。例えば、訓練データを、少なくとも1つの記憶媒体(例えば、1つ若しくは複数のファイル内、又はデータベース内)に保存することができる。一部の実施形態では、訓練データを保存する少なくとも1つの記憶媒体は、コンピュータデバイスに対してローカルであってもよく(例えば、同じ少なくとも1つの非一時的な記憶媒体に保存されている)、又はコンピュータデバイスの外部にあってもよい(例えば、遠隔データベース又はクラウド保存環境に保存されている)。訓練データは、1つの記憶媒体に保存されてもよく、又は複数の記憶媒体にわたって分散していてもよい。

一部の実施形態では、動作402は、任意の好適な様式で訓練データを前処理する工程を更に含み得る。例えば、訓練データを選別すること、組み合わせること、バッチに編成すること、フィルタリングすること、又は他の任意の好適な手法によって前処理することができる。前処理によって、例えば、1つ又は複数の非線形回帰モデルを使用して処理するのに好適な訓練データが作成され得る。一部の実施形態では、少なくとも図5Aに関するものを含めて本明細書に記載されるように、訓練データを別個の訓練用、検証用、及び保留用データセットに分割することができる。

動作404から動作408までにおいて、方法400は、訓練データを使用して、1つ又は複数の非線形回帰モデルを訓練する工程に進むことができる。特に、動作404から動作408までは、非線形回帰モデルの第1のモデルを訓練して、対応する第1の細胞型についての細胞構成比率を推定する工程を記載している。動作404及び406を、本明細書では訓練工程と称することができる。一部の実施形態によれば、非線形回帰モデルの各モデルは、少なくとも一部には、各細胞型について別々に訓練することができる(例えば、各非線形回帰モデルについて、対応する異なる入力データ、及び異なる学習されたパラメーターを用いて)。一部の実施形態では、1つ又は複数の非線形回帰モデルの各非線形回帰モデルは、動作404から406までに関するものを含めて本明細書に記載される手法に従って、必要に応じて変更を加えた上で訓練され、及び/又は動作408に従って保存される。

動作404で、非線形回帰モデルの第1のモデルを訓練する工程は、第1のモデル及び第1のRNA発現データを使用して、第1の細胞型についてのRNAの推定比率を生成する工程に進むことができる。本明細書に記載されるように、第1のRNA発現データは、第1の細胞型に関連する第1の遺伝子(例えば、第1の細胞型に特異的及び/又は半特異的な遺伝子のみ)を含み得る。一部の実施形態では、第1のRNA発現データは、第1のモデルへの入力として提供され得る。一部の実施形態では、他の入力が、追加的又は代替的に第1のモデルに提供され得る。例えば、RNA発現データの一部又はすべてに関係する中央値、平均、又は他の任意の好適な情報が、第1のモデルへの入力の一部として提供され得る。

動作406で、非線形回帰モデルの第1のモデルを訓練する工程は、第1の細胞型からのRNAの推定比率を使用してパラメーターをアップデートする工程に進むことができる。一部の実施形態では、動作406の一部として、第1の細胞型からのRNAの推定比率を、第1の細胞型からのRNAの比率についての既知の値と比較することができる。例えば、推定値に関連する損失を決定するために、損失関数を推定値及び既知の値に適用することができる。一部の実施形態では、損失を使用して、モデルのパラメーターをアップデートすることができる。例えば、損失を最小限に抑えるようにモデルのパラメーターをアップデートするために、勾配降下法、又は他の任意の好適な最適化手法を適用することができる。

第1のモデルは、本明細書に記載されるように、非線形回帰手法を含む任意の好適な手法を使用して、その入力を処理することができる。一部の実施形態では、第1のモデルは、勾配ブースティング機械学習手法を使用することができる。例えば、第1のモデルは、決定木等の弱い予測モデルのアンサンブル、又は勾配ブースティングアルゴリズムを使用して反復様式で組み合わせることができる他の任意の好適な予測モデルを含み得る。一部の実施形態では、XGBoost又はLightGBM等の勾配ブースティングフレームワークを、第1のモデルを訓練する工程の一部として使用することができる。一部の実施形態では、ランダムフォレストモデルを、第1のモデルを訓練する工程の一部として使用することができる。

一部の実施形態では、所与の非線形回帰モデルについて、動作404から406までを複数回(例えば、少なくとも100回、少なくとも1000回、少なくとも1万回、少なくとも10万回、少なくとも100万回)繰り返すことができる。一部の実施形態では、動作404から406までを、設定された反復回数繰り返してもよく、又は閾値を超えるまで繰り返してもよい(例えば、損失が閾値を下回るまで)。一部の実施形態では、少なくとも図5Aに関するものを含めて本明細書に記載されるように、非線形回帰モデルを2つ又はそれ以上の段階で訓練することができる。

動作408で、方法400は、第1の非線形回帰モデル及び第2の非線形回帰モデルを含む訓練された複数の非線形回帰モデルを出力する工程に進むことができる。一部の実施形態では、訓練された複数の非線形回帰モデルを出力する工程は、以下を含み得る: モデルのうちの1つ若しくは複数を、後のアクセスのために、少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体(例えば、メモリ)に保存する工程、モデルをレシピエントに提供する工程(例えば、任意の好適な通信ネットワーク又は他の手段を使用して、モデルに関連付けられたデータをレシピエントに伝達する工程)、モデルに関連付けられた情報を、グラフィカルユーザーインターフェイス、及び/又は訓練されたモデルを出力する他の任意の好適な様式を介してユーザーに表示する工程、これは、本明細書に記載される技術の態様はこの点について限定されないためである。

図5Aは、本発明者らによって開発された手法に従って、1つ又は複数の非線形回帰モデルを訓練するための例示的な方法500を示している。図示されている手法は、少なくとも図2及び図4に関するものを含めて本明細書に記載される他の手法のいずれかと組み合わせて使用することができる。

図に示されているように、方法500は、訓練のために1つ又は複数のデータセットを準備する工程により、動作502で始めることができる。一部の実施形態では、データセットは、動作502の一部として、生成され得る(例えば、少なくとも図6Aに関するものを含めて本明細書に記載される手法に従って)、及び/又はアクセスされ得る(例えば、1つ又は複数のデータベースから)。図6Aに関するものを含めて本明細書に更に詳細に記載されるように、データセットは、RNA発現データの複数の人工的混合物を含むことができ、これには種々の悪性(例えば、腫瘍)及び/又は微小環境細胞からのRNA発現データが含まれ得る。一部の実施形態では、データセットは、少なくとも1000個、少なくとも1万個、少なくとも10万個、又は少なくとも100万個の人工的混合物を含み得る。

一部の実施形態では、データセットを訓練データセットと保留データセットに分けることができる。例えば、一部の実施形態では、データセットは、それぞれ訓練及び保留に使用するためのデータセットの設定比率で、訓練及び保留のためのデータセットにランダムに分けることができる。例えば、図示した例では、データセットの80%が訓練データセットとして使用され、残りの20%は保留データセットとして残される。

図に示されているように、保留データセットは、品質測定基準を策定するために使用することができる(例えば、少なくとも図7Bに関するものを含めて本明細書に記載されるように)。一部の実施形態では、すべてのデータセットを訓練に使用できるように、保留データセットがないこともある。動作502の図に示されているように、訓練データセットは更に、それぞれが各々の訓練セット及び検証セットを含む1つ又は複数の(例えば、10個の)フォールドに細分することができる。一部の実施形態によれば、訓練データセットはランダムにフォールドに分割される。一部の実施形態では、訓練の一部としてクロスフォールド検証を行うことができる。

動作502でデータセットがどのように準備されるかにかかわらず、方法500は、訓練データセットを使用して複数の非線形回帰モデルを訓練する工程により、動作510と動作520で継続することができる。少なくとも図4に関するものを含めて本明細書に記載されるように、各非線形回帰モデルを、入力RNA発現データに基づいて、特定の細胞型からの対応するRNAの比率を推定するように訓練することができる。図示された例に示されているように、非線形回帰モデルは、非線形回帰モデルの第1のサブモデルの訓練に対応する第1の段階と、非線形回帰モデルの第2のサブモデルの訓練に対応する第2の段階という2段階で訓練することができる。

第1の段階では、動作510で、各非線形回帰モデルの第1のサブモデルを訓練して、その各々の細胞型からRNAの比率の初期予測を生成することができる。各非線形回帰モデルの各第1のサブモデルについて、入力は、対応する細胞型に特異的及び/又は半特異的な遺伝子のRNA発現データを含み得る。一部の実施形態では、細胞型に特異的及び/又は半特異的な遺伝子のRNA発現データのみを、入力として提供することができる。一部の実施形態では、他の情報、例えば、発現データの中央値を提供することができる。第1の段階で提供される入力にかかわらず、第1の段階の出力は、各細胞型からのRNAの比率についての初期予測であってもよく、各非線形回帰モデルの各第1のサブモデルは、その各々の細胞型についての予測を提供する。

第2の段階では、動作520で、各非線形回帰モデルの第2のサブモデルを訓練して、その各々の細胞型からのRNAの比率について第2の予測を生成することができる。各非線形回帰モデルの各第2のサブモデルについて、入力は、対応する細胞型に特異的及び/又は半特異的な遺伝子のRNA発現データ、並びに第1の段階からの予測を含み得る。一部の実施形態では、第2の段階で使用されるRNA発現データは、第1の段階で使用されるRNA発現データとは異なり得る。例えば、一部の実施形態では、第2の段階において非線形回帰モデルを訓練する目的で、訓練データの一部又はすべてを再生成することができる(例えば、図5B及び図6に関するものを含めて本明細書に記載される手法による)。一部の実施形態では、第1の段階及び第2の段階の訓練データは、各段階についての訓練データが異なるように、並列に(例えば、同時に)、しかし独立に生成されてもよい。RNA発現データに加えて、第1の段階からの予測が第2の段階で入力として提供されてもよい。一部の実施形態によれば、すべての細胞型についての初期予測が、第2の段階への入力として提供されてもよい。これにより、第2の段階が第1の段階からの予測を効果的に修正できるようになり、最終モデルの一貫性及び/又は精度が向上する可能性がある。

第2の段階で提供される入力にかかわらず、第2の段階での出力が、各細胞型からのRNAの比率についての第2の予測であってもよく、各非線形回帰モデルの第2のサブモデルが、各々の細胞型についての予測を提供することがある。一部の実施形態では、第2の予測は、非線形回帰モデルの最終出力であり得る(例えば、図2及び図4に関するものを含めて本明細書に記載されるように)。一部の実施形態では、追加の訓練の段階(例えば、追加のサブモデル)を実施することができ(例えば、第3の段階、第4の段階等)、各段階は入力として、新たな訓練データ(例えば、RNA発現データ)、及び前の段階からの予測を採る。

前の段階からの予測を、次の段階への入力の一部として提供する工程は、特定の細胞型についてのモデルが、他の細胞型についての推定比率に関する情報を使用して、それらに適応することを可能にし得る(例えば、T細胞の総数が10個に等しく、CD4+ T細胞の数が8個であることを知れば、CD8+ T細胞の数は2個を上回ることはできない)。本明細書に記載されるように、複数段階の訓練手順によって、モデルがこれを考慮することが可能となり得る。この手順により、複数の異なる細胞型及びサブタイプからの情報を、個々の各細胞型モデルについて使用することが可能となり得る。

図5Bは、本明細書に記載される技術の一部の実施形態に従って、機械学習モデルを訓練するための、例示的で非限定的な説明図である。図示されている手法は、少なくとも図2及び図4に関するものを含めて本明細書に記載される他の手法のいずれかと組み合わせて使用することができる。

図に示されているように、図式530は、図5Aに関するものを含めて本明細書に記載されるように、データセットの1つ又は複数のフォールドへの分割を図示している。例えば、データセットをランダムに3つのフォールドに分割し、3つのフォールドのそれぞれを訓練データセット及び検証データセットに更に分割することができる。一部の実施形態では、図6Aに関するものを含めて本明細書に記載されるように、データセットを使用して、人工的混合物を生成することができる。

一部の実施形態では、図式540に示されているように、次いでフォールドを使用して、所与のパラメーターのセット(例えば、パラメーター550)について1つ又は複数のモデルを訓練することができる。パラメーターは、Table 3(表3)に示されている既定の範囲のセットに基づいて、(例えば、ランダムに)生成することができる。一部の実施形態では、フォールドのうちの少なくとも一部(例えば、すべて)を使用して、各細胞型モデルを個別に訓練することができる。その後に、一部の実施形態では、検証用混合物を使用して各パラメーターセットを評価して、関連付けられた評価データを生成することができる。一部の実施形態では、図4に関するものを含めて本明細書に記載されるように、パラメーターを、訓練の各段階でアップデートすること、及び/又は後続の訓練段階への入力として使用することができる。例えば、第1のフォールドを訓練の第1の段階のための入力として使用して、第1のパラメーターセットを生成することができる。次いで、第2のフォールドを訓練の第2の段階のための入力として使用して、アップデートされたパラメーターのセットを生成することができる。Table 4(表4)及びTable 5(表5)は、それぞれ訓練の第1の段階及び第2の段階の後の1つ又は複数の細胞型モデルについての例示的なパラメーターを示している。

図6Aは、シミュレートされたRNA発現データを生成する工程を含む、1つ又は複数の非線形回帰モデルを訓練するための例示的な方法600を描写している図である(例えば、少なくとも図4～図5に関するものを含めて本明細書に記載されるように訓練データとして使用するために)。一部の実施形態では、シミュレートされたRNA発現データは、方法600の分岐610及び620に示されているように、悪性細胞(例えば、がん細胞)及び微小環境細胞(例えば、免疫細胞、間質細胞等)からのRNA発現データの試料を組み合わせることによって生成することができる。RNA発現データの人工的混合物を生成するための例示的なプロセスを、図6Aに関して以下に記載する。

図6Bは、本明細書に記載される技術の一部の実施形態に従って、実際の組織を模倣するためにRNA発現データの人工的混合物を生成する工程の例を描写している図式である。一部の実施形態では、RNA発現データは、分岐630に示されているように、1つ又は複数の生物学的状態(例えば、正の遺伝子調節、負の遺伝子調節等)を表す1つ又は複数の選別された細胞型/サブタイプに由来する。一部の実施形態では、分岐640及び650に示されているように、1つ又は複数の細胞型/サブタイプを様々な割合で混合して、人工的混合物を生成する。

図6Cは、本明細書に記載される技術の一部の実施形態に従って、細胞型モデルを訓練するために、人工的混合物を生成して使用するための例示的な図式である。一部の実施形態では、図5Aに関するものを含めて本明細書に記載されるように、データセットはフォールドに分けられる。一部の実施形態では、結果として得られるデータセットを使用して、人工的混合物を作り出す。その後に、一部の実施形態では、人工的混合物を使用して、1つ又は複数の細胞型/サブタイプに特異的な1つ又は複数の非線形回帰モデルのそれぞれを訓練し、検証する。一部の実施形態では、図5Aに関して記載されているように、フォールドのそれぞれから結果として得られるモデルをまとめて又は独立に考慮することができる。

図6D及び図6Eは、本明細書に記載される技術の一部の実施形態に従って、特定の細胞型/サブタイプのモデルを訓練するための特異的な人工的混合物を生成するための例示的な説明図である。一部の実施形態では、Table 6(表6)に関するものを含めて本明細書に記載されるように、特定の細胞型/サブタイプモデルを訓練するために、1つ又は複数のデータセットを除外することができる。

図6Fは、本明細書に記載される技術の一部の実施形態に従って、データセットを処理して人工的混合物を生成するための手法を示している例示的な図式である。

図に示されているように、動作602は、リバランシング(例えば、モデルの過剰訓練を避けるために大規模なデータセットを再サンプリングする)の工程の前に、細胞型についてのデータセットを示している。一部の実施形態では、図6Aに関するものを含めて本明細書の以下に記載されるように、データセットはリバランシング604され、組み合わされて、特定の細胞型についての試料の全セットとされ得る。更に、本明細書に記載されるように、試料は次いで、動作608においてランダムに選択され、動作612において平均化することができる。一部の実施形態では、本明細書に記載される手法に従って、614に図示されているように、細胞型の発現に過剰発現ノイズを加えることができる。

データの収集、分析及び前処理
一部の実施形態によれば、RNA発現データの試料は、少なくとも図1C～図1Dに関するものを含めて本明細書に記載されるように得ることができる。例えば、選別された悪性細胞及び微小環境細胞の多数の試料を使用して、RNA発現データの人工的混合物を構築することができる。一部の実施形態では、試料の数は、Table 1(表1)に含まれる試料の数と同程度であってもよい。一部の実施形態では、試料の数は、少なくとも5,000個、少なくとも10,000個、少なくとも15,000個、少なくとも20,000個、少なくとも30,000個、少なくとも50,000個、少なくとも100,000個、又は任意の数の好適な試料であり得る。一部の実施形態では、オープンソースのデータセット、例えば、Gene Expression Omnibus(GEO)及びArrayExpressを使用することができる。一部の実施形態では、使用されるデータセットは、以下の基準を満たすように選択される: ヒト(homo sapiens)のみ、リード長が31bpを上回る標準RNA-seq(ポリA枯渇なし、標的化パネル等)。一部の実施形態では、人工的混合物を構築するために、分析される特定の疾患(例えば、特定の種類の腫瘍)に該当する細胞型のみを使用することができる。対照的に、少なくとも図1Eに関するものを含めて本明細書に記載されるように、遺伝子発現特異性の分析に、すべての細胞型についてのデータを代わりに使用することもできる。

一部の実施形態では、データセットの選択は、生物学的パラメーター及びバイオインフォマティクス的パラメーターの両方に基づくことができる。例えば、通常の生理的条件に近い条件で培養された試料のデータセットを使用してもよい。一部の実施形態では、ホルボール12-ミリステート13-アセテート及びイオノマイシン活性化により過剰刺激されたCD4+ T細胞のデータセット、又は過剰な数の細菌培養物と共培養されたマクロファージのデータセットのように、異常刺激を伴うデータセットは除外された。一部の実施形態では、少なくとも400万個のコード性リードカウントを有する試料のみが使用された。

一部の実施形態では、人工的混合物の構築の前に、RNA発現データに対して品質管理を実施することができる(例えば、奇妙なデータセット又は信頼性の低いデータセットを除外するため)。例えば、CD4+ T細胞の一部の試料でCD45、CD4又はCD3遺伝子の発現がないか又は非常に低い場合には、それらを除外することができる。一部の実施形態では、他の細胞型についても同じことを行うことができる。例えば、一部の細胞型についての試料を、それらがその型の細胞に典型的ではない遺伝子を著しく発現している場合(例えば、T細胞のある試料において、CD19、CD33、MS4A1等が著しい量で発現されていて、他のほとんどのT細胞試料ではこれらの発現が低い場合)には、除外することができる。一部の実施形態では、CD4+ T細胞の試料が著しい量のCD8遺伝子を発現している場合、それらを除去することができる。一部の実施形態では、異なる遺伝子のセットによるt-SNE又はPCAのような発現分析のいくつかの方法を使用して、データセット間の類似性及び違いを描出することができる(例えば、図1C及び図1Dに示されているように)。1つのデータセットからのある特定の細胞型が、他のデータセットにおける同じ細胞型とクラスターを形成できない場合(例えば、t-SNE、PCA、又は他のプロットにおいて)には、そのデータセットを品質管理の一部として更に分析し、そのデータセットからのデータの一部又はすべてを除外することができる。

混合物の構築
一部の実施形態によれば、本明細書において上述されるように調製された試料を使用して、RNA発現データの種々の人工的混合物(例えば、シミュレートされた腫瘍組織を表す)を構築することができる。人工的混合物を、試料発現を使用してTPM(100万あたりの転写物)単位で生成し、試料全体についての遺伝子発現がその試料からの個々の細胞の発現の線形結合として形成されるようにすることができる。一部の実施形態では、本明細書で以下に記載されるように、様々な細胞型の試料からのRNA発現データを既定の比率で混合することができる。図6Aに示されているように、悪性細胞についてのシミュレートされたRNA発現データ(例えば、分岐610に示すように生成される)を、微小環境細胞についてのシミュレートされたRNA発現データ(例えば、分岐620に示すように生成される)と組み合わせることができる。

ここで分岐620を参照すると、シミュレートされた微小環境細胞RNA発現データを生成するための例示的なプロセスが示されている。図示した例において、各細胞型の試料(例えば、示されているように遺伝子GSE1、GSE2、GSE3、又はGSE4等のRNA発現データの試料)を、データセットごと(例えば、多数の試料を有するデータセットの重みを減らす)及びサブタイプごと(例えば、試料のサブタイプの割合を変更する)にリバランシングすることができる。リバランシングを行うための手法は、「データセットごとのリバランシング」及び「サブタイプごとのリバランシング」の節に関するものを含めて本明細書に記載されている。各細胞型について、次いで複数の試料をランダムに選択して平均をとることができる。次いで、使用されている細胞型の一部又はすべてについて、リバランシングされた/平均がとられた試料を、特定の比率で一緒にして混合することができる(例えば、実際の腫瘍微小環境をシミュレートするために)。

ここで分岐610を参照すると、シミュレートされた悪性細胞RNA発現データを生成するための例示的なプロセスが示されている。図示した例において、がん細胞(例えば、NSCLC、ccRCC、Mel、HNCK等)のランダムな試料を選択することができる。次いで、結果として得られるRNA発現データに高発現ノイズを加えて、悪性細胞による遺伝子の異常発現を考慮することができる。例えば、腫瘍細胞では、親細胞型には通常存在しない遺伝子を発現することがある。TME内の免疫細胞又は間質細胞に関連付けられる特異的、半特異的、又はマーカー遺伝子についてこれが該当する場合には、高発現される遺伝子が、本明細書に記載されるデコンボリューション手法の妨げとなる可能性がある。高発現ノイズが含まれるか否かにかかわらず、分岐610の結果は、シミュレートされた悪性細胞RNA発現データであり得る。

図に示されているように、悪性細胞についてのシミュレートされたRNA発現データ(例えば、分岐610に示すように生成される)と、微小環境細胞についてのシミュレートされたRNA発現データ(例えば、分岐620に示すように生成される)とを組み合わせて、人工的混合物(図6Aでは「発現混合物」と称される)とすることができる。一部の実施形態では、悪性細胞についてのシミュレートされたRNA発現データ及び微小環境細胞についてのシミュレートされたRNA発現データを、がん細胞についての所与の分布に基づいてランダムな比率で一つに混合してもよい。一部の実施形態では、技術的ノイズ及び生物学的ばらつきに起因するノイズを模倣するために、ノイズを、次いで、混合物に加えることができる。ノイズの各種類は、1つ又は複数の好適な分布に従って指定することができる。例えば、図6Aに示されているように、技術的ノイズをポワソン分布によって指定し、生物学的ばらつきによるノイズは正規分布に従って指定することができる。しかし、一部の実施形態では、技術的ノイズは、他の分布によって指定され得る複数の構成要素を有してもよい。例えば、技術的ノイズの別の構成要素が、非ポワソン分布によって指定されてもよい。人工的混合物がどのように生成されるかにかかわらず、一部の実施形態では、人工的混合物は、腫瘍微小環境(TME)を含む人工的な腫瘍を表すことができる。

本発明者らは、人工的混合物を作り出す場合、異なる試料からの同じ型の異なる細胞を使用することが望ましい場合があることを認識し、理解している。混合物について少数の試料を使用すること、又は各細胞型について1つの試料だけを使用することにより、実際の腫瘍試料に対して得られる性能が低下すると考えられる(例えば、細胞状態及びその発現のばらつきの他、異なる発現についてのリードカウントの数が限られることに起因するノイズ、アラインメントのエラー、及び技術的ノイズの他の原因に起因して)。このため、本発明者らは、人工的混合物を作り出す場合に、可能な限り多くの入手可能な細胞試料を使用することが望ましい場合があることを認識している。

したがって、この例については、様々な細胞型の多数のRNA-seq試料(例えば、少なくとも100個、少なくとも500個、少なくとも1000個、少なくとも2000個、又は少なくとも5000個の試料)を収集した。一部の実施形態では、悪性細胞(例えば、様々な診断のための純粋ながん細胞、がん細胞株又は腫瘍から選別されたがん細胞)のいくつかのデータセットを収集することもできる。各細胞型について、異なるデータセットからの対応するいくつかの試料が存在してもよい。Table 7(表7)に、いくつかの細胞型について品質管理の後に残る試料の数量を列挙している。

一部の実施形態では、図5Aに関するものを含めて本明細書に記載されるように、人工的混合物を、1つ又は複数の非線形回帰モデルを訓練するための訓練データセットとして使用することができる。一部の実施形態では、非線形回帰モデルは、細胞型/サブタイプに特異的であってよい。したがって、一部の実施形態では、特異的な各細胞型モデルについてモデルを訓練するために、多くの(例えば、150,000個の)人工的混合物を生成することができる。図6D及び図6Eに図示されているように、各モデルに使用される混合物のセットには、特定の細胞型/サブタイプ間の区別を可能にする特定のデータセットが含まれてもよく、又はそれらが除外されてもよい。例えば、CD4+ T細胞のモデルを訓練するために、データセット内のCD4+ T細胞の比率に関する不確実性を回避する目的で、不特定のT細胞を含むデータセットを除外することができる。一例として、Table 6(表6)には、1つ又は複数の対応する細胞型/サブタイプモデルを訓練するために使用される混合物を明示されている。

試料の平均化
一部の実施形態では、各細胞型について複数の試料を任意の好適な様式で、平均化することができる(例えば、人工的ノイズを加える前に試料の品質を改善するために)。例えば、一部の実施形態では、平均化する工程は、2回ずつの群で行うことができ、例えば、400万個のリードの平均化された試料は、800万個のリードの情報を含み得る。一部の実施形態では、複数の試料にわたって平均化する工程は、シーケンシング中の技術的要因によって引き起こされる発現のノイズを減らし得る。

一部の実施形態では、各細胞型について、num_av個の試料を選択し、その発現を平均化する(num_avの値は、パラメーター表、Table 9(表9)に示されている)。より一般的な細胞型の試料として、任意のサブタイプの試料をこの段階で使用することができる。このため、例えば、一部の実施形態では、制御性T細胞をT細胞と共に処理することができる。このアプローチでは、人工的試料についてサブタイプの多様性が大きくなるが、あまりに多くの試料を平均化すると、細胞型又はサブタイプ内での遺伝子発現の生物学的ばらつきが減少するおそれがあり、採用される平均化の度合いが学習の結果に影響する可能性がある。このため、平均化のための試料の数をパラメーターとして表示して、訓練の際にそれを他のパラメーターと共に選択することができる(例えば、品質を高めるため、又は最大化するために)。

試料のリバランシング
異なるデータセット及び細胞サブタイプでは、入手可能な細胞試料の数が大きく異なる可能性があるため、一部の実施形態では、試料の数をリバランシングすることができる。本明細書で以下に記載されるように、1つの例では、試料をデータセットごとにリバランシングして、次いで細胞のサブタイプごとにリバランシングすることができる。次いで、リバランシングされた数の試料から、num_av個の試料を選択することができる。

データセットごとのリバランシング
一部の実施形態では、データセット内の選別された細胞の試料の数は、1から数百(例えば、少なくとも5個、少なくとも10個、少なくとも50個、又は少なくとも100個の試料)の範囲であってよい。典型的には、各データセットは、同じ方法で選別及びシーケンシングが行われた1つ又は2つの細胞型の試料を含んでよい。同じデータセット内の細胞試料は、選別のための特定のマーカーセット、又は細胞を採取した患者の特定の疾患等の特定の条件をも有してもよい。多数の試料を有するデータセットは、そのようなデータセットのモデルの過剰訓練を招くおそれがある。多数の試料を有するデータセットの重みを減らすために、すべてのデータセットの試料が、データセットごとにリバランシングするためにリサンプリングされる。

例えば、一部の実施形態では、各データセットについて、試料の数を数N_dataset,newに置き換えた上でリサンプリングする。

式中、N_maxは最大のデータセット(例えば、特定の細胞型について)における試料の数であり、N_dataset,oldはデータセットにおける元の試料の数である。式中のリバランシングパラメーターは、[0,1]の範囲にある値であり、ここで0は試料の数に変化がないことを意味し、1は各データセットについて同じ数の試料があることを意味する。一部の実施形態では、リバランシングパラメーターは訓練中に選択することができる。

細胞サブタイプごとのリバランシング
いくつかの細胞型については、この型の試料に加えて、より特定のサブタイプの試料が存在してもよい。入手可能なサブタイプ試料の数は、場合によっては、これらのサブタイプとの混合物の形成の際に指定された比率と一致しないことがある。このため、細胞型について混合物を作り出す場合に、そのサブタイプの試料をリバランシングすることができる。

例えば、一部の実施形態では、CD4+ T細胞(及び制御性T細胞を伴うヘルパーT細胞)試料が、CD8+ T細胞よりも著しく多く使用可能であってもよい。この場合には、平均的なT細胞試料を形成するために、試料のランダムな選択の前に、CD4+及びCD8+ T細胞試料の割合を変更することができる。例えば、割合を、これらの細胞型についてのTCGA又はPBMC試料について予測される平均RNA割合の比と類似するように選択することができる。一部の実施形態では、予測は、等しい細胞割合の混合物によって訓練された1つ又は複数の線形モデルを使用して得ることができる。

サブタイプのリバランシングアルゴリズムは、以下のようであり得る。所与の型について各サブタイプをリバランシングするためには、
P_subtype*msize/min_P+1
に等しい数の試料を置き換えた上でリサンプリングを行う。
式中、P_subtypeは、所与のサブタイプの割合を反映する数であり(例えば、所与の型についてのすべてのサブタイプの中でのこのサブタイプの割合。これはこのサブタイプについての試料の数をこのタイプについての試料の総数で除算した値として表すことができる)、msizeは、所与の型のすべてのサブタイプの中での試料の最大数であり、min_Pは、すべてのサブタイプ間でのP_subtypeの最小数である。一部の実施形態によれば、リバランシングの操作は、入れ子になったすべてのサブタイプ(例えば、それ自体がサブタイプを有するサブタイプ)について再帰的に実施することができる。

微小環境細胞割合の生成
一部の実施形態によれば、結果として得られた複数の異なる細胞型の試料を、シミュレートされた微小環境細胞RNA発現データを生成するために、互いにランダムな比で混合することができる。例えば、ランダムな割合の各細胞型を使用して、人工的混合物の第1のセットを生成することができ、

式中、R_cellは0から1まで均一に分布する乱数であり、K_cellは特定の細胞型についての係数である。

一部の実施形態によれば、上記の式における係数K_cellは、細胞mRNAの最も可能性の高い比がTCGA又はPBMC試料で観察されるものに近くなるように選択することができる。これらの近似比は、そのような比を使用せずに訓練されたモデルを使用して、TCGA又はPBMC試料から計算することができる。例えば、所与の種類の組織についてのおおよその割合を反映する数のベクトルを使用することができる。ベクトルの各数に0から1までの乱数を掛ける。結果として得られた係数を合計に対して正規化して、線形結合で使用する。一部の実施形態では、K_cellを、複数の細胞型のそれぞれについて、腫瘍組織及び血液(PBMC)に基づく細胞型の最も可能性の高い割合を明示しているTable 7(表7)から選択することができる。

本発明者らは、デコンボリューションアルゴリズムは、あらゆる細胞の範囲で作動することが望ましい場合があることを認識し、評価している。例えば、腫瘍試料からの細胞懸濁液の調製は、リンパ球の割合の劇的な増加を招く可能性があり、そのような懸濁液のシーケンシングデータにアルゴリズムが作動することが望ましい場合がある。しかし、本発明者らは、記載される方法による細胞比の形成では、ある特定の細胞型、例えば、NK細胞が多くの割合(例えば、70～100%)で存在する試料が事実上全く生成されない可能性があることを認識し、理解している。このため、一部の実施形態では、各次元についてパラメーター1/number_of_typesを有するディリクレ分布から割合が生成される追加の混合物が作成される。このパラメーターは、混合物を作り出すための他のパラメーターと共に選択することできる。この方法で形成されるデータセットにおける試料の数は、パラメーターディリクレ_試料_割合によって制御することができる(Table 9(表9))。このパラメーターを、混合物を作り出すためのパラメーターとして選択することもできる。このようにすることで、最終データセットでは、各細胞型が0から100%の比率で見出され得る。しかし、そこでは、特徴的な量のほとんどが、実際の腫瘍を模倣する細胞集団を反映している可能性がある。

一部の実施形態では、人工的組織の発現を、各細胞型の発現ベクトル及びそれらの細胞のRNAのランダムに選択された割合に基づいて生成することができる。例えば、本明細書に記載されるように、発現ベクトルを、それらの細胞のRNAの割合を反映するランダムな係数に加える。

式中、αは、各細胞型についての細胞のRNAのランダムな割合を反映するランダム係数であり、

は、その細胞についての特定の遺伝子のRNA発現データを表し、

は、その混合物についての特定の遺伝子のRNA発現データを表す。

ノイズの生成
図6Aに示されているように、人工的混合物が生成された後に、RNA発現データに、ノイズ(例えば、技術的ノイズ、均一なノイズ、又は任意の好適な形式のノイズ)を加えることができる。例えば、以下に記載されるプロセスに従って、ノイズが生成され、RNA発現データに加えられる。

一部の実施形態では、各遺伝子の発現は、全体的な組織発現にノイズを与えることができる。例えば、ある単一遺伝子

の発現を、合計

として表すことができ、
式中、μ_Tiは、遺伝子の真の発現を表し、

は、ポワソン技術ノイズを表し、N_prepiは、シーケンシングライブラリー調製に由来する正規分布ノイズを表し、N_bioiはばらつきのある生物学的ノイズを表す。

一部の実施形態では、ポワソン技術ノイズの相対標準偏差(δ_Pi)及び正規分布ノイズの相対標準偏差(δ_Ni)を使用して、定量的な相対標準偏差を計算する。

技術的なばらつきは、試料及びライブラリー調製の違い(非ポワソンノイズ)、並びにカバレッジが限られることに起因するシーケンサー経路でのランダムな転写物選択(ポワソンノイズ)によって生じ得る。微小環境の多くの細胞型は、典型的には、腫瘍試料においてわずかな部分を占め得る。このため、本発明者らは、異なる遺伝子については、それらの発現のレベルに応じて異なるレベルのばらつき又はノイズを考慮することが重要であり得ることを認識し、理解している。例えば、一部の実施形態では、技術的ノイズ(ポワソンと非ポワソンの両方)を考慮した、TPMに基づく数学的ノイズモデルが提供される。一部の実施形態では、本明細書に記載されるように、非線形回帰モデルを訓練するために生成された人工的混合物にこのばらつきのモデルを追加することができる。一部の実施形態では、技術的非ポワソンノイズは正規分布すると仮定される。これらは、ライブラリーの調製のばらつき、アラインメント、又は異なる試料の人による取り扱いのばらつきを説明することができる。対照的に、ポワソンノイズは技術的ノイズの一種であり、シーケンシングのカバレッジ又はリードカウント数に関連する可能性があり、正規分布ではない可能性がある。結果として得られる技術的ノイズのカバレッジ及び遺伝子発現への依存性は、式:

によって表現することができ、
式中、l_iは、有効遺伝子長であり、Tjは技術的反復物における平均TPMであり、Rはリードカウントであり、αは推定比例係数である。この式によると、カバレッジが低いほどばらつきが大きい。この式によると、発現量の少ない遺伝子ではポワソンノイズのレベルが高くなると考えられる。

本明細書で以下に実施例1に関して記載されるように、このモデルは、精製された細胞集団の技術的複製物を使用して示されるように、発現レベル及びカバレッジの結果としての遺伝子発現のばらつきを正しく表すことができる(図12I)。示されているように、この場合では、遺伝子発現の検出限界は、2000万総リードのカバレッジでの1TPMから、試料あたり100万リードのカバレッジでの12TPMまで様々であった。このため、遺伝子発現を評価する能力は、入手可能な材料の量に影響され得る。リードカウントの関数として反復試験の値をプロットすることにより、ポワソンノイズについてノイズ係数(α)を計算することができる(図12K)。この係数を計算することによって、各試料及び各遺伝子についての技術的ノイズを、推定式に従って推測することができる。

技術的ノイズに加えて、細胞の異なる活性化状態に関連し得る生物学的ノイズも、RNA-seq試料の全体的な分散に寄与する可能性がある。一部の実施形態では、人工的混合物に生物学的ノイズを加える必要はないこともあるが、これはこのノイズが、生物学的状態のばらつきを表す細胞サブセットに由来するRNA-seqデータの使用を通じて既に存在している可能性があるためである。本明細書で以下に実施例1に関して記載されるように、この全体的な分散は、1つの例では、異なる実験によって得られた同じ細胞型についてのデータをプロットすることによって評価することができる(図12J)。ポワソン及び非ポワソンの両方の技術的ノイズ、並びに生物学的ばらつきが、平均シーケンシングカバレッジに依存することの一例は、図12Jに提示されている。この例では、ある特定の細胞型について、技術的反復試験から生物学的反復試験までにノイズは平均で10%から26%増加している(図12J、右)。

一部の実施形態では、本明細書に記載されるように、単一遺伝子発現よるノイズ寄与の分析を、人工的混合物における技術的及び生物学的ノイズをシミュレートするために適用することができる。例えば、ノイズを、2つの被加数として遺伝子発現の全体に追加することができる。

式中、ξ_P,ξ_N～N(0,1),βは、ポワソンノイズレベル係数の係数であり、γは均一レベル非ポワソンノイズの係数である(Table 9(表9))。

本明細書で以下に実施例1に関して記載されるように、上記のアプローチを、技術的非ポワソンノイズ及び生物学的ノイズから技術的ポワソンノイズを除外することによって検証することができる。図12L～図12Mの例では、約16%の平均分散が得られ、これがその後に混合物に使用された。この例では、技術的な補正の後、ノイズはシーケンシングカバレッジへの依存性を失った。技術的非ポワソン及び生物学的ばらつきは測定方法に依存しないため、これは予想され得ることである。

本明細書に記載されるノイズモデルを使用して、人工的混合物に技術的(ポワソン及び非ポワソンの両方の)ばらつきを追加することができる。これにより、実際の組織をより良く模倣する人工的混合物が得られる。その後に、改善された人工的混合物を使用して、デコンボリューションアルゴリズムを訓練し(例えば、図4～図6に関するものを含めて本明細書に記載されるように)、実際のシーケンシングばらつきに遭遇した場合にモデルの安定性を確保することができる。

ハイパーパラメーターの推定
図6Aに示されているように、本発明者らによって開発された手法に従って非線形回帰モデルを訓練する工程は、一部の実施形態では、モデルについてのパラメーターを推定及び/又はアップデートする工程を含み得る。本明細書に記載されるように、モデルについてのパラメーターには、モデルについて学習された重み以外に、本明細書でハイパーパラメーターと称されるいくつかのパラメーターが含まれ得る(例えば、少なくとも図4に関するものを含めて本明細書に記載されるように)。そのようなハイパーパラメーター及びそれらの値の例示的な一覧は、Table 9(表9)に示されている。

一部の実施形態では、非線形回帰モデルが訓練されるごとに、ハイパーパラメーターの値を推定することができる。例えば、ハイパーパラメーターの一部又はすべてを、訓練データの1つ又は複数の検証セットに基づいてアップデートすることができる(例えば、モデル訓練の各フォールドで)。一部の実施形態では、ハイパーパラメーターを、TCGAデータに基づいて推定することができる。例えば、ハイパーパラメーターの特定の設定に関する結果を、TCGAモデルの一致が達成されるように、TCGAデータに対する整合性について点検することができる。例えば、図示した例では、所与の細胞型(例えば、リンパ球)について、細胞のサブタイプ(例えば、T細胞、B細胞、及びNK細胞)にわたる結果の合計を、その細胞型についての全体的な結果と等しい(又は近い)ことが確認されている。

一部の実施形態では、ハイパーパラメーターの推定の一部として、パラメーターの検索を実施することができる。ランダム検索、グリッド検索、又は遺伝的アルゴリズムを含む、任意の好適なパラメーター検索手法を使用することができる。一部の実施形態では、例えば、ベイズ最適化、勾配ベース最適化、又は進化的最適化を使用して、パラメーター検索を実施することができる。一部の実施形態では、パラメーター検索により、ハイパーパラメーターに関連付けられた所定の範囲から1つ又は複数のハイパーパラメーター値を選択することができる。

Table 8(表8)及びTable 9(表9)は、ハイパーパラメーターの例を列挙している: 平均化のための試料の数(Nav)、均一ノイズレベル(γ)、ディリクレ試料割合(Dp)、リバランシングパラメーター(r)、高発現比率(Hf)、及び最大高発現レベル(Mhl)。

「試料の平均化」の節に関するものを含めて上述されるように、各細胞型について「Nav」試料が選択され、その発現が平均化される。

「微小環境細胞割合の生成」の節に関するものを含めて上述されるように、ディリクレ分布から割合が生成されるいくつかの人工的混合物「Dp」を作り出すことができる。

「データセットごとのリバランシング」の節に関するものを含めて上述されるように、リバランシングパラメーター「r」を式に使用して、データセットにおける新たな試料の数を決定することができる。記載されるように、「r」は[0,1]の範囲の値であり、ここで0は試料の数に変化がないことを意味し、1は各データセットについて同じ数の試料があることを意味する。一部の実施形態では、リバランシングパラメーターを訓練中に選択することができる。

「混合物の構築」の節に関するものを含めて上述されるように、腫瘍細胞における遺伝子の発現の異常増幅を模倣するために、人工混合物のそれぞれに高発現ノイズを加えることができる。一部の実施形態では、各混合物を作り出すために、選択された腫瘍試料の遺伝子の発現に、小さな確率でランダムな値が追加される。例えば、「Hf」の確率で、0から「Mhl」までの均一な分布の乱数を各遺伝子の発現に加えることができる。

コンピュータ計算の複雑性
本明細書に記載される機械学習モデルは、数万個、数十万個、又は数百万個のパラメーターを含み得ることを理解すべきである。例えば、非線形回帰モデル304は、少なくとも図2～図6に関するものを含めて本明細書に記載されるように、少なくとも1万個のパラメーター、少なくとも10万個のパラメーター、又は少なくとも100万個のパラメーターを含み得る。そのため、非線形回帰モデル304のような機械学習モデルによるデータを処理する工程は、それらが訓練を受けた後であっても数百万回の計算を実施する必要があり、人がコンピュータなしに頭の中で行うことは現実的には不可能である。

本明細書に記載されるような機械学習モデルを訓練するためのアルゴリズムは、更に大量の計算リソースを必要とする可能性があるが、これはそのようなモデルが、数万個、数十万個、又は数百万個の人工的混合物を使用して訓練されるためである(例えば、少なくとも図6Aに関するものを含めて本明細書に記載されるように)。具体的な一例では、2段階にわたって非線形回帰モデルを訓練するために、300万個の人工的混合物が生成されることがある(例えば、少なくとも図5Aに関するものを含めて本明細書に記載されるように)。計算リソースなしでは、訓練アルゴリズムも訓練されたモデルの使用も実施することができない。

結果
本明細書の以下には、本発明者らによって開発された手法を使用して達成された種々の結果が、図7A～図7Gに関して記載される。本明細書に記載されるように、本発明者らによって開発された手法は、細胞性デコンボリューションのための従来の手法を実質的に上回る性能を有する。図中では、本発明者らによって開発された細胞性デコンボリューション手法を、「カサンドラ」と称することがある。

図7Aは、シミュレートされたRNA発現データ702(例えば、図6Aの手法に従って生成された複数の人工混合物)と複数の生体試料(例えば、腫瘍)からのRNA発現データ704を比較したチャートである。図示した例において、RNA発現データ702は、図6Aに関するものを含めて本明細書に記載される手法を使用して導き出された500個の人工的肺がん試料から得られる。これに比して、RNA発現データ704は、TCGA由来の500個の非小細胞肺癌のRNA-seqデータからの遺伝子発現パターンを含む。図示した例に示されているように、人工的混合物及び実際の腫瘍についての遺伝子発現パターンはかなり類似している。すべての試料を通じて、実際の腫瘍と人工的腫瘍との相関は0.9に達した(p=0.001)。

図7Bは、本発明者らによって開発されたデコンボリューション手法に従って予測された例示的な細胞構成比率、及び対応する真の細胞構成比率を描写しているチャートである。図示した例において、本発明者らによって開発されたデコンボリューション手法の性能は、保留用の人工的混合物に対するピアソン相関として測定される(例えば、図5Aに関するものを含めて本明細書に記載されるように)。示されているように、相関はすべての細胞型について0.94を上回り、複数の細胞型が0.98を上回る相関を示している(p=0)。

図7C及び図7Dは、異なる細胞型についての、予測された人工的混合物の値と真の人工的混合物の値(例えば、予測精度)との間のピアソン相関を表している例示的なチャートである。これらのグラフは、本発明者らによって開発されたデコンボリューション手法の例示的な予測精度と、代替的なアルゴリズムの予測精度を比較している。図7Cには、がん細胞の高発現ノイズのない場合の予測精度が提示されている。図7Dには、がん細胞の高発現がある場合の予測精度が提示されている。

少なくとも図6Aに関するものを含めて本明細書に記載されるように、ランダムな高発現ノイズを人工的混合物に加えることができる(例えば、本発明者らによって開発されたデコンボリューション手法が、試料中の悪性細胞からの異常な発現を無視し得るようにするために)。正確な高発現ノイズを作り出すために、4種類の異なるがんに由来するTCGAデータにおける4つの例示的な遺伝子マーカー: 膀胱がんにおけるCD14、皮膚黒色腫におけるFCRLA、明細胞腎細胞癌におけるSTAP1、及び肺扁平上皮癌におけるPADl2について分析した。これらのマーカーはそれぞれ、対応する種類のがんにおいて高発現していることが見出されている。これらのマーカーは、対応する正常組織では発現されないが、免疫細胞では発現していることが見出されている(図7E)。

その結果、本発明者らによって開発されたデコンボリューション手法は、データに存在する異常な高発現に対して安定である。図7C～図7Dに示されているように、本発明者らによって開発された手法は、高発現ノイズが存在する場合であっても、複数の細胞型にわたって正確な予測を作成する(図7D)。更に、図7Dは、代替的なアルゴリズムの性能は高発現ノイズが存在すると大幅に低下するが、一方、本発明者らによって開発された手法は、検証データセットで高い相関スコアを保ったことを示している。

代替的なアルゴリズムには、CIBERSORT、CIBERSORTx、QuanTISeq、FARDEEP、Xcell、ABIS、EPIC、MCP-カウンター、Scaden、及びMuSiCが含まれる。Newmanら(「Robust enumeration of cell subsets from tissue expression profiles」、Nat. Methods 12、453～457頁(2015))は、CIBERSORTについて記載している。Newmanら(「Determining cell type abundance and expression from bulk tissues with digital cytometry」、Nat Biotechnol 37、773～782頁(2019))は、CIBERSORTxについて記載している。Finotelloら(「Molecular and pharmacological modulators of the tumor immune contexture revealed by deconvolution of RNA-seq data」、Genome Med 11, 34頁(2019))は、QuanTIseqについて記載している。Haoら(「Fast and Robust Deconvolution of Tumor Infiltrating Lymphocyte from Expression Profiles using Least Trimmed Squares」、bioRxiv 358366頁; doi: https://doi.org/10.1101/358366)は、FARDEEPについて記載している。Aranら(「xCell: digitally portraying the tissue cellular heterogeneity landscape」、Genome Biol. 18, 220頁(2017))は、X cellについて記載している。Monacoら(「RNA-Seq signatures normalized by mRNA abundance allow absolute deconvolution of human immune cell types」、Cell Rep. 26, 1627～1640頁.e1627 (2019))はABISについて記載している。

図7Fは、本発明者らによって開発されたデコンボリューション手法に関する、異なる細胞型についての予測された人工的混合物の値と真の人工的混合物の値(例えば、予測精度)の間のピアソン相関を表しているヒートマップである。保留用データセットに由来する、選別された試料からのデータについて、異なる細胞型についての予測細胞比率が示されている。示されているように、本発明者らによって開発されたデコンボリューション手法は、密接に関係する細胞型を含む複数の細胞型にわたって高い予測精度スコアを達成した。

図7Gは、本発明者らによって開発されたデコンボリューション手法についての例示的な非特異性スコアと、代替的なアルゴリズムについての非特異性スコアを比較したチャートである。図示した例において、11種の代替的なアルゴリズムの非特異性スコアが示されている。図7Gのチャートの値は、複数の異なる細胞型について、特異的(真の陽性)予測に対する、非特異的(偽陽性)予測の比率を表している。非特異性スコアが低いことは、偽陽性予測の比率が低いことを示す(例えば、より特異的なモデルを示す)。具体的には、純粋な集団における各細胞型についてのシグナルの検出について評価し、B細胞、T細胞、及びマクロファージについては更に細分したところ、各サブクラスは他のものから明らかに区別された。

デコンボリューションのための線形法
本発明者らによって開発された手法の一部の実施形態によれば、細胞性デコンボリューションの線形法を提供することができる。例示的な線形デコンボリューション手法が、図8及び図9A～図9Cに関して本明細書で以下に記載される。

図8は、発現データ(例えば、RNA発現データ)に基づいて細胞構成比率を決定するための例示的な線形法800を描写しているフローチャートである。本明細書に記載されるように、方法800は、各細胞型について発現プロファイル(例えば、図9Aに示すようなRNA発現、及び/又は発現プロファイル)を使用して、生体試料における1つ又は複数の細胞型についての細胞構成比率を推定する工程を含み得る。

一部の実施形態では、方法800は、コンピュータデバイス上で行うことができる(例えば、少なくとも図10に関するものを含めて本明細書に記載されるように)。例えば、コンピュータデバイスは、少なくとも1つのプロセッサと、実行されると方法800の動作を実行するプロセッサ実行可能命令を格納する少なくとも1つの非一時的な記憶媒体とを含み得る。方法800は、例えば、システム100等のシステムにおいて(これには例えば、臨床の場又は実験室の場が含まれ得る)、1つ又は複数のコンピュータデバイスによって、例えば、コンピュータデバイス108によって行うことができる。

動作802で、方法800は、対象から生体試料のRNA発現データを得る工程から始めることができる。一部の実施形態では、動作802は、生体試料から以前に得られたRNA発現データにアクセスする工程を含み得る。図1Aに関するものを含めて本明細書に記載されるように、生体試料には、生検試料(例えば、対象の腫瘍若しくは他の罹患組織の)又は他の任意の好適な種類の生体試料を含めることができ、発現データは、任意の好適な手法を使用して抽出することができる。動作802で得られた発現には、TPMで測定されたRNA発現データが含まれ得る。一部の実施形態では、生体試料の起源又は調製方法には、「生体試料」の節に関して記載されている実施形態のいずれかが含まれ得る。一部の実施形態では、発現データの起源又は作成方法は、「発現データ」及び「RNA発現データの入手」の節に関して記載されている実施形態のいずれかが含まれ得る。

一部の実施形態では、発現データは、少なくとも1つの記憶媒体に保存され、動作802の一部としてアクセスされ得る。例えば、発現データを1つ若しくは複数のファイルに、又はデータベースに保存して、次いで動作802の一部として読み取ることができる。一部の実施形態では、発現データを保存する少なくとも1つの記憶媒体は、コンピュータデバイスに対してローカルであってもよく(例えば、同じ少なくとも1つの非一時的な記憶媒体に保存される)、又はコンピュータデバイスの外部にあってもよい(例えば、遠隔データベース若しくはクラウド保存環境に保存されている)。発現データは、単一の記憶媒体に保存されてもよく、又は複数の記憶媒体にわたって分散していてもよい。

一部の実施形態では、動作802は、任意の好適な様式で発現データを前処理する工程を更に含み得る。例えば、発現データを、選別すること、組み合わせること、バッチに編成すること、フィルタリングすること、又は他の任意の好適な手法によって前処理することができる。前処理によって、発現データを、動作804～806に関するものを含めて本明細書に記載される線形回帰手法を使用して処理するのに好適であるようにすることができる。一部の実施形態では、RNAの前処理は、「アラインメント及びアノテーション」、「非コード転写物の除去」、及び「TPMへの変換及び遺伝子集成」の節に関して記載されている実施形態のいずれかを含み得る。

動作804から806に関して本明細書に記載されるように、方法800は、細胞型についての対応する1つ又は複数の細胞構成比率を決定するために、線形回帰手法を使用してRNA発現データを処理する工程に進むことができる。

動作804で、方法800は、対応する複数の細胞型について複数の発現プロファイル(例えば、図9Aを含めて本明細書に記載されるように)を得る工程に進むことができる。例えば、方法800を使用してCD4+ T細胞、NK細胞、CD8+ T細胞を分析する場合、動作802でCD4+ T細胞についての発現プロファイル、NK細胞についての発現プロファイル、及びCD8+ T細胞について発現プロファイルを得ることができる。発現プロファイル(例えば、RNA発現プロファイル)のそれぞれは、複数の細胞型からの各々の細胞型に関連する1つ又は複数の遺伝子の各々の発現データ(例えば、RNA発現データ)を含み得る。一部の実施形態では、各々の各細胞型に関連する遺伝子は、その細胞型に特異的及び/又は半特異的な遺伝子であり得る。例えば、各々の各細胞型に関連する遺伝子は、Table 2(表2)に列挙された対応する遺伝子を含み得る。一部の実施形態では、対応する遺伝子には、Table 2(表2)に含まれる少なくとも2個の遺伝子、少なくとも4個の遺伝子、少なくとも6個の遺伝子、少なくとも8個の遺伝子、少なくとも10個の遺伝子、少なくとも12個の遺伝子、少なくとも14個の遺伝子、又は少なくとも16個の遺伝子が含まれ得る。一部の実施形態では、対応する遺伝子には、1万個未満、5,000個未満、2,000個未満、1,000個未満、500個未満、250個未満、又は100個未満の遺伝子が含まれ得る。

発現プロファイルは、任意の好適な様式で得ることができる。例えば、発現プロファイルを、1つ若しくは複数のファイルに、又はデータベースに保存して、それを動作804の一部として読み取ることができる。一部の実施形態では、発現プロファイルを保存する少なくとも1つの記憶媒体は、コンピュータデバイスに対してローカルであってもよく(例えば、同じ少なくとも1つの非一時的な記憶媒体に保存されている)、又はコンピュータデバイスの外部にあってもよい(例えば、遠隔データベース若しくはクラウド保存環境に保存されている)。発現プロファイルは、単一の記憶媒体に保存されてもよく、又は複数の記憶媒体にわたって分散していてもよい。

動作806で、方法800は、少なくとも一部には、発現データと複数の発現プロファイルとの間の区分的に連続な誤差関数(例えば、図9Aに関して記載されている例示的な区分的に連続な誤差関数)を最適化する工程によって、複数の細胞型についての複数の細胞構成比率を決定する工程に進むことができる。動作806は、複数の細胞型にわたって同時に又は反復して実施することができ、一部の実施形態では、(例えば、設定された反復回数にわたり、又は誤差の測定値が閾値を下回るまで)繰り返してもよい。

一部の実施形態によれば、動作806は、発現データ、複数の発現プロファイル、及び区分的に連続な誤差関数を使用して、線形回帰を実施する工程を含み得る。一部の実施形態では、これは、区分的に連続な誤差関数を最適化する工程を含み得る。一部の実施形態では、区分的に連続な誤差関数を最適化する工程は、区分的に連続な誤差関数の全体的な最大値又は最小値を見出すことに限定されず、全体的な最大値又は最小値の閾値距離内で局所的な最大値又は最小値を見出すことも含み得る。例えば、動作806は、発現データに対して最小の誤差又は閾値を下回る誤差(例えば、区分的に連続な誤差関数を使用して測定される誤差について)を有する発現プロファイルの組合せ(例えば、加重和)を決定する工程を含み得る。

特定の細胞型について、動作806は、その細胞型に関連する各遺伝子について、区分的に連続な誤差関数(例えば、図9Cの誤差関数等)の対応する出力を決定する工程を含み得る。区分的に連続な誤差関数は、実際のデータ(例えば、RNA-seqデータ)からの実際に測定された発現値と、その細胞型についての発現プロファイルにおける遺伝子の発現を使用して計算される予測発現値(例えば、動作804で得られる)とを比較するのに役立ち得る。例えば、予測発現値は、発現プロファイルにおける遺伝子の発現と、その細胞型についての係数αとの積として計算することができる。

所与の遺伝子及び細胞型について、誤差関数への入力は、係数α、入力発現データにおける遺伝子の発現g、及びその細胞型についての発現プロファイルにおける遺伝子の発現pであり得る。誤差関数は、動作806の一部としてアップデートすることができる、図9Cに関するものを含めて本明細書に記載される係数a、b、kを有することができる。一部の実施形態によれば、動作806は、遺伝子の一部又はすべてに対して反復的に又は並行して実施することができる。例えば、区分的に連続な誤差関数が閾値を下回るか又は最小化されるような係数αが各細胞型について見出されるまで、動作806を複数の細胞型にわたって繰り返し実施することができる。一部の実施形態によれば、所与の細胞型について、係数αの値は、すべての遺伝子にわたって加重誤差和(例えば、すべての遺伝子にわたって合計された、動作806及び図9Cに関するものを含めて本明細書に記載される区分的な誤差関数)を最小化する係数値を見出すことによって決定することができる。

一部の実施形態では、係数αは、対応する細胞型についての細胞構成比率を表すことができる(例えば、αは、発現データについての加重和に各発現プロファイルの重みを定めるため)。例えば、複数の細胞型について複数の細胞構成比率を決定する工程は、複数の細胞型のそれぞれについて対応する細胞構成比率を得るために、係数を処理する工程、例えば、正規化する工程を含み得る。

図9Aは、例示的なRNA発現プロファイル及び全体的なRNA発現データを描写している図式である。図示した例には、CD4+ T細胞、NK細胞、及びCD8+ T細胞について、既知のRNA発現プロファイルが示されている。各RNA発現プロファイルは、横軸が遺伝子を表し、縦軸がそれらの遺伝子の発現を表す棒グラフとして図示されている。図に示されているように、各RNA発現プロファイルは、所与の細胞型に対して固有であり得る。

図示した例に示されるように、生体試料について観察される全体的な発現は、生体試料を構成する複数の細胞型についての発現プロファイルの和と考えることができる。図示されてはいないが、各RNA発現プロファイルは係数αによって加重し得るため、生体試料はRNA発現プロファイルの加重和と見なすことができる。一部の実施形態によれば、この和には更に、他の細胞型の未知の発現についての項を含めることができる。この項は、RNA発現プロファイルの加重和では説明されない発現データを表すことができる(例えば、生体試料について観察された発現においてグレーで示されているように)。

図9Bは、図8の方法で使用するための例示的な区分的に連続な誤差関数を描写している。図示したプロットに示されているように、誤差関数fは区分的であり、係数a及びbは関数を3つの区間に分割し、係数kは誤差関数の右端の区間の形状に影響を与える。関数の各区間について、図示された発現に従って誤差を計算することができる。

生体試料
方法、システム、又は他の特許請求される要素はいずれも、対象からの生体試料を使用するか、又はそれを分析するために使用することができる。一部の実施形態では、生体試料は、がんを有する対象、がんを有する疑いのある対象、又はがんを有するリスクのある対象から得られる。生体試料は、例えば、体液の生体試料(例えば、血液、尿若しくは脳脊髄液)、1つ若しくは複数の細胞(例えば、口腔粘膜検体採取若しくは気管ブラッシング等の擦過若しくはブラッシングによる)、組織片(頬組織、筋肉組織、肺組織、心臓組織、脳組織、若しくは皮膚組織)、若しくは臓器(脳、肺、肝臓、膀胱、腎臓、膵臓、腸、若しくは筋肉等)の一部若しくは全部を含む任意の種類の生体試料、又は他の種類の生体試料(例えば、糞若しくは毛髪)であってよい。

一部の実施形態では、生体試料は、対象からの腫瘍の試料である。一部の実施形態では、生体試料は対象からの血液試料である。一部の実施形態では、生体試料は、対象からの組織の試料である。

腫瘍の試料は、一部の実施形態では、腫瘍からの細胞を含む試料を指す。一部の実施形態では、腫瘍の試料は、良性腫瘍、例えば、非がん性細胞からの細胞を含む。一部の実施形態では、腫瘍の試料は、前がん性腫瘍、例えば、前がん性細胞からの細胞を含む。一部の実施形態では、腫瘍の試料は、悪性腫瘍、例えば、がん細胞からの細胞を含む。

腫瘍の例としては、腺腫、線維腫、血管腫、脂肪腫、子宮頸部形成異常、肺化生、白板症、癌腫、肉腫、胚細胞腫瘍、及び芽細胞腫が挙げられるが、これらに限定されない。

一部の実施形態では、血液の試料は、細胞、例えば、血液試料からの細胞を含む試料を指す。一部の実施形態では、血液の試料は非がん性細胞を含む。一部の実施形態では、血液の試料は前がん性細胞を含む。一部の実施形態では、血液の試料はがん細胞を含む。一部の実施形態では、血液の試料は血液細胞を含む。一部の実施形態では、血液の試料は赤血球を含む。一部の実施形態では、血液の試料は白血球を含む。一部の実施形態では、血液の試料は血小板を含む。がん性血液細胞の例としては、白血病、リンパ腫、及び骨髄腫が挙げられるが、これらに限定されない。一部の実施形態では、血液の試料は、血液中の無細胞核酸(例えば、無細胞DNA)を得るために採取される。

血液の試料は、全血の試料又は分画血液の試料であってもよい。一部の実施形態では、血液の試料は全血を含む。一部の実施形態では、血液の試料は分画血液を含む。一部の実施形態では、血液の試料は軟膜を含む。一部の実施形態では、血液の試料は血清を含む。一部の実施形態では、血液の試料は血漿を含む。一部の実施形態では、血液の試料は血餅を含む。

組織の試料は、一部の実施形態では、組織からの細胞を含む試料を指す。一部の実施形態では、腫瘍の試料は、組織からの非がん性細胞を含む。一部の実施形態では、腫瘍の試料は、組織からの前がん性細胞を含む。

本開示の方法は、筋肉組織、脳組織、肺組織、肝臓組織、上皮組織、結合組織、及び神経組織を含むがこれらに限定されない、臓器組織又は非臓器組織を含む様々な組織を含む。一部の実施形態では、組織は正常組織であってもよく、罹患組織であってもよく、又は罹患が疑われる組織であってもよい。一部の実施形態では、組織は、組織切片又は完全な無傷の組織であってもよい。一部の実施形態では、組織は動物組織又はヒト組織であってもよい。動物組織としては、齧歯類(例えば、ラット又はマウス)、霊長類(例えば、サル)、イヌ、ネコ、及び家畜から得られる組織が挙げられるが、これらに限定されない。

生体試料は、限定はされないが、任意の体液[例えば、血液(例えば、全血、血清、若しくは血漿)、唾液、涙液、滑液、脳脊髄液、胸膜液、心嚢液、腹水、及び/若しくは尿]、毛髪、皮膚(表皮、真皮、及び/若しくは下皮の部分を含む)、中咽頭、咽喉頭、食道、胃、気管支、唾液腺、舌、口腔、鼻腔、膣腔、肛門腔、骨、骨髄、脳、胸腺、脾臓、小腸、虫垂、結腸、直腸、肛門、肝臓、胆道、膵臓、腎臓、尿管、膀胱、尿道、子宮、膣、外陰部、卵巣、子宮頸部、陰嚢、陰茎、前立腺、睾丸、精嚢、並びに/又は任意の種類の組織(例えば、筋組織、上皮組織、結合組織、若しくは神経組織)を含む、対象の体内の任意の供給源からのものであってよい。

本明細書に記載される生体試料のいずれも、任意の公知の手法を使用して対象から得ることができる。例えば、生体試料の採取、処理、及び貯蔵に関しては、そのそれぞれが全体にわたって本明細書に組み込まれる以下の刊行物を参照されたい: Vaughtらによる「Biospecimens and biorepositories: from afterthought to science」(Cancer Epidemiol Biomarkers Prev. 2012 Feb;21(2):253～5頁)、並びにVaught及びHendersonによる「Biological sample collection, processing, storage and information management」(IARC Sci Publ. 2011;(163):23～42頁)。

一部の実施形態では、生体試料は、外科手技(例えば、腹腔鏡手術、顕微鏡制御手術、若しくは内視鏡手術)、骨髄生検、パンチ生検、内視鏡生検、又は針生検(例えば、細針吸引、コア針生検、真空支援生検、若しくは画像誘導生検)から得ることができる。

一部の実施形態では、1つ又は複数の細胞(すなわち、細胞生体試料)は、擦過又はブラシ法を使用して対象から得ることができる。細胞生体試料は、例えば、頸部、食道、胃、気管支、又は口腔のうちの1つ又は複数の領域を含む、対象の体内又は体内からの任意の領域から得ることができる。一部の実施形態では、対象からの1つ又は複数の組織片(例えば、組織生検試料)を使用することができる。ある特定の実施形態では、組織生検試料は、がん性細胞を有することが知られているか、又はがん性細胞を有することが疑われる、1つ又は複数の腫瘍又は組織からの1つ又は複数(例えば、2個、3個、4個、5個、6個、7個、8個、9個、10個、又は10個を上回る)の生体試料を含み得る。

本明細書に記載される対象からの生体試料のいずれも、生体試料の安定性を維持する任意の方法を使用して貯蔵され得る。一部の実施形態では、生体試料の安定性を維持するとは、生体試料の構成要素(例えば、DNA、RNA、タンパク質、又は組織の構造若しくは形態)を、測定されたときに測定値が対象から試料を得たときの試料の状態を表すように、測定されるまで劣化するのを阻止することを意味する。一部の実施形態では、生体試料は、それに浸透し、生体試料の構成要素(例えば、DNA、RNA、タンパク質、又は組織の構造若しくは形態)が劣化しないように保護することができる組成物中に保存される。本明細書で使用される場合、劣化は、最初の形態が劣化前と同じレベルで検出されなくなるような一方の構成要素から別の構成要素への構成要素の変換である。

一部の実施形態では、生体試料(例えば、組織試料)は、固定される。本明細書で使用される場合、「固定された」試料は、試料の自己分解又は腐敗等の腐敗又は劣化を防止又は低減するために、1つ又は複数の薬剤又はプロセスによって処理された試料に関する。固定プロセスの例としては、熱固定、液浸固定、及び灌流が挙げられるが、これらに限定されない。一部の実施形態では、固定される試料を、1つ又は複数の固定剤で処理する。固定剤の例としては、架橋剤(例えば、ホルムアルデヒド、ホルマリン、グルタルアルデヒド等のアルデヒド)、沈殿剤(例えば、エタノール、メタノール、アセトン、キシレン等のアルコール)、水銀(例えば、B-5、ツェンケル固定液等)、ピクリン酸、Hepes-グルタミン酸緩衝液媒介有機溶媒保護効果(HOPE)固定剤等が挙げられるが、これらに限定されない。一部の実施形態では、生体試料(例えば、組織試料)は架橋剤によって処理される。一部の実施形態では、架橋剤はホルマリンを含む。一部の実施形態では、ホルマリン固定された生体試料が、固体基質、例えば、パラフィンワックスに埋め込まれる。一部の実施形態では、生体試料は、ホルマリン固定パラフィン包埋(FFPE)試料である。FFPE試料を調製する方法は公知であり、例えば、Liら、JCO Precis Oncol. 2018; 2: PO.17.00091によって記載されている。

一部の実施形態では、生体試料は、凍結保存を使用して貯蔵される。凍結保存の非限定的な例には、限定はされないが、ステップダウン冷凍、急速冷凍、直接プランジ冷凍、スナップ冷凍、プログラマブルフリーザーを使用する緩慢冷凍、及びガラス化が含まれる。一部の実施形態では、生体試料は、凍結乾燥を使用して貯蔵される。一部の実施形態では、生体試料は、対象から生体試料を採取した後に、保存剤(例えば、RNAを保存するためのRNALater)を既に収容する容器に入れられ、次いで(例えば、スナップ冷凍によって)冷凍される。一部の実施形態では、冷凍状態でのそのような貯蔵は、生体試料の採取後すぐに行われる。一部の実施形態では、生体試料は、冷凍される前に、保存剤中で、又は保存剤を含まない緩衝液中で、しばらくの間(例えば、最大1時間、最大8時間、又は最大1日、又は数日間)、室温又は4℃のいずれかに保たれ得る。

保存剤の非限定的な例には、ホルマリン溶液、ホルムアルデヒド溶液、RNALater又は他の同等の溶液、TriZol又は他の同等の溶液、DNA/RNA Shield又は同等の溶液、EDTA(例えば、Buffer AE(10mM Tris-Cl、0.5mM EDTA、pH9.0))及び他の凝固剤、並びにAcids Citrate Dextronse(例えば、血液検体用)が含まれる。

一部の実施形態では、生体試料を採取し、及び/又は貯蔵するために、特殊容器が使用され得る。例えば、血液を貯蔵するためにバキュテイナーが使用され得る。一部の実施形態では、バキュテイナーは、保存剤(例えば、凝固剤、又は抗凝固剤)を含んでもよい。一部の実施形態では、生体試料が保存される容器は、より良い保存を目的として、又は汚染を回避することを目的として、二次容器に収容されてもよい。

本明細書に記載される対象からの生体試料はいずれも、生体試料の安定性を保持する任意の条件の下で貯蔵され得る。一部の実施形態では、生体試料は、生体試料の安定性を保持する温度で貯蔵される。一部の実施形態では、試料は、室温(例えば、25℃)で貯蔵される。一部の実施形態では、試料は、冷蔵下(例えば、4℃)で貯蔵される。一部の実施形態では、試料は、冷凍条件下(例えば、-20℃)で貯蔵される。一部の実施形態では、試料は、超低温条件下(例えば、-50℃～-800℃)で貯蔵される。一部の実施形態では、試料は、液体窒素下(例えば、-1700℃)で貯蔵される。一部の実施形態では、生体試料は、-60℃～-80℃(例えば、-70℃)で、最大5年間(例えば、最大1か月間、最大2か月間、最大3か月間、最大4か月間、最大5か月間、最大6か月間、最大7か月間、最大8か月間、最大9か月間、最大10か月間、最大11か月間、最大1年間、最大2年間、最大3年間、最大4年間、又は最大5年間)まで貯蔵される。一部の実施形態では、生体試料は、本明細書に記載される方法のいずれかによって記載されるように、最大20年間(例えば、最大5年間、最大10年間、最大15年間、又は最大20年間)まで貯蔵される。

本開示の方法は、分析のために対象から1つ又は複数の生体試料を得ることを含む。一部の実施形態では、分析のために対象から1つの生体試料が採取される。一部の実施形態では、複数(例えば、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、又はそれ以上)の生体試料が、分析のために対象から採取される。一部の実施形態では、対象からの1つの生体試料が分析される。一部の実施形態では、複数(例えば、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、又はそれ以上)の生体試料が分析される。対象からの複数の生体試料が分析される場合、生体試料は同時に調達され得る(例えば、同じ手技で複数の生体試料が採取され得る)か、又は生体試料は、異なる時点で(例えば、最初の手技から1、2、3、4、5、6、7、8、9、10日後の手技、1、2、3、4、5、6、7、8、9、10週間後の手技、1、2、3、4、5、6、7、8、9、10か月後の手技、1、2、3、4、5、6、7、8、9、10年後の手技、又は10、20、30、40、50、60、70、80、90、100年後の手技を含む異なる手技において)採取され得る。

第2の又はその後の生体試料は、同じ領域から(例えば、同じ腫瘍又は組織の領域から)又は異なる領域(例えば、異なる腫瘍を含む)から採取されるか、又は得ることができる。第2の又はその後の生体試料は、1回若しくは複数回の治療後に対象から採取されるか、又は得てもよく、同じ領域又は異なる領域から採取されてもよい。非限定的な例として、第2の又はその後の生体試料は、各生体試料中のがんが異なる特性を有するかどうか(例えば、患者における2つの物理的に別個の腫瘍から採取された生体試料の場合)、又はがんが1回若しくは複数回の治療に反応したかどうか(例えば、治療の前及び後に同じ腫瘍又は異なる腫瘍から採取された2つ又はそれ以上の生体試料の場合)を決定する際に有用であり得る。一部の実施形態では、少なくとも1つの生体試料のそれぞれは、体液試料、細胞試料、又は組織生検試料である。

一部の実施形態では、1つ又は複数の生体検体は、更なる処理の前に組み合わされる(例えば、保存のために同じ容器に入れられる)。例えば、対象から得られた第1の腫瘍の第1の試料が、対象から得られた第2の腫瘍の第2の試料と組み合わせることができ、第1及び第2の腫瘍は同じ腫瘍であってもなくてもよい。一部の実施形態では、第1の腫瘍及び第2の腫瘍は、類似しているが、同じではない(例えば、対象の脳内の2つの腫瘍)。一部の実施形態では、対象の第1の生体試料及び第2の生体試料は、異なる種類の腫瘍の試料である(例えば、筋肉組織内の腫瘍及び脳組織内の腫瘍)。

一部の実施形態では、RNA及び/又はDNAが抽出される試料(例えば、腫瘍の試料、又は血液試料)は、そこから少なくとも2μg(例えば、少なくとも2μg、少なくとも2.5μg、少なくとも3μg、少なくとも3.5μg又はそれ以上)のRNAが抽出され得るような十分な大きさである。一部の実施形態では、RNA及び/又はDNAが抽出される試料は、末梢血単核細胞(PBMC)であってよい。一部の実施形態では、RNA及び/又はDNAが抽出される試料は、任意の種類の細胞懸濁液であってよい。一部の実施形態では、RNA及び/又はDNAが抽出される試料(例えば、腫瘍の試料、又は血液試料)は、そこから少なくとも1.8μgのRNAが抽出され得るような十分な大きさである。一部の実施形態では、少なくとも50mg(例えば、少なくとも1mg、少なくとも2mg、少なくとも3mg、少なくとも4mg、少なくとも5mg、少なくとも10mg、少なくとも12mg、少なくとも15mg、少なくとも18mg、少なくとも20mg、少なくとも22mg、少なくとも25mg、少なくとも30mg、少なくとも35mg、少なくとも40mg、少なくとも45mg、又は少なくとも50mg)の組織試料が採取され、そこからRNA及び/又はDNAが抽出される。一部の実施形態では、少なくとも20mgの組織試料が採取され、そこからRNA及び/又はDNAが抽出される。一部の実施形態では、少なくとも30mgの組織試料が採取される。一部の実施形態では、少なくとも10～50mg(例えば、10～50mg、10～15mg、10～30mg、10～40mg、20～30mg、20～40mg、20～50mg、又は30～50mg)の組織試料が採取され、そこからRNA及び/又はDNAが抽出される。一部の実施形態では、少なくとも30mgの組織試料が採取される。一部の実施形態では、少なくとも20～30mgの組織試料が採取され、そこからRNA及び/又はDNAが抽出される。一部の実施形態では、RNA及び/又はDNAが抽出される試料(例えば、腫瘍の試料、又は血液試料)は、少なくとも0.2μg(例えば、少なくとも200ng、少なくとも300ng、少なくとも400ng、少なくとも500ng、少なくとも600ng、少なくとも700ng、少なくとも800ng、少なくとも900ng、少なくとも1μg、少なくとも1.1μg、少なくとも1.2μg、少なくとも1.3μg、少なくとも1.4μg、少なくとも1.5μg、少なくとも1.6μg、少なくとも1.7μg、少なくとも1.8μg、少なくとも1.9μg、又は少なくとも2μg)のRNAがそこから抽出され得るような十分な大きさである。一部の実施形態では、RNA及び/又はDNAが抽出される試料(例えば、腫瘍の試料、又は血液試料)は、少なくとも0.1μg(例えば、少なくとも100ng、少なくとも200ng、少なくとも300ng、少なくとも400ng、少なくとも500ng、少なくとも600ng、少なくとも700ng、少なくとも800ng、少なくとも900ng、少なくとも1μg、少なくとも1.1μg、少なくとも1.2μg、少なくとも1.3μg、少なくとも1.4μg、少なくとも1.5μg、少なくとも1.6μg、少なくとも1.7μg、少なくとも1.8μg、少なくとも1.9μg、又は少なくとも2μg)のRNAが抽出され得るような十分な大きさである。

対象
本開示の諸態様は、対象から得られた生体試料に関する。一部の実施形態では、対象は、哺乳類(例えば、ヒト、マウス、ネコ、イヌ、ウマ、ハムスター、ウシ、ブタ、又は他の家畜)である。一部の実施形態では、対象は、ヒトである。一部の実施形態では、対象は、成人(例えば、18歳以上)である。一部の実施形態では、対象は、子供(例えば、18歳未満)である。一部の実施形態では、ヒト対象は、少なくとも1つの形態のがんを有する、又は少なくとも1つの形態のがんを有すると診断されている人である。一部の実施形態では、対象が罹患しているがんは、癌腫、肉腫、骨髄腫、白血病、リンパ腫、又は癌腫、肉腫、骨髄腫、白血病、及びリンパ腫のうちの複数を含む混合型のがんである。癌腫とは、上皮性起源の悪性新生物又は身体の内膜又は外膜のがんを指す。肉腫は、骨、腱、軟骨、筋肉、及び脂肪等の支持組織及び結合組織に由来するがんを指す。骨髄腫は、骨髄の形質細胞に由来するがんである。白血病(「液状がん」又は「血液がん」)は、骨髄(血球産生の部位)のがんである。リンパ腫は、体液を浄化し、感染と闘う白血球、又はリンパ球を産生する血管、結節、臓器(特に脾臓、扁桃腺、胸腺)の網状組織であるリンパ系の腺又は結節で発生する。混合型のがんの非限定的な例は、腺扁平上皮がん、混合中胚葉性腫瘍、がん肉腫、及び奇形がんを含む。一部の実施形態では、対象は、腫瘍を有する。腫瘍は、良性又は悪性であり得る。一部の実施形態では、がんは、皮膚がん、肺がん、乳がん、前立腺がん、結腸がん、直腸がん、子宮頸がん、及び子宮がんのうちのいずれか1つである。一部の実施形態では、対象は、例えば、対象が1つ又は複数の遺伝的危険因子を有するか、又は1つ若しくは複数の発がん物質(例えば、タバコの煙、又は噛みタバコ)に曝露されたことがあるか、若しくは曝露されているという理由から、がんを発症するリスクがある。

発現データ
複数の遺伝子の発現データ(例えば、発現レベルを示す)は、本明細書に記載される方法又は組成物のいずれにも使用することができる。調べ得る遺伝子の数は、対象の遺伝子の最大ですべてを含む数までであり得る。一部の実施形態では、対象のすべての遺伝子について発現レベルを調べることができる。非限定的な例として、4個若しくはそれ以上、5個若しくはそれ以上、6個若しくはそれ以上、7個若しくはそれ以上、8個若しくはそれ以上、9個若しくはそれ以上、10個若しくはそれ以上、11個若しくはそれ以上、12個若しくはそれ以上、13個若しくはそれ以上、14個若しくはそれ以上、15個若しくはそれ以上、16個若しくはそれ以上、17個若しくはそれ以上、18個若しくはそれ以上、19個若しくはそれ以上、20個若しくはそれ以上、21個若しくはそれ以上、22個若しくはそれ以上、23個若しくはそれ以上、24個若しくはそれ以上、25個若しくはそれ以上、26個若しくはそれ以上、27個若しくはそれ以上、28個若しくはそれ以上、29個若しくはそれ以上、30個若しくはそれ以上、35個若しくはそれ以上、40個若しくはそれ以上、50個若しくはそれ以上、60個若しくはそれ以上、70個若しくはそれ以上、80個若しくはそれ以上、90個若しくはそれ以上、100個若しくはそれ以上、125個若しくはそれ以上、150個若しくはそれ以上、175個若しくはそれ以上、200個若しくはそれ以上、225個若しくはそれ以上、250個若しくはそれ以上、275個若しくはそれ以上、又は300個若しくはそれ以上の遺伝子を、本明細書に記載されるいずれかの評価に使用することができる。非限定的な例の別のセットとして、発現データには、Table 2(表2)に列挙されている各細胞型について、Table 2(表2)におけるその細胞型についての遺伝子の群から選択される少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも35個、少なくとも50個、少なくとも75個、少なくとも100個の遺伝子の発現データを含めることができる。

複数の遺伝子について発現データ(例えば、発現レベルを示す)を獲得するために、対象から採取した試料に対して任意の方法を使用することができる。非限定的な例のセットとして、発現データは、RNA発現データ、DNA発現データ、又はタンパク質発現データであり得る。

一部の実施形態では、DNA発現データは、対象からの試料中のDNAのレベルを指す。がんを有する対象に由来する試料中のDNAのレベルは、がん、例えば、がん患者の試料における遺伝子重複を有しない対象に由来する試料中のDNAのレベルと比較して上昇している場合がある。がんを有する対象に由来する試料中のDNAのレベルは、がん、例えばがん患者の試料中の遺伝子枯渇を有しない対象に由来する試料中のDNAのレベルと比較して低減されている場合がある。

一部の実施形態では、DNA発現データは、試料中の発現されたDNA(又は遺伝子)についてのデータ、例えば、患者の試料中の発現された遺伝子についてのシーケンシングデータを指す。そのようなデータは、一部の実施形態では、患者が、特定のがんに関連する1つ又は複数の突然変異を有するか否かを決定するのに有用であり得る。

RNA発現データは、これらに限定されないが、以下のものを含む、当技術分野で公知の任意の方法を使用して獲得することができる: 全トランスクリプトームシーケンシング、全RNAシーケンシング、mRNAシーケンシング、標的化RNAシーケンシング、低分子RNAシーケンシング、リボソームプロファイリング、RNAエクソームキャプチャシーケンシング、及び/又はディープRNAシーケンシング。DNA発現データは、DNAシーケンシングの任意の公知の方法を含む、当技術分野で公知の任意の方法を使用して獲得することができる。例えば、DNAシーケンシングを使用して、対象のDNAの1つ又は複数の変異を特定することができる。DNAをシーケンシングするための当技術分野で使用される任意の手法を、本明細書に記載の方法及び組成物と共に使用することができる。非限定的な例のセットとして、DNAは、単分子リアルタイムシーケンシング、イオントレントシーケンシング、ピロシーケンシング、合成によるシーケンシング法、ライゲーションによるシーケンシング法(SOLiDシーケンシング)、ナノポアシーケンシング、又はサンガーシーケンシング法(チェーンターミネーションシーケンシング)によってシーケンシングすることができる。タンパク質発現データは、これらに限定されないが、以下のものを含む、当技術分野で公知の任意の方法を使用して獲得することができる: N末端アミノ酸分析法、C末端アミノ酸分析法、エドマン分解法(タンパク質シーケンシング装置等の機械の使用によることを含む)、又は質量分析法。

一部の実施形態では、発現データは、バルクRNAシーケンシングによって獲得される。バルクRNAシーケンシングは、複数の入力細胞の集団から抽出されたRNAにわたって1つ又は複数の遺伝子の発現レベルを得ることを含むことができ、その集団には複数の異なる細胞型が含まれ得る。一部の実施形態では、発現データは、単細胞シーケンシング(例えば、scRNA-seq)によって獲得される。単細胞シーケンシングには、個々の細胞のシーケンシングが含まれ得る。

一部の実施形態では、発現データは、全エクソームシーケンシング(WES)データを含む。一部の実施形態では、発現データは、全ゲノムシーケンシング(WGS)データを含む。一部の実施形態では、発現データは、次世代シーケンシング(NGS)データを含む。一部の実施形態では、発現データは、マイクロアレイデータを含む。

RNA発現データの入手
一部の実施形態では、RNA発現データ(例えば、RNAシーケンシングから得られたデータ(本明細書ではRNA-seqデータとも称する))を処理する方法は、対象(例えば、がんを有する対象、又はがんと診断された対象)についてRNA発現データを得る工程を含む。一部の実施形態では、RNA発現データを得る工程は、生体試料を得て、本明細書に記載されるRNAシーケンシング方法のいずれかを使用してRNAシーケンシングを行うためにそれを処理する工程を含む。一部の実施形態では、RNA発現データは、RNA発現データを得るための実験を実施した実験室又は施設(例えば、RNA-seqを行った実験室又は施設)から得られる。一部の実施形態では、実験室又は施設は、医療検査室又は医療施設である。

一部の実施形態では、RNA発現データは、データが存在するコンピュータ記憶媒体(例えば、データ記憶装置)を得ることによって得られる。一部の実施形態では、RNA発現データは、安全なサーバー(例えば、SFTPサーバー、又はIllumina BaseSpace)を介して得られる。一部の実施形態では、データは、テキストベースのファイル(例えば、FASTQファイル)の形式で得られる。一部の実施形態では、シーケンシングデータが保存されているファイルには、シーケンシングデータの品質スコアも含まれる。一部の実施形態では、シーケンシングデータが保存されたファイルにはシーケンシング識別子情報も含まれている。

アラインメント及びアノテーション
一部の実施形態では、RNA発現データ(例えば、RNAシーケンシングから得られたデータ(本明細書ではRNA-seqデータとも称する))を処理する方法は、RNA発現データの中の遺伝子をヒトゲノムの既知の配列とアラインメントさせてアノテーションを行って、アノテーション付きのRNA発現データを得る工程を含む。

一部の実施形態では、RNA発現データのアライメントは、データを、対象の特定の種の既知のアセンブルされたゲノム(例えば、ヒトのゲノム)又はトランスクリプトームデータベースに対してアライメントする工程を含む。様々な配列アラインメントソフトウェアが入手可能であり、データをアセンブルされたゲノム又はトランスクリプトームデータベースに対してアラインメントするために使用することができる。アライメントソフトウェアの非限定的な例としては、短い(スプライスされていない)アライナー(例えば、BLAT;BFAST、Bowtie、Burrows-Wheeler Aligner、Short Oligonucleotide Analysisパッケージ、又はMosaik)、スプライスされたアライナー、既知のスプライス接合に基づくアライナー(例えば、Errange、IsoformEx、Splice Seq)、又はde novoスプライスアライナー(例えば、ABMapper、BBMap、CRAC、HiSAT)が挙げられる。一部の実施形態では、データのアラインメントとアノテーションを行うために任意の好適なツールを使用することができる。例えば、Kallisto(github.com/pachterlab/kallisto)が、データのアラインメント及びアノテーションを行うために使用される。一部の実施形態では、既知のゲノムは参照ゲノムと称される。参照ゲノム(参照アセンブリとも称される)は、種の遺伝子のセットの代表例としてアセンブルされているデジタル核酸配列データベースである。一部の実施形態では、本明細書に記載される方法のいずれか1つに使用されるヒト及びマウスの参照ゲノムは、Genome Reference Consortium(GRC)によって維持及び改善されている。ヒトの参照リリースの非限定的な例としては、GRCh38、GRCh37、NCBI Build 36.1、NCBI Build 35、及びNCBI Build 34が挙げられる。トランスクリプトームデータベースの非限定的な例としては、トランスクリプトームショットガンアセンブリ(TSA)が挙げられる。

一部の実施形態では、RNA発現データのアノテーションは、処理しようとするデータにおける遺伝子及び/又はコーディング領域の位置を、それをアセンブルされたゲノム又はトランスクリプトームデータベースと比較することによって同定する工程を含む。アノテーション用のデータソースの非限定的な例としては、GENCODE(www.gencodegenes.org)、RefSeq(例えば、www.ncbi.nlm.nih.gov/refseq/を参照)、及びEnsemblが挙げられる。一部の実施形態では、RNA発現データにおける遺伝子のアノテーションは、GENCODEデータベース(例えば、GENCODE V23アノテーション;www.gencodegenes.org)に基づいている。

Conseaら(A survey of best practices for RNA-seq data analysis; Genome Biology201617:13頁)は、RNA-seqデータを分析するための最優良事例を提供しており、これは、本明細書に記載される方法の任意の1つに適用することができ、その全体が参照により本明細書に組み込まれる。Pereira及びRueda(bioinformatics-core-shared-training.github.io/cruk-bioinf-sschool/Day2/rnaSeq_align.pdf)も、本明細書に記載される方法の任意の1つに適用可能なRNAシーケンシングデータを分析するための方法を記載しており、これはその全体が参照により本明細書に組み込まれる。

非コード転写物の除去
一部の実施形態では、RNA発現データ(例えば、RNAシーケンシングから得られたデータ(本明細書ではRNA-seqデータとも称する))を処理する方法は、アノテーション付きRNA発現データから非コード転写物を除去する工程を含む。RNA発現データのアラインメント及びアノテーションにより、コード性リード及び非コード性リードの識別が可能になる。一部の実施形態では、分析の労力をタンパク質(例えば、がんの病理に関与している可能性のあるもの)の発現に集中させるために、転写産物の非コード性リードを除去する。一部の実施形態では、データから非コード転写物のリードを除去する工程により、例えば、同じ又は類似した試料(例えば、同じ細胞又は細胞型の核酸)の反復試験におけるデータの分散が減少する。一部の実施形態では、除去される発現データの非限定的な例には、以下からなるリストから選択される1つ又は複数の遺伝子群に属する1つ又は複数の非コード転写物(例えば、10～50個、50～100個、100～1,000個、1,000～2,500個、2,500～5,000個又はそれ以上の非コード転写物)が含まれる: 偽遺伝子、多型偽遺伝子、プロセシング偽遺伝子、転写されたプロセシング偽遺伝子、ユニタリー偽遺伝子、非プロセシング偽遺伝子、転写されたユニタリー偽遺伝子、定常鎖免疫グロブリン(IG C)偽遺伝子、結合鎖免疫グロブリン(IG J)偽遺伝子、可変鎖免疫グロブリン(IG V)偽遺伝子、転写された非プロセシング偽遺伝子、翻訳された非プロセシング偽遺伝子、結合鎖T細胞受容体(TR J)偽遺伝子、可変鎖T細胞受容体(TR V)偽遺伝子、核内低分子RNA(snRNA)、核小体低分子RNA(snRNA)、マイクロRNA(miRNA)、リボザイム、リボソームRNA(rRNA)、ミトコンドリアtRNA(Mt tRNA)、ミトコンドリアrRNA(Mt rRNA)、カハール小体特異的低分子RNA(scaRNA)、残留イントロン、センスイントロンRNA、センス重複RNA、ナンセンス変異依存分解RNA、ノンストップ分解RNA、アンチセンスRNA、長介在性非コードRNA(lincRNA)、マクロ長非コードRNA(マクロlncRNA)、プロセシング転写産物、3'重複非コードRNA(3'重複ncrna)、小型RNA(sRNA)、その他のRNA(misc RNA)、ボールトRNA(vaultRNA)、及びTEC RNA。

一部の実施形態では、これらの種類の転写物のうちの1つ又は複数についての1つ又は複数の転写物の情報(例えば、配列情報)は、核酸データベース(例えば、Gencodeデータベース、例えば、Gencode V23、Genbankデータベース、EMBLデータベース、又は他のデータベース)において得ることができる。一部の実施形態では、本明細書に記載される非コード転写物、ヒストンをコードする遺伝子、ミトコンドリア遺伝子、インターロイキンをコードする遺伝子、コラーゲンをコードする遺伝子、及び/又はT細胞受容体をコードする遺伝子の一部(例えば、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、98%、99%、又は99.5%若しくはそれ以上)が、アラインメント及びアノテーションが行われたRNA発現データから除去される。

TPMへの変換及び遺伝子集成
一部の実施形態では、RNA発現データ(例えば、RNAシーケンシングから得られたデータ(本明細書ではRNA-seqデータとも称する))を処理する方法は、読み取られた転写物の長さあたりのRNA発現データを、(例えば、100万あたりキロベースあたりの転写物(TPM)形式に)正規化する工程を含む。一部の実施形態では、転写物の長さあたりで正規化されたRNA発現データについてまずアラインメント及びアノテーションを行う。データのTPMへの変換により、カウントではなく濃度の形式での発現の提示が可能になり、これにより、総リードカウント及びリードの長さが異なる試料の比較が可能になる。

一部の実施形態では、転写物リードの長さあたりで正規化されたRNA発現データを続いて分析して、遺伝子発現データ(遺伝子ごとの発現データ)を得る。これは遺伝子集成とも称される。遺伝子集成は、遺伝子のすべてのアイソフォームの転写物についてのリードにおける発現データを組み合わせて、その遺伝子についての発現データを得る工程を含む。一部の実施形態では、遺伝子発現データを得るための遺伝子集成は、TPM正規化の後であるが、バイアスを導入する遺伝子を同定する前に実施される。一部の実施形態では、データのTPMへの変換の前に遺伝子集成が行われる。

Wagnerら(Theory Biosci. (2012) 131:281～285頁)は、TPMがどのように計算されるかについての説明を提供しており、これはその全体が参照により本明細書に組み込まれる。一部の実施形態では、TPMを計算するために以下の式が使用される:

コンピュータ実装及び試料処理の環境
本明細書に記載される技術の実施形態の任意のもの(例えば、図2、図4、及び図6の方法等)と共に使用し得るコンピュータシステム1000の実装例が、図10に示されている。コンピュータシステム1000は、1つ又は複数のプロセッサ1010と、非一時的なコンピュータ読取り可能な記憶媒体(例えば、メモリ1020及び1つ又は複数の不揮発性記憶媒体1030)を含む1つ又は複数の製造品とを含む。プロセッサ1010は、メモリ1020及び不揮発性記憶デバイス1030へのデータの書き込み及び読み出しを、任意の好適な様式で制御することができるが、これは、本明細書に記載される技術の態様はこの点について限定されないためである。本明細書に記載される機能のいずれかを実施するために、プロセッサ1010は、プロセッサ1010による実行のためのプロセッサ実行可能命令を格納する非一時的なコンピュータ読取り可能な記憶媒体(例えば、メモリ1020)として機能する1つ又は複数の非一時的なコンピュータ読取り可能な記憶媒体に格納された、1つ又は複数のプロセッサ実行可能命令を実行することができる。

コンピュータデバイス1000はまた、コンピュータデバイスが他のコンピュータデバイスと(例えば、ネットワーク経由で)通信することができるネットワーク入出力(I/O)インターフェイス1040を含むことができ、コンピュータデバイスがユーザーに出力を提供して、ユーザーから入力を受信することができる、1つ又は複数のユーザーI/Oインターフェイス1050も含むことができる。ユーザーI/Oインターフェイスには、キーボード、マウス、マイク、表示デバイス(例えば、モニター又はタッチスクリーン)、スピーカー、カメラ、及び/又は他の様々な種類のI/Oデバイス等のデバイスを含めることができる。

一部の実施形態では、本明細書に記載される手法は、図11に示されている例示的な環境1100に実装することができる。図11に示されているように、例示的な環境1100内で、対象1180の1つ又は複数の生体試料を実験室1170に提供することができる。実験室1170は、生体試料を処理して発現データ(例えば、DNA、RNA、及び/又はタンパク質発現データ)及び/又は配列情報を得て、ネットワーク1110を介して、対象(例えば、患者)1180に関する情報を保存している少なくとも1つのデータベース1160に提供することができる。

ネットワーク1110は、広域ネットワーク(例えば、インターネット)、ローカルエリアネットワーク(例えば、企業のイントラネット)、及び/又は他の任意の好適な種類のネットワークであってよい。図11に示されているデバイスのいずれもが、1つ若しくは複数の有線リンク、1つ若しくは複数の無線リンク、及び/又はそれらの任意の好適な組合せを使用してネットワーク1110に接続され得る。

図11の図示された実施形態において、少なくとも1つのデータベース1120は、対象(例えば、患者)についての発現データ又は配列情報、対象(例えば、患者)についての病歴データ、対象(例えば、患者)についての検査結果データ、及び/又は対象1180に関する他の任意の好適な情報を保存し得る。対象(例えば、患者)について保存されている検査結果データの例としては、生検結果、画像検査結果(例えば、MRIの結果)、及び血液検査の結果が挙げられる。少なくとも1つのデータベース1120に保存されている情報は、任意の好適な形式及び/又は任意の好適なデータ構造で保存され得るが、これは、本明細書に記載される技術の態様はこの点について限定されないためである。少なくとも1つのデータベース1120は、任意の好適な方法(例えば、1つ又は複数のデータベース、1つ又は複数のファイル)でデータを保存することができる。少なくとも1つのデータベース1120は、単一のデータベースであってもよく、又は複数のデータベースであってもよい。

図11に示されているように、例示的な環境1100は、患者1180以外の患者についての情報を保存することができる、1つ又は複数の外部データベース1120を含む。例えば、外部データベース1160は、1人若しくは複数の患者の発現データ及び/若しくは配列情報(例えば、画像検査結果、生検結果、血液検査結果)、1人若しくは複数の患者の病歴データ、1人若しくは複数の患者の検査結果データ、1人若しくは複数の患者の人口統計学的及び/若しくは伝記的情報、並びに/又は他の任意の好適な種類の情報を保存することができる。一部の実施形態では、外部データベース1160は、TCGA(The Cancer Genome Atlas)、臨床試験情報の1つ若しくは複数のデータベース、及び/又は商業的シーケンシング供給元によって管理されている1つ若しくは複数のデータベース等の、公的にアクセス可能な1つ又は複数のデータベースにおいて入手可能な情報を保存することができる。外部データベース1160は、そのような情報を、任意のハードウェアを使用して任意の好適な方法で保存することができるが、これは、本明細書に記載される技術の態様はこの点について限定されないためである。

一部の実施形態では、少なくとも1つのデータベース1120及び外部データベース1160は、同じデータベースであってもよく、同じデータベースシステムの一部であってもよく、又は物理的に同じ場所にあってもよいいが、これは、本明細書に記載される技術の態様はこの点について限定されないためである。

例えば、一部の実施形態では、サーバー1140は、データベース1120及び/又は1160に保存されている情報にアクセスし、この情報を使用して、生体試料及び/又は配列情報の1つ又は複数の特性を決定するために(例えば、その細胞構成比率の決定)、本明細書に記載されるプロセスを実施することができる。

一部の実施形態では、サーバー1140は、1つ又は複数のコンピュータデバイスを含み得る。サーバー1140が複数のコンピュータデバイスを含む場合、デバイスは、物理的に同じ場所(例えば、1つの部屋)に配置されてもよく、又は複数の物理的な場所に分散されてもよい。一部の実施形態では、サーバー1140は、クラウドコンピューティングインフラストラクチャーの一部であってもよい。一部の実施形態では、1つ又は複数のサーバー1140は、医師1150が所属する主体(例えば、病院、研究機関)によって運営される施設内で同じ場所に配置されていてもよい。そのような実施形態では、サーバー1140が、患者1180についての個人医療データにアクセスすることはより容易であると考えられる。

図11に示されているように、一部の実施形態では、サーバー640によって実施された分析の結果は、コンピュータデバイス1130(これは、ラップトップ若しくはスマートフォン等のポータブルコンピュータデバイス、又はデスクトップコンピュータ等の固定コンピュータデバイスであってよい)を介して医師1150に提供され得る。結果は、書面による報告書、電子メール、グラフィカルユーザーインターフェイス、及び/又は他の任意の好適な方法で提供することができる。図11の実施形態では、結果は医師1150に提供されているが、他の実施形態では、分析の結果を、患者1180若しくは患者1180の介護者、看護師等の医療提供者、又は臨床試験の関係者に提供してもよいことが理解される必要がある。

一部の実施形態では、結果は、コンピュータデバイス1130を介して医師1150に提示されるグラフィカルユーザーインタフェース(GUI)の一部であってもよい。一部の実施形態では、GUIは、コンピュータデバイス1130上で実行されるウェブブラウザによって表示されるウェブページの一部としてユーザーに提示されてもよい。一部の実施形態では、GUIは、コンピュータデバイス1130上で実行されるアプリケーションプログラム(ウェブブラウザとは異なる)を使用してユーザーに提示されてもよい。例えば、一部の実施形態では、コンピュータデバイス1130は、モバイルデバイス(例えば、スマートフォン)であってもよく、GUIは、モバイルデバイス上で実行されるアプリケーションプログラム(例えば、「アプリ」)を介してユーザーに提示されてもよい。

(実施例1)
RNA転写物正規化の確立及びシーケンシング技術的ノイズの分析
本明細書において記載されるような、RNA転写物正規化の例示的プロセスを確立するため、及びシーケンシング技術的ノイズを分析するために実験を行った。

図12Aは、種々の実験室においてシーケンシングされた精製B細胞(細胞型の一例として)の種々の試料において算出された種々の生物学的型の転写物を網羅する100万あたりの転写物(Transcripts Per Million)(TPM)の割合を示す。選別されたB細胞の種々のデータセットのGEO及びArrayExpress IDが、X軸上で標識として示されている。転写物生物学的型は、凡例(GENCODEアノテーション、バージョン23による)に示されている。示されるように、短いRNA転写物に属する総発現の変動性は、短い転写物の長さの正規化に起因する変動の増大によって目的の遺伝子のTPM値分布を強力に歪める。「非コード転写物を除去すること」の節に関してを含めて上記のように、データからの非コード転写物のリードデータは、データの分散を低減する可能性がある。

図12Bは、参照ヒトトランスクリプトーム(GENCODE、v23)の、凡例に示されるように、転写物バイオタイプ及び長さによる転写物分布を示す。参照トランスクリプトーム中の各バイオタイプの種々の長さの転写物数の割合が示されている(図12Cではすべての保持された及びすべての除去された転写物のさらなるカテゴリーとともに)。非コード転写物に加えて、相当量のノイズは、トランスクリプトームにおいてV、D又はJ領域に対応するとアノテーションされた、TCR及びBCRコード遺伝子の短い転写物に由来していた。T-及びB-細胞は、VDJ組換え後に長い転写物を作成し、これらの短い転写物は決して合成されず、したがって、特異的再整列なしには種々のTCR及びBCRバリアント(TCR及びBCRレパートリー)を正しく測定することができなかった。最終的に、短い非コードRNA配列をフィルターにかけて除去することに加えて、これらのTCR及びBCRタンパク質コード転写物をTPM正規化から排除した。非コード転写物及びTCR-及びBCR-転写物の転写物を排除することは、図12Bに示されるように、データの分散を低減する可能性がある。

図12Cは、発現定量化及びTPM再正規化の例示的プロセスの模式図である。転写物のTPM発現を、Kallisto(Brayら 2016)によって算出した。次に、非コード転写物、短いV、D又はJセグメントに関連するTCR/BCRをコードする転写物並びにその生物学的特性及び品質/証拠情報に従う他の転写物をフィルターにかける。最後に、転写物を遺伝子によって凝集し、100万TPMで正規化する。

図12D～図12Eは、転写物フィルトレーション及びTPM再正規化前(赤色)及び後(青色)の種々の細胞型の3515ハウスキーピング遺伝子(Eisenberg及びLevanon 2013)の発現における相対標準偏差を示すバイオリンプロットである。データは、全RNA-seq(図12D)又はポリA RNA-seq(図12E)のいずれかを使用してライブラリー調製物の型に基づいてグループ化されている。示されたP値は、両側ウィルコクソン検定によって算出されている。分布の中央値及び順位双列相関係数が示されている。

図12Fは、提案された転写物フィルトレーション及び再正規化の前(左)及び後(右)の全RNA-seq(緑色)又はポリA RNA-seq(赤色)のいずれかを使用する実験から得られた選別されたB細胞のRNA発現のPCA投影である。示されるように、本明細書において記載されるTPM再正規化の手順後に、発現プロファイル間の望まれないバッチ効果の低下がある。「TPMへの変換及び遺伝子集成」の節に関してを含めて、TPM正規化の技術が本明細書において記載される。

図12Gは、技術的反復試験の相対標準偏差の遺伝子発現レベル(TPM)への依存を示す。100万(桃色)、500万(黄色)及び1000万(緑色)リードカウントの総カバレッジを有するRNA-seq実験が提示されている。

図12H(左)は、遺伝子発現の平均標準偏差の、RNA-seqにおけるリードカウントの総カバレッジへの依存を示す。図示されるグラフは、ノイズレベルを逐次付加した試料を示す:技術的ポワソンノイズのみ(青色)、すべての技術的ノイズ(黄色)並びに技術的及び生物学的ノイズの両方(赤色)。図12H(右)は、異なるタイプのノイズを有する試料内で算出された遺伝子発現の同一標準偏差の分布を示すバイオリンプロットである。図6に関してを含めて上記のように、技術的ノイズの構成成分は、ポワソン分布によって特定される場合があり、技術的ノイズの別の構成成分は、非ポワソンノイズによって特定される場合があり、生物学的ノイズは、正規分布によって特定される場合がある。

図12Iは、異なる総リードカウントカバレッジを有するRNA-seq実験の技術的反復試験の測定されたポワソンノイズ係数を示すプロットである。ポワソンノイズは、RNA-seqデータの総リードカウントカバレッジの平方根に反比例する。

図12J(左)は、遺伝子発現の平均標準偏差の、RNA-seqにおけるリードカウントの総カバレッジへの依存示す。図示されるグラフは、帰属ポワソンノイズを有する(緑色)遺伝子発現及びすべての技術的ノイズを有する(黄色)同一試料のデータを示す。図12J(右)は、遺伝子発現の平均標準偏差の、RNA-seqにおけるリードカウントの総カバレッジへの依存を示す。図示されたグラフは、帰属ポワソンノイズを差し引いた後の左のグラフにおいて提示されたものと同一データを示し、技術的ノイズへの非ポワソン付加を示す。この非ポワソン技術的ノイズは、シーケンシングカバレッジへの依存を全く示さない。

図12K(左)は、遺伝子発現の平均標準偏差の、RNA-seqにおけるリードカウントの総カバレッジへの依存を示す。図示されたグラフは、多様な実験室及び実験にわたる1つの細胞株の遺伝子発現を示し、生物学的及び技術的ノイズの両方を説明する。同一試料について算出された帰属ポワソン技術的ノイズは、緑色で表されている。図12K(右)は、遺伝子発現の平均標準偏差の、RNA-seqにおけるリードカウントの総カバレッジへの依存を示す。図示されたグラフは、帰属ポワソンノイズを差し引いた後の左で示されたような遺伝子発現を示し、試料における純粋な生物学的ノイズを示し、これは、シーケンシングカバレッジに依存しなかった。

(実施例2)
複数の正常組織及びがん組織のRNA-seqからの微小環境のデコンボリューション
複数の正常組織及びがん組織からのRNA-seqデータを使用して本明細書において記載される技術に従って、細胞性デコンボリューションを実施する実験を行った。図では、本発明者らによって開発された細胞性デコンボリューション技術は、「カサンドラ(Kassandra)」と呼ばれる場合もある。具体的には、細胞型及び/又はサブタイプにとって特異的及び/又は半特異的な遺伝子を選択し、人工的混合物を生成し、複数の非線形回帰モデルを訓練して、複数の細胞型の複数の細胞構成比率を決定し、訓練された非線形回帰モデルを使用して、細胞構成比率を決定する技術、並びに本明細書において記載される他の前処理及び後処理手法。

図13Aは、TCGAデータに基づいたデコンボリューションのための妥当性確認実験の模式図である。ヘマトキシリン及びエオシン(H&E)スライド及び全エクソームシーケンシング(WES)から他の方法によってから得られた細胞数に関するデータが使用される。

図13Bは、TCGAからの10,489の腫瘍バイオプシーにおけるB細胞、CD4+、CD8+、マクロファージ、線維芽細胞及び内皮細胞の、本明細書において記載されるデコンボリューション技術を使用して(例えば、訓練された非線形回帰モデルを使用して)推定される細胞構成比率の分布を示すバイオリンプロットである。示されるように、腫瘍組織は、図示される例においてがんの種類によってわけられる。

図13Cは、デコンボリューションされた細胞比率に基づいて算出されたTCGA及びGTEX試料を示すt-SNEプロットである。

図13Dは、TCGA RNA-seqデータで本明細書において記載される技術によって予測される、及び(Saltzら 2018)による組織学的TCGAデータの機械分析によって予測されるリンパ球の比率の間のピアソン相関を示すグラフである。

図13Eは、本明細書において記載される技術によるRNA-seqからの悪性細胞の予測される比率と、11のTCGAがん種類についてWESから推定される腫瘍純度との相関を示すプロットである。

図13Fは、腫瘍純度と、RNA-seqデータに基づく悪性細胞の予測される比率の間のピアソン相関を示すグラフである。腫瘍データは、TCGAから導いた。グラフは、本明細書において記載される技術による予測のピアソン相関並びに多様な代替アルゴリズムによる予測のピアソン相関を示す。他のアルゴリズムと比較して、本発明者らによって開発された非線形デコンボリューション技術は、悪性細胞の比率をより正確に予測し、従来技術を上回る改善を実証した。

図13Gは、本明細書において記載される技術によって予測されたT細胞RNA比率の、LUSC TCGAデータにおけるMiXCRによるT細胞受容体(TCRのCDR3領域)リードとのピアソン相関を示すグラフである。

図13Hは、本明細書において記載される技術によって予測されたプラズマB細胞RNA比率の、LUSC TCGAデータにおいてMiXCRによるB細胞受容体(IgHのCDR3領域)リードとのピアソン相関を示すグラフである。

図13Iは、TCGAデータからの種々のがんの種類における、予測されたT細胞RNA比率のT細胞受容体(TCRのCDR3領域)リードとのピアソン相関値を示すグラフである。本明細書において記載される技術による予測及び多様な代替アルゴリズムによる予測が示されている。各データ点は、種々のがんの種類(COAD、KIRC、LUAD、LUSC、READ、SKCM、TNBC)に対応する。

図13Jは、TCGAからの種々のがんの種類における、予測されたプラズマB細胞RNA比率の、B細胞受容体(IgHのCDR3領域)リードとのピアソン相関値を示すグラフである。本明細書において記載される技術による予測及び多様な代替アルゴリズムによる予測が示されている。各データ点は、種々のがんの種類(COAD、KIRC、LUAD、LUSC、READ、SKCM、TNBC)に対応する。

この実験では、本発明者らは、種々の腫瘍の種類及び健常組織のTCGA試料の細胞構成を分析した(図13B)。B細胞、CD4+T細胞、CD8+T細胞、マクロファージ、線維芽細胞及び内皮細胞を含む5つの主要な細胞集団を定量化した(図13C)。これらの値は、報告されているものと一致した。例えば、DLBC RNA-seqデータは、B細胞の強力な濃縮を示した。次いで、本明細書において記載される技術によって予測された腫瘍純度値と、他のデコンボリューションアルゴリズムの間の相関を確立された純度アルゴリズムを使用して比較した(図13E～図13F)。この分析は、本明細書において記載される技術の、バルクRNAseqデータから細胞集団を正確に予測する能力を支持した。

この実施例では、RNA-seqデータにおける発現されたT細胞受容体(TCR)及びIgH/L(B細胞受容体)配列の割合は、T細胞又は免疫グロブリンを活発に産生するプラズマB細胞の存在と相関する。MIXCRを使用して配列を再整列させて、種々のT及びプラズマB細胞クローンに関連する、CDR3転写物の存在量及び多様性を測定した。示されるように、代替アルゴリズムの中で本明細書において記載される技術のみが、予測されたT細胞比率の、試料内の見出されたTCR数との、及びプラズマB細胞比率の、IgH/L転写物画分との強い相関を提供した(図13G～図13J)。

(実施例3)
血液のシングルセルRNA-seq及びバルクRNA-seqのデコンボリューション
血液データのシングルセルRNA-seqデータ及びバルクRNA-seqを使用して本明細書において記載される技術に従って、細胞性デコンボリューションを実施する実験を行った。図では、本発明者らによって開発された細胞性デコンボリューション技術は、「カサンドラ」と呼ばれる場合もある。具体的には、人工的混合物を生成し、細胞型及び/又はサブタイプにとって特異的及び/又は半特異的な遺伝子を選択し、複数の非線形回帰モデルを訓練して、複数の細胞型の複数の細胞構成比率を決定し、訓練された非線形回帰モデルを使用して、細胞構成比率を決定する技術、並びに本明細書において記載される他の前処理及び後処理手法。

図14Aは、PBMCからのscRNA-seq試料を使用するデコンボリューションのための妥当性確認実験の模式図である。scRNA-seqデータを人為的に混合して、バルクRNA-seqデータセットを作出した。

図14Bは、10x Genomicsによって提供された9つのシングルセルPBMCデータセットにわたる細胞表現型決定のt-SNEプロットである。連結されたプロットは、SCTransform正規化、バッチ補正及び先行PCAを含むSeuratパイプライン(Butlerら 2018;Stuartら 2019)によって取得した。示されるように、種々の細胞型及び/又はサブタイプが、それらを区別する重要な細胞マーカー(例えば、特異的及び/又は半特異的遺伝子)を発現する。

図14Cは、PBMCのscRNA-seqからの真の細胞比率と、バルクRNA-seq混合物についての本明細書において記載される技術を用いて行われた予測の間の相関を示すグラフである。

図14Dは、PBMCのscRNA-seqからの真の比率と、8つの細胞サブタイプについての本明細書において記載される技術を用いて(例えば、細胞構成比率を決定するために非線形回帰モデルを使用して)行われた予測の相関を示すプロットである。

図14Eは、PBMC又は全血のバルクRNA-seqを使用するデコンボリューションのための妥当性確認実験及び同一試料のFACS測定の模式図である。

図14F-1及び図14F-2は、種々の細胞型(CD4+T細胞、CD8+T細胞、NK細胞、B細胞、単球及び好中球)についての、バルクRNA-seqからの本明細書において記載される技術による予測された細胞比率と、フローサイトメトリー測定によって得られた実際の細胞比率の相関を示すグラフである。比較のために使用したデータセットは、GSE107572(Finotelloら 2019)、GSE115823(Altmanら 2019)、GSE60424(Linsleyら 2014)、SDY67(Zimmermannら 2016)、GSE127813(Newmanら 2019)、GSE53655(Shinら 2014)、GSE64655(Hoekら 2015)である。組み合わされたすべての細胞型についてピアソン相関が示されている。

この実験では、本発明者らは、本明細書において記載される技術を末梢血単核細胞(PBMC)に由来するscRNA-seqデータセットから構成された人工的バルクRNA-seqに適用した(図14A～図14B)。真のscRNA-seq比率を、予測されたRNA-seq比率とアラインした場合に高い相関値が得られた(図14C)。この実施例では、各細胞型の相関を別個にグラフ化した場合に、高い数字で存在する細胞型は、真の値と予測された値の間に最も有意な相関を有する(図14D)。

次いで、本明細書において記載される技術を使用して、FACS分析が利用可能であった血液のバルクRNA-seqを分析した(図14E)。8つの異なるPBMC試料を分析し、各試料についてFACS分析を、本明細書において記載される技術によって予測された細胞構成と比較した。示されたように、すべての分析は、0.900～0.984の範囲の相関係数を提示した(図14F-1及び図14F-2)。

(実施例4)
種々のがん組織からの微小環境のデコンボリューション
黒色腫、頭頸部癌及び肺癌を含むいくつかの腫瘍組織に由来するscRNA-seqデータを使用して本明細書において記載される技術に従って、細胞性デコンボリューションを実施する実験を行った。図では、本発明者らによって開発された細胞性デコンボリューション技術は、「カサンドラ」と呼ばれる場合もある。具体的には、人工的混合物を生成し、細胞型及び/又はサブタイプにとって特異的及び/又は半特異的な遺伝子を選択し、複数の非線形回帰モデルを訓練して、複数の細胞型の複数の細胞構成比率を決定し、訓練された非線形回帰モデルを使用して、細胞構成比率を決定する技術、並びに本明細書において記載される他の前処理及び後処理手法。

図15Aは、左から右に、黒色腫(GSE72056)(Tiroshら 2016)、肺癌(E-MTAB-6149及びE-MTAB-6653)(Lambrechtsら 2018)及び頭頸部癌(HNC)(GSE103322)(Puramら 2017)シングルセルデータセットにおける細胞表現型決定のt-SNEプロットを表す。肺癌のt-SNEプロットは、SCTransform正規化、バッチ補正及び先行PCAを含むSeuratパイプライン(Butlerら 2018;Stuartら 2019)によって取得した。黒色腫及び頭頸部癌t-SNEプロットは、細胞型特異的遺伝子のlog TPM発現値のt-SNE転換によって取得した。

図15Bは、がん組織に由来するscRNA-seqデータを使用する妥当性確認実験の模式図である。scRNA-seqデータを人為的に混合して、バルクRNA-seqデータセットを作出した。

図15C、図15D、図15E及び図15Fは、scRNA-seqデータに由来する真の細胞比率値(図15A)と、人工的バルクRNA-seqデータからの本明細書において記載される技術によるデコンボリューション予測との相関を示すプロットである。黒色腫(図15C)(n=19)、肺がん(図15D)(n=12)、HNC(図15E)(n=22)及びB細胞リンパ腫(図15F)(n=12)における種々の細胞亜集団について、相関が示されている。

図15G及び図15Hは、黒色腫、肺癌及びHNCについて人工的バルクRNA-seqデータから予測された値と、scRNA-seqデータに由来する真の値の間の、平均ピアソン相関値(図15G)及び平均MAE(平均絶対誤差)スコア(図15H)を示すヒートマップである。この実施例では、本明細書において記載される技術から得た結果が、代替アルゴリズムから得られた結果と比較される。特に、デコンボリューションの従来技術と比較された場合に、本発明者らによって開発された非線形回帰技術は、平均して、種々の細胞型の細胞構成比率をより正確に予測し、より低い平均絶対誤差を有すると示される。

図15Iは、本明細書において記載される技術によって予測された細胞比率と、データセットGSE121127(Wangら 2018)(上部)からのリンパ球、線維芽細胞及び肺腺癌細胞株のFACS並びにデータセットGSE120444(Oetjenら 2018)(下部)からの骨髄のCYTOFによって得られた実際の細胞比率の間の相関を示す。ピアソン相関値(r)は、組み合わされたすべての細胞型の相関値を表す。

この実験では、scRNA-seqから得た細胞に手作業でアノテートし(図15A)、各細胞型のある特定の比率を混合して、バルクRNA-seq試料に類似させた(例えば、少なくとも図6Aに関して上記で本明細書において記載されるように)。その後、これらの細胞比率を、本明細書において記載される技術によって予測された値と比較した。本明細書において記載される技術の、各細胞型の細胞構成比率を再構築する能力を測定した(図15C～図15F)。細胞型再構築の中央値相関は約0.97に達し、他の方法の中で最高であった。

本明細書において記載される技術が、scRNA-seqデータに由来する混合試料において絶対細胞数を推定するその能力において代替技術と比較される場合には、本明細書において記載される技術は、最高相関スコア(図15G)及び最低平均誤差(MAE)(図15H)を有する最も多くの細胞型を達成した。本明細書において記載される技術のみが、CD4+T細胞及び制御性T細胞の再構築において正確であり、最大0.87及び0.95の平均ピアソン相関値を提供した(図15G)。したがって、これらの細胞型は高い数のオーバーラップ遺伝子を有するが、本発明者らによって開発された技術は、代替アルゴリズムよりも正確な結果を成功裏にもたらす。

このように、本開示に記載された技術のいくつかの態様及び実施形態を説明してきたが、多様な変更、改変、及び改良が当業者に容易に想起されることを理解されたい。このような変更、改変及び改良は、本明細書において記載される技術の趣旨及び範囲内であると意図される。例えば、当業者ならば、本明細書において記載される機能を実施する、並びに/又は結果及び/若しくは1つ若しくは複数の利点を得るためのさまざまな他の手段及び/又は構造を容易に想像するであろう。またこのような変動及び/又は改変の各々は、本明細書において記載される実施形態の範囲内であるとみなされる。当業者ならば、日常的な実験法のみを使用して、本明細書に記載の特定の実施形態に対する多数の同等物を認識又は確認できるであろう。したがって、前記の実施形態は、単に例として示されていること並びに添付の特許請求の範囲及びその同等物の範囲内で、本発明の実施形態を具体的に記載されるものとは別に実施できることは理解されるべきである。更に、本明細書において記載される2つ又はそれより多い特徴、システム、物品、材料、キット及び/又は方法の任意の組合せは、このような特徴、システム、物品、材料、キット及び/又は方法が相互に矛盾していない場合、本開示の範囲内に含まれる。

上記の実施形態は、多数の方法のいずれかで実装できる。プロセス又は方法の実施を含む本開示の1つ又は複数の態様及び実施形態は、デバイス(例えば、コンピュータ、プロセッサ、又は他のデバイス)によって実行可能なプログラム命令を利用して、プロセス又は方法を実施できる、又はその実施を制御できる。この点において、多様な本発明の概念を、1つ又は複数のコンピュータ又は他のプロセッサで実行されると、上記の多様な実施形態のうち1つ又は複数を実装する方法を実施する1つ又は複数のプログラムによってコードされる、コンピュータ読取り可能な記憶媒体(又は複数のコンピュータ読取り可能な記憶媒体)(例えば、コンピュータメモリー、1つ又は複数のフロッピーディスク、コンパクトディスク、光ディスク、磁気テープ、フラッシュメモリー、フィールドプログラマブルゲートアレイ若しくは他の半導体デバイスにおける回路構成、又は他の有形のコンピュータ記憶媒体)として具体化できる。コンピュータ読取り可能な媒体(単数又は複数)は、格納されるプログラム(単数又は複数)を、1つ又は複数の異なるコンピュータ又は他のプロセッサにロードして、上記の態様の多様なものを実装できるように輸送可能であり得る。一部の実施形態では、コンピュータ読取り可能な媒体は、非一時的媒体である場合がある。

「プログラム」又は「ソフトウェア」という用語は、本明細書において一般的な意味で使用され、上記のような多様な態様を実装するためにコンピュータ又は他のプロセッサをプログラムするために使用できる、任意の種類のコンピュータコード又はコンピュータによって実行可能な命令のセットを指す。更に、当然のことではあるが、一態様によれば、実行された場合に本開示の方法を実施する1つ又は複数のコンピュータプログラムは、単一コンピュータ又はプロセッサ上に常駐する必要はなく、本開示の多様な態様を実装するために、いくつかの異なるコンピュータ又はプロセッサ間でモジュール式で分散できる。

コンピュータ実行可能な命令は、例えば、1つ又は複数のコンピュータ又は他のデバイスによって実行されるプログラムモジュール等の多数の形態である場合がある。一般に、プログラムモジュールには、特定のタスクを実行する、又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等が含まれる。通常、プログラムモジュールの機能は、多様な実施形態で必要に応じて組み合わせる、又は分散させることができる。

また、データ構造は、コンピュータ読取り可能な媒体に任意の適した形態で格納できる。例示の単純性のために、データ構造は、データ構造中の位置によって関連するフィールドを有すると示される場合がある。このような関係は、フィールドの記憶域にフィールド間の関係を伝達するコンピュータ読取り可能な媒体中の位置を割り当てることによって同様に達成できる。しかし、データ要素間の関係を確立するポインタ、タグ、又は他の機序の使用によってを含めて、任意の適した機序を使用して、データ構造のフィールド中の情報間の関係を確立できる。

ソフトウェア中に実装される場合、ソフトウェアコードは、単一のコンピュータに提供されるか、複数のコンピュータ間に分散されるかにかかわらず、任意の適したプロセッサ又はプロセッサの収集物で実行できる。

更に、当然のことではあるが、コンピュータをいくつかの形態のいずれか、例えば、限定されない例として、ラックマウント型コンピュータ、デスクトップコンピュータ、ラップトップコンピュータ又はタブレットコンピュータで具体化できる。更に、コンピュータを、一般に、コンピュータとみなされていないが、適した処理能力を有するデバイスで具体化でき、これには、携帯情報端末(PDA)、スマートフォン、タブレット、又はその他の適した携帯型若しくは固定型の電子デバイスが含まれる。

また、コンピュータは、1つ又は複数の入力及び出力デバイスを有し得る。これらのデバイスは、中でも、ユーザーインターフェースを提示するために使用できる。ユーザーインターフェースを提供するために使用できる出力デバイスの例として、出力の視覚的提示のためのプリンター又はディスプレイスクリーン及び出力の聴覚的提示のためのスピーカー又は他の音響生成デバイスが挙げられる。ユーザーインターフェースのために使用できる入力デバイスの例として、キーボード及びポインティングデバイス、例えば、マウス、タッチパッド及び離散化タブレットが挙げられる。別の例として、コンピュータは、音声認識又はその他の可聴形式で入力情報を受け取ることができる。

このようなコンピュータは、事業ネットワーク等のローカルエリアネットワーク又はワイドエリアネットワーク、及びインテリジェントネットワーク(IN)又はインターネットを含む、任意の適した形態の1つ又は複数のネットワークによって相互接続され得る。このようなネットワークは、任意の適した技術に基づくことができ、任意の適したプロトコールに従って動作でき、無線ネットワーク、有線ネットワーク、又は光ファイバーネットワークを含むことができる。

また、記載されたように、一部の態様を、1つ又は複数の方法として具体化できる。方法の一部として実施された行為を、任意の適した方法で順序付けることができる。したがって、行為が例示されるものとは異なる順序で実施される実施形態を構築でき、これは、いくつかの行為を、例示的実施形態では逐次行為として示されていても同時に実施することを含み得る。

本明細書において定義され、使用されるようなすべての定義は、辞書の定義、参照により組み込まれる文書における定義、及び/又は定義された用語の通常の意味を制御すると理解されるべきである。

本明細書において、及び特許請求の範囲において、本明細書で使用される場合、不定冠詞「a」及び「an」は、反対に明確に示されない限り、「少なくとも1つ」を意味すると理解されるべきである。

本明細書において、及び特許請求の範囲において、本明細書で使用される場合、「及び/又は」という語句は、そのように結合された要素の「いずれか又は両方」、すなわち、ある場合には結合的に存在し、他の場合には分離的に存在する要素を意味すると理解されるべきである。「及び/又は」を用いて列挙された複数の要素は、同じように、すなわち、そのように結合された要素の「1つ又は複数」と解釈されるべきである。「及び/又は」節によって具体的に識別される要素以外の他の要素は、それらの具体的に識別される要素に関連するか、又は関連しないかにかかわらず、任意に存在し得る。したがって、限定されない例として、「A及び/又はB」への言及は、「含む」等の制限のない文言と併せて使用される場合、一実施形態では、Aのみを(任意選択で、B以外の要素を含む)、別の実施形態では、Bのみを(任意選択で、A以外の要素を含む)、更に別の実施形態では、A及びBの両方を(任意選択で他の要素を含む)等を指す場合がある。

本明細書において、及び特許請求の範囲において、本明細書で使用される場合、1つ又は複数の要素のリストに関して「少なくとも1つ」という語句は、要素のリスト中の任意の1つ又は複数の要素から選択された少なくとも1つの要素を意味すると理解されるべきであるが、要素のリスト内に具体的に列挙されたあらゆる要素のうち必ずしも少なくとも1つを含むわけではなく、要素のリスト中の要素の任意の組合せを除外するものではない。この定義はまた、具体的に識別されるそれらの要素と関連する、又は関連しないにかかわらず、「少なくとも1つの」という語句が指す要素のリスト内で具体的に識別される要素以外の要素が任意選択で存在し得ることを可能にする。したがって、限定されない例として、「A及びBの少なくとも1つの」(又は同等に、「A又はBの少なくとも1つの」又は同等に「A及び/又はBの少なくとも1つの」)は、一実施形態では、少なくとも1つ、任意選択で、1よりも多いAを含み、Bは存在しない(任意選択で、B以外の要素を含む)を、別の実施形態では、少なくとも1つ、任意選択で、1よりも多いBを含み、Aは存在しない(及び任意選択で、A以外の要素を含む)を、更に別の実施形態では、少なくとも1つ、任意選択で、1よりも多いAを含み、少なくとも1つの、任意選択で、1よりも多いBを含む(及び任意選択で、他の要素を含む)等を指す場合がある。

特許請求の範囲において、並びに上記の本明細書において、「含む(comprising)」、「含む(including)」、「運ぶ(carrying)」、「有する(having)」、「含有する(containing)」、「関与する(involving)」、「保持する(holding)」、「構成される(composed of)」等のすべての移行句は、制限のないものである、すなわち、含むがそれに限定されないことを意味すると理解されるべきである。「からなる(consisting of)」及び「から本質的になる(consisting essentially of)」という移行句のみが、それぞれ閉鎖的又は半閉鎖的な移行句となる。

「およそ」、「実質的に」、及び「約」という用語は、一部の実施形態では目標値の±20%以内、一部の実施形態では目標値の±10%以内、一部の実施形態では、目標値の±5%以内、一部の実施形態では目標値の±2%以内を意味するために使用され得る。「およそ」、「実質的に」及び「約」という用語は、目標値を含み得る。

100 システム
102 生体試料
104 シーケンシングプラットフォーム
106 配列情報
108 コンピュータデバイス
110 細胞構成比率
122 細胞型A
124 配列情報
126 モデルA
128 細胞構成比率
132 細胞型B
134 配列情報
136 モデルB
138 細胞構成比率
140 t-SNEプロット
142 サブタイプA
144 配列情報
146 モデルC
148 細胞構成比率
150 t-SNEプロット
152 腫瘍細胞
156 モデルD
158 細胞構成比率
160 細胞型
162 サブタイプB
164 配列情報
170 遺伝子の発現
180 細胞集団
182 腫瘍細胞株
190 遺伝子
192 遺伝子
200 方法、プロセス
202 動作
204 動作
206 動作
212 動作
214 動作
216 動作
216a 動作
216b 動作
218 動作
220 動作、実装例、方法
232 動作
234 動作
236 動作
302 原発性腫瘍試料
304 非線形回帰モデル
306 RNA比率
308 細胞型A
310 細胞型B
312 細胞型C
314 発現データ
316 発現データ
318 発現データ
320 非線形回帰モデル
322 非線形回帰モデル
324 非線形回帰モデル
326 第1のサブモデル
328 第1のサブモデル
330 第1のサブモデル
332 第1の値
334 第1の値
336 第1の値
338 第2のサブモデル
340 第2のサブモデル
342 第2のサブモデル
344 第2の値
346 第2の値
348 第2の値
350 式
360 RNA比率
370 細胞構成比率
380 方法
382 第1の工程
384 第2の工程
386 第3の工程
400 方法
402 動作
404 動作
406 動作
408 動作
500 方法
502 動作
510 動作
520 動作
530 図式
540 図式
550 パラメーター
600 方法
602 動作
604 リバランシング
608 動作
610 分岐
612 動作
614 動作
620 分岐
630 分岐
640 分枝、サーバー
650 分岐
702 RNA発現データ
704 RNA発現データ
800 方法
802 動作
804 動作
806 動作
1000 コンピュータシステム
1010 プロセッサ
1020 メモリ
1030 不揮発性記憶媒体
1040 ネットワーク入出力(I/O)インターフェイス
1050 ユーザーI/Oインターフェイス
1100 環境
1110 ネットワーク
1120 データベース
1130 コンピュータデバイス
1140 サーバー
1150 医師
1160 データベース
1170 実験室
1180 対象

Claims

少なくとも1つのコンピュータハードウェアプロセッサを使用して、
生体試料について発現データを得る工程であって、前記生体試料は対象から事前に得られており、前記発現データは第1の細胞型に関連する第1の遺伝子のセットに関連する第1の発現データを含む、工程と、
前記発現データと第1の非線形回帰モデルを含む1つ又は複数の非線形回帰モデルとを使用して前記第1の細胞型について第1の細胞構成比率を決定する工程であって、前記第1の細胞構成比率は前記生体試料における前記第1の細胞型の細胞の推定比率を示し、前記第1の細胞型について前記第1の細胞構成比率を決定する工程は、
前記第1の発現データを前記第1の非線形回帰モデルによって処理して、前記第1の細胞型について前記第1の細胞構成比率を決定する工程、及び
前記第1の細胞構成比率を出力する工程
を含む、工程と
を実施する工程
を含む方法。
前記対象は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある、請求項1に記載の方法。
前記発現データは、RNA発現データである、請求項1又は2に記載の方法。
前記第1の発現データを前記第1の非線形回帰モデルによって処理する工程は、
前記第1の非線形回帰モデルへの入力として前記第1の発現データを提供して、前記第1の細胞型からのRNAの推定比率を表す対応する出力を得る工程と、
前記第1の細胞型からのRNAの前記推定比率に基づいて、前記第1の細胞型について前記第1の細胞構成比率を決定する工程と
を含む、請求項3又は請求項1若しくは2のいずれか一項に記載の方法。
前記発現データは、前記第1の細胞型に関連する前記第1の遺伝子のセットに関連する第2の発現データを含み、
前記第1の非線形回帰モデルは、
前記第1の発現データを入力として使用して、前記第1の細胞型からのRNAの前記推定比率についての第1の値を生成するように構成された第1のサブモデルと、
第2の発現データと前記第1の細胞型からのRNAの前記推定比率についての前記第1の値とを入力として使用して、前記第1の細胞型からのRNAの前記推定比率についての第2の値を生成するように構成された第2のサブモデルと
を含む、請求項4又は請求項1から3のいずれか一項に記載の方法。
前記発現データは、前記第1の細胞型とは異なる第2の細胞型に関連する第2の遺伝子のセットに関連する第2の発現データを含み、
前記1つ又は複数の非線形回帰モデルは第2の非線形回帰モデルを含み、
前記方法は、少なくとも一部には、前記第2の細胞型について第2の細胞構成比率を決定するために前記第2の発現データを前記第2の非線形回帰モデルによって処理することによって、前記第2の細胞型について前記第2の細胞構成比率を決定する工程を更に含む、
請求項1又は請求項2から5のいずれか一項に記載の方法。
前記第1の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される、請求項1又は請求項2から6のいずれか一項に記載の方法。
前記第1の発現データは、Table 2(表2)における前記第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含む、請求項1又は請求項2から7のいずれか一項に記載の方法。
前記発現データは、各々の複数の細胞型に関連する複数の遺伝子セットに関連する発現データを含み、前記複数の遺伝子セットは、前記第1の遺伝子セットと前記第1の細胞型を含む前記複数の細胞型とを含み、
前記1つ又は複数の非線形回帰モデルは複数の非線形回帰モデルを含み、
前記方法は、前記複数の遺伝子セットに関連する前記発現データを使用して前記複数の細胞型について複数の細胞構成比率を決定する工程を更に含み、前記複数の細胞構成比率は前記第1の細胞構成比率を含み、前記複数の細胞構成比率を決定する工程は、
前記複数の細胞型の各細胞型について、少なくとも一部には、前記細胞型について前記細胞構成比率を決定するために前記複数の非線形回帰モデルのうちの各々の非線形回帰モデルを使用して、前記細胞型に関連する遺伝子のセットに関連する発現データを処理することによって、前記細胞型について各々の細胞構成比率を決定する工程を含む、
請求項1又は請求項2から8のいずれか一項に記載の方法。
前記複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも25個の遺伝子を含み、前記複数の細胞構成比率を決定する工程は、前記少なくとも25個の遺伝子について発現データを処理する工程を含む、請求項9又は請求項1から8のいずれか一項に記載の方法。
前記複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも35個の遺伝子を含み、前記複数の細胞構成比率を決定する工程は、前記少なくとも35個の遺伝子について発現データを処理する工程を含む、請求項9又は請求項1から8又は請求項10のいずれか一項に記載の方法。
前記複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも50個の遺伝子を含み、前記複数の細胞構成比率を決定する工程は、前記少なくとも50個の遺伝子について発現データを処理する工程を含む、請求項9又は請求項1から8又は請求項10若しくは11のいずれか一項に記載の方法。
前記複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも75個の遺伝子を含み、前記複数の細胞構成比率を決定する工程は、前記少なくとも75個の遺伝子について発現データを処理する工程を含む、請求項9又は請求項1から8又は請求項10から12のいずれか一項に記載の方法。
前記複数の遺伝子セットにおける遺伝子は、Table 2(表2)における遺伝子の群から選択される少なくとも100個の遺伝子を含み、前記複数の細胞構成比率を決定する工程は、前記少なくとも100個の遺伝子について発現データを処理する工程を含む、請求項9又は請求項1から8又は請求項10から13のいずれか一項に記載の方法。
前記1つ又は複数の非線形回帰モデルは、1つ又は複数のランダムフォレスト回帰モデルを含む、請求項1又は請求項2から14のいずれか一項に記載の方法。
前記1つ又は複数の非線形回帰モデルは、1つ又は複数のニューラルネットワーク回帰モデルを含む、請求項1又は請求項2から15のいずれか一項に記載の方法。
前記1つ又は複数の非線形回帰モデルは、1つ又は複数のサポートベクターマシン回帰モデルを含む、請求項1又は請求項2から16のいずれか一項に記載の方法。
前記第1の非線形回帰モデルは、少なくとも一部には、
シミュレートされた発現データを得る工程と、
前記シミュレートされた発現データを使用して、前記第1の非線形回帰モデルを訓練する工程と
によって訓練されている、請求項1又は請求項2から17のいずれか一項に記載の方法。
前記シミュレートされた発現データを得る工程と、
前記シミュレートされた発現データを使用して、前記第1の非線形回帰モデルを訓練する工程と
を更に含む、請求項18又は請求項1から17のいずれか一項に記載の方法。
前記シミュレートされた発現データを得る工程は、前記シミュレートされた発現データを生成する工程を含み、前記シミュレートされた発現データを生成する工程は、
1つ又は複数の生体試料からRNA発現データのセットを得る工程であって、前記RNA発現データのセットは微小環境細胞発現データ及び悪性細胞発現データを含む、工程と、
前記微小環境細胞発現データを使用して、シミュレートされた微小環境細胞発現データを生成する工程と、
前記悪性細胞発現データを使用して、シミュレートされた悪性細胞発現データを生成する工程と、
前記シミュレートされた微小環境細胞発現データと前記シミュレートされた悪性細胞発現データとを組み合わせて、前記シミュレートされた発現データの少なくとも一部を作成する工程と
を含む、請求項18又は請求項1から17又は請求項19のいずれか一項に記載の方法。
前記第1の細胞型についての発現プロファイル及び前記第1の細胞型についての前記第1の細胞構成比率を使用して、悪性腫瘍発現プロファイルを決定する工程、
を更に含む、請求項1又は請求項2から20のいずれか一項に記載の方法。
前記第1の非線形回帰モデルは、
シミュレートされたRNA発現データを含む訓練データを得る工程であって、前記シミュレートされたRNA発現データは、前記第1の細胞型に関連する前記第1の遺伝子のセットについての第1のRNA発現データを含む、工程と、
前記第1の細胞型からのRNAの比率を推定するために前記第1の非線形回帰モデルを訓練する工程であって、前記訓練する工程は、
前記第1の非線形回帰モデル及び前記第1のRNA発現データを使用して、前記第1の細胞型からのRNAの推定比率を生成する工程、及び
前記第1の細胞型からのRNAの前記推定比率を使用して、前記第1の非線形回帰モデルのパラメーターをアップデートする工程
を含む、工程と
によって訓練されている、請求項1又は請求項2から21のいずれか一項に記載の方法。
少なくとも1つのハードウェアプロセッサと、
前記少なくとも1つのハードウェアプロセッサによって実行されると、前記少なくとも1つのハードウェアプロセッサに、
生体試料について発現データを得る工程であって、前記生体試料が対象から事前に得られており、前記発現データが第1の細胞型に関連する第1の遺伝子のセットに関連する第1の発現データを含む、工程と、
前記発現データと第1の非線形回帰モデルを含む1つ又は複数の非線形回帰モデルとを使用して、前記第1の細胞型について第1の細胞構成比率を決定する工程であって、前記第1の細胞構成比率は、前記生体試料における前記第1の細胞型の細胞の推定比率を示し、
前記第1の細胞型について前記第1の細胞構成比率を決定する工程は、
前記第1の発現データを前記第1の非線形回帰モデルによって処理して、前記第1の細胞型について前記第1の細胞構成比率を決定する工程、及び
前記第1の細胞構成比率を出力する工程
を含む、工程と
を実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体と
を含むシステム。
少なくとも1つのハードウェアプロセッサによって実行されると、前記少なくとも1つのハードウェアプロセッサに、
生体試料について発現データを得る工程であって、前記生体試料が対象から事前に得られており、前記発現データが第1の細胞型に関連する第1の遺伝子のセットに関連する第1の発現データを含む、工程と、
前記発現データと第1の非線形回帰モデルを含む1つ又は複数の非線形回帰モデルとを使用して、前記第1の細胞型について第1の細胞構成比率を決定する工程であって、前記第1の細胞構成比率は、前記生体試料における前記第1の細胞型の細胞の推定比率を示し、
前記第1の細胞型について前記第1の細胞構成比率を決定する工程は、
前記第1の発現データを前記第1の非線形回帰モデルによって処理して、前記第1の細胞型について前記第1の細胞構成比率を決定する工程、及び
前記第1の細胞構成比率を出力する工程
を含む、工程と
を実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体。
少なくとも1つのコンピュータハードウェアプロセッサを使用して、
生体試料についてRNA発現データを得る工程であって、前記生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から事前に得られており、
前記RNA発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第1のRNA発現データを含み、
前記第1のRNA発現データは、Table 2(表2)における前記第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含み、
前記第1の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される、工程と、
前記第1のRNA発現データを使用して、前記第1の細胞型について第1の細胞構成比率を決定する工程であって、前記第1の細胞構成比率は、前記生体試料における前記第1の細胞型の細胞の推定比率を示し、前記第1の細胞型について前記第1の細胞構成比率を決定する工程は、
第1の非線形回帰モデルへの入力として前記第1のRNA発現データを提供して、前記第1の細胞型からのRNAの推定比率を表す対応する出力を得る工程、及び
前記第1の細胞型からのRNAの前記推定比率に基づいて、前記第1の細胞型について前記第1の細胞構成比率を決定する工程
を含む、工程と
を実行する工程を含む方法。
前記RNA発現データは、前記第1の細胞型に関連する前記第1の遺伝子のセットに関連する第2のRNA発現データを含み、
前記第1の非線形回帰モデルは、
前記第1のRNA発現データを入力として使用して、前記第1の細胞型からのRNAの前記推定比率についての第1の値を生成するように構成された第1のサブモデルと、
前記第2の発現データと前記第1の細胞型からのRNAの前記推定比率についての前記第1の値とを入力として使用して、前記第1の細胞型からのRNAの前記推定比率についての第2の値を生成するように構成された第2のサブモデルと
を含む、請求項25に記載の方法。
前記RNA発現データは、第2の細胞型に関連する第2の遺伝子のセットに関連する第2のRNA発現データを含み、
前記第2のRNA発現データは、Table 2(表2)における前記第2の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含み、
前記第2の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択され、並びに
前記第2の細胞型について第2の細胞構成比率を決定する工程は、
前記第2のRNA発現データを第2の非線形回帰モデルによって処理して、前記第2の細胞型について前記第2の細胞構成比率を決定する工程
を含む、請求項25又は請求項1から22又は請求項26のいずれか一項に記載の方法。
前記RNA発現データは、各々の複数の細胞型に関連する複数の遺伝子セットに関連するRNA発現データを含み、前記複数の遺伝子セットは、第1の遺伝子セットと前記第1の細胞型を含む前記複数の細胞型とを含み、
前記方法は、前記複数の遺伝子セットに関連する前記RNA発現データを使用して、前記複数の細胞型について複数の細胞構成比率を決定する工程を更に含み、前記複数の細胞構成比率は前記第1の細胞構成比率を含み、前記複数の細胞構成比率を決定する工程は、
前記複数の細胞型の各細胞型について、少なくとも一部には、前記細胞型について前記細胞構成比率を決定するために各々の非線形回帰モデルを使用して、前記細胞型に関連する遺伝子のセットに関連するRNA発現データを処理することによって、前記細胞型について各々の細胞構成比率を決定する工程
を含む、請求項25又は請求項1から22又は請求項26若しくは27のいずれか一項に記載の方法。
前記第1の非線形回帰モデルは、ランダムフォレスト回帰モデルを含む、請求項25又は請求項1から22又は請求項26から28のいずれか一項に記載の方法。
前記第1の非線形回帰モデルは、ニューラルネットワーク回帰モデルを含む、請求項25又は請求項1から22又は請求項26から29のいずれか一項に記載の方法。
前記第1の非線形回帰モデルは、サポートベクターマシン回帰モデルを含む、請求項25又は請求項1から22又は請求項26から30のいずれか一項に記載の方法。
前記第1の非線形回帰モデルは、少なくとも一部には、シミュレートされたRNA発現データを含む訓練データを生成する工程によって訓練されており、前記訓練データを生成する工程は、
1つ又は複数の生体試料からRNA発現データのセットを得る工程であって、前記RNA発現データのセットは、微小環境細胞RNA発現データ及び悪性細胞RNA発現データを含む、工程と、
前記微小環境細胞RNA発現データを使用して、シミュレートされた微小環境細胞RNA発現データを生成する工程と、
前記悪性細胞RNA発現データを使用して、シミュレートされた悪性細胞RNA発現データを生成する工程と、
前記シミュレートされた微小環境細胞RNA発現データと前記シミュレートされた悪性細胞RNA発現データとを組み合わせて、前記シミュレートされたRNA発現データの少なくとも一部を作成する工程と
を含む、請求項25又は請求項1から22又は請求項26から31のいずれか一項に記載の方法。
前記第1の細胞型についてのRNA発現プロファイル及び前記第1の細胞型についての前記第1の細胞構成比率を使用して、悪性腫瘍発現プロファイルを決定する工程、
を更に含む、請求項25又は請求項1から22又は請求項26から32のいずれか一項に記載の方法。
前記第1のRNA発現データは、Table 2(表2)における遺伝子の群から選択される少なくとも25個の遺伝子についての発現データを含む、請求項25又は請求項1から22又は請求項26から33のいずれか一項に記載の方法。
前記第1のRNA発現データは、Table 2(表2)における遺伝子の群から選択される少なくとも50個の遺伝子についての発現データを含む、請求項25又は請求項1から22又は請求項26から34のいずれか一項に記載の方法。
前記第1のRNA発現データは、Table 2(表2)における遺伝子の群から選択される少なくとも100個の遺伝子についての発現データを含む、請求項25又は請求項1から22又は請求項26から35のいずれか一項に記載の方法。
前記第1の非線形回帰モデルは、
シミュレートされたRNA発現データを含む訓練データを得る工程であって、前記シミュレートされたRNA発現データは、前記第1の細胞型に関連する前記第1の遺伝子のセットについての第2のRNA発現データを含む、工程と
前記第1の細胞型からのRNAの比率を推定するために前記第1の非線形回帰モデルを訓練する工程であって、前記訓練する工程は、
前記第1の非線形回帰モデル及び前記第2のRNA発現データを使用して、前記第1の細胞型からのRNAの推定比率を生成する工程、並びに
前記第1の細胞型からのRNAの前記推定比率を使用して、前記第1の非線形回帰モデルのパラメーターをアップデートする工程
を含む工程と
によって訓練されている、請求項25又は請求項1から22又は請求項26から36のいずれか一項に記載の方法。
少なくとも1つのハードウェアプロセッサと、
前記少なくとも1つのハードウェアプロセッサによって実行されると、前記少なくとも1つのハードウェアプロセッサに、
生体試料についてRNA発現データを得る工程であって、前記生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から事前に得られており、
前記RNA発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第1のRNA発現データを含み、
前記第1のRNA発現データは、Table 2(表2)における前記第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含み、
前記第1の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される、工程と、
前記第1のRNA発現データを使用して、前記第1の細胞型について第1の細胞構成比率を決定する工程であって、前記第1の細胞構成比率は、前記生体試料における前記第1の細胞型の細胞の推定比率を示し、前記第1の細胞型について前記第1の細胞構成比率を決定する工程は、
第1の非線形回帰モデルへの入力として前記第1のRNA発現データを提供して、前記第1の細胞型からのRNAの推定比率を表す対応する出力を得る工程、及び
前記第1の細胞型からのRNAの前記推定比率に基づいて、前記第1の細胞型について前記第1の細胞構成比率を決定する工程
を含む、工程と
を実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体と
を含むシステム。
少なくとも1つのハードウェアプロセッサによって実行されると、前記少なくとも1つのハードウェアプロセッサに、
生体試料についてRNA発現データを得る工程であって、前記生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から事前に得られており、
前記RNA発現データは、第1の細胞型に関連する第1の遺伝子のセットに関連する第1のRNA発現データを含み、
前記第1のRNA発現データは、Table 2(表2)における前記第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含み、
前記第1の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される、工程と、
前記第1のRNA発現データを使用して、前記第1の細胞型について第1の細胞構成比率を決定する工程であって、前記第1の細胞構成比率は、前記生体試料における前記第1の細胞型の細胞の推定比率を示し、前記第1の細胞型について前記第1の細胞構成比率を決定する工程は、
第1の非線形回帰モデルへの入力として前記第1のRNA発現データを提供して、前記第1の細胞型からのRNAの推定比率を表す対応する出力を得る工程、及び
前記第1の細胞型からのRNAの前記推定比率に基づいて、前記第1の細胞型について前記第1の細胞構成比率を決定する工程
を含む、工程と
を実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体。
少なくとも1つのコンピュータハードウェアプロセッサを使用して、
シミュレートされたRNA発現データを含む訓練データを得る工程であって、前記シミュレートされたRNA発現データは、第1の細胞型に関連する第1の遺伝子についての第1のRNA発現データ及び前記第1の細胞型とは異なる第2の細胞型に関連する第2の遺伝子についての第2のRNA発現データを含む、工程と、
1つ又は複数の各々の細胞型からのRNAの比率を推定するために複数の非線形回帰モデルを訓練する工程であって、前記複数の非線形回帰モデルは、前記第1の細胞型からのRNAの比率を推定するための第1の非線形回帰モデル及び前記第2の細胞型からのRNAの比率を推定するための第2の非線形回帰モデルを含み、前記複数の非線形回帰モデルを訓練する工程は、前記第1の非線形回帰モデルを、少なくとも一部には、
前記第1の非線形回帰モデル及び前記第1のRNA発現データを使用して、前記第1の細胞型からのRNAの推定比率を生成する工程、及び
前記第1の細胞型からのRNAの前記推定比率を使用して、前記第1の非線形回帰モデルのパラメーターをアップデートする工程
によって訓練する工程を含む、工程と、
前記第1の非線形回帰モデル及び前記第2の非線形回帰モデルを含む前記訓練された複数の非線形回帰モデルを出力する工程と
を実行する工程を含む方法。
前記訓練データを得る工程は、
1つ又は複数の生体試料からRNA発現データのセットを得る工程であって、前記RNA発現データのセットは、微小環境細胞RNA発現データ及び悪性細胞RNA発現データを含む、工程と
前記微小環境細胞RNA発現データに基づいて、シミュレートされた微小環境細胞RNA発現データを得る工程と、
前記悪性細胞RNA発現データに基づいて、シミュレートされた悪性細胞RNA発現データを得る工程と、
前記シミュレートされた微小環境細胞RNA発現データと前記シミュレートされた悪性細胞RNA発現データとを組み合わせて、前記シミュレートされたRNA発現データの少なくとも一部を作成する工程と
によって、前記シミュレートされたRNA発現データの前記少なくとも一部を生成する工程を含む、請求項40又は請求項1から22又は請求項25から37のいずれか一項に記載の方法。
前記複数の非線形回帰モデルを訓練する前に、前記シミュレートされたRNA発現データにノイズを加える工程
を更に含む、請求項41又は請求項1から22又は請求項25から37又は請求項40のいずれか一項に記載の方法。
ノイズは、ポワソンノイズ又はガウスノイズのうちの少なくとも1つを含む、請求項42又は請求項1から22又は請求項25から37又は請求項40若しくは41のいずれか一項に記載の方法。
前記シミュレートされた微小環境細胞RNA発現データを生成する工程は、
第1の微小環境細胞型について、前記微小環境細胞RNA発現データの第1の部分を使用して、第1のRNA発現プロファイルを生成する工程
を含む、請求項41又は請求項1から22又は請求項25から37又は請求項40又は請求項42若しくは43のいずれか一項に記載の方法。
前記微小環境細胞RNA発現データの前記第1の部分は、前記第1の微小環境細胞型の複数のサブタイプからのRNA発現データを含む、請求項44又は請求項1から22又は請求項25から37又は請求項40から43のいずれか一項に記載の方法。
前記第1のRNA発現プロファイルを生成する工程は、前記第1の微小環境細胞型の前記複数のサブタイプを使用して、前記微小環境細胞RNA発現データの前記第1の部分をリサンプリングする工程を含む、請求項45又は請求項1から22又は請求項25から37又は請求項40から44のいずれか一項に記載の方法。
前記微小環境細胞RNA発現データの前記第1の部分は、複数の試料からのRNA発現データを含む、請求項44又は請求項1から22又は請求項25から37又は請求項40から43又は請求項45若しくは46のいずれか一項に記載の方法。
前記第1のRNA発現プロファイルを生成する工程は、前記複数の試料に含まれるいくつかの試料を入力として取り入れて、前記微小環境細胞RNA発現データの第1の部分をリサンプリングする工程を含む、請求項47又は請求項1から22又は請求項25から37又は請求項40から46のいずれか一項に記載の方法。
前記シミュレートされた微小環境細胞RNA発現データを生成する工程は、
第2の微小環境細胞型について、前記微小環境細胞RNA発現データの第2の部分を使用して、第2のRNA発現プロファイルを生成する工程と、
前記第1のRNA発現プロファイルと前記第2のRNA発現プロファイルとを組み合わせて、前記シミュレートされた微小環境細胞RNA発現データの少なくともいくつかを生成する工程と
を更に含む、請求項44又は請求項1から22又は請求項25から37又は請求項40から43又は請求項45から48のいずれか一項に記載の方法。
前記第1のRNA発現プロファイルと前記第2のRNA発現プロファイルとを組み合わせて、前記シミュレートされた微小環境細胞RNA発現データの前記少なくともいくつかを生成する工程は、
前記第1のRNA発現プロファイルと前記第2のRNA発現プロファイルの加重和を決定する工程
を含む、請求項49又は請求項1から22又は請求項25から37又は請求項40から48のいずれか一項に記載の方法。
前記悪性細胞RNA発現データは、複数の悪性細胞試料からのRNA発現データを含む、請求項41又は請求項1から22又は請求項25から37又は請求項40又は請求項42から50のいずれか一項に記載の方法。
前記シミュレートされた悪性細胞RNA発現データを生成する工程は、前記複数の悪性細胞試料からの前記RNA発現データを組み合わせる工程を含む、請求項51又は請求項1から22又は請求項25から37又は請求項40から50のいずれか一項に記載の方法。
前記シミュレートされた悪性細胞RNA発現データを生成する工程は、前記シミュレートされた悪性細胞RNA発現データにノイズを加える工程を含む、請求項41又は請求項1から22又は請求項25から37又は請求項40又は請求項42から52のいずれか一項に記載の方法。
前記加重和の係数は、事前に訓練された非線形回帰モデルの出力を使用して決定される、請求項50又は請求項1から22又は請求項25から37又は請求項40から49又は請求項51から53のいずれか一項に記載の方法。
前記第1のRNA発現データは、Table 2(表2)における前記第1の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含む、請求項40又は請求項1から22又は請求項25から37又は請求項41から54のいずれか一項に記載の方法。
前記第2のRNA発現データは、Table 2(表2)における前記第2の細胞型についての遺伝子の群から選択される少なくとも10個の遺伝子についての発現データを含む、請求項40又は請求項1から22又は請求項25から37又は請求項41から55のいずれか一項に記載の方法。
前記第1の細胞型及び前記第2の細胞型は、B細胞、CD4+ T細胞、CD8+ T細胞、内皮細胞、線維芽細胞、リンパ球、マクロファージ、単球、NK細胞、好中球、及びT細胞からなる群から選択される、請求項40又は請求項1から22又は請求項25から37又は請求項41から56のいずれか一項に記載の方法。
前記シミュレートされたRNA発現データは、前記第1の細胞型に関連する前記第1の遺伝子についての第2のRNA発現データを含む、請求項40又は請求項1から22又は請求項25から37又は請求項41から57のいずれか一項に記載の方法。
前記1つ又は複数の非線形回帰モデルの前記第1の非線形回帰モデルは、
前記第1のRNA発現データを入力として使用して、前記第1の細胞型からのRNAの前記推定比率についての第1の値を生成するように構成された第1のサブモデル、及び
前記第2のRNA発現データと前記第1の細胞型からのRNAの前記推定比率についての前記第1の値とを入力として使用して、前記第1の細胞型からのRNAの前記推定比率についての第2の値を生成するように構成された第2のサブモデル
を含む、請求項58又は請求項1から22又は請求項25から37又は請求項40から57のいずれか一項に記載の方法。
前記第2のサブモデルは、前記第1の細胞型以外の複数の細胞型のそれぞれからのRNAの推定比率を入力として使用して、前記第1の細胞型からのRNAの前記推定比率についての前記第2の値を生成するように更に構成されている、請求項59又は請求項1から22又は請求項25から37又は請求項40から58のいずれか一項に記載の方法。
少なくとも1つのコンピュータハードウェアプロセッサと、
前記少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、
シミュレートされたRNA発現データを含む訓練データを得る工程であって、前記シミュレートされたRNA発現データは、第1の細胞型に関連する第1の遺伝子についての第1のRNA発現データ及び前記第1の細胞型とは異なる第2の細胞型に関連する第2の遺伝子についての第2のRNA発現データを含む、工程と、
1つ又は複数の各々の細胞型からのRNAの比率を推定するために複数の非線形回帰モデルを訓練する工程であって、前記複数の非線形回帰モデルは、前記第1の細胞型からのRNAの比率を推定するための第1の非線形回帰モデル及び前記第2の細胞型からのRNAの比率を推定するための第2の非線形回帰モデルを含み、前記複数の非線形回帰モデルを訓練する工程は、少なくとも一部には、
前記第1の非線形回帰モデル及び前記第1のRNA発現データを使用して、前記第1の細胞型からのRNAの推定比率を生成する工程、並びに
前記第1の細胞型からのRNAの前記推定比率を使用して、前記第1の非線形回帰モデルのパラメーターをアップデートする工程
によって、前記第1の非線形回帰モデルを訓練する工程を含む、工程と、
前記第1の非線形回帰モデル及び前記第2の非線形回帰モデルを含む前記訓練された複数の非線形回帰モデルを出力する工程と
を実施させるプロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体と
を含むシステム。
少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに
シミュレートされたRNA発現データを含む訓練データを得る工程であって、前記シミュレートされたRNA発現データは、第1の細胞型に関連する第1の遺伝子についての第1のRNA発現データ及び前記第1の細胞型とは異なる第2の細胞型に関連する第2の遺伝子についての第2のRNA発現データを含む、工程と
1つ又は複数の各々の細胞型からのRNAの比率を推定するために複数の非線形回帰モデルを訓練する工程であって、前記複数の非線形回帰モデルは、前記第1の細胞型からのRNAの比率を推定するための第1の非線形回帰モデル及び前記第2の細胞型からのRNAの比率を推定するための第2の非線形回帰モデルを含み、前記複数の非線形回帰モデルを訓練する工程は、少なくとも一部には、
前記第1の非線形回帰モデル及び前記第1のRNA発現データを使用して、前記第1の細胞型からのRNAの推定比率を生成する工程、並びに
前記第1の細胞型からのRNAの前記推定比率を使用して、前記第1の非線形回帰モデルのパラメーターをアップデートする工程
によって、前記第1の非線形回帰モデルを訓練する工程を含む、工程と、
前記第1の非線形回帰モデル及び前記第2の非線形回帰モデルを含む前記訓練された複数の非線形回帰モデルを出力する工程と
を実行させる、プロセッサ実行可能命令を格納する少なくとも1つの非一時的なコンピュータ読取り可能な記憶媒体。
少なくとも1つのコンピュータハードウェアプロセッサを使用して、
生体試料について発現データを得る工程であって、前記生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から事前に得られている、工程と、
対応する複数の細胞型について複数の発現プロファイルを得る工程であって、前記発現プロファイルのそれぞれは、前記複数の細胞型からの各々の細胞型に関連する1つ又は複数の遺伝子からの各々の発現データを含む、工程と、
少なくとも一部には、前記発現データと前記複数の発現プロファイルとの間の区分的に連続な誤差関数を最適化することによって、前記複数の細胞型についての複数の細胞構成比率を決定する工程と
を実施する工程を含む方法。
前記発現データはRNA発現データであり、前記複数の発現プロファイルはRNA発現プロファイルである、請求項63に記載の方法。
前記複数の細胞型について前記複数の細胞構成比率を決定する工程は、誤差値の加重和を決定する工程を含み、前記誤差値は区分的に連続な誤差関数を使用して決定される、請求項63に記載の方法。
前記複数の細胞型について前記複数の細胞構成比率を決定する工程は、誤差値の前記加重和を最小化する工程を含む、請求項65に記載の方法。
前記1つ又は複数の遺伝子は、Table 2(表2)における5000個未満の遺伝子であって少なくとも2個の遺伝子で構成される、請求項63に記載の方法。
前記対応する複数の細胞型についての前記複数の発現プロファイル及び前記複数の細胞構成比率を使用して、悪性腫瘍発現プロファイルを決定する工程、
を更に含む、請求項63又は請求項1から22又は請求項25から37又は請求項40から60又は請求項64から67のいずれか一項に記載の方法。
少なくとも1つのコンピュータハードウェアプロセッサと、
前記少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、
生体試料について発現データを得る工程であって、前記生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から事前に得られている、工程と、
対応する複数の細胞型について複数の発現プロファイルを得る工程であって、前記発現プロファイルのそれぞれは、前記複数の細胞型からの各々の細胞型に関連する1つ又は複数の遺伝子からの各々の発現データを含む、工程と、
少なくとも一部には、前記発現データと前記複数の発現プロファイルとの間の区分的に連続な誤差関数を最適化することによって、前記複数の細胞型について複数の細胞構成比率を決定する工程と
を実施させるプロセッサ実行可能命令を格納する少なくとも1つのコンピュータ読取り可能な記憶媒体と
を含むシステム。
少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、
生体試料について発現データを得る工程であって、前記生体試料は、がんを有する、がんを有する疑いがある、又はがんを有するリスクがある対象から事前に得られている、工程と、
対応する複数の細胞型について複数の発現プロファイルを得る工程であって、前記発現プロファイルのそれぞれは、前記複数の細胞型からの各々の細胞型に関連する1つ又は複数の遺伝子からの各々の発現データを含む、工程と、
少なくとも一部には、前記発現データと前記複数の発現プロファイルとの間の区分的に連続な誤差関数を最適化することによって、前記複数の細胞型について複数の細胞構成比率を決定する工程と
を実施させるプロセッサ実行可能命令を格納する少なくとも1つのコンピュータ読取り可能な記憶媒体。