JP6791598B2

JP6791598B2 - 異なる細胞サブセットの比率の決定方法およびシステム

Info

Publication number: JP6791598B2
Application number: JP2017534299A
Authority: JP
Inventors: エム．ニューマン，アーロン; アッシュアリザデ，アーラシュ
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2015-01-22
Filing date: 2016-01-22
Publication date: 2020-11-25
Anticipated expiration: 2036-01-22
Also published as: CA2971129A1; AU2016209128A1; EP3248110A1; EP3248110A4; JP2018512071A; AU2016209128B2; CN107430588A; US20160217253A1; US20190338364A1; US10167514B2; WO2016118860A1; US20190233898A1; CN107430588B; JP2021019641A; JP2023153771A; US11802314B2

Description

関連出願の相互参照
米国特許法１１９条（ｅ）項に従って、本出願は、２０１５年１月２２日に出願の米国特許仮出願第６２／１０６，６０１号の利益を主張するものであり、この出願は、その全体が参照により本明細書に組み込まれる。

政府の権利
本発明は、ＮＩＨにより授与された許可番号５Ｔ３２ＣＡ０９３０２−３５（Ａ．Ｍ．Ｎ．）および国防総省により授与された許可番号Ｗ８１ＸＷＨ−１２−１−０４９８（Ａ．Ｍ．Ｎ．）の下で政府の支援によりなされたものである。政府は本発明に対し一定の権利を有する。

後生動物およびそれらの複合組織の多様な生理学的状態の根底には、細胞組成の変化が存在する。例えば、悪性腫瘍では、免疫細胞の浸潤レベルは、腫瘍増殖、癌進行および患者転帰に関連している。免疫組織化学およびフローサイトメトリーなどの細胞の不均一性を調べる一般的な方法は、限られたレパートリーの表現型マーカーに依存し、また、フローサイトメトリーに先立つ組織の脱凝集は、細胞の損失または損傷に繋がり、結果が変わることがある。

最近、遺伝子発現プロファイル（ＧＥＰ）における複数の細胞型の比率を予測する計算法が報告された。このような方法は、明確な組成を有する混合物（例えば、血液）に対しては、正確に機能するが、未知の含量およびノイズを有する混合物（例えば、固形腫瘍）に対して、および密接に関係した細胞型（例えば、ナイーブ対記憶Ｂ細胞）の識別に対しては、かなり効果が低い。さらに、以前の手法では統計的有意性検定がないために、それらの結果の解釈が困難になっている。

物理系の特徴プロファイルのデコンボリューション（解析）方法（method of convolving）が本明細書で提供される。本方法は、ａ）第１の複数の異なる成分の特徴プロファイルと、ｂ）第２の複数の異なる成分に対する特徴シグネチャーの基準マトリックスとの間の回帰を最適化し、特徴プロファイルが基準マトリックスの一次結合としてモデル化され、最適化することが回帰の一連の回帰係数を解くことを含み、解が、１）線形損失関数、および２）Ｌ_２ノルムペナルティ関数を最小化すること；および一連の回帰係数に基づいて、試料中に存在する第２の複数の異なる成分の内の１つまたは複数の成分の分数表現を推定すること、を含み得る。

本開示の方法は、ｉ）第１の複数の異なる成分を含む物理的試料を得ること、ｉｉ）試料から特徴プロファイルを生成し、該特徴プロファイルが第１の複数の異なる成分に関連する特徴の組合せを含むこと、ｉｉｉ）ｍと、特徴シグネチャーの基準マトリックスＢとの間の回帰を最適化し、第２の複数の異なる成分内でそれぞれの特徴シグネチャーが異なる成分特有であり、ｍがＢの一次結合としてモデル化され、最適化することが一連の回帰の回帰係数を含むｆを解くことを含み、解が、線形損失関数、およびＬ_２ノルムペナルティ関数を最小化すること、およびｉｖ）一連の回帰係数に基づいて、試料中の第２の複数の異なる成分の内の１つまたは複数の異なる成分の分数表現を推定すること、を含み得る。

任意の実施形態では、ｆを解くことが、Ｂの複数の異なるサブセットの特徴シグネチャーの内のＢのサブセットの特徴を選択し、線形損失関数を最小化することを含んでよい。

任意の実施形態では、線形損失関数は、線形ε−非感受性損失関数であってよい。

任意の実施形態では、最適化することは、サポートベクター回帰（ＳＶＲ）の使用を含んでよい。いくつかの実施形態では、サポートベクター回帰は、ε−ＳＶＲである。いくつかの実施形態では、サポートベクター回帰は、ν（ニュー）−ＳＶＲである。いくつかの実施形態では、方法は、異なる値のνを使って、それぞれの異なる値のνに対するｆの異なる解を生成するように方法を反復することをさらに含む。いくつかの実施形態では、方法は、ｆの異なる解の内で、ａ）特徴プロファイルｍと、ｂ）ｆと基準マトリックスＢの積との間の最小の誤差を有する解を特定することをさらに含む。いくつかの実施形態では、最小の誤差は、ピアソンの積率相関係数、スピアマンの順位相関係数、二乗平均平方根誤差（ＲＭＳＥ）、ユークリッド距離、または平均絶対偏差（ＭＡＤ）を使って得られる。

任意の実施形態では、方法は、ａ）親特徴プロファイルからランダムにから選択された特徴を含むランダム特徴プロファイルｍ^＊を生成し、親特徴プロファイルが特徴プロファイルを含み、ｍおよびｍ^＊が同じユークリッドノルムを有すること、ｂ）ｍ^＊と基準マトリックスＢとの間の回帰を最適化し、ｍ^＊がＢの一次結合としてモデル化され、最適化することが、回帰の一連の回帰係数を含むｆ^＊を解くことを含み、解が線形損失関数、およびＬ_２ノルムペナルティ関数を最小化すること、ｃ）ｆ^＊と基準マトリックスＢの積を計算し、再構成特徴プロファイルを生成すること、ｄ）ランダム特徴プロファイルと再構成特徴プロファイルとの間の差異測定値を決定すること、およびｅ）ステップａ）〜ｄ）のｉ回（ｉは２以上の数）の反復から決定される差異測定値の分布に基づいて、有意値を決定すること、による細胞サブセットの相対的比率の推定に対する有意値を決定することをさらに含んでよい。いくつかの実施形態では、差異測定値は、ピアソンの積率相関係数、スピアマンの順位相関係数、二乗平均平方根誤差（ＲＭＳＥ）、ユークリッド距離、または平均絶対偏差（ＭＡＤ）である。いくつかの実施形態では、有意値は、ｐ値である。いくつかの実施形態では、ｉは、１０〜１０００である。

任意の実施形態では、試料は、試料中に存在する第２の複数の異なる成分の合計量の１０％以下で特徴シグネチャー中に現れる少なくとも１つの異なる成分を含んでよい。

任意の実施形態では、特徴シグネチャー中に現れる異なる成分は、試料中の異なる成分の合計量の５０％以下で試料中に存在してよい。

任意の実施形態では、基準マトリックスＢは、第２の複数の異なる成分の内の２つ以上の異なる成分の特徴プロファイル中に存在する少なくとも１つの異なる特徴を含んでよい。

任意の実施形態では、基準マトリックスＢは、Ｂの特徴の数とは異なる多くの特徴を含む特徴シグネチャーの初期基準マトリックスのサブセットまたはスーパーセットであってよく、Ｂの特徴の数が、初期基準マトリックスより少ない条件数を与える。

任意の実施形態では、方法は、第２の複数の異なる成分の異なる成分に関連する全ての特徴の中央値を、試料中の全ての特徴の中央値で除算することにより、第１の複数の異なる成分の全ての異なる成分に対する、物理的試料中に存在する第２の複数の異なる成分中の全ての異なる成分の量を計算することをさらに含んでよい。

任意の実施形態では、試料は生物試料であってよい。いくつかの実施形態では、第１の複数の異なる成分は、異なる細胞サブセットである。いくつかの実施形態では、細胞サブセットは脳細胞サブセットを含む。いくつかの実施形態では、脳細胞サブセットは、神経細胞、星状膠細胞、乏突起膠細胞、およびミクログリアの内の少なくとも１つのサブセットを含む。いくつかの実施形態では、細胞サブセットは、間質細胞、幹細胞、神経細胞、および前駆細胞の内の少なくとも１つのサブセットを含む。いくつかの実施形態では、細胞サブセットは腫瘍細胞サブセットを含む。いくつかの実施形態では、細胞サブセットは白血球サブセットを含む。いくつかの実施形態では、細胞サブセットは腫瘍浸潤白血球のサブセットを含む。いくつかの実施形態では、細胞サブセットはリンパ球のサブセットを含む。いくつかの実施形態では、白血球サブセットは、ナイーブＢ細胞、記憶Ｂ細胞、プラズマ細胞、ＣＤ８Ｔ細胞、ナイーブＣＤ４Ｔ細胞、ＣＤ４記憶ＲＯ不活性Ｔ細胞、ＣＤ４記憶ＲＯ活性化Ｔ細胞、濾胞性ヘルパーＴ細胞、制御性Ｔ細胞、ガンマデルタＴ細胞、非刺激ＮＫ細胞、刺激ＮＫ細胞、単球、マクロファージＭ０、マクロファージＭ１、マクロファージＭ２、非刺激樹状細胞、刺激樹状細胞、非刺激マスト細胞、刺激マスト細胞、好酸球、および好中球からなる群より選択される２つ以上の細胞型を含む。いくつかの実施形態では、細胞サブセットは、異なる細胞周期段階の細胞サブセットを含む。いくつかの実施形態では、異なる細胞周期段階の細胞サブセットは、間期、分裂期または細胞質分裂の内の１つまたは複数の細胞サブセットを含む。いくつかの実施形態では、異なる細胞周期段階の細胞サブセットは、分裂前期、中期、分裂後期、または分裂終期の内の１つまたは複数の細胞サブセットを含む。いくつかの実施形態では、異なる細胞周期段階の細胞サブセットは、Ｇ_０、Ｇ_１、Ｇ_２、またはＳ期の内の１つまたは複数の細胞サブセットを含む。いくつかの実施形態では、第１の複数の異なる成分は、異なる細胞内シグナル伝達経路、遺伝子調節経路、または代謝経路である。いくつかの実施形態では、異なる細胞内シグナル伝達経路には、サイトカインシグナル伝達、死因子シグナル伝達、増殖因子シグナル伝達、生存因子シグナル伝達、ホルモンシグナル伝達、Ｗｎｔシグナル伝達、ヘッジホッグシグナル伝達、Ｎｏｔｃｈシグナル伝達、細胞外マトリックスシグナル伝達、インスリンシグナル伝達、カルシウムシグナル伝達、Ｇタンパク質共役型受容体シグナル伝達、神経伝達物質シグナル伝達、およびこれらの組み合わせが含まれる。いくつかの実施形態では、異なる代謝経路には、解糖、糖新生、クエン酸回路、発酵、尿素回路、脂肪酸代謝、ピリミジン生合成、グルタメートアミノ酸基合成、ポルフィリン代謝、アスパルテートアミノ酸基合成、芳香族アミノ酸合成、ヒスチジン代謝、分岐アミノ酸合成、ペントースホスフェート経路、プリン生合成、グルクロネート代謝、イノシトール代謝、セルロース代謝、スクロース代謝、デンプンおよびグリコーゲン代謝、およびこれらの組み合わせが含まれる。いくつかの実施形態では、特徴プロファイルには、遺伝子発現プロファイル、タンパク質−タンパク質相互作用プロファイル、タンパク質リン酸化プロファイル、細胞電気活性プロファイル、クロマチン修飾プロファイル、染色体結合プロファイル、酵素活性プロファイル、代謝物プロファイルまたはこれらの組み合わせが含まれる。いくつかの実施形態では、特徴プロファイルには、生物試料中の細胞のＲＮＡトランスクリプトームを表す遺伝子発現プロファイルが含まれる。いくつかの実施形態では、生物試料は、保管された組織試料である。いくつかの実施形態では、生物試料は、血液試料である。いくつかの実施形態では、生物試料は、固体組織試料由来である。いくつかの実施形態では、固体組織試料は腫瘍試料である。いくつかの実施形態では、固体組織試料はホルマリン固定、パラフィン包埋（ＦＦＰＥ）試料である。いくつかの実施形態では、生物試料は、精製試料である。いくつかの実施形態では、生物試料は、白血球濃縮試料である。いくつかの実施形態では、方法は、個体から試料を得ることをさらに含む。

任意の実施形態では、第１の複数の異なる成分は、異なる化学化合物である。いくつかの実施形態では、異なる化学化合物には、有機化合物、無機化合物、毒素、微生物、代謝物、アレルゲン、およびこれらの組み合わせが含まれる。いくつかの実施形態では、特徴プロファイルには、核磁気共鳴（ＮＭＲ）スペクトル、電磁放射線吸光および／または発光スペクトル、円偏光二色性スペクトル、ラマンスペクトル、質量スペクトル、クロマトグラム、およびこれらの組み合わせが含まれる。いくつかの実施形態では、試料は、生物試料、環境試料または食糧品試料である。いくつかの実施形態では、試料は、環境試料であり、環境試料は空気試料、水試料または土壌試料である。いくつかの実施形態では、試料は環境試料であり、環境試料は、川、海洋、湖、雨、雪、下水、下水処理排水、農業排水、工業排水、水道水、飲料水、排気システム、埋立地、都市開発現場または農地から得られる。

また、本明細書で提供されるのは、物理系の第１の複数の異なる成分の組合せの第１の特徴プロファイルｍを得ること、および第１の特徴プロファイルｍを計算により処理すること、を含む物理系の特徴プロファイルのデコンボリューションのためのコンピューター実装方法であり、計算処理は、ｉ）ｍと、物理系の第２の複数の異なる成分に対する特徴シグネチャーの基準マトリックスＢとの間の回帰を最適化し、ｍがＢの一次結合としてモデル化され、最適化することが一連の回帰の回帰係数を含むｆを解くことを含み、解が、線形損失関数、およびＬ_２ノルムペナルティ関数を最小化すること、およびｉｉｉ）一連の回帰係数に基づいて、物理系中に存在する第２の複数の異なる成分の内の１つまたは複数の異なる成分の分数表現を推定すること、を含む。いくつかの実施形態では、第１の特徴プロファイルｍは、電気使用量、電気通信使用量、またはトラフィックパターンを表すデータを含む。いくつかの実施形態では、方法は、第１の特徴プロファイルｍを生成するためにデータを収集することをさらに含む。

任意の実施形態では、第１の特徴プロファイルｍは、第１の複数の異なる成分を含む物理的試料から生成されてよい。

任意の実施形態では、物理的試料は、生物試料、環境試料または食糧品試料であってよい。

また、本明細書で提供されるのは、１つまたは複数のプログラムを保存する非一時的コンピューター可読記憶媒体であり、該１つまたは複数のプログラムは、コンピューターシステムの１つまたは複数のプロセッサーにより実行されると、本明細書に記載のように、１つまたは複数のプロセッサーに試料の特徴プロファイルのデコンボリューション方法の少なくとも一部の実施形態を実行させる命令を含む。

また、本明細書で提供されるのは、１つまたは複数のプログラムを保存する非一時的コンピューター可読記憶媒体であり、該１つまたは複数のプログラムは、コンピューターシステムの１つまたは複数のプロセッサーにより実行されると、本明細書に記載のように、１つまたは複数のプロセッサーに物理系の特徴プロファイルのコンピューター実装デコンボリューション方法の実施形態を実行させる命令を含む。

また、本明細書で提供されるのは、１つまたは複数のプロセッサー；および１つまたは複数のプログラムを保存する記憶装置であり、該１つまたは複数のプログラムは、コンピューターシステムの１つまたは複数のプロセッサーにより実行されると、本明細書に記載のように、１つまたは複数のプロセッサーに試料の特徴プロファイルのデコンボリューション方法の少なくとも一部の実施形態を実行させる命令を含む。

また、本明細書で提供されるのは、１つまたは複数のプロセッサー；および１つまたは複数のプログラムを保存する記憶装置であり、該１つまたは複数のプログラムは、コンピューターシステムの１つまたは複数のプロセッサーにより実行されると、本明細書に記載のように、１つまたは複数のプロセッサーに物理系の特徴プロファイルのコンピューター実装デコンボリューション方法の実施形態を実行させる命令を含む。

また、本明細書で提供されるのは、個体の疾患を評価する方法であり、該方法は、ｉ）疾患を有するまたは有すると疑われる個体から生物試料を取得すること、ｉｉ）本明細書に記載のように、試料の特徴プロファイルのデコンボリューション方法の一実施形態による方法を実施することにより、試料中に存在する複数の異なる成分の内の１つまたは複数の異なる成分の分数表現を推定すること、およびｉｉｉ）試料中の１つまたは複数の異なる成分の推定分数表現と、１つまたは複数の基準試料中の１つまたは複数の異なる成分の基準分数表現との間の比較に基づいて、疾患の予後および／または診断を決定することを含み、基準試料が疾患を有する個体のコホート由来であり、１つまたは複数の異なる成分が疾患の診断および／または予後となる。いくつかの実施形態では、方法は、物理的または電子的形態のレポートを提供することをさらに含み、該レポートは、個体に対し決定された予後および／または診断を示す。

また、本明細書で提供されるのは、臨床試料特徴の予測、予後および／または診断値を評価する方法であり、該方法は、ｉ）疾患を有する個体のコホートから生物試料を取得すること、ｉｉ）本明細書に記載のように、試料の特徴プロファイルのデコンボリューション方法の一実施形態による方法を実施することにより、試料中に存在する複数の異なる成分の内の１つまたは複数の異なる成分の分数表現を推定すること、ｉｉｉ）個体のコホートにおける１つまたは複数の異なる成分の分数表現と、疾患の臨床転帰との間の相関に基づいて、疾患に対する生物試料中の異なる成分と関連する予測、予後および／または診断値を決定することを含む。

また、本明細書で提供されるのは、疾患治療の臨床転帰を予測する方法であり、該方法は、ｉ）本明細書に記載のように、試料の特徴プロファイルのデコンボリューション方法の実施形態による方法を実施することにより、疾患の治療を受けた個体から得られる試料中に存在する複数の異なる成分内の１つまたは複数の異なる成分の分数表現を推定すること、およびｉｉ）試料中の１つまたは複数の異なる成分の推定分数表現と、１つまたは複数の異なる成分と治療の臨床転帰との予め定められた関連付けとの間の比較に基づいて、治療の臨床転帰を予測することを含む。いくつかの実施形態では、疾患の治療は、コホート中の個体に投与された。いくつかの実施形態では、１つまたは複数の異なる成分と治療の臨床転帰との関連付けは、本明細書に記載のように、臨床試料特徴の予測、予後および／または診断値を評価する方法の実施形態による方法により決定される。いくつかの実施形態では、方法は、物理的または電子的形態のレポートを提供することをさらに含み、該レポートは、個体の治療の予測臨床転帰を示す。いくつかの実施形態では、レポートは、治療の予測臨床転帰に基づいた、疾患に対する個体への将来の治療投与の推奨手順をさらに含む。

また、本明細書で提供されるのは、生物試料の特徴プロファイルを計算処理することによる生物試料中の細胞サブセットの相対比率の推定方法である。計算処理は、細胞サブセット特徴シグネチャーの基準マトリックスを使って、生物試料の特徴プロファイルにサポートベクター回帰を適用し、生物試料中の細胞サブセットの相対比率を推定することを含む。それぞれの細胞サブセット特徴シグネチャーは、異なる細胞サブセットに対応し得る。方法は、複数の細胞サブセットの特定のための有意値を決定することをさらに含んでよい。本方法を実施するためのシステムおよびコンピューター可読媒体も提供される。

添付図面と併せて解釈することにより、次の詳細な説明の特定の態様が最もよく理解されよう。慣例に従って、図面の様々な部分は、正確な縮尺ではないことを強調しておきたい。むしろ、様々な部分の寸法は、明瞭さのために任意に拡大または縮小されている。図面に含まれているのは、以下の図である。

ＣＩＢＥＲＳＯＲＴの概要および白血球デコンボリューションへの適用を示す図である。（図１ａ）手法の模式図。（図１ｂ〜１ｃ）：（図１ｂ）２０８個のアレイの異なる精製または濃縮白血球サブセット（図１７）、および（図１ｃ）非細胞株と細胞株に分割した、３，０６１個の多様なヒトトランスクリプトームの、デコンボリューションへの白血球シグネチャーマトリックス（すなわち、ＬＭ２２）の適用。図１ｃの感度（Ｓｎ）および特異性（Ｓｐ）は、方法で記載の、正および負の群に関連して定義される。ＡＵＣは曲線下面積。（図１ｄ）コールターカウンター^１１により測定した対応する比率と比較した、全血試料のリンパ球、単球、および好中球のＣＩＢＥＲＳＯＲＴ分析。図１ｂのＣＩＢＥＲＳＯＲＴ比率は、ＣＩＢＥＲＳＯＲＴによりそれぞれの白血球サブセットに割り付けられた相対的比率を意味する。図１ｂの非活性化および活性化サブセットは、それぞれ「＋」および「−」で示されている。複合組織由来の多様なＲＮＡ混合物に対する性能評価を示す図である。（図２ａ〜２ｃ）：（図２ａ）添加腫瘍含量（ｘ軸）およびノイズ（ｙ軸）の全域の性能、（図２ｂ）元の未改質値からの図２ａの混合物の偏差、および（図２ｃ）漸増腫瘍含量の関数としての所与の細胞型の検出限界、の関係から見た、模擬組織中の白血球サブセット分解のためのＣＩＢＥＲＳＯＲＴ精度（各データポイント当たりｎ＝５ランダム混合物）。（図２ｄ）図２ａ〜２ｃに示した分析に対して、６つのＧＥＰデコンボリューション法とＣＩＢＥＲＳＯＲＴの比較（図７、８）。（図２ｅ）乳房組織に添加した全血のインビトロ混合物の分析。左：血液比率の報告は、遺伝子発現データ（ＬＭ２２正規化免疫指標：方法の項参照）と一致する。右：方法間の白血球デコンボリューションの安定性。（図２ｆ）独立調査間および癌タイプ間のＣＩＢＥＲＳＯＲＴの一貫性（白血球の略語については、図１６ｊ〜１６ｋを参照）。（図２ｇ〜２ｉ）：（図２ｇ）対をなす凍結とＦＦＰＥＤＬＢＣＬ試料との間で比較したＣＩＢＥＲＳＯＲＴ性能、ならびに（図２ｈ）正常肺組織および（図２ｉ）濾胞性リンパ腫腫瘍のフローサイトメトリーと比較したＣＩＢＥＲＳＯＲＴ性能。図２ｉのアスタリスクは、同じ患者からの外れ値の可能性があることを示す。図２ｈおよび図２ｉで定量化に使用した表面マーカーは、括弧中に示す。図２ｅ〜２ｉの結果は、ＬＭ２２を使って取得し、その後、分析の前に、１１種の主要白血球タイプに併合した（図１６ａ〜１６ｉ）。図２ｃおよび図２ｈの値は、中央値±９５％信頼区間として表されている。４１人のヒト対象における個々の細胞サブセットのディープデコンボリューションおよび列挙を示す図である。（図３ａ〜３ｃ）：（図３ａ）２０人の対象由来のＰＢＭＣ中の８個のサブセット、（図３ｂ）別のセットの７人の対象由来のＰＢＭＣ中のＦＯＸＰ３＋Ｔｒｅｇ、および（図３ｃ）１４人のＦＬの対象由来の腫瘍生検材料中の悪性のＢ細胞を含む３個の免疫サブセットに関して、ＣＩＢＥＲＳＯＲＴとフローサイトメトリーとの間の直接比較。（図３ｄ）図３ａ〜３ｃで分析したデータセットに対して、５つの発現ベースデコンボリューション法の比較。灰色の領域は、フローサイトメトリーと有意（Ｐ＜０．０５）に相関した、デコンボリューションされた細胞型を意味する。全ての方法の散布図は図１３ａ〜１３ｂ、１４に示している。３つの事例では、相関係数が決定できなかった。このパネルに含めるために、これらは、０の値に割り付けられた（図１９ａ〜１９ｄ；図１３ａ〜１３ｂ）。データは、平均±標準偏差として表される。図１９ａ〜１９ｄには、ＲＭＳＥ値を含む全データが示されている。ＬＭ２２シグネチャーマトリックスおよびＡｂｂａｓらとの比較を示す図である。（図４ａ）２２白血球サブセット間の各遺伝子の相対発現を示すＬＭ２２シグネチャーマトリックス（図１６ａ〜１６ｉ）の色分け地図。遺伝子発現レベルを単位分散に正規化し、ユークリッド距離を使って細胞サブセットおよび遺伝子を階層的にクラスター化した（高発現、赤；低発現、青）。（図４ｂ）ＬＭ２２と、以前報告されたシグネチャーマトリックス（Ａｂｂａｓら、２００９）^５との間の、遺伝子、細胞サブセット、および発現アレイに関する重なり。ＡｂｂａｓらとＬＭ２２との間の遺伝子の重なりに対しては、我々は、ＨＵＧＯ遺伝子シンボル（ｎ＝３６）に分解できないものを含む、全てのＡｆｆｙｍｅｔｒｉｘｐｒｏｂｅｓｅｔを「遺伝子」と見なした。ＬＭ２２の詳細については、図１６ａ〜１６ｋを参照されたい。（図４ｃ）ＬＭ２２中のそれぞれの細胞サブセットの基準プロファイルを比較する相関係数（ピアソン）の全組み合わせ対比色分け地図（遺伝子は方法の項で記載のように正規化した；図１６ａ〜１６ｉと同様に）。精製白血球の分析によるＬＭ２２の検証を示す図である。（図５ａ）ＬＭ２２中でプロファイリングされた精製／濃縮白血球を含む検証アレイにおいてＣＩＢＥＲＳＯＲＴによりコールされた各ＬＭ２２細胞サブセットの比率（図１ｂに関連；図１７ａ〜１７ｂも参照されたい）。所与の細胞サブセットのアレイに対する結果が比率の中央値としてまとめられている。色標示凡例に示す細胞サブセットの略語は、図１６ｊ〜１６ｋで定義されている。（図５ｂ）左：ＢおよびＴリンパ球を５人のヒト扁桃腺から流動選別して、それぞれ９５％および９８％を超える平均純度レベルにした後、マイクロアレイによりプロファイリングした。右：ＣＩＢＥＲＳＯＲＴにより推定された、これらのＢ／Ｔ細胞の分数表現、ならびに残りの白血球含量。素性の明確な混合物のＣＩＢＥＲＳＯＲＴによる分解能を示す図である。異なるシグネチャーマトリックスを使って（上段）、異なる混合物に適用した（下段）ＣＩＢＥＲＳＯＲＴ性能の解析。上段：（図６ａ）ＧＳＥ１１１０３^５中の精製血液癌細胞株発現プロファイル（図６ｂ）ＧＳＥ１９３８０^６中の神経遺伝子発現プロファイル、および（図６ｃ）ＬＭ２２に対する細胞集団基準発現シグネチャー（図１６ａ〜１６ｋ）。下段：（図６ａ）血液癌細胞株（ＧＳＥ１１１０３^５）と、（図６ｂ）神経細胞型（ＧＳＥ１９３８０^６）の所定の混合物に対する既知および推定比率の比較。（図６ｃ）４人の非ホジキンリンパ腫患者由来の一対の試料を含むリツキシマブ治療前後のＰＢＭＣ試料のＬＭ２２を使ったＣＩＢＥＲＳＯＲＴ分析（分かりやすくするために、１１種の白血球タイプにプールした；図１６ａ〜１６ｋを参照されたい）。付加ノイズを含む模擬腫瘍に対するデコンボリューション法の比較分析を示す図である（図２ａ、２ｂに関連）。（図７ａ）添加腫瘍含量（ｘ軸）および非ｌｏｇ線形添加ノイズ（ｙ軸）に対するそれぞれの方法の性能景観図（詳細は方法の項を参照）。（図７ｂ）各混合物のその元の非変更値からの偏差の関数として評価したそれぞれの方法の精度（ｘ軸上に１−Ｒとして表される）。図７ａの既知の細胞型比率に対する性能は、下限をゼロとしたピアソンの相関係数で表されている。推定の偏りを示すために、図７ｂに、既知と予測細胞型比率（パーセンテージとして表されている）との差異が、上限を４０とした二乗平均平方根誤差（ＲＭＳＥ）として表されている。既知の含量の模擬混合物の検出限界に対するデコンボリューション法の比較を示す図である（図２ｃ、２ｄに関連）。各色は、所定の細胞型（この場合、ジャーカット）に対する所定の入力濃度を表し、各線はＧＥＰデコンボリューションにより予測されたその濃度を表す。既知のジャーカット濃度は、異なる濃度の結腸癌株を有する４つの血液細胞株の５つの模擬混合物における広範な添加腫瘍含量範囲にわたり測定された（方法の項を参照）。データは、中央値（ｎ＝５混合物）±９５％信頼区間として表されている。ＬＭ２２中のそれぞれの細胞サブセットに対する検出限界の分析を示す図である。（図９ａ）ＬＭ２２の残りの２１細胞型の模擬混合物に添加されたナイーブＢ細胞の所定の入力を使って検出限界が評価されたことを除いて、図８と同じ（図１６ａ〜１６ｋ）。未知の含量の検出限界に対する影響は、ナイーブＢ細胞遺伝子の順序をランダムに変えることにより生成した模擬ＧＥＰを加えることにより評価された。データは、中央値（ｎ＝４混合物）±９５％信頼区間として表されている。（図９ｂ）ＬＭ２２中の全細胞型であることを除いて、図９ａと同じ。より大きいスパイクインが相関を促進するのを防ぐために、我々は、ノンパラメトリックスピアマンの順位相関係数を使って性能を集計し、全てのスパイクインおよび試験した未知の含量のレベルに対する既知および予測の比率を比較した。これらの結果を全体として考慮すると、ＣＩＢＥＲＳＯＲＴは、試験した他の方法より有意に性能が優れている（Ｐ＜０．０００１；対応のある両側性ウィルコクソン符号付順位検定；ｎ＝２２細胞サブセット）。注目すべきことに、ＣＩＢＥＲＳＯＲＴはまた、ピアソン相関により測定して、直線当てはめに対して、他の方法より性能が優れていた。さらなる詳細に関しては、方法の項を参照されたい。所定の混合物中の特徴（遺伝子）選択の分析を示す図である。（図１０ａ）スパイクシリーズに対するＣＩＢＥＲＳＯＲＴの適用結果。該スパイクシリーズでは、ＣＤ８Ｔ細胞に対するＬＭ２２基準プロファイルが、非活性化マスト細胞（ＭＣ−）に対する対応する基準プロファイル中に、均等増分でスパイクされた（ｎ＝２１）。（注目すべきことに、両細胞型は、ＬＭ２２中で大きく異なる発現ベクターを有する；図４ｃ参照）。（図１０ｂ）ＣＤ８Ｔ細胞のためではなく、１００％非活性化マスト細胞をデコンボリューションするためにサポートベクター回帰（ＳＶＲ）により選択された遺伝子間の比較であり、逆も同じ。それぞれの特有の遺伝子サブセットに対し、ＬＭ２２シグネチャーマトリックス中の発現レベルが、非活性化マスト細胞とＣＤ８Ｔ細胞との間でさらに比較される。対応のあるおよび対応のない両側性ウィルコクソン符号付順位検定を、それぞれ群内および群間比較に使用した。データは中央値±四分位間範囲として表される。１００％ＣＤ８Ｔ細胞試料のために特有に選択された遺伝子は、非活性化マスト細胞より、ＣＤ８Ｔ細胞中で有意に多く発現されるが、その量は小さい。さらに、逆のシナリオは、１００％非活性化マスト細胞試料中の非活性化マスト細胞遺伝子では観察されず、ＳＶＲ遺伝子選択は、混合物中の特定の細胞サブセットの存在または非存在と強く相関していないことを示唆する。（図１０ｃ）ＬＭ２２中の遺伝子発現レベルと、０％を超えるＣＤ８Ｔ細胞および０％を超える非活性化マスト細胞を含む１９混合物のセットからのＳＶＲによりそれぞれの遺伝子が選択（仮にあったとして）される頻度との間の比較（図１０ａのパネルを参照）。上段：（左）ＣＤ８Ｔ細胞または（右）非活性化マスト細胞の発現レベルの比較。下段：（左）ＣＤ８Ｔ細胞および非活性化マスト細胞または（右）ＬＭ２２中の全ての細胞サブセットの平均発現レベルの比較。スパイクイン組成に関係なく、発現と遺伝子選択頻度との間の最も高い相関は、ＬＭ２２中の全ての細胞型を考慮した場合に観察された。多重共線性のシグネチャーマトリックスベース方法に与える影響を示す図である。（図１１ａ〜１１ｄ）多重共線性のデコンボリューション性能に与える影響が、未知の含量（図１１ａ〜図１１ｃ）またはシグネチャーマトリックスに加えられたノイズを有する混合物（図１１ｄ）に対し示されている。それぞれのパネルは、次のように整理されている。上段：多様な多重共線性値（ｘ軸；方法の項参照）に対する平均相互相関係数（左ｙ軸）および対応するシグネチャーマトリックスＧＥＰの平均条件数カッパ^５（右ｙ軸）；平均相互相関は、シグネチャーマトリックス基準プロファイルの全組み合わせ対比相関比較（ピアソン）の平均値を示し、カッパは、シグネチャーマトリックス安定性の尺度（方法の項参照）である。両測定法は、シグネチャーマトリックス中の多重共線性（または、基準プロファイル中の類似度）を取得する。下段左：模擬混合物に対する４つのデコンボリューション法の相対的性能を示し、これは、既知および予測の細胞比率（ｙ軸）を比較する。２０種のレベルの多重共線性からの結果が、多重共線性の増加の順で（左から右へ）示される。多重共線性のそれぞれのレベルは、１０回模擬され、集計値は、平均±ｓ．ｅ．ｍ．として表される。下段右：それぞれの方法の性能のボックスプロットとしての集計、四分位範囲がボックス中に含まれ、最小および最大点はひげにより示される。ＣＩＢＥＲＳＯＲＴと他の方法との間の群比較を、対応のある両側性ウィルコクソン符号付順位検定を使って実施した。全てのシグネチャーマトリックスおよび混合物ベクターは、分析の前に、単位分散に正規化された。更なる詳細については、方法の項を参照されたい。１８人の個体のＤＬＢＣＬ腫瘍（ＧＳＥ１８３７７^７）中の凍結とＦＦＰＥ試料との間の白血球デコンボリューション結果の比較を示す図である。（図１２ａ）それぞれの腫瘍中で分解された２２個の白血球サブセットに対する結果が示される；図２ｇに関連。データポイント（丸）は、図２ｇの場合のように着色され、細胞型を示す。試料ＩＤ：１１および１４のデコンボリューション結果は、ＦＦＰＥと凍結状態との間で有意に相関しなかった（ＮＳ）。（図１２ｂ）全１８個の腫瘍中の代表的細胞型の散布図を示す。ＰＢＭＣ中の９個の白血球サブセットの列挙のためのデコンボリューション法の比較（図３ａ、３ｂに関連）。（図１３ａ）２０個のＰＢＭＣ試料中の８個の白血球サブセットの列挙に関し、フローサイトメトリーを５つのデコンボリューション法と比較した散布図。（図１３ｂ）７個のＰＢＭＣ試料の別のコホート中でプロファイリングされたＴｒｅｇを除いて、図１３ａと同じ。分析した１０個の合計表現型（方法の項参照）の内で、ここで示した９個のサブセットは、少なくとも０．５の相関係数を有する少なくとも１つの方法でデコンボリューションされた。全１０個のサブセット（ガンマデルタＴ細胞を含む）の詳細性能測定法は、図１９ａ〜１９ｄに示されている。ＦＬ腫瘍生検材料中の３個の白血球サブセットの列挙に関し、デコンボリューション法の比較（図２ｉ、３ｃに関連）。脱凝集したＦＬリンパ節生検材料中の悪性Ｂ細胞を含む３個の白血球サブセットの列挙に関し、フローサイトメトリーを５つのデコンボリューション法と比較した散布図。個々の細胞サブセットのＲＭＳＥ値については、図１９ａ〜１９ｄを参照されたい。複合混合物に適用した５つのデコンボリューション法に対するベンチマーキング結果のまとめ。２つの性能尺度（ＲおよびＲＭＳＥ）を使って、ＣＩＢＥＲＳＯＲＴは、有意に他の遺伝子発現ベースの方法（対応のある両側性ウィルコクソン符号付順位検定）より性能が優れており、一般に、複合混合物に対し、全ての他の方法より良好な性能を示す（図２ｄ）。図１９ａ〜１９ｄでは、生データは、「複合混合物」として提供される。デコンボリューション法の詳細については、図１８および方法を参照されたい。白血球シグネチャーマトリックス（ＬＭ２２）を示す図である。示されているのは、２２個の免疫細胞型を相互からおよびその他の細胞型から識別する遺伝子シグネチャーの正規化発現レベル（ａｆｆｙｍｅｔｒｉｘ強度）である（図１６ａ〜１６ｉ）。方法の項で記載のように、遺伝子はその他の正常なおよび癌細胞に対し選別され、それらの特異性を高めた。原データは、隣接シート（試料）で提供される。付随する原稿全体に登場する白血球略語は、図１６ｊおよび１６ｋに示される。外部データセットの精製造血集団に対するＬＭ２２の検証を示す図である。精製試料を含む外部データセットにＣＩＢＥＲＳＯＲＴを適用し、それぞれの試料中のシグネチャーマトリックスに含まれる細胞型の比率を推定した。ＣＩＢＥＲＳＯＲＴにより予測された最大の比率を有する細胞型のタイプを、既知の精製細胞型と比較し、これらが一致すると、正しいとしてカウントした。ＧＥＰデコンボリューション法の特徴比較を示す図である。示した全ての方法は、マーカー遺伝子、シグネチャーＧＥＰ、または細胞比率の事前の知識を必要とし、入力として、任意の数の細胞型を取り込む。詳細は、方法の項を参照されたい。「ａ」は、この研究で示されているか否かを意味する（例えば、図６ａ〜６ｃ、７ａ〜７ｂ、および８）。「ｂ」は、この研究で示されていることを意味する（図９ａ〜９ｂ、方法の項参照）。理想化混合物に対するそれぞれのアルゴリズムの性能を示す図である。細胞は、それぞれの分析に対する相対的性能に従って着色されている。相関係数については、赤＝最大、青＝最小。ＲＭＳＥについては、青＝最大、赤＝最小。ＬＭ２２を３種の主要白血球タイプ（リンパ球、単球、および好中球）に併合し、グラウンドトルース比率（ＧＳＥ２０３００）に対し比較した。「ａ」は、統計が一回の実験から得られた（すなわち、直接）のか、または中央値を使って総計したかを意味している。図１９ａは、バルク組織に対する相関係数（Ｒ）を示す。図１９ｂは、バルク組織に対するＲＭＳＥを示す。図１９ｃは、理想化混合物に対する相関係数（Ｒ）を示す。図１９ｄは、理想化混合物に対するＲＭＳＥを示す。一実施形態による本発明のシステムの概略図である。システムは、本方法を実施するように構成されたサポートベクター回帰アプリケーションを有する記憶装置を含む。サポートベクター回帰の例示的実施例を示す一群のグラフである。本開示のいくつかの実施形態による、マーカー遺伝子のデコンボリューションに対する影響を示す一群のグラフおよび表である。本開示のいくつかの実施形態による、２５個のヒト癌中の推定白血球頻度および予後関連性を示す一群のグラフである。本開示のいくつかの実施形態による、プラズマ細胞に対する浸潤ＰＭＮの比率が、多様な固形腫瘍における予後であることを示す一群のグラフである。本開示のいくつかの実施形態による、癌タイプおよびデータセット間の推定白血球比率の相関分析を示す一群のグラフである。本開示のいくつかの実施形態による、２２個の白血球サブセットと２５種の癌組織との間の予後関連性を示す一群のグラフである。本開示のいくつかの実施形態による、非小細胞肺癌および隣接する正常組織中のプラズマ細胞レベルを示す一群のグラフおよび画像である。本開示のいくつかの実施形態による、ヘルドアウト発現データセットでの、組織マイクロアレイ（ＴＭＡ）マーカーおよび染色定量化の評価、ならびに推定多形核（ＰＭＮ）／プラズマ細胞（ＰＣ）の予後的有意性を示す一群のグラフおよび画像である。

定義
本明細書において別途定義されない限り、本明細書で使用されるすべての技術および科学用語は、本発明の属する技術分野の当業者により一般に理解されるものと同様の意味を持つ。本明細書に記載されているものと類似または同等の任意の方法および材料を本発明を実施または試験するために使用することが可能であるが、好ましい方法および材料を以下に記載する。

本明細書で言及される、全ての特許および刊行物およびこのような特許および刊行物中に開示された全ての配列は、参照により明示的に本明細書に組み込まれる。

数値範囲は、その範囲を規定する両端の数値を含む。

本開示で提供される見出しは、本発明の様々な態様または実施形態を制限するものではない。したがって、すぐ下で定義される用語は、総じて本明細書を参照することでより詳しく定義される。

特に断らなければ、本明細書で使用されるすべての技術的および科学的用語は、本発明が属する当業者により一般に理解されているものと同じ意味を有する。さらに、特定の用語は、明確さおよび参照の容易さのために、下記で定義される。

「複数」は、少なくとも２個のメンバーを含む。特定の事例では、複数は、少なくとも１０個、少なくとも１００個、少なくとも１０００個、少なくとも１０，０００個、少なくとも１００，０００個、少なくとも１０^６個、少なくとも１０^７個、少なくとも１０^８個または少なくとも１０^９個以上のメンバーを有してよい。

本明細書で使用される場合、「物理系」は、任意の一群の構成要素（分子、細胞、組織、生物、電気の回路、デバイス、器具、コンピューター、ビークル、建物）を意味してよく、該構成要素は、直接または間接的に相互に機能的に関連している（例えば、系の１つの構成要素の存在、位置または作用が直接または間接的に、系の別の構成要素の存在、位置または作用に影響を与える）。いくつかの事例では、物理系は、物理的試料である。

本明細書で使用される場合、「物理的試料」は、整合性のある単位として、その一群が取得される環境から物理的に単離可能な任意の一群の対象物（例えば、液体、固体または気体形態の）を意味してよい。本明細書で使用される場合、用語の「生物試料」は、生物から得られる、または生物を含む、またはそれらの一部（例えば、生物の組織試料、生検材料、細胞試料）である任意の物理的試料（例えば、個体または液体形態の）を意味する。生物試料は、細胞培養からまたは生物から得てもよい。生物試料は、生物試料の１つまたは複数の成分の除去により精製してもよい。

本明細書で使用される場合、「異なる成分」は、１つまたは複数の実験的に定められる特性および／または機能の関係性に基づいて一定の群に分類される任意の形態の対象物（例えば、分子、化合物、タンパク質、核酸、細胞、など）、またはその一群を意味してよい。それぞれの異なる成分は、１つまたは複数の実験的に定められる特性および／または機能の関係性をメンバー中で共有する１つまたは複数のメンバーを有してよい。

本明細書で使用される場合、用語の「細胞サブセット」は、生物試料中の任意の細胞群を意味し、該細胞群の存在は、ＲＮＡレベルの遺伝子発現、タンパク質発現、ゲノム変異、バイオマーカー、などの１つまたは複数の特徴により特徴付けられる。細胞サブセットは、例えば、細胞型または細胞サブタイプであってよい。

本明細書で使用される場合、用語の「細胞サブセットの推定相対比率」または「細胞サブセットの相対比率のベクター」は、それぞれの細胞サブセット（例えば、本方法の実施形態により推定されるような）の相対比率を意味する。従って、それぞれの細胞サブセットの相対比率は、ベクター（それぞれの細胞サブセットが異なる次元の前記ベクターである）として理解されてよい。本明細書で使用される場合、「細胞サブセットの相対比率」は、細胞サブセットの、相対比率が推定されている別の細胞サブセット、その他の細胞サブセット、または全ての細胞サブセットに対する比率（例えば、存在量）を意味する。

本明細書で使用される場合、用語の「特徴」は、任意の実験的に定められる物理的試料または物理系（例えば、物理的試料、生物試料、など）の特性を意味する。いくつかの事例では、特徴の存在量（すなわち、値）は、試料または物理系中の異なる成分の存在量を示してよい（例えば、生物試料中の１つまたは複数の細胞サブセットの存在量を示してよい）。いくつかの事例では、特徴は、ｍＲＮＡレベルの遺伝子発現、タンパク質発現、特異的遺伝子型、バイオマーカー、またはこれらの組み合わせを含む。

本明細書で使用される場合、「特徴プロファイル」は、物理的試料（例えば、生物試料）中のまたは物理系中の一群の特徴に対する一連の測定値であってよい。物理的試料または物理系が複数の異なる成分を含む場合、任意の所与の特徴に対する測定値は、それぞれの存在する異なる成分の量に従って、それぞれの異なる成分の特徴に対する寄与の組み合わせ（例えば、線形和などの合計）であってよい。特徴プロファイルは、その構成要素がそれぞれの特徴の測定値に対応するベクターｍで表し得る。

本明細書で使用される場合、用語の「生物試料の特徴プロファイル」は、一群の生物試料の特徴の測定値を意味する。試料特徴プロファイルの例には、「遺伝子発現プロファイル」または「ＧＥＰ」（例えば、マイクロアレイ分析により得られる）、タンパク質発現プロファイル、遺伝子型プロファイル（例えば、異種腫瘍細胞を有する試料の）、バイオマーカープロファイル（例えば、試料中の遊離バイオマーカーまたは試料の細胞上／中のバイオマーカーの）、などが含まれる。

本明細書で使用される場合、「特徴シグネチャー」は、実質的に純粋なまたは高度に濃縮された一群の異なる成分のメンバーを特徴とする（を代表する）特徴プロファイルを意味する。複数の異なる構成要素に対する一群の特徴シグネチャーは、マトリックスＢで表し得る。マトリックス中の１つの異なる構成要素は、別の異なる構成要素と比べて、特徴シグネチャー中の同じセットの特徴を有しても有さなくてもよい。

本明細書で使用される場合、用語の「細胞サブセット基準プロファイル」または「細胞サブセット特徴プロファイル」は、特定の細胞サブセットと関連する特徴プロファイル（例えば、特徴値）を意味する。基準プロファイルは、精製または濃縮細胞サブセットの特徴を測定することにより取得し得る。いくつかの事例では、本明細書で使用される場合、用語の「細胞サブセット特徴シグネチャーの基準マトリックス」は、複数の細胞サブセットに対する予測特徴値のマトリックスを意味する。いくつかの基準プロファイルは、「多重共線性」を示し、この場合の現象は、異なる細胞サブセットの基準プロファイルが高度に相関しており、これは信頼性の高いデコンボリューションを妨害する可能性がある。

本明細書で使用される場合、用語の「デコンボリューション」は、細胞サブセットの混合物中の細胞サブセットの相対比率を特定する（すなわち、推定する）プロセスを意味する。

「分数表現」、「相対比率」および「寄与」は、同義に使用され、特徴シグネチャーの基準マトリックス中に含まれる全ての異なる成分に起因する合計特徴値に対する、異なる成分に起因する特徴の測定値の部分を意味する。

本明細書で使用される場合、用語の「サブセット」は、初期マトリックスまたはベクター（例えば、初期特徴プロファイル）の１つまたは複数の次元（例えば、特徴の数）を減らすことにより得られるマトリックスまたはベクター（例えば、特徴プロファイル）を意味する。本明細書で使用される場合、「スーパーセット」は、初期マトリックスまたはベクターの１つまたは複数の次元を増やすことにより得られるマトリックスまたはベクターを意味する。「親マトリックス」または「親ベクター」は、マトリックスまたはベクター（すなわち、「子」マトリックスまたはベクター）のスーパーセットを意味してよい。いくつかの事例では、親特徴プロファイルは、より多くの特徴を有することにより親がスーパーセットであるその親の特徴プロファイルとは異なる。

用語の「再構成特徴プロファイル」または「デコンボリューション結果」は、異なる成分（例えば、細胞サブセット）の推定相対比率（または分数表現）および既知の基準マトリックスに基づいて計算された特徴プロファイルを意味する。特に、再構成特徴プロファイルは、異なる成分、例えば、細胞サブセット（または「相対比率の細胞サブセットのベクター」）の推定相対比率と、基準マトリックスの積から計算し得る。

本明細書で使用される場合、用語の「サポートベクター回帰」または「ＳＶＲ」は、サポートベクターマシン（ＳＶＭ）、二値分類問題のための最適化方法の一種、の実現値を意味し、該方法では、両クラスを最大距離で分離する超平面が見つけ出される。サポートベクターは、超平面境界を規定する入力データのサブセットである。標準的ＳＶＭと異なり、ＳＶＲは、超平面を入力データポイントに当てはめ、その結果、回帰を実施し、許容誤差εおよび固有の線形誤差ペナルティー内でそれを行って（すなわち、ε−非感受性損失関数）、ＳＶＲを外れ値および過適合に対し比較的ロバストなものにしている。ＳＶＲの２つの主要タイプは、「ニュー−サポートベクター回帰」（または、ν−ＳＶＲ）および「イプシロン−サポートベクター回帰」（またはε−ＳＶＲ）である。ν−ＳＶＲでは、νパラメーターは、好都合にも、訓練誤差εの上限値およびサポートベクターのスパーシティの両方を制御する。

本明細書で使用される場合、用語の「ＲＮＡ転写物の相対的サブセットの推定による細胞型特定」または「ＣＩＢＥＲＳＯＲＴ」は、基準遺伝子発現シグネチャーの入力マトリックスに基づいて、目的のそれぞれの細胞型相対比率を推定するニュー−ＳＶＲ法を意味する。

本明細書で使用される場合、用語の「モンテカルロサンプリング」は、未知の確率的実体全体にわたる分布を得るための反復ランダムサンプリングを意味する。

本明細書で使用される場合、用語の「有意値」は、帰無仮説が真であると仮定した場合に結果を得る確率を意味する。特定の実施形態では、帰無仮説は、生物試料の所与の特徴プロファイル中に、シグネチャーマトリックス中の細胞サブセットが現れないことである。特定の態様では、有意値は、「ｐ値」であってよく、これは、本明細書で使用される場合、帰無仮説が真であると仮定した場合に、実際に観察された結果に少なくとも極めて近い試験の統計的結果を得る確率である。

本明細書で使用される場合、用語の「差異測定値」は、２つの値またはベクターの間の関係（例えば、差異、相関、偏差、など）の任意の測定値を意味する。

本明細書で使用される場合、用語の「誤差」は、計算値または予測値（単一または複数）からの値の偏差を意味する。用語の「二乗平均平方根誤差」または「ＲＭＳＥ」は、推定量による予測値が推定される量から異なる量を意味する。推定されるパラメーターに対する推定量のＲＭＳＥは、平均二乗誤差の平方根と定義される。

本明細書で使用される場合、用語の「相関係数」は、直線当てはめの尺度を意味する。「ピアソンの積率相関係数」または「ピアソンのＲ」は、２つの変数間の直線関係の強さと方向の尺度であり、変数の共分散をそれらの標準偏差の積で割った値として定義される。

本明細書で使用される場合、用語の「ＲＮＡ転写物」は、生物試料中の総計ＲＮＡ発現レベルの細胞を意味する。

本明細書で使用される場合、用語の「白血球（ｌｅｕｋｏｃｙｔｅ）」または「白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌ）」は、単球、好中球、好酸球、好塩基球、およびリンパ球を含む任意の免疫細胞を意味する。本明細書で使用される場合、用語の「リンパ球」は通常、リンパ液中で認められる細胞を意味し、ナチュラルキラー細胞（ＮＫ細胞）、Ｔ細胞およびＢ細胞を含む。上に列挙した免疫細胞型は、さらにサブセットに分解できることは、当業者に理解されるであろう。

本明細書で使用される場合、用語の「腫瘍浸潤白血球」は、固形腫瘍中に存在する白血球を意味する。

本明細書で使用される場合、用語の「血液試料」は、血漿、血液から単離された血液細胞、などの血液から調製された任意の試料を意味する。

本明細書で使用される場合、用語の「固体組織試料」は、リンパ節、採取臓器、生検材料（例えば、腫瘍生検材料）、などの固体組織から得られた試料を意味する。試料それ自体は、再構成および懸濁されてもよい。

本明細書で使用される場合、用語の「保管組織試料」は、長期貯蔵されている組織試料を意味する。

本明細書で使用される場合、用語の「精製試料」は、１つまたは複数の細胞サブセットが濃縮されている任意の試料を意味する。試料は、大きさ、タンパク質発現、などの特性に基づいて、細胞の除去または単離により精製されてもよい。

発明の詳細な説明
上記で要約されたように、本開示には、試料または物理系の特徴プロファイルのデコンボリューション方法が含まれる。物理的試料または物理系は、複数の成分（すなわち、異成分から成る物理的試料または異成分から成る物理系）の混合物を含んでよく、混合物に対する個々の成分の相対比率は未知である。開示方法は、本明細書に記載のように、物理系の複数の特徴を測定することにより、および一群の目的成分のシグネチャープロファイルを使って測定された特徴をデコンボリューションすることにより、物理的試料または物理系中の、全収集成分に対する、または少なくとも一群の目的成分に対する異なる成分の相対的寄与を推定する方法を提供する。本方法は、測定された特徴がシグネチャープロファイル中に現れない成分からの寄与を含み得る場合であっても、測定された特徴をシグネチャープロファイルの一次結合としてモデル化する。デコンボリューションは、測定された特徴とシグネチャープロファイルとの間の回帰を最適化することにより達成され、最適化は、１）線形損失関数および２）Ｌ_２ノルムペナルティ関数の極小化をもたらす。最適化により得られる解には、回帰係数のベクターが含まれ、これを使って、特徴プロファイル中のシグネチャーマトリックスの全ての異なる成分中のシグネチャーマトリックスの異なる成分の分数表現を誘導し得る。本発明の方法はまた、全ての異なる成分に対し、シグネチャーマトリックス中に現れる異なる成分の量を計算することも含む。これは、記載のように、シグネチャーマトリックス中にそれらが存在するまたは存在しないに関係しない。

いくつかの実施形態では、生物試料中の細胞サブセットの相対比率を推定する本方法は、細胞サブセット特徴シグネチャーの基準マトリックスを使って、生物試料の特徴プロファイルにサポートベクター回帰を適用し、生物試料中の細胞サブセットの相対比率を推定することにより、生物試料の特徴プロファイルを計算処理することを含む。それぞれの細胞サブセット特徴シグネチャーは、異なる細胞サブセットに対応し得る。方法は、複数の細胞サブセットの特定のための有意値を決定することをさらに含んでよい。本方法を実施するためのシステムおよびコンピューター可読媒体も提供される。

方法、本開示のシステムおよびコンピューター可読媒体をさらに説明する前に、物理的試料（例えば、生物試料）、物理系、異なる成分（例えば、細胞サブセット）、特徴、および関連概念の説明が以下で提供される。

物理的試料および物理系
本開示には、物理系（例えば、異成分から成る物理系）の特徴プロファイルのデコンボリューション方法が含まれる。目的の物理系は、任意の物理系を含んでよく、複数の成分が物理系中に存在し、物理系の特徴プロファイルに寄与する（例えば、線形モデルにより近似できるように寄与する）。物理系は、目的の成分を含んでも含まなくてもよい。物理系は、任意の数の成分を含んでよい。いくつかの事例では、物理系は、実験的に定められる特性の点で相互に明確に異なる、５個以上、例えば、１０個以上、２０個以上を含み、１００個以上、例えば、１０^３個以上、１０^４個以上（例えば、１５，０００個；２０，０００個または２５，０００個以上）の異なる（すなわち、違った）成分を含む。

いくつかの事例では、下記でさらに記載のように、物理系は、複数の異なる成分を含む物理的試料である。いくつかの実施形態では、物理系は、一群のインビボまたはエクスビボ細胞（例えば、組織試料中の一群の細胞）、生物の一群の組織、生態系または社会の一群の生物、などである。いくつかの実施形態では、物理系は、デバイス中の一群の電気回路、部屋の一群のデバイス、ネットワーク上の一群のコンピューター、ビルの一群の器具、市またはその一部の一群のビル、道路またはハイウエイシステム上の一群の自動車、などである。

本開示では、物理的試料は、異なる成分の混合物を含む任意の好適な試料であってよく、複数の異なる成分が物理的試料の特徴プロファイルに寄与する（例えば、線形モデルにより近似できるように寄与する）。いくつかの実施形態では、以降でさらに説明されるように、物理的試料は、生物試料である。いくつかの事例では、物理的試料は、空気試料、水試料または土壌試料などの環境試料である。環境試料は、任意の好適な発生源から得てよく、例えば、限定されないが、川、海洋、湖、雨、雪、貯蔵容器、下水、下水処理排水、農業排水、工業排水、水道水、飲料水、排気システム（例えば、工業的排出、自動車排ガス、など）、コンポスト、埋立地、都市開発現場または農地である。いくつかの事例では、物理的試料は、食糧品試料、すなわち、動物、例えば、ヒト、イヌ、ネコ、トリ、魚、などによる消費用に調製するのに適した、または調製されている材料である。いくつかの事例では、物理的試料は、合成化学的混合物、例えば、市販の化学的混合物、例えば、肥料、コーティング材（例えば、塗料、ラッカー、など）、薬品、合成洗剤、などである。

生物試料
いくつかの実施形態では、生物試料は、細胞培養からまたは生物からインビトロで得てもよい。特定の態様では、生物は、動物、例えば、霊長類（例えば、ヒト）、げっ歯類（例えば、マウス、ラット、ハムスター、モルモット）、ウサギ、または任意の他の好適な動物であってよい。生物から採取した生物試料は、組織試料、例えば、血液、脳由来固体組織、リンパ節、胸腺、骨髄、脾臓、骨格筋、心臓、結腸、胃、小腸、腎臓、肝臓、肺、などであってよい。組織試料は、臓器を採取することにより、または当技術分野において既知の通り、生検を実施することにより、取得してよい。特定の態様では、生物試料は、全血、血液から得た血漿または細胞などの血液試料である。

特定の態様では、生物試料は腫瘍生検材料であってよい。生検材料は、対象から（例えば、切除、ニードル吸引、などにより）得られる癌細胞を含む任意の組織試料を意味する。生検材料は、細胞懸濁液、薄切片（例えば、スライド上に取り付けられた組織切片）の形態、または任意の他の好適な形態であってよい。

特定の態様では、生物試料は溶液中の細胞分散液または懸濁液であってよい。溶液は、５〜２５ｍＭなどの低濃度の許容可能な緩衝液と共に、ウシ胎仔血清、ヒト血小板ライセートまたはその他の因子により都合よく補充された、平衡塩溶液、例えば、生理食塩水、ＰＢＳ、ハンクス緩衝塩類溶液、などであってよい。簡便な緩衝液には、ヘペス、リン酸緩衝液、乳酸塩緩衝液、などが含まれる。分離された細胞は、細胞の生存能力を維持する任意の適切な媒体中に集めてよい。種々の培地が、市販品として入手でき、細胞の性質に基づいて使用し得る。これらの培地は、ｄＭＥＭ、ＨＢＳＳ、ｄＰＢＳ、ＲＰＭＩ、イスコフ培地、などで、多くの場合、ウシ胎仔血清またはヒト血小板ライセートを補充される。他の態様では、生検材料は組織切片であってよい。例えば、生検材料は顕微鏡スライド上に取り付けられた薄い組織切片であってよい。上記実施形態のいずれかの生物試料は、当業者に知られているように、固定および／または透過処理されてよい。

試料は、一体試料として、例えば未精製の形態であってもよい。あるいは、試料は、分析の前に、例えば、密度勾配遠心分離、パニング、磁気ビーズ選別、蛍光活性化細胞分取（ＦＡＣＳ）、などにより分画して、１つまたは複数の目的の細胞型を濃縮してもよい。

いくつかの事例では、生物試料は、無細胞試料、例えば、細胞または組織ホモジネートである。いくつかの事例では、生物試料は単細胞を含む。

特定の態様では、本方法は、生物試料中の細胞サブセットの相対比率を推定する前に、試料、例えば、生物試料（例えば、上記で考察したような）を取得することを含む。

異なる成分（Distinct Components）
本開示による物理系の物理的試料の異なる成分は、物理系の物理的試料の特徴プロファイルに寄与する任意の異なる成分であってよい。いくつかの事例では、異なる成分は、以降でさらに説明される異なる細胞サブセットである。

いくつかの実施形態では、異なる成分は、異なる細胞周期段階の異なる細胞サブセットを含む。細胞サブセットは、限定されないが、間期、分裂期または細胞質分裂を含む任意の好適な細胞周期段階の細胞を含んでよい。いくつかの実施形態では、細胞サブセットの細胞は、分裂前期、中期、分裂後期、または分裂終期である。いくつかの事例では、細胞サブセットの細胞は、静止状態（Ｇ_０基）、Ｇ_１チェックポイント（Ｇ_１期）、複製されたＤＮＡであるが有糸分裂前（Ｇ_２期）、またはＤＮＡ複製を受けている（Ｓ期）。

いくつかの実施形態では、異なる成分は、１つまたは複数の細胞内で異なる機能的経路を含む。目的の機能的経路は、限定されないが、細胞内シグナル伝達経路、遺伝子調節経路、または代謝経路である。したがって、いくつかの実施形態では、本開示の方法は、シグナル伝達経路または代謝経路の複数の特徴を測定すること（例えば、シグナル伝達経路のタンパク質の活性化状態を測定すること；遺伝子制御性ネットワーク中の遺伝子の発現レベルを測定すること；代謝経路の代謝物のレベルを測定すること）により、１個の細胞、一群の細胞、組織、などの異なるシグナル伝達経路または代謝経路の相対的活性を推定する方法であってよい。目的の細胞内シグナル伝達経路には、サイトカインシグナル伝達、死因子シグナル伝達、増殖因子シグナル伝達、生存因子シグナル伝達、ホルモンシグナル伝達、Ｗｎｔシグナル伝達、ヘッジホッグシグナル伝達、Ｎｏｔｃｈシグナル伝達、細胞外マトリックスシグナル伝達、インスリンシグナル伝達、カルシウムシグナル伝達、Ｇタンパク質共役型受容体シグナル伝達、神経伝達物質シグナル伝達、およびこれらの組み合わせなどの任意の好適なシグナル伝達経路が含まれるが、これらに限定されない。代謝経路は、解糖、糖新生、クエン酸回路、発酵、尿素回路、脂肪酸代謝、ピリミジン生合成、グルタメートアミノ酸基合成、ポルフィリン代謝、アスパルテートアミノ酸基合成、芳香族アミノ酸合成、ヒスチジン代謝、分岐アミノ酸合成、ペントースホスフェート経路、プリン生合成、グルクロネート代謝、イノシトール代謝、セルロース代謝、スクロース代謝、デンプンおよびグリコーゲン代謝、およびこれらの組み合わせなどの任意の好適な代謝経路が含まれ得るが、これらに限定されない。

いくつかの実施形態では、異なる成分には、異なる化学化合物が含まれる。異なる成分は、特徴プロファイルに寄与する任意の好適な化学化合物を含んでよい。好適な化学化合物には、限定されないが、有機化合物類、無機化合物（例えば、塩、金属、イオン、など）、毒素、微生物（例えば、細菌、ウイルス、真菌、原生生物、など）、代謝物、アレルゲンなどが含まれる。

細胞サブセット
いくつかの実施形態では、細胞サブセットは、生物試料中の任意の細胞群であってよく、該細胞群の存在は、１つまたは複数の特徴（ＲＮＡレベルの遺伝子発現、タンパク質発現、ゲノム変異、バイオマーカー、など）により特徴付けられる。細胞サブセットは、例えば、細胞型または細胞サブタイプであってよい。

特定の態様では、１つまたは複数の細胞サブセットは、白血球（ｌｅｕｋｏｃｙｔｅ）（すなわち、白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌ）またはＷＢＣ）であってよい。可能な白血球細胞サブセットには、単球、樹状細胞、好中球、好酸球、好塩基球、およびリンパ球が含まれる。これらの白血球サブセットは、例えば、ナチュラルキラー細胞（ＮＫ細胞）、Ｔ細胞（例えば、ＣＤ８Ｔ細胞、ＣＤ４ナイーブＴ細胞、ＣＤ４記憶ＲＯ不活性Ｔ細胞、ＣＤ４記憶ＲＯ活性化Ｔ細胞、濾胞性ヘルパーＴ細胞、制御性Ｔ細胞、など）およびＢ細胞（ナイーブＢ細胞、記憶Ｂ細胞、プラズマ細胞）を含むリンパ球細胞サブセットにさらに細分できる。免疫細胞サブセットは、活性化（または刺激）状態に基づいてさらに分離し得る。

特定の態様では、白血球は、血液癌、自己免疫疾患、骨髄異形成症候群、などの白血球障害の個体由来であってよい。血液疾患の例には、急性リンパ芽球性白血病（ＡＬＬ）、急性骨髄性白血病（ＡＭＬ）、慢性リンパ性白血病（ＣＬＬ）、慢性骨髄性白血病（ＣＭＬ）、急性単球性白血病（ＡＭｏＬ）、ホジキンリンパ腫、非ホジキンリンパ腫、および骨髄腫が挙げられる。自己免疫疾患の例には、円形脱毛症、自己免疫性溶血性貧血、自己免疫性肝炎、皮膚筋炎、糖尿病（１型）、糸球体腎炎、グレーブス病、ギラン・バレー症候群、特発性血小板減少性紫斑病、重症筋無力症、いくつかの形態の心筋炎、多発性硬化症、天疱瘡／類天疱瘡、悪性貧血、結節性多発動脈炎、多発性筋炎、原発性胆汁性肝硬変、乾癬、関節リウマチ、強皮症／全身性硬化症、シェーグレン症候群、および全身性エリテマトーデスが挙げられる。

特定の態様では、１つまたは複数の細胞サブセットは、腫瘍浸潤白血球を含んでよい。腫瘍浸潤白血球は、生物試料中の癌細胞との混合物であってよく、または上記のいずれかの方法または当該技術分野において既知の方法により濃縮されてよい。

特定の態様では、１つまたは複数の細胞サブセットは、血液癌、乳癌、結腸癌、肺癌、前立腺癌、肝細胞癌、胃癌、膵臓癌、子宮頸癌、卵巣癌、肝臓癌、膀胱癌、尿路癌、甲状腺癌、腎臓癌、癌腫、黒色腫、および脳癌などの癌細胞を含んでよい。

目的の細胞サブセットはまた、神経細胞、星状膠細胞、乏突起膠細胞、およびミクログリアならびにこれらの前駆細胞を含む脳細胞を含む。その他の目的の細胞サブセットには、幹細胞、多能性幹細胞、および血液、脳由来固体組織、リンパ節、胸腺、骨髄、脾臓、骨格筋、心臓、結腸、胃、小腸、腎臓、肝臓、肺、などを含む任意の生物組織を含む。

特徴
目的の特徴には、物理的試料、例えば、生物試料の、または物理系の、１つまたは複数の異なる成分、例えば、細胞サブセットの存在を示し得る任意の特性が含まれる。特定の態様では、特徴の存在量（すなわち、値）は、１つまたは複数の異なる成分、例えば、細胞サブセットの存在量を示してよい。特徴は、試料、例えば、生物試料の総計特徴、例えば、ｍＲＮＡ、プロテイン、特定の遺伝子型、バイオマーカー、などの合計量であってよい。

遺伝子発現および／または細胞遺伝子型などの特徴が目的であってよい。例えば、細胞型および／または状態は、遺伝子発現により区別され得る。別の例では、癌細胞は、変異から生じた遺伝的不均一性に基づいて区別されてもよい。このような特徴は、当該技術分野において公知の任意の手段により測定し得、これらの手段には、ＰＣＲ法（例えば、ＲＮＡから合成したｃＤＮＡの定量的ＰＣＲ）、ＲＮＡ−Ｓｅｑ、ＤＮＡ−ｓｅｑ、ＤＮＡマイクロアレイ、タイリングアレイ、ＮａｎｏＳｔｒｉｎｇ（登録商標）ｎＣｏｕｎｔｅｒ（登録商標）、ノーザンブロット、遺伝子発現連続解析（ＳＡＧＥ）、などが含まれる。タンパク質発現などの特徴は、ウェスタンブロット、タンパク質マイクロアレイ、ＥＬＩＳＡ、その他のイムノアッセイ、質量分析、などを含む当該技術分野において公知の任意の手段により測定し得る。

いくつかの実施形態では、特徴プロファイルには、任意の好適な方法によって得られる異なる化学化合物の好適な測定特性が含まれる。いくつかの事例では、特徴には、核磁気共鳴（ＮＭＲ）（例えば、^１Ｈ、^１３Ｃ、^２Ｈ、^６Ｌｉ、^１０Ｂ、^１１Ｂ、^１４Ｎ、^１５Ｎ、^１７Ｏ、^１９Ｆ、^２３Ｎａ、^２９Ｓｉ、^３１Ｐ、^３５Ｃｌ、^１１３Ｃｄ、^１２９Ｘｅ、または^１９５ＰｔＮＭＲ）スペクトル、電磁放射線（例えば、紫外線、可視光線、赤外線）吸光および／または発光スペクトル、円偏光二色性スペクトル、ラマンスペクトル、質量スペクトル、およびクロマトグラム（例えば、親和性クロマトグラフィー、液体クロマトグラフィー、サイズ排除クロマトグラフィーによる）が含まれる。

特徴（無細胞バイオマーカーなど）は、ウェスタンブロット、ＥＬＩＳＡ、質量分析、クロマトグラフィー（例えば、薄層クロマトグラフィー、ガスクロマトグラフィー、液体クロマトグラフィー、など）を含む当該技術分野において公知の任意の手段により測定し得る。例えば、特徴は、クロマトグラフまたは質量スペクトル上で観察されるピークの強度であってよい。

特定の態様では、方法は、物理的試料、例えば、生物試料から、または物理系から特徴測定値を得ることを含んでよい。他の態様では、方法は、限定されないが、公的に利用可能なＤＮＡマイクロアレイデータベース、ＲＮＡ−ｓｅｑデータベース、および／またはＤＮＡ−ｓｅｑデータベース、または任意の他の特徴測定値の好適なデータベースなどのデータベースから特徴測定値を得ることを含んでよい。

特徴シグネチャーの基準プロファイルは、精製または濃縮した異なる成分、例えば、異なる細胞サブセットの特徴を測定することにより取得し得る。例えば、上述のように、細胞サブセットは、密度勾配遠心分離、パニング、磁気ビーズ選別、蛍光活性化細胞分取（ＦＡＣＳ）、などにより精製し得る。あるいは、細胞サブセットは、例えば、刺激および／または前駆体細胞の分化を経由して、インビトロで、培養してもよい。細胞サブセットの単離後、細胞サブセットの特徴は、測定され得る（例えば、上述のように、または当業者に知られているように）。特定の態様では、細胞サブセットの遺伝子発現を測定（例えば、ＤＮＡマイクロアレイ分析により）して、細胞サブセットの遺伝子発現プロファイル（ＧＥＰ）を取得し得る。

いくつかの事例では、シグナル伝達経路である異なる成分に対する特徴シグネチャーは、該シグナル伝達経路の成分を含む機能的無細胞系中で細胞環境中で薬理学的にまたは誘導的にシグナル伝達経路を選択的に活性化することにより、特徴を測定することにより得られる。いくつかの事例では、化学的化合物である異なる成分に対する特徴シグネチャーは、化学的化合物の実質的に純粋または濃縮試料中の特徴を測定することにより、得られる。

特定の態様では、シグネチャーマトリックスは、上記の任意の細胞サブセットに対する特定のｍＲＮＡ、プロテイン、遺伝子型、および／またはバイオマーカーのレベルを含む。シグネチャーマトリックスは、多くの場合、事前調査における「基本または基底行列」と呼ばれ、例えば、精製または濃縮細胞集団の発現差異解析により得ることができる。遺伝子シグネチャーマトリックスは、条件数と呼ばれる固有のマトリックス特性を最小化することにより、さらにロバストに作成できる。条件数は、線形システムの変動またはノイズ入力に対する安定性を評価する。特定の態様では、シグネチャーマトリックスの、例えば、Ｒ中の安定性は、２ノルム条件数により、カッパ関数を使って計算して測定し得る。

同じシグネチャーマトリックス中のいくつかの基準プロファイルは、「多重共線性」を示すことがあり、この場合の現象は、複数の異なる成分、例えば、細胞型の基準プロファイルが高度に相関していることである。多重共線性は、本方法の有意値により報告され得る、物理的試料、例えば、生物試料中の異なる成分、例えば、細胞サブセットの相対量のデコンボリューションを妨害するか、またはデコンボリューションの信頼度を低下させる。本発明のシグネチャーマトリックス中の２つの基準プロファイルの間の多重共線性の、分散拡大要因（ＶＩＦ）で測定した厳密性は、１以上、例えば、２以上、５以上、１０以上、１５以上であってよく、また、２０以上を含んでよく、いくつかの事例では、５０以下、例えば、４０以下、３０以下、２０以下、１５以下であってよく、また、１０以下を含んでよい。

いくつかの事例では、基準マトリックスは、１以上、例えば、２以上、５以上、８以上、１０以上、１５以上、２０以上、５０以上、１００以上、５００以上の、また、１，０００以上を含む２ノルム条件数、いくつかの実施形態では、１０^４以下、１０^３以下、５００以下、２５０以下、２００以下、１５０以下、１００以下、５０以下、３０以下、２０以下、１５以下、８以下の、また、５以下を含む２ノルム条件数を有する。いくつかの実施形態では、基準マトリックスは、１〜５、例えば、５〜８、８〜１０、８〜１５、１０〜１５、１５〜２０、２０〜３０、２０〜５０、５０〜１００、１００〜１５０、１００〜２００、１００〜２５０、１００〜５００、５００〜１，０００の、また、１，０００〜１０、０００を含む範囲の２ノルム条件数を有する。

基準マトリックスの条件数は任意の好適な方法を使用して調整してよい。いくつかの事例では、初期基準マトリックスの条件数が、マトリックスから１つまたは複数の特徴を加えるまたは除き、それにより、より小さい条件数を有する、初期基準マトリックスのスーパーセットまたはサブセットを生成することにより、減らされる。本プロセスは、充分に小さい最終の基準マトリックスの条件数が得られるまで繰り返してよい。

特定の態様では、基準マトリックスは、２個以上、例えば、５個以上、１０個以上の、また、１５個以上を含む異なる成分（例えば、細胞サブセット）、いくつかの事例では、２０個以下、例えば、１５個以下、１２個以下、１０個以下の、また、８個以下を含む異なる成分に関連する（例えば、それにより発現した）少なくとも１個の特徴（例えば、遺伝子）、例えば、少なくとも２個、少なくとも３個、少なくとも５個、少なくとも１０個、少なくとも２０個、少なくとも５０個の、また、少なくとも１００個を含む特徴を含んでよい。いくつかの事例では、基準マトリックスは、２〜２０個、例えば、２〜１５個、２〜１２個の、また５〜１０個を含む異なる成分（例えば、細胞サブセット）に関連する（例えば、それにより発現した）少なくとも１個の特徴（例えば、遺伝子）、例えば、少なくとも２個、少なくとも３個、少なくとも５個、少なくとも１０個、少なくとも２０個、少なくとも５０個の、また、少なくとも１００個を含む特徴を含んでよい。いくつかの事例では、基準マトリックスは、複数の異なる成分（例えば、細胞サブセット）に関連する（例えば、それにより発現した）１０，０００個以下、例えば、５，０００個以下、１，０００個以下、５００個以下、２００個以下の、また１００個以下を含む特徴（例えば、遺伝子）を含んでよい。

特定の態様では、シグネチャーマトリックス中に含まれる候補特徴が選別され得る。特定の実施形態では、低い値および／または分散を有する特徴がシグネチャーマトリックスから選別され得る。例えば、その他の候補特徴に比べて、９０％小さい、８０％小さい、７５％小さい、５０％小さい、または２５％小さい値および／または分散を有する特徴が取り除かれ得る。別の例では、その他の候補特徴に比べて、９０％大きい、８０％大きい、７５％大きい、５０％大きい、または２５％大きい値および／または分散を有する特徴がシグネチャーマトリックスに含まれ得る。いくつかの実施形態では、異なる成分中で濃縮され、シグネチャーマトリックス中に現れない特徴は、シグネチャーマトリックス中に含まれない。いくつかの実施形態では、異なる成分中で閾値より大きい値を有し、シグネチャーマトリックス中に現れない特徴は、シグネチャーマトリックス中に含まれない。

目的の異なる成分、例えば、細胞サブセットに対し予測性のより高い特徴は、シグネチャーマトリックス中に含まれてよい。例えば、方法は、その特徴と、他の異なる成分、例えば、細胞サブセット、または物理的試料／物理系との全ペアワイズ比較から得られる線形モデル係数の合計に基づいて、所与の異なる成分（例えば、細胞サブセット）または物理的試料／物理系中の所与の特徴に対し、濃縮スコア（ＥＳ）を計算することを含んでよい。特定の態様では、シグネチャーマトリックス中に含めるために、異なる成分、例えば、細胞サブセットに対する特徴値の倍率変化に基づいて、その他の異なる成分、例えば、細胞サブセットに比較して、特徴を選択し得る。例えば、１つの異なる成分、例えば、細胞サブセットにおいて、任意の他の異なる成分、例えば、細胞サブセットに比べて、２倍以上、５倍以上、１０倍以上、または２０倍以上の特徴は、シグネチャーマトリックス中に含めるように選択してよい。逆に、特徴をシグネチャーマトリックスから除去し、多重共線性を減らしてもよい。

特定の態様では、本方法は、１つまたは複数の異なる成分、例えば、細胞サブセットを単離すること、および１つまたは複数の異なる成分、例えば、細胞サブセットの特徴を測定してシグネチャーマトリックスを得ることを含む。例えば、第１の生物試料中の細胞は、ＦＡＣＳにより別の細胞サブセットに分離されてよい。分離した細胞サブセットをＤＮＡマイクロアレイにより分析して、分離した細胞サブセットのそれぞれの遺伝子発現プロファイル（ＧＥＰ）を取得し得る。それぞれの細胞サブセットのＧＥＰは、その後、集められて、それぞれの細胞サブセットに対する多くの遺伝子の発現のための値を有するシグネチャーマトリックスが生成されてよい（例えば、図１６に見られるように）。

試料特徴プロファイルの例には、「遺伝子発現プロファイル」または「ＧＥＰ」（例えば、マイクロアレイ分析により得られる）、タンパク質発現プロファイル、遺伝子型プロファイル（例えば、異成分から成る腫瘍細胞を有する試料の）、バイオマーカープロファイル（例えば、試料中の遊離バイオマーカーまたは試料の細胞上／中のバイオマーカーの）、またはこれらの組み合わせが含まれる。試料の特徴プロファイルは、上述のようにして得てよい（例えば、特徴は生物試料から直接測定してもよく、または特徴プロファイルはデータベース、例えば、公的に入手可能なＤＮＡマイクロアレイデータベースから得てもよい）。上記で考察したように、生物試料は任意の細胞型を含んでよい。特定の実施形態では、試料の特徴プロファイルは、ベンチマーキングデータセットであってよい。

本発明の方法は、異なる成分が低比率で存在する場合に、物理的試料または物理系中の異なる成分の分数表現を推定する高感度法を提供し得る。いくつかの実施形態では、物理的試料または物理系は、試料中に存在する第２の複数の異なる成分の合計量の、１０％以下、例えば、８．０％以下、６．０％以下、４．０％以下、２．０％以下の濃度で、また１．０％以下を含む濃度で、およびいくつかの事例では、０．０１％以上、例えば、０．０５％以上、０．１％以上、０．５％以上の濃度で、また、１．０％以上を含む濃度で、特徴シグネチャー中に現れる少なくとも１つの異なる成分を含む。いくつかの実施形態では、物理的試料または物理系は、試料中に存在する第２の複数の異なる成分の合計量の、０．０１％〜１０％、例えば、０．０５％〜８．０％、０．１％〜６．０％、０．１％〜４．０％の範囲の濃度で、また０．１％〜２．０％を含む範囲の濃度で、特徴シグネチャー中に現れる少なくとも１つの異なる成分を含む。

本発明の方法は、シグネチャーマトリックス中に現れない異なる成分の存在下で、物理的試料または物理系中の異なる成分の分数表現のロバストな推定を提供し得る。いくつかの実施形態では、特徴シグネチャー中に現れる異なる成分は、試料中の異なる成分の合計量の、５０％以下、例えば、４５％以下、４０％以下、３５％以下、３０％以下、２５％以下、２０％以下、１０％以下の量で、また５％以下を含む量で、およびいくつかの事例では、１％以上、例えば、５％以上、１０％以上、２０％以上、３０％以上、３５％以上の量で、また、４０％以上を含む量で、試料中に存在する。いくつかの実施形態では、特徴シグネチャー中に現れる異なる成分は、１〜５０％、例えば、５〜５０％、１０〜５０％の範囲で、また、２０〜４５％を含む範囲で試料中に存在する。

特定の態様では、生物試料は、シグネチャーマトリックスにより表されない細胞を含んでよい。例えば、生物試料中の、５％以上、１０％以上、２５％以上、５０％以上、７５％以上、５％〜５０％、５％以下、１０％以下、２５％以下、５０％以下の細胞が、シグネチャー中の細胞サブセットにより表されない場合がある。

あるいはまたはさらに、生物試料は、１０％以下、５％以下、２％以下、１％以下、０．５％以下、０．２５％以下、０．１％以下、０．１％〜１０％、０．２５％〜２％、などの少ない量の、シグネチャーマトリックスにより表される細胞サブセットを含んでよい。

特徴プロファイルのデコンボリューション方法
一般論として、本開示の方法は、一群の異なる成分を含む物理的試料、例えば、生物試料を得ることを含んでよい。特徴プロファイルｍは、例えば、複数の特徴の値を測定することにより、物理的試料から生成される。特徴プロファイルｍは、ｍと、目的の異なる成分に対する特徴シグネチャーを含む基準マトリックスＢを一次関数を使って回帰推定し、解が、１）線形損失関数および２）Ｌ_２ノルムペナルティ関数を最小化するように回帰を最適化することによりデコンボリューションされる。デコンボリューションは、回帰係数を含むベクターであるｆの解を求める。特徴プロファイルの基準マトリックス中に現れている全ての異なる成分中の基準マトリックスの異なる成分の分数表現が、ｆ中の回帰係数に基づいて推定される。

一般論として、線形損失関数は、回帰超平面への距離に従って、またはε−非感受性線形損失関数の場合には、超平面から固定距離εに従ってデータポイントにペナルティーを科す。したがって、いくつかの実施形態では、線形損失関数は、線形ε−非感受性損失関数である。Ｌ_２ノルムペナルティ関数は、モデル複雑さにペナルティーを科し、高度相関予測因子（例えば、基準マトリックス中の異なる成分）に割り付けられた重みの分散を最小化する。

いくつかの事例では、物理的試料中に存在する異なる成分の分数表現を推定することは、ｆ中の負の回帰係数をゼロに設定すること、および残りの非ゼロ回帰係数回帰係数を正規化して、合計を１にすることを含む。

また、物理系の特徴プロファイルのデコンボリューションのためのコンピューター実装方法が本明細書で提供される。コンピューター実装方法は、物理系の一群の異なる成分の特徴プロファイルｍを得ること、ならびに特徴シグネチャーの基準マトリックスＢおよび特徴プロファイル、およびｍをＢに関連付ける線形モデルによる回帰を使って計算処理し、上述のように、ｆの解を求めることを含んでよい。特に、回帰の最適化が、１）線形損失関数および２）Ｌ_２ノルムペナルティ関数を最小化する場合に、解が得られる。その後、ｆ中の回帰係数を使って、特徴プロファイル中の基準マトリックス中に現れる全ての異なる成分中の基準マトリックス中に現れる異なる成分の分数表現の推定値が誘導される。

いくつかの実施形態では、最適化は、好適なアルゴリズムを使って、例えば、好適なアルゴリズムを有する汎用コンピュータープログラムを使って実施される。線形損失関数およびＬ_２ノルムペナルティ関数を最小化する、任意の好適な最適化アルゴリズムを使用してよい。いくつかの事例では、最適化は、サポートベクター回帰（ＳＶＲ）を使って実施される。いくつかの実施形態では、ＳＶＲは、ε−ＳＶＲまたはν（ニュー）−ＳＶＲである。

また、本明細書で提供されるのは、生物試料の特徴プロファイルを計算処理することによる生物試料中の細胞サブセットの相対比率の推定方法である。計算処理は、細胞サブセット特徴シグネチャーの基準マトリックスを使って、生物試料の特徴プロファイルにサポートベクター回帰を適用し、生物試料中の細胞サブセットの相対比率を推定することを含む。上述のように、それぞれの細胞サブセット特徴シグネチャーは、異なる細胞サブセットに対応する。生物試料、細胞サブセット、生物試料の特徴プロファイル、細胞サブセット特徴シグネチャー（すなわち、シグネチャーマトリックス）の基準マトリックス、およびそれらを得る方法は、上記セクションに記載されている。

サポートベクター回帰、または「ＳＶＲ」は、サポートベクターマシン（ＳＶＭ）、二値分類問題のための最適化方法の一種、の実現値を意味し、該方法では、両クラスを最大距離で分離する超平面が見つけ出される。サポートベクターは、超平面境界を規定する入力データのサブセットである。標準的ＳＶＭと異なり、ＳＶＲは、超平面を入力データポイントに当てはめ、その結果、回帰を実施し、許容誤差εおよび固有の線形誤差ペナルティー内でそれを行って（すなわち、ε−非感受性損失関数）、ＳＶＲを外れ値および過適合に対し比較的ロバストなものにしている。ＳＶＲは、（ｉ）特徴選択（例えば、基準マトリックス中の異なる成分の選択）により回帰に対するスパースでコンパクトな解を実現させること、および（ｉｉ）ノイズの多い試料で、他の一般的損失関数（例えば、ＬＬＳＲで使われる二乗誤差）より性能が優れている線形誤差モデル（すなわち、ε−非感受性損失関数）を最小化すること、により、ノイズおよび未知の含量に対しロバストである。特定の態様では、サポートベクター回帰は、非ｌｏｇ線形空間で実施し得る。

以前の方法とは異なり、ＳＶＲは、特徴選択を実行する。この場合、異なる成分、例えば、遺伝子は、シグネチャーマトリックスから、所与の混合物、すなわち、特徴プロファイルのデコンボリューションに適応するように選択される。特定の態様では、サポートベクター回帰は、生物試料の特徴プロファイル、および異なる成分（例えば、細胞サブセット）特徴シグネチャーの基準マトリックス、の一部のみを使って、物理的試料、例えば、生物試料中の、または物理系中の異なる成分、例えば、細胞サブセットの相対比率を推定してよい。例えば、サポートベクター回帰は、物理的試料、例えば、生物試料、または物理系の特徴プロファイル中に存在する特徴および基準マトリックスの、８０％以下、例えば、６０％以下、５０％以下、２５％以下、１０％以下、５％以下の特徴、また、１％以下を含む特徴を使って、物理的試料、例えば、生物試料、または物理系中の異なる成分、例えば、細胞サブセットの相対比率を推定してよい。

ＳＶＲの２つの主要タイプは、Ｓｃｈｏｌｋｏｐｆら（ＮｅｕｒａｌＣｏｍｐｕｔ．１２，１２０７−１２４５（２０００））により記載されている「ニュー−サポートベクター回帰」（または、ν−ＳＶＲ）およびＤｒｕｃｋｅｒら（ＭＩＴＰｒｅｓｓ，Ｖｏｌ．９．（１９９７））により記載されている「イプシロン−サポートベクター回帰」（またはε−ＳＶＲ）である。特定の態様では、ＳＶＲは、ε−ＳＶＲであってよい。

あるいは、ＳＶＲは、ν−ＳＶＲであってよい。ν−ＳＶＲでは、νパラメーターは、好都合にも、訓練誤差εの上限値およびサポートベクターのスパーシティの両方を制御する。ν−ＳＶＲは、線形カーネルを適用して、物理的試料、例えば、生物試料、または物理系中の異なる成分、例えば、細胞サブセットの相対比率の解（推定値）を求め得る。特定の態様では、方法は、異なる結果（物理的試料、例えば、生物試料、または物理系中の異なる成分、例えば、細胞サブセットの相対比率の異なる推定値）を得るために異なるニュー（ν）値を使って繰り返すことを含む。方法は、２以上、３以上、４以上、５以上、または１０以上、または２０以上のニューの値を使って繰り返すことを含んでよい。ニューの値は、０〜１の間の値の場合もある。例えば、方法は、０．２５、０．５、および０．７５のニュー値を使って繰り返すことを含んでよい。方法は、物理的試料、例えば、生物試料、または物理系の特徴プロファイルと、結果と細胞サブセット特徴シグネチャーの基準マトリックスの積との間の最小誤差を有する得られた結果を選択することをさらに含んでよい。特定の態様では、最小誤差は、最小二乗平均平方根誤差（ＲＭＳＥ）である。ＲＭＳＥは、物理的試料、例えば、生物試料、または物理系の特徴プロファイルと、結果と異なる成分、例えば、細胞サブセット特徴シグネチャーの基準マトリックスの積との間の平均二乗誤差の平方根として計算し得る。いくつかの実施形態では、最小誤差は、ピアソンの積率相関係数、スピアマンの順位相関係数、ユークリッド距離、または平均絶対偏差（ＭＡＤ）またはその他の好適な誤差尺度を使って得られる。

シグネチャーマトリックス中の特徴の数は、シグネチャーマトリックス中の異なる成分、例えば、細胞サブセットの数以上でなければならない。特定の態様では、特徴の数は、異なる成分、例えば、細胞サブセットの数より実質的に大きくてよく、したがって、システムは、必要以上の条件により決定付けられてよい。例えば、シグネチャーマトリックス中の特徴の数は、シグネチャーマトリックス中の異なる成分、例えば、細胞サブセットの数の、２倍以上、３倍以上、５倍以上、１０倍以上、２０倍以上、５０倍以上、または１００倍以上であってよい。

特定の態様では、サポートベクター回帰を細胞サブセットの相対比率の推定に適用するステップは、非負性制約を実施することを含む。例えば、サポートベクター回帰後に、負の存在量または比率（ゼロ未満）となることが推定される任意の細胞サブセットをゼロに設定してよい。

異なる成分、例えば、細胞サブセットの比率は、異なる成分、例えば、細胞サブセットの相対比率であってよい。従って、サポートベクター回帰の適用および必要に応じて非負制約を実施後、それぞれの異なる成分、例えば、細胞サブセットの計算存在量（例えば、係数）は、それぞれの異なる成分、例えば、細胞サブセットの相対的存在量を得るために、正規化して合計を１にしてよい。

実行時間を減らし、より良好な全体的性能を促進するために、物理的試料、例えば、生物試料、または物理系の特徴プロファイル、および／または異なる成分、例えば、細胞サブセット特徴シグネチャーの基準マトリックスを、ＣＩＢＥＲＳＯＲＴの実施前に、ゼロ平均および単位分散に正規化してよく、または別の方法で実行時間を低減させてよい。

方法は、異なる成分、例えば、細胞サブセットの相対比率の特定および推定のために有意値を決定することをさらに含んでよい。特定の実施形態では、実験的に定められるデコンボリューションのための全体ｐ値は、モンテカルロサンプリングを使って決定し得る。有意値は、シグネチャーマトリックス中の異なる成分、例えば、細胞型が、所与の物理的試料、例えば、生物試料、または物理系の特徴プロファイル中に存在しないという帰無仮説の尤度を示してよい。

実験のセクションで記載のように、シグネチャーマトリックス（Ｂで示される）と、それぞれの異なる成分、例えば、細胞型の未知の比率からなるベクター（ｆで示される）との積は、式：ｍ＝ｆｘＢで示されるように、物理的試料、例えば、生物試料、または物理系の特徴プロファイル（ｍ）を形成する。

特定の態様では、方法は、ａ）親特徴プロファイルからランダムに選択された特徴を含むランダム特徴プロファイルｍ^＊を生成し、親特徴プロファイルが特徴プロファイルを含み、ｍおよびｍ^＊が同じユークリッドノルム（すなわち、｜ｍ｜＝｜ｍ^＊｜）を有すること、ｂ）ｍ^＊と基準マトリックスＢとの間の回帰を最適化し、ｍ^＊がＢの一次結合としてモデル化され、最適化することが、回帰の一連の回帰係数を含むｆ^＊を解くことを含み、解が線形損失関数、およびＬ_２ノルムペナルティ関数を最小化すること、ｃ）ｆ^＊と基準マトリックスＢの積を計算し、再構成特徴プロファイルを生成すること、ｄ）ランダム特徴プロファイルｍ^＊と再構成特徴プロファイルとの間の差異測定値を決定すること、およびｅ）ステップａ）〜ｄ）のｉ回（ｉは２以上の数）の反復から決定される差異測定値の分布に基づいて、有意値を決定すること、による異なる成分、例えば、細胞サブセットの相対的比率の推定に対する有意値を決定することをさらに含む。

特定の態様では、ステップｄ）の差異尺度が、ピアソン積率相関係数などの相関係数であってよい。あるいは、ピアソン積率相関係数の代わりに、別の差異測定法を使ってもよい。その他の距離測定法の例には、ＲＭＳＥ、適合度測測定法、標準偏差、スピアマンの順位相関係数、ユークリッド距離、または平均絶対偏差（ＭＡＤ）、などが挙げられる。

親特徴プロファイルは、より大きな（すなわち、より多くの異なる要素・・・・を有する）任意の好適な特徴プロファイルであってよい。

特定の態様では、ステップｅ）の有意値は、ｐ値であってよい。ステップｅ）における分布は、ゼロ分布であってよい。

繰り返し数ｉは、任意の好適な整数であってよく、２以上、５以上、１０以上、２５以上、５０以上、１００以上、２００以上、５００以上、１，０００以上、１０，０００以上の整数であってよく、いくつかの事例では、１０，０００以下、１，０００以下、８００以下、６００以下の整数でよく、また、５００以下の整数を含んでよい。いくつかの事例では、ｉは、２〜１０，０００、１０〜１，０００、５０〜５００でよく、また、２００〜６００を含んでよい。

特定の態様では、方法は、候補基準マトリックスおよび／または特徴プロファイルを選別して、低有意値を与えるものを特定することを含んでよい。

特徴プロファイルは、上述のように、目的の物理的試料または物理系に応じて、任意の好適な特徴プロファイルであってよい。特定の態様では、生物試料の特徴プロファイルは、例えば、上記セクションのいくつかの実施形態で記載のような、遺伝子発現プロファイル（ＧＥＰ）であってよい。遺伝子発現プロファイルは、生物試料中の細胞のＲＮＡトランスクリプトームを表してもよい。

異なる成分は、上述のように、任意の好適な異なる成分であってよい。いくつかの事例では、異なる成分は、異なる細胞サブセットである。細胞サブセット（例えば、シグネチャーマトリックスのおよび／または相対的存在量がＳＶＲにより推定された）は、上記セクションで記載のいずれかの細胞サブセットであってよい。特定の態様では、細胞サブセットは脳細胞サブセットを含んでよい。例えば、細胞サブセットは、神経細胞、星状膠細胞、乏突起膠細胞、およびミクログリアの内の１種または複数を含んでよい。特定の態様では、細胞サブセットは、間質細胞、幹細胞、神経細胞、および前駆細胞の内の少なくとも１種または複数を含んでよい。特定の態様では、細胞サブセットは、血液癌、乳癌、結腸癌、肺癌、前立腺癌、肝細胞癌、胃癌、膵臓癌、子宮頸癌、卵巣癌、肝臓癌、膀胱癌、尿路癌、甲状腺癌、腎臓癌、癌腫、黒色腫、および／または脳癌細胞などの腫瘍細胞を含んでよい。

特定の態様では、細胞サブセットは、例えば、上記セクションに記載されているような白血球を含む。白血球は、腫瘍浸潤白血球（例えば、癌細胞との混合物または癌細胞から精製された）であってよい。白血球細胞サブセットは、ナイーブＢ細胞および記憶Ｂ細胞の内の１種または複数など、およびＣＤ８Ｔ細胞、ＣＤ４ナイーブＴ細胞、ＣＤ４記憶ＲＯ不活性Ｔ細胞、ＣＤ４記憶ＲＯ活性化Ｔ細胞、濾胞性ヘルパーＴ細胞、および制御性Ｔ細胞の内の１種または複数などのリンパ球を含んでよい。特定の態様では、白血球細胞サブセットは、Ｂ細胞、プラズマ細胞、ＣＤ８Ｔ細胞、ＣＤ４Ｔ細胞、ガンマデルタＴ細胞、ＮＫ細胞、単球、マクロファージ、樹状細胞、マスト細胞、好酸球、および好中球細胞サブセットの内の１種または複数を含んでよい。

特定の態様では、細胞サブセットは、次の細胞サブセットの２個以上、５個以上、１０個以上、１５個以上、または全部を含んでよい：ナイーブＢ細胞、記憶Ｂ細胞、プラズマ細胞、ＣＤ８Ｔ細胞、ナイーブＣＤ４Ｔ細胞、ＣＤ４記憶ＲＯ不活性Ｔ細胞、ＣＤ４記憶ＲＯ活性化Ｔ細胞、濾胞性ヘルパーＴ細胞、制御性Ｔ細胞、ガンマデルタＴ細胞、非刺激ＮＫ細胞、刺激ＮＫ細胞、単球、マクロファージＭ０、マクロファージＭ１、マクロファージＭ２、非刺激樹状細胞、刺激樹状細胞、非刺激マスト細胞、刺激マスト細胞、好酸球、および好中球。

上述のように、物理的試料、例えば、生物試料は、多くの物理的試料、例えば、生物試料のいずれであってもよい。特定の態様では、生物試料は、保管された組織試料、血液試料、固体組織試料、腫瘍試料、精製試料、白血球濃縮試料、またはこれらの組み合わせである。

本方法は、特徴プロファイルに寄与する異なる成分の相対比率の正確な推定値を提供し得る。いくつかの事例では、別に決定された異なる成分の相対比率の推定値に対して比較した場合、本方法により得られる推定値は、０．５０以上、例えば、０．６０以上、０．７０以上、０．８０以上、０．８５以上、０．９０以上、０．９５以上、０．９７以上の、０．９９以上を含む統計的に有意なＲ値（例えば、ピアソン積率相関係数）を有してよく、およびいくつかの事例では、０．９９以下、例えば、０．９８以下、０．９６以下、０．９４以下、０．９２以下、０．９０以下の、０．８５以下を含む統計的に有意なＲ値を有してよい。いくつかの事例では、別に決定された異なる成分の相対比率の推定値に対して比較した場合、本方法により得られる推定値は、０．５０〜０．９９、例えば、０．６０〜０．９８、０．７０〜０．９６の範囲の、０．８０〜０．９４を含む範囲の統計的に有意なＲ値を有してよい。別に決定された異なる成分の相対比率の推定値は、任意の好適な別の推定値であってよい。いくつかの事例では、別の推定値は、試料に添加された異なる成分の既知の量である。いくつかの事例では、別の推定値は、フローサイトメトリー（例えば、蛍光標識細胞分取（ＦＡＣＳ））分析から得られた推定値である。

コンピューターシステムおよびコンピューター可読記憶媒体
図２０は、特定の実施形態によるコンピューターシステム２０００のブロック図である。

図２０に示すように、システム２０００は、１つまたは複数の処理ユニット（本明細書では「プロセッサー」とも呼ばれる）２００２、記憶装置２００４（すなわち、コンピューター可読記憶媒体）、入力／出力（Ｉ／Ｏ）インターフェース２００６、およびネットワークコミュニケーションインターフェース２００８を含む。これらの構成要素は、１つまたは複数のコミュニケーションバスまたは信号ラインを介して相互に通信する。いくつかの実施形態では、記憶装置２００４、または記憶装置２００４のコンピューター可読記憶媒体は、オペレーティングシステム２０１２、プログラム、モジュール、命令、および保存データを保存する。１つまたは複数のプロセッサー２００２は、記憶装置２００４に接続され、これらのプログラム、モジュール、および命令を実行するように機能し、保存データから読み出す／保存データに書き込む。

いくつかの実施形態では、処理ユニット２００２は、単一コアまたはマルチコアマイクロプロセッサーなどの１つまたは複数のマイクロプロセッサーを含む。いくつかの実施形態では、処理ユニット２００２は、１つまたは複数の汎用プロセッサーを含む。いくつかの実施形態では、処理ユニット２００２は、１つまたは複数の専用プロセッサーを含む。

いくつかの実施形態では、記憶装置２００４は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭまたはその他のランダムアクセスソリッドステートメモリーデバイスなどの高速ランダムアクセスメモリーを含む。いくつかの実施形態では、記憶装置２００４は、１つまたは複数の磁気ディスク記憶装置、光学的ディスク記憶装置、フラッシュメモリーデバイス、またはその他の不揮発性のソリッドステート記憶装置などの不揮発性のメモリーを含む。いくつかの実施形態では、記憶装置２００４は、処理ユニット２００２から離れた位置にある１つまたは複数の記憶装置を含む。記憶装置２００４、あるいは、記憶装置２００４内の不揮発記憶装置（単一または複数）は、コンピューター可読記憶媒体を含む。いくつかの実施形態では、記憶装置２００４は、非一時的コンピューター可読記憶媒体を含む。

いくつかの実施形態では、Ｉ／Ｏインターフェース２００６は、１つまたは複数のディスプレイ、キーボード、タッチセンシティブ表面（トラックパッドまたはタッチディスプレイのタッチセンシティブ表面など）、スピーカー、およびマイクロフォンなどの１つまたは複数の入力／出力装置に接続される。Ｉ／Ｏインターフェース２００６は、ユーザーからのユーザー入力（例えば、音声入力、キーボード入力、など）を受け取り、それらを適宜処理するように構成されてよい。Ｉ／Ｏインターフェース２００６はまた、システム２０００上に実装された種々のプログラム命令に応じて、出力（例えば、音、画像、テキスト、など）をユーザーに提示するように構成されてよい。

いくつかの実施形態では、ネットワークコミュニケーションインターフェース２００８は、有線通信ポート（単一または複数）および／または無線送受信回路を含む。有線通信ポート（単一または複数）は、１つまたは複数の有線インターフェース、例えば、イーサネット、ユニバーサルシリアルバス（ＵＳＢ）、ファイアワイア、などを介して通信信号を送受信する。無線回路は、ＲＦ信号および／または光信号をコミュニケーションネットワークおよびその他のコミュニケーションデバイスへ／から送受信する。無線コミュニケーションは、ＧＳＭ、ＥＤＧＥ、ＣＤＭＡ、ＴＤＭＡ、ブルートゥース、Ｗｉ−Ｆｉ、ＶｏＩＰ、Ｗｉ−ＭＡＸ、または任意の他の好適な通信プロトコルなどの複数のコミュニケーション標準、プロトコルおよび技術のいずれかを使用してよい。ネットワークコミュニケーションインターフェース２００８は、システム２０００と、インターネット、イントラネットおよび／または携帯電話ネットワークなどの無線ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）および／または都市間ネットワーク（ＭＡＮ）、およびその他のデバイスなどのネットワークとの通信を可能とする。ネットワークコミュニケーションインターフェース２００８は、システム２０００とその他のデバイスとの間のネットワークを介したコミュニケーションを容易にするように構成される。

いくつかの態様では、コンピューター２０００は、パーソナルデバイス（例えば、ラップトップ、デスクトップ、職場のコンピューター、携帯型デバイス、など）であってよい。パーソナルデバイスであるコンピューター２０００は、ネットワークに接続する必要はない。

いくつかの態様では、コンピューター２０００は、サーバーまたは一群のサーバーであり、Ｉ／Ｏインターフェースを必要としなくてもよい。例えば、コンピューター２０００は、サーバーであってよく、本開示のデコンボリューションプログラム、例えば、ＳＶＲアプリケーション、２０２０は、ウエブサイト経由でユーザーによりアクセスされてよい。

いくつかの実施形態では、オペレーティングシステム２０１２（例えば、ＬＩＮＵＸ、ＵＮＩＸ、ＯＳＸ、ＷＩＮＤＯＵＳ、または組み込みオペレーティングシステム）は、一般システムタスク（例えば、メモリー管理、記憶装置制御、電源管理、など）を制御および管理するための種々のソフトウェアコンポーネントおよび／またはドライバーを含み、種々のハードウェア、ファームウェア、およびソフトウェアコンポーネント間のコミュニケーションを容易にする。

システム２０００は、一例に過ぎず、システム２０００は、示したものより多いもしくはより少ない構成要素を有してよく、２つ以上の構成要素を組み合わせてもよく、または構成要素の異なる構成もしくは配置を有してもよいという点に留意すべきである。図２０の種々の構成要素は、１つまたは複数のシグナルプロセッシング回路および／または特定用途向け集積回路を含む、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組合せに実装してよい。

図２０では、デコンボリューションプログラム、例えば、サポートベクター回帰（ＳＶＲ）アプリケーション、２０２０は、記憶装置２００４中の保存された１つまたは複数のプログラムを含み、上記方法の項の１つまたは複数の実施形態に従って方法を実施する命令を含む。デコンボリューションプログラム、例えば、ＳＶＲアプリケーション、２０２０は、下記の代表的モジュールまたはそれらのサブセットまたはスーパーセットのいずれかを含んでよい。

いくつかの事例では、上記方法の項に記載の一実施形態に従って、デコンボリューションモジュール、例えば、ＳＶＲモジュール２０２２は、サポートベクター回帰、または線形損失関数、およびＬ_２ノルムペナルティ関数を最小化する任意の他の回帰アルゴリズムを、異なる成分、例えば、細胞サブセット、特徴シグネチャーの基準マトリックスを使って、物理的試料、例えば、生物試料、または物理系の特徴プロファイルに適用し、物理的試料、例えば、生物試料、または物理系中の異なる成分、例えば、細胞サブセットの相対比率を推定するように構成されてよい。

選択モジュール２０２４は、上記方法の項で記載のいずれ化の実施形態に従って、シグネチャーマトリックス中に含めるように特徴を選択（または選別）するように、および／または特徴プロファイル（単一または複数）を選択するように構成されてよい。

ＲＭＳＥモジュール２０２６は、上記方法の項に記載のいずれかの実施形態に従って、異なるν値と比較して最小誤差を有する結果を決定するように構成されてよい。

有意値モジュール２０２８は、ａ）親特徴プロファイルからランダムにから選択された特徴を含むランダム特徴プロファイルｍ^＊を生成し、親特徴プロファイルが特徴プロファイルを含み、ｍおよびｍ^＊が同じユークリッドノルムを有すること、ｂ）ｍ^＊と基準マトリックスＢとの間の回帰を最適化し、ｍ^＊がＢの一次結合としてモデル化され、最適化することが、回帰の一連の回帰係数を含むｆ^＊を解くことを含み、解が線形損失関数、およびＬ_２ノルムペナルティ関数を最小化すること、ｃ）ｆ^＊と基準マトリックスＢの積を計算し、再構成特徴プロファイルを生成すること、ｄ）ランダム特徴プロファイルｍ^＊と再構成特徴プロファイルとの間の差異測定値を決定すること、およびｅ）ステップａ）〜ｄ）のｉ回（ｉは２以上の数）の反復から決定される差異測定値の分布に基づいて、有意値を決定すること、によって特徴プロファイルのサブセットを選択することにより細胞サブセットの相対比率を推定するための有意値を決定するように構成されてよい。有意値モジュール２０２８は、ステップｂ）で、デコンボリューションモジュール、例えば、ＳＶＲモジュールを用いてよい。有意値モジュール２０２８は、上記方法の項で記載のその他の実施形態のいずれかを実施するようにさらに構成されてよい。

デコンボリューションプログラム、例えば、ＳＶＲアプリケーション、２０２０は、上記方法の項で記載のその他の実施形態のいずれかを実施するために追加のモジュールを含むようにさらに構成されてよい。特定の態様では、デコンボリューションプログラム、例えば、ＳＶＲアプリケーション、２０２０は、コンピューター２０００から離れた携帯型コンピューターの可読記憶媒体中に保存されてよい。

いくつかの実施形態では、記憶装置２００４は、上記方法の項のいずれかの実施形態の特徴プロファイル２０３０を保存する。いくつかの実施形態では、記憶装置２００４は、上記方法の項のいずれかの実施形態のシグネチャーマトリックス２０３２を保存する。いくつかの実施形態では、記憶装置２００４は、上記方法の項のいずれかの実施形態の推定細胞サブセット比率２０３４を保存する。

本明細書記載の方法は、コンピューターシステム２０００により実施される。いくつかの実施形態では、コンピューターシステム２０００は、分散コンピューターシステムである。例えば、コンピューターシステム２０００は、第２セットの１つまたは複数のプロセッサーから離れた位置の第１セットの１つまたは複数のプロセッサーを含む。いくつかの実施形態では、コンピューターシステム２０００は、ウェブインターフェースを提供するように構成されたウェブサーバーを含む。いくつかの実施形態では、ウェブインターフェースは、データを受信するように構成される。いくつかの実施形態では、ウェブインターフェースは、結果を表示するように構成される。

特定の態様では、デコンボリューションプログラム、例えば、ＳＶＲアプリケーション、２０２０は、ユーザーによる設定が可能である。例えば、デコンボリューションプログラム、例えば、ＳＶＲアプリケーション、２０２０は、１つまたは複数の設定、例えば、デコンボリューションアルゴリズム、例えば、ＳＶＲをニューの値に適用するための特徴プロファイル２０３０および／またはシグネチャーマトリックス２０３２、選択モジュール２０２４により特徴が選択される判定基準、有意値モジュール２０２８により実行される繰り返しの数、または上記方法の項に記載の１つまたは複数の実施形態を許容すると思われる任意の他の設定、をユーザーに決定可能とするように構成されたユーザーインターフェースモジュール（図示せず）を含んでよい。

有用性
本開示のさらなる態様は、生物試料の特徴プロファイルに基づいて、生物試料中の細胞サブセットを正確に列挙する方法およびシステムを含む。特徴プロファイルは、遺伝子発現プロファイル、タンパク質発現プロファイル、腫瘍遺伝子型プロファイル、およびバイオマーカープロファイルを含む。本システムおよび方法は、混合生体物質の分析のためのその他の細胞サブセットデコンボリューション法に比べて進歩を示し、可能な用途には、免疫モニタリングならびに新規バイオマーカーおよび治療標的の発見が含まれる。

いくつかの事例では、本方法は、複合組織由来のＧＥＰ中の多様な細胞サブセットの相対的比率を正確に決定し、それぞれの結果に対する統計的信頼度の尺度を与える。本方法は、（ｉ）ノイズまたは未知の含量および（ｉｉ）密接に関係した細胞型を含む混合物の分析のための大きく改善された精度を示す（図１５）。さらに、統計的選別と共に適用される場合、本方法は、細胞サブセットの極めて高感度で特異的な識別を可能とする（図１ｂ、ｃ）。

特定の態様では、それらの遺伝子発現プロファイルから複合組織の細胞組成物の特性を明らかにする方法が提供される。固形腫瘍を含む、新しい、凍結、および固定組織由来のＲＮＡ混合物中の造血サブセットの列挙に適用される場合、本方法は、ノイズ、未知の混合物含量、および密接に関係した細胞型の観点で、その他の方法より性能が優れている。本システムおよび方法は、細胞バイオマーカーおよび治療標的のためのＲＮＡ供試体の大規模分析を可能とするはずである。全組織からＲＮＡ混合物中の細胞サブセットを正確に列挙する方法は、したがって、疾患関連細胞の変動への新規洞察を容易にすることが可能であろう。

いくつかの実施形態では、本方法は、新しい、凍結、および固定臨床検体に由来するマイクロアレイまたはＲＮＡ−Ｓｅｑデータ中の細胞の不均一性を分析する方法を提供し、それにより、入力として生細胞を必要とする方法を補完する。

本発明の方法およびシステムは、系内の複数の異なる成分の分布の推定が望ましい様々な用途での使用を見出す。いくつかの事例では、本方法およびシステムは、環境モニタリング、食物品質および安全性検査、電気使用量モニタリング、交通渋滞モニタリング、消費者製品安全性、などに使用され、物理的試料または物理系の特徴プロファイルのデコンボリューションは、多くの成分の複合混合物への個々の成分の寄与を与え得る。

本方法およびシステムはまた、本開示の方法により決定される、疾患の個体由来の試料中の１つまたは複数の異なる成分の相対比率と臨床転帰との間の関連性に基づいて、個体の疾患を評価すること、疾患の臨床試料特徴の予測、予後および／または診断値を評価すること、および／または疾患治療の臨床転帰を予測すること、にも用途を見出し得る。

したがって、本明細書で提供されるのは、疾患を有する個体から生物試料を得ること、および本明細書に記載のように、特徴プロファイルのデコンボリューション法を実施することにより、試料中に存在する複数の異なる成分中の１つまたは複数の異なる成分の分数表現を推定することを含む方法である。１つまたは複数の異なる成分の推定分数表現は、異なる成分の推定分数表現と疾患の臨床転帰との相関に基づいて、疾患を予測および／または診断するためのおよび／または治療に対する応答を予測するためのその値を決定するために使用し得る。したがって、本方法は、疾患の予後または診断のための、および／または疾患の治療の転帰を予測するための新規バイオマーカーを提供する。次に、疾患の治療の臨床転帰を、新規バイオマーカーに基づいて予測し得る。

本明細書で使用される場合、イベントまたは転帰が起こる前に、「予測すること」は、特定のイベントが起こる、もしくは起こる可能性がある、または転帰が達成される、もしくは達成される可能性があることを立証するプロセスを意味する。いくつかの事例では、治療に対する転帰を予測することは、治療が患者に投与される前に行われる。

疾患は、限定されないが、癌、糖尿病、炎症性疾患、自己炎症性疾患、感染症、神経疾患（例えば、アルツハイマー病、パーキンソン病、多発性硬化症、認知症、うつ病、精神障害、など）、代謝疾患、心臓血管疾患、筋ジストロフィー、ハンチントン病、などの任意の好適な疾患であってよい。

いくつかの事例では、疾患は癌であり、癌は、限定されないが、ヒト肉腫および癌腫、例えば、線維肉腫、粘液肉腫、脂肪肉腫、軟骨肉腫、骨肉腫、脊索腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ管内皮肉腫、滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、結腸癌、膵臓癌、乳癌、卵巣癌、前立腺癌、扁平上皮細胞癌、基底細胞癌、腺癌、汗腺癌、脂腺癌、乳頭癌、乳頭状腺癌、嚢胞腺癌、髄様癌、気管支原性肺癌、腎細胞癌、肝細胞腫、胆管癌、絨毛癌、精上皮腫、胚性癌腫、ウイルムス腫瘍、子宮頸癌、精巣腫瘍、肺癌、小細胞肺癌、膀胱癌、上皮癌、神経膠腫、星状細胞腫、髄芽腫、頭蓋咽頭腫、上衣腫、松果体腫、血管芽腫、聴神経腫瘍、乏突起神経膠腫、髄膜腫、黒色腫、神経芽腫、網膜芽細胞腫、白血病、例えば、急性リンパ性白血病および急性骨髄性白血病（骨髄芽球性、前骨髄球性、骨髄単球性、単球性および赤白血病）；慢性白血病（慢性骨髄性（顆粒球性）白血病および慢性リンパ性白血病）；および真性多血症、リンパ腫（ホジキン病および非ホジキン病）、多発性骨髄腫、ワルデンストレーム高ガンマグロブリン血症、濾胞性リンパ腫および重鎖病、などの任意の好適な癌であってよい。

個体は任意の好適な患者であってよい。いくつかの事例では、患者は疾患と診断されている。いくつかの事例では、患者はその疾患の治療を受けたことがある。いくつかの実施形態では、試料は、同じまたは類似の疾患を有する個体のコホートから得られ、該コホートは、１人以上、例えば、２人以上、３人以上、５人以上、１０人以上、２０人以上、５０人以上、１００人以上、２００人以上の個体、４００人以上を含む個体を含んでよい。

治療は、任意の好適な治療であってよい。いくつかの事例では、治療には、医薬組成物を個体に投与することを含み、医薬組成物は、天然由来および／または合成薬物、例えば、小分子薬物、抗生物質、抗体、ワクチン、などを含んでよい。いくつかの事例では、治療は免疫療法である。

本開示の方法はまた、診断、予後、および／または処置に対する予測応答の結果を示す物理的／有形のレポートおよび／または電子レポートを生成することを含んでよい。レポートは、任意の好適な形式で、例えば、限定されないが、紙、非一時的なコンピューター可読コンピューター可読媒体（例えば、コンパクトディスク、ユニバーサルシリアルバスドライブ、など）、電子メール、などで提供されてよい。いくつかの実施形態では、レポートは、医療関係者（例えば、医師、看護師、薬剤師、など）および／または個体のための１つまたは複数の推奨処置コース（例えば、治療を継続すべきか否か、どの治療を投与すべきか、など）を含む。

本明細書で引用された全ての出版物および特許出願は、あたかもそれぞれの出版物または特許出願が具体的かつ個々に、参照により組み込まれると示されるように参照により本明細書に組み込まれる。いずれの出版物の引用も、出願日の前のそれの開示が目的であり、本発明が、先行発明の理由でこのような出版物に先行する権利がないことを承認するものと解釈されるべきではない。

本発明を説明するために提供され、本発明の範囲を限定すると多少なりとも解釈されるべきではないという理解を前提として、本発明をさらに説明するために、以下の具体的実施例が提供される。

実験
実施例１：複合組織の発現プロファイルからの細胞サブセットのロバストな列挙
ＣＩＢＥＲＳＯＲＴは、基準遺伝子発現シグネチャーの入力マトリックスを使って、それぞれの目的の細胞型の相対比率を推定する。しかし、細胞型特異的発現パターンは、それぞれの遺伝子に対し必要とされない（方法の項参照）。混合物をデコンボリューションするために、ノイズに対しロバストな機械学習手法^９である線形サポートベクター回帰（ＳＶＲ）の新規アプリケーションが用いられた。多くの他の方法とは異なり、ＳＶＲは、特徴選択を実行する。この場合、遺伝子は、シグネチャーマトリックスから、所与の混合物のデコンボリューションに適応するように選択される。次に、実験的に定められるデコンボリューションの全体ｐ値が決定される（図１ａ、方法の項参照）。

最初の適用として、バルク腫瘍からの白血球デコンボリューションの実現性、したがって、白血球シグネチャーマトリックスの設計および有効性が見極められた。ＬＭ２２と命名されたこのシグネチャーマトリックスは、７種のＴ細胞型、ナイーブおよび記憶Ｂ細胞、プラズマ細胞、ＮＫ細胞、および骨髄サブセット（図１６、図４、方法の項参照）を含む、２２個の成熟ヒト造血集団および活性化状態を正確に識別する５４７個の遺伝子からなる。細胞サブセットは、造血ヒエラルキーの共通系統に基づいて、１１種の主要白血球タイプにさらに分類できる（図１６）。ＣＩＢＥＲＳＯＲＴを使って、ＬＭ２２を最初に、種々の方法で精製した白血球サブセットのプロファイルを有する追加のデータセットに対し検証して、統合遺伝子の細胞型特異性を確認し、９３％のデータセットを異なる細胞表現型に正確に分類した（図１ｂ、図５ａ、図１７）。さらなる検証として、ＣＩＢＥＲＳＯＲＴにより、５人のヒト扁桃腺から流動選別したＴおよびＢ細胞の高純度に適合する結果が得られた（図５ｂ）。

ＣＩＢＥＲＳＯＲＴの実験的ｐ値測定法の感度および特異性を評価するために、ＬＭ２２を３，０６１個のヒトトランスクリプトームのデコンボリューションに適用した^１０。モンテカルロベースランダム遺伝子サンプリングを用いて、「ゼロ」混合物を生成し（方法の項参照）、その後、既知の造血および非造血細胞源からの発現プロファイルを、ＣＩＢＥＲＳＯＲＴを使って、「正」および「負」試料としてスコア化した。この区別は、種々に精製した一次組織供試体（ｎ＝１，８０１合計、正＝１，４２５、負＝３７６）および形質転換細胞（ｎ＝１，２６０合計、正＝１１８、負＝１，１４２）に対し別々に考慮に入れた。両群では、約０．０１の実験的ｐ値閾値で、ＣＩＢＥＲＳＯＲＴは、負試料から正試料の識別に対し、９４％以上の感度および９５％以上の特異性を達成した（ＡＵＣ≧０．９８；図１ｃ）。注目すべきことに、ＬＭ２２の代わりに独立に得た白血球シグネチャーマトリックス^４を使っても同様の結果であり（データは示さず）、手法の一般性を裏付けた。

次に、素性の明確な組成を有する理想化混合物に対し、ＣＩＢＥＲＳＯＲＴをベンチマークした。この混合物では、大部分の混合物が精製細胞型の極めて異なる（無相関の）基準プロファイルで占められ得、未知の細胞含有物からの寄与およびノイズは最小限である^{４、１１、１２}。ＣＩＢＥＲＳＯＲＴの結果を、６種のＧＥＰデコンボリューション法と比較した。その内４種は、基準発現プロファイルを入力として採用した、ＰＥＲＴ^６、二次計画法（ＱＰ）^５、線形最小２乗回帰（ＬＬＳＲ）^４、およびロバスト線形回帰（ＲＬＲ）であり、２種は、所与の細胞型中で特有に発現した遺伝子を入力として採用する（すなわち、マーカー遺伝子）、ＭＭＡＤ^７およびＤＳＡ^８である（図１８）。我々の知る限り、ＲＬＲは、この仕事で初めてＧＥＰデコンボリューションに適用されたことに留意されたい。その他の方法と同様に、血液癌細胞株^４および神経細胞型^１２のインビトロ混合物（図６ａ、ｂ）対しても、または全血^１１（図１ｄ、図１９）に対しても、ＣＩＢＥＲＳＯＲＴは、理想化混合物に対し正確な結果を達成した。したがって、ＣＩＢＥＲＳＯＲＴは、ＬＭ２２および非ホジキンリンパ腫非ホジキンリンパ腫に対するリツキシマブ単独療法を受ける直前、直後の患者のプロファイリングされた末梢血を使った免疫モニタリングに有用であるかどうかが問われた。処置後の末梢血単核球（ＰＢＭＣ）のＬＭ２２を使ったＣＩＢＥＲＳＯＲＴ分析は、４人の患者で、リツキシマブにより標的とされるＢ細胞の選択的欠乏を示し（図６ｃ）、特に供試体が直ちに処理できない場合での、免疫療法中の免疫モニタリングに対する有用性を示唆した。

次に、それぞれ極めて異なる基準プロファイルを有する４種の混合血液癌細胞株４からなる、よく使われるベンチマークデータセットを用いて、未知の含量を含む混合物に対する、その他の方法に比べたＣＩＢＥＲＳＯＲＴの技術的性能が比較された（方法の項参照）。これらの混合物を結腸癌細胞株と混合することにより、ヒト固形腫瘍は種々の白血球浸潤（１％〜１００％）を有するように模擬された。非ｌｏｇ線形ノイズの添加も試験し、試料取り扱い、確率的遺伝子発現変動、およびプラットホーム間の差異を模擬した。この模擬フレームワークは固形腫瘍の生物学的混合物を完全に反映するものではないが、免疫含量および添加ノイズが細かく調節および試験可能な合理的なモデルを提供した。さらに、それぞれの方法の性能は、より複雑な混合物の場合に大きく改善できそうにない。

ほぼ全ての方法が信号損失の関数として性能を劣化させ（図７、図１９）、５０％未満の免疫含量で大きな精度の低下を示した。ＣＩＢＥＲＳＯＲＴのみが、腫瘍含量（約９５％まで）およびノイズ（約７０％まで）（図２ａ）の全範囲にわたり既知の混合物比率を正確に分解し、元の組成からかなり異なる混合物に対する高い性能を示した（ピアソンのＲは、約０．０５程度の低さ；図２ｂ）。さらに、多くの固形腫瘍タイプは、５０％より少ない浸潤免疫細胞^１３からなるので、ＣＩＢＥＲＳＯＲＴがその他の方法より性能が優れているパラメーター範囲は、バルク腫瘍分析用として極めて好適する。

バルク組織中の希な細胞型に対してそれぞれの方法の検出限界を評価するために、同じ細胞株であるが、１つの血液細胞を他の３つのサブセットのランダム混合物中に添加したことが異なる第２の合成データセットを作成した。ＣＩＢＥＲＳＯＲＴは、５０％までの腫瘍含量を含む混合物中の０．５％までの細胞比率、および５０％を超える腫瘍含量を有する混合物中の１％までの細胞比率を検出した（図２ｃ）。全ての方法は、より高い腫瘍含量に伴いスパイクインを過大評価したが、影響は、ＣＩＢＥＲＳＯＲＴで最も小さかった（図８）。過大評価は、ＬＭ２２中のそれぞれの細胞型が未知の含量範囲にわたって残りの２１免疫サブセットのランダム組み合わせ中へ添加される場合の別の分析では、あまり発生しなかった（図９）。全体的に見て、ＣＩＢＥＲＳＯＲＴは、一貫して、実際にはいくつかの事例で、他の方法より性能が優れていた（図２ｄ、図７〜９、および図１９）。

ＣＩＢＥＲＳＯＲＴの１つの側面は、シグネチャーマトリックス遺伝子の、特徴選択として知られる、状況依存的分析である。この手順は、ＣＩＢＥＲＳＯＲＴのノイズに対する耐性を高める^１４が、特徴選択が混合物中の細胞サブセットの固有の特性により影響を受ける場合には、１つの細胞型の非存在が密接に関係した細胞型の列挙に影響を与える可能性がある。これを試験するために、ＬＭ２２からの２つの無相関基準プロファイルの単純スパイクシリーズ（マスト細胞およびＣＤ８Ｔ細胞）を使って、選択特徴（すなわち、遺伝子）が所定の混合物の組成物と相関するかどうかを判定した（図１０ａ）。意外にも、このような関係は認められず（図１０ｂ、ｃ）、シグネチャーマトリックス中に存在するが混合物には存在しない細胞型のためのマーカー遺伝子が排気されているとは限らず、むしろ、それらは、回帰を限度内に留めることにより、ＣＩＢＥＲＳＯＲＴにとって有用な可能性があることを示唆した（例えば、ＣＤ８Ｔ細胞が存在するかどうかに関係なく、ＣＤ８Ａが選択され、それらの非存在が知らされているようである；方法の項参照）。

したがって、ＣＩＢＥＲＳＯＲＴの細胞型に対する識別能が、極めて相関した基準プロファイル（例えば、ナイーブ対記憶Ｂ細胞）を使って調査された。このようなプロファイルは、多重共線性を示し、その現象により、類似の細胞型の比率が信頼性高く決定できない^１５。以前の手法は、細胞型特異的発現を有するマーカー遺伝子を必要とすることにより^{７、８、１２}、または極めて異なる遺伝子発現シグネチャー^４、５を使用し、それにより、デコンボリューションのために可能な細胞のレパートリーを制限することにより、この問題を回避している。１０種の次第に高まる相関のある模擬細胞型の合成混合物をデコンボリューションすることにより、ＣＩＢＥＲＳＯＲＴと、他の方法とを比較した。未知の含量または添加ノイズの存在下に係わらず、ＣＩＢＥＲＳＯＲＴは、最も正確に遂行し（図１１）、多様な組織中の多くの細胞サブセットのディープデコンボリューション^３の潜在能力を示すことが明らかになった。

模擬混合物に対しＣＩＢＥＲＳＯＲＴのベンチマークを行って、バルク腫瘍を含む固体組織のインビトロおよびインビボ混合物を試験した。ＬＭ２２を全てのその後の分析のために使用し、したがって、我々の比較評価を発現ベースの方法（すなわち、ＲＬＲ、ＰＥＲＴ、ＱＰ、ＬＬＳＲ）に限定した。最初、乳房組織中に添加した全血の所定の混合物中の白血球デコンボリューションの安定性を試験した^５。加えて免疫関連遺伝子発現との比較により、相対的スパイクイン比率を検証（図２ｅ、左）後、ＣＩＢＥＲＳＯＲＴが他の方法より有意に高い一貫性があることが明らかになった（Ｐ＜０．０２；ｎ＝９個の１００％未満の血液を含む試料；対応のある両側性ウィルコクソン符号付順位検定；図２ｅ、右；図１９）。別に、独立調査全体にわたり、ＣＩＢＥＲＳＯＲＴにより列挙された白血球比率は、癌間より癌タイプ内でより類似性が高かった（図２ｆ）。これらの結果は、未知の含量および研究室特異的要因は、ＣＩＢＥＲＳＯＲＴ性能に対し、ごくわずかな影響しか与えないことを示す。

次に、ＣＩＢＥＲＳＯＲＴは、長期貯蔵のために、検査室で定常的に生成されているホルマリン固定、パラフィン包埋（ＦＦＰＥ）試料に適用可能かどうかが問われた。適合ＦＦＰＥおよび凍結ＤＬＢＣＬ腫瘍（ｎ＝１８）からなる公的に入手可能なＧＥＰを使って、ＣＩＢＥＲＳＯＲＴにより推定された白血球比率は、全ての腫瘍間で有意に相関し（図２ｇ）、その他の方法より一致性が高かったことが明らかになった（図１９）。実際に、ＣＩＢＥＲＳＯＲＴの結果はまた、１８個の個別腫瘍中の１６個（Ｐ＜０．０５；図１２ａ）および特定の細胞サブセット（図１２ｂ）において、有意に相関し、ＦＦＰＥ供試体中の細胞組成物の大規模分析に対する潜在的有用性を暗示した。

固体組織中の白血球含量のグラウンドトルース測定に対してＣＩＢＥＲＳＯＲＴを評価するために、フローサイトメトリーを使って、２種の組織型：初期段階非小細胞肺癌（ＮＳＣＬＣ）の外科的切除中に得た肺供試体、および濾胞性リンパ腫（ＦＬ）患者由来の脱凝集したリンパ節生検材料、中の免疫サブセットを列挙した。（ｉ）正常な肺組織の独立マイクロアレイ調査または（ｉｉ）１４個の対でのバルクＦＬ試料由来のＧＥＰへの適用に係わらず、結果は、対応するフローサイトメトリー測定値に有意に相関し（Ｐ≦０．００５；それぞれ図２ｈおよび２ｉ）、両組織型において、以前の方法より厳密に実験値を反映した（図１９）。

個々の細胞サブセットに対する性能を評価するために、フローサイトメトリーを使ってＬＭ２２のほぼ５０％（２２個の細胞サブセットの１０個）の表現型レパートリーを列挙し、血液および腫瘍生検材料を含む一次ヒト試料のディープデコンボリューションに対するＣＩＢＥＲＳＯＲＴの能力を評価した。２７人の成人対象からの血液試料を、ＰＢＭＣ中のＬＭ２２に収集された１０個の異なる細胞表現型についてプロファイリングした（２０人の対象が９個の細胞型に対しプロファイリングされ、７人がＦＯＸＰ３＋Ｔｒｅｇに対しプロファイリングされた；フローサイトメトリーの方法の項を参照されたい）。これらの１０個の表現型の内で、半分がＬＭ２２中で高度に共線的であり（例えば、ナイーブおよび記憶Ｂ細胞；図４ｃ）、半分がＰＢＭＣ中で頻度が少ない（＜５％）（ナイーブおよび記憶Ｂ細胞、活性化記憶ＣＤ４Ｔ細胞、ガンマデルタＴ細胞、およびＴｒｅｇ）。分析した表現型の多様性に係わらず、９０％の異なる白血球サブセットが、ＣＩＢＥＲＳＯＲＴとフローサイトメトリーとの間で有意に相関し（Ｐ≦０．０２；図３ａ）、これには、中央値比率が５％の５個のサブセットの内の４個（例えば、Ｔｒｅｇ；図３ｂ）が含まれる。ガンマデルタＴ細胞のみが有意でなく（正に相関したにもかかわらず；Ｒ＝０．２９）、おそらく、フローサイトメトリーまたは最適でない基準プロファイルの使用に付随する技術的問題が原因であろう（図５ａ）。別に、１４人のＦＬ患者由来の腫瘍生検材料中のＣＤ４／ＣＤ８Ｔ細胞および悪性Ｂ細胞のレベルを調査し、フローサイトメトリーおよびマイクロアレイによりプロファイリングした（すなわち、図２ｉ）。ＣＩＢＥＲＳＯＲＴにより推定された全３つのサブセットの比率は、フローサイトメトリーと有意に相関した（Ｐ≦０．０２；図３ｃ）。

同じデータセットに適用した場合、その他の発現ベースの方法は、一般に、正確性が低く、５０％を超える分析表現型に対し、有意な相関が得られなかった（図３ｄ、図１３〜１４、図１９）。さらに、特定のサブセットは、他の方法によって列挙する場合に、完全な「脱落」を生じる傾向があり、おそらく、多重共線性によるものであろう（例えば、ＱＰおよびＬＬＳＲにより推定されたＰＢＭＣ中のナイーブＣＤ４Ｔ細胞レベル；図３ｄ、図１３〜１４）。さらに、ＦＬ腫瘍生検材料においては、個々のサブセットに対してではなく、全ての３個の表現型を一緒に考慮した場合、有意な相関は、その他の方法によってのみ達成された（ＲＬＲにより推定されたＣＤ８Ｔ細胞を除いて；図１４）。これらの性能差異に対する可能性のある理由は、方法の項で考察される。まとめると、これらの結果は、組織中の複合組成物との細胞サブセットのディープデコンボリューションおよび列挙に対するＣＩＢＥＲＳＯＲＴの利点をさらに実証している。

実験方法
実施例１では、次の方法を使用した。

患者試料
この調査の全患者試料は、ヘルシンキ宣言に準拠して、スタンフォード大学研究所審査委員会により審査および承認された。図５ｂに関しては、スタンフォード大学のＬｕｃｉｌｅＰａｃｋａｒｄＣｈｉｌｄｒｅｎ’ｓＨｏｓｐｉｔａｌにおいて、研究用途としてのインフォームドコンセントの下でルーチン扁桃摘出術の一部として扁桃腺が収集され、その後、細胞懸濁液を凍結保存する前に機械的に脱凝集した。図６ｃに示す「患者１」に関しては、測定できるほどの循環疾患のない対象の節外性辺縁帯リンパ腫（ＥＭＺＬ）のための単独療法としての注入投与リツキシマブ（３７５ｍｇ／ｍ^２）の毎週４回投与前および直後に採取した供試体から末梢血単核球（ＰＢＭＣ）を単離した。図６ｃの患者２および３に関しては、ＤＬＢＣＬの処置のための４サイクルまたは６サイクルのＲＣＨＯＰ免疫化学療法直後に採取した供試体からＰＢＭＣをそれぞれから単離した。図６ｃの患者４に関しては、ＦＬの処置用の４サイクルのリツキシマブ投与後に、患者から単離した。この患者は、診断時に、約２％の循環リンパ腫細胞を有しており、これは、４回のリツキシマブ注入後、ＣＩＢＥＲＳＯＲＴおよびフローサイトメトリーにより検出されなかった。図２ｈに関しては、初期段階非小細胞肺癌の外科的切除中に隣接する正常な肺組織供試体を得た。図２ｉおよび３ｃに関しては、第３相臨床試験（ＮＣＴ０００１７２９０^１７）に登録した未処置ＦＬ患者から外科的組織生検材料を得た。図３ａおよび図３ｂに関しては、ＰＢＭＣを２０人および７人の成人対象からそれぞれ得た。前者は、インフルエンザ免疫（ＮＣＴ０１８２７４６２）を受けた種々の年齢の成人を含み、後者は、図６ｃの「患者４」および６人の健康な対象から構成された（フローサイトメトリーの方法の項を参照）。

フローサイトメトリー
全パネルを以下に詳細記述した。抗体クローンは、括弧内に示した（全ての試薬をＢＤＢｉｏｓｃｉｅｎｃｅｓから得た）図３ａに関連するパネルは、凍結乾燥した試薬プレート（Ｌｙｏｐｌａｔｅ，ＢＤＢｉｏｓｃｉｅｎｃｅｓ，ＳａｎＤｉｅｇｏ，ＣＡ）を使って構成したが、液体抗体として添加した括弧内の試薬は除く。

図５ｂに関しては、扁桃腺由来細胞懸濁液を解凍、洗浄、計数した後、刺激せずに、モノクローナル抗体（上表）で染色し、Ｂ細胞（ＣＤ１９＋）およびＴ細胞（ＣＤ５＋）を標識した。その後の発現プロファイリングのために、それぞれの集団をＦＡＣＳＡｒｉａＩＩ装置（ＢＤＢｉｏｓｃｉｅｎｃｅｓ）を使って、９５％を超える純度に選別した。

図２ｈに関しては、新しい正常肺組織試料を小片に切断し、４５分間のコラゲナーゼＩ（ＳＴＥＭＣＥＬＬＴｅｃｈｎｏｌｏｇｉｅｓ）消化により、単細胞懸濁液に解離させた。解離した単細胞を１ｘ１０^７／ｍＬの濃度で染色緩衝液（２％の加熱不活性化仔ウシ血清を含むＨＢＳＳ）中に懸濁させた。１０μｇ／μＬのラットＩｇＧで１０分間のブロッキング後、上記表で示した抗体細胞を使って少なくとも１０分間染色した。洗浄後、染色した細胞を１μｇ／ｍＬのＤＡＰＩを含む染色緩衝液中に再懸濁し、ＦＡＣＳＡｒｉａＩＩ装置（ＢＤＢｉｏｓｃｉｅｎｃｅｓ）を使って次の集団を列挙した：合計白血球（ＣＤ４５＋）、単球（ＣＤ１４＋）、ＣＤ８Ｔ細胞（ＣＤ８＋）、ＣＤ４Ｔ細胞（ＣＤ４＋）、ＮＫ細胞（ＣＤ５６＋）、およびＢ細胞（ＣＤ１９＋）。

図２ｉおよび３ｃ（および図１４）に関しては、診断ＦＬ腫瘍細胞懸濁液をモノクローナル抗体（上表）で染色し、ＣＤ４Ｔ細胞（ＣＤ４＋）、ＣＤ８Ｔ細胞（ＣＤ８＋）、およびＢ細胞（ＣＤ２０＋）を標識した。染色した細胞をＦＡＣＳＣａｌｉｂｕｒまたはＬＳＲＩＩ３レーザー血球計算器（ＢＤＢｉｏｓｃｉｅｎｃｅｓ）で検出した。

図３ａ（および図１３ａ）に関しては、凍結乾燥した試薬プレート（Ｌｙｏｐｌａｔｅ、ＢＤＢｉｏｓｃｉｅｎｃｅｓ）を使って、健康な成人由来のＰＢＭＣに対してフローサイトメトリーによる表現型検査を実施した。プレートを上表に示す染色混合物を使って構成し、次の細胞サブセットを列挙した：ナイーブＢ細胞（ＣＤ３−ＣＤ１９＋ＣＤ２０＋ＣＤ２４−ＣＤ３８＋）、記憶Ｂ細胞（ＣＤ３−ＣＤ１９＋ＣＤ２０＋ＣＤ２４＋ＣＤ３８−）、ＣＤ８Ｔ細胞（ＣＤ３＋ＣＤ８＋）、ナイーブＣＤ４Ｔ細胞（ＣＤ３＋ＣＤ４＋ＣＤ４５ＲＡ＋ＣＤ２７＋）、記憶ＣＤ４Ｔ細胞（ＣＤ３＋ＣＤ４＋ＣＤ４５ＲＡ−）、ガンマデルタＴ細胞（ＴＣＲｇｄ＋）、ＮＫ細胞（ＣＸＣＲ３＋ＣＤ１６＋ＣＤ５６＋）、および単球（前方散乱および側方散乱特性により特定される）。ＬＳＲＩＩフローサイトメーター（ＢＤＢｉｏｓｃｉｅｎｃｅｓ）^１のＬｙｏｐｌａｔｅ用の発表されたプロトコルに従って染色を行った。上表中の括弧中の試薬は、液体抗体として添加され、Ｌｙｏｐｌａｔｅそれ自体の一部ではなかった。

遺伝子発現における特性の変化は、ナイーブＴ細胞（ＣＤＲ４５ＲＡ＋ＣＤ４５ＲＯ−）から記憶Ｔ細胞（ＣＤ４５ＲＯ＋ＣＤＲ４５ＲＡ−）への表現型の変化を伴う。２つのこのような遺伝子は、活性化Ｔ細胞パネル（上表）中でプロファイリングされた：ＨＬＡ−ＤＲ、主に記憶ＣＤ４Ｔ細胞（ナイーブサブセットに対する）上に発現する標準的Ｔ細胞活性化マーカー、およびＣＤ３８、主にナイーブＣＤ４Ｔ細胞上に発現する別の既知の活性化マーカー^３、４。活性化Ｔ細胞パネルはＣＤ４５ＲＡまたはＣＤ４５ＲＯを含まないが、以前の調査結果は別の調査（データは示さず）由来の、αＣＤ３、αＣＤ４、αＣＤ４５ＲＡ、αＨＬＡ−ＤＲおよびαＣＤ３８を含むパネルを使ってＰＢＭＣがプロファイリングされたデータを解析することにより確認された。６人の健康な対象中のＣＤ３＋ＣＤ４＋細胞の内で、合計ＨＬＡ−ＤＲ＋細胞と、ＨＬＡ−ＤＲ＋ＣＤ４５ＲＡ−（活性化記憶）細胞との間の強い相関が確認された（Ｒ＝０．９７、Ｐ＝０．００１；ＲＭＳＥ＝０．７％）。逆に、合計ＨＬＡ−ＤＲ−ＣＤ３８＋数は、ＨＬＡ−ＤＲ−ＣＤ３８＋ＣＤ４５ＲＡ＋（ナイーブ）細胞と有意に相関し（Ｒ＝０．８７；Ｐ＝０．００１；ＲＭＳＥ＝１１．９％）、ＣＤ３＋ＣＤ４＋ＨＬＡ−ＤＲ＋表現型が健康な成人ＰＢＭＣ中の活性化記憶ＣＤ４Ｔ細胞の妥当な代用物質であることを示唆する。したがって、この調査で、フローサイトメトリーデータを活性化と、非活性化記憶ＣＤ４サブセット（ＬＭ２２由来の）とを比較するために、ＣＤ３＋ＣＤ４＋ＨＬＡ−ＤＲ＋細胞数を使って、活性化記憶ＣＤ４Ｔ細胞のレベルを推定し、合計記憶ＣＤ４Ｔ細胞（ＣＤ３＋ＣＤ４＋ＣＤ４５ＲＡ−）からこれらの値を減算して非活性化記憶ＣＤ４Ｔ細胞を推定した。

最終的に、図３ｂ（および図１３ｂ）で制御性Ｔ細胞（Ｔｒｅｇ）を列挙するために、６人の健康な成人男性から静脈穿刺によりＫ２ＥＤＴＡバキュテイナー（ＢＤＢｉｏｓｃｉｅｎｃｅｓ）中に末梢血を取得し、直ちに処理した。全血をＰＢＳで２倍に希釈し、Ｆｉｃｏｌｌ−ＰａｑｕｅＰｌｕｓ（ＧＥＨｅａｌｔｈｃａｒｅ）を使って単核細胞（ＰＢＭＣ）を単離した。ＰＢＭＣをＰＢＳで２回洗浄し、１個体当たり１ｘ１０^６細胞を、生存可能なように保存した、図６ｃの患者４から取得したＰＢＭＣ由来の１ｘ１０^６と共に、αＣＤ３、およびαＣＤ４で染色した（上表参照）。細胞をＰＢＳ中で洗浄し、Ｆｉｘ／ＰｅｒｍＢｕｆｆｅｒ（ｅＢｉｏｓｃｉｅｎｃｅｓ）中に再懸濁し、氷上で２０分間インキュベートした。細胞をＰｅｒｍ／ＷａｓｈＢｕｆｆｅｒ（ｅＢｉｏｓｃｉｅｎｃｅｓ）で２回洗浄し、αＦＯＸＰ３で染色した。細胞をＰｅｒｍ／ＷａｓｈＢｕｆｆｅｒ中で洗浄し、ＬＳＲＦｏｒｔｅｓｓａフローサイトメーター（ＢＤＢｉｏｓｃｉｅｎｃｅｓ）を使ってデータを収集した。ＴｒｅｇをＣＤ３＋ＣＤ４＋ＦＯＸＰ３＋非ダブレット細胞として確定し、全無処理ＰＢＭＣの比率として列挙した。

遺伝子発現プロファイリング
ＡｌｌＰｒｅｐＤＮＡ／ＲＮＡＭｉｎｉキット（Ｑｉａｇｅｎ）を使って、扁桃腺供試体（図５ｂ）およびＰＢＭＣ（図６ｃの患者１〜３）から核酸を抽出した。ＦＬ供試体（図２ｉ、図３ｃ）については、合計ＲＮＡおよびゲノムＤＮＡを調製し、トリゾールおよびＲＮｅａｓｙＭｉｄｉＫｉｔ（Ｑｉａｇｅｎ，Ｖａｌｅｎｃｉａ，ＣＡ）を使って貯蔵した。これらの患者のサブセットの品質管理評価後、８０％のＦＬ供試体に対し、十分な核酸が確認された。マイクロアレイハイブリダイゼーションの前に、ＦＬ試料由来の合計ＲＮＡを線形増幅した（３’ＩＶＴＥｘｐｒｅｓｓ，Ａｆｆｙｍｅｔｒｉｘ）。全ての上記試料に対し、全ての細胞ＲＮＡ（少なくとも３００ｎｇ）を、収率（ＮａｎｏＤｒｏｐ２０００，ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）および品質（２１００Ｂｉｏａｎａｌｙｚｅｒ，Ａｇｉｌｅｎｔ）に関し評価し、製造業者のプロトコルに従って、ｃＲＮＡをＨＧＵ１３３Ｐｌｕｓ２．０マイクロアレイ（Ａｆｆｙｍｅｔｒｉｘ）でハイブリッド形成した。

この調査では、２つの追加のＰＢＭＣコホートを解析した（図３ａ、ｂ）。第１のコホート（ｎ＝２０人の対象；図３ａ）に関しては、ＰＢＭＣ（約１ｘ１０^６生存細胞／ｍＬ）を１ｍＬのトリゾール（Ｉｎｖｉｔｒｏｇｅｎ）中に採取し、使用するまで−８０℃で貯蔵した。トリゾールプロトコル（Ｉｎｖｉｔｒｏｇｅｎ）に従って、全てのＲＮＡを単離した。合計ＲＮＡ収率をＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃのＮａｎｏＤｒｏｐ１０００微小容積分光光度計を使って評価した（２６０ｎｍの吸光度ならびに２６０／２８０および２６０／２３０の比率）。ＢｉｏａｎａｌｙｚｅｒＮＡＮＯチップ上のラボ装置（Ａｇｉｌｅｎｔ）を使って、ＲＮＡの健全性を評価した。ビオチン化した増幅アンチセンス相補ＲＮＡ（ｃＲＮＡ）標的を、ＩｌｌｕｍｉｎａＲＮＡ増幅キット（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ／Ａｍｂｉｏｎ）を使って、２００〜２５０ｎｇの全ＲＮＡから調製し、７５０ｎｇの標識ｃＲＮＡをＨｕｍａｎＨＴ−１２Ｖ４ＢｅａｄＣｈｉｐアレイ（Ｉｌｌｕｍｉｎａ）で一晩ハイブリッド形成した。その後、アレイを洗浄、ブロッキング、染色し、製造業者のプロトコルに従い、ＩｌｌｕｍｉｎａＢｅａｄＳｔａｔｉｏｎ５００で走査した。ＢｅａｄＳｔｕｄｉｏ／ＧｅｎｏｍｅＳｔｕｄｉｏソフトウェアバージョン１．９．０（Ｉｌｌｕｍｉｎａ）を使って、走査からシグナル強度値を生成した。第２のコホート（図３ｂ）に関しては、６人の健康な男性成人からのＰＢＭＣ（１．４ｘ１０^６〜４．０ｘ１０^６細胞／ｍＬ）を単離し、フローサイトメトリーの方法の項で記載のように調製し、使用するまで−８０℃で凍結した。合計細胞ＲＮＡ（≧３００ｎｇ）を、ＲＮｅａｓｙＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ）を使ってこれら６人の対象から単離し、患者４（図６ｃ）由来の生存可能に保存したＰＢＭＣと合わせて、収率（ＮａｎｏＤｒｏｐ２０００，ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）、および品質（２１００Ｂｉｏａｎａｌｙｚｅｒ，Ａｇｉｌｅｎｔ）に関し評価した。合計ＲＮＡを線形増幅し（３’ＩＶＴＥｘｐｒｅｓｓ，Ａｆｆｙｍｅｔｒｉｘ）、製造業者のプロトコルに従って、ｃＲＮＡをＨＧＵ１３３Ａマイクロアレイ（Ａｆｆｙｍｅｔｒｉｘ）でハイブリッド形成した。

ＣＩＢＥＲＳＯＲＴ：方法
試料中の相対的ＲＮＡ転写物の推定（ＣＩＢＥＲＳＯＲＴ）による細胞型特定のための新規手法が提案される。この戦略は、その他の手法より性能が優れている機械学習法であるニューサポートベクター回帰（ν−ＳＶＲ）^９のベンチマーキング実験への新規適用に基づくものである（図１５、図１９）。ＳＶＲは、サポートベクターマシン（ＳＶＭ）、二値分類問題のための最適化方法の一種であり、該方法では、両クラスを最大距離で分離する超平面が見つけ出される。サポートベクターは、超平面境界を規定する入力データのサブセットである。標準的ＳＶＭと異なり、ＳＶＲは、超平面を入力データポイントに当てはめ、その結果、回帰を実施する（図２１）。ε内（εチューブと呼ばれる）の全てのデータポイントが無視され（図２１の左パネルの中空円）、一方、εチューブの外側にある全てのデータポイントが線形ε非感受性損失関数に従って評価される。「サポートベクター」と呼ばれるこれらの外れ値データポイント（図２１の中実円）は、εチューブの境界を画定し、線形回帰関数を完全に規定するのに十分である。このように、サポートベクターは、回帰に対しスパース解を与えることができ、この場合、過適合は最小化される（特徴選択の一種）。特に、サポートベクターは、本研究では、シグネチャーマトリックスからから選択される遺伝子を表す。

図２１は、線形ν−ＳＶＲで解析された単純な二次元データセットで、結果が２つのνの値に対し示されている（両パネルは、同じデータポイントを示すことに注意）。方法の項で詳細説明されているように、線形ＳＶＲは、一定の距離、ε内の可能な限り多くのデータポイント（中空円）が当てはまる（目的関数^１０が与えられた場合）超平面を特定する（この２次元の例では、この超平面は直線となる）。この「εチューブ」の外側にあるデータポイントは、「サポートベクター」（赤い円）と呼ばれ、線形スラック変数（ξ_ｉ）により、εチューブからの距離に応じてペナルティーが科される。重要なのは、サポートベクター単独で一次関数を完全に規定するのに十分であり、回帰に対する、過適合の確率を減らすスパース解を与える。ν−ＳＶＲでは、νパラメーターは、サポートベクターの下限値および訓練誤差の上限値の両方を決定する。したがって、より高い値のνは、より小さいεチューブおよびより大きな数のサポートベクターを生じる（右パネル）。ＣＩＢＥＲＳＯＲＴの場合は、サポートベクターは、所与の混合物試料の解析用のシグネチャーマトリックスから選択された遺伝子を表し、回帰超平面の方向は、混合物中の推定細胞型の比率を決定する。

ＳＶＲの主要な目的は、与えられた制約条件セットである損失関数およびペナルティー関数の両方を最小化することである。前者はデータの当てはめに関する誤差を測定し、後者は、モデル複雑度を判定する。より具体的には、ＳＶＲは、次の２つの量を最小化する最適化問題を解く：（１）線形ε非感受性損失関数、この関数は、ノイズの多い試料で使われるその他の一般的損失関数（例えば、ＬＬＳＲで使われる二乗誤差）より性能が優れている、および（２）Ｌ_２ノルムペナルティ関数（リッジ回帰で使用されるものと同じ）、これはモデル複雑度ペナルティーを科し、同時に、高度に相関する予測因子（例えば、密接に関係した細胞型）に割り付けられた重みの分散を最小化し、それにより、多重共線性の抑制に努める（例えば、図１１ａ〜１１ｄ、図３ｄ）。

２つの主要なタイプのＳＶＲ、ε−ＳＶＲおよびν−ＳＶＲについて説明するが、しかし、ν−ＳＶＲがＣＩＢＥＲＳＯＲＴに適用される。理由は、νパラメーターが、好都合にも、訓練誤差εの上限値およびサポートベクターのスパーシティの両方を制御する^９ためである。νの高い値は、より狭いεチューブをもたらし、したがって、より多くのサポートベクターを与える（図２１）。ＣＩＢＥＲＳＯＲＴに対して、ν−ＳＶＲを線形カーネルを使って適用して、ｆの解を求め、ν＝｛０．２５，０．５，０．７５｝の３つの値に由来する最良の結果を保存する。ここで、最良は、ｍと、デコンボリューション結果、ｆｘＢの間の最小二乗平均平方根誤差ＲＭＳＥｍｉｎとして定義される。現在のＣＩＢＥＲＳＯＲＴの実装は、Ｒパッケージの「ｓｖｍ」関数、「ｅ１０７１」を使ってν−ＳＶＲを実行する。回帰係数は、次のＲコマンドを用いて抽出される：
ｃｏｅｆ＜− ｔ（ｍｏｄｅｌ＄ｃｏｅｆｓ）％＊％ｍｏｄｅｌ＄ＳＶ

負のＳＶＲ回帰係数は、その後、ゼロに設定され（ＬＬＳＲの場合のように）、残りの回帰係数が１に合計され、細胞型比率、ｆ（特に、ｆは、ｍ中のＢからそれぞれの細胞型の、絶対ではなく相対比率を意味する）の最終ベクターが得られる。実行時間を減らし、より良好な全体的性能を促進するために、ＣＩＢＥＲＳＯＲＴの実施前に、Ｂおよびｍはそれぞれゼロ平均および単位分散に正規化される。他の線形デコンボリューション法に対して前に示唆したように、非ｌｏｇ線形空間での表現値に対し、ＣＩＢＥＲＳＯＲＴは最良に機能する^１９。

まとめると、ＣＩＢＥＲＳＯＲＴにより実装される線形ν−ＳＶＲは、（１）線形損失関数およびシグネチャーマトリックスからの遺伝子の特徴選択の両方によるノイズおよび過適合に対する堅牢性、および（２）Ｌ_２ノルムペナルティ関数の使用による多重共線性に対する耐性を含む、遺伝子発現デコンボリューションの主要な未解決の問題に特有な方式で対処する。さらに、ＣＩＢＥＲＳＯＲＴは、全ての遺伝子に対する細胞型特異的発現パターンを必要とせず、その他の方法より多くの細胞型および表現型状態を含むシグネチャーマトリックスの構築を可能とする（図２２ａ〜２２ｅ）。

図２２ａ〜２２ｅ。（図２２ａ）シグネチャーマトリックス１（ＳＭ１）の色分け地図で、細胞型特異的マーカー遺伝子のみを含む。（図２２ｂ）シグネチャーマトリックス２（ＳＭ２）の色分け地図で、非細胞型特異的マーカー遺伝子のみを含む。（図２２ｃ）ＳＭ１を使って生成した１０個の混合物に対するＣＩＢＥＲＳＯＲＴおよびＤＳＡデコンボリューション性能。（図２２ｄ、２２ｅ）ＳＭ２を使って生成した１０個の混合物に対するデコンボリューション性能。（図２２ｄ）ＣＩＢＥＲＳＯＲＴおよびＲＬＲ、（図２２ｅ）ＱＰ、ＬＬＳＲ、およびＰＥＲＴ。詳細は、オンライン方法を参照されたい。線形回帰（点線）およびピアソン相関（Ｒ）により、既知の細胞型比率と観察細胞型比率との間の統計的一致を判定した。

Ｐ値推定。以前の方法と対照的に、ＣＩＢＥＲＳＯＲＴはまた、モンテカルロサンプリングを使って、デコンボリューションに対する実験的Ｐ値を生成する。この手法は、ＣＩＢＥＲＳＯＲＴは、シグネチャーマトリックス（例えば、ＬＭ２２）中の細胞型が、所与のＧＥＰ混合物、ｍ中に存在しない、という帰無仮説の検定を可能とする。この目的のために、ｍとｆｘＢとの間で計算されるピアソン積率相関Ｒを、検定統計量として使用したが、その他の距離計量法も使用可能である。実験的Ｐ値を導出するために、ＣＩＢＥＲＳＯＲＴは、最初にゼロ分布Ｒ^＊を導出した。シグネチャーマトリックスＢは、全トランスクリプトーム、ｇに比べて、小集団の遺伝子＿ｇのみを含んでいたので、｜ｍ｜＝｜ｍ^＊ _ｉ｜となるように、ｍの親ＧＥＰから表現値をランダムに取り出してランダム混合物ｍ^＊ _ｉを生成した。その後、ＣＩＢＥＲＳＯＲＴをｍ^＊ _ｉに対し実施し、推定細胞の比率、ｆ^＊ _ｉのベクターを生成した。ＣＩＢＥＲＳＯＲＴは、ランダム混合物ｍ^＊ _ｉと再構成混合物、ｆ^＊ _ｉｘＢとの間の相関係数Ｒ^＊ _ｉを決定した。このプロセスをＩ繰り返し回数（この研究ではＩ＝５００回）反復し、Ｒ^＊を生成した。

ＣＩＢＥＲＳＯＲＴ実行時間
同時に３つのν値（＝０．２５、０．５および０．７５；上記参照）を処理するために、実験的Ｐ値を計算後、３スレッドおよび８ＧＢのＲＡＭを備えた２．３ＧＨｚのインテルコアｉ７ＣＰＵを使って、ＬＭ２２を用いて、混合物試料当たり約１．７秒でＣＩＢＥＲＳＯＲＴ実行時間を計測した。後者は、選択された順列の数に依存し、１００ｘで、約１７０秒、または追加の２．７５分かかるであろう。

ＣＩＢＥＲＳＯＲＴ実装
ＣＩＢＥＲＳＯＲＴは、それぞれの細胞型に対するシグネチャー発現プロファイルを規定する遺伝子を列挙するシグネチャー遺伝子と共に、異なる細胞型の混合物を表す遺伝子発現データを処理するために、単純なコマンドラインインターフェースを備えたＪａｖａおよびＲで開発された。これらのデータが与えられれば、ツールは、混合物中に存在するそれぞれの細胞型の分数表現を生成し、それを色分け地図表および積層された試験バープロットの図式表現として提供するためにウエブサイトに戻す。アプリケーションはまた、基準細胞集団の遺伝子発現プロファイルおよびこれらの集団に対するクラス比較表が提供される場合、カスタムシグネチャー遺伝子ファイルを生成できる。

ＣＩＢＥＲＳＯＲＴのバックエンドウェブサイトはＰＨＰで構築される。インタラクティブユーザーインターフェースは、ＴｗｉｔｔｅｒＢｏｏｔｓｔｒａｐ２．３．２により駆動されるウエブサイトのグラフィカルユーザーインターフェースを備えたｊＱｕｅｒｙＪａｖａＳｃｒｉｐｔライブラリーおよび種々のオープンソースライブラリー（ｐｈｐＭａｉｌｅｒ、ｉｄｉｏｒｍ、ｂｌｕｅｉｍｐｊＱｕｅｒｙ−Ｆｉｌｅ−Ｕｐｌｏａｄ、ＤａｔａＴａｂｌｅｓ、ｐｈｐＥｘｃｅｌおよびｍＰＤＦを含む）により駆動される。サイトは、バーチャルマシン上のＡｐａｃｈｅサーバー上で動き、ＭｙＳＱＬデータベース中にユーザーおよびジョブデータを保存する。注目すべきことに、ユーザーは、それらのデータの完全な制御を行い、自由にそれらを削除できる。

ＧＥＰデコンボリューション法
ＬＬＳＲ、ＱＰ、ＲＬＲおよびＤＳＡは、統計学（ｌｍ関数）を使ったＲ、ｑｕａｄｐｒｏｇ、ＭＡＳＳ（ｒｌｍ関数、１００回の最大繰り返し数）、およびＤＳＡ^８パッケージで、それぞれ実行された。ＬＬＳＲからの負の係数をゼロに設定し、Ａｂｂａｓら^４により使用された手法に近づけ、ＱＰを非負性およびＧｏｎｇら^５、１６により使用された１に合計する制約条件で実行した。ＭＭＡＤおよびＰＥＲＴは、作者提供コード^６、７を使ってＭａｔｌａｂで実行した（ＰＥＲＴは、Ｍａｔｌａｂ変換ツール（ｏｃｔ２ｍｌ）を使ってＯｃｔａｖｅから変換した）。注目すべきことに、ＰＥＲＴはその他の発現ベース方法に使用したのと同じシグネチャー遺伝子マトリックスを使って評価された。ＭＭＡＤは、発現ベースデコンボリューションに比べて、この手法により優れた結果が得られたので、マーカー遺伝子のみを使って評価された（Ｌｉｅｂｎｅｒら^７の図３Ｃ対図２Ａ）。しかし、細胞特異的マーカー遺伝子は、ＬＭ２２中の全ての細胞型に対しては決定できないと思われ、したがって、ＭＭＡＤおよびＤＳＡは、ＬＭ２２が適用されるデータセットに対しては実行しなかった。全ての方法を非ｌｏｇ線形空間で実行した。

マイクロアレイデータセットおよび前処理
図１ｂ（および図１７）のＩｌｌｕｍｉｎａまたはＡｇｉｌｅｎｔプラットホームでプロファイリングされた試料を、正規化したマトリックスとして公共リポジトリ（ＮＣＢＩ、ＥＢＩ、文献；図１７に文献として引用されている）からダウンロードし、ＮＣＢＩ遺伝子発現オムニバス（ＧＥＯ）から入手可能なチップセット定義ファイルを使って、プローブをＨＵＧＯ遺伝子シンボルに変換した。図１ｃからのヒトトランスクリプトームデータを、ＲＭＡ正規化したアレイ（Ｅ−ＭＴＡＢ−６２、ＥＢＩＡｒｒａｙＥｘｐｒｅｓｓ）としてダウンロードした。全てのその他のＡｆｆｙｍｅｔｒｉｘアレイ（図１ｂで解析したもの、およびこの研究で生成したものを含む）を、ＣＥＬファイルとして取得し、バイオコンダクター中のａｆｆｙパッケージを使用してＭＡＳ５正規化し、カスタムチップ定義ファイル（Ｂｒａｉｎａｒｒａｙバージョン１６；ｂｒａｉｎａｒｒａｙ．ｍｂｎｉ．ｍｅｄ．ｕｍｉｃｈ．ｅｄｕ／Ｂｒａｉｎａｒｒａｙ／）を使ってＮＣＢＩＥｎｔｒｅｚ遺伝子識別子にマッピングして、ＨＵＧＯ遺伝子シンボルに変換した。図３ａで解析したＩｌｌｕｍｉｎａＢｅａｄＣｈｉｐアレイを、ネガティブコントロール（ｎｅｑｃ関数）を用いてｎｏｒｍｅｘｐバックグラウンド補正を使用し、ｌｉｍａｖ３．２０．８（バイオコンダクター）で正規化した。非Ａｆｆｙｍｅｔｒｉｘプラットホームに対しては、１を超える遺伝子にマッピングしたプローブを、全ての試料にわたり最高平均発現を有するプローブに準じて遺伝子レベルで併合した。全てのマイクロアレイ調査を分析の前に分位正規化した。図２ｈの正常な肺組織に対しては、ＧＥＯデータセット、ＧＳＥ７６７０およびＧＳＥ１００７２を分析し、図２ｇのＤＬＢＣＬ腫瘍の対をなす凍結およびＦＦＰＥ試料に対しては、ＧＳＥ１８３７７を分析した。

ＬＭ２２シグネチャーマトリックス
公共ドメインから、ＨＧＵ１３３Ａプラットホームでプロファイリングされた、２２個の白血球サブセット用のＧＥＰデータを取得した（図１６）。上記のように、プローブを前処理した。それぞれの集団と全てのその他の集団との間で有意差のある発現遺伝子を、両側性不等分散ｔ検定を使って、特定した。０．３未満のｑ値（偽陽性比率２１）の遺伝子を有意と見なした。

それぞれの白血球サブセットに対し、他の細胞サブセットと比較して、有意な遺伝子を減少方向倍率変化により順序づけ、それぞれの細胞サブセットから最上位のＧマーカー遺伝子をシグネチャーマトリックスＢＧに組み入れた。Ｇを全サブセットにわたり５０〜２００繰り返し、最小条件数のシグネチャーマトリックスを保持した（条件数＝１１．４；Ｇ＝１０２；ｎ＝５４７異なる遺伝子）（図１６ａ〜１６ｋ）。注目すべきことに、このシグネチャーマトリックスの条件数は、所与の細胞型の関連細胞型および活性化状態内での一致に起因して、その他のもの（下記）よりも大きい。

交絡デコンボリューション結果からの非造血細胞型の遺伝子発現を防ぐために、２つの遺伝子選別戦略を使用した。第１に、ＨＧＵ１３３Ａに対しプロファイリングされた種々の細胞および組織のオンラインコンペンディア（ｘａｖｉｅｒｌａｂ２．ｍｇｈ．ｈａｒｖａｒｄ．ｅｄｕ／ＥｎｒｉｃｈｍｅｎｔＰｒｏｆｉｌｅｒ／）^２２であるＧｅｎｅＥｎｒｉｃｈｍｅｎｔＰｒｏｆｉｌｅｒを使って、非造血細胞または組織中の濃縮発現を有する遺伝子を特定した。ＧｅｎｅＥｎｒｉｃｈｍｅｎｔＰｒｏｆｉｌｅｒは、その遺伝と他の試料との全てのペアワイズ比較由来の線形モデル係数の合計を基準にして所与の細胞／組織型中の所与の遺伝子に対する濃縮スコア（ＥＳ）を計算する。ＥＳ＞０を有するそれぞれの遺伝子および細胞／組織型に対し、ＧｅｎｅＥｎｒｉｃｈｍｅｎｔＰｒｏｆｉｌｅｒデータベース中の非造血細胞／組織試料の比率が決定され、非造血比率が＞０．０５のシグネチャーマトリックス由来の遺伝子が排除された。第２の選別ステップでは、さらなる分析からの、ＣａｎｃｅｒＣｅｌｌＬｉｎｅＥｎｃｙｃｌｏｐｅｄｉａ（ＣＣＬＥ）でプロファイリングされた全ての非造血癌細胞株中の、平均ｌｏｇ_２発現レベルが≧７の全ての遺伝子が取り除かれた（事前正規化遺伝子発現データを、ＢｒｏａｄＩｎｓｔｉｔｕｔｅからダウンロードしたＣＣＬＥ＿Ｅｘｐｒｅｓｓｉｏｎ＿Ｅｎｔｒｅｚ＿２０１２−０９−２９．ｔｘｔから抽出した）。このシグネチャーマトリックスを「ＬＭ２２」と名付けた。

ＬＭ２２中のそれぞれの白血球サブセットを識別するのに使用される遺伝子シグネチャーを検証するために、シグネチャーマトリックス中にも存在するそれぞれ１つの精製された集団を含む、種々の外部データセットにＣＩＢＥＲＳＯＲＴを適用した。ＡｆｆｙｍｅｔｒｉｘＨＧＵ１３３ＡおよびＨＧＵ１３３Ｐｌｕｓ２．０、ならびにＩｌｌｕｍｉｎａＨｕｍａｎ−６ｖ２ＥｘｐｒｅｓｓｉｏｎＢｅａｄＣｈｉｐの３種のマイクロアレイプラットホーム由来のＧＥＰを試験した。Ａｆｆｙｍｅｔｒｉｘプラットホームを正規化し、シグネチャーマトリックスＧＥＰに対し記載のものと同様に処理した。ＢｅａｄＣｈｉｐデータセットを、処理された正規化マトリックスとして、ＡｒｒａｙＥｘｐｒｅｓｓ（Ｅ−ＴＡＢＭ−６３３）からダウンロードし、１を超えるプローブにマッピングされた遺伝子に対しては、全ての試料にわたり最大発現に関連するプローブをさらに分析した。各サンプルに対し、最大ＣＩＢＥＲＳＯＲＴ推定比率を有する集団を、既知の細胞型と比較し、ＣＩＢＥＲＳＯＲＴの精度を評価した（図１７）。

図１ｃで示した分析では、アレイが１，８０１個の一次ヒト供試体に分類され、これらは、ＬＭ２２中の少なくとも１個の成熟造血サブセットを含む１，４２５個の「陽性」試料ならびに不完全に分化した非造血供試体、正常脳組織（典型的にはミクログリアを含むが、通常はＬＭ２２中の細胞型を含まない）、ならびに造血幹細胞および前駆細胞（ＬＭ２２中にはない）を含む３７６個の「陰性」試料からなる。アレイは、別に１，２６０個の形質転換細胞株似分類され、１１８個の「陽性」造血試料および１，１４２個の「陰性」試料に分けられる。後者は、非造血試料およびＫ５６２骨髄赤芽球性細胞株（起源は造血細胞であるが、ＬＭ２２中のサブセットとは大きく異なっている）の両方からなる。うまく解釈できないアレイは、この分析から除外した。ＣＩＢＥＲＳＯＲＴをその他の方法との比較における有意性選別は適用されなかったが、図２ｆのバルク腫瘍のデコンボリューションに対して、Ｐ値カットオフ（≦０．００５；図１ｃ参照）が課された。

その他のシグネチャーマトリックス
ＬＭ２２（上記）に加えて、図６ａ、６ｂに示すヒト造血細胞株および神経細胞集団の混合物に対し、カスタムシグネチャーマトリックスを設計した。両方の場合において、事前正規化した一連のマトリックスデータセット（ＧＳＥ１１１０３およびＧＳＥ１９３８０）をＧＥＯからダウンロードし、分位正規化した。その後、ＬＭ２２（上記）に対し記載のものと同じ条件数極小化アルゴリズムを使い、非造血遺伝子選別および検証ステップを除いて、シグネチャーマトリックスを構築した。ＧＳＥ１１１０３およびＧＳＥ１９３８０に対する最終のシグネチャーマトリックスを、それぞれ５８４プローブセット（条件数＝１．８６）、および２８０プローブセット（条件数＝１．８）から構成した。ＣＩＢＥＲＳＯＲＴ性能をマーカー遺伝子ベースの方法（図１９におけるような）と比較するために、それぞれのシグネチャーマトリックスからのマーカー遺伝子を、１つの細胞型で、その他に比べて少なくとも５倍高い発現を有する全ての遺伝子を選択することにより決定した（文献７におけるように）。

統計分析
既知と予測細胞型比率の間の一致を、ほとんどの場合、ピアソン相関係数（Ｒ）および二乗平均平方根誤差（ＲＭＳＥ）を使って、それぞれ直線当てはめおよび推定バイアスを測定することにより決定した。重要なのは、後者が百分率として表される細胞型比率に基づいて計算されたことである。必要に応じて、対応のあるまたは対応のない、両側性ウィルコクソン符号付順位検定を使って、群比較を決定した。Ｐ＜０．０５の全ての結果を有意と見なした。統計解析は、Ｒ、ＧｒａｐｈＰａｄＰｒｉｓｍｖ６．０ｄ、またはカスタマイズコードを使って実施した。

付加ノイズを含む模擬腫瘍の分析
６種のＧＥＰデコンボリューション法（ＲＬＲおよびその他の５種^４−８）に対するＣＩＢＥＲＳＯＲＴのベンチマークを、異なるレベルの未知の含量（すなわち、腫瘍）およびノイズを有する混合物に対するそれらの結果を比較することにより行った。適正な比較を容易にするために、あらかじめ定めたインビトロ混合物（ｎ＝１２）の４種の血液細胞株（ＧＳＥ１１１０３）を使用した（図６ａ）。この細胞株のそれぞれは、相互に大きく異なり、容易にデコンボリューションされるものである。発現ベースの方法を評価するために、約６００個の特徴的な遺伝子（上記し、図６ａで適用したもの）を含むシグネチャーマトリックスを使用し、一方、マーカーベースデコンボリューションには、上述のマーカー遺伝子（ｎ＝５００遺伝子）を選択した。浸潤白血球を有する腫瘍を模擬するために、我々は、結腸癌細胞株（ＨＣＴ１１６）由来の所定の入力のＧＥＰとの細胞株混合物と混合し、２つの複写物アレイの平均（ＧＳＭ２６９５２９およびＧＳＭ２６９５３０；ＧＳＥ１０６５０）として計算した。ＧＳＥ１１００３およびＧＳＥ１０６５０データセットの両方ともＭＡＳ５であり、分析の前に一緒に分位正規化した。ノイズを導入するために、次の分布、２＾Ｎ（０，ｆｘσ）（式中、ｆは０〜１の範囲（すなわち、図２ａおよび図７ａのｙ軸）で、σは、ｌｏｇ２空間で表される元の混合物の全体標準偏差（＝１１．６））からランダムにサンプリングした値を加えた。ＧＳＥ１１１０３は、それぞれ３つの複写物を有する４種の異なる混合物からなるので、それぞれのアルゴリズムの性能を１２種の混合物の全体セットにわたり測定した（ＲおよびＲＭＳＥ；図７、図１９）。さらに、これは、９００セットの混合物が一緒に解析されるように、３０個の間隔を規則的に置いて、腫瘍含量（０％〜１００％未満）およびノイズ（ｆ、０〜１）の全域にわたり独立に反復された。

細胞型特異的マーカー遺伝子の分析。密接に関係した細胞型の間の見極めが可能でない場合には、細胞型特異的マーカー遺伝子は困難な場合がある。したがって、シグネチャーマトリックス中で１を超える細胞型を発現したマーカー遺伝子が、それでもＣＩＢＥＲＳＯＲＴに有用であるかどうかを試験した。ただし、シグネチャーマトリックス中のそれぞれの基準プロファイルが特有のままであるという条件が前提である。相対する極端な特性を示す２つの人工シグネチャーマトリックス（１０個の遺伝子型および５個の細胞型をそれぞれ含む）を作成した：１つは細胞型特異的遺伝子のみを含み（ＳＭ１と呼ぶ；図２２ａ）、もう一方は、細胞型特異的遺伝子を全く含まない（ＳＭ２と呼ぶ；図２２ｂ）。注目すべきことに、実際の発現データ由来のシグネチャーマトリックスと異なり、ＳＭ１およびＳＭ２は、完全に明確にされており、したがって、この解析に理想的に適する。さらに、ＳＭ２中の基準プロファイルは、特有のマーカー遺伝子を含まないサブセットに対し予測されるように、高度に相関している。一様分布に従って、ランダム混合比率を生成し、それぞれのシグネチャーマトリックス中の細胞型と組み合わせて１０個の混合物を生成した。その後、１０個の内の１個に遺伝子をランダムに混合し、得られたベクターの５％を１０個の混合物のそれぞれの９５％と混合することにより、低レベルノイズを加えた。ＣＩＢＥＲＳＯＲＴおよびＤＳＡをＳＭ１を使って比較し（図２２ｃ）、ＳＭ２を使って、ＣＩＢＥＲＳＯＲＴ、ＲＬＲ、ＱＰ、ＬＬＳＲ、およびＰＥＲＴを比較した（図２２ｄ、２２ｅ）。ＳＭ１に対して、ＣＩＢＥＲＳＯＲＴは、ＤＳＡと同等の性能であったが、ＳＭ２に対しては、ＣＩＢＥＲＳＯＲＴは、その他の方法よりかなり高い正確さで、ＳＭ１に対するその性能に極めて近かった（図２２ｄ、２２ｅ）。この解析は、細胞型特異的シグネチャーマトリックス遺伝子に対するＣＩＢＥＲＳＯＲＴのより小さい依存性を示し、これはディープデコンボリューションに対する重要な要件である。

細胞サブセット検出限界の分析
２つのコンピューター実験を行って、異なるデコンボリューションアルゴリズムの検出限界を評価した。第１の実験（図８）では、上述の同じ細胞株ＧＥＰを使って、ＣＩＢＥＲＳＯＲＴおよびＲＬＲをその他の５つのＧＥＰデコンボリューション法^４−８と比較した。ジャーカット細胞（スパイクイン濃度：０．５％、１％、２．５％、５％、７．５％および１０％）を使い、その基準ＧＥＰ（ＧＳＥ１１１０３中の３つの複写物の中央値）をランダムに生成したその他の３つの血液細胞株のバックグラウンド混合物中に加えて、検出限界を評価した。それぞれのスパイクイン濃度に対し５つの混合物を生成した。均一に１０％ずつ増やして、０％〜９０％のＨＣＴ１１６（上記）を加えることにより模擬した種々の腫瘍含量の存在下で予測ジャーカット比率を評価した。注目すべきことは、記載した同じマーカー／シグネチャー遺伝子も模擬腫瘍（上記）として使用されたことである。第２の実験（図９ａ）では、ＣＩＢＥＲＳＯＲＴを、ＱＰ^５、ＬＬＳＲ^４、ＰＥＲＴ^６、およびＲＬＲと比較した。白血球シグネチャーマトリックス由来のナイーブＢ細胞ＧＥＰを、シグネチャーマトリックス中の残りの２１個の白血球サブセットの４つのランダムバックグラウンド混合物に添加した。同じバックグラウンド混合物をそれぞれのスパイクインに対しても使用した。所定の比率（０〜９０％）のランダムに順序を変えたナイーブＢ細胞基準トランスクリプトーム（ＬＭ２２を構築するために使用した試料からの中央値発現プロファイル、図１６）由来の表現値を加えることにより、未知の含量の添加も試験した。次に、ＬＭ２２中の残っているそれぞれの白血球サブセットに対し、この解析を繰り返した（図９ｂ）

多重共線性の解析
多重共線性（すなわち、シグネチャーマトリックス中の試料間相関の程度）の未知の成分の混合物（すなわち、シグネチャーマトリックス中で解明されていない混合物の部分）、およびＢまたはｍに加えられたノイズに対する影響に関し、ＣＩＢＥＲＳＯＲＴを３つのシグネチャー遺伝子発現ベースデコンボリューション法、ＱＰ^５、ＬＬＳＲ^４、およびＲＬＲ（この研究）と比較した。元の非ランダムセットの４１遺伝子由来のＰ遺伝子発現値をランダムに選択し、順序を変え、したがって、実際の遺伝子発現分布（ｎ＝１０集団）を維持することにより、４１個のナイーブＢ細胞シグネチャー遺伝子（ＧＳＥ２２８８６^２３由来）からランダムシグネチャーマトリックスを生成した。遺伝子Ｐの数を使って、シグネチャーマトリックス内の多重共線性を制御し（より高いＰ＝より少ない共線性、逆もまた同じ）、それぞれのＰに対し、１０個のランダムシグネチャーマトリックスを生成した。シグネチャーマトリックスからランダムに集団を割り当てることにより、模擬混合物を生成した。未知の含量を模擬するために（図１１ａ〜ｃ）、３種の濃度（５％、２５％、および５０％）の１０個の追加の細胞集団をランダムに混合し、各混合物に加えた。２＾Ｎ（０、ｊ）（指数部は、平均０で標準偏差ｊの正規分布を意味する）からランダムにサンプリングすることにより、非ｌｏｇ線形ノイズを添加により模擬混合物中に導入した（図１１ｄ）。試験した全ての条件下で、ＣＩＢＥＲＳＯＲＴはその他の３つの方法より性能が優れていた。

デコンボリューションの一貫性の解析
好適に入手可能なデータセット（ＧＳＥ２９８３２）にＬＭ２２を適用し、所定のレベルの乳房組織と混合した血液に対するデコンボリューション結果の安定性を測定した。乳房組織と混合された血液の報告された比率を確認するために、これらの比率を、トランスクリプトームの中央値発現レベルで除算し、データセット全体の既知の白血球含量（図２ｅ、左）の範囲に正規化したＬＭ２２中の全ての遺伝子の中央遺伝子発現値（図１６）として、各サンプルに対し決定された正規化ＬＭ２２免疫指標と比較した。一貫性測定法として、デコンボリューション結果を、最高の免疫純度を有する試料から得た結果を有する各サンプルについて比較した（図２ｅ、右）。

参考文献
１．Ｈａｎａｈａｎ，Ｄ．＆Ｗｅｉｎｂｅｒｇ，Ｒ．Ａ．Ｃｅｌｌ１４４，６４６−６７４（２０１１）．
２．Ｃｏｕｓｓｅｎｓ，Ｌ．Ｍ．，Ｚｉｔｖｏｇｅｌ，Ｌ．＆Ｐａｌｕｃｋａ，Ａ．Ｋ．Ｓｃｉｅｎｃｅ３３９，２８６−２９１（２０１３）．
３．Ｓｈｅｎ−Ｏｒｒ，Ｓ．Ｓ．＆Ｇａｕｊｏｕｘ，Ｒ．Ｃｕｒｒ．Ｏｐｉｎ．Ｉｍｍｕｎｏｌ．２５，５７１−５７８（２０１３）．
４．Ａｂｂａｓ，Ａ．Ｒ．，Ｗｏｌｓｌｅｇｅｌ，Ｋ．，Ｓｅｓｈａｓａｙｅｅ，Ｄ．，Ｍｏｄｒｕｓａｎ，Ｚ．＆Ｃｌａｒｋ，Ｈ．Ｆ．ＰＬｏＳＯｎｅ４，ｅ６０９８（２００９）．
５．Ｇｏｎｇ，Ｔ．ｅｔａｌ．ＰＬｏＳＯｎｅ６，ｅ２７１５６（２０１１）．
６．Ｑｉａｏ，Ｗ．ｅｔａｌ．ＰＬｏＳＣｏｍｐｕｔ．Ｂｉｏｌ．８，ｅ１００２８３８（２０１２）．
７．Ｌｉｅｂｎｅｒ，Ｄ．Ａ．，Ｈｕａｎｇ，Ｋ．＆Ｐａｒｖｉｎ，Ｊ．Ｄ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ（２０１３）．
８．Ｚｈｏｎｇ，Ｙ．，Ｗａｎ，Ｙ．−Ｗ．，Ｐａｎｇ，Ｋ．，Ｃｈｏｗ，Ｌ．＆Ｌｉｕ，Ｚ．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１４，８９（２０１３）．
９．Ｓｃｈoｌｋｏｐｆ，Ｂ．，Ｓｍｏｌａ，Ａ．Ｊ．，Ｗｉｌｌｉａｍｓｏｎ，Ｒ．Ｃ．＆Ｂａｒｔｌｅｔｔ，Ｐ．Ｌ．ＮｅｕｒａｌＣｏｍｐｕｔ．１２，１２０７−１２４５（２０００）．
１０．Ｌｕｋｋ，Ｍ．ｅｔａｌ．Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．２８，３２２−３２４（２０１０）．
１１．Ｓｈｅｎ−Ｏｒｒ，Ｓ．Ｓ．ｅｔａｌ．Ｎａｔ．Ｍｅｔｈｏｄｓ７，２８７−２８９（２０１０）．
１２．Ｋｕｈｎ，Ａ．，Ｔｈｕ，Ｄ．，Ｗａｌｄｖｏｇｅｌ，Ｈ．Ｊ．，Ｆａｕｌｌ，Ｒ．Ｌ．Ｍ．＆Ｌｕｔｈｉ−Ｃａｒｔｅｒ，Ｒ．Ｎａｔ．Ｍｅｔｈｏｄｓ８，９４５−９４７（２０１１）．
１３．Ｙｏｓｈｉｈａｒａ，Ｋ．ｅｔａｌ．Ｎａｔ．Ｃｏｍｍｕｎ．４，２６１２（２０１３）．
１４．Ｃｈｅｒｋａｓｓｋｙ，Ｖ．＆Ｍａ，Ｙ．ＮｅｕｒａｌＮｅｔｗ．１７，１１３−１２６（２００４）．
１５．Ｆａｒｒａｒ，Ｄ．Ｅ．＆Ｇｌａｕｂｅｒ，Ｒ．Ｒ．Ｒｅｖ．Ｅｃｏｎ．Ｓｔａｔ．４９，９２−１０７（１９６７）．
１６．Ｇｏｎｇ，Ｔ．＆Ｓｚｕｓｔａｋｏｗｓｋｉ，Ｊ．Ｄ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２９，１０８３−１０８５（２０１３）．
１７．Ｌｅｖｙ，Ｒ．ｅｔａｌ．Ｊ．Ｃｌｉｎ．Ｏｎｃｏｌ．３２，１７９７−１８０３（２０１４）．
１８．Ｌｕ，Ｐ．，Ｎａｋｏｒｃｈｅｖｓｋｉｙ，Ａ．＆Ｍａｒｃｏｔｔｅ，Ｅ．Ｍ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．Ｕ．Ｓ．Ａ．１００，１０３７０−１０３７５（２００３）．
１９．Ｚｈｏｎｇ，Ｙ．＆Ｌｉｕ，Ｚ．Ｎａｔ．Ｍｅｔｈｏｄｓ９，８−９（２０１２）．
２０．Ｄｒｕｃｋｅｒ，Ｈ．，Ｂｕｒｇｅｓ，Ｃ．Ｊ．Ｃ．，Ｋａｕｆｍａｎ，Ｌ．，Ｓｍｏｌａ，Ａ．＆Ｖａｐｎｉｋ，Ｖ．ＳｕｐｐｏｒｔＶｅｃｔｏｒＲｅｇｒｅｓｓｉｏｎＭａｃｈｉｎｅｓ，Ｖｏｌ．９．（ＭＩＴＰｒｅｓｓ，１９９７）．
２１．Ｓｔｏｒｅｙ，Ｊ．Ｄ．＆Ｔｉｂｓｈｉｒａｎｉ，Ｒ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．Ｕ．Ｓ．Ａ．１００，９４４０−９４４５（２００３）．
２２．Ｂｅｎｉｔａ，Ｙ．ｅｔａｌ．Ｂｌｏｏｄ１１５，５３７６−５３８４（２０１０）．
２３．Ａｂｂａｓ，Ａ．Ｒ．ｅｔａｌ．ＧｅｎｅｓＩｍｍｕｎ．６，３１９−３３１（２００５）．

実施例２：２５個のヒト癌でＣＩＢＥＲＳＯＲＴを使って推定された白血球頻度および予後関連性
材料および方法
次の材料および方法を実施例２と３で使用した。

ゲノムプロファイル（ＰＲＥＣＯＧ）集合からの臨床転帰の予測および品質管理。対応する患者転帰データを含む癌遺伝子発現データセットを特定するために、ＮＣＢＩ遺伝子発現オムニバス（ＧＥＯ）、ＥＢＩＡｒｒａｙＥｘｐｒｅｓｓ、ＮＣＩｃａＡｒｒａｙ、およびＳｔａｎｆｏｒｄＭｉｃｒｏａｒｒａｙＤａｔａｂａｓｅに対し、ｓｕｒｖｉｖａｌ（生存）、ｐｒｏｇｎｏｓｉｓ（予後）、ｐｒｏｇｎｏｓｔｉｃ（予後の）、またはｏｕｔｃｏｍｅ（転帰）の用語で検索した。パールスクリプトを実行し、処理および生のデータ、ならびに関連注釈をダウンロードした。ＮＣＢＩ内のデータに対しては、ＳＯＦＴ形式ファイルからアレイプラットホームを特定し、対応する注釈ファイルをＧＥＯから取得した。これらから、ＳＯＦＴ注釈ファイルの内部ヘッダーに基づいて、プローブＩＤ、ジェンバンク目録、ＨＵＧＯ遺伝子シンボルおよび遺伝子説明を抽出した。この自動手順がうまくいかない場合は、所望のフィールドをマニュアルで指定した。ｃＤＮＡマイクロアレイなどの注釈が最近アップデートされた古いプラットホームに対しては、ＮＣＢＩＥｎｔｒｅｚ遺伝子識別子をからジェンバンクまたはＲｅｆｓｅｑ受入番号を介して、プローブ配列をＨＵＧＯ遺伝子シンボルに再マッピングした。利用可能な目録がないが、プローブのＤＮＡ配列がある場合は、ＢＬＡＴを使ってＲｅｆｓｅｑ基準に対し比較し、特有の最も高いスコアのヒットを探して、マッピングを行った。

ＧＥＯＳＯＦＴ形式ファイルから試料注釈情報を抽出するスクリプトを書き、それらを構文解析して表にした。注釈フィールドの内容は、意味論的に実施されていないので、試料データは、Ｓａｍｐｌｅ＿ｔｉｔｌｅ、Ｓａｍｐｌｅ＿ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ、Ｓａｍｐｌｅ＿ｄｅｓｃｒｉｐｔｉｏｎ、およびＳａｍｐｌｅ＿ｓｏｕｒｃｅを含む種々のフィールド内に収容されている場合がある。さらに、全ての試料に対し、フィールドがすべて指定されているとは限らない。この情報を構文解析して表形式にするために、試料間の共通部分文字列を検索することにより、適切な変数名（列ヘッダー）を推定した。いくつかの事例では、データセットは、生存情報を明確に有していたが、ゲノムデータと共にデポジットされていなかった。このような場合には、含まれていない情報に関し、対応する文献の補足情報を最初に検索した。これに失敗する場合には、対応するおよび第１の筆者に接触し、これらの著者のほぼ半分から要求データの提供を受けた。

臨床的注釈の全ての作表をさらにチェックし、マニュアルで管理した。この手順は、カプランマイヤープロットおよび対応する一次刊行物のものとの時間スケール、ならびに調査全体にわたる予後遺伝子の一貫性の直接比較による選択調査の結果の検証が含まれた。別に、マイクロアレイ正規化の後で、以降で詳細記載のように、注釈の性別と、ＲＰＳ４Ｙ１のＸＩＳＴに対する（男性：女性）発現レベルの比を比較することにより、技術的問題またはキュレーション手順による誤差を推定した。さらに、Ａｆｆｙｍｅｔｒｉｘデータに対し、２つ以上のデータセット中に存在する同じ試料をＭＤ５チェックサムを使って、および発現ベクターの相互相関分析により特定し、それに応じて重複試料を削除した。

次の遺伝子発現正規化戦略を適用し、ＰＲＥＣＯＧ内の多様なマイクロアレイプラットホームからのデータの単一化を可能とした。ＡｆｆｙｍｅｔｒｉｘＧｅｎｅＣｈｉｐデータに対しては、可能な場合は、生のＣＥＬファイルを入手し、アレイオリゴヌクレオチドをアップデートし、Ｅｎｔｒｅｚ遺伝子識別子をマッピングするプローブセット要約のためのカスタムＣＤＦ（ＣｈｉｐＤｅｆｉｎｉｔｉｏｎＦｉｌｅ）を使って、ＭＡＳ５アルゴリズム（Ｒ２．１５．１中のバイオコンダクターｖ．１．８のａｆｆｙパッケージｖ．１．２６）で正規化した（ｂｒａｉｎａｒｒａｙ．ｍｂｎｉ．ｍｅｄ．ｕｍｉｃｈ．ｅｄｕ／Ｂｒａｉｎａｒｒａｙ／）。プラットホームに関係なく、それぞれのデータセットを別々に分位正規化した。さらに、まだｌｏｇ空間にない場合は、それぞれの遺伝子をｌｏｇ_２変換し、その後、所与のデータセット内の試料全体にわたり単位平均／単位分散正規化を行った。代わりのマイクロアレイ正規化方法が提案されている（例えば、ＲＭＡ、ｇｃＲＭＡ、ｆＲＭＡ、ＳＣＡＮ−ＵＰＣ）が、生存率分析に対しては、上述のように正規化したＡｆｆｙｍｅｔｒｉｘデータを別の正規化戦略と比べた場合に、有意な利益が観察されなかった。ＴＣＧＡＲＮＡ−ｓｅｑおよび臨床データをＴＣＧＡＤａｔａＣｏｏｒｄｉｎａｔｉｎｇＣｅｎｔｅｒからＴＣＧＡアセンブラーを使ってダウンロードした。ＴＣＧＡアセンブラーのＰｒｏｃｅｓｓＲＮＡＳｅｑＤａｔａ関数を使って、遺伝子レベルＲＮＡ−ｓｅｑデータを前処理した。ＲＮＡ−ｓｅｑおよび臨床データをＴＣＧＡにより提供された患者バーコードを介して整合させた。

それぞれの調査で、アレイプラットホームのそれぞれのプローブの生存転帰との関連付けをＣｏｘ比例ハザード回帰を用いて、Ｒｓｕｒｖｉｖａｌパッケージ（ｖ．２．３７）のｃｏｘｐｈ関数を使って評価した。それぞれのアレイプローブに対し、Ｃｏｘ係数、９５％信頼区間を有するハザード比、Ｐ値およびｚスコアを得た。特有の遺伝子毎の発現値を与える、カスタムＣＤＦで処理されなかったデータセットに対しては、プローブに対する生存ｚスコアを、同じＨＵＧＯ遺伝子シンボルに一致するｚスコアのプローブを平均化することにより、その遺伝子レベルに併合した。それぞれの遺伝子に対し、重みを標本数の平方根に設定した、Ｌｉｐｔａｋの重み付きｍｅｔａ−ｚ試験を使って、それぞれの悪性病変の全てのデータセットにわたりｚスコアを合計した。癌全体にわたる予後的有意性を有する遺伝子を特定するために、および異なる標本数の癌による片寄りを避けるために、重み付きｍｅｔａ−ｚスコアを、Ｓｔｏｕｆｆｅｒの方法（重み付けなし）を使って、それぞれの遺伝子に対する単一の全体ｍｅｔａ−ｚスコアにさらに統合した。

ＰＲＥＣＯＧにおけるｚ統計の検証。肺腺癌を試験症例として使用して、重み付きｍｅｔａ−ｚスコア測定法と、標準的ｚスコアとの間の関係を評価した。後者の方法は、ＰＲＥＣＯＧにおける肺腺癌調査由来のＧＥＰからなるマージ発現マトリックスから誘導した。この目的のために、少なくとも４０個のステージＩ試料を有するデータセットが選択された。バッチ効果を軽減するために、各データセット中のそれぞれの遺伝子を、ステージＩ試料全体にわたり単位平均および単位分散を持つように正規化した。試料注釈をマニュアルで点検し、ＴＮＭ（腫瘍・リンパ節転移・遠隔転移）情報に基づいて、ステージ分類が対がん米国合同委員会（ＡＪＣＣ）バージョン６（２００２）に対応していることを確実にした。多くのデータセットがＡＪＣＣバージョン７の前の日付であり、その標準に対する注釈に必要な詳細を含んでいなかった。これらの詳細化および標準化は、コホート間にまたがる異なるアレイプラットホームおよび異なる分布の腫瘍ステージを含む異なるデータセットからの試料のマージを可能とした。全体で、１，１０６人の患者からの肺腺癌ＧＥＰを比較し、重み付きｍｅｔａ−ｚスコアが、マージｚスコアと有意に相関することが明らかになった（ＳｐｅａｒｍａｎのＲ＝０．９、Ｐ＜２．２ｘ１０^−１６）。５ＡＭＬ調査のコンペンディアに対し、メタｚとマージｚ統計とを比較時に、類似の結果が観察され、したがって、ｍｅｔａ−ｚ統計の使用が検証された。注目すべきことに、交差調査ｚスコアを計算する前に、バッチ補正手順がマージ発現データセットに適用されたが、個々の調査由来のｚスコアが直接統合されるので、これらのステップは、ｍｅｔａ−ｚ測定法では必ずしも必要ではない。このことは、ｍｅｔａ−ｚ手法は、データセット全体にわたりバッチ差異を効果的に克服することを示唆している。

個々のデータセット内のバッチ効果の影響を、Ｃｏｍｂａｔ（Ｊｏｈｎｓｏｎ，Ｗ．Ｅ．，Ｌｉ，Ｃ．＆Ｒａｂｉｎｏｖｉｃ，Ａ．ＡｄｊｕｓｔｉｎｇｂａｔｃｈｅｆｆｅｃｔｓｉｎｍｉｃｒｏａｒｒａｙｅｘｐｒｅｓｓｉｏｎｄａｔａｕｓｉｎｇｅｍｐｉｒｉｃａｌＢａｙｅｓｍｅｔｈｏｄｓ．Ｂｉｏｓｔａｔｉｓｔｉｃｓ８，１１８−１２７（２００７））を使って、さらに評価した。４つのＡＭＬ調査のマイクロアレイ処理日付に適用した場合、バッチ補正前後のデータが全て高度に相関したため（Ｒ≧０．９２、Ｐ＜２．２ｘ１０^−１６）、予後ｚスコアに対するわずかな効果のみが観察された。異なる調査サイトによりプロファイリングされた試料のバッチ補正がデータ品質を改善するかどうかを試験するために、ＮＣＩｄｉｒｅｃｔｏｒ’ｓｃｈａｌｌｅｎｇｅ（ＮＣＩ所長のチャレンジ）肺腺癌データセット（ｃａ００１８２）由来のバッチ補正前後の発現データを、ＰＲＥＣＯＧにおける全ての残りの１９肺腺癌調査のプールセット由来の予後ｍｅｔａ−ｚスコアからなる対照データセットと比較した。ほとんどの予後遺伝子に対し、性能上ほとんど差がないことが観察され、変化は、生存転帰との関連がわずかな遺伝子に主に影響を与えるものであった。

ＰＲＥＣＯＧ偽陽性比率。ｚスコアおよびｍｅｔａ−ｚスコアがこの研究で解析されたが、全体重み付けなしｍｅｔａ−ｚおよび重み付き癌特異的ｍｅｔａ−ｚスコアに対するＱ値を、ＳｔｏｒｅｙおよびＴｉｂｓｈｉｒａｎｉ（Ｓｔｏｒｅｙ，Ｊ．Ｄ．＆Ｔｉｂｓｈｉｒａｎｉ，Ｒ．Ｓｔａｔｉｓｔｉｃａｌｓｉｇｎｉｆｉｃａｎｃｅｆｏｒｇｅｎｏｍｅｗｉｄｅｓｔｕｄｉｅｓ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．Ｕ．Ｓ．Ａ．１００，９４４０−９４４５（２００３））の偽陽性比率（ＦＤＲ）法を使って推定した。これらは、全ての解析されたｚスコアマトリックスオンライン（ｐｒｅｃｏｇ．ｓｔａｎｆｏｒｄ．ｅｄｕ）に使用可能である。特に、ＰＲＥＣＯＧの２３，２８８個のＨＵＧＯ遺伝子シンボルの内の、４，３８５個（１９％）が、Ｑ＜０．０５（｜ｍｅｔａ−ｚ｜＞２．６）で、有意な全体ｍｅｔａ−ｚを有し、２，９８６個（１３％）が、Ｑ＜０．０１（｜ｍｅｔａ−ｚ｜＞３．２２）で有意である。

盲検化および試料選択基準。この研究では、盲検化は使用しなかった。重複および非診断（再燃）試料を分析から除外した。

バルク腫瘍ＧＥＰ中のＴＡＬレベルの推定。ＰＲＥＣＯＧ内でプロファイリングされた試料は、主にバルク診断治療前腫瘍供試体を表し、多くの場合、多様なＴＡＬを含む種々の細胞型を含む。ＰＲＥＣＯＧ全体にわたる診断上好ましいリンパ球マーカーの濃縮を考慮すれば、ＰＲＥＣＯＧ中のバルク腫瘍ＧＥＰを系統的に「分離させる」またはデコンボリューションする方法は、腫瘍免疫生物学への新しい洞察を明らかにし得る。ベンチマーキング実験で他の手法より性能が優れている機械学習法であるＲＮＡ転写物の相対的サブセットを推定することによる細胞型特定のための新しい手法（ＣＩＢＥＲＳＯＲＴ）を最近開発した。ＣＩＢＥＲＳＯＲＴは、モンテカルロサンプリングを使って、デコンボリューションに対する実験的Ｐ値を生成する。他の線形デコンボリューション法と同様に、非ｌｏｇ線形空間での表現値に対し、ＣＩＢＥＲＳＯＲＴのみが機能する。

ＴＡＬ不均一性および予後関連性。ＣＩＢＥＲＳＯＲＴを、ＡｆｆｙｍｅｔｒｉｘＨＧＵ１３３プラットホーム（５７調査、２５種の癌）由来の全ての正規化ＰＲＥＣＯＧＧＥＰに適用した。全体で、５，７８２個の腫瘍ＧＥＰがうまくデコンボリューションされた（ＣＩＢＥＲＳＯＲＴＰ＜０．００５）。それぞれのデータセットに対し、それぞれの白血球サブセットの推定ｍＲＮＡ比率を、１変量Ｃｏｘ回帰を使って、生存率に関連付けした。免疫中心バージョンのＰＲＥＣＯＧ（ｉＰＲＥＣＯＧ、図２６ａ）を構築するために、ＰＲＥＣＯＧに対して記載したのと同じ手法を使って、重み付きｍｅｔａ−ｚスコアを決定し、また、重み付けなしの全体ｍｅｔａ−ｚスコアを使って、ｐａｎ−ｃａｎｃｅｒ白血球関連性を図２３ｃにまとめた。

免疫ＰＲＥＣＯＧ偽陽性比率。統計的結論を導く場合、標準的正規分布からのすべての偏差を考慮する必要があるので、推定された白血球予後関連性における確率的変動から実際の変動を区別するために、免疫ＰＲＥＣＯＧでＰ値およびｍｅｔａ−ｚスコアを最初に比較した（図２６ｂ）。（１）それぞれのデータセットに対し推定された細胞型比率を混ぜ合わせること、および（２）ｚスコアおよび対応するｍｅｔａ−ｚスコアを計算して、全生存率に対する関係を把握することにより、１０００個のゼロｍｅｔａ−ｚマトリックスを生成した。ゼロｍｅｔａ−ｚスコアの分布と、標準正規分布との間の密接な対応関係が認められた（図２６ｂ）。ｍｅｔａ−ｚスコアの正規性を検証したので、次に、一連の統計的有意性閾値を使って、およびそれぞれのカットオフ値で、図２６ａを選別し、全ての白血球予後関連性に関する観察比率と予測比率を比較した（図２６ｃ）。０．０５（｜ｚ｜＞１．９６）の両側性Ｐ値閾値で、偶然による予測よりほぼ３倍高い予後関連性が認められた；Ｐ＜０．０１で、５倍の濃縮があり、これは、より小さいＰ値カットオフで増加し続けた（図２６ｃ）。

別に、図２３ｃで、全体ｍｅｔａ−ｚスコアに対して、類似の分析を実施した。ここで、図２６ｃ由来のゼロｍｅｔａ−ｚスコアをゼロ全体ｍｅｔａ−ｚスコアに統合し、ｐａｎ−ｃａｎｃｅｒ白血球予後関連性に対し示した解析を再計算した（異なる有意性閾値で保持された白血球サブセットの比率としてプロットした；図２６ｄ）。まとめると、これらの結果は、異なる統計的カットオフでの白血球予後関連性の有意な変動対確率的変動を明示的に定量化し、所望の偽陽性比率を達成するように他者による名目上の統計的閾値の調整を可能にする。

相対的ＰＭＮレベル対壊死組織含量。ＣＩＢＥＲＳＯＲＴにより推定されたＰＭＮの相対的ＲＮＡ比率は、肺扁平上皮細胞癌中の注釈された壊死含量（ＴＣＧＡ；Ｒ^２＝０．０１；Ｐ＝ＮＳ）または黒色腫（マイクロアレイデータセットＧＳＥ８４０１^７６；Ｒ^２＝ほぼ０；Ｐ＝ＮＳ）と相関しなかった。

フローサイトメトリー対ＣＩＢＥＲＳＯＲＴ。非小細胞肺癌腫瘍（ｎ＝１３）供試体のフローサイトメトリー分析を後述のように実施し、ＣＤ４^＋、ＣＤ８^＋、ＣＤ１９^＋、ＣＤ５６^＋、およびＣＤ１４^＋集団の中央値比率を全体ＣＤ４５^＋含量により正規化した（図２３ａ）。ＣＩＢＥＲＳＯＲＴとの比較のために、白血球シグネチャーマトリックス集団を同じ表面抗原分類カテゴリ：ＣＤ１４^＋、単球、マクロファージ、および樹状細胞；ＣＤ４^＋、ＣＤ８およびγδＴ細胞を除く全ての細胞サブセット；ＣＤ８^＋、ＣＤ８Ｔ細胞；ＣＤ１９^＋、ナイーブおよび記憶Ｂ細胞、ＣＤ５６^＋、非活性化および活性化ＮＫ細胞、に分類した。図２３ａに示す肺腺癌ＧＥＰの中央値ＣＩＢＥＲＳＯＲＴ推定比率を、２つの公共の利用可能なマイクロアレイデータセット、ＧＳＥ７６７０^７７およびＧＳＥ１００７２^７８、から決定した。

患者試料。この調査の全態様は、倫理的な研究活動に関するヘルシンキ宣言ガイドラインに従って、スタンフォード大学研究所審査委員会により承認され、全ての関係する患者からは、インフォームドコンセントの提供を受けた。図２３ａに関しては、新しいヒト肺腫瘍試料をスタンフォード大学組織バンクから取得した。組織マイクロアレイ分析（図２４ｃ，２４ｅ、２７ｃ〜２７ｈ）に対しては、患者試料をＳｔａｎｆｏｒｄＤｅｐａｒｔｍｅｎｔｏｆＰａｔｈｏｌｏｇｙの外科的病理学アーカイブから取得し、ＣａｎｃｅｒＣｅｎｔｅｒＤａｔａｂａｓｅａｎｄＳＴＲＩＤＥＤａｔａｂａｓｅツールを使って、Ｓｔａｎｆｏｒｄから臨床データベースに接続した。

ヒト肺解離およびフローサイトメトリー。新しいヒト肺腫瘍試料を小片に切断し、４５分間のコラゲナーゼＩ（ＳＴＥＭＣＥＬＬＴｅｃｈｎｏｌｏｇｉｅｓ）消化により、単細胞懸濁液に解離させた。解離した単細胞を１ｘ１０^７／ｍＬの濃度で染色緩衝液（２％の加熱不活性化仔ウシ血清を含むＨＢＳＳ）中に懸濁させた。１０μｇ／μｌのラットＩｇＧで１０分間のブロッキング後、下記にリストした抗体を使って少なくとも１０分間染色した。洗浄後、染色細胞を、１μｇ／ｍｌのＤＡＰＩを含む染色緩衝液中に再懸濁して分析し、ＦＡＣＳＡｒｉａＩＩセルソーター（ＢＤＢｉｏｓｃｉｅｎｃｅｓ）で選別した。図２３ａに関連した実験で使用した抗体：ＣＤ４５−Ａ７００、ＣＤ１４−ＰＥ、ＣＤ８−ＡＰＣ、ＣＤ４−ＦＩＴＣ、ＣＤ５６−ＰＥ−ｃｙ７、およびＣＤ１９−ＰｅｒＣＰ−ｃｙ５．５。形質細胞の列挙に使用した抗体：ＣＤ４５−ＰＥ−ｃｙ７、ＣＤ２０−ＰｅｒＣＰ−ｃｙ５．５、ＣＤ１３８−ＰＥ、ＣＤ３８−ＡＰＣ、ＣＤ１９−Ａ７００、およびＣＤ２７−ＦＩＴＣ。全ての抗体をＢｉｏＬｅｇｅｎｄから取得した。

組織マイクロアレイ（ＴＭＡ）コホート。コホートに含めるために、１９９５年〜２０１０年６月の肺癌患者を再調査し、外科処置疾患の患者およびパラフィン包埋試料を有する患者を特定した。再発性または転移性の疾患試料を有する患者のみを除外した。医用チャートを精査し、腫瘍供試体に、人口統計学的、手術手技、画像処理データ、および追跡調査に関し、臨床的に注釈を加えた。病理学的レポートを再調査して、試験片タイプ、部位、病理学、ステージ、組織学、浸潤状態および手術手技について確認した。処置試料（ネオアジュバント療法）を除外し、追跡調査データを有する１８７個の前処理した肺腺癌腫瘍供試体の最終分析コホートを得た。

ＴＭＡコホート追跡調査。再発は画像処理または生検材料により決定され、進行疾患を有する患者または少なくとも６ヶ月の追跡調査のなかった患者のさらなる分析を打ち切った。２０１０年１０月３０日までの国民死亡記録（ＮＤＩ）を使用して生命状態を決定した。ＮＤＩは、生命状態評価を社会保障番号に依存していることから、死亡に至らなかった患者は、国を出たまたは他の国から来た患者（打ち切られなかった患者）を除いて、生存していると見なした。経時的に切除された同時期性腫瘍は、２つの原発性腫瘍を有する患者の予後評価に好適する。

ＴＭＡ構築。有資格病理学者により再調査された複製スライドから有効な腫瘍を含む外科的供試体からＳｔａｎｆｏｒｄＬｕｎｇＣａｎｃｅｒＴＭＡを開発した。病理学者は、試料の素性に盲検とはしなかった。最大の腫瘍含量の領域をスライドに対応するコアリング部としてマークした。２ｍｍのコアを使って、組織マイクロアレイを構築した。これらのコアを組織学およびステージにより整列し、ネガティブコントロールをＷｅｓｔＬａｂより入手し、正常な非肺組織（１２コア）、異常非肺組織（１３コア）、胎盤マーカー（２３コア）および正常肺（１７コア）を含む種々の無害および悪性組織（６５コア）を含めた。正常肺は、隣接する試験片から構成されたが、１９９５年〜２０１０年にわたる異なる試験片も含め、年による染色の変動性を評価した。完成アレイに対し、目的のＩＨＣ分析の前に、ＯｌｉｇｏＤＴ分析を実施して、選択したコアの設計および組織含量の妥当性を評価した。一緒に登録したヘマトキシリンおよびエオシン（Ｈ＆Ｅ）スライドを同様に使用して、初期検査で位置が明確でない症例の腫瘍位置を検証した。

ＴＭＡ免疫組織化学。ＭＰＯ（ＤＡＫＯ）およびＣＤ２０（クローンＬ２６、ＤＡＫＯ）免疫組織化学を、ＶｅｎｔａｎａＢｅｎｃｈＭａｒｋＸＴ自動化免疫染色法プラットホーム（ＶｅｎｔａｎａＭｅｄｉｃａｌＳｙｓｔｅｍｓ／Ｒｏｃｈｅ，Ｔｕｃｓｏｎ，ＡＺ）を使って、４ｍｍ切片で実施した。

ＴＭＡＲＮＡインサイツハイブリダイゼーション。プライマー５’−ＣＴＧＴＴＧＴＧＴＧＣＣＴＧＣＴＧＡＡＴ−３’（配列番号１）およびＴ７プロモータータグプライマー５’−ＣＴＡＡＴＡＣＧＡＣＴＣＡＣＴＡＴＡＧＧＧＴＴＡＡＡＧＣＣＡＡＧＧＡＧＧＡＧＧＡＧ−３’（配列番号２）を使って、ＩＧＫＣ用のＲＮＡインサイツハイブリダイゼーションプローブをｃｈｒ２：８８，９３７，７９０−８８，９３８，２９０（ｈｇ１８）に対し設計した。ＴＡ３６９に対し、前述の通り、ＲＮＡインサイツハイブリダイゼーションを実施した。

ＴＭＡ顕微鏡観察。Ａｒｉｏｌ画像解析システム（元は、ＡｐｐｌｉｅｄＩｍａｇｉｎｇで構築された）を使って、全てのスライドを２０ｘで走査した。

ＴＭＡ染色定量化および解析。ＴＭＡ染色パターンの定量化における一貫性および再現性を促進するために、監視型のコンピューターによる画像切り出しシステムであるＧｅｍＩｄｅｎｔの性能を評価した。最初の練習として、ＧｅｍＩｄｅｎｔを単一肺腺癌試験片を用いて、ＩＧＫＣ染色および非組織バックグラウンド（余白部分）の両方を認識する訓練を行った。次に、ＧｅｍＩｄｅｎｔを１０個のＴＭＡ供試体に適用し、ＩＧＫＣ位置および非組織バックグラウンド（すなわち、「空所」）の両方の別々の画像マスクを生成した。カスタムパールスクリプトを使って、各イメージマスクを処理し、それぞれの試験片のＩＧＫＣの染色領域を定量化した（最初に非組織余白部分を除去し、それぞれの組織の表面積を計算した）。この手法の有用性を試験するために、有資格病理学者（ＲＢＷ）が１０個の同じ供試体に対し、ＩＧＫＣをスコア化した。病理学者は、自動染色から得られた知識は持たず、試料の素性に対し盲検とはしなかった。両方の評価は高度に相関していた（Ｒ^２＝０．９８；図２８ｃ）。別の練習では、２人の独立した操作者が異なるＣＤ２０染色した供試体に対し、ＧｅｍＩｄｅｎｔを訓練した。次に、ＣＤ２０染色比率を全ＴＭＡ（ｎ＝１８７個の肺腺癌）にわたり定量化し、結果を上述のように処理した。独立した操作者間の一致は極めて高かった（Ｒ^２＝ほぼ１；図２８ｄ）。これらのデータは、ＴＭＡ供試体の自動スコアリングのための画像後処理と組み合わせたＧｅｍＩｄｅｎｔの有用性を裏付ける。この手法を適用して、全ての肺腺癌ＴＭＡ供試体のＩＧＫＣ、ＣＤ２０、およびＭＰＯを定量的にスコア化した（例えば、図２８ａ参照）。

ＴＡＬと循環白血球との間の比較。利用可能な手術前後の循環白血球（リンパ球およびＰＭＮ）数を有する患者の中で、処置日（ＤＯＰ）に最も近い、−１２０日〜＋２８日に処置した試料を解析した。この際、術前試料（合計ｎ＝４８人の肺腺癌患者）を優先した。循環白血球（ＣＬ）レベルとＴＭＡ上で定量化されたＴＡＬとの間で、関係性は認められなかった。さらに、ＭＰＯのＩＧＫＣレベルに対する比率は、この患者サブセット内では、有意に予後性が存続した（Ｐ＝０．０２）が、ＣＬレベルは、生存率に対し有意な関係性がなかった。

結果
バルク腫瘍中の白血球組成
ＣＤ８^＋およびＣＤ４５ＲＯ^＋記憶Ｔリンパ球などの特定の白血球細胞サブセットによる腫瘍の浸潤が、異なる癌における好ましい転帰と大きく関連していたが、制御性Ｔ細胞およびマクロファージなどのそのほかのものは、状況に応じて良好な予後または不良予後を与えることができる。系統的で包括的にＴＡＬの組成差異およびそれらの生存率に対する関係性をマッピングするために、既知のＲＮＡ転写物の相対的サブセットの推定による細胞型特定（またはＣＩＢＥＲＳＯＲＴ）のための新規機械学習フレームワークを適用した。ＣＩＢＥＲＳＯＲＴは、複合組織（例えば、バルク腫瘍）の発現プロファイル由来の細胞サブセットの相対比率の統計的推定の点で、ノイズ、未知の混合物含量、および密接に関係した密接に関連した細胞型に対する以前のデコンボリューション法より性能が優れている。入力として、２２個の異なる白血球サブセットに対する精製発現プロファイル、および細胞型特異的マーカー遺伝子を必要としないで、これらの細胞型をロバストに識別する所定の「バーコード」の遺伝子発現シグネチャーを使用した。｜ｍｅｔａ−ｚスコア｜＞３．３（両側性Ｐ＜０．００１に相当する）で、同じ有意性閾値の合計２，８５１個のｐａｎ−ｃａｎｃｅｒ予後遺伝子の中から２８％のこれらのバーコード遺伝子（５４７個中の１５２個）が、ＰＲＥＣＯＧ中で個別に有意である。これは、偶然による予測より高かった（Ｐ＜０．００１、カイ二乗検定）。フローサイトメトリーおよび免疫組織化学に対し間接または直接比較に係わらず、ＣＩＢＥＲＳＯＲＴは、固形腫瘍にロバストな性能を示し、結腸直腸癌および肺腺癌（図２３ａ）および濾胞性リンパ腫中の白血球サブセットの相対的比率を正確に推定した。

ＰＲＥＣＯＧに適用することにより、ＣＩＢＥＲＳＯＲＴは、造血新生物、脳癌、および非脳固形腫瘍の間で相対的白血球組成の顕著な差異を明らかにした（図２３ｂ）。ＴＡＬ含量の変動もまた、固形腫瘍を含む同じ癌タイプの独立した調査間で、一貫性および再現性があった（図２５ａ）。注目すべきことに、ＰＲＥＣＯＧ内でプロファイリングされた大部分の腫瘍は、腫瘍含量の点で未精製、無制御であったが、ＣＩＢＥＲＳＯＲＴは、多発性骨髄腫濃縮供試体中の高比率のプラズマ細胞を正確に推定した（図２３ｂ）。さらに、予測通り、Ｂ細胞シグネチャーは、Ｂ細胞悪性病変中で支配的であることが明らかになり（図２３ｂ）、ＣＩＢＥＲＳＯＲＴが多様な癌の起始細胞の識別に対し、汎用性を有することを示唆している。

図２３ａ〜２３ｄ：２５種のヒト癌における推定白血球頻度および予後関連性。（図２３ａ）ＣＩＢＥＲＳＯＲＴ対免疫組織化学（ＩＨＣ）またはフローサイトメトリー（ＦＡＣＳ）による、独立した試料の固形腫瘍中の、列挙された相対的白血球比率。ＣＲＣ、結腸直腸癌；肺腺癌。ＣＲＣ生検材料のグラウンドトルース比率に近づけるために、前に報告された１０７人の患者の腫瘍中心および浸潤周辺部由来の白血球数を平均化することによりレベルを推定した。ＬＵＡＤ生検材料中のベースライン白血球比率をＦＡＣＳにより列挙した（ｎ＝１３腫瘍；データは中央値で表される；詳細は方法の項を参照）。ＣＩＢＥＲＳＯＲＴ結果は、対応する組織に対する平均白血球比率として表される。（図２３ｂ）本明細書で、分かりやすくするために１１免疫集団にプールした２５種の癌の２２個の白血球サブセット（Ａｆｆｙｍｅｔｒｉｘプラットホームのみ、方法の項参照）の推定ｍＲＮＡ比率。（図２３ｃ）重み付けなしｍｅｔａ−ｚスコアで順位付けした２５種の癌の２２種の白血球タイプ（ｎ＝５．７８２腫瘍；左）および１４種の固形非脳腫瘍（ｎ＝３，２３８；右）に対する全体予後関連性。２５％の偽陽性比率（ＦＤＲ）閾値はそれぞれのプロットに示した。個々の癌に対しては、図２６ａを参照。（図２３ｄ）乳癌と肺腺癌との間のＴＡＬ予後関連性における一致および差異（ＦＤＲに対しては、図２６ｃ参照）。図２３ｃ、２３ｄの非活性化および活性化サブセットは、それぞれ「−」および「＋」で示されている。

図２５ａ〜２５ｃ：癌タイプおよびデータセット全体にわたる推定白血球比率の相関分析。（図２５ａ）白血球組成物ベクター（データセット当たりｎ＝２２個のサブセット）に適用した重心階層型クラスタリングの結果を示すデンドログラム。中心相関を距離測定法として使用した。独立の調査からの同じタイプの癌のクラスタリングは、ＣＩＢＥＲＳＯＲＴの相対的免疫浸潤レベルの推定の再現性を示す。（図２５ｂ）免疫ＰＲＥＣＯＧで解析された全５７調査にわたるそれぞれの免疫サブセットのＫＬＲＢ１発現と推定レベルとの間のピアソン相関係数。データは中央値として表される。（図２５ｃ）癌の間の白血球予後関連性の相互相関分析。色分け地図で示されるような、免疫ＰＲＥＣＯＧ中の免疫集団のｍｅｔａ−ｚスコア間の全ての対のピアソン相関（図２６ａ）。

ＴＡＬの予後関連性
遺伝子中心生存率分析を補完するために、ヒト悪性病変全体にわたる２２個の免疫集団の予後関連性の全体マップを構築した（図２６ａ）。細胞サブセットと癌特異的転帰との間のかなりの変動が観察され、これらの関連性の多くは、統計的に有意である（図２６ｂ〜２６ｄ）。プールした癌は、有意な全体白血球予後パターンを生じ、この場合、高レベルの推定Ｔ細胞比率は、通常、優れた生存率と相関することが明らかになったが、一方、次第にレベルが増加する骨髄集団は、主に、低い生存率と相関した。腫瘍内γδＴ細胞^{３７、３８}および多形核（ＰＭＮ）^{３９、４０}シグネチャーは、それぞれ、最も有意な好ましいおよび有害な癌全体にわたる予後集団として出現した（図２３ｃ、左）。さらに、推定白血球比率が、癌のＫＬＲＢ１発現と比較される場合、γδＴ細胞およびＣＤ８Ｔ細胞シグネチャーは、最も高度に相関し（図２５ｂ）、この遺伝子の予後的有意性に対する関連を示唆している。壊死の組織含量の注釈（方法の項参照）を有するデータセットで、推定ＰＭＮレベル間の関係は認められず、腫瘍内ＰＭＮが組織壊死と単純には相関しないことを示唆している。さらに、以前の報告と一致して、腫瘍関連Ｍ２マクロファージのシグネチャーは、炎症促進性のＭ１マクロファージより悪い転帰を予測することが明らかになった。また、抗ＣＤ３／抗ＣＤ２８共刺激されたが、非活性化されていないＣＤ４５ＲＯ^＋記憶ヘルパーＴ細胞は、優れた転帰と相関した。

図２６ａ〜２６ｄ：２２個の白血球サブセットと２５種の癌組織との間の予後関連性。（図２６ａ）造血サブセットと生存率との間の関係を示す、メタｚスコアマトリックスとして表された色分け地図。赤いセルは、有害転帰を表し、緑のセルは、好ましい転帰を表す。（図２６ｂ）白血球予後関連性の偽陽性比率。免疫ＰＲＥＣＯＧ中の細胞型比率の混合により得られたｚスコアのゼロ分布（黒色点線）の標準正規分布に対する比較は高い一致性を示す。（図２６ｃ）種々のｚスコアカットオフでの、図２６ａの結果の選別により得られた細胞型比率と転帰との間の統計的に有意な関連性の予測対観察比率。それぞれのｚスコア値に対し、Ｐ値および推定ＦＤＲが示される。カットオフの厳密さが高くなるほど、予測に対する観察の有意な関連性の比率が高くなり（Ｐ＜０．０５で３倍、Ｐ＜０．０１で５倍）、免疫ＰＲＥＣＯＧは、統計的にロバストな関連性を取得することを示す。（図２６ｄ）２５種の組織または非脳固形腫瘍にわたる個々の癌のｍｅｔａ−ｚスコアを混ぜ合わせて得た全体ｍｅｔａ−ｚスコアを適用したこと以外は図２６ｂと同様である（図２３ｃに関連する）。図２６ｂ〜２６ｄの詳細は、方法の項で提供されている。

固形腫瘍中の予後ＴＡＬ
ＰＲＥＣＯＧ中で最も高度にプロファイリングされた癌の内の２種である、乳癌および肺癌中の白血球生存シグネチャーを比較することにより、意外にも生存率に対し強力かつ相互的関係がある、２つの集団、ＰＭＮおよびプラズマ細胞（ＰＣ）を特定した（図２３ｄ）。ＰＣシグネチャーは、ヒト癌間の相互相関分析で全体的に評価した場合（図２５ｃ）、固形腫瘍全体にわたる好ましい生存率の有意な予測因子であり（図２３ｃ、右）、ＰＭＮに対し最も高く逆相関した予後集団であった（図２４ａ）。推定ＰＣレベルは、腫瘍ステージとは相関しなかった（図２７ａ）。ＰＣシグネチャーは、隣接する正常組織より腫瘍中で高いことが明らかになった（図２７ｂ）ので、腫瘍浸潤ＰＣの予後値は、全体の免疫学的な健康の代用となりそうもなく、クローン増殖および急性液性免疫応答に必要な抗原駆動プロセスに対する役割を裏付けている。さらに、ＰＣレベルに対する推定ＰＭＮの単比は、多様な固形腫瘍において有意に予後的であることが明らかになった（図２４ｂ）。

図２４：プラズマ細胞に対する浸潤ＰＭＮの比率は、多様な固形腫瘍において予後的である。（図２４ａ）推定されたＰＭＮとプラズマ細胞（ＰＣ）頻度との間の予後関連性は、癌景観図全体で有意に逆相関する（ピアソンＲ＝−０．４６、Ｐ＝０．０２）。各点は、個別の癌を表す：三角、血液癌；四角、脳癌；円、残りの癌。（図２４ｂ）ｍｅｔａ−ｚスコアは、多様な固形腫瘍に対するＰＭＮおよびＰＣレベルのレシオメトリックインデックスへの合算の予後的有意性を示す。（図２４ｃ）ＴＭＡ用の代用マーカーとしてＩＧＫＣ、ＣＤ２０、およびＭＰＯを使った、肺腺癌中の、それぞれ、ＰＣ、Ｂ細胞、およびＰＭＮ頻度に対する、ＣＩＢＥＲＳＯＲＴと組織マイクロアレイ分析との比較（ｎ＝１８７供試体）。公的に入手可能なデータセット（ＧＳＥ７６７０およびＧＳＥ１００７２）由来の肺腺癌アレイを、ＣＩＢＥＲＳＯＲＴで解析した（ｎ＝８５個の腫瘍）。（図２４ｄ、ｅ）カプランマイヤープロットは、（図２４ｄ）肺腺癌マイクロアレイ調査で推定されたＰＣ比率に対するＰＭＮの中央値レベルで層別化した患者（Ｐ＝０．０００５，ｌｏｇ順位検定；ｎ＝４５３高および４５３低患者）を示し、また、（図２４ｅ）肺腺癌組織切片で陽性染色されたＭＰＯ／ＩＧＫＣの中央値レベルを示す（Ｐ＝０．０２８，ｌｏｇ順位検定；ｎ＝９４高および９３低患者）。図２４ｄに対しては、ハザード比は１．５（１．２〜１．９、９５％ＣＩ）、図２４ｅに対しては、１．７（１．１〜２．６、９５％ＣＩ）であった。ＰＣレベルに対する推定ＰＭＮもまた、１変量Ｃｏｘ回帰により評価した連続モデルで、有意に予後的であった（図２４ｄで、Ｐ＝０．００３、Ｚ＝２．９８；図２４ｅでＰ＝０．０００５、Ｚ＝３．４６）。ｃのデータは平均値±ｓ．ｅ．ｍ．で表される。図２４ｄおよび図２４ｅで、全ての患者は５年後に完全に打ち切った。

図２７ａ〜２７ｈ：非小細胞肺癌中および隣接する正常組織のプラズマ細胞レベル。（図２７ａ）ＣＩＢＥＲＳＯＲＴにより予測されたプラズマ細胞の相対的ＲＮＡ比率は、肺腺癌ステージと無関係である。（図２７ｂ）ＣＩＢＥＲＳＯＲＴにより予測された、２２個の白血球サブセットの相対的比率を、肺腺癌腫瘍および隣接する正常な供試体の両方を含む２つの独立したマイクロアレイデータセット（ＧＳＥ７６７０およびＧＳＥ１００７２）の間で比較した。（図２７ｃ、２７ｄ）肺腺癌組織供試体の代表的Ｈ＆Ｅ染色。（図２７ｃ）プラズマ細胞および（図２７ｄ）好中球に形態学的に類似している細胞を示す（矢印で示す）染色肺腺癌腫瘍切片。（図２７ｅ〜２７ｈ）肺癌中の形質細胞のフローサイトメトリー分析および形態学的評価。（図２７ｅ）ＣＤ３８^ｈｉｇｈ／ＣＤ４５^ｈｉｇｈ／ＣＤ１３８^ｌｏｗ／ＣＤ２７^＋／ＣＤ１９^＋／ＣＤ２０⁻細胞の肺腺癌腫瘍からの濃縮のためのゲーティング戦略。形質細胞に対し予測したように、前方および側方散乱により、ＣＤ３８^ｈｉｇｈ／ＣＤ４５^ｈｉｇｈ／ＣＤ１３８^ｌｏｗ／ＣＤ２７^＋／ＣＤ１９^＋／ＣＤ２０⁻細胞は、ＣＤ３８⁻／ＣＤ４５^ｈｉｇｈ／ＣＤ１３８⁻／ＣＤ２７⁻／ＣＤ１９^＋／ＣＤ２０^＋細胞（Ｂ細胞）より大きい。（図２７ｆ）図２７ｅに記載のゲーティング戦略を使って、形質細胞を新しい肺腺癌腫瘍から選別し、サイトスピンを使って顕微鏡用に単離した。形質細胞の形態学的特徴を有する代表的細胞を示す（１００ｘオイル対物レンズ）。正常な隣接組織に比べて、肺扁平上皮細胞癌（図２７ｇ）および肺腺癌（図２７ｈ）中で形質細胞のかなりの増加を示す代表的フローサイトメトリー結果。

ＰＭＮおよびＰＣシグネチャーの相互生存関係を実験的に評価するために、組織マイクロアレイ（ＴＭＡ）分析を使って、１８７肺腺癌のそれらへの浸潤を評価した。両細胞型の特徴を組織切片のＨ＆Ｅ染色により観察し（図２７ｃ、２７ｄ）、フローサイトメトリー（図２７ｅ）および形態学的評価（図２７ｆ）の両方を使って、新しい腫瘍供試体中の腫瘍浸潤形質細胞（すなわち、形質芽細胞またはプラズマ細胞）の存在を確認した。さらに、我々は、正常な隣接する組織と比較して、非小細胞肺癌（ＮＳＣＬＣ）腫瘍中の形質細胞の高められた存在を確認した（図２７ｇ、２７ｈ）。連続的肺腺癌組織切片で、我々は、ＰＭＮおよびＰＣのマーカーである、それぞれ、ＭＰＯ（ミエロペルオキシダーゼ）およびＩＧＫＣ（免疫グロブリンカッパ定常領域）の存在を調べるために染色した（図２８ａ）。Ｂ細胞は種々レベルのＩＧＫＣを発現するので、我々は、成熟Ｂ細胞の表面マーカーである（ＰＣの表面マーカーではない）ＣＤ２０についても試験した（図２７ｅ）。我々は、１０％未満のＣＤ２０との重複部分を見出し、ＩＧＫＣのＰＣに対する高い特異性を示した（図２８ｂ；方法の項参照）。次に、我々は、組織アレイ中のそれぞれのマーカーの染色面積を定量した（方法の項参照；図２８ｃ、２８ｄ）。異なったスケールでの操作および独立した腫瘍供試体での測定の間、ＴＭＡに対しインサイツで測定したこれらの３つのマーカーの比率レベルは、ＣＩＢＥＲＳＯＲＴにより推定された相対的浸潤レベルと同等であった（図２４ｃ）。さらに、ＰＲＥＣＯＧにおける測定（図２４ｄ）、ヘルドアウトマイクロアレイ検証データセットにおける測定（図２８ｅ）、または組織マイクロアレイ供試体中の代用マーカーによる測定（図２４ｅ）のいずれであっても、我々は、連続的およびバイナリモデルの両方で、肺腺癌における、低生存率と、ＰＣレベルに対するＰＭＮのより高い比率との間の強い関係性を見だした。さらに、ＴＭＡ結果は、妥当な臨床的パラメーターを組み込んだ多変量モデルにおいて、有意なままで存続した。合わせて、これらのデータは、計算処理手法を妥当と認め、腫瘍関連ＰＭＮおよびＰＣが、全生存率とは逆の関連性を示すことを実証している。

図８ａ〜８ｅ：ＴＭＡマーカーおよび染色定量化の評価、およびヘルドアウト発現データセットにおける推定されたＰＭＮ／ＰＣレベルの予後的有意性。（図２８ａ）ＩＧＫＣ標的化ＲＮＡインサイツプローブ、またはＣＤ２０またはＭＰＯ標的化抗体により染色された代表的肺腺癌組織切片。上段：ＩＧＫＣおよびＣＤ２０が高染色で、ＭＰＯが低染色の連続切片。下段：ＭＰＯが高染色で、ＩＧＫＣ／ＣＤ２０が低染色である連続切片。ＧｅｍＩｄｅｎｔ画像解析ソフトウェア^４および後処理（方法の項参照）により染色を定量化した。（図２８ｂ）隣接する肺腺癌組織切片中のＩＧＫＣとＣＤ２０染色との間の空間重複部分のヒストグラム（約４．８％の中央値重複部分）。（図２８ｃ）１０個のランダム選択肺腺癌供試体の病理学者によるＩＧＫＣ染色評価（Ｒ．Ｗ．）と、ＧｅｍＩｄｅｎｔ（方法の項参照）による染色評価との間の一致。（図２８ｄ）ＧｅｍＩｄｅｎｔは、２人の操作者によりＣＤ２０染色を識別するように訓練され、その後、全ての肺腺癌供試体の結果をプロットした。（図２８ｅ）ヘルドアウト肺腺癌データセットにおけるＰＣに対するＰＭＮの比率の生存率分析。ＣＩＢＥＲＳＯＲＴにより推定された形質細胞および好中球比率を使って、ＰＲＥＣＯＧ中には含まれていない３種の肺癌データセット中のそれらの比率を計算した。患者は、各データセット中のＰＭＮ：ＰＣ比率の中央値に基づいて、高または低群に層別化された。これにより、３つのコホートを十分なサンプルサイズの１つの生存率分析用合算データセットにマージ可能となる。９５％信頼区間を有するハザード比（ＨＲ）は、Ｃｏｘ回帰のＰ値と一緒に示されている（ｌｏｇ順位検定）。

ＰＭＮおよびＢリンパ球を含む循環白血球は、腫瘍微小環境に寄与し、末梢血中の自然および獲得エフェクターの白血球頻度は、予後値を有し得る。したがって、ＴＭＡ由来のＮＳＣＬＣ患者のサブセットを、利用可能な手術前後の全血球計算値を使って検査し、循環白血球とＴＡＬのレベル間の一致を評価した。腫瘍内ＰＣ対ＰＭＮ比は、このサブセット内で有意に予後的であるままで残されたが、循環および浸潤区画の間の有意な相関は認められず、また、循環白血球レベルに由来する予後値も認められなかった。

本開示は、特定の実地形態に言及して記載されてきたが、本開示の真の趣旨と範囲から逸脱することなく、様々な変更を行うことができ、また、等価物と置き換えることができることは、当業者により理解されよう。さらに、特定の状況、材料、物質の組成、プロセス、単一または複数プロセスのステップを本開示の目的、趣旨および範囲に適合させるように多くの変更を行うことが可能である。こうした改変は全て、本明細書に添付される特許請求の範囲に含まれることが意図されている。

Claims

試料の特徴プロファイルのデコンボリューション方法であって、
ｉ）第１の複数の異なる細胞サブセットを含む物理的試料を得るステップと、
ｉｉ）前記物理的試料から特徴プロファイルｍを生成するステップであって、前記特徴プロファイルが前記第１の複数の異なる細胞サブセットに関連する特徴の組合せを含むステップと、
ｉｉｉ）ｍと、第２の複数の異なる細胞サブセットに対する特徴シグネチャーの基準マトリックスＢとの間の回帰を最適化するステップであって、ｍがＢの一次結合としてモデル化され、前記最適化が、前記回帰の一連の回帰係数を含むｆを解くことを含み、前記解くことが、線形損失関数、および、Ｌ_２ノルムペナルティ関数を最小化するステップと、
ｉｖ）前記一連の回帰係数に基づいて、前記物理的試料中の前記第２の複数の異なる細胞サブセットの内の１つまたは複数の異なる細胞サブセットの相対比率を推定するステップと、
ｖ）前記１つまたは複数の異なる細胞サブセットの前記相対比率の推定のために有意値を決定するステップと、
を含む方法。
前記ｆを解くことが、Ｂの複数の異なるサブセットの特徴シグネチャーの内のＢのサブセットの特徴を選択し、前記線形損失関数を最小化することを含む、請求項１に記載の方法。
前記線形損失関数が、線形ε−非感受性損失関数である、請求項１または２に記載の方法。
前記最適化が、サポートベクター回帰（ＳＶＲ）を使用することを含む、請求項１から３のいずれか１項に記載の方法。
前記サポートベクター回帰がε−ＳＶＲである、請求項４に記載の方法。
前記サポートベクター回帰がν（ニュー）−ＳＶＲである、請求項４に記載の方法。
異なる値のνを使って、それぞれの異なるνの値に対するｆの異なる解を生成するように前記方法を反復することをさらに含む、請求項６に記載の方法。
前記ｆの異なる解の内で、
ａ）前記特徴プロファイルｍと、
ｂ）ｆと前記基準マトリックスＢの積、
との間の最小誤差を有する解を特定することをさらに含む、請求項７に記載の方法。
前記最小誤差が、ピアソンの積率相関係数、スピアマンの順位相関係数、二乗平均平方根誤差（ＲＭＳＥ）、ユークリッド距離、または平均絶対偏差（ＭＡＤ）を使って得られる、請求項８に記載の方法。
前記１つまたは複数の異なる細胞サブセットの前記相対比率の推定のために有意値を決定するステップは、
ａ）親特徴プロファイルからランダムに選択された特徴を含むランダム特徴プロファイルｍ^＊を生成するステップであって、前記親特徴プロファイルが前記特徴プロファイルを含み、ｍおよびｍ^＊が同じユークリッドノルムを有するステップと、
ｂ）ｍ^＊と前記基準マトリックスＢとの間の回帰を最適化するステップであって、ｍ^＊がＢの一次結合としてモデル化され、前記最適化が、前記回帰の一連の回帰係数を含むｆ^＊を解くことを含み、前記解くことが、線形損失関数、および、Ｌ_２ノルムペナルティ関数、を最小化するステップと、
ｃ）ｆ^＊と前記基準マトリックスＢの積を計算し、再構成特徴プロファイルを生成するステップと、
ｄ）前記ランダム特徴プロファイルと、前記再構成特徴プロファイルとの間の差異測定値を決定するステップと、
ｅ）ステップａ）〜ｄ）のｉ回の繰り返しから決定される差異測定値の分布に基づいて前記有意値を決定するステップであって、ｉが２以上の数であるステップと、
を含む、請求項１から９のいずれか１項に記載の方法。
前記差異測定値が、ピアソンの積率相関係数、スピアマンの順位相関係数、二乗平均平方根誤差（ＲＭＳＥ）、ユークリッド距離、または平均絶対偏差（ＭＡＤ）である、請求項１０に記載の方法。
前記有意値がｐ値である、請求項１０または１１に記載の方法。
ｉが１０〜１０００である、請求項１０から１２のいずれか１項に記載の方法。
前記物理的試料が、物理的試料中に存在する前記第２の複数の異なる細胞サブセットの合計量の１０％以下で特徴シグネチャー中に現れる少なくとも１つの異なる細胞サブセットを含む、請求項１から１３のいずれか１項に記載の方法。
特徴シグネチャー中に現れる異なる細胞サブセットが、前記物理的試料中の異なる細胞サブセットの合計量の５０％以下で前記物理的試料中に存在する、請求項１から１４のいずれか１項に記載の方法。
前記基準マトリックスＢが、前記第２の複数の異なる細胞サブセットの内の２つ以上の異なる細胞サブセットの前記特徴プロファイル中に存在する少なくとも１つの異なる特徴を含む、請求項１から１５のいずれか１項に記載の方法。
前記基準マトリックスＢが、Ｂの特徴の数とは異なる多くの特徴を含む特徴シグネチャーの初期基準マトリックスのサブセットまたはスーパーセットであり、Ｂの特徴の数が、前記初期基準マトリックスより少ない条件数を与える、請求項１から１６のいずれか１項に記載の方法。
前記第１の複数の異なる細胞サブセットの全ての異なる細胞サブセットに対する、前記物理的試料中に存在する前記第２の複数の異なる細胞サブセット中の全ての異なる細胞サブセットの量を、
前記第２の複数の異なる細胞サブセットの異なる細胞サブセットに関連する全ての特徴の中央値を、
前記試料中の全ての特徴の中央値、
で除算することにより計算することをさらに含む、請求項１から１７のいずれか１項に記載の方法。
前記試料が生物試料である、請求項１から１８のいずれか１項に記載の方法。
前記細胞サブセットが脳細胞サブセットを含む、請求項１９に記載の方法。
前記脳細胞サブセットが、神経細胞、星状膠細胞、乏突起膠細胞、およびミクログリアの内の少なくとも１つのサブセットを含む、請求項２０に記載の方法。
前記細胞サブセットが、間質細胞、幹細胞、神経細胞、および前駆細胞の内の少なくとも１つのサブセットを含む、請求項１９から２１のいずれか１項に記載の方法。
前記細胞サブセットが腫瘍細胞サブセットを含む、請求項１９から２２のいずれか１項に記載の方法。
前記細胞サブセットが白血球サブセットを含む、請求項１９から２３のいずれか１項に記載の方法。
前記細胞サブセットが腫瘍浸潤白血球のサブセットを含む、請求項２４に記載の方法。
前記細胞サブセットがリンパ球のサブセットを含む、請求項２４または２５に記載の方法。
前記白血球サブセットが、ナイーブＢ細胞、記憶Ｂ細胞、プラズマ細胞、ＣＤ８Ｔ細胞、ナイーブＣＤ４Ｔ細胞、ＣＤ４記憶ＲＯ不活性Ｔ細胞、ＣＤ４記憶ＲＯ活性化Ｔ細胞、濾胞性ヘルパーＴ細胞、制御性Ｔ細胞、ガンマデルタＴ細胞、非刺激ＮＫ細胞、刺激ＮＫ細胞、単球、マクロファージＭ０、マクロファージＭ１、マクロファージＭ２、非刺激樹状細胞、刺激樹状細胞、非刺激マスト細胞、刺激マスト細胞、好酸球、および好中球からなる群より選択される２つ以上の細胞型を含む、請求項２４から２６のいずれか１項に記載の方法。
前記細胞サブセットが異なる細胞周期段階の細胞のサブセットを含む、請求項１９に記載の方法。
異なる細胞周期段階の前記細胞サブセットが、間期、分裂期または細胞質分裂の内の１つまたは複数の細胞サブセットを含む、請求項２８に記載の方法。
異なる細胞周期段階の前記細胞サブセットが、分裂前期、中期、分裂後期、または分裂終期の内の１つまたは複数の細胞サブセットを含む、請求項２８または２９に記載の方法。
異なる細胞周期段階の前記細胞サブセットが、Ｇ_０、Ｇ_１、Ｇ_２、またはＳ期の内の１つまたは複数の細胞サブセットを含む、請求項２８または２９に記載の方法。
前記第１の複数の異なる細胞サブセットが、異なる細胞内シグナル伝達経路、遺伝子調節経路、または代謝経路である、請求項１９に記載の方法。
前記異なる細胞内シグナル伝達経路が、サイトカインシグナル伝達、死因子シグナル伝達、増殖因子シグナル伝達、生存因子シグナル伝達、ホルモンシグナル伝達、Ｗｎｔシグナル伝達、ヘッジホッグシグナル伝達、Ｎｏｔｃｈシグナル伝達、細胞外マトリックスシグナル伝達、インスリンシグナル伝達、カルシウムシグナル伝達、Ｇタンパク質共役型受容体シグナル伝達、神経伝達物質シグナル伝達、およびこれらの組み合わせを含む、請求項３２に記載の方法。
前記異なる代謝経路が、解糖、糖新生、クエン酸回路、発酵、尿素回路、脂肪酸代謝、ピリミジン生合成、グルタメートアミノ酸基合成、ポルフィリン代謝、アスパルテートアミノ酸基合成、芳香族アミノ酸合成、ヒスチジン代謝、分岐アミノ酸合成、ペントースホスフェート経路、プリン生合成、グルクロネート代謝、イノシトール代謝、セルロース代謝、スクロース代謝、デンプンおよびグリコーゲン代謝、およびこれらの組み合わせを含む、請求項３２に記載の方法。
前記特徴プロファイルが、遺伝子発現プロファイル、タンパク質−タンパク質相互作用プロファイル、タンパク質リン酸化プロファイル、細胞電気活性プロファイル、クロマチン修飾プロファイル、染色体結合プロファイル、酵素活性プロファイル、代謝物プロファイルまたはこれらの組み合わせを含む、請求項１９から３４のいずれか１項に記載の方法。
特徴プロファイルが、前記生物試料中の細胞のＲＮＡトランスクリプトームを表す遺伝子発現プロファイルを含む、請求項３５に記載の方法。
前記生物試料が、保管された組織試料である、請求項１９から３６のいずれか１項に記載の方法。
前記生物試料が血液試料である、請求項１９から３７のいずれか１項に記載の方法。
前記生物試料が、固体組織試料由来である、請求項１９から３７のいずれか１項に記載の方法。
前記固体組織試料が腫瘍試料である、請求項３９に記載の方法。
前記固体組織試料がホルマリン固定、パラフィン包埋（ＦＦＰＥ）試料である、請求項３９または４０に記載の方法。
前記生物試料が精製試料である、請求項１９から４１のいずれか１項に記載の方法。
前記生物試料が白血球濃縮試料である、請求項１９から４２のいずれか１項に記載の方法。
個体から前記試料を取得することをさらに含む、請求項１９から４３のいずれか１項に記載の方法。
物理系の特徴プロファイルのデコンボリューションのためのコンピューター実装方法であって、
物理系の第１の複数の異なる細胞サブセットの組合せの第１の特徴プロファイルｍを得るステップと、
前記第１の特徴プロファイルｍを計算処理するステップであって、
ｉ）ｍと、前記物理系の第２の複数の異なる細胞サブセットに対する特徴シグネチャーの基準マトリックスＢとの間の回帰を最適化するステップであって、ｍがＢの一次結合としてモデル化され、
前記最適化が、前記回帰の一連の回帰係数を含むｆを解くことを含み、前記解くことが、線形損失関数、および、Ｌ_２ノルムペナルティ関数、を最小化するステップと、
ｉｉ）前記一連の回帰係数に基づいて、前記物理系の前記第２の複数の異なる細胞サブセットの内の１つまたは複数の異なる細胞サブセットの相対比率を推定するステップと、
ｉｉｉ）前記１つまたは複数の異なる細胞サブセットの前記相対比率の推定のために有意値を決定するステップを含む計算処理ステップと、
を含むコンピューター実装方法。
前記第１の特徴プロファイルｍを生成するためにデータを収集することをさらに含む、請求項４５に記載のコンピューター実装方法。
前記第１の特徴プロファイルｍが、第１の複数の異なる細胞サブセットを含む物理的試料から生成される、請求項４５に記載のコンピューター実装方法。
前記物理的試料が、生物試料、環境試料または食糧品試料である、請求項４７に記載のコンピューター実装方法。
前記ｆを解くことが、Ｂの複数の異なるサブセットの特徴シグネチャーの内のＢのサブセットの特徴を選択し、前記線形損失関数を最小化することを含む、請求項４５から４８のいずれか１項に記載のコンピューター実装方法。
前記１つまたは複数の異なる細胞サブセットの前記相対比率の推定のために有意値を決定するステップは、
ａ）親特徴プロファイルからランダムに選択された特徴を含むランダム特徴プロファイルｍ^＊を生成するステップであって、前記親特徴プロファイルが前記特徴プロファイルを含み、ｍおよびｍ*が同じユークリッドノルムを有するステップと、
ｂ）ｍ^＊と前記基準マトリックスＢとの間の回帰を最適化するステップであって、ｍ^＊がＢの一次結合としてモデル化され、
前記最適化が、前記回帰の一連の回帰係数を含むｆ^＊を解くことを含み、前記解くことが、線形損失関数、および、Ｌ_２ノルムペナルティ関数、を最小化するステップと、
ｃ）ｆ^＊と前記基準マトリックスＢの積を計算し、再構成特徴プロファイルを生成するステップと、
ｄ）前記ランダム特徴プロファイルと、前記再構成特徴プロファイルとの間の差異測定値を決定するステップと、
ｅ）ステップａ）〜ｄ）のｉ回の繰り返しから決定される差異測定値の分布に基づいて前記有意値を決定するステップであって、ｉが２以上の数であるステップと、を含む、請求項４５から４９のいずれか１項に記載のコンピューター実装方法。
１つまたは複数のプログラムを保存する非一時的コンピューター可読記憶媒体であって、前記１つまたは複数のプログラムが、コンピューターシステムの１つまたは複数のプロセッサーにより実行されると、１つまたは複数のプロセッサーに請求項１から４４のいずれか１項に記載の方法の少なくとも一部を実行させる命令を含む、非一時的コンピューター可読記憶媒体。
１つまたは複数のプログラムを保存する非一時的コンピューター可読記憶媒体であって、前記１つまたは複数のプログラムが、コンピューターシステムの１つまたは複数のプロセッサーにより実行されると、１つまたは複数のプロセッサーに請求項４５から５０のいずれか１項に記載の方法を実行させる命令を含む、非一時的コンピューター可読記憶媒体。
１つまたは複数のプロセッサー、および１つまたは複数のプログラムを保存する記憶装置を含むシステムであって、前記１つまたは複数のプログラムが、コンピューターシステムの１つまたは複数のプロセッサーにより実行されると、１つまたは複数のプロセッサーに請求項１から４４のいずれか１項に記載の方法の少なくとも一部を実行させる命令を含む、システム。
１つまたは複数のプロセッサー、および１つまたは複数のプログラムを保存する記憶装置を含むシステムであって、前記１つまたは複数のプログラムが、コンピューターシステムの１つまたは複数のプロセッサーにより実行されると、１つまたは複数のプロセッサーに請求項４５から５０のいずれか１項に記載の方法を実行させる命令を含む、システム。