JP2021019641A - 異なる細胞サブセットの比率の決定方法およびシステム - Google Patents

異なる細胞サブセットの比率の決定方法およびシステム Download PDF

Info

Publication number
JP2021019641A
JP2021019641A JP2020184163A JP2020184163A JP2021019641A JP 2021019641 A JP2021019641 A JP 2021019641A JP 2020184163 A JP2020184163 A JP 2020184163A JP 2020184163 A JP2020184163 A JP 2020184163A JP 2021019641 A JP2021019641 A JP 2021019641A
Authority
JP
Japan
Prior art keywords
cells
sample
cell
feature
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020184163A
Other languages
English (en)
Inventor
エム. ニューマン,アーロン
M Newman Aaron
エム. ニューマン,アーロン
アッシュ アリザデ,アーラシュ
Ash Alizadeh Arash
アッシュ アリザデ,アーラシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leland Stanford Junior University
Original Assignee
Leland Stanford Junior University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leland Stanford Junior University filed Critical Leland Stanford Junior University
Publication of JP2021019641A publication Critical patent/JP2021019641A/ja
Priority to JP2023110318A priority Critical patent/JP2023153771A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/5005Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Cell Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Tropical Medicine & Parasitology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)

Abstract

【課題】物理的系の特徴プロファイルのデコンボリューション方法の提供。【解決手段】a)第1の複数の異なる成分の特徴プロファイルと、b)第2の複数の異なる成分に対する特徴シグネチャーの基準マトリックス、との間の回帰を最適化し、特徴プロファイルが基準マトリックスの一次結合としてモデル化され、最適化することが回帰の一連の回帰係数を解くことを含み、解が、1)線形損失関数、及び、2)L2ノルムペナルティ関数を最小化すること;及び、一連の回帰係数に基づいて、試料中に存在する第2の複数の異なる成分の内の1つ又は複数の異なる成分の分数表現を推定すること、を含む方法。【選択図】図1a

Description

関連出願の相互参照
米国特許法119条(e)項に従って、本出願は、2015年1月22日に出願の米国特許仮出願第62/106,601号の利益を主張するものであり、この出願は、その全体が参照により本明細書に組み込まれる。
政府の権利
本発明は、NIHにより授与された許可番号5T32 CA09302−35(A.M.N.)および国防総省により授与された許可番号W81XWH−12−1−0498(A.M.N.)の下で政府の支援によりなされたものである。政府は本発明に対し一定の権利を有する。
後生動物およびそれらの複合組織の多様な生理学的状態の根底には、細胞組成の変化が存在する。例えば、悪性腫瘍では、免疫細胞の浸潤レベルは、腫瘍増殖、癌進行および患者転帰に関連している。免疫組織化学およびフローサイトメトリーなどの細胞の不均一性を調べる一般的な方法は、限られたレパートリーの表現型マーカーに依存し、また、フローサイトメトリーに先立つ組織の脱凝集は、細胞の損失または損傷に繋がり、結果が変わることがある。
最近、遺伝子発現プロファイル(GEP)における複数の細胞型の比率を予測する計算法が報告された。このような方法は、明確な組成を有する混合物(例えば、血液)に対しては、正確に機能するが、未知の含量およびノイズを有する混合物(例えば、固形腫瘍)に対して、および密接に関係した細胞型(例えば、ナイーブ対記憶B細胞)の識別に対しては、かなり効果が低い。さらに、以前の手法では統計的有意性検定がないために、それらの結果の解釈が困難になっている。
物理系の特徴プロファイルのデコンボリューション(解析)方法(method of convolving)が本明細書で提供される。本方法は、a)第1の複数の異なる成分の特徴プロファイルと、b)第2の複数の異なる成分に対する特徴シグネチャーの基準マトリックスとの間の回帰を最適化し、特徴プロファイルが基準マトリックスの一次結合としてモデル化され、最適化することが回帰の一連の回帰係数を解くことを含み、解が、1)線形損失関数、および2)Lノルムペナルティ関数を最小化すること;および一連の回帰係数に基づいて、試料中に存在する第2の複数の異なる成分の内の1つまたは複数の成分の分数表現を推定すること、を含み得る。
本開示の方法は、i)第1の複数の異なる成分を含む物理的試料を得ること、ii)試料から特徴プロファイルを生成し、該特徴プロファイルが第1の複数の異なる成分に関連する特徴の組合せを含むこと、iii)mと、特徴シグネチャーの基準マトリックスBとの間の回帰を最適化し、第2の複数の異なる成分内でそれぞれの特徴シグネチャーが異なる成分特有であり、mがBの一次結合としてモデル化され、最適化することが一連の回帰の回帰係数を含むfを解くことを含み、解が、線形損失関数、およびLノルムペナルティ関数を最小化すること、およびiv)一連の回帰係数に基づいて、試料中の第2の複数の異なる成分の内の1つまたは複数の異なる成分の分数表現を推定すること、を含み得る。
任意の実施形態では、fを解くことが、Bの複数の異なるサブセットの特徴シグネチャーの内のBのサブセットの特徴を選択し、線形損失関数を最小化することを含んでよい。
任意の実施形態では、線形損失関数は、線形ε−非感受性損失関数であってよい。
任意の実施形態では、最適化することは、サポートベクター回帰(SVR)の使用を含んでよい。いくつかの実施形態では、サポートベクター回帰は、ε−SVRである。いくつかの実施形態では、サポートベクター回帰は、ν(ニュー)−SVRである。いくつかの実施形態では、方法は、異なる値のνを使って、それぞれの異なる値のνに対するfの異なる解を生成するように方法を反復することをさらに含む。いくつかの実施形態では、方法は、fの異なる解の内で、a)特徴プロファイルmと、b)fと基準マトリックスBの積との間の最小の誤差を有する解を特定することをさらに含む。いくつかの実施形態では、最小の誤差は、ピアソンの積率相関係数、スピアマンの順位相関係数、二乗平均平方根誤差(RMSE)、ユークリッド距離、または平均絶対偏差(MAD)を使って得られる。
任意の実施形態では、方法は、a)親特徴プロファイルからランダムにから選択された特徴を含むランダム特徴プロファイルmを生成し、親特徴プロファイルが特徴プロファイルを含み、mおよびmが同じユークリッドノルムを有すること、b)mと基準マトリックスBとの間の回帰を最適化し、mがBの一次結合としてモデル化され、最適化することが、回帰の一連の回帰係数を含むfを解くことを含み、解が線形損失関数、およびLノルムペナルティ関数を最小化すること、c)fと基準マトリックスBの積を計算し、再構成特徴プロファイルを生成すること、d)ランダム特徴プロファイルと再構成特徴プロファイルとの間の差異測定値を決定すること、およびe)ステップa)〜d)のi回(iは2以上の数)の反復から決定される差異測定値の分布に基づいて、有意値を決定すること、による細胞サブセットの相対的比率の推定に対する有意値を決定することをさらに含んでよい。いくつかの実施形態では、差異測定値は、ピアソンの積率相関係数、スピアマンの順位相関係数、二乗平均平方根誤差(RMSE)、ユークリッド距離、または平均絶対偏差(MAD)である。いくつかの実施形態では、有意値は、p値である。いくつかの実施形態では、iは、10〜1000である。
任意の実施形態では、試料は、試料中に存在する第2の複数の異なる成分の合計量の10%以下で特徴シグネチャー中に現れる少なくとも1つの異なる成分を含んでよい。
任意の実施形態では、特徴シグネチャー中に現れる異なる成分は、試料中の異なる成分の合計量の50%以下で試料中に存在してよい。
任意の実施形態では、基準マトリックスBは、第2の複数の異なる成分の内の2つ以上の異なる成分の特徴プロファイル中に存在する少なくとも1つの異なる特徴を含んでよい。
任意の実施形態では、基準マトリックスBは、Bの特徴の数とは異なる多くの特徴を含む特徴シグネチャーの初期基準マトリックスのサブセットまたはスーパーセットであってよく、Bの特徴の数が、初期基準マトリックスより少ない条件数を与える。
任意の実施形態では、方法は、第2の複数の異なる成分の異なる成分に関連する全ての特徴の中央値を、試料中の全ての特徴の中央値で除算することにより、第1の複数の異なる成分の全ての異なる成分に対する、物理的試料中に存在する第2の複数の異なる成分中の全ての異なる成分の量を計算することをさらに含んでよい。
任意の実施形態では、試料は生物試料であってよい。いくつかの実施形態では、第1の複数の異なる成分は、異なる細胞サブセットである。いくつかの実施形態では、細胞サブセットは脳細胞サブセットを含む。いくつかの実施形態では、脳細胞サブセットは、神経細胞、星状膠細胞、乏突起膠細胞、およびミクログリアの内の少なくとも1つのサブセットを含む。いくつかの実施形態では、細胞サブセットは、間質細胞、幹細胞、神経細胞、および前駆細胞の内の少なくとも1つのサブセットを含む。いくつかの実施形態では、細胞サブセットは腫瘍細胞サブセットを含む。いくつかの実施形態では、細胞サブセットは白血球サブセットを含む。いくつかの実施形態では、細胞サブセットは腫瘍浸潤白血球のサブセットを含む。いくつかの実施形態では、細胞サブセットはリンパ球のサブセットを含む。いくつかの実施形態では、白血球サブセットは、ナイーブB細胞、記憶B細胞、プラズマ細胞、CD8 T細胞、ナイーブCD4 T細胞、CD4記憶RO不活性T細胞、CD4記憶RO活性化T細胞、濾胞性ヘルパーT細胞、制御性T細胞、ガンマデルタT細胞、非刺激NK細胞、刺激NK細胞、単球、マクロファージM0、マクロファージM1、マクロファージM2、非刺激樹状細胞、刺激樹状細胞、非刺激マスト細胞、刺激マスト細胞、好酸球、および好中球からなる群より選択される2つ以上の細胞型を含む。いくつかの実施形態では、細胞サブセットは、異なる細胞周期段階の細胞サブセットを含む。いくつかの実施形態では、異なる細胞周期段階の細胞サブセットは、間期、分裂期または細胞質分裂の内の1つまたは複数の細胞サブセットを含む。いくつかの実施形態では、異なる細胞周期段階の細胞サブセットは、分裂前期、中期、分裂後期、または分裂終期の内の1つまたは複数の細胞サブセットを含む。いくつかの実施形態では、異なる細胞周期段階の細胞サブセットは、G、G、G、またはS期の内の1つまたは複数の細胞サブセットを含む。いくつかの実施形態では、第1の複数の異なる成分は、異なる細胞内シグナル伝達経路、遺伝子調節経路、または代謝経路である。いくつかの実施形態では、異なる細胞内シグナル伝達経路には、サイトカインシグナル伝達、死因子シグナル伝達、増殖因子シグナル伝達、生存因子シグナル伝達、ホルモンシグナル伝達、Wntシグナル伝達、ヘッジホッグシグナル伝達、Notchシグナル伝達、細胞外マトリックスシグナル伝達、インスリンシグナル伝達、カルシウムシグナル伝達、Gタンパク質共役型受容体シグナル伝達、神経伝達物質シグナル伝達、およびこれらの組み合わせが含まれる。いくつかの実施形態では、異なる代謝経路には、解糖、糖新生、クエン酸回路、発酵、尿素回路、脂肪酸代謝、ピリミジン生合成、グルタメートアミノ酸基合成、ポルフィリン代謝、アスパルテートアミノ酸基合成、芳香族アミノ酸合成、ヒスチジン代謝、分岐アミノ酸合成、ペントースホスフェート経路、プリン生合成、グルクロネート代謝、イノシトール代謝、セルロース代謝、スクロース代謝、デンプンおよびグリコーゲン代謝、およびこれらの組み合わせが含まれる。いくつかの実施形態では、特徴プロファイルには、遺伝子発現プロファイル、タンパク質−タンパク質相互作用プロファイル、タンパク質リン酸化プロファイル、細胞電気活性プロファイル、クロマチン修飾プロファイル、染色体結合プロファイル、酵素活性プロファイル、代謝物プロファイルまたはこれらの組み合わせが含まれる。いくつかの実施形態では、特徴プロファイルには、生物試料中の細胞のRNAトランスクリプトームを表す遺伝子発現プロファイルが含まれる。いくつかの実施形態では、生物試料は、保管された組織試料である。いくつかの実施形態では、生物試料は、血液試料である。いくつかの実施形態では、生物試料は、固体組織試料由来である。いくつかの実施形態では、固体組織試料は腫瘍試料である。いくつかの実施形態では、固体組織試料はホルマリン固定、パラフィン包埋(FFPE)試料である。いくつかの実施形態では、生物試料は、精製試料である。いくつかの実施形態では、生物試料は、白血球濃縮試料である。いくつかの実施形態では、方法は、個体から試料を得ることをさらに含む。
任意の実施形態では、第1の複数の異なる成分は、異なる化学化合物である。いくつかの実施形態では、異なる化学化合物には、有機化合物、無機化合物、毒素、微生物、代謝物、アレルゲン、およびこれらの組み合わせが含まれる。いくつかの実施形態では、特徴プロファイルには、核磁気共鳴(NMR)スペクトル、電磁放射線吸光および/または発光スペクトル、円偏光二色性スペクトル、ラマンスペクトル、質量スペクトル、クロマトグラム、およびこれらの組み合わせが含まれる。いくつかの実施形態では、試料は、生物試料、環境試料または食糧品試料である。いくつかの実施形態では、試料は、環境試料であり、環境試料は空気試料、水試料または土壌試料である。いくつかの実施形態では、試料は環境試料であり、環境試料は、川、海洋、湖、雨、雪、下水、下水処理排水、農業排水、工業排水、水道水、飲料水、排気システム、埋立地、都市開発現場または農地から得られる。
また、本明細書で提供されるのは、物理系の第1の複数の異なる成分の組合せの第1の特徴プロファイルmを得ること、および第1の特徴プロファイルmを計算により処理すること、を含む物理系の特徴プロファイルのデコンボリューションのためのコンピューター実装方法であり、計算処理は、i)mと、物理系の第2の複数の異なる成分に対する特徴シグネチャーの基準マトリックスBとの間の回帰を最適化し、mがBの一次結合としてモデル化され、最適化することが一連の回帰の回帰係数を含むfを解くことを含み、解が、線形損失関数、およびLノルムペナルティ関数を最小化すること、およびiii)一連の回帰係数に基づいて、物理系中に存在する第2の複数の異なる成分の内の1つまたは複数の異なる成分の分数表現を推定すること、を含む。いくつかの実施形態では、第1の特徴プロファイルmは、電気使用量、電気通信使用量、またはトラフィックパターンを表すデータを含む。いくつかの実施形態では、方法は、第1の特徴プロファイルmを生成するためにデータを収集することをさらに含む。
任意の実施形態では、第1の特徴プロファイルmは、第1の複数の異なる成分を含む物理的試料から生成されてよい。
任意の実施形態では、物理的試料は、生物試料、環境試料または食糧品試料であってよい。
また、本明細書で提供されるのは、1つまたは複数のプログラムを保存する非一時的コンピューター可読記憶媒体であり、該1つまたは複数のプログラムは、コンピューターシステムの1つまたは複数のプロセッサーにより実行されると、本明細書に記載のように、1つまたは複数のプロセッサーに試料の特徴プロファイルのデコンボリューション方法の少なくとも一部の実施形態を実行させる命令を含む。
また、本明細書で提供されるのは、1つまたは複数のプログラムを保存する非一時的コンピューター可読記憶媒体であり、該1つまたは複数のプログラムは、コンピューターシステムの1つまたは複数のプロセッサーにより実行されると、本明細書に記載のように、1つまたは複数のプロセッサーに物理系の特徴プロファイルのコンピューター実装デコンボリューション方法の実施形態を実行させる命令を含む。
また、本明細書で提供されるのは、1つまたは複数のプロセッサー;および1つまたは複数のプログラムを保存する記憶装置であり、該1つまたは複数のプログラムは、コンピューターシステムの1つまたは複数のプロセッサーにより実行されると、本明細書に記載のように、1つまたは複数のプロセッサーに試料の特徴プロファイルのデコンボリューション方法の少なくとも一部の実施形態を実行させる命令を含む。
また、本明細書で提供されるのは、1つまたは複数のプロセッサー;および1つまたは複数のプログラムを保存する記憶装置であり、該1つまたは複数のプログラムは、コンピューターシステムの1つまたは複数のプロセッサーにより実行されると、本明細書に記載のように、1つまたは複数のプロセッサーに物理系の特徴プロファイルのコンピューター実装デコンボリューション方法の実施形態を実行させる命令を含む。
また、本明細書で提供されるのは、個体の疾患を評価する方法であり、該方法は、i)疾患を有するまたは有すると疑われる個体から生物試料を取得すること、ii)本明細書に記載のように、試料の特徴プロファイルのデコンボリューション方法の一実施形態による方法を実施することにより、試料中に存在する複数の異なる成分の内の1つまたは複数の異なる成分の分数表現を推定すること、およびiii)試料中の1つまたは複数の異なる成分の推定分数表現と、1つまたは複数の基準試料中の1つまたは複数の異なる成分の基準分数表現との間の比較に基づいて、疾患の予後および/または診断を決定することを含み、基準試料が疾患を有する個体のコホート由来であり、1つまたは複数の異なる成分が疾患の診断および/または予後となる。いくつかの実施形態では、方法は、物理的または電子的形態のレポートを提供することをさらに含み、該レポートは、個体に対し決定された予後および/または診断を示す。
また、本明細書で提供されるのは、臨床試料特徴の予測、予後および/または診断値を評価する方法であり、該方法は、i)疾患を有する個体のコホートから生物試料を取得すること、ii)本明細書に記載のように、試料の特徴プロファイルのデコンボリューション方法の一実施形態による方法を実施することにより、試料中に存在する複数の異なる成分の内の1つまたは複数の異なる成分の分数表現を推定すること、iii)個体のコホートにおける1つまたは複数の異なる成分の分数表現と、疾患の臨床転帰との間の相関に基づいて、疾患に対する生物試料中の異なる成分と関連する予測、予後および/または診断値を決定することを含む。
また、本明細書で提供されるのは、疾患治療の臨床転帰を予測する方法であり、該方法は、i)本明細書に記載のように、試料の特徴プロファイルのデコンボリューション方法の実施形態による方法を実施することにより、疾患の治療を受けた個体から得られる試料中に存在する複数の異なる成分内の1つまたは複数の異なる成分の分数表現を推定すること、およびii)試料中の1つまたは複数の異なる成分の推定分数表現と、1つまたは複数の異なる成分と治療の臨床転帰との予め定められた関連付けとの間の比較に基づいて、治療の臨床転帰を予測することを含む。いくつかの実施形態では、疾患の治療は、コホート中の個体に投与された。いくつかの実施形態では、1つまたは複数の異なる成分と治療の臨床転帰との関連付けは、本明細書に記載のように、臨床試料特徴の予測、予後および/または診断値を評価する方法の実施形態による方法により決定される。いくつかの実施形態では、方法は、物理的または電子的形態のレポートを提供することをさらに含み、該レポートは、個体の治療の予測臨床転帰を示す。いくつかの実施形態では、レポートは、治療の予測臨床転帰に基づいた、疾患に対する個体への将来の治療投与の推奨手順をさらに含む。
また、本明細書で提供されるのは、生物試料の特徴プロファイルを計算処理することによる生物試料中の細胞サブセットの相対比率の推定方法である。計算処理は、細胞サブセット特徴シグネチャーの基準マトリックスを使って、生物試料の特徴プロファイルにサポートベクター回帰を適用し、生物試料中の細胞サブセットの相対比率を推定することを含む。それぞれの細胞サブセット特徴シグネチャーは、異なる細胞サブセットに対応し得る。方法は、複数の細胞サブセットの特定のための有意値を決定することをさらに含んでよい。本方法を実施するためのシステムおよびコンピューター可読媒体も提供される。
添付図面と併せて解釈することにより、次の詳細な説明の特定の態様が最もよく理解されよう。慣例に従って、図面の様々な部分は、正確な縮尺ではないことを強調しておきたい。むしろ、様々な部分の寸法は、明瞭さのために任意に拡大または縮小されている。図面に含まれているのは、以下の図である。
CIBERSORTの概要および白血球デコンボリューションへの適用を示す図である。(図1a)手法の模式図。 208個のアレイの異なる精製または濃縮白血球サブセット(図17)、および(図1c)非細胞株と細胞株に分割した、3,061個の多様なヒトトランスクリプトームの、デコンボリューションへの白血球シグネチャーマトリックス(すなわち、LM22)の適用。図1bのCIBERSORT比率は、CIBERSORTによりそれぞれの白血球サブセットに割り付けられた相対的比率を意味する。図1bの非活性化および活性化サブセットは、それぞれ「+」および「−」で示されている。 208個のアレイの異なる精製または濃縮白血球サブセット(図17)、および(図1c)非細胞株と細胞株に分割した、3,061個の多様なヒトトランスクリプトームの、デコンボリューションへの白血球シグネチャーマトリックス(すなわち、LM22)の適用。図1cの感度(Sn)および特異性(Sp)は、方法で記載の、正および負の群に関連して定義される。AUCは曲線下面積。 コールターカウンター11により測定した対応する比率と比較した、全血試料のリンパ球、単球、および好中球のCIBERSORT分析。 複合組織由来の多様なRNA混合物に対する性能評価を示す図である。(図2a〜2c):(図2a)添加腫瘍含量(x軸)およびノイズ(y軸)の全域の性能、(図2b)元の未改質値からの図2aの混合物の偏差、および(図2c)漸増腫瘍含量の関数としての所与の細胞型の検出限界、の関係から見た、模擬組織中の白血球サブセット分解のためのCIBERSORT精度(各データポイント当たりn=5ランダム混合物)。 複合組織由来の多様なRNA混合物に対する性能評価を示す図である。(図2a〜2c):(図2a)添加腫瘍含量(x軸)およびノイズ(y軸)の全域の性能、(図2b)元の未改質値からの図2aの混合物の偏差、および(図2c)漸増腫瘍含量の関数としての所与の細胞型の検出限界、の関係から見た、模擬組織中の白血球サブセット分解のためのCIBERSORT精度(各データポイント当たりn=5ランダム混合物)。 複合組織由来の多様なRNA混合物に対する性能評価を示す図である。(図2a〜2c):(図2a)添加腫瘍含量(x軸)およびノイズ(y軸)の全域の性能、(図2b)元の未改質値からの図2aの混合物の偏差、および(図2c)漸増腫瘍含量の関数としての所与の細胞型の検出限界、の関係から見た、模擬組織中の白血球サブセット分解のためのCIBERSORT精度(各データポイント当たりn=5ランダム混合物)。図2cおよび図2hの値は、中央値±95%信頼区間として表されている。 図2a〜2cに示した分析に対して、6つのGEPデコンボリューション法とCIBERSORTの比較(図7、8)。 乳房組織に添加した全血のインビトロ混合物の分析。左:血液比率の報告は、遺伝子発現データ(LM22正規化免疫指標:方法の項参照)と一致する。右:方法間の白血球デコンボリューションの安定性。図2e〜2iの結果は、LM22を使って取得し、その後、分析の前に、11種の主要白血球タイプに併合した(図16a〜16i)。 独立調査間および癌タイプ間のCIBERSORTの一貫性(白血球の略語については、図16j〜16kを参照)。 (図2g)対をなす凍結とFFPE DLBCL試料との間で比較したCIBERSORT性能、ならびに(図2h)正常肺組織および(図2i)濾胞性リンパ腫腫瘍のフローサイトメトリーと比較したCIBERSORT性能。 (図2g)対をなす凍結とFFPE DLBCL試料との間で比較したCIBERSORT性能、ならびに(図2h)正常肺組織および(図2i)濾胞性リンパ腫腫瘍のフローサイトメトリーと比較したCIBERSORT性能。図2hおよび図2iで定量化に使用した表面マーカーは、括弧中に示す。図2cおよび図2hの値は、中央値±95%信頼区間として表されている。 (図2g)対をなす凍結とFFPE DLBCL試料との間で比較したCIBERSORT性能、ならびに(図2h)正常肺組織および(図2i)濾胞性リンパ腫腫瘍のフローサイトメトリーと比較したCIBERSORT性能。図2iのアスタリスクは、同じ患者からの外れ値の可能性があることを示す。図2hおよび図2iで定量化に使用した表面マーカーは、括弧中に示す。 41人のヒト対象における個々の細胞サブセットのディープデコンボリューションおよび列挙を示す図である。(図3a〜3c):(図3a)20人の対象由来のPBMC中の8個のサブセット、(図3b)別のセットの7人の対象由来のPBMC中のFOXP3+Treg、および(図3c)14人のFLの対象由来の腫瘍生検材料中の悪性のB細胞を含む3個の免疫サブセットに関して、CIBERSORTとフローサイトメトリーとの間の直接比較。 41人のヒト対象における個々の細胞サブセットのディープデコンボリューションおよび列挙を示す図である。(図3a〜3c):(図3a)20人の対象由来のPBMC中の8個のサブセット、(図3b)別のセットの7人の対象由来のPBMC中のFOXP3+Treg、および(図3c)14人のFLの対象由来の腫瘍生検材料中の悪性のB細胞を含む3個の免疫サブセットに関して、CIBERSORTとフローサイトメトリーとの間の直接比較。 41人のヒト対象における個々の細胞サブセットのディープデコンボリューションおよび列挙を示す図である。(図3a〜3c):(図3a)20人の対象由来のPBMC中の8個のサブセット、(図3b)別のセットの7人の対象由来のPBMC中のFOXP3+Treg、および(図3c)14人のFLの対象由来の腫瘍生検材料中の悪性のB細胞を含む3個の免疫サブセットに関して、CIBERSORTとフローサイトメトリーとの間の直接比較。 図3a〜3cで分析したデータセットに対して、5つの発現ベースデコンボリューション法の比較。灰色の領域は、フローサイトメトリーと有意(P<0.05)に相関した、デコンボリューションされた細胞型を意味する。全ての方法の散布図は図13a〜13b、14に示している。3つの事例では、相関係数が決定できなかった。このパネルに含めるために、これらは、0の値に割り付けられた(図19a〜19d;図13a〜13b)。データは、平均±標準偏差として表される。図19a〜19dには、RMSE値を含む全データが示されている。 LM22シグネチャーマトリックスおよびAbbasらとの比較を示す図である。(図4a)22白血球サブセット間の各遺伝子の相対発現を示すLM22シグネチャーマトリックス(図16a〜16i)の色分け地図。遺伝子発現レベルを単位分散に正規化し、ユークリッド距離を使って細胞サブセットおよび遺伝子を階層的にクラスター化した(高発現、赤;低発現、青)。 LM22と、以前報告されたシグネチャーマトリックス(Abbasら、2009)との間の、遺伝子、細胞サブセット、および発現アレイに関する重なり。AbbasらとLM22との間の遺伝子の重なりに対しては、我々は、HUGO 遺伝子シンボル(n=36)に分解できないものを含む、全てのAffymetrix probe setを「遺伝子」と見なした。LM22の詳細については、図16a〜16kを参照されたい。 LM22中のそれぞれの細胞サブセットの基準プロファイルを比較する相関係数(ピアソン)の全組み合わせ対比色分け地図(遺伝子は方法の項で記載のように正規化した;図16a〜16iと同様に)。 精製白血球の分析によるLM22の検証を示す図である。(図5a)LM22中でプロファイリングされた精製/濃縮白血球を含む検証アレイにおいてCIBERSORTによりコールされた各LM22細胞サブセットの比率(図1bに関連;図17a〜17bも参照されたい)。所与の細胞サブセットのアレイに対する結果が比率の中央値としてまとめられている。色標示凡例に示す細胞サブセットの略語は、図16j〜16kで定義されている。 左:BおよびTリンパ球を5人のヒト扁桃腺から流動選別して、それぞれ95%および98%を超える平均純度レベルにした後、マイクロアレイによりプロファイリングした。右:CIBERSORTにより推定された、これらのB/T細胞の分数表現、ならびに残りの白血球含量。 素性の明確な混合物のCIBERSORTによる分解能を示す図である。異なるシグネチャーマトリックスを使って(上段)、異なる混合物に適用した(下段)CIBERSORT性能の解析。上段:(図6a)GSE11103中の精製血液癌細胞株発現プロファイル、(図6b)GSE19380中の神経遺伝子発現プロファイル、および(図6c)LM22に対する細胞集団基準発現シグネチャー(図16a〜16k)。下段:(図6a)血液癌細胞株(GSE11103)と、(図6b)神経細胞型(GSE19380)の所定の混合物に対する既知および推定比率の比較。(図6c)4人の非ホジキンリンパ腫患者由来の一対の試料を含むリツキシマブ治療前後のPBMC試料のLM22を使ったCIBERSORT分析(分かりやすくするために、11種の白血球タイプにプールした;図16a〜16kを参照されたい)。 上段:(図6a)GSE11103中の精製血液癌細胞株発現プロファイル、(図6b)GSE19380中の神経遺伝子発現プロファイル、および(図6c)LM22に対する細胞集団基準発現シグネチャー(図16a〜16k)。下段:(図6a)血液癌細胞株(GSE11103)と、(図6b)神経細胞型(GSE19380)の所定の混合物に対する既知および推定比率の比較。(図6c)4人の非ホジキンリンパ腫患者由来の一対の試料を含むリツキシマブ治療前後のPBMC試料のLM22を使ったCIBERSORT分析(分かりやすくするために、11種の白血球タイプにプールした;図16a〜16kを参照されたい)。 上段:(図6a)GSE11103中の精製血液癌細胞株発現プロファイル、(図6b)GSE19380中の神経遺伝子発現プロファイル、および(図6c)LM22に対する細胞集団基準発現シグネチャー(図16a〜16k)。下段:(図6a)血液癌細胞株(GSE11103)と、(図6b)神経細胞型(GSE19380)の所定の混合物に対する既知および推定比率の比較。(図6c)4人の非ホジキンリンパ腫患者由来の一対の試料を含むリツキシマブ治療前後のPBMC試料のLM22を使ったCIBERSORT分析(分かりやすくするために、11種の白血球タイプにプールした;図16a〜16kを参照されたい)。 付加ノイズを含む模擬腫瘍に対するデコンボリューション法の比較分析を示す図である(図2a、2bに関連)。(図7a)添加腫瘍含量(x軸)および非log線形添加ノイズ(y軸)に対するそれぞれの方法の性能景観図(詳細は方法の項を参照)。図7aの既知の細胞型比率に対する性能は、下限をゼロとしたピアソンの相関係数で表されている。 各混合物のその元の非変更値からの偏差の関数として評価したそれぞれの方法の精度(x軸上に1−Rとして表される)。推定の偏りを示すために、図7bに、既知と予測細胞型比率(パーセンテージとして表されている)との差異が、上限を40とした二乗平均平方根誤差(RMSE)として表されている。 既知の含量の模擬混合物の検出限界に対するデコンボリューション法の比較を示す図である(図2c、2dに関連)。各色は、所定の細胞型(この場合、ジャーカット)に対する所定の入力濃度を表し、各線はGEPデコンボリューションにより予測されたその濃度を表す。既知のジャーカット濃度は、異なる濃度の結腸癌株を有する4つの血液細胞株の5つの模擬混合物における広範な添加腫瘍含量範囲にわたり測定された(方法の項を参照)。データは、中央値(n=5混合物)±95%信頼区間として表されている。 LM22中のそれぞれの細胞サブセットに対する検出限界の分析を示す図である。(図9a)LM22の残りの21細胞型の模擬混合物に添加されたナイーブB細胞の所定の入力を使って検出限界が評価されたことを除いて、図8と同じ(図16a〜16k)。未知の含量の検出限界に対する影響は、ナイーブB細胞遺伝子の順序をランダムに変えることにより生成した模擬GEPを加えることにより評価された。データは、中央値(n=4混合物)±95%信頼区間として表されている。 LM22中の全細胞型であることを除いて、図9aと同じ。より大きいスパイクインが相関を促進するのを防ぐために、我々は、ノンパラメトリックスピアマンの順位相関係数を使って性能を集計し、全てのスパイクインおよび試験した未知の含量のレベルに対する既知および予測の比率を比較した。これらの結果を全体として考慮すると、CIBERSORTは、試験した他の方法より有意に性能が優れている(P<0.0001;対応のある両側性ウィルコクソン符号付順位検定;n=22細胞サブセット)。注目すべきことに、CIBERSORTはまた、ピアソン相関により測定して、直線当てはめに対して、他の方法より性能が優れていた。さらなる詳細に関しては、方法の項を参照されたい。 所定の混合物中の特徴(遺伝子)選択の分析を示す図である。(図10a)スパイクシリーズに対するCIBERSORTの適用結果。該スパイクシリーズでは、CD8 T細胞に対するLM22基準プロファイルが、非活性化マスト細胞(MC−)に対する対応する基準プロファイル中に、均等増分でスパイクされた(n=21)。(注目すべきことに、両細胞型は、LM22中で大きく異なる発現ベクターを有する;図4c参照)。 CD8 T細胞のためではなく、100%非活性化マスト細胞をデコンボリューションするためにサポートベクター回帰(SVR)により選択された遺伝子間の比較であり、逆も同じ。それぞれの特有の遺伝子サブセットに対し、LM22シグネチャーマトリックス中の発現レベルが、非活性化マスト細胞とCD8 T細胞との間でさらに比較される。対応のあるおよび対応のない両側性ウィルコクソン符号付順位検定を、それぞれ群内および群間比較に使用した。データは中央値±四分位間範囲として表される。100%CD8 T細胞試料のために特有に選択された遺伝子は、非活性化マスト細胞より、CD8 T細胞中で有意に多く発現されるが、その量は小さい。さらに、逆のシナリオは、100%非活性化マスト細胞試料中の非活性化マスト細胞遺伝子では観察されず、SVR遺伝子選択は、混合物中の特定の細胞サブセットの存在または非存在と強く相関していないことを示唆する。 LM22中の遺伝子発現レベルと、0%を超えるCD8 T細胞および0%を超える非活性化マスト細胞を含む19混合物のセットからのSVRによりそれぞれの遺伝子が選択(仮にあったとして)される頻度との間の比較(図10aのパネルを参照)。上段:(左)CD8 T細胞または(右)非活性化マスト細胞の発現レベルの比較。下段:(左)CD8 T細胞および非活性化マスト細胞または(右)LM22中の全ての細胞サブセットの平均発現レベルの比較。スパイクイン組成に関係なく、発現と遺伝子選択頻度との間の最も高い相関は、LM22中の全ての細胞型を考慮した場合に観察された。 多重共線性のシグネチャーマトリックスベース方法に与える影響を示す図である。(図11a〜11d)多重共線性のデコンボリューション性能に与える影響が、未知の含量(図11a〜図11c)またはシグネチャーマトリックスに加えられたノイズを有する混合物(図11d)に対し示されている。それぞれのパネルは、次のように整理されている。上段:多様な多重共線性値(x軸;方法の項参照)に対する平均相互相関係数(左y軸)および対応するシグネチャーマトリックスGEPの平均条件数カッパ(右y軸);平均相互相関は、シグネチャーマトリックス基準プロファイルの全組み合わせ対比相関比較(ピアソン)の平均値を示し、カッパは、シグネチャーマトリックス安定性の尺度(方法の項参照)である。両測定法は、シグネチャーマトリックス中の多重共線性(または、基準プロファイル中の類似度)を取得する。下段左:模擬混合物に対する4つのデコンボリューション法の相対的性能を示し、これは、既知および予測の細胞比率(y軸)を比較する。20種のレベルの多重共線性からの結果が、多重共線性の増加の順で(左から右へ)示される。多重共線性のそれぞれのレベルは、10回模擬され、集計値は、平均±s.e.m.として表される。下段右:それぞれの方法の性能のボックスプロットとしての集計、四分位範囲がボックス中に含まれ、最小および最大点はひげにより示される。CIBERSORTと他の方法との間の群比較を、対応のある両側性ウィルコクソン符号付順位検定を使って実施した。全てのシグネチャーマトリックスおよび混合物ベクターは、分析の前に、単位分散に正規化された。更なる詳細については、方法の項を参照されたい。 同上。 同上。 同上。 18人の個体のDLBCL腫瘍(GSE18377)中の凍結とFFPE試料との間の白血球デコンボリューション結果の比較を示す図である。(図12a)それぞれの腫瘍中で分解された22個の白血球サブセットに対する結果が示される;図2gに関連。データポイント(丸)は、図2gの場合のように着色され、細胞型を示す。試料ID:11および14のデコンボリューション結果は、FFPEと凍結状態との間で有意に相関しなかった(NS)。 全18個の腫瘍中の代表的細胞型の散布図を示す。 PBMC中の9個の白血球サブセットの列挙のためのデコンボリューション法の比較(図3a、3bに関連)。(図13a)20個のPBMC試料中の8個の白血球サブセットの列挙に関し、フローサイトメトリーを5つのデコンボリューション法と比較した散布図。 7個のPBMC試料の別のコホート中でプロファイリングされたTregを除いて、図13aと同じ。分析した10個の合計表現型(方法の項参照)の内で、ここで示した9個のサブセットは、少なくとも0.5の相関係数を有する少なくとも1つの方法でデコンボリューションされた。全10個のサブセット(ガンマデルタT細胞を含む)の詳細性能測定法は、図19a〜19dに示されている。 FL腫瘍生検材料中の3個の白血球サブセットの列挙に関し、デコンボリューション法の比較(図2i、3cに関連)。脱凝集したFLリンパ節生検材料中の悪性B細胞を含む3個の白血球サブセットの列挙に関し、フローサイトメトリーを5つのデコンボリューション法と比較した散布図。個々の細胞サブセットのRMSE値については、図19a〜19dを参照されたい。 複合混合物に適用した5つのデコンボリューション法に対するベンチマーキング結果のまとめ。2つの性能尺度(RおよびRMSE)を使って、CIBERSORTは、有意に他の遺伝子発現ベースの方法(対応のある両側性ウィルコクソン符号付順位検定)より性能が優れており、一般に、複合混合物に対し、全ての他の方法より良好な性能を示す(図2d)。図19a〜19dでは、生データは、「複合混合物」として提供される。デコンボリューション法の詳細については、図18および方法を参照されたい。 白血球シグネチャーマトリックス(LM22)を示す図である。示されているのは、22個の免疫細胞型を相互からおよびその他の細胞型から識別する遺伝子シグネチャーの正規化発現レベル(affymetrix強度)である(図16a〜16i)。方法の項で記載のように、遺伝子はその他の正常なおよび癌細胞に対し選別され、それらの特異性を高めた。原データは、隣接シート(試料)で提供される。付随する原稿全体に登場する白血球略語は、図16jおよび16kに示される。 同上。 同上。 同上。 同上。 同上。 同上。 同上。 同上。 同上。 同上。 外部データセットの精製造血集団に対するLM22の検証を示す図である。精製試料を含む外部データセットにCIBERSORTを適用し、それぞれの試料中のシグネチャーマトリックスに含まれる細胞型の比率を推定した。CIBERSORTにより予測された最大の比率を有する細胞型のタイプを、既知の精製細胞型と比較し、これらが一致すると、正しいとしてカウントした。 同上。 GEPデコンボリューション法の特徴比較を示す図である。示した全ての方法は、マーカー遺伝子、シグネチャーGEP、または細胞比率の事前の知識を必要とし、入力として、任意の数の細胞型を取り込む。詳細は、方法の項を参照されたい。「a」は、この研究で示されているか否かを意味する(例えば、図6a〜6c、7a〜7b、および8)。「b」は、この研究で示されていることを意味する(図9a〜9b、方法の項参照)。 理想化混合物に対するそれぞれのアルゴリズムの性能を示す図である。細胞は、それぞれの分析に対する相対的性能に従って着色されている。相関係数については、赤=最大、青=最小。RMSEについては、青=最大、赤=最小。LM22を3種の主要白血球タイプ(リンパ球、単球、および好中球)に併合し、グラウンドトルース比率(GSE20300)に対し比較した。「a」は、統計が一回の実験から得られた(すなわち、直接)のか、または中央値を使って総計したかを意味している。図19aは、バルク組織に対する相関係数(R)を示す。 図19bは、バルク組織に対するRMSEを示す。 図19cは、理想化混合物に対する相関係数(R)を示す。 図19dは、理想化混合物に対するRMSEを示す。 一実施形態による本発明のシステムの概略図である。システムは、本方法を実施するように構成されたサポートベクター回帰アプリケーションを有する記憶装置を含む。 サポートベクター回帰の例示的実施例を示す一群のグラフである。 本開示のいくつかの実施形態による、マーカー遺伝子のデコンボリューションに対する影響を示す一群のグラフおよび表である。 同上。 同上。 同上。 同上。 本開示のいくつかの実施形態による、25個のヒト癌中の推定白血球頻度および予後関連性を示す一群のグラフである。 同上。 同上。 同上。 本開示のいくつかの実施形態による、プラズマ細胞に対する浸潤PMNの比率が、多様な固形腫瘍における予後であることを示す一群のグラフである。 同上。 同上。 同上。 同上。 本開示のいくつかの実施形態による、癌タイプおよびデータセット間の推定白血球比率の相関分析を示す一群のグラフである。 同上。 同上。 本開示のいくつかの実施形態による、22個の白血球サブセットと25種の癌組織との間の予後関連性を示す一群のグラフである。 同上。 同上。 同上。 本開示のいくつかの実施形態による、非小細胞肺癌および隣接する正常組織中のプラズマ細胞レベルを示す一群のグラフおよび画像である。 同上。 同上。 同上。 同上。 同上。 同上。 同上。 本開示のいくつかの実施形態による、ヘルドアウト発現データセットでの、組織マイクロアレイ(TMA)マーカーおよび染色定量化の評価、ならびに推定多形核(PMN)/プラズマ細胞(PC)の予後的有意性を示す一群のグラフおよび画像である。 同上。 同上。 同上。 同上。
定義
本明細書において別途定義されない限り、本明細書で使用されるすべての技術および科学用語は、本発明の属する技術分野の当業者により一般に理解されるものと同様の意味を持つ。本明細書に記載されているものと類似または同等の任意の方法および材料を本発明を実施または試験するために使用することが可能であるが、好ましい方法および材料を以下に記載する。
本明細書で言及される、全ての特許および刊行物およびこのような特許および刊行物中に開示された全ての配列は、参照により明示的に本明細書に組み込まれる。
数値範囲は、その範囲を規定する両端の数値を含む。
本開示で提供される見出しは、本発明の様々な態様または実施形態を制限するものではない。したがって、すぐ下で定義される用語は、総じて本明細書を参照することでより詳しく定義される。
特に断らなければ、本明細書で使用されるすべての技術的および科学的用語は、本発明が属する当業者により一般に理解されているものと同じ意味を有する。さらに、特定の用語は、明確さおよび参照の容易さのために、下記で定義される。
「複数」は、少なくとも2個のメンバーを含む。特定の事例では、複数は、少なくとも10個、少なくとも100個、少なくとも1000個、少なくとも10,000個、少なくとも100,000個、少なくとも10個、少なくとも10個、少なくとも10個または少なくとも10個以上のメンバーを有してよい。
本明細書で使用される場合、「物理系」は、任意の一群の構成要素(分子、細胞、組織、生物、電気の回路、デバイス、器具、コンピューター、ビークル、建物)を意味してよく、該構成要素は、直接または間接的に相互に機能的に関連している(例えば、系の1つの構成要素の存在、位置または作用が直接または間接的に、系の別の構成要素の存在、位置または作用に影響を与える)。いくつかの事例では、物理系は、物理的試料である。
本明細書で使用される場合、「物理的試料」は、整合性のある単位として、その一群が取得される環境から物理的に単離可能な任意の一群の対象物(例えば、液体、固体または気体形態の)を意味してよい。本明細書で使用される場合、用語の「生物試料」は、生物から得られる、または生物を含む、またはそれらの一部(例えば、生物の組織試料、生検材料、細胞試料)である任意の物理的試料(例えば、個体または液体形態の)を意味する。生物試料は、細胞培養からまたは生物から得てもよい。生物試料は、生物試料の1つまたは複数の成分の除去により精製してもよい。
本明細書で使用される場合、「異なる成分」は、1つまたは複数の実験的に定められる特性および/または機能の関係性に基づいて一定の群に分類される任意の形態の対象物(例えば、分子、化合物、タンパク質、核酸、細胞、など)、またはその一群を意味してよい。それぞれの異なる成分は、1つまたは複数の実験的に定められる特性および/または機能の関係性をメンバー中で共有する1つまたは複数のメンバーを有してよい。
本明細書で使用される場合、用語の「細胞サブセット」は、生物試料中の任意の細胞群を意味し、該細胞群の存在は、RNAレベルの遺伝子発現、タンパク質発現、ゲノム変異、バイオマーカー、などの1つまたは複数の特徴により特徴付けられる。細胞サブセットは、例えば、細胞型または細胞サブタイプであってよい。
本明細書で使用される場合、用語の「細胞サブセットの推定相対比率」または「細胞サブセットの相対比率のベクター」は、それぞれの細胞サブセット(例えば、本方法の実施形態により推定されるような)の相対比率を意味する。従って、それぞれの細胞サブセットの相対比率は、ベクター(それぞれの細胞サブセットが異なる次元の前記ベクターである)として理解されてよい。本明細書で使用される場合、「細胞サブセットの相対比率」は、細胞サブセットの、相対比率が推定されている別の細胞サブセット、その他の細胞サブセット、または全ての細胞サブセットに対する比率(例えば、存在量)を意味する。
本明細書で使用される場合、用語の「特徴」は、任意の実験的に定められる物理的試料または物理系(例えば、物理的試料、生物試料、など)の特性を意味する。いくつかの事例では、特徴の存在量(すなわち、値)は、試料または物理系中の異なる成分の存在量を示してよい(例えば、生物試料中の1つまたは複数の細胞サブセットの存在量を示してよい)。いくつかの事例では、特徴は、mRNAレベルの遺伝子発現、タンパク質発現、特異的遺伝子型、バイオマーカー、またはこれらの組み合わせを含む。
本明細書で使用される場合、「特徴プロファイル」は、物理的試料(例えば、生物試料)中のまたは物理系中の一群の特徴に対する一連の測定値であってよい。物理的試料または物理系が複数の異なる成分を含む場合、任意の所与の特徴に対する測定値は、それぞれの存在する異なる成分の量に従って、それぞれの異なる成分の特徴に対する寄与の組み合わせ(例えば、線形和などの合計)であってよい。特徴プロファイルは、その構成要素がそれぞれの特徴の測定値に対応するベクターmで表し得る。
本明細書で使用される場合、用語の「生物試料の特徴プロファイル」は、一群の生物試料の特徴の測定値を意味する。試料特徴プロファイルの例には、「遺伝子発現プロファイル」または「GEP」(例えば、マイクロアレイ分析により得られる)、タンパク質発現プロファイル、遺伝子型プロファイル(例えば、異種腫瘍細胞を有する試料の)、バイオマーカープロファイル(例えば、試料中の遊離バイオマーカーまたは試料の細胞上/中のバイオマーカーの)、などが含まれる。
本明細書で使用される場合、「特徴シグネチャー」は、実質的に純粋なまたは高度に濃縮された一群の異なる成分のメンバーを特徴とする(を代表する)特徴プロファイルを意味する。複数の異なる構成要素に対する一群の特徴シグネチャーは、マトリックスBで表し得る。マトリックス中の1つの異なる構成要素は、別の異なる構成要素と比べて、特徴シグネチャー中の同じセットの特徴を有しても有さなくてもよい。
本明細書で使用される場合、用語の「細胞サブセット基準プロファイル」または「細胞サブセット特徴プロファイル」は、特定の細胞サブセットと関連する特徴プロファイル(例えば、特徴値)を意味する。基準プロファイルは、精製または濃縮細胞サブセットの特徴を測定することにより取得し得る。いくつかの事例では、本明細書で使用される場合、用語の「細胞サブセット特徴シグネチャーの基準マトリックス」は、複数の細胞サブセットに対する予測特徴値のマトリックスを意味する。いくつかの基準プロファイルは、「多重共線性」を示し、この場合の現象は、異なる細胞サブセットの基準プロファイルが高度に相関しており、これは信頼性の高いデコンボリューションを妨害する可能性がある。
本明細書で使用される場合、用語の「デコンボリューション」は、細胞サブセットの混合物中の細胞サブセットの相対比率を特定する(すなわち、推定する)プロセスを意味する。
「分数表現」、「相対比率」および「寄与」は、同義に使用され、特徴シグネチャーの基準マトリックス中に含まれる全ての異なる成分に起因する合計特徴値に対する、異なる成分に起因する特徴の測定値の部分を意味する。
本明細書で使用される場合、用語の「サブセット」は、初期マトリックスまたはベクター(例えば、初期特徴プロファイル)の1つまたは複数の次元(例えば、特徴の数)を減らすことにより得られるマトリックスまたはベクター(例えば、特徴プロファイル)を意味する。本明細書で使用される場合、「スーパーセット」は、初期マトリックスまたはベクターの1つまたは複数の次元を増やすことにより得られるマトリックスまたはベクターを意味する。「親マトリックス」または「親ベクター」は、マトリックスまたはベクター(すなわち、「子」マトリックスまたはベクター)のスーパーセットを意味してよい。いくつかの事例では、親特徴プロファイルは、より多くの特徴を有することにより親がスーパーセットであるその親の特徴プロファイルとは異なる。
用語の「再構成特徴プロファイル」または「デコンボリューション結果」は、異なる成分(例えば、細胞サブセット)の推定相対比率(または分数表現)および既知の基準マトリックスに基づいて計算された特徴プロファイルを意味する。特に、再構成特徴プロファイルは、異なる成分、例えば、細胞サブセット(または「相対比率の細胞サブセットのベクター」)の推定相対比率と、基準マトリックスの積から計算し得る。
本明細書で使用される場合、用語の「サポートベクター回帰」または「SVR」は、サポートベクターマシン(SVM)、二値分類問題のための最適化方法の一種、の実現値を意味し、該方法では、両クラスを最大距離で分離する超平面が見つけ出される。サポートベクターは、超平面境界を規定する入力データのサブセットである。標準的SVMと異なり、SVRは、超平面を入力データポイントに当てはめ、その結果、回帰を実施し、許容誤差εおよび固有の線形誤差ペナルティー内でそれを行って(すなわち、ε−非感受性損失関数)、SVRを外れ値および過適合に対し比較的ロバストなものにしている。SVRの2つの主要タイプは、「ニュー−サポートベクター回帰」(または、ν−SVR)および「イプシロン−サポートベクター回帰」(またはε−SVR)である。ν−SVRでは、νパラメーターは、好都合にも、訓練誤差εの上限値およびサポートベクターのスパーシティの両方を制御する。
本明細書で使用される場合、用語の「RNA転写物の相対的サブセットの推定による細胞型特定」または「CIBERSORT」は、基準遺伝子発現シグネチャーの入力マトリックスに基づいて、目的のそれぞれの細胞型相対比率を推定するニュー−SVR法を意味する。
本明細書で使用される場合、用語の「モンテカルロサンプリング」は、未知の確率的実体全体にわたる分布を得るための反復ランダムサンプリングを意味する。
本明細書で使用される場合、用語の「有意値」は、帰無仮説が真であると仮定した場合に結果を得る確率を意味する。特定の実施形態では、帰無仮説は、生物試料の所与の特徴プロファイル中に、シグネチャーマトリックス中の細胞サブセットが現れないことである。特定の態様では、有意値は、「p値」であってよく、これは、本明細書で使用される場合、帰無仮説が真であると仮定した場合に、実際に観察された結果に少なくとも極めて近い試験の統計的結果を得る確率である。
本明細書で使用される場合、用語の「差異測定値」は、2つの値またはベクターの間の関係(例えば、差異、相関、偏差、など)の任意の測定値を意味する。
本明細書で使用される場合、用語の「誤差」は、計算値または予測値(単一または複数)からの値の偏差を意味する。用語の「二乗平均平方根誤差」または「RMSE」は、推定量による予測値が推定される量から異なる量を意味する。推定されるパラメーターに対する推定量のRMSEは、平均二乗誤差の平方根と定義される。
本明細書で使用される場合、用語の「相関係数」は、直線当てはめの尺度を意味する。「ピアソンの積率相関係数」または「ピアソンのR」は、2つの変数間の直線関係の強さと方向の尺度であり、変数の共分散をそれらの標準偏差の積で割った値として定義される。
本明細書で使用される場合、用語の「RNA転写物」は、生物試料中の総計RNA発現レベルの細胞を意味する。
本明細書で使用される場合、用語の「白血球(leukocyte)」または「白血球(white blood cell)」は、単球、好中球、好酸球、好塩基球、およびリンパ球を含む任意の免疫細胞を意味する。本明細書で使用される場合、用語の「リンパ球」は通常、リンパ液中で認められる細胞を意味し、ナチュラルキラー細胞(NK細胞)、T細胞およびB細胞を含む。上に列挙した免疫細胞型は、さらにサブセットに分解できることは、当業者に理解されるであろう。
本明細書で使用される場合、用語の「腫瘍浸潤白血球」は、固形腫瘍中に存在する白血球を意味する。
本明細書で使用される場合、用語の「血液試料」は、血漿、血液から単離された血液細胞、などの血液から調製された任意の試料を意味する。
本明細書で使用される場合、用語の「固体組織試料」は、リンパ節、採取臓器、生検材料(例えば、腫瘍生検材料)、などの固体組織から得られた試料を意味する。試料それ自体は、再構成および懸濁されてもよい。
本明細書で使用される場合、用語の「保管組織試料」は、長期貯蔵されている組織試料を意味する。
本明細書で使用される場合、用語の「精製試料」は、1つまたは複数の細胞サブセットが濃縮されている任意の試料を意味する。試料は、大きさ、タンパク質発現、などの特性に基づいて、細胞の除去または単離により精製されてもよい。
発明の詳細な説明
上記で要約されたように、本開示には、試料または物理系の特徴プロファイルのデコンボリューション方法が含まれる。物理的試料または物理系は、複数の成分(すなわち、異成分から成る物理的試料または異成分から成る物理系)の混合物を含んでよく、混合物に対する個々の成分の相対比率は未知である。開示方法は、本明細書に記載のように、物理系の複数の特徴を測定することにより、および一群の目的成分のシグネチャープロファイルを使って測定された特徴をデコンボリューションすることにより、物理的試料または物理系中の、全収集成分に対する、または少なくとも一群の目的成分に対する異なる成分の相対的寄与を推定する方法を提供する。本方法は、測定された特徴がシグネチャープロファイル中に現れない成分からの寄与を含み得る場合であっても、測定された特徴をシグネチャープロファイルの一次結合としてモデル化する。デコンボリューションは、測定された特徴とシグネチャープロファイルとの間の回帰を最適化することにより達成され、最適化は、1)線形損失関数および2)Lノルムペナルティ関数の極小化をもたらす。最適化により得られる解には、回帰係数のベクターが含まれ、これを使って、特徴プロファイル中のシグネチャーマトリックスの全ての異なる成分中のシグネチャーマトリックスの異なる成分の分数表現を誘導し得る。本発明の方法はまた、全ての異なる成分に対し、シグネチャーマトリックス中に現れる異なる成分の量を計算することも含む。これは、記載のように、シグネチャーマトリックス中にそれらが存在するまたは存在しないに関係しない。
いくつかの実施形態では、生物試料中の細胞サブセットの相対比率を推定する本方法は、細胞サブセット特徴シグネチャーの基準マトリックスを使って、生物試料の特徴プロファイルにサポートベクター回帰を適用し、生物試料中の細胞サブセットの相対比率を推定することにより、生物試料の特徴プロファイルを計算処理することを含む。それぞれの細胞サブセット特徴シグネチャーは、異なる細胞サブセットに対応し得る。方法は、複数の細胞サブセットの特定のための有意値を決定することをさらに含んでよい。本方法を実施するためのシステムおよびコンピューター可読媒体も提供される。
方法、本開示のシステムおよびコンピューター可読媒体をさらに説明する前に、物理的試料(例えば、生物試料)、物理系、異なる成分(例えば、細胞サブセット)、特徴、および関連概念の説明が以下で提供される。
物理的試料および物理系
本開示には、物理系(例えば、異成分から成る物理系)の特徴プロファイルのデコンボリューション方法が含まれる。目的の物理系は、任意の物理系を含んでよく、複数の成分が物理系中に存在し、物理系の特徴プロファイルに寄与する(例えば、線形モデルにより近似できるように寄与する)。物理系は、目的の成分を含んでも含まなくてもよい。物理系は、任意の数の成分を含んでよい。いくつかの事例では、物理系は、実験的に定められる特性の点で相互に明確に異なる、5個以上、例えば、10個以上、20個以上を含み、100個以上、例えば、10個以上、10個以上(例えば、15,000個;20,000個または25,000個以上)の異なる(すなわち、違った)成分を含む。
いくつかの事例では、下記でさらに記載のように、物理系は、複数の異なる成分を含む物理的試料である。いくつかの実施形態では、物理系は、一群のインビボまたはエクスビボ細胞(例えば、組織試料中の一群の細胞)、生物の一群の組織、生態系または社会の一群の生物、などである。いくつかの実施形態では、物理系は、デバイス中の一群の電気回路、部屋の一群のデバイス、ネットワーク上の一群のコンピューター、ビルの一群の器具、市またはその一部の一群のビル、道路またはハイウエイシステム上の一群の自動車、などである。
本開示では、物理的試料は、異なる成分の混合物を含む任意の好適な試料であってよく、複数の異なる成分が物理的試料の特徴プロファイルに寄与する(例えば、線形モデルにより近似できるように寄与する)。いくつかの実施形態では、以降でさらに説明されるように、物理的試料は、生物試料である。いくつかの事例では、物理的試料は、空気試料、水試料または土壌試料などの環境試料である。環境試料は、任意の好適な発生源から得てよく、例えば、限定されないが、川、海洋、湖、雨、雪、貯蔵容器、下水、下水処理排水、農業排水、工業排水、水道水、飲料水、排気システム(例えば、工業的排出、自動車排ガス、など)、コンポスト、埋立地、都市開発現場または農地である。いくつかの事例では、物理的試料は、食糧品試料、すなわち、動物、例えば、ヒト、イヌ、ネコ、トリ、魚、などによる消費用に調製するのに適した、または調製されている材料である。いくつかの事例では、物理的試料は、合成化学的混合物、例えば、市販の化学的混合物、例えば、肥料、コーティング材(例えば、塗料、ラッカー、など)、薬品、合成洗剤、などである。
生物試料
いくつかの実施形態では、生物試料は、細胞培養からまたは生物からインビトロで得てもよい。特定の態様では、生物は、動物、例えば、霊長類(例えば、ヒト)、げっ歯類(例えば、マウス、ラット、ハムスター、モルモット)、ウサギ、または任意の他の好適な動物であってよい。生物から採取した生物試料は、組織試料、例えば、血液、脳由来固体組織、リンパ節、胸腺、骨髄、脾臓、骨格筋、心臓、結腸、胃、小腸、腎臓、肝臓、肺、などであってよい。組織試料は、臓器を採取することにより、または当技術分野において既知の通り、生検を実施することにより、取得してよい。特定の態様では、生物試料は、全血、血液から得た血漿または細胞などの血液試料である。
特定の態様では、生物試料は腫瘍生検材料であってよい。生検材料は、対象から(例えば、切除、ニードル吸引、などにより)得られる癌細胞を含む任意の組織試料を意味する。生検材料は、細胞懸濁液、薄切片(例えば、スライド上に取り付けられた組織切片)の形態、または任意の他の好適な形態であってよい。
特定の態様では、生物試料は溶液中の細胞分散液または懸濁液であってよい。溶液は、5〜25mMなどの低濃度の許容可能な緩衝液と共に、ウシ胎仔血清、ヒト血小板ライセートまたはその他の因子により都合よく補充された、平衡塩溶液、例えば、生理食塩水、PBS、ハンクス緩衝塩類溶液、などであってよい。簡便な緩衝液には、ヘペス、リン酸緩衝液、乳酸塩緩衝液、などが含まれる。分離された細胞は、細胞の生存能力を維持する任意の適切な媒体中に集めてよい。種々の培地が、市販品として入手でき、細胞の性質に基づいて使用し得る。これらの培地は、dMEM、HBSS、dPBS、RPMI、イスコフ培地、などで、多くの場合、ウシ胎仔血清またはヒト血小板ライセートを補充される。他の態様では、生検材料は組織切片であってよい。例えば、生検材料は顕微鏡スライド上に取り付けられた薄い組織切片であってよい。上記実施形態のいずれかの生物試料は、当業者に知られているように、固定および/または透過処理されてよい。
試料は、一体試料として、例えば未精製の形態であってもよい。あるいは、試料は、分析の前に、例えば、密度勾配遠心分離、パニング、磁気ビーズ選別、蛍光活性化細胞分取(FACS)、などにより分画して、1つまたは複数の目的の細胞型を濃縮してもよい。
いくつかの事例では、生物試料は、無細胞試料、例えば、細胞または組織ホモジネートである。いくつかの事例では、生物試料は単細胞を含む。
特定の態様では、本方法は、生物試料中の細胞サブセットの相対比率を推定する前に、試料、例えば、生物試料(例えば、上記で考察したような)を取得することを含む。
異なる成分(Distinct Components)
本開示による物理系の物理的試料の異なる成分は、物理系の物理的試料の特徴プロファイルに寄与する任意の異なる成分であってよい。いくつかの事例では、異なる成分は、以降でさらに説明される異なる細胞サブセットである。
いくつかの実施形態では、異なる成分は、異なる細胞周期段階の異なる細胞サブセットを含む。細胞サブセットは、限定されないが、間期、分裂期または細胞質分裂を含む任意の好適な細胞周期段階の細胞を含んでよい。いくつかの実施形態では、細胞サブセットの細胞は、分裂前期、中期、分裂後期、または分裂終期である。いくつかの事例では、細胞サブセットの細胞は、静止状態(G基)、Gチェックポイント(G期)、複製されたDNAであるが有糸分裂前(G期)、またはDNA複製を受けている(S期)。
いくつかの実施形態では、異なる成分は、1つまたは複数の細胞内で異なる機能的経路を含む。目的の機能的経路は、限定されないが、細胞内シグナル伝達経路、遺伝子調節経路、または代謝経路である。したがって、いくつかの実施形態では、本開示の方法は、シグナル伝達経路または代謝経路の複数の特徴を測定すること(例えば、シグナル伝達経路のタンパク質の活性化状態を測定すること;遺伝子制御性ネットワーク中の遺伝子の発現レベルを測定すること;代謝経路の代謝物のレベルを測定すること)により、1個の細胞、一群の細胞、組織、などの異なるシグナル伝達経路または代謝経路の相対的活性を推定する方法であってよい。目的の細胞内シグナル伝達経路には、サイトカインシグナル伝達、死因子シグナル伝達、増殖因子シグナル伝達、生存因子シグナル伝達、ホルモンシグナル伝達、Wntシグナル伝達、ヘッジホッグシグナル伝達、Notchシグナル伝達、細胞外マトリックスシグナル伝達、インスリンシグナル伝達、カルシウムシグナル伝達、Gタンパク質共役型受容体シグナル伝達、神経伝達物質シグナル伝達、およびこれらの組み合わせなどの任意の好適なシグナル伝達経路が含まれるが、これらに限定されない。代謝経路は、解糖、糖新生、クエン酸回路、発酵、尿素回路、脂肪酸代謝、ピリミジン生合成、グルタメートアミノ酸基合成、ポルフィリン代謝、アスパルテートアミノ酸基合成、芳香族アミノ酸合成、ヒスチジン代謝、分岐アミノ酸合成、ペントースホスフェート経路、プリン生合成、グルクロネート代謝、イノシトール代謝、セルロース代謝、スクロース代謝、デンプンおよびグリコーゲン代謝、およびこれらの組み合わせなどの任意の好適な代謝経路が含まれ得るが、これらに限定されない。
いくつかの実施形態では、異なる成分には、異なる化学化合物が含まれる。異なる成分は、特徴プロファイルに寄与する任意の好適な化学化合物を含んでよい。好適な化学化合物には、限定されないが、有機化合物類、無機化合物(例えば、塩、金属、イオン、など)、毒素、微生物(例えば、細菌、ウイルス、真菌、原生生物、など)、代謝物、アレルゲンなどが含まれる。
細胞サブセット
いくつかの実施形態では、細胞サブセットは、生物試料中の任意の細胞群であってよく、該細胞群の存在は、1つまたは複数の特徴(RNAレベルの遺伝子発現、タンパク質発現、ゲノム変異、バイオマーカー、など)により特徴付けられる。細胞サブセットは、例えば、細胞型または細胞サブタイプであってよい。
特定の態様では、1つまたは複数の細胞サブセットは、白血球(leukocyte)(すなわち、白血球(white blood cell)またはWBC)であってよい。可能な白血球細胞サブセットには、単球、樹状細胞、好中球、好酸球、好塩基球、およびリンパ球が含まれる。これらの白血球サブセットは、例えば、ナチュラルキラー細胞(NK細胞)、T細胞(例えば、CD8 T細胞、CD4ナイーブT細胞、CD4記憶RO不活性T細胞、CD4記憶RO活性化T細胞、濾胞性ヘルパーT細胞、制御性T細胞、など)およびB細胞(ナイーブB細胞、記憶B細胞、プラズマ細胞)を含むリンパ球細胞サブセットにさらに細分できる。免疫細胞サブセットは、活性化(または刺激)状態に基づいてさらに分離し得る。
特定の態様では、白血球は、血液癌、自己免疫疾患、骨髄異形成症候群、などの白血球障害の個体由来であってよい。血液疾患の例には、急性リンパ芽球性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性白血病(CLL)、慢性骨髄性白血病(CML)、急性単球性白血病(AMoL)、ホジキンリンパ腫、非ホジキンリンパ腫、および骨髄腫が挙げられる。自己免疫疾患の例には、円形脱毛症、自己免疫性溶血性貧血、自己免疫性肝炎、皮膚筋炎、糖尿病(1型)、糸球体腎炎、グレーブス病、ギラン・バレー症候群、特発性血小板減少性紫斑病、重症筋無力症、いくつかの形態の心筋炎、多発性硬化症、天疱瘡/類天疱瘡、悪性貧血、結節性多発動脈炎、多発性筋炎、原発性胆汁性肝硬変、乾癬、関節リウマチ、強皮症/全身性硬化症、シェーグレン症候群、および全身性エリテマトーデスが挙げられる。
特定の態様では、1つまたは複数の細胞サブセットは、腫瘍浸潤白血球を含んでよい。腫瘍浸潤白血球は、生物試料中の癌細胞との混合物であってよく、または上記のいずれかの方法または当該技術分野において既知の方法により濃縮されてよい。
特定の態様では、1つまたは複数の細胞サブセットは、血液癌、乳癌、結腸癌、肺癌、前立腺癌、肝細胞癌、胃癌、膵臓癌、子宮頸癌、卵巣癌、肝臓癌、膀胱癌、尿路癌、甲状腺癌、腎臓癌、癌腫、黒色腫、および脳癌などの癌細胞を含んでよい。
目的の細胞サブセットはまた、神経細胞、星状膠細胞、乏突起膠細胞、およびミクログリアならびにこれらの前駆細胞を含む脳細胞を含む。その他の目的の細胞サブセットには、幹細胞、多能性幹細胞、および血液、脳由来固体組織、リンパ節、胸腺、骨髄、脾臓、骨格筋、心臓、結腸、胃、小腸、腎臓、肝臓、肺、などを含む任意の生物組織を含む。
特徴
目的の特徴には、物理的試料、例えば、生物試料の、または物理系の、1つまたは複数の異なる成分、例えば、細胞サブセットの存在を示し得る任意の特性が含まれる。特定の態様では、特徴の存在量(すなわち、値)は、1つまたは複数の異なる成分、例えば、細胞サブセットの存在量を示してよい。特徴は、試料、例えば、生物試料の総計特徴、例えば、mRNA、プロテイン、特定の遺伝子型、バイオマーカー、などの合計量であってよい。
遺伝子発現および/または細胞遺伝子型などの特徴が目的であってよい。例えば、細胞型および/または状態は、遺伝子発現により区別され得る。別の例では、癌細胞は、変異から生じた遺伝的不均一性に基づいて区別されてもよい。このような特徴は、当該技術分野において公知の任意の手段により測定し得、これらの手段には、PCR法(例えば、RNAから合成したcDNAの定量的PCR)、RNA−Seq、DNA−seq、DNAマイクロアレイ、タイリングアレイ、NanoString(登録商標)nCounter(登録商標)、ノーザンブロット、遺伝子発現連続解析(SAGE)、などが含まれる。タンパク質発現などの特徴は、ウェスタンブロット、タンパク質マイクロアレイ、ELISA、その他のイムノアッセイ、質量分析、などを含む当該技術分野において公知の任意の手段により測定し得る。
いくつかの実施形態では、特徴プロファイルには、任意の好適な方法によって得られる異なる化学化合物の好適な測定特性が含まれる。いくつかの事例では、特徴には、核磁気共鳴(NMR)(例えば、H、13C、H、Li、10B、11B、14N、15N、17O、19F、23Na、29Si、31P、35Cl、113Cd、129Xe、または195Pt NMR)スペクトル、電磁放射線(例えば、紫外線、可視光線、赤外線)吸光および/または発光スペクトル、円偏光二色性スペクトル、ラマンスペクトル、質量スペクトル、およびクロマトグラム(例えば、親和性クロマトグラフィー、液体クロマトグラフィー、サイズ排除クロマトグラフィーによる)が含まれる。
特徴(無細胞バイオマーカーなど)は、ウェスタンブロット、ELISA、質量分析、クロマトグラフィー(例えば、薄層クロマトグラフィー、ガスクロマトグラフィー、液体クロマトグラフィー、など)を含む当該技術分野において公知の任意の手段により測定し得る。例えば、特徴は、クロマトグラフまたは質量スペクトル上で観察されるピークの強度であってよい。
特定の態様では、方法は、物理的試料、例えば、生物試料から、または物理系から特徴測定値を得ることを含んでよい。他の態様では、方法は、限定されないが、公的に利用可能なDNAマイクロアレイデータベース、RNA−seqデータベース、および/またはDNA−seqデータベース、または任意の他の特徴測定値の好適なデータベースなどのデータベースから特徴測定値を得ることを含んでよい。
特徴シグネチャーの基準プロファイルは、精製または濃縮した異なる成分、例えば、異なる細胞サブセットの特徴を測定することにより取得し得る。例えば、上述のように、細胞サブセットは、密度勾配遠心分離、パニング、磁気ビーズ選別、蛍光活性化細胞分取(FACS)、などにより精製し得る。あるいは、細胞サブセットは、例えば、刺激および/または前駆体細胞の分化を経由して、インビトロで、培養してもよい。細胞サブセットの単離後、細胞サブセットの特徴は、測定され得る(例えば、上述のように、または当業者に知られているように)。特定の態様では、細胞サブセットの遺伝子発現を測定(例えば、DNAマイクロアレイ分析により)して、細胞サブセットの遺伝子発現プロファイル(GEP)を取得し得る。
いくつかの事例では、シグナル伝達経路である異なる成分に対する特徴シグネチャーは、該シグナル伝達経路の成分を含む機能的無細胞系中で細胞環境中で薬理学的にまたは誘導的にシグナル伝達経路を選択的に活性化することにより、特徴を測定することにより得られる。いくつかの事例では、化学的化合物である異なる成分に対する特徴シグネチャーは、化学的化合物の実質的に純粋または濃縮試料中の特徴を測定することにより、得られる。
特定の態様では、シグネチャーマトリックスは、上記の任意の細胞サブセットに対する特定のmRNA、プロテイン、遺伝子型、および/またはバイオマーカーのレベルを含む。シグネチャーマトリックスは、多くの場合、事前調査における「基本または基底行列」と呼ばれ、例えば、精製または濃縮細胞集団の発現差異解析により得ることができる。遺伝子シグネチャーマトリックスは、条件数と呼ばれる固有のマトリックス特性を最小化することにより、さらにロバストに作成できる。条件数は、線形システムの変動またはノイズ入力に対する安定性を評価する。特定の態様では、シグネチャーマトリックスの、例えば、R中の安定性は、2ノルム条件数により、カッパ関数を使って計算して測定し得る。
同じシグネチャーマトリックス中のいくつかの基準プロファイルは、「多重共線性」を示すことがあり、この場合の現象は、複数の異なる成分、例えば、細胞型の基準プロファイルが高度に相関していることである。多重共線性は、本方法の有意値により報告され得る、物理的試料、例えば、生物試料中の異なる成分、例えば、細胞サブセットの相対量のデコンボリューションを妨害するか、またはデコンボリューションの信頼度を低下させる。本発明のシグネチャーマトリックス中の2つの基準プロファイルの間の多重共線性の、分散拡大要因(VIF)で測定した厳密性は、1以上、例えば、2以上、5以上、10以上、15以上であってよく、また、20以上を含んでよく、いくつかの事例では、50以下、例えば、40以下、30以下、20以下、15以下であってよく、また、10以下を含んでよい。
いくつかの事例では、基準マトリックスは、1以上、例えば、2以上、5以上、8以上、10以上、15以上、20以上、50以上、100以上、500以上の、また、1,000以上を含む2ノルム条件数、いくつかの実施形態では、10以下、10以下、500以下、250以下、200以下、150以下、100以下、50以下、30以下、20以下、15以下、8以下の、また、5以下を含む2ノルム条件数を有する。いくつかの実施形態では、基準マトリックスは、1〜5、例えば、5〜8、8〜10、8〜15、10〜15、15〜20、20〜30、20〜50、50〜100、100〜150、100〜200、100〜250、100〜500、500〜1,000の、また、1,000〜10、000を含む範囲の2ノルム条件数を有する。
基準マトリックスの条件数は任意の好適な方法を使用して調整してよい。いくつかの事例では、初期基準マトリックスの条件数が、マトリックスから1つまたは複数の特徴を加えるまたは除き、それにより、より小さい条件数を有する、初期基準マトリックスのスーパーセットまたはサブセットを生成することにより、減らされる。本プロセスは、充分に小さい最終の基準マトリックスの条件数が得られるまで繰り返してよい。
特定の態様では、基準マトリックスは、2個以上、例えば、5個以上、10個以上の、また、15個以上を含む異なる成分(例えば、細胞サブセット)、いくつかの事例では、20個以下、例えば、15個以下、12個以下、10個以下の、また、8個以下を含む異なる成分に関連する(例えば、それにより発現した)少なくとも1個の特徴(例えば、遺伝子)、例えば、少なくとも2個、少なくとも3個、少なくとも5個、少なくとも10個、少なくとも20個、少なくとも50個の、また、少なくとも100個を含む特徴を含んでよい。いくつかの事例では、基準マトリックスは、2〜20個、例えば、2〜15個、2〜12個の、また5〜10個を含む異なる成分(例えば、細胞サブセット)に関連する(例えば、それにより発現した)少なくとも1個の特徴(例えば、遺伝子)、例えば、少なくとも2個、少なくとも3個、少なくとも5個、少なくとも10個、少なくとも20個、少なくとも50個の、また、少なくとも100個を含む特徴を含んでよい。いくつかの事例では、基準マトリックスは、複数の異なる成分(例えば、細胞サブセット)に関連する(例えば、それにより発現した)10,000個以下、例えば、5,000個以下、1,000個以下、500個以下、200個以下の、また100個以下を含む特徴(例えば、遺伝子)を含んでよい。
特定の態様では、シグネチャーマトリックス中に含まれる候補特徴が選別され得る。特定の実施形態では、低い値および/または分散を有する特徴がシグネチャーマトリックスから選別され得る。例えば、その他の候補特徴に比べて、90%小さい、80%小さい、75%小さい、50%小さい、または25%小さい値および/または分散を有する特徴が取り除かれ得る。別の例では、その他の候補特徴に比べて、90%大きい、80%大きい、75%大きい、50%大きい、または25%大きい値および/または分散を有する特徴がシグネチャーマトリックスに含まれ得る。いくつかの実施形態では、異なる成分中で濃縮され、シグネチャーマトリックス中に現れない特徴は、シグネチャーマトリックス中に含まれない。いくつかの実施形態では、異なる成分中で閾値より大きい値を有し、シグネチャーマトリックス中に現れない特徴は、シグネチャーマトリックス中に含まれない。
目的の異なる成分、例えば、細胞サブセットに対し予測性のより高い特徴は、シグネチャーマトリックス中に含まれてよい。例えば、方法は、その特徴と、他の異なる成分、例えば、細胞サブセット、または物理的試料/物理系との全ペアワイズ比較から得られる線形モデル係数の合計に基づいて、所与の異なる成分(例えば、細胞サブセット)または物理的試料/物理系中の所与の特徴に対し、濃縮スコア(ES)を計算することを含んでよい。特定の態様では、シグネチャーマトリックス中に含めるために、異なる成分、例えば、細胞サブセットに対する特徴値の倍率変化に基づいて、その他の異なる成分、例えば、細胞サブセットに比較して、特徴を選択し得る。例えば、1つの異なる成分、例えば、細胞サブセットにおいて、任意の他の異なる成分、例えば、細胞サブセットに比べて、2倍以上、5倍以上、10倍以上、または20倍以上の特徴は、シグネチャーマトリックス中に含めるように選択してよい。逆に、特徴をシグネチャーマトリックスから除去し、多重共線性を減らしてもよい。
特定の態様では、本方法は、1つまたは複数の異なる成分、例えば、細胞サブセットを単離すること、および1つまたは複数の異なる成分、例えば、細胞サブセットの特徴を測定してシグネチャーマトリックスを得ることを含む。例えば、第1の生物試料中の細胞は、FACSにより別の細胞サブセットに分離されてよい。分離した細胞サブセットをDNAマイクロアレイにより分析して、分離した細胞サブセットのそれぞれの遺伝子発現プロファイル(GEP)を取得し得る。それぞれの細胞サブセットのGEPは、その後、集められて、それぞれの細胞サブセットに対する多くの遺伝子の発現のための値を有するシグネチャーマトリックスが生成されてよい(例えば、図16に見られるように)。
試料特徴プロファイルの例には、「遺伝子発現プロファイル」または「GEP」(例えば、マイクロアレイ分析により得られる)、タンパク質発現プロファイル、遺伝子型プロファイル(例えば、異成分から成る腫瘍細胞を有する試料の)、バイオマーカープロファイル(例えば、試料中の遊離バイオマーカーまたは試料の細胞上/中のバイオマーカーの)、またはこれらの組み合わせが含まれる。試料の特徴プロファイルは、上述のようにして得てよい(例えば、特徴は生物試料から直接測定してもよく、または特徴プロファイルはデータベース、例えば、公的に入手可能なDNAマイクロアレイデータベースから得てもよい)。上記で考察したように、生物試料は任意の細胞型を含んでよい。特定の実施形態では、試料の特徴プロファイルは、ベンチマーキングデータセットであってよい。
本発明の方法は、異なる成分が低比率で存在する場合に、物理的試料または物理系中の異なる成分の分数表現を推定する高感度法を提供し得る。いくつかの実施形態では、物理的試料または物理系は、試料中に存在する第2の複数の異なる成分の合計量の、10%以下、例えば、8.0%以下、6.0%以下、4.0%以下、2.0%以下の濃度で、また1.0%以下を含む濃度で、およびいくつかの事例では、0.01%以上、例えば、0.05%以上、0.1%以上、0.5%以上の濃度で、また、1.0%以上を含む濃度で、特徴シグネチャー中に現れる少なくとも1つの異なる成分を含む。いくつかの実施形態では、物理的試料または物理系は、試料中に存在する第2の複数の異なる成分の合計量の、0.01%〜10%、例えば、0.05%〜8.0%、0.1%〜6.0%、0.1%〜4.0%の範囲の濃度で、また0.1%〜2.0%を含む範囲の濃度で、特徴シグネチャー中に現れる少なくとも1つの異なる成分を含む。
本発明の方法は、シグネチャーマトリックス中に現れない異なる成分の存在下で、物理的試料または物理系中の異なる成分の分数表現のロバストな推定を提供し得る。いくつかの実施形態では、特徴シグネチャー中に現れる異なる成分は、試料中の異なる成分の合計量の、50%以下、例えば、45%以下、40%以下、35%以下、30%以下、25%以下、20%以下、10%以下の量で、また5%以下を含む量で、およびいくつかの事例では、1%以上、例えば、5%以上、10%以上、20%以上、30%以上、35%以上の量で、また、40%以上を含む量で、試料中に存在する。いくつかの実施形態では、特徴シグネチャー中に現れる異なる成分は、1〜50%、例えば、5〜50%、10〜50%の範囲で、また、20〜45%を含む範囲で試料中に存在する。
特定の態様では、生物試料は、シグネチャーマトリックスにより表されない細胞を含んでよい。例えば、生物試料中の、5%以上、10%以上、25%以上、50%以上、75%以上、5%〜50%、5%以下、10%以下、25%以下、50%以下の細胞が、シグネチャー中の細胞サブセットにより表されない場合がある。
あるいはまたはさらに、生物試料は、10%以下、5%以下、2%以下、1%以下、0.5%以下、0.25%以下、0.1%以下、0.1%〜10%、0.25%〜2%、などの少ない量の、シグネチャーマトリックスにより表される細胞サブセットを含んでよい。
特徴プロファイルのデコンボリューション方法
一般論として、本開示の方法は、一群の異なる成分を含む物理的試料、例えば、生物試料を得ることを含んでよい。特徴プロファイルmは、例えば、複数の特徴の値を測定することにより、物理的試料から生成される。特徴プロファイルmは、mと、目的の異なる成分に対する特徴シグネチャーを含む基準マトリックスBを一次関数を使って回帰推定し、解が、1)線形損失関数および2)Lノルムペナルティ関数を最小化するように回帰を最適化することによりデコンボリューションされる。デコンボリューションは、回帰係数を含むベクターであるfの解を求める。特徴プロファイルの基準マトリックス中に現れている全ての異なる成分中の基準マトリックスの異なる成分の分数表現が、f中の回帰係数に基づいて推定される。
一般論として、線形損失関数は、回帰超平面への距離に従って、またはε−非感受性線形損失関数の場合には、超平面から固定距離εに従ってデータポイントにペナルティーを科す。したがって、いくつかの実施形態では、線形損失関数は、線形ε−非感受性損失関数である。Lノルムペナルティ関数は、モデル複雑さにペナルティーを科し、高度相関予測因子(例えば、基準マトリックス中の異なる成分)に割り付けられた重みの分散を最小化する。
いくつかの事例では、物理的試料中に存在する異なる成分の分数表現を推定することは、f中の負の回帰係数をゼロに設定すること、および残りの非ゼロ回帰係数回帰係数を正規化して、合計を1にすることを含む。
また、物理系の特徴プロファイルのデコンボリューションのためのコンピューター実装方法が本明細書で提供される。コンピューター実装方法は、物理系の一群の異なる成分の特徴プロファイルmを得ること、ならびに特徴シグネチャーの基準マトリックスBおよび特徴プロファイル、およびmをBに関連付ける線形モデルによる回帰を使って計算処理し、上述のように、fの解を求めることを含んでよい。特に、回帰の最適化が、1)線形損失関数および2)Lノルムペナルティ関数を最小化する場合に、解が得られる。 その後、f中の回帰係数を使って、特徴プロファイル中の基準マトリックス中に現れる全ての異なる成分中の基準マトリックス中に現れる異なる成分の分数表現の推定値が誘導される。
いくつかの実施形態では、最適化は、好適なアルゴリズムを使って、例えば、好適なアルゴリズムを有する汎用コンピュータープログラムを使って実施される。線形損失関数およびLノルムペナルティ関数を最小化する、任意の好適な最適化アルゴリズムを使用してよい。いくつかの事例では、最適化は、サポートベクター回帰(SVR)を使って実施される。いくつかの実施形態では、SVRは、ε−SVRまたはν(ニュー)−SVRである。
また、本明細書で提供されるのは、生物試料の特徴プロファイルを計算処理することによる生物試料中の細胞サブセットの相対比率の推定方法である。計算処理は、細胞サブセット特徴シグネチャーの基準マトリックスを使って、生物試料の特徴プロファイルにサポートベクター回帰を適用し、生物試料中の細胞サブセットの相対比率を推定することを含む。上述のように、それぞれの細胞サブセット特徴シグネチャーは、異なる細胞サブセットに対応する。生物試料、細胞サブセット、生物試料の特徴プロファイル、細胞サブセット特徴シグネチャー(すなわち、シグネチャーマトリックス)の基準マトリックス、およびそれらを得る方法は、上記セクションに記載されている。
サポートベクター回帰、または「SVR」は、サポートベクターマシン(SVM)、二値分類問題のための最適化方法の一種、の実現値を意味し、該方法では、両クラスを最大距離で分離する超平面が見つけ出される。サポートベクターは、超平面境界を規定する入力データのサブセットである。標準的SVMと異なり、SVRは、超平面を入力データポイントに当てはめ、その結果、回帰を実施し、許容誤差εおよび固有の線形誤差ペナルティー内でそれを行って(すなわち、ε−非感受性損失関数)、SVRを外れ値および過適合に対し比較的ロバストなものにしている。SVRは、(i)特徴選択(例えば、基準マトリックス中の異なる成分の選択)により回帰に対するスパースでコンパクトな解を実現させること、および(ii)ノイズの多い試料で、他の一般的損失関数(例えば、LLSRで使われる二乗誤差)より性能が優れている線形誤差モデル(すなわち、ε−非感受性損失関数)を最小化すること、により、ノイズおよび未知の含量に対しロバストである。特定の態様では、サポートベクター回帰は、非log線形空間で実施し得る。
以前の方法とは異なり、SVRは、特徴選択を実行する。この場合、異なる成分、例えば、遺伝子は、シグネチャーマトリックスから、所与の混合物、すなわち、特徴プロファイルのデコンボリューションに適応するように選択される。特定の態様では、サポートベクター回帰は、生物試料の特徴プロファイル、および異なる成分(例えば、細胞サブセット)特徴シグネチャーの基準マトリックス、の一部のみを使って、物理的試料、例えば、生物試料中の、または物理系中の異なる成分、例えば、細胞サブセットの相対比率を推定してよい。例えば、サポートベクター回帰は、物理的試料、例えば、生物試料、または物理系の特徴プロファイル中に存在する特徴および基準マトリックスの、80%以下、例えば、60%以下、50%以下、25%以下、10%以下、5%以下の特徴、また、1%以下を含む特徴を使って、物理的試料、例えば、生物試料、または物理系中の異なる成分、例えば、細胞サブセットの相対比率を推定してよい。
SVRの2つの主要タイプは、Scholkopfら(Neural Comput.12,1207−1245(2000))により記載されている「ニュー−サポートベクター回帰」(または、ν−SVR)およびDruckerら(MIT Press,Vol.9.(1997))により記載されている「イプシロン−サポートベクター回帰」(またはε−SVR)である。特定の態様では、SVRは、ε−SVRであってよい。
あるいは、SVRは、ν−SVRであってよい。ν−SVRでは、νパラメーターは、好都合にも、訓練誤差εの上限値およびサポートベクターのスパーシティの両方を制御する。ν−SVRは、線形カーネルを適用して、物理的試料、例えば、生物試料、または物理系中の異なる成分、例えば、細胞サブセットの相対比率の解(推定値)を求め得る。特定の態様では、方法は、異なる結果(物理的試料、例えば、生物試料、または物理系中の異なる成分、例えば、細胞サブセットの相対比率の異なる推定値)を得るために異なるニュー(ν)値を使って繰り返すことを含む。方法は、2以上、3以上、4以上、5以上、または10以上、または20以上のニューの値を使って繰り返すことを含んでよい。ニューの値は、0〜1の間の値の場合もある。例えば、方法は、0.25、0.5、および0.75のニュー値を使って繰り返すことを含んでよい。方法は、物理的試料、例えば、生物試料、または物理系の特徴プロファイルと、結果と細胞サブセット特徴シグネチャーの基準マトリックスの積との間の最小誤差を有する得られた結果を選択することをさらに含んでよい。特定の態様では、最小誤差は、最小二乗平均平方根誤差(RMSE)である。RMSEは、物理的試料、例えば、生物試料、または物理系の特徴プロファイルと、結果と異なる成分、例えば、細胞サブセット特徴シグネチャーの基準マトリックスの積との間の平均二乗誤差の平方根として計算し得る。いくつかの実施形態では、最小誤差は、ピアソンの積率相関係数、スピアマンの順位相関係数、ユークリッド距離、または平均絶対偏差(MAD)またはその他の好適な誤差尺度を使って得られる。
シグネチャーマトリックス中の特徴の数は、シグネチャーマトリックス中の異なる成分、例えば、細胞サブセットの数以上でなければならない。特定の態様では、特徴の数は、異なる成分、例えば、細胞サブセットの数より実質的に大きくてよく、したがって、システムは、必要以上の条件により決定付けられてよい。例えば、シグネチャーマトリックス中の特徴の数は、シグネチャーマトリックス中の異なる成分、例えば、細胞サブセットの数の、2倍以上、3倍以上、5倍以上、10倍以上、20倍以上、50倍以上、または100倍以上であってよい。
特定の態様では、サポートベクター回帰を細胞サブセットの相対比率の推定に適用するステップは、非負性制約を実施することを含む。例えば、サポートベクター回帰後に、負の存在量または比率(ゼロ未満)となることが推定される任意の細胞サブセットをゼロに設定してよい。
異なる成分、例えば、細胞サブセットの比率は、異なる成分、例えば、細胞サブセットの相対比率であってよい。従って、サポートベクター回帰の適用および必要に応じて非負制約を実施後、それぞれの異なる成分、例えば、細胞サブセットの計算存在量(例えば、係数)は、それぞれの異なる成分、例えば、細胞サブセットの相対的存在量を得るために、正規化して合計を1にしてよい。
実行時間を減らし、より良好な全体的性能を促進するために、物理的試料、例えば、生物試料、または物理系の特徴プロファイル、および/または異なる成分、例えば、細胞サブセット特徴シグネチャーの基準マトリックスを、CIBERSORTの実施前に、ゼロ平均および単位分散に正規化してよく、または別の方法で実行時間を低減させてよい。
方法は、異なる成分、例えば、細胞サブセットの相対比率の特定および推定のために有意値を決定することをさらに含んでよい。特定の実施形態では、実験的に定められるデコンボリューションのための全体p値は、モンテカルロサンプリングを使って決定し得る。有意値は、シグネチャーマトリックス中の異なる成分、例えば、細胞型が、所与の物理的試料、例えば、生物試料、または物理系の特徴プロファイル中に存在しないという帰無仮説の尤度を示してよい。
実験のセクションで記載のように、シグネチャーマトリックス(Bで示される)と、それぞれの異なる成分、例えば、細胞型の未知の比率からなるベクター(fで示される)との積は、式:m=fxBで示されるように、物理的試料、例えば、生物試料、または物理系の特徴プロファイル(m)を形成する。
特定の態様では、方法は、a)親特徴プロファイルからランダムに選択された特徴を含むランダム特徴プロファイルmを生成し、親特徴プロファイルが特徴プロファイルを含み、mおよびmが同じユークリッドノルム(すなわち、|m|=|m|)を有すること、b)mと基準マトリックスBとの間の回帰を最適化し、mがBの一次結合としてモデル化され、最適化することが、回帰の一連の回帰係数を含むfを解くことを含み、解が線形損失関数、およびLノルムペナルティ関数を最小化すること、c)fと基準マトリックスBの積を計算し、再構成特徴プロファイルを生成すること、d)ランダム特徴プロファイルmと再構成特徴プロファイルとの間の差異測定値を決定すること、およびe)ステップa)〜d)のi回(iは2以上の数)の反復から決定される差異測定値の分布に基づいて、有意値を決定すること、による異なる成分、例えば、細胞サブセットの相対的比率の推定に対する有意値を決定することをさらに含む。
特定の態様では、ステップd)の差異尺度が、ピアソン積率相関係数などの相関係数であってよい。あるいは、ピアソン積率相関係数の代わりに、別の差異測定法を使ってもよい。その他の距離測定法の例には、RMSE、適合度測測定法、標準偏差、スピアマンの順位相関係数、ユークリッド距離、または平均絶対偏差(MAD)、などが挙げられる。
親特徴プロファイルは、より大きな(すなわち、より多くの異なる要素・・・・を有する)任意の好適な特徴プロファイルであってよい。
特定の態様では、ステップe)の有意値は、p値であってよい。ステップe)における分布は、ゼロ分布であってよい。
繰り返し数iは、任意の好適な整数であってよく、2以上、5以上、10以上、25以上、50以上、100以上、200以上、500以上、1,000以上、10,000以上の整数であってよく、いくつかの事例では、10,000以下、1,000以下、800以下、600以下の整数でよく、また、500以下の整数を含んでよい。いくつかの事例では、iは、2〜10,000、10〜1,000、50〜500でよく、また、200〜600を含んでよい。
特定の態様では、方法は、候補基準マトリックスおよび/または特徴プロファイルを選別して、低有意値を与えるものを特定することを含んでよい。
特徴プロファイルは、上述のように、目的の物理的試料または物理系に応じて、任意の好適な特徴プロファイルであってよい。特定の態様では、生物試料の特徴プロファイルは、例えば、上記セクションのいくつかの実施形態で記載のような、遺伝子発現プロファイル(GEP)であってよい。遺伝子発現プロファイルは、生物試料中の細胞のRNAトランスクリプトームを表してもよい。
異なる成分は、上述のように、任意の好適な異なる成分であってよい。いくつかの事例では、異なる成分は、異なる細胞サブセットである。細胞サブセット(例えば、シグネチャーマトリックスのおよび/または相対的存在量がSVRにより推定された)は、上記セクションで記載のいずれかの細胞サブセットであってよい。特定の態様では、細胞サブセットは脳細胞サブセットを含んでよい。例えば、細胞サブセットは、神経細胞、星状膠細胞、乏突起膠細胞、およびミクログリアの内の1種または複数を含んでよい。特定の態様では、細胞サブセットは、間質細胞、幹細胞、神経細胞、および前駆細胞の内の少なくとも1種または複数を含んでよい。特定の態様では、細胞サブセットは、血液癌、乳癌、結腸癌、肺癌、前立腺癌、肝細胞癌、胃癌、膵臓癌、子宮頸癌、卵巣癌、肝臓癌、膀胱癌、尿路癌、甲状腺癌、腎臓癌、癌腫、黒色腫、および/または脳癌細胞などの腫瘍細胞を含んでよい。
特定の態様では、細胞サブセットは、例えば、上記セクションに記載されているような白血球を含む。白血球は、腫瘍浸潤白血球(例えば、癌細胞との混合物または癌細胞から精製された)であってよい。白血球細胞サブセットは、ナイーブB細胞および記憶B細胞の内の1種または複数など、およびCD8 T細胞、CD4ナイーブT細胞、CD4記憶RO不活性T細胞、CD4記憶RO活性化T細胞、濾胞性ヘルパーT細胞、および制御性T細胞の内の1種または複数などのリンパ球を含んでよい。特定の態様では、白血球細胞サブセットは、B細胞、プラズマ細胞、CD8 T細胞、CD4 T細胞、ガンマデルタT細胞、NK細胞、単球、マクロファージ、樹状細胞、マスト細胞、好酸球、および好中球細胞サブセットの内の1種または複数を含んでよい。
特定の態様では、細胞サブセットは、次の細胞サブセットの2個以上、5個以上、10個以上、15個以上、または全部を含んでよい:ナイーブB細胞、記憶B細胞、プラズマ細胞、CD8 T細胞、ナイーブCD4 T細胞、CD4記憶RO不活性T細胞、CD4記憶RO活性化T細胞、濾胞性ヘルパーT細胞、制御性T細胞、ガンマデルタT細胞、非刺激NK細胞、刺激NK細胞、単球、マクロファージM0、マクロファージM1、マクロファージM2、非刺激樹状細胞、刺激樹状細胞、非刺激マスト細胞、刺激マスト細胞、好酸球、および好中球。
上述のように、物理的試料、例えば、生物試料は、多くの物理的試料、例えば、生物試料のいずれであってもよい。特定の態様では、生物試料は、保管された組織試料、血液試料、固体組織試料、腫瘍試料、精製試料、白血球濃縮試料、またはこれらの組み合わせである。
本方法は、特徴プロファイルに寄与する異なる成分の相対比率の正確な推定値を提供し得る。いくつかの事例では、別に決定された異なる成分の相対比率の推定値に対して比較した場合、本方法により得られる推定値は、0.50以上、例えば、0.60以上、0.70以上、0.80以上、0.85以上、0.90以上、0.95以上、0.97以上の、0.99以上を含む統計的に有意なR値(例えば、ピアソン積率相関係数)を有してよく、およびいくつかの事例では、0.99以下、例えば、0.98以下、0.96以下、0.94以下、0.92以下、0.90以下の、0.85以下を含む統計的に有意なR値を有してよい。いくつかの事例では、別に決定された異なる成分の相対比率の推定値に対して比較した場合、本方法により得られる推定値は、0.50〜0.99、例えば、0.60〜0.98、0.70〜0.96の範囲の、0.80〜0.94を含む範囲の統計的に有意なR値を有してよい。別に決定された異なる成分の相対比率の推定値は、任意の好適な別の推定値であってよい。いくつかの事例では、別の推定値は、試料に添加された異なる成分の既知の量である。いくつかの事例では、別の推定値は、フローサイトメトリー(例えば、蛍光標識細胞分取(FACS))分析から得られた推定値である。
コンピューターシステムおよびコンピューター可読記憶媒体
図20は、特定の実施形態によるコンピューターシステム2000のブロック図である。
図20に示すように、システム2000は、1つまたは複数の処理ユニット(本明細書では「プロセッサー」とも呼ばれる)2002、記憶装置2004(すなわち、コンピューター可読記憶媒体)、入力/出力(I/O)インターフェース2006、およびネットワークコミュニケーションインターフェース2008を含む。これらの構成要素は、1つまたは複数のコミュニケーションバスまたは信号ラインを介して相互に通信する。いくつかの実施形態では、記憶装置2004、または記憶装置2004のコンピューター可読記憶媒体は、オペレーティングシステム2012、プログラム、モジュール、命令、および保存データを保存する。1つまたは複数のプロセッサー2002は、記憶装置2004に接続され、これらのプログラム、モジュール、および命令を実行するように機能し、保存データから読み出す/保存データに書き込む。
いくつかの実施形態では、処理ユニット2002は、単一コアまたはマルチコアマイクロプロセッサーなどの1つまたは複数のマイクロプロセッサーを含む。いくつかの実施形態では、処理ユニット2002は、1つまたは複数の汎用プロセッサーを含む。いくつかの実施形態では、処理ユニット2002は、1つまたは複数の専用プロセッサーを含む。
いくつかの実施形態では、記憶装置2004は、DRAM、SRAM、DDR RAMまたはその他のランダムアクセスソリッドステートメモリーデバイスなどの高速ランダムアクセスメモリーを含む。いくつかの実施形態では、記憶装置2004は、1つまたは複数の磁気ディスク記憶装置、光学的ディスク記憶装置、フラッシュメモリーデバイス、またはその他の不揮発性のソリッドステート記憶装置などの不揮発性のメモリーを含む。いくつかの実施形態では、記憶装置2004は、処理ユニット2002から離れた位置にある1つまたは複数の記憶装置を含む。記憶装置2004、あるいは、記憶装置2004内の不揮発記憶装置(単一または複数)は、コンピューター可読記憶媒体を含む。いくつかの実施形態では、記憶装置2004は、非一時的コンピューター可読記憶媒体を含む。
いくつかの実施形態では、I/Oインターフェース2006は、1つまたは複数のディスプレイ、キーボード、タッチセンシティブ表面(トラックパッドまたはタッチディスプレイのタッチセンシティブ表面など)、スピーカー、およびマイクロフォンなどの1つまたは複数の入力/出力装置に接続される。I/Oインターフェース2006は、ユーザーからのユーザー入力(例えば、音声入力、キーボード入力、など)を受け取り、それらを適宜処理するように構成されてよい。I/Oインターフェース2006はまた、システム2000上に実装された種々のプログラム命令に応じて、出力(例えば、音、画像、テキスト、など)をユーザーに提示するように構成されてよい。
いくつかの実施形態では、ネットワークコミュニケーションインターフェース2008は、有線通信ポート(単一または複数)および/または無線送受信回路を含む。有線通信ポート(単一または複数)は、1つまたは複数の有線インターフェース、例えば、イーサネット、ユニバーサルシリアルバス(USB)、ファイアワイア、などを介して通信信号を送受信する。無線回路は、RF信号および/または光信号をコミュニケーションネットワークおよびその他のコミュニケーションデバイスへ/から送受信する。無線コミュニケーションは、GSM、EDGE、CDMA、TDMA、ブルートゥース、Wi−Fi、VoIP、Wi−MAX、または任意の他の好適な通信プロトコルなどの複数のコミュニケーション標準、プロトコルおよび技術のいずれかを使用してよい。ネットワークコミュニケーションインターフェース2008は、システム2000と、インターネット、イントラネットおよび/または携帯電話ネットワークなどの無線ネットワーク、無線ローカルエリアネットワーク(LAN)および/または都市間ネットワーク(MAN)、およびその他のデバイスなどのネットワークとの通信を可能とする。ネットワークコミュニケーションインターフェース2008は、システム2000とその他のデバイスとの間のネットワークを介したコミュニケーションを容易にするように構成される。
いくつかの態様では、コンピューター2000は、パーソナルデバイス(例えば、ラップトップ、デスクトップ、職場のコンピューター、携帯型デバイス、など)であってよい。パーソナルデバイスであるコンピューター2000は、ネットワークに接続する必要はない。
いくつかの態様では、コンピューター2000は、サーバーまたは一群のサーバーであり、I/Oインターフェースを必要としなくてもよい。例えば、コンピューター2000は、サーバーであってよく、本開示のデコンボリューションプログラム、例えば、SVRアプリケーション、2020は、ウエブサイト経由でユーザーによりアクセスされてよい。
いくつかの実施形態では、オペレーティングシステム2012(例えば、LINUX、UNIX、OS X、WINDOUS、または組み込みオペレーティングシステム)は、一般システムタスク(例えば、メモリー管理、記憶装置制御、電源管理、など)を制御および管理するための種々のソフトウェアコンポーネントおよび/またはドライバーを含み、種々のハードウェア、ファームウェア、およびソフトウェアコンポーネント間のコミュニケーションを容易にする。
システム2000は、一例に過ぎず、システム2000は、示したものより多いもしくはより少ない構成要素を有してよく、2つ以上の構成要素を組み合わせてもよく、または構成要素の異なる構成もしくは配置を有してもよいという点に留意すべきである。図20の種々の構成要素は、1つまたは複数のシグナルプロセッシング回路および/または特定用途向け集積回路を含む、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組合せに実装してよい。
図20では、デコンボリューションプログラム、例えば、サポートベクター回帰(SVR)アプリケーション、2020は、記憶装置2004中の保存された1つまたは複数のプログラムを含み、上記方法の項の1つまたは複数の実施形態に従って方法を実施する命令を含む。デコンボリューションプログラム、例えば、SVRアプリケーション、2020は、下記の代表的モジュールまたはそれらのサブセットまたはスーパーセットのいずれかを含んでよい。
いくつかの事例では、上記方法の項に記載の一実施形態に従って、デコンボリューションモジュール、例えば、SVRモジュール2022は、サポートベクター回帰、または線形損失関数、およびLノルムペナルティ関数を最小化する任意の他の回帰アルゴリズムを、異なる成分、例えば、細胞サブセット、特徴シグネチャーの基準マトリックスを使って、物理的試料、例えば、生物試料、または物理系の特徴プロファイルに適用し、物理的試料、例えば、生物試料、または物理系中の異なる成分、例えば、細胞サブセットの相対比率を推定するように構成されてよい。
選択モジュール2024は、上記方法の項で記載のいずれ化の実施形態に従って、シグネチャーマトリックス中に含めるように特徴を選択(または選別)するように、および/または特徴プロファイル(単一または複数)を選択するように構成されてよい。
RMSEモジュール2026は、上記方法の項に記載のいずれかの実施形態に従って、異なるν値と比較して最小誤差を有する結果を決定するように構成されてよい。
有意値モジュール2028は、a)親特徴プロファイルからランダムにから選択された特徴を含むランダム特徴プロファイルmを生成し、親特徴プロファイルが特徴プロファイルを含み、mおよびmが同じユークリッドノルムを有すること、b)mと基準マトリックスBとの間の回帰を最適化し、mがBの一次結合としてモデル化され、最適化することが、回帰の一連の回帰係数を含むfを解くことを含み、解が線形損失関数、およびLノルムペナルティ関数を最小化すること、c)fと基準マトリックスBの積を計算し、再構成特徴プロファイルを生成すること、d)ランダム特徴プロファイルmと再構成特徴プロファイルとの間の差異測定値を決定すること、およびe)ステップa)〜d)のi回(iは2以上の数)の反復から決定される差異測定値の分布に基づいて、有意値を決定すること、によって特徴プロファイルのサブセットを選択することにより細胞サブセットの相対比率を推定するための有意値を決定するように構成されてよい。有意値モジュール2028は、ステップb)で、デコンボリューションモジュール、例えば、SVRモジュールを用いてよい。有意値モジュール2028は、上記方法の項で記載のその他の実施形態のいずれかを実施するようにさらに構成されてよい。
デコンボリューションプログラム、例えば、SVRアプリケーション、2020は、上記方法の項で記載のその他の実施形態のいずれかを実施するために追加のモジュールを含むようにさらに構成されてよい。特定の態様では、デコンボリューションプログラム、例えば、SVRアプリケーション、2020は、コンピューター2000から離れた携帯型コンピューターの可読記憶媒体中に保存されてよい。
いくつかの実施形態では、記憶装置2004は、上記方法の項のいずれかの実施形態の特徴プロファイル2030を保存する。いくつかの実施形態では、記憶装置2004は、上記方法の項のいずれかの実施形態のシグネチャーマトリックス2032を保存する。いくつかの実施形態では、記憶装置2004は、上記方法の項のいずれかの実施形態の推定細胞サブセット比率2034を保存する。
本明細書記載の方法は、コンピューターシステム2000により実施される。いくつかの実施形態では、コンピューターシステム2000は、分散コンピューターシステムである。例えば、コンピューターシステム2000は、第2セットの1つまたは複数のプロセッサーから離れた位置の第1セットの1つまたは複数のプロセッサーを含む。いくつかの実施形態では、コンピューターシステム2000は、ウェブインターフェースを提供するように構成されたウェブサーバーを含む。いくつかの実施形態では、ウェブインターフェースは、データを受信するように構成される。いくつかの実施形態では、ウェブインターフェースは、結果を表示するように構成される。
特定の態様では、デコンボリューションプログラム、例えば、SVRアプリケーション、2020は、ユーザーによる設定が可能である。例えば、デコンボリューションプログラム、例えば、SVRアプリケーション、2020は、1つまたは複数の設定、例えば、デコンボリューションアルゴリズム、例えば、SVRをニューの値に適用するための特徴プロファイル2030および/またはシグネチャーマトリックス2032、選択モジュール2024により特徴が選択される判定基準、有意値モジュール2028により実行される繰り返しの数、または上記方法の項に記載の1つまたは複数の実施形態を許容すると思われる任意の他の設定、をユーザーに決定可能とするように構成されたユーザーインターフェースモジュール(図示せず)を含んでよい。
有用性
本開示のさらなる態様は、生物試料の特徴プロファイルに基づいて、生物試料中の細胞サブセットを正確に列挙する方法およびシステムを含む。特徴プロファイルは、遺伝子発現プロファイル、タンパク質発現プロファイル、腫瘍遺伝子型プロファイル、およびバイオマーカープロファイルを含む。本システムおよび方法は、混合生体物質の分析のためのその他の細胞サブセットデコンボリューション法に比べて進歩を示し、可能な用途には、免疫モニタリングならびに新規バイオマーカーおよび治療標的の発見が含まれる。
いくつかの事例では、本方法は、複合組織由来のGEP中の多様な細胞サブセットの相対的比率を正確に決定し、それぞれの結果に対する統計的信頼度の尺度を与える。本方法は、(i)ノイズまたは未知の含量および(ii)密接に関係した細胞型を含む混合物の分析のための大きく改善された精度を示す(図15)。さらに、統計的選別と共に適用される場合、本方法は、細胞サブセットの極めて高感度で特異的な識別を可能とする(図1b、c)。
特定の態様では、それらの遺伝子発現プロファイルから複合組織の細胞組成物の特性を明らかにする方法が提供される。固形腫瘍を含む、新しい、凍結、および固定組織由来のRNA混合物中の造血サブセットの列挙に適用される場合、本方法は、ノイズ、未知の混合物含量、および密接に関係した細胞型の観点で、その他の方法より性能が優れている。本システムおよび方法は、細胞バイオマーカーおよび治療標的のためのRNA供試体の大規模分析を可能とするはずである。全組織からRNA混合物中の細胞サブセットを正確に列挙する方法は、したがって、疾患関連細胞の変動への新規洞察を容易にすることが可能であろう。
いくつかの実施形態では、本方法は、新しい、凍結、および固定臨床検体に由来するマイクロアレイまたはRNA−Seqデータ中の細胞の不均一性を分析する方法を提供し、それにより、入力として生細胞を必要とする方法を補完する。
本発明の方法およびシステムは、系内の複数の異なる成分の分布の推定が望ましい様々な用途での使用を見出す。いくつかの事例では、本方法およびシステムは、環境モニタリング、食物品質および安全性検査、電気使用量モニタリング、交通渋滞モニタリング、消費者製品安全性、などに使用され、物理的試料または物理系の特徴プロファイルのデコンボリューションは、多くの成分の複合混合物への個々の成分の寄与を与え得る。
本方法およびシステムはまた、本開示の方法により決定される、疾患の個体由来の試料中の1つまたは複数の異なる成分の相対比率と臨床転帰との間の関連性に基づいて、個体の疾患を評価すること、疾患の臨床試料特徴の予測、予後および/または診断値を評価すること、および/または疾患治療の臨床転帰を予測すること、にも用途を見出し得る。
したがって、本明細書で提供されるのは、疾患を有する個体から生物試料を得ること、および本明細書に記載のように、特徴プロファイルのデコンボリューション法を実施することにより、試料中に存在する複数の異なる成分中の1つまたは複数の異なる成分の分数表現を推定することを含む方法である。1つまたは複数の異なる成分の推定分数表現は、異なる成分の推定分数表現と疾患の臨床転帰との相関に基づいて、疾患を予測および/または診断するためのおよび/または治療に対する応答を予測するためのその値を決定するために使用し得る。したがって、本方法は、疾患の予後または診断のための、および/または疾患の治療の転帰を予測するための新規バイオマーカーを提供する。次に、疾患の治療の臨床転帰を、新規バイオマーカーに基づいて予測し得る。
本明細書で使用される場合、イベントまたは転帰が起こる前に、「予測すること」は、特定のイベントが起こる、もしくは起こる可能性がある、または転帰が達成される、もしくは達成される可能性があることを立証するプロセスを意味する。いくつかの事例では、治療に対する転帰を予測することは、治療が患者に投与される前に行われる。
疾患は、限定されないが、癌、糖尿病、炎症性疾患、自己炎症性疾患、感染症、神経疾患(例えば、アルツハイマー病、パーキンソン病、多発性硬化症、認知症、うつ病、精神障害、など)、代謝疾患、心臓血管疾患、筋ジストロフィー、ハンチントン病、などの任意の好適な疾患であってよい。
いくつかの事例では、疾患は癌であり、癌は、限定されないが、ヒト肉腫および癌腫、例えば、線維肉腫、粘液肉腫、脂肪肉腫、軟骨肉腫、骨肉腫、脊索腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ管内皮肉腫、滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、結腸癌、膵臓癌、乳癌、卵巣癌、前立腺癌、扁平上皮細胞癌、基底細胞癌、腺癌、汗腺癌、脂腺癌、乳頭癌、乳頭状腺癌、嚢胞腺癌、髄様癌、気管支原性肺癌、腎細胞癌、肝細胞腫、胆管癌、絨毛癌、精上皮腫、胚性癌腫、ウイルムス腫瘍、子宮頸癌、精巣腫瘍、肺癌、小細胞肺癌、膀胱癌、上皮癌、神経膠腫、星状細胞腫、髄芽腫、頭蓋咽頭腫、上衣腫、松果体腫、血管芽腫、聴神経腫瘍、乏突起神経膠腫、髄膜腫、黒色腫、神経芽腫、網膜芽細胞腫、白血病、例えば、急性リンパ性白血病および急性骨髄性白血病(骨髄芽球性、前骨髄球性、骨髄単球性、単球性および赤白血病);慢性白血病(慢性骨髄性(顆粒球性)白血病および慢性リンパ性白血病);および真性多血症、リンパ腫(ホジキン病および非ホジキン病)、多発性骨髄腫、ワルデンストレーム高ガンマグロブリン血症、濾胞性リンパ腫および重鎖病、などの任意の好適な癌であってよい。
個体は任意の好適な患者であってよい。いくつかの事例では、患者は疾患と診断されている。いくつかの事例では、患者はその疾患の治療を受けたことがある。いくつかの実施形態では、試料は、同じまたは類似の疾患を有する個体のコホートから得られ、該コホートは、1人以上、例えば、2人以上、3人以上、5人以上、10人以上、20人以上、50人以上、100人以上、200人以上の個体、400人以上を含む個体を含んでよい。
治療は、任意の好適な治療であってよい。いくつかの事例では、治療には、医薬組成物を個体に投与することを含み、医薬組成物は、天然由来および/または合成薬物、例えば、小分子薬物、抗生物質、抗体、ワクチン、などを含んでよい。いくつかの事例では、治療は免疫療法である。
本開示の方法はまた、診断、予後、および/または処置に対する予測応答の結果を示す物理的/有形のレポートおよび/または電子レポートを生成することを含んでよい。レポートは、任意の好適な形式で、例えば、限定されないが、紙、非一時的なコンピューター可読コンピューター可読媒体(例えば、コンパクトディスク、ユニバーサルシリアルバスドライブ、など)、電子メール、などで提供されてよい。いくつかの実施形態では、レポートは、医療関係者(例えば、医師、看護師、薬剤師、など)および/または個体のための1つまたは複数の推奨処置コース(例えば、治療を継続すべきか否か、どの治療を投与すべきか、など)を含む。
本明細書で引用された全ての出版物および特許出願は、あたかもそれぞれの出版物または特許出願が具体的かつ個々に、参照により組み込まれると示されるように参照により本明細書に組み込まれる。いずれの出版物の引用も、出願日の前のそれの開示が目的であり、本発明が、先行発明の理由でこのような出版物に先行する権利がないことを承認するものと解釈されるべきではない。
本発明を説明するために提供され、本発明の範囲を限定すると多少なりとも解釈されるべきではないという理解を前提として、本発明をさらに説明するために、以下の具体的実施例が提供される。
実験
実施例1:複合組織の発現プロファイルからの細胞サブセットのロバストな列挙
CIBERSORTは、基準遺伝子発現シグネチャーの入力マトリックスを使って、それぞれの目的の細胞型の相対比率を推定する。しかし、細胞型特異的発現パターンは、それぞれの遺伝子に対し必要とされない(方法の項参照)。混合物をデコンボリューションするために、ノイズに対しロバストな機械学習手法である線形サポートベクター回帰(SVR)の新規アプリケーションが用いられた。多くの他の方法とは異なり、SVRは、特徴選択を実行する。この場合、遺伝子は、シグネチャーマトリックスから、所与の混合物のデコンボリューションに適応するように選択される。次に、実験的に定められるデコンボリューションの全体p値が決定される(図1a、方法の項参照)。
最初の適用として、バルク腫瘍からの白血球デコンボリューションの実現性、したがって、白血球シグネチャーマトリックスの設計および有効性が見極められた。LM22と命名されたこのシグネチャーマトリックスは、7種のT細胞型、ナイーブおよび記憶B細胞、プラズマ細胞、NK細胞、および骨髄サブセット(図16、図4、方法の項参照)を含む、22個の成熟ヒト造血集団および活性化状態を正確に識別する547個の遺伝子からなる。細胞サブセットは、造血ヒエラルキーの共通系統に基づいて、11種の主要白血球タイプにさらに分類できる(図16)。CIBERSORTを使って、LM22を最初に、種々の方法で精製した白血球サブセットのプロファイルを有する追加のデータセットに対し検証して、統合遺伝子の細胞型特異性を確認し、93%のデータセットを異なる細胞表現型に正確に分類した(図1b、図5a、図17)。さらなる検証として、CIBERSORTにより、5人のヒト扁桃腺から流動選別したTおよびB細胞の高純度に適合する結果が得られた(図5b)。
CIBERSORTの実験的p値測定法の感度および特異性を評価するために、LM22を3,061個のヒトトランスクリプトームのデコンボリューションに適用した10。モンテカルロベースランダム遺伝子サンプリングを用いて、「ゼロ」混合物を生成し(方法の項参照)、その後、既知の造血および非造血細胞源からの発現プロファイルを、CIBERSORTを使って、「正」および「負」試料としてスコア化した。この区別は、種々に精製した一次組織供試体(n=1,801合計、正=1,425、負=376)および形質転換細胞(n=1,260合計、正=118、負=1,142)に対し別々に考慮に入れた。両群では、約0.01の実験的p値閾値で、CIBERSORTは、負試料から正試料の識別に対し、94%以上の感度および95%以上の特異性を達成した(AUC≧0.98;図1c)。注目すべきことに、LM22の代わりに独立に得た白血球シグネチャーマトリックスを使っても同様の結果であり(データは示さず)、手法の一般性を裏付けた。
次に、素性の明確な組成を有する理想化混合物に対し、CIBERSORTをベンチマークした。この混合物では、大部分の混合物が精製細胞型の極めて異なる(無相関の)基準プロファイルで占められ得、未知の細胞含有物からの寄与およびノイズは最小限である4、11、12。CIBERSORTの結果を、6種のGEPデコンボリューション法と比較した。その内4種は、基準発現プロファイルを入力として採用した、PERT、二次計画法(QP)、線形最小2乗回帰(LLSR)、およびロバスト線形回帰(RLR)であり、2種は、所与の細胞型中で特有に発現した遺伝子を入力として採用する(すなわち、マーカー遺伝子)、MMADおよびDSAである(図18)。我々の知る限り、RLRは、この仕事で初めてGEPデコンボリューションに適用されたことに留意されたい。その他の方法と同様に、血液癌細胞株および神経細胞型12のインビトロ混合物(図6a、b)対しても、または全血11(図1d、図19)に対しても、CIBERSORTは、理想化混合物に対し正確な結果を達成した。したがって、CIBERSORTは、LM22および非ホジキンリンパ腫非ホジキンリンパ腫に対するリツキシマブ単独療法を受ける直前、直後の患者のプロファイリングされた末梢血を使った免疫モニタリングに有用であるかどうかが問われた。処置後の末梢血単核球(PBMC)のLM22を使ったCIBERSORT分析は、4人の患者で、リツキシマブにより標的とされるB細胞の選択的欠乏を示し(図6c)、特に供試体が直ちに処理できない場合での、免疫療法中の免疫モニタリングに対する有用性を示唆した。
次に、それぞれ極めて異なる基準プロファイルを有する4種の混合血液癌細胞株4からなる、よく使われるベンチマークデータセットを用いて、未知の含量を含む混合物に対する、その他の方法に比べたCIBERSORTの技術的性能が比較された(方法の項参照)。これらの混合物を結腸癌細胞株と混合することにより、ヒト固形腫瘍は種々の白血球浸潤(1%〜100%)を有するように模擬された。非log線形ノイズの添加も試験し、試料取り扱い、確率的遺伝子発現変動、およびプラットホーム間の差異を模擬した。この模擬フレームワークは固形腫瘍の生物学的混合物を完全に反映するものではないが、免疫含量および添加ノイズが細かく調節および試験可能な合理的なモデルを提供した。さらに、それぞれの方法の性能は、より複雑な混合物の場合に大きく改善できそうにない。
ほぼ全ての方法が信号損失の関数として性能を劣化させ(図7、図19)、50%未満の免疫含量で大きな精度の低下を示した。CIBERSORTのみが、腫瘍含量(約95%まで)およびノイズ(約70%まで)(図2a)の全範囲にわたり既知の混合物比率を正確に分解し、元の組成からかなり異なる混合物に対する高い性能を示した(ピアソンのRは、約0.05程度の低さ;図2b)。さらに、多くの固形腫瘍タイプは、50%より少ない浸潤免疫細胞13からなるので、CIBERSORTがその他の方法より性能が優れているパラメーター範囲は、バルク腫瘍分析用として極めて好適する。
バルク組織中の希な細胞型に対してそれぞれの方法の検出限界を評価するために、同じ細胞株であるが、1つの血液細胞を他の3つのサブセットのランダム混合物中に添加したことが異なる第2の合成データセットを作成した。CIBERSORTは、50%までの腫瘍含量を含む混合物中の0.5%までの細胞比率、および50%を超える腫瘍含量を有する混合物中の1%までの細胞比率を検出した(図2c)。全ての方法は、より高い腫瘍含量に伴いスパイクインを過大評価したが、影響は、CIBERSORTで最も小さかった(図8)。過大評価は、LM22中のそれぞれの細胞型が未知の含量範囲にわたって残りの21免疫サブセットのランダム組み合わせ中へ添加される場合の別の分析では、あまり発生しなかった(図9)。全体的に見て、CIBERSORTは、一貫して、実際にはいくつかの事例で、他の方法より性能が優れていた(図2d、図7〜9、および図19)。
CIBERSORTの1つの側面は、シグネチャーマトリックス遺伝子の、特徴選択として知られる、状況依存的分析である。この手順は、CIBERSORTのノイズに対する耐性を高める14が、特徴選択が混合物中の細胞サブセットの固有の特性により影響を受ける場合には、1つの細胞型の非存在が密接に関係した細胞型の列挙に影響を与える可能性がある。これを試験するために、LM22からの2つの無相関基準プロファイルの単純スパイクシリーズ(マスト細胞およびCD8 T細胞)を使って、選択特徴(すなわち、遺伝子)が所定の混合物の組成物と相関するかどうかを判定した(図10a)。意外にも、このような関係は認められず(図10b、c)、シグネチャーマトリックス中に存在するが混合物には存在しない細胞型のためのマーカー遺伝子が排気されているとは限らず、むしろ、それらは、回帰を限度内に留めることにより、CIBERSORTにとって有用な可能性があることを示唆した(例えば、CD8 T細胞が存在するかどうかに関係なく、CD8Aが選択され、それらの非存在が知らされているようである;方法の項参照)。
したがって、CIBERSORTの細胞型に対する識別能が、極めて相関した基準プロファイル(例えば、ナイーブ対記憶B細胞)を使って調査された。このようなプロファイルは、多重共線性を示し、その現象により、類似の細胞型の比率が信頼性高く決定できない15。以前の手法は、細胞型特異的発現を有するマーカー遺伝子を必要とすることにより7、8、12、または極めて異なる遺伝子発現シグネチャー4、5を使用し、それにより、デコンボリューションのために可能な細胞のレパートリーを制限することにより、この問題を回避している。10種の次第に高まる相関のある模擬細胞型の合成混合物をデコンボリューションすることにより、CIBERSORTと、他の方法とを比較した。未知の含量または添加ノイズの存在下に係わらず、CIBERSORTは、最も正確に遂行し(図11)、多様な組織中の多くの細胞サブセットのディープデコンボリューションの潜在能力を示すことが明らかになった。
模擬混合物に対しCIBERSORTのベンチマークを行って、バルク腫瘍を含む固体組織のインビトロおよびインビボ混合物を試験した。LM22を全てのその後の分析のために使用し、したがって、我々の比較評価を発現ベースの方法(すなわち、RLR、PERT、QP、LLSR)に限定した。最初、乳房組織中に添加した全血の所定の混合物中の白血球デコンボリューションの安定性を試験した。加えて免疫関連遺伝子発現との比較により、相対的スパイクイン比率を検証(図2e、左)後、CIBERSORTが他の方法より有意に高い一貫性があることが明らかになった(P<0.02;n=9個の100%未満の血液を含む試料;対応のある両側性ウィルコクソン符号付順位検定;図2e、右;図19)。別に、独立調査全体にわたり、CIBERSORTにより列挙された白血球比率は、癌間より癌タイプ内でより類似性が高かった(図2f)。これらの結果は、未知の含量および研究室特異的要因は、CIBERSORT性能に対し、ごくわずかな影響しか与えないことを示す。
次に、CIBERSORTは、長期貯蔵のために、検査室で定常的に生成されているホルマリン固定、パラフィン包埋(FFPE)試料に適用可能かどうかが問われた。適合FFPEおよび凍結DLBCL腫瘍(n=18)からなる公的に入手可能なGEPを使って、CIBERSORTにより推定された白血球比率は、全ての腫瘍間で有意に相関し(図2g)、その他の方法より一致性が高かったことが明らかになった(図19)。実際に、CIBERSORTの結果はまた、18個の個別腫瘍中の16個(P<0.05;図12a)および特定の細胞サブセット(図12b)において、有意に相関し、FFPE供試体中の細胞組成物の大規模分析に対する潜在的有用性を暗示した。
固体組織中の白血球含量のグラウンドトルース測定に対してCIBERSORTを評価するために、フローサイトメトリーを使って、2種の組織型:初期段階非小細胞肺癌(NSCLC)の外科的切除中に得た肺供試体、および濾胞性リンパ腫(FL)患者由来の脱凝集したリンパ節生検材料、中の免疫サブセットを列挙した。(i)正常な肺組織の独立マイクロアレイ調査または(ii)14個の対でのバルクFL試料由来のGEPへの適用に係わらず、結果は、対応するフローサイトメトリー測定値に有意に相関し(P≦0.005;それぞれ図2hおよび2i)、両組織型において、以前の方法より厳密に実験値を反映した(図19)。
個々の細胞サブセットに対する性能を評価するために、フローサイトメトリーを使ってLM22のほぼ50%(22個の細胞サブセットの10個)の表現型レパートリーを列挙し、血液および腫瘍生検材料を含む一次ヒト試料のディープデコンボリューションに対するCIBERSORTの能力を評価した。27人の成人対象からの血液試料を、PBMC中のLM22に収集された10個の異なる細胞表現型についてプロファイリングした(20人の対象が9個の細胞型に対しプロファイリングされ、7人がFOXP3+Tregに対しプロファイリングされた;フローサイトメトリーの方法の項を参照されたい)。これらの10個の表現型の内で、半分がLM22中で高度に共線的であり(例えば、ナイーブおよび記憶B細胞;図4c)、半分がPBMC中で頻度が少ない(<5%)(ナイーブおよび記憶B細胞、活性化記憶CD4 T細胞、ガンマデルタT細胞、およびTreg)。分析した表現型の多様性に係わらず、90%の異なる白血球サブセットが、CIBERSORTとフローサイトメトリーとの間で有意に相関し(P≦0.02;図3a)、これには、中央値比率が5%の5個のサブセットの内の4個(例えば、Treg;図3b)が含まれる。ガンマデルタT細胞のみが有意でなく(正に相関したにもかかわらず;R=0.29)、おそらく、フローサイトメトリーまたは最適でない基準プロファイルの使用に付随する技術的問題が原因であろう(図5a)。別に、14人のFL患者由来の腫瘍生検材料中のCD4/CD8 T細胞および悪性B細胞のレベルを調査し、フローサイトメトリーおよびマイクロアレイによりプロファイリングした(すなわち、図2i)。CIBERSORTにより推定された全3つのサブセットの比率は、フローサイトメトリーと有意に相関した(P≦0.02;図3c)。
同じデータセットに適用した場合、その他の発現ベースの方法は、一般に、正確性が低く、50%を超える分析表現型に対し、有意な相関が得られなかった(図3d、図13〜14、図19)。さらに、特定のサブセットは、他の方法によって列挙する場合に、完全な「脱落」を生じる傾向があり、おそらく、多重共線性によるものであろう(例えば、QPおよびLLSRにより推定されたPBMC中のナイーブCD4 T細胞レベル;図3d、図13〜14)。さらに、FL腫瘍生検材料においては、個々のサブセットに対してではなく、全ての3個の表現型を一緒に考慮した場合、有意な相関は、その他の方法によってのみ達成された(RLRにより推定されたCD8 T細胞を除いて;図14)。これらの性能差異に対する可能性のある理由は、方法の項で考察される。まとめると、これらの結果は、組織中の複合組成物との細胞サブセットのディープデコンボリューションおよび列挙に対するCIBERSORTの利点をさらに実証している。
実験方法
実施例1では、次の方法を使用した。
患者試料
この調査の全患者試料は、ヘルシンキ宣言に準拠して、スタンフォード大学研究所審査委員会により審査および承認された。図5bに関しては、スタンフォード大学のLucile Packard Children’s Hospitalにおいて、研究用途としてのインフォームドコンセントの下でルーチン扁桃摘出術の一部として扁桃腺が収集され、その後、細胞懸濁液を凍結保存する前に機械的に脱凝集した。図6cに示す「患者1」に関しては、測定できるほどの循環疾患のない対象の節外性辺縁帯リンパ腫(EMZL)のための単独療法としての注入投与リツキシマブ(375mg/m)の毎週4回投与前および直後に採取した供試体から末梢血単核球(PBMC)を単離した。図6cの患者2および3に関しては、DLBCLの処置のための4サイクルまたは6サイクルのRCHOP免疫化学療法直後に採取した供試体からPBMCをそれぞれから単離した。図6cの患者4に関しては、FLの処置用の4サイクルのリツキシマブ投与後に、患者から単離した。この患者は、診断時に、約2%の循環リンパ腫細胞を有しており、これは、4回のリツキシマブ注入後、CIBERSORTおよびフローサイトメトリーにより検出されなかった。図2hに関しては、初期段階非小細胞肺癌の外科的切除中に隣接する正常な肺組織供試体を得た。図2iおよび3cに関しては、第3相臨床試験(NCT0001729017)に登録した未処置FL患者から外科的組織生検材料を得た。図3aおよび図3bに関しては、PBMCを20人および7人の成人対象からそれぞれ得た。前者は、インフルエンザ免疫(NCT01827462)を受けた種々の年齢の成人を含み、後者は、図6cの「患者4」および6人の健康な対象から構成された(フローサイトメトリーの方法の項を参照)。
フローサイトメトリー
全パネルを以下に詳細記述した。抗体クローンは、括弧内に示した(全ての試薬をBD Biosciencesから得た)図3aに関連するパネルは、凍結乾燥した試薬プレート(Lyoplate,BD Biosciences,San Diego,CA)を使って構成したが、液体抗体として添加した括弧内の試薬は除く。
Figure 2021019641
図5bに関しては、扁桃腺由来細胞懸濁液を解凍、洗浄、計数した後、刺激せずに、モノクローナル抗体(上表)で染色し、B細胞(CD19+)およびT細胞(CD5+)を標識した。その後の発現プロファイリングのために、それぞれの集団をFACSAria II装置(BD Biosciences)を使って、95%を超える純度に選別した。
図2hに関しては、新しい正常肺組織試料を小片に切断し、45分間のコラゲナーゼI(STEMCELL Technologies)消化により、単細胞懸濁液に解離させた。解離した単細胞を1x10/mLの濃度で染色緩衝液(2%の加熱不活性化仔ウシ血清を含むHBSS)中に懸濁させた。10μg/μLのラットIgGで10分間のブロッキング後、上記表で示した抗体細胞を使って少なくとも10分間染色した。洗浄後、染色した細胞を1μg/mLのDAPIを含む染色緩衝液中に再懸濁し、FACSAria II装置(BD Biosciences)を使って次の集団を列挙した:合計白血球(CD45+)、単球(CD14+)、CD8 T細胞(CD8+)、CD4 T細胞(CD4+)、NK細胞(CD56+)、およびB細胞(CD19+)。
図2iおよび3c(および図14)に関しては、診断FL腫瘍細胞懸濁液をモノクローナル抗体(上表)で染色し、CD4 T細胞(CD4+)、CD8 T細胞(CD8+)、およびB細胞(CD20+)を標識した。染色した細胞をFACSCaliburまたはLSR II 3レーザー血球計算器(BD Biosciences)で検出した。
図3a(および図13a)に関しては、凍結乾燥した試薬プレート(Lyoplate、BD Biosciences)を使って、健康な成人由来のPBMCに対してフローサイトメトリーによる表現型検査を実施した。プレートを上表に示す染色混合物を使って構成し、次の細胞サブセットを列挙した:ナイーブB細胞(CD3−CD19+CD20+CD24−CD38+)、記憶B細胞(CD3−CD19+CD20+CD24+CD38−)、CD8 T細胞(CD3+CD8+)、ナイーブCD4 T細胞(CD3+CD4+CD45RA+CD27+)、記憶CD4 T細胞(CD3+CD4+CD45RA−)、ガンマデルタT細胞(TCRgd+)、NK細胞(CXCR3+CD16+CD56+)、および単球(前方散乱および側方散乱特性により特定される)。LSRIIフローサイトメーター(BD Biosciences)のLyoplate用の発表されたプロトコルに従って染色を行った。上表中の括弧中の試薬は、液体抗体として添加され、Lyoplateそれ自体の一部ではなかった。
遺伝子発現における特性の変化は、ナイーブT細胞(CDR45RA+CD45RO−)から記憶T細胞(CD45RO+CDR45RA−)への表現型の変化を伴う。2つのこのような遺伝子は、活性化T細胞パネル(上表)中でプロファイリングされた:HLA−DR、主に記憶CD4 T細胞(ナイーブサブセットに対する)上に発現する標準的T細胞活性化マーカー、およびCD38、主にナイーブCD4 T細胞上に発現する別の既知の活性化マーカー3、4。活性化T細胞パネルはCD45RAまたはCD45ROを含まないが、以前の調査結果は別の調査(データは示さず)由来の、αCD3、αCD4、αCD45RA、αHLA−DRおよびαCD38を含むパネルを使ってPBMCがプロファイリングされたデータを解析することにより確認された。6人の健康な対象中のCD3+CD4+細胞の内で、合計HLA−DR+細胞と、HLA−DR+CD45RA−(活性化記憶)細胞との間の強い相関が確認された(R=0.97、P=0.001;RMSE=0.7%)。逆に、合計HLA−DR−CD38+数は、HLA−DR−CD38+CD45RA+(ナイーブ)細胞と有意に相関し(R=0.87;P=0.001;RMSE=11.9%)、CD3+CD4+HLA−DR+表現型が健康な成人PBMC中の活性化記憶CD4 T細胞の妥当な代用物質であることを示唆する。したがって、この調査で、フローサイトメトリーデータを活性化と、非活性化記憶CD4サブセット(LM22由来の)とを比較するために、CD3+CD4+HLA−DR+細胞数を使って、活性化記憶CD4 T細胞のレベルを推定し、合計記憶CD4 T細胞(CD3+CD4+CD45RA−)からこれらの値を減算して非活性化記憶CD4 T細胞を推定した。
最終的に、図3b(および図13b)で制御性T細胞(Treg)を列挙するために、6人の健康な成人男性から静脈穿刺によりK2EDTAバキュテイナー(BD Biosciences)中に末梢血を取得し、直ちに処理した。全血をPBSで2倍に希釈し、Ficoll−Paque Plus(GE Healthcare)を使って単核細胞(PBMC)を単離した。PBMCをPBSで2回洗浄し、1個体当たり1x10細胞を、生存可能なように保存した、図6cの患者4から取得したPBMC由来の1x10と共に、αCD3、およびαCD4で染色した(上表参照)。細胞をPBS中で洗浄し、Fix/Perm Buffer(eBiosciences)中に再懸濁し、氷上で20分間インキュベートした。細胞をPerm/Wash Buffer(eBiosciences)で2回洗浄し、αFOXP3で染色した。細胞をPerm/Wash Buffer中で洗浄し、LSRFortessaフローサイトメーター(BD Biosciences)を使ってデータを収集した。TregをCD3+CD4+FOXP3+非ダブレット細胞として確定し、全無処理PBMCの比率として列挙した。
遺伝子発現プロファイリング
AllPrep DNA/RNA Miniキット(Qiagen)を使って、扁桃腺供試体(図5b)およびPBMC(図6cの患者1〜3)から核酸を抽出した。FL供試体(図2i、図3c)については、合計RNAおよびゲノムDNAを調製し、トリゾールおよびRNeasy Midi Kit(Qiagen,Valencia,CA)を使って貯蔵した。これらの患者のサブセットの品質管理評価後、80%のFL供試体に対し、十分な核酸が確認された。マイクロアレイハイブリダイゼーションの前に、FL試料由来の合計RNAを線形増幅した(3’IVT Express,Affymetrix)。全ての上記試料に対し、全ての細胞RNA(少なくとも300ng)を、収率(NanoDrop 2000,Thermo Scientific)および品質(2100 Bioanalyzer,Agilent)に関し評価し、製造業者のプロトコルに従って、cRNAをHGU133 Plus 2.0マイクロアレイ(Affymetrix)でハイブリッド形成した。
この調査では、2つの追加のPBMCコホートを解析した(図3a、b)。第1のコホート(n=20人の対象;図3a)に関しては、PBMC(約1x10生存細胞/mL)を1mLのトリゾール(Invitrogen)中に採取し、使用するまで−80℃で貯蔵した。トリゾールプロトコル(Invitrogen)に従って、全てのRNAを単離した。合計RNA収率をThermo ScientificのNanoDrop 1000微小容積分光光度計を使って評価した(260nmの吸光度ならびに260/280および260/230の比率)。Bioanalyzer NANOチップ上のラボ装置(Agilent)を使って、RNAの健全性を評価した。ビオチン化した増幅アンチセンス相補RNA(cRNA)標的を、IlluminaRNA増幅キット(Applied Biosystems/Ambion)を使って、200〜250ngの全RNAから調製し、750ngの標識cRNAをHuman HT−12 V4 BeadChipアレイ(Illumina)で一晩ハイブリッド形成した。その後、アレイを洗浄、ブロッキング、染色し、製造業者のプロトコルに従い、Illumina BeadStation 500で走査した。BeadStudio/GenomeStudioソフトウェアバージョン1.9.0(Illumina)を使って、走査からシグナル強度値を生成した。第2のコホート(図3b)に関しては、6人の健康な男性成人からのPBMC(1.4x10〜4.0x10細胞/mL)を単離し、フローサイトメトリーの方法の項で記載のように調製し、使用するまで−80℃で凍結した。合計細胞RNA(≧300ng)を、RNeasy Mini Kit(Qiagen)を使ってこれら6人の対象から単離し、患者4(図6c)由来の生存可能に保存したPBMCと合わせて、収率(NanoDrop 2000,Thermo Scientific)、および品質(2100 Bioanalyzer,Agilent)に関し評価した。合計RNAを線形増幅し(3’IVT Express,Affymetrix)、製造業者のプロトコルに従って、cRNAをHGU133Aマイクロアレイ(Affymetrix)でハイブリッド形成した。
CIBERSORT:方法
試料中の相対的RNA転写物の推定(CIBERSORT)による細胞型特定のための新規手法が提案される。この戦略は、その他の手法より性能が優れている機械学習法であるニューサポートベクター回帰(ν−SVR)のベンチマーキング実験への新規適用に基づくものである(図15、図19)。SVRは、サポートベクターマシン(SVM)、二値分類問題のための最適化方法の一種であり、該方法では、両クラスを最大距離で分離する超平面が見つけ出される。サポートベクターは、超平面境界を規定する入力データのサブセットである。標準的SVMと異なり、SVRは、超平面を入力データポイントに当てはめ、その結果、回帰を実施する(図21)。ε内(εチューブと呼ばれる)の全てのデータポイントが無視され(図21の左パネルの中空円)、一方、εチューブの外側にある全てのデータポイントが線形ε非感受性損失関数に従って評価される。「サポートベクター」と呼ばれるこれらの外れ値データポイント(図21の中実円)は、εチューブの境界を画定し、線形回帰関数を完全に規定するのに十分である。このように、サポートベクターは、回帰に対しスパース解を与えることができ、この場合、過適合は最小化される(特徴選択の一種)。特に、サポートベクターは、本研究では、シグネチャーマトリックスからから選択される遺伝子を表す。
図21は、線形ν−SVRで解析された単純な二次元データセットで、結果が2つのνの値に対し示されている(両パネルは、同じデータポイントを示すことに注意)。方法の項で詳細説明されているように、線形SVRは、一定の距離、ε内の可能な限り多くのデータポイント(中空円)が当てはまる(目的関数10が与えられた場合)超平面を特定する(この2次元の例では、この超平面は直線となる)。この「εチューブ」の外側にあるデータポイントは、「サポートベクター」(赤い円)と呼ばれ、線形スラック変数(ξ)により、εチューブからの距離に応じてペナルティーが科される。重要なのは、サポートベクター単独で一次関数を完全に規定するのに十分であり、回帰に対する、過適合の確率を減らすスパース解を与える。ν−SVRでは、νパラメーターは、サポートベクターの下限値および訓練誤差の上限値の両方を決定する。したがって、より高い値のνは、より小さいεチューブおよびより大きな数のサポートベクターを生じる(右パネル)。CIBERSORTの場合は、サポートベクターは、所与の混合物試料の解析用のシグネチャーマトリックスから選択された遺伝子を表し、回帰超平面の方向は、混合物中の推定細胞型の比率を決定する。
SVRの主要な目的は、与えられた制約条件セットである損失関数およびペナルティー関数の両方を最小化することである。前者はデータの当てはめに関する誤差を測定し、後者は、モデル複雑度を判定する。より具体的には、SVRは、次の2つの量を最小化する最適化問題を解く:(1)線形ε非感受性損失関数、この関数は、ノイズの多い試料で使われるその他の一般的損失関数(例えば、LLSRで使われる二乗誤差)より性能が優れている、および(2)Lノルムペナルティ関数(リッジ回帰で使用されるものと同じ)、これはモデル複雑度ペナルティーを科し、同時に、高度に相関する予測因子(例えば、密接に関係した細胞型)に割り付けられた重みの分散を最小化し、それにより、多重共線性の抑制に努める(例えば、図11a〜11d、図3d)。
2つの主要なタイプのSVR、ε−SVRおよびν−SVRについて説明するが、しかし、ν−SVRがCIBERSORTに適用される。理由は、νパラメーターが、好都合にも、訓練誤差εの上限値およびサポートベクターのスパーシティの両方を制御するためである。νの高い値は、より狭いεチューブをもたらし、したがって、より多くのサポートベクターを与える(図21)。CIBERSORTに対して、ν−SVRを線形カーネルを使って適用して、fの解を求め、ν={0.25,0.5,0.75}の3つの値に由来する最良の結果を保存する。ここで、最良は、mと、デコンボリューション結果、fxBの間の最小二乗平均平方根誤差RMSEminとして定義される。現在のCIBERSORTの実装は、Rパッケージの「svm」関数、「e1071」を使ってν−SVRを実行する。回帰係数は、次のRコマンドを用いて抽出される:
coef <− t(model$coefs)%*%model$SV
負のSVR回帰係数は、その後、ゼロに設定され(LLSRの場合のように)、残りの回帰係数が1に合計され、細胞型比率、f(特に、fは、m中のBからそれぞれの細胞型の、絶対ではなく相対比率を意味する)の最終ベクターが得られる。実行時間を減らし、より良好な全体的性能を促進するために、CIBERSORTの実施前に、Bおよびmはそれぞれゼロ平均および単位分散に正規化される。他の線形デコンボリューション法に対して前に示唆したように、非log線形空間での表現値に対し、CIBERSORTは最良に機能する19
まとめると、CIBERSORTにより実装される線形ν−SVRは、(1)線形損失関数およびシグネチャーマトリックスからの遺伝子の特徴選択の両方によるノイズおよび過適合に対する堅牢性、および(2)Lノルムペナルティ関数の使用による多重共線性に対する耐性を含む、遺伝子発現デコンボリューションの主要な未解決の問題に特有な方式で対処する。さらに、CIBERSORTは、全ての遺伝子に対する細胞型特異的発現パターンを必要とせず、その他の方法より多くの細胞型および表現型状態を含むシグネチャーマトリックスの構築を可能とする(図22a〜22e)。
図22a〜22e。(図22a)シグネチャーマトリックス1(SM1)の色分け地図で、細胞型特異的マーカー遺伝子のみを含む。(図22b)シグネチャーマトリックス2(SM2)の色分け地図で、非細胞型特異的マーカー遺伝子のみを含む。(図22c)SM1を使って生成した10個の混合物に対するCIBERSORTおよびDSAデコンボリューション性能。(図22d、22e)SM2を使って生成した10個の混合物に対するデコンボリューション性能。(図22d)CIBERSORTおよびRLR、(図22e)QP、LLSR、およびPERT。詳細は、オンライン方法を参照されたい。線形回帰(点線)およびピアソン相関(R)により、既知の細胞型比率と観察細胞型比率との間の統計的一致を判定した。
P値推定。以前の方法と対照的に、CIBERSORTはまた、モンテカルロサンプリングを使って、デコンボリューションに対する実験的P値を生成する。この手法は、CIBERSORTは、シグネチャーマトリックス(例えば、LM22)中の細胞型が、所与のGEP混合物、m中に存在しない、という帰無仮説の検定を可能とする。この目的のために、mとfxBとの間で計算されるピアソン積率相関Rを、検定統計量として使用したが、その他の距離計量法も使用可能である。実験的P値を導出するために、CIBERSORTは、最初にゼロ分布Rを導出した。シグネチャーマトリックスBは、全トランスクリプトーム、gに比べて、小集団の遺伝子_gのみを含んでいたので、|m|=|m |となるように、mの親GEPから表現値をランダムに取り出してランダム混合物m を生成した。その後、CIBERSORTをm に対し実施し、推定細胞の比率、f のベクターを生成した。CIBERSORTは、ランダム混合物m と再構成混合物、f xBとの間の相関係数R を決定した。このプロセスをI繰り返し回数(この研究ではI=500回)反復し、Rを生成した。
CIBERSORT実行時間
同時に3つのν値(=0.25、0.5および0.75;上記参照)を処理するために、実験的P値を計算後、3スレッドおよび8GBのRAMを備えた2.3GHzのインテルコアi7CPUを使って、LM22を用いて、混合物試料当たり約1.7秒でCIBERSORT実行時間を計測した。後者は、選択された順列の数に依存し、100xで、約170秒、または追加の2.75分かかるであろう。
CIBERSORT実装
CIBERSORTは、それぞれの細胞型に対するシグネチャー発現プロファイルを規定する遺伝子を列挙するシグネチャー遺伝子と共に、異なる細胞型の混合物を表す遺伝子発現データを処理するために、単純なコマンドラインインターフェースを備えたJavaおよびRで開発された。これらのデータが与えられれば、ツールは、混合物中に存在するそれぞれの細胞型の分数表現を生成し、それを色分け地図表および積層された試験バープロットの図式表現として提供するためにウエブサイトに戻す。アプリケーションはまた、基準細胞集団の遺伝子発現プロファイルおよびこれらの集団に対するクラス比較表が提供される場合、カスタムシグネチャー遺伝子ファイルを生成できる。
CIBERSORTのバックエンドウェブサイトはPHPで構築される。インタラクティブユーザーインターフェースは、Twitter Bootstrap 2.3.2により駆動されるウエブサイトのグラフィカルユーザーインターフェースを備えたjQuery JavaScriptライブラリーおよび種々のオープンソースライブラリー(phpMailer、idiorm、blueimp jQuery−File−Upload、DataTables、phpExcelおよびmPDFを含む)により駆動される。サイトは、バーチャルマシン上のApacheサーバー上で動き、MySQLデータベース中にユーザーおよびジョブデータを保存する。注目すべきことに、ユーザーは、それらのデータの完全な制御を行い、自由にそれらを削除できる。
GEPデコンボリューション法
LLSR、QP、RLRおよびDSAは、統計学(lm関数)を使ったR、quadprog、MASS(rlm関数、100回の最大繰り返し数)、およびDSAパッケージで、それぞれ実行された。LLSRからの負の係数をゼロに設定し、Abbasらにより使用された手法に近づけ、QPを非負性およびGongら5、16により使用された1に合計する制約条件で実行した。MMADおよびPERTは、作者提供コード6、7を使ってMatlabで実行した(PERTは、Matlab変換ツール(oct2ml)を使ってOctaveから変換した)。注目すべきことに、PERTはその他の発現ベース方法に使用したのと同じシグネチャー遺伝子マトリックスを使って評価された。MMADは、発現ベースデコンボリューションに比べて、この手法により優れた結果が得られたので、マーカー遺伝子のみを使って評価された(Liebnerらの図3C対図2A)。しかし、細胞特異的マーカー遺伝子は、LM22中の全ての細胞型に対しては決定できないと思われ、したがって、MMADおよびDSAは、LM22が適用されるデータセットに対しては実行しなかった。全ての方法を非log線形空間で実行した。
マイクロアレイデータセットおよび前処理
図1b(および図17)のIlluminaまたはAgilentプラットホームでプロファイリングされた試料を、正規化したマトリックスとして公共リポジトリ(NCBI、EBI、文献;図17に文献として引用されている)からダウンロードし、NCBI遺伝子発現オムニバス(GEO)から入手可能なチップセット定義ファイルを使って、プローブをHUGO遺伝子シンボルに変換した。図1cからのヒトトランスクリプトームデータを、RMA正規化したアレイ(E−MTAB−62、EBI ArrayExpress)としてダウンロードした。全てのその他のAffymetrixアレイ(図1bで解析したもの、およびこの研究で生成したものを含む)を、CELファイルとして取得し、バイオコンダクター中のaffyパッケージを使用してMAS5正規化し、カスタムチップ定義ファイル(Brainarrayバージョン16;brainarray.mbni.med.umich.edu/Brainarray/)を使ってNCBI Entrez遺伝子識別子にマッピングして、HUGO遺伝子シンボルに変換した。図3aで解析したIllumina BeadChipアレイを、ネガティブコントロール(neqc関数)を用いてnormexpバックグラウンド補正を使用し、lima v3.20.8(バイオコンダクター)で正規化した。非Affymetrixプラットホームに対しては、1を超える遺伝子にマッピングしたプローブを、全ての試料にわたり最高平均発現を有するプローブに準じて遺伝子レベルで併合した。全てのマイクロアレイ調査を分析の前に分位正規化した。図2hの正常な肺組織に対しては、GEOデータセット、GSE7670およびGSE10072を分析し、図2gのDLBCL腫瘍の対をなす凍結およびFFPE試料に対しては、GSE18377を分析した。
LM22シグネチャーマトリックス
公共ドメインから、HGU133Aプラットホームでプロファイリングされた、22個の白血球サブセット用のGEPデータを取得した(図16)。上記のように、プローブを前処理した。それぞれの集団と全てのその他の集団との間で有意差のある発現遺伝子を、両側性不等分散t検定を使って、特定した。0.3未満のq値(偽陽性比率21)の遺伝子を有意と見なした。
それぞれの白血球サブセットに対し、他の細胞サブセットと比較して、有意な遺伝子を減少方向倍率変化により順序づけ、それぞれの細胞サブセットから最上位のGマーカー遺伝子をシグネチャーマトリックスBGに組み入れた。Gを全サブセットにわたり50〜200繰り返し、最小条件数のシグネチャーマトリックスを保持した(条件数=11.4;G=102;n=547異なる遺伝子)(図16a〜16k)。注目すべきことに、このシグネチャーマトリックスの条件数は、所与の細胞型の関連細胞型および活性化状態内での一致に起因して、その他のもの(下記)よりも大きい。
交絡デコンボリューション結果からの非造血細胞型の遺伝子発現を防ぐために、2つの遺伝子選別戦略を使用した。第1に、HGU133Aに対しプロファイリングされた種々の細胞および組織のオンラインコンペンディア(xavierlab2.mgh.harvard.edu/EnrichmentProfiler/)22であるGene Enrichment Profilerを使って、非造血細胞または組織中の濃縮発現を有する遺伝子を特定した。Gene Enrichment Profilerは、その遺伝と他の試料との全てのペアワイズ比較由来の線形モデル係数の合計を基準にして所与の細胞/組織型中の所与の遺伝子に対する濃縮スコア(ES)を計算する。ES>0を有するそれぞれの遺伝子および細胞/組織型に対し、Gene Enrichment Profilerデータベース中の非造血細胞/組織試料の比率が決定され、非造血比率が>0.05のシグネチャーマトリックス由来の遺伝子が排除された。第2の選別ステップでは、さらなる分析からの、Cancer Cell Line Encyclopedia(CCLE)でプロファイリングされた全ての非造血癌細胞株中の、平均log発現レベルが≧7の全ての遺伝子が取り除かれた(事前正規化遺伝子発現データを、Broad InstituteからダウンロードしたCCLE_Expression_Entrez_2012−09−29.txtから抽出した)。このシグネチャーマトリックスを「LM22」と名付けた。
LM22中のそれぞれの白血球サブセットを識別するのに使用される遺伝子シグネチャーを検証するために、シグネチャーマトリックス中にも存在するそれぞれ1つの精製された集団を含む、種々の外部データセットにCIBERSORTを適用した。Affym etrix HGU133AおよびHGU133 Plus 2.0、ならびにIllu mina Human−6 v2 Expression BeadChipの3種のマイクロアレイプラットホーム由来のGEPを試験した。Affymetrixプラットホームを正規化し、シグネチャーマトリックスGEPに対し記載のものと同様に処理した。BeadChipデータセットを、処理された正規化マトリックスとして、ArrayE xpress(E−TABM−633)からダウンロードし、1を超えるプローブにマッピングされた遺伝子に対しては、全ての試料にわたり最大発現に関連するプローブをさらに分析した。各サンプルに対し、最大CIBERSORT推定比率を有する集団を、既知の細胞型と比較し、CIBERSORTの精度を評価した(図17)。
図1cで示した分析では、アレイが1,801個の一次ヒト供試体に分類され、これらは、LM22中の少なくとも1個の成熟造血サブセットを含む1,425個の「陽性」試料ならびに不完全に分化した非造血供試体、正常脳組織(典型的にはミクログリアを含むが、通常はLM22中の細胞型を含まない)、ならびに造血幹細胞および前駆細胞(LM22中にはない)を含む376個の「陰性」試料からなる。アレイは、別に1,260個の形質転換細胞株似分類され、118個の「陽性」造血試料および1,142個の「陰性」試料に分けられる。後者は、非造血試料およびK562骨髄赤芽球性細胞株(起源は造血細胞であるが、LM22中のサブセットとは大きく異なっている)の両方からなる。うまく解釈できないアレイは、この分析から除外した。CIBERSORTをその他の方法との比較における有意性選別は適用されなかったが、図2fのバルク腫瘍のデコンボリューションに対して、P値カットオフ(≦0.005;図1c参照)が課された。
その他のシグネチャーマトリックス
LM22(上記)に加えて、図6a、6bに示すヒト造血細胞株および神経細胞集団の混合物に対し、カスタムシグネチャーマトリックスを設計した。両方の場合において、事前正規化した一連のマトリックスデータセット(GSE11103およびGSE19380)をGEOからダウンロードし、分位正規化した。その後、LM22(上記)に対し記載のものと同じ条件数極小化アルゴリズムを使い、非造血遺伝子選別および検証ステップを除いて、シグネチャーマトリックスを構築した。GSE11103およびGSE19380に対する最終のシグネチャーマトリックスを、それぞれ584プローブセット(条件数=1.86)、および280プローブセット(条件数=1.8)から構成した。CIBERSORT性能をマーカー遺伝子ベースの方法(図19におけるような)と比較するために、それぞれのシグネチャーマトリックスからのマーカー遺伝子を、1つの細胞型で、その他に比べて少なくとも5倍高い発現を有する全ての遺伝子を選択することにより決定した(文献7におけるように)。
統計分析
既知と予測細胞型比率の間の一致を、ほとんどの場合、ピアソン相関係数(R)および二乗平均平方根誤差(RMSE)を使って、それぞれ直線当てはめおよび推定バイアスを測定することにより決定した。重要なのは、後者が百分率として表される細胞型比率に基づいて計算されたことである。必要に応じて、対応のあるまたは対応のない、両側性ウィルコクソン符号付順位検定を使って、群比較を決定した。P<0.05の全ての結果を有意と見なした。統計解析は、R、GraphPad Prism v6.0d、またはカスタマイズコードを使って実施した。
付加ノイズを含む模擬腫瘍の分析
6種のGEPデコンボリューション法(RLRおよびその他の5種4−8)に対するCIBERSORTのベンチマークを、異なるレベルの未知の含量(すなわち、腫瘍)およびノイズを有する混合物に対するそれらの結果を比較することにより行った。適正な比較を容易にするために、あらかじめ定めたインビトロ混合物(n=12)の4種の血液細胞株(GSE11103)を使用した(図6a)。この細胞株のそれぞれは、相互に大きく異なり、容易にデコンボリューションされるものである。発現ベースの方法を評価するために、約600個の特徴的な遺伝子(上記し、図6aで適用したもの)を含むシグネチャーマトリックスを使用し、一方、マーカーベースデコンボリューションには、上述のマーカー遺伝子(n=500遺伝子)を選択した。浸潤白血球を有する腫瘍を模擬するために、我々は、結腸癌細胞株(HCT116)由来の所定の入力のGEPとの細胞株混合物と混合し、2つの複写物アレイの平均(GSM269529およびGSM269530;GSE10650)として計算した。GSE11003およびGSE10650データセットの両方ともMAS5であり、分析の前に一緒に分位正規化した。ノイズを導入するために、次の分布、2^N(0,fxσ)(式中、fは0〜1の範囲(すなわち、図2aおよび図7aのy軸)で、σは、log2空間で表される元の混合物の全体標準偏差(=11.6))からランダムにサンプリングした値を加えた。GSE11103は、それぞれ3つの複写物を有する4種の異なる混合物からなるので、それぞれのアルゴリズムの性能を12種の混合物の全体セットにわたり測定した(RおよびRMSE;図7、図19)。さらに、これは、900セットの混合物が一緒に解析されるように、30個の間隔を規則的に置いて、腫瘍含量(0%〜100%未満)およびノイズ(f、0〜1)の全域にわたり独立に反復された。
細胞型特異的マーカー遺伝子の分析。密接に関係した細胞型の間の見極めが可能でない場合には、細胞型特異的マーカー遺伝子は困難な場合がある。したがって、シグネチャーマトリックス中で1を超える細胞型を発現したマーカー遺伝子が、それでもCIBERSORTに有用であるかどうかを試験した。ただし、シグネチャーマトリックス中のそれぞれの基準プロファイルが特有のままであるという条件が前提である。相対する極端な特性を示す2つの人工シグネチャーマトリックス(10個の遺伝子型および5個の細胞型をそれぞれ含む)を作成した:1つは細胞型特異的遺伝子のみを含み(SM1と呼ぶ;図22a)、もう一方は、細胞型特異的遺伝子を全く含まない(SM2と呼ぶ;図22b)。注目すべきことに、実際の発現データ由来のシグネチャーマトリックスと異なり、SM1およびSM2は、完全に明確にされており、したがって、この解析に理想的に適する。さらに、SM2中の基準プロファイルは、特有のマーカー遺伝子を含まないサブセットに対し予測されるように、高度に相関している。一様分布に従って、ランダム混合比率を生成し、それぞれのシグネチャーマトリックス中の細胞型と組み合わせて10個の混合物を生成した。その後、10個の内の1個に遺伝子をランダムに混合し、得られたベクターの5%を10個の混合物のそれぞれの95%と混合することにより、低レベルノイズを加えた。CIBERSORTおよびDSAをSM1を使って比較し(図22c)、SM2を使って、CIBERSORT、RLR、QP、LLSR、およびPERTを比較した(図22d、22e)。SM1に対して、CIBERSORTは、DSAと同等の性能であったが、SM2に対しては、CIBERSORTは、その他の方法よりかなり高い正確さで、SM1に対するその性能に極めて近かった(図22d、22e)。この解析は、細胞型特異的シグネチャーマトリックス遺伝子に対するCIBERSORTのより小さい依存性を示し、これはディープデコンボリューションに対する重要な要件である。
細胞サブセット検出限界の分析
2つのコンピューター実験を行って、異なるデコンボリューションアルゴリズムの検出限界を評価した。第1の実験(図8)では、上述の同じ細胞株GEPを使って、CIBERSORTおよびRLRをその他の5つのGEPデコンボリューション法4−8と比較した。ジャーカット細胞(スパイクイン濃度:0.5%、1%、2.5%、5%、7.5%および10%)を使い、その基準GEP(GSE11103中の3つの複写物の中央値)をランダムに生成したその他の3つの血液細胞株のバックグラウンド混合物中に加えて、検出限界を評価した。それぞれのスパイクイン濃度に対し5つの混合物を生成した。均一に10%ずつ増やして、0%〜90%のHCT116(上記)を加えることにより模擬した種々の腫瘍含量の存在下で予測ジャーカット比率を評価した。注目すべきことは、記載した同じマーカー/シグネチャー遺伝子も模擬腫瘍(上記)として使用されたことである。第2の実験(図9a)では、CIBERSORTを、QP、LLSR、PERT、およびRLRと比較した。白血球シグネチャーマトリックス由来のナイーブB細胞GEPを、シグネチャーマトリックス中の残りの21個の白血球サブセットの4つのランダムバックグラウンド混合物に添加した。同じバックグラウンド混合物をそれぞれのスパイクインに対しても使用した。所定の比率(0〜90%)のランダムに順序を変えたナイーブB細胞基準トランスクリプトーム(LM22を構築するために使用した試料からの中央値発現プロファイル、図16)由来の表現値を加えることにより、未知の含量の添加も試験した。次に、LM22中の残っているそれぞれの白血球サブセットに対し、この解析を繰り返した(図9b)。
多重共線性の解析
多重共線性(すなわち、シグネチャーマトリックス中の試料間相関の程度)の未知の成分の混合物(すなわち、シグネチャーマトリックス中で解明されていない混合物の部分)、およびBまたはmに加えられたノイズに対する影響に関し、CIBERSORTを3つのシグネチャー遺伝子発現ベースデコンボリューション法、QP、LLSR、およびRLR(この研究)と比較した。元の非ランダムセットの41遺伝子由来のP遺伝子発現値をランダムに選択し、順序を変え、したがって、実際の遺伝子発現分布(n=10集団)を維持することにより、41個のナイーブB細胞シグネチャー遺伝子(GSE2288623由来)からランダムシグネチャーマトリックスを生成した。遺伝子Pの数を使って、シグネチャーマトリックス内の多重共線性を制御し(より高いP=より少ない共線性、逆もまた同じ)、それぞれのPに対し、10個のランダムシグネチャーマトリックスを生成した。シグネチャーマトリックスからランダムに集団を割り当てることにより、模擬混合物を生成した。未知の含量を模擬するために(図11a〜c)、3種の濃度(5%、25%、および50%)の10個の追加の細胞集団をランダムに混合し、各混合物に加えた。2^N(0、j)(指数部は、平均0で標準偏差jの正規分布を意味する)からランダムにサンプリングすることにより、非log線形ノイズを添加により模擬混合物中に導入した(図11d)。試験した全ての条件下で、CIBERSORTはその他の3つの方法より性能が優れていた。
デコンボリューションの一貫性の解析
好適に入手可能なデータセット(GSE29832)にLM22を適用し、所定のレベルの乳房組織と混合した血液に対するデコンボリューション結果の安定性を測定した。乳房組織と混合された血液の報告された比率を確認するために、これらの比率を、トランスクリプトームの中央値発現レベルで除算し、データセット全体の既知の白血球含量(図2e、左)の範囲に正規化したLM22中の全ての遺伝子の中央遺伝子発現値(図16)として、各サンプルに対し決定された正規化LM22免疫指標と比較した。一貫性測定法として、デコンボリューション結果を、最高の免疫純度を有する試料から得た結果を有する各サンプルについて比較した(図2e、右)。
参考文献
1.Hanahan,D.& Weinberg,R.A.Cell 144,646−674(2011).
2.Coussens,L.M.,Zitvogel,L.& Palucka,A.K.Science 339,286−291(2013).
3.Shen−Orr,S.S.& Gaujoux,R.Curr.Opin.Immunol.25,571−578(2013).
4.Abbas,A.R.,Wolslegel,K.,Seshasayee,D.,Modrusan,Z.& Clark,H.F.PLoS One 4,e6098(2009).
5.Gong,T.et al.PLoS One 6,e27156(2011).
6.Qiao,W.et al.PLoS Comput.Biol.8,e1002838(2012).
7.Liebner,D.A.,Huang,K.& Parvin,J.D.Bioinformatics(2013).
8.Zhong,Y.,Wan,Y.−W.,Pang,K.,Chow,L.& Liu,Z.BMC Bioinformatics 14,89(2013).
9.Scholkopf,B.,Smola,A.J.,Williamson,R.C.& Bartlett,P.L.Neural Comput.12,1207−1245(2000).
10.Lukk,M.et al.Nat.Biotechnol.28,322−324(2010).
11.Shen−Orr,S.S.et al.Nat.Methods 7,287−289(2010).
12.Kuhn,A.,Thu,D.,Waldvogel,H.J.,Faull,R.L.M.& Luthi−Carter,R.Nat.Methods 8,945−947(2011).
13.Yoshihara,K.et al.Nat.Commun.4,2612(2013).
14.Cherkassky,V.& Ma,Y.Neural Netw.17,113−126(2004).
15.Farrar,D.E.& Glauber,R.R.Rev.Econ.Stat.49,92−107(1967).
16.Gong,T.& Szustakowski,J.D.Bioinformatics 29,1083−1085(2013).
17.Levy,R.et al.J.Clin.Oncol.32,1797−1803(2014).
18.Lu,P.,Nakorchevskiy,A.& Marcotte,E.M.Proc.Natl.Acad.Sci.U.S.A.100,10370−10375(2003).
19.Zhong,Y.& Liu,Z.Nat.Methods 9,8−9(2012).
20.Drucker,H.,Burges,C.J.C.,Kaufman,L.,Smola,A.& Vapnik,V.Support Vector Regression Machines,Vol.9.(MIT Press,1997).
21.Storey,J.D.& Tibshirani,R.Proc.Natl.Acad.Sci.U.S.A.100,9440−9445(2003).
22.Benita,Y.et al.Blood 115,5376−5384(2010).
23.Abbas,A.R.et al.Genes Immun.6,319−331(2005).
実施例2:25個のヒト癌でCIBERSORTを使って推定された白血球頻度および予後関連性
材料および方法
次の材料および方法を実施例2と3で使用した。
ゲノムプロファイル(PRECOG)集合からの臨床転帰の予測および品質管理。対応する患者転帰データを含む癌遺伝子発現データセットを特定するために、NCBI遺伝子発現オムニバス(GEO)、EBI ArrayExpress、NCI caArray、およびStanford Microarray Databaseに対し、survival(生存)、prognosis(予後)、prognostic(予後の)、またはoutcome(転帰)の用語で検索した。パールスクリプトを実行し、処理および生のデータ、ならびに関連注釈をダウンロードした。NCBI内のデータに対しては、SOFT形式ファイルからアレイプラットホームを特定し、対応する注釈ファイルをGEOから取得した。これらから、SOFT注釈ファイルの内部ヘッダーに基づいて、プローブID、ジェンバンク目録、HUGO遺伝子シンボルおよび遺伝子説明を抽出した。この自動手順がうまくいかない場合は、所望のフィールドをマニュアルで指定した。cDNAマイクロアレイなどの注釈が最近アップデートされた古いプラットホームに対しては、NCBI Entrez遺伝子識別子をからジェンバンクまたはRefseq受入番号を介して、プローブ配列をHUGO遺伝子シンボルに再マッピングした。利用可能な目録がないが、プローブのDNA配列がある場合は、BLATを使ってRefseq基準に対し比較し、特有の最も高いスコアのヒットを探して、マッピングを行った。
GEO SOFT形式ファイルから試料注釈情報を抽出するスクリプトを書き、それらを構文解析して表にした。注釈フィールドの内容は、意味論的に実施されていないので、試料データは、Sample_title、Sample_characteristics、Sample_description、およびSample_sourceを含む種々のフィールド内に収容されている場合がある。さらに、全ての試料に対し、フィールドがすべて指定されているとは限らない。この情報を構文解析して表形式にするために、試料間の共通部分文字列を検索することにより、適切な変数名(列ヘッダー)を推定した。いくつかの事例では、データセットは、生存情報を明確に有していたが、ゲノムデータと共にデポジットされていなかった。このような場合には、含まれていない情報に関し、対応する文献の補足情報を最初に検索した。これに失敗する場合には、対応するおよび第1の筆者に接触し、これらの著者のほぼ半分から要求データの提供を受けた。
臨床的注釈の全ての作表をさらにチェックし、マニュアルで管理した。この手順は、カプランマイヤープロットおよび対応する一次刊行物のものとの時間スケール、ならびに調査全体にわたる予後遺伝子の一貫性の直接比較による選択調査の結果の検証が含まれた。別に、マイクロアレイ正規化の後で、以降で詳細記載のように、注釈の性別と、RPS4Y1のXISTに対する(男性:女性)発現レベルの比を比較することにより、技術的問題またはキュレーション手順による誤差を推定した。さらに、Affymetrixデータに対し、2つ以上のデータセット中に存在する同じ試料をMD5チェックサムを使って、および発現ベクターの相互相関分析により特定し、それに応じて重複試料を削除した。
次の遺伝子発現正規化戦略を適用し、PRECOG内の多様なマイクロアレイプラットホームからのデータの単一化を可能とした。Affymetrix GeneChipデータに対しては、可能な場合は、生のCELファイルを入手し、アレイオリゴヌクレオチドをアップデートし、Entrez遺伝子識別子をマッピングするプローブセット要約のためのカスタムCDF(Chip Definition File)を使って、MAS5アルゴリズム(R2.15.1中のバイオコンダクターv.1.8のaffyパッケージv.1.26)で正規化した(brainarray.mbni.med.umich.edu/Brainarray/)。プラットホームに関係なく、それぞれのデータセットを別々に分位正規化した。さらに、まだlog空間にない場合は、それぞれの遺伝子をlog変換し、その後、所与のデータセット内の試料全体にわたり単位平均/単位分散正規化を行った。代わりのマイクロアレイ正規化方法が提案されている(例えば、RMA、gcRMA、fRMA、SCAN−UPC)が、生存率分析に対しては、上述のように正規化したAffymetrixデータを別の正規化戦略と比べた場合に、有意な利益が観察されなかった。TCGA RNA−seqおよび臨床データをTCGA Data Coordinating CenterからTCGAアセンブラーを使ってダウンロードした。TCGAアセンブラーのProcessRNASeqData関数を使って、遺伝子レベルRNA−seqデータを前処理した。RNA−seqおよび臨床データをTCGAにより提供された患者バーコードを介して整合させた。
それぞれの調査で、アレイプラットホームのそれぞれのプローブの生存転帰との関連付けをCox比例ハザード回帰を用いて、R survivalパッケージ(v.2.37)のcoxph関数を使って評価した。それぞれのアレイプローブに対し、Cox係数、95%信頼区間を有するハザード比、P値およびzスコアを得た。特有の遺伝子毎の発現値を与える、カスタムCDFで処理されなかったデータセットに対しては、プローブに対する生存zスコアを、同じHUGO遺伝子シンボルに一致するzスコアのプローブを平均化することにより、その遺伝子レベルに併合した。それぞれの遺伝子に対し、重みを標本数の平方根に設定した、Liptakの重み付きmeta−z試験を使って、それぞれの悪性病変の全てのデータセットにわたりzスコアを合計した。癌全体にわたる予後的有意性を有する遺伝子を特定するために、および異なる標本数の癌による片寄りを避けるために、重み付きmeta−zスコアを、Stoufferの方法(重み付けなし)を使って、それぞれの遺伝子に対する単一の全体meta−zスコアにさらに統合した。
PRECOGにおけるz統計の検証。肺腺癌を試験症例として使用して、重み付きmeta−zスコア測定法と、標準的zスコアとの間の関係を評価した。後者の方法は、PRECOGにおける肺腺癌調査由来のGEPからなるマージ発現マトリックスから誘導した。この目的のために、少なくとも40個のステージI試料を有するデータセットが選択された。バッチ効果を軽減するために、各データセット中のそれぞれの遺伝子を、ステージI試料全体にわたり単位平均および単位分散を持つように正規化した。試料注釈をマニュアルで点検し、TNM(腫瘍・リンパ節転移・遠隔転移)情報に基づいて、ステージ分類が対がん米国合同委員会(AJCC)バージョン6(2002)に対応していることを確実にした。多くのデータセットがAJCCバージョン7の前の日付であり、その標準に対する注釈に必要な詳細を含んでいなかった。これらの詳細化および標準化は、コホート間にまたがる異なるアレイプラットホームおよび異なる分布の腫瘍ステージを含む異なるデータセットからの試料のマージを可能とした。全体で、1,106人の患者からの肺腺癌GEPを比較し、重み付きmeta−zスコアが、マージzスコアと有意に相関することが明らかになった(SpearmanのR=0.9、P<2.2x10−16)。5AML調査のコンペンディアに対し、メタzとマージz統計とを比較時に、類似の結果が観察され、したがって、meta−z統計の使用が検証された。注目すべきことに、交差調査zスコアを計算する前に、バッチ補正手順がマージ発現データセットに適用されたが、個々の調査由来のzスコアが直接統合されるので、これらのステップは、meta−z測定法では必ずしも必要ではない。このことは、meta−z手法は、データセット全体にわたりバッチ差異を効果的に克服することを示唆している。
個々のデータセット内のバッチ効果の影響を、Combat(Johnson,W.E.,Li,C.& Rabinovic,A.Adjusting batch effects in microarray expression data using empirical Bayes methods.Biostatistics 8,118−127(2007))を使って、さらに評価した。4つのAML調査のマイクロアレイ処理日付に適用した場合、バッチ補正前後のデータが全て高度に相関したため(R≧0.92、P<2.2x10−16)、予後zスコアに対するわずかな効果のみが観察された。異なる調査サイトによりプロファイリングされた試料のバッチ補正がデータ品質を改善するかどうかを試験するために、NCI director’s challenge(NCI所長のチャレンジ)肺腺癌データセット(ca00182)由来のバッチ補正前後の発現データを、PRECOGにおける全ての残りの19肺腺癌調査のプールセット由来の予後meta−zスコアからなる対照データセットと比較した。ほとんどの予後遺伝子に対し、性能上ほとんど差がないことが観察され、変化は、生存転帰との関連がわずかな遺伝子に主に影響を与えるものであった。
PRECOG偽陽性比率。zスコアおよびmeta−zスコアがこの研究で解析されたが、全体重み付けなしmeta−zおよび重み付き癌特異的meta−zスコアに対するQ値を、StoreyおよびTibshirani(Storey,J.D.& Tibshirani,R.Statistical significance for genomewide studies.Proc.Natl.Acad.Sci.U.S.A.100,9440−9445(2003))の偽陽性比率(FDR)法を使って推定した。これらは、全ての解析されたzスコアマトリックスオンライン(precog.stanford.edu)に使用可能である。特に、PRECOGの23,288個のHUGO遺伝子シンボルの内の、4,385個(19%)が、Q<0.05(|meta−z|>2.6)で、有意な全体meta−zを有し、2,986個(13%)が、Q<0.01(|meta−z|>3.22)で有意である。
盲検化および試料選択基準。この研究では、盲検化は使用しなかった。重複および非診断(再燃)試料を分析から除外した。
バルク腫瘍GEP中のTALレベルの推定。PRECOG内でプロファイリングされた試料は、主にバルク診断治療前腫瘍供試体を表し、多くの場合、多様なTALを含む種々の細胞型を含む。PRECOG全体にわたる診断上好ましいリンパ球マーカーの濃縮を考慮すれば、PRECOG中のバルク腫瘍GEPを系統的に「分離させる」またはデコンボリューションする方法は、腫瘍免疫生物学への新しい洞察を明らかにし得る。ベンチマーキング実験で他の手法より性能が優れている機械学習法であるRNA転写物の相対的サブセットを推定することによる細胞型特定のための新しい手法(CIBERSORT)を最近開発した。CIBERSORTは、モンテカルロサンプリングを使って、デコンボリューションに対する実験的P値を生成する。他の線形デコンボリューション法と同様に、非log線形空間での表現値に対し、CIBERSORTのみが機能する。
TAL不均一性および予後関連性。CIBERSORTを、Affymetrix HGU133プラットホーム(57調査、25種の癌)由来の全ての正規化PRECOG GEPに適用した。全体で、5,782個の腫瘍GEPがうまくデコンボリューションされた(CIBERSORT P<0.005)。それぞれのデータセットに対し、それぞれの白血球サブセットの推定mRNA比率を、1変量Cox回帰を使って、生存率に関連付けした。免疫中心バージョンのPRECOG(iPRECOG、図26a)を構築するために、PRECOGに対して記載したのと同じ手法を使って、重み付きmeta−zスコアを決定し、また、重み付けなしの全体meta−zスコアを使って、pan−cancer白血球関連性を図23cにまとめた。
免疫PRECOG偽陽性比率。統計的結論を導く場合、標準的正規分布からのすべての偏差を考慮する必要があるので、推定された白血球予後関連性における確率的変動から実際の変動を区別するために、免疫PRECOGでP値およびmeta−zスコアを最初に比較した(図26b)。(1)それぞれのデータセットに対し推定された細胞型比率を混ぜ合わせること、および(2)zスコアおよび対応するmeta−zスコアを計算して、全生存率に対する関係を把握することにより、1000個のゼロmeta−zマトリックスを生成した。ゼロmeta−zスコアの分布と、標準正規分布との間の密接な対応関係が認められた(図26b)。meta−zスコアの正規性を検証したので、次に、一連の統計的有意性閾値を使って、およびそれぞれのカットオフ値で、図26aを選別し、全ての白血球予後関連性に関する観察比率と予測比率を比較した(図26c)。0.05(|z|>1.96)の両側性P値閾値で、偶然による予測よりほぼ3倍高い予後関連性が認められた;P<0.01で、5倍の濃縮があり、これは、より小さいP値カットオフで増加し続けた(図26c)。
別に、図23cで、全体meta−zスコアに対して、類似の分析を実施した。ここで、図26c由来のゼロmeta−zスコアをゼロ全体meta−zスコアに統合し、pan−cancer白血球予後関連性に対し示した解析を再計算した(異なる有意性閾値で保持された白血球サブセットの比率としてプロットした;図26d)。まとめると、これらの結果は、異なる統計的カットオフでの白血球予後関連性の有意な変動対確率的変動を明示的に定量化し、所望の偽陽性比率を達成するように他者による名目上の統計的閾値の調整を可能にする。
相対的PMNレベル対壊死組織含量。CIBERSORTにより推定されたPMNの相対的RNA比率は、肺扁平上皮細胞癌中の注釈された壊死含量(TCGA;R=0.01;P=NS)または黒色腫(マイクロアレイデータセットGSE840176;R=ほぼ0;P=NS)と相関しなかった。
フローサイトメトリー対CIBERSORT。非小細胞肺癌腫瘍(n=13)供試体のフローサイトメトリー分析を後述のように実施し、CD4、CD8、CD19、CD56、およびCD14集団の中央値比率を全体CD45含量により正規化した(図23a)。CIBERSORTとの比較のために、白血球シグネチャーマトリックス集団を同じ表面抗原分類カテゴリ:CD14、単球、マクロファージ、および樹状細胞;CD4、CD8およびγδT細胞を除く全ての細胞サブセット;CD8、CD8 T細胞;CD19、ナイーブおよび記憶B細胞、CD56、非活性化および活性化NK細胞、に分類した。図23aに示す肺腺癌GEPの中央値CIBERSORT推定比率を、2つの公共の利用可能なマイクロアレイデータセット、GSE767077およびGSE1007278、から決定した。
患者試料。この調査の全態様は、倫理的な研究活動に関するヘルシンキ宣言ガイドラインに従って、スタンフォード大学研究所審査委員会により承認され、全ての関係する患者からは、インフォームドコンセントの提供を受けた。図23aに関しては、新しいヒト肺腫瘍試料をスタンフォード大学組織バンクから取得した。組織マイクロアレイ分析(図24c,24e、27c〜27h)に対しては、患者試料をStanford Department of Pathologyの外科的病理学アーカイブから取得し、Cancer Center Database and STRIDE Databaseツールを使って、Stanfordから臨床データベースに接続した。
ヒト肺解離およびフローサイトメトリー。新しいヒト肺腫瘍試料を小片に切断し、45分間のコラゲナーゼI(STEMCELL Technologies)消化により、単細胞懸濁液に解離させた。解離した単細胞を1x10/mLの濃度で染色緩衝液(2%の加熱不活性化仔ウシ血清を含むHBSS)中に懸濁させた。10μg/μlのラットIgGで10分間のブロッキング後、下記にリストした抗体を使って少なくとも10分間染色した。洗浄後、染色細胞を、1μg/mlのDAPIを含む染色緩衝液中に再懸濁して分析し、FACS Aria IIセルソーター(BD Biosciences)で選別した。図23aに関連した実験で使用した抗体:CD45−A700、CD14−PE、CD8−APC、CD4−FITC、CD56−PE−cy7、およびCD19−PerCP−cy5.5。形質細胞の列挙に使用した抗体:CD45−PE−cy7、CD20−PerCP−cy5.5、CD138−PE、CD38−APC、CD19−A700、およびCD27−FITC。全ての抗体をBioLegendから取得した。
組織マイクロアレイ(TMA)コホート。コホートに含めるために、1995年〜2010年6月の肺癌患者を再調査し、外科処置疾患の患者およびパラフィン包埋試料を有する患者を特定した。再発性または転移性の疾患試料を有する患者のみを除外した。医用チャートを精査し、腫瘍供試体に、人口統計学的、手術手技、画像処理データ、および追跡調査に関し、臨床的に注釈を加えた。病理学的レポートを再調査して、試験片タイプ、部位、病理学、ステージ、組織学、浸潤状態および手術手技について確認した。処置試料(ネオアジュバント療法)を除外し、追跡調査データを有する187個の前処理した肺腺癌腫瘍供試体の最終分析コホートを得た。
TMAコホート追跡調査。再発は画像処理または生検材料により決定され、進行疾患を有する患者または少なくとも6ヶ月の追跡調査のなかった患者のさらなる分析を打ち切った。2010年10月30日までの国民死亡記録(NDI)を使用して生命状態を決定した。NDIは、生命状態評価を社会保障番号に依存していることから、死亡に至らなかった患者は、国を出たまたは他の国から来た患者(打ち切られなかった患者)を除いて、生存していると見なした。経時的に切除された同時期性腫瘍は、2つの原発性腫瘍を有する患者の予後評価に好適する。
TMA構築。有資格病理学者により再調査された複製スライドから有効な腫瘍を含む外科的供試体からStanford Lung Cancer TMAを開発した。病理学者は、試料の素性に盲検とはしなかった。最大の腫瘍含量の領域をスライドに対応するコアリング部としてマークした。2mmのコアを使って、組織マイクロアレイを構築した。これらのコアを組織学およびステージにより整列し、ネガティブコントロールをWest Labより入手し、正常な非肺組織(12コア)、異常非肺組織(13コア)、胎盤マーカー(23コア)および正常肺(17コア)を含む種々の無害および悪性組織(65コア)を含めた。正常肺は、隣接する試験片から構成されたが、1995年〜2010年にわたる異なる試験片も含め、年による染色の変動性を評価した。完成アレイに対し、目的のIHC分析の前に、OligoDT分析を実施して、選択したコアの設計および組織含量の妥当性を評価した。一緒に登録したヘマトキシリンおよびエオシン(H&E)スライドを同様に使用して、初期検査で位置が明確でない症例の腫瘍位置を検証した。
TMA免疫組織化学。MPO(DAKO)およびCD20(クローンL26、DAKO)免疫組織化学を、Ventana BenchMark XT自動化免疫染色法プラットホーム(Ventana Medical Systems/Roche,Tucson,AZ)を使って、4mm切片で実施した。
TMA RNAインサイツハイブリダイゼーション。プライマー5’−CTG TTG TGT GCC TGC TGA AT−3’(配列番号1)およびT7プロモータータグプライマー5’−CTA ATA CGA CTC ACT ATA GGG TTA AAG CCA AGG AGG AGG AG−3’(配列番号2)を使って、IGKC用のRNAインサイツハイブリダイゼーションプローブをchr2:88,937,790−88,938,290(hg18)に対し設計した。TA369に対し、前述の通り、RNAインサイツハイブリダイゼーションを実施した。
TMA顕微鏡観察。Ariol画像解析システム(元は、Applied Imagingで構築された)を使って、全てのスライドを20xで走査した。
TMA染色定量化および解析。TMA染色パターンの定量化における一貫性および再現性を促進するために、監視型のコンピューターによる画像切り出しシステムであるGemIdentの性能を評価した。最初の練習として、GemIdentを単一肺腺癌試験片を用いて、IGKC染色および非組織バックグラウンド(余白部分)の両方を認識する訓練を行った。次に、GemIdentを10個のTMA供試体に適用し、IGKC位置および非組織バックグラウンド(すなわち、「空所」)の両方の別々の画像マスクを生成した。カスタムパールスクリプトを使って、各イメージマスクを処理し、それぞれの試験片のIGKCの染色領域を定量化した(最初に非組織余白部分を除去し、それぞれの組織の表面積を計算した)。この手法の有用性を試験するために、有資格病理学者(RBW)が10個の同じ供試体に対し、IGKCをスコア化した。病理学者は、自動染色から得られた知識は持たず、試料の素性に対し盲検とはしなかった。両方の評価は高度に相関していた(R=0.98;図28c)。別の練習では、2人の独立した操作者が異なるCD20染色した供試体に対し、GemIdentを訓練した。次に、CD20染色比率を全TMA(n=187個の肺腺癌)にわたり定量化し、結果を上述のように処理した。独立した操作者間の一致は極めて高かった(R=ほぼ1;図28d)。これらのデータは、TMA供試体の自動スコアリングのための画像後処理と組み合わせたGemIdentの有用性を裏付ける。この手法を適用して、全ての肺腺癌TMA供試体のIGKC、CD20、およびMPOを定量的にスコア化した(例えば、図28a参照)。
TALと循環白血球との間の比較。利用可能な手術前後の循環白血球(リンパ球およびPMN)数を有する患者の中で、処置日(DOP)に最も近い、−120日〜+28日に処置した試料を解析した。この際、術前試料(合計n=48人の肺腺癌患者)を優先した。循環白血球(CL)レベルとTMA上で定量化されたTALとの間で、関係性は認められなかった。さらに、MPOのIGKCレベルに対する比率は、この患者サブセット内では、有意に予後性が存続した(P=0.02)が、CLレベルは、生存率に対し有意な関係性がなかった。
結果
バルク腫瘍中の白血球組成
CD8およびCD45RO記憶Tリンパ球などの特定の白血球細胞サブセットによる腫瘍の浸潤が、異なる癌における好ましい転帰と大きく関連していたが、制御性T細胞およびマクロファージなどのそのほかのものは、状況に応じて良好な予後または不良予後を与えることができる。系統的で包括的にTALの組成差異およびそれらの生存率に対する関係性をマッピングするために、既知のRNA転写物の相対的サブセットの推定による細胞型特定(またはCIBERSORT)のための新規機械学習フレームワークを適用した。CIBERSORTは、複合組織(例えば、バルク腫瘍)の発現プロファイル由来の細胞サブセットの相対比率の統計的推定の点で、ノイズ、未知の混合物含量、および密接に関係した密接に関連した細胞型に対する以前のデコンボリューション法より性能が優れている。入力として、22個の異なる白血球サブセットに対する精製発現プロファイル、および細胞型特異的マーカー遺伝子を必要としないで、これらの細胞型をロバストに識別する所定の「バーコード」の遺伝子発現シグネチャーを使用した。|meta−zスコア|>3.3(両側性P<0.001に相当する)で、同じ有意性閾値の合計2,851個のpan−cancer予後遺伝子の中から28%のこれらのバーコード遺伝子(547個中の152個)が、PRECOG中で個別に有意である。これは、偶然による予測より高かった(P<0.001、カイ二乗検定)。フローサイトメトリーおよび免疫組織化学に対し間接または直接比較に係わらず、CIBERSORTは、固形腫瘍にロバストな性能を示し、結腸直腸癌および肺腺癌(図23a)および濾胞性リンパ腫中の白血球サブセットの相対的比率を正確に推定した。
PRECOGに適用することにより、CIBERSORTは、造血新生物、脳癌、および非脳固形腫瘍の間で相対的白血球組成の顕著な差異を明らかにした(図23b)。TAL含量の変動もまた、固形腫瘍を含む同じ癌タイプの独立した調査間で、一貫性および再現性があった(図25a)。注目すべきことに、PRECOG内でプロファイリングされた大部分の腫瘍は、腫瘍含量の点で未精製、無制御であったが、CIBERSORTは、多発性骨髄腫濃縮供試体中の高比率のプラズマ細胞を正確に推定した(図23b)。さらに、予測通り、B細胞シグネチャーは、B細胞悪性病変中で支配的であることが明らかになり(図23b)、CIBERSORTが多様な癌の起始細胞の識別に対し、汎用性を有することを示唆している。
図23a〜23d:25種のヒト癌における推定白血球頻度および予後関連性。(図23a)CIBERSORT対免疫組織化学(IHC)またはフローサイトメトリー(FACS)による、独立した試料の固形腫瘍中の、列挙された相対的白血球比率。CRC、結腸直腸癌;肺腺癌。CRC生検材料のグラウンドトルース比率に近づけるために、前に報告された107人の患者の腫瘍中心および浸潤周辺部由来の白血球数を平均化することによりレベルを推定した。LUAD生検材料中のベースライン白血球比率をFACSにより列挙した(n=13腫瘍;データは中央値で表される;詳細は方法の項を参照)。CIBERSORT結果は、対応する組織に対する平均白血球比率として表される。(図23b)本明細書で、分かりやすくするために11免疫集団にプールした25種の癌の22個の白血球サブセット(Affymetrixプラットホームのみ、方法の項参照)の推定mRNA比率。(図23c)重み付けなしmeta−zスコアで順位付けした25種の癌の22種の白血球タイプ(n=5.782腫瘍;左)および14種の固形非脳腫瘍(n=3,238;右)に対する全体予後関連性。25%の偽陽性比率(FDR)閾値はそれぞれのプロットに示した。個々の癌に対しては、図26aを参照。(図23d)乳癌と肺腺癌との間のTAL予後関連性における一致および差異(FDRに対しては、図26c参照)。図23c、23dの非活性化および活性化サブセットは、それぞれ「−」および「+」で示されている。
図25a〜25c:癌タイプおよびデータセット全体にわたる推定白血球比率の相関分析。(図25a)白血球組成物ベクター(データセット当たりn=22個のサブセット)に適用した重心階層型クラスタリングの結果を示すデンドログラム。中心相関を距離測定法として使用した。独立の調査からの同じタイプの癌のクラスタリングは、CIBERSORTの相対的免疫浸潤レベルの推定の再現性を示す。(図25b)免疫PRECOGで解析された全57調査にわたるそれぞれの免疫サブセットのKLRB1発現と推定レベルとの間のピアソン相関係数。データは中央値として表される。(図25c)癌の間の白血球予後関連性の相互相関分析。色分け地図で示されるような、免疫PRECOG中の免疫集団のmeta−zスコア間の全ての対のピアソン相関(図26a)。
TALの予後関連性
遺伝子中心生存率分析を補完するために、ヒト悪性病変全体にわたる22個の免疫集団の予後関連性の全体マップを構築した(図26a)。細胞サブセットと癌特異的転帰との間のかなりの変動が観察され、これらの関連性の多くは、統計的に有意である(図26b〜26d)。プールした癌は、有意な全体白血球予後パターンを生じ、この場合、高レベルの推定T細胞比率は、通常、優れた生存率と相関することが明らかになったが、一方、次第にレベルが増加する骨髄集団は、主に、低い生存率と相関した。腫瘍内γδT細胞37、38および多形核(PMN)39、40シグネチャーは、それぞれ、最も有意な好ましいおよび有害な癌全体にわたる予後集団として出現した(図23c、左)。さらに、推定白血球比率が、癌のKLRB1発現と比較される場合、γδT細胞およびCD8 T細胞シグネチャーは、最も高度に相関し(図25b)、この遺伝子の予後的有意性に対する関連を示唆している。壊死の組織含量の注釈(方法の項参照)を有するデータセットで、推定PMNレベル間の関係は認められず、腫瘍内PMNが組織壊死と単純には相関しないことを示唆している。さらに、以前の報告と一致して、腫瘍関連M2マクロファージのシグネチャーは、炎症促進性のM1マクロファージより悪い転帰を予測することが明らかになった。また、抗CD3/抗CD28共刺激されたが、非活性化されていないCD45RO記憶ヘルパーT細胞は、優れた転帰と相関した。
図26a〜26d:22個の白血球サブセットと25種の癌組織との間の予後関連性。(図26a)造血サブセットと生存率との間の関係を示す、メタzスコアマトリックスとして表された色分け地図。赤いセルは、有害転帰を表し、緑のセルは、好ましい転帰を表す。(図26b)白血球予後関連性の偽陽性比率。免疫PRECOG中の細胞型比率の混合により得られたzスコアのゼロ分布(黒色点線)の標準正規分布に対する比較は高い一致性を示す。(図26c)種々のzスコアカットオフでの、図26aの結果の選別により得られた細胞型比率と転帰との間の統計的に有意な関連性の予測対観察比率。それぞれのzスコア値に対し、P値および推定FDRが示される。カットオフの厳密さが高くなるほど、予測に対する観察の有意な関連性の比率が高くなり(P<0.05で3倍、P<0.01で5倍)、免疫PRECOGは、統計的にロバストな関連性を取得することを示す。(図26d)25種の組織または非脳固形腫瘍にわたる個々の癌のmeta−zスコアを混ぜ合わせて得た全体meta−zスコアを適用したこと以外は図26bと同様である(図23cに関連する)。図26b〜26dの詳細は、方法の項で提供されている。
固形腫瘍中の予後TAL
PRECOG中で最も高度にプロファイリングされた癌の内の2種である、乳癌および肺癌中の白血球生存シグネチャーを比較することにより、意外にも生存率に対し強力かつ相互的関係がある、2つの集団、PMNおよびプラズマ細胞(PC)を特定した(図23d)。PCシグネチャーは、ヒト癌間の相互相関分析で全体的に評価した場合(図25c)、固形腫瘍全体にわたる好ましい生存率の有意な予測因子であり(図23c、右)、PMNに対し最も高く逆相関した予後集団であった(図24a)。推定PCレベルは、腫瘍ステージとは相関しなかった(図27a)。PCシグネチャーは、隣接する正常組織より腫瘍中で高いことが明らかになった(図27b)ので、腫瘍浸潤PCの予後値は、全体の免疫学的な健康の代用となりそうもなく、クローン増殖および急性液性免疫応答に必要な抗原駆動プロセスに対する役割を裏付けている。さらに、PCレベルに対する推定PMNの単比は、多様な固形腫瘍において有意に予後的であることが明らかになった(図24b)。
図24:プラズマ細胞に対する浸潤PMNの比率は、多様な固形腫瘍において予後的である。(図24a)推定されたPMNとプラズマ細胞(PC)頻度との間の予後関連性は、癌景観図全体で有意に逆相関する(ピアソンR=−0.46、P=0.02)。各点は、個別の癌を表す:三角、血液癌;四角、脳癌;円、残りの癌。(図24b)meta−zスコアは、多様な固形腫瘍に対するPMNおよびPCレベルのレシオメトリックインデックスへの合算の予後的有意性を示す。(図24c)TMA用の代用マーカーとしてIGKC、CD20、およびMPOを使った、肺腺癌中の、それぞれ、PC、B細胞、およびPMN頻度に対する、CIBERSORTと組織マイクロアレイ分析との比較(n=187供試体)。公的に入手可能なデータセット(GSE7670およびGSE10072)由来の肺腺癌アレイを、CIBERSORTで解析した(n=85個の腫瘍)。(図24d、e)カプランマイヤープロットは、(図24d)肺腺癌マイクロアレイ調査で推定されたPC比率に対するPMNの中央値レベルで層別化した患者(P=0.0005,log順位検定;n=453高および453低患者)を示し、また、(図24e)肺腺癌組織切片で陽性染色されたMPO/IGKCの中央値レベルを示す(P=0.028,log順位検定;n=94高および93低患者)。図24dに対しては、ハザード比は1.5(1.2〜1.9、95%CI)、図24eに対しては、1.7(1.1〜2.6、95%CI)であった。PCレベルに対する推定PMNもまた、1変量Cox回帰により評価した連続モデルで、有意に予後的であった(図24dで、P=0.003、Z=2.98;図24eでP=0.0005、Z=3.46)。cのデータは平均値±s.e.m.で表される。図24dおよび図24eで、全ての患者は5年後に完全に打ち切った。
図27a〜27h:非小細胞肺癌中および隣接する正常組織のプラズマ細胞レベル。(図27a)CIBERSORTにより予測されたプラズマ細胞の相対的RNA比率は、肺腺癌ステージと無関係である。(図27b)CIBERSORTにより予測された、22個の白血球サブセットの相対的比率を、肺腺癌腫瘍および隣接する正常な供試体の両方を含む2つの独立したマイクロアレイデータセット(GSE7670およびGSE10072)の間で比較した。(図27c、27d)肺腺癌組織供試体の代表的H&E染色。(図27c)プラズマ細胞および(図27d)好中球に形態学的に類似している細胞を示す(矢印で示す)染色肺腺癌腫瘍切片。(図27e〜27h)肺癌中の形質細胞のフローサイトメトリー分析および形態学的評価。(図27e)CD38high/CD45high/CD138low/CD27/CD19/CD20細胞の肺腺癌腫瘍からの濃縮のためのゲーティング戦略。形質細胞に対し予測したように、前方および側方散乱により、CD38high/CD45high/CD138low/CD27/CD19/CD20細胞は、CD38/CD45high/CD138/CD27/CD19/CD20細胞(B細胞)より大きい。(図27f)図27eに記載のゲーティング戦略を使って、形質細胞を新しい肺腺癌腫瘍から選別し、サイトスピンを使って顕微鏡用に単離した。形質細胞の形態学的特徴を有する代表的細胞を示す(100x オイル対物レンズ)。正常な隣接組織に比べて、肺扁平上皮細胞癌(図27g)および肺腺癌(図27h)中で形質細胞のかなりの増加を示す代表的フローサイトメトリー結果。
PMNおよびPCシグネチャーの相互生存関係を実験的に評価するために、組織マイクロアレイ(TMA)分析を使って、187肺腺癌のそれらへの浸潤を評価した。両細胞型の特徴を組織切片のH&E染色により観察し(図27c、27d)、フローサイトメトリー(図27e)および形態学的評価(図27f)の両方を使って、新しい腫瘍供試体中の腫瘍浸潤形質細胞(すなわち、形質芽細胞またはプラズマ細胞)の存在を確認した。さらに、我々は、正常な隣接する組織と比較して、非小細胞肺癌(NSCLC)腫瘍中の形質細胞の高められた存在を確認した(図27g、27h)。連続的肺腺癌組織切片で、我々は、PMNおよびPCのマーカーである、それぞれ、MPO(ミエロペルオキシダーゼ)およびIGKC(免疫グロブリンカッパ定常領域)の存在を調べるために染色した(図28a)。B細胞は種々レベルのIGKCを発現するので、我々は、成熟B細胞の表面マーカーである(PCの表面マーカーではない)CD20についても試験した(図27e)。我々は、10%未満のCD20との重複部分を見出し、IGKCのPCに対する高い特異性を示した(図28b;方法の項参照)。次に、我々は、組織アレイ中のそれぞれのマーカーの染色面積を定量した(方法の項参照;図28c、28d)。異なったスケールでの操作および独立した腫瘍供試体での測定の間、TMAに対しインサイツで測定したこれらの3つのマーカーの比率レベルは、CIBERSORTにより推定された相対的浸潤レベルと同等であった(図24c)。さらに、PRECOGにおける測定(図24d)、ヘルドアウトマイクロアレイ検証データセットにおける測定(図28e)、または組織マイクロアレイ供試体中の代用マーカーによる測定(図24e)のいずれであっても、我々は、連続的およびバイナリモデルの両方で、肺腺癌における、低生存率と、PCレベルに対するPMNのより高い比率との間の強い関係性を見だした。さらに、TMA結果は、妥当な臨床的パラメーターを組み込んだ多変量モデルにおいて、有意なままで存続した。合わせて、これらのデータは、計算処理手法を妥当と認め、腫瘍関連PMNおよびPCが、全生存率とは逆の関連性を示すことを実証している。
図8a〜8e:TMAマーカーおよび染色定量化の評価、およびヘルドアウト発現データセットにおける推定されたPMN/PCレベルの予後的有意性。(図28a)IGKC標的化RNAインサイツプローブ、またはCD20またはMPO標的化抗体により染色された代表的肺腺癌組織切片。上段:IGKCおよびCD20が高染色で、MPOが低染色の連続切片。下段:MPOが高染色で、IGKC/CD20が低染色である連続切片。GemIdent画像解析ソフトウェアおよび後処理(方法の項参照)により染色を定量化した。(図28b)隣接する肺腺癌組織切片中のIGKCとCD20染色との間の空間重複部分のヒストグラム(約4.8%の中央値重複部分)。(図28c)10個のランダム選択肺腺癌供試体の病理学者によるIGKC染色評価(R.W.)と、GemIdent(方法の項参照)による染色評価との間の一致。(図28d)GemIdentは、2人の操作者によりCD20染色を識別するように訓練され、その後、全ての肺腺癌供試体の結果をプロットした。(図28e)ヘルドアウト肺腺癌データセットにおけるPCに対するPMNの比率の生存率分析。CIBERSORTにより推定された形質細胞および好中球比率を使って、PRECOG中には含まれていない3種の肺癌データセット中のそれらの比率を計算した。患者は、各データセット中のPMN:PC比率の中央値に基づいて、高または低群に層別化された。これにより、3つのコホートを十分なサンプルサイズの1つの生存率分析用合算データセットにマージ可能となる。95%信頼区間を有するハザード比(HR)は、Cox回帰のP値と一緒に示されている(log順位検定)。
PMNおよびBリンパ球を含む循環白血球は、腫瘍微小環境に寄与し、末梢血中の自然および獲得エフェクターの白血球頻度は、予後値を有し得る。したがって、TMA由来のNSCLC患者のサブセットを、利用可能な手術前後の全血球計算値を使って検査し、循環白血球とTALのレベル間の一致を評価した。腫瘍内PC対PMN比は、このサブセット内で有意に予後的であるままで残されたが、循環および浸潤区画の間の有意な相関は認められず、また、循環白血球レベルに由来する予後値も認められなかった。
本開示は、特定の実地形態に言及して記載されてきたが、本開示の真の趣旨と範囲から逸脱することなく、様々な変更を行うことができ、また、等価物と置き換えることができることは、当業者により理解されよう。さらに、特定の状況、材料、物質の組成、プロセス、単一または複数プロセスのステップを本開示の目的、趣旨および範囲に適合させるように多くの変更を行うことが可能である。こうした改変は全て、本明細書に添付される特許請求の範囲に含まれることが意図されている。

Claims (54)

  1. 試料の特徴プロファイルのデコンボリューション方法であって、
    i)第1の複数の異なる細胞サブセットを含む物理的試料を得るステップと、
    ii)前記物理的試料から特徴プロファイルmを生成するステップであって、前記特徴プロファイルが前記第1の複数の異なる細胞サブセットに関連する特徴の組合せを含むステップと、
    iii)mと、第2の複数の異なる細胞サブセットに対する特徴シグネチャーの基準マトリックスBとの間の回帰を最適化するステップであって、mがBの一次結合としてモデル化され、前記最適化が、前記回帰の一連の回帰係数を含むfを解くことを含み、前記解くことが、線形損失関数、および、Lノルムペナルティ関数を最小化するステップと、
    iv)前記一連の回帰係数に基づいて、前記物理的試料中の前記第2の複数の異なる細胞サブセットの内の1つまたは複数の異なる細胞サブセットの相対比率を推定するステップと、
    v)前記1つまたは複数の異なる細胞サブセットの前記相対比率の推定のために有意値を決定するステップと、
    を含む方法。
  2. 前記fを解くことが、Bの複数の異なるサブセットの特徴シグネチャーの内のBのサブセットの特徴を選択し、前記線形損失関数を最小化することを含む、請求項1に記載の方法。
  3. 前記線形損失関数が、線形ε−非感受性損失関数である、請求項1または2に記載の方法。
  4. 前記最適化が、サポートベクター回帰(SVR)を使用することを含む、請求項1から3のいずれか1項に記載の方法。
  5. 前記サポートベクター回帰がε−SVRである、請求項4に記載の方法。
  6. 前記サポートベクター回帰がν(ニュー)−SVRである、請求項4に記載の方法。
  7. 異なる値のνを使って、それぞれの異なるνの値に対するfの異なる解を生成するように前記方法を反復することをさらに含む、請求項6に記載の方法。
  8. 前記fの異なる解の内で、
    a)前記特徴プロファイルmと、
    b)fと前記基準マトリックスBの積、
    との間の最小誤差を有する解を特定することをさらに含む、請求項7に記載の方法。
  9. 前記最小誤差が、ピアソンの積率相関係数、スピアマンの順位相関係数、二乗平均平方根誤差(RMSE)、ユークリッド距離、または平均絶対偏差(MAD)を使って得られる、請求項8に記載の方法。
  10. 前記1つまたは複数の異なる細胞サブセットの前記相対比率の推定のために有意値を決定するステップは、
    a)親特徴プロファイルからランダムに選択された特徴を含むランダム特徴プロファイルmを生成するステップであって、前記親特徴プロファイルが前記特徴プロファイルを含み、mおよびmが同じユークリッドノルムを有するステップと、
    b)mと前記基準マトリックスBとの間の回帰を最適化するステップであって、mがBの一次結合としてモデル化され、前記最適化が、前記回帰の一連の回帰係数を含むfを解くことを含み、前記解くことが、線形損失関数、および、Lノルムペナルティ関数、を最小化するステップと、
    c)fと前記基準マトリックスBの積を計算し、再構成特徴プロファイルを生成するステップと、
    d)前記ランダム特徴プロファイルと、前記再構成特徴プロファイルとの間の差異測定値を決定するステップと、
    e)ステップa)〜d)のi回の繰り返しから決定される差異測定値の分布に基づいて前記有意値を決定するステップであって、iが2以上の数であるステップと、
    を含む、請求項1から9のいずれか1項に記載の方法。
  11. 前記差異測定値が、ピアソンの積率相関係数、スピアマンの順位相関係数、二乗平均平方根誤差(RMSE)、ユークリッド距離、または平均絶対偏差(MAD)である、請求項10に記載の方法。
  12. 前記有意値がp値である、請求項10または11に記載の方法。
  13. iが10〜1000である、請求項10から12のいずれか1項に記載の方法。
  14. 前記物理的試料が、物理的試料中に存在する前記第2の複数の異なる細胞サブセットの合計量の10%以下で特徴シグネチャー中に現れる少なくとも1つの異なる細胞サブセットを含む、請求項1から13のいずれか1項に記載の方法。
  15. 特徴シグネチャー中に現れる異なる細胞サブセットが、前記物理的試料中の異なる細胞サブセットの合計量の50%以下で前記物理的試料中に存在する、請求項1から14のいずれか1項に記載の方法。
  16. 前記基準マトリックスBが、前記第2の複数の異なる細胞サブセットの内の2つ以上の異なる細胞サブセットの前記特徴プロファイル中に存在する少なくとも1つの異なる特徴を含む、請求項1から15のいずれか1項に記載の方法。
  17. 前記基準マトリックスBが、Bの特徴の数とは異なる多くの特徴を含む特徴シグネチャーの初期基準マトリックスのサブセットまたはスーパーセットであり、Bの特徴の数が、前記初期基準マトリックスより少ない条件数を与える、請求項1から16のいずれか1項に記載の方法。
  18. 前記第1の複数の異なる細胞サブセットの全ての異なる細胞サブセットに対する、前記物理的試料中に存在する前記第2の複数の異なる細胞サブセット中の全ての異なる細胞サブセットの量を、
    前記第2の複数の異なる細胞サブセットの異なる細胞サブセットに関連する全ての特徴の中央値を、
    前記試料中の全ての特徴の中央値、
    で除算することにより計算することをさらに含む、請求項1から17のいずれか1項に記載の方法。
  19. 前記試料が生物試料である、請求項1から18のいずれか1項に記載の方法。
  20. 前記細胞サブセットが脳細胞サブセットを含む、請求項19に記載の方法。
  21. 前記脳細胞サブセットが、神経細胞、星状膠細胞、乏突起膠細胞、およびミクログリアの内の少なくとも1つのサブセットを含む、請求項20に記載の方法。
  22. 前記細胞サブセットが、間質細胞、幹細胞、神経細胞、および前駆細胞の内の少なくとも1つのサブセットを含む、請求項19から21のいずれか1項に記載の方法。
  23. 前記細胞サブセットが腫瘍細胞サブセットを含む、請求項19から22のいずれか1項に記載の方法。
  24. 前記細胞サブセットが白血球サブセットを含む、請求項19から23のいずれか1項に記載の方法。
  25. 前記細胞サブセットが腫瘍浸潤白血球のサブセットを含む、請求項24に記載の方法。
  26. 前記細胞サブセットがリンパ球のサブセットを含む、請求項24または25に記載の方法。
  27. 前記白血球サブセットが、ナイーブB細胞、記憶B細胞、プラズマ細胞、CD8 T細胞、ナイーブCD4 T細胞、CD4記憶RO不活性T細胞、CD4記憶RO活性化T細胞、濾胞性ヘルパーT細胞、制御性T細胞、ガンマデルタT細胞、非刺激NK細胞、刺激NK細胞、単球、マクロファージM0、マクロファージM1、マクロファージM2、非刺激樹状細胞、刺激樹状細胞、非刺激マスト細胞、刺激マスト細胞、好酸球、および好中球からなる群より選択される2つ以上の細胞型を含む、請求項24から26のいずれか1項に記載の方法。
  28. 前記細胞サブセットが異なる細胞周期段階の細胞のサブセットを含む、請求項19に記載の方法。
  29. 異なる細胞周期段階の前記細胞サブセットが、間期、分裂期または細胞質分裂の内の1つまたは複数の細胞サブセットを含む、請求項28に記載の方法。
  30. 異なる細胞周期段階の前記細胞サブセットが、分裂前期、中期、分裂後期、または分裂終期の内の1つまたは複数の細胞サブセットを含む、請求項28または29に記載の方法。
  31. 異なる細胞周期段階の前記細胞サブセットが、G、G、G、またはS期の内の1つまたは複数の細胞サブセットを含む、請求項28または29に記載の方法。
  32. 前記第1の複数の異なる細胞サブセットが、異なる細胞内シグナル伝達経路、遺伝子調節経路、または代謝経路である、請求項19に記載の方法。
  33. 前記異なる細胞内シグナル伝達経路が、サイトカインシグナル伝達、死因子シグナル伝達、増殖因子シグナル伝達、生存因子シグナル伝達、ホルモンシグナル伝達、Wntシグナル伝達、ヘッジホッグシグナル伝達、Notchシグナル伝達、細胞外マトリックスシグナル伝達、インスリンシグナル伝達、カルシウムシグナル伝達、Gタンパク質共役型受容体シグナル伝達、神経伝達物質シグナル伝達、およびこれらの組み合わせを含む、請求項32に記載の方法。
  34. 前記異なる代謝経路が、解糖、糖新生、クエン酸回路、発酵、尿素回路、脂肪酸代謝、ピリミジン生合成、グルタメートアミノ酸基合成、ポルフィリン代謝、アスパルテートアミノ酸基合成、芳香族アミノ酸合成、ヒスチジン代謝、分岐アミノ酸合成、ペントースホスフェート経路、プリン生合成、グルクロネート代謝、イノシトール代謝、セルロース代謝、スクロース代謝、デンプンおよびグリコーゲン代謝、およびこれらの組み合わせを含む、請求項32に記載の方法。
  35. 前記特徴プロファイルが、遺伝子発現プロファイル、タンパク質−タンパク質相互作用プロファイル、タンパク質リン酸化プロファイル、細胞電気活性プロファイル、クロマチン修飾プロファイル、染色体結合プロファイル、酵素活性プロファイル、代謝物プロファイルまたはこれらの組み合わせを含む、請求項19から34のいずれか1項に記載の方法。
  36. 特徴プロファイルが、前記生物試料中の細胞のRNAトランスクリプトームを表す遺伝子発現プロファイルを含む、請求項35に記載の方法。
  37. 前記生物試料が、保管された組織試料である、請求項19から36のいずれか1項に記載の方法。
  38. 前記生物試料が血液試料である、請求項19から37のいずれか1項に記載の方法。
  39. 前記生物試料が、固体組織試料由来である、請求項19から37のいずれか1項に記載の方法。
  40. 前記固体組織試料が腫瘍試料である、請求項39に記載の方法。
  41. 前記固体組織試料がホルマリン固定、パラフィン包埋(FFPE)試料である、請求項39または40に記載の方法。
  42. 前記生物試料が精製試料である、請求項19から41のいずれか1項に記載の方法。
  43. 前記生物試料が白血球濃縮試料である、請求項19から42のいずれか1項に記載の方法。
  44. 個体から前記試料を取得することをさらに含む、請求項19から43のいずれか1項に記載の方法。
  45. 物理系の特徴プロファイルのデコンボリューションのためのコンピューター実装方法であって、
    物理系の第1の複数の異なる細胞サブセットの組合せの第1の特徴プロファイルmを得るステップと、
    前記第1の特徴プロファイルmを計算処理するステップであって、
    i)mと、前記物理系の第2の複数の異なる細胞サブセットに対する特徴シグネチャーの基準マトリックスBとの間の回帰を最適化するステップであって、mがBの一次結合としてモデル化され、
    前記最適化が、前記回帰の一連の回帰係数を含むfを解くことを含み、前記解くことが、線形損失関数、および、Lノルムペナルティ関数、を最小化するステップと、
    ii)前記一連の回帰係数に基づいて、前記物理系の前記第2の複数の異なる細胞サブセットの内の1つまたは複数の異なる細胞サブセットの相対比率を推定するステップと、
    iii)前記1つまたは複数の異なる細胞サブセットの前記相対比率の推定のために有意値を決定するステップを含む計算処理ステップと、
    を含むコンピューター実装方法。
  46. 前記第1の特徴プロファイルmを生成するためにデータを収集することをさらに含む、請求項45に記載のコンピューター実装方法。
  47. 前記第1の特徴プロファイルmが、第1の複数の異なる細胞サブセットを含む物理的試料から生成される、請求項45に記載のコンピューター実装方法。
  48. 前記物理的試料が、生物試料、環境試料または食糧品試料である、請求項47に記載のコンピューター実装方法。
  49. 前記fを解くことが、Bの複数の異なるサブセットの特徴シグネチャーの内のBのサブセットの特徴を選択し、前記線形損失関数を最小化することを含む、請求項45から48のいずれか1項に記載のコンピューター実装方法。
  50. 前記1つまたは複数の異なる細胞サブセットの前記相対比率の推定のために有意値を決定するステップは、
    a)親特徴プロファイルからランダムに選択された特徴を含むランダム特徴プロファイルmを生成するステップであって、前記親特徴プロファイルが前記特徴プロファイルを含み、mおよびm*が同じユークリッドノルムを有するステップと、
    b)mと前記基準マトリックスBとの間の回帰を最適化するステップであって、mがBの一次結合としてモデル化され、
    前記最適化が、前記回帰の一連の回帰係数を含むfを解くことを含み、前記解くことが、線形損失関数、および、Lノルムペナルティ関数、を最小化するステップと、
    c)fと前記基準マトリックスBの積を計算し、再構成特徴プロファイルを生成するステップと、
    d)前記ランダム特徴プロファイルと、前記再構成特徴プロファイルとの間の差異測定値を決定するステップと、
    e)ステップa)〜d)のi回の繰り返しから決定される差異測定値の分布に基づいて前記有意値を決定するステップであって、iが2以上の数であるステップと、を含む、請求項45から49のいずれか1項に記載のコンピューター実装方法。
  51. 1つまたは複数のプログラムを保存する非一時的コンピューター可読記憶媒体であって、前記1つまたは複数のプログラムが、コンピューターシステムの1つまたは複数のプロセッサーにより実行されると、1つまたは複数のプロセッサーに請求項1から44のいずれか1項に記載の方法の少なくとも一部を実行させる命令を含む、非一時的コンピューター可読記憶媒体。
  52. 1つまたは複数のプログラムを保存する非一時的コンピューター可読記憶媒体であって、前記1つまたは複数のプログラムが、コンピューターシステムの1つまたは複数のプロセッサーにより実行されると、1つまたは複数のプロセッサーに請求項45から50のいずれか1項に記載の方法を実行させる命令を含む、非一時的コンピューター可読記憶媒体。
  53. 1つまたは複数のプロセッサー、および1つまたは複数のプログラムを保存する記憶装置を含むシステムであって、前記1つまたは複数のプログラムが、コンピューターシステムの1つまたは複数のプロセッサーにより実行されると、1つまたは複数のプロセッサーに請求項1から44のいずれか1項に記載の方法の少なくとも一部を実行させる命令を含む、システム。
  54. 1つまたは複数のプロセッサー、および1つまたは複数のプログラムを保存する記憶装置を含むシステムであって、前記1つまたは複数のプログラムが、コンピューターシステムの1つまたは複数のプロセッサーにより実行されると、1つまたは複数のプロセッサーに請求項45から50のいずれか1項に記載の方法を実行させる命令を含む、システム。
JP2020184163A 2015-01-22 2020-11-04 異なる細胞サブセットの比率の決定方法およびシステム Pending JP2021019641A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023110318A JP2023153771A (ja) 2015-01-22 2023-07-04 異なる細胞サブセットの比率の決定方法およびシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562106601P 2015-01-22 2015-01-22
US62/106,601 2015-01-22

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017534299A Division JP6791598B2 (ja) 2015-01-22 2016-01-22 異なる細胞サブセットの比率の決定方法およびシステム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023110318A Division JP2023153771A (ja) 2015-01-22 2023-07-04 異なる細胞サブセットの比率の決定方法およびシステム

Publications (1)

Publication Number Publication Date
JP2021019641A true JP2021019641A (ja) 2021-02-18

Family

ID=56417807

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2017534299A Active JP6791598B2 (ja) 2015-01-22 2016-01-22 異なる細胞サブセットの比率の決定方法およびシステム
JP2020184163A Pending JP2021019641A (ja) 2015-01-22 2020-11-04 異なる細胞サブセットの比率の決定方法およびシステム
JP2023110318A Pending JP2023153771A (ja) 2015-01-22 2023-07-04 異なる細胞サブセットの比率の決定方法およびシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017534299A Active JP6791598B2 (ja) 2015-01-22 2016-01-22 異なる細胞サブセットの比率の決定方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023110318A Pending JP2023153771A (ja) 2015-01-22 2023-07-04 異なる細胞サブセットの比率の決定方法およびシステム

Country Status (7)

Country Link
US (3) US10167514B2 (ja)
EP (1) EP3248110A4 (ja)
JP (3) JP6791598B2 (ja)
CN (1) CN107430588B (ja)
AU (1) AU2016209128B2 (ja)
CA (1) CA2971129A1 (ja)
WO (1) WO2016118860A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782434B1 (en) 2010-07-15 2014-07-15 The Research Foundation For The State University Of New York System and method for validating program execution at run-time
US9063721B2 (en) 2012-09-14 2015-06-23 The Research Foundation For The State University Of New York Continuous run-time validation of program execution: a practical approach
US9069782B2 (en) 2012-10-01 2015-06-30 The Research Foundation For The State University Of New York System and method for security and privacy aware virtual machine checkpointing
JP6791598B2 (ja) * 2015-01-22 2020-11-25 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 異なる細胞サブセットの比率の決定方法およびシステム
US10636512B2 (en) 2017-07-14 2020-04-28 Cofactor Genomics, Inc. Immuno-oncology applications using next generation sequencing
WO2019018684A1 (en) * 2017-07-21 2019-01-24 The Board Of Trustees Of The Leland Stanford Junior University SYSTEMS AND METHODS FOR ANALYZING MIXED CELL POPULATIONS
US11348240B2 (en) 2018-05-14 2022-05-31 Tempus Labs, Inc. Predicting total nucleic acid yield and dissection boundaries for histology slides
US11741365B2 (en) 2018-05-14 2023-08-29 Tempus Labs, Inc. Generalizable and interpretable deep learning framework for predicting MSI from histopathology slide images
US10957041B2 (en) 2018-05-14 2021-03-23 Tempus Labs, Inc. Determining biomarkers from histopathology slide images
US11348239B2 (en) 2018-05-14 2022-05-31 Tempus Labs, Inc. Predicting total nucleic acid yield and dissection boundaries for histology slides
US11348661B2 (en) 2018-05-14 2022-05-31 Tempus Labs, Inc. Predicting total nucleic acid yield and dissection boundaries for histology slides
EP3801623A4 (en) * 2018-06-01 2022-03-23 Grail, LLC NEURAL CONVOLUTIONAL NETWORK SYSTEMS AND DATA CLASSIFICATION METHODS
CN108801996B (zh) * 2018-06-08 2020-11-06 云南淘谜生物科技有限公司 一种检测磷酸化α突触核蛋白阳性细胞占比的方法
JP7421475B2 (ja) * 2018-06-29 2024-01-24 株式会社Preferred Networks 学習方法、混合率予測方法及び学習装置
EP3640946A1 (en) * 2018-10-15 2020-04-22 Sartorius Stedim Data Analytics AB Multivariate approach for biological cell selection
WO2020142563A1 (en) 2018-12-31 2020-07-09 Tempus Labs, Inc. Transcriptome deconvolution of metastatic tissue samples
WO2020142566A1 (en) 2018-12-31 2020-07-09 Tempus Labs, Inc. Artificial intelligence segmentation of tissue images
JP6755346B2 (ja) * 2019-02-05 2020-09-16 株式会社日立製作所 分析システム
EP3956649A4 (en) * 2019-04-19 2023-01-04 Becton, Dickinson and Company UNDERSAMPLING FLOW CYTOMETRIC EVENT DATA
CA3155073A1 (en) * 2019-10-18 2021-04-22 Aadel Chaudhuri Methods and systems for measuring cell states
EP4054726A4 (en) * 2019-11-05 2023-12-06 The Board of Trustees of the Leland Stanford Junior University SYSTEMS AND METHODS FOR DECONVOLUTION OF TUMOR ECOSYSTEMS FOR PERSONALIZED CANCER THERAPY
CN110955961B (zh) * 2019-11-14 2023-10-03 浙江普罗亭健康科技有限公司 一种免疫损伤分析方法
AU2021233926A1 (en) * 2020-03-12 2022-09-29 Bostongene Corporation Systems and methods for deconvolution of expression data
JP7357425B2 (ja) * 2020-03-19 2023-10-06 シスメックス株式会社 細胞分類方法、分類装置及びプログラム。
CN111710363B (zh) * 2020-06-19 2023-08-01 苏州帕诺米克生物医药科技有限公司 确定代谢物配对关系的方法及装置
CN112133370A (zh) * 2020-08-20 2020-12-25 中南大学湘雅医院 细胞分类方法、装置、计算机设备和存储介质
CN112151120B (zh) * 2020-09-23 2024-03-12 易会广 用于快速转录组表达定量的数据处理方法、装置及存储介质
CN116438603A (zh) * 2020-10-06 2023-07-14 皇家飞利浦有限公司 用于将基因组数据存储在包括信息元数据结构的文件结构中的方法和系统
CN113762005B (zh) * 2020-11-09 2024-06-18 北京沃东天骏信息技术有限公司 特征选择模型的训练、对象分类方法、装置、设备及介质
CN112331270B (zh) * 2021-01-04 2021-03-23 中国工程物理研究院激光聚变研究中心 一种新型冠状病毒拉曼光谱数据中心的构建方法
CN113017650B (zh) * 2021-03-12 2022-06-28 南昌航空大学 一种基于功率谱密度图像的脑电特征提取方法和系统
WO2022260740A1 (en) 2021-06-10 2022-12-15 Alife Health Inc. Machine learning for optimizing ovarian stimulation
CN113593640B (zh) * 2021-08-03 2023-07-28 哈尔滨市米杰生物科技有限公司 一种鳞癌组织功能状态与细胞组分评估方法及系统
CN113707216A (zh) * 2021-08-05 2021-11-26 北京科技大学 一种浸润免疫细胞比例计数方法
CN114216837B (zh) * 2021-11-16 2023-09-29 北京工业大学 联合流式细胞分选和拉曼技术对Tetrasphaera亚群胞内代谢物测定的方法
CN114121162B (zh) * 2021-11-24 2024-08-27 复旦大学附属金山医院(上海市金山区核化伤害应急救治中心、上海市金山区眼病防治所) 一种关于免疫力评估的方法
WO2024124207A2 (en) * 2022-12-08 2024-06-13 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for cell-free nucleic acids methylation assessment
CN116452559B (zh) * 2023-04-19 2024-02-20 深圳市睿法生物科技有限公司 基于ctDNA片段化模式的肿瘤病灶的定位方法及装置
CN117497037B (zh) * 2023-11-17 2024-08-16 上海倍谙基生物科技有限公司 一种基于广义线性模型的培养基组分敏感性分析方法
CN118711177A (zh) * 2024-08-27 2024-09-27 浙江大学 一种基于微藻细胞个体差异识别的细胞计数方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6661004B2 (en) * 2000-02-24 2003-12-09 Massachusetts Institute Of Technology Image deconvolution techniques for probe scanning apparatus
US7505948B2 (en) * 2003-11-18 2009-03-17 Aureon Laboratories, Inc. Support vector regression for censored data
US20110010099A1 (en) * 2005-09-19 2011-01-13 Aram S Adourian Correlation Analysis of Biological Systems
US8399206B2 (en) * 2008-07-10 2013-03-19 Nodality, Inc. Methods for diagnosis, prognosis and methods of treatment
US20120271553A1 (en) * 2011-04-22 2012-10-25 Ge Global Research Analyzing the expression of biomarkers in cells with clusters
CN102851283B (zh) * 2011-06-30 2014-07-30 上海市肿瘤研究所 用于区分转移与非转移肺鳞癌的microRNA标志物
US9020874B2 (en) * 2011-10-31 2015-04-28 Siemens Aktiengesellschaft Short-term load forecast using support vector regression and feature learning
CN103217411B (zh) * 2013-04-15 2015-03-25 浙江大学 基于拉曼光谱的食用植物油中油酸、亚油酸和饱和脂肪酸含量检测方法
CN103310105A (zh) * 2013-06-13 2013-09-18 浙江加州国际纳米技术研究院绍兴分院 筛选非小细胞肺癌治疗疗效生物标记物的方法
JP6791598B2 (ja) 2015-01-22 2020-11-25 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 異なる細胞サブセットの比率の決定方法およびシステム
US9984199B2 (en) 2015-05-21 2018-05-29 Ge Healthcare Bio-Sciences Corp. Method and system for classification and quantitative analysis of cell types in microscopy images
US20210040442A1 (en) 2017-04-12 2021-02-11 The Broad Institute, Inc. Modulation of epithelial cell differentiation, maintenance and/or function through t cell action, and markers and methods of use thereof

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ADV.NEURAL INF.PROCESS.SYST.,2014,27,P.2699-2707, JPN6022020580, ISSN: 0005006122 *
ASTRONOMICAL DATA ANALYYSIS II, 2002, PROC. SPIE 4847, P.1-10, JPN6022020578, ISSN: 0005006123 *
PLOS ONE,2009,4(7),E6098,P.1-16, JPN6022020575, ISSN: 0005006121 *

Also Published As

Publication number Publication date
CN107430588B (zh) 2021-12-31
AU2016209128B2 (en) 2021-04-29
US11802314B2 (en) 2023-10-31
US20160217253A1 (en) 2016-07-28
CN107430588A (zh) 2017-12-01
US10167514B2 (en) 2019-01-01
JP6791598B2 (ja) 2020-11-25
JP2018512071A (ja) 2018-05-10
US20190338364A1 (en) 2019-11-07
US20190233898A1 (en) 2019-08-01
WO2016118860A1 (en) 2016-07-28
JP2023153771A (ja) 2023-10-18
AU2016209128A1 (en) 2017-07-06
CA2971129A1 (en) 2016-07-28
US12031183B2 (en) 2024-07-09
EP3248110A4 (en) 2018-07-04
EP3248110A1 (en) 2017-11-29

Similar Documents

Publication Publication Date Title
JP6791598B2 (ja) 異なる細胞サブセットの比率の決定方法およびシステム
Newman et al. Determining cell type abundance and expression from bulk tissues with digital cytometry
JP7545891B2 (ja) 混合細胞集団を分析するためのシステムおよび方法
Guo et al. Assessment of luminal and basal phenotypes in bladder cancer
Newman et al. Robust enumeration of cell subsets from tissue expression profiles
Gentles et al. The prognostic landscape of genes and infiltrating immune cells across human cancers
Huang et al. Bioinformatics analysis for circulating cell-free DNA in cancer
Jayawardana et al. Determination of prognosis in metastatic melanoma through integration of clinico‐pathologic, mutation, mRNA, microRNA, and protein information
Hayes et al. Gene expression profiling reveals reproducible human lung adenocarcinoma subtypes in multiple independent patient cohorts
Johann et al. RF_Purify: a novel tool for comprehensive analysis of tumor-purity in methylation array data based on random forest regression
Kawashima et al. Tumour grade significantly correlates with total dysfunction of tumour tissue-infiltrating lymphocytes in renal cell carcinoma
Kitchen et al. Correcting for intra-experiment variation in Illumina BeadChip data is necessary to generate robust gene-expression profiles
Wei et al. Recognizing the continuous nature of expression heterogeneity and clinical outcomes in clear cell renal cell carcinoma
Lu et al. Heterogeneity and transcriptome changes of human CD8+ T cells across nine decades of life
Iwase et al. A novel immunomodulatory 27-gene signature to predict response to neoadjuvant immunochemotherapy for primary triple-negative breast cancer
Safaei et al. DIMEimmune: Robust estimation of infiltrating lymphocytes in CNS tumors from DNA methylation profiles
Sikic et al. The prognostic value of FGFR3 expression in patients with T1 non-muscle invasive bladder cancer
Panuzzo et al. Revealing the mysteries of acute myeloid leukemia: from quantitative PCR through next-generation sequencing and systemic metabolomic profiling
CA3226033A1 (en) Prediction of brcaness/homologous recombination deficiency of breast tumors on digitalized slides
Yang et al. Prognostic subtypes of thyroid cancer was constructed based on single cell and bulk-RNA sequencing data and verified its authenticity
Koo et al. Prediction of tumor purity from gene expression data using machine learning
Kim et al. Genomic hypomethylation in cell-free DNA predicts responses to checkpoint blockade in lung and breast cancer
Jareid et al. The blood transcriptome prior to ovarian cancer diagnosis: A case-control study in the NOWAC postgenome cohort
Wong et al. Immune micro-environment analysis and establishment of response prediction model for PD-1 blockade immunotherapy in glioblastoma based on transcriptome deconvolution
Zhang et al. Bayesian Variable Selection For High-Dimensional Data With An Ordinal Response: Application Predicting Prognostic Risk Group In Acute Myeloid Leukemia

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220823

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230705

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230831

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20231013