JP2022554386A - バルク組織トランスクリプトームからの正確でロバストな情報逆畳み込み - Google Patents

バルク組織トランスクリプトームからの正確でロバストな情報逆畳み込み Download PDF

Info

Publication number
JP2022554386A
JP2022554386A JP2022526292A JP2022526292A JP2022554386A JP 2022554386 A JP2022554386 A JP 2022554386A JP 2022526292 A JP2022526292 A JP 2022526292A JP 2022526292 A JP2022526292 A JP 2022526292A JP 2022554386 A JP2022554386 A JP 2022554386A
Authority
JP
Japan
Prior art keywords
cell
data
bulk
gene
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022526292A
Other languages
English (en)
Inventor
ヤン、タオ
バイ、ユー
フューリー、ウェン
アトワル、グリンダ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Regeneron Pharmaceuticals Inc
Original Assignee
Regeneron Pharmaceuticals Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Regeneron Pharmaceuticals Inc filed Critical Regeneron Pharmaceuticals Inc
Publication of JP2022554386A publication Critical patent/JP2022554386A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本開示は、バルクまたは空間RNA配列決定データの逆畳み込みを行うための方法、バルクまたは空間RNA配列決定データの逆畳み込みを行うように適応されたプロセッサ実行可能命令を記憶するコンピュータ可読媒体、及びバルクまたは空間RNA配列決定データの逆畳み込みを行って細胞型組成を特徴付けるためのシステムに関する。【選択図】図1

Description

本開示は全般的に配列決定技術に関する。より具体的には、本開示は、混合サンプルの配列決定データの逆畳み込みを行うための方法に関し、混合組成特性を得るための関連する装置及びプロセッサ実行可能命令を記憶する関連するコンピュータ可読媒体に関する。
分子生物学において、メッセンジャーRNA(mRNA)は、デオキシリボ核酸(DNA)からリボソームへ遺伝子情報を伝えるRNA分子の大きな一群であり、遺伝子発現のタンパク質生成物のアミノ酸配列を特定している。RNAポリメラーゼ酵素は遺伝子を一次転写産物mRNA(前駆体mRNAとして知られている)に転写し、処理された成熟mRNAとなる。この成熟mRNAは次に、アミノ酸のポリマー:タンパク質に翻訳される。これは分子生物学のセントラルドグマにまとめられているとおりである。
DNAの場合と同様に、mRNA遺伝子情報αはヌクレオチド配列にエンコードされ、それぞれ3つの塩基対からなるコドンに配列される。RNA配列決定(RNA-seq)は、RNAの鎖におけるヌクレオチド配列を決定するプロセスである。各コドンは、終止コドン(タンパク質合成を終了させる)を除いて、特定のアミノ酸をエンコードする。このコドンをアミノ酸に翻訳するプロセスは、2つの他の種類のRNAを必要とする。トランスファーRNA(tRNA)(コドンの識別を仲介して、対応するアミノ酸を与える)及びリボゾームRNA(rRNA)(リボソームのタンパク質製造機械の中心的なコンポーネント)である。
バルク組織RNA-seqは、種々の状態(たとえば、正常または病気の状態)にあるゲノムワイドなトランスクリプトームの変化を理解するために適用される広く採用されている方法である。バルク組織は様々な細胞型からなることが多いため、バルクRNA-seqでは各遺伝子の平均発現を測定する。これは、細胞型比率によって重み付けされた細胞型特異的な遺伝子発現の合計である。細胞型組成及び無傷組織におけるその比率が分かっていることは、組織の生物学を理解するためには重要である。これは、細胞組成の違いから組織状態を特徴付けることにつながる可能性があり、これらの変化に合わせて調整することによって、より優れた下流の解析を方向付けることができる。しかし、バルク組織RNA-seqデータでは細胞型組成の情報は直接には得られない。なぜならば、バルクデータ内で混ざっている各細胞型の遺伝子発現レベルが明瞭ではないからである。
空間トランスクリプトーム法における最近のブレイクスルーによって、組織切片内での空間分解された場所におけるトランスクリプトームごとの遺伝子発現の全体を特徴付けることが可能になっている。しかし、トランスクリプトームごとの数万個の遺伝子を測定する間に単一細胞レベルの解像度に達することは依然として困難である。広く用いられている技術の中には、50~100μm(組織型に応じて3~30個の細胞と同等である)の解像度を実現できるものがある。そこでの転写物は1つ以上の細胞型から生じ得る。バルクRNA-seqとは異なり、各スポットにおけるプロファイリングデータでは、ほんの少数の細胞だけが配列決定されているため、かなりのドロップアウトが含まれており、細胞型の内容を明らかにするためにはさらなる問題が課されている。複数細胞レベルの解像度におけるバルクRNA-seq及び空間トランスクリプトームのデータは両方とも複合RNA-seqデータであり、細胞型の混合比率は分かっていない。
単一細胞RNA-seq(scRNA-seq)技術の急速な発展によって、細胞型特異的トランスクリプトームプロファイリングが可能になっている。細胞型組成及び比率をscRNA-seqデータから直接取得することができるため、このような技術によって、複合RNA-seqデータから欠落している情報を得ることができるが、技術は感度が低く、容認できないほど大きいノイズが発生する。これは高いドロップアウト率及び細胞間変動に起因する。結果として、scRNA-seq技術は、結果の統計的有意性を確実にするためには多数の細胞(数千~数万)が必要である。加えて、細胞は捕捉中に生存可能のままでなくてはならない。これらの要求によって、scRNA-seq技術は費用がかかり、そのため、多くの対象を伴う臨床研究にそれを応用することはできず、またリアルタイムで組織解離及び細胞捕捉を行うことができない。さらに、scRNA-seq技術は、固形組織内での細胞型比率を特徴付けることにはそれほど適してはいない。なぜならば、細胞解離と捕捉のステップは特定の細胞型に偏る可能性があるからである。
単一細胞レベルにおける配列決定は常に実現可能なわけではなく、説明するようにそれ自体の制限がある。さらに、細胞型組成から取得した情報から利益を得ることができる多くの既存のバルクRNA-seqデータも存在する。そのため、バルク組織RNA-seqデータから細胞型比率の逆畳み込みを行うための計算論的アプローチが開発されている。逆畳み込み処理は本質的に最適化問題であり、有限数の細胞型の混合比率が、最適化すべきパラメータである。目標は、バルク組織RNA-seqデータにおいて観察される遺伝子発現と、その対応する期待値(混合比率パラメータによって重み付けされた所定の細胞型特異的な発現の合計として計算される)との間の差を最小限にすることである。差を最小限にする最良の混合比率が最終的な出力である。
このような計算法の1つが以下の文献に開示されている。Wangら、「Bulk tissue cell type deconvolution with multi-subject single-cell expression reference」Nature Communications(2019年1月22日にオンラインで発表)。著者は、バルクRNA-seqデータでの細胞型比率を推定するためにクロスサブジェクトscRNA-seqを用いる「マルチサブジェクト単一細胞逆畳み込み」(MuSiC)法(コードが利用可能)を導入している。より具体的には、MuSiCは、重み付けされた非負最小二乗回帰(W-NNLS)であり、事前に選択したマーカー遺伝子を必要としない。MuSiCは、遺伝子を重み付けするために遺伝子安定性を反映するクロスサブジェクト変化を用いている。反復の推定手順によって、安定な遺伝子にはより大きい重みを、そして変動的な遺伝子にはより小さい重みを自動的に課す。これは線形回帰ベースの方法であるため、大きなクロスサブジェクト変化を示す遺伝子は影響力が低く、したがって、回帰に対する影響が小さい。一方で、最も影響力のある遺伝子は、安定性重み付けが高い遺伝子である。MuSiCは、利用できる多くの代替的な計算法の1つである。
加えて、ほとんどの方法では、データを所定の集合の細胞型特異的な遺伝子に限定し、その出力はそのような遺伝子集合の種々の選択に応じて変動するため、結果の客観性とロバスト性が下がる。たとえば、CIBERSORTは、良く知られているが、感度が不十分であると発表されている(ワールドワイドウェブ「nature.com/articles/s41467-018-08023-x」を参照)。さらに、ほとんどの既存の方法は、比較的単純な応用例、たとえば、末梢血単核球(PBMC)及び膵臓にのみ適している。ここでは、考慮する必要があるのは一握りの数の細胞型のみであるかまたは細胞型間の違いはかなり大きい。数十個の異なる細胞型または微妙な違いの細胞亜型を伴う複雑な組織におけるそれらの性能は疑わしい。
前述したことを考慮して、複数細胞の解像度におけるバルク組織トランスクリプトーム及び空間トランスクリプトームからの正確でロバストな逆畳み込みを行う改善された方法が求められている。
本開示では、バルクRNA配列決定データの逆畳み込みを行うための方法(コンピュータ実装方法を含む)、コンピュータプログラム、コンピュータシステム、及び装置が提供される。目標は、バルク組織トランスクリプトームから正確でロバストな細胞型比率推定を取得する必要性を満たすことである。
本開示では、バルク組織に関連する細胞型の単一細胞RNA-seqから取得した所定の細胞型特異的な発現を用いてバルクRNA配列決定データの逆畳み込みを行うための方法が提供される。方法は、i)単一細胞RNA-seqデータから、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択することであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、選択することと、ii)単一細胞RNA-seqデータから、カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いることと、iii)単一細胞RNA-seqデータから、カウントベースの配列決定データ行列、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションからの各細胞型に対して、最も変動的に発現する遺伝子のそれぞれに対するクロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定することと、iv)正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定することであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクRNA配列決定カウントを含む、規定することと、v)バルク分布と混合単一細胞分布との間の損失関数を規定することと、vi)損失関数を適用してバルクRNA配列決定データにおける細胞型比率を推定することと、のうちのいずれか1つ以上を含み、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測する。いくつかの実施形態では、カウントベースの配列決定データは単一細胞RNA配列決定データであり、カウントベースの配列決定カウントは単一細胞RNA配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞RNA配列決定データ行列である。いくつかの実施形態では、カウントベースの配列決定データはATAC-seqデータであり、カウントベースの配列決定カウントはATAC-seqカウントであり、カウントベースの配列決定データ行列はATAC-seqデータ行列である。いくつかの実施形態では、各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である。いくつかの実施形態では、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合、及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である。
また本開示では、バルクRNA配列決定データの逆畳み込みを行うための方法であって、6つの典型的なステップ:i)3つのソース(バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーション)から入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ii)細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、iii)遺伝子のクロス細胞型特異度を計算するステップと、iv)複数サンプル利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、v)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、vi)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測する方法が提供される。
また本開示によって、1つ以上のコンピューティング装置に、本明細書で説明する方法のいずれかによってバルクRNA配列決定データの逆畳み込みを行わせるように適応されたプロセッサ実行可能命令を記憶するコンピュータ可読媒体が提供される。
また本開示によって、システムであって、1つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に本明細書で説明する方法のいずれかによってバルクRNA配列決定データの逆畳み込みを行わせる、メモリと、を含むシステムが提供される。
当然のことながら、前述の概要と以下の詳細な説明は両方とも、本開示の典型的なものであるが限定するものではない。
本開示は、以下の説明を添付図面とともに読んだときに最良に理解される。特許または出願書類には、カラーで作成された図面の少なくとも1つの図が含まれている。カラー図を伴うこの特許または特許出願公開のコピーは、米国特許商標庁に要求して必要な料金を支払えば得られる。図面には以下の図が含まれている。
開示した方法の1つの実施形態のワークフローの概略を示す図である。 A、B、Cは、開示した方法の一実施形態において最も情報価値のある遺伝子を選択するための基礎として3つの異なる仮定の遺伝子発現対細胞型パターンを例示する。 開示した方法の一実施形態におけるすべての細胞型にわたる遺伝子の分散の計算と上位2,500個の変動的な遺伝子の選択とを例示する図である。 開示した方法の一実施形態における細胞型平均分散内での全体または全平均分散の計算を例示する図である。 開示した方法の一実施形態におけるガウス分布をフィッティングさせることによる細胞型特異的分散及び平均値の推定を示す図である。 開示した方法の一実施形態におけるガウス分布をフィッティングさせることによるバルクデータクロスサンプル分散及び平均値の推定を示す図である。 開示した方法の一実施形態における単一細胞データの混合分布とバルク細胞データの分布との間の比較を例示する図である。 例示的な実施例に対して、図1に示す開示した方法の実施形態のステップ3の適用に従ってガウス分布をフィットさせる結果を示す図である。 例示的な実施例に対して、図1に示す開示した方法の実施形態のステップ4の適用に従ってガウス分布をフィットさせる結果を示す図である。 例示的な実施例に、図1に示す開示した方法の一実施形態におけるステップ5を適用する結果、すなわち、比率パラメータ、重み、単一細胞及び例のバルク細胞データから学習した各遺伝子の分布を用いてモデルを規定する結果を示す図である。 開示した方法(AdRoit法)の別の実施形態のワークフローの概略を示す図である。 図11に開示した方法の第1のステップの間に最も情報価値のある遺伝子を選択するための2つの選択肢を例示する図である。 図11に開示した方法を用いて選択する細胞の種類を例示する仮説例を示す図である。 細胞型における各遺伝子に対して負の二項分布をフィッティングさせることによって平均及び分散パラメータを推定する図11に開示した方法の第2のステップを例示する図である。 図11に開示した方法の第5のステップの間に適用される遺伝子ごとのスケーリング係数の効果を実証する仮説例を示す図である。 対象18人のヒト膵島細胞組成の概要である。 4つの細胞型は互いに異なっていることを示すt-SNEグラフである。 対象18人からのすべての細胞型に対するAdRoit法の推定における真のパーセンテージに対する推定精度の比較を反映するグラフである。 対象18人からのすべての細胞型に対するMuSiC法の推定における真のパーセンテージに対する推定精度の比較を反映するグラフである。 対象18人からのすべての細胞型に対するNNLS法の推定における真のパーセンテージに対する推定精度の比較を反映するグラフである。 図16A、16B、16Cの3つの各グラフに対して計算した4つの別個の統計的測定(mAD、RMSD、スピアマン及びピアソン相関)を一覧表示する表である。 8人のドナーのヒト小柱網細胞組成の概要である。 細胞型間の違いならびに類似性を示すt-SNEグラフである。データを用いて、開示した方法を他の従来方法に対して評価した。 8人のドナーに対するAdRoit法の結果において真のパーセンテージに対する推定精度の比較を反映するグラフである。 8人のドナーに対するMuSiC法の結果において真のパーセンテージに対する推定精度の比較を反映するグラフである。 8人のドナーに対するNNLS法の結果において真のパーセンテージに対する推定精度の比較を反映するグラフである。 図19A、19B、19Cの3つの各グラフに対して計算した4つの別個の統計的測定(mAD、RMSD、及びスピアマン及びピアソン相関)を一覧表示する表である。 3つの方法の中で推定が真実からどれだけの量ずれているかの比較を示す図である。1つのドットがドナーを表し、1つの行がヒト小柱網における細胞型である。 ヒト小柱網細胞型に対してAdRoit法及びMuSiC法の両方を用いて計算した推定及び真のデータを反映する図である。 ヒト小柱網細胞型を検出するための曲線下面積(AUC)が、AdRoit法の方がMuSiC法よりも著しく高いことを示す受信者動作特性(ROC)曲線であり、AdRoitの方が感度が高いことを示す図である。 5匹のマウスの細胞組成の概要である。 使用したマウス後根神経節の単一細胞データにおいて見つかった細胞型のt-SNEグラフである。このデータを後に用いて、開示した方法を他の従来方法に対して評価した。 5匹のマウスに対するAdRoit法の結果における真の細胞パーセンテージに対する推定精度の比較を反映するグラフである。 5匹のマウスに対するMuSiC法の結果における真の細胞パーセンテージに対する推定精度の比較を反映するグラフである。 5匹のマウスに対するNNLS法の結果における真の細胞パーセンテージに対する推定精度の比較を反映するグラフである。 mAD、RMSD、ピアソン及びスピアマン相関を統計的測定として用いた、マウスデータに対するAdRoit法、MuSiC法、及びNNLS法の結果を比較するグラフの表示である。 実際のヒト膵島バルクRNA-seqデータに対する細胞型パーセンテージのAdRoit法に基づく推定が、同じドナーからの繰り返しサンプルに対して再現性が非常に高いことを示すグラフである。 Adroit法を用いて推定したヒト膵島データの細胞型パーセンテージが、細胞型パーセンテージのRNA-Fish測定値に一致することを示す図である。 Adroit法を用いて推定したベータ細胞比率が、ドナーのHbA1Cレベルと有意な負の直線関係を有する(健康及びT2D細胞の両方を含む)ことを示す図である。 T2D患者においてAdroit法を用いて推定したベータ細胞比率が、健康な対象における場合よりも有意に低いことを示す図である。 5つの異なるPEP細胞亜型を含むシミュレートした空間スポット上で立体鏡及びAdRoit法によって実現した推定を比較する図である。 シミュレーションデータを用いて細胞のパーセントが低いときの性能を比較する図である。一連の低パーセントPEP細胞をシミュレートして、他の2つのPEP細胞型と混合した。結果は、AdRoit法を用いて実現した推定の中央値は真の比率に近く、立体鏡を用いて実現した推定よりも近かったことを示す。 シミュレートした空間スポットを用いたAdRoit法及び立体鏡法の検出率を比較する図である。シミュレーションは細胞型の6つの異なる混合方式を含む。混合の各種類は一連の低パーセント細胞型を含む。評価は、それぞれの所与の低パーセントにおいて低パーセント細胞型のどのくらいの量が検出されたかを調べることである。 マウス脳冠状組織切片の各空間スポットにおいてAdRoit法によって推定した細胞型の内容を例示する図である。 図34に示した細胞型場所が正確であることを検証するアレンマウス脳地図からのWfs1、Prox2、Rarres2遺伝子のISH画像である。
本開示の態様に関する種々の用語を、明細書及び特許請求の範囲の全体に渡って用いる。このような用語には、特に断りのない限り、当該技術分野におけるその通常の意味を与えるべきである。他の具体的に定義した用語は、本明細書で与えた定義と整合するように解釈すべきである。
特に明記のない限り、記載した任意の方法または態様が、そのステップを特定の順序で行うことが必要であると解釈されることは決して意図していない。したがって、請求項または説明において、方法クレームが、ステップが特定の順番に限定されるべきであると具体的には述べていない場合、順番をいかなる意味においても推測することは決して意図していない。これは、解釈のための表現されていない任意の可能な根拠(ステップの配置または動作フローに関するロジックの問題、文法構成または句読法から得られる明白な意味、または明細書で説明する態様の数もしくは種類を含む)に対しても成り立つ。
RNA配列決定技術によって、疾患メカニズムを学習して新しい治療標的を発見する前例のない機会が得られ得る。最近の空間トランスクリプトーム法によってさらに、組織切片内で空間分解されたスポットにおけるトランスクリプトームプロファイリングが可能になっている。制御された実験において、治療介入下での細胞組成の変動性を知ることが非常に重要であることが多い。また各組織スポットにおける細胞型の内容を理解することは、空間トランスクリプトームデータの解釈にとっても重要である。単一細胞RNA-seqには、異なる細胞における細胞型組成及び発現不均一性を明らかにする能力があるが、依然として費用がかかり、生細胞の取得や十分な解離ができないときにはしばしば実行不可能である。単一細胞レベルでの配列決定が実現できないときにバルク及び空間RNA-seqデータを活用するために、本明細書で示すのは、関連する細胞型の既知の単一細胞配列データ(たとえば、パブリックドメインにおいて利用できるデータ)を用いて、バルクまたは空間RNA-seqデータにおける各細胞型の比率を推定する方法である。本明細書で説明する方法は、遺伝子ごとの技術バイアス、遺伝子の細胞型特異度及びクロスサンプル変動性を一緒にモデリングするため、より正確でロバストである。系統的なベンチマーキング評価によって、他の既存の方法よりも優れた感度及び特異度が、多くの密接に関係する亜型が存在する神経細胞においても示されている。
本明細書で開示する方法によって、バルクRNA-seqデータにおける各細胞型の比率を、カウントベースの配列決定技術から取得した関連する細胞型(多くの場合に公表されている)の独立に取得した発現プロファイル(たとえば、単一細胞データ)を用いて推定する統計的な方法が提供される。方法は特に、珍しい(比率が約5%未満の)細胞型の検出にとても適している。本明細書で説明する方法を実施する際の仮定の1つは、単一細胞RNA-seqに用いる組織には、バルクまたは空間配列決定サンプルにあるものと同じかまたはそれよりも少なくない細胞型が含まれているということである。
本明細書で用いる場合、用語「約」の意味は、説明した数値は概算であり、小さい変動があったとしても、開示した実施形態の実施には大きく影響しないだろうということである。数値を用いている場合、文脈により別段の指定がない限り、用語「約」の意味は、数値が±10%だけ変動する可能性があり、開示した実施形態の範囲に留まる可能性があるということである。
本明細書で用いる場合、用語「約」の意味は、説明した数値は概算であり、小さい変動があったとしても、開示した実施形態の実施には大きく影響しないだろうということである。数値を用いている場合、文脈により別段の指定がない限り、用語「約」の意味は、数値が±10%だけ変動する可能性があり、開示した実施形態の範囲に留まる可能性があるということである。
本明細書で用いる場合、用語「含む」は、特定の実施形態において必要に応じて、「からなる」または「本質的に、からなる」と置き換えられ得る。
開示した方法、装置、及びコンピュータ可読媒体は、バルク組織トランスクリプトームから細胞型の比率を正確かつロバストに推定することを目的とする。既存のカウントベースの配列決定データ、たとえば単一細胞RNA配列決定データを、アノテーションを有する細胞素性を伴う基準として用いる。非常に情報価値のある遺伝子の特有の分布特性を各細胞型に対して突き止めて、細胞型の組成を、マーカー選択に基づくことなくバルク組織または空間RNA配列決定データから推定する。開示した方法、装置、及びコンピュータ可読媒体の成功にとって重要であるのは、1)混合比率を推定するときに、遺伝子発現値の全分布、または分布を規定する平均及び分散パラメータを考慮し、平均値だけではないということ、2)細胞型間でより区別可能な遺伝子、すなわち、特定の細胞型に非常に固有の発現を伴う遺伝子には高い重みを付けること、3)複数サンプル間で非常に変動的な遺伝子には低い重みを付けること、4)バルクまたは空間RNA配列決定データと単一細胞RNA配列決定データとの間のプラットフォームの違いに対処するために、適応学習アプローチを用いて遺伝子ごとのスケーリング係数を推定すること、5)統計共線性の影響を最小限にするためにモデルに正則化項を含めることである。開示した方法、装置、及びコンピュータ可読媒体のいくつかある特徴の中で特に、これらの5つの特徴を組み合わせて、既存の方法に対する改善が得られる。
本開示によって、バルクRNA配列決定データの逆畳み込みを行うための方法が提供される。いくつかの実施形態では、方法は、以下の6つの典型的なステップ:i)最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ii)カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、iii)各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、iv)正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクRNA配列決定カウントを含む、ステップと、v)バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、vi)損失関数を適用してバルクRNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測する。これらのステップを図1に例示する(カウントベースの配列決定として単一細胞RNA配列決定を示す)。図1では、開示した方法の一実施形態のワークフローの概略を示す。各ステップについては、各ステップに対する入力、出力、及び目的または理論的根拠を参照しながら、順に後述する。これらの各処理ステップはコンピューティング装置(たとえば、コンピュータ)によって行うことができる。いくつかの実施形態では、すべてのプロセスステップをコンピュータによって行う。
いくつかの実施形態では、方法は第1のステップを含む。いくつかの実施形態では、方法は第1のステップと、第2、第3、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第2のステップを含む。いくつかの実施形態では、方法は第2のステップと、第1、第3、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第3のステップを含む。いくつかの実施形態では、方法は第3のステップと、第1、第2、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第4のステップを含む。いくつかの実施形態では、方法は第4のステップと、第1、第2、第3、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第5のステップを含む。いくつかの実施形態では、方法は第5のステップと、第1、第2、第3、第4、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第6のステップを含む。いくつかの実施形態では、方法は第6のステップと、第1、第2、第3、第4、及び第5のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。
いくつかの実施形態では、カウントベースの配列決定データは単一細胞RNA配列決定データであり、カウントベースの配列決定カウントは単一細胞RNA配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞RNA配列決定データ行列である。いくつかの実施形態では、カウントベースの配列決定データはATAC-seqデータであり、カウントベースの配列決定カウントはATAC-seqカウントであり、カウントベースの配列決定データ行列はATAC-seqデータ行列である。いくつかの実施形態では、各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である。いくつかの実施形態では、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である。本明細書で説明する方法は、バルクRNA配列決定データに対する単一細胞分布比率の推論という結果になる。
いくつかの実施形態では、方法はさらに、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントの行列を形成して、行列を正規化することを含む。いくつかの実施形態では、方法はさらに、バルクRNA配列決定カウントのバルク行列を形成して、バルク行列を正規化することを含む。いくつかの実施形態では、方法はさらに、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントの行列を形成して、行列を正規化することと、バルクRNA配列決定カウントのバルク行列を形成して、バルク行列を正規化することと、を含む。いくつかの実施形態では、方法はさらに、細胞型アノテーションを取得することを含む。いくつかの実施形態では、カウントベースの配列決定データは単一細胞RNA配列決定データであり、カウントベースの配列決定カウントは単一細胞RNA配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞RNA配列決定データ行列である。いくつかの実施形態では、カウントベースの配列決定データはATAC-seqデータであり、カウントベースの配列決定カウントはATAC-seqカウントであり、カウントベースの配列決定データ行列はATAC-seqデータ行列である。
いくつかの実施形態では、方法はさらに、バルクRNA配列決定データを取得した各細胞型からのRNAの比率を特定することを含む。いくつかの実施形態では、方法はさらに、バルクRNA配列決定データを取得した各細胞型の比率を特定することを含む。いくつかの実施形態では、方法はさらに、バルクRNA配列決定データを取得した各細胞型からのRNAの比率を特定することと、及びバルクRNA配列決定データを取得した各細胞型の比率を特定することと、を含む。
ステップ1:上位「N」個の非常に変動的な遺伝子の選択
開示した方法の例示的な実施形態(図1)における第1のステップの目的は、最も情報価値のある遺伝子を選択することである。このステップを、単一細胞RNA-seq(scRNA-seq)データに適用するが、本明細書で述べるように任意のカウントベースの配列決定データに適用することができる。scRNA-seqデータにおいて、ゲノム内のすべての遺伝子が、特定の細胞の素性について情報価値があるわけではない。理由の1つは、多くの遺伝子が細胞生存及び他の基本的な細胞機能にとって不可欠だからである。これらの遺伝子は、多くの異なる細胞型にわたって普遍的に発現されており、細胞型によって生物学的に区別することはできない。さらに、技術的制限によって、scRNA-seqは通常、プラットフォーム(10xまたはC1)に応じて、各細胞から数百~数千個の遺伝子を捕捉する。これらの遺伝子の大部分は、すべての細胞にわたって読み出しがない。どちらの場合も、これらの遺伝子は細胞素性の特定には寄与しないため、バルクデータの逆畳み込において情報価値がない。
図2A、2B、2Cに、最も情報価値のある遺伝子を選択することがなぜ重要であるかの1つの理由を、3つの仮想の遺伝子のそれぞれに対する発現(縦座標)対細胞型C、C、C、C、及びC(横座表)のグラフを用いて例示する。図2Aに情報価値のある遺伝子1を示す。なぜならば、各細胞型内のデータが比較的一貫しており、5つの細胞型の間でデータを区別できるからである。図2Bのデータは有用ではない。なぜならば、各細胞型内のデータが変動しすぎるからである。図2Cのデータは有用ではない。なぜならば、細胞型間のデータが十分には異なっていないからである。
既知の解析方法を用いて非常に変動的な遺伝子を選択することができる。たとえば、A.Butlerら、「Integrating single-cell transcriptomic data across different conditions,technologies,and species」、Nat.Biotechnol.(2018)(A.Butler,Nat.Biotechnol.);及びF.Wolfら、「SCANPY:Large-scale single-cell gene expression data analysis」、Genome Biol.(2018)を参照のこと。通常、単一細胞をscRNA-seqデータに基づいて計算的に集塊化するときには、上位2,000個の非常に変動的な遺伝子によって、異なる細胞型間の良好な分離が得られる。しかし、この2,000個の数の遺伝子よりもある程度多い数を選択することが推奨される。なぜならば、データ処理によって情報損失が誘発される可能性があるからである。他方で、バランスを維持しなければならない。なぜならば、選択する遺伝子が多すぎるとノイズが導入されるからである。したがって、いくつかの実施形態では、上位2,500個の非常に変動的な遺伝子を選択する。その数よりも多いか少ない遺伝子を、応用例(たとえば、細胞型)に応じて選択することができる。選択すべき変動的な遺伝子の好ましい数は、どの数が最良の検証を実現するかに基づいた試行錯誤によって所定にすることができる。「所定」とは、事前に決定されることを意味しており、したがって、所定の特性は、なんらかのイベントより前に決定されなければならない、すなわち、選択されるかまたは少なくとも知られていなければならない。好ましくは、選択する非常に変動的な遺伝子の最小及び最大数の範囲は約1,000~約5,000である。遺伝子は、RNA-seq技術によって測定可能なトランスクリプトーム全体から選択する。ヒトのトランスクリプトームには、約25,000個の遺伝子が存在する。マウストランスクリプトームには、約20,000個の遺伝子が存在する。
RNA-seqデータにおける良く知られた分散効果により、カウント行列からの変化を直接計算すると分散を過大評価する可能性がある。本明細書で説明する方法は、分散安定化変換(VST)データ行列から分散を計算することによってこのような過大評価に対処し、これらの分散のランクに基づいて遺伝子を選択する。図3に、すべての細胞型にわたる遺伝子の分散の典型的な計算及び上位2,500個の非常に変動的な遺伝子の選択を例示する。この手順のアルゴリズムは、A.Butler、Nat.Biotechnolに開示された「Seurat」Rパッケージにおいて容易にプログラムされる。たとえば、関数「FindVariableFeatures」を用いて上位2,500個の非常に変動的な遺伝子を選択する。当然のことながら、他のアルゴリズムを、上位2,500個の非常に変動的な遺伝子の選択に対して用いることができる。
この第1のステップでは、図3に例示するように、単一細胞発現行列は、行が遺伝子を表して列が個々の細胞型を表す入力を構成する。固有の分子識別子(UMI)カウント行列(データは10xプラットフォームから)またはRPKM(データはC1プラットフォームから)を用いることが推奨されるが、必須ではない。このステップでは、細胞型のアノテーションは必要ではない。単一細胞カウント行列にVSTを適用した後で、標準偏差(ギリシャ記号シグマまたは「σ」で表される)を各行(遺伝子)に対して計算して、2,500個の最も変動的な遺伝子を得る。標準偏差はデータグループ全体に対する偏差の程度の尺度である。標準偏差は以下のように計算する。1)平均値または平均を計算する、2)各数値に対して、平均値を差し引いて結果を2乗する、3)2乗差の平均値(分散)を計算する、4)その平均値の平方根を計算する。開示した方法の第1のステップからの出力は、上位「N」個の数(すなわち、2,500)の非常に変動的な遺伝子である。開示した方法は後で、これらのN個の遺伝子に対する計算を制限する。
ステップ2:細胞型特異的重みの計算
開示した方法の例示的な実施形態における第2のステップへの入力は、第1のステップの場合と同じ単一細胞カウント行列であるが、本明細書で述べるように、任意のカウントベースの配列決定データ行列とすることができる。しかし第2のステップも、入力として、細胞素性情報(すなわち、細胞型アノテーション)が必要である。なぜならば、細胞型特異的分散を計算するからである。第2のステップの目的の1つは、細胞型を規定する際の遺伝子の重要性を定量化することである。
図4に、全体または全平均分散及び細胞型内平均分散の代表的な計算を例示する。平均分散を各細胞型内の細胞にわたって計算して、全平均分散と比較する。同じ分散理由により、対数カウントに対する分散(ゼロカウントに1を足す)を計算する。遺伝子が細胞型の中では安定して発現している(すなわち、平均分散が低いことを意味する)が、すべての細胞間では大きく変動する(すなわち、平均分散が高いことを意味する)場合は、その遺伝子はその細胞型に対する良好な指定子となるべきであり、したがって、大きな重みを受けるべきである。
各細胞型の重み(「W」)を形式的に規定するために、「N」を細胞の総数とし、「n」を細胞型「k」における細胞の数とする。したがって、N=n+n+n+....である。特定の遺伝子「i」に対して、σ をすべての細胞にわたる分散とし、σik を細胞型k内でのその遺伝子の分散とする。したがって、特定の遺伝子及び細胞型に対する重みは以下のように表現される。
Figure 2022554386000002

方程式の分子は全平均分散であり、方程式の分母は細胞型内平均分散である。重みを、すべての情報価値のある遺伝子及びすべての細胞型に対して計算して、I×K行列となる。ここで、I及びKはそれぞれ、遺伝子の数及び集塊の数である。開示した方法の第2のステップからの出力は、エントリが各遺伝子に対する細胞型特異的重みである重み行列である。行列の行は遺伝子であり、列は細胞型である。
ステップ3:対象全体にわたる細胞型特異的ガウス分布のフィッティング
開示した方法の例示的な実施形態における第3のステップへの入力は、ステップ1からの単一細胞カウント行列及び非常に変動的な遺伝子のリストならびに細胞型アノテーションを含むが、本明細書で述べるように、任意のカウントベースの配列決定データ行列とすることができる。複数サンプル単一細胞データの場合、サンプル情報も入力しなければならない。
統計的検定によって特定のデータ集合を解析して、より全般的な結論を得る。これを行ういくつかのアプローチがあるが、最も一般的なものは、母集団内のデータが特定の連続的な確率分布を有しているという仮定に基づく。最も一般的に使用される分布は、ベル形状のガウス分布(正規分布とも言われる)である。正規分布は、分布が分かっていない実数値の確率変数を表すために自然及び社会科学で用いられることが多い。ガウス分布を伴う確率変数は正規分布していると言われ、正規偏差と言われる。
開示した方法の特徴の1つは、方法が、混合比率を推定するときに全分布を用いることである。分布を、正規化されたカウントを分布(たとえば、ガウス分布)にフィッティングさせることによって取得して、各遺伝子に対する分散及び平均値を推定する。「正規化する」プロセスは、種々のスケールで測定した値を、通常、平均化する前に共通のスケールに調整する(すなわち、測定単位をなくす)ことを伴う。図5に、ガウス分布をフィッティングさせることによって細胞型特異的分散及び平均値をどのように推定するかを示す。
開示した方法は、複数のサンプルが利用できるか否かに応じて、少なくとも2つの方法を用いて分布(たとえば、ガウス分布)を推定することができる。複数のサンプルが利用できる場合、読み出しカウントを加えることによって細胞を細胞型内でプールして、各細胞型に対するメガ細胞を形成する。メガ細胞によって、技術的制限に起因するデータ希薄及びサンプリング変動が軽減され、したがって、それぞれの特定の細胞型の特有のトランスクリプトームプロファイルがより良好に表現される。しかし、残念ながら、複数のサンプルは常に利用できるわけではない。複数のサンプルが利用できない場合、開示した方法は、分散の推定を、細胞を複数の下位集団にランダムに分け、細胞を各下位集団内でプールして、細胞をそれらが異なるサンプルに由来するように用いることによって行う。
開示した方法は次に、各サンプルに対するメガ細胞カウント行列を正規化する。当該方法は基本的に、以下の文献に開示されるようなRNA-seqデータを正規化する標準的な方法に従う。A.Butler、Nat.Biotechnol.、及びM.Loveら、「Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2」Genome Biol.(2014)。ここでは、データを、各メガ細胞が同じ読み出し総数を有するように再スケール変更し、そして再スケール変更したデータを対数変換する。しかし、開示した方法では、より良好な結果を実現するために、標準的な方法に対していくつかの比較的小さい調整を行う。第1に、対数変換によって、分布(たとえば、ガウス分布)に対する概算値を確実にするが、開示した方法が基づく分散が大きく減る。マイナス面を軽減するために、読み出し総数を大きな数(たとえば、10)に再スケール変更する。第2に、典型的に行列内のゼロに1を足して対数誤差を回避するが、同時に、特に低発現遺伝子に対して分布を好ましくなく変え得る。1を足すことによって満足のいく結果が得られるが、より小さい数(たとえば、0.1)を足した場合、推定精度の改善に役立ち、また方法のステップ5で(以下に)説明するアルゴリズムの収束も高速化する。
開示した方法の第3のステップからの出力は、メガ細胞に対する正規化された発現行列と各選択した遺伝子に対する推定平均値及び分散とを含む。図に例示した例では、出力は2,500ガウス曲線の5つの集合(各細胞型に対して1つ)を含む。この時点で、開示した方法は単一細胞データの処理を完了しており、次にバルクデータに移る。
ステップ4:バルクデータへのガウス分布のフィッティング
ステップ1から選択した遺伝子のリストと複数サンプルバルクRNA-seqカウント行列とを組み合わせて、開示した方法の例示的な実施形態における第4のステップへの入力を形成する。ステップ4はステップ3に実によく似ている。最初に、読み出し総数を再スケール変更して単一細胞解析の場合と同じ数(たとえば、10)にし、そして小さい数(たとえば、0.1)をゼロカウントに足して対数変換を行う。理論的に、バルクRNA-seqデータに対する全読み出しを再スケール変更することは不必要であり、スケール変更していないデータと同様の結果を得る。いくつかの実施形態では、開示した方法は、数値が単一細胞の合計に近いとアルゴリズムの収束が高速化するという現実的な理由で再スケール変更を含んでいる。図6に、ガウス分布をフィッティングさせることによってバルクデータクロスサンプル分散及び平均値をどのように推定するかを示す。開示した方法の第4のステップからの出力は、各選択した遺伝子に対するサンプルにわたる正規化された発現行列及び推定平均値及び分散を含む。
ステップ5:損失関数の規定
開示した方法の例示的な実施形態における第5のステップは、入力として、以前のステップからのすべての出力、すなわち、上位の非常に変動的な遺伝子、遺伝子あたりの細胞型特異的重み、カウントベースの配列決定データ(たとえば、単一細胞RNA配列決定、及びバルクデータ)に対する正規化行列、及び分布平均値(たとえば、ガウス平均値)、及びカウントベースの配列決定(たとえば、単一細胞RNA配列決定、及びバルクデータ)に対する分散推定を取る。機械学習問題の場合、適切な損失関数を選択することはパラメータ推定にとって重要である。損失関数は最新の機械学習の中心である。損失関数はアルゴリズムを理論から実用へ移し、ニューラルネットワークを見せかけの行列乗算から深層学習に変換する。根本的に、損失関数は単純である。それは、どのくらい良好にアルゴリズムがデータセットをモデリングするかを評価する方法である。予測が完全に外れている場合、損失関数が出力する数は大きい。予測が良好である場合、損失関数が出力する数は小さい。モデルを改善しようとしてアルゴリズムの一部を修正しているため、損失関数は、修正が成功する傾向があるか否かについて教えてくれる。
現時点で使用されている最も一般的な損失関数のうちのいくつか(単純なものから複雑なものまで)について考える。平均二乗誤差(MSE)は、理解及び実施が容易で全般的に適度に良好に機能する基本的な損失関数である。MSEを計算するために、予測とグラウンドトゥルースとの間の差を計算し、2乗し、全データセットにわたって平均化する。別の損失関数である尤度関数も比較的単純であり、分類問題において広く用いられている。尤度関数は各入力例に対する予測確率を取って、それらを乗じる。出力を人間が解釈することはできないが、尤度関数はモデルを比較するには有用である。対数損失は、やはり分類問題において用いられることが多い損失関数であり、尤度関数を対数により変更したものである。損失関数は、モデルがどのように機能しているかの静的表現を与えるだけではない。アルゴリズムが最初にどのようにデータにフィットするかについて教えてくれる。ほとんどの機械学習アルゴリズムが、最適化の過程において、またはデータセットに対する最良のパラメータ(重み)を見つける過程において、何らかの損失関数を使用する。
開示した方法のアルゴリズムは、単一細胞データの混合分布とバルク細胞データのそれとの間の差を最小限にすることによって比率パラメータの最良のセットを見つけるようにデザインされている。図7に2つの分布の間の比較を例示する。目標の1つは、単一細胞データの合計とバルク細胞データの間の差を最小限にすることである。したがって、いくつかの実施形態では、開示した方法はKullback-Leibler(KL)発散をその損失関数として用いる(S.Kullback&R.Leibler、On Information and Sufficiency(Ann.Math.Stat.1951)を参照)。KL発散は2つの分布の間の類似性の定量化に特に適している。f(x)及びf(x)を、連続変数Xに対する2つの確率密度関数とする。2つの間のKL発散を次のように規定する。
Figure 2022554386000003

次に、開示した方法の例示的な実施形態の実施態様におけるモデル仕様について説明する。開示した方法は、変数Yを用いて、正規化された発現値を表す。モデルの目標の1つは、バルク組織における細胞型kの比率θを推定することである。細胞型kの遺伝子iに対して、単一細胞発現(S)は以下のようになる。
Figure 2022554386000004

バルクデータ(B)における同じ遺伝子iは以下のようになる。
Figure 2022554386000005

確率密度はそれぞれ
Figure 2022554386000006

である。細胞型kの確率密度は
Figure 2022554386000007

と書かれる。遺伝子iに対する損失関数は以下のようになる。
Figure 2022554386000008

ここで、
Figure 2022554386000009

ステップ1でn個の非常に変動的な遺伝子を選択すると仮定して、すべての遺伝子を考慮した全損失は以下のようになる。
Figure 2022554386000010

実際のバルクデータ分布と単一細胞の混合分布との間の規定した損失関数が、開示した方法の第5のステップからの出力である。単一細胞の比率を損失関数における未知のパラメータとして設定し、次のステップで推定する。
可能であるが、μ’及びσ’をパラメータ化すると、モデルが不必要に複雑になる。なぜならば、開示した方法の目標はθ’の推定だからである。アルゴリズムによって、すべての選択した遺伝子にわたってフィットするグローバルな比率パラメータθ’のセットを見つける。すべての遺伝子にわたる推定誤差がランダム化されて、θ’の推定に対するグローバルな影響が無視できることを考慮すれば、バルク及び単一細胞データからのμ’及びσ’の粗い推定値であれば、アルゴリズムが最良のθ’を見つけるには十分である。したがって、開示したモデルは、ステップ3及び4からの推定したμ’及びσ’を直接使用し、それらを既知のパラメータとして扱って確率密度を計算する。θ’が、モデルにおいて推定する唯一の未知のパラメータである。
ステップ6:モデル推定
開示した方法の第5のステップから出力された実際のバルクデータ分布と単一細胞の混合分布との間の規定した損失関数が、第6のステップに対する入力である。方法は、比率パラメータを推定するために勾配降下法を採用する。勾配降下法は、関数の最小値を見つけるための一次の反復最適化アルゴリズムである。勾配降下法を用いて関数の局所的最小値を見つけるために、現在点における関数の勾配(または近似勾配)の負に比例するステップを取る。代わりに、勾配の正に比例するステップを取った場合、その関数の局所的最大値に近づく。その場合、手順は勾配上昇として知られる。勾配降下法は、M.Cauchyによって1847に最初に提案された(M.Cauchy、Methode Generale Pour la Resolution des Systemes D’equations Simultanees(Ubersetzt von Richard Pulskamp2010)を参照)。Compte rendu des seances l’academie des Sci.(1847)。またD.Bertsekas,Nonlinear Programming(2d Athena Scientific 1999)を参照。
開示した方法は最初に、それぞれのθに対する損失関数の導関数を取ることによって勾配(Gと示す)を導き出す。推論を単純にするために、KL発散をエントロピ及び交差エントロピの項に分解する。
Figure 2022554386000011

ここで、θはθ’の全体集合を表す。パラメータは第2項(すなわち、クロスエントロピ)にのみ存在する。θに対する一次導関数は以下のようになる。
Figure 2022554386000012

の計算は、正規化された発現値のサポートにわたって行う数値積分を伴う。理論上は、Y∈Rである。これは、積分の計算が非常に遅い可能性があることを意味する。アルゴリズムを高速化するために、方法はサポートを99%分位領域内に限定する。方法はさらに、積分を離散近似値と置換する。
Figure 2022554386000013

ここで、Tは、正規化された発現値の99%分位領域からサンプリングされた点の数である。Tが大きくなるほど、近似値は正確になる。T=100が、アルゴリズムの速度の100倍増加を実現しながら、妥当な精度を実現するのに十分な数値であることが分かっている。
勾配降下法を実行するために、方法は、非負のθをθ(0)によりランダムに初期化し、そして同時に、各ステップにおいてすべてのθ’を更新して以下のようにする。
Figure 2022554386000014

ここで、αは学習率である。方法は比率を推定しているので、それぞれの更新において、方法は、合計が1になるようにθ’を再スケール変更する。
Figure 2022554386000015

方法は収束を||θt+1-θ||<0.0005と規定し、十分な精度及び妥当な収束率としてα=0.3を設定する。
いくつかの実施形態では、カウントベースの配列決定データは単一細胞RNA配列決定データであり、カウントベースの配列決定カウントは単一細胞RNA配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞RNA配列決定データ行列である。いくつかの実施形態では、カウントベースの配列決定データはATAC-seqデータであり、カウントベースの配列決定カウントはATAC-seqカウントであり、カウントベースの配列決定データ行列はATAC-seqデータ行列である。
いくつかの実施形態では、各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である。いくつかの実施形態では、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である。
いくつかの実施形態では、選択するステップは、複数の遺伝子内の各遺伝子に対する標準偏差を計算することと、閾値標準偏差数を決定することと、その閾値数を超える標準偏差を有する最も変動的に発現する遺伝子の下位集合を選択することと、を含む。いくつかの実施形態では、細胞型特異的重みを計算するステップは、全平均分散を固定数の細胞のそれぞれに対する細胞型内平均分散と比較することを含む。いくつかの実施形態では、フィッティングさせるステップは、混合比率を推定するときに全分布を用いることを含む。いくつかの実施形態では、フィッティングさせるステップは、正規化されたカウントを分布にフィッティングさせることによって分布を取得して、各遺伝子に対する分散及び平均値を推定することをさらに含む。いくつかの実施形態では、分布はガウス分布である。いくつかの実施形態では、損失関数を規定するステップは、Kullback-Leibler発散を適用することを含む。いくつかの実施形態では、損失関数を適用するステップは、勾配降下法を採用することを含む。
また本開示によって、バルクRNA配列決定データの逆畳み込みを行うためのAdRoit法の別の実施形態が提供される。本明細書で説明する開示した方法の実施形態は、「トランスクリプトーム組成の推論のための正確でロバストな方法」として説明してもよく、頭文字「AdRoit」によって特定してもよい。AdRoit法は、バルクRNA-seq及び空間トランスクリプトームデータを含む複合トランスクリプトームデータから細胞型の比率を正確かつロバストに推定することを目的とする。方法は、基準として、細胞素性アノテーションを伴う関連性のある予め存在する単一細胞RNA-seqデータを使用し、情報価値のある遺伝子を選択し、細胞型あたりの選択した遺伝子の発現平均及び分散を推定する。さらに、一実施形態では、AdRoit法は、サンプルにわたる遺伝子ごとの変動性、ならびにそれらの細胞型特異度を計算し、これにより、モデルにおいて各遺伝子の損失関数は異なる重み付けがなされる。さらにまた、AdRoit法は、単一細胞と目標複合データとの間の技術差を最小限にするように遺伝子ごとのスケーリング係数を計算する。一緒に、AdRoit法はそれらを正則化モデルに送り、遺伝子あたりの損失関数の重み付け合計を最適化することによって細胞型パーセンテージを推定する。方法の精度及びロバスト性には以下が重要となる:1)逆畳み込みタスクに使用する最も情報価値のある遺伝子を選択すること、2)ある細胞型を他のものとどれほど具体的に異ならせることができるかによって及びその発現が複数のサンプルにわたってどれだけ安定であるかによって適切に重み付けされた遺伝子あたりの損失関数、3)異なる配列決定プラットフォームからの遺伝子発現値(たとえば、バルクRNA-seqからのTPMまたは読み出しカウント、単一細胞RNA-seq及び空間トランスクリプトーム配列決定からの固有の分子識別子(UMI))を正規化する遺伝子ごとのスケーリング係数、及び4)密接に関係する細胞型(たとえば、亜型)間の共線性を回避する正則化回帰モデル。
いくつかの実施形態では、バルクまたは空間RNA配列決定データの逆畳み込みを行うためのAdRoit法は、以下の典型的なステップ:i)3つのソース(バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーション)から入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの単一細胞配列決定データの行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ii)細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、iii)遺伝子のクロス細胞型特異度を計算するステップと、iv)各細胞型内で、各遺伝子に対して、複数サンプル利用可能性に応じて各サンプル内の複数の細胞の平均の遺伝子発現に基づいてクロスサンプル遺伝子発現変動性を推定するか、または同じサンプルから細胞をサブサンプリングすることによって複数のサンプルを形成するステップと、v)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、vi)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する。これらのステップを図11に例示する。図では、開示した方法の一実施形態のワークフローの概略を示す。各ステップについては、各ステップに対する入力、出力、及び目的または理論的根拠を参照しながら、順に後述する。これらの各処理ステップはコンピューティング装置(たとえば、コンピュータ)によって行うことができる。いくつかの実施形態では、すべてのプロセスステップをコンピュータによって行う。空間トランスクリプトームは、細胞数が非常に少ない特別な種類のバルク配列決定である。
いくつかの実施形態では、方法は第1のステップを含む。いくつかの実施形態では、方法は第1のステップと、第2、第3、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第2のステップを含む。いくつかの実施形態では、方法は第2のステップと、第1、第3、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第3のステップを含む。いくつかの実施形態では、方法は第3のステップと、第1、第2、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第4のステップを含む。いくつかの実施形態では、方法は第4のステップと、第1、第2、第3、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第5のステップを含む。いくつかの実施形態では、方法は第5のステップと、第1、第2、第3、第4、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第6のステップを含む。いくつかの実施形態では、方法は第6のステップと、第1、第2、第3、第4、及び第5のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。
いくつかの実施形態では、バルクまたは空間RNA配列決定データの逆畳み込みを行うためのAdRoit法は、以下の典型的なステップ:i)遺伝子のクロス細胞型特異度を計算するステップと、ii)各細胞型内で、各遺伝子に対して、複数サンプル利用可能性に応じて各サンプル内の複数の細胞の平均の遺伝子発現に基づいて、クロスサンプル遺伝子発現変動性を推定するか、または同じサンプルから細胞をサブサンプリングすることによって複数のサンプルを形成するステップと、iii)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、iv)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する。各ステップについては、各ステップに対する入力、出力、及び目的または理論的根拠を参照しながら、順に後述する。これらの各処理ステップはコンピューティング装置(たとえば、コンピュータ)によって行うことができる。いくつかの実施形態では、すべてのプロセスステップをコンピュータによって行う。空間トランスクリプトームは、細胞数が非常に少ない特別な種類のバルク配列決定である。いくつかの実施形態では、遺伝子のクロス細胞型特異度の計算は、カウントベースの単一細胞配列決定データの行列から選択した最も変動的に発現する遺伝子の下位集合(3つのソース:i)バルクまたは空間RNA-seqデータ、ii)単一細胞RNA-seqデータ、及びiii)細胞型アノテーションから取得した)からの細胞型あたり遺伝子あたりの発現の推定平均及び分散パラメータに基づいて行い、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む。
いくつかの実施形態では、方法は第1のステップを含む。いくつかの実施形態では、方法は第1のステップと、第2、第3、及び第4のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第2のステップを含む。いくつかの実施形態では、方法は第2のステップと、第1、第3、または第4のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第3のステップを含む。いくつかの実施形態では、方法は第3のステップと、第1、第2、及び第4のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第4のステップを含む。いくつかの実施形態では、方法は第4のステップと、第1、第2、及び第3のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。
ステップ1:遺伝子の選択
開示した方法の第2の実施形態における第1のステップの目的は、最も情報価値のある遺伝子を選択することである。このステップを、単一細胞RNA-seq(scRNA-seq)データに適用するが、本明細書で述べるように任意のカウントベースの配列決定データに適用することができる。ステップは、3つのソース:バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションから入力を取得することによって始まる。したがって、入力データは、各細胞に対応付けられる細胞型アノテーションを伴う単一細胞UMIカウント行列である。行列の各列は細胞に対応し、行列の各行は遺伝子に対応する。行列内の各エントリは、細胞内の特定の遺伝子に対するUMIカウントである。逆畳み込みを行うべきバルクデータは、キロベースミリオンあたりの転写物(TPM)または読み出しカウントとすることができる。行列の各行は遺伝子であり、行列の各列はサンプルである。また逆畳み込みを行うべき空間トランスクリプトームデータもUMIカウント行列であるが、行列の各列は空間スポットであり、行列の各行は遺伝子である。方法のステップを説明する際に用いる数学的表記及び用語を、以下のように規定する。
i-遺伝子のインデックス、i=1,...I
k-細胞型のインデックス、k=1,...,K
k’-遺伝子iの最も高い平均発現を有する細胞型のインデックス
j-サンプル(バルクRNA-seq)または空間スポットのインデックス
- 細胞型kの細胞の数
ik-細胞型kのすべての細胞に対する遺伝子iの単一細胞UMIカウントの集合
ij-バルクサンプルまたは空間スポットj内の遺伝子iのカウント
λik-細胞型kの遺伝子iに対する分散パラメータ
ik-1つのUMIを得る細胞型kの遺伝子iの確率
λij-バルクサンプルまたは空間スポットj内の遺伝子iに対する分散パラメータ
ij-バルクサンプルまたは空間スポットj内の細胞型の遺伝子iに対する確率
μik-細胞型kの遺伝子iの平均発現
Figure 2022554386000016

-細胞型kの遺伝子iの発現の分散
Figure 2022554386000017

-遺伝子iに対する細胞型特異度重み
Figure 2022554386000018

-複製もしくはブートストラップされたバルクサンプルまたは空間スポット内の遺伝子iの平均値
Figure 2022554386000019

-複製もしくはブートストラップされたバルクサンプルまたは空間スポット内の遺伝子iの分散
Figure 2022554386000020

-遺伝子iに対するクロスサンプル変動性重み
τ-細胞型kのパーセンテージの粗い推定値
-遺伝子iに対する適応学習されたスケーリング係数
β-細胞型kに対するスケール変更されていない回帰係数
-βに対する勾配関数
θ-細胞型kのパーセンテージの最終推定値
Figure 2022554386000021

-モデルフィッティングからの推定量
MLE-最尤推定
VMR-分散対平均比
NB()-負の二項分布
LH()-尤度関数
L()-損失関数
入力データを用いて、開示した方法の第2の実施形態における第1のステップは、カウントベースの配列決定データの正規化行列から最も変動的に発現する遺伝子の下位集合を選択する。カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む。細胞型組成の逆畳み込みに成功するためのステップは、遺伝子の適切な集合を選択することである。方法は、細胞型を区別するための重要な情報を含む遺伝子を選択して、ノイズを導入する可能性がある情報価値のない遺伝子を除外する。
図12Aに例示するように、方法は、2つの代替選択肢の1つにおいて遺伝子を選択する。第1の選択肢は、単一細胞UMIカウント行列内の各細胞型において発現が富化される遺伝子の集団を用いることである。これらの遺伝子はマーカー遺伝子と言う。第2の選択肢は、単一細胞UMIカウント行列内のすべての細胞間で最も変動する遺伝子の集団を用いることである。これらの遺伝子は非常に変動的な遺伝子と言う。この第2の選択肢では、細胞数バランシング及び分散安定化変換(VST)正規化の後に、各遺伝子に対する分散を計算し、そして分散が最も高い遺伝子を選択する。いずれの選択肢も、同程度に正確な推定値が得られる。
マーカー遺伝子を選択するために、所定のマーカー遺伝子リストを入力するか、または組み込みツールを用いることができる。組み込みツールが、入力として、単一細胞UMIカウント行列及び細胞型アノテーションを取る。各細胞型に対して、ツールは、その細胞型における平均UMIと他のすべての細胞型における平均UMIとの間の倍率変化を計算し、そして倍率変化の降順によって遺伝子をランク付けする。複雑な複合トランスクリプトームデータを解くには、各細胞型から上位約200個の遺伝子を選択すれば十分である。いくつかの遺伝子が複数の細胞型をマークし得るので、特異度を確実にするためには5以下の細胞型に存在する選択したマーカーが望ましい。代替的に、特異度を確実にするために、固定数以下の細胞型または細胞型の総数の一部のいずれか小さい方に存在する選択したマーカーでもよい。正確な推定を確実にするには、すべての細胞型のマーカー遺伝子の集団から最低でも合計約1,000個の固有の遺伝子を選択することが望ましい。
マーカー遺伝子を見つけることは、しばしば時間がかかり、膨大なコンピュータ資源が必要となる可能性がある。しかし、マーカー遺伝子がすぐには利用できない場合でも、方法は非常に変動的な遺伝子を選択することができる。通常、これらの遺伝子も細胞型を区別するために情報価値がある。小さな集塊を過小評価する一方で選択した非常に変動的な遺伝子が大きな細胞集塊によって占められ得る危険性を回避するために、単一細胞UMIカウント行列内の細胞型を、すべての細胞集塊のメジアン径を見つけることによってバランシングすることができる。そして、各集塊からの細胞をこの径に等しくなるようにサンプリングすることができる。次に、方法は、バランシングされた単一細胞UMI行列内の細胞にわたる各遺伝子の分散を計算する。RNA-seqデータにおいて良く知られた過分散の性質を考えると、カウント行列から分散を直接計算した場合に誤差が発生しやすくなる可能性がある。したがって、方法は分散安定化変換(VST)によって正規化データに対する分散を計算する。Anders,S.&Huber,W.、「Differential expression analysis for sequence count data」、Genome Biol.(2010)を参照。上位2,000個の大きな分散を伴う遺伝子を選択することができる。非常に変動的な遺伝子を選択するアルゴリズムは、A.Butler、Nat.Biotechnolに開示された「Seurat」Rパッケージにプログラムされたものと同じである。
図12Bに、選択することができる細胞の種類を例示する仮説例を示す。4つのグラフを示している。4つの遺伝子のそれぞれに対して1つのグラフがあり、各グラフは遺伝子発現対細胞型を反映している。図示した例において、遺伝子3が細胞型にわたる良好な変動を示し、遺伝子4が細胞型C1に対する強力なマーカーである。これらの遺伝子のいずれも、種々の細胞型に関する良好な情報を有しており、したがってモデリング用に選択することができる。
ステップ2:細胞型あたりの遺伝子平均値&分散の推定
単一細胞RNA-seqデータをモデリングすることは、細胞異質性及び技術的感度及びノイズのせいで困難である可能性がある。いくつかの遺伝子の発現は偶然に検出されない可能性があるが、他の遺伝子は非常に分散していることが見つかり得る。分散している遺伝子は、同じ細胞型内であっても過剰な変動性につながる可能性がある。加えて、研究あたりの細胞の数がますます増えているため、トレーニングサンプルとして全ての細胞を用いて細胞パーセンテージを直接推定することは、計算上困難である。開示した方法は、細胞型レベルで個々の細胞を集めることによって高ノイズ及び計算複雑性に対抗する。細胞型あたりの各遺伝子の平均及び分散を推定することができる。この方策によって、細胞型特異的情報を保持しながらデータ複雑さが減少する。
RNA-seqデータの典型的な分析は正規化から始まるが、開示した方法では平均値の推定前には正規化しない。すべての細胞型にわたって正規化を行うことによって、すべての細胞型は強制的に、細胞あたりの合計UMIカウントによって測定される同じ量のRNA転写物を有する。しかし異なる細胞型は、劇的に異なる量の転写物を有する可能性がある。たとえば、神経細胞内のRNA転写物の量はグリア細胞内の量の約10倍である。したがって、正規化が細胞型の相対存在量を誤って変えて、細胞型パーセンテージの推定を誤った方向に導く可能性がある。この問題を回避するために、開示した方法では生のUMIカウントを用いて平均値をモデリングする。
UMIのカウントは負の二項分布に従うことが研究によって示されている。Hafemeister,C.&Satija,R.、「Normalization and variance stabilization of single-cell RNA-seq data using regularized negative binomial regression」、Genome Biol.(2019);及びSvensson,V.,「Droplet scRNA-seq is not zero-inflated」、Nature Biotechnology(2020)を参照。したがって、開示した方法は各細胞型の単一細胞に負の二項分布をフィットさせる。図13に、細胞型kにおける各遺伝子に対して負の二項分布をフィッティングさせることによって平均及び分散パラメータを推定するステップを例示する。開示した方法では、選択した遺伝子からの推定平均及び分散パラメータに基づいて、後でモデルを構築する。より具体的には、Xikを、
細胞型k∈1,...,Kにおけるすべての細胞に対する遺伝子i∈1,...,Iの単一細胞UMIカウントの集合とする。文字Iは選択した遺伝子の数を示し、Kは単一細胞基準における細胞型の数を示す。Xikの分布は負の二項分布に従う。
Figure 2022554386000022

ここで、λikは、細胞型kにおける遺伝子iの分散パラメータであり、pikは成功確率、すなわち、細胞型kにおける遺伝子iが1つのUMIを得る確率である。2つのパラメータは最尤推定(MLE)によって推定される。尤度関数は以下の通りである。
Figure 2022554386000023

ここで、nは細胞型kにおける細胞の数であり、fは負の二項分布の確率質量関数である。そしてMLE推定は以下によって与えられる。
Figure 2022554386000024

成功確率及び分散を推定したら、平均推定値を、負の二項分布の特性に従って数値的に計算することができる。
Figure 2022554386000025

MLEを用いた推定は多くのRパッケージにおいて容易にコーディングされている。Rとは、統計計算用のRファンデーションによってサポートされる統計計算及びグラフィックス用プログラミング言語及びフリーソフトウェア環境である。「fitdistrplus」パッケージからの「fitdist()」関数が好適であり、分布を選択する際の高速の計算速度及び柔軟性を提供する。開示した方法では、各細胞型における各選択した遺伝子に対して推定を行い、結果として細胞型平均値のI×K行列となる。
ステップ3:遺伝子のクロス細胞型特異度の計算
細胞型特異的発現パターンを伴う遺伝子は特定の細胞型をより良好に表し、したがって、細胞型組成を解くために用いるときにより重要である。この特性に沿って、開示した方法は、特異度が低い遺伝子よりも特異度が高い遺伝子に重み付けする。特異度の高い遺伝子は通常、細胞型内の細胞の間で一貫して高い発現及び比較的低い分散を有する。遺伝子の細胞型特異度を計算するために、開示した方法は最初に、遺伝子が最も高い発現を有する細胞型(すなわち、最も特異的に発現される細胞型)を特定し、次にこの遺伝子の特異度を細胞型内の平均対分散比として規定する。後述するモデルでは、比が高いときに高い重みを遺伝子に割り当てる。開示した方法では、ステップ2からの負の二項フィッティングからの推定平均及び分散パラメータを用いる(前述の方程式におけるμik及び
Figure 2022554386000026

k’を、遺伝子iの最も高い平均発現を有する細胞型のインデックスとし、
Figure 2022554386000027

そして、遺伝子iに対する細胞型特異度重み(
Figure 2022554386000028

を示す)を次のように与える。
Figure 2022554386000029

細胞型特異度重みを、選択した遺伝子の集合内の各遺伝子に対して計算する。ここでは2つのパラメータ(各細胞型内での平均の遺伝子発現レベル及び分散)を用いるが、基準を細胞型特異的であると特定することなく、平均の遺伝子発現レベルのみを用いて、異なる細胞型間で比較する。たとえば、発現は、最も高い発現細胞型において、2番目または残りの細胞型の平均よりも少なくともx倍高い。
ステップ4:クロスサンプル遺伝子変動性の推定
遺伝子の変動性は遺伝子がサンプル間でどのくらい安定であるかを示す。サンプル間の変動性に基づいて遺伝子に重み付けする考え方は、Wangら(前出)による論文において発表されている。Wangらは変動性をクロスサンプル分散と規定した。変動性が高い遺伝子に重み付けすることによって、著者は従来の重み付けしない方法と比べて大きな利点を実現した。クロスサンプル変動性が低い遺伝子は母集団をより良好に表しており、したがって細胞組成を学習するために用いるときにより信頼できる。開示した方法では同様の考え方を取り入れて遺伝子の重要性に重み付けしている。開示した方法は、異なる、より優れた方法で変動性を規定する。具体的には、開示した方法は分散対平均比(VMR)を用いてクロスサンプル遺伝子変動性を規定する。ここで、平均及び分散をサンプル全体にわたって計算する。VMRは、単純な分散よりも良好にスケール変更され、発現が低い遺伝子の不足な重み付けと不安定な遺伝子の過剰な重み付けの両方を回避することができる。
加えて、開示した方法は、複数のサンプルが利用できるわけではない応用例に対処するように拡張することができる。VMRの計算には、複数サンプルデータが利用できるか否かに応じて3つの選択肢が利用できる。典型的に、逆畳み込みを行うべき複合トランスクリプトームデータは複数のサンプルを有している。バルクRNA-seqデータでは、複数のサンプルが通常、生物学的変動性に対して制御するために含まれている。空間トランスクリプトームデータでは、隣接する空間ドットを複数のサンプルとして見ることができる。したがって、第1の選択肢では、開示した方法は、複合トランスクリプトームデータからクロスサンプル遺伝子変動性を計算する。第2の選択肢では、複合データは複数サンプルを有していないが、単一細胞データは有しており、開示した方法は、複数の複合サンプル(それぞれ、単一細胞基準におけるサンプルの1つに属するすべての細胞の平均である)を合成する。最後に、両方の種類のデータに対して複数サンプルが利用できない場合、第3の選択肢では、開示した方法は単一細胞を繰り返しブートストラップし、サンプリングした細胞を平均して、複数の、合成された複合サンプルを作る。
複数の複合サンプルを取得した後で、Yijにより、サンプルj∈1,...,Jにおける遺伝子iに対する配列のカウントを表示し、
Figure 2022554386000030

ここで、λijは、複合サンプルjにおける遺伝子iの分散パラメータであり、pijは成功確率である。再び、開示した方法はMLEを用いて推定
Figure 2022554386000031

を得て、その後、クロスサンプル平均及び分散を数値的に計算することができる。
Figure 2022554386000032

Figure 2022554386000033

そして、遺伝子iに対するクロスサンプル変動性を次のように規定する。
Figure 2022554386000034

ここで、
Figure 2022554386000035

はモデルにおいて後で用いる。クロスサンプル変動性重みを、選択した遺伝子の集合内の各遺伝子に対して計算する。
ステップ5:遺伝子ごとのスケーリング係数の推定
複合データを単一細胞データにリンクするとき、ライブラリサイズ及びプラットフォームの違いを考慮するために再スケーリング係数を用いることが多い。既存の方法はすべて、サンプルの各単位に対して単一の再スケーリング係数を採用する。すなわち、単一サンプルのすべての遺伝子に同じ係数を乗じる(Wangら(前出)及びAnderssonら、「Spatial mapping of cell types by integration of transcriptomics data」bioRxiv(2019)を参照)。この操作は、すべての遺伝子に対するプラットフォームの違いの影響は同じであり、異なる細胞型間で線形的にスケール変更されるという仮定に基づいているが、これはほとんど正しくない。加えて、推定は線形モデルにおける異常値の影響を容易に受ける可能性があるため、細胞比率の推定は、極めて高い異常値遺伝子によって真実から遠ざけられる可能性がある。したがって、すべての遺伝子に均一なスケーリング係数を適用することは不適切である。
この問題を打開するために、開示した方法では、代わりに、適応学習戦略を介して遺伝子ごとのスケーリング係数を推定し、各遺伝子をその対応するスケーリング係数によって再スケール変更する。続行するために、開示した方法は最初に、複合サンプルからの平均の遺伝子発現(前述のステップ4からの
Figure 2022554386000036

と、単一細胞データからの各細胞型の推定平均値(前述のステップ2からのμik)とを入力し、次に従来の非負最小二乗回帰(NNLS)を適用して、各細胞型の比率の粗い推定(τと示す)を得る。Chen,D.&Plemmons,R.、「Nonnegativity constraints in numerical analysis」、The Birth of Numerical Analysis(2009)を参照。各遺伝子に対して、予測される平均発現(以下の等式における
Figure 2022554386000037

を各細胞型の平均値の重み付き和として計算する。重みは粗く推定した比率である。回帰方程式は以下のように与えられる。
Figure 2022554386000038

ここで、Aは、τの合計が1になることを確実にするための定数であり、εは誤差項である。開示した方法では、パッケージ「nnls」における「nnls()」関数を用いてτを推定する。次に、開示した方法は、複合サンプルからの平均発現と予測平均との間の比を計算し、遺伝子ごとの再スケーリング係数を比プラス1の対数として規定する。
Figure 2022554386000039

データの分散特性を考えると、比の対数は、比較的安定なスケーリング係数となるため、より適切な統計値である。1を足すことによって、対数がゼロになることが回避される。フレキシブルな遺伝子ごとの再スケーリング係数を乗じることによって、「異常値」遺伝子は真の回帰直線の方に押される一方で、真の回帰直線の周りの遺伝子はそれほど影響を受けない。
図14に、遺伝子ごとのスケーリング係数の効果を実証する仮説例を示す。理想的には、傾斜(すなわち、細胞パーセンテージ)の正確な推定は、図14における一番左側の線の傾斜であろう。しかし直接フィッティングさせると、異常値遺伝子の影響を受けて、一番右側の線になる。プラットフォームの違いが遺伝子に与える影響が異なっているために、異常値遺伝子が誘起される可能性がある。開示した方法では、適応学習アプローチを採用する。ここでは、最初に傾斜の粗い推定(すなわち、一番右側の線)を学習し、次に異常値遺伝子をそれに向かって動かすことを、大きく外れている遺伝子ほど真の線に向かって大きく(すなわち、より長い矢印に沿って)動くように行う。この調整の後、新しく推定された傾斜(中心線)は真の線(一番左側の線)により近く、したがって、より正確な推定である。
ステップ6:重み付け及び正則化回帰モデルの構築
第6のステップでは、開示した方法は、前述の係数のすべてを取り入れて細胞パーセンテージの実際の推定を行うモデルを構築する。方法は、非負最小二乗回帰モデルに基づいて構築され、細胞型特異度が高くてクロスサンプル変動性が低い遺伝子に高い重みを与える。このステップは、損失関数Lを2乗したものの重み付き和を最適化することによって行う。重みは2つのコンポーネントからなる。前述のステップ3からの
Figure 2022554386000040

と前述のステップ4からの
Figure 2022554386000041

とである。各遺伝子に対して適応された遺伝子ごとのスケーリング係数によって、複合サンプルと単一細胞データとの間の技術差が最小限になる(前述のステップ5からのr)。
多くの非常に類似した亜型が一般的である複雑な組織(たとえば、神経組織)の場合には、密接に関連する亜型が強力な共線性を持つ可能性があり、いくつかの細胞型を過大評価する一方で他を過小評価するかまたは見逃すことにつながる。開示した方法は、推定のL2ノルムを正則化コンポーネントとして含むことによってこの問題に対処する。βを、細胞型kに対するスケール変更されていない係数として示す。複合トランスクリプトームサンプルjの場合、損失関数は以下のように与えられる。
Figure 2022554386000042

そして、係数βを、損失関数を制約β,...,β>0によって最小限にすることによって推定することができる。
Figure 2022554386000043

推定は、Byrdら、「A Limited Memory Algorithm for Bound Constrained Optimization」、SIAM J.Sci.Comput.(1995)に開示された勾配投影法によって行う。勾配関数を、損失関数のβに対する偏導関数を取ることによって得る。
Figure 2022554386000044

開示した方法は、Rパッケージ「stats」からの関数「optim()」を用いて推定を行って、前述の損失関数及び勾配関数を得る。細胞型比率の最終推定値を得るために、開示した方法は、係数βを再スケール変更して合計1を確実にする。
Figure 2022554386000045

前述のモデルによって、各複合サンプルjを独立に推定する。
いくつかの実施形態では、カウントベースの配列決定データの正規化行列からの複数の遺伝子は、少なくとも約20,000個の遺伝子を含む。いくつかの実施形態では、最も変動的に発現する遺伝子の選択した下位集合は約1,000~約5,000個の遺伝子を含む。いくつかの実施形態では、最も変動的に発現する遺伝子の選択した下位集合は約2500個の遺伝子を含む。
いくつかの実施形態では、本明細書で説明する方法のいずれかはさらに、バルクまたは空間RNA配列決定データを取得した各細胞型からRNAの比率を特定することを含むことができる。いくつかの実施形態では、本明細書で説明する方法のいずれかはさらに、バルクまたは空間RNA配列決定データを取得した各細胞型の比率を特定することを含むことができる。いくつかの実施形態では、本明細書で説明する方法のいずれかはさらに、バルクまたは空間RNA配列決定データを取得した各細胞型からRNAの比率を特定することを含むことができる。いくつかの実施形態では、本明細書で説明する方法のいずれかはさらに、バルクまたは空間RNA配列決定データを取得した各細胞型の比率を特定することを含むことができる。
カウントベースの配列決定データ(たとえば、scRNA-seqデータ)からの情報を用いてバルクまたは空間RNA配列決定データの逆畳み込みを行う方法は、種々の方法で用いることができる。全般的に、本明細書で説明する方法によって、複数の細胞型の母集団内の特定の細胞型のよりロバストで正確な推定が得られる。加えて、本明細書で説明する方法は、すべてのカウントベースの配列決定データに適用することができる(すなわち、本明細書で説明する方法はscRNA-seqデータに限定されず、他の種類のカウントベースの配列決定データ、たとえばATAC-seqに、RNA以外の細胞生産物に、及び広範囲の混合サンプル、たとえば異なる組織の混合物に適用することができる)。
本明細書で説明する方法は、たとえば、単一細胞型の遺伝子発現パターンが与えられた場合に1つ以上の特定の細胞型に対する混合比率を推定するために用いることができる。バルク組織は通常、異なる比率の複数の細胞型からなる。一例として肝臓を用いた場合、肝細胞、星脂肪摂取細胞、クッパー細胞、及び内皮細胞が存在する。本明細書で説明する方法を用いて、バルク肝臓組織におけるこれらの個々の細胞型の比率を推定することができる。1つ以上の特定の細胞型に対する混合比率を、たとえば、臓器、組織、細胞培養などに対して決定することができる。
また本明細書で説明する方法を、たとえば、組織混入を検出するために用いることができる。たとえば、ヒトから取得した生検材料または他の組織サンプルは、生検材料内に望ましい第1の細胞型を有する場合があるが、第2の望ましくない細胞型を有するかまたは有する疑いがある場合がある。本明細書で説明する方法を用いて、生検材料または組織サンプルに第2の細胞型が混入しているか否か、及びそうである場合には混入量を決定することができる。例を示すために、心臓組織からのRNA-seqデータ内に筋肉混入が見られることが多い。本明細書で説明する方法を、解剖及び隔離の間に心臓組織に筋細胞が混入しているか否かを判定し、心臓組織サンプル内に筋細胞がどれだけ存在するかを推定するために用いることができる。
また本明細書で説明する方法を、たとえば、腫瘍浸潤を検出するために用いることができる。たとえば、本明細書で説明する方法を用いて、生検材料または他の組織サンプルをヒトの内部の特定の腫瘍から取得することができ、非腫瘍細胞による腫瘍の浸潤の存在、素性、及び/または程度を決定することができる。いくつかの実施形態では、腫瘍を浸潤させる非腫瘍細胞は、免疫細胞たとえば、マクロファージ、リンパ球、及びナチュラルキラー細胞などである。いくつかの実施形態では、リンパ球はBリンパ球及び/またはTリンパ球である。いくつかの実施形態では、リンパ球は腫瘍浸潤リンパ球(TIL)である。免疫細胞(たとえば、Tリンパ球)によって浸潤された腫瘍は「炎症性」腫瘍である。腫瘍が浸潤Tリンパ球を少数だけ含むかまたはまったく含まない(そのため、認識されず、免疫システムによる強力な応答も引き起こさない)場合は、「非炎症性」腫瘍である。したがって、本明細書で開示する方法を用いて、ヒトの内部の特定の腫瘍が、たとえば医療従事者によって、炎症性腫瘍または非炎症性腫瘍であると考えられるか否かを、免疫細胞による腫瘍の浸潤の存在、素性、及び/または程度を決定することによって判定することができる。炎症性腫瘍の方が非炎症性腫瘍よりも、免疫療法により感受性を示す。したがって、炎症性腫瘍のあるヒトの方が非炎症性腫瘍のあるヒトよりも、免疫療法に対する良好な候補である。炎症性及び非炎症性腫瘍は、たとえば以下に記載されている。Galonら、Nat.Rev.Drug Disc.、2019、18、197-218、Bonaventuraら、Front.Immunol.、2019、10、168、1-10、及びSeidelら、Front.Oncol.、2018、8、86.したがって、本明細書で説明する方法を用いて、免疫療法に対するその感受性に対して患者を階層化することができる。また方法を、特定の腫瘍内の浸潤細胞(たとえば、免疫細胞)の比率を推定するために用いることができる-免疫療法に感受性を示す患者を特定するために用いることができる。いくつかの実施形態では、本明細書で説明する方法はさらに、浸潤腫瘍を有するヒトに免疫療法を施すことを含む。
いくつかの実施形態では、バルクRNA配列決定データを取得した細胞には腫瘍細胞が含まれ、方法はさらに腫瘍細胞の中の免疫細胞の比率を特定することを含む。いくつかの実施形態では、免疫細胞は腫瘍浸潤リンパ球を含む。いくつかの実施形態では、免疫細胞はCD8陽性Tリンパ球を含む。いくつかの実施形態では、免疫細胞はCD8陽性Tリンパ球及び樹状細胞を含む。いくつかの実施形態では、本明細書で説明する方法はさらに、腫瘍細胞を取得した腫瘍を炎症性腫瘍または非炎症性腫瘍と特徴付けることを含む。
いくつかの実施形態では、腫瘍を炎症性腫瘍と特徴付けて腫瘍は対象内に存在し、方法は、対象が、浸潤免疫細胞の閾値レベルを下回るか、等しいか、または上回るかを判定することをさらに含む。いくつかの実施形態では、免疫細胞はCD8陽性Tリンパ球を含む。いくつかの実施形態では、免疫細胞はCD8陽性Tリンパ球及び樹状細胞を含む。いくつかの実施形態では、対象は浸潤免疫細胞の閾値レベルを上回っており、方法は、対象を免疫療法に対する候補として特定することをさらに含む。
いくつかの実施形態では、免疫療法は養子細胞療法を含む。いくつかの実施形態では、養子細胞療法はキメラ抗原受容体T細胞(CAR-T細胞)療法を含む。いくつかの実施形態では、免疫療法は免疫チェックポイント阻害療法を含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、細胞障害性Tリンパ球関連抗原-4(CTLA-4)を阻害する抗体、プログラム細胞死タンパク質1(PD-1)を阻害する抗体、プログラム細胞死リガンド1(PD-L1)を阻害する抗体、もしくはリンパ球関連遺伝子3(LAG3)を阻害する抗体、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、細胞障害性Tリンパ球関連抗原-4(CTLA-4)を阻害する抗体(たとえば、限定することなく、イピリムマブ及びREGN4659)を含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、プログラム細胞死タンパク質1(PD-1)を阻害する抗体(たとえば、限定することなく、ニボルマブ、ペムブロリズマブ、及びセミプリマブ)を含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、プログラム細胞死リガンド1(PD-L1)を阻害する抗体(たとえば、限定することなく、アテゾリズマブ)を含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、リンパ球関連遺伝子3(LAG3)を阻害する抗体(たとえば、限定することなく、REGN3767)を含む。
また本明細書で説明する方法は、たとえば、腫瘍微小環境を特徴付けるかまたは採点するために用いることができる。たとえば、本明細書で説明する方法を用いて、生検材料または他の組織サンプルをヒトの内部の特定の腫瘍から取得することができ、腫瘍微小環境細胞による腫瘍微小環境の浸潤の存在、素性、及び/または程度を決定することができる。腫瘍微小環境細胞としては、間質細胞及び免疫細胞が挙げられるがこれらに限定されない。間質細胞としては、線維芽細胞(たとえば、癌関連線維芽細胞)、癌関連脂肪細胞、周皮細胞、及び内皮細胞(たとえば、リンパ内皮細胞及び血管内皮細胞)が挙げられるが、これらに限定されない。免疫細胞としては、マクロファージ、リンパ球、及びナチュラルキラー細胞が挙げられるが、これらに限定されない。いくつかの実施形態では、リンパ球はBリンパ球及び/またはTリンパ球である。いくつかの実施形態では、Tリンパ球はTILである。
ヒトが、このような腫瘍微小環境細胞によって浸潤された腫瘍微小環境を有する場合、このような腫瘍微小環境細胞によって浸潤されていない腫瘍微小環境の場合よりも癌が進行した段階にある。したがって、本明細書で開示する方法を用いて、ヒトの内部の腫瘍微小環境が、たとえば医療従事者によって、癌の進行期にあると考えられるか否かを、腫瘍微小環境細胞による腫瘍微小環境の浸潤の存在、素性、及び/または程度を決定することによって判定することができる。したがって、本明細書で説明する方法を用いて、腫瘍微小環境の細胞型組成に基づいて、免疫療法に対するその感受性に対して患者を階層化することができる。また方法を、特定の腫瘍微小環境内の浸潤細胞の比率を推定するために用いることができる-免疫療法に感受性を示す患者を特定するために用いることができる。いくつかの実施形態では、本明細書で説明する方法はさらに、浸潤腫瘍微小環境を有するヒトに免疫療法を施すことを含む。
いくつかの実施形態では、バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の腫瘍細胞の比率を特定することを含む。いくつかの実施形態では、バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の免疫細胞の比率を特定することを含む。いくつかの実施形態では、バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の癌関連線維芽細胞の比率を特定することを含む。いくつかの実施形態では、バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の癌関連脂肪細胞の比率を特定することを含む。いくつかの実施形態では、バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中のリンパ内皮細胞の比率を特定することを含む。いくつかの実施形態では、バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の血管内皮細胞の比率を特定することを含む。
また本明細書で説明する方法を用いて、たとえば、ランゲルハンス島(膵臓内部の内分泌細胞の集塊である)のサンプルにおける細胞型比率を推定することができる。膵島は5つの内分泌細胞種類(α、β、δ、ε、及びγ)を含み、そのうちβ細胞は、インスリンを分泌し、2型糖尿病を有するヒトの中で徐々に失われる。β細胞の「正常な」母集団は約50~60%でなければならない。したがって、本明細書で説明する方法による膵島細胞の細胞型比率の決定を、2型糖尿病の存在を判定し、その発症及び/または処置を追跡するために用いることができる。
また本明細書で説明する方法を用いて、たとえば、腎臓細胞のサンプル内の細胞型比率を推定して、腎臓機能が徐々に失われることによって特徴付けられる腎臓病(たとえば、慢性腎臓病(CKD)など)を検出することができる。線維症は、すべてのCKDモデルに共通する組織学的特徴である。好中球及び有足細胞に加えて、腎臓細胞は2つの大きなグループに分類される:免疫細胞種類(マクロファージ、線維芽細胞、Tリンパ球、Bリンパ球、及びナチュラルキラー細胞)及び腎臓特異的な細胞型(近位尿細管(PT)、遠位尿細管、ヘンレ係蹄、集合管を形成する2つの細胞型、及び内皮細胞)。これらの中で、PTは腎臓において支配的な細胞型であり、PT細胞の比率はCKD進行とともに減少することが分かっている。遠位尿細管細胞(DCT)は、腎臓において2番目に多い細胞型であることが分かっており、予想される比率は約10~20%である。DCT細胞の比率は、CKDの病状進行とともに一貫して増加することを示す。加えて、免疫細胞(特にマクロファージであるが、線維芽細胞、Bリンパ球、及びTリンパ球も)は、CKDの発病において中心的役割を担うことが分かっており、組織炎症が腎臓線維症の一貫した特徴であることを示す臨床及び組織学的観察と整合する。したがって、本明細書で説明する方法による腎臓細胞の細胞型比率の決定を、腎臓病(たとえば、CDK)の存在を判定し、その発症及び/または処置を追跡するために用いることができる。
また本明細書で説明する方法を、たとえば、細胞集団内の活性化または分化細胞の存在及び程度を検出するために用いることができる。たとえば、任意の細胞集団内で、特定のパーセンテージの細胞が活性化される可能性があり、別のパーセンテージの細胞が非活性である可能性がある。同様に、任意の細胞集団内で、特定のパーセンテージの細胞が分化される可能性がある、別のパーセンテージ細胞が未分化である可能性がある。このような細胞の段階(活性化対非活性及び/または分化対未分化)を場合によっては用いて、たとえば、前駆細胞から成熟した分化細胞への特定の細胞の発達を追跡するか、または正常細胞から罹患細胞への変化を追跡することができる。
いくつかの実施形態では、本明細書で説明する方法はコンピュータ実装である。方法は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせにおいて実施し得る。いくつかの実施形態では、方法は、少なくとも1つのプロセッサと、プロセッサによって読取可能な記憶媒体(たとえば、揮発性及び不揮発性メモリならびに/または記憶要素などを含む)と、入力及び出力デバイスとを含むプログラム可能なコンピュータシステム上で実行される1つ以上のコンピュータプログラムにおいて実施される。コンピュータシステムは、1つ以上の物理マシンまたは1つ以上の物理マシン上で実行される仮想マシンを含み得る。加えて、コンピュータシステムは、コンピュータまたはインターネットまたは他のネットワークによって接続された多くの分散コンピュータのクラスターを含み得る。
各コンピュータプログラムは、コンピュータシステムのランダムアクセスメモリ内に常駐するコードモジュール内の命令のセットまたはプログラムコードとすることができる。コンピュータシステムに要求されるまで、命令セットを別のコンピュータメモリ(たとえば、ハードディスクドライブに、またはリムーバブルメモリ、たとえば光ディスク、外部ハードドライブ、メモリカード、またはフラッシュドライブに)記憶してもよいし、または別のコンピュータシステム上に記憶して、インターネットまたは他のネットワークを介してダウンロードしてもよい。各コンピュータプログラムを種々のコンピュータプログラミング言語(一例として、Pythonを含む)において実施することができる。
バルクRNA配列決定データの逆畳み込みを行うための開示した方法(コンピュータ実装方法を含む)、コンピュータプログラム、コンピュータシステム、及び装置はそれぞれ、全体として、抽象的なアイデアをはるかに超えた豊富なステップ及び要素を述べている。最初の事柄として、方法、プログラム、システム、及び装置はそれぞれ、バルクRNA配列決定データの逆畳み込みを行うタスクを自動化するための特定のルールベースのアプローチを教示する。方法、プログラム、システム、及び装置はそれぞれ、個々のステップ及び要素によって規定された特定の要求を伴う順序付けられた組み合わせを教示する。これらのルールの特定の開示したステップ及び要素は、広く普及してはおらず、それらの組み合わせは良く理解された日常的な従来の活動ではない。むしろ、これらのルールの特定の開示したステップ及び要素によって、開示した方法、プログラム、システム、及び装置によって実現される改善が可能になる。
さらに、開示した方法、プログラム、システム、及び装置の1つのフォーカスは、コンピュータ能力における特定の主張された改善にある。それらはコンピュータ自体の機能を改善する。本開示に関連するコンピュータに対する改善には、論理構造及び処理に対するソフトウェア改善が含まれる。コンピュータ技術において形成される進歩のほとんどは、まさしくその性質により特定の物理的特徴ではなくむしろ論理構造及び方法によって規定され得るソフトウェアに対する改善からなる。開示した方法、プログラム、システム、及び装置の特定のステップ及び要素は、コンピュータがメモリにデータを記憶して取り出す方法を改善するようにデザインされた特定の種類のデータ構造を構成する。開示した方法、プログラム、システム、及び装置は、コンピュータの機能を改善し、バルクRNA配列決定データの逆畳み込みを行う技術的タスクを改善することに向けられている。既存の技術的タスクを改善したのは、開示したステップ及び要素を取り入れたことであって、コンピュータを用いたことではない。コンピュータ関連技術の向上は、コンピュータまたはコンピュータネットワークそれ自体の動作の向上に限定されず、コンピュータ関連技術を向上させる「ルール」(基本的に数学的な関係)のセットも含み得る。
さらにまた、開示した方法、プログラム、システム、及び装置によって、コンピューティング装置が以前はできなかった事柄(たとえば、バルクRNA配列決定データの逆畳み込みをより高い精度で行い、比率が約0.5%未満の細胞型を検出すること)を行えるようになる。開示した方法、プログラム、システム、及び装置によって、バルクRNA配列決定データの逆畳み込みを行う領域で具体的に生じる問題を打開するために必然的にコンピュータ技術に根ざした解決方法が提供される。本明細書で説明するように、開示した方法、プログラム、システム、及び装置は、バルクRNA配列決定データの逆畳み込みを行うために用いられる既存の方法、プログラム、システム、及び装置の計算上の制限に対処するための特定のアプローチを教示する。開示した方法、プログラム、システム、及び装置は、バルクRNA配列決定データの逆畳み込みを特定の新しい非自明の方法で少なくとも正確及び効率的に行うことによって、既存の方法、プログラム、システム、及び装置の欠点を打開する。
また本開示によって、1つ以上のコンピューティング装置にバルクRNA配列決定データの逆畳み込みを行わせるように適応されたプロセッサ実行可能命令を記憶するコンピュータ可読媒体が提供される。いくつかの実施形態では、プロセッサ実行可能命令を記憶するコンピュータ可読媒体は、1つ以上のコンピューティング装置に、バルクRNA配列決定データの逆畳み込みを、i)最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ii)カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、iii)各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、iv)正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクRNA配列決定カウントを含む、ステップと、v)バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、vi)損失関数を適用してバルクRNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上と、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測することと、によって行わせるように適応されている。これらの実施形態はそれぞれ、本明細書で開示する方法の実施形態のいずれかを用いて行うことができる。
いくつかの実施形態では、プロセッサ実行可能命令を記憶するコンピュータ可読媒体は、1つ以上のコンピューティング装置に、バルクRNA配列決定データの逆畳み込みを、i)3つのソース(バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーション)から入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ii)細胞型あたり遺伝子あたりのデータの平均及び分散パラメータを推定するステップと、iii)遺伝子のクロス細胞型特異度を計算するステップと、iv)複数サンプルの利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、v)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、vi)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクRNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上と、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測することと、によって行わせるように適応されている。これらの実施形態はそれぞれ、本明細書で開示する方法の実施形態のいずれかを用いて行うことができる。
いくつかの実施形態では、方法は第1のステップを含む。いくつかの実施形態では、方法は第1のステップと、第2、第3、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第2のステップを含む。いくつかの実施形態では、方法は第2のステップと、第1、第3、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第3のステップを含む。いくつかの実施形態では、方法は第3のステップと、第1、第2、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第4のステップを含む。いくつかの実施形態では、方法は第4のステップと、第1、第2、第3、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第5のステップを含む。いくつかの実施形態では、方法は第5のステップと、第1、第2、第3、第4、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第6のステップを含む。いくつかの実施形態では、方法は第6のステップと、第1、第2、第3、第4、及び第5のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。
いくつかの実施形態では、プロセッサ実行可能命令を記憶するコンピュータ可読媒体は、1つ以上のコンピューティング装置に、バルクRNA配列決定データの逆畳み込みを、i)遺伝子のクロス細胞型特異度を計算することと、ii)複数サンプルの利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定することと、iii)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定することと、iv)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクRNA配列決定データにおける細胞型比率を推定することと、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測することと、によって行わせるように適応されている。いくつかの実施形態では、遺伝子のクロス細胞型特異度の計算は、カウントベースの単一細胞配列決定データの行列から選択した最も変動的に発現する遺伝子の下位集合(3つのソース:i)バルクまたは空間RNA-seqデータ、ii)単一細胞RNA-seqデータ、及びiii)細胞型アノテーションから取得した)からの細胞型あたり遺伝子あたりの発現の推定平均及び分散パラメータに基づいて行い、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む。これらの実施形態はそれぞれ、本明細書で開示する方法の実施形態のいずれかを用いて行うことができる。
いくつかの実施形態では、方法は第1のステップを含む。いくつかの実施形態では、方法は第1のステップと、第2、第3、及び第4のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第2のステップを含む。いくつかの実施形態では、方法は第2のステップと、第1、第3、及び第4のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第3のステップを含む。いくつかの実施形態では、方法は第3のステップと、第1、第2、及び第4のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第4のステップを含む。いくつかの実施形態では、方法は第4のステップと、第1、第2、及び第3のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。
また本開示によって、システムであって、1つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、1つ以上のプロセッサによって実行されると、装置に本明細書で説明する方法のいずれかによってバルクRNA配列決定データの逆畳み込みを行わせるメモリと、を含むシステムが提供される。いくつかの実施形態では、方法は、i)最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ii)カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、iii)各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、iv)正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクRNA配列決定カウントを含む、ステップと、v)バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、vi)損失関数を適用してバルクRNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測する。
いくつかの実施形態では、方法は、i)3つのソース(バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーション)から入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ii)細胞型あたり遺伝子あたりのデータの平均及び分散パラメータを推定するステップと、iii)遺伝子のクロス細胞型特異度を計算するステップと、iv)複数サンプルの利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、v)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、vi)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクRNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測する。逆畳み込み法は、本明細書で開示する方法の実施形態のすべてまたは下位集合を用いて、本明細書で説明する各実施形態における正確な方法を用いてまたは用いることなく行うことができる。
いくつかの実施形態では、方法は第1のステップを含む。いくつかの実施形態では、方法は第1のステップと、第2、第3、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第2のステップを含む。いくつかの実施形態では、方法は第2のステップと、第1、第3、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第3のステップを含む。いくつかの実施形態では、方法は第3のステップと、第1、第2、第4、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第4のステップを含む。いくつかの実施形態では、方法は第4のステップと、第1、第2、第3、第5、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第5のステップを含む。いくつかの実施形態では、方法は第5のステップと、第1、第2、第3、第4、及び第6のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第6のステップを含む。いくつかの実施形態では、方法は第6のステップと、第1、第2、第3、第4、及び第5のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。
いくつかの実施形態では、方法は、i)遺伝子のクロス細胞型特異度を計算するステップと、ii)複数サンプルの利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、iii)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、iv)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクRNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測する。いくつかの実施形態では、遺伝子のクロス細胞型特異度の計算は、カウントベースの単一細胞配列決定データの行列から選択した最も変動的に発現する遺伝子の下位集合(3つのソース:i)バルクまたは空間RNA-seqデータ、ii)単一細胞RNA-seqデータ、及びiii)細胞型アノテーションから取得した)からの細胞型あたり遺伝子あたりの発現の推定平均及び分散パラメータに基づいて行い、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む。逆畳み込み法は、本明細書で開示する方法の実施形態のすべてまたは下位集合を用いて、本明細書で説明する各実施形態における正確な方法を用いてまたは用いることなく行うことができる。
いくつかの実施形態では、方法は第1のステップを含む。いくつかの実施形態では、方法は第1のステップと、第2、第3、及び第4のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第2のステップを含む。いくつかの実施形態では、方法は第2のステップと、第1、第3、及び第4のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第3のステップを含む。いくつかの実施形態では、方法は第3のステップと、第1、第2、及び第4のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第4のステップを含む。いくつかの実施形態では、方法は第4のステップと、第1、第2、及び第3のステップのうちの1つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。
以下の典型的な実施形態が与えられる。
実施形態1.バルクRNA配列決定データの逆畳み込みを行うための方法であって、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクRNA配列決定カウントを含む、ステップと、バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、損失関数を適用してバルクRNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測する方法。
実施形態2.カウントベースの配列決定データは単一細胞RNA配列決定データであり、カウントベースの配列決定カウントは単一細胞RNA配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞RNA配列決定データ行列である、実施形態1による方法。
実施形態3.カウントベースの配列決定データはATAC-seqデータであり、カウントベースの配列決定カウントはATAC-seqカウントであり、カウントベースの配列決定データ行列はATAC-seqデータ行列である、実施形態1による方法。
実施形態4.各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である、実施形態1~3のいずれか1つによる方法。
実施形態5.正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である、実施形態1~4のいずれか1つによる方法。
実施形態6.固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントの行列を形成して、行列を正規化することをさらに含む、実施形態1~5のいずれか1つによる方法。
実施形態7.バルクRNA配列決定カウントのバルク行列を形成して、バルク行列を正規化することをさらに含む、実施形態1~6のいずれか1つによる方法。
実施形態8.選択するステップは、複数の遺伝子内の各遺伝子に対する標準偏差を計算することと、閾値標準偏差数を決定することと、その閾値数を超える標準偏差を有する最も変動的に発現する遺伝子の下位集合を選択することとを含む、実施形態1~7のいずれか1つによる方法。
実施形態9.細胞型特異的重みを計算するステップは、全平均分散を固定数の細胞のそれぞれに対する細胞内型平均分散と比較することを含む、実施形態1~8のいずれか1つによる方法。
実施形態10.フィッティングさせるステップは、混合比率を推定するときに全分布を用いることを含む、実施形態1~9のいずれか1つによる方法。
実施形態11.フィッティングさせるステップは、正規化されたカウントを分布にフィッティングさせることによって分布を取得して、各遺伝子に対する分散及び平均値を推定することをさらに含む、実施形態10による方法。
実施形態12.分布はガウス分布である、実施形態11による方法。
実施形態13.損失関数を規定するステップは、Kullback-Leibler発散を適用することを含む、実施形態1~12のいずれか1つによる方法。
実施形態14.損失関数を適用するステップは、勾配降下法を採用することを含む、実施形態1~13のいずれか1つによる方法。
実施形態15.カウントベースの配列決定データの正規化行列からの複数の遺伝子は、少なくとも約20,000個の遺伝子を含む、実施形態1~14のいずれか1つによる方法。
実施形態16.最も変動的に発現する遺伝子の選択した下位集合は、約1,000~約5,000個の遺伝子を含む、実施形態1~15のいずれか1つによる方法。
実施形態17.最も変動的に発現する遺伝子の選択した下位集合は約2500個の遺伝子を含む、実施形態16による方法。
実施形態18.バルクRNA配列決定データを取得した各細胞型からのRNAの比率を特定することをさらに含む、実施形態1~17のいずれか1つによる方法。
実施形態19.バルクRNA配列決定データを取得した各細胞型の比率を特定することをさらに含む、実施形態1~18のいずれか1つによる方法。
実施形態20.バルクRNA配列決定データを取得した細胞には腫瘍細胞が含まれ、方法は腫瘍細胞の中の免疫細胞の比率を特定することをさらに含む、実施形態1~19のいずれか1つによる方法。
実施形態21.免疫細胞は腫瘍浸潤リンパ球を含む、実施形態20による方法。
実施形態22.免疫細胞はCD8陽性Tリンパ球を含む、実施形態20または実施形態21による方法。
実施形態23.免疫細胞はCD8陽性Tリンパ球及び樹状細胞を含む、実施形態20による方法。
実施形態24.腫瘍細胞を取得した腫瘍を炎症性腫瘍または非炎症性腫瘍と特徴付けることをさらに含む、実施形態20~23のいずれか1つによる方法。
実施形態25.腫瘍を炎症性腫瘍と特徴付け、腫瘍は対象内に存在し、方法は、対象が、浸潤免疫細胞の閾値レベルを下回るか、等しいか、または上回るかを判定することをさらに含む、実施形態24による方法。
実施形態26.免疫細胞はCD8陽性Tリンパ球を含む、実施形態25による方法。
実施形態27.免疫細胞はCD8陽性Tリンパ球及び樹状細胞を含む、実施形態25による方法。
実施形態28.対象は、浸潤免疫細胞の閾値レベルを上回っており、方法は、対象を免疫療法に対する候補として特定することをさらに含む、実施形態25~27のいずれか1つによる方法。
実施形態29.免疫療法は養子細胞療法を含む、実施形態28による方法。
実施形態30.養子細胞療法はキメラ抗原受容体T細胞(CAR-T細胞)療法を含む、実施形態29による方法。
実施形態31.免疫療法は免疫チェックポイント阻害療法を含む、実施形態28による方法。
実施形態32.免疫チェックポイント阻害療法は、細胞障害性Tリンパ球関連抗原-4(CTLA-4)を阻害する抗体を含む、実施形態31による方法。
実施形態33.免疫チェックポイント阻害療法は、プログラム細胞死タンパク質1(PD-1)を阻害する抗体を含む、実施形態31または実施形態32による方法。
実施形態34.免疫チェックポイント阻害療法は、プログラム細胞死リガンド1(PD-L1)を阻害する抗体を含む、実施形態31~33のいずれか1つによる方法。
実施形態35.免疫チェックポイント阻害療法は、リンパ球関連遺伝子3(LAG3)を阻害する抗体を含む、実施形態31~34のいずれか1つによる方法。
実施形態36.バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の腫瘍細胞の比率を特定することをさらに含む、実施形態1~19のいずれか1つによる方法。
実施形態37.バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の免疫細胞の比率を特定することをさらに含む、実施形態1~19のいずれか1つによる方法。
実施形態38.バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の癌関連線維芽細胞の比率を特定することをさらに含む、実施形態1~19のいずれか1つによる方法。
実施形態39.バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の癌関連脂肪細胞の比率を特定することをさらに含む、実施形態1~19のいずれか1つによる方法。
実施形態40.バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中のリンパ内皮細胞の比率を特定することをさらに含む、実施形態1~19のいずれか1つによる方法。
実施形態41.バルクRNA配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の血管内皮細胞の比率を特定することをさらに含む、実施形態1~19のいずれか1つによる方法。
実施形態42.プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、プロセッサ実行可能命令は、1つ以上のコンピューティング装置に、バルクRNA配列決定データの逆畳み込みを、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップあって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクRNA配列決定カウントを含む、ステップと、バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、損失関数を適用してバルクRNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されているコンピュータ可読媒体。
実施形態43.カウントベースの配列決定データは単一細胞RNA配列決定データであり、カウントベースの配列決定カウントは単一細胞RNA配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞RNA配列決定データ行列である、実施形態42によるコンピュータ可読媒体。
実施形態44.カウントベースの配列決定データはATAC-seqデータであり、カウントベースの配列決定カウントはATAC-seqカウントであり、カウントベースの配列決定データ行列はATAC-seqデータ行列である、実施形態42によるコンピュータ可読媒体。
実施形態45.各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である、実施形態42~44のいずれか1つによるコンピュータ可読媒体。
実施形態46.正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である、実施形態42~45のいずれか1つによるコンピュータ可読媒体。
実施形態47.選択するステップは、複数の遺伝子内の各遺伝子に対する標準偏差を計算することと、閾値標準偏差数を決定することと、その閾値数を超える標準偏差を有する最も変動的に発現する遺伝子の下位集合を選択することとを含む、実施形態42~46のいずれか1つによるコンピュータ可読媒体。
実施形態48.細胞型特異的重みを計算するステップは、全平均分散を固定数の細胞のそれぞれに対する細胞型内平均分散と比較することを含む、実施形態42~47のいずれか1つによるコンピュータ可読媒体。
実施形態49.フィッティングさせるステップは、混合比率を推定するときに全分布を用いることを含む、実施形態42~48のいずれか1つによるコンピュータ可読媒体。
実施形態50.フィッティングさせるステップは、正規化されたカウントを分布にフィッティングさせることによって分布を取得して、各遺伝子に対する分散及び平均値を推定することをさらに含む、実施形態49によるコンピュータ可読媒体。
実施形態51.分布はガウス分布である、実施形態50によるコンピュータ可読媒体。
実施形態52.損失関数を規定するステップは、Kullback-Leibler発散を適用することを含む、実施形態42~51のいずれか1つによるコンピュータ可読媒体。
実施形態53.損失関数を適用するステップは、勾配降下法を採用することを含む、実施形態42~52のいずれか1つによるコンピュータ可読媒体。
実施形態54.カウントベースの配列決定データの正規化行列からの複数の遺伝子は、少なくとも約20,000個の遺伝子を含む、実施形態42~53のいずれか1つによるコンピュータ可読媒体。
実施形態55.最も変動的に発現する遺伝子の選択した下位集合は約1,000~約5,000個の遺伝子を含む、実施形態42~54のいずれか1つによるコンピュータ可読媒体。
実施形態56.最も変動的に発現する遺伝子の選択した下位集合は約2500個の遺伝子を含む、実施形態55によるコンピュータ可読媒体。
実施形態57.方法は、バルクRNA配列決定データを取得した各細胞型からのRNAの比率を特定することをさらに含む、実施形態42~56のいずれか1つによるコンピュータ可読媒体。
実施形態58.方法は、バルクRNA配列決定データを取得した各細胞型の比率を特定することをさらに含む、実施形態42~57のいずれか1つによるコンピュータ可読媒体。
実施形態59.システムであって、1つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、前記プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、バルクRNA配列決定データの逆畳み込みを、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクRNA配列決定カウントを含む、ステップと、バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、損失関数を適用してバルクRNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクRNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、メモリと、を含むシステム。
実施形態60.カウントベースの配列決定データは単一細胞RNA配列決定データであり、カウントベースの配列決定カウントは単一細胞RNA配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞RNA配列決定データ行列である、実施形態59によるシステム。
実施形態61.カウントベースの配列決定データはATAC-seqデータであり、カウントベースの配列決定カウントはATAC-seqカウントであり、カウントベースの配列決定データ行列はATAC-seqデータ行列である、実施形態59によるシステム。
実施形態62.各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である、実施形態59~61のいずれか1つによるシステム。
実施形態63.正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である、実施形態59~62のいずれか1つによるシステム。
実施形態64.選択するステップは、複数の遺伝子内の各遺伝子に対する標準偏差を計算することと、閾値標準偏差数を決定することと、その閾値数を超える標準偏差を有する最も変動的に発現する遺伝子の下位集合を選択することとを含む、実施形態59~63のいずれか1つによるシステム。
実施形態65.細胞型特異的重みを計算するステップは、全平均分散を固定数の細胞のそれぞれに対する細胞型内平均分散と比較することを含む、実施形態59~64のいずれか1つによるシステム。
実施形態66.フィッティングさせるステップは、混合比率を推定するときに全分布を用いることを含む、実施形態59~65のいずれか1つによるシステム。
実施形態67.フィッティングさせるステップは、正規化されたカウントを分布にフィッティングさせることによって分布を取得して、各遺伝子に対する分散及び平均値を推定することをさらに含む、実施形態66によるシステム。
実施形態68.分布はガウス分布である、実施形態67によるシステム。
実施形態69.損失関数を規定するステップは、Kullback-Leibler発散を適用することを含む、実施形態59~68のいずれか1つによるシステム。
実施形態70.損失関数を適用するステップは、勾配降下法を採用することを含む、実施形態59~69のいずれか1つによるシステム。
実施形態71.カウントベースの配列決定データの正規化行列からの複数の遺伝子は、少なくとも約20,000個の遺伝子を含む、実施形態59~70のいずれか1つによるシステム。
実施形態72.最も変動的に発現する遺伝子の選択した下位集合は、約1,000~約5,000個の遺伝子を含む、実施形態59~70のいずれか1つによるシステム。
実施形態73.最も変動的に発現する遺伝子の選択した下位集合は約2500個の遺伝子を含む、実施形態72によるシステム。
実施形態74.方法は、バルクRNA配列決定データを取得した各細胞型からのRNAの比率を特定することをさらに含む、実施形態59~73のいずれか1つによるシステム。
実施形態75.方法は、バルクRNA配列決定データを取得した各細胞型の比率を特定することをさらに含む、実施形態59~74のいずれか1つによるシステム。
実施形態76.バルクまたは空間RNA配列決定データの逆畳み込みを行うための方法であって、方法は、a)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップと、b)細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、c)各遺伝子のクロス細胞型特異度を計算するステップと、d)複数サンプルの利用可能性に応じてバルクまたは空間RNA-seqデータまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、e)バルクまたは空間RNA-seqデータ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、f)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法。
実施形態77.カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、実施形態76による方法。
実施形態78.入力は、各細胞に対応付けられる細胞型アノテーションを伴う単一細胞UMIカウント行列である、実施形態76または実施形態77による方法。
実施形態79.逆畳み込みを行うべきバルクデータは、キロベースミリオンあたりの転写物(TPM)または読み出しカウントである、実施形態76または実施形態77による方法。
実施形態80.逆畳み込みを行うべき空間データはUMIカウント行列である、実施形態76または実施形態77による方法。
実施形態81.ノイズを導入する可能性がある情報価値のない遺伝子を除外し、細胞型を区別するために重要な情報を含む遺伝子を、カウントベースの配列決定データの正規化行列からの最も変動的に発現する遺伝子の下位集合として選択する、実施形態76~80のいずれか1つによる方法。
実施形態82.遺伝子の下位集合を、単一細胞UMIカウント行列内の各細胞型において発現が富化されるマーカー遺伝子の集団から選択する、実施形態81による方法。
実施形態83.組み込みツールが、入力として、単一細胞UMIカウント行列及び細胞型アノテーションを取る、実施形態82による方法。
実施形態84.各細胞型に対して、ツールは、その細胞型における平均UMIと他のすべての細胞型における平均UMIとの間の倍率変化を計算して、倍率変化の降順によって遺伝子をランク付けする、実施形態83による方法。
実施形態85.各細胞型から上位約200個の遺伝子を選択する、実施形態84による方法。
実施形態86.5つ以下の細胞型に存在する選択したマーカー遺伝子を選択する、実施形態84による方法。
実施形態87.固定数の細胞型または細胞型の総数の比率のいずれか小さい方で存在する選択したマーカー遺伝子を選択する、実施形態84による方法。
実施形態88.合計約1,000個の固有の遺伝子を選択する、実施形態84による方法。
実施形態89.遺伝子の下位集合を、単一細胞UMIカウント行列内のすべての細胞間で最も変動する非常に変動的な遺伝子の集団から選択する、実施形態81による方法。
実施形態90.細胞数バランシング及びVST正規化の後の各遺伝子に対する分散を計算する、実施形態89による方法。
実施形態91.分散が最も高い遺伝子を選択する、実施形態90による方法。
実施形態92.単一細胞UMIカウント行列内の細胞型を、すべての細胞集塊のメジアン径を見つけることによってバランシングし、各集塊からの細胞をこの径に等しくなるようにサンプリングする、実施形態89~91のいずれか1つによる方法。
実施形態93.バランシングされた単一細胞UMI行列内の細胞にわたる各遺伝子の分散を計算する、実施形態92による方法。
実施形態94.正規化データに対する分散を分散安定化変換(VST)によって計算する、実施形態93による方法。
実施形態95.上位2,000の大きな分散を伴う遺伝子を選択する、実施形態94による方法。
実施形態96.RNA-seqデータは、平均値を推定する前は正規化しない、実施形態76~95のいずれか1つによる方法。
実施形態97.平均値を生のUMIカウントを用いてモデリングする、実施形態96による方法。
実施形態98.負の二項分布を各細胞型の単一細胞にフィットさせる、実施形態96または実施形態97による方法。
実施形態99.各細胞型における各選択した遺伝子に対して推定を行う、実施形態98による方法。
実施形態100.遺伝子の細胞型特異度を計算するために、遺伝子のi)発現が最も高いかまたはii)倍率変化が他と比較べて最も高い細胞型を特定し、この遺伝子の特異度を細胞型内での平均対分散比として規定する、実施形態76~99のいずれか1つによる方法。
実施形態101.負の二項フィッティングからの推定平均及び分散パラメータを用いて、選択した遺伝子の集合内の各遺伝子に対する細胞型特異度重みを計算する、実施形態100による方法。
実施形態102.クロスサンプル遺伝子変動性を、サンプルにわたって計算した分散対平均比(VMR)を用いて計算する、実施形態76~101のいずれか1つによる方法。
実施形態103.クロスサンプル遺伝子変動性を複合トランスクリプトームデータから計算する、実施形態102による方法。
実施形態104.複合データは複数サンプルを有していないが、単一細胞データは複数のサンプルを有しており、複数の複合サンプルを合成して、それぞれは、単一細胞基準におけるサンプルの1つに属するすべての細胞の平均値である、実施形態102による方法。
実施形態105.複合データ及び単一細胞データの両方に対して複数サンプルが利用できない場合、方法は、細胞の下位集合の発現を平均化することによって単一細胞データに対する複数の合成サンプルを生成することを含む、実施形態102による方法。
実施形態106.遺伝子ごとのスケーリング係数を適応学習戦略を用いて推定し、各遺伝子をその対応するスケーリング係数によって再スケール変更する、実施形態76~105のいずれか1つによる方法。
実施形態107.各複合サンプルを回帰モデルによって独立に推定する、実施形態76~106のいずれか1つによる方法。
実施形態108.バルクまたは空間RNA配列決定データの逆畳み込みを行うための方法であって、方法は、a)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内での各遺伝子のクロス細胞型特異度を計算するステップと、b)複数サンプルの利用可能性に応じてバルクまたは空間RNA-seqデータまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、c)バルクまたは空間RNA-seqデータ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、d)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法。
実施形態109.プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、プロセッサ実行可能命令は、1つ以上のコンピューティング装置に、バルクまたは空間RNA配列決定データの逆畳み込みを、i)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ii)細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、iii)遺伝子のクロス細胞型特異度を計算するステップと、iv)複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、v)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、vi)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されているコンピュータ可読媒体。
実施形態110.プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、プロセッサ実行可能命令は、1つ以上のコンピューティング装置に、バルクまたは空間RNA配列決定データの逆畳み込みを、i)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内での遺伝子のクロス細胞型特異度を計算するステップと、ii)複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、iii)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、iv)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されているコンピュータ可読媒体。
実施形態111.システムであって、1つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置にバルクまたは空間RNA配列決定データの逆畳み込みを、i)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ii)細胞型あたり遺伝子あたりのデータの平均及び分散パラメータを推定するステップと、iii)遺伝子のクロス細胞型特異度を計算するステップと、iv)複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、v)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、vi)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、メモリと、を含むシステム。
実施形態112.システムであって、1つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置にバルクまたは空間RNA配列決定データの逆畳み込みを、i)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内の遺伝子のクロス細胞型特異度を計算するステップと、ii)複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、iii)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、iv)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、メモリと、を含むシステム。
本明細書で開示する主題がより効率的に理解され得るように、以下に例を示す。当然のことながら、これらの例は単に説明を目的としたものであり、特許請求の範囲に記載された主題をいかなる方法によっても限定するものと解釈してはならない。
実施例1:免疫細胞に対するバルクRNA配列決定データの逆畳み込み
以下の仮説例は、本開示の全体的な性質をより明瞭に実証するために含まれている。例は本開示の典型であり限定ではない。
3つの細胞型:マクロファージ、T細胞、及びB細胞を含む単一細胞行列の場合、RNA配列決定によって測定される3つの遺伝子(Spp1、Trem2、及びSerpine2)がある。
単一細胞データ入力:生UMIカウントデータ
Figure 2022554386000046

列ごとに1e+6合計UMIカウントに正規化する。
Figure 2022554386000047

すべての数に1を足す
Figure 2022554386000048

自然対数変換を計算する
Figure 2022554386000049

開示した方法のステップ1を適用して、上位2,500個の非常に変動的な遺伝子を選択する。この場合、遺伝子Serpine2は変動がそれほど大きくない。残りの2つの遺伝子Spp1及びTrem2は変動がより大きく、したがって、選択する上位2,500個の遺伝子の中に含めてさらに解析を行う。
ステップ2では、細胞型特異的重みを計算する。
Figure 2022554386000050

Spp1遺伝子に対する計算は以下に従う。
Figure 2022554386000051

=7.05
例では、2.54は(1.6、1.9、2.2、3.7、3.99、3.89、0、0、0.69)の不偏分散である。Nは細胞の総数である(3+3+3=9)。0.09は(1.6、1.9、2.2)の不偏分散である。nはマクロファージ細胞の数である(3)。同様の計算を適用して、細胞型特異的重みは以下のようになる。
Figure 2022554386000052

開示した方法のステップ3を適用して、単一細胞を細胞型ごとにプールし、そして細胞型列ごとの合計UMI=1e+6に正規化し、次に1を足し、そして自然対数変換を行う。結果を3つのサンプルのそれぞれに対して下表に反映させる。
サンプル1:
Figure 2022554386000053

細胞型ごとに細胞をプールして(合計して)以下を生成する。
Figure 2022554386000054

正規化後にlog(データ+1)して以下を生成する。
Figure 2022554386000055

サンプル2:
Figure 2022554386000056

細胞型ごとに細胞をプールして(合計して)以下を生成する。
Figure 2022554386000057

正規化後にlog(データ+1)して以下を生成する。
Figure 2022554386000058

サンプル3:
Figure 2022554386000059

細胞型ごとに細胞をプールして(合計して)以下を生成する。
Figure 2022554386000060

正規化後にlog(データ+1)して以下を生成する。
Figure 2022554386000061

ステップ3を続けて、ガウス分布を、3つの各細胞型における2つの遺伝子の各遺伝子に対して3つの各サンプルにわたってフィットさせる。これらのガウス分布フィットの結果を図8に示す。これらの結果がステップ3の適用を結論づけている。
開示した方法のステップ4を適用して、複数サンプル行列を正規化し、ガウス分布を各遺伝子に対してフィットさせる。これらのガウス分布フィットの結果を図9に示す。バルクRNA-seqデータを3つのサンプルから独立に取得していると仮定している。各サンプル内の細胞の内容は分かっていない。開示した方法の目標の1つは、以前の単一細胞RNA-seqデータを基準として用いて、各サンプルに対する細胞型比率を学習することである。
開示した方法のステップ5を適用して、モデルを、単一細胞データ及びバルクデータから学習した各遺伝子の比率パラメータ、重み、及び分布を用いて規定する。これらの計算の結果を図10に示す。
最後に、開示した方法のステップ6を適用して、バルク組織内での3つの細胞型(k=1、2、3)それぞれの比率θを、3つのサンプルそれぞれに対する合計Dklを最小限にすることによって推定する。第1のサンプルに対する出力は、θ(マクロファージ)=0.5;θ(T細胞)=0.22;及びθ(B細胞)=0.28である。第2のサンプルに対する出力は、θ(マクロファージ)=0.42;θ(T細胞)=0.32;及びθ(B細胞)=0.26である。第3のサンプルに対する出力は、θ(マクロファージ)=0.23;θ(T細胞)=0.38;及びθ(B細胞)=0.39である。当然のことながら、3つの細胞型の比率の合計は1に等しくなければならない。
実施例2:方法評価
AdRoit法を評価するために、2つの比較を行った。第1に、AdRoit法の第2の実施形態の結果を、X.Wangら(前出)による論文に開示された「マルチサブジェクト単一細胞逆畳み込み」(MuSiC)法によって実現される結果と比較した。第2に、AdRoit法の第2の実施形態の結果を、従来の非負最小二乗法(NNLS)回帰法によって実現される結果と比較した。
評価1:ヒト膵島データ
第1の評価に対して用いるデータをヒト膵島から取得した。ランゲルハンス島は、膵臓にあってその内分泌腺(すなわち、ホルモン産生)細胞を含む領域である。ヒト膵島の単一細胞データを図15A及び図15Bに示す。これらのデータを比較用に選択した理由は、データには多くの(具体的には、18の)対象からのいくつかの(具体的には、4つの)細胞型(2つの主要な細胞型(アルファ及びベータ細胞)及び2つの副次的な細胞型(PP及びデルタ細胞)を含む)が含まれているからである。細胞割合は、異なる対象間で変動する。
図15Aは対象18人の細胞組成の概要である。図15Bは、Laurens van der Maaten及びGeoffrey Hintonによって開発された視覚化用の機械学習アルゴリズムであるT分布型確率的近傍埋め込み法(t-SNE)を反映している。それは、2次元の低次元空間(たとえば、図15Bのグラフ)において視覚化するために高次元データを埋め込むのにとても適した非線形次元削減技術である。具体的には、t-SNEは、各高次元オブジェクトの2次元の点によるモデリングを、高い確率で、同様のオブジェクトが近くの点によってモデリングされ、異なるオブジェクトが遠い点によってモデリングされるように行う。t-SNEグラフに特有であるように、データは図15Bに集塊で表示されている。
異なる方法を評価するために用いる絶対的で正しいまたは「真の」結果を取得するために、図15A及び図15Bに示すヒト膵島の単一細胞データに対応するバルクデータを合成した。推定は、バルクデータを合成するために用いたサンプルを用いずに単一細胞基準を用いることによって行った。真のバルクデータを図16A、16B、16Cに反映させている。4つの別個の統計的測定:平均絶対偏差(mAD)、二乗平均平方根偏差(RMSD)、ピアソン相関係数(PCC)、及びスピアマンの順位相関係数を計算した。
統計では、mADは、データのセットの、そのデータの平均についての絶対偏差の平均値である。平均絶対偏差は平均偏差とも言われる。平均絶対偏差はデータセット内の変動を説明する方法である。mAD数が小さいほど、データセットの変動が小さい(すなわち、より良好である)。
RMSDまたは二乗平均平方根誤差(RMSE)(または、しばしば二乗平均平方根誤差)は、モデルまたは推定量によって予測された値(サンプル値または母集団値)と観察された値との間の差の頻繁に使用される尺度である。RMSDは、予測値と観察値との間の差の2次のサンプルモーメントの平方根またはこれらの差の平方平均を表す。これらの偏差は、推定用に用いたデータサンプル上で計算を行ったときには残差と言われ、サンプル外で計算したときには誤差(または予測誤差)は言われる。RMSDは、様々な時点に対する予測における誤差の大きさを予測能力の単一尺度に集める役割を果たす。RMSDは、スケールに依存するため、データセット間ではなく特定のデータセットに対する異なるモデルの予測誤差を比較するための精度の尺度である。mADの場合、RMSD数が小さいほど良好である。
統計では、PCC(ピアソンのr、ピアソンの積率相関係数(PPMCC)、または二変量相関とも言われる)は、2つの変数X及びY間の線形相関の尺度である。コーシーシュワルツの不等式によれば、それは値+1~-1を有する。ここで、+1は全正の線形相関、0は線形相関なし、及び-1は全負の線形相関である。PCCは科学において広く用いられている。それは、1880年代にFrancis Galtonによって導入された関連するアイデアからKarl Pearsonによって開発され、それに対する数式が、1844年にAuguste Bravaisによって導き出されて発表された。
統計では、スピアマンの順位相関係数またはスピアマンのロー(Charles Spearmanにちなんで名付けられ、ギリシャ文字ρ(ロー)によってまたはrとして表されることが多い)は、順位相関(2つの変数のランキング間の統計的依存性)のノンパラメトリック尺度である。それは、2つの変数間の関係を単調関数を用いてどのくらい良好に記述できるかを評価する。2つの変数間のスピアマン相関は、これら2つの変数のランク値間のピアソン相関に等しい。ピアソンの相関は線形関係を評価するが、スピアマンの相関は単調な関係(線形かそうでないか)を評価する。ピアソンの相関及びスピアマンの相関の両方に対して、数値が1に近いほど、良好である。
図16A、16B、16Cに、AdRoit法(図16A)、MuSiC法(図16B)、及びNNLS法(図16C)の結果の間の比較を反映させている。そのため、3つのグラフを示している。各グラフに対する縦座標(Y軸)は、対応する方法によって与えられる細胞型の推定された比率である。各グラフに対する横座表(X軸)は、細胞型の真の比率(合成されたバルクデータから)である。4つの別個の統計的測定(前述で要約した)を3つの各グラフに対して計算して、図17に表で示す。mAD及びRMSD測定の場合、数値が小さい(すなわち、偏差が小さい)ほど、方法は正確である。スピアマン及びピアソン相関は、方法が正確になるほど、1に近づく。データは、AdRoit法が非常に正確で、かつMuSiC及びNNLS法よりも優れているという結論を支持している。AdRoitは、ヒト膵島の単一細胞データを用いて合成バルクデータに適用されたときに最高の精度を実現する。
評価2:ヒト小柱網データ
第2の評価に対して用いるデータをヒト小柱網(TM)から取得した。TMは、角膜の基部の周り、毛様体の近くに位置する眼の中の組織の領域であり、前房(角膜によって覆われる眼の前方の腔)を介して眼から房水を排出することを担う。ヒトTMの単一細胞データを図18A及び図18Bに示す。これらのデータを比較用に選択した理由は、データには多くの(具体的には、8人の)ドナーからの多数の(具体的には、12個の)細胞型が含まれているからである。Patel,G.ら、「Molecular taxonomy of human ocular outflow tissues defined by single-cell transcriptomics」Proc.Natl.Acad.Sci.117、12856LP-12867(2020)を参照。細胞型を図18Aに列記する。細胞割合は、異なるドナー間で変動する。
図18Aは8人のドナーの細胞組成の概要である。図18Bはt-SNE視覚化を反映しており、またt-SNEグラフに特有であるように、データは図18Bに集塊で表示されている。
種々の方法を評価するために用いる絶対的で正しいまたは「真の」結果を取得するために、図18A及び図18Bに示すバルクヒトTMの単一細胞データに対応するデータを合成した。推定は、バルクデータを合成するために用いたドナーを用いずに単一細胞基準を用いることによって行った。真のバルクデータを図19A、19B、19Cに反映させている。再び、4つの別個の統計的測定:mAD、RMSD、PCC、及びスピアマンの順位相関係数を計算した。である。
図19A、19B、19Cに、AdRoit法(図19A)、MuSiC法(図19B)、及びNNLS法(図19C)の結果の間の比較を反映させている。そのため、3つのグラフを示している。各グラフに対する縦座標(Y軸)は、対応する方法によって与えられる細胞型の推定された比率である。各グラフに対する横座表(X軸)は、細胞型の真の比率(合成されたバルクデータから)である。4つの別個の統計的測定(前述で要約した)を3つの各グラフに対して計算して、図20に表で示す。全体として、AdRoit法は、MuSiC及びNNLS法と比べて、推定値が真の細胞割合に最も近い。AdRoit法は、mAD及びRMSDが最も低く、ピアソン及びスピアマン相関が最も高い。
図21に12個の棒グラフを示す。各細胞型に対して1つである。グラフ上のドットは8つの異なる各ドナーを示しており、棒は1.5x四分位範囲を示している。TMにおける各細胞型に対して、AdRoit法は、真の細胞割合からの差が最小であり、8つの異なるドナー間での推定が最も厳密である。
図22に、AdRoit法及びMuSiC法の両方を用いて計算した推定及び真のデータを反映する。合成バルクデータを、12個の細胞型のうち6つのみを用いることによってシミュレートし、そして、12個のすべての細胞型の完全リストを参照して推定した。AdRoit法は、シミュレーションで除外した6つの細胞型の方が偽陽性推定が少なく、シミュレーションに含めた6つの細胞型の方が推定が正確であった。
図23は、AdRoit法の方がMuSiC法よりも曲線下面積(AUC)が有意に高かったことを示す受信者動作特性(ROC)曲線であり、感度及び特異度がより良好であることを示している。ROC曲線は、その識別閾値が変化したときの二項分類システムの診断能力を例示するグラフプロットである。診断方法は、軍用レーダー受信機のオペレータに対して開発されたものであり、そのためそのように名付けられている。ROC曲線は、種々の閾値設定において偽陽性率(FPR)に対して真陽性率(TPR)をプロットすることによって作成する。TPRは感度としても知られている。FPRは、誤報の確率としても知られており、1-特異度として計算することができる。ROC解析によって、可能な限り最適なモデルを選択して最適以下のものを廃棄するためのツールが得られる。
評価3:後根神経節データ
第3の評価に対して用いるデータをマウス後根神経節(DRG)神経細胞から取得した。DRG単一細胞RNA-seqデータを図24A及び図24Bに示す。これらのデータを比較用に選択した理由は、データには、5匹のマウスからの多くの(具体的には、14の)細胞型(複数の亜型の神経細胞を含む)が含まれているからである。図24Aは、5匹のマウスの細胞組成の概要であり、細胞型を列記する。図24Bに、データのt-SNE視覚化を反映する。細胞割合は、異なるマウス間で変動する。
種々の方法を評価するために用いる絶対的で正しいまたは「真の」結果を取得するために、図24A及び図24Bに示すDRG単一細胞データに対応するバルクデータを合成した。推定は、バルクデータを合成するために用いたサンプルを用いずに単一細胞基準を用いることによって行った。真のバルクデータを図25A、25B、25Cに反映させている。
図25A、25B、25Cに、AdRoit法(図25A)、MuSiC法(図25B)、及びNNLS法(図25C)の結果の間の比較を反映させている。そのため、3つのグラフを示している。各グラフに対する縦座標(Y軸)は、対応する方法によって与えられる細胞型の推定された比率である。各グラフに対する横座表(X軸)は、細胞型の真の比率(合成されたバルクデータから)である。それぞれの個々のサンプルに対して、mAD、RMSD、及びピアソン及びスピアマン相関を計算して、3つの方法の間で比較した。結果を図26のグラフに示す。全体として、AdRoit法は、MuSiC及びNNLS法と比べて、推定値が真の細胞割合に最も近い。AdRoit法は、mAD及びRMSDが最も低く、ピアソン及びスピアマン相関が最も高い。加えて、AdRoit法推定はサンプル間で最も安定であった。
評価4:ヒト膵島の応用例
第4の評価に対して用いるデータをヒト膵島から取得した(前述の評価1を参照)。ヒト膵島の単一細胞データを図15A及び図15Bに示す。これらのデータには4つの細胞型:アルファ、ベータ、PP、及びデルタ細胞が含まれている。図27は、4つの各細胞型に対する細胞割合のグラフであり、実際のヒト膵島バルクRNA-seqデータに対する細胞型パーセンテージのAdRoit法推定が、同じドナーからの繰り返しサンプルに対して、再現性が非常に高いことを示している。
リボ核酸分子を標的とした蛍光インサイチュハイブリダイゼーション(RNA FISH)は、固定された細胞内の特定のRNA分子を検出して位置特定するための方法である。この検出では、細胞内の標的RNA配列に相補的な核酸プローブを用いる。このプローブは次に、その標的に標準ワトソンクリック塩基対合を介してハイブリダイズし、その後、プローブへの蛍光分子の直接接合または蛍光信号増幅方式を通して、標的を蛍光顕微鏡を介して検出することができる。RNA FISHにおける最近の進歩によって、方法の特異度及び感度が増加して個々のRNA分子の検出が可能になり、単一細胞または細胞内レベルにおいてさえRNA存在量及び局在化の正確な測定が得られている。ここまでのほとんどの応用例は固定細胞内であったが、プローブ技術の進歩によって、生細胞内の単一RNA分子を検出できるようになっている。図28に、Adroit法を用いて推定した細胞割合パーセンテージが、細胞型パーセンテージのRNA FISH測定値と一致することを示す。
糖化ヘモグロビン、またはHbA1cは、体内のブドウ糖(糖)が赤血球に付着したときに形成される。HbA1cのテストを用いて2型糖尿病(T2D)患者をモニタリングする。このような患者においては、身体が糖を適切に用いることはできず、糖が血球に付着して血液内に蓄積される傾向がある。赤血球が活性であるのは約2~3ヶ月であり、そのためHbA1cテストを年4回行う。HbA1cが高いことは、患者の血液中の糖が多すぎて、糖尿病合併症(たとえば、患者の眼及び足の問題)を発症する可能性が高いことを意味する。T2D患者では、理想的なHbA1cレベルは48mmol/mol(6.5%)以下である。図29に、Adroit法を用いて推定したベータ細胞割合パーセンテージが、ドナーのHbA1Cレベルと有意な直線関係にあることを示す(健康及びT2D細胞の両方を含む)。図30に、T2D患者の方が健康な対象の場合よりも、Adroit法を用いて推定したベータ細胞割合パーセンテージが有意に低いことを示す。
評価5:シミュレートした空間スポット
第5の評価に対して用いるデータによって、AdRoit法を立体鏡推定と比較する。空間トランスクリプトミクス(ST)は、個々の組織切片におけるRNA-seqデータ(それによって、すべてのmRNA)を空間的に分析するために用いる技術である。空間的にバーコードを付けられた逆転写オリゴ(dT)プライマーを、スポットのアレイ内の顕微鏡用スライドの表面に順序付けて取り付けることによって、mRNAサンプル処理及びその後の配列決定の全体を通して位置情報のエンコーディング及び維持が可能になる。これは、単一細胞のRNA配列決定または組織ボリュームから抽出したバルクRNAの配列決定(正確な空間情報が失われる)とは対照的である。空間トランスクリプトミクス用スライドに組織凍結切片が取り付けられると、バーコードを付けられたプライマーは、隣接するmRNAと結合して組織から捕捉する。スライドに組織切片が取り付けられる間に、捕捉したmRNAの逆転写が開始され、結果として得られるcDNAがプライマーの空間バーコードを取り入れる。mRNA捕捉及び逆転写に続いて、配列決定ライブラリを用意して、イルミナ色素配列決定によって解析する。生成された各配列内に存在する空間バーコードによって、それぞれの個々のmRNA転写物のデータを組織切片内のその起点にマッピングして戻すことができる。
立体映像(立体視またはステレオイメージングとも言われる)は、両眼視に対する立体視によって画像内に深度の錯覚を形成するかまたは高めるための技術である。立体鏡は、ミラーまたはレンズを用いることを通して2つの類似した2次元画像から3次元画像の錯覚を形成するイメージビューアーの1種である。複雑な細胞構造は、立体写真においてレンダリングされることが多い。
図31において、5つの異なるPEP細胞亜型を含むシミュレートされた空間スポット上で立体映像及びAdRoit法によって実現された推定値を比較する。真の混合割合を垂直の赤い破線によって示す。3つの方式をシミュレートした。(1)方式1、図31の左側、5つのPEP細胞型の割合は同じで0.2に等しかった。(2)方式2、図31の中央、1つのPEP細胞型は0.1で、他の4つは0.225だった。(3)方式3、図31の右側、2つのPEP細胞型は0.1、2つは0.2、1つは0.4だった。すべてのシミュレーション方式において、AdRoit推定値は立体鏡推定値の場合よりも、一貫して、真のシミュレートした割合に集まっていた。
図32に、非常に低いパーセントの単一種類のPEP細胞のシミュレーションを例示する。パーセンテージは0.02、0.04、0.06、0.08、及び0.1であった。真の混合割合を水平の赤い破線によって示す。AdRoit法を用いて実現した推定値の中央値は真の割合に近く、立体映像を用いて実現した推定値の場合よりも近かった。図33において、立体映像及びAdRoit法を用いた推定値を、非常に低い量の6つの異なる細胞型に対する検出率対シミュレートした割合のグラフを介して比較する。AdRoit法の方が、低パーセント細胞の検出において感度が高く、また細胞型の異なる混合物の間で一貫していた。
評価6:マウス脳空間トランスクリプトーム応用例
第6の評価に対して用いるデータをマウス脳細胞型から取得した。アレンマウス脳地図は、成体マウス脳の全体に渡る遺伝子発現のゲノムワイドな高解像度地図である。地図によって、成体マウスにおける約20,000遺伝子に対するゲノムワイドなインサイチュハイブリダイゼーション(ISH)画像データが得られる。各データセットをインフォマティクス解析パイプラインを通して処理して、空間的にマッピングされた定量化された発現情報を取得する。Lein,E.ら、「Genome-wide atlas of gene expression in the adult mouse brain」、Nature 445、168-176(2007)を参照。
図34に、AdRoit法を用いた3つの細胞型の空間マッピングが各スポットにおける内容をどのように定量的に示すかを例示する。図35に、アレンマウス脳地図からのWfs1、Prox2、及びRarres2細胞型のISH画像を示す。図34と図35とを比較すると、図35のISH画像が図34における対応する細胞位置と一致することが示される。
上記に特定の具体的な実施形態及び例を参照して例示及び記述したが、それにもかかわらず、本開示が、示した詳細に限定されることは意図していない。むしろ、種々の変更を、特許請求の範囲の均等物の範囲及び領域内の詳細において、本開示の趣旨から逸脱することなく行ってもよい。
本明細書で説明したものに加えて、説明した主題の種々の変更が、前述の説明から当業者には明らかである。このような変更も添付の特許請求の範囲に入ることが意図されている。本出願で引用した各参考文献(たとえば、限定することなく、原著論文、米国及び非米国特許、特許出願公開、国際特許出願公開、遺伝バンク受託番号など)は、その全体が参照により本明細書に組み込まれている。

Claims (37)

  1. バルクまたは空間RNA配列決定データの逆畳み込みを行うための方法であって、前記方法は、
    a)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップと、
    b)細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、
    c)各遺伝子のクロス細胞型特異度を計算するステップと、
    d)複数サンプルの利用可能性に応じて前記バルクまたは空間RNA-seqデータまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、
    e)前記バルクまたは空間RNA-seqデータ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、
    f)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、
    その結果、前記バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する、前記方法。
  2. カウントベースの配列決定データの前記行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、請求項1に記載の方法。
  3. 前記入力は、各細胞に対応付けられる細胞型アノテーションを伴う単一細胞UMIカウント行列である、請求項1または請求項2に記載の方法。
  4. 逆畳み込みを行うべき前記バルクデータは、キロベースミリオンあたりの転写物(TPM)または読み出しカウントである、請求項1または請求項2に記載の方法。
  5. 逆畳み込みを行うべき前記空間データはUMIカウント行列である、請求項1または請求項2に記載の方法。
  6. ノイズを導入する可能性がある情報価値のない遺伝子を除外し、細胞型を区別するために重要な情報を含む遺伝子を、カウントベースの配列決定データの正規化行列からの前記最も変動的に発現する遺伝子の前記下位集合として選択する、請求項1~5のいずれか1項に記載の方法。
  7. 遺伝子の前記下位集合を、前記単一細胞UMIカウント行列内の各細胞型において発現が富化されるマーカー遺伝子の集団から選択する、請求項6に記載の方法。
  8. 組み込みツールが、入力として、前記単一細胞UMIカウント行列及び細胞型アノテーションを取る、請求項7に記載の方法。
  9. 各細胞型に対して、前記ツールは、その細胞型における平均UMIと他のすべての細胞型における平均UMIとの間の倍率変化を計算して、倍率変化の降順によって遺伝子をランク付けする、請求項8に記載の方法。
  10. 各細胞型から上位約200個の遺伝子を選択する、請求項9に記載の方法。
  11. 5つ以下の細胞型に存在する選択したマーカー遺伝子を選択する、請求項9に記載の方法。
  12. 固定数の細胞型または細胞型の総数の一部のいずれか小さい方で存在する選択したマーカー遺伝子を選択する、請求項9に記載の方法。
  13. 合計約1,000個の固有の遺伝子を選択する、請求項9に記載の方法。
  14. 遺伝子の前記下位集合を、前記単一細胞UMIカウント行列内のすべての前記細胞の中で最も変動する非常に変動的な遺伝子の集団から選択する、請求項6に記載の方法。
  15. 細胞数バランシング及びVST正規化の後の各遺伝子に対する分散を計算する、請求項14に記載の方法。
  16. 分散が最も高い遺伝子を選択する、請求項15に記載の方法。
  17. 前記単一細胞UMIカウント行列内の前記細胞型を、すべての細胞集塊のメジアン径を見つけることによってバランシングし、各集塊からの細胞をこの径に等しくなるようにサンプリングする、請求項14~16のいずれか1項に記載の方法。
  18. 前記バランシングされた単一細胞UMI行列内の前記細胞にわたる各遺伝子の前記分散を計算する、請求項17に記載の方法。
  19. 前記正規化データに対する分散を分散安定化変換(VST)によって計算する、請求項18に記載の方法。
  20. 上位2,000個の大きな分散を伴う遺伝子を選択する、請求項19に記載の方法。
  21. 前記RNA-seqデータは、前記平均値を推定する前は正規化しない、請求項1~20のいずれか1項に記載の方法。
  22. 前記平均値を生のUMIカウントを用いてモデリングする、請求項21に記載の方法。
  23. 負の二項分布を各細胞型の単一細胞にフィットさせる、請求項21または請求項22に記載の方法。
  24. 各細胞型における各選択した遺伝子に対して推定を行う、請求項23に記載の方法。
  25. 遺伝子の前記細胞型特異度を計算するために、前記遺伝子のi)発現が最も高いかまたはii)倍率変化が他と比較べて最も高い前記細胞型を特定し、この遺伝子の前記特異度を前記細胞型内での平均対分散比として規定する、請求項1~24のいずれか1項に記載の方法。
  26. 前記負の二項フィッティングからの前記推定平均及び分散パラメータを用いて、選択した遺伝子の前記集合内の各遺伝子に対する前記細胞型特異度重みを計算する、請求項25に記載の方法。
  27. 前記クロスサンプル遺伝子変動性を、サンプルにわたって計算した分散対平均比(VMR)を用いて計算する、請求項1~26のいずれか1項に記載の方法。
  28. 前記クロスサンプル遺伝子変動性を複合トランスクリプトームデータから計算する、請求項27に記載の方法。
  29. 前記複合データは複数サンプルを有していないが、前記単一細胞データは複数のサンプルを有しており、複数の複合サンプルを合成して、それぞれは、前記単一細胞基準における前記サンプルの1つに属するすべての細胞の平均値である、請求項27に記載の方法。
  30. 複合データ及び単一細胞データの両方に対して複数サンプルが利用できない場合、前記方法は、細胞の下位集合の前記発現を平均化することによって前記単一細胞データに対する複数の合成サンプルを生成することを含む、請求項27に記載の方法。
  31. 前記遺伝子ごとのスケーリング係数を適応学習戦略を用いて推定し、各遺伝子をその対応するスケーリング係数によって再スケール変更する、請求項1~30のいずれか1項に記載の方法。
  32. 各複合サンプルを前記回帰モデルによって独立に推定する、請求項1~31のいずれか1項に記載の方法。
  33. バルクまたは空間RNA配列決定データの逆畳み込みを行うための方法であって、前記方法は、
    a)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内での各遺伝子のクロス細胞型特異度を計算するステップと、
    b)複数サンプルの利用可能性に応じて前記バルクまたは空間RNA-seqデータまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、
    c)前記バルクまたは空間RNA-seqデータ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、
    d)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、
    その結果、前記バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する、前記方法。
  34. プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、前記プロセッサ実行可能命令は、1つ以上のコンピューティング装置に、バルクまたは空間RNA配列決定データの逆畳み込みを、i)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの前記行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、前記ステップと、ii)細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、iii)遺伝子のクロス細胞型特異度を計算するステップと、iv)複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、v)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、vi)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、前記バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されている、前記コンピュータ可読媒体。
  35. プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、
    前記プロセッサ実行可能命令は、1つ以上のコンピューティング装置に、バルクまたは空間RNA配列決定データの逆畳み込みを、i)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内での遺伝子のクロス細胞型特異度を計算するステップと、ii)複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、iii)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、iv)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、前記バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されている、前記コンピュータ可読媒体。
  36. システムであって、
    1つ以上のプロセッサと、
    プロセッサ実行可能命令を有するメモリであって、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置にバルクまたは空間RNA配列決定データの逆畳み込みを、i)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの前記行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、前記ステップと、ii)細胞型あたり遺伝子あたりのデータの平均及び分散パラメータを推定するステップと、iii)遺伝子のクロス細胞型特異度を計算するステップと、iv)複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、v)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、vi)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか1つ以上を含み、その結果、前記バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、前記メモリと、
    を含む前記システム。
  37. システムであって、
    1つ以上のプロセッサと、
    プロセッサ実行可能命令を有するメモリであって、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置にバルクまたは空間RNA配列決定データの逆畳み込みを、i)バルクまたは空間RNA-seqデータ、単一細胞RNA-seqデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内の遺伝子のクロス細胞型特異度を計算するステップと、ii)複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、iii)複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、iv)すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間RNA配列決定データにおける細胞型比率を推定するステップと、を含み、その結果、前記バルクまたは空間RNA配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、前記メモリと、
    を含む前記システム。
JP2022526292A 2019-11-08 2020-11-06 バルク組織トランスクリプトームからの正確でロバストな情報逆畳み込み Pending JP2022554386A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962932593P 2019-11-08 2019-11-08
US62/932,593 2019-11-08
PCT/US2020/059420 WO2021092387A1 (en) 2019-11-08 2020-11-06 Accurate and robust information-deconvolution from bulk tissue transcriptomes

Publications (1)

Publication Number Publication Date
JP2022554386A true JP2022554386A (ja) 2022-12-28

Family

ID=73740492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022526292A Pending JP2022554386A (ja) 2019-11-08 2020-11-06 バルク組織トランスクリプトームからの正確でロバストな情報逆畳み込み

Country Status (10)

Country Link
US (1) US20210142867A1 (ja)
EP (1) EP4055611A1 (ja)
JP (1) JP2022554386A (ja)
KR (1) KR20220097409A (ja)
CN (1) CN115136242A (ja)
AU (1) AU2020378080A1 (ja)
CA (1) CA3158301A1 (ja)
IL (1) IL292309A (ja)
MX (1) MX2022005521A (ja)
WO (1) WO2021092387A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023025956A1 (en) 2021-08-27 2023-03-02 NEC Laboratories Europe GmbH Method and system for deconvolution of bulk rna-sequencing data
WO2023025419A1 (en) 2021-08-27 2023-03-02 NEC Laboratories Europe GmbH Method and system for deconvolution of bulk rna-sequencing data
WO2023142041A1 (en) * 2022-01-29 2023-08-03 Cstone Pharmaceuticals, Vistra (Cayman) Limited Methods for processing sequencing data and uses thereof
WO2024000313A1 (zh) * 2022-06-29 2024-01-04 深圳华大生命科学研究院 基因图像数据校正方法、电子设备和介质
KR20240015851A (ko) 2022-07-28 2024-02-06 국립안동대학교 산학협력단 실시간 객체 탐지 방법
CN115083522B (zh) * 2022-08-18 2022-10-28 天津诺禾致源生物信息科技有限公司 细胞类型的预测方法、装置及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200176080A1 (en) * 2017-07-21 2020-06-04 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Analyzing Mixed Cell Populations

Also Published As

Publication number Publication date
KR20220097409A (ko) 2022-07-07
WO2021092387A1 (en) 2021-05-14
EP4055611A1 (en) 2022-09-14
CA3158301A1 (en) 2021-05-14
IL292309A (en) 2022-06-01
CN115136242A (zh) 2022-09-30
MX2022005521A (es) 2022-06-08
AU2020378080A1 (en) 2022-06-02
US20210142867A1 (en) 2021-05-13

Similar Documents

Publication Publication Date Title
JP2022554386A (ja) バルク組織トランスクリプトームからの正確でロバストな情報逆畳み込み
Wolock et al. Scrublet: computational identification of cell doublets in single-cell transcriptomic data
Blencowe et al. Network modeling of single-cell omics data: challenges, opportunities, and progresses
Risso et al. ZINB-WaVE: A general and flexible method for signal extraction from single-cell RNA-seq data
Nasir et al. Single and mitochondrial gene inheritance disorder prediction using machine learning
JP2005524124A (ja) システムの診断構成要素を識別するための方法および装置
CN114424287A (zh) 单细胞rna-seq数据处理
KR101067352B1 (ko) 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
Qu et al. FAM171B as a novel biomarker mediates tissue immune microenvironment in pulmonary arterial hypertension
EP2577533A2 (en) Method for quantifying amplitude of a response of a biological network
CN116959585A (zh) 基于深度学习的全基因组预测方法
Beltrame et al. Using pathway signatures as means of identifying similarities among microarray experiments
US20220399129A1 (en) Systems and methods for terraforming
Mary-Huard et al. Introduction to statistical methods for microarray data analysis
Korenberg Prediction of treatment response using gene expression profiles
US20220403335A1 (en) Systems and methods for associating compounds with physiological conditions using fingerprint analysis
Bidaut et al. Bayesian Decomposition analysis of gene expression in yeast deletion mutants
Chen Mathematical Modeling and Deconvolution for Molecular Characterization of Tissue Heterogeneity
Baralis et al. Temporal association rules for gene regulatory networks
Godinho et al. Latent variable modelling and variational inference for scRNA-seq differential expression analysis
WO2022266259A9 (en) Systems and methods for associating compounds with physiological conditions using fingerprint analysis
Ando et al. An approach based on clustering for detecting differentially expressed genes in microarray data analysis
Boyeau et al. Calibrated Identification of Feature Dependencies in Single-cell Multiomics
Millard Methods for the design and analysis of disease-oriented multi-sample single-cell studies
Green Methods and applications of single-cell transcriptomics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231016