JP2022554386A

JP2022554386A - バルク組織トランスクリプトームからの正確でロバストな情報逆畳み込み

Info

Publication number: JP2022554386A
Application number: JP2022526292A
Authority: JP
Inventors: ヤン、タオ; バイ、ユー; フューリー、ウェン; アトワル、グリンダ
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2019-11-08
Filing date: 2020-11-06
Publication date: 2022-12-28
Also published as: KR20220097409A; WO2021092387A1; EP4055611A1; CA3158301A1; IL292309A; CN115136242A; MX2022005521A; AU2020378080A1; US20210142867A1

Abstract

本開示は、バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行うための方法、バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行うように適応されたプロセッサ実行可能命令を記憶するコンピュータ可読媒体、及びバルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行って細胞型組成を特徴付けるためのシステムに関する。【選択図】図１

Description

本開示は全般的に配列決定技術に関する。より具体的には、本開示は、混合サンプルの配列決定データの逆畳み込みを行うための方法に関し、混合組成特性を得るための関連する装置及びプロセッサ実行可能命令を記憶する関連するコンピュータ可読媒体に関する。

分子生物学において、メッセンジャーＲＮＡ（ｍＲＮＡ）は、デオキシリボ核酸（ＤＮＡ）からリボソームへ遺伝子情報を伝えるＲＮＡ分子の大きな一群であり、遺伝子発現のタンパク質生成物のアミノ酸配列を特定している。ＲＮＡポリメラーゼ酵素は遺伝子を一次転写産物ｍＲＮＡ（前駆体ｍＲＮＡとして知られている）に転写し、処理された成熟ｍＲＮＡとなる。この成熟ｍＲＮＡは次に、アミノ酸のポリマー：タンパク質に翻訳される。これは分子生物学のセントラルドグマにまとめられているとおりである。

ＤＮＡの場合と同様に、ｍＲＮＡ遺伝子情報αはヌクレオチド配列にエンコードされ、それぞれ３つの塩基対からなるコドンに配列される。ＲＮＡ配列決定（ＲＮＡ－ｓｅｑ）は、ＲＮＡの鎖におけるヌクレオチド配列を決定するプロセスである。各コドンは、終止コドン（タンパク質合成を終了させる）を除いて、特定のアミノ酸をエンコードする。このコドンをアミノ酸に翻訳するプロセスは、２つの他の種類のＲＮＡを必要とする。トランスファーＲＮＡ（ｔＲＮＡ）（コドンの識別を仲介して、対応するアミノ酸を与える）及びリボゾームＲＮＡ（ｒＲＮＡ）（リボソームのタンパク質製造機械の中心的なコンポーネント）である。

バルク組織ＲＮＡ－ｓｅｑは、種々の状態（たとえば、正常または病気の状態）にあるゲノムワイドなトランスクリプトームの変化を理解するために適用される広く採用されている方法である。バルク組織は様々な細胞型からなることが多いため、バルクＲＮＡ－ｓｅｑでは各遺伝子の平均発現を測定する。これは、細胞型比率によって重み付けされた細胞型特異的な遺伝子発現の合計である。細胞型組成及び無傷組織におけるその比率が分かっていることは、組織の生物学を理解するためには重要である。これは、細胞組成の違いから組織状態を特徴付けることにつながる可能性があり、これらの変化に合わせて調整することによって、より優れた下流の解析を方向付けることができる。しかし、バルク組織ＲＮＡ－ｓｅｑデータでは細胞型組成の情報は直接には得られない。なぜならば、バルクデータ内で混ざっている各細胞型の遺伝子発現レベルが明瞭ではないからである。

空間トランスクリプトーム法における最近のブレイクスルーによって、組織切片内での空間分解された場所におけるトランスクリプトームごとの遺伝子発現の全体を特徴付けることが可能になっている。しかし、トランスクリプトームごとの数万個の遺伝子を測定する間に単一細胞レベルの解像度に達することは依然として困難である。広く用いられている技術の中には、５０～１００μｍ（組織型に応じて３～３０個の細胞と同等である）の解像度を実現できるものがある。そこでの転写物は１つ以上の細胞型から生じ得る。バルクＲＮＡ－ｓｅｑとは異なり、各スポットにおけるプロファイリングデータでは、ほんの少数の細胞だけが配列決定されているため、かなりのドロップアウトが含まれており、細胞型の内容を明らかにするためにはさらなる問題が課されている。複数細胞レベルの解像度におけるバルクＲＮＡ－ｓｅｑ及び空間トランスクリプトームのデータは両方とも複合ＲＮＡ－ｓｅｑデータであり、細胞型の混合比率は分かっていない。

単一細胞ＲＮＡ－ｓｅｑ（ｓｃＲＮＡ－ｓｅｑ）技術の急速な発展によって、細胞型特異的トランスクリプトームプロファイリングが可能になっている。細胞型組成及び比率をｓｃＲＮＡ－ｓｅｑデータから直接取得することができるため、このような技術によって、複合ＲＮＡ－ｓｅｑデータから欠落している情報を得ることができるが、技術は感度が低く、容認できないほど大きいノイズが発生する。これは高いドロップアウト率及び細胞間変動に起因する。結果として、ｓｃＲＮＡ－ｓｅｑ技術は、結果の統計的有意性を確実にするためには多数の細胞（数千～数万）が必要である。加えて、細胞は捕捉中に生存可能のままでなくてはならない。これらの要求によって、ｓｃＲＮＡ－ｓｅｑ技術は費用がかかり、そのため、多くの対象を伴う臨床研究にそれを応用することはできず、またリアルタイムで組織解離及び細胞捕捉を行うことができない。さらに、ｓｃＲＮＡ－ｓｅｑ技術は、固形組織内での細胞型比率を特徴付けることにはそれほど適してはいない。なぜならば、細胞解離と捕捉のステップは特定の細胞型に偏る可能性があるからである。

単一細胞レベルにおける配列決定は常に実現可能なわけではなく、説明するようにそれ自体の制限がある。さらに、細胞型組成から取得した情報から利益を得ることができる多くの既存のバルクＲＮＡ－ｓｅｑデータも存在する。そのため、バルク組織ＲＮＡ－ｓｅｑデータから細胞型比率の逆畳み込みを行うための計算論的アプローチが開発されている。逆畳み込み処理は本質的に最適化問題であり、有限数の細胞型の混合比率が、最適化すべきパラメータである。目標は、バルク組織ＲＮＡ－ｓｅｑデータにおいて観察される遺伝子発現と、その対応する期待値（混合比率パラメータによって重み付けされた所定の細胞型特異的な発現の合計として計算される）との間の差を最小限にすることである。差を最小限にする最良の混合比率が最終的な出力である。

このような計算法の１つが以下の文献に開示されている。Ｗａｎｇら、「Ｂｕｌｋｔｉｓｓｕｅｃｅｌｌｔｙｐｅｄｅｃｏｎｖｏｌｕｔｉｏｎｗｉｔｈｍｕｌｔｉ－ｓｕｂｊｅｃｔｓｉｎｇｌｅ－ｃｅｌｌｅｘｐｒｅｓｓｉｏｎｒｅｆｅｒｅｎｃｅ」ＮａｔｕｒｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ（２０１９年１月２２日にオンラインで発表）。著者は、バルクＲＮＡ－ｓｅｑデータでの細胞型比率を推定するためにクロスサブジェクトｓｃＲＮＡ－ｓｅｑを用いる「マルチサブジェクト単一細胞逆畳み込み」（ＭｕＳｉＣ）法（コードが利用可能）を導入している。より具体的には、ＭｕＳｉＣは、重み付けされた非負最小二乗回帰（Ｗ－ＮＮＬＳ）であり、事前に選択したマーカー遺伝子を必要としない。ＭｕＳｉＣは、遺伝子を重み付けするために遺伝子安定性を反映するクロスサブジェクト変化を用いている。反復の推定手順によって、安定な遺伝子にはより大きい重みを、そして変動的な遺伝子にはより小さい重みを自動的に課す。これは線形回帰ベースの方法であるため、大きなクロスサブジェクト変化を示す遺伝子は影響力が低く、したがって、回帰に対する影響が小さい。一方で、最も影響力のある遺伝子は、安定性重み付けが高い遺伝子である。ＭｕＳｉＣは、利用できる多くの代替的な計算法の１つである。

加えて、ほとんどの方法では、データを所定の集合の細胞型特異的な遺伝子に限定し、その出力はそのような遺伝子集合の種々の選択に応じて変動するため、結果の客観性とロバスト性が下がる。たとえば、ＣＩＢＥＲＳＯＲＴは、良く知られているが、感度が不十分であると発表されている（ワールドワイドウェブ「ｎａｔｕｒｅ．ｃｏｍ／ａｒｔｉｃｌｅｓ／ｓ４１４６７－０１８－０８０２３－ｘ」を参照）。さらに、ほとんどの既存の方法は、比較的単純な応用例、たとえば、末梢血単核球（ＰＢＭＣ）及び膵臓にのみ適している。ここでは、考慮する必要があるのは一握りの数の細胞型のみであるかまたは細胞型間の違いはかなり大きい。数十個の異なる細胞型または微妙な違いの細胞亜型を伴う複雑な組織におけるそれらの性能は疑わしい。

前述したことを考慮して、複数細胞の解像度におけるバルク組織トランスクリプトーム及び空間トランスクリプトームからの正確でロバストな逆畳み込みを行う改善された方法が求められている。

本開示では、バルクＲＮＡ配列決定データの逆畳み込みを行うための方法（コンピュータ実装方法を含む）、コンピュータプログラム、コンピュータシステム、及び装置が提供される。目標は、バルク組織トランスクリプトームから正確でロバストな細胞型比率推定を取得する必要性を満たすことである。

本開示では、バルク組織に関連する細胞型の単一細胞ＲＮＡ－ｓｅｑから取得した所定の細胞型特異的な発現を用いてバルクＲＮＡ配列決定データの逆畳み込みを行うための方法が提供される。方法は、ｉ）単一細胞ＲＮＡ－ｓｅｑデータから、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択することであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、選択することと、ｉｉ）単一細胞ＲＮＡ－ｓｅｑデータから、カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いることと、ｉｉｉ）単一細胞ＲＮＡ－ｓｅｑデータから、カウントベースの配列決定データ行列、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションからの各細胞型に対して、最も変動的に発現する遺伝子のそれぞれに対するクロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定することと、ｉｖ）正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定することであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクＲＮＡ配列決定カウントを含む、規定することと、ｖ）バルク分布と混合単一細胞分布との間の損失関数を規定することと、ｖｉ）損失関数を適用してバルクＲＮＡ配列決定データにおける細胞型比率を推定することと、のうちのいずれか１つ以上を含み、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する。いくつかの実施形態では、カウントベースの配列決定データは単一細胞ＲＮＡ配列決定データであり、カウントベースの配列決定カウントは単一細胞ＲＮＡ配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞ＲＮＡ配列決定データ行列である。いくつかの実施形態では、カウントベースの配列決定データはＡＴＡＣ－ｓｅｑデータであり、カウントベースの配列決定カウントはＡＴＡＣ－ｓｅｑカウントであり、カウントベースの配列決定データ行列はＡＴＡＣ－ｓｅｑデータ行列である。いくつかの実施形態では、各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である。いくつかの実施形態では、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合、及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である。

また本開示では、バルクＲＮＡ配列決定データの逆畳み込みを行うための方法であって、６つの典型的なステップ：ｉ）３つのソース（バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーション）から入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ｉｉ）細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、ｉｉｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｖ）複数サンプル利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｖ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｖｉ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法が提供される。

また本開示によって、１つ以上のコンピューティング装置に、本明細書で説明する方法のいずれかによってバルクＲＮＡ配列決定データの逆畳み込みを行わせるように適応されたプロセッサ実行可能命令を記憶するコンピュータ可読媒体が提供される。

また本開示によって、システムであって、１つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に本明細書で説明する方法のいずれかによってバルクＲＮＡ配列決定データの逆畳み込みを行わせる、メモリと、を含むシステムが提供される。

当然のことながら、前述の概要と以下の詳細な説明は両方とも、本開示の典型的なものであるが限定するものではない。

本開示は、以下の説明を添付図面とともに読んだときに最良に理解される。特許または出願書類には、カラーで作成された図面の少なくとも１つの図が含まれている。カラー図を伴うこの特許または特許出願公開のコピーは、米国特許商標庁に要求して必要な料金を支払えば得られる。図面には以下の図が含まれている。

開示した方法の１つの実施形態のワークフローの概略を示す図である。Ａ、Ｂ、Ｃは、開示した方法の一実施形態において最も情報価値のある遺伝子を選択するための基礎として３つの異なる仮定の遺伝子発現対細胞型パターンを例示する。開示した方法の一実施形態におけるすべての細胞型にわたる遺伝子の分散の計算と上位２，５００個の変動的な遺伝子の選択とを例示する図である。開示した方法の一実施形態における細胞型平均分散内での全体または全平均分散の計算を例示する図である。開示した方法の一実施形態におけるガウス分布をフィッティングさせることによる細胞型特異的分散及び平均値の推定を示す図である。開示した方法の一実施形態におけるガウス分布をフィッティングさせることによるバルクデータクロスサンプル分散及び平均値の推定を示す図である。開示した方法の一実施形態における単一細胞データの混合分布とバルク細胞データの分布との間の比較を例示する図である。例示的な実施例に対して、図１に示す開示した方法の実施形態のステップ３の適用に従ってガウス分布をフィットさせる結果を示す図である。例示的な実施例に対して、図１に示す開示した方法の実施形態のステップ４の適用に従ってガウス分布をフィットさせる結果を示す図である。例示的な実施例に、図１に示す開示した方法の一実施形態におけるステップ５を適用する結果、すなわち、比率パラメータ、重み、単一細胞及び例のバルク細胞データから学習した各遺伝子の分布を用いてモデルを規定する結果を示す図である。開示した方法（ＡｄＲｏｉｔ法）の別の実施形態のワークフローの概略を示す図である。図１１に開示した方法の第１のステップの間に最も情報価値のある遺伝子を選択するための２つの選択肢を例示する図である。図１１に開示した方法を用いて選択する細胞の種類を例示する仮説例を示す図である。細胞型における各遺伝子に対して負の二項分布をフィッティングさせることによって平均及び分散パラメータを推定する図１１に開示した方法の第２のステップを例示する図である。図１１に開示した方法の第５のステップの間に適用される遺伝子ごとのスケーリング係数の効果を実証する仮説例を示す図である。対象１８人のヒト膵島細胞組成の概要である。４つの細胞型は互いに異なっていることを示すｔ－ＳＮＥグラフである。対象１８人からのすべての細胞型に対するＡｄＲｏｉｔ法の推定における真のパーセンテージに対する推定精度の比較を反映するグラフである。対象１８人からのすべての細胞型に対するＭｕＳｉＣ法の推定における真のパーセンテージに対する推定精度の比較を反映するグラフである。対象１８人からのすべての細胞型に対するＮＮＬＳ法の推定における真のパーセンテージに対する推定精度の比較を反映するグラフである。図１６Ａ、１６Ｂ、１６Ｃの３つの各グラフに対して計算した４つの別個の統計的測定（ｍＡＤ、ＲＭＳＤ、スピアマン及びピアソン相関）を一覧表示する表である。８人のドナーのヒト小柱網細胞組成の概要である。細胞型間の違いならびに類似性を示すｔ－ＳＮＥグラフである。データを用いて、開示した方法を他の従来方法に対して評価した。８人のドナーに対するＡｄＲｏｉｔ法の結果において真のパーセンテージに対する推定精度の比較を反映するグラフである。８人のドナーに対するＭｕＳｉＣ法の結果において真のパーセンテージに対する推定精度の比較を反映するグラフである。８人のドナーに対するＮＮＬＳ法の結果において真のパーセンテージに対する推定精度の比較を反映するグラフである。図１９Ａ、１９Ｂ、１９Ｃの３つの各グラフに対して計算した４つの別個の統計的測定（ｍＡＤ、ＲＭＳＤ、及びスピアマン及びピアソン相関）を一覧表示する表である。３つの方法の中で推定が真実からどれだけの量ずれているかの比較を示す図である。１つのドットがドナーを表し、１つの行がヒト小柱網における細胞型である。ヒト小柱網細胞型に対してＡｄＲｏｉｔ法及びＭｕＳｉＣ法の両方を用いて計算した推定及び真のデータを反映する図である。ヒト小柱網細胞型を検出するための曲線下面積（ＡＵＣ）が、ＡｄＲｏｉｔ法の方がＭｕＳｉＣ法よりも著しく高いことを示す受信者動作特性（ＲＯＣ）曲線であり、ＡｄＲｏｉｔの方が感度が高いことを示す図である。５匹のマウスの細胞組成の概要である。使用したマウス後根神経節の単一細胞データにおいて見つかった細胞型のｔ－ＳＮＥグラフである。このデータを後に用いて、開示した方法を他の従来方法に対して評価した。５匹のマウスに対するＡｄＲｏｉｔ法の結果における真の細胞パーセンテージに対する推定精度の比較を反映するグラフである。５匹のマウスに対するＭｕＳｉＣ法の結果における真の細胞パーセンテージに対する推定精度の比較を反映するグラフである。５匹のマウスに対するＮＮＬＳ法の結果における真の細胞パーセンテージに対する推定精度の比較を反映するグラフである。ｍＡＤ、ＲＭＳＤ、ピアソン及びスピアマン相関を統計的測定として用いた、マウスデータに対するＡｄＲｏｉｔ法、ＭｕＳｉＣ法、及びＮＮＬＳ法の結果を比較するグラフの表示である。実際のヒト膵島バルクＲＮＡ－ｓｅｑデータに対する細胞型パーセンテージのＡｄＲｏｉｔ法に基づく推定が、同じドナーからの繰り返しサンプルに対して再現性が非常に高いことを示すグラフである。Ａｄｒｏｉｔ法を用いて推定したヒト膵島データの細胞型パーセンテージが、細胞型パーセンテージのＲＮＡ－Ｆｉｓｈ測定値に一致することを示す図である。Ａｄｒｏｉｔ法を用いて推定したベータ細胞比率が、ドナーのＨｂＡ１Ｃレベルと有意な負の直線関係を有する（健康及びＴ２Ｄ細胞の両方を含む）ことを示す図である。Ｔ２Ｄ患者においてＡｄｒｏｉｔ法を用いて推定したベータ細胞比率が、健康な対象における場合よりも有意に低いことを示す図である。５つの異なるＰＥＰ細胞亜型を含むシミュレートした空間スポット上で立体鏡及びＡｄＲｏｉｔ法によって実現した推定を比較する図である。シミュレーションデータを用いて細胞のパーセントが低いときの性能を比較する図である。一連の低パーセントＰＥＰ細胞をシミュレートして、他の２つのＰＥＰ細胞型と混合した。結果は、ＡｄＲｏｉｔ法を用いて実現した推定の中央値は真の比率に近く、立体鏡を用いて実現した推定よりも近かったことを示す。シミュレートした空間スポットを用いたＡｄＲｏｉｔ法及び立体鏡法の検出率を比較する図である。シミュレーションは細胞型の６つの異なる混合方式を含む。混合の各種類は一連の低パーセント細胞型を含む。評価は、それぞれの所与の低パーセントにおいて低パーセント細胞型のどのくらいの量が検出されたかを調べることである。マウス脳冠状組織切片の各空間スポットにおいてＡｄＲｏｉｔ法によって推定した細胞型の内容を例示する図である。図３４に示した細胞型場所が正確であることを検証するアレンマウス脳地図からのＷｆｓ１、Ｐｒｏｘ２、Ｒａｒｒｅｓ２遺伝子のＩＳＨ画像である。

本開示の態様に関する種々の用語を、明細書及び特許請求の範囲の全体に渡って用いる。このような用語には、特に断りのない限り、当該技術分野におけるその通常の意味を与えるべきである。他の具体的に定義した用語は、本明細書で与えた定義と整合するように解釈すべきである。

特に明記のない限り、記載した任意の方法または態様が、そのステップを特定の順序で行うことが必要であると解釈されることは決して意図していない。したがって、請求項または説明において、方法クレームが、ステップが特定の順番に限定されるべきであると具体的には述べていない場合、順番をいかなる意味においても推測することは決して意図していない。これは、解釈のための表現されていない任意の可能な根拠（ステップの配置または動作フローに関するロジックの問題、文法構成または句読法から得られる明白な意味、または明細書で説明する態様の数もしくは種類を含む）に対しても成り立つ。

ＲＮＡ配列決定技術によって、疾患メカニズムを学習して新しい治療標的を発見する前例のない機会が得られ得る。最近の空間トランスクリプトーム法によってさらに、組織切片内で空間分解されたスポットにおけるトランスクリプトームプロファイリングが可能になっている。制御された実験において、治療介入下での細胞組成の変動性を知ることが非常に重要であることが多い。また各組織スポットにおける細胞型の内容を理解することは、空間トランスクリプトームデータの解釈にとっても重要である。単一細胞ＲＮＡ－ｓｅｑには、異なる細胞における細胞型組成及び発現不均一性を明らかにする能力があるが、依然として費用がかかり、生細胞の取得や十分な解離ができないときにはしばしば実行不可能である。単一細胞レベルでの配列決定が実現できないときにバルク及び空間ＲＮＡ－ｓｅｑデータを活用するために、本明細書で示すのは、関連する細胞型の既知の単一細胞配列データ（たとえば、パブリックドメインにおいて利用できるデータ）を用いて、バルクまたは空間ＲＮＡ－ｓｅｑデータにおける各細胞型の比率を推定する方法である。本明細書で説明する方法は、遺伝子ごとの技術バイアス、遺伝子の細胞型特異度及びクロスサンプル変動性を一緒にモデリングするため、より正確でロバストである。系統的なベンチマーキング評価によって、他の既存の方法よりも優れた感度及び特異度が、多くの密接に関係する亜型が存在する神経細胞においても示されている。

本明細書で開示する方法によって、バルクＲＮＡ－ｓｅｑデータにおける各細胞型の比率を、カウントベースの配列決定技術から取得した関連する細胞型（多くの場合に公表されている）の独立に取得した発現プロファイル（たとえば、単一細胞データ）を用いて推定する統計的な方法が提供される。方法は特に、珍しい（比率が約５％未満の）細胞型の検出にとても適している。本明細書で説明する方法を実施する際の仮定の１つは、単一細胞ＲＮＡ－ｓｅｑに用いる組織には、バルクまたは空間配列決定サンプルにあるものと同じかまたはそれよりも少なくない細胞型が含まれているということである。

本明細書で用いる場合、用語「約」の意味は、説明した数値は概算であり、小さい変動があったとしても、開示した実施形態の実施には大きく影響しないだろうということである。数値を用いている場合、文脈により別段の指定がない限り、用語「約」の意味は、数値が±１０％だけ変動する可能性があり、開示した実施形態の範囲に留まる可能性があるということである。

本明細書で用いる場合、用語「含む」は、特定の実施形態において必要に応じて、「からなる」または「本質的に、からなる」と置き換えられ得る。

開示した方法、装置、及びコンピュータ可読媒体は、バルク組織トランスクリプトームから細胞型の比率を正確かつロバストに推定することを目的とする。既存のカウントベースの配列決定データ、たとえば単一細胞ＲＮＡ配列決定データを、アノテーションを有する細胞素性を伴う基準として用いる。非常に情報価値のある遺伝子の特有の分布特性を各細胞型に対して突き止めて、細胞型の組成を、マーカー選択に基づくことなくバルク組織または空間ＲＮＡ配列決定データから推定する。開示した方法、装置、及びコンピュータ可読媒体の成功にとって重要であるのは、１）混合比率を推定するときに、遺伝子発現値の全分布、または分布を規定する平均及び分散パラメータを考慮し、平均値だけではないということ、２）細胞型間でより区別可能な遺伝子、すなわち、特定の細胞型に非常に固有の発現を伴う遺伝子には高い重みを付けること、３）複数サンプル間で非常に変動的な遺伝子には低い重みを付けること、４）バルクまたは空間ＲＮＡ配列決定データと単一細胞ＲＮＡ配列決定データとの間のプラットフォームの違いに対処するために、適応学習アプローチを用いて遺伝子ごとのスケーリング係数を推定すること、５）統計共線性の影響を最小限にするためにモデルに正則化項を含めることである。開示した方法、装置、及びコンピュータ可読媒体のいくつかある特徴の中で特に、これらの５つの特徴を組み合わせて、既存の方法に対する改善が得られる。

本開示によって、バルクＲＮＡ配列決定データの逆畳み込みを行うための方法が提供される。いくつかの実施形態では、方法は、以下の６つの典型的なステップ：ｉ）最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ｉｉ）カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、ｉｉｉ）各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、ｉｖ）正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクＲＮＡ配列決定カウントを含む、ステップと、ｖ）バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、ｖｉ）損失関数を適用してバルクＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する。これらのステップを図１に例示する（カウントベースの配列決定として単一細胞ＲＮＡ配列決定を示す）。図１では、開示した方法の一実施形態のワークフローの概略を示す。各ステップについては、各ステップに対する入力、出力、及び目的または理論的根拠を参照しながら、順に後述する。これらの各処理ステップはコンピューティング装置（たとえば、コンピュータ）によって行うことができる。いくつかの実施形態では、すべてのプロセスステップをコンピュータによって行う。

いくつかの実施形態では、方法は第１のステップを含む。いくつかの実施形態では、方法は第１のステップと、第２、第３、第４、第５、及び第６のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第２のステップを含む。いくつかの実施形態では、方法は第２のステップと、第１、第３、第４、第５、及び第６のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第３のステップを含む。いくつかの実施形態では、方法は第３のステップと、第１、第２、第４、第５、及び第６のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第４のステップを含む。いくつかの実施形態では、方法は第４のステップと、第１、第２、第３、第５、及び第６のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第５のステップを含む。いくつかの実施形態では、方法は第５のステップと、第１、第２、第３、第４、及び第６のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第６のステップを含む。いくつかの実施形態では、方法は第６のステップと、第１、第２、第３、第４、及び第５のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。

いくつかの実施形態では、カウントベースの配列決定データは単一細胞ＲＮＡ配列決定データであり、カウントベースの配列決定カウントは単一細胞ＲＮＡ配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞ＲＮＡ配列決定データ行列である。いくつかの実施形態では、カウントベースの配列決定データはＡＴＡＣ－ｓｅｑデータであり、カウントベースの配列決定カウントはＡＴＡＣ－ｓｅｑカウントであり、カウントベースの配列決定データ行列はＡＴＡＣ－ｓｅｑデータ行列である。いくつかの実施形態では、各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である。いくつかの実施形態では、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である。本明細書で説明する方法は、バルクＲＮＡ配列決定データに対する単一細胞分布比率の推論という結果になる。

いくつかの実施形態では、方法はさらに、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントの行列を形成して、行列を正規化することを含む。いくつかの実施形態では、方法はさらに、バルクＲＮＡ配列決定カウントのバルク行列を形成して、バルク行列を正規化することを含む。いくつかの実施形態では、方法はさらに、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントの行列を形成して、行列を正規化することと、バルクＲＮＡ配列決定カウントのバルク行列を形成して、バルク行列を正規化することと、を含む。いくつかの実施形態では、方法はさらに、細胞型アノテーションを取得することを含む。いくつかの実施形態では、カウントベースの配列決定データは単一細胞ＲＮＡ配列決定データであり、カウントベースの配列決定カウントは単一細胞ＲＮＡ配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞ＲＮＡ配列決定データ行列である。いくつかの実施形態では、カウントベースの配列決定データはＡＴＡＣ－ｓｅｑデータであり、カウントベースの配列決定カウントはＡＴＡＣ－ｓｅｑカウントであり、カウントベースの配列決定データ行列はＡＴＡＣ－ｓｅｑデータ行列である。

いくつかの実施形態では、方法はさらに、バルクＲＮＡ配列決定データを取得した各細胞型からのＲＮＡの比率を特定することを含む。いくつかの実施形態では、方法はさらに、バルクＲＮＡ配列決定データを取得した各細胞型の比率を特定することを含む。いくつかの実施形態では、方法はさらに、バルクＲＮＡ配列決定データを取得した各細胞型からのＲＮＡの比率を特定することと、及びバルクＲＮＡ配列決定データを取得した各細胞型の比率を特定することと、を含む。

ステップ１：上位「Ｎ」個の非常に変動的な遺伝子の選択
開示した方法の例示的な実施形態（図１）における第１のステップの目的は、最も情報価値のある遺伝子を選択することである。このステップを、単一細胞ＲＮＡ－ｓｅｑ（ｓｃＲＮＡ－ｓｅｑ）データに適用するが、本明細書で述べるように任意のカウントベースの配列決定データに適用することができる。ｓｃＲＮＡ－ｓｅｑデータにおいて、ゲノム内のすべての遺伝子が、特定の細胞の素性について情報価値があるわけではない。理由の１つは、多くの遺伝子が細胞生存及び他の基本的な細胞機能にとって不可欠だからである。これらの遺伝子は、多くの異なる細胞型にわたって普遍的に発現されており、細胞型によって生物学的に区別することはできない。さらに、技術的制限によって、ｓｃＲＮＡ－ｓｅｑは通常、プラットフォーム（１０ｘまたはＣ１）に応じて、各細胞から数百～数千個の遺伝子を捕捉する。これらの遺伝子の大部分は、すべての細胞にわたって読み出しがない。どちらの場合も、これらの遺伝子は細胞素性の特定には寄与しないため、バルクデータの逆畳み込において情報価値がない。

図２Ａ、２Ｂ、２Ｃに、最も情報価値のある遺伝子を選択することがなぜ重要であるかの１つの理由を、３つの仮想の遺伝子のそれぞれに対する発現（縦座標）対細胞型Ｃ_１、Ｃ_２、Ｃ_３、Ｃ_４、及びＣ_５（横座表）のグラフを用いて例示する。図２Ａに情報価値のある遺伝子１を示す。なぜならば、各細胞型内のデータが比較的一貫しており、５つの細胞型の間でデータを区別できるからである。図２Ｂのデータは有用ではない。なぜならば、各細胞型内のデータが変動しすぎるからである。図２Ｃのデータは有用ではない。なぜならば、細胞型間のデータが十分には異なっていないからである。

既知の解析方法を用いて非常に変動的な遺伝子を選択することができる。たとえば、Ａ．Ｂｕｔｌｅｒら、「Ｉｎｔｅｇｒａｔｉｎｇｓｉｎｇｌｅ－ｃｅｌｌｔｒａｎｓｃｒｉｐｔｏｍｉｃｄａｔａａｃｒｏｓｓｄｉｆｆｅｒｅｎｔｃｏｎｄｉｔｉｏｎｓ，ｔｅｃｈｎｏｌｏｇｉｅｓ，ａｎｄｓｐｅｃｉｅｓ」、Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．（２０１８）（Ａ．Ｂｕｔｌｅｒ，Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．）；及びＦ．Ｗｏｌｆら、「ＳＣＡＮＰＹ：Ｌａｒｇｅ－ｓｃａｌｅｓｉｎｇｌｅ－ｃｅｌｌｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａａｎａｌｙｓｉｓ」、ＧｅｎｏｍｅＢｉｏｌ．（２０１８）を参照のこと。通常、単一細胞をｓｃＲＮＡ－ｓｅｑデータに基づいて計算的に集塊化するときには、上位２，０００個の非常に変動的な遺伝子によって、異なる細胞型間の良好な分離が得られる。しかし、この２，０００個の数の遺伝子よりもある程度多い数を選択することが推奨される。なぜならば、データ処理によって情報損失が誘発される可能性があるからである。他方で、バランスを維持しなければならない。なぜならば、選択する遺伝子が多すぎるとノイズが導入されるからである。したがって、いくつかの実施形態では、上位２，５００個の非常に変動的な遺伝子を選択する。その数よりも多いか少ない遺伝子を、応用例（たとえば、細胞型）に応じて選択することができる。選択すべき変動的な遺伝子の好ましい数は、どの数が最良の検証を実現するかに基づいた試行錯誤によって所定にすることができる。「所定」とは、事前に決定されることを意味しており、したがって、所定の特性は、なんらかのイベントより前に決定されなければならない、すなわち、選択されるかまたは少なくとも知られていなければならない。好ましくは、選択する非常に変動的な遺伝子の最小及び最大数の範囲は約１，０００～約５，０００である。遺伝子は、ＲＮＡ－ｓｅｑ技術によって測定可能なトランスクリプトーム全体から選択する。ヒトのトランスクリプトームには、約２５，０００個の遺伝子が存在する。マウストランスクリプトームには、約２０，０００個の遺伝子が存在する。

ＲＮＡ－ｓｅｑデータにおける良く知られた分散効果により、カウント行列からの変化を直接計算すると分散を過大評価する可能性がある。本明細書で説明する方法は、分散安定化変換（ＶＳＴ）データ行列から分散を計算することによってこのような過大評価に対処し、これらの分散のランクに基づいて遺伝子を選択する。図３に、すべての細胞型にわたる遺伝子の分散の典型的な計算及び上位２，５００個の非常に変動的な遺伝子の選択を例示する。この手順のアルゴリズムは、Ａ．Ｂｕｔｌｅｒ、Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌに開示された「Ｓｅｕｒａｔ」Ｒパッケージにおいて容易にプログラムされる。たとえば、関数「ＦｉｎｄＶａｒｉａｂｌｅＦｅａｔｕｒｅｓ」を用いて上位２，５００個の非常に変動的な遺伝子を選択する。当然のことながら、他のアルゴリズムを、上位２，５００個の非常に変動的な遺伝子の選択に対して用いることができる。

この第１のステップでは、図３に例示するように、単一細胞発現行列は、行が遺伝子を表して列が個々の細胞型を表す入力を構成する。固有の分子識別子（ＵＭＩ）カウント行列（データは１０ｘプラットフォームから）またはＲＰＫＭ（データはＣ１プラットフォームから）を用いることが推奨されるが、必須ではない。このステップでは、細胞型のアノテーションは必要ではない。単一細胞カウント行列にＶＳＴを適用した後で、標準偏差（ギリシャ記号シグマまたは「σ」で表される）を各行（遺伝子）に対して計算して、２，５００個の最も変動的な遺伝子を得る。標準偏差はデータグループ全体に対する偏差の程度の尺度である。標準偏差は以下のように計算する。１）平均値または平均を計算する、２）各数値に対して、平均値を差し引いて結果を２乗する、３）２乗差の平均値（分散）を計算する、４）その平均値の平方根を計算する。開示した方法の第１のステップからの出力は、上位「Ｎ」個の数（すなわち、２，５００）の非常に変動的な遺伝子である。開示した方法は後で、これらのＮ個の遺伝子に対する計算を制限する。

ステップ２：細胞型特異的重みの計算
開示した方法の例示的な実施形態における第２のステップへの入力は、第１のステップの場合と同じ単一細胞カウント行列であるが、本明細書で述べるように、任意のカウントベースの配列決定データ行列とすることができる。しかし第２のステップも、入力として、細胞素性情報（すなわち、細胞型アノテーション）が必要である。なぜならば、細胞型特異的分散を計算するからである。第２のステップの目的の１つは、細胞型を規定する際の遺伝子の重要性を定量化することである。

図４に、全体または全平均分散及び細胞型内平均分散の代表的な計算を例示する。平均分散を各細胞型内の細胞にわたって計算して、全平均分散と比較する。同じ分散理由により、対数カウントに対する分散（ゼロカウントに１を足す）を計算する。遺伝子が細胞型の中では安定して発現している（すなわち、平均分散が低いことを意味する）が、すべての細胞間では大きく変動する（すなわち、平均分散が高いことを意味する）場合は、その遺伝子はその細胞型に対する良好な指定子となるべきであり、したがって、大きな重みを受けるべきである。

各細胞型の重み（「Ｗ」）を形式的に規定するために、「Ｎ」を細胞の総数とし、「ｎ_ｋ」を細胞型「ｋ」における細胞の数とする。したがって、Ｎ＝ｎ_１＋ｎ_２＋ｎ_３＋．．．．である。特定の遺伝子「ｉ」に対して、σ_ｉ ^２をすべての細胞にわたる分散とし、σ_ｉｋ ^２を細胞型ｋ内でのその遺伝子の分散とする。したがって、特定の遺伝子及び細胞型に対する重みは以下のように表現される。

方程式の分子は全平均分散であり、方程式の分母は細胞型内平均分散である。重みを、すべての情報価値のある遺伝子及びすべての細胞型に対して計算して、Ｉ×Ｋ行列となる。ここで、Ｉ及びＫはそれぞれ、遺伝子の数及び集塊の数である。開示した方法の第２のステップからの出力は、エントリが各遺伝子に対する細胞型特異的重みである重み行列である。行列の行は遺伝子であり、列は細胞型である。

ステップ３：対象全体にわたる細胞型特異的ガウス分布のフィッティング
開示した方法の例示的な実施形態における第３のステップへの入力は、ステップ１からの単一細胞カウント行列及び非常に変動的な遺伝子のリストならびに細胞型アノテーションを含むが、本明細書で述べるように、任意のカウントベースの配列決定データ行列とすることができる。複数サンプル単一細胞データの場合、サンプル情報も入力しなければならない。

統計的検定によって特定のデータ集合を解析して、より全般的な結論を得る。これを行ういくつかのアプローチがあるが、最も一般的なものは、母集団内のデータが特定の連続的な確率分布を有しているという仮定に基づく。最も一般的に使用される分布は、ベル形状のガウス分布（正規分布とも言われる）である。正規分布は、分布が分かっていない実数値の確率変数を表すために自然及び社会科学で用いられることが多い。ガウス分布を伴う確率変数は正規分布していると言われ、正規偏差と言われる。

開示した方法の特徴の１つは、方法が、混合比率を推定するときに全分布を用いることである。分布を、正規化されたカウントを分布（たとえば、ガウス分布）にフィッティングさせることによって取得して、各遺伝子に対する分散及び平均値を推定する。「正規化する」プロセスは、種々のスケールで測定した値を、通常、平均化する前に共通のスケールに調整する（すなわち、測定単位をなくす）ことを伴う。図５に、ガウス分布をフィッティングさせることによって細胞型特異的分散及び平均値をどのように推定するかを示す。

開示した方法は、複数のサンプルが利用できるか否かに応じて、少なくとも２つの方法を用いて分布（たとえば、ガウス分布）を推定することができる。複数のサンプルが利用できる場合、読み出しカウントを加えることによって細胞を細胞型内でプールして、各細胞型に対するメガ細胞を形成する。メガ細胞によって、技術的制限に起因するデータ希薄及びサンプリング変動が軽減され、したがって、それぞれの特定の細胞型の特有のトランスクリプトームプロファイルがより良好に表現される。しかし、残念ながら、複数のサンプルは常に利用できるわけではない。複数のサンプルが利用できない場合、開示した方法は、分散の推定を、細胞を複数の下位集団にランダムに分け、細胞を各下位集団内でプールして、細胞をそれらが異なるサンプルに由来するように用いることによって行う。

開示した方法は次に、各サンプルに対するメガ細胞カウント行列を正規化する。当該方法は基本的に、以下の文献に開示されるようなＲＮＡ－ｓｅｑデータを正規化する標準的な方法に従う。Ａ．Ｂｕｔｌｅｒ、Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．、及びＭ．Ｌｏｖｅら、「ＭｏｄｅｒａｔｅｄｅｓｔｉｍａｔｉｏｎｏｆｆｏｌｄｃｈａｎｇｅａｎｄｄｉｓｐｅｒｓｉｏｎｆｏｒＲＮＡ－ｓｅｑｄａｔａｗｉｔｈＤＥＳｅｑ２」ＧｅｎｏｍｅＢｉｏｌ．（２０１４）。ここでは、データを、各メガ細胞が同じ読み出し総数を有するように再スケール変更し、そして再スケール変更したデータを対数変換する。しかし、開示した方法では、より良好な結果を実現するために、標準的な方法に対していくつかの比較的小さい調整を行う。第１に、対数変換によって、分布（たとえば、ガウス分布）に対する概算値を確実にするが、開示した方法が基づく分散が大きく減る。マイナス面を軽減するために、読み出し総数を大きな数（たとえば、１０^７）に再スケール変更する。第２に、典型的に行列内のゼロに１を足して対数誤差を回避するが、同時に、特に低発現遺伝子に対して分布を好ましくなく変え得る。１を足すことによって満足のいく結果が得られるが、より小さい数（たとえば、０．１）を足した場合、推定精度の改善に役立ち、また方法のステップ５で（以下に）説明するアルゴリズムの収束も高速化する。

開示した方法の第３のステップからの出力は、メガ細胞に対する正規化された発現行列と各選択した遺伝子に対する推定平均値及び分散とを含む。図に例示した例では、出力は２，５００ガウス曲線の５つの集合（各細胞型に対して１つ）を含む。この時点で、開示した方法は単一細胞データの処理を完了しており、次にバルクデータに移る。

ステップ４：バルクデータへのガウス分布のフィッティング
ステップ１から選択した遺伝子のリストと複数サンプルバルクＲＮＡ－ｓｅｑカウント行列とを組み合わせて、開示した方法の例示的な実施形態における第４のステップへの入力を形成する。ステップ４はステップ３に実によく似ている。最初に、読み出し総数を再スケール変更して単一細胞解析の場合と同じ数（たとえば、１０^７）にし、そして小さい数（たとえば、０．１）をゼロカウントに足して対数変換を行う。理論的に、バルクＲＮＡ－ｓｅｑデータに対する全読み出しを再スケール変更することは不必要であり、スケール変更していないデータと同様の結果を得る。いくつかの実施形態では、開示した方法は、数値が単一細胞の合計に近いとアルゴリズムの収束が高速化するという現実的な理由で再スケール変更を含んでいる。図６に、ガウス分布をフィッティングさせることによってバルクデータクロスサンプル分散及び平均値をどのように推定するかを示す。開示した方法の第４のステップからの出力は、各選択した遺伝子に対するサンプルにわたる正規化された発現行列及び推定平均値及び分散を含む。

ステップ５：損失関数の規定
開示した方法の例示的な実施形態における第５のステップは、入力として、以前のステップからのすべての出力、すなわち、上位の非常に変動的な遺伝子、遺伝子あたりの細胞型特異的重み、カウントベースの配列決定データ（たとえば、単一細胞ＲＮＡ配列決定、及びバルクデータ）に対する正規化行列、及び分布平均値（たとえば、ガウス平均値）、及びカウントベースの配列決定（たとえば、単一細胞ＲＮＡ配列決定、及びバルクデータ）に対する分散推定を取る。機械学習問題の場合、適切な損失関数を選択することはパラメータ推定にとって重要である。損失関数は最新の機械学習の中心である。損失関数はアルゴリズムを理論から実用へ移し、ニューラルネットワークを見せかけの行列乗算から深層学習に変換する。根本的に、損失関数は単純である。それは、どのくらい良好にアルゴリズムがデータセットをモデリングするかを評価する方法である。予測が完全に外れている場合、損失関数が出力する数は大きい。予測が良好である場合、損失関数が出力する数は小さい。モデルを改善しようとしてアルゴリズムの一部を修正しているため、損失関数は、修正が成功する傾向があるか否かについて教えてくれる。

現時点で使用されている最も一般的な損失関数のうちのいくつか（単純なものから複雑なものまで）について考える。平均二乗誤差（ＭＳＥ）は、理解及び実施が容易で全般的に適度に良好に機能する基本的な損失関数である。ＭＳＥを計算するために、予測とグラウンドトゥルースとの間の差を計算し、２乗し、全データセットにわたって平均化する。別の損失関数である尤度関数も比較的単純であり、分類問題において広く用いられている。尤度関数は各入力例に対する予測確率を取って、それらを乗じる。出力を人間が解釈することはできないが、尤度関数はモデルを比較するには有用である。対数損失は、やはり分類問題において用いられることが多い損失関数であり、尤度関数を対数により変更したものである。損失関数は、モデルがどのように機能しているかの静的表現を与えるだけではない。アルゴリズムが最初にどのようにデータにフィットするかについて教えてくれる。ほとんどの機械学習アルゴリズムが、最適化の過程において、またはデータセットに対する最良のパラメータ（重み）を見つける過程において、何らかの損失関数を使用する。

開示した方法のアルゴリズムは、単一細胞データの混合分布とバルク細胞データのそれとの間の差を最小限にすることによって比率パラメータの最良のセットを見つけるようにデザインされている。図７に２つの分布の間の比較を例示する。目標の１つは、単一細胞データの合計とバルク細胞データの間の差を最小限にすることである。したがって、いくつかの実施形態では、開示した方法はＫｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ（ＫＬ）発散をその損失関数として用いる（Ｓ．Ｋｕｌｌｂａｃｋ＆Ｒ．Ｌｅｉｂｌｅｒ、ＯｎＩｎｆｏｒｍａｔｉｏｎａｎｄＳｕｆｆｉｃｉｅｎｃｙ（Ａｎｎ．Ｍａｔｈ．Ｓｔａｔ．１９５１）を参照）。ＫＬ発散は２つの分布の間の類似性の定量化に特に適している。ｆ_１（ｘ）及びｆ_２（ｘ）を、連続変数Ｘに対する２つの確率密度関数とする。２つの間のＫＬ発散を次のように規定する。

次に、開示した方法の例示的な実施形態の実施態様におけるモデル仕様について説明する。開示した方法は、変数Ｙを用いて、正規化された発現値を表す。モデルの目標の１つは、バルク組織における細胞型ｋの比率θ_ｋを推定することである。細胞型ｋの遺伝子ｉに対して、単一細胞発現（Ｓ）は以下のようになる。

バルクデータ（Ｂ）における同じ遺伝子ｉは以下のようになる。

確率密度はそれぞれ

である。細胞型ｋの確率密度は

と書かれる。遺伝子ｉに対する損失関数は以下のようになる。

ここで、

ステップ１でｎ個の非常に変動的な遺伝子を選択すると仮定して、すべての遺伝子を考慮した全損失は以下のようになる。

実際のバルクデータ分布と単一細胞の混合分布との間の規定した損失関数が、開示した方法の第５のステップからの出力である。単一細胞の比率を損失関数における未知のパラメータとして設定し、次のステップで推定する。

可能であるが、μ’及びσ^２’をパラメータ化すると、モデルが不必要に複雑になる。なぜならば、開示した方法の目標はθ’の推定だからである。アルゴリズムによって、すべての選択した遺伝子にわたってフィットするグローバルな比率パラメータθ’のセットを見つける。すべての遺伝子にわたる推定誤差がランダム化されて、θ’の推定に対するグローバルな影響が無視できることを考慮すれば、バルク及び単一細胞データからのμ’及びσ^２’の粗い推定値であれば、アルゴリズムが最良のθ’を見つけるには十分である。したがって、開示したモデルは、ステップ３及び４からの推定したμ’及びσ^２’を直接使用し、それらを既知のパラメータとして扱って確率密度を計算する。θ’が、モデルにおいて推定する唯一の未知のパラメータである。

ステップ６：モデル推定
開示した方法の第５のステップから出力された実際のバルクデータ分布と単一細胞の混合分布との間の規定した損失関数が、第６のステップに対する入力である。方法は、比率パラメータを推定するために勾配降下法を採用する。勾配降下法は、関数の最小値を見つけるための一次の反復最適化アルゴリズムである。勾配降下法を用いて関数の局所的最小値を見つけるために、現在点における関数の勾配（または近似勾配）の負に比例するステップを取る。代わりに、勾配の正に比例するステップを取った場合、その関数の局所的最大値に近づく。その場合、手順は勾配上昇として知られる。勾配降下法は、Ｍ．Ｃａｕｃｈｙによって１８４７に最初に提案された（Ｍ．Ｃａｕｃｈｙ、ＭｅｔｈｏｄｅＧｅｎｅｒａｌｅＰｏｕｒｌａＲｅｓｏｌｕｔｉｏｎｄｅｓＳｙｓｔｅｍｅｓＤ’ｅｑｕａｔｉｏｎｓＳｉｍｕｌｔａｎｅｅｓ（ＵｂｅｒｓｅｔｚｔｖｏｎＲｉｃｈａｒｄＰｕｌｓｋａｍｐ２０１０）を参照）。Ｃｏｍｐｔｅｒｅｎｄｕｄｅｓｓｅａｎｃｅｓｌ’ａｃａｄｅｍｉｅｄｅｓＳｃｉ．（１８４７）。またＤ．Ｂｅｒｔｓｅｋａｓ，ＮｏｎｌｉｎｅａｒＰｒｏｇｒａｍｍｉｎｇ（２ｄＡｔｈｅｎａＳｃｉｅｎｔｉｆｉｃ１９９９）を参照。

開示した方法は最初に、それぞれのθ_ｋに対する損失関数の導関数を取ることによって勾配（Ｇと示す）を導き出す。推論を単純にするために、ＫＬ発散をエントロピ及び交差エントロピの項に分解する。

ここで、θはθ_ｋ’の全体集合を表す。パラメータは第２項（すなわち、クロスエントロピ）にのみ存在する。θ_ｋに対する一次導関数は以下のようになる。

Ｇ_ｋの計算は、正規化された発現値のサポートにわたって行う数値積分を伴う。理論上は、Ｙ∈Ｒである。これは、積分の計算が非常に遅い可能性があることを意味する。アルゴリズムを高速化するために、方法はサポートを９９％分位領域内に限定する。方法はさらに、積分を離散近似値と置換する。

ここで、Ｔは、正規化された発現値の９９％分位領域からサンプリングされた点の数である。Ｔが大きくなるほど、近似値は正確になる。Ｔ＝１００が、アルゴリズムの速度の１００倍増加を実現しながら、妥当な精度を実現するのに十分な数値であることが分かっている。

勾配降下法を実行するために、方法は、非負のθをθ^（０）によりランダムに初期化し、そして同時に、各ステップにおいてすべてのθ_ｋ’を更新して以下のようにする。

ここで、αは学習率である。方法は比率を推定しているので、それぞれの更新において、方法は、合計が１になるようにθ_ｋ’を再スケール変更する。

方法は収束を｜｜θ^ｔ＋１－θ^ｔ｜｜_２＜０．０００５と規定し、十分な精度及び妥当な収束率としてα＝０．３を設定する。

いくつかの実施形態では、カウントベースの配列決定データは単一細胞ＲＮＡ配列決定データであり、カウントベースの配列決定カウントは単一細胞ＲＮＡ配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞ＲＮＡ配列決定データ行列である。いくつかの実施形態では、カウントベースの配列決定データはＡＴＡＣ－ｓｅｑデータであり、カウントベースの配列決定カウントはＡＴＡＣ－ｓｅｑカウントであり、カウントベースの配列決定データ行列はＡＴＡＣ－ｓｅｑデータ行列である。

いくつかの実施形態では、各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である。いくつかの実施形態では、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である。

いくつかの実施形態では、選択するステップは、複数の遺伝子内の各遺伝子に対する標準偏差を計算することと、閾値標準偏差数を決定することと、その閾値数を超える標準偏差を有する最も変動的に発現する遺伝子の下位集合を選択することと、を含む。いくつかの実施形態では、細胞型特異的重みを計算するステップは、全平均分散を固定数の細胞のそれぞれに対する細胞型内平均分散と比較することを含む。いくつかの実施形態では、フィッティングさせるステップは、混合比率を推定するときに全分布を用いることを含む。いくつかの実施形態では、フィッティングさせるステップは、正規化されたカウントを分布にフィッティングさせることによって分布を取得して、各遺伝子に対する分散及び平均値を推定することをさらに含む。いくつかの実施形態では、分布はガウス分布である。いくつかの実施形態では、損失関数を規定するステップは、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ発散を適用することを含む。いくつかの実施形態では、損失関数を適用するステップは、勾配降下法を採用することを含む。

また本開示によって、バルクＲＮＡ配列決定データの逆畳み込みを行うためのＡｄＲｏｉｔ法の別の実施形態が提供される。本明細書で説明する開示した方法の実施形態は、「トランスクリプトーム組成の推論のための正確でロバストな方法」として説明してもよく、頭文字「ＡｄＲｏｉｔ」によって特定してもよい。ＡｄＲｏｉｔ法は、バルクＲＮＡ－ｓｅｑ及び空間トランスクリプトームデータを含む複合トランスクリプトームデータから細胞型の比率を正確かつロバストに推定することを目的とする。方法は、基準として、細胞素性アノテーションを伴う関連性のある予め存在する単一細胞ＲＮＡ－ｓｅｑデータを使用し、情報価値のある遺伝子を選択し、細胞型あたりの選択した遺伝子の発現平均及び分散を推定する。さらに、一実施形態では、ＡｄＲｏｉｔ法は、サンプルにわたる遺伝子ごとの変動性、ならびにそれらの細胞型特異度を計算し、これにより、モデルにおいて各遺伝子の損失関数は異なる重み付けがなされる。さらにまた、ＡｄＲｏｉｔ法は、単一細胞と目標複合データとの間の技術差を最小限にするように遺伝子ごとのスケーリング係数を計算する。一緒に、ＡｄＲｏｉｔ法はそれらを正則化モデルに送り、遺伝子あたりの損失関数の重み付け合計を最適化することによって細胞型パーセンテージを推定する。方法の精度及びロバスト性には以下が重要となる：１）逆畳み込みタスクに使用する最も情報価値のある遺伝子を選択すること、２）ある細胞型を他のものとどれほど具体的に異ならせることができるかによって及びその発現が複数のサンプルにわたってどれだけ安定であるかによって適切に重み付けされた遺伝子あたりの損失関数、３）異なる配列決定プラットフォームからの遺伝子発現値（たとえば、バルクＲＮＡ－ｓｅｑからのＴＰＭまたは読み出しカウント、単一細胞ＲＮＡ－ｓｅｑ及び空間トランスクリプトーム配列決定からの固有の分子識別子（ＵＭＩ））を正規化する遺伝子ごとのスケーリング係数、及び４）密接に関係する細胞型（たとえば、亜型）間の共線性を回避する正則化回帰モデル。

いくつかの実施形態では、バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行うためのＡｄＲｏｉｔ法は、以下の典型的なステップ：ｉ）３つのソース（バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーション）から入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの単一細胞配列決定データの行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ｉｉ）細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、ｉｉｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｖ）各細胞型内で、各遺伝子に対して、複数サンプル利用可能性に応じて各サンプル内の複数の細胞の平均の遺伝子発現に基づいてクロスサンプル遺伝子発現変動性を推定するか、または同じサンプルから細胞をサブサンプリングすることによって複数のサンプルを形成するステップと、ｖ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｖｉ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する。これらのステップを図１１に例示する。図では、開示した方法の一実施形態のワークフローの概略を示す。各ステップについては、各ステップに対する入力、出力、及び目的または理論的根拠を参照しながら、順に後述する。これらの各処理ステップはコンピューティング装置（たとえば、コンピュータ）によって行うことができる。いくつかの実施形態では、すべてのプロセスステップをコンピュータによって行う。空間トランスクリプトームは、細胞数が非常に少ない特別な種類のバルク配列決定である。

いくつかの実施形態では、バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行うためのＡｄＲｏｉｔ法は、以下の典型的なステップ：ｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｉ）各細胞型内で、各遺伝子に対して、複数サンプル利用可能性に応じて各サンプル内の複数の細胞の平均の遺伝子発現に基づいて、クロスサンプル遺伝子発現変動性を推定するか、または同じサンプルから細胞をサブサンプリングすることによって複数のサンプルを形成するステップと、ｉｉｉ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｉｖ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する。各ステップについては、各ステップに対する入力、出力、及び目的または理論的根拠を参照しながら、順に後述する。これらの各処理ステップはコンピューティング装置（たとえば、コンピュータ）によって行うことができる。いくつかの実施形態では、すべてのプロセスステップをコンピュータによって行う。空間トランスクリプトームは、細胞数が非常に少ない特別な種類のバルク配列決定である。いくつかの実施形態では、遺伝子のクロス細胞型特異度の計算は、カウントベースの単一細胞配列決定データの行列から選択した最も変動的に発現する遺伝子の下位集合（３つのソース：ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、ｉｉ）単一細胞ＲＮＡ－ｓｅｑデータ、及びｉｉｉ）細胞型アノテーションから取得した）からの細胞型あたり遺伝子あたりの発現の推定平均及び分散パラメータに基づいて行い、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む。

いくつかの実施形態では、方法は第１のステップを含む。いくつかの実施形態では、方法は第１のステップと、第２、第３、及び第４のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第２のステップを含む。いくつかの実施形態では、方法は第２のステップと、第１、第３、または第４のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第３のステップを含む。いくつかの実施形態では、方法は第３のステップと、第１、第２、及び第４のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第４のステップを含む。いくつかの実施形態では、方法は第４のステップと、第１、第２、及び第３のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。

ステップ１：遺伝子の選択
開示した方法の第２の実施形態における第１のステップの目的は、最も情報価値のある遺伝子を選択することである。このステップを、単一細胞ＲＮＡ－ｓｅｑ（ｓｃＲＮＡ－ｓｅｑ）データに適用するが、本明細書で述べるように任意のカウントベースの配列決定データに適用することができる。ステップは、３つのソース：バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションから入力を取得することによって始まる。したがって、入力データは、各細胞に対応付けられる細胞型アノテーションを伴う単一細胞ＵＭＩカウント行列である。行列の各列は細胞に対応し、行列の各行は遺伝子に対応する。行列内の各エントリは、細胞内の特定の遺伝子に対するＵＭＩカウントである。逆畳み込みを行うべきバルクデータは、キロベースミリオンあたりの転写物（ＴＰＭ）または読み出しカウントとすることができる。行列の各行は遺伝子であり、行列の各列はサンプルである。また逆畳み込みを行うべき空間トランスクリプトームデータもＵＭＩカウント行列であるが、行列の各列は空間スポットであり、行列の各行は遺伝子である。方法のステップを説明する際に用いる数学的表記及び用語を、以下のように規定する。

ｉ－遺伝子のインデックス、ｉ＝１，．．．Ｉ
ｋ－細胞型のインデックス、ｋ＝１，．．．，Ｋ
ｋ’－遺伝子ｉの最も高い平均発現を有する細胞型のインデックス
ｊ－サンプル（バルクＲＮＡ－ｓｅｑ）または空間スポットのインデックス
ｎ_ｋ－細胞型ｋの細胞の数
Ｘ_ｉｋ－細胞型ｋのすべての細胞に対する遺伝子ｉの単一細胞ＵＭＩカウントの集合
Ｙ_ｉｊ－バルクサンプルまたは空間スポットｊ内の遺伝子ｉのカウント
λ_ｉｋ－細胞型ｋの遺伝子ｉに対する分散パラメータ
ｐ_ｉｋ－１つのＵＭＩを得る細胞型ｋの遺伝子ｉの確率
λ_ｉｊ－バルクサンプルまたは空間スポットｊ内の遺伝子ｉに対する分散パラメータ
ｐ_ｉｊ－バルクサンプルまたは空間スポットｊ内の細胞型の遺伝子ｉに対する確率
μ_ｉｋ－細胞型ｋの遺伝子ｉの平均発現

－細胞型ｋの遺伝子ｉの発現の分散

－遺伝子ｉに対する細胞型特異度重み

－複製もしくはブートストラップされたバルクサンプルまたは空間スポット内の遺伝子ｉの平均値

－複製もしくはブートストラップされたバルクサンプルまたは空間スポット内の遺伝子ｉの分散

－遺伝子ｉに対するクロスサンプル変動性重み
τ_ｋ－細胞型ｋのパーセンテージの粗い推定値
ｒ_ｉ－遺伝子ｉに対する適応学習されたスケーリング係数
β_ｋ－細胞型ｋに対するスケール変更されていない回帰係数
Ｇ_ｋ－β_ｋに対する勾配関数
θ_ｋ－細胞型ｋのパーセンテージの最終推定値

－モデルフィッティングからの推定量
ＭＬＥ－最尤推定
ＶＭＲ－分散対平均比
ＮＢ（）－負の二項分布
ＬＨ（）－尤度関数
Ｌ（）－損失関数
入力データを用いて、開示した方法の第２の実施形態における第１のステップは、カウントベースの配列決定データの正規化行列から最も変動的に発現する遺伝子の下位集合を選択する。カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む。細胞型組成の逆畳み込みに成功するためのステップは、遺伝子の適切な集合を選択することである。方法は、細胞型を区別するための重要な情報を含む遺伝子を選択して、ノイズを導入する可能性がある情報価値のない遺伝子を除外する。

図１２Ａに例示するように、方法は、２つの代替選択肢の１つにおいて遺伝子を選択する。第１の選択肢は、単一細胞ＵＭＩカウント行列内の各細胞型において発現が富化される遺伝子の集団を用いることである。これらの遺伝子はマーカー遺伝子と言う。第２の選択肢は、単一細胞ＵＭＩカウント行列内のすべての細胞間で最も変動する遺伝子の集団を用いることである。これらの遺伝子は非常に変動的な遺伝子と言う。この第２の選択肢では、細胞数バランシング及び分散安定化変換（ＶＳＴ）正規化の後に、各遺伝子に対する分散を計算し、そして分散が最も高い遺伝子を選択する。いずれの選択肢も、同程度に正確な推定値が得られる。

マーカー遺伝子を選択するために、所定のマーカー遺伝子リストを入力するか、または組み込みツールを用いることができる。組み込みツールが、入力として、単一細胞ＵＭＩカウント行列及び細胞型アノテーションを取る。各細胞型に対して、ツールは、その細胞型における平均ＵＭＩと他のすべての細胞型における平均ＵＭＩとの間の倍率変化を計算し、そして倍率変化の降順によって遺伝子をランク付けする。複雑な複合トランスクリプトームデータを解くには、各細胞型から上位約２００個の遺伝子を選択すれば十分である。いくつかの遺伝子が複数の細胞型をマークし得るので、特異度を確実にするためには５以下の細胞型に存在する選択したマーカーが望ましい。代替的に、特異度を確実にするために、固定数以下の細胞型または細胞型の総数の一部のいずれか小さい方に存在する選択したマーカーでもよい。正確な推定を確実にするには、すべての細胞型のマーカー遺伝子の集団から最低でも合計約１，０００個の固有の遺伝子を選択することが望ましい。

マーカー遺伝子を見つけることは、しばしば時間がかかり、膨大なコンピュータ資源が必要となる可能性がある。しかし、マーカー遺伝子がすぐには利用できない場合でも、方法は非常に変動的な遺伝子を選択することができる。通常、これらの遺伝子も細胞型を区別するために情報価値がある。小さな集塊を過小評価する一方で選択した非常に変動的な遺伝子が大きな細胞集塊によって占められ得る危険性を回避するために、単一細胞ＵＭＩカウント行列内の細胞型を、すべての細胞集塊のメジアン径を見つけることによってバランシングすることができる。そして、各集塊からの細胞をこの径に等しくなるようにサンプリングすることができる。次に、方法は、バランシングされた単一細胞ＵＭＩ行列内の細胞にわたる各遺伝子の分散を計算する。ＲＮＡ－ｓｅｑデータにおいて良く知られた過分散の性質を考えると、カウント行列から分散を直接計算した場合に誤差が発生しやすくなる可能性がある。したがって、方法は分散安定化変換（ＶＳＴ）によって正規化データに対する分散を計算する。Ａｎｄｅｒｓ，Ｓ．＆Ｈｕｂｅｒ，Ｗ．、「Ｄｉｆｆｅｒｅｎｔｉａｌｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｆｏｒｓｅｑｕｅｎｃｅｃｏｕｎｔｄａｔａ」、ＧｅｎｏｍｅＢｉｏｌ．（２０１０）を参照。上位２，０００個の大きな分散を伴う遺伝子を選択することができる。非常に変動的な遺伝子を選択するアルゴリズムは、Ａ．Ｂｕｔｌｅｒ、Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌに開示された「Ｓｅｕｒａｔ」Ｒパッケージにプログラムされたものと同じである。

図１２Ｂに、選択することができる細胞の種類を例示する仮説例を示す。４つのグラフを示している。４つの遺伝子のそれぞれに対して１つのグラフがあり、各グラフは遺伝子発現対細胞型を反映している。図示した例において、遺伝子３が細胞型にわたる良好な変動を示し、遺伝子４が細胞型Ｃ１に対する強力なマーカーである。これらの遺伝子のいずれも、種々の細胞型に関する良好な情報を有しており、したがってモデリング用に選択することができる。

ステップ２：細胞型あたりの遺伝子平均値＆分散の推定

単一細胞ＲＮＡ－ｓｅｑデータをモデリングすることは、細胞異質性及び技術的感度及びノイズのせいで困難である可能性がある。いくつかの遺伝子の発現は偶然に検出されない可能性があるが、他の遺伝子は非常に分散していることが見つかり得る。分散している遺伝子は、同じ細胞型内であっても過剰な変動性につながる可能性がある。加えて、研究あたりの細胞の数がますます増えているため、トレーニングサンプルとして全ての細胞を用いて細胞パーセンテージを直接推定することは、計算上困難である。開示した方法は、細胞型レベルで個々の細胞を集めることによって高ノイズ及び計算複雑性に対抗する。細胞型あたりの各遺伝子の平均及び分散を推定することができる。この方策によって、細胞型特異的情報を保持しながらデータ複雑さが減少する。

ＲＮＡ－ｓｅｑデータの典型的な分析は正規化から始まるが、開示した方法では平均値の推定前には正規化しない。すべての細胞型にわたって正規化を行うことによって、すべての細胞型は強制的に、細胞あたりの合計ＵＭＩカウントによって測定される同じ量のＲＮＡ転写物を有する。しかし異なる細胞型は、劇的に異なる量の転写物を有する可能性がある。たとえば、神経細胞内のＲＮＡ転写物の量はグリア細胞内の量の約１０倍である。したがって、正規化が細胞型の相対存在量を誤って変えて、細胞型パーセンテージの推定を誤った方向に導く可能性がある。この問題を回避するために、開示した方法では生のＵＭＩカウントを用いて平均値をモデリングする。

ＵＭＩのカウントは負の二項分布に従うことが研究によって示されている。Ｈａｆｅｍｅｉｓｔｅｒ，Ｃ．＆Ｓａｔｉｊａ，Ｒ．、「Ｎｏｒｍａｌｉｚａｔｉｏｎａｎｄｖａｒｉａｎｃｅｓｔａｂｉｌｉｚａｔｉｏｎｏｆｓｉｎｇｌｅ－ｃｅｌｌＲＮＡ－ｓｅｑｄａｔａｕｓｉｎｇｒｅｇｕｌａｒｉｚｅｄｎｅｇａｔｉｖｅｂｉｎｏｍｉａｌｒｅｇｒｅｓｓｉｏｎ」、ＧｅｎｏｍｅＢｉｏｌ．（２０１９）；及びＳｖｅｎｓｓｏｎ，Ｖ．，「ＤｒｏｐｌｅｔｓｃＲＮＡ－ｓｅｑｉｓｎｏｔｚｅｒｏ－ｉｎｆｌａｔｅｄ」、ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ（２０２０）を参照。したがって、開示した方法は各細胞型の単一細胞に負の二項分布をフィットさせる。図１３に、細胞型ｋにおける各遺伝子に対して負の二項分布をフィッティングさせることによって平均及び分散パラメータを推定するステップを例示する。開示した方法では、選択した遺伝子からの推定平均及び分散パラメータに基づいて、後でモデルを構築する。より具体的には、Ｘ_ｉｋを、
細胞型ｋ∈１，．．．，Ｋにおけるすべての細胞に対する遺伝子ｉ∈１，．．．，Ｉの単一細胞ＵＭＩカウントの集合とする。文字Ｉは選択した遺伝子の数を示し、Ｋは単一細胞基準における細胞型の数を示す。Ｘ_ｉｋの分布は負の二項分布に従う。

ここで、λ_ｉｋは、細胞型ｋにおける遺伝子ｉの分散パラメータであり、ｐ_ｉｋは成功確率、すなわち、細胞型ｋにおける遺伝子ｉが１つのＵＭＩを得る確率である。２つのパラメータは最尤推定（ＭＬＥ）によって推定される。尤度関数は以下の通りである。

ここで、ｎ_ｋは細胞型ｋにおける細胞の数であり、ｆは負の二項分布の確率質量関数である。そしてＭＬＥ推定は以下によって与えられる。

成功確率及び分散を推定したら、平均推定値を、負の二項分布の特性に従って数値的に計算することができる。

ＭＬＥを用いた推定は多くのＲパッケージにおいて容易にコーディングされている。Ｒとは、統計計算用のＲファンデーションによってサポートされる統計計算及びグラフィックス用プログラミング言語及びフリーソフトウェア環境である。「ｆｉｔｄｉｓｔｒｐｌｕｓ」パッケージからの「ｆｉｔｄｉｓｔ（）」関数が好適であり、分布を選択する際の高速の計算速度及び柔軟性を提供する。開示した方法では、各細胞型における各選択した遺伝子に対して推定を行い、結果として細胞型平均値のＩ×Ｋ行列となる。

ステップ３：遺伝子のクロス細胞型特異度の計算
細胞型特異的発現パターンを伴う遺伝子は特定の細胞型をより良好に表し、したがって、細胞型組成を解くために用いるときにより重要である。この特性に沿って、開示した方法は、特異度が低い遺伝子よりも特異度が高い遺伝子に重み付けする。特異度の高い遺伝子は通常、細胞型内の細胞の間で一貫して高い発現及び比較的低い分散を有する。遺伝子の細胞型特異度を計算するために、開示した方法は最初に、遺伝子が最も高い発現を有する細胞型（すなわち、最も特異的に発現される細胞型）を特定し、次にこの遺伝子の特異度を細胞型内の平均対分散比として規定する。後述するモデルでは、比が高いときに高い重みを遺伝子に割り当てる。開示した方法では、ステップ２からの負の二項フィッティングからの推定平均及び分散パラメータを用いる（前述の方程式におけるμ_ｉｋ及び

ｋ’を、遺伝子ｉの最も高い平均発現を有する細胞型のインデックスとし、

そして、遺伝子ｉに対する細胞型特異度重み（

を示す）を次のように与える。

細胞型特異度重みを、選択した遺伝子の集合内の各遺伝子に対して計算する。ここでは２つのパラメータ（各細胞型内での平均の遺伝子発現レベル及び分散）を用いるが、基準を細胞型特異的であると特定することなく、平均の遺伝子発現レベルのみを用いて、異なる細胞型間で比較する。たとえば、発現は、最も高い発現細胞型において、２番目または残りの細胞型の平均よりも少なくともｘ倍高い。

ステップ４：クロスサンプル遺伝子変動性の推定
遺伝子の変動性は遺伝子がサンプル間でどのくらい安定であるかを示す。サンプル間の変動性に基づいて遺伝子に重み付けする考え方は、Ｗａｎｇら（前出）による論文において発表されている。Ｗａｎｇらは変動性をクロスサンプル分散と規定した。変動性が高い遺伝子に重み付けすることによって、著者は従来の重み付けしない方法と比べて大きな利点を実現した。クロスサンプル変動性が低い遺伝子は母集団をより良好に表しており、したがって細胞組成を学習するために用いるときにより信頼できる。開示した方法では同様の考え方を取り入れて遺伝子の重要性に重み付けしている。開示した方法は、異なる、より優れた方法で変動性を規定する。具体的には、開示した方法は分散対平均比（ＶＭＲ）を用いてクロスサンプル遺伝子変動性を規定する。ここで、平均及び分散をサンプル全体にわたって計算する。ＶＭＲは、単純な分散よりも良好にスケール変更され、発現が低い遺伝子の不足な重み付けと不安定な遺伝子の過剰な重み付けの両方を回避することができる。

加えて、開示した方法は、複数のサンプルが利用できるわけではない応用例に対処するように拡張することができる。ＶＭＲの計算には、複数サンプルデータが利用できるか否かに応じて３つの選択肢が利用できる。典型的に、逆畳み込みを行うべき複合トランスクリプトームデータは複数のサンプルを有している。バルクＲＮＡ－ｓｅｑデータでは、複数のサンプルが通常、生物学的変動性に対して制御するために含まれている。空間トランスクリプトームデータでは、隣接する空間ドットを複数のサンプルとして見ることができる。したがって、第１の選択肢では、開示した方法は、複合トランスクリプトームデータからクロスサンプル遺伝子変動性を計算する。第２の選択肢では、複合データは複数サンプルを有していないが、単一細胞データは有しており、開示した方法は、複数の複合サンプル（それぞれ、単一細胞基準におけるサンプルの１つに属するすべての細胞の平均である）を合成する。最後に、両方の種類のデータに対して複数サンプルが利用できない場合、第３の選択肢では、開示した方法は単一細胞を繰り返しブートストラップし、サンプリングした細胞を平均して、複数の、合成された複合サンプルを作る。

複数の複合サンプルを取得した後で、Ｙ_ｉｊにより、サンプルｊ∈１，．．．，Ｊにおける遺伝子ｉに対する配列のカウントを表示し、

ここで、λ_ｉｊは、複合サンプルｊにおける遺伝子ｉの分散パラメータであり、ｐ_ｉjは成功確率である。再び、開示した方法はＭＬＥを用いて推定

を得て、その後、クロスサンプル平均及び分散を数値的に計算することができる。

そして、遺伝子ｉに対するクロスサンプル変動性を次のように規定する。

ここで、

はモデルにおいて後で用いる。クロスサンプル変動性重みを、選択した遺伝子の集合内の各遺伝子に対して計算する。

ステップ５：遺伝子ごとのスケーリング係数の推定
複合データを単一細胞データにリンクするとき、ライブラリサイズ及びプラットフォームの違いを考慮するために再スケーリング係数を用いることが多い。既存の方法はすべて、サンプルの各単位に対して単一の再スケーリング係数を採用する。すなわち、単一サンプルのすべての遺伝子に同じ係数を乗じる（Ｗａｎｇら（前出）及びＡｎｄｅｒｓｓｏｎら、「Ｓｐａｔｉａｌｍａｐｐｉｎｇｏｆｃｅｌｌｔｙｐｅｓｂｙｉｎｔｅｇｒａｔｉｏｎｏｆｔｒａｎｓｃｒｉｐｔｏｍｉｃｓｄａｔａ」ｂｉｏＲｘｉｖ（２０１９）を参照）。この操作は、すべての遺伝子に対するプラットフォームの違いの影響は同じであり、異なる細胞型間で線形的にスケール変更されるという仮定に基づいているが、これはほとんど正しくない。加えて、推定は線形モデルにおける異常値の影響を容易に受ける可能性があるため、細胞比率の推定は、極めて高い異常値遺伝子によって真実から遠ざけられる可能性がある。したがって、すべての遺伝子に均一なスケーリング係数を適用することは不適切である。

この問題を打開するために、開示した方法では、代わりに、適応学習戦略を介して遺伝子ごとのスケーリング係数を推定し、各遺伝子をその対応するスケーリング係数によって再スケール変更する。続行するために、開示した方法は最初に、複合サンプルからの平均の遺伝子発現（前述のステップ４からの

と、単一細胞データからの各細胞型の推定平均値（前述のステップ２からのμ_ｉｋ）とを入力し、次に従来の非負最小二乗回帰（ＮＮＬＳ）を適用して、各細胞型の比率の粗い推定（τ_ｋと示す）を得る。Ｃｈｅｎ，Ｄ．＆Ｐｌｅｍｍｏｎｓ，Ｒ．、「Ｎｏｎｎｅｇａｔｉｖｉｔｙｃｏｎｓｔｒａｉｎｔｓｉｎｎｕｍｅｒｉｃａｌａｎａｌｙｓｉｓ」、ＴｈｅＢｉｒｔｈｏｆＮｕｍｅｒｉｃａｌＡｎａｌｙｓｉｓ（２００９）を参照。各遺伝子に対して、予測される平均発現（以下の等式における

を各細胞型の平均値の重み付き和として計算する。重みは粗く推定した比率である。回帰方程式は以下のように与えられる。

ここで、Ａは、τ_ｋの合計が１になることを確実にするための定数であり、εは誤差項である。開示した方法では、パッケージ「ｎｎｌｓ」における「ｎｎｌｓ（）」関数を用いてτ_ｋを推定する。次に、開示した方法は、複合サンプルからの平均発現と予測平均との間の比を計算し、遺伝子ごとの再スケーリング係数を比プラス１の対数として規定する。

データの分散特性を考えると、比の対数は、比較的安定なスケーリング係数となるため、より適切な統計値である。１を足すことによって、対数がゼロになることが回避される。フレキシブルな遺伝子ごとの再スケーリング係数を乗じることによって、「異常値」遺伝子は真の回帰直線の方に押される一方で、真の回帰直線の周りの遺伝子はそれほど影響を受けない。

図１４に、遺伝子ごとのスケーリング係数の効果を実証する仮説例を示す。理想的には、傾斜（すなわち、細胞パーセンテージ）の正確な推定は、図１４における一番左側の線の傾斜であろう。しかし直接フィッティングさせると、異常値遺伝子の影響を受けて、一番右側の線になる。プラットフォームの違いが遺伝子に与える影響が異なっているために、異常値遺伝子が誘起される可能性がある。開示した方法では、適応学習アプローチを採用する。ここでは、最初に傾斜の粗い推定（すなわち、一番右側の線）を学習し、次に異常値遺伝子をそれに向かって動かすことを、大きく外れている遺伝子ほど真の線に向かって大きく（すなわち、より長い矢印に沿って）動くように行う。この調整の後、新しく推定された傾斜（中心線）は真の線（一番左側の線）により近く、したがって、より正確な推定である。

ステップ６：重み付け及び正則化回帰モデルの構築
第６のステップでは、開示した方法は、前述の係数のすべてを取り入れて細胞パーセンテージの実際の推定を行うモデルを構築する。方法は、非負最小二乗回帰モデルに基づいて構築され、細胞型特異度が高くてクロスサンプル変動性が低い遺伝子に高い重みを与える。このステップは、損失関数Ｌを２乗したものの重み付き和を最適化することによって行う。重みは２つのコンポーネントからなる。前述のステップ３からの

と前述のステップ４からの

とである。各遺伝子に対して適応された遺伝子ごとのスケーリング係数によって、複合サンプルと単一細胞データとの間の技術差が最小限になる（前述のステップ５からのｒ_ｉ）。

多くの非常に類似した亜型が一般的である複雑な組織（たとえば、神経組織）の場合には、密接に関連する亜型が強力な共線性を持つ可能性があり、いくつかの細胞型を過大評価する一方で他を過小評価するかまたは見逃すことにつながる。開示した方法は、推定のＬ２ノルムを正則化コンポーネントとして含むことによってこの問題に対処する。β_ｋを、細胞型ｋに対するスケール変更されていない係数として示す。複合トランスクリプトームサンプルｊの場合、損失関数は以下のように与えられる。

そして、係数β_ｋを、損失関数を制約β_１，．．．，β_Ｋ＞０によって最小限にすることによって推定することができる。

推定は、Ｂｙｒｄら、「ＡＬｉｍｉｔｅｄＭｅｍｏｒｙＡｌｇｏｒｉｔｈｍｆｏｒＢｏｕｎｄＣｏｎｓｔｒａｉｎｅｄＯｐｔｉｍｉｚａｔｉｏｎ」、ＳＩＡＭＪ．Ｓｃｉ．Ｃｏｍｐｕｔ．（１９９５）に開示された勾配投影法によって行う。勾配関数を、損失関数のβ_ｋに対する偏導関数を取ることによって得る。

開示した方法は、Ｒパッケージ「ｓｔａｔｓ」からの関数「ｏｐｔｉｍ（）」を用いて推定を行って、前述の損失関数及び勾配関数を得る。細胞型比率の最終推定値を得るために、開示した方法は、係数β_ｋを再スケール変更して合計１を確実にする。

前述のモデルによって、各複合サンプルｊを独立に推定する。

いくつかの実施形態では、カウントベースの配列決定データの正規化行列からの複数の遺伝子は、少なくとも約２０，０００個の遺伝子を含む。いくつかの実施形態では、最も変動的に発現する遺伝子の選択した下位集合は約１，０００～約５，０００個の遺伝子を含む。いくつかの実施形態では、最も変動的に発現する遺伝子の選択した下位集合は約２５００個の遺伝子を含む。

いくつかの実施形態では、本明細書で説明する方法のいずれかはさらに、バルクまたは空間ＲＮＡ配列決定データを取得した各細胞型からＲＮＡの比率を特定することを含むことができる。いくつかの実施形態では、本明細書で説明する方法のいずれかはさらに、バルクまたは空間ＲＮＡ配列決定データを取得した各細胞型の比率を特定することを含むことができる。いくつかの実施形態では、本明細書で説明する方法のいずれかはさらに、バルクまたは空間ＲＮＡ配列決定データを取得した各細胞型からＲＮＡの比率を特定することを含むことができる。いくつかの実施形態では、本明細書で説明する方法のいずれかはさらに、バルクまたは空間ＲＮＡ配列決定データを取得した各細胞型の比率を特定することを含むことができる。

カウントベースの配列決定データ（たとえば、ｓｃＲＮＡ－ｓｅｑデータ）からの情報を用いてバルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行う方法は、種々の方法で用いることができる。全般的に、本明細書で説明する方法によって、複数の細胞型の母集団内の特定の細胞型のよりロバストで正確な推定が得られる。加えて、本明細書で説明する方法は、すべてのカウントベースの配列決定データに適用することができる（すなわち、本明細書で説明する方法はｓｃＲＮＡ－ｓｅｑデータに限定されず、他の種類のカウントベースの配列決定データ、たとえばＡＴＡＣ－ｓｅｑに、ＲＮＡ以外の細胞生産物に、及び広範囲の混合サンプル、たとえば異なる組織の混合物に適用することができる）。

本明細書で説明する方法は、たとえば、単一細胞型の遺伝子発現パターンが与えられた場合に１つ以上の特定の細胞型に対する混合比率を推定するために用いることができる。バルク組織は通常、異なる比率の複数の細胞型からなる。一例として肝臓を用いた場合、肝細胞、星脂肪摂取細胞、クッパー細胞、及び内皮細胞が存在する。本明細書で説明する方法を用いて、バルク肝臓組織におけるこれらの個々の細胞型の比率を推定することができる。１つ以上の特定の細胞型に対する混合比率を、たとえば、臓器、組織、細胞培養などに対して決定することができる。

また本明細書で説明する方法を、たとえば、組織混入を検出するために用いることができる。たとえば、ヒトから取得した生検材料または他の組織サンプルは、生検材料内に望ましい第１の細胞型を有する場合があるが、第２の望ましくない細胞型を有するかまたは有する疑いがある場合がある。本明細書で説明する方法を用いて、生検材料または組織サンプルに第２の細胞型が混入しているか否か、及びそうである場合には混入量を決定することができる。例を示すために、心臓組織からのＲＮＡ－ｓｅｑデータ内に筋肉混入が見られることが多い。本明細書で説明する方法を、解剖及び隔離の間に心臓組織に筋細胞が混入しているか否かを判定し、心臓組織サンプル内に筋細胞がどれだけ存在するかを推定するために用いることができる。

また本明細書で説明する方法を、たとえば、腫瘍浸潤を検出するために用いることができる。たとえば、本明細書で説明する方法を用いて、生検材料または他の組織サンプルをヒトの内部の特定の腫瘍から取得することができ、非腫瘍細胞による腫瘍の浸潤の存在、素性、及び／または程度を決定することができる。いくつかの実施形態では、腫瘍を浸潤させる非腫瘍細胞は、免疫細胞たとえば、マクロファージ、リンパ球、及びナチュラルキラー細胞などである。いくつかの実施形態では、リンパ球はＢリンパ球及び／またはＴリンパ球である。いくつかの実施形態では、リンパ球は腫瘍浸潤リンパ球（ＴＩＬ）である。免疫細胞（たとえば、Ｔリンパ球）によって浸潤された腫瘍は「炎症性」腫瘍である。腫瘍が浸潤Ｔリンパ球を少数だけ含むかまたはまったく含まない（そのため、認識されず、免疫システムによる強力な応答も引き起こさない）場合は、「非炎症性」腫瘍である。したがって、本明細書で開示する方法を用いて、ヒトの内部の特定の腫瘍が、たとえば医療従事者によって、炎症性腫瘍または非炎症性腫瘍であると考えられるか否かを、免疫細胞による腫瘍の浸潤の存在、素性、及び／または程度を決定することによって判定することができる。炎症性腫瘍の方が非炎症性腫瘍よりも、免疫療法により感受性を示す。したがって、炎症性腫瘍のあるヒトの方が非炎症性腫瘍のあるヒトよりも、免疫療法に対する良好な候補である。炎症性及び非炎症性腫瘍は、たとえば以下に記載されている。Ｇａｌｏｎら、Ｎａｔ．Ｒｅｖ．ＤｒｕｇＤｉｓｃ．、２０１９、１８、１９７－２１８、Ｂｏｎａｖｅｎｔｕｒａら、Ｆｒｏｎｔ．Ｉｍｍｕｎｏｌ．、２０１９、１０、１６８、１－１０、及びＳｅｉｄｅｌら、Ｆｒｏｎｔ．Ｏｎｃｏｌ．、２０１８、８、８６．したがって、本明細書で説明する方法を用いて、免疫療法に対するその感受性に対して患者を階層化することができる。また方法を、特定の腫瘍内の浸潤細胞（たとえば、免疫細胞）の比率を推定するために用いることができる－免疫療法に感受性を示す患者を特定するために用いることができる。いくつかの実施形態では、本明細書で説明する方法はさらに、浸潤腫瘍を有するヒトに免疫療法を施すことを含む。

いくつかの実施形態では、バルクＲＮＡ配列決定データを取得した細胞には腫瘍細胞が含まれ、方法はさらに腫瘍細胞の中の免疫細胞の比率を特定することを含む。いくつかの実施形態では、免疫細胞は腫瘍浸潤リンパ球を含む。いくつかの実施形態では、免疫細胞はＣＤ８陽性Ｔリンパ球を含む。いくつかの実施形態では、免疫細胞はＣＤ８陽性Ｔリンパ球及び樹状細胞を含む。いくつかの実施形態では、本明細書で説明する方法はさらに、腫瘍細胞を取得した腫瘍を炎症性腫瘍または非炎症性腫瘍と特徴付けることを含む。

いくつかの実施形態では、腫瘍を炎症性腫瘍と特徴付けて腫瘍は対象内に存在し、方法は、対象が、浸潤免疫細胞の閾値レベルを下回るか、等しいか、または上回るかを判定することをさらに含む。いくつかの実施形態では、免疫細胞はＣＤ８陽性Ｔリンパ球を含む。いくつかの実施形態では、免疫細胞はＣＤ８陽性Ｔリンパ球及び樹状細胞を含む。いくつかの実施形態では、対象は浸潤免疫細胞の閾値レベルを上回っており、方法は、対象を免疫療法に対する候補として特定することをさらに含む。

いくつかの実施形態では、免疫療法は養子細胞療法を含む。いくつかの実施形態では、養子細胞療法はキメラ抗原受容体Ｔ細胞（ＣＡＲ－Ｔ細胞）療法を含む。いくつかの実施形態では、免疫療法は免疫チェックポイント阻害療法を含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、細胞障害性Ｔリンパ球関連抗原－４（ＣＴＬＡ－４）を阻害する抗体、プログラム細胞死タンパク質１（ＰＤ－１）を阻害する抗体、プログラム細胞死リガンド１（ＰＤ－Ｌ１）を阻害する抗体、もしくはリンパ球関連遺伝子３（ＬＡＧ３）を阻害する抗体、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、細胞障害性Ｔリンパ球関連抗原－４（ＣＴＬＡ－４）を阻害する抗体（たとえば、限定することなく、イピリムマブ及びＲＥＧＮ４６５９）を含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、プログラム細胞死タンパク質１（ＰＤ－１）を阻害する抗体（たとえば、限定することなく、ニボルマブ、ペムブロリズマブ、及びセミプリマブ）を含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、プログラム細胞死リガンド１（ＰＤ－Ｌ１）を阻害する抗体（たとえば、限定することなく、アテゾリズマブ）を含む。いくつかの実施形態では、免疫チェックポイント阻害療法は、リンパ球関連遺伝子３（ＬＡＧ３）を阻害する抗体（たとえば、限定することなく、ＲＥＧＮ３７６７）を含む。

また本明細書で説明する方法は、たとえば、腫瘍微小環境を特徴付けるかまたは採点するために用いることができる。たとえば、本明細書で説明する方法を用いて、生検材料または他の組織サンプルをヒトの内部の特定の腫瘍から取得することができ、腫瘍微小環境細胞による腫瘍微小環境の浸潤の存在、素性、及び／または程度を決定することができる。腫瘍微小環境細胞としては、間質細胞及び免疫細胞が挙げられるがこれらに限定されない。間質細胞としては、線維芽細胞（たとえば、癌関連線維芽細胞）、癌関連脂肪細胞、周皮細胞、及び内皮細胞（たとえば、リンパ内皮細胞及び血管内皮細胞）が挙げられるが、これらに限定されない。免疫細胞としては、マクロファージ、リンパ球、及びナチュラルキラー細胞が挙げられるが、これらに限定されない。いくつかの実施形態では、リンパ球はＢリンパ球及び／またはＴリンパ球である。いくつかの実施形態では、Ｔリンパ球はＴＩＬである。

ヒトが、このような腫瘍微小環境細胞によって浸潤された腫瘍微小環境を有する場合、このような腫瘍微小環境細胞によって浸潤されていない腫瘍微小環境の場合よりも癌が進行した段階にある。したがって、本明細書で開示する方法を用いて、ヒトの内部の腫瘍微小環境が、たとえば医療従事者によって、癌の進行期にあると考えられるか否かを、腫瘍微小環境細胞による腫瘍微小環境の浸潤の存在、素性、及び／または程度を決定することによって判定することができる。したがって、本明細書で説明する方法を用いて、腫瘍微小環境の細胞型組成に基づいて、免疫療法に対するその感受性に対して患者を階層化することができる。また方法を、特定の腫瘍微小環境内の浸潤細胞の比率を推定するために用いることができる－免疫療法に感受性を示す患者を特定するために用いることができる。いくつかの実施形態では、本明細書で説明する方法はさらに、浸潤腫瘍微小環境を有するヒトに免疫療法を施すことを含む。

いくつかの実施形態では、バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の腫瘍細胞の比率を特定することを含む。いくつかの実施形態では、バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の免疫細胞の比率を特定することを含む。いくつかの実施形態では、バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の癌関連線維芽細胞の比率を特定することを含む。いくつかの実施形態では、バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の癌関連脂肪細胞の比率を特定することを含む。いくつかの実施形態では、バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中のリンパ内皮細胞の比率を特定することを含む。いくつかの実施形態では、バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法はさらに、腫瘍微小環境細胞の中の血管内皮細胞の比率を特定することを含む。

また本明細書で説明する方法を用いて、たとえば、ランゲルハンス島（膵臓内部の内分泌細胞の集塊である）のサンプルにおける細胞型比率を推定することができる。膵島は５つの内分泌細胞種類（α、β、δ、ε、及びγ）を含み、そのうちβ細胞は、インスリンを分泌し、２型糖尿病を有するヒトの中で徐々に失われる。β細胞の「正常な」母集団は約５０～６０％でなければならない。したがって、本明細書で説明する方法による膵島細胞の細胞型比率の決定を、２型糖尿病の存在を判定し、その発症及び／または処置を追跡するために用いることができる。

また本明細書で説明する方法を用いて、たとえば、腎臓細胞のサンプル内の細胞型比率を推定して、腎臓機能が徐々に失われることによって特徴付けられる腎臓病（たとえば、慢性腎臓病（ＣＫＤ）など）を検出することができる。線維症は、すべてのＣＫＤモデルに共通する組織学的特徴である。好中球及び有足細胞に加えて、腎臓細胞は２つの大きなグループに分類される：免疫細胞種類（マクロファージ、線維芽細胞、Ｔリンパ球、Ｂリンパ球、及びナチュラルキラー細胞）及び腎臓特異的な細胞型（近位尿細管（ＰＴ）、遠位尿細管、ヘンレ係蹄、集合管を形成する２つの細胞型、及び内皮細胞）。これらの中で、ＰＴは腎臓において支配的な細胞型であり、ＰＴ細胞の比率はＣＫＤ進行とともに減少することが分かっている。遠位尿細管細胞（ＤＣＴ）は、腎臓において２番目に多い細胞型であることが分かっており、予想される比率は約１０～２０％である。ＤＣＴ細胞の比率は、ＣＫＤの病状進行とともに一貫して増加することを示す。加えて、免疫細胞（特にマクロファージであるが、線維芽細胞、Ｂリンパ球、及びＴリンパ球も）は、ＣＫＤの発病において中心的役割を担うことが分かっており、組織炎症が腎臓線維症の一貫した特徴であることを示す臨床及び組織学的観察と整合する。したがって、本明細書で説明する方法による腎臓細胞の細胞型比率の決定を、腎臓病（たとえば、ＣＤＫ）の存在を判定し、その発症及び／または処置を追跡するために用いることができる。

また本明細書で説明する方法を、たとえば、細胞集団内の活性化または分化細胞の存在及び程度を検出するために用いることができる。たとえば、任意の細胞集団内で、特定のパーセンテージの細胞が活性化される可能性があり、別のパーセンテージの細胞が非活性である可能性がある。同様に、任意の細胞集団内で、特定のパーセンテージの細胞が分化される可能性がある、別のパーセンテージ細胞が未分化である可能性がある。このような細胞の段階（活性化対非活性及び／または分化対未分化）を場合によっては用いて、たとえば、前駆細胞から成熟した分化細胞への特定の細胞の発達を追跡するか、または正常細胞から罹患細胞への変化を追跡することができる。

いくつかの実施形態では、本明細書で説明する方法はコンピュータ実装である。方法は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせにおいて実施し得る。いくつかの実施形態では、方法は、少なくとも１つのプロセッサと、プロセッサによって読取可能な記憶媒体（たとえば、揮発性及び不揮発性メモリならびに／または記憶要素などを含む）と、入力及び出力デバイスとを含むプログラム可能なコンピュータシステム上で実行される１つ以上のコンピュータプログラムにおいて実施される。コンピュータシステムは、１つ以上の物理マシンまたは１つ以上の物理マシン上で実行される仮想マシンを含み得る。加えて、コンピュータシステムは、コンピュータまたはインターネットまたは他のネットワークによって接続された多くの分散コンピュータのクラスターを含み得る。

各コンピュータプログラムは、コンピュータシステムのランダムアクセスメモリ内に常駐するコードモジュール内の命令のセットまたはプログラムコードとすることができる。コンピュータシステムに要求されるまで、命令セットを別のコンピュータメモリ（たとえば、ハードディスクドライブに、またはリムーバブルメモリ、たとえば光ディスク、外部ハードドライブ、メモリカード、またはフラッシュドライブに）記憶してもよいし、または別のコンピュータシステム上に記憶して、インターネットまたは他のネットワークを介してダウンロードしてもよい。各コンピュータプログラムを種々のコンピュータプログラミング言語（一例として、Ｐｙｔｈｏｎを含む）において実施することができる。

バルクＲＮＡ配列決定データの逆畳み込みを行うための開示した方法（コンピュータ実装方法を含む）、コンピュータプログラム、コンピュータシステム、及び装置はそれぞれ、全体として、抽象的なアイデアをはるかに超えた豊富なステップ及び要素を述べている。最初の事柄として、方法、プログラム、システム、及び装置はそれぞれ、バルクＲＮＡ配列決定データの逆畳み込みを行うタスクを自動化するための特定のルールベースのアプローチを教示する。方法、プログラム、システム、及び装置はそれぞれ、個々のステップ及び要素によって規定された特定の要求を伴う順序付けられた組み合わせを教示する。これらのルールの特定の開示したステップ及び要素は、広く普及してはおらず、それらの組み合わせは良く理解された日常的な従来の活動ではない。むしろ、これらのルールの特定の開示したステップ及び要素によって、開示した方法、プログラム、システム、及び装置によって実現される改善が可能になる。

さらに、開示した方法、プログラム、システム、及び装置の１つのフォーカスは、コンピュータ能力における特定の主張された改善にある。それらはコンピュータ自体の機能を改善する。本開示に関連するコンピュータに対する改善には、論理構造及び処理に対するソフトウェア改善が含まれる。コンピュータ技術において形成される進歩のほとんどは、まさしくその性質により特定の物理的特徴ではなくむしろ論理構造及び方法によって規定され得るソフトウェアに対する改善からなる。開示した方法、プログラム、システム、及び装置の特定のステップ及び要素は、コンピュータがメモリにデータを記憶して取り出す方法を改善するようにデザインされた特定の種類のデータ構造を構成する。開示した方法、プログラム、システム、及び装置は、コンピュータの機能を改善し、バルクＲＮＡ配列決定データの逆畳み込みを行う技術的タスクを改善することに向けられている。既存の技術的タスクを改善したのは、開示したステップ及び要素を取り入れたことであって、コンピュータを用いたことではない。コンピュータ関連技術の向上は、コンピュータまたはコンピュータネットワークそれ自体の動作の向上に限定されず、コンピュータ関連技術を向上させる「ルール」（基本的に数学的な関係）のセットも含み得る。

さらにまた、開示した方法、プログラム、システム、及び装置によって、コンピューティング装置が以前はできなかった事柄（たとえば、バルクＲＮＡ配列決定データの逆畳み込みをより高い精度で行い、比率が約０．５％未満の細胞型を検出すること）を行えるようになる。開示した方法、プログラム、システム、及び装置によって、バルクＲＮＡ配列決定データの逆畳み込みを行う領域で具体的に生じる問題を打開するために必然的にコンピュータ技術に根ざした解決方法が提供される。本明細書で説明するように、開示した方法、プログラム、システム、及び装置は、バルクＲＮＡ配列決定データの逆畳み込みを行うために用いられる既存の方法、プログラム、システム、及び装置の計算上の制限に対処するための特定のアプローチを教示する。開示した方法、プログラム、システム、及び装置は、バルクＲＮＡ配列決定データの逆畳み込みを特定の新しい非自明の方法で少なくとも正確及び効率的に行うことによって、既存の方法、プログラム、システム、及び装置の欠点を打開する。

また本開示によって、１つ以上のコンピューティング装置にバルクＲＮＡ配列決定データの逆畳み込みを行わせるように適応されたプロセッサ実行可能命令を記憶するコンピュータ可読媒体が提供される。いくつかの実施形態では、プロセッサ実行可能命令を記憶するコンピュータ可読媒体は、１つ以上のコンピューティング装置に、バルクＲＮＡ配列決定データの逆畳み込みを、ｉ）最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ｉｉ）カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、ｉｉｉ）各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、ｉｖ）正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクＲＮＡ配列決定カウントを含む、ステップと、ｖ）バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、ｖｉ）損失関数を適用してバルクＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上と、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測することと、によって行わせるように適応されている。これらの実施形態はそれぞれ、本明細書で開示する方法の実施形態のいずれかを用いて行うことができる。

いくつかの実施形態では、プロセッサ実行可能命令を記憶するコンピュータ可読媒体は、１つ以上のコンピューティング装置に、バルクＲＮＡ配列決定データの逆畳み込みを、ｉ）３つのソース（バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーション）から入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ｉｉ）細胞型あたり遺伝子あたりのデータの平均及び分散パラメータを推定するステップと、ｉｉｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｖ）複数サンプルの利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｖ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｖｉ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上と、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測することと、によって行わせるように適応されている。これらの実施形態はそれぞれ、本明細書で開示する方法の実施形態のいずれかを用いて行うことができる。

いくつかの実施形態では、プロセッサ実行可能命令を記憶するコンピュータ可読媒体は、１つ以上のコンピューティング装置に、バルクＲＮＡ配列決定データの逆畳み込みを、ｉ）遺伝子のクロス細胞型特異度を計算することと、ｉｉ）複数サンプルの利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定することと、ｉｉｉ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定することと、ｉｖ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクＲＮＡ配列決定データにおける細胞型比率を推定することと、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測することと、によって行わせるように適応されている。いくつかの実施形態では、遺伝子のクロス細胞型特異度の計算は、カウントベースの単一細胞配列決定データの行列から選択した最も変動的に発現する遺伝子の下位集合（３つのソース：ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、ｉｉ）単一細胞ＲＮＡ－ｓｅｑデータ、及びｉｉｉ）細胞型アノテーションから取得した）からの細胞型あたり遺伝子あたりの発現の推定平均及び分散パラメータに基づいて行い、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む。これらの実施形態はそれぞれ、本明細書で開示する方法の実施形態のいずれかを用いて行うことができる。

いくつかの実施形態では、方法は第１のステップを含む。いくつかの実施形態では、方法は第１のステップと、第２、第３、及び第４のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第２のステップを含む。いくつかの実施形態では、方法は第２のステップと、第１、第３、及び第４のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第３のステップを含む。いくつかの実施形態では、方法は第３のステップと、第１、第２、及び第４のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。いくつかの実施形態では、方法は第４のステップを含む。いくつかの実施形態では、方法は第４のステップと、第１、第２、及び第３のステップのうちの１つ以上、またはこれらのさらなるステップの任意の組み合わせとを含む。

また本開示によって、システムであって、１つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、１つ以上のプロセッサによって実行されると、装置に本明細書で説明する方法のいずれかによってバルクＲＮＡ配列決定データの逆畳み込みを行わせるメモリと、を含むシステムが提供される。いくつかの実施形態では、方法は、ｉ）最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ｉｉ）カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、ｉｉｉ）各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、ｉｖ）正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクＲＮＡ配列決定カウントを含む、ステップと、ｖ）バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、ｖｉ）損失関数を適用してバルクＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する。

いくつかの実施形態では、方法は、ｉ）３つのソース（バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーション）から入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ｉｉ）細胞型あたり遺伝子あたりのデータの平均及び分散パラメータを推定するステップと、ｉｉｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｖ）複数サンプルの利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｖ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｖｉ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する。逆畳み込み法は、本明細書で開示する方法の実施形態のすべてまたは下位集合を用いて、本明細書で説明する各実施形態における正確な方法を用いてまたは用いることなく行うことができる。

いくつかの実施形態では、方法は、ｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｉ）複数サンプルの利用可能性に応じて、複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｉｉｉ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｉｖ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する。いくつかの実施形態では、遺伝子のクロス細胞型特異度の計算は、カウントベースの単一細胞配列決定データの行列から選択した最も変動的に発現する遺伝子の下位集合（３つのソース：ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、ｉｉ）単一細胞ＲＮＡ－ｓｅｑデータ、及びｉｉｉ）細胞型アノテーションから取得した）からの細胞型あたり遺伝子あたりの発現の推定平均及び分散パラメータに基づいて行い、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む。逆畳み込み法は、本明細書で開示する方法の実施形態のすべてまたは下位集合を用いて、本明細書で説明する各実施形態における正確な方法を用いてまたは用いることなく行うことができる。

以下の典型的な実施形態が与えられる。

実施形態１．バルクＲＮＡ配列決定データの逆畳み込みを行うための方法であって、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクＲＮＡ配列決定カウントを含む、ステップと、バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、損失関数を適用してバルクＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法。

実施形態２．カウントベースの配列決定データは単一細胞ＲＮＡ配列決定データであり、カウントベースの配列決定カウントは単一細胞ＲＮＡ配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞ＲＮＡ配列決定データ行列である、実施形態１による方法。

実施形態３．カウントベースの配列決定データはＡＴＡＣ－ｓｅｑデータであり、カウントベースの配列決定カウントはＡＴＡＣ－ｓｅｑカウントであり、カウントベースの配列決定データ行列はＡＴＡＣ－ｓｅｑデータ行列である、実施形態１による方法。

実施形態４．各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である、実施形態１～３のいずれか１つによる方法。

実施形態５．正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である、実施形態１～４のいずれか１つによる方法。

実施形態６．固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントの行列を形成して、行列を正規化することをさらに含む、実施形態１～５のいずれか１つによる方法。

実施形態７．バルクＲＮＡ配列決定カウントのバルク行列を形成して、バルク行列を正規化することをさらに含む、実施形態１～６のいずれか１つによる方法。

実施形態８．選択するステップは、複数の遺伝子内の各遺伝子に対する標準偏差を計算することと、閾値標準偏差数を決定することと、その閾値数を超える標準偏差を有する最も変動的に発現する遺伝子の下位集合を選択することとを含む、実施形態１～７のいずれか１つによる方法。

実施形態９．細胞型特異的重みを計算するステップは、全平均分散を固定数の細胞のそれぞれに対する細胞内型平均分散と比較することを含む、実施形態１～８のいずれか１つによる方法。

実施形態１０．フィッティングさせるステップは、混合比率を推定するときに全分布を用いることを含む、実施形態１～９のいずれか１つによる方法。

実施形態１１．フィッティングさせるステップは、正規化されたカウントを分布にフィッティングさせることによって分布を取得して、各遺伝子に対する分散及び平均値を推定することをさらに含む、実施形態１０による方法。

実施形態１２．分布はガウス分布である、実施形態１１による方法。

実施形態１３．損失関数を規定するステップは、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ発散を適用することを含む、実施形態１～１２のいずれか１つによる方法。

実施形態１４．損失関数を適用するステップは、勾配降下法を採用することを含む、実施形態１～１３のいずれか１つによる方法。

実施形態１５．カウントベースの配列決定データの正規化行列からの複数の遺伝子は、少なくとも約２０，０００個の遺伝子を含む、実施形態１～１４のいずれか１つによる方法。

実施形態１６．最も変動的に発現する遺伝子の選択した下位集合は、約１，０００～約５，０００個の遺伝子を含む、実施形態１～１５のいずれか１つによる方法。

実施形態１７．最も変動的に発現する遺伝子の選択した下位集合は約２５００個の遺伝子を含む、実施形態１６による方法。

実施形態１８．バルクＲＮＡ配列決定データを取得した各細胞型からのＲＮＡの比率を特定することをさらに含む、実施形態１～１７のいずれか１つによる方法。

実施形態１９．バルクＲＮＡ配列決定データを取得した各細胞型の比率を特定することをさらに含む、実施形態１～１８のいずれか１つによる方法。

実施形態２０．バルクＲＮＡ配列決定データを取得した細胞には腫瘍細胞が含まれ、方法は腫瘍細胞の中の免疫細胞の比率を特定することをさらに含む、実施形態１～１９のいずれか１つによる方法。

実施形態２１．免疫細胞は腫瘍浸潤リンパ球を含む、実施形態２０による方法。

実施形態２２．免疫細胞はＣＤ８陽性Ｔリンパ球を含む、実施形態２０または実施形態２１による方法。

実施形態２３．免疫細胞はＣＤ８陽性Ｔリンパ球及び樹状細胞を含む、実施形態２０による方法。

実施形態２４．腫瘍細胞を取得した腫瘍を炎症性腫瘍または非炎症性腫瘍と特徴付けることをさらに含む、実施形態２０～２３のいずれか１つによる方法。

実施形態２５．腫瘍を炎症性腫瘍と特徴付け、腫瘍は対象内に存在し、方法は、対象が、浸潤免疫細胞の閾値レベルを下回るか、等しいか、または上回るかを判定することをさらに含む、実施形態２４による方法。

実施形態２６．免疫細胞はＣＤ８陽性Ｔリンパ球を含む、実施形態２５による方法。

実施形態２７．免疫細胞はＣＤ８陽性Ｔリンパ球及び樹状細胞を含む、実施形態２５による方法。

実施形態２８．対象は、浸潤免疫細胞の閾値レベルを上回っており、方法は、対象を免疫療法に対する候補として特定することをさらに含む、実施形態２５～２７のいずれか１つによる方法。

実施形態２９．免疫療法は養子細胞療法を含む、実施形態２８による方法。

実施形態３０．養子細胞療法はキメラ抗原受容体Ｔ細胞（ＣＡＲ－Ｔ細胞）療法を含む、実施形態２９による方法。

実施形態３１．免疫療法は免疫チェックポイント阻害療法を含む、実施形態２８による方法。

実施形態３２．免疫チェックポイント阻害療法は、細胞障害性Ｔリンパ球関連抗原－４（ＣＴＬＡ－４）を阻害する抗体を含む、実施形態３１による方法。

実施形態３３．免疫チェックポイント阻害療法は、プログラム細胞死タンパク質１（ＰＤ－１）を阻害する抗体を含む、実施形態３１または実施形態３２による方法。

実施形態３４．免疫チェックポイント阻害療法は、プログラム細胞死リガンド１（ＰＤ－Ｌ１）を阻害する抗体を含む、実施形態３１～３３のいずれか１つによる方法。

実施形態３５．免疫チェックポイント阻害療法は、リンパ球関連遺伝子３（ＬＡＧ３）を阻害する抗体を含む、実施形態３１～３４のいずれか１つによる方法。

実施形態３６．バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の腫瘍細胞の比率を特定することをさらに含む、実施形態１～１９のいずれか１つによる方法。

実施形態３７．バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の免疫細胞の比率を特定することをさらに含む、実施形態１～１９のいずれか１つによる方法。

実施形態３８．バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の癌関連線維芽細胞の比率を特定することをさらに含む、実施形態１～１９のいずれか１つによる方法。

実施形態３９．バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の癌関連脂肪細胞の比率を特定することをさらに含む、実施形態１～１９のいずれか１つによる方法。

実施形態４０．バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中のリンパ内皮細胞の比率を特定することをさらに含む、実施形態１～１９のいずれか１つによる方法。

実施形態４１．バルクＲＮＡ配列決定データを取得した細胞は腫瘍微小環境細胞を含み、方法は、腫瘍微小環境細胞の中の血管内皮細胞の比率を特定することをさらに含む、実施形態１～１９のいずれか１つによる方法。

実施形態４２．プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、プロセッサ実行可能命令は、１つ以上のコンピューティング装置に、バルクＲＮＡ配列決定データの逆畳み込みを、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップあって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクＲＮＡ配列決定カウントを含む、ステップと、バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、損失関数を適用してバルクＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されているコンピュータ可読媒体。

実施形態４３．カウントベースの配列決定データは単一細胞ＲＮＡ配列決定データであり、カウントベースの配列決定カウントは単一細胞ＲＮＡ配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞ＲＮＡ配列決定データ行列である、実施形態４２によるコンピュータ可読媒体。

実施形態４４．カウントベースの配列決定データはＡＴＡＣ－ｓｅｑデータであり、カウントベースの配列決定カウントはＡＴＡＣ－ｓｅｑカウントであり、カウントベースの配列決定データ行列はＡＴＡＣ－ｓｅｑデータ行列である、実施形態４２によるコンピュータ可読媒体。

実施形態４５．各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である、実施形態４２～４４のいずれか１つによるコンピュータ可読媒体。

実施形態４６．正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である、実施形態４２～４５のいずれか１つによるコンピュータ可読媒体。

実施形態４７．選択するステップは、複数の遺伝子内の各遺伝子に対する標準偏差を計算することと、閾値標準偏差数を決定することと、その閾値数を超える標準偏差を有する最も変動的に発現する遺伝子の下位集合を選択することとを含む、実施形態４２～４６のいずれか１つによるコンピュータ可読媒体。

実施形態４８．細胞型特異的重みを計算するステップは、全平均分散を固定数の細胞のそれぞれに対する細胞型内平均分散と比較することを含む、実施形態４２～４７のいずれか１つによるコンピュータ可読媒体。

実施形態４９．フィッティングさせるステップは、混合比率を推定するときに全分布を用いることを含む、実施形態４２～４８のいずれか１つによるコンピュータ可読媒体。

実施形態５０．フィッティングさせるステップは、正規化されたカウントを分布にフィッティングさせることによって分布を取得して、各遺伝子に対する分散及び平均値を推定することをさらに含む、実施形態４９によるコンピュータ可読媒体。

実施形態５１．分布はガウス分布である、実施形態５０によるコンピュータ可読媒体。

実施形態５２．損失関数を規定するステップは、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ発散を適用することを含む、実施形態４２～５１のいずれか１つによるコンピュータ可読媒体。

実施形態５３．損失関数を適用するステップは、勾配降下法を採用することを含む、実施形態４２～５２のいずれか１つによるコンピュータ可読媒体。

実施形態５４．カウントベースの配列決定データの正規化行列からの複数の遺伝子は、少なくとも約２０，０００個の遺伝子を含む、実施形態４２～５３のいずれか１つによるコンピュータ可読媒体。

実施形態５５．最も変動的に発現する遺伝子の選択した下位集合は約１，０００～約５，０００個の遺伝子を含む、実施形態４２～５４のいずれか１つによるコンピュータ可読媒体。

実施形態５６．最も変動的に発現する遺伝子の選択した下位集合は約２５００個の遺伝子を含む、実施形態５５によるコンピュータ可読媒体。

実施形態５７．方法は、バルクＲＮＡ配列決定データを取得した各細胞型からのＲＮＡの比率を特定することをさらに含む、実施形態４２～５６のいずれか１つによるコンピュータ可読媒体。

実施形態５８．方法は、バルクＲＮＡ配列決定データを取得した各細胞型の比率を特定することをさらに含む、実施形態４２～５７のいずれか１つによるコンピュータ可読媒体。

実施形態５９．システムであって、１つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、前記プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置に、バルクＲＮＡ配列決定データの逆畳み込みを、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、カウントベースの配列決定データの正規化行列内の最も変動的に発現する遺伝子の下位集合内の各選択した遺伝子に対して細胞型特異的重みを計算して、細胞型アノテーションを用いるステップと、各細胞型に対して、ならびにカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合、最も変動的に発現する遺伝子の下位集合、及び細胞型アノテーションに対して、クロスサンプル分布をフィッティングさせて、比率パラメータにより混合単一細胞分布を規定するステップと、正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対してバルク分布をフィッティングさせて、バルク分布を規定するステップであって、バルク行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してバルクＲＮＡ配列決定カウントを含む、ステップと、バルク分布と混合単一細胞分布との間の損失関数を規定するステップと、損失関数を適用してバルクＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、メモリと、を含むシステム。

実施形態６０．カウントベースの配列決定データは単一細胞ＲＮＡ配列決定データであり、カウントベースの配列決定カウントは単一細胞ＲＮＡ配列決定カウントであり、カウントベースの配列決定データ行列は単一細胞ＲＮＡ配列決定データ行列である、実施形態５９によるシステム。

実施形態６１．カウントベースの配列決定データはＡＴＡＣ－ｓｅｑデータであり、カウントベースの配列決定カウントはＡＴＡＣ－ｓｅｑカウントであり、カウントベースの配列決定データ行列はＡＴＡＣ－ｓｅｑデータ行列である、実施形態５９によるシステム。

実施形態６２．各細胞型に対する、及びカウントベースの配列決定データ行列からの最も変動的に発現する遺伝子の各下位集合に対するクロスサンプル分布は、クロスサンプルガウス分布である、実施形態５９～６１のいずれか１つによるシステム。

実施形態６３．正規化されたバルク行列からの最も変動的に発現する遺伝子の各下位集合及び最も変動的に発現する遺伝子の下位集合に対するバルク分布は、バルクガウス分布である、実施形態５９～６２のいずれか１つによるシステム。

実施形態６４．選択するステップは、複数の遺伝子内の各遺伝子に対する標準偏差を計算することと、閾値標準偏差数を決定することと、その閾値数を超える標準偏差を有する最も変動的に発現する遺伝子の下位集合を選択することとを含む、実施形態５９～６３のいずれか１つによるシステム。

実施形態６５．細胞型特異的重みを計算するステップは、全平均分散を固定数の細胞のそれぞれに対する細胞型内平均分散と比較することを含む、実施形態５９～６４のいずれか１つによるシステム。

実施形態６６．フィッティングさせるステップは、混合比率を推定するときに全分布を用いることを含む、実施形態５９～６５のいずれか１つによるシステム。

実施形態６７．フィッティングさせるステップは、正規化されたカウントを分布にフィッティングさせることによって分布を取得して、各遺伝子に対する分散及び平均値を推定することをさらに含む、実施形態６６によるシステム。

実施形態６８．分布はガウス分布である、実施形態６７によるシステム。

実施形態６９．損失関数を規定するステップは、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ発散を適用することを含む、実施形態５９～６８のいずれか１つによるシステム。

実施形態７０．損失関数を適用するステップは、勾配降下法を採用することを含む、実施形態５９～６９のいずれか１つによるシステム。

実施形態７１．カウントベースの配列決定データの正規化行列からの複数の遺伝子は、少なくとも約２０，０００個の遺伝子を含む、実施形態５９～７０のいずれか１つによるシステム。

実施形態７２．最も変動的に発現する遺伝子の選択した下位集合は、約１，０００～約５，０００個の遺伝子を含む、実施形態５９～７０のいずれか１つによるシステム。

実施形態７３．最も変動的に発現する遺伝子の選択した下位集合は約２５００個の遺伝子を含む、実施形態７２によるシステム。

実施形態７４．方法は、バルクＲＮＡ配列決定データを取得した各細胞型からのＲＮＡの比率を特定することをさらに含む、実施形態５９～７３のいずれか１つによるシステム。

実施形態７５．方法は、バルクＲＮＡ配列決定データを取得した各細胞型の比率を特定することをさらに含む、実施形態５９～７４のいずれか１つによるシステム。

実施形態７６．バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行うための方法であって、方法は、ａ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップと、ｂ）細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、ｃ）各遺伝子のクロス細胞型特異度を計算するステップと、ｄ）複数サンプルの利用可能性に応じてバルクまたは空間ＲＮＡ－ｓｅｑデータまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｅ）バルクまたは空間ＲＮＡ－ｓｅｑデータ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｆ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法。

実施形態７７．カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、実施形態７６による方法。

実施形態７８．入力は、各細胞に対応付けられる細胞型アノテーションを伴う単一細胞ＵＭＩカウント行列である、実施形態７６または実施形態７７による方法。

実施形態７９．逆畳み込みを行うべきバルクデータは、キロベースミリオンあたりの転写物（ＴＰＭ）または読み出しカウントである、実施形態７６または実施形態７７による方法。

実施形態８０．逆畳み込みを行うべき空間データはＵＭＩカウント行列である、実施形態７６または実施形態７７による方法。

実施形態８１．ノイズを導入する可能性がある情報価値のない遺伝子を除外し、細胞型を区別するために重要な情報を含む遺伝子を、カウントベースの配列決定データの正規化行列からの最も変動的に発現する遺伝子の下位集合として選択する、実施形態７６～８０のいずれか１つによる方法。

実施形態８２．遺伝子の下位集合を、単一細胞ＵＭＩカウント行列内の各細胞型において発現が富化されるマーカー遺伝子の集団から選択する、実施形態８１による方法。

実施形態８３．組み込みツールが、入力として、単一細胞ＵＭＩカウント行列及び細胞型アノテーションを取る、実施形態８２による方法。

実施形態８４．各細胞型に対して、ツールは、その細胞型における平均ＵＭＩと他のすべての細胞型における平均ＵＭＩとの間の倍率変化を計算して、倍率変化の降順によって遺伝子をランク付けする、実施形態８３による方法。

実施形態８５．各細胞型から上位約２００個の遺伝子を選択する、実施形態８４による方法。

実施形態８６．５つ以下の細胞型に存在する選択したマーカー遺伝子を選択する、実施形態８４による方法。

実施形態８７．固定数の細胞型または細胞型の総数の比率のいずれか小さい方で存在する選択したマーカー遺伝子を選択する、実施形態８４による方法。

実施形態８８．合計約１，０００個の固有の遺伝子を選択する、実施形態８４による方法。

実施形態８９．遺伝子の下位集合を、単一細胞ＵＭＩカウント行列内のすべての細胞間で最も変動する非常に変動的な遺伝子の集団から選択する、実施形態８１による方法。

実施形態９０．細胞数バランシング及びＶＳＴ正規化の後の各遺伝子に対する分散を計算する、実施形態８９による方法。

実施形態９１．分散が最も高い遺伝子を選択する、実施形態９０による方法。

実施形態９２．単一細胞ＵＭＩカウント行列内の細胞型を、すべての細胞集塊のメジアン径を見つけることによってバランシングし、各集塊からの細胞をこの径に等しくなるようにサンプリングする、実施形態８９～９１のいずれか１つによる方法。

実施形態９３．バランシングされた単一細胞ＵＭＩ行列内の細胞にわたる各遺伝子の分散を計算する、実施形態９２による方法。

実施形態９４．正規化データに対する分散を分散安定化変換（ＶＳＴ）によって計算する、実施形態９３による方法。

実施形態９５．上位２，０００の大きな分散を伴う遺伝子を選択する、実施形態９４による方法。

実施形態９６．ＲＮＡ－ｓｅｑデータは、平均値を推定する前は正規化しない、実施形態７６～９５のいずれか１つによる方法。

実施形態９７．平均値を生のＵＭＩカウントを用いてモデリングする、実施形態９６による方法。

実施形態９８．負の二項分布を各細胞型の単一細胞にフィットさせる、実施形態９６または実施形態９７による方法。

実施形態９９．各細胞型における各選択した遺伝子に対して推定を行う、実施形態９８による方法。

実施形態１００．遺伝子の細胞型特異度を計算するために、遺伝子のｉ）発現が最も高いかまたはｉｉ）倍率変化が他と比較べて最も高い細胞型を特定し、この遺伝子の特異度を細胞型内での平均対分散比として規定する、実施形態７６～９９のいずれか１つによる方法。

実施形態１０１．負の二項フィッティングからの推定平均及び分散パラメータを用いて、選択した遺伝子の集合内の各遺伝子に対する細胞型特異度重みを計算する、実施形態１００による方法。

実施形態１０２．クロスサンプル遺伝子変動性を、サンプルにわたって計算した分散対平均比（ＶＭＲ）を用いて計算する、実施形態７６～１０１のいずれか１つによる方法。

実施形態１０３．クロスサンプル遺伝子変動性を複合トランスクリプトームデータから計算する、実施形態１０２による方法。

実施形態１０４．複合データは複数サンプルを有していないが、単一細胞データは複数のサンプルを有しており、複数の複合サンプルを合成して、それぞれは、単一細胞基準におけるサンプルの１つに属するすべての細胞の平均値である、実施形態１０２による方法。

実施形態１０５．複合データ及び単一細胞データの両方に対して複数サンプルが利用できない場合、方法は、細胞の下位集合の発現を平均化することによって単一細胞データに対する複数の合成サンプルを生成することを含む、実施形態１０２による方法。

実施形態１０６．遺伝子ごとのスケーリング係数を適応学習戦略を用いて推定し、各遺伝子をその対応するスケーリング係数によって再スケール変更する、実施形態７６～１０５のいずれか１つによる方法。

実施形態１０７．各複合サンプルを回帰モデルによって独立に推定する、実施形態７６～１０６のいずれか１つによる方法。

実施形態１０８．バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行うための方法であって、方法は、ａ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内での各遺伝子のクロス細胞型特異度を計算するステップと、ｂ）複数サンプルの利用可能性に応じてバルクまたは空間ＲＮＡ－ｓｅｑデータまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｃ）バルクまたは空間ＲＮＡ－ｓｅｑデータ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｄ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法。

実施形態１０９．プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、プロセッサ実行可能命令は、１つ以上のコンピューティング装置に、バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを、ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ｉｉ）細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、ｉｉｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｖ）複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｖ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｖｉ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されているコンピュータ可読媒体。

実施形態１１０．プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、プロセッサ実行可能命令は、１つ以上のコンピューティング装置に、バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを、ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内での遺伝子のクロス細胞型特異度を計算するステップと、ｉｉ）複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｉｉｉ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｉｖ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されているコンピュータ可読媒体。

実施形態１１１．システムであって、１つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置にバルクまたは空間ＲＮＡ配列決定データの逆畳み込みを、ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、ステップと、ｉｉ）細胞型あたり遺伝子あたりのデータの平均及び分散パラメータを推定するステップと、ｉｉｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｖ）複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｖ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｖｉ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、メモリと、を含むシステム。

実施形態１１２．システムであって、１つ以上のプロセッサと、プロセッサ実行可能命令を有するメモリであって、プロセッサ実行可能命令は、１つ以上のプロセッサによって実行されると、装置にバルクまたは空間ＲＮＡ配列決定データの逆畳み込みを、ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内の遺伝子のクロス細胞型特異度を計算するステップと、ｉｉ）複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｉｉｉ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｉｖ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、当該モデルを用いてバルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、メモリと、を含むシステム。

本明細書で開示する主題がより効率的に理解され得るように、以下に例を示す。当然のことながら、これらの例は単に説明を目的としたものであり、特許請求の範囲に記載された主題をいかなる方法によっても限定するものと解釈してはならない。

実施例１：免疫細胞に対するバルクＲＮＡ配列決定データの逆畳み込み
以下の仮説例は、本開示の全体的な性質をより明瞭に実証するために含まれている。例は本開示の典型であり限定ではない。

３つの細胞型：マクロファージ、Ｔ細胞、及びＢ細胞を含む単一細胞行列の場合、ＲＮＡ配列決定によって測定される３つの遺伝子（Ｓｐｐ１、Ｔｒｅｍ２、及びＳｅｒｐｉｎｅ２）がある。

単一細胞データ入力：生ＵＭＩカウントデータ

列ごとに１ｅ＋６合計ＵＭＩカウントに正規化する。

すべての数に１を足す

自然対数変換を計算する

開示した方法のステップ１を適用して、上位２，５００個の非常に変動的な遺伝子を選択する。この場合、遺伝子Ｓｅｒｐｉｎｅ２は変動がそれほど大きくない。残りの２つの遺伝子Ｓｐｐ１及びＴｒｅｍ２は変動がより大きく、したがって、選択する上位２，５００個の遺伝子の中に含めてさらに解析を行う。

ステップ２では、細胞型特異的重みを計算する。

Ｓｐｐ１遺伝子に対する計算は以下に従う。

＝７．０５
例では、２．５４は（１．６、１．９、２．２、３．７、３．９９、３．８９、０、０、０．６９）の不偏分散である。Ｎは細胞の総数である（３＋３＋３＝９）。０．０９は（１．６、１．９、２．２）の不偏分散である。ｎはマクロファージ細胞の数である（３）。同様の計算を適用して、細胞型特異的重みは以下のようになる。

開示した方法のステップ３を適用して、単一細胞を細胞型ごとにプールし、そして細胞型列ごとの合計ＵＭＩ＝１ｅ＋６に正規化し、次に１を足し、そして自然対数変換を行う。結果を３つのサンプルのそれぞれに対して下表に反映させる。

サンプル１：

細胞型ごとに細胞をプールして（合計して）以下を生成する。

正規化後にｌｏｇ（データ＋１）して以下を生成する。

サンプル２：

正規化後にｌｏｇ（データ＋１）して以下を生成する。

サンプル３：

正規化後にｌｏｇ（データ＋１）して以下を生成する。

ステップ３を続けて、ガウス分布を、３つの各細胞型における２つの遺伝子の各遺伝子に対して３つの各サンプルにわたってフィットさせる。これらのガウス分布フィットの結果を図８に示す。これらの結果がステップ３の適用を結論づけている。

開示した方法のステップ４を適用して、複数サンプル行列を正規化し、ガウス分布を各遺伝子に対してフィットさせる。これらのガウス分布フィットの結果を図９に示す。バルクＲＮＡ－ｓｅｑデータを３つのサンプルから独立に取得していると仮定している。各サンプル内の細胞の内容は分かっていない。開示した方法の目標の１つは、以前の単一細胞ＲＮＡ－ｓｅｑデータを基準として用いて、各サンプルに対する細胞型比率を学習することである。

開示した方法のステップ５を適用して、モデルを、単一細胞データ及びバルクデータから学習した各遺伝子の比率パラメータ、重み、及び分布を用いて規定する。これらの計算の結果を図１０に示す。

最後に、開示した方法のステップ６を適用して、バルク組織内での３つの細胞型（ｋ＝１、２、３）それぞれの比率θ_ｋを、３つのサンプルそれぞれに対する合計Ｄ_ｋｌを最小限にすることによって推定する。第１のサンプルに対する出力は、θ_１（マクロファージ）＝０．５；θ_２（Ｔ細胞）＝０．２２；及びθ_３（Ｂ細胞）＝０．２８である。第２のサンプルに対する出力は、θ_１（マクロファージ）＝０．４２；θ_２（Ｔ細胞）＝０．３２；及びθ_３（Ｂ細胞）＝０．２６である。第３のサンプルに対する出力は、θ_１（マクロファージ）＝０．２３；θ_２（Ｔ細胞）＝０．３８；及びθ_３（Ｂ細胞）＝０．３９である。当然のことながら、３つの細胞型の比率の合計は１に等しくなければならない。

実施例２：方法評価
ＡｄＲｏｉｔ法を評価するために、２つの比較を行った。第１に、ＡｄＲｏｉｔ法の第２の実施形態の結果を、Ｘ．Ｗａｎｇら（前出）による論文に開示された「マルチサブジェクト単一細胞逆畳み込み」（ＭｕＳｉＣ）法によって実現される結果と比較した。第２に、ＡｄＲｏｉｔ法の第２の実施形態の結果を、従来の非負最小二乗法（ＮＮＬＳ）回帰法によって実現される結果と比較した。

評価１：ヒト膵島データ
第１の評価に対して用いるデータをヒト膵島から取得した。ランゲルハンス島は、膵臓にあってその内分泌腺（すなわち、ホルモン産生）細胞を含む領域である。ヒト膵島の単一細胞データを図１５Ａ及び図１５Ｂに示す。これらのデータを比較用に選択した理由は、データには多くの（具体的には、１８の）対象からのいくつかの（具体的には、４つの）細胞型（２つの主要な細胞型（アルファ及びベータ細胞）及び２つの副次的な細胞型（ＰＰ及びデルタ細胞）を含む）が含まれているからである。細胞割合は、異なる対象間で変動する。

図１５Ａは対象１８人の細胞組成の概要である。図１５Ｂは、ＬａｕｒｅｎｓｖａｎｄｅｒＭａａｔｅｎ及びＧｅｏｆｆｒｅｙＨｉｎｔｏｎによって開発された視覚化用の機械学習アルゴリズムであるＴ分布型確率的近傍埋め込み法（ｔ－ＳＮＥ）を反映している。それは、２次元の低次元空間（たとえば、図１５Ｂのグラフ）において視覚化するために高次元データを埋め込むのにとても適した非線形次元削減技術である。具体的には、ｔ－ＳＮＥは、各高次元オブジェクトの２次元の点によるモデリングを、高い確率で、同様のオブジェクトが近くの点によってモデリングされ、異なるオブジェクトが遠い点によってモデリングされるように行う。ｔ－ＳＮＥグラフに特有であるように、データは図１５Ｂに集塊で表示されている。

異なる方法を評価するために用いる絶対的で正しいまたは「真の」結果を取得するために、図１５Ａ及び図１５Ｂに示すヒト膵島の単一細胞データに対応するバルクデータを合成した。推定は、バルクデータを合成するために用いたサンプルを用いずに単一細胞基準を用いることによって行った。真のバルクデータを図１６Ａ、１６Ｂ、１６Ｃに反映させている。４つの別個の統計的測定：平均絶対偏差（ｍＡＤ）、二乗平均平方根偏差（ＲＭＳＤ）、ピアソン相関係数（ＰＣＣ）、及びスピアマンの順位相関係数を計算した。

統計では、ｍＡＤは、データのセットの、そのデータの平均についての絶対偏差の平均値である。平均絶対偏差は平均偏差とも言われる。平均絶対偏差はデータセット内の変動を説明する方法である。ｍＡＤ数が小さいほど、データセットの変動が小さい（すなわち、より良好である）。

ＲＭＳＤまたは二乗平均平方根誤差（ＲＭＳＥ）（または、しばしば二乗平均平方根誤差）は、モデルまたは推定量によって予測された値（サンプル値または母集団値）と観察された値との間の差の頻繁に使用される尺度である。ＲＭＳＤは、予測値と観察値との間の差の２次のサンプルモーメントの平方根またはこれらの差の平方平均を表す。これらの偏差は、推定用に用いたデータサンプル上で計算を行ったときには残差と言われ、サンプル外で計算したときには誤差（または予測誤差）は言われる。ＲＭＳＤは、様々な時点に対する予測における誤差の大きさを予測能力の単一尺度に集める役割を果たす。ＲＭＳＤは、スケールに依存するため、データセット間ではなく特定のデータセットに対する異なるモデルの予測誤差を比較するための精度の尺度である。ｍＡＤの場合、ＲＭＳＤ数が小さいほど良好である。

統計では、ＰＣＣ（ピアソンのｒ、ピアソンの積率相関係数（ＰＰＭＣＣ）、または二変量相関とも言われる）は、２つの変数Ｘ及びＹ間の線形相関の尺度である。コーシーシュワルツの不等式によれば、それは値＋１～－１を有する。ここで、＋１は全正の線形相関、０は線形相関なし、及び－１は全負の線形相関である。ＰＣＣは科学において広く用いられている。それは、１８８０年代にＦｒａｎｃｉｓＧａｌｔｏｎによって導入された関連するアイデアからＫａｒｌＰｅａｒｓｏｎによって開発され、それに対する数式が、１８４４年にＡｕｇｕｓｔｅＢｒａｖａｉｓによって導き出されて発表された。

統計では、スピアマンの順位相関係数またはスピアマンのロー（ＣｈａｒｌｅｓＳｐｅａｒｍａｎにちなんで名付けられ、ギリシャ文字ρ（ロー）によってまたはｒ_ｓとして表されることが多い）は、順位相関（２つの変数のランキング間の統計的依存性）のノンパラメトリック尺度である。それは、２つの変数間の関係を単調関数を用いてどのくらい良好に記述できるかを評価する。２つの変数間のスピアマン相関は、これら２つの変数のランク値間のピアソン相関に等しい。ピアソンの相関は線形関係を評価するが、スピアマンの相関は単調な関係（線形かそうでないか）を評価する。ピアソンの相関及びスピアマンの相関の両方に対して、数値が１に近いほど、良好である。

図１６Ａ、１６Ｂ、１６Ｃに、ＡｄＲｏｉｔ法（図１６Ａ）、ＭｕＳｉＣ法（図１６Ｂ）、及びＮＮＬＳ法（図１６Ｃ）の結果の間の比較を反映させている。そのため、３つのグラフを示している。各グラフに対する縦座標（Ｙ軸）は、対応する方法によって与えられる細胞型の推定された比率である。各グラフに対する横座表（Ｘ軸）は、細胞型の真の比率（合成されたバルクデータから）である。４つの別個の統計的測定（前述で要約した）を３つの各グラフに対して計算して、図１７に表で示す。ｍＡＤ及びＲＭＳＤ測定の場合、数値が小さい（すなわち、偏差が小さい）ほど、方法は正確である。スピアマン及びピアソン相関は、方法が正確になるほど、１に近づく。データは、ＡｄＲｏｉｔ法が非常に正確で、かつＭｕＳｉＣ及びＮＮＬＳ法よりも優れているという結論を支持している。ＡｄＲｏｉｔは、ヒト膵島の単一細胞データを用いて合成バルクデータに適用されたときに最高の精度を実現する。

評価２：ヒト小柱網データ
第２の評価に対して用いるデータをヒト小柱網（ＴＭ）から取得した。ＴＭは、角膜の基部の周り、毛様体の近くに位置する眼の中の組織の領域であり、前房（角膜によって覆われる眼の前方の腔）を介して眼から房水を排出することを担う。ヒトＴＭの単一細胞データを図１８Ａ及び図１８Ｂに示す。これらのデータを比較用に選択した理由は、データには多くの（具体的には、８人の）ドナーからの多数の（具体的には、１２個の）細胞型が含まれているからである。Ｐａｔｅｌ，Ｇ．ら、「Ｍｏｌｅｃｕｌａｒｔａｘｏｎｏｍｙｏｆｈｕｍａｎｏｃｕｌａｒｏｕｔｆｌｏｗｔｉｓｓｕｅｓｄｅｆｉｎｅｄｂｙｓｉｎｇｌｅ－ｃｅｌｌｔｒａｎｓｃｒｉｐｔｏｍｉｃｓ」Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．１１７、１２８５６ＬＰ－１２８６７（２０２０）を参照。細胞型を図１８Ａに列記する。細胞割合は、異なるドナー間で変動する。

図１８Ａは８人のドナーの細胞組成の概要である。図１８Ｂはｔ－ＳＮＥ視覚化を反映しており、またｔ－ＳＮＥグラフに特有であるように、データは図１８Ｂに集塊で表示されている。

種々の方法を評価するために用いる絶対的で正しいまたは「真の」結果を取得するために、図１８Ａ及び図１８Ｂに示すバルクヒトＴＭの単一細胞データに対応するデータを合成した。推定は、バルクデータを合成するために用いたドナーを用いずに単一細胞基準を用いることによって行った。真のバルクデータを図１９Ａ、１９Ｂ、１９Ｃに反映させている。再び、４つの別個の統計的測定：ｍＡＤ、ＲＭＳＤ、ＰＣＣ、及びスピアマンの順位相関係数を計算した。である。

図１９Ａ、１９Ｂ、１９Ｃに、ＡｄＲｏｉｔ法（図１９Ａ）、ＭｕＳｉＣ法（図１９Ｂ）、及びＮＮＬＳ法（図１９Ｃ）の結果の間の比較を反映させている。そのため、３つのグラフを示している。各グラフに対する縦座標（Ｙ軸）は、対応する方法によって与えられる細胞型の推定された比率である。各グラフに対する横座表（Ｘ軸）は、細胞型の真の比率（合成されたバルクデータから）である。４つの別個の統計的測定（前述で要約した）を３つの各グラフに対して計算して、図２０に表で示す。全体として、ＡｄＲｏｉｔ法は、ＭｕＳｉＣ及びＮＮＬＳ法と比べて、推定値が真の細胞割合に最も近い。ＡｄＲｏｉｔ法は、ｍＡＤ及びＲＭＳＤが最も低く、ピアソン及びスピアマン相関が最も高い。

図２１に１２個の棒グラフを示す。各細胞型に対して１つである。グラフ上のドットは８つの異なる各ドナーを示しており、棒は１．５ｘ四分位範囲を示している。ＴＭにおける各細胞型に対して、ＡｄＲｏｉｔ法は、真の細胞割合からの差が最小であり、８つの異なるドナー間での推定が最も厳密である。

図２２に、ＡｄＲｏｉｔ法及びＭｕＳｉＣ法の両方を用いて計算した推定及び真のデータを反映する。合成バルクデータを、１２個の細胞型のうち６つのみを用いることによってシミュレートし、そして、１２個のすべての細胞型の完全リストを参照して推定した。ＡｄＲｏｉｔ法は、シミュレーションで除外した６つの細胞型の方が偽陽性推定が少なく、シミュレーションに含めた６つの細胞型の方が推定が正確であった。

図２３は、ＡｄＲｏｉｔ法の方がＭｕＳｉＣ法よりも曲線下面積（ＡＵＣ）が有意に高かったことを示す受信者動作特性（ＲＯＣ）曲線であり、感度及び特異度がより良好であることを示している。ＲＯＣ曲線は、その識別閾値が変化したときの二項分類システムの診断能力を例示するグラフプロットである。診断方法は、軍用レーダー受信機のオペレータに対して開発されたものであり、そのためそのように名付けられている。ＲＯＣ曲線は、種々の閾値設定において偽陽性率（ＦＰＲ）に対して真陽性率（ＴＰＲ）をプロットすることによって作成する。ＴＰＲは感度としても知られている。ＦＰＲは、誤報の確率としても知られており、１－特異度として計算することができる。ＲＯＣ解析によって、可能な限り最適なモデルを選択して最適以下のものを廃棄するためのツールが得られる。

評価３：後根神経節データ
第３の評価に対して用いるデータをマウス後根神経節（ＤＲＧ）神経細胞から取得した。ＤＲＧ単一細胞ＲＮＡ－ｓｅｑデータを図２４Ａ及び図２４Ｂに示す。これらのデータを比較用に選択した理由は、データには、５匹のマウスからの多くの（具体的には、１４の）細胞型（複数の亜型の神経細胞を含む）が含まれているからである。図２４Ａは、５匹のマウスの細胞組成の概要であり、細胞型を列記する。図２４Ｂに、データのｔ－ＳＮＥ視覚化を反映する。細胞割合は、異なるマウス間で変動する。

種々の方法を評価するために用いる絶対的で正しいまたは「真の」結果を取得するために、図２４Ａ及び図２４Ｂに示すＤＲＧ単一細胞データに対応するバルクデータを合成した。推定は、バルクデータを合成するために用いたサンプルを用いずに単一細胞基準を用いることによって行った。真のバルクデータを図２５Ａ、２５Ｂ、２５Ｃに反映させている。

図２５Ａ、２５Ｂ、２５Ｃに、ＡｄＲｏｉｔ法（図２５Ａ）、ＭｕＳｉＣ法（図２５Ｂ）、及びＮＮＬＳ法（図２５Ｃ）の結果の間の比較を反映させている。そのため、３つのグラフを示している。各グラフに対する縦座標（Ｙ軸）は、対応する方法によって与えられる細胞型の推定された比率である。各グラフに対する横座表（Ｘ軸）は、細胞型の真の比率（合成されたバルクデータから）である。それぞれの個々のサンプルに対して、ｍＡＤ、ＲＭＳＤ、及びピアソン及びスピアマン相関を計算して、３つの方法の間で比較した。結果を図２６のグラフに示す。全体として、ＡｄＲｏｉｔ法は、ＭｕＳｉＣ及びＮＮＬＳ法と比べて、推定値が真の細胞割合に最も近い。ＡｄＲｏｉｔ法は、ｍＡＤ及びＲＭＳＤが最も低く、ピアソン及びスピアマン相関が最も高い。加えて、ＡｄＲｏｉｔ法推定はサンプル間で最も安定であった。

評価４：ヒト膵島の応用例
第４の評価に対して用いるデータをヒト膵島から取得した（前述の評価１を参照）。ヒト膵島の単一細胞データを図１５Ａ及び図１５Ｂに示す。これらのデータには４つの細胞型：アルファ、ベータ、ＰＰ、及びデルタ細胞が含まれている。図２７は、４つの各細胞型に対する細胞割合のグラフであり、実際のヒト膵島バルクＲＮＡ－ｓｅｑデータに対する細胞型パーセンテージのＡｄＲｏｉｔ法推定が、同じドナーからの繰り返しサンプルに対して、再現性が非常に高いことを示している。

リボ核酸分子を標的とした蛍光インサイチュハイブリダイゼーション（ＲＮＡＦＩＳＨ）は、固定された細胞内の特定のＲＮＡ分子を検出して位置特定するための方法である。この検出では、細胞内の標的ＲＮＡ配列に相補的な核酸プローブを用いる。このプローブは次に、その標的に標準ワトソンクリック塩基対合を介してハイブリダイズし、その後、プローブへの蛍光分子の直接接合または蛍光信号増幅方式を通して、標的を蛍光顕微鏡を介して検出することができる。ＲＮＡＦＩＳＨにおける最近の進歩によって、方法の特異度及び感度が増加して個々のＲＮＡ分子の検出が可能になり、単一細胞または細胞内レベルにおいてさえＲＮＡ存在量及び局在化の正確な測定が得られている。ここまでのほとんどの応用例は固定細胞内であったが、プローブ技術の進歩によって、生細胞内の単一ＲＮＡ分子を検出できるようになっている。図２８に、Ａｄｒｏｉｔ法を用いて推定した細胞割合パーセンテージが、細胞型パーセンテージのＲＮＡＦＩＳＨ測定値と一致することを示す。

糖化ヘモグロビン、またはＨｂＡ１ｃは、体内のブドウ糖（糖）が赤血球に付着したときに形成される。ＨｂＡ１ｃのテストを用いて２型糖尿病（Ｔ２Ｄ）患者をモニタリングする。このような患者においては、身体が糖を適切に用いることはできず、糖が血球に付着して血液内に蓄積される傾向がある。赤血球が活性であるのは約２～３ヶ月であり、そのためＨｂＡ１ｃテストを年４回行う。ＨｂＡ１ｃが高いことは、患者の血液中の糖が多すぎて、糖尿病合併症（たとえば、患者の眼及び足の問題）を発症する可能性が高いことを意味する。Ｔ２Ｄ患者では、理想的なＨｂＡ１ｃレベルは４８ｍｍｏｌ／ｍｏｌ（６．５％）以下である。図２９に、Ａｄｒｏｉｔ法を用いて推定したベータ細胞割合パーセンテージが、ドナーのＨｂＡ１Ｃレベルと有意な直線関係にあることを示す（健康及びＴ２Ｄ細胞の両方を含む）。図３０に、Ｔ２Ｄ患者の方が健康な対象の場合よりも、Ａｄｒｏｉｔ法を用いて推定したベータ細胞割合パーセンテージが有意に低いことを示す。

評価５：シミュレートした空間スポット
第５の評価に対して用いるデータによって、ＡｄＲｏｉｔ法を立体鏡推定と比較する。空間トランスクリプトミクス（ＳＴ）は、個々の組織切片におけるＲＮＡ－ｓｅｑデータ（それによって、すべてのｍＲＮＡ）を空間的に分析するために用いる技術である。空間的にバーコードを付けられた逆転写オリゴ（ｄＴ）プライマーを、スポットのアレイ内の顕微鏡用スライドの表面に順序付けて取り付けることによって、ｍＲＮＡサンプル処理及びその後の配列決定の全体を通して位置情報のエンコーディング及び維持が可能になる。これは、単一細胞のＲＮＡ配列決定または組織ボリュームから抽出したバルクＲＮＡの配列決定（正確な空間情報が失われる）とは対照的である。空間トランスクリプトミクス用スライドに組織凍結切片が取り付けられると、バーコードを付けられたプライマーは、隣接するｍＲＮＡと結合して組織から捕捉する。スライドに組織切片が取り付けられる間に、捕捉したｍＲＮＡの逆転写が開始され、結果として得られるｃＤＮＡがプライマーの空間バーコードを取り入れる。ｍＲＮＡ捕捉及び逆転写に続いて、配列決定ライブラリを用意して、イルミナ色素配列決定によって解析する。生成された各配列内に存在する空間バーコードによって、それぞれの個々のｍＲＮＡ転写物のデータを組織切片内のその起点にマッピングして戻すことができる。

立体映像（立体視またはステレオイメージングとも言われる）は、両眼視に対する立体視によって画像内に深度の錯覚を形成するかまたは高めるための技術である。立体鏡は、ミラーまたはレンズを用いることを通して２つの類似した２次元画像から３次元画像の錯覚を形成するイメージビューアーの１種である。複雑な細胞構造は、立体写真においてレンダリングされることが多い。

図３１において、５つの異なるＰＥＰ細胞亜型を含むシミュレートされた空間スポット上で立体映像及びＡｄＲｏｉｔ法によって実現された推定値を比較する。真の混合割合を垂直の赤い破線によって示す。３つの方式をシミュレートした。（１）方式１、図３１の左側、５つのＰＥＰ細胞型の割合は同じで０．２に等しかった。（２）方式２、図３１の中央、１つのＰＥＰ細胞型は０．１で、他の４つは０．２２５だった。（３）方式３、図３１の右側、２つのＰＥＰ細胞型は０．１、２つは０．２、１つは０．４だった。すべてのシミュレーション方式において、ＡｄＲｏｉｔ推定値は立体鏡推定値の場合よりも、一貫して、真のシミュレートした割合に集まっていた。

図３２に、非常に低いパーセントの単一種類のＰＥＰ細胞のシミュレーションを例示する。パーセンテージは０．０２、０．０４、０．０６、０．０８、及び０．１であった。真の混合割合を水平の赤い破線によって示す。ＡｄＲｏｉｔ法を用いて実現した推定値の中央値は真の割合に近く、立体映像を用いて実現した推定値の場合よりも近かった。図３３において、立体映像及びＡｄＲｏｉｔ法を用いた推定値を、非常に低い量の６つの異なる細胞型に対する検出率対シミュレートした割合のグラフを介して比較する。ＡｄＲｏｉｔ法の方が、低パーセント細胞の検出において感度が高く、また細胞型の異なる混合物の間で一貫していた。

評価６：マウス脳空間トランスクリプトーム応用例
第６の評価に対して用いるデータをマウス脳細胞型から取得した。アレンマウス脳地図は、成体マウス脳の全体に渡る遺伝子発現のゲノムワイドな高解像度地図である。地図によって、成体マウスにおける約２０，０００遺伝子に対するゲノムワイドなインサイチュハイブリダイゼーション（ＩＳＨ）画像データが得られる。各データセットをインフォマティクス解析パイプラインを通して処理して、空間的にマッピングされた定量化された発現情報を取得する。Ｌｅｉｎ，Ｅ．ら、「Ｇｅｎｏｍｅ－ｗｉｄｅａｔｌａｓｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｉｎｔｈｅａｄｕｌｔｍｏｕｓｅｂｒａｉｎ」、Ｎａｔｕｒｅ４４５、１６８－１７６（２００７）を参照。

図３４に、ＡｄＲｏｉｔ法を用いた３つの細胞型の空間マッピングが各スポットにおける内容をどのように定量的に示すかを例示する。図３５に、アレンマウス脳地図からのＷｆｓ１、Ｐｒｏｘ２、及びＲａｒｒｅｓ２細胞型のＩＳＨ画像を示す。図３４と図３５とを比較すると、図３５のＩＳＨ画像が図３４における対応する細胞位置と一致することが示される。

上記に特定の具体的な実施形態及び例を参照して例示及び記述したが、それにもかかわらず、本開示が、示した詳細に限定されることは意図していない。むしろ、種々の変更を、特許請求の範囲の均等物の範囲及び領域内の詳細において、本開示の趣旨から逸脱することなく行ってもよい。

本明細書で説明したものに加えて、説明した主題の種々の変更が、前述の説明から当業者には明らかである。このような変更も添付の特許請求の範囲に入ることが意図されている。本出願で引用した各参考文献（たとえば、限定することなく、原著論文、米国及び非米国特許、特許出願公開、国際特許出願公開、遺伝バンク受託番号など）は、その全体が参照により本明細書に組み込まれている。

Claims

バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行うための方法であって、前記方法は、
ａ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップと、
ｂ）細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、
ｃ）各遺伝子のクロス細胞型特異度を計算するステップと、
ｄ）複数サンプルの利用可能性に応じて前記バルクまたは空間ＲＮＡ－ｓｅｑデータまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、
ｅ）前記バルクまたは空間ＲＮＡ－ｓｅｑデータ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、
ｆ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、
その結果、前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する、前記方法。
カウントベースの配列決定データの前記行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、請求項１に記載の方法。
前記入力は、各細胞に対応付けられる細胞型アノテーションを伴う単一細胞ＵＭＩカウント行列である、請求項１または請求項２に記載の方法。
逆畳み込みを行うべき前記バルクデータは、キロベースミリオンあたりの転写物（ＴＰＭ）または読み出しカウントである、請求項１または請求項２に記載の方法。
逆畳み込みを行うべき前記空間データはＵＭＩカウント行列である、請求項１または請求項２に記載の方法。
ノイズを導入する可能性がある情報価値のない遺伝子を除外し、細胞型を区別するために重要な情報を含む遺伝子を、カウントベースの配列決定データの正規化行列からの前記最も変動的に発現する遺伝子の前記下位集合として選択する、請求項１～５のいずれか１項に記載の方法。
遺伝子の前記下位集合を、前記単一細胞ＵＭＩカウント行列内の各細胞型において発現が富化されるマーカー遺伝子の集団から選択する、請求項６に記載の方法。
組み込みツールが、入力として、前記単一細胞ＵＭＩカウント行列及び細胞型アノテーションを取る、請求項７に記載の方法。
各細胞型に対して、前記ツールは、その細胞型における平均ＵＭＩと他のすべての細胞型における平均ＵＭＩとの間の倍率変化を計算して、倍率変化の降順によって遺伝子をランク付けする、請求項８に記載の方法。
各細胞型から上位約２００個の遺伝子を選択する、請求項９に記載の方法。
５つ以下の細胞型に存在する選択したマーカー遺伝子を選択する、請求項９に記載の方法。
固定数の細胞型または細胞型の総数の一部のいずれか小さい方で存在する選択したマーカー遺伝子を選択する、請求項９に記載の方法。
合計約１，０００個の固有の遺伝子を選択する、請求項９に記載の方法。
遺伝子の前記下位集合を、前記単一細胞ＵＭＩカウント行列内のすべての前記細胞の中で最も変動する非常に変動的な遺伝子の集団から選択する、請求項６に記載の方法。
細胞数バランシング及びＶＳＴ正規化の後の各遺伝子に対する分散を計算する、請求項１４に記載の方法。
分散が最も高い遺伝子を選択する、請求項１５に記載の方法。
前記単一細胞ＵＭＩカウント行列内の前記細胞型を、すべての細胞集塊のメジアン径を見つけることによってバランシングし、各集塊からの細胞をこの径に等しくなるようにサンプリングする、請求項１４～１６のいずれか１項に記載の方法。
前記バランシングされた単一細胞ＵＭＩ行列内の前記細胞にわたる各遺伝子の前記分散を計算する、請求項１７に記載の方法。
前記正規化データに対する分散を分散安定化変換（ＶＳＴ）によって計算する、請求項１８に記載の方法。
上位２，０００個の大きな分散を伴う遺伝子を選択する、請求項１９に記載の方法。
前記ＲＮＡ－ｓｅｑデータは、前記平均値を推定する前は正規化しない、請求項１～２０のいずれか１項に記載の方法。
前記平均値を生のＵＭＩカウントを用いてモデリングする、請求項２１に記載の方法。
負の二項分布を各細胞型の単一細胞にフィットさせる、請求項２１または請求項２２に記載の方法。
各細胞型における各選択した遺伝子に対して推定を行う、請求項２３に記載の方法。
遺伝子の前記細胞型特異度を計算するために、前記遺伝子のｉ）発現が最も高いかまたはｉｉ）倍率変化が他と比較べて最も高い前記細胞型を特定し、この遺伝子の前記特異度を前記細胞型内での平均対分散比として規定する、請求項１～２４のいずれか１項に記載の方法。
前記負の二項フィッティングからの前記推定平均及び分散パラメータを用いて、選択した遺伝子の前記集合内の各遺伝子に対する前記細胞型特異度重みを計算する、請求項２５に記載の方法。
前記クロスサンプル遺伝子変動性を、サンプルにわたって計算した分散対平均比（ＶＭＲ）を用いて計算する、請求項１～２６のいずれか１項に記載の方法。
前記クロスサンプル遺伝子変動性を複合トランスクリプトームデータから計算する、請求項２７に記載の方法。
前記複合データは複数サンプルを有していないが、前記単一細胞データは複数のサンプルを有しており、複数の複合サンプルを合成して、それぞれは、前記単一細胞基準における前記サンプルの１つに属するすべての細胞の平均値である、請求項２７に記載の方法。
複合データ及び単一細胞データの両方に対して複数サンプルが利用できない場合、前記方法は、細胞の下位集合の前記発現を平均化することによって前記単一細胞データに対する複数の合成サンプルを生成することを含む、請求項２７に記載の方法。
前記遺伝子ごとのスケーリング係数を適応学習戦略を用いて推定し、各遺伝子をその対応するスケーリング係数によって再スケール変更する、請求項１～３０のいずれか１項に記載の方法。
各複合サンプルを前記回帰モデルによって独立に推定する、請求項１～３１のいずれか１項に記載の方法。
バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを行うための方法であって、前記方法は、
ａ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内での各遺伝子のクロス細胞型特異度を計算するステップと、
ｂ）複数サンプルの利用可能性に応じて前記バルクまたは空間ＲＮＡ－ｓｅｑデータまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、
ｃ）前記バルクまたは空間ＲＮＡ－ｓｅｑデータ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、
ｄ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、
その結果、前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する、前記方法。
プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、前記プロセッサ実行可能命令は、１つ以上のコンピューティング装置に、バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを、ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの前記行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、前記ステップと、ｉｉ）細胞型あたり遺伝子あたりの発現の平均及び分散パラメータを推定するステップと、ｉｉｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｖ）複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｖ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｖｉ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されている、前記コンピュータ可読媒体。
プロセッサ実行可能命令を記憶するコンピュータ可読媒体であって、
前記プロセッサ実行可能命令は、１つ以上のコンピューティング装置に、バルクまたは空間ＲＮＡ配列決定データの逆畳み込みを、ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内での遺伝子のクロス細胞型特異度を計算するステップと、ｉｉ）複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｉｉｉ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｉｖ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせるように適応されている、前記コンピュータ可読媒体。
システムであって、
１つ以上のプロセッサと、
プロセッサ実行可能命令を有するメモリであって、前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記装置にバルクまたは空間ＲＮＡ配列決定データの逆畳み込みを、ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから入力を取得して、最も変動的に発現する遺伝子の下位集合をカウントベースの配列決定データの正規化行列から選択するステップであって、カウントベースの配列決定データの前記行列は、固定数の細胞に対する複数の遺伝子内の各遺伝子に対してカウントベースの配列決定カウントを含む、前記ステップと、ｉｉ）細胞型あたり遺伝子あたりのデータの平均及び分散パラメータを推定するステップと、ｉｉｉ）遺伝子のクロス細胞型特異度を計算するステップと、ｉｖ）複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｖ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｖｉ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、のうちのいずれか１つ以上を含み、その結果、前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、前記メモリと、
を含む前記システム。
システムであって、
１つ以上のプロセッサと、
プロセッサ実行可能命令を有するメモリであって、前記プロセッサ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記装置にバルクまたは空間ＲＮＡ配列決定データの逆畳み込みを、ｉ）バルクまたは空間ＲＮＡ－ｓｅｑデータ、単一細胞ＲＮＡ－ｓｅｑデータ、及び細胞型アノテーションを含むソースから取得したカウントベースの配列決定データの正規化行列から選択した最も変動的に発現する遺伝子の下位集合内の遺伝子のクロス細胞型特異度を計算するステップと、ｉｉ）複数サンプルの利用可能性に応じて複合データまたは単一細胞サンプルからクロスサンプル遺伝子変動性を推定するステップと、ｉｉｉ）複合データ及び単一細胞データの両方を用いて遺伝子ごとのスケーリング係数を推定するステップと、ｉｖ）すべての既知の量を用いて重み付け及び正則化回帰モデルを構築し、前記モデルを用いて前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型比率を推定するステップと、を含み、その結果、前記バルクまたは空間ＲＮＡ配列決定データにおける細胞型のパーセンテージを推測する方法によって行わせる、前記メモリと、
を含む前記システム。