JP7232180B2

JP7232180B2 - 発現プロファイル分類の方法

Info

Publication number: JP7232180B2
Application number: JP2019523873A
Authority: JP
Inventors: ジュエファン; ジェシージャン; ジンフー
Original assignee: Becton Dickinson and Co
Current assignee: Becton Dickinson and Co
Priority date: 2016-11-08
Filing date: 2017-11-07
Publication date: 2023-03-02
Anticipated expiration: 2037-11-07
Also published as: EP3539035A1; SG11201903139SA; WO2018089378A1; US20180137242A1; AU2017359048B2; ES2980967T3; AU2017359048A1; CN117594126A; CN109952612B; EP3539035B1; US11164659B2; JP2023075114A; JP2020504357A; AU2022241532A1; JP7637169B2; KR20190077062A; KR102722820B1; CN109952612A

Description

関連出願
本願は、２０１６年１１月８日に出願された米国仮特許出願第６２／４１９２９１号明細書及び２０１７年１月１３日に出願された米国仮特許出願第６２／４４６２２７号明細書の優先権を主張するものである。これらの関連出願のそれぞれの内容は全体的に、参照により明示的に本明細書に援用される。

著作権及び商標の表示
本特許文献の開示の一部は、著作権保護の対象である試料を含む。著作権所有者は、特許商標庁の特許ファイル及び記録に見られるように、特許文献又は特許開示のいかなる者によるファクシミリ複製にも異を唱えないが、その他では何であれ、全著作権を留保する。

分野
本開示は、一般的には発現プロファイルを分類する分野に関し、より詳細には、細胞タイプを区別する標的を識別することに関する。

関連技術の説明
バーコーディング（例えば、確率的バーコーディング）等の方法及び技法は、細胞分析に有用である。例えば、バーコーディングを使用して、単一の細胞の遺伝子発現プロファイルを解読し、例えば、逆転写、ポリメラーゼ連鎖反応（ＰＣＲ）増幅、及び次世代シーケンシング（ＮＧＳ）を使用して状態を特定することができる。しかしながら、細胞タイプを区別するマーカーを識別し、分析される細胞のタイプを特定するためには、これらの方法及び技法によって生成される大量のデータを更に分析する必要がある。

本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、本方法は、（ａ）標的カウントデータ構造を受信することであって、標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、複数の細胞の発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、（ｂ）標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、（ｃ）系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、（１）ノードをノードの子ノードに分割することが有効であるか、それとも無効であるか（例えば、子ノード間の差が有意であるか否か）を判断することと、（２）ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、（ｄ）統合クラスタセット内の第１のノードのそれぞれについて、繰り返し、統合クラスタセット内の第１のノードと、第１のノードに最も近い統合クラスタセット内の第２のノードとの間の距離が、統合距離閾値内である場合、第１のノードを第２のノードと統合して、第１のノード及び第２のノードによって表される発現プロファイルを含む統合ノードを生成することと、（ｅ）統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。

幾つかの実施形態では、標的カウントデータ構造は、標的カウントマトリックスを含む。標的カウントマトリックスの各行又は各列は、複数の細胞の異なる個々の細胞の複数の標的の各標的を幾つか含むことができる。

幾つかの実施形態では、複数のリーフノード及び複数の非ルート非リーフノードのそれぞれには、親ノードを関連付けることができ、ルートノード及び複数の非ルート非リーフノードのそれぞれには、左子ノード及び右子ノードを関連付けることができ、ルートノード及び複数の非ルート非リーフノードのそれぞれは、ノードの左子ノード及び右子ノードによって表される発現プロファイルを表す。

幾つかの実施形態では、本方法は、（ａ）において、標的カウントデータ構造を受信する前、（ｆ）複数のバーコードを使用して複数の細胞内の複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、複数の細胞の１つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、（ｇ）複数のバーコード付き標的の配列データを取得することと、（ｈ）複数の細胞のそれぞれについて、（１）細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、（２）（ｈ）（１）においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを含む。例えば、本方法は、（ａ）において標的カウントデータ構造を受信する前、ステップ（ｆ）複数の確率的バーコードを使用して複数の細胞内の複数の標的を確率的にバーコーディングして、複数の確率的バーコード付き標的を作成するステップであって、複数の確率的バーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成される確率的バーコード付き標的は、異なる細胞標識を有し、複数の細胞の１つの細胞の標的から作成される確率的バーコード付き標的は、異なる分子標識を有する、ステップ（ｆ）及び／又はステップ（ｇ）複数の確率的バーコード付き標的の配列データを取得するステップを含むことができる。標的カウントデータ構造を受信することは、（ｈ）（２）において推定された細胞の複数の標的の各標的の数から、標的カウントデータ構造を生成することであって、複数の細胞のうちの細胞の発現プロファイルは、（ｈ）（２）において推定された細胞の複数の標的の各標的の数を含む、生成することを含むことができる。

幾つかの実施形態では、本方法は、（ｂ）において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成する前、（ｉ）標的カウントデータ構造の要素の距離データ構造を特定することであって、距離データ構造は、複数の細胞の発現プロファイル間の距離を含む、特定することを含む。距離データ構造は距離マトリックスを含むことができる。距離マトリックスの各対角線要素は０の値を有することができる。（ｂ）において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することは、標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングすることを含むことができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離を含むことができる。

幾つかの実施形態では、（ｉ）において標的カウントデータ構造の要素の距離データ構造を特定する前、標的カウントデータ構造を対数変換して、対数変換済み標的カウントデータ構造にすること、標的カウントデータ構造の要素の距離データ構造を特定することは、対数変換済み標的カウントデータ構造の距離データ構造を特定することを含み、（ｂ）において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングすることは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて複数の細胞の発現プロファイルを階層的にクラスタリングして、系統樹を生成することを含む。標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することは、標的カウントデータ構造の各要素の値を増分（１等）によって増大させることを含むことができる。

幾つかの実施形態では、（ｂ）において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングすることは、複数の細胞の各発現プロファイルを異なるリーフノードに割り当てることと、第２のノードが第１のノードへの複数のノードの最近傍ノードである場合、複数のノードの第１のノード及び第２のノードを繰り返し結合して、第１のノード及び第２のノードの親ノードを生成することとを含む。第１のノードと第２のノードとの間の距離は、第１のノードによって表される発現プロファイルを有する任意の細胞と、第２のノードによって表される発現プロファイルを有する任意の細胞との間の最大距離である。

幾つかの実施形態では、本方法は、系統樹の複数のノードをトラバースする際、各ノードにおいて、分割が有効である場合、ノードからノードの左子ノード及びノードの右子ノードに引き続きトラバースすることと、分割が無効である場合、ノードからノードの左子ノード及び右子ノードへのトラバースを停止することとを含む。第１のノードのノード内相関及び第２のノードのノード内相関の少なくとも一方は、第１のノードと第２のノードとのノード間相関よりも高い値であることができる。第１のノードのノード内相関及び第２のノードのノード内相関の尺度又は指示は、第１のノードと第２のノードとのノード間相関よりも高い値であることができる。第１のノードのノード内相関及び第２のノードのノード内相関の尺度は、第１のノード及び第２のノードのノード内最大相関、第１のノード及び第２のノードのノード内平均相関、第１のノード及び第２のノードのノード内メジアン相関、第１のノード及び第２のノードのノード内最小相関、並びにそれらの任意の組合せの少なくとも１つに基づくことができる。第１のノードのノード内相関は、第１のノードのノード内最大相関、第１のノードのノード内平均相関、第１のノードのノード内メジアン相関、第１のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第２のノードのノード内相関は、第２のノードのノード内最大相関、第２のノードのノード内平均相関、第２のノードのノード内メジアン相関、第２のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第１のノードと第２のノードとのノード間相関は、第１のノードと第２のノードとのノード間最大相関、第１のノードと第２のノードとのノード間平均相関、第１のノードと第２のノードとのノード間メジアン相関、第１のノードと第２のノードとのノード間最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。

幾つかの実施形態では、ノードの子ノードを有するノードの分割が有効であるか、それとも無効であるかを判断することは、左子ノードと右子ノードとの間の距離が分割閾値を超える場合、分割を有効と判断することと、その他の場合、無効と判断することとを含む。左子ノードと右子ノードとの間の距離は、左子ノード及び右子ノードによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定はウェルチｔ検定を含むことができる。左子ノードと右子ノードとの間の距離は、左子ノードによって表される各発現プロファイルと右子ノードによって表される各発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大ｐ値に基づいて特定することができる。

幾つかの実施形態では、ノードの子ノードを有するノードの分割が有効であるか、それとも無効であるかを判断することは、第１のノードのノード内相関及び第２のノードのノード内相関の少なくとも一方が、第１のノードと第２のノードとのノード間相関よりも高い値である場合、分割を有効と判断することと、その他の場合、無効と判断することとを含む。幾つかの実施形態では、ノードの子ノードを有するノードの分割が有効であるか、それとも無効であるかを判断することは、第１のノードのノード内相関及び第２のノードのノード内相関の尺度又は指示が、第１のノードと第２のノードとのノード間相関よりも高い値である場合、分割を有効と判断することと、その他の場合、無効と判断することとを含む。第１のノードのノード内相関及び第２のノードのノード内相関の尺度は、第１のノード及び第２のノードのノード内最大相関、第１のノード及び第２のノードのノード内平均相関、第１のノード及び第２のノードのノード内メジアン相関、第１のノード及び第２のノードのノード内最小相関、並びにそれらの任意の組合せの少なくとも１つに基づくことができる。第１のノードのノード内相関は、第１のノードのノード内最大相関、第１のノードのノード内平均相関、第１のノードのノード内メジアン相関、第１のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第２のノードのノード内相関は、第２のノードのノード内最大相関、第２のノードのノード内平均相関、第２のノードのノード内メジアン相関、第２のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第１のノードと第２のノードとのノード間相関は、第１のノードと第２のノードとのノード間最大相関、第１のノードと第２のノードとのノード間平均相関、第１のノードと第２のノードとのノード間メジアン相関、第１のノードと第２のノードとのノード間最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。

幾つかの実施形態では、本方法は、系統樹の複数のノードをトラバースする際、各ノードにおいて、（３）ノードが１つの細胞の発現プロファイルを表す場合、ノードを統合クラスタセットに追加することを含む。幾つかの実施形態では、本方法は、系統樹の複数のノードをトラバースする際、各ノードにおいて、ノード標識をノードに割り当てることを含むことができる。ノードが１つの細胞の発現プロファイルを表す場合、ノードのノード標識は、１つの細胞名称を含み、その他の場合、ノードが親ノードの左子ノードであるとき、ノードのノード標識は、親ノードのノード標識及び左名称を含み、その他のとき、ノードのノード標識は、親ノードのノード標識及び右名称を含む。

幾つかの実施形態では、統合クラスタセット内の各ノードについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、ノードによって表される発現プロファイルと、統合クラスタセット内の別のノードによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断することを含む。

幾つかの実施形態では、本方法は、（ｄ）において第１のノードを第２のノードと統合して、統合ノードを生成する前、第３のノードと第４のノードとの間の距離がノード距離閾値内にある場合、１つの細胞の発現プロファイルを表す統合クラスタセット内の第３のノードのそれぞれを統合クラスタセット内の第４のノードと統合することを含む。幾つかの実施形態では、本方法は、細胞の発現プロファイルを表す統合クラスタセット内のノードに基づいて複数の細胞を分類することを含む。本方法は、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定することを含むことができる。幾つかの実施形態では、本方法は、識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含むことができる。

本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、本方法は、（ａ）複数の細胞の発現プロファイルを受信することであって、発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、（ｂ）標的カウントマトリックス及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、（ｃ）系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、（１）ノードの２つの下位分岐（例えば、ノードの子ノードによって表される）が有意に異なるか否かを判断することと、（２）ノードの２つの下位分岐が有意に異なる場合、ノードを２つのクラスタセットに分割する（例えば、ノードの２つの下位分岐にトラバースすることにより）こととを含む。幾つかの実施形態では、本方法は、（３）ノードの子ノードへのノードの分割が無効である場合、ノードを統合クラスタセットに追加することを含む。幾つかの実施形態では、本方法は、（ｄ）統合クラスタセット内の第１のノードのそれぞれについて、繰り返し、統合クラスタセット内の第１のノードと、第１のノードに最も近い統合クラスタセット内の第２のノードとの間の距離が、統合距離閾値内である場合、第１のノードを第２のノードと統合して、統合クラスタセット内に統合ノードを生成することと、（ｅ）統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。

本明細書に記載されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、本方法は、（ａ）複数の細胞の発現プロファイルを受信することであって、発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、（ｂ）複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することであって、各クラスタは、（１）親クラスタ及び（２）２つ以上の子クラスタのうちの一方又は両方との１つ又は複数の関連性を有し、親クラスタは、クラスタによって表される複数の細胞の１つ又は複数の細胞の発現プロファイルを表し、クラスタは、２つ以上の子クラスタによって表される発現プロファイルを表す、クラスタリングして生成することと、（ｃ）２つ以上の子クラスタを有する各クラスタについて、クラスタと２つ以上の子クラスタとの関連性が無効である（２つ以上の子クラスタ間の差が有意ではない）場合、クラスタを統合クラスタセットに追加することと、（ｄ）統合クラスタセット内の第１のクラスタのそれぞれについて、統合クラスタセット内の第１のクラスタと、第１のクラスタに最も近い統合クラスタセット内の第２のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、第１のクラスタ及び第２のクラスタを統合して、統合クラスタを生成することであって、統合クラスタは、第１のクラスタ及び第２のクラスタの発現プロファイルを含む、繰り返し統合することと、（ｅ）統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することとを含む。

幾つかの実施形態では、複数の細胞の発現プロファイルを受信することは、標的カウントデータ構造を受信することを含む。標的カウントデータ構造は、標的カウントマトリックスを含むことができる。標的カウントマトリックスの各行又は各列は、複数の細胞の異なる個々の細胞の発現プロファイルを含むことができる。複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを発現プロファイルの複数のクラスタにクラスタリングすることは、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することを含むことができる。系統樹は複数のクラスタを含むことができる。複数のクラスタはルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含むことができる。リーフクラスタは、細胞の発現プロファイルを表すことができる。非ルート非リーフクラスタは、非ルート非リーフクラスタの子クラスタによって表される細胞の発現プロファイルを表すことができる。ルートクラスタは、子クラスタの発現プロファイルを表すことができる。複数のリーフクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有することができる。ルートクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有することができ、クラスタの左子クラスタ及び右子クラスタによって表される発現プロファイルを表す。ルートクラスタは、複数の細胞の発現プロファイルを表すことができる。

幾つかの実施形態では、２つ以上の子クラスタを有する各クラスタについて、２つ以上の子クラスタとのクラスタ間の関連性が無効である場合、クラスタを統合クラスタセットに追加することは、系統樹のルートクラスタから系統樹の各クラスタを通して系統樹の複数のリーフクラスタにトラバースする間、（１）クラスタとクラスタの子クラスタとの関連性が有効であるか、それとも無効であるかを判断することと、（２）関連性が無効である場合、クラスタを統合クラスタセットに追加することとを含む。

幾つかの実施形態では、本方法は、（ａ）において、複数の細胞の発現プロファイルを受信する前、（ｆ）複数のバーコードを使用して複数の細胞内の複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、複数の細胞の１つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、（ｇ）複数のバーコード付き標的の配列データを取得することと、（ｈ）複数の細胞のそれぞれについて、（１）細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、（２）（ｈ）（１）においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを含む。例えば、本方法は、（ａ）において複数の細胞の発現プロファイルを受信する前、ステップ（ｆ）複数の確率的バーコードを使用して複数の細胞内の複数の標的を確率的にバーコーディングして、複数の確率的バーコード付き標的を作成するステップであって、複数の確率的バーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成される確率的バーコード付き標的は、異なる細胞標識を有し、複数の細胞の１つの細胞の標的から作成される確率的バーコード付き標的は、異なる分子標識を有する、ステップ（ｆ）及び／又はステップ（ｇ）複数の確率的バーコード付き標的の配列データを取得するステップを含むことができる。

幾つかの実施形態では、複数の細胞のうちの細胞の発現プロファイルは、（ｈ）（２）において推定された細胞の複数の標的の各標的の数を含む。幾つかの実施形態では、本方法は、（ｂ）において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前、（ｉ）複数の細胞の発現プロファイルの距離データ構造を特定することを含む。距離データ構造は、複数の細胞の発現プロファイルの距離マトリックスを含むことができる。距離マトリックスの各対角線要素は０の値を有する。（ｂ）において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することは、距離マトリックスに基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することを含むことができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離であることができる。

幾つかの実施形態では、本方法は、（ｉ）において距離データ構造を特定する前、標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することを含み、標的カウントデータ構造の要素の距離データ構造を特定することは、対数変換済み標的カウントデータ構造の距離データ構造を特定することを含み、（ｂ）において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルをクラスタリングして、複数のクラスタを生成することを含む。標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することは、標的カウントデータ構造の各要素の値を増分によって増大させることを含むことができる。増分は１であることができる。

幾つかの実施形態では、（ｂ）において、複数の細胞の発現プロファイル間の距離に基づいて複数の細胞の発現プロファイルをクラスタリングすることは、複数の細胞の各発現プロファイルを複数のクラスタ内の異なるリーフクラスタに割り当てることと、第２のクラスタが第１のクラスタへの複数のクラスタの最近傍クラスタである場合、複数のクラスタの第１のクラスタ及び第２のクラスタを繰り返し結合して、第１のクラスタ及び第２のクラスタの親クラスタを生成することとを含む。第１のクラスタと第２のクラスタとの間の距離は、第１のクラスタによって表される任意の発現プロファイルと、第２のクラスタによって表される任意の発現プロファイルとの間の最大距離であることができる。

幾つかの実施形態では、第１のクラスタのクラスタ内相関及び第２のクラスタのクラスタ内相関は、第１のクラスタと第２のクラスタとのクラスタ間相関よりも高い。第１のクラスタのクラスタ内相関及び第２のクラスタのクラスタ内相関の尺度又は指示は、第１のクラスタと第２のクラスタとのクラスタ間相関よりも高い。第１のクラスタのクラスタ内相関及び第２のクラスタのクラスタ内相関の尺度は、第１のクラスタ及び第２のクラスタのクラスタ内最大相関、第１のクラスタ及び第２のクラスタのクラスタ内平均相関、第１のクラスタ及び第２のクラスタのクラスタ内メジアン相関、第１のクラスタ及び第２のクラスタのクラスタ内最小相関、並びにそれらの任意の組合せの少なくとも１つに基づくことができる。第１のクラスタのクラスタ内相関は、第１のクラスタのクラスタ内最大相関、第１のクラスタのクラスタ内平均相関、第１のクラスタのクラスタ内メジアン相関、第１のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第２のクラスタのクラスタ内相関は、第２のクラスタのクラスタ内最大相関、第２のクラスタのクラスタ内平均相関、第２のクラスタのクラスタ内メジアン相関、第２のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第１のクラスタと第２のクラスタとのクラスタ間相関は、第１のクラスタと第２のクラスタとのクラスタ間最大相関、第１のクラスタと第２のクラスタとのクラスタ間平均相関、第１のクラスタと第２のクラスタとのクラスタ間メジアン相関、第１のクラスタと第２のクラスタとのクラスタ間最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。

幾つかの実施形態では、本方法は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、関連性が有効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタに引き続きトラバースすることと、関連性が無効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタへのトラバースを停止することとを含む。クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断することは、左子クラスタと右子クラスタとの間の距離が関連性閾値を超える場合、関連性を有効と判断することと、その他の場合、無効と判断することとを含むことができる。

幾つかの実施形態では、左子クラスタと右子クラスタとの間の距離は、左子クラスタ及び右子クラスタによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定はウェルチｔ検定を含むことができる。左子クラスタと右子クラスタとの間の距離は、左子クラスタによって表される発現プロファイルと右子クラスタによって表される発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大ｐ値に基づいて特定することができる。

幾つかの実施形態では、クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断することは、第１のクラスタのクラスタ内相関及び第２のクラスタのクラスタ内相関の少なくとも一方が、第１のクラスタと第２のクラスタとのクラスタ間相関よりも高い場合、有効であると判断し、その他の場合、無効であると判断することを含むことができる。幾つかの実施形態では、クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断することは、第１のクラスタのクラスタ内相関及び第２のクラスタのクラスタ内相関の尺度又は指示が、第１のクラスタと第２のクラスタとのクラスタ間相関よりも高い場合、有効であると判断することを含むことができる。第１のクラスタのクラスタ内相関及び第２のクラスタのクラスタ内相関の尺度は、第１のクラスタ及び第２のクラスタのクラスタ内最大相関、第１のクラスタ及び第２のクラスタのクラスタ内平均相関、第１のクラスタ及び第２のクラスタのクラスタ内メジアン相関、第１のクラスタ及び第２のクラスタのクラスタ内最小相関、並びにそれらの任意の組合せの少なくとも１つに基づくことができる。第１のクラスタのクラスタ内相関は、第１のクラスタのクラスタ内最大相関、第１のクラスタのクラスタ内平均相関、第１のクラスタのクラスタ内メジアン相関、第１のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第２のクラスタのクラスタ内相関は、第２のクラスタのクラスタ内最大相関、第２のクラスタのクラスタ内平均相関、第２のクラスタのクラスタ内メジアン相関、第２のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第１のクラスタと第２のクラスタとのクラスタ間相関は、第１のクラスタと第２のクラスタとのクラスタ間最大相関、第１のクラスタと第２のクラスタとのクラスタ間平均相関、第１のクラスタと第２のクラスタとのクラスタ間メジアン相関、第１のクラスタと第２のクラスタとのクラスタ間最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。

幾つかの実施形態では、本方法は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、（３）クラスタが１つの細胞の発現プロファイルを表す場合、クラスタを統合クラスタセットに追加することを含む。方法は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、クラスタ標識をクラスタに割り当てることを含むことができる。幾つかの実施形態では、クラスタが１つの細胞の発現プロファイルを表す場合、クラスタのクラスタ標識は、１つの細胞名称を含み、その他の場合、クラスタが親クラスタの左子クラスタであるとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び左名称を含み、その他のとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び右名称を含む。

幾つかの実施形態では、統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、クラスタによって表される発現プロファイルと、統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断することを含む。

幾つかの実施形態では、本方法は、（ｄ）において第１のクラスタを第２のクラスタと統合して、統合クラスタを生成する前、第３のクラスタと第４のクラスタとの間の距離がクラスタ距離閾値内にある場合、１つの細胞の発現プロファイルを表す統合クラスタセット内の第３のクラスタのそれぞれを統合クラスタセット内の第４のクラスタと統合することを含む。本方法は、細胞の発現プロファイルを表す統合クラスタセット内のクラスタに基づいて複数の細胞を分類することを含むことができる。本方法は、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定すること又は識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含むことができる。

本明細書に開示されるのは、細胞タイプを区別する標的を識別するシステムである。幾つかの実施形態では、本システムは、ハードウェアプロセッサと、命令が記憶された非一時的メモリとを備え、命令は、ハードウェアプロセッサによって実行されると、プロセッサに、本明細書に開示される任意の方法を実行させる。本明細書に開示されるのは、細胞タイプを区別する標的を識別するコンピュータ可読媒体である。幾つかの実施形態では、本コンピュータ可読媒体は、本明細書に開示される任意の方法を実行するコードを含む。

本明細書に開示されるのは、細胞タイプを区別する標的を識別するシステムの実施形態である。幾つかの実施形態では、本システムは、実行可能命令を記憶するように構成される非一時的メモリと、非一時的メモリと通信するハードウェアプロセッサとを備え、ハードウェアプロセッサは、実行可能命令により、（ａ）標的カウントデータ構造を受信することであって、標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、複数の細胞の発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、（ｂ）標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、（ｃ）系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、（１）ノードをノードの子ノードに分割することが有効であるか、それとも無効であるかを判断することと、（２）ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、（ｄ）統合クラスタセット内の第１のノードのそれぞれについて、繰り返し、統合クラスタセット内の第１のノードと、第１のノードに最も近い統合クラスタセット内の第２のノードとの間の距離が、統合距離閾値内である場合、第１のノードを第２のノードと統合して、第１のノード及び第２のノードによって表される発現プロファイルを含む統合ノードを生成することと、（ｅ）統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを行うようにプログラムされる。

幾つかの実施形態では、標的カウントデータ構造は、標的カウントマトリックスを含む。標的カウントマトリックスの各行又は各列は、複数の細胞の異なる個々の細胞の複数の標的の各標的を幾つか含むことができる。複数のリーフノード及び複数の非ルート非リーフノードのそれぞれには、親ノードを関連付けることができ、ルートノード及び複数の非ルート非リーフノードのそれぞれには、左子ノード及び右子ノードを関連付けることができ、ルートノード及び複数の非ルート非リーフノードのそれぞれは、ノードの左子ノード及び右子ノードによって表される発現プロファイルを表す。

幾つかの実施形態では、ハードウェアプロセッサは、を行うようにプログラムすることができる。（ａ）において、標的カウントデータ構造を受信する前、（ｆ）複数のバーコードを使用して複数の細胞内の複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、複数の細胞の１つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、（ｇ）複数のバーコード付き標的の配列データを取得することと、（ｈ）複数の細胞のそれぞれについて、（１）細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、（２）（ｈ）（１）においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを含む。標的カウントデータ構造を受信するために、ハードウェアプロセッサは、（ｈ）（２）において推定された細胞の複数の標的の各標的の数から、標的カウントデータ構造を生成するようにプログラムすることができ、複数の細胞のうちの細胞の発現プロファイルは、（ｈ）（２）において推定された細胞の複数の標的の各標的の数を含む。

幾つかの実施形態では、ハードウェアプロセッサは、（ｂ）において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成する前、（ｉ）標的カウントデータ構造の要素の距離データ構造を特定するようにプログラムすることができ、距離データ構造は、複数の細胞の発現プロファイル間の距離を含む。距離データ構造は距離マトリックスを含む。距離マトリックスの各対角線要素は０の値を有する。

幾つかの実施形態では、（ｂ）において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成するために、ハードウェアプロセッサは、標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングするようにプログラムすることができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離を含むことができる。

幾つかの実施形態では、ハードウェアプロセッサは、（ｉ）において標的カウントデータ構造の要素の距離データ構造を特定する前、標的カウントデータ構造を対数変換して、対数変換済み標的カウントデータ構造にするようにプログラムすることができる。標的カウントデータ構造の要素の距離データ構造を特定するために、ハードウェアプロセッサは、対数変換済み標的カウントデータ構造の距離データ構造を特定するようにプログラムすることができる。（ｂ）において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングするために、ハードウェアプロセッサは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて複数の細胞の発現プロファイルを階層的にクラスタリングして、系統樹を生成するようにプログラムすることができる。標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換するために、ハードウェアプロセッサは、標的カウントデータ構造の各要素の値を増分によって増大させるようにプログラムすることができる。増分は１であることができる。

（ｂ）において、標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングするために、ハードウェアプロセッサは、複数の細胞の各発現プロファイルを異なるリーフノードに割り当てることと、第２のノードが第１のノードへの複数のノードの最近傍ノードである場合、複数のノードの第１のノード及び第２のノードを繰り返し結合して、第１のノード及び第２のノードの親ノードを生成することとを行うようにプログラムすることができる。第１のノードと第２のノードとの間の距離は、第１のノードによって表される発現プロファイルを有する任意の細胞と、第２のノードによって表される発現プロファイルを有する任意の細胞との間の最大距離であることができる。

幾つかの実施形態では、第１のノードのノード内相関及び第２のノードのノード内相関の少なくとも一方は、第１のノードと第２のノードとのノード間相関よりも高い値であることができる。第１のノードのノード内相関及び第２のノードのノード内相関の尺度又は指示は、第１のノードと第２のノードとのノード間相関よりも高い値であることができる。第１のノードのノード内相関及び第２のノードのノード内相関の尺度は、第１のノード及び第２のノードのノード内最大相関、第１のノード及び第２のノードのノード内平均相関、第１のノード及び第２のノードのノード内メジアン相関、第１のノード及び第２のノードのノード内最小相関、並びにそれらの任意の組合せの少なくとも１つに基づくことができる。第１のノードのノード内相関は、第１のノードのノード内最大相関、第１のノードのノード内平均相関、第１のノードのノード内メジアン相関、第１のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第２のノードのノード内相関は、第２のノードのノード内最大相関、第２のノードのノード内平均相関、第２のノードのノード内メジアン相関、第２のノードのノード内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第１のノードと第２のノードとのノード間相関は、第１のノードと第２のノードとのノード間最大相関、第１のノードと第２のノードとのノード間平均相関、第１のノードと第２のノードとのノード間メジアン相関、第１のノードと第２のノードとのノード間最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。

幾つかの実施形態では、ハードウェアプロセッサは、系統樹の複数のノードをトラバースする際、各ノードにおいて、分割が有効である場合、ノードからノードの左子ノード及びノードの右子ノードに引き続きトラバースすることと、分割が無効である場合、ノードからノードの左子ノード及び右子ノードへのトラバースを停止することとを行うようにプログラムすることができる。ノードの子ノードを有するノードの分割が有効であるか、それとも無効であるかを判断するために、ハードウェアプロセッサは、左子ノードと右子ノードとの間の距離が分割閾値を超える場合、分割を有効と判断することと、その他の場合、無効と判断することとを行うようにプログラムすることができる。左子ノードと右子ノードとの間の距離は、左子ノード及び右子ノードによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定はウェルチｔ検定を含むことができる。左子ノードと右子ノードとの間の距離は、左子ノードによって表される各発現プロファイルと右子ノードによって表される各発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大ｐ値に基づいて特定することができる。

幾つかの実施形態では、ハードウェアプロセッサは、系統樹の複数のノードをトラバースする際、各ノードにおいて、（３）ノードが１つの細胞の発現プロファイルを表す場合、ノードを統合クラスタセットに追加するようにプログラムすることができる。幾つかの実施形態では、系統樹の複数のノードをトラバースする際、各ノードにおいて、ハードウェアプロセッサは、ノード標識をノードに割り当てるようにプログラムすることができる。ノードが１つの細胞の発現プロファイルを表す場合、ノードのノード標識は、１つの細胞名称を含み、その他の場合、ノードが親ノードの左子ノードであるとき、ノードのノード標識は、親ノードのノード標識及び左名称を含み、その他のとき、ノードのノード標識は、親ノードのノード標識及び右名称を含む。

幾つかの実施形態では、統合クラスタセット内の各ノードについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別すること、ハードウェアプロセッサは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、ノードによって表される発現プロファイルと、統合クラスタセット内の別のノードによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断するようにプログラムすることができる。

幾つかの実施形態では、ハードウェアプロセッサは、（ｄ）において第１のノードを第２のノードと統合して、統合ノードを生成する前、第３のノードと第４のノードとの間の距離がノード距離閾値内にある場合、１つの細胞の発現プロファイルを表す統合クラスタセット内の第３のノードのそれぞれを統合クラスタセット内の第４のノードと統合するようにプログラムすることができる。ハードウェアプロセッサは、細胞の発現プロファイルを表す統合クラスタセット内のノードに基づいて複数の細胞を分類するようにプログラムすることができる。ハードウェアプロセッサは、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定するようにプログラムすることができる。ハードウェアプロセッサは、識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定するようにプログラムすることができる。

本明細書に開示されるのは、細胞タイプを区別する標的を識別するシステムの実施形態である。幾つかの実施形態では、本システムは、実行可能命令を記憶するように構成される非一時的メモリと、非一時的メモリと通信するハードウェアプロセッサとを備え、ハードウェアプロセッサは、実行可能命令により、（ａ）複数の細胞の発現プロファイルを受信することであって、発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、（ｂ）複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することであって、各クラスタは、（１）親クラスタ及び（２）２つ以上の子クラスタのうちの一方又は両方との１つ又は複数の関連性を有し、親クラスタは、クラスタによって表される複数の細胞の１つ又は複数の細胞の発現プロファイルを表し、クラスタは、２つ以上の子クラスタによって表される発現プロファイルを表す、クラスタリングして生成することと、（ｃ）２つ以上の子クラスタを有する各クラスタについて、クラスタと２つ以上の子クラスタとの関連性が無効である場合、クラスタを統合クラスタセットに追加することと、（ｄ）統合クラスタセット内の第１のクラスタのそれぞれについて、統合クラスタセット内の第１のクラスタと、第１のクラスタに最も近い統合クラスタセット内の第２のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、第１のクラスタ及び第２のクラスタを統合して、統合クラスタを生成することであって、統合クラスタは、第１のクラスタ及び第２のクラスタの発現プロファイルを含む、繰り返し統合することと、（ｅ）統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することとを行うようにプログラムされる。

幾つかの実施形態では、ハードウェアプロセッサは、複数の細胞の発現プロファイルを受信するようにプログラムすることができ、標的カウントデータ構造を受信することを含む。標的カウントデータ構造は、標的カウントマトリックスを含むことができる。標的カウントマトリックスの各行又は各列は、複数の細胞の異なる個々の細胞の発現プロファイルを含むことができる。

幾つかの実施形態では、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを発現プロファイルの複数のクラスタにクラスタリングするために、ハードウェアプロセッサは、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成するようにプログラムすることができ、系統樹は複数のクラスタを含み、複数のクラスタはルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含む。複数のリーフクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有することができる。ルートクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有することができ、クラスタの左子クラスタ及び右子クラスタによって表される発現プロファイルを表す。ルートクラスタは、複数の細胞の発現プロファイルを表すことができる。２つ以上の子クラスタを有する各クラスタについて、２つ以上の子クラスタとのクラスタ間の関連性が無効である場合、クラスタを統合クラスタセットに追加すること、ハードウェアプロセッサは、系統樹のルートクラスタから系統樹の各クラスタを通して系統樹の複数のリーフクラスタにトラバースする間、（１）クラスタとクラスタの子クラスタとの関連性が有効であるか、それとも無効であるかを判断することと、（２）関連性が無効である場合、クラスタを統合クラスタセットに追加することとを行うようにプログラムすることができる。

幾つかの実施形態では、ハードウェアプロセッサは、（ａ）において、複数の細胞の発現プロファイルを受信する前、（ｆ）複数のバーコードを使用して複数の細胞内の複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、複数の細胞の１つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、（ｇ）複数のバーコード付き標的の配列データを取得することと、（ｈ）複数の細胞のそれぞれについて、（１）細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、（２）（ｈ）（１）においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを行うようにプログラムすることができる。複数の細胞のうちの細胞の発現プロファイルは、（ｈ）（２）において推定された細胞の複数の標的の各標的の数を含むことができる。

幾つかの実施形態では、ハードウェアプロセッサは、（ｂ）において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前、（ｉ）複数の細胞の発現プロファイルの距離データ構造を特定するようにプログラムすることができる。距離データ構造は、複数の細胞の発現プロファイルの距離マトリックスを含むことができる。距離マトリックスの各対角線要素は０の値を有することができる。（ｂ）において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成するために、ハードウェアプロセッサは、距離マトリックスに基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成するようにプログラムすることができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離であることができる。

幾つかの実施形態では、ハードウェアプロセッサは、（ｉ）において距離データ構造を特定する前、標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換するようにプログラムすることができる。標的カウントデータ構造の要素の距離データ構造を特定するために、ハードウェアプロセッサは、対数変換済み標的カウントデータ構造の距離データ構造を特定するようにプログラムすることができる。（ｂ）において、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成するために、ハードウェアプロセッサは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルをクラスタリングして、複数のクラスタを生成するようにプログラムすることができる。標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換するために、ハードウェアプロセッサは、標的カウントデータ構造の各要素の値を増分によって増大させるようにプログラムすることができる。増分は１であることができる。

幾つかの実施形態では、（ｂ）において、複数の細胞の発現プロファイル間の距離に基づいて複数の細胞の発現プロファイルをクラスタリングするために、ハードウェアプロセッサは、複数の細胞の各発現プロファイルを異なるリーフクラスタに割り当てることと、第２のクラスタが第１のクラスタへの複数のクラスタの最近傍クラスタである場合、複数のクラスタの第１のクラスタ及び第２のクラスタを繰り返し結合して、第１のクラスタ及び第２のクラスタの親クラスタを生成することとを行うようにプログラムすることができる。第１のクラスタと第２のクラスタとの間の距離は、第１のクラスタによって表される任意の発現プロファイルと、第２のクラスタによって表される任意の発現プロファイルとの間の最大距離であることができる。

幾つかの実施形態では、第１のクラスタのクラスタ内相関及び第２のクラスタのクラスタ内相関は、第１のクラスタと第２のクラスタとのクラスタ間相関よりも高い。第１のクラスタのクラスタ内相関及び第２のクラスタのクラスタ内相関の尺度又は指示は、第１のクラスタと第２のクラスタとのクラスタ間相関よりも高い値であることができる。第１のクラスタのクラスタ内相関及び第２のクラスタのクラスタ内相関の尺度は、第１のクラスタ及び第２のクラスタのクラスタ内最大相関、第１のクラスタ及び第２のクラスタのクラスタ内平均相関、第１のクラスタ及び第２のクラスタのクラスタ内メジアン相関、第１のクラスタ及び第２のクラスタのクラスタ内最小相関、並びにそれらの任意の組合せの少なくとも１つに基づくことができる。第１のクラスタのクラスタ内相関は、第１のクラスタのクラスタ内最大相関、第１のクラスタのクラスタ内平均相関、第１のクラスタのクラスタ内メジアン相関、第１のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第２のクラスタのクラスタ内相関は、第２のクラスタのクラスタ内最大相関、第２のクラスタのクラスタ内平均相関、第２のクラスタのクラスタ内メジアン相関、第２のクラスタのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。第１のクラスタと第２のクラスタとのクラスタ間相関は、第１のクラスタと第２のクラスタとのクラスタ間最大相関、第１のクラスタと第２のクラスタとのクラスタ間平均相関、第１のクラスタと第２のクラスタとのクラスタ間メジアン相関、第１のクラスタと第２のクラスタとのクラスタ間最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。

幾つかの実施形態では、ハードウェアプロセッサは、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、関連性が有効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタに引き続きトラバースすることと、関連性が無効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタへのトラバースを停止することとを行うようにプログラムすることができる。クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断するために、ハードウェアプロセッサは、左子クラスタと右子クラスタとの間の距離が関連性閾値を超える場合、関連性を有効と判断することと、その他の場合、無効と判断することとを行うようにプログラムすることができる。左子クラスタと右子クラスタとの間の距離は、左子クラスタ及び右子クラスタによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定はウェルチｔ検定を含むことができる。左子クラスタと右子クラスタとの間の距離は、左子クラスタによって表される発現プロファイルと右子クラスタによって表される発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大ｐ値に基づいて特定することができる。

幾つかの実施形態では、ハードウェアプロセッサは、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、（３）クラスタが１つの細胞の発現プロファイルを表す場合、クラスタを統合クラスタセットに追加するようにプログラムすることができる。ハードウェアプロセッサは、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、クラスタ標識をクラスタに割り当てるようにプログラムすることができる。クラスタが１つの細胞の発現プロファイルを表す場合、クラスタのクラスタ標識は、１つの細胞名称を含み、その他の場合、クラスタが親クラスタの左子クラスタであるとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び左名称を含み、その他のとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び右名称を含む。

幾つかの実施形態では、統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別すること、ハードウェアプロセッサは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、クラスタによって表される発現プロファイルと、統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断するようにプログラムすることができる。ハードウェアプロセッサは、（ｄ）において第１のクラスタを第２のクラスタと統合して、統合クラスタを生成する前、第３のクラスタと第４のクラスタとの間の距離がクラスタ距離閾値内にある場合、１つの細胞の発現プロファイルを表す統合クラスタセット内の第３のクラスタのそれぞれを統合クラスタセット内の第４のクラスタと統合するようにプログラムすることができる。

幾つかの実施形態では、ハードウェアプロセッサは、細胞の発現プロファイルを表す統合クラスタセット内のクラスタに基づいて複数の細胞を分類するようにプログラムすることができる。ハードウェアプロセッサは、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定するようにプログラムすることができる。ハードウェアプロセッサは、識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定するようにプログラムすることができる。

非限定的で例示的なバーコード（例えば、確率的バーコード）を示す。バーコーディング及びデジタルカウント（例えば、確率的バーコーディング及びデジタルカウント）の非限定的で例示的な作業フローを示す。複数の標的からバーコード付き標的（例えば、確率的バーコード付き標的）の索引付きライブラリを生成する非限定的で例示的なプロセスを示す概略図である。系統樹を使用して細胞の発現プロファイルをクラスタリングすることによって細胞タイプを区別する標的を識別する非限定的で例示的な方法を示すフローチャートである。例示的な系統樹の概略図である。細胞の発現プロファイルをクラスタリングすることによって細胞タイプを区別する標的を識別する非限定的で例示的な方法を示すフローチャートである。本開示の方法を実施するように構成される例示的な計算システムのブロック図である。パネル（ａ）～（ｄ）は、単一の細胞の発現プロファイルを分割し統合した後、二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。パネル（ａ）～（ｘ）は、分割をいかに決定することができるかを示す二次元空間における発現プロファイルの非限定的で例示的なプロットである。分割の５番目のサイクル後の二次元空間での発現プロファイルの非限定的で例示的なプロットを示す。パネル（ａ）～（ｌ）は、図１０に示される分割の５番目のサイクル中、系統樹における特定の分割が何故保持されたかを示す二次元空間での発現プロファイルの非限定的で例示的なプロットである。パネル（ａ）～（ｉ）は、統合をいかに決定することができるかを示す二次元空間での発現プロファイルの非限定的で例示的なプロットである。統合の第２サイクル中の二次元空間での発現プロファイルの非限定的で例示的なプロットを示す。パネル（ａ）～（ｄ）は、図１３に示される統合の第２サイクルがいかに決定されたかを示す二次元空間での発現プロファイルの非限定的で例示的なプロットである。パネル（ａ）～（ｆ）は、１つの非限定的で例示的なタイプの差次的発現分析を示すプロットである。パネル（ａ）～（ｏ）は、別の非限定的で例示的なタイプの差次的発現分析を示すプロットである。パネル（ａ）～（ｇ）は、クラスタ間の距離を視覚化する非限定的で例示的なプロットである。パネル（ａ）～（ｅ）は、非限定的で例示的な系統樹を示す。パネル（ａ）～（ｓ）は、パラメータ掃引を示す非限定的で例示的なプロットである。パラメータ掃引をいかに使用して、閾値を識別することができるかを示す非限定的で例示的なプロットである。パネル（ａ）～（ｊ）は、第１の分割の結果を示す非限定的で例示的なプロットである。二次元空間での発現プロファイルの分割結果を示す非限定的で例示的なプロットである。パネル（ａ）～（ｄ）は、２つのクラスタに分類される発現プロファイルを示す非限定的で例示的な系統樹を示す。パラメータ掃引を示す別の非限定的で例示的なプロットである。

以下の詳細な説明では、本明細書の一部をなす添付図面を参照する。図面中、同様のシンボルは通常、状況により別段のことが示される場合を除き、同様の構成要素を識別する。詳細な説明、図面、及び特許請求の範囲に記載される説明のために実施形態は、限定を意味しない。本明細書に提示される趣旨の意図又は範囲から逸脱せずに、他の実施形態が利用可能であり、他の変更が可能である。本開示の態様が、本明細書に概説され、図に示されるように、多種多様な異なる構成で配置、置換、結合、分離、及び設計することが可能であり、これらが全て本明細書において明示的に意図され、本開示の一部をなすことが容易に理解される。

本明細書において引用される全ての特許、公開特許出願、他の公開物、及びＧｅｎＢａｎｋからの配列、並びに他のデータベースは全体的に、関連技術に関して参照により本明細書に援用される。

少数の拡散又は標的、例えば、メッセンジャーリボ核酸（ｍＲＮＡ）分子の定量化は、例えば、様々な開発段階又は様々な環境状況下で発現される遺伝子を特定するのに臨床的に重要である。しかしながら、特に分子数が非常に小さい場合、核酸分子（例えば、ｍＲＮＡ分子）の絶対数を特定するのは非常に難しい問題であり得る。試料中の分子の絶対数を特定する一方法は、デジタルポリメラーゼ連鎖反応（ＰＣＲ）である。一意の分子標識（ＭＬ、分子インデックス（ＭＩ）とも呼ばれる）を有するバーコード（例えば、確率的バーコード）を使用して、分子数をカウントすることができる。各細胞標識に一意の分子標識を有するバーコードを使用して、各細胞内の分子数をカウントすることができる。バーコーディング（例えば、確率的バーコーディング）する非限定的で例示的なアッセイには、Ｐｒｅｃｉｓｅ（商標）アッセイ（ＣｅｌｌｕｌａｒＲｅｓｅａｒｃｈ，Ｉｎｃ．（カリフォルニア州パロアルト））、Ｒｅｓｏｌｖｅ（商標）アッセイ（ＣｅｌｌｕｌａｒＲｅｓｅａｒｃｈ，Ｉｎｃ．（カリフォルニア州パロアルト））、又はＲｈａｐｓｏｄｙ（商標）アッセイ（ＣｅｌｌｕｌａｒＲｅｓｅａｒｃｈ，Ｉｎｃ．（カリフォルニア州パロアルト））がある。

Ｒｈａｐｓｏｄｙ（商標）アッセイは、ＲＴステップ中、ポリ（Ｔ）オリゴヌクレオチド上に多数の、例えば、６５６１～６５５３６個の一意の分子標識を有するバーコード（例えば、確率的バーコード）の非枯渇性プールを利用して、試料中の全てのポリ（Ａ）－ｍＲＮＡにハイブリダイズすることができる。分子標識に加えて、バーコードの細胞標識を使用して、マイクロウェルプレートの各ウェル内の１つの各細胞を同定することができる。バーコード（例えば、確率的バーコード）は、ユニバーサルＰＣＲプライミング部位を含むことができる。ＲＴ中、標的遺伝子分子はランダムにバーコードと反応する。各標的分子はバーコードにハイブリダイズすることができ、その結果、バーコード付き相補的リボヌクレオチド酸（ｃＤＮＡ）分子（例えば、確率的バーコード付きｃＤＮＡ分子）を生成する。標識後、マイクロウェルプレートのマイクロウェルからのバーコード付きｃＤＮＡ分子は、ＰＣＲ増幅及びシーケンシングに向けて１本の管にプールすることができる。生のシーケンシングデータを分析して、一意の分子標識を有するバーコード（例えば、確率的バーコード）の数を生成することができる。

本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、方法は、（ａ）標的カウントデータ構造を受信することであって、標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、複数の細胞の発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、（ｂ）標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、（ｃ）系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、（１）ノードをノードの子ノードに分割することが有効であるか、それとも無効であるか（例えば、子ノード間の差が有意であるか否か）を判断することと、（２）ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、（ｄ）統合クラスタセット内の第１のノードのそれぞれについて、繰り返し、統合クラスタセット内の第１のノードと、第１のノードに最も近い統合クラスタセット内の第２のノードとの間の距離が、統合距離閾値内である場合、第１のノードを第２のノードと統合して、第１のノード及び第２のノードによって表される発現プロファイルを含む統合ノードを生成することと、（ｅ）統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。

本明細書に開示される、細胞タイプを区別する標的を識別するシステムである。幾つかの実施形態では、システムは、ハードウェアプロセッサと、命令が記憶された非一時的メモリとを備え、命令は、ハードウェアプロセッサによって実行されると、プロセッサに、本明細書に開示される任意の方法を実行させる。本明細書に開示されるのは、細胞タイプを区別する標的を識別するコンピュータ可読媒体である。幾つかの実施形態では、本コンピュータ可読媒体は、本明細書に開示される任意の方法を実行するコードを含む。

定義
別段のことが定義される場合を除き、本明細書で使用される技術用語及び科学用語は、本開示が属する分野の当業者によって一般に理解されるものと同じ意味を有する。例えば、Ｓｉｎｇｌｅｔｏｎら著、ＤｉｃｔｉｏｎａｒｙｏｆＭｉｃｒｏｂｉｏｌｏｇｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２ｎｄｅｄ．，Ｊ．Ｗｉｌｅｙ＆Ｓｏｎｓ（ＮｅｗＹｏｒｋ，ＮＹ１９９４）；Ｓａｍｂｒｏｏｋら著、ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ，ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＣｏｌｄＳｐｒｉｎｇｓＨａｒｂｏｒＰｒｅｓｓ（ＣｏｌｄＳｐｒｉｎｇｓＨａｒｂｏｒ，ＮＹ１９８９）参照。本開示では、以下の用語は以下のように定義される。

本明細書で使用される場合、用語「アダプター」は、関連付けられた核酸の増幅又はシーケンシングを促進する配列を意味することができる。関連付けられた核酸は、標的核酸を含むことができる。関連付けられた核酸は、空間標識、標的標識、試料標識、索引付け標識、バーコード、確率的バーコード、又は分子標識の１つ又は複数を含むことができる。アダプターは線形であることができる。アダプターは、プレアデニル化アダプターであることができる。アダプターは、二本鎖又は一本鎖であることができる。１つ又は複数のアダプターは、核酸の５’又は３’末端に配置することができる。アダプターが５’又は３’末端に既知の配列を含む場合、既知の配列は同じ又は異なる配列であることができる。ポリヌクレオチドの５’又は３’末端に配置されたアダプターは、表面上で固定化された１つ又は複数のオリゴヌクレオチドにハイブリダイズすることが可能である。アダプターは、幾つかの実施形態では、ユニバーサル配列を含むことができる。ユニバーサル配列は、２つ以上の核酸分子に共通するヌクレオチド配列の領域であることができる。２つの以上の核酸分子は、異なる配列の領域を有することができる。したがって、例えば、５’アダプターは同一及び／又はユニバーサル核酸配列を含むことができ、３’アダプターは同一及び／又はユニバーサル核酸配列を含むことができる。複数の核酸分子の異なるメンバに存在し得るユニバーサル配列は、ユニバーサル配列に相補的なシングルユニバーサルプライマーを使用して複数の異なる配列の複製又は増幅を可能にすることができる。同様に、核酸分子の集まりの異なるメンバに存在し得る少なくとも１つ、２つ（例えば、ペア）、又はそれを超える数のユニバーサル配列は、ユニバーサル配列に相補的な少なくとも１つ、２つ（例えば、ペア）、又はそれを超える数のシングルユニバーサルプライマーを使用して複数の異なる配列の複製又は増幅を可能にすることができる。したがって、ユニバーサルプライマーは、そのようなユニバーサル配列にハイブリダイズすることができる配列を含む。標的核酸配列担持分子は、ユニバーサルアダプター（例えば、非標的核酸配列）を異なる標的核酸配列の一端部又は両端部に付着させるように修飾し得る。標的核酸に付着した１つ又は複数のユニバーサルプライマーは、ユニバーサルプライマーがハイブリダイズする部位を提供することができる。標的核酸に付着した１つ又は複数のユニバーサルプライマーは、互いと同じ又は異なることができる。

本明細書で使用される場合、「関連付けられた」又は「と関連付けられた」という用語は、２つ以上の種が、ある時点で同じ場所にあるものとして識別可能なことを意味することができる。関連性は、２つ以上の種が同様の容器内にある又はあったことを意味することができる。関連性はインフォマティクス関連性であることができ、その場合、例えば、２つ以上の種に関するデジタル情報が記憶され、種の１つ又は複数がある時点で同じ場所に配置されたとの判断に使用することができる。関連性は物理的な関連性であることができる。幾つかの実施形態では、２つ以上の関連付けられた種は、互いに又は共通の固体若しくは半固体表面に「テザリングされ」、「付着し」、又は「固定化され」る。関連性は、標識をビーズ等の固体又は半固体支持体に付着させる共有結合又は非共有結合手段と呼び得る。関連性は、標的と標識との間の共有結合であり得る。

本明細書で使用される場合、「相補的」という用語は、２つのヌクレオチドを精密にペアリングする能力を指すことができる。例えば、核酸の所与の位置におけるヌクレオチドが、別の核酸のヌクレオチドと水素結合可能な場合、それらの２つの核酸は、その位置において互いに相補的であると見なされる。ヌクレオチドの幾つかのみが結合する２つの単鎖核酸分子間の相補性は、「部分的」であり得、又は完全相補性が単鎖分子間に存在する場合、完全であり得る。第１のヌクレオチド配列は、第１のヌクレオチド配列が第２のヌクレオチド配列と相補的である場合、第２の配列の「相補」であると言うことができる。第１のヌクレオチド配列は、第１のヌクレオチド配列が、第２の配列の逆（すなわち、ヌクレオチドの順序が逆）である配列と相補的である場合、第２の配列の「逆相補」であると言うことができる。本明細書で使用される場合、「相補」、「相補的」、及び「逆相補」という用語は同義で使用することができる。本開示から、分子を別の分子にハイブリダイズすることができる場合、その分子は、ハイブリダイズしている分子の相補であり得ることが理解される。

本明細書で使用される場合、「デジタルカウント」という用語は、試料中の標的分子の数を推定する方法を指すことができる。デジタルカウントは、試料中の標的に関連付けられた一意の標識の数を特定するステップを含むことができる。この確率的方法論は、分子をカウントする問題を、同一分子を見つけて同定することから、１組の予め定義される標識の検出に関する一連のイエス／ノーデジタル質問に変換する。

本明細書で使用される場合、「標識」又は「複数の標識」という用語は、試料内の標的に関連付けられた核酸コードを指すことができる。標識は、例えば、核酸標識であることができる。標識は、全体的又は部分的に増幅可能な標識であることができる。標識は、全体的又は部分的にシーケンシング可能な標識であることができる。標識は、別個として識別可能なネイティブ核酸の部分であることができる。標識は既知の配列であることができる。標識は、核酸配列の接合部、例えば、ネイティブ配列と非ネイティブ配列との接合部を含むことができる。本明細書で使用される場合、「標識」という用語は、「インデックス」、「タグ」、又は「標識タグ」という用語と同義で使用することができる。標識は情報を伝達することができる。例えば、様々な実施形態では、標識を使用して、試料の識別情報、試料のソース、細胞の識別情報、及び／又は標的を特定することができる。

本明細書で使用される場合、「非枯渇性リザーバ」という用語は、多くの異なる標識で構成された確率的バーコードのプールを指すことができる。非枯渇性リザーバは、非枯渇性リザーバに標的のプールが関連付けられる場合、各標的が一意の確率的バーコードに関連付けられる可能性が高いような多数の異なる確率的バーコードを含むことができる。標識された各標的分子の一意性は、ランダム選択の統計によって決まることができ、標識の多様性と比較した、集まり中の同一標的分子のコピー数に依存する。その結果生成される、標識された標的分子の集合のサイズは、バーコーディングプロセスの確率性によって決まることができ、そして、検出された確率的バーコードの数の分析により、元の集まり又は試料中に存在する標的分子数を計算することができる。存在する標的分子の数と一意の確率的バーコードの数との比率が低い場合、標識された標的分子は高度に一意である（すなわち、２つ以上の標的分子が所与の標識で標識される確率は非常に低い）。

本明細書で使用される場合、「核酸」という用語は、ポリヌクレオチド配列又はその断片を指す。核酸はヌクレオチドを含むことができる。核酸は、細胞に対して外因性又は内因性であることができる。核酸は、無細胞環境に存在することができる。核酸は遺伝子又はその断片であることができる。核酸はＤＮＡであることができる。核酸はＲＮＡであることができる。核酸は、１つ又は複数の類似体（例えば、改変骨格、糖、又はヌクレオ塩基）を含むことができる。類似体の幾つかの非限定的な例には、５－ブロモウラシル、ペプチド核酸、ゼノ核酸、モルフォリノ、ロックド核酸、グリコール核酸、トレオース核酸、ジデオキシヌクレオチド、コルジセピン、７－デアザ－ＧＴＰ、フルオロフォア（例えば、糖にリンクされたローダミン又はフルオロセイン）、チオール含有ヌクレオチド、ビオチンリンクヌクレオチド、蛍光塩基類似体、ＣｐＧ島、メチル－７－グアノシン、メチル化ヌクレオチド、イノシン、チオウリジン、プソイドウリジン、ジヒドロウリジン、キューオシン、及びワイオシンがある。「核酸」、「ポリヌクレオチド」、「標的ポリヌクレオチド」、及び「標的核酸」は、同義で使用することができる。

核酸は、核酸に新しい又は強化された特徴（例えば、改善された安定性）を提供する１つ又は複数の修飾（例えば、塩基修飾、骨格修飾）を含むことができる。核酸は、核酸親和性タグを含むことができる。ヌクレオチドは塩基－糖の組合せであることができる。ヌクレオチドの塩基部分は、複素環塩基であることができる。そのような複素環塩基の２つの最も一般的なクラスは、プリン及びピリミジンである。ヌクレオチドは、ヌクレオチドの糖部分に共有結合したリン酸基を更に含むヌクレオチドであることができる。ペントフラノシル糖を含むヌクレオチドの場合、リン酸基は、糖の２’、３’、又は５’ヒドロキシル部分にリンクすることができる。核酸を形成するに当たり、リン酸基は隣接するヌクレオチドを互いに共有結合して、線状ポリマー化合物を形成することができる。そして、この線状ポリマー化合物の各末端を更に接合して、環形化合物を形成することができるが、線状化合物が一般に適する。加えて、線状化合物は、内部ヌクレオチド塩基相補性を有し得、したがって、完全又は部分的な２本鎖化合物を生成するように折り畳むことができる。核酸内で、リン酸基は一般に、核酸のヌクレオシド骨格を形成するものとして見なすことができる。リンク又は骨格は３’～５’ホスホジエステル結合であることができる。

核酸は、修飾骨格及び／又は修飾ヌクレオシド結合を含むことができる。修飾骨格は、リン原子を骨格内に保持するもの及び骨格にリン原子を有さないものを含むことができる。リン原子を内部に含む、適した修飾核酸骨格としては、例えば、ホスホロチオエート、キラルホスホロチオエート、ホスホロジチオエート、ホスホトリエステル、アミノアルキルホスホトリエステル、メチル及び３’－アルキレンホスホネート、５’－アルキレンホスホネート、及びキラルホスホネートを含めた他のアルキルホスホネート、ホスフィネート、３’－アミノホスホラミダイト及びアミノアルキルホスホラミダイトを含めたホスホラミダイト、チオノホスホラミダイト、チオノアルキルホスホネート、チオノアルキルホスホトリエステル、正常３’－５’結合を有するセレノホスフェート及びボラノホスフェート、２’－５’結合類似体、並びに１つ又は複数のヌクレオチド間結合が３’－３’、５’－５’又は２’－２’結合である、反転極性を有する骨格を挙げることができる。

核酸は、短鎖アルキル若しくはシクロアルキルヌクレオシド、混合型のヘテロ原子及びアルキル若しくはシクロアルキルヌクレオシド間連結、又は１つ若しくは複数の短鎖ヘテロ原子若しくは複素環ヌクレオシド間連結により形成されるポリヌクレオチド骨格を含むことができる。これらは、モルフォリノ連結部を有するもの（ヌクレオシドの糖部分から部分的には形成される）；シロキサン骨格；スルフィド、スルホキシド、及びスルホン骨格；ホルムアセチル及びチオホルムアセチル骨格；メチレンホルムアセチル及びチオホルムアセチル骨格；リボアセチル骨格；アルケン含有骨格；スルファメート骨格；メチレンイミノ及びメチレンヒドラジノ骨格；スルホネート及びスルホンアミド骨格；アミド骨格；並びに混合型のＮ、Ｏ、Ｓ及びＣＨ２成分の部分を有する他のものを含むことができる。

核酸は核酸ミメティックを含むことができる。「ミメティック」という用語は、フラノース環のみ又はフラノース環及びヌクレオチド間連結の両方が非フラノース基で置換されたポリヌクレオチドを含むものとすることができ、フラノース環のみの置換は、糖代替物（ｓｕｇａｒｓｕｒｒｏｇａｔｅ）と呼ぶことができる。複素環塩基部分又は修飾複素環塩基部分は、適切な標的核酸とのハイブリダイゼーションのために維持することができる。１つのそのような核酸はペプチド核酸（ＰＮＡ）であることができる。ＰＮＡでは、ポリヌクレオチドの糖骨格は、アミド含有骨格、特にアミノエチルグリシン骨格で置換することができる。ヌクレオチドは保持することができ、骨格のアミド部分のアザ窒素原子に直接的又は間接的に結合する。ＰＮＡ化合物中の骨格は、ＰＮＡにアミド含有骨格を与える２つ以上の連結されたアミノエチルグリシンユニットを含むことができる。複素環塩基部分は、骨格のアミド部分のアザ窒素原子に直接的又は間接的に結合することができる。

核酸はモルフォリノ骨格構造を含むことができる。例えば、核酸は、リボース環の代わりにモルフォリノ六員環を含むことができる。これらの実施形態の幾つかでは、ホスホロジアミデート又は他の非ホスホジエステルヌクレオシド連結がホスホジエステル結合を置換することができる。

核酸は、モルフォリノ環に付着した複素環塩基を有する、連結されたモルフォリノユニット（すなわち、モルフォリノ核酸）を含むことができる。連結基は、モルフォリノ核酸においてモルフォリノ単量体ユニットを連結することができる。非イオンモルフォリノベースのオリゴマー化合物は、細胞タンパク質との望ましくない相互作用がより少ないことができる。モルフォリノベースのポリヌクレオチドは、核酸の非イオン模倣体であることができる。モルフォリノクラス内の多種多様な化合物は、異なる連結基を使用して接合することができる。ポリヌクレオチドの更なるクラスは、シクロヘキセニル核酸（ＣｅＮＡ）と呼ぶことができる。核酸分子に通常存在するフラノース環は、シクロヘキセニル環で置換することができる。ＣｅＮＡＤＭＴ保護されたホスホラミダイトモノマーを準備し、ホスホラミダイト化学構造を使用するオリゴマー化合物合成に使用することができる。核酸鎖へのＣｅＮＡモノマーの組み込みは、ＤＮＡ／ＲＮＡハイブリッドの安定性を高めることができる。ＣｅＮＡ少アデニルは、ネイティブ錯体と同様の安定性を有する、核酸相補体との錯体を形成することができる。更なる修飾は、２’－ヒドロキシル基が糖環の４’炭素原子に連結し、それにより、２’－Ｃ、４’－Ｃ－オキシメチレン連結部を形成し、それにより、二環式糖部分を形成するロックド核酸（ＬＮＡ）を含むことができる。連結部は、２’酸素原子及び４’炭素原子を架橋するメチレン（－ＣＨ２－）基であることができ、ここで、ｎは１又は２である。ＬＮＡ及びＬＮＡ類似体は、相補的核酸との非常に高い二本鎖熱安定性（Ｔｍ＝＋３～＋１０°Ｃ）、３’－エキソヌクレアーゼ分解に対する安定性、及び優れた溶解特性を示すことができる。

核酸は、ヌクレオ塩基（多くの場合、単に「塩基」と呼ばれる）修飾又は置換を含むこともできる。本明細書で使用される場合、「非修飾」又は「天然」ヌクレオ塩基は、プリン塩基（例えば、アデニン（Ａ）及びグアニン（Ｇ））、並びにピリミジン塩基（例えば、チミン（Ｔ）、シトシン（Ｃ）、及びウラシル（Ｕ））を含むことができる。修飾ヌクレオ塩基は、５－メチルシトシン（５－ｍｅ－Ｃ）、５－ヒドロキシメチルシトシン、キサンチン、ヒポキサンチン、２－アミノ－アデニン、アデニン及びグアニンの６－メチル及び他のアルキル誘導体、アデニン及びグアニンの２－プロピル及び他のアルキル誘導体、２－チオウラシル、２－チオチミン及び２－チオシトシン、５－ハロウラシル及びシトシン、５－プロピニル（－Ｃ≡Ｃ－ＣＨ３）ウラシル及びシトシン並びにピリミジン塩基の他のアルキニル誘導体、６－アゾウラシル、シトシン及びチミン、５－ウラシル（プソイドウラシル）、４－チオウラシル、８－ハロ、８－アミノ、８－チオ－ル、８－チオアルキル、８－ヒドロキシル及び他の８－置換アデニン及びグアニン、５－ハロ、特に５－ブロモ、５－トリフルオロメチル及び他の５－置換ウラシル及びシトシン、７－メチルグアニン及び７－メチルアデニン、２－Ｆ－アデニン、２－アミノ－アデニン、８－アザグアニン及び８－アザアデニン、７－デアザグアニン及び７－デアザアデニン並びに３－デアザグアニン及び３－デアザアデニン等の他の合成及び天然ヌクレオ塩基を含むことができる。修飾ヌクレオ塩基は、フェノキサジンシチジン（１Ｈ－ピリミド（５，４－ｂ）（１，４）ベンゾオキサジン－２（３Ｈ）－オン）、フェノチアジンシチジン（１Ｈ－ピリミド（５，４－ｂ）（１，４）ベンゾチアジン－２（３Ｈ）－オン）等の三環式ピリミジン、置換フェノキサジンシチジン（例えば、９－（２－アミノエトキシ）－Ｈ－ピリミド（５，４－（ｂ）（１，４）ベンゾオキサジン－２（３Ｈ）－オン）、フェノチアジンシチジン（１Ｈ－ピリミド（５，４－ｂ）（１，４）ベンゾチアジン－２（３Ｈ）－オン）等のＧクランプ、置換フェノキサジンシチジン（例えば、９－（２－アミノエトキシ）－Ｈ－ピリミド５，４－（ｂ）（１，４）ベンゾオキサジン－２（３Ｈ）－オン）、カルバゾールシチジン（２Ｈ－ピリミド（４，５－ｂ）インドール－２－オン）、ピリドインドールシチジン（Ｈ－ピリド（３’，２’：４，５）ピロロ［２，３－ｄ］ピリミジン－２－オン）等のＧクランプを含むことができる。

本明細書で使用される場合、「試料」という用語は、標的を含む組成物を指すことができる。開示される方法、デバイス、及びシステムによる分析に適した試料には、細胞、組織、臓器、又は有機体がある。

本明細書で使用される場合、「サンプリングデバイス」又は「デバイス」という用語は、試料の一部を採取し得、及び／又はその一部を基板に配置し得るデバイスを指すことができる。試料デバイスは、例えば、蛍光活性化セルソーティング（ＦＡＣＳ）機、セルソーター機、生検ニードル、生検デバイス、組織切片デバイス、マイクロ流体デバイス、ブレードグリッド、及び／又はミクロトームを指すことができる。

本明細書で使用される場合、「固体支持体」という用語は、複数の確率的バーコードを付着させることができる離散した固体又は半固体表面を指すことができる。固体支持体は、任意のタイプの固体、多孔性、又は中空の球体、ボール、ベアリング、シリンダ、又は核酸を固定化（例えば、共有結合又は非共有結合で）し得る、プラスチック、セラミック、金属、若しくはポリマー材料（例えば、ヒドロゲル）で構成される他の同様の構成を包含し得る。固体支持体は、球形（例えば、小球体）を有してもよく、又は立方体、立方骨、ピラミッド形、円柱形、円錐形、楕円形、若しくは円盤形等の非球形若しくは不規則な形状を有してもよい離散粒子を含み得る。アレイにおいて離間された複数の固体支持体は、基板を含まないことがある。固体支持体は、「ビーズ」という用語と同義で使用し得る。

固体支持体は「基板」と呼ぶことができる。基板は一種の固体支持体であることができる。基板は、本開示の方法を実行し得る連続した固体又は半固体表面を指すことができる。基板は、例えば、アレイ、カートリッジ、チップ、デバイス、及びスライドを指すことができる。

本明細書で使用される場合、「空間標識」という用語は、空間における位置に関連付けることができる標識を指すことができる。

本明細書で使用される場合、「確率的バーコード」という用語は、標識を含むポリヌクレオチド配列を指すことができる。確率的バーコードは、確率的バーコーディングに使用することができるポリヌクレオチド配列であることができる。確率的バーコードは、試料内の標的を定量化するのに使用することができる。確率的バーコードは、標識が標的に関連付けられた後に生じ得るエラーの制御に使用することができる。例えば、確率的バーコードは、増幅又はシーケンシングのエラーの評価に使用することができる。標的に関連付けられた確率的バーコードは、確率的バーコード－標的又は確率的バーコード－タグ－標的と呼ぶことができる。

本明細書で使用される場合、「遺伝子固有確率的バーコード」という用語は、標識及び遺伝子固有である標的結合領域を含むポリヌクレオチド配列を指すことができる。確率的バーコードは、確率的バーコーディングに使用することができるポリヌクレオチド配列であることができる。確率的バーコードは、試料内の標的を定量化するのに使用することができる。確率的バーコードは、標識が標的に関連付けられた後に生じ得るエラーの制御に使用することができる。例えば、確率的バーコードは、増幅又はシーケンシングのエラーの評価に使用することができる。標的に関連付けられた確率的バーコードは、確率的バーコード－標的又は確率的バーコード－タグ－標的と呼ぶことができる。

本明細書で使用される場合、「確率的バーコーディング」という用語は、核酸のランダム標識（例えば、バーコーディング）を指すことができる。確率的バーコーディングは、再帰ポアソン法を利用して、標識を標的に関連付け、標的に関連付けられた標識を定量化することができる。本明細書で使用される場合、「確率的バーコーディング」は、「遺伝子固有確率バーコーディング」と同義で使用することができる。

本明細書で使用される場合、「標的」という用語は、確率的バーコードを関連付けることができる組成物を指すことができる。開示される方法、デバイス、及びシステムによる分析に適した例示的な標的には、ＤＮＡ、ＲＮＡ、ｍＲＮＡ、マイクロＲＮＡ、ｔＲＮＡ等がある。標的は一本鎖又は二本鎖であることができる。幾つかの実施形態では、標的はタンパク質であることができる。幾つかの実施形態では、標的は脂質である。

本明細書で使用される場合、「逆転写酵素」という用語は、逆転写活性を有する（すなわち、ＲＮＡ鋳型からのＤＮＡの合成を触媒する）酵素群を指すことができる。一般に、そのような酵素には、限定ではなく、レトロウィルス逆転写酵素、レトロトランスポゾン逆転写酵素、レトロプラスミド逆転写酵素、レトロン逆転写酵素、最近逆転写酵素、グループＩＩイントロン由来逆転写酵素、及びそれらの変異体、バリアント、又は誘導体がある。非レトロウィルス逆転写酵素には、非ＬＴＲレトロトランスポゾン逆転写酵素、レトロプラスミド逆転写酵素、レトロン逆転写こう素（ｒｅｖｅｒｓｅｔｒａｎｓｃｉｐｔａｓｅｓ）、及びグループＩＩイントロン逆転写酵素がある。グループＩＩイントロン逆転写酵素の例には、ＬａｃｔｏｃｏｃｃｕｓｌａｃｔｉｓＬｌ．ＬｔｒＢイントロン逆転写酵素、ＴｈｅｒｍｏｓｙｎｅｃｈｏｃｏｃｃｕｓｅｌｏｎｇａｔｕｓＴｅＩ４ｃイントロン逆転写酵素、又はＧｅｏｂａｃｉｌｌｕｓｓｔｅａｒｏｔｈｅｒｍｏｐｈｉｌｕｓＧｓＩ－ＩＩＣイントロン逆転写酵素がある。他のクラスの逆転写酵素としては、多くのクラスの非レトロウィルス逆転写酵素（すなわち、特にレトロン、グループＩＩイントロン、及び多様性を生じさせるレトロエレメント（ｄｉｖｅｒｓｉｔｙ－ｇｅｎｅｒａｔｉｎｇｒｅｔｒｏｅｌｅｍｅｎｔｓ））を挙げることができる。

本明細書に開示されるのは、細胞タイプを区別する標的を識別するシステム及び方法である。幾つかの実施形態では、方法は、（ａ）発現プロファイルを含む標的カウントデータ構造（例えば、標的カウントマトリックス）を受信することと、（ｂ）複数の細胞の発現プロファイルを階層的にクラスタリングして、発現プロファイルを表す系統樹を生成することと、（ｃ）系統樹のルートノードから系統樹の各ノードを通して系統樹のリーフノードにトラバースする間、（１）ノードをノードの子ノードに分割することが有効であるか、それとも無効であるか（例えば、子ノード間の差が有意はない）を判断することと、（２）ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、（ｄ）統合クラスタセット内の第１のノードのそれぞれについて、繰り返し、統合クラスタセット内の第１のノードと、第１のノードに最も近い統合クラスタセット内の第２のノードとの間の距離が、統合距離閾値内である場合、第１のノードを第２のノードと統合して、第１のノード及び第２のノードによって表される発現プロファイルを含む統合ノードを生成することと、（ｅ）統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。

バーコード
確率的バーコーディング等のバーコーディングは、例えば、米国特許出願第２０１５０２９９７８４号明細書、国際公開第２０１５０３１６９１号パンフレット、並びにＦｕら，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵ．Ｓ．Ａ．２０１１Ｍａｙ３１；１０８（２２）：９０２６－３１及びＦａｎら，Ｓｃｉｅｎｃｅ（２０１５）３４７（６２２２）：１２５８３６７に記載されてきており、これらの公開物の内容は全体的に、参照により本明細書に援用される。幾つかの実施形態では、本明細書に開示されるバーコードは、標的を確率的に標識する（例えば、バーコード付け、タグ付け）するのに使用し得るポリヌクレオチド配列であることができる確率的バーコードであることができる。バーコードは、確率的バーコードの異なるバーコード配列の数と標識すべき標的のいずれかの発生数との比率が、１：１、２：１、３：１、４：１、５：１、６：１、７：１、８：１、９：１、１０：１、１１：１、１２：１、１３：１、１４：１、１５：１、１６：１、１７：１、１８：１、１９：１、２０：１、３０：１、４０：１、５０：１、６０：１、７０：１、８０：１、９０：１、１００：１、若しくはこれらの値の任意の２つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる場合、確率的バーコードと呼ぶことができる。標的は、例えば、同一又は略同一の配列を有するｍＲＮＡ分子を含むｍＲＮＡ種であることができる。バーコードは、確率的バーコードの異なるバーコード配列の数と標識すべき標的のいずれかの発生数との比率が、少なくとも又は多くとも１：１、２：１、３：１、４：１、５：１、６：１、７：１、８：１、９：１、１０：１、１１：１、１２：１、１３：１、１４：１、１５：１、１６：１、１７：１、１８：１、１９：１、２０：１、３０：１、４０：１、５０：１、６０：１、７０：１、８０：１、９０：１、又は１００：１である場合、確率的バーコードと呼ぶことができる。確率的バーコードのバーコード配列は、分子標識と呼ぶことができる。

バーコード、例えば確率的バーコードは、１つ又は複数の標識を含むことができる。例示的な標識は、ユニバーサル標識、細胞標識、バーコード配列（例えば、分子標識）、試料標識、プレート標識、空間標識、及び／又はプレ空間（ｐｒｅ－ｓｐａｔｉａｌ）標識を含むことができる。図１は、空間標識を有する例示的なバーコード１０４を示す。バーコード１０４は、バーコードを固体支持体１０５に連結し得る５’アミンを含むことができる。バーコードは、ユニバーサル標識、次元標識、空間標識、細胞標識、及び／又は分子標識を含むことができる。バーコードにおける異なる標識（限定ではなく、ユニバーサル標識、次元標識、空間標識、細胞標識、及び分子標識を含む）の順序は様々であることができる。例えば、図１に示されるように、ユニバーサル標識は、５’－モスト（ｍｏｓｔ）標識であり得、分子標識は３’－モスト標識であり得る。空間標識、次元標識、及び細胞標識は任意の順序であり得る。幾つかの実施形態では、ユニバーサル標識、空間標識、次元標識、細胞標識、及び分子標識は、任意の順序である。バーコードは、標的結合領域を含むことができる。標的結合領域は、試料中の標的（例えば、標的核酸、ＲＮＡ、ｍＲＮＡ、ＤＮＡ）と相互作用することができる。例えば、標的結合領域は、ｍＲＮＡのポリ（Ａ）テールと相互作用することができるオリゴ（ｄＴ）配列を含むことができる。幾つかの場合、バーコードの標識（例えば、ユニバーサル標識、次元標識、空間標識、細胞標識、及びバーコード配列）は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、又は２０個、又はそれよりも多いヌクレオチドで離間し得る。

標識、例えば細胞標識は、誤り修正機能を提供するように設計することができる、定義された長さ、例えば、それぞれ７ヌクレオチド（幾つかのハミング誤り修正コードに使用されるビット数と同等）の一意の組の核酸サブ配列を含むことができる。１組の誤り修正サブ配列は、７つのヌクレオチド配列を含み、１組中の配列の任意のペア毎の組合せが、定義された「遺伝距離」（又はミスマッチ塩基の数）を示すように設計することができ、例えば、１組の誤り修正サブ配列は、３つのヌクレオチドの遺伝距離を示すように設計することができる。この場合、標識された標的核酸分子の１組の配列データでの誤り修正配列のレビュー（より十分に後述）により、増幅エラー又はシーケンシングエラーを検出又は修正することができる。幾つかの実施形態では、誤り修正コードの作成に使用される核酸サブ配列の長さは様々であることができ、例えば、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１５個、２０個、３０個、３１個、４０個、５０個、又はこれらの値の任意の２つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、他の長さの核酸サブ配列を誤り修正コードの作成に使用することができる。

バーコードは、標的結合領域を含むことができる。標的結合領域は、試料中の標的と相互作用することができる。標的は、リボ核酸（ＲＮＡ）、メッセンジャーＲＮＡ（ｍＲＮＡ）、マイクロＲＮＡ、低分子干渉ＲＮＡ（ｓｉＲＮＡ）、ＲＮＡ分解産物、ポリ（Ａ）テールをそれぞれ含むＲＮＡ、又はそれらの任意の組合せであることができ、又はこれ（ら）を含むことができる。幾つかの実施形態では、複数の標的は、デオキシリボ核酸（ＤＮＡ）を含むことができる。

幾つかの実施形態では、標的結合領域は、ｍＲＮＡのポリ（Ａ）テールと相互作用することができるオリゴ（ｄＴ）配列を含むことができる。バーコードの標識（例えば、ユニバーサル標識、次元標識、空間標識、細胞標識、及びバーコード配列（例えば、分子標識））の１つ又は複数は、バーコードの別の残りの標識の１つ又は２つからスペーサによって分離することができる。スペーサは、例えば、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、又はそれを超える数のヌクレオチドであることができる。幾つかの実施形態では、バーコードの標識はいずれも、スペーサによって分離されない。

ユニバーサル標識
バーコードは、１つ又は複数のユニバーサル標識を含むことができる。幾つかの実施形態では、１つ又は複数のユニバーサル標識は、所与の固体支持体に付着する１組のバーコード内の全てのバーコードで同じであることができる。幾つかの実施形態では、１つ又は複数のユニバーサル標識は、複数のビーズに付着した全てのバーコードで同じであることができる。幾つかの実施形態では、ユニバーサル標識は、シーケンシングプライマーにハイブリダイズ可能な核酸配列を含むことができる。シーケンシングプライマーは、ユニバーサル標識を含むバーコードのシーケンシングに使用することができる。シーケンシングプライマー（例えば、ユニバーサルシーケンシングプライマー）は、高スループットシーケンシングプラットフォームに関連付けられたシーケンシングプライマーを含むことができる。幾つかの実施形態では、ユニバーサル標識は、ＰＣＲプライマーにハイブリダイズ可能な核酸配列を含むことができる。幾つかの実施形態では、ユニバーサル標識は、シーケンシングプライマー及びＰＣＲプライマーにハイブリダイズ可能な核酸配列を含むことができる。シーケンシングプライマー又はＰＣＲプライマーにハイブリダイズ可能なユニバーサル標識の核酸配列は、プライマー結合部位と呼ぶことができる。ユニバーサル標識は、バーコードの転写の開始に使用することができる配列を含むことができる。ユニバーサル標識は、バーコード又はバーコード内の領域の拡張に使用することができる配列を含むことができる。ユニバーサル標識は、１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、若しくはこれらの値の任意の２つの間の数若しくは範囲のヌクレオチドの長さ又は約これ（ら）の長さであることができる。例えば、ユニバーサル標識は、少なくとも約１０個のヌクレオチドを含むことができる。ユニバーサル標識は、少なくとも又は多くとも１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、１００個、２００個、又は３００個のヌクレオチドの長さを含むことができる。幾つかの実施形態では、開裂可能リンカー又は修飾されたヌクレオチドは、バーコードが支持体から開裂できるようにするために、ユニバーサル標識配列の部分であることができる。

次元標識
バーコードは、１つ又は複数の次元標識を含むことができる。幾つかの実施形態では、次元標識は、標識（例えば、確率的標識）が発生した次元についての情報を提供する核酸配列を含むことができる。例えば、次元標識は、標的が確率的にバーコーディングされた時間についての情報を提供することができる。次元標識に、試料におけるバーコーディング（例えば、確率的バーコーディング）の時間を関連付けることができる。次元標識は、標識の時間に活性化することができる。異なる次元標識を異なる時間に活性化することができる。次元標識は、標的、標的群、及び／又は試料が確率的にバーコーディングされた順序についての情報を提供する。例えば、細胞の集団は、細胞サイクルのＧ０フェーズにおいて確率的にバーコーディングすることができる。細胞は、細胞サイクルのＧ１フェーズにおいて再びバーコード（例えば、確率的バーコード）でパルスすることができる。細胞は、細胞サイクルのＳフェーズで再びバーコードでパルスすることができ、以下同様である。各パルス（例えば、細胞サイクルの各フェーズ）におけるバーコードは、異なる次元標識を含むことができる。このようにして、次元標識は、どの標的が細胞サイクルのどのフェーズで標識されたかについての情報を提供する。次元標識は、多くの異なる生物時間を照合することができる。例示的な生物時間には、限定ではなく、細胞サイクル、転写（例えば、転写開始）、及び転写物分解がある。別の例では、試料（例えば、細胞、細胞の集団）は、薬剤及び／又は治療を用いた処置前及び／又は後に確率的に標識することができる。別個の標的のコピー数の変化は、薬剤及び／又は治療への試料の応答を示すことができる。

次元標識は活性化可能であることができる。活性化可能な次元標識は、特定の時点で活性化することができる。活性化可能な標識は、例えば、恒常的に活性化（例えば、オフにされない）することができる。活性化可能な次元標識は、例えば、可逆的に活性化する（例えば、活性化可能な次元標識は、オンオフ切り替えすることができる）ことができる。次元標識は、例えば、少なくとも１回、２回、３回、４回、５回、６回、７回、８回、９回、１０回、又はそれを超える回数、可逆的に活性化可能であることができる。次元標識は、例えば、少なくとも１回、２回、３回、４回、５回、６回、７回、８回、９回、１０回、又はそれを超える回数、可逆的に活性化可能であることができる。幾つかの実施形態では、次元標識は、蛍光、光、化学イベント（例えば、開裂、別の分子のライゲーション、修飾の追加（例えば、ペグ化、ＳＵＭＯ化、アセチル化、メチル化、脱アセチル化、脱メチル化）、光化学イベント（例えば、フォトケージ化）、及び非天然ヌクレオチドの導入を用いて活性化することができる。

次元標識は、幾つかの実施形態では、所与の固体支持体（例えば、ビーズ）に付着した全てのバーコード（例えば、確率的バーコード）で同一であることができるが、異なる固体支持体（例えばビーズ）で異なることもできる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、又は１００％は、同じ次元標識を含むことができる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも６０％は、同じ次元標識を含むことができる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも９５％は、同じ次元標識を含むことができる。

複数の固体支持体（例えば、ビーズ）において表される１０⁶個以上の多くの一意の次元標識配列があることができる。次元標識は、１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、若しくはこれらの値の任意の２つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。次元標識は、少なくとも又は多くとも１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、１００個、２００個、又は３００個のヌクレオチドの長さであることができる。次元標識は、約５個～約２００個のヌクレオチドを含むことができる。次元標識は、約１０個～約１５０個のヌクレオチドを含むことができる。次元標識は、約２０個～約１２５個のヌクレオチドの長さを含むことができる。

空間標識
バーコードは、１つ又は複数の空間標識を含むことができる。幾つかの実施形態では、空間標識は、バーコードに関連付けられた標的分子の空間配向についての情報を提供する核酸配列を含むことができる。空間標識に、試料中の座標を関連付けることができる。座標は固定座標であることができる。例えば、座標は基板を参照して固定することができる。空間標識は、二次元又は三次元格子を参照することができる。座標は、陸標を参照して固定することができる。陸標は空間で識別可能であることができる。陸標は、撮像することができる構造物であることができる。陸標は、生体構造物、例えば、解剖学的陸標であることができる。陸標は、細胞陸標、例えば細胞小器官であることができる。陸標は、カラーコード、バーコード、磁性、蛍光性、放射性、又は一意のサイズ若しくは形状等の識別可能な識別子を有する構造物等の非天然陸標であることができる。空間標識には、物理的パーテーション（例えば、ウェル、容器、又は液滴）を関連付けることができる。幾つかの実施形態では、複数の空間標識を一緒に使用して、空間中の１つ又は複数の位置を符号化する。

空間標識は、所与の固体支持体（例えば、ビーズ）に付着した全てのバーコードで同一であることができるが、異なる固体支持体（例えばビーズ）で異なることもできる。幾つかの実施形態では、同じ空間標識を含む同じ固体支持体のバーコードの割合は、６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、１００％、若しくはこれらの値の任意の２つの間の数字若しくは範囲又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、同じ空間標識を含む同じ固体支持体のバーコードの割合は、少なくとも又は多くとも６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、又は１００％であることができる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも６０％は、同じ空間標識を含むことができる。幾つかの実施形態では、同じ固体支持体のバーコードの少なくとも９５％は、同じ空間標識を含むことができる。

複数の固体支持体（例えば、ビーズ）において表される１０⁶個以上の多くの一意の空間標識配列があることができる。空間標識は、１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、若しくはこれらの値の任意の２つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。空間標識は、少なくとも又は多くとも１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、１００個、２００個、又は３００個のヌクレオチドの長さであることができる。空間標識は、約５個～約２００個のヌクレオチドを含むことができる。空間標識は、約１０個～約１５０個のヌクレオチドを含むことができる。空間標識は、約２０個～約１２５個のヌクレオチドの長さを含むことができる。

細胞標識
バーコードは、１つ又は複数の細胞標識を含むことができる。幾つかの実施形態では、細胞標識は、どの標的核酸がどの細胞から来たのかを判断するための情報を提供する核酸配列を含むことができる。幾つかの実施形態では、細胞標識は、所与の固体支持体（例えば、ビーズ）に付着した全てのバーコードで同一であることができるが、異なる固体支持体（例えばビーズ）で異なることもできる。幾つかの実施形態では、同じ細胞標識を含む同じ固体支持体のバーコードの割合は、６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、１００％、若しくはこれらの値の任意の２つの間の数字若しくは範囲又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、同じ細胞標識を含む同じ固体支持体のバーコードの割合は、少なくとも又は多くとも６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、又は１００％であることができる。例えば、同じ固体支持体のバーコードの少なくとも６０％は、同じ細胞標識を含むことができる。別の例として、同じ固体支持体のバーコードの少なくとも９５％は、同じ細胞標識を含むことができる。

複数の固体支持体（例えば、ビーズ）において表される１０⁶個以上の多くの一意の細胞標識配列があることができる。細胞標識は、１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、若しくはこれらの値の任意の２つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。細胞標識は、少なくとも又は多くとも１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、１００個、２００個、又は３００個のヌクレオチドの長さであることができる。例えば、細胞標識は、約５個～約２００個のヌクレオチドを含むことができる。別の例として、細胞標識は、約１０個～約１５０個のヌクレオチドを含むことができる。細胞標識は、約２０個～約１２５個のヌクレオチドの長さを含むことができる。

バーコード配列
バーコードは、１つ又は複数のバーコード配列を含むことができる。幾つかの実施形態では、バーコード配列は、バーコードにハイブリダイズした標的核酸種の特定のタイプについての識別情報を提供する核酸配列を含むことができる。バーコード配列は、バーコード（例えば、標的結合領域）にハイブリダイズした標的核酸種の特定の発生のカウンタ（例えば、大まかな近似を提供する）を提供する核酸配列を含むことができる。

幾つかの実施形態では、多様な組のバーコード配列が所与の固体支持体（例えば、ビーズ）に付着する。幾つかの実施形態では、１０²個、１０³個、１０⁴個、１０⁵個、１０⁶個、１０⁷個、１０⁸個、１０⁹個若しくはこれらの値の任意の２つの間の若しくは範囲の一意の分子標識配列があり、又は約これらの値若しくは範囲の一意の分子標識配列であることができる。例えば、複数のバーコードは、別個の配列を有する約６５６１個のバーコード配列を含むことができる。別の例として、複数のバーコードは、別個の配列を有する約６５５３６個のバーコード配列を含むことができる。幾つかの実施形態では、少なくとも又は多くとも１０²個、１０³個、１０⁴個、１０⁵個、１０⁶個、１０⁷個、１０⁸個、又は１０⁹個の一意のバーコード配列があることができる。一意の分子標識配列は、所与の固体支持体（例えば、ビーズ）に付着することができる。

バーコードは、１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、若しくはこれらの値の任意の２つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。バーコードは、少なくとも又は多くとも１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、１００個、２００個、又は３００個のヌクレオチドの長さであることができる。

分子標識
確率的バーコードは、１つ又は複数の分子標識を含むことができる。分子標識はバーコード配列を含むことができる。幾つかの実施形態では、分子標識は、確率的バーコードにハイブリダイズした標的核酸種の特定のタイプについての識別情報を提供する核酸配列を含むことができる。分子標識は、確率的バーコード（例えば、標的結合領域）にハイブリダイズした標的核酸種の特定の発生のカウンタを提供する核酸配列を含むことができる。

幾つかの実施形態では、多様な組の分子標識が所与の固体支持体（例えば、ビーズ）に付着する。幾つかの実施形態では、１０²個、１０³個、１０⁴個、１０⁵個、１０⁶個、１０⁷個、１０⁸個、１０⁹個若しくは数若しくは範囲の一意の分子標識配列があり、又は約これらの値若しくは範囲の一意の分子標識配列であることができる。例えば、複数の確率的バーコードは、別個の配列を有する約６５６１個の分子標識を含むことができる。別の例として、複数の確率的バーコードは、別個の配列を有する約６５５３６個の分子標識を含むことができる。幾つかの実施形態では、少なくとも又は多くとも１０²個、１０³個、１０⁴個、１０⁵個、１０⁶個、１０⁷個、１０⁸個、又は１０⁹個の一意の分子標識配列があることができる。一意の分子標識配列は、所与の固体支持体（例えば、ビーズ）に付着することができる。

複数の確率的バーコードを使用する確率的バーコーディングの場合、異なる分子標識配列の数と任意の標的の発生数との比率は、１：１、２：１、３：１、４：１、５：１、６：１、７：１、８：１、９：１、１０：１、１１：１、１２：１、１３：１、１４：１、１５：１、１６：１、１７：１、１８：１、１９：１、２０：１、３０：１、４０：１、５０：１、６０：１、７０：１、８０：１、９０：１、１００：１若しくはこれらの値の任意の２つの間の若しくは範囲の比率であることができ、又は約これらの値若しくは範囲の一意の比率であることができる。標的は、同一又は略同一の配列を有するｍＲＮＡ分祀を含むｍＲＮＡ種であることができる。幾つかの実施形態では、異なる分子標識配列の数と任意の標的の発生数との比率は、少なくとも又は多くとも１：１、２：１、３：１、４：１、５：１、６：１、７：１、８：１、９：１、１０：１、１１：１、１２：１、１３：１、１４：１、１５：１、１６：１、１７：１、１８：１、１９：１、２０：１、３０：１、４０：１、５０：１、６０：１、７０：１、８０：１、９０：１、又は１００：１であることができる。

分子標識は、１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、若しくはこれらの値の任意の２つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。分子標識は、少なくとも又は多くとも１個、２個、３個、４個、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、１００個、２００個、又は３００個のヌクレオチドの長さであることができる。

標的結合領域
バーコードは、捕捉プローブ等の１つ又は複数の標的結合領域を含むことができる。幾つかの実施形態では、標的結合領域は、関心のある標的とハイブリダイズすることができる。幾つかの実施形態では、標的結合領域は、標的（例えば、標的核酸、標的分子、例えば、分析する細胞核酸）、例えば、特定の遺伝子配列と特異的にハイブリダイズする核酸配列を含むことができる。幾つかの実施形態では、標的結合領域は、特定の標的核酸の特定のロケーションに付着（例えば、ハイブリダイズ）することができる核酸配列を含むことができる。幾つかの実施形態では、標的結合領域は、制限酵素部位オーバーハング（例えば、ＥｃｏＲＩ粘着末端オーバーハング）への特異的ハイブリダイズが可能な核酸配列を含むことができる。次に、バーコードは、制限部位オーバーハングに相補的な配列を含む任意の核酸分子にライゲートすることができる。

幾つかの実施形態では、標的結合領域は、非特異標的核酸配列を含むことができる。非特異標的核酸配列とは、標的核酸の特定の配列から独立して、複数の標的核酸に結合することができる配列を指すことができる。例えば、標的結合領域は、ランダム多量体配列又はｍＲＮＡ分子上のポリ（Ａ）テールにハイブリダイズするオリゴ（ｄＴ）配列を含むことができる。ランダム多量体配列は、例えば、ランダム二量体、三量体、四量体、五量体、六量体、七量体、八量体、九量体、十量体、又は任意の長さのそれよりも高い多量体配列であることができる。幾つかの実施形態では、標的結合領域は、所与のビーズに付着した全てのバーコードで同じである。幾つかの実施形態では、所与のビーズに付着した複数のバーコードの標的結合領域は、２つ以上の異なる標的結合配列を含むことができる。標的結合領域は、５個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個若しくはこれらの値の任意の２つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。標的結合領域は、多くとも約５個、約１０個、約１５個、約２０個、約２５個、約３０個、約３５個、約４０個、約４５個、又は約５０個のヌクレオチド個数分の長さであることができる。

幾つかの実施形態では、標的結合領域は、ポリアデニル化された末端を含むｍＲＮＡとハイブリダイズすることができるオリゴ（ｄＴ）を含むことができる。標的結合領域は、遺伝子特異的であることができる。例えば、標的結合領域は、標的の特定の領域にハイブリダイズするように構成することができる。標的結合領域は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、２４個、２５個、２６個、２７個、２８個、２９個、３０個若しくはこれらの値の任意の２つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。標的結合領域は、少なくとも又は多くとも１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、２４個、２５個、２６個、２７個、２８個、２９個、又は３０個のヌクレオチドの長さであることができる。標的結合領域は、約５個～約３０個のヌクレオチドの長さであることができる。バーコードが遺伝子特異的な標的結合領域を含む場合、本明細書では、バーコードは遺伝子特異的バーコードと呼ぶことができる。

配向特性
バーコードは、バーコードの配向（例えば、位置合わせ）に使用することができる１つ又は複数の配向特性を含むことができる。バーコードは、等電点電気泳動部分を含むことができる。異なるバーコードは、異なる等電点電気泳動点を含むことができる。これらのバーコードが試料に導入されると、試料は等電点電気泳動を受けて、バーコードを既知のように配向させることができる。このようにして、配向特性を使用して、試料中にバーコードの既知のマップを作成することができる。例示的な配向特性としては、電気泳動移動度（例えば、バーコードのサイズに基づく）、等電点、スピン、伝導性、及び／又は自己集合を挙げることができる。例えば、自己集合の配向特性を有するバーコードは、特定の配向（例えば、核酸ナノ構造）に自己集合することができる。

親和特性
バーコードは、１つ又は複数の親和特性を含むことができる。例えば、空間標識は親和特性を含むことができる。親和特性は、別のエンティティ（例えば、細胞レセプタ）へのバーコードの結合を促進することができる化学及び／又は生物学的部分を含むことができる。例えば、親和特性は、抗体、例えば、試料上の特定の部分（例えば、レセプタ）に特異的な抗体を含むことができる。幾つかの実施形態では、抗体は、バーコードを特定の細胞タイプ又は分子にガイドすることができる。特定の細胞タイプ又は分子における及び／又はその近傍における標的は、確率的に標識することができる。親和特性は、幾つかの実施形態では、抗体はバーコードを特定のロケーションにガイドすることができるため、空間標識のヌクレオチド配列に加えて、空間情報を提供することができる。抗体は、治療用抗体、例えば、モノクローナル抗体又はポリクローナル抗体であることができる。抗体は、ヒト化又はキメラ化することができる。抗体は、裸の抗体（ｎａｋｅｄａｎｔｉｂｏｄｙ）又は融合抗体（ｆｕｓｉｏｎａｎｔｉｂｏｄｙ）であることができる。

抗体は、全長（すなわち、天然発生若しくは正常免疫グロブリン遺伝子断片組み換えプロセスによって形成される）免疫グロブリン分子（例えば、ＩｇＧ抗体）又は抗体断片のような免疫グロブリン分子の免疫活性（すなわち、特異的結合）部分であることができる。

抗体断片は、例えば、Ｆ（ａｂ’）２、Ｆａｂ’、Ｆａｂ、Ｆｖ、ｓＦｖ等の抗体の一部であることができる。幾つかの実施形態では、抗体断片は、全長抗体によって認識される同じ抗原と結合することができる。抗体断片は、重鎖、軽鎖、並びに軽及び重可変領域がペプチドリンカー（「ｓｃＦｖタンパク質」）によって接続された組み換え単鎖ポリペプチド分子の可変領域からなる「Ｆｖ」断片等の抗体の可変領域からなる、単離された断片を含むことができる。例示的な抗体としては、限定ではなく、がん細胞の抗体、ウィルスの抗体、細胞表面レセプター（ＣＤ８、ＣＤ３４、ＣＤ４５）に結合する抗体、及び治療用抗体を挙げることができる。

ユニバーサルアダプタープライマー
バーコードは、１つ又は複数のユニバーサルアダプタープライマーを含むことができる。例えば、遺伝子特異確率的バーコード等の遺伝子特異的バーコードは、ユニバーサルアダプタープライマーを含むことができる。ユニバーサルアダプタープライマーとは、全てのバーコードにわたりユニバーサルなヌクレオチド配列を指すことができる。ユニバーサルアダプタープライマーは、遺伝子特異的バーコードの構築に使用することができる。ユニバーサルアダプタープライマーは、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、２４個、２５個、２６個、２７個、２８個、２９個、３０個若しくはこれらの値の任意の２つの間の数若しくは範囲のヌクレオチド個数分の長さであることができ、又は約これらの値若しくは範囲であることができる。ユニバーサルアダプタープライマーは、少なくとも又は多くとも１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、２４個、２５個、２６個、２７個、２８個、２９個、又は３０個のヌクレオチドの長さであることができる。ユニバーサルアダプタープライマーは、５個～３０個のヌクレオチドの長さであることができる。

リンカー
バーコードが２つ以上のタイプの標識（例えば、２つ以上の細胞標識又は１つの分子標識等の２つ以上のバーコード配列）を含む場合、標識間にリンカー標識配列が混じり得る。リンカー標識配列は、少なくとも約５個、約１０個、約１５個、約２０個、約２５個、約３０個、約３５個、約４０個、約４５個、約５０個、又はそれよりも多くの個数のヌクレオチドの長さであることができる。リンカー標識配列は、多くとも約５個、約１０個、約１５個、約２０個、約２５個、約３０個、約３５個、約４０個、約４５個、約５０個、又はそれよりも多くの個数のヌクレオチドの長さであることができる。幾つかの場合、リンカー標識配列は、１２個のヌクレオチドの長さである。リンカー標識配列は、バーコードの合成を促進するのに使用することができる。リンカー標識は、誤り修正（例えば、ハミング）コードを含むことができる。

固体支持体
本明細書に開示される確率的バーコード等のバーコードには、幾つかの実施形態では、固体支持体を関連付けることができる。固体支持体は、例えば、合成粒子であることができる。幾つかの実施形態では、固体支持体上の複数のバーコード（例えば、第１の複数のバーコード）の確率的バーコード（例えば、第１のバーコード配列）の分子標識等のバーコード配列の幾つか又は全ては、少なくとも１つのヌクレオチド、異なる。同じ固体支持体上のバーコードの細胞標識は、同じであることができる。異なる固体支持体上のバーコードの細胞標識は、少なくとも１つのヌクレオチド、異なることができる。例えば、第１の固体支持体上の第１の複数のバーコードの第１の細胞標識は、同じ配列を有することができ、第２の固体支持体上の第２の複数のバーコードの第２の細胞標識は、同じ配列を有することができる。第１の固体支持体上の第１の複数のバーコードの第１の細胞標識及び第２の固体支持体上の第２の複数のバーコードの第２の細胞標識は、少なくとも１つのヌクレオチド、異なることができる。細胞標識は、例えば、約５個～約２０個のヌクレオチド長であることができる。バーコード配列は、例えば、約５個～約２０個のヌクレオチド長であることができる。合成粒子は、例えば、ビーズであることができる。

ビーズは、例えば、シリカゲルビーズ、孔が制御されるガラスビーズ、磁性ビーズ、Ｄｙｎａｂｅａｄ、Ｓｅｐｈａｄｅｘ／Ｓｅｐｈａｒｏｓｅビーズ、セルロースビーズ、ポリスチレンビーズ、又はそれらの任意の組合せであることができる。ビーズは、ポリジメチルシロキサン（ＰＤＭＳ）、ポリスチレン、ガラス、ポリプロピレン、アガロース、ゼラチン、ヒドロゲル、常磁性材料、セラミック、プラスチック、ガラス、メチルスチレン、アクリルポリマー、ラテックス、セファロース、セルロース、ナイロン、シリコーン、又はそれらの任意の組合せ等の材料を含むことができる。

幾つかの実施形態では、ビーズは、ポリマービーズ、例えば、バーコード又は確率的バーコードで官能化された変形可能なビーズ又はゲルビーズ（１０ＸＧｅｎｏｍｉｃｓ（カリフォルニア州サンフランシスコ）からのゲルビーズ等であることができる。幾つかの実施態様では、ゲルビーズはポリマー系ゲルを含むことができる。ゲルビーズは、例えば、１つ又は複数のポリマー前駆体を液滴中に封入することにより生成することができる。ポリマー前駆体を促進剤（例えば、テトラメチルエチレンジアミン（ＴＥＭＥＤ））に露出させると、ゲルビーズを生成し得る。

幾つかの実施形態では、粒子は分解可能であることができる。例えば、ポリマービーズは、例えば、所望の条件下で溶解、溶融、又は分解することができる。所望の条件は、環境条件を含むことができる。所望の条件は、ポリマービーズを制御された様式で溶解、溶融、又は分解させ得る。ゲルビーズは、化学的刺激、物理的刺激、生物学的刺激、熱的刺激、磁気的刺激、電気的刺激、光刺激、又はそれらの任意の組合せに起因して、溶解、溶融、又は分解し得る。

例えばオリゴヌクレオチドバーコード等の分析物及び／又は試薬は、ゲルビーズの内面（例えば、オリゴヌクレオチドバーコード及び／又はオリゴヌクレオチドバーコードの生成に使用される材料の拡散を介したアクセス可能な内部）及び／又はゲルビーズの外面又は本明細書に記載される任意の他のマイクロカプセルに結合／固定化し得る。結合／固定化は、任意の形態の化学結合（例えば、共有結合、イオン結合）又は物理現象（例えば、ファンデルワールス力、双極子－双極子相互作用等）を介し得る。幾つかの実施形態では、ゲルビーズ又は本明細書に記載される任意の他のマイクロカプセルへの試薬の結合／固定化は、例えば、不安定部分等を介して（例えば、本明細書に記載される化学的架橋剤を含めた化学的架橋剤を介して）可逆的であり得る。刺激を適用すると、不安定部分は開裂し得、固定化された試薬を自由にする。幾つかの実施形態では、不安定部分はジスルフィド結合である。例えば、オリゴヌクレオチドバーコードがジスルフィド結合を介してゲルビーズに固定化される場合、還元剤へのジスルフィド結合の露出により、ジスルフィド結合を開裂し、オリゴヌクレオチドバーコードをビーズから解放することができる。不安定部分は、ゲルビーズ又はマイクロカプセルの部分として、試薬又は分析物をゲルビーズ又はマイクロカプセルに連結する化学的リンカーの部分として、及び／又は試薬又は分析物の部分として包含し得る。幾つかの実施形態では、複数のバーコードの少なくとも１つのバーコードは、粒子に固定化、粒子上に部分的に固定化、粒子内に封入、粒子内に部分的に封入、又はそれらの任意の組合せであることができる。

幾つかの実施形態では、ゲルビーズは、限定ではなく、ポリマー、熱過敏性ポリマー、感光性ポリマー、磁性ポリマー、ｐＨ感受性ポリマー、塩感応性ポリマー、化学感応性ポリマー、高分子電解質、多糖類、ペプチド、タンパク質、及び／又はプラスチックを含む広範囲の異なるポリマーを含むことができる。ポリマーは、限定ではなく、ポリ（Ｎ－イソプロピルアクリルアミド）（ＰＮＩＰＡＡｍ）、ポリ（スチレンスルホナート）（ＰＳＳ）、ポリ（アリルアミン）（ＰＡＡｍ）、ポリ（アクリル酸）（ＰＡＡ）、ポリ（エチレンイミン）（ＰＥＩ）、ポリ（ジアリルジメチル・アンモニウム・クロリド）（ＰＤＡＤＭＡＣ）、ポリ（ピロール）（ＰＰｙ）、ポリ（ビニルピロリドン）（ＰＶＰＯＮ）、ポリ（ビニルピリジン）（ＰＶＰ）、ポリ（メタクリル酸）（ＰＭＡＡ）、ポリ（メチルメタクリル酸）（ＰＭＭＡ）、ポリスチレン（ＰＳ）、ポリ（テトラヒドロフラン）（ＰＴＨＦ）、ポリ（フタルアデヒド（ｐｈｔｈａｌａｄｅｈｙｄｅ）（ＰＴＨＦ）、ポリ（ヘキシルビオロゲン）（ＰＨＶ）、ポリ（Ｌ－リジン）（ＰＬＬ）、ポリ（Ｌ－アルギニン）（ＰＡＲＧ）、ポリ（乳酸－コ－グリコール酸）（ＰＬＧＡ）等の材料を含み得る。

多くの化学的刺激を使用して、ビーズの崩壊、溶解、又は分解をトリガーすることができる。これらの化学変化の例としては、限定ではなく、ビーズ壁へのｐＨ媒介変更、架橋結合の化学的開裂を介したビーズ壁の崩壊、ビーズ壁の脱重合のトリガー、及びビーズ壁スイッチング反応を挙げ得る。ビーズの崩壊のトリガーにバルク変更を使用することもできる。

様々な刺激を通してのマイクロカプセルへのバルク又は物理的な変更は、試薬をリリースするようにカプセルを設計することにおいて多くの利点も提供する。バルク又は物理的な変更は、巨視的なスケールで行われ、ビーズの破裂は、刺激によって誘導される機械－物理力の結果である。これらのプロセスは、限定ではなく、圧力誘導破裂、ビーズ壁溶融、又はビーズ壁の多孔性の変化を含み得る。

ビーズの崩壊、溶解、又は分解のトリガーに生物学的刺激を使用することもできる。一般に、生物学的刺激は化学的トリガーに類似するが、多くの例は、生体分子又は酵素、ペプチド、糖類、脂肪酸、核酸等の生体系で一般に見られる分子を使用する。例えば、ビーズは、特定のプロテアーゼによる開裂を受けやすいペプチド架橋を有するポリマーを含み得る。より具体的には、一例は、ＧＦＬＧＫペプチド架橋を含むマイクロカプセルを含み得る。プロテアーゼＣａｔｈｅｐｓｉｎＢ等の生物学的トリガーを添加すると、シェル壁のペプチド架橋は開裂し、ビーズの内容物がリリースされる。他の場合、プロテアーゼは熱活性化し得る。別の例では、ビーズは、セルロースを含むシェル壁を備える。加水分解酵素であるキトサンの添加は、セルロース結合の開裂、シェル壁の脱重合、及びその内容物のリリースの生物学的トリガーとして機能する。

熱刺激の印加により、ビーズの内容物のリリースをトリガーするように誘導することもできる。温度変化は、ビーズに様々な変化を生じさせることができる。熱変化は、ビーズ壁が崩壊するようにビーズを溶融させ得る。他の場合、熱は、ビーズが崩壊又は爆発するようにビーズの内部構成要素の内圧を増大させ得る。更に他の場合、熱は、ビーズを収縮脱水状態に変換し得る。熱はまた、ビーズの壁内の熱過敏性ポリマーに対して作用して、ビーズを崩壊させることもできる。

マイクロカプセルのビーズ壁に磁性ナノ粒子を包含することにより、ビーズの崩壊をトリガーし、アレイ内でビーズをガイドすることができる。本開示のデバイスは、いずれの目的での磁性ビーズも含み得る。一例では、ビーズを包含した高分子電解質へのＦｅ₃Ｏ₄ナノ粒子の組み込みは、発振磁場刺激の存在下で崩壊をトリガーする。

ビーズは、電気刺激の結果として崩壊、溶解、又は分解することもできる。前のセクションに記載された磁性粒子と同様に、電気の影響を受けやすいビーズは、ビーズの崩壊のトリガー及び電場での整列、導電性、又は酸化還元反応等の他の機能の両方を可能にすることができる。一例では、電気の影響を受けやすい材料を含むビーズは、内部試薬のリリースを制御することができるように電場において整列する。他の例では、電場は、多孔性を増大させ得るビーズ壁自体内に酸化還元反応を誘導し得る。

光刺激もビーズの崩壊に使用することができる。多くの光トリガーが可能であり、特定の範囲の波長の光子を吸収可能なナノ粒子及び発色団等の様々な分子を使用するシステムを含み得る。例えば、金属酸化物被膜は、カプセルトリガーとして使用することができる。ＳｉＯ₂で被膜された高分子電解質カプセルのＵＶ照射は、ビーズ壁を崩壊させ得る。更に別の例では、アゾベンゼン基等の光スイッチング可能材料をビーズ壁に組み込み得る。ＵＶ又は可視光を印加すると、これらの等の化学物質は、光子の吸収により、可逆的なシス体からトランス体への異性化を受ける。この態様では、光子スイッチの組み込みにより、光トリガーが印加されると崩壊し得るか、又はより多孔性になり得るビーズ壁が生成される。

例えば、図２に示されるバーコーディング（例えば、確率的バーコーディング）の非限定的な例では、ブロック２０８において、マイクロウェルアレイの複数のマイクロウェルに単一の細胞等の細胞を導入した後、ブロック２１２において、マイクロウェルアレイの複数のマイクロウェルにビーズを導入することができる。各マイクロウェルは１つのビーズを含むことができる。ビーズは、複数のバーコードを含むことができる。バーコードは、ビーズに付着した５’アミン領域を含むことができる。ビーコードは、ユニバーサル標識、バーコード配列（例えば、分子標識）、標的結合領域、又はそれらの任意の組合せを含むことができる。

本明細書に開示されるバーコードには、固体支持体（例えば、ビーズ）を関連付ける（例えば、付着させる）ことができる。固体支持体に関連付けられたバーコードはそれぞれ、一意の配列を有する少なくとも１００個又は１０００個のバーコード配列を含む群から選択されたバーコードを含むことができる。幾つかの実施形態では、固体支持体に関連付けられた異なるバーコードは、異なる配列のバーコード配列を含むことができる。幾つかの実施形態では、固体支持体に関連付けられたバーコードのうちのある割合のバーコードは、同じ細胞標識を含む。例えば、割合は、６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、１００％若しくはこれらの値の任意の２つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。別の例として、割合は、少なくとも又は多くとも６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、又は１００％であることができる。幾つかの実施形態では、固体支持体に関連付けられたバーコードは、同じ細胞標識を有することができる。異なる固体支持体に関連付けられたバーコードは、一意の配列を有する少なくとも１００個又は１０００個の細胞標識を含む群から選択される異なる細胞標識を有することができる。

本明細書に開示されるバーコードには、固体支持体（例えば、ビーズ）を関連付ける（例えば、付着させる）ことができる。幾つかの実施形態では、試料中の複数の標的を確率的にバーコーディングすることは、複数のバーコードが関連付けられた複数の合成粒子を含む固体支持体を用いて実行することができる。幾つかの実施形態では、固体支持体は、複数のバーコードが関連付けられた複数の合成粒子を含むことができる。異なる固体支持体上の複数のバーコードの空間標識は、少なくとも１つのヌクレオチド、異なることができる。固体支持体は、例えば、二次元又は三次元で複数のバーコードを含むことができる。合成粒子はビーズであることができる。ビーズは、シリカゲルビーズ、孔が制御されるガラスビーズ、磁性ビーズ、Ｄｙｎａｂｅａｄ、Ｓｅｐｈａｄｅｘ／Ｓｅｐｈａｒｏｓｅビーズ、セルロースビーズ、ポリスチレンビーズ、又はそれらの任意の組合せであることができる。固体支持体は、ポリマー、マトリックス、ヒドロゲル、ニードルアレイデバイス、抗体、又はそれらの任意の組合せを含むことができる。幾つかの実施形態では、固体支持体は自由に浮動することができる。幾つかの実施形態では、固体支持体は、半固体又は固体アレイに組み込むことができる。バーコードに固体支持体を関連付けなくてもよいことがある。バーコードは個々のヌクレオチドであることができる。バーコードには基板を関連付けることができる。

本明細書で使用される場合、「テザリングされる」、「付着する」、又は「固定化される」という用語は、同義で使用され、バーコードを固体支持体に付着させる共有結合又は非共有結合手段を指すことができる。任意の様々な異なる固体支持体が、予め合成されたバーコードを付着させる又はバーコードのｉｎｓｉｔｕ固体フェーズ合成のための固体支持体として使用することができる。

幾つかの実施形態では、固体支持体はビーズである。ビーズは、１つ又は複数のタイプの固体、多孔性、又は中空の球体、ボール、ベアリング、シリンダ、又は核酸を固定化（例えば、共有結合又は非共有結合で）することができる他の同様の構成であることができる。ビーズは、例えば、プラスチック、セラミック、金属、ポリマー材料、又はそれらの任意の組合せで構成することができる。ビーズは、球体（例えば、小球体）である離散粒子であることができ、若しくは含むことができ、又は立方体、立方骨、ピラミッド形、円柱形、円錐形、楕円形、若しくは円盤形等の非球形若しくは不規則な形状を有することができる。幾つかの実施形態では、ビーズは非球形であることができる。

ビーズは、限定ではなく、常磁性体（例えば、マグネシウム、モリブデン、リチウム、及びタンタル）、超常磁性体（例えば、フェライト（Ｆｅ₃Ｏ₄；磁鉄鉱）ナノ粒子）、強磁性体（例えば、鉄、ニッケル、コバルト、それらの何らかの合金、及び何らかの希土類金属化合物）、セラミック、プラスチック、ガラス、ポリスチレン、シリカ、メチルスチレン、アクリルポリマー、チタン、ラテックス、セファロース、アガロース、ヒドロゲル、ポリマー、セルロース、ナイロン、又はそれらの任意の組合せを含め、様々な材料を含むことができる。

幾つかの実施形態では、ビーズ（例えば、標識が付着するビーズ）はヒドロゲルビーズである。幾つかの実施形態では、ビーズはヒドロゲルを含む。

本明細書に開示される幾つかの実施形態は、１つ又は複数の粒子（例えば、ビーズ）を含む。各粒子は、複数のオリゴヌクレオチド（例えば、バーコード）を含むことができる。複数のオリゴヌクレオチドのそれぞれは、バーコード配列（例えば、分子標識）、細胞標識、及び標的結合領域（例えば、オリゴ（ｄＴ）配列、遺伝子特異的配列、ランダム多量体、又はそれらの組合せ）を含むことができる。複数のオリゴヌクレオチドのそれぞれの細胞標識配列は、同じであることができる。異なる粒子上のオリゴヌクレオチドの細胞標識配列は、異なる粒子上のオリゴヌクレオチドを識別することができるように異なることができる。異なる細胞標識配列の数は、異なる実施態様では異なることができる。幾つかの実施形態では、細胞標識配列の数は、１０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００、１０⁶、１０⁷、１０⁸、１０⁹の個数、若しくはこれらの値の任意の２つの間の数若しくは範囲、又は約これらの値若しくは範囲、又は１０⁹を超える個数であることができる。幾つかの実施形態では、細胞標識配列の数は、少なくとも又は多くとも１０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００、１０⁶、１０⁷、１０⁸、又は１０⁹の個数であることができる。幾つかの実施形態では、複数の粒子のうちの１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、又はそれを超える個数は、同じ細胞配列を有するオリゴヌクレオチドを含む。幾つかの実施形態では、同じ細胞配列を有するオリゴヌクレオチドを含む複数の粒子は、多くとも０．１％、０．２％、０．３％、０．４％、０．５％、０．６％、０．７％、０．８％、０．９％、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、又はそれを超える割合であることができる。幾つかの実施形態では、複数の粒子のいずれも同じ細胞標識配列を有さない。

各粒子上の複数のオリゴヌクレオチドは、異なるバーコード配列（例えば、分子標識）を含むことができる。幾つかの実施形態では、バーコード配列の数は、１０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００、１０⁶、１０⁷、１０⁸、１０⁹の個数、若しくはこれらの値の任意の２つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、バーコード配列の数は、少なくとも又は多くとも１０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００、１０⁶、１０⁷、１０⁸、又は１０⁹の個数であることができる。例えば、複数のオリゴヌクレオチドの少なくとも１００個は、異なるバーコード配列を含む。別の例として、１つの粒子において、複数のオリゴヌクレオチドのうちの少なくとも１００個、５００個、１０００個、５０００個、１００００個、１５０００個、２００００個、５００００個、若しくはこれらの値の任意の２つの間の数若しくは範囲又は５００００個を超える個数は、異なるバーコード配列を含む。幾つかの実施形態は、バーコードを含む複数の粒子を提供する。幾つかの実施形態では、標識する標的の発生（又はコピー又は数）と異なるバーコード配列との比率は、少なくとも１：１、１：２、１：３、１：４、１：５、１：６、１：７、１：８、１：９、１：１０、１：１１、１：１２、１：１３、１：１４、１：１５、１：１６、１：１７、１：１８、１：１９、１：２０、１：３０、１：４０、１：５０、１：６０、１：７０、１：８０、１：９０、又はそれを超える比率であることができる。幾つかの実施形態では、複数のオリゴヌクレオチドのそれぞれは、試料標識、ユニバーサル標識、又は両方を更に含む。粒子は、例えば、ナノ粒子又はマイクロ粒子であることができる。

ビーズのサイズは様々であることができる。例えば、ビーズの直径は０．１μｍから５０μｍの範囲であることができる。幾つかの実施形態では、ビーズの直径は０．１μｍ、０．５μｍ、１μｍ、２μｍ、３μｍ、４μｍ、５μｍ、６μｍ、７μｍ、８μｍ、９μｍ、１０μｍ、２０μｍ、３０μｍ、４０μｍ、５０μｍ若しくはこれらの値の任意の２つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。

ビーズの直径は、基板のウェルの直径に関連することができる。幾つかの実施形態では、ビーズの直径は、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、１００％若しくはこれらの値の任意の２つの間の数若しくは範囲、約これらの値若しくは範囲で、ウェルの直径よりも長い又は短い値であることができる。ビーズの直径は、細胞（例えば、基板のウェルによって取り込まれる１つの細胞）の直径に関連することができる。幾つかの実施形態では、ビーズの直径は、少なくとも又は多くとも１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、又は１００％ウェルの直径よりも長い又は短い値であることができる。ビーズの直径は、細胞（例えば、基板のウェルによって取り込まれる１つの細胞）の直径に関連することができる。幾つかの実施形態では、ビーズの直径は、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、１００％、１５０％、２００％、２５０％、３００％、若しくはこれらの値の任意の２つの間の数若しくは範囲、約これらの値若しくは範囲で、ウェルの直径よりも長い又は短い値であることができる。幾つかの実施形態では、ビーズの直径は、少なくとも又は多くとも１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、１００％、１５０％、２００％、２５０％、又は３００％、ウェルの直径よりも長い又は短い値であることができる。

ビーズは基板に付着させ、且つ／又は基板に埋め込むことができる。ビーズは、ゲル、ヒドロゲル、ポリマー、及び／又はマトリックスに付着させ、且つ／又は埋め込むことができる。基板（例えば、ゲル、マトリックス、スキャフォールド、又はポリマー）内のビーズの空間位置は、ロケーションアドレスとして機能することができるビーズ上のバーコードに存在する空間標識を使用して識別することができる。

ビーズの例としては、限定ではなく、ストレプトアビジンビーズ、アガロースビーズ、磁性ビーズ、Ｄｙｎａｂｅａｄｓ（登録商標）、ＭＡＣＳ（登録商標）ミクロビーズ、抗体共役ビーズ、（例えば、抗免疫グロブリンミクロビーズ）、タンパク質Ａ共役ビーズ、タンパク質Ｇ共役ビーズ、タンパク質Ａ／Ｇ共役ビーズ、タンパク質Ｌ共役ビーズ、オリゴ（ｄＴ）共役ビーズ、シリカビーズ、シリカ様ビーズ、抗ビオチンミクロビーズ、抗蛍光色素ミクロビーズ、及びＢｃＭａｇ（商標）カルボキシル末端磁性ビーズを挙げることができる。

ビーズには、量子ドット又は蛍光染料を関連付けて（例えば、含浸させて）、１つの蛍光光学チャネル又は複数の光学チャネルで蛍光させることができる。ビーズには、酸化鉄又は酸化クロムを関連付けて、常磁性又は強磁性にすることができる。ビーズは識別可能であることができる。例えば、ビーズはカメラを使用して撮像することができる。ビーズは、ビーズに関連付けられた検出可能なコードを有することができる。例えば、ビーズはバーコードを含むことができる。ビーズは、例えば、有機溶液又は無機溶液中での膨張に起因してサイズを変更することができる。ビーズは疎水性であることができる。ビーズは親水性であることができる。ビーズは生体適合性を有することができる。

固体支持体（例えば、ビーズ）は、視覚化することができる。固体支持体は、視覚化タグ（例えば、蛍光染料）を含むことができる。固体支持体（例えば、ビーズ）には識別子（例えば、数字）をエッチングすることができる。識別子は、ビーズの撮像を通して視覚化することができる。

固体支持体は、不溶解性、半溶解性、又は不溶解性物質を含むことができる。固体支持体は、リンカー、スキャフォールド、構築ブロック、又は付着した他の反応性部分を含む場合、「機能化」と呼ぶことができ、一方、付着したそのような反応性部分がない場合、「非機能化」と呼ぶことができる。固体支持体は、マイクロタイタウェル形式；カラム中等のフロースルー形式；又はディスプレイスティック等の溶液中で自由に利用することができる。

固体支持体は、膜、紙、プラスチック、被膜面、平面、ガラス、スライド、チップ、又はそれらの任意の組合せを含むことができる。固体支持体は、樹脂、ゲル、小球体、又は他の幾何学的構成の形態をとることができる。固体支持体は、シリカチップ、マイクロ粒子、ナノ粒子、プレート、アレイ、毛管、ガラス繊維フィルタ、ガラス面、金属面（鋼、金、銀、アルミニウム、ケイ素、及び銅）等の平面支持体、ガラス支持体、プラスチック支持体、ケイ素支持体、チップ、フィルタ、膜、マイクロウェルプレート、スライド、マルチウェルプレート又は膜（例えば、ポリエチレン、ポリプロピレン、ポリアミド、フッ化ポリビニリデンで形成される）を含むプラスチック材料、及び／又はウェーハ、コーム、ピン、又はニードル（例えば、組合せ合成又は分析に適するピンのアレイ）、又はピンのアレイ若しくはウェーハ（例えば、シリコンウェーハ）、フィルタ底部がある又はないピンを有するウェーハ等の平面のナノリットルウェル内のビーズを含むことができる。

固体支持体は、ポリマーマトリックス（例えば、ゲル、ヒドロゲル）を含むことができる。ポリマーマトリックスは、細胞内空間（例えば、細胞小器官の周囲）に浸透可能であり得る。ポリマーマトリックスは、循環器系全体を通してポンピング可能であり得る。

固体支持体は、生体分子であることができる。例えば、固体支持体は、核酸、タンパク質、抗体、ヒストン、細胞コンパートメント、脂質、炭水化物等であることができる。生体分子である固体支持体は、増幅、翻訳、転写、分解、及び／又は修飾（例えば、ペグ化、ＳＵＭＯ化、アセチル化、メチル化）することができる。生体分子である固体支持体は、生体分子に付着した空間標識に加えて、空間情報及び時間情報を提供することができる。例えば、生体分子は、修飾されない場合、第１の確認（ｃｏｎｆｉｒｍａｔｉｏｎ）を含むことができるが、修飾された場合、第２の確認に変化することができる。異なる構造は、本開示のバーコード（例えば、確率的バーコード）を標的に露出させることができる。例えば、生体分子は、生体分子の折り畳みに起因してアクセス不可能であるバーコードを含むことができる。生体分子が修飾される（例えば、アセチル化）と、生体分子は、バーコードを露出するように構造を変更することができる。修飾のタイミングは、本開示のバーコーディング方法に別の時間次元を提供することができる。

幾つかの実施形態では、本開示のバーコード試薬を含む生体分子は、細胞の細胞質内に配置することができる。活性化されると、生体分子は、細胞核に移ることができ、そこでバーコーディングを行うことができる。このようにして、生体分子の修飾は、バーコードによって識別される標的の追加の空間－時間情報を符号化することができる。

基板及びマイクロウェルアレイ
本明細書で使用される場合、基板は一種の固体支持体を指すことができる。基板は、本開示のバーコード及び確率的バーコードを含むことができ固体支持体を指すことができる。基板は、例えば、複数のマイクロウェルを含むことができる。例えば、基板は、２つ以上のマイクロウェルを含むウェルアレイであることができる。幾つかの実施形態では、マイクロウェルは、画定された容量の小型反応チャンバを含むことができる。幾つかの実施形態では、マイクロウェルは１つ又は複数の細胞を取り込むことができる。幾つかの実施形態では、マイクロウェルは、１つのみの細胞を取り込むことができる。幾つかの実施形態では、マイクロウェルは、１つ以上の固体支持体を取り込むことができる。幾つかの実施形態では、マイクロウェルは、１つのみの固体支持体を取り込むことができる。幾つかの実施形態では、マイクロウェルは、１つの細胞及び１つの固体支持体（例えば、ビーズ）を取り込む。マイクロウェルは、本開示の組合せバーコード試薬を含むことができる。

バーコーディングの方法
本開示は、物理的試料（例えば、組織、臓器、腫瘍、細胞）における別個のロケーションにおける別個の標的の数を推定する方法を提供する。方法は、バーコード（例えば、確率的バーコード）を試料の近傍に配置すること、試料を溶解させること、別個の標的にバーコードを関連付けること、標的を増幅すること、及び／又は標的をデジタル的にカウントすることを含むことができる。方法は、バーコード上の空間標識から得られた情報を分析し、且つ／又は視覚化することを更に含むことができる。幾つかの実施形態では、方法は、試料中の複数の標的を視覚化することを含む。複数の標的を試料のマップにマッピングすることは、試料の二次元マップ又は三次元マップを生成することを含むことができる。二次元マップ及び三次元マップは、試料中の複数の標的をバーコーディング（例えば、確率的にバーコーディング）する前又は後、生成することができる。試料中の複数の標的を視覚化することは、複数の標的を試料のマップにマッピングすることを含むことができる。複数の標的を試料のマップにマッピングすることは、試料の二次元マップ又は三次元マップを生成することを含むことができる。二次元マップ及び三次元マップは、試料中の複数の標的をバーコーディングする前又は後、生成することができる。幾つかの実施形態では、二次元マップ及び三次元マップは、試料の溶解前又は後、生成することができる。二次元マップ又は三次元マップの生成前又は後に試料を溶解させることは、試料を加熱すること、洗剤で試料に触れること、試料のｐＨを変更すること、又はそれらの任意の組合せを含むことができる。

幾つかの実施形態では、複数の標的をバーコーディングすることは、複数のバーコードを複数の標的にハイブリダイズして、バーコード付き標的（例えば、確率的バーコード付き標的）を作成することを含む。複数の標的をバーコーディングすることは、バーコード付き標的の索引付きライブラリを生成することを含むことができる。バーコード付き標的の索引付きライブラリの生成は、複数のバーコード（例えば、確率的バーコード）を含む固体支持体を用いて実行することができる。

試料とバーコードとの接触
本開示は、試料（例えば、細胞）を本開示の基板に接触させる方法を提供する。例えば、細胞、臓器、又は組織の薄切片を含む試料をバーコード（例えば、確率的バーコード）に接触させることができる。細胞には、例えば、細胞が沈殿し、単層を作る重力フローによって接触することができる。試料は、組織の薄切片であることができる。薄切片は、基板に配置することができる。試料は一次元であることができる（例えば、平面を形成する）。試料（例えば、細胞）は、例えば、基板上で細胞を成長させる／培養することによって基板にわたり広げることができる。

バーコードが標的の近傍にあるとき、標的はバーコードにハイブリダイズすることができる。バーコードには、別個の各標的に本開示の別個のバーコードを関連付けることができるような非枯渇可能な比率で接触することができる。標的とバーコードとの効率的な関連付けを保証するために、標的はバーコードに架橋することができる。

細胞溶解
細胞及びバーコードの分配に続き、細胞を溶解して、標的分子を遊離させることができる。細胞溶解は、任意の多種多様な手段により、例えば、化学的又は生物学的手段により、浸透圧ショックにより、又は熱溶解、機械的溶解、若しくは光学溶解により達成することができる。細胞は、洗剤（例えば、ＳＤＳ、リチウムドデシル硫酸、トリトンＸ－１００、Ｔｗｅｅｎ－２０、若しくはＮＰ－４０）、有機溶媒（例えば、メタノール若しくはアセトン）、消化酵素（例えば、プロテイナーゼＫ、ペプシン、若しくはトリプシン）、又はそれらの任意の組合せを含む細胞溶解バッファーの添加によって溶解することができる。標的とバーコードとの関連付けを増すために、標的分子の拡散速度は、例えば、溶解物の温度を下げ、且つ／又は溶解物の粘度を上げることによって変更することができる。

幾つかの実施形態では、試料は濾紙を使用して溶解することができる。濾紙は、濾紙の上部を溶解バッファーに浸すことができる。濾紙は、試料の溶解及び基板への試料標的のハイブリダイズを促進することができる圧力で試料に適用することができる。

幾つかの実施形態では、溶解は、機械的溶解、熱溶解、光学溶解、及び／又は化学溶解によって実行することができる。化学溶解は、プロテイナーゼＫ、ペプシン、及びトリプシン等の消化酵素の使用を含むことができる。溶解は、溶解バッファーを基板に添加することによって実行することができる。溶解バッファーはトリス塩酸を含むことができる。溶解バッファーは、少なくとも約０．０１Ｍ、０．０５Ｍ，０．１Ｍ、０．５Ｍ、１Ｍ、又はこれを超えるトリス塩酸を含むことができる。溶解バッファーは、多くとも約０．０１Ｍ、０．０５Ｍ、０．１Ｍ、０．５Ｍ、１Ｍ、又はこれを超えるトリス塩酸を含むことができる。溶解バッファーは、約０．１Ｍのトリス塩酸を含むことができる。溶解バッファーのｐＨは、少なくとも約１、２、３、４、５、６、７、８、９、１０、又はそれを超える値であることができる。溶解バッファーのｐＨは、多くとも約約１、２、３、４、５、６、７、８、９、１０、又はそれを超える値であることができる。幾つかの実施形態では、溶解バッファーのｐＨは約７．５である。溶解バッファーは塩（例えば、ＬｉＣｌ）を含むことができる。溶解バッファー中の塩の濃度は、少なくとも約０．１Ｍ、０．５Ｍ、１Ｍ、又はそれを超える濃度であることができる。溶解バッファー中の塩の濃度は、多くとも約０．１Ｍ、０．５Ｍ、１Ｍ、又はそれを超える濃度であることができる。幾つかの実施形態では、溶解バッファー中の塩の濃度は、約０．５Ｍである。溶解バッファーは、洗剤（例えば、ＳＤＳ、リチウムドデシル硫酸、トリトンＸ－１００、Ｔｗｅｅｎ－２０、ＮＰ－４０）を含むことができる。溶解バッファー中の洗剤の濃度は、少なくとも約０．０００１％、０．０００５％、０．００１％、０．００５％、０．０１％、０．０５％、０．１％、０．５％、１％、２％、３％、４％、５％、６％、７％、又はそれを超える濃度であることができる。溶解バッファー中の洗剤の濃度は、多くとも約０．０００１％、０．０００５％、０．００１％、０．００５％、０．０１％、０．０５％、０．１％、０．５％、１％、２％、３％、４％、５％、６％、７％、又はそれを超える濃度であることができる。幾つかの実施形態では、溶解バッファー中の洗剤の濃度は、約１％のリチウムドデシル硫酸であることができる。溶解の方法に使用される時間は、使用される洗剤の量に依存することができる。幾つかの実施形態では、使用される洗剤が多いほど、溶解に必要な時間は短い。溶解バッファーは、キレート剤（例えば、ＥＤＴＡ、ＥＧＴＡ）を含むことができる。溶解バッファー中のキレート剤の濃度は、少なくとも約１ｍＭ、５ｍＭ、１０ｍＭ、１５ｍＭ、２０ｍＭ、２５ｍＭ、３０ｍＭ、又はそれを超える濃度であることができる。溶解バッファー中のキレート剤の濃度は、多くとも約１ｍＭ、５ｍＭ、１０ｍＭ、１５ｍＭ、２０ｍＭ、２５ｍＭ、３０ｍＭ、又はそれを超える濃度であることができる。幾つかの実施形態では、溶解バッファー中のキレート剤の濃度は、約１０ｍＭである。溶解バッファーは、還元剤（例えば、βメルカプトエタノール、ＤＴＴ）を含むことができる。溶解バッファー中の還元剤の濃度は、少なくとも約１ｍＭ、５ｍＭ、１０ｍＭ、１５ｍＭ、２０ｍＭ、又はそれを超える濃度であることができる。溶解バッファー中の還元剤の濃度は、多くとも約１ｍＭ、５ｍＭ、１０ｍＭ、１５ｍＭ、２０ｍＭ、又はそれを超える濃度であることができる。幾つかの実施形態では、溶解バッファー中の還元剤の濃度は、約５ｍＭである。幾つかの実施形態では、溶解バッファーは、トリス塩酸約０．１Ｍ、約ｐＨ７．５、ＬｉＣｌ約０．５Ｍ、リチウムドデシル硫酸約１％、ＥＤＴＡ約１０ｍＭ及びＭＤＴＴ約５ｍを含むことができる。

溶解は、約４°Ｃ、１０°Ｃ、１５°Ｃ、２０°Ｃ、２５°Ｃ、３０°Ｃの温度で実行することができる。溶解は、約１分、５分、１０分、１５分、２０分、又はそれを超える時間にわたり実行することができる。溶解した細胞は、少なくとも約１０００００個、２０００００個、３０００００個、４０００００個、５０００００個、６０００００個、７０００００個、又はそれを超える標的核酸分子を含むことができる。溶解した細胞は、多くとも約１０００００個、２０００００個、３０００００個、４０００００個、５０００００個、６０００００個、７０００００個、又はそれを超える標的核酸分子を含むことができる。

標的核酸分子へのバーコードの付着
細胞の溶解及びそこからの核酸分子の遊離に続き、核酸分子に、共存下の固体支持体のバーコードをランダムに関連付けることができる。関連付けは、バーコードの標的認識領を標的核酸分子の相補部分にハイブリダイズする（例えば、バーコードのオリゴ（ｄＴ）は標的のポリ（Ａ）テールと相互作用することができる）ことを含むことができる。ハイブリダイゼーションに使用されるアッセイ条件（例えば、バッファーｐＨ、イオン強度、温度等）は、特定の安定したハイブリッドの形成を促進するように選ぶことができる。幾つかの実施形態では、溶解した細胞から遊離した核酸分子には、基板上の複数のプローブを関連付ける（例えば、基板のプローブとハイブリダイズする）ことができる。プローブがオリゴ（ｄＴ）を含む場合、ｍＲＮＡ分子をプローブにハイブリダイズさせ、逆転写することができる。オリゴヌクレオチドのオリゴ（ｄＴ）部分は、ｃＤＮＡ分子の第１鎖合成のプライマーとして機能することができる。例えば、図２に示されるバーコーディングの非限定的な例では、ブロック２１６において、ｍＲＮＡ分子をビーズ上のバーコードにハイブリダイズすることができる。例えば、単鎖ヌクレオチド断片をバーコードの標的結合領域にハイブリダイズすることができる。

付着は、バーコードの標的認識領域と標的核酸分子の一部とのライゲーションを更に含むことができる。例えば、標的結合領域は、制限部位オーバーハング（例えば、ＥｃｏＲＩ粘着末端オーバーハング）への特異的なハイブリダイズを可能にすることができる核酸配列を含むことができる。アッセイ手順は、制限酵素（例えば、ＥｃｏＲＩ）で標的核酸を処理して、制限部位オーバーハングを作成することを更に含むことができる。次に、制限部位オーバーハングと相補的な配列を含む任意の核酸分子にバーコードをライゲートすることができる。リガーゼ（例えば、Ｔ４ＤＮＡリガーゼ）を使用して、２つの断片を接合することができる。

例えば、図２に示されるバーコーディングの非限定的な例では、ブロック２２０において、複数の細胞（又は複数の試料）（例えば、標的バーコード分子）からの標識された標的は続けて、例えば、管にプールすることができる。標識された標的は、例えば、標的バーコード分子が付着したバーコード及び／又はビーズを回収することによってプールすることができる。

付着した標的バーコード分子の固体支持体ベースの集まりの回収は、磁性ビーズ及び外部印加磁場の使用によって実施することができる。標的バーコード分子がプールされると、全ての更なる処理は１つの反応容器内で進めることができる。更なる処理は、例えば、逆転写反応、増幅反応、開裂反応、分離反応、及び／又は核酸伸長反応を含むことができる。更なる処理反応は、マイクロウェル内で、すなわち、複数の細胞からの標識された標的核酸分子を最初にプールせずに、実行することができる。

逆転写
本開示は、逆転写を使用して標的バーコード共役を作成する方法を提供する（例えば、図２のブロック２２４において）。標的バーコード共役は、バーコードと、標的核酸の全て又は一部の相補配列（すなわち、確率的バーコード付きｃＤＮＡ分子等のバーコード付きｃＤＮＡ分子）とを含むことができる。関連付けられたＲＮＡ分子の逆転写は、逆転写酵素と共に逆転写プライマーの添加により行うことができる。逆転写プライマーは、オリゴ（ｄＴ）プライマー、ランダム六塩基プライマー、又は標的特異オリゴヌクレオチドプライマーであることができる。オリゴ（ｄＴ）プライマーは、ヌクレオチド１２～１８個分又は約１２～１８個分の長さであることができ、哺乳類ｍＲＮＡの３’末端における内因性ポリ（Ａ）テールに結合することができる。ランダム六塩基プライマーは、多種多様な相補部位においてｍＲＮＡに結合することができる。標的特異オリゴヌクレオチドプライマーは通常、関心のあるｍＲＮＡを選択的にプライミングする。

幾つかの実施形態では、標識されたＲＮＡ分子の逆転写は、逆転写プライマーの添加によって行うことができる。幾つかの実施形態では、逆転写プライマーは、オリゴ（ｄＴ）プライマー、ランダム六塩基プライマー、又は標的特異オリゴヌクレオチドプライマーである。一般に、オリゴ（ｄＴ）プライマーはヌクレオチド１２個～１８個の長さであり、哺乳類ｍＲＮＡの３’末端における内因性ポリ（Ａ）テールに結合する。ランダム六塩基プライマーは、多種多様な相補部位においてｍＲＮＡに結合することができる。標的特異オリゴヌクレオチドプライマーは通常、関心のあるｍＲＮＡを選択的にプライミングする。

逆転写を繰り返し行って、複数の標識されたｃＤＮＡ分子を生成することができる。本明細書に開示される方法は、少なくとも約１回、２回、３回、４回、５回、６回、７回、８回、９回、１０回、１１回、１２回、１３回、１４回、１５回、１６回、１７回、１８回、１９回、又は２０回、逆転写反応を行うことを含むことができる。方法は、少なくとも約２５回、３０回、３５回、４０回、４５回、５０回、５５回、６０回、６５回、７０回、７５回、８０回、８５回、９０回、９５回、又は１００回、逆転写反応を行うことを含むことができる。

増幅
１つ又は複数の核酸増幅反応（例えば、図２のブロック２２８における）を実行して、標識された標的核酸分子の複数のコピーを作成することができる。増幅は多重化して実行することができ、複数の標的核酸配列は同時に増幅される。増幅反応を使用して、シーケンシングアダプターを核酸分子に追加することができる。増幅反応は、試料標識が存在する場合、試料標識の少なくとも一部を増幅することを含むことができる。増幅反応は、細胞標識及び／又はバーコード配列（例えば、分子標識）の少なくとも一部を増幅することを含むことができる。増幅反応は、試料タグ、細胞標識、空間標識、バーコード（例えば、分子標識）、標的核酸、又はそれらの組合せの少なくとも一部を増幅することを含むことができる。増幅反応は、複数の核酸の０．５％、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９７％、１００％、又はそれらの値の任意の２つの間の範囲若しくは数字、増幅することを含むことができる。方法は、１つ又は複数のｃＤＮＡ合成反応を行い、試料標識、細胞標識、空間標識、及び／又はバーコード配列（例えば、分子標識）を含む標的バーコード分子の１つ又は複数のｃＤＮＡコピーを生成することを更に含むことができる。

幾つかの実施形態では、増幅は、ポリメラーゼ連鎖反応（ＰＣＲ）を使用して実行することができる。本明細書で使用される場合、ＰＣＲは、ＤＮＡの相補鎖の同時プライマー伸長によって特定のＤＮＡ配列をｉｎｖｉｔｒｏで増幅する反応を指すことができる。本明細書で使用される場合、ＰＣＲは、限定ではなく、ＲＴ－ＰＣＲ、リアルタイムＰＣＲ、ネストＰＣＲ、定量的ＰＣＲ、多重ＰＣＲ、デジタルＰＣＲ、及びアセンブリＰＣＲを含め、反応の誘導体を包含することができる。

標識された核酸の増幅は、非ＰＣＲベースの方法を含むこともできる。非ＰＣＲベースの方法の例には、限定ではなく、多置換増幅（ＭＤＡ）、転写介在増幅（ＴＭＡ）、核酸配列ベースの増幅（ＮＡＳＢＡ）、鎖置換増幅（ＳＤＡ）、リアルタイムＳＤＡ、ローリングサークル増幅又はサークル－サークル増幅がある。他の非ＰＣＲベースの増幅方法には、ＤＮＡ又はＲＮＡ標的を増幅する多サイクルのＤＮＡ依存のＲＮＡポリメラーゼ誘導ＲＮＡ転写増幅又はＲＮＡ依存性ＤＮＡ合成及び転写、リガーゼ連鎖反応（ＬＣＲ）、Ｑβレプリカーゼ（Ｑβ）法、回文プローブ（ｐａｌｉｎｄｒｏｍｉｃｐｒｏｂｅ）の使用、鎖置換増幅、制限エンドヌクレアーゼを使用したオリゴヌクレオチド誘導増幅、プライマーが核酸配列にハイブリダイズし、その結果生成された二本鎖が、伸長反応及び増幅の前に開裂する増幅法、５’エキソヌクレアーゼ活性を欠く核酸ポリメラーゼを使用した鎖置換増幅、ローリングサークル増幅、並びに分岐伸長増幅（ＲＡＭ）がある。幾つかの実施形態では、増幅は環状転写物を生成しない。

幾つかの実施形態では、本明細書に開示される方法は、標識された核酸（例えば、標識されたＲＮＡ、標識されたＤＮＡ、標識されたｃＤＮＡ）に対してポリメラーゼ連鎖反応を行い、標識された増幅産物（例えば、確率的に標識された増幅産物）を生成することを更に含む。標識された増幅産物は、二本鎖分子であることができる。二本鎖分子は、二本鎖ＲＮＡ分子、二本鎖ＤＮＡ分子、又はＤＮＡ分子にハイブリダイズしたＲＮＡ分子を含むことができる。二本鎖分子の一方又は両方の鎖は、試料標識、空間標識、細胞標識、及び／又はバーコード配列（例えば、分子標識）を含むことができる。標識された増幅産物は、単鎖分子であることができる。単鎖分子は、ＤＮＡ、ＲＮＡ、又はそれらの組合せを含むことができる。本開示の核酸は、合成核酸及び改変核酸を含むことができる。

増幅は、１つ又は複数の非天然ヌクレオチドの使用を含むことができる。非天然ヌクレオチドは、感光性又はトリガー可能（ｔｒｉｇｇｅｒａｂｌｅ）ヌクレオチドを含むことができる。非天然ヌクレオチドの例としては、限定ではなく、ペプチド核酸（ＰＮＡ）、モルフォリノ及びロックド核酸（ＬＮＡ）、並びにグリコール核酸（ＧＮＡ）及びトレオース核酸（ＴＮＡ）を挙げることができる。非天然ヌクレオチドは、増幅反応の１つ又は複数のサイクルに追加することができる。非天然ヌクレオチドの追加を使用して、増幅反応における特定のサイクル又は時点として産物を識別することができる。

１つ又は複数の増幅反応を行うことは、１つ又は複数のプライマーの使用を含むことができる。１つ又は複数のプライマーは、例えば、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、又はそれを超える個数のヌクレオチドを含むことができる。１つ又は複数のプライマーは、少なくとも１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、又はそれを超える個数のヌクレオチドを含むことができる。１つ又は複数のプライマーは、１２個～１５個未満のヌクレオチドを含むことができる。１つ又は複数のプライマーは、複数の標識された標的（例えば、確率的に標識された標的）の少なくとも一部にアニールすることができる。１つ又は複数のプライマーは、複数の標識された標的の３’末端及び５’末端にアニールすることができる。１つ又は複数のプライマーは、複数の標識された標的の内部領域にアニールすることができる。内部領域は、複数の標識された標的の３’末端からの少なくとも約５０個、１００個、１５０個、２００個、２２０個、２３０個、２４０個、２５０個、２６０個、２７０個、２８０個、２９０個、３００個、３１０個、３２０個、３３０個、３４０個、３５０個、３６０個、３７０個、３８０個、３９０個、４００個、４１０個、４２０個、４３０個、４４０個、４５０個、４６０個、４７０個、４８０個、４９０個、５００個、５１０個、５２０個、５３０個、５４０個、５５０個、５６０個、５７０個、５８０個、５９０個、６００個、６５０個、７００個、７５０個、８００個、８５０個、９００個、又は１０００個のヌクレオチドであることができる。１つ又は複数のプライマーは、プライマーの固定パネルを含むことができる。１つ又は複数のプライマーは、少なくとも１つ又は複数のカスタムプライマーを含むことができる。１つ又は複数のプライマーは、少なくとも１つ又は複数のコントロールプライマーを含むことができる。１つ又は複数のプライマーは、少なくとも１つ又は複数の遺伝子特異的プライマーを含むことができる。

１つ又は複数のプライマーは、ユニバーサルプライマーを含むことができる。ユニバーサルプライマーは、ユニバーサルプライマー結合部位にアニールすることができる。１つ又は複数のカスタムプライマーは、最初の試料標識、次の試料標識、空間標識、細胞標識、バーコード配列（例えば、分子標識）、標的、又は任意のそれらの組合せにアニールすることができる。１つ又は複数のプライマーは、ユニバーサルプライマー及びカスタムプライマーを含むことができる。カスタムプライマーは、１つ又は複数の標的を増幅するように設計することができる。標的は、１つ又は複数の試料中の合計核酸のサブセットを含むことができる。標的は、１つ又は複数の試料中の標識された合計標的のサブセットを含むことができる。１つ又は複数のプライマーは、少なくとも９６個以上のカスタムプライマーを含むことができる。１つ又は複数のプライマーは、少なくとも９６０個以上のカスタムプライマーを含むことができる。１つ又は複数のプライマーは、少なくとも９６００個以上のカスタムプライマーを含むことができる。１つ又は複数のカスタムプライマーは、２つ以上の異なる標識核酸にアニールすることができる。２つ以上の異なる標識核酸は、１つ又は複数の遺伝子に対応することができる。

本開示の方法では、任意の増幅方式を使用することができる。例えば、一方式では、１回目のＰＣＲは、遺伝子特異的プライマー及びユニバーサルＩｌｌｕｍｉｎａシーケンシングプライマー１配列に対するプライマーを使用して、ビーズに付着した分子を増幅することができる。２回目のＰＣＲは、Ｉｌｌｕｍｉｎａシーケンシングプライマー２配列に隣接したネスト遺伝子特異的プライマー及びユニバーサルＩｌｌｕｍｉｎａシーケンシングプライマー１配列に対するプライマーを使用して、１回目のＰＣＲの産物を増幅することができる。３回目のＰＣＲは、Ｐ５及びＰ７並びに試料インデックスを追加して、ＰＣＲ産物をＩｌｌｕｍｉｎａシーケンシングライブラリにする。１５０ｂｐ×２シーケンシングを使用したシーケンシングは、リード１で細胞標識及びバーコード配列（例えば、分子標識）を明らかにし、リード２で遺伝子を明らかにし、インデックス１リードで試料インデックスを明らかにすることができる。

幾つかの実施形態では、核酸は、化学開裂を使用して基板から取り外すことができる。例えば、核酸に存在する化学基又は修飾塩基を使用して、固体支持体からの核酸の取り外しを促進することができる。例えば、酵素を使用して、核酸を基板から取り外すことができる。例えば、核酸は、制限エンドヌクレアーゼによる消化を通して基板から取り外すことができる。例えば、ウラシル－ｄ－グリコシラーゼ（ＵＤＧ）を用いた、ｄＵＴＰ又はｄｄＵＴＰを含む核酸の処理を使用して、基板から核酸を取り外すことができる。例えば、核酸は、脱プリン／脱ピリミジン塩基（ＡＰ）エンドヌクレアーゼ等の塩基除去修復酵素等のヌクレオチド除去を実行する酵素を使用して、基板から取り外すことができる。幾つかの実施形態では、核酸は、光開裂可能基及び光を使用して基板から取り外すことができる。幾つかの実施形態では、開裂可能リンカーを使用して、核酸を基板から取り外すことができる。例えば、開裂可能リンカーは、ビオチン／アビジン、ビオチン／ストレプトアビジン、ビオチン／ニュートラアビジン、Ｉｇ－タンパク質Ａ、感光性リンカー、酸若しくは塩基不安定性リンカー基、又はアプタマーの少なくとも１つを含むことができる。

プローブが遺伝子特異的である場合、分子はプローブにハイブリダイズし、逆転写及び／又は増幅することができる。幾つかの実施形態では、核酸が合成（例えば、逆転写）された後、核酸を増幅することができる。増幅は、多重化して実行することができ、複数の標的核酸配列は同時に増幅される。増幅は、シーケンシングアダプターを核酸に追加することができる。

幾つかの実施形態では、増幅は、例えば、ブリッジ増幅を用いて基板で実行することができる。ｃＤＮＡは、基板上のオリゴ（ｄＴ）プローブを使用してブリッジ増幅するためのコンパチブル末端を生成するために、ホモポリマーテール化することができる。ブリッジ増幅では、鋳型核酸の３’末端と相補的なプライマーは、固体粒子に共有結合で付着した各ペアのうちの第１のプライマーであることができる。鋳型核酸を含む試料が粒子に接触し、１回の熱サイクルが実行されると、鋳型分子を第１のプライマーにアニールすることができ、第１のプライマーは、ヌクレオチドの追加により順方向に伸長して、鋳型分子と、鋳型と相補的な新たに形成されたＤＮＡ鎖とからなる二本鎖分子を形成する。次のサイクルの加熱ステップにおいて、二本鎖分子を変性させ、鋳型分子を粒子から解放し、第１のプライマーを通して相補ＤＮＡ鎖を粒子に付着させたままにすることができる。アニーリングするアニーリング段階及び続く伸長ステップにおいて、相補鎖を第２のプライマーにハイブリダイズすることができ、これは、第１のプライマーから取り外されたロケーションにおける相補鎖のセグメントに相補的である。このハイブリダイゼーションは、相補鎖に、第１のプライマーと第２のプライマーとの間に、第１のプライマーには共有結合により固定され、第２のプライマーにはハイブリダイゼーションにより固定されたブリッジを形成させることができる。伸長段階では、第２のプライマーは、同じ反応混合物へのヌクレオチドの追加により逆方向に伸長し、それにより、ブリッジを二本鎖ブリッジに変換することができる。次に、次のサイクルが開始され、二本鎖ブリッジを変性させて、２つの単鎖核酸分子を生成することができる、各単鎖核酸分子は、第１及び第２のプライマーを介してそれぞれ粒子表面に付着した一端部と、それぞれ付着していない他端部とを有する。この２回目のサイクルのアニール及び伸長ステップにおいて、各鎖は、同じ粒子上の、前は使用されなかった更なる相補プライマーとハイブリダイズして、新しい単鎖ブリッジを形成することができる。ここでハイブリダイズされた、前は使用されなかった２つのプライマーは伸長して、２つの新しいブリッジを二本鎖ブリッジに変換する。

増幅反応は、複数の核酸の少なくとも１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９７％、又は１００％を増幅することを含むことができる。

標識された核酸の増幅は、ＰＣＲベースの方法又は非ＰＣＲベースの方法を含むことができる。標識された核酸の増幅は、標識された核酸の指数的増幅を含むことができる。標識された核酸の増幅は、標識された核酸の線形的増幅を含むことができる。増幅は、ポリメラーゼ連鎖反応（ＰＣＲ）により実行することができる。ＰＣＲは、ＤＮＡの相補鎖の同時プライマー伸長による特定のＤＮＡ配列のｉｎｖｉｔｒｏ増幅の反応を指すことができる。ＰＣＲは、限定ではなく、ＲＴ－ＰＣＲ、リアルタイムＰＣＲ、ネストＰＣＲ、定量的ＰＣＲ、多重ＰＣＲ、デジタルＰＣＲ、抑制ＰＣＲ、半ＰＣＲ抑制、及びアセンブリＰＣＲを含め、反応の誘導体を包含することができる。

幾つかの実施形態では、標識された核酸の増幅は、非ＰＣＲベースの方法を含む。非ＰＣＲベースの方法の例には、限定ではなく、多置換増幅（ＭＤＡ）、転写介在増幅（ＴＭＡ）、核酸配列ベースの増幅（ＮＡＳＢＡ）、鎖置換増幅（ＳＤＡ）、リアルタイムＳＤＡ、ローリングサークル増幅又はサークル－サークル増幅がある。他の非ＰＣＲベースの増幅方法には、ＤＮＡ又はＲＮＡ標的を増幅する多サイクルのＤＮＡ依存のＲＮＡポリメラーゼ誘導ＲＮＡ転写増幅又はＲＮＡ依存性ＤＮＡ合成及び転写、リガーゼ連鎖反応（ＬＣＲ）、Ｑβレプリカーゼ（Ｑβ）法、回文プローブの使用、鎖置換増幅、制限エンドヌクレアーゼを使用したオリゴヌクレオチド誘導増幅、プライマーが核酸配列にハイブリダイズし、その結果生成された二本鎖が、伸長反応及び増幅の前に開裂する増幅法、５’エキソヌクレアーゼ活性を欠く核酸ポリメラーゼを使用した鎖置換増幅、ローリングサークル増幅、及び／又は分岐伸長増幅（ＲＡＭ）がある。

幾つかの実施形態では、本明細書に開示される方法は、増幅された増幅産物（例えば、標的）に対してネストポリメラーゼ連鎖反応を行うことを更に含む。増幅産物は二本鎖分子であることができる。二本鎖分子は、二本鎖ＲＮＡ分子、二本鎖ＤＮＡ分子、又はＤＮＡ分子にハイブリダイズしたＲＮＡ分子を含むことができる。二本鎖分子の一方又は両方の鎖は、試料タグ又は分子識別子標識を含むことができる。代替的には、増幅産物は単鎖分子であることができる。単鎖分子は、ＤＮＡ、ＲＮＡ、又はそれらの組合せを含むことができる。本開示の核酸は、合成核酸及び改変核酸を含むことができる。

幾つかの実施形態では、方法は、標識された核酸を繰り返し増幅して、複数の増幅産物を生成することを含む。本明細書に開示される方法は、少なくとも約１回、２回、３回、４回、５回、６回、７回、８回、９回、１０回、１１回、１２回、１３回、１４回、１５回、１６回、１７回、１８回、１９回、又は２０回の増幅反応を行うことを含むことができる。代替的には、方法は、少なくとも約２５回、３０回、３５回、４０回、４５回、５０回、５５回、６０回、６５回、７０回、７５回、８０回、８５回、９０回、９５回、又は１００回の増幅反応を行うことを含む。

増幅は、複数の核酸を含む１つ又は複数の試料に１つ又は複数のコントロール核酸を追加することを更に含むことができる。増幅は、１つ又は複数のコントロール核酸を複数の核酸に追加することを更に含むことができる。コントロール核酸はコントロール標識を含むことができる。

増幅は、１つ又は複数の非天然ヌクレオチドの使用を含むことができる。非天然ヌクレオチドは、感光性又はトリガー可能ヌクレオチドを含むことができる。非天然ヌクレオチドの例には、限定ではなく、ペプチド核酸（ＰＮＡ）、モルフォリノ及びロックド核酸（ＬＮＡ）、並びにグリコール核酸（ＧＮＡ）及びトレオース核酸（ＴＮＡ）がある。非天然ヌクレオチドは、増幅反応の１つ又は複数のサイクルに追加することができる。非天然ヌクレオチドの追加を使用して、増幅反応における特定のサイクル又は時点として産物を識別することができる。

１つ又は複数の増幅反応を行うことは、１つ又は複数のプライマーの使用を含むことができる。１つ又は複数のプライマーは、１つ又は複数のオリゴヌクレオチドを含むことができる。１つ又は複数のオリゴヌクレオチドは、少なくとも約７個～９個のヌクレオチドを含むことができる。１つ又は複数のオリゴヌクレオチドは、１２個～１５個未満のヌクレオチドを含むことができる。１つ又は複数のプライマーは、複数の標識された核酸の少なくとも一部にアニールすることができる。１つ又は複数のプライマーは、複数の標識された核酸の３’末端及び／又は５’末端にアニールすることができる。１つ又は複数のプライマーは、複数の標識された核酸の内部領域にアニールすることができる。内部領域は、複数の標識された核酸の３’末端からの少なくとも約５０個、１００個、１５０個、２００個、２２０個、２３０個、２４０個、２５０個、２６０個、２７０個、２８０個、２９０個、３００個、３１０個、３２０個、３３０個、３４０個、３５０個、３６０個、３７０個、３８０個、３９０個、４００個、４１０個、４２０個、４３０個、４４０個、４５０個、４６０個、４７０個、４８０個、４９０個、５００個、５１０個、５２０個、５３０個、５４０個、５５０個、５６０個、５７０個、５８０個、５９０個、６００個、６５０個、７００個、７５０個、８００個、８５０個、９００個、又は１０００個のヌクレオチドであることができる。１つ又は複数のプライマーは、プライマーの固定パネルを含むことができる。１つ又は複数のプライマーは、少なくとも１つ又は複数のカスタムプライマーを含むことができる。１つ又は複数のプライマーは、少なくとも１つ又は複数のコントロールプライマーを含むことができる。１つ又は複数のプライマーは、少なくとも１つ又は複数のハウスキーピング遺伝子プライマーを含むことができる。１つ又は複数のプライマーは、ユニバーサルプライマーを含むことができる。ユニバーサルプライマーは、ユニバーサルプライマー結合部位にアニールすることができる。１つ又は複数のカスタムプライマーは、最初の試料タグ、次の試料タグ、分子識別子標識、核酸、又はその産物にアニールすることができる。１つ又は複数のプライマーは、ユニバーサルプライマー及びカスタムプライマーを含むことができる。カスタムプライマーは、１つ又は複数の標的核酸を増幅するように設計することができる。標的核酸は、１つ又は複数の試料中の合計核酸のサブセットを含むことができる。幾つかの実施形態では、プライマーは、本開示のアレイに付着したプローブである。

幾つかの実施形態では、試料中の複数の標的をバーコーディング（例えば、確率的バーコーディング）することは、バーコード付き断片の索引付きライブラリを生成することを更に含む。異なるバーコードのバーコード配列（例えば、異なる確率的バーコードの分子標識）は、互いと異なることができる。バーコード付き標的（例えば、確率的バーコード付き標的）の索引付きライブラリを生成することは、試料中の複数の標的から複数の索引付きポリヌクレオチドを生成することを含む。例えば、第１の索引付き標的及び第２の索引付き標的を含むバーコード付き標的の索引付きライブラリの場合、第１の索引付きポリヌクレオチドの標識領域は、第２の索引付きポリヌクレオチドの標識領域から、少なくとも又は多くとも１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、又はこれらの値の任意の２つの間の数若しくは範囲の個数のヌクレオチド分、異なることができる。幾つかの実施形態では、バーコード付き標的の索引付きライブラリを生成することは、ポリ（Ｔ）領域及び標識領域を含む複数のオリゴヌクレオチドで複数の標的、例えば、ｍＲＮＡ分子に接触することと、逆転写酵素を使用して第１の鎖合成を行い、ｃＤＮＡ領域及び標識領域をそれぞれ含む単鎖標識ｃＤＮＡ分子を生成することとを含み、複数の標的は、異なる配列の少なくとも２つのｍＲＮＡ分子を含み、複数のオリゴヌクレオチドは、異なる配列の少なくとも２つのオリゴヌクレオチドを含む。バーコード付き標的の索引付きライブラリの生成は、単鎖標識ｃＤＮＡ分子を増幅して、二本鎖標識ｃＤＮＡ分子を生成することと、ネストＰＣＲを二本鎖標識ｃＤＮＡ分子に対して行い、標識された増幅産物を生成することとを更に含むことができる。幾つかの実施形態では、方法は、アダプター標識増幅産物を生成することを含むことができる。

確率的バーコーディングは、核酸バーコード又はタグを使用して、個々の核酸（例えば、ＤＮＡ又はＲＮＡ）分子を標識することができる。幾つかの実施形態では、ｃＤＮＡ分子がｍＲＮＡから生成されると、ＤＮＡバーコード又はタグをｃＤＮＡ分子に追加することを含む。ネストＰＣＲを実行して、ＰＣＲ増幅バイアスを最小に抑えることができる。アダプターは、例えば、次世代シーケンシング（ＮＧＳ）を使用するシーケンシングの場合、追加することができる。例えば、図２のブロック２３２において、シーケンシング結果を使用して、細胞標識、バーコード配列（例えば、分子標識）、及び標的の１つ又は複数のコピーのヌクレオチド断片の配列を特定することができる。

図３は、バーコード付き標的（例えば、確率的バーコード付き標的）、例えば、ｍＲＮＡの索引付きライブラリを生成する非限定的で例示的なプロセスを示す概略図である。ステップ１に示されるように、逆転写プロセスは、一意のバーコード配列（例えば、分子標識）、細胞標識、及びユニバーサルＰＣＲ部位を各ｍＲＮＡにコードすることができる。例えば、ＲＮＡ分子３０２を逆転写して、１組のバーコード（例えば、確率的バーコード）３１０）をＲＮＡ分子３０２のポリ（Ａ）テール領域３０８にハイブリダイズすることにより、ｃＤＮＡ領域３０６を含む標識されたｃＤＮＡ分子３０４を生成することができる。各バーコード３１０は、標的結合領域、例えばポリ（ｄＴ）領域３１２、バーコード配列又は分子標識３１４、及びユニバーサルＰＣＲ領域３１６を含むことができる。

幾つかの実施形態では、細胞標識は３個～２０個のヌクレオチドを含むことができる。幾つかの実施形態では、バーコード配列（例えば、分子標識）は、３個～２０個のヌクレオチドを含むことができる。幾つかの実施形態では、複数の確率的バーコードのそれぞれは、ユニバーサル標識及び細胞標識の１つ又は複数を更に含み、ユニバーサル標識は、固体支持体上の複数の確率的バーコードで同じであり、細胞標識は、固体支持体上の複数の確率的バーコードで同じである。幾つかの実施形態では、ユニバーサル標識は、３個～２０個のヌクレオチドを含むことができる。幾つかの実施形態では、細胞標識は、３個～２０個のヌクレオチドを含むことができる。

幾つかの実施形態では、標識領域３１４は、バーコード配列又は分子標識３１８及び細胞標識３２０を含むことができる。幾つかの実施形態では、標識領域３１４は、ユニバーサル標識、次元標識、及び細胞標識の１つ又は複数を含むことができる。バーコード配列又は分子標識３１８は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、若しくはこれらの値の任意の２つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。細胞標識３２０は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、若しくはこれらの値の任意の２つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。ユニバーサル標識は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、若しくはこれらの値の任意の２つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。ユニバーサル標識は、固体支持体上の複数の確率的バーコードで同じであることができ、細胞標識は、固体支持体上の複数の確率的バーコードで同じである。次元標識は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、若しくはこれらの値の任意の２つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。

幾つかの実施形態では、標識領域３１４は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、若しくはこれらの値の任意の２つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数のバーコード配列又は分子標識３１８及び細胞標識３２０等の異なる標識を含むことができる。各標識は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、若しくはこれらの値の任意の２つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の長さであることができる。１組のバーコード又は確率的バーコード３１０は、１０個、２０個、４０個、５０個、７０個、８０個、９０個、１０²個、１０³個、１０⁴個、１０⁵個、１０⁶個、１０⁷個、１０⁸個、１０⁹個、１０¹⁰個、１０¹¹個、１０¹²個、１０¹³個、１０¹⁴個、１０¹⁵個、１０²⁰個、若しくはこれらの値の任意の２つの間の数若しくは範囲の個数のヌクレオチドの長さであることができ、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数のバーコード又は確率的バーコード３１０を含むことができる。そして、１組のバーコード又は確率的バーコード３１０は、例えば、それぞれ、一意の標識領域３１４を含むことができる。標識されたｃＤＮＡ分子３０４は精製されて、余分なバーコード又は確率的バーコード３１０を取り外すことができる。精製はＡｍｐｕｒｅビーズ精製を含むことができる。

ステップ２に示されるように、ステップ１における逆転写プロセスからの産物は、１つの管にプールし、第１世代ＰＣＲプライマープール及び第１世代ユニバーサルＰＣＲプライマーを用いてＰＣＲ増幅することができる。プールは、一意の標識領域３１４により可能である。特に、標識されたｃＤＮＡな分子３０４を増幅して、ネストＰＣＲ標識増幅産物３２２を生成することができる。増幅は、多重ＰＣＲ増幅を含むことができる。増幅は、単一反応容量中の９６個の多重プライマーを用いる多重ＰＣＲ増幅を含むことができる。幾つかの実施形態では、多重ＰＣＲ増幅は、単一反応容量中の１０個、２０個、４０個、５０個、７０個、８０個、９０個、１０²個、１０³個、１０⁴個、１０⁵個、１０⁶個、１０⁷個、１０⁸個、１０⁹個、１０¹⁰個、１０¹¹個、１０¹²個、１０¹³個、１０¹⁴個、１０¹⁵個、１０²⁰個、若しくはこれらの値の任意の２つの間の数若しくは範囲の個数、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の多重プライマーを利用することができる。増幅は、特定の遺伝子を標的としたカスタムプライマー３２６Ａ～Ｃの第１世代ＰＣＲプライマープール３２４及びユニバーサルプライマー３２８を含むことができる。カスタムプライマー３２６は、標識されたｃＤＮＡ分子３０４のｃＤＮＡ部分３０６’内の領域にハイブリダイズすることができる。ユニバーサルプライマー３２８は、標識されたｃＤＮＡ分子３０４のユニバーサルＰＣＲ領域３１６にハイブリダイズすることができる。

図３のステップ３に示されるように、ステップ２におけるＰＣＲ増幅からの産物は、ネストＰＣＲプライマープール及び第２世代ユニバーサルＰＣＲプライマーを用いて増幅することができる。ネストＰＣＲは、ＰＣＲ増幅バイアスを最小に抑えることができる。例えば、ネストＰＣＲ標識増幅産物３２２は、ネストＰＣＲによって更に増幅することができる。ネストＰＣＲは、単一反応容量中に、ネストＰＣＲプライマー３３２ａ～ｃのネストＰＣＲプライマープール３３０と、第２世代ユニバーサルＰＣＲプライマー３２８’とを有する多重ＰＣＲを含むことができる。ネストＰＣＲプライマープール３２８は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、若しくはこれらの値の任意の２つの間の数若しくは範囲の個数、約これらの個数、少なくともこれらの個数、又は多くともこれらの個数の異なるネストＰＣＲプライマー３３０を含むことができる。ネストＰＣＲプライマー３３２は、アダプター３３４を含むことができ、標識された増幅産物３２２のｃＤＮＡ部分３０６’’内の領域にハイブリダイズすることができる。ユニバーサルプライマー３２８’は、アダプター３３６を含むことができ、標識された増幅産物３２２のユニバーサルＰＣＲ領域３１６にハイブリダイズすることができる。したがって、ステップ３は、アダプター標識された増幅産物３３８を生成する。幾つかの実施形態では、ネストＰＣＲプライマー３３２及び第２世代ユニバーサルＰＣＲプライマー３２８’は、アダプター３３４及び３３６を含まなくてよい。アダプター３３４及び３３６は代わりに、ネストＰＣＲの産物にライゲートして、アダプター標識された増幅産物３３８を生成することができる。

ステップ４に示されるように、ステップ３からのＰＣＲ産物は、ライブラリ増幅プライマーを使用して、シーケンシングに向けてＰＣＲ増幅することができる。特に、アダプター３３４及び３３６を使用して、１つ又は複数の追加のアッセイをアダプター標識された増幅産物３３８に対して行うことができる。アダプター３３４及び３３６は、プライマー３４０及び３４２にハイブリダイズすることができる。１つ又は複数のプライマー３４０及び３４２は、ＰＣＲ増幅プライマーであることができる。１つ又は複数のプライマー３４０及び３４２は、シーケンシングプライマーであることができる。１つ又は複数のアダプター３３４及び３３６は、アダプター標識された増幅産物３３８の更なる増幅に使用することができる。１つ又は複数のアダプター３３４及び３３６は、アダプター標識された増幅産物３３８のシーケンシングに使用することができる。プライマー３４２は、同じ組のバーコード又は確率的バーコード３１０を使用して生成された増幅産物が、次世代シーケンシング（ＮＧＳ）を使用した１つのシーケンシング反応でシーケンシングすることができるようなプレートインデックス３４４を含むことができる。

系統樹を使用した発現プロファイルのクラスタリング
本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、方法は、（ａ）標的カウントデータ構造を受信することであって、標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、複数の細胞の発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、（ｂ）標的カウントデータ構造及び複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することであって、系統樹は複数のノードを含み、複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、複数のリーフノードの各リーフノードは、複数の細胞の異なる細胞の発現プロファイルを表し、ルートノードは、複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、（ｃ）系統樹の複数のノードの各ノードを通して系統樹のルートノードから系統樹の複数のリーフノードまでトラバースする間、（１）ノードをノードの子ノードに分割することが有効であるか、それとも無効であるか（例えば、子ノード間の差が有意であるか否か）を判断することと、（２）ノードをノードの子ノードに分割することが無効である場合、ノードを統合クラスタセットに追加することと、（ｄ）統合クラスタセット内の第１のノードのそれぞれについて、繰り返し、統合クラスタセット内の第１のノードと、第１のノードに最も近い統合クラスタセット内の第２のノードとの間の距離が、統合距離閾値内である場合、第１のノードを第２のノードと統合して、第１のノード及び第２のノードによって表される発現プロファイルを含む統合ノードを生成することと、（ｅ）統合クラスタセット内のノードのそれぞれについて、ノードによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することとを含む。

図４は、細胞タイプを区別する標的を識別する非限定的で例示的な方法４００を示すフローチャートである。方法４００は、分子カウントデータ構造（例えば、分子カウントマトリックス）を１組のクラスタ標識及び１組の重要遺伝子にマッピングする。幾つかの実施形態では、入力は、分子カウントのＮ×Ｍマトリックス又はｉｊ番目のエントリが、細胞ｉからのリードを使用して観測された遺伝子ｊの分子数を記述するアレイであることができる。アルゴリズムは２つの出力を生成することができる。第１の出力は、各細胞（同じ標識の細胞は「同様」であると推測することができる）に一つずつ、Ｎ個１組の標識であることができる。第２の出力は、クラスタを互いから区別するのに使用することができる１組の遺伝子であることができる。

方法４００は、系統樹の分割、検定、及び統合手法を使用して２つの出力を生成する。データを前処理し、距離データ構造（例えば、距離マトリックス）Ｄを生成した後、アルゴリズムは、Ｄを階層的にクラスタリングして系統樹を生成することができる。アルゴリズムは２つのフェーズを含むことができる。分割及び検定フェーズ中、方法４００は、系統樹の最上部（例えば、図５におけるツリー又は系統樹５００のルートノード５０４）から開始する。系統樹５００は、ルートノード５０４、複数のリーフノード５２０ａ～５２０ｈ、並びに複数の非ルート非リーフノード５０８ａ、５０８ｂ、５１２ａ、５１２ｂ、５１６ａ、及び５１６ｂを含む。系統樹の各ノード（リーフノード５２０ａ～５２０ｈ等のリーフノードを除き）において、ツリーは２つのサブツリーに分割される（例えば、ルートノード５０４は２つのサブツリー５０８ａ、５０８ｂに分割される）。分割は、クラスタ（例えば、２つ以上の細胞の発現プロファイルを含む）が２つの候補サブクラスタ（例えば、少なくとも１つの細胞の発現プロファイルをそれぞれ含む）に分割されることに対応する。分割の品質はスコア付けすることができる。サブクラスタが十分に異なると思われる場合、アルゴリズムは、各サブツリーでの実行に続く。十分に異なると思われない場合、アルゴリズムは、系統樹のこの部分で終了する。このフェーズは、データセットに１組の標識を生成する。統合フェーズ中、方法４００は、分割及び検定フェーズ中に生成された標識を使用して、これらのクラスタのいずれかを結合して、１つのクラスタを形成すべきか否かを判断する。幾つかの実施形態では、分割及び検定フェーズは、それぞれ少数の試料の小さなクラスタを生成する傾向を有する。統合フェーズは、小さなクラスタを大きなクラスタと統合することにより、小さなクラスタを「クリーンアップ」することができる。

ブロック４０４において、方法４００は、分子カウントデータ構造（例えば、分子カウントマトリックス）を受信することを含むことができる。マトリックスは、整数の非負エントリのみを含むことができ、大きく疎である傾向を有する。幾つかの実施形態では、入力は、分子カウントのＮ×Ｍマトリックス又はｉｊ番目のエントリが、細胞ｉからのリードを使用して観測された遺伝子ｊの分子数を記述するアレイであることができる。

ブロック４０８において、方法４００は、分子カウントデータ構造を前処理して、距離データ構造（例えば、距離マトリックス）を生成することを含むことができる。幾つかの実施形態では、入力データ構造は対数変換される。自然対数がとられる前、値１が各エントリに追加される。相関距離を使用して、細胞の各ペア間のペア毎の相違性ｄを記述することができる。細胞ｃ_i及びｃ_jの場合、これらの２つの細胞間の相関距離は、式［１］を使用して特定することができる。

式中、

はｃ_iの全要素の平均を示す。前処理ステップの出力は、対角線に沿って０を有する距離の二乗対称マトリックスＤであることができる。

ブロック４１２において、方法４００は、細胞の発現プロファイルを階層的にクラスタリングして、系統樹を生成することを含むことができる。細胞の発現プロファイルを階層的にクラスタリングして、系統樹を生成することは、系統樹の２つの最近傍クラスタを繰り返し統合することを含むことができる。全クラスタは、上述したペア毎の間の距離を有する個々の点として開始することができる。クラスタ間の距離Ｄを計算することは、完全連鎖を使用して行われた。クラスタＡ及びＢの場合、２つのクラスタ間の距離は、式［２］を使用して特定することができる。
Ｄ（Ａ，Ｂ）＝ｍａｘ_a∈A,b∈Bｄ（ａ，ｂ）式［２］
このブロックにおいて、完全な系統樹を得ることができる。幾つかの実施形態では、クラスタＡのクラスタ内相関及びクラスタＢのクラスタ内相関は、クラスタＡとクラスタＢとのクラスタ間相関よりも高い。クラスタＡのクラスタ内相関及びクラスタＢのクラスタ内相関の尺度又は指示は、クラスタＡとクラスタＢとのクラスタ間相関よりも高い。クラスタＡのクラスタ内相関及びクラスタＢのクラスタ内相関の尺度は、クラスタＡ及びクラスタＢのクラスタ内最大相関、クラスタＡ及びクラスタＢのクラスタ内平均相関、クラスタＡ及びクラスタＢのクラスタ内メジアン相関、クラスタＡ及びクラスタＢのクラスタ内最小相関、並びにそれらの任意の組合せの少なくとも１つに基づくことができる。クラスタＡのクラスタ内相関は、クラスタＡのクラスタ内最大相関、クラスタＡのクラスタ内平均相関、クラスタＡのクラスタ内メジアン相関、クラスタＡのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。クラスタＢのクラスタ内相関は、クラスタＢのクラスタ内最大相関、クラスタＢのクラスタ内平均相関、クラスタＢのクラスタ内メジアン相関、クラスタＢのクラスタ内最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。クラスタＡとクラスタＢとのクラスタ間相関は、クラスタＡとクラスタＢとのクラスタ間最大相関、クラスタＡとクラスタＢとのクラスタ間平均相関、クラスタＡとクラスタＢとのクラスタ間メジアン相関、クラスタＡとクラスタＢとのクラスタ間最小相関、及びそれらの任意の組合せの少なくとも１つに基づくことができる。例えば、２つのサブクラスタのクラスタ内メジアン相関は、クラスタ間メジアン相関よりも高い値であることができる。

ブロック４１６において、方法４００は、系統樹を分割し検定して、１組の標識を生成することを含むことができる。分割及び検定は、系統樹の最上部において開始することができる。系統樹サブツリーＴ０を所与として、ツリーは厳密に２つのサブツリーＴＬ及びＴＲに分割することができる。統計検定を実行して、左サブツリーＴＬ内の細胞が、右サブツリーＴＲ内の細胞と十分に異なるか否かを判断することができる。幾つかの実施形態では、統計検定は、２つの集団の各遺伝子に対してウェルチｔ検定を実行することを含む。両集団中で分散が０であると推定される場合、無限大のｔ統計量が生じることができ、これらの場合は無視することができる。全検定の中での最小ｐ値が、特定の閾値（誤検出率について控えめに補正された）よりも低い場合、分割は有効であると見なすことができ、アルゴリズムは２つのサブツリーに対して再び実行される。最小ｐ値が閾値を下回らない場合、方法４００はサブツリーＴ０について終了する。ＴＬが厳密に１個の試料を含む（すなわち、ＴＬがシングルトンである）場合、ＴＬは無視することができ、アルゴリズムはＴＲを用いて手順を繰り返す。ＴＲが厳密に１個の試料を含む場合、ＴＲは無視することができ、アルゴリズムはＴＬを用いて手順を繰り返す。ＴＬ及びＴＲが両方ともそれぞれ厳密に１個の試料を含む場合、アルゴリズムはサブツリーＴ０について終了する。

ブロック４１６において、方法４００は、以下のようにクラスタ標識を特定することを含むことができる。最初に、全サブツリーを「ｒ」とラベル付けることができる。分割が生じ、ｐ値問題に起因して拒絶されない都度、ＴＬ内の細胞の全標識に「Ｌ」が添付され、ＴＲ内の細胞の全標識に「Ｒ」を添付することができる。これは、シングルトンをスキップする場合、標識がそれでもなお影響を受けることを意味する。シングルトンは自動的に、他のいかなるデータポイントとも共有されない一意の標識を取得する。

ブロック４１６において、方法４００は、各最終クラスタの一貫性を判断することを含むことができる。最終クラスタ内の全試料が互いから離れている（すなわち、クラスタ内のペア毎の間の距離が下部、例えば全距離の５０パーセンタイルにない）場合、クラスタは解散することができる。次に、各試料はシングルトンとして記すことができる。

ブロック４２０において、方法４００は、ブロック４１６において生成された１組の標識を統合して、別の組の標識を生成することを含むことができる。幾つかの実施形態では、統合は２段階プロセスであることができる。第１の段階において、各シングルトンは、前処理ブロック４０８からの距離データ構造（例えば、距離マトリックス）を使用して特定された最近傍と同じクラスタに配置することができる。最近傍へのシングルトンの距離が距離の上部１０％内にある（すなわち、全ての他の細胞から遠い）場合、そのシングルトンは、外れ値と記すことができ、それ自体のクラスタ内に留まる。この第１のステップは、全クラスタが少なくとも２つの非外れ値メンバを含むことを保証する。第２のステップにおいて、外れ値を除去した後、クラスタ間のペア毎の間の距離が、幾つかの統計検定を使用して計算され、ペア毎クラスタ距離マトリックスＤ_cが生成される。２つのクラスタ間の距離は、全遺伝子にわたるウェルチｔ検定を介して得られた最小ｐ値の負の対数として推定される。全体で最小の距離から始まり、２つの対応するクラスタは統合される。存在する全クラスタへの新しいクラスタの距離が計算され、プロセスは、ペア毎の間の距離が全て特定の距離を上回るまで繰り返される。パッケージは、Ｄ_cに対してＬｏｕｖａｉｎアルゴリズムを実行することにより統合するコミュニティ検出ベースの手法も与える。

ブロック４２４において、方法４００は、ブロック４２０において特定された１組の標識から特徴を選択して、細胞タイプを区別する特徴を識別することを含むことができる。幾つかの実施形態では、方法４００は、統合ブロック４２０から生成された標識を使用して２つのタイプの特徴選択を実行することができる。第１のタイプの特徴選択では、分割及び検定ブロック中、分割が保持される都度、Ｋ個の最小ｐ値を有するＫ個の遺伝子が保存される。系統樹の最上部に近い分割からの遺伝子ほど多く保持することができる。最終的に、全分割の和集合からの一意の遺伝子のリストが出力される。第２のタイプの特徴選択では、クラスタごとに、関心のあるクラスタ内でより高い平均を有する遺伝子のみを使用して、幾つかのｏｎｅ－ｖｓ－ｒｅｓｔ検定が行われる。各クラスタの重要遺伝子のテーブルを、各遺伝子についての幾らかの追加情報（例えば、ｐ値、フォールド変更、クラスタ内の平均発現レベル）と共に出力することができる。

方法４００は、探査分析を実行することを含むことができる。幾つかの実施形態では、方法４００は、分割及び統合段階における特定のステップを視覚化する幾つかの関数を利用することができ使用することができる。例えば、これらの関数は、分割（又は統合）に関わる細胞、各サブツリー（又は結合クラスタ）で終わる細胞、及びこの分割（又は統合）を決定付けた遺伝子を示す。別の例として、方法４００は、全クラスタの中でのペア毎の比較（例えば、どの遺伝子がクラスタの各ペアを区別するかを特定する）及び系統樹を描く関数を実行することができる。方法４００は、クラスタ内のペア毎の間の距離の分布に基づくことができる。幾つかの実施形態では、方法４００は、パラメータ掃引を実行することを含むことができ、も提供される。

発現プロファイルのクラスタリング
本明細書に開示されるのは、細胞タイプを区別する標的を識別する方法である。幾つかの実施形態では、方法は、（ａ）複数の細胞の発現プロファイルを受信することであって、発現プロファイルは、複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、（ｂ）複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することであって、各クラスタは、（１）親クラスタ及び（２）２つ以上の子クラスタのうちの一方又は両方との１つ又は複数の関連性を有し、親クラスタは、クラスタによって表される複数の細胞の１つ又は複数の細胞の発現プロファイルを表し、クラスタは、２つ以上の子クラスタによって表される発現プロファイルを表す、クラスタリングして生成することと、（ｃ）２つ以上の子クラスタを有する各クラスタについて、クラスタと２つ以上の子クラスタとの関連性が無効である（２つ以上の子クラスタ間の差が有意ではない）場合、クラスタを統合クラスタセットに追加することと、（ｄ）統合クラスタセット内の第１のクラスタのそれぞれについて、統合クラスタセット内の第１のクラスタと、第１のクラスタに最も近い統合クラスタセット内の第２のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、第１のクラスタ及び第２のクラスタを統合して、統合クラスタを生成することであって、統合クラスタは、第１のクラスタ及び第２のクラスタの発現プロファイルを含む、繰り返し統合することと、（ｅ）統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することとを含む。

図６は、細胞の発現プロファイルをクラスタリングすることにより、細胞タイプを区別する標的を識別する非限定的で例示的な方法を示すフローチャートである。ブロック６０４において、方法６００は、複数の細胞の発現プロファイルを受信する。各発現プロファイルは、複数の細胞の異なる細胞の複数の標的の幾つかの各標的を含むことができる。幾つかの実施形態では、複数の細胞の発現プロファイルを受信することは、標的カウントデータ構造（例えば、標的カウントマトリックス）を受信することを含む。標的カウントマトリックスの各行は、複数の細胞のうちの細胞の発現プロファイルを含むことができる。

受信される発現プロファイルの数は、異なる実施態様で異なることができる。幾つかの実施形態では、受信される発現プロファイルの数は、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、若しくはこれらの値の任意の２つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、受信される発現プロファイルの数は、少なくとも又は多くとも１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、又は１００００であることができる。

幾つかの実施形態では、方法６００は、ブロック６０４において、複数の細胞の発現プロファイルを受信する前、複数の確率的バーコードを使用して複数の細胞内の複数の標的を確率的にバーコーディングして、複数の確率的バーコード付き標的を作成することであって、複数の確率的バーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成される確率的バーコード付き標的は、異なる細胞標識を有し、複数の細胞の１つの細胞の標的から作成される確率的バーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、複数の確率的バーコード付き標的の配列データを取得することと、複数の細胞のそれぞれについて、（１）細胞の配列データ内の複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、（２）（１）においてカウントされた配列データ内の標的に関連付けられた別個の配列を有する分子標識の数に基づいて、細胞の複数の標的の各標的の数を推定することとを含む。幾つかの実施形態では、複数の細胞のうちの細胞の発現プロファイルは、（２）において推定された細胞の複数の標的の各標的の数を含む。

ブロック６０８において、方法６００は、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することを含むことができる。方法６００は、複数の細胞の発現プロファイル間の距離に基づいて、発現プロファイルのクラスタを生成することができる。各クラスタによって表される発現プロファイルの数は、異なる実施態様で異なることができる。幾つかの実施形態では、各クラスタによって表される発現プロファイルの数は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、若しくはこれらの値の任意の２つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、各クラスタによって表される発現プロファイルの数は、少なくとも又は多くとも１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、又は１００００であることができる。幾つかの実施形態では、各クラスタによって表される発現プロファイルは、ブロック６０４において受信される発現プロファイルの数の１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、１００％若しくはこれらの値の任意の２つの間の数若しくは範囲、又は約これらの値若しくは範囲であることができる。幾つかの実施形態では、各クラスタによって表される発現プロファイルは、少なくとも又は多くとも、ブロック６０４において受信される発現プロファイルの数の１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、又は１００％であることができる。

各クラスタは、（１）親クラスタ及び（２）２つ以上の子クラスタ（３個、４個、５個、６個、７個、８個、９個、１０個、又はそれを超える数の子クラスタ等）の一方又は両方との関連性を有することができる。親クラスタは、クラスタによって表される複数の細胞の１つ又は複数の細胞の発現プロファイルを表す。クラスタは、その２つ以上の子クラスタによって表される発現プロファイルを表す。

幾つかの実施形態では、発現プロファイルは、図４のブロック４１２等、図４を参照して説明したようにクラスタリングすることができる。例えば、方法６００は、複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルを階層的にクラスタリングして、複数の細胞の発現プロファイルを表す系統樹を生成することを含むことができる。系統樹は複数のクラスタを含むことができる。複数のクラスタは、ルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含むことができる。リーフクラスタの数は、例えば、発現プロファイルの数ｎと同じであることができる。非ルート非リーフクラスタの数は、例えば、ｎ－２であることができる。

複数のリーフクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有することができる。ルートクラスタ及び複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有することができ、クラスタの左子クラスタ及び右子クラスタによって表される発現プロファイルを表す。ルートクラスタは、複数の細胞の発現プロファイルを表すことができる。幾つかの実施態様では、リーフクラスタは、細胞の発現プロファイルを表すことができる。非ルート非リーフクラスタは、非ルート非リーフクラスタの子クラスタによって表される細胞の発現プロファイルを表すことができる。

幾つかの実施形態では、ブロック６０８において、複数の細胞の発現プロファイルの距離に基づいて複数の細胞の発現プロファイルをクラスタリングすることは、複数の細胞の各発現プロファイルを複数のクラスタ内の異なるリーフクラスタに割り当てることと、第２のクラスタが第１のクラスタへの複数のクラスタの最も近いクラスタである場合、複数のクラスタの第１のクラスタと第２のクラスタとを繰り返し結合して、第１のクラスタ及び第２のクラスタの親クラスタを生成することとを含む。第１のクラスタと第２のクラスタとの間の距離は、第１のクラスタによって表される発現プロファイルを有する任意の細胞と、第２のクラスタによって表される発現プロファイルを有する任意の細胞との間の最大距離であることができる。

幾つかの実施形態では、方法６００は、ブロック６０８において複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前、複数の細胞の発現プロファイルの距離データ構造（例えば、距離マトリックス）を特定することを含むことができる。マトリックスはｎ×ｎの寸法を有することができ、ここで、ｎは、ブロック６０４において受信した発現プロファイルの数を示す。距離マトリックスの各対角要素は、０の値を有する。ブロック６０８において複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することは、距離データ構造に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することを含むことができる。複数の細胞の発現プロファイル間の距離は、複数の細胞の発現プロファイル間のペア毎の相関距離であることができる。

幾つかの実施形態では、方法６００は、（ｉ）において距離データ構造を特定する前、標的カウントデータ構造を対数変換済み標的カウントデータ構造（例えば、対数変換標的カウントマトリックス）に対数変換することを含むことができる。標的カウントデータ構造の要素の距離データ構造を特定することは、対数変換済み標的カウントデータ構造の距離データ構造を特定することを含む。ブロック６０８において複数の細胞の発現プロファイル間の距離に基づいて、複数の細胞の発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することは、対数変換済み標的カウントデータ構造及び距離データ構造に基づいて、複数の細胞の発現プロファイルをクラスタリングして、複数のクラスタを生成することを含むことができる。標的カウントデータ構造を対数変換済み標的カウントデータに対数変換することは、標的カウントデータ構造の各要素の値を増分により増大させることを含むことができる。増分は、例えば、１、２、３、４、５、６、７、８、９、１０、又はそれを超える値であることができる。

ブロック６１２において、方法６００は、クラスタとその子クラスタとの関連性が無効である（例えば、子クラスタ間の相違が有意ではない）場合、２つ以上の子クラスタを有する発現プロファイルのクラスタの各クラスタを統合クラスタセットに追加することを含むことができる。幾つかの実施形態では、ブロック６０８において発現プロファイルがクラスタリングされて、系統樹を生成する場合、方法６００は、系統樹を分割し検定することにより、２つ以上の子クラスタを有する各クラスタを統合クラスタセットに追加して、図４のブロック４１６等、図４を参照して説明した１組の標識を生成することができる。

幾つかの実施形態では、２つ以上の子クラスタを有する各クラスタについて、クラスタと２つ以上の子クラスタとの関連性が無効である場合、方法６００は、系統樹のルートクラスタから系統樹の複数のリーフクラスタに系統樹の各クラスタを通してトラバースする間、（１）クラスタとクラスタの子クラスタとの関連性が有効であるか、それとも無効であるかを判断し、（２）関連性が無効である場合、クラスタを統合クラスタセットに追加することにより、クラスタを統合クラスタセットに追加することができる。

ブロック６１６において、方法６００は、統合クラスタセット内の各クラスタと統合クラスタセット内の最も近いクラスタとの間の距離が統合距離閾値内である場合、それらの２つのクラスタを統合することを含むことができる。統合クラスタは、第１のクラスタ及び第２のクラスタの発現プロファイルを含む。方法６００は、図４のブロック４２０等、図４を参照して説明したように、統合クラスタセット内の各クラスタを最も近いクラスタと統合することができる。

幾つかの実施形態では、方法６００は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、関連性が有効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタに引き続きトラバースすることと、関連性が無効である場合、クラスタからクラスタの左子クラスタ及びクラスタの右子クラスタへのトラバースを停止することとを含むことができる。クラスタの子クラスタとのクラスタの関連性が有効であるか、それとも無効であるかを判断することは、ハードウェアプロセッサは、左子クラスタと右子クラスタとの間の距離が関連性閾値を超える場合、関連性を有効と判断することと、その他の場合、無効と判断することとを含むことができる。

幾つかの実施形態では、左子クラスタと右子クラスタとの間の距離は、左子クラスタ及び右子クラスタによって表される発現プロファイル間の複数の標的の各標的で実行される統計検定に基づいて特定することができる。統計検定は、例えば、ウェルチｔ検定であることができる。左子クラスタと右子クラスタとの間の距離は、左子クラスタによって表される発現プロファイルと右子クラスタによって表される各発現プロファイルとの間の複数の標的の各標的に対して実行される統計検定の最大ｐ値に基づいて特定することができる。

幾つかの実施形態では、方法６００は、ブロック６１６において第１のクラスタを第２のクラスタと統合して、統合クラスタを生成する前、第３のクラスタと第４のクラスタとの間の距離がクラスタ距離閾値内にある場合、１つの細胞の発現プロファイルを表す統合クラスタセット内の第３のクラスタのそれぞれを統合クラスタセット内の第４のクラスタと統合することを含む。方法は、細胞の発現プロファイルを表す統合クラスタセット内のクラスタに基づいて複数の細胞を分類することを含むことができる。方法は、識別された細胞タイプを区別する標的に基づいて全体トランスクリプトームアッセイを指定するか、又は識別された細胞タイプを区別する標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含むことができる。

幾つかの実施形態では、方法６００は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、（３）クラスタが単一の細胞の発現プロファイルを表す場合、クラスタを統合クラスタセットに追加することを含む。方法は、系統樹の複数のクラスタをトラバースする際、各クラスタにおいて、クラスタ標識をクラスタに割り当てることを含むことができる。幾つかの実施形態では、クラスタが単一の細胞の発現プロファイルを表す場合、クラスタのクラスタ標識は、単一の細胞の名称を含み、その他の場合、クラスタが親クラスタの左子クラスタであるとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び左名称を含み、その他のとき、クラスタのクラスタ標識は、親クラスタのクラスタ標識及び右名称を含む。

ブロック６２０において、方法６００は、統合クラスタセット内の各クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することを含むことができる。方法６００は、図４のブロック４２４等、図４を参照して説明したように、細胞タイプを区別する標的を識別することができる。幾つかの実施形態では、統合クラスタセット内の各クラスタについて、クラスタによって表される細胞の複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することは、細胞タイプを区別する標的に関連付けられた別個の配列を有する分子標識数を単位として、クラスタによって表される発現プロファイルと、統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断することを含む。

シーケンシング
幾つかの実施形態では、異なるバーコード付き標的（例えば、確率的バーコード付き標的）の数を推定することは、標識された標的、空間標識、分子標識、試料標識、細胞標識、又はこれらの任意の産物（例えば、標識された増幅産物又は標識されたｃＤＮＡ分子）の配列を特定することを含むことができる。増幅された標的はシーケンシングを受けることができる。バーコード付き標的（例えば、確率的バーコード付き標的）又はその任意の産物の配列を特定することは、シーケンシング反応を行い、試料標識、空間標識、細胞標識、分子標識、標識された標的（例えば、確率的に標識された標的）の少なくとも一部、その相補物、その逆相補物、又はそれらの任意の組合せの少なくとも一部の配列を特定することを含むことができる。

バーコード付き標的又は確率的バーコード付き標的（例えば、増幅された核酸、標識された核酸、標識された核酸のｃＤＮＡコピー等）の配列を特定することは、限定ではなく、ハイブリダイゼーションによるシーケンシング（ＳＢＨ）、ライゲーションによるシーケンシング（ＳＢＬ）、定量的増分蛍光ヌクレオチド付加シーケンシング（ＱＩＦＮＡＳ）、段階的なライゲーション及び切断、蛍光共鳴エネルギー転移（ＦＲＥＴ）、分子ビーコン、ＴａｑＭａｎレポータープローブ消化、ピロシーケンシング、蛍光ｉｎｓｉｔｕシーケンシング（ＦＩＳＳＥＱ）、ＦＩＳＳＥＱビーズ、ゆらぎシーケンシング（ｗｏｂｂｌｅｓｅｑｕｅｎｃｉｎｇ）、多重シーケンシング、重合コロニー（ｐｏｌｙｍｅｒｉｚｅｄｃｏｌｏｎｙ）（ＰＯＬＯＮＹ）シーケンシング；ナノグリッドローリングサークル配列決定法（ＲＯＬＯＮＹ）、アレル特異的オリゴライゲーションアッセイ（例えば、オリゴライゲーションアッセイ（ＯＬＡ）、ライゲートされた線形プローブ及びローリングサークル増幅（ＲＣＡ）の読み取りを使用した単一鋳型分子ＯＬＡ、ライゲートされたパッドロックプローブ、又はライゲートされた環状パッドロックプローブ及びローリングサークル増幅（ＲＣＡ）の読み取りを使用した単一鋳型分子ＯＬＡ）等を含めた多種多様なシーケンシング方法を使用して実行することができる。

幾つかの実施形態では、バーコード付き標的（例えば、確率的バーコード付き標的）又はその任意の産物の配列を特定することは、ペアードエンドシーケンシング、ナノポアシーケンシング、高スループットシーケンシング、ショットガンシーケンシング、ダイターミネータシーケンシング、マルチプライマーＤＮＡシーケンシング、プライマーウォーキング、サンガージデオキシ（Ｓａｎｇｅｒｄｉｄｅｏｘｙ）シーケンシング、マキシム－ギルバート（Ｍａｘｉｍ－Ｇｉｌｂｅｒｔ）シーケンシング、ピロシーケンシング、ｔＳＭＳ（ｔｒｕｅｓｉｎｇｌｅｍｏｌｅｃｕｌｅｓｅｑｕｅｎｃｉｎｇ）、又はそれらの任意の組合せを含む。代替的には、バーコード付き標的又はその任意の産物の配列は、電子顕微鏡法又は化学感応電界効果トランジスタ（ｃｈｅｍＦＥＴ）アレイにより特定することができる。

Ｒｏｃｈｅ４５４、ＩｌｌｕｍｉｎａＳｏｌｅｘａ、ＡＢＩ－ＳＯＬｉＤ、ＩＯＮＴｏｒｒｅｎｔ、ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓ、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅ、Ｈｅｌｉｃｏｓ、又はＰｏｌｏｎａｔｏｒプラットフォーム等のプラットフォームを使用するサイクルアレイシーケンシング等の高スループットシーケンシング法を利用することができる。幾つかの実施形態では、シーケンシングは、ＭｉＳｅｑシーケンシングを含むことができる。幾つかの実施形態では、シーケンシングは、ＨｉＳｅｑシーケンシングを含むことができる。

標識された標的（例えば、確率的に標識された標的）は、有機体のゲノムの遺伝子の約０．０１％から有機体のゲノムの遺伝子の約１００％を表す核酸を含むことができる。例えば、有機体のゲノムの遺伝子の約０．０１％から有機体のゲノムの遺伝子の約１００％は、試料から相補配列を含む遺伝子を捕捉することにより、複数の多量体を含む標的相補領域を使用してシーケンシングすることができる。幾つかの実施形態では、バーコード付き標的は、有機体のトランスクリプトームの転写産物の約０．０１％から有機体のトランスクリプトームの転写産物の約１００％を表す核酸を含む。例えば、有機体のトランスクリプトームの転写産物の約０．５０１％から有機体のトランスクリプトームの転写産物の約１００％は、試料からｍＲＮＡを捕捉することにより、ポリ（Ｔ）テールを含む標的相補領域を使用してシーケンシングすることができる。

複数のバーコード（例えば、確率的バーコード）の空間標識及び分子標識の配列を特定することは、複数のバーコードの０．００００１％、０．０００１％、０．００１％、０．０１％、０．１％、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９９％、１００％、又はこれらの値の任意の２つの間の数若しくは範囲をシーケンシングすることを含むことができる。複数のバーコードの標識、例えば、試料標識、空間標識、及び分子標識の配列を特定することは、複数のバーコードのうちの１個、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、１０³個、１０⁴個、１０⁵個、１０⁶個、１０⁷個、１０⁸個、１０⁹個、１０¹⁰個、１０¹¹個、１０¹²個、１０¹³個、１０¹⁴個、１０¹⁵個、１０¹⁶個、１０¹⁷個、１０¹⁸個、１０¹⁹個、１０²⁰個、又はこれらの値の任意の２つの間の数若しくは範囲をシーケンシングすることを含むことができる。複数のバーコードのうちの幾つか又は全てをシーケンシングすることは、１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、２０００個、３０００個、４０００個、５０００個、６０００個、７０００個、８０００個、９０００個、１００００個分、若しくはこれらの値の任意の２つの間の数若しくは範囲、約これらの個数、多くとも若しくは少なくともこれらの個数のヌクレオチド又は塩基のリード長を有する配列を生成することを含むことができる。

シーケンシングは、少なくとも又は少なくとも約１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個、又はそれを超える数のバーコード付き標的のヌクレオチド又は塩基対をシーケンシングすることを含むことができる。例えば、シーケンシングは、複数のバーコード付き標的に対してポリメラーゼ連鎖反応（ＰＣＲ）増幅を実行することにより、５０個、７５個、１００個、又はそれを超える個数のヌクレオチドのリード長を有する配列を有するシーケンシングデータを生成することを含むことができる。シーケンシングは、少なくとも又は少なくとも約２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１，０００個、又はそれを超える数のバーコード付き標的のヌクレオチド又は塩基対をシーケンシングすることを含むことができる。シーケンシングは、少なくとも又は少なくとも約１５００個、２０００個、３０００個、４０００個、５０００個、６０００個、７０００個、８０００個、９０００個、１００００個、又はそれを超える数のバーコード付き標的のヌクレオチド又は塩基対をシーケンシングすることを含むことができる。

シーケンシングは、１実行当たり少なくとも約２００回、３００回、４００回、５００回、６００回、７００回、８００回、９００回、１，０００回、又はそれを超える回数のシーケンシングリードを含むことができる。幾つかの実施形態では、１実行当たり少なくとも又は少なくとも約１５００回、２０００回、３０００回、４０００回、５０００回、６０００回、７０００回、８０００回、９０００回、１００００回、又はそれを超える回数のシーケンシングリードを含む。シーケンシングは、１実行当たり約１，６００，０００，０００回以下のシーケンシングリードを含むことができる。シーケンシングは、１実行当たり約２００，０００，０００回以下のリードを含むことができる。

試料
幾つかの実施形態では、複数の標的は、１つ又は複数の試料に含まれることができる。試料は、１つ若しくは複数の細胞又は１つ若しくは複数の細胞からの核酸を含むことができる。試料は、単一の細胞又は単一の細胞からの核酸であることができる。１つ又は複数の細胞は、１つ又は複数の細胞タイプのものであることができる。１つ又は複数の細胞タイプの少なくとも１つは、脳細胞、心臓細胞、がん細胞、循環腫瘍細胞、臓器細胞、上皮細胞、転移細胞、良性細胞、初代細胞、循環細胞、又はそれらの任意の組合せであることができる。

本開示の方法で使用される試料は、１つ又は複数の細胞を含むことができる。試料とは、１つ又は複数の細胞を指すことができる。幾つかの実施形態では、複数の細胞は１つ又は複数の細胞タイプを含むことができる。１つ又は複数の細胞タイプのうちの少なくとも１つは、脳細胞、心臓細胞、がん細胞、循環腫瘍細胞、臓器細胞、上皮細胞、転移細胞、良性細胞、初代細胞、循環細胞、又はそれらの任意の組合せであることができる。幾つかの実施形態では、細胞は、がん組織、例えば、乳がん、肺がん、結腸がん、前立腺がん、卵巣がん、膵臓がん、脳腫瘍、メラノーマ又は非メラノーマ皮膚がん等から切除されたがん細胞である。幾つかの実施形態では、細胞は、がん由来であるが、体液（例えば、循環腫瘍細胞）から集められる。がんの非限定的な例としては、腺腫、腺がん、扁平上皮がん、基底細胞がん、小細胞がん、大細胞未分化がん、軟骨肉腫、及び線維肉腫を挙げることができる。試料は、組織、細胞単層、固定細胞、組織切片、又はそれらの任意の組合せを含むことができる。試料は、生体試料、臨床試料、環境試料、生体体液、組織、又は被験者からの細胞を含むことができる。試料は、人間、哺乳類、イヌ、ラット、マウス、魚、蠅、ワーム、植物、菌類、バクテリア、ウィルス、脊椎動物、又は無脊椎動物から取得することができる。

幾つかの実施形態では、細胞は、ウィルスに感染し、ウィルスオリゴヌクレオチドを含む細胞である。幾つかの実施形態では、ウィルス感染は、単鎖（＋鎖又は「センス」）ＤＮＡウィルス（例えば、パルボウィルス）又は二本鎖ＲＮＡウィルス（例えば、レオウィルス）等のウィルスによって生じ得る。幾つかの実施形態では、細胞はバクテリアである。これらは、グラム陽性又はグラム陰性バクテリアを含むことができる。幾つかの実施形態では、細胞は菌類である。幾つかの実施形態では、細胞は原生動物又は他の寄生生物である。

本明細書で使用される場合、「細胞」という用語は１つ又は複数の細胞を指すことができる。幾つかの実施形態では、細胞は、正常細胞、例えば、発達の異なる段階にあるヒト細胞又は異なる臓器若しくは組織タイプからのヒト細胞である。幾つかの実施形態では、細胞は非ヒト細胞、例えば、他のタイプの哺乳類細胞（例えば、マウス、ラット、ブタ、イヌ、ウシ、又はウマ）である。幾つかの実施形態では、細胞は、他のタイプの動物又は植物の細胞である。他の実施形態では、細胞は任意の原核生物又は真核生物の細胞であることができる。

幾つかの実施形態では、細胞は、細胞をビーズに関連付ける前、ソートされる。例えば、細胞は、蛍光活性化細胞ソート、磁気活性化細胞ソート、又はより一般にはフローサイトメトリによってソートすることができる。細胞は、サイズにより濾過することができる。幾つかの実施形態では、被保持物は、ビーズに関連付けるべき細胞を含む。幾つかの実施形態では、フロースルーが、ビーズに関連付けるべき細胞を含む。

試料は、複数の細胞を指すことができる。試料は、細胞の単層を指すことができる。試料は、薄切片（例えば、組織の薄切片）を指すことができる。試料は、アレイ上の一方向に配置ができる細胞の固体又は半固体の集まりを指すことができる。

実行環境
本開示は、本開示の方法（例えば、方法４００又は方法６００）を実施するようにプログラムされたコンピュータシステムを提供する。図７は、本明細書に開示される任意の方法を実施するようにプログラム又は他の方法で構成されたコンピュータシステム７００を示す。コンピュータシステム７００は、ユーザの電子デバイス又は電子デバイスからリモートに配置されたコンピュータシステムであることができる。電子デバイスは、モバイル電子デバイスであることができる。

コンピュータシステム７００は、中央演算処理装置（ＣＰＵ、本明細書では「プロセッサ」及び「コンピュータプロセッサ」とも）７０５を含み、これは、シングルコア若しくはマルチコアプロセッサ、又は並列処理用の複数のプロセッサであることができる。コンピュータシステム７００は、メモリ又はメモリロケーション７１０（例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ）、電子記憶ユニット７１５（例えば、ハードディスク）、１つ又は複数の他のシステムと通信するための通信インターフェース７２０（例えば、ネットワークアダプタ）、及びキャッシュ、他のメモリ、データ記憶装置、及び／又は電子ディスプレイアダプタ等の周辺機器７２５も含む。メモリ７１０、記憶ユニット７１５、インターフェース７２０、及び周辺機器７２５は、マザーボード等の通信バス（実線）を通してＣＰＵ７０５と通信する。記憶ユニット７１５は、データを記憶するデータ記憶ユニット（又はデータリポジトリ）であることができる。コンピュータシステム７００は、通信インターフェース７２０を用いてコンピュータネットワーク（「ネットワーク」）７３０に動作可能に結合することができる。ネットワーク７３０は、インターネット、インターネット及び／又はエクストラネット、又はイントラネット及び／又はインターネットと通信するエクストラネットであることができる。幾つかの場合、ネットワーク７３０は、電気通信ネットワーク及び／又はデータネットワークである。ネットワーク７３０は、クラウド計算等の分散計算を可能にすることができる１つ又は複数のコンピュータサーバを含むことができる。ネットワーク７３０は、幾つかの場合、コンピュータシステム７００を用いて、ピアツーピアネットワークを実施することができ、これにより、コンピュータシステム７００に結合されたデバイスがクライアント又はサーバとして挙動できるようにし得る。

ＣＰＵ７０５は、機械可読命令シーケンスを実行することができ、命令シーケンスはプログラム又はソフトウェアで実施することができる。命令は、メモリ７１０等のメモリロケーションに記憶し得る。命令はＣＰＵ７０５に向けることができ、続けて、本開示の方法を実施するようにＣＰＵ７０５をプログラム又は他の方法で構成することができる。ＣＰＵ７０５によって実行される動作の例としては、フェッチ、デコード、実行、及びライトバックを挙げることができる。ＣＰＵ７０５は、集積回路等の回路の部分であることができる。システム７００の１つ又は複数の他の構成要素が、回路に含まれることができる。幾つかの場合、回路は特定用途向け集積回路（ＡＳＩＣ）である。

記憶ユニット７１５は、ドライバ、ライブラリ、及び保存されたプログラム等のファイルを記憶することができる。記憶ユニット７１５は、ユーザデータ、例えば、ユーザプリファレンス及びユーザプログラムを記憶することができる。コンピュータシステム７００は、幾つかの場合、イントラネット又はインターネットを通してコンピュータシステム７００と通信するリモートサーバに配置される等のコンピュータシステム７００の外部にある１つ又は複数の追加のデータ記憶ユニットを含むことができる。

コンピュータシステム７００は、ネットワーク７３０を通して１つ又は複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム７００は、ユーザ（例えば、微生物学者）のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレート又はタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ、アンドロイド対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、又は個人情報端末がある。ユーザは、ネットワーク７３０を介してコンピュータシステム７００にアクセスすることができる。

コンピュータシステム７００は、例えば、ストリングによって表される微生物の複数の分類群のストリング共起（ｓｔｒｉｎｇｃｏ－ｏｃｃｕｒｒｅｎｃｅ）又は相互作用を示す出力を提供するユーザインターフェース（ＵＩ）７４０を備える電子ディスプレイ７３５を含むか、又はそれと通信することができる。ＵＩの例には、限定ではなく、グラフィカルユーザインターフェース（ＧＵＩ）及びウェブベースのユーザインターフェースがある。

本明細書に記載される方法は、例えば、メモリ７１０又は電子記憶ユニット７１５等のコンピュータシステム７００の電子記憶ロケーションに記憶される機械（例えば、コンピュータプロセッサ）実行可能コードによって実施することができる。機械実行可能又は機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードはプロセッサ７０５によって実行することができる。幾つかの場合、コードは、記憶ユニット７１５から検索され、プロセッサ７０５による容易なアクセスのためにメモリ７１０に記憶することができる。幾つかの状況では、電子記憶ユニット７１５をなくすことができ、機械実行可能命令はメモリ７１０に記憶される。

コードは、コードを実行するように構成されたプロセッサを有した機械と併用されるように事前にコンパイルされ構成してもよく、又は実行時中にコンパイルされてもよい。コードは、コードを事前にコンパイルされるか、又はコンパイルされたままで実行できるようにするように選択することができるプログラミング言語で供給することができる。

コンピュータシステム７００等の本明細書に提供されるシステム及び方法の態様は、プログラミングで実施することができる。本技術の様々な態様は、通常、一種の機械可読媒体で運ばれるか、又は一種の機械可読媒体内で実施される機械（又はプロセッサ）実行可能コード及び／又は関連付けられたデータの形態の「製品」又は「製造品」として考えられ得る。機械実行可能コードは、メモリ（例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）等の電子記憶ユニット又はハードディスクに記憶することができる。「記憶」型媒体は、コンピュータ、プロセッサ等のありとあらゆる有形メモリ又は様々な半導体メモリ、テープドライブ、ディスクドライブ等のそれに関連付けられたモジュールを含むことができ、これらは非一時的記憶をソフトウェアプログラミングに随時提供し得る。ソフトウェアの全て又は部分には、時折、インターネット又は様々な他の電気通信ネットワークを通して通信し得る。そのような通信は、例えば、あるコンピュータ又はプロセッサから別のコンピュータ又はプロセッサに、例えば、管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームにソフトウェアをロードできるようにし得る。したがって、ソフトウェア要素を担持し得る別のタイプの媒体としては、ローカルデバイス間の物理的インターフェースにわたり、有線及び光学陸線網を通して、並びに様々なエアリンクを介して使用される等の光波、電波、及び電磁波が挙げられる。有線又は無線リンク、光学リンク等のそのような波を搬送する物理的要素も、ソフトウェアを担持する媒体として見なし得る。本明細書で使用される場合、非一時的有形「記憶」媒体に限定されない限り、コンピュータ又は機械「可読媒体」等の用語は、実行のために命令をプロセッサに提供することに参加する任意の媒体を指す。

したがって、コンピュータ実行可能コード等の機械可読媒体は、有形記憶媒体、搬送波媒体、又は物理的伝送媒体を含むが、これらに限定されない多くの形態をとり得る。不揮発性記憶媒体は、例えば、図面に示されるデータベース等の実施に使用し得る等の任意のコンピュータ内の任意の記憶デバイス等の光ディスク又は磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、コンピュータシステム内のバスを構成するワイヤを含め、同軸ケーブル、銅線、及び光ファイバを含む。搬送波伝送媒体は、無線周波数（ＲＦ）及び赤外線（ＩＲ）データ通信中に生成される等の電気信号、電磁信号、音響信号、又は光波の形態をとり得る。したがって、一般的な形態のコンピュータ可読媒体は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤ、若しくはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、フラッシュＥＰＲＯＭ、任意の他のメモリチップ若しくはカートリッジ、データ若しくは命令を運ぶ搬送波、そのような搬送波を運ぶケーブル若しくはリンク、又はコンピュータがプログラミングコード及び／又はデータを読み取り得る任意の他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、１つ又は複数の命令の１つ又は複数のシーケンスを実行のためにプロセッサに搬送することに関わり得る。

幾つかの実施形態では、コンピュータシステム７００の分析機能の幾つか又は全ては、１つのソフトウェアパッケージにパッケージングすることができる。幾つかの実施形態では、完全な組のデータ分析機能は、ソフトウェアパッケージ一式を含むことができる。幾つかの実施形態では、データ分析ソフトウェアは、アッセイ機器システムから独立してユーザに提供されるスタンドアロンパッケージであることができる。幾つかの実施形態では、ソフトウェアは、ウェブベースであることができ、ユーザがデータを共有できるようにすることができる。幾つかの実施形態では、市販のソフトウェアを使用して、データ分析の全て又は一部を実行することができ、例えば、ＳｅｖｅｎＢｒｉｄｇｅｓ（ｈｔｔｐｓ：／／ｗｗｗ．ｓｂｇｅｎｏｍｉｃｓ．ｃｏｍ／）ソフトウェアを使用して、細胞の集まり全体の各細胞で行われる１つ又は複数の遺伝子のコピー数のテーブルを編纂することができる。

本開示の方法及びシステムは、１つ又は複数のアルゴリズム又は方法によって実施することができる。方法は、中央演算処理装置７０５によって実行されるソフトウェアによって実施することができる。ソフトウェアによって実施されるアルゴリズム又は方法の例示的な用途には、配列データ処理（例えば、統合、フィルタリング、トリミング、クラスタリング）のバイオインフォマティクス方法、アラインメント及びコール、並びにストリングデータ及び光学密度データ（例えば、最確数及び培養可能存在度特定（ｃｕｌｔｉｖａｂｌｅａｂｕｎｄａｎｃｅｄｅｔｅｒｍｉｎａｔｉｏｎ））の処理がある。

例示的な実施形態では、コンピュータシステム７００は、単一細胞確率的バーコーディングアッセイを実行することにより生成された配列データセットに対してデータ分析を実行することができる。データ分析機能の例には、限定ではなく、（ｉ）試料標識、細胞標識、空間標識、及び分子標識、並びにアッセイの実行において作成された確率的バーコードライブラリをシーケンシングすることによって提供される標的配列データをデコード／逆多重化するアルゴリズム、（ｉｉ）データに基づいて、１細胞当たりの１遺伝子当たりのリード数及び１細胞当たりの１遺伝子当たりの一意の転写分子の数を特定し、サマリテーブルを作成するアルゴリズム、（ｉｉｉ）例えば、遺伝子発現データにより細胞をクラスタリングし、又は１細胞当たりの１遺伝子当たりの転写分子の数を特定すること等の信頼区間を予測する、配列データの統計分析、（ｉｖ）例えば、主成分分析、階層クラスタリング、ｋ－平均クラスタリング、自己組織化マップ、神経系統等を使用して希な細胞の部分集団を同定するアルゴリズム、（ｖ）遺伝子配列データを既知の参照配列のアラインメントし、突然変異、多型マーカー、及びスプライスバリアントを検出する配列アラインメント機能、並びに（ｖｉ）増幅エラー又はシーケンシングエラーを補償する分子標識の自動クラスタリングがある。幾つかの実施形態では、コンピュータシステム７００は、有用なグラフィカルフォーマット、例えば、細胞の集まりのうちの各細胞で生じる１つ又は複数の遺伝子のコピー数を示すヒートマップでシーケンシング結果を出力することができる。幾つかの実施形態では、コンピュータシステム７００は、例えば、細胞の集まりのうちの各細胞で生じる１つ又は複数の遺伝子のコピー数を細胞のタイプ、希な細胞のタイプ、又は特定の疾患若しくは状態を有する被験者から導出された細胞に相関付けることにより、シーケンシング結果から生物学的意味を抽出するアルゴリズムを実行することができる。幾つかの実施形態では、コンピュータシステム７００は、異なる生体試料にわたる細胞の集団を比較するアルゴリズムを実行することができる。

上述した自体の幾つかの態様について、本開示の範囲の限定を決して意図しない以下の実施例において更に詳細に考察する。

実施例１
再帰的な系統樹の分割及び検定、それに続く統合によるクラスタリング
この実施例では、再帰的な分割（例えば、再帰的系統樹分割）及び検定、それに続く統合によるクラスタリング法を説明する。

備考
この実施例に示される方法では、系統樹分割ステップ中、アルゴリズムが、十分に低いｐ値（又は十分に高い－ｌｏｇ１０（ｐ値））を達成した少なくとも１つの遺伝子を発見することができる場合、分割は生物学的に適切であると見なされる（例えば、デフォルトにより）。言い換えれば、幾つかの実施形態では、調整すべきハイパーパラメータは、スコア閾値パラメータだけである。スコア閾値が高い（例えば、１００）ほど、低いｐ値（１０ｅ－１００）に対応し、これは、分割が有効であると見なされるためには、より有意な遺伝子を見つけなければならないことを意味する。スコア閾値が高いほど、少数のクラスタが生成される。

分割ステップ後、多すぎるクラスタが生成される場合、ユーザは、スコア閾値の増大を試みることができる。分割ステップ少なすぎるクラスタが生成される場合、ユーザはスコア閾値の低減を試みることができる。同じ距離マトリックスで複数のスコア閾値を検定することができる。距離マトリックスを予め計算することにより、多くの計算時間を節減することができる。

異なるスコア閾値を通しての掃引が、無意味な結果を生成し続ける場合、問題は、最初に生成された系統樹（すなわち、距離マトリックス）にあり得る。以下の細胞［３］に示されるように、アルゴリズムの最初のステップでは、分子カウントのマトリックスから距離マトリックスに移る（前処理ステップ）必要がある。異なる種類の前処理を試みることが望ましいことがある。ユーザは恐らく、別の距離尺度を試み、対数を採用しないように試み、又はユーザの用途に対してより正確な距離尺度を生成し得る細胞及び／又は遺伝子を予めフィルタリングすることができる。

分割ステップが、不適切と見なされる多くの小さなクラスタを生成する場合、解散パーセンタイルパラメータを低減し得る。このパラメータは、全体ペア毎距離の下部解散パーセンタイル内にあるペア毎距離の数に基づいて、最終的なクラスタを保持するか否かを決定する。例えば、解散パーセンタイル２０を用いてアルゴリズムを実行すると、少なくとも１つのペア毎距離が、全体距離の下部２０％内にある場合、１つのクラスタのみを保持する。

クラスタが何故、２つのクラスタに分けられるかを特定するために、それらの２つのクラスタを識別し、ペア毎ｔ検定分析を行う。これは、クラスタのあらゆるペアについて実施例２において細胞［１３］において行うことができる。この機能は、２つのクラスタを区別するマーカーを示す。また、分割に繋がる分割アルゴリズムにおける厳密なステップを理解するために、いかに分割が決定されるかの探索特徴もチェックする。

不正確なクラスタが一緒に統合されているか否かを判断するためには、統合ステップにおいてスコア閾値パラメータを下げる。ここで、スコア閾値が大きいほど、２つの異なるクラスタが一緒に統合される確率は高くなる。また、統合に繋がる統合アルゴリズムにおける厳密なステップを理解するために、いかに統合が決定されるかの探索特徴をチェックする。

より多くの外れ値を識別するためには、統合ステップにおいてｏｕｔｌｉｅｒ＿ｔｈｒｅｓｈｏｌｄ＿ｐｅｒｃｅｎｔｉｌｅ＿ｐａｒａｍｅｔｅｒの低減を試みる。

依存性
モジュールは以下の依存性を有した－ｎｕｍｐｙ（１．１０．４）－ｓｃｉｐｙ（０．１７．０）－ｍａｔｐｌｏｔｌｉｂ（１．５．１）－ｓｋｌｅａｒｎ（０．１７．１）－ｎｅｔｗｏｒｋｘ（１．１１）－ｃｏｍｍｕｎｉｔｙ－ｒｐｙ２（２．８．２）。

ｎｅｔｗｏｒｋｘ、ｃｏｍｍｕｎｉｔｙ、及びｒｐｙ２は、デフォルトにより必要とされない。ｎｅｔｗｏｒｋｘ及びｃｏｍｍｕｎｉｔｙは、コミュニティ検出に使用される。ｎｅｔｗｏｒｋｘは、最大加重マッチング（標識の２つの組がいかに近いかの尺度として）にも使用される。ｒｐｙ２は、２つの集団が実際に１つの集団であるべきか否かについての統計検定であるｓｉｇｃｌｕｓｔの実行に使用される。ｓｉｇｃｌｕｓｔを実行するために、ユーザは、ｓｉｇｃｌｕｓｔパッケージと共にＲをインストールする必要もあり得る。

［１］：＃関連するモジュール及びライブラリをロード
％ｌｏａｄ＿ｅｘｔａｕｔｏｒｅｌｏａｄ
％ａｕｔｏｒｅｌｏａｄ２
％ｍａｔｐｌｏｔｌｉｂｉｎｌｉｎｅ
ｆｒｏｍｄｅｎｄｒｏｓｐｌｉｔｉｍｐｏｒｔｓｐｌｉｔ，ｍｅｒｇｅｉｍｐｏｒｔｐｉｃｋｌｅ
ｉｍｐｏｒｔｎｕｍｐｙａｓｎｐ
ｉｍｐｏｒｔｍａｔｐｌｏｔｌｉｂ．ｐｙｐｌｏｔａｓｐｌｔｎｐ．ｓｅｔ＿ｐｒｉｎｔｏｐｔｉｏｎｓ（ｐｒｅｃｉｓｉｏｎ＝２，ｓｕｐｐｒｅｓｓ＝Ｔｒｕｅ）

パイプラインの実行
パイプラインへの入力は、「Ｘ」と呼ばれる分子カウント（自然数）のＮ×Ｍマトリックスである。「ｇｅｎｅｓ」は、遺伝子名の長さＭリストである。「ｘ１」及び「ｘ２」は、何であれユーザが選んだ方法を使用したデータの２Ｄ埋め込みを表す。「ｘ１」及び「ｘ２」は、中間ステップと共にパイプラインの結果を視覚化するために単独で使用される。アルゴリズムでは、合算して０になる「Ｘ」の全列が除去される必要があり、この細胞のコードがそれに対処する。

［２］：＃データをロード
ｄａｔａｓｅｔ＝’Ｒｅｓｏｌｖｅ４’
ｐｉｃｋｌｅｄｉｒ＝’／Ｕｓｅｒｓ／ｕｓｅｒ１／Ｄｅｓｋｔｏｐ／ｄａｔａｓｅｔｓ／’
Ｘ，ｇｅｎｅｓ＝ｐｉｃｋｌｅ．ｌｏａｄ（ｆｉｌｅ（ｐｉｃｋｌｅｄｉｒ＋ｄａｔａｓｅｔ＋’．ｐｉｃｋｌｅ’））
ｘ１，ｘ２＝ｐｉｃｋｌｅ．ｌｏａｄ（ｆｉｌｅ（ｐｉｃｋｌｅｄｉｒ＋ｄａｔａｓｅｔ＋’ｔｓｎｅ．ｐｉｃｋｌｅ’））
＃合計で０になるＸの列を削除
Ｘ，ｇｅｎｅｓ＝ｓｐｌｉｔ．ｆｉｌｔｅｒ＿ｇｅｎｅｓ（Ｘ，ｇｅｎｅｓ）
全細胞にわたり０を超えるカウントを有する１９３０７個の遺伝子を保持

まず、カウントマトリックスから距離マトリックスを生成することができる。以下の細胞は、対数変換済み試料（ｌｏｇ（Ｘ＋１））間のペア毎相関距離を計算することによりこれを達成する。アルゴリズムの分割部分は、入力としてカウントマトリックスのみを必要としたが、ユーザは、距離マトリックスにおいて以下に示されるように供給することができる。アルゴリズムのこの部分は、アルゴリズムによって生成された全ての中間情報を追跡したデータ構造である「ｈｉｓｔｏｒｙ」と共に、試料の長さＮの組の標識（ストリング）を返した。「ｈｉｓｔｏｒｙ」は、アルゴリズムがそのような標識をいかに生成したか（及びどの特徴が、そのような標識の生成に最も重要であったか）を見極めるのに使用される後の機能に有用であった。標識は、距離マトリックスを使用して生成された系統樹に従ってクラスタが位置する場所を示すストリングであった。例えば、「ｒＬＬＲ」は、このポイントが、ルートの左サブツリーの左サブツリーの右サブツリーに属することを意味する。

［３］：＃第１の組の標識を取得。アルゴリズム外の距離マトリックスの計算が強く勧められる
Ｄ＝ｓｐｌｉｔ．ｌｏｇ＿ｃｏｒｒｅｌａｔｉｏｎ（Ｘ）
ｙｓ，ｓｈｉｓｔｏｒｙ＝ｓｐｌｉｔ．ｄｅｎｄｒｏｓｐｌｉｔ（（Ｄ，Ｘ），ｐｒｅｐｒｏｃｅｓｓｉｎｇ＝’ｐｒｅｃｏｍｐｕｔｅｄ’，ｓｃｏｒｅ＿ｔｈｒｅｓｈｏｌｄ＝１０，ｖｅｒｂｏｓｅ＝Ｔｒｕｅ，ｄｉｓｂａｎｄ＿ｐｅｒｃｅｎｔｉｌｅ＝５０）
潜在的な分割結果：８８３及び３
ｄｅｎｄｒｏｓｐｌｉｔ／ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ．ｐｙ：１０６：ＲｕｎｔｉｍｅＷａｒｎｉｎｇ：ｌｏｇ１０において直面したゼロで除算
ｇｅｎｅ＿ｓｃｏｒｅｓ＝ｎｐ．ｎａｎ＿ｔｏ＿ｎｕｍ（－ｎｐ．ｌｏｇ１０（ｐ［ｋｅｅｐ＿ｉｎｄｓ］））
分割スコア１．８Ｅ＋３０８
潜在的な分割結果：１及び８８２
潜在的な分割結果：４８４及び３９８
／Ｕｓｅｒｓ／ｕｓｅｒ１／ａｎａｃｏｎｄａ２／ｌｉｂ／ｐｙｔｈｏｎ２．７／ｓｉｔｅ－ｐａｃｋａｇｅｓ／ｓｃｉｐｙ／ｓｔａｔｓ／
＿ｄｉｓｔｎ＿ｉｎｆｒａｓｔｒｕｃｔｕｒｅ．ｐｙ：１７４８：Ｒｕｎｔｉｍｅ
ｃｏｎｄ１＝（ｓｃａｌｅ＞０）＆（ｘ＞ｓｅｌｆ．ａ）＆（ｘ＜ｓｅｌｆ．ｂ）
／Ｕｓｅｒｓ／ｕｓｅｒ１／ａｎａｃｏｎｄａ２／ｌｉｂ／ｐｙｔｈｏｎ２．７／ｓｉｔｅ－ｐａｃｋａｇｅｓ／ｓｃｉｐｙ／ｓｔａｔｓ／＿ｄｉｓｔｎ＿ｉｎｆｒａｓｔｒｕｃｔｕｒｅ．ｐｙ：１７４８：Ｒｕｎｔｉｍｅ
ｃｏｎｄ１＝（ｓｃａｌｅ＞０）＆（ｘ＞ｓｅｌｆ．ａ）＆（ｘ＜ｓｅｌｆ．ｂ）
／Ｕｓｅｒｓ／ｕｓｅｒ１／ａｎａｃｏｎｄａ２／ｌｉｂ／ｐｙｔｈｏｎ２．７／ｓｉｔｅ－ｐａｃｋａｇｅｓ／ｓｃｉｐｙ／ｓｔａｔｓ／＿ｄｉｓｔｎ＿ｉｎｆｒａｓｔｒｕｃｔｕｒｅ．ｐｙ：１７４９：Ｒｕｎｔｉｍｅ
ｃｏｎｄ２＝ｃｏｎｄ０＆（ｘ＜＝ｓｅｌｆ．ａ）
分割スコア１８２．２６
潜在的な分割結果：４８１及び３分割スコア１．８Ｅ＋３０８
潜在的な分割結果：１及び４８０
潜在的な分割結果：１及び４７９
潜在的な分割結果：１９５及び２８４
分割スコア１２５．４９
潜在的な分割結果：１７７及び１８
分割スコア１５．３５
潜在的な分割結果：１及び１７６
潜在的な分割結果：１及び１７５
潜在的な分割結果：１及び１７４
潜在的な分割結果：１２及び１６２
分割スコア１８．８８
潜在的な分割結果：１及び１１
潜在的な分割結果：１及び１０
潜在的な分割結果：２及び８
分割スコア６．１１
潜在的な分割結果：１及び１６１
潜在的な分割結果：１及び１６０
潜在的な分割結果：２８及び１３２
分割スコア１２．３２
潜在的な分割結果：２５及び３
分割スコア１３．９４
潜在的な分割結果：１及び２４
潜在的な分割結果：１１及び１３
分割スコア４．７７
潜在的な分割結果：１及び２
潜在的な分割結果：１及び１
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：１２２及び１０
分割スコア１８．５２
潜在的な分割結果：１３及び１０９
分割スコア２４．９２
潜在的な分割結果：６及び７
分割スコア３．７７
潜在的な分割結果：１０５及び４
分割スコア３１．７２
潜在的な分割結果：１５及び９０
分割スコア１１．３１
潜在的な分割結果：３及び１２
分割スコア６．５５
潜在的な分割結果：１７及び７３
分割スコア８．９１
潜在的な分割結果：２及び２
分割スコア１．５８
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：２及び８
分割スコア５．７９
潜在的な分割結果：１及び１７
潜在的な分割結果：１及び１６
潜在的な分割結果：１及び１５
潜在的な分割結果：４及び１１
分割スコア４．５７
潜在的な分割結果：１及び２８３
潜在的な分割結果：１及び２８２
潜在的な分割結果：１及び２８１
潜在的な分割結果：２７１及び１０
分割スコア３８．０４
潜在的な分割結果：２及び２６９
分割スコア２３３．２３
潜在的な分割結果：１及び１
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：１及び２６８
潜在的な分割結果：２６５及び３
分割スコア８０．２４
潜在的な分割結果：４及び２６１
分割スコア１００．２６
潜在的な分割結果：１及び３
潜在的な分割結果：１及び２
潜在的な分割結果：１及び１
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：１９２及び６９
分割スコア９．６６
潜在的な分割結果：１及び２
潜在的な分割結果：１及び１
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：２及び８
分割スコア５．１２
潜在的な分割結果：１及び２
潜在的な分割結果：１及び１
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：１及び３９７
潜在的な分割結果：１及び３９６
潜在的な分割結果：１及び３９５
潜在的な分割結果：３９２及び３
分割スコア２２８．５８
潜在的な分割結果：１及び３９１
潜在的な分割結果：１及び３９０
潜在的な分割結果：１及び３８９
潜在的な分割結果：１及び３８８
潜在的な分割結果：１及び３８７
潜在的な分割結果：１及び３８６
潜在的な分割結果：３２及び３５４
分割スコア３３．２４
潜在的な分割結果：１及び３１
潜在的な分割結果：１及び３０
潜在的な分割結果：２１及び９
分割スコア７．２０
潜在的な分割結果：１及び３５３
潜在的な分割結果：１及び３５２
潜在的な分割結果：１及び３５１
潜在的な分割結果：１９及び３３２
分割スコア３２．８６
潜在的な分割結果：１及び１８
潜在的な分割結果：３及び１５
分割スコア８．９０
潜在的な分割結果：６及び３２６
分割スコア８３．５７
潜在的な分割結果：１及び５
潜在的な分割結果：１及び４
潜在的な分割結果：２及び２
分割スコア１．３２
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：３及び３２３
分割スコア１４８．２５
潜在的な分割結果：１及び２
潜在的な分割結果：１及び１
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：３１４及び９
分割スコア７１．４３
潜在的な分割結果：２２１及び９３
分割スコア４８．７０
潜在的な分割結果：１及び２２０
潜在的な分割結果：１及び２１９
潜在的な分割結果：１及び２１８
潜在的な分割結果：１及び２１７
潜在的な分割結果：２１５及び２
分割スコア１３３．４２
潜在的な分割結果：１６６及び４９
分割スコア７．６４
潜在的な分割結果：１及び１
潜在的な分割結果：４０及び５３
分割スコア９．３１
潜在的な分割結果：４及び５
分割スコア３．２０
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：１及び２
潜在的な分割結果：１及び１
解散（クラスタ内のポイントは互いから離れすぎている）潜在的な分割結果：１及び２
潜在的な分割結果：１及び１
解散（クラスタ内のポイントは互いから離れすぎている）
スコア関数が呼び出された回数：４０
合計計算時間は９．５３２秒であった。

統合ステップは、上記分割手順によって生成された全クラスタのペア毎の比較を行うことを含んだ。相違が十分ではないクラスタは、２つの最も類似するクラスタから開始して一緒に統合された。分割ステップのように、統合ステップは、標識（長さＮ）及び中間ステップの履歴の両方を返した。標識は整数であった。外れ値は「－１」と記された。コミュニティ検出に基づく統合ステップへの代替の手法について、以下を参照されたい。

［４］：＃クラスタ標識を統合
ｙｍ，ｍｈｉｓｔｏｒｙ＝ｍｅｒｇｅ．ｄｅｎｄｒｏｍｅｒｇｅ（（Ｄ，Ｘ），ｙｓ，ｓｃｏｒｅ＿ｔｈｒｅｓｈｏｌｄ＝１０，ｐｒｅｐｒｏｃｅｓｓｉｎｇ＝’ｐｒｅｃｏｍｐｕｔｅｄ’，ｖｅｒｂｏｓｅ＝Ｔｒｕｅ，ｏｕｔｌｉｅｒ＿ｔｈｒｅｓｈｏｌｄ＿ｐｅｒｃｅｎｔｉｌｅ＝９０）

試料８８６個のうち０個がシングルトンである。
外れ値閾値は０．５１である。
８２１の最近傍：クラスタ７６中の７２（Ｄ＝０．３７５）
６６１の最近傍：クラスタ７６中の２９（Ｄ＝０．３７９）
７２９の最近傍：クラスタ７６中の２８１（Ｄ＝０．３８１）
５５９の最近傍：クラスタ７６中の７９（Ｄ＝０．３８１）
６９０の最近傍：クラスタ７６中の１７１（Ｄ＝０．３８１）
５６４の最近傍：クラスタ７６中の７９（Ｄ＝０．３８１）
７７６の最近傍：クラスタ３８中の４７４（Ｄ＝０．３８７）
８６０の最近傍：クラスタ３８中の３４０（Ｄ＝０．３９０）
８１６の最近傍：クラスタ７８中の３７９（Ｄ＝０．３９０）
７８７の最近傍：クラスタ３８中の６３（Ｄ＝０．３９１）
７３７の最近傍：クラスタ７６中の７２（Ｄ＝０．３９２）
８７４の最近傍：クラスタ７６中の２２０（Ｄ＝０．３９２）
７４３の最近傍：クラスタ７６中の７２（Ｄ＝０．３９４）
８７７の最近傍：クラスタ７６中の１７４（Ｄ＝０．３９４）
７５３の最近傍：クラスタ７６中の１９０（Ｄ＝０．３９７）
７７４の最近傍：クラスタ３８中の１５８（Ｄ＝０．３９８）
５６５の最近傍：クラスタ７６中の１９０（Ｄ＝０．３９９）
７８５の最近傍：クラスタ７６中の７９（Ｄ＝０．４０１）
７０６の最近傍：クラスタ１８中の１０１（Ｄ＝０．４０３）
８２９の最近傍：クラスタ３８中の２１３（Ｄ＝０．４０４）
７０１の最近傍：クラスタ７６中の１７９（Ｄ＝０．４０４）
７７０の最近傍：クラスタ３８中の４５３（Ｄ＝０．４０４）
６３０の最近傍：クラスタ７６中の７９（Ｄ＝０．４０６）
８６６の最近傍：クラスタ３８中の８７（Ｄ＝０．４０７）
７９５の最近傍：クラスタ７６中の１５９（Ｄ＝０．４０７）
８６５の最近傍：クラスタ７６中の１７９（Ｄ＝０．４０７）
８６９の最近傍：クラスタ１８中の１０１（Ｄ＝０．４０９）
８３０の最近傍：クラスタ３８中の１６５（Ｄ＝０．４１２）
８５１の最近傍：クラスタ７６中の２９（Ｄ＝０．４１２）
７８２の最近傍：クラスタ７６中の５０（Ｄ＝０．４１２）
６２７の最近傍：クラスタ７６中の７２（Ｄ＝０．４１２）
８４８の最近傍：クラスタ７６中の８３（Ｄ＝０．４１３）
８８３の最近傍：クラスタ１２中の６８７（Ｄ＝０．４１３）
７９３の最近傍：クラスタ７６中の１０７（Ｄ＝０．４１４）
６３１の最近傍：クラスタ１８中の１０１（Ｄ＝０．４１６）
７２０の最近傍：クラスタ１８中の１０１（Ｄ＝０．４１８）
８８５の最近傍：クラスタ１８中の１０１（Ｄ＝０．４１８）
８１３の最近傍：クラスタ１８中の１０１（Ｄ＝０．４１９）
７８８の最近傍：クラスタ３８中の２７８（Ｄ＝０．４２０）
７４８の最近傍：クラスタ１８中の１０１（Ｄ＝０．４２２）
７６２の最近傍：クラスタ３８中の１５８（Ｄ＝０．４２３）
８０４の最近傍：クラスタ１８中の１７７（Ｄ＝０．４２５）
８５４の最近傍：クラスタ１８中の１０１（Ｄ＝０．４２６）
６０５の最近傍：クラスタ７６中の１５９（Ｄ＝０．４３７）
８４９の最近傍：クラスタ１８中の１０１（Ｄ＝０．４３７）
８３５の最近傍：クラスタ１８中の１０１（Ｄ＝０．４３８）
７９０の最近傍：クラスタ７６中の３２（Ｄ＝０．４４２）
７４４の最近傍：クラスタ３８中の１８８（Ｄ＝０．４４８）
８２２の最近傍：クラスタ３８中の２８２（Ｄ＝０．４４９）
７２３の最近傍：クラスタ７６中の１７０（Ｄ＝０．４５６）
８８４の最近傍：クラスタ１８中の１０１（Ｄ＝０．４５９）
５６３の最近傍：クラスタ７６中の３４（Ｄ＝０．４６３）
８６７の最近傍：クラスタ１８中の１６０（Ｄ＝０．４６３）
７７１の最近傍：クラスタ７６中の３４（Ｄ＝０．４７３）
８２６の最近傍：クラスタ３８中の１６５（Ｄ＝０．４７５）
７７７の最近傍：クラスタ７６中の１７４（Ｄ＝０．４７８）
７５９の最近傍：クラスタ１８中の１０１（Ｄ＝０．４８３）
８５５の最近傍：クラスタ１８中の１０１（Ｄ＝０．４８５）
７０２の最近傍：クラスタ１８中の１６０（Ｄ＝０．４９２）
７５０の最近傍：クラスタ７６中の２３０（Ｄ＝０．４９５）
７０４の最近傍：クラスタ７８中の２１６（Ｄ＝０．４９７）
７１１の最近傍：クラスタ７６中の５５（Ｄ＝０．５０２）
７０８の最近傍：クラスタ７８中の５３７（Ｄ＝０．５１０）
７９１の最近傍：クラスタ７６中の１１５（Ｄ＝０．５３４）
７２２の最近傍：クラスタ７６中の１５（Ｄ＝０．５４７）
７００の最近傍：クラスタ７６中の１０７（Ｄ＝０．５４９）
８４６の最近傍：クラスタ７６中の７２（Ｄ＝０．５５２）
８７６の最近傍：クラスタ７６中の８５（Ｄ＝０．５６０）
８６８の最近傍：クラスタ７８中の７４０（Ｄ＝０．５６２）
５６９の最近傍：クラスタ７６中の６８（Ｄ＝０．５７２）
８１７の最近傍：クラスタ７６中の５６（Ｄ＝０．５８２）
７９８の最近傍：クラスタ３８中の３１０（Ｄ＝０．５８５）
７１７の最近傍：クラスタ７８中の２１６（Ｄ＝０．５９７）
８７９の最近傍：クラスタ７６中の２０９（Ｄ＝０．６１２）
７２７の最近傍：クラスタ７６中の９６（Ｄ＝０．６１６）
８２８の最近傍：クラスタ３８中の１４２（Ｄ＝０．６１８）
８４０の最近傍：クラスタ７８中の６３２（Ｄ＝０．６４０）
７４７の最近傍：クラスタ７６中の２０２（Ｄ＝０．６９８）
８４２の最近傍：クラスタ３８中の７９７（Ｄ＝０．７０３）
４４２の最近傍：クラスタ７８中の３３６（Ｄ＝０．７３５）

外れ値の総数：１８
割り当てられたシングルトン（０．０５２ｓ）
生成されたＤｃ（１３．１８１ｓ）
統合前：１４クラスタ
距離３．６０を有する標識０（Ｎ＝１０）と６（Ｎ＝１５）とを統合
統合前：１３クラスタ
距離４．３１を有する標識２（Ｎ＝１５）と４（Ｎ＝１０）とを統合統合前：１２クラスタ
距離４．３７を有する標識１（Ｎ＝１３）と１１（Ｎ＝２５）とを統合統合前：１１クラスタ
距離５．２３を有する標識０（Ｎ＝２５）と１０（Ｎ＝３８）とを統合統合前：１０クラスタ
距離６．０４を有する標識３（Ｎ＝３０）と７（Ｎ＝９５）とを統合統合前：９クラスタ
距離６．８１を有する標識２（Ｎ＝１０）と５（Ｎ＝２）とを統合統合前：８クラスタ
距離７．１９を有する標識４（Ｎ＝２５）と５（Ｎ＝６３）とを統合統合前：７クラスタ
距離７．２３を有する標識２（Ｎ＝１８）と５（Ｎ＝１２）とを統合統合前：６クラスタ
距離９．７６を有する標識３（Ｎ＝１２５）と５（Ｎ＝３０）とを統合クラスタの統合に２５．９７７ｓかかった。

コミュニティ検出に基づく統合は、ｎｅｔｗｏｒｋｘ及びコミュニティｐｙｔｈｏｎモジュールを使用した。ここで返されたｈｉｓｔｏｒｙデータ構造は、入力標識及びシングルトン処理後の標識のみを含む。

［５］：ｙｍ＿ｃｏｍｍｕｎｉｔｙ＝ｍｅｒｇｅ．ｄｅｎｄｒｏｍｅｒｇｅ（（Ｄ，Ｘ），ｙｓ，ｐｒｅｐｒｏｃｅｓｓｉｎｇ＝’ｐｒｅｃｏｍｐｕｔｅｄ’，ｖｅｒｂｏｓｅ＝Ｔｒｕｅ，ｏｕｔｌｉｅｒ＿ｔｈｒｅｓｈｏｌｄ＿ｐｅｒｃｅｎｔｉｌｅ＝９０，ｐｅｒｆｏｒｍ＿ｃｏｍｍｕｎｉｔｙ＿ｄｅｔｅｃｔｉｏｎ＝Ｔｒｕｅ）

８８６の試料のうち８０はシングルトンであり、外れ値閾値は０．５１である。
８２１の最近傍：クラスタ７６中の７２（Ｄ＝０．３７５）
６６１の最近傍：クラスタ７６中の２９（Ｄ＝０．３７９）
７２９の最近傍：クラスタ７６中の２８１（Ｄ＝０．３８１）
５５９の最近傍：クラスタ７６中の７９（Ｄ＝０．３８１）
６９０の最近傍：クラスタ７６中の１７１（Ｄ＝０．３８１）
５６４の最近傍：クラスタ７６中の７９（Ｄ＝０．３８１）
７７６の最近傍：クラスタ３８中の４７４（Ｄ＝０．３８７）
８６０の最近傍：クラスタ３８中の３４０（Ｄ＝０．３９０）
８１６の最近傍：クラスタ７８中の３７９（Ｄ＝０．３９０）
７８７の最近傍：クラスタ３８中の６３（Ｄ＝０．３９１）
７３７の最近傍：クラスタ７６中の７２（Ｄ＝０．３９２）
８７４の最近傍：クラスタ７６中の２２０（Ｄ＝０．３９２）
７４３の最近傍：クラスタ７６中の７２（Ｄ＝０．３９４）
８７７の最近傍：クラスタ７６中の１７４（Ｄ＝０．３９４）
７５３の最近傍：クラスタ７６中の１９０（Ｄ＝０．３９７）
７７４の最近傍：クラスタ３８中の１５８（Ｄ＝０．３９８）
５６５の最近傍：クラスタ７６中の１９０（Ｄ＝０．３９９）
７８５の最近傍：クラスタ７６中の７９（Ｄ＝０．４０１）
７０６の最近傍：クラスタ１８中の１０１（Ｄ＝０．４０３）
８２９の最近傍：クラスタ３８中の２１３（Ｄ＝０．４０４）
７０１の最近傍：クラスタ７６中の１７９（Ｄ＝０．４０４）
７７０の最近傍：クラスタ３８中の４５３（Ｄ＝０．４０４）
６３０の最近傍：クラスタ７６中の７９（Ｄ＝０．４０６）
８６６の最近傍：クラスタ３８中の８７（Ｄ＝０．４０７）
７９５の最近傍：クラスタ７６中の１５９（Ｄ＝０．４０７）
８６５の最近傍：クラスタ７６中の１７９（Ｄ＝０．４０７）
８６９の最近傍：クラスタ１８中の１０１（Ｄ＝０．４０９）
８３０の最近傍：クラスタ３８中の１６５（Ｄ＝０．４１２）
８５１の最近傍：クラスタ７６中の２９（Ｄ＝０．４１２）
７８２の最近傍：クラスタ７６中の５０（Ｄ＝０．４１２）
６２７の最近傍：クラスタ７６中の７２（Ｄ＝０．４１２）
８４８の最近傍：クラスタ７６中の８３（Ｄ＝０．４１３）
８８３の最近傍：クラスタ１２中の６８７（Ｄ＝０．４１３）
７９３の最近傍：クラスタ７６中の１０７（Ｄ＝０．４１４）
６３１の最近傍：クラスタ１８中の１０１（Ｄ＝０．４１６）
７２０の最近傍：クラスタ１８中の１０１（Ｄ＝０．４１８）
８８５の最近傍：クラスタ１８中の１０１（Ｄ＝０．４１８）
８１３の最近傍：クラスタ１８中の１０１（Ｄ＝０．４１９）
７８８の最近傍：クラスタ３８中の２７８（Ｄ＝０．４２０）
７４８の最近傍：クラスタ１８中の１０１（Ｄ＝０．４２２）
７６２の最近傍：クラスタ３８中の１５８（Ｄ＝０．４２３）
８０４の最近傍：クラスタ１８中の１７７（Ｄ＝０．４２５）
８５４の最近傍：クラスタ１８中の１０１（Ｄ＝０．４２６）
６０５の最近傍：クラスタ７６中の１５９（Ｄ＝０．４３７）
８４９の最近傍：クラスタ１８中の１０１（Ｄ＝０．４３７）
８３５の最近傍：クラスタ１８中の１０１（Ｄ＝０．４３８）
７９０の最近傍：クラスタ７６中の３２（Ｄ＝０．４４２）
７４４の最近傍：クラスタ３８中の１８８（Ｄ＝０．４４８）
８２２の最近傍：クラスタ３８中の２８２（Ｄ＝０．４４９）
７２３の最近傍：クラスタ７６中の１７０（Ｄ＝０．４５６）
８８４の最近傍：クラスタ１８中の１０１（Ｄ＝０．４５９）
５６３の最近傍：クラスタ７６中の３４（Ｄ＝０．４６３）
８６７の最近傍：クラスタ１８中の１６０（Ｄ＝０．４６３）
７７１の最近傍：クラスタ７６中の３４（Ｄ＝０．４７３）
８２６の最近傍：クラスタ３８中の１６５（Ｄ＝０．４７５）
７７７の最近傍：クラスタ７６中の１７４（Ｄ＝０．４７８）
７５９の最近傍：クラスタ１８中の１０１（Ｄ＝０．４８３）
８５５の最近傍：クラスタ１８中の１０１（Ｄ＝０．４８５）
７０２の最近傍：クラスタ１８中の１６０（Ｄ＝０．４９２）
７５０の最近傍：クラスタ７６中の２３０（Ｄ＝０．４９５）
７０４の最近傍：クラスタ７８中の２１６（Ｄ＝０．４９７）
７１１の最近傍：クラスタ７６中の５５（Ｄ＝０．５０２）
７０８の最近傍：クラスタ７８中の５３７（Ｄ＝０．５１０）
７９１の最近傍：クラスタ７６中の１１５（Ｄ＝０．５３４）
７２２の最近傍：クラスタ７６中の１５（Ｄ＝０．５４７）
７００の最近傍：クラスタ７６中の１０７（Ｄ＝０．５４９）
８４６の最近傍：クラスタ７６中の７２（Ｄ＝０．５５２）
８７６の最近傍：クラスタ７６中の８５（Ｄ＝０．５６０）
８６８の最近傍：クラスタ７８中の７４０（Ｄ＝０．５６２）
５６９の最近傍：クラスタ７６中の６８（Ｄ＝０．５７２）
８１７の最近傍：クラスタ７６中の５６（Ｄ＝０．５８２）
７９８の最近傍：クラスタ３８中の３１０（Ｄ＝０．５８５）
７１７の最近傍：クラスタ７８中の２１６（Ｄ＝０．５９７）
８７９の最近傍：クラスタ７６中の２０９（Ｄ＝０．６１２）
７２７の最近傍：クラスタ７６中の９６（Ｄ＝０．６１６）
８２８の最近傍：クラスタ３８中の１４２（Ｄ＝０．６１８）
８４０の最近傍：クラスタ７８中の６３２（Ｄ＝０．６４０）
７４７の最近傍：クラスタ７６中の２０２（Ｄ＝０．６９８）
８４２の最近傍：クラスタ３８中の７９７（Ｄ＝０．７０３）
４４２の最近傍：クラスタ７８中の３３６（Ｄ＝０．７３５）

外れ値の総数：１８
割り当てられたシングルトン（０．０５４ｓ）
生成されたＤｃ（１２．７７３ｓ）
１４のノード及び２４のエッジを有するグラフが構築された（１２．７７４ｓ）
クラスタの統合に１２．７７５ｓかかった。

全体で、これらのデータは、再帰的な分割及び検定、それに続く統合によるクラスタリングを示している。

実施例２
系統樹の再帰的な分割及び検定、それに続く統合によるクラスタリングの結果の視覚化
この実施例では、実施例１に示された系統樹の再帰的な分割及び検定、それに続く統合によるクラスタリングの結果の視覚化について説明する。

分割及び統合ステップ後に生成されたクラスタ標識を調べた。

［６］：ｐｌｔ．ｓｃａｔｔｅｒ（ｘ１，ｘ２，ｅｄｇｅｃｏｌｏｒｓ＝’ｎｏｎｅ’）
＿＝ｐｌｔ．ａｘｉｓ（’ｏｆｆ’）
ｐｌｔ．ｔｉｔｌｅ（’Ｐｒｅ－ｃｌｕｓｔｅｒｉｎｇ’）
＃事前統合標識（標識シングルトン）を使用したクラスタリング結果
ｐｌｔ．ｆｉｇｕｒｅ（）
ｓｐｌｉｔ．ｐｌｏｔ＿ｌａｂｅｌｓ＿ｌｅｇｅｎｄ（ｘ１，ｘ２，ｓｐｌｉｔ．ｓｔｒ＿ｌａｂｅｌｓ＿ｔｏ＿ｉｎｔｓ（ｙｓ））
ｐｌｔ．ｔｉｔｌｅ（’Ａｆｔｅｒｓｐｌｉｔｔｉｎｇｓｔｅｐ’）
＃統合後標識を使用したクラスタリング結果
ｐｌｔ．ｆｉｇｕｒｅ（）
ｓｐｌｉｔ．ｐｌｏｔ＿ｌａｂｅｌｓ＿ｌｅｇｅｎｄ（ｘ１，ｘ２，ｙｍ）
ｐｌｔ．ｔｉｔｌｅ（’Ａｆｔｅｒｍｅｒｇｉｎｇｓｔｅｐ’）
＃統合後標識を使用したクラスタリング結果
ｐｌｔ．ｆｉｇｕｒｅ（）
ｓｐｌｉｔ．ｐｌｏｔ＿ｌａｂｅｌｓ＿ｌｅｇｅｎｄ（ｘ１，ｘ２，ｙｍ＿ｃｏｍｍｕｎｉｔｙ）
ｐｌｔ．ｔｉｔｌｅ（’Ａｆｔｅｒｍｅｒｇｉｎｇｓｔｅｐｕｓｉｎｇｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎ’）
Ｏｕｔ［６］：＜ｍａｔｐｌｏｔｌｉｂ．ｔｅｘｔ．Ｔｅｘｔａｔ０ｘ１１２６７４５１０＞

図８のパネル（ａ）～（ｄ）は、単細胞の発現プロファイルを分割し統合した後の二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。

分割がいかに決定されたかの探索
「ｐｒｉｎｔ＿ｈｉｓｔｏｒｙ」関数を使用して、方法の分割ステップがいかに、「ｐｒｉｎｔ＿ｈｉｓｔｏｒｙ」関数を使用してデータセットを取り扱うかを探ることができる。行ｉはｉ番目の有効分割を記述する。分割は、生成された両クラスタが「ｍｉｎ＿ｃｌｕｓｔ＿ｓｉｚｅ」を上回り、分割から生成された最低ｐ値が閾値を下回る場合、有効と見なされる。

［７］：ｓｐｌｉｔ．ｐｒｉｎｔ＿ｈｉｓｔｏｒｙ（ｇｅｎｅｓ，ｓｈｉｓｔｏｒｙ）
事前分割：８８６Ｌ：８８３Ｒ：３スコア：１．８Ｅ＋３０８トップ遺伝子：ＲＰＬ３１トップ遺伝子スコア：１．８Ｅ＋３０８
事前分割：８８２Ｌ：４８４Ｒ：３９８スコア：１８２．２６トップ遺伝子：ＦＴＬトップ遺伝子スコア：１８２．２６
事前分割：４８４Ｌ：４８１Ｒ：３スコア：１．８Ｅ＋３０８トップ遺伝子：ＲＰＬ２３トップ遺伝子スコア：１．８Ｅ＋３０８
事前分割：４７９Ｌ：１９５Ｒ：２８４スコア：１２５．４９トップ遺伝子：ＩＧＨＭトップ遺伝子スコア：１２５．４９
事前分割：１９５Ｌ：１７７Ｒ：１８スコア：１５．３５トップ遺伝子：ＲＲＰ７Ａトップ遺伝子スコア：１５．３５
事前分割：１７４Ｌ：１２Ｒ：１６２スコア：１８．８８トップ遺伝子：ＡＮＸＡ１１トップ遺伝子スコア：１８．８８
事前分割：１６０Ｌ：２８Ｒ：１３２スコア：１２．３２トップ遺伝子：ＴＴＦ１トップ遺伝子スコア：１２．３２
事前分割：２８Ｌ：２５Ｒ：３スコア：１３．９４トップ遺伝子：ＳＲＰＫ１トップ遺伝子スコア：１３．９４
事前分割：１３２Ｌ：１２２Ｒ：１０スコア：１８．５２トップ遺伝子：ＴＯＰ２Ａトップ遺伝子スコア：１８．５２
事前分割：１２２Ｌ：１３Ｒ：１０９スコア：２４．９２トップ遺伝子：ＣＡＣＹＢＰトップ遺伝子スコア：２４．９２
事前分割：１０９Ｌ：１０５Ｒ：４スコア：３１．７２トップ遺伝子：ＲＰＳＡトップ遺伝子スコア：３１．７２
事前分割：１０５Ｌ：１５Ｒ：９０スコア：１１．３１トップ遺伝子：ＰＳＭＤ１４トップ遺伝子スコア：１１．３１
事前分割：２８１Ｌ：２７１Ｒ：１０スコア：３８．０４トップ遺伝子：ＲＮＡＳＥＨ２Ｂトップ遺伝子スコア：３８．０４
事前分割：２７１Ｌ：２Ｒ：２６９スコア：２３３．２３トップ遺伝子：ＧＡＳ８トップ遺伝子スコア：２３３．２３
事前分割：２６８Ｌ：２６５Ｒ：３スコア：８０．２４トップ遺伝子：ＣＮＰＹ３トップ遺伝子スコア：８０．２４
事前分割：２６５Ｌ：４Ｒ：２６１スコア：１００．２６トップ遺伝子：ＭＺＢ１トップ遺伝子スコア：１００．２６
事前分割：３９５Ｌ：３９２Ｒ：３スコア：２２８．５８トップ遺伝子：ＣＲＥＢ３Ｌ１トップ遺伝子スコア：２２８．５８
事前分割：３８６Ｌ：３２Ｒ：３５４スコア：３３．２４トップ遺伝子：ＶＭＰ１トップ遺伝子スコア：３３．２４
事前分割：３５１Ｌ：１９Ｒ：３３２スコア：３２．８６トップ遺伝子：ＥＩＦ２Ｂ１トップ遺伝子スコア：３２．８６
事前分割：３３２Ｌ：６Ｒ：３２６スコア：８３．５７トップ遺伝子：ＮＵＤＴ５トップ遺伝子スコア：８３．５７
事前分割：３２６Ｌ：３Ｒ：３２３スコア：１４８．２５トップ遺伝子：ＴＭＳＢ４Ｘトップ遺伝子スコア：１４８．２５
事前分割：３２３Ｌ：３１４Ｒ：９スコア：７１．４３トップ遺伝子：Ｃ１２ｏｒｆ５７トップ遺伝子スコア：７１．４３
事前分割：３１４Ｌ：２２１Ｒ：９３スコア：４８．７０トップ遺伝子：ＲＰＬ２７Ａトップ遺伝子スコア：４８．７０
事前分割：２１７Ｌ：２１５Ｒ：２スコア：１３３．４２トップ遺伝子：ＪＵＮトップ遺伝子スコア：１３３．４２

各分割に関わったポイントが視覚化された。各行は２つの図を有する。行ｉは、保存されたｉ番目の分割を記述する。図９のパネル（ａ）～（ｘ）は、分割がいかに決定されたかを示す二次元空間における発現プロファイルの非限定的で例示的なプロットである。各パネルにおいて、左の図は、分割がいかに実行されたかを示す。青い点は、分割に全く関与しなかった。赤及び緑の点は、同じクラスタで使用され、次に分離された。左の図のタイトルは、分割回数及び最大ｔ統計（絶対値をとった後）を達成した３つの遺伝子を示す。各遺伝子に関連付けられた数字は、対応するｐ値の－ｌｏｇ１０である。各遺伝子の隣の括弧内の「０」又は「１」は、その遺伝子のより高い平均発現を有したクラスタを示す。右の図は、最大ｔ統計を達成した遺伝子の対数発現を示す。

［８］：ｓｐｌｉｔ．ｖｉｓｕａｌｉｚｅ＿ｈｉｓｔｏｒｙ（ｎｐ．ｌｏｇ（１＋Ｘ），ｘ１，ｘ２，ｇｅｎｅｓ，ｓｈｉｓｔｏｒｙ）
／Ｕｓｅｒｓ／ｕｓｅｒ１／ａｎａｃｏｎｄａ２／ｌｉｂ／ｐｙｔｈｏｎ２．７／ｓｉｔｅ－ｐａｃｋａｇｅｓ／ｍａｔｐｌｏｔｌｉｂ／ｐｙｐｌｏｔ．ｐｙ：５１６：ＲｕｎｔｉｍｅＷａｒｎｉｎｇ：Ｍｏｒｅｍａｘｏｐｅｎｗａｒｎｉｎｇ，ＲｕｎｔｉｍｅＷａｒｎｉｎｇ）

「ａｎａｌｙｚｅ＿ｓｐｌｉｔ」関数を使用して、特定の分割が何故保持されたかを決めた遺伝子を更に詳しく調べることができる。「ｓｈｏｗ＿ｂａｃｋｇｒｏｕｎｄ」キーワードを使用して、分割に関与しなかった細胞も表示する。「ｃｌｕｓｔ」を使用して、特定のクラスタでより高度に発現する遺伝子のみを見る。「ｎｕｍ＿ｇｅｎｅｓ」を使用して、遺伝子のカスタム数を表示することができる。

［９］：＃分割５を見る
ｓｐｌｉｔ＿ｎｕｍ＝５
ｃｌｕｓｔｅｒ＿ｏｆ＿ｉｎｔｅｒｅｓｔ＝Ｎｏｎｅ
ｓｈｏｗ＿ｂａｃｋｇｒｏｕｎｄ＝Ｆａｌｓｅ
ｓｐｌｉｔ．ａｎａｌｙｚｅ＿ｓｐｌｉｔ（Ｘ，ｘ１，ｘ２，ｇｅｎｅｓ，ｓｈｉｓｔｏｒｙ，ｓｐｌｉｔ＿ｎｕｍ，ｎｕｍ＿ｇｅｎｅｓ＝１２，
ｓｈｏｗ＿ｂａｃｋｇｒｏｕｎｄ＝ｓｈｏｗ＿ｂａｃｋｇｒｏｕｎｄ，ｃｌｕｓｔ＝ｃｌｕｓｔｅｒ＿ｏｆ＿ｉｎｔｅｒｅｓｔ）

図１０は、分割の５番目のサイクル後の二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。図１１のパネル（ａ）～（ｌ）は、図１０に示される５番目のサイクルで系統樹中の特定の分割が何故保持されたかを示す、二次元空間における発現プロファイルの非限定的で例示的なプロットである。

統合がいかに決定されたかの探索
分割がいかに決定されたかを探るための関数を使用して、統合がいかに実行されたかを探ることができる。

［１０］：ｓｐｌｉｔ．ｐｒｉｎｔ＿ｈｉｓｔｏｒｙ（ｇｅｎｅｓ，ｍｈｉｓｔｏｒｙ）
ｓｐｌｉｔ．ｖｉｓｕａｌｉｚｅ＿ｈｉｓｔｏｒｙ（ｎｐ．ｌｏｇ（１＋Ｘ），ｘ１，ｘ２，ｇｅｎｅｓ，ｍｈｉｓｔｏｒｙ）
８８６の試料のうち８０はシングルトンである
シングルトン４４２，５６９，７００，７０８，７１７，７２２，７２７，７４７，７９１，７９８，８１７，８２８，８４０，８４２，８４６，８６８，８７６，８７９ｍ
シングルトン１５はクラスタ１２（Ｎ＝２４）と統合されて、クラスタ１（Ｎ＝２５）を形成した
シングルトン３，４，６，７，９，１０，１１，１３，１４，１９，２０，２１，２２，２４，２５，２６はクラスタ１８（Ｎ＝９０）と統合された
シングルトン５，２９，３０，３１，３２，３３，３４，３５，３６，３７，３９，４０，４１はクラスタ３８（Ｎ＝２６１）と統合されて、シングルトン２８，５３，５５，５６，５８，５９，６０，６１，６３，６４，６５，６７，６８，６９，７０，７１，７２，７３，７４，７５，７９，８０，８１を形成した
シングルトン５４，６６はクラスタ７８（Ｎ＝９３）と統合されて、クラスタ１３（Ｎ＝９５）を形成した
統合後：２５Ｌ：１０Ｒ：１５スコア：３．６０トップ遺伝子：ＥＮＯＳＦ１トップ遺伝子スコア：３．６０
統合後：２５Ｌ：１５Ｒ：１０スコア：４．３１トップ遺伝子：ＭＡＧＥＤ１トップ遺伝子スコア：４．３１
統合後：３８Ｌ：１３Ｒ：２５スコア：４．３７トップ遺伝子：ＰＲＰＦ４０Ａトップ遺伝子スコア：４．３７
統合後：６３Ｌ：２５Ｒ：３８スコア：５．２３トップ遺伝子：ＡＬＤＯＣトップ遺伝子スコア：５．２３
統合後：１２５Ｌ：３０Ｒ：９５スコア：６．０４トップ遺伝子：ＰＡＲＰ１トップ遺伝子スコア：６．０４
統合後：１２Ｌ：１０Ｒ：２スコア：６．８１トップ遺伝子：ＩＧＬＣ３トップ遺伝子スコア：６．８１
統合後：８８Ｌ：２５Ｒ：６３スコア：７．１９トップ遺伝子：ＨＭＧＢ２トップ遺伝子スコア：７．１９
統合後：３０Ｌ：１８Ｒ：１２スコア：７．２３トップ遺伝子：ＶＩＭトップ遺伝子スコア：７．２３
統合後：１５５Ｌ：１２５Ｒ：３０スコア：９．７６トップ遺伝子：ＨＭＧＮ５トップ遺伝子スコア：９．７６

図１２のパネル（ａ）～（ｉ）は、統合がいかに決定されたかを示す二次元空間における発現プロファイルの非限定的で例示的なプロットである。

［１１］：＃統合２を見る
ｍｅｒｇｅ＿ｎｕｍ＝２
ｃｌｕｓｔｅｒ＿ｏｆ＿ｉｎｔｅｒｅｓｔ＝Ｎｏｎｅ
ｓｈｏｗ＿ｂａｃｋｇｒｏｕｎｄ＝Ｆａｌｓｅ
ｓｐｌｉｔ．ａｎａｌｙｚｅ＿ｓｐｌｉｔ（Ｘ，ｘ１，ｘ２，ｇｅｎｅｓ，ｍｈｉｓｔｏｒｙ，ｍｅｒｇｅ＿ｎｕｍ，ｎｕｍ＿ｇｅｎｅｓ＝４，
ｓｈｏｗ＿ｂａｃｋｇｒｏｕｎｄ＝ｓｈｏｗ＿ｂａｃｋｇｒｏｕｎｄ，ｃｌｕｓｔ＝ｃｌｕｓｔｅｒ＿ｏｆ＿ｉｎｔｅｒｅｓｔ）

図１３は、統合の２番目のサイクル後の二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。図１４のパネル（ａ）～（ｄ）は、図１３に示される統合の２番目のサイクルがいかに決定されたかを示す、二次元空間における発現プロファイルの非限定的で例示的なプロットを示す。

差次的発現
モジュールは、２種類の単純な差次的発現分析を可能にする。第１の種類は、各クラスタのｏｎｅ－ｖ－ｒｅｓｔ比較を行い、各遺伝子のｔ検定に従って各クラスタの最も重要な遺伝子を視覚化する。第２の種類は、クラスタの２つのあらゆるペアに対してペア毎比較を行う。

［１２］：ｓｐｌｉｔ．ｓａｖｅ＿ｍｏｒｅ＿ｈｉｇｈｌｙ＿ｅｘｐｒｅｓｓｅｄ＿ｇｅｎｅｓ＿ｉｎ＿ｏｎｅ＿ｃｌｕｓｔ（Ｘ，ｇｅｎｅｓ，ｙｍ，ｘ１，ｘ２，ｎｕｍ＿ｇｅｎｅｓ＝３，ｓｈｏｗ＿ｐｌｏｔｓ＝Ｔｒｕｅ）

図１５のパネル（ａ）～（ｆ）は、差次的発現分析の１つの非限定的で例示的なタイプを示すプロットである。

［１３］：ｓｐｌｉｔ．ｐａｉｒｗｉｓｅ＿ｃｌｕｓｔｅｒ＿ｃｏｍｐａｒｉｓｏｎ（Ｘ，ｇｅｎｅｓ，ｙｍ，ｘ１＝ｘ１，ｘ２＝ｘ２，ｎｕｍ＿ｇｅｎｅｓ＝３，ｓｈｏｗ＿ｐｌｏｔｓ＝Ｔｒｕｅ，ｖｅｒｂｏｓｅ＝Ｆ
ｄｅｎｄｒｏｓｐｌｉｔ／ｕｔｉｌｓ．ｐｙ：３９：ＦｕｔｕｒｅＷａｒｎｉｎｇ：要素毎の比較失敗；代わりにスカラーを返すが，しかし、ｐｌｔ．ｐｌｏｔ（ｘ１［ｙ＝＝ｉ］，ｘ２［ｙ＝＝ｉ］，’．’，ｃ＝ＲＧＢｓ［ｊ］，ｌａｂｅｌ＝ｓｔｒ（ｉ）＋’（’＋ｓｔｒ（ｎｐ．ｓｕｍ（ｙ＝＝ｉ））＋’）’）において
ｄｅｎｄｒｏｓｐｌｉｔ／ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ．ｐｙ：２２１：ＲｕｎｔｉｍｅＷａｒｎｉｎｇ：二重スカラーフォールドで直面したゼロで除算＝ｇｍｅａｎｊ／ｇｍｅａｎｉ

図１６のパネル（ａ）～（ｏ）は、別の非限定的で例示的なタイプの差次的発現分析を示すプロットである。

距離分布
モジュールは、ユーザが各クラスタ内の距離の分布の視覚化をできるようにもする。所与のクラスタについて、この関数は、ペア毎距離の組全体の各パーセンタイルビンのペア毎距離（クラスタ内の点間の）の割合をプロットする。例えば、１における０．３は、ペア毎距離の３０％が、全体距離の５パーセンタイルと１０パーセンタイルとの間にあることを示す。この関数を使用し、凝集したクラスタがいかに元の距離マトリックスに従うかの感覚を得る。直観的に、良好なクラスタは、全ての互いに近い点を有するはずである。例えば、下部の１０個のビン（すなわち、下部５０パーセンタイル）内に距離を有さないクラスタは、不良と見なされる。予期されるように、これは、外れ値を含む以下のクラスタ「－１」の場合であることに留意する。

［１４］：ｍｅｒｇｅ．ｖｉｓｕａｌｉｚｅ＿ｗｉｔｈｉｎ＿ｃｌｕｓｔｅｒ＿ｄｉｓｔａｎｃｅ＿ｄｉｓｔｒｉｂｕｔｉｏｎｓ（Ｄ，ｙｍ，ｓｈｏｗ＿Ｄ＿ｄｉｓｔ＝Ｔｒｕｅ）

図１７のパネル（ａ）～（ｇ）は、クラスタ間の距離を視覚化する非限定的で例示的なプロットである。

系統樹
モジュールは、ユーザが系統樹を生成し、系統樹に従って細胞の順序を得られるようにすることもできる。系統樹は、ｉＰｙｔｈｏｎｎｏｔｅｂｏｏｋで見ることが難しいことがある。幾つかの実施形態では、系統樹は、以下に示されるように保存することができる。ユーザは、クラスタ標識（「標識」キーワード）において供給することができる。所望の場合、この関数は、クラスタ内の全試料の名称を同じ色にすることができる。

［１５］：ｃｅｌｌ＿ｏｒｄｅｒ＝ｓｐｌｉｔ．ｐｌｏｔ＿ｄｅｎｄｒｏ（Ｄ，ｒｅｔｕｒｎ＿ｃｅｌｌ＿ｏｒｄｅｒ＝Ｔｒｕｅ，ｌａｂｅｌｓ＝ｙｍ，ｓａｖｅ＿ｎａｍｅ＝’／Ｕｓｅｒｓ／ｕｓｅｒ１／Ｄｅｓｋｔｏｐ／ｄｅｎｄｒｏｇｒａｍ’）
ｄｅｎｄｒｏｓｐｌｉｔ／ｓｐｌｉｔ．ｐｙ：２３３：ＦｕｔｕｒｅＷａｒｎｉｎｇ：
「Ｎｏｎｅ」との比較は、標識が「！」である場合、要素毎のオブジェクト比較に繋がる
＝Ｎｏｎｅ：

図１８は、非限定的で例示的な系統樹を示す。

全体で、これらのデータは、様々なステップ及び再帰的な分割及び統合、それに続く統合の結果を視覚化する本開示の様々なツールを示す。

実施例３
系統樹の再帰的な分割及び検定、それに続く統合によるクラスタリングのパラメータ掃引
この実施例は、再帰的な分割及び検定、それに続く統合に向けてパラメータを最適化するパラメータ掃引について説明する。

方法の分割ステップ中、２つのハイパーパラメータを調整することができる：スコア閾値及び解散パーセンタイル。異なるハイパーパラメータを用いてどのような異なるクラスタを生成することができるかについて探ることができる。より小さなスコア閾値（閾値が小さいほど、多くのクラスタが生成される）を用いて生成されたクラスタが、より大きなスコア閾値を用いて生成されたクラスタを分割することを利用することにより、幾つかの（分割後の事前統合）クラスタリング結果を迅速に得ることができる。まず、非常に低い閾値を用いて分割ステップを実行する。次に、ｈｉｓｔｏｒｙ（）関数からｇｅｔクラスタを使用する。

様々なスコア閾値を通して掃引する一例を以下に示す。解散パーセンタイル値を用いて同じことを行うことができる。

［１６］：ｙｓ，ｓｈｉｓｔｏｒｙ＝ｓｐｌｉｔ．ｄｅｎｄｒｏｓｐｌｉｔ（（Ｄ，Ｘ），ｐｒｅｐｒｏｃｅｓｓｉｎｇ＝’ｐｒｅｃｏｍｐｕｔｅｄ’，
ｓｃｏｒｅ＿ｔｈｒｅｓｈｏｌｄ＝２，ｖｅｒｂｏｓｅ＝Ｆａｌｓｅ，ｄｉｓｂａｎｄ＿ｐｅｒｃｅｎｔｉｌｅ＝５０）
ｙｓ＿ｓｗｅｅｐ＝［］
ｔｈｒｅｓｈｏｌｄｓ＝ｒａｎｇｅ（５，１００，５）
ｆｏｒｔｈｒｅｓｈｏｌｄｉｎｔｈｒｅｓｈｏｌｄｓ：
ｙｓ＿ｓｗｅｅｐ．ａｐｐｅｎｄ（ｓｐｌｉｔ．ｇｅｔ＿ｃｌｕｓｔｅｒｓ＿ｆｒｏｍ＿ｈｉｓｔｏｒｙ（Ｄ，ｓｈｉｓｔｏｒｙ，ｔｈｒｅｓｈｏｌｄ，５０））
ｐｌｔ．ｆｉｇｕｒｅ（）
ｓｐｌｉｔ．ｐｌｏｔ＿ｌａｂｅｌｓ＿ｌｅｇｅｎｄ（ｘ１，ｘ２，ｓｐｌｉｔ．ｓｔｒ＿ｌａｂｅｌｓ＿ｔｏ＿ｉｎｔｓ（ｙｓ＿ｓｗｅｅｐ［－１］））
ｐｌｔ．ｔｉｔｌｅ（’Ｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｕｓｉｎｇａｔｈｒｅｓｈｏｌｄｏｆ％．３ｆ’％（ｔｈｒｅｓｈｏｌｄ））

図１９のパネル（ａ）～（ｓ）は、パラメータ掃引を示す非限定的で例示的なプロットである。

パラメータを掃引することにより、閾値の関数としてクラスタの数がいかに変わるかを調べることができる。これは、特定の用途に最適な閾値を選択する方法についての洞察をユーザに与え得る。

［１７］：ｄｅｆｃｏｕｎｔ＿ｎｏｎｓｉｎｇｌｅｔｏｎ＿ｃｌｕｓｔｅｒｓ（ｙ）：
ｒｅｔｕｒｎｓｕｍ（［１ｆｏｒｉｉｎｎｐ．ｕｎｉｑｕｅ（ｙ）ｉｆｎｐ．ｓｕｍ（ｙ＝＝ｉ）！＝１］）
ｐｌｔ．ｐｌｏｔ（ｔｈｒｅｓｈｏｌｄｓ，［ｃｏｕｎｔ＿ｎｏｎｓｉｎｇｌｅｔｏｎ＿ｃｌｕｓｔｅｒｓ（ｉ）ｆｏｒｉｉｎｙｓ＿ｓｗｅｅｐ］）
ｐｌｔ．ｇｒｉｄ（）
ｐｌｔ．ｘｌａｂｅｌ（’ｔｈｒｅｓｈｏｌｄｓ（－ｌｏｇ１０（ｐ－ｖａｌｕｅ））’）
ｐｌｔ．ｙｌａｂｅｌ（’ｎｕｍｂｅｒｏｆｎｏｎｓｉｎｇｌｅｔｏｎｅｃｌｕｓｔｅｒｓ’）
Ｏｕｔ［１７］：＜ｍａｔｐｌｏｔｌｉｂ．ｔｅｘｔ．Ｔｅｘｔａｔ０ｘ１１７ｆｂ３２９０＞

図２０は、パラメータ掃引をいかに使用して、閾値を識別することができるかを示す非限定的で例示的なプロットである。わずか５という閾値を用いる場合、発現プロファイルの多数のクラスタが識別されるため、より大きな閾値（例えば、図１９のパネル（ｈ）に示されている４０）を用いて、発現プロファイルのより少数のクラスタが識別された。

全体で、これらのデータは、再帰的な分割及び検定、それに続く統合に向けて、パラメータ掃引によりハイパーパラメータを最適化することを示す。

実施例４
系統樹の再帰的な分割及び検定、それに続く統合によるクラスタリング
この実施例は、再帰的な分割（例えば、再帰的な系統樹の分割）及び検定、それに続く統合によるクラスタリング法を説明する。この実施例において、系統樹の各クラスタ又はノードにおいて（リーフノードを除く）、２つのサブクラスタのクラスタ内メジアン相関は、クラスタ間メジアン相関よりも高かった。

３５７個の細胞の発現プロファイルの分割及び検定フェーズ中、系統樹の最上部から始まって、ツリーは２つの候補サブツリーに分割された。分割は、２つのサブクラスタのクラスタ内メジアン相関がクラスタ間メジアン相関よりも高い値であるべきという制約下でクラスタが２つの候補サブツリーに分割されることに対応する。分割の品質がスコア付けられた。サブクラスタが十分に異なると見なされた場合、フェーズは各サブツリーに続く。十分に異なると見なされない場合、方法は、系統樹のこの部分では終了する。このフェーズは、データセットの１組の標識を生成した。

図２１のパネル（ａ）～（ｊ）は、最初の分割の結果を示す非限定的で例示的なプロットである。最初の分割中、２０個の遺伝子（表１に示される）は、３５７個の細胞で異なる発現されたと判断された。

図２２は、１０の閾値を用いて３５７個の細胞が２つのクラスタに分類されたことを示す、３５７個の細胞の発現プロファイルの分割結果を示す非限定的で例示的なｔ分布型確率的近傍埋め込み（ｔ－ＳＮＥ）プロットである。図２３は、表２に示される特徴に基づいて２つのクラスタに分類された発現プロファイルを示す非限定的で例示的な系統樹を示す（表１中のクラスタ０は表２中のクラスタ１に対応し、表２中のクラスタ１は表２中のクラスタ２に対応する）。図２４は、パラメータ掃引を示す非限定的で例示的なプロットである。発現プロファイルの２つのクラスタは、わずか１０という閾値を用いて識別されたため、発現プロファイルの同じ２つのクラスタは、より大きな閾値（図２４を図２０と比較）を用いて識別された。

全体で、これらのデータは、再帰的な分割及び検定、それに続く統合によるクラスタリングを示す。この実施例では、系統樹の各クラスタ又はノードにおいて（リーフノードを除く）、２つのサブクラスタのクラスタ内メジアン相関は、クラスタ間メジアン相関よりも高かった。

上述した実施形態の少なくとも幾つかでは、実施形態で使用された１つ又は複数の要素は、別の実施形態での置換が技術的に実現可能ではない場合を除き、別の実施形態において交換可能に使用することができる。特許請求の範囲に記載される趣旨の範囲から逸脱せずに、様々な他の省略、追加、及び改変を上述した方法及び構造に行い得ることが当業者には理解される。そのような可変及び変更は全て、添付の特許請求の範囲により規定される趣旨の範囲内にあることが意図される。

本明細書での略あらゆる複数の及び／又は単数の用語の使用に関して、当業者は、状況及び／又は用途に適切なように、複数から単数に及び／又は単数から複数に変換することができる。様々な単数／複数の置換は、明確性を目的として、本明細書に明示的に記載され得る。本明細書及び添付の特許請求の範囲で使用される場合、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、状況により明確に別段のことが示される場合を除き、複数形を含む。本明細書での「又は」への任意の言及は、別段のことが記載される場合を除き、「及び／又は」を包含することが意図される。

一般に、本明細書、特に添付の特許請求の範囲（例えば、添付の特許請求の範囲の本文）において使用される用語が一般に、「オープン」ターム（例えば、「含み（ｉｎｃｌｕｄｉｎｇ）」という用語が、「限定ではなく、～を含み」として解釈されるべきであり、「有し」という用語が「少なくとも～を有し」として解釈されるべきであり、「含む（ｉｎｃｌｕｄｅ）」という用語が、「限定ではなく、～を含む」として解釈されるべきである等）として意図されることが当業者により理解される。導入される請求項の記載において特定の数が意図される場合、そのような記載は請求項において明確に記載され、そのような記載がない場合、そのような意図は存在しないことが当業者により更に理解される。例えば、理解の助けとして、以下の添付の特許請求の範囲は、「少なくとも１つの」及び「１つ又は複数の」という導入句を使用して、請求項の記載を導入することがある。しかしながら、このような句の使用は、たとえ同一のクレームに「１つ又は複数の」又は「少なくとも１つの」という導入句及び「ａ」又は「ａｎ」等の不定冠詞を含む場合であっても、不定冠詞「ａ」又は「ａｎ」による請求項の記載の導入が、そのような導入された請求項の記載を含むいかなる特定の請求項も、そのような記載を１つのみ含む実施形態に限定することを暗示すると解釈されるべきではなく（例えば、「ａ」及び／又は「ａｎ」は、「少なくとも１つの」又は「１つ又は複数の」を意味すると解釈されるべきである）、定冠詞を使用して請求項の記載を導入する場合にも同じことが当てはまる。加えて、導入される請求項の記載において特定の数が明確に記載される場合も、そのような記載は、少なくとも記載された数を意味すると解釈されるべきであることを当業者は理解する（例えば、他に修飾語のない、単なる「２つの記載事項」という記載は、少なくとも２つの記載事項、又は２つ以上の記載事項を意味する）。さらに、「Ａ、Ｂ、及びＣ等の少なくとも１つ」に類する表現が用いられる場合、一般に、そのような表現は、当業者がその表現を理解する意味が意図されている（例えば、「Ａ、Ｂ、及びＣの少なくとも１つを有するシステム」には、限定ではなく、Ａのみ、Ｂのみ、Ｃのみ、Ａ及びＢの両方、Ａ及びＣの両方、Ｂ及びＣの両方、及び／又はＡ、Ｂ、及びＣの全て等を有するシステムが含まれる）。「Ａ、Ｂ、及びＣ等の少なくとも１つ」に類する表現が用いられる場合、一般に、そのような表現は、当業者がその表現を理解する意味が意図されている（例えば、「Ａ、Ｂ、及びＣの少なくとも１つを有するシステム」には、限定ではなく、Ａのみ、Ｂのみ、Ｃのみ、Ａ及びＢの両方、Ａ及びＣの両方、Ｂ及びＣの両方、及び／又はＡ、Ｂ、及びＣの全て等を有するシステムが含まれる）。さらに、２つ以上の代替可能な用語を表す実質的に任意の離接語及び／又は離接句は、説明、請求の範囲、又は図面のいずれにおいても、用語のうち１つ、用語のいずれか、又は両方の用語を含む可能性が意図されると理解されるべきであることが、当業者には理解される。例えば、「Ａ又はＢ」という句は、「Ａ」若しくは「Ｂ」又は「Ａ及びＢ」の可能性を含むことが理解される。

加えて、本開示の特徴又は態様がマーカッシュグループによって記載されると、それにより本開示がマーカッシュグループのあらゆる個々の要素又は要素のサブグループの観点からも記載されるということを当業者は認識する。

当業者に理解されるように、記述を提供する等のあらゆるかつ全ての目的のため、本明細書に開示される全ての範囲は、あらゆるかつ全ての可能な部分範囲及びその部分範囲の組合せをも含む。挙げられたあらゆる範囲は、少なくとも半分、３分の１、４分の１、５分の１、１０分の１等へと細分化される同一の範囲を十分に記載し、且つ可能にしていることが容易に認識される。非限定的な例として、明細書で記載される各範囲は、下部３分の１、中部３分の１、上部３分の１等に容易に分けられる。また、当業者には理解されるように、例えば、「まで（ｕｐｔｏ）」「少なくとも（ａｔｌｅａｓｔ）」「より大きい（ｇｒｅａｔｅｒｔｈａｎ）」「未満（ｌｅｓｓｔｈａｎ）」等の全ての文言は、記載される数を含み、上述のような部分範囲に続いて細分化し得る範囲を指す。最後に、当業者に理解されるように、範囲は個々の要素を含む。したがって、例えば、１～３個の細胞を有する群は、１個、２個、又は３個の細胞を有する群を指す。同様に１～５個の細胞を有する群は、１個、２個、３個、４個、又は５個の細胞を有する群等を指す。

様々な態様及び実施形態が本明細書に開示されたが、他の態様及び実施形態が当業者に明らかになろう。本明細書に開示される様々な態様及び実施形態は、例示を目的とし、限定を意図せず、真の範囲及び趣旨は以下の特許請求の範囲によって示される。
本発明のまた別の態様は、以下のとおりであってもよい。
〔１〕細胞タイプを区別する標的を識別する方法であって、
（ａ）標的カウントデータ構造を受信することであって、前記標的カウントデータ構造は、複数の細胞の発現プロファイルを含み、前記複数の細胞の前記発現プロファイルは、前記複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、
（ｂ）前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す系統樹を生成することであって、前記系統樹は複数のノードを含み、前記複数のノードは、ルートノード、複数のリーフノード、及び複数の非ルート非リーフノードを含み、前記複数のリーフノードの各リーフノードは、前記複数の細胞の異なる細胞の発現プロファイルを表し、前記ルートノードは、前記複数の細胞の発現プロファイルを表す、階層的にクラスタリングして、系統樹を生成することと、
（ｃ）前記系統樹の前記複数のノードの各ノードを通して前記系統樹の前記ルートノードから前記系統樹の前記複数のリーフノードまでトラバースする間、
（１）前記ノードを前記ノードの子ノードに分割することが有効であるか、それとも無効であるかを判断することと、
（２）前記ノードを前記ノードの子ノードに分割することが無効である場合、前記ノードを統合クラスタセットに追加することと、
（ｄ）前記統合クラスタセット内の第１のノードのそれぞれについて、繰り返し、
前記統合クラスタセット内の前記第１のノードと、前記第１のノードに最も近い前記統合クラスタセット内の第２のノードとの間の距離が、統合距離閾値内である場合、前記第１のノードを前記第２のノードと統合して、前記第１のノード及び前記第２のノードによって表される発現プロファイルを含む統合ノードを生成することと、
（ｅ）前記統合クラスタセット内のノードのそれぞれについて、前記ノードによって表される細胞の前記複数の標的の発現プロファイルに基づいて、細胞タイプを区別する標的を識別することと、
を含む、方法。
〔２〕前記標的カウントデータ構造は、標的カウントマトリックスを含む、前記〔１〕に記載の方法。
〔３〕前記標的カウントマトリックスの各行又は各列は、前記複数の細胞の異なる個々の細胞の複数の標的の各標的を幾つか含む、前記〔２〕に記載の方法。
〔４〕前記複数のリーフノード及び前記複数の非ルート非リーフノードのそれぞれには、親ノードが関連付けられ、
前記ルートノード及び前記複数の非ルート非リーフノードのそれぞれには、左子ノード及び右子ノードが関連付けられ、前記ルートノード及び前記複数の非ルート非リーフノードのそれぞれは、前記ノードの前記左子ノード及び前記右子ノードによって表される発現プロファイルを表す、前記〔１〕に記載の方法。
〔５〕（ａ）において、前記標的カウントデータ構造を受信する前、
（ｆ）複数のバーコードを使用して前記複数の細胞内の前記複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、前記複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、前記複数の細胞の１つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、
（ｇ）前記複数のバーコード付き標的の配列データを取得することと、
（ｈ）前記複数の細胞のそれぞれについて、
（１）前記細胞の前記配列データ内の前記複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、
（２）（ｈ）（１）においてカウントされた前記配列データ内の前記標的に関連付けられた別個の配列を有する分子標識の数に基づいて、前記細胞の前記複数の標的の各標的の数を推定することと
を含む、前記〔１〕～〔４〕のいずれか一項に記載の方法。
〔６〕前記標的カウントデータ構造を受信することは、
（ｈ）（２）において推定された前記細胞の前記複数の標的の各標的の数から、標的カウントデータ構造を生成することであって、前記複数の細胞のうちの前記細胞の前記発現プロファイルは、（ｈ）（２）において推定された前記細胞の前記複数の標的の各標的の数を含む、生成することを含む、前記〔５〕に記載の方法。
〔７〕（ｂ）において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す前記系統樹を生成する前、
（ｉ）前記標的カウントデータ構造の要素の距離データ構造を特定することであって、前記距離データ構造は、前記複数の細胞の前記発現プロファイル間の距離を含む、特定すること
を含む、前記〔１〕～〔６〕のいずれか一項に記載の方法。
〔８〕前記距離データ構造は距離マトリックスを含む、前記〔７〕に記載の方法。
〔９〕前記距離マトリックスの各対角線要素は０の値を有する、前記〔８〕に記載の方法。
〔１０〕（ｂ）において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す前記系統樹を生成することは、前記標的カウントデータ構造及び前記距離データ構造に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングすることを含む、前記〔７〕～〔９〕のいずれか一項に記載の方法。
〔１１〕前記複数の細胞の前記発現プロファイル間の前記距離は、前記複数の細胞の前記発現プロファイル間のペア毎の相関距離を含む、前記〔７〕～〔１０〕のいずれか一項に記載の方法。
〔１２〕（ｉ）において前記標的カウントデータ構造の要素の距離データ構造を特定する前、前記標的カウントデータ構造を対数変換して、対数変換済み標的カウントデータ構造にすることを含み、
前記標的カウントデータ構造の要素の前記距離データ構造を特定することは、前記対数変換済み標的カウントデータ構造の前記距離データ構造を特定することを含み、
（ｂ）において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングすることは、前記対数変換済み標的カウントデータ構造及び前記距離データ構造に基づいて前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記系統樹を生成することを含む、前記〔７〕～〔１１〕のいずれか一項に記載の方法。
〔１３〕前記標的カウントデータ構造を前記対数変換済み標的カウントデータ構造に対数変換することは、前記標的カウントデータ構造の各要素の値を増分によって増大させることを含む、前記〔１２〕に記載の方法。
〔１４〕前記増分は１である、前記〔１３〕に記載の方法。
〔１５〕（ｂ）において、前記標的カウントデータ構造及び前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングすることは、
前記複数の細胞の各発現プロファイルを異なるリーフノードに割り当てることと、
前記第２のノードが前記第１のノードへの前記複数のノードの最近傍ノードである場合、前記複数のノードの前記第１のノード及び前記第２のノードを繰り返し結合して、前記第１のノード及び前記第２のノードの親ノードを生成することと、
を含む、前記〔１〕～〔１４〕のいずれか一項に記載の方法。
〔１６〕前記第１のノードと前記第２のノードとの間の前記距離は、前記第１のノードによって表される発現プロファイルを有する任意の細胞と、前記第２のノードによって表される発現プロファイルを有する任意の細胞との間の最大距離である、前記〔１５〕に記載の方法。
〔１７〕前記第１のノードのノード内相関及び前記第２のノードのノード内相関の少なくとも一方は、前記第１のノードと前記第２のノードとのノード間相関よりも高い、前記〔１５〕又は〔１６〕に記載の方法。
〔１８〕前記第１のノードのノード内相関及び前記第２のノードのノード内相関の指示は、前記第１のノードと前記第２のノードとのノード間相関よりも高い、前記〔１５〕又は〔１６〕に記載の方法。
〔１９〕前記第１のノードのノード内相関及び前記第２のノードのノード内相関の指示は、
前記第１のノード及び前記第２のノードのノード内最大相関、
前記第１のノード及び前記第２のノードのノード内平均相関、
前記第１のノード及び前記第２のノードのノード内メジアン相関、
前記第１のノード及び前記第２のノードのノード内最小相関、
それらの任意の組合せ
の少なくとも１つに基づく、前記〔１８〕に記載の方法。
〔２０〕前記第１のノードの前記ノード内相関は、
前記第１のノードのノード内最大相関、
前記第１のノードのノード内平均相関、
前記第１のノードのノード内メジアン相関、
前記第１のノードのノード内最小相関、
それらの任意の組合せ
の少なくとも１つに基づく、前記〔１７〕～〔１９〕のいずれか一項に記載の方法。
〔２１〕前記第２のノードの前記ノード内相関は、
前記第２のノードのノード内最大相関、
前記第２のノードのノード内平均相関、
前記第２のノードのノード内メジアン相関、
前記第２のノードのノード内最小相関、
それらの任意の組合せ
の少なくとも１つに基づく、前記〔１７〕～〔２０〕のいずれか一項に記載の方法。
〔２２〕前記第１のノードと前記第２のノードとの前記ノード間相関は、
前記第１のノードと前記第２のノードとのノード間最大相関、
前記第１のノードと前記第２のノードとのノード間平均相関、
前記第１のノードと前記第２のノードとのノード間メジアン相関、
前記第１のノードと前記第２のノードとのノード間最小相関、
それらの任意の組合せ
の少なくとも１つに基づく、前記〔１７〕～〔２１〕のいずれか一項に記載の方法。
〔２３〕前記系統樹の前記複数のノードをトラバースする際、各ノードにおいて、
前記分割が有効である場合、前記ノードから前記左子ノード及び前記ノードの前記右子ノードに引き続きトラバースすることと、
前記分割が無効である場合、前記ノードから前記左子ノード及び前記ノードの前記右子ノードへのトラバースを停止することと、
を含む、前記〔４〕～〔１６〕のいずれか一項に記載の方法。
〔２４〕前記ノードの前記子ノードを有する前記ノードの前記分割が有効であるか、それとも無効であるかを判断することは、
前記左子ノードと前記右子ノードとの間の距離が分割閾値を超える場合、前記分割を有効と判断することと、
その他の場合、無効と判断することと、
を含む、前記〔４〕～〔２３〕のいずれか一項に記載の方法。
〔２５〕前記左子ノードと前記右子ノードとの間の距離は、前記左子ノード及び前記右子ノードによって表される発現プロファイル間の前記複数の標的の各標的で実行される統計検定に基づいて特定される、前記〔２４〕に記載の方法。
〔２６〕前記統計検定はウェルチｔ検定を含む、前記〔２５〕に記載の方法。
〔２７〕前記左子ノードと前記右子ノードとの間の距離は、前記左子ノードによって表される各発現プロファイルと前記右子ノードによって表される各発現プロファイルとの間の前記複数の標的の各標的に対して実行される前記統計検定の最大ｐ値に基づいて特定される、前記〔２５〕又は〔２６〕に記載の方法。
〔２８〕前記系統樹の前記複数のノードをトラバースする際、各ノードにおいて、（３）前記ノードが１つの細胞の発現プロファイルを表す場合、前記ノードを前記統合クラスタセットに追加することを含む、前記〔１〕～〔２７〕のいずれか一項に記載の方法。
〔２９〕前記系統樹の前記複数のノードをトラバースする際、各ノードにおいて、前記ノード標識を前記ノードに割り当てることを含む、前記〔４〕～〔２８〕のいずれか一項に記載の方法。
〔３０〕前記ノードが１つの細胞の発現プロファイルを表す場合、前記ノードの前記ノード標識は、１つの細胞名称を含み、
その他の場合、前記ノードが前記親ノードの前記左子ノードであるとき、前記ノードの前記ノード標識は、前記親ノードの前記ノード標識及び左名称を含み、
その他のとき、前記ノードの前記ノード標識は、前記親ノードの前記ノード標識及び右名称を含む、前記〔２９〕に記載の方法。
〔３１〕前記統合クラスタセット内の各ノードについて、前記ノードによって表される前記細胞の前記複数の標的の前記発現プロファイルに基づいて前記細胞タイプを区別する前記標的を識別することは、
前記細胞タイプを区別する前記標的に関連付けられた別個の配列を有する分子標識数を単位として、前記ノードによって表される発現プロファイルと、前記統合クラスタセット内の別のノードによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断すること
を含む、前記〔１〕～〔３０〕のいずれか一項に記載の方法。
〔３２〕（ｄ）において前記第１のノードを前記第２のノードと統合して、前記統合ノードを生成する前、
第３のノードと第４のノードとの間の距離がノード距離閾値内にある場合、１つの細胞の発現プロファイルを表す前記統合クラスタセット内の前記第３のノードのそれぞれを前記統合クラスタセット内の前記第４のノードと統合すること
を含む、前記〔１〕～〔３１〕のいずれか一項に記載の方法。
〔３３〕前記細胞の発現プロファイルを表す前記統合クラスタセット内の前記ノードに基づいて前記複数の細胞を分類することを含む、前記〔１〕～〔３２〕のいずれか一項に記載の方法。
〔３４〕識別された細胞タイプを区別する前記標的に基づいて全体トランスクリプトームアッセイを指定することを含む、前記〔１〕～〔３３〕のいずれか一項に記載の方法。
〔３５〕識別された細胞タイプを区別する前記標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含む、前記〔１〕～〔３３〕のいずれか一項に記載の方法。
〔３６〕細胞タイプを区別する標的を識別する方法であって、
（ａ）複数の細胞の発現プロファイルを受信することであって、前記発現プロファイルは、前記複数の細胞の各細胞の複数の標的の各標的を幾つか含む、受信することと、
（ｂ）前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成することであって、各クラスタは、（１）親クラスタ及び（２）２つ以上の子クラスタのうちの一方又は両方との１つ又は複数の関連性を有し、前記親クラスタは、前記クラスタによって表される前記複数の細胞の１つ又は複数の細胞の発現プロファイルを表し、前記クラスタは、前記２つ以上の子クラスタによって表される発現プロファイルを表す、クラスタリングして生成することと、
（ｃ）前記２つ以上の子クラスタを有する各クラスタについて、前記クラスタと前記２つ以上の子クラスタとの関連性が無効である場合、前記クラスタを統合クラスタセットに追加することと、
（ｄ）前記統合クラスタセット内の第１のクラスタのそれぞれについて、前記統合クラスタセット内の前記第１のクラスタと、前記第１のクラスタに最も近い前記統合クラスタセット内の第２のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、前記第１のクラスタ及び前記第２のクラスタを統合して、統合クラスタを生成することであって、前記統合クラスタは、前記第１のクラスタ及び前記第２のクラスタの発現プロファイルを含む、繰り返し統合することと、
（ｅ）前記統合クラスタセット内の各クラスタについて、前記クラスタによって表される細胞の前記複数の標的の発現プロファイルに基づいて細胞タイプを区別する標的を識別することと、
を含む、方法。
〔３７〕前記複数の細胞の発現プロファイルを受信することは、標的カウントデータ構造を受信することを含む、前記〔３６〕に記載の方法。
〔３８〕前記標的カウントデータ構造は、標的カウントマトリックスを含む、前記〔３７〕に記載の方法。
〔３９〕前記標的カウントマトリックスの各行又は各列は、前記複数の細胞の異なる個々の細胞の発現プロファイルを含む、前記〔３８〕に記載の方法。
〔４０〕前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルを発現プロファイルの前記複数のクラスタにクラスタリングすることは、
前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す系統樹を生成することであって、前記系統樹は複数のクラスタを含み、前記複数のクラスタはルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含む、階層的にクラスタリングして、系統樹を生成すること
を含む、前記〔３６〕～〔３９〕のいずれか一項に記載の方法。
〔４１〕前記複数のリーフクラスタ及び前記複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有し、
前記ルートクラスタ及び前記複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有し、前記クラスタの前記左子クラスタ及び前記右子クラスタによって表される発現プロファイルを表し、
前記ルートクラスタは、前記複数の細胞の前記発現プロファイルを表す、前記〔４０〕に記載の方法。
〔４２〕２つ以上の子クラスタを有する各クラスタについて、前記２つ以上の子クラスタとの前記クラスタ間の関連性が無効である場合、前記クラスタを統合クラスタセットに追加することは、
前記系統樹の前記ルートクラスタから前記系統樹の各クラスタを通して前記系統樹の前記複数のリーフクラスタにトラバースする間、
（１）前記クラスタと前記クラスタの前記子クラスタとの関連性が有効であるか、それとも無効であるかを判断することと、
（２）前記関連性が無効である場合、前記クラスタを統合クラスタセットに追加することと、
を含む、前記〔４０〕又は〔４１〕に記載の方法。
〔４３〕（ａ）において、前記複数の細胞の前記発現プロファイルを受信する前、
（ｆ）複数のバーコードを使用して前記複数の細胞内の前記複数の標的をバーコーディングして、複数のバーコード付き標的を作成することであって、前記複数のバーコードのそれぞれは、細胞標識及び分子標識を含み、異なる細胞の標的から作成されるバーコード付き標的は、異なる細胞標識を有し、前記複数の細胞の１つの細胞の標的から作成されるバーコード付き標的は、異なる分子標識を有する、バーコーディングして複数のバーコード付き標的を作成することと、
（ｇ）前記複数のバーコード付き標的の配列データを取得することと、
（ｈ）前記複数の細胞のそれぞれについて、
（１）前記細胞の前記配列データ内の前記複数の標的の各標的に関連付けられた別個の配列を有する分子標識の数をカウントすることと、
（２）（ｈ）（１）においてカウントされた前記配列データ内の前記標的に関連付けられた別個の配列を有する分子標識の数に基づいて、前記細胞の前記複数の標的の各標的の数を推定することと、
を含む、を含む、前記〔３６〕～〔４２〕に記載の方法。
〔４４〕前記複数の細胞のうちの前記細胞の前記発現プロファイルは、（ｈ）（２）において推定された前記細胞の前記複数の標的の各標的の数を含む、前記〔４３〕に記載の方法。
〔４５〕（ｂ）において、前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前、
（ｉ）前記複数の細胞の前記発現プロファイルの距離データ構造を特定すること
を含む、前記〔３６〕～〔４４〕のいずれか一項に記載の方法。
〔４６〕前記距離データ構造は、前記複数の細胞の前記発現プロファイルの距離マトリックスを含む、前記〔４５〕に記載の方法。
〔４７〕前記距離マトリックスの各対角線要素は０の値を有する、前記〔４６〕に記載の方法。
〔４８〕（ｂ）において、前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することは、前記距離マトリックスに基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することを含む、前記〔４６〕又は〔４７〕に記載の方法。
〔４９〕前記複数の細胞の前記発現プロファイル間の前記距離は、前記複数の細胞の前記発現プロファイル間のペア毎の相関距離である、前記〔４５〕～〔４８〕のいずれか一項に記載の方法。
〔５０〕（ｉ）において前記距離データ構造を特定する前、前記標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することを含み、
前記標的カウントデータ構造の要素の前記距離データ構造を特定することは、前記対数変換済み標的カウントデータ構造の前記距離データ構造を特定することを含み、
（ｂ）において、前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することは、前記対数変換済み標的カウントデータ構造及び前記距離データ構造に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、前記複数のクラスタを生成することを含む、前記〔４５〕～〔４９〕のいずれか一項に記載の方法。
〔５１〕前記標的カウントデータ構造を前記対数変換済み標的カウントデータ構造に対数変換することは、前記標的カウントデータ構造の各要素の値を増分によって増大させることを含む、前記〔５０〕に記載の方法。
〔５２〕前記増分は１である、前記〔５１〕に記載の方法。
〔５３〕（ｂ）において、前記複数の細胞の前記発現プロファイル間の距離に基づいて前記複数の細胞の前記発現プロファイルをクラスタリングすることは、
前記複数の細胞の各発現プロファイルを異なるリーフクラスタに割り当てることと、
第２のクラスタが第１のクラスタへの前記複数のクラスタの最近傍クラスタである場合、前記複数のクラスタの前記第１のクラスタ及び前記第２のクラスタを繰り返し結合して、前記第１のクラスタ及び前記第２のクラスタの親クラスタを生成することと、
を含む、前記〔３６〕～〔５２〕のいずれか一項に記載の方法。
〔５４〕前記第１のクラスタと前記第２のクラスタとの間の前記距離は、前記第１のクラスタによって表される任意の発現プロファイルと、前記第２のクラスタによって表される任意の発現プロファイルとの間の最大距離である、前記〔５３〕に記載の方法。
〔５５〕前記第１のクラスタのクラスタ内相関及び前記第２のクラスタのクラスタ内相関の少なくとも一方は、前記第１のクラスタと前記第２のクラスタとのクラスタ間相関よりも高い、前記〔５３〕又は〔５４〕に記載の方法。
〔５６〕前記第１のクラスタのクラスタ内相関及び前記第２のクラスタのクラスタ内相関の指示は、前記第１のクラスタと前記第２のクラスタとのクラスタ間相関よりも高い、前記〔１５〕又は〔１６〕に記載の方法。
〔５７〕前記第１のクラスタのクラスタ内相関及び前記第２のクラスタのクラスタ内相関の指示は、
前記第１のクラスタ及び前記第２のクラスタのクラスタ内最大相関、
前記第１のクラスタ及び前記第２のクラスタのクラスタ内平均相関、
前記第１のクラスタ及び前記第２のクラスタのクラスタ内メジアン相関、
前記第１のクラスタ及び前記第２のクラスタのクラスタ内最小相関、
それらの任意の組合せ
の少なくとも１つに基づく、前記〔１７〕又は〔１８〕に記載の方法。
〔５８〕前記第１のクラスタの前記クラスタ内相関は、
前記第１のクラスタのクラスタ内最大相関、
前記第１のクラスタのクラスタ内平均相関、
前記第１のクラスタのクラスタ内メジアン相関、
前記第１のクラスタのクラスタ内最小相関、
それらの任意の組合せ
の少なくとも１つに基づく、前記〔１７〕～〔１９〕のいずれか一項に記載の方法。
〔５９〕前記第２のクラスタの前記クラスタ内相関は、
前記第２のクラスタのクラスタ内最大相関、
前記第２のクラスタのクラスタ内平均相関、
前記第２のクラスタのクラスタ内メジアン相関、
前記第２のクラスタのクラスタ内最小相関、
それらの任意の組合せ
の少なくとも１つに基づく、前記〔１７〕～〔２０〕のいずれか一項に記載の方法。
〔６０〕前記第１のクラスタと前記第２のクラスタとの前記クラスタ間相関は、
前記第１のクラスタと前記第２のクラスタとのクラスタ間最大相関、
前記第１のクラスタと前記第２のクラスタとのクラスタ間平均相関、
前記第１のクラスタと前記第２のクラスタとのクラスタ間メジアン相関、
前記第１のクラスタと前記第２のクラスタとのクラスタ間最小相関、
それらの任意の組合せ
の少なくとも１つに基づく、前記〔１７〕～〔２１〕のいずれか一項に記載の方法。
〔６１〕前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、
前記関連性が有効である場合、前記クラスタから前記クラスタの前記左子クラスタ及び前記クラスタの前記右子クラスタに引き続きトラバースすることと、
前記関連性が無効である場合、前記クラスタから前記クラスタの前記左子クラスタ及び前記クラスタの前記右子クラスタへのトラバースを停止することと、
を含む、前記〔４２〕～〔５４〕のいずれか一項に記載の方法。
〔６２〕前記クラスタの前記子クラスタとの前記クラスタの前記関連性が有効であるか、それとも無効であるかを判断することは、
前記左子クラスタと前記右子クラスタとの間の距離が関連性閾値を超える場合、前記関連性を有効と判断することと、
その他の場合、無効と判断することと、
を含む、前記〔４２〕～〔６１〕のいずれか一項に記載の方法。
〔６３〕前記左子クラスタと前記右子クラスタとの間の距離は、前記左子クラスタ及び前記右子クラスタによって表される発現プロファイル間の前記複数の標的の各標的で実行される統計検定に基づいて特定される、前記〔６２〕に記載の方法。
〔６４〕前記統計検定はウェルチｔ検定を含む、前記〔６３〕に記載の方法。
〔６５〕前記左子クラスタと前記右子クラスタとの間の距離は、前記左子クラスタによって表される発現プロファイルと前記右子クラスタによって表される各発現プロファイルとの間の前記複数の標的の各標的に対して実行される前記統計検定の最大ｐ値に基づいて特定される、前記〔６３〕又は〔６４〕に記載の方法。
〔６６〕前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、（３）前記クラスタが１つの細胞の発現プロファイルを表す場合、前記クラスタを前記統合クラスタセットに追加することを含む、前記〔４２〕～〔６５〕のいずれか一項に記載の方法。
〔６７〕前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、前記クラスタ標識を前記クラスタに割り当てることを含む、前記〔４２〕～〔６６〕のいずれか一項に記載の方法。
〔６８〕前記クラスタが１つの細胞の発現プロファイルを表す場合、前記クラスタの前記クラスタ標識は、１つの細胞名称を含み、
その他の場合、前記クラスタが前記親クラスタの前記左子クラスタであるとき、前記クラスタの前記クラスタ標識は、前記親クラスタの前記クラスタ標識及び左名称を含み、
その他のとき、前記クラスタの前記クラスタ標識は、前記親クラスタの前記クラスタ標識及び右名称を含む、前記〔６７〕に記載の方法。
〔６９〕前記統合クラスタセット内の各クラスタについて、前記クラスタによって表される前記細胞の前記複数の標的の前記発現プロファイルに基づいて前記細胞タイプを区別する前記標的を識別することは、
前記細胞タイプを区別する前記標的に関連付けられた別個の配列を有する分子標識数を単位として、前記クラスタによって表される発現プロファイルと、前記統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断すること
を含む、前記〔３６〕～〔６８〕のいずれか一項に記載の方法。
〔７０〕（ｄ）において前記第１のクラスタを前記第２のクラスタと統合して、前記統合クラスタを生成する前、
第３のクラスタと第４のクラスタとの間の距離がクラスタ距離閾値内にある場合、１つの細胞の発現プロファイルを表す前記統合クラスタセット内の前記第３のクラスタのそれぞれを前記統合クラスタセット内の前記第４のクラスタと統合すること
を含む、前記〔３６〕～〔６９〕のいずれか一項に記載の方法。
〔７１〕前記細胞の発現プロファイルを表す前記統合クラスタセット内の前記クラスタに基づいて前記複数の細胞を分類することを含む、前記〔３６〕～〔７０〕のいずれか一項に記載の方法。
〔７２〕識別された細胞タイプを区別する前記標的に基づいて全体トランスクリプトームアッセイを指定することを含む、前記〔３６〕～〔７１〕のいずれか一項に記載の方法。
〔７３〕識別された細胞タイプを区別する前記標的に基づいて、標的とされるトランスクリプトームアッセイを指定することを含む、前記〔３６〕～〔７１〕のいずれか一項に記載の方法。
〔７４〕標的の数を特定するコンピュータシステムであって、
ハードウェアプロセッサと、
命令が記憶された非一時的メモリであって、前記命令は、前記ハードウェアプロセッサによって実行されると、前記プロセッサに、前記〔１〕～〔７３〕のいずれか一項に記載の方法を実行させる、非一時的メモリと、
を備える、コンピュータシステム。
〔７５〕前記〔１〕～〔７３〕のいずれか一項に記載の方法を実行する方法を実行するコードを含むコンピュータ可読媒体。

Claims

細胞タイプを区別するための標的を同定する方法であって、
（ａ）複数の細胞の発現プロファイルを得ること、ここで前記発現プロファイルは、前記複数の細胞の各細胞についての複数の標的の各標的の数を含む、
（ｂ）前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成すること、ここで各クラスタは、（１）親クラスタ及び（２）２つ以上の子クラスタのうちの一方又は両方との１つ又は複数の関連性を有し、前記親クラスタは、前記クラスタによって表される前記複数の細胞の１つ又は複数の細胞の発現プロファイルを表し、前記クラスタは、前記２つ以上の子クラスタによって表される発現プロファイルを表す、
（ｃ）前記２つ以上の子クラスタを有する各クラスタについて、前記クラスタと前記２つ以上の子クラスタとの間の関連性が無効であると判断されると、前記クラスタを統合クラスタセットに追加すること、ここで、前記２つ以上の子クラスタの間の差が有意でないときに前記クラスタと前記２つ以上の子クラスタとの間の関連性が無効であると判断される、
（ｄ）前記統合クラスタセット内の第１のクラスタのそれぞれについて、前記統合クラスタセット内の前記第１のクラスタと、前記第１のクラスタに最も近い前記統合クラスタセット内の第２のクラスタとの間の距離が、統合距離閾値内である場合、繰り返し、前記第１のクラスタ及び前記第２のクラスタを統合して、統合クラスタを生成すること、ここで前記統合クラスタは、前記第１のクラスタ及び前記第２のクラスタの発現プロファイルを含む、及び
（ｅ）前記統合クラスタセット内の各クラスタについて、細胞タイプを区別するための標的を、前記クラスタによって表される細胞の前記複数の標的の発現プロファイルに基づいて同定すること、
を含む、方法。
前記複数の細胞の発現プロファイルを得ることは、標的カウントデータ構造を得ることを含み、
前記標的カウントデータ構造は、標的カウントマトリックスを含み、
前記標的カウントマトリックスの各行又は各列は、前記複数の細胞の異なる個々の細胞の発現プロファイルを含む、請求項１に記載の方法。
前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルを発現プロファイルの前記複数のクラスタにクラスタリングすることは、
前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルを階層的にクラスタリングして、前記複数の細胞の前記発現プロファイルを表す系統樹を生成することを含み、ここで前記系統樹は複数のクラスタを含み、前記複数のクラスタはルートクラスタ、複数のリーフクラスタ、及び複数の非ルート非リーフクラスタを含む、請求項１又は２に記載の方法。
前記複数のリーフクラスタ及び前記複数の非ルート非リーフクラスタのそれぞれは、親クラスタとの関連性を有し、
前記ルートクラスタ及び前記複数の非ルート非リーフクラスタのそれぞれは、左子クラスタ及び右子クラスタとの関連性を有し、前記クラスタの前記左子クラスタ及び前記右子クラスタによって表される発現プロファイルを表し、
前記ルートクラスタは、前記複数の細胞の前記発現プロファイルを表す、請求項３に記載の方法。
２つ以上の子クラスタを有する各クラスタについて、前記クラスタと前記２つ以上の子クラスタとの間の関連性が無効であると判断されると、前記クラスタを統合クラスタセットに追加することは、
前記系統樹の前記ルートクラスタから前記系統樹の各クラスタを通して前記系統樹の前記複数のリーフクラスタにトラバースする間、
（１）前記クラスタと前記クラスタの前記子クラスタとの関連性が無効であるかどうかを判断することと、
（２）前記クラスタを統合クラスタセットに追加することと、
を含む、請求項３又は４に記載の方法。
前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、
前記関連性が有効である場合、前記クラスタから前記クラスタの前記左子クラスタ及び前記右子クラスタへのトラバースを継続することと、
前記関連性が無効である場合、前記クラスタから前記クラスタの前記左子クラスタ及び前記クラスタの前記右子クラスタへのトラバースを停止することと、
を含む、請求項５記載の方法。
前記クラスタの前記子クラスタとの前記クラスタの前記関連性が有効であるか、それとも無効であるかを判断することは、
前記左子クラスタと前記右子クラスタとの間の距離が関連性閾値を超える場合、前記関連性を有効と判断することと、
その他の場合、無効と判断することと、
を含む、請求項５又は６に記載の方法。
前記左子クラスタと前記右子クラスタとの間の距離は、
前記左子クラスタ及び前記右子クラスタによって表される発現プロファイル間の前記複数の標的の各標的に対して実行される統計検定に基づいて決定されるか、或いは
前記左子クラスタによって表される発現プロファイルと前記右子クラスタによって表される各発現プロファイルとの間の前記複数の標的の各標的に対して実行される前記統計検定の最大ｐ値に基づいて決定される、
請求項７に記載の方法。
前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、（３）前記クラスタが１つの細胞の発現プロファイルを表す場合、前記クラスタを前記統合クラスタセットに追加することを含む、請求項５～８のいずれか一項に記載の方法。
前記系統樹の前記複数のクラスタをトラバースする際、各クラスタにおいて、クラスタ標識を前記クラスタに割り当てることを含む、請求項５～９のいずれか一項に記載の方法。
前記クラスタが１つの細胞の発現プロファイルを表す場合、前記クラスタの前記クラスタ標識は、１つの細胞名称を含み、
その他の場合、前記クラスタが前記親クラスタの前記左子クラスタであるとき、前記クラスタの前記クラスタ標識は、前記親クラスタの前記クラスタ標識及び左名称を含み、
その他のとき、前記クラスタの前記クラスタ標識は、前記親クラスタの前記クラスタ標識及び右名称を含む、請求項１０に記載の方法。
前記統合クラスタセット内の各クラスタについて、前記細胞タイプを区別するための前記標的を、前記クラスタによって表される前記細胞の前記複数の標的の前記発現プロファイルに基づいて同定することは、
前記細胞タイプを区別するための前記標的に関連付けられた別個の配列を有する分子標識数において、前記クラスタによって表される発現プロファイルと、前記統合クラスタセット内の別のクラスタによって表される発現プロファイルとの差が有意な閾値よりも大きいと判断すること
を含む、請求項１～１１のいずれか一項に記載の方法。
（ｂ）において、前記複数の細胞の前記発現プロファイル間の距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの複数のクラスタを生成する前に、
（ｉ）前記複数の細胞の前記発現プロファイルの距離データ構造を決定することを含み、ここで、前記距離データ構造は、前記複数の細胞の前記発現プロファイルの距離マトリックスを含み、
ここで、（ｂ）において、前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することは、前記距離マトリックスに基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することを含む、
請求項１～１２のいずれか一項に記載の方法。
（ｉ）において前記距離データ構造を決定する前に、前記標的カウントデータ構造を対数変換済み標的カウントデータ構造に対数変換することを含み、
前記標的カウントデータ構造の要素の前記距離データ構造を決定することは、前記対数変換済み標的カウントデータ構造の前記距離データ構造を決定することを含み、
（ｂ）において、前記複数の細胞の前記発現プロファイル間の前記距離に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、発現プロファイルの前記複数のクラスタを生成することは、前記対数変換済み標的カウントデータ構造及び前記距離データ構造に基づいて、前記複数の細胞の前記発現プロファイルをクラスタリングして、前記複数のクラスタを生成することを含む、請求項１３に記載の方法。
（ｂ）において、前記複数の細胞の前記発現プロファイル間の距離に基づいて前記複数の細胞の前記発現プロファイルをクラスタリングすることは、
前記複数の細胞の各発現プロファイルを前記複数のクラスタにおける異なるリーフクラスタに割り当てることと、
第２のクラスタが前記複数のクラスタ中で第１のクラスタに最も近いクラスタである場合、繰り返し、前記複数のクラスタの前記第１のクラスタ及び前記第２のクラスタを組み合わせて、前記第１のクラスタ及び前記第２のクラスタの親クラスタを生成することと、
を含む、請求項１～１４のいずれか一項に記載の方法。
前記第１のクラスタと前記第２のクラスタとの間の前記距離は、前記第１のクラスタによって表される任意の発現プロファイルと、前記第２のクラスタによって表される任意の発現プロファイルとの間の最大距離である、請求項１５に記載の方法。
前記第１のクラスタのクラスタ内相関及び前記第２のクラスタのクラスタ内相関は、前記第１のクラスタと前記第２のクラスタとのクラスタ間相関よりも高い、請求項１５又は１６に記載の方法。
前記第１のクラスタのクラスタ内相関及び前記第２のクラスタのクラスタ内相関の尺度は、前記第１のクラスタと前記第２のクラスタとのクラスタ間相関よりも高い、請求項１５～１７のいずれか一項に記載の方法。
前記第１のクラスタのクラスタ内相関及び前記第２のクラスタのクラスタ内相関の尺度は、
前記第１のクラスタ及び前記第２のクラスタのクラスタ内最大相関、
前記第１のクラスタ及び前記第２のクラスタのクラスタ内平均相関、
前記第１のクラスタ及び前記第２のクラスタのクラスタ内メジアン相関、
前記第１のクラスタ及び前記第２のクラスタのクラスタ内最小相関、及び
それらの任意の組合せ
の少なくとも１つに基づいており、
前記第１のクラスタの前記クラスタ内相関は、
前記第１のクラスタのクラスタ内最大相関、
前記第１のクラスタのクラスタ内平均相関、
前記第１のクラスタのクラスタ内メジアン相関、
前記第１のクラスタのクラスタ内最小相関、及び
それらの任意の組合せ
の少なくとも１つに基づいており
前記第２のクラスタの前記クラスタ内相関は、
前記第２のクラスタのクラスタ内最大相関、
前記第２のクラスタのクラスタ内平均相関、
前記第２のクラスタのクラスタ内メジアン相関、
前記第２のクラスタのクラスタ内最小相関、及び
それらの任意の組合せ
の少なくとも１つに基づいており、且つ
前記第１のクラスタと前記第２のクラスタとの前記クラスタ間相関は、
前記第１のクラスタと前記第２のクラスタとのクラスタ間最大相関、
前記第１のクラスタと前記第２のクラスタとのクラスタ間平均相関、
前記第１のクラスタと前記第２のクラスタとのクラスタ間メジアン相関、
前記第１のクラスタと前記第２のクラスタとのクラスタ間最小相関、及び
それらの任意の組合せ
の少なくとも１つに基づいている、
請求項１８に記載の方法。
標的の数を決定するためのコンピュータシステムであって、
ハードウェアプロセッサと、
命令が記憶された非一時的メモリであって、前記命令は、前記ハードウェアプロセッサによって実行されると、前記プロセッサに、請求項１～１９のいずれか一項に記載の方法を実行させる、非一時的メモリと、
を備える、コンピュータシステム。
請求項１～１９のいずれか一項に記載の方法を実行するためのコードを含むコンピュータ可読有形記憶媒体。