JP7046007B2

JP7046007B2 - 分子標識カウントの調節方法

Info

Publication number: JP7046007B2
Application number: JP2018561218A
Authority: JP
Inventors: ジェエファン，; ジェニファーツァイ，; エリーンシャム，; リシャデン，; グレンケー．フー，
Original assignee: Becton Dickinson and Co
Current assignee: Becton Dickinson and Co
Priority date: 2016-05-26
Filing date: 2017-05-25
Publication date: 2022-04-01
Anticipated expiration: 2037-05-25
Also published as: US11397882B2; EP4407625A2; EP3465502A1; US20230065324A1; CN109074430A; WO2017205691A1; JP2019522268A; CN109074430B; EP3465502B1; US20170344866A1

Description

関連出願
本出願は、３５Ｕ．Ｓ．Ｃ．§１１９（ｅ）に従い、２０１６年５月２６日出願の米国仮特許出願第６２／３４２１３７号明細書；２０１６年８月３１日出願の米国仮特許出願第６２／３８１９４５号明細書；および２０１６年９月２９日出願の米国仮特許出願第６２／４０１７２０号明細書に基づく優先権を主張する。これらの出願各々の内容は、本出願をもってその全体が参照により明示的に組み込まれる。

本開示は、概して、核酸バーコーディング、より具体的には、分子標識を用いたＰＣＲおよびシーケンシングエラーの訂正の分野に関する。

関連分野の説明
確率バーコーディングなどの方法および技術は、細胞分析において、特に、たとえば、逆転写、ポリメラーゼ連鎖反応（ＰＣＲ）増幅、および次世代シーケンシング（ＮＧＳ）を用いて細胞の状態を判定するために、遺伝子発現プロフィールを解読する上で有用である。しかし、これらの方法および技術は、置換エラー（１つ以上の塩基を含む）および非置換エラーなどのエラーを導入する恐れがあり、未訂正のままだと、過大評価された分子カウントが生じうる。従って、確率バーコーディングを用いて推定される正確な分子カウントを取得するために、さまざまなエラーを訂正することができる方法および技術が求められる。

本明細書には、標的の数を決定する方法が開示される。いくつかの実施形態では、本方法は、（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスを決定する工程と；（ｉｉｉ）（ｂ）で得られたシーケンシングデータ中の１つ以上のシーケンシングデータエラーを決定する工程であって、シーケンシングデータ中の１つ以上のシーケンシングデータエラーを決定する工程が、以下：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数、シーケンシングデータ中の標的のクオリティステータス、および複数の確率バーコード中の識別可能な配列を有する分子標識の数のうち１つ以上を決定することを含む工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉｉ）で決定された１つ以上のシーケンシングデータエラーに応じて調節された、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。工程（ｉ）、（ｉｉ）、（ｉｉｉ）、および（ｉｖ）は、複数の標的の各々について実施することができる。本方法は、多重化することができる。

いくつかの実施形態では、本方法は、１つ以上のシーケンシングデータエラーを決定する前に、（ｂ）で得られたシーケンシングデータを折りたたむ工程をさらに含む。（ｂ）で得られたシーケンシングデータを折りたたむ工程は、類似した分子標識を有し、かつ、所定の折りたたみ発生数閾値よりも少ない発生数を有する標的のコピーを、複数の標的について同じ分子標識を有するものとして帰属させる工程を含み、ここで、標的の２つのコピーは、標的の２つのコピーの分子標識の配列が少なくとも１塩基相違する場合、類似の分子標識を有する。

いくつかの実施形態では、所定の折りたたみ発生数閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、７となりうる。確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、所定の折りたたみ発生数閾値は１７となりうる。標的の２つのコピーは、標的の２つのコピーの分子標識の配列が少なくとも１塩基相違する場合、類似の分子標識を有する。いくつかの実施形態では、分子標識は、５～２０個のヌクレオチドを含む。さまざまな確率バーコードの分子標識は、互いに異なっていてよい。複数の確率バーコードは、識別可能な配列を有する約６５６１の分子標識を含む。複数の確率バーコードは、識別可能な配列を有する約６５５３６の分子標識を含む。

いくつかの実施形態では、５０ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、７５ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、１００ヌクレオチド以上のリード長を有する複数の標的の配列を含む。（ｂ）で得られたシーケンシングデータは、複数の確率バーコード付き標的に対してポリメラーゼ連鎖反応（ＰＣＲ）増幅を実施することによって生成することができる。

いくつかの実施形態では、１つ以上のシーケンシングデータエラーは、ＰＣＲ導入エラー、シーケンシング導入エラー、バーコード混入に起因するエラー、ライブラリー作製エラー、またはそれらの任意の組合せでありうる。ＰＣＲ導入エラーは、ＰＣＲ増幅エラー、ＰＣＲ増幅バイアス、不十分なＰＣＲ増幅、またはそれらの任意の組合せの結果でありうる。シーケンシング導入エラーは、不正確なベースコーリング、不十分なシーケンシング、またはそれらの任意の組合せの結果でありうる。

いくつかの実施形態では、シーケンシングデータ中の標的のクオリティステータスは、完全シーケンシング、不完全シーケンシング、または飽和シーケンシングでありうる。シーケンシングデータ中の標的のクオリティステータスは、複数の確率バーコード中に識別可能な配列を有する分子標識の数と、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数によって決定することができる。シーケンシングデータ中の標的のクオリティステータスは、（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスが、完全シーケンシングではなく、かつ、飽和シーケンシングではない場合に、不完全シーケンシングとして分類することができる。

いくつかの実施形態では、完全シーケンシングクオリティステータスは、所定の完全シーケンシング散布閾値以上のポアソン分布と比較した散布指数によって決定され、ここで、所定の完全シーケンシング散布閾値は、０．９、１、または４でありうる。完全シーケンシングクオリティステータスは、さらに、（ｂ）で得られたシーケンシングデータ中の所定の完全シーケンシング発生数閾値以上の発生数を有する分子標識によって決定することもでき、ここで、所定の完全シーケンシング発生数閾値は、１０または１８でありうる。

いくつかの実施形態では、飽和シーケンシングクオリティステータスは、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する標的によって、決定することができる。飽和シーケンシングクオリティステータスは、さらに、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する複数の標的のうちの１つの他の標的によって、決定することもできる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、６５５７でありうる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、６５５３２でありうる。

いくつかの実施形態では、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、（ｉｖ）において、標的が完全シーケンシングクオリティステータスを有していれば、１つ以上の親分子標識についてすべての子供分子標識を決定する工程と；少なくとも１つの子供分子標識および親分子標識について第１の統計解析を実施する工程と；第１の統計解析の帰無仮説が容認されれば、子供分子標識の発生数を親分子標識に帰属させる工程と、によって調節される。

いくつかの実施形態では、１つ以上の親分子標識は、所定の完全シーケンシング親閾値以上の発生数を有する分子標識を含み、ここで、所定の完全シーケンシング親閾値は、所定の完全シーケンシング発生数閾値と等しい。子供分子標識は、親分子標識と１塩基相違し、かつ、所定の完全シーケンシング子供閾値以下の発生数を有する分子標識を含み、ここで、所定の完全シーケンシング子供閾値は、３または５でありうる。第１の統計解析の帰無仮説は、真であるという帰無仮説の確率が偽発見率を下回れば、容認することができ、ここで、偽発見率は、５％または１０％である。第１の統計解析は、多重二項検定であってよい。

いくつかの実施形態では、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、（ｉｖ）において、標的が完全シーケンシングクオリティステータスを有していれば、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程によって調節される。標的の分子標識を閾値化する工程は、標的の分子標識について第２の統計解析を実施する工程を含む。

いくつかの実施形態では、第２の統計解析を実施する工程は、以下：標的の分子標識の分布およびそれらの発生数を２つのポアソン分布に当てはめる工程と；２つのポアソン分布を用いて真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。２つのポアソン分布は、真の分子標識に対応する第１のポアソン分布と、偽の分子標識に対応する第２のポアソン分布を含む。

いくつかの実施形態では、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、（ｉｖ）において、（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスが、不完全シーケンシングクオリティステータスである場合、標的が、（ｂ）で得られたシーケンシングデータにおいてノイジーであるか否かを決定する工程と；（ｂ）で得られたシーケンシングデータからノイジー標的を除去する工程とによって調節されうる。ノイジー標的の分子標識の発生数が、不完全シーケンシングクノイジー標的閾値以下であれば、標的はノイジーである可能性があり、ここで、不完全シーケンシングノイジー遺伝子閾値は、５である。不完全シーケンシングノイジー標的閾値は、完全シーケンシングのクオリティステータスを有する複数の標的の分子標識の中央または平均発生数と等しくてもよい。

いくつかの実施形態では、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、（ｉｖ）において、（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスが不完全シーケンシングクオリティステータスであれば、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の真の分子標識および偽の分子標識を決定する工程によって調節することができる。

いくつかの実施形態では、標的の分子標識を閾値化する工程は、分子標識について第３の統計解析を実施する工程を含む。分子標識について第３の統計解析を実施する工程は、ゼロ切断ポアソンモデルを用いて、真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。

いくつかの実施形態では、（ｉ）でカウントされたシーケンシングデータが、（ｉｉｉ）で決定された１つ以上のシーケンシングデータエラーに応じて調節された後、（ｂ）で得られたシーケンシングデータ中の分子標識の少なくとも５０％または８０％を保持することができる。

いくつかの実施形態では、複数の標的に確率バーコードを付ける工程は、複数の確率バーコードを複数の標的とハイブリダイズさせて、確率バーコード付き標的を生成する工程を含む。複数の標的に確率バーコードを付ける工程は、確率バーコード付き標的のインデックス付きライブラリーを作製する工程を含む。確率バーコード付き標的のインデックス付きライブラリーを作製する工程は、複数の確率バーコードを含む固体担体を用いて実施することができる。固体担体は、複数の確率バーコードと関連した複数の合成粒子を含む。固体担体は、２次元または３次元の複数の確率バーコードを含む。固体担体は、ポリマー、マトリックス、ヒドロゲル、ニードルアレイデバイス、抗体、またはそれらの任意の組合せを含む。

いくつかの実施形態では、複数の確率バーコードの各々は、サンプル標識、ユニバーサル標識および細胞標識の１つ以上を含み、ここで、サンプル標識は、固体担体上の複数の確率バーコードに対するものと同じであってよく、ユニバーサル標識は、固体担体上の複数の確率バーコードに対するものと同じであってよく、細胞標識は、固体担体上の複数の確率バーコードに対するものと同じであってよい。サンプル標識は、５～２０ヌクレオチドを含む。ユニバーサル標識は、５～２０ヌクレオチドを含む。細胞標識は、５～２０ヌクレオチドを含む。

いくつかの実施形態では、合成粒子はビーズであってよい。ビーズは、シリカゲルビーズ、多孔性ガラスビーズ、磁気ビーズ、ダイナビーズ、セファデックス／セファロースビーズ、セルロースビーズ、ポリスチレンビーズ、またはそれらの任意の組合せであってよい。

いくつかの実施形態では、複数の標的をサンプル中に含有させることができる。サンプルは、１つ以上の細胞を含む。サンプルは、単一細胞であってもよい。１つ以上の細胞は、１つ以上の細胞型を含む。１つ以上の細胞型の少なくとも１つは、脳細胞、心細胞、癌細胞、循環腫瘍細胞、臓器細胞、上皮細胞、転移細胞、良性細胞、一次細胞、循環細胞、またはそれらの任意の組合せである。

いくつかの実施形態では、複数の標的は、リボ核酸（ＲＮＡ）、メッセンジャーＲＮＡ（ｍＲＮＡ）、ｍｉｃｒｏＲＮＡ、低分子干渉ＲＮＡ（ｓｉＲＮＡ）、ＲＮＡ分解産物、ポリ（Ａ）テールを各々含むＲＮＡ、またはそれらの任意の組合せを含む。

いくつかの実施形態では、本方法は、さらに、１つ以上の細胞を溶解する工程を含みうる。１つ以上の細胞を溶解する工程は、サンプルを加熱する工程、サンプルを洗剤と接触させる工程、サンプルのｐＨを変える工程、またはそれらの任意の組合せを含む。

本明細書には、標的の数を決定する方法が開示される。いくつかの実施形態では、本方法は、（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；（ｉｉｉ）（ｉｉ）で同定された標的の分子標識のクラスターを用いて、（ｂ）で得られたシーケンシングデータを折りたたむ工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉ）のシーケンシングデータの折りたたみ後に、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。複数の標的は、細胞の全トランスクリプトームの標的を含む。

いくつかの実施形態では、クラスター内の標的の分子標識は、互いの所定の方向近接性閾値内にある。方向近接性閾値は、１のハミング距離である。クラスター内の標的の分子標識は、１つ以上の親分子標識と、１つ以上の親分子標識の子供分子標識を含み、ここで、親分子標識の発生数は、所定の方向近接性発生数閾値以上である。所定の方向近接性発生数閾値は、２×（子供分子標識の発生数）－１であってよい。

いくつかの実施形態では、（ｉｉ）で同定された標的の分子標識のクラスターを用いて、（ｂ）で得られたシーケンシングデータを折りたたむ工程は、子供分子標識の発生数を親分子標識に帰属させる工程を含む。

いくつかの実施形態では、本方法は、さらに、標的のシーケンシング深度を決定する工程も含みうる。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、（ｉ）でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、１５～２０であってよい。（ｉ）でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、以下：標的の分子標識の分布およびそれらの発生数を２つのポアソン分布に当てはめる工程と；２つのポアソン分布を用いて真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。

本明細書には、標的の数を決定するためのコンピュータシステムが開示される。いくつかの実施形態では、コンピュータシステムは、実行可能命令を保存するコンピュータが可読メモリーと；コンピュータ可読メモリーと連絡する１つ以上のコンピュータプロセッサーを含み、ここで、１つ以上のコンピュータプロセッサーは、実行可能命令によりプログラムされて、（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスを決定する工程と；（ｉｉｉ）（ｂ）で得られたシーケンシングデータ中の１つ以上のシーケンシングデータエラーを決定する工程であって、シーケンシングデータ中の１つ以上のシーケンシングエラーを決定する工程が、以下：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数、シーケンシングデータ中の標的のクオリティステータス、および複数の確率バーコード中の識別可能な配列を有する分子標識の数のうち１つ以上を決定することを含む工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉｉ）で決定された１つ以上のシーケンシングデータエラーに応じて調節された、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。工程（ｉ）、（ｉｉ）、（ｉｉｉ）、および（ｉｖ）は、複数の標的の各々について実施することができる。工程（ａ）、（ｂ）、（ｃ）、（ｉ）、（ｉｉ）、（ｉｉｉ）、および（ｉｖ）は、多重化することができる。

いくつかの実施形態では、実行可能命令は、さらに、１つ以上のシーケンシングデータエラーを決定する前に、（ｂ）で得られたシーケンシングデータを折りたたむ工程を実施するように、１つ以上のコンピュータプロセッサーをプログラムすることもできる。（ｂ）で得られたシーケンシングデータを折りたたむ工程は、類似分子標識を有し、かつ、所定の折りたたみ発生数閾値よりも少ない発生数を有する標的のコピーを、複数の標的について同じ分子標識を有するものとして帰属させる工程を含み、ここで、標的の２つのコピーは、標的の２つのコピーの分子標識の配列が、少なくとも１塩基相違する場合、類似の分子標識を有する。

いくつかの実施形態では、所定の折りたたみ発生数閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、７となりうる。確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、所定の折りたたみ発生数閾値は１７となりうる。標的の２つのコピーは、標的の２つのコピーの分子標識の配列が、少なくとも１塩基相違する場合、類似の分子標識を有する。いくつかの実施形態では、分子標識は、５～２０ヌクレオチドを含む。さまざまな確率バーコードの分子標識は、互いに異なっていてよい。複数の確率バーコードは、識別可能な配列を有する約６５６１の分子標識を含む。複数の確率バーコードは、識別可能な配列を有する約６５５３６の分子標識を含む。

いくつかの実施形態では、実行可能命令は、さらに、シーケンシングデータ中の標的のクオリティステータスが、完全シーケンシング、不完全シーケンシング、または飽和シーケンシングであることを決定するように、１つ以上のコンピュータプロセッサーをプログラムすることもできる。シーケンシングデータ中の標的のクオリティステータスは、複数の確率バーコード中に識別可能な配列を有する分子標識の数と、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数によって決定することができる。シーケンシングデータ中の標的のクオリティステータスは、（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスが、完全シーケンシングではなく、飽和シーケンシングでもない場合、不完全シーケンシングとして分類することができる。

いくつかの実施形態では、実行可能命令は、さらに、所定の完全シーケンシング散布閾値以上のポアソン分布と比較した散布指数によって、完全シーケンシングクオリティステータスを決定するように、１つ以上のコンピュータプロセッサーをプログラムすることもでき、ここで、所定の完全シーケンシング散布閾値は、０．９、１、または４でありうる。完全シーケンシングクオリティステータスは、さらに、（ｂ）で得られたシーケンシングデータ中の所定の完全シーケンシング発生数閾値以上の発生数を有する分子標識によって決定することもでき、ここで、所定の完全シーケンシング発生数閾値は、１０または１８でありうる。

いくつかの実施形態では、実行可能命令は、さらに、所定の飽和閾値よりも大きい、識別可能な配列を含む特定の数の分子標識を有する標的によって、飽和シーケンシングクオリティステータスを決定するように、１つ以上のコンピュータプロセッサーをプログラムすることもできる。飽和シーケンシングクオリティステータスは、さらに、所定の飽和閾値よりも大きい、識別可能な配列を含む特定の数の分子標識を有する複数の標的のうちの１つの他の標的によって決定することもできる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、６５５７でありうる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、６５５３２でありうる。

いくつかの実施形態では、実行可能命令は、さらに、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、（ｉｖ）において、標的が完全シーケンシングクオリティステータスを有していれば、１つ以上の親分子標識についてすべての子供分子標識を決定する工程と；少なくとも１つの子供分子標識および親分子標識について第１の統計解析を実施する工程と；第１の統計解析の帰無仮説が容認されれば、子供分子標識の発生数を親分子標識に帰属させる工程と、によって調節するように、１つ以上のコンピュータプロセッサーをプログラムすることもできる。

いくつかの実施形態では、実行可能命令は、さらに、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、（ｉｖ）において、標的が完全シーケンシングクオリティステータスを有していれば、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程によって調節するように、１つ以上のコンピュータプロセッサーをプログラムすることもできる。標的の分子標識を閾値化する工程は、標的の分子標識について第２の統計解析を実施する工程を含む。

いくつかの実施形態では、実行可能命令は、さらに、標的の分子標識の分布およびそれらの発生数を２つのポアソン分布に当てはめる工程と；２つのポアソン分布を用いて真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、によって、第２の統計解析を実施する工程を実施するように、１つ以上のコンピュータプロセッサーをプログラムすることもでき、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。２つのポアソン分布は、真の分子標識に対応する第１ポアソン分布と、偽の分子標識に対応する第２ポアソン分布を含む。

いくつかの実施形態では、実行可能命令は、さらに、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、（ｉｖ）において、（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスが、不完全シーケンシングクオリティステータスである場合、標的が、（ｂ）で得られたシーケンシングデータにおいてノイジーであるか否かを決定する工程と；（ｂ）で得られたシーケンシングデータからノイジー標的を除去する工程と、によって調節するように、１つ以上のコンピュータプロセッサーをプログラムすることもできる。ノイジー標的の分子標識の発生数が、不完全シーケンシングクノイジー標的閾値以下であれば、標的はノイジーである可能性があり、ここで、不完全シーケンシングノイジー遺伝子閾値は５である。不完全シーケンシングノイジー標的閾値は、完全シーケンシングのクオリティステータスを有する複数の標的の分子標識の中央または平均発生数と等しくてもよい。

いくつかの実施形態では、実行可能命令は、さらに、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、（ｉｖ）において、（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスが不完全シーケンシングクオリティステータであれば、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の真の分子標識および偽の分子標識を決定する工程によって調節するように、１つ以上のコンピュータプロセッサーをプログラムすることもできる。

いくつかの実施形態では、実行可能命令は、さらに、分子標識について第３の統計解析を実施する工程によって、標的の分子標識を閾値化するように、１つ以上のコンピュータプロセッサーをプログラムすることもできる。分子標識について第３の統計解析を実施する工程は、ゼロ切断ポアソンモデルを用いて、真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。

いくつかの実施形態では、（ｉ）でカウントされたシーケンシングデータが（ｉｉｉ）で決定された１つ以上のシーケンシングデータエラーに応じて調節された後、（ｂ）で得られたシーケンシングデータ中の分子標識の少なくとも５０％または８０％が保持されうる。

本明細書には、標的の数を決定するためのコンピュータシステムが開示される。いくつかの実施形態では、コンピュータシステムは、実行可能命令を記憶するコンピュータ可読メモリーと；コンピュータ可読メモリーと連絡する１つ以上のコンピュータプロセッサーを含み、ここで、１つ以上のコンピュータプロセッサーは、以下：（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；（ｉｉｉ）（ｉｉ）で同定された標的の分子標識のクラスターを用いて、（ｂ）で得られたシーケンシングデータを折りたたむ工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉ）でシーケンシングデータを折りたたんだ後、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を実施するように、実行可能命令によりプログラムされる。複数の標的は、細胞の全トランスクリプトームの標的を含む。

いくつかの実施形態では、実行可能命令は、さらに、標的のシーケンシング深度を決定するように、１つ以上のコンピュータプロセッサーをプログラムすることができる。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、（ｉ）でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、１５～２０であってよい。（ｉ）でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、以下：標的の分子標識の分布およびそれらの発生数を２つのポアソン分布に当てはめる工程と；２つのポアソン分布を用いて真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。

本明細書には、実行可能コードを含む１つ以上の非一過性コンピュータ読取り媒体が開示され、これは、実行されると、１つ以上のコンピュータデバイスに標的の数を決定させる。いくつかの実施形態では、実行可能コードは、実行されると、１つ以上のコンピュータデバイスに、以下：（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスを決定する工程と；（ｉｉｉ）（ｂ）で得られたシーケンシングデータ中の１つ以上のシーケンシングデータエラーを決定する工程であって、シーケンシングデータ中の１つ以上のシーケンシングエラーを決定する工程が、以下：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数、シーケンシングデータ中の標的のクオリティステータス、および複数の確率バーコードに識別可能な配列を有する分子標識の数のうち１つ以上を決定することを含む工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉｉ）で決定された１つ以上のシーケンシングデータエラーに応じて調節された、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含むプロセスを実施させる。工程（ｉ）、（ｉｉ）、（ｉｉｉ）、および（ｉｖ）は、複数の標的の各々について実施することができる。本方法は、多重化することができる。

いくつかの実施形態では、本プロセスは、１つ以上のシーケンシングデータエラーを決定する前に、（ｂ）で得られたシーケンシングデータを折りたたむ工程をさらに含む。（ｂ）で得られたシーケンシングデータを折りたたむ工程は、類似分子標識を有し、かつ、所定の折りたたみ発生数閾値よりも少ない発生数を有する標的のコピーを、複数の標的について同じ分子標識を有するものとして帰属させる工程を含み、ここで、標的の２つのコピーは、標的の２つのコピーの分子標識の配列が、少なくとも１塩基相違する場合、類似の分子標識を有する。

いくつかの実施形態では、シーケンシングデータは、５０ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、７５ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、１００ヌクレオチド以上のリード長を有する複数の標的の配列を含む。（ｂ）で得られたシーケンシングデータは、複数の確率バーコード付き標的に対してポリメラーゼ連鎖反応（ＰＣＲ）増幅を実施することによって生成することができる。

いくつかの実施形態では、完全シーケンシングクオリティステータスは、所定の完全シーケンシング散布閾値以上のポアソン分布に対する散布指数によって決定され、ここで、所定の完全シーケンシング散布閾値は、０．９、１、または４でありうる。完全シーケンシングクオリティステータスは、さらに、（ｂ）で得られたシーケンシングデータ中の所定の完全シーケンシング発生数閾値以上の発生数を有する分子標識によって決定することもでき、ここで、所定の完全シーケンシング発生数閾値は、１０または１８でありうる。

いくつかの実施形態では、飽和シーケンシングクオリティステータスは、所定の飽和閾値よりも大きい，識別可能な配列を含む分子標識の数を有する標的によって、決定することができる。飽和シーケンシングクオリティステータスは、さらに、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する複数の標的のうちの１つの他の標的によって決定することもできる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、６５５７でありうる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、６５５３２でありうる。

いくつかの実施形態では、第２の統計解析を実施する工程は、標的の分子標識の分布およびそれらの発生数を２つのポアソン分布に当てはめる工程と；２つのポアソン分布を用いて真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。２つのポアソン分布は、真の分子標識に対応する第１ポアソン分布と、偽の分子標識に対応する第２ポアソン分布を含む。

いくつかの実施形態では、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、（ｉｖ）において、（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスが、不完全シーケンシングクオリティステータスである場合、標的が、（ｂ）で得られたシーケンシングデータにおいてノイジーであるか否かを決定する工程と；（ｂ）で得られたシーケンシングデータからノイジー標的を除去する工程と、によって調節することができる。ノイジー標的の分子標識の発生数が、不完全シーケンシングクノイジー標的閾値以下であれば、標的はノイジーである可能性があり、ここで、不完全シーケンシングノイジー遺伝子閾値は５である。不完全シーケンシングノイジー標的閾値は、完全シーケンシングのクオリティステータスを有する複数の標的の分子標識の中央または平均発生数と等しくてもよい。

いくつかの実施形態では、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、（ｉｖ）において、（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスが不完全シーケンシングクオリティステータである場合、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の真の分子標識および偽の分子標識を決定する工程によって調節することができる。

本明細書には、実行可能コードを含む１つ以上の非一過性コンピュータ読取り媒体が開示され、これは、実行されると、１つ以上のコンピュータデバイスに標的の数を決定させる。いくつかの実施形態では、実行可能コードは、実行されると、１つ以上のコンピュータデバイスに、以下：（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；（ｉｉｉ）（ｉｉ）で同定された標的の分子標識のクラスターを用いて、（ｂ）で得られたシーケンシングデータを折りたたむ工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉ）でシーケンシングデータを折りたたんだ後、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含むプロセスを実施させる。複数の標的は、細胞の全トランスクリプトームの標的を含む。

いくつかの実施形態では、本方法は、さらに、標的のシーケンシング深度を決定する工程を含みうる。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、（ｉ）でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、１５～２０であってよい。（ｉ）でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、以下：標的の分子標識の分布およびそれらの発生数を２つのポアソン分布に当てはめる工程と；２つのポアソン分布を用いて真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。

本明細書には、ＰＣＲまたはシーケンシングエラーを訂正する方法が開示される。いくつかの実施形態では、本方法は、（ａ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｂ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；（ｉｉｉ）（ｉｉ）で同定された標的の分子標識のクラスターを用いて、（ａ）で得られたシーケンシングデータを折りたたむ工程と；（ｉｖ）標的の数を推定する工程と、を含むことができ、ここで、推定された標的の数は、（ｉｉ）のシーケンシングデータの折りたたみ後に、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。複数の標的は、細胞の全トランスクリプトームの標的を含む。いくつかの実施形態では、本方法を用いて、標的の数を決定することができる。本方法は、さらに、（ｃ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程と；（ｄ）確率バーコード付き標的をシーケンシングして、受け取った確率バーコード付き標的のシーケンシングデータを生成する工程と、を含みうる。

いくつかの実施形態では、本方法は、さらに、標的のシーケンシング深度を決定する工程を含む。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、（ｉ）でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、１５～２０であってよい。（ｉ）でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、標的の分子標識の分布およびそれらの発生数を２つのネガティブ二項分布に当てはめる工程と；２つのネガティブ二項分布を用いて真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。

本明細書には、標的の数を決定するためのコンピュータシステムが開示される。いくつかの実施形態では、コンピュータシステムは、実行可能命令を記憶するコンピュータ可読メモリーと；コンピュータ可読メモリーと連絡する１つ以上のコンピュータプロセッサーを含み、ここで、１つ以上のコンピュータプロセッサーは、（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；（ｉｉｉ）（ｉｉ）で同定された標的の分子標識のクラスターを用いて、（ｂ）で得られたシーケンシングデータを折りたたむ工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉ）でシーケンシングデータを折りたたんだ後、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を実施するように、実行可能命令によりプログラムされる。複数の標的は、細胞の全トランスクリプトームの標的を含む。

いくつかの実施形態では、実行可能命令は、さらに、標的のシーケンシング深度を決定するように、１つ以上のコンピュータプロセッサーをプログラムすることができる。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、（ｉ）でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、１５～２０であってよい。（ｉ）でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、以下：標的の分子標識の分布およびそれらの発生数を２つのネガティブ二項分布に当てはめる工程と；２つのネガティブ二項分布を用いて真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。

本明細書には、ＰＣＲまたはシーケンシングエラーを訂正する方法が開示される。いくつかの実施形態では、本方法は、以下：（ａ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｂ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程と；（ｉｉｉ）標的の数を推定する工程と、を含み、ここで、推定された標的の数が、（ｉｉ）で決定されたノイズ分子標識の数に応じて調節された、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。いくつかの実施形態では、本方法は、シーケンシングデータ中の標的のシーケンシングステータスを決定する工程もさらに含む。シーケンシングデータ中の標的のシーケンシングステータスは、飽和シーケンシング、過少シーケンシング、または過剰シーケンシングである。いくつかの実施形態では、本方法を用いて、標的の数を決定することができる。本方法は、さらに、（ｃ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程と；（ｄ）確率バーコード付き標的をシーケンシングして、受け取った確率バーコード付き標的のシーケンシングデータを生成する工程と、を含みうる。

いくつかの実施形態では、飽和シーケンシングステータスは、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する標的によって決定される。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、約６５５７である。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、約６５５３２である。シーケンシングデータ中の標的のシーケンシグステータスが、飽和シーケンシングステータスである場合、（ｉｉ）で決定されたノイズ分子標識の数は、ゼロである。

いくつかの実施形態では、過少シーケンシングステータスは、所定の過少シーケンシング閾値より小さい深度（たとえば、平均、最小、または最大深度）を有する標的によって決定することができる。過少シーケンシング閾値は約４である。過少シーケンシング閾値は、識別可能な配列を有する分子標識の数とは無関係でありうる。シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスである場合、（ｉｉ）で決定されたノイズ分子標識の数は、ゼロである。

いくつかの実施形態では、過剰シーケンシングステータスは、所定の過剰シーケンシング閾値より大きい、識別可能な配列を有する分子標識の数を含む標的によって決定される。たとえば、過剰シーケンシング閾値は、確率バーコードが、識別可能な配列を有する約６５６１分子標識を含む場合、約２５０でありうる。本方法は、シーケンシングデータ中の標的のシーケンシングテータスが、過剰シーケンシングステータスである場合、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、所定の過剰シーケンシング閾値にサブサンプリングする工程を含む。

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、ネガティブ二項分布当てはめ条件が満たされれば、（ｉｖ）シグナルネガティブ二項分布を、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程であって、シグナルネガティブ二項分布が、シグナル分子標識である、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応するステップと；（ｖ）ノイズネガティブ二項分布を、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程であって、ノイズネガティブ二項分布が、ノイズ分子標識である、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する工程と；（ｖｉ）（ｖ）で当てはめたシグナルネガティブ二項分布および（ｖｉ）で当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程と、を含む。

いくつかの実施形態では、ネガティブ二項分布当てはめ条件は、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではないことを含む。（ｖ）で当てはめたシグナルネガティブ二項分布および（ｖｉ）で当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の各々について、識別可能な配列のシグナル確率が、シグナルネガティブ二項分布であることを決定する工程と；識別可能な配列のノイズ確率が、ノイズネガティブ二項分布であることを決定する工程と；シグナル確率がノイズ確率より小さければ、識別可能な配列がノイズ分子標識であることを決定する工程と、を含む。

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではなく、かつ、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、（ｉｉ）でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する前に、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に擬似点を加える工程を含む。擬似点閾値は、１０である。

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、以下：シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではなく、かつ、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値以上である場合、（ｉｉ）でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む。

いくつかの実施形態では、非ユニーク分子標識を除去する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、所定の再使用分子標識閾値より大きい場合、（ｉｉ）でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む。たとえば、再使用分子標識閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、約６５０でありうる。

いくつかの実施形態では、非ユニーク分子標識を除去する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数について非ユニーク分子標識の理論上の数を決定する工程と；シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するｎ番目に豊富な分子標識よりも大きい発生数を有する分子標識を除去する工程と、を含み、ここで、ｎは、非ユニーク分子標識の理論数である。

本明細書には、標的の数を決定するためのコンピュータシステムが開示される。いくつかの実施形態では、コンピュータシステムは、実行可能命令を記憶するコンピュータ可読メモリーと；コンピュータ可読メモリーと連絡する１つ以上のコンピュータプロセッサーを含み、ここで、１つ以上のコンピュータプロセッサーは、（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程と；（ｉｉｉ）標的の数を推定する工程と、を実施するように、実行可能命令によりプログラムされ、ここで、推定された標的の数は、（ｉｉ）で決定されたノイズ分子標識の数に応じて調節された、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。いくつかの実施形態では、本方法は、シーケンシングデータ中の標的のシーケンシングステータスを決定する工程をさらに含む。シーケンシングデータ中の標的のシーケンシングステータスは、飽和シーケンシング、過少シーケンシング、または過剰シーケンシングである。

いくつかの実施形態では、飽和シーケンシングステータスは、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する標的によって決定される。たとえば、所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、約６５５７である。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、約６５５３２でありうる。シーケンシングデータ中の標的のシーケンシグステータスが、飽和シーケンシングステータスである場合、（ｉｉ）で決定されたノイズ分子標識の数は、ゼロである。

いくつかの実施形態では、過剰シーケンシングステータスは、所定の過剰シーケンシング閾値より大きい、識別可能な配列を有する分子標識の数を有する標的によって決定される。たとえば、過剰シーケンシング閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、約２５０でありうる。本方法は、シーケンシングデータ中の標的のシーケンシングステータスが、過剰シーケンシングステータスである場合、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、所定の過剰シーケンシング閾値にサブサンプリングする工程を含む。

いくつかの実施形態では、ネガティブ二項分布当てはめ条件は、以下：シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではないことを含む。（ｖ）で当てはめたシグナルネガティブ二項分布および（ｖｉ）で当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の各々について、識別可能な配列のシグナル確率が、シグナルネガティブ二項分布であることを決定する工程と；識別可能な配列のノイズ確率が、ノイズネガティブ二項分布であることを決定する工程と；シグナル確率がノイズ確率より小さければ、識別可能な配列がノイズ分子標識であることを決定する工程と、を含む。

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではなく、かつ、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値以上である場合、（ｉｉ）でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む。

本明細書に、実行されると、本明細書に開示した方法のいずれかを実施する実行可能コードを含む１つ以上の非一過性コンピュータ読取り媒体が開示される。

非限定的な例示的確率バーコードを示す。非限定的な例示的確率バーコーディングおよびディジタルカウンティングを示す。複数の標的からの確率バーコード標的のインデックス付きライブラリーを作製するための非限定的な例示的プロセスを示す概略図である。分子標識エラー、サンプル標識エラー、および真の分子標識シグナルの非限定的な例示的分布を示す概略図である。分子標識を用いて、ＰＣＲおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。完全シーケンシングおよび不完全シーケンシングによって得られるシーケンシングデータを示す概略図である。方向近接性に基づく分子標識を用いて、ＰＣＲおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。再帰的置換エラー訂正および分子標識深度変化の二次導関数に基づいて、ＰＣＲおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、ＰＣＲおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。２つのネガティブ二項分布を用いたエラー訂正の非限定的な例示的実施形態を示すフローチャートである。マイクロウェルプレートのサブサンプリングおよび分子標識のマッピングにより、再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、ＰＣＲおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。遺伝子のサブサンプリングおよび分子標識のマッピングにより、再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、ＰＣＲおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。再帰により、再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、ＰＣＲおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。初期パラメータ推定値について２番目に高い分子標識を用いることにより、再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、ＰＣＲおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。本開示の方法に使用するのに好適な非限定的な例示的機器を示す。本開示の実施形態に関連して使用することができるコンピュータシステムの非限定的な例示的構造を示す。本開示の方法に使用するのに好適な複数のコンピュータシステムを含むネットワークを示す非限定的な例示的構造を図示する。本開示の方法に従う共有仮想アドレスメモリー空間を用いるマルチプロセッサーコンピュータシステムの非限定的な例示的構造を示す。完全および不完全シーケンシング遺伝子の非限定的な例を示す。１塩基シーケンシングエラーならびに真およびエラーバーコードを分離するための閾値についての訂正後のシーケンシングリードとその等級の非限定的な例示的プロットである。ゼロ切断ポアソンモデルの非限定的な例示的図である。ウェル当たりの総シーケンシングリードの棒グラフを示す。完全シーケンシング遺伝子（％）、真のバーコードとして保持された分子標識（ＭＬ）（％）および各ウェルについて保持されたそれらのＭＬにマッピングされた保持リード（％）の棒グラフを示す。各ウェルの遺伝子により変動する保持リード（％）の箱ひげ図を示す。２つのプレートからのアルゴリズム適用後の未補正ＭＬ対訂正ＭＩを使用する主成分分析（ＰＣＡ）を示す。入力分子の増加と共に使用されるユニーク分子標識の理論計算の例示的プロットである。高発現遺伝子－ＡＴＣＢについてのマイクロウェルプレート全体の各分子標識の分子標識カバー率を示す例示的プロットであり、ここで、エラー分子標識とリアル分子標識との間に明瞭な分布が観察される。高発現遺伝子－ＡＴＣＢについてのマイクロウェルプレート全体の各分子標識の分子標識カバー率に、２つのネガティブ二項分布を当てはめる工程を示す例示的プロットである。２つのネガティブ二項分布の当てはめによって、より低い分子標識深度を有する分子標識エラーと、より高い分子標識深度を有する真の分子標識を統計的に識別することができることが実証される。ｘ軸は、分子深度である。分子標識訂正を示し、ここで、１のペアワイズハミング距離が大きな比率を占めた。分子標識訂正後、１のハミング距離相違する分子標識がクラスター化して、同じ親分子標識へ折りたたまれた。訂正された分子標識の数対訂正されたリード数カバー率の曲線を示す。再帰的置換エラー訂正の一例の概略図を示す。パネル（ａ）～（ｅ）は、分子標識深度変化の二次導関数に基づいて、ＰＣＲおよびシーケンシングエラーを訂正した例示的な結果を示す。パネル（ａ）～（ｃ）は、ＣＤ６９について２つのネガティブ二項分布に基づいて、ＰＣＲおよびシーケンシングエラーを訂正した例示的な結果を示す。同上。パネル（ａ）～（ｃ）は、ＣＤ３Ｅについて２つのネガティブ二項分布に基づき、ＰＣＲおよびシーケンシングエラーを訂正した例示的な結果を示す。同上。パネル（ａ）～（ｃ）は、高発現遺伝子について２つのネガティブ二項分布に基づき、ＰＣＲおよびシーケンシングエラーを訂正した例示的な結果を示す。同上。高発現遺伝子のＧリッチ分子標識の再使用の例示的な結果を示す。パネル（ａ）～（ｂ）は、２つのネガティブ二項分布を当てはめる前に、高発現遺伝子について入力データを調節した例示的な結果を示す。パネル（ａ）～（ｊ）は、２つのネガティブ二項分布を用いて訂正されたデータセットの非限定的な例示的検証を示す。同上。同上。同上。同上。パネル（ａ）～（ｄ）は、混合Ｊｕｒｋａｔおよび乳癌（ＢｒＣａ）単一細胞（８６の被検遺伝子）の９６ウェルからのＰｒｅｃｉｓｅ（商標）標的アッセイの例示的なｔ－確率的近傍埋込み（ｔ－ＳＮＥ）視覚化を示す。同上。パネル（ａ）～（ｂ）は、ＤＢＳｃａｎにより計算され、かつ各クラスター中の遺伝子マーカーレベルにより決定された、両方の選択クラスターにおいて、＞０ＭＬの遺伝子に関する細胞クラスター間の差異発現分析を示す非限定的な例示的プロットである。同上。パネル（ａ）～（ｄ）は、８６の被検遺伝子を含む混合Ｊｕｒｋａｔおよび乳癌（Ｔ４７Ｄ）単一細胞の９６ウェルプレートからのＢＤＰｒｅｃｉｓｅ（商標）標的アッセイのｔ－確率的近傍埋込み（ｔ－ＳＮＥ）視覚化を示す、非限定的な例示的プロットである。同上。いずれかのエラー訂正工程前（図４２、パネル（ａ）に示す未補正ＭＬ）、ならびにＲＳＥＣおよびＤＢＥＣ訂正後（図４２、パネル（ｂ）に示す調節ＭＬ）に、図４１で同定されたさまざまな細胞クラスター間の分子標識カウントによる差異遺伝子発現を表示する非限定的な例示的ヒートマップである。同上。

以下の詳細な説明では、その一部を成す添付の図面を参照にする。これら図面において、類似する符号は、文脈から他の解釈が要求されない限り、一般に、類似の構成要素を同一のものとみなす。詳細な説明、図面、および特許請求の範囲に記載される例示的な実施形態は、限定的であることを意味しない。本明細書に提示される主題の精神または範囲から逸脱することなく、他の実施形態を使用してもよく、また他の変更を実施してもよい。本明細書に概略的に記載され、図面に図示されるように、本開示の態様は、非常に多様な異なる構成で配置、代替、組合せ、分離、および設計することができ、それらのすべては、本明細書において明示的に考慮され、本開示の一部を成すものとすることを理解されたい。

本明細書で参照にされるすべての特許、公開特許出願、他の刊行物、ならびにＧｅｎＢａｎｋおよび他のデータベースからの配列は、関連技術に関してその全体を参照により組み込むものとする。

少数の核酸、たとえば、メッセンジャーリボ核酸（ｍＲＮＡ）分子などの定量は、たとえば、さまざまな発生段階またはさまざまな環境条件下で発現される遺伝子を決定するために、臨床上重要である。しかし、特に、分子数が非常に小さい場合、核酸分子（たとえば、ｍＲＮＡ分子）の絶対数を決定するのは極めて困難となりうる。サンプル中の分子の絶対数を決定する一方法は、ディジタルポリメラーゼ連鎖反応（ＰＣＲ）である。理想的には、ＰＣＲは、各サイクルで分子の同一コピーを産生する。しかしながら、ＰＣＲは、各分子は、推計学的確率で複製し、この確率は、ＰＣＲサイクルおよび遺伝子配列によって変動するため、増幅バイアスおよび不正確な遺伝子発現測定値が生じるといった問題を有しうる。ユニーク分子標識（分子指標（ＭＩ）とも呼ばれる）を有する確率バーコードを用いて、分子数をカウントし、増幅バイアスを補正することができる。Ｐｒｅｃｉｓｅ（商標）アッセイ（ＣｅｌｌｕｌａｒＲｅｓｅａｒｃｈ，Ｉｎｃ．（ＰａｌｏＡｌｔｏ，ＣＡ））などの確率バーコーディングは、分子標識（ＭＬ）を用いて、逆転写（ＲＴ）中にｍＲＮＡに標識することによって、ＰＣＲおよびライブラリー作製工程により誘導されるバイアスを補正することができる。

Ｐｒｅｃｉｓｅ（商標）アッセイは、ＲＴ工程中に、サンプル中のすべてのポリ（Ａ）－ｍＲＮＡとハイブリダイズさせるために、ポリ（Ｔ）オリゴヌクレオチド上に多数（たとえば、６５６１～６５５３６）のユニーク分子標識を有する確率バーコードの非枯渇プールを使用することができる。分子標識に加えて、確率バーコードのサンプル標識（サンプル指標（ＳＩ）とも呼ばれる）を用いて、Ｐｒｅｃｉｓｅ（商標）プレートの各ウェルを識別することができる。確率バーコードは、ユニバーサルＰＣＲプライミング部位を含んでもよい。ＲＴの最中に、標的遺伝子分子は、確率バーコードとランダムに反応する。各標的分子は、得られた確率バーコードとハイブリダイズして、確率バーコード付きの相補的リボヌクレオチド酸（ｃＤＮＡ）分子を生成しうる）。標識した後、マイクロウェルプレートのマイクロウェルからの確率バーコード付きｃＤＮＡ分子を、ＰＣＲ増幅およびシーケンシングのために単一チューブ中にプールすることができる。未補正のシーケンシングデータを分析して、ポアソン補正または２つのネガティブ二項分布に基づく補正方法に従い、リードの数、ユニーク分子標識を有する確率バーコードの数、ｍＲＮＡ分子の数を取得しうる。

バイアス補正以外に、分子標識は、観察されるシーケンシングリードに存在する出発ｃＤＮＡ分子数を明らかにすることによって、結果の統計的品質のよりよい理解をもたらすことができる。たとえば、多数のリードは、統計的に正確な回答を示しうるが、リードが、わずか少数の出発ｍＲＮＡ分子から得られる場合、測定精度は損なわれうる。

ＰＣＲおよびライブラリー作製工程により誘導された増幅バイアスは、たとえば、分子標識によって修正することはできるが、分子の絶対数の定量は、いくつかの他の因子のために依然として困難となりうる。第１に、ｍＲＮＡ分子の数の推定は、分子標識の全体的多様性によって制限されうる。確率バーコーディングの最中に、ｍＲＮＡ分子は、利用可能な確率バーコードとランダムに反応することができる。従って、各ｍＲＮＡ分子は、確率バーコードとハイブリダイズすることができるが；その分子標識は、いずれか所与の遺伝子について必ずしもユニークではない場合もある。ｍＲＮＡ分子の数が、確率バーコードの数に比べて小さいとき、各々のｍＲＮＡ分子は、ユニーク分子標識を有する確率バーコードとハイブリダイズする傾向があり、分子数のカウントは、分子標識数のカウントと同等となりうる。

ｍＲＮＡ分子の数が増加するにつれて、多数のｍＲＮＡ分子は、同じ分子標識を有する確率バーコードとハイブリダイズする傾向が高くなる。故に、ユニーク分子標識のカウントを使用すると、分子数を過少評価する可能性がある。いくつかの事例では、ｍＲＮＡ分子の数は、ポアソン補正または観察されるユニーク分子標識の総数の２つのネガティブ二項分布に基づく補正に従って推定することができる。しかしながら、６５６１の確率バーコードの全コレクションが観察される極端な事例では、ポアソン補正または２つのネガティブ二項分布に基づく補正はもはや不可能となりうる。たとえば、６５０００または１０００００の出発ｍＲＮＡ分子のいずれにかかわらず、いずれの場合でも、６５６１飽和確率バーコードの最大値が予想される。

第２に、ＰＣＲエラー（すなわち、ＰＣＲ増幅の最中に発生したエラー）は、人工的確率バーコードを誘導して、分子標識カウントを任意で増大させうる。第３に、ＰＣＲ増幅バイアスおよび非効率的ＰＣＲは、エラーと識別不可能なバーコード付き分子の少数コピーを生成しうる。第４に、シーケンシングエラー、確率バーコード配列の不正確なコーリングは、人工的確率バーコードを誘導して、分子標識カウントを増大させうる。さらに、シーケンシング深度は、特に、シーケンシングが、浅すぎて、サンプルライブラリー中に存在する確率バーコード付きｍＲＮＡのすべてを検出することができない場合に重要となりうる。

１つ以上のＰＣＲを有する標的の数、または訂正若しくは調節されたシーケンシングエラーを決定する方法およびシステムが本明細書に開示される。いくつかの実施形態では、本方法は、（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスを決定する工程と；（ｉｉｉ）（ｂ）で得られたシーケンシングデータ中の１つ以上のシーケンシングデータエラーを決定する工程であって、シーケンシングデータ中の１つ以上のシーケンシングデータエラーを決定する工程が、以下：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数、シーケンシングデータ中の標的のクオリティステータス、および複数の確率バーコードに識別可能な配列を有する分子標識の数のうち１つ以上を決定することを含む工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉｉ）で決定された１つ以上のシーケンシングデータエラーに応じて調節された、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。

方向近接性に基づいて訂正若しくは調節された１つ以上のＰＣＲまたはシーケンシングエラーを有する標的の数を決定する方法が開示される。いくつかの実施形態では、本方法は、（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；（ｉｉｉ）（ｉｉ）で同定された標的の分子標識のクラスターを用いて、（ｂ）で得られたシーケンシングデータを折りたたむ工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉ）のシーケンシングデータの折りたたみ後に、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。

訂正若しくは調節された１つ以上のＰＣＲまたはシーケンシングエラーを有する標的の数を決定するためのコンピュータシステムが開示される。実行されると、１つ以上のコンピュータデバイスに、訂正若しくは調節された１つ以上のＰＣＲまたはシーケンシングエラーを有する標的の数を決定させる、実行可能コードを含む非一過性コンピュータ読取り媒体が開示される。

定義
特に定義がない限り、本明細書で用いられる技術用語はすべて、本開示が属する分野の当業者により一般に理解されているものと同一の意味を有する。たとえば、Ｓｉｎｇｌｅｔｏｎｅｔａｌ．，ＤｉｃｔｉｏｎａｒｙｏｆＭｉｃｒｏｂｉｏｌｏｇｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２ｎｄｅｄ．，Ｊ．Ｗｉｌｅｙ＆Ｓｏｎｓ（ＮｅｗＹｏｒｋ，ＮＹ１９９４）；Ｓａｍｂｒｏｏｋｅｔａｌ．，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ，ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＣｏｌｄＳｐｒｉｎｇｓＨａｒｂｏｒＰｒｅｓｓ（ＣｏｌｄＳｐｒｉｎｇｓＨａｒｂｏｒ，ＮＹ１９８９）を参照されたい。本開示の目的のために、下記の用語を以下に定義する。

本明細書で用いられる場合、「アダプター」という用語は、関連核酸の増幅またはシーケンシングを促進するための配列を意味しうる。関連核酸は、標的核酸を含みうる。関連核酸は、空間標識、標的標識、サンプル標識、指標標識、バーコード、確率バーコード、または分子標識の１つ以上を含みうる。アダプターは、線状であってよい。アダプターは、事前にアデニル化されたアダプターであってよい。アダプターは、二本鎖または一本鎖であってよい。１つ以上のアダプターは、核酸の５’または３’末端に配置することができる。アダプターが５’および３’末端に既知の配列を含む場合、既知の配列は、同じ配列でも、異なる配列でもよい。ポリヌクレオチドの５’および／または３’末端に位置するアダプターは、表面上に固定された１つ以上のオリゴヌクレオチドにハイブリダイズする能力を有しうる。アダプターは、いくつかの実施形態では、ユニバーサル配列を含む。ユニバーサル配列は、２つ以上の核酸分子と共通のヌクレオチド配列の１領域であってよい。２つ以上の核酸分子は、異なる配列の領域を有しうる。従って、たとえば、５’アダプターは、同一配列および／またはユニバーサル核酸配列を含み、３’アダプターは、同一配列および／またはユニバーサル配列を含みうる。複数の核酸分子の異なるメンバー中に存在しうるユニバーサル配列は、ユニバーサル配列と相補的な単一ユニバーサルプライマーを用いて、複数の異なる配列の複製または増幅を可能にしうる。同様に、核酸分子のコレクションの異なるメンバー中に存在しうる少なくとも１つ、２つ（たとえば、ペア）若しくはそれ以上のユニバーサル配列は、ユニバーサル配列と相補的な少なくとも１つ、２つ（たとえば、一対）若しくはそれ以上の単一ユニバーサルプライマーを用いて、複数の異なる配列の複製または増幅を可能にしうる。従って、ユニバーサルプライマーは、こうしたユニバーサル配列とハイブリダイズすることができる配列を含む。標的核酸配列担持分子を修飾して、ユニバーサルアダプター（たとえば、非標的核酸配列）を異なる標的核酸配列の一端または両端に結合させることができる。標的核酸に結合した１つ以上のユニバーサルプライマーは、ユニバーサルプライマーのハイブリダイゼーションのための部位を提供することができる。標的核酸に結合した１つ以上のユニバーサルプライマーは、同じでも、互いに異なってもよい。

本明細書で用いられる場合、「関連付けられる」または「～に関連付けられる」という用語は、ある時点で２つ以上の種が共配置されているとして同定可能であることを意味しうる。関連付けは、２つ以上の種が類似の容器内にあることを意味しうる。関連付けは、インフォマティクス的関連付けでありうる。この場合、たとえば、２つ以上の種に関するディジタル情報が記憶され、かつその情報を用いてこれらの種の１つ以上が共配置されたことを決定可能である。関連付けはまた、物理的関連付けでありうる。いくつかの実施形態では、２つ以上の関連付けられる種は、互いにまたは共通の固体もしくは半固体の表面に「テザー連結」、「結合」、または「固定」される。関連付けは、ビーズなどの固体または半固体の支持体に標識を結合するための共有結合手段または非共有結合手段を意味しうる。関連付けは、標的と標識との共有結合でありうる。

本明細書で用いられる場合、「相補的」という用語は、２つのヌクレオチド間の精密なペアリングの能力を意味しうる。たとえば、核酸の所与の位置のヌクレオチドが他の核酸のヌクレオチドと水素結合可能である場合、２つの核酸はその位置で互いに相補的であるとみなされる。２つの一本鎖核酸分子間の相補性は、ヌクレオチドの一部のみが結合する場合には「部分的」でありうるし、一本鎖分子間のすべてに相補性が存在する場合には完全でありうる。第１のヌクレオチド配列が第２のヌクレオチド配列に相補的である場合、第１のヌクレオチド配列は第２の配列の「相補体」であるといえる。第１のヌクレオチド配列が第２の配列の逆（すなわち、ヌクレオチドの順序が逆）の配列に相補的である場合、第１のヌクレオチド配列は第２の配列の「逆相補体」であるといえる。本明細書で用いられる場合、「相補体」、「相補的」、および「逆相補体」という用語は、同義的に用いることが可能である。ある分子が他の分子にハイブリダイズしうる場合、それはハイブリダイズしている分子の相補体でありうることが、本開示から理解される。

本明細書で用いられる場合、「ディジタルカウンティング」という用語は、サンプル中の標的分子の数を推定する方法を意味しうる。ディジタルカウンティングは、サンプル中の標的に関連付けられたユニーク標識の数を決定する工程を含みうる。この確率的方法は、分子をカウントする問題を、同一の分子の位置決定および同定の問題から、所定の標識のセットの検出に関する一連のあり／なしのディジタル問題に変換する。

本明細書で用いられる場合、「標識」という用語は、サンプル内の標的に関連付けられる核酸コードを意味しうる。標識は、たとえば、核酸標識でありうる。標識は、全体または一部が増幅可能な標識でありうる。標識は、全体または一部がシーケンス可能標識でありうる。標識は、個別に同定可能な天然核酸の一部でありうる。標識は、既知の配列でありうる。標識は、核酸配列の接合（たとえば、天然配列と非天然配列との接合）を含みうる。本明細書で用いられる場合、「標識」という用語は、「インデックス」、「タグ」、または「標識タグ」という用語と同義的に用いうる。標識は、情報を伝達可能である。たとえば、種々の実施形態では、標識は、サンプル同一性、サンプル源、細胞同一性、および／または標的を決定するために使用可能である。

本明細書で用いられる場合、「非枯渇リザーバー」という用語は、多種多様な標識から構成された確率バーコードのプールを意味しうる。非枯渇リザーバーは、非枯渇リザーバーが標的のプールに関連付けられる場合、各標的がユニーク確率バーコードに関連付けられる可能性が高くなるように、多数の異なる確率バーコードを含みうる。各標識標的分子のユニーク性は、ランダム選択の統計により決定可能であり、標識の多様性と比較してコレクション中の同一の標的分子のコピー数に依存する。得られる標識標的分子のセットのサイズは、バーコーディングプロセスの確率的性質により決定可能であり、次いで、検出された確率バーコードの数の解析は、元のコレクションまたはサンプル中に存在する標的分子の数の計算を可能にする。存在する標的分子のコピー数とユニーク確率バーコードの数との比が低い場合、標識標的分子はきわめてユニークである（すなわち、２つ以上の標的分子が１つの所与の標識で標識される確率は非常に低い）。

本明細書で用いられる場合、「核酸」という用語は、ポリヌクレオチド配列またはその断片を意味する。核酸はヌクレオチドを含みうる。核酸は細胞に対して外因性または内因性でありうる。核酸は細胞フリー環境中に存在しうる。核酸は遺伝子またはその断片でありうる。核酸はＤＮＡでありうる。核酸はＲＮＡでありうる。核酸は１つ以上のアナログ（たとえば、修飾された骨格、糖または核酸塩基）を含みうる。アナログのいくつかの例としては、限定されるものではないが、５－ブロモウラシル、ペプチド核酸、ゼノ核酸、モルホリノ体、ロックド核酸、グリコール核酸、トレオース核酸、ジデオキシヌクレオチド、コルジセピン、７－デアザ－ＧＴＰ、フルオロフォア（たとえば、糖に結合されたローダミンまたはフルオレセイン）、チオール含有ヌクレオチド、ビオチン結合ヌクレオチド、蛍光塩基アナログ、ＣｐＧアイランド、メチル－７－グアノシン、メチル化ヌクレオチド、イノシン、チオウリジン、プソイドウリジン、ジヒドロウリジン、キューオシン、およびワイオシンが挙げられる。「核酸」、「ポリヌクレオチド、「標的ポリヌクレオチド」、および「標的核酸」は、同義的に用いうる。

核酸は、新しいまたは向上した特徴（たとえば、向上した安定性）を有する核酸を提供するために１つ以上の修飾（たとえば、塩基修飾、骨格修飾）を含みうる。核酸は核酸アフィニティータグを含みうる。ヌクレオシドは塩基－糖の組合せでありうる。ヌクレオシドの塩基部分はヘテロ環塩基でありうる。かかるヘテロ環塩基の２つの最も一般的なクラスはプリンおよびピリミジンである。ヌクレオチドは、ヌクレオシドの糖部分に共有結合されたリン酸基をさらに含むヌクレオシドでありうる。ペントフラノシル糖を含むヌクレオシドでは、リン酸基は、糖の２’、３’、または５’ヒドロキシル部分に結合可能である。核酸を形成する際、リン酸基は、隣接ヌクレオシドを互いに共有結合して線状高分子化合物を形成可能である。ひいては、この線状高分子化合物のそれぞれの末端をさらに連結して環状化合物を形成可能である。しかしながら、線状化合物が一般に好適である。そのほかに、線状化合物は、内部ヌクレオチド塩基相補性を有しうるので、完全二本鎖または部分二本鎖の化合物を生成するようにフォールディングしうる。核酸内では、リン酸基は、通常、核酸のヌクレオシド間骨格を形成するものとして参照可能である。結合または骨格は、３’→５’ホスホジエステル結合でありうる。

核酸は、修飾骨格および／または修飾ヌクレオシド間結合を含みうる。修飾骨格は、骨格中にリン原子を保持するものおよび骨格中にリン原子を有していないものを含みうる。リン原子を中に含有する好適な修飾核酸骨格は、たとえば、ホスホロチオエート、キラルホスホロチオエート、ホスホロジチオエート、ホスホトリエステル、アミノアルキルホスホトリエステル、３’－アルキレンホスホネートや５’－アルキレンホスホネートなどのメチルや他のアルキルのホスホネート、キラルホスホネート、ホスフィネート、３’－アミノホスホルアミデートやアミノアルキルホスホルアミデートなどのホスホルアミデート、ホスホロジアミデート、チオノホスホルアミデート、チオノアルキルホスホネート、チオノアルキルホスホトリエステル、セレノホスフェート、および通常３’－５’結合、２’－５’結合アナログを有するボラノホスフェート、ならびに１つ以上のヌクレオチド間結合が３’→３’、５’→５’、または２’→２’結合である逆極性を有するものを含みうる。

核酸は、短鎖アルキルもしくはシクロアルキルのヌクレオシド間結合、混合ヘテロ原子およびアルキルもしくはシクロアルキルのヌクレオシド間結合、または１つ以上の短鎖ヘテロ原子もしくはヘテロ環のヌクレオシド間結合により形成されるポリヌクレオチド骨格を含みうる。これらは、モルホリノ結合（ヌクレオシドの糖部分から部分的に形成される）、シロキサン骨格、スルフィド、スルホキシド、およびスルホン骨格、ホルムアセチルおよびチオホルムアセチル骨格、メチレンホルムアセチルおよびチオホルムアセチル骨格、リボアセチル骨格、アルケン含有骨格、スルファメート骨格、メチレンイミノおよびメチレンヒドラジノ骨格、スルホネートおよびスルホンアミド骨格、アミド骨格を有するもの、ならびに混合Ｎ、Ｏ、Ｓ、およびＣＨ₂構成部分を有する他のものを含みうる。

核酸は核酸ミメティックを含みうる。「ミメティック」という用語は、フラノース環のみまたはフラノース環とヌクレオチド間結合の両方が非フラノース基で置き換えられているポリヌクレオチドを含むことを意図し得、フラノース環のみの置換えは、糖サロゲートであるとして参照可能である。ヘテロ環塩基部分または修飾ヘテロ環塩基部分は、適切な標的核酸とのハイブリダイゼーションのために保持可能である。かかる核酸の１つはペプチド核酸（ＰＮＡ）でありうる。ＰＮＡでは、ポリヌクレオチドの糖骨格は、アミド含有骨格特にアミノエチルグリシン骨格で置換え可能である。ヌクレオチドは保持可能であり、かつ骨格のアミド部分のアザ窒素原子に直接的または間接的に結合される。ＰＮＡ化合物中の骨格は、ＰＮＡにアミド含有骨格を与える２つ以上の結合されたアミノエチルグリシン単位を含みうる。ヘテロ環塩基部分は、骨格のアミド部分のアザ窒素原子に直接的または間接的に結合可能である。

核酸はモルホリノ骨格構造を含みうる。たとえば、核酸は、リボース環の代わりに６員モルホリノ環を含みうる。これらの実施形態のいくつかでは、ホスホロジアミデートまたは他の非ホスホジエステルのヌクレオシド間結合によりホスホジエステル結合を置換え可能である。

核酸は、モルホリノ環に結合されたヘテロ環塩基を有する結合されたモルホリノ単位（すなわちモルホリノ核酸）を含みうる。結合基は、モルホリノ核酸中のモルホリノモノマー単位を結合可能である。非イオン性モルホリノ系オリゴマー化合物は、細胞タンパク質とのより少ない望ましくない相互作用を有しうる。モルホリノ系ポリヌクレオチドは、核酸の非イオン性ミミックでありうる。モルホリノクラス内のさまざまな化合物は、異なる結合基を用いて連結可能である。ポリヌクレオチドミメティックのさらなるクラスは、シクロヘキセニル核酸（ＣｅＮＡ）として参照可能である。核酸分子中に通常存在するフラノース環は、シクロヘキセニル環で置換え可能である。ＣｅＮＡＤＭＴ保護ホスホロアミダイトモノマーは、ホスホロアミダイト化学を用いたオリゴマー化合物合成のために調製および使用が可能である。核酸鎖中へのＣｅＮＡモノマーの取込みは、ＤＮＡ／ＲＮＡハイブリッドの安定性を増加可能である。ＣｅＮＡオリゴアデニレートは、天然複合体に類似した安定性を有する核酸相補体との複合体を形成可能である。さらなる修飾は、２’－ヒドロキシル基が糖環の４’炭素原子に結合されて２’－Ｃ，４’－Ｃ－オキシメチレン結合を形成することにより二環式糖部分を形成するロックド核酸（ＬＮＡ）を含みうる。結合は、２’酸素原子と４’炭素原子とを架橋するメチレン（－ＣＨ２），基（式中、ｎは１または２である）でありうる。ＬＮＡおよびＬＮＡアナログは、相補的核酸との非常に高い二本鎖熱安定性（Ｔｍ＝＋３～＋１０℃）、３’－エキソヌクレアーゼ分解に対する安定性、および良好な溶解性を示しうる。

核酸はまた、核酸塩基（単に「塩基」ということが多い）の修飾または置換を含みうる。本明細書で用いられる場合、「非修飾」または「天然」の核酸塩基は、プリン塩基（たとえば、アデニン（Ａ）およびグアニン（Ｇ））、ならびにピリミジン塩基（たとえば、チミン（Ｔ）、シトシン（Ｃ）およびウラシル（Ｕ））を含みうる。修飾核酸塩基は、他の合成および天然の核酸塩基、たとえば、５－メチルシトシン（５－ｍｅ－Ｃ）、５－ヒドロキシメチルシトシン、キサンチン、ヒポキサンチン、２－アミノアデニン、アデニンおよびグアニンの６－メチルおよび他のアルキル誘導体、アデニンおよびグアニンの２－プロピルおよび他のアルキル誘導体、２－チオウラシル、２－チオチミンおよび２－チオシトシン、５－ハロウラシルおよびシトシン、５－プロピニル（－Ｃ＝Ｃ－ＣＨ３）ウラシルおよびシトシン、ならびにピリミジン塩基の他のアルキニル誘導体、６－アゾウラシル、シトシンおよびチミン、５－ウラシル（プソイドウラシル）、４－チオウラシル、８－ハロ、８－アミノ、８－チオール、８－チオアルキル、８－ヒドロキシル、ならびに他の８－置換アデニンおよびグアニン、５－ハロ特に５－ブロモ、５－トリフルオロメチルおよび他の５－置換ウラシルおよびシトシン、７－メチルグアニンおよび７－メチルアデニン、２－Ｆ－アデニン、２－アミノアデニン、８－アザグアニンおよび８－アザアデニン、７－デアザグアニンおよび７－デアザアデニン、ならびに３－デアザグアニンおよび３－デアアデニンを含みうる。修飾核酸塩基は、三環式ピリミジン、たとえば、フェノキサジンシチジン（１Ｈ－ピリミド（５，４－ｂ）（１，４）ベンゾオキサジン－２（３Ｈ）－オン）、フェノチアジンシチジン（１Ｈ－ピリミド（５，４－ｂ）（１，４）ベンゾチアジン－２（３Ｈ）－オン）、置換フェノキサジンシチジン（たとえば、９－（２－アミノエトキシ）－Ｈ－ピリミド（５，４－（ｂ）（１，４）ベンゾオキサジン－２（３Ｈ）－オン）などのＧ－クランプ、フェノチアジンシチジン（１Ｈ－ピリミド（５，４－ｂ）（１，４）ベンゾチアジン－２（３Ｈ）－オン）、置換フェノキサジンシチジン（たとえば、９－（２－アミノエトキシ）－Ｈ－ピリミド（５，４－（ｂ）（１，４）ベンゾオキサジン－２（３Ｈ）－オン）などのＧ－クランプ、カルバゾールシチジン（２Ｈ－ピリミド（４，５－ｂ）インドール－２－オン）、ピリドインドールシチジン（Ｈ－ピリド（３’，’：４，５）ピロロ［２，３－ｄ］ピリミジン－２－オン）を含みうる。

本明細書で用いられる場合、「サンプル」という用語は、標的を含む組成物を意味しうる。本開示の方法、デバイス、およびシステムによる分析に好適なサンプルとしては、細胞、組織、器官、または生物が挙げられる。

本明細書で用いられる場合、「サンプリングデバイス」または「デバイス」という用語は、サンプルのセクションの採取および／または基材上へのセクションの配置を行いうるデバイスを意味しうる。サンプルデバイスとは、たとえば、蛍光活性化細胞選別（ＦＡＣＳ）機、セルソーター機、生検針、生検デバイス、組織切片化デバイス、マイクロ流体デバイス、ブレードグリッド、および／またはミクロトームを意味しうる。

本明細書で用いられる場合、「固体担体」という用語は、複数の確率バーコードを結合しうる離散した固体または半固体の表面を意味しうる。固体担体は、核酸を（たとえば共有結合または非共有結合で）固定しうるプラスチック、セラミック、金属、または高分子材料（たとえばヒドロゲル）で構成された任意のタイプの中実、多孔性、または中空のスフェア、ボール、ベアリング、シリンダー、または他の類似の構成体を包含しうる。固体担体は、球状（たとえばマイクロスフェア）でありうるかまたは非球状もしくは不規則形状、たとえば、立方体形、直方体形、角錐形、円柱形、円錐形、扁球形、ディスク形などを有しうる離散粒子を含みうる。アレイ状に離間して配置された複数の固体担体は、基材を含まないこともありうる。固体担体は、「ビーズ」という用語と同義的に用いうる。

固体担体は「基材」を意味しうる。基材は固体担体の１種でありうる。基材は、本開示の方法を行いうる連続した固体または半固体の表面を意味しうる。基材は、たとえば、アレイ、カートリッジ、チップ、デバイス、およびスライドを意味しうる。

本明細書で用いられる場合、「空間標識」という用語は、空間内の位置と関連させることができる標識を意味しうる。

本明細書で用いられる場合、「確率バーコード」という用語は、標識を含むポリヌクレオチド配列を意味しうる。確率バーコードは、確率バーコーディングに使用可能なポリヌクレオチド配列でありうる。確率バーコードは、サンプル中の標的を定量可能である。確率バーコードは、標識を標的に関連付けた後に起こりうるエラーの制御に使用可能である。たとえば、確率バーコードは、増幅またはシーケンシングのエラーを評価可能である。標的に関連付けられた確率バーコードは、確率バーコード標的または確率バーコードタグ標的と呼ぶことが可能である。

本明細書で用いられる場合、「遺伝子特異的確率バーコード」という用語は、標識と、遺伝子特異的である標的結合領域とを含むポリヌクレオチド配列を意味しうる。確率バーコードは、確率バーコーディングに使用することができるポリヌクレオチド配列でありうる。確率バーコードは、サンプル中の標的を定量するために使用することができる。確率バーコードは、標識を標的に関連付けた後に起こりうるエラーの制御に使用することができる。たとえば、確率バーコードは、増幅またはシーケンシングのエラーを評価することができる。標的に関連付けられた確率バーコードは、確率バーコード標的または確率バーコードタグ標的と呼ぶことができる。

本明細書で用いられる場合、「確率バーコーディング」という用語は、核酸のランダム標識化（たとえばバーコーディング）を意味しうる。確率バーコーディングは、標識を標的に関連付けて、標識に関連付けられた標識を定量するために再帰的ポアソンストラテジーを利用することができる。本明細書で用いられる場合、「確率バーコーディング」という用語は、「遺伝子特異的確率バーコーディング」と置き換え可能に用いられうる。

本明細書で用いられる場合、「標的」という用語は、確率バーコードに関連付け可能な組成物を意味しうる。本開示の方法、デバイス、およびシステムによる分析に好適な例示的な標的としては、オリゴヌクレオチド、ＤＮＡ、ＲＮＡ、ｍＲＮＡ、マイクロＲＮＡ、ｔＲＮＡなどが挙げられる。標的は一本鎖または二本鎖でありうる。いくつかの実施形態では、標的はタンパク質でありうる。いくつかの実施形態では、標的は脂質である。

本明細書で用いられる場合、「逆転写酵素」という用語は、逆転写酵素活性を有する（すなわち、ＲＮＡ鋳型からのＤＮＡの合成を触媒する）酵素のグループを意味しうる。一般的には、かかる酵素としては、限定されるものではないが、レトロウイルス逆転写酵素、レトロトランスポゾン逆転写酵素、レトロプラスミド逆転写酵素、レトロン逆転写酵素、細菌逆転写酵素、グループＩＩイントロン由来逆転写酵素、およびそれらの突然変異体、変異体、または誘導体が挙げられる。非レトロウイルス逆転写酵素としては、非ＬＴＲレトロトランスポゾン逆転写酵素、レトロプラスミド逆転写酵素、レトロン逆転写酵素、およびグループＩＩイントロン逆転写酵素が挙げられる。グループＩＩイントロン逆転写酵素の例としては、ラクトコッカス・ラクティス（Ｌａｃｔｏｃｏｃｃｕｓｌａｃｔｉｓ）Ｌｌ．ＬｔｒＢイントロン逆転写酵素、サーモシネココッカス（Ｔｈｅｒｍｏｓｙｎｅｃｈｏｃｏｃｃｕｓ）は、ＴｅＩ４ｃイントロン逆転写酵素、またはジオバチルス・ステアロサーモフィラス（Ｇｅｏｂａｃｉｌｌｕｓｓｔｅａｒｏｔｈｅｒｍｏｐｈｉｌｕｓ）ＧｓＩ－ＩＩＣイントロン逆転写酵素を伸長する。他のクラスの逆転写酵素としては、多くのクラスの非レトロウイルス逆転写酵素（すなわち、レトロン、グループＩＩイントロン、および特に多様性生成レトロエレメント）が挙げられうる。

「ユニバーサルアダプタープライマー」、「ユニバーサルプライマーアダプター」または「ユニバーサルアダプター配列」という用語は、置き換え可能に用いられて、確率バーコードをハイブリダイズして、遺伝子特異的確率バーコードを作製するために使用することができるヌクレオチド配列を指す。ユニバーサルアダプター配列は、たとえば、本開示の方法に用いられるすべての確率バーコードに対してユニバーサルである既知の配列であってよい。たとえば、本明細書に開示する方法を用いて複数の標的が標識される場合、標的特異的配列の各々を同じユニバーサルアダプター配列に連結させてもよい。いくつかの実施形態では、本明細書に開示する方法に、２つ以上のユニバーサルアダプター配列を使用することができる。たとえば、本明細書に開示する方法を用いて複数の標的が標識される場合、標的特異的配列の少なくとも２つを異なるユニバーサルアダプター配列と連結させる。ユニバーサルアダプタープライマーおよびその補体は、２つのオリゴヌクレオチドに含有させてもよく、そのうちの１つは、標的特異的配列を含み、他方は、確率バーコードを含む。たとえば、ユニバーサルアダプター配列は、標的核酸と相補的なヌクレオチド配列を生成するための標的特異的配列を含むオリゴヌクレオチドの一部であってもよい。確率バーコードと、ユニバーサルアダプター配列の相補的配列を含む第２のオリゴヌクレオチドは、ヌクレオチド配列とハイブリダイズして、標的特異的確率バーコードを生成しうる。いくつかの実施形態では、ユニバーサルアダプタープライマーは、本開示の方法で使用されるユニバーサルＰＣＲプライマーとは異なる配列を有する。

本明細書には、ＰＣＲおよび／またはシーケンシングの最中に発生したエラーを検出し、および／または訂正する方法およびシステムが開示される。エラーのタイプとしては、限定するものではないが、たとえば、置換エラー（１つ以上の塩基）および非置換エラーがある。置換エラーのうち、１塩基置換エラーは、２塩基以上相違するエラーよりもはるかに頻繁に起こりうる。本方法およびシステムは、たとえば、確率バーコーディングにより分子標的の正確なカウンティングを達成するために使用することができる。

確率バーコード
確率バーコーディングは、たとえば、米国特許出願公開第２０１５０２９９７８４号明細書、国際公開第２０１５０３１６９１号パンフレット、およびＦｕｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵ．Ｓ．Ａ．２０１１Ｍａｙ３１；１０８（２２）：９０２６－３１に記載されており、これらの刊行物の内容は、その全体を参照により本明細書に組み込む。手短には、確率バーコードは、標的に確率標識（例えば、バーコード、タグ）を付けるために使用することができるポリヌクレオチド配列であってよい。確率バーコードは、１つ以上の標識を含みうる。例示的な標識としては、ユニバーサル標識、細胞標識、分子標識、サンプル標識、プレート標識、空間標識、および／またはプレ空間標識を挙げることができる。図１は、空間標識を有する例示的な確率バーコード１０４を示す。確率バーコード１０４は、確率バーコードを固体担体１０５に連結しうる５’アミンを含んでよい。確率バーコードは、ユニバーサル標識、次元標識、空間標識、細胞標識、および／または分子標識を含みうる。確率バーコード中のさまざまな標識（限定するものではないが、ユニバーサル標識、次元標識、空間標識、細胞標識、および分子標識など）の順序は変動しうる。たとえば、図１に示すように、ユニバーサル標識は、最も５’側の標識であってよく、分子標識は、最も３’側の標識であってもよい。空間標識、次元標識、および細胞標識は、任意の順序であってよい。いくつかの実施形態では、ユニバーサル標識、空間標識、次元標識、細胞標識、および分子標識は、任意の順序であってよい。

標識、たとえば、細胞標識は、規定長さ、たとえば、各々７ヌクレオチド（いくつかのハミングエラー訂正コードに使用されるビット数に相当する）の核酸部分配列の固有のセットを含んでもよく、これらは、エラー訂正能力を賦与するように設計することができる。エラー訂正部分配列のセットは、７つのヌクレオチド配列を含み、これらは、セット内の配列の任意のペア組合せが、規定の「遺伝子距離」（またはミスマッチ塩基の数）を呈示するように、設計することができ、たとえば、３ヌクレオチドの遺伝子距離を呈示するように、１セットのエラー訂正部分配列を設計することができる。この場合、標識化標的核酸分子についてのシーケンシングデータのセット内のエラー訂正配列の見直しによって、増幅若しくはシーケンシングエラーを検出または訂正することが可能になる。いくつかの実施形態では、エラー訂正コードを作製するために用いられる核酸部分配列の長さは、たとえば、約１、２、３、４、５、６、７、８、９、１０、１５、２０、３０、３１、４０、５０ヌクレオチド長、またはこれらの値のいずれか２つの間の数もしくは範囲であってよい。いくつかの実施形態では、エラー訂正コードを作製するために、他の長さの核酸部分配列を使用することも可能である。

確率バーコードは、標的結合領域を含みうる。標的結合領域は、サンプル中の標的と相互作用することができる。標的は、リボ核酸（ＲＮＡ）、メッセンジャーＲＮＡ（ｍＲＮＡ）、ｍｉｃｒｏＲＮＡ、低分子干渉ＲＮＡ（ｓｉＲＮＡ）、ＲＮＡ分解産物、各々がポリ（Ａ）テールを含有するＲＮＡ、またはそれらの任意の組合せであってもよいし、これらを含んでもよい。いくつかの実施形態では、複数の標的は、デオキシリボ核酸（ＤＮＡ）を含みうる。

いくつかの実施形態では、標的結合領域は、ｍＲＮＡのポリ（Ａ）テールと相互作用することができるオリゴ（ｄＴ）配列を含みうる。確率バーコードの標識（たとえば、ユニバーサル標識、次元標識、空間標識、細胞標識、および分子標識）の１つ以上は、確率バーコードの残りの標識の別の１つまたは２つからスペーサによって隔てることができる。スペーサは、たとえば、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、もしくは２０ヌクレオチドまたはそれ以上であってよい。いくつかの実施形態では、確率バーコードの標識のいずれもスペーサによって隔てられない。

ユニバーサル標識
確率バーコードは１つ以上のユニバーサル標識を含みうる。いくつかの実施形態では、１つ以上のユニバーサル標識は、所与の固体担体に結合される確率バーコードのセット中のすべての確率バーコードで同一でありうる。いくつかの実施形態では、１つ以上のユニバーサル標識は、複数のビーズに結合されるすべての確率バーコードで同一でありうる。いくつかの実施形態では、ユニバーサル標識は、シーケンシングプライマーにハイブリダイズ可能な核酸配列を含みうる。シークエンシングプライマーは、ユニバーサル標識を含む確率バーコードをシーケンスするために使用可能である。シークエンシングプライマー（たとえば、ユニバーサルシークエンシングプライマー）は、高スループットシークエンシングプラットフォームに関連付けられるシークエンシングプライマーを含みうる。いくつかの実施形態では、ユニバーサル標識は、ＰＣＲプライマーにハイブリダイズ可能な核酸配列を含みうる。いくつかの実施形態では、ユニバーサル標識は、シークエンシングプライマーおよびＰＣＲプライマーにハイブリダイズ可能な核酸配列を含みうる。シーケンシングプライマーまたはＰＣＲプライマーにハイブリダイズ可能なユニバーサル標識の核酸配列は、プライマー結合部位として参照しうる。ユニバーサル標識は、確率バーコードの転写を開始するために使用しうる配列を含みうる。ユニバーサル標識は、確率バーコードまたは確率バーコード内の領域の伸長のために、使用しうる配列を含みうる。ユニバーサル標識は、約１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０ヌクレオチド長、またはこれらの値のいずれか２つの間の数もしくは範囲であってよい。たとえば、ユニバーサル標識は、少なくとも約１０ヌクレオチドを含みうる。ユニバーサル標識は、少なくとも、または多くとも、１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、１００、２００、もしくは３００ヌクレオチド長でありうる。いくつかの実施形態では、切断可能なリンカーまたは修飾ヌクレオチドは、担体から確率バーコードを切断して除去することを可能にするユニバーサル標識配列の一部であってよい。

次元標識
確率バーコードは１つ以上の次元標識を含みうる。いくつかの実施形態では、次元標識は、確率標識化が行われた次元に関する情報を提供する核酸配列を含みうる。たとえば、次元標識は、標的に確率バーコードが付された時点に関する情報を提供可能である。次元標識は、サンプルの確率バーコーディングの時点に関連付け可能である。次元標識は、確率標識化の時点で活性化可能である。異なる時点で異なる次元標識を活性化可能である。次元標識は、標的、標的のグループ、および／またはサンプルに確率バーコードを付けた順序に関する情報を提供する。たとえば、細胞集団は、細胞周期のＧ０期に確率バーコードを付けることが可能である。細胞は、細胞周期のＧ１期に確率バーコードで再びパルスすることが可能である。細胞は、細胞周期のＳ期に確率バーコードで再びパルスすることが可能であり、他の時期も同様である。各パルス時（たとえば、細胞周期の各期）の確率バーコードは、異なる次元標識を含みうる。こうして、次元標識は、細胞周期のどの期に標的に標識したかに関する情報を提供する。次元標識は、多種多様な生物時間を精査することが可能である。例示的な生物時間としては、限定されるものではないが、細胞周期、転写（たとえば転写開始）、および転写物分解が挙げられうる。他の例として、薬剤治療および／または療法の前および／または後にサンプル（たとえば、細胞、細胞集団）に確率標識を付けることが可能である。識別可能な標的のコピー数の変化は、薬剤および／または療法に対するサンプルの反応の指標でありうる。

次元標識は、活性化可能であってよい。活性化可能な次元標識は、特定の時点で活性化可能でありうる。活性化可能な標識は、たとえば、構成的に活性化することができる（たとえば、オフに切り替わらない）。活性化可能な次元標識は、たとえば、可逆的に活性化可能である（たとえば、活性化可能な次元標識は、オン・オフの切替えが可能である）。たとえば、次元標識は、少なくとも１、２、３、４、５、６、７、８、９、もしくは１０回またはそれ以上可逆的に活性化可能でありうる。次元標識は、たとえば、少なくとも１、２、３、４、５、６、７、８、９、もしくは１０回またはそれ以上可逆的に活性化可能でありうる。いくつかの実施形態では、次元標識は、蛍光、光、化学的イベント（たとえば、切断、他の分子のライゲーション、修飾（たとえば、ペグ化、ＳＵＭＯ化、アセチル化、メチル化、脱アセチル化、脱メチル化）の付加、光化学的イベント（たとえば、光ケージング）、および非天然ヌクレオチドの導入により活性化可能である。

次元標識は、いくつかの実施形態では、所与の固体担体（たとえばビーズ）に結合されるすべての確率バーコードで同一でありうるが、異なる固体担体（たとえばビーズ）では異なりうる。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、または１００％は、同一の次元標識を含みうる。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも６０％は、同一の次元標識を含みうる。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも９５％は、同一の次元標識を含みうる。

複数の固体担体（たとえばビーズ）には、１０⁶程度またはそれ以上のユニーク次元標識配列が存在可能である。次元標識は、１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。次元標識は、少なくとも、または多くとも、１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、１００、２００、もしくは３００ヌクレオチド長でありうる。次元標識は、約５～約２００ヌクレオチドを含みうる。次元標識は、約１０～約１５０ヌクレオチドを含みうる。次元標識は、約２０～約１２５ヌクレオチドを含みうる。

空間標識
確率バーコードは１つ以上の空間標識を含みうる。いくつかの実施形態では、空間標識は、確率バーコードに関連付けられる標的分子の空間配向に関する情報を提供する核酸配列を含みうる。空間標識は、サンプル中の座標に関連付け可能である。座標は固定座標でありうる。たとえば、座標は基材を基準にして固定可能である。空間標識は二次元または三次元のグリッドを基準にしうる。座標はランドマークを基準にして固定可能である。ランドマークは空間内で同定可能である。ランドマークはイメージング可能な構造体でありうる。ランドマークは生物学的構造体たとえば解剖学的ランドマークでありうる。ランドマークは細胞ランドマーク（たとえばオルガネラ）でありうる。ランドマークは、非天然ランドマーク、たとえば、色コード、バーコード、磁性、蛍光、放射能、またはユニークなサイズもしくは形状のような同定可能な識別子を有する構造体でありうる。空間標識は、物理的パーティション（たとえば、ウェル、容器、またはドロップレット）に関連付け可能である。いくつかの実施形態では、空間内の１つ以上の位置にコードを付けるために複数の空間標識が一緒に使用される。

空間標識は、所与の固体担体（たとえばビーズ）に結合されるすべての確率バーコードで同一であってよいが、異なる固体担体（たとえばビーズ）については異なっていてもよい。いくつかの実施形態では、同一の空間標識を含む、同一の固体担体上の確率バーコードのパーセンテージは、６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、１００％、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値でありうる。いくつかの実施形態では、同一の空間標識を含む、同一の固体担体上の確率バーコードのパーセンテージは、少なくとも、または多くとも、６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、もしくは１００％でありうる。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも６０％が、同一の空間標識を含んでよい。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも９５％が、同一の空間標識を含んでよい。

複数の固体担体（たとえばビーズ）には、１０⁶程度またはそれ以上のユニーク空間標識配列が存在可能である。空間標識は、１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。空間標識は、少なくとも、または多くとも１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、１００、２００、もしくは３００ヌクレオチド長でありうる。空間標識は、約５～約２００ヌクレオチドを含みうる。空間標識は、約１０～約１５０ヌクレオチドを含みうる。空間標識は、約２０～約１２５ヌクレオチドを含みうる。

細胞標識
確率バーコードは、１つ以上の細胞標識を含みうる。いくつかの実施形態では、細胞標識は、どの標的核酸がどの細胞に由来するかを決定するための情報を提供する核酸配列を含みうる。いくつかの実施形態では、細胞標識は、所与の固体担体（たとえばビーズ）に結合されるすべての確率バーコードで同一であるが、異なる固体担体（たとえばビーズ）については異なっている。いくつかの実施形態では、同一の細胞標識を含む、同一の固体担体上の確率バーコードのパーセンテージは、６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、１００％、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値でありうる。いくつかの実施形態では、同一の細胞標識を含む、同一の固体担体上の確率バーコードのパーセンテージは、６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、もしくは１００％、またはそうした近似値であってよい。たとえば、同一の固体担体上の確率バーコードの少なくとも６０％が、同一の細胞標識を含みうる。別の例として、同一の固体担体上の確率バーコードの少なくとも９５％が、同一の細胞標識を含んでもよい。

複数の固体担体（たとえばビーズ）には、１０⁶程度またはそれ以上のユニーク細胞標識配列が存在可能である。細胞標識は、１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。細胞標識は、少なくとも、または多くとも、１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、１００、２００、もしくは３００ヌクレオチド長でありうる。たとえば、細胞標識は、約５～約２００ヌクレオチドを含みうる。別の例として、細胞標識は、約１０～約１５０ヌクレオチドを含みうる。さらに別の例として、細胞標識は、約２０～約１２５ヌクレオチドを含みうる。

分子標識
確率バーコードは、１つ以上の分子標識を含みうる。いくつかの実施形態では、分子標識は、確率バーコードにハイブリダイズされた標的核酸種の特定のタイプを同定するための情報を提供する核酸配列を含みうる。分子標識は、確率バーコード（たとえば標的結合領域）にハイブリダイズされた標的核酸種の特定の存在に対するカウンターを提供する核酸配列を含みうる。

いくつかの実施形態では、分子標識の多様なセットが所与の固体担体（たとえばビーズ）に結合される。いくつかの実施形態では、１０²、１０³、１０⁴、１０⁵、１０⁶、１０⁷、１０⁸、１０⁹、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値のユニーク分子標識配列が存在しうる。たとえば、複数の確率バーコードは、識別可能な配列を有する約６５６１の分子標識を含みうる。別の例として、複数の確率バーコードは、識別可能な配列を有する約６５５３６の分子標識を含みうる。いくつかの実施形態では、少なくとも、または多くとも、１０²、１０³、１０⁴、１０⁵、１０⁶、１０⁷、１０⁸、もしくは１０⁹のユニーク分子標識配列が存在しうる。ユニーク分子標識配列は、所与の固体担体（たとえばビーズ）に結合されている。

分子標識は、１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０ヌクレオチド長、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。分子標識は、少なくとも、または多くとも、１、２、３、４、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、１００、２００、もしくは３００ヌクレオチド長でありうる。

標的結合領域
確率バーコードは、１つ以上の標的結合領域を含みうる。いくつかの実施形態では、標的結合領域は、対象の標的とハイブリダイズすることができる。いくつかの実施形態では、標的結合領域は、標的（たとえば、標的核酸、標的分子、たとえば、分析される細胞核酸）、たとえば、特定の遺伝子配列に特異的にハイブリダイズする核酸配列を含みうる。いくつかの実施形態では、標的結合領域は、特定の標的核酸の特定の位置に結合（たとえばハイブリダイズ）しうる核酸配列を含みうる。いくつかの実施形態では、標的結合領域は、制限酵素部位オーバーハング（たとえば、ＥｃｏＲＩ付着末端オーバーハング）への特異的なハイブリダイゼーションが可能な核酸配列を含みうる。次いで、確率バーコードは、制限部位オーバーハングに相補的な配列を含む任意の核酸分子にライゲートしうる。

いくつかの実施形態では、標的結合領域は非特異的標的核酸配列を含みうる。非特異的標的核酸配列は、標的核酸の特定の配列に依存せずに複数の標的核酸に結合しうる配列を意味しうる。たとえば、標的結合領域は、ランダムマルチマー配列を含みうるかまたはｍＲＮＡ分子のポリ（Ａ）テールにハイブリダイズするオリゴ（ｄＴ）配列を含みうる。ランダムマルチマー配列は、たとえば、ランダムダイマー、ランダムトリマー、ランダムクアトラマー、ランダムペンタマー、ランダムヘキサマー、ランダムセプタマー、ランダムオクタマー、ランダムノナマー、ランダムデカマー、または任意の長さのより高次のランダムマルチマーの配列でありうる。いくつかの実施形態では、標的結合領域は、所与のビーズに結合されたすべての確率バーコードで同一である。いくつかの実施形態では、所与のビーズに結合された複数の確率バーコードの標的結合領域は、２つ以上の異なる標的結合配列を含む。標的結合領域は、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。もしくはそれ以上または概略で少なくともそうしたヌクレオチド長でありうる。標的結合領域は、多くとも約５、１０、１５、２０、２５、３０、３５、４０、４５、５０ヌクレオチド長またはそれ以上でありうる。

いくつかの実施形態では、標的結合領域は、ポリアデニル化末端を含むｍＲＮＡにハイブリダイズすることができるオリゴ（ｄＴ）を含みうる。標的結合領域は、遺伝子特異的でありうる。たとえば、標的結合領域は、標的の特定の領域にハイブリダイズするように構成することができる。標的結合領域は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。標的結合領域は、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、もしくは３０ヌクレオチド長でありうる。標的結合領域は、約５～３０ヌクレオチド長であってもよい。確率バーコードが、遺伝子特異的標的結合領域を含む場合、この確率バーコードは、遺伝子特異的確率バーコードと呼ぶことができる。

配向性
確率バーコードは、確率バーコードの配向（たとえばアライメント）のために使用することができる１つ以上の配向性を含みうる。確率バーコードは、等電点電気泳動用の部分を含みうる。異なる確率バーコードは、異なる等電点電気泳動点を含みうる。こうした確率バーコードをサンプルに導入した場合、サンプルは、確率バーコードを既知の形態にオリエントするために等電点電気泳動を行うことが可能である。こうして、オリエント性は、サンプルで確率バーコードの既知のマップを作成するために使用可能である。例示的なオリエント性としては、電気泳動移動度（たとえば、確率バーコードのサイズに基づく）、等電点、スピン、伝導率、および／またはセルフアセンブリーが挙げられうる。たとえば、セルフアセンブリーのオリエント性を含む確率バーコードは、活性化時に特定のオリエンテーションにセルフアセンブル可能である（たとえば、核酸ナノ構造）。

親和性
確率バーコードは、１つ以上の親和性を含みうる。たとえば、空間標識は、親和性を含みうる。親和性は、他のエンティティー（たとえば細胞レセプター）との確率バーコードの結合を促進することができる化学的および／または生物学的部分を含みうる。たとえば、親和性は、抗体、たとえば、サンプル上の特定の部分（たとえばレセプター）に特異的な抗体を含みうる。いくつかの実施形態では、抗体は、確率バーコードを特定の細胞型または分子に誘導することができる。特定の細胞型もしくは分子および／またはその近傍にある標的を確率標識化することができる。抗体は確率バーコードを特定の位置に誘導することができるので、いくつかの実施形態において、親和性は、空間標識のヌクレオチド配列に加え、空間情報も提供することができる。抗体は、治療用抗体、たとえば、モノクローナル抗体またはポリクローナル抗体であってもよい。抗体は、ヒト化されていても、またはキメラであってもよい。抗体は、ネイキッド抗体または融合抗体であってもよい。

抗体は、全長（すなわち、天然に存在するかもしくは通常の免疫グロブリン遺伝子断片組換えプロセスにより形成される）免疫グロブリン分子（たとえばＩｇＧ抗体）または免疫グロブリン分子の免疫活性（すなわち特異的結合）部分たとえば抗体フラグメントでありうる。

抗体フラグメントは、たとえば、Ｆ（ａｂ’）２、Ｆａｂ’、Ｆａｂ、Ｆｖ、ｓＦｖなどの抗体の一部でありうる。いくつかの実施形態において、抗体フラグメントは、全長抗体により認識される同一の抗原に結合可能である。抗体フラグメントは、抗体の可変領域からなる単離された断片、たとえば、重鎖および軽鎖の可変領域からなる「Ｆｖ」フラグメントならびに軽鎖および重鎖の可変領域がペプチドリンカーにより接続された組換え一本鎖ポリペプチド分子（「ｓｃＦｖタンパク質」）を含みうる。例示的な抗体としては、限定されるものではないが、癌細胞に対する抗体、ウイルスに対する抗体、細胞表面レセプター（ＣＤ８、ＣＤ３４、ＣＤ４５）に結合する抗体、および治療用抗体が挙げられうる。

ユニバーサルアダプタープライマー
確率バーコードは、１つ以上のユニバーサルアダプタープライマーを含みうる。たとえば、遺伝子特異的確率バーコードは、ユニバーサルアダプタープライマーを含みうる。ユニバーサルアダプタープライマーは、すべての確率バーコードに対してユニバーサルであるヌクレオチド配列を意味しうる。ユニバーサルアダプタープライマーは、遺伝子特異的確率バーコードを構築するために使用することができる。ユニバーサルアダプタープライマーは、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。ユニバーサルアダプタープライマーは、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、もしくは３０ヌクレオチド長でありうる。ユニバーサルアダプタープライマーは、約５～３０ヌクレオチド長であってもよい。

固体担体
本明細書に開示される確率バーコードは、いくつかの実施形態において、固体担体と結合することができる。固体担体は、たとえば、合成粒子であってよい。いくつかの実施形態では、固体担体上の複数の確率バーコード（たとえば、第１の複数の確率バーコード）の分子標識（たとえば、第１の分子標識）の一部または全部が、少なくとも１ヌクレオチド異なる。同じ固体担体上の確率バーコードの細胞標識は、同じであってもよい。異なる固体担体上の確率バーコードの細胞標識は、少なくとも１ヌクレオチド異なりうる。たとえば、第１の固体担体上の第１の複数の確率バーコードの第１の細胞標識は、同じ配列を有してよく、第２の固体担体上の第２の複数の確率バーコードの第２の細胞標識は、同じ配列を有してよい。第１の固体担体上の第１の複数の確率バーコードの第１の細胞標識と、第２の固体担体上の第２の複数の確率バーコードの第２の細胞標識とは、少なくとも１ヌクレオチド異なりうる。細胞標識は、たとえば、約５～２０ヌクレオチド長でありうる。分子標識は、たとえば、約５～２０ヌクレオチド長でありうる。合成粒子は、たとえば、ビーズであってよい。

ビーズは、たとえば、シリカゲルビーズ、調節多孔性ガラスビーズ、磁気ビーズ、ダイナビーズ、セファデックス／セファロースビーズ、セルロースビーズ、ポリスチレンビーズ、またはそれらの任意の組合せであってよい。ビーズは、ポリジメチルシロキサン（ＰＤＭＳ）、ポリスチレン、ガラス、ポリプロピレン、アガロース、ゼラチン、ヒドロゲル、常磁性材料、セラミック、プラスチック、ガラス、メチルスチレン、アクリルポリマー、チタン、ラテックス、セファロース、セルロース、ナイロン、シリコン、またはそれらの任意の組合せなどの材料を含みうる。

いくつかの実施形態では、ビーズは、ポリマービーズ、たとえば、変形性ビーズまたはゲルビーズであってよく、これらは、確率バーコードで官能化されている（たとえば、１０ＸＧｅｎｏｍｉｃｓ（ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ）からのゲルビーズなど）。いくつかの実施形態では、ゲルビーズは、ポリマーベースのゲルを含みうる。ゲルビーズは、たとえば、１つ以上のポリマー前駆体を液滴中に封入することによって作製することができる。促進剤（たとえば、テトラメチルエチレンジアミン（ＴＥＭＥＤ））にポリマー前駆体を曝露すると、ゲルビーズが作製されうる。

いくつかの実施形態では、ポリマービーズは、たとえば、所望の条件下で、溶解、溶融、または分解しうる。所望の条件は、環境条件を含みうる。所望の条件は、制御された様式で、ポリマービーズの溶解、溶融、または分解を引き起こしうる。ゲルビーズは、化学的刺激、物理的刺激、生物学的刺激、熱刺激、磁気刺激、電気刺激、光刺激、またはそれらの任意の組合せによって、溶解、溶融、または分解しうる。

たとえば、オリゴヌクレオチドバーコードなどの被検物質および／もしくは試薬を、ゲルビーズの内側表面（たとえば、オリゴヌクレオチドバーコードおよび／もしくはオリゴヌクレオチドバーコードを作製するために用いられる材料の拡散を介して進入可能な内部）ならびに／またはゲルビーズの外側表面、あるいは本明細書に記載されるいずれか他のマイクロカプセルにカップリング／固定してもよい。カップリング／固定は、化学結合（たとえば、共有結合、イオン結合）または物理的現象（たとえば、ファンデルワールス力、双極子－双極子相互作用など）の任意の形態を介するものであってよい。いくつかの実施形態では、ゲルビーズまたは本明細書に記載する任意の他のマイクロカプセルに対する試薬のカップリング／固定は、たとえば、不安定部分（たとえば、本明細書に記載の化学架橋剤をはじめとする、化学架橋剤）を介するなど、可逆性であってもよい。刺激を適用すると、不安定部分は、切断されて、固定された試薬が遊離されうる。いくつかの事例では、不安定部分は、ジスルフィド結合である。たとえば、オリゴヌクレオチドバーコードが、ジスルフィド結合を介してゲルビーズに固定されている場合、ジスルフィド結合を還元剤に曝露することにより、ジスルフィド結合を切断して、オリゴヌクレオチドバーコードをビーズから遊離させることができる。不安定部分は、ゲルビーズもしくはマイクロカプセルの一部として、試薬もしくは被検物質をゲルビーズもしくはマイクロカプセルに連結する化学リンカーの一部として、および／または試薬もしくは被検物質の一部として含有させてもよい。

いくつかの実施形態では、ゲルビーズは、限定するものではないが、以下のものをはじめとする、極めて多様なポリマーを含みうる：ポリマー、熱感受性ポリマー、感光性ポリマー、磁気ポリマー、ｐＨ感受性ポリマー、塩感受性ポリマー、化学的感受性ポリマー、高分子電解質、多糖、ペプチド、タンパク質、および／またはプラスチック。ポリマーとしては、限定するものではないが、ポリ（Ｎ－イソプロピルアクリルアミド）（ＰＮＩＰＡＡｍ）、ポリ（スルホン酸スチレン）（ＰＳＳ）、ポリ（アリルアミン）（ＰＡＡｍ）、ポリ（アクリル酸）（ＰＡＡ）、ポリ（エチレンイミン）（ＰＥＩ）、ポリ（ジアリルジメチル－塩化アンモニウム）（ＰＤＡＤＭＡＣ）、ポリ（ピロール）（ＰＰｙ）、ポリ（ビニルピロリドン）（ＰＶＰＯＮ）、ポリ（ビニルピリジン）（ＰＶＰ）、ポリ（メタクリル酸）（ＰＭＡＡ）、ポリ（メチルメタクリレート）（ＰＭＭＡ）、ポリスチレン（ＰＳ）、ポリ（テトラヒドロフラン）（ＰＴＨＦ）、ポリ（フタルアルデヒド）（ＰＴＨＦ）、ポリ（ヘキシルビオロゲン）（ＰＨＶ）、ポリ（Ｌ－リシン）（ＰＬＬ）、ポリ（Ｌ－アルギニン）（ＰＡＲＧ）、乳酸－グリコール酸共重合体（ＰＬＧＡ）などの材料が挙げられる。

多数の化学的刺激を用いて、ビーズの破壊または分解をトリガーすることができる。これらの化学的変化の例として、限定するものではないが、ビーズ壁に対するｐＨ媒介による変化、架橋の化学的切断を介したビーズ壁の崩壊、ビーズ壁の解重合トリガー、およびビーズ壁スイッチング反応が挙げられる。また、バルク変化を用いて、ビーズの破壊をトリガーしてもよい。

また、さまざまな刺激を介したマイクロカプセルに対するバルクまたは物理的変化も、試薬を放出するようにカプセルを設計する上で多くの利点をもたらす。バルクまたは物理的変化は、巨視的規模で起こり、その際、ビーズ破断は、刺激により誘導された機械物理的力の結果による。こうしたプロセスとしては、限定するものではないが、圧力誘導破断、ビーズ壁溶融、またはビーズ壁の多孔性変化が挙げられる。

生物学的刺激を用いて、ビーズの破壊または分解をトリガーすることもできる。概して、生物学的トリガーは、化学的トリガーと類似しているが、多くの例では、生体分子、または酵素、ペプチド、糖類、核酸などの生存系に一般的に存在する分子が使用される。たとえば、ビーズは、特定のプロテアーゼによる切断に感受性のペプチド架橋を有するポリマーを含んでもよい。さらに具体的には、一例は、ＧＦＬＧＫペプチド架橋を含むマイクロカプセルを含んでもよい。プロテアーゼカテプシンＢなどの生物学的トリガーを加えると、シェルウェルのペプチド架橋が切断されて、ビーズの内容物が放出される。他の事例では、プロテアーゼを熱活性化してもよい。別の例では、ビーズは、セルロースを含有するシェル壁を含む。加水分解性酵素キトサンの添加は、セルロース結合の切断、シェル壁の解重合、およびその内部内容物の放出のための生物学的トリガーとして役立つ。

さらに、ビーズは、熱刺激の適用時にその内容物を放出するように誘導することもできる。温度の変化は、ビーズにさまざまな変化を引き起こし得る。熱の変化は、ビーズ壁が崩壊するように、ビーズの溶融を引き起こし得る。別の事例では、熱は、ビーズが破断または破裂するように、ビーズの内部成分の内圧を高めうる。また別の事例では、熱は、ビーズを収縮した脱水状態に変形させうる。さらに、熱は、ビーズの壁内の熱感受性ポリマーに作用して、ビーズの破壊を引き起こしうる。

マイクロカプセルのビーズ壁に磁気ナノ粒子を含有させると、ビーズの破断トリガー、ならびに多数のビーズの誘導を可能にしうる。本開示のデバイスは、いずれの目的で磁気ビーズを含んでもよい。一例では、高分子電解質含有ビーズにＦｅ₃Ｏ₄ナノ粒子を組み込むと、振動磁界刺激の存在下で破断がトリガーされる。

ビーズはまた、電気刺激の結果として破壊または分解することもできる。前のセクションに記載した磁気粒子と同様に、電気感受性ビーズも、ビーズの破断トリガー、ならびに電界下でのアラインメント、導電性またはレドックス反応などの他の機能を可能にする。一例では、電気感受性材料を含有するビーズは、内部試薬の放出を制御することができるように、電界下でアラインメントされる。他の例では、電界は、ビーズ壁自体の内部でレドックス反応を誘導することもでき、これにより、多孔性が増加しうる。

また、光刺激を用いて、ビーズを破壊することもできる。多数の光トリガーが考えられ、特定の範囲の波長の光子を吸収することができるナノ粒子および発色団などのさまざまな分子を用いるシステムが挙げられる。たとえば、金属酸化物コーティングをカプセルトリガーとして用いることができる。ＳｉＯ₂でコーティングされた高分子電解質カプセルのＵＶ照射は、ビーズ壁の崩壊を引き起こしうる。また別の例では、アゾベンゼン基などのフォトスイッチ材料をビーズ壁に組み込んでもよい。ＵＶまたは可視光線を適用すると、こうした化学物質は、光子の吸収時に、可逆的シス－トランス異性化を被る。この態様では、光子スイッチの組込みによって、光トリガー適用の際に、崩壊するか、またはより多孔性になりうるビーズ壁が得られる。

たとえば、図２に示す確率バーコードの非限定的な例において、ブロック２０８でのマイクロウェルアレイの複数のマイクロウェルに、単一細胞などの細胞を導入した後、ビーズをブロック２１２のマイクロウェルアレイの複数のマイクロウェルに導入することができる。各マイクロウェルは、１つのビーズを含みうる。ビーズは、複数の確率バーコードを含みうる。確率バーコードは、ビーズに結合した５’アミン領域を含みうる。確率バーコードは、ユニバーサル標識、分子標識、標的結合領域、またはそれらの任意の組合せを含んでもよい。

本明細書に開示する確率バーコードは、固体担体（たとえば、ビーズ）に関連（たとえば、結合）させることができる。固体担体と結合した確率バーコードは、各々、ユニーク配列を有する少なくとも１００または１０００の分子標識を含む群から選択される分子標識を含みうる。いくつかの実施形態では、固体担体と結合した異なる確率バーコードは、異なる配列の分子標識を含んでもよい。いくつかの実施形態では、固体担体と結合した、特定のパーセンテージの確率バーコードが、同じ細胞標識を含む。たとえば、そのパーセンテージは、６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、１００％、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値でありうる。別の例として、パーセンテージは、少なくとも、または多くとも６０％、７０％、８０％、８５％、９０％、９５％、９７％、９９％、もしくは１００％でありうる。いくつかの実施形態では、固体担体と結合した確率バーコードは、同じ細胞標識を含みうる。異なる固体担体と結合した確率バーコードは、ユニーク配列を有する少なくとも１００または１０００の細胞標識を含む群から選択される、異なる細胞標識を含んでもよい。

本明細書に開示する確率バーコードは、固体担体（たとえば、ビーズ）に関連（たとえば、結合）させることができる。いくつかの実施形態では、サンプル中の複数の標的に確率バーコードを付ける工程は、複数の確率バーコードと結合した複数の合成粒子を含む固体担体を用いて、実施することができる。いくつかの実施形態では、固体担体は、複数の確率バーコードと結合した複数の合成粒子を含みうる。さまざまな固体担体上の複数の確率バーコードの空間標識は、少なくとも１ヌクレオチド異なりうる。固体担体は、たとえば、２次元または３次元の複数の確率バーコードを含みうる。合成粒子は、ビーズであってよい。ビーズは、シリカゲルビーズ、調節多孔性ガラスビーズ、磁気ビーズ、ダイナビーズ、セファデックス／セファロースビーズ、セルロースビーズ、ポリスチレンビーズ、またはそれらの任意の組合せであってよい。固体担体は、ポリマー、マトリックス、ヒドロゲル、ニードルアレイデバイス、抗体、またはそれらの任意の組合せを含みうる。いくつかの実施形態では、固体担体は、浮動性であってよい。いくつかの実施形態では、固体担体は、半固体または固体アレイに埋め込むことができる。確率バーコードは、固体担体と結合していなくてもよい。確率バーコードは、個別のヌクレオチドであってもよい。確率バーコードは、基材と結合してもよい。

本明細書で使用される場合、「テザー連結」、「結合」、および「固定」という用語は、同義的に用いられて、確率バーコードを固体担体に結合するための共有結合または非共有結合の手段を意味しうる。さまざまな異なるいずれの固体担体も、プレ合成された確率バーコードを結合するための、または確率バーコードをｉｎｓｉｔｕ固相合成するための固体担体として使用することができる。

いくつかの実施形態では、固体担体はビーズである。ビーズは、核酸を（たとえば共有結合または非共有結合で）固定することができる、固体、多孔性、もしくは中空のスフェア、ボール、ベアリング、シリンダー、または他の類似の構成体の１つ以上のタイプを包含しうる。ビーズは、たとえば、プラスチック、セラミック、金属、もしくは高分子材料、またはそれらの任意の組合せから構成されうる。ビーズは、離散粒子であるか、またはそれを含んでもよく、離散粒子は、球状（たとえばマイクロスフェア）であるか、または非球状もしくは不規則形状、たとえば、立方体形、直方体形、角錐形、円柱形、円錐形、扁球形、ディスク形などを有する。いくつかの実施形態では、ビーズは、非球状の形状でありうる。

ビーズは、限定されるものではないが、常磁性材料（たとえば、マグネシウム、モリブデン、リチウム、およびタンタル）、超常磁性材料（たとえば、フェライト（Ｆｅ₃Ｏ₄、マグネタイト）ナノ粒子）、強磁性材料（たとえば、鉄、ニッケル、コバルト、それらのいくつかの合金、およびいくつかの希土類金属化合物）、セラミック、プラスチック、ガラス、ポリスチレン、シリカ、メチルスチレン、アクリルポリマー、チタン、ラテックス、セファロース、アガロース、ヒドロゲル、ポリマー、セルロース、ナイロン、ならびにそれらの任意の組合せなどのさまざまな材料を含みうる。

いくつかの実施形態では、ビーズ（たとえば、確率バーコードが結合されたビーズ）は、ヒドロゲルビーズである。いくつかの実施形態では、ビーズは、ヒドロゲルを含む。

本明細書に開示するいくつかの実施形態は、１つ以上の粒子（たとえば、ビーズ）を含む。粒子は各々、複数のオリゴヌクレオチド（たとえば、確率バーコード）を含みうる。複数のオリゴヌクレオチドは各々、分子標識配列、細胞標識配列、および標的結合領域（たとえば、オリゴｄＴ配列、遺伝子特異的配列、ランダム多量体、またはそれらの組合せ）を含みうる。複数のオリゴヌクレオチドの各々の細胞標識配列は、同じであってもよい。異なる粒子上のオリゴヌクレオチドの細胞標識配列は、異なる粒子上のオリゴヌクレオチドを同定できるように、相違してもよい。異なる細胞標識配列の数は、異なる実装において相違してもよい。いくつかの実施形態では、細胞標識配列の数は、１０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００、１０⁶、１０⁷、１０⁸、１０⁹、またはこれらの値のいずれか２つの間の数もしくは範囲、またはそれ以上、あるいはそうした近似値でありうる。いくつかの実施形態では、細胞標識配列の数は、少なくとも、または多くとも１０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００、１０⁶、１０⁷、１０⁸、もしくは１０⁹でありうる。いくつかの実施形態では、複数の粒子の１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００以下、またはそれ以上が、同じ細胞配列のオリゴヌクレオチドを含む。いくつかの実施形態では、同じ細胞配列のオリゴヌクレオチドを含む複数の粒子は、多くとも０．１％、０．２％、０．３％、０．４％、０．５％、０．７％、０．８％、０．９％、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％またはそれ以上であってよい。いくつかの実施形態では、複数の粒子のいずれも同じ細胞標識配列を含まない。

各粒子の複数のオリゴヌクレオチドは、異なる分子標識配列を含みうる。いくつかの実施形態では、分子標識配列の数は、１０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００、１０⁶、１０⁷、１０⁸、１０⁹、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値でありうる。分子標識配列の数は、少なくとも、または多くとも１０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００、１０⁶、１０⁷、１０⁸、もしくは１０⁹でありうる。たとえば、複数のオリゴヌクレオチドの少なくとも１００は、異なる分子標識配列を含む。別の例として、単一粒子において、複数のオリゴヌクレオチドの少なくとも１００、５００、１０００、５０００、１００００、１５０００、２００００、５００００、これらの値のいずれか２つの間の数もしくは範囲、またはそれ以上が、異なる分子標識配列を含む。いくつかの実施形態は、確率バーコードを含む複数の粒子を提供する。いくつかの実施形態では、標的の発生数（またはコピーもしくは数）と異なる分子標識配列の比は、少なくとも、１：１、１：２、１：３、１：４、１：５、１：６、１：７、１：８、１：９、１：１０、１：１１、１：１２、１：１３、１：１４、１：１５、１：１６、１：１７、１：１８、１：１９、１：２０、１：３０、１：４０、１：５０、１：６０、１：７０、１：８０、１：９０、またはそれ以上でありうる。いくつかの実施形態では、複数のオリゴヌクレオチドの各々は、サンプル標識、ユニバーサル標識、またはその両方をさらに含む。粒子は、たとえば、ナノ粒子またはミクロ粒子であってよい。

ビーズのサイズは、変動しうる。たとえば、ビーズの直径は、０．１マイクロメートル～５０マイクロメートルの範囲であってよい。いくつかの実施形態では、ビーズの直径は、０．１、０．５、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０マイクロメートル、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値でありうる。

ビーズの直径は、基材のウェルの直径と関連させることができる。いくつかの実施形態では、ビーズの直径は、ウェルの直径よりも、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、１００％、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値だけ長いもしくは短い長さであってよい。ビーズの直径は、細胞（たとえば、基材のウェルに閉じ込められた単一細胞）の直径に関連させることができる。いくつかの実施形態では、ビーズの直径は、細胞の直径よりも、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、１００％、２００％、２５０％、３００％、またはこれらの値のいずれか２つの間の数もしくは範囲、あるいはそうした近似値だけ長いもしくは短い長さであってもよい。

ビーズは、基材への埋込みおよび／または結合が可能である。ビーズは、ゲル、ヒドロゲル、ポリマー、および／またはマトリックスへの埋込みおよび／または結合が可能である。基材（たとえば、ゲル、マトリックス、スキャフォールド、またはポリマー）内のビーズの空間位置は、位置アドレスとして機能可能なビーズ上の確率バーコードに存在する空間標識を用いて同定可能である。

ビーズの例としては、限定されるものではないが、ストレプトアビジンビーズ、アガロースビーズ、磁気ビーズ、Ｄｙｎａｂｅａｄ（登録商標）、ＭＡＣＳ（登録商標）マイクロビーズ、抗体コンジュゲートビーズ（たとえば、抗免疫グロブリンマイクロビーズ）、プロテインＡコンジュゲートビーズ、プロテインＧコンジュゲートビーズ、プロテインＡ／Ｇコンジュゲートビーズ、プロテインＬコンジュゲートビーズ、オリゴ（ｄＴ）コンジュゲートビーズ、シリカビーズ、シリカ様ビーズ、抗ビオチンマイクロビーズ、抗蛍光色素マイクロビーズ、およびＢｃＭａｇ（商標）カルボキシル末端磁気ビーズが挙げられうる。

ビーズは、１つの蛍光光学チャネルまたは複数の光学チャネルで蛍光を発するように量子ドットまたは蛍光色素への関連付け（たとえばそれらによる含浸）が可能である。ビーズは、常磁性または強磁性にするために酸化鉄または酸化クロムへの関連付けが可能である。ビーズは同定可能でありうる。たとえば、ビーズは、カメラを用いてイメージング可能である。ビーズは、ビーズに関連付けられた検出可能なコードを有しうる。たとえば、ビーズは、確率バーコードを含みうる。ビーズは、たとえば、有機または無機の溶液中での膨潤に起因してサイズ変化しうる。ビーズは疎水性でありうる。ビーズは親水性でありうる。ビーズは生体適合性でありうる。

固体担体（たとえばビーズ）は可視化可能である。固体担体は可視化タグ（たとえば蛍光色素）を含みうる。固体担体（たとえばビーズ）は識別子（たとえば数）でエッチング可能である。識別子はビーズのイメージングにより可視化可能である。

基材およびマイクロウェルアレイ
本明細書で使用される場合、基材はあるタイプの固体担体を意味しうる。基材は、本開示の確率バーコードを含みうる固体担体を意味しうる。基材は、たとえば、複数のマイクロウェルを含みうる。たとえば、基材は、２つ以上のマイクロウェルを含むウェルアレイであってよい。いくつかの実施形態では、マイクロウェルは、規定の体積の小さい反応チャンバーを含みうる。いくつかの実施形態では、マイクロウェルは、１つ以上の細胞を閉じ込めることができる。いくつかの実施形態では、マイクロウェルは、１つの細胞のみを閉じ込めることができる。いくつかの実施形態では、マイクロウェルは、１つ以上の固体担体を閉じ込めることができる。いくつかの実施形態では、マイクロウェルは、１つの固体担体のみを閉じ込めることができる。いくつかの実施形態では、マイクロウェルは、単一細胞および単一固体担体（たとえば、ビーズ）を閉じ込める。

確率バーコーディングの方法
本開示は、身体サンプル（たとえば、組織、器官、腫瘍、細胞）における識別可能な位置の識別可能な標的の数を推定する方法を提供する。本方法は、サンプルと接近させて確率バーコードを配置する工程と、サンプルを溶解させる工程と、識別可能な標的を確率バーコードと関連させる工程と、標的を増幅する工程および／または標的をディジタルカウントする工程と、を含みうる。本方法は、さらに、確率バーコード上の空間標識から得られた情報を分析する工程および／または視覚化する工程をさらに含みうる。いくつかの実施形態では、一方法は、サンプル中の複数の標識を視覚化する工程を含む。サンプルのマップに複数の標的をマッピングする工程は、サンプルの二次元マップまたは三次元マップの作製を含みうる。二次元マップまたは三次元マップは、サンプル中の複数の標的に確率バーコードを付ける前または後に作製することができる。サンプル中の複数の標的を視覚化する工程は、サンプルのマップに複数の標的をマッピングする工程を含みうる。サンプルのマップに複数の標的をマッピングする工程は、サンプルの二次元マップまたは三次元マップを作製するステップを含みうる。二次元マップおよび三次元マップは、サンプル中の複数の標的に確率バーコードを付ける前または後に作製することができる。いくつかの実施形態では、二次元マップおよび三次元マップは、サンプルを溶解させる前または後に作製することができる。二次元マップまたは三次元マップの作製前または後にサンプルを溶解させる工程は、サンプルを加熱する工程と、サンプルを洗剤と接触させる工程と、サンプルのｐＨを変化させる工程、またはそれらの任意の組合せを含みうる。

いくつかの実施形態では、複数の標的に確率バーコードを付ける工程は、複数の確率バーコードを複数の標的とハイブリダイズさせて、確率バーコード付き標的を作製する工程を含む。複数の標的に確率バーコードを付ける工程は、確率バーコード付き標的のインデックス付きライブラリーを作製する工程を含みうる。確率バーコード付き標的のインデックス付きライブラリーを作製する工程は、複数の確率バーコードを含む固体担体を用いて実施することができる。

サンプルと確率バーコードの接触
本開示は、サンプル（たとえば、細胞）を本開示の基材と接触させる方法を提供する。たとえば、細胞、器官、または組織薄片を含むサンプルを確率バーコードと接触させることができる。たとえば、重力流によって、細胞を接触させることができ、その場合、細胞は沈殿して単層を形成しうる。サンプルは、組織薄片であってよい。薄片を基材の上に配置することができる。サンプルは、一次元（たとえば、平面表面を形成する）であってよい。サンプル（たとえば、細胞）は、たとえば、基材上に細胞を増殖させる／培養することによって、基材全体に広げることができる。

確率バーコードが標的と近接して位置すると、標的は、確率バーコードとハイブリダイズしうる。識別可能な標的の各々が、本開示の識別可能な確率バーコードと結合し得るように、確率バーコードを非枯渇的比率で接触させることができる。標的と確率バーコード同士の効率的な結合を確実にするために、標的を確率バーコードと架橋させることができる。

細胞溶解
細胞および確率バーコードの分配後、細胞は標的分子を遊離するように溶解可能である。細胞溶解は、さまざまな手段のいずれかにより、たとえば、化学的もしくは生化学的手段により、浸透圧ショックにより、または熱溶解、機械溶解、もしくは光学溶解により達成可能である。細胞は、界面活性剤（たとえば、ＳＤＳ、Ｌｉドデシルスルフェート、ＴｒｉｔｏｎＸ－１００、Ｔｗｅｅｎ－２０、もしくはＮＰ－４０）、有機溶媒（たとえば、メタノールもしくはアセトン）、または消化酵素（たとえば、プロテイナーゼＫ、ペプシンまたはトリプシン）、あるいはそれらの任意の組合せを含む細胞溶解緩衝液の添加により溶解可能である。標的と確率バーコードとの関連付けを向上させるために、たとえば、温度の低下および／またはライセートの粘度の増加により、標的分子の拡散速度を変化させることが可能である。

いくつかの実施形態では、サンプルは濾紙を用いて溶解可能である。濾紙は濾紙の上を溶解緩衝液で浸漬可能である。濾紙は、サンプルの溶解および基材へのサンプルの標的のハイブリダイゼーションを促進可能な加圧でサンプルに適用可能である。

いくつかの実施形態では、溶解は、機械溶解、熱溶解、光学溶解、および／または化学溶解により行うことが可能である。化学溶解は、プロテイナーゼＫ、ペプシン、トリプシンなどの消化酵素の使用を含みうる。溶解は、基材への溶解緩衝液の添加により行うことが可能である。溶解緩衝液はトリスＨＣｌを含みうる。溶解緩衝液は、少なくとも約０．０１、０．０５、０．１、０．５、もしくは１Ｍまたはそれ以上のトリスＨＣｌを含みうる。溶解緩衝液は、多くとも約０．０１、０．０５、０．１、０．５、もしくは１Ｍまたはそれ以上のトリスＨＣｌを含みうる。溶解緩衝液は約０．１ＭトリスＨＣｌを含みうる。溶解緩衝液のｐＨは、少なくとも約１、２、３、４、５、６、７、８、９、もしくは１０またはそれ以上でありうる。溶解緩衝液のｐＨは、多くとも約１、２、３、４、５、６、７、８、９、もしくは１０またはそれ以上でありうる。いくつかの実施形態では、溶解緩衝液のｐＨは約７．５である。溶解緩衝液は塩（たとえばＬｉＣｌ）を含みうる。溶解緩衝液中の塩の濃度は、少なくとも約０．１、０．５、もしくは１Ｍまたはそれ以上でありうる。溶解緩衝液中の塩の濃度は、多くとも約０．１、０．５、もしくは１Ｍまたはそれ以上でありうる。いくつかの実施形態では、溶解緩衝液中の塩の濃度は約０．５Ｍである。溶解緩衝液は、界面活性剤（たとえば、ＳＤＳ、Ｌｉドデシルスルフェート、トリトンＸ、トゥイーン、ＮＰ－４０）を含みうる。溶解緩衝液中の界面活性剤の濃度は、少なくとも約０．０００１％、０．０００５％、０．００１％、０．００５％、０．０１％、０．０５％、０．１％、０．５％、１％、２％、３％、４％、５％、６％、もしくは７％またはそれ以上でありうる。溶解緩衝液中の界面活性剤の濃度は、多くとも約０．０００１％、０．０００５％、０．００１％、０．００５％、０．０１％、０．０５％、０．１％、０．５％、１％、２％、３％、４％、５％、６％、もしくは７％またはそれ以上でありうる。いくつかの実施形態では、溶解緩衝液中の界面活性剤の濃度は約１％Ｌｉドデシルスルフェートである。本方法で溶解に使用される時間は、使用される界面活性剤の量に依存性しうる。いくつかの実施形態では、界面活性剤を多く使用するほど、溶解に必要な時間は短くなる。溶解緩衝液はキレート化剤（たとえば、ＥＤＴＡ、ＥＧＴＡ）を含みうる。溶解緩衝液中のキレート化剤の濃度は、少なくとも約１、５、１０、１５、２０、２５、もしくは３０ｍＭまたはそれ以上でありうる。溶解緩衝液中のキレート化剤の濃度は、多くとも約１、５、１０、１５、２０、２５、もしくは３０ｍＭまたはそれ以上でありうる。いくつかの実施形態では、溶解緩衝液中のキレート化剤の濃度は約１０ｍＭである。溶解緩衝液は還元試薬（たとえば、βメルカプトエタノール、ＤＴＴ）を含みうる。溶解緩衝液中の還元試薬の濃度は少なくとも約１、５、１０、１５、２０ｍＭまたはそれ以上でありうる。溶解緩衝液中の還元試薬の濃度は多くとも約１、５、１０、１５、２０ｍＭまたはそれ以上でありうる。いくつかの実施形態では、溶解緩衝液中の還元試薬の濃度は約５ｍＭである。いくつかの実施形態では、溶解緩衝液は、約０．１ＭのトリスＨＣｌ、約ｐＨ７．５、約０．５ＭＬｉＣｌ、約１％リチウムドデシルスルフェート、約１０ｍＭＥＤＴＡ、および約５ｍＭＤＴＴを含みうる。

溶解は、約４、１０、１５、２０、２５、または３０℃の温度で行うことが可能である。溶解は、約１、５、１０、１５、もしくは２０分間またはそれ以上行うことが可能である。溶解細胞は、少なくとも約１０００００、２０００００、３０００００、４０００００、５０００００、６０００００、もしくは７０００００標的核酸分子またはそれ以上を含みうる。溶解細胞は、多くとも約１０００００、２０００００、３０００００、４０００００、５０００００、６０００００、もしくは７０００００標的核酸分子またはそれ以上を含みうる。

標的核酸分子への確率バーコードの結合
細胞の溶解およびそれからの核酸分子の放出の後、核酸分子は、共局在化された固体担体の確率バーコードにランダムに関連付けすることができる。関連付けは、標的核酸分子の相補的部分への確率バーコードの標的認識領域のハイブリダイゼーションを含みうる（たとえば、確率バーコードのオリゴ（ｄＴ）は、標的のポリ（Ａ）テールと相互作用可能である）。ハイブリダイゼーションに使用されるアッセイ条件（たとえば、緩衝液ｐＨ、イオン強度、温度など）は、特定の安定なハイブリッドの形成を促進するように選択可能である。いくつかの実施形態では、溶解した細胞から放出された核酸分子は、基材上の複数のプローブに関連付けする（たとえば、基板上のプローブとハイブリダイズする）ことができる。プローブが、オリゴ（ｄＴ）を含むとき、ｍＲＮＡ分子は、プローブにハイブリダイズして、逆転写されうる。オリゴヌクレオチドのオリゴ（ｄＴ）部分は、ｃＤＮＡ分子の第１鎖合成のためのプライマーとして作用しうる。たとえば、図２、ブロック２１６に示す確率バーコードの非限定的な例において、ｍＲＮＡ分子は、ビーズ上の確率バーコードをハイブリダイズすることができる。たとえば、一本鎖ヌクレオチド断片は、確率バーコードの標的結合領域にハイブリダイズすることができる。

結合は、確率バーコードの標的認識領域と標的核酸分子の一部とのライゲーションをさらに含みうる。たとえば、標的結合領域は、制限部位オーバーハング（たとえば、ＥｃｏＲＩ付着末端オーバーハング）への特異的ハイブリダイゼーションが可能でありうる核酸配列を含みうる。アッセイ手順は、制限部位オーバーハングを生成するために制限酵素（たとえばＥｃｏＲＩ）で標的核酸を処置する工程をさらに含みうる。次いで、確率バーコードは、制限部位オーバーハングに相補的な配列を含む任意の核酸分子にライゲートしうる。リガーゼ（たとえばＴ４ＤＮＡリガーゼ）は２つの断片を連結するために使用しうる。

たとえば、図２、ブロック２２０に図示する確率バーコードの非限定的な例では、複数の細胞（または複数のサンプル）からの標識標的（たとえば、標的－バーコード分子）は、続いて、たとえば、チューブ中にプールすることができる。たとえば、確率バーコードおよび／または標的－バーコード分子が結合したビーズを回収することにより、標識標的をプールすることができる。

結合した標的－バーコード分子の固体担体ベースのコレクションの回収は、磁気ビーズおよび外部印加磁界の使用により実現しうる。標的－バーコード分子をプールした後、すべてのさらなる処理を単一反応槽内で進行させることができる。さらなる処理は、たとえば、逆転写反応、増幅反応、切断反応、解離反応、および／または核酸伸長反応を含みうる。さらなる処理反応は、マイクロウェル内で、すなわち、複数の細胞の標識標的核酸分子を最初にプールすることなく、実施することができる。

逆転写
本開示は、（たとえば、図２のブロック２２４で）逆転写を用いて確率標的－バーコードコンジュゲートを生成する方法を提供する。確率標的－バーコードコンジュゲートは、確率バーコードと標的核酸の全部または一部の相補的配列と（すなわち、確率バーコード付きｃＤＮＡ分子）を含みうる。関連付けられたＲＮＡ分子の逆転写は、逆転写酵素と共に逆転写プライマーを添加することによって起こりうる。逆転写プライマーは、オリゴ（ｄＴ）プライマー、ランダムヘキサヌクレオチドプライマー、または標的特異的オリゴヌクレオチドプライマーでありうる。オリゴ（ｄＴ）プライマーは、１２～１８ヌクレオチド長、または概ねそうしたヌクレオチド長であってよく、哺乳動物ｍＲＮＡの３’末端の内因性ポリ（Ａ）テールに結合することができる。ランダムヘキサヌクレオチドプライマーは、さまざまな相補的部位でｍＲＮＡと結合しうる。標的特異的オリゴヌクレオチドプライマーは、典型的には対象のｍＲＮＡを選択的にプライミングする。

いくつかの実施形態では標識ＲＮＡ分子の逆転写は、逆転写プライマーの添加によって起こりうる。いくつかの実施形態では、逆転写プライマーは、オリゴ（ｄＴ）プライマー、ランダムヘキサヌクレオチドプライマー、または標的特異的オリゴヌクレオチドプライマーである。一般に、オリゴ（ｄＴ）プライマーは、１２～１８ヌクレオチド長であり、哺乳動物ｍＲＮＡの３’末端の内因性ポリ（Ａ）＋テールに結合する。ランダムヘキサヌクレオチドプライマーは、さまざまな相補的部位でｍＲＮＡと結合しうる。標的特異的オリゴヌクレオチドプライマーは、典型的には対象のｍＲＮＡを選択的にプライミングする。

逆転写は、繰返し行うことにより複数の標識ｃＤＮＡ分子を生成可能である。本明細書に開示される方法は、少なくとも約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０回の逆転写反応を行う工程を含みうる。本方法は、少なくとも約２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、または１００回の逆転写反応を行う工程を含みうる。

増幅
核酸増幅反応（たとえば、図２のブロック２２８で）は、標識標的核酸分子の複数のコピーを生成するために１回以上実施することができる。増幅は、複数の標的核酸配列が同時に増幅される、多重方式で実施してよい。増幅反応は、核酸分子にシーケンシングアダプターを付加するために使用することができる。増幅反応は、存在するのであれば、サンプル標識の少なくとも一部を増幅する工程を含みうる。増幅反応は、細胞および／または分子標識の少なくとも一部を増幅する工程を含みうる。増幅反応は、サンプルタグ、細胞標識、空間標識、分子標識、標的核酸、またはそれらの組合せの少なくとも一部を増幅する工程を含みうる。増幅反応は、複数の核酸の０．５％、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９７％、１００％、またはこれらの値のいずれか２つの間の範囲もしくは数を増幅する工程を含みうる。本方法は、サンプル標識、細胞標識、空間標識、および／または分子標識を含む標的－バーコード分子のｃＤＮＡコピーを１つ以上生成するために、ｃＤＮＡ合成反応を１回以上行う工程をさらに含みうる。

いくつかの実施形態では、ポリメラーゼ連鎖反応（ＰＣＲ）を用いて、増幅を実施することができる。本明細書で用いられる場合、ＰＣＲとは、ＤＮＡの相補鎖の同時プライマー伸長により特定のＤＮＡ配列のｉｎｖｉｔｒｏ増幅を行う反応を意味しうる。本明細書で用いられる場合、ＰＣＲは、その反応の派生形、たとえば、限定されるものではないが、ＲＴ－ＰＣＲ、リアルタイムＰＣＲ、ネステッドＰＣＲ、定量ＰＣＲ、多重ＰＣＲ、ディジタルＰＣＲ、およびアセンブリーＰＣＲを包含しうる。

標識核酸の増幅は、非ＰＣＲベースの方法を含みうる。非ＰＣＲベースの方法の例としては、限定されるものではないが、多重置換増幅（ＭＤＡ）、転写媒介増幅（ＴＭＡ）、核酸配列ベースの増幅（ＮＡＳＢＡ）、鎖置換増幅（ＳＤＡ）、リアルタイムＳＤＡ、ローリングサークル増幅、またはサークル－サークル増幅が挙げられる。他の非ＰＣＲベースの増幅方法としては、ＤＮＡもしくはＲＮＡ標的を増幅するためのＤＮＡ依存性ＲＮＡポリメラーゼ駆動ＲＮＡ転写増幅またはＲＮＡ指向ＤＮＡ合成および転写の多重サイクル、リガーゼ連鎖反応（ＬＣＲ）、およびＱβレプリカーゼ（Ｑβ）法、パリンドロームプローブの使用、鎖置換増幅、制限エンドヌクレアーゼを用いたオリゴヌクレオチド駆動増幅、プライマーが核酸配列にハイブリダイズされかつ得られた二本鎖が伸長反応および増幅の前に切断される増幅方法、５’エキソヌクレアーゼ活性の欠如した核酸ポリメラーゼを用いた鎖置換増幅、ローリングサークル増幅、および分岐伸長増幅（ＲＡＭ）が挙げられる。いくつかの実施形態では、増幅は、環化転写物を生成しうる。

いくつかの実施形態では、本明細書に開示する方法は、確率標識アンプリコンを生成するために標識核酸（たとえば、標識ＲＮＡ、標識ＤＮＡ、標識ｃＤＮＡ）上でポリメラーゼ連鎖反応を実施する工程をさらに含む。標識アンプリコンは、二本鎖分子であってよい。二本鎖分子は、二本鎖ＲＮＡ分子、二本鎖ＤＮＡ分子、またはＤＮＡ分子にハイブリダイズされたＲＮＡ分子を含みうる。二本鎖分子の一方または両方の鎖は、サンプル標識、空間標識、細胞標識、および／または分子標識を含みうる。確率標識アンプリコンは、一本鎖分子でありうる。一本鎖分子は、ＤＮＡ、ＲＮＡ、またはそれらの組合せを含みうる。本開示の核酸は、合成核酸または改変核酸を含みうる。

増幅は、１つ以上の非天然ヌクレオチドの使用を含みうる。非天然ヌクレオチドは、光不安定性またはトリガー性のヌクレオチドを含みうる。非天然ヌクレオチドの例としては、限定されるものではないが、ペプチド核酸（ＰＮＡ）、モルホリノ核酸、およびロックド核酸（ＬＮＡ）、さらにはグリコール核酸（ＧＮＡ）およびトレオース核酸（ＴＮＡ）が挙げられうる。非天然ヌクレオチドは、増幅反応の１サイクル以上に添加することができる。非天然ヌクレオチドの添加は、増幅反応の特定のサイクルまたは時点で産物を同定するために使用しうる。

増幅反応を１回以上行う工程は、１つ以上のプライマーの使用を含みうる。１つ以上のプライマーは、たとえば、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、もしくは１５ヌクレオチドまたはそれ以上を含みうる。１つ以上のプライマーは、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、もしくは１５ヌクレオチドまたはそれ以上を含みうる。１つ以上のプライマーは、１２～１５ヌクレオチド未満を含みうる。１つ以上のプライマーは、複数の確率標識標的の少なくとも一部にアニールしうる。１つ以上のプライマーは、複数の確率標識標的の３’末端または５’末端にアニールしうる。１つ以上のプライマーは、複数の確率標識標的の内部領域にアニールしうる。内部領域は、複数の確率標識標的の３’末端から少なくとも約５０、１００、１５０、２００、２２０、２３０、２４０、２５０、２６０、２７０、２８０、２９０、３００、３１０、３２０、３３０、３４０、３５０、３６０、３７０、３８０、３９０、４００、４１０、４２０、４３０、４４０、４５０、４６０、４７０、４８０、４９０、５００、５１０、５２０、５３０、５４０、５５０、５６０、５７０、５８０、５９０、６００、６５０、７００、７５０、８００、８５０、９００、または１０００ヌクレオチドでありうる。１つ以上のプライマーは、プライマーの一定パネルを含みうる。１つ以上のプライマーは、少なくとも１つ以上のカスタムプライマーを含みうる。１つ以上のプライマーは、少なくとも１つ以上の対照プライマーを含みうる。１つ以上のプライマーは、少なくとも１つ以上の遺伝子特異的プライマーを含みうる。

１つ以上のプライマーは、ユニバーサルプライマーを含みうる。ユニバーサルプライマーは、ユニバーサルプライマー結合部位にアニールしうる。１つ以上のカスタムプライマーは、第１のサンプル標識、第２のサンプル標識、空間標識、細胞標識、分子標識、標的、またはそれらの任意の組合せにアニールしうる。１つ以上のプライマーは、ユニバーサルプライマーおよびカスタムプライマーを含みうる。カスタムプライマーは、１つ以上の標的を増幅するように設計しうる。標的は、１つ以上のサンプル中の全核酸のサブセットを含みうる。標的は、１つ以上のサンプル中の全確率標識標的のサブセットを含みうる。１つ以上のプライマーは、少なくとも９６カスタムプライマーまたはそれ以上を含みうる。１つ以上のプライマーは、少なくとも９６０カスタムプライマーまたはそれ以上を含みうる。１つ以上のプライマーは、少なくとも９６００カスタムプライマーまたはそれ以上を含みうる。１つ以上のカスタムプライマーは、２つ以上の異なる標識核酸にアニールしうる。２つ以上の異なる標識核酸は、１つ以上の遺伝子に相当しうる。

任意の増幅スキームを本開示の方法で使用することができる。たとえば、一スキームでは、第１ラウンドのＰＣＲは、遺伝子特異的プライマーおよびユニバーサルＩｌｌｕｍｉｎａシーケンシングプライマー１配列に対するプライマーを用いて、ビーズに結合された分子を増幅することができる。第２ラウンドのＰＣＲは、Ｉｌｌｕｍｉｎａシーケンシングプライマー２配列がフランキングするネステッド遺伝子特異的プライマーとユニバーサルＩｌｌｕｍｉｎａシーケンシングプライマー１配列に対するプライマーとを用いて第１のＰＣＲ産物を増幅可能である。第３ラウンドのＰＣＲは、Ｐ５およびＰ７とサンプルインデックスを付加して、ＰＣＲ産物をＩｌｌｕｍｉｎａシーケンシングライブラリーにする。１５０ｂｐ×２シーケンシングを用いたシーケンシングは、リード１上の細胞標識および分子標識、リード２上の遺伝子、ならびにインデックス１リード上のサンプルインデックスを明らかにしうる。

いくつかの実施形態では、核酸は、化学切断を用いて基材から除去可能である。たとえば、核酸中に存在する化学基または修飾塩基は、固体担体からのその除去を促進するために使用可能である。たとえば、酵素は、基材から核酸を除去するために使用可能である。たとえば、核酸は、制限エンドヌクレアーゼ消化による基材からの除去が可能である。たとえば、ｄＵＴＰまたはｄｄＵＴＰを含有する核酸のウラシル－ｄ－グリコシラーゼ（ＵＤＧ）処理は、基材から核酸を除去するために使用可能である。たとえば、核酸は、ヌクレオチド切除を行う酵素、たとえば、塩基除去修復酵素、たとえば、脱プリン／脱ピリミジン（ＡＰ）エンドヌクレアーゼを用いて基材から除去可能である。いくつかの実施形態では、核酸は、光切断性基と光とを用いて基材から除去可能である。いくつかの実施形態では、切断性リンカーは、基材から核酸を除去するために使用可能である。たとえば、切断性リンカーは、ビオチン／アビジン、ビオチン／ストレプトアビジン、ビオチン／ニュートラビジン、Ｉｇ－プロテインＡ、光不安定性リンカー、酸または塩基不安定性リンカー基、またはアプタマーの少なくとも１つを含みうる。

プローブが遺伝子特異的である場合、分子は、プローブにハイブリダイズし、逆転写および／または増幅が可能である。いくつかの実施形態では、核酸が合成された後（たとえば、逆転写された後）、増幅が可能である。増幅は、複数の標的核酸配列が同時に増幅される条件で、多重方式で行いうる。増幅は、核酸にシーケンシングアダプターを付加しうる。

いくつかの実施形態では、増幅は、たとえばブリッジ増幅を用いて基材上に行うことが可能である。基材上でオリゴ（ｄＴ）プローブを用いてブリッジ増幅するのに適合していた末端を生成するために、ｃＤＮＡにホモポリマーテールを付加することが可能である。ブリッジ増幅では、テンプレート核酸の３’末端に相補的なプライマーは、固体粒子に共有結合された各ペアの第１のプライマーでありうる。テンプレート核酸を含有するサンプルが粒子に接触して１回の熱サイクルが行われる場合、テンプレート分子は第１のプライマーにアニールし、かつ第１のプライマーはヌクレオチドの付加により順方向に伸長して、テンプレート分子とテンプレートに相補的な新たに形成されたＤＮＡ鎖とからなる二本鎖分子を形成する。次のサイクルの加熱工程では、二本鎖分子は変性されて、粒子からテンプレート分子を放出し、第１のプライマーを介して粒子に結合された相補的ＤＮＡ鎖を残存させる。続くアニーリング・伸長工程のアニーリング段階では、相補鎖は、第１のプライマーから除去された位置の相補鎖のセグメントに相補的な第２のプライマーにハイブリダイズ可能である。このハイブリダイゼーションにより、相補鎖は、共有結合により第１のプライマーにかつハイブリダイゼーションにより第２のプライマーに固定されたブリッジを第１および第２のプライマー間に形成可能である。伸長段階では、第２のプライマーは、同一の反応混合物中にヌクレオチドを添加することにより反対方向に伸長し、それによりブリッジを二本鎖ブリッジに変換可能である。次いで、次のサイクルが開始され、二本鎖ブリッジは変性されて、それぞれ第１および第２のプライマーを介して粒子表面に結合された一方の末端と、それぞれ未結合の状態の他方の末端と、を有する２つの一本鎖核酸分子を与えることが可能である。この第２のサイクルのアニーリング・伸長工程では、各鎖は同一の粒子上のこれまで未使用であったさらなる相補的プライマーにハイブリダイズして新しい一本鎖ブリッジを形成可能である。この時点でハイブリダイズされる２つのこれまで未使用であったプライマーは伸長して２つの新しいブリッジを二本鎖ブリッジに変換可能である。

増幅反応は、複数の核酸の少なくとも１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９７％、または１００％を増幅する工程を含みうる。

標識核酸の増幅は、ＰＣＲベースの方法または非ＰＣＲベースの方法を含みうる。標識核酸の増幅は、標識核酸の指数関数的増幅を含みうる。標識核酸の増幅は、標識核酸の線形増幅を含みうる。増幅は、ポリメラーゼ連鎖反応（ＰＣＲ）により行うことが可能である。ＰＣＲは、ＤＮＡの相補鎖の同時プライマー伸長により特定のＤＮＡ配列のｉｎｖｉｔｒｏ増幅を行う反応を意味しうる。ＰＣＲは、その反応の派生形、たとえば、限定されるものではないが、ＲＴ－ＰＣＲ、リアルタイムＰＣＲ、ネステッドＰＣＲ、定量ＰＣＲ、多重ＰＣＲ、ディジタルＰＣＲ、サプレッションＰＣＲ、セミサプレッシブＰＣＲ、およびアセンブリーＰＣＲを包含しうる。

いくつかの実施形態では、標識核酸の増幅は非ＰＣＲベースの方法を含む。非ＰＣＲベースの方法の例としては、限定されるものではないが、多重置換増幅（ＭＤＡ）、転写媒介増幅（ＴＭＡ）、核酸配列ベースの増幅（ＮＡＳＢＡ）、鎖置換増幅（ＳＤＡ）、リアルタイムＳＤＡ、ローリングサークル増幅、またはサークル－サークル増幅が挙げられる。他の非ＰＣＲベースの増幅方法としては、ＤＮＡもしくはＲＮＡ標的を増幅するためのＤＮＡ依存性ＲＮＡポリメラーゼ駆動ＲＮＡ転写増幅またはＲＮＡ指向ＤＮＡ合成および転写の多重サイクル、リガーゼ連鎖反応（ＬＣＲ）、Ｑβレプリカーゼ（Ｑβ）、パリンドロームプローブの使用、鎖置換増幅、制限エンドヌクレアーゼを用いたオリゴヌクレオチド駆動増幅、プライマーが核酸配列にハイブリダイズされかつ得られた二本鎖が伸長反応および増幅の前に切断される増幅方法、５’エキソヌクレアーゼ活性の欠如した核酸ポリメラーゼを用いた鎖置換増幅、ローリングサークル増幅、および／または分岐伸長増幅（ＲＡＭ）が挙げられる。

いくつかの実施形態では、本明細書に開示される方法は、増幅アンプリコン（たとえば標的）上でネステッドポリメラーゼ連鎖反応を行う工程をさらに含む。アンプリコンは二本鎖分子でありうる。二本鎖分子は、二本鎖ＲＮＡ分子、二本鎖ＤＮＡ分子、またはＤＮＡ分子にハイブリダイズされたＲＮＡ分子を含みうる。二本鎖分子の一方または両方の鎖は、サンプルタグまたは分子識別子標識を含みうる。代替的に、アンプリコンは一本鎖分子でありうる。一本鎖分子は、ＤＮＡ、ＲＮＡ、またはそれらの組合せを含みうる。本発明の核酸は、合成核酸または改変核酸を含みうる。

いくつかの実施形態では、本方法は、多数のアンプリコンを生成するために標識核酸を繰返し増幅する工程を含む。本明細書に開示される方法は、少なくとも約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０回の増幅反応を行う工程を含みうる。代替的に、本方法は、少なくとも約２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、または１００回の増幅反応を行う工程を含む。

増幅工程は、複数の核酸を含む１つ以上のサンプルに１つ以上の対照核酸を添加する工程をさらに含みうる。増幅工程は、複数の核酸に１つ以上の対照核酸を添加する工程をさらに含みうる。対照核酸は、対照標識を含みうる。

増幅は、１つ以上の非天然ヌクレオチドの使用を含みうる。非天然ヌクレオチドは、光不安定性および／またはトリガー性ヌクレオチドを含みうる。非天然ヌクレオチドの例としては、限定されるものではないが、ペプチド核酸（ＰＮＡ）、モルホリノ核酸およびロックド核酸（ＬＮＡ）、さらにはグリコール核酸（ＧＮＡ）およびトレオース核酸（ＴＮＡ）が挙げられる。非天然ヌクレオチドは、増幅反応の１サイクル以上に添加しうる。非天然ヌクレオチドの添加は、増幅反応の特定のサイクルまたは時点で産物を同定するために使用しうる。

増幅反応を１回以上行う工程は、１つ以上のプライマーの使用を含みうる。１つ以上のプライマーは１つ以上のオリゴヌクレオチドを含みうる。１つ以上のオリゴヌクレオチドは少なくとも約７～９ヌクレオチドを含みうる。１つ以上のオリゴヌクレオチドは１２～１５ヌクレオチド未満を含みうる。１つ以上のプライマーは、複数の標識核酸の少なくとも一部にアニールしうる。１つ以上のプライマーは、複数の標識核酸の３’末端および／または５’末端にアニールしうる。１つ以上のプライマーは、複数の標識核酸の内部領域にアニールしうる。内部領域は、複数の標識核酸の３’末端から少なくとも約５０、１００、１５０、２００、２２０、２３０、２４０、２５０、２６０、２７０、２８０、２９０、３００、３１０、３２０、３３０、３４０、３５０、３６０、３７０、３８０、３９０、４００、４１０、４２０、４３０、４４０、４５０、４６０、４７０、４８０、４９０、５００、５１０、５２０、５３０、５４０、５５０、５６０、５７０、５８０、５９０、６００、６５０、７００、７５０、８００、８５０、９００、または１０００ヌクレオチドでありうる。１つ以上のプライマーは、プライマーの一定パネルを含みうる。１つ以上のプライマーは、少なくとも１つ以上のカスタムプライマーを含みうる。１つ以上のプライマーは、少なくとも１つ以上の対照プライマーを含みうる。１つ以上のプライマーは、少なくとも１つ以上のハウスキーピング遺伝子プライマーを含みうる。１つ以上のプライマーは、ユニバーサルプライマーを含みうる。ユニバーサルプライマーは、ユニバーサルプライマー結合部位にアニールしうる。１つ以上のカスタムプライマーは、第１のサンプルタグ、第２のサンプルタグ、分子識別子標識、核酸、またはその産物にアニールしうる。１つ以上のプライマーは、ユニバーサルプライマーおよびカスタムプライマーを含みうる。カスタムプライマー、１つ以上の標的核酸を増幅するように設計しうる。標的核酸は、１つ以上のサンプル中の全核酸のサブセットを含みうる。いくつかの実施形態では、プライマーには、本開示のアレイに結合されたプローブである。

いくつかの実施形態では、サンプル中の複数の標的に確率バーコードを付ける工程は、確率バーコード付き断片の指標インデックスライブラリーを作製する工程をさらに含む。異なる確率バーコードの分子標識は、互いに異なっていてもよい。確率バーコード付き標的の指標インデックスライブラリーを作製する工程は、サンプル中の複数の標的から複数の指標インデックスポリヌクレオチドを作製する工程を含む。たとえば、第１の指標インデックス標的と第２の指標インデックス標的とを含む確率バーコード標的の指標インデックスライブラリーの場合、第１の指標インデックスポリヌクレオチドの標識領域は、第２の指標インデックスポリヌクレオチドの標識領域と、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０ヌクレオチド異なって、概ね、少なくとも、もしくは多くともこうした値、またはこれらの値のいずれか２つの間の数もしくは範囲のヌクレオチド異なってもよい。いくつかの実施形態では、確率バーコード付き標的の指標インデックスライブラリーを作製する工程は、ポリ（Ｔ）領域および標識領域などの複数のオリゴヌクレオチドと、複数の標識、たとえば、ｍＲＮＡ分子を接触させる工程と；各々がｃＤＮＡ領域および標識領域を含む一本鎖標識ｃＤＮＡ分子を生成するために、逆転写酵素を用いて、第１鎖合成を実施する工程と、を含み、ここで、複数の標的は、異なる配列の少なくとも２つのｍＲＮＡ分子を含み、複数のオリゴヌクレオチドは、異なる配列の少なくとも２つのオリゴヌクレオチドを含む。確率バーコード付き標的の指標インデックスライブラリーを作製する工程は、さらに、二本鎖標識ｃＤＮＡ分子を生成するために、一本鎖標識ｃＤＮＡ分子を増幅する工程と；標識アンプリコンを生成するために、二本鎖標識ｃＤＮＡ分子上でネステッドＰＣＲを実施する工程と、を含む。いくつかの実施形態では、本方法は、アダプター－標識アンプリコンを作製する工程を含みうる。

確率バーコーディングは、個々の核酸（たとえば、ＤＮＡまたはＲＮＡ）分子を標識するために、核酸バーコードもしくはタグを使用しうる。いくつかの実施形態では、これは、ＤＮＡバーコードもしくはタグがｍＲＮＡから生成される際に、ｃＤＮＡ分子にこれらを付加する工程を含む。ネステッドＰＣＲは、ＰＣＲ増幅バイアスの最小限化を実施することができる。アダプターは、たとえば、次世代シーケンシング（ＮＧＳ）を用いるシーケンシングのために付加することができる。シーケンシング結果を用いて、たとえば、図２のブロック２３２に位置する標的の１つ以上のコピーの細胞標識、分子標識、およびヌクレオチド断片の配列を決定することができる。

図３は、確率バーコード付き標的、たとえば、ｍＲＮＡの指標インデックスライブラリーを作製する非限定的な例示的プロセスを示す概略図である。ステップ１に示すように、逆転写プロセスは、ユニーク分子標識、細胞標識、およびユニバーサルＰＣＲ部位を含む各ｍＲＮＡ分子をコードすることができる。特に、分子識別子標識３１０のセットとＲＮＡ分子３０２のポリ（Ａ）テール領域３０８の確率論的ハイブリダイゼーションによって、ＲＮＡ分子３０２を逆転写して、ｃＤＮＡ領域３０６を含む標識ｃＤＮＡ分子３０４を生成することができる。分子識別子標識３１０の各々は、標的結合領域、たとえば、ポリ（ｄＴ）領域３１２、標識領域３１４、およびユニバーサルＰＣＲ領域３１６を含みうる。

いくつかの実施形態では、細胞標識は、３～２０ヌクレオチドを含みうる。いくつかの実施形態では、分子標識は、３～２０ヌクレオチドを含みうる。いくつかの実施形態では、複数の確率バーコードの各々は、１つ以上のユニバーサル標識および細胞標識をさらに含み、ユニバーサル標識は、固体担体上の複数の確率バーコードについて同じであり、細胞標識は、固体担体上の複数の確率バーコードについて同じである。いくつかの実施形態では、ユニバーサル標識は、３～２０ヌクレオチドを含みうる。いくつかの実施形態では、細胞標識は、３～２０ヌクレオチドを含む。

いくつかの実施形態では、標識領域３１４は、分子標識３１８および細胞標識３２０を含みうる。いくつかの実施形態では、標識領域３１４は、１つ以上のユニバーサル標識、次元標識、および細胞標識を含みうる。分子標識３１８は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００ヌクレオチド長であっても、概ね、少なくとも、もしくは多くともそうしたヌクレオチド長であってもよいし、またはこれらの値のいずれかの間の数もしくは範囲のヌクレオチド長であってもよい。細胞標識３２０は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００ヌクレオチド長であっても、概ね、少なくとも、もしくは多くともそうしたヌクレオチド長であってもよいし、またはこれらの値のいずれかの間の数もしくは範囲のヌクレオチド長であってもよい。ユニバーサル標識は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００ヌクレオチド長であっても、概ね、少なくとも、もしくは多くともそうしたヌクレオチド長であってもよいし、またはこれらの値のいずれかの間の数もしくは範囲のヌクレオチド長であってもよい。ユニバーサル標識は、固体担体上の複数の確率バーコードについて同じであってもよく、細胞標識は、固体担体上の複数の確率バーコードについて同じであってもよい。次元標識は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００ヌクレオチド長であっても、概ね、少なくとも、もしくは多くともそうしたヌクレオチド長であってもよいし、またはこれらの値のいずれかの間の数もしくは範囲のヌクレオチド長であってもよい。

いくつかの実施形態では、標識領域３１４は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００の異なる標識を含むか、概ねそうした値の異なる標識を含むか、少なくとも、もしくは多くともそうした値の異なる標識、またはこれらの値のいずれかの間の数もしくは範囲の異なる標識を含みうる。各標識は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００ヌクレオチド長であっても、概ね、少なくとも、もしくは多くともそうしたヌクレオチド長であってもよいし、またはこれらの値のいずれかの間の数もしくは範囲のヌクレオチド長であってもよい。分子識別子標識３１０のセットは、１０、２０、４０、５０、７０、８０、９０、１０²、１０³、１０⁴、１０⁵、１０⁶、１０⁷、１０⁸、１０⁹、１０¹⁰、１０¹¹、１０¹²、１０¹³、１０¹⁴、１０¹⁵、１０²⁰の分子識別子標識３１０を含むか、概ねそうした値の識別子標識３１０を含むか、少なくとも、もしくは多くともそうした値の分子識別子標識３１０、またはこれらの値のいずれかの間の数もしくは範囲の分子識別子標識３１０を含みうる。また、分子識別子標識３１０のセットは、たとえば、各々、ユニーク標識領域３１４を含みうる。余剰の分子識別子標識３１０を除去するために、標識ｃＤＮＡ分子３０４を精製することができる。精製は、Ａｍｐｕｒｅビーズ精製を含みうる。

工程２に示すように、工程１の逆転写プロセスからの産物を１チューブ中にプールし、第１ＰＣＲプライマープールおよび第１ユニバーサルＰＣＲプライマーを用いてＰＣＲ増幅することができる。プールする工程は、ユニーク標識領域３１４によって可能である。特に、ネステッドＰＣＲ標識アンプリコン３２２を生成するために、標識ｃＤＮＡ分子３０４を増幅することができる。増幅は、多重ＰＣＲ増幅を含みうる。増幅は、単一反応量で９６多重プライマーを用いる多重ＰＣＲ増幅を含みうる。いくつかの実施形態では、多重ＰＣＲ増幅は単一反応量で１０、２０、４０、５０、７０、８０、９０、１０²、１０³、１０⁴、１０⁵、１０⁶、１０⁷、１０⁸、１０⁹、１０¹⁰、１０¹¹、１０¹²、１０¹³、１０¹⁴、１０¹⁵、１０²⁰の多重プライマーを使用するか、概ねそうした値の多重プライマー、少なくとも、もしくは多くともそうした値の多重プライマーを使用するか、またはこれらの値のいずれかの間の数もしくは範囲の多重プライマーを使用することができる。増幅は、特定の遺伝子を標的とするカスタムプライマー３２６Ａ～Ｃの第１ＰＣＲプライマープール３２４と、ユニバーサルプライマー３２８とを含みうる。カスタムプライマー３２６は、標識ｃＤＮＡ分子３０４のｃＤＮＡ部分３０６’内の１領域とハイブリダイズすることができる。ユニバーサルプライマー３２８は、標識ｃＤＮＡ分子３０４のユニバーサルＰＣＲ領域３１６とハイブリダイズすることができる。

図３の工程３に示すように、工程２のＰＣＲ増幅からの産物は、ネステッドＰＣＲプライマープールおよび第２ユニバーサルＰＣＲプライマーを用いて増幅することができる。ネステッドＰＣＲは、ＰＣＲ増幅バイアスを最小限に抑えることができる。特に、ネステッドＰＣＲ標識アンプリコン３２２は、ネステッドＰＣＲによりさらに増幅することもできる。ネステッドＰＣＲは、単一反応量でネステッドＰＣＲプライマー３３２ａ～ｃのネステッドＰＣＲプライマープール３３０と、第２ユニバーサルＰＣＲプライマー３２８’とを含む多重ＰＣＲを含みうる。ネステッドＰＣＲプライマープール３２８は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００の異なるネステッドＰＣＲプライマー３３０を含むか、概ねそうした値の異なるネステッドＰＣＲプライマー３３０を含むか、少なくとも、もしくは多くともそうした値の異なるネステッドＰＣＲプライマー３３０、またはこれらの値のいずれかの間の数もしくは範囲の異なるネステッドＰＣＲプライマー３３０を含みうる。ネステッドＰＣＲプライマー３３２は、アダプター３３４を含有して、標識アンプリコン３２２のｃＤＮＡ部分３０６’内の１領域とハイブリダイズすることができる。ユニバーサルプライマー３２８’は、アダプター３３６を含有して、標識アンプリコン３２２のユニバーサルＰＣＲ領域３１６とハイブリダイズすることができる。このようにして、工程３は、アダプター標識アンプリコン３３８を生成する。いくつかの実施形態では、ネステッドＰＣＲプライマー３３２と第２ユニバーサルＰＣＲプライマー３２８’は、アダプター３３４および３３６を含有しなくてもよい。それに代わり、アダプター３３４および３３６は、アダプター標識アンプリコン３３８を生成するために、ネステッドＰＣＲの産物とライゲートすることができる。

工程４に示すように、工程３からのＰＣＲ産物は、ライブラリー増幅プライマーを用いたシーケンシングのためにＰＣＲ増幅することができる。特に、アダプター３３４および３３６を用いて、アダプター標識アンプリコン３３８に対するアッセイをさらに１回以上実施することができる。アダプター３３４および３３６は、プライマー３４０および３４２とハイブリダイズすることができる。１つ以上のプライマー３４０および３４２は、ＰＣＲ増幅プライマーであってよい。１つ以上のプライマー３４０および３４２は、シーケンシングプライマーであってよい。１つ以上のアダプター３３４および３３６は、アダプター標識アンプリコン３３８のさらなる増幅のために使用することができる。１つ以上のアダプター３３４および３３６は、アダプター標識アンプリコン３３８のシーケンシングのために使用することができる。プライマー３４２は、プレート指標インデックス３４４を含有することができ、これによって、分子識別子標識３１８の同じセットを用いて生成されたアンプリコンを、次世代シーケンシング（ＮＧＳ）を用いた１回のシーケンシング反応でシーケンシングすることができる。

ＰＣＲおよびシーケンシングエラーの訂正
本明細書には、標的の数を決定するための方法が開示される。いくつかの実施形態では、本方法は、（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）（ｂ）で得られたシーケンシングデータ中の標的のクオリティステータスを決定する工程と；（ｉｉｉ）（ｂ）で得られたシーケンシングデータ中の１つ以上のシーケンシングデータエラーを決定する工程であって、シーケンシングデータ中の１つ以上のシーケンシングデータエラーを決定する工程が、以下：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数、シーケンシングデータ中の標的のクオリティステータス、および複数の確率バーコードに識別可能な配列を有する分子標識の数のうち１つ以上を決定することを含む工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉｉ）で決定された１つ以上のシーケンシングデータエラーに応じて調節された、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。工程（ｉ）、（ｉｉ）、（ｉｉｉ）、および（ｉｖ）は、複数の標的の各々について実施することができる。本方法は、多重化することができる。

いくつかの実施形態では、本方法は、１つ以上のシーケンシングデータエラーを決定する前に、シーケンシングデータを折りたたむ工程をさらに含む。シーケンシングデータを折りたたむ工程は、類似分子標識を有し、かつ所定の折りたたみ発生数閾値よりも少ない発生数を有する標的のコピーを、複数の標的について同じ分子標識を有するものとして帰属させる工程を含み、ここで、標的の２つのコピーは、標的の２つのコピーの分子標識が、配列において少なくとも１塩基相違する場合、類似の分子標識を有する。

１つ以上のシーケンシングデータエラーに応じてシーケンシングデータを調節した後に保持されるシーケンシングデータ中の分子標識のパーセンテージは、変動しうる。いくつかの実施形態では、１つ以上のシーケンシングデータエラーに応じてシーケンシングデータを調節した後に保持されるシーケンシングデータ中の分子標識のパーセンテージは、５０％、６０％、７０％、８０％、９０％、９５％、９９％、もしくは９９．９％、または概ねそうしたパーセンテージであるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、１つ以上のシーケンシングデータエラーに応じてシーケンシングデータを調節した後に保持されるシーケンシングデータ中の分子標識のパーセンテージは、少なくとも、または多くとも、５０％、６０％、７０％、８０％、９０％、９５％、９９％、もしくは９９．９％でありうる。

分子標識カウントの決定
図５は、分子標識を用いてＰＣＲおよびシーケンシングエラーを訂正する非限定的な例示的実施形態５００を示すフローチャートである。実施形態５００は、複数の確率バーコードを用いて、複数の標的に確率バーコード（複数の確率バーコードの各々は、分子標識を含む）を付けて、複数の確率バーコード付き標的を生成する工程の後、ならびに、確率バーコード付き標的のシーケンシングデータを取得する工程の後、開始ブロック５０４から開始する。

標的、たとえば、マイクロウェルアレイのマイクロウェル内の細胞に由来する遺伝子の場合、シーケンシングデータ中の標的に関連付けられた識別可能な配列を含む分子標識の数をブロック５０８でカウントすることができる。シーケンシングデータ中で、標的の２つのコピーは、類似の分子標識を有してもよく、たとえば、標的の２つのコピーの分子標識は、配列の１塩基が異なりうる。標的の２つのコピーは、いずれも真であってもよく、標的の一方のコピーが真で、標的の他方のコピーは、シーケンシングエラーもしくはＰＣＲエラーの結果であってもよいし、または標的の両方のコピーが、シーケンシングエラーもしくはＰＣＲエラーの結果であってもよい。

シーケンシングデータの折りたたみ
ブロック５１２で、シーケンシングデータを折りたたむことができる。シーケンシングデータを折りたたむ工程は、類似分子標識を有し、かつ所定の折りたたみ発生数閾値よりも少ない発生数を有する標的のコピーを、複数の標的について同じ分子標識を有するものとして帰属させる工程を含みうる。所定の折りたたみ発生数閾値は、１～１００の範囲で変動しうる。いくつかの実施形態では、所定の折りたたみ発生数閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、１、２、３、４、５、６、７、８、９、１０、１７、２０、３０、４０、５０、６０、７０、８０、９０、１００、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、所定の折りたたみ発生数閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、１７、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００でありうる。たとえば、分子標識は、８ヌクレオチド長であってよく、各ヌクレオチド位置は、アデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）；Ｃ、Ｇ、チミン（Ｔ）；Ａ、Ｇ、Ｔ；またはＡ、Ｃ、Ｔなどの３つの可能性を有しうるため、３⁸＝６５６１のユニーク分子標識を生成しうる。

いくつかの実施形態では、所定の折りたたみ発生数閾値は、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、所定の折りたたみ発生数閾値は、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００でありうる。たとえば、分子標識は、８ヌクレオチド長であってよく、各ヌクレオチド位置は、４つの可能性：Ａ、Ｃ、Ｇ、Ｔを有しうるため、３⁴＝６５５３６のユニーク分子標識を生成しうる。

たとえば、標的の５つのコピーが存在しうる。標的の５つのコピーは、

の分子標識を有するものであってよく、分子標識当たりのリードの数は、それぞれ、２６１、２、２、１、および１である。分子標識

は、それらが、分子標識ＴＧＴＧＣＧＴＧと１ヌクレオチド（下線部）異なっているため、分子標識ＴＧＴＧＣＧＴＧと類似している。識別可能な配列を有する６５６１の分子標識があり、かつ所定の折りたたみ発生数閾値が７である場合、分子標識

の発生数は、分子標識ＴＧＴＧＣＧＴＧに帰属させることができる。

別の例として、標的の７つのコピーが存在しうる。標的の７つのコピーは、

の分子標識を有するものであってよく、分子標識当たりのリードの数は、それぞれ、１０、７、５、４、１、１、および１である。分子標識

は、分子標識ＣＧＣＧＴＴＣＡと、互いに１ヌクレオチド（下線部）異なっているため、類似している。識別可能な配列を有する６５６１の分子標識があり、かつ所定の折りたたみ発生数閾値が７である場合、分子標識

の発生数は、分子標識ＣＧＣＧＴＴＣＡに帰属させることができる。

シーケンシングデータエラー
本明細書に開示する方法は、シーケンシングデータエラー、たとえば、１つ以上の標的核酸をカウントする方法に発生するエラーを同定および／または訂正するために使用することができる。いくつかの実施形態では、シーケンシングデータエラーは、ＰＣＲ導入エラー、シーケンシング導入エラー、バーコード混入に起因するエラー、ライブラリー作製エラー、またはそれらの任意の組合せを含むか、これらでありうる。ＰＣＲ導入エラーは、ＰＣＲ増幅エラー、ＰＣＲ増幅バイアス、不十分なＰＣＲ増幅、またはそれらの任意の組合せの結果を含むか、これらでありうる。シーケンシング導入エラーは、不正確なベースコーリング、不十分なシーケンシング、またはそれらの任意の組合せの結果を含むか、これらでありうる。エラーは、１つ以上のヌクレオチドの欠失、１つ以上のヌクレオチドの置換、１つ以上のヌクレオチドの付加、またはそれらの任意の組合せを含むか、これらでありうる。

シーケンシングステータスの決定
前述したように、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けることにより、複数の確率バーコード付き標的を生成することができ、複数の確率バーコードの各々は、分子標識、ならびに確率バーコード付き標的のシーケンシングデータの取得を含みうる。標識、たとえば、マイクロウェルアレイのマイクロウェル内の１細胞に由来する遺伝子の場合、シーケンシングデータ中の標的と関連付けられた識別可能な配列を有する分子標識の数をカウントすることができる。カウントされたシーケンシングデータは、たとえば、類似した分子標識を有し、かつ所定の折りたたみ発生数閾値よりも少ない発生数を有する標的のコピーを、複数の標的について同じ分子標識を有するものとして帰属させる工程によって、折りたたむことができる。シーケンシングデータを折りたたんだ後、標的のクオリティステータスを決定することができる。

図５を参照にして、いくつかの実施形態では、ブロック５１６、シーケンシングデータ中の標的のクオリティステータスは、完全シーケンシング、不完全シーケンシング、または飽和シーケンシングであると決定することができる。標的のクオリティステータスは、真の分子標識またはリアル分子標識のすべてがシーケンシングランの深度に観察されたか否かに依存しうる。真の分子標識またはリアル分子標識は、エラーまたは偽の分子標識ではない分子標識を意味しうる。エラーまたは偽の分子標識は、ＰＣＲエラー、人工物、またはシーケンシングエラーから生じた配列を有する分子標識を意味しうる。シーケンシングデータ中の標的のクオリティステータスは、複数の確率バーコード中の識別可能な配列を有する分子標識の数と、カウントされたシーケンシングデータ中の標的と関連付けられた識別可能な配列を有する分子標識の数によって決定することができる。

いくつかの実施形態では、完全シーケンシングクオリティステータスは、所定の完全シーケンシング散布閾値以上のポアソン分布と比較した散布指数によって決定することができる。散布指数は、標的の分散／平均として定義することができる。図６は、完全シーケンシングと不完全シーケンシングにより得られたシーケンシングデータを示す概略図である。図６は、ライブラリー（左側サークル）中の遺伝子Ａの３つのコピーと、遺伝子Ｂの６つのコピーとを示す。遺伝子Ａの３つのコピーが、シーケンシングデータ（右上のサークル）中に６回、５回、および１回のシーケンシングリードを有した場合、分散は７、平均は４、散布指数は１．７５である。遺伝子Ｂの６つのコピーが、シーケンシングデータ（右上のサークル）中に９回、２回、２回、２回、１回、および１回のシーケンシングリードを有した場合、分散は９．３６、平均は２．８３、散布指数は３．３１である。これらのシーケンシングデータを用いて、所定の完全シーケンシング散布閾値が、たとえば、完全シーケンシングについて０．９である場合、遺伝子Ａおよび遺伝子Ｂは、完全シーケンシングステータスを有するとみなすことができる。

遺伝子Ａの１つのコピーが観察されず、遺伝子Ａの他の２つのコピーがシーケンシングデータ（右下のサークル）中に２回および３回のシーケンシングリードを有した場合、分散は０．５、平均は２．５、散布指数は０．２である。遺伝子Ｂの２つのコピーが観察されず、遺伝子Ｂの他の４つのコピーがシーケンシングデータ（右下のサークル）中に４回、２回、１回、および１回のシーケンシングリードを有した場合、分散は２、平均は２、散布指数は２である。これらのシーケンシングデータを用いて、所定の完全シーケンシング散布閾値が、たとえば、完全シーケンシングについて１．１である場合、遺伝子Ａおよび遺伝子Ｂは、不完全シーケンシングステータスを有するとみなすことができる。

所定の完全シーケンシング散布閾値は、０．５～５の範囲で変動しうる。いくつかの実施形態では、所定の完全シーケンシング散布閾値は、０．５、０．６、０．７、０．８、０．９、１、２、３、４、５、６、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、所定の完全シーケンシング散布閾値は、少なくとも、または多くとも０．５、０．６、０．７、０．８、０．９、１、２、３、４、５、もしくは６でありうる。

いくつかの実施形態では、完全シーケンシングクオリティステータスは、さらに、シーケンシングデータ中の所定の完全シーケンシング発生数閾値以上の発生数を有する分子標識によっても決定することができる。所定の完全シーケンシング発生数閾値は、８～２０の範囲で変動しうる。いくつかの実施形態では、完全シーケンシング発生数閾値は、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、完全シーケンシング発生数閾値は、少なくとも、または多くとも、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、もしくは２０でありうる。

いくつかの実施形態では、飽和シーケンシングクオリティステータスは、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する標的によって、決定することができる。飽和シーケンシングクオリティステータスは、さらに、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する複数の標的のうちの他の１つの標的によって、決定することもできる。

所定の飽和閾値は、変動しうる。いくつかの実施形態では、所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、６０００、６１００、６２００、６３００、６４００、６５００、６５５７、６５５８、６５５９、６５６０、６５６１、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、少なくとも、または多くとも、６０００、６１００、６２００、６３００、６４００、６５００、６５５７、６５５８、６５５９、６５６０、もしくは６５６１でありうる。いくつかの実施形態では、所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、６４０００、６４１００、６４２００、６４３００、６４４００、６４５００、６４６００、６４７００、６４８００、６４９００、６５０００、６５１００、６５２００、６５３００、６５４００、６５５００、６５５１０、６５５２０、６５５３０、６５５３２、６５５３３、６５５３４、６５５３５、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、少なくとも、または多くとも、６４０００、６４１００、６４２００、６４３００、６４４００、６４５００、６４６００、６４７００、６４８００、６４９００、６５０００、６５１００、６５２００、６５３００、６５４００、６５５００、６５５１０、６５５２０、６５５３０、６５５３２、６５５３３、６５５３４、もしくは６５５３５でありうる。

いくつかの実施形態では、シーケンシングデータ中の標的のクオリティステータスは、シーケンシングデータ中の標的のクオリティステータスが、完全シーケンシングではなく、かつ飽和シーケンシングではない場合に、不完全シーケンシングとして分類することができる。

完全シーケンシングクオリティステータス
本明細書に開示する方法は、標的が、完全シーケンシングクオリティステータスを有する場合、シーケンシングライブラリー中の標的の数の推定値を提供することができる。シーケンシングライブラリー中の標的が、完全シーケンシングクオリティステータスを有する場合、真の確率バーコードおよびエラー確率バーコードのシーケンシングリードについて個別のポアソンモデルを介して閾値を確立することができる。標的のクオリティステータスは、真の分子標識またはリアル分子標識のすべてがシーケンシングランの深度で観察されたか否かに依存しうる。真の分子標識またはリアル分子標識は、エラーまたは偽の分子標識ではない分子標識を意味しうる。エラーまたは偽の分子標識は、ＰＣＲエラー、人工物、またはシーケンシングエラーから生じた配列を有する分子標識を意味しうる。

図５を参照にして、決定状態５２０で、標的分子が、完全シーケンシングステータスを有する場合、実施形態５００は、ブロック５２４に進む。ブロック５２４では、１塩基のシーケンシングエラーを次の工程により除去することができる。工程（１）、シーケンシングリードが２５より大きい場合、最も豊富なシーケンシングリードに関連付けられた分子標識を第１の親分子標識として選択する。たとえば、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントした後、最も高いシーケンシングリードを有するシーケンシングデータ中の標的に関連付けられた分子標識を選択する。

工程（２）、子供分子標識：シーケンシングリード≦３を有し、第１の親分子標識から１塩基隔てた分子標識を同定し；子供分子標識または１塩基子供分子標識が見出されない場合、工程（５）に進む。工程（３）、すべての子供分子標識および親分子標識に対して複数の二項検定を実施し、その帰無仮説が容認された子供分子標識を除去してから、それらのシーケンシングリードをそれらの親に帰属させる。帰無仮説のいずれも容認されなければ、これは、すべての子供分子標識が、親分子標識の１塩基シーケンシングエラーではないことを意味し、その場合、リード訂正を実施する必要はない。工程（４）、分子標識配列ならびにシーケンシングリードを更新する。たとえば、複数の二項検定の帰無仮説が容認されれば、子供分子標識の発生数を親分子標識に帰属させることができる。工程（５）、次に大きいシーケンシングリードを有する分子標識を親分子標識として選択し、適格の親分子標識または適格の子供分子標識がなくなるまで前述の工程を反復する。

いくつかの実施形態では、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、標的が、完全シーケンシングクオリティステータスを有していれば、１つ以上の親分子標識についてすべての子供分子標識を決定する工程と；少なくとも１つの子供分子標識および親分子標識について複数の二項検定などの統計解析を実施する工程と；統計解析の帰無仮説が容認されれば、子供分子標識の発生数を親分子標識に帰属させる工程と、によって調節することができる。

いくつかの実施形態では、子供分子標識は、親分子標識と１塩基相違し、かつ、所定の完全シーケンシング子供閾値以下の発生数を有する分子標識を含みうる。所定の完全シーケンシング子供閾値は、変動しうる。いくつかの実施形態では、所定の完全シーケンシング子供閾値は、１、２、３、４、５、６、７、８、９、１０、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、所定の完全シーケンシング子供閾値は、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、もしくは１０でありうる。

いくつかの実施形態では、１つ以上の親分子標識は、所定の完全シーケンシング親閾値以上の発生数を有する分子標識を含み、ここで、所定の完全シーケンシング親閾値は、所定の完全シーケンシング発生数閾値、たとえば、８と等しい。第１の統計解析の帰無仮説は、帰無仮説が真である確率が、偽発見率を下回れば、容認されうる。偽発見率は、変動しうる。いくつかの実施形態では、偽発見率は、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１１％、１２％、１３％、１４％、１５％、１６％、１７％、１８％、１９％、２０％、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、偽発見率は、少なくとも、または多くとも、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１１％、１２％、１３％、１４％、１５％、１６％、１７％、１８％、１９％、もしくは２０％でありうる。第１の統計解析は、複数の二項検定であってよい。

ブロック５２８では、ポアソンモデルを標的の分子標識の閾値化に用いて、シーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定することができる。たとえば、人工物から「真である可能性がある」分子標識を識別するために、ポアソンモデルをシーケンシングリードに適用することができる。

いくつかの実施形態では、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、標的が完全シーケンシングクオリティステータスを有していれば、標的の分子標識を閾値化して、シーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程によって調節されうる。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含みうる。

いくつかの実施形態では、統計解析を実施する工程は、以下：標的の分子標識の分布およびそれらの発生数を２つのポアソン分布に当てはめる工程と；２つのポアソン分布を用いて、真の分子標識の数ｎを決定する工程と；シーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。２つのポアソン分布は、真の分子標識に対応する第１ポアソン分布と、偽の分子標識に対応する第２ポアソン分布とを含みうる。

ブロック５３２では、複数の二項検定または２つのポアソン分布を用いて、シーケンシングデータを訂正または調節した後、標的の数を推定して、出力を生成することができる。実施形態５００は、終点ブロック５３６で終了する。

飽和シーケンシングクオリティステータス
本明細書に開示する方法は、分子標識カウントを推定する際の大きな不確実性のために、標的が飽和シーケンシングクオリティステータスを有する場合、シーケンシングライブ中の標的の数の推定値を提供することができないこともある。図５を参照にして、いくつかの実施形態では、決定状態５２０で、シーケンシングステータスが完全シーケンシングステータスではない場合、実施形態５００は、決定状態５４０に進む。決定状態５４０で、標的が、飽和シーケンシングステータスを有する場合、実施形態５００は、終点ブロック５３６に進む。飽和シーケンシングステータスの場合、分子標識カウントを推定する際の大きな不確実性のために、標的の数が決定されないことがある。

不完全シーケンシングクオリティステータス
本明細書に開示する方法は、標的が不完全シーケンシングクオリティステータスを有する場合、シーケンシングライブラリー中の標的の数の推定値を提供することができる。シーケンシングライブラリー中の標的は、不完全シーケンシングクオリティステータスを有するとき、ノイジー標的、たとえば、ノイジー遺伝子は除去することができる。標的は、その増幅速度（分子標識当たりの平均リード）が、標的を含む同じライブラリー中の完全にシーケンシングされた遺伝子からに由来するエラーの増幅速度と類似していれば、ノイジーでありうる。ライブラリー中に存在する識別可能な分子標識を有する標的を含む確率バーコードの数の推定値を補外するために、不完全シーケンシングのクオリティステータスを有する標的のシーケンシングリードに対して、ゼロ切断ポアソンモデルを適用することができる。

実施形態５００は、出発標的を標識するために用いられる真の確率バーコードのいくつかが、不適切なシーケンシング深度のために観察されなかった場合、シーケンシングライブラリー中の標的の数の推定値を提供することができる。決定状態５４０で、標的が、飽和シーケンシングステータスを有していなければ、標的は、不完全シーケンシングステータスを有し、実施形態５００は、ブロック５４４に進んで、ノイジー標的、たとえば、ノイジー遺伝子を除去する。

標的の散布指数が、＞４であり、かつ、その標的の最大シーケンシングリードが、＞１８である場合、ポアソンモデル化を用いて、真のバーコードとエラーバーコードを区別するための閾値を取得しても、やはり相応しい推定値を提供することができる。シーケンシングデータが、軽度の過剰散布、たとえば、１．５＜散布指数≦４を示し、かつ、その標的の最大シーケンシングリードが≦１８である場合には、ポアソンモデルを用いて、閾値を得ると、真の分子標識カウントを過少評価する恐れがある。過少評価の理由は、低リードを有する分子標識が、恐らく真の分子標識と偽の分子標識との混合でありうるためでありうる。その結果、低シーケンシングリードを有するこれらの真の分子標識は、エラーのポアソンモデルに入ることを余儀なくされ、真の分子標識のポアソンモデルが、本来あるべきよりも少ない分子標識を有しうる。例えば、１などの低い分子標識カウントが取り除かれた後の分子標識カウントを使うその場限りの方法を使用することができる。散布指数が１に近い、たとえば、０．９～１．５である場合、観察された分子標識カウントが、相応しい推定値で生成されうる。散布指数が、０．１～０．９であれば、過少散布ポアソンモデルを特徴とするゼロ切断ポアソンモデルが、相応しい推定値を生成しうるが；シーケンシングデータ中にエラーが存在する場合には、このモデルは、過大評価する傾向がありうる。

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、シーケンシングデータ中の標的のクオリティステータスが、不完全シーケンシングクオリティステータスである場合、標的が、シーケンシングデータにおいてノイジーであるか否かを決定する工程と；シーケンシングデータからノイジー標的を除去する工程と、によって調節することができる。ノイジー標的の分子標識の発生数が、不完全シーケンシングノイジー標的閾値以下であれば、標的はノイジーでありうる。不完全シーケンシングノイジー遺伝子閾値は、変動しうる。いくつかの実施形態では、不完全シーケンシングノイジー標的閾値は、完全シーケンシングのクオリティステータスを有する複数の標的の分子標識の中央または平均発生数と等しくてもよい。いくつかの実施形態では、不完全シーケンシングノイジー遺伝子閾値は、１、２、３、４、５、６、７、８、９、１０、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、不完全シーケンシングノイジー遺伝子閾値は、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、もしくは１０でありうる。

ブロック５４８では、ライブラリー中に存在する識別可能な分子標識を有する標的を含む確率バーコードの数の推定値を補外するために、不完全シーケンシングのクオリティステータスを有する標的のシーケンシングリードに対して、ゼロ切断ポアソンモデルを適用する。いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、得られたシーケンシングデータ中の標的のクオリティステータスが、不完全シーケンシングクオリティステータスである場合、標的が、シーケンシングデータにおいてノイジーであるか否かを決定する工程と；ノイジー標的を除去する工程と、によって調節する。

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、シーケンシングデータ中の標的のクオリティステータスが、不完全シーケンシングクオリティステータスである場合、シーケンシングデータ中の真の分子標識と偽の分子標識とを決定するために、標的の分子標識を閾値化する工程によって調節することができる。標的の分子標識を閾値化する工程は、分子標識に対する統計解析を実施する工程を含みうる。分子標識について統計解析を実施する工程は、ゼロ切断ポアソンモデルを用いて、真の分子標識の数ｎを決定する工程と；シーケンシングデータから偽の分子標識を除去する工程と、を含みうる。

いくつかの実施形態では、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含みうる。真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含みうる。

シーケンシングデータエラー
本明細書に開示する方法は、シーケンシングデータエラー、たとえば、１つ以上の標的核酸をカウントする方法に発生するエラーを同定および／または訂正するために使用することができる。いくつかの実施形態ではエラーは、１つ以上のヌクレオチドの欠失、１つ以上のヌクレオチドの置換、１つ以上のヌクレオチドの付加、またはそれらの任意の組合せを含むか、そうしたものでありうる。エラーは、分子標識（ＭＬ）、サンプル標識（ＳＬ）、確率バーコード上の他の標識に存在しうる。いくつかの実施形態では、シーケンシングデータエラーは、ＰＣＲ導入エラー、シーケンシング導入エラー、逆転写（ＲＴ）プライマー混入エラー、またはそれらの任意の組合せを含むか、またはそうしたものでありうる。ＰＣＲ導入エラーは、ＰＣＲ増幅エラー、ＰＣＲ増幅バイアス、不十分なＰＣＲ増幅、またはそれらの任意の組合せの結果を含むか、またはそうしたものでありうる。シーケンシング導入エラーは、不正確なベースコーリング、不十分なシーケンシング、またはそれらの任意の組合せの結果を含むか、またはそうしたものでありうる。ＲＴプライマー混入エラーは、ＰＣＲに進入した逆転写プライマーに起因するエラーでありうる。

本明細書で使用される場合、「カバー率」または「シーケンシング深度」という用語は、シーケンシングデータ中の特定のＭＬおよび特定のＳＬを有するバーコード付き標的のリードの数を意味しうる。たとえば、バーコード付き標的は複数回シーケンシングされうる。従って、特定のＭＬおよびＳＬを有するバーコード付き標的を複数回観察することができる。別の例として、細胞は、標的の複数のコピー（たとえば、遺伝子のｍＲＮＡ分子の複数のコピー）を含有しうる。こうした標的の複数のコピーにバーコードを付けることができる。ＰＣＲ増幅の後（たとえば、図のブロック２８）、特定のＭＬおよびＳＬを有するバーコード付き標的の複数のコピーが存在しうる。シーケンシングに際して、特定のＭＬおよびＳＬを有するバーコード付き標的の複数のコピーの一部または全部がシーケンシングされうる。シーケンシングデータ中に観察される同じＭＬおよびＳＬを有するバーコード付き標的のリードの数は、「カバー率」または「シーケンシング深度」と呼ばれることがある。

いくつかの実施形態では、シーケンシングデータエラーは、同定および／または訂正することができる。たとえば、細胞からの標的のコピーは、異なるＭＬと同じＳＬとを有するバーコードを付けることができる。ＭＬを有するバーコード付き標的は、シーケンシングデータ中の複数のリードを有しうる。異なるＭＬを有するバーコード付き標的は、少数のリード（たとえば、１リード）のみを有しうる。前のバーコード付き標的の方が、後のバーコード付き標的と比較して、真のＭＬ（またはリアルもしくはシグナルＭＬ）を有する傾向が高くなりうる。後のバーコード付き標的は、エラーＭＬ（または偽のもしくはノイズＭＬ）を含みうる。これは、２つのＭＬは、類似のカバー率またはシーケンシング深度を有することが予想できるためでありうる。少数のリードしか含まない後のバーコード付き標的は、シーケンシングまたはＰＣＲの最中に生じる人工物もしくはエラーとなり得る。

別の例として、ＰＣＲに進入する確率バーコードは、ＲＴプライマー混入エラーを引き起こしうる。いくつかの実施形態ではｃＤＮＡ分子にｍＲＮＡ分子を逆転写した後（たとえば、図の２４）、ｃＤＮＡ分子に組み込まれない確率バーコードは、たとえば、Ａｍｐｕｒｅビーズ精製により除去することができる。除去方法、たとえば、Ａｍｐｕｒｅビーズ精製は、確率バーコード付きｃＤＮＡ分子に組み込まれる逆転写によって伸長されない確率バーコードを完全には除去されない可能性がある。たとえば、確率バーコード付きｃＤＮＡ分子に組み込まれる逆転写によって伸長されない確率バーコードの１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％、０．１％、またはこれらのいずれか２つの値の間の範囲が、Ａｍｐｕｒｅビーズ精製により除去されない可能性がある。これらの未除去確率バーコードは、ｃＤＮＡ分子の増幅中（たとえば、図のブロック２８）にシーケンシングデータエラーを引き起こしうる。確率バーコードは、サンプルの間で非常に類似しうる。たとえば、確率バーコードのサンプル標識は、同じサンプルの場合、同一でありうる。従って、これらの未除去確率バーコードが、ＰＣＲの最中に同じサンプルからの他の核酸分子（たとえば、確率バーコード付きｍＲＮＡ分子のＳＬ領域）にハイブリダイズする可能性があることから、ＰＣＲ交差が起こり、その結果、ＳＬエラーと呼ばれるシーケンシングデータエラーが生じうる。

真のＭＬ、エラーＭＬ、およびＳＬエラーは、識別可能な分布を有しうる。図４は、分子標識エラー、サンプル標識エラー、および真の分子標識シグナルの非限定的な例示的分布を示す概略図である。図４に示されるように、エラーＭＬは、ＰＣＲまたはシーケンシングエラーに起因する可能性があるため、エラーＭＬは、より低いＭＬカバー率を有する傾向があると考えられる。たとえば、エラーＭＬは、シーケンシングエラーの大部分およびＰＣＲエラーの一部に起因する可能性がある。ＳＬエラーは、ＰＣＲに進入する確率バーコードに大部分起因する可能性があるため、ＳＬエラーは、より低いＭＬカバー率を有する傾向があると考えられる。

方向近接性に基づくＰＣＲおよびシーケンシングエラーの訂正
本明細書には、ＰＣＲまたはシーケンシングエラーを訂正する方法が開示される。いくつかの実施形態では、本方法は、（ａ）確率バーコード付き標的のシーケンシングデータを受け取る工程を含む。確率バーコード付き標的は、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程により取得することができ、ここで、複数の確率バーコードの各々が分子標識を含む。いくつかの実施形態では、本方法は、（ｂ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；（ｉｉｉ）（ｉｉ）で同定された標的の分子標識のクラスターを用いて、（ｂ）で受け取られたシーケンシングデータを折りたたむ工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉ）でシーケンシングデータを折りたたんだ後、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。複数の標的は、細胞の全トランスクリプトームの標的を含む。いくつかの実施形態では、本方法は、さらに、（ｃ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程と；（ｄ）確率バーコード付き標的をシーケンシングして、受け取った確率バーコード付き標的のシーケンシングデータを生成する工程と、を含む。

図７は、方向近接性に基づく分子標識を用いて、ＰＣＲまたはシーケンシングエラーを訂正する、非限定的な例示的実施形態７００を示すフローチャートである。方向近接性に基づく分子標識を用いて、ＰＣＲまたはシーケンシングエラーを訂正する工程は、再帰的置換エラー訂正（ＲＳＥＣ）と呼ばれることもある。この方法７００は、複数の確率バーコード付き標的のシーケンシングデータを受け取った後、ブロック７０４で開始する。いくつかの実施形態では、方法７００は、さらに、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数のバーコード付き標的を生成する工程を含み、ここで、複数の確率バーコードの各々は、分子標識を含む。いくつかの実施形態では、方法７００は、さらに、複数の確率バーコード付き標的をシーケンシングして、シーケンシングデータを取得する工程も含む。

ブロック７０８で、複数の標的の１つ以上について：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントすることができる。ブロック７１２で、方向近接性を用いて、標的の分子標識のクラスターを同定することができる。クラスター内の標的の分子標識は、互いの所定の方向近接性閾値内に位置しうる。方向近接性閾値は、変動しうる。いくつかの実施形態では、所定の方向近接性閾値は、１もしくは２のハミング距離であるか、概ね、少なくとも、または多くとも、そうした距離でありうる。

いくつかの実施形態では、クラスター内の標的の分子標識は、１つ以上の親分子標識と１つ以上の親分子標識の１つ以上の子供分子標識とを含みうる。親分子標識の発生数は、所定の方向近接性発生数閾値以上であってよい。いくつかの実施形態では、所定の方向近接性発生数閾値は、２×（子供分子標識の発生数）－１であるか、概ね、少なくとも、または多くとも、そうした値でありうる。いくつかの実施形態では、所定の方向近接性発生数閾値は、子供分子標識の発生数の１．５倍、２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍、または概ねそうした値であるか、あるいはこれらの値のいずれか２つの間の数もしくは範囲でありうる。いくつかの実施形態では、所定の方向近接性発生数閾値は、子供分子標識の発生数の少なくともまたは多くとも１．５倍、２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍でありうる。

ブロック７２０で、標的の分子標識のクラスターを用いて、シーケンシングデータを折りたたむ。シーケンシングデータを折りたたむ工程は、子供分子標識の発生数を親分子標識に帰属させる工程を含みうる。ブロック７３２で、シーケンシングデータを折りたたんだ後、標的の数を推定して、出力を生成することができる。方法７００は、ブロック７３６で終了する。

いくつかの実施形態では、本方法は、さらに、標的のシーケンシング深度を決定する工程を含む。標的の数を推定する工程は、標的のシーケンシング深度が、所定のシーケンシング深度閾値を超える場合、（ｉ）でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、１５～２０の間であってよい。（ｉ）でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、（ｂ）で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、標的の分子標識の分布およびそれらの発生数を、２つのネガティブ二項分布などの２つの分布に当てはめる工程と；２つのネガティブ二項分布を用いて真の分子標識の数ｎを決定する工程と；（ｂ）で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、また、真の分子標識は、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む。

方向近接性および二次導関数に基づくＰＣＲおよびシーケンシングエラーの訂正
本明細書には、標的の数を決定する方法が開示される。いくつかの実施形態では、一方法は、（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と；（ｂ）確率バーコード付き標的のシーケンシングデータを取得する工程と；（ｃ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；（ｉｉｉ）（ｉｉ）で同定された標的の分子標識のクラスターを用いて、（ｂ）で得られたシーケンシングデータを折りたたむ工程と；（ｉｖ）標的の数を推定する工程であって、推定された標的の数が、（ｉｉ）でシーケンシングデータを折りたたんだ後、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。複数の標的は、細胞の全トランスクリプトームの標的を含みうる。

いくつかの実施形態では、本方法は、シーケンシングデータ中の標的のシーケンシングステータスを決定する工程を含む。シーケンシングデータ中の標的のシーケンシングステータスは、飽和シーケンシングを含むか、または飽和シーケンシングであってもよい。いくつかの実施形態では、シーケンシングデータ中の標的のシーケンシングステータスが、飽和シーケンシングステータスである場合、（ｉｖ）で推定された標的の数は、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。

いくつかの実施形態では、推定された標的の数は、ＳＬエラーを訂正した後に（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。ＳＬエラーを訂正する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の累積和プロットを作成する工程と；累積和プロットの二次導関数を決定する工程と；累積和プロットの二次導関数の最小値に基づき、ＭＬリード深度カットオフを決定する工程と、を含む。いくつかの実施形態ではＳＬエラーを訂正する工程は、決定されたＭＬリード深度カットオフより低いリード深度を有する、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識を除去する工程を含みうる。

図８は、方向近接性および二次導関数に基づく分子標識を用いて、ＰＣＲおよびシーケンシングエラーを訂正する、非限定的な例示的実施形態８００を示すフローチャートである。方法８００は、複数の確率バーコード付き標的のシーケンシングデータを受け取った後、ブロック８０４から開始する。いくつかの実施形態では、方法８００は、さらに、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程を含み、ここで、複数の確率バーコードの各々が分子標識を含む。いくつかの実施形態では、方法８００は、さらに、複数の確率バーコード付き標的をシーケンシングして、シーケンシングデータを取得する工程も含む。

ブロック８０８で、複数の標的の１つ以上について：シーケンシング中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントすることができる。決定ブロック８１２で、シーケンシングデータが、飽和シーケンシングステータスを有するか否かを決定することができる。飽和シーケンシングステータスは、所定の飽和閾値より高い、識別可能な配列を有する分子標識の数を有する標的によって決定することができる。所定の飽和閾値は、さまざまな履行で異なりうる。たとえば、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を有する場合、所定の飽和閾値は、約６５５７となりうる。別の例として、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を有する場合、所定の飽和閾値は、約６５５３２となりうる。

シーケンシングデータが、決定ブロック８１２で飽和シーケンシングステータスを有していない場合、方法８００は、ブロック８１６に進むことができ、ここで、分子標識カウントが、方向近接性に基づき調節されうる。標的は、たとえば、それが、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００を超える、またはこれらのいずれか２つの間の数もしくは範囲を超える、識別可能な配列を有する分子標識の数を有する場合、飽和シーケンシングステータスを有するとみなすことができる。別の例として、標的は、識別可能な配列を有する確率バーコードの分子バーコードの５０％、６０％、７０％、８０％、９０％、９５％、９９％、もしくは９９．９％を超える、またはこれらのうちいずれか２つの間の数もしくは範囲を超える、識別可能な配列を有する分子標識の数を有する場合、飽和シーケンシングステータスを有するとみなすことができる。いくつかの実施形態では、方向近接性に基づき分子カウントを調節する工程は、図７を参照にして説明することができる。たとえば、辞書に基づき分子カウントを調節する工程は、方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；同定された標的の分子標識のクラスターを用いて、シーケンシングデータを折りたたむ工程と；標的の数を推定する工程と、を含むことができ、ここで、推定された標的の数は、シーケンシングデータを折りたたんだ後、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。

ブロック８２０で、累積和プロットの二次導関数を決定することができる。累積和プロットの二次導関数を決定する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の累積和プロットを作成する工程を含みうる。

ブロック８２４で、分子標識は、ＭＬリード深度カットオフに基づき調節することができる。ＭＬリード深度カットオフは、累積和プロットの二次導関数の最小値（たとえば、局所的最小値または大域的最小値）に基づくものでよい。いくつかの実施形態では、ＳＬエラーを訂正する工程は、決定されたＭＬリード深度カットオフより低いリード深度を有するシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識を除去する工程を含みうる。

ブロック８２８で、標的の数を推定して、シーケンシングデータを折りたたみ、ＳＬエラーを訂正した後の出力を生成することができる。決定ブロック８１２で、シーケンシングデータが、飽和シーケンシングステータスを有する場合、方法８００は、ブロック８２８に進んで、シーケンシングデータの折りたたみおよびＳＬエラーの訂正なしに出力を生成することができる。方法８００は、ブロック８３２で終了する。

方向近接性に基づくＰＣＲおよびシーケンシングエラーの訂正ならびに分布に基づくエラーの訂正
本明細書には、ＰＣＲまたはシーケンシングエラーを訂正する方法が開示される。本方法を用いて、標的の数を決定することができる。いくつかの実施形態では、本方法は、（ａ）確率バーコード付き標的のシーケンシングデータを受け取る工程を含む。確率バーコード付き標的は、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程により取得することができ、ここで、複数の確率バーコードの各々が分子標識を含む。いくつかの実施形態では、本方法は、（ｂ）複数の標的の１つ以上について：（ｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；（ｉｉ）シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程と；（ｉｉｉ）標的の数を推定する工程と、を含み、ここで、推定された標的の数は、（ｉｉ）で決定されたノイズ分子標識の数に従って調節される、（ｉ）でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。いくつかの実施形態では、本方法は、シーケンシングデータ中の標的のシーケンシングステータスを決定する工程を含む。いくつかの実施形態では、本方法は、さらに、（ｃ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程と；（ｄ）確率バーコード付き標的をシーケンシングして、受け取った確率バーコード付き標的のシーケンシングデータを生成する工程と、を含む。

図９は、再帰的置換エラー訂正および分布ベースのエラー訂正に基づいて、ＰＣＲおよびシーケンシングエラーを訂正する、非限定的な例示的実施形態９００を示すフローチャートである。方法９００は、複数の確率バーコード付き標的のシーケンシングデータを受け取った後、ブロック９０４から開始する。いくつかの実施形態では、方法９００は、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程をさらに含み、ここで、複数の確率バーコードの各々が分子標識を含む。いくつかの実施形態では、方法９００は、さらに、複数の確率バーコード付き標的をシーケンシングして、シーケンシングデータを取得する工程も含む。

ブロック９０８で、複数の標的の１つ以上について：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントすることができる。決定ブロック９１２で、シーケンシングデータは、飽和シーケンシングステータスを有するか否かを決定することができる。たとえば、標的は、それが、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１０００００を超える、またはこれらのいずれか２つの間の数もしくは範囲を超える、識別可能な配列を有する分子標識の数を有する場合、飽和シーケンシングステータスを有するとみなすことができる。別の例として、標的は、識別可能な配列を有する確率バーコードの分子バーコードの５０％、６０％、７０％、８０％、９０％、９５％、９９％、もしくは９９．９％を超える、またはこれらのうちいずれか２つの間の数もしくは範囲を超える、識別可能な配列を有する分子標識の数を有する場合、飽和シーケンシングステータスを有するとみなすことができる。

いくつかの実施形態では、飽和シーケンシングステータスは、所定の飽和閾値を超える、識別可能な配列を有する分子標識の数を有する標的によって決定することができる。所定の飽和閾値は、さまざまな履行において異なるものであってよい。たとえば、所定の飽和閾値は、１０００、２０００、３０００、４０００、５０００、６０００、６５５７、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、６５５３２、７００００、８００００、９００００、１０００００、またはこれらの値のいずれか２つの間の数もしくは範囲であるか、または概ねそうした値でありうる。別の例として、所定の飽和閾値は、少なくとも、または多くとも、１０００、２０００、３０００、４０００、５０００、６０００、６５５７、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、６５５３２、７００００、８００００、９００００、もしくは１０００００でありうる。

いくつかの実施形態では、飽和シーケンシングステータスは、識別可能な配列を有する確率バーコードの分子標識の数に依存しうる。たとえば、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を有する場合、所定の飽和閾値は、約６５５７となりうる。別の例として、確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を有する場合、所定の飽和閾値は、約６５５３２となりうる。いくつかの実施形態では、飽和シーケンシングステータスは、識別可能な配列を有する確率バーコードの分子標識の数に依存しない場合もある。

シーケンシングデータが、決定ブロック９１２で、飽和シーケンシングステータスを有していなければ、方法９００は、ブロック９１６に進み、ここで、分子標識カウントは、方向近接性に基づいて調節されうる。いくつかの実施形態では、方向近接性に基づき分子カウントを調節する工程は、図７を参照にして説明することができる。たとえば、辞書に基づき分子カウントを調節する工程は、方向近接性を用いて、標的の分子標識のクラスターを同定する工程と；同定された標的の分子標識のクラスターを用いて、シーケンシングデータを折りたたむ工程と；標的の数を推定する工程と、を含み、ここで、推定された標的の数は、シーケンシングデータを折りたたんだ後、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。

ブロック９２０で、シーケンシングデータ中の標的のシーケンシングステータスを決定することができる。シーケンシングデータ中の標的のシーケンシングステータスは、過少シーケンシングを含むか、または過少シーケンシングでありうる。決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスであるか否かを決定することができる。たとえば、標的は、その深度（たとえば、平均、最小、もしくは最大深度）が、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、またはこれらの値のいずれか２つの間の数もしくは範囲より小さいか、または概ねそうした値より小さい場合、過少シーケンシングステータスを有するとみなすことができる。別の例として、標的は、その深度が、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００より小さい場合、過少シーケンシングステータスを有するとみなすことができる。

いくつかの実施形態では、過少シーケンシングステータスは、所定の過少シーケンシング閾値より小さい深度（たとえば、平均、最小、もしくは最大深度）を有する標的によって決定することができる。過少シーケンシング閾値は、さまざまな履行で異なるものであってよい。たとえば、過少シーケンシング閾値は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、またはこれらの値のいずれか２つの間の数もしくは範囲、または概ねそうした値でありうる。別の例として、過少シーケンシング閾値は、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００でありうる。

いくつかの実施形態では、過少シーケンシングステータスは、識別可能な配列を有する確率バーコードの分子標識の数に依存しうる。たとえば、確率バーコードが、識別可能な配列を有する、１０００、２０００、３０００、４０００、５０００、６０００、６５６１、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、６５５３２、７００００、８００００、９００００、１０００００、またはこれらの値のいずれか２つの間の数もしくは範囲、または概ねそうした値の分子標識を有する場合、過少シーケンシング閾値は、１０（または別の閾値数）となりうる。別の例として、確率バーコードが、少なくとも、または多くとも、１０００、２０００、３０００、４０００、５０００、６０００、６５６１、７０００、８０００、９０００、１００００、２００００、３００００、４００００、５００００、６００００、６５５３２、７００００、８００００、９００００、もしくは１０００００を含む場合、過少シーケンシング閾値は、１０（または別の閾値数）となりうる。いくつかの実施形態では、飽和シーケンシングステータスは、識別可能な配列を有する確率バーコードの分子標識の数に依存しない場合もある。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスではなければ、方法９００は、ブロック９２８に進んで、分子標識カウントをフィルタリングすることができる。分子標識カウントをフィルタリングする工程は、決定ブロック９３２で、擬似点閾値より少ない、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を決定する工程を含む。擬似点閾値は、さまざまな履行で異なるものであってよい。たとえば、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を有する場合、擬似点閾値は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、またはこれらの値のいずれか２つの間の数もしくは範囲、または概ねそうした値でありうる。別の例として、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を有する場合、擬似点閾値は、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００でありうる。

決定ブロック９３２で、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９００は、任意選択で、ブロック９３６に進み、そこで、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する前に、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に擬似点を追加することができる。擬似点は、さまざまな履行で異なる分子標識カウントを有しうる。たとえば、擬似点の分子標識カウントは、０．０００１、０．００１、０．０１、０．１、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、またはこれらの値のいずれか２つの間の数もしくは範囲、または概ねそうした値でありうる。別の例として、擬似点の分子標識カウントは、少なくとも、または多くとも、０．０００１、０．００１、０．０１、０．１、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００でありうる。いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９００は、ブロックに進むことができ、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９４４。

決定ブロック９３２で、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値以上である場合、非ユニーク分子標識をブロック９４０で除去することができる。非ユニーク分子標識は、ブロック９４４でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定するために、除去することができる。非ユニーク分子標識は、所定の再使用分子標識閾値より大きい、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識を含みうる。再使用分子標識閾値は、さまざまな履行において異なるものであってよい。たとえば、再使用分子標識閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、１００、２００、３００、４００、５００、６００、６５０、７００、９００、１０００、２０００、またはこれらの値のいずれか２つの間の数もしくは範囲、または概ねそうした値でありうる。別の例として、再使用分子標識閾値は、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、少なくとも、または多くとも、１００、２００、３００、４００、５００、６００、６５０、７００、９００、１０００、もしくは２０００でありうる。

いくつかの実施形態では、非ユニーク分子標識を除去する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対する非ユニーク分子標識の理論上の数を決定する工程を含む。非ユニーク分子標識を除去する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識のｎ番目に豊富な分子標識より大きな発生数を有する分子標識を除去する工程を含みうる。数ｎは、非ユニーク分子標識の理論上の数でありうる。

ブロック９４４で、分布ベースのエラー訂正方法を用いて、分子標識カウントを調節することができる。分布ベースのエラー訂正方法は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程を含みうる。ノイズ分子標識の数を決定する工程は、２つのネガティブ二項分布を、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程を含みうる。たとえば、ノイズ分子標識の数を決定する工程は、シグナルネガティブ二項分布（２つのネガティブ二項分布の一方）を、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程を含んでよく、ここで、シグナルネガティブ二項分布は、シグナル分子標識である、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する。ノイズ分子標識の数を決定する工程は、ノイズネガティブ二項分布（２つのネガティブ二項分布の他方）を、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程を含んでよく、ここでノイズネガティブ二項分布は、ノイズ分子標識である、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する。ノイズ分子標識の数を決定する工程は、当てはめたシグナルネガティブ二項分布と、当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程を含んでよい。

いくつかの実施形態では、当てはめたシグナルネガティブ二項分布と、当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列の各々について：識別可能な配列が、シグナルネガティブ二項分布であるシグナル確率を決定する工程を含む。そして、識別可能な配列のノイズ確率が、ノイズネガティブ二項分布であるノイズ確率を決定することができる。さらには、シグナル確率が、ノイズ確率より小さければ、識別可能な配列は、ノイズ分子標識であると決定することができる。いくつかの実施形態では、ブロック９４４で分子標識カウントを調節する工程は、２つ未満のピークが見出される（シグナルネガティブ二項分布とノイズネガティブ二項分布を決定するために、２つのピークが必要とされうるため）場合、シングルトン（たとえば、単一塩基置換）を除去する工程を含みうる。

ブロック９４８で、標的の数を推定して、近接性に基づくエラー訂正および分布ベースのエラー訂正後に出力を生成することができる。決定ブロック９１２で、シーケンシングデータ中の標的のシーケンシングステータスが、飽和シーケンシングステータスである場合、方法９００は、ブロック９４８に進んで、方向近接性および分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。たとえば、決定されたノイズ分子標識の数は、ゼロであってもよい。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスである場合、方法９００は、ブロック９４８に進んで、分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。たとえば、決定されたノイズ分子標識の数は、ゼロであってもよい。方法９００は、ブロック９５２で終了する。

図１０は、２つのネガティブ二項分布を用いたエラー訂正の非限定的な例示的実施形態１０００を示すフローチャートである。方法１０００のブロック（たとえば、ブロック９０４～９５２）は、図９を参照にして説明されている。手短には、方法１０００は、複数の確率バーコード付き標的のシーケンシングデータを受け取った後、ブロック９０４で開始する。いくつかの実施形態では、方法１０００は、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程をさらに含み、ここで、複数の確率バーコードの各々は、分子標識を含む。いくつかの実施形態では、方法１０００は、さらに、複数の確率バーコード付き標的をシーケンシングして、シーケンシングデータを取得する工程も含む。

ブロック９０８で、複数の標的の１つ以上について：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントすることができる。ブロック９１６で、方向近接性に基づいて分子標識カウントを調節することができる。いくつかの実施形態では、方向近接性に基づいて分子標識カウントを調節する工程は、図７を参照にして説明することができる。

ブロック９２０で、シーケンシングデータ中の標的のシーケンシングステータスを決定することができる。シーケンシングデータ中の標的のシーケンシングステータスは、過少シーケンシングを含むか、または過少シーケンシングであってもよい。決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスであるか否かを決定することができる。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスでなければ、方法１０００は、任意選択で、決定ブロック１００４に進むことができる。決定ブロック１００４で、標的のシーケンシング深度を所定のシーケンシング深度閾値と比較することができる。シーケンシング深度閾値は、さまざまな履行において異なるものであってよい。たとえば、標的のシーケンシング深度は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、またはこれらの値のいずれか２つの間の数もしくは範囲、または概ねそうした値でありうる。別の例として、標的のシーケンシング深度は、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００でありうる。

標的のシーケンシング深度が、シーケンシング深度閾値より大きい場合、方法１０００は、ブロック９２８に進む。標的のシーケンシング深度が、シーケンシング深度閾値以下である場合、方法１０００は、ブロック１００８に進む。ブロック１００８で、ブロック９４８の出力を生成する工程の前に、シングルトン（たとえば、単一塩基置換）を除去することができる。

ブロック９２８で、分子標識カウントをフィルタリングすることができる。分子標識カウントをフィルタリングする工程は、決定ブロック９１２で、シーケンシングデータが、飽和シーケンシングステータスを有するか否かを決定する工程を含むことができる。シーケンシングデータが、決定ブロック９１２で、飽和シーケンシングステータスを有していない場合、方法１０００は、決定ブロック９３２に進むことができる。決定ブロック９３２で、擬似点閾値より少ない、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を決定することができる。

決定ブロック９３２で、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９００は、任意選択で、ブロック９３６に進み、そこで、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する前に、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に擬似点を追加することができる。いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９００は、ブロックに進むことができ、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９４４。

決定ブロック９３２で、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値以上である場合、非ユニーク分子標識をブロック９４０で除去することができる。非ユニーク分子標識は、ブロック９４４でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定するために、除去することができる。非ユニーク分子標識は、所定の再使用分子標識閾値より大きい、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識を含みうる。

ブロック９４４で、分布ベースのエラー訂正方法を用いて、分子標識カウントを調節することができる。分布ベースのエラー訂正方法は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程を含みうる。ノイズ分子標識の数を決定する工程は、２つのネガティブ二項分布、すなわち、シグナルネガティブ二項分布とノイズネガティブ二項分布とを、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程を含みうる。シグナルネガティブ二項分布は、シグナル分子標識である、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する。ノイズネガティブ二項分布は、ノイズ分子標識である、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する。ノイズ分子標識の数を決定する工程は、当てはめたシグナルネガティブ二項分布と、当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程を含むことができる。

ブロック９４８で、標的の数を推定して、近接性に基づくエラー訂正および分布ベースのエラー訂正後に出力を生成することができる。決定ブロック９１２で、シーケンシングデータ中の標的のシーケンシングステータスが、飽和シーケンシングステータスである場合、方法１０００は、ブロック９４８に進んで、方向近接性および分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスである場合、方法１０００は、ブロック９４８に進んで、分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。たとえば、決定されたノイズ分子標識の数は、ゼロであってもよい。方法１０００は、ブロック９５２で終了する。

方向近接性に基づくＰＣＲおよびシーケンシングエラーの訂正、分布に基づくエラーの訂正、ならびにサブサンプリング
図１１は、２つのネガティブ二項分布を用いたエラー訂正の非限定的な例示的実施形態１１００を示すフローチャートである。方法１１００のブロック（たとえば、ブロック９０４～９５２）は、図９を参照にして説明されている。手短には、方法１１００は、複数の確率バーコード付き標的のシーケンシングデータを受け取った後、ブロック９０４で開始する。いくつかの実施形態では、方法１１００は、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程をさらに含み、ここで、複数の確率バーコードの各々は、分子標識を含む。いくつかの実施形態では、方法１１００は、さらに、複数の確率バーコード付き標的をシーケンシングして、シーケンシングデータを取得する工程も含む。

ブロック９０８で、複数の標的の１つ以上について：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントすることができる。決定ブロック９１２で、シーケンシングデータが、飽和シーケンシングステータスを有するか否かを決定することができる。シーケンシングデータが、決定ブロック９１２で、飽和シーケンシングステータスを有していなければ、方法１１００は、ブロック９１６に進み、ここで、分子標識カウントは、方向近接性に基づいて調節されうる。いくつかの実施形態では、方向近接性に基づき分子カウントを調節する工程は、図７を参照にして説明することができる。

ブロック９２０で、シーケンシングデータ中の標的のシーケンシングステータスを決定することができる。シーケンシングデータ中の標的のシーケンシングステータスは、過少シーケンシングを含むか、または過少シーケンシングでありうる。決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスであるか否かを決定することができる。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスでなければ、方法１１００は、任意選択で、決定ブロック１１０４に進むことができる。決定ブロック１１０４で、シーケンシングデータ中の標的のシーケンシングステータスが、過剰シーケンシングデータであるか否かを決定することができる。たとえば、標的は、その深度（たとえば、平均、最小、もしくは最大深度）が、５０、１００、２００、２５０、３００、４００、５００、６００、７００、８００、９００、１０００、またはこれらの値のいずれか２つの間の数もしくは範囲より大きいか、または概ねそうした値より大きい場合、過剰シーケンシングステータスまたは高度発現標的を有するとみなすことができる。別の例として、標的は、その深度が、少なくとも、または多くとも、５０、１００、２００、２５０、３００、４００、５００、６００、７００、８００、９００、もしくは１０００より大きい場合、過少シーケンシングステータスを有するとみなすことができる。

いくつかの実施形態では、過剰シーケンシングステータスまたは高度発現標的は、所定の過剰シーケンシング閾値より大きい深度（たとえば、平均、最小、もしくは最大深度）を有する標的によって決定することができる。過剰シーケンシング閾値は、さまざまな履行において異なるものであってよい。たとえば、過剰シーケンシング閾値は、５０、１００、２００、２５０、３００、４００、５００、６００、７００、８００、９００、１０００、またはこれらの値のいずれか２つの間の数もしくは範囲、または概ねそうした値でありうる。別の例として、過剰シーケンシング閾値は、少なくとも、または多くとも、５０、１００、２００、２５０、３００、４００、５００、６００、７００、８００、９００、１０００でありうる。

いくつかの実施形態では、過剰シーケンシングステータスは、識別可能な配列を有する確率バーコードの分子標識の数に依存しうる。たとえば、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、過剰シーケンシング閾値は、５０、１００、２００、２５０、３００、４００、５００、６００、７００、８００、９００、１０００、またはこれらの値のいずれか２つの間の数もしくは範囲、または概ねそうした値でありうる。別の例として、確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、過剰シーケンシング閾値は、少なくとも、または多くとも、５０、１００、２００、２５０、３００、４００、５００、６００、７００、８００、９００、１０００でありうる。いくつかの実施形態では、過少シーケンシングステータスは、識別可能な配列を有する確率バーコードの分子標識の数に依存しない場合もある。

決定ブロック１１０４で、標的が、過剰シーケンシングステータスを有する場合、方法１１００は、ブロック１１０８に進む。ブロック１１０８で、標的のＭＬカバー率は、たとえば、全標的のＭＬカバー率をサブサンプリングすることによって減少されうる。たとえば、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、全標的についての所定の過剰シーケンシング閾値の近似値までサブサンプリングされうる（たとえば、１０）。方法１１００は、ブロック１１０８からブロック９２８に進む。

決定ブロック１１０４で、標的が、過剰シーケンシングステータスを有していなければ、方法１１００は、ブロック９２８に進んで、分子標識カウントをフィルタリングする。分子標識カウントをフィルタリングする工程は、決定ブロック９３２で、擬似点閾値より少ない、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を決定する工程を含みうる。

ブロック９４４で、分布ベースのエラー訂正方法を用いて、分子標識カウントを調節することができる。分布ベースのエラー訂正方法は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程を含みうる。ノイズ分子標識の数を決定する工程は、２つのネガティブ二項分布、すなわち、シグナルネガティブ二項分布とノイズネガティブ二項分布とを、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程を含みうる。シグナルネガティブ二項分布は、シグナル分子標識である、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する。ノイズネガティブ二項分布は、ノイズ分子標識である、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する。ノイズ分子標識の数を決定する工程は、当てはめたシグナルネガティブ二項分布と、当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程を含む。

ブロック９４４で分布ベースのエラー訂正を用いて分子標識カウントを調節した後、方法１１００は、任意選択で、ブロック１１１２に進む。ブロック１１１２で、ブロック９４４からの調節された分子標識カウントを、ブロック９１６で決定されて、方向近接性に基づき調節された分子標識カウントと合わせることができる。たとえば、非ユニーク分子標識は、ブロック９４０で除去されるため、ブロック９４４で分布当てはめには使用されない。しかし、これらの分子標識は、ブロック９１６で決定されて、方向近接性に基づき調節された分子標識カウント中に依然として存在する。従って、ブロック９４４からの調節された分子標識カウントと、ブロック９４４で調節された分子標識カウントを合わせて、ブロック９４８で出力を生成することができる。

決定ブロック９１２で、シーケンシングデータ中の標的のシーケンシングステータスが、飽和シーケンシングステータスであれば、方法１１００は、ブロック９４８に進んで、方向近接性および分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスであれば、方法１１００は、ブロック９４８に進んで、分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。たとえば、決定されるノイズ分子標識の数は、ゼロでありうる。方法１１００は、たとえば、ブロック９５２で終了しうる。

図１２は、２つのネガティブ二項分布を用いたエラー訂正の非限定的な例示的実施形態１２００を示すフローチャートである。方法１２００のブロック（たとえば、ブロック９０４～９５２およびブロック１１０４）は、図９および１１を参照にして説明されている。手短には、方法１２００は、複数の確率バーコード付き標的のシーケンシングデータを受け取った後、ブロック９０４で開始する。いくつかの実施形態では、方法１２００は、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程をさらに含み、ここで、複数の確率バーコードの各々は、分子標識を含む。いくつかの実施形態では、方法１２００は、さらに、複数の確率バーコード付き標的をシーケンシングして、シーケンシングデータを取得する工程も含む。

ブロック９０８で、複数の標的の１つ以上について：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントすることができる。決定ブロック９１２で、シーケンシングデータが、飽和シーケンシングステータスを有するか否かを決定することができる。シーケンシングデータが、決定ブロック９１２で、飽和シーケンシングステータスを有していなければ、方法１２００は、ブロック９１６に進み、ここで、分子標識カウントは、方向近接性に基づいて調節されうる。いくつかの実施形態では、方向近接性に基づき分子カウントを調節する工程は、図７を参照にして説明することができる。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスでなければ、方法１２００は、任意選択で、決定ブロック１１０４に進むことができる。決定ブロック１１０４で、シーケンシングデータ中の標的のシーケンシングステータスが、過剰シーケンシングデータであるか否かを決定することができる。

決定ブロック１１０４で、標的が、過剰シーケンシングステータスを有するか、または標的が、高度発現標的である場合、方法１２００は、任意選択で、ブロック１２０８に進む。ブロック１２０８で、標的のＭＬカバー率は、たとえば、標的毎にＭＬカバー率をサブサンプリングすることによって減少されうる。たとえば、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、標的毎に所定の過剰シーケンシング閾値の近似値までサブサンプリングされうる。方法１２００は、ブロック１２０８からブロック９２８に進む。

決定ブロック１１０４で、標的が、過剰シーケンシングステータスを有していなければ、方法１２００は、ブロック９２８に進んで、分子標識カウントをフィルタリングする。分子標識カウントをフィルタリングする工程は、決定ブロック９３２で、擬似点閾値より少ない、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を決定する工程を含みうる。

ブロック９３２で、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９００は、任意選択で、ブロック９３６に進み、そこで、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する前に、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に擬似点を任意選択で追加することができる。いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９００は、ブロックに進むことができ、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９４４。

ブロック９４４で、分布ベースのエラー訂正方法を用いて、分子標識カウントを調節することができる。分布ベースのエラー訂正方法は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程を含みうる。ノイズ分子標識の数を決定する工程は、２つのネガティブ二項分布、すなわち、シグナルネガティブ二項分布とノイズネガティブ二項分布とを、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程を含みうる。シグナルネガティブ二項分布は、シグナル分子標識である、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する。ノイズネガティブ二項分布は、ノイズ分子標識である、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する。ノイズ分子標識の数を決定する工程は、当てはめたシグナルネガティブ二項分布と、当てはめたノイズネガティブ二項分布とを用いて、ノイズ分子標識の数を決定する工程を含む。

ブロック９４４で分布ベースのエラー訂正を用いて分子標識カウントを調節した後、方法１２００は、任意選択で、ブロック１１１２に進む。ブロック１１１２で、ブロック９４４からの調節された分子標識カウントを、ブロック９１６で決定されて、方向近接性に基づき調節された分子標識カウントと合わせることができる。たとえば、非ユニーク分子標識は、ブロック９４０で除去されるため、ブロック９４４で分布当てはめには使用されない。しかし、これらの分子標識は、ブロック９１６で決定されて、方向近接性に基づき調節された分子標識カウント中に依然として存在する。従って、ブロック９４４からの調節された分子標識カウントと、ブロック９４４で調節された分子標識カウントを合わせて、ブロック９４８で出力を生成することができる。

決定ブロック９１２で、シーケンシングデータ中の標的のシーケンシングステータスが、飽和シーケンシングステータスであれば、方法１２００は、ブロック９４８に進んで、方向近接性および分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスであれば、方法１２００は、ブロック９４８に進んで、分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。たとえば、決定されるノイズ分子標識の数は、ゼロでありうる。方法１２００は、ブロック９５２で終了する。

分布当てはめのための初期パラメータ推定を用いた、方向近接性および分布ベースのエラー訂正に基づくＰＣＲおよびシーケンシングエラーの訂正
図１３は、再帰による再帰的置換エラー訂正および分布ベースのエラー訂正に基づくＰＣＲおよびシーケンシングエラーの訂正の非限定的な例示的実施形態１３を示すフローチャートである。本方法１３００のブロック（たとえば、ブロック９０４～９５２）は、図９を参照にして説明されている。手短には、方法１３００は、複数の確率バーコード付き標的のシーケンシングデータを受け取った後、ブロック９０４で開始する。いくつかの実施形態では、方法１３００は、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程をさらに含み、ここで、複数の確率バーコードの各々は、分子標識を含む。いくつかの実施形態では、方法１３００は、さらに、複数の確率バーコード付き標的をシーケンシングして、シーケンシングデータを取得する工程も含む。

ブロック９０８で、複数の標的の１つ以上について：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントすることができる。決定ブロック９１２で、シーケンシングデータが、飽和シーケンシングステータスを有するか否かを決定することができる。シーケンシングデータが、決定ブロック９１２で、飽和シーケンシングステータスを有していなければ、方法１３００は、ブロック９１６に進み、ここで、方向近接性に基づいて分子標識カウントを調節することができる。いくつかの実施形態では、方向近接性に基づいて分子標識カウントを調節する工程は、図７を参照にして説明することができる。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスでなければ、方法１３００は、ブロック９２８に進んで、分子標識カウントをフィルタリングすることができる。分子標識カウントをフィルタリングする工程は、決定ブロック９３２で、擬似点閾値より少ない、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を決定する工程を含みうる。

決定ブロック９３２で、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値以上である場合、非ユニーク分子標識をブロック９４０で除去することができる。

ブロック９４４で分子標識カウントを調節する前に、ブロック１３０４で、２つのネガティブ二項分布の初期パラメータを任意選択で推定することができる。２つのネガティブ二項分布の初期パラメータは、さまざまな履行において異なるものであってよい。いくつかの実施形態では、２つのネガティブ二項分布の各々の平均および散布度は、１でありうる。いくつかの実施形態では、２つのネガティブ二項分布の平均および散布度は、ブロック９２８からのフィルタリング済分子標識カウントの空でない部分集合の平均および散布度であると推定されうる。たとえば、サブセットは、ブロック９２８からのフィルタリング済分子標識カウントの２５％～７５％分位でありうる。これらの分位の上限または下限は、さまざまな履行において異なるものであってよい。いくつかの実施形態では、上限または下限は、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、２０％、３０％、４０％、５０％、７０％、８０％、９０％、９９％、またはこれらの値のいずれか２つの間の数もしくは範囲であるか、またはこれらの近似値でありうる。いくつかの実施形態では、上限または下限は、少なくとも、または多くとも、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、２０％、３０％、４０％、５０％、７０％、８０％、９０％、９９％、もしくは１００％でありうる。

ブロック９４８で、標的の数を推定して、近接性に基づくエラー訂正および分布ベースのエラー訂正後に出力を生成することができる。決定ブロック９１２で、シーケンシングデータ中の標的のシーケンシングステータスが、飽和シーケンシングステータスである場合、方法１３００は、ブロック９４８に進んで、方向近接性および分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスである場合、方法１３００は、ブロック９４８に進んで、分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。たとえば、決定されたノイズ分子標識の数は、ゼロであってもよい。方法１３００は、たとえば、ブロック９５２で終了する。

図１４は、初期パラメータ推定値のための２番目に高い分子標識を用いることによる、再帰的置換エラー訂正および分布ベースのエラー訂正に基づくＰＣＲおよびシーケンシングエラーの訂正の非限定的な例示的実施形態を示すフローチャートである。本方法１４００のブロック（たとえば、ブロック９０４～９５２）は、図９を参照にして説明されている。手短には、方法１４００は、複数の確率バーコード付き標的のシーケンシングデータを受け取った後、ブロック９０４で開始する。いくつかの実施形態では、方法１４００は、複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程をさらに含み、ここで、複数の確率バーコードの各々は、分子標識を含む。いくつかの実施形態では、方法１４００は、さらに、複数の確率バーコード付き標的をシーケンシングして、シーケンシングデータを取得する工程も含む。

ブロック９０８で、複数の標的の１つ以上について：シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントすることができる。決定ブロック９１２で、シーケンシングデータが、飽和シーケンシングステータスを有するか否かを決定することができる。シーケンシングデータが、決定ブロック９１２で、飽和シーケンシングステータスを有していなければ、方法１４００は、ブロック９１６に進み、ここで、方向近接性に基づいて分子標識カウントを調節することができる。いくつかの実施形態では、方向近接性に基づいて分子標識カウントを調節する工程は、図７を参照にして説明することができる。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスでなければ、方法１４００は、ブロック９２８に進んで、分子標識カウントをフィルタリングすることができる。分子標識カウントをフィルタリングする工程は、決定ブロック９３２で、擬似点閾値より少ない、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を決定する工程を含みうる。

決定ブロック９３２で、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、方法９００は、任意選択で、ブロック９３６に進み、そこで、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する前に、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に擬似点を追加することができる。

ブロック９４４で、分布ベースのエラー訂正方法を用いて、分子標識カウントを調節することができる。分布ベースのエラー訂正方法のための初期パラメータは、分子標識のカウントに基づくものであってよい。たとえば、ネガティブ二項分布（たとえば、シグナルネガティブ二項分布もしくはノイズネガティブ二項分布）の一方の初期パラメータ（たとえば、平均および散布度）は、分子標識のカウントまたは分子標識の数の平均もしくはカウントに基づくものであってよい。この分子標識は、２番目に高いカウントの分子標識または任意の等級付け（たとえば、１０番目に高いカウント）の分子標識であってもよい。分子標識の等級付けは、さまざまな履行において異なりうる。いくつかの実施形態では、等級付けは、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、またはこれらの値のいずれか２つの間の数もしくは範囲、またはこれらの近似値でありうる。いくつかの実施形態では、等級付けは、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００でありうる。分子標識の数は、さまざまな履行において異なりうる。いくつかの実施形態では、分子標識の数は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、またはこれらの値のいずれか２つの間の数もしくは範囲、またはこれらの近似値でありうる。いくつかの実施形態では、分子標識の数は、少なくとも、または多くとも、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００でありうる。

ブロック９４８で、標的の数を推定して、近接性に基づくエラー訂正および分布ベースのエラー訂正後に出力を生成することができる。決定ブロック９１２で、シーケンシングデータ中の標的のシーケンシングステータスが、飽和シーケンシングステータスである場合、方法１４００は、ブロック９４８に進んで、方向近接性および分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。

決定ブロック９２４で、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスである場合、方法１４００は、ブロック９４８に進んで、分布ベースのエラー訂正に基づいて分子標識を調節することなく、出力を生成することができる。たとえば、決定されたノイズ分子標識の数は、ゼロであってもよい。方法１４００は、ブロック９５２で終了する。

シーケンシング
いくつかの実施形態では、確率バーコード付き標的の数を推定する工程は、標識標的、空間標識、分子標識、サンプル標識、細胞標識、またはその任意の産物（たとえば、標識アンプリコン、もしくは標識ｃＤＮＡ分子）の配列を決定する工程を含みうる。増幅された標的をシーケンシングに付すことができる。確率バーコード付き標的またはその任意の産物の配列を決定する工程は、サンプル標識の少なくとも一部、空間標識、細胞標識、分子標識、確率バーコード付き標的の少なくとも一部、その相補鎖、逆相補鎖、またはその任意の組合せの配列を決定するために、シーケンシング反応を実施する工程を含みうる。

確率バーコード付き標的（たとえば、増幅された核酸、標識核酸、標識核酸のｃＤＮＡコピーなど）の配列の決定は、さまざまなシーケンシング方法を用いて実施することができ、そうした方法として、限定するものではないが、ハイブリダイゼーションによるシーケンシング（ＳＢＨ）、ライゲーションによるシーケンシング（ＳＢＬ）、定量的インクリメンタル蛍光ヌクレオチド付加シーケンシング（ＱＩＦＮＡＳ）、段階的ライゲーションおよび切断、蛍光共鳴エネルギー移動（ＦＲＥＴ）、分子ビーコン、ＴａｑＭａｎリポータプローブ消化、パイロシーケンシング、蛍光ｉｎｓｉｔｕシーケンシング（ＦＩＳＳＥＱ）、ＦＩＳＳＥＱビーズ、ワブル（ｗｏｂｂｌｅ）シーケンシング、多重シーケンシング、重合コロニー（ＰＯＬＯＮＹ）シーケンシング；ナノグリッドローリングサークルシーケンシング（ＲＯＬＯＮＹ）、対立遺伝子特異的オリゴライゲーションアッセイ（たとえば、オリゴライゲーション（ＯＬＡ）、ライゲートした線状プローブおよびローリングサークル増幅（ＲＣＡ）読み出しを用いた単一テンプレート分子ＯＬＡ、ライゲートした錠型（ｐａｄｌｏｃｋ）プローブ、またはライゲートした環状錠型プローブおよびローリングサークル増幅（ＲＣＡ）を用いた単一テンプレート分子ＯＬＡなどが挙げられる。

いくつかの実施形態では、確率バーコード標的またはその任意の産物の配列を決定する工程は、ペアエンドシーケンシング、ナノポアシーケンシング、ハイスループットシーケンシング、ショットガンシーケンシング、ダイターミネータシーケンシング、マルチプルプライマーＤＮＡシーケンシング、プライマーウォーキングを含み、サンガー（Ｓａｎｇｅｒ）ジデオキシシーケンシング、マクサム・ギルバート（ＭａｘａｍＧｉｌｂｅｒｔ）シーケンシング、パイロシーケンシング、真の単一分子シーケンシング、またはそれらの任意の組合せを含む。あるいは、確率バーコード付き標的またはその任意の産物の配列は、電子顕微鏡検査または化学－感受性電界効果トランジスタ（ｃｈｅｍＦＥＴ）アレイにより決定することができる。

Ｒｏｃｈｅ４５４、ＩｌｌｕｍｉｎａＳｏｌｅｘａ、ＡＢＩ－ＳＯＬｉＤ、ＩＯＮ
Ｔｏｒｒｅｎｔ、ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓ、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅ、Ｈｅｌｉｃｏｓ、またはＰｏｌｏｎａｔｏｒプラットホームといったプラットホームを用いた環状アレイシーケンシングなどのハイスループットシーケンシング方法も使用することができる。いくつかの実施形態では、シーケンシングは、ＭｉＳｅｑシーケンシングを含みうる。いくつかの実施形態では、シーケンシングは、ＨｉＳｅｑシーケンシングを含みうる。

確率バーコード付き標的は、生物のゲノムの遺伝子の約０．０１％～生物のゲノムの遺伝子の約１００％を占める核酸を含みうる。たとえば、複数の多量体を含む標的相補領域を用いて、サンプル中の相補配列を含む遺伝子を捕捉することにより、生物のゲノムの遺伝子の約０．０１％～生物のゲノムの遺伝子の約１００％をシーケンシングすることができる。いくつかの実施形態では、確率バーコード付き標的は、生物のトランスクリプトームの転写物の約０．０１％～生物のトランスクリプトームの転写物の約１００％を占める核酸を含む。たとえば、ポリ（Ｔ）テールを含む標的相補的領域を用いて、サンプルからｍＲＮＡを捕捉することにより、生物のトランスクリプトームの転写物の約０．５０１％～生物のトランスクリプトームの転写物の約１００％をシーケンシングすることができる。

複数の確率バーコードの空間標識および分子標識の配列を決定する工程は、複数の確率バーコードの０．００００１％、０．０００１％、０．００１％、０．０１％、０．１％、１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９９％、１００％、またはこれらの値のいずれか２つの間の数もしくは範囲をシーケンシングする工程を含みうる。複数の確率バーコードの標識、たとえば、サンプル標識、空間標識、および分子標識の配列を決定する工程は、複数の確率バーコードの１、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、１０³、１０⁴、１０⁵、１０⁶、１０⁷、１０⁸、１０⁹、１０¹⁰、１０¹¹、１０¹²、１０¹³、１０¹⁴、１０¹⁵、１０¹⁶、１０¹⁷、１０¹⁸、１０¹⁹、１０²⁰、またはこれらの値のいずれか２つの間の数もしくは範囲をシーケンシングする工程を含みうる。複数の確率バーコードの一部または全部をシーケンシングする工程は、約、少なくとも、または多くとも、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、またはこれらの値のいずれか２つの間の数もしくは範囲のヌクレオチドまたは塩基のリード長の配列を生成する工程を含みうる。

シーケンシング工程は、確率バーコード付き標的の少なくともまたは少なくとも約１０、２０、３０、４０、５０、６０、７０、８０、９０、１００以上のヌクレオチドまたは塩基対をシーケンシングする工程を含みうる。たとえば、シーケンシング工程は、複数の確率バーコード付き標的に対するポリメラーゼ鎖反応（ＰＣＲ）増幅を実施することにより、５０、７５、もしくは１００以上のヌクレオチドのリード長を有するシーケンシングデータを生成する工程を含みうる。シーケンシング工程は、確率バーコード付き標的の少なくともまたは少なくとも約２００、３００、４００、５００、６００、７００、８００、９００、１，０００以上のヌクレオチドまたは塩基対をシーケンシングする工程を含みうる。シーケンシング工程は、確率バーコード付き標的の少なくともまたは少なくとも約１，５００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、もしくは１００００以上のヌクレオチドまたは塩基対をシーケンシングする工程を含みうる。

シーケンシング工程は、ラン当たり少なくとも約２００、３００、４００、５００、６００、７００、８００、９００、１，０００以上のシーケンシングリードを含みうる。いくつかの実施形態では、シーケンシング工程は、ラン当たり少なくともまたは少なくとも約１，５００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、もしくは１００００以上のシーケンシングリードを含みうる。シーケンシング工程は、ラン当たり約１，６００，０００，０００以下のシーケンシングリードを含みうる。シーケンシング工程は、ラン当たり約２００，０００，０００以下のリードを含みうる。

サンプル
いくつかの実施形態では、１つ以上のサンプル中に複数の標識が含有されうる。１サンプルは、１つ以上の細胞、または１つ以上の細胞由来の核酸を含みうる。１サンプルは、単一細胞、または１細胞由来の核酸であってよい。１つ以上の細胞は、１つ以上の細胞型であってよい。１つ以上の細胞型の少なくとも１つは、脳細胞、心臓細胞、癌細胞、循環腫瘍細胞、器官細胞、上皮細胞、転移性細胞、良性細胞、一次細胞、循環細胞、またはそれらの任意の組合せである。

本開示の方法に使用するためのサンプルは、１つ以上の細胞を含みうる。サンプルは、１つ以上の細胞を意味する。いくつかの実施形態では、複数の細胞は、１つ以上の細胞を含みうる。１つ以上の細胞型の少なくとも１つは、脳細胞、心臓細胞、癌細胞、循環腫瘍細胞、器官細胞、上皮細胞、転移性細胞、良性細胞、一次細胞、循環細胞、またはそれらの任意の組合せであってよい。いくつかの実施形態では、細胞は、癌組織、たとえば、乳癌、肺癌、結腸癌、前立腺癌、卵巣癌、膵癌、脳癌、黒色腫および非黒色腫皮膚癌などから切除された癌細胞である。いくつかの場合には、細胞は、癌に由来するが体液から採取される（たとえば循環腫瘍細胞）。癌の非限定的な例としては、腺腫、腺癌、扁平上皮細胞癌、基底細胞癌、小細胞癌、大細胞未分化癌、軟骨肉腫、および線維肉腫が挙げられる。サンプルは、組織、細胞単層、固定細胞、組織片、またはそれらの任意の組合せを含みうる。サンプルは、生体サンプル、臨床サンプル、環境サンプル、生体体液、組織、または被検者からの細胞を含みうる。サンプルは、ヒト、哺乳動物、イヌ、ラット、マウス、魚類、ハエ、蠕虫、植物、真菌、細菌、ウイルス、脊椎動物、または非脊椎動物から取得することができる。

いくつかの実施形態では、細胞は、ウイルスに感染していてウイルスオリゴヌクレオチドを含有する細胞である。いくつかの実施形態では、ウイルス感染は、一本鎖（＋鎖または「センス」）ＤＮＡウイルス（たとえば、パルボウイルス）、または二本鎖ＲＮＡウイルス（たとえば、レトロウイルス）などのウイルスにより引き起こされうる。いくつかの実施形態では、細胞は、細菌である。これらは、グラム陽性またはグラム陰性菌のいずれかを含みうる。いくつかの実施形態では、細胞は、真菌である。いくつかの実施形態では、細胞は、原生動物またはその他の寄生体である。

本明細書で使用されるとき、「細胞」という用語は、１つ以上の細胞を意味しうる。いくつかの実施形態では、細胞は、正常細胞、たとえば、さまざまな発生段階のヒト細胞、またはさまざまな器官もしくは組織型に由来するヒト細胞である。いくつかの実施形態では、非ヒト細胞、たとえば、他のタイプの哺乳動物細胞（たとえば、マウス、ラット、ブタ、イヌ、ウシ、またはウマ）である。いくつかの実施形態では、細胞は、他のタイプの動物または植物細胞である。他の実施形態では、細胞は、任意の原核細胞または真核細胞でありうる。

本明細書で使用されるとき、細胞は、細胞をビーズに関連付ける前にソートされる。たとえば、細胞は、蛍光活性化細胞ソーティングまたは磁気活性化細胞ソーティング、またはより一般的にはフローサイトメトリーによりソートすることができる。細胞はサイズ別に濾過することができる。いくつかの実施形態では、リテンテートは、ビーズに関連付けられる細胞を含有する。いくつかの実施形態では、フロースルーは、ビーズに関連付けられる細胞を含有する。

サンプルは、複数の細胞を意味しうる。サンプルは、細胞の単層を意味しうる。サンプルは、薄い切片（たとえば、組織薄片）を意味しうる。サンプルは、一次元のアレイに配置することができる細胞の固体または半固体コレクションを意味しうる。

データ解析および表示ソフトウェア
データ解析および標的の空間分解能の可視化
本開示は、確率バーコーディングおよび空間標識を使ってディジタルカウンティングを用いて標的の数および位置を推定する方法を提供する。本開示の方法から得られるデータはマップ上に可視化可能である。サンプルの標的の数および位置のマップは、本明細書に記載の方法を用いて生成された情報を用いて構築可能である。マップは、標的の物理的位置を決定するために使用可能である。マップは、複数の標的の位置を同定するために使用可能である。複数の標的は標的の同一種でありうるか、または複数の標的は複数の異なる標的でありうる。たとえば、脳のマップを構築して複数の標的のディジタルカウントおよび位置を示すことが可能である。

マップは、単一のサンプルのデータから生成可能である。マップは、複数のサンプルのデータを用いて構築可能であり、それにより組合せマップを生成可能である。マップは、何十、何百、および／または何千ものサンプルのデータで構築可能である。複数のサンプルから構成されるマップは、複数のサンプルに共通する領域に関連付けられる標的のディジタルカウントの分布を示すことが可能である。たとえば、レプリケートアッセイは同一のマップ上に表示可能である。少なくとも１、２、３、４、５、６、７、８、９、もしくは１０レプリケートまたはそれ以上を同一のマップ上に表示（たとえばオーバーレイ）しうる。多くとも１、２、３、４、５、６、７、８、９、もしくは１０レプリケートまたはそれ以上を同一のマップ上に表示（たとえばオーバーレイ）しうる。標的の空間分布および数は、さまざまな統計量により表すことが可能である。

複数のサンプルからのデータを合わせることにより、合わせたマップの位置的解像度を高めることができる。複数のサンプルの配向は、共通のランドマークにより登録することができ、そこで、サンプル全域に及ぶ個別の位置測定値は、少なくとも部分的に非連続的である。具体的な例は、ミクロトームを用いて、１つの軸上でサンプルを切断してから、別の軸に沿って第２のサンプルを切断するものである。合わせたデータベースは、標的のディジタルカウントを伴う三次元の空間位置を付与するであろう。前述のアプローチを多重化することにより、ディジタルカウント統計学の高解像度三次元マップが可能になるであろう。

機器システムのいくつかの実施形態では、システムは、単一細胞確率バーコーディングアッセイを行うことにより生成されたシーケンスデータセットのデータ解析を提供するためのコードを含むコンピュータ可読媒体を含むであろう。データ解析ソフトウェアにより提供しうるデータ解析機能の例としては、限定されるものではないが、（ｉ）アッセイの実施時に生成された確率バーコードライブラリーをシーケンスすることにより提供されるサンプル標識、細胞標識、空間標識、分子標識、および標的シーケンスデータのデコーディング／デマルチプレクシングのためのアルゴリズム、（ｉｉ）リード数／遺伝子／細胞およびユニーク転写物分子数／遺伝子／細胞を決定するためのアルゴリズム、（ｉｉｉ）たとえば、遺伝子発現データにより細胞をクラスター化するためのまたは転写物分子数／遺伝子／細胞などの決定の信頼区間を予測するためのシーケンスデータの統計解析、（ｉｖ）たとえば、主成分分析、階層的クラスタリング、ｋ平均値クラスタリング、自己組織化マップ、神経回路網などを用いて、希少細胞のサブ集団を同定するためのアルゴリズム、（ｖ）遺伝子配列データを既知の参照配列にアライメントするためのおよび突然変異、多型体マーカー、およびスプライス変異体を検出するための配列アライメント機能、ならびに（ｖｉ）増幅またはシーケンシングエラーを補償するための分子標識の自動クラスタリングが挙げられる。いくつかの実施形態では、データ解析の全部または一部を行うために市販のソフトウェアを使用しうる。たとえば、全細胞コレクションで各細胞に存在する１遺伝子以上のコピー数の表を編集するためにＳｅｖｅｎＢｒｉｄｇｅｓ（ｈｔｔｐｓ：／／ｗｗｗ．ｓｂｇｅｎｏｍｉｃｓ．ｃｏｍ／）ソフトウェアを使用しうる。いくつかの実施形態では、データ解析ソフトウェアは、有用なグラフ形式のシーケンシング結果、たとえば、細胞集団の各細胞に存在する１遺伝子以上のコピー数を示すヒートマップを出力するためのオプションを含みうる。いくつかの実施形態では、データ解析ソフトウェアは、たとえば、細胞集団の各細胞に存在する１遺伝子以上のコピー数と、あるタイプの細胞、あるタイプの希少細胞型、または特異的疾患もしくは病態を有する被験体に由来する細胞と、を相関付けることにより、シーケンシング結果から生物学的意味を抽出するためのアルゴリズムをさらに含みうる。ある実施形態では、データ解析ソフトウェアは、異なる生物学的サンプル全体にわたり細胞集団を比較するためのアルゴリズムをさらに含みうる。

いくつかの実施形態では、データ解析機能のすべてを単一ソフトウェアパッケージ内にパッケージ化しうる。いくつかの実施形態では、データ解析能力の完全セットは、一式のソフトウェアパッケージを含みうる。いくつかの実施形態では、データ解析ソフトウェアは、アッセイ機器システムに依存せずにユーザーが利用可能なスタンドアロンパッケージでありうる。いくつかの実施形態では、ソフトウェアはウェブベースでありうるとともに、ユーザーによるデータの共有を可能しうる。

いくつかの実施形態では、データ解析機能性のすべてを単一のソフトウェアパッケージ内にパッケージすることができる。いくつかの実施形態では、データ解析能力の完全セットは、一式のソフトウェアパッケージを含みうる。いくつかの実施形態では、データ解析ソフトウェアは、アッセイ機器システムとは独立に、ユーザーが利用可能なスタンドアロンパッケージであってよい。いくつかの実施形態では、ソフトウェアは、ウェブベースでありうるとともに、ユーザーによるデータの共有が可能になりうる。

システムプロセッサーおよびネットワーク
一般的には、本開示の機器システム方法にての使用に適したコンピュータまたはプロセッサーは、図１５に示すように、固定媒体１５１２を有するサーバー１５０９に任意選択的に接続可能な媒体１５１１またはネットワークポート１５０５から命令を読取り可能な論理装置としてさらに理解しうる。システム１５００は、図１５に示すように、ＣＰＵ１５０１、ディスクドライブ１５０３、キーボード１５１５やマウス１５１６などのオプションの入力デバイス、およびオプションのモニター１５０７を含みうる。データ通信は、ローカル位置またはリモート位置のサーバーに対して指定の通信媒体を介して達成可能である。通信媒体は、データを送受信する任意の手段を含みうる。たとえば、通信媒体は、ネットワーク接続、無線接続、またはインターネット接続でありうる。かかる接続は、ＷｏｒｌｄＷｉｄｅＷｅｂによる通信を提供可能である。本開示に関するデータは、図１５に示すように、かかるネットワークまたは接続を介してあるパーティー１５２２による受信または閲覧のために伝送可能である。

図１６が示すコンピュータシステム１６００の第１のアーキテクチャー例の例示的な実施形態は、本開示の実施形態例との関連で使用可能である。図１６が示すように、コンピュータシステム例は、処理命令用のプロセッサー１６０２を含みうる。プロセッサーの例としては、限定されるものではないが、ＩｎｔｅｌＸｅｏｎ（商標）プロセッサー、ＡＭＤＯｐｔｅｒｏｎ（商標）プロセッサー、Ｓａｍｓｕｎｇ３２ビットＲＩＳＣＡＲＭ１１７６ＪＺ（Ｆ）－Ｓｖ１．０（商標）プロセッサー、ＡＲＭＣｏｒｔｅｘ－Ａ８ＳａｍｓｕｎｇＳ５ＰＣ１００（商標）プロセッサー、ＡＲＭＣｏｒｔｅｘ－Ａ８ＡｐｐｌｅＡ４（商標）プロセッサー、ＭａｒｖｅｌｌＰＸＡ９３０（商標）プロセッサー、または機能的に等価なプロセッサーが挙げられる。実行のマルチスレッドは並列処理に使用可能である。いくつかの実施形態では、クラスター接続の単一コンピュータシステムであるか、または複数のコンピュータ、携帯電話、もしくは個人用携帯情報端末デバイスを含むネットワーク接続の分散システムであるかにかかわらず、複数のプロセッサーまたは複数のコアを備えたプロセッサーも使用可能である。

図１６が示すように、高速キャッシュ１６０４は、プロセッサー１６０２が最近使用したまたは頻繁に使用する命令またはデータに対する高速メモリーを提供するために、プロセッサー１６０２に接続または導入することが可能である。プロセッサー１６０２は、プロセッサーバス１６０８によりノースブリッジ１６０６に接続可能である。ノースブリッジ１６０６は、メモリーバス１６１２によりランダムアクセスメモリー（ＲＡＭ）１６１０に接続され、プロセッサー１６０２によりＲＡＭ１６１０へのアクセスを管理する。ノースブリッジ１６０６はまた、チップセットバス１６１６によりサウスブリッジ１６１４に接続可能である。サウスブリッジ１６１４は、ひいては、周辺機器用バス１６１８に接続される。周辺機器用バスは、たとえば、ＰＣＩ、ＰＣＩ－Ｘ、ＰＣＩＥｘｐｒｅｓｓ、または他の周辺機器用バスでありうる。ノースブリッジおよびサウスブリッジはプロセッサーチップセットと呼ばれることが多く、プロセッサーとＲＡＭと周辺機器用バス１６１８上の周辺機器要素との間のデータ転送を管理する。いくつかの代替アーキテクチャーでは、ノースブリッジの機能、個別のノースブリッジチップを使用する代わりにプロセッサー中に組込み可能である。

いくつかの実施形態では、システム１６００は、周辺機器用バス１６１８に結合されたアクセラレーターカード１６２２を含みうる。アクセラレーターは、ある特定の処理を加速するためにフィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のハードウェアを含みうる。たとえば、アクセラレーターは、アダプティブデータリストラクチャリングのために、または拡張セット処理で使用される代数式を評価するために、使用可能である。

ソフトウェアおよびデータは、外部記憶装置１６２４に記憶され、プロセッサーによる使用のためにＲＡＭ１６１０またはキャッシュ１６０４にロード可能である。システム１６００は、管理システムリソース用のオペレーティングシステムを含む。オペレーティングシステムの例は、限定されるものではないが、Ｌｉｎｕｘ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）、ＭＡＣＯＳ（商標）、ＢｌａｃｋＢｅｒｒｙＯＳ（商標）、ｉＯＳ（商標）、および他の機能的に等価なオペレーティングシステム、さらには本発明の実施形態例に従ってデータ記憶および最適化を管理するためのオペレーティングシステムの上で動作するアプリケーションソフトを含む。

この例では、システム１６００はまた、ネットワークインターフェースカード（ＮＩＣ）１６２０および１６２１を含み、ネットワーク接続記憶装置（ＮＡＳ）などの外部記憶装置および分散並列処理に使用可能な他のコンピュータシステムへのネットワークインターフェースを提供する周辺機器用バスに接続される。

図１７は、本開示の方法での使用に好適な、複数のコンピュータシステム１７０２ａ、および１７０２ｂ、複数の携帯電話および個人用携帯情報端末１７０２ｃ、ならびにネットワーク接続記憶装置（ＮＡＳ）１７０４ａ、および１７０４ｂを含むネットワーク１７００の例示的な図を示す。実施形態例では、システム１７１２ａ、１７１２ｂ、および１７１２ｃは、データ記憶を管理し、ネットワーク接続記憶装置（ＮＡＳ）に記憶されたデータに対するデータアクセスを最適化することができる。データに数学モデルを使用することができ、分散並列処理コンピュータシステム１７１２ａ、および１７１２ｂ、ならびに携帯電話および個人用携帯情報端末システム１７１２ｃを用いて評価することができる。コンピュータシステム１７１２ａ、および１７１２ｂ、ならびに携帯電話および個人用携帯情報端末システム１７１２ｃはまた、ネットワーク接続記憶装置（ＮＡＳ）１７１４ａおよび１７１４ｂに記憶されたデータのアダプティブデータリストラクチャリングのために並列処理を提供可能である。図１７は、一例を示すに過ぎず、多種多様な他のコンピュータアーキテクチャーおよびシステムが、本発明の種々の実施形態に関連して使用することができる。たとえば、ブレードサーバーを用いて、並列処理を提供することができる。プロセッサーブレードは、並列処理を提供するためにバックプレーンを介して接続可能である。記憶装置はまた、バックプレーンに接続してもよいし、または個別ネットワークインターフェースを介してネットワーク接続記憶装置（ＮＡＳ）として存在してもよい。

いくつかの実施形態例では、プロセッサーは、個別メモリー空間を保持可能であるとともに、ネットワークインターフェースを介してバックプレーンにまたは他のプロセッサーによる並列処理のために他のコネクターにデータを伝送可能である。他の実施形態では、プロセッサーの一部または全部は、共有仮想アドレスメモリー空間を使用可能である。

図１８に示すマルチプロセッサーコンピュータシステム１８００の例示的なブロック図は、実施形態例に従って共有仮想アドレスメモリー空間を使用する。システムは、共有メモリーサブシステム１８０４にアクセス可能な複数のプロセッサー１８０２ａ－ｆを含む。システムは、メモリーサブシステム１８０４中で複数のプログラマブルハードウェアメモリーアルゴリズムプロセッサー（ＭＡＰ）１８０６ａ－ｆを組込む。各ＭＡＰ１８０６ａ－ｆは、メモリー１８０８ａ－ｆと１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）１８１０ａ－ｆとを含みうる。ＭＡＰは、設定可能な機能ユニットを提供し、特定のアルゴリズムまたはアルゴリズムの一部は、それぞれのプロセッサーと緊密に連携して処理するためにＦＰＧＡ１８１０ａ－ｆに提供可能である。たとえば、ＭＡＰは、データモデルに関する代数式を評価するためにおよび実施形態例でアダプティブデータリストラクチャリングを行うために使用可能である。この例では、各ＭＡＰは、こうした目的のためにすべてのプロセッサーによりグローバルにアクセス可能である。一構成では、各ＭＡＰは、関連付けられたメモリー１８０８ａ－ｆにアクセスするためにダイレクトメモリアクセス（ＤＭＡ）を使用可能であり、それにより、それぞれのマイクロプロセッサー１８０２ａ－ｆに依存せずにかつ非同期的に課題を実行可能になる。この構成では、ＭＡＰは、アルゴリズムのパイプライン実行および並行実行のために他のＭＡＰに結果を直接供給可能である。

以上のコンピュータアーキテクチャーおよびシステムは、単なる例にすぎず、一般的プロセッサー、共プロセッサー、ＦＰＧＡ、および他のプログラマブルロジックデバイス、システムオンチップ（ＳＯＣ）、特定用途向け集積回路（ＡＳＩＣ）、および他の処理素子および論理素子の任意の組合せを使用するシステムを含めて、多種多様な他のコンピュータ、携帯電話、および個人用携帯情報端末のアーキテクチャーおよびシステムを実施形態例との関連で使用可能である。いくつかの実施形態では、コンピュータシステムの全部または一部は、ソフトウェアまたはハードウェアで実現可能である。任意のさまざまなデータ記憶媒体は、ランダムアクセスメモリー、ハードドライブ、フラッシュメモリー、テープドライブ、ディスクアレイ、ネットワーク接続記憶装置（ＮＡＳ）、ならびに他のローカルまたは分散データ記憶デバイスおよびシステムを含めて、実施形態例との関連で、使用可能である。

実施形態例では、本開示のコンピュータサブシステムは、以上のまたは他のコンピュータアーキテクチャーおよびシステムのいずれかで実行されるソフトウェアモジュールを用いて実現可能である。他の実施形態では、システムの機能は、ファームウェア、プログラマブルロジックデバイス、たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、システムオンチップ（ＳＯＬ）、特定用途向け集積回路（ＡＳＩＣ）、または他の処理素子および論理素子で、部分的にまたは完全に実現可能である。たとえば、セットプロセッサーおよびオプティマイザーは、アクセラレーターカードなどのハードウェアアクセラレーターカードを用いてハードウェアアクセラレーションで実現可能である。

システムプロセッサーおよびネットワーク
一般的には、図に示すように、本開示の機器システムに含まれるコンピュータまたはプロセッサーは、固定媒体１２を有するサーバー０９に任意選択的に接続可能な媒体１１またはネットワークポート０５から命令を読み取ることができる論理装置としてさらに理解しうる。図に示すようなシステム００は、ＣＰＵ０１、ディスクドライブ０３、キーボード１５もしくはマウス１６などのオプションの入力デバイス、およびオプションのモニター０７を含みうる。データ通信は、ローカル位置またはリモート位置のサーバーに対して指定の通信媒体を介して達成することができる。通信媒体は、データを送受信する任意の手段を含みうる。たとえば、通信媒体は、ネットワーク接続、無線接続、またはインターネット接続でありうる。かかる接続は、ＷｏｒｌｄＷｉｄｅＷｅｂによる通信を提供可能である。図示される通り本開示に関するデータは、かかるネットワークまたは接続を介して、あるパーティー２２による受信または閲覧のために伝送することができる。

図は、本開示の実施形態例との関連で使用することができるコンピュータシステム００の第１のアーキテクチャー例の例示的な実施形態を示す。図に示すように、コンピュータシステム例は、処理命令用のプロセッサー０２を含みうる。プロセッサーの非限定的な例としては、ＩｎｔｅｌＸｅｏｎ（商標）プロセッサー、ＡＭＤＯｐｔｅｒｏｎ（商標）プロセッサー、Ｓａｍｓｕｎｇ３２ビットＲＩＳＣＡＲＭ１１７６ＪＺ（Ｆ）－Ｓｖ１．０（商標）プロセッサー、ＡＲＭＣｏｒｔｅｘ－Ａ８ＳａｍｓｕｎｇＳ５ＰＣ１００（商標）プロセッサー、ＡＲＭＣｏｒｔｅｘ－Ａ８ＡｐｐｌｅＡ４（商標）プロセッサー、ＭａｒｖｅｌｌＰＸＡ９３０（商標）プロセッサー、または機能的に同等のプロセッサーが挙げられる。実行のマルチスレッドは、並列処理に使用可能である。いくつかの実施形態では、クラスター接続の単一コンピュータシステムであるか、または複数のコンピュータ、携帯電話、もしくは個人用携帯情報端末デバイスを含むネットワーク接続の分散システムであるかにかかわらず、複数のプロセッサーまたは複数のコアを備えたプロセッサーも使用可能である。

図に示すように、高速キャッシュ０４は、プロセッサー０２が最近使用した、または頻繁に使用する命令またはデータに対する高速メモリーを提供するために、プロセッサー０２に接続または搭載することができる。プロセッサー０２は、プロセッサーバス０８によりノースブリッジ０６に接続可能である。ノースブリッジ０６は、メモリーバス１２によりランダムアクセスメモリー（ＲＡＭ）に接続されて、プロセッサー０２によるＲＡＭ１０へのアクセスを管理する。ノースブリッジ０６はまた、チップセットバス１６によりサウスブリッジ１４にも接続される。次いで、サウスブリッジ１４は、周辺機器用バス１８に接続される。周辺機器用バスは、たとえば、ＰＣＩ、ＰＣＩ－Ｘ、ＰＣＩＥｘｐｒｅｓｓ、または他の周辺機器用バスであってよい。ノースブリッジおよびサウスブリッジは、プロセッサーチップセットと呼ばれることが多く、プロセッサーと、ＲＡＭと、周辺機器用バス１８上の周辺機器要素との間のデータ転送を管理する。いくつかの代替アーキテクチャーでは、ノースブリッジの機能を、個別のノースブリッジチップを使用する代わりに、プロセッサー内に搭載することができる。

いくつかの実施形態では、システム００は、周辺機器用バス１８に結合されたアクセラレーターカード２２を含みうる。アクセラレーターは、ある特定の処理を加速するために、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のハードウェアを含みうる。たとえば、アクセラレーターは、アダプティブデータリストラクチャリングのために、または拡張セット処理で使用される代数式を評価するために、使用することができる。

ソフトウェアおよびデータは、外部記憶装置２４に記憶して、プロセッサーによる使用のためにＲＡＭ１０またはキャッシュ０４にロードすることができる。システム００は、管理システムリソース用のオペレーティングシステムを含み；オペレーティングシステムの例は、限定されるものではないが、Ｌｉｎｕｘ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）、ＭＡＣＯＳ（商標）、ＢｌａｃｋＢｅｒｒｙＯＳ（商標）、ｉＯＳ（商標）、および他の機能的に同等のオペレーティングシステム、さらには本発明の実施形態例に従ってデータ記憶および最適化を管理するためのオペレーティングシステムの上で動作するアプリケーションソフトを含む。

この例では、システム００はまた、ネットワークインターフェースカード（ＮＩＣ）２０および２１を含み、これらは、ネットワーク接続記憶装置（ＮＡＳ）などの外部記憶装置および分散並列処理に使用可能な他のコンピュータシステムへのネットワークインターフェースを提供する周辺機器用バスに接続されている。

図は、複数のコンピュータシステム０２ａ、および０２ｂ、複数の携帯電話および個人用携帯情報端末０２ｃ、ならびにネットワーク接続記憶装置（ＮＡＳ）０４ａ、および０４ｂを含むネットワーク００の例示的な図を示す。実施形態例では、システム１２ａ、１２ｂ、および１２ｃは、データ記憶を管理すると共に、ネットワーク接続記憶装置（ＮＡＳ）１４ａおよび１４ｂに記憶されたデータに対するデータアクセスを最適化することができる。数学モデルをデータに使用し、コンピュータシステム１２ａ、および１２ｂ、ならびに携帯電話および個人用携帯情報端末システム１２ｃ全体を介した分散並列処理を用いて評価することができる。コンピュータシステム１２ａ、および１２ｂ、ならびに携帯電話および個人用携帯情報端末システム１２ｃはまた、ネットワーク接続記憶装置（ＮＡＳ）に記憶されたデータのアダプティブデータリストラクチャリングのために並列処理を提供することもできる。図は、一例を示すに過ぎず、多種多様な他のコンピュータアーキテクチャーおよびシステムを、本発明の種々の実施形態との関連で使用することができる。たとえば、並列処理を提供するために、ブレードサーバーを使用することができる。プロセッサーブレードは、並列処理を提供するためにバックプレーンを介して接続することができる。記憶装置はまた、バックプレーンに接続してもよいし、または個別ネットワークインターフェースを介するネットワーク接続記憶装置（ＮＡＳ）として存在してもよい。

いくつかの実施形態例では、プロセッサーは、個別メモリー空間を維持するとともに、他のプロセッサーによる並列処理のためにネットワークインターフェース、バックプレーンにまたは他のコネクターを介してデータを伝送することができる。他の実施形態では、プロセッサーの一部または全部は、共有仮想アドレスメモリー空間を使用することができる。

図は、実施形態例に従って共有仮想アドレスメモリー空間を用いる、マルチプロセッサーコンピュータシステム００の例示的なブロック図を示す。システムは、共有メモリーサブシステム０４にアクセス可能な複数のプロセッサー０２ａ～ｆを含む。システムは、メモリーサブシステム０４中で複数のプログラマブルハードウェアメモリーアルゴリズムプロセッサー（ＭＡＰ）０６ａ～ｆを搭載する。各ＭＡＰ０６ａ～ｆは、メモリー０８ａ～ｆと、１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）１０ａ～ｆとを含みうる。ＭＡＰは、設定可能な機能ユニットを提供し、それぞれのプロセッサーと緊密に連携して処理するために、特定のアルゴリズムまたはアルゴリズムの一部をＦＰＧＡ１０ａ～ｆに提供することができる。たとえば、ＭＡＰを用いて、データモデルに関する代数式を評価するとともに、実施形態例でアダプティブデータリストラクチャリングを実施することができる。この例では、各ＭＡＰは、こうした目的のために、すべてのプロセッサーによりグローバルにアクセス可能である。一構成では、各ＭＡＰは、ダイレクトメモリアクセス（ＤＭＡ）を用いて、関連付けられたメモリー０８ａ～ｆにアクセスすることができ、これによって、それぞれのマイクロプロセッサー０２ａ～ｆから独立に、かつ非同期的に課題を実行することが可能になる。この構成では、ＭＡＰは、パイプライン処理およびアルゴリズムの並行実行のために他のＭＡＰに結果を直接供給することができる。

以上のコンピュータアーキテクチャーおよびシステムは、単なる例にすぎず、一般的プロセッサー、共プロセッサー、ＦＰＧＡ、および他のプログラマブルロジックデバイス、システムオンチップ（ＳＯＣ）、特定用途向け集積回路（ＡＳＩＣ）、および他の処理素子および論理素子の任意の組合せを使用するシステムを含め、多種多様な他のコンピュータ、携帯電話、および個人用携帯情報端末のアーキテクチャーおよびシステムを実施形態例との関連で使用することができる。いくつかの実施形態では、コンピュータシステムの全部または一部は、ソフトウェアまたはハードウェアに実現可能である。ランダムアクセスメモリー、ハードドライブ、フラッシュメモリー、テープドライブ、ディスクアレイ、ネットワーク接続記憶装置（ＮＡＳ）、ならびに他のローカルまたは分散データ記憶デバイスおよびシステムを含め、任意のさまざまなデータ記憶媒体を、実施形態例に関連して使用することができる。

以上論述した実施形態のいくつかの態様を以下の実施例でさらに詳しく開示するが、これらの実施例は、本開示の範囲を何ら制限することを意図しない。

実施例１
１塩基置換エラーの訂正
本実施例は、１塩基置換を含むＰＣＲまたはシーケンシングエラーの訂正を示す。１塩基置換を含むＰＣＲまたはシーケンシングエラーは、類似の分子標識と、３⁸のユニーク確率バーコードが存在した場合（４⁸のユニーク確率バーコードが存在した場合、１７）、≦７の発生数、すなわちシーケンシングリードとを有する標的のコピーを、複数の標的の同じ分子標識を有するものとして帰属させる工程により除去した。

確率バーコードを付ける工程は、その結合領域としてオリゴ（ｄＴ）を有する３⁸（６５６１）のユニーク確率バーコードの非枯渇プールを用いて、ＲＴ工程の前に、サンプル中にポリ（Ａ）を有するｍＲＮＡを標識する工程を含みうる。標識する工程はランダムであってよく、各標的分子は、１つの確率バーコードにハイブリダイズすることができる。いずれの標的についても、標的分子の数が、確率バーコードの数よりはるかに小さければ、各標的分子は、恐らく異なる確率バーコードにハイブリダイズするであろう。従って、少数の標的分子しか存在しない場合、少数の標的分子は、恐らく、ハイブリダイゼーション中に、類似の分子標識（ＭＬ）を有する確率バーコードにハイブリダイズするであろう。

３⁸の非枯渇ユニーク確率バーコードからの類似分子標識を有する少なくとも１対の確率バーコードをサンプリングする確率を計算した。２つの分子標識は、それらが１塩基相違する場合、類似の配列を有しうる。このサンプリングイベントは、確率バーコードが、実際に非枯渇でありうるため、置換を含むサンプリングとみなすことができる。この確率は、複数の標的を含む所与のサンプルについて存在する可能性が最も低い類似の分子標識を有する確率バーコードを推定する上で役立ちうる。問題は、類似の分子標識を有する少なくとも２つの確率バーコードが特定の確率で選択されるために必要な確率バーコードの数として明確に述べることができる。この問題は、３⁸の識別可能な分子標識を仮定して、類似の配列を有する２つの確率バーコードの確率が０．５を超えるために必要とされる最小サンプルサイズとして明確に述べることができる。従って、この問題は、古典的な誕生日問題の一般化として考えることができる。古典的な誕生日問題は、３６５の異なる誕生日を仮定して、誕生日が同じ人が２人いる確率が０．５を超えうるために必要な最小サンプルサイズを決定することができる。

このサンプルサイズｒを得るために、３⁸のユニーク確率バーコードからサンプリングされたｒ個の確率バーコードを仮定し、その補集合事象の確率を用いて、少なくとも１対の類似の分子標識を有する確率を計算した。３⁸のユニーク確率バーコードからランダムに１つの確率バーコードだけが選択された場合、確率バーコードは１つしかないため、その分子標識が、他の確率バーコードの分子標識と類似していない確率、ｐ₁＝１である。第２の確率バーコードも３⁸のユニーク確率バーコードからランダムに選択された場合、その分子標識が、第１の確率バーコードの分子標識と類似していない確率、ｐ₂＝（３⁸－１６－１）／３⁸である。これは、確率バーコードの各位置に３つの考えられる塩基があると想定して、所与の分子標識について、各塩基位置が、２つの考えられる代替ヌクレオチドを有し、その結果、計２＊８個の１塩基変異体が得られたからであった。第３の確率バーコードが、ユニーク分子標識を有する３⁸のユニーク確率バーコードから、連続的にランダムに取り出された場合、その分子標識が、前の２つの分子標識と類似していない確率、ｐ₃＝（３⁸－１－１６－１－１６）／３⁸＝（３⁸－２＊１７）／３⁸である。確率バーコードは、ｒ番目の確率バーコードまで、３⁸のユニーク確率バーコードから連続的に取り出すことができる。この最後の確率バーコードが、前の確率バーコードと類似しない確率、ｐ_r（３⁸－（ｒ－１）＊１７）／３⁸である。ｒ個の確率バーコードはすべて独立に取り出されたため、いずれもが類似した配列を持たない確率バーコードを取り出す確率は、Ｐ（類似の配列を有していない全分子標識）＝ｐ₁＊ｐ₂＊ｐ₃＊・・・ｐ_rである。従って、ユニーク分子標識を有する３⁸の確率バーコードからのｒ個の確率バーコードの間で少なくとも１対の類似する確率バーコードを有する確率は、Ｐ（類似の配列を有する少なくとも１対の分子標識）＝１－Ｐ（類似の配列を有していない全分子標識）であった。次に、この等式から、Ｐ（類似の配列を有する少なくとも１対の分子標識）について望ましい値＝０．０１、０．０５、０．１、または所望の値を設定することにより、サンプルサイズｒを計算した。

表１は、３⁸または４⁸のユニーク分子標識を仮定して、ｒ個の分子標識の間で少なくとも１つの類似する対を有する確率を示す。３⁸のユニーク確率バーコードと、≦７（４⁸のユニーク確率バーコードがある場合には、１７）の確率バーコードが選択された場合、類似の分子標識を有する１対の確率バーコードを観察する確率は、０．０５未満であり、これは無視できる。従って、この小さい確率により正当化されるように、類似の分子標識は、類似の確率バーコードのリアル見込み選択よりも人工物である可能性が高かったため、訂正することができる。

しかし、７～２４超の確率バーコードが存在した場合、類似の分子標識を有する１対以上の確率バーコードを観察する確率は、高くなる（たとえば、０．５）であろう。従って、これらの確率バーコードが、真であり、人工物ではないという確率を確信して除外することはできない。対照的に、一般的直観では、もし６５６１のユニーク可能性の大きなプールから２４の確率バーコードだけが取り出されたら、いずれか１塩基のずれが、偶然ではなくシーケンシングエラーの結果でありうると、誤って結論付けられたであろう。

たとえば、１１５の確率バーコードがランダムにサンプリングされた場合、算出される確率は、１つであるため、類似の分子標識を有する少なくとも１対の確率バーコードが存在することは１００％確実である。サンプル中に１１５の標的があると想定して、ハイブリダイゼーションおよび逆転写プロセスの後に、類似の分子標識を有する２対の確率バーコードと、非類似の分子標識を有する１１１の確率バーコード（合計１１５の確率バーコード）が観察可能になる。しかし、シーケンシングデータ中に、類似の分子標識を有する３対の確率バーコードと、非類似の分子標識を有する１１０の確率バーコード（合計１１６の確率バーコード）が観察された場合には、類似の分子標識を有する２対の確率バーコードのみが真であり、３つ目の対は何らかのエラーにより生成された可能性。この１００％の確率は、類似の分子標識を有する少なくとも１対の確率バーコードを観察するイベントは、確率バーコード付けの工程中に１１５の確率バーコードがランダムにサンプリングされた場合に起こり得ることを示すものであるが；これは、類似の分子標識の観察されたすべての対が真であることを意味するわけではない。類似の分子標識を有する確率バーコードは、確率バーコード付け工程、リアルもしくは真の分子標識から、またはＰＣＲエラー、人工物、またはシーケンシングエラー、エラーもしくは偽の分子標識から生成されうる。従って、類似の分子標識が観察された場合、分子標識の特定の対が真であるか否かを決定するために、さらなる評価が必要であろう。さらに、総分子標識多様性を３⁸から４⁸に増加する場合、分子標識の類似の対を予測するために、各々の確率について、さらなる確率バーコードが必要となりうる。

表２および表３は、ユニーク分子標識を有する≦７の確率バーコードが観察されたとき、そのような発生の確率は０．０５未満であったため、類似の分子標識が発生する可能性は非常に低かったことを示す。従って、そうした類似の分子標識は、ＰＣＲエラー、人工物、またはシーケンシングエラーによって起こった可能性があり、これらは、分子標識カウントを訂正または調節するために、分子標識カウントから除去すべきである。従って、表２および表３中の真の分子標識の総数は、５から１に、ならびに７から６にそれぞれ減少させることができる。しかし、表４では、２３のユニークバーコードが観察されており、これによって、類似の分子標識を有する少なくとも１対の確率バーコードを有する約５０％の見込みが予測される。従って、類似の分子標識を有する１６対の確率バーコードがリアルである可能性があり、類似の分子標識の各々の対は、それらがリアルであるか否かを確認するために、さらなる評価を要するであろう。

全体として、これらのデータから、観察された類似の分子標識を有する確率バーコードの数は、ＰＣＲエラー、人工物、またはシーケンシングエラーによって、恐らく、類似の分子標識を有するこれらの確率バーコードが発生したため、除去されたことが明らかである。

実施例２
シーケンシングデータ中の標的のクオリティステータスの決定
この実施例は、シーケンシングデータ中の標的のクオリティステータスが、完全シーケンシングクオリティステータス、不完全シーケンシングクオリティステータス、または飽和シーケンシングクオリティステータスであることを決定する工程を明らかにする。標的のクオリティステータスは、真またはリアル分子標識のすべてが観察されたか否かに依存した。

実施例１に示すように、ライブラリー中に存在するユニーク分子標識を有する確率バーコードの完全なカウンティングは、シーケンシング深度に大きく依存しうる。シーケンシングが深いほど、すべての真の分子標識が観察される可能性が高くなった。浅いシーケンシングは、安価ではあるが、多数の分子標識を捉えそこなう可能性があり、また、多分に遺伝子検出感度も損ないうる。完全シーケンシングとは、標的分子を標識するために用いた確率バーコードの真の分子標識がすべて観察されたことを意味し、不完全シーケンシングは、真の分子標識の一部しか観察されなかったことを意味しうる。さらに、４８５６８超の標的分子が出発サンプル中に存在した（これは、識別可能な確率バーコードの６５６１～２＊標準偏差に基づくポアソン訂正または調節後の分子数の下限である）ことも可能である。次に、飽和シーケンシングは、全分子標識の多様性に対する制限のために、標的分子の数が、決定しにくい場合に起こりうる。しかし、確率バーコード付けのための入力として少量のＲＮＡを使用した場合、飽和シーケンシングが発生する可能性は低くなる。

完全または不完全シーケンシングを数学的に定義するために、各々をエラーが一切ない理論上のモデルと比較した。完全な実験条件下で、出発サンプル中の標的分子の各コピーは、ｊＰＣＲサイクルおよび各サイクルでＣ効率を仮定して、（１＋Ｃ）^j個のコピーを生成することができる。出発サンプル中の各バーコード付き分子について、イルミナシーケンシングは、オリジナルのバーコード付き分子から増幅された（１＋Ｃ）^j個のクローナルコピーからのポアソンサンプリングとみなすことができる。理論上、同じ標的遺伝子の場合、ｋ個の確率バーコード付き標的分子のシーケンシングは、すべての確率バーコード付き分子が、ＰＣＲ後均等に表現可能となりうることから、（１＋Ｃ）^j個のコピーからの反復ポアソンサンプリングとみなすことができる。ポアソンモデルの重要な想定は、平均値が分散と等しく、かつ、シーケンシングリードは、等散布に従うはずであることであった。散布は、分散／平均として定義することができる。

実際に、完全シーケンシングは、通常、はるかに低いリード頻度でクラスター化したエラーを伴うことが多い。真の分子標識とは異なり、エラーは、すべてのＰＣＲサイクルに参加しない可能性が高いため、ポアソンと比較してはるかに大きいリード頻度に変化をもたらすコピーが少なくなる。図１９Ａ～１９Ｂは、完全および不完全シーケンシング遺伝子の例を示す。図１９Ａでは、最大シーケンシングリードは、最小シーケンシングリードの３５０倍を超えた。従って、完全シーケンシングは、ポアソンに比べて、大きい散布指数（＞１）を示す傾向がある。

対照的に、不完全シーケンシングの場合、ライブラリー中の真の分子標識を有する確率バーコードの一部だけがシーケンシングされたため、シーケンシングリードの変化は、ポアソンと比較して小さくなる。図１９Ｂでは、最大シーケンシングリードは、最小シーケンシングリードの約３倍にすぎなかった。従って、不完全シーケンシングは、ポアソンよりも小さい散布指数（＜１）を示す傾向がある。

散布指数を計算する以外に、最も豊富な分子標識のシーケンシングリードを、シーケンシングが完全であるか否かを決定するのに用いることができる。たとえば、豊富な分子指標のリードが２５であり、散布指数が５であった場合、シーケンシングステータスは完全として分類することができ；そうでなければ、不完全として分類することができる。シーケンシングエラーが出現し始めるまで、シーケンシングは不完全である可能性があるため、２５リードの閾値を使用することができる。いずれかの分子標識が２５回超認められたら、シーケンシングエラーが生成される可能性がある。

高度に豊富な遺伝子のシーケンシングデータが、確率バーコード中で飽和した、たとえば、ユニーク分子標識を有する３⁸確率バーコードの場合、６５５７を超える状況下で、同じウェル内で他の低発現遺伝子のシーケンシング情報を、その遺伝子の散布指数および最大シーケンシングリードの計算に使用することができる。たとえば、同じウェル内で２番目に豊富な遺伝子が、確率バーコード中で飽和しておらず、かつ、不完全シーケンシングとして分類される場合、第１の遺伝子の飽和をリアルと考えることができ、分子の数を計算することはできない。そして、２番目に豊富な遺伝子が、完全シーケンシングとして分類された場合、第１の遺伝子の飽和は人工的である可能性があり、すべての確率バーコードの出現は、エラーによるものでありうる。次いで、真の分子標識の数を確認するために、ポアソンモデルベースの閾値化アルゴリズムを用いることができる。

全体として、これらのデータは、シーケンシングステータスが、完全シーケンシング、不完全シーケンシング、または飽和シーケンシングであることを決定する工程を明らかにする。

実施例３
完全にシーケンシングされた遺伝子の１塩基置換によるＰＣＲまたはシーケンシングエラーの訂正
この実施例は、完全にシーケンシングされた遺伝子、すなわちシーケンシングデータ中の完全シーケンシングのクオリティステータスを有する遺伝子について１塩基置換によるＰＣＲまたはシーケンシングエラーを訂正する工程を示す。この実施例はまた、シーケンシンデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定するために、標的、たとえば、遺伝子の分子標識を閾値化する工程も示す。

ヌクレオチド当たりのシーケンシングエラー率は、０．１～１％に変動しうるとともに、通常、低頻度リードとして認めることができる。シーケンシングが深く進行するにつれて、多くのシーケンシングエラーが生成される可能性がある。たとえば、真のヌクレオチドシーケンシングエラーが０．５％であり、かつ、分子標識が１００回シーケンシングされた場合、この分子標識に関連するシーケンシングエラーの予測数は、分子標識が８ヌクレオチド長であれば、１００＊（１－（１－０．５％）⁸）から計算して、約４でありうる。分子標識が３００回シーケンシングされた場合には、シーケンシングエラーの予測数は、約１２でありうる。これらのシーケンシングエラーは、カウントを増大する可能性がある人工的分子標識配列を生成しうる。これらの分子標識は、さらなる分析の前に、除去することができる。

すべてのシーケンシングエラーのうち、１塩基エラーは、２塩基以上隔てたものよりもはるかに頻繁に起こりうる。１塩基シーケンシングエラーを有する確率は、サンプルサイズ８を含む二項分布および１塩基シーケンシングエラー率と等しい成功確率から導くことができる。１つの目標は、１塩基シーケンシングエラーを訂正することであった。１塩基シーケンシングエラーは、最も豊富かつ近接した（たとえば、ハミング距離に関して）分子標識、すなわち親分子標識の子供として考えることができる。シーケンシングエラーは、親分子標識の真の子供（すなわち、親分子標識から１塩基隔てた子供分子標識）を見出すことにより検出した。

親および子供分子標識の選択
親分子標識は、＞２５シーケンシングリードを有することが要求され、子供分子標識は、３以下のシーケンシングリードを有することが要求されうる。これらの要件は、下記の推論に基づくものであった。ヌクレオチドごとのシーケンシングエラーの確率が０．５％と仮定する。分子標識が、２５回シーケンシングされて、合計して２００のヌクレオチドが生成された場合、２００＊０．００５＝１であるから、１ヌクレオチドがエラーであることが予想された。従って、２５のシーケンシングリードを有する各分子標識について、少なくとも１つの子供分子標識を有することが予想された。親分子標識は、２５のシーケンシングリードを有するべきであると想定されうる。４のシーケンシングリードを有する子供分子標識は、シーケンシングエラーである可能性は低かった。これは、１つの分子標識中に同じエラーを４回導入する確率が、８＊０．００５⁴＝１０^-9であるためであった。もし、合計１０６シーケンシングエラーリードが存在した場合には、４回反復されたシーケンシングエラーの予想数は、５＊１０⁹＊１０⁶＝０．００５となり、これは無視することができた。従って、子供分子標識は、リード≦３を有するべきである。

１塩基隔てた親分子標識とその関連子供分子標識を仮定し、いかにして親の真のシーケンシングエラーである子供分子標識を決定するか？
親分子標識と、シーケンシングリード（Ｒ_child1、Ｒ_child2、・・・、Ｒ_childm）を有する、親分子標識とは１塩基相違する子供分子標識のセットとを仮定し、多重二項検定を用いて、真の子供分子標識を同定することができる。帰無仮説の下で、真の子供分子標識の存在量は、Ｒ_par＊ｐ以下になるはずであり（数学的に、Ｈ₀：ｐ＜ｅ／２）；そうでなければ、存在量は、Ｒ_par＊ｐより大きい（ＨＡ：ｐ＜ｅ／２）という別の仮説を支持する結論が下され、分子標識は、真の子供分子標識であったという仮説は拒絶されうる。次に、親分子標識とは１塩基相違する子供分子標識が１回観察された確率は、ｐ＝ｅ／２となる。次に、数学的に、総存在量（Ｒ_child＋Ｒ_par）から、この子供分子標識を少なくともＲ_child回観察する確率ｐ_childは、以下の通りとなる：

子供分子標識が、実際に、その親分子標識のシーケンシングエラーであった場合、確率ｐ_childは、５％の臨界値より大きいはずである。複数の仮説を同時に検定するため、帰無仮説を拒絶するのに使用する臨界値は、５％レベルに制御される偽発見率（ＦＤＲ）によって決定することができ、ｐ_childが、５％レベルのＦＤＲより大きければ、仮説を容認することができる。５％に制御されたＦＤＲを用いて、未調節のｐ値を、たとえばｐ₁≦ｐ₂≦ｐ_mのように、小さい順にソーティングすることができる。次に、その対応する順位ｊを含む検定を見出すことができる。ｐ_child≦ｊ／ｍ＊５％であれば、この子供分子標識は、親分子標識の１塩基シーケンシングエラーであったという帰無仮説を容認することができる。

全体として、これらのデータは、完全にシーケンシングされた遺伝子について１塩基シーケンシングエラーを訂正する工程を論証する：工程（１）、そのシーケンシングリードが２５より大きければ、最も豊富なシーケンシングリードを有する分子標識を第１の親分子標識として選択する。工程（２）シーケンシングリード≦３を有する分子標識を選択し、第１の親分子標識と１塩基相違するこれらの分子標識を同定し、それらを子供分子標識と呼び；子供分子標識または１塩基子供分子標識が見出されなければ、工程（５）に進む。工程（３）、子供分子標識および親分子標識のすべてに対して多重二項検定を実施し、帰無仮説が容認される子供分子標識を除去して、それらのシーケンシングリードをその親分子標識に帰属させる。帰無仮説のいずれも容認されなかった場合、これは、すべての子供分子標識が親分子標識の１塩基シーケンシングエラーではなかったことを意味し、リード訂正を実施する必要はない。工程（４）、分子標識配列ならびにシーケンシングリードを更新する。工程（５）、親分子標識として次に大きいシーケンシングリードを有する分子標識を選択し、適格な親分子標識または適格な子供分子標識が残らなくなるまで、前述の工程を反復する。

表５は、前述の分析を用いて、１塩基シーケンシングエラーを除去した後、更新されたＴＦＲＣシーケンシングデータを示す。分子標識の固有の数は、２３（表４に示す）から１１に減少した。

閾値化のためのポアソンモデルの使用
シーケンシングエラーは、完全シーケンシングの下で出現する可能性が高くなりうる。１塩基シーケンシングエラーなどのいくつかのタイプのエラーは、訂正可能であるが、人工的分子標識のランダム組込みといった他のエラーは、配列類似性に基づいて訂正することができないであろう。その代わり、これらのタイプのエラーは、モデル化によって同定することができる。前述したように、完全シーケンシングは、ポアソンに対して過剰散布される傾向がある。従って、過剰散布を特徴とする２つの特有のポアソンモデルを作製した：１つは、真の分子標識（すなわち、確率バーコード付け工程中に、標的分子を標識するのに用いられる分子標識配列）のためのシーケンシングリードをモデル化するために使用することができ、２つ目のモデルは、エラー分子標識（すなわち、確率バーコード付け工程中に使用されないが、エラーのためにシーケンシング後に出現した分子標識配列）のために使用することができる。シーケンシングエラー率は、約０．１～１％であり、ＰＣＲサイクルエラー率は、約０．００１％でありうる。ＰＣＲエラーは、ＰＣＲの後のサイクル中に、より多く起こって、低シーケンシングリードを有するエラー分子標識を生じうるが、すべての観察された分子標識配列の大部分に寄与しうる。従って、ＰＣＲおよびシーケンシングによって生じたエラーは、多くの場合、真の分子標識よりも低いシーケンシングリードを有しうる。そのため、真の分子標識のシーケンシングリードのポアソン平均は、エラー分子標識のポアソン平均より大きくなる。

合計ｋ個の識別可能な分子標識があり、それらのうちｔ個が、ＢＣ₁、ＢＣ₂、・・・、ＢＣ_tのような真の分子標識であり、残りが、ＢＣ_t+1、ＢＣ_t+2、・・・、ＢＣ_kのようなエラー分子標識であったと想定する。こうした真の分子標識およびエラー分子標識にマッピングされたシーケンシングリードは、Ｒ₁、Ｒ₂、・・・、Ｒ_tおよびＲ_t+1、Ｒ_t+2、・・・、Ｒ_kでありうる。さらに、真の分子標識およびエラー分子標識を用いたポアソン平均が、μ_tおよびμ_n（μ_t＞μ_n）であると想定すると、プロセス全体の確率は、以下のようになる：

（式中、Ｐ（Ｘ_i＝Ｒ_i｜μ_t）は、平均μ_tを有するポアソン過程の下で、存在量Ｒ_iを有するｉ番目の分子標識を観察する確率を示す）。

真の分子標識の数を決定するｔために、次のようにモデルの数を考慮した；すべての分子標識が真であると想定したモデル（従って、ｌ＝ｋ）から出発して；最も少ない分子標識が、エラーであり、他の分子標識はすべて真である（従って、ｌ＝ｋ－１）であると想定した２番目のモデル；最も豊富な分子標識だけが真であり、他はすべてエラー分子標識である（従って、ｌ＝１）と想定した最後のモデルまで。最後に、最良のモデルは、考慮されるすべてのモデルの間で最も高い尤度を有するか、または最も小さい赤池情報量基準（ＡＩＣ）と同等のものであり、ＡＩＣは、所与のデータについて考えられるモデルの各々の相対量を測定することによって、モデル選択に使用することができる。数学的に、ＡＩＣは、ＡＩＣ＝－ｌｏｇＬ＋２ｐとして定義され、式中、ｐは、モデルで推定されるパラメータの数である。従って、Ｌ_kおよびＬ₁については、ｐ＝１であり、他の場合、ｐ＝２である。表６に示す例から、比較した８つの可能なモデルのうち、最も大きい３つのシーケンシングリードを有する３つの分子標識だけが真の分子標識であると考えられることがわかる。また、図２０は、選択されたモデル（最も大きい３つ）から導かれた閾値が、明らかに真の分子標識を、エラーの可能性が大きいものから区別したことを示す。

データは、１塩基シーケンシングエラーを除去し、ポアソンモデルを用いて閾値化することによって訂正された、完全にシーケンシングされた遺伝子のシーケンシングリードを示す。

実施例４
不完全にシーケンシングされた遺伝子の調節
この実施例は、ノイジー遺伝子を除去するとともに、ゼロ切断ポアソンモデルを用いて、ライブラリー中に存在することが予想される分子標識の総数を推定することにより不完全にシーケンシングされた遺伝子を調節する工程を示す。

ノイジー遺伝子の除去
分子標識およびそのシーケンシングリードの統計学を考慮する以外に、遺伝子レベルの解析も有益となりうる。ある遺伝子について、検出された分子標識が非常に少なく、しかも各分子標識が、完全にシーケンシングされた遺伝子に比べて著しく低いリードを有する場合、その遺伝子をノイジーとみなすことができる。この想定は、同じライブラリー内の確率バーコード付き分子が、概ね同じ頻度で増幅およびシーケンシングされるはずであるという論証に基づくものであった。こうした期待は、各分子のシーケンシングの相違に起因するＰＣＲおよびシーケンシングバイアスによって影響されうるが、それらはＰＣＲ中におけるサンプルの汚染や望ましくない分子の再結合などの事象によって発生する「ノイズ」に応じて小さいと想定されていた。遺伝子は、その増幅速度（分子標識当たりの平均リード）が、同じライブラリー中で完全にシーケンシングされた遺伝子に由来するエラーの増幅率と類似であった場合、ノイジーでありうる。

具体的には、完全にシーケンシングされた遺伝子ｇ１が、全部でｔ₁個の真の分子標識とｅ₁個のエラー分子標識から構成され、それにより、Ｒ_g1,1、Ｒ_g1,2、・・・、Ｒ_g1,t1が、真の分子標識にマッピングされたシーケンシングリードであり、Ｒ^* _g1,1、Ｒ^* _g1,2、・・・、Ｒ^* _g1,e1が、エラー分子標識にマッピングされたシーケンシングリードであると想定する。次に、ｇ₁のエラー分子標識の増幅速度（ＥＡＭＰ）は、

であった。同様にして、他の完全にシーケンシングされた遺伝子すべてのｇ₂、ｇ₃、・・・、ｇ_xについて、ＥＡＭＰを計算することができる。観察された計５未満の分子標識を有する潜在的ノイジー遺伝子ｇ’₁、ならびに各分子標識にマッピングされたＲ_g’1,1、Ｒ_g’1,2、・・・、Ｒ_g’1,kシーケンシングリードについて、カットオフを適用することができ、その増幅速度を

として決定する。ａｍｐ_g’1＜中央（ａｍｐ_g’1、ａｍｐ_g’2、・・・、ａｍｐ_g’x）であれば、遺伝子ｇ’₁をノイジー遺伝子であると考えた。そうでなければ、これは、不完全遺伝子とみなすことができる。同様に、他のノイジー遺伝子も検定し、除去した。５の分子標識をカットオフとして選択した理由は、低い増幅速度を有する遺伝子を２つの個別のケース：人工物（５未満の分子標識が観察されたもの）と不完全シーケンシング（低ＰＣＲ／シーケンシングのプライマー失敗により≧５の分子標識が観察されたもの）に処理することが望ましいと思われるためである。

ゼロ切断ポアソンモデルを用いた推定
シーケンシングが不完全であったとき、エラーはデータ中に依然として存在しうるが、全体として不十分なシーケンシングリードのために同定することが困難となりうる。シーケンシングが浅く、ライブラリー中に存在する分子標識のすべてが観察されていない場合、重要な分析のためにいくつかの想定が必要となりうる。すべての観察された分子標識が真であること、ならびに観察されていない真の分子標識が、ゼロで切断されている、すなわち、ゼロ時間で観察された切断分子標識であると想定することができる。所与の遺伝子について確率バーコード付き転写物のすべてがシーケンシングにサンプリングされているわけではないが、検出された分子標識のリードの頻度を用い、ゼロ切断ポアソンモデルを適用することにより、全ライブラリー中に存在する分子標識の完全な多様性を推定することができる。

リード（Ｒ₁、Ｒ₂、・・・、Ｒ_k）を有するｋ個の識別可能な分子標識が観察され、（Ｓ－ｋ）個の分子標識が観察されず、リードはゼロであった。１つの目標は、Ｓ、すなわち、ライブラリー中に存在することが予想される分子標識の総数を推定することであった。ポアソン平均μによりゼロで切断されたポアソン変量として、シーケンシングリード１、２、３、もしくはそれ以上とを認める頻度を想定し、すべてのシーケンシングリードの合計がｎであった場合、尤度は次のように表すことができる：
Ｌ（Ｓ，μ）∝Ｓ！／（Ｓ－ｋ）！μⁿｅｘｐ（－Ｓμ）（式３）

伝統的な推理方式をμ、Ｓおよびそれらの標準誤差の推定のために適用することができる。μの最大尤度（ＭＬＥ）は、ｎ／Ｓであり、ＳのＭＬＥへの近似値は、ｋ／（１－ｅ－^n/S）またはｋ／（１－（１－１／Ｓ）ⁿ）となりうる。図２１は、分子標識の数およびそれらの対応するシーケンシングリードに基づく、当てはめゼロ切断ポアソンモデルを示す。図２１に示すように、３３のユニーク分子標識が、部分的にシーケンシングされたライブラリー中の計３９のリード全体にわたって観察された。シーケンシングリード１、２、３、および４を有する分子標識の頻度に基づき、ポアソンモデルを適用して、全ライブラリー中の計１１３の分子標識が、完了まで進行したシーケンシングを有することを推定した。推定方式は、μ、Ｓおよびそれらの標準エラーの推定のために適用した。μのＭＬＥは、ｎ／Ｓであり、ＳのＭＬＥへの近似値は、ｋ／（１－ｅ－^n/S）またはｋ／（１－（１－１／Ｓ）ⁿ）となりうる。

全体として、これらのデータは、ノイジー遺伝子を除去するとともに、ライブラリー中に存在することが予想される分子標識の総数を推定するために、ゼロ切断ポアソンモデルを用いることによって訂正された不完全シーケンシング遺伝子のシーケンシングリードを明らかにする。

実施例５
完全シーケンシング遺伝子および不完全シーケンシング遺伝子
この実施例は、完全シーケンシング遺伝子および不完全シーケンシング遺伝子のシーケンシングリードを調節した後に生成されたアウトプットの一例を示す。

表７は、完全シーケンシング遺伝子および不完全シーケンシング遺伝子のシーケンシングリードを調節した後に生成されたアウトプットの一例を提供する。列の見出しの説明は次の通りであった：「遺伝子ＩＤ」は、検出された遺伝子の名称を示す。「シーケンシングステータス」は、３つの考えられる結果：完全、不完全および飽和を示し、これによって、解析方法が決定される。分類は、散布指数、および最も豊富な分子標識（ＭＬ）にマッピングされたシーケンシングリードに応じて実施した。「未補正ＭＬ」は、その遺伝子について観察されたユニーク分子標識のカウントを示す（非検出遺伝子の場合は「０」）。「未補正リード」は、未補正ＭＬにマッピングされたシーケンシングリードの合計を示す（非検出遺伝子の場合は「０」）。訂正ＭＬは、アルゴリズムを適用した後に真の分子標識とみなされたユニーク分子標識のカウントを示す（完全シーケンシング遺伝子の場合のみ、不完全遺伝子の場合は「ＮＡ」、ノイジーおよび非検出遺伝子の場合は「０」）。「訂正リード」は、訂正ＭＬにマッピングされたシーケンシングリードの合計を示す（完全シーケンシング遺伝子の場合のみ、不完全遺伝子の場合は「ＮＡ」、ノイジーおよび非検出遺伝子の場合は「０」）。「補外ＭＬ」は、ゼロ切断ポアソンモデルによるユニーク分子標識の推定数を示す（不完全シーケンシング遺伝子の場合のみ、完全遺伝子の場合は「ＮＡ」、ノイジーおよび非検出遺伝子の場合は「０」）。「推定Ｍｏｌ」は、訂正ＭＬ（完全シーケンシング遺伝子の場合）または補外ＭＬ（不完全シーケンシング遺伝子の場合）に基づいて推定された分子の数を示し、ノイジー遺伝子および非検出遺伝子の場合は「０」である。「推定ＭｏｌＬＢ」は、分子の推定数の下限を示す。「推定ＭｏｌＵＢ」は、分子の推定数の上限を示す。

表７において、出発分子の推定数である、推定Ｍｏｌ（ｎ）は、次のように計算した：
ｎ＝－ｍｌｏｇ（１－ｋ／ｍ）、式（４）
（式中、ｍは、分子標識（３⁸）の全多様性であり、ｋは、観察されたユニーク分子標識の総数であった）。ｎの分散であるｖａｒ（ｎ）は、テイラー展開を用いて導かれた：ｖａｒ（ｎ）＝（ｍ／（ｍ－ｋ））²ｖａｒ（ｋ）（式中、ｖａｒ（ｋ）は、ｍ＊（１－（１－１／ｍ）ⁿ）（１－１／ｍ）ⁿ＋ｍ（ｍ－１）（（１－２／ｍ）ⁿ－（１－１／ｍ）²ⁿ）として表すことができる）。出発分子の推定数の下限および上限（推定ＭｏｌＬＢおよび推定ＭｏｌＵＢ）は、

を用いて計算した。

全体として、これらのデータは、完全シーケンシング遺伝子および不完全シーケンシング遺伝子を調節する工程を明らかにする。

実施例６
完全シーケンシング遺伝子および不完全シーケンシング遺伝子の訂正の性能
この実施例は、完全シーケンシング遺伝子のシーケンシングリードの訂正の性能を示す。この性能は、除去された未補正分子標識カウントおよび除去されたシーケンシングリードのエラーおよびノイズに基づいた。

いくつかの完全シーケンシング遺伝子を選択して、完全シーケンシング遺伝子のシーケンシングリードの訂正の性能を検定した。表８は、シーケンシングリードを訂正または調節する前、およびその後に、これらの遺伝子についていくつかの測定値を比較する。未補正ＭＬ、未補正リード、訂正ＭＬ、訂正リードは、出力表から直接導入した。未補正ａｍｐ（未補正データを用いた増幅速度）およびフィルタリングａｍｐ（訂正後の真の分子標識データを用いた増幅速度）を、（未補正リード／未補正ＭＬ）および（訂正リード／訂正ＭＬ）を用いて計算した。観察された分子標識の総数の訂正後に、真の分子標識の数に対する、保持されたＭＬのパーセンテージは、１００＊訂正ＭＬ／未補正ＭＬであり、保持された％リードも同様に、１００＊訂正リード／未補正リードとして定義された。表８は、より多い分子標識および総リードを呈示するＧＡＰＤＨおよびＡＣＴＢを含む、さまざまな存在量レベルの遺伝子例を示す。訂正を適用した後の真の分子標識の数は、未補正データに認められる総分子標識の７％未満を占めたが、これは、分子標識の９３％超が、エラー分子標識であると考えられ、廃棄されたことを意味する。未補正分子標識の９３％は、ノイズとして除去されたが、真の分子標識は、リードの少なくとも７２％に寄与し、これは、これらの廃棄されたエラー分子標識が、はるかに低いリードから成ることも意味する。さらに、アルゴリズムを適用した後の増幅速度は、１３７～４１３の範囲であり、これは、未補正データを用いて得られたもの（６．１～２９．４）よりはるかに高かった。訂正増幅速度は、はるかに実際的な測定値であり、これは、少なくとも７５％のＰＣＲ効率と相関した。

全体として、これらのデータは、完全シーケンシング遺伝子のシーケンシングリードの訂正が、シーケンシングリードの大部分を使用する能力を依然として維持しながら、未補正分子標識カウンティングデータ中のエラーおよびノイズを有意に低減したことを示す。

実施例７
確率バーコード付き標的のカウンティングデータを要約および視覚化するためのツール
この実施例は、前の実施例に示される確率バーコード付き標的のカウンティングデータを要約および視覚化するためのツールを示す。

検定データのために、Ｐｒｅｃｉｓｅ（商標）ａｓｓａｙ（ＣｅｌｌｕｌａｒＲｅｓｅａｒｃｈ，Ｉｎｃ．（ＰａｌｏＡｌｔｏ，ＣＡ））による処理のために、単一細胞の２つのプレートを作製した。この実験では、２つの異なる細胞型を４：１比で使用し、各ウェルに配置した細胞のアイデンティティーは、実験を実施する研究員から不明にした。この試験の目標は、確率バーコードカウントからの遺伝子発現プロフィールを用いて、各ウェルの細胞型を同定することであった。

ウェルにおける全体的シーケンシングデータクオリティを評価するために、ウェル毎のシーケンシングリードの合計を算出した。そして、訂正方法の性能を評価するために、訂正方法の適用前および適用後のいくつかの統計学的測定値を集計し、比較した。さらに、グラフ図は、データの視覚的表示を提供し、異常またはパターンを容易に検出することが可能である。

図９および１０は、シーケンシングリード＜５０００（イタリック体）を含むプレート１のウェル当たりのシーケンシングリードの合計を示す。リード＜５０００などのはるかに低いリードを有するウェルは、単一細胞がウェルに割り当てられなかったことを示しうるため、さらなる解析では、これらのウェルを除外すべきである。

表１０および１１は、訂正方法の前および後のいくつかの測定値を比較する。これらの表から、「未補正リード」（ウェル当たりのシーケンシングリードの合計）と「未補正ＭＬ」（ウェル当たりの分子標識カウントの総数）に大きな変動が認められた。この大きな変動は、それらの標準偏差（ＳＤ）が平均より大きいことに起因しうるが、これも、低リードウェルの存在を示すものである。この方法を用いた後、ウェル当たり約４７％の遺伝子を、存在する全遺伝子の中で完全シーケンシング遺伝子として分類した。遺伝子の大部分が、不完全シーケンシング遺伝子として分類された（たとえば、０％）場合、本方法は、データ中のノイズを除去しない可能性がある。各ウェルについて、完全遺伝子の訂正後に約１５％の分子標識が保持されたが、これらの分子標識は、平均９５％のシーケンシングリードにマッピングされた。保持された％リードの値が高いほど、ノイズを除去しながら、訂正方法はシグナル（真の分子標識から賦与されたリード）を効果的に捕捉することができる。また、真の分子標識として保持される各分子標識の増幅速度は、１６３．３２であり、訂正方法を適用する前の２２．７６よりはるかに高かった。

図２２は、ウェル当たりの総シーケンシングリードの棒グラフを示す。図２２は、９６ウェル全体の相対入力の直接の視覚化を達成する。この図から、ウェルＣ０２およびＦ１１が、他に比べて高いリードを有することがわかり、これは、これらのウェルについての多細胞を示しうる。ウェルＡ１２、Ｂ０１、Ｂ０７～Ｂ１２、Ｃ０３、Ｃ０４、Ｃ０７、Ｃ１１、Ｄ０７、Ｄ０８、Ｄ１１、Ｅ０５、Ｅ０８、Ｆ０４～Ｆ１０、Ｆ１２、Ｇ０３、Ｇ０７、Ｈ０３、Ｈ０４、Ｈ０７～Ｈ０９、Ｈ１０～Ｈ１１は、他のウェルに比べてはるかに低いリードを有するが、これは、これらのウェルに細胞が配置されなかったことを示しうる。

図２３は、％完全シーケンシング遺伝子、真の分子標識として保持された％分子標識（ＭＬ）、および各ウェルについて保持されたＭＬにマッピングされた％保持リードの棒グラフを示す。図２３は、ノイズ（各ウェルの下段）を除去するために、訂正方法を適用することができる、完全として分類された遺伝子のウェル当たりのパーセンテージ；分子標識を用いたウェル当たりのノイズのレベル（訂正方法の適用の前に観察された分子標識に対して、訂正方法の適用後に真の分子標識とみなされた、分子標識のパーセンテージ、各ウェルの上段）；ならびにシーケンシングリードを用いたウェル当たりのノイズのレベル（全未補正リードに比して、真の分子標識にマッピングされたリードのパーセンテージ、各ウェルの中段）を示す。図示するように、完全シーケンシング遺伝子の％はウェルに応じて変動するが、ウェルＡ１２、Ｂ０１、Ｂ０７～Ｂ１２、Ｃ０３、Ｃ０４、Ｃ０７、Ｄ０７、Ｄ０８、Ｄ１１、Ｅ０５、Ｅ０８、Ｆ０４～Ｆ１０、Ｆ１２、Ｇ０３、Ｇ０７、Ｈ０３、Ｈ０６、Ｈ０７、Ｈ１０～Ｈ１１はでははるかに低く、これは、はるかに低いリードを有するウェルと一致した。上段により示される％保持ＭＬは、すべてのウェルで概して２０％未満であったが、中段により示される％保持リードは、すべてのウェルで９０％を超えた。このタイプのプロットは、ノイズを除去する上で、また一方では各ウェルのシグナルを最大化する上でも、訂正方法がどれくらい有効であるかについての概念を提供しうる。

図２４は、各ウェルについて遺伝子により変動する％保持リードの箱ひげ図を示す。遺伝子レベルでの箱ひげ図は、ウェル中の各遺伝子について訂正方法がどれくらい良く作用したかなどの詳細な情報を明らかにし、これは、ウェルレベルでの棒グラフでは表すことができない。図２４に示すウェル当たりのすべての完全シーケンシング遺伝子についての％保持リードの箱ひげ図から、遺伝子間の変動は、たとえば、０．６を超えるひげを有するウェルＤ１１、Ｆ４、Ｆ８、Ｈ３およびＨ８の場合など、重要となりうることが判明した。しかし、これらの５つのウェルは、はるかに低い総シーケンシングリード、３３５７、５４５７、２８７４、３４１４および４０４３に対応した。

遺伝子発現データの解析にクラスター化を使用することができる。多次元性を低減し、恐らく相関する変数を、直交変換によって少数の変数にすることによる次元削減のために主成分分析（ＰＣＡ）を使用することができる。データ中のクラスターを検索するのに、ＰＣＡからの主要な主成分を用いることができる。

図２５Ａ～２５Ｂは、２つのプレートからの未補正ＭＬ対アルゴリズム適用後の訂正ＭＩを用いたＰＣＡプロットを示す。図２５Ａは、総シーケンシングリード＞５０００を有するウェル当たりの遺伝子毎の未補正ＭＬを用いたＰＣＡプロットを示す。このＰＣＡプロットは、第１に、総シーケンシングリード＜５０００を有するウェルを除去する（その結果、３つの制御遺伝子を除いて、１３９のウェルと、１０７の遺伝子が残った）工程；第２に、１３９ウェル全体でゼロ未補正ＭＬを有する遺伝子を除去する（８５の遺伝子が残った）工程；第３に、未補正ＭＬプラスワンの対数を採用して、データセットにゼロを組み込む工程、次に、センタリングおよびスケーリングの後、ログデータにＰＣＡを適用する工程によって生成された。ＰＣＡプロットは、明らかに２つのクラスターを示すが、両クラスターからの距離がほぼ等しいＤ０２、Ｄ０５、およびＦ０６などのウェルについては、細胞型を決定するのは困難であった。クラスター化の結果は、ノイズが付加されたために損なわれる可能性があり、少数のノイズ変数であっても明瞭なクラスター構造を損ないうる。従って、特徴／変数選択の前処理工程またはフィルタリングもしくは脱ノイズ工程から利益を受けることができる。完全シーケンシングデータに訂正方法を適用することにより、図２５Ｂに示すように、明瞭なクラスター構造が達成された。図２５ＢのＰＣＡプロットは、未補正ＭＬ（アルゴリズムの適用前に検出された遺伝子すべての分子標識のカウント）ではなく、訂正ＭＬ（訂正方法を適用後の完全シーケンシング遺伝子の真の分子標識のカウント）を用いた以外は、図２５Ａに示したように明瞭なクラスター構造が得られ、計１３９のウェルで７５の遺伝子を使用した。２つの識別可能なクラスターが観察され、これらは、ｙ軸によって首尾よく隔てられていた（ＰＣ２）。図２５Ａと比較して、図２５Ｂのクラスターは、サイズがコンパクトであり、各ウェルの細胞が明瞭にクラスターに割り当てられていた。加えて、図２５Ｂのｙ軸の右側の小さなクラスターは、３１のウェルから成り、総ウェルの約２２％であり、予想された２０％にかなり近い。

全体として、これらのデータは、確率バーコード付き標的のデータカウンティングを要約および視覚化する上で有用ないくつかのツールを明らかにする。

実施例８
高度発現遺伝子－ＡＣＴＢのプレートにおける各ＭＬのＭＬカバー率
この実施例は、シーケンシングまたはＰＣＲの最中に生じたＭＬエラーの識別可能な分布が、一般に、ＭＬからの識別可能な分布を有することを実証する。

絶対遺伝子発現カウンティングおよびＰＣＲバイアス訂正に加えて、ＭＬは、ライブラリー作製方法およびシーケンシングデータの統計学的クオリティに関するより良い理解をもたらしうる。同じ遺伝子ＭＬを示すリードの数（ＭＬカバー率と呼ばれる）に関して、ライブラリー作製中に生成されたシーケンシングエラー塩基コールまたはＰＣＲエラーを検出することが可能である。たとえば、単位のリードのみにより表される所与のＳＬからの遺伝子ＭＬと比較して、複数のリードにより表される所与のＳＬからの遺伝子ＭＬは、恐らく、正確な測定値である。同じライブラリー中の高ＭＬカバー率の存在下で低ＭＬカバー率バーコードは、往々にして、ライブラリー作製の際のシーケンシングランまたはＰＣＲ工程中に生成された人工物もしくはエラーである。シーケンシングまたはＰＣＲの最中に生じたＭＬエラーは、一般に、真のＭＬからの識別可能な分布を有する。図２７は、高度発現遺伝子－ＡＴＣＢのマイクロプレートにおける各分子標識の分子標識カバー率を示す例示的なプロットを示し、ここで、識別可能な分布は、エラー分子標識とリアル分子標識の間に観察された。図２８は、高度発現遺伝子－ＡＴＣＢのマイクロプレートにおける各分子標識の分子標識カバー率への２つのネガティブ二項分布の当てはめを示す例示的なプロットである。２つのネガティブ二項分布の当てはめは、低い分子標識深度を有する分子標識エラーと、より高い分子標識深度を有する真の分子標識が、統計学的に識別可能な分布であることを実証する。ｘ軸は、分子深度である。

全体として、これらのデータは、シーケンシングまたはＰＣＲの最中に生じたＭＬエラーが、一般に、真のＭＬからの識別可能な分布を有することを実証する。

実施例９
ＰＣＲまたはシーケンシングエラーによる分子標識の訂正
この実施例は、ＰＣＲおよびシーケンシング置換エラーによる分子標識を訂正する方法を明らかにするものであり、これは、均一カバー率の想定なしに、かつ、完全シーケンシングステータスのために高いシーケンシングカバー率を必要とすることなく、全トランスクリプトームアッセイに適用することができる。

各リードの第１のマッピング座標およびユニーク分子標識（ＵＭＩ）に対して重複排除を実施し、同じ開始座標、ＵＭＬ、および鎖を仮定して、リードは、同一であると想定した。重複排除の後、クラスター当たりの最も高いカウントを有するＵＭＬが保持された（表１３）。

分子標識（ＭＬ）は、遺伝子毎に訂正した。各遺伝子について、方向近接性を用いてＭＬのクラスターを同定した。ＭＬが、１のハミング距離内にあり、かつ、親ＭＬカウント≧２＊（子供ＭＩカウント）－１であった場合、方向近接性法は、ＭＬをクラスター化した。同じクラスター内のＭＬはすべて、同じ親ＭＬに由来すると考え、子供ＭＬカウントは、親ＭＬへ折りたたまれた。図２９は、分子標識訂正を示し、ここで、１のペアワイズハミング距離が大きな比率を占めた。分子標識訂正後、１のハミング距離相違する分子標識がクラスター化され、同じ親分子標識へ折りたたまれた。図３０は、リード数カバー率に対する訂正されたＭＬの数の曲線を示す。すべてのリードが保持されたため、この方法は、１塩基ＰＣＲまたはシーケンシングエラーを除去するために使用することもできる。

全体として、これらのデータは、すべてのリードが保持されたことから、全トランスクリプトームアッセイのデータを訂正または調節するために適用することができる補正方法を実証する。

実施例１０
高入力サンプルのための分子標識カウンティング
この実施例は、入力分子が増加するとき、使用されるユニーク分子標識を説明する。

ｍＲＮＡの確率およびユニーク標識を可能にするために、小さなサンプル入力（たとえば、単一細胞）に使用する場合、ＢＤＰｒｅｃｉｓｅ（商標）ＴａｒｇｅｔｅｄＡｓｓａｙが最も好適であると考えられる。転写物の数が、高ＲＮＡ／細胞入力実験におけるバーコードプールに比して増加すると、同じ遺伝子を標識するために最小されるＭＬのパーセンテージが増加し、ポアソン分布を用いて理論上計算された（図２６）。こうした状況下で、統計学的訂正なしに、ＭＬを用いて遺伝子発現を定量する工程は、ポアソン訂正も２つのネガティブ二項分布に基づく訂正もなしで、初めに存在する分子の数を過小評価するであろう。

遺伝子当たりのｍＲＮＡの数が６５６１バーコードのコレクション全体を超える極めて高い入力サンプルでは、ポアソン訂正または２つのネガティブ二項分布に基づく訂正はもはや不可能である。たとえば、６５０００または１０００００入力分子のいずれにかかわらず、いずれの場合も最大６５６１の飽和バーコードが予想される。従って、高サンプル入力を有すると思われる遺伝子およびサンプルを改変することができ、それによって、ＭＬカウントは恐らく過少評価されるであろう。

全体として、これらのデータは、ＭＬを用いて遺伝子発現を定量する場合、未補正データを調節する必要性を実証する。

実施例１１
再帰的置換エラー訂正（ＲＳＥＣ）
この実施例では、再帰的置換エラー訂正を明らかにする。

ＭＬエラーを除去するために、ＢＤＰｒｅｃｉｓｅ（商標）ＴａｒｇｅｔｅｄＡｓｓａｙ分析パイプラインに、２つの共同的方法を使用することができる。手短には、シーケンシング塩基コール置換エラーに由来するＭＬエラーを同定し、再帰的置換エラー訂正（ＲＳＥＣ）を用いて真のＭＬバーコードに調節する。続いて、ライブラリー作製工程由来のＭＬエラーまたはシーケンシング塩基欠失エラーを、分布ベースのエラー訂正（ＤＢＥＣ）を用いて調節する。

ＲＳＥＣアルゴリズムは、ＰＣＲまたはシーケンシング置換に由来するＭＬエラーを調節することができる。これらの稀なエラーイベントは、ＭＬカバー率を調べる際に認められている。たとえば、エラーＭＬのＭＬカバー率は、適切なシーケンシングサンプル中のＭＬよりも有意に低くなりうる（図２７）が；初期ＭｏｌｅｃｕｌａｒＩｎｄｅｘｉｎｇ（商標）（逆転写）工程中に、２つの非常に類似したＭＬを用いた場合、これらは、概して、類似するＭＬカバー率を有し、除去する必要がない。シーケンシング深度が増大するにつれて、より多くのＭＬエラーが出現するため、ＲＳＥＣは、高度シーケンシングバーコード付きライブラリーのＭＬカウントを調節するために重要となりうる。

簡潔に述べると、ＲＳＥＣは、エラー訂正において２つの因子：１）ＭＬ配列の類似性；および２）それらのＭＬカバー率を考慮する。各標的遺伝子について、それらのＭＬ配列の両方がある、互いに対して１塩基（ハミング距離＝１）内にあれば、ＭＬは接続される。ＭＬｘとｙとの間の各接続について、
カバー率（ｙ）＞２＊カバー率（ｘ）＋１式（５）
（式中、ｙは、「親ＭＬ」を示し、ｘは、「子供ＭＬ」を示す）。

この代入に基づき、子供ＭＬは、その親へ折りたたまれうる。この過程は、当該遺伝子について同定可能な親／子供ＭＬがもはや存在しなくなるまで、再帰的である。

図３１は、上に概説した再帰的置換エラー訂正の一例の概略図を示す。ＲＳＥＣ訂正前の未補正データ中のＭＬは、９つのユニークＭＬ：ＧＴＣＡＡＡＴＴ、ＧＴＣＡＡＡＡＴ、ＧＴＣＡＡＡＡＡ、ＴＴＣＡＡＡＡＡ、ＴＴＣＡＧＡＡＡ、ＣＴＣＡＡＡＡＡ、ＴＴＣＡＡＡＣＴ、ＴＴＣＡＡＡＡＴ、およびＴＴＣＡＡＡＣＡを含む。ＲＳＥＣを適用することにより、

は、

へ折りたたまれうる。なぜなら、２つのＭＬは、１ヌクレオチド（下線部）相違し、ＭＬＧＴＣＡＡＡＴＴは、ＧＴＣＡＡＡＡＴより低いＭＬカウントを有するからである。次に、ＭＬ

は、ＧＴＣＡＡＡＡＴより高いＭＬカウントを有するＭＬ

（ＭＬ配列中の相違を下線で示す）へ折りたたまれうる。同様に、ＭＬＴＴＣＡＧＡＡＡおよびＣＴＣＡＡＡＡＡは、ＭＬＴＴＣＡＡＡＡＡへ折りたたまれうる。ＭＬＴＴＣＡＡＡＣＴは、ＭＬＴＴＣＡＡＡＡＴへ折りたたまれ、これが、今度は、ＭＬＴＴＣＡＡＡＡＡに折りたたまれうる。ＭＬＴＴＣＡＡＡＣＡは、他のすべてのＭＬと２ヌクレオチド以上相違するため、他の８つのＭＬのいずれにも折りたたまれない。ＲＳＥＣ訂正前に、未補正ＭＬカウントは９であった。ＲＳＥＣ訂正後、ＭＬカウントは２つ：ＭＬＴＴＣＡＡＡＡＡおよびＴＴＣＡＡＡＡＡであった。

全体として、これらのデータは、未補正ＭＬカウントを訂正するためにＲＳＥＣを使用する工程を実証する。

実施例１２
ＭＬカバー率計算
この実施例は、ＭＬカバー率計算を説明する。

ＲＳＥＣの後、ウェル当たりの遺伝子ＭＬカウントを評価して、さらなる訂正についてそれらの適合性を判定する。低ＭＬカバー率（＜ＭＬ当たり４リード）を有する遺伝子は、次の訂正工程を迂回し、最終ＭＬデータ表に報告されて、バイオインフォマティクスパイプラインに「低深度」であると記録される。考えられる６５６１のバーコードのうち少なくとも６５５７が観察されるといった、極めて高い入力を有る遺伝子の場合、バーコード多様性のために分子の数を決定するのは困難となり、遺伝子は、「飽和」として表示される。２つの決定地点のいずれも満たさない遺伝子ＭＬについては、次のＤＢＥＣアルゴリズムに進み、出力ログファイル内で「合格」と表示される。さらに、ウェル当たり平均６５０ＭＬより高いＭＬを有する遺伝子は、これらのＭＬの＞５％は、ポアソン分布に基づいて再利用されるため、「高入力」であると記録される（図２７）。

全体として、この実施例は、ＭＬカバー率計算を説明する。

実施例１３
分布ベースのエラー訂正（ＤＢＥＣ）
この実施例は、分布ベースのエラー訂正を説明する。

ＲＳＥＣとは異なり、ＤＢＥＣアルゴリズムは、ＭＬが、そのＭＬ配列にかかわらず、エラーまたは真のシグナルであるかを識別するための方法である。ＲＳＥＣは、エラーを訂正するために、ＭＬ配列およびＭＬカバー率情報の両方に依存するが、ＤＢＥＣは、非置換エラー訂正について訂正するために、主としてＭＬカバー率だけに依存する。前述したように、エラーバーコードは、一般に、真のバーコードＭＬカバー率とは異なる低いＭＬカバー率を有し；このＭＬカバー率の差は、異なる分布として、ＭＬカバー率のヒストグラムプロットで認めることができる（図２７）。この差を仮定して、ＤＢＥＣは、ＭＬエラー（より低いＭＬカバー率を有する）と、より高いＭＬカバー率を有する真のシグナルのものとを統計学的に識別するために、２つのネガティブ二項分布を当てはめる。

最適分布当てはめのための再使用ＭＬの除去
所与の遺伝子について、検出されたＭＬが増加するにつれて、再使用されるＭＬ（すなわち、同じ遺伝子由来する２つ以上のｍＲＮＡを標識するために同じＭＬが使用される）のパーセンテージは、増加することから、推定することができる。ポアソン分布（γ_non-unique）を用いて、ウェルｉの再使用ＭＬの数（ｎ_non-unique,i）をＭＬ再使用率方程式（方程式（６））から推定する。推定再使用ＭＬが、ウェルｉにおける所与の遺伝子の総ＭＬの５％より大きければ、ウェルｉにおけるこの遺伝子は、「高入力」と表示される。これらの「高入力」データの場合、より優れた二項分布を取得するために、最大ＭＬカバー率ＭＬは、分布当てはめから除外される（しかし、後のカウント工程のために保存される）。
Ｐ（Ｘ＞１│λ_non-unique），λ_non-unique＝Ｎｕｍｂｅｒｏｆ
ＭＬ／６５６１式（６）

低発現遺伝子のための擬似点の追加
ＭＬの固有の数が１０未満である場合、往々にして、データの希薄さのために分布を当てはめるのが難しくなる。この問題を改善するために、ＤＢＥＣは、分布当てはめを補助するために用いられる１％シグナルカウントの擬似点を追加するが、それでもなおデータに影響を与えない。

パラメータの推定
２つのネガティブ二項分布を当てはめて、シグナルＭＬからエラーを区別するために、パラメータ推定のための２組の出発数値を概算する。エラー分布は、平均および１の散布を有するネガティブ二項分布であると想定される。

エラー／シグナル確率推定
シグナルおよびエラー分布をそれぞれＮｅｇａｔｉｖｅＢｉｎｏｍｉａｌ（μ_signal，ｓｉｚｅ_signal）およびＮｅｇａｔｉｖｅＢｉｎｏｍｉａｌ（μ_error，ｓｉｚｅ_error）として想定する。シグナルＭＬの数を小さい順に決定するために、所与のＭＬからのリードの数が、シグナルおよびエラー分布に由来する確率を、方程式（８）が満たされるまで計算し、ここで、先行するＭＬはすべて、エラーＭＬとみなされる。
Ｐ（Ｘ＝ｒ│μ＝μ_error，ｓｉｚｅ＝ｓｉｚｅ_error）＜Ｐ（Ｘ＝ｒ│μ＝μ_signal，ｓｉｚｅ＝ｓｉｚｅ_signal）式（８）

全体として、この実施例は、分布ベースのエラー訂正を実施するための計算を示す。

実施例１４
二次導関数に基づくＳＬエラーの調節
この実施例は、二次導関数に基づくＳＬエラーの調節を示す。

図３２、パネル（ａ）～（ｅ）は、分子標識深度変化の二次導関数に基づくＰＣＲおよびシーケンシングエラーの訂正の例示的な結果を示す。図３２、パネル（ａ）は、ＳＬエラーおよびシグナルＭＬが、十分に分離されうることを示す。図３２、パネル（ｂ）および（ｄ）は、それぞれ、図３２、パネル（ｃ）および（ｅ）に示すＭＬカウントからの分子標識カウントの累積和を示す。図３２、パネル（ｂ）および（ｄ）中の縦線は、二次導関数の最大値の位置を示す。図３２、パネル（ｂ）および（ｄ）中の点線は、二次導関数の最大値の位置が、ＭＬカウント対ＭＬリード深度のプロットにおいてＭＬを分離し得ることを示す。

全体として、これらのデータは、ＭＬシグナルからＳＬエラーを分離するために、分子標識の二次導関数の最大値を用いることができることを明らかにする。

実施例１５
ＤＢＥＣに基づくＰＣＲおよびシーケンシングエラーの訂正
この実施例は、２つのネガティブ二項分布に基づくＰＣＲおよびシーケンシングエラーの訂正を示す。

図３３、パネル（ａ）～（ｃ）は、ＣＤ６９について２つのネガティブ二項分布に基づくＰＣＲおよびシーケンシングエラーの訂正の例示的な結果を示す。図３３、パネル（ａ）は、図３３、パネル（ｂ）のＭＬ深度のヒストグラムに示すＭＬカウントデータでのＣＤ６９について２つのネガティブ二項分布（ノイズネガティブ二項分布のＤ_nと、シグナル二項分布のＤ_s）の当てはめを示す。図３３、パネル（ｂ）の点線は、図３３、パネル（ａ）に示す２つのネガティブ二項分布により決定されたＭＬシグナルおよびＳＬエラーの分離を示す。図３３、パネル（ｃ）の縦線は、リードの累積和プロットに基づいて決定される二次導関数の局所的最大値を示す。図３３と同様に、図３４、パネル（ａ）～（ｃ）は、ＣＤ３Ｅについての２つのネガティブ二項分布に基づくＰＣＲおよびシーケンシングエラーの訂正の例示的な結果を示す。

全体として、これらのデータは、ＤＢＥＣを用いて、ＰＣＲおよびシーケンシングエラーを訂正することができることを明らかにする。

実施例１６
ＭＬ再使用
この実施例は、高度発現遺伝子のためのＭＬ再使用、ならびに分布当てはめ前に高度発現遺伝子の入力データを調節する必要性を明らかにする。

図３５、パネル（ａ）～（ｃ）は、高度発現遺伝子ＡＣＴＢについての２つのネガティブ二項分布に基づくＰＣＲおよびシーケンシングエラーの訂正の例示的な結果を示す。高度発現遺伝子は、過剰シーケンシングステータス（たとえば、１００以上のＭＬカバー率を有する）を有しうる。いくつかの実施形態では、高度発現遺伝子は、他の基準を用いて決定してもよい。図３５、パネル（ａ）において、縦線右側の分子標識は、高い深度に基づいて恐らく再使用されたＭＬに対応する。図３５、パネル（ｂ）は、分子標識を３つのカテゴリー（ＭＬエラー以外に）：ＳＬエラー、シグナルＭＬ、および恐らく再使用されたＭＬに区分することができることを概略的に示す。図３５、パネル（ｃ）は、恐らく再使用されたＭＬを調節せずに、当てはめられた２つのネガティブ二項分布は、理想的ではなかったことを実証する。

図３６は、高度発現遺伝子についてＧリッチ分子標識の再使用の例示的な結果を示す。図３６は、高度発現遺伝子ＧＡＰＤＨ、ＡＣＴＢ、およびＨＳＰ９０ＡＢ１について上位２０の高い深度ＭＬを示す。これらの高い深度ＭＬは、多数のＧおよびＴを有し、これらは、再使用される可能性が高く、バーコード付けは確率論的ではなかった。ＭＬ二重項は、確率標識を想定する理論計算値より早く起こった。ＡＣＴＢについては、ウェル当たり３５０ＭＬが存在した場合、理論上、２．７％の二重項があるはずであったが、実際の二重項は、４パーセント前後であった。

図３７、パネル（ａ）～（ｂ）は、２つのネガティブ二項分布を当てはめる前の、高度発現遺伝子についての入力データの調節の例示的な結果を示す。図３７、パネル（ａ）は、高度発現遺伝子について調節された、図３５、パネル（ａ）における入力データを示す。図３５、パネル（ｃ）における非理想的な分布当てはめとは対照的に、図３７、パネル（ｂ）は、当てはめられた２つのネガティブ二項分布を示す。

全体として、これらのデータは、２つのネガティブ二項分布の当てはめの前に、高度発現遺伝子についてのシーケンシンデータから、再使用されたＭＬを除去する必要がありうることを示す。

実施例１７
２つのネガティブ二項分布を用いたＭＬカウントの訂正
この実施例は、２つのネガティブ二項分布を用いて訂正された１０の標的のＭＬカウントを示す。

図３８、パネル（ａ）～（ｊ）は、２つのネガティブ二項分布を用いて訂正されたデータセットの非限定的な例示的検証を示す。図３８に示すように、１０の標的のＭＬカウントが訂正された。図３８の各パネルの縦線は、２つのネガティブ二項分布を用いて決定された、標的のＭＬシグナルおよびＳＬエラーの分離を示す。

全体として、これらのデータは、２つのネガティブ二項分布を用いたＭＬカウントの訂正を検証するものである。

実施例１８
混合されたＪｕｒｋａｔおよび乳癌（ＢｒＣａ）単一細胞の９６ウェルからのＢＤＰｒｅｃｉｓｅ（商標）ＴａｒｇｅｔｅｄＡｓｓａｙのｔ－確率的近傍埋込み視覚化
この実施例は、混合されたＪｕｒｋａｔおよび乳癌（ＢｒＣａ）単一細胞についての再帰的置換エラー訂正および分布ベースのエラー訂正に基づいてＰＣＲおよびシーケンシングエラーを訂正する方法を示す。

図３９、パネル（ａ）～（ｄ）は、混合されたＪｕｒｋａｔおよび乳癌（ＢｒＣａ）単一細胞の９６ウェルからのＢＤＰｒｅｃｉｓｅ（商標）ＴａｒｇｅｔｅｄＡｓｓａｙの例示的なｔ－確率的近傍埋込み（ｔ－ＳＮＥ）視覚化を示す（８６の被検遺伝子）。図３９、パネル（ａ）は、ＭＬ調節前および後の同じパラメータを有するＤＢＳｃａｎを用いて、細胞クラスターを同定したことを示す。図３９、パネル（ｂ）～（ｄ）は、色および点サイズの両方により評価される個々のマーカー発現を示す。図３９、パネル（ｂ）は、ＰＳＭＢ４、すなわち、両細胞型中に、およびＭＬ調節後に存在するハウスキーピング遺伝子を示し、ＰＳＭＢ４シグナルの欠如は、「低シグナル」クラスター中でさらに強調される。図３９、パネル（ｃ）は、ＣＤ３Ｅ、すなわち、Ｊｕｒｋａｔ細胞クラスターを強調するリンパ球マーカーを示す。図３９、パネル（ｄ）は、ＣＤＨ１、すなわち、ＢｒＣａクラスターを強調する上皮細胞マーカーを示す。

全体として、これらのデータは、ＭＬ調節によってＭＬノイズが除去され、これにより、細胞クラスター間の遺伝子発現の明瞭な区別が可能になったことを実証するものである。

実施例１９
細胞クラスター間の差異発現分析
この実施例は、低シグナル細胞および乳癌（ＢｒＣａ）細胞についての再帰的置換エラー訂正および分布ベースのエラー訂正に基づいてＰＣＲおよびシーケンシングエラーを訂正する方法を示す。

図４０、パネル（ａ）～（ｂ）は、各々のクラスターでＤＢＳｃａｎにより計算され、かつ遺伝子マーカーレベルによって決定された、両方の選択クラスターにおいて＞０ＭＬを有する遺伝子について細胞クラスター間の差異発現分析を示す非限定的な例示的プロットである。図４０、パネル（ａ）は、残りの細胞と比較した「低シグナル」クラスター遺伝子発現を示す。図４０、パネル（ａ）の上部は、未補正ＭＬ比較を示し、これによって、他の細胞において高い平均発現を有する遺伝子ほど、ＭＬノイズが概して高いことがわかる。図４０、パネル（ａ）の下部は、ＲＳＥＣおよびＤＢＥＣを用いたＭＬ調節後に、「低シグナル」クラスター中に検出されたＭＬノイズが低減し、クラスター間の遺伝子発現の明瞭な識別を可能にすることを示す。図４０、パネル（ｂ）は、残りの細胞と比較した「ＢｒＣａ」クラスター遺伝子発を示す。図４０、パネル（ｂ）の上部は、非ＢｒＣａ細胞中の未補正ＭＬも、ＫＲＴ１、ＭＵＣ１などのＢｒＣａマーカーの有意なＭＬカウントを有したことを示す。図４０、パネル（ｂ）の下部は、ＢｒＣａマーカーの調節されたＭＬが、ＢｒＣａクラスター中で、残りの細胞よりも極めて豊富であったことを示す。

全体として、これらのデータは、低シグナル細胞および乳癌細胞などの細胞の場合、再帰的置換エラー訂正および分布ベースのエラー訂正に基づいてＰＣＲおよびシーケンシングエラーを訂正することができることを示す。

実施例２０
混合ＪｕｒｋａｔおよびＴ４７Ｄ細胞の分子標識の調節
この実施例は、混合ＪｕｒｋａｔおよびＴ４７Ｄ細胞の分子標識を調節する方法を示す。

図４１、パネル（ａ）～（ｄ）は、８６の被検遺伝子を含む混合Ｊｕｒｋａｔおよび乳癌（Ｔ４７Ｄ）単一細胞の９６ウェルからのＢＤＰｒｅｃｉｓｅ（商標）ＴａｒｇｅｔｅｄＡｓｓａｙのｔ－確率的近傍埋込み視覚化を示す非限定的な例示的プロットである。図４１、パネル（ａ）は、ＭＬ調節前および後に同じパラメータを有するＤＢＳｃａｎを用いて、細胞クラスターを同定したことを示す。図４１、パネル（ｂ）～（ｄ）は、色および点サイズの両方によって評価される個々のマーカー発現を示す。図４１、パネル（ｂ）は、ＰＳＭＢ４、すなわち、両細胞型中に、およびＭＬ調節後に存在するハウスキーピング遺伝子の評価を示す。ＰＳＭＢ４シグナルの欠如は、テンプレートなし対照（ＮＴＣ）クラスターにおいてさらに強調される。図４１、パネル（ｃ）は、ＣＤ３Ｅ、すなわち、Ｊｕｒｋａｔ細胞クラスターを強調するリンパ球マーカーの評価を示す。図４１、パネル（ｄ）は、ＣＤＨ１、すなわち、Ｔ４７Ｄクラスターを強調する上皮細胞マーカーの評価を示す。

図４２、パネル（ａ）～（ｂ）は、エラー訂正工程前（図４２、パネル（ａ）に示す未補正ＭＬ）ならびにＲＳＥＣおよびＤＢＥＣ訂正後（図４２、パネル（ｂ）に示す調節ＭＬ）に、図４１で同定されたさまざまな細胞クラスター間の分子標識カウントによる差異遺伝子発現を表示する非限定的な例示的ヒートマップである。発現の低かった遺伝子は青色で、発現が高かった遺伝子はオレンジ色である。これらの細胞型の間で遺伝子発現が類似する遺伝子は、互いにクラスター化する。エラー訂正がない場合、ＮＴＣは、ＣＤ３ＥおよびＫＲＴ１８（それぞれ、ＪｕｒｋａｔおよびＴ４７Ｄマーカーである）などの高度発現遺伝子に由来するノイズを有した。さらに、エラー訂正は、ＪｕｒｋａｔとＴ４７Ｄとの間で識別可能な遺伝子発現パターンを明らかにした。

全体として、これらのデータは、ＭＬ調節が、ＭＩノイズを除去することができ、これによって、細胞クラスター間の遺伝子発現の明瞭な区別を可能になることを実証するものである。

以上に記載の実施形態の少なくともいくつかでは、実施形態で使用される１つ以上のエレメントは、他の実施形態で互換的に使用可能である。ただし、かかる交換が技術的に実現可能である場合に限る。特許請求された主題の範囲から逸脱することなく、以上に記載の方法および構造に種々の他の省略、追加、および変更を行いうることは、当業者であれば分かるであろう。かかる変更および変化はすべて、添付の特許請求の範囲に規定される主題の範囲内に含まれることが意図される。

本明細書に記載の実質的に任意の複数形および／または単数形の用語の使用に関連して、文脈上および／または適用上適切であれば、当業者は複数形から単数形へおよび／または単数形から複数形への変換が可能である。明確にするために種々の単数形／複数形の入替えを本明細書に明示的に記述しうる。本明細書および添付の特許請求の範囲で用いられる場合、特に文脈上明確に規定されていない限り、単数形の「ａ」、「ａｎ」、および「ｔｈｅ」には、複数の参照語が包含される。本明細書での「ｏｒ（または）」の意味はいずれも、特に明記されていない限り、「ａｎｄ／ｏｒ（および／または）」を包含することが意図される。

一般的には、本明細書特に添付の特許請求の範囲（たとえば添付の特許請求の範囲の本文）で用いられる用語は「オープン」用語であることが一般に意図されることは当業者であれば理解されよう（たとえば、「ｉｎｃｌｕｄｉｎｇ（～を含む）」という用語は「～を含むがこれらに限定されるものではない」と解釈すべきであり、「ｈａｖｉｎｇ（～を有する）」という用語は「少なくとも～を有する」と解釈すべきであり、「ｉｎｃｌｕｄｅｓ（～を含む）」という用語は「～を含むがこれらに限定されるものではない」と解釈すべきであるなど）。さらに、導入クレームレシテーションの特定数が意図される場合、かかる意図は請求項で明示的にリサイトされ、かかるレシテーションの不在下ではかかる意図は存在しないことは当業者であれば理解されよう。たとえば、理解の一助として、以下の添付の特許請求の範囲は、クレームレシテーションを導入するために導入語句「ａｔｌｅａｓｔｏｎｅ（少なくとも１つ）」および「ｏｎｅｏｒｍｏｒｅ（１つ以上）」の使用を含みうる。しかしながら、かかる語句が用いられたとしても、不定冠詞「ａ」または「ａｎ」によるクレームレシテーションの導入が、かかる導入クレームレシテーションを含む任意の特定の請求項を、一方のかかるレシテーションを含む実施形態のみに限定することを意味するものと解釈すべきでない。たとえ同一の請求項が導入語句「ｏｎｅｏｒｍｏｒｅ（１つ以上）」または「ａｔｌｅａｓｔｏｎｅ（少なくとも１つ）」と不定冠詞たとえば「ａ」または「ａｎ」とを含む場合でさえも、そのように解釈すべきでない（たとえば、「ａ」および／または「ａｎ」は「ａｔｌｅａｓｔｏｎｅ（少なくとも１つ）」または「ｏｎｅｏｒｍｏｒｅ（１つ以上）」を意味するものと解釈すべきである）。定冠詞を用いてクレームレシテーションを導入する場合にも、同じことが当てはまる。そのほかに、たとえ特定数の導入クレームレシテーションが明示的にリサイトされたとしても、かかるレシテーションは少なくともリサイトされた数を意味すると解釈すべきであることは当業者であれば分かるであろう（たとえば、「２つのレシテーション」という他の修飾語を含まないベアのレシテーションは、少なくとも２つのレシテーションまたは２つ以上レシテーションを意味する）。さらに、「Ａ、Ｂ、およびＣの少なくとも１つ」に類似した条件が用いられる場合、一般的には、かかる構成は当業者がその条件を理解する意味であることが意図される（たとえば、「Ａ、Ｂ、およびＣの少なくとも１つを有する系」は、限定されるものではないが、Ａ単独、Ｂ単独、Ｃ単独、ＡとＢの両方、ＡとＣの両方、ＢとＣの両方、および／またはＡとＢとＣの全部などを有する系を含であろう）。「Ａ、Ｂ、またはＣの少なくとも１つなど」に類似した条件が用いられる場合、一般的には、かかる構成は当業者がその条件を理解する意味であることが意図される（たとえば、「Ａ、Ｂ、またはＣの少なくとも１つを有する系」は、限定されるものではないが、Ａ単独、Ｂ単独、Ｃ単独、ＡとＢの両方、ＡとＣの両方、ＢとＣの両方、および／またはＡとＢとＣの全部などを有する系を含であろう）。さらに、２つ以上の代替用語を表す実質上任意の選言的な語および／または語句は、明細書、請求項、または図面にかかわらず、用語の１つ、用語のいずれか、または用語の両方を含む可能性が企図されると理解すべきであることは当業者であれば理解されよう。たとえば、「ＡまたはＢ」という語句は「Ａ」または「Ｂ」または「ＡおよびＢ」の可能性を含むものと理解されよう。

そのほかに、本開示の特徴または態様がマーカッシュグループにより記述される場合、それにより、本開示は、マーカッシュグループの任意の個別のメンバーまたはメンバーのサブグループにより記述されることは当業者であれば分かるであろう。

当業者であれば理解されるであろうが、あらゆる目的で、たとえば、明細書の提供に関して、本明細書に開示された範囲はすべて、あらゆる可能なサブ範囲およびそのサブ範囲の組合せをも包含する。いずれの列挙された範囲も、十分に記述されたものとしてかつその範囲が少なくとも２等分、３等分、４等分、５等分、１０等分などされうるものとして容易に認識可能である。たとえば、限定されるものではないが、本明細書で考察した各範囲は、下３分の１、中３分の１、上３分の１に容易に分解可能である。同様に、当業者であれば理解されるであろうが、「～まで」、「少なくとも～」、「～超」、「～未満」などの表現はすべて、リサイトされた数を含み、以上で考察したように後続的にサブ範囲に分解可能な範囲を意味する。最終的に、当業者であれば理解されるであろうが、範囲は各個別のメンバーを含む。したがって、たとえば、１～３個の物品を有するグループは、１、２、または３個の物品を有するグループを意味する。同様に、１～５個の物品を有するグループは、１、２、３、４、または５個の物品を有するグループを意味し、他も同様である。

種々の態様および実施形態を本明細書に開示してきたが、他の態様および実施形態は当業者には自明であろう。本明細書に開示される種々の態様および実施形態は、例示を目的としたものであり、限定を意図したものではなく、真の範囲および趣旨は、以下の特許請求の範囲により示される。
なお、本発明としては、以下の態様も好ましい。
〔１〕標的の数を決定する方法であって、
（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、前記複数の確率バーコードの各々が分子標識を含む工程と；
（ｂ）前記確率バーコード付き標的のシーケンシングデータを取得する工程と；
（ｃ）前記複数の標的の１つ以上について：
（ｉ）前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；
（ｉｉ）方向近接性を用いて、前記標的の分子標識のクラスターを同定する工程と；
（ｉｉｉ）（ｉｉ）で同定された前記標的の分子標識の前記クラスターを用いて、（ｂ）で得られた前記シーケンシングデータを折りたたむ工程と；
（ｉｖ）前記標的の数を推定する工程であって、推定された前記標的の数が、（ｉｉ）の前記シーケンシングデータの折りたたみ後に、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、
を含む、方法。
〔２〕前記複数の標的が、細胞の全トランスクリプトームの標的を含む、〔１〕に記載の方法。
〔３〕クラスター内の前記標的の分子標識が、互いの所定の方向近接性閾値内にある、〔１〕～〔２〕のいずれか一項に記載の方法。
〔４〕前記方向近接性閾値が、１のハミング距離である、〔３〕に記載の方法。
〔５〕前記クラスター内の前記標的の前記分子標識が、１つ以上の親分子標識と、前記１つ以上の親分子標識の子供分子標識とを含み、前記親分子標識の発生数が、所定の方向近接性発生数閾値以上である、〔１〕～〔４〕のいずれか一項に記載の方法。
〔６〕前記所定の方向近接性発生数閾値が、２×（子供分子標識の発生数）－１である、〔５〕に記載の方法。
〔７〕（ｉｉ）で同定された前記標的の分子標識の前記クラスターを用いて、（ｂ）で得られた前記シーケンシングデータを折りたたむ工程が、
前記子供分子標識の発生数を前記親分子標識に帰属させる工程
を含む、〔１〕～〔６〕のいずれか一項に記載の方法。
〔８〕前記標的のシーケンシング深度を決定する工程をさらに含む、〔１〕～〔７〕のいずれか一項に記載の方法。
〔９〕前記標的の前記シーケンシング深度が所定のシーケンシング深度閾値を超える場合、前記標的の数を推定する工程が、（ｉ）でカウントされた前記シーケンシングデータを調節する工程を含む、〔８〕に記載の方法。
〔１０〕前記所定のシーケンシング深度閾値が、１５～２０である、〔９〕に記載の方法。
〔１１〕（ｉ）でカウントされた前記シーケンシングデータを調節する工程が、
前記標的の分子標識を閾値化して、（ｂ）で得られた前記シーケンシングデータ中の前記標的に関連付けられた真の分子標識および偽の分子標識を決定する工程
を含む、〔９〕～〔１０〕のいずれか一項に記載の方法。
〔１２〕前記標的の前記分子標識を閾値化する工程が、前記標的の前記分子標識について統計解析を実施する工程を含む、〔１１〕に記載の方法。
〔１３〕前記統計解析を実施する工程が、
前記標的の前記分子標識の分布およびそれらの発生数を２つのネガティブ二項分布に当てはめる工程と；
前記２つのネガティブ二項分布を用いて真の分子標識の数ｎを決定する工程と；
（ｂ）で得られた前記シーケンシングデータから前記偽の分子標識を除去する工程と、
を含み、
前記偽の分子標識が、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、前記真の分子標識が、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む、〔１２〕に記載の方法。
〔１４〕前記ネガティブ二項分布が、前記真の分子標識に対応する第１のネガティブ二項分布と、前記偽の分子標識に対応する第２のネガティブ二項分布を含む、〔１３〕に記載の方法。
〔１５〕標的の数を決定する方法であって、
（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、前記複数の確率バーコードの各々が分子標識を含む工程と；
（ｂ）前記確率バーコード付き標的のシーケンシングデータを取得する工程と；
（ｃ）前記複数の標的の１つ以上について：
（ｉ）前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；
（ｉｉ）前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程と；
（ｉｉｉ）前記標的の数を推定する工程と、
を含み、
推定された前記標的の数が、（ｉｉ）で決定された前記ノイズ分子標識の数に応じて調節された、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた前記識別可能な配列を有する分子標識の数と相関する、方法。
〔１６〕前記シーケンシングデータ中の前記標的のシーケンシングステータスを決定する工程をさらに含む、〔１５〕に記載の方法。
〔１７〕前記シーケンシングデータ中の前記標的の前記シーケンシングステータスが、飽和シーケンシング、過少シーケンシング、または過剰シーケンシングである、〔１６〕に記載の方法。
〔１８〕前記飽和シーケンシングステータスが、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する前記標的によって決定される、〔１７〕に記載の方法。
〔１９〕前記確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、前記所定の飽和閾値が、約６５５７である、〔１８〕に記載の方法。
〔２０〕前記確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、前記所定の飽和閾値が、約６５５３２である、〔１８〕～〔１９〕のいずれか一項に記載の方法。
〔２１〕前記シーケンシングデータ中の前記標的の前記シーケンシグステータスが、前記飽和シーケンシングステータスである場合、（ｉｉ）で決定された前記ノイズ分子標識の数が、ゼロである、〔１７〕～〔２０〕のいずれか一項に記載の方法。
〔２２〕前記過少シーケンシングステータスが、所定の過少シーケンシング閾値より小さい深度を有する前記標的によって決定され、前記対象の前記深度が、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の、平均、最小、または最大深度を含む、〔１７〕～〔２１〕のいずれか一項に記載の方法。
〔２３〕前記過少シーケンシング閾値が約４である、〔２２〕に記載の方法。
〔２４〕前記過少シーケンシング閾値は、識別可能な配列を有する前記分子標識の数とは無関係である、〔２３〕に記載の方法。
〔２５〕前記シーケンシングデータ中の前記標的の前記シーケンシグステータスが、前記過少シーケンシングステータスである場合、（ｉｉ）で決定された前記ノイズ分子標識の数が、ゼロである、〔１７〕～〔２４〕のいずれか一項に記載の方法。
〔２６〕前記過剰シーケンシングステータスが、所定の過剰シーケンシング閾値より大きい深度を有する前記標的によって決定され、前記対象の前記深度が、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の、平均、最小、または最大深度を含む、〔１７〕～〔２５〕のいずれか一項に記載の方法。
〔２７〕前記確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、前記過剰シーケンシング閾値が、約２５０である、〔２６〕に記載の方法。
〔２８〕前記シーケンシングデータ中の前記標的の前記シーケンシングテータスが、前記過剰シーケンシングステータスである場合、
前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数を、前記所定の過剰シーケンシング閾値にサブサンプリングする工程
をさらに含む、〔２６〕～〔２７〕のいずれか一項に記載の方法。
〔２９〕前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する工程が、
ネガティブ二項分布当てはめ条件が満たされる場合、
（ｉｖ）シグナルネガティブ二項分布を、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数に当てはめる工程であって、前記シグナルネガティブ二項分布が、シグナル分子標識である、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数に対応するステップと；
（ｖ）ノイズネガティブ二項分布を、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数に当てはめる工程であって、前記ノイズネガティブ二項分布が、ノイズ分子標識である、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数に対応する工程と；
（ｖｉ）（ｖ）で当てはめた前記シグナルネガティブ二項分布および（ｖｉ）で当てはめた前記ノイズネガティブ二項分布を用いて、前記ノイズ分子標識の数を決定する工程と、を含む、
〔１７〕～〔２８〕のいずれか一項に記載の方法。
〔３０〕前記ネガティブ二項分布当てはめ条件が、前記シーケンシングデータ中の前記標的の前記シーケンシングステータスが、前記過少シーケンシングステータスまたは前記過剰シーケンシングステータスではないことを含む、〔２９〕に記載の方法。
〔３１〕（ｖ）で当てはめた前記シグナルネガティブ二項分布および（ｖｉ）で当てはめた前記ノイズネガティブ二項分布を用いて、前記ノイズ分子標識の数を決定する工程が、
前記シーケンシングデータ中の前記標的に関連付けられた前記識別可能な配列の各々について、
前記識別可能な配列のシグナル確率が、前記シグナルネガティブ二項分布であることを決定する工程と；
前記識別可能な配列のノイズ確率が、前記ノイズネガティブ二項分布であることを決定する工程と；
前記シグナル確率が前記ノイズ確率より小さければ、前記識別可能な配列がノイズ分子標識であることを決定する工程と、
を含む、〔２９〕～〔３０〕のいずれか一項に記載の方法。
〔３２〕前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する工程が、
前記シーケンシングデータ中の前記標的の前記シーケンシングステータスが、前記過少シーケンシングステータスまたは前記過剰シーケンシングステータスではなく、かつ、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、擬似点閾値より少ない場合、（ｉｉ）で前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する前に、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数に擬似点を加える工程を含む、
〔１７〕～〔３１〕のいずれか一項に記載の方法。
〔３３〕前記擬似点閾値が１０である、〔３２〕に記載の方法。
〔３４〕前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する工程が、
前記シーケンシングデータ中の前記標的の前記シーケンシングステータスが、前記過少シーケンシングステータスまたは前記過剰シーケンシングステータスではなく、かつ、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、擬似点閾値以上である場合、（ｉｉ）で前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む、
〔１７〕～〔３３〕のいずれか一項に記載の方法。
〔３５〕前記非ユニーク分子標識を除去する工程が、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、所定の再使用分子標識閾値より大きい場合、（ｉｉ）で前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する際に、前記非ユニーク分子標識を除去する工程を含む、〔３４〕に記載の方法。
〔３６〕前記確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、前記再使用分子標識閾値が、約６５０である、〔３５〕に記載の方法。
〔３７〕前記非ユニーク分子標識を除去する工程が、
前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数について非ユニーク分子標識の理論上の数を決定する工程と；
前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有するｎ番目に豊富な前記分子標識よりも大きい発生数を有する分子標識を除去する工程と、
を含み、
ｎが、非ユニーク分子標識の理論数である、〔３４〕～〔３６〕のいずれか一項に記載の方法。
〔３８〕ハードウェアプロセッサーと、
前記ハードウェアプロセッサーによって実行される場合、前記プロセッサーに〔１〕～〔３７〕のいずれか一項に記載の方法を実行させる命令を記憶した非一過性メモリーと、
を含む、ターゲットの数を決定するためのコンピュータシステム。
〔３９〕〔１〕～〔３７〕のいずれか一項に記載の方法を実行するためのコードを含むソフトウェアプログラムを含む、コンピュータ読取り媒体。
〔４０〕標的の数を決定する方法であって、
（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、前記複数の確率バーコードの各々が分子標識を含む工程と；
（ｂ）前記確率バーコード付き標的のシーケンシングデータを取得する工程と；
（ｃ）前記複数の標的の１つ以上について：
（ｉ）前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；
（ｉｉ）（ｂ）で得られた前記シーケンシングデータ中の前記標的のクオリティステータスを決定する工程と；
（ｉｉｉ）（ｂ）で得られた前記シーケンシングデータ中の１つ以上のシーケンシングデータエラーを決定する工程であって、前記シーケンシングデータ中の前記１つ以上のシーケンシングデータエラーを決定する工程が、以下：前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数、前記シーケンシングデータ中の前記標的の前記クオリティステータス、および前記複数の確率バーコード中の識別可能な配列を有する前記分子標識の数のうち１つ以上を決定することを含む工程と；
（ｉｖ）前記標的の数を推定する工程であって、推定された前記標的の数が、（ｉｉｉ）で決定された前記１つ以上のシーケンシングデータエラーに応じて調節された、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数と相関する工程と、
を含む、方法。
〔４１〕前記１つ以上のシーケンシングデータエラーを決定する前に、（ｂ）で得られた前記シーケンシングデータを折りたたむ工程
をさらに含む、〔４０〕に記載の方法。
〔４２〕（ｂ）で得られた前記シーケンシングデータを折りたたむ工程が、
類似した分子標識を有し、かつ、所定の折りたたみ発生数閾値よりも少ない発生数を有する標的のコピーを、前記複数の標的について同じ分子標識を有するものとして帰属させる工程を含み、前記標的の２つのコピーは、前記標的の前記２つのコピーの分子標識の配列が少なくとも１塩基相違する場合、類似の分子標識を有する、
〔４１〕に記載の方法。
〔４３〕前記確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、前記所定の折りたたみ発生数閾値が７である、〔４２〕に記載の方法。
〔４４〕前記確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、前記所定の折りたたみ発生数閾値が１７である、〔４２〕に記載の方法。
〔４５〕前記標的の２つのコピーが、前記標的の前記２つのコピーの分子標識の配列が少なくとも１塩基相違する場合、類似の分子標識を有する、〔４２〕～〔４４〕のいずれか一項に記載の方法。
〔４６〕前記分子標識が、５～２０個のヌクレオチドを含む、〔４０〕～〔４５〕のいずれか一項に記載の方法。
〔４７〕異なる確率バーコードの前記分子標識が、互いに異なっている、〔４０〕～〔４６〕のいずれか一項に記載の方法。
〔４８〕前記複数の確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む、〔４０〕～〔４７〕のいずれか一項に記載の方法。
〔４９〕前記複数の確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む、〔４０〕～〔４７〕のいずれか一項に記載の方法。
〔５０〕前記シーケンシングデータが、５０ヌクレオチド以上のリード長を有する前記複数の標的の配列を含む、〔４０〕～〔４９〕のいずれか一項に記載の方法。
〔５１〕前記シーケンシングデータが、７５ヌクレオチド以上のリード長を有する前記複数の標的の配列を含む、〔４０〕～〔４９〕のいずれか一項に記載の方法。
〔５２〕前記シーケンシングデータが、１００ヌクレオチド以上のリード長を有する前記複数の標的の配列を含む、〔４０〕～〔４９〕のいずれか一項に記載の方法。
〔５３〕（ｂ）で得られた前記シーケンシングデータが、前記複数の確率バーコード付き標的に対してポリメラーゼ連鎖反応（ＰＣＲ）増幅を実施することによって生成することができる、〔４０〕～〔５２〕のいずれか一項に記載の方法。
〔５４〕前記１つ以上のシーケンシングデータエラーが、ＰＣＲ導入エラー、シーケンシング導入エラー、バーコード混入に起因するエラー、ライブラリー作製エラー、またはそれらの任意の組合せである、〔４０〕～〔５３〕のいずれか一項に記載の方法。
〔５５〕前記ＰＣＲ導入エラーが、ＰＣＲ増幅エラー、ＰＣＲ増幅バイアス、不十分なＰＣＲ増幅、またはそれらの任意の組合せの結果である、〔５４〕に記載の方法。
〔５６〕前記シーケンシング導入エラーが、不正確なベースコーリング、不十分なシーケンシング、またはそれらの任意の組合せの結果である、〔５４〕～〔５５〕のいずれか一項に記載の方法。
〔５７〕工程（ｉ）、（ｉｉ）、（ｉｉｉ）、および（ｉｖ）が、前記複数の標的の各々について実施される、〔４０〕～〔５６〕のいずれか一項に記載の方法。
〔５８〕前記シーケンシングデータ中の前記標的の前記クオリティステータスが、完全シーケンシング、不完全シーケンシング、または飽和シーケンシングである、〔４０〕～〔５７〕のいずれか一項に記載の方法。
〔５９〕前記シーケンシングデータ中の標的のクオリティステータスが、前記複数の確率バーコード中に識別可能な配列を有する前記分子標識の数と、カウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数とによって決定される、〔５８〕に記載の方法。
〔６０〕前記完全シーケンシングクオリティステータスが、所定の完全シーケンシング散布閾値以上の前記ポアソン分布と比較した散布指数によって決定され、前記所定の完全シーケンシング散布閾値が、０．９である、〔５８〕～〔５９〕のいずれか一項に記載の方法。
〔６１〕前記所定の完全シーケンシング散布閾値が、１である、〔６０〕に記載の方法。
〔６２〕前記所定の完全シーケンシング散布閾値が、４である、〔６０〕に記載の方法。
〔６３〕前記完全シーケンシングクオリティステータスが、（ｂ）で得られた前記シーケンシングデータ中の所定の完全シーケンシング発生数閾値以上の発生数を有する分子標識によってさらに決定され、前記所定の完全シーケンシング発生数閾値が、１０である、〔６０〕～〔６２〕のいずれか一項に記載の方法。
〔６４〕前記所定の完全シーケンシング発生数閾値が、１８である、〔６３〕に記載の方法。
〔６５〕前記飽和シーケンシングクオリティステータスが、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する前記標的によって決定される、〔５８〕～〔６４〕のいずれか一項に記載の方法。
〔６６〕前記飽和シーケンシングクオリティステータスが、前記所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する前記複数の標的のうちの１つの他の標的によって、さらに決定される、〔６５〕に記載の方法。
〔６７〕前記確率バーコードが、識別可能な配列を有する約６５６１の分子標識を含む場合、前記所定の飽和閾値が、６５５７である、〔６５〕に記載の方法。
〔６８〕前記確率バーコードが、識別可能な配列を有する約６５５３６の分子標識を含む場合、前記所定の飽和閾値が、６５５３２である、〔６５〕に記載の方法。
〔６９〕前記シーケンシングデータ中の前記標的の前記クオリティステータスは、（ｂ）で得られた前記シーケンシングデータ中の前記標的の前記クオリティステータスが、完全シーケンシングではなく、かつ、飽和シーケンシングではない場合に、不完全シーケンシングとして分類される、〔４０〕～〔６８〕のいずれか一項に記載の方法。
〔７０〕（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、（ｉｖ）において、
前記標的が前記完全シーケンシングクオリティステータスを有している場合、
１つ以上の親分子標識についてすべての子供分子標識を決定する工程と；
少なくとも１つの子供分子標識および前記親分子標識について第１の統計解析を実施する工程と；
前記第１の統計解析の帰無仮説が容認される場合、前記子供分子標識の前記発生数を前記親分子標識に帰属させる工程と、
によって調節される、〔５０〕～〔６９〕のいずれか一項に記載の方法。
〔７１〕前記１つ以上の親分子標識が、所定の完全シーケンシング親閾値以上の発生数を有する分子標識を含み、前記所定の完全シーケンシング親閾値が、前記所定の完全シーケンシング発生数閾値と等しい、〔７０〕に記載の方法。
〔７２〕前記子供分子標識が、前記親分子標識と１塩基相違し、かつ、所定の完全シーケンシング子供閾値以下の発生数を有する分子標識を含み、前記所定の完全シーケンシング子供閾値が、３である、〔７０〕～〔７１〕のいずれか一項に記載の方法。
〔７３〕前記所定の完全シーケンシング子供閾値が、５である、〔７２〕に記載の方法。
〔７４〕前記帰無仮説が真である確率が偽発見率を下回る場合、前記第１の統計解析の前記帰無仮説が容認され、前記偽発見率が、５％である、〔７０〕～〔７３〕のいずれか一項に記載の方法。
〔７５〕前記偽発見率が１０％である、〔７４〕に記載の方法。
〔７６〕前記第１の統計解析が、多重二項検定である、〔７０〕～〔７５〕のいずれか一項に記載の方法。
〔７７〕（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数は、（ｉｖ）において、
前記標的が前記完全シーケンシングクオリティステータスを有する場合、
前記標的の分子標識を閾値化して、（ｂ）で得られた前記シーケンシングデータ中の前記標的に関連付けられた真の分子標識および偽の分子標識を決定する工程
によって調節される、〔５０〕～〔７６〕のいずれか一項に記載の方法。
〔７８〕前記標的の前記分子標識を閾値化する工程が、前記標的の前記分子標識について第２の統計解析を実施する工程を含む、〔７７〕に記載の方法。
〔７９〕前記第２の統計解析を実施する工程が、
前記標的の前記分子標識の分布およびそれらの発生数を２つのポアソン分布に当てはめる工程と；
前記２つのポアソン分布を用いて真の分子標識の数ｎを決定する工程と；
（ｂ）で得られた前記シーケンシングデータから前記偽の分子標識を除去する工程と、
を含み、
前記偽の分子標識が、ｎ番目に豊富な分子標識の前記発生数よりも低い発生数を有する分子標識を含み、前記真の分子標識が、ｎ番目に豊富な分子標識の前記発生数以上の発生数を有する分子標識を含む、〔７８〕に記載の方法。
〔８０〕前記２つのポアソン分布が、前記真の分子標識に対応する第１のポアソン分布と、前記偽の分子標識に対応する第２のポアソン分布を含む、〔７９〕に記載の方法。
〔８１〕（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、（ｉｖ）において、
（ｂ）で得られた前記シーケンシングデータ中の前記標的の前記クオリティステータスが、前記不完全シーケンシングクオリティステータスである場合、
前記標的が、（ｂ）で得られたシーケンシングデータにおいてノイジーであるか否かを決定する工程と；
（ｂ）で得られた前記シーケンシングデータから前記ノイジー標的を除去する工程と、
によって調節される、〔５８〕～〔８０〕のいずれか一項に記載の方法。
〔８２〕前記ノイジー標的の前記分子標識の前記発生数が、不完全シーケンシングクノイジー標的閾値以下であれば、前記標的はノイジーであり、前記不完全シーケンシングノイジー遺伝子閾値が、５である、〔８１〕に記載の方法。
〔８３〕前記不完全シーケンシングノイジー標的閾値が、完全シーケンシングのクオリティステータスを有する前記複数の標的の前記分子標識の前記中央発生数と等しい、〔８２〕に記載の方法。
〔８４〕前記不完全シーケンシングノイジー標的閾値が、完全シーケンシングのクオリティステータスを有する前記複数の標的の前記分子標識の前記平均発生数と等しい、〔８２〕に記載の方法。
〔８５〕（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、（ｉｖ）において、
（ｂ）で得られた前記シーケンシングデータ中の前記標的の前記クオリティステータスが前記不完全シーケンシングクオリティステータスである場合、
前記標的の前記分子標識を閾値化して、（ｂ）で得られた前記シーケンシングデータ中の真の分子標識および偽の分子標識を決定する工程
によって調節される、〔５０〕～〔８４〕のいずれか一項に記載の方法。
〔８６〕前記標的の前記分子標識を閾値化する工程が、前記分子標識について第３の統計解析を実施する工程を含む、〔８５〕に記載の方法。
〔８７〕前記分子標識について前記第３の統計解析を実施する工程が、
ゼロ切断ポアソンモデルを用いて、真の分子標識の数ｎを決定する工程と；
（ｂ）で得られた前記シーケンシングデータから前記偽の分子標識を除去する工程と、
を含み、
前記偽の分子標識が、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、前記真の分子標識が、ｎ番目に豊富な分子標識の前記発生数以上の発生数を有する分子標識を含む、〔８６〕に記載の方法。
〔８８〕（ｉ）でカウントされた前記シーケンシングデータが、（ｉｉｉ）で決定された前記１つ以上のシーケンシングデータエラーに応じて調節された後、（ｂ）で得られた前記シーケンシングデータ中の前記分子標識の少なくとも５０％が保持される、〔４０〕～〔８７〕のいずれか一項に記載の方法。
〔８９〕（ｉ）でカウントされた前記シーケンシングデータが、（ｉｉｉ）で決定された前記１つ以上のシーケンシングデータエラーに応じて調節された後、（ｂ）ｂ）で得られた前記シーケンシングデータ中の前記分子標識の少なくとも８０％が保持される、〔４０〕～〔８７〕のいずれか一項に記載の方法。
〔９０〕前記複数の標的に確率バーコードを付ける工程が、前記複数の確率バーコードを前記複数の標的とハイブリダイズさせて、前記確率バーコード付き標的を生成する工程を含む、〔４０〕～〔８７〕のいずれか一項に記載の方法。
〔９１〕前記複数の標的に確率バーコードを付ける工程が、前記確率バーコード付き標的のインデックス付きライブラリーを作製する工程を含む、〔８９〕に記載の方法。
〔９２〕前記確率バーコード付き標的のインデックス付きライブラリーを作製する工程が、前記複数の確率バーコードを含む固体担体を用いて実施される、〔８９〕～〔９１〕のいずれか一項に記載の方法。
〔９３〕前記固体担体が、前記複数の確率バーコードと結合した複数の合成粒子を含む、〔９２〕に記載の方法。
〔９４〕前記複数の確率バーコードの各々が、サンプル標識、ユニバーサル標識および細胞標識の１つ以上を含み、前記サンプル標識が、前記固体担体上の前記複数の確率バーコードに対するものと同じであり、ユニバーサル標識が、前記固体担体上の前記複数の確率バーコードに対するものと同じであり、細胞標識が、前記固体担体上の前記複数の確率バーコードに対するものと同じである、〔９２〕～〔９３〕のいずれか一項に記載の方法。
〔９５〕前記サンプル標識が、５～２０ヌクレオチドを含む、〔９４〕に記載の方法。
〔９６〕前記ユニバーサル標識が、５～２０ヌクレオチドを含む、〔９４〕～〔９５〕のいずれか一項に記載の方法。
〔９７〕前記細胞標識が、５～２０ヌクレオチドを含む、〔９４〕～〔９６〕のいずれか一項に記載の方法。
〔９８〕前記固体担体が、２次元または３次元の前記複数の確率バーコードを含む、〔９２〕～〔９５〕のいずれか一項に記載の方法。
〔９９〕前記合成粒子がビーズである、〔９３〕～〔９８〕のいずれか一項に記載の方法。
〔１００〕前記ビーズが、シリカゲルビーズ、調節多孔性ガラスビーズ、磁気ビーズ、ダイナビーズ、セファデックス／セファロースビーズ、セルロースビーズ、ポリスチレンビーズ、またはそれらの任意の組合せである、〔９９〕に記載の方法。
〔１０１〕前記固体担体が、ポリマー、マトリックス、ヒドロゲル、ニードルアレイデバイス、抗体、またはそれらの任意の組合せを含む、〔４０〕～〔１００〕に記載の方法。
〔１０２〕前記複数の標的がサンプル中に含まれる、〔４０〕～〔１０１〕のいずれか一項に記載の方法。
〔１０３〕前記サンプルが、１つ以上の細胞を含む、〔１０２〕に記載の方法。
〔１０４〕前記サンプルが単一細胞である、〔１０２〕に記載の方法。
〔１０５〕前記１つ以上の細胞を溶解する工程をさらに含む、〔１０２〕に記載の方法。
〔１０６〕前記１つ以上の細胞を溶解する工程が、前記サンプルを加熱する工程、前記サンプルを洗剤と接触させる工程、前記サンプルのｐＨを変える工程、またはそれらの任意の組合せを含む、〔１０５〕に記載の方法。
〔１０７〕前記１つ以上の細胞が、１つ以上の細胞型を含む、〔１０２〕に記載の方法。
〔１０８〕前記１つ以上の細胞型の少なくとも１つが、脳細胞、心細胞、癌細胞、循環腫瘍細胞、臓器細胞、上皮細胞、転移細胞、良性細胞、一次細胞、循環細胞、またはそれらの任意の組合せである、〔１０７〕に記載の方法。
〔１０９〕前記複数の標的が、リボ核酸（ＲＮＡ）、メッセンジャーＲＮＡ（ｍＲＮＡ）、ｍｉｃｒｏＲＮＡ、低分子干渉ＲＮＡ（ｓｉＲＮＡ）、ＲＮＡ分解産物、ポリ（Ａ）テールを各々含むＲＮＡ、またはそれらの任意の組合せを含む、〔４０〕～〔１０８〕のいずれか一項に記載の方法。
〔１１０〕前記方法が多重化される、〔４０〕～〔１０９〕のいずれか一項に記載の方法。
〔１１１〕標的の数を決定する方法であって、
（ａ）複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、前記複数の確率バーコードの各々が分子標識を含む工程と；
（ｂ）前記確率バーコード付き標的のシーケンシングデータを取得する工程と；
（ｃ）前記複数の標的の１つ以上について：
（ｉ）前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と；
（ｉｉ）方向近接性を用いて、前記標的の分子標識のクラスターを同定する工程と；
（ｉｉｉ）（ｉｉ）で同定された前記標的の分子標識の前記クラスターを用いて、（ｂ）で得られた前記シーケンシングデータを折りたたむ工程と；
（ｉｖ）前記標的の数を推定する工程であって、推定された前記標的の数が、（ｉｉ）の前記シーケンシングデータの折りたたみ後に、（ｉ）でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、
を含む、方法。
〔１１２〕前記複数の標的が、細胞の全トランスクリプトームの標的を含む、〔１１１〕に記載の方法。
〔１１３〕クラスター内の前記標的の分子標識が、互いの所定の方向近接性閾値内にある、〔１１１〕～〔１１２〕のいずれか一項に記載の方法。
〔１１４〕前記方向近接性閾値が、１のハミング距離である、〔１１３〕に記載の方法。
〔１１５〕前記クラスター内の前記標的の前記分子標識が、１つ以上の親分子標識と、前記１つ以上の親分子標識の子供分子標識とを含み、前記親分子標識の発生数が、所定の方向近接性発生数閾値以上である、〔１１２〕～〔１１４〕のいずれか一項に記載の方法。
〔１１６〕前記所定の方向近接性発生数閾値が、２×（子供分子標識の発生数）－１である、〔１１５〕に記載の方法。
〔１１７〕（ｉｉ）で同定された前記標的の分子標識の前記クラスターを用いて、（ｂ）で得られたシーケンシングデータを折りたたむ工程が、
前記子供分子標識の前記発生数を前記親分子標識に帰属させる工程
を含む、〔１１１〕～〔１１６〕のいずれか一項に記載の方法。
〔１１８〕前記標的のシーケンシング深度を決定する工程をさらに含む、〔１１１〕～〔１１７〕のいずれか一項に記載の方法。
〔１１９〕前記標的の前記シーケンシング深度が所定のシーケンシング深度閾値を超える場合、前記標的の数を推定する工程が、（ｉ）でカウントされた前記シーケンシングデータを調節する工程を含む、〔１１８〕に記載の方法。
〔１２０〕前記所定のシーケンシング深度閾値が、１５～２０である、〔１１９〕に記載の方法。
〔１２１〕（ｉ）でカウントされた前記シーケンシングデータを調節する工程が、
前記標的の分子標識を閾値化して、（ｂ）で得られた前記シーケンシングデータ中の前記標的に関連付けられた真の分子標識および偽の分子標識を決定する工程
を含む、〔１１９〕～〔１２０〕のいずれか一項に記載の方法。
〔１２２〕前記標的の前記分子標識を閾値化する工程が、前記標的の前記分子標識について統計解析を実施する工程を含む、〔１２１〕に記載の方法。
〔１２３〕前記統計解析を実施する工程が、
前記標的の前記分子標識の分布およびそれらの発生数を２つのポアソン分布に当てはめる工程と；
前記２つのポアソン分布を用いて真の分子標識の数ｎを決定する工程と；
（ｂ）で得られた前記シーケンシングデータから前記偽の分子標識を除去する工程と、
を含み、
前記偽の分子標識が、ｎ番目に豊富な分子標識の前記発生数よりも低い発生数を有する分子標識を含み、前記真の分子標識が、ｎ番目に豊富な分子標識の前記発生数以上の発生数を有する分子標識を含む、〔１２２〕に記載の方法。
〔１２４〕前記２つのポアソン分布が、前記真の分子標識に対応する第１のポアソン分布と、前記偽の分子標識に対応する第２のポアソン分布を含む、〔１２３〕に記載の方法。
〔１２５〕ハードウェアプロセッサーと、
前記ハードウェアプロセッサーによって実行される場合、前記プロセッサーに〔４０〕～〔１２４〕のいずれか一項に記載の方法を実行させる命令を記憶した非一過性メモリーと、を含む、ターゲットの数を決定するためのコンピュータシステム。
〔１２６〕〔４０〕～〔１２４〕のいずれか一項に記載の方法を実行するためのコードを含むソフトウェアプログラムを含む、コンピュータ読取り媒体。

Claims

サンプル中の核酸標的の数を決定する方法であって、
（ａ）複数の確率バーコードを用いて、複数の核酸標的に確率バーコードを付けて、複数の確率バーコード付き核酸標的を生成する工程、ここで前記複数の確率バーコードの各々は分子標識を含む；
（ｂ）前記確率バーコード付き核酸標的のシーケンシングデータを取得する工程；及び
（ｃ）前記複数の核酸標的の１つ以上について、以下の（ｉ）～（ｉｖ）の工程：
（ｉ）前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程；
（ｉｉ）方向近接性を用いて、前記核酸標的の分子標識のクラスターを同定する工程、
ここで、前記同定する工程は、識別可能な配列を有する全ての分子標識について再帰的に、子供分子標識が１以上の親分子標識を含むクラスターに属するかどうかを決定することを含み、前記クラスター内の前記核酸標的の前記分子標識は、１つ以上の親分子標識と、前記１つ以上の親分子標識の子供分子標識とを含み、且つ、前記親分子標識の発生数は、所定の方向近接性発生数閾値以上である；
（ｉｉｉ）（ｉｉ）で同定された前記核酸標的の分子標識の前記クラスターを用いて、（ｂ）で得られた前記シーケンシングデータを折りたたむ工程；及び
（ｉｖ）前記核酸標的の数を推定する工程、ここで推定される前記核酸標的の数は、（ｉｉｉ）の前記シーケンシングデータの折りたたみ後の、（ｉ）でカウントされた前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する分子標識の数と相関する、
を含む、方法。
クラスター内の前記核酸標的の分子標識が、互いの所定の方向近接性閾値内にある、請求項１に記載の方法。
前記方向近接性閾値が、１のハミング距離である、請求項２に記載の方法。
前記所定の方向近接性発生数閾値が、２×（子供分子標識の発生数）－１である、請求項１に記載の方法。
（ｉｉ）で同定された前記核酸標的の分子標識の前記クラスターを用いて、（ｂ）で得られた前記シーケンシングデータを折りたたむ工程が、
前記子供分子標識の発生数を前記親分子標識に帰属させる工程
を含む、請求項１～４のいずれか一項に記載の方法。
前記核酸標的のシーケンシング深度を決定する工程をさらに含む、請求項１～５のいずれか一項に記載の方法。
前記核酸標的の前記シーケンシング深度が所定のシーケンシング深度閾値を超える場合、前記核酸標的の数を推定する工程が、（ｉ）でカウントされた前記シーケンシングデータを調節する工程を含む、請求項６に記載の方法。
（ｉ）でカウントされた前記シーケンシングデータを調節する工程が、
前記核酸標的の分子標識を閾値化して、（ｂ）で得られた前記シーケンシングデータ中の前記核酸標的に関連付けられた真の分子標識および偽の分子標識を決定する工程
を含む、請求項７に記載の方法。
前記核酸標的の前記分子標識を閾値化する工程が、前記核酸標的の前記分子標識について統計解析を実施する工程を含む、請求項８に記載の方法。
前記統計解析を実施する工程が、
前記核酸標的の前記分子標識の分布およびそれらの発生数を２つのネガティブ二項分布に当てはめる工程；
前記２つのネガティブ二項分布を用いて真の分子標識の数ｎを決定する工程；及び
（ｂ）で得られた前記シーケンシングデータから前記偽の分子標識を除去する工程、ここで前記偽の分子標識は、ｎ番目に豊富な分子標識の発生数よりも低い発生数を有する分子標識を含み、前記真の分子標識が、ｎ番目に豊富な分子標識の発生数以上の発生数を有する分子標識を含む
を含む、請求項９に記載の方法。
前記ネガティブ二項分布が、前記真の分子標識に対応する第１のネガティブ二項分布と、前記偽の分子標識に対応する第２のネガティブ二項分布を含む、請求項１０に記載の方法。
核酸標的の数を決定する方法であって、
（ａ）複数の確率バーコードを用いて、複数の核酸標的に確率バーコードを付けて、複数の確率バーコード付き核酸標的を生成する工程、ここで前記複数の確率バーコードの各々は分子標識を含む；
（ｂ）前記確率バーコード付き核酸標的のシーケンシングデータを取得する工程；
（ｃ）前記シーケンシングデータにおける前記核酸標的のシーケンシングステータスを決定する工程；
（ｄ）前記複数の核酸標的の１つ以上について、以下の（ｉ）～（ｉｉｉ）：
（ｉ）前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程；
（ｉｉ）前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程、ここで、当該工程は、
前記シーケンシングステータスに基づきネガティブ二項分布当てはめ条件が満たされる場合、
（１）シグナルネガティブ二項分布を、（ｉ）でカウントされた前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の数に当てはめること、ここで前記シグナルネガティブ二項分布は、シグナル分子標識である、（ｉ）でカウントされた前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する分子標識の数に対応する；
（２）ノイズネガティブ二項分布を、（ｉ）でカウントされた前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の数に当てはめること、ここで前記ノイズネガティブ二項分布は、ノイズ分子標識である、（ｉ）でカウントされた前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する分子標識の数に対応する；及び
（３）前記（１）で当てはめた前記シグナルネガティブ二項分布および（２）で当てはめた前記ノイズネガティブ二項分布を用いて、前記ノイズ分子標識の数を決定すること、
を含む；及び
（ｉｉｉ）前記核酸標的の数を推定する工程、ここで推定される前記核酸標的の数は、（ｉｉ）で決定された前記ノイズ分子標識の数に応じて調節された、（ｉ）でカウントされた前記シーケンシングデータ中の前記核酸標的に関連付けられた前記識別可能な配列を有する分子標識の数と相関する、
を含む、方法。
前記シーケンシングデータ中の前記核酸標的の前記シーケンシングステータスが、飽和シーケンシング、過少シーケンシング、または過剰シーケンシングである、請求項１２に記載の方法。
前記飽和シーケンシングステータスが、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する前記核酸標的によって決定される、請求項１３に記載の方法。
前記シーケンシングデータ中の前記核酸標的の前記シーケンシグステータスが、前記飽和シーケンシングステータスである場合、（ｉｉ）で決定される前記ノイズ分子標識の数が、ゼロである、請求項１３または１４に記載の方法。
前記過少シーケンシングステータスが、所定の過少シーケンシング閾値より小さい深度を有する前記核酸標的によって決定され、前記核酸標的の前記深度が、前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の、平均、最小、または最大深度を含む、請求項１３～１５のいずれか一項に記載の方法。
前記過少シーケンシング閾値は、識別可能な配列を有する前記分子標識の数とは無関係である、請求項１６に記載の方法。
前記シーケンシングデータ中の前記核酸標的の前記シーケンシグステータスが、前記過少シーケンシングステータスである場合、（ｉｉ）で決定される前記ノイズ分子標識の数が、ゼロである、請求項１３～１７のいずれか一項に記載の方法。
前記過剰シーケンシングステータスが、所定の過剰シーケンシング閾値より大きい深度を有する前記核酸標的によって決定され、前記核酸標的の前記深度が、前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の、平均、最小、または最大深度を含む、請求項１３～１８のいずれか一項に記載の方法。
前記シーケンシングデータ中の前記核酸標的の前記シーケンシングテータスが、前記過剰シーケンシングステータスである場合、
前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の数を、前記所定の過剰シーケンシング閾値付近にサブサンプリングする工程
をさらに含む、請求項１９に記載の方法。
前記ネガティブ二項分布当てはめ条件が、前記シーケンシングデータ中の前記核酸標的の前記シーケンシングステータスが、前記過少シーケンシングステータスまたは前記過剰シーケンシングステータスではないことを含む、請求項１２に記載の方法。
（ｖ）で当てはめた前記シグナルネガティブ二項分布および（ｖｉ）で当てはめた前記ノイズネガティブ二項分布を用いて、前記ノイズ分子標識の数を決定する工程が、
前記シーケンシングデータ中の前記核酸標的に関連付けられた前記識別可能な配列の各々について、
前記識別可能な配列のシグナル確率が、前記シグナルネガティブ二項分布内であることを決定する工程と；
前記識別可能な配列のノイズ確率が、前記ノイズネガティブ二項分布内であることを決定する工程と；
前記シグナル確率が前記ノイズ確率より小さければ、前記識別可能な配列がノイズ分子標識であることを決定する工程と、
を含む、請求項１２～２１のいずれか一項に記載の方法。
前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する工程が、
前記シーケンシングデータ中の前記核酸標的の前記シーケンシングステータスが、前記過少シーケンシングステータスまたは前記過剰シーケンシングステータスではなく、かつ、（ｉ）でカウントされた前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の数が、擬似点閾値より少ない場合、（ｉｉ）で前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する前に、前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の数に擬似点を加える工程を含む、
請求項１３～２２のいずれか一項に記載の方法。
前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する工程が、
前記シーケンシングデータ中の前記核酸標的の前記シーケンシングステータスが、前記過少シーケンシングステータスまたは前記過剰シーケンシングステータスではなく、かつ、（ｉ）でカウントされた前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の数が、擬似点閾値以上である場合、（ｉｉ）で前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む、
請求項１３～２３のいずれか一項に記載の方法。
前記非ユニーク分子標識を除去する工程が、前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の数が、所定の再使用分子標識閾値より大きい場合、（ｉｉ）で前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する際に、前記非ユニーク分子標識を除去する工程を含む、請求項２４に記載の方法。
前記非ユニーク分子標識を除去する工程が、
前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する前記分子標識の数について非ユニーク分子標識の理論上の数を決定する工程；及び
前記シーケンシングデータ中の前記核酸標的に関連付けられた識別可能な配列を有する分子標識のうちｎ番目に豊富な前記分子標識よりも大きい発生数を有する分子標識を除去する工程、ここでｎは、非ユニーク分子標識の理論数である
を含む、請求項２４又は２５に記載の方法。
ハードウェアプロセッサーと、
前記ハードウェアプロセッサーによって実行される場合、前記プロセッサーに請求項１～２６のいずれか一項に記載の方法を実行させる命令を記憶した非一過性メモリーと、
を含む、核酸標的の数を決定するためのコンピュータシステム。
請求項１～２６のいずれか一項に記載の方法を実行するためのコードを含むソフトウェアプログラムを含む、コンピュータ読取り媒体。