JP7160349B2

JP7160349B2 - 核酸をシークエンシングする方法および解析する方法

Info

Publication number: JP7160349B2
Application number: JP2019525702A
Authority: JP
Inventors: 克之城口
Original assignee: RIKEN Institute of Physical and Chemical Research
Current assignee: RIKEN Institute of Physical and Chemical Research
Priority date: 2017-06-23
Filing date: 2018-06-22
Publication date: 2022-10-25
Anticipated expiration: 2038-06-22
Also published as: WO2018235938A1; JPWO2018235938A1

Description

関連出願の参照

本願は、米国仮出願第62/523857（出願日：２０１７年６月２３日）の優先権の利益を享受する出願であり、引用することにより上記仮出願の全体は本願明細書に取り込まれたものとする。

本発明は、核酸をシークエンシングする方法および解析する方法に関する。

次世代シークエンサープラットフォームの発展により、１回のランで極めて多数の種類の核酸の配列を同時進行で解析できるようになった。サンプル中に存在する核酸分子の１分子毎に固有の分子バーコードを付加すると、固有の分子バーコードの種類の数を核酸分子数に対応させることができ、次世代シークエンサーのプラットフォームによって、核酸分子のデジタル定量の途が切り拓かれた（特許文献１および非特許文献１）。分子バーコードをランダム塩基として、塩基配列を長くすることによりバーコード配列に大きな多様性を付加することが容易にできるようになり、デジタル定量できる核酸分子のダイナミックレンジが拡大した（特許文献１および非特許文献１）。

しかしながら、デジタル定量では、分析途中に分子バーコードの配列が変化してしまうことがあり、これによって新しく生成された分子バーコードが核酸分子の定量精度に影響を与えることがある。しかしながら、分子バーコードの配列は、ランダムに設計されたものであると、配列が変化したことを把握することが困難である。その他、分子バーコードの配列がランダムであることに起因して、デジタル定量においてどのようなエラーが発生し得るのかの解析が困難であり、その解決策を提示することもまた困難であった。

米国特許第9,260,753号

Shiroguchi, K. et al., Proc. Natl. Acad. Sci. USA 109, 1347-1352 (2012).

本発明は、核酸をシークエンシングする方法および解析する方法を提供する。

本発明者らは、インデックスとバーコードとを用いた目的核酸分子のデジタル定量方法において、複数のサンプルを混合して目的核酸分子を定量する場合に、インデックスが想定外の異なるサンプルに由来する核酸に付加されてしまう、ミスインデックスが発生し得ることを明らかとした。本発明者らはまた、同一のバーコードに２つの異なるインデックスが付加されている場合に、最も頻度高いペアを正しいペアであるとし、それ以外のいずれかまたは全てをミスインデックスとして除外することにより、デジタル定量法の精度が向上し得ることを明らかにした。
本発明者らは、バーコード配列の種類の数をカウントする際に、バーコード配列内に変異（例えば、挿入、置換、および欠失）が生じ、同じと判断されるべき配列が異なる配列として認識される問題が発生し得ることが明らかになった。本発明者らは、一定の配列類似性を有する配列を一群にクラスタリングし、クラスター数に基づいて目的核酸分子の定量を行うことで、デジタル定量法の精度が向上し得ることを明らかにした。
本発明者らは、核酸をデジタルカウントする際に、鋳型を誤同定してしまう問題が生じ得ることが明らかになった。本発明者らはまた、同一のバーコードに２つの異なる目的核酸配列が付加されている場合に、最も頻度高いペアを正しいペアであるとし、それ以外のいずれかまたは全てを誤同定として除外することにより、デジタル定量法の精度が向上し得ることを明らかにした。

すなわち、本発明によれば以下の発明が提供される。
（１Ａ）核酸の解析方法であって：
（Ｉ）分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
（ＩＩ）上記（Ｉ）で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び／又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
（ＩＩＩ）上記（ＩＩ）で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法。
（２Ａ）少なくとも分子バーコードが付加された目的核酸分子が、工程（Ｉ）の前に増幅に供されている、上記（１Ａ）に記載の方法。
（３Ａ）工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、上記（１Ａ）または（２Ａ）に記載の方法。
（４Ａ）分子バーコードが、特定の位置に固定塩基を有する、上記（１Ａ）～（３Ａ）のいずれかに記載の方法。
（５Ａ）工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および／または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、上記（４Ａ）に記載の方法。
（６Ａ）当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含む、上記（４Ａ）に記載の方法。
（７Ａ）工程（ＩＩＩ）において、決定された正しいペア以外のインデックスと分子バーコードのペアを、インデックスと分子バーコードのミスペアと決定して除外する、
上記（１Ａ）～（５Ａ）のいずれかに記載の方法。
（８Ａ）特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、上記（１Ａ）～（７Ａ）のいずれかに記載の方法。
（９Ａ）核酸の解析方法であって：
（Ｉ）分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
（ＩＩ）上記（Ｉ）で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法。
（１０Ａ）工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、上記（９Ａ）に記載の方法。
（１１Ａ）分子バーコードが、特定の位置に固定塩基を有する、上記（９Ａ）または（１０Ａ）に記載の方法。
（１２Ａ）工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および／または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、上記（１１Ａ）に記載の方法。
（１３Ａ）当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程をさらに含む、上記（１１Ａ）に記載の方法。
（１４Ａ）特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、上記（９Ａ）～（１３Ａ）のいずれかに記載の方法。
（１５Ａ）少なくとも分子バーコードが付加された目的核酸分子が、工程（Ｉ）の前に増幅に供されている、上記（９Ａ）～（１４Ａ）のいずれかに記載の方法。
（１６Ａ）核酸の解析方法であって：
（Ｉ）特定の位置に固定塩基を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
（ＩＩａ）当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程；
（ＩＩｂ）工程（Ｉ）において、若しくは、工程（Ｉ）の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得る工程；または
（ＩＩｃ）工程（ＩＩ）として上記（Ｉ）で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程をさらに含み、かつ工程（ＩＩ）において、若しくは工程（ＩＩ）の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得る工程と、
を含む、方法。

本発明によればまた、以下の発明が提供される。
（１Ｂ）複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシングより得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
（Ｅ）得られた配列情報から、特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
（Ｆ）上記（Ｅ）で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および／または、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法。
（２Ｂ）工程（Ｅ）において、特定のインデックスを有する配列を選択してインデックス毎に群を作成し、
工程（Ｆ）において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記（１Ｂ）に記載の方法。
（３Ｂ）工程（Ｅ）において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程（Ｆ）において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記（１Ｂ）に記載の方法。
（４Ｂ）工程（Ｅ）において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程（Ｆ）において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記（１Ｂ）に記載の方法。
（５Ｂ）工程（Ｅ）において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程（Ｆ）において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記（１Ｂ）に記載の方法。
（６Ｂ）工程（Ｆ）において、決定された正しいペア以外のインデックスと分子バーコードのペアの少なくともいずれか１つまたは全てを、インデックスと分子バーコードのミスペアと決定する、
上記（２Ｂ）～（５Ｂ）に記載の方法。
（７Ｂ）工程（Ｅ）において特定のインデックスを有する分子を選択してインデックス毎に群を作成し、
工程（Ｆ）において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペアをインデックスの少なくともいずれか１つまたは全てと分子バーコードのミスペアと決定する、
上記（１Ｂ）に記載の方法。
（８Ｂ）工程（Ｅ）において特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程（Ｆ）において作成された群のうち検出頻度の低いインデックスと分子バーコードのペアをインデックスと分子バーコードの少なくともいずれか１つまたは全てのミスペアと決定する、
上記（１Ｂ）に記載の方法。
（９Ｂ）工程（Ｅ）において目的核酸分子を含む配列を選択して群を作成し、
工程（Ｆ）においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記（１Ｂ）に記載の方法。
（１０Ｂ）工程（Ｅ）において目的核酸分子を含む分子を選択して群を作成し、
工程（Ｆ）においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記（１Ｂ）に記載の方法。
（１１Ｂ）工程（Ｅ）において、群を作成する工程が、配列同一性または類似性に基づいて判断される同一配列を有していたと推定される分子を一群としてクラスタリングすることによって群を作成することによって行われる、
上記（１Ｂ）～（１０Ｂ）に記載の方法。
（１２Ｂ）工程（Ｅ）において、クラスタリングが、
（i）分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（ii）分子バーコード部分の配列において、固有の分子バーコードの配列と１ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（iii）分子バーコード部分の配列において、固有の分子バーコードの配列と２ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；または
（iv）分子バーコード部分の配列において、固有の分子バーコードの配列と３ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記（１１Ｂ）に記載の方法。
（１３Ｂ）工程（Ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失（indel）を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記（１１Ｂ）または（１２Ｂ）に記載の方法。
（１４Ｂ）工程（Ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失（indel）を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記（１１Ｂ）または（１２Ｂ）に記載の方法。
（１５Ｂ）前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された１以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における１以上の固定塩基それぞれの位置との、位置の相違により特定することをさらに含む、上記（１３Ｂ）または（１４Ｂ）に記載の方法。
（１６Ｂ）複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシングより得られた配列情報から、特定の元々のサンプルに含まれる目的核酸分子の数を決定する方法であって、
（ｅ）得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
（ｆ）上記（ｅ）で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
（ｇ）上記（ｆ）において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数（または、正しくインデックスされた目的核酸分子のクラスターの数）が、当該インデックスに対応するサンプルに含まれる目的核酸分子の数である、
方法。
（１７Ｂ）前記（ｆ）において、クラスタリングが、
（i）分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（ii）分子バーコード部分の配列において、固有の分子バーコードの配列と１ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（iii）分子バーコード部分の配列において、固有の分子バーコードの配列と２ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；または
（iv）分子バーコード部分の配列において、固有の分子バーコードの配列と３ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記（１６Ｂ）に記載の方法。
（１８Ｂ）前記（ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失（indel）を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記（１６Ｂ）または（１７Ｂ）に記載の方法。
（１９Ｂ）前記（ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失（indel）を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記（１６Ｂ）または（１７Ｂ）に記載の方法。
（２０Ｂ）前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された１以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における１以上の固定塩基それぞれの位置との、相違により特定することをさらに含む、上記（１８Ｂ）または（１９Ｂ）に記載の方法。
（２１Ｂ）バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列の情報から、変異後の分子バーコードが有する配列を配列類似性を有する他の配列と一緒に１群にクラスタリングし、得られたクラスター数に基づいて目的核酸分子の数を推定する、方法。
（２２Ｂ）上記（２１Ｂ）に記載の方法であって、クラスタリングが、
（i）分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（ii）分子バーコード部分の配列において、固有の分子バーコードの配列と１ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（iii）分子バーコード部分の配列において、固有の分子バーコードの配列と２ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；または
（iv）分子バーコード部分の配列において、固有の分子バーコードの配列と３ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、方法。
（２３Ｂ）上記（２１Ｂ）または（２２Ｂ）に記載の方法であって、クラスタリングが、分子バーコード部分の配列において、塩基（例えば、１ベースまで、２ベースまで、または３ベースまで）の挿入または欠失（indel）を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、方法。
（２４Ｂ）上記（２１Ｂ）～（２３Ｂ）のいずれか一項に記載の方法であって、
核酸分子に連結する全ての分子バーコード配列中に配置された１以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における１以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することによって塩基の挿入または欠失（indel）を検出し、
クラスタリングが、分子バーコード部分の配列において、塩基の挿入または欠失（indel）を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われるか、または、
クラスタリングが、分子バーコード部分の配列において、塩基の挿入または欠失（indel）を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、方法。
（２５Ｂ）バーコード配列を用いた目的核酸分子のデジタル定量法において、バーコード中の塩基の挿入または欠失（indel）を検出する方法であって、核酸分子に連結する全ての分子バーコード配列中に配置された１以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における１以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することによって塩基の挿入または欠失（indel）を検出することを含む、方法。

本発明によればまた、以下の発明が提供される。
（１Ｃ）複数の核酸分子を含むサンプル毎に固有のインデックス（インデックス配列核酸分子を意味し、各サンプルに固有であれば複数種のインデックス核酸分子を含んでいてもよい）及び各核酸分子に固有のまたは任意の分子バーコード（バーコード配列核酸分子）が付加された目的核酸分子（例えば、ＤＮＡまたはＲＮＡ）を含む複数のサンプルの混合物を用いたシークエンシング（すなわち、マルチプレックスシークエンシング）より得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
（Ａ）核酸分子（例えば、ＤＮＡまたはＲＮＡ）を含む複数のサンプルを別々に取得する工程と｛サンプルの少なくとも１つには目的核酸分子が含まれる｝、
（Ｂ）｛例えば、得られた複数のサンプルそれぞれにおいて、｝サンプルに含まれる核酸分子を増幅する前に、目的核酸分子それぞれに各核酸分子に固有のまたは任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
（Ｃ）｛例えば、複数のサンプルを混合する前に、｝複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリを得る工程と（工程Ｂの後に工程Ｃを行ってもよいし、工程Ｃの後に工程Ｂを行ってもよい；また、工程BまたはCの後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる）、
（Ｄ）上記（Ｂ）と（Ｃ）の後に得られた核酸分子の増幅産物を含む混合物中で（サンプルを混合するのは工程（Ｃ）の後であり、サンプルを混合した後に工程（Ｂ）を行っても良く、工程（Ｂ）を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程（Ｂ）の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい）、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、１核酸分子毎にインデックス部分の配列と分子バーコード部分の配列と必要に応じてそれに連結した目的核酸分子部分の配列を決定する工程と、
（Ｅ）得られた配列情報から、｛例えば、配列同一性または類似性に基づいて行うことができるが｝特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
（Ｆ）上記（Ｅ）で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および／または、検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において99.5％以下、99％以下、90%以下、80％以下、70％以下、60％以下、50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば２番目以降の検出頻度のペアであってもよい。）の少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法。
（２Ｃ）工程（Ｅ）において、特定のインデックスを有する配列を選択してインデックス毎に群を作成し、
工程（Ｆ）において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記（１Ｃ）に記載の方法。
（３Ｃ）工程（Ｅ）において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程（Ｆ）において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記（１Ｃ）に記載の方法。
（４Ｃ）工程（Ｅ）において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程（Ｆ）において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記（１Ｃ）に記載の方法。
（５Ｃ）工程（Ｅ）において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程（Ｆ）において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記（１Ｃ）に記載の方法。
（６Ｃ）工程（Ｆ）において、決定された正しいペア以外のインデックスと分子バーコードのペアの少なくともいずれか１つまたは全てを、インデックスと分子バーコードのミスペアと決定する、
上記（２Ｃ）～（５Ｃ）のいずれかに記載の方法。
（７Ｃ）工程（Ｅ）において特定のインデックスを有する分子を選択してインデックス毎に群を作成し、
工程（Ｆ）において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば２番目以降の検出頻度のペアであってもよい。）をインデックスの少なくともいずれか１つまたは全てと分子バーコードのミスペアと決定する、
上記（１Ｃ）に記載の方法。
（８Ｃ）工程（Ｅ）において特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程（Ｆ）において作成された群のうち検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば２番目以降の検出頻度のペアであってもよい。）をインデックスと分子バーコードの少なくともいずれか１つまたは全てのミスペアと決定する、
上記（１Ｃ）に記載の方法。
（９Ｃ）工程（Ｅ）において目的核酸分子を含む配列を選択して群を作成し、
工程（Ｆ）においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば２番目以降の検出頻度のペアであってもよい。）の少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記（１Ｃ）に記載の方法。
（１０Ｃ）工程（Ｅ）において目的核酸分子を含む分子を選択して群を作成し、
工程（Ｆ）においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば２番目以降の検出頻度のペアであってもよい。）の少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記（１Ｃ）に記載の方法。
（１１Ｃ）工程（Ｅ）において、群を作成する工程が、｛好ましくは、分子バーコード部分の配列において｝配列同一性または類似性に基づいて判断される同一配列を有していた｛例えば、工程（Ａ）～（Ｄ）の工程のいずれかによって配列が変化することがある｝と推定される分子を一群としてクラスタリングすることによって群を作成することによって行われる、
上記（１Ｃ）～（１０Ｃ）に記載の方法。
（１２Ｃ）工程（Ｅ）において、クラスタリングが、
（i）分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群｛すなわち、Distance = 0｝を同じクラスターに分類することにより行われる；
（ii）分子バーコード部分の配列において、固有の分子バーコードの配列と１ベースまでのミスマッチを有する配列を有する核酸分子群｛すなわち、Distance = 1｝を同じクラスターに分類することにより行われる；
（iii）分子バーコード部分の配列において、固有の分子バーコードの配列と２ベースまでのミスマッチを有する配列を有する核酸分子群｛すなわち、Distance = 2｝を同じクラスターに分類することにより行われる；または
（iv）分子バーコード部分の配列において、固有の分子バーコードの配列と３ベースまでのミスマッチを有する配列を有する核酸分子群｛すなわち、Distance = 3｝を同じクラスターに分類することにより行われる、
上記（１１Ｃ）に記載の方法。
（１３Ｃ）工程（Ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基（例えば、１ベースまで、２ベースまで、または３ベースまで）の挿入または欠失（indel）を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記（１１Ｃ）または（１２Ｃ）に記載の方法。
（１４Ｃ）工程（Ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基（例えば、１ベースまで、２ベースまで、または３ベースまで）の挿入または欠失（indel）を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記（１１Ｃ）または（１２Ｃ）に記載の方法。
（１５Ｃ）前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された１以上（例えば、１つ、２つ、３つ、４つ、５つ、または６つ以上）の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における１以上の固定塩基それぞれの位置との、位置の相違により特定することをさらに含む、請求項１３または１４に記載の方法｛例えば、それぞれの固定塩基は、Ａ、Ｔ、ＧおよびＣからなる群から選択されるいずれか１つの塩基となるように設計され得る；または、ＡとＴの組合せ、ＡとＧの組合せ、ＡとＣの組合せ、ＴとＧの組合せ、ＴとＣの組合せ、ＧとＣの組合せ、ＡとＴとＧとの組合せ、ＡとＴとＣとの組合せ、ＡとＧとＣとの組合せ、およびＴとＧとＣとの組合せからなる群から選択されるいずれか１つの組合せに含まれる塩基からランダムに選択される塩基となるように設計され得る｝。
（１６Ｃ）複数の核酸分子を含むサンプル毎に固有のインデックス（インデックス配列核酸分子）及び各核酸分子に固有のまたは任意の分子バーコード（バーコード配列核酸分子）が付加された目的核酸分子（例えば、ＤＮＡまたはＲＮＡ）を含む複数のサンプルの混合物を用いたシークエンシング（すなわち、マルチプレックスシークエンシング）より得られた配列情報から、特定の元々（original）のサンプルに含まれる目的核酸分子の数を決定する方法であって、
（ａ）核酸分子（例えば、ＤＮＡまたはＲＮＡ）を含む複数のサンプルを別々に取得する工程と｛サンプルの少なくとも１つには目的核酸分子が含まれる｝、
（ｂ）サンプルに含まれる核酸分子を増幅する前に、得られた複数のサンプルそれぞれにおいて、目的核酸分子それぞれに任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
（ｃ）複数のサンプルを混合する前に、複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリを得る工程と（工程Ｂと工程Ｃの順序はどちらが先でもよい；また、工程BまたはCの後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる）、
（ｄ）上記（Ｂ）と（Ｃ）の後得られた核酸分子の増幅産物を含む混合物中で（サンプルを混合するのは工程（Ｃ）の後であり、サンプルを混合した後に工程（Ｂ）を行っても良く、工程（Ｂ）を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程（Ｂ）の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい）、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、１核酸分子毎にインデックス部分の配列と分子バーコード部分の配列とそれに連結した核酸分子部分の配列を同定する工程と、
（ｅ）得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
（ｆ）上記（ｅ）で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
（ｇ）上記（ｆ）において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み｛ここで、ミスペアにおいてインデックスが誤っていると決定することをさらに含んでいてもよい｝、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数（または、正しくインデックスされた目的核酸分子のクラスターの数）が、当該インデックスに対応するサンプルに含まれる目的核酸分子の数である、
方法。
（１７Ｃ）前記（ｆ）において、クラスタリングが、
（i）分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（ii）分子バーコード部分の配列において、固有の分子バーコードの配列と１ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（iii）分子バーコード部分の配列において、固有の分子バーコードの配列と２ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；または
（iv）分子バーコード部分の配列において、固有の分子バーコードの配列と３ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記（１６Ｃ）に記載の方法。
（１８Ｃ）前記（ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基（例えば、１ベースまで、２ベースまで、または、３ベースまで）の挿入または欠失（indel）を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記（１６Ｃ）または（１７Ｃ）に記載の方法。
（１９Ｃ）前記（ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基（例えば、１ベースまで、２ベースまで、または、３ベースまで）の挿入または欠失（indel）を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記（１６Ｃ）または（１７Ｃ）に記載の方法。
（２０Ｃ）前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された１以上（例えば、１つ、２つ、３つ、４つ、５つ、または６つ以上）の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における１以上の固定塩基それぞれの位置との、相違により特定することをさらに含む、請求項１８または１９に記載の方法｛例えば、それぞれの固定塩基は、Ａ、Ｔ、ＧおよびＣからなる群から選択されるいずれか１つの塩基となるように設計され得る；または、ＡとＴの組合せ、ＡとＧの組合せ、ＡとＣの組合せ、ＴとＧの組合せ、ＴとＣの組合せ、ＧとＣの組合せ、ＡとＴとＧとの組合せ、ＡとＴとＣとの組合せ、ＡとＧとＣとの組合せ、およびＴとＧとＣとの組合せからなる群から選択されるいずれか１つの組合せに含まれる塩基からランダムに選択される塩基となるように設計され得る｝。

図１は、核酸分子のデジタル定量法とその有効性について説明する図である。（Ａ）図１のパネルＡでは、デジタルカウントのスキームが示されている。各々の目的核酸分子に分子バーコードを固有に付加する（固有の分子バーコードを付加する）。増幅後、目的核酸部分とバーコード部分の両方をシークエンスする。コピー数は、リード数ではなく、固有のバーコードの数によって決定される。点線の枠は、本実施例において用いた実験デザインを示す。（Ｂ）図１のパネルＢは、正確なデジタルカウントのための第１の要件：それぞれの目的核酸分子は、異なるバーコードによって標識されなければならないことを説明する図である。バーコード配列の多様性を増加させるにつれて、測定される固有のバーコードの数が一定になる場合、その範囲のバーコード配列の多様性は、第１の要件を満たす。（Ｃ）図１のパネルＣでは、正確なデジタルカウントのための第２の要件：目的核酸分子に付加された全てのバーコード配列（少なくとも１つのリード）が検出されなければならないことを説明する図である。シークエンス深度を増加させるにつれて、測定される固有のバーコードの数が一定になる場合、その範囲のシークエンス深度は、第２の要件を満たす。図２は、正確なデジタル定量のための２つの要件に適用されたランダム塩基バーコードを用いたデジタルカウントの観察された本来的な特徴を示す。（Ａ）図２のパネルＡでは、ランダム塩基の数（塩基長）に対する検出されるクラスター（グレーで示す固有のバーコード）の数の依存性を表す。ＳＴ１の結果が示されている。グレーの線は、固有のバーコードの数を示す。青の線は、クラスタリング（Distance=3）後の観察されたクラスターの数を示す。緑の線は、クラスタリング（Distance=3）および固定塩基マッチフィルタリング（固定塩基数＝６）後のクラスターの数を示す。（Ｂ）図２のパネルＢは、ランダム塩基の数に対するバーコードクラスターの数の依存性を示す。黄色の線は、クラスタリング（Distance=3）と固定塩基マッチフィルタリング（固定塩基数＝６）後のインデックスＡおよびインデックスＢを有するＳＴ１に関するクラスター数を示す。赤の点線は、クラスタリング（Distance=3）と固定塩基マッチフィルタリング（固定塩基数＝６）後のインデックスＡおよびインデックスＢを有する短い鋳型全てに関するバーコードクラスター数を示す。（Ｃ）図２のパネルＣは、シークエンスカバー率に対する検出される分子数の依存性を示す。グレーの線は、ランダム塩基の数に対する観察される固有のバーコード配列の数の依存性を表す。青の線は、クラスタリング（Distance=3）後の観察されたクラスターの数を示す。緑の線は、クラスタリング（Distance=3）および固定塩基マッチフィルタリング（固定塩基数＝６）後のクラスターの数を示す。黄色の線は、クラスタリング（Distance=3）、固定塩基マッチフィルタリング（固定塩基数＝６）、およびミスインデックス（例えば、混入インデックス）の除外後の、インデックスＡを有するＳＴ１に関するバーコードクラスターの数を示す。赤の点線は、クラスタリング（Distance=3）、固定塩基マッチフィルタリング（固定塩基数＝６）、ならびにミスインデックス（例えば、混入インデックス）および誤同定除外後の、インデックスＡを有するＳＴ１に関するバーコードクラスターの数を示す。エラーバーは、標準偏差を示す（ｎ＝８）。図３は、Distanceと固定塩基を用いた解析の結果を示す。図３では、インデックスＡ（丸で示される）とインデックスＢ（三角で示される）を有するＳＴ１の結果が示されている。ランダム塩基バーコードの長さは２４であった。（Ａ）図３のパネルＡは、クラスター数に対する異なるDistanceでのクラスタリングの影響を示す。（Ｂ）図３のパネルＢは、Distance=3での固定塩基の位置の依存性を示す。アスタリスクはフィルタリングなしを示す。１つの固定塩基のみを用いてフィルタリングがなされた。（Ｃ）図３のパネルＣで、Distance=3での固定塩基の数の依存性を示す。アスタリスクはフィルタリングなしを示す。シークエンスプライマー部位から最も遠い塩基を用いてフィルタリングがなされた。図４は、各鋳型の絶対カウントを示す。（Ａ）図４のパネルＡは、インデックスＡに関して、カバー率の関数として決定されたクラスター数を示す。Distance=2、固定塩基数＝4、ランダム塩基数＝20。また、ミスインデックス（例えば、混入インデックス）の影響や誤同定の影響が除外された。各鋳型配列の開始コピー数を括弧内に示す。（Ｂ）図４のパネルＢは、ランダム塩基の数に対する検出される分子数の依存性を示す。Distance=2、固定塩基数＝4。全リードの10%をランダムにサンプリングした（短い鋳型に対するカバー率は13.4～20.3であり、長い鋳型に対するカバー率は、12.6～20.9であった）。（Ｃ）図４のパネルＣは、インプット（すなわち、ＰＣＲ増幅前の分子数、ｘ軸）とアウトプット（すなわち、デジタルカウントの結果、ｙ軸）との相関を示す。アウトプット数は、大きなシンボルで示される12.6～20.9のカバー率で図４Ａと図１１から決定された。グレーの線は、対数目盛で傾き１を有する回帰直線を示す。丸および三角はそれぞれ、インデックスＡおよびインデックスＢに対応する。直線回帰のピアソンの積率相関係数ｒと決定係数Ｒ^２が示されている。エラーバーは、標準偏差を示す（ｎ＝８）。図５は、デジタルカウントのためのランダム塩基の必要な数を示す。（Ａ）図５のパネルＡでは、ｘ軸は、測定しようとする分子のインプット数を示し、ｙ軸は、図４のパネルＢおよび図５のパネルＢにおける各々の曲線が０．９５の相対的クラスター数に達するときのランダム塩基の数を示す。（Ｂ）図５のパネルＢは、ランダム塩基の数に対するバーコードクラスターの数の依存性を示す。クラスタリング（Distance=2）、固定塩基マッチフィルタリング（固定塩基数＝4）後のインデックスＡおよびＢを有する全ての鋳型、全リードの10%をランダムにサンプリング（例えば、カバー率は12.6～20.9）。色は、図４のパネルＡにおけるプロットで表されるサンプルに対応する。エラーバーは、標準偏差を表す（ｎ＝８）。図６Ａは、増幅、インデックス付加、混合およびシークエンスを含む従来の方法を示す。図６Ａでは、バーコード配列が用いられず、増幅された配列にサンプル毎に固有のインデックスが付加され、混合してシークエンスされる。インデックスを増幅の前に付加してもよい。図６Ｂは、増幅、インデックス付加、混合およびシークエンスを含む従来の方法を示す。ここで、従来法では、ミスインデックス付加が生じ得るが、生じたミスインデックスを同定できない。図６Ｃは、分子バーコードの使用法を示す。配列１を有する目的核酸配列それぞれに対して固有のバーコード配列が標識され、各分子が固有に標識される。図６Ｄは、分子バーコード付加、増幅、インデックス付加、混合およびシークエンスを含む分子バーコードの使用法を示す。核酸分子に固有のバーコード付加とサンプル毎に固有のインデックスが付加され、複数のサンプルを混合してシークエンスするスキームを示す。インデックスを、分子バーコードの付加の後、増幅の前に付加してもよい。図６Ｅは、分子バーコード付加、増幅、インデックス付加、混合およびシークエンスを含む分子バーコードの使用法を示す。本発明の第１の実施形態におけるミスインデックスの同定方法の一例のスキームを示す。ミスインデックスが生じ得るが、本発明の第１の実施形態では、生じたミスインデックスを同定できる。同一分子からの増幅産物は同一インデックスを有しており、ミスインデックスされた分子の数は、正しくインデックス付加された分子の数よりも小さいと仮定する。本発明の第１の実施形態では、同一のバーコード配列に２種類のインデックスが付加されている場合には、リード数において最頻のインデックスを正しいインデックスと決定する。図７Ａは、複数のサンプルに含まれる目的核酸分子に対してバーコードを付加するスキームを示す。図７Ｂは、インデックス付加および増幅のスキームを示し、他のインデックスがコンタミネーションしたインデックスにより部分的なスイッチングが生じた場合を示す。図７Ｃは、バーコード数のカウント、同一バーコードの確認、エラー（インデックスとバーコードとのミスペア）の同定を示す。同一バーコード配列に対して異なるインデックスＡおよびＢが付加されているときに、リード数（コピー数）の少ない分子をミスインデックスとして同定するスキームを示す。図８は、図２の補足的図面であり、ランダム塩基を有するバーコードを用いたデジタルカウントの観察された本来的な特徴を示す。（Ａ）図８のパネルＡでは、ＳＴ１、ＳＴ２、ＬＴ１およびＬＴ２に関して、ランダム塩基の数（塩基長）に対する検出されるクラスターの数の依存性を表す。グレーの線は、ランダム塩基の数に対する観察される固有のバーコード配列の数の依存性を表す。青の線は、クラスタリング（Distance=3）後の観察されたクラスターの数を示す。緑の線は、クラスタリング（Distance=3）および固定塩基マッチフィルタリング（固定塩基数＝６）後のクラスターの数を示す。（Ｂ）図８のパネルＢは、ランダム塩基の数に対するバーコードクラスターの数の依存性を示す。黄色の線は、クラスタリング（Distance=3）、固定塩基マッチフィルタリング（ＳＴ２に対しては固定塩基数＝6、ＬＴ２に対しては固定塩基数＝12）、ミスインデックス（例えば、混入ミスインデックス）の除外後の、インデックスＡおよびＢを有するＳＴ２（上パネル）とＬＴ２（下パネル）についてのクラスター数を示す。濃黄色の線は、クラスタリング（Distance=3）、固定塩基マッチフィルタリング（固定塩基数＝１２）、ミスインデックス（例えば、混入インデックス）の除外後の、インデックスＡおよびインデックスＢを有するＬＴ１（下パネル）についてのクラスター数を示す。赤の点線は、クラスタリング（Distance=3）、固定塩基マッチフィルタリング（固定塩基数＝６）、ミスインデックス（例えば、混入インデックス）と誤同定の除外後の、インデックスＡおよびインデックスＢを有する全ての長い鋳型についてのバーコードクラスター数を示す。（Ｃ）図８のパネルＣは、ＳＴ１、ＳＴ２、ＬＴ１およびＬＴ２に関してのシークエンスカバー率に対する検出される分子数の依存性を示す。図８パネルＣでは、線の色は、濃黄色以外、上記図８のパネルＡおよびＢと同様である。エラーバーは、標準偏差を示す（ｎ＝８）。図９は、図３の補足的図面であり、ＳＴ２、ＬＴ１およびＬＴ２に関するDistanceと固定塩基を用いた解析結果を示す。（Ａ）図９のパネルＡは、図３のパネルＡと同じであるが、ＳＴ２、ＬＴ１およびＬＴ２に関する、様々なDistanceパラメータを用いたクラスタリングのクラスター数に対する影響を示す。（Ｂ）図９のパネルＢは、図３のパネルＢと同じであるが、ＳＴ２、ＬＴ１およびＬＴ２に関する固定塩基の位置の依存性を示す。アスタリスクはフィルタリングなしを示す。（Ｃ）図９のパネルＣは、図３のパネルＣと同じであるが、ＳＴ２、ＬＴ１およびＬＴ２に関する固定塩基の数の依存性を示す。図１０は、インデックスＡ（パネルＡ参照）およびインデックスＢ（パネルＢ参照）を有するＳＴ１に関する各クラスターにおけるリード数のヒストグラムを示す。色は、図２Ｃのプロットのサンプルの色と対応する。図１１は、図４の補足的図面であり、各鋳型の絶対カウントを示す。図４のパネルＡと同じであるが、インデックスＢ（三角で示される）に関して、カバー率に対する決定されたクラスター数を示す。エラーバーは、標準偏差を示す（ｎ＝８）。図１２は、図５の補足的図面であり、デジタルカウントのためのランダム塩基の必要な数の推定を示す。本プロットは、ランダム塩基数３８（本実施例で最長）までの対数目盛における直線回帰（R²＝0.971）であることを除いては、図５Ａと同じである。この事例における上記回帰曲線の数式は、ｙ＝２．２＊ｌｏｇ（ｘ）＋５．５であった。図１３は、バーコードの設計と分子のインプット数を示す。ＬＴ１～６の配列における大文字はＰＣＲ増幅プライマーの結合箇所である。バーコード（barcode）はランダム塩基および固定塩基を含むランダム領域を示し、標的（target）は目的核酸を示す。ＬＴ１～６はＰＡＧＥ精製物であり、ＳＴ１～５の５’末端はアミンで修飾されたものであった。ランダム塩基の間の固定塩基は、より低い増幅効率を有し得る長いホモポリマーバーコードの回避の助けとなる。Ｎは、Ａ、Ｔ、Ｇ、またはＣのいずれかであることを示す。図１４は、ライブラリーの調製のためのプライマー配列を示す。下線部は、インデックス配列を示す（インデックスＡは、Ｒｖｐｒｉｍｅｒ１、インデックスＢは、Ｒｖｐｒｉｍｅｒ２に含まれる）。全てのプライマーは、ＰＡＧＥ精製物であった。図１５は、各プロセスにおけるリードの数を示す。＊この画分は、ミスインデックス（例えば、混入インデックス）の除外におけるリード数よりも大きくなり得る（実施例参照）。

発明の具体的説明

本明細書では、「分子バーコード」とは、核酸分子に対して１分子毎に付加される固有の配列を有するタグである。「primer ID」、および「固有分子識別子（UMI）」などとも呼ばれる。核酸分子に対して１分子毎に異なる固有の配列を有する分子バーコードが付加されるようにすると、増幅などの処理に供される前のサンプルに含まれる当該核酸の分子数を、付加されたバーコードの種類の数に基づいて、デジタル的に（または定性的に）決定できることとなる。この核酸分子の決定法は、一度のランで大量の核酸配列の分析を可能とした次世代シークエンサーのプラットフォームが発展したことで一気に注目を浴びるようになり、分子バーコードを活用することで核酸分子数をデジタル的に決定する方法が様々に開発されてきた。この核酸分子数の決定法は、分子数をバーコードの種類の数（「固有のバーコードの数」ということがある）としてデジタル的にカウントできることから、「デジタルカウント法」や「デジタル定量法」等と呼ばれることがある。このデジタルカウント法は、測定系のノイズやバイアスの存在下であっても、サンプル中の分子の絶対数をデジタル的に正確に決定することができる。このデジタルカウント法が最も広く用いられているアプリケーションとしては、分子バーコードを用いたＲＮＡ－Ｓｅｑ、すなわち、デジタルＲＮＡ－Ｓｅｑ（ｄＲＮＡ－Ｓｅｑ）または定量的ＲＮＡ－Ｓｅｑが挙げられる。ｄＲＮＡ－Ｓｅｑは、サンプルが微量でも良好に機能するため、単一細胞の遺伝子発現解析によく用いられている。
デジタルカウント法はまた、大量のシークエンスデータを取得することができる次世代シークエンサーのプラットフォームにおいて多くの用途に用いられている。そのような用途としては、例えば、ＲＮＡ－Ｓｅｑに加えて、単一ヌクレオチド解像度ＵＶ架橋免疫沈降（ｉＣＬＩＰ：individual-nucleotide resolution UV cross-linking and immunoprecipitation）、抗体レパトワ解析、細菌１６ＳｒＲＮＡの遺伝子解析、およびエキソヌクレアーゼ、固有のバーコードおよび単一ライゲーションを介したヌクレオチド解像度のクロマチン免疫沈降実験（ＣｈＩＰ－ｎｅｘｕｓ：chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation）が挙げられる。
このデジタルカウントの方法において、サンプル中に存在する核酸分子の総数に対して十分に多くの種類の分子バーコードを用いることにより、同一のバーコードが元のサンプル中に存在する複数の核酸分子に付加される可能性を実質的に制限し、これによりバーコードの配列の種類数をサンプル中に存在していた核酸分子数に対応付けることができる。このようにして、十分な多様性を有するヌクレオチド配列を含む分子バーコードを用いることによって、サンプル中に存在する核酸分子の定量が可能である。分子バーコードは、例えば、ランダムな塩基を有する核酸群として得られ得る。分子バーコードは、測定する分子数を決定するために、その配列の種類の数に着目されるため、配列がランダム（配列が多様であり、かつ、ヒトが配列の内容を認識する必要がないように）に合成されたものであったとしてもよいということができる。あるいは、分子バーコードは、十分な多様性が得られるように設計された配列既知の核酸群であってもよい。本明細書では、分子バーコードを単にバーコードということがあり、また、分子バーコードの有する配列をバーコード配列ということがある。本明細書では、固有のバーコード配列の数とは、バーコード配列の多様性の程度を表す数である。固有のバーコード配列の数は、ｎ個の異なるバーコード配列が検出された場合には、ｎとなる｛ここで、ｎは自然数である｝。本明細書では、ランダム塩基の数とは、ランダム塩基の塩基長を意味する。本明細書では、ランダム塩基とは、ランダムな配列を有する連続した塩基を意味する。ランダム塩基は、２種類の塩基、３種類の塩基、または４種類の塩基からなるものとし得る。

本明細書では、「インデックス」とは、核酸分子に対して、それが由来するサンプル毎に付加される固有の標識となる核酸である。例えば、サンプル毎に異なるヌクレオチド配列を有するインデックスが付加され得る。あるサンプルに由来する核酸分子には全て同一のインデックスを付加することによって、複数のサンプルを混合してシークエンス解析した場合に、付加されたインデックスの配列に基づいて個々の核酸分子が由来するサンプルを特定することができる。次世代シークエンサーのプラットフォームにおける１回のシークエンスのキャパシティが大きいことから、複数のサンプルを混合して１回のランでシークエンスすることが可能であり、インデックスは、例えば、このような場合に有用である。インデックスの付加は、核酸分子の処理（例えば、増幅）の前、間、または後に付加してもよい。

本明細書では、「鋳型」、「標的核酸」、「標的核酸分子」、「目的核酸」または「目的核酸分子」とは、デジタル定量法において定量の対象となる核酸分子（例えば、ＤＮＡまたはＲＮＡ）を意味し、相互互換的に用いられ得る。本明細書では、目的核酸分子が元々有している配列（すなわち、解析のためにバーコードやインデックスが付加される前の配列）は、目的核酸配列と呼ばれる。

本明細書では、「核酸」は、核酸配列を有する高分子を意味する。核酸としては、デオキシリボ核酸（ＤＮＡ）およびリボ核酸（ＲＮＡ）が挙げられる。リボ核酸としては、メッセンジャーＲＮＡ（ｍＲＮＡ）、ノンコーディングＲＮＡ、例えば、マイクロＲＮＡ、トランスファーＲＮＡ（ｒＲＮＡ）、およびリボソーマルＲＮＡ（ｒＲＮＡ）が挙げられる。

本明細書では、「シークエンス深度」は、シークエンスする総量または総分子数を表す。例えば、シークエンス深度が高い（すなわち、より多くのシークエンス情報が得られる）と、サンプル中にわずかしか存在しない配列が検出される可能性が上昇する場合がある。本明細書では、「カバー率」とは、同一核酸分子に由来するとしてクラスタリングされて得られた各クラスターのリード数の平均（リード数／クラスター）を意味する。

本明細書では、「分子毎に固有の」とは、系に含まれる分子の少なくとも一部についてそれぞれ互いに異なることを意味する。「分子毎に固有の」とは、系に含まれる全ての分子、実質的に全ての分子、またはその大半の分子（例えば、５０%以上、６０％以上、７０％以上、８０％以上、９０％以上、９５％以上、９６％以上、９７％以上、９８％以上、または９９％以上）についてそれぞれ異なることを意味し得る。

核酸のデジタル定量法の従来の手順を以下説明する（図１のパネルＡ参照）。
ＲＮＡ分子、またはＤＮＡ（例えば、相補的ＤＮＡまたはｃＤＮＡ）分子等の核酸（目的核酸分子）のそれぞれに対して、多様な外来配列を含むＤＮＡ（分子バーコード）を固有に付加する（すなわち、核酸分子毎に異なる配列を有する分子バーコードを付加する）（例えば、図６Ｃ参照）。このように分子毎に固有の配列を有する分子バーコードが付加された核酸を「バーコード付加された核酸」と呼ぶことがある。バーコード付加された目的核酸分子（出発材料の核酸がＲＮＡである場合にはＲＮＡから得られるｃＤＮＡ）を増幅させる（例えば、図６Ｄ参照）。バーコード付加され増幅された核酸の目的核酸配列とバーコード配列をタンデムにシークエンスする（例えば、図６Ｄ参照）。理論的に提唱されているように、各々の目的核酸について、増幅された分子の数（いわゆる「リード数」）ではなく目的核酸配列に付加された固有のバーコードの数が定量され、元の（増幅前の）目的核酸分子の絶対的なコピー数が決定できる。このデジタル定量法においては、バーコード配列の種類の数が着目されるため、バーコード配列は、核酸分子毎に固有の配列を有するように目的核酸分子に付加されればよく、その具体的配列がどのようなものかは問われない。デジタル定量法において、具体的配列が既知のバーコードを用いてもよい。
次世代シークエンサーのプラットフォームが発展し、一度のシークエンシング（ラン）で大量の塩基配列を解読可能となった。これにより、単一サンプルの測定では、シークエンシングの能力を使い切れず、１回のランで複数のサンプルを同時にシークエンスすることに対するニーズが高まっている。１回のランで複数のサンプルをシークエンスする一方で、核酸がいずれのサンプルに由来するかを区別するために、サンプル毎に固有のインデックスの付加がなされ得る。本発明によれば、インデックスは、サンプル毎に固有であればどのような配列を有するように目的核酸分子に付加されていてもよく、その具体的配列がどのようなものかは問われない。デジタル定量法において、具体的配列が既知のインデックスを用いてもよい。
本発明によれば、インデックスは、目的核酸分子が増幅された後で増幅された目的核酸分子に対して付加されてもよいし、目的核酸分子が増幅される前に目的核酸分子に対して付加されてもよい。インデックスは、各サンプルで増幅を行った後に付加してもよい。例えば、インデックスの付加は、アダプターライゲーションによって増幅産物それぞれに対して行うことができる。あるいは、インデックスは、目的核酸分子が増幅される間に付加されてもよい。例えば、インデックスの付加は、プライマーの配列に含ませることによって核酸分子の増幅中に行われ得る。
本発明においてインデックスが増幅される前の目的核酸分子に付加される場合には、インデックスは、バーコード配列の付加の前に、同時に、または後で目的核酸分子に付加されてもよい。インデックス、バーコード配列、および目的核酸分子は、いずれの順番で連結されてもよい。インデックスは、バーコード配列と連結した状態で提供されてもよい。分子バーコードを利用して特定のサンプル内に含まれる目的核酸分子をデジタル定量に供する場合には、インデックスを指標として特定サンプルに由来する目的核酸分子を特定することができ、目的核酸配列に付加されたバーコード配列の種類の数（固有のバーコードの数）が定量され、元の（増幅前の）目的核酸分子の絶対的なコピー数が決定される（例えば、図６Ｄ参照）。

本発明によれば、インデックスとバーコードとを用いた目的核酸分子のデジタル定量方法において、複数のサンプルを混合して目的核酸分子を定量する場合に、インデックスが想定外の異なるサンプルに由来する核酸に付加されてしまう問題が発生し得ることが明らかとなった（図６Ｅ参照、図７Ｂ参照）。この問題は、インデックスを用いる場合に生じ得るものであり、インデックススイッチング（index switching）、インデックスホッピング（index hopping）、ミスインデックス（misindexing）などといわれる。インデックススイッチングの問題の存在は既に指摘されているが（Sinha, R. et al. Index switching causes “spreading-of-signal” among multiplexed samples in Illumina HiSeq 4000 DNA sequencing. biorxiv, 10.1101/125724 (2017)）現在までに有効な解決手段は報告されていない。
本発明によればまた、バーコード配列の種類の数をカウントする際に、バーコード配列内に生じる変異（例えば、挿入、置換、および欠失）によって、同じと判断されるべき配列が異なる配列として認識される問題が発生し得ることが明らかになった。これらの問題は、インデックスを用いるか否かによらず生じ得る。

本発明は、これらの問題それぞれに対して解決策を提供する。
サンプルの区別のためにサンプルに固有のインデックスを用いるデジタル定量方法においては、バーコードとインデックスが付加された目的核酸分子について、同一のバーコードに対して複数種のインデックスが付加されることはないと仮定できる（核酸一分子毎に固有のバーコードが付加されているためである）。これに対して本発明では、同一のバーコードが付加された核酸分子のクラスター中に複数のインデックスが見出された場合には、ミスインデックスが発生したと決定することができる（例えば、図６Ｅおよび図７Ｃ参照）。同一のバーコードが付加された核酸分子のクラスター中に複数のインデックスが見出された場合には、各インデックス配列の存在数を比較し、最も多く存在したインデックス配列を正しくインデックス付加された配列であると決定する（例えば、図６Ｅおよび図７Ｃ参照）。これにより、（例えば、１つのクラスター中の最も多く存在したインデックス配列以外の配列を除外することによって）ミスインデックスに対応することができる。この方法は、目的核酸分子の配列とは関係なく実施することができることは当然である。従って、この方法は、目的核酸配列を解読することを含まなくてよく、含んでいてもよい。この方法は、下記の第１の実施形態に対応する。

デジタル定量方法においては、インデックス配列およびバーコード配列はその異同の認定が定量の精度に影響する。例えば、バーコード配列は、インデックスを付加するかしないかに関わらず、配列内の塩基の変異（例えば、挿入、置換、および欠失）によって異なる配列と認識されれば、配列の種類の数を増幅などに供される前の元の分子数の決定に用いるデジタル定量では、分子数の決定が不正確になる。これに対して、本発明では、バーコード内の塩基の置換に対しては、一定の距離（Distance）に含まれる配列を１つのクラスターとしてクラスタリングし、クラスター数に基づいて分子数を決定することで塩基の置換によって本来同一であるが異なる配列と認識される問題に対応することができる。ここで、「距離（Distance）」とは、２つの所定のバーコード配列間で相違する塩基の数を意味する。例えば、あるバーコード配列が別のバーコード配列と、いずれか１つの位置での１つの塩基変化を除けば正確に同一となる場合、これら２つのバーコード配列間の距離（Distance）は１である。例えばまた、いずれか２つの位置での２つの塩基変化を除けば正確に同一となる場合、これら２つのバーコード配列間の距離（Distance）は２である。例えばまた、あるバーコード配列が別のバーコード配列と、いずれか３つの位置での３つの塩基変化を除けば正確に同一となる場合、これら２つのバーコード配列間の距離（Distance）は３である。バーコード配列の多様性が増大するほど、第１の実施形態の方法の精度は高まると考えられる。距離（Distance）の値は本開示に従って適宜決定すればよく限定するものではないが、例えば１～１０、好ましくは１～５、より好ましくは１～３、さらに好ましくは３である。この方法は、目的核酸分子の配列とは関係なく実施することができることは当然である。従って、この方法は、目的核酸配列を解読することを含まなくてよく、含んでいてもよい。この方法は、下記の第２の実施形態に対応する。インデックスを付加する系において、インデックスの異同を決定する際にも同様に利用することができる。

また、例えば、バーコード配列内の塩基の挿入や欠失（挿入および欠失を総称して「indel」ということがある）に対しては、インデックスを付加するかしないかに関わらず、バーコードの固定位置の塩基を固定塩基とする（すなわち、バーコード配列中の所定の位置における塩基を特定または規定の塩基とする）ことで固定塩基が所定の位置に存在しないことを指標としてindelの発生を検出することができる（本明細書ではこの方法を「固定塩基マッチフィルタリング（fixed base match filtering）」と呼ぶことがある）。すなわち、シークエンスしたバーコード配列において、固定塩基の位置のいずれかに元の塩基と異なる塩基を含んでいる場合に、バーコード配列中で塩基の挿入または欠失が生じたと決定される。バーコード配列中の固定塩基数は本開示に従って適宜決定すればよく限定するものではないが、例えば１～１５個、好ましくは２～１２個、より好ましくは３～１０個、さらに好ましくは４～６個である。この方法は、目的核酸分子の配列とは関係なく実施することができることは当然である。従って、この方法は、目的核酸配列を解読することを含まなくてよく、含んでいてもよい。この方法は、下記の第３の実施形態に対応する。インデックスを付加する系において、インデックスの異同を決定する際にも同様に利用することができる。

以下、第１の実施形態、第２の実施形態、および第３の実施形態それぞれについて説明する。なお、これらの実施形態は組み合わせて実施することもでき、本発明は、そのような可能な実施形態の組合せを包含するものである。下記の実施形態は、組み合わせた実施態様の非限定的な例を含むものとなっている。

本発明の第１の実施形態
すなわち、本発明の第１の実施形態によれば、
複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシング（マルチプレックスシークエンシング）より得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
（Ｅ）得られた配列情報から、特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
（Ｆ）上記（Ｅ）で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および／または、検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において99.5％以下、99％以下、90％以下、80％以下、70％以下、60％以下、50％以下、40％以下、30％以下、20％以下、10％以下、5％以下、1％以下の値が挙げられるがこれらに限定されない。また、例えば、２番目以降の検出頻度のペアであってもよい。）の少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法が提供される。

本発明の第１の実施形態では、本発明の方法は、
（Ａ）核酸分子（例えば、ＤＮＡまたはＲＮＡ）を含む複数のサンプルを別々に取得する工程と｛サンプルの少なくとも１つには目的核酸分子が含まれる｝、
（Ｂ）｛例えば、得られた複数のサンプルそれぞれにおいて、｝サンプルに含まれる核酸分子を増幅する前に、目的核酸分子それぞれに各核酸分子に固有のまたは任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
（Ｃ）｛例えば、複数のサンプルを混合する前に、｝複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリーを得る工程と（工程（Ｂ）の後に工程（Ｃ）を行ってもよいし、工程（Ｃ）の後に工程（Ｂ）を行ってもよい；また、工程（Ｂ）または（Ｃ）の後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる）、
（Ｄ）上記（Ｂ）と（Ｃ）の後に得られた核酸分子の増幅産物を含む混合物中で（サンプルを混合するのは工程（Ｃ）の後であり、サンプルを混合した後に工程（Ｂ）を行ってもよく、工程（Ｂ）を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程（Ｂ）の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい）、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、１核酸分子毎にインデックス部分の配列と分子バーコード部分の配列と必要に応じてそれに連結した目的核酸分子部分の配列を決定する工程と、
をさらに含んでいてもよい。

本発明の第１の実施形態では、インデックスは、サンプル毎に固有の塩基配列を有するものであれば、任意の配列を有するものを用いることができる。インデックスは、所定の配列を有するものとすることができるが（例えば、配列を参照することでいずれのサンプルに由来するものかが確定できるようにしてもよいが）、配列が不明なものであってもよい（例えば、配列を参照してもいずれのサンプルに由来するのかは確定できず、配列が異なることで異なるサンプルに由来することが分かるものであってもよい）。

本発明の第１の実施形態では、分子バーコードは、サンプル中の核酸分子数に対して十分な多様性を有するように作製することができる。分子バーコードは、サンプル中の核酸分子数に対して十分な多様性を有する限り、どのような塩基配列を有するものであってもよい。配列の設計の手間を省く目的等のために、分子バーコードの配列は、無作為に決定された配列（ランダムに決定された配列）とすることができる。例えば、分子バーコードは、ランダムに決定された塩基（すなわち、ランダム塩基）を複数含むことによって上記十分な多様性を有するものであってもよい。分子バーコードの多様性を確保するためには、分子バーコードの塩基配列の長さを長くすることができる。所定の多様性を有する目的核酸のデジタル定量においてランダム塩基を用いる場合、必要な分子バーコードの塩基配列中のランダム塩基の数を、図１２に例示されるようなグラフに基づいて実験的に決定してもよい。本発明を限定するものではないが、例えば、分子バーコードの塩基配列中のランダム塩基の数を３８以上にすることで、１０^１５に及ぶ分子の数をデジタル定量するに十分な多様性を確保することができることが実施例から理解できる。４つの塩基をランダムに配列させると塩基長が３８である場合、分子バーコードの多様性は理論上４^３８（すなわち、約７．５６×１０^２２）に及ぶ。分子バーコードにおけるランダム塩基の数は、配列の多様性確保のために、例えば、６以上、７以上、８以上、９以上、１０以上、１１以上、１２以上、１３以上、１４以上、１５以上、１６以上、１７以上、１８以上、１９以上、または２０以上とすることができる。あるいは、ランダム塩基の数は、２５以上、３０以上、３５以上、４０以上であってもよい。

本発明の第１の実施形態では、複数のサンプルとは、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、または１０以上のサンプルであり、インデックスにより区別可能な数であるが、特に数に上限は無い。

本発明の第１の実施形態では、上記（Ｅ）では、配列同一性に基づいて、特定のインデックスを有する配列、特定の分子バーコードを有する配列、および／または、目的核酸分子を含む配列を選択し、選択された配列により群を形成することができる。ここで、特定分子バーコードを有する配列を選択し、選択された配列により分子バーコード毎に群を形成することで、分子バーコードの種類の数に対応した数の群を形成することができる。また、特定のインデックスを有する配列を選択し、選択された配列によりインデックス毎に群を形成することで、インデックスの数（例えば、サンプル毎に異なるインデックスを付加する場合はサンプル数）に対応した数の群を形成することができる。また、特定の目的核酸を有する配列を選択し、選択された配列により群を形成することで、目的核酸を含む核酸群を得ることができる。

本発明の第１の実施形態では、上記（Ｅ）は、群を作成する工程が、｛好ましくは、分子バーコード部分の配列において｝配列同一性または類似性に基づいて同一配列を有していた｛例えば、工程（Ａ）～（Ｄ）の工程のいずれかによって配列が変化することがある｝と推定される分子を一群としてクラスタリングすることによって群を作成することによって行われ得る。
本発明の第１の実施形態では、例えば、上記（Ｅ）は、第２の実施形態と組み合わせて実施することもできる。詳細は、第２の実施形態において説明する。
本発明の第１の実施形態ではさらにまた、例えば、上記（Ｅ）は、第２の実施形態および第３の実施形態と組み合わせて実施することができる。詳細は、第３の実施形態において説明する。

本発明の第１の実施形態では、上記（Ｆ）では、上記（Ｅ）で作成された群それぞれについて、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる。本発明の第１の実施形態では、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定することができる。本発明の第１の実施形態では、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定し、かつ、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定することができる。本発明の第１の実施形態では、ミスペアと決定された核酸分子は、分子数のカウントから除外することができる。正しいペアの決定、およびミスペアの決定はそれぞれ、目的核酸分子の配列に関係なく実施することができる。例えば、目的核酸分子を選択した上で、正しいペアの決定、およびミスペアの決定をそれぞれ行ってもよいが；または、正しいペアの決定、およびミスペアの決定を行った上で、目的核酸分子を選択してもよい。

例えば、ある態様では、上記（Ｅ）において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成した場合には、
(i)工程（Ｆ）において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる；または
(ii)工程（Ｆ）において作成された群のうち検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば２番目以降の検出頻度のペアであってもよい。）をインデックスと分子バーコードの少なくともいずれか１つまたは全てのミスペアと決定することができる。

例えば、ある態様では、上記（Ｅ）において、特定のインデックスを有する配列を選択してインデックス毎に群を作成した場合には、
(iii)工程（Ｆ）において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる；または
(iv)工程（Ｆ）において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば２番目以降の検出頻度のペアであってもよい。）をインデックスの少なくともいずれか１つまたは全てと分子バーコードのミスペアと決定することができる。

例えば、ある態様では、上記（Ｅ）において、目的核酸分子を含む配列を選択して群を作成した場合には、
(v)工程（Ｆ）において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる；
(vi)工程（Ｆ）において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる；
(vii)工程（Ｆ）においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば２番目以降の検出頻度のペアであってもよい。）の少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定することができる；または
(viii)工程（Ｆ）においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペア（例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば２番目以降の検出頻度のペアであってもよい。）の少なくともいずれか１つまたは全てをインデックスと分子バーコードのミスペアと決定することができる。

このようにして、本発明の第１の実施形態では、バーコード配列とインデックス配列との正しいペアを決定することができ、および／または、ミスペアを決定することができる。後述する実施例で示されたように、ミスペアをカウントしないことによって、目的核酸分子のデジタル定量の精度が向上し得る。

本発明の第２の実施形態
バーコード配列を用いた核酸分子のデジタル定量法においては、解析中にバーコード配列内に変異（挿入、置換、または欠失）が生じること、および変異が定量精度に影響することが明らかとなった。本発明の第２の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列の情報から、変異後の分子バーコードが有する配列を配列類似性を有する他の配列と一緒に１群に分類する（クラスタリング）ことに関連する。これにより、解析中に生じるバーコード配列内の変異の影響を最小化しようとするものである。第２の実施形態は、例えば、分子バーコードに類似する配列が含まれる可能性が低い環境下では、類似する配列は、同一配列から変異（挿入、置換、または欠失）によって生じた可能性が高いことに基づくものであり、実際に実施例においてもこのクラスタリングによってデジタル定量の精度が向上することが示唆された。
より具体的には、例えば、群を作成する工程が、｛好ましくは、分子バーコード部分の配列において｝配列同一性または類似性に基づいて判断される同一配列を有していた｛例えば、工程（Ａ）～（Ｄ）を実施した場合、これらの工程のいずれかによって配列が変異することがある｝と推定される分子を一群としてクラスタリングすることによって群を作成することであり得る。従って、特定のインデックスを有する配列と類似性を有する配列とは、特定のインデックスを有する配列、および、特定のインデックスを有する配列と類似性を有する配列を含む。

本発明の第２の実施形態では、例えば、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列を配列の類似性に基づいてインデックス、バーコードおよび／または目的核酸分子を群に分ける（クラスタリングする）ことができる。本発明の第２の実施形態のある態様では、例えば、クラスタリングは、
（i）分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる（すなわち、Distance=0）；
（ii）分子バーコード部分の配列において、固有の分子バーコードの配列と１ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる（すなわち、Distance=1）；
（iii）分子バーコード部分の配列において、固有の分子バーコードの配列と２ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる（すなわち、Distance=2）；または
（iv）分子バーコード部分の配列において、固有の分子バーコードの配列と３ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる（すなわち、Distance=3）。このようにすることで、デジタル定量法において生じ得る０～３塩基の変異による核酸配列の種類の人為的増加を是正する。
第２の実施形態のこの態様は、第１の実施形態と組み合わせる場合には、上記（Ｅ）の工程において実施することができる。

本発明の第２の実施形態では、例えば、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列を配列の類似性に基づいてインデックス、バーコードおよび／または目的核酸分子を群に分ける（クラスタリングする）ことができる。本発明の第２の実施形態のある態様では、クラスタリングは、例えば、分子バーコード部分の配列において、塩基（例えば、１ベースまで、２ベースまで、または３ベースまで）の挿入または欠失（indel）を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる。
第２の実施形態のこの態様は、第１の実施形態と組み合わせる場合には、上記（Ｅ）の工程において実施することができる。

本発明の第２の実施形態では、例えば、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列を配列の類似性に基づいてインデックス、バーコードおよび／または目的核酸分子を群に分ける（クラスタリングする）ことができる。本発明の第２の実施形態のある態様では、クラスタリングは、例えば、分子バーコード部分の配列において、塩基（例えば、１ベースまで、２ベースまで、または３ベースまで）の挿入または欠失（indel）を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる。
第２の実施形態のこの態様は、第１の実施形態と組み合わせる場合には、上記（Ｅ）の工程において実施することができる。

また、例えば、第２の実施形態のある態様では核酸配列を特定のバーコードの配列を類似するか否かによって選択し、選択された配列により群を作成することができる。ここで、「類似する」とは、配列が、１塩基、２塩基、３塩基、またはそれ以上異なる（例えば、挿入、欠失または置換）が、それ以外の塩基は一致することを意味する。類似する塩基配列間では一致する塩基の割合が、例えば、５０％以上、５５％以上、６０％以上、６５％以上、７０％以上、７５％以上、８０％以上、８５％以上、９０％以上、９５％以上、９６％以上、９７％以上、９８％以上、または９９％以上であり得る。

本発明の第３の実施形態
バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列において、挿入または欠失（indel）が生じることがある。本発明の第３の実施形態では、核酸配列（特にバーコード配列）に対して生じ得るindelの検出において、核酸分子に連結する全てのバーコード配列中に配置された１以上（例えば、１つ、２つ、３つ、４つ、５つ、または６つ以上）の固定塩基の一部（１つ以上）または全部が元来の位置において所定の固定塩基以外の塩基に変化しているか否かにより検出され得る。本発明の第３の実施形態ではまた、核酸配列（特にバーコード配列）に対して生じ得るindelの検出において、核酸分子に連結する全てのバーコード配列中に配置された１以上（例えば、１つ、２つ、３つ、４つ、５つ、または６つ以上）の固定塩基それぞれの位置と、配列解読されたバーコード配列部分の配列における１以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することをさらに含み得る｛例えば、それぞれの固定塩基は、通常は、Ａ、Ｔ、ＧおよびＣからなる群から選択されるいずれか１つの塩基となるように設計され得る；または、それぞれの固定塩基は、ＡとＴの組合せ、ＡとＧの組合せ、ＡとＣの組合せ、ＴとＧの組合せ、ＴとＣの組合せ、ＧとＣの組合せ、ＡとＴとＧとの組合せ、ＡとＴとＣとの組合せ、ＡとＧとＣとの組合せ、およびＴとＧとＣとの組合せからなる群から選択されるいずれか１つの組合せに含まれる塩基から選択される塩基となるように設計され得る｝。これによって、１以上の固定塩基が所定の位置からずれた位置に存在することを指標として、および、好ましくは固定塩基が存在するべき位置に他の塩基が存在することを更なる指標として、indelを検出することができる。例えば、１以上、例えば、２以上の固定塩基が所定の位置からそれぞれ同じ塩基数ずれた位置に存在すれば、indelが検出されたと決定することができる。indelが検出されたときには、indelを有するとしてシークエンスされた配列を有する核酸分子群をindelを有しない配列と同じクラスターに分類してもよいし、indelを有するとしてシークエンスされた配列を有する核酸分子群を除外してもよい（例えば、得られた配列情報からindelを有するとしてシークエンスされた配列を有する核酸分子群を除外してもよいし、indelを有するとしてシークエンスされた配列を有する核酸分子群を除外して核酸分子群をクラスタリングしてもよい）。この態様では、固定塩基が２以上存在する場合には、固定塩基同士は、好ましくは、固定塩基間には１塩基以上の他の塩基を介在させ得る。ここで「固定塩基」とは、複数のバーコード配列において、バーコード配列の末端（５’末端、若しくは、３’末端、または、５’末端および３’末端）から所定の位置に存在する共通する塩基を意味する（ここで、共通する塩基は、上記のように複数のバーコード配列間で共通する設計によって決定された塩基としてもよい）。
第３の実施形態のこの態様は、第１の実施形態と組み合わせる場合には、上記（Ｅ）の工程において実施することができる。第３の実施形態のこの態様は、第２の実施形態と組み合わせる場合には、indelの検出において実施することができる。

また、本発明の第１の実施形態は、
核酸の解析方法であって：
（Ｉ）分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
（ＩＩ）上記（Ｉ）で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び／又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
（ＩＩＩ）上記（ＩＩ）で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法であってもよい。

さらに、本発明の第２の実施形態は、核酸の解析方法であって：
（Ｉ）分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
（ＩＩ）上記（Ｉ）で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法であってもよい。

さらに、本発明の第３の実施形態は、核酸の解析方法であって：
（Ｉ）特定の位置に固定塩基を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
（ＩＩａ）当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程と、
を含む、方法であってもよい。

上記第１、第２、および第３の実施形態のそれぞれにおいて、少なくとも分子バーコードが付加された目的核酸分子が、工程（Ｉ）の前に増幅に供されていてもよい。ここで、少なくとも分子バーコードが付加された目的核酸分子とは、少なくとも分子バーコードが付加されていれば、インデックスがさらに付加されていてもよく、インデックスが付加されていなくてもよいことを意味する。

上記第１、第２、および第３の実施形態のそれぞれにおいて、分子バーコードは、周知の方法、例えば、分子バーコード配列を含むプライマーを用いて目的核酸分子を増幅するときに（例えば、ポリメラーゼ連鎖反応によって）目的核酸分子に付加することができる。
上記第１、第２、および第３の実施形態のそれぞれにおいて、インデックスが、分子バーコードが付加された目的核酸分子の増幅産物に対して付加されていてもよい。増幅産物に対してインデックスを付加する方法としては、周知の方法、例えば、インデックス配列を有するアダプターを用いたアダプターライゲーション法が挙げられる。
上記第１、第２、および第３の実施形態のそれぞれにおいて、インデックスは、分子バーコードと一緒に目的核酸分子に付加されてもよい。例えば、目的核酸分子にインデックスおよび分子バーコードを付加する方法としては、周知の方法、例えば、インデックスおよび分子バーコードの配列を含むプライマーを用いて目的核酸分子を増幅（例えば、ポリメラーゼ連鎖反応）する方法が挙げられる。

上記第１の実施形態の方法は、第２の実施形態と組み合わせて実施することができる。例えば、上記第１、および第２の実施形態のそれぞれにおいて、工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列であってもよい。ここで、所定の塩基数とは、１～１０、１～９、１～８、１～７、１～６、１～５、１～４、１～３、若しくは１～２の範囲の整数、または０、１、２、若しくは３であり得る。所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列は、ミスマッチ塩基以外の塩基は、特定の分子バーコードの配列と正確に一致する。

上記第１の実施形態の方法は、第３の実施形態と組み合わせて実施することができる。また、上記第２の実施形態の方法は、第３の実施形態と組み合わせて実施することができる。
例えば、第１および第２の実施形態のそれぞれにおいて、分子バーコードが、特定の位置に固定塩基を有するものであってもよい。
第１および第２の実施形態のそれぞれにおいて、工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および／または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択されてもよい。
第１および第２の実施形態のそれぞれにおいて、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含んでいてもよい。例えば、この実施形態において、分子バーコードをDistance=0でクラスタリングする場合も、Distance=1以上でクラスタリングする場合も、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含んでいてもよい。この場合、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することは、クラスタリングの前でも後でも最中であってもよい。
第１および第２の実施形態のそれぞれにおいて、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を工程（Ｉ）の配列情報から除外してもよく、工程（ＩＩ）で作成した群から除外してもよく、解析から除外してもよい。
あるいはまた、第１、第２、および第３の実施形態のそれぞれにおいて、工程（Ｉ）において、または工程（Ｉ）の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得てもよい。あるいはまた、第１の実施形態では、工程（ＩＩ）において、または工程（ＩＩ）の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得てもよい。すなわち、第３の実施形態の核酸の解析方法では、工程（ＩＩａ）に代えて、工程（ＩＩｂ）：工程（Ｉ）において、若しくは、工程（Ｉ）の後で、分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報を得てもよいし；または、工程（ＩＩ）：上記（Ｉ）で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程を含み、かつ工程（ＩＩｃ）：工程（ＩＩ）において、若しくは工程（ＩＩ）の後で、分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる群を得てもよい。分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報または群は、全ての特定の位置に固定塩基を含む配列からなるものであり得る。分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報または群は、固定塩基の数がｎ個｛ここで、ｎは自然数である｝である場合には、ｎ個、またはｎ－ｍ個｛ここで、ｍは、１、２、３、または１からｎ－１の範囲の自然数であり得る｝の固定塩基を特定の位置に含む配列からなるものであり得る。

上記第１、第２、および第３の実施形態のそれぞれにおいて、工程（ＩＩＩ）において、決定された正しいペア以外のインデックスと分子バーコードのペアを、インデックスと分子バーコードのミスペアと決定してもよく、または決定されたミスペアを解析から除外してもよい。

上記第１、第２、および第３の実施形態のそれぞれにおいて、核酸の解析方法は、特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含んでもよい。

当業者であれば、本発明の第１の実施形態、本発明の第２の実施形態、および本発明の第３の実施形態は、それぞれ自由に組み合わせて実施することができることが理解できる。例えば、本発明の第１の実施形態は、本発明の第２の実施形態と組み合わせることができるし、本発明の第１の実施形態は、本発明の第３の実施形態と組み合わせることもできる。本発明の第１の実施形態は、本発明の第２および第３の実施形態と組み合わせてもよい。さらには、本発明の第２の実施形態は、本発明の第３の実施形態を組み合わせることができる。

本発明の第４の実施形態
本発明の第４の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法であって、本発明の第１の実施形態、第２の実施形態、および第３の実施形態、並びにこれらの組合せからなる群から選択される実施形態の実施を含む、方法に関する。

本発明の第４の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法であって、
（ｅ）得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
（ｆ）上記（ｅ）で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
（ｇ）上記（ｆ）において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み｛ここで、ミスペアにおいてインデックスが誤っていると決定することをさらに含んでいてもよい｝、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数（または、正しくインデックスされた目的核酸分子のクラスターの数）に基づいて、当該インデックスに対応するサンプルに含まれる目的核酸分子の数を決定する、
方法であり得る。ここで、ある態様では、工程（ｇ）において、正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数（または、正しくインデックスされた目的核酸分子のクラスターの数）を、当該インデックスに対応するサンプルに含まれる目的核酸分子の数と決定してもよく、リード数が増えるにつれて、原理的に定量の精度が高まると考えられる。

本発明の第４の実施形態は、
（ａ）核酸分子（例えば、ＤＮＡまたはＲＮＡ）を含む複数のサンプルを別々に取得する工程と｛サンプルの少なくとも１つには目的核酸分子が含まれる｝、
（ｂ）サンプルに含まれる核酸分子を増幅する前に、得られた複数のサンプルそれぞれにおいて、目的核酸分子それぞれに任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
（ｃ）複数のサンプルを混合する前に、複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリーを得る工程と（工程Ｂと工程Ｃの順序はどちらが先でもよい；また、工程（ｂ）または（ｃ）の後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる）、
（ｄ）上記（ｂ）と（ｃ）の後得られた核酸分子の増幅産物を含む混合物中で（サンプルを混合するのは工程（ｃ）の後であり、サンプルを混合した後に工程（ｂ）を行っても良く、工程（ｂ）を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程（ｂ）の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい）、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、１核酸分子毎にインデックス部分の配列と分子バーコード部分の配列とそれに連結した核酸分子部分の配列を同定する工程
をさらに含んでいてもよい。

本発明の第４の実施形態では例えば、第２の実施形態において説明したように、前記（ｆ）において、クラスタリングが、
（i）分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（ii）分子バーコード部分の配列において、固有の分子バーコードの配列と１ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；
（iii）分子バーコード部分の配列において、固有の分子バーコードの配列と２ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる；または
（iv）分子バーコード部分の配列において、固有の分子バーコードの配列と３ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われてもよい。

本発明の第４の実施形態では例えば、第２の実施形態において説明したように、前記（ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基（例えば、１ベースまで、２ベースまで、または、３ベースまで）の挿入または欠失（indel）を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われてもよい。この際に、第３の実施形態で説明した、固定塩基を有する分子バーコードを用いてもよい。

本発明の第４の実施形態では例えば、第２の実施形態において説明したように、前記（ｅ）において、クラスタリングが、
分子バーコード部分の配列において、塩基（例えば、１ベースまで、２ベースまで、または、３ベースまで）の挿入または欠失（indel）を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われてもよい。この際に、第３の実施形態で説明した、固定塩基を有する分子バーコードを用いてもよい。

このようにすることで、デジタル定量法において、生じ得る核酸配列のエラーを補正し、デジタル定量の精度を改善し得る。すなわち、本発明によれば、サンプル中の元の目的核酸分子の数に比較して十分に多い数の分子バーコードを使用して、各々の目的核酸分子を互いに異なる配列を有する分子バーコードによって標識し、そして、元の目的核酸分子の数に比較して十分に多い数のリードを得て、各々の目的核酸分子に付加された分子バーコードを全て検出することによって、正確なデジタル定量が可能になる。

現代のビッグデータ時代の生物学において、システムワイドな測定における生物分子の正確な定量が必要とされている。なぜなら、分析の質は最初の生データに高度に依存するからである。このため、ＤＮＡタグ（「プライマーＩＤ（primer ID）」^１、「ＵＭＩ（unique molecular identifier）」、または「分子バーコード（molecular barcode）」と称する）を使用した核酸分子のデジタル定量がこれまでに開発されている。この技術は、ＲＮＡシークエンスによる遺伝子発現解析（ＲＮＡ－Ｓｅｑ）^２－７、ｉＣＬＩＰ（individual-nucleotide resolution UV cross-linking and immunoprecipitation）^８、抗体レパトワ解析^９、細菌１６ＳｒＲＮＡ遺伝子解析^{１０，１１}、およびＣｈＩＰ－ｎｅｘｕｓ（chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation）^１２のような次世代シークエンスプラットフォームにおける多くの応用のために使用されている。これらの方法により、測定系におけるノイズおよび／またはバイアスの存在下であっても、所定のサンプル中の分子の絶対数をデジタル的に正確に決定することが可能になる。分子バーコードを使用するＲＮＡ－Ｓｅｑ、すなわち、デジタルＲＮＡ－Ｓｅｑ（ｄＲＮＡ－Ｓｅｑ）^３または定量的ＲＮＡ－Ｓｅｑ^１３は、デジタルカウントの最も広く使用される応用の１つである。ｄＲＮＡ－Ｓｅｑは、小さなサンプルサイズについてさえも良好に機能するので、単一細胞遺伝子発現解析にしばしば使用されている。このような測定において、検出限界は重要である。なぜなら、単一細胞は多くの低コピーＲＮＡを有することが示されており^{１３，１４}、そして検出限界は、多くの潜在的に未検出の低コピーＲＮＡが存在することを示し、これが生物学的現象のその後の解釈に影響を及ぼし得るからである。それゆえ、使用されるバーコードシステムが核酸定量の検出限界を決定するので、絶対的かつデジタルの定量のためのバーコードの有効性の調査は重大である。さらに、高コピー数種をカウントするバーコードの能力の同時の有効性もまた重要である。なぜなら、例えば、ランダム塩基バーコードが、数千個のウイルスＲＮＡを標識するために^１、そして高スループット単一細胞ＲＮＡ－Ｓｅｑの研究（ここで、バーコードは一回のシークエンスランにおいて個々の細胞を区別するために使用される）において数千の細胞を同定するために使用され得るからである^７。
核酸分子のデジタル定量の一般的な手順は以下のとおりである（図１のパネルＡ参照）。（ｉ）各々のＲＮＡ（または相補的ＤＮＡ若しくはｃＤＮＡ）またはＤＮＡを、多様な配列を含む外部から加えたＤＮＡ（分子バーコード）によって固有にタグ化する^１－３。（ｉｉ）バーコード付加されたＤＮＡまたはｃＤＮＡ（ＲＮＡから出発する場合ＲＮＡから生成される）を増幅する。（ｉｉｉ）バーコード付加され増幅された（ｃ）ＤＮＡの目的核酸配列およびバーコード配列の両方をタンデムにシークエンスする。（ｉｖ）理論的に提唱されているように^１５、増幅前の元の目的核酸（すなわち、増幅前ＲＮＡまたは（ｃ）ＤＮＡ）の絶対的コピー数を与えるために、各々の目的核酸（または遺伝子）について、増幅された分子の数（いわゆる「リード数」）ではなく固有のバーコードの数が定量される。このスキームによって、システムの測定の間の種々の工程において（例えば、増幅、シークエンス、および／または分析から）生成されるノイズおよび／またはバイアスの影響を除外することができる。デジタルカウントシステムが適切に機能することを確実にするために、各々の目的核酸分子が固有にタグ化されることが保証され（またはほぼ保証され）、固有の分子バーコードの測定される数が所定の目的核酸分子の数と等しくなるように多様なバーコード配列を使用しなければならない^{１６，１７}（下記の第１の要件）。また、正確なカウントのために十分なシークエンス深度が必要であると経験的に考えられている^{１８，１９}（下記の第２の要件）。
デジタルカウントスキームにおいて、代表的には以下の２つのタイプのバーコード設計が使用されている：配列限定バーコード（各々のバーコード配列は個別に設計される）および非配列限定バーコード（「ランダム塩基」バーコードと称することがある）。配列限定バーコードが以前に使用されたときに、正確な定量のために必要とされるバーコード配列の多様性が理論計算によって概算され^１６、そしてバーコード付加された分子の絶対的定量のためのこの技術のキャパシティが実験的に確認された^３，１６。しかし、配列限定バーコードの使用には以下のような不利益が存在する：高いダイナミックレンジの測定のためには多くの異なる個別に設計されたバーコード配列を調製しなければならず、これは費用対効果が良くない。カウントのダイナミックレンジを増加させながらコストを最小化するために、ランダム（または擬似ランダム）塩基バーコードが代わりに使用されている^{２，４－９，１１，１２，１８，２０}。この場合でも同様に、バーコードセットの配列多様性が十分であると決定すべきである^{１７，１８}。しかし、単に、配列限定バーコードとは異なり、シークエンスおよび／または増幅エラーに起因するバーコードにおける配列変化（これらのエラーの１つから新たに生成されるバーコード配列が偽陽性になり得る）^２１という理由で、この調査はささいなことではない。すなわち、エラーはサンプル中の分子数の過大評価を引き起こし得る（配列限定バーコードの場合、全ての使用されるバーコード配列は既知であり、このことは全ての未使用のバーコード配列もまた既知であって、エラーから生じる配列を同定しそして除外することができることを意味することに留意のこと）。この問題は、類似のバーコード配列は同じ元のバーコード配列を起源とするエラーを通じて生じるという合理的な仮定に基づいてコンピューター解析を使用してエラーを除外することによってアプローチされる。さらに、Sudberyらは最近、制限されたダイナミックレンジ（１００分子まで）についてのエラーのモデリングによるコンピューター解析に基づいてランダム塩基ＵＭＩ（分子バーコード）の有効性を示した^２２。しかし、正確なデジタルカウントのためのランダム塩基分子バーコードの有効性は、特に定量的な意味^７，２０および高いダイナミックレンジで、理論的モデルには存在しない影響を明白に含み得る実験に基づいては、明確に示されたわけではない。
ここで本発明者らは、特定のバーコード設計を使用するときに、および、コンピューター解析の後に、ランダム塩基分子バーコードを、バーコード付加されたＤＮＡ分子の絶対数のデジタル定量のために利用することができることを実験的に示す。様々な応用において変動し得るバーコード付加および／または逆転写のような他の影響を除外することによってバーコード自体の有効性を調査するために、本発明者らはバーコード配列を含むＤＮＡ分子を合成し、そして増幅分子についてのシークエンスによってそれを定量した（図１のパネルＡの点線の枠参照）。正確なデジタルカウントのために、本発明者らは上記２つの要件を定量的に調査した；（ｉ）所定の分子の数と比較して十分に多いバーコード配列のセットを使用すること（上記の通り）（図１のパネルＢ）、および（ｉｉ）所定の分子の数に比較して十分なシークエンス深度が達成されること（図１のパネルＣ）。次いで、本発明者らは、分子のインプット数および測定される分子のアウトプット数の両方が、２つの要件を満たすモデル測定システムを通じて一貫していることを実験的に示す。これら２つの要件を満たすために、すなわち、デジタルカウントシステムが機能することを確実にするために、本発明者らは、エラー検出のためにランダムバーコード配列内に固定塩基を導入し、インハウス開発したソフトウエアを使用したバーコード配列クラスタリングを実施し、そして分子バーコードからの情報を利用して、異なってインデックス付加されたサンプル間のクロスコンタミネーションおよびマッピングプロセスにおける目的核酸配列（鋳型）の誤同定を同定および除外した。本結果は、任意の所定のサンプル中のバーコード付加された核酸分子の正確な定量が、適切なバーコード設計（最小の必要とされるバーコード長を含む）および十分なシークエンス深度を通じて、高いダイナミックレンジで（１から１０^４超、潜在的には１０^１５分子まで）達成され得ることを示す。
以下、本実施例では、「ランダム」という用語を用いるが、この用語は、本実施例では、配列を設計することなく配列に莫大な多様性を確保するために実験者が無作為に合成したことを意味する。
［方法］
ライブラリーの調製
ランダム塩基を含む一本鎖ＤＮＡ鋳型をIntegrated DNA Technologies, Inc., Coralville, IA, USAから購入した（図１３参照）。各鋳型の濃度は、提供された仕様シート（Integrated DNA Technologies, Inc.）に記載された吸収係数を用い分光光度計（NanoDrop 1000; Thermo Fisher Scientific Inc., MA, USA）を使用して２６０ｎｍでの吸収により測定した。鋳型ＤＮＡは、0.1%（v/v）TWEEN20（Sigma-Aldrich, St. Louis, MO, USA）溶液中で50μMで-30℃で保存した。増幅用のDNA鋳型の濃度を調節するために、全ての鋳型は、水（蒸留水、脱イオン、滅菌、NIPPON GENE CO., LTD., Toyama, Japan）と0.1%TWEEN20で希釈し、下記の最終コピー数になるようPCRチューブ中で混合した。増幅は、25μLサンプル中で0.3μMの各プライマー（図１４参照）を用い、MightyAmp (TAKARA BIO INC., Shiga, Japan)を用いてPCRにより実施した。2本のチューブを50μMの鋳型ストックから独立して調製し、プライマーの一つの中に設計されたインデックスによって区別した（図１４参照）。熱サイクル（ProFlex PCR system; Themo Fisher Scientific Inc.）は、以下のように実施した：９８℃で２分の１サイクル；９８℃で１０秒、６０℃で１０秒、および６８℃で１分の４サイクル；９８℃で１０秒、６０℃で２秒、および６８℃で１分の１９サイクル；６８℃で５分の１サイクル；その後４℃でインキュベート。次いで、増幅産物を２回カラム精製した（DNA Clean & Concentrator^TM-5; Zymo Research Corp, CA, USA）し、増幅産物の長さ分布を2100 Bioanalyzer (Agilent Technologies, Inc., CA, USA)を用いて確認した。濃度をreal-time PCR system (7500; Themo Fisher Scientific Inc.)を使用してqPCR kit (KK4602; KAPA Biosystems, Inc., MA, USA)によって決定した。

シークエンシング
インデックス付加された２つのサンプル（CGCTCATT: インデックスA（index A）, GAGATTCC: インデックスB(index B)）を150 cycle kit v3 (Read 1: 100サイクル, Read 2: 50サイクル, Index 1: 8サイクル)を使用しMiSeq sequencer (Illumina, Inc.)を用いてシングルランでシークエンスした。Read 2中の配列はRead 1中の配列の一部なので、Read 2は分析には用いなかった。分析に使用した生のシークエンスデータをGEO database GSE94895に寄託した。

分析
Read 1の配列は、インデックスＡおよびＢによってソートし、各インデックスに対するfastqファイルをMiSeqを用いて生成した。いくつかの場合では、リードの１００％、３２％、１０％、３．２％、１％、０．３２％、および０．１％をランダムにサンプリングした。MiSeqのfastqファイルは、配列長によってフィルターをかけた（短い鋳型に対しては≧３４ｂｐ長かつ≦３９ｂｐ長、および長い鋳型に対しては≧９０ｂｐ長）。目的核酸配列に対するリードのアラインメントは、リファレンスとして１１種の鋳型の目的核酸配列を用い（図１３の「target」参照）、Bowtie2 v.2.2.9^２７を用いて長い鋳型（ＬＴ）および短い鋳型（ＳＴ）に対して個別に実施した。基本的に、固有にマップされたリードを次の分析に用いた。バーコード領域は、長い鋳型では５’末端から５０ｂｐであり、短い鋳型では５’末端から３０ｂｐであり（図１３の「barcode」参照）、これらをマップされたリードから抽出した。バーコード領域中の固定塩基（短い鋳型については最大で６塩基であり、長い鋳型については最大で１２塩基；図１３「barcode」参照）をフィルタリングのために用い、少なくとも１つの固定塩基のミスマッチを有するバーコードを除外した。その後、距離（Distance）=０、１、２、または３でバーコードをクラスタリングするためにインハウスソフトウエアNucleotide Sequence Clusterizerを用いた。クラスターの数は、増幅前の分子の数であると考えられた。インデックスのクロスコンタミネーションを考慮した場合には、クラスタリング前にインデックスＡおよびＢを伴うリードを統合した。後者において、多重にマップされたリードもその後の分析に用いた。そして、クラスタリングの後で、複数のインデックスを含むクラスターが存在した場合、少数派のリードを除外した。インデックスＡのリードとインデックスＢのリードの数が同じであった場合には、インデックスＡとインデックスＢの両方に対して０．５の係数を与えた。同様に、ミスアラインメントも考慮した場合には、インデックスＡおよびインデックスＢを有する鋳型にマップされた全てのリードをクラスタリング前に統合した。一つのリードが複数の鋳型に対してマップされたときには、各鋳型に対して１／（異なる鋳型の数）の係数を与えた。クラスタリングの後で、複数の目的核酸にマップされたリードおよび／またはインデックスを含むクラスターが存在した場合には、少数派のリードを除外した。異なる鋳型にマップされたリードおよび／またはインデックスの数が同じ場合には、複数にマップされた目的核酸および／またはインデックスのそれぞれに対して、１／（異なる鋳型および／またはインデックスの数）の係数を与えた。各プロセスにおけるリードの数は、図１５に示す通りである。

ヌクレオチド配列クラスタライザー（Nucleotide Sequence Clusterizer）
クラスタリングのために、「Nucleotide Sequence Clusterizer」と名付けたインハウスソフトウェアをC言語でコードした。このツールは、各配列の特定されたヌクレオチド位置を用いてDNA配列のクラスタリングを実施する。このツールは、有界単リンククラスタリングを実行する：最初に各配列はそれ自身のクラスターに存在する。任意の２つの配列がＤ個以下のミスマッチで互いに異なる場合、それらのクラスターを一緒に統合した。ここでＤは、設定可能な「距離（Distance）」パラメータである。このプロセスは、これ以上統合するクラスターが存在しなくなるまで継続し、この時点でNucleotide Sequence Clusterizerは、クラスター数と各クラスター内の配列を報告する。Nucleotide Sequence Clusterizerは、要求に応じて入手可能である。

本実施例では、ランダム塩基バーコードを用いた核酸のデジタルカウントシステムによってサンプル中に含まれるDNA分子の絶対数を正確に測定することができるかどうかを調べた。図１３に示すように、６種の長い鋳型（ＬＴ１～６）と５種の短い鋳型（ＳＴ１～５）の大きく２種類の鋳型ＤＮＡを設計した。

図１３に示すように、ＬＴ１～６の核酸分子を、５’末端から３’末端側に向けて、
配列番号１の配列 - バーコード配列 - 目的核酸配列 - 配列番号２の配列
となるように設計した。ＬＴ１～６のバーコード配列および目的核酸配列を配列番号５～１６に示す。
また、図１３に示すように、ＳＴ１～５の核酸分子を、５’末端から３’末端側に向けて、
配列番号３の配列 - バーコード配列 - 目的核酸配列 - 配列番号４の配列
となるように設計した。ＳＴ１～５のバーコード配列および目的核酸配列を配列番号１７～２６に示す。

これらの鋳型ＤＮＡはすべて、図１のパネルＡにおいて分子バーコード群として示されるランダム塩基バーコードを含み、長い鋳型は３８個のランダム塩基と１２個の固定塩基からなる５０塩基のバーコードの下流に５０塩基の目的核酸配列を有し、短い鋳型は、２４個のランダム塩基と６個の固定塩基からなる３０塩基のバーコードの下流に８塩基の目的核酸配列を有するものとした（図１３参照）。また、全ての鋳型は、ＰＣＲ増幅のために用いる５’末端および３’末端の両方の共通配列を含んだ（図１３および図１４参照）。本実施例では、モデル測定サンプルとして、それぞれ40000、40000、4000、300、100、および20コピーのＬＴ１、ＬＴ２、ＬＴ３、ＬＴ４、ＬＴ５、およびＬＴ６と、20000コピーのＳＴ１およびＳＴ２、並びに4000コピーのＳＴ３、ＳＴ４、およびＳＴ５を各々が含む、2つの同一サンプルを調製した。2つの異なるインデックス（インデックスＡおよびインデックスＢ）によって区別されたこれら2つのサンプル中のこれらの鋳型を増幅し、MiSeqを用いて増幅産物をシークエンスし、インデックスＡに対しては11,992,843リード、インデックスＢに対しては15,373,718リードを得た（図１５参照）。

本実施例では、インデックスＡおよびＢの配列を、増幅用リバースプライマー中に含めることにより、鋳型に対して付加した（図１４参照）。
インデックスＡの増幅用リバースプライマーの配列（図１４におけるＲｖｐｒｉｍｅｒ）：
CAAGCAGAAGACGGCATACGAGATAATGAGCGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (配列番号２８)
インデックスＢの増幅用リバースプライマーの配列（図１４におけるＲｖｐｒｉｍｅｒ２）：
CAAGCAGAAGACGGCATACGAGATGGAATCTCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (配列番号２９)
なお、上記配列番号２８の核酸配列において、下線部がインデックスＡの核酸配列に対応し、上記配列番号２９の核酸配列において、下線部がインデックスＢの核酸配列に対応する。

そして、インデックス（ＡおよびＢ）毎に全てのリードをMiSeqでソートし、ソートされたリードを目的核酸配列からなるリファレンスに対してマップし、シークエンスされたリード数（すなわち、増幅された分子数）をカウントする代わりに、固有のバーコードの数（またはバーコードクラスターの数）をカウントすることによってデジタル式に各々のインデックスおよび鋳型に対する分子の数を定量した。

次に、エラー存在下における正確なデジタル定量のための２つの要件（すなわち、サンプル中の所定の数の分子をカウントするためにバーコード中にいくつのランダム塩基が必要か、および、分子あたりのリード数（「カバー率」と定義される）がいくつ必要か）を調べた（図２および図８）。第１の要件に関して、各鋳型においてランダム塩基の数を計算機上で変更して（ＬＴに対しては４～３８塩基、およびＳＴに対しては４～２４塩基）、各々のソートされたインデックスおよび鋳型に対する固有のバーコード数を決定した（図２パネルＡおよび図８Ａ；グレーの線）。決定された固有のバーコードの数は、バーコード中のランダム塩基の数を増加させるにつれて劇的に増加した。このことは、所定の数の分子を定量するためには、ある最小の数のランダム塩基が必要であることを示唆するものである。（バーコードの長さを増加させることによって）可能なバーコード配列数を人為的に増加させたとしても、測定される元の目的核酸配列の数は、元のコピー数の20000を超えては増加しないはずであることから、プラトーが20000にあると予想した。しかしながら、より大きなランダム塩基数の領域において予想されたプラトーは観察されず、決定された固有のバーコードの数はランダム塩基の数が増加するにつれて単調に増加した。第２の要件に関して、リードの一部をランダムに除外することによってシークエンシングのカバー率を計算機上で変更し、そして各々のインデックスおよび鋳型に対して残りのリードを用いて固有のバーコードの数を決定した（図２のパネルＣおよび図８のパネルＣ；グレーの線）。もし、デジタルカウントのスキームが機能していれば、カバー率が十分なレベルに達すると、同定される固有のバーコードの数はカバー率（シークエンス深度）に依存しないはずであるため、プラトーがこれらのプロットにおいて観察されることになる。シークエンス深度（すなわち、各バーコードが読み取られる回数）を増加させたとしても、元の目的核酸配列の測定される数が元のコピー数の20000を超えて増加しないはずであるので、プラトーが20000にあると予想した。しかし、予想されたこのプラトーは観察されず、決定された固有のバーコードの数はカバー率が増加するにつれて単調に増加した。このことは、この条件でデジタルカウントシステムに改良が必要であることを示唆するものである。

これらの図（図２のパネルＡおよびパネルＣ、並びに図８のパネルＡおよびパネルＣ）でプラトーが観察されなかった理由は、実際のバーコード配列のインプットと比べて、最終的にシークエンスされたバーコードのアウトプットにおいて、塩基の変化、例えば、置換のエラーおよび挿入－欠失（indel）のエラーによって説明され得る。置換のエラー（おそらくシークエンスのエラーおよび／またはポリメラーゼ増幅のエラーによる）を除外するために、インハウスソフトウェアであるNucleotide Sequence Clusterizerを用いてバーコード配列をクラスタリングした。クラスタリングの手続において、「距離（Distance）」と呼ぶパラメータを導入した：ここで、Distanceは、所定の２つのバーコード配列間で相違する塩基の数を示す。例えば、あるバーコード配列が別のバーコード配列と、いずれか２つの位置での２つの塩基変化を除けば正確に同一となる場合、これら２つのバーコード配列間のDistanceは２である。それゆえ、パラメータとしてDistance=2でクラスタリングした後には、ある所定のクラスターにおける全てのバーコード配列は、そのクラスター中の少なくとも１つの他のバーコード配列からDistance=2以内である（クラスターに含まれる任意の分子が、必ずしも他の全ての配列からDistance=2以内というわけではない）。本質的には、クラスタリングなしで固有のバーコードの数をカウントするための元の分析は、Distance=0でクラスタリングすることによって実施されたと言える。Distance = 0、1、2、または3でバーコードクラスターの数を決定した（図３のパネルＡおよび図９のパネルＡ参照）。所定の分子数に対して十分に多様な種類のバーコードが存在するならばバーコードクラスターの数はDistanceが増加するにつれて一定値に近づくことが予想され、実際にその傾向が観察された。正確なデジタル定量のための２つの要件に対するクラスタリングの効果を観察するために、実施した最も長いDistance（Distance = 3）でのクラスタリングを用いることによって、決定されたバーコードクラスターの数をランダム塩基の数（図２のパネルＡおよび図８のパネルＡの青の線を参照）とカバー率（図２のパネルＣおよび図８のパネルＣの青の線を参照）の関数としてプロットした。いずれのプロットに関しても、よりプラトー様の曲線が観察されたが、特にカバー率が増加するにつれて、決定されたバーコードクラスターの数は依然として単調に増加した。

次に、シークエンスされたリードのうちバーコード配列の固定塩基の位置にミスマッチ塩基を含むリードを除外することによって挿入－欠失（indel）型のエラーの影響を除外することを試みた（図１３参照）。もし、バーコード配列アウトプットが、これらの固定塩基の位置のいずれかにミスマッチ塩基を含んでいたならば、固定塩基の位置によって規定される指定の「リーディングフレーム」からの残りの塩基のずれを引き起こす、バーコード配列中の別の位置での塩基の挿入または欠失が分かった。デジタルカウントシステムに対するこのプロセスの効果を調べるために、バーコード配列中の固定塩基の位置依存性を調べた。この除外手順のために１つの固定塩基を用いたときのバーコードクラスターの数を決定した（図３のパネルＢおよび図９のパネルＢ参照）。固定塩基の位置がシークエンスプライマー部位から離れるにつれてバーコードクラスターの数が減少した。固定塩基のミスマッチは、シークエンス開始部位と固定塩基の位置との間で生じるindel型の配列変化を検出し得るものであるため、このことは合理的である。また、決定されたバーコードクラスターの数に対する固定塩基の数の依存性を分析した。この際には、シークエンスプライマー部位から最も遠い位置にある固定塩基を用いた（図３のパネルＣおよび図９のパネルＣ参照）。用いた固定塩基の数が小さいときには、決定されたバーコードクラスターの数は有意に減少し、用いた固定塩基の数が増加するにつれて、決定されたバーコードクラスターの数はほぼ一定になった。正確なデジタル定量のための上記２つの要件に対するミスマッチ除外の効果を観察するために、ランダム塩基の数（図２のパネルＡおよび図８のパネルＡ；緑の線）およびカバー率（図２のパネルＣおよび図８のパネルＣ；緑の線）の関数として、決定されたバーコードクラスターの数をプロットした。使用した中で最も多い固定塩基数（短い鋳型については６塩基、長い鋳型については１２塩基）を用いてミスマッチ除外プロセスを実施した。その結果、いずれのプロットについても（図２のパネルＡおよびＣ、図８のパネルＡおよびＣ）、プラトー様の曲線が見られ、このことは固定塩基を用いたindel型エラー除外がデジタル定量をより正確なものにしたことを示す。

別の問題として、サンプル間のクロスコンタミネーションが生じることを見出した。これは図２のパネルＣおよび図８のパネルＣの緑の線におけるプラトー様の相において、観察されるクラスターの数のわずかな増加を引き起こしていると考えられる。ＰＣＲの間に増幅プライマーによって異なるインデックス（インデックスＡおよびインデックスＢ）によって２つのサンプルをそれぞれ標識して、２つの別々のチューブ中でＰＣＲによって増幅した２つのサンプルを同時にシークエンスした。インデックスＡおよびインデックスＢの両方を用いてバーコードをクラスタリングしたときに、両方のインデックスを含むバーコードクラスターの小さな画分を見出した。これは、Jaitinらによっても報告されている^５。ＰＣＲ増幅用のバーコード付加された鋳型は元の鋳型プールからランダムに選択されたものであるため、これはクロスコンタミネーション無しで生じた可能性はある。しかし、短い鋳型の場合であってもバーコード配列の種類は、理論上２．８×１０^１４（＝４^２４）存在することから、完全に同一のバーコードを有する元の鋳型が２つの増幅チューブに添加される可能性は非常に小さいと考えられる。従って、特定のインデックスを含むＰＣＲプライマーがチューブに混入したか、インデックス配列がエラーを有していたか、そして／または、シークエンス工程においてインデックススイッチング（index switching）が生じたかのいずれかが考えられた（Sinha, R. et al., biorxiv, 10.1101/125724 (2017)）。この影響を除くために、まず、各鋳型について２つのインデックスにソートされた全てのリードを混合し、これらの混合されたリードに対してクラスタリングを実施した。一つのバーコードクラスターの中に複数のインデックス（この場合、２つのインデックス）が見出された場合、シークエンスされたリードのうち最も数の多いリードを含むインデックスを有するとしてバーコードクラスターをカウントした。このプロセスを用いて、決定されたクラスター数がカバー率の関数としてプラトーを示すことを最終的に見出した（図２のパネルＣおよび図８のパネルＣの黄色の線を参照）。重要なことに、上記図２のパネルＣおよび図８のパネルＣの青の線では、カバー率が上昇すると決定されるクラスター数が微小に上昇するようすが認められたが、インデックススイッチングの影響を除外する上記プロセスによって、クラスター数は、カバー率が上昇してもプラトーを示した。

同一のバーコード配列が両方のインデックスに使われることは無いと考えられることから、正確なデジタル定量のための第１の要件を確認するために、インデックスＡとＢとの合計について、決定されたクラスターの数をプロットした（図２のパネルＢおよび図８のパネルＢの黄色の線を参照）。依然としてプラトーが存在したことから、用いられたランダム塩基の数は、正確なデジタル定量を実施するための許容可能な範囲内であった。

上記の実施例は、複数のサンプルを混合して解析する際に生じ得る、「インデックススイッチング（index switching）」が、バーコードクラスタリングの精度に影響を与えること、およびインデックススイッチング（ミスインデックス）の除外プロセスが、精度の改善し、カバー率によって精度が影響を受けないデジタル定量システムを可能とすることを示すものである。

サンプル間のクロスコンタミネーションが見出されたので、次いで、リファレンスに対するリードのマッピングプロセスにおける誤同定について調べた。インデックスの問題に関して行ったのと同様のプロセスに従った。ここで、２つのインデックスにソートされ、そしていずれかの鋳型に対してマップされた全リードを混合し、その後、混合されたリードに対してクラスタリングを実行した。次に、一つのバーコードクラスター内に複数の鋳型および／または複数のインデックスが見出されたときには、シークエンスしたリードの中で最も高いリード数を示した鋳型およびインデックスに対するバーコードクラスターをカウントした。しかし、このプロセスを通して、カバー率の関数としての決定されたクラスターの数には有意差は観察されなかった（図２のパネルＣおよび図８のパネルＣの赤の点線を参照）。このことにより、この系では、誤同定はさほど頻繁には生じないことが示唆された。同一のバーコード配列が両方のインデックスおよび全ての鋳型に用いられることはないと考えられることから、正確なデジタル定量のための第１の要件を確認するために、インデックスＡ、インデックスＢおよび全ての鋳型の合計について、決定されたクラスターの数をプロットした（図２のパネルＢおよび図８のパネルＢの赤の点線を参照）。依然としてプラトーが存在したことから、用いられたランダム塩基の数は、鋳型の誤同定（misidentification）を説明するときでさえ、正確なデジタルカウントを実施するための許容可能な範囲内であった。本実施例では、誤同定の影響は少なかったが、このプロセスは、より大量のリファレンスが用いられる分析（例えば、RNA-Seq）においては重要になる。これは、このような分析においては、誤同定はより頻繁に生じ得るからである。

上記分析プロセスにおいて生じていることをさらに理解するために、各プロセスに対してカバー率のヒストグラムを作成した（図１０）。固有のバーコードの数をカウントした（上記のいずれの処理もなしで）ヒストグラムは、主に低リードクラスターを含む大きなピークを有した。これらの低リードクラスターは、このデジタルカウント法によって測定すると、目的核酸配列のアウトプットコピー数を人工的に増加させ（シークエンスエラー、indelエラーなどに起因する元のサンプルには存在しない人工的に生じたバーコード配列による）、システムがより正確な定量を行うためにはこれを除外しなければならない（上記２つの要件）。最初の２つの処理工程の後にこのピークは劇的に減少したが、このことは、主にシークエンスエラーによって生成されたバーコード配列はこれらの処理工程によって除外されたことを示唆するものである。

４つの具体的鋳型（ＳＴ１、ＳＴ２、ＬＴ１およびＬＴ２）を用いた場合に、上記のバーコード設計およびコンピューター分析が、正確なデジタルカウントのための２つの前記要件を満たすことが示された（図２のパネルＡ～Ｃおよび図８のパネルＡ～Ｃ参照）。次に、パラメータを至適化し、そして２０～４００００の広い範囲のコピー数を含む全ての鋳型についてこれらの分析を適用した。パラメータとしてDistance=2である場合に決定されるクラスターの数が一定値に既に近づいていたので（図３のパネルＡおよび図９のパネルＡ参照）、以後の分析ではDistance=2を用いた。固定塩基の数に関しては、固定塩基の数が4であるときに、決定されるクラスターの数が一定値に近づいていたので（図３のパネルＣおよび図９のパネルＣ参照）、固定塩基の数を4とした（全ての鋳型について、左から16番目、21番目、24番目および28番目が固定塩基であるバーコード（図１３）を用いた）。インデックスのクロスコンタミネーションと鋳型の誤同定も考慮した。上記の定量分析および洞察の全てを利用し、本発明のデジタルカウントスキームを使用して目的核酸分子を正確に定量することができると考えられる。これらの条件に基づいて、全ての鋳型について２つの要件を調べ、このデジタルカウントシステムのダイナミックレンジを決定した（図４のパネルＡ、パネルＢおよび図１１参照）。カバー率依存性に関しては、クラスタリングのために２０個のランダム塩基を用い（図４のパネルＡおよび図１１）、ランダム塩基数への依存性については、元の総リード数の１０％を分析に用いることとした（図４のパネルＢ）。なぜなら、４つの元の鋳型についてのこれまでの初期的な分析に基づけば、両方のパラメータが依然として機能するはずであると考えられたからである（図２のパネルＡ、図２のパネルＣ、図８のパネルＡおよび図８のパネルＣ）。分析用にリードの１００％未満を用いる場合には、リードをランダムに選択し、このプロセスを８回繰り返すことによって平均と標準偏差を求めた（図４Ａ～４Ｃおよび図１１）。図４Ａ～４Ｃおよび図１１に示されるように、ランダム塩基の数およびカバー率の関数としてのプロットにおいて、全ての鋳型についてプラトーが存在した。このことにより、選択したパラメータによって、広い範囲のコピー数の鋳型について正確なデジタル定量が可能になることが示唆された。

図４のパネルＡおよび図１１における決定されたバーコードの数が、１２．６～２０．９のカバー率で（リードの１０％をサンプリングした場合）、ＰＣＲ増幅前のサンプルチューブに含まれていた鋳型の数と対応していた。これらの値を用いて、光学密度により決定される分子のインプット数と、本発明のデジタルカウント法で決定される分子のアウトプット数とを比較した（図４のパネルＣ参照）。その結果、インプット分子数の値とアウトプット分子数の値とは高い相関を示した（ピアソンの積率相関係数r = 0.990）。このアウトプット／インプットの比は、長い鋳型（ＬＴ）については、0.32～0.45の範囲であり、短い鋳型（ＳＴ）については、0.41～0.57であり、実験誤差によって説明され得る（例えば、ＰＣＲ増幅のための準備における（高々）７段階の鋳型希釈における統計誤差）。このことから、本実施例で提示されたパラメータに基づくデジタルカウントスキームによってＰＣＲ増幅前の核酸分子の絶対コピー数を定量することができることが示唆される。

これらの結果に基づいて、エラーの存在下で分子の絶対数をカウントするためのランダム塩基の必要数を提示することができる（図５のパネルＡ参照）。ｘ軸は測定しようとする分子のインプット数を示し、ｙ軸は図４のパネルＢおよび図５のパネルＢにおける各々の曲線が０．９５の相対的クラスター数に達するときのランダム塩基の数を示す。図５のパネルＢは、図４のパネルＢでなされたようにランダム塩基の数に対する相対的クラスター数の依存性を示すものであるが、各鋳型に対して誤同定の除外プロセス（クラスター数に対して有意な効果を有しなかった）を行わなかった。所定の分子数のより低い範囲におけるより多くのデータを示すために図５のパネルＡにおけるこれらのデータを含め、そして、例えば、９５％を超える精度で約１０^５個の分子を定量するためには、少なくとも１６個のランダム塩基が必要となることが分かった。

実験的に、高々84,420個の分子（インプットした全ＬＴの数）が、20個のランダム塩基を用いて正確に定量されたことが示された（図４のパネルＢ）。この数は、例えば、トランスクリプトーム解析において個々の遺伝子に対するＲＮＡ分子の数をカウントするに十分であると考えられる。実際には、測定可能な分子数は、MiSeqシークエンサーのキャパシティによって制限を受ける。
最大で３８個のランダム塩基を使用し、所定の分子数に依存して必要とされるランダム塩基の数（図１２参照）により、実験的に測定されたデータセットへの単純線形回帰に基づけば、約１０^１５個の分子が本発明の測定システムで定量され得ることが示唆される。このダイナミックレンジは、市販のディープシークエンサーの現在のキャパシティを遙かに超える優れたものである。これにより、広いダイナミックレンジを備えた定量分析のボトルネックは、もはやバーコードの設計によっては制限されず、むしろシークエンスのスループットによって制限される。

上記のように本実施例では、ランダム塩基と固定塩基とを含むバイブリッド型の分子バーコードを設計して使用するデジタルカウントを実施し、所定のサンプル中の分子の数を定量できることを示した。ここで、適切なバーコードの設計、十分なシークエンス深度、適切なパラメータでの分析方法が用いられる。これにより、広く高いダイナミックレンジでかつ低コストで核酸分子の数を測定することが可能となる。この結果に基づいて、エラーの存在下で所定のバーコード分子の数をカウントするために必要なランダム塩基と固定塩基の数を示唆することができる（図５のパネルＡおよび図１２）。本実施例ではまた、分子バーコードの更なる機能的な利点を定量的に示した。すなわち、分子バーコードを、サンプルのクロスコンタミネーション（プライマーの物理的混入、インデックスにおけるエラー、および／またはシークエンスプロセスにおけるインデックススイッチングによって引き起こされる）の同定や、アラインメントプロセスにおける目的核酸配列の誤同定に利用した。実際、上記の通り、前者は、次世代シークエンサープラットフォームにおける報告されている重大な問題を解決し得るものである^{２３，２４}。エラーの影響はライブラリーの調製および／またはシークエンスプラットフォームに依存し得るものであるが、ランダム塩基バーコードの有効性が一般的な応用において示されており、そしてここで示したバーコード使用の検証のためのストラテジーは、様々なプラットフォームに適用可能である。さらに、バーコード付加された分子に対するランダム塩基バーコードの有効性を示したので、応用毎に異なり得る当業者であればバーコード付加の効果または有効性を評価することができる。本発明は、遺伝子発現解析、ｉＣＬＩＰ^８、抗体レパトワ解析^９、細菌１６ＳｒＲＮＡ遺伝子解析^{１０，１１}、ＣｈＩＰ－ｎｅｘｕｓ^１２における分子のカウントだけでなく、細胞^{９，２５，２６}、ウイルス^１、およびバーコードを使用する他の応用用途のための、分子バーコードを使用する核酸定量のデジタルカウント法に広く用いることができる。近年、Single Cell Sequencing Solution (Illumina, Inc., CA, USおよびBio-Rad Laboratories, Inc., CA, USA)や、Chromium Single Cell 3’ Solution (10x Genomics, Inc. CA, USA)などの市販の装置を用いてこれらの応用を行い得る。実験的に得られた大量の定量的データに基づいてシステムバイオロジーが促進されると考える。

配列表の内容
配列番号１：ＬＴ１～６の５’領域の塩基配列
配列番号２：ＬＴ１～６の３’領域の塩基配列
配列番号３：ＳＴ１～５の５’領域の塩基配列
配列番号４：ＳＴ１～５の３’領域の塩基配列
配列番号５：ＬＴ１のバーコード配列
配列番号６：ＬＴ１の目的核酸配列
配列番号７：ＬＴ２のバーコード配列
配列番号８：ＬＴ２の目的核酸配列
配列番号９：ＬＴ３のバーコード配列
配列番号１０：ＬＴ３の目的核酸配列
配列番号１１：ＬＴ４のバーコード配列
配列番号１２：ＬＴ４の目的核酸配列
配列番号１３：ＬＴ５のバーコード配列
配列番号１４：ＬＴ５の目的核酸配列
配列番号１５：ＬＴ６のバーコード配列
配列番号１６：ＬＴ６の目的核酸配列
配列番号１７：ＳＴ１のバーコード配列
配列番号１８：ＳＴ１の目的核酸配列
配列番号１９：ＳＴ２のバーコード配列
配列番号２０：ＳＴ２の目的核酸配列
配列番号２１：ＳＴ３のバーコード配列
配列番号２２：ＳＴ３の目的核酸配列
配列番号２３：ＳＴ４のバーコード配列
配列番号２４：ＳＴ４の目的核酸配列
配列番号２５：ＳＴ５のバーコード配列
配列番号２６：ＳＴ５の目的核酸配列
配列番号２７：増幅用フォワードプライマーの配列
配列番号２８：増幅用リバースプライマーの配列（インデックスＡ用）
配列番号２９：増幅用リバースプライマーの配列（インデックスＢ用）

参考文献

Claims

核酸の解析方法であって：
（Ｉ）分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、ここで、分子バーコードは各目的核酸分子に対して１分子毎に異なる固有の配列を有し、
（ＩＩ）上記（Ｉ）で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び／又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
（ＩＩＩ）上記（ＩＩ）で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法。
少なくとも分子バーコードが付加された目的核酸分子が、工程（Ｉ）の前に増幅に供されている、請求項１に記載の方法。
工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、請求項１または２に記載の方法。
分子バーコードが、特定の位置に固定塩基を有する、請求項１～３のいずれか１項に記載の方法。
工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および／または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、請求項４に記載の方法。
当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含む、請求項４に記載の方法。
工程（ＩＩＩ）において、決定された正しいペア以外のインデックスと分子バーコードのペアを、インデックスと分子バーコードのミスペアと決定して除外する、
請求項１～５のいずれか１項に記載の方法。
特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、請求項１～７のいずれか１項に記載の方法。
核酸の解析方法であって：
（Ｉ）特定の位置に固定塩基を有し、１分子毎に異なる固有の配列を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
（ＩＩ）上記（Ｉ）で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法。
工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、請求項９に記載の方法。
工程（ＩＩ）における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および／または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、請求項９または１０に記載の方法。
当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程をさらに含む、請求項９または１０に記載の方法。
特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、請求項９～１２のいずれか一項に記載の方法。
少なくとも分子バーコードが付加された目的核酸分子が、工程（Ｉ）の前に増幅に供されている、請求項９～１３のいずれか一項に記載の方法。
核酸の解析方法であって：
（Ｉ）特定の位置に固定塩基を有し、１分子毎に異なる固有の配列を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
（ＩＩａ）当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程；
（ＩＩｂ）工程（Ｉ）において、若しくは、工程（Ｉ）の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得る工程；または
（ＩＩｃ）工程（ＩＩ）として上記（Ｉ）で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程をさらに含み、かつ工程（ＩＩ）において、若しくは工程（ＩＩ）の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得る工程と、
を含む、方法。