JP2023521687A

JP2023521687A - 浮動バーコード

Info

Publication number: JP2023521687A
Application number: JP2022560907A
Authority: JP
Inventors: ジョンエフ．トンプソン，
Original assignee: パーソナルゲノムダイアグノスティクスインコーポレイテッド
Priority date: 2020-04-07
Filing date: 2021-04-06
Publication date: 2023-05-25
Also published as: KR20220164753A; US20230151356A1; CA3176915A1; AU2021251780A1; WO2021207267A1; MX2022012594A; BR112022020164A2; GB2609801A; GB202215530D0; EP4133110A1; CN115698339A

Abstract

一実施形態では、本発明は、試料中の核酸分子を標識するためのシステムであって、複数のバーコードを含むオリゴヌクレオチドのセットを含み、各バーコードが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、（ｉｉ）試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含む、連続した塩基のストレッチを含み、試料インデックス位置が分子インデックス位置の間に散在している、システムを提供する。

Description

関連出願への相互参照
本願は、２０２０年４月７日に出願した米国特許仮出願第６３／００６，５５６号に基づく優先権の利益を米国特許法第１１９条（ｅ）項に基づいて請求するものである。この先行出願の開示は、本願の開示の一部と見なされ、本願の開示に参考として援用される。

配列表の組み込み
添付の配列表内の物質は、これにより参照により本願に組み込まれる。ＰＧＤＸ３１２０－１ＷＯ＿ＳＬ．ｔｘｔという名の、添付の配列表のテキストファイルは、２０２１年３月３１日に作成したものであり、１１ｋｂである。このファイルには、Ｗｉｎｄｏｗｓ（登録商標）ＯＳを使用するコンピュータでＭｉｃｒｏｓｏｆｔＷｏｒｄを使用してアクセスすることができる。

本発明の発明分野の背景
本発明は、一般には、核酸配列に、より具体的には、核酸分子を標識および解析するための、バーコードと呼ばれる配列に関する。

背景情報
バーコードは、シークエンシングされるＤＮＡまたはＲＮＡ分子などの核酸に、それらの供給源を特定するためのタグを付けるために、多くの場合、使用される。バーコードは、ＤＮＡまたはＲＮＡ分子の試料、細胞または他の起源を示すために使用され得る。バーコードは、分子がどこから得られたのか、および特定の分子が増幅のためにプール内で何度もシークエンシングされた可能性があるかどうかについての情報を提供することができる。多くの場合、試料および分子の起源などの多数の情報が、所望される。確実に正しい配列を有し、供給源の誤った割り当てを確実に回避する、十分な数のバーコードおよび／またはバーコードのリードを生成することは、供給源が複雑であるほど難題である。具体的に言うと、バーコードの不十分な数、および複雑なバーコードにおける配列エラーの修正の困難が、例えば、プールされた試料からの核酸などの、核酸分子のゲノム解析を制限する。それ故、バーコード配列の不確実性の結果として生じる配列リードの正しくない割り当ておよび喪失を最小限に抑えるような核酸の多重ゲノム解析および改善されたエラー修正を可能にする、核酸をバーコーディングする新規システムおよび方法が必要とされている。

発明の概要
本発明は、所定数のインデックス位置を有するインデックス「バーコード」を含む、核酸分子を標識および解析するためのシステムおよびオリゴヌクレオチドのセットに関する。核酸分子を標識および解析するための方法も提供される。

一実施形態では、本発明は、試料中の核酸分子を標識するためのシステムであって、複数のバーコードを含むオリゴヌクレオチドのセットを含み、各バーコードが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、（ｉｉ）試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含む、連続した塩基のストレッチを含み、試料インデックス位置が分子インデックス位置の間に散在している、システムを提供する。一態様では、所定数の試料バーコード位置は、本明細書で提供される核酸を標識するためのシステム内の異なる試料バーコード間で変動し得る。一部の態様では、バーコードは、約１０～約３５のヌクレオチドを含む。他の態様では、バーコードは、約１２～約２５のヌクレオチドを含む。別の態様では、試料バーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９もしくは２０カ所の試料インデックス位置、またはこれらの組合せを含む。一部の態様では、試料バーコードは、約４～約１２カ所の試料インデックス位置を含む。他の態様では、分子バーコードは、約５～約２５カ所の分子インデックス位置を含む。様々な態様では、分子バーコードは、約５～約１５カ所の分子インデックス位置を含む。一態様では、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドは、以下から選択される：（Ａ）試料インデックス位置ヌクレオチドが、Ａであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；（Ｂ）試料インデックス位置ヌクレオチドが、Ｔであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；（Ｃ）試料インデックス位置ヌクレオチドが、Ｃであり、分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｄ）試料インデックス位置ヌクレオチドが、Ｇであり、分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｅ）試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；（Ｆ）試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；（Ｇ）試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；（Ｈ）試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；（Ｉ）試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または（Ｊ）試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである。一部の態様では、各バーコードは、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含む。多くの態様では、１つまたは複数の追加のインデックスバーコードは、細胞バーコードであるか、非修復末端のＤＮＡ長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のＤＮＡ長の尺度を提供するバーコードの両方である。他の態様では、オリゴヌクレオチドのセット内の各オリゴヌクレオチドは、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む。

別の実施形態では、本発明は、複数のバーコードを含む試料中の核酸分子を標識するためのオリゴヌクレオチドのセットであって、各バーコードが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、（ｉｉ）試料インデックス位置のヌクレオチドと異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、オリゴヌクレオチドのセットを提供する。一態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。一部の態様では、バーコードは、約１０～約３５のヌクレオチドを含む。他の態様では、バーコードは、約１２～約２５のヌクレオチドを含む。別の態様では、試料バーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９もしくは２０カ所の試料インデックス位置、またはこれらの組合せを含む。一部の態様では、試料バーコードは、約４～約１２カ所の試料インデックス位置を含む。一態様では、分子バーコードは、約５～約２５カ所の分子インデックス位置を含む。一部の態様では、分子バーコードは、約５～約１５カ所の分子インデックス位置を含む。他の態様では、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドは、以下から選択される：（Ａ）試料インデックス位置ヌクレオチドが、Ａであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；（Ｂ）試料インデックス位置ヌクレオチドが、Ｔであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；（Ｃ）試料インデックス位置ヌクレオチドが、Ｃであり、分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｄ）試料インデックス位置ヌクレオチドが、Ｇであり、分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｅ）試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；（Ｆ）試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；（Ｇ）試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；（Ｈ）試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；（Ｉ）試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または（Ｊ）試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである。一部の態様では、各バーコードは、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含む。多くの態様では、１つまたは複数の追加のインデックスバーコードは、細胞バーコードであるか、非修復末端のＤＮＡ長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のＤＮＡ長の尺度を提供するバーコードの両方である。一部の態様では、オリゴヌクレオチドのセット内の各オリゴヌクレオチドは、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む。

さらなる実施形態では、本発明は、試料中の核酸分子の配列を解析するための方法であって、（ａ）複数のオリゴヌクレオチドを核酸分子に付着させるステップであって、各オリゴヌクレオチドが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコード、および（ｉｉ）試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードを含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ；および（ｂ）核酸分子をシークエンシングするステップであって、配列リードがバーコード配列を含む、ステップを含む方法を提供する。一態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、同じ試料バーコードを含むオリゴヌクレオチドを、試料中の核酸分子の各末端に付着させるステップをさらに含むことができる。別の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。一部の態様では、バーコードは、約１０～約３５のヌクレオチドを含む。他の態様では、バーコードは、約１２～約２５のヌクレオチドを含む。一部の態様では、試料バーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９もしくは２０カ所の試料インデックス位置、またはこれらの組合せを含む。他の態様では、試料バーコードは、約４～約１２カ所の試料インデックス位置を含む。一態様では、分子バーコードは、約５～約２５カ所の分子インデックス位置を含む。一部の態様では、分子バーコードは、約５～約１５カ所の分子インデックス位置を含む。一態様では、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドは、以下から選択される：（Ａ）試料インデックス位置ヌクレオチドが、Ａであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；（Ｂ）試料インデックス位置ヌクレオチドが、Ｔであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；（Ｃ）試料インデックス位置ヌクレオチドが、Ｃであり、分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｄ）試料インデックス位置ヌクレオチドが、Ｇであり、分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｅ）試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；（Ｆ）試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；（Ｇ）試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；（Ｈ）試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；（Ｉ）試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または（Ｊ）試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである。他の態様では、各バーコードは、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含む。一部の態様では、１つまたは複数の追加のインデックスバーコードは、細胞バーコードであるか、非修復末端のＤＮＡ長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のＤＮＡ長の尺度を提供するバーコードの両方である。一部の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードを、試料インデックス位置の場所に基づいて試料ファミリーに割り当てるステップをさらに含む。他の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードを、分子インデックス位置の場所および各分子インデック位置のヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む。一部の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードにおける試料インデックス位置の数および場所を試料インデックス位置の所定数および場所と比較することによりシークエンシングエラーを修正するステップをさらに含む。他の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードの両末端の試料バーコードを比較することによりシークエンシングエラーを修正するステップをさらに含む。一部の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードの各末端の非同一試料バーコードを許容される試料バーコードと比較するための規則を適用するステップをさらに含む。他の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、（１）バーコード内のエラーを修正するための、（２）核酸分子の各末端のバーコード間のエラーを修正するための、（３）配列リードを試料ファミリーに多重分離するための、（４）配列リードを分子ファミリーに割り当てるための、またはこれらの任意の組合せのための、１つまたは複数の規則を適用するステップをさらに含む。一部の態様では、各オリゴヌクレオチドは、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む。他の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードの誤った割り当てを高感度に検出するための、各オリゴヌクレオチドが試験される異なるゲノムの使用をさらに含む。一部の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、多重分離せずに核酸配列データを格納するステップをさらに含む。

一実施形態では、本発明は、試料中の核酸分子を標識するための方法であって、複数のオリゴヌクレオチドを、バーコードを含む核酸分子に付着させるステップを含み、各バーコードが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、（ｉｉ）試料インデックス位置のヌクレオチドと異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、方法を提供する。一態様では、本明細書で提供される試料中の核酸分子を標識するための方法は、同じ試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップをさらに含むことができる。一部の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。他の態様では、バーコードは、約１０～約３５のヌクレオチドを含む。様々な態様では、バーコードは、約１２～約２５のヌクレオチドを含む。一部の態様では、試料バーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９または２０カ所の試料インデックス位置を含む。他の態様では、試料バーコードは、約４～約１２カ所の試料インデックス位置を含む。様々な態様では、分子バーコードは、約５～約２５カ所の分子インデックス位置を含む。一部の態様では、分子バーコードは、約５～約１５カ所の分子インデックス位置を含む。一態様では、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドは、以下から選択される：（Ａ）試料インデックス位置ヌクレオチドが、Ａであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；（Ｂ）試料インデックス位置ヌクレオチドが、Ｔであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；（Ｃ）試料インデックス位置ヌクレオチドが、Ｃであり、分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｄ）試料インデックス位置ヌクレオチドが、Ｇであり、分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｅ）試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；（Ｆ）試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；（Ｇ）試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；（Ｈ）試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；（Ｉ）試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または（Ｊ）試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである。一部の態様では、各バーコードは、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含む。様々な態様では、１つまたは複数の追加のバーコードは、細胞バーコードであるか、非修復末端のＤＮＡ長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のＤＮＡ長の尺度を提供するバーコードの両方である。一部の態様では、各オリゴヌクレオチドは、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む。他の態様では、本明細書で提供される試料中の核酸分子を標識するための方法は、標識された核酸分子をシークエンシングするステップをさらに含むことができる。一部の態様では、標識された核酸分子をシークエンシングするステップは、多重分離せずに核酸配列データを格納することをさらに含む。様々な態様では、多重分離せずに核酸配列データを格納することにより、多重分離キーの非存在下での配列データの使用が防止され、データの不正使用が防止される。

別の実施形態では、本発明は、誤った配列リードを特定するための方法であって、（ａ）複数のオリゴヌクレオチドを試料の核酸分子に付着させるステップであって、各オリゴヌクレオチドが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が、試料間で変動し、同じ試料バーコードが、試料中の核酸分子の各末端に付着されている、試料バーコード、および（ｉｉ）試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードを含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ；および（ｂ）核酸分子をシークエンシングするステップであって、配列リードがバーコード配列を含む、ステップを含み、それによって、誤った配列リードを特定する方法を提供する。

一態様では、誤った配列リードを特定することは、一致しない試料バーコードを有する核酸分子を特定することを含む。一部の態様では、シークエンシングエラーは、配列リードの両末端の試料バーコードを比較することにより、さらに修正される。他の態様では、一致しない試料バーコードを有する核酸分子は、さらに、配列リードからおよび／または分子ファミリーから除去される。別の態様では、一致しない試料バーコードを有する核酸分子を特定することは、ミスプライミングされた核酸分子を特定することを含む。一部の態様では、ミスプライミングされた核酸分子は、適切なバーコードで修正され、配列品質を向上させるために使用される。他の態様では、修正されたバーコードを有する核酸分子は、修正されたリードファミリーに割り当てられる。様々な態様では、修正されたリードファミリーは、明確に異なるカバレッジを正確に決定するために使用される。一部の態様では、明確に異なるカバレッジの決定は、核酸分子のライブラリーを評価するために使用される。一態様では、方法は、配列リードを、分子インデックス位置の場所および各分子インデック位置のヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む。一部の態様では、誤った配列リードを特定することは、複数の分子ファミリーに割り当てられた核酸分子を特定することを含む。他の態様では、複数の分子ファミリーに割り当てられた核酸分子は、配列リードからおよび／または分子ファミリーからさらに除去される。

図１は、３つの浮動ＤＮＡバーコードに対する旧来の製品バーコードの比較を示す。

図２Ａは、７／１４基準を使用するデジタル形式での１６の試料バーコードを示す。

図２Ｂは、デジタル形式からヌクレオチド形式への変換、７／１４基準を示す。

図２Ｃは、単一試料バーコードの縮重配列から実際の配列への変換、７／２０ｂｐ形式を示す。

図３Ａは、標準バーコードを示す。

図３Ｂは、浮動バーコードを示す。

図４は、標準バーコードでのアーチファクトのキメラ分子の生成を示す。

図５は、ヒト配列リードの標準バーコード（左側）および浮動バーコード（右側）へのアラインメントを示す。

図６は、ライゲーションステップにおけるアダプターの存在量に基づくミスプライミングのレベルを示す。

図７は、アダプター濃度に基づくミスプライミング率の比ｉ７：ｉ５を示す。

図８は、分子バーコード配列反復の頻度を示す。

発明の詳細な説明
本発明は、配列ではなくヌクレオチドの場所に基づくバーコードを使用して核酸分子および配列リードを特定し、グループ化することができるという発見に基づく。

配列に基づくのではなくヌクレオチドの場所に基づくバーコードは、例えば、１つのインデックスのために比較的少数のバーコードおよび別のインデックスのために非常に多数のバーコードを、またはバーコードごとに２つもしくはそれより多くのインデックスのために多数のバーコードを生成することができるという柔軟性を可能にする。加えて、所定のインデックス位置を有するバーコードによって、エラー修正方法の改善が可能となる。

核酸を標識するためのシステムおよびオリゴヌクレオチドのセット

一実施形態では、本発明は、試料中の核酸分子を標識するためのシステムであって、複数のバーコードを含むオリゴヌクレオチドのセットを含み、各バーコードが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、（ｉｉ）試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含む、連続した塩基のストレッチを含み、分子インデックス位置が試料インデックス位置の間に散在している、システムを提供する。

試料中の核酸分子を標識するためのシステムは、オリゴヌクレオチドのセットを含む。本明細書で使用される場合、「オリゴヌクレオチドのセット」は、一緒に使用することができるオリゴヌクレオチドのグループまたは集まりを意味する。したがって、本明細書で提供される試料中の核酸分子を標識するためのシステム内のオリゴヌクレオチドのセットを、核酸を標識するために一緒に使用することができる。オリゴヌクレオチドのセットのサブセットを、試料中の核酸分子を標識するためのシステム内で使用することもできる。本明細書で使用される場合、「オリゴヌクレオチドのサブセット」は、試料中の核酸を標識するためのオリゴヌクレオチドのセット内のオリゴヌクレオチドのほんの一部分または一部を指す。したがって、オリゴヌクレオチドのセットに含まれるオリゴヌクレオチドの全てまたは一部を、試料中の核酸を標識するために使用することができる。

本明細書で使用される場合、「核酸分子を標識すること」は、例えば、検出、特定、解析または精製のために核酸分子を修飾することを意味する。一部の態様では、核酸は、１つまたは複数のオリゴヌクレオチドを核酸分子に付着させることにより標識される。オリゴヌクレオチドを核酸分子の末端に付着させることができる。一部の態様では、オリゴヌクレオチドは、核酸分子の両末端に付着される。他の態様では、核酸分子の末端に付着されるオリゴヌクレオチドは、配列が異なる。一部の態様では、核酸分子の末端に付着されるオリゴヌクレオチドの試料インデックスは、同一である。他の態様では、核酸分子の末端に付着されるオリゴヌクレオチドの分子インデックスは、異なる。

例えば、ＤＮＡ、ＲＮＡおよび核酸断片を含む、核酸分子を、標識することができる。標識され得るＤＮＡ源としては、例えば、染色体ＤＮＡ、プラスミドＤＮＡ、ｃＤＮＡ、無細胞ＤＮＡ（ｃｆＤＮＡ）、血中循環腫瘍ＤＮＡ（ｃｔＤＮＡ）、およびこれらの任意の断片が挙げられる。標識された核酸を、例えば、核酸ライブラリーの調製に使用することができる。一部の態様では、ライブラリーは、ゲノムライブラリーである。標識された核酸分子を含むライブラリーは、例えば、本明細書で提供されるオリゴヌクレオチドのセットまたはサブセットを末端修復、Ａテーリング、およびアダプターライゲーションによって核酸分子に付着させることにより、調製することができる。一部の態様では、末端修復およびＡテーリングは割愛され、特定の個々のインデックスまたはインデックスのセットと会合している可変末端が、例えばＤＮＡ分子などの核酸分子の本来の末端を決定するために含められる。標識された核酸分子、および標識された核酸分子のライブラリーを、例えば、シークエンシングにより解析することができる。任意の好適なシークエンシング方法を使用して、標識された核酸分子を解析することができる。

試料

本明細書で提供される核酸およびオリゴヌクレオチドのセットを標識するためのシステムを使用して、試料中の核酸を標識することができる。標識され得る核酸は、任意の試料または任意のタイプの試料中に存在し得る。一部の態様では、試料は、血液、唾液、血漿、血清、尿、または他の生体液である。さらなる例示的な生体液としては、漿膜液、リンパ液、脳脊髄液、粘膜からの分泌物、膣液、腹水（ascites fluid）、胸膜液、心膜液、腹水（peritoneal fluid）、および腹水（abdominal fluid）が挙げられる。他の態様では、試料は、組織試料である。一部の態様では、試料は、細胞試料または単一細胞である。新鮮試料または保管試料を使用することができ、そのような試料には、例えば、凍結保管試料、ホルマリン固定パラフィン包埋（ＦＦＰＥ）試料、および任意の他の方法により保存された試料が含まれる。

試料は、正常なまたは健康な対象からのものであり得る。試料はまた、疾患または障害を有する対象からのものであり得る。任意の疾患または障害を有する対象からの試料中の核酸を、本明細書で提供されるシステムおよびオリゴヌクレオチドのセットを使用して標識することができる。一部の態様では、疾患または障害は、がんである。一部の態様では、試料は、がんを有する対象からの体液試料である。他の態様では、試料は、がんを有する対象からの組織試料である。一部の態様では、試料は、がんを有する対象からの細胞試料である。他の態様では、試料は、がん試料である。がん試料は、固形腫瘍または液性腫瘍からの試料であり得る。がんは、腎臓がん、腎がん、膀胱がん、前立腺がん、子宮がん、乳がん、子宮頸がん、卵巣がん、肺がん、結腸がん、直腸がん、口腔がん、咽頭がん、膵臓がん、甲状腺がん、黒色腫、皮膚がん、頭頸部がん、脳がん、造血器がん、白血病、リンパ腫、骨がん、筋肉のがん、肉腫、横紋筋肉腫などであり得る。

試料中の核酸を標識することができる。核酸を標識する前に試料から抽出、単離または精製することもできる。任意の好適な抽出、単離または精製方法を使用することができる。例示的な方法としては、フェノール－クロロホルム抽出、チオシアン酸グアニジン－フェノール－クロロホルム抽出、ゲル精製、ならびにカラムおよびビーズの使用が挙げられる。市販のキットを核酸の抽出、単離または精製に使用することができる。

バーコード

本明細書で提供される試料中の核酸分子を標識するためのオリゴヌクレオチドのセットは、各バーコードが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、（ｉｉ）試料インデックス位置のヌクレオチドと異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、複数のバーコードを含むことができる。

バーコードインデックス位置は、連続した塩基のストレッチを含むことができる。本明細書で使用される場合、「連続した塩基」は、塩基が配列内で互いに隣接していることを意味する。一部の態様では、連続した塩基のストレッチは、バーコードまたはインデックス位置、および非バーコードまたは非インデックス位置を含むことができる。他の態様では、連続した塩基のストレッチは、バーコードまたはインデックス位置を含むことができるが、非バーコード位置も非インデックス位置も含むことができない。一部の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。

バーコードは、任意の数のヌクレオチドを含むことができる。例として、バーコードは、約１０～約３５のヌクレオチドを含むことができる。別の例として、バーコードは、約１２～約２５のヌクレオチドを含むことができる。さらに別の例として、バーコードは、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０、約３１、約３２、約３３、約３４、約３５、約３６、約３７、約３８、約３９、約４０、またはそれより多くのヌクレオチドを含むことができる。さらに別の例として、バーコードは、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、少なくとも２５、少なくとも２６、少なくとも２７、少なくとも２８、少なくとも２９、少なくとも３０、少なくとも３１、少なくとも３２、少なくとも３３、少なくとも３４、少なくとも３５、少なくとも３６、少なくとも３７、少なくとも３８、少なくとも３９、少なくとも４０、またはそれより多くのヌクレオチドを含むことができる。

インデックス位置

本明細書で提供されるバーコードは、１つまたは複数のインデックス位置を含むことができる。例示的なインデックス位置としては、試料インデックス位置、分子インデックス位置、ＤＮＡ末端インデックス位置、および細胞インデックス位置が挙げられる。例えば、バーコードは、試料インデックス位置、ＤＮＡ末端インデックス位置、および分子インデックス位置を含むことができる。バーコードは、試料インデックス位置、分子インデックス位置、細胞インデックス位置、ＤＮＡ末端インデックス位置、またはこれらの任意の組合せも含むことができる。

本明細書で使用される場合、用語「インデックス位置」は、核酸分子の起源または供給源を特定するために使用され得るバーコード内のヌクレオチド位置を意味する。したがって、インデックス位置は、核酸分子から生成された配列リードを、配列リードを生じさせた核酸分子の起源または供給源に基づいてカテゴリーまたはグループに割り当てることを可能にする。例として、試料インデックス位置は、核酸分子が得られた試料を特定するために、および核酸分子から生成された配列リードを試料カテゴリーにグループ化することを可能にするために使用することができる。したがって、同じ試料からの核酸分子から生成された配列リードを１つのグループにまとめることができる。別の例として、分子インデックス位置は、配列リードを生じさせた核酸分子を特定するために使用することができる。したがって、分子インデックス位置は、同じ核酸分子から生成された配列リードを１つのグループにまとめるために使用することができる。さらに別の例として、細胞インデックス位置は、核酸分子が得られた細胞を特定するために、および核酸分子から生成された配列リードを細胞カテゴリーにグループ化することを可能にするために使用することができる。したがって、同じ細胞からの核酸分子の配列リードを１つのグループにまとめることができる。

ＤＮＡ末端インデックス位置は、例えば、非修復ＤＮＡ末端の長さを示すことができる。異なる伸長部を有するオリゴヌクレオチドを調製することができ、それらを、修復されていない異なるＤＮＡ分子とライゲーションすることができる。異なる長さのオーバーハングにインデックスを付けて、非修復ＤＮＡ分子内に存在するオーバーハングの長さを特定することができる。一部の態様では、非修復ＤＮＡ分子内に存在する、異なる長さのオーバーハングが、がん試料において特定される。他の態様では、非修復ＤＮＡ分子内に存在する、異なる長さのオーバーハングが、がんを特定または検出するために特定される。オリゴヌクレオチドは、１ヌクレオチド、２ヌクレオチド、３ヌクレオチド、４ヌクレオチド、５ヌクレオチド、６ヌクレオチド、７ヌクレオチド、８ヌクレオチド、９ヌクレオチド、１０ヌクレオチド、１１ヌクレオチド、１２ヌクレオチド、１３ヌクレオチド、１４ヌクレオチド、１５ヌクレオチド、１６ヌクレオチド、１７ヌクレオチド、１８ヌクレオチド、１９ヌクレオチド、２０ヌクレオチド、またはそれより多いヌクレオチド数の伸長部を含む、任意の長さの伸長部を有することができる。オリゴヌクレオチドは、５’または３’伸長部を有することもできる。

本明細書で提供されるバーコードは、試料バーコードを含むことができる。試料バーコードは、所定数の試料インデックス位置を含むことができる。本明細書で使用される場合、「所定数の試料インデックス位置」は、核酸分子が得られた試料を特定するために特定の数の位置を試料インデックスに割り当てることができることを意味する。所定の試料インデックス位置の数は、試料間で変動し得る。試料インデックス位置の場所も、試料間で変動し得る。一部の態様では、所定の試料インデックス位置の数、および試料インデックス位置の場所は、試料間で変動し得る。したがって、核酸分子の試料源、および核酸分子が生じさせた配列リードを、試料バーコードを形成する試料インデックス位置の数、試料インデックス位置の場所、または試料インデックス位置の数と場所の両方により特定することができる。

試料インデックス位置の場所は、一部の実施形態では試料間で変動するため、試料バーコードは、「浮動」または「デジタル」バーコードであり得る。本明細書で使用される場合、「浮動バーコード」または「デジタルバーコード」は、その場所がグループまたはカテゴリー間で変動するインデックス位置を有するバーコードを指す。グループまたはカテゴリー間で変動し得るインデックス位置を含む任意のバーコード、例えば、試料インデックス位置を含む試料バーコード、分子インデックス位置を含む分子バーコード、細胞インデックス位置を含む細胞バーコードなどが、浮動バーコードであり得る。例えば、上で説明したような、異なり得る試料インデックス位置の場所に加えて、分子バーコードの分子インデックス位置の場所は、配列リードを生じさせた異なる核酸分子間で変動し得る。別の例として、細胞バーコードの細胞インデックス位置の場所は、異なる細胞からの核酸分子から得られた配列リード間で変動し得る。

一部の態様では、試料バーコード中の所定数の試料インデックス位置は、それが対応するインデックスのタイプを定義する１つまたは複数の特定のヌクレオチドを含む。例えば、所定数の試料インデックス位置の１つまたは複数の特定のヌクレオチドは、Ａ、Ｔ、ＧまたはＣであり得る。別の例として、所定数の試料インデックス位置の１つまたは複数の特定のヌクレオチドは、ＡおよびＴ、ＡおよびＣ、ＡおよびＧ、ＴおよびＣ、ＴおよびＧ、またはＧおよびＣであり得る。

一部の態様では、試料バーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。一部の態様では、試料バーコードは、約４～約１２カ所の試料インデックス位置を含む。他の態様では、試料バーコードは、約２、約３、約４、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。一部の態様では、試料バーコードは、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。

本明細書で提供されるバーコードは、分子バーコードを含むことができる。分子バーコードは、試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含むことができる。例えば、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドを、以下から選択することができる：（Ａ）試料インデックス位置ヌクレオチドが、Ａであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；（Ｂ）試料インデックス位置ヌクレオチドが、Ｔであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；（Ｃ）試料インデックス位置ヌクレオチドが、Ｃであり、分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｄ）試料インデックス位置ヌクレオチドが、Ｇであり、分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｅ）試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；（Ｆ）試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；（Ｇ）試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；（Ｈ）試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；（Ｉ）試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または（Ｊ）試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである。

本明細書で提供される試料バーコードの試料インデックス位置は、分子インデックス位置とともに散在していることがある。したがって、本明細書で提供されるバーコードは、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない、試料インデックス位置および分子インデックス位置を含むことができる。例えば、全ての試料インデックス位置が、必ずしも互いに隣接している必要はなく、全ての分子インデックス位置が、必ずしも互いに隣接している必要はない。試料インデックス位置および分子インデックス位置は、交互に存在していてもよい。任意の数の分子インデックス位置が、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置が、任意の数の試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、任意の数の試料インデックス位置の間にあってもよい。試料インデックス位置でも分子インデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置および分子インデックス位置の間にあってもよい。

一部の試料インデックス位置は、互いに隣接していることがあるが、他の試料インデックス位置は、試料インデックス位置ではないバーコード内の任意の他のヌクレオチドに隣接する場所にあることがある。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置および全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。いずれのインデックスバーコードの位置が、インデックスバーコードの全てのヌクレオチドに互いに隣接していることを必要としない、いずれの配置であってもよい。例示的なバーコードインデックスは、試料バーコード、分子バーコード、細胞バーコードなどを含む。

本明細書で提供される分子バーコードは、約５～約２５カ所の分子インデックス位置を含むことができる。一部の態様では、本明細書で提供される分子バーコードは、約５～約１５カ所の分子インデックス位置を含む。他の態様では、本明細書で提供される分子バーコードは、約２、約３、約４、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０カ所、またはそれより多くの分子インデックス位置を含む。一部の態様では、本明細書で提供される分子バーコードは、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、少なくとも２５、少なくとも２６、少なくとも２７、少なくとも２８、少なくとも２９、少なくとも３０カ所、またはそれより多くの分子インデックス位置を含む。一部の態様では、本明細書で提供される分子バーコードは、約２０カ所の分子インデックス位置または約２０カ所より少ない分子インデックス位置を含む。

本明細書で提供されるバーコードは、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含むことができる。一部の態様では、１つまたは複数の追加のインデックスバーコードは、細胞バーコードである。したがって、本明細書で提供されるバーコードは、試料バーコード、分子バーコード、細胞バーコード、非修復ＤＮＡ末端長の尺度を提供するバーコード、任意の他のインデックスバーコード、またはこれらの任意の組合せを含むことができる。したがって、本明細書で提供されるバーコードは、試料インデックス位置、分子インデックス位置、および互いの間に散在している、例えば細胞インデックス位置などの、任意の他のインデックス位置を含むことができる。本明細書で提供されるバーコードのいずれのインデックス位置も、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない。インデックスバーコードおよびインデックス位置は、全てのインデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。

オリゴヌクレオチドのセット内の各オリゴヌクレオチドは、非バーコード位置をさらに含むことができる。オリゴヌクレオチドに含まれる非バーコード位置は、ハイブリダイゼーションのための部位、増幅のための部位、配列プライマー結合のための部位、ならびにハイブリダイゼーション、配列プライマー結合および増幅のための部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０、またはそれより多くのヌクレオチドを含むことができる。ハイブリダイゼーションのための部位は、例えば、プローブの結合のための部位を含むことができる。増幅のための部位は、例えば、プライマー結合部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、互いに明確に異なることがある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、オーバーラップしていることもある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、いかなる程度にオーバーラップしていてもよい。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約１、約２、約３、約４、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０、またはそれより多くのヌクレオチドがオーバーラップしている。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、完全にオーバーラップしている。他の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位のオーバーラップはない。

核酸配列を解析するための方法

別の実施形態では、本発明は、試料中の核酸分子の配列を解析するための方法を提供する。本明細書で提供される核酸配列を解析するための方法は、（ａ）複数のオリゴヌクレオチドを核酸分子に付着させるステップであって、各オリゴヌクレオチドが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコード、および（ｉｉ）試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードを含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ；および（ｂ）核酸分子をシークエンシングするステップであって、一部の配列リードがバーコード配列を含む、ステップを含むことができる。

本明細書で提供される核酸配列を解析するための方法は、複数のオリゴヌクレオチドを核酸分子に付着させるステップを含むことができる。付着され得る複数のオリゴヌクレオチドは、オリゴヌクレオチドのセットを含むことができる。一部の態様では、付着され得る複数のオリゴヌクレオチドは、オリゴヌクレオチドのサブセットを含む。オリゴヌクレオチドのセットおよびサブセットを含む、本明細書で提供されるオリゴヌクレオチドのいずれも、本明細書で提供される核酸分子またはそれらの断片の配列を解析するための方法において使用することができる。したがって、付着され得る複数のオリゴヌクレオチドの各オリゴヌクレオチドは、１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含むことができる。所定数の試料インデックス位置の場所は、試料間で変動し得る。複数のオリゴヌクレオチドの各オリゴヌクレオチドは、分子インデックス位置を含む分子バーコードも含むことができる。分子インデックス位置は、試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含むことができる。試料インデックス位置および分子インデックス位置は、連続した塩基のストレッチ内に散在していることがある。

他の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、同じ試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。一部の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。連続した同一塩基のストレッチは、同じ試料バーコードを含むオリゴヌクレオチドに非存在であることがある。なぜなら、試料バーコードに含まれているヌクレオチドは、分子バーコードに含まれているもしくは分子インデックス位置を構成しているヌクレオチド、細胞バーコードに含まれているもしくは細胞インデックス位置を構成しているヌクレオチド、任意の他のインデックスバーコードに含まれているもしくは任意の他のインデックス位置を構成しているヌクレオチド、インデックスバーコードに含まれても、インデックス位置を構成してもいないヌクレオチド、またはこれらの任意の組合せとともに、散在していることがあるからである。したがって、一部の態様では、同じ試料バーコードを含む、核酸分子の各末端に付着されるオリゴヌクレオチドは、例えば、増幅中に、クロスハイブリダイズせず、キメラ分子などのアーチファクトの生成をもたらさない。一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、異なる試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。

一態様では、本明細書で提供される核酸分子の配列を解析するための方法は、同じ分子バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。連続した同一塩基のストレッチは、同じ分子バーコードを含むオリゴヌクレオチドに非存在であることがある。なぜなら、分子バーコードに含まれているヌクレオチドは、試料バーコードに含まれているもしくは試料インデックス位置を構成しているヌクレオチド、細胞バーコードに含まれているもしくは細胞インデックス位置を構成しているヌクレオチド、任意の他のインデックスバーコードに含まれているもしくは任意の他のインデックス位置を構成しているヌクレオチド、インデックスバーコードに含まれても、インデックス位置を構成してもいないヌクレオチド、またはこれらの任意の組合せとともに、散在していることがあるからである。したがって、一部の態様では、同じ分子バーコードを含む、核酸分子の各末端に付着されるオリゴヌクレオチドは、例えば、増幅中に、クロスハイブリダイズせず、キメラ分子などのアーチファクトの生成をもたらさない。他の態様では、本明細書で提供される方法は、異なる分子バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。

一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、同じ試料バーコードおよび同じ分子バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。連続した同一塩基のストレッチは、同じ試料バーコードおよび同じ分子バーコードを含むオリゴヌクレオチド中に非存在であることがある。なぜなら、試料バーコードにおよび分子バーコードに含まれているヌクレオチドは、細胞バーコードに含まれているもしくは細胞インデックス位置を構成しているヌクレオチド、任意の他のインデックスバーコードに含まれているもしくは任意の他のインデックス位置を構成しているヌクレオチド、インデックスバーコードに含まれても、インデックス位置を構成してもいないヌクレオチド、またはこれらの任意の組合せとともに、散在していることがあるからである。したがって、一部の態様では、同じ試料バーコードおよび同じ分子バーコードを含む、核酸分子の各末端に付着されるオリゴヌクレオチドは、例えば、増幅中に、クロスハイブリダイズせず、キメラ分子などのアーチファクトの生成をもたらさない。他の態様では、本明細書で提供される方法は、異なる試料バーコードおよび異なる分子バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。

一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、同じ試料バーコード、同じ分子バーコード、同じ細胞バーコード、非修復ＤＮＡ末端長の尺度を提供する同じバーコード、任意の他のインデックスヌクレオチドを含む同じインデックスバーコード、またはこれらの任意の組合せを含む、オリゴヌクレオチドを、試料中の核酸分子の各末端に付着させるステップを含む。試料バーコード、分子バーコード、細胞バーコード、任意の他のインデックス位置もしくはインデックスバーコードを含むヌクレオチド、またはこれらの任意の組合せをはじめとするバーコード内の、連続した同一塩基のストレッチは、散在ヌクレオチドのため、非存在であることがある。散在ヌクレオチドは、インデックスバーコードに含まれていない、インデックス位置を構成していないヌクレオチドを含むことができ、またはヌクレオチドがともに散在しているインデックスバーコードもしくはインデックス位置以外のインデックスバーコードに含まれているもしくはインデックス位置を構成しているヌクレオチドを含むことができる。したがって、増幅中の、クロスハイブリダイゼーション、およびキメラ分子などのアーチファクトの生成を、防止することができる。一態様では、本明細書で提供される方法は、異なる試料バーコード、異なる分子バーコード、異なる細胞バーコード、任意の他のインデックスヌクレオチドを含む異なるインデックスバーコード、またはこれらの任意の組合せを含む、オリゴヌクレオチドを、試料中の核酸分子の各末端に付着させるステップを含む。

任意の好適な方法を、バーコードを含むオリゴヌクレオチドを核酸分子の末端に付着させるために使用することができる。様々な態様では、オリゴヌクレオチドは、共有結合で付着される。

本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、任意の数のヌクレオチドを含むことができる。例として、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、約１０～約３５のヌクレオチドを含むことができる。別の例として、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、約１２～約２５のヌクレオチドを含むことができる。さらに別の例として、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０、約３１、約３２、約３３、約３４、約３５、約３６、約３７、約３８、約３９、約４０、またはそれより多くのヌクレオチドを含むことができる。さらに別の例として、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、少なくとも２５、少なくとも２６、少なくとも２７、少なくとも２８、少なくとも２９、少なくとも３０、少なくとも３１、少なくとも３２、少なくとも３３、少なくとも３４、少なくとも３５、少なくとも３６、少なくとも３７、少なくとも３８、少なくとも３９、少なくとも４０、またはそれより多くのヌクレオチドを含むことができる。

本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、１つまたは複数のインデックス位置を含むことができる。例示的なインデックス位置としては、試料インデックス位置、分子インデックス位置、および細胞インデックス位置が挙げられる。例えば、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料インデックス位置および分子インデックス位置を含むことができる。本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料インデックス位置、分子インデックス位置、細胞インデックス位置、非修復ＤＮＡ末端長の尺度を提供するインデックス位置、またはこれらの任意の組合せも含むことができる。

本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料バーコードを含むことができる。試料バーコードは、所定数の試料インデックス位置を含むことができる。所定の試料インデックス位置の数は、試料間で変動し得る。試料インデックス位置の場所も、試料間で変動し得る。一部の態様では、所定の試料インデックス位置の数、および試料インデックス位置の場所は、試料間で変動し得る。したがって、核酸分子の試料源、および核酸分子が生じさせた配列リードを、試料バーコードを形成する試料インデックス位置の数、試料インデックス位置の場所、または試料インデックス位置の数と場所の両方により特定することができる。

本明細書で提供される核酸分子の配列を解析するための方法における試料バーコード中の所定数の試料インデックス位置は、１つまたは複数の特定のヌクレオチドを含むことができる。例えば、所定数の試料インデックス位置の１つまたは複数の特定のヌクレオチドは、Ａ、Ｔ、ＧまたはＣであり得る。別の例として、所定数の試料インデックス位置の１つまたは複数の特定のヌクレオチドは、ＡおよびＴ、ＡおよびＣ、ＡおよびＧ、ＴおよびＣ、ＴおよびＧ、またはＧおよびＣであり得る。

一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードは、約４～１２の試料インデックス位置を含む。様々な態様では、本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードは、約２、約３、約４、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。一態様では、本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードは、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。

本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、分子バーコードを含むことができる。本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含むことができる。例えば、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドを、以下から選択することができる：（Ａ）試料インデックス位置ヌクレオチドが、Ａであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；（Ｂ）試料インデックス位置ヌクレオチドが、Ｔであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；（Ｃ）試料インデックス位置ヌクレオチドが、Ｃであり、分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｄ）試料インデックス位置ヌクレオチドが、Ｇであり、分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｅ）試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；（Ｆ）試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；（Ｇ）試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；（Ｈ）試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；（Ｉ）試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または（Ｊ）試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである。

本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードの試料インデックス位置は、分子インデックス位置とともに散在していることがある。したがって、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない、試料インデックス位置および分子インデックス位置を含むことができる。例えば、全ての試料インデックス位置が、必ずしも互いに隣接している必要はなく、全ての分子インデックス位置が、必ずしも互いに隣接している必要はない。試料インデックス位置および分子インデックス位置は、交互に存在していてもよい。任意の数の分子インデックス位置が、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置が、任意の数の試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、任意の数の試料インデックス位置の間にあってもよい。試料インデックス位置でも分子インデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置および分子インデックス位置の間にあってもよい。

本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、約５～２５の分子のインデックス位置を含むことができる。一態様では、本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、約５～約１５の分子インデックス位置を含む。一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、約２、約３、約４、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０カ所、またはそれより多くの分子インデックス位置を含む。他の態様では、本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、少なくとも２５、少なくとも２６、少なくとも２７、少なくとも２８、少なくとも２９、少なくとも３０カ所、またはそれより多くの分子インデックス位置を含む。

本明細書で提供される核酸分子の配列を解析するための方法における各バーコードは、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含むことができる。一部の態様では、１つまたは複数の追加のインデックスバーコードは、細胞バーコードである。したがって、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料バーコード、分子バーコード、細胞バーコード、任意の他のインデックスバーコード、またはこれらの任意の組合せを含むことができる。したがって、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料インデックス位置、分子インデックス位置、および互いの間に散在している、例えば細胞インデックス位置などの、任意の他のインデックス位置を含むことができる。本明細書で提供されるいずれのバーコードのインデックス位置も、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない。インデックスバーコードおよびインデックス位置は、全てのインデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。

本明細書で提供される付着オリゴヌクレオチドを有する核酸分子を、例えば、シークエンシングにより解析することができる。得られる配列リードは、バーコード配列を含むことができる。任意の好適なシークエンシング方法を使用して、核酸分子を解析することができる。例示的なシークエンシング方法としては、例えば、次世代シークエンシング（ＮＧＳ）が挙げられる。例示的なＮＧＳ手法は、Ｒｏｃｈｅ４５４シークエンサー、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＳＯＬｉＤシステム、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＩｏｎＴｏｒｒｅｎｔ、ＢＧＩ／ＭＧＩシステム、Ｇｅｎａｐｓｙｓシステム、ならびにＩｌｌｕｍｉｎａシステム、例えば、ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩ、ＩｌｌｕｍｉｎａＭｉＳｅｑ、ＩｌｌｕｍｉｎａＨｉＳｅｑ、ＩｌｌｕｍｉｎａＮｅｘｔＳｅｑ、およびＩｌｌｕｍｉｎａＮｏｖａＳｅｑ装置を含む。シークエンシングを、例えば、少なくとも２×カバレッジ、少なくとも１０×カバレッジ、少なくとも２０×カバレッジ、少なくとも３０×カバレッジ、少なくとも４０×カバレッジ、少なくとも５０×カバレッジ、少なくとも６０×カバレッジ、少なくとも７０×カバレッジ、少なくとも８０×カバレッジ、少なくとも９０×カバレッジ、少なくとも１００×カバレッジ、少なくとも２００×カバレッジ、少なくとも３００×カバレッジ、少なくとも４００×カバレッジ、少なくとも５００×カバレッジ、少なくとも６００×カバレッジ、少なくとも７００×カバレッジ、少なくとも８００×カバレッジ、少なくとも９００×カバレッジ、少なくとも１，０００×カバレッジ、少なくとも２，０００×カバレッジ、少なくとも３，０００×カバレッジ、少なくとも４，０００×カバレッジ、少なくとも５，０００×カバレッジ、少なくとも６，０００×カバレッジ、少なくとも７，０００×カバレッジ、少なくとも８，０００×カバレッジ、少なくとも９，０００×カバレッジ、少なくとも１０，０００×カバレッジ、少なくとも１５，０００×カバレッジ、少なくとも２０，０００×カバレッジ、およびこれらの間の任意の数または範囲を含む、各ヌクレオチドの深いカバレッジのために行うことができる。

一部の態様では、シークエンシングは、全ゲノムシークエンシングを含む。様々な態様では、シークエンシングは、エクソームシークエンシングまたは標的パネルを含む。本明細書で使用される場合、用語「エクソームシークエンシング」は、ゲノム内の遺伝子の全てのタンパク質コードエクソンのシークエンシングを指す。エクソームシークエンシングは、ターゲットエンリッチメント法、例えば、核酸のアレイベースの捕捉および溶解状態での捕捉などを含み得る。標的パネルは、目的の領域のサブセットを含み、タンパク質コード領域と非コード領域の両方を含み得る。

任意の試料または任意のタイプの試料中の核酸の配列を、本明細書で提供される方法を使用して解析することができる。一部の態様では、試料は、血液、唾液、血漿、血清、尿、または他の生体液である。さらなる例示的な生体液としては、漿膜液、リンパ液、脳脊髄液、粘膜からの分泌物、膣液、腹水（ascites fluid）、胸膜液、心膜液、腹水（peritoneal fluid）、および腹水（abdominal fluid）が挙げられる。一部の態様では、試料は、組織試料である。他の態様では、試料は、細胞試料である。新鮮試料または保管試料を使用することができ、そのような試料には、例えば、凍結保管試料、ホルマリン固定パラフィン包埋（ＦＦＰＥ）試料、および任意の他の方法により保存された試料が含まれる。

試料は、正常なまたは健康な対象からのものであり得る。試料はまた、疾患または障害を有する対象からのものであり得る。任意の疾患または障害を有する対象からの試料中の核酸の配列を、本明細書で提供される方法を使用して解析することができる。一部の態様では、疾患または障害は、がんである。他の態様では、試料は、がんを有する対象からの体液試料である。一部の態様では、試料は、がんを有する対象からの組織試料である。他の態様では、試料は、がんを有する対象からの細胞試料である。一部の態様では、試料は、がん試料である。がん試料は、固形腫瘍または液性腫瘍からの試料であり得る。がんは、腎臓がん、腎がん、膀胱がん、前立腺がん、子宮がん、乳がん、子宮頸がん、卵巣がん、肺がん、結腸がん、直腸がん、口腔がん、咽頭がん、膵臓がん、甲状腺がん、黒色腫、皮膚がん、頭頸部がん、脳がん、造血器がん、白血病、リンパ腫、骨がん、筋肉のがん、肉腫、横紋筋肉腫などであり得る。

核酸をシークエンシングする前に試料から抽出、単離または精製することができる。任意の好適な抽出、単離または精製方法を使用することができる。例示的な方法としては、フェノール－クロロホルム抽出、チオシアン酸グアニジン－フェノール－クロロホルム抽出、ゲル精製、ならびにカラムおよびビーズの使用が挙げられる。市販のキットを核酸の抽出、単離または精製に使用することができる。

本明細書で提供される核酸分子の配列を解析するための方法は、核酸分子のライブラリーをシークエンシングするステップを含むことができる。本明細書で提供される付着オリゴヌクレオチドを有する核酸分子のライブラリーを調製することができる。一部の態様では、ゲノムライブラリーが調製される。一部の態様では、本明細書で提供されるバーコードを含む付着オリゴヌクレオチドを有する核酸分子またはその断片のライブラリーが、増幅により調製される。本明細書で提供されるバーコードを含む付着オリゴヌクレオチドを含む核酸分子および核酸分子の断片を、ポリメラーゼ連鎖反応（ＰＣＲ）により増幅することができる。本明細書で提供されるバーコードを含む付着オリゴヌクレオチドを含む核酸分子および核酸分子の断片のアンプリコンを、シークエンシングすることができる。任意の好適なシークエンシング方法を使用して、本明細書で提供されるバーコードを含む付着オリゴヌクレオチドを有する核酸分子および核酸分子の断片をシークエンシングすることができる。

本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードをグループまたはカテゴリーに割り当てるステップをさらに含むことができる。例えば、配列リードを、試料インデックス位置の場所および数に基づいて試料ファミリーに割り当てることができる。したがって、配列リードを生じさせる核酸分子を、核酸分子が由来する試料に割り当てることができる。一部の態様では、試料インデックス位置の数をエラー修正に使用することができる。配列リードを、分子インデックス位置の場所および各分子インデック位置のヌクレオチドに基づいて分子ファミリーに割り当てることもできる。分子インデックス位置の数および場所を使用して、配列リードを分子ファミリーに割る当てることもできる。したがって、配列リードを、配列リードを生じさせた核酸分子に割り当てることができる。一部の態様では、分子インデックス位置の数をエラー修正に使用することができる。さらに別の例として、細胞インデックス位置、例えば、各細胞インデックス位置における場所、数およびヌクレオチド、ならびにこれらの組合せに基づいて、配列リードを細胞ファミリーに割り当てることができる。したがって、配列リード、および配列リードを生じさせた核酸分子を、起源となる細胞に割り当てることができる。一態様では、細胞インデックス位置の数をエラー修正に使用することができる。配列リードのいずれの割り当ても、本明細書で提供されるオリゴヌクレオチドおよびオリゴヌクレオチドのセットのバーコードに含まれているインデックス位置に従って行うことができる。

本明細書で提供される試料中の核酸分子の配列を解析するための方法は、シークエンシングエラーを修正するステップをさらに含むことができる。エラー源は、例えば、増幅ステップ中の、合成エラー、シークエンシングアーチファクトまたはポリメラーゼスリッページを含み得る。配列リードにおける試料インデックス位置の数および場所を試料インデックス位置の所定数および場所と比較することにより、シークエンシングエラーを修正することができる。

配列リードの両末端の試料バーコードを比較することにより、シークエンシングエラーを修正することもできる。配列リードの各末端の非同一試料バーコードを許容される試料バーコードと比較するために規則を適用することができる。一態様では、同一の試料バーコードを含むオリゴヌクレオチドが核酸分子またはその断片の各末端に付着されている、シークエンシングリードの両末端の非同一試料バーコードを比較するために、規則を適用することができる。一部の態様では、非同一の試料バーコードを含むオリゴヌクレオチドが核酸分子またはその断片の各末端に付着されている、シークエンシングリードの両末端の非同一試料バーコードを比較するために、規則を適用することができる。他の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、リードの誤った割り当てを高感度に検出するための、各オリゴヌクレオチドが試験される異なるゲノムの使用を含む。

試料中の核酸分子の配列を解析するための方法は、（１）バーコード内のエラーを修正するための、（２）核酸分子の各末端のバーコード間のエラーを修正するための、（３）配列リードを試料ファミリーに多重分離するための、（４）配列リードを分子ファミリーに割り当てるための、またはこれらの任意の組合せのための、１つまたは複数の規則を適用するステップをさらに含むことができる。本明細書で使用される場合、「多重分離すること」は、配列リードを、グループまたはカテゴリー、例えば、試料ファミリー、または複数の試料がシークエンシングのためにプールされた供給元の試料、例えば、分子ファミリー、細胞ファミリー、または任意の他の所望されるグループもしくはグループの組合せに、割り当てることを意味する。

本明細書で提供される試料中の核酸分子の配列を解析するための方法におけるオリゴヌクレオチドのセット内の各オリゴヌクレオチドは、非バーコード位置をさらに含むことができる。オリゴヌクレオチドに含まれる非バーコード位置は、ハイブリダイゼーションのための部位、増幅のための部位、配列プライマー結合のための部位、ならびにハイブリダイゼーション、配列プライマー結合および増幅のための部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０、またはそれより多くのヌクレオチドを含むことができる。ハイブリダイゼーションのための部位は、例えば、プローブの結合のための部位を含むことができる。増幅のための部位は、例えば、プライマー結合部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、互いに明確に異なることがある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、オーバーラップしていることもある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、いかなる程度にオーバーラップしていてもよい。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約１、約２、約３、約４、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０、またはそれより多くのヌクレオチドがオーバーラップしている。他の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、完全にオーバーラップしている。一態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位のオーバーラップはない。

本明細書で提供される核酸の配列を解析するための方法は、多重分離せずに核酸配列データを格納するステップをさらに含み得る。多重分離キーを使用して、配列データを例えばシークエンシングリードのグループに割り当てることができる。多重分離せずに核酸配列データを格納するステップは、配列データを保護することができる。例えば、核酸配列データの格納は、正しい多重分離キーを有さない個体による配列データの使用を防止することができ、それによってデータの不正使用を防止することができる。

核酸分子を標識する方法

一実施形態では、本発明は、試料中の核酸分子を標識するための方法であって、複数のオリゴヌクレオチドを、バーコードを含む核酸分子に付着させるステップを含み、各バーコードが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、（ｉｉ）試料インデックス位置のヌクレオチドと異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、方法を提供する。

オリゴヌクレオチドのセットおよびサブセットを含む、本明細書で提供されるいずれのオリゴヌクレオチドも、本明細書で提供される核酸分子を標識するための方法において核酸分子またはそれらの断片を標識するために使用することができる。一態様では、本明細書で提供される方法は、同じ試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。一部の態様では、本明細書で提供される方法は、異なる試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。他の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。

任意の好適な方法を、１つまたは複数のバーコードを含むオリゴヌクレオチドを核酸分子の末端に付着させるために使用することができる。一部の態様では、オリゴヌクレオチドは、共有結合で付着される。

本明細書で提供される方法を使用して、任意の試料中の核酸を標識することができる。標識され得る核酸は、任意の試料または任意のタイプの試料中に存在し得る。一部の態様では、試料は、血液、唾液、血漿、血清、尿、または他の生体液である。さらなる例示的な生体液としては、漿膜液、リンパ液、脳脊髄液、粘膜からの分泌物、膣液、腹水（ascites fluid）、胸膜液、心膜液、腹水（peritoneal fluid）、および腹水（abdominal fluid）が挙げられる。一部の態様では、試料は、組織試料である。他の態様では、試料は、細胞試料である。新鮮試料または保管試料を使用することができ、そのような試料には、例えば、凍結保管試料、ホルマリン固定パラフィン包埋（ＦＦＰＥ）試料、および任意の他の方法により保存された試料が含まれる。

試料は、正常なまたは健康な対象からのものであり得る。試料はまた、疾患または障害を有する対象からのものであり得る。任意の疾患または障害を有する対象からの試料中の核酸を、本明細書で提供される方法を使用して標識することができる。一態様では、疾患または障害は、がんである。一部の態様では、試料は、がんを有する対象からの体液試料である。他の態様では、試料は、がんを有する対象からの組織試料である。一部の態様では、試料は、がんを有する対象からの細胞試料である。他の態様では、試料は、がん試料である。がん試料は、固形腫瘍または液性腫瘍からの試料であり得る。がんは、腎臓がん、腎がん、膀胱がん、前立腺がん、子宮がん、乳がん、子宮頸がん、卵巣がん、肺がん、結腸がん、直腸がん、口腔がん、咽頭がん、膵臓がん、甲状腺がん、黒色腫、皮膚がん、頭頸部がん、脳がん、造血器がん、白血病、リンパ腫、骨がん、筋肉のがん、肉腫、横紋筋肉腫などであり得る。

標識された核酸を、例えば核酸ライブラリーの調製に、使用することができる。一部の態様では、ライブラリーは、ゲノムライブラリーである。標識された核酸分子を含むライブラリーは、例えば、本明細書で提供されるオリゴヌクレオチドのセットまたはサブセットを末端修復、Ａテーリング、およびアダプターライゲーションによって核酸分子またはそれらの断片に付着させることにより、調製することができる。一部の態様では、末端修復およびＡテーリングは割愛され、特定の個々のインデックスまたはインデックスのセットと会合している可変末端が、例えばＤＮＡ分子などの核酸分子の本来の末端を決定するために含められる。標識された核酸分子およびそれらの断片、ならびに標識された核酸分子およびそれらの断片のライブラリーを、例えば、シークエンシングにより解析することができる。任意の好適なシークエンシング方法を使用して、標識された核酸分子を解析することができる。シークエンシング方法は、多重分離せずに核酸配列データを格納するステップをさらに含むことができる。多重分離キーを使用して、配列データを例えばシークエンシングリードのグループに割り当てることができる。多重分離せずに核酸配列データを格納するステップは、配列データを保護することができる。例えば、核酸配列データの格納は、正しい多重分離キーを有さない個体による配列データの使用を防止することができ、それによってデータの不正使用を防止することができる。

本明細書で提供される核酸分子を標識するための方法におけるバーコードは、任意の数のヌクレオチドを含むことができる。例として、バーコードは、約１０～約３５のヌクレオチドを含むことができる。別の例として、バーコードは、約１２～約２５のヌクレオチドを含むことができる。さらに別の例として、バーコードは、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０、約３１、約３２、約３３、約３４、約３５、約３６、約３７、約３８、約３９、約４０、またはそれより多くのヌクレオチドを含むことができる。さらに別の例として、バーコードは、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、少なくとも２５、少なくとも２６、少なくとも２７、少なくとも２８、少なくとも２９、少なくとも３０、少なくとも３１、少なくとも３２、少なくとも３３、少なくとも３４、少なくとも３５、少なくとも３６、少なくとも３７、少なくとも３８、少なくとも３９、少なくとも４０、またはそれより多くのヌクレオチドを含むことができる。

本明細書で提供される核酸分子を標識するための方法におけるバーコードは、１つまたは複数のインデックス位置を含むことができる。例示的なインデックス位置としては、試料インデックス位置、分子インデックス位置、ＤＮＡ末端インデックス位置、および細胞インデックス位置が挙げられる。例えば、バーコードは、試料インデックス位置、および分子インデックス位置を含むことができる。バーコードは、試料インデックス位置、分子インデックス位置、細胞インデックス位置、ＤＮＡ末端インデックス位置、またはこれらの任意の組合せも含むことができる。

本明細書で提供される核酸分子を標識するための方法におけるバーコードは、試料バーコードを含むことができる。試料バーコードは、所定数の試料インデックス位置を含むことができる。所定の試料インデックス位置の数は、試料間で変動し得る。試料インデックス位置の場所も、試料間で変動し得る。一部の態様では、所定の試料インデックス位置の数、および試料インデックス位置の場所は、試料間で変動し得る。したがって、核酸分子の試料源、および核酸分子が生じさせた配列リードを、試料バーコードを形成する試料インデックス位置の数、試料インデックス位置の場所、または試料インデックス位置の数と場所の両方により特定することができる。

本明細書で提供される核酸分子を標識するための方法における試料バーコード中の所定数の試料インデックス位置は、１つまたは複数の特定のヌクレオチドを含むことができる。例えば、所定数の試料インデックス位置の１つまたは複数の特定のヌクレオチドは、Ａ、Ｔ、ＧまたはＣであり得る。別の例として、所定数の試料インデックス位置の１つまたは複数の特定のヌクレオチドは、ＡおよびＴ、ＡおよびＣ、ＡおよびＧ、ＴおよびＣ、ＴおよびＧ、またはＧおよびＣであり得る。

一部の態様では、本明細書で提供される核酸分子を標識するための方法における試料バーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。他の態様では、本明細書で提供される核酸分子を標識するための方法における試料バーコードは、約４～約１２の試料インデックス位置を含む。一部の態様では、本明細書で提供される核酸分子を標識するための方法における試料バーコードは、約２、約３、約４、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。他の態様では、本明細書で提供される核酸分子を標識するための方法における試料バーコードは、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。

本明細書で提供される核酸分子を標識するための方法におけるバーコードは、分子バーコードを含むことができる。分子バーコードは、試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含むことができる。例えば、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドを、以下から選択することができる：（Ａ）試料インデックス位置ヌクレオチドが、Ａであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；（Ｂ）試料インデックス位置ヌクレオチドが、Ｔであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；（Ｃ）試料インデックス位置ヌクレオチドが、Ｃであり、分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｄ）試料インデックス位置ヌクレオチドが、Ｇであり、分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；（Ｅ）試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；（Ｆ）試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；（Ｇ）試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；（Ｈ）試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；（Ｉ）試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または（Ｊ）試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである。

本明細書で提供される核酸分子を標識するための方法における試料バーコードの試料インデックス位置は、分子インデックス位置とともに散在していることがある。したがって、本明細書で提供される核酸分子を標識するための方法におけるバーコードは、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない、試料インデックス位置および分子インデックス位置を含むことができる。例えば、全ての試料インデックス位置が、必ずしも互いに隣接している必要はなく、全ての分子インデックス位置が、必ずしも互いに隣接している必要はない。試料インデックス位置および分子インデックス位置は、交互に存在していてもよい。任意の数の分子インデックス位置が、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置が、任意の数の試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、任意の数の試料インデックス位置の間にあってもよい。試料インデックス位置でも分子インデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置および分子インデックス位置の間にあってもよい。

一部の試料インデックス位置は、互いに隣接していることがあるが、他の試料インデックス位置は、試料インデックス位置ではないバーコード内の任意の他のヌクレオチドに隣接する場所にあることがある。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置および全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。いずれのインデックスバーコードの位置が、インデックスバーコードの全てのヌクレオチドに互いに隣接していることを必要としない、いずれの配置であってもよい。例示的なバーコードインデックスは、試料バーコード、分子バーコード、細胞バーコード、ＤＮＡ末端インデックス位置などを含む。

本明細書で提供される核酸分子を標識するための方法における分子バーコードは、約５～約２５の分子のインデックス位置を含むことができる。一部の態様では、本明細書で提供される核酸分子を標識するための方法における分子バーコードは、約５～約１５の分子インデックス位置を含む。他の態様では、本明細書で提供される核酸分子を標識するための方法における分子バーコードは、約２、約３、約４、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０カ所、またはそれより多くの分子インデックス位置を含む。様々な態様では、本明細書で提供される核酸分子を標識するための方法における分子バーコードは、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、少なくとも２５、少なくとも２６、少なくとも２７、少なくとも２８、少なくとも２９、少なくとも３０カ所、またはそれより多くの分子インデックス位置を含む。

本明細書で提供される核酸分子を標識するための方法におけるバーコードは、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含むことができる。一部の態様では、１つまたは複数の追加のインデックスバーコードは、細胞バーコードである。他の態様では、１つまたは複数の追加のインデックスバーコードは、尺度または非修復ＤＮＡ末端長を提供するバーコードである。したがって、本明細書で提供される核酸分子を標識するための方法におけるバーコードは、試料バーコード、分子バーコード、細胞バーコード、非修復ＤＮＡ末端長の尺度を提供するバーコード、任意の他のインデックスバーコード、またはこれらの任意の組合せを含むことができる。したがって、本明細書で提供される核酸分子を標識するための方法におけるバーコードは、試料インデックス位置、分子インデックス位置、および互いの間に散在している、例えば細胞インデックス位置などの、任意の他のインデックス位置を含むことができる。本明細書で提供される核酸分子を標識するための方法におけるバーコードのいずれのインデックス位置も、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない。インデックスバーコードおよびインデックス位置は、全てのインデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。

本明細書で提供される試料中の核酸分子を標識するための方法におけるオリゴヌクレオチドのセット内の各オリゴヌクレオチドは、非バーコード位置をさらに含むことができる。オリゴヌクレオチドに含まれる非バーコード位置は、ハイブリダイゼーションのための部位、増幅のための部位、配列プライマー結合のための部位、ならびにハイブリダイゼーション、配列プライマー結合および増幅のための部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０、またはそれより多くのヌクレオチドを含むことができる。ハイブリダイゼーションのための部位は、例えば、プローブの結合のための部位を含むことができる。増幅のための部位は、例えば、プライマー結合部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、互いに明確に異なることがある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、オーバーラップしていることもある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、いかなる程度にオーバーラップしていてもよい。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約１、約２、約３、約４、約５、約６、約７、約８、約９、約１０、約１１、約１２、約１３、約１４、約１５、約１６、約１７、約１８、約１９、約２０、約２１、約２２、約２３、約２４、約２５、約２６、約２７、約２８、約２９、約３０、またはそれより多くのヌクレオチドがオーバーラップしている。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、完全にオーバーラップしている。他の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位のオーバーラップはない。

誤った配列リード特定するための方法

一実施形態では、本発明は、誤った配列リードを特定するための方法であって、（ａ）複数のオリゴヌクレオチドを試料の核酸分子に付着させるステップであって、各オリゴヌクレオチドが、（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が、試料間で変動し、同じ試料バーコードが、試料中の核酸分子の各末端に付着されている、試料バーコード、および（ｉｉ）試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードを含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ；および（ｂ）核酸分子をシークエンシングするステップであって、配列リードがバーコード配列を含む、ステップを含み、それによって誤った配列リードを特定する方法を提供する。

本明細書で使用される場合、用語「誤った配列リード」は、本明細書に記載される方法により特定され得るあらゆるシークエンシングエラーを指すように意図されている。

一態様では、誤った配列リードを特定することは、一致しない試料バーコードを有する核酸分子を特定することを含む。

本明細書で記載される方法は、核酸分子の各末端への同じ試料バーコードの付着に頼る。用語「一致しない試料バーコード」は、シークエンシング用の核酸の調製中のエラーの発生の結果として、核酸分子がその核酸分子の各末端において異なるバーコードに付着されるケースを指す。この結果、分子ファミリーへの誤った割り当てが生じることになり得、ひいては配列リードの適切な解析に干渉し得る。

一部の態様では、シークエンシングエラーは、配列リードの両末端の試料バーコードを比較することにより、さらに修正される。他の態様では、一致しない試料バーコードを有する核酸分子は、さらに、配列リードからおよび／または分子ファミリーから除去される。

別の態様では、一致しない試料バーコードを有する核酸分子を特定することは、ミスプライミングされた核酸分子を特定することを含む。

本明細書で使用される場合、「ミスプライミングされた核酸分子」は、複数の分子バーコード対を含有する核酸分子を指すことができる。そのようなケースでは、分子の数が、間違って増加することがあり、および／または間違った試料が、正しくない分子リードに割り当てられることがあり、これらのことは、リードバリアントの頻度および／または同一性に悪影響を与えることがある。両方のケースが、結果の解析および臨床的解釈上の問題点をもたらす。

一部の態様では、ミスプライミングされた核酸分子は、適切なバーコードで修正され、配列品質を向上させるために使用される。他の態様では、修正されたバーコードを有する核酸分子は、修正されたリードファミリーに割り当てられる。

様々な態様では、修正されたリードファミリーは、明確に異なるカバレッジを正確に決定するために使用される。一部の態様では、明確に異なるカバレッジの決定は、核酸分子のライブラリーを評価するために使用される。

一態様では、方法は、配列リードを、分子インデックス位置の場所および各分子インデック位置のヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む。一部の態様では、誤った配列リードを特定することは、複数の分子ファミリーに割り当てられた核酸分子を特定することを含む。他の態様では、複数の分子ファミリーに割り当てられた核酸分子は、配列リードからおよび／または分子ファミリーからさらに除去される。

本明細書で使用される場合、単数形「１つの（ａ）」、「１つの（ａｎ）」および「その（ｔｈｅ）」は、文脈による別段の明確な指示がない限り、複数の言及対象を含む。したがって、例えば、「方法（ｔｈｅｍｅｔｈｏｄ）」への言及は、本開示などを読めば当業者には明らかになる、本明細書に記載されるタイプの１つまたは複数の方法および／またはステップを含む。

別段の定義がない限り、本明細書で使用される全ての専門および科学用語は、本発明が属する技術分野の当業者によって一般に理解されているのと同じ意味を有する。

量、持続時間などのような、測定可能な値に言及するときに本明細書で使用される「約」は、指定された値から±２０％または±１０％、または±５％、またはさらには±１％の変動量を包含するように意図されている。そのような変動量は、開示される組成物に、または開示される方法を行うために、妥当であるからである。

本明細書で使用される場合、用語「核酸」は、任意のデオキシリボ核酸（ＤＮＡ）分子、リボ核酸（ＲＮＡ）分子、または核酸類似体を指す。ＤＮＡまたはＲＮＡ分子は、二本鎖状であってもまたは一本鎖状であってもよく、いずれのサイズのものであってもよい。例示的な核酸としては、染色体ＤＮＡ、プラスミドＤＮＡ、ｃＤＮＡ、無細胞ＤＮＡ（ｃｆＤＮＡ）、血中循環腫瘍ＤＮＡ（ｃｔＤＮＡ）、ｍＲＮＡ、ｔＲＮＡ、ｒＲＮＡ、ｓｉＲＮＡ、マイクロＲＮＡ（ｍｉＲＮＡまたはｍｉＲ）、ｈｎＲＮＡが挙げられるが、これらに限定されない。例示的な核酸類似体としては、ペプチド核酸、モルホリノおよびロックド核酸、グリコール核酸、ならびにトレオース核酸が挙げられる。本明細書で使用される場合、用語「核酸分子」は、例えば、任意の完全長または非断片化核酸分子だけでなく、核酸分子の断片も含むように意図されている。

本明細書で使用される場合、用語「ヌクレオチド」は、リボ核酸とデオキシリボ核酸の両方の個々の単位、ならびにヌクレオシドおよびヌクレオチドアナログ、ならびに修飾ヌクレオチド、例えば、標識されたヌクレオチドを含む。加えて、「ヌクレオチド」は、天然に存在しない類似体構造、例えば、糖単位、リン酸単位および／または塩基単位が非存在であるか、または他の化学構造により置き換えられているものを含む。したがって、用語「ヌクレオチド」は、個々のペプチド核酸（ＰＮＡ）（Nielsen et al, Bioconjug. Chem. 1994; 5(1):3-7）およびロックド核酸（ＬＮＡ）（Braasch and Corey, Chem. Biol. 2001; 8(1): 1-7）単位ならびに他の同様の単位を包含する。

本明細書で使用される場合、用語「対象」は、本明細書で開示される方法が行われる任意の個体または患者を指す。用語「対象」は、用語「個体」または「患者」と同義で使用され得る。対象は、ヒトであり得るが、対象は、当業者には分かるように、動物であってもよい。したがって、げっ歯類（マウス、ラット、ハムスターおよびモルモットを含む）、ネコ、イヌ、ウサギ、家畜（ウシ、ウマ、ヤギ、ヒツジ、ブタなどを含む）、および霊長類（サル、チンパンジー、オランウータンおよびゴリラを含む）などの、哺乳動物を含む、他の動物は、対象の定義の中に含まれる。対象は、植物または微生物であることもある。

本明細書で使用される場合、用語「処置する」、「処置」、「治療」、「治療の」およびこれらに類する用語は、進行を緩和すること、遅らせることもしくは緩徐化すること、作用または症状を軽減すること、発病を防止すること、疾患または障害の発病を抑制、軽快させること、疾患、障害または医学的状態に関して有益なまたは所望の結果、例えば、治療利益および／または予防利益を得ること、を含むがこれらに限定されない、所望の薬理学的および／または生理学的効果を得ることを指す。「処置」は、本明細書で使用される場合、哺乳動物における、特にヒトにおける、疾患のあらゆる処置を包含し、（ａ）疾患の素因を有するまたは疾患を獲得するリスクがある可能性があるがまだ疾患を有すると診断されていない対象において疾患が起こるのを防ぐこと；（ｂ）疾患を抑制すること、すなわち、その発症を抑止すること；および（ｃ）疾患を和らげること、すなわち、疾患の退行を生じさせることを含む。治療利益は、処置されることになる基礎障害の根絶または軽快を含む。また、治療利益は、対象が依然として基礎障害に罹患している可能性があるにもかかわらず対象に改善が見られるような、基礎障害に関連する生理的症状の１つもしくは複数についての根絶または軽快により実現される。一部のケースでは、予防利益のために、特定の疾患を発症するリスクがある対象に処置が投与されるか、または疾患の生理的症状の１つもしくは複数を報告する対象に、たとえこの疾患の診断が下されていなくても、処置が投与される。本開示の方法を任意の哺乳動物または他の動物に対して使用することができる。一部のケースでは、処置は、症状の減少または消滅をもたらすことができる。予防効果は、疾患もしくは状態の出現を遅らせる、もしくはなくならせること、疾患もしくは状態の症状の開始を遅らせる、もしくはなくならせること、疾患もしくは状態の進行を緩徐化する、停止させる、もしくは逆行させること、またはこれらの任意の組合せを含む。

（実施例１）
本実施例は、多重インデックス付加試料のための浮動／デジタルバーコードの設計を説明する。

浮動またはデジタルバーコードの所与の位置におけるヌクレオチドの存在または非存在は、消費者製品バーコード（ＵＰＣ）に類似した情報内容を提供する（図１）。インデックスが異なれば、ヌクレオチドまたは「バー」が移動または浮動する位置も異なり、それらの新しい位置は交互のインデックスを示す。可能性のあるバーコードの数は、利用可能な配列場所が増加するので急増する。一次インデックスに使用しない位置を二次またはさらなるインデックスに使用することができる。単一細胞シークエンシングなどの方法において有用となる、さらなるインデックス付加レベルを含むことも可能である。単一細胞シークエンシングの場合、例えば、試料インデックス、細胞インデックスおよび分子インデックスの全てを単一のバーコード内に有することが可能になる。バーコードを作成するための条件の選択に依存して、異なる数の一次および二次バーコードが利用可能であり、エラー検出およびエラー修正の強度を必要に応じて調整することができる。

試料中の異なる分子の数は通常は非常に多く、１００万またはそれより多くの分子が試料ごとにシークエンシングされる。そのような多数の分子を用いる場合は、各分子バーコードの個々のオリゴヌクレオチドを合成し、精製することは、一般に不可能である。多くの場合、複数の位置で縮重ヌクレオチドを使用することにより、異なる分子を区別するために必要とされる多様性が得られる。通常は、定義された試料バーコードおよびランダムに選ばれた分子バーコードは、解析のために互いに隔離される。浮動／デジタルバーコードシステムを用いる場合は、複数のタイプのバーコードが領域内に混在する。

標準的な固定長バーコードと比較して、これは、配列を参照と直接比較しない、場所に基づく方法を使用する、基本的に異なる試料インデックス付加方法を意味する。試料バーコードの場所は試料によって異なり、その場所を使用して試料ファミリーを特定する。標準バーコードを用いる場合は、配列を互いに比較し、完璧またはほぼ完璧な配列同一性のものを試料ファミリーとして１つのグループにまとめる。浮動／デジタルバーコードを用いる場合は、配列を互いに直接比較せず、むしろ、デジタル＋／－方式で場所を示すために配列を使用する。したがって、＋／－場所データを、旧来の製品バーコード（図１）と同様に試料を区別するために使用する。図１に示されている例では、ヌクレオチド「Ａ」を有する一切の位置が試料バーコードの一部であり、その一方で、一切の他のヌクレオチドが分子バーコードの一部である。「Ａ」をシークエンシングするたびに、その場所を記し、試料ファミリーの決定に使用する。

新しいタイプのバーコードを、例えば以下のものをはじめとする複数の要件に基づいて設計した：（１）いずれの実行時にも試料および分子の数に対応するのに十分な一意のバーコードがなければならない；（２）各分子リードの異なる末端にある組み合わせた試料／分子バーコードは、異なるものでなければならないが、大容量シークエンサーでのインデックスホッピングを検出するために予測可能な試料バーコードでなければならない；（３）バーコードは、配列品質に影響を与える広範なポリヌクレオチド反復も極端な塩基組成も含有してはならない；（４）分子インデックスは、可能性のある分子全てを区別するために高度に可変的でなければならない；および（５）試料バーコード設計は、実行可能なオリゴヌクレオチド合成数に対応するものでなければならない。

浮動またはデジタルバーコードの新規設計は、上記の基準を満たす。この新規バーコード設計は、例えば、ＮｅｘｔＳｅｑおよびＮｏｖａＳｅｑＩｌｌｕｍｉｎａシークエンサーに既に対応している比較的短い配列内にこれらの特徴の全てを組み込むことができる。他のシークエンシングシステムに対応するように同じまたは同様の設計を行うことができる。

新しい浮動／デジタルバーコードは、隣接位置にある試料バーコードと分子バーコードを混ぜ、直接配列比較ではなく場所情報を使用して、試料ファミリーを割り当てる。任意の所与の位置のヌクレオチド配列を使用して、その位置を試料位置として指定すべきか、分子位置として指定すべきかを決定する。次いで、この場所情報を、バーコードの決定および試料ファミリーの割り当てに使用する。試料バーコード場所の数が、予想数または位置とマッチしなかった場合、分子を廃棄することができるか、またはバーコードの修正を試みることができる。これらのバーコードの設計は、バーコードおよびクラスの柔軟な分配を可能にするものであり、したがって、マルチプレックス試料を含む様々な応用において、シークエンシング実行時に、またはリードを特定の試料および細胞に割り当てる必要がある単一細胞アプローチで、それを使用することができる。

バーコードの多くの配置が可能である。多くの可能性の一例として、試料インデックスは、常にヌクレオチド「Ａ」であり得、その一方で、分子インデックスは、他のヌクレオチドのいずれか（Ｃ、Ｇ、Ｔ）であり得る。ＩＵＰＡＣ命名法を使用すると、Ｃ、ＧまたはＴは、記号「Ｂ」により表され、Ａ、ＣまたはＧは、記号「Ｖ」により表される。この方法で使用される可能性がある配列の例を、図２Ａ～２Ｃに示す。

所与の数の位置について可能なバーコードの数（ｎ）を、以下の方程式から算出することができる：
Ｃｒ＝ｎ！／ｒ！（ｎ－ｒ）！

式中、ｎは、可能な位置の数であり、ｒは、埋められる位置の数である。様々な配列サイズについての可能性の最大数を表１に示す。

各位置において、二値選択によって、その位置が分子インデックスとして使用されるのか、試料インデックス位置として使用されるのかが決定される。配列が、試料インデックス配列（例えば、Ａ）にマッチする場合、その配列は、試料バーコードの一部である。その配列が、マッチしない場合（例えば、Ｃ、ＧまたはＴ）、その配列は、縮重分子インデックスの一部である。図２Ｃに示されている例では、各２０ｎｔセグメント内の、７カ所以下の位置が、試料インデックス位置に割り振られ、１３またはそれより多くの位置が、３重に縮重しており、そのため各試料バーコード２０ｎｔストレッチは、３^１３重、すなわち１，５９４，３２３重に縮重していることになる。各分子は２つのそのようなバーコードを有するので、いずれの個々の分子も１，５９４，３２３^２重、すなわち２．５兆重に縮重していることになり得る。

図３Ａに示されているように、多くのタイプの標準アダプターは、異なるアダプターオリゴヌクレオチド上に位置する縮重分子バーコードおよび固定試料バーコードを有する（配列番号１および２を参照されたい）。これは、図３Ｂに示されているような２つが混在する浮動バーコードには当てはまらない（配列番号５および６を参照されたい）。

試料および分子バーコードのエラー修正およびパターンは、様々な形をとり得る。体細胞変異体のシークエンシングなどの一部のケースでは、リードが誤ったものに割り当てられないことが重要である。したがって、ロバストなエラー検出および修正が行われることが重要である。例えば、固定数の試料バーコード位置がある場合、その数にマッチすることは、ある種の品質チェックになる。バーコードが選択長でなかった場合、特定の分子にシークエンシングエラーがあるに違いない。予想バーコードに基づいてエラーを修正することが可能であることもあり、または誤った割り当てを回避するために全体の結果から配列を消去する必要があることもある。あるいは、可変数の試料バーコード位置を使用することが可能であるが、任意の単一シークエンシングエラーを許容可能なパターンに基づいて検出することおよび修正することができるように、それらを生成することが可能である。そのようなケースでは、あらゆる試料バーコードは、少なくとも２つまたは少なくとも３つもしくはそれより多くの変化により、全ての他の試料バーコードとは異なる。他のケースでは、低頻度の誤った割り当ては、大きな問題点にならない可能性があり、最大数のバーコードをもたらすことのほうが重視される。これは、一部のタイプのエラー検出／修正を妨げることがあるが、それでも同じ分子の両末端のバーコードの比較を可能にする。

試料バーコードを表す単一ヌクレオチドに加えて、他の変形形態が可能である。例えば、試料（または細胞）バーコードを、固定ＡまたはＴのどちらかで表すことができ、分子バーコードを縮重Ｇ／Ｃにより表すことができるだろう。この配置は、さらに多くの試料／細胞バーコードを、より少ない分子バーコードとともに生成する。試料／分子バーコード位置の数および縮重を変更することにより、目下の応用に向けて両方の数を最適化することが可能になる。

浮動またはデジタルバーコードシステムは、同じ試料バーコードを同じ核酸分子の両末端に置くことを可能にする。旧来のＤＮＡバーコードを用いた場合には、同じ試料バーコードを同じ分子の両末端で使用することができない。同一の標準試料バーコードを同じ分子の両末端に配置すると、異なる分子がクロスハイブリダイズし、その結果、増幅中にアーチファクトのキメラ分子を生成するリスクが高くなる可能性がある。分子の両末端に同じバーコード配列を用いた場合には、２つの最も３’側の領域がハイブリダイズし、部分的に重複した分子を生成する可能性がある。標準試料バーコードが増幅中の試料中に何百万倍も存在する可能性があるので、キメラ分子形成の可能性は高い（図４ならびに配列番号７および８を参照されたい）。これは、浮動バーコードには当てはまらない。同じ試料バーコードを用いたとしても、連続した同一の塩基の長いストレッチが存在しないからである。浮動アダプターの試料バーコードは、短い相同領域しか有さないので、非特異的相互作用およびキメラ形成のリスクがほとんどない。したがって、同じ試料バーコードを同じ分子の両末端に配置することができ、それによって２つのバーコードを他方におけるエラーと比較することが可能になる。いずれのエラーも見つからなかった場合、試料を高い信頼度で割り当てることができる。２つのバーコードが同一でなかった場合、それらを、許容されるバーコードのリストと比較し、それに基づいて修正することができる。各インデックスに使用するバーコードの数によって、エラーを修正することができる程度が決まる。

したがって、低いキメラ形成リスクで、同じ分子の両末端に同じ試料バーコードを置くことができることは、単純だが強力なエラー修正の可能性をもたらす。同一性を検証するために分子の各末端の試料バーコードを比較するだけである。同じ場合には、分子を適切な試料ファミリーに入れることができる。それらがマッチしなかった場合には、両方を試料バーコードの許容可能なセットと比較することができ、間違ったバーコードを修正することができる可能性がある。本方法は、分子を適切な試料ファミリーに最小限のリード喪失で確実に割り当てる強力な方法を提供する。試料バーコード修正の例を表２に示す。バーコード間の編集距離によって、どの程度、バーコードが修正されるのかが決まることになり、編集距離が長いときほど、バーコードを修正する能力およびリードを保持する能力が高い。

同じ分子の異なる末端の試料バーコードの一致の欠如は、試料調製における問題のあるプロセスの証拠となる。マッチしない試料バーコードにより証明されるようなキメラ分子の頻度をモニターすることにより、ライブラリー調製およびシークエンシングの手法を改善することができる。

特定の分子バーコードが、複数の異なる分子バーコードとマッチし、ミスマッチの数が、それが単にシークエンシングエラーに起因しないことを示す場合、それは、１つまたは複数の分子リードがミスマッチであることを示す。分子対の相対頻度を使用して、どれが主要な種であり、そのままで使用することができるのか、およびどれがアーチファクトであり、修正または除去を必要とする可能性が高いのかを決定することができる。ｉ５およびｉ７アダプターが一対の試料にどのように分布しているのかの内訳については表３を参照されたい。正しいおよび修正可能なバーコードは、直接的に使用することができるが、ミスプライミングされた分子は、リードを復旧させるべき場合、より複雑な解析を必要とする。どのリードがミスプライミングされたのかが分からないと、正しくない情報が解析に組み込まれる可能性がある。ミスプライミングがどこで起こったのかを知ることにより、配列リードの適切な取り扱いが可能になる。ミスプライミングは、それを確実に検出することができる十分に低いレベルである場合にしか修正することができない。

図６に示されているように、ライゲーションステップにおけるアダプターの過剰は、残留アダプターがＰＣＲプライマー（例えば、配列番号３および４）により伸長され、続いて、その後の増幅段階で使用される場合、大きな問題につながり得る。０．２μＭおよびそれ未満で、ミスプライミングのレベルは比較的低いが、０．５μＭおよびそれより上ではかなり増大する。

まとめると、新規浮動またはデジタルバーコードを設計するためのアプローチの基本的な差異は、特定のヌクレオチド配列ではなくバーコードとしてのヌクレオチドの場所の使用であった。バーコードの数およびエラー修正の方法の柔軟性を可能にするこのテーマの複数の可能な変形形態がある。これらの新しいバーコードの恩恵の一部としては、（１）試料および分子ファミリーへのＮＧＳリードの割り当ての改善；（２）複合試料のためのオリゴ合成／精製数の低減；（３）縮重領域における問題のあるホモポリマーおよびＧＣリッチストレッチの数の低減が挙げられる。
（実施例２）

本実施例は、試料に伴う浮動バーコードについての試験を説明する。

浮動バーコードを試験するために、最大感度でリードミスマッチを検出するように実験を設計した。標準的なライブラリー調製プロトコールを使用した。標準バーコードと浮動バーコードの間に収率の有意差は認められなかった。

誤った割り当てを検出するために、３つの試料を調製し、標準バーコードと浮動バーコードの両方と並行してシークエンシングした。異なるバーコードを使用して各試料を調製した。３つの試料は、ヒトＤＮＡの標的パネルを使用して捕捉したヒトＤＮＡ、ならびにせん断したが選択的に捕捉していないＥ．ｃｏｌｉおよびＡｒａｂｉｄｏｐｓｉｓｔｈａｌｉａｎａからのゲノムＤＮＡであった。２０ｎｔインデックスシークエンシングのための同じＮｅｘｔＳｅｑシークエンシング実行時に６つの試料全てを実行した。次いで、得られたリードを、１回は標準バーコードを使用し、１回は浮動バーコードを使用して、２回、多重分離した。次いで、リードを別々に解析して、どのゲノムリードがアラインしたのかを見た。アラインされたヒト配列に関して、最初のアルゴリズムは、標準アラインメントと同様に良好であるかまたはそれより良好であり、図５に示されているようにＥ．ｃｏｌｉおよびＡｒａｂｉｄｏｐｓｉｓｔｈａｌｉａｎａに割り当てられたバーコードへのリードアラインメントは０．００２％未満であった。オフターゲットリードマッピングが少ないほど、招いたリード割り当てエラー率は低かった。

これらのデータは、浮動またはデジタルバーコードが、標準バーコードと比較して良好に機能したことを示す。例えば、遮断薬の変更を含む、実験室プロトコールの最適化、ならびに例えば、多重分離、エラー修正、およびリードファミリーの生成のためのソフトウェアを含む、ソフトウェア／アルゴリズムによって、配列解析についての浮動またはデジタルバーコードで得られる結果がさらに向上されるであろう。加えて、浮動またはデジタルバーコードを、複数のインデックスが有用である様々な応用において、例えば、１つ、２つ、３つ、またはそれより多くのインデックスが、例えば、分子、細胞および／または試料特性のマーキングならびにそれぞれのカテゴリーへのグループ化に有用である、単一細胞解析およびシステムでの細胞のマーキングにおいて、使用することができる。

まとめると、新規浮動またはデジタルバーコードシステムは、解析の複数の利点、例えば、柔軟性、より低いオリゴ合成コスト、および例えば、現行のエラー修正方法に比べて正しい試料および分子ファミリーへのリードのより良好な割り当てに至る改善を、意外にも、かつ驚くべきことに提供する、容易なエラー修正方法を提供する。
（実施例３）

本実施例は、どのように浮動バーコードを使用して、誤って割り当てられた分子リードを特定し、試料から除去することができるのかを説明する。

試料バーコードは、各分子の両末端において符号化されるので、エラー修正、および複数の試料から生じる望ましくないキメラ分子が有意な程度に発生していないことの確認の両方のために、バーコードを比較することがある。図６に示されているように、キメラ分子の形成は、たとえ標準条件を使用しても、大きな問題点であり得る。この問題は、同じ分子が複数の分子バーコード対を獲得し、分子の数をアーチファクトにより増加させる形、または間違った試料を分子リードに割り当て、その結果、バリアントの頻度または同一性が正しくなくなるという形をとり得る。両方の状況が、結果の臨床的解釈に影響を与え得る分析上の問題点をもたらす。

ライブラリー調製における増幅プライマーの絶対および相対濃度は、バーコードの効率および精度の変動を生じさせる。アダプターの初期濃度が高いほど、ライゲーションの効率が高くなり、回収することができる試料の割合が多くなる。残念なことに、過剰なアダプターは、アダプターが増幅され、プライマーとして使用されると、追加のバーコードがライゲーション段階だけでなく増幅中に付加されることになるという、増幅上の問題点をもたらし得る（図７）。増幅中に新しい試料バーコードが付加されると、リードが間違った試料に割り当てられ、バリアントの頻度または存在の精度が低下することになる。増幅中に新しい分子バーコードが付加されると、各分子は複数のバーコード対を有し、その結果、分子の多様性が過大評価されることになり、そのような多様性によってそれらのリードのエラー修正がより困難にまたは不可能になる。標準バーコードを用いた場合には、これらの問題の程度を測定することさえできない。浮動バーコードを用いた場合には、このような問題点が容易に検出され、その結果、方法を改善して精度を最適化することができる。
（実施例４）

分子バーコードは、ランダムであるが、試料バーコード内に散在しているため、問題を引き起こし得る完全にランダムな塩基の長いストレッチを含有しない。完全にランダムなバーコードは、１００％ＧＣであり得るが、２０ｎｔの全配列は、全てＡまたは全てＴであり得る試料バーコードを含有しなければならず、それ故、ＧＣ含有量の上限、通常は６５％、が設定される。このことによって、長いホモポリマーも防止される。完全にランダムなバーコードは、数百のコピーで存在し得る、ある特定の配列を有することが示されているが、ほとんどの配列は、数回しか存在しない。［Kinde I, Wu J, Papadopoulos N, Kinzler KW, Vogelstein B. Detection and quantification of rare mutations with massively parallel sequencing. Proc Natl Acad Sci U S A. 2011 Jun 7;108(23):9530-5. doi: 10.1073/pnas.1105422108. Epub 2011 May 17. PMID: 21586637; PMCID: PMC3111315］。有意に過剰に存在するバーコードがほとんどない、これらの分子バーコードのより均一な含有量を図８に示す。

本発明を、上記実施例に関して説明したが、修飾形態および変形形態が本発明の趣旨および範囲内に包含されることは理解されるであろう。したがって、本発明は、以下の特許請求の範囲によってのみ限定される。

Claims

試料中の核酸分子を標識するためのシステムであって、
複数のバーコードを含むオリゴヌクレオチドのセットを含み、各バーコードが、
（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、
（ｉｉ）試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードと
を含む、連続した塩基のストレッチを含み、
試料インデックス位置が分子インデックス位置の間に散在している、システム。
所定数の前記試料バーコードの位置が、異なる試料バーコード間で変動する、請求項１に記載のシステム。
前記バーコードが、約１０～約３５のヌクレオチドを含む、請求項１に記載のシステム。
前記バーコードが、約１２～約２５のヌクレオチドを含む、請求項１に記載のシステム。
前記試料バーコードが、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９もしくは２０カ所の試料インデックス位置、またはこれらの組合せを含む、請求項１に記載のシステム。
前記試料バーコードが、約４～約１２カ所の試料インデックス位置を含む、請求項１に記載のシステム。
前記分子バーコードが、約５～約２５カ所の分子インデックス位置を含む、請求項１に記載のシステム。
前記分子バーコードが、約５～約１５カ所の分子インデックス位置を含む、請求項１に記載のシステム。
試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドが、
（Ａ）前記試料インデックス位置ヌクレオチドが、Ａであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；
（Ｂ）前記試料インデックス位置ヌクレオチドが、Ｔであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；
（Ｃ）前記試料インデックス位置ヌクレオチドが、Ｃであり、前記分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；
（Ｄ）前記試料インデックス位置ヌクレオチドが、Ｇであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；
（Ｅ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；
（Ｆ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；
（Ｇ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；
（Ｈ）前記試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；
（Ｉ）前記試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または
（Ｊ）前記試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである、
から選択される、請求項１に記載のシステム。
各バーコードが、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含む、請求項１に記載のシステム。
前記１つまたは複数の追加のインデックスバーコードが、細胞バーコードであるか、非修復末端のＤＮＡ長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のＤＮＡ長の尺度を提供するバーコードの両方である、請求項１０に記載のシステム。
オリゴヌクレオチドの前記セット内の各オリゴヌクレオチドが、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む、請求項１に記載のシステム。
複数のバーコードを含む試料中の核酸分子を標識するためのオリゴヌクレオチドのセットであって、各バーコードが、
（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、
（ｉｉ）試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードと
を含み、
試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、オリゴヌクレオチドのセット。
所定数の前記試料バーコードの位置が、異なる試料バーコード間で変動する、請求項１３に記載のオリゴヌクレオチドのセット。
前記バーコードが、約１０～約３５のヌクレオチドを含む、請求項１３に記載のオリゴヌクレオチドのセット。
前記バーコードが、約１２～約２５のヌクレオチドを含む、請求項１３に記載のオリゴヌクレオチドのセット。
前記試料バーコードが、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９もしくは２０カ所の試料インデックス位置、またはこれらの組合せを含む、請求項１３に記載のオリゴヌクレオチドのセット。
前記試料バーコードが、約４～約１２カ所の試料インデックス位置を含む、請求項１３に記載のオリゴヌクレオチドのセット。
前記分子バーコードが、約５～約２５カ所の分子インデックス位置を含む、請求項１３に記載のオリゴヌクレオチドのセット。
前記分子バーコードが、約５～約１５カ所の分子インデックス位置を含む、請求項１３に記載のオリゴヌクレオチドのセット。
試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドが、
（Ａ）前記試料インデックス位置ヌクレオチドが、Ａであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；
（Ｂ）前記試料インデックス位置ヌクレオチドが、Ｔであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；
（Ｃ）前記試料インデックス位置ヌクレオチドが、Ｃであり、前記分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；
（Ｄ）前記試料インデックス位置ヌクレオチドが、Ｇであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；
（Ｅ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；
（Ｆ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；
（Ｇ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；
（Ｈ）前記試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；
（Ｉ）前記試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または
（Ｊ）前記試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである、
から選択される、請求項１３に記載のオリゴヌクレオチドのセット。
各バーコードが、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含む、請求項１３に記載のオリゴヌクレオチドのセット。
前記１つまたは複数の追加のインデックスバーコードが、細胞バーコードであるか、非修復末端のＤＮＡ長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のＤＮＡ長の尺度を提供するバーコードの両方である、請求項２２に記載のオリゴヌクレオチドのセット。
オリゴヌクレオチドの前記セット内の各オリゴヌクレオチドが、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む、請求項１３に記載のオリゴヌクレオチドのセット。
試料中の核酸分子の配列を解析するための方法であって、
（ａ）複数のオリゴヌクレオチドを前記核酸分子に付着させるステップであって、各オリゴヌクレオチドが、
（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコード、および
（ｉｉ）試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードと
を含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ；および
（ｂ）前記核酸分子をシークエンシングするステップであって、配列リードが、バーコード配列を含む、ステップ
を含む方法。
同じ試料バーコードを含むオリゴヌクレオチドを前記試料中の核酸分子の各末端に付着させるステップをさらに含む、請求項２５に記載の方法。
所定数の前記試料バーコードの位置が、異なる試料バーコード間で変動する、請求項２５に記載の方法。
前記バーコードが、約１０～約３５のヌクレオチドを含む、請求項２５に記載の方法。
前記バーコードが、約１２～約２５のヌクレオチドを含む、請求項２５に記載の方法。
前記試料バーコードが、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９もしくは２０カ所の試料インデックス位置、またはこれらの組合せを含む、請求項２５に記載の方法。
前記試料バーコードが、約４～約１２カ所の試料インデックス位置を含む、請求項２５に記載の方法。
前記分子バーコードが、約５～約２５カ所の分子インデックス位置を含む、請求項２５に記載の方法。
前記分子バーコードが、約５～約１５カ所の分子インデックス位置を含む、請求項２５に記載の方法。
試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドが、
（Ａ）前記試料インデックス位置ヌクレオチドが、Ａであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；
（Ｂ）前記試料インデックス位置ヌクレオチドが、Ｔであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；
（Ｃ）前記試料インデックス位置ヌクレオチドが、Ｃであり、前記分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；
（Ｄ）前記試料インデックス位置ヌクレオチドが、Ｇであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；
（Ｅ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；
（Ｆ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；
（Ｇ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；
（Ｈ）前記試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；
（Ｉ）前記試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または
（Ｊ）前記試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである、
から選択される、請求項２５に記載の方法。
各バーコードが、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含む、請求項２５に記載の方法。
前記１つまたは複数の追加のインデックスバーコードが、細胞バーコードであるか、非修復末端のＤＮＡ長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のＤＮＡ長の尺度を提供するバーコードの両方である、請求項３５に記載の方法。
前記配列リードを、試料インデックス位置の場所に基づいて試料ファミリーに割り当てるステップをさらに含む、請求項２５に記載の方法。
前記配列リードを、分子インデックス位置の場所および各分子インデックス位置の前記ヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む、請求項２５に記載の方法。
配列リードにおける試料インデックス位置の数および場所を試料インデックス位置の前記所定数および場所と比較することによりシークエンシングエラーを修正するステップをさらに含む、請求項２５に記載の方法。
配列リードの両末端の試料バーコードを比較することによりシークエンシングエラーを修正するステップをさらに含む、請求項２５に記載の方法。
前記配列リードの各末端の非同一試料バーコードを許容される試料バーコードと比較するための規則を適用するステップを含む、請求項４０に記載の方法。
（１）バーコード内のエラーを修正するための、（２）核酸分子の各末端のバーコード間のエラーを修正するための、（３）配列リードを試料ファミリーに多重分離するための、（４）配列リードを分子ファミリーに割り当てるための、またはこれらの任意の組合せのための、１つまたは複数の規則を適用するステップをさらに含む、請求項２５に記載の方法。
各オリゴヌクレオチドが、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む、請求項２５に記載の方法。
配列リードの誤った割り当てを高感度に検出するための、各オリゴヌクレオチドが試験される異なるゲノムの使用をさらに含む、請求項２５に記載の方法。
試料中の核酸分子を標識するための方法であって、複数のオリゴヌクレオチドを、バーコードを含む前記核酸分子に付着させるステップを含み、各バーコードが、
（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、
（ｉｉ）試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードと
を含み、
試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、方法。
同じ試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップをさらに含む、請求項４５に記載の方法。
所定数の前記試料バーコードの位置が、異なる試料バーコード間で変動する、請求項４５に記載の方法。
前記バーコードが、約１０～約３５のヌクレオチドを含む、請求項４５に記載の方法。
前記バーコードが、約１２～約２５のヌクレオチドを含む、請求項４５に記載の方法。
前記試料バーコードが、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９または２０カ所の試料インデックス位置を含む、請求項４５に記載の方法。
前記試料バーコードが、約４～約１２カ所の試料インデックス位置を含む、請求項４５に記載の方法。
前記分子バーコードが、約５～約２５カ所の分子インデックス位置を含む、請求項４５に記載の方法。
前記分子バーコードが、約５～約１５カ所の分子インデックス位置を含む、請求項４５に記載の方法。
試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドが、
（Ａ）前記試料インデックス位置ヌクレオチドが、Ａであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ｔ、もしくはこれらの組合せであるか；
（Ｂ）前記試料インデックス位置ヌクレオチドが、Ｔであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、Ａ、もしくはこれらの組合せであるか；
（Ｃ）前記試料インデックス位置ヌクレオチドが、Ｃであり、前記分子インデックス位置ヌクレオチドが、Ｇ、Ａ、Ｔ、もしくはこれらの組合せであるか；
（Ｄ）前記試料インデックス位置ヌクレオチドが、Ｇであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ａ、Ｔ、もしくはこれらの組合せであるか；
（Ｅ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｃ、Ｇ、もしくはこれらの組合せであるか；
（Ｆ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであるか；
（Ｇ）前記試料インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであるか；
（Ｈ）前記試料インデックス位置ヌクレオチドが、Ｔ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｇ、もしくはこれらの組合せであるか；
（Ｉ）前記試料インデックス位置ヌクレオチドが、Ｔ、Ｇ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｃ、もしくはこれらの組合せであるか；または
（Ｊ）前記試料インデックス位置ヌクレオチドが、Ｇ、Ｃ、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、Ａ、Ｔ、もしくはこれらの組合せである、
から選択される、請求項４５に記載の方法。
各バーコードが、インデックス位置を含む１つまたは複数の追加のインデックスバーコードを含む、請求項４５に記載の方法。
前記１つまたは複数の追加のバーコードが、細胞バーコードであるか、非修復末端のＤＮＡ長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のＤＮＡ長の尺度を提供するバーコードの両方である、請求項５５に記載の方法。
各オリゴヌクレオチドが、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む、請求項４５に記載の方法。
多重分離せずに核酸配列データを格納するステップをさらに含む、請求項２５～４４のいずれか一項に記載の方法。
多重分離せずに核酸配列データを格納するステップが、多重分離キーの非存在下での配列データの使用を防止し、かつ前記データの不正使用を防止する、請求項５８に記載の方法。
誤った配列リードを特定するための方法であって、
（ａ）複数のオリゴヌクレオチドを試料の核酸分子に付着させるステップであって、各オリゴヌクレオチドが、
（ｉ）１つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が、試料間で変動し、同じ試料バーコードが、前記試料中の核酸分子の各末端に付着されている、試料バーコード、および
（ｉｉ）試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコード
を含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ；および
（ｂ）前記核酸分子をシークエンシングするステップであって、配列リードが、バーコード配列を含む、ステップ
を含み、それによって、誤った配列リードを特定する方法。
誤った配列リードを特定することが、一致しない試料バーコードを有する核酸分子を特定することを含む、請求項６０に記載の方法。
配列リードの両末端の試料バーコードを比較することによりシークエンシングエラーを修正するステップをさらに含む、請求項６０に記載の方法。
一致しない試料バーコードを有する前記核酸分子を、前記配列リードからおよび／または分子ファミリーから除去するステップをさらに含む、請求項６１に記載の方法。
一致しない試料バーコードを有する核酸分子を特定することが、ミスプライミングされた核酸分子を特定することを含む、請求項６１に記載の方法。
ミスプライミングされた核酸分子が、適切なバーコードで修正され、配列品質を向上させるために使用される、請求項６４に記載の方法。
修正されたバーコードを有する核酸分子が、修正されたリードファミリーに割り当てられる、請求項６５に記載の方法。
修正されたリードファミリーが、明確に異なるカバレッジを正確に決定するために使用される、請求項６６に記載の方法。
明確に異なるカバレッジの決定が、核酸分子のライブラリーを評価するために使用される、請求項６７に記載の方法。
前記配列リードを、分子インデックス位置の前記場所および各分子インデックス位置の前記ヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む、請求項６０に記載の方法。
誤った配列リードを特定することが、複数の分子ファミリーに割り当てられた核酸分子を特定することを含む、請求項６９に記載の方法。
複数の分子ファミリーに割り当てられた前記核酸分子を、前記配列リードからおよび／または分子ファミリーから除去するステップをさらに含む、請求項７０に記載の方法。