JP2019131539A

JP2019131539A - 次世代シーケンシングにおける検体間相互汚染の検出方法

Info

Publication number: JP2019131539A
Application number: JP2019006291A
Authority: JP
Inventors: 小原　收; Osamu Obara; 收小原; 藤木亮次; Ryoji Fujiki
Original assignee: Kazusa DNA Research Institute Foundation
Current assignee: Kazusa DNA Research Institute Foundation
Priority date: 2018-01-31
Filing date: 2019-01-17
Publication date: 2019-08-08
Anticipated expiration: 2039-01-17
Also published as: JP6766191B2

Abstract

【課題】次世代シーケンシングに於いて、核酸検体を特定又は識別することに加えて、検体間相互汚染等を定量的に確認できるような技術を提供すること。【解決手段】複数のシーケンシング反応が並行して実行される核酸塩基配列決定法に供するための、複数の検体由来の核酸分子断片を含むライブラリーの調製方法であって、各検体に由来する核酸分子の夫々に、該検体に固有のスパイクインDNAを混入させて、各検体に対応するライブラリー用核酸試料を調製するステップ、及び各検体に対応するライブラリー用核酸試料に含まれる核酸分子から調製された核酸分子断片及びスパイクインDNAの夫々に、各検体に固有の塩基配列から成るバーコード配列を付加して各検体由来のライブラリーを調製するステップ、を含み、該スパイクインDNAが各検体に固有の塩基配列から成るインデックス配列、及びインデックス検索配列を含むことを特徴とする核酸塩基配列決定法。【選択図】図１

Description

本発明は、複数のシーケンシング反応が並行して実行される核酸塩基配列決定法に供するための、複数の検体由来の核酸分子断片を含むライブラリーの調製方法、該ライブラリーを用いて複数のシーケンシング反応を並行して実行するステップを含む核酸塩基配列決定法、及び、次世代シーケンシングに於ける出力データから各検体間の相互汚染等を定量的に検出する方法等に関する。

従来、DNA又はRNA等の核酸検体を保管・処理・検査等の各種の処理をする際に、検体を特定又は識別するために技術が開発されている。

例えば、特許文献１には、DNA等の検体を特定する情報を、その増幅プロセス、特異的配列の検出プロセスに至るまで一貫して保持できる識別技術を提供することを目的とした発明が記載されている（段落番号０００７）。

ジェノタイピング等を行うために、検体ゲノムDNAから多型を含む断片をその後の処理過程（たとえば増幅、精製、検出プロセス）で処理する際に、この断片の供給元としての元検体がどれであったかを常に確認しておく必要がある（段落番号０００４）。

該発明は、上記の識別技術として、検体の所定部分を増幅して分析等を行う際に、検体とは別個に作製された検体の識別を容易とする識別子プローブ及びそれを用いたプライマーセット、この識別子プローブを用いた検体保管方法、核酸増幅方法及び増幅結果の検査方法に関するものである（段落番号０００１）。

具体的には、DNAまたはRNAからなる検体に付与した個別コードにデコード可能な情報が組み込まれている塩基配列を、前記検体の増幅のための２本のプライマーを用いて増幅可能な領域に有することを特徴とする、検体とは別個に作製された識別子プローブが記載されている（段落番号０００８、特許請求の範囲）。

この識別子プローブは、検体に対してユニークに予め定義された塩基配列を有しており、検体もしくは検体の一部を増幅する上で必要な一対のプライマーと同一のプライマーで同時に増幅できるようにデザインされる。識別子プローブは、検体検出のためのプローブとは別個の識別子プローブ捕獲用のプローブとハイブリダイゼーションさせることで識別子プローブの有する検体個別コードに関する情報を特定して、それをデコードし検体個別コードを確認することができる（段落番号００１８）。

上記検体保管方法では、検体個別コードを取り込んだ識別子プローブと検体とを混合し同一コンテナで保管管理することによって該混合物を同時増幅、同時ハイブリダイゼーションすることでその検体と工程を管理しつつ保管する（段落番号００１０及び００１６）。

該発明に於いては、検体試料を保管するコンテナ、ここでは、マイクロチューブやマイクロタイタープレートのウェルのような容器内に、検体とその個別コードに関する情報を有する識別子プローブが混合され配置される。例えば、識別子プローブは、予めコンテナ内に仕込まれるか、又は、検体投入時に同時に識別子プローブを投入してこれらが混合される（段落番号００３０）。

このように、特許文献1に記載の発明においては、識別子プローブのプライマー領域が検体増幅用プライマー領域と統一されている（ユニバーサルプライマー）ので、同一の増幅プロセスで検体の増幅対象領域と識別子プローブを同時に増やすことが可能である（段落番号００２２）。しかしながら、あくまで識別子プローブは検体由来の増幅産物とは別個の独立した物質として増幅され（段落番号００３４〜００３８、図３及び図４等）、且つ、提供元のコンテナと関連付けて検体に付与した個別コードで検体の管理を確実に行う為には、各種プロセスにおいて、或る検体試料と識別子プローブとの混合物は、他の検体試料と識別子プローブとの混合物とは別個に処理されることが前提とされている（段落番号００３２）。

その結果、検体の処理プロセスにおいて他の検体とコンタミネーションを引き起こした場合には、その両者の識別子プローブの有無を検出するために、問題を引き起こしたことを検出時に確認できるが、単に、他の検体がコンタミネーションしていることが示され、検体の分析データの信憑性が定性的に判断されるに過ぎない（段落番号００１５及び００３９等）。

また、特許文献２には、動植物から分離取得される血液、血清、細胞、尿、糞便等の生体試料から、タンパク質、糖、脂質等の多種多様な夾雑物に起因する悪影響を排除するために、塩基配列解析用の核酸を分離精製するための核酸前処理キット、および当該キットを用いて分離された核酸の塩基配列解析方法に関する発明が記載されている。

塩基配列解析に供するための生体試料からの核酸の分離精製等の前処理では、ピペッティングや別容器への試料の移動等の操作が開放系で実施される。そのため、塩基配列解析の前処理操作において、試料間でのコンタミネーションが生じる場合があり、検査結果の信頼性低下のリスクがある（段落番号０００５）。更に、従来の密閉系の前処理デバイスを用いた場合でも、解析用ライブラリーの作製や、塩基配列解析装置への試料注入等の際に、容器の移し替えを必要とするため、ヒューマンエラーに起因する検体試料取り違えのリスクがある（段落番号００１０）。

このような取り違えに起因する誤検出を防止する目的で、検体試料を装填するための容器毎に、バーコード等の外部から認識可能な識別情報を付しておき、ライブラリーの作製から塩基配列解析までのプロセスを一貫してコード管理する方法もあるが、容器に付された識別情報をプロセス単位で引き継いで管理する方法では、核酸の前処理から塩基配列の解析までを単一の主体で一貫して管理することが困難であり、コードの読み取りミスやコードの混同等に起因して、検査の信頼性が低下するリスクを含んでいる（段落番号００１１）。

そこで、該発明では、生体試料から核酸を分離精製する前処理の段階で、検体ごとに異なる塩基配列を有する個体識別用核酸を試料に加えておき、塩基配列を解析する際に、解析対象の核酸の塩基配列に加えて、個体識別用核酸の塩基配列を解析する（段落番号００１３）。これにより、検体試料を特定する情報を一貫して保持できる。

個体識別用核酸は、水系液体のうちの少なくとも１つに含まれているか、または核酸捕捉粒子の表面に結合した状態で、キットに含まれる（段落番号００１８）。

個体識別用核酸の塩基配列は、生体試料に含まれる核酸に対して非相補的な塩基配列からなる識別配列を含む。本発明のキットを用いて回収した生体試料中の核酸の塩基配列を解析する際に、個体識別用核酸の塩基配列もあわせて解析を行う。塩基配列解析により得られた識別配列部分の塩基配列が、キットに含まれていた個体識別用核酸の識別配列の塩基配列と一致するか否かの照合を行うことにより、検査の信頼性が高められる（段落番号００１９）。

更に、個体識別用核酸の識別配列の３’側および５’側のいずれか一方またはそれらの両方に、生体試料に含まれる塩基配列解析対象の核酸（標的）に対して相補的な塩基配列が含まれている場合には、個体識別用核酸をＦＷプライマーまたはＲＷプライマーのいずれか一方としてＰＣＲを行い得る。そのため、個体識別用核酸の相補的配列部分と塩基配列解析対象の核酸とをアニールさせ、解析対象の核酸と識別配列のアンチセンス配列とが連結されたフラグメントを増幅できる。このフラグメントの塩基配列を解析することにより、塩基配列解析対象の核酸の塩基配列と、個体識別用核酸の識別配列の塩基配列とを同時に解析できる（段落番号００５４〜００５６）。

このように、特許文献１及び特許文献２に記載された発明に於いては、検体試料の取り間違い、又は、他の検体の混入等によるコンタミネーションの有無を定性的に検出することが可能である。しかしながら、各種の処理プロセスに於ける操作は、あくまで、個別の検体（生体試料）に対して、夫々、独立した系で個別に行われている。

又、特許文献３には、高処理配列決定に於いて、サンプルの起源を同定するのに必要な固有のアダプターまたはプライマーの数も増えていくことに伴い生じる障害を防ぐために、それらの数を減らして、サンプル調製を単純化し、作業量を減らし、技術的性能を最適化し、そしてコストを減らすことを目的とする発明が記載されている（段落番号０００８）。即ち、該発明は、いわゆるデマルチプレックス技術（NGSにおいて複数検体の同時シーケンシングを可能にする技術）に関連するものである。

該発明は、かかる目的を達成するために、高処理配列決定用のサンプルDNAの調製に於いて、少なくとも２種類のヌクレオチド配列識別子の組合せを使用する技術に関する発明が記載されている。即ち、係る２種類のヌクレオチド配列識別子は、いわゆる「スプリットバーコード」として、少なくとも２種のアダプターおよび／またはプライマー上に存在するヌクレオチド配列識別子である（段落番号０００９）。

更に、特許文献４には、核酸試料をマーキングするための核酸マーカー分子が開示されている。該核酸マーカー分子により核酸試料をマーキングすることによって、核酸試料の同定と混合された試料の解像を可能とし、更に、試料の相互汚染の検出を可能にする。該核酸マーカー分子は、並行した配列決定技術を用いる配列決定前に核酸試料をマーキングするために特に有用とされている（要約）。

特開２００７−７４９６７号公報特開２０１７−１２７２２４号公報特許第６１１０２９７号公報国際公開第２０１４／１２８４５３号

近年、塩基配列決定方法の主流は、サンガーシーケンシングから次世代シーケンシング（NGS）へ移っている。NGSは大量の塩基配列を決定できることが利点であり、複数の検体由来の非常に多数のサンプル（多数の核酸分子断片を含むライブラリー）を同一の系で同時測定するのが一般的である。その結果、実験の従事者は、従来のサンガー法と比べ、多くのサンプルを同時にハンドリングする必要に迫られている。こうしたNGSに特有な事情が、１）検体（サンプル）の取り間違い、２）検体相互汚染等のリスクを大きく高めているのが実情である。

このような次世代シーケンシング（NGS）に於いては、各検体由来のライブラリーを調製する際に、核酸分子断片に連結するアダプターに各検体に固有の識別配列（「バーコード」又は「Index」等とも呼ばれる）を含ませることによって、複数の検体に由来する各核酸分子断片がどの検体に由来するものかを識別している。しかしながら、実験従事者のハンドリングミスや使用するアダプター等の試薬の汚染（検体を識別するための該バーコード配列の純度が必ずしも100%とは限らない）等が原因で生じる検体間の相互汚染については、検出・定量することが出来ない。

一方、既に記載したように、従来技術の例として挙げた特許文献１及び特許文献２に記載の発明はいずれも、各検体を個別の独立した系で処理する技術に関連するものであり、複数の検体由来の試料が同一の系で同時処理・測定されることを前提とするNGSに提供される検体の各種処理を前提とした技術ではない。

そこで、このようなNGSに於いて、DNA又はRNA等の核酸検体を特定又は識別することに加えて、既に記載したような、偶発的な原因による検体間相互汚染等が発生した場合に、それを定量的に確認できるような技術が求められている。

従って、本発明の目的は、上記の課題を解決する技術を提供することである。

本発明者らは、上記課題を解決するために、鋭意、研究の結果、NGSを実施する全ての検体の夫々に、各検体に固有の塩基配列から成るインデックス配列を含むスパイクインDNAを予め混入させておき、更に、検体由来の核酸（断片）及びそれに混入されたスパイクインDNAの全てに各検体毎に固有の塩基配列から成るバーコード配列を連結させることによって、上記の課題が解決できることを見出し、本発明を完成させた。

本発明は、より具体的には以下の態様を提供するものである。
［態様１］
複数のシーケンシング反応が並行して実行される核酸塩基配列決定法に供するための、複数の検体由来の核酸分子断片を含むライブラリーの調製方法であって、
（１）各検体に由来する核酸（DNA）分子の夫々に、該検体に固有のスパイクインDNAを混入させて、各検体に対応するライブラリー用核酸試料を調製するステップ、及び
（２）上記の各検体に対応するライブラリー用核酸試料に含まれる核酸分子から調製された核酸分子断片及びスパイクインDNAの夫々に、各検体に固有の塩基配列から成るバーコード配列を付加して各検体由来のライブラリーを調製するステップ、を含み、
該スパイクインDNAが、各検体に固有の塩基配列から成るインデックス配列、及びインデックス検索配列を含むことを特徴とする、前記方法。
［態様２］
該スパイクインDNAが更にプローブ相補配列及び/又はランダム配列を含む態様１記載の調製方法。
［態様３］
前記バーコード配列を含むアダプターを該核酸分子断片及び該スパイクインDNAの末端に連結させることにより、該バーコード配列を付加する、態様１又は２に記載の調製方法。
［態様４］
更に、ハイブリダイゼーシュンキャプチャー法によってライブラリー断片からターゲット配列を濃縮するステップを含む、態様１〜３のいずれか一項に記載の調製方法。
［態様５］
PCRにより核酸分子断片が増幅されるステップを含む、態様１〜４のいずれか一項に記載の調製方法。
［態様６］
態様１〜５のいずれか一項に記載の調製方法によって複数の検体由来の核酸分子断片を含むライブラリーを調製した後に、更に、該ライブラリーを用いて複数のシーケンシング反応を並行して実行するステップを含む、核酸塩基配列決定法。
［態様７］
PCRにより増幅された核酸分子断片をシーケンシングすることを特徴とする、態様６に記載の核酸塩基配列決定法。
［態様８］
更に、該スパイクインDNAに含まれるインデックス配列及び該バーコード配列に関して得られた配列情報に基づき、各検体間の相互汚染に関するデータ解析を行うステップを含む、態様６又は７に記載の核酸塩基配列決定法。
［態様９］
データ解析が以下の処理を含むことを特徴とする態様８記載の方法：
ベースコール；
デマルチプレックス；
IDX配列データの抽出；
IDXデータのQC；
脱重複処理(ランダム配列を含む場合)；及び
IDXデータの集計（カウント）。
［態様１０］
態様６〜８のいずれか一項に記載の核酸塩基配列決定法により該スパイクインDNAに含まれるインデックス配列及び該バーコード配列に関して得られた配列情報の組み合わせ及びその検出割合に基づきデータ解析を行うことにより、該核酸塩基配列決定法に於ける各検体間の相互汚染を定量的に検出する方法。
［態様１１］
データ解析が以下の処理を含むことを特徴とする態様１０に記載の方法：
ベースコール；
デマルチプレックス；
IDX配列データの抽出；
IDXデータのQC；
脱重複処理(ランダム配列を含む場合)；及び
IDXデータの集計（カウント）。
［態様１２］
態様１〜１１のいずれか一つに記載の方法で使用するための核酸分子のセットであって、各検体に固有の塩基配列から成るインデックス配列及びインデックス検索配列を含むスパイクインDNAから成る核酸分子、並びに、各検体に固有の塩基配列から成るバーコード配列を含む核酸分子を含む、前記セット。
［態様１３］
スパイクインDNAが更にプローブ相補配列及び/又はランダム配列を含む、請求項１２に記載の核酸分子のセット。
［態様１４］
態様１〜５のいずれか一つに記載の調製方法で使用するためのライブラリー調製用キットであって、各検体に固有の塩基配列から成るインデックス配列及びインデックス検索配列を含むスパイクインDNAから成る核酸分子、並びに/又は、各検体に固有の塩基配列から成るバーコード配列を含む核酸分子を含む、前記キット。
［態様１５］
各検体に由来する核酸（DNA）分子を取り込むための容器内に該検体に固有のスパイクインDNAが予め保持又は封入されている、態様１４記載のキット。

本発明に於いて、各検体に由来する核酸（DNA）分子に予め混入させた、該検体に固有の塩基配列から成るインデックス配列を含むスパイクインDNA、及び、各検体に固有の塩基配列から成るバーコード配列から成る組合せを利用して核酸塩基配列決定法用のライブラリーを調製することによって、複数のシーケンシング反応が並行して実行される核酸塩基配列決定法用に於いて、実験実施者のハンドリングミス、使用機器における前回測定サンプルのキャリーオーバー、及び、使用する各種試薬の汚染等が原因で生じる検体間の相互汚染等の可能性を確認できるだけでなく、それがどの程度の汚染であるかを定量的に検出する、という従来技術では達成できなかった効果を奏することが出来る。

即ち、（１）各検体に由来する核酸（DNA）分子の夫々に、該検体に固有のスパイクインDNAを混入させて、各検体に対応するライブラリー用核酸試料を調製するステップ、及び
（２）上記の各検体に対応するライブラリー用核酸試料に含まれる核酸分子から調製された核酸分子断片及びスパイクインDNAの夫々に、各検体に固有の塩基配列から成るバーコード配列を付加して各検体由来のライブラリーを調製するステップ、を含み、
該スパイクインDNAが、各検体に固有の塩基配列から成るインデックス配列、及びインデックス検索配列を含むことを特徴とする調製方法によって得られるライブラリーを用いて複数のシーケンシング反応が並行して実行される核酸塩基配列決定法を実施することによって、塩基配列解析において出力されたリード配列がどの検体に由来するかを特定・識別できる（データからサンプルの由来をトラッキングする技術）だけでなく、その純度がどの程度であったかを算定することができる。更に、シーケンシングによって得られた各種の出力データ（配列情報等）に基づくデータ解析から、既に記載したような検体間の相互汚染等の可能性を確認できるだけでなく、それがどの程度の汚染であるかを定量的に検出することも可能である。

又、本発明の調製方法に於いて、塩基配列決定の対象となる、検体に由来する核酸（DNA）分子を取り込む容器（検体保管用コンテナ等）として、その中に該検体に固有のスパイクインDNAを識別子の一つとして適当な方法で予め保持又は封入されたものを構成要素として含むキットを使用することによって、例えば、検体を提供する施設（例えば医療機関等）及びNGS解析を実施する施設のいずれに於いても、特に、NGS解析に関する専門的な知識がない者によっても、本発明の調製方法を容易に実施することが可能となる。

本発明のスパイクインDNAの構成の一例を示す。実施例１（表２に記載の「IDX1」を含む）及び実施例２（表９に記載の「IDX1」を含む）で用いられたスパイクインDNAに対応する具体的な塩基配列の一例を示す。 DNA Clean & Concentrator-5により単離されたプローブ相補配列の増幅物断片を示す電気泳動の写真である。実施例１に於けるDNA Clean & Concentrator-5により単離された４種類のライブラリー用核酸試料の増幅物断片を示す電気泳動の写真である。実施例１に於けるMultiNAにより得られた、各検体由来の４種類のライブラリー（サンプル）の電気泳動像である。 MultiNAにより得られた、ハイブリダイゼーションキャプチャー法によるターゲット配列が濃縮されたライブラリープール（複数の検体由来の核酸分子断片を含むライブラリー）の電気泳動像である。実施例１に於けるNextSeq (登録商標)シーケンシングシステムから出力されたデータの解析フローの概略を示す。実施例２に於けるマイクロチップ泳動装置により単離された５種類のライブラリー用核酸試料の増幅物断片を示す電気泳動の写真である。実施例２に於けるMultiNAにより得られた、各検体由来の５種類のライブラリー（サンプル）の電気泳動像である。実施例２に於けるNextSeq (登録商標)シーケンシングシステムから出力されたデータの解析フローの概略を示す。

複数のシーケンシング反応が並行して同時に実行される核酸塩基配列決定法（シーケンシング）は、数百万から数十億もの膨大な数のシーケンシング反応を所謂「高速シークエンサー」等と呼ばれる機器を用いて行われる方法であって、従来のジデオキシ法（サンガー法）による核酸塩基配列決定法を第１世代と考えて、「次世代シーケンシング（NGS）」等とも呼ばれている。該方法では、複数の種類の検体（固体）由来の核酸分子断片を同時に配列決定できる等の高度な処理を高速で実施することが可能である。その結果、全ゲノム解析、エクソーム解析、及びトランスクリプトーム解析等の広範囲な用途に使用されている。特に、この次世代シーケンシングによるヒトゲノムの解析は精密医療、個の医療、及び、臨床診断学等を支える主要技術であり、ポストゲノム時代を迎えた昨今では医療の分野に急速に普及しつつある。

次世代シーケンシング（NGS）は、いずれも（１）試料調製、（２）核酸塩基配列決定（シーケンシング）、及び（３）データ出力（「データ処理」、又は、「データ解析」）を含む。読み取り断片の長さ（リード長）は平均で数十〜1000ｂｐ程度及び１ラン当たりのリード数は平均百万〜数十億であり、その結果、１ラン（１回の実験）当たりの数Mb〜数百Gb程度の読み取り塩基数が得られる。それらは主にシーケンシングの反応・原理に基づき幾つかの方法に分類される。

第２世代シーケンシングとして、核酸取り込みの際のピロリン酸放出を検出するピロシーケンシングと呼ばれる技術（Roche社のGS FLXシステム等）、及び、可逆的な蛍光と終始核酸の段階的な取り込みを特徴とする合成によるシーケンシング技術（Illumina社のHiSeq及びNextSeq（登録商標）シリーズ）等がある。

第３世代シーケンシングとして、１分子リアルタイムシークエンサーと呼ばれる、PCR増幅を必要とせずに、DNA合成反応の際の各ｄNTPの取り込みに際してDNAポリメラーゼによる近傍の蛍光のみを検出し、各塩基による蛍光色を区別する技術（Pacific Bioscience社）が開発されている。

更に、第４世代シーケンシングとして、DNAポリメラーゼによる各塩基が取り込まれるときに放出される水素イオン（ｐH変化）の各塩基毎の違いを検出するイオン半導体シーケンシング技術（Thermo Fisher SCIENTIFIC 社のIon Torrent システム）を挙げることが出来る。

[核酸塩基配列決定法用のライブラリーの調製方法]
第一に、本発明は、このような次世代シーケンシング（NGS）である、複数のシーケンシング反応が並行して実行される核酸塩基配列決定法に供するための複数の検体由来の核酸分子断片を含むライブラリーの調製方法に係る。

該方法は、（１）各検体に由来する核酸（DNA）分子の夫々に、該検体に固有のスパイクインDNAを混入させて、各検体に対応するライブラリー用核酸試料を調製するステップ、及び
（２）上記の各検体に対応するライブラリー用核酸試料に含まれる核酸分子から調製された核酸分子断片及びスパイクインDNAの夫々に、各検体に固有の塩基配列から成るバーコード配列を付加して各検体由来のライブラリーを調製するステップ、を含み、
該スパイクインDNAが各検体に固有の塩基配列から成るインデックス配列、及びインデックス検索配列を含むことを特徴とする。

ステップ（１）
「各検体に由来する核酸（DNA）分子」には、任意の種類の生物又は生物由来の試料(検体)、例えば、動植物組織、体液、排泄物等の生物由来の試料（全血、唾液、バイオプシーなど遺伝子解析の材料となるもの）、細胞、原虫、真菌、細菌、ウィルス等の核酸包含体等の任意の種類の検体に由来する（含まれている）ゲノムDNA又はその転写産物から得られたｃDNA等を含む。これらの核酸は各検体から当業者に公知の任意の方法・手段により分離・精製等の各種の処理によって調製され、更に、核酸塩基配列決定に際して、その具体的な用途及びシーケンシングの種類・原理等に応じて、数百〜数千塩基対程度のサイズに断片化することが出来る。

更に、該核酸分子に該検体に固有のスパイクインDNAを混入させる前に、必ずしも、各検体に含まれる該核酸分子を予め分離・精製等の各種処理によって調製する必要はない。従って、本発明に於ける「各検体に由来する核酸（DNA）分子」には、これらの処理が施されていない、調製前の元の状態で該核酸分子を含む上記の生物又は生物由来の試料である核酸包含体自体も「各検体に由来する核酸（DNA）分子」に包含される。

一方、別途、夫々の検体に固有のスパイクインDNAを調製し、予め、上記で得られた各検体に由来する核酸分子の夫々に該スパイクインDNAを特定の割合で混入させて、各検体に対応するライブラリー用核酸試料を調製する。混入は当業者に公知の任意の方法・手順で実施することが出来る。例えば、９６穴マイクロプレート及び実験チューブのような、該核酸分子を取り込むための適当な容器（検体保管用コンテナ等）内に当業者に公知の適当な方法で該スパイクインDNAを予め保持又は封入させておき、そこに検体由来の核酸分子を取り込む（投入する）か、又は、該容器内に検体由来の核酸分子を取り込む際、又はその後に、該スパイクインDNAを添加しても良い。

なお、検体保管用コンテナ等として使用する上記の容器は、使用する「各検体に由来する核酸（DNA）分子」の態様に応じて、上記の具体例に加えて、当業者に公知の様々な種類(名称)のものを使用することが出来る。例えば、実質的にDNAを対象とするなら8連のPCRチューブ等、全血が対象であれば採血管、一般的な遺伝子解析キットにおけるスワブテスト用のチューブ等を挙げることが出来る。

尚、検体間の相互汚染を定量的に解析するためには、スパイクインDNAは出来るだけ高純度のものが好ましい。このような純度は、当業者に公知の任意の方法・手段、例えば、質量分析装置による評価などで求めることが出来る。

仮に、スパイクインDNA（又は、それに含まれるインデックス配列）自体の純度が低い、又は、それ自体が汚染されているような場合には、検出の精度は落ちてしまうが、「edit distance」（オリジナルと何文字の相違があるかを数値化したもの）という概念をデータ解析に導入することによって、検体間の相互汚染の検出に与える影響を実質的になくすことが出来る。以下、「edit distance」を具体的に説明する。

即ち、サンプル（検体）Aに「ATGCA」というインデックス配列を含むスパイクインDNAを混入させる。また、サンプルBに「TACGT」、サンプルCに「CTACA」から成るインデックス配列を含むスパイクインDNAを混入させる。塩基配列決定の結果、サンプルAで検出されたリードの中に、「ACGCA」と「TACCT」という想定外のインデックス配列が検出されたとする。このような場合に、厳密には、これら想定外のリードがインデックス配列の合成不良（低い純度）又はシーケンシング不良に起因するのか、検体間の相互汚染によるかを断定することはできない。しかしながら、「ACGCA」はサンプル（検体）Aに混入されたインデックス配列である「ATGCA」と一塩基違いであることから、合成不良又はシーケンシング不良の影響と考えることができる。一方、「TACCT」は該インデックス配列と５塩基違いであるので、合成不良又はシーケンシング不良の可能性は限りなく低いと考えられる。因みに、この例では、「TACCT」はサンプルBに混入されたインデックス配列である「TACGT」と1文字違いなので、サンプルB由来と考えることができる。

100%完全なミスのない配列を化学合成することは現在の技術では不可能である。しかしながら、データ解析に於いて、予め「edit distance」を１ないし２以下という厳密な閾値を設けておけば、実施例でも示すように、経験的にほとんどの塩基配列をアサインすることは可能である。その結果、仮に、合成精度９０%という純度の低いスパイクインDNA（又は、それに含まれるインデックス配列）を用いた場合でも、例えば、実施例で使用されているような１５塩基程度の配列に含まれる合成不良は１つか２つであるため、ほとんどの場合はいずれかの検体に予め混合させたにインデックス配列として特定することが可能である。

該スパイクインDNAを該核酸分子に混入させる際の割合は、一度の塩基配列決定に使用する全ての検体に関して共通した一定の値であることが好ましい。検体間の相互汚染の程度を定量的に示す等の本発明の所望の効果を発揮するためには、かかる割合は或る程度以上であることが好ましい。しかし、その割合があまり大きい場合には、目的とした塩基配列データの総量に支障を来す可能性もある。具体的な割合は、これらの状況及び次世代シーケンシングにおけるその他の諸条件・因子等を考慮して、当業者が適宜決めることが出来る。例えば、ヒトゲノムＤＮＡ１μｇに対して、スパイクインDNAは50〜500 amol程度の割合である。

本発明のスパイクインDNAの構成の一例を図１に示す。尚、該スパイクインDNAに含まれる各配列相互の位置関係（順序）は任意であり、当業者が適宜設定することが出来る。更に、各実施例で用いられたスパイクインDNAの具体的な塩基配列の一例を図２に示す。

該スパイクインDNAに含まれるインデックス配列は検体を識別・特定するために用いられ、インデックス検索配列は出力される膨大な配列情報から該インデックス配列を効率的に検索するために用いられる。従って、該インデックス配列は夫々の検体毎に異なり、各検体に固有の塩基配列である。一方で、該インデックス検索配列は、該インデックス検索配列を手掛かりにして、該インデックス配列の検索及び同定を迅速・効率的に実施する為に、核酸塩基配列決定法に供する全てのスパイクインDNAに共通する塩基配列とすることが好ましい。

ここで、次世代シーケンシングの低コスト化が実現しているとはいえ、3Gbという長大なヒトゲノムの全配列決定には相当なコストを要するのが現状である。そのため、例えば、疾患関連遺伝子領域やエクソーム（全コーディングエクソン）を解析する際には、それらの注目するターゲット領域に由来する核酸分子断片（ターゲット配列）のみを濃縮し、それらを集中的に塩基配列決定することが非常に有効である。

その為に、ターゲット領域の特異的な配列のビオチン化DNA(オリゴヌクレオチド)プローブとのハイブリダイズし、その後のストレプトアビジンによりターゲット配列を回収（濃縮）する技術として、キャプチャーハイブリダイゼーション法（ターゲットキャプチャー法又はシークエンスキャプチャー法）が開発されている。

従って、本発明に於いて、シーケンシングに先立つ任意の段階に於いて、例えば、本発明によるライブラリーの調製後に、このようなキャプチャーハイブリダイゼーション法によりターゲット配列を濃縮する工程を含むことが出来る。そのような場合は、同時に、スパイクインDNAも残留させる必要があり、その為には、上記プローブに相補的な配列（「プローブ相補配列」）を予め組み込んでおく必要がある。更に、本発明の調製方法は、任意の段階でPCRにより核酸分子断片が増幅されるステップを含むことが出来る。

次世代シーケンシング用のライブラリーの調製及びシーケンシングステップには、PCR法による核酸分子断片の増幅が適宜組み込まれている。そのため、鋳型のインプット量の定量性を確保するためには、鋳型の配列が読まれた回数からPCRの増幅分を除外して計算する必要がある。通常、この除外には、出力されたリード全体から完全一致した重複配列を計算機上で解消し、ユニークな配列だけを抽出して計算するという方法が取られている。しかしながら、ゲノムのような長大な塩基配列とは異なり、上記封入配列のような短い鋳型では、これを対象としたシーケンシングにおいてユニークな配列が出現しにくいという性状が経験的に知られている。この重複の問題は、スパイクインDNAにインデックス配列とは別に鋳型のクロナリティを担保する「ランダム配列」を更に組み込むことにより、解消することができる。

更に、該スパイクインDNAには、インデックス配列やランダム配列を効率的に検索する為に、適当な位置にスペーサー配列を適宜含むことが出来る。

ステップ（２）
次に、ステップ（１）で調製された各検体に対応するライブラリー用核酸試料に含まれる核酸分子から調製された核酸分子断片及びスパイクインDNAの夫々に、各検体に固有の塩基配列から成るバーコード配列を付加して各検体由来のライブラリーを調製する。該バーコード配列は当業者に公知の任意の方法・手段によって付加することが出来る。尚、本発明方法に於ける複数の検体由来の核酸分子断片を含むライブラリーは、これら各検体由来のライブラリーを適宜、混合して調製することが出来る。

「ライブラリー」とは、次世代シーケンシングの対象となる核酸分子断片の集合体を意味し、通常は、それらの各末端にアダプターが連結(付加)されている。尚、各検体に対応するライブラリー用核酸試料に含まれる核酸分子の断片化は、当業者に公知の任意の方法・手段によって、上記のステップ（１）又はステップ（２）のいずれかに於いて、又は、これらとは別個のステップとして任意の段階で実施することが出来る。尚、ステップ（２）に於いて断片化が行われる場合には、ライブラリー用核酸試料に含まれるスパイクインDNAも断片化の対象となるが、他の検体由来のスパイクインDNAが含まれている場合（検体間相互の汚染）には、この汚染スパイクインDNAも当該検体由来のスパイクインDNAと同じ割合で切断されるので、各検体間の相互汚染を定量的に検出することが出来る。

更に、「アダプター」には、一般的に、用いるシーケンシングの種類・原理等に応じて、ビーズ及びフローセル（スライドガラス）等の支持体上に固定されたオリゴヌクレオチドとハイブリダイゼーションする相補的な配列及びシーケンシングプライマー配列、更には、異なる複数の検体由来のライブラリーを一度のランで同時に配列決定するために、本発明のバーコード配列に相当する、各検体に固有の識別配列（「バーコード」又は「Index」等とも呼ばれる）等が含まれている。

このようなアダプターの具体例として、例えば、本明細書に記載された実施例でも使用されている合成によるシーケンシング技術（Illumina社のHiSeq及びNext Seq (登録商標)シリーズ）に於けるＰ５及びＰ７アダプター（Ｙ字アダプター）、並びに、イオン半導体シーケンシング技術（Thermo Fisher SCIENTIFIC 社のIon Torrent システム）に於けるＰ１＆Ａアダプターを挙げることが出来る。

従って、このような識別配列を含むアダプターを用いる場合には、該アダプターを該核酸分子断片及び該スパイクインDNAの末端に連結させることにより、該識別配列を本発明のバーコード配列として使用することが出来る。或いは、アダプターの連結とは別個に、バーコード配列を独自に付加しても良い。

本発明の調製方法の各ステップで行われる各反応は、検体保管用コンテナ等として使用する容器と同様に、目的に応じて、当業者に公知の様々な種類(名称)の容器（反応容器等）も用いて実施することが出来る。

本発明で用いられる各配列の設計・合成
このような本発明方法で用いられるスパイクインDNAに含まれる各種配列及びバーコード配列の個々の長さ（塩基対数）は、相互汚染を検出する検体総数、取得するシーケンスデータ総量、及び、実験条件等、実験の規模や目的、並びに、上記の「edit distance」の概念等を考慮して当業者が適宜設定することが出来る。相互汚染を調べる必要のある検体数が多いほど、識別配列の塩基長をある程度まで長くする必要があり、更に、シーケンスで取得するデータ量が多いほど、ランダム配列をある程度まで長くする必要がある。しかしながら、余り長すぎると、各検体間の相互汚染の割合の計算に時間を要する、及び、合成コストが嵩む等の理由から好ましくない。

例えば、既に述べたような、現在、代表的な次世代シーケンシング（NGS）用に使用されている市販アダプターに含まれる識別配列では、６塩基（約4千とおりの配列をデザインできる）、８塩基（約６万５千通り）、１６塩基（約４０億通り）のものが用いられている。従って、インデックス配列の塩基長は、これらを参考に設定することが出来る。インデックス検索配列はインデックス配列とランダム配列を検索、特定する目的の配列であり、シーケンシングで取得する総リード数から逆算し、偶然に出現しない程度の長さを持たせるようにデザインする。

例えば、全体で100万リードのデータを取得するならば、１０塩基程度と見積もることができる。更に、一般に、４７℃〜６５℃程度で実施されるハイブリダイゼーション反応の条件では、１００〜１２０塩基長のプローブで設計されるのが一般的である。これに合わせ、プローブ相補配列の塩基長を決定することができる。ランダム配列もまた、シーケンシングで取得する総リード数から逆算し、偶然に出現しない程度の長さを持たせるようにデザインする。実験精度に直結しているため、取得リード数の１０倍以上の余裕を見て設計することが望ましい。全体で１００万リードのデータを取得するならば、少なくとも１２塩基長以上のランダム配列を設計すると良い。スペーサー配列は、PCR増幅に必要なプライマーのターゲット配列も兼ねているので、１８〜２５塩基長程度で設計すると良い。

尚、スパイクインDNA に含まれるこれら各種配列は、シーケンシング対象となる生物のゲノム配列には存在しない、即ち、検体由来の核酸分子断片には含まれていない塩基配列であることが必要であり、更に、検体の識別を保証するために、インデックス配列は、仮に１塩基のシーケンシングエラーが生じても、相互に一致しない配列であることが求められる。

当業者であれば、以上の諸条件・因子を考慮して、このような各種配列の具体的な塩基配列を適宜、設計・合成することが出来る。更に、当業者であれば、これらの各配列を用いて、任意の公知方法により、スパイクインDNA配列及びバーコード配列を含むアダプターを安価かつ簡便に合成することが出来る。

[核酸塩基配列決定法]
更に本発明は、上記の方法によって複数の検体由来の核酸分子断片を含むライブラリーを調製した後に、更に、該ライブラリーを用いて複数のシーケンシング反応を並行して実行するステップを含む、核酸塩基配列決定法（次世代シーケンシング法）に係る。このようなシーケンシングステップは、既に述べたような各種の次世代シーケンシング技術に準じて、当業者が適宜実施することが出来る。

更に、本発明の核酸塩基配列決定法は、従来の様々な解析に加えて、以下に記載するような、該スパイクインDNAに含まれるインデックス配列及び該バーコード配列に関して得られた配列情報の組み合わせに基づき、各検体間の相互汚染に関するデータ解析を行うステップを含むことが出来る。

[各検体間の相互汚染を定量的に検出する方法]
本発明の核酸塩基配列決定法に供されるライブラリーは、複数の種類の検体から調製された各ライブラリーの混合物であるが、該核酸塩基配列決定法からの出力データとして得られる、個々の検体由来の核酸分子断片に混入された固有のスパイクインDNAに含まれるインデックス配列、及び、個々の検体に固有のバーコード配列に関する配列情報の組み合わせ及びその検出割合等に基づき、各検体間の相互汚染に関するデータ解析を行い、各検体間の相互汚染を定量分析することが出来る。

従って、本発明は、上記の核酸塩基配列決定法に於いて該スパイクインDNA及び該バーコード配列に関して得られた配列情報、即ち、個々の検体由来の核酸分子断片に混入された固有のスパイクインDNAに含まれるインデックス配列、及び、個々の検体に固有のバーコード配列に関する配列情報の組み合わせ及びその検出割合等に基づきデータ解析を行うことにより、各検体間の相互汚染を定量的に検出する方法にも係る。

例えば、予め、検体A由来の核酸分子断片と該検体に固有のインデックス配列A（GAATCC）を含むスパイクインDNAとの混合物であるライブラリー用核酸試料（１）、及び、検体Bの核酸分子断片と該検体に固有のインデックス配列B（AGTACC）を含むスパイクインDNAとの混入物であるライブラリー用核酸試料（２）の夫々に、各検体に固有のバーコード配列α及びβを含むアダプターを付加して各検体由来のライブラリーを調製し、これらの混合物を用いてシーケンシング反応を並行して実行した場合に、検体間の相互汚染により、例えば、ライブラリー用核酸試料（２）中に、検体Bに固有のバーコード配列βが付加された検体A固有のインデックス配列A（GAATCC）を含むスパイクインDNAが一定の割合で生じるので、この配列情報を分析することによって、検体間の相互汚染を定量的に検出することが可能となる。

より具体的には、本発明のスパイクインDNA及びバーコード配列に関して得られた配列情報に基づき、各検体間の相互汚染を定量的に検出するためのデータ解析は、例えば、図７及び図１０に示されるように以下の各処理を含む手順で実施することが出来る：
ベースコール；
デマルチプレックス；
IDX配列データの抽出；
IDXデータのQC；
脱重複処理(ランダム配列を含む場合)；及び
IDXデータの集計（カウント）。
尚、各段階におけるデータ処理自体は当該技術分野において公知の方法で実施することが出来る。

更に、本発明は、これまでに記載した本発明のいずれか一つの方法による所望の効果を奏するために必要な要素であるいずれかの配列を含む核酸分子のセット（核酸分子断片を含むライブラリー調製用キット）に係る。該セット（キット）は、少なくとも、各検体に固有の塩基配列から成るインデックス配列及びインデックス検索配列を含むスパイクインDNAから成る核酸分子、並びに/又は、各検体に固有の塩基配列から成るバーコード配列を含む核酸分子を含む。尚、既に記載したように、スパイクインDNAは更にプローブ相補配列及び/又はランダム配列を含むことが出来る。更に、該セット（キット）には、本発明方法で使用する、オリゴヌクレオチド、プライマー、プローブ、及びアダプター等のその他の任意の塩基配列を有する核酸分子が含まれていても良い。各核酸分子は当業者に公知の任意の状態、例えば、適当な緩衝剤等を含む水溶系、

上記キットには、更に、以下の実施例で使用されているような、本発明方法で使用される、適当な容器（検体保管用コンテナ及び反応容器等）、緩衝液等の各種溶液、及び反応試薬等を任意に含ませることが出来る。

上記キットに於いて、各検体に固有のスパイクインDNAは適当な容器（検体保管用コンテナ等）内（例えば、該容器の内部表面、又は、該容器に含まれる粒子などの適当な担体表面等）に予め適当な方法で保持又は封入された状態で提供されることが好ましい。このような、容器内への保持又は封入は、具体的には、例えば、スパイクDNA溶液を容器に分注後、凍結乾燥あるいは蒸発乾固のような方法・手段で実施することが出来る。

尚、例えば、NGS解析を依頼する施設（例えば医療機関）等に於いて、本発明方法に於けるステップ（１）各検体に由来する核酸（DNA）分子の夫々に、該検体に固有のスパイクインDNAを混入させて、各検体に対応するライブラリー用核酸試料を調製するステップ、のみが行われるようなときには、そこで使用される本発明にキットには、ステップ（２）で使用されるような核酸分子、例えば、各検体に固有の塩基配列から成るバーコード配列を含む核酸分子（アダプター等）は含まれている必要はない。

以下、実施例に則して本発明を説明するが、これらの実施例は本発明の具体的態様を例示するものであって、本発明の技術的範囲はこれらによって何ら制限されることはない。

（１）各検体に対応するライブラリー用核酸試料の調製
機器と試薬
・ φX174 RF I DNA（タカラバイオ，3040）
・ PrimeSTAR (登録商標) GXL DNA Polymerase（タカラバイオ，R050A）
・スパイクインDNA調製用オリゴDNA（ユーロフィン，配列は表１に示す）
・スパイクインDNA調製用IDXオリゴDNA（IDT，配列は表２に示す。各配列に於いて、大文字で表記された塩基配列が各インデックス（IDX）配列、及び、その前後の小文字で表記された塩基配列が各スパイクインDNAに共通するインデックス検索配列である。）
・ T100サーマルサイクラー（BIORAD）
・ DNA Clean & Concentrator (商標)-5（Zymo Research, D4013）
・ DNA/RNAマイクロチップ電気泳動装置MCE-202（MultiNA）（Shimadzu）
・ DNA-1000/12000キット（Shimadzu，292-27911-91/ 292-36600-91）
・ KAPA SYBR (登録商標) FAST qPCR Master Mix (2X) Kit（日本ジェネティクス, KK4600）
・ 7500 Fast & 7500リアルタイムPCRシステム（ThermoFisher Scientific）

方法
図２に示したスパイクインDNAの調製は、プローブ相補配列のPCR合成と、これに対する各検体に固有のIDX配列付与の２段階で実施した。まず、0.2 mLチューブに1 ngφX174 RF I DNA，0.2 pmol M13F-phiX4055LオリゴDNA，0.2 pmol T7tRC-phiX4174RオリゴDNA，2.5 nmol each dNTP Mixtureを加え、ここに10 μLの5x PrimeSTAR GXL Bufferと1 μLのPrimeSTAR GXLを混合し、さらにミリQ水を合計50 μLとなるように加えた。サーマルサイクラーを利用し、98 ℃10秒、55 ℃15秒、68 ℃30秒の3ステップ、合計30サイクルの増幅反応を実施した。得られた断片をマイクロチップ泳動装置に供し、断片が想定される大きさ（158 bp）で増幅していることを確認した。最後に、DNA Clean & Concentrator（商標）-5を使って得られた、プローブ相補配列を含む増幅断片を単離した（図３）。

次に、増幅断片に各IDX配列を付与した。はじめに、0.2 mLチューブに10 pmolの上記の増幅断片， 1 pmolのスパイクインDNA調製用IDXオリゴDNA（4種類），0.2 pmol T7pオリゴDNA，0.2 pmolT7tRCオリゴDNA，2.5 nmol each dNTP Mixtureを加え、ここに10 μLの5x PrimeSTAR GXL Bufferと1 μLのPrimeSTAR GXLを混合し、さらにミリQ水を合計50 μLとなるように加えた。サーマルサイクラーを利用し、98 ℃10秒、55 ℃15秒、68 ℃60秒の3ステップ、合計30サイクルの増幅反応を実施した。得られた断片をマイクロチップ泳動装置に供し、断片が想定される大きさ（194 bp）で増幅していることを確認した（図４）。最後に、DNA Clean & Concentrator（商標）-5 を使って得られた増幅断片を単離した。

得られた断片の濃度はリアルタイムPCRで決定した。絶対定量に用いる標準品には、マイクロチップ泳動装置で濃度算定済みのPCR断片を利用した。また、測定にはT7pならびにT7tRCのプライマーセットを使用する。最終的に、スパイクインDNAに10 mM Tris-HCl (pH 7.9)水溶液を加え、終濃度が10 nMとなるように調節した。1 μgゲノムDNA（あるいは〜50 μLの全血）に対して、このようにして調製した４種類の各スパイクインDNAの夫々を5 amolの割合で混合し、本発明のライブラリー用核酸試料を調製した。

（２）各検体由来のライブラリーの調製
機器と試薬
・ Y字アダプター調製用オリゴDNA（ユーロフィン，配列は表３に示す。各P7アダプター配列に於いて、下線を付した塩基配列が各検体に固有のバーコード配列である。）
・ KAPA HyperPlus Kit （日本ジェネティクス, KK8510）
・ PCR増幅用オリゴDNA（ユーロフィン，配列は表４に示す）
・ Agencourt （登録商標） AMPure（登録商標） XP Kit（日本ジェネティクス, A63880）
・ DynaMag (商標)-96 Side Magnet（ThermoFisher Scientific, 12331D）
・ T100サーマルサイクラー（BIPRAD）
・ DNA/RNAマイクロチップ電気泳動装置MCE-202（MultiNA）（Shimadzu）
・ DNA-1000キット（Shimadzu，292-27911-91）
・ Qubit （登録商標）2.0 Fluorometer（ThermoFisher Scientific）
・ Qubit (商標) dsDNA BR Assay Kit（ThermoFisher Scientific, Q32850）

方法
まず、10 μM Y字アダプターを調製した。まず、0.2 mLチューブに4種類のP7アダプターとP5アダプターを、それぞれ終濃度が10 μMとなるようにアニーリングバッファー（10 mM Tris-HCl [pH7.5], 100 mM NaCl, 1 mM EDTA）で希釈した。混合液をサーマルサイクラーに移し、95℃で1分間保温した。その後、95℃から65℃まで1秒ごとに0.1℃ずつ温度を下げ、65℃に達したら10分間保温し、そののち65℃から25℃まで1秒ごとに0.1℃ずつ温度を下げた。調製した４種類のY字アダプターは-20℃で保存した。

上記のステップ（１）で調製した200 ngのヒトゲノムDNA（夫々、1 amolの各スパイクインDNAが混入）からサンプル１〜サンプル４（本発明におけるNGS用の「各検体由来のライブラリー」に相当）を調製した。ライブラリー調製（ヒトゲノムDNA又は核酸分子の断片化を含む）は市販のKAPA HyperPlus Kitを用いて行い、実験はメーカー推奨のプロトコル（KAPA HyperPlus Kit [KR1145 - v3.16]）に従った。なお、最終ステップのPCR反応は4サイクルで実施した。その品質はMultiNAによる電気泳動像で確認し（図５）、濃度はQubitフルオロメーターで決定した（表５）。

（３）ハイブリダイゼーションキャプチャー法によるターゲット配列の濃縮
機器と試薬
・ InvitrogenTM Human Cot-1 DNA（登録商標）（Life Technologies, Cat #15279-011）
・ xGen （登録商標） Universal Blockers - TS Mix（IDT, 1075474）
・ Savant DNA 110 SpeedVac （登録商標） Concentrator
・ xGen （登録商標） Lockdown （登録商標） Reagents（IDT, 1072280）
・ xGen （登録商標） Lockdown （登録商標） Probesキャプチャープローブ（ヒト10遺伝子[43.2 kb]をターゲットとする仮想パネル）（IDT）
・スパイクイン濃縮用キャプチャープローブ（IDT）
・ Dynabeads (登録商標) M-270 Streptavidin（Life Technologies, Cat #65305）
・ KAPA HiFi HotStart ReadyMix（Kapa Biosystems, Cat #KK2601）
・ KAPA Library Quantification Kits Illumina / Universal（日本ジェネティクス, KK4824）
・ 7500 Fast & 7500リアルタイムPCRシステム（ThermoFisher Scientific）

方法
まず、0.2 mLチューブに4種の各種スパイクインDNAを封入したNGS用ライブラリー（サンプル１〜サンプル４）を夫々125 ngずつ分取し、さらに5 μgのCot-1 DNAと2 μLのxGen (登録商標) Universal Blockers - TS Mixを加えた。チューブをSpeedVac (登録商標) Concentratorに設置し、溶液全体を濃縮乾固した。次に、濃縮用プローブを調製した。IDXプローブの終濃度が100 amol/μLとなるように、ターゲット濃縮用のプローブ（ここではヒト10遺伝子[43.2 kb]をターゲットとする仮想パネル）に混合した。以降の反応には市販のxGen(登録商標) Lockdown (登録商標) Reagentsを利用した。作業はメーカー推奨のプロトコル（Hybridization capture of DNA libraries using xGen Lockdown Probes and Reagents, v3）に従った。なお、最終ステップのPCR反応は16サイクルで実施した。以上の操作で得られた、ライブラリープール（本発明に於ける、「複数の検体由来の核酸分子断片を含むライブラリー」に相当する）の品質をMultiNAによる電気泳動像で確認し（図６）、濃度はKAPA Library Quantification Kits Illumina / Universalで決定した（表７）。

（４）NGSの実施
機器と試薬
・ NextSeq 500 Mid Output v2 Kit (150 cycles)（illumina, FC-404-2001）
・ NextSeq 500シーケンシングシステム（illumina）

方法
シーケンシングには市販のNextSeq 500 Mid Output v2 Kit (150 cycles)を使用した。作業はメーカー推奨のマニュアルに従って実施した（NextSeq 500System v2.0_QuickRefGuide_20151221）。ライブラリープールを20 pMの濃度でアプライした結果、クラスタの形成密度は240 K/mm²であり、総出力塩基数は29.2 Bbと見積もられた。また、クオリティ値Q30以上を有するシーケンスデータの占める割合は全体の92.7%であった。

（５）データ解析
解析方法の概要
図７にNextSeq (登録商標)シーケンシングシステムから出力されたデータの解析フローの概略を示す。まず、bcl形式で出力されたデータ（全シーケンシングデータのバイナリファイル）をfastq形式（リード配列+クオリティ値）にコンバートする（ベースコール）。読まれたアダプター配列を基に、各サンプルのfastq形式リード情報に脱並列化した（デマルチプレックス）。デマルチプレックスしたリードから、２つのインデックス検索配列（TAATACGACTCACTATAGGおよびGTAAAACGACGGCCAGT）に囲まれたインデックス（IDX）配列のみを抽出した（IDX配列データの抽出）。次に、IDX配列情報のPhred Score値を参照し、Q20値を下回る塩基を１つでも持つリード情報は破棄した（IDXデータのQC）。なお、シーケンシングされている配列の正確さを表わすPhred Score値とは “-10log10Perror”の数式で求められる工学的な値であり、シーケンシングされた塩基ごとに出力される。ここで、Perrorは配列決定が正しく行われない確率推定値を示す。すなわち、スコア値が高いほどエラーの確率が低い（正しく配列決定された）ことを示し、低いほど誤検出のリスクが高まることを示す。具体的には、Q10値では推定ベースコール精度が90%であり、エラー率は10%である。同様に、Q20値では精度99%、エラー率1%、Q30値では精度99.9%、エラー率0.1%の状態を表わしている。最後に、各サンプルのシーケンス情報に含まれているIDXリードのカウントを集計した（IDXデータのカウント）。

使用した解析ツールのバージョン情報
・ bcl2fastq (v2.17.1.14)
・ cutadapt (version 1.7.1)
・ fastq_masker (FASTX Toolkit 0.0.13)

方法
下記のコマンドでベースコールならびにデマルチプレックスを実施した。

bcl2fastq \
--runfolder-dir INPUT \
--output-dir OUTPUT \
--interop-dir output/InterOP \
--sample-sheet samplesheet.csv \
--barcode-mismatches 1

下記のコマンドでIDXデータを抽出した(下記のコマンドラインをR2リード情報、ならびに逆向きに読まれたR1、R2リード情報（相補鎖のデータ）にも適用する)。

cutadapt \
-b TAATACGACTCACTATAGG \
INPUT.R1.fastq \
-o OUTPUT1.R1.fastq
--discard-untrimmed
cutadapt \
-a GTAAAACGACGGCCAGT \
OUTPUT1.R1.fastq \
-o OUTPUT2.R1.fastq
--discard-untrimmed

下記のコマンドでIDXデータのQCを実施した。

cat \
OUTPUT2.R1.fastq \
OUTPUT2.R2.fastq \
ReverseComplement_OUTPUT2.R1.fastq \
ReverseComplement_OUTPUT2.R2.fastq \
> OUTPUT.fastq
fqmasker \
-q 20 \
-i OUTPUT.fastq \
-o QC_result.fastq \
-v -Q33

awk 'BEGIN{
OFS="\t"
}NR%4==2{
raw=$0; \
len=length(raw); \
gsub("N",""); \
len2=length($0); \
if (len-len2==0 && len==15) print $0
}' \
> CLEAN_result.txt

検出されたIDXリード情報と想定される配列（IDX1〜IDX4の全ての配列）を照合し、相互汚染の割合を算定した。本実施例のデータから算出された汚染の割合を表８に示す。かかる汚染は、例えば、実験実施者のハンドリングミス、使用機器における前回測定サンプルのキャリーオーバー、保管試薬ストックにおける汚染等の原因で発生したものと考えられる。尚、今回の計算ではシーケンスエラーを考慮していないため（一般には、例えば、既に述べたような「edit distance」という概念に基づき、データ解析に於いて数塩基のミスマッチを許容する方法が採られている）、仮にIDXの汚染が無かった場合でも検出されている想定リード数（系に混入させた全てのインデックス配列のセット）の割合は100 %にはならない。

次に、ランダム配列（表９における点線下線部）を含むスパイクインDNAを使用した以外は基本的に実施例１と同様な方法で、本発明を実施した。
（１）各検体に対応するライブラリー用核酸試料の調製
機器と試薬
・スパイクインDNA調製用IDXオリゴDNA（IDT，配列は表９に示す）。各配列に於いて、点線下線を付された配列がランダム配列、小文字で表記された塩基配列が各インデックス（IDX）配列、及び、それらの前後の大文字で表記された塩基配列が各スパイクインDNAに共通するインデックス検索配列である。）
・その他の試薬は実施例１と同様

方法
DNA断片の調製は、実施例１と同様の方法で行なった。マイクロチップ泳動装置による評価の結果を以下に示した。断片濃度をリアルタイムPCRで決定し、1μgゲノムDNA（あるいは〜50 μLの全血）に対して5 amolの割合で混合した。

（２）各検体由来のライブラリーの調製
機器と試薬
・ Y字アダプター調製用オリゴDNA（ユーロフィン，配列は表１０に示す。各P7アダプター配列に於いて、下線を付した塩基配列が各検体に固有のバーコード配列である。）

・その他の試薬は実施例１と同様

方法
Y字アダプターとNGSライブリの調製は、実施例１と同様の方法で行なった。そのMultiNAによる電気泳動像を図９に示す。また、Qubitフルオロメーターで決定した濃度も示した（表１１）。

（３）ハイブリダイゼーションキャプチャー法によるターゲット配列の濃縮
機器と試薬
・実施例１と同様

方法
ターゲット配列の濃縮は、実施例１と同時に行なった。従って、最終的に得られたライブラリープールの品質ならびに濃度は実施例１で示したとおりである。

（４）NGSの実施
機器と試薬
・実施例１と同様

方法
シーケンシングは、実施例１と同様の方法で行なった。クラスタの形成密度は240 K/mm2であり、総出力塩基数は29.2 Bbと見積もられた。また、クオリティ値Q30以上を有するシーケンスデータの占める割合は全体の92.7%であった。

（５）データ解析
解析方法の概要
実施例１で実施した解析方法に、更に、IDXデータの脱重複処理を追加して実施した。

使用した解析ツールのバージョン情報
・使用するツールは実施例１と同様

方法
実施例１と同様にデマルチプレックスを実施し、下記のコマンドでランダム配列ならびにIDXデータを抽出した(下記のコマンドラインをR2リード情報、ならびに逆向きに読まれたR1、R2リード情報（相補鎖のデータ）にも適用する)。

cutadapt \
-b TAATACGACTCACTATAGG \
INPUT.R1.fastq \
-o OUTPUT1.R1.fastq
--discard-untrimmed
cutadapt \
-a GTAAAACGACGGCCAGT \
OUTPUT1.R1.fastq \
-o OUTPUT2.R1.fastq
--discard-untrimmed

下記のコマンドでIDXデータのQCを実施した。

cat \
OUTPUT2.R1.fastq \
OUTPUT2.R2.fastq \
ReverseComplement_OUTPUT2.R1.fastq \
ReverseComplement_OUTPUT2.R2.fastq \
> OUTPUT.fastq
fqmasker \
-q 20 \
-i OUTPUT.fastq \
-o QC_result.fastq \
-v -Q33

awk 'BEGIN{
OFS="\t"
}{
raw=$0; \
len=length(raw); \
gsub("N",""); \
len2=length($0); \
if (len-len2==0 && len==43) print $0,substr($0,1,28),substr($0,29,15)
}' |\
> CLEAN_result.txt

下記のコマンドでIDXデータの脱重複処理を実施した。

sort -k2 CLEAN_result.txt |\
awk '{
if (umi != $2) print $0; umi=$2
}’ \
> DEDUP_result.txt

以上の処理によって検出されたIDXリード情報について、PCRによる重複の度合いを表１２にまとめた。

検出されたIDXリード情報と想定される配列を照合し、相互汚染の割合を算定した。相互汚染の割合を表１３に示した。かかる汚染は、例えば、実験実施者のハンドリングミス、使用機器における前回測定サンプルのキャリーオーバー、保管試薬ストックにおける汚染等の原因で発生したものと考えられる。なお、今回の計算ではシーケンスエラーを考慮していないため（一般には、例えば、既に述べたような「edit distance」という概念に基づき、データ解析に於いて数塩基のミスマッチを許容する方法が採られている）、仮にIDXの汚染が無かった場合でも検出されている想定リード数（系に混入させた全てのインデックス配列のセット）の割合は100 %にはならない。

本実施例では、遺伝子解析におけるスパイクDNAの導入方法として、スパイクインDNAを予め塗布した反応容器を使用したゲノム抽出方法の検証結果を示した。

機器と試薬
・ MATRIX 2Dチューブ0.5ml (Thermo)
・ Maxwell核酸自動精製装置 (Promega)
・ Maxwell RSC Blood DNA Kit (Promega)
・その他の試薬と装置は実施例１と同様

方法
内面に予め100 amolのスパイクインDNAを塗布して付着させたMATRIX 2Dチューブに250 μLの全血を加えた。さらに、Maxwell RSC Blood DNA Kitで処理したのち、Maxwell核酸自動精製装置に供した。独立した実験を３回実施したところ、平均して5.7μg（1.8×10⁶コピー）のゲノムDNAが得られた。また、定量PCRを実施したところ、抽出されたゲノムDNAには平均して60.9 amol（3.7×10⁷分子）のスパイクインDNAが回収されていた。すなわち、ここで調整した溶液には、ゲノムDNA１分子に対し、約20倍量のスパイクインDNAが含まれていることが分かった。

実施例１では、1μgのゲノムDNA（3.2×10⁵コピー）に5 amol（3.0×10⁶分子）を封入させた実験を実施した。従って、ゲノムDNA１分子に対して約10倍量のスパイクインDNAを封入させれば同様の結果が得られることがわかる。以上の結果を踏まえ、25μLの全血に5 amolのスパイクインDNAを加えれば良好な結果が得られることがわかった。

次世代シーケンシング解析において、サンプル間の相互汚染が問題となる事例は極めて多い。

基礎研究の分野では、RNA発現解析、エピゲノム解析などの定量分析に次世代シーケンシングが多用されている。認識できない検体（サンプル）間の相互汚染はデータ精度を著しく下げてしまうだけでなく、場合によっては誤った結論を導いてしまうかもしれない。

一方、遺伝子検査など臨床的な分野では、こうした相互汚染の見落としが原因で、患者の人生を左右する致命的な問題を生じてしまう可能性すらある。近い将来、次世代シーケンサーによる遺伝子解析は、がんクリニカルシーケンス検査による体細胞性変異の検出（家族性とは異なり微量な変異を精密に検出することが求められる）、並びに、iPS細胞及び、ES細胞など再生医療に必須な細胞の純度解析（培養中に生じる偶発的な微量点変異の検出）に多用されていくものと思われる。こうした用途では相互汚染が事前に認識できなかった場合、陰性検体を陽性と判断し、誤った診断を下してしまう可能性がある。

本発明は検体間の相互汚染を出力された次世代シーケンシングのデータから定量的に検出することを可能にする技術であり、これを使えば上述のような偶発的なリスクを大きく低減させることができる。加えて、万一、検体の取り間違いや相互汚染が疑われた状況においても、保存されているデータから懸案事象の事実確認、原因についてトレサビリティーの確保といった用途への利用も期待できる。

例えば、欧米などの遺伝子解析のガイドライン等を参照すれば、遺伝子解析業務の精度保証の重責は実験担当施設が担うことになっている。一般に、遺伝子解析の実験は工程が長く、相互汚染のような精度不良を生じるリスクを全ステップから排除することは難しい。

本発明方法によれば、検体間の相互汚染は最終データの確認だけでも実施することができ、精度管理者の負担を大きく低減することができる。加えて、万一、検体の取り間違いや相互汚染が疑われた状況においても、保存されているデータから懸案事象の事実確認、原因についてトレサビリティーの確保が可能となり、より高い精度での遺伝子解析を実現できるというメリットがある。

Claims

複数のシーケンシング反応が並行して実行される核酸塩基配列決定法に供するための、複数の検体由来の核酸分子断片を含むライブラリーの調製方法であって、
（１）各検体に由来する核酸（DNA）分子の夫々に、該検体に固有のスパイクインDNAを混入させて、各検体に対応するライブラリー用核酸試料を調製するステップ、及び
（２）上記の各検体に対応するライブラリー用核酸試料に含まれる核酸分子から調製された核酸分子断片及びスパイクインDNAの夫々に、各検体に固有の塩基配列から成るバーコード配列を付加して各検体由来のライブラリーを調製するステップ、を含み、
該スパイクインDNAが、各検体に固有の塩基配列から成るインデックス配列及びインデックス検索配列を含むことを特徴とする、前記方法。
該スパイクインDNAが更にプローブ相補配列及び/又はランダム配列を含む請求項１記載の調製方法。
前記バーコード配列を含むアダプターを該核酸分子断片及び該スパイクインDNAの末端に連結させることにより、該バーコード配列を付加する、請求項１又は２に記載の調製方法。
更に、ハイブリダイゼーシュンキャプチャー法によってライブラリーに含まれる核酸分子断片からターゲット配列を濃縮するステップを含む、請求項１〜３のいずれかに記載の調製方法。
PCRにより核酸分子断片が増幅されるステップを含む、請求項１〜４のいずれかに記載の調製方法。
請求項１〜５のいずれかに記載の調製方法によって複数の検体由来の核酸分子断片を含むライブラリーを調製した後に、更に、該ライブラリーを用いて複数のシーケンシング反応を並行して実行するステップを含む、核酸塩基配列決定法。
PCRにより増幅された核酸分子断片をシーケンシングすることを特徴とする、請求項６に記載の核酸塩基配列決定法。
更に、該スパイクインDNAに含まれるインデックス配列及び該バーコード配列に関して得られた配列情報に基づき、各検体間の相互汚染に関するデータ解析を行うステップを含む、請求項６又は７に記載の核酸塩基配列決定法。
データ解析が以下の処理を含むことを特徴とする請求項８記載の方法：
ベースコール；
デマルチプレックス；
IDX配列データの抽出；
IDXデータのQC；
脱重複処理(ランダム配列を含む場合)；及び
IDXデータの集計（カウント）。
請求項６〜８のいずれか一項に記載の核酸塩基配列決定法により該スパイクインDNAに含まれるインデックス配列及び該バーコード配列に関して得られた配列情報の組み合わせ及びその検出割合に基づきデータ解析を行うことにより、該核酸塩基配列決定法に於ける各検体間の相互汚染を定量的に検出する方法。
データ解析が以下の処理を含むことを特徴とする請求項１０に記載の方法：
ベースコール；
デマルチプレックス；
IDX配列データの抽出；
IDXデータのQC；
脱重複処理(ランダム配列を含む場合)；及び
IDXデータの集計（カウント）。
請求項１〜１１のいずれか一つに記載の調製方法で使用するための核酸分子のセットであって、各検体に固有の塩基配列から成るインデックス配列及びインデックス検索配列を含むスパイクインDNAから成る核酸分子、並びに、各検体に固有の塩基配列から成るバーコード配列を含む核酸分子を含む、前記セット。
スパイクインDNAが更にプローブ相補配列及び/又はランダム配列を含む、請求項１２に記載の核酸分子のセット。
請求項１〜５のいずれか一つに記載の調製方法で使用するためのライブラリー調製用キットであって、各検体に固有の塩基配列から成るインデックス配列及びインデックス検索配列を含むスパイクインDNAから成る核酸分子、並びに/又は、各検体に固有の塩基配列から成るバーコード配列を含む核酸分子を含む、前記キット。
各検体に由来する核酸（DNA）分子を取り込むための容器内に該検体に固有のスパイクインDNAが予め保持又は封入されている、請求項１４記載のキット。