JP2022120693A

JP2022120693A - 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法

Info

Publication number: JP2022120693A
Application number: JP2021017754A
Authority: JP
Inventors: 剛伊藤; Takeshi Ito; 寛章坂井; Hiroaki Sakai; 律子小貫; Ritsuko Konuki
Original assignee: National Agriculture and Food Research Organization
Current assignee: National Agriculture and Food Research Organization
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2022-08-18

Abstract

【課題】リファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出可能な装置および方法を提供する。【解決手段】解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置であって、第１の取得部と、第２の取得部と、検出部とを備え、前記第１の取得部は、解析対象の核酸配列のリードデータを取得し、前記第２の取得部は、検出対象の核酸配列のデータを取得し、前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。【選択図】図１

Description

特許法第３０条第２項適用申請有り電気通信回線による発表：掲載年月日：令和２年３月１８日掲載アドレス：ｈｔｔｐｓ：／／ｗｗｗ．ｎａｔｕｒｅ．ｃｏｍ／ａｒｔｉｃｌｅｓ／ｓ４１５９８－０２０－６１９４９－５ｈｔｔｐｓ：／／ｓｔａｔｉｃ－ｃｏｎｔｅｎｔ．ｓｐｒｉｎｇｅｒ．ｃｏｍ／ｅｓｍ／ａｒｔ％３Ａ１０．１０３８％２Ｆｓ４１５９８－０２０－６１９４９－５／ＭｅｄｉａＯｂｊｅｃｔｓ／４１５９８＿２０２０＿６１９４９＿ＭＯＥＳＭ１＿ＥＳＭ．ｐｄｆ

本発明は、解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法に関する。

植物の品種改良の手法として、遺伝子組み換え技術、ゲノム編集技術等が用いられている。ただし、前者の場合、遺伝子組み換え技術により作出された、外来性遺伝子を含む植物（ＧＭＯ）は、法令による規制が存在する。このため、ＧＭＯは、製品として販売するための障壁が高い。他方、後者の場合、ゲノム編集技術を用いて改変された植物は、外来性遺伝子のゲノムへの導入が生じていなければ、ＧＭＯに関する法令の規制の対象外となる。このため、ゲノム編集技術により改変され、かつＧＭＯに該当しない植物は、ＧＭＯと比較して、製品として販売するための障壁が低く、これにより、ゲノム編集技術を用いた植物の改良が試みられている。

ゲノム編集技術を用いて改変された植物が、ＧＭＯでないことを示すためには、改変された植物のゲノムに外来性遺伝子が導入されていないことを示す必要がある。前記外来性遺伝子の検出方法としては、ゲノムに導入された核酸配列に対するプローブを用いるサザンブロット法がある。しかしながら、挿入された外来性遺伝子の長さが短い場合（例えば、１００塩基長以下）、サザンブロット法では、挿入された外来性遺伝子の検出が困難である。そこで、より精度の高い外来性遺伝子の検出方法として、次世代シーケンサーを用いる方法が利用されている。前記次世代シーケンサーを用いる方法では、前記次世代シーケンサーを用いて解析対象のゲノムを分析することにより、解析対象のゲノムの核酸配列のリードデータを取得する。ついで、前記次世代シーケンサーを用いる方法では、前記解析対象の基準となる核酸配列（「リファレンスの核酸配列」ともいう。）を参照して、前記リードデータから解析対象のゲノムの全長の核酸配列を再構築し、得られた解析対象のゲノムの全長の核酸配列と、前記リファレンスの核酸配列とを比較することにより、挿入された外来性遺伝子由来の核酸配列の有無またはその核酸配列を特定する（非特許文献１）。

Stephan Pabinger et.al., "A survey of tools for variant analysisof next-generation genomesequencing data", BRIEFINGS IN BIOINFORMATICS, 2014, VOL. 15, NO. 2, pages 256-278.

しかしながら、前記解析対象のゲノム中の外来性遺伝子をリファレンスの核酸配列を用いて検出する場合、解析対象の完全長のゲノムの核酸配列が、解読済であり、かつ解読済の核酸配列の解析精度が高い必要がある、すなわち、解析精度の高い完全長のリファレンスの核酸配列が必要とされる。このため、次世代シーケンサーを用いる外来性遺伝子の検出方法は、解析精度が低いゲノムの核酸配列の対象および完全長のゲノムの核酸配列が解読されていない対象をはじめ、全ての解析対象に適用できないという問題がある。

そこで、本発明は、リファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出可能な装置および方法の提供を目的とする。

前記目的を達成するため、本発明の装置は、解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置であって、
第１の取得部と、第２の取得部と、検出部とを備え、
前記第１の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第２の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。

本発明の方法は、解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる方法であって、
第１の取得工程と、第２の取得工程と、検出工程とを含み、
前記第１の取得工程では、解析対象の核酸配列のリードデータを取得し、
前記第２の取得工程では、検出対象の核酸配列のデータを取得し、
前記検出工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。

本発明のプログラムは、コンピュータに、第１の取得処理と、第２の取得処理と、検出処理とを実行させ、
前記第１の取得処理では、解析対象の核酸配列のリードデータを取得し、
前記第２の取得処理では、検出対象の核酸配列のデータを取得し、
前記検出処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。

本発明によれば、リファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出できる。

図１は、実施形態１の検出装置、検出端末、およびこれらを含む検出システムの一例の構成を示すブロック図である。図２は、実施形態１の検出装置のハードウェア構成の一例を示すブロック図である。図３は、実施形態１の検出端末のハードウェア構成の一例を示すブロック図である。図４は、実施形態１の検出方法およびプログラムの一例の構成を示すフローチャートである。図５は、実施形態２の検出装置、検出端末、およびこれらを含む検出システムの一例の構成を示すブロック図である。図６は、実施形態２の検出方法およびプログラムの一例の構成を示すフローチャートである。図７は、実施形態２の検出方法およびプログラムの一例の構成を示すフローチャートである。図８は、実施例１における検出方法の概略を示す図である。図９は、実施例１における外来性ＤＮＡの検出結果を示すグラフである。図１０は、実施例４におけるオールインワンのバイナリーベクターの構造を示す模式図である。図１１は、実施例４におけるＨＰＴ遺伝子断片の検出結果を示す写真である。図１２は、実施例４における外来性ＤＮＡ（バイナリーベクター）の検出結果を示すグラフである。図１３は、実施例５における外来性ＤＮＡ（ベクター）の検出結果を示すグラフである。図１４は、参考例１におけるランダムに生成したｋ塩基長の核酸配列が一致する割合を示すグラフである。

＜定義＞
本発明において、「解析対象」は、検出対象由来の核酸配列を検出しようとする任意の対象を意味する。前記解析対象は、核酸配列を有する対象であればよく、具体例として、核酸分子または核酸分子を含有する物があげられる。具体例として、前記解析対象は、例えば、動物、植物、もしくは微生物、またはこれらの生物のゲノム、微生物のプラスミド等があげられる。前記解析対象は、例えば、変異導入処理、ゲノム編集等による核酸配列の変更処理が実施されている可能性のある対象が好ましい。

本発明において、「検出対象由来の核酸配列」は、前記解析対象の核酸配列において、検出対象の核酸分子の核酸配列の一部または全部と一致する核酸配列であり、前記検出対象の核酸分子に由来すると推定される核酸配列を意味する。前記「一致」は、ある核酸配列と、他の核酸配列とが１００％の同一性を有することを意味する。前記検出対象の核酸分子は、特に制限されず、任意の核酸分子とでき、具体例として、ゲノム（ＤＮＡまたはＲＮＡ）、染色体、遺伝子、プラスミド、遺伝子のエキソンまたはイントロン等があげられる。前記検出対象の核酸分子の核酸配列は、例えば、National Center for Biotechnology Information（NCBI）、日本DNAデータバンク（DDBJ）等のデータベースに登録されている核酸配列を利用できる。具体例として、前記解析対象の核酸分子が生物のゲノムである場合、前記検出対象の核酸分子は、前記生物以外の遺伝子、プラスミド、または遺伝子のエキソン等の核酸があげられる。

本発明において、「核酸配列」は、核酸分子の塩基配列を意味する。

本発明において、「核酸配列のデータ」は、核酸分子の塩基配列についての情報を与えるデータを意味する。具体的には、前記「核酸配列のデータ」は、ある核酸配列が有する全塩基配列（配列）またはその一部の塩基配列（部分配列）のデータを意味する。

本発明において、「リファレンスの核酸配列」は、解析対象の核酸分子の全長の核酸配列を意味する。前記全長の核酸配列は、前記解析対象の核酸分子に応じて適宜決定でき、具体例として、全ゲノムの核酸配列、染色体全長の核酸配列、遺伝子全長の核酸配列、プラスミド全長の核酸配列、エキソン全長の核酸配列、イントロ全長の核酸配列等があげられる。前記全長の核酸配列は、例えば、NCBI、DDBJ等のデータベースに登録されている核酸配列を利用できる。

本発明において、「部分配列」とは、核酸配列に含まれる任意の核酸配列を意味する。

本発明において、「次世代シーケンシング」は、核酸分子における核酸配列の決定処理を並列化し、一度のランで数千万から数億の配列データを生成するシーケンシング技法を意味する。また、本発明において、「次世代シーケンサー」とは、次世代シーケンシングを行うための機器を意味する。

本発明において、「リードデータ」は、解析対象の核酸分子を断片化し、断片化された核酸分子の核酸配列の決定処理を実施することにより得られる情報を与えるデータを意味する。前記断片化は、例えば、機械的断片化（シャーリング）、酵素的断片化等があげられる。具体例として、前記リードデータは、次世代シーケンサーを用いて核酸分子の核酸配列の決定処理を実施することにより得られる情報を与えるデータがあげられる。前記リードは、例えば、ショートリードともいう。

本発明において、「偶然同一を排除する」とは、ある配列と、偶然に同一の配列が出現する期待値を１未満にすることを意味する。

本発明において、「カバレッジ」とは、核酸配列のデータの量が、核酸配列全長の何倍に相当しているかを意味する。前記「カバレッジ」は、例えば、「カバー率」、「～倍の読み」、「カバレッジレベル」、または「深度」等ということもある。

以下、本発明の検出装置を備える検出システムについて、図面を参照して詳細に説明する。ただし、本発明は、以下の説明に限定されない。なお、以下の図１～図１４において、同一部分には、同一符号を付し、その説明を省略する場合がある。また、図面においては、説明の便宜上、各部の構造は適宜簡略化して示す場合があり、各部の寸法比等は、実際とは異なり、模式的に示す場合がある。

［実施形態１］
本実施形態は、本発明の検出装置および検出端末を備える検出システムの一例である。図１は、本実施形態の検出装置１、検出端末２、および配列データベース（配列ＤＢ）３を備える検出システム１００を示すブロック図である。図１に示すように、検出システム１００は、検出装置１、検出端末２、および配列ＤＢ３を備える。また、図１に示すように、検出装置１は、第１の取得部１１、第２の取得部１２、および検出部１３を備える。また、図１に示すように、検出端末２は、入力部２１および出力部２２を備える。配列ＤＢ３は、１以上の解析対象の核酸配列のリードデータ（解析対象のリードデータ）３１および検出対象の核酸配列のデータ（検出対象のデータ）３２を格納している。図１に示すように、検出装置１、検出端末２、および配列ＤＢ３は、検出システム１００外の通信回線網４を介して一方向または両方向に接続可能（通信可能）である。本実施形態の検出装置１、検出端末２、および配列ＤＢ３は、本発明のプログラムがインストールされたパーソナルコンピュータ（ＰＣ）またはシステムとしてサーバ等に組込まれてもよい。また、前記パーソナルコンピュータは、コンピュータクラスタを構成してもよい。また、図示していないが、検出装置１、検出端末２、および配列ＤＢ３は、通信回線網４を介して、システム管理者の外部端末とも接続可能であり、システム管理者は、外部端末から検出装置１、検出端末２、および配列ＤＢ３の管理を実施してもよい。なお、本実施形態において、検出システム１００に含まれる検出装置１、検出端末２、および配列ＤＢ３は、それぞれ、１つであるが、いずれも複数であってもよい。

通信回線網４は、特に制限されず、公知のネットワークを使用でき、例えば、有線でもよいし、無線でもよい。通信回線網４は、例えば、インターネット回線、ＷＷＷ（World Wide Web）、電話回線、ＬＡＮ（Local Area Network）、ＷｉＦｉ(Wireless Fidelity）等があげられる。

検出端末２は、例えば、ＰＣ；携帯電話、スマートフォン、タブレット端末等の携帯端末；スマートウォッチ、スマートグラス、ウェアブル端末等があげられる。検出端末２は、例えば、カメラ、スキャナ等の撮像手段、ＩＣ（integrated circuit）カードリーダ、マイク等の音声入力手段等を備えてもよい。

図２に、検出装置１のハードウェア構成のブロック図を例示する。検出装置１は、例えば、ＣＰＵ（中央処理装置）１０１、メモリ１０２、バス１０３、記憶装置１０４、入力装置１０６、ディスプレイ１０７、通信デバイス１０８等を有する。検出装置１の各部は、それぞれのインタフェース（Ｉ／Ｆ）により、バス１０３を介して接続されている。

ＣＰＵ１０１は、例えば、コントローラ（システムコントローラ、Ｉ／Ｏコントローラ等）等により、他の構成と連携動作し、検出装置１の全体の制御を担う。検出装置１において、ＣＰＵ１０１により、例えば、本発明のプログラム１０５やその他のプログラムが実行され、また、メモリ１０２または記憶装置１０４に格納された各種情報の読み込みや書き込みが行われる。具体的には、例えば、ＣＰＵ１０１が、第１の取得部１１、第２の取得部１２、および検出部１３として機能する。検出装置１は、演算装置として、ＣＰＵを備えるが、ＧＰＵ（Graphics Processing Unit）、ＡＰＵ（Accelerated Processing Unit）等の他の演算装置を備えてもよいし、ＣＰＵとこれらとの組合せを備えてもよい。なお、ＣＰＵ１０１は、例えば、後述する実施形態２の検出装置における各部として機能する。

メモリ１０２は、例えば、メインメモリを含む。前記メインメモリは、主記憶装置ともいう。ＣＰＵ１０１が処理を行う際には、例えば、後述する記憶装置１０４（補助記憶装置）に記憶されている本発明のプログラム１０５等の種々の動作プログラムを、メモリ１０２が読み込む。そして、ＣＰＵ１０１は、メモリ１０２からデータを読み出し、解読し、前記プログラムを実行する。前記メインメモリは、例えば、ＲＡＭ（ランダムアクセスメモリ）である。メモリ１０２は、例えば、さらに、ＲＯＭ（読み出し専用メモリ）を含む。

バス１０３は、例えば、外部機器とも接続できる。前記外部機器は、例えば、配列ＤＢ３等の外部記憶装置（外部データベース等）、プリンター等があげられる。検出装置１は、例えば、バスに接続された通信デバイス１０８により、通信回線網４に接続でき、通信回線網４を介して、外部機器と接続することもできる。このため、検出装置１は、通信デバイス１０８および通信回線網４を介して、検出端末２および配列ＤＢ３にも接続できる。

記憶装置１０４は、例えば、前記メインメモリ（主記憶装置）に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置１０４には、本発明のプログラム１０５を含む動作プログラムが格納されている。記憶装置１０４は、例えば、記憶媒体と、前記記憶媒体に読み書きするドライブとを含む。前記記憶媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、ＨＤ（ハードディスク）、ＦＤ（フロッピー（登録商標）ディスク）、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＭＯ、ＤＶＤ、フラッシュメモリー、メモリーカード等があげられ、前記ドライブは、特に制限されない。記憶装置１０４は、例えば、前記記憶媒体と前記ドライブとが一体化されたハードディスクドライブ（ＨＤＤ）であってもよい。

検出装置１は、例えば、さらに、入力装置１０６、ディスプレイ１０７を有する。入力装置１０６は、例えば、タッチパネル、トラックパッド、マウス等のポインティングデバイス；キーボード；カメラ、スキャナ等の撮像手段；ＩＣカードリーダ、磁気カードリーダ等のカードリーダ；マイク等の音声入力手段；等があげられる。ディスプレイ１０７は、例えば、ＬＥＤ（light emitting diode）ディスプレイ、液晶ディスプレイ等の表示装置があげられる。本実施形態１において、入力装置１０６とディスプレイ１０７とは、別個に構成されているが、入力装置１０６とディスプレイ１０７とは、タッチパネルディスプレイのように、一体として構成されてもよい。

検出装置１において、メモリ１０２および記憶装置１０４は、ユーザからのアクセス情報およびログ情報、ならびに、配列ＤＢ３等の外部データベースから取得した情報を記憶することも可能である。

図３に、検出端末２のハードウェア構成のブロック図を例示する。検出端末２は、例えば、ＣＰＵ２０１、メモリ２０２、バス２０３、記憶装置２０４、入力装置（入力部）２１、通信デバイス２０８、ディスプレイ（出力部）２２等を有する。検出端末２の各部は、それぞれのインタフェース（Ｉ／Ｆ）により、バス２０３を介して接続されている。検出端末２の各構成の説明は、検出装置１の各構成の説明を援用できる。

本実施形態において、配列ＤＢ３は、後述のように、１以上の解析対象のリードデータ３１および１以上の検出対象のデータ３２が格納されたデータベースサーバである。配列ＤＢ３のハードウェア構成は、検出装置１のハードウェア構成の説明を援用できる。配列ＤＢ３では、記憶装置に、解析対象のリードデータ３１および検出対象のデータ３２が格納される。配列ＤＢ３に格納されている解析対象のリードデータ３１の数は、１つまたは複数である。また。配列ＤＢ３に格納されている検出対象のデータ３２の数は、１つまたは複数である。なお、本実施形態において、解析対象のリードデータ３１および検出対象のデータ３２は、配列ＤＢ３に格納されているが、解析対象のリードデータ３１および／または検出対象のデータ３２は、検出装置１の記憶装置１０４に格納されてもよい。

つぎに、本実施形態の検出システム１００における処理の一例について、検出端末２から入力され、配列ＤＢ３に格納された解析対象のリードデータ３１および検出対象のデータ３２に基づき処理する場合を例にとり、図４のフローチャートに基づき、説明する。なお、図４において、検出装置１は、Ｓ３～Ｓ５工程を実施する。また、図４において、Ｓ１およびＳ２工程は、任意の工程であり、あってもよいし、なくてもよい。

検出装置１による処理に先立ち、まず、解析対象のリードデータ３１および検出対象のデータ３２を準備する。具体的には、ユーザが、ユーザの検出端末２の入力部２１により、解析対象のリードデータ３１および検出対象のデータ３２を入力する（Ｓ１）。

解析対象のリードデータ３１は、前記解析対象が含有する核酸分子を断片化し、断片化された各核酸分子の核酸配列を解読することにより、取得できる。実施形態１において、解析対象のリードデータ３１は、リード１（Ｌ_Ｔ１）～リードｎ（Ｌ_Ｔｎ）から構成される（ｎ：正の整数）。解析対象のリードデータ３１は、ユーザに取得されたリードデータでもよいし、データベース等に登録されたリードデータでもよい。解析対象のリードデータ３１は、例えば、前記解析対象が含有する核酸分子について、次世代シーケンサーを用いて核酸配列を解読することにより取得できる。前記次世代シーケンサーは、パイロシークエンス、可逆的ターミネータ法、またはイオン半導体シーケンシング等を利用したシーケンサーがあげられ、具体例として、GS JuniorおよびGS FLX+プラットフォーム（Roche社製）、MiSeq、NextSeqおよびHiSeqプラットフォーム（Illumina社製）、Genetic AnalyzerおよびIon Proton System（ThermoFisher Scientific社製）等があげられる。解析対象のリードデータ３１は、例えば、前記解析対象の識別子等の識別情報と紐付けられている。

解析対象のリードデータ３１が含む各リードの長さ（塩基長）は、特に制限されず、例えば、解析対象のリードデータ３１の取得に用いた核酸配列の解読方法に応じて異なる。前記リードの長さは、例えば、５０～２０００ｂｐｓ（塩基長）、または１００～６００ｂｐｓ（塩基長）である。

解析対象のリードデータ３１は、例えば、前記次世代シーケンサー等を用いて解読された各リードの核酸配列から構成されてもよいし、前記次世代シーケンサー等を用いて解読された各リードの核酸配列に対して、前処理を実施したリードの核酸配列から構成されてもよい。前記前処理は、例えば、各リードの核酸配列のトリミング処理またはマスキング処理があげられる。前記トリミング処理およびマスキング処理は、例えば、ソフトウェア（Trimmomatic、fastp（https://github.com/OpenGene/fastp）、Cutadapt（https://cutadapt.readthedocs.io/en/stable/）等）を用いて実施できる。前記トリミング処理は、例えば、核酸配列の解読において、前記解析対象の核酸分子由来の核酸分子の断片に対して付加されるアダプター（インデックス、タグ、バーコード等ともいう）の核酸配列の一部または全部を削除する処理である。前記アダプターの核酸配列は、通常、解析対象の核酸分子由来の核酸配列の両端に付加され、各リードの両端側に存在する。このため、前記トリミング処理では、リードの核酸配列の両端側におけるアダプターに対応する核酸配列の一部または全部を削除する。解析対象のリードデータ３１に対して前処理が実施されていない場合、後述の検出工程（Ｓ５）では、検出に先立ち、解析対象のリードデータ３１に対して前処理を実施してもよい。解析対象のリードデータ３１について、前処理を行なうことにより、実施形態１の検出装置１は、後述の検出工程（Ｓ５）において、より精度よく、検出対象由来の核酸配列を検出できる。

解析対象のリードデータ３１の量は、例えば、解析対象１単位が含む核酸配列以上であり、好ましくは、１０倍以上、より好ましくは、２０倍以上、さらに好ましくは、３０倍以上である。実施形態１の検出装置１では、後述の検出工程（Ｓ５）に提供する解析対象のリードデータ３１の量を多くすると、より解析精度（特に、解析の感度）よく、前記検出対象由来の核酸配列を検出できる。このため、解析対象のリードデータ３１の量の上限は、例えば、ユーザの求める解析精度およびユーザが許容する検出処理の時間に応じて適宜設定できる。具体例として、解析対象のリードデータ３１の量の上限は、例えば、解析対象１単位の１０００倍以下、５００倍以下、２５０倍以下、または１００倍以下があげられる。解析対象のリードデータ３１の量は、例えば、１０～１０００倍、２０～１０００倍、３０～１０００倍、１０～５００倍、２０～５００倍、３０～５００倍、１０～２５０倍、２０～２５０倍、３０～２５０倍である。前記１単位は、解析対象の最小構成を意味する。具体例として、前記解析対象がゲノム、染色体、および遺伝子である場合、前記解析対象の一単位は、ゲノムの全長、染色体の全長、および遺伝子の全長を意味する。解析対象のリードデータ３１の量は、カバレッジ（被覆率）ということもでき、また、カバー率、「～倍の読み」、カバレッジレベル、または深度ということもできる。解析対象のリードデータ３１の量は、解析対象のリードデータ３１における核酸配列の数（総塩基数）を、解析対象１単位が含む核酸配列の数（総塩基数）を割ることにより算出できる。具体例として、前記解析対象が生物のゲノムの場合、解析対象のリードデータ３１の量は、リード１（Ｌ_Ｔ１）～リードｎ（Ｌ_Ｔｎ）の総塩基数をゲノム全長の総塩基数の総数で割ることにより算出できる。

検出対象のデータ３２は、前述のように、検出対象の核酸分子の核酸配列のデータである。検出対象のデータ３２は、ユーザに取得されたデータでもよいし、データベース等に登録されたデータでもよい。検出対象のデータ３２の数は、特に制限されず、例えば、ユーザが検討した検出対象の数に応じて適宜決定できる。検出対象のデータ３２は、例えば、前記検出対象の識別子等の識別情報と紐付けられている。

つぎに、検出端末２に入力された解析対象のリードデータ３１および検出対象のデータ３２は、通信回線網４を介して、配列ＤＢ３へ出力される。そして、配列ＤＢ３は、解析対象のリードデータ３１および検出対象のデータ３２を、それぞれ解析対象の情報（ＩＤ、識別子等）および検出対象の情報（ＩＤ、識別子等）と紐付けて格納する（Ｓ２）。なお、Ｓ２工程において、解析対象のリードデータ３１および検出対象のデータ３２の格納は、同時に（並列に）処理しているが、別々に処理してもよい。この場合、解析対象のリードデータ３１および検出対象のデータ３２の格納の順序は、特に制限されず、解析対象のリードデータ３１の格納後に、検出対象のデータ３２を格納してもよいし、検出対象のデータ３２の格納後に、解析対象のリードデータ３１を格納してもよい。

つぎに、検出装置１は、配列ＤＢ３に格納された解析対象のリードデータ３１および検出対象のデータ３２を用いて処理を開始する。まず、検出装置１は、例えば、ユーザにより検出端末２にから指示された解析対象のリードデータ３１および検出対象のデータ３２を配列ＤＢ３から取得する。具体的には、検出装置１の第１の取得部１１が、配列ＤＢ３に対して、配列ＤＢ３に格納された解析対象のリードデータ３１を要求し、配列ＤＢ３から出力された解析対象のリードデータ３１を取得する（Ｓ３、第１の取得工程）。つぎに、検出装置１の第２の取得部１２が、配列ＤＢ３に対して、配列ＤＢ３に格納された検出対象のデータ３２を要求し、配列ＤＢ３から出力された検出対象のデータ３２を取得する（Ｓ４、第２の取得工程）。なお、実施形態１においては、Ｓ３の処理後に、Ｓ４を処理しているが、Ｓ３およびＳ４の処理順序は、特に制限されず、Ｓ４の処理後にＳ３を処理してもよいし、Ｓ３およびＳ４を同時に処理してもよい。

つぎに、検出装置１では、検出部１３が、解析対象のリードデータ３１および検出対象のデータ３２を用いて、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する（Ｓ５、検出工程）。具体的には、Ｓ５では、まず、検出部１３が解析対象のリードデータ３１から、検出対象のデータ３２の核酸配列との比較に用いるｋ塩基長の核酸配列を抽出（生成）する。抽出されるｋ塩基長の核酸配列の数は、１つもでもよいし、複数でもよい。前記ｋ塩基長の核酸配列は、例えば、ユーザに指定されたｋ塩基長の核酸配列でもよいし、解析対象のリードデータ３１の核酸配列からｋ塩基長の核酸配列をランダムまたは規則性をもって抽出してもよい。具体例として、前記ｋ塩基長の核酸配列は、解析対象のリードデータ３１であるリード１（Ｌ_Ｔ１）～リードｎ（Ｌ_Ｔｎ）を用いて、いずれか１つのリードから１または複数のｋ塩基長の核酸配列を抽出してもよいし、複数のリードから１または複数のｋ塩基長の核酸配列を抽出してもよいし、全てのリードから１または複数のｋ塩基長の核酸配列を抽出してもよい。

前記ｋ塩基長において、ｋの値は、解析対象の全長の核酸配列に応じて適宜設定でき、具体例として、下記条件（１）を満たす。この場合、実施形態１の検出装置１は、Ｓ５工程に先立ち、前記解析対象１単位が含む核酸配列の総塩基長の情報を取得し、解析対象１単位が含む核酸配列の総塩基長に基づき、ｋの値を算出し、得られたｋの値を設定する設定部を備えてもよい。この場合、前記設定部が、前記解析対象１単位が含む核酸配列の総塩基長の情報の取得、ｋの値の算出および設定を実施する設定工程を実施する。具体例として、前記解析対象がイネのゲノムである場合、下記イネのゲノム一単位が含む核酸配列の総塩基長（Ｎ_Ｇ）は、４００Ｍｂであり、ｋは、１５と算出されるため、ｋ≧１５の範囲で設定することが好ましい。前記ｋの値は、ユーザにより入力された値を用いてもよい。
条件（１）：Ｎ_Ｇ≦４^ｋ
（前記条件（１）において、Ｎ_Ｇは、解析対象１単位が含む核酸配列の総塩基長である。）

前記ｋの値は、好ましくは、偶然同一が生じる可能性が低い値であり、具体例として、１６、１７、１８、もしくは１９、またはいずれかの数値以上であり、より好ましくは、２０、２５、３０、３５、４０、４５、もしくは５０、またはいずれかの数値以上である。前記ｋの値の上限は、例えば、前記検出対象の全長の核酸配列の長さまたは前記解析対象の全長の核酸配列の長さに応じて設定できる。具体例として、前記ｋの値の上限は、前記検出対象の全長の核酸配列の長さまたは前記解析対象の全長の核酸配列の長さである。実施形態１の検出装置１では、前記ｋの値を、２０以上とすることにより、偶然同一が生じる可能性をより低減でき、より精度よく（特に、解析の特異度）、検出対象由来の核酸配列を検出できる。

つぎに、検出部１３は、抽出されたｋ塩基長の核酸配列と、検出対象のデータ３２の核酸配列とを照合（比較）し、検出対象のデータ３２の核酸配列において、前記ｋ塩基長の核酸配列と一致する核酸配列を検出する。前記照合は、例えば、核酸配列またはアミノ酸配列のアライメントに用いる公知のソフトウェアまたは処理を用いて実施できる。そして、検出部１３は、検出対象のデータ３２の核酸配列において、前記ｋ塩基長の核酸配列と一致する配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。また、前記ｋ塩基長の核酸配列が複数の場合、検出部１３は、各ｋ塩基長の核酸配列について、検出対象のデータ３２の核酸配列との照合を実施し、検出対象のデータ３２の核酸配列において、前記ｋ塩基長の核酸配列と一致する核酸配列を検出する。検出部１３は、前記ｋ塩基長の核酸配列について、得られた検出結果と、前記ｋ塩基長の核酸配列のデータとを紐付けてもよい。これにより、検出装置１は、例えば、検出部１３で得られた検出結果について、閾値との比較、統計学的な処理等を実施することにより、前記解析対象の核酸配列について、前記検出対象由来の核酸配列が存在するかを、より精度よく解析可能とできる。前記検出結果は、例えば、前記ｋ塩基長の核酸配列のカウント数（検出回数）、前記ｋ塩基長の核酸配列の検出頻度等があげられる。

そして、実施形態１の検出装置１は、処理を終了する。

実施形態１の検出装置１は、例えば、得られた検出結果について、検出端末２に出力してもよい。この場合、検出端末２は、出力部２２に、前記検出結果を出力する。

実施形態１の検出装置１、検出端末２および検出システム１００によれば、解析対象のリードデータ３１および検出対象のデータ３２から、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出できる。このため、実施形態１の検出装置１では、前述のリファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出できる。

実施形態１の検出システム１００において、配列ＤＢ３に、解析対象のリードデータ３１および検出対象のデータ３２が格納されているが、本発明はこれに限定されず、解析対象のリードデータ３１および検出対象のデータ３２は、検出装置１の記憶装置１０４に格納されてもよい。また、検出対象のデータ３２がシステム外のデータベースに登録されている場合、検出装置１は、システム外のデータベースに対して、検出対象のデータ３２を要求し、送信された検出対象のデータ３２を取得してもよい。

実施形態１の検出装置１では、解析対象のリードデータ３１からｋ塩基長の核酸配列を抽出したが、本発明はこれに限定されず、検出対象のデータ３２からｋ塩基長の核酸配列を抽出してもよいし、解析対象のリードデータ３１および検出対象のデータ３２の両者からｋ塩基長の核酸配列を抽出してもよい。この場合、検出部１３は、抽出されたｋ塩基長の核酸配列を他方の核酸配列と照合し、ｋ塩基長の核酸配列と一致する核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。

検出部１３が、前記ｋ塩基長の核酸配列について、得られた検出結果と、前記ｋ塩基長の核酸配列のデータとを紐付ける場合、実施形態１の検出装置１は、さらに、判定部を備え、前記判定部は、前記他のデータにおけるｋ塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定してもよい。前記判定部における判定は、例えば、カウント数と予め設定された第１の閾値との比較、後述の対照のリードデータを用いて得られる検出結果との比較または統計的検定等があげられる。前記第１の閾値は、例えば、検出対象由来の核酸分子を含む解析対象の核酸分子と、検出対象由来の核酸分子を含まない解析対象の核酸分子とを準備し、実施形態１の検出装置１で得られる検出結果を用いて設定できる。

［実施形態２］
本実施形態は、本発明の検出装置および検出端末を備える検出システムの他の例である。図５は、本実施形態の検出装置１Ａ、検出端末２、および配列ＤＢ３Ａを備える検出システム１００Ａを示すブロック図である。図５に示すように、検出システム１００Ａは、検出装置１Ａ、検出端末２、および配列ＤＢ３を備える。また、図５に示すように、検出装置１Ａは、実施形態１の検出装置１の構成に加えて、第３の取得部１４、比較配列生成部１５、判定部１６、および位置特定部１７を備える。また、配列ＤＢ３Ａは、実施形態１の配列ＤＢ３のデータに加えて、対照の核酸配列のリードデータ（対照のリードデータ）３３が格納されている。検出装置１Ａのハードウェア構成は、図２の検出装置のハードウェア構成において、ＣＰＵ１０１が、図１の検出装置１の構成に変えて、図５の検出装置１Ａの構成を備える以外は同様である。これらの点を除き、実施形態２の検出装置１Ａの構成は、実施形態１の検出装置１の構成と同様であり、その説明を援用できる。

本実施形態の検出システム１００Ａにおける処理の一例を、図６および図７のフローチャートに基づいて説明する。図６および７において、検出装置１Ａは、Ｓ３～Ｓ９工程を実施する。図６および図７に示すように、実施形態２の検出方法は、実施形態１の検出方法のＳ１およびＳ２工程に代えて、Ｓ１ＡおよびＳ２Ａ工程を含む。また、施形態２の検出方法は、実施形態１の検出方法のＳ５工程が、Ｓ５１～Ｓ５４工程から構成される。実施形態２の検出方法は、実施形態１の検出方法に加えて、Ｓ６～Ｓ９工程を含む。これらの点を除き、実施形態２の検出システム１００Ａの処理は、実施形態１のシステム１００の処理と同様であり、その説明を援用できる。

まず、実施形態１のＳ１工程と同様に、検出装置１Ａによる処理に先立ち、まず、解析対象のリードデータ３１、検出対象のデータ３２、および対照のリードデータ３３を準備する。具体的には、ユーザが、ユーザの検出端末２の入力部２１により、解析対象のリードデータ３１、検出対象のデータ３２、および対照のリードデータ３３を入力する（Ｓ１Ａ）。実施形態２において、解析対象のリードデータ３１は、リード１（Ｌ_Ｔ１）～リードｎ（Ｌ_Ｔｎ）から構成される（ｎ：正の整数）。また、実施形態２において、対照のリードデータ３３は、リード１（Ｌ_Ｒ１）～リードｍ（Ｌ_Ｒｍ）から構成される（ｍ：正の整数）。

対照のリードデータ３３は、前記解析対象の対照となる核酸分子について、断片化し、断片化された核酸分子毎の核酸配列を解読することにより、取得できる。対照のリードデータ３３は、ユーザに取得されたリードデータでもよいし、データベース等に登録されたリードデータでもよい。対照のリードデータ３３は、解析対象のリードデータ３１と同様に、例えば、前記対照が含有する核酸分子について、次世代シーケンサーを用いて核酸配列を解読することにより取得できる。対照のリードデータ３３は、解析対象のリードデータ３１と同様の条件で取得されることが好ましい。前記対照は、前記解析対象との差異を検出するための基準として用いられる任意の核酸分子であり、例えば、前記解析対象の種類に応じて、適宜設定できる。具体例として、前記解析対象がある核酸分子に対して、核酸配列の挿入、付加、置換、欠失、改変等の修飾を行なった核酸分子である場合、前記対照は、未修飾の核酸分子、すなわち、ある核酸分子を利用できる。前記対照は、例えば、コントロール、比較対象等ということもできる。対照のリードデータ３３は、例えば、前記対照の識別子等の識別情報と紐付けられている。

対照のリードデータ３３の長さは、例えば、解析対象のリードデータ３１の説明を援用できる。対照のリードデータ３３は、例えば、前処理されたリードデータでもよい。前記前処理は、解析対象のリードデータ３１の説明を援用できる。解析対象のリードデータ３１に対して前処理を行なっている場合、対照のリードデータ３３は、解析対象のリードデータ３１に対する前処理と同様の前処理が実施されていることが好ましい。

対照のリードデータ３３の量は、例えば、解析対象のリードデータ３１の説明を援用できる。対照のリードデータ３３の量と解析対象のリードデータ３１の量とは、すなわち、対照のリードデータ３３のカバレッジと解析対象のリードデータ３１のカバレッジとは、例えば同程度であり、好ましくは、同じであることが好ましい。

つぎに、検出端末２に入力された解析対象のリードデータ３１、検出対象のデータ３２、および対照のリードデータ３３は、通信回線網４を介して、配列ＤＢ３Ａへ出力される。そして、配列ＤＢ３Ａは、解析対象のリードデータ３１、検出対象のデータ３２、および対照のリードデータ３３を、それぞれ解析対象の情報（ＩＤ、識別子等）、検出対象の情報（ＩＤ、識別子等）、および対照の情報（ＩＤ、識別子等）と紐付けて格納する（Ｓ２Ａ）。なお、Ｓ２Ａ工程において、解析対象のリードデータ３１、検出対象のデータ３２、および対照のリードデータ３３の格納は、同時に（並列に）処理しているが、別々に処理してもよい。この場合、解析対象のリードデータ３１、検出対象のデータ３２、および対照のリードデータ３３の格納の順序は、特に制限されず、任意の順序とできる。

つぎに、検出装置１Ａは、配列ＤＢ３Ａに格納された解析対象のリードデータ３１、検出対象のデータ３２、および対照のリードデータ３３を用いて処理を開始する。まず、検出装置１Ａは、例えば、ユーザにより検出端末２にから指示された解析対象のリードデータ３１、検出対象のデータ３２、および対照のリードデータ３３を配列ＤＢ３Ａから取得する。具体的には、検出装置１Ａの第１の取得部１１が、配列ＤＢ３Ａに対して、配列ＤＢ３Ａに格納された解析対象のリードデータ３１を要求し、配列ＤＢ３Ａから出力された解析対象のリードデータ３１を取得する（Ｓ３、第１の取得工程）。つぎに、検出装置１Ａの第２の取得部１２が、配列ＤＢ３Ａに対して、配列ＤＢ３Ａに格納された検出対象のデータ３２を要求し、配列ＤＢ３Ａから出力された検出対象のデータ３２を取得する（Ｓ４、第２の取得工程）。さらに、検出装置１Ａの第３の取得部１４が、配列ＤＢ３Ａに対して、配列ＤＢ３Ａに格納された対照のリードデータ３３を要求し、配列ＤＢ３Ａから出力された対照のリードデータ３３を取得する（Ｓ６、第３の取得工程）。なお、実施形態２においては、Ｓ３、Ｓ４、およびＳ６をこの順序で処理しているが、Ｓ３、Ｓ４、およびＳ６の処理順序は、特に制限されず、任意の順序で処理してもよいし、Ｓ３、Ｓ４、およびＳ６を同時に処理してもよい。

つぎに、検出装置１Ａでは、比較配列生成部１５が、解析対象のリードデータ３１および対照のリードデータ３３から、検出対象のデータ３２の核酸配列と比較に用いる複数のｋ塩基長の核酸配列を生成する（Ｓ７、比較配列生成工程）。比較配列生成部１５において生成されるｋ塩基長の核酸配列の数は、複数であればよく、その上限は、解析対象のリードデータ３１ならびに対照のリードデータ３３のリードの数および各リードの塩基長（長さ）に応じて決定される。前記ｋ塩基長の核酸配列の数が相対的に多いと、検出装置１Ａでは、例えば、後述の判定工程（Ｓ８）における判定精度がより向上する。このため、前記ｋ塩基長の核酸配列の数は、多いことが好ましい。

比較配列生成部１５は、解析対象のリードデータ３１ならびに対照のリードデータ３３において、ユーザに指定された核酸配列からｋ塩基長の核酸配列を生成してもよいし、ランダムにｋ塩基長の核酸配列を生成してもよいし、規則性をもって（例えば、所定間隔）ｋ塩基長の核酸配列を生成してもよい。比較配列生成部１５が所定間隔でｋ塩基長の核酸配列を生成する場合、比較配列生成部１５は、例えば、解析対象のリードデータ３１ならびに対照のリードデータ３３において、１または複数の塩基長毎の核酸（塩基）を基準として、ｋ塩基長の核酸配列を生成する。比較配列生成部１５は、例えば、後述の判定工程（Ｓ８）における判定精度をさらに向上できることから、解析対象のリードデータ３１ならびに対照のリードデータ３３について、各リードの核酸配列の全長の一端から他端まで、１または複数塩基毎の核酸を基準（端部の核酸）としたｋ塩基長の核酸配列を生成することにより、前記複数のｋ塩基長の核酸配列を生成することが好ましく、１塩基毎の核酸を基準（端部の核酸）としたｋ塩基長の核酸配列を生成することにより、前記複数のｋ塩基長の核酸配列を生成することが特に好ましい。

具体例として、解析対象のリードデータ３１および対照のリードデータ３３について、各リードの核酸配列の全長の一端から他端まで、１塩基毎の核酸を基準として、ｋ塩基長の核酸配列を生成する場合、比較配列生成部１５は、一例として、以下のように処理する。まず、比較配列生成部１５は、解析対象のリードデータ３１のリード１（Ｌ_Ｔ１）の１塩基目の核酸（例えば、５’端の核酸）を基準（起点）として、ｋ塩基長の長さの核酸配列を抽出する。ついで、比較配列生成部１５は、２塩基目の核酸の核酸を基準として、ｋ塩基長の長さの核酸配列を抽出する。さらに、解析対象のリードデータ３１のリード１（Ｌ_Ｔ１）の長さがｌ_Ｔ１の場合、比較配列生成部１５は、同様にして、（ｌ_Ｔ１－ｋ）番目の核酸が基準となるまで、基準を１塩基ずつ３’側に変更して、繰り返しｋ塩基長の核酸配列を抽出する。つぎに、比較配列生成部１５は、リード２（Ｌ_Ｔ２）～リードｎ（Ｌ_Ｔｎ）に対しても同様の処理を実施して、ｋ塩基長の核酸配列を抽出する。さらに、比較配列生成部１５は、リード１（Ｌ_Ｒ１）～リードｍ（Ｌ_Ｒｍ）に対しても、同様の処理を実施してｋ塩基長の核酸配列を抽出する。なお、各リードの末端を基準として、ｋ塩基長の核酸配列を抽出する例をあげたが、比較配列生成部１５は、各リードの任意の核酸を基準として、抽出してもよい。

つぎに、検出装置１Ａでは、検出部１３が、解析対象のリードデータ３１から生成された複数のｋ塩基長の核酸配列および対照のリードデータ３３から生成された複数のｋ塩基長の核酸配列を用いて、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する（Ｓ５１およびＳ５３）。そして、検出部１３は、得られた検出結果を、後述の判定工程（Ｓ８）で利用可能なように、前記検出結果を得るために使用したｋ塩基長の核酸配列のデータまたは前記ｋ塩基長の核酸配列と対応する検出対象のデータ３２（例えば、検出対象の核酸分子におけるｋ塩基長の核酸配列の位置）と紐付ける（Ｓ５２およびＳ５４、判定工程）。具体例として、検出部１３は、あるｋ塩基長の核酸配列について、前記検出対象由来の核酸配列の２０～３９番目の核酸配列と一致すると検出した場合、検出部１３は、前記検出対象由来の核酸配列の２０～３９番目の核酸配列に、当該検出結果（例えば、カウント数）を紐付ける。

具体的には、まず、Ｓ５工程では、検出部１３が、解析対象のリードデータ３１から生成されたあるｋ塩基長の核酸配列と、検出対象のデータ３２の核酸配列とを照合し、検出対象のデータ３２の核酸配列における前記ｋ塩基長の核酸配列と一致する核酸配列の有無を検出する（Ｓ５１）。つぎに、検出部１３は、前記ｋ塩基長の核酸配列の検出結果（検出有りおよび／または検出無し）について、検出対象のデータ３２において、前記ｋ塩基長の核酸配列と対応する検出対象の核酸配列の位置の情報と紐付け、解析対象の検出データを生成する（Ｓ５２）。前記紐付けは、例えば、前記核酸配列の位置に対して、検出有りの回数および／または検出無しの回数（カウント数）として紐付けることにより実施できる。そして、検出部１３は、比較配列生成部１５により生成された複数のｋ塩基長の核酸配列の全てに対して、同様の処理を実施する（Ｓ５１）。つぎに、検出部１３は、各ｋ塩基長の核酸配列の検出結果（検出有りおよび／または検出無し）について、検出対象のデータ３２において、各ｋ塩基長の核酸配列と対応する検出対象の核酸配列の位置の情報と紐付け、解析対象の検出データを生成する（Ｓ５２）。なお、検出部１３が、各ｋ塩基長の核酸配列に対して、Ｓ５１工程の処理を実施後、Ｓ５２工程を実施する場合を例にあげたが、検出部１３は、１つのｋ塩基長の核酸配列に対してＳ５１およびＳ５２工程の処理を実施後に、つぎのｋ塩基長の核酸配列に対して同様の処理を実施するように構成してもよい。また、検出部１３は、前記検出結果としてカウント数を紐付けたが、検出頻度等の他の情報を検出結果として紐付けてもよい。

つぎに、検出部１３は、対照のリードデータ３３から生成されたあるｋ塩基長の核酸配列と、検出対象のデータ３２の核酸配列とを照合し、検出対象のデータ３２の核酸配列における前記ｋ塩基長の核酸配列と一致する核酸配列の有無を検出する（Ｓ５３）。つぎに、検出部１３は、前記ｋ塩基長の核酸配列の検出結果（検出有りおよび／または検出無し）について、検出対象のデータ３２において、前記ｋ塩基長の核酸配列と対応する検出対象の核酸配列の位置の情報と紐付け、対照の検出データを生成する（Ｓ５４）。前記紐付けは、例えば、前記核酸配列の位置に対して、検出有りの回数および／または検出無しの回数（カウント数）として紐付けることにより実施できる。そして、検出部１３は、比較配列生成部１５により生成された複数のｋ塩基長の核酸配列の全てに対して、同様の処理を実施する（Ｓ５３）。つぎに、検出部１３は、各ｋ塩基長の核酸配列の検出結果について、検出対象のデータ３２において、各ｋ塩基長の核酸配列と対応する検出対象の核酸配列の位置の情報と紐付け、対照の検出データを生成する（Ｓ５４）。なお、検出部１３が、各ｋ塩基長の核酸配列に対して、Ｓ５３工程の処理を実施後、Ｓ５４工程を実施する場合を例にあげたが、検出部１３は、１つのｋ塩基長の核酸配列に対してＳ５３およびＳ５４工程の処理を実施後に、つぎのｋ塩基長の核酸配列に対して同様の処理を実施するように構成してもよい。また、検出部１３は、前記検出結果としてカウント数を紐付けたが、検出頻度等の他の情報を検出結果として紐付けてもよい。

つぎに、検出装置１Ａでは、判定部１６が、Ｓ５工程で得られた結果、具体的には、解析対象のリードデータ３１を用いて得られた検出対象のデータ３２におけるｋ塩基長の核酸配列の検出結果と、対照のリードデータ３３を用いて得られた検出対象のデータ３２におけるｋ塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する（Ｓ８）。

具体的には、判定部１６は、Ｓ５２工程で得られた解析対象の検出データと、Ｓ５４工程で得られた対照の検出データとについて、検出結果に差があるかを判定する。前記判定は、前記検出対象の核酸配列の各位置について、前記解析対象の検出データと前記対照の検出データとを比較することにより、判定できる。具体例として、判定部１６は、前記検出対象の核酸配列の位置Ｘについて、前記解析対象の検出データおよび前記対照の検出データにおける位置Ｘと紐付けれた検出結果（検出有りの回数および／または検出無しの回数）を比較することにより実施できる。そして、前記解析対象の検出データおよび前記対照の検出データの検出結果に差がある場合、例えば、前記解析対象の検出データにおける検出有りの回数が、前記対照の検出データにおける検出有りの回数より（有意に）多い場合、および／または前記解析対象の検出データにおける検出無しの回数が、前記対照の検出データにおける検出無しの回数より（有意に）少ない場合、判定部１６は、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むと判定する（Ｙｅｓ）。そして、検出装置１Ａは、Ｓ９工程の処理に進む。他方、前記解析対象の検出データおよび前記対照の検出データの検出結果に差がない場合、例えば、前記解析対象の検出データにおける検出有りの回数が、前記対照の検出データにおける検出有りの回数と同等の（有意差がない）場合、および／または前記解析対象の検出データにおける検出無しの回数が、前記対照の検出データにおける検出無しの回数と同等の（有意差がない）場合、判定部１６は、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含まないと判定する（Ｎｏ）。そして、検出装置１Ａは、処理を終了する。

判定部１６による判定では、例えば、２群のデータの独立性を検定可能な統計処理が利用でき、具体例として、カイ２乗検定、Ｇ検定等が利用できる。この場合、判定部１６は、２群のデータが独立でない場合、前記２つのデータに差がない、すなわち、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含まないと判定する（Ｎｏ）。そして、検出装置１Ａは、処理を終了する。他方、判定部１６は、２群のデータが独立である場合、前記２つのデータに差がある、すなわち、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むと判定する（Ｙｅｓ）。そして、検出装置１Ａは、Ｓ９工程の処理に進む。

つぎに、検出装置１Ａでは、位置特定部１７が、Ｓ５２工程で得られた解析対象の検出データと、Ｓ５４工程で得られた対照の検出データとに基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象の核酸配列における位置を特定する（Ｓ９、位置特定工程）。

具体的には、位置特定部１７は、例えば、Ｓ５２工程で得られた解析対象の検出データと、Ｓ５４工程で得られた対照の検出データとについて、検出対象のデータ３２における核酸配列の各位置における検出結果を比較する。前記比較は、判定部１６の説明における各位置の判定と同様に実施できる。そして、位置特定部１７は、前記解析対象の検出データにおける検出結果と、前記対照の検出データにおける検出結果とが、前記検出対象の核酸配列の各位置において（有意な）差がある場合、比較を行なった位置の核酸を、前記検出対象に由来する核酸配列として判定し、前記比較を行なった位置を、前記検出対象の核酸配列における位置として特定する。より具体的には、位置特定部１７は、Ｓ５２工程で得られた解析対象の検出データにおける検出有りのカウント数が、検出対象のデータ３２における核酸配列の各位置における検出有りのカウント数と比較して、有意に多い場合、比較を行なった位置の核酸を、前記検出対象に由来する核酸配列として判定し、前記比較を行なった位置を、前記検出対象の核酸配列における位置として特定する。また、判定部１６において、統計処理を用いている場合、位置特定部１７は、各位置における検出結果について統計処理することにより得られた値に基づき、前記検出対象の核酸配列における位置を特定してもよい。この場合、位置特定部１７は、各位置における検出結果について統計処理することにより得られた値と、第２の閾値とを比較することにより、前記検出対象の核酸配列における位置を特定してもよい。前記第２の閾値は、例えば、検出対象由来の核酸分子を含む解析対象の核酸分子と、検出対象由来の核酸分子を含まない解析対象の核酸分子とを準備し、実施形態２の検出装置１Ａで得られる検出結果について統計処理することにより得られた値を用いて設定できる。

そして、検出装置１Ａは、処理を終了する。

実施形態２の検出装置２は、例えば、得られた検出結果および／または前記検出対象由来の核酸配列における位置について、検出端末２に出力してもよい。この場合、検出端末２は、出力部２２に、前記検出結果および／または前記検出対象由来の核酸配列における位置を出力する。

実施形態の検出システム１００Ａおよび検出装置１Ａは、比較配列生成部１５により複数のｋ塩基長の核酸配列を生成し、これを用いて、前記解析対象核酸配列における検出対象由来の核酸配列を検出するため、より精度（特に、解析の感度）よく、前記検出対象由来の核酸配列を検出できる。また、実施形態の検出システム１００Ａおよび検出装置１Ａは、対照の核酸配列のリードデータを用いるため、前記検出対象に由来しない核酸配列を前記検出対象由来の核酸配列として検出する可能性を抑制できる、すなわち、より精度（特に、解析の特異度）よく、前記検出対象由来の核酸配列を検出できる。さらに、実施形態の検出システム１００Ａおよび検出装置１Ａは、位置特定部１７により、前記解析対象の核酸配列に導入された検出対象由来の核酸配列について、前記検出対象の核酸配列における位置を特定できるため、他の手段を用いて、前記検出対象由来の核酸配列を確認することができる。

なお、実施形態２の検出装置１Ａでは、比較配列生成部１５が、解析対象のリードデータ３１ならびに対照のリードデータ３３からｋ塩基長の核酸配列の生成を並行して実施した、本発明はこれに限定されず、比較配列生成部１５は、解析対象のリードデータ３１ならびに対照のリードデータ３３からｋ塩基長の核酸配列の生成を別々に実施してもよい。この場合、比較配列生成部１５は、解析対象のリードデータ３１ならびに対照のリードデータ３３からｋ塩基長の核酸配列の生成をする順序は、特に制限されず、任意の順序とできる。

実施形態２の検出装置１Ａでは、検出部１３は、Ｓ５工程においてＳ５１～Ｓ５４工程をこの順序で実施したが、Ｓ５工程においては、Ｓ５１工程の実施後にＳ５２工程が実施され、Ｓ５３工程の実施後にＳ５４工程が実施されればよく、Ｓ５１およびＳ５２工程と、Ｓ５３およびＳ５４工程との順序は、任意の順序とできる。

［実施形態３］
本実施形態のプログラムは、コンピュータに、前述の検出方法の各工程（処理、手順、命令、または動作ともいう）を、実行させるプログラムである。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体（non-transitory computer-readable storage medium）である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハードディスク（ＨＤ）、光ディスク、フロッピー（登録商標）ディスク（ＦＤ）等があげられる。

以下、実施例を用いて本発明を詳細に説明するが、本発明は実施例に記載された態様に限定されるものではない。なお、特に示さない限り、市販の試薬およびキット等は、そのプロトコルに従い使用した。

［実施例１］
本発明の検出方法により、ゲノムＤＮＡに挿入された外来性ＤＮＡを検出できること、仮想のゲノムＤＮＡを作成し、確認した。実施例１の検出方法の概略を図８に示す。

（１）仮想ゲノムＤＮＡの生成
まず、外来性ＤＮＡが導入されたゲノムＤＮＡの核酸配列を生成した（図８（１））。具体的には、検出対象の核酸分子であるプラスミドベクター（ＣｏｌＥ１プラスミド、International Nucleotide Sequence Database Collaboration (INSDC) accession number J015666）の核酸配列から、１００塩基長の核酸配列をランダムに抽出した。つぎに、抽出された核酸配列を、イネ（日本晴）のゲノムＤＮＡの核酸配列（IRGSP-1.0）に導入した。これにより、外来性のＤＮＡが導入されたゲノムＤＮＡの核酸配列を生成した。なお、実施例１で用いる仮想ゲノムＤＮＡにおいては、ベクターの５５７７～５６７６番目の核酸配列が挿入されていることを、その核酸配列から確認している。

（２）仮想ゲノムＤＮＡ由来のリードデータの生成
前記実施例１（１）で得られた仮想ゲノムＤＮＡの核酸配列を用いて、１００塩基長（１００ｂｐｓ）の仮想ゲノムＤＮＡ由来のリードを含むリードデータを解析対象の核酸配列のリードデータとして生成した（図８（２）および（３））。なお、解析対象の核酸配列のリードデータの量は、５０×カバレッジとした。なお、ゲノム全長について次世代シーケンサーを用いて核酸配列を解読する場合、約０．３％のシーケンスエラーが生じる。このため、前記仮想ゲノムＤＮＡから仮想ゲノムＤＮＡ由来のリードデータを生成する際に、約０．３％の人工的な変異を、得られたリードデータに導入した。

（３）プラスミドベクター由来核酸配列の検出
つぎに、仮想ゲノムＤＮＡ由来のリードデータについて、各リードの５’端から３’端に向かって、１塩基毎に５０塩基長の核酸配列（ｋ塩基長の核酸配列、k-mer）を生成した（図８（４））。そして、各５０塩基長の核酸配列について、検出対象の核酸配列であるベクターの核酸配列と照合して、前記ベクターの核酸配列における５０塩基長の核酸配列の検出回数（カウント数）を測定した。得られたカウント数は、５０塩基長の核酸配列が検出されたベクターの核酸配列における位置と紐付けて、格納した（解析対象の検出データ）。なお、ＣｏｌＥ１プラスミドは、環状ベクターである。このため、ＣｏｌＥ１プラスミドにおける、ある１点を基準（起点）として１周の環状ベクターを直線化した核酸配列を生成し、かつ直線化されたプラスミドベクターの５’端側の５０塩基長の核酸配列を、直線化されたプラスミドベクターの核酸配列の３’端に付加する核酸配列を生成し、これを照合対象のベクターの核酸配列（検出対象の核酸配列）として用いた。

また、仮想ゲノムＤＮＡに代えて、プラスミドベクター由来の核酸配列が挿入されていない、イネのゲノムＤＮＡの核酸配列を用いた以外は、同様にして、検出回数（カウント数）を５０塩基長の核酸配列が検出されたベクターの核酸配列における位置と紐付けて、格納した（対照の検出データ）。

つぎに、前記解析対象の検出データおよび対照の検出データについて、Ｇ検定を用いて独立性の検定を実施した。なお、前記検定は、下記参考文献１に記載のModel IIを仮定して実施した。有意水準は１％（Ｇ＝６．６３４）とした。これらの結果を、図９および下記表１に示す。

参考文献１：Sokal, R. R. & Rohlf, F. J. “Biometry: the principles and practice of statistics in biological research.”, W. H. Freeman and Co., New York, 1995
1995).

図９は、外来性ＤＮＡの検出結果を示すグラフである。図９において、上段は、カウント数の結果を示し、下段は、Ｇ検定で得られた値（G-statistic）の結果を示す。また、下記表１は、ベクターの核酸配列由来の１００塩基長の全ての塩基の検出結果を示す。図９において、横軸は、前記ベクターの核酸配列における位置（Position）を示し、縦軸は、カウント数またはＧ検定で得られた値を示す。図９に示すように、本発明の検出方法によれば、ベクターの５５７７～５６７６番目の核酸配列が挿入されていると検出され、これは前述の条件に一致した。また、下記表１に示すように、本発明の検出方法によれば、ベクターの核酸配列由来の１００塩基長の全ての塩基について、ベクター由来の核酸配列として検出された。

以上のことから、本発明の検出方法によれば、解析対象の核酸配列における検出対象由来の核酸配列を、リファレンスの核酸配列を用いずとも検出できることがわかった。

［実施例２］
本発明の検出方法において、ゲノムＤＮＡに挿入された外来性ＤＮＡの長さおよびｋ塩基長の核酸配列の長さを変更し、外来性ＤＮＡを検出できることを確認した。

前記実施例１において、検出対象の核酸分子であるプラスミドベクター（ＣｏｌＥ１プラスミド）の核酸配列から、１５、２０、３０または５０塩基長の核酸配列をランダムに抽出し、イネ（日本晴）のゲノムＤＮＡの核酸配列に導入した以外は同様にして仮想ゲノムＤＮＡを生成した。そして、生成した仮想ゲノムＤＮＡを用いた以外は、前記実施例１（２）と同様にして、解析対象の核酸配列のリードデータを生成した。

つぎに、解析対象の核酸配列のリードデータとして、実施例２の解析対象の核酸配列のリードデータを用い、ｋ塩基長の核酸配列を、１０、１５、２０、２５、３０、３５、４０、４５、または５０塩基長の核酸配列とした以外は、前記実施例１（３）と同様に、プラスミドベクター由来核酸配列を検出した。さらに、同様に、仮想ゲノムＤＮＡの生成、解析対象の核酸配列のリードデータの生成、ｋ塩基長の核酸配列の生成およびプラスミドベクター由来核酸配列の検出を１セットとして、合計１０００回実施し、挿入された外来性ＤＮＡの全長を検出できた回数をカウントした。また、１０００回の検出において、偽陽性となった回数の平均値および標準偏差を算出した。これらの結果を下記表２および表３に示す。

前記表２は、１０００回の検出において、外来性ＤＮＡを検出できた回数を示す。前記表２に示すように、ｋ塩基長の核酸配列の長さが、１５塩基長以上の場合、精度よく、外来性ＤＮＡの核酸配列が検出できた。なお、後述する参考例１に示すように、ｋ≧１５の場合、ｋ塩基長の核酸配列と、イネのゲノムＤＮＡの核酸配列との偶然同一がほとんど生じなくなる。このため、ｋ塩基長の核酸配列の長さが、１５塩基長以上とすると、精度よく検出できると推定された。

つぎに、前記表３は、１０００回の検出において、偽陽性となった回数の平均値および標準偏差（Average±S.D.）を示す。前記表３に示すように、ｋ塩基長の核酸配列の長さが長くなると、偽陽性の平均値が減少し、かつ標準偏差が低減した。また、前記表３示すように、ｋ塩基長の核酸配列の長さが、２０塩基長以上の場合、偽陽性を顕著に抑制できた。なお、後述する参考例１に示すように、ｋ≧２０の場合、ｋ塩基長の核酸配列と、イネのゲノムＤＮＡの核酸配列との偶然同一が生じなくなる。このため、ｋ塩基長の核酸配列の長さが、２０塩基長以上とすると、偽陽性を顕著に抑制できると推定された。

以上のことから、本発明の検出方法では、ゲノムＤＮＡに挿入された外来性ＤＮＡの長さおよびｋ塩基長の核酸配列の長さを変更しても、外来性ＤＮＡを検出できることがわかった。また、本発明の検出方法では、ｋ塩基長の核酸配列の長さを１５塩基長以上とすることにより、精度よく、検出対象由来の核酸配列を検出でき、ｋ塩基長の核酸配列の長さを２０塩基長以上とすることにより、偽陽性を顕著に抑制できることがわかった。

［実施例３］
本発明の検出方法において、仮想ゲノムＤＮＡ由来のリードデータのカバレッジを変更し、外来性ＤＮＡを検出できることを確認した。

前記実施例１において、検出対象の核酸分子であるプラスミドベクター（ＣｏｌＥ１プラスミド）の核酸配列から、２０塩基長の核酸配列をランダムに抽出し、イネ（日本晴）のゲノムＤＮＡの核酸配列に導入した以外は同様にして仮想ゲノムＤＮＡを生成した。そして、生成した仮想ゲノムＤＮＡを用い、解析対象の核酸配列のリードデータの量を、１０×、２０×、３０×、４０×または５０×カバレッジとした以外は、前記実施例１（２）と同様にして、解析対象の核酸配列のリードデータを生成した。

つぎに、解析対象の核酸配列のリードデータとして、実施例３の解析対象の核酸配列のリードデータを用い、ｋ塩基長の核酸配列を、２０塩基長の核酸配列とした以外は、前記実施例１（３）と同様に、プラスミドベクター由来核酸配列を検出した。さらに、同様に、仮想ゲノムＤＮＡの生成、解析対象の核酸配列のリードデータの生成、ｋ塩基長の核酸配列の生成およびプラスミドベクター由来核酸配列の検出を１セットとして、合計１０００回実施し、挿入された外来性ＤＮＡの全長を検出できた回数（検出回数）をカウントし、検出率（検出回数／１０００×１００（％））を算出した。これらの結果を下記表４に示す。

前記表４は、外来性ＤＮＡの全長の検出率を示す。前記表４に示すように、カバレッジを大きくすると、検出率が向上し、３０×以上のカバレッジにおいては、１００％の検出率であった。

以上のことから、本発明の検出方法では、仮想ゲノムＤＮＡ由来のリードデータのカバレッジを変更しても、外来性ＤＮＡを検出できることがわかった。また、本発明の検出方法では、解析対象の核酸配列のリードデータの量を、２０×カバレッジ以上、特に、３０×カバレッジ以上とすることにより、極めて高い精度で、検出対象由来の核酸配列を検出できることがわかった。

［実施例４］
本発明の検出方法において、ゲノム編集を行なったイネ植物における外来性ＤＮＡを検出できることを確認した。

（１）ゲノム編集されたイネ植物の調製
下記参考文献２を参照し、図１０に示す、HPT、SpCas9、およびOsALS2遺伝子を標的とするsgRNAをコードする核酸配列を含む、オールインワンのバイナリーベクター（pZH_gALS-2_Cas9）を調製した。

参考文献２：Mikami, M et.al., “Comparison of CRISPR/Cas9 expression constructs for efficient targeted mutagenesis in rice.”, Plant Mol. Biol., 2015, vol. 88, pages 561-572

つぎに、前記バイナリーベクターについて、下記参考文献３に記載のプロトコルに従って、イネ植物（日本晴）の胚盤由来のカルスに対して、アグロバクテリウムを用いて導入した。具体的には、１ヶ月培養したイネ植物のカルスに、前記バイナリーベクターを含むアグロバクテリウム（EHA10548株）を感染させた。前記感染開始後、３日間、アグロバクテリウムと、カルスとを共培養した。つぎに、共培養後のカルスを５０ｍｇ／ｍｌハイグロマイシンＢ（和光純薬工業株式会社製）および２５ｍｇ／ｍｌメロペネム（和光純薬工業株式会社製）を含むカルス誘導培地に移植した。さらに、前記カルス誘導培地において、４週間培養することにより、ハイグロマイシン耐性カルスを選抜した。そして、選抜されたカルスを再生培地に移植し、再生植物を取得した（Ｔ０世代）。そして、前記再生植物を受粉して自殖後代系統からヌル分離個体（null-segregant、Ｔ１世代）を取得した。

参考文献３：Hood, E. E. et.al., “New Agrobacterium helper plasmids for gene transfer to plants.”, Transgenic Res., 1993, vol. 2, pages 208-218

（２）外来性ＤＮＡの確認
前記Ｔ０世代のゲノムＤＮＡの核酸配列において、外来性ＤＮＡ（バイナリーベクター）由来の核酸配列が導入されているかは、下記参考文献４を参照し、サザンブロット法により実施した。具体的には、野生型（日本晴）およびＴ０世代のゲノムＤＮＡは、下記参考文献５のＣＴＡＢ法により単離した。単離された１０μｇのゲノムＤＮＡを、制限酵素（ＳｐｅＩ）により消化した。つぎに、得られたゲノムＤＮＡの断片と下記ＨＰＴプライマーセットとを用いてＰＣＲにより、ＨＰＴ遺伝子の一部を増幅し、増幅断片を得た。なお、ＰＣＲの増幅条件は、９４℃、５分の処理後、９８℃、１５秒、５５℃、３０秒、および６８℃、５０秒の処理を１サイクルとして、３０サイクル実施し、その後、さらに６８℃で５分間処理した。そして、得られたＨＰＴ遺伝子の増幅断片と下記推定ＨＰＴ遺伝子の増幅断片（配列番号３）にハイブリダイズ可能なプローブとを用いてサザンブロット法を実施した。

参考文献４：Abe, K. et al. “Development and characterization of transgenic dominant male sterile rice toward an outcross-based breeding system.”, Breed. Sci., 2018, vol. 68, pages 248-257
参考文献５：Murray, M. G. & Thompson, W. F., “Rapid isolation of high molecular weight plant DNA.”, Nucleic Acids Res., 1980, vol. 8, pages 4321-4326

・ＨＰＴプライマーセット
フォワードプライマー（HPT-F01、配列番号１）
5'-CAAAGATCGTTATGTTTATCGGCACTTTG-3'
リバースプライマー（HPT-R01、配列番号２）
5'-GAAGAAGATGTTGGCGACCTCGTATTG-3'
・推定ＨＰＴ遺伝子の増幅断片（配列番号３）
5'-CAAAGATCGTTATGTTTATCGGCACTTTGCATCGGCCGCGCTCCCGATTCCGGAAGTGCTTGACATTGGGGAGTTTAGCGAGAGCCTGACCTATTGCATCTCCCGCCGTTCACAGGGTGTCACGTTGCAAGACCTGCCTGAAACCGAACTGCCCGCTGTTCTACAACCGGTCGCGGAGGCTATGGATGCGATCGCTGCGGCCGATCTTAGCCAGACGAGCGGGTTCGGCCCATTCGGACCGCAAGGAATCGGTCAATACACTACATGGCGTGATTTCATATGCGCGATTGCTGATCCCCATGTGTATCACTGGCAAACTGTGATGGACGACACCGTCAGTGCGTCCGTCGCGCAGGCTCTCGATGAGCTGATGCTTTGGGCCGAGGACTGCCCCGAAGTCCGGCACCTCGTGCACGCGGATTTCGGCTCCAACAATGTCCTGACGGACAATGGCCGCATAACAGCGGTCATTGACTGGAGCGAGGCGATGTTCGGGGATTCCCAATACGAGGTCGCCAACATCTTCTTC-3'

つぎに、前記Ｔ１世代のゲノムＤＮＡの核酸配列において、外来性ＤＮＡ（バイナリーベクター）由来の核酸配列が導入されていないことは、ＰＣＲを用いて確認した。具体的には、前記Ｔ０世代と同様にして、ゲノムＤＮＡを単離後、得られたゲノムＤＮＡと前記ＨＰＴプライマーセットとを用いて、前記ＰＣＲの増幅条件により、ＨＰＴ遺伝子断片を増幅した。そして、得られた増幅産物を、アガロースゲルを用いて電気泳動し、ＨＰＴ遺伝子断片を検出した。また、前記Ｔ１世代に代えて、野生型、前記Ｔ０世代または前記バイナリーベクターを用いた以外は同様にしてＨＰＴ遺伝子断片を検出した。これらの結果を、図１１に示す。

図１１は、ＨＰＴ遺伝子断片の検出結果を示す写真である。図１１において、（Ａ）は、サザンブロットの結果を示し、（Ｂ）は、アガロースゲルを用いた電気泳動の結果を示す。図１１（Ａ）において、各レーンは、左から、野生型（Ｎｐｂ）およびＴ０世代（２、８、２０、２１、４４、４６）の結果を示す。また、図１１（Ｂ）において、各レーンは、左から、マーカー（Ｍ）、野生型（Ｎｐｂ）、バイナリーベクター（Vector）、Ｔ０世代（Ｔ０＃３－８）、およびＴ１世代（Ｔ１＃３－８－７）を示す。図１１（Ａ）に示すように、Ｔ０世代の６個体では、いずれもＨＰＴ遺伝子の挿入が確認されが、野生型では、ＨＰＴ遺伝子の挿入が確認されなかった。また、図１１（Ｂ）に示すように、バイナリーベクターおよびＴ０世代では、ＨＰＴ遺伝子の挿入が確認されたのに対し、野生型では、ＨＰＴ遺伝子の挿入が確認されなかった。これらの結果から、Ｔ０世代では、バイナリーベクターの核酸配列由来の核酸配列が挿入されていること、およびヌル分離個体であるＴ１世代では、バイナリーベクターの核酸配列由来の核酸配列が挿入されていないことを確認した。

（３）外来性ＤＮＡの検出
前記実施例４（１）で得られたＴ０世代を用いて、本発明の検出方法により、検出対象の核酸分子であるバイナリーベクター由来の核酸配列を検出できるかを確認した。まず、前記Ｔ０世代のゲノムＤＮＡについて、リードデータ（解析対象のリードデータ）を取得した。具体的には、前記Ｔ０世代のゲノムＤＮＡと、ＤＮＡライブラリ調製キット（TruSeq DNA PCR-Free Library Preparation Kit （Illumina社製））とを用いて、ＤＮＡライブラリを調製後、得られたＤＮＡライブラリとIllumina HiSeq X platformとを用いて、１５１塩基長のリードから構成されるリードデータ（解析対象のリードデータ）を取得した。前記Ｔ０世代由来のリードデータは、６９，１７０，７４７，１１８塩基長の核酸配列から構成されていた。また、前記Ｔ０世代に代えて、野生型（ｎ＝２）およびＴ１世代を用いた以外は、同様にしてリードデータを取得した。なお、２つの野生型由来のリードデータのうち一方は、解析対象のリードデータ（野生型１）であり、他方は、対照のリードデータ（野生型２）であり、Ｔ１世代由来のリードデータは、参考例のリードデータである。また、野生型由来のリードデータは、６３，６１０，００９，０３８塩基長（野生型１）および７１，３６８，７５４，１５６塩基長（野生型２）の核酸配列から構成され、Ｔ１世代由来のリードデータは、６３，３４０，６７２，１５０塩基長の核酸配列から構成されていた。

前記Ｔ０世代由来のリードデータ、前記野生型由来のリードデータ、および前記Ｔ１世代由来のリードデータについて、ソフトウェア（Trimmomatic ver. 0.36、オプション：ILLUMINACLIP:TruSeq_custom.fa:2:30:10 LEADING:10 TRAILING:10 SLIDINGWINDOW:4:20 MINLEN:20）を用いて、各リードの両端に存在するアダプターに対応する核酸配列をトリミングした。この結果、前記Ｔ０世代由来のリードデータ、前記野生型由来のリードデータ、および前記Ｔ１世代由来のリードデータは、６０，７３０，８２４，８４３塩基長（Ｔ０世代）、５２，２９２，８７８，１７７塩基長（野生型１）、５８，８６３，１１３，５３５塩基長（野生型２）、および５４，３１３，３１７，５９５塩基長（Ｔ１世代）から構成されていた。

そして、前記解析対象のリードデータとして、前記Ｔ０世代由来のリードデータ、前記野生型由来のリードデータ（野生型１）、および前記Ｔ１世代由来のリードデータを用い、ｋ塩基長の核酸配列を、２０塩基長の核酸配列とし、検出対象の核酸配列として、前記バイナリーベクターの核酸配列を用いた以外は、前記実施例１（３）と同様にして、解析対象の検出データを取得した。また、前記対照のリードデータとして前記野生型由来のリードデータ（野生型２）を用いた以外は、前記解析対象の検出データと同様に解析し、対照の検出データを測定した。そして、前記解析対象の検出データおよび対照の検出データについて、Ｇ検定を用いて独立性の検定を実施した。これらの結果を図１２に示す。なお、前記Ｔ０世代由来のリードデータおよび前記Ｔ１世代由来のリードデータを用いた場合、カウントの閾値は、２０とし、前記野生型由来のリードデータ（野生型１）を用いた場合、カウントの閾値は、２５０とした。

図１２は、外来性ＤＮＡ（バイナリーベクター）の検出結果を示すグラフである。図１２（Ａ）～（Ｃ）において、上段は、カウント数の結果を示し、下段は、Ｇ検定で得られた値（G-statistic）の結果を示す。また、図１２において、（Ａ）は、野生型由来のリードデータを用いた結果を示し、（Ｂ）は、Ｔ０世代由来のリードデータを用いた結果を示し、（Ｃ）は、Ｔ１世代由来のリードデータを用いた結果を示す。図１２（Ａ）～（Ｃ）において、横軸は、前記バイナリーベクターの核酸配列における位置（Position）を示し、縦軸は、カウント数またはＧ検定で得られた値を示す。図１２（Ａ）に示すように、野生型由来のリードデータにおいても一部の領域で、バイナリーベクター由来の核酸配列が検出された。これらについて、さらに検討したところ、矢印Ｙで示す領域は、前記バイナリーベクターにおいて、イネ由来の核酸配列が挿入された領域であった。また、矢印Ｘで示す領域は、ＤＮＡライブラリの構築に用いたキット由来の核酸配列が検出されているためであった。なお、異なるＤＮＡライブラリ調製キット（KAPA Hyper Prep Kit/PCR Free）を用いた場合、当該領域のカウントが無くなることを確認している。さらに、１６００２～１６０２１番目および１７１２２～１７１４１番目の位置は、偶然の同一で検出されており、かつリードデータ取得時のデータの変動（測定誤差）により生じていると推定された。つぎに、図１２（Ｂ）に示すように、Ｔ０世代では、バイナリーベクターの広い領域に由来する核酸配列が検出されており、これは、図１１に示すサザンブロット法の結果とも一致した。他方、図１２（Ｃ）に示すように、Ｔ１世代では、バイナリーベクター由来の核酸配列は検出されなかった。なお、ｋ塩基長の核酸配列を、５０塩基長の核酸配列とし、バイナリーベクター由来の核酸配列を検出した場合も、同様の結果を得ている。

本発明の検出方法において、ゲノム編集を行なったイネ植物における外来性ＤＮＡを検出できることがわかった。

［実施例５］
本発明の検出方法において、ゲノム編集を行なったコムギ植物における外来性ＤＮＡを検出できることを確認した。

ゲノム編集を行なったコムギ植物のゲノムＤＮＡの核酸配列（解析対象の核酸配列）のデータおよびゲノム編集を行なっていないコムギ植物のゲノムＤＮＡの核酸配列（対照の核酸配列）のデータ（BioProject accession number PRJDB7455、DDBJ Sequence Read Archive31からダウンロード可能）は、下記参考文献６に記載のＴ０世代およびＴ１世代（ヌル分離個体）のものを用いた。

参考文献６：Abe, F. et al. “Genome-edited triple-recessive mutation alters seed dormancy in wheat.”, Cell Rep., 2019, vol. 28, pages 1362-1369.e4

前記実施例１（１）で得られた仮想ゲノムＤＮＡの核酸配列に代えて、前記Ｔ０世代のゲノムＤＮＡの核酸配列および前記Ｔ１世代のゲノムＤＮＡの核酸配列を用いた以外は、前記実施例１（２）と同様にして、解析対象の核酸配列のリードデータを生成した。解析対象の核酸配列のリードデータの量は、５０×カバレッジとした。また、ゲノム編集を行なっていないコムギ植物のゲノムＤＮＡの核酸配列を用いて、同様に、対照の核酸配列のリードデータを生成した。

つぎに、前記仮想ゲノムＤＮＡ由来のリードデータに代えて、Ｔ０世代由来のリードデータ、Ｔ１世代由来のリードデータ、および対照の核酸配列のリードデータを用い、ｋ塩基長の核酸配列を、２０塩基長の核酸配列とし、前記ベクター（ＣｏｌＥ１プラスミド）の核酸配列に変えて、前記参考文献６のベクター（pZH_OsU6gRNA_PubiMMCas9-TaQsd1_t1）の核酸配列を用いた以外は、前記実施例１（３）と同様にして、解析対象の検出データおよび対照の検出データを取得した。そして、前記解析対象の検出データおよび対照の検出データについて、Ｇ検定を用いて独立性の検定を実施した。これらの結果を図１３に示す。

図１３は、外来性ＤＮＡ（ベクター）の検出結果を示すグラフである。図１３（Ａ）～（Ｂ）において、上段は、カウント数の結果を示し、下段は、Ｇ検定で得られた値（G-statistic）の結果を示す。また、図１３において、（Ａ）は、Ｔ０世代由来のリードデータを用いた結果を示し、（Ｂ）は、Ｔ１世代由来のリードデータを用いた結果を示す。図１３（Ａ）～（Ｂ）において、横軸は、前記ベクターの核酸配列における位置（Position）を示し、縦軸は、カウント数またはＧ検定で得られた値を示す。図１３（Ａ）に示すように、Ｔ０世代では、ベクターの広い領域に由来する核酸配列が検出されており、この結果は、前記参考文献６の結果とも一致した。他方、図１３（Ｂ）に示すように、Ｔ１世代では、ベクター由来の核酸配列は検出されず、ヌル分離個体であることが確認された。

以上のことから、本発明の検出方法において、ゲノム編集を行なったコムギ植物における外来性ＤＮＡを検出できることがわかった。

［参考例１］
解析対象の核酸配列の全長の長さを参照することにより、ｋ塩基長の核酸配列におけるｋの値を設定できることを確認した。

ランダムに生成したｋ塩基長の核酸配列（４^ｋ通り）の全てについて、コムギ植物（Wheat）のゲノムＤＮＡの核酸配列、トウモロコシ植物（Maize）のゲノムＤＮＡの核酸配列、豚（Swine）のゲノムＤＮＡの核酸配列、カイコ（Silkworm）のゲノムＤＮＡの核酸配列、バチルス・サブティリスのゲノムＤＮＡの核酸配列、イネ植物（Rice）のゲノムＤＮＡの核酸配列、およびＣｏｌＥ１プラスミド（ColE1）の核酸配列と一致する割合を検討した。なお、ｋは、１～３０とした。コムギ植物のゲノムＤＮＡの核酸配列、イネ植物のゲノムＤＮＡの核酸配列およびＣｏｌＥ１プラスミドの核酸配列は、前述の核酸配列を使用した。トウモロコシ植物のゲノムＤＮＡの核酸配列、豚のゲノムＤＮＡの核酸配列、カイコのゲノムＤＮＡの核酸配列は、下記データベースに登録されているものを使用した。これらの結果を図１４および下記表５に示す。

豚のゲノムＤＮＡ：
データベース（http://www.ensembl.org/）のswine (Sscrofa11.1)
トウモロコシ植物のゲノムＤＮＡ：
データベース（https://www.maizegdb.org/）のmaize (Zm-B73-REFERENCE-GRAMENE-4.0)
カイコのゲノムＤＮＡ：
データベース（http://sgp.dna.affrc.go.jp/）のsilkworm (as of December 12, 2017)
バチルス・サブティリスのゲノムＤＮＡ：
データベース（https://www.ncbi.nlm.nih.gov/nuccore/）のAL009126.3
コムギ植物のゲノムＤＮＡ（ゲノム編集前）：
データベース（EnsemblPlants：http://plants.ensembl.org/）のwheat (TGACv1)

図１４は、ランダムに生成したｋ塩基長の核酸配列が一致する割合を示すグラフである。図１４において、横軸は、ｋの値を示し、縦軸は、一致率を示す。また、前記表５は、ランダムに生成したｋ塩基長の核酸配列が一致する割合を示す。図１４および前記表５に示すように、ｋの値を大きくすると、一致率は相対的に低下していき、ｋ塩基長の核酸配列の組合せが、各ＤＮＡの全長の長さを超えると、顕著に一致率が低下し、ゲノムＤＮＡの総塩基数（Ｎ_Ｇ）が４^ｋより小さくなるように（Ｎ_Ｇ≦４^ｋ）、ｋを設定することにより、一致率は１％未満に抑制され、精度および特異度とも高い検出ができると考えられた。また、ｋの値を２０とすると、いずれの核酸配列に対する一致率も１％未満に抑制された。これらの結果から、解析対象の核酸配列の全長の長さを参照することにより、ｋ塩基長の核酸配列におけるｋの値を設定できることが確認された。

以上、実施形態および実施例を参照して本発明を説明したが、本発明は、上記実施形態および実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

＜付記＞
上記の実施形態および実施例の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
＜検出装置＞
（付記１）
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置であって、
第１の取得部と、第２の取得部と、検出部とを備え、
前記第１の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第２の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、装置。
（付記２）
比較配列生成部を備え、
前記比較配列生成部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方から、複数のｋ塩基長の核酸配列を生成し、
前記検出部は、各ｋ塩基長の核酸配列と、前記他方のデータの核酸配列とを照合し、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記１記載の装置。
（付記３）
前記比較配列生成部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方について、各核酸配列の全長の一端から他端まで、１または複数塩基毎の核酸を基準としたｋ塩基長の核酸配列を生成することにより、前記複数のｋ塩基長の核酸配列を生成する、付記２記載の装置。
（付記４）
判定部を備え、
前記判定部は、前記他のデータにおけるｋ塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記１から３のいずれかに記載の装置。
（付記５）
第３の取得部および判定部を備え、
前記第３の取得部は、対照の核酸配列のリードデータを取得し、
前記検出部は、前記対照の核酸配列のリードデータおよび前記検出対象の核酸配列のデータにおける少なくとも一方におけるｋ塩基長の核酸配列について、他のデータの核酸配列と照合し、前記他のデータにおける前記ｋ塩基長の核酸配列を検出し、
前記判定部は、前記解析対象の核酸配列のリードデータを用いて得られた他のデータにおけるｋ塩基長の核酸配列の検出結果と、前記対照の核酸配列のリードデータを用いて得られた他のデータにおけるｋ塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記１から３のいずれかに記載の装置。
（付記６）
前記検出結果は、前記ｋ塩基長の核酸配列のカウント数である、付記４または５記載の装置。
（付記７）
位置特定部を備え、
前記位置特定部は、前記他のデータにおけるｋ塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象由来の核酸配列における位置を特定する、付記４から６のいずれかに記載の装置。
（付記８）
前記検出部は、前記解析対象の核酸配列のリードデータにおけるｋ塩基長の核酸配列と、前記検出対象の核酸配列のデータとを照合して、前記検出対象の核酸配列のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記１から７のいずれかに記載の装置。
（付記９）
前記ｋは、下記条件（１）を満たす、付記１から８のいずれかに記載の装置。
条件（１）：Ｎ_Ｇ≦４^ｋ
（前記条件（１）において、Ｎ_Ｇは、前記解析対象１単位が含む核酸配列の総塩基長である。）
（付記１０）
前記ｋは、２０以上である、付記１から９のいずれかに記載の装置。
（付記１１）
前記解析対象の核酸配列のリードデータは、前記解析対象１単位が含む核酸配列の１０倍以上の核酸配列のデータを含む、付記１から１０のいずれかに記載の装置。
（付記１２）
前記解析対象は、生物のゲノムであり、
前記検出対象は、前記生物以外の核酸である、付記１から１１のいずれかに記載の装置。
（付記１３）
前記装置は、サーバである、付記１から１２のいずれかに記載の装置。
＜検出方法＞
（付記１４）
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる方法であって、
第１の取得工程と、第２の取得工程と、検出工程とを含み、
前記第１の取得工程では、解析対象の核酸配列のリードデータを取得し、
前記第２の取得工程では、検出対象の核酸配列のデータを取得し、
前記検出工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、方法。
（付記１５）
比較配列生成工程を含み、
前記比較配列生成工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方から、複数のｋ塩基長の核酸配列を生成し、
前記検出工程では、各ｋ塩基長の核酸配列と、前記他方のデータの核酸配列とを照合し、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記１４記載の方法。
（付記１６）
前記比較配列生成工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方について、各核酸配列の全長の一端から他端まで、１または複数塩基毎の核酸を基準としたｋ塩基長の核酸配列を生成することにより、前記複数のｋ塩基長の核酸配列を生成する、付記１５記載の方法。
（付記１７）
判定工程を含み、
前記判定工程では、前記他のデータにおけるｋ塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記１４から１６のいずれかに記載の方法。
（付記１８）
第３の取得工程および判定工程を含み、
前記第３の取得工程では、対照の核酸配列のリードデータを取得し、
前記検出工程は、前記対照の核酸配列のリードデータおよび前記検出対象の核酸配列のデータにおける少なくとも一方におけるｋ塩基長の核酸配列について、他のデータの核酸配列と照合し、前記他のデータにおける前記ｋ塩基長の核酸配列を検出し、
前記判定工程では、前記解析対象の核酸配列のリードデータを用いて得られた他のデータにおけるｋ塩基長の核酸配列の検出結果と、前記対照の核酸配列のリードデータを用いて得られた他のデータにおけるｋ塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記１４から１６のいずれかに記載の方法。
（付記１９）
前記検出結果は、前記ｋ塩基長の核酸配列のカウント数である、付記１７または１８記載の方法。
（付記２０）
位置特定工程を含み、
前記位置特定工程では、前記他のデータにおけるｋ塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象由来の核酸配列における位置を特定する、付記１４から１９のいずれかに記載の方法。
（付記２１）
前記検出工程では、前記解析対象の核酸配列のリードデータにおけるｋ塩基長の核酸配列と、前記検出対象の核酸配列のデータとを照合して、前記検出対象の核酸配列のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記１４から２０のいずれかに記載の方法。
（付記２２）
前記ｋは、下記条件（１）を満たす、付記１４から２１のいずれかに記載の方法。
条件（１）：Ｎ_Ｇ≦４^ｋ
（前記条件（１）において、Ｎ_Ｇは、前記解析対象１単位が含む核酸配列の総塩基長である。）
（付記２３）
前記ｋは、２０以上である、付記１４から２２のいずれかに記載の方法。
（付記２４）
前記解析対象の核酸配列のリードデータは、前記解析対象１単位が含む核酸配列の１０倍以上の核酸配列のデータを含む、付記１４から２３のいずれかに記載の方法。
（付記２５）
前記解析対象は、生物のゲノムであり、
前記検出対象は、前記生物以外の核酸である、付記１４から２４のいずれかに記載の方法。
＜プログラム＞
（付記２６）
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるプログラムであって、
前記プログラムは、コンピュータに、第１の取得処理と、第２の取得処理と、検出処理とを実行させ、
前記第１の取得処理では、解析対象の核酸配列のリードデータを取得し、
前記第２の取得処理では、検出対象の核酸配列のデータを取得し、
前記検出処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、プログラム。
（付記２７）
比較配列生成処理を含み、
前記比較配列生成処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方から、複数のｋ塩基長の核酸配列を生成し、
前記検出処理では、各ｋ塩基長の核酸配列と、前記他方のデータの核酸配列とを照合し、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記２６記載のプログラム。
（付記２８）
前記比較配列生成処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方について、各核酸配列の全長の一端から他端まで、１または複数塩基毎の核酸を基準としたｋ塩基長の核酸配列を生成することにより、前記複数のｋ塩基長の核酸配列を生成する、付記２７記載のプログラム。
（付記２９）
判定処理を含み、
前記判定処理では、前記他のデータにおけるｋ塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記２６から２８のいずれかに記載のプログラム。
（付記３０）
第３の取得処理および判定処理を含み、
前記第３の取得処理では、対照の核酸配列のリードデータを取得し、
前記検出処理は、前記対照の核酸配列のリードデータおよび前記検出対象の核酸配列のデータにおける少なくとも一方におけるｋ塩基長の核酸配列について、他のデータの核酸配列と照合し、前記他のデータにおける前記ｋ塩基長の核酸配列を検出し、
前記判定処理では、前記解析対象の核酸配列のリードデータを用いて得られた他のデータにおけるｋ塩基長の核酸配列の検出結果と、前記対照の核酸配列のリードデータを用いて得られた他のデータにおけるｋ塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記２６から２８のいずれかに記載のプログラム。
（付記３１）
前記検出結果は、前記ｋ塩基長の核酸配列のカウント数である、付記２９または３０記載のプログラム。
（付記３２）
位置特定処理を含み、
前記位置特定処理では、前記他のデータにおけるｋ塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象由来の核酸配列における位置を特定する、付記２６から３１のいずれかに記載のプログラム。
（付記３３）
前記検出処理では、前記解析対象の核酸配列のリードデータにおけるｋ塩基長の核酸配列と、前記検出対象の核酸配列のデータとを照合して、前記検出対象の核酸配列のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記２６から３２のいずれかに記載のプログラム。
（付記３４）
前記ｋは、下記条件（１）を満たす、付記２６から３３のいずれかに記載のプログラム。
条件（１）：Ｎ_Ｇ≦４^ｋ
（前記条件（１）において、Ｎ_Ｇは、前記解析対象１単位が含む核酸配列の総塩基長である。）
（付記３５）
前記ｋは、２０以上である、付記２６から３４のいずれかに記載のプログラム。
（付記３６）
前記解析対象の核酸配列のリードデータは、前記解析対象１単位が含む核酸配列の１０倍以上の核酸配列のデータを含む、付記２６から３５のいずれかに記載のプログラム。
（付記３７）
前記解析対象は、生物のゲノムであり、
前記検出対象は、前記生物以外の核酸である、付記２６から３６のいずれかに記載のプログラム。
＜記録媒体＞
（付記３８）
付記２６から３７のいずれかに記載のプログラムを記録していることを特徴とする、コンピュータ読み取り可能な記録媒体。
＜検出システム＞
（付記３９）
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるシステムであって、
端末と、サーバとを備え、
前記端末と前記サーバとは、システム外の通信回線網を介して接続可能であり、
前記端末および前記サーバの全体が、
第１の取得部と、第２の取得部と、検出部とを備え、
前記第１の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第２の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、システム。
（付記４０）
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるシステムであって、
前記システムは、１以上のコンピュータから構成され、
前記１以上のコンピュータが、
第１の取得部と、第２の取得部と、検出部とを備え、
前記第１の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第２の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、システム。
（付記４１）
前記システムは、複数のコンピュータから構成され、
前記複数のコンピュータは、システム外の通信回線網を介して接続可能である、付記４０記載のシステム。
（付記４２）
前記コンピュータは、サーバおよび／または端末である、付記４０または４１記載のシステム。

以上のように、本発明によれば、リファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出できる。このため、本発明は、例えば、解析対象の生物のゲノムにおける外来性遺伝子の検出等に好適に使用できる。したがって、本発明は、例えば、医薬分野等において極めて有用である。

Claims

解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置であって、
第１の取得部と、第２の取得部と、検出部とを備え、
前記第１の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第２の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、装置。
比較配列生成部を備え、
前記比較配列生成部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方から、複数のｋ塩基長の核酸配列を生成し、
前記検出部は、各ｋ塩基長の核酸配列と、前記他方のデータの核酸配列とを照合し、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、請求項１記載の装置。
前記比較配列生成部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方について、各核酸配列の全長の一端から他端まで、１または複数塩基毎の核酸を基準としたｋ塩基長の核酸配列を生成することにより、前記複数のｋ塩基長の核酸配列を生成する、請求項２記載の装置。
判定部を備え、
前記判定部は、前記他のデータにおけるｋ塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、請求項１から３のいずれか一項に記載の装置。
第３の取得部および判定部を備え、
前記第３の取得部は、対照の核酸配列のリードデータを取得し、
前記検出部は、前記対照の核酸配列のリードデータおよび前記検出対象の核酸配列のデータにおける少なくとも一方におけるｋ塩基長の核酸配列について、他のデータの核酸配列と照合し、前記他のデータにおける前記ｋ塩基長の核酸配列を検出し、
前記判定部は、前記解析対象の核酸配列のリードデータを用いて得られた他のデータにおけるｋ塩基長の核酸配列の検出結果と、前記対照の核酸配列のリードデータを用いて得られた他のデータにおけるｋ塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、請求項１から３のいずれか一項に記載の装置。
前記検出結果は、前記ｋ塩基長の核酸配列のカウント数である、請求項４または５記載の装置。
位置特定部を備え、
前記位置特定部は、前記他のデータにおけるｋ塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象の核酸配列における位置を特定する、請求項４から６のいずれか一項に記載の装置。
前記検出部は、前記解析対象の核酸配列のリードデータにおけるｋ塩基長の核酸配列と、前記検出対象の核酸配列のデータとを照合して、前記検出対象の核酸配列のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、請求項１から７のいずれか一項に記載の装置。
前記ｋは、下記条件（１）を満たす、請求項１から８のいずれか一項に記載の装置。
条件（１）：Ｎ_Ｇ≦４^ｋ
（前記条件（１）において、Ｎ_Ｇは、前記解析対象１単位が含む核酸配列の総塩基長である。）
前記ｋは、２０以上である、請求項１から９のいずれか一項に記載の装置。
前記解析対象の核酸配列のリードデータは、前記解析対象１単位が含む核酸配列の１０倍以上の核酸配列のデータを含む、請求項１から１０のいずれか一項に記載の装置。
前記解析対象は、生物のゲノムであり、
前記検出対象は、前記生物以外の核酸である、請求項１から１１のいずれか一項に記載の装置。
前記装置は、サーバである、請求項１から１２のいずれか一項に記載の装置。
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる方法であって、
第１の取得工程と、第２の取得工程と、検出工程とを含み、
前記第１の取得工程では、解析対象の核酸配列のリードデータを取得し、
前記第２の取得工程では、検出対象の核酸配列のデータを取得し、
前記検出工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、方法。
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるプログラムであって、
前記プログラムは、コンピュータに、第１の取得処理と、第２の取得処理と、検出処理とを実行させ、
前記第１の取得処理では、解析対象の核酸配列のリードデータを取得し、
前記第２の取得処理では、検出対象の核酸配列のデータを取得し、
前記検出処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、プログラム。
請求項１５記載のプログラムを記録していることを特徴とする、コンピュータ読み取り可能な記録媒体。
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるシステムであって、
端末と、サーバとを備え、
前記端末と前記サーバとは、システム外の通信回線網を介して接続可能であり、
前記端末および前記サーバの全体が、
第１の取得部と、第２の取得部と、検出部とを備え、
前記第１の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第２の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるｋ塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記ｋ塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、システム。