JP2022120693A - 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法 - Google Patents

解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法 Download PDF

Info

Publication number
JP2022120693A
JP2022120693A JP2021017754A JP2021017754A JP2022120693A JP 2022120693 A JP2022120693 A JP 2022120693A JP 2021017754 A JP2021017754 A JP 2021017754A JP 2021017754 A JP2021017754 A JP 2021017754A JP 2022120693 A JP2022120693 A JP 2022120693A
Authority
JP
Japan
Prior art keywords
nucleic acid
acid sequence
data
detection
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021017754A
Other languages
English (en)
Inventor
剛 伊藤
Takeshi Ito
寛章 坂井
Hiroaki Sakai
律子 小貫
Ritsuko Konuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Agriculture and Food Research Organization
Original Assignee
National Agriculture and Food Research Organization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Agriculture and Food Research Organization filed Critical National Agriculture and Food Research Organization
Priority to JP2021017754A priority Critical patent/JP2022120693A/ja
Publication of JP2022120693A publication Critical patent/JP2022120693A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】リファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出可能な装置および方法を提供する。【解決手段】解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置であって、第1の取得部と、第2の取得部と、検出部とを備え、前記第1の取得部は、解析対象の核酸配列のリードデータを取得し、前記第2の取得部は、検出対象の核酸配列のデータを取得し、前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。【選択図】図1

Description

特許法第30条第2項適用申請有り 電気通信回線による発表: 掲載年月日:令和2年3月18日 掲載アドレス: https://www.nature.com/articles/s41598-020-61949-5 https://static-content.springer.com/esm/art%3A10.1038%2Fs41598-020-61949-5/MediaObjects/41598_2020_61949_MOESM1_ESM.pdf
本発明は、解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法に関する。
植物の品種改良の手法として、遺伝子組み換え技術、ゲノム編集技術等が用いられている。ただし、前者の場合、遺伝子組み換え技術により作出された、外来性遺伝子を含む植物(GMO)は、法令による規制が存在する。このため、GMOは、製品として販売するための障壁が高い。他方、後者の場合、ゲノム編集技術を用いて改変された植物は、外来性遺伝子のゲノムへの導入が生じていなければ、GMOに関する法令の規制の対象外となる。このため、ゲノム編集技術により改変され、かつGMOに該当しない植物は、GMOと比較して、製品として販売するための障壁が低く、これにより、ゲノム編集技術を用いた植物の改良が試みられている。
ゲノム編集技術を用いて改変された植物が、GMOでないことを示すためには、改変された植物のゲノムに外来性遺伝子が導入されていないことを示す必要がある。前記外来性遺伝子の検出方法としては、ゲノムに導入された核酸配列に対するプローブを用いるサザンブロット法がある。しかしながら、挿入された外来性遺伝子の長さが短い場合(例えば、100塩基長以下)、サザンブロット法では、挿入された外来性遺伝子の検出が困難である。そこで、より精度の高い外来性遺伝子の検出方法として、次世代シーケンサーを用いる方法が利用されている。前記次世代シーケンサーを用いる方法では、前記次世代シーケンサーを用いて解析対象のゲノムを分析することにより、解析対象のゲノムの核酸配列のリードデータを取得する。ついで、前記次世代シーケンサーを用いる方法では、前記解析対象の基準となる核酸配列(「リファレンスの核酸配列」ともいう。)を参照して、前記リードデータから解析対象のゲノムの全長の核酸配列を再構築し、得られた解析対象のゲノムの全長の核酸配列と、前記リファレンスの核酸配列とを比較することにより、挿入された外来性遺伝子由来の核酸配列の有無またはその核酸配列を特定する(非特許文献1)。
Stephan Pabinger et.al., "A survey of tools for variant analysisof next-generation genomesequencing data", BRIEFINGS IN BIOINFORMATICS, 2014, VOL. 15, NO. 2, pages 256-278.
しかしながら、前記解析対象のゲノム中の外来性遺伝子をリファレンスの核酸配列を用いて検出する場合、解析対象の完全長のゲノムの核酸配列が、解読済であり、かつ解読済の核酸配列の解析精度が高い必要がある、すなわち、解析精度の高い完全長のリファレンスの核酸配列が必要とされる。このため、次世代シーケンサーを用いる外来性遺伝子の検出方法は、解析精度が低いゲノムの核酸配列の対象および完全長のゲノムの核酸配列が解読されていない対象をはじめ、全ての解析対象に適用できないという問題がある。
そこで、本発明は、リファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出可能な装置および方法の提供を目的とする。
前記目的を達成するため、本発明の装置は、解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置であって、
第1の取得部と、第2の取得部と、検出部とを備え、
前記第1の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第2の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。
本発明の方法は、解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる方法であって、
第1の取得工程と、第2の取得工程と、検出工程とを含み、
前記第1の取得工程では、解析対象の核酸配列のリードデータを取得し、
前記第2の取得工程では、検出対象の核酸配列のデータを取得し、
前記検出工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。
本発明のプログラムは、コンピュータに、第1の取得処理と、第2の取得処理と、検出処理とを実行させ、
前記第1の取得処理では、解析対象の核酸配列のリードデータを取得し、
前記第2の取得処理では、検出対象の核酸配列のデータを取得し、
前記検出処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。
本発明によれば、リファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出できる。
図1は、実施形態1の検出装置、検出端末、およびこれらを含む検出システムの一例の構成を示すブロック図である。 図2は、実施形態1の検出装置のハードウェア構成の一例を示すブロック図である。 図3は、実施形態1の検出端末のハードウェア構成の一例を示すブロック図である。 図4は、実施形態1の検出方法およびプログラムの一例の構成を示すフローチャートである。 図5は、実施形態2の検出装置、検出端末、およびこれらを含む検出システムの一例の構成を示すブロック図である。 図6は、実施形態2の検出方法およびプログラムの一例の構成を示すフローチャートである。 図7は、実施形態2の検出方法およびプログラムの一例の構成を示すフローチャートである。 図8は、実施例1における検出方法の概略を示す図である。 図9は、実施例1における外来性DNAの検出結果を示すグラフである。 図10は、実施例4におけるオールインワンのバイナリーベクターの構造を示す模式図である。 図11は、実施例4におけるHPT遺伝子断片の検出結果を示す写真である。 図12は、実施例4における外来性DNA(バイナリーベクター)の検出結果を示すグラフである。 図13は、実施例5における外来性DNA(ベクター)の検出結果を示すグラフである。 図14は、参考例1におけるランダムに生成したk塩基長の核酸配列が一致する割合を示すグラフである。
<定義>
本発明において、「解析対象」は、検出対象由来の核酸配列を検出しようとする任意の対象を意味する。前記解析対象は、核酸配列を有する対象であればよく、具体例として、核酸分子または核酸分子を含有する物があげられる。具体例として、前記解析対象は、例えば、動物、植物、もしくは微生物、またはこれらの生物のゲノム、微生物のプラスミド等があげられる。前記解析対象は、例えば、変異導入処理、ゲノム編集等による核酸配列の変更処理が実施されている可能性のある対象が好ましい。
本発明において、「検出対象由来の核酸配列」は、前記解析対象の核酸配列において、検出対象の核酸分子の核酸配列の一部または全部と一致する核酸配列であり、前記検出対象の核酸分子に由来すると推定される核酸配列を意味する。前記「一致」は、ある核酸配列と、他の核酸配列とが100%の同一性を有することを意味する。前記検出対象の核酸分子は、特に制限されず、任意の核酸分子とでき、具体例として、ゲノム(DNAまたはRNA)、染色体、遺伝子、プラスミド、遺伝子のエキソンまたはイントロン等があげられる。前記検出対象の核酸分子の核酸配列は、例えば、National Center for Biotechnology Information(NCBI)、日本DNAデータバンク(DDBJ)等のデータベースに登録されている核酸配列を利用できる。具体例として、前記解析対象の核酸分子が生物のゲノムである場合、前記検出対象の核酸分子は、前記生物以外の遺伝子、プラスミド、または遺伝子のエキソン等の核酸があげられる。
本発明において、「核酸配列」は、核酸分子の塩基配列を意味する。
本発明において、「核酸配列のデータ」は、核酸分子の塩基配列についての情報を与えるデータを意味する。具体的には、前記「核酸配列のデータ」は、ある核酸配列が有する全塩基配列(配列)またはその一部の塩基配列(部分配列)のデータを意味する。
本発明において、「リファレンスの核酸配列」は、解析対象の核酸分子の全長の核酸配列を意味する。前記全長の核酸配列は、前記解析対象の核酸分子に応じて適宜決定でき、具体例として、全ゲノムの核酸配列、染色体全長の核酸配列、遺伝子全長の核酸配列、プラスミド全長の核酸配列、エキソン全長の核酸配列、イントロ全長の核酸配列等があげられる。前記全長の核酸配列は、例えば、NCBI、DDBJ等のデータベースに登録されている核酸配列を利用できる。
本発明において、「部分配列」とは、核酸配列に含まれる任意の核酸配列を意味する。
本発明において、「次世代シーケンシング」は、核酸分子における核酸配列の決定処理を並列化し、一度のランで数千万から数億の配列データを生成するシーケンシング技法を意味する。また、本発明において、「次世代シーケンサー」とは、次世代シーケンシングを行うための機器を意味する。
本発明において、「リードデータ」は、解析対象の核酸分子を断片化し、断片化された核酸分子の核酸配列の決定処理を実施することにより得られる情報を与えるデータを意味する。前記断片化は、例えば、機械的断片化(シャーリング)、酵素的断片化等があげられる。具体例として、前記リードデータは、次世代シーケンサーを用いて核酸分子の核酸配列の決定処理を実施することにより得られる情報を与えるデータがあげられる。前記リードは、例えば、ショートリードともいう。
本発明において、「偶然同一を排除する」とは、ある配列と、偶然に同一の配列が出現する期待値を1未満にすることを意味する。
本発明において、「カバレッジ」とは、核酸配列のデータの量が、核酸配列全長の何倍に相当しているかを意味する。前記「カバレッジ」は、例えば、「カバー率」、「~倍の読み」、「カバレッジレベル」、または「深度」等ということもある。
以下、本発明の検出装置を備える検出システムについて、図面を参照して詳細に説明する。ただし、本発明は、以下の説明に限定されない。なお、以下の図1~図14において、同一部分には、同一符号を付し、その説明を省略する場合がある。また、図面においては、説明の便宜上、各部の構造は適宜簡略化して示す場合があり、各部の寸法比等は、実際とは異なり、模式的に示す場合がある。
[実施形態1]
本実施形態は、本発明の検出装置および検出端末を備える検出システムの一例である。図1は、本実施形態の検出装置1、検出端末2、および配列データベース(配列DB)3を備える検出システム100を示すブロック図である。図1に示すように、検出システム100は、検出装置1、検出端末2、および配列DB3を備える。また、図1に示すように、検出装置1は、第1の取得部11、第2の取得部12、および検出部13を備える。また、図1に示すように、検出端末2は、入力部21および出力部22を備える。配列DB3は、1以上の解析対象の核酸配列のリードデータ(解析対象のリードデータ)31および検出対象の核酸配列のデータ(検出対象のデータ)32を格納している。図1に示すように、検出装置1、検出端末2、および配列DB3は、検出システム100外の通信回線網4を介して一方向または両方向に接続可能(通信可能)である。本実施形態の検出装置1、検出端末2、および配列DB3は、本発明のプログラムがインストールされたパーソナルコンピュータ(PC)またはシステムとしてサーバ等に組込まれてもよい。また、前記パーソナルコンピュータは、コンピュータクラスタを構成してもよい。また、図示していないが、検出装置1、検出端末2、および配列DB3は、通信回線網4を介して、システム管理者の外部端末とも接続可能であり、システム管理者は、外部端末から検出装置1、検出端末2、および配列DB3の管理を実施してもよい。なお、本実施形態において、検出システム100に含まれる検出装置1、検出端末2、および配列DB3は、それぞれ、1つであるが、いずれも複数であってもよい。
通信回線網4は、特に制限されず、公知のネットワークを使用でき、例えば、有線でもよいし、無線でもよい。通信回線網4は、例えば、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、WiFi(Wireless Fidelity)等があげられる。
検出端末2は、例えば、PC;携帯電話、スマートフォン、タブレット端末等の携帯端末;スマートウォッチ、スマートグラス、ウェアブル端末等があげられる。検出端末2は、例えば、カメラ、スキャナ等の撮像手段、IC(integrated circuit)カードリーダ、マイク等の音声入力手段等を備えてもよい。
図2に、検出装置1のハードウェア構成のブロック図を例示する。検出装置1は、例えば、CPU(中央処理装置)101、メモリ102、バス103、記憶装置104、入力装置106、ディスプレイ107、通信デバイス108等を有する。検出装置1の各部は、それぞれのインタフェース(I/F)により、バス103を介して接続されている。
CPU101は、例えば、コントローラ(システムコントローラ、I/Oコントローラ等)等により、他の構成と連携動作し、検出装置1の全体の制御を担う。検出装置1において、CPU101により、例えば、本発明のプログラム105やその他のプログラムが実行され、また、メモリ102または記憶装置104に格納された各種情報の読み込みや書き込みが行われる。具体的には、例えば、CPU101が、第1の取得部11、第2の取得部12、および検出部13として機能する。検出装置1は、演算装置として、CPUを備えるが、GPU(Graphics Processing Unit)、APU(Accelerated Processing Unit)等の他の演算装置を備えてもよいし、CPUとこれらとの組合せを備えてもよい。なお、CPU101は、例えば、後述する実施形態2の検出装置における各部として機能する。
メモリ102は、例えば、メインメモリを含む。前記メインメモリは、主記憶装置ともいう。CPU101が処理を行う際には、例えば、後述する記憶装置104(補助記憶装置)に記憶されている本発明のプログラム105等の種々の動作プログラムを、メモリ102が読み込む。そして、CPU101は、メモリ102からデータを読み出し、解読し、前記プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。メモリ102は、例えば、さらに、ROM(読み出し専用メモリ)を含む。
バス103は、例えば、外部機器とも接続できる。前記外部機器は、例えば、配列DB3等の外部記憶装置(外部データベース等)、プリンター等があげられる。検出装置1は、例えば、バスに接続された通信デバイス108により、通信回線網4に接続でき、通信回線網4を介して、外部機器と接続することもできる。このため、検出装置1は、通信デバイス108および通信回線網4を介して、検出端末2および配列DB3にも接続できる。
記憶装置104は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置104には、本発明のプログラム105を含む動作プログラムが格納されている。記憶装置104は、例えば、記憶媒体と、前記記憶媒体に読み書きするドライブとを含む。前記記憶媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、FD(フロッピー(登録商標)ディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フラッシュメモリー、メモリーカード等があげられ、前記ドライブは、特に制限されない。記憶装置104は、例えば、前記記憶媒体と前記ドライブとが一体化されたハードディスクドライブ(HDD)であってもよい。
検出装置1は、例えば、さらに、入力装置106、ディスプレイ107を有する。入力装置106は、例えば、タッチパネル、トラックパッド、マウス等のポインティングデバイス;キーボード;カメラ、スキャナ等の撮像手段;ICカードリーダ、磁気カードリーダ等のカードリーダ;マイク等の音声入力手段;等があげられる。ディスプレイ107は、例えば、LED(light emitting diode)ディスプレイ、液晶ディスプレイ等の表示装置があげられる。本実施形態1において、入力装置106とディスプレイ107とは、別個に構成されているが、入力装置106とディスプレイ107とは、タッチパネルディスプレイのように、一体として構成されてもよい。
検出装置1において、メモリ102および記憶装置104は、ユーザからのアクセス情報およびログ情報、ならびに、配列DB3等の外部データベースから取得した情報を記憶することも可能である。
図3に、検出端末2のハードウェア構成のブロック図を例示する。検出端末2は、例えば、CPU201、メモリ202、バス203、記憶装置204、入力装置(入力部)21、通信デバイス208、ディスプレイ(出力部)22等を有する。検出端末2の各部は、それぞれのインタフェース(I/F)により、バス203を介して接続されている。検出端末2の各構成の説明は、検出装置1の各構成の説明を援用できる。
本実施形態において、配列DB3は、後述のように、1以上の解析対象のリードデータ31および1以上の検出対象のデータ32が格納されたデータベースサーバである。配列DB3のハードウェア構成は、検出装置1のハードウェア構成の説明を援用できる。配列DB3では、記憶装置に、解析対象のリードデータ31および検出対象のデータ32が格納される。配列DB3に格納されている解析対象のリードデータ31の数は、1つまたは複数である。また。配列DB3に格納されている検出対象のデータ32の数は、1つまたは複数である。なお、本実施形態において、解析対象のリードデータ31および検出対象のデータ32は、配列DB3に格納されているが、解析対象のリードデータ31および/または検出対象のデータ32は、検出装置1の記憶装置104に格納されてもよい。
つぎに、本実施形態の検出システム100における処理の一例について、検出端末2から入力され、配列DB3に格納された解析対象のリードデータ31および検出対象のデータ32に基づき処理する場合を例にとり、図4のフローチャートに基づき、説明する。なお、図4において、検出装置1は、S3~S5工程を実施する。また、図4において、S1およびS2工程は、任意の工程であり、あってもよいし、なくてもよい。
検出装置1による処理に先立ち、まず、解析対象のリードデータ31および検出対象のデータ32を準備する。具体的には、ユーザが、ユーザの検出端末2の入力部21により、解析対象のリードデータ31および検出対象のデータ32を入力する(S1)。
解析対象のリードデータ31は、前記解析対象が含有する核酸分子を断片化し、断片化された各核酸分子の核酸配列を解読することにより、取得できる。実施形態1において、解析対象のリードデータ31は、リード1(LT1)~リードn(LTn)から構成される(n:正の整数)。解析対象のリードデータ31は、ユーザに取得されたリードデータでもよいし、データベース等に登録されたリードデータでもよい。解析対象のリードデータ31は、例えば、前記解析対象が含有する核酸分子について、次世代シーケンサーを用いて核酸配列を解読することにより取得できる。前記次世代シーケンサーは、パイロシークエンス、可逆的ターミネータ法、またはイオン半導体シーケンシング等を利用したシーケンサーがあげられ、具体例として、GS JuniorおよびGS FLX+プラットフォーム(Roche社製)、MiSeq、NextSeqおよびHiSeqプラットフォーム(Illumina社製)、Genetic AnalyzerおよびIon Proton System(ThermoFisher Scientific社製)等があげられる。解析対象のリードデータ31は、例えば、前記解析対象の識別子等の識別情報と紐付けられている。
解析対象のリードデータ31が含む各リードの長さ(塩基長)は、特に制限されず、例えば、解析対象のリードデータ31の取得に用いた核酸配列の解読方法に応じて異なる。前記リードの長さは、例えば、50~2000bps(塩基長)、または100~600bps(塩基長)である。
解析対象のリードデータ31は、例えば、前記次世代シーケンサー等を用いて解読された各リードの核酸配列から構成されてもよいし、前記次世代シーケンサー等を用いて解読された各リードの核酸配列に対して、前処理を実施したリードの核酸配列から構成されてもよい。前記前処理は、例えば、各リードの核酸配列のトリミング処理またはマスキング処理があげられる。前記トリミング処理およびマスキング処理は、例えば、ソフトウェア(Trimmomatic、fastp(https://github.com/OpenGene/fastp)、Cutadapt(https://cutadapt.readthedocs.io/en/stable/)等)を用いて実施できる。前記トリミング処理は、例えば、核酸配列の解読において、前記解析対象の核酸分子由来の核酸分子の断片に対して付加されるアダプター(インデックス、タグ、バーコード等ともいう)の核酸配列の一部または全部を削除する処理である。前記アダプターの核酸配列は、通常、解析対象の核酸分子由来の核酸配列の両端に付加され、各リードの両端側に存在する。このため、前記トリミング処理では、リードの核酸配列の両端側におけるアダプターに対応する核酸配列の一部または全部を削除する。解析対象のリードデータ31に対して前処理が実施されていない場合、後述の検出工程(S5)では、検出に先立ち、解析対象のリードデータ31に対して前処理を実施してもよい。解析対象のリードデータ31について、前処理を行なうことにより、実施形態1の検出装置1は、後述の検出工程(S5)において、より精度よく、検出対象由来の核酸配列を検出できる。
解析対象のリードデータ31の量は、例えば、解析対象1単位が含む核酸配列以上であり、好ましくは、10倍以上、より好ましくは、20倍以上、さらに好ましくは、30倍以上である。実施形態1の検出装置1では、後述の検出工程(S5)に提供する解析対象のリードデータ31の量を多くすると、より解析精度(特に、解析の感度)よく、前記検出対象由来の核酸配列を検出できる。このため、解析対象のリードデータ31の量の上限は、例えば、ユーザの求める解析精度およびユーザが許容する検出処理の時間に応じて適宜設定できる。具体例として、解析対象のリードデータ31の量の上限は、例えば、解析対象1単位の1000倍以下、500倍以下、250倍以下、または100倍以下があげられる。解析対象のリードデータ31の量は、例えば、10~1000倍、20~1000倍、30~1000倍、10~500倍、20~500倍、30~500倍、10~250倍、20~250倍、30~250倍である。前記1単位は、解析対象の最小構成を意味する。具体例として、前記解析対象がゲノム、染色体、および遺伝子である場合、前記解析対象の一単位は、ゲノムの全長、染色体の全長、および遺伝子の全長を意味する。解析対象のリードデータ31の量は、カバレッジ(被覆率)ということもでき、また、カバー率、「~倍の読み」、カバレッジレベル、または深度ということもできる。解析対象のリードデータ31の量は、解析対象のリードデータ31における核酸配列の数(総塩基数)を、解析対象1単位が含む核酸配列の数(総塩基数)を割ることにより算出できる。具体例として、前記解析対象が生物のゲノムの場合、解析対象のリードデータ31の量は、リード1(LT1)~リードn(LTn)の総塩基数をゲノム全長の総塩基数の総数で割ることにより算出できる。
検出対象のデータ32は、前述のように、検出対象の核酸分子の核酸配列のデータである。検出対象のデータ32は、ユーザに取得されたデータでもよいし、データベース等に登録されたデータでもよい。検出対象のデータ32の数は、特に制限されず、例えば、ユーザが検討した検出対象の数に応じて適宜決定できる。検出対象のデータ32は、例えば、前記検出対象の識別子等の識別情報と紐付けられている。
つぎに、検出端末2に入力された解析対象のリードデータ31および検出対象のデータ32は、通信回線網4を介して、配列DB3へ出力される。そして、配列DB3は、解析対象のリードデータ31および検出対象のデータ32を、それぞれ解析対象の情報(ID、識別子等)および検出対象の情報(ID、識別子等)と紐付けて格納する(S2)。なお、S2工程において、解析対象のリードデータ31および検出対象のデータ32の格納は、同時に(並列に)処理しているが、別々に処理してもよい。この場合、解析対象のリードデータ31および検出対象のデータ32の格納の順序は、特に制限されず、解析対象のリードデータ31の格納後に、検出対象のデータ32を格納してもよいし、検出対象のデータ32の格納後に、解析対象のリードデータ31を格納してもよい。
つぎに、検出装置1は、配列DB3に格納された解析対象のリードデータ31および検出対象のデータ32を用いて処理を開始する。まず、検出装置1は、例えば、ユーザにより検出端末2にから指示された解析対象のリードデータ31および検出対象のデータ32を配列DB3から取得する。具体的には、検出装置1の第1の取得部11が、配列DB3に対して、配列DB3に格納された解析対象のリードデータ31を要求し、配列DB3から出力された解析対象のリードデータ31を取得する(S3、第1の取得工程)。つぎに、検出装置1の第2の取得部12が、配列DB3に対して、配列DB3に格納された検出対象のデータ32を要求し、配列DB3から出力された検出対象のデータ32を取得する(S4、第2の取得工程)。なお、実施形態1においては、S3の処理後に、S4を処理しているが、S3およびS4の処理順序は、特に制限されず、S4の処理後にS3を処理してもよいし、S3およびS4を同時に処理してもよい。
つぎに、検出装置1では、検出部13が、解析対象のリードデータ31および検出対象のデータ32を用いて、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する(S5、検出工程)。具体的には、S5では、まず、検出部13が解析対象のリードデータ31から、検出対象のデータ32の核酸配列との比較に用いるk塩基長の核酸配列を抽出(生成)する。抽出されるk塩基長の核酸配列の数は、1つもでもよいし、複数でもよい。前記k塩基長の核酸配列は、例えば、ユーザに指定されたk塩基長の核酸配列でもよいし、解析対象のリードデータ31の核酸配列からk塩基長の核酸配列をランダムまたは規則性をもって抽出してもよい。具体例として、前記k塩基長の核酸配列は、解析対象のリードデータ31であるリード1(LT1)~リードn(LTn)を用いて、いずれか1つのリードから1または複数のk塩基長の核酸配列を抽出してもよいし、複数のリードから1または複数のk塩基長の核酸配列を抽出してもよいし、全てのリードから1または複数のk塩基長の核酸配列を抽出してもよい。
前記k塩基長において、kの値は、解析対象の全長の核酸配列に応じて適宜設定でき、具体例として、下記条件(1)を満たす。この場合、実施形態1の検出装置1は、S5工程に先立ち、前記解析対象1単位が含む核酸配列の総塩基長の情報を取得し、解析対象1単位が含む核酸配列の総塩基長に基づき、kの値を算出し、得られたkの値を設定する設定部を備えてもよい。この場合、前記設定部が、前記解析対象1単位が含む核酸配列の総塩基長の情報の取得、kの値の算出および設定を実施する設定工程を実施する。具体例として、前記解析対象がイネのゲノムである場合、下記イネのゲノム一単位が含む核酸配列の総塩基長(N)は、400Mbであり、kは、15と算出されるため、k≧15の範囲で設定することが好ましい。前記kの値は、ユーザにより入力された値を用いてもよい。
条件(1):N≦4
(前記条件(1)において、Nは、解析対象1単位が含む核酸配列の総塩基長である。)
前記kの値は、好ましくは、偶然同一が生じる可能性が低い値であり、具体例として、16、17、18、もしくは19、またはいずれかの数値以上であり、より好ましくは、20、25、30、35、40、45、もしくは50、またはいずれかの数値以上である。前記kの値の上限は、例えば、前記検出対象の全長の核酸配列の長さまたは前記解析対象の全長の核酸配列の長さに応じて設定できる。具体例として、前記kの値の上限は、前記検出対象の全長の核酸配列の長さまたは前記解析対象の全長の核酸配列の長さである。実施形態1の検出装置1では、前記kの値を、20以上とすることにより、偶然同一が生じる可能性をより低減でき、より精度よく(特に、解析の特異度)、検出対象由来の核酸配列を検出できる。
つぎに、検出部13は、抽出されたk塩基長の核酸配列と、検出対象のデータ32の核酸配列とを照合(比較)し、検出対象のデータ32の核酸配列において、前記k塩基長の核酸配列と一致する核酸配列を検出する。前記照合は、例えば、核酸配列またはアミノ酸配列のアライメントに用いる公知のソフトウェアまたは処理を用いて実施できる。そして、検出部13は、検出対象のデータ32の核酸配列において、前記k塩基長の核酸配列と一致する配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。また、前記k塩基長の核酸配列が複数の場合、検出部13は、各k塩基長の核酸配列について、検出対象のデータ32の核酸配列との照合を実施し、検出対象のデータ32の核酸配列において、前記k塩基長の核酸配列と一致する核酸配列を検出する。検出部13は、前記k塩基長の核酸配列について、得られた検出結果と、前記k塩基長の核酸配列のデータとを紐付けてもよい。これにより、検出装置1は、例えば、検出部13で得られた検出結果について、閾値との比較、統計学的な処理等を実施することにより、前記解析対象の核酸配列について、前記検出対象由来の核酸配列が存在するかを、より精度よく解析可能とできる。前記検出結果は、例えば、前記k塩基長の核酸配列のカウント数(検出回数)、前記k塩基長の核酸配列の検出頻度等があげられる。
そして、実施形態1の検出装置1は、処理を終了する。
実施形態1の検出装置1は、例えば、得られた検出結果について、検出端末2に出力してもよい。この場合、検出端末2は、出力部22に、前記検出結果を出力する。
実施形態1の検出装置1、検出端末2および検出システム100によれば、解析対象のリードデータ31および検出対象のデータ32から、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出できる。このため、実施形態1の検出装置1では、前述のリファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出できる。
実施形態1の検出システム100において、配列DB3に、解析対象のリードデータ31および検出対象のデータ32が格納されているが、本発明はこれに限定されず、解析対象のリードデータ31および検出対象のデータ32は、検出装置1の記憶装置104に格納されてもよい。また、検出対象のデータ32がシステム外のデータベースに登録されている場合、検出装置1は、システム外のデータベースに対して、検出対象のデータ32を要求し、送信された検出対象のデータ32を取得してもよい。
実施形態1の検出装置1では、解析対象のリードデータ31からk塩基長の核酸配列を抽出したが、本発明はこれに限定されず、検出対象のデータ32からk塩基長の核酸配列を抽出してもよいし、解析対象のリードデータ31および検出対象のデータ32の両者からk塩基長の核酸配列を抽出してもよい。この場合、検出部13は、抽出されたk塩基長の核酸配列を他方の核酸配列と照合し、k塩基長の核酸配列と一致する核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する。
検出部13が、前記k塩基長の核酸配列について、得られた検出結果と、前記k塩基長の核酸配列のデータとを紐付ける場合、実施形態1の検出装置1は、さらに、判定部を備え、前記判定部は、前記他のデータにおけるk塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定してもよい。前記判定部における判定は、例えば、カウント数と予め設定された第1の閾値との比較、後述の対照のリードデータを用いて得られる検出結果との比較または統計的検定等があげられる。前記第1の閾値は、例えば、検出対象由来の核酸分子を含む解析対象の核酸分子と、検出対象由来の核酸分子を含まない解析対象の核酸分子とを準備し、実施形態1の検出装置1で得られる検出結果を用いて設定できる。
[実施形態2]
本実施形態は、本発明の検出装置および検出端末を備える検出システムの他の例である。図5は、本実施形態の検出装置1A、検出端末2、および配列DB3Aを備える検出システム100Aを示すブロック図である。図5に示すように、検出システム100Aは、検出装置1A、検出端末2、および配列DB3を備える。また、図5に示すように、検出装置1Aは、実施形態1の検出装置1の構成に加えて、第3の取得部14、比較配列生成部15、判定部16、および位置特定部17を備える。また、配列DB3Aは、実施形態1の配列DB3のデータに加えて、対照の核酸配列のリードデータ(対照のリードデータ)33が格納されている。検出装置1Aのハードウェア構成は、図2の検出装置のハードウェア構成において、CPU101が、図1の検出装置1の構成に変えて、図5の検出装置1Aの構成を備える以外は同様である。これらの点を除き、実施形態2の検出装置1Aの構成は、実施形態1の検出装置1の構成と同様であり、その説明を援用できる。
本実施形態の検出システム100Aにおける処理の一例を、図6および図7のフローチャートに基づいて説明する。図6および7において、検出装置1Aは、S3~S9工程を実施する。図6および図7に示すように、実施形態2の検出方法は、実施形態1の検出方法のS1およびS2工程に代えて、S1AおよびS2A工程を含む。また、施形態2の検出方法は、実施形態1の検出方法のS5工程が、S51~S54工程から構成される。実施形態2の検出方法は、実施形態1の検出方法に加えて、S6~S9工程を含む。これらの点を除き、実施形態2の検出システム100Aの処理は、実施形態1のシステム100の処理と同様であり、その説明を援用できる。
まず、実施形態1のS1工程と同様に、検出装置1Aによる処理に先立ち、まず、解析対象のリードデータ31、検出対象のデータ32、および対照のリードデータ33を準備する。具体的には、ユーザが、ユーザの検出端末2の入力部21により、解析対象のリードデータ31、検出対象のデータ32、および対照のリードデータ33を入力する(S1A)。実施形態2において、解析対象のリードデータ31は、リード1(LT1)~リードn(LTn)から構成される(n:正の整数)。また、実施形態2において、対照のリードデータ33は、リード1(LR1)~リードm(LRm)から構成される(m:正の整数)。
対照のリードデータ33は、前記解析対象の対照となる核酸分子について、断片化し、断片化された核酸分子毎の核酸配列を解読することにより、取得できる。対照のリードデータ33は、ユーザに取得されたリードデータでもよいし、データベース等に登録されたリードデータでもよい。対照のリードデータ33は、解析対象のリードデータ31と同様に、例えば、前記対照が含有する核酸分子について、次世代シーケンサーを用いて核酸配列を解読することにより取得できる。対照のリードデータ33は、解析対象のリードデータ31と同様の条件で取得されることが好ましい。前記対照は、前記解析対象との差異を検出するための基準として用いられる任意の核酸分子であり、例えば、前記解析対象の種類に応じて、適宜設定できる。具体例として、前記解析対象がある核酸分子に対して、核酸配列の挿入、付加、置換、欠失、改変等の修飾を行なった核酸分子である場合、前記対照は、未修飾の核酸分子、すなわち、ある核酸分子を利用できる。前記対照は、例えば、コントロール、比較対象等ということもできる。対照のリードデータ33は、例えば、前記対照の識別子等の識別情報と紐付けられている。
対照のリードデータ33の長さは、例えば、解析対象のリードデータ31の説明を援用できる。対照のリードデータ33は、例えば、前処理されたリードデータでもよい。前記前処理は、解析対象のリードデータ31の説明を援用できる。解析対象のリードデータ31に対して前処理を行なっている場合、対照のリードデータ33は、解析対象のリードデータ31に対する前処理と同様の前処理が実施されていることが好ましい。
対照のリードデータ33の量は、例えば、解析対象のリードデータ31の説明を援用できる。対照のリードデータ33の量と解析対象のリードデータ31の量とは、すなわち、対照のリードデータ33のカバレッジと解析対象のリードデータ31のカバレッジとは、例えば同程度であり、好ましくは、同じであることが好ましい。
つぎに、検出端末2に入力された解析対象のリードデータ31、検出対象のデータ32、および対照のリードデータ33は、通信回線網4を介して、配列DB3Aへ出力される。そして、配列DB3Aは、解析対象のリードデータ31、検出対象のデータ32、および対照のリードデータ33を、それぞれ解析対象の情報(ID、識別子等)、検出対象の情報(ID、識別子等)、および対照の情報(ID、識別子等)と紐付けて格納する(S2A)。なお、S2A工程において、解析対象のリードデータ31、検出対象のデータ32、および対照のリードデータ33の格納は、同時に(並列に)処理しているが、別々に処理してもよい。この場合、解析対象のリードデータ31、検出対象のデータ32、および対照のリードデータ33の格納の順序は、特に制限されず、任意の順序とできる。
つぎに、検出装置1Aは、配列DB3Aに格納された解析対象のリードデータ31、検出対象のデータ32、および対照のリードデータ33を用いて処理を開始する。まず、検出装置1Aは、例えば、ユーザにより検出端末2にから指示された解析対象のリードデータ31、検出対象のデータ32、および対照のリードデータ33を配列DB3Aから取得する。具体的には、検出装置1Aの第1の取得部11が、配列DB3Aに対して、配列DB3Aに格納された解析対象のリードデータ31を要求し、配列DB3Aから出力された解析対象のリードデータ31を取得する(S3、第1の取得工程)。つぎに、検出装置1Aの第2の取得部12が、配列DB3Aに対して、配列DB3Aに格納された検出対象のデータ32を要求し、配列DB3Aから出力された検出対象のデータ32を取得する(S4、第2の取得工程)。さらに、検出装置1Aの第3の取得部14が、配列DB3Aに対して、配列DB3Aに格納された対照のリードデータ33を要求し、配列DB3Aから出力された対照のリードデータ33を取得する(S6、第3の取得工程)。なお、実施形態2においては、S3、S4、およびS6をこの順序で処理しているが、S3、S4、およびS6の処理順序は、特に制限されず、任意の順序で処理してもよいし、S3、S4、およびS6を同時に処理してもよい。
つぎに、検出装置1Aでは、比較配列生成部15が、解析対象のリードデータ31および対照のリードデータ33から、検出対象のデータ32の核酸配列と比較に用いる複数のk塩基長の核酸配列を生成する(S7、比較配列生成工程)。比較配列生成部15において生成されるk塩基長の核酸配列の数は、複数であればよく、その上限は、解析対象のリードデータ31ならびに対照のリードデータ33のリードの数および各リードの塩基長(長さ)に応じて決定される。前記k塩基長の核酸配列の数が相対的に多いと、検出装置1Aでは、例えば、後述の判定工程(S8)における判定精度がより向上する。このため、前記k塩基長の核酸配列の数は、多いことが好ましい。
比較配列生成部15は、解析対象のリードデータ31ならびに対照のリードデータ33において、ユーザに指定された核酸配列からk塩基長の核酸配列を生成してもよいし、ランダムにk塩基長の核酸配列を生成してもよいし、規則性をもって(例えば、所定間隔)k塩基長の核酸配列を生成してもよい。比較配列生成部15が所定間隔でk塩基長の核酸配列を生成する場合、比較配列生成部15は、例えば、解析対象のリードデータ31ならびに対照のリードデータ33において、1または複数の塩基長毎の核酸(塩基)を基準として、k塩基長の核酸配列を生成する。比較配列生成部15は、例えば、後述の判定工程(S8)における判定精度をさらに向上できることから、解析対象のリードデータ31ならびに対照のリードデータ33について、各リードの核酸配列の全長の一端から他端まで、1または複数塩基毎の核酸を基準(端部の核酸)としたk塩基長の核酸配列を生成することにより、前記複数のk塩基長の核酸配列を生成することが好ましく、1塩基毎の核酸を基準(端部の核酸)としたk塩基長の核酸配列を生成することにより、前記複数のk塩基長の核酸配列を生成することが特に好ましい。
具体例として、解析対象のリードデータ31および対照のリードデータ33について、各リードの核酸配列の全長の一端から他端まで、1塩基毎の核酸を基準として、k塩基長の核酸配列を生成する場合、比較配列生成部15は、一例として、以下のように処理する。まず、比較配列生成部15は、解析対象のリードデータ31のリード1(LT1)の1塩基目の核酸(例えば、5’端の核酸)を基準(起点)として、k塩基長の長さの核酸配列を抽出する。ついで、比較配列生成部15は、2塩基目の核酸の核酸を基準として、k塩基長の長さの核酸配列を抽出する。さらに、解析対象のリードデータ31のリード1(LT1)の長さがlT1の場合、比較配列生成部15は、同様にして、(lT1-k)番目の核酸が基準となるまで、基準を1塩基ずつ3’側に変更して、繰り返しk塩基長の核酸配列を抽出する。つぎに、比較配列生成部15は、リード2(LT2)~リードn(LTn)に対しても同様の処理を実施して、k塩基長の核酸配列を抽出する。さらに、比較配列生成部15は、リード1(LR1)~リードm(LRm)に対しても、同様の処理を実施してk塩基長の核酸配列を抽出する。なお、各リードの末端を基準として、k塩基長の核酸配列を抽出する例をあげたが、比較配列生成部15は、各リードの任意の核酸を基準として、抽出してもよい。
つぎに、検出装置1Aでは、検出部13が、解析対象のリードデータ31から生成された複数のk塩基長の核酸配列および対照のリードデータ33から生成された複数のk塩基長の核酸配列を用いて、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する(S51およびS53)。そして、検出部13は、得られた検出結果を、後述の判定工程(S8)で利用可能なように、前記検出結果を得るために使用したk塩基長の核酸配列のデータまたは前記k塩基長の核酸配列と対応する検出対象のデータ32(例えば、検出対象の核酸分子におけるk塩基長の核酸配列の位置)と紐付ける(S52およびS54、判定工程)。具体例として、検出部13は、あるk塩基長の核酸配列について、前記検出対象由来の核酸配列の20~39番目の核酸配列と一致すると検出した場合、検出部13は、前記検出対象由来の核酸配列の20~39番目の核酸配列に、当該検出結果(例えば、カウント数)を紐付ける。
具体的には、まず、S5工程では、検出部13が、解析対象のリードデータ31から生成されたあるk塩基長の核酸配列と、検出対象のデータ32の核酸配列とを照合し、検出対象のデータ32の核酸配列における前記k塩基長の核酸配列と一致する核酸配列の有無を検出する(S51)。つぎに、検出部13は、前記k塩基長の核酸配列の検出結果(検出有りおよび/または検出無し)について、検出対象のデータ32において、前記k塩基長の核酸配列と対応する検出対象の核酸配列の位置の情報と紐付け、解析対象の検出データを生成する(S52)。前記紐付けは、例えば、前記核酸配列の位置に対して、検出有りの回数および/または検出無しの回数(カウント数)として紐付けることにより実施できる。そして、検出部13は、比較配列生成部15により生成された複数のk塩基長の核酸配列の全てに対して、同様の処理を実施する(S51)。つぎに、検出部13は、各k塩基長の核酸配列の検出結果(検出有りおよび/または検出無し)について、検出対象のデータ32において、各k塩基長の核酸配列と対応する検出対象の核酸配列の位置の情報と紐付け、解析対象の検出データを生成する(S52)。なお、検出部13が、各k塩基長の核酸配列に対して、S51工程の処理を実施後、S52工程を実施する場合を例にあげたが、検出部13は、1つのk塩基長の核酸配列に対してS51およびS52工程の処理を実施後に、つぎのk塩基長の核酸配列に対して同様の処理を実施するように構成してもよい。また、検出部13は、前記検出結果としてカウント数を紐付けたが、検出頻度等の他の情報を検出結果として紐付けてもよい。
つぎに、検出部13は、対照のリードデータ33から生成されたあるk塩基長の核酸配列と、検出対象のデータ32の核酸配列とを照合し、検出対象のデータ32の核酸配列における前記k塩基長の核酸配列と一致する核酸配列の有無を検出する(S53)。つぎに、検出部13は、前記k塩基長の核酸配列の検出結果(検出有りおよび/または検出無し)について、検出対象のデータ32において、前記k塩基長の核酸配列と対応する検出対象の核酸配列の位置の情報と紐付け、対照の検出データを生成する(S54)。前記紐付けは、例えば、前記核酸配列の位置に対して、検出有りの回数および/または検出無しの回数(カウント数)として紐付けることにより実施できる。そして、検出部13は、比較配列生成部15により生成された複数のk塩基長の核酸配列の全てに対して、同様の処理を実施する(S53)。つぎに、検出部13は、各k塩基長の核酸配列の検出結果について、検出対象のデータ32において、各k塩基長の核酸配列と対応する検出対象の核酸配列の位置の情報と紐付け、対照の検出データを生成する(S54)。なお、検出部13が、各k塩基長の核酸配列に対して、S53工程の処理を実施後、S54工程を実施する場合を例にあげたが、検出部13は、1つのk塩基長の核酸配列に対してS53およびS54工程の処理を実施後に、つぎのk塩基長の核酸配列に対して同様の処理を実施するように構成してもよい。また、検出部13は、前記検出結果としてカウント数を紐付けたが、検出頻度等の他の情報を検出結果として紐付けてもよい。
つぎに、検出装置1Aでは、判定部16が、S5工程で得られた結果、具体的には、解析対象のリードデータ31を用いて得られた検出対象のデータ32におけるk塩基長の核酸配列の検出結果と、対照のリードデータ33を用いて得られた検出対象のデータ32におけるk塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する(S8)。
具体的には、判定部16は、S52工程で得られた解析対象の検出データと、S54工程で得られた対照の検出データとについて、検出結果に差があるかを判定する。前記判定は、前記検出対象の核酸配列の各位置について、前記解析対象の検出データと前記対照の検出データとを比較することにより、判定できる。具体例として、判定部16は、前記検出対象の核酸配列の位置Xについて、前記解析対象の検出データおよび前記対照の検出データにおける位置Xと紐付けれた検出結果(検出有りの回数および/または検出無しの回数)を比較することにより実施できる。そして、前記解析対象の検出データおよび前記対照の検出データの検出結果に差がある場合、例えば、前記解析対象の検出データにおける検出有りの回数が、前記対照の検出データにおける検出有りの回数より(有意に)多い場合、および/または前記解析対象の検出データにおける検出無しの回数が、前記対照の検出データにおける検出無しの回数より(有意に)少ない場合、判定部16は、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むと判定する(Yes)。そして、検出装置1Aは、S9工程の処理に進む。他方、前記解析対象の検出データおよび前記対照の検出データの検出結果に差がない場合、例えば、前記解析対象の検出データにおける検出有りの回数が、前記対照の検出データにおける検出有りの回数と同等の(有意差がない)場合、および/または前記解析対象の検出データにおける検出無しの回数が、前記対照の検出データにおける検出無しの回数と同等の(有意差がない)場合、判定部16は、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含まないと判定する(No)。そして、検出装置1Aは、処理を終了する。
判定部16による判定では、例えば、2群のデータの独立性を検定可能な統計処理が利用でき、具体例として、カイ2乗検定、G検定等が利用できる。この場合、判定部16は、2群のデータが独立でない場合、前記2つのデータに差がない、すなわち、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含まないと判定する(No)。そして、検出装置1Aは、処理を終了する。他方、判定部16は、2群のデータが独立である場合、前記2つのデータに差がある、すなわち、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むと判定する(Yes)。そして、検出装置1Aは、S9工程の処理に進む。
つぎに、検出装置1Aでは、位置特定部17が、S52工程で得られた解析対象の検出データと、S54工程で得られた対照の検出データとに基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象の核酸配列における位置を特定する(S9、位置特定工程)。
具体的には、位置特定部17は、例えば、S52工程で得られた解析対象の検出データと、S54工程で得られた対照の検出データとについて、検出対象のデータ32における核酸配列の各位置における検出結果を比較する。前記比較は、判定部16の説明における各位置の判定と同様に実施できる。そして、位置特定部17は、前記解析対象の検出データにおける検出結果と、前記対照の検出データにおける検出結果とが、前記検出対象の核酸配列の各位置において(有意な)差がある場合、比較を行なった位置の核酸を、前記検出対象に由来する核酸配列として判定し、前記比較を行なった位置を、前記検出対象の核酸配列における位置として特定する。より具体的には、位置特定部17は、S52工程で得られた解析対象の検出データにおける検出有りのカウント数が、検出対象のデータ32における核酸配列の各位置における検出有りのカウント数と比較して、有意に多い場合、比較を行なった位置の核酸を、前記検出対象に由来する核酸配列として判定し、前記比較を行なった位置を、前記検出対象の核酸配列における位置として特定する。また、判定部16において、統計処理を用いている場合、位置特定部17は、各位置における検出結果について統計処理することにより得られた値に基づき、前記検出対象の核酸配列における位置を特定してもよい。この場合、位置特定部17は、各位置における検出結果について統計処理することにより得られた値と、第2の閾値とを比較することにより、前記検出対象の核酸配列における位置を特定してもよい。前記第2の閾値は、例えば、検出対象由来の核酸分子を含む解析対象の核酸分子と、検出対象由来の核酸分子を含まない解析対象の核酸分子とを準備し、実施形態2の検出装置1Aで得られる検出結果について統計処理することにより得られた値を用いて設定できる。
そして、検出装置1Aは、処理を終了する。
実施形態2の検出装置2は、例えば、得られた検出結果および/または前記検出対象由来の核酸配列における位置について、検出端末2に出力してもよい。この場合、検出端末2は、出力部22に、前記検出結果および/または前記検出対象由来の核酸配列における位置を出力する。
実施形態の検出システム100Aおよび検出装置1Aは、比較配列生成部15により複数のk塩基長の核酸配列を生成し、これを用いて、前記解析対象核酸配列における検出対象由来の核酸配列を検出するため、より精度(特に、解析の感度)よく、前記検出対象由来の核酸配列を検出できる。また、実施形態の検出システム100Aおよび検出装置1Aは、対照の核酸配列のリードデータを用いるため、前記検出対象に由来しない核酸配列を前記検出対象由来の核酸配列として検出する可能性を抑制できる、すなわち、より精度(特に、解析の特異度)よく、前記検出対象由来の核酸配列を検出できる。さらに、実施形態の検出システム100Aおよび検出装置1Aは、位置特定部17により、前記解析対象の核酸配列に導入された検出対象由来の核酸配列について、前記検出対象の核酸配列における位置を特定できるため、他の手段を用いて、前記検出対象由来の核酸配列を確認することができる。
なお、実施形態2の検出装置1Aでは、比較配列生成部15が、解析対象のリードデータ31ならびに対照のリードデータ33からk塩基長の核酸配列の生成を並行して実施した、本発明はこれに限定されず、比較配列生成部15は、解析対象のリードデータ31ならびに対照のリードデータ33からk塩基長の核酸配列の生成を別々に実施してもよい。この場合、比較配列生成部15は、解析対象のリードデータ31ならびに対照のリードデータ33からk塩基長の核酸配列の生成をする順序は、特に制限されず、任意の順序とできる。
実施形態2の検出装置1Aでは、検出部13は、S5工程においてS51~S54工程をこの順序で実施したが、S5工程においては、S51工程の実施後にS52工程が実施され、S53工程の実施後にS54工程が実施されればよく、S51およびS52工程と、S53およびS54工程との順序は、任意の順序とできる。
[実施形態3]
本実施形態のプログラムは、コンピュータに、前述の検出方法の各工程(処理、手順、命令、または動作ともいう)を、実行させるプログラムである。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体(non-transitory computer-readable storage medium)である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク、フロッピー(登録商標)ディスク(FD)等があげられる。
以下、実施例を用いて本発明を詳細に説明するが、本発明は実施例に記載された態様に限定されるものではない。なお、特に示さない限り、市販の試薬およびキット等は、そのプロトコルに従い使用した。
[実施例1]
本発明の検出方法により、ゲノムDNAに挿入された外来性DNAを検出できること、仮想のゲノムDNAを作成し、確認した。実施例1の検出方法の概略を図8に示す。
(1)仮想ゲノムDNAの生成
まず、外来性DNAが導入されたゲノムDNAの核酸配列を生成した(図8(1))。具体的には、検出対象の核酸分子であるプラスミドベクター(ColE1プラスミド、International Nucleotide Sequence Database Collaboration (INSDC) accession number J015666)の核酸配列から、100塩基長の核酸配列をランダムに抽出した。つぎに、抽出された核酸配列を、イネ(日本晴)のゲノムDNAの核酸配列(IRGSP-1.0)に導入した。これにより、外来性のDNAが導入されたゲノムDNAの核酸配列を生成した。なお、実施例1で用いる仮想ゲノムDNAにおいては、ベクターの5577~5676番目の核酸配列が挿入されていることを、その核酸配列から確認している。
(2)仮想ゲノムDNA由来のリードデータの生成
前記実施例1(1)で得られた仮想ゲノムDNAの核酸配列を用いて、100塩基長(100bps)の仮想ゲノムDNA由来のリードを含むリードデータを解析対象の核酸配列のリードデータとして生成した(図8(2)および(3))。なお、解析対象の核酸配列のリードデータの量は、50×カバレッジとした。なお、ゲノム全長について次世代シーケンサーを用いて核酸配列を解読する場合、約0.3%のシーケンスエラーが生じる。このため、前記仮想ゲノムDNAから仮想ゲノムDNA由来のリードデータを生成する際に、約0.3%の人工的な変異を、得られたリードデータに導入した。
(3)プラスミドベクター由来核酸配列の検出
つぎに、仮想ゲノムDNA由来のリードデータについて、各リードの5’端から3’端に向かって、1塩基毎に50塩基長の核酸配列(k塩基長の核酸配列、k-mer)を生成した(図8(4))。そして、各50塩基長の核酸配列について、検出対象の核酸配列であるベクターの核酸配列と照合して、前記ベクターの核酸配列における50塩基長の核酸配列の検出回数(カウント数)を測定した。得られたカウント数は、50塩基長の核酸配列が検出されたベクターの核酸配列における位置と紐付けて、格納した(解析対象の検出データ)。なお、ColE1プラスミドは、環状ベクターである。このため、ColE1プラスミドにおける、ある1点を基準(起点)として1周の環状ベクターを直線化した核酸配列を生成し、かつ直線化されたプラスミドベクターの5’端側の50塩基長の核酸配列を、直線化されたプラスミドベクターの核酸配列の3’端に付加する核酸配列を生成し、これを照合対象のベクターの核酸配列(検出対象の核酸配列)として用いた。
また、仮想ゲノムDNAに代えて、プラスミドベクター由来の核酸配列が挿入されていない、イネのゲノムDNAの核酸配列を用いた以外は、同様にして、検出回数(カウント数)を50塩基長の核酸配列が検出されたベクターの核酸配列における位置と紐付けて、格納した(対照の検出データ)。
つぎに、前記解析対象の検出データおよび対照の検出データについて、G検定を用いて独立性の検定を実施した。なお、前記検定は、下記参考文献1に記載のModel IIを仮定して実施した。有意水準は1%(G=6.634)とした。これらの結果を、図9および下記表1に示す。

参考文献1:Sokal, R. R. & Rohlf, F. J. “Biometry: the principles and practice of statistics in biological research.”, W. H. Freeman and Co., New York, 1995
1995).
図9は、外来性DNAの検出結果を示すグラフである。図9において、上段は、カウント数の結果を示し、下段は、G検定で得られた値(G-statistic)の結果を示す。また、下記表1は、ベクターの核酸配列由来の100塩基長の全ての塩基の検出結果を示す。図9において、横軸は、前記ベクターの核酸配列における位置(Position)を示し、縦軸は、カウント数またはG検定で得られた値を示す。図9に示すように、本発明の検出方法によれば、ベクターの5577~5676番目の核酸配列が挿入されていると検出され、これは前述の条件に一致した。また、下記表1に示すように、本発明の検出方法によれば、ベクターの核酸配列由来の100塩基長の全ての塩基について、ベクター由来の核酸配列として検出された。
Figure 2022120693000002
以上のことから、本発明の検出方法によれば、解析対象の核酸配列における検出対象由来の核酸配列を、リファレンスの核酸配列を用いずとも検出できることがわかった。
[実施例2]
本発明の検出方法において、ゲノムDNAに挿入された外来性DNAの長さおよびk塩基長の核酸配列の長さを変更し、外来性DNAを検出できることを確認した。
前記実施例1において、検出対象の核酸分子であるプラスミドベクター(ColE1プラスミド)の核酸配列から、15、20、30または50塩基長の核酸配列をランダムに抽出し、イネ(日本晴)のゲノムDNAの核酸配列に導入した以外は同様にして仮想ゲノムDNAを生成した。そして、生成した仮想ゲノムDNAを用いた以外は、前記実施例1(2)と同様にして、解析対象の核酸配列のリードデータを生成した。
つぎに、解析対象の核酸配列のリードデータとして、実施例2の解析対象の核酸配列のリードデータを用い、k塩基長の核酸配列を、10、15、20、25、30、35、40、45、または50塩基長の核酸配列とした以外は、前記実施例1(3)と同様に、プラスミドベクター由来核酸配列を検出した。さらに、同様に、仮想ゲノムDNAの生成、解析対象の核酸配列のリードデータの生成、k塩基長の核酸配列の生成およびプラスミドベクター由来核酸配列の検出を1セットとして、合計1000回実施し、挿入された外来性DNAの全長を検出できた回数をカウントした。また、1000回の検出において、偽陽性となった回数の平均値および標準偏差を算出した。これらの結果を下記表2および表3に示す。
Figure 2022120693000003
前記表2は、1000回の検出において、外来性DNAを検出できた回数を示す。前記表2に示すように、k塩基長の核酸配列の長さが、15塩基長以上の場合、精度よく、外来性DNAの核酸配列が検出できた。なお、後述する参考例1に示すように、k≧15の場合、k塩基長の核酸配列と、イネのゲノムDNAの核酸配列との偶然同一がほとんど生じなくなる。このため、k塩基長の核酸配列の長さが、15塩基長以上とすると、精度よく検出できると推定された。
Figure 2022120693000004
つぎに、前記表3は、1000回の検出において、偽陽性となった回数の平均値および標準偏差(Average±S.D.)を示す。前記表3に示すように、k塩基長の核酸配列の長さが長くなると、偽陽性の平均値が減少し、かつ標準偏差が低減した。また、前記表3示すように、k塩基長の核酸配列の長さが、20塩基長以上の場合、偽陽性を顕著に抑制できた。なお、後述する参考例1に示すように、k≧20の場合、k塩基長の核酸配列と、イネのゲノムDNAの核酸配列との偶然同一が生じなくなる。このため、k塩基長の核酸配列の長さが、20塩基長以上とすると、偽陽性を顕著に抑制できると推定された。
以上のことから、本発明の検出方法では、ゲノムDNAに挿入された外来性DNAの長さおよびk塩基長の核酸配列の長さを変更しても、外来性DNAを検出できることがわかった。また、本発明の検出方法では、k塩基長の核酸配列の長さを15塩基長以上とすることにより、精度よく、検出対象由来の核酸配列を検出でき、k塩基長の核酸配列の長さを20塩基長以上とすることにより、偽陽性を顕著に抑制できることがわかった。
[実施例3]
本発明の検出方法において、仮想ゲノムDNA由来のリードデータのカバレッジを変更し、外来性DNAを検出できることを確認した。
前記実施例1において、検出対象の核酸分子であるプラスミドベクター(ColE1プラスミド)の核酸配列から、20塩基長の核酸配列をランダムに抽出し、イネ(日本晴)のゲノムDNAの核酸配列に導入した以外は同様にして仮想ゲノムDNAを生成した。そして、生成した仮想ゲノムDNAを用い、解析対象の核酸配列のリードデータの量を、10×、20×、30×、40×または50×カバレッジとした以外は、前記実施例1(2)と同様にして、解析対象の核酸配列のリードデータを生成した。
つぎに、解析対象の核酸配列のリードデータとして、実施例3の解析対象の核酸配列のリードデータを用い、k塩基長の核酸配列を、20塩基長の核酸配列とした以外は、前記実施例1(3)と同様に、プラスミドベクター由来核酸配列を検出した。さらに、同様に、仮想ゲノムDNAの生成、解析対象の核酸配列のリードデータの生成、k塩基長の核酸配列の生成およびプラスミドベクター由来核酸配列の検出を1セットとして、合計1000回実施し、挿入された外来性DNAの全長を検出できた回数(検出回数)をカウントし、検出率(検出回数/1000×100(%))を算出した。これらの結果を下記表4に示す。
Figure 2022120693000005
前記表4は、外来性DNAの全長の検出率を示す。前記表4に示すように、カバレッジを大きくすると、検出率が向上し、30×以上のカバレッジにおいては、100%の検出率であった。
以上のことから、本発明の検出方法では、仮想ゲノムDNA由来のリードデータのカバレッジを変更しても、外来性DNAを検出できることがわかった。また、本発明の検出方法では、解析対象の核酸配列のリードデータの量を、20×カバレッジ以上、特に、30×カバレッジ以上とすることにより、極めて高い精度で、検出対象由来の核酸配列を検出できることがわかった。
[実施例4]
本発明の検出方法において、ゲノム編集を行なったイネ植物における外来性DNAを検出できることを確認した。
(1)ゲノム編集されたイネ植物の調製
下記参考文献2を参照し、図10に示す、HPT、SpCas9、およびOsALS2遺伝子を標的とするsgRNAをコードする核酸配列を含む、オールインワンのバイナリーベクター(pZH_gALS-2_Cas9)を調製した。

参考文献2:Mikami, M et.al., “Comparison of CRISPR/Cas9 expression constructs for efficient targeted mutagenesis in rice.”, Plant Mol. Biol., 2015, vol. 88, pages 561-572
つぎに、前記バイナリーベクターについて、下記参考文献3に記載のプロトコルに従って、イネ植物(日本晴)の胚盤由来のカルスに対して、アグロバクテリウムを用いて導入した。具体的には、1ヶ月培養したイネ植物のカルスに、前記バイナリーベクターを含むアグロバクテリウム(EHA10548株)を感染させた。前記感染開始後、3日間、アグロバクテリウムと、カルスとを共培養した。つぎに、共培養後のカルスを50mg/ml ハイグロマイシンB(和光純薬工業株式会社製)および25mg/ml メロペネム(和光純薬工業株式会社製)を含むカルス誘導培地に移植した。さらに、前記カルス誘導培地において、4週間培養することにより、ハイグロマイシン耐性カルスを選抜した。そして、選抜されたカルスを再生培地に移植し、再生植物を取得した(T0世代)。そして、前記再生植物を受粉して自殖後代系統からヌル分離個体(null-segregant、T1世代)を取得した。

参考文献3:Hood, E. E. et.al., “New Agrobacterium helper plasmids for gene transfer to plants.”, Transgenic Res., 1993, vol. 2, pages 208-218
(2)外来性DNAの確認
前記T0世代のゲノムDNAの核酸配列において、外来性DNA(バイナリーベクター)由来の核酸配列が導入されているかは、下記参考文献4を参照し、サザンブロット法により実施した。具体的には、野生型(日本晴)およびT0世代のゲノムDNAは、下記参考文献5のCTAB法により単離した。単離された10μgのゲノムDNAを、制限酵素(SpeI)により消化した。つぎに、得られたゲノムDNAの断片と下記HPTプライマーセットとを用いてPCRにより、HPT遺伝子の一部を増幅し、増幅断片を得た。なお、PCRの増幅条件は、94℃、5分の処理後、98℃、15秒、55℃、30秒、および68℃、50秒の処理を1サイクルとして、30サイクル実施し、その後、さらに68℃で5分間処理した。そして、得られたHPT遺伝子の増幅断片と下記推定HPT遺伝子の増幅断片(配列番号3)にハイブリダイズ可能なプローブとを用いてサザンブロット法を実施した。

参考文献4:Abe, K. et al. “Development and characterization of transgenic dominant male sterile rice toward an outcross-based breeding system.”, Breed. Sci., 2018, vol. 68, pages 248-257
参考文献5:Murray, M. G. & Thompson, W. F., “Rapid isolation of high molecular weight plant DNA.”, Nucleic Acids Res., 1980, vol. 8, pages 4321-4326
・HPTプライマーセット
フォワードプライマー(HPT-F01、配列番号1)
5'-CAAAGATCGTTATGTTTATCGGCACTTTG-3'
リバースプライマー(HPT-R01、配列番号2)
5'-GAAGAAGATGTTGGCGACCTCGTATTG-3'
・推定HPT遺伝子の増幅断片(配列番号3)
5'-CAAAGATCGTTATGTTTATCGGCACTTTGCATCGGCCGCGCTCCCGATTCCGGAAGTGCTTGACATTGGGGAGTTTAGCGAGAGCCTGACCTATTGCATCTCCCGCCGTTCACAGGGTGTCACGTTGCAAGACCTGCCTGAAACCGAACTGCCCGCTGTTCTACAACCGGTCGCGGAGGCTATGGATGCGATCGCTGCGGCCGATCTTAGCCAGACGAGCGGGTTCGGCCCATTCGGACCGCAAGGAATCGGTCAATACACTACATGGCGTGATTTCATATGCGCGATTGCTGATCCCCATGTGTATCACTGGCAAACTGTGATGGACGACACCGTCAGTGCGTCCGTCGCGCAGGCTCTCGATGAGCTGATGCTTTGGGCCGAGGACTGCCCCGAAGTCCGGCACCTCGTGCACGCGGATTTCGGCTCCAACAATGTCCTGACGGACAATGGCCGCATAACAGCGGTCATTGACTGGAGCGAGGCGATGTTCGGGGATTCCCAATACGAGGTCGCCAACATCTTCTTC-3'
つぎに、前記T1世代のゲノムDNAの核酸配列において、外来性DNA(バイナリーベクター)由来の核酸配列が導入されていないことは、PCRを用いて確認した。具体的には、前記T0世代と同様にして、ゲノムDNAを単離後、得られたゲノムDNAと前記HPTプライマーセットとを用いて、前記PCRの増幅条件により、HPT遺伝子断片を増幅した。そして、得られた増幅産物を、アガロースゲルを用いて電気泳動し、HPT遺伝子断片を検出した。また、前記T1世代に代えて、野生型、前記T0世代または前記バイナリーベクターを用いた以外は同様にしてHPT遺伝子断片を検出した。これらの結果を、図11に示す。
図11は、HPT遺伝子断片の検出結果を示す写真である。図11において、(A)は、サザンブロットの結果を示し、(B)は、アガロースゲルを用いた電気泳動の結果を示す。図11(A)において、各レーンは、左から、野生型(Npb)およびT0世代(2、8、20、21、44、46)の結果を示す。また、図11(B)において、各レーンは、左から、マーカー(M)、野生型(Npb)、バイナリーベクター(Vector)、T0世代(T0 #3-8)、およびT1世代(T1 #3-8-7)を示す。図11(A)に示すように、T0世代の6個体では、いずれもHPT遺伝子の挿入が確認されが、野生型では、HPT遺伝子の挿入が確認されなかった。また、図11(B)に示すように、バイナリーベクターおよびT0世代では、HPT遺伝子の挿入が確認されたのに対し、野生型では、HPT遺伝子の挿入が確認されなかった。これらの結果から、T0世代では、バイナリーベクターの核酸配列由来の核酸配列が挿入されていること、およびヌル分離個体であるT1世代では、バイナリーベクターの核酸配列由来の核酸配列が挿入されていないことを確認した。
(3)外来性DNAの検出
前記実施例4(1)で得られたT0世代を用いて、本発明の検出方法により、検出対象の核酸分子であるバイナリーベクター由来の核酸配列を検出できるかを確認した。まず、前記T0世代のゲノムDNAについて、リードデータ(解析対象のリードデータ)を取得した。具体的には、前記T0世代のゲノムDNAと、DNAライブラリ調製キット(TruSeq DNA PCR-Free Library Preparation Kit (Illumina社製))とを用いて、DNAライブラリを調製後、得られたDNAライブラリとIllumina HiSeq X platformとを用いて、151塩基長のリードから構成されるリードデータ(解析対象のリードデータ)を取得した。前記T0世代由来のリードデータは、69,170,747,118塩基長の核酸配列から構成されていた。また、前記T0世代に代えて、野生型(n=2)およびT1世代を用いた以外は、同様にしてリードデータを取得した。なお、2つの野生型由来のリードデータのうち一方は、解析対象のリードデータ(野生型1)であり、他方は、対照のリードデータ(野生型2)であり、T1世代由来のリードデータは、参考例のリードデータである。また、野生型由来のリードデータは、63,610,009,038塩基長(野生型1)および71,368,754,156塩基長(野生型2)の核酸配列から構成され、T1世代由来のリードデータは、63,340,672,150塩基長の核酸配列から構成されていた。
前記T0世代由来のリードデータ、前記野生型由来のリードデータ、および前記T1世代由来のリードデータについて、ソフトウェア(Trimmomatic ver. 0.36、オプション:ILLUMINACLIP:TruSeq_custom.fa:2:30:10 LEADING:10 TRAILING:10 SLIDINGWINDOW:4:20 MINLEN:20)を用いて、各リードの両端に存在するアダプターに対応する核酸配列をトリミングした。この結果、前記T0世代由来のリードデータ、前記野生型由来のリードデータ、および前記T1世代由来のリードデータは、60,730,824,843塩基長(T0世代)、52,292,878,177塩基長(野生型1)、58,863,113,535塩基長(野生型2)、および54,313,317,595塩基長(T1世代)から構成されていた。
そして、前記解析対象のリードデータとして、前記T0世代由来のリードデータ、前記野生型由来のリードデータ(野生型1)、および前記T1世代由来のリードデータを用い、k塩基長の核酸配列を、20塩基長の核酸配列とし、検出対象の核酸配列として、前記バイナリーベクターの核酸配列を用いた以外は、前記実施例1(3)と同様にして、解析対象の検出データを取得した。また、前記対照のリードデータとして前記野生型由来のリードデータ(野生型2)を用いた以外は、前記解析対象の検出データと同様に解析し、対照の検出データを測定した。そして、前記解析対象の検出データおよび対照の検出データについて、G検定を用いて独立性の検定を実施した。これらの結果を図12に示す。なお、前記T0世代由来のリードデータおよび前記T1世代由来のリードデータを用いた場合、カウントの閾値は、20とし、前記野生型由来のリードデータ(野生型1)を用いた場合、カウントの閾値は、250とした。
図12は、外来性DNA(バイナリーベクター)の検出結果を示すグラフである。図12(A)~(C)において、上段は、カウント数の結果を示し、下段は、G検定で得られた値(G-statistic)の結果を示す。また、図12において、(A)は、野生型由来のリードデータを用いた結果を示し、(B)は、T0世代由来のリードデータを用いた結果を示し、(C)は、T1世代由来のリードデータを用いた結果を示す。図12(A)~(C)において、横軸は、前記バイナリーベクターの核酸配列における位置(Position)を示し、縦軸は、カウント数またはG検定で得られた値を示す。図12(A)に示すように、野生型由来のリードデータにおいても一部の領域で、バイナリーベクター由来の核酸配列が検出された。これらについて、さらに検討したところ、矢印Yで示す領域は、前記バイナリーベクターにおいて、イネ由来の核酸配列が挿入された領域であった。また、矢印Xで示す領域は、DNAライブラリの構築に用いたキット由来の核酸配列が検出されているためであった。なお、異なるDNAライブラリ調製キット(KAPA Hyper Prep Kit/PCR Free)を用いた場合、当該領域のカウントが無くなることを確認している。さらに、16002~16021番目および17122~17141番目の位置は、偶然の同一で検出されており、かつリードデータ取得時のデータの変動(測定誤差)により生じていると推定された。つぎに、図12(B)に示すように、T0世代では、バイナリーベクターの広い領域に由来する核酸配列が検出されており、これは、図11に示すサザンブロット法の結果とも一致した。他方、図12(C)に示すように、T1世代では、バイナリーベクター由来の核酸配列は検出されなかった。なお、k塩基長の核酸配列を、50塩基長の核酸配列とし、バイナリーベクター由来の核酸配列を検出した場合も、同様の結果を得ている。
本発明の検出方法において、ゲノム編集を行なったイネ植物における外来性DNAを検出できることがわかった。
[実施例5]
本発明の検出方法において、ゲノム編集を行なったコムギ植物における外来性DNAを検出できることを確認した。
ゲノム編集を行なったコムギ植物のゲノムDNAの核酸配列(解析対象の核酸配列)のデータおよびゲノム編集を行なっていないコムギ植物のゲノムDNAの核酸配列(対照の核酸配列)のデータ(BioProject accession number PRJDB7455、DDBJ Sequence Read Archive31からダウンロード可能)は、下記参考文献6に記載のT0世代およびT1世代(ヌル分離個体)のものを用いた。

参考文献6:Abe, F. et al. “Genome-edited triple-recessive mutation alters seed dormancy in wheat.”, Cell Rep., 2019, vol. 28, pages 1362-1369.e4
前記実施例1(1)で得られた仮想ゲノムDNAの核酸配列に代えて、前記T0世代のゲノムDNAの核酸配列および前記T1世代のゲノムDNAの核酸配列を用いた以外は、前記実施例1(2)と同様にして、解析対象の核酸配列のリードデータを生成した。解析対象の核酸配列のリードデータの量は、50×カバレッジとした。また、ゲノム編集を行なっていないコムギ植物のゲノムDNAの核酸配列を用いて、同様に、対照の核酸配列のリードデータを生成した。
つぎに、前記仮想ゲノムDNA由来のリードデータに代えて、T0世代由来のリードデータ、T1世代由来のリードデータ、および対照の核酸配列のリードデータを用い、k塩基長の核酸配列を、20塩基長の核酸配列とし、前記ベクター(ColE1プラスミド)の核酸配列に変えて、前記参考文献6のベクター(pZH_OsU6gRNA_PubiMMCas9-TaQsd1_t1)の核酸配列を用いた以外は、前記実施例1(3)と同様にして、解析対象の検出データおよび対照の検出データを取得した。そして、前記解析対象の検出データおよび対照の検出データについて、G検定を用いて独立性の検定を実施した。これらの結果を図13に示す。
図13は、外来性DNA(ベクター)の検出結果を示すグラフである。図13(A)~(B)において、上段は、カウント数の結果を示し、下段は、G検定で得られた値(G-statistic)の結果を示す。また、図13において、(A)は、T0世代由来のリードデータを用いた結果を示し、(B)は、T1世代由来のリードデータを用いた結果を示す。図13(A)~(B)において、横軸は、前記ベクターの核酸配列における位置(Position)を示し、縦軸は、カウント数またはG検定で得られた値を示す。図13(A)に示すように、T0世代では、ベクターの広い領域に由来する核酸配列が検出されており、この結果は、前記参考文献6の結果とも一致した。他方、図13(B)に示すように、T1世代では、ベクター由来の核酸配列は検出されず、ヌル分離個体であることが確認された。
以上のことから、本発明の検出方法において、ゲノム編集を行なったコムギ植物における外来性DNAを検出できることがわかった。
[参考例1]
解析対象の核酸配列の全長の長さを参照することにより、k塩基長の核酸配列におけるkの値を設定できることを確認した。
ランダムに生成したk塩基長の核酸配列(4通り)の全てについて、コムギ植物(Wheat)のゲノムDNAの核酸配列、トウモロコシ植物(Maize)のゲノムDNAの核酸配列、豚(Swine)のゲノムDNAの核酸配列、カイコ(Silkworm)のゲノムDNAの核酸配列、バチルス・サブティリスのゲノムDNAの核酸配列、イネ植物(Rice)のゲノムDNAの核酸配列、およびColE1プラスミド(ColE1)の核酸配列と一致する割合を検討した。なお、kは、1~30とした。コムギ植物のゲノムDNAの核酸配列、イネ植物のゲノムDNAの核酸配列およびColE1プラスミドの核酸配列は、前述の核酸配列を使用した。トウモロコシ植物のゲノムDNAの核酸配列、豚のゲノムDNAの核酸配列、カイコのゲノムDNAの核酸配列は、下記データベースに登録されているものを使用した。これらの結果を図14および下記表5に示す。

豚のゲノムDNA:
データベース(http://www.ensembl.org/)のswine (Sscrofa11.1)
トウモロコシ植物のゲノムDNA:
データベース(https://www.maizegdb.org/)のmaize (Zm-B73-REFERENCE-GRAMENE-4.0)
カイコのゲノムDNA:
データベース(http://sgp.dna.affrc.go.jp/)のsilkworm (as of December 12, 2017)
バチルス・サブティリスのゲノムDNA:
データベース(https://www.ncbi.nlm.nih.gov/nuccore/)のAL009126.3
コムギ植物のゲノムDNA(ゲノム編集前):
データベース(EnsemblPlants:http://plants.ensembl.org/)のwheat (TGACv1)
Figure 2022120693000006
図14は、ランダムに生成したk塩基長の核酸配列が一致する割合を示すグラフである。図14において、横軸は、kの値を示し、縦軸は、一致率を示す。また、前記表5は、ランダムに生成したk塩基長の核酸配列が一致する割合を示す。図14および前記表5に示すように、kの値を大きくすると、一致率は相対的に低下していき、k塩基長の核酸配列の組合せが、各DNAの全長の長さを超えると、顕著に一致率が低下し、ゲノムDNAの総塩基数(N)が4より小さくなるように(N≦4)、kを設定することにより、一致率は1%未満に抑制され、精度および特異度とも高い検出ができると考えられた。また、kの値を20とすると、いずれの核酸配列に対する一致率も1%未満に抑制された。これらの結果から、解析対象の核酸配列の全長の長さを参照することにより、k塩基長の核酸配列におけるkの値を設定できることが確認された。
以上、実施形態および実施例を参照して本発明を説明したが、本発明は、上記実施形態および実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
<付記>
上記の実施形態および実施例の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
<検出装置>
(付記1)
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置であって、
第1の取得部と、第2の取得部と、検出部とを備え、
前記第1の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第2の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、装置。
(付記2)
比較配列生成部を備え、
前記比較配列生成部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方から、複数のk塩基長の核酸配列を生成し、
前記検出部は、各k塩基長の核酸配列と、前記他方のデータの核酸配列とを照合し、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記1記載の装置。
(付記3)
前記比較配列生成部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方について、各核酸配列の全長の一端から他端まで、1または複数塩基毎の核酸を基準としたk塩基長の核酸配列を生成することにより、前記複数のk塩基長の核酸配列を生成する、付記2記載の装置。
(付記4)
判定部を備え、
前記判定部は、前記他のデータにおけるk塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記1から3のいずれかに記載の装置。
(付記5)
第3の取得部および判定部を備え、
前記第3の取得部は、対照の核酸配列のリードデータを取得し、
前記検出部は、前記対照の核酸配列のリードデータおよび前記検出対象の核酸配列のデータにおける少なくとも一方におけるk塩基長の核酸配列について、他のデータの核酸配列と照合し、前記他のデータにおける前記k塩基長の核酸配列を検出し、
前記判定部は、前記解析対象の核酸配列のリードデータを用いて得られた他のデータにおけるk塩基長の核酸配列の検出結果と、前記対照の核酸配列のリードデータを用いて得られた他のデータにおけるk塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記1から3のいずれかに記載の装置。
(付記6)
前記検出結果は、前記k塩基長の核酸配列のカウント数である、付記4または5記載の装置。
(付記7)
位置特定部を備え、
前記位置特定部は、前記他のデータにおけるk塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象由来の核酸配列における位置を特定する、付記4から6のいずれかに記載の装置。
(付記8)
前記検出部は、前記解析対象の核酸配列のリードデータにおけるk塩基長の核酸配列と、前記検出対象の核酸配列のデータとを照合して、前記検出対象の核酸配列のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記1から7のいずれかに記載の装置。
(付記9)
前記kは、下記条件(1)を満たす、付記1から8のいずれかに記載の装置。
条件(1):N≦4
(前記条件(1)において、Nは、前記解析対象1単位が含む核酸配列の総塩基長である。)
(付記10)
前記kは、20以上である、付記1から9のいずれかに記載の装置。
(付記11)
前記解析対象の核酸配列のリードデータは、前記解析対象1単位が含む核酸配列の10倍以上の核酸配列のデータを含む、付記1から10のいずれかに記載の装置。
(付記12)
前記解析対象は、生物のゲノムであり、
前記検出対象は、前記生物以外の核酸である、付記1から11のいずれかに記載の装置。
(付記13)
前記装置は、サーバである、付記1から12のいずれかに記載の装置。
<検出方法>
(付記14)
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる方法であって、
第1の取得工程と、第2の取得工程と、検出工程とを含み、
前記第1の取得工程では、解析対象の核酸配列のリードデータを取得し、
前記第2の取得工程では、検出対象の核酸配列のデータを取得し、
前記検出工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、方法。
(付記15)
比較配列生成工程を含み、
前記比較配列生成工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方から、複数のk塩基長の核酸配列を生成し、
前記検出工程では、各k塩基長の核酸配列と、前記他方のデータの核酸配列とを照合し、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記14記載の方法。
(付記16)
前記比較配列生成工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方について、各核酸配列の全長の一端から他端まで、1または複数塩基毎の核酸を基準としたk塩基長の核酸配列を生成することにより、前記複数のk塩基長の核酸配列を生成する、付記15記載の方法。
(付記17)
判定工程を含み、
前記判定工程では、前記他のデータにおけるk塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記14から16のいずれかに記載の方法。
(付記18)
第3の取得工程および判定工程を含み、
前記第3の取得工程では、対照の核酸配列のリードデータを取得し、
前記検出工程は、前記対照の核酸配列のリードデータおよび前記検出対象の核酸配列のデータにおける少なくとも一方におけるk塩基長の核酸配列について、他のデータの核酸配列と照合し、前記他のデータにおける前記k塩基長の核酸配列を検出し、
前記判定工程では、前記解析対象の核酸配列のリードデータを用いて得られた他のデータにおけるk塩基長の核酸配列の検出結果と、前記対照の核酸配列のリードデータを用いて得られた他のデータにおけるk塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記14から16のいずれかに記載の方法。
(付記19)
前記検出結果は、前記k塩基長の核酸配列のカウント数である、付記17または18記載の方法。
(付記20)
位置特定工程を含み、
前記位置特定工程では、前記他のデータにおけるk塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象由来の核酸配列における位置を特定する、付記14から19のいずれかに記載の方法。
(付記21)
前記検出工程では、前記解析対象の核酸配列のリードデータにおけるk塩基長の核酸配列と、前記検出対象の核酸配列のデータとを照合して、前記検出対象の核酸配列のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記14から20のいずれかに記載の方法。
(付記22)
前記kは、下記条件(1)を満たす、付記14から21のいずれかに記載の方法。
条件(1):N≦4
(前記条件(1)において、Nは、前記解析対象1単位が含む核酸配列の総塩基長である。)
(付記23)
前記kは、20以上である、付記14から22のいずれかに記載の方法。
(付記24)
前記解析対象の核酸配列のリードデータは、前記解析対象1単位が含む核酸配列の10倍以上の核酸配列のデータを含む、付記14から23のいずれかに記載の方法。
(付記25)
前記解析対象は、生物のゲノムであり、
前記検出対象は、前記生物以外の核酸である、付記14から24のいずれかに記載の方法。
<プログラム>
(付記26)
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるプログラムであって、
前記プログラムは、コンピュータに、第1の取得処理と、第2の取得処理と、検出処理とを実行させ、
前記第1の取得処理では、解析対象の核酸配列のリードデータを取得し、
前記第2の取得処理では、検出対象の核酸配列のデータを取得し、
前記検出処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、プログラム。
(付記27)
比較配列生成処理を含み、
前記比較配列生成処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方から、複数のk塩基長の核酸配列を生成し、
前記検出処理では、各k塩基長の核酸配列と、前記他方のデータの核酸配列とを照合し、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記26記載のプログラム。
(付記28)
前記比較配列生成処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方について、各核酸配列の全長の一端から他端まで、1または複数塩基毎の核酸を基準としたk塩基長の核酸配列を生成することにより、前記複数のk塩基長の核酸配列を生成する、付記27記載のプログラム。
(付記29)
判定処理を含み、
前記判定処理では、前記他のデータにおけるk塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記26から28のいずれかに記載のプログラム。
(付記30)
第3の取得処理および判定処理を含み、
前記第3の取得処理では、対照の核酸配列のリードデータを取得し、
前記検出処理は、前記対照の核酸配列のリードデータおよび前記検出対象の核酸配列のデータにおける少なくとも一方におけるk塩基長の核酸配列について、他のデータの核酸配列と照合し、前記他のデータにおける前記k塩基長の核酸配列を検出し、
前記判定処理では、前記解析対象の核酸配列のリードデータを用いて得られた他のデータにおけるk塩基長の核酸配列の検出結果と、前記対照の核酸配列のリードデータを用いて得られた他のデータにおけるk塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、付記26から28のいずれかに記載のプログラム。
(付記31)
前記検出結果は、前記k塩基長の核酸配列のカウント数である、付記29または30記載のプログラム。
(付記32)
位置特定処理を含み、
前記位置特定処理では、前記他のデータにおけるk塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象由来の核酸配列における位置を特定する、付記26から31のいずれかに記載のプログラム。
(付記33)
前記検出処理では、前記解析対象の核酸配列のリードデータにおけるk塩基長の核酸配列と、前記検出対象の核酸配列のデータとを照合して、前記検出対象の核酸配列のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、付記26から32のいずれかに記載のプログラム。
(付記34)
前記kは、下記条件(1)を満たす、付記26から33のいずれかに記載のプログラム。
条件(1):N≦4
(前記条件(1)において、Nは、前記解析対象1単位が含む核酸配列の総塩基長である。)
(付記35)
前記kは、20以上である、付記26から34のいずれかに記載のプログラム。
(付記36)
前記解析対象の核酸配列のリードデータは、前記解析対象1単位が含む核酸配列の10倍以上の核酸配列のデータを含む、付記26から35のいずれかに記載のプログラム。
(付記37)
前記解析対象は、生物のゲノムであり、
前記検出対象は、前記生物以外の核酸である、付記26から36のいずれかに記載のプログラム。
<記録媒体>
(付記38)
付記26から37のいずれかに記載のプログラムを記録していることを特徴とする、コンピュータ読み取り可能な記録媒体。
<検出システム>
(付記39)
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるシステムであって、
端末と、サーバとを備え、
前記端末と前記サーバとは、システム外の通信回線網を介して接続可能であり、
前記端末および前記サーバの全体が、
第1の取得部と、第2の取得部と、検出部とを備え、
前記第1の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第2の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、システム。
(付記40)
解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるシステムであって、
前記システムは、1以上のコンピュータから構成され、
前記1以上のコンピュータが、
第1の取得部と、第2の取得部と、検出部とを備え、
前記第1の取得部は、解析対象の核酸配列のリードデータを取得し、
前記第2の取得部は、検出対象の核酸配列のデータを取得し、
前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、システム。
(付記41)
前記システムは、複数のコンピュータから構成され、
前記複数のコンピュータは、システム外の通信回線網を介して接続可能である、付記40記載のシステム。
(付記42)
前記コンピュータは、サーバおよび/または端末である、付記40または41記載のシステム。
以上のように、本発明によれば、リファレンスの核酸配列を用いずとも、解析対象の核酸配列における検出対象由来の核酸配列を検出できる。このため、本発明は、例えば、解析対象の生物のゲノムにおける外来性遺伝子の検出等に好適に使用できる。したがって、本発明は、例えば、医薬分野等において極めて有用である。

Claims (17)

  1. 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置であって、
    第1の取得部と、第2の取得部と、検出部とを備え、
    前記第1の取得部は、解析対象の核酸配列のリードデータを取得し、
    前記第2の取得部は、検出対象の核酸配列のデータを取得し、
    前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、装置。
  2. 比較配列生成部を備え、
    前記比較配列生成部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方から、複数のk塩基長の核酸配列を生成し、
    前記検出部は、各k塩基長の核酸配列と、前記他方のデータの核酸配列とを照合し、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、請求項1記載の装置。
  3. 前記比較配列生成部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方について、各核酸配列の全長の一端から他端まで、1または複数塩基毎の核酸を基準としたk塩基長の核酸配列を生成することにより、前記複数のk塩基長の核酸配列を生成する、請求項2記載の装置。
  4. 判定部を備え、
    前記判定部は、前記他のデータにおけるk塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、請求項1から3のいずれか一項に記載の装置。
  5. 第3の取得部および判定部を備え、
    前記第3の取得部は、対照の核酸配列のリードデータを取得し、
    前記検出部は、前記対照の核酸配列のリードデータおよび前記検出対象の核酸配列のデータにおける少なくとも一方におけるk塩基長の核酸配列について、他のデータの核酸配列と照合し、前記他のデータにおける前記k塩基長の核酸配列を検出し、
    前記判定部は、前記解析対象の核酸配列のリードデータを用いて得られた他のデータにおけるk塩基長の核酸配列の検出結果と、前記対照の核酸配列のリードデータを用いて得られた他のデータにおけるk塩基長の核酸配列の検出結果とに基づき、前記解析対象の核酸配列が、前記検出対象由来の核酸配列を含むかを判定する、請求項1から3のいずれか一項に記載の装置。
  6. 前記検出結果は、前記k塩基長の核酸配列のカウント数である、請求項4または5記載の装置。
  7. 位置特定部を備え、
    前記位置特定部は、前記他のデータにおけるk塩基長の核酸配列の検出結果に基づき、前記解析対象の核酸配列において検出された核酸配列について、前記検出対象の核酸配列における位置を特定する、請求項4から6のいずれか一項に記載の装置。
  8. 前記検出部は、前記解析対象の核酸配列のリードデータにおけるk塩基長の核酸配列と、前記検出対象の核酸配列のデータとを照合して、前記検出対象の核酸配列のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、請求項1から7のいずれか一項に記載の装置。
  9. 前記kは、下記条件(1)を満たす、請求項1から8のいずれか一項に記載の装置。
    条件(1):N≦4
    (前記条件(1)において、Nは、前記解析対象1単位が含む核酸配列の総塩基長である。)
  10. 前記kは、20以上である、請求項1から9のいずれか一項に記載の装置。
  11. 前記解析対象の核酸配列のリードデータは、前記解析対象1単位が含む核酸配列の10倍以上の核酸配列のデータを含む、請求項1から10のいずれか一項に記載の装置。
  12. 前記解析対象は、生物のゲノムであり、
    前記検出対象は、前記生物以外の核酸である、請求項1から11のいずれか一項に記載の装置。
  13. 前記装置は、サーバである、請求項1から12のいずれか一項に記載の装置。
  14. 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる方法であって、
    第1の取得工程と、第2の取得工程と、検出工程とを含み、
    前記第1の取得工程では、解析対象の核酸配列のリードデータを取得し、
    前記第2の取得工程では、検出対象の核酸配列のデータを取得し、
    前記検出工程では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、方法。
  15. 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるプログラムであって、
    前記プログラムは、コンピュータに、第1の取得処理と、第2の取得処理と、検出処理とを実行させ、
    前記第1の取得処理では、解析対象の核酸配列のリードデータを取得し、
    前記第2の取得処理では、検出対象の核酸配列のデータを取得し、
    前記検出処理では、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、プログラム。
  16. 請求項15記載のプログラムを記録していることを特徴とする、コンピュータ読み取り可能な記録媒体。
  17. 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いるシステムであって、
    端末と、サーバとを備え、
    前記端末と前記サーバとは、システム外の通信回線網を介して接続可能であり、
    前記端末および前記サーバの全体が、
    第1の取得部と、第2の取得部と、検出部とを備え、
    前記第1の取得部は、解析対象の核酸配列のリードデータを取得し、
    前記第2の取得部は、検出対象の核酸配列のデータを取得し、
    前記検出部は、前記解析対象の核酸配列のリードデータおよび前記検出対象の核酸配列のデータの少なくとも一方におけるk塩基長の核酸配列と、他方のデータの核酸配列とを照合して、前記他方のデータにおける前記k塩基長の核酸配列を検出することにより、前記解析対象の核酸配列における前記検出対象由来の核酸配列を検出する、システム。

JP2021017754A 2021-02-05 2021-02-05 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法 Pending JP2022120693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021017754A JP2022120693A (ja) 2021-02-05 2021-02-05 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021017754A JP2022120693A (ja) 2021-02-05 2021-02-05 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法

Publications (1)

Publication Number Publication Date
JP2022120693A true JP2022120693A (ja) 2022-08-18

Family

ID=82849151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021017754A Pending JP2022120693A (ja) 2021-02-05 2021-02-05 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法

Country Status (1)

Country Link
JP (1) JP2022120693A (ja)

Similar Documents

Publication Publication Date Title
Marchant et al. The C-Fern (Ceratopteris richardii) genome: insights into plant genome evolution with the first partial homosporous fern genome assembly
Su et al. Evolution of alternative splicing after gene duplication
KR102384620B1 (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
AU2021257920A1 (en) Variant classifier based on deep neural networks
Yang et al. Target SSR-Seq: a novel SSR genotyping technology associate with perfect SSRs in genetic analysis of cucumber varieties
Chang et al. Zebrafish transposable elements show extensive diversification in age, genomic distribution, and developmental expression
KR20150067161A (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
EP3405573A1 (en) Methods and systems for high fidelity sequencing
Liu et al. A comprehensive catalogue of regulatory variants in the cattle transcriptome
Costessi et al. Novel sequencing technologies to support industrial biotechnology
CN115083521A (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
Bredemeyer et al. Rapid macrosatellite evolution promotes X-linked hybrid male sterility in a feline interspecies cross
Wu et al. Dissecting the first phased dikaryotic genomes of the wheat rust pathogen Puccinia triticina reveals the mechanisms of somatic exchange in nature
US20050108781A1 (en) DNA to be introduced into biogenic gene, gene introducing vector, cell, method for introducing information into biogenic gene, apparatus and method for data processing, recording medium and program
Li et al. The pig pangenome provides insights into the roles of coding structural variations in genetic diversity and adaptation
Morgan-Richards et al. Sticky genomes: using NGS evidence to test hybrid speciation hypotheses
CN114566214B (zh) 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用
JP2022120693A (ja) 解析対象の核酸配列における検出対象由来の核酸配列の検出に用いる装置および方法
JPWO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
Sandler et al. Population genomics of the facultatively sexual liverwort Marchantia polymorpha
US20240287593A1 (en) Single-molecule strand-specific end modalities
CN113308557B (zh) 一种与鸭凤头性状相关的分子标记及其应用
Yu et al. The first homosporous lycophyte genome revealed the association between the dynamic accumulation of LTR-RTs and genome size variation
TW201920682A (zh) 多型之檢測方法
Feng et al. ResSeq: enhancing short-read sequencing alignment by rescuing error-containing reads

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210224

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220805

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230901