JP2024041040A

JP2024041040A - ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法

Info

Publication number: JP2024041040A
Application number: JP2023118768A
Authority: JP
Inventors: ▲陳▼勇; ▲陳▼毅▲強▼; ▲塗▼勇; ▲範▼▲亜▼民; 崔▲韜▼
Original assignee: Jiangsu Environmental Engineering Technology Co Ltd
Current assignee: Jiangsu Environmental Engineering Technology Co Ltd
Priority date: 2022-09-13
Filing date: 2023-07-21
Publication date: 2024-03-26
Also published as: CN115198036B; CN115198036A

Abstract

【課題】本願は、生物情報学の分野に関し、ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法を開示する。【解決手段】元のナノポア配列決定データとハイスループット配列決定データを組み合わせることにより、品質管理フィルタリングラインを設計して２通りの配列決定データに対してそれぞれ品質管理及びフィルタリングを行い、ハイブリッドアセンブリ後の配列においてファージ遺伝子の特徴モデルに基づいて潜在的なファージ配列を同定し、続いてデータベース中の既存の細菌ゲノムの備える特殊なスペーサー配列を抽出し、最後にデータベースから抽出される特殊なスペーサー配列と照合することにより、対応関係をマイニングし、ファージに対応する宿主関係を予測する。本発明は、ナノポア及びハイスループット配列決定データ中のファージ配列に対する効果的なマイニング及びファージ宿主の効果的な予測を実現しているため、普及と使用上は非常に重要な価値を有する。【選択図】図１

Description

本願は、生物情報学の技術分野に属し、具体的には、ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法に関する。

ファージは細菌に特異的に感染するウイルスの１種である。一方で、ファージは生態学的に重要な意味を有しており、ファージは細菌を溶解することで、細菌の個体数を調整できる。他方で、ファージは重要な潜在的使用価値を有しており、ファージは病原性細菌の増殖を正確に制御することで、抗生物質の大量使用による広範な薬剤耐性を避けることができる。汚水処理分野では、好ましくない細菌の制御へのファージの使用が見込まれる。

既存の関連技術では、ファージの同定及び宿主予測に関して、中国特許出願第ＣＮ２０１９１０５０６０２７．０号で出願日が２０１９年６月１２日である特許出願書類では、ハイスループット配列決定データに基づく溶原性ファージの予測方法が開示され、これは細菌ゲノム中の溶原性ファージに対する効果的な予測を実現している。しかし当該発明は、遊離ファージの同定及び宿主予測方法を考慮していないだけでなく、ナノポア配列決定データによるファージの分析方法に関わらない。中国特許出願第ＣＮ２０１９１１１１０２５０．Ｘ号で出願日が２０１９年１１月１４日である特許出願書類では、ファージ宿主スペクトルのハイスループットスクリーニング方法が開示され、これは１人が２日間作業するだけでファージの宿主同定を完了できる。しかし当該発明では、ハイスループット配列決定データではなく、主に従来の生物学的培養を利用し、また当該ファージの宿主同定方法は依然として時間がかかる。中国特許出願第ＣＮ２０２０１０２４１６５３．４号で出願日が２０２０年３月３１日である特許出願書類では、細菌中の機能的プロファージ及びその位置と配列の検出方法が開示され、これは細菌中の機能的プロファージ及びその位置と配列を検出できる。しかし当該発明は、ファージゲノムの配列決定データではなく、細菌ゲノムを利用し、またハイスループット配列決定データ中のファージ情報のマイニングだけを考慮している。

以上から分かるように、従来のファージ同定方法は生物学的培養を利用し、手間暇がかかり、非常に非効率的であり、環境サンプル中のファージ情報を迅速に取得することは難しく、しかもファージと複数の宿主の感染関係を同時に確立することは非常に難しい。また、ゲノム配列決定技術の迅速な発展に伴い、第３世代の配列決定技術であるナノポア配列決定技術は世界で普及しつつあり、現在、ナノポア配列決定データに対するファージ同定及び宿主予測方法は非常に不足している。

中国特許出願ＣＮ２０１９１０５０６０２７．０号中国特許出願ＣＮ２０２０１０２４１６５３．４号

本願は、ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法を提供し、前記従来技術における関連の課題及び欠点を解決し、当該方法は、ナノポア配列決定データ及びハイスループット配列決定データの分析上の要件を同時に満たすことができ、配列決定データ中のファージ配列を正確に同定し、ファージと宿主の対応関係を予測することができる。

本願の第１態様によって提供されるナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法は、被検ＤＮＡサンプルの中から元のナノポア配列決定データ及び元のハイスループット配列決定データを取得し、続いてファージ同定及び宿主予測を行い、
Ｓ１：第１品質値フィルタリングパラメータを設定し、元のナノポア配列決定データから平均品質値が第１品質値フィルタリングパラメータより低い配列を除去して、フィルタリング後のナノポア配列を得るステップと、
Ｓ２：フィルタリング後のナノポア配列に対して長さ分析を行い、第１配列長パラメータを設定し、配列長が前記第１配列長パラメータより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得るステップと、
Ｓ３：元のハイスループット配列決定データのうちリンカーを含有する配列を除去して、フィルタリング後のハイスループット配列決定データを得るステップと、
Ｓ４：フィルタリング後のハイスループット配列決定データのうちＮ含有量が１０％を超える配列を除去し、第２品質値フィルタリングパラメータを設定し、除去後のハイスループット配列のうち５０％を超える塩基品質値が前記第２品質値フィルタリングパラメータより低い配列をさらに除去して、品質管理フィルタリング後のハイスループット短配列を得るステップと、
Ｓ５：品質管理フィルタリング後のナノポア長配列と品質管理フィルタリング後のハイスループット短配列をハイブリッドアセンブリし、スプライシングして被同定ファージ配列情報を得て、第２配列長パラメータを設定し、スプライシング後の配列長が前記第２配列長パラメータより小さい短配列を除去して、ハイブリッドアセンブリ後のファージ配列を得るステップと、
Ｓ６：ハイブリッドアセンブリ後のファージ配列に対して遺伝子予測を行って、被予測配列の遺伝子特徴情報を得るステップと、
Ｓ７：被予測配列の遺伝子特徴情報をファージ遺伝子特徴情報を含む第１タイプのデータベース、及び細菌遺伝子特徴情報を含む第２タイプのデータベースと照合して、対応する照合状況データをそれぞれ取得するステップと、
Ｓ８：前記照合状況データに対して集計及び判定を行うステップであって、
被予測配列の遺伝子特徴情報のうち、第１タイプのデータベースにマッチングする遺伝子数の占める割合が配列の遺伝子総量の６０％より大きく又は等しい場合、又は第１タイプのデータベースにマッチングする遺伝子数が、第２タイプのデータベースにマッチングする遺伝子数より大きく又は等しい場合、又は第１タイプのデータベースにマッチングする遺伝子数の占める割合が１０％より大きく又は等しく、且つ第２タイプのデータベースにマッチングする遺伝子数の占める割合が４０％より小さく又は等しい場合、前記被予測配列をファージ配列として同定するステップと、
Ｓ９：全ての細菌ゲノム配列情報を含有するデータベースをダウンロードし、その中から既存の細菌ゲノム配列中の特殊なスペーサー配列を抽出するステップと、
Ｓ１０：ステップＳ８で同定されたファージ配列をステップＳ９で抽出された特殊なスペーサー配列と照合して、予測されるファージ宿主情報を取得するステップとを含む。

任意に、本方法に記載の品質値フィルタリングパラメータは塩基品質値Ｑであり、第１品質値フィルタリングパラメータはＱ７であり、第２品質値フィルタリングパラメータはＱ５である。

任意に、本方法では、第１配列長パラメータを１０００ｂｐと、第２配列長パラメータを５０００ｂｐと設定する。

任意に、ステップＳ７では、前記第１タイプのデータベースはＶＰＦデータベースであり、前記第２タイプのデータベースはＰｆａｍデータベース、ＫＥＧＧデータベースのうちのいずれか一方又は両方であり、ステップＳ８では、前記照合状況データに対して集計及び判定を行うことは、被予測配列の遺伝子特徴情報のうち、ＶＰＦデータベースにマッチングする遺伝子数が配列の遺伝子総量の６０％より大きく又は等しい場合、当該配列をファージ配列として同定し、又は、ＶＰＦデータベースにマッチングする遺伝子数がＰｆａｍデータベースにマッチングする遺伝子数より大きく又は等しい場合、当該配列をファージ配列として同定し、又は、ＶＰＦデータベースにマッチングする遺伝子数が配列の遺伝子総量の１０％より大きく又は等しく、且つＰｆａｍデータベースにマッチングする遺伝子数が配列の遺伝子総量の４０％より小さく又は等しく、且つＫＥＧＧデータベースにマッチングする遺伝子数が配列の遺伝子総量の２０％より小さく又は等しい場合、当該配列をファージ配列として同定することを含む。

任意に、ステップＳ９では、前記全ての細菌ゲノム配列情報を含有するデータベースはＮＣＢＩデータベースである。

任意に、ステップＳ１０では、Ｂｌａｓｔソフトウェアを利用してステップＳ８で同定されたファージ配列をステップＳ９で抽出された特殊なスペーサー配列と照合し、照合で用いるパラメータは、カバレッジ(coverage)９０％、一致度９７％、エラー数１を含む。

本願の第２態様は、環境媒体サンプルの微生物分析における前記ファージ同定及び宿主予測方法の使用を提供する。

以上から分かるように、本願の方法は最新の第３世代ナノポア配列決定データ及び現在普及されている第２世代ハイスループット配列決定データを同時に処理することができ、生物学的培養を行わずにファージの宿主関係を迅速かつ正確に大規模で予測することができ、ナノポア及びハイスループット配列決定データ中のファージ配列に対する効果的なマイニング及びファージ宿主の効果的な予測を実現できるため、普及と使用上は非常に重要な価値を有する。従来技術と比べて、本願の方法で得られる有益な効果は、具体的には以下のことを含む。
（１）本発明は、ナノポア配列決定データ及びハイスループット配列決定データの両方に対するファージ同定及び宿主予測方法であり、ナノポア配列決定データはゲノム長がより長く、より完全なファージを同定するために役立ち、ハイスループット配列決定データはゲノムの正確度がより高いファージを同定するために役立ち、両方のデータを利用するために同定されたファージはこの２つの利点を兼ね備える。

（２）本発明のファージ同定及び宿主予測方法はプロファージゲノムの配列決定データだけでなく、遊離ファージゲノムの配列決定データにも利用できる。適用範囲がより広く、同定されたファージ数はより多く、構築されたファージデータベースはより全面的である。

（３）生物学的培養によりファージ宿主を同定する従来の方法と比べて、本発明は環境サンプルから迅速に、大規模でファージを同定し、ファージの宿主関係を正確に予測することができ、ファージ同定と宿主予測のプロセスを大幅に短縮することができ、計算資源が十分であれば、ソフトウェアツールを利用して並行処理により大量の環境サンプルのファージ同定と宿主予測のプロセスを同時に完了でき、且つ宿主予測の正確率は高い。ＮＣＢＩデータベースで宿主が知られるファージでテストしたところ、宿主予測の正確率は９０％以上に達する。

以下、本願の技術的解決手段をより明瞭に説明するために、実施例で使用する図面を簡単に紹介し、言うまでもないが、当業者は、新規性のある作業をせず、これらの図面から他の図面を得ることができる。
図１は、本願の実施例のファージ同定及び宿主予測方法のフローチャートである。図２は、本願の実施例で３つの条件を満たすためファージ配列として同定される数の分布図である。図３は、本願の実施例で宿主予測が硝酸菌である１件のファージのゲノム配置図である。図４は、本願の実施例で宿主予測が硝酸菌であるもう１件のファージのゲノム配置図である。図５は、本願の実施例で宿主予測が硝酸菌であるさらにもう１件のファージのゲノム配置図である。

以下、本願の上述した目的、特徴及び利点がより明瞭で分かりやすくなるよう、図面及び実施例を用いて本願を詳細に説明する。

本願は、ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法を提供し、被検サンプルに対してＤＮＡを抽出し、抽出された被検ＤＮＡサンプルの中から元のナノポア配列決定データ及び元のハイスループット配列決定データを取得し、次にファージ同定及び宿主予測を行う。

本願の方法のステップは、主にデータ品質管理、ファージ同定及び宿主予測を含む。具体的に言えば、即ち、ナノポア及びハイスループット配列決定データによる効率的な品質管理方法、ナノポア及びハイスループット配列決定データによる迅速なファージ同定方法、ナノポア及びハイスループット配列決定データによる正確なファージ宿主予測方法を含む。

本方法は、図１に示されるとおり、具体的には、以下のステップを含む。
Ｓ１：第１品質値フィルタリングパラメータを設定し、元のナノポア配列決定データから平均品質値が第１品質値フィルタリングパラメータより低い配列を除去して、フィルタリング後のナノポア配列を得る。

具体的には、ステップＳ１では、ナノポア配列決定データのうちの平均品質値に対して配列決定データのフィルタリングを行う。実際の作業では、１つの実施形態として、Ｑ値を品質値フィルタリングパラメータとして、平均品質値の低い配列決定データをフィルタリングしてもよい。Ｑ値とは塩基品質値（ｑｕａｌｉｔｙｓｃｏｒｅ、Ｑ－ｓｃｏｒｅ）であり、生物物理学では塩基呼び出しエラー確率の整数形式のマッピングであり、Ｑ＝－１０×ｌｇＰであり、ここで、Ｐは塩基呼び出しエラーの確率である。Ｑ値はナノポア配列決定プロセスにおいて自動的に同時に計算される品質値であり、塩基配列決定エラーの確率を表し、Ｑ値が高いほどエラー率は低く、配列決定の正確率は高い。例えば、本方法では、前記第１品質値フィルタリングパラメータとしてＱ５～Ｑ７を選択することができ、対応する配列決定の正確さは７０％～８０％である。Ｑ値が低い場合、アセンブリの効果に悪影響を与えるため、Ｑ値をフィルタリングして、平均品質値が所定のＱ値より低い配列を除去しなければならない。

Ｓ２：フィルタリング後のナノポア配列に対して長さ分析を行い、第１配列長パラメータを設定し、配列長が前記第１配列長パラメータより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得る。

具体的には、配列長について配列のスクリーニング及びフィルタリングを行い、第１配列長パラメータの具体的な値は、経験から又は実際の要件に応じて設定することができ、例えば、５００～１０００ｂｐと設定する。

Ｓ３：元のハイスループット配列決定データのうちリンカーを含有する配列を除去して、フィルタリング後のハイスループット配列決定データを得る。

具体的には、本ステップでは、リンカーは配列決定プロセスにおいて人工的に添加した短配列であり、その存在が後のアセンブリの効果に影響を与えるため、配列からリンカー断片を除去する必要がある。

Ｓ４：フィルタリング後のハイスループット配列決定データのうちＮ含有量が１０％を超える配列を除去し、第２品質値フィルタリングパラメータを設定し、除去後のハイスループット配列のうち５０％を超える塩基品質値が前記第２品質値フィルタリングパラメータより低い配列をさらに除去して、品質管理フィルタリング後のハイスループット短配列を得る。

具体的には、ステップＳ１と同様に、前記第２品質値フィルタリングパラメータは、塩基品質値であるＱ値で表示することができ、例えば、Ｑ５～Ｑ７と設定し、ここで、Ｑ５～Ｑ７を配列決定の正確さに換算すると約７０％～８０％である。

Ｓ５：品質管理フィルタリング後のナノポア長配列と品質管理フィルタリング後のハイスループット短配列をハイブリッドアセンブリし、スプライシングして被同定ファージ配列情報を得て、第２配列長パラメータを設定し、スプライシング後の配列長が前記第２配列長パラメータより小さい短配列を除去して、ハイブリッドアセンブリ後のファージ配列を得る。

具体的には、本ステップではハイブリッドアセンブリ後の配列に対して長さについてスクリーニング及びフィルタリングを行い、第２配列長パラメータの具体的な値は、経験から又は実際の要件に応じて設定することができ、例えば、５０００～１００００ｂｐと設定する。

Ｓ６：ハイブリッドアセンブリ後のファージ配列に対して遺伝子予測を行って、被予測配列の遺伝子特徴情報を得る。

Ｓ７：被予測配列の遺伝子特徴情報をファージ遺伝子特徴情報を含む第１タイプのデータベース、及び細菌遺伝子特徴情報を含む第２タイプのデータベースと照合して、対応する照合状況データをそれぞれ取得する。

具体的には、前記第１タイプのデータベースはファージ遺伝子特徴情報を含むデータベースであり、被予測配列の遺伝子特徴情報が当該タイプのデータベースに一致するほど、被予測配列はファージである可能性が高い。逆に、第２タイプのデータベースに含まれるのは細菌遺伝子特徴情報であり、被予測配列の遺伝子特徴情報が当該タイプのデータベースに一致するほど、被予測配列はファージではなく細菌である可能性が高い。各タイプのデータベースは複数存在してもよく、多く利用されている既存の各データベースから選択することができる。

Ｓ８：前記照合状況データに対して集計及び判定を行う。

被予測配列の遺伝子特徴情報のうち、第１タイプのデータベースにマッチングする遺伝子数の占める割合が配列の遺伝子総量の６０％より大きく又は等しい場合、又は第１タイプのデータベースにマッチングする遺伝子数が、第２タイプのデータベースにマッチングする遺伝子数より大きく又は等しい場合、又は第１タイプのデータベースにマッチングする遺伝子数の占める割合が１０％より大きく又は等しく、且つ第２タイプのデータベースにマッチングする遺伝子数の占める割合が４０％より小さく又は等しい場合、前記被予測配列をファージ配列として同定する。

具体的には、本願では３つの条件を設定し、前記３つの条件のいずれかを満たす配列であれば、ファージ配列と同定される。第１の条件は、被検配列の６０％以上の遺伝子特徴情報が、第１タイプのデータベース（即ち、ファージ遺伝子特徴情報を含むデータベース）にマッチングすれば、ファージ配列と見なすことを表す。同様に、第２の条件とは、被検配列のうち、ファージ遺伝子特徴情報を含むデータベースにマッチングする遺伝子数が、細菌遺伝子特徴情報を含むデータベースにマッチングする遺伝子数より大きく又は等しい場合、ファージ配列と見なすことを指す。そのように、第３の条件は、被検配列の１０％以上の遺伝子特徴情報が第１タイプのデータベース（即ち、ファージ遺伝子特徴情報を含むデータベース）にマッチングし、且つ４０％以下の遺伝子特徴情報だけが第２タイプのデータベース（即ち、細菌遺伝子特徴情報を含むデータベース）にマッチングすれば、当該配列は細菌である可能性が低いことが示され、条件に適合する配列はファージ配列と判定される。

照合状況データを判断する時には、前記３つの条件のいずれかを満たす配列であれば、ファージ配列と同定される。実際に作業する時には、照合配列が前記条件に適合するかどうかを順次判断して、前記３つの条件を満たす３組の配列を得れば、ファージ配列と同定し、次にファージと同定される当該３組の配列に対して集計し、３組から重複する配列を除去することにより、サンプル中のファージ配列を同定するようにしてもよい。

Ｓ９：全ての細菌ゲノム配列情報を含有するデータベースをダウンロードし、その中から既存の細菌ゲノム配列中の特殊なスペーサー配列を抽出する。

具体的には、本ステップでは、ダウンロードする前記データベースは全ての細菌ゲノム配列情報を含有するデータベースであり、本技術分野関連の多く利用されている、細菌ゲノム配列情報が最も全面的なデータベースの中から選択することができ、例えば、ＮＣＢＩデータベースを選択できる。データベース中の特殊なスペーサー配列断片は細菌がファージ感染を防御する時に切り出したファージ配列断片を記録しており、ファージと宿主の感染関係情報を含んでいる。

Ｓ１０：ステップＳ８で同定されたファージ配列をステップＳ９で抽出された特殊なスペーサー配列と照合し、予測されるファージ宿主情報を得る。

前記ステップから分かるように、本願によって提供されるナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法は、元のナノポア配列決定データとハイスループット配列決定データを組み合わせることにより、品質管理フィルタリングラインを設計して２通りの配列決定データに対してそれぞれ品質管理及びフィルタリングを行い、ハイブリッドアセンブリ後の配列においてファージ遺伝子の特徴モデルに基づいて潜在的なファージ配列を同定し、続いてデータベース中の既存の細菌ゲノムの備える特殊なスペーサー配列を抽出し、最後にデータベースから抽出される特殊なスペーサー配列と照合することにより、対応関係をマイニングし、ファージに対応する宿主関係を予測する。本発明は、ナノポア及びハイスループット配列決定データ中のファージ配列に対する効果的なマイニング及びファージ宿主の効果的な予測を実現できるため、普及と使用上は非常に重要な価値を有する。

好ましくは、本願の実施例に記載の品質値フィルタリングパラメータは塩基品質値Ｑであり、第１品質値フィルタリングパラメータはＱ７であり、第２品質値フィルタリングパラメータはＱ５である。

具体的には、Ｑ５を配列決定の正確さに換算すると約７０％であり、Ｑ７を配列決定の正確さに換算すると約８０％である。

好ましくは、本願の実施例で第１配列長パラメータを１０００ｂｐと、第２配列長パラメータを５０００ｂｐと設定する。

好ましくは、ステップＳ７では、前記第１タイプのデータベースはＶＰＦデータベースであり、前記第２タイプのデータベースはＰｆａｍデータベース、ＫＥＧＧデータベースのうちのいずれか一方又は両方であり、ステップＳ８では、前記照合状況データに対して集計及び判定を行うことは、被予測配列の遺伝子特徴情報のうち、ＶＰＦデータベースにマッチングする遺伝子数が配列の遺伝子総量の６０％より大きく又は等しい場合、当該配列をファージ配列と判定し、又は、ＶＰＦデータベースにマッチングする遺伝子数がＰｆａｍデータベースにマッチングする遺伝子数より大きく又は等しい場合、当該配列をファージ配列と判定し、又は、ＶＰＦデータベースにマッチングする遺伝子数が配列の遺伝子総量の１０％より大きく又は等しく、且つＰｆａｍデータベースにマッチングする遺伝子数が配列の遺伝子総量の４０％より小さく又は等しく、且つＫＥＧＧデータベースにマッチングする遺伝子数が配列の遺伝子総量の２０％より小さく又は等しい場合、当該配列をファージ配列として同定することを含む。

具体的には、本ステップでは、Ｐｆａｍデータベースは主に細菌遺伝子特徴情報を含み、被予測配列の遺伝子特徴情報が当該タイプのデータベースに一致するほど、被予測配列はファージではなく細菌である可能性が高く、Ｐｆａｍデータベースと照合することで当該配列は潜在的な細菌配列である可能性を判断できる。ＫＥＧＧデータベースはもう１つの、主に細菌遺伝子特徴情報を含むデータベースであり、ＫＥＧＧデータベースと照合することで当該配列は潜在的な細菌配列である可能性を一層判断することができる。ＶＰＦデータベースは主にファージ遺伝子特徴情報を含むデータベースであり、ここでＶＰＦとはＶｉｒａｌＰｒｏｔｅｉｎＦａｍｉｌｉｅｓ（ＶＰＦｓ）を指し、ＶＰＦデータベースはＶＰＦｓ情報を含有するデータベースを表す。より具体的な一実施形態として、ＶＰＦデータベースはＩＭＧ／ＶＲデータベースに由来し、加工処理を経て生成されたｈｍｍｅｒ照合に利用できるデータベースファイルである。被予測配列の遺伝子特徴情報が当該データベースに一致するほど、被予測配列はファージである可能性が高く、ＶＰＦデータベースと照合することで当該配列は潜在的なファージ配列である可能性を一層判断することができる。

好ましくは、ステップＳ９では、前記全ての細菌ゲノム配列情報を含有するデータベースはＮＣＢＩデータベースである。

具体的には、本ステップでは、ＮＣＢＩデータベース（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ）は現在世界で規模が最大な細菌ゲノムデータベースであり、当該データベースからは全面的かつ完全な細菌ゲノム配列情報を取得できる。

好ましくは、ステップＳ１０では、Ｂｌａｓｔソフトウェアを利用してステップＳ８で同定されたファージ配列をステップＳ９で抽出された特殊なスペーサー配列と照合し、照合で用いるパラメータは、カバレッジ９０％、一致度９７％、エラー数１を含む。

具体的には、Ｂｌａｓｔの全称はＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌであり、即ち、基本的局所的な配列照合アルゴリズムによる検索ツールであり、アメリカ国立生物工学情報センター（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ、ＮＣＢＩ）によって開発・管理される生体高分子の一次構造配列照合プログラムである。本願の方法を実際に実施する時には、Ｂｌａｓｔを用いて照合してもよく、用いる各パラメータとして、カバレッジ９０％、一致度９７％、エラー数１と設定する。

なお、本願の方法を実際に実行する時には、生物情報学関連の分野の様々なソフトウェアを作業に加えて実施することができ、本分野で多く利用されている生物学的ソフトウェアツールを含み、例えば、ＮａｎｏＰｌｏｔ、ＮａｎｏＦｉｌｔを用いて長さ分析及び短配列の除去を行い、ＯＰＥＲＡ－ＭＳを用いて配列のハイブリッドアセンブリを行うなどであり、ここでは一つずつ列挙しない。また、自らプログラミングするコンピュータプログラムを用いて方法の特定の実施を行うと限定せず、ここでは詳細な説明を省略する。

本願の実施例は、また、環境媒体サンプルの微生物分析における前記ファージ同定及び宿主予測方法の使用を提供する。

具体的には、前記環境媒体サンプルは、水処理技術分野の対象とる汚水、汚泥サンプルを含み、ただしそれらに限定されない。これらのサンプル中の微生物を分析することにより、汚水又は汚泥サンプル中のファージの状況を判断し、予測されるファージ宿主情報を利用して、汚水系におけるファージ及びその宿主の環境生態学的機能を分析する。

以下、特定の応用例を用いて、本方法の特定の作業について一層説明する。

（実施例１）
５つの汚水サンプルから通常の前処理及びＤＮＡ抽出配列決定ステップにより５０Ｇｂのナノポア配列決定データ及び１００Ｇｂのハイスループット配列決定データを取得する。

本実施例は、下記のステップで行う。
ステップ１０１：ＮａｎｏＦｉｌｔソフトウェアを用いて、５０Ｇｂのナノポア配列決定データから平均品質値がＱ７より低い配列を除去する。

ステップ１０２：ステップ１０１でフィルタリングしたナノポア配列に対してＮａｎｏＰｌｏｔを用いて長さ分析を行い、ＮａｎｏＦｉｌｔを用いて長さが１０００ｂｐより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得る。

ステップ１０３：１００Ｇｂのハイスループット配列決定データのうちリンカーを含有する配列をｃｕｔａｄａｐｔを用いて除去する。

ステップ１０４：ステップ１０３でフィルタリングしたハイスループット配列決定データのうちＮ含有量が１０％を超える配列をｆａｓｔｐを用いて除去し、除去後のハイスループット配列のうち５０％を超える塩基品質値がＱ５より低い配列をｆａｓｔｐを用いて除去して、品質管理フィルタリング後のハイスループット短配列を得る。

ステップ１０５：ステップ１０２の品質管理フィルタリング後のナノポア長配列及びステップ１０４の品質管理フィルタリング後のハイスループット短配列に対してＯＰＥＲＡ－ＭＳを用いてハイブリッドアセンブリを行って、スプライシングして被同定ファージ配列情報を得て、ｓｅｑｋｉｔを用いてスプライシング後の長さが５０００ｂｐより小さい配列を除去することにより、ハイブリッドアセンブリ後のファージ配列を得る。

ステップ１０６：ステップ１０５で得たハイブリッドアセンブリ後のファージ配列に対してＰｒｏｄｉｇａｌを用いて遺伝子予測を行って、配列の各遺伝子の特徴機能情報、即ち遺伝子特徴情報を得る。

ステップ１０７：ｈｍｍｓｅａｒｃｈを用いて、ステップ１０６で取得した遺伝子特徴情報をＰｆａｍデータベースと照合し、Ｐｆａｍデータベースは主に細菌遺伝子特徴情報を含み、Ｐｆａｍデータベースと照合することで当該配列は潜在的な細菌配列である可能性を判断でき、
ｄｉａｍｏｎｄを用いて、ステップ１０６で取得した遺伝子特徴情報をＫＥＧＧデータベースと照合し、ＫＥＧＧデータベースはもう１つの、主に細菌遺伝子特徴情報を含むデータベースであり、ＫＥＧＧデータベースと照合することで当該配列は潜在的な細菌配列である可能性を一層判断することができ、
ｈｍｍｓｅａｒｃｈを用いて、ステップ１０６で取得した遺伝子特徴情報をＶＰＦデータベースと照合し、ＶＰＦデータベースは主にファージ遺伝子特徴情報を含むデータベースであり、ＶＰＦデータベースと照合することで当該配列は潜在的なファージ配列である可能性を一層判断することができる。

ステップ１０８：ステップ１０７で取得した照合状況を集計する。

ＶＰＦにマッチングする遺伝子数が配列の遺伝子総量の６０％より大きく又は等しい場合、当該配列はファージ配列と同定され、本実施例では当該条件に適合するファージが合計で３６９９件同定され、
ＶＰＦにマッチングする遺伝子数がＰｆａｍにマッチングする遺伝子数より大きく又は等しい場合、当該配列はファージ配列と同定され、本実施例では当該条件に適合するファージが合計で３０７８１件同定され、
ＫＥＧＧにマッチングする遺伝子数が配列の遺伝子総量の２０％より小さく又は等しく、且つＰｆａｍにマッチングする遺伝子数が配列の遺伝子総量の４０％より小さく又は等しく、且つＶＰＦにマッチングする遺伝子数が配列の遺伝子総量の１０％より大きく又は等しい場合、当該配列はファージ配列と同定される。本実施例では当該条件に適合するファージが合計で１７６９０件同定される。

図２に示されるとおり、前記３つの条件を満たすファージを集計し、重複配列を除去する。本実施例では合計で４４２７０件のファージ配列が同定され、そのうち６９１件がプロファージであり、４３５７９件が遊離ファージである。

ステップ１０９：ＮＣＢＩデータベースに含まれる全ての細菌ゲノム配列情報をダウンロードし、ＣＲＳＩＰＲＤｅｔｅｃｔを用いてＮＣＢＩＲｅｆｓｅｑＶ９１データベース中の既存の細菌ゲノム配列中の特殊なスペーサー配列断片を抽出する。

ステップ１１０：Ｂｌａｓｔを用いて、ステップ１０８で同定された４４２７０件のファージ配列をステップ１０９で抽出された特殊なスペーサー配列と照合し、用いるパラメータはカバレッジ９０％、一致度９７％、エラー数１であり、ファージの宿主情報を予測する。

結果は、そのうち３２６件のファージの宿主はマイコバクテリアと予測され、３件のファージの宿主は硝酸菌と予測されることを示す。図３～図５は、宿主が硝酸菌である３件のファージのゲノム配置図を示す。図３に示されているファージの長さは約１４０ｋｂｐであり、三者のうちｔＲＮＡ遺伝子を含有するファージはこれだけである。図４のファージの長さは約４５ｋｂｐであり、図５のファージの長さは約３５ｋｂｐである。３件のファージのコード遺伝子領域は仮想タンパク質を主とする。

下表は、ＮＣＢＩＲｅｆｓｅｑＶ９１バージョンのデータベースによる感染関係のテスト結果を示す。

結果は、照合方法で用いるパラメータがカバレッジ９０％、一致度９７％、エラー数１である時に、宿主予測の正確さは９３％に達することを示す。

上記で特定の実施形態及び例示的な例を用いて本願を詳細に説明しているが、これらの説明は本願に対する限定ではない。本願の趣旨及び範囲を逸脱しない限り、本願の技術的解決手段及びその実施形態に様々な等価な置換、修正又は改良を行うことができ、これらが本願の範囲に入るということは当業者に理解されるだろう。本願の請求範囲は、添付される特許請求の範囲に準拠する。

Claims

ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法であって、被検ＤＮＡサンプルの中から元のナノポア配列決定データ及び元のハイスループット配列決定データを取得し、続いてファージ同定及び宿主予測を行い、前記被検ＤＮＡサンプルは環境媒体サンプルであり、前記環境媒体サンプルは汚水、汚泥サンプルを含み、
Ｓ１：第１品質値フィルタリングパラメータを設定し、元のナノポア配列決定データから平均品質値が第１品質値フィルタリングパラメータより低い配列を除去して、フィルタリング後のナノポア配列を得るステップであって、品質値フィルタリングパラメータは塩基品質値Ｑであり、第１品質値フィルタリングパラメータはＱ７であるステップと、
Ｓ２：フィルタリング後のナノポア配列に対して長さ分析を行い、第１配列長パラメータを設定し、配列長が前記第１配列長パラメータより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得るステップであって、第１配列長パラメータは１０００ｂｐであるステップと、
Ｓ３：元のハイスループット配列決定データのうちリンカーを含有する配列を除去して、フィルタリング後のハイスループット配列決定データを得るステップと、
Ｓ４：フィルタリング後のハイスループット配列決定データのうちＮ含有量が１０％を超える配列を除去し、第２品質値フィルタリングパラメータを設定し、除去後のハイスループット配列のうち５０％を超える塩基品質値が前記第２品質値フィルタリングパラメータより低い配列をさらに除去して、品質管理フィルタリング後のハイスループット短配列を得るステップであって、第２品質値フィルタリングパラメータはＱ５であるステップと、
Ｓ５：品質管理フィルタリング後のナノポア長配列と品質管理フィルタリング後のハイスループット短配列をハイブリッドアセンブリし、スプライシングして被同定ファージ配列情報を得て、第２配列長パラメータを設定し、スプライシング後の配列長が前記第２配列長パラメータより小さい短配列を除去して、ハイブリッドアセンブリ後のファージ配列を得るステップであって、第２配列長パラメータは５０００ｂｐであるステップと、
Ｓ６：ハイブリッドアセンブリ後のファージ配列に対して遺伝子予測を行って、被予測配列の遺伝子特徴情報を得るステップと、
Ｓ７：被予測配列の遺伝子特徴情報をファージ遺伝子特徴情報を含む第１タイプのデータベース、及び細菌遺伝子特徴情報を含む第２タイプのデータベースと照合して、対応する照合状況データをそれぞれ取得するステップであって、前記第１タイプのデータベースはＶＰＦデータベースであり、前記第２タイプのデータベースはＰｆａｍデータベース、ＫＥＧＧデータベースのうちのいずれか一方又は両方であるステップと、
Ｓ８：前記照合状況データに対して集計及び判定を行うステップであって、具体的には、
被予測配列の遺伝子特徴情報のうち、ＶＰＦデータベースにマッチングする遺伝子数が配列の遺伝子総量の６０％より大きく又は等しい場合、当該配列をファージ配列として同定し、
又は、ＶＰＦデータベースにマッチングする遺伝子数がＰｆａｍデータベースにマッチングする遺伝子数より大きく又は等しい場合、当該配列をファージ配列として同定し、
又は、ＶＰＦデータベースにマッチングする遺伝子数が配列の遺伝子総量の１０％より大きく又は等しく、且つＰｆａｍデータベースにマッチングする遺伝子数が配列の遺伝子総量の４０％より小さく又は等しく、且つＫＥＧＧデータベースにマッチングする遺伝子数が配列の遺伝子総量の２０％より小さく又は等しい場合、当該配列をファージ配列として同定するステップと、
Ｓ９：全ての細菌ゲノム配列情報を含有するデータベースをダウンロードし、その中から既存の細菌ゲノム配列中の特殊なスペーサー配列を抽出するステップであって、前記全ての細菌ゲノム配列情報を含有するデータベースはＮＣＢＩデータベースであるステップと、
Ｓ１０：Ｂｌａｓｔソフトウェアを利用してステップＳ８で同定されたファージ配列をステップＳ９で抽出された特殊なスペーサー配列と照合し、照合で用いるパラメータは、カバレッジ９０％、一致度９７％、エラー数１を含み、予測されるファージ宿主情報を取得するステップとを含むことを特徴とするファージ同定及び宿主予測方法。
環境媒体サンプルの微生物分析における請求項１に記載のファージ同定及び宿主予測方法の使用。