JP2024041040A - ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 - Google Patents

ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 Download PDF

Info

Publication number
JP2024041040A
JP2024041040A JP2023118768A JP2023118768A JP2024041040A JP 2024041040 A JP2024041040 A JP 2024041040A JP 2023118768 A JP2023118768 A JP 2023118768A JP 2023118768 A JP2023118768 A JP 2023118768A JP 2024041040 A JP2024041040 A JP 2024041040A
Authority
JP
Japan
Prior art keywords
sequence
phage
database
sequencing data
nanopore
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023118768A
Other languages
English (en)
Inventor
▲陳▼勇
▲陳▼毅▲強▼
▲塗▼勇
▲範▼▲亜▼民
崔▲韜▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Environmental Engineering Technology Co Ltd
Original Assignee
Jiangsu Environmental Engineering Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Environmental Engineering Technology Co Ltd filed Critical Jiangsu Environmental Engineering Technology Co Ltd
Publication of JP2024041040A publication Critical patent/JP2024041040A/ja
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Virology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】本願は、生物情報学の分野に関し、ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法を開示する。【解決手段】元のナノポア配列決定データとハイスループット配列決定データを組み合わせることにより、品質管理フィルタリングラインを設計して2通りの配列決定データに対してそれぞれ品質管理及びフィルタリングを行い、ハイブリッドアセンブリ後の配列においてファージ遺伝子の特徴モデルに基づいて潜在的なファージ配列を同定し、続いてデータベース中の既存の細菌ゲノムの備える特殊なスペーサー配列を抽出し、最後にデータベースから抽出される特殊なスペーサー配列と照合することにより、対応関係をマイニングし、ファージに対応する宿主関係を予測する。本発明は、ナノポア及びハイスループット配列決定データ中のファージ配列に対する効果的なマイニング及びファージ宿主の効果的な予測を実現しているため、普及と使用上は非常に重要な価値を有する。【選択図】図1

Description

本願は、生物情報学の技術分野に属し、具体的には、ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法に関する。
ファージは細菌に特異的に感染するウイルスの1種である。一方で、ファージは生態学的に重要な意味を有しており、ファージは細菌を溶解することで、細菌の個体数を調整できる。他方で、ファージは重要な潜在的使用価値を有しており、ファージは病原性細菌の増殖を正確に制御することで、抗生物質の大量使用による広範な薬剤耐性を避けることができる。汚水処理分野では、好ましくない細菌の制御へのファージの使用が見込まれる。
既存の関連技術では、ファージの同定及び宿主予測に関して、中国特許出願第CN201910506027.0号で出願日が2019年6月12日である特許出願書類では、ハイスループット配列決定データに基づく溶原性ファージの予測方法が開示され、これは細菌ゲノム中の溶原性ファージに対する効果的な予測を実現している。しかし当該発明は、遊離ファージの同定及び宿主予測方法を考慮していないだけでなく、ナノポア配列決定データによるファージの分析方法に関わらない。中国特許出願第CN201911110250.X号で出願日が2019年11月14日である特許出願書類では、ファージ宿主スペクトルのハイスループットスクリーニング方法が開示され、これは1人が2日間作業するだけでファージの宿主同定を完了できる。しかし当該発明では、ハイスループット配列決定データではなく、主に従来の生物学的培養を利用し、また当該ファージの宿主同定方法は依然として時間がかかる。中国特許出願第CN202010241653.4号で出願日が2020年3月31日である特許出願書類では、細菌中の機能的プロファージ及びその位置と配列の検出方法が開示され、これは細菌中の機能的プロファージ及びその位置と配列を検出できる。しかし当該発明は、ファージゲノムの配列決定データではなく、細菌ゲノムを利用し、またハイスループット配列決定データ中のファージ情報のマイニングだけを考慮している。
以上から分かるように、従来のファージ同定方法は生物学的培養を利用し、手間暇がかかり、非常に非効率的であり、環境サンプル中のファージ情報を迅速に取得することは難しく、しかもファージと複数の宿主の感染関係を同時に確立することは非常に難しい。また、ゲノム配列決定技術の迅速な発展に伴い、第3世代の配列決定技術であるナノポア配列決定技術は世界で普及しつつあり、現在、ナノポア配列決定データに対するファージ同定及び宿主予測方法は非常に不足している。
中国特許出願CN201910506027.0号 中国特許出願CN202010241653.4号
本願は、ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法を提供し、前記従来技術における関連の課題及び欠点を解決し、当該方法は、ナノポア配列決定データ及びハイスループット配列決定データの分析上の要件を同時に満たすことができ、配列決定データ中のファージ配列を正確に同定し、ファージと宿主の対応関係を予測することができる。
本願の第1態様によって提供されるナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法は、被検DNAサンプルの中から元のナノポア配列決定データ及び元のハイスループット配列決定データを取得し、続いてファージ同定及び宿主予測を行い、
S1:第1品質値フィルタリングパラメータを設定し、元のナノポア配列決定データから平均品質値が第1品質値フィルタリングパラメータより低い配列を除去して、フィルタリング後のナノポア配列を得るステップと、
S2:フィルタリング後のナノポア配列に対して長さ分析を行い、第1配列長パラメータを設定し、配列長が前記第1配列長パラメータより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得るステップと、
S3:元のハイスループット配列決定データのうちリンカーを含有する配列を除去して、フィルタリング後のハイスループット配列決定データを得るステップと、
S4:フィルタリング後のハイスループット配列決定データのうちN含有量が10%を超える配列を除去し、第2品質値フィルタリングパラメータを設定し、除去後のハイスループット配列のうち50%を超える塩基品質値が前記第2品質値フィルタリングパラメータより低い配列をさらに除去して、品質管理フィルタリング後のハイスループット短配列を得るステップと、
S5:品質管理フィルタリング後のナノポア長配列と品質管理フィルタリング後のハイスループット短配列をハイブリッドアセンブリし、スプライシングして被同定ファージ配列情報を得て、第2配列長パラメータを設定し、スプライシング後の配列長が前記第2配列長パラメータより小さい短配列を除去して、ハイブリッドアセンブリ後のファージ配列を得るステップと、
S6:ハイブリッドアセンブリ後のファージ配列に対して遺伝子予測を行って、被予測配列の遺伝子特徴情報を得るステップと、
S7:被予測配列の遺伝子特徴情報をファージ遺伝子特徴情報を含む第1タイプのデータベース、及び細菌遺伝子特徴情報を含む第2タイプのデータベースと照合して、対応する照合状況データをそれぞれ取得するステップと、
S8:前記照合状況データに対して集計及び判定を行うステップであって、
被予測配列の遺伝子特徴情報のうち、第1タイプのデータベースにマッチングする遺伝子数の占める割合が配列の遺伝子総量の60%より大きく又は等しい場合、又は第1タイプのデータベースにマッチングする遺伝子数が、第2タイプのデータベースにマッチングする遺伝子数より大きく又は等しい場合、又は第1タイプのデータベースにマッチングする遺伝子数の占める割合が10%より大きく又は等しく、且つ第2タイプのデータベースにマッチングする遺伝子数の占める割合が40%より小さく又は等しい場合、前記被予測配列をファージ配列として同定するステップと、
S9:全ての細菌ゲノム配列情報を含有するデータベースをダウンロードし、その中から既存の細菌ゲノム配列中の特殊なスペーサー配列を抽出するステップと、
S10:ステップS8で同定されたファージ配列をステップS9で抽出された特殊なスペーサー配列と照合して、予測されるファージ宿主情報を取得するステップとを含む。
任意に、本方法に記載の品質値フィルタリングパラメータは塩基品質値Qであり、第1品質値フィルタリングパラメータはQ7であり、第2品質値フィルタリングパラメータはQ5である。
任意に、本方法では、第1配列長パラメータを1000bpと、第2配列長パラメータを5000bpと設定する。
任意に、ステップS7では、前記第1タイプのデータベースはVPFデータベースであり、前記第2タイプのデータベースはPfamデータベース、KEGGデータベースのうちのいずれか一方又は両方であり、ステップS8では、前記照合状況データに対して集計及び判定を行うことは、被予測配列の遺伝子特徴情報のうち、VPFデータベースにマッチングする遺伝子数が配列の遺伝子総量の60%より大きく又は等しい場合、当該配列をファージ配列として同定し、又は、VPFデータベースにマッチングする遺伝子数がPfamデータベースにマッチングする遺伝子数より大きく又は等しい場合、当該配列をファージ配列として同定し、又は、VPFデータベースにマッチングする遺伝子数が配列の遺伝子総量の10%より大きく又は等しく、且つPfamデータベースにマッチングする遺伝子数が配列の遺伝子総量の40%より小さく又は等しく、且つKEGGデータベースにマッチングする遺伝子数が配列の遺伝子総量の20%より小さく又は等しい場合、当該配列をファージ配列として同定することを含む。
任意に、ステップS9では、前記全ての細菌ゲノム配列情報を含有するデータベースはNCBIデータベースである。
任意に、ステップS10では、Blastソフトウェアを利用してステップS8で同定されたファージ配列をステップS9で抽出された特殊なスペーサー配列と照合し、照合で用いるパラメータは、カバレッジ(coverage)90%、一致度97%、エラー数1を含む。
本願の第2態様は、環境媒体サンプルの微生物分析における前記ファージ同定及び宿主予測方法の使用を提供する。
以上から分かるように、本願の方法は最新の第3世代ナノポア配列決定データ及び現在普及されている第2世代ハイスループット配列決定データを同時に処理することができ、生物学的培養を行わずにファージの宿主関係を迅速かつ正確に大規模で予測することができ、ナノポア及びハイスループット配列決定データ中のファージ配列に対する効果的なマイニング及びファージ宿主の効果的な予測を実現できるため、普及と使用上は非常に重要な価値を有する。従来技術と比べて、本願の方法で得られる有益な効果は、具体的には以下のことを含む。
(1)本発明は、ナノポア配列決定データ及びハイスループット配列決定データの両方に対するファージ同定及び宿主予測方法であり、ナノポア配列決定データはゲノム長がより長く、より完全なファージを同定するために役立ち、ハイスループット配列決定データはゲノムの正確度がより高いファージを同定するために役立ち、両方のデータを利用するために同定されたファージはこの2つの利点を兼ね備える。
(2)本発明のファージ同定及び宿主予測方法はプロファージゲノムの配列決定データだけでなく、遊離ファージゲノムの配列決定データにも利用できる。適用範囲がより広く、同定されたファージ数はより多く、構築されたファージデータベースはより全面的である。
(3)生物学的培養によりファージ宿主を同定する従来の方法と比べて、本発明は環境サンプルから迅速に、大規模でファージを同定し、ファージの宿主関係を正確に予測することができ、ファージ同定と宿主予測のプロセスを大幅に短縮することができ、計算資源が十分であれば、ソフトウェアツールを利用して並行処理により大量の環境サンプルのファージ同定と宿主予測のプロセスを同時に完了でき、且つ宿主予測の正確率は高い。NCBIデータベースで宿主が知られるファージでテストしたところ、宿主予測の正確率は90%以上に達する。
以下、本願の技術的解決手段をより明瞭に説明するために、実施例で使用する図面を簡単に紹介し、言うまでもないが、当業者は、新規性のある作業をせず、これらの図面から他の図面を得ることができる。
図1は、本願の実施例のファージ同定及び宿主予測方法のフローチャートである。 図2は、本願の実施例で3つの条件を満たすためファージ配列として同定される数の分布図である。 図3は、本願の実施例で宿主予測が硝酸菌である1件のファージのゲノム配置図である。 図4は、本願の実施例で宿主予測が硝酸菌であるもう1件のファージのゲノム配置図である。 図5は、本願の実施例で宿主予測が硝酸菌であるさらにもう1件のファージのゲノム配置図である。
以下、本願の上述した目的、特徴及び利点がより明瞭で分かりやすくなるよう、図面及び実施例を用いて本願を詳細に説明する。
本願は、ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法を提供し、被検サンプルに対してDNAを抽出し、抽出された被検DNAサンプルの中から元のナノポア配列決定データ及び元のハイスループット配列決定データを取得し、次にファージ同定及び宿主予測を行う。
本願の方法のステップは、主にデータ品質管理、ファージ同定及び宿主予測を含む。具体的に言えば、即ち、ナノポア及びハイスループット配列決定データによる効率的な品質管理方法、ナノポア及びハイスループット配列決定データによる迅速なファージ同定方法、ナノポア及びハイスループット配列決定データによる正確なファージ宿主予測方法を含む。
本方法は、図1に示されるとおり、具体的には、以下のステップを含む。
S1:第1品質値フィルタリングパラメータを設定し、元のナノポア配列決定データから平均品質値が第1品質値フィルタリングパラメータより低い配列を除去して、フィルタリング後のナノポア配列を得る。
具体的には、ステップS1では、ナノポア配列決定データのうちの平均品質値に対して配列決定データのフィルタリングを行う。実際の作業では、1つの実施形態として、Q値を品質値フィルタリングパラメータとして、平均品質値の低い配列決定データをフィルタリングしてもよい。Q値とは塩基品質値(quality score、Q-score)であり、生物物理学では塩基呼び出しエラー確率の整数形式のマッピングであり、Q=-10×lgPであり、ここで、Pは塩基呼び出しエラーの確率である。Q値はナノポア配列決定プロセスにおいて自動的に同時に計算される品質値であり、塩基配列決定エラーの確率を表し、Q値が高いほどエラー率は低く、配列決定の正確率は高い。例えば、本方法では、前記第1品質値フィルタリングパラメータとしてQ5~Q7を選択することができ、対応する配列決定の正確さは70%~80%である。Q値が低い場合、アセンブリの効果に悪影響を与えるため、Q値をフィルタリングして、平均品質値が所定のQ値より低い配列を除去しなければならない。
S2:フィルタリング後のナノポア配列に対して長さ分析を行い、第1配列長パラメータを設定し、配列長が前記第1配列長パラメータより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得る。
具体的には、配列長について配列のスクリーニング及びフィルタリングを行い、第1配列長パラメータの具体的な値は、経験から又は実際の要件に応じて設定することができ、例えば、500~1000bpと設定する。
S3:元のハイスループット配列決定データのうちリンカーを含有する配列を除去して、フィルタリング後のハイスループット配列決定データを得る。
具体的には、本ステップでは、リンカーは配列決定プロセスにおいて人工的に添加した短配列であり、その存在が後のアセンブリの効果に影響を与えるため、配列からリンカー断片を除去する必要がある。
S4:フィルタリング後のハイスループット配列決定データのうちN含有量が10%を超える配列を除去し、第2品質値フィルタリングパラメータを設定し、除去後のハイスループット配列のうち50%を超える塩基品質値が前記第2品質値フィルタリングパラメータより低い配列をさらに除去して、品質管理フィルタリング後のハイスループット短配列を得る。
具体的には、ステップS1と同様に、前記第2品質値フィルタリングパラメータは、塩基品質値であるQ値で表示することができ、例えば、Q5~Q7と設定し、ここで、Q5~Q7を配列決定の正確さに換算すると約70%~80%である。
S5:品質管理フィルタリング後のナノポア長配列と品質管理フィルタリング後のハイスループット短配列をハイブリッドアセンブリし、スプライシングして被同定ファージ配列情報を得て、第2配列長パラメータを設定し、スプライシング後の配列長が前記第2配列長パラメータより小さい短配列を除去して、ハイブリッドアセンブリ後のファージ配列を得る。
具体的には、本ステップではハイブリッドアセンブリ後の配列に対して長さについてスクリーニング及びフィルタリングを行い、第2配列長パラメータの具体的な値は、経験から又は実際の要件に応じて設定することができ、例えば、5000~10000bpと設定する。
S6:ハイブリッドアセンブリ後のファージ配列に対して遺伝子予測を行って、被予測配列の遺伝子特徴情報を得る。
S7:被予測配列の遺伝子特徴情報をファージ遺伝子特徴情報を含む第1タイプのデータベース、及び細菌遺伝子特徴情報を含む第2タイプのデータベースと照合して、対応する照合状況データをそれぞれ取得する。
具体的には、前記第1タイプのデータベースはファージ遺伝子特徴情報を含むデータベースであり、被予測配列の遺伝子特徴情報が当該タイプのデータベースに一致するほど、被予測配列はファージである可能性が高い。逆に、第2タイプのデータベースに含まれるのは細菌遺伝子特徴情報であり、被予測配列の遺伝子特徴情報が当該タイプのデータベースに一致するほど、被予測配列はファージではなく細菌である可能性が高い。各タイプのデータベースは複数存在してもよく、多く利用されている既存の各データベースから選択することができる。
S8:前記照合状況データに対して集計及び判定を行う。
被予測配列の遺伝子特徴情報のうち、第1タイプのデータベースにマッチングする遺伝子数の占める割合が配列の遺伝子総量の60%より大きく又は等しい場合、又は第1タイプのデータベースにマッチングする遺伝子数が、第2タイプのデータベースにマッチングする遺伝子数より大きく又は等しい場合、又は第1タイプのデータベースにマッチングする遺伝子数の占める割合が10%より大きく又は等しく、且つ第2タイプのデータベースにマッチングする遺伝子数の占める割合が40%より小さく又は等しい場合、前記被予測配列をファージ配列として同定する。
具体的には、本願では3つの条件を設定し、前記3つの条件のいずれかを満たす配列であれば、ファージ配列と同定される。第1の条件は、被検配列の60%以上の遺伝子特徴情報が、第1タイプのデータベース(即ち、ファージ遺伝子特徴情報を含むデータベース)にマッチングすれば、ファージ配列と見なすことを表す。同様に、第2の条件とは、被検配列のうち、ファージ遺伝子特徴情報を含むデータベースにマッチングする遺伝子数が、細菌遺伝子特徴情報を含むデータベースにマッチングする遺伝子数より大きく又は等しい場合、ファージ配列と見なすことを指す。そのように、第3の条件は、被検配列の10%以上の遺伝子特徴情報が第1タイプのデータベース(即ち、ファージ遺伝子特徴情報を含むデータベース)にマッチングし、且つ40%以下の遺伝子特徴情報だけが第2タイプのデータベース(即ち、細菌遺伝子特徴情報を含むデータベース)にマッチングすれば、当該配列は細菌である可能性が低いことが示され、条件に適合する配列はファージ配列と判定される。
照合状況データを判断する時には、前記3つの条件のいずれかを満たす配列であれば、ファージ配列と同定される。実際に作業する時には、照合配列が前記条件に適合するかどうかを順次判断して、前記3つの条件を満たす3組の配列を得れば、ファージ配列と同定し、次にファージと同定される当該3組の配列に対して集計し、3組から重複する配列を除去することにより、サンプル中のファージ配列を同定するようにしてもよい。
S9:全ての細菌ゲノム配列情報を含有するデータベースをダウンロードし、その中から既存の細菌ゲノム配列中の特殊なスペーサー配列を抽出する。
具体的には、本ステップでは、ダウンロードする前記データベースは全ての細菌ゲノム配列情報を含有するデータベースであり、本技術分野関連の多く利用されている、細菌ゲノム配列情報が最も全面的なデータベースの中から選択することができ、例えば、NCBIデータベースを選択できる。データベース中の特殊なスペーサー配列断片は細菌がファージ感染を防御する時に切り出したファージ配列断片を記録しており、ファージと宿主の感染関係情報を含んでいる。
S10:ステップS8で同定されたファージ配列をステップS9で抽出された特殊なスペーサー配列と照合し、予測されるファージ宿主情報を得る。
前記ステップから分かるように、本願によって提供されるナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法は、元のナノポア配列決定データとハイスループット配列決定データを組み合わせることにより、品質管理フィルタリングラインを設計して2通りの配列決定データに対してそれぞれ品質管理及びフィルタリングを行い、ハイブリッドアセンブリ後の配列においてファージ遺伝子の特徴モデルに基づいて潜在的なファージ配列を同定し、続いてデータベース中の既存の細菌ゲノムの備える特殊なスペーサー配列を抽出し、最後にデータベースから抽出される特殊なスペーサー配列と照合することにより、対応関係をマイニングし、ファージに対応する宿主関係を予測する。本発明は、ナノポア及びハイスループット配列決定データ中のファージ配列に対する効果的なマイニング及びファージ宿主の効果的な予測を実現できるため、普及と使用上は非常に重要な価値を有する。
好ましくは、本願の実施例に記載の品質値フィルタリングパラメータは塩基品質値Qであり、第1品質値フィルタリングパラメータはQ7であり、第2品質値フィルタリングパラメータはQ5である。
具体的には、Q5を配列決定の正確さに換算すると約70%であり、Q7を配列決定の正確さに換算すると約80%である。
好ましくは、本願の実施例で第1配列長パラメータを1000bpと、第2配列長パラメータを5000bpと設定する。
好ましくは、ステップS7では、前記第1タイプのデータベースはVPFデータベースであり、前記第2タイプのデータベースはPfamデータベース、KEGGデータベースのうちのいずれか一方又は両方であり、ステップS8では、前記照合状況データに対して集計及び判定を行うことは、被予測配列の遺伝子特徴情報のうち、VPFデータベースにマッチングする遺伝子数が配列の遺伝子総量の60%より大きく又は等しい場合、当該配列をファージ配列と判定し、又は、VPFデータベースにマッチングする遺伝子数がPfamデータベースにマッチングする遺伝子数より大きく又は等しい場合、当該配列をファージ配列と判定し、又は、VPFデータベースにマッチングする遺伝子数が配列の遺伝子総量の10%より大きく又は等しく、且つPfamデータベースにマッチングする遺伝子数が配列の遺伝子総量の40%より小さく又は等しく、且つKEGGデータベースにマッチングする遺伝子数が配列の遺伝子総量の20%より小さく又は等しい場合、当該配列をファージ配列として同定することを含む。
具体的には、本ステップでは、Pfamデータベースは主に細菌遺伝子特徴情報を含み、被予測配列の遺伝子特徴情報が当該タイプのデータベースに一致するほど、被予測配列はファージではなく細菌である可能性が高く、Pfamデータベースと照合することで当該配列は潜在的な細菌配列である可能性を判断できる。KEGGデータベースはもう1つの、主に細菌遺伝子特徴情報を含むデータベースであり、KEGGデータベースと照合することで当該配列は潜在的な細菌配列である可能性を一層判断することができる。VPFデータベースは主にファージ遺伝子特徴情報を含むデータベースであり、ここでVPFとはViral Protein Families(VPFs)を指し、VPFデータベースはVPFs情報を含有するデータベースを表す。より具体的な一実施形態として、VPFデータベースはIMG/VRデータベースに由来し、加工処理を経て生成されたhmmer照合に利用できるデータベースファイルである。被予測配列の遺伝子特徴情報が当該データベースに一致するほど、被予測配列はファージである可能性が高く、VPFデータベースと照合することで当該配列は潜在的なファージ配列である可能性を一層判断することができる。
好ましくは、ステップS9では、前記全ての細菌ゲノム配列情報を含有するデータベースはNCBIデータベースである。
具体的には、本ステップでは、NCBIデータベース(National Center for Biotechnology Information)は現在世界で規模が最大な細菌ゲノムデータベースであり、当該データベースからは全面的かつ完全な細菌ゲノム配列情報を取得できる。
好ましくは、ステップS10では、Blastソフトウェアを利用してステップS8で同定されたファージ配列をステップS9で抽出された特殊なスペーサー配列と照合し、照合で用いるパラメータは、カバレッジ90%、一致度97%、エラー数1を含む。
具体的には、Blastの全称はBasic Local Alignment Search Toolであり、即ち、基本的局所的な配列照合アルゴリズムによる検索ツールであり、アメリカ国立生物工学情報センター(National Center for Biotechnology Information、NCBI)によって開発・管理される生体高分子の一次構造配列照合プログラムである。本願の方法を実際に実施する時には、Blastを用いて照合してもよく、用いる各パラメータとして、カバレッジ90%、一致度97%、エラー数1と設定する。
なお、本願の方法を実際に実行する時には、生物情報学関連の分野の様々なソフトウェアを作業に加えて実施することができ、本分野で多く利用されている生物学的ソフトウェアツールを含み、例えば、NanoPlot、NanoFiltを用いて長さ分析及び短配列の除去を行い、OPERA-MSを用いて配列のハイブリッドアセンブリを行うなどであり、ここでは一つずつ列挙しない。また、自らプログラミングするコンピュータプログラムを用いて方法の特定の実施を行うと限定せず、ここでは詳細な説明を省略する。
本願の実施例は、また、環境媒体サンプルの微生物分析における前記ファージ同定及び宿主予測方法の使用を提供する。
具体的には、前記環境媒体サンプルは、水処理技術分野の対象とる汚水、汚泥サンプルを含み、ただしそれらに限定されない。これらのサンプル中の微生物を分析することにより、汚水又は汚泥サンプル中のファージの状況を判断し、予測されるファージ宿主情報を利用して、汚水系におけるファージ及びその宿主の環境生態学的機能を分析する。
以下、特定の応用例を用いて、本方法の特定の作業について一層説明する。
(実施例1)
5つの汚水サンプルから通常の前処理及びDNA抽出配列決定ステップにより50Gbのナノポア配列決定データ及び100Gbのハイスループット配列決定データを取得する。
本実施例は、下記のステップで行う。
ステップ101:NanoFiltソフトウェアを用いて、50Gbのナノポア配列決定データから平均品質値がQ7より低い配列を除去する。
ステップ102:ステップ101でフィルタリングしたナノポア配列に対してNanoPlotを用いて長さ分析を行い、NanoFiltを用いて長さが1000bpより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得る。
ステップ103:100Gbのハイスループット配列決定データのうちリンカーを含有する配列をcutadaptを用いて除去する。
ステップ104:ステップ103でフィルタリングしたハイスループット配列決定データのうちN含有量が10%を超える配列をfastpを用いて除去し、除去後のハイスループット配列のうち50%を超える塩基品質値がQ5より低い配列をfastpを用いて除去して、品質管理フィルタリング後のハイスループット短配列を得る。
ステップ105:ステップ102の品質管理フィルタリング後のナノポア長配列及びステップ104の品質管理フィルタリング後のハイスループット短配列に対してOPERA-MSを用いてハイブリッドアセンブリを行って、スプライシングして被同定ファージ配列情報を得て、seqkitを用いてスプライシング後の長さが5000bpより小さい配列を除去することにより、ハイブリッドアセンブリ後のファージ配列を得る。
ステップ106:ステップ105で得たハイブリッドアセンブリ後のファージ配列に対してProdigalを用いて遺伝子予測を行って、配列の各遺伝子の特徴機能情報、即ち遺伝子特徴情報を得る。
ステップ107:hmmsearchを用いて、ステップ106で取得した遺伝子特徴情報をPfamデータベースと照合し、Pfamデータベースは主に細菌遺伝子特徴情報を含み、Pfamデータベースと照合することで当該配列は潜在的な細菌配列である可能性を判断でき、
diamondを用いて、ステップ106で取得した遺伝子特徴情報をKEGGデータベースと照合し、KEGGデータベースはもう1つの、主に細菌遺伝子特徴情報を含むデータベースであり、KEGGデータベースと照合することで当該配列は潜在的な細菌配列である可能性を一層判断することができ、
hmmsearchを用いて、ステップ106で取得した遺伝子特徴情報をVPFデータベースと照合し、VPFデータベースは主にファージ遺伝子特徴情報を含むデータベースであり、VPFデータベースと照合することで当該配列は潜在的なファージ配列である可能性を一層判断することができる。
ステップ108:ステップ107で取得した照合状況を集計する。
VPFにマッチングする遺伝子数が配列の遺伝子総量の60%より大きく又は等しい場合、当該配列はファージ配列と同定され、本実施例では当該条件に適合するファージが合計で3699件同定され、
VPFにマッチングする遺伝子数がPfamにマッチングする遺伝子数より大きく又は等しい場合、当該配列はファージ配列と同定され、本実施例では当該条件に適合するファージが合計で30781件同定され、
KEGGにマッチングする遺伝子数が配列の遺伝子総量の20%より小さく又は等しく、且つPfamにマッチングする遺伝子数が配列の遺伝子総量の40%より小さく又は等しく、且つVPFにマッチングする遺伝子数が配列の遺伝子総量の10%より大きく又は等しい場合、当該配列はファージ配列と同定される。本実施例では当該条件に適合するファージが合計で17690件同定される。
図2に示されるとおり、前記3つの条件を満たすファージを集計し、重複配列を除去する。本実施例では合計で44270件のファージ配列が同定され、そのうち691件がプロファージであり、43579件が遊離ファージである。
ステップ109:NCBIデータベースに含まれる全ての細菌ゲノム配列情報をダウンロードし、CRSIPRDetectを用いてNCBI Refseq V91データベース中の既存の細菌ゲノム配列中の特殊なスペーサー配列断片を抽出する。
ステップ110:Blastを用いて、ステップ108で同定された44270件のファージ配列をステップ109で抽出された特殊なスペーサー配列と照合し、用いるパラメータはカバレッジ90%、一致度97%、エラー数1であり、ファージの宿主情報を予測する。
結果は、そのうち326件のファージの宿主はマイコバクテリアと予測され、3件のファージの宿主は硝酸菌と予測されることを示す。図3~図5は、宿主が硝酸菌である3件のファージのゲノム配置図を示す。図3に示されているファージの長さは約140kbpであり、三者のうちtRNA遺伝子を含有するファージはこれだけである。図4のファージの長さは約45kbpであり、図5のファージの長さは約35kbpである。3件のファージのコード遺伝子領域は仮想タンパク質を主とする。
下表は、NCBI Refseq V91バージョンのデータベースによる感染関係のテスト結果を示す。
Figure 2024041040000002
結果は、照合方法で用いるパラメータがカバレッジ90%、一致度97%、エラー数1である時に、宿主予測の正確さは93%に達することを示す。
上記で特定の実施形態及び例示的な例を用いて本願を詳細に説明しているが、これらの説明は本願に対する限定ではない。本願の趣旨及び範囲を逸脱しない限り、本願の技術的解決手段及びその実施形態に様々な等価な置換、修正又は改良を行うことができ、これらが本願の範囲に入るということは当業者に理解されるだろう。本願の請求範囲は、添付される特許請求の範囲に準拠する。

Claims (2)

  1. ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法であって、被検DNAサンプルの中から元のナノポア配列決定データ及び元のハイスループット配列決定データを取得し、続いてファージ同定及び宿主予測を行い、前記被検DNAサンプルは環境媒体サンプルであり、前記環境媒体サンプルは汚水、汚泥サンプルを含み、
    S1:第1品質値フィルタリングパラメータを設定し、元のナノポア配列決定データから平均品質値が第1品質値フィルタリングパラメータより低い配列を除去して、フィルタリング後のナノポア配列を得るステップであって、品質値フィルタリングパラメータは塩基品質値Qであり、第1品質値フィルタリングパラメータはQ7であるステップと、
    S2:フィルタリング後のナノポア配列に対して長さ分析を行い、第1配列長パラメータを設定し、配列長が前記第1配列長パラメータより小さい短配列を除去して、品質管理フィルタリング後のナノポア長配列を得るステップであって、第1配列長パラメータは1000bpであるステップと、
    S3:元のハイスループット配列決定データのうちリンカーを含有する配列を除去して、フィルタリング後のハイスループット配列決定データを得るステップと、
    S4:フィルタリング後のハイスループット配列決定データのうちN含有量が10%を超える配列を除去し、第2品質値フィルタリングパラメータを設定し、除去後のハイスループット配列のうち50%を超える塩基品質値が前記第2品質値フィルタリングパラメータより低い配列をさらに除去して、品質管理フィルタリング後のハイスループット短配列を得るステップであって、第2品質値フィルタリングパラメータはQ5であるステップと、
    S5:品質管理フィルタリング後のナノポア長配列と品質管理フィルタリング後のハイスループット短配列をハイブリッドアセンブリし、スプライシングして被同定ファージ配列情報を得て、第2配列長パラメータを設定し、スプライシング後の配列長が前記第2配列長パラメータより小さい短配列を除去して、ハイブリッドアセンブリ後のファージ配列を得るステップであって、第2配列長パラメータは5000bpであるステップと、
    S6:ハイブリッドアセンブリ後のファージ配列に対して遺伝子予測を行って、被予測配列の遺伝子特徴情報を得るステップと、
    S7:被予測配列の遺伝子特徴情報をファージ遺伝子特徴情報を含む第1タイプのデータベース、及び細菌遺伝子特徴情報を含む第2タイプのデータベースと照合して、対応する照合状況データをそれぞれ取得するステップであって、前記第1タイプのデータベースはVPFデータベースであり、前記第2タイプのデータベースはPfamデータベース、KEGGデータベースのうちのいずれか一方又は両方であるステップと、
    S8:前記照合状況データに対して集計及び判定を行うステップであって、具体的には、
    被予測配列の遺伝子特徴情報のうち、VPFデータベースにマッチングする遺伝子数が配列の遺伝子総量の60%より大きく又は等しい場合、当該配列をファージ配列として同定し、
    又は、VPFデータベースにマッチングする遺伝子数がPfamデータベースにマッチングする遺伝子数より大きく又は等しい場合、当該配列をファージ配列として同定し、
    又は、VPFデータベースにマッチングする遺伝子数が配列の遺伝子総量の10%より大きく又は等しく、且つPfamデータベースにマッチングする遺伝子数が配列の遺伝子総量の40%より小さく又は等しく、且つKEGGデータベースにマッチングする遺伝子数が配列の遺伝子総量の20%より小さく又は等しい場合、当該配列をファージ配列として同定するステップと、
    S9:全ての細菌ゲノム配列情報を含有するデータベースをダウンロードし、その中から既存の細菌ゲノム配列中の特殊なスペーサー配列を抽出するステップであって、前記全ての細菌ゲノム配列情報を含有するデータベースはNCBIデータベースであるステップと、
    S10:Blastソフトウェアを利用してステップS8で同定されたファージ配列をステップS9で抽出された特殊なスペーサー配列と照合し、照合で用いるパラメータは、カバレッジ90%、一致度97%、エラー数1を含み、予測されるファージ宿主情報を取得するステップとを含むことを特徴とするファージ同定及び宿主予測方法。
  2. 環境媒体サンプルの微生物分析における請求項1に記載のファージ同定及び宿主予測方法の使用。
JP2023118768A 2022-09-13 2023-07-21 ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 Pending JP2024041040A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211107292.X 2022-09-13
CN202211107292.XA CN115198036B (zh) 2022-09-13 2022-09-13 一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法

Publications (1)

Publication Number Publication Date
JP2024041040A true JP2024041040A (ja) 2024-03-26

Family

ID=83572926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023118768A Pending JP2024041040A (ja) 2022-09-13 2023-07-21 ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法

Country Status (2)

Country Link
JP (1) JP2024041040A (ja)
CN (1) CN115198036B (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020077559A1 (zh) * 2018-10-17 2020-04-23 深圳华大生命科学研究院 从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质
CN110211628B (zh) * 2019-06-12 2022-06-07 湖南大学 一种基于高通量测序数据的溶源性噬菌体预测方法
CN114121160B (zh) * 2021-11-25 2022-06-21 广东美格基因科技有限公司 一种检测样本中宏病毒组的方法和系统

Also Published As

Publication number Publication date
CN115198036B (zh) 2022-12-30
CN115198036A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN110349629B (zh) 一种利用宏基因组或宏转录组检测微生物的分析方法
CN113744807B (zh) 一种基于宏基因组学的病原微生物检测方法及装置
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
CN114121160B (zh) 一种检测样本中宏病毒组的方法和系统
CN105420375B (zh) 一种环境微生物基因组草图的构建方法
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN110875082B (zh) 一种基于靶向扩增测序的微生物检测方法和装置
CN112992277A (zh) 一种微生物基因组数据库构建方法及其应用
CN115662516A (zh) 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法
CN114974411A (zh) 宏基因组病原微生物基因组数据库及其构建方法
WO2012096015A1 (ja) 核酸情報処理装置およびその処理方法
CN110970093B (zh) 一种筛选引物设计模板的方法、装置及应用
WO2012096016A1 (ja) 核酸情報処理装置およびその処理方法
JP2024041040A (ja) ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法
CN115691679A (zh) 一种基于二代和三代测序技术的宏病毒组分析方法
JP2008161056A (ja) Dna配列解析装置、dna配列解析方法およびプログラム
CN110751985B (zh) 与大体重鸡只高度关联的肠道微生物标记物
JP2022021661A (ja) シングルセルゲノム配列とメタゲノム配列を統合する新規処理法
KR20200125549A (ko) 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법
CN110684830A (zh) 一种石蜡切片组织rna分析方法
CN111429969A (zh) 一种细菌中功能性前噬菌体及其位置与序列的检测方法
CN114496089B (zh) 一种病原微生物鉴定方法
Simmonds et al. CZ ID: a cloud-based, no-code platform enabling advanced long read metagenomic analysis
CN114420213A (zh) 一种生物信息分析方法及装置、电子设备及存储介质
Marić et al. Approaches to metagenomic classification and assembly

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230721