JP2022021661A - シングルセルゲノム配列とメタゲノム配列を統合する新規処理法 - Google Patents

シングルセルゲノム配列とメタゲノム配列を統合する新規処理法 Download PDF

Info

Publication number
JP2022021661A
JP2022021661A JP2020125388A JP2020125388A JP2022021661A JP 2022021661 A JP2022021661 A JP 2022021661A JP 2020125388 A JP2020125388 A JP 2020125388A JP 2020125388 A JP2020125388 A JP 2020125388A JP 2022021661 A JP2022021661 A JP 2022021661A
Authority
JP
Japan
Prior art keywords
sequence
fragment
fragment sequence
cell genome
metagenomic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020125388A
Other languages
English (en)
Inventor
浩司 有川
Koji Arikawa
正人 細川
Masato Hosokawa
圭吾 井手
Keigo IDE
雅人 小川
Masahito Ogawa
春子 竹山
Haruko Takeyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BitBiome Inc
Original Assignee
BitBiome Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BitBiome Inc filed Critical BitBiome Inc
Priority to JP2020125388A priority Critical patent/JP2022021661A/ja
Publication of JP2022021661A publication Critical patent/JP2022021661A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】シングルセルゲノム配列とメタゲノム配列を統合する新規処理法を提供する。【解決手段】複数の単位生物単位を含む生物単位集団の配列を解析する方法であって、A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、C)A)およびB)について、リードよりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行うステップと、D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップとを含む、方法。【選択図】なし

Description

本開示は、シングルセルゲノム配列とメタゲノム配列を統合する新規処理法、システムおよび関連技術を提供する。具体的にはシングルセルゲノム配列とメタゲノム配列を組み合わせて解析することにより高品質なゲノム配列を構築する解析システムを提供する。
微生物ゲノムデータの構築が進んでいるが、現在のデータは、メタゲノム情報を基にするものが多く、複雑な細菌叢を解析対象にした場合に情報として質、量とも不足する。
単一の生物単位ごとの遺伝情報(ゲノム情報など)の取得が一部されてきているが、より高品質の遺伝情報のニーズが高まっている。
本開示は、微生物コミュニティなどの複数の単位生物単位を含む生物単位集団から、生物単位集団に含まれる単一の生物単位(例えば、菌株)のゲノム配列を高品質に決定する方法を提供する。メタゲノム解析においては、混在するゲノム配列の正確な分別に課題があり、シングルセルゲノム解析では増幅バイアスに課題がある。本開示は、同一の複数の単位生物単位を含む生物単位集団に対してシングルセルゲノム解析とメタゲノム解析の両方を実施し、そこから得られた解析結果を相互活用することで得られるゲノム配列の品質を向上させることを特徴とする。それぞれの手法単独で得られるゲノム配列よりも高品質なゲノム配列を提供することが可能である。
本開示の実施形態の例として、以下のものが挙げられる。
(項目1)
複数の単位生物単位を含む生物単位集団の配列を解析する方法であって、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C)A)およびB)について、リードよりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行うステップと、
D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップと
を含む、方法。
(項目2)
前記メタゲノム断片配列またはそれに由来する配列は、メタゲノム断片配列、メタゲノム断片配列を再構築した配列、およびメタゲノム断片配列を再構築した配列を分別した配列を含み、
前記シングルセルゲノム断片配列またはそれに由来する配列は、シングルセルゲノム断片配列、シングルセルゲノム断片配列を再構築した配列、およびシングルセルゲノム断片配列を再構築した配列を統合した配列を含む、
項目1に記載の方法。
(項目3)
前記組み合わせ解析が、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別を含む、項目1または2に記載の方法。
(項目4)
前記組み合わせ解析が、メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合を含む、項目1~3のいずれか一項に記載の方法。
(項目5)
前記組み合わせ解析が、シングルセルゲノム断片配列をメタゲノム断片配列を再構築した配列にマッピングすることにより、シングルセルゲノム断片配列をメタゲノム断片配列を再構築した配列に分断して、アライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することを含む、項目1~4のいずれか一項に記載の方法。
(項目6)
前記方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)A)およびB)について、リードよりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、ステップと、
C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成するステップと、
D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得るステップと
を含む、項目1~5のいずれか一項に記載の方法。
(項目7)
前記方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)A)およびB)について、リードよりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成するステップと、
D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
を含む、項目1~6のいずれか一項に記載の方法。
(項目8)
前記方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)B)について、リードよりも長い元のゲノム配列の再構築を行うステップと、
C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップと、
C-4)前記メタゲノム断片配列の分別断片配列について、リードよりも長い元のゲノム配列の再構築を行うステップと、
D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
を含む、項目1~7のいずれか一項に記載の方法。
(項目9)
複数の単位生物単位を含む生物単位集団の配列を解析する方法をコンピュータに実装させるプログラムであって、該方法は
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築、分別、統合および/またはキメラ除去をそれぞれ行うステップと、
D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップと
を含む、プログラム。
(項目10)
前記メタゲノム断片配列またはそれに由来する配列は、メタゲノム断片配列、メタゲノム断片配列を再構築した配列、およびメタゲノム断片配列を再構築した配列を分別した配列を含み、
前記シングルセルゲノム断片配列またはそれに由来する配列は、シングルセルゲノム断片配列、シングルセルゲノム断片配列を再構築した配列、およびシングルセルゲノム断片配列を再構築した配列を統合した配列を含む、
項目9に記載のプログラム。
(項目11)
前記組み合わせ解析が、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別を含む、項目9または10に記載のプログラム。
(項目12)
前記組み合わせ解析が、メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合を含む、項目9~11のいずれか一項に記載のプログラム。
(項目13)
前記組み合わせ解析が、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列にマッピングすることにより、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列に分断して、アライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することを含む、項目9~12のいずれか一項に記載のプログラム。
(項目14)
前記方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、ステップと、
C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成するステップと、
D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得るステップと
を含む、項目9~13のいずれか一項に記載のプログラム。
(項目15)
前記方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成するステップと、
D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
を含む、項目9~14のいずれか一項に記載のプログラム。
(項目16)
前記方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)B)について、前記断片配列よりも長い元のゲノム配列の再構築を行うステップと、
C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップと、
C-4)前記メタゲノム断片配列の分別断片配列について、リードよりも長い元のゲノム配列の再構築を行うステップと、
D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
を含む、項目9~15のいずれか一項に記載のプログラム。
(項目17)
複数の単位生物単位を含む生物単位集団の配列を解析する方法をコンピュータに実装させるプログラムを格納する記録媒体であって、該方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築、分別、統合および/またはキメラ除去をそれぞれ行うステップと、
D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップと
を含む、記録媒体。
(項目18)
前記メタゲノム断片配列またはそれに由来する配列は、メタゲノム断片配列、メタゲノム断片配列を再構築した配列、およびメタゲノム断片配列を再構築した配列を分別した配列を含み、
前記シングルセルゲノム断片配列またはそれに由来する配列は、シングルセルゲノム断片配列、シングルセルゲノム断片配列を再構築した配列、およびシングルセルゲノム断片配列を再構築した配列を統合した配列を含む、
項目17に記載の記録媒体。
(項目19)
前記組み合わせ解析が、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別を含む、項目17または18に記載の記録媒体。
(項目20)
前記組み合わせ解析が、メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合を含む、項目17~19のいずれか一項に記載の記録媒体。
(項目21)
前記組み合わせ解析が、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列にマッピングすることにより、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列に分断して、アライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することを含む、項目17~20のいずれか一項に記載の記録媒体。
(項目22)
前記方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、ステップと、
C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成するステップと、
D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得るステップと
を含む、項目17~21のいずれか一項に記載の記録媒体。
(項目23)
前記方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成するステップと、
D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
を含む、項目17~22のいずれか一項に記載の記録媒体。
(項目24)
前記方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)B)について、前記断片配列よりも長い元のゲノム配列の再構築を行うステップと、
C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップと、
C-4)前記メタゲノム断片配列の分別断片配列について、リードよりも長い元のゲノム配列の再構築を行うステップと、
D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
を含む、項目17~23のいずれか一項に記載の記録媒体。
(項目25)
複数の単位生物単位を含む生物単位集団の配列を解析するシステムであって、該システムは、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部と、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部と、
C)メタゲノム断片配列およびシングルセルゲノム断片配列について、前記断片配列よりも長い元のゲノム配列の再構築、分別、統合および/またはキメラ除去をそれぞれ行う配列処理部と、
D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得る改良ゲノム配列生成部と
を含む、システム。
(項目26)
前記メタゲノム断片配列またはそれに由来する配列は、メタゲノム断片配列、メタゲノム断片配列を再構築した配列、およびメタゲノム断片配列を再構築した配列を分別した配列を含み、
前記シングルセルゲノム断片配列またはそれに由来する配列は、シングルセルゲノム断片配列、シングルセルゲノム断片配列を再構築した配列、およびシングルセルゲノム断片配列を再構築した配列を統合した配列を含む、
項目25に記載のシステム。
(項目27)
前記組み合わせ解析が、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別を含む、項目25または26に記載のシステム。
(項目28)
前記組み合わせ解析が、メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合を含む、項目25~27のいずれか一項に記載のシステム。
(項目29)
前記組み合わせ解析が、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列にマッピングすることにより、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列に分断して、アライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することを含む、項目25~28のいずれか一項に記載のシステム。
(項目30)
前記システムは、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部と、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部と、
C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行う再構築部と、
C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、分別統合部と、
C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成する生成部と、
D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得る改良ゲノム配列生成部と
を含む、項目24~29のいずれか一項に記載のシステム。
(項目31)
前記システムは、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部と、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部と、
C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行う再構築部と、
C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成する統合部と、
C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成する生成部と、
D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得る改良ゲノム配列生成部と
を含む、項目25~30のいずれか一項に記載のシステム。
(項目32)
前記システムは、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部と、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部と、
C-1)B)について、前記断片配列よりも長い元のゲノム配列の再構築を行う再構築部と、
C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成する統合部と、
C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップと、
C-4)前記メタゲノム断片配列の分別断片配列について、リードよりも長い元のゲノム配列の再構築を行う生成部と、
D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得る改良ゲノム配列生成部と
を含む、項目25~31のいずれか一項に記載のシステム。
本開示により完全性が高く汚染度の低い高品質なゲノム配列を取得することが可能となる。一般的なビニング手法と比較してリファレンスゲノムに対するミスマッチ数が少なく、リファレンスゲノムの測定精度指標であるF値も高い値を示す。メタゲノム解析における単純なビニングでは取得することが困難であるribosomal RNAの取得率も高い結果を示す。1塩基多型などの変異による遺伝子機能の違いを検出する場合などに有効であると考えられる。
図1はシングルセルゲノム・メタゲノム相互参照の全体像である。微生物叢からメタゲノム解析手法およびシングルセルゲノム解析手法によりそれぞれデータを取得する。得られたリード、アセンブル配列などのデータを、それぞれの手法同士のデータを相互活用することにより、それぞれの手法単体で得られるゲノム配列よりも高品質なゲノム配列を取得することが可能となる。 図2はシングルセルゲノムリードによりメタゲノム分別したメタゲノムリードを、統合配列をガイドとして再アセンブルすることにより高品質ゲノムを取得する模式図である。微生物叢からメタゲノム解析手法およびシングルセルゲノム解析手法によりそれぞれデータを取得する。シングルセルゲノムリードからアセンブル配列と統合配列を取得する。メタゲノムリードからもアセンブル配列を取得する。メタゲノムアセンブル配列にシングルセルゲノムリードをマップすることでメタゲノムアセンブル配列とシングルセルを対応付け、シングルセルにより分別された分別配列を取得する。さらに、分別配列にメタゲノムリードをマッピングすることで、分別されたメタゲノムリード(分別断片配列)を取得する。分別メタゲノムリードに対して、シングルセル統合配列をガイドとして用いた再アセンブルを行い、高品質ゲノム配列を取得する。 図3は各アセンブル配列を対応させることで高品質ゲノムを取得する模式図である。メタゲノムリードおよびシングルセルゲノムリードからそれぞれアセンブル配列を取得する。それぞれのアセンブル配列をマッピングし、対応関係を取得する(メタゲノムのアセンブル配列から分別配列への分別)。シングルセルゲノムの統合配列と対応関係にあるメタゲノムアセンブル配列を結合することで高品質ゲノム配列を取得する。 図4はメタゲノムリードをシングルセルゲノムアセンブル配列および統合配列で分別することで高品質ゲノムを取得する模式図である。シングルセルゲノムリードからアセンブル配列および統合配列を取得する。これらの配列にメタゲノムリードをマッピングし、分別メタゲノムリードを取得する。分別メタゲノムリードをそれぞれアセンブルし、対応するシングルセルゲノムアセンブル配列・統合配列と結合することで高品質ゲノム配列を取得する。 図5は実施例1により得られた結果であり、5つのメタゲノム解析手法(CONCOCT、MaxBin2、MetaBAT2、DAS_Tool、metaWARAP)と本開示の方法(hybrid_contig)によって解析したゲノム配列の完全性と汚染度の統合指標(z-scoreの平均値、ただし汚染度は-1を乗算している)をプロットしたものである。本開示の方法は、既存の手法よりも完全性および汚染度に関して高い値を示した。 図6は実施例1により得られた結果であり、5つのメタゲノム解析手法(CONCOCT、MaxBin2、MetaBAT2、DAS_Tool、metaWARAP)と本開示の方法(hybrid_contig)によって抽出できた5S、16S、23S ribosomal RNAおよびtransfer RNAの統合指標(rRNAの長さおよびtRNAの種類数のz-scoreの平均値)である。本開示の方法は、既存の手法よりも高いrRNAおよびtRNAの取得傾向を示した。 図7は実施例1により得られた結果であり、5つのメタゲノム解析手法(CONCOCT、MaxBin2、MetaBAT2、DAS_Tool、metaWARAP)と本開示の方法(hybrid_contig)によって解析したゲノム配列のF値をプロットしたものである。F値は取得したゲノム配列のリファレンスゲノム配列に対する適合率と再現率の調和平均である。本開示において、既存の手法よりも高いF値を示した。 図8は実施例1により得られた結果であり、5つのメタゲノム解析手法(CONCOCT、MaxBin2、MetaBAT2、DAS_Tool、metaWARAP)と本開示の方法(hybrid_contig)によって解析したゲノム配列をリファレンスゲノムにマップしたときの、100kbあたりのミスマッチ数をプロットしたものである。本開示の方法は、既存の手法よりも低いミスマッチ数を示した。 図9は実施例2により得られた結果であり、シングルセルゲノムの統合配列(csag)をメタゲノムアセンブル配列により結合したゲノム配列(hybrid)と比較している。両者のトータルゲノムサイズがほとんど変わらないのに対し、コンティグ数はhybridゲノム配列の方が小さくなっている。それに伴い、アセンブル配列の評価指標の1つであるN50はhybridの方が高くなる。 図10は、メタゲノムアセンブル配列を利用してシングルセルゲノムリードのキメラ配列を検出・除去する実施例である。メタゲノムリードからアセンブル配列を取得する。このアセンブル配列にシングルセルゲノムリードをマッピングする。シングルセルゲノムリードがキメラ配列である場合、リード全長がマップされないため、これを利用してキメラ配列を同定する。キメラ配列として同定されたシングルセルゲノムリードは、キメラ結合部分で分割して複数リードとして再利用する。 図11は、実施例4により得られた結果であり、従来法で検出したキメラ配列検出と、本開示の方法により検出したキメラ配列の精度を示している。従来法に比べ、キメラ配列として認識できる数が増えており、その正解率も向上している。 図12は、実施例2により得られた結果であり、ゲノム配列の完全性と汚染度の統合指標およびrRNAとtRNAの取得指標について、シングルセルゲノムの統合配列(csag)を、メタゲノムアセンブル配列により結合したゲノム配列(hybrid)と比較している。両指標について、メタゲノムアセンブル配列により結合したゲノム配列(hybrid)で低下することはなく同等であった。
以下、本開示を最良の形態を示しながら説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語及び科学技術用語は、本開示の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。
(定義等)
以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
本明細書において、「単位生物単位」とは、遺伝情報またはその他の生体分子の情報を有する単位を指す。単位生物単位には、細胞、細胞様構造物、ウイルスなどを含み得るが、これらに限定されず、人工的に生産したもの(いわゆる人工細胞)やデジタル上の細胞(情報として提供される)なども含み得る。具体的には、個別の単位生物単位はシングルセルに該当し得る。
本明細書において「生物単位集団」は、複数の単位生物単位から構成される集団をいい、微生物コミュニティ、細胞集団、ウイルス集団などが挙げられるがそれに限定されず、人工的に生産したもの(いわゆる人工細胞)やデジタル上の細胞(情報として提供される)などの集団も含まれるがこれらに限定されない。
本明細書において、「細胞」とは、遺伝情報を有する分子を内包する粒子であって、(単独で可能かどうかにかかわらず)複製されることが可能である任意の粒子を指す。本明細書における「細胞」としては、単細胞生物の細胞、細菌、多細胞生物由来の細胞、真菌などが包含される。
本明細書において、「細胞様構造物」とは、遺伝情報を有する分子を内包する任意の粒子を指す。本明細書における「細胞様構造物」としては、細胞内小器官、例えば、ミトコンドリア、細胞核、および葉緑体、ならびにウイルスなどが包含される。
本明細書において、「集合」とは、2つ以上の単一生物単位、細胞または細胞用構造物を含む集まりをいう。本明細書では、「集団」と交換可能に使用され得る。
本明細書において、「サブ集合」とは、「集合」と一緒に使用される場合、集合よりも少ない数の単一生物単位、細胞または細胞用構造を有する集合の一部分を指す。
本明細書において、「核酸情報」とは、1つの細胞または細胞様構造物に含まれる核酸の情報を指し、特定の遺伝子配列の有無、特定の遺伝子の収量または全核酸収量を含む。
本明細書において、「同一性」とは、2つの生体分子間の構造または配列の類似性を指す。対象が配列の場合、同一性は、比較のためにアライメントしうる各配列中の位置を比較することによって決定することもできる。
本明細書において「単位生物単位レベル」とは、1つの単一生物単位に含まれる遺伝情報またはその他の生体分子の情報に対して、他の単一生物単位に含まれる遺伝情報またはその他の生体分子の情報と区別し得る状態で処理を行うことをいう。
本明細書において、「シングルセルレベル」とは、1つの細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報に対して、他の細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で処理を行うことをいう。例えば、「単一生物単位レベル」または「シングルセルレベル」でポリヌクレオチドを増幅する場合、それぞれある単一生物単位、またはある細胞もしくは細胞様構造物中のポリヌクレオチドと、他の単一生物単位、または他の細胞もしくは細胞様構造物中のポリヌクレオチドが区別可能な状態でそれぞれの増幅が行われる。本開示の一実施形態において、当該ポリヌクレオチドを増幅用試薬に接触させて当該ポリヌクレオチドをゲルカプセル内で増幅する工程は、当該ポリヌクレオチドをゲルカプセル内でゲル状態を保ちながら増幅することもできる。
本明細書において、「単位生物単位解析」とは、1つの単一生物単位(例えば、細胞または細胞様構造物)に含まれる遺伝情報またはその他の生体分子の情報を、他の単一生物単位(例えば、細胞または細胞様構造物)に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で解析することを指す。
本明細書において、「シングルセルゲノム解析」とは、1つの細胞または細胞様構造物に含まれる遺伝情報を、他の細胞または細胞様構造物等の単位生物単位に含まれる遺伝情報と区別した状態で解析することを指し、対象はゲノム配列が代表的であるが、狭義のゲノムに限定されず、任意の遺伝情報が対象となり得る。すなわち、本明細書で「ゲノム」という場合は、狭義のゲノム(生物が正常な生命活動を営むために必要な、最小限の遺伝子群を含む染色体の一組)のみならず、染色体を構成しないような遺伝情報をコードするものも含まれる。
本明細書において、「メタゲノム解析」とは、特定の環境単位(例えば、土、動物の腸などであり得るがこれに限定されない)内に存在する複数の細胞または細胞様構造物等の単位生物単位に含まれる遺伝情報を、他の細胞または細胞様構造物に含まれる遺伝情報と区別せずに解析することをいう。メタゲノムは、一種の細胞または細胞様構造物憎まれるゲノムまたは遺伝体をいうものではなく、一つの環境単位のすべての種のゲノムまたは遺伝体をいう。対象はゲノム配列が代表的であるが、狭義のゲノムに限定されず、任意の遺伝情報が対象となり得る。
本明細書において、「シングルセルゲノム断片配列」とは、シングルセルゲノム解析、特にシングルセルでのシーケンシングによって得られた、ゲノム配列の一部を含むポリヌクレオチド配列をいう。「シングルセルゲノムリード」または「シングルセルゲノムリード配列」ということもある。
本明細書において、「メタゲノム断片配列」とは、メタゲノム解析、特にシーケンシングによって得られた、ゲノム配列の一部を含むポリヌクレオチド配列をいう。「メタゲノムリード」または「メタゲノムリード配列」ということもある。
本明細書において、「断片配列よりも長い元のゲノム配列の再構築」とは、断片配列間の共通の配列を用いて複数の断片配列を連結することにより、断片配列より長い配列を構築することをいう。本明細書において、「再構築」は、「アセンブル」または「アセンブリ」ということもあり、これらの用語は同義であり交換可能に用いられ得る。
本明細書において、「シングルセルゲノム断片配列を再構築した配列」とは、複数のシングルゲノム断片配列を再構築した配列をいう。シングルセルゲノムのアセンブル配列ということもある。
本明細書において、「メタゲノム断片配列を再構築した配列」とは、複数のメタゲノム断片配列を再構築した配列をいう。メタセルゲノムのアセンブル配列ということもある。
本明細書において、「統合」とは、配列を、単位生物単位ごとにグループ化(系統分類:クラスター化)し、各グループに含まれる配列を再構築(再アセンブル)することをいう。例えば、「シングルセルゲノム断片配列を再構築した配列」から「シングルセルゲノム断片配列を再構築した配列を統合した配列」を再構築することを指す。
本明細書において、「シングルセルゲノム断片配列を再構築した配列を統合した配列」とは、シングルゲノム断片配列を再構築した配列を、単位生物単位ごとにグループ化し、各グループに含まれる配列を再構築することにより得られる配列をいう。「統合配列」ということもある。
本明細書において、「分別」とは、リファレンス配列を用いることで、配列を単位生物単位ごとにグループ化し、各グループに含まれる配列を再構築することをいう。ビニングと言うこともある。
本明細書において、「メタゲノム断片配列を再構築した配列を分別した配列」とは、メタゲノム断片配列を再構築した配列を、リファレンス配列を用いることで、単位生物単位ごとにグループ化し、各グループに含まれる配列を再構築することにより得られる配列をいう。「分別配列」ということもある。
本明細書において、「シングルセルゲノム断片配列またはそれに由来する配列」とは、「シングルセルゲノム断片配列」およびそれに由来する任意の配列を指す。例えば、「シングルセルゲノム断片配列を再構築した配列」、「シングルセルゲノム断片配列を再構築した配列を統合した配列」を含むが、これらに限定されない。
本明細書において、「メタゲノム断片配列またはそれに由来する配列」とは、「メタゲノム断片配列」およびそれに由来する任意の配列を指す。例えば、「メタゲノム断片配列を再構築した配列」、「メタゲノム断片配列を再構築した配列を分別した配列」を含むが、これらに限定されない。
本明細書において、「キメラ配列」とは、リファレンスとなる配列とアライメントさせたとき、アライメントする部分と、アライメントしない部分との両方を含む配列をいう。例えば、複数のテンプレートを用いたPCRを行うことにより生じることがある。
本明細書において、「マッピング」とは、各断片配列と、用いたリファレンス配列中の塩基配列との一致度が高い領域に、断片配列を整列させる処理をいう。
本明細書において、「リファレンス配列」とは、断片配列が遺伝子上のどの領域に対応するか、およびリード配列が遺伝子上のどの変異に対応するかなどを判定するために、リード配列をマッピングする対象となる配列である。「参照配列」と呼ばれることもある。
本明細書において、「分別断片配列」とは、メタゲノム断片配列を、アセンブルすることなく、単位生物単位ごとに分別した配列の集合をいう。
本明細書において、「組み合わせ解析」とは、シングルセルゲノム断片配列またはそれに由来する配列と、メタゲノム断片配列またはそれに由来する配列とを用いた、高品質ゲノム配列作成のための任意の解析を指す。例えば、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別;メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合;シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列にマッピングすることにより、シングルセルゲノム断片配列をメタゲノム断片配列を再構築した配列に分断して、アライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することが挙げられるが、これに限定されない。
(使用される技術の説明)
(シングルセルゲノムDNAの調製)
微生物コミュニティからシングルセルゲノムDNAを抽出し調製する手法としては、ドロップレットによる手法(Hosokawa,2017)や、SAG-gel法(Chijiiwa,2020)などがあげられる。
(メタゲノムDNAの調製)
微生物コミュニティからシングルセルゲノムDNAを抽出する手法としては、IHMS DNA extraction protocol Qなどがあげられる。抽出したDNAの調製手法としては、QIAseq FX DNA library kitなどがあげられる。
(DNAシーケンス)
DNAシーケンスの手法は、illumina MiSeq、illumina HiSeqなどのDNAシーケンサーを用いる方法や、PacBio Sequel System、Oxford nanopre GridIONなどのDNAシーケンサーを用いる方法などがあげられる。
(シングルセルゲノム解析)
得られたシングルセルゲノムリードの解析は、計算機上で適切な解析ツールを用いて実施される。並列計算が行える高性能計算機上にて実行することが望ましい。リードの品質を評価する解析ツールとしては、bbduk.sh、fastx-toolkit、fastp、fastqc、prinseq-lite.plなどがあげられる。ヒトなどのコンタミリードを除くツールとしては、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールとreformat.shなどのフォーマッティングツールがあげられる。リードをアセンブルするツールとしては、SPAdesなどがあげられる。ゲノム配列から遺伝子を予測するツールとしては、Prodigal、Prokka、DFASTなどがあげられる。ゲノム配列の完全性、汚染度を評価するツールとしては、CheckMなどがあげられる。ゲノム配列のアセンブル精度を評価するツールとしては、QUASTなどがあげられる。シングルセルゲノムの同一菌株を同定・グループ化するツールとしては、ccSAG(Kogawa, 2018)などがあげられる。
(メタゲノム解析)
得られたメタゲノムリードの解析は、計算機上で適切な解析ツールを用いて実施される。並列計算が行える高性能計算機上にて実行することが望ましい。リードの品質を評価する解析ツールとしては、bbduk.sh、fastx-toolkit、fastp、fastqc、prinseq-lite.plなどがあげられる。ヒトなどのコンタミリードを除くツールとしては、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールとreformat.shなどのフォーマッティングツールがあげられる。リードをアセンブルするツールとしては、MEGAHIT、SPAdesなどがあげられる。ゲノム配列から遺伝子を予測するツールとしては、Prodigal、Prokka、DFASTなどがあげられる。アセンブル配列に対してビニングを行うツールとしては、CONCOCT、MaxBin2、MetaBAT2などがあげられる。ビニング結果を再構築するツールとしては、DAS_Tool、metaWARAPなどがあげられる。
(メタゲノムデータの分別ガイド)
シングルセルゲノム生物系統によるメタゲノムアセンブル配列の分別ガイドは、計算機上で適切な解析ツールを用いて実施される。並列計算が行える高性能計算機上にて実行することが望ましい。シングルセルゲノムリード、アセンブル配列および統合アセンブル配列を用いてメタゲノムのリードおよびアセンブル配列の分別をガイドする1つの方法としては、それぞれの手法で得られた配列同士をマップして対応を取る方法などがある。配列同士をマッピングするツールとしては、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどがあげられる。マッピング結果はbed形式などに変換すると配列カバー率を計算しやすくなる。bed形式に変換するツールとしては、BEDtoolsなどがあげられる。
(統合による高品質化)
配列の品質改善は、計算機上で適切な解析ツールを用いて実施される。並列計算が行える高性能計算機上にて実行することが望ましい。
(シングルセルゲノムおよびメタゲノムの断片配列の取得)
同一の微生物コミュニティに対して、メタゲノム解析およびシングルセルゲノム解析を実施し、断片配列(リード)をそれぞれ取得する。シングルセルゲノム解析では複数細胞由来のリードを取得する。
(シングルセルゲノム解析)
取得した各シングルセルリードに対し品質チェック処理を行う。品質処理を行ったリードを用いて配列アセンブルを行い、リードよりも長い元のゲノム配列の再構築を行う。シングルセルゲノムアセンブル配列を取得する。
(シングルセルゲノムアセンブル配列の生物系統分類と統合)
各シングルセルゲノム配列をお互いに比較し、配列相同性やマーカー遺伝子の相同性などにより同一菌株由来のシングルセルを生物系統分類する。分類されたシングルセルゲノムを統合し、統合シングルセルゲノムアセンブル配列を取得する。
(メタゲノム解析)
取得したメタゲノムリードに対し品質チェック処理を行う。品質処理を行ったリードを用いて配列アセンブルを行い、リードよりも長い元のゲノム配列の再構築を行う。メタゲノムアセンブル配列を取得する。
(シングルセルゲノム生物系統によるメタゲノムアセンブル配列の分別)
統合シングルセルゲノムアセンブル配列(またはそれに関連するシングルセルゲノムリード、シングルセルゲノムアセンブル配列)を用いて、メタゲノムアセンブル配列をシングルセルの生物系統に分別する。ここで、メタゲノムアセンブル配列のゲノムカバー率、メタゲノムアセンブル配列と統合シングルセルゲノムアセンブル配列の相同性やゲノム配列組成、マーカー遺伝子の相同性などが分別のための指標となりうる。
(分別メタゲノムアセンブル配列の品質改善)
分別されたメタゲノムアセンブル配列にメタゲノムリードをマッピング、対応付けられたメタゲノムリードにより再アセンブルを行う。このとき、同一生物系統グループに属する統合シングルセルゲノムアセンブル配列(またはシングルセルゲノムアセンブル配列)をガイドとして利用する。または、分別メタゲノムアセンブル配列またはメタゲノム再アセンブル配列と、シングルセルゲノムアセンブル配列(またはシングルセルゲノムアセンブル配列)を結合したゲノム配列を構築する。
(シングルセルゲノムアセンブル配列の品質改善)
統合シングルセルゲノムアセンブル配列にシングルセルゲノムリードをマッピング、対応付けられたシングルセルゲノムリードにより再アセンブルを行う。このとき、同一生物系統グループに属するメタゲノムアセンブル配列をガイドとして利用する。または、統合シングルセルゲノムアセンブル配列と、メタゲノムアセンブル配列を結合したゲノム配列を構築する。
(好ましい実施形態)
以下に好ましい実施形態の説明を記載するが、この実施形態は本開示の例示であり、本開示の範囲はそのような好ましい実施形態に限定されないことが理解されるべきである。当業者はまた、以下のような好ましい実施例を参考にして、本発明の範囲内にある改変、変更などを容易に行うことができることが理解されるべきである。これらの実施形態について、当業者は適宜、1または複数の任意の実施形態を組み合わせ得る。
一局面において、本開示は、複数の単位生物単位(例えば、シングルセル)を含む生物単位集団(例えば、微生物コミュニティ)の配列を解析する方法であって、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C)A)およびB)について、断片配列よりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行うステップと、
D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップと
を含む、方法を提供する。本開示の方法に用いる、シングルセルゲノム解析およびメタゲノム解析用サンプルは、同一のコミュニティに由来するものである。本開示の方法を用いることにより、従来技術より精度高く分類し、配列情報を得ることが可能である。また、本開示の方法は、Supervised Approachでありながら、既知のリファレンスゲノムのデータベースが無くとも精度高く分類し、配列情報を得ることが可能である。
一般に、同一コミュニティサンプルからシングルセルゲノム解析とメタゲノム解析の両方を実施することはなく、一方のデータから他方のデータをデータベースとして参照するという使用方法はこれまでに存在しなかった。しかしながら、本開示の方法を用いてシングルセル由来の配列を解析する際、参照として使用するデータベースとして、シングルセル由来の配列を含むデータベースだけでなく、メタゲノム由来の配列情報を含むデータベースを使用してもよく、いずれのデータベースを使用しても従来技術より高精度の配列情報を得ることができる。本開示の方法を使用することにより、高水準で、ゲノム配列の完全性と汚染度を有する配列を得ることができる。既存手法ではゲノム配列の完全性と汚染度を両立することが困難であるため、本開示の方法により得られる配列は、あらゆるゲノム配列解析にとって有用である。一般的に、メタゲノム解析では16S、23S、5S ribosomal RNAの取得が困難であるが、シングルセルゲノム解析と組み合わせる本開示により、これらのオペロン構造を取得することが可能となる。また、再アセンブルによるミスマッチ数の減少も期待できる。
一実施形態において、生物単位集団は、複数種の細胞または細胞用構造物を含む任意の集団である。特定の実施形態において、生物単位集団として、土壌中の微生物叢および腸内微生物藻などの微生物コミュニティ、体細胞と疾患細胞(例えば、がん細胞)との混合物、細胞とウイルスとの混合物などが挙げられるがこれに限定されない。
一実施形態において、メタゲノム断片配列またはそれに由来する配列は、メタゲノム断片配列、メタゲノム断片配列を再構築した配列、およびメタゲノム断片配列を再構築した配列を分別した配列を含む。
別の実施形態において、シングルセルゲノム断片配列またはそれに由来する配列は、シングルセルゲノム断片配列、シングルセルゲノム断片配列を再構築した配列、およびシングルセルゲノム断片配列を再構築した配列を統合した配列を含む。
一実施形態において、分別は、任意のリファレンス配列を、メタゲノムアセンブル配列に対してマッピングし、各メタゲノムアセンブル配列を最もカバー率の高い系統分類グループに振り分けることにより行われる。特定の実施形態において、本開示の方法により得られるシングルセルゲノム統合配列を、リファレンス配列として使用することができる。
一実施形態において、統合は、得られたシングルセルゲノムアセンブル配列を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択し、選択した配列について生物系統同定用指標の値を計算し、値が一定以上の配列を同一グループと見なすことにより行われる。特定の実施形態において、統合は、得られたシングルセルゲノムアセンブル配列を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択し、選択した配列についてシングルコピーマーカー遺伝子の相同性を計算し、相同性が一定以上の値の配列を同一グループと見なすことにより行われてもよい。GC含量やテトラヌクレオチド頻度などのゲノム配列組成によりグループ化を行うことも可能である。
一実施形態において、組み合わせ解析は、シングルセルゲノム断片配列またはそれに由来する配列とメタゲノム断片配列またはそれに由来する配列とを用いた任意の解析であり得る。特定の実施形態において、組み合わせ解析として、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別;メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合;シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列にマッピングすることにより、メタゲノム断片配列を再構築した配列に分断してアライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することが挙げられるが、これに限定されない。これらの組合せ解析は単独で行ってもよく、組み合わせてもよい。
一実施形態において、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別として、メタゲノムアセンブル配列にシングルセルゲノムリードをマップすることでメタゲノムアセンブル配列とシングルセルを対応付け、シングルセルにより分別された分別配列を取得することが挙げられる。さらに、分別配列にメタゲノムリードをマッピングすることで、分別されたメタゲノムリード(分別断片配列)を取得する。分別メタゲノムリードに対して、シングルセル統合配列をガイドとして用いた再アセンブルを行い、高品質ゲノム配列を取得することも可能である。また、メタゲノム断片配列より分別したメタゲノム分別配列と、シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合することも可能である。ミスマッチ数やミスアセンブルブロックを減らすには再アセンブルが有効であるが、単純にN50やTotal length等のアセンブリ指標を上げる場合は、メタゲノム分別配列とシングルセル統合配列との結合でも良好な結果を得ることができる。これらの手法は、当業者であれば、目的に合わせて使い分けることが可能である。
特定の実施形態において、本開示の方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)A)およびB)について、リードよりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、ステップと、
C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成するステップと、
D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得るステップと
を含む。
本開示において、A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップは、以下のように実施し得る:
複数の単位生物単位を含む生物単位集団のTotal DNAを抽出し、シーケンスライブラリーを構築する。微生物コミュニティからシングルセルゲノムDNAを抽出する手法としては、IHMS DNA extraction protocol Qなどがあげられる。抽出したDNAの調製手法としては、QIAseq FX DNA library kitなどがあげられる。シングルエンドシーケンスまたはペアエンドシーケンスによりメタゲノム断片配列を得る。このときロングリードシーケンスを実施しても良い。DNAシーケンスの手法は、illumina MiSeq、illumina HiSeqなどのDNAシーケンサーを用いる方法や、PacBio Sequel System、Oxford nanopre GridIONなどのDNAシーケンサーを用いる方法などがあげられる。
本開示において、B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップは、以下のように実施し得る:
例えば、複数の単位生物単位を含む生物単位集団から、シングルセルを単離し、単離したシングルセルの溶菌、およびゲノムDNA増幅を行い、シーケンスライブラリーを構築する。微生物コミュニティからシングルセルゲノムDNAを抽出し調製する手法としては、ドロップレットによる手法や、SAG-gel法などがあげられる。シングルエンドシーケンスまたはペアエンドシーケンスによりシングルセルゲノム断片配列を得る。このときロングリードシーケンスを実施してもよい。DNAシーケンスの手法は、illumina MiSeq、illumina HiSeqなどのDNAシーケンサーを用いる方法や、PacBio Sequel System、Oxford nanopre GridIONなどのDNAシーケンサーを用いる方法などがあげられる。
本開示において、C-1)A)およびB)について、リードよりも長い元のゲノム配列の再構築をそれぞれ行うステップは、以下のように実施し得る:
メタゲノムリードから、bbduk.sh、fastx-toolkit、fastp、fastqc、prinseq-lite.plなどの品質管理ツールにより特定の品質のリードを抽出する。さらにこれらのリードからヒトなどのコンタミリードを除去する。ヒトなどのコンタミリードを除くツールとしては、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールとreformat.shなどのフォーマッティングツールがあげられる。取得した高品質リードをアセンブルすることによりアセンブル配列を取得する。リードをアセンブルするツールとしては、MEGAHIT、SPAdesなどがあげられる。シングルセルゲノムリードから、bbduk.sh、fastx-toolkit、fastp、fastqc、prinseq-lite.plなどの品質管理ツールにより特定の品質のリードを抽出する。さらにこれらのリードからヒトなどのコンタミリードを除去する。ヒトなどのコンタミリードを除くツールとしては、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールとreformat.shなどのフォーマッティングツールがあげられる。取得した高品質リードをアセンブルすることによりアセンブル配列を取得する。リードをアセンブルするツールとしては、SPAdesなどがあげられる。
本開示において、C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、ステップは、以下のように実施し得る:
前述のように取得したシングルセルゲノムアセンブル配列をccSAGなどにより統合する。具体的には、各シングルセルゲノムアセンブル配列のシングルコピーマーカー遺伝子相同性、ANIを用いてクラスタリングを行う。遺伝子相同性はBLAST、ANI計算はfastANIなどを用いることが可能である。グループ化されたシングルセルゲノムリードを結合しSPAdesなどのツールにより再アセンブルすることで、シングルセルゲノム統合配列を取得する。グループ化されたシングルセルゲノムリードを前記メタゲノムアセンブル配列にBWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールを用いてマッピングすることで、メタゲノムアセンブル配列を分別する。分別の1つの基準として、マップされたリードのメタゲノムアセンブル配列に占める領域が最も広範囲となったシングルセルに対応付けるなどがあげられる。
本開示において、C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成するステップは、以下のように実施し得る:
前記分別メタゲノム配列に対して、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールを用いてメタゲノムリードをマッピングする。これにより分別メタゲノムリードを取得する。
本開示において、D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得るステップは、以下のように実施し得る:
前記分別メタゲノムリードをSPAdesなどのアセンブルツールにより再アセンブルする。このとき、対応するシングルセルアセンブル配列またはシングルセルゲノム統合配列をアセンブルガイドとして参照する。SPAdesの場合、オプションとして--pacbioや--nanoporeなどを指定することでガイドとして参照することが可能である。
本開示の方法により、2つの解析で得られた配列情報を再構築することで、より広範囲なゲノム領域をより数が少なく長い配列情報でカバーすることが可能となる。
特定の実施形態において、本開示の方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)A)およびB)について、リードよりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成するステップと、
D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
を含む。
本開示において、A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップは、以下のように実施し得る:
複数の単位生物単位を含む生物単位集団のTotal DNAを抽出し、シーケンスライブラリーを構築する。シングルエンドシーケンスまたはペアエンドシーケンスによりメタゲノム断片配列を得る。このときロングリードシーケンスを実施してもよい。例えば、微生物コミュニティからシングルセルゲノムDNAを抽出する手法としては、IHMS DNA extraction protocol Qなどがあげられる。抽出したDNAの調製手法としては、QIAseq FX DNA library kitなどがあげられる。DNAシーケンスの手法は、illumina MiSeq、illumina HiSeqなどのDNAシーケンサーを用いる方法や、PacBio Sequel System、Oxford nanopre GridIONなどのDNAシーケンサーを用いる方法などがあげられる。
本開示において、B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップは、以下のように実施し得る:
例えば、複数の単位生物単位を含む生物単位集団から、シングルセルを単離し、単離したシングルセルの溶菌、およびゲノムDNA増幅を行い、シーケンスライブラリーを構築する。微生物コミュニティからシングルセルゲノムDNAを抽出し調製する手法としては、ドロップレットによる手法や、SAG-gel法などがあげられる。シングルエンドシーケンスまたはペアエンドシーケンスによりシングルセルゲノム断片配列を得る。このときロングリードシーケンスを実施してもよい。DNAシーケンスの手法は、illumina MiSeq、illumina HiSeqなどのDNAシーケンサーを用いる方法や、PacBio Sequel System、Oxford nanopre GridIONなどのDNAシーケンサーを用いる方法などがあげられる。
本開示において、C-1)A)およびB)について、リードよりも長い元のゲノム配列の再構築をそれぞれ行うステップは、以下のように実施し得る:
例えば、A)およびB)で得られた断片配列のうち低品質の断片配列を削除し、残った断片配列について断片配列間の共通の配列を用いて複数の断片配列を連結することにより、断片配列より長い配列を構築する。より具体的には、メタゲノムリードから、bbduk.sh、fastx-toolkit、fastp、fastqc、prinseq-lite.plなどの品質管理ツールにより特定の品質のリードを抽出する。さらにこれらのリードからヒトなどのコンタミリードを除去する。ヒトなどのコンタミリードを除くツールとしては、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールとreformat.shなどのフォーマッティングツールがあげられる。取得した高品質リードをアセンブルすることによりアセンブル配列を取得する。リードをアセンブルするツールとしては、MEGAHIT、SPAdesなどがあげられる。シングルセルゲノムリードから、bbduk.sh、fastx-toolkit、fastp、fastqc、prinseq-lite.plなどの品質管理ツールにより特定の品質のリードを抽出する。さらにこれらのリードからヒトなどのコンタミリードを除去する。ヒトなどのコンタミリードを除くツールとしては、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールとreformat.shなどのフォーマッティングツールがあげられる。取得した高品質リードをアセンブルすることによりアセンブル配列を取得する。リードをアセンブルするツールとしては、SPAdesなどがあげられる。
本開示において、C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップは、以下のように実施し得る:
例えば、C-1)で得られたシングルセルゲノム断片配列を再構築した配列について、単位生物単位ごとにグループ化し、各グループに含まれる配列を再構築する。より具体的には、取得したシングルセルゲノムアセンブル配列をccSAGなどにより統合する。各シングルセルゲノムアセンブル配列のシングルコピーマーカー遺伝子相同性、ANIを用いてクラスタリングを行う。遺伝子相同性はBLAST、ANI計算はfastANIなどを用いることが可能である。グループ化されたシングルセルゲノムリードを結合しSPAdesなどのツールにより再アセンブルすることで、シングルセルゲノム統合配列を取得する。
本開示において、C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成するステップは、以下のように実施し得る:
例えば、C-1)で得られたシングルセルゲノム断片配列を再構築した配列および/またはC-2)で得られたシングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列にマッピングし、メタゲノム断片配列を再構築した配列を最もカバー率の高い系統分類グループに振り分けることで、メタゲノム断片配列を再構築した配列を分別した配列を得る。より具体的には得られたメタゲノムアセンブル配列とシングルセルゲノム統合配列をBLAST等のツールによりマッピングすることで、メタゲノムアセンブル配列を分別する。分別の1つの基準として、マップされたシングルセルゲノム統合配列のメタゲノムアセンブル配列に占める領域が最も広範囲となったシングルセルに対応付けるなどがあげられる。
本開示において、D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップは、以下のように実施し得る:
例えば、メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを再構築(結合)することにより、改良された再構築ゲノム配列を得る。より具体的には、前記分別メタゲノムアセンブル配列と対応するシングルセルゲノム統合配列を、CSARやLINKS、HaploMerger2などのツールを用いて結合する。
特定の実施形態において、本開示の方法は、
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C-1)B)について、リードよりも長い元のゲノム配列の再構築を行うステップと、
C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップと、
C-4)前記メタゲノム断片配列の分別断片配列について、リードよりも長い元のゲノム配列の再構築を行うステップと、
D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
を含む。
本開示において、A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップは、以下のように実施し得る:
例えば、複数の単位生物単位を含む生物単位集団のTotal DNAを抽出し、シーケンスライブラリーを構築する。微生物コミュニティからシングルセルゲノムDNAを抽出する手法としては、IHMS DNA extraction protocol Qなどがあげられる。抽出したDNAの調製手法としては、QIAseq FX DNA library kitなどがあげられる。シングルエンドシーケンスまたはペアエンドシーケンスによりメタゲノム断片配列を得る。このときロングリードシーケンスを実施してもよい。DNAシーケンスの手法は、illumina MiSeq、illumina HiSeqなどのDNAシーケンサーを用いる方法や、PacBio Sequel System、Oxford nanopre GridIONなどのDNAシーケンサーを用いる方法などがあげられる。
本開示において、B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップは、以下のように実施し得る:
例えば、複数の単位生物単位を含む生物単位集団から、シングルセルを単離し、単離したシングルセルの溶菌、およびゲノムDNA増幅を行い、シーケンスライブラリーを構築する。微生物コミュニティからシングルセルゲノムDNAを抽出し調製する手法としては、ドロップレットによる手法や、SAG-gel法などがあげられる。シングルエンドシーケンスまたはペアエンドシーケンスによりシングルセルゲノム断片配列を得る。このときロングリードシーケンスを実施してもよい。DNAシーケンスの手法は、illumina MiSeq、illumina HiSeqなどのDNAシーケンサーを用いる方法や、PacBio Sequel System、Oxford nanopre GridIONなどのDNAシーケンサーを用いる方法などがあげられる。
本開示において、C-1)B)について、リードよりも長い元のゲノム配列の再構築を行うステップは、以下のように実施し得る:
例えば、B)で得られた断片配列のうち低品質の断片配列を削除し、残った断片配列について断片配列間の共通の配列を用いて複数の断片配列を連結することにより、断片配列より長い配列を構築する。より具体的には、シングルセルゲノムリードから、bbduk.sh、fastx-toolkit、fastp、fastqc、prinseq-lite.plなどの品質管理ツールにより特定の品質のリードを抽出する。さらにこれらのリードからヒトなどのコンタミリードを除去する。ヒトなどのコンタミリードを除くツールとしては、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールとreformat.shなどのフォーマッティングツールがあげられる。取得した高品質リードをアセンブルすることによりアセンブル配列を取得する。リードをアセンブルするツールとしては、SPAdesなどがあげられる。
本開示において、C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップは、以下のように実施し得る。:
例えば、C-1)で得られたシングルセルゲノム断片配列を再構築した配列について、単位生物単位ごとにグループ化し、各グループに含まれる配列を再構築する。より具体的には、取得したシングルセルゲノムアセンブル配列をccSAGなどにより統合する。各シングルセルゲノムアセンブル配列のシングルコピーマーカー遺伝子相同性、ANIを用いてクラスタリングを行う。遺伝子相同性はBLAST、ANI計算はfastANIなどを用いることが可能である。グループ化されたシングルセルゲノムリードを結合しSPAdesなどのツールにより再アセンブルすることで、シングルセルゲノム統合配列を取得する。
本開示において、C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップは、以下のように実施し得る:
例えば、C-1)で得られたシングルセルゲノム断片配列を再構築した配列および/またはC-2)で得られたシングルセルゲノム断片配列を、メタゲノム断片配列にマッピングし、メタゲノム断片配列を最もカバー率の高い系統分類グループに振り分けることで、メタゲノム断片配列の分別断片配列を得る。より具体的には、メタゲノムリードから、bbduk.sh、fastx-toolkit、fastp、fastqc、prinseq-lite.plなどの品質管理ツールにより特定の品質のリードを抽出する。さらにこれらのリードからヒトなどのコンタミリードを除去する。ヒトなどのコンタミリードを除くツールとしては、BWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールとreformat.shなどのフォーマッティングツールがあげられる。取得した高品質リードを前記シングルセルゲノム統合配列にBWA、Bowtie 2、HISAT2、Minimap2、bbmap.shなどのマッピングツールを用いてマッピングし分別する。
本開示において、C-4)前記メタゲノム断片配列の分別断片配列について、分別断片配列よりも長い元のゲノム配列の再構築を行うステップは、以下のように実施し得る:
例えば、C-3)で得られたメタゲノム断片配列の分別断片配列のうち低品質の分別断片配列を削除し、残った分別断片配列について分別断片配列間の共通の配列を用いて複数の分別断片配列を連結することにより、分別断片配列より長い配列を構築する。より具体的には、前記分別されたメタゲノムリードを、MEGAHIT、SPAdesなどのアセンブルツールによりアセンブルを行う。
本開示において、D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップは、以下のように実施し得る:
例えば、メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを再構築(結合)することにより、改良された再構築ゲノム配列を得る。より具体的には、前記分別メタゲノムアセンブル配列と対応するシングルセルゲノム統合配列を、CSARやLINKS、HaploMerger2などのツールを用いて結合する。
別の局面において、本開示は、複数の単位生物単位(例えば、シングルセル)を含む生物単位集団(例えば、微生物コミュニティ)の配列を解析する方法をコンピュータに実装させるプログラムであって、該方法は
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C)A)およびB)について、リードよりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行うステップと、
D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップと
を含む、プログラムを提供する。
実装するプログラム言語としては、各shell(bash、csh等)、perl、python、ruby、R、mathematica、matlab、julia、php、javascript等のインタプリター型のスクリプト言語、c、c++、c#、java、go等のコンパイル言語等があげられる。
他の局面において、本開示は、複数の単位生物単位(例えば、シングルセル)を含む生物単位集団(例えば、微生物コミュニティ)の配列を解析する方法をコンピュータに実装させるプログラムを格納する記録媒体であって、該方法は
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
C)A)およびB)について、リードよりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行うステップと、
D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップと
を含む、記録媒体を提供する。
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサと主記憶装置により構成されたプログラム実行部が、USBメモリ、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
さらに別の局面において、本開示は、複数の単位生物単位(例えば、シングルセル)を含む生物単位集団(例えば、微生物コミュニティ)の配列を解析するシステムであって、該システムは
A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部と、
B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部と、
C)メタゲノム断片配列およびシングルセルゲノム断片配列について、リードよりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行う配列処理部と、
D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得る配列再構築部と
を含む、システムを提供する。
本開示において、A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部は、以下のように実施し得る:例えば、生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るプログラムが格納されたCPU、あるいは、CPUであって生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るプログラムが伝達されるとメタゲノム断片配列生成部として機能する部分などが挙げられる。大規模な解析を行う場合は、並列計算機システムを使用することが望ましい。複数のCPUと主記憶装置から構築される複数台の計算機と、分散ファイルシステムによりI/Oボトルネックを解消するストレージを用意する。Webサーバを起動することでwebアプリケーションとしても動作させることが可能となる。入力にメタゲノムリード、出力にメタゲノムアセンブル配列を提供するシステムとして動作させることが可能である。
本開示において、B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部は、以下のように実施し得る:例えば、生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るプログラムが格納されたCPU、あるいは、CPUであって生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るプログラムが伝達されるとシングルセルゲノム断片配列生成部として機能する部分などが挙げられる。大規模な解析を行う場合は、並列計算機システムを使用することが望ましい。複数のCPUと主記憶装置から構築される複数台の計算機と、分散ファイルシステムによりI/Oボトルネックを解消するストレージを用意する。Webサーバを起動することでwebアプリケーションとしても動作させることが可能となる。入力にシングルセルゲノムリード、出力にシングルセルゲノムアセンブル配列を提供するシステムとして動作させることが可能である。
本開示において、C)メタゲノム断片配列およびシングルセルゲノム断片配列について、リードよりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行う配列処理部は、以下のように実施し得る:例えば、メタゲノム断片配列およびシングルセルゲノム断片配列について、リードよりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行うプログラムが格納されたCPU、あるいは、CPUであってメタゲノム断片配列およびシングルセルゲノム断片配列について、リードよりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行うプログラムが伝達されると配列処理部として機能する部分などが挙げられる。大規模な解析を行う場合は、並列計算機システムを使用することが望ましい。複数のCPUと主記憶装置から構築される複数台の計算機と、分散ファイルシステムによりI/Oボトルネックを解消するストレージを用意する。Webサーバを起動することでwebアプリケーションとしても動作させることが可能となる。入力にメタゲノムリードおよびシングルセルゲノムリード、出力にキメラ除去リード、メタゲノムアセンブル配列、シングルセルゲノムアセンブル配列、分別メタゲノムアセンブル配列、およびシングルセルゲノム統合配列を提供するシステムとして動作させることが可能である。
本開示において、D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得る配列再構築部は、以下のように実施し得る:例えば、メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るプログラムが格納されたCPU、あるいは、CPUであってメタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るプログラムが伝達されると配列再構築部として機能する部分などが挙げられる。大規模な解析を行う場合は、並列計算機システムを使用することが望ましい。複数のCPUと主記憶装置から構築される複数台の計算機と、分散ファイルシステムによりI/Oボトルネックを解消するストレージを用意する。Webサーバを起動することでwebアプリケーションとしても動作させることが可能となる。入力にメタゲノムリードおよびシングルセルゲノムリード、または、メタゲノムアセンブル配列およびシングルセルゲノム統合配列、出力に再構築されたゲノム配列を提供するシステムとして動作させることが可能である。
一局面において、本開示は、有用遺伝子および/または有用遺伝子クラスターを識別するための方法であって、
必要に応じて、本開示の方法により得られたゲノム配列に対して遺伝子予測ツールを使用するステップと、
前記ゲノム配列および/または遺伝子データ対して遺伝子機能推定ツールを使用して、有用遺伝子および/または有用遺伝子クラスターを識別するステップと
を含む、方法を提供する。
本開示において、開示の方法により得られたゲノム配列に対して遺伝子予測ツールを使用するステップは、以下のように実施し得る:取得したゲノム配列に対して、ProkkaやDFASTなどの遺伝子予測ツールを実行することで、遺伝子情報を取得することが可能である。
本開示において、前記ゲノム配列および/または遺伝子データ対して遺伝子機能推定ツールを使用して、有用遺伝子および/または有用遺伝子クラスターを識別するステップは、以下のように実施し得る:取得したゲノム配列、または前記取得した予測遺伝子に対して、antiSMASH、NaPDoS、PRISM/GNPなどの生合成遺伝子クラスター検出ツールを使用することで、有用遺伝子クラスターなどを検出することが可能である。
一実施形態において、有用遺伝子および/または有用遺伝子クラスターとして、薬剤耐性遺伝子、有用生体分子の生成に関与するタンパク質をコードする遺伝子およびそれらの遺伝子クラスターなどが挙げられる。
以上、本開示の1つまたは複数の態様に係るシステム、プログラム、記録媒体、方法について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の1つまたは複数の態様の範囲内に含まれてもよい。
また、上記各実施の形態における装置が備える構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。例えば、本開示の配列情報を処理するシステムは、必要に応じてデータベースと組みわせられてもよいし、バイオマーカー等の機能を有する配列を特定するシステムを内包または組み合わされてもよい。
システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
また、本開示の一局面は、このような配列情報処理装置やシステムだけではなく、機能特化したシステム(例えば、バイオマーカースクリーニング装置、薬効判定装置、診断装置など)であってもよい。また、本開示の実施形態は、配列情報処理に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の痛み推定装置などを実現するソフトウェアは、本明細書において上述したプログラムであり得る。
本明細書において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本明細書において参考として援用される。
以上、本開示を、理解の容易のために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本開示を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本開示を限定する目的で提供したのではない。従って、本開示の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。
以下の実施例では、Illumina社の製品を用いたが、サーモフィッシャーサイエンティフィック社、Oxford Nanopore Technologies社なども代替的に用いることができる。
(実施例1)
(サンプルの取得)
NITEバイオテクノロジーセンター(NBRC)の提供する菌体カクテル(Cell-Mock-001)を取得した。菌体カクテルは15種のNBRC株を純粋培養し、それぞれの細胞数が等量となるよう混合したものである。
(リファレンスゲノムの取得)
取得した標準菌体カクテル(Cell-Mock-001)に含まれる菌株のNBRC番号などを基に、NCBIから菌体カクテルに含まれる15種類の菌株のリファレンスゲノム配列を取得した。リファレンスゲノムの内容を下表に提示する。
Figure 2022021661000001
(シングルセルゲノムDNAの調製およびDNAシーケンス)
標準菌体カクテルからの微生物シングルセル単離、単離したシングルセルの溶菌、およびゲノムDNA増幅は、SAG-gel法(Chijiiwa, 2020)により行った。Illumina MiSeqを用い、150サイクルペアエンドシーケンスによりDNAシーケンスを取得した(トータルリード数:52M、トータル塩基サイズ:3.9Gb)。
(シングルセルゲノム解析)
標準菌体カクテルから得られた48個のシングルセルゲノムリードから、bbduk.sh 38.79を用いることで低品質リードを削除した(オプション:threads=4、qtrim=r、trimq=10、minlength=40、maxns=1)。リードのde novoアセンブルはSPAdes 3.14.0を用いて行い(オプション:--sc --careful --disable-rr --disable-gzip-output -t 4 -m 32)、1000bp未満のコンティグは以降の解析から除外した。
(シングルセルゲノム系統分類および統合)
得られたシングルセルゲノムアセンブル配列に関して、CheckMによる完全性が10%以上のもの、かつ汚染度が10%未満のもの47個を抽出した。47個の対象に関して、総当たりでfastANI 1.3によりANI(Average Nucleotide Identity)をデフォルトオプションで計算した。また、CheckM v1.1.2 taxonomy work flow(オプション:-nt --tab_table -t 16 domain Bacteria)により得られたシングルコピーマーカー遺伝子で共通なものの相同性をblastn 2.9.0+によりデフォルトオプションで計算した。ANIが95%以上、かつシングルコピーマーカー遺伝子の相同性が99.9%以上のシングルセルを同一菌株とみなし、グループ化した。
(メタゲノムDNAの調製およびDNAシーケンス)
IHMS protocol Qに従い、標準菌体カクテルからTotal DNAを抽出した。シーケンスライブラリーは、QIAseq FX DNA library kitを用いて構築した。Illumina MiSeqを用い、150サイクルペアエンドシーケンスによりDNAシーケンスを取得した(トータルリード数:35M、トータル塩基サイズ:2.6Gb)。
(メタゲノム配列解析)
標準菌体カクテルから得られた1つのメタゲノムリードは、bbduk.sh 38.79を用いることで低品質リードを削除した(オプション:threads=4、qtrim=r、trimq=10、minlength=40、maxns=1)。リードのde novoアセンブルはSPAdes 3.14.0を用いて行った(オプション:--meta --k auto -t 24 -m 240)。
(メタゲノム配列分別)
統合されたシングルセルゲノムリードを、メタゲノムアセンブル配列に対してminimap2 2.17を用いてデフォルトオプションでマッピングした。マッピング結果に関して、bedtools v2.29.2のbamtobed機能によりbed形式に変換し、さらにmerge機能によりbed形式の統合を行った。各メタゲノムアセンブル配列を最もカバー率の高い系統分類グループに振り分けることで、分別メタゲノムアセンブル配列を構築した。
(シングルセルゲノムをガイドとした再アセンブル)
シングルセルゲノムアセンブル配列によって分別されたメタゲノムアセンブル配列に対し、minimap2 2.17によりメタゲノムリードをマッピングすることで対応するメタゲノムリード(分別断片配列)を取得した。分別されたメタゲノムリードをSPAdes 3.14.0によりde novoアセンブルを再度行い最終的なゲノム配列を取得した(オプション:--careful -k auto -t 4 -m 32 --nanopore FILE)。ここで、--nanoporeオプションに対し、対応する系統分類の統合シングルセルゲノムアセンブル配列を指定することで、統合シングルセルゲノムアセンブル配列を疑似ロングリードとしてSPAdesに提示し、分別されたメタゲノムリードと統合シングルセルゲノムアセンブル配列とのハイブリッドアセンブルを行った(図2)。
(比較用のビニングデータ取得)
一般的に行われるメタゲノムアセンブル配列の分別手法として、CONCOCT 1.0.0(Concoct,2014)、MaxBin2 2.2.6(Maxbin2,2014)、MetaBAT2 2.12.1(Metabat2,2015)を用い、デフォルトオプションで実施した。これら3種類の異なる手法で得られた分別結果を再構築するため、DAS_Tool 1.1.2(DAS_Tool,2018)およびMetaWRAP 1.2.3(DAS_Tool,2018)を用い、デフォルトオプションで実施した。
(対応するリファレンスゲノムの同定)
本手法で分別したゲノム配列と一般的な5種のビニングで分別したゲノム配列に関して、fastANI 1.3を用いてリファレンスゲノムに対するANIを計算した。99.5%以上の相同性をもつリファレンスゲノムを各分別ゲノム配列に対応付けた。
(配列精度の計算)
各アセンブル配列の評価は、QUAST v.5.0.2(デフォルトオプション)およびChcekM v1.1.2 lineage work flow(オプション:-nt --tab_table -t 16)によって行った。5S, 16S, 23S ribosomal RNA遺伝子の同定はProkka 1.14.6によって行った(オプション:--rawproduct --cpus 8 --mincontiglen 200)。リファレンスゲノムの測定精度を評価するために、minimap2 2.17を用いて、リファレンスゲノムに対して対応する各アセンブル配列をデフォルトオプションでマッピングした。マッピング結果をbedtools v2.29.2によりbed形式に変換し、リファレンスゲノムに対するゲノムカバー率Lを計算した。リファレンスゲノムサイズをG、アセンブル配列サイズをAとしたとき、適合率(precision : P)および再現率(recall : R)、F値(F score)を以下の式で計算した。
Figure 2022021661000002
(完全性と汚染度)
図5は、それぞれの手法で得たゲノム配列の完全性と汚染度の統合指標を示している。すべてのゲノム配列において完全性のz-score(z.x)および汚染度のz-score(z.y)の平均値を指標とした。ここで、完全性のベクトルをx(%)としたとき、完全性のz-score(z.x)は、
z.x=(x-mx)/sx
である(mxは既存手法および本開示の方法により得られたデータから算出されたxの平均、sxは完全性の標準偏差)。
同様に、汚染度のベクトルをy(%)としたとき、汚染度のz-score(z.y)は、
z.y=(y-my)/sy
である(myは既存手法および本開示の方法により得られたデータから算出されたyの平均、syは汚染度の標準偏差)。
ただし、汚染度に関しては-1を乗算している。既存手法(conococt、maxbin2、metabat2、metawrap、dastool)では、完全性または汚染度のいずれかの水準が高くないため、ゲノム配列の完全性と汚染度の統合指標は、全体の平均値である0を下回るものが存在する。一方で本開示によるゲノム配列(hybrid-contig)はすべて0以上、すなわち高水準な値を示している。
(rRNAとtRNAの取得)
図6は、rRNAとtRNAの取得度合を示している。ここで、それぞれのrRNAの種類(例えば、5S,16S)について、最も長く抽出できた長さをrとしたとき、それぞれのrRNAの取得度合いを示すz-score(z.r)は、
z.r=(r-mr)/sr
である(mrは既存手法および本開示の方法により得られたデータから算出されたrの平均、srはrRNAの取得度合いの標準偏差)。
同様に、tRNAについて、取得できた種類数をtとしたとき、tRNAのz-score(z.t)は、
z.t=(t-mt)/st
である(mtは既存手法および本開示の方法により得られたデータから算出されたtの平均、stは取得できた種類数の標準偏差)。
rRNAとtRNAの完全性と汚染度以外にも、rRNAとtRNAの取得はゲノム品質において重要な指標となる。すべてのゲノム配列において、最も長く抽出できたrRNAの長さ、tRNAの種類に関するz-scoreの平均値を用いてrRNAとtRNAの取得指標を算出した。既存のメタゲノム解析手法に比べ、本開示の方法はrRNAおよびtRNAの取得指標は高い値を示している。
(リファレンスゲノム再現精度)
図7は、リファレンスゲノムの測定精度を示している。精度指標であるF scoreは、従来の方法および本開示の方法により取得したゲノム配列のリファレンスゲノム配列に対する適合率と再現率の調和平均を示す指標であり、本開示の方法により得たゲノム配列が最も高い値を示している。図8は、従来の方法および本開示の方法により取得したゲノム配列をリファレンスゲノムにマップしたときの100kbあたりのミスマッチ数を示している。正しくゲノム配列が再現できているほどミスマッチ数は少なくなる。この指標においても、本開示の方法により得たゲノム配列が最も低い値を示している。これらの結果は、本開示の方法が、従来の方法と比較してより高精度のゲノム配列を得ることができることを示している。
(実施例2)
(サンプルの取得)
実施例2では、ヒト糞便検体を用いた。テクノスルガラボの採取キット・採取容器を用いて検体を採取し、以降の解析を行った。
(シングルセルゲノムDNAの調製およびDNAシーケンス)
糞便検体からの微生物シングルセル単離、単離したシングルセルの溶菌、およびゲノムDNA増幅は、SAG-gel法(Chijiiwa,2020)により行った。Illumina HiSeqを用い、300サイクルペアエンドシーケンスによりDNAシーケンスを取得した(トータルリード数:49M、トータル塩基サイズ:6.5Gb)。
(シングルセルゲノム解析)
糞便検体から得られた96個のシングルセルゲノムリードから、bbduk.sh 38.79を用いることで低品質リードを削除した(オプション:threads=4、qtrim=r、trimq=10、minlength=40、maxns=1)。リードのde novoアセンブルはSPAdes 3.14.0を用いて行い(オプション:--sc --careful --disable-rr --disable-gzip-output -t 4 -m 32)、1000bp未満のコンティグは以降の解析から除外した。
(シングルセルゲノム系統分類および統合)
得られたシングルセルゲノムアセンブル配列に関して、CheckMによる完全性が20%以上のものかつ汚染度が10%未満のもの60個を抽出した。60個の対象に関して、総当たりでfastANI 1.3によりANI(Average Nucleotide Identity)をデフォルトオプションで計算した。また、CheckM v1.1.2 taxonomy work flow(オプション:-nt --tab_table -t 16 domain Bacteria)により得られたシングルコピーマーカー遺伝子で共通なものの相同性をblastn 2.9.0+によりデフォルトオプションで計算した。ANIが95%以上、かつシングルコピーマーカー遺伝子の相同性が99.9%以上のシングルセルを同一菌株とみなし、グループ化した。その結果18個の株違いのゲノム配列を取得した。
(メタゲノムDNAの調製およびDNAシーケンス)
IHMS protocol Qに従い、糞便検体からからTotal DNAを抽出した。シーケンスライブラリーは、QIAseq FX DNA library kitを用いて構築した。Illumina HiSeqを用い、300サイクルペアエンドシーケンスによりDNAシーケンスを取得した(トータルリード数:40M、トータル塩基サイズ:6.0Gb)。
(メタゲノム配列解析)
糞便検体から得られた1つのメタゲノムリードは、bbduk.sh 38.79を用いることで低品質リードを削除した(オプション:threads=4、qtrim=r、trimq=10、minlength=40、maxns=1)。リードのde novoアセンブルはMEGAHIT v1.1.13を用いて行った(オプション:-t 12)。
(アセンブル配列の対応付け)
BWA 0.7.17を用いて、メタゲノムのアセンブル配列に対して18のシングルセルゲノムの統合配列をデフォルトオプションでマップした。メタゲノムアセンブル配列の各コンティグは、最もコンティグをカバーしている統合配列に対応付けた。8,178のメタゲノムコンティグ(トータル塩基サイズ34.9Mb)を統合配列に対対応付をもって分別できた。
(アセンブル配列の結合)
CSAR v1.1.1を用いて、統合配列とメタゲノムアセンブル配列を結合した。ターゲットにシングルセルゲノム統合配列、リファレンスにメタゲノムアセンブル配列を指定した(図3)。オプションは-nucを用いた。
(統合配列と結合した高品質ゲノム配列の比較)
図9は、シングルセルゲノムの統合配列と、メタゲノムアセンブル配列を結合して高品質化したゲノム配列の精度比較である。csagは統合配列、hybridは結合した高品質ゲノム配列を表す。ゲノムサイズは両者ともほぼ同等であるのに対し、コンティグ数はhybridが減少しN50はhybridが上昇していた。つまり、分断されていたシングルセルゲノム統合配列のコンティグが、メタゲノムアセンブル配列により結合され、より品質の高いゲノム配列になっていることを示している。また、ゲノム配列の完全性と汚染度の統合指標およびrRNAとtRNAの取得指標についても評価した結果、両指標について、メタゲノムアセンブル配列より結合したゲノム配列(hybrid)で低下することはなく同等であった(図12)。
(実施例3)
ここでは、メタゲノムリードをシングルセルゲノムのアセンブル配列または統合配列で分別する方法の1例を示す。同一サンプルにおいてシングルセルゲノムリードとメタゲノムリードを取得し、シングルセルゲノムリードからアセンブル配列および統合配列を取得する。ここで得られたアセンブル配列と統合配列にメタゲノムリードをマッピングし、分別する。分別されたメタゲノムリードをアセンブルし、分別アセンブル配列を取得する。対応するシングルセルゲノムアセンブル配列・統合配列と結合し、最終的な高品質ゲノム配列を取得する(図4)。
(実施例4)
(使用データ)
ここでは、実施例1で取得した標準菌体カクテルのデータを使用して解析を実施した。サンプルの取得、シングルセルゲノムDNAの調製およびDNAシーケンス、メタゲノムDNAの調製およびDNAシーケンス、シングルセルゲノム解析、シングルセルゲノム系統分類および統合、メタゲノム配列解析は実施例1と同じである。本実施例では、Pseudomonas putida(アクセッション番号:GCF_000412675.1)として同定されたデータを用いて解析した。
(リファレンスゲノム配列を用いたキメラ配列同定)
標準菌体カクテルのPseudomonas putidaのリファレンスゲノム配列に対して、シングルセルゲノムリードをマップした結果を取得した。マッピングツールはminimap2を用い、解析オプションはデフォルトとした。正しいキメラ配列を同定した。
(従来法によるキメラ配列同定)
ccSAG法(Kogawa,2018)によりシングルセルゲノムリードのキメラ配列を同定した。シングルセルゲノム統合配列を作るにあたり、マーカー遺伝子やANIなどを基にシングルセルゲノムアセンブル配列の同一株を同定する。同一株と同定されたシングルセルゲノムアセンブル配列に対応する。シングルセルゲノムリードを、自身以外のシングルセルゲノムアセンブル配列へマップした結果を取得した。マッピングツールはminimap2を用い、解析オプションはデフォルトとした。
(本開示の方法によるキメラ配列同定)
メタゲノムアセンブル配列に対してシングルセルゲノムリードをマップした結果を取得した。マッピングツールはminimap2を用い、解析オプションはデフォルトとした。
(キメラ配列の同定)
本実施例では、マッピング結果であるSAMフォーマットに記載されているCIGAR文字列を分析することでキメラ配列の同定を行った。CIGAR文字列中にソフトクリップ、ハードクリップ、N文字が含まれているリードをキメラ配列として同定した。なお、ソフトクリップは、一部リードがゲノムにマップされていない部分があり、リードにそのマップされていない部分が情報として残っている状態、ハードクリップは、一部リードがゲノムにマップされていない部分があり、リードからそのマップされていない部分が除去されている状態という処理がなされている。ソフトクリップリードは、マップされている部分とマップされていない部分を分割して2つのリードにして再利用し、ハードクリップはマップされなかった部分はすでにリードからなくなっているため、そのまま1つのリードとして再利用した。N文字は、特定のリードが別個の場所にマッピングされた際に、マッピングされた場所がどの程度離れているかを示しており、例えば、25M5000N25Mという形で出てきた場合、これは50bpのリードが25bp、25bpマップされているが、5000bp離れてマップされていることを意味する。また、CIGAR文字列が45M23Sなどの場合、リードの左側45塩基がマップされ右側23塩基はマップされないことになる。これは45塩基と23塩基の独立した塩基配列が組み合わさったキメラ配列と考えられる。
(従来法との比較)
図11は、従来法と本開示の方法において、リファレンスゲノム配列を用いたキメラ配列同定と同等に同定出来たキメラ配列、リファレンスゲノム配列を用いたキメラ配列同定のみで検出したキメラ配列、リファレンスゲノム配列を用いたキメラ配列同定では検出されなかったキメラ配列に関してそれぞれプロットしたものである。本開示の方法で正しく同定できたキメラ配列は164,019であり、従来法の138,682と比較して18.3%多く検出することができた。また、正解率も従来法の76.7%から94.4%へ大きく向上する結果となった。
(実施例5)
以下は、本発明を検体受託解析などで使用する場合の実施例となる。
(検体の受領)
ユーザから糞便、唾液、皮膚、土壌などの検体を適切な方法で受領する。例えば、糞便検体の場合テクノスルガラボの提供する採便キットなどの使用が考えられる。唾液検体の場合OMNIgene oral kitなどの使用が考えられる。皮膚検体の場合テクノスルガラボの提供するメタフロキーパーなどの使用が考えられる。土壌検体の場合、採取した土壌を冷蔵状態で受領するなどが考えられる。
(DNAの抽出・調製・シーケンシング)
受領した検体は、メタゲノム解析用とシングルセルゲノム解析用に分けられ、それぞれDNA抽出・調製・DNAシーケンシングを実施する。
(データ解析環境の準備)
データ解析はWindowやMacなどでも可能であるが、ここではLinux(登録商標) OSの動作するコンピュータ上で行うことを想定する。大規模にデータ解析を行う場合は、並列解析を行うことができる高性能計算機を使用することが望ましい。QCツール(bbduck.sh、fastqpなど)、アセンブルツール(MEGAHIT、SPAdesなど)、マッピングツール(BEWA、HISAT2、MiniMap2など)、アセンブリ評価ツール(CheckM、QUASTなど)、遺伝子予測ツール(Prokka、DFASTなど)、機能推定ツール(antiSMASH、ABRicate)、その他ユーティリティ(BLAST、SAMtools、BEDtoolsなど)をインストールしておく。
(相互参照による高品質ゲノム取得)
取得したメタゲノムリードをアセンブルしてメタゲノムアセンブル配列を取得する。シングルセルゲノムリードをメタゲノムアセンブル配列にマップしてキメラ配列を除去する。キメラ除去シングルセルゲノムリードをアセンブルしてシングルセルゲノムアセンブル配列を取得する。シングルセルゲノムアセンブル配列をccSAGなどで統合し、シングルセルゲノム統合配列を作成する。メタゲノムアセンブル配列とシングルセルゲノム統合配列をマッピングなどにより対応付け、メタゲノムアセンブル配列を分別する。メタゲノム分別配列とシングルセルゲノム統合配列を結合することで菌株レベルの高品質ゲノムを取得する。
(遺伝子予測・機能推定)
高品質ゲノムに対し遺伝子予測ツールを実行し、遺伝子データを取得する。高品質ゲノム配列または遺伝子データに対し機能推定ツールを実行し、薬剤耐性をもつ遺伝子の同定や、生合成遺伝子クラスターの同定などを行う。
(解析データの提供)
解析にて取得したデータ(高品質ゲノム配列やそれに付随する遺伝子データなど)は、クラウド上からダウンロードする形でユーザに提供する。もしくは、ポータブルHDDなどを使用して郵送でユーザへ提供する。
(実施例6)
(Webサービスの概要)
本実施例では、ユーザが独自に測定したメタゲノムデータとシングルセルゲノムデータを統合解析して高品質ゲノム配列を返すwebアプリケーションに関して言及する。webサーバはapacheやnginxなどを用いることが考えられる。実際の計算は負荷がかかるため、webサーバと別に計算用サーバを用意しておく。計算状態を計算用サーバが管理し、webサーバが問い合わせることでユーザに計算状態を知らせるようにしておく。計算完了後、ユーザはアウトプットをweb経由で取得することが可能となる。
(入力データ)
サービスが受け入れるデータは、メタゲノムリードとシングルセルゲノムリード、またはメタゲノムアセンブル配列とシングルセルゲノムアセンブル配列などが考えられる。
(出力データ)
ユーザは、高品質ゲノム配列をダウンロードにより取得可能となる。オプションとして予測された遺伝子データや、遺伝子機能情報などの提供も考えられる。
(注記)
以上のように、本開示の好ましい実施形態を用いて本開示を例示してきたが、本開示は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。本明細書において引用した特許、特許出願及び他の文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。
本開示は、遺伝子技術に関する分野で利用可能性を見出す。

Claims (32)

  1. 複数の単位生物単位を含む生物単位集団の配列を解析する方法であって、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C)A)およびB)について、リードよりも長い元のゲノム配列の再構築、分別および/または統合および/またはキメラ除去をそれぞれ行うステップと、
    D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップと
    を含む、方法。
  2. 前記メタゲノム断片配列またはそれに由来する配列は、メタゲノム断片配列、メタゲノム断片配列を再構築した配列、およびメタゲノム断片配列を再構築した配列を分別した配列を含み、
    前記シングルセルゲノム断片配列またはそれに由来する配列は、シングルセルゲノム断片配列、シングルセルゲノム断片配列を再構築した配列、およびシングルセルゲノム断片配列を再構築した配列を統合した配列を含む、
    請求項1に記載の方法。
  3. 前記組み合わせ解析が、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別を含む、請求項1または2に記載の方法。
  4. 前記組み合わせ解析が、メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合を含む、請求項1~3のいずれか一項に記載の方法。
  5. 前記組み合わせ解析が、シングルセルゲノム断片配列をメタゲノム断片配列を再構築した配列にマッピングすることにより、シングルセルゲノム断片配列をメタゲノム断片配列を再構築した配列に分断して、アライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することを含む、請求項1~4のいずれか一項に記載の方法。
  6. 前記方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C-1)A)およびB)について、リードよりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
    C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、ステップと、
    C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成するステップと、
    D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得るステップと
    を含む、請求項1~5のいずれか一項に記載の方法。
  7. 前記方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C-1)A)およびB)について、リードよりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
    C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
    C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成するステップと、
    D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
    を含む、請求項1~6のいずれか一項に記載の方法。
  8. 前記方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C-1)B)について、リードよりも長い元のゲノム配列の再構築を行うステップと、
    C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
    C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップと、
    C-4)前記メタゲノム断片配列の分別断片配列について、リードよりも長い元のゲノム配列の再構築を行うステップと、
    D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
    を含む、請求項1~7のいずれか一項に記載の方法。
  9. 複数の単位生物単位を含む生物単位集団の配列を解析する方法をコンピュータに実装させるプログラムであって、該方法は
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築、分別、統合および/またはキメラ除去をそれぞれ行うステップと、
    D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップと
    を含む、プログラム。
  10. 前記メタゲノム断片配列またはそれに由来する配列は、メタゲノム断片配列、メタゲノム断片配列を再構築した配列、およびメタゲノム断片配列を再構築した配列を分別した配列を含み、
    前記シングルセルゲノム断片配列またはそれに由来する配列は、シングルセルゲノム断片配列、シングルセルゲノム断片配列を再構築した配列、およびシングルセルゲノム断片配列を再構築した配列を統合した配列を含む、
    請求項9に記載のプログラム。
  11. 前記組み合わせ解析が、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別を含む、請求項9または10に記載のプログラム。
  12. 前記組み合わせ解析が、メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合を含む、請求項9~11のいずれか一項に記載のプログラム。
  13. 前記組み合わせ解析が、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列にマッピングすることにより、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列に分断して、アライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することを含む、請求項9~12のいずれか一項に記載のプログラム。
  14. 前記方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
    C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、ステップと、
    C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成するステップと、
    D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得るステップと
    を含む、請求項9~13のいずれか一項に記載のプログラム。
  15. 前記方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
    C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
    C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成するステップと、
    D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
    を含む、請求項9~14のいずれか一項に記載のプログラム。
  16. 前記方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C-1)B)について、前記断片配列よりも長い元のゲノム配列の再構築を行うステップと、
    C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
    C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップと、
    C-4)前記メタゲノム断片配列の分別断片配列について、リードよりも長い元のゲノム配列の再構築を行うステップと、
    D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
    を含む、請求項9~15のいずれか一項に記載のプログラム。
  17. 複数の単位生物単位を含む生物単位集団の配列を解析する方法をコンピュータに実装させるプログラムを格納する記録媒体であって、該方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築、分別、統合および/またはキメラ除去をそれぞれ行うステップと、
    D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得るステップと
    を含む、記録媒体。
  18. 前記メタゲノム断片配列またはそれに由来する配列は、メタゲノム断片配列、メタゲノム断片配列を再構築した配列、およびメタゲノム断片配列を再構築した配列を分別した配列を含み、
    前記シングルセルゲノム断片配列またはそれに由来する配列は、シングルセルゲノム断片配列、シングルセルゲノム断片配列を再構築した配列、およびシングルセルゲノム断片配列を再構築した配列を統合した配列を含む、
    請求項17に記載の記録媒体。
  19. 前記組み合わせ解析が、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別を含む、請求項17または18に記載の記録媒体。
  20. 前記組み合わせ解析が、メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合を含む、請求項17~19のいずれか一項に記載の記録媒体。
  21. 前記組み合わせ解析が、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列にマッピングすることにより、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列に分断して、アライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することを含む、請求項17~20のいずれか一項に記載の記録媒体。
  22. 前記方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
    C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、ステップと、
    C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成するステップと、
    D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得るステップと
    を含む、請求項17~21のいずれか一項に記載の記録媒体。
  23. 前記方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行うステップと、
    C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
    C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成するステップと、
    D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
    を含む、請求項17~22のいずれか一項に記載の記録媒体。
  24. 前記方法は、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るステップと、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るステップと、
    C-1)B)について、前記断片配列よりも長い元のゲノム配列の再構築を行うステップと、
    C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成するステップと、
    C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップと、
    C-4)前記メタゲノム断片配列の分別断片配列について、リードよりも長い元のゲノム配列の再構築を行うステップと、
    D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得るステップと
    を含む、請求項17~23のいずれか一項に記載の記録媒体。
  25. 複数の単位生物単位を含む生物単位集団の配列を解析するシステムであって、該システムは、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部と、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部と、
    C)メタゲノム断片配列およびシングルセルゲノム断片配列について、前記断片配列よりも長い元のゲノム配列の再構築、分別、統合および/またはキメラ除去をそれぞれ行う配列処理部と、
    D)メタゲノム断片配列またはそれに由来する配列と、シングルセルゲノム断片配列またはそれに由来する配列とを少なくとも含む配列を用いた組み合わせ解析を行い、改良された再構築ゲノム配列を得る改良ゲノム配列生成部と
    を含む、システム。
  26. 前記メタゲノム断片配列またはそれに由来する配列は、メタゲノム断片配列、メタゲノム断片配列を再構築した配列、およびメタゲノム断片配列を再構築した配列を分別した配列を含み、
    前記シングルセルゲノム断片配列またはそれに由来する配列は、シングルセルゲノム断片配列、シングルセルゲノム断片配列を再構築した配列、およびシングルセルゲノム断片配列を再構築した配列を統合した配列を含む、
    請求項25に記載のシステム。
  27. 前記組み合わせ解析が、シングルセルゲノム断片配列またはそれに由来する配列を用いた、メタゲノム断片配列またはそれに由来する配列の分別を含む、請求項25または26に記載のシステム。
  28. 前記組み合わせ解析が、メタゲノム断片配列またはそれに由来する配列を用いた、シングルセルゲノム断片配列またはそれに由来する配列の統合を含む、請求項25~27のいずれか一項に記載のシステム。
  29. 前記組み合わせ解析が、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列にマッピングすることにより、シングルセルゲノム断片配列を、メタゲノム断片配列を再構築した配列に分断して、アライメントされたシングルセルゲノム断片配列をキメラ配列と特定すること、および必要に応じてキメラ配列を除去することを含む、請求項25~28のいずれか一項に記載のシステム。
  30. 前記システムは、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部と、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部と、
    C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行う再構築部と、
    C-2)前記メタゲノム断片配列を再構築した配列を分別し、前記シングルセルゲノム断片配列を再構築した配列を統合して、メタゲノム断片配列を再構築した配列を分別した配列およびシングルセルゲノム断片配列を再構築した配列を統合した配列をそれぞれ生成するステップであって、前記メタゲノム断片配列を再構築した配列の分別の際に前記シングルセルゲノム断片配列を参照する、分別統合部と、
    C-3)前記メタゲノム断片配列を再構築した配列を分別した配列から、メタゲノム断片配列を参照して、分別断片配列を生成する生成部と、
    D)前記分別断片配列と前記シングルセルゲノム断片配列を再構築した配列を分別した配列とを組み合わせて、改良された再構築ゲノム配列を得る改良ゲノム配列生成部と
    を含む、請求項24~29のいずれか一項に記載のシステム。
  31. 前記システムは、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部と、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部と、
    C-1)A)およびB)について、前記断片配列よりも長い元のゲノム配列の再構築をそれぞれ行う再構築部と、
    C-2)前記シングルセルゲノム断片配列を再構築した配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成する統合部と、
    C-3)前記メタゲノム断片配列を再構築した配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列を再構築した配列を分別した配列を生成する生成部と、
    D)前記メタゲノム断片配列を再構築した配列を分別した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得る改良ゲノム配列生成部と
    を含む、請求項25~30のいずれか一項に記載のシステム。
  32. 前記システムは、
    A)前記生物単位集団に対して、メタゲノム解析を行い、メタゲノム断片配列を得るメタゲノム断片配列生成部と、
    B)前記生物単位集団に対して、シングルセルゲノム解析を行い、前記複数の単位生物単位由来のシングルセルゲノム断片配列を得るシングルセルゲノム断片配列生成部と、
    C-1)B)について、前記断片配列よりも長い元のゲノム配列の再構築を行う再構築部と、
    C-2)前記C-1)で得た配列を統合して、シングルセルゲノム断片配列を再構築した配列を統合した配列を生成する統合部と、
    C-3)前記メタゲノム断片配列から、前記シングルセルゲノム断片配列を再構築した配列および/または前記シングルセルゲノム断片配列を再構築した配列を統合した配列を参照して、メタゲノム断片配列の分別断片配列を生成するステップと、
    C-4)前記メタゲノム断片配列の分別断片配列について、リードよりも長い元のゲノム配列の再構築を行う生成部と、
    D)前記メタゲノム断片配列の分別断片配列を再構築した配列と前記シングルセルゲノム断片配列を再構築した配列を統合した配列とを結合して、改良された再構築ゲノム配列を得る改良ゲノム配列生成部と
    を含む、請求項25~31のいずれか一項に記載のシステム。
JP2020125388A 2020-07-22 2020-07-22 シングルセルゲノム配列とメタゲノム配列を統合する新規処理法 Pending JP2022021661A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020125388A JP2022021661A (ja) 2020-07-22 2020-07-22 シングルセルゲノム配列とメタゲノム配列を統合する新規処理法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020125388A JP2022021661A (ja) 2020-07-22 2020-07-22 シングルセルゲノム配列とメタゲノム配列を統合する新規処理法

Publications (1)

Publication Number Publication Date
JP2022021661A true JP2022021661A (ja) 2022-02-03

Family

ID=80220594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020125388A Pending JP2022021661A (ja) 2020-07-22 2020-07-22 シングルセルゲノム配列とメタゲノム配列を統合する新規処理法

Country Status (1)

Country Link
JP (1) JP2022021661A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825204A (zh) * 2023-08-30 2023-09-29 鲁东大学 一种基于深度学习的单细胞rna序列基因调控推断方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825204A (zh) * 2023-08-30 2023-09-29 鲁东大学 一种基于深度学习的单细胞rna序列基因调控推断方法
CN116825204B (zh) * 2023-08-30 2023-11-07 鲁东大学 一种基于深度学习的单细胞rna序列基因调控推断方法

Similar Documents

Publication Publication Date Title
De Coster et al. Towards population-scale long-read sequencing
Betancur-R et al. Phylogenomic incongruence, hypothesis testing, and taxonomic sampling: The monophyly of characiform fishes
Press et al. Hi-C deconvolution of a human gut microbiome yields high-quality draft genomes and reveals plasmid-genome interactions
US12087401B2 (en) Using cell-free DNA fragment size to detect tumor-associated variant
Plesivkova et al. A review of the potential of the MinION™ single‐molecule sequencing system for forensic applications
Kerkhof Is Oxford Nanopore sequencing ready for analyzing complex microbiomes?
US20150211054A1 (en) Haplotype resolved genome sequencing
Zhou et al. Recovering metagenome-assembled genomes from shotgun metagenomic sequencing data: methods, applications, challenges, and opportunities
Le Doujet et al. Closely-related Photobacterium strains comprise the majority of bacteria in the gut of migrating Atlantic cod (Gadus morhua)
Castañeda-Rico et al. Ancient DNA from museum specimens and next generation sequencing help resolve the controversial evolutionary history of the critically endangered Puebla deer mouse
JP6644672B2 (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
US20220165363A1 (en) De novo compartment deconvolution and weight estimation of tumor tissue samples using decoder
De Sousa et al. Microbial omics: applications in biotechnology
Kim et al. Unraveling metagenomics through long-read sequencing: A comprehensive review
Meng et al. A de novo approach to disentangle partner identity and function in holobiont systems
Appelt et al. Genetic diversity and spatial segregation of Francisella tularensis subspecies holarctica in Germany
Tekle et al. A practical implementation of large transcriptomic data analysis to resolve cryptic species diversity problems in microbial eukaryotes
Xia et al. Bioinformatic analysis of microbiome data
Prudnikow et al. A primer on pollen assignment by nanopore-based DNA sequencing
Pardo-De la Hoz et al. Ancient rapid radiation explains most conflicts among gene trees and well-supported phylogenomic trees of Nostocalean cyanobacteria
US20220270710A1 (en) Novel method for processing sequence information about single biological unit
JP2022021661A (ja) シングルセルゲノム配列とメタゲノム配列を統合する新規処理法
JP6744642B1 (ja) 単一生物単位の配列情報の新規処理法
Zhang et al. Reading the underlying information from massive metagenomic sequencing data
Valencia et al. Mock community taxonomic classification performance of publicly available shotgun metagenomics pipelines

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230522

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20230726

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20241001